论坛回顾|第一届南京大学湖畔大模型论坛

发布者:汤靖玲发布时间:2025-01-13浏览次数:72


  202514日,由南京大学智能科学与技术学院主办的南京大学湖畔大模型论坛在南京大学苏州校区南雍楼东105顺利举行,会议旨在探讨前沿大模型技术的应用与发展趋势,吸引了众多业内人士参与。


    

    此次会议邀请了多位知名专家与学者参会,包括:北京交通大学于剑教授,中国人民大学赵鑫教授,上海人工智能实验室青年科学家王文海,香港大学助理教授黄超,腾讯高级研究员李珂,北京大学助理教授袁粒,南开大学副教授王亚星,智谱AI研究员张昱轩,面壁智能研究员郭宗昊。



    

    会议由我院副院长单彩峰教授做开场致辞,并由我院助理教授傅朝友和计算机学院副教授霍静共同主持。单彩峰在开场致辞中强调,大模型技术为人工智能领域带来新一轮变革与机遇,此次研讨会的召开,不仅为业内人士搭建了沟通与合作的平台,也期待推动大模型行业的进一步发展。



    赵鑫在“基于大语言模型的慢思考方法探索”的报告中讨论了在当今环境下大模型的局限,展示了大模型快思考和慢思考的区别,并以树搜索方案、模型设计等实践案例展示了慢思考方法的探索路径,刨析了慢思考领域的关键问题,给大模型慢思考的研究提供了具有启发性的想法。


  

  王文海在“书生-万象多模态大模型的技术演进与应用探索”报告中讲解了多模态大模型的基本实现范式,展示了视觉-语言模型从无到有的开发之路,展示了一个优秀的多模态大模型如何不断提升和优化的过程。



  黄超在“当图数据遇见大语言模型”报告中指出,图数据能够更好地反映不同对象间的关系,他们提出了GraphGPT模型,赋予了大语言模型理解图数据的能力,还介绍了如何通过MoE的架构设计更加适配图数据的模型结构,并通过LightRAG技术的使用提升模型的性能,展示了GraphAgent的产品。



  李珂在“大模型执行工作流的新范式”报告中清晰地介绍了工作流的概念,展示了工作流接入大模型后存在的问题,通过FlowAgent模型探索了工作流的新型表达形式,并提出了新的PDL语言,兼备自然语言的灵活性和流程的严谨性,还通过自动化的评测框架中展示了模型优秀的性能,为大模型在实际应用中的实现提供了新的思路。



  袁粒在“基于扩散模型的视频生成能否实现视觉世界模型”的报告中分析了视觉生成与理解的差异,并探讨了将二者统一到同一框架下的实现路径。围绕这一目标,袁粒展示了Open-Sora Plan视频生成开源计划及对视觉世界模型的探索,深入剖析关键问题,为统一大模型的研究提供了明确方向与实践参考。



  王亚星在“文生图模型中文本和图像表征的思考”的报告中主要汇报了最近所作的三篇代表性论文,聚焦于扩散模型的加速与优化。第一篇论文提出了语义绑定优化,有效解决文本提示下的多对象属性混淆问题,显著提升生成质量。第二篇论文专注于负目标压制,通过优化文本嵌入,在无需模型微调的情况下,实现了精确的目标排除。第三篇论文通过对编码器特性的深度分析,提出编码器传播和并行处理机制,将推理速度提升了40%以上,同时保持高质量生成效果。这些研究不仅突破了扩散模型的效率瓶颈,也为实际应用提供了全新方向。




  张昱轩在“智谱开源大模型”的报告中介绍了智谱的开源成果与最新进展。报告涵盖视频生成模型CogVideo系列,重点展示了CogVideoX1.5在推理加速方面的突破,以及CogVideoX的低成本微调和定制化支持。图像生成方面,介绍了CogView系列的最新应用。多模态视觉理解模型方面,CogAgent具备GUI操作能力,CogVLM实现了从图像到视频理解的跨越式发展。最后,他还详细讲解了智谱的开源生态,包括流程规范和国际生态适配,为开源社区的发展提供了新方向。



  郭宗昊在“MiniCPM-V:迈向GPT-4V级端侧多模态大模型的报告中系统阐述了多模态大模型的发展历程及科学价值,重点介绍了MiniCPM-V这一高效端侧多模态大模型的关键技术与应用。MiniCPM-V在高效模型结构、高效训练方法和高质量数据构建方面取得突破:采用高分辨率视觉编码框架,并针对GPT-4V视觉编码的系统性缺陷进行深入分析;在多语言多模态泛化和多模态反馈数据优化中,克服了标签模糊和学习效率的挑战。模型实现了多图联合理解、多模态上下文学习和视频理解能力,在OpenCompass等评测中表现优异。他还介绍了MiniCPM-V的实际应用与社区关注,为未来多模态模型的发展提供了清晰方向。



此次研讨会为大模型领域的技术发展提供了新的方向,并进一步促进了业内人士的深度交流与合作。本次会议中参会人员积极交流,在思维碰撞中学习进步,最终会议在14日下午5点圆满完成。