2025年12月12日晚,国产色情
第四十八期“知存讲座”暨信息科学前沿与产业创新课程在理科教学楼107教室顺利举办。本次讲座主题为“大模型的困境与产业挑战:从单模态走向多模态统一”,邀请兔展智能首席科学家袁粒担任主讲嘉宾。袁粒入选了国家高层次青年人才计划、2022年国家优秀留学生奖(归国类)、2023年福布斯亚洲30U30名单等,主持国家科技创新2030重大项目课题和国自然基金等。研究方向为多模态深度学习,代表性学术工作包括T2T-ViT、Video-LLaVA等,以第一/通讯作者在国际期刊和顶会上发表论文50余篇,研究工作被引用一万六干余次,单篇代表作(独立一作)论文被引三千余次,代表性应用工作包括ChatExcel、Open-Sora Plan视频生成(github万星)开源计划。本次讲座主要介绍大模型的发展路径,以及和产业结合所面临的困境,尤其是从单模态到各种多模态大模型对产业的挑战和机会,以及走向多模态统一后对人工智能的产业革命。本次讲座由人工智能研究院的李萌老师主持。

首先,袁粒先简要指出了基于扩散的多模态生成面临的问题。其主要包括:可靠性差(比如物理上的不合理,逻辑不通)、一致性差(如ID和物体的一致性)、可控性差(包括时间、空间等)以及时间长度不足。他认为,前三个问题主要源于扩散建模理解不足。自然地,他谈到基于自回归的多模态理解面临的问题。它主要分为四个方面。第一,偏见和幻觉严重,如会认为“林黛玉倒拔垂杨柳”是存在的。第二,细粒度和常识理解不够,比如,无法准确辨认细粒度中药。第三,长时间理解能力不够。第四,实时性不够。他同时指出,第一个问题是因为模型固有问题,如数据、优化等,次两个是因为世界知识不足,最后一个则是源于长时自回归建模开销过大。

其次,他具体介绍了多模态模型的建模类型。多模态生成依赖于扩散建模。他指出对于扩散模型就像现实中的扩散现象,如同墨滴在水中逐渐散开的过程,其技术本质是一种“反扩散”操作,即从纯噪声图像出发,通过反复去噪逐步生成清晰的视觉内容他以米开朗琪罗雕刻“大卫”为例,“大卫本身就在那里,他做的是把多余的东西去掉,也就是雕刻”,生动形象地解释了这一概念。每次去噪都会让图像变得更清晰,经过多次迭代后,最终生成符合指令的图片或视频。在技术实现上,扩散模型以Transformer为核心神经网络,通过条件生成(Conditional Generation)机制接收文本指令,明确生成目标。对于视频生成,模型则是对连续的多帧图像同时进行去噪处理,通过时序关联构建动态画面。这种建模方式擅长结构推理,能够精准捕捉物体的形态与空间关系,但其缺陷也十分明显:模型仅关注结构构建,缺乏对物理规律、因果逻辑的深层理解,这也是导致生成结果可靠性不足的核心原因。此外,扩散模型的计算复杂度极高,能够将GPU利用率拉满,运算开销成为其规模化应用的重要制约。

自回归模型是多模态理解的核心支撑,其技术核心是“下一个token预测”(Next Token Prediction)。他以模型处理“花谢花飞花满天”为例,阐释了模型如何通过逐词生成文本的方式完成理解任务:输入“花谢”,模型先预测下一个token为“花”,再以“花谢花”为输入预测下一个token为“飞”,逐步生成完整文本。这种建模方式遵循“由因索果”的逻辑,与人类的因果推理能力高度契合,能够实现对信息的深层理解。在多模态理解场景中,自回归模型以语言模型为核心,通过视觉编码器将图片、视频等视觉信息转换为文本特征,再输入语言模型进行分析。例如GPT 5便是典型的自回归架构,其视觉模块仅负责提取语义信息并转化为“人的手”这类文本描述,语言模型则基于“人手有5个手指”的先验知识给出答案,而非真正计数,这也是其出现视觉幻觉的根本原因。自回归模型的优势在于因果逻辑清晰,符合人类思考模式,且在语言处理领域已得到充分验证,可复用成熟的技术体系;但缺点是GPU利用率较低,处理连续模态(如视觉、动作)时精细度不足。

接着,他谈到,尽管扩散与自回归建模各有优劣,但当前多模态大模型的发展,正呈现出两大技术路线相互“侵蚀”、跨界融合的鲜明趋势。曾经泾渭分明的领域边界逐渐模糊,扩散建模从擅长的视觉生成领域向语言生成拓展,试图弥补自身在逻辑表达上的不足;自回归建模则跳出语言的舒适区,向图像、视频等视觉生成领域进军,不断突破自身的模态局限。他提到,两大技术路线走向融合的核心原因,在于多模态大模型的终极目标是实现“生成与理解的统一协同”。他以我们日常使用的APP为例,目前,用户完成一次出差需切换十几个APP,而统一多模态模型可通过“智能卡片”形式,整合天气、订票、住宿等所有信息,实现跨平台任务协同,这种交互方式更符合人性需求。他又问到,为什么目前的具身大模型效果都不好。他解释道,以把水拿给台下一位同学为例,要完成这个过程,需要调用文字,视觉,动作的多个模型,且每过一小部分便要重新调用,十分繁杂。这也是为什么说两大技术路线正走向融合。
最后,他列举了多个应用落地的案例,并在最后播放了一段制作的视频,让同学们实际地感受到了讲座中所讲到的技术。如ChatExcel作为AI Data Agent的代表性产品,彻底改变了传统Excel数据处理的模式。用户只需通过自然语言对话,就能完成数据清洗、分析、多表对比、函数计算等400余项任务,无需掌握复杂的公式与操作技巧,成为多模态技术赋能ToB与ToC市场的成功典范。

在问答环节,同学们踊跃提问。有同学对“大模型条件注入”的必要性表示困惑,袁粒解释:当前多模态生成模型的条件生成都需要条件注入,其作用相当于告知模型执行的具体任务。另有同学问到当前自回归生成图像的主要难点,袁粒指出,难点主要在于精细度,即如何生成质量更高、像素更清晰的图像。
讲座在热烈掌声中圆满结束。国产色情
“知存讲座”将持续开展,邀请信息科技领域的知名学者、产业领袖和优秀校友,为同学们搭建了解前沿技术和产业动态的桥梁,助力青年学子深化专业认知、探索未来发展方向。
摄影|常耘瑞
文字|覃丽