方班前沿秀第五十期:中国科学院院士清华大学教授胡事民作”从大模型的全栈技术体系看能力边界和应用前景”的主题报告

来源:发布日期:2026-06-24 14:22浏览量:18

2026年06月18日,广州大学网络空间安全学院“方滨兴院士班”(方班)2025级的学子们齐聚广州大学黄埔校区B1栋109报告厅,迎来了本学期的第五十期方班前沿秀。本次报告邀请到了中国科学院院士胡事民院士、清华大学计算机科学与技术系教授作为主讲嘉宾,以“从大模型的全栈技术体系看能力边界和应用前景”为主题,为全院师生带来一场兼具技术深度与产业视野的学术讲座,全方位拆解大模型从底层框架到产业落地的完整技术链路。

一、发展全景:大模型迈入系统化竞争时代

     讲座伊始,胡院士梳理了大模型的发展脉络。当前大模型正迎来参数规模、数据体量与算力基础的三重扩张:头部模型参数量已突破 1.6T,训练数据量达数十 TB,算力集群规模从数万张卡向十几万张卡升级,单集群训练大模型的周期已压缩至数天级别。

伴随技术演进,行业竞争逻辑正在发生根本转变:

  • 竞争维度升级:从单点模型能力竞争,转向算力调度、网络互联、软硬件协同的系统化竞争。
  • 训练路线分化:美国依托高端算力优势走 Transformer 全参数激活路线,结构简单、生态成熟;我国结合国产算力现状,侧重 MoE 稀疏专家模型路线,以更低成本实现大模型容量提升。
  • 推理成为核心战场:推理是大模型落地的长期成本中心,架构正从通用深度学习框架向专用推理架构迁移,软硬件协同优化、服务化部署成为主流方向。

    胡院士同时指出,在芯片制裁背景下,我国在高端芯片互联、系统规模化能力与软件生态成熟度上仍与国际顶尖水平存在差距,自主可控的大模型技术体系建设迫在眉睫。

二、自主底座:计图框架突破国产适配瓶颈

    作为国产深度学习框架的代表,清华大学研发的计图(Jittor) 是本次讲座的核心技术亮点。胡院士介绍,计图框架 2020 年开源,核心围绕 “性能领先 + 国产适配” 两大优势打造,核心创新体现在两大技术理念:

1. 研算融合:元算子重构适配逻辑

    计图团队将深度学习上千种算子归纳为 18 个基础元算子,所有复杂算子均可通过元算子复合生成。这一设计将芯片适配的工作量从 “移植 700 + 算子” 压缩为 “适配 18 个元算子”,原本需要百人团队一年完成的芯片适配工作,仅需数周即可完成,大幅降低了国产芯片的 AI 生态落地门槛。

2. 统一计算图:动静兼顾的性能优化

    针对静态图灵活性不足、动态图性能有限的痛点,计图采用 “动态图拆分静态子图” 的思路,在保留研发灵活性的同时,在元算子层级做深度优化。实测数据显示,计图在传统视觉任务上性能领先 40% 以上,对抗生成网络场景速度可提升一倍,AlphaFold3 推理性能达到谷歌 JAX 框架的 1.5-1.7 倍。

    基于核心技术优势,计图已完成龙芯、鲲鹏、海光、天梭、摩尔线程、华为昇腾等全路线国产芯片适配,并推出 PyTorch 一键迁移插件。在华为昇腾 910B 芯片上,团队通过算子融合发射、权重融合计算图优化、服务端解码优化三项技术创新,首次实现单台 8 卡机器运行 6700 亿参数大模型,推理性能最高提升 470%。


三、客观标尺:构建科学的大模型评测体系

    “每个大模型公司都能找到对自己有利的榜单自称第一,但行业需要第三方的客观评价。” 胡院士团队联合斯坦福大学、CMU、腾讯等机构,打造了多维度的大模型评测基准,精准刻画大模型的能力边界:

1. Avenger:多学科推理能力基准

    依托清华大学全学科优势,整合教学大纲、考题、答疑坊等优质数据,构建覆盖数理化生、计算机等全学科的高难度评测集。评测结果显示,GPT-5 在清华难度考题中得分 76.9 分;开源模型赛道中国团队全面领跑,DeepSeek 开源模型与闭源头部模型仅差 1 分。

2. RBench:视觉几何推理基准

    针对大模型几何推理能力短板,团队推出要求 “动态绘图思考” 的视觉推理评测,覆盖几何、光路、电路、路径规划等场景。评测发现三大核心结论:

  • 大模型几何推理能力远落后于人类,顶尖模型得分不足人类专家的三分之一;
  • 单纯扩大参数量无法提升几何推理能力,scaling law 在此场景失效;
  • 大模型普遍 “偷懒”,倾向于用坐标系将几何题转化为代数题求解,缺乏真正的空间想象能力。

    胡院士特别强调,数据集是大模型能力的核心资产。高质量监督数据的稀缺,是导致模型幻觉、推理能力不足的关键原因。团队开源的 1500 万量级多模态数据集及配套数据清洗管线,已成为行业提升多模态模型性能的重要工具。

四、产业重塑:大模型拓展智能边界

    讲座后半段,胡院士从三大领域阐释了大模型对产业与科研的深层变革:

1. 软件开发:从 “写代码” 到 “定义需求”

    AI 编程工具正推动软件开发范式重构:从 “人写代码、AI 补全” 迈向 “人提目标、AI 完成全流程开发”。单纯的代码编写能力将快速贬值,未来开发者的核心价值将向需求理解、架构设计、安全治理、系统思维转移,懂业务、懂架构的复合型人才将成为行业刚需。

2. 数字内容:生产门槛全面降低

    大模型已成为数字内容产业的基础设施,AIGC 正从艺术实验走向工程化落地。胡院士团队在 3D 内容生成、骨骼动画自动绑定等方向取得前沿突破:单张图片即可生成像素级对齐的三维模型,大模型可自动完成角色骨骼绑定与流畅动画生成,大幅降低内容创作的技术门槛。

3. 数学研究:AI 辅助定理证明

    针对数学定理证明门槛高、周期长的痛点,团队提出基于有向无环图的可编辑证明草图方法,支持局部修改、高效复用。在高难度证明数据集上,该方法准确率领先第二名十几个百分点,同时 Token 消耗仅为传统方法的三分之一,为 AI 辅助前沿数学研究提供了新路径。

报告结束后,胡院士与方班同学们进行了深入的交流讨论,解答了同学们提出的疑问。本次方班前沿秀讲座,让全院师生对大模型全栈技术体系有了系统、深入的认知,也为同学们的学术研究与职业规划提供了清晰的方向指引。网络空间安全学院将持续推出前沿学术活动,助力师生把握技术趋势、拓展学术视野。

第五十期方班前沿秀报告圆满落幕。