3月22日,调教视频
信班学生核心委员会(简称信芯会)举办了第1期“信·启”学术讲座《大模型的上半场与下半场:Efficient AI的研究视角》。本次讲座由仲书璋学长主讲,深入探讨了大模型的发展现状与未来趋势。

徐培文同学主持活动
01 关于主讲人

仲书璋
调教视频
集成电路调教视频
、人工智能研究院23级博士生
致力于面向大模型系统的跨层次协同优化研究
02 讲座内容
1 大模型的上半场:解决计算效率瓶颈
讲座上半场聚焦于解决大模型推理本身的计算效率瓶颈,核心挑战是冯诺依曼架构下的存储带宽瓶颈。由于大模型的自回归生成特性,每次计算仅产出一个token却需加载海量参数,导致计算密度低下。针对此问题,研究从多个维度展开:
·算法层面:提出了并行解码方案,通过一次迭代预测多个未来token并进行验证,显著减少生成循环次数。
·专家混合模型优化:优化专家加载的延迟,提出了包括自适应缓存与预取、以及CPU/GPU异构计算调度在内的策略。
·新型硬件架构探索:探索了面向3D近存计算等新型硬件架构的并行调度框架,以适应其分布式、无共享存储的特点。

同学们认真聆听讲解
2 大模型的下半场:构建智能体系统
下半场将视角转向了Agent系统的构建与优化。仲书璋指出,当前主流Agent框架包含推理、行动与记忆三大核心要素,而研究重点已从单一组件优化转向系统性能提升。
在推理优化方面,针对传统思维树方法因等待外部奖励评分而导致的串行阻塞问题,提出了预测性探索框架。该框架通过轻量预测提前探索有潜力的思维分支,并对低价值路径进行早期停止,从而动态分配计算资源,提升整体推理效率。
在行动优化方面,以深度研究型Agent为例,其痛点在于每一步行动前的推理环节耗时过长。研究通过实验发现,不同类型的行动存在异构性:搜索类行动不确定性高,依赖深度推理;而访问类行动则更依赖模型参数知识。基于此,提出了差异化的预测策略,为搜索行动配置“小模型+完整推理”,为访问行动配置“大模型+跳过推理”,从而在保证结果质量的前提下显著降低了行动执行的延迟。
03 Q&A环节

仲书璋学长回答听众提问
在Q&A阶段,线下的同学们对技术细节如互联密度和计算能力提升提出了一些疑问和自己的看法,仲书璋学长则从通信开销和带宽层面对memory的架构进行了分析回答。
04 合影留念

现场合影
讲座结束后,参会人员合影留念,记录下这难忘的时刻。
本次讲座勾勒出一条从底层模型推理优化,到上层智能体系统构建的清晰技术演进路径:上半场致力于攻克硬件带宽限制下的计算效率难题,下半场则致力于整合推理、行动与记忆能力,构建能够自主完成复杂任务的智能系统。相信这次的讲座内容能够对同学们的科研工作有所启发!