讲座回顾|强化学习及其具身智能应用（二）

发布者：汤靖玲发布时间：2026-05-11浏览次数：10

4月30日，我院准聘副教授杨天培特邀天津大学智能与计算学部副研究员汤宏垚、山西大学校聘副教授马亿，于南雍楼东125教室作专题学术报告。本次报告分享聚焦持续强化学习、具身基础模型与物理智能统一进化等前沿方向。杨天培主持了本场讲座。

汤宏垚以《持续变化下的强化学习动态研究》为题，分享了最新研究成果。他指出，现有人工智能方法已能在明确且平稳的任务中取得良好效果，但在数据分布、环境或任务目标持续变化的场景下，如何保持有效而稳定的学习，仍是人工智能迈向持续演进的重要挑战。他围绕持续变化下的强化学习动态展开介绍，并重点讲解了策略网络在低维参数空间中的演变现象、隐空间策略调制方法、持续强化学习中的网络搅动链式效应与规约方法，以及非平稳条件下强化学习可塑性流失机理等内容，为理解深度强化学习过程与提升智能体持续学习能力提供了新的研究视角。

马亿聚焦《基于具身基础模型的物理智能统一进化框架》这一课题，进行了深入报告。他介绍了团队提出的统一具身基础模型Embodied-R1.5。该模型整合具身认知、空间推理、任务规划、具身纠错与精确定位等核心能力，在多项具身VLM基准测试和VLA评测套件上取得领先性能。报告中，马亿重点阐释了模型在数据构建、强化微调、多任务强化学习训练策略以及Planner-Grounder-Corrector闭环自主框架等方面的创新设计，并展示了其在跨机器人本体零样本长程自主操作、工具功能理解和复杂多步推理等真实世界实验中的应用潜力。

与会师生围绕持续强化学习的稳定性、具身基础模型的训练范式、跨本体泛化能力以及真实机器人任务落地等方向踊跃提问。两位专家结合自身研究成果与应用经验进行了深入解答，现场讨论充分而富有启发。