我院科研成果新动态(十四)强化学习解决机器人移动操作任务

发布者:汤靖玲发布时间:2025-09-09浏览次数:10


近日,南京大学智能科学与技术学院高阳教授课题组杨天培助理教授针对强化学习样本效率低下问题,提出了一种因果信息优先(Causal Information Prioritization, CIP)的高效强化学习算法,该方法通过显式建模状态、动作与奖励之间的因果关系,引导智能体在探索过程中聚焦于对任务目标具有因果影响的关键信息,从而显著提升学习效率与策略稳定性。


图一:因果信息优先强化学习框架


CIP的核心思想包括两方面:一是利用反事实数据增强技术,通过对无关状态特征进行交换生成合成样本,在不增加环境交互的前提下强化对关键状态-奖励关系的学习;二是引入因果感知的赋能机制,通过对动作的因果重加权和互信息最大化,优先鼓励那些对奖励产生实质性因果影响的行为,提升探索的针对性和可控性。


图二:部分实验任务场景


该方法的优势在于能够有效克服传统强化学习方法中因盲目探索和虚假关联导致的样本浪费问题,尤其在稀疏奖励、高维状态和像素观测等复杂场景中表现出色。实验表明,CIP在包括运动控制、机械臂操作、Adroit手部操控等39项任务中均取得最优或接近最优的性能,展现出较强的泛化能力和鲁棒性。



图三:机械臂操控任务实验对比结果曲线图

表一:Locomotion类任务对比实验结果


此外,CIP框架具备与对象中心表示、三维感知等前沿技术结合的潜力,为未来在机器人操作、多智能体协同等现实场景中的推广应用提供了重要基础。该方法发表于ICLR 2025会议。


项目主页:https://sites.google.com/view/rl-cip/


Github链接:https://github.com/HYeCao/CIP