近日,南京大学智能科学与技术学院在高维复杂系统决策领域取得一项重要研究进展。学院高阳教授课题组杨天培助理教授,针对多人一般和博弈中“纳什均衡”(Nash Equilibrium)计算的效率瓶颈问题,提出了一种名为“纳什优势损失”(Nash Advantage Loss, NAL)的新型代理损失函数。该方法通过显著降低随机优化过程中的方差,实现了更快、更稳定的纳什均衡求解,为解决大规模多智能体交互问题提供了全新的高效计算范式。
纳什均衡是博弈论的基石,描述了在一个策略环境中,没有任何参与者能通过单方面改变策略而获得更好结果的稳定状态。其精确计算在人工智能、经济学、计算广告和多智能体强化学习等领域至关重要。然而,随着博弈参与者和可用策略数量的增加,存储和处理整个博弈收益矩阵的计算复杂度呈指数级增长,即所谓的“维度灾难”。这使得传统计算方法在面对现实世界中的大规模问题时变得不可行。
为了应对这一挑战,学术界开始借助机器学习中的随机优化技术,通过对博弈进行采样来近似求解纳什均衡。尽管这一方向前景广阔,但现有方法普遍受困于“高方差”问题。在采样过程中,对损失函数的估计值会产生巨大波动,如同在浓雾中寻找方向,导致算法收敛速度缓慢,训练过程极不稳定,甚至无法收敛到有效的均衡点。
为攻克此核心难题,课题组另辟蹊径,从随机优化的根本需求出发,创新性地设计了NAL损失函数。其核心洞察在于:常用的随机优化算法(如Adam、SGD)更新参数时,仅需要对梯度进行无偏估计,而并非损失函数本身。基于此,NAL被巧妙地构建为一个代理损失函数,它在理论上保证了梯度的无偏性,同时成功规避了现有方法中因两个独立随机变量的内积运算而导致的方差平方级增长。这一设计从根本上抑制了方差的产生,使得算法的“视野”变得更加清晰和稳定。

图一:实验结果对比图
为全面验证NAL的性能,研究团队在OpenSpiel和GAMUT等多个国际公认的博弈论算法测试平台上进行了广泛而深入的实验。结果表明,在 Kuhn Poker、Liar's Dice 等多种具有代表性的复杂博弈场景下,最小化NAL的算法在收敛速度、稳定性和最终解的质量上,均全面且显著地超越了现有的所有基线算法。特别地,在一些大规模游戏中,NAL将估计方差降低了高达六个数量级,极大地提升了学习效率。
该研究成果不仅为高效求解大规模博弈问题提供了一个强大的新工具,也为优化理论与机器学习的深度交叉融合开辟了新的研究方向。它有望在大规模经济系统建模、多智能体协同与对抗、以及大型语言模型的策略对齐等前沿应用中发挥重要作用。
相关研究成果以 “Reducing Variance of Stochastic Optimization for Approximating Nash Equilibria in Normal-Form Games” 为题,已被人工智能领域的国际顶级学术会议——第42届国际机器学习大会(The 42nd International Conference on Machine Learning, ICML 2025)正式接收为Spotlight Poster(前2.6%)。这一成果充分彰显了南京大学智能科学与技术学院在人工智能基础理论与前沿算法研究方面的雄厚实力和创新水平。
