我院科研成果新动态（十二）视觉语义建图

发布者：汤靖玲发布时间：2025-07-23浏览次数：10

近日，南京大学智能科学与技术学院高阳教授课题组史桀绮助理教授联合香港科技大学、长安大学等多家单位，提出了一种具备强泛化能力的语义场景图配准方法，可广泛应用于多智能体SLAM（Simultaneous Localization and Mapping）任务。该方法旨在解决不同主体或多次任务执行中地图之间的高效对齐问题，突破了传统语义SLAM系统在真实场景下对显式语义描述子依赖强、难以泛化的关键瓶颈。

图一：团队提出方法的流程图与效果示意

研究团队设计了一种新型场景图神经网络SG-Reg，该网络融合编码三种语义图节点模态信息：开放集语义特征、具空间感知的局部拓扑结构和形状特征。通过粗粒度节点表示与密集点云特征的协同建模，SG-Reg能够有效描述高复杂度的室内场景，并支持从粗到细的配准策略，同时显著降低多机系统间的数据通信带宽。为减少对高质量语义标注数据的依赖，研究团队结合视觉基础大模型与自研的语义建图模块FM-Fusion，自动生成语义场景图，实现了无需人工语义标注的全自监督训练流程。这一自监督策略不仅降低了算法迁移成本，也显著提升了系统在真实环境下的泛化能力。

图2：提出方法的实际运行效果图

实验结果显示，该方法在多种真实与模拟场景中均表现出良好的适应性和推广性，为下一代多智能体协同感知与空间理解提供了有效技术支撑。研究团队也指出，当前方法在处理大尺度建筑环境与高噪声语义建图方面仍有提升空间，未来将进一步拓展模型的尺度适应能力与建图鲁棒性，推动具身智能系统在复杂环境中的可靠部署与应用。该方法发表于IEEE T-RO期刊。

此外，面向自动驾驶场景，为了突破车载传感器固有的限制，在远距离或遮挡场景中完成高精地图的重建，高阳教授、史桀绮助理教授与香港科技大学团队合作提出了一个标准清晰度（SD）地图增强的场景感知和拓扑推理（SEPT）框架，探索如何将SD地图作为先验知识有效地融入现有的感知和推理流程中。

研究团队设计了一种新颖的混合特征融合策略，该策略结合了SD地图和鸟瞰图（BEV）特征，同时考虑了栅格化和向量化两种地图表示方式，目的是减轻SD地图与BEV特征空间之间可能存在的错位问题；研究团队进一步利用SD地图的特性，设计了一个交叉口感知关键点检测任务，进一步辅助提升了整体场景理解性能。

在大规模OpenLane-V2数据集上的实验结果表明，通过有效整合SD地图先验知识，该框架显著提升了场景感知和拓扑推理的性能，并可作为一种通用的融合方法，用于改进现有方法的精度。该方法发表于IEEE RA-L期刊。