我院科研成果新动态(二)

发布者:李茜发布时间:2024-05-15浏览次数:253

数据集蒸馏方法

数据集蒸馏是将知识从大型真实数据集提炼到较小的合成数据集的过程,已成为高效深度学习训练的关键技术。它也被广泛应用于神经架构搜索、持续学习和隐私保护等领域。

南京大学智能科学与技术学院高阳老师团队提出了一种基于样本间和特征间关系的数据集蒸馏方法。基于分布匹配的数据集蒸馏方法存在两个局限性:(1)合成数据集中同一类内的特征分布分散,缺少类别区分度;(2)仅关注平均特征一致性,缺乏精度和全面性。针对上述局限性,提出两个即插即用约束损失:(1)类中心化约束,用以促进特定类样本的聚类,增强类别区分度。(2)局部协方差矩阵匹配约束,用以在样本量较小的情况下,也可以通过局部特征协方差矩阵在真实数据集和合成数据集之间实现更精确的特征分布匹配。相关工作发表在计算机视觉顶级会议CVPR 2024

所提方法在四个数据集上蒸馏合成数据的可视化示例 

论文链接:https://arxiv.org/abs/2404.00563

  

布料材质的重建与渲染 

布料渲染广泛应用于可视化、虚拟现实、数字人以及游戏开发等多个领域,但由艺术家创造高质量的布料资产需要大量的手工工作,相比之下,从现实世界中捕获织物数据更为便捷。针对这一课题,南京大学智能科学与技术学院王贝贝老师团队Adobe合作提出从一组拍摄的反射-透射图像对中重建布料数据,实现了对布料透射性质的捕获。为了真实地复现布料的透射性质,该方法首先针对现有布料材质模型的不足之处,提出了一种基于SpongeCake的双层机织布模型,利用方位角不变相位函数来近似多次散射,相比先前的模型更好地解释了机织布的透射和多次散射现象。基于所提出的布料材质模型,该方法利用神经网络预测和可微渲染,从两张输入图像中恢复了织物参数,重建参数的渲染图能够同时与真实布料的反射和透射特性匹配。该工作已被SIGGRAPH 2024接收发表。

重建布料的渲染图

项目链接:https://wangningbei.github.io/2024/FabricBTDF.html

  

单个物体的几何与材质重建

物体的几何与材质重建是目前图形与视觉领域的研究热点之一,在影视制作以及游戏开发等多个领域中展现了广泛的应用前景。针对这一课题,山东大学王璐老师与南京大学智能科学与技术学院王贝贝老师团队提出了TensoSDF,实现了从物体的多视角图像中重建出物体的几何与材质信息。该方法首先提出了一种粗糙度感知的辐射场与反射场结合的学习策略,用于鲁棒地处理任意反射类型的物体。同时该方法通过利用张量网格编码有向距离场(SDF)来表示物体几何,使得重建的物体几何具有更丰富的细节,并加快了收敛速度。该方法相较于先前的单个物体几何与材质重建的方法,能够更为鲁棒地处理各种类型反射的物体,同时具有更高的几何细节与更准确的材质结果。相关工作被SIGGRAPH 2024接收,并作为期刊论文(ACM Transactions on Graphics)接收发表。

TensorSDF网络结构示意图

TensorSDF结果展示

项目链接:https://wangningbei.github.io/2024/TensoSDF.html


快速高真实感的多样化三维内容生成

三维内容生成是计算机视觉领域的热点课题,在CAD建模、影视制作、元宇宙等多个领域展现了巨大的应用潜力。针对这一课题,南京大学智能科学与技术学院姚遥老师团队提出了Direct2.5方法,实现了从文本快速且多样化的三维内容生成。该方法提出了一种多视角2.5D扩散模型用于表达复杂的三维结构化信息,同时拥有强大的泛化生成能力。而后,提出了一种新颖的基于可微光栅化的快速网格化方法,将生成的多视角2.5D图片融合为完整的三维模型。该方法摆脱了先前工作对于缓慢的SDS优化的依赖,突破性地将生成时间从先前所需的30分钟减少到仅需10秒,并实现多样化高真实内容生成。相关工作已被2024年国际模式识别与计算机视觉大会接受(CVPR 2024)。

Direct2.5三维几何与纹理贴图生成流程图 

论文链接:https://arxiv.org/abs/2311.15980

 

动态场景三维重建及实时四维渲染

动态三维重建及渲染是目前三维视觉领域的研究热点,在虚拟现实(VR)、增强现实(AR)、影视制作以及游戏开发等多个领域展现出广泛的应用前景。针对这一课题,南京大学智能科学与技术学院姚遥老师团队提出了Gaussian-Flow,实现了从采集的视频数据中还原出真实世界的结构以及运动变化。该方法提出了一种结合了时域和频域的三维高斯粒子运动模型,用于对复杂动态场景的精确建模。该方法的一个显著优势是其超低的计算需求,使得单个粒子的运动计算可以在极短的时间内完成,从而达到快速且高效的实时四维渲染和重建。该方法相较于先前基于神经辐射场的体渲染方法,突破性的将四维渲染的时间从2秒每帧大幅缩短至0.008秒,同时保持了重建结果的高质量。相关工作已被2024年国际模式识别与计算机视觉大会(CVPR 2024) 接受发表,并被遴选为大会亮点工作(Highlight,接受率2.8%)。

Gaussian-Flow动态三维场景可微渲染优化示意图 

论文链接:https://arxiv.org/abs/2312.03431