
薛浏蒙,南京大学智能科学与技术学院准聘助理教授,CCF语音对话及听觉专业委员会执行委员。主要研究方向为音频、语音与语言信号处理;语音、音乐与音频理解与生成;情感与表现力语音理解和生成等。博士毕业于西北工业大学,博士期间曾先后在京东AI Lab、腾讯AI Lab、微软开展研究工作,相关成果在产业场景中得到应用,申请和授权专利2项。此后,先后在香港中文大学(深圳)和香港科技大学从事博士后研究。
作为联合发起人推出综合性音频生成与可视化平台Amphion,集成语音合成、歌声转换、文本生成音效与可视化分析等能力,多次登上 GitHub Trending,获得国内外社区和媒体广泛关注。牵头主导开发统一音频理解与生成指令数据集Audio-FLAN,一度位列Hugging Face Dataset Trending 第二,下载量超过十万余次,下载单位包括Google、Meta、Nvidia、字节跳动、腾讯、阿里巴巴、剑桥、牛津、清华、ETH Zurich AI Center、LAION等国内外top科技公司和知名高校研究组。参与Llasa、Spark-TTS、YuE、AudioX 等语音、音乐与音频生成大模型研究,积极推动生成式音频技术的开源与应用。相关成果发表于ACL、ICLR、ICASSP、INTERSPEECH、IEEE/ACM TASLP、Neural Networks等高水平会议与期刊,相关工作受到Apple、Amazon等国际知名科技公司研究团队的关注与引用。
参与组织ISCSLP 2026和IEEE SLT 2024国际会议;MLC-SLM@INTERSPEECH 2026、SmartGlasses@SLT2026、LLM4MA Workshop@ISMIR 2025、CoVoC@ISCSLP 2024 等学术挑战赛,长期担任ACL、ACM MM、ICASSP、INTERSPEECH、IEEE/ACM TASLP、Speech Processing Letters、Speech Communication 等国际高水平会议和期刊审稿人。与国内外知名企业及科研机构保持密切合作与交流,积极推荐学生赴业界头部企业实习及参与海内外实验室科研交流。

薛浏蒙,南京大学智能科学与技术学院准聘助理教授,CCF语音对话及听觉专业委员会执行委员。主要研究方向为音频、语音与语言信号处理;语音、音乐与音频理解与生成;情感与表现力语音理解和生成等。博士毕业于西北工业大学,博士期间曾先后在京东AI Lab、腾讯AI Lab、微软开展研究工作,相关成果在产业场景中得到应用,申请和授权专利2项。此后,先后在香港中文大学(深圳)和香港科技大学从事博士后研究。
作为联合发起人推出综合性音频生成与可视化平台Amphion,集成语音合成、歌声转换、文本生成音效与可视化分析等能力,多次登上 GitHub Trending,获得国内外社区和媒体广泛关注。牵头主导开发统一音频理解与生成指令数据集Audio-FLAN,一度位列Hugging Face Dataset Trending 第二,下载量超过十万余次,下载单位包括Google、Meta、Nvidia、字节跳动、腾讯、阿里巴巴、剑桥、牛津、清华、ETH Zurich AI Center、LAION等国内外top科技公司和知名高校研究组。参与Llasa、Spark-TTS、YuE、AudioX 等语音、音乐与音频生成大模型研究,积极推动生成式音频技术的开源与应用。相关成果发表于ACL、ICLR、ICASSP、INTERSPEECH、IEEE/ACM TASLP、Neural Networks等高水平会议与期刊,相关工作受到Apple、Amazon等国际知名科技公司研究团队的关注与引用。
参与组织ISCSLP 2026和IEEE SLT 2024国际会议;MLC-SLM@INTERSPEECH 2026、SmartGlasses@SLT2026、LLM4MA Workshop@ISMIR 2025、CoVoC@ISCSLP 2024 等学术挑战赛,长期担任ACL、ACM MM、ICASSP、INTERSPEECH、IEEE/ACM TASLP、Speech Processing Letters、Speech Communication 等国际高水平会议和期刊审稿人。与国内外知名企业及科研机构保持密切合作与交流,积极推荐学生赴业界头部企业实习及参与海内外实验室科研交流。