薛浏蒙
办公地点:南雍楼西区337
个人简历



薛浏蒙,南京大学智能科学与技术学院准聘助理教授,CCF语音对话及听觉专业委员会执行委员。主要研究方向为音频、语音与语言信号处理;语音、音乐与音频理解与生成;情感与表现力语音理解和生成等。博士毕业于西北工业大学,博士期间曾先后在京东AI Lab、腾讯AI Lab、微软开展研究工作,相关成果在产业场景中得到应用,申请和授权专利2项。此后,先后在香港中文大学(深圳)和香港科技大学从事博士后研究。

作为联合发起人推出综合性音频生成与可视化平台Amphion,集成语音合成、歌声转换、文本生成音效与可视化分析等能力,多次登上 GitHub Trending,获得国内外社区和媒体广泛关注。牵头主导开发统一音频理解与生成指令数据集Audio-FLAN,一度位列Hugging Face Dataset Trending 第二,下载量超过十万余次,下载单位包括GoogleMetaNvidia、字节跳动、腾讯、阿里巴巴、剑桥、牛津、清华、ETH  Zurich AI CenterLAION等国内外top科技公司和知名高校研究组。参与LlasaSpark-TTSYuEAudioX 等语音、音乐与音频生成大模型研究,积极推动生成式音频技术的开源与应用。相关成果发表于ACLICLRICASSPINTERSPEECHIEEE/ACM TASLPNeural Networks等高水平会议与期刊,相关工作受到AppleAmazon等国际知名科技公司研究团队的关注与引用。

参与组织ISCSLP 2026IEEE SLT 2024国际会议;MLC-SLM@INTERSPEECH 2026SmartGlasses@SLT2026LLM4MA Workshop@ISMIR 2025CoVoC@ISCSLP 2024 等学术挑战赛,长期担任ACLACM MMICASSPINTERSPEECHIEEE/ACM TASLPSpeech Processing LettersSpeech Communication 等国际高水平会议和期刊审稿人。与国内外知名企业及科研机构保持密切合作与交流,积极推荐学生赴业界头部企业实习及参与海内外实验室科研交流。

 

个人主页:https://lmxue.github.io/


薛浏蒙
Office Location:南雍楼西区337
Basic Information



薛浏蒙,南京大学智能科学与技术学院准聘助理教授,CCF语音对话及听觉专业委员会执行委员。主要研究方向为音频、语音与语言信号处理;语音、音乐与音频理解与生成;情感与表现力语音理解和生成等。博士毕业于西北工业大学,博士期间曾先后在京东AI Lab、腾讯AI Lab、微软开展研究工作,相关成果在产业场景中得到应用,申请和授权专利2项。此后,先后在香港中文大学(深圳)和香港科技大学从事博士后研究。

作为联合发起人推出综合性音频生成与可视化平台Amphion,集成语音合成、歌声转换、文本生成音效与可视化分析等能力,多次登上 GitHub Trending,获得国内外社区和媒体广泛关注。牵头主导开发统一音频理解与生成指令数据集Audio-FLAN,一度位列Hugging Face Dataset Trending 第二,下载量超过十万余次,下载单位包括GoogleMetaNvidia、字节跳动、腾讯、阿里巴巴、剑桥、牛津、清华、ETH  Zurich AI CenterLAION等国内外top科技公司和知名高校研究组。参与LlasaSpark-TTSYuEAudioX 等语音、音乐与音频生成大模型研究,积极推动生成式音频技术的开源与应用。相关成果发表于ACLICLRICASSPINTERSPEECHIEEE/ACM TASLPNeural Networks等高水平会议与期刊,相关工作受到AppleAmazon等国际知名科技公司研究团队的关注与引用。

参与组织ISCSLP 2026IEEE SLT 2024国际会议;MLC-SLM@INTERSPEECH 2026SmartGlasses@SLT2026LLM4MA Workshop@ISMIR 2025CoVoC@ISCSLP 2024 等学术挑战赛,长期担任ACLACM MMICASSPINTERSPEECHIEEE/ACM TASLPSpeech Processing LettersSpeech Communication 等国际高水平会议和期刊审稿人。与国内外知名企业及科研机构保持密切合作与交流,积极推荐学生赴业界头部企业实习及参与海内外实验室科研交流。

 

个人主页:https://lmxue.github.io/