关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro796人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

泽连斯基:准备进行领土谈判

参考消息 浏览 3767

《今日说法》主持人李晓东从央视离职 曾买茶叶被骗

封面新闻 浏览 8985

泽连斯基接受采访期间马林斯基宫两度停电 俄官员回应

环球网资讯 浏览 3423

用了8年还心动,这笔钱是花得真值啊

黎贝卡的异想世界 浏览 784

第五届意大利繁花电影节片单暨日程发布!

幕味儿 浏览 3129

P图只用一句话,小米超级小爱AI大模型“随心修图”上线

IT之家 浏览 3352

台"馆长"称"把赖清德狗头斩下来" 遭民进党当局约谈

环球时报新闻 浏览 21420

华为智慧屏新品MateTV Max今日预售,110英寸64999元

IT之家 浏览 3263

东体:300名盐城球迷为海港加油,多位海港梯队球员为盐城队效力

直播吧 浏览 4515

8.88万起终身质保 威麟R08把皮卡玩成“理财产品”

网易汽车 浏览 4566

曼奇尼自曝若阿莫林下课其可执教曼联!失业一年,在法国遇到拉爵

罗米的曼联博客 浏览 3735

普京:“海燕”核动力巡航导弹完成“决定性试验”

极目新闻 浏览 3638

殷桃|每个表情都让人欲罢不能

农城浪子 浏览 2722

货车司机在高速服务区猝死 妻子:跑车4个月只回家2次

红星新闻 浏览 9580

卡位AI算力基建狂潮,鸿辉光通加快实现向光器件隐形龙头的蜕变

第一财经资讯 浏览 4327

19.88万买原厂合规越野车 212 T01长风柴油版上市

网易汽车 浏览 2890

高市暗藏意图:引入核武器 获取打击中国腹地能力

国际在线 浏览 15722

九十年代的双生传奇:菲亚特Bravo与Brava

老爷车 浏览 3329

波罗的海三国正式退出《渥太华禁雷公约》

上观新闻 浏览 2856

特朗普否认美军将领“反对与伊朗开战”

上观新闻 浏览 2029

英歌舞300岁,正是“闯”的年纪

时尚COSMO 浏览 2194
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1