关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro800人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

苹果欲推首款低价Mac,定价远低于1000美元,挑战微软与Chromebook

华尔街见闻官方 浏览 3436

定位中大型SUV 红旗HS6 PHEV开启盲订

车质网 浏览 3465

高管“换血”,股东内斗落幕!200亿淳厚基金迎国资入主

独角金融 浏览 2665

大衣别这么穿,显黑又显胖!

Yuki女人故事 浏览 3450

2026款途昂Pro限时一口价25.99万,全境安全大7座SUV新标杆

车之天下 浏览 1094

回归哈弗H序列 实拍哈弗H6L

太平洋汽车 浏览 3662

XbotGo丨懂球帝3-1逆转北建工建学FC,斩获新年两连胜

懂球帝 浏览 2648

洋河股份董事长顾宇首次交出季度成绩单:日均亏掉400万

财经众议院 浏览 3621

连奕名为老婆过46岁生日 杨若兮素颜照惹争议

小徐讲八卦 浏览 2945

印度空难唯一幸存者饱受PTSD折磨 至今无法与妻儿说话

扬子晚报 浏览 8997

暴跌超70%!"扫地机器人鼻祖"破产 中国债主或接盘

华尔街见闻官方 浏览 2949

《惊蛰无声》预告质感太差!杨幂没精神刘诗诗像盲人,被嘲像网大

萌神木木 浏览 2631

新疆官方:西尔扎提右膝前交叉韧带部分撕裂,赛季报销

懂球帝 浏览 1857

我们给有毒染料找了个“替身”,而且它真的能吃…

中国科普博览 浏览 2924

年底是购车黄金期吗?看懂购置税博弈再下订不迟!

百姓评车 浏览 3659

詹姆斯坐骨神经痛进展:湖人计划让他11月中旬复出 将耐心康复

醉卧浮生 浏览 3754

全尺寸货运版eVTOL样机已总装下线,「蓝霄航空」完成新一轮数千万元融资,年内累计融资近亿元|36氪首发

36氪 浏览 3782

2架美军机在南海相继坠毁 原因正在调查中

界面新闻 浏览 3609

高德拿了谷歌剧本,餐饮商家想当主角

蓝鲸新闻 浏览 4171

28岁华裔天才成百亿富豪 却献计特朗普封锁中国AI技术

策略述 浏览 6304

美国11月密歇根大学消费者信心创逾三年新低,短期通胀预期上升

华尔街见闻官方 浏览 3488
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1