爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

三季报净利下...

演讲遭抗议 ...

俄乌突现转机...

荣耀 Mag...

英歌舞300...

方永飞怼雷军...

辛芷蕾飞升独一档，85花格局变了！

迟蓬：65岁，我不急

这才是50岁女人该有的冬季穿搭，既保暖又体面，想不优雅都难

苹果欲推首款低价Mac，定价远低于1000美元，挑战微软与Chromebook

定位中大型SUV 红旗HS6 PHEV开启盲订

高管“换血”，股东内斗落幕！200亿淳厚基金迎国资入主

大衣别这么穿，显黑又显胖！

2026款途昂Pro限时一口价25.99万，全境安全大7座SUV新标杆

回归哈弗H序列实拍哈弗H6L

XbotGo丨懂球帝3-1逆转北建工建学FC，斩获新年两连胜

洋河股份董事长顾宇首次交出季度成绩单：日均亏掉400万

连奕名为老婆过46岁生日杨若兮素颜照惹争议

印度空难唯一幸存者饱受PTSD折磨至今无法与妻儿说话

暴跌超70%！＂扫地机器人鼻祖＂破产中国债主或接盘

《惊蛰无声》预告质感太差！杨幂没精神刘诗诗像盲人，被嘲像网大

新疆官方：西尔扎提右膝前交叉韧带部分撕裂，赛季报销

我们给有毒染料找了个“替身”，而且它真的能吃…

年底是购车黄金期吗？看懂购置税博弈再下订不迟！

詹姆斯坐骨神经痛进展：湖人计划让他11月中旬复出将耐心康复

全尺寸货运版eVTOL样机已总装下线，「蓝霄航空」完成新一轮数千万元融资，年内累计融资近亿元｜36氪首发

2架美军机在南海相继坠毁原因正在调查中

高德拿了谷歌剧本，餐饮商家想当主角

28岁华裔天才成百亿富豪却献计特朗普封锁中国AI技术

美国11月密歇根大学消费者信心创逾三年新低，短期通胀预期上升