爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

曾经拯救过无...

大学副教授被...

英媒：意甲俱...

孙红雷和妻子...

厦门大学等突...

曲婉婷近照疑...

内塔尼亚胡向特朗普赠送金色鸽子雕塑

浙江大学StaMo实现静态图像生成机器人动作

张雨绮爆雷丢工作！省媒确认她不会上春晚

泽连斯基：准备进行领土谈判

《今日说法》主持人李晓东从央视离职曾买茶叶被骗

泽连斯基接受采访期间马林斯基宫两度停电俄官员回应

用了8年还心动，这笔钱是花得真值啊

第五届意大利繁花电影节片单暨日程发布！

P图只用一句话，小米超级小爱AI大模型“随心修图”上线

台＂馆长＂称＂把赖清德狗头斩下来＂遭民进党当局约谈

华为智慧屏新品MateTV Max今日预售，110英寸64999元

东体：300名盐城球迷为海港加油，多位海港梯队球员为盐城队效力

8.88万起终身质保威麟R08把皮卡玩成“理财产品”

曼奇尼自曝若阿莫林下课其可执教曼联！失业一年，在法国遇到拉爵

普京：“海燕”核动力巡航导弹完成“决定性试验”

殷桃｜每个表情都让人欲罢不能

货车司机在高速服务区猝死妻子：跑车4个月只回家2次

卡位AI算力基建狂潮，鸿辉光通加快实现向光器件隐形龙头的蜕变

19.88万买原厂合规越野车 212 T01长风柴油版上市

高市暗藏意图:引入核武器获取打击中国腹地能力

九十年代的双生传奇：菲亚特Bravo与Brava

波罗的海三国正式退出《渥太华禁雷公约》

特朗普否认美军将领“反对与伊朗开战”

英歌舞300岁，正是“闯”的年纪