爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

中国人自己的...

男子在狱中病...

CES202...

超34.2万...

马克龙：首批...

‍♂️吧友们...

女子结婚14年被丈夫打了13年丈夫：我才是受害者

霸榜热搜，尺度惊人，他绝对值得你追

委内瑞拉总统：美国编造荒诞借口以便入侵加勒比

夸克上线千问助手，使用阿里Qwen最强大模型

纯爽片，真用心，值得被更多人看见！

华尔街主流投行也要参与！高盛CEO称正在探索预测市场机会

美国将向中东增派航母伊朗：将坚决回应任何侵略行为

美军营救飞行员出动155架飞机

辛纳晋级中网男单八强

泽连斯基被疑＂诅咒特朗普＂：政客嘛早晚会死

习惯一身黑的穿搭？其实换一种穿衣思路更高级，养眼又有活力

杨紫新剧邀林志玲演上海名媛，两人11年前亲吻

联合国秘书长敦促黎以冲突各方重返谈判桌

杠杆资金流入北方铜业股价创28年新高

小鹏汽车11月交付新车36,728台 1-11月累计交付391,937台

“霸凌”周迅的奚美娟，现在付出代价了？

暴增1530%！锂矿龙头天齐锂业，一季度业绩爆发

大衣里面穿什么？这件内搭才是今年冬天的“顶流”

内塔尼亚胡：加沙非军事化前不会允许重建

比加班更可怕的，是可能加班

美伊陷入互相封锁僵局

售价8.88万起 RELY威麟R08上市

牛弹琴：2025年最勇敢的一个动作背后是全世界的震惊

发球都不会的球员混进ITF职业比赛！引国外网友和专家愤怒