关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro802人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

夸克上线千问助手,使用阿里Qwen最强大模型

IT之家 浏览 3378

纯爽片,真用心,值得被更多人看见!

吐槽电影院 浏览 2017

华尔街主流投行也要参与!高盛CEO称正在探索预测市场机会

华尔街见闻官方 浏览 2618

美国将向中东增派航母 伊朗:将坚决回应任何侵略行为

环球网资讯 浏览 2580

美军营救飞行员出动155架飞机

新华国际头条 浏览 1037

辛纳晋级中网男单八强

体坛周报 浏览 4085

泽连斯基被疑"诅咒特朗普":政客嘛 早晚会死

澎湃新闻 浏览 14043

习惯一身黑的穿搭?其实换一种穿衣思路更高级,养眼又有活力

静儿时尚达人 浏览 325

杨紫新剧邀林志玲演上海名媛,两人11年前亲吻

小邵说剧 浏览 2582

联合国秘书长敦促黎以冲突各方重返谈判桌

国际在线 浏览 1623

杠杆资金流入 北方铜业股价创28年新高

21世纪经济报道 浏览 4409

小鹏汽车11月交付新车36,728台 1-11月累计交付391,937台

网易汽车 浏览 3099

“霸凌”周迅的奚美娟,现在付出代价了?

除夕烟火灿烂 浏览 3094

暴增1530%!锂矿龙头天齐锂业,一季度业绩爆发

侃见财经 浏览 808

大衣里面穿什么?这件内搭才是今年冬天的“顶流”

LinkFashion 浏览 2516

内塔尼亚胡:加沙非军事化前 不会允许重建

新京报 浏览 2499

比加班更可怕的,是可能加班

识局 浏览 2817

美伊陷入互相封锁僵局

环球网资讯 浏览 494

售价8.88万起 RELY威麟R08上市

功夫AUTO 浏览 4543

牛弹琴:2025年最勇敢的一个动作 背后是全世界的震惊

北京日报客户端 浏览 8981

发球都不会的球员混进ITF职业比赛!引国外网友和专家愤怒

网球之家 浏览 2777
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1