关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro735人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

杨紫新剧邀林志玲演上海名媛,两人11年前亲吻

小邵说剧 浏览 2542

牛弹琴:英国"动真格"了 王子被"大义灭亲"剥夺头衔

上游新闻 浏览 14417

曝王灿兮杜淳分房睡!女方深夜发声否认:谁说的?我咋不知道?

扒虾侃娱 浏览 3521

2026款小米SU7即将上市!最高纯电续航902Km

小史谈车 浏览 1648

伊朗外长:就伊朗核问题达成协议的唯一途径是外交

国际在线 浏览 1994

在桃浦,解锁未来发展无限可能

上观新闻 浏览 2878

日本外务省高官今日访华 将解释高市早苗言论

界面新闻 浏览 43497

西蒙菲莎大学发布:1.7万图像皮肤病变数据集训练AI诊断

科技行者 浏览 2644

这届年轻人,为什么在B站写起“百字长评”?

海克财经 浏览 2575

柬泰本轮冲突烈度远超以往 中国特使穿梭调停

环球网资讯 浏览 2915

德黑兰传出防空系统拦截声 以宣称考虑恢复对伊军事行动

极目新闻 浏览 254

推广中奖名单-更新至2025年10月25日推广

黎贝卡的异想世界 浏览 3454

何晴告别式现场,前夫许亚军疑似现身双眼泛红,大量群众自发悼念

萌神木木 浏览 2792

春季穿衣没那么复杂!有这些穿搭值得借鉴,高级舒适又不老套

静儿时尚达人 浏览 263

11国做出选择后特朗普喊话"中国将服软" 高市处境堪忧

胥言 浏览 8239

大家赚疯没?A股15连阳,打破尘封33年记录

说财猫 浏览 2150

泡椒凤爪“塌房”,有友食品躺枪

斑马消费 浏览 1654

悬了!仅剩80天!“西北酒王”进入倒计时

壹只灰鸽子 浏览 3755

香港知名女星惹同性绯闻,和朋友关系举止亲密

你约电影 浏览 2546

亚冠精英实时积分榜:申花升至第6跻身晋级区,成都第9,海港垫底

懂球帝 浏览 3640

立威第一枪?巴拿马拿中资港口开刀,李嘉诚228亿落空?

数字财经智库 浏览 2380
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1