关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro736人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

理发店主阻拦城管撕广告 冲突中被1名胖城管咬伤手指

大风新闻 浏览 5549

内塔尼亚胡被指传话无意攻击伊朗 与其公开表态相背离

红星新闻 浏览 9001

姚明将在今年开始正式领取NBA退休金,每月可领约1.3万人民币

懂球帝 浏览 3667

奕境首款大六座SUV寒测图发布 满配华为智能科技

三个司机 浏览 2472

被张坤抛弃,又一巨头跌懵了!

财经锐眼 浏览 2383

何穗首晒产后美照!身材苗条丰满,被质疑传递焦虑,本人连忙删图

萌神木木 浏览 3360

看了今年春晚阵容,难怪球球评论区沦陷,大家太思念本山大叔了

萌神木木 浏览 2636

7万+再创造车新势力月销纪录 零跑或成下一个中国前十

道哥说车 浏览 3390

《玉茗茶骨》张慧雯啊,是最可惜的谋女郎

温柔娱公子 浏览 2631

iQOO 15 / Neo11 手机全版本标配 2K 屏,自带 AR 增透消反保护膜

IT之家 浏览 3730

世体:皇马今天在雨中训练,阿拉巴、卡瓦哈尔和吕迪格依然缺席

懂球帝 浏览 3616

8年过后再看冯小刚亲选的“芳华三美”

大铁猫娱乐 浏览 3526

关键时刻伊朗欧盟关系生波澜 欧盟"站队"美以惹怒伊朗

澎湃新闻 浏览 4778

12306又上新功能:坐火车能领取积分 积分可以当钱花

大象新闻 浏览 8299

宁愿净身出户,也要与闫妮离婚的邹伟现状如何?

律便利 浏览 3446

范德芬:我知道我加速后别人很难追上,那一刻只想着必须进球

懂球帝 浏览 3400

黄一鸣才真清醒,大四怀孕不做“首富太太”

柠檬有娱乐 浏览 3066

日本知名巨头退出中国内地市场 有门店日排队3000桌

21世纪经济报道 浏览 7809

黄宗泽哭着拿双料视帝,10次提名终于熬出头

手工制作阿歼 浏览 2704

TA:从多纳鲁马到塞门约,瓜帅的足球风格已从控球转变为反击

懂球帝 浏览 2679

郭磊:三季度经济数据——哪些线索需要关注

首席经济学家论坛 浏览 3676
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1