关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro739人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

联合国认定以色列在加沙犯下种族灭绝罪行 外交部回应

外交部网站 浏览 4293

不只是超跑!KOSMERA星辰未来CES首秀,AI+生态互联颠覆出行想象

电车通 浏览 2619

赵露思这段戏火了,陈伟霆当初没说错

刘蕳爱下厨 浏览 4086

CBA历史第4+现役第1!吴前1276三分超张庆鹏 将追西热力江

醉卧浮生 浏览 2420

媒体:美伊对峙 2026年的第一场战争呼之欲出

经济观察报 浏览 22728

美军重兵集结蓄力作战之际 新一轮美伊谈判时间“敲定”

环球网资讯 浏览 1979

擦碰中国海警艇 揭秘菲律宾“拍照打卡”式炒作套路

环球网资讯 浏览 7489

媒体:南博获捐的137件书画中 《江南春》算不上顶级

红星新闻 浏览 13965

马罗塔:国米不考虑中途换帅

体坛周报 浏览 4195

台媒曝具俊晔放弃大S遗产,转入孩子名下

萌神木木 浏览 2463

年末避险情绪抬升 公募选股遵循涨价硬逻辑

证券时报 浏览 3415

高市成日本史上首位女首相 石破茂曾抱怨当首相太累

鲁中晨报 浏览 8807

副院长传出不雅视频后赴外地坐诊引争议 当地医院删文

红星新闻 浏览 13894

谷歌Pixel 11系列手机Tensor G6芯片爆料:7核CPU

IT之家 浏览 485

花5万元做法事求男友复合:情感咨询,被一群人做成了大生意

正解局 浏览 2549

世体:梅西在进入诺坎普前没联系巴萨的任何人请求许可

懂球帝 浏览 3414

消息称小米汽车部分门店将开放端到端辅助驾驶体验

IT之家 浏览 3440

李施嬅和车崇健确认已分手,她值得更好的!

黔乡小姊妹 浏览 2623

天津98-93逆转广州,詹姆斯23分18板,赖俊豪伤退

懂球帝 浏览 2687

苏超常州队主帅:明年队伍要年轻化,希望能让球迷场场都开心

懂球帝 浏览 4237

奔驰C级纯电来了,屏幕超大,续航762km,国产年内发布

汽车公告板 浏览 718
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1