爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

闪迪SSD将...

死亡人数增至...

萝卜快跑计划...

股市：开门红...

大洗牌开启？...

尹锡悦宣布戒...

萨高大战流产！萨巴伦卡将挑战赛变授课堂，高芙被小白菜扫成服妹

明年一季度利率上限降至20% 消费金融迎来“阵痛期”

丰田连续第八届参展进博会，全面展示本地化成果

联合国认定以色列在加沙犯下种族灭绝罪行外交部回应

不只是超跑！KOSMERA星辰未来CES首秀，AI+生态互联颠覆出行想象

赵露思这段戏火了，陈伟霆当初没说错

CBA历史第4+现役第1！吴前1276三分超张庆鹏将追西热力江

媒体：美伊对峙 2026年的第一场战争呼之欲出

美军重兵集结蓄力作战之际新一轮美伊谈判时间“敲定”

擦碰中国海警艇揭秘菲律宾“拍照打卡”式炒作套路

媒体：南博获捐的137件书画中《江南春》算不上顶级

马罗塔：国米不考虑中途换帅

台媒曝具俊晔放弃大S遗产，转入孩子名下

年末避险情绪抬升公募选股遵循涨价硬逻辑

高市成日本史上首位女首相石破茂曾抱怨当首相太累

副院长传出不雅视频后赴外地坐诊引争议当地医院删文

谷歌Pixel 11系列手机Tensor G6芯片爆料：7核CPU

花5万元做法事求男友复合：情感咨询，被一群人做成了大生意

世体：梅西在进入诺坎普前没联系巴萨的任何人请求许可

消息称小米汽车部分门店将开放端到端辅助驾驶体验

李施嬅和车崇健确认已分手，她值得更好的！

天津98-93逆转广州，詹姆斯23分18板，赖俊豪伤退

苏超常州队主帅：明年队伍要年轻化，希望能让球迷场场都开心

奔驰C级纯电来了，屏幕超大，续航762km，国产年内发布