爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

全球首次！万...

当你的代码测...

网红坠机起火...

一文读懂索提...

预计今年秋季...

以色列允许部...

一加中国区总裁李杰：有的手机宣传边框存在“测算猫腻”

零件细节曝光新款奔驰S级将于2026年推出

直接吹爆！年度最敢拍的禁片级港片出现了！

理发店主阻拦城管撕广告冲突中被1名胖城管咬伤手指

内塔尼亚胡被指传话无意攻击伊朗与其公开表态相背离

姚明将在今年开始正式领取NBA退休金，每月可领约1.3万人民币

奕境首款大六座SUV寒测图发布满配华为智能科技

被张坤抛弃，又一巨头跌懵了！

何穗首晒产后美照！身材苗条丰满，被质疑传递焦虑，本人连忙删图

看了今年春晚阵容，难怪球球评论区沦陷，大家太思念本山大叔了

7万+再创造车新势力月销纪录零跑或成下一个中国前十

《玉茗茶骨》张慧雯啊，是最可惜的谋女郎

iQOO 15 / Neo11 手机全版本标配 2K 屏，自带 AR 增透消反保护膜

世体：皇马今天在雨中训练，阿拉巴、卡瓦哈尔和吕迪格依然缺席

8年过后再看冯小刚亲选的“芳华三美”

关键时刻伊朗欧盟关系生波澜欧盟＂站队＂美以惹怒伊朗

12306又上新功能：坐火车能领取积分积分可以当钱花

宁愿净身出户，也要与闫妮离婚的邹伟现状如何？

范德芬：我知道我加速后别人很难追上，那一刻只想着必须进球

黄一鸣才真清醒，大四怀孕不做“首富太太”

日本知名巨头退出中国内地市场有门店日排队3000桌

黄宗泽哭着拿双料视帝，10次提名终于熬出头

TA：从多纳鲁马到塞门约，瓜帅的足球风格已从控球转变为反击

郭磊：三季度经济数据——哪些线索需要关注