爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

唐嫣罗晋离婚...

邓莎没想到，...

同比增长89...

美国首批UF...

上海楼市温和...

看完《阿凡达...

“美好”新国际！齐沃战胜师父，蓝黑登顶意甲

翁青雅被官媒点名，言辞直戳其肺管子

法尔克：作为升班马，对阵曼联时拿到一分始终是个不错的结果

杨紫新剧邀林志玲演上海名媛，两人11年前亲吻

牛弹琴：英国＂动真格＂了王子被＂大义灭亲＂剥夺头衔

曝王灿兮杜淳分房睡！女方深夜发声否认：谁说的？我咋不知道？

2026款小米SU7即将上市！最高纯电续航902Km

伊朗外长：就伊朗核问题达成协议的唯一途径是外交

在桃浦，解锁未来发展无限可能

日本外务省高官今日访华将解释高市早苗言论

西蒙菲莎大学发布：1.7万图像皮肤病变数据集训练AI诊断

这届年轻人，为什么在B站写起“百字长评”？

柬泰本轮冲突烈度远超以往中国特使穿梭调停

德黑兰传出防空系统拦截声以宣称考虑恢复对伊军事行动

推广中奖名单-更新至2025年10月25日推广

何晴告别式现场，前夫许亚军疑似现身双眼泛红，大量群众自发悼念

春季穿衣没那么复杂！有这些穿搭值得借鉴，高级舒适又不老套

11国做出选择后特朗普喊话＂中国将服软＂高市处境堪忧

大家赚疯没？A股15连阳，打破尘封33年记录

泡椒凤爪“塌房”，有友食品躺枪

悬了！仅剩80天！“西北酒王”进入倒计时

香港知名女星惹同性绯闻，和朋友关系举止亲密

亚冠精英实时积分榜：申花升至第6跻身晋级区，成都第9，海港垫底

立威第一枪？巴拿马拿中资港口开刀，李嘉诚228亿落空？