关闭广告

IDEA研究院发布LEMAS:首个15万小时多语言语音数据集

科技行者2592人阅读


科技发展到今天,人工智能已经能够模仿人类的声音说话了。然而,如果你曾经尝试过让AI说其他语言,比如让一个英语AI说中文,你可能会发现它的口音怪异,发音不准,甚至完全听不懂在说什么。这就像是一个只会说英语的人硬要说中文,结果说得让人啼笑皆非。这背后的根本问题是什么呢?缺乏高质量的多语言语音数据。

由国际数字经济研究院(IDEA)主导的研究团队最近发表了一项突破性成果,这项研究发表于2025年1月的arXiv预印本服务器上,论文编号为arXiv:2601.04233v1。感兴趣的读者可以通过这个编号查询完整论文。研究团队构建了一个名为LEMAS的庞大语音数据集,包含超过15万小时的多语言语音数据,覆盖10种主要语言,并且每个词都有精确的时间戳标注。基于这个数据集,他们还开发了两个强大的AI模型:LEMAS-TTS和LEMAS-Edit,前者专门负责语音合成,后者专门负责语音编辑。

为了理解这项研究的重要性,我们可以把语音AI比作一位多语言播音员。传统的播音员要想掌握多种语言,需要大量的训练素材和精确的指导。同样,AI要想说好多种语言,也需要海量的高质量语音数据作为"教材"。但现有的多语言语音数据存在许多问题:要么

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

米体:罗马想冬窗租借齐尔克泽,若晋级欧冠会自动触发买断

懂球帝 浏览 3123

以军方:一名以军士兵在加沙城遭哈马斯袭击身亡

环球网资讯 浏览 4249

王石离婚风波首现身?豪宅聚餐打牌

好贤观史记 浏览 2659

这次白银暴跌是人为操纵的?

新浪财经 浏览 2448

短期内可生产大量武器级钚 专家分析日本暗藏“核武野心”

环球网资讯 浏览 3213

陈凯歌做梦也没想到,竟有一天会因儿子陈飞宇,实现口碑暴增

温柔娱公子 浏览 3496

市值26亿豪掷32亿跨界“钠电”,环保企业“同兴科技”胜算几何?

时代周报 浏览 2856

日企天空推出UMPC新品TENKU Pocket 8,搭载N305处理器

IT之家 浏览 2104

NBA战报:马刺133-104大胜步行者取NBA5连胜,文班亚马17+12+1

懂球帝 浏览 3646

马德兴:国少有身高优势却让高中锋替补,浮嶋敏备战有大问题

懂球帝 浏览 288

以色列允许部分学校复课 继续扩大黎南部地面行动

国际在线 浏览 1638

生于1996年女子连任董事长 去年薪酬92万元

每日经济新闻 浏览 8744

2025款奔驰GLB 220典藏版上市 售价34.99万

车质网 浏览 2656

众星送别袁惟仁,前妻陆元琪露面表示不再怨恨,Ella哭到说不出话

萌神木木 浏览 1763

财经早餐:中秋国庆旅游市场迎热潮;摩尔线程IPO过会拟募资80亿元

网易财经 浏览 4152

Claude Opus 4.5来了!单次生成打造《我的世界》,还破解高难度Agent测评

智东西 浏览 3244

德转为金球奖竞争评级:登贝莱最被看好,亚马尔为最大竞争对手

直播吧 浏览 4582

马切吉亚尼:迈尼昂扑点的秘诀是米兰的门将教练菲利皮

懂球帝 浏览 3435

锦州银行落幕引发渠道整合,超1600只基金上演“代销大迁徙”

券商中国 浏览 3419

女生醉驾撞死3人最小死者未满3岁 至今未接触死者家属

极目新闻 浏览 21973

网红基金,历史性暴跌

中国新闻周刊 浏览 2440
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1