关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19108人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

66岁港星与太太秀恩爱 被指吃软饭遭太太出手维护

TVB剧评社 浏览 19246

失去眉毛的刘雯,脸更值钱了

新氧 浏览 14901

24岁少妇四处留情 跟了很多男人后觉得还是自己老公好

汉史趣闻 浏览 63377

郑恺苗苗婚变风波升级 男方超多黑料被扒

叶公子 浏览 16809

人字纹,高级又经典!

Yuki女人故事 浏览 623

外观酷似G级 奔驰全新纯电SUV谍照曝光

车质网 浏览 354

父子俩被群殴还手遭拘10日 起诉警方"互殴"认定错误

上游新闻 浏览 119094

德外长访华或调整"中国战略" 曾将台湾乌克兰并提

环球网资讯 浏览 19256

Angelababy正式解封!代言基本没掉,公司仍力捧,大粉曝后续动静

缘木不求娱 浏览 12657

德国Mindfactory平台数据:AMD处理器周销量是英特尔10倍多

IT之家 浏览 381

360发布2023年业绩预告:亏损同比收窄80%

网易科技报道 浏览 12768

ABB与英伟达共同推进吉瓦级数据中心建设,800VDC供电架构引关注

环球网资讯 浏览 1042

最有野心的“厨子”,如何成为普京的“叛徒”

中国新闻周刊 浏览 15585

英超球队集体退出欧超,刚成立的新赛事为何就此分崩离析?

趣看热点 浏览 25405

晒"妈妈牌"耐克书包男子已收到耐克礼物 当事人发声

极目新闻 浏览 21472

个体户雇人偷排工业废液致4死 2名主犯死刑复核未通过

封面新闻 浏览 29493

突然回调!“技术牛”还有么,巨额抄底资金已出手!

中国基金报 浏览 14460

马筱梅罕谈大S过去,撕碎S家仅剩的“体面”?

有趣的胡侃 浏览 731

哈马斯呼吁落实加沙停火协议 要求确保拉法口岸双向开放

极目新闻 浏览 224

国内存款利率再下调:3年5降 100万存3年利息少了近2万

第一财经资讯 浏览 89949

GPT-4开始帮人创业:4天内已吸引近万美元投资并组建团队

澎湃新闻 浏览 19133
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1