关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19111人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

熊园:“十五五”GDP目标——怎么定、定多少?

首席经济学家论坛 浏览 944

牛弹琴:高市早苗有点悬了 女首相之路出现重大波折

现代快报 浏览 1032

美军焦虑如何让航母“神出鬼没”

环球网资讯 浏览 12475

《一路繁花2》出圈理由

娱乐圈笔娱君 浏览 867

男子在余震中带家人开车逃离 车上人手一个袋子呕吐

澎湃新闻 浏览 75280

今年秋天最美搭配:西装+半裙,减龄又气质!

LinkFashion 浏览 1027

@全球内容创作者:广东喊你来创造,政策大礼包备好了

智谷趋势 浏览 779

38岁何洁二婚丈夫刁磊,已经开始为她“争光”了

余鴡搞笑段子 浏览 666

警惕!日本巨头密集收购中国中药企业

中国财富网 浏览 18675

60+女人,秋天穿衣“上紧下宽”,不紧绷、不暴露优雅显年轻

静儿时尚达人 浏览 1046

​中年女人要想穿出女神范,选择时尚单品时,注重展现气质美

静儿时尚达人 浏览 11335

进博面对面|A2牛奶公司黎笑:借进博会“溢出效应”不断升级“全家营养解决方案”

中国商报 浏览 706

美公布现场视频 美俄各自还原“黑海撞机”真相

环球网资讯 浏览 19444

美媒:美军增派战机至位于波多黎各的前罗斯福路海军基地

环球网资讯 浏览 79

足力健卖水饺,吃干榨净老年人?

斑马消费 浏览 1675

卫宁健康实控人周炜犯单位行贿罪一审获刑一年半,其子被提名为非独董

红星资本局 浏览 608

港报社论:“毁台”传言加剧岛内“疑美”情绪

参考消息 浏览 19412

蔡天凤将在下月安葬 婆家人花巨资对遗体进行修复

素素娱乐 浏览 18811

郑智化发声道歉!坦言自己情绪上头用词不当,两次发文惹祸上身

振华观史 浏览 789

韩国女孩的会穿,不仅体现在红毯华服上

大维聊时尚 浏览 20114

泫雅的衣品真不错 穿紫色裙子时尚又减龄

双鱼爱畅谈 浏览 19314
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1