关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19110人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

女子卷走公司2000万欲跑路 最后一刻害怕被抓放弃登机

环球网资讯 浏览 7450

竞拍者以高出1000多倍价格拍下旧手机 法院:正在核查

红星新闻 浏览 78880

广安爱众0元收购一新能源发电公司90%股权

红星资本局 浏览 1680

春天穿长风衣这样做搭配最“有效”

八只爪的猫 浏览 19826

环球圆桌对话:G7打造“稀土联盟”更像是政治表演

环球网资讯 浏览 897

央行新提法!“社融规模可持续较快增长”如何理解?

21金融圈 浏览 12871

刘强东“改革”的200天,京东变了

第一财经资讯 浏览 15902

女子发现前夫用其就诊卡开上千片精神类药物 医院回应

大风新闻 浏览 16270

郭碧婷爸爸“打脸”向太:郭碧婷一人承担俩孩子开销

青途历史 浏览 969

天兵科技就火箭坠落致歉:受损居民都赔偿

中新经纬 浏览 10701

鲁媒:费莱尼合同12月31日到期,可能代表泰山队跨年度征战亚冠

直播吧 浏览 14649

腾讯首次系统披露研发进展:AI生成50%新增代码,研发自动化水平同比提升67%

华尔街见闻官方 浏览 869

针对伊朗有关目标?以色列再对叙利亚发动导弹袭击

环球军事时报 浏览 26454

三星2nm工艺抢得先机?已收到日本AI公司的芯片订单

超能网 浏览 12458

外交部回应布林肯称"美国将继续做中方不喜欢的事"

外交部网站 浏览 15558

做品牌,从抬高消费者剩余开始

虎嗅APP 浏览 12403

北京大爷独自赡养父母56年 继承2500万房产后哥姐眼红

大佬日志 浏览 78717

朝鲜举行宴会欢迎中国大使到任 朝方女外相出席致辞

环球网资讯 浏览 111907

外媒:英伟达对华“特供”芯片将恢复出货

参考消息 浏览 74247

罗马诺:小基恩租借交易破裂,马竞和尤文在球员复出时间上有分歧

直播吧 浏览 12412

原来“时髦精”都喜欢这么搭配!减龄提气质

静儿时尚达人 浏览 13356
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1