关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12530人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

不是谁弱谁有理,何美延只是说的好听

小椰的奶奶 浏览 103

不管人情世故那一套!东风日产法务贴脸开大,直接点了友商的名

小李车评李建红 浏览 78

Vogue这一夜太抓马了

细语 浏览 845

“单亲妈妈”叶珂哄娃引热议 网友:黄晓明不管么

韩小娱 浏览 301

太狠了!56岁马德钟生日餐惊呆网友,难怪保养得比他儿子还年轻

娱乐白名单 浏览 10696

机器人爆单之后

北京商报 浏览 411

38岁后单赛季为意甲升班马攻入至少4球,瓦尔迪是历史第二人

懂球帝 浏览 270

天兵科技就火箭坠落致歉:受损居民都赔偿

中新经纬 浏览 10693

卫龙"缺斤短两"?消费者称遭背刺 创始人身价缩水超百亿

雷达财经 浏览 10993

38岁的陈伟霆急了!和何穗续缘后疑是好事将近

娱乐白名单 浏览 12756

我的插混车才跑了5000多公里,厂家就通知保养,这样合理吗?

蜗牛车志V 浏览 12646

何小鹏的“回旋镖”与超级增程的“阳谋”

1号车盟 浏览 87

江西三地现任书记在反腐专题片出镜 谈及落马的原书记

政知新媒体 浏览 76170

陈妍希喊刘德华"老公"!陈晓反应惊人

网易娱乐 浏览 19300

媒体:俄乌战场形势发生微妙变化 俄军开始攻城略地

上观新闻 浏览 15597

“中国建议”在达沃斯受欢迎

环球时报国际 浏览 12670

俄国防部称缴获2辆德制"豹2A6"坦克 媒体:普京笑了

直新闻 浏览 92644

儿车梦!杰克逊:一直都想加盟切尔西,偶像是德罗巴和登巴巴

直播吧 浏览 15511

549分241板182助!约基奇三数据均为联盟第一:又要成历史首人?

罗说NBA 浏览 16635

南京市人大常委会原副主任李世贵被查 曾叫停5亿项目

极目新闻 浏览 75950

海哈金喜控诉李亚鹏大男子主义,他的老毛病又犯了

甜小娱儿 浏览 16839
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1