爆点资讯

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass2.0），同时在对部分主流大模型评测诊断的基础上，揭晓了年度大模型评测榜单，提到了国内大模型的优势与短板。

根据评测，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上，整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中，GPT-4 Turbo（升级版GPT-4）在各项评测中均获最佳表现，也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前，反映了这些新模型具有较为均衡和全面的性能。

值得一提的是，此次大模型排行并未纳入所

国内大模型与GPT-4较高下：语言知识能力接近，复杂推理仍是短板

特朗普称批准...

吕海涛回归神...

美官员谈布林...

阿里没做成的...

俄安全局称击...

开年关键词「...

场内嬉笑，场外怒骂，《喜人奇葩说》第一季来了

被大空头狙击的明星AI股Palantir，华尔街怎么看

李一桐穿流苏飞袖连衣裙造型清冷优雅

不是谁弱谁有理，何美延只是说的好听

不管人情世故那一套！东风日产法务贴脸开大，直接点了友商的名

Vogue这一夜太抓马了

“单亲妈妈”叶珂哄娃引热议网友：黄晓明不管么

太狠了！56岁马德钟生日餐惊呆网友，难怪保养得比他儿子还年轻

机器人爆单之后

38岁后单赛季为意甲升班马攻入至少4球，瓦尔迪是历史第二人

天兵科技就火箭坠落致歉：受损居民都赔偿

卫龙＂缺斤短两＂？消费者称遭背刺创始人身价缩水超百亿

38岁的陈伟霆急了！和何穗续缘后疑是好事将近

我的插混车才跑了5000多公里，厂家就通知保养，这样合理吗？

何小鹏的“回旋镖”与超级增程的“阳谋”

江西三地现任书记在反腐专题片出镜谈及落马的原书记

陈妍希喊刘德华＂老公＂！陈晓反应惊人

媒体:俄乌战场形势发生微妙变化俄军开始攻城略地

“中国建议”在达沃斯受欢迎

俄国防部称缴获2辆德制＂豹2A6＂坦克媒体：普京笑了

儿车梦！杰克逊：一直都想加盟切尔西，偶像是德罗巴和登巴巴

549分241板182助！约基奇三数据均为联盟第一：又要成历史首人？

南京市人大常委会原副主任李世贵被查曾叫停5亿项目

海哈金喜控诉李亚鹏大男子主义，他的老毛病又犯了