关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷101777人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

拟购半导体资产 英唐智控继续转型

北京商报 浏览 670

秋季穿衣原来如此简单!记住这几组穿搭公式,得体简约又耐看

静儿时尚达人 浏览 804

欧盟《数字服务法》正式生效,社交媒体平台忙着改算法推荐

澎湃新闻 浏览 14456

24架F-35A隐身战机集结西太平洋

极目新闻 浏览 1050

今年秋冬流行“漏斗领外套”,时髦又高级!

LinkFashion 浏览 977

从退租、定增募资到引入战投 新希望离“希望”还缺多少钱?

观点机构 浏览 12895

公募基金业绩比较基准迎规范,证监会、中基协公开征求意见

华夏时报 浏览 755

美国威尔明顿发生一起车祸 总统车队一汽车被撞

央视新闻客户端 浏览 13074

女人过了40岁穿衣要显贵!看看这些秋季穿搭,舒适又有气质

静儿时尚达人 浏览 808

投资者不必恐惧雪球敲入

北京商报 浏览 12839

波兰警方突袭总统府拘捕前部长及其副手 杜达表态

环球网资讯 浏览 12646

"75后"冯长军 升任东风汽车集团董事、总经理

网易汽车 浏览 1061

五角大楼启动10亿美元新计划 采购数十万架单向攻击无人机

环球网资讯 浏览 206

从狂飙到猛踩刹车,动力电池行业洗牌加剧

第一财经资讯 浏览 19121

Cariad不再是“灵魂”担当,大众请外援能否赌赢未来?

禾颜阅车 浏览 1022

《狂飙》高启盛4换女友,新女友颜值不输前任董璇

缘木不求娱 浏览 13657

嫦娥六号、载人航天、鹊桥二号……中国航天今年有这些看点

澎湃新闻 浏览 12889

千年《琵琶行》,预制“公关秀”

时尚COSMO 浏览 855

与辛巴起争执酒店保安发声道歉后被开除感到委屈

趣看热点 浏览 26135

不管在什么地方 你都是那样拉轰的男人

星球商业评论 浏览 762

昊铂HT2024款亮相粤港澳车展 公布昊铂智驾早鸟计划

网易汽车 浏览 11480
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1