关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1013388人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

上海夫妇骑"老头乐"闯灯被撞索赔超70万 法院:赔36万

新民晚报 浏览 96125

i60首月销量破万 广汽埃安全系月销量达40066辆

网易汽车 浏览 2792

芯片圈“大佬”IPO梦碎,牵出千万受贿案!

野马财经 浏览 3699

苦等14年 50岁贝克汉姆获封英国王室最高爵士头衔

封面新闻 浏览 15969

四年减少771万!稳出生人口,要加力了

西部城市 浏览 2537

美国宣布对伊朗最新制裁措施

央视新闻客户端 浏览 2407

老娘们不会完蛋的

江湖人称艾掌门 浏览 3352

停不下来,肯扬-马丁继续怼追梦:没有库里和克莱你只是队内第12人

懂球帝 浏览 3155

单月首次突破6万台 极氪科技10月销量61636台

网易汽车 浏览 2812

倪妮告秦雯和王家卫!?

八卦疯叔 浏览 3428

霍英东体育基金会晚宴,多位奥运冠军现身,霍家更知郭晶晶的份量

不八卦会死星人 浏览 2968

美国副防长将访日 或要求日本提高防卫费

上观新闻 浏览 2522

穆杰塔巴呼吁:争取经济和文化斗争胜利 让敌人"失望"

上观新闻 浏览 262

珍珠配美人,最老派也最高级的时髦

时尚COSMO 浏览 2257

安以恩:邦本宜裕是很“高级”的球员,我们能秒懂彼此的意图

懂球帝 浏览 3194

“京圈恶少”王烁:睡遍娱乐圈女星,殴打继母王艳,枪指刘涛老公

史潎的生活日记 浏览 2590

张柏芝又飞澳洲陪Lucas读书,独自拿八九件行李

八斗小先生 浏览 2441

4岁女童20楼坠至13楼被业主拽住 邻居们接力苦撑4分钟

极目新闻 浏览 20223

兄弟获180万拆迁款被控敲诈勒索 原村官:举报我贪污

极目新闻 浏览 7847

Meta收购曾火爆一时的AI智能体社交网络Moltbook

IT之家 浏览 1734

“2025全球十大工程成就”揭晓,DeepSeek开源大模型等上榜

上观新闻 浏览 3758
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1