关闭广告

上海AI实验室推出ATLAS:让AI在科学推理中"败下阵来"的超级考场

科技行者2620人阅读


这项由上海AI实验室领导的研究于2024年11月发表在arXiv预印本平台,论文编号为2511.14366。有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队包括来自复旦大学、北京大学、上海交通大学等25所知名院校的专家学者,他们共同开发了一个名为ATLAS的科学推理评测平台。

当人工智能在各种考试中频频刷新高分记录时,一个有趣的现象出现了:那些曾经被视为"金标准"的测试题目,如今对顶级AI模型来说似乎变得过于简单。就像一个天赋异禀的学生轻松通过了小学考试,但我们却不知道他是否真正具备了解决复杂现实问题的能力。

正是在这样的背景下,上海AI实验室的研究团队决定为AI模型打造一个真正的"地狱级考场"。他们开发的ATLAS平台就像是一个专门设计来让AI"败下阵来"的超级测试场,专门检验AI在科学推理方面的真实能力。这个名字本身就很有意味——ATLAS意为"AGI导向的科学逻辑应用测试平台",寓意着要像古希腊神话中扛起天空的巨人一样,承担起衡量AI真实科学推理能力的重任。

想象一下,如果把现有的AI测试比作小学数学题,那么ATLAS就像是博士入学考试。它不满足于简单的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

鲁内眼中,那个让他敬畏的辛纳是如何炼成的

网球之家 浏览 2615

网友过完春节返程 "一辆车就把外婆的菜园打包了"

极目新闻 浏览 18311

伊朗针对以色列心脏地带发起打击 对美国发出威胁

每日经济新闻 浏览 114670

演艺圈中最没有“父子相”的几对艺人父子

有品设计 浏览 3216

鲁尼:恩里克是顶级教头,5-2领先还在大举压上争取更多进球

懂球帝 浏览 478

萨顿:枪手踢得很不错,失利会让他们变得更加强大

懂球帝 浏览 714

视界大会短剧演员好尴尬!走红毯扎堆不给镜头,后台跟明星分开坐

萌神木木 浏览 3439

她曾凭一锅酸菜年入上亿,东北雨姐经历了什么?

阿裤趣闻君 浏览 3682

半年打赏300万,70岁老人为男主播“倾家荡产”

中国新闻周刊 浏览 472

美联储“独立性”面临挑战,华尔街想确定“是敌是友”,美联储新主席提名引发市场猜测

环球网资讯 浏览 2393

三星最贵手机:Galaxy Z TriFold三折叠手机跑分首曝

IT之家 浏览 3099

伊朗外长:美国是否真心实意进行谈判还有待观察

国际在线 浏览 432

初夏穿衣千万别发愁,看看这些日常穿搭,减龄舒适又显身材

静儿时尚达人 浏览 188

传祺向往M8宗师上市 补贴价24.99万元起

网易汽车 浏览 3702

牛弹琴:特朗普迎最高兴一天 还求以方赦免内塔尼亚胡

映象网 浏览 7605

俄方:乌克兰袭击赫尔松地区目标致超20人死亡

环球网资讯 浏览 2776

俄黑海港口设施遭袭,乌军证实实施火力打击

潇湘晨报 浏览 3399

美乌柏林两日会谈后 特朗普、泽连斯基同日发声

环球时报国际 浏览 17900

新势力比传统车企更乐观,2026年车市充斥着哪些挑战?

汽车头条APP 浏览 2420

存款“搬家”到股市?央行最新报告详解五组利率比价关系 资产配置调整和市值变化影响金融资产结构

财联社 浏览 3584

2026年央视春晚彩排开始!沈腾马丽回归,但呼声最高的是他们

娱乐圈笔娱君 浏览 2713
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1