关闭广告

上海AI实验室推出ATLAS:让AI在科学推理中"败下阵来"的超级考场

科技行者2617人阅读


这项由上海AI实验室领导的研究于2024年11月发表在arXiv预印本平台,论文编号为2511.14366。有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队包括来自复旦大学、北京大学、上海交通大学等25所知名院校的专家学者,他们共同开发了一个名为ATLAS的科学推理评测平台。

当人工智能在各种考试中频频刷新高分记录时,一个有趣的现象出现了:那些曾经被视为"金标准"的测试题目,如今对顶级AI模型来说似乎变得过于简单。就像一个天赋异禀的学生轻松通过了小学考试,但我们却不知道他是否真正具备了解决复杂现实问题的能力。

正是在这样的背景下,上海AI实验室的研究团队决定为AI模型打造一个真正的"地狱级考场"。他们开发的ATLAS平台就像是一个专门设计来让AI"败下阵来"的超级测试场,专门检验AI在科学推理方面的真实能力。这个名字本身就很有意味——ATLAS意为"AGI导向的科学逻辑应用测试平台",寓意着要像古希腊神话中扛起天空的巨人一样,承担起衡量AI真实科学推理能力的重任。

想象一下,如果把现有的AI测试比作小学数学题,那么ATLAS就像是博士入学考试。它不满足于简单的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

黄子韬婚礼险翻车!许艺洋喊错男朋友

林木体育解说 浏览 3727

【亚冠精英】阿苏埃头球路易斯建功 申花2比0首尔

体坛周报 浏览 3654

看大疆做全景相机,不要只看两份报告

连线Insight 浏览 3386

比亚迪唐9系旗舰SUV测试 要从BBA嘴里"抢肉吃"?

车矩阵更懂车 浏览 2528

遭央视起底 台媒:沈伯洋内心已经相当恐惧

北京日报客户端-长安街知事 浏览 8179

英国防大臣称想"绑架"普京 俄方:痴人说梦

界面新闻 浏览 2602

看起来很好亲的唇,能养出来?

时尚COSMO 浏览 2690

《逍遥》大结局:最恨妖的人却成了妖,秉烛的宿命太扎心!

肆季娱乐 浏览 2752

帕金斯:杜兰特去篮网太阳都是灾难,他并非争冠球队的理想引援

懂球帝 浏览 429

时间序列也会"说话"?这个突破性AI让数据图表变成了智能分析师

科技行者 浏览 2872

SRM理工学院发布:文本到视频生成技术演进图谱

科技行者 浏览 3336

热议日本3-2巴西:几十年认准一条路;人家从容我们连滚带爬

懂球帝 浏览 3622

媒体:郑丽文"由绿转蓝"成功逆袭 支持基础系三股力量

上游新闻 浏览 8460

董路:日本队6届世界杯过不了16强 跟国足24年无缘世界杯一样痛苦

风过乡 浏览 3670

美国一军用炸药厂爆炸致16人死亡 现场一片废墟

极目新闻 浏览 3664

海军四川舰顺利完成首次航行试验

央视新闻客户端 浏览 2438

王传君影帝封号引发争议,24小时后遭遇令人不适事件

80后房车生活 浏览 3347

敷尔佳:定价过高、盟友倒戈,重营销模式难掩发展困境|ESG案例

网易财经ESG 浏览 2876

韩国市场:中国产电动车占比飙升至 34%!

郑谊 浏览 2043

全新雷克萨斯ES实车,是凌志该有的样子吗?

车动态 浏览 731

账面1000多亿,却隐藏20多年,整个互联网都找不到它长什么样

壹只灰鸽子 浏览 2565
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1