关闭广告

上海AI实验室推出ATLAS:让AI在科学推理中"败下阵来"的超级考场

科技行者1690人阅读


这项由上海AI实验室领导的研究于2024年11月发表在arXiv预印本平台,论文编号为2511.14366。有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队包括来自复旦大学、北京大学、上海交通大学等25所知名院校的专家学者,他们共同开发了一个名为ATLAS的科学推理评测平台。

当人工智能在各种考试中频频刷新高分记录时,一个有趣的现象出现了:那些曾经被视为"金标准"的测试题目,如今对顶级AI模型来说似乎变得过于简单。就像一个天赋异禀的学生轻松通过了小学考试,但我们却不知道他是否真正具备了解决复杂现实问题的能力。

正是在这样的背景下,上海AI实验室的研究团队决定为AI模型打造一个真正的"地狱级考场"。他们开发的ATLAS平台就像是一个专门设计来让AI"败下阵来"的超级测试场,专门检验AI在科学推理方面的真实能力。这个名字本身就很有意味——ATLAS意为"AGI导向的科学逻辑应用测试平台",寓意着要像古希腊神话中扛起天空的巨人一样,承担起衡量AI真实科学推理能力的重任。

想象一下,如果把现有的AI测试比作小学数学题,那么ATLAS就像是博士入学考试。它不满足于简单的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

空军发布重磅视频 多款新型战机亮相

参考消息 浏览 1770

“史上最长”春节点燃旅游热情 已有心急旅客下单

新京报 浏览 7870

女演员被前夫指责害死公公 本人称愿接受刑事立案调查

极目新闻 浏览 26096

记者:福登疑似手部骨折,具体伤情还要等待扫描结果

懂球帝 浏览 1659

广汽华为启境任命刘嘉铭为CEO 合作进入实质阶段

太平洋汽车 浏览 3317

针对配置进行升级 新款小鹏G9官图发布

车质网 浏览 1752

特斯拉在华重要招聘!

电动知家 浏览 1902

抖音发布2025直播治理白皮书,违规曝光量减少37%

财闻 浏览 1709

上海网友在日料店里吃出蛆虫 蛆虫还在炸鸡上蠕动

极目新闻 浏览 20666

爱妻朱媛媛离世5月后,辛柏青又传来坏消息

阿废冷眼观察所 浏览 2850

NBA战报:爵士123-110篮网,马尔卡宁30+8+1

懂球帝 浏览 2217

50、60岁的女人就要这么穿!自然老去,不扮嫩反而更美了

静儿时尚达人 浏览 2798

《求是》杂志特约评论员:改善和稳定房地产市场预期

365财经plus 浏览 1839

就业网站Indeed数据:美国10月职位空缺跌至2021年2月以来最低

华尔街见闻官方 浏览 2507

运营商保险动作分化:中国移动线下开卖保险,电信旗下两张中介牌照相继摆上货架

蓝鲸新闻 浏览 1582

扎哈罗娃:俄罗斯保留对日本采取强硬回应的权利

环球网资讯 浏览 2245

秋天穿衣真的一点都不难!从这些穿搭中收获灵感,舒适又耐看

静儿时尚达人 浏览 2445

米兰未来3-0斯坎佐罗夏特,伊布儿子为米兰未来首开记录

懂球帝 浏览 3518

美海军罕见宣布:解除一弹道导弹核潜艇指挥官职务

环球时报国际 浏览 2901

长安启源全新 Q05 车型 11 月 21 日上市,纯电续航 506km

IT之家 浏览 2537

女子被丈夫掐脖致偏瘫:他曾嫌女儿吵闹用烟头烫她胳膊

极目新闻 浏览 8949
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1