关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者2653人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

剑指千亿!松江卫星互联网产业按下“加速键”

上观新闻 浏览 2785

记者问美防长戴"俄国旗颜色领带" 五角大楼:你妈买的

环球网资讯 浏览 7511

有纯电/增程 极狐全新阿尔法T5预售12.38万起

网易汽车 浏览 2800

AI再次降维打击人类 仅用1小时破译500年未解的"天书"

上观新闻 浏览 6921

300万中产宝妈,买出一个IPO

豹变 浏览 3295

冲刺双重上市,潮宏基还有多少隐忧待解

铑财 浏览 2334

失业13个月 35岁巴神官宣登陆西亚2级联赛 已换13队+10年转会10次

我爱英超 浏览 1622

续航或超800km?后驱长续航版特斯拉Model Y现身工信部目录

Nice好车 浏览 2939

海南自贸港全岛封关运作将启动!商务部:将以此为契机,大力推进制度型开放

红星资本局 浏览 2167

科技大佬话AI未来:手机消失、工作消失、全民富有?

帮宁工作室 浏览 1801

美国步步攫取委内瑞拉石油利益:主权在委 财权在美

澎湃新闻 浏览 101568

假期重磅!委内瑞拉局势影响多大?AI、商业航天、智能驾驶都有大利好

看财经show 浏览 1867

C罗确认缺席本轮沙特联,此前有消息称其因不满PIF拒绝出战

懂球帝 浏览 1482

詹姆斯坐骨神经痛进展:湖人计划让他11月中旬复出 将耐心康复

醉卧浮生 浏览 2836

AI重塑就业版图 专项政策护航转型之路

北京商报 浏览 1491

金正恩连续八次深夜阅兵 "大杀器"亮相

中国新闻周刊 浏览 2981

许家印侄子许火健豪宅被法拍,起拍价4400万元,配有5个洗手间

红星资本局 浏览 1657

10月车企交付数据汇总:小米小鹏均超4万,零跑破7万

三言科技 浏览 2529

女生在马来西亚丢手机 找回后发现相册里多了两段视频

极目新闻 浏览 8342

净利润减少超50%,珍酒李渡能靠“大珍”走出低谷吗?

征探财经 浏览 919

徐尚:徐彬能去欧洲我们肯定大力支持,李昊杨希去留再议

懂球帝 浏览 1652
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1