关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者4187人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

星途神秘新车轮廓曝光 又一款性能SUV要来了?

网易汽车 浏览 282

关婷娜十大惊艳片段,成熟女人的魅力

喜欢历史的阿繁 浏览 5043

大学副教授成老赖仍开宝马用新手机 一次餐费花8000元

新京报 浏览 8753

俄军中将在汽车炸弹爆炸中身亡 现场画面披露

央视新闻客户端 浏览 3557

浩坤昇发资产观点:学会适应一个“正常上涨的市场” 潮落潮起终有信,再攀千点启新程

经理人杂志 浏览 4093

IDEA研究院发布LEMAS:首个15万小时多语言语音数据集

科技行者 浏览 3292

王力宏伴舞机器人高难度后空翻后稳稳落地,马斯克点赞!

大象新闻 浏览 3525

2019年资金荒隐现?全球货币市场流动性趋紧信号显现

华尔街见闻官方 浏览 4167

王健林交棒!万达电影更名,80后湖北富豪接盘

今古深日报 浏览 1244

30亿元“炸弹”入场!千问烧钱搅动AI春节红包大战

华夏时报 浏览 3148

升东部第二!绿军轻取公牛获4连胜 西蒙斯27分普里查德21分

醉卧浮生 浏览 3421

小米集团宣布最高25亿港元的自动股份回购计划并将注销

网易财经 浏览 3263

苹果发布第二代Vision Pro开发者连接带,传输速率提升至20 Gbps

IT之家 浏览 4158

何晴病重照流出,儿子跟前夫生活病中无亲属照顾,人生末路显凄凉

不八卦会死星人 浏览 3675

美国已正式开始出售委内瑞拉石油

新京报 浏览 3373

硬件不会绑定新特性:荣耀 Magic6 / 7 全系将支持追色和胶片功能

IT之家 浏览 4201

何超莲窦骁,婚变风波后首次同框

喜欢历史的阿繁 浏览 4138

姚期智:我们建成了世界上最好的量子实验室之一

上观新闻 浏览 4953

北京传媒大学和微软团队破解云端智能压缩难题

科技行者 浏览 4354

孙艺珍最新生图撞脸老公玄彬,43岁显出老态,剪短发装嫩太违和

萌神木木 浏览 4407

资深天使投资人肖庆平在西藏车祸离世 朋友圈内容披露

都市快报橙柿互动 浏览 4395
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1