关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1012537人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

潮汕三兄弟造“电驴”,9个月狂揽148亿

雷达财经 浏览 1456

“多巴胺风”又又又火了!这样穿时髦又减龄

LinkFashion 浏览 1458

赵磊:一个把粉丝当ATM,最后和私生锁死的男人

八卦三缺一 浏览 2323

《向往》收视回暖!黄磊动手做饭,明星干农活

萌神木木 浏览 2619

罗晋唐嫣婚变进入倒计时!?

八卦疯叔 浏览 2680

上海男子进不了门有家难回崩溃求救 网友狠狠共情了

环球网资讯 浏览 7222

一年要卖出400万辆车,零跑汽车发布未来十年战略

贝壳财经 浏览 1888

高管“换血”,股东内斗落幕!200亿淳厚基金迎国资入主

独角金融 浏览 1710

博斯:19轮联赛打进72球,这足以说明拜仁的实力有多强

懂球帝 浏览 1514

科技股遭重挫!纳指跌超2% 特斯拉跌5.15%

中新经纬 浏览 2469

韩国防部给出核潜艇下水时间点 此前韩国已向中方保证

澎湃新闻 浏览 15198

在普度寺,倾听BALMAIN八十年来的的呼吸

时尚COSMO 浏览 2221

高市早苗内阁"明显右转" 日本或开启"保守暴走"时代

上观新闻 浏览 6087

业绩承压下的豪赌:时空科技跨界收购存储芯片厂商嘉合劲威

国际金融报 浏览 2733

意媒:尤文有意引进拜仁小将利契纳,但尚未与拜仁接触

懂球帝 浏览 2868

AI算力需求疯狂,微软“新云”交易额超600亿美元

华尔街见闻官方 浏览 2563

星纪魅族前美女副总裁,转投小米公关部

财通社 浏览 941

岚图泰山将于11月上市 4颗激光雷达加持/还有后轮转向

网易汽车 浏览 2766

于根伟激励全队:付出最大的努力,把最后4轮比赛“咬”下来

懂球帝 浏览 2908

地缘因素引爆大宗狂欢!机构上调金价目标至5000美元,白银飙涨近8%,铜价再创里程碑

第一财经资讯 浏览 1749

美财长公然挑拨中阿关系:米莱承诺"让中国退出阿根廷"

环球网资讯 浏览 5681
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1