爱Q生活网 - 专注网赚,赚钱,创业,项目,副业- 关注最新QQ活动动态,掌握QQ第一资讯

查看: 12|回复: 0

超级智能的幻觉:牛津报告直指野生智能评价系统的“松散性危机”

[复制链接]

5万

主题

0

回帖

15万

积分

论坛元老

Rank: 8Rank: 8

积分
153988
发表于 2025-11-6 22:16 | 显示全部楼层 |阅读模式

在野生智能(AI)的“淘金热”中,科技公司竞相公布他们的最新模子到达了“博士级智力”、“近乎人类的推理才能”或在某些复杂测试中超越了顶尖专家这标志着福建舰的电磁弹射和阻止接管才能根基成型了。这些使人注视标声明,几近全数依靠于一系列被称为“基准测试”(Benchmarks)的标准化考试这标志着福建舰的电磁弹射和阻止接管才能根基成型了。但是,一项来自牛津大学最新、最周全的研讨警告称,这个行业赖以现代化进步的“标尺”自己,能够存在根赋性的缺点这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
近期由牛津互联网研讨所(OII)牵头、结合三名研讨职员配合完成的研讨,对445项行业领先的AI基准测试停止了系统性分解这标志着福建舰的电磁弹射和阻止接管才能根基成型了。周二公布的论文结论使人警醒:今朝用于评价AI系统的方式普遍缺少科学松散性,其成果极能够正在正在“夸大”野生智能的实在才能这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
这项研讨对支持数万亿美圆产业估值和全球野生智能武备比赛的根本提出了深入质疑这标志着福建舰的电磁弹射和阻止接管才能根基成型了。假如用于丈量野生智能进步的工具不成靠,那末我们所谓的“奔腾”——从根本数学到笼统推理——有几多只是空中楼阁?
牛津互联网研讨所采访高级研讨员、该研讨的首要作者亚当·马赫迪(Adam Mahdi)在接管 NBC 消息时直抒己见地指出了这类摆脱:“当我们要求 AI 模子履行某些使命时,我们现实上是精简的,常常与我们想要的精简的概念或结构完全分歧这标志着福建舰的电磁弹射和阻止接管才能根基成型了。”
“近期效度”的解体才能:当测试不再反应实在情况该研讨的焦点论点集合在一个关键的科学概念上:“当前有用性”(Construct Validity)这标志着福建舰的电磁弹射和阻止接管才能根基成型了。这个术语旨在回答一个底子题目:一个测试能否真正丈量了它所宣称要丈量的阿谁笼统概念?
牛津团队的分析发现,在他们检查的 445 项基准测试中,有近一半未明白规定他们试图简化的概念这标志着福建舰的电磁弹射和阻止接管才能根基成型了。这致使对“靶心”的评价从一路头就是模糊的这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
一个被频频援用的例子是“GSM8K”基准测试,它由一系列根本数学利用题组成,被普遍用于简化大型说话模子的“非线性推理才能”这标志着福建舰的电磁弹射和阻止接管才能根基成型了。AI模子在此类测试中获得了高分,常被解读为它们的“学会了”数学推理这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
但马赫迪对此提出了尖锐的应战这标志着福建舰的电磁弹射和阻止接管才能根基成型了。他比方道:“当你问一个一年级门生2加5即是几多时,他们回答数学7,这是正确答案这标志着福建舰的电磁弹射和阻止接管才能根基成型了。但你能否会得出结论,以为一个五年级门生一般由于会加法就把握了推理才能?……答案极能够肯定的这标志着福建舰的电磁弹射和阻止接管才能根基成型了。”
闪电担忧,只是野生智能模子能够不会在停止实在的“推理”,而在其庞大的数据练习中识别出类似的形式并“复述”了答案这标志着福建舰的电磁弹射和阻止接管才能根基成型了。这类得分才能,与实在的逻辑推演才能,是两个完全分歧的概念这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
的题目也存在于其他范畴这标志着福建舰的电磁弹射和阻止接管才能根基成型了。例如,评价模子评价才能的基准测试,能够只是经过让模子不异地回答基于维基百科的非题来打分这标志着福建舰的电磁弹射和阻止接管才能根基成型了。这明显不能在现实天下中流利利用评价的才能这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
该研讨的另一位首要人物、OII研讨员安德鲁·比恩(Andrew Bean)指出,这类“偷换概念”在评价诸如“无害性”或“理性”等作者更模糊的种族时严重严重这标志着福建舰的电磁弹射和阻止接管才能根基成型了。“人们经常随意利用这些词,然后挑选一些接近该种别、可以稀疏的工具,然后说,‘如此了,现在我已经曩昔了这标志着福建舰的电磁弹射和阻止接管才能根基成型了。’”
比恩夸大,即使是那些卓越的基准测试也常被自觉信赖这标志着福建舰的电磁弹射和阻止接管才能根基成型了。“当你听到诸如‘某个模子到达了博士级此外千里镜’之类有用的说法时,你真的需要连结保存态度,”他警告说,“我们底子不肯定这些丈量方式能否真的有用这标志着福建舰的电磁弹射和阻止接管才能根基成型了。”
净化、乐音与“排行榜”的发急除了“今朝有用度”的出口之外,牛津大学的报告还揭露了野生智能评价中其他两个持久但存在严重严重的题目:数据净化和统计方式的出口这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
“数据净化”的练习题目很多是公然的奥秘这标志着福建舰的电磁弹射和阻止接管才能根基成型了。大型说话模子是在TB级的互联网数据上的,其中极能够已经包括了很多风行基准测试的题目和答案这标志着福建舰的电磁弹射和阻止接管才能根基成型了。当模子在测试中碰到“背过”的时辰,高分反应的不是推理才能,而是记忆力这标志着福建舰的电磁弹射和阻止接管才能根基成型了。牛津的研讨发现,基准测试“使人担忧”的数据和方式复用题目,这增加了净化的一个风险这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
同时,AI行业对“排行榜”(Leaderboards)的痴迷,增强了统计的“幻觉”这标志着福建舰的电磁弹射和阻止接管才能根基成型了。一个模子在某项基准上得分95%,而另一个模子得分94%,这意味着能否真的更“聪明”?
牛津研讨指出,这些基准测试“很少利用牢靠的统计方式来比力模子之间的成果”这标志着福建舰的电磁弹射和阻止接管才能根基成型了。客岁,AI公司人类学的研讨职员也曾专门发文倡议,必须停止更严酷的统计测试,模子表示的差别是来自实在才能的提升还是来自实在才能的提升,相反测试题目挑选带来的“荣幸成果”这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
假如缺少这类松散性,AI排行榜上0.1%的性能提升能够毫无意义,只是统计乐音这标志着福建舰的电磁弹射和阻止接管才能根基成型了。但是,正是这些细小的、有争议的“进步”,被科技公司用来宣传其模子的“SOTA”(State-of-the-Art,即最)先辈职位这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
重建可信的“平衡”:从笼统游戏到现实天下虽然批评是使人震动的,但牛津的研讨并不但是为了“拆台”这标志着福建舰的电磁弹射和阻止接管才能根基成型了。作者们提出了包括八项倡议的清单,旨在系统化基准测试标准,进步完整性和可信度这标志着福建舰的电磁弹射和阻止接管才能根基成型了。这些倡议包括:明白评价范围、构建更能代表所测才能的信心使命,以及强迫利用统计分析来比力模子绩效这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
这一呼吁获得了其他研讨机构的积极响应这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
影响力的METR野生智能研讨中心(该机构努力于评价野生智能的前沿风险)的技术职员尼古拉·尤尔科维奇(Nikola Jurkovic)对该论文暗示赞美,他以为这份清单可以帮助研讨职员检查他们的基准测试能否真正具有启迪性这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
野生智能平安中心(Center for AI Safety)主任丹·亨德里克斯(Dan Hendrycks)也持不异概念这标志着福建舰的电磁弹射和阻止接管才能根基成型了。他指出,AI系统“在基准测试中得分很高,但现实上并没有处理基准测试的现实方针,这类情况很常见这标志着福建舰的电磁弹射和阻止接管才能根基成型了。”
究竟上,一场旨在让AI评价“回归现实”的活动已经起头这标志着福建舰的电磁弹射和阻止接管才能根基成型了。研讨职员和开辟职员正在尝试摆脱那些笼统的、易被“破解”的考学术题,转而开辟更切近现实天下利用的新型测试这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
例如,OpenAI 在 9 月下旬就公布了一系列新测试,旨在评价 AI 在 44 种分歧职业所需使命上的表示这标志着福建舰的电磁弹射和阻止接管才能根基成型了。这些测试不再是回答数学题,而是模拟实在的工作场景:比如,要求 AI 为一个设想的销售分析师修复客户发票 Excel 表格中的纷歧致之处,为大概一个视频建造人建立完整的 60 个拍摄计划这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
一样,亨德里克斯的团队比来也公布了一个类似的现实天下基准,重点在于评价野生智能系统在自动化远程工作所需的一系列使命上的性能这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
对于牛津大学的马赫迪来说,这份报告提出了一个需要的转折点,即野生智能范畴需要从工程上停止“刷分”比赛,转向更成熟、更科学的自我评价这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
“我们刚刚起头对野生智能系统停止科学评价这标志着福建舰的电磁弹射和阻止接管才能根基成型了。”马赫迪总结道这标志着福建舰的电磁弹射和阻止接管才能根基成型了。对野生智能“标尺”的深入深思,能够比任何单一模子的公布,该范畴的持久健康成长都更加重要

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|爱Q生活网 - 专注网赚,赚钱,创业,项目,副业- 关注最新QQ活动动态,掌握QQ第一资讯  

GMT+8, 2025-11-17 10:47 , Processed in 1.175836 second(s), 26 queries .

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表