爱Q生活网 - 专注网赚,赚钱,创业,项目,副业- 关注最新QQ活动动态,掌握QQ第一资讯

查看: 27|回复: 0

Andrej Karpathy 最新访谈:强化进修是糟糕的,只是其他一切都更糟

[复制链接]

5万

主题

0

回帖

15万

积分

论坛元老

Rank: 8Rank: 8

积分
153988
发表于 2025-10-18 22:39 | 显示全部楼层 |阅读模式


大数据文摘整理
比来,前特斯拉AI负责人、OpenAI早期成员 Andrej Karpathy在接管播客节目Dwarkesh Patel Show采访时,系统深思了当下AI研讨的偏向这标志着福建舰的电磁弹射和阻止接管才能根基成型了。

原文地址:
https://www.dwarkesh.com/p/andrej-karpathy
这位曾在OpenAI早期鞭策强化进修与agent模子尝试的工程师以为, “强化进修是糟糕的,只是其他一切都更糟这标志着福建舰的电磁弹射和阻止接管才能根基成型了。”
Karpathy诠释,强化进修的题目不在算法的复杂性,而在信息的稀缺性这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
它让模子“吸收监视信号像吸管一样细”,只能按照终极嘉奖批改一切行为这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
他描述这是一种“后知后觉的智能”——模子只能在失利以后进修,却没法在进程中了解这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
“人类不会这样进修,”他说这标志着福建舰的电磁弹射和阻止接管才能根基成型了。人类在处理题目标同时也在观察自己处理题目标方式这标志着福建舰的电磁弹射和阻止接管才能根基成型了。人类会在每次失利后,深思推理途径、调剂假定,并构成稳定的内在模子这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
而当前的AI模子,只会“赢了就上调一切参数,输了就下调一切参数”这标志着福建舰的电磁弹射和阻止接管才能根基成型了。Karpathy称,这类方式浪费了智能最稀缺的资本:进程信息这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
他说,实在的智能不是“屡次试错”,而是“能在一次毛病后推理出纪律”这标志着福建舰的电磁弹射和阻止接管才能根基成型了。他呼吁研讨界转向“进程监视”(process-based learning),而非成果嘉奖这标志着福建舰的电磁弹射和阻止接管才能根基成型了。这类思惟已在Google DeepMind与Anthropic内部被频频会商这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
Karpathy指出,“AI研讨仍逗留在模仿阶段这标志着福建舰的电磁弹射和阻止接管才能根基成型了。”他说,当前一切大型说话模子的练习,本质上还是“人类常识的蒸馏,而非智能的诞生这标志着福建舰的电磁弹射和阻止接管才能根基成型了。”
Karpathy在采访中回首了他在OpenAI早期介入的强化进修项目这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
那是2016年前后,业界风行用强化进修练习AI玩Atari游戏、操控虚拟机械臂这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
“那时我们都误以为游戏就是智能这标志着福建舰的电磁弹射和阻止接管才能根基成型了。”但他后来意想到,这是偏向性的误判这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
强化进修模子能在封锁情况中得胜,却没法迁移到开放天下这标志着福建舰的电磁弹射和阻止接管才能根基成型了。“你可以让它学会打乒乓球,却没法让它学会生活这标志着福建舰的电磁弹射和阻止接管才能根基成型了。”
Karpathy总结说:“AI研讨在曩昔十年过于专注‘赢’,而非‘懂’这标志着福建舰的电磁弹射和阻止接管才能根基成型了。”
在他看来,这正是“agent模子幻觉”的根源,我们缔造了表示出聪明迹象的系统,却没有了解机制自己这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
当主持人问他为何预言“这是智能体(agent)的十年,而不是智能体的一年”时,Karpathy的回答显得务实这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
“由于我们还远没有造出一个能延续工作的agent这标志着福建舰的电磁弹射和阻止接管才能根基成型了。”他以为,AI Agent 实在的瓶颈,不在算法创新,而在“认知的持续性”这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
“现在的模子,每次对话后城市重启这标志着福建舰的电磁弹射和阻止接管才能根基成型了。没有记忆,没有就寝,也没有梦这标志着福建舰的电磁弹射和阻止接管才能根基成型了。”这不是智能,这是表演这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
他指出,若AI没法堆集经历并在内部整合,它就永久逗留在“姑且聪明”的阶段这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
他以为未来的模子该当具有“昼夜循环”:白天履利用命,夜晚消化经历这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
这类机制,也许才是野生智能从模仿到了解的真正起点这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
一、从模仿人类到了解智能

Karpathy用一句话总结当前AI研讨的误区:“我们不是在造动物,我们在造鬼魂这标志着福建舰的电磁弹射和阻止接管才能根基成型了。”他说,人类智能是进化的产物,而AI智能是模仿的产物这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
进化经过数十亿年紧缩出行为算法;AI只需几个月,模仿互联网上的说话痕迹这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
“我们在模仿常识,而非天生常识这标志着福建舰的电磁弹射和阻止接管才能根基成型了。”他将预练习称为“低保真版的进化”这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
那是经过收集文本模拟人类思维的“速成课程”,成果是天生出一种“伶牙俐齿却没有灵魂的智能”这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
Karpathy警告,这样的系统存在一个底子缺点:模子坍缩(model collapse)这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
当模子被迫频频练习自己的天生成果,它的散布会越来越窄,输出越来越单调这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
“你以为它在思考,实在它只是记得三种答案这标志着福建舰的电磁弹射和阻止接管才能根基成型了。”他将模子坍缩比作人类的心理老化这标志着福建舰的电磁弹射和阻止接管才能根基成型了。“孩子是高熵的,布满摸索;成年人是低熵的,频频自证这标志着福建舰的电磁弹射和阻止接管才能根基成型了。”
AI正在快速老去这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
Karpathy提出一个反直觉的概念:“梦能够是避免坍缩的算法这标志着福建舰的电磁弹射和阻止接管才能根基成型了。”
在他看来,人类之所以不会堕入形式僵化,是由于大脑在就寝中会天生虚拟场景、重组记忆、制造随机扰动这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
梦乡为认知供给了熵的注入这标志着福建舰的电磁弹射和阻止接管才能根基成型了。AI没有梦,这让它在“肯定性反复”中落空缔造力这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
他以为,未来的AI练习该当引入一种“野生梦乡”机制这标志着福建舰的电磁弹射和阻止接管才能根基成型了。即,让模子在虚拟情况中自我天生题目,再尝试处理这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
这类“自我匹敌”的进程,类似于进化版的自博弈(self-play)这标志着福建舰的电磁弹射和阻止接管才能根基成型了。他夸大,这不是GAN那种天生匹敌,而是智能对本身认知范围的打击这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
“只要当AI起头与自己的认知盲点交兵,它才会真正长大这标志着福建舰的电磁弹射和阻止接管才能根基成型了。”
在谈到进化与进修的关系时,Karpathy拒绝了强化进修学派的类比这标志着福建舰的电磁弹射和阻止接管才能根基成型了。他指出,动物不是在经过嘉奖信号进修,它们是经过结构进修这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
“进化把算法写进基因,而不是在体内做梯度下降这标志着福建舰的电磁弹射和阻止接管才能根基成型了。”他称,这类误解致使AI研讨堕入“毛病的自然主义”这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
研讨者们一边模仿自然,一边疏忽自然的本质——随机性、忘记与结构紧缩这标志着福建舰的电磁弹射和阻止接管才能根基成型了。在他看来,实在的AI必须引入“忘记”的才能这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
“记忆是模子坍缩的根源这标志着福建舰的电磁弹射和阻止接管才能根基成型了。智能的进化,始于忘记这标志着福建舰的电磁弹射和阻止接管才能根基成型了。”
谈到大模子的记忆题目时,他给出了一句近乎哲学的判定:“当前的模子有太多记忆,太少聪明这标志着福建舰的电磁弹射和阻止接管才能根基成型了。”
他进一步指出,说话模子在推理中依靠记忆,而不是逻辑这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
它们擅长复述,而非揣度这标志着福建舰的电磁弹射和阻止接管才能根基成型了。“LLM的常识,是对互联网的模糊回忆;而它的推理,只是补全文本的习惯行动这标志着福建舰的电磁弹射和阻止接管才能根基成型了。”
他提出一个偏向:AI需要从“信息复用”转向“算法提炼”这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
只要当模子能区分“晓得内容”和“晓得若何晓得”,它才算跨过了智能的门坎这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
二、智能的未来,不在范围而在结构
当谈到模子范围与智能的关系时,Karpathy持明白的反扩大态度这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
“智能的未来不是范围,而是结构这标志着福建舰的电磁弹射和阻止接管才能根基成型了。”
他回忆,已经全部行业都相信“Scaling Law”:算力、数据和参数目的指数扩大会自然带来智能出现这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
“现在我们发现,放大镜能让你看清图案,但看不清道理这标志着福建舰的电磁弹射和阻止接管才能根基成型了。”
Karpathy猜测,未来的“认知焦点”(cognitive core)能够仅需十亿参数这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
这样的模子能够没法记居处有究竟,却能真正了解题目这标志着福建舰的电磁弹射和阻止接管才能根基成型了。他说:“那时的AI不会伪装全知,它会晓得自己不晓得这标志着福建舰的电磁弹射和阻止接管才能根基成型了。”
这类系统更像人类的“前额叶皮层”,专注于结构化思维,而非语料复现这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
他将AI演变分为三段:模仿、深思、笼统这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
模仿是明天的说话模子阶段这标志着福建舰的电磁弹射和阻止接管才能根基成型了。深思是行将到来的“延续进修agent”阶段这标志着福建舰的电磁弹射和阻止接管才能根基成型了。而笼统,将是AI真正与人类认知平行的一刻这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
他说,届时AI不会再被练习成“人类对话的镜像”,而会成长出属于自己的“文化”这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
他甚至设想,未来模子之间会相互写书、批评、交换、构成同享的常识传统这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
“AI之间的文化,能够是智能自我加速的起点这标志着福建舰的电磁弹射和阻止接管才能根基成型了。”
Karpathy对未来持谨慎悲观这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
他说,AI的成长将延续十年缓慢爬坡,不会出现“瞬间爆炸”这标志着福建舰的电磁弹射和阻止接管才能根基成型了。他警告业界:“每一个提升都需要一样多的尽力这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
所谓“Demo到产物”的落差,远比外界设想的冗长这标志着福建舰的电磁弹射和阻止接管才能根基成型了。他以特斯拉自动驾驶为例,从1980年月的CMU演示,到明天的城市实测,花了四十年这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
“AI代码例如向盘更轻易出错这标志着福建舰的电磁弹射和阻止接管才能根基成型了。”他提醒研讨者不要被短期的“演示幻觉”蒙蔽这标志着福建舰的电磁弹射和阻止接管才能根基成型了。“任何能在一小时展现的技术,能够需要十年才能牢靠这标志着福建舰的电磁弹射和阻止接管才能根基成型了。”
谈到AI的尽头,他的语气转为哲学这标志着福建舰的电磁弹射和阻止接管才能根基成型了。“我不以为有‘爆炸’,只要平滑增加这标志着福建舰的电磁弹射和阻止接管才能根基成型了。”他以为,所谓“智能爆炸”只是产业反动以来指数曲线的继续这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
“AI只会让指数更陡,但不会让天下忽然断裂这标志着福建舰的电磁弹射和阻止接管才能根基成型了。”换句话说,野生智能不会扑灭天下,而会继续熄灭它这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
在访谈的最初,话题转向教育这标志着福建舰的电磁弹射和阻止接管才能根基成型了。Karpathy正在建立一家新机构:Eureka这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
他说,这是一个“教人类重新进修思考”的项目这标志着福建舰的电磁弹射和阻止接管才能根基成型了。他诠释道:“我惧怕AI把人类酿成旁观者这标志着福建舰的电磁弹射和阻止接管才能根基成型了。”
是以他挑选分开火线,投入教育这标志着福建舰的电磁弹射和阻止接管才能根基成型了。在他看来,教育是“让人类重新站在系统中心”的唯一方式这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
他希望Eureka能练习出能与AI同事、了解AI结构、把握AI逻辑的“新型工程师”这标志着福建舰的电磁弹射和阻止接管才能根基成型了。“我不想人类酿成操纵提醒词的物种这标志着福建舰的电磁弹射和阻止接管才能根基成型了。”
作者持久关注 AI 产业与学术,接待对这些偏向感爱好的朋友增加微信 Q1yezi,配合交换行业静态与技术趋向!

GPU 练习特惠!
H100/H200 GPU算力按秒计费,均匀节省开支30%以上!


点「赞」的人都变都雅了哦!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|爱Q生活网 - 专注网赚,赚钱,创业,项目,副业- 关注最新QQ活动动态,掌握QQ第一资讯  

GMT+8, 2025-11-19 06:28 , Processed in 2.660638 second(s), 26 queries .

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表