中文搜索引擎指南网
标题:
OpenAI 的创始成员Karpathy《2025 大模型年度回顾》
[打印本页]
作者:
sowang
时间:
3 天前
标题:
OpenAI 的创始成员Karpathy《2025 大模型年度回顾》
@欧巴聊AI
如果是别人写年终总结,你可能只会扫一眼开头和结尾,觉得没啥意思就划走了。
但,这是 Andrej Karpathy。
他是 OpenAI 的创始成员,前特斯拉的 AI 总监。
曾亲手打造了特斯拉的自动驾驶系统,是全球公认的顶尖 AI 大神。
他还是一名无私的超级导师,因为他擅长把最深奥的 AI 技术,讲得通俗易懂。
并免费在网上教普通人写代码,被无数 AI 爱好者视为引路人。
本文是他刚刚发布的博客,名字叫 《2025 大模型年度回顾》。
Karpathy 讲了几个极其反直觉,却又精准解释了当下 AI 现状的观点。
为了让你轻松读懂,我进行了翻译润色和配图,希望能帮你重新校准对 AI 的理解。
下面开始。
2025 年是大语言模型(LLM)发展强劲,大事不断的一年。
以下,是我个人认为改变了行业格局,在概念上令人耳目一新的范式转变清单。
------
1、基于可验证奖励的强化学习 (RLVR)
在 2025 年初,各大顶尖实验室的大模型生产流水线通常长这样:
- 预训练 (Pretraining):比如 GPT-2/3 (约 2020 年)
- 监督微调 (SFT):比如 InstructGPT (约 2022 年)
- 人类反馈强化学习 (RLHF):(约 2022 年)
这是过去几年,大模型开发的标准配方。
但在 2025 年,基于可验证奖励的强化学习 (RLVR) 异军突起,成为这一配方中必选的核心调料。
简单说,就是把模型扔进数学或者编程谜题,这种答案非黑即白的环境中训练。
因为答案是客观可验证的,模型就能收到明确的奖惩反馈。
在这个过程中,神奇的事情发生了。
大模型自发涌现出了类似人类推理的策略。
它们学会了将一个大问题拆解为多个中间步骤,甚至掌握了反复推敲的解题技巧 (参考 DeepSeek R1 论文)。
在旧范式下,我们很难教模型如何推理,因为完美的思考路径很难定义。
而现在模型为了拿到奖励,自己摸索出了最适合它的思考方式。
传统的 SFT 和 RLHF 阶段通常相对轻量,但 RLVR 不同,它针对客观奖励进行长时间的深度优化。
虽然很消耗算力,但性价比极高,甚至挤占了原本用于预训练的预算。
因此,2025 年的能力飞跃,主要归功于实验室吃透了这一新阶段的红利。
你会发现,虽然模型体量变化不大,但它们在强化学习炉子里训练的时间大幅延长了。
此外,我们获得了一个全新的杠杆。
通过增加模型在生成内容时的思考时间,我们可以直接提升它的能力表现。
OpenAI o1 (2024 年末) 是这一类模型的首秀。
而 o3 (2025 年初),则成为了那个让人直观感受到质变的拐点。
------
2、参差不齐的智能
2025 年,是我们开始直观的,真正理解大模型智能的形状的一年。
我们终于意识到,我们并非在培育一只动物,而是在召唤一个幽灵。
大模型的一切都与动物截然不同,比如神经架构,训练数据,算法和优化目标。
所以,如果继续用看待动物的眼光去审视它,是不合适的。
想想二者的区别。
人类的神经网络为生存而优化。
大模型则为了模仿人类文本,解题得分和在竞技场里赢得人类的点赞而优化的。
正因为有了 RLVR(基于可验证奖励的强化学习),大模型在那些有标准答案的领域里能力暴涨,像刺一样突出来。
这就导致了整体表现,呈现出一种滑稽的锯齿状特征。
它们既是一个通晓万物的天才博学家,又是一个容易被简单手段蒙骗的懵懂小学生。
这也导致我在 2025 年对基准测试失去了兴趣,甚至不再信任。
核心问题在于,基准测试本质上也是一个可验证的环境。
只要是可验证的,就会被 RLVR 针对,或者被合成数据定向刷榜。
各大实验室为了刷分,不可避免的会针对测试题所在的领域进行特训。
让模型专门长出几个尖锐的锯齿,来覆盖这些测试点。
针对测试集训练,已经变成了一门新的艺术。
最后,留给我们一个深思的问题。
如果我们粉碎了所有的基准测试,拿到了满分,却依然没有实现 AGI(通用人工智能)。
那会是一个怎样的世界?
------
3、Cursor,LLM 应用的新层级
Cursor 今年的爆发式增长固然耀眼,但我觉得更重要的是。
它令人信服的揭示了大语言模型(LLM)应用的一个全新图层。
Cursor 除了今年的爆发式增长外,更重要的是,它定义了 LLM 应用的新层级。
现在,人们开始讨论寻找某某某领域的 Cursor。
正如我在 Y Combinator 演讲中所强调的,像 Cursor 这样的应用,本质上是在为特定的垂直领域,打包和编排 LLM 的能力。
- 负责上下文工程
- 在后台编排复杂的 LLM 调用链,平衡性能与成本
- 提供专用的 GUI 界面
- 提供自主性滑块
2025 年,行业里关于这个新应用层到底有多厚,护城河深不深的争论从未停止。
大模型实验室会吞噬所有应用吗?
还是说应用层依然有广阔的青青草原?
我个人的判断是,大模型实验室将致力于培养能力通用的大学毕业生。
而 LLM 应用层的机会,在于利用私有数据,传感器和反馈循环。
将这些毕业生组织起来,把他们变成特定垂直领域里真正能干活儿的专业团队。
------
4、Claude Code,活在你电脑里的小精灵
Claude Code,我们简称为 CC。
是业界第一次令人信服的展示了 LLM Agent 智能体该有的样子。
不再是简单的问答,而是能够循环的串联起工具使用与逻辑推理,去解决那些长流程的复杂问题。
但对我来说,CC 最具颠覆性的一点在于。
它运行在你的电脑上,完全拥有你的私有环境,数据和上下文。
在这个问题上,我认为 OpenAI 犯了一个方向性错误。
他们早期太过于执着云端容器,虽然成群结队的云端 Agent 看起来像是 AGI 的终局形态。
但在当下这个能力参差不齐的过渡阶段,把 Agent 直接跑在开发者的电脑上,才更具有现实意义。
这里有个关键点,重要的不是 AI 的运算发生在本地还是云端。
重要的是它能触碰到什么。
它需要访问你现成的电脑环境,安装好的软件,你的上下文,本地数据,密钥配置,以及享受更低延迟的交互。
Anthropic 赌对了,他们把 CC 打造称一个极简的,令人愉悦的命令行 CLI 工具。
这彻底改变了 AI 的面貌。
你不必非要打开浏览器去网站里访问,它变成了一个活在你电脑里的小精灵。
这是一种全新的,与 AI 交互的范式。
------
5、Vibe coding 氛围编程
2025 年,AI 终于跨越了那道关键能力的门槛。
现在,你只需要用英语描述你想要的氛围 Vibe,就能构建出令人惊叹的程序。
代码本身变得不再重要。
有趣的是,Vibe Coding 这个词是我在一篇随手写下的推文里创造出来的,当时完全没想到它会产生如此深远的影响。
Vibe Coding 的核心在于平权。
变成不再是受过严格训练的专业人士的特权,它变成了人人都能做的事。
这完全印证了我在之前文章里的观点。
与其他技术不同,普通人从 AI 中获得的收益,其实比专业人士更多。
但这不仅仅是关于普通人的故事。
Vibe Coding 也让专业人士的效率发生了质变,让我们写出了原本永远不会被写出来的软件。
举几个我的亲身经历。
- 越级挑战:我用 Rust 语言 Vibe Code 出了一套高效的 BPE 分词器。我不需要去啃 Rust 艰涩的语法,也不需要引入现成的库,直接描述需求,代码就来了。
- 快速验证:今年我写了大量的小项目(比如 menugen,llm-council 等),都是为了快速演示脑子里的一个想法。
- 一次性代码:这是最疯狂的,我甚至会为了定位一个 Bug,而专门生成一整个临时的 App 来辅助调试。
代码突然变得免费了,变成了一种用完即弃的一次性用品。
Vibe Coding 正在重塑整个软件行业,也在改写我们每个人的职位描述。
------
6、Nano banana,LLM GUI
Google 的 Gemini Nano banana,是本年度最不可思议,最具范式转移的模型之一。
我的世界观是这样的,大模型就是 20 世纪 70、80 年代的计算机,它是下一代的计算范式。
历史总是惊人的相似,我们将见证类似的演进路径。
我们会看到大模型时代的个人计算设备,微控制器等等。
具体到交互(UI/UX)上,目前跟 LLM 聊天,本质上就像是在 80 年代对着黑底白字的命令行敲代码。
文本,是计算机和大模型最偏爱的原始数据格式,但却不是人类偏爱的格式。
说实话,人类其实很讨厌读大段的文字,既慢又费劲。
人类是视觉和空间动物,这就是为什么传统计算机会发明 图形用户界面 (GUI)。
同理,LLM 也应该用我们最喜欢的格式来交流。
直接生成图片,图表,幻灯片,白板,动画,视频,甚至是 Web 应用。
目前我们用的 Emoji 和 Markdown,充其量只是给文本穿了件衣服,搞搞排版而已,治标不治本。
那么,谁来构建 LLM 的原生 GUI 呢?
Nano banana 给出了最早的暗示。
它的革命性不在于生成图像这个动作本身,而在于它将文本生成,图像生成和世界知识,全部揉合在了模型权重里。
它不再是说话,而是直接渲染界面。
------
小结
2025 年,对大模型而言,是令人兴奋且略感意外的一年。
LLM 正在涌现为一种全新的智能形态。它极其矛盾。
同时表现得比我预期的更聪明,也比我预期的更愚笨。
但无论如何,它们已极具实用价值。
我敢断言,哪怕仅基于当下的能力,行业对其潜力的挖掘还连 10% 都不到。
这片领域依然旷野广阔,还有太多的想法值得去尝试。
正如我在今年早些时候的 Dwarkesh 播客中所言,我持有一个看似矛盾的观点:
我们将见证持续且快速的进步,但同时,前方也还有漫长的路要走。
系好安全带。
------
尾声
读完 Karpathy 的总结,我长舒了一口气。
说实话,在翻开这篇年度回顾之前,我潜意识里期待看到的是一个全知全能的 AI 之神。
但 Karpathy 给我看的,却是一个严重偏科的怪才。
它逻辑推理强得可怕,但在常识问题上常常翻车。
Karpathy 说,即便到了今天,我们对它的挖掘还不到 10%。
这句话,应该是对今年 AI 最好的总结。
游戏才刚刚开始,剩下的 90% 正是留给你我的机会。
坦率地说,这种参差不齐的智能,也是我们安全感的来源。
因为机器有短板,所以它需要一名驾驭者。
人,永远要站在机器之上。
所以,为什么还要焦虑呢?
不要担心自己跟不上那些眼花缭乱的新词汇,新概念,新工具。
你只需要记住一点。
在这个新世界里,你的想法,你的审美,你对自己和世界的感知,正在变得前所未有的珍贵。
Karpathy 最后让我们系好安全带,但我更想说的是。
AI 这辆飞驰的列车虽然拥有惊人的引擎,但它永远不会知道终点在哪里。
它只会一往无前的加速。
只有你能告诉他。
我们为什么要出发,我们要去向何方。
原文传送门:karpathy.bearblog.dev/year-in-review-2025/
欢迎光临 中文搜索引擎指南网 (http://www.sowang.com/bbs/)
Powered by Discuz! X3.2