软件3.0时代来临:英语成为最新编程语言

刚刚结束的YC AI Startup School上，Andrej Karpathy带来了一场极具前瞻性的主题演讲，深入探讨了AI时代软件范式的根本性变革。

Karpathy提出我们已进入“软件3.0”时代——自然语言成为新的编程接口。他将LLM类比为新时代的“电力公司”、“芯片工厂”，认为我们处于“1960年代的计算机时代”。

演讲中，Karpathy不仅剖析了LLM的“类人心理”特征，更揭示了这一变革带来的机遇：通过自然语言大幅提升开发效率，催生部分自主产品的可能性，以及推动软件设计从“以人为主”转向“以智能体（agent）为核心”的新范式。

这场演讲信息密度极大，为开发者、创业者和科技从业者提供了理解AI原生软件未来的关键框架。

![Andrej Karpathy正在演讲][1]

全文约9000字，阅读时间预计 20 分钟。

推荐先浏览开头的<15大要点总结>，再深入阅读全文。

要点总结
----

**1. 软件正在经历第三次根本性变革**

过去70年软件基本未变，但近年内已发生两次快速变革。从传统代码到神经网络权重，再到大语言模型驱动的提示编程，编程范式正发生根本性转变。

**2. 软件1.0，2.0，3.0的演化**

软件1.0: 传统代码，如Python，C++

软件2.0: 神经网络的权重参数

软件3.0: 提示词Prompt

特斯拉自动驾驶系统迭代时，神经网络（软件2.0）逐步“吞噬” 传统代码（软件1.0）。当前提示词（软件3.0）正在以类似方式“吞噬”整个软件栈。

**3. LLM：类似电力公司、芯片工厂**

电力工厂：前期花巨资训练，后期按照token收费，低延时与高可用性。

芯片工厂：训练成本高，研发集中于头部大厂

**4. LLM：类似1960年的操作系统**
当前LLM生态类似于1960年代的操作系统：LLM=CPU，上下文=内存，Prompt = 程序。 LLM 贵且集中在云端，个人 LLM 革命未至，但本地推理初现（如 Mac mini 跑小模型）。

**5. LLM心理特征：强项与缺陷并存**

类似于“人类灵魂的模拟器”，具备超强知识广度。但常产生幻觉、缺乏持续记忆，易受安全攻击等。

**6. 自主滑块（Autonomy Slider）**

构建AI应用时，用户可以选择 AI 自主的程度。 例如，用户可以选择AI全自动写代码、半自动（AI修改人选中的代码），低自治（自动补全代码）等。用户具有控制权。

**7. 机会：部分自主（Partial Autonomy）应用**

软件未来逐步实现“部分自主化”，从人与AI协作完成任务，逐步实现Agent完全自主化。典型例子Cursor和Perplexity。支持自主滑块选择AI介入程度，提供可视化界面（GUI）辅助人类验证审核。

**8. 成功应用：构建“AI生成+人类验证”闭环**
AI当前仍不可靠，必须构建“AI生成+人类验证”的快速循环。GUI 设计极其重要，可大幅加速人类验证效率；并需要给AI“套上缰绳”，避免AI过度自主导致错误扩散。

**9. 教育与AI：构建可审计的学习路径**

教育产品应设计为两个应用：“教学”与“学习”分离。创建可审计的中间结构（课程），确保学习内容结构化、可追踪，从而避免AI“跑偏”。

**10. 2025-2035是Agent的十年**

对“2025是Agent元年”这一说法表示担忧。Agent自主软件的研发难度堪比自动驾驶，其成熟与普及可能需要十年周期。

**11. Vibe Coding：全民编程时代的到来**

自然语言成为新的编程语言，任何人都可以通过提示词（Prompt）生成代码（Vibe Coding）。这大幅降低了编程门槛，成为未来软件创作的主流方式。

**12. 重构Agent的互联网：文档与数据适配LLM**

当前大多数内容（网页、文档）是为人类设计的，LLM难以直接理解。未来应构建“LLM友好”的数据格式与接口，如Markdown格式、支持MCP协议的工具等。

**13. 钢铁侠战衣：从AI辅助到全自动化**
如同《钢铁侠》中的战衣，既可辅助增强人类能力，也可实现完全自主操作——我们将逐步推动AI从辅助工具走向完全自主的Agent。现阶段应构建“AI增强工具”而非酷炫的“Agent Demo”。

**14. 推荐看的3部电影**

《雨人》（Rain Man）

《记忆碎片》（Memento）

《初恋50次》（50 First dates）

第一部电影主角拥有近乎完美记忆，类比LLM能记住特定代码片段的超能力。后两部影片主角每天都会记忆重制，类似LLM无法保留上下文记忆。

**15. 现在是加入的黄金时代**

所有的软件需要被重写。构建新软件的机会前所未有。软件正从传统代码向大语言模型驱动的新时代跃迁，带来全新编程范式、应用形态及协作方式。

软件（又）变了
-------

——Andrej Karpathy

大家好，欢迎来到今天的分享。我是 Andrej Karpathy，非常高兴能在这里和大家聊聊“AI时代的软件”。

我听说台下有很多是本科、硕士甚至博士阶段的学生，正准备进入职场。我想说，现在是进入行业的绝佳时机，因为软件行业正在经历根本性的变革。

0. 软件的范式变革
----------

在过去的70年里，软件都没有出现过根本性的变化。

但过去几年，它经历了两次巨变。这意味着，我们将有大量软件需要被重写，也有大量新软件需要诞生。

有个工具叫“代码宇宙”（Map of Github)，它把整个开源软件的生态用图谱可视化，把整个软件世界看成是一张地图。

![640.webp][2]

几年前我注意到一种新的软件形态正在兴起，称之为“软件2.0”。

在软件2.0里，不是直接写程序，而是准备数据集，然后用优化器训练模型，最后得出一组参数。这些参数就是程序本身。

软件1.0：人类编写的代码（如Python、C++）

软件2.0：神经网络的权重参数

![software2.0][3]

Hugging Face 就像是软件2.0的 GitHub。比如下图中最大圆圈中间的点，是图像生成模型Flux的参数。每次微调就相当于在这个空间里的一次“代码提交”。

![640.webp][4]

下图中间是 AlexNet 图像识别网络，是过去我们熟悉的那种“固定功能神经网络”：比如图像到类别、语音到文字等。

![640.webp][5]

但最近发生了非常根本的变化：神经网络可以通过大语言模型（LLM）让来“编程”了。

我给它一个新名字：软件3.0，写给LLM大语言模型的Prompt提示词。提示词Prompt 就是程序，编程语言是英语。

软件1.0 是写给计算机的代码程序

软件2.0 是写给神经网络的权重参数

软件3.0 是写给LLM的提示词Prompt

举个例子，比如你要做情感分类，你可以通过：

软件1.0：写一堆Python代码

软件2.0：训练一个神经网络

软件3.0：直接写一句提示词（Prompt）

![640.webp][6]

Github上很多项目已经不是纯代码了，中间夹杂着大量英语。这是一个信号，一种全新的“代码语言”（英语）正在诞生。

几年以前我第一次意识到这点时发了一条推特：最火的新编程语言是英语。引起了很多人的关注。
![640.webp][7]

我在特斯拉负责自动驾驶系统（Autopilot）时，我们见证了软件2.0吞噬软件1.0的过程。
![640.webp][8]

那时候给车辆编写的自动驾驶系统，输入是摄像头图像，输出是转向和加速等控制指令。

系统底层有大量 C++ 编写的传统代码（软件1.0），同时也有一些神经网络来做图像识别（软件2.0）。

随着系统不断迭代，我们发现神经网络模型（软件2.0）的能力越来越强，与此同时，原本用C++编写的很多功能和逻辑（软件1.0）都被迁移到了软件2.0中，所以很多代码被删除了。

举个例子，很多来自不同摄像头、跨时间的信息拼接工作，原本是由代码完成的，现在全被删掉了。

软件2.0“吞噬”了软件1.0 的代码栈。我认为这一点非常了不起。

今天，我们似乎看到了同样的事情再次发生：软件3.0正在“吞噬”整个软件栈。
![640.webp][9]

我们现在有三种完全不同的编程范式：

软件1.0：传统代码
    软件2.0：神经网络权重
    软件3.0：提示词Prompt

未来的程序员需要熟练掌握这三种“编程思维”。训练一个神经网络？还是直接提示一个大语言模型？还是写一段显式的代码？

需要根据不同任务选择最合适的范式，并且可能需要在不同范式之间灵活切换。

1. LLM 大语言模型新范式
---------------

LLM： 公共设施（Utility，如电厂）
----------------------

斯坦福计算机教授吴恩达Andrew Ng 曾说过：“AI 就是新的电力。”

我认为这句话非常贴切。今天的大语言模型LLM很像一种“公共设施”（Utility）：

OpenAI、Anthropic、Google Gemini 等机构，像是建电厂，需要花巨大资本训练大模型

然后通过 API 按用量收费向所有人提供智能服务

我们按照每百万Token付费

![640.webp][10]

我们对这种API有很多类似于“公共设施”的需求：延迟低、稳定可用、输出质量一致。

就像用电一样，你不希望断电、不希望电压忽高忽低。

在电力系统中我们有电源切换器（比如电网、电池、发电机）。在 LLM 领域，我们有 OpenRouter，可以自由切换调用不同的大语言模型。

因为这些 LLM 是软件，不会像物理电站那样互相抢地盘，所以你可以拥有六家 LLM 供应商互相共存。

最近几天，很多 LLM 出现大面积“宕机”。我觉得特别有意思：LLM宕机，就像整个世界的“智力停电”了，全球范围内的人类集体变笨了。

这就是“智能依赖”带来的新现象。我们对 LLM 的依赖已经非常深了，这种趋势还会加剧。

LLM： 半导体工厂（Fab）
---------------

LLM 不仅像电力，它也像半导体工厂（Fab）。
![640.webp][11]

训练模型需要巨大的前期资金投入（CAPEx），而且技术栈越来越深，研究成果逐渐集中在大厂内部。

不过，这个类比也有点模糊，因为正如我提到的，这毕竟是软件，而软件的可塑性很强，防御性较弱。所以这是一个有趣的思考角度。

还有很多类比可以套用，比如“4纳米工艺节点”可能类似于某种拥有特定最大算力的集群。

当你使用Nvidia GPU时，如果你只做软件而不碰硬件，这有点像“无厂模式”（fabless）；

但如果你自己也在造硬件，并且在TPU上训练模型（比如谷歌），那就有点像“英特尔”模式，自研自产。

LLM： 操作系统
---------

我觉得最贴切的比喻是：LLM 正在变成一种操作系统。

![640.webp][12]

可以把 GPT、Claude、Gemini 类比成不同的闭源 OS 系统(Windows、macOS)；LLaMA 是开源生态里的 Linux。

我们现在还处在早期阶段，因为这些大语言模型目前还比较简单，但我们可以看到，它们会变得越来越复杂——不仅仅是模型本身，还包括工具使用（tool use）、多模态（multimodality）等等。

我画了下面这张图，你可以这样理解：

LLM = CPU

上下文窗口 = 内存

Prompt = 程序

工具调用和多模态交互 = 系统接口

![640.webp][13]

还有一些其他的类比也觉得很有意思，比如，你想安装一个应用：

在传统系统中你下载 VSCode，可以在 Windows、Linux、Mac 上运行

在 LLM 世界，你可以下载像 Cursor这样的IDE，它背后的LLM可以是 GPT、Claude、Gemini。

![640.webp][14]

1960年代的计算机阶段
------------

我们现在可能正处于类似1960年代的阶段。

当年，计算机非常昂贵和庞大，只能部署在中心化的数据中心。现在的大语言模型也是一样：运行成本非常高，所以大多集中在云端。

![640.webp][15]

像早期用终端机连接大型主机一样，我们每个人都是“远程用户”，通过网络去使用这些模型。

没人能独占一台大模型，所以我们采用“分时共享”（time sharing）——轮流使用它的算力。就像当年计算机运行时，我们只是批处理任务中的一个维度一样。

“个人计算机革命”还没有发生。因为从经济角度来说不划算。

但这并不意味着它不会发生。

我们已经看到了一些早期的迹象：比如Apple 的 Mac mini其实就很适合运行某些轻量的大语言模型。

这些模型在推理时内存占用高、但计算量相对较低，而 Mac mini 的架构刚好能很好地满足这一点。所以它在本地运行一些模型时表现也不错。

![640.webp][16]

我认为这是“个人智能计算机”时代即将到来的一个苗头。

当然现在还不知道未来真正的形态是什么。但在座的你们，有人就会成为那个发明它、定义它、或者让它走进现实的人。

还有一个类比：每次我用纯文本和大模型对话时，我都觉得自己像是在使用操作系统的命令行界面（Terminal）。这是一种直接、基于文字的交流方式。

![640.webp][17]

但目前还没有一个真正适用于所有任务的“图形用户界面”（GUI）。虽然有些 LLM 应用有各自的界面，但缺乏一个统一的跨任务GUI。未来这方面的探索空间还很大。

LLM 还有一点与传统操作系统不同，它逆转了技术扩散的方向。

![640.webp][18]

过去每一波新技术（电力、计算机、加密、GPS、计算机等）最先用的都是政府和大公司，因为它们有钱、有资源，而普通消费者则要等很久之后才能用。

但这次完全相反：LLM 是从消费者端率先爆发的。

早期计算机最先用于军事和弹道预测。而今天的 LLM，大家用来查“鸡蛋怎么煮”之类的日常问题。政府和企业反而慢了一拍。

总结一下：

它像电力、像半导体厂

类似于1960年的操作系统

分时共享，每个人都能用

ChatGPT 的发布，一夜之间就传到了全球数十亿人手中。太疯狂了。

现在轮到我们进入这个行业，去编程这些计算机了。这太不可思议了。

2. LLM的心理特征
-----------

LLM 类似于“人类灵魂”的随机模拟（Stochastic Simulation of People）。这里的“模拟器”是一个自回归Transformer 模型。

![640.webp][19]

这个模拟器基于整个互联网的所有文本进行训练，最终形成了一种“人”的模拟器。

因为基于人类数据训练，所以出现了这种“类人”的心理学特性。拥有百科全书式的知识，远超任何人。

强烈推荐大家看一部电影《雨人》（Rain Man），达斯汀·霍夫曼饰演的自闭症天才拥有近乎完美的记忆力，他可以看完一本电话簿并记住所有的名字和号码。

而大语言模型也能轻松记住各种哈希值、代码片段之类的东西。它们确实在某些方面拥有“超能力”。

![640.webp][20]

但它们也有严重的认知缺陷，比如说：

幻觉频发（Hallucination），编造事实

缺乏强大的“自我知识”模型（Self-knowleadge Model）

智能参差不齐，有些方面超人，有些地方低级错误百出（比如Strawberry 有两个 R，9.11大于9.9）

顺行性遗忘（Anterograde Amnesia，无法把新的信息转化为长期记忆）

![640.webp][21]

推荐大家看两部电影《记忆碎片》（Memento）和《初恋50次》（50 First dates）。

![640.webp][22]

两部电影的主角都有固定的“权重”，每天早上醒来时上下文窗口都会被清空（失忆），导致他们无法维持正常的人际关系。而这对LLM来说是常态。

此外，LLM还有安全性问题，容易受到“提示注入”（Prompt Injection）攻击，容易暴露数据。

所以，LLM不是万能的，我们需要了解它的长处与短板，发挥它的“超能力”，也要避免它的“坑”。

![640.webp][23]

3. AI应用的未来机会
------------

**部分自主应用 （Partial Autonomy Apps)**

这是我非常兴奋的一个方向。

以编程为例，你可以复制代码粘贴到ChatGPT问，但更合理的是使用一个专用工具，比如 Cursor，我也在用Cursor。

![640.webp][24]

**Cursor** 是一个典型的早期LLM应用，它保留了传统用户界面，支持人类手动完成所有工作。而且加入了LLM的集成，支持人类以更大的“块”（chunk）来处理任务。

它的设计有一些特点，所有 LLM 应用都可以借鉴：

LLM能够管理大量的上下文

编排协调多个LLM的调用

嵌入模型用于文件索引，聊天模型用于交互，代码差异模型用于修改代码

图形用户界面（GUI）

这一点非常重要但容易忽略。人类阅读和理解文本效率很低。比如查看代码差异时，用红色和绿色标注新增和删除更容易人阅读；直接点击“接受”和“拒绝”比手动输入命令快得多。

自主滑块（Autonomy Slider）：允许用户自主调整AI控制权

自动补全代码：用户主导

Command- K： 让LLM修改一小段代码

Command- L：LLM修改整个文件

Command-  I：让LLM“自由发挥”，随便改整个仓库 （这是完全自主的大理模式，agentic mode）

**Perplexity**是另一个成功的例子，也具备类似特性：

1. 整合了多个LLM模型的能力

2. 提供清晰引用和结果的GUI，可查看引用的来源

3. 自主滑块：可选择普通搜索、深入搜索、研究搜索。后者可能需要10分钟才返回结果。

![640.webp][25]

我相信未来很多软件都会变成“部分自主”形式。

对开发者来说，如何让你的产品实现这部分自主？

LLM能否“看见”人类所能看见的一切？

LLM能否采取与人类相同的行动？

人类是否能持续地监督并参与这个过程？

举个例子：在 Photoshop 这种图形软件中，未来 LLM 做出修改时，所谓的差异应该是什么样子？传统的差异是红绿代码，而 Photoshop 的差异可能是图层、滤镜、像素级调整。

![640.webp][26]

传统软件 UI 的各种控件和开关都是为人类设计的，未来都需要重新设计，让它们能被LLM理解和使用。

**加速“AI生成+人类验证”的循环**

我想强调的一点，也是我认为很多人容易忽视的：我们现在正在与 AI 合作，AI 负责生成内容，人类负责验证。

我们需要让“AI生成 + 人类验证”这个循环尽可能快速地转动。

![640.webp][27]

有两种方式实现这点：

**1. 加速验证过程——GUI（可视化界面）极其重要**

人类视觉处理远比阅读文本高效；一个好的GUI可以加速人类的验证过程。

**2. 给AI“套上缰绳”**

很多人对AI Agent过于兴奋。对我来说，直接让AI“一次性修改1万行代码”并没有帮助。因为没人能一下子验证10万行代码没有bug，而且符合安全规则。

所以关键在于：让生成和验证的循环运行得非常快。同时又必须以某种方式控制住AI，防止它过度反应。

就像我自己的编程习惯：小步快跑，每次只解决一个具体而微小的问题，确保每一步都正确，然后快速迭代这个循环。

![640.webp][28]

最近看到一篇关于LLM工作最佳实践的博客文章，其中提到明确提示词的重要性——模糊的指令会导致验证失败，进而陷入反复修改的恶性循环。因此花时间精确描述需求能显著提升验证成功率。

![640.webp][29]

AI教育产品
------

我对“AI时代的教育”也很感兴趣，花了大量心思思考如何“拴住AI”。
我觉得直接去问ChatGPT“嘿，教我物理”这种方式是行不通的，因为AI很容易迷失方向。

这应该是两个独立的应用：

一个应用是为教师创建课程内容

另一个应用则是把这些课程呈现给学生

![640.webp][30]

在这两种情况下，我们现在有了一个可验证审核的中间产物——课程。

我们可以确保课程质量，确保内容连贯，并且把AI被限制在一个特定的教学大纲和项目进度之中。

这就是一种“拴住AI”的方式，我认为这种方式成功的可能性更高，AI不会迷失方向。

特斯拉的GUI设计
---------

我对“部分自主”并不陌生，在特斯拉工作期间就研究这个领域大约五年时间。那也是一个部分自主的产品，具备很多类似的特性。

比如，在仪表盘上就有一个自动驾驶的GUI界面，它会显示神经网络所“看到”的内容。我们还有一个“自主滑块”，为用户实现了越来越多的自主任务。

![640.webp][31]

2025-2035，Agent的十年
------------------

简单分享一个故事： 我第一次体验自动驾驶汽车是在2013年，当时我的一个朋友在Waymo工作，他邀请我在帕洛阿尔托兜风。

![640.webp][32]

我用当时很火的Google Glass拍了一张照片（可能你们很多年轻人都没见过那玩意儿）。

我们上了车，在帕洛阿尔托的高速公路和街道上开了大约30分钟的车，整个过程完美无缺，没有任何人工干预。

那是2013年，距今已经12年了。我当时觉得自动驾驶马上就要实现了，但12年过去了，我们仍然在努力攻克自动驾驶技术。

![640.webp][33]

即使是现在，那些自动驾驶的Waymo车辆，其实背后仍然有大量的远程操作和人类干预。我们还没有真正宣布成功。

我认为它最终肯定会成功，只是这需要很长时间。

所以我认为，软件也很难搞，就像驾驶一样难。所以当我看到有人说“2025年是AI Agent元年”时，我就会感到非常担忧。

我觉得这将是“Agent的十年”，但这也意味着我们需要在这个过程中保持谨慎，必须让人类留在验证循环之中。毕竟这是软件，我们必须认真对待。

![640.webp][34]

钢铁侠战衣
-----

我一直很喜欢《钢铁侠》，我觉得它在很多方面都非常准确地预见了技术的发展路径。

“钢铁侠战衣”既是增强工具（Augmentation）——托尼·斯塔克可以亲自操控它；同时也是一个智能体（Agent）——在某些电影情节里，战衣可以自主飞行、找到托尼等等。

![640.webp][35]

这个“自主滑块”意味着我们既可以构建增强工具，也可以构建智能体，我们两者都想做。

![640.webp][36]

但在目前这个阶段，考虑到LLM还不完美，我认为我们更应该构建的是“增强工具”而不是“炫酷的Agent Demo演示”。

我们应该打造部分自主的应用，这些产品拥有定制化的GUI和UI/UX用户体验，目的是让“AI生成内容，人类验证”的循环变得非常非常快。

同时我们也不能忘记，从原则上讲，这些工作未来是可以被完全自动化的，所以你的产品里应该有一个“自主性滑块”。

你要思考如何调整这个自主滑块，让你的产品随着时间的推移变得更加自主。

Vibe Coding 氛围式编程
-----------------

英文成为了编程语言，意味着每个人都是程序员。
过去你需要花五到十年时间学习编程才能在软件领域有所作为，但现在情况完全不同了。

我发的这条推文首次提出了“Vibe Coding”这个概念，听说它现在已经成为一个热门梗了。

![640.webp][37]

我已经用了Twitter大概15年了，但我一直搞不懂哪条推文会火，哪条会无人问津。我本来以为这条推文会是后者，就是那种发出来没人理的类型，只是我灵光一现的想法而已。

不知道为什么它突然就火了，成了一种文化现象。我真的搞不懂，但它确实引起了很多人的共鸣，给大家都感受到却说不清楚的东西命了名。

现在甚至有了维基百科页面，感觉就像做出了重大贡献一样。

![640.webp][38]

另外，Hugging Face的Tom Wolf分享了一个超棒的视频，我特别喜欢。

![640.webp][39]

视频里是一群9-13岁的孩子在“vibe coding”。

我觉得这个视频太治愈了，看到它后怎么会对未来悲观呢？未来是光明的！我认为它会吸引更多人进入这个领域。

我自己也尝试了一下vibe coding，真的很有趣。当你想做一个超级定制化的东西，而这个东西似乎并不存在时，你就可以直接上手尝试。

我做了一个iOS应用，虽然我不会Swift编程，但我真的很惊讶，居然能在一天之内做出一个超级基础的应用。这个应用运行得还不错，当天做出来了。

![640.webp][40]

我当时就想：“哇，这太神奇了！”我不需要花五天时间去学习Swift就能开始动手，这种感觉太棒了。

我还用vibe coding做了一个叫Menu Genen的应用，现在它已经上线了，你可以在 https://www.menugen.app/试用。

![640.webp][41]

我遇到的问题是：每次去餐厅，看菜单却不知道上面写的是什么，因为没有图片。于是我就想：“嘿，我来vibe coding一个吧。”

这就是它的样子：你打开menu.app，拍一张菜单的照片，然后Menu Genen就会自动生成图片。

![640.webp][42]

注册时每个人还能获得5美元的免费额度，所以这对我来说其实是个较高的成本，目前是个“亏本”的应用。

但让我感到着迷的是，在vibe coding的过程中，写代码其实是最简单的一部分。

真正困难的是让它变成一个真实可用的产品——你需要增加身份验证、支付功能、域名设置、部署流程等等各种DevOpes相关的工作。

这些都不是写代码，而是在浏览器里点来点去，进行各种配置，非常繁琐，花了我整整一周时间。

所以很有意思的是，我其实在电脑上花了几个小时就做出了Menu Genen的演示版本，但真正让它“上线”却花了一周时间。

比如你想在网页上添加Google登录功能，虽然看起来是个小事情，但那个Clerk库给出的操作指南极其冗长，它会告诉你：去这个URL，点这个下拉菜单，选这个，再去那个地方，点那个……

![640.webp][43]

就像有个电脑在一步步指挥你该做什么，而我却在被迫执行这些指令，这太让人抓狂了。
![640.webp][44]

所以，我今天演讲的最后一部分聚焦在一个问题上：我们能不能直接为Agent构建产品？我不想再做这些繁琐的工作了，能不能让Agent来帮我搞定？

为Agent重构互联网
-----------

过去有两种方式：人类通过GUI操作，计算机通过API交互。

如今我们有了一个全新的数字信息操作者——Agent，是计算机，又像人类，可以说是“互联网上的灵魂”。 
![640.webp][45]

我们需要开始为 Agent 构建互联网。这是一个全新的领域。

举几个例子：

大家通常会在网站放一个robots.txt文件，告诉网络爬虫如何抓取。同样的，我们可以在网站根目录创建一个 llm.txt 文件，用Markdown格式专门向LLM介绍这个网站，LLM不用再解析复杂的 HTML。
    ![640.webp][46]

大量文档是写给人看的，强调排版、加粗文字和图片。但这些对LLM来说并不直接可读。接下来文档不再只写给人读，也要让 LLM 可读（Markdown 格式）。Vercel、Stripe 等公司已经开始将文档转为 Markdown，方便LLM阅读。
    ![640.webp][47]

油管上的3blue1brown写了一个很酷的Manim动画库。我也想做但不想读文档，于是我直接把文档粘贴给 LLM，它帮我生成了动画代码。
    ![640.webp][48]

文档里的“点击这里”不方便LLM操作。Vercel把“点击这里”替换成了等效的curl命令，这样LLM就可以直接代替你操作了。

![640.webp][49]

还有Anthropic推出的MCP 协议，也是直接与Agent沟通的方式，能够高效获取信息。我非常看好。

还有一些小工具，比如把GitHub URL改为 Gitingest，可以把整个repo汇总成文档，便于 LLM 读取。
    ![640.webp][50]

还有 DeepWiki，自动将 GitHub 项目生成说明书式的文档。
    ![640.webp][51]

如果我们能让文档对LLM变得可读，那将会释放出巨大的潜力，我认为这应该成为未来的趋势。

当然，未来LLM可能像人一样自己点击按钮、浏览网页等等。其实现在也可行，但是成本高、效率低。因此仍然值得主动“为LLM铺路”，让它们更容易获取信息。

![640.webp][52]

可以预见，在长尾应用场景中，许多软件可能不会专门适配LLM——比如那些非标准化的数据仓库或数字基础设施。针对这类情况，我们确实需要开发专门的适配工具。

但对于绝大多数应用而言，在人类与AI之间寻找平衡点将极具价值。所以我对这两种路径都非常看好。

4. 现在是加入的最佳时机
-------------

我们现在正处在一个多么令人激动的时代啊！

大量代码被重写，需要你我来写

LLM像电力公司、芯片工厂，本质上更像处于1960年代的操作系统

LLM还像不完美的“人类灵魂”，我们需要构建基础设施，理解并使用它们

构建LLM应用时，设计好的GUI可以加速“生成验证”循环，逐步提高Agent自治能力

![640.webp][53]

回到“钢铁侠战衣”的比喻，我认为在未来十年中，我们将逐步把这个“自主滑块”从左向右滑动。从AI与人协作，到完全自主化的Agent。

这将会是一个非常有趣的过程，我迫不及待想和你们一起参与其中。

![640.webp][54]

完

文章来源：https://mp.weixin.qq.com/s/H2CK2SMmCxJSm6xnpT_oKQ

[1]: https://www.samool.com/usr/uploads/2025/06/1667069889.webp
  [2]: https://www.samool.com/usr/uploads/2025/06/1787602894.webp
  [3]: https://www.samool.com/usr/uploads/2025/06/2136616187.webp
  [4]: https://www.samool.com/usr/uploads/2025/06/445601687.webp
  [5]: https://www.samool.com/usr/uploads/2025/06/1086402703.webp
  [6]: https://www.samool.com/usr/uploads/2025/06/3563470303.webp
  [7]: https://www.samool.com/usr/uploads/2025/06/1950766501.webp
  [8]: https://www.samool.com/usr/uploads/2025/06/2016674774.webp
  [9]: https://www.samool.com/usr/uploads/2025/06/3486541765.webp
  [10]: https://www.samool.com/usr/uploads/2025/06/304085553.webp
  [11]: https://www.samool.com/usr/uploads/2025/06/3734359654.webp
  [12]: https://www.samool.com/usr/uploads/2025/06/1192604787.webp
  [13]: https://www.samool.com/usr/uploads/2025/06/841892357.webp
  [14]: https://www.samool.com/usr/uploads/2025/06/1415787329.webp
  [15]: https://www.samool.com/usr/uploads/2025/06/1840937648.webp
  [16]: https://www.samool.com/usr/uploads/2025/06/2593466982.webp
  [17]: https://www.samool.com/usr/uploads/2025/06/2300667253.webp
  [18]: https://www.samool.com/usr/uploads/2025/06/2999033144.webp
  [19]: https://www.samool.com/usr/uploads/2025/06/50766298.webp
  [20]: https://www.samool.com/usr/uploads/2025/06/2456193696.webp
  [21]: https://www.samool.com/usr/uploads/2025/06/3729460187.webp
  [22]: https://www.samool.com/usr/uploads/2025/06/4193648199.webp
  [23]: https://www.samool.com/usr/uploads/2025/06/834567253.webp
  [24]: https://www.samool.com/usr/uploads/2025/06/2887438171.webp
  [25]: https://www.samool.com/usr/uploads/2025/06/585590180.webp
  [26]: https://www.samool.com/usr/uploads/2025/06/2402004865.webp
  [27]: https://www.samool.com/usr/uploads/2025/06/3021048251.webp
  [28]: https://www.samool.com/usr/uploads/2025/06/4158316950.webp
  [29]: https://www.samool.com/usr/uploads/2025/06/2805397294.webp
  [30]: https://www.samool.com/usr/uploads/2025/06/1329920299.webp
  [31]: https://www.samool.com/usr/uploads/2025/06/2274280129.webp
  [32]: https://www.samool.com/usr/uploads/2025/06/2755068483.webp
  [33]: https://www.samool.com/usr/uploads/2025/06/1799726725.webp
  [34]: https://www.samool.com/usr/uploads/2025/06/4147602306.webp
  [35]: https://www.samool.com/usr/uploads/2025/06/1912848288.webp
  [36]: https://www.samool.com/usr/uploads/2025/06/447410074.webp
  [37]: https://www.samool.com/usr/uploads/2025/06/338933164.webp
  [38]: https://www.samool.com/usr/uploads/2025/06/3782883204.webp
  [39]: https://www.samool.com/usr/uploads/2025/06/561916061.webp
  [40]: https://www.samool.com/usr/uploads/2025/06/2677492448.webp
  [41]: https://www.samool.com/usr/uploads/2025/06/1564585269.webp
  [42]: https://www.samool.com/usr/uploads/2025/06/1945773385.webp
  [43]: https://www.samool.com/usr/uploads/2025/06/412144720.webp
  [44]: https://www.samool.com/usr/uploads/2025/06/2294612886.webp
  [45]: https://www.samool.com/usr/uploads/2025/06/2142037674.webp
  [46]: https://www.samool.com/usr/uploads/2025/06/2759090268.webp
  [47]: https://www.samool.com/usr/uploads/2025/06/2464249901.webp
  [48]: https://www.samool.com/usr/uploads/2025/06/1601008811.webp
  [49]: https://www.samool.com/usr/uploads/2025/06/759424805.webp
  [50]: https://www.samool.com/usr/uploads/2025/06/2157424309.webp
  [51]: https://www.samool.com/usr/uploads/2025/06/2613372939.webp
  [52]: https://www.samool.com/usr/uploads/2025/06/2729034719.webp
  [53]: https://www.samool.com/usr/uploads/2025/06/2782902332.webp
  [54]: https://www.samool.com/usr/uploads/2025/06/2228944137.webp

AI摘要

Andrej Karpathy在YC AI Startup School上提出，我们已进入“软件3.0”时代，其中自然语言成为新的编程接口。他将大语言模型（LLM）比作新时代的“电力公司”和“芯片工厂”，并指出当前LLM生态类似于1960年代的操作系统。Karpathy强调了LLM的“类人心理”特征，并揭示了这一变革带来的机遇，包括通过自然语言提升开发效率、催生部分自主产品的可能性，以及推动软件设计从“以人为主”转向“以智能体（agent）为核心”的新范式。这场演讲为理解AI原生软件未来提供了关键框架。

Andrej Karp

刚刚结束的YC AI Startup School上，Andrej Karpathy带来了一场极具前瞻性的主题演讲，深入探讨了AI时代软件范式的根本性变革。

这场演讲信息密度极大，为开发者、创业者和科技从业者提供了理解AI原生软件未来的关键框架。

全文约9000字，阅读时间预计 20 分钟。

推荐先浏览开头的<15大要点总结>，再深入阅读全文。

要点总结

1. 软件正在经历第三次根本性变革

过去70年软件基本未变，但近年内已发生两次快速变革。从传统代码到神经网络权重，再到大语言模型驱动的提示编程，编程范式正发生根本性转变。

2. 软件1.0，2.0，3.0的演化

软件1.0: 传统代码，如Python，C++

软件2.0: 神经网络的权重参数

软件3.0: 提示词Prompt

特斯拉自动驾驶系统迭代时，神经网络（软件2.0）逐步“吞噬” 传统代码（软件1.0）。当前提示词（软件3.0）正在以类似方式“吞噬”整个软件栈。

3. LLM：类似电力公司、芯片工厂

电力工厂：前期花巨资训练，后期按照token收费，低延时与高可用性。

芯片工厂：训练成本高，研发集中于头部大厂

4. LLM：类似1960年的操作系统
当前LLM生态类似于1960年代的操作系统：LLM=CPU，上下文=内存，Prompt = 程序。 LLM 贵且集中在云端，个人 LLM 革命未至，但本地推理初现（如 Mac mini 跑小模型）。

5. LLM心理特征：强项与缺陷并存

类似于“人类灵魂的模拟器”，具备超强知识广度。但常产生幻觉、缺乏持续记忆，易受安全攻击等。

6. 自主滑块（Autonomy Slider）

构建AI应用时，用户可以选择 AI 自主的程度。例如，用户可以选择AI全自动写代码、半自动（AI修改人选中的代码），低自治（自动补全代码）等。用户具有控制权。

7. 机会：部分自主（Partial Autonomy）应用

8. 成功应用：构建“AI生成+人类验证”闭环
AI当前仍不可靠，必须构建“AI生成+人类验证”的快速循环。GUI 设计极其重要，可大幅加速人类验证效率；并需要给AI“套上缰绳”，避免AI过度自主导致错误扩散。

9. 教育与AI：构建可审计的学习路径

教育产品应设计为两个应用：“教学”与“学习”分离。创建可审计的中间结构（课程），确保学习内容结构化、可追踪，从而避免AI“跑偏”。

10. 2025-2035是Agent的十年

对“2025是Agent元年”这一说法表示担忧。Agent自主软件的研发难度堪比自动驾驶，其成熟与普及可能需要十年周期。

11. Vibe Coding：全民编程时代的到来

自然语言成为新的编程语言，任何人都可以通过提示词（Prompt）生成代码（Vibe Coding）。这大幅降低了编程门槛，成为未来软件创作的主流方式。

12. 重构Agent的互联网：文档与数据适配LLM

当前大多数内容（网页、文档）是为人类设计的，LLM难以直接理解。未来应构建“LLM友好”的数据格式与接口，如Markdown格式、支持MCP协议的工具等。

13. 钢铁侠战衣：从AI辅助到全自动化
如同《钢铁侠》中的战衣，既可辅助增强人类能力，也可实现完全自主操作——我们将逐步推动AI从辅助工具走向完全自主的Agent。现阶段应构建“AI增强工具”而非酷炫的“Agent Demo”。

14. 推荐看的3部电影

《雨人》（Rain Man）

《记忆碎片》（Memento）

《初恋50次》（50 First dates）

第一部电影主角拥有近乎完美记忆，类比LLM能记住特定代码片段的超能力。后两部影片主角每天都会记忆重制，类似LLM无法保留上下文记忆。

15. 现在是加入的黄金时代

所有的软件需要被重写。构建新软件的机会前所未有。软件正从传统代码向大语言模型驱动的新时代跃迁，带来全新编程范式、应用形态及协作方式。

软件（又）变了

——Andrej Karpathy

大家好，欢迎来到今天的分享。我是 Andrej Karpathy，非常高兴能在这里和大家聊聊“AI时代的软件”。

我听说台下有很多是本科、硕士甚至博士阶段的学生，正准备进入职场。我想说，现在是进入行业的绝佳时机，因为软件行业正在经历根本性的变革。

软件的范式变革

在过去的70年里，软件都没有出现过根本性的变化。

但过去几年，它经历了两次巨变。这意味着，我们将有大量软件需要被重写，也有大量新软件需要诞生。

有个工具叫“代码宇宙”（Map of Github)，它把整个开源软件的生态用图谱可视化，把整个软件世界看成是一张地图。

几年前我注意到一种新的软件形态正在兴起，称之为“软件2.0”。

在软件2.0里，不是直接写程序，而是准备数据集，然后用优化器训练模型，最后得出一组参数。这些参数就是程序本身。

软件1.0：人类编写的代码（如Python、C++）

软件2.0：神经网络的权重参数

Hugging Face 就像是软件2.0的 GitHub。比如下图中最大圆圈中间的点，是图像生成模型Flux的参数。每次微调就相当于在这个空间里的一次“代码提交”。

下图中间是 AlexNet 图像识别网络，是过去我们熟悉的那种“固定功能神经网络”：比如图像到类别、语音到文字等。

但最近发生了非常根本的变化：神经网络可以通过大语言模型（LLM）让来“编程”了。

我给它一个新名字：软件3.0，写给LLM大语言模型的Prompt提示词。提示词Prompt 就是程序，编程语言是英语。

软件1.0 是写给计算机的代码程序

软件2.0 是写给神经网络的权重参数

软件3.0 是写给LLM的提示词Prompt

举个例子，比如你要做情感分类，你可以通过：

软件1.0：写一堆Python代码

软件2.0：训练一个神经网络

软件3.0：直接写一句提示词（Prompt）

Github上很多项目已经不是纯代码了，中间夹杂着大量英语。这是一个信号，一种全新的“代码语言”（英语）正在诞生。

几年以前我第一次意识到这点时发了一条推特：最火的新编程语言是英语。引起了很多人的关注。

我在特斯拉负责自动驾驶系统（Autopilot）时，我们见证了软件2.0吞噬软件1.0的过程。

那时候给车辆编写的自动驾驶系统，输入是摄像头图像，输出是转向和加速等控制指令。

系统底层有大量 C++ 编写的传统代码（软件1.0），同时也有一些神经网络来做图像识别（软件2.0）。

举个例子，很多来自不同摄像头、跨时间的信息拼接工作，原本是由代码完成的，现在全被删掉了。

软件2.0“吞噬”了软件1.0 的代码栈。我认为这一点非常了不起。

今天，我们似乎看到了同样的事情再次发生：软件3.0正在“吞噬”整个软件栈。

我们现在有三种完全不同的编程范式：

软件1.0：传统代码
软件2.0：神经网络权重
软件3.0：提示词Prompt

未来的程序员需要熟练掌握这三种“编程思维”。训练一个神经网络？还是直接提示一个大语言模型？还是写一段显式的代码？

需要根据不同任务选择最合适的范式，并且可能需要在不同范式之间灵活切换。

LLM 大语言模型新范式

LLM：公共设施（Utility，如电厂）

斯坦福计算机教授吴恩达Andrew Ng 曾说过：“AI 就是新的电力。”

我认为这句话非常贴切。今天的大语言模型LLM很像一种“公共设施”（Utility）：

OpenAI、Anthropic、Google Gemini 等机构，像是建电厂，需要花巨大资本训练大模型

然后通过 API 按用量收费向所有人提供智能服务

我们按照每百万Token付费

我们对这种API有很多类似于“公共设施”的需求：延迟低、稳定可用、输出质量一致。

就像用电一样，你不希望断电、不希望电压忽高忽低。

在电力系统中我们有电源切换器（比如电网、电池、发电机）。在 LLM 领域，我们有 OpenRouter，可以自由切换调用不同的大语言模型。

因为这些 LLM 是软件，不会像物理电站那样互相抢地盘，所以你可以拥有六家 LLM 供应商互相共存。

最近几天，很多 LLM 出现大面积“宕机”。我觉得特别有意思：LLM宕机，就像整个世界的“智力停电”了，全球范围内的人类集体变笨了。

这就是“智能依赖”带来的新现象。我们对 LLM 的依赖已经非常深了，这种趋势还会加剧。

LLM：半导体工厂（Fab）

LLM 不仅像电力，它也像半导体工厂（Fab）。

训练模型需要巨大的前期资金投入（CAPEx），而且技术栈越来越深，研究成果逐渐集中在大厂内部。

不过，这个类比也有点模糊，因为正如我提到的，这毕竟是软件，而软件的可塑性很强，防御性较弱。所以这是一个有趣的思考角度。

还有很多类比可以套用，比如“4纳米工艺节点”可能类似于某种拥有特定最大算力的集群。

当你使用Nvidia GPU时，如果你只做软件而不碰硬件，这有点像“无厂模式”（fabless）；

但如果你自己也在造硬件，并且在TPU上训练模型（比如谷歌），那就有点像“英特尔”模式，自研自产。

LLM：操作系统

我觉得最贴切的比喻是：LLM 正在变成一种操作系统。

可以把 GPT、Claude、Gemini 类比成不同的闭源 OS 系统(Windows、macOS)；LLaMA 是开源生态里的 Linux。

我画了下面这张图，你可以这样理解：

LLM = CPU

上下文窗口 = 内存

Prompt = 程序

工具调用和多模态交互 = 系统接口

还有一些其他的类比也觉得很有意思，比如，你想安装一个应用：

在传统系统中你下载 VSCode，可以在 Windows、Linux、Mac 上运行

在 LLM 世界，你可以下载像 Cursor这样的IDE，它背后的LLM可以是 GPT、Claude、Gemini。

1960年代的计算机阶段

我们现在可能正处于类似1960年代的阶段。

当年，计算机非常昂贵和庞大，只能部署在中心化的数据中心。现在的大语言模型也是一样：运行成本非常高，所以大多集中在云端。

像早期用终端机连接大型主机一样，我们每个人都是“远程用户”，通过网络去使用这些模型。

“个人计算机革命”还没有发生。因为从经济角度来说不划算。

但这并不意味着它不会发生。

我们已经看到了一些早期的迹象：比如Apple 的 Mac mini其实就很适合运行某些轻量的大语言模型。

这些模型在推理时内存占用高、但计算量相对较低，而 Mac mini 的架构刚好能很好地满足这一点。所以它在本地运行一些模型时表现也不错。

我认为这是“个人智能计算机”时代即将到来的一个苗头。

当然现在还不知道未来真正的形态是什么。但在座的你们，有人就会成为那个发明它、定义它、或者让它走进现实的人。

还有一个类比：每次我用纯文本和大模型对话时，我都觉得自己像是在使用操作系统的命令行界面（Terminal）。这是一种直接、基于文字的交流方式。

LLM 还有一点与传统操作系统不同，它逆转了技术扩散的方向。

但这次完全相反：LLM 是从消费者端率先爆发的。

早期计算机最先用于军事和弹道预测。而今天的 LLM，大家用来查“鸡蛋怎么煮”之类的日常问题。政府和企业反而慢了一拍。

总结一下：

它像电力、像半导体厂

类似于1960年的操作系统

分时共享，每个人都能用

ChatGPT 的发布，一夜之间就传到了全球数十亿人手中。太疯狂了。

现在轮到我们进入这个行业，去编程这些计算机了。这太不可思议了。

LLM的心理特征

LLM 类似于“人类灵魂”的随机模拟（Stochastic Simulation of People）。这里的“模拟器”是一个自回归Transformer 模型。

这个模拟器基于整个互联网的所有文本进行训练，最终形成了一种“人”的模拟器。

因为基于人类数据训练，所以出现了这种“类人”的心理学特性。拥有百科全书式的知识，远超任何人。

而大语言模型也能轻松记住各种哈希值、代码片段之类的东西。它们确实在某些方面拥有“超能力”。

但它们也有严重的认知缺陷，比如说：

幻觉频发（Hallucination），编造事实

缺乏强大的“自我知识”模型（Self-knowleadge Model）

智能参差不齐，有些方面超人，有些地方低级错误百出（比如Strawberry 有两个 R，9.11大于9.9）

顺行性遗忘（Anterograde Amnesia，无法把新的信息转化为长期记忆）

推荐大家看两部电影《记忆碎片》（Memento）和《初恋50次》（50 First dates）。

两部电影的主角都有固定的“权重”，每天早上醒来时上下文窗口都会被清空（失忆），导致他们无法维持正常的人际关系。而这对LLM来说是常态。

此外，LLM还有安全性问题，容易受到“提示注入”（Prompt Injection）攻击，容易暴露数据。

所以，LLM不是万能的，我们需要了解它的长处与短板，发挥它的“超能力”，也要避免它的“坑”。

AI应用的未来机会

部分自主应用（Partial Autonomy Apps)

这是我非常兴奋的一个方向。

以编程为例，你可以复制代码粘贴到ChatGPT问，但更合理的是使用一个专用工具，比如 Cursor，我也在用Cursor。

Cursor 是一个典型的早期LLM应用，它保留了传统用户界面，支持人类手动完成所有工作。而且加入了LLM的集成，支持人类以更大的“块”（chunk）来处理任务。

它的设计有一些特点，所有 LLM 应用都可以借鉴：

LLM能够管理大量的上下文


编排协调多个LLM的调用

嵌入模型用于文件索引，聊天模型用于交互，代码差异模型用于修改代码


图形用户界面（GUI）

这一点非常重要但容易忽略。人类阅读和理解文本效率很低。比如查看代码差异时，用红色和绿色标注新增和删除更容易人阅读；直接点击“接受”和“拒绝”比手动输入命令快得多。


自主滑块（Autonomy Slider）：允许用户自主调整AI控制权

自动补全代码：用户主导

Command- K： 让LLM修改一小段代码

Command- L：LLM修改整个文件

Command-  I：让LLM“自由发挥”，随便改整个仓库 （这是完全自主的大理模式，agentic mode）

Perplexity是另一个成功的例子，也具备类似特性：

整合了多个LLM模型的能力
提供清晰引用和结果的GUI，可查看引用的来源
自主滑块：可选择普通搜索、深入搜索、研究搜索。后者可能需要10分钟才返回结果。

我相信未来很多软件都会变成“部分自主”形式。

对开发者来说，如何让你的产品实现这部分自主？

LLM能否“看见”人类所能看见的一切？

LLM能否采取与人类相同的行动？

人类是否能持续地监督并参与这个过程？

传统软件 UI 的各种控件和开关都是为人类设计的，未来都需要重新设计，让它们能被LLM理解和使用。

加速“AI生成+人类验证”的循环

我想强调的一点，也是我认为很多人容易忽视的：我们现在正在与 AI 合作，AI 负责生成内容，人类负责验证。

我们需要让“AI生成 + 人类验证”这个循环尽可能快速地转动。

有两种方式实现这点：

1. 加速验证过程——GUI（可视化界面）极其重要

人类视觉处理远比阅读文本高效；一个好的GUI可以加速人类的验证过程。

2. 给AI“套上缰绳”

很多人对AI Agent过于兴奋。对我来说，直接让AI“一次性修改1万行代码”并没有帮助。因为没人能一下子验证10万行代码没有bug，而且符合安全规则。

所以关键在于：让生成和验证的循环运行得非常快。同时又必须以某种方式控制住AI，防止它过度反应。

就像我自己的编程习惯：小步快跑，每次只解决一个具体而微小的问题，确保每一步都正确，然后快速迭代这个循环。

AI教育产品

这应该是两个独立的应用：

一个应用是为教师创建课程内容

另一个应用则是把这些课程呈现给学生

在这两种情况下，我们现在有了一个可验证审核的中间产物——课程。

我们可以确保课程质量，确保内容连贯，并且把AI被限制在一个特定的教学大纲和项目进度之中。

这就是一种“拴住AI”的方式，我认为这种方式成功的可能性更高，AI不会迷失方向。

特斯拉的GUI设计

我对“部分自主”并不陌生，在特斯拉工作期间就研究这个领域大约五年时间。那也是一个部分自主的产品，具备很多类似的特性。

2025-2035，Agent的十年

简单分享一个故事：我第一次体验自动驾驶汽车是在2013年，当时我的一个朋友在Waymo工作，他邀请我在帕洛阿尔托兜风。

我用当时很火的Google Glass拍了一张照片（可能你们很多年轻人都没见过那玩意儿）。

我们上了车，在帕洛阿尔托的高速公路和街道上开了大约30分钟的车，整个过程完美无缺，没有任何人工干预。

那是2013年，距今已经12年了。我当时觉得自动驾驶马上就要实现了，但12年过去了，我们仍然在努力攻克自动驾驶技术。

即使是现在，那些自动驾驶的Waymo车辆，其实背后仍然有大量的远程操作和人类干预。我们还没有真正宣布成功。

我认为它最终肯定会成功，只是这需要很长时间。

所以我认为，软件也很难搞，就像驾驶一样难。所以当我看到有人说“2025年是AI Agent元年”时，我就会感到非常担忧。

我觉得这将是“Agent的十年”，但这也意味着我们需要在这个过程中保持谨慎，必须让人类留在验证循环之中。毕竟这是软件，我们必须认真对待。

钢铁侠战衣

我一直很喜欢《钢铁侠》，我觉得它在很多方面都非常准确地预见了技术的发展路径。

这个“自主滑块”意味着我们既可以构建增强工具，也可以构建智能体，我们两者都想做。

但在目前这个阶段，考虑到LLM还不完美，我认为我们更应该构建的是“增强工具”而不是“炫酷的Agent Demo演示”。

我们应该打造部分自主的应用，这些产品拥有定制化的GUI和UI/UX用户体验，目的是让“AI生成内容，人类验证”的循环变得非常非常快。

同时我们也不能忘记，从原则上讲，这些工作未来是可以被完全自动化的，所以你的产品里应该有一个“自主性滑块”。

你要思考如何调整这个自主滑块，让你的产品随着时间的推移变得更加自主。

Vibe Coding 氛围式编程

英文成为了编程语言，意味着每个人都是程序员。
过去你需要花五到十年时间学习编程才能在软件领域有所作为，但现在情况完全不同了。

我发的这条推文首次提出了“Vibe Coding”这个概念，听说它现在已经成为一个热门梗了。

不知道为什么它突然就火了，成了一种文化现象。我真的搞不懂，但它确实引起了很多人的共鸣，给大家都感受到却说不清楚的东西命了名。

现在甚至有了维基百科页面，感觉就像做出了重大贡献一样。

另外，Hugging Face的Tom Wolf分享了一个超棒的视频，我特别喜欢。

视频里是一群9-13岁的孩子在“vibe coding”。

我觉得这个视频太治愈了，看到它后怎么会对未来悲观呢？未来是光明的！我认为它会吸引更多人进入这个领域。

我自己也尝试了一下vibe coding，真的很有趣。当你想做一个超级定制化的东西，而这个东西似乎并不存在时，你就可以直接上手尝试。

我做了一个iOS应用，虽然我不会Swift编程，但我真的很惊讶，居然能在一天之内做出一个超级基础的应用。这个应用运行得还不错，当天做出来了。

我当时就想：“哇，这太神奇了！”我不需要花五天时间去学习Swift就能开始动手，这种感觉太棒了。

我还用vibe coding做了一个叫Menu Genen的应用，现在它已经上线了，你可以在 https://www.menugen.app/试用。

我遇到的问题是：每次去餐厅，看菜单却不知道上面写的是什么，因为没有图片。于是我就想：“嘿，我来vibe coding一个吧。”

这就是它的样子：你打开menu.app，拍一张菜单的照片，然后Menu Genen就会自动生成图片。

注册时每个人还能获得5美元的免费额度，所以这对我来说其实是个较高的成本，目前是个“亏本”的应用。

但让我感到着迷的是，在vibe coding的过程中，写代码其实是最简单的一部分。

真正困难的是让它变成一个真实可用的产品——你需要增加身份验证、支付功能、域名设置、部署流程等等各种DevOpes相关的工作。

这些都不是写代码，而是在浏览器里点来点去，进行各种配置，非常繁琐，花了我整整一周时间。

所以很有意思的是，我其实在电脑上花了几个小时就做出了Menu Genen的演示版本，但真正让它“上线”却花了一周时间。

就像有个电脑在一步步指挥你该做什么，而我却在被迫执行这些指令，这太让人抓狂了。

所以，我今天演讲的最后一部分聚焦在一个问题上：我们能不能直接为Agent构建产品？我不想再做这些繁琐的工作了，能不能让Agent来帮我搞定？

为Agent重构互联网

过去有两种方式：人类通过GUI操作，计算机通过API交互。

如今我们有了一个全新的数字信息操作者——Agent，是计算机，又像人类，可以说是“互联网上的灵魂”。

我们需要开始为 Agent 构建互联网。这是一个全新的领域。

举几个例子：

大家通常会在网站放一个robots.txt文件，告诉网络爬虫如何抓取。同样的，我们可以在网站根目录创建一个 llm.txt 文件，用Markdown格式专门向LLM介绍这个网站，LLM不用再解析复杂的 HTML。
![640.webp][46]


大量文档是写给人看的，强调排版、加粗文字和图片。但这些对LLM来说并不直接可读。接下来文档不再只写给人读，也要让 LLM 可读（Markdown 格式）。Vercel、Stripe 等公司已经开始将文档转为 Markdown，方便LLM阅读。
![640.webp][47]


油管上的3blue1brown写了一个很酷的Manim动画库。我也想做但不想读文档，于是我直接把文档粘贴给 LLM，它帮我生成了动画代码。
![640.webp][48]

文档里的“点击这里”不方便LLM操作。Vercel把“点击这里”替换成了等效的curl命令，这样LLM就可以直接代替你操作了。

![640.webp][49]


还有Anthropic推出的MCP 协议，也是直接与Agent沟通的方式，能够高效获取信息。我非常看好。

还有一些小工具，比如把GitHub URL改为 Gitingest，可以把整个repo汇总成文档，便于 LLM 读取。
![640.webp][50]


还有 DeepWiki，自动将 GitHub 项目生成说明书式的文档。
![640.webp][51]

如果我们能让文档对LLM变得可读，那将会释放出巨大的潜力，我认为这应该成为未来的趋势。

但对于绝大多数应用而言，在人类与AI之间寻找平衡点将极具价值。所以我对这两种路径都非常看好。

现在是加入的最佳时机

我们现在正处在一个多么令人激动的时代啊！

大量代码被重写，需要你我来写

LLM像电力公司、芯片工厂，本质上更像处于1960年代的操作系统

LLM还像不完美的“人类灵魂”，我们需要构建基础设施，理解并使用它们

构建LLM应用时，设计好的GUI可以加速“生成验证”循环，逐步提高Agent自治能力

回到“钢铁侠战衣”的比喻，我认为在未来十年中，我们将逐步把这个“自主滑块”从左向右滑动。从AI与人协作，到完全自主化的Agent。

这将会是一个非常有趣的过程，我迫不及待想和你们一起参与其中。

完

文章来源：https://mp.weixin.qq.com/s/H2CK2SMmCxJSm6xnpT_oKQ

最后修改：2025 年 06 月 20 日

点赞的人是最酷的

软件3.0时代来临:英语成为最新编程语言

要点总结

软件（又）变了

软件的范式变革

LLM 大语言模型新范式

LLM：公共设施（Utility，如电厂）

LLM：半导体工厂（Fab）

LLM：操作系统

1960年代的计算机阶段

LLM的心理特征

AI应用的未来机会

AI教育产品

特斯拉的GUI设计

2025-2035，Agent的十年

钢铁侠战衣

Vibe Coding 氛围式编程

为Agent重构互联网

现在是加入的最佳时机

※相关文章推荐※

※热评文章推荐※

※最新文章推荐※

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

设置WebBrowser的Referrer值

《Stanley博士的家》高智商游戏

TVB经典台庆剧·《寻秦记》OST原声音乐专集下载

开创Web安全新时代趋势进入"云安全"

今天是我的大喜日子

Windows XP SP4得到间接确认

今天去昆明出差了。。。

中国茶文化图解

开始北漂生活

我又回来了

软件3.0时代来临:英语成为最新编程语言

要点总结

软件（又）变了

软件的范式变革

LLM 大语言模型新范式

LLM： 公共设施（Utility，如电厂）

LLM： 半导体工厂（Fab）

LLM： 操作系统

1960年代的计算机阶段

LLM的心理特征

AI应用的未来机会

AI教育产品

特斯拉的GUI设计

2025-2035，Agent的十年

钢铁侠战衣

Vibe Coding 氛围式编程

为Agent重构互联网

现在是加入的最佳时机

※相关文章推荐※

※热评文章推荐※

※最新文章推荐※

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

软件3.0时代来临:英语成为最新编程语言

LLM：公共设施（Utility，如电厂）

LLM：半导体工厂（Fab）

LLM：操作系统

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款