AI摘要

Andrej Karpathy在YC AI Startup School上提出,我们已进入“软件3.0”时代,其中自然语言成为新的编程接口。他将大语言模型(LLM)比作新时代的“电力公司”和“芯片工厂”,并指出当前LLM生态类似于1960年代的操作系统。Karpathy强调了LLM的“类人心理”特征,并揭示了这一变革带来的机遇,包括通过自然语言提升开发效率、催生部分自主产品的可能性,以及推动软件设计从“以人为主”转向“以智能体(agent)为核心”的新范式。这场演讲为理解AI原生软件未来提供了关键框架。
Andrej Karp

刚刚结束的YC AI Startup School上,Andrej Karpathy带来了一场极具前瞻性的主题演讲,深入探讨了AI时代软件范式的根本性变革。

Karpathy提出我们已进入“软件3.0”时代——自然语言成为新的编程接口。他将LLM类比为新时代的“电力公司”、“芯片工厂”,认为我们处于“1960年代的计算机时代”。

演讲中,Karpathy不仅剖析了LLM的“类人心理”特征,更揭示了这一变革带来的机遇:通过自然语言大幅提升开发效率,催生部分自主产品的可能性,以及推动软件设计从“以人为主”转向“以智能体(agent)为核心”的新范式。

这场演讲信息密度极大,为开发者、创业者和科技从业者提供了理解AI原生软件未来的关键框架。

Andrej Karpathy正在演讲

全文约9000字,阅读时间预计 20 分钟。

推荐先浏览开头的<15大要点总结>,再深入阅读全文。

要点总结

1. 软件正在经历第三次根本性变革

过去70年软件基本未变,但近年内已发生两次快速变革。从传统代码到神经网络权重,再到大语言模型驱动的提示编程,编程范式正发生根本性转变。

2. 软件1.0,2.0,3.0的演化

软件1.0: 传统代码,如Python,C++

软件2.0: 神经网络的权重参数

软件3.0: 提示词Prompt

特斯拉自动驾驶系统迭代时,神经网络(软件2.0)逐步“吞噬” 传统代码(软件1.0)。当前提示词(软件3.0)正在以类似方式“吞噬”整个软件栈。

3. LLM:类似电力公司、芯片工厂

电力工厂:前期花巨资训练,后期按照token收费,低延时与高可用性。

芯片工厂:训练成本高,研发集中于头部大厂

4. LLM:类似1960年的操作系统
当前LLM生态类似于1960年代的操作系统:LLM=CPU,上下文=内存,Prompt = 程序。 LLM 贵且集中在云端,个人 LLM 革命未至,但本地推理初现(如 Mac mini 跑小模型)。

5. LLM心理特征:强项与缺陷并存

类似于“人类灵魂的模拟器”,具备超强知识广度。但常产生幻觉、缺乏持续记忆,易受安全攻击等。

6. 自主滑块(Autonomy Slider)

构建AI应用时,用户可以选择 AI 自主的程度。 例如,用户可以选择AI全自动写代码、半自动(AI修改人选中的代码),低自治(自动补全代码)等。用户具有控制权。

7. 机会:部分自主(Partial Autonomy)应用

软件未来逐步实现“部分自主化”,从人与AI协作完成任务,逐步实现Agent完全自主化。典型例子Cursor和Perplexity。支持自主滑块选择AI介入程度,提供可视化界面(GUI)辅助人类验证审核。

8. 成功应用:构建“AI生成+人类验证”闭环
AI当前仍不可靠,必须构建“AI生成+人类验证”的快速循环。GUI 设计极其重要,可大幅加速人类验证效率;并需要给AI“套上缰绳”,避免AI过度自主导致错误扩散。

9. 教育与AI:构建可审计的学习路径

教育产品应设计为两个应用:“教学”与“学习”分离。创建可审计的中间结构(课程),确保学习内容结构化、可追踪,从而避免AI“跑偏”。

10. 2025-2035是Agent的十年

对“2025是Agent元年”这一说法表示担忧。Agent自主软件的研发难度堪比自动驾驶,其成熟与普及可能需要十年周期。

11. Vibe Coding:全民编程时代的到来

自然语言成为新的编程语言,任何人都可以通过提示词(Prompt)生成代码(Vibe Coding)。这大幅降低了编程门槛,成为未来软件创作的主流方式。

12. 重构Agent的互联网:文档与数据适配LLM

当前大多数内容(网页、文档)是为人类设计的,LLM难以直接理解。未来应构建“LLM友好”的数据格式与接口,如Markdown格式、支持MCP协议的工具等。

13. 钢铁侠战衣:从AI辅助到全自动化
如同《钢铁侠》中的战衣,既可辅助增强人类能力,也可实现完全自主操作——我们将逐步推动AI从辅助工具走向完全自主的Agent。现阶段应构建“AI增强工具”而非酷炫的“Agent Demo”。

14. 推荐看的3部电影

《雨人》(Rain Man)

《记忆碎片》(Memento)

《初恋50次》(50 First dates)

第一部电影主角拥有近乎完美记忆,类比LLM能记住特定代码片段的超能力。后两部影片主角每天都会记忆重制,类似LLM无法保留上下文记忆。

15. 现在是加入的黄金时代

所有的软件需要被重写。构建新软件的机会前所未有。软件正从传统代码向大语言模型驱动的新时代跃迁,带来全新编程范式、应用形态及协作方式。

软件(又)变了

——Andrej Karpathy

大家好,欢迎来到今天的分享。我是 Andrej Karpathy,非常高兴能在这里和大家聊聊“AI时代的软件”。

我听说台下有很多是本科、硕士甚至博士阶段的学生,正准备进入职场。我想说,现在是进入行业的绝佳时机,因为软件行业正在经历根本性的变革。

  1. 软件的范式变革

在过去的70年里,软件都没有出现过根本性的变化。

但过去几年,它经历了两次巨变。这意味着,我们将有大量软件需要被重写,也有大量新软件需要诞生。

有个工具叫“代码宇宙”(Map of Github),它把整个开源软件的生态用图谱可视化,把整个软件世界看成是一张地图。

640.webp

几年前我注意到一种新的软件形态正在兴起,称之为“软件2.0”。

在软件2.0里,不是直接写程序,而是准备数据集,然后用优化器训练模型,最后得出一组参数。这些参数就是程序本身。

软件1.0:人类编写的代码(如Python、C++)

软件2.0:神经网络的权重参数

software2.0

Hugging Face 就像是软件2.0的 GitHub。比如下图中最大圆圈中间的点,是图像生成模型Flux的参数。每次微调就相当于在这个空间里的一次“代码提交”。

640.webp

下图中间是 AlexNet 图像识别网络,是过去我们熟悉的那种“固定功能神经网络”:比如图像到类别、语音到文字等。

640.webp

但最近发生了非常根本的变化:神经网络可以通过大语言模型(LLM)让来“编程”了。

我给它一个新名字:软件3.0,写给LLM大语言模型的Prompt提示词。提示词Prompt 就是程序,编程语言是英语。

软件1.0 是写给计算机的代码程序

软件2.0 是写给神经网络的权重参数

软件3.0 是写给LLM的提示词Prompt

举个例子,比如你要做情感分类,你可以通过:

软件1.0:写一堆Python代码

软件2.0:训练一个神经网络

软件3.0:直接写一句提示词(Prompt)

640.webp

Github上很多项目已经不是纯代码了,中间夹杂着大量英语。这是一个信号,一种全新的“代码语言”(英语)正在诞生。

几年以前我第一次意识到这点时发了一条推特:最火的新编程语言是英语。引起了很多人的关注。
640.webp

我在特斯拉负责自动驾驶系统(Autopilot)时,我们见证了软件2.0吞噬软件1.0的过程。
640.webp

那时候给车辆编写的自动驾驶系统,输入是摄像头图像,输出是转向和加速等控制指令。

系统底层有大量 C++ 编写的传统代码(软件1.0),同时也有一些神经网络来做图像识别(软件2.0)。

随着系统不断迭代,我们发现神经网络模型(软件2.0)的能力越来越强,与此同时,原本用C++编写的很多功能和逻辑(软件1.0)都被迁移到了软件2.0中,所以很多代码被删除了。

举个例子,很多来自不同摄像头、跨时间的信息拼接工作,原本是由代码完成的,现在全被删掉了。

软件2.0“吞噬”了软件1.0 的代码栈。我认为这一点非常了不起。

今天,我们似乎看到了同样的事情再次发生:软件3.0正在“吞噬”整个软件栈。
640.webp

我们现在有三种完全不同的编程范式:

软件1.0:传统代码
软件2.0:神经网络权重
软件3.0:提示词Prompt

未来的程序员需要熟练掌握这三种“编程思维”。训练一个神经网络?还是直接提示一个大语言模型?还是写一段显式的代码?

需要根据不同任务选择最合适的范式,并且可能需要在不同范式之间灵活切换。

  1. LLM 大语言模型新范式

LLM: 公共设施(Utility,如电厂)

斯坦福计算机教授吴恩达Andrew Ng 曾说过:“AI 就是新的电力。”

我认为这句话非常贴切。今天的大语言模型LLM很像一种“公共设施”(Utility):

OpenAI、Anthropic、Google Gemini 等机构,像是建电厂,需要花巨大资本训练大模型

然后通过 API 按用量收费向所有人提供智能服务

我们按照每百万Token付费

640.webp

我们对这种API有很多类似于“公共设施”的需求:延迟低、稳定可用、输出质量一致。

就像用电一样,你不希望断电、不希望电压忽高忽低。

在电力系统中我们有电源切换器(比如电网、电池、发电机)。在 LLM 领域,我们有 OpenRouter,可以自由切换调用不同的大语言模型。

因为这些 LLM 是软件,不会像物理电站那样互相抢地盘,所以你可以拥有六家 LLM 供应商互相共存。

最近几天,很多 LLM 出现大面积“宕机”。我觉得特别有意思:LLM宕机,就像整个世界的“智力停电”了,全球范围内的人类集体变笨了。

这就是“智能依赖”带来的新现象。我们对 LLM 的依赖已经非常深了,这种趋势还会加剧。

LLM: 半导体工厂(Fab)

LLM 不仅像电力,它也像半导体工厂(Fab)。
640.webp

训练模型需要巨大的前期资金投入(CAPEx),而且技术栈越来越深,研究成果逐渐集中在大厂内部。

不过,这个类比也有点模糊,因为正如我提到的,这毕竟是软件,而软件的可塑性很强,防御性较弱。所以这是一个有趣的思考角度。

还有很多类比可以套用,比如“4纳米工艺节点”可能类似于某种拥有特定最大算力的集群。

当你使用Nvidia GPU时,如果你只做软件而不碰硬件,这有点像“无厂模式”(fabless);

但如果你自己也在造硬件,并且在TPU上训练模型(比如谷歌),那就有点像“英特尔”模式,自研自产。

LLM: 操作系统

我觉得最贴切的比喻是:LLM 正在变成一种操作系统。

640.webp

可以把 GPT、Claude、Gemini 类比成不同的闭源 OS 系统(Windows、macOS);LLaMA 是开源生态里的 Linux。

我们现在还处在早期阶段,因为这些大语言模型目前还比较简单,但我们可以看到,它们会变得越来越复杂——不仅仅是模型本身,还包括工具使用(tool use)、多模态(multimodality)等等。

我画了下面这张图,你可以这样理解:

LLM = CPU

上下文窗口 = 内存

Prompt = 程序

工具调用和多模态交互 = 系统接口

640.webp

还有一些其他的类比也觉得很有意思,比如,你想安装一个应用:

在传统系统中你下载 VSCode,可以在 Windows、Linux、Mac 上运行

在 LLM 世界,你可以下载像 Cursor这样的IDE,它背后的LLM可以是 GPT、Claude、Gemini。

640.webp

1960年代的计算机阶段

我们现在可能正处于类似1960年代的阶段。

当年,计算机非常昂贵和庞大,只能部署在中心化的数据中心。现在的大语言模型也是一样:运行成本非常高,所以大多集中在云端。

640.webp

像早期用终端机连接大型主机一样,我们每个人都是“远程用户”,通过网络去使用这些模型。

没人能独占一台大模型,所以我们采用“分时共享”(time sharing)——轮流使用它的算力。就像当年计算机运行时,我们只是批处理任务中的一个维度一样。

“个人计算机革命”还没有发生。因为从经济角度来说不划算。

但这并不意味着它不会发生。

我们已经看到了一些早期的迹象:比如Apple 的 Mac mini其实就很适合运行某些轻量的大语言模型。

这些模型在推理时内存占用高、但计算量相对较低,而 Mac mini 的架构刚好能很好地满足这一点。所以它在本地运行一些模型时表现也不错。

640.webp

我认为这是“个人智能计算机”时代即将到来的一个苗头。

当然现在还不知道未来真正的形态是什么。但在座的你们,有人就会成为那个发明它、定义它、或者让它走进现实的人。

还有一个类比:每次我用纯文本和大模型对话时,我都觉得自己像是在使用操作系统的命令行界面(Terminal)。这是一种直接、基于文字的交流方式。

640.webp

但目前还没有一个真正适用于所有任务的“图形用户界面”(GUI)。虽然有些 LLM 应用有各自的界面,但缺乏一个统一的跨任务GUI。未来这方面的探索空间还很大。

LLM 还有一点与传统操作系统不同,它逆转了技术扩散的方向。

640.webp

过去每一波新技术(电力、计算机、加密、GPS、计算机等)最先用的都是政府和大公司,因为它们有钱、有资源,而普通消费者则要等很久之后才能用。

但这次完全相反:LLM 是从消费者端率先爆发的。

早期计算机最先用于军事和弹道预测。而今天的 LLM,大家用来查“鸡蛋怎么煮”之类的日常问题。政府和企业反而慢了一拍。

总结一下:

它像电力、像半导体厂

类似于1960年的操作系统

分时共享,每个人都能用

ChatGPT 的发布,一夜之间就传到了全球数十亿人手中。太疯狂了。

现在轮到我们进入这个行业,去编程这些计算机了。这太不可思议了。

  1. LLM的心理特征

LLM 类似于“人类灵魂”的随机模拟(Stochastic Simulation of People)。这里的“模拟器”是一个自回归Transformer 模型。

640.webp

这个模拟器基于整个互联网的所有文本进行训练,最终形成了一种“人”的模拟器。

因为基于人类数据训练,所以出现了这种“类人”的心理学特性。拥有百科全书式的知识,远超任何人。

强烈推荐大家看一部电影《雨人》(Rain Man),达斯汀·霍夫曼饰演的自闭症天才拥有近乎完美的记忆力,他可以看完一本电话簿并记住所有的名字和号码。

而大语言模型也能轻松记住各种哈希值、代码片段之类的东西。它们确实在某些方面拥有“超能力”。

640.webp

但它们也有严重的认知缺陷,比如说:

幻觉频发(Hallucination),编造事实

缺乏强大的“自我知识”模型(Self-knowleadge Model)

智能参差不齐,有些方面超人,有些地方低级错误百出(比如Strawberry 有两个 R,9.11大于9.9)

顺行性遗忘(Anterograde Amnesia,无法把新的信息转化为长期记忆)

640.webp

推荐大家看两部电影《记忆碎片》(Memento)和《初恋50次》(50 First dates)。

640.webp

两部电影的主角都有固定的“权重”,每天早上醒来时上下文窗口都会被清空(失忆),导致他们无法维持正常的人际关系。而这对LLM来说是常态。

此外,LLM还有安全性问题,容易受到“提示注入”(Prompt Injection)攻击,容易暴露数据。

所以,LLM不是万能的,我们需要了解它的长处与短板,发挥它的“超能力”,也要避免它的“坑”。

640.webp

  1. AI应用的未来机会

部分自主应用 (Partial Autonomy Apps)

这是我非常兴奋的一个方向。

以编程为例,你可以复制代码粘贴到ChatGPT问,但更合理的是使用一个专用工具,比如 Cursor,我也在用Cursor。

640.webp

Cursor 是一个典型的早期LLM应用,它保留了传统用户界面,支持人类手动完成所有工作。而且加入了LLM的集成,支持人类以更大的“块”(chunk)来处理任务。

它的设计有一些特点,所有 LLM 应用都可以借鉴:

LLM能够管理大量的上下文


编排协调多个LLM的调用

嵌入模型用于文件索引,聊天模型用于交互,代码差异模型用于修改代码


图形用户界面(GUI)

这一点非常重要但容易忽略。人类阅读和理解文本效率很低。比如查看代码差异时,用红色和绿色标注新增和删除更容易人阅读;直接点击“接受”和“拒绝”比手动输入命令快得多。


自主滑块(Autonomy Slider):允许用户自主调整AI控制权

自动补全代码:用户主导

Command- K: 让LLM修改一小段代码

Command- L:LLM修改整个文件

Command-  I:让LLM“自由发挥”,随便改整个仓库 (这是完全自主的大理模式,agentic mode)

Perplexity是另一个成功的例子,也具备类似特性:

  1. 整合了多个LLM模型的能力
  2. 提供清晰引用和结果的GUI,可查看引用的来源
  3. 自主滑块:可选择普通搜索、深入搜索、研究搜索。后者可能需要10分钟才返回结果。

640.webp

我相信未来很多软件都会变成“部分自主”形式。

对开发者来说,如何让你的产品实现这部分自主?

LLM能否“看见”人类所能看见的一切?

LLM能否采取与人类相同的行动?

人类是否能持续地监督并参与这个过程?

举个例子:在 Photoshop 这种图形软件中,未来 LLM 做出修改时,所谓的差异应该是什么样子?传统的差异是红绿代码,而 Photoshop 的差异可能是图层、滤镜、像素级调整。

640.webp

传统软件 UI 的各种控件和开关都是为人类设计的,未来都需要重新设计,让它们能被LLM理解和使用。

加速“AI生成+人类验证”的循环

我想强调的一点,也是我认为很多人容易忽视的:我们现在正在与 AI 合作,AI 负责生成内容,人类负责验证。

我们需要让“AI生成 + 人类验证”这个循环尽可能快速地转动。

640.webp

有两种方式实现这点:

1. 加速验证过程——GUI(可视化界面)极其重要

人类视觉处理远比阅读文本高效;一个好的GUI可以加速人类的验证过程。

2. 给AI“套上缰绳”

很多人对AI Agent过于兴奋。对我来说,直接让AI“一次性修改1万行代码”并没有帮助。因为没人能一下子验证10万行代码没有bug,而且符合安全规则。

所以关键在于:让生成和验证的循环运行得非常快。同时又必须以某种方式控制住AI,防止它过度反应。

就像我自己的编程习惯:小步快跑,每次只解决一个具体而微小的问题,确保每一步都正确,然后快速迭代这个循环。

640.webp

最近看到一篇关于LLM工作最佳实践的博客文章,其中提到明确提示词的重要性——模糊的指令会导致验证失败,进而陷入反复修改的恶性循环。因此花时间精确描述需求能显著提升验证成功率。

640.webp

AI教育产品

我对“AI时代的教育”也很感兴趣,花了大量心思思考如何“拴住AI”。
我觉得直接去问ChatGPT“嘿,教我物理”这种方式是行不通的,因为AI很容易迷失方向。

这应该是两个独立的应用:

一个应用是为教师创建课程内容

另一个应用则是把这些课程呈现给学生

640.webp

在这两种情况下,我们现在有了一个可验证审核的中间产物——课程。

我们可以确保课程质量,确保内容连贯,并且把AI被限制在一个特定的教学大纲和项目进度之中。

这就是一种“拴住AI”的方式,我认为这种方式成功的可能性更高,AI不会迷失方向。

特斯拉的GUI设计

我对“部分自主”并不陌生,在特斯拉工作期间就研究这个领域大约五年时间。那也是一个部分自主的产品,具备很多类似的特性。

比如,在仪表盘上就有一个自动驾驶的GUI界面,它会显示神经网络所“看到”的内容。我们还有一个“自主滑块”,为用户实现了越来越多的自主任务。

640.webp

2025-2035,Agent的十年

简单分享一个故事: 我第一次体验自动驾驶汽车是在2013年,当时我的一个朋友在Waymo工作,他邀请我在帕洛阿尔托兜风。

640.webp

我用当时很火的Google Glass拍了一张照片(可能你们很多年轻人都没见过那玩意儿)。

我们上了车,在帕洛阿尔托的高速公路和街道上开了大约30分钟的车,整个过程完美无缺,没有任何人工干预。

那是2013年,距今已经12年了。我当时觉得自动驾驶马上就要实现了,但12年过去了,我们仍然在努力攻克自动驾驶技术。

640.webp

即使是现在,那些自动驾驶的Waymo车辆,其实背后仍然有大量的远程操作和人类干预。我们还没有真正宣布成功。

我认为它最终肯定会成功,只是这需要很长时间。

所以我认为,软件也很难搞,就像驾驶一样难。所以当我看到有人说“2025年是AI Agent元年”时,我就会感到非常担忧。

我觉得这将是“Agent的十年”,但这也意味着我们需要在这个过程中保持谨慎,必须让人类留在验证循环之中。毕竟这是软件,我们必须认真对待。

640.webp

钢铁侠战衣

我一直很喜欢《钢铁侠》,我觉得它在很多方面都非常准确地预见了技术的发展路径。

“钢铁侠战衣”既是增强工具(Augmentation)——托尼·斯塔克可以亲自操控它;同时也是一个智能体(Agent)——在某些电影情节里,战衣可以自主飞行、找到托尼等等。

640.webp

这个“自主滑块”意味着我们既可以构建增强工具,也可以构建智能体,我们两者都想做。

640.webp

但在目前这个阶段,考虑到LLM还不完美,我认为我们更应该构建的是“增强工具”而不是“炫酷的Agent Demo演示”。

我们应该打造部分自主的应用,这些产品拥有定制化的GUI和UI/UX用户体验,目的是让“AI生成内容,人类验证”的循环变得非常非常快。

同时我们也不能忘记,从原则上讲,这些工作未来是可以被完全自动化的,所以你的产品里应该有一个“自主性滑块”。

你要思考如何调整这个自主滑块,让你的产品随着时间的推移变得更加自主。

Vibe Coding 氛围式编程

英文成为了编程语言,意味着每个人都是程序员。
过去你需要花五到十年时间学习编程才能在软件领域有所作为,但现在情况完全不同了。

我发的这条推文首次提出了“Vibe Coding”这个概念,听说它现在已经成为一个热门梗了。

640.webp

我已经用了Twitter大概15年了,但我一直搞不懂哪条推文会火,哪条会无人问津。我本来以为这条推文会是后者,就是那种发出来没人理的类型,只是我灵光一现的想法而已。

不知道为什么它突然就火了,成了一种文化现象。我真的搞不懂,但它确实引起了很多人的共鸣,给大家都感受到却说不清楚的东西命了名。

现在甚至有了维基百科页面,感觉就像做出了重大贡献一样。

640.webp

另外,Hugging Face的Tom Wolf分享了一个超棒的视频,我特别喜欢。

640.webp

视频里是一群9-13岁的孩子在“vibe coding”。

我觉得这个视频太治愈了,看到它后怎么会对未来悲观呢?未来是光明的!我认为它会吸引更多人进入这个领域。

我自己也尝试了一下vibe coding,真的很有趣。当你想做一个超级定制化的东西,而这个东西似乎并不存在时,你就可以直接上手尝试。

我做了一个iOS应用,虽然我不会Swift编程,但我真的很惊讶,居然能在一天之内做出一个超级基础的应用。这个应用运行得还不错,当天做出来了。

640.webp

我当时就想:“哇,这太神奇了!”我不需要花五天时间去学习Swift就能开始动手,这种感觉太棒了。

我还用vibe coding做了一个叫Menu Genen的应用,现在它已经上线了,你可以在 https://www.menugen.app/试用。

640.webp

我遇到的问题是:每次去餐厅,看菜单却不知道上面写的是什么,因为没有图片。于是我就想:“嘿,我来vibe coding一个吧。”

这就是它的样子:你打开menu.app,拍一张菜单的照片,然后Menu Genen就会自动生成图片。

640.webp

注册时每个人还能获得5美元的免费额度,所以这对我来说其实是个较高的成本,目前是个“亏本”的应用。

但让我感到着迷的是,在vibe coding的过程中,写代码其实是最简单的一部分。

真正困难的是让它变成一个真实可用的产品——你需要增加身份验证、支付功能、域名设置、部署流程等等各种DevOpes相关的工作。

这些都不是写代码,而是在浏览器里点来点去,进行各种配置,非常繁琐,花了我整整一周时间。

所以很有意思的是,我其实在电脑上花了几个小时就做出了Menu Genen的演示版本,但真正让它“上线”却花了一周时间。

比如你想在网页上添加Google登录功能,虽然看起来是个小事情,但那个Clerk库给出的操作指南极其冗长,它会告诉你:去这个URL,点这个下拉菜单,选这个,再去那个地方,点那个……

640.webp

就像有个电脑在一步步指挥你该做什么,而我却在被迫执行这些指令,这太让人抓狂了。
640.webp

所以,我今天演讲的最后一部分聚焦在一个问题上:我们能不能直接为Agent构建产品?我不想再做这些繁琐的工作了,能不能让Agent来帮我搞定?

为Agent重构互联网

过去有两种方式:人类通过GUI操作,计算机通过API交互。

如今我们有了一个全新的数字信息操作者——Agent,是计算机,又像人类,可以说是“互联网上的灵魂”。
640.webp

我们需要开始为 Agent 构建互联网。这是一个全新的领域。

举几个例子:

大家通常会在网站放一个robots.txt文件,告诉网络爬虫如何抓取。同样的,我们可以在网站根目录创建一个 llm.txt 文件,用Markdown格式专门向LLM介绍这个网站,LLM不用再解析复杂的 HTML。
![640.webp][46]


大量文档是写给人看的,强调排版、加粗文字和图片。但这些对LLM来说并不直接可读。接下来文档不再只写给人读,也要让 LLM 可读(Markdown 格式)。Vercel、Stripe 等公司已经开始将文档转为 Markdown,方便LLM阅读。
![640.webp][47]


油管上的3blue1brown写了一个很酷的Manim动画库。我也想做但不想读文档,于是我直接把文档粘贴给 LLM,它帮我生成了动画代码。
![640.webp][48]

文档里的“点击这里”不方便LLM操作。Vercel把“点击这里”替换成了等效的curl命令,这样LLM就可以直接代替你操作了。

![640.webp][49]


还有Anthropic推出的MCP 协议,也是直接与Agent沟通的方式,能够高效获取信息。我非常看好。

还有一些小工具,比如把GitHub URL改为 Gitingest,可以把整个repo汇总成文档,便于 LLM 读取。
![640.webp][50]


还有 DeepWiki,自动将 GitHub 项目生成说明书式的文档。
![640.webp][51]

如果我们能让文档对LLM变得可读,那将会释放出巨大的潜力,我认为这应该成为未来的趋势。

当然,未来LLM可能像人一样自己点击按钮、浏览网页等等。其实现在也可行,但是成本高、效率低。因此仍然值得主动“为LLM铺路”,让它们更容易获取信息。

640.webp

可以预见,在长尾应用场景中,许多软件可能不会专门适配LLM——比如那些非标准化的数据仓库或数字基础设施。针对这类情况,我们确实需要开发专门的适配工具。

但对于绝大多数应用而言,在人类与AI之间寻找平衡点将极具价值。所以我对这两种路径都非常看好。

  1. 现在是加入的最佳时机

我们现在正处在一个多么令人激动的时代啊!

大量代码被重写,需要你我来写

LLM像电力公司、芯片工厂,本质上更像处于1960年代的操作系统

LLM还像不完美的“人类灵魂”,我们需要构建基础设施,理解并使用它们

构建LLM应用时,设计好的GUI可以加速“生成验证”循环,逐步提高Agent自治能力

640.webp

回到“钢铁侠战衣”的比喻,我认为在未来十年中,我们将逐步把这个“自主滑块”从左向右滑动。从AI与人协作,到完全自主化的Agent。

这将会是一个非常有趣的过程,我迫不及待想和你们一起参与其中。

640.webp

文章来源:https://mp.weixin.qq.com/s/H2CK2SMmCxJSm6xnpT_oKQ

最后修改:2025 年 06 月 20 日
点赞的人是最酷的