AI摘要
刚刚结束的YC AI Startup School上,Andrej Karpathy带来了一场极具前瞻性的主题演讲,深入探讨了AI时代软件范式的根本性变革。
Karpathy提出我们已进入“软件3.0”时代——自然语言成为新的编程接口。他将LLM类比为新时代的“电力公司”、“芯片工厂”,认为我们处于“1960年代的计算机时代”。
演讲中,Karpathy不仅剖析了LLM的“类人心理”特征,更揭示了这一变革带来的机遇:通过自然语言大幅提升开发效率,催生部分自主产品的可能性,以及推动软件设计从“以人为主”转向“以智能体(agent)为核心”的新范式。
这场演讲信息密度极大,为开发者、创业者和科技从业者提供了理解AI原生软件未来的关键框架。
全文约9000字,阅读时间预计 20 分钟。
推荐先浏览开头的<15大要点总结>,再深入阅读全文。
要点总结
1. 软件正在经历第三次根本性变革
过去70年软件基本未变,但近年内已发生两次快速变革。从传统代码到神经网络权重,再到大语言模型驱动的提示编程,编程范式正发生根本性转变。
2. 软件1.0,2.0,3.0的演化
软件1.0: 传统代码,如Python,C++
软件2.0: 神经网络的权重参数
软件3.0: 提示词Prompt
特斯拉自动驾驶系统迭代时,神经网络(软件2.0)逐步“吞噬” 传统代码(软件1.0)。当前提示词(软件3.0)正在以类似方式“吞噬”整个软件栈。
3. LLM:类似电力公司、芯片工厂
电力工厂:前期花巨资训练,后期按照token收费,低延时与高可用性。
芯片工厂:训练成本高,研发集中于头部大厂
4. LLM:类似1960年的操作系统
当前LLM生态类似于1960年代的操作系统:LLM=CPU,上下文=内存,Prompt = 程序。 LLM 贵且集中在云端,个人 LLM 革命未至,但本地推理初现(如 Mac mini 跑小模型)。
5. LLM心理特征:强项与缺陷并存
类似于“人类灵魂的模拟器”,具备超强知识广度。但常产生幻觉、缺乏持续记忆,易受安全攻击等。
6. 自主滑块(Autonomy Slider)
构建AI应用时,用户可以选择 AI 自主的程度。 例如,用户可以选择AI全自动写代码、半自动(AI修改人选中的代码),低自治(自动补全代码)等。用户具有控制权。
7. 机会:部分自主(Partial Autonomy)应用
软件未来逐步实现“部分自主化”,从人与AI协作完成任务,逐步实现Agent完全自主化。典型例子Cursor和Perplexity。支持自主滑块选择AI介入程度,提供可视化界面(GUI)辅助人类验证审核。
8. 成功应用:构建“AI生成+人类验证”闭环
AI当前仍不可靠,必须构建“AI生成+人类验证”的快速循环。GUI 设计极其重要,可大幅加速人类验证效率;并需要给AI“套上缰绳”,避免AI过度自主导致错误扩散。
9. 教育与AI:构建可审计的学习路径
教育产品应设计为两个应用:“教学”与“学习”分离。创建可审计的中间结构(课程),确保学习内容结构化、可追踪,从而避免AI“跑偏”。
10. 2025-2035是Agent的十年
对“2025是Agent元年”这一说法表示担忧。Agent自主软件的研发难度堪比自动驾驶,其成熟与普及可能需要十年周期。
11. Vibe Coding:全民编程时代的到来
自然语言成为新的编程语言,任何人都可以通过提示词(Prompt)生成代码(Vibe Coding)。这大幅降低了编程门槛,成为未来软件创作的主流方式。
12. 重构Agent的互联网:文档与数据适配LLM
当前大多数内容(网页、文档)是为人类设计的,LLM难以直接理解。未来应构建“LLM友好”的数据格式与接口,如Markdown格式、支持MCP协议的工具等。
13. 钢铁侠战衣:从AI辅助到全自动化
如同《钢铁侠》中的战衣,既可辅助增强人类能力,也可实现完全自主操作——我们将逐步推动AI从辅助工具走向完全自主的Agent。现阶段应构建“AI增强工具”而非酷炫的“Agent Demo”。
14. 推荐看的3部电影
《雨人》(Rain Man)
《记忆碎片》(Memento)
《初恋50次》(50 First dates)
第一部电影主角拥有近乎完美记忆,类比LLM能记住特定代码片段的超能力。后两部影片主角每天都会记忆重制,类似LLM无法保留上下文记忆。
15. 现在是加入的黄金时代
所有的软件需要被重写。构建新软件的机会前所未有。软件正从传统代码向大语言模型驱动的新时代跃迁,带来全新编程范式、应用形态及协作方式。
软件(又)变了
——Andrej Karpathy
大家好,欢迎来到今天的分享。我是 Andrej Karpathy,非常高兴能在这里和大家聊聊“AI时代的软件”。
我听说台下有很多是本科、硕士甚至博士阶段的学生,正准备进入职场。我想说,现在是进入行业的绝佳时机,因为软件行业正在经历根本性的变革。
软件的范式变革
在过去的70年里,软件都没有出现过根本性的变化。
但过去几年,它经历了两次巨变。这意味着,我们将有大量软件需要被重写,也有大量新软件需要诞生。
有个工具叫“代码宇宙”(Map of Github),它把整个开源软件的生态用图谱可视化,把整个软件世界看成是一张地图。
几年前我注意到一种新的软件形态正在兴起,称之为“软件2.0”。
在软件2.0里,不是直接写程序,而是准备数据集,然后用优化器训练模型,最后得出一组参数。这些参数就是程序本身。
软件1.0:人类编写的代码(如Python、C++)
软件2.0:神经网络的权重参数
Hugging Face 就像是软件2.0的 GitHub。比如下图中最大圆圈中间的点,是图像生成模型Flux的参数。每次微调就相当于在这个空间里的一次“代码提交”。
下图中间是 AlexNet 图像识别网络,是过去我们熟悉的那种“固定功能神经网络”:比如图像到类别、语音到文字等。
但最近发生了非常根本的变化:神经网络可以通过大语言模型(LLM)让来“编程”了。
我给它一个新名字:软件3.0,写给LLM大语言模型的Prompt提示词。提示词Prompt 就是程序,编程语言是英语。
软件1.0 是写给计算机的代码程序
软件2.0 是写给神经网络的权重参数
软件3.0 是写给LLM的提示词Prompt
举个例子,比如你要做情感分类,你可以通过:
软件1.0:写一堆Python代码
软件2.0:训练一个神经网络
软件3.0:直接写一句提示词(Prompt)
Github上很多项目已经不是纯代码了,中间夹杂着大量英语。这是一个信号,一种全新的“代码语言”(英语)正在诞生。
几年以前我第一次意识到这点时发了一条推特:最火的新编程语言是英语。引起了很多人的关注。
我在特斯拉负责自动驾驶系统(Autopilot)时,我们见证了软件2.0吞噬软件1.0的过程。
那时候给车辆编写的自动驾驶系统,输入是摄像头图像,输出是转向和加速等控制指令。
系统底层有大量 C++ 编写的传统代码(软件1.0),同时也有一些神经网络来做图像识别(软件2.0)。
随着系统不断迭代,我们发现神经网络模型(软件2.0)的能力越来越强,与此同时,原本用C++编写的很多功能和逻辑(软件1.0)都被迁移到了软件2.0中,所以很多代码被删除了。
举个例子,很多来自不同摄像头、跨时间的信息拼接工作,原本是由代码完成的,现在全被删掉了。
软件2.0“吞噬”了软件1.0 的代码栈。我认为这一点非常了不起。
今天,我们似乎看到了同样的事情再次发生:软件3.0正在“吞噬”整个软件栈。
我们现在有三种完全不同的编程范式:
软件1.0:传统代码
软件2.0:神经网络权重
软件3.0:提示词Prompt
未来的程序员需要熟练掌握这三种“编程思维”。训练一个神经网络?还是直接提示一个大语言模型?还是写一段显式的代码?
需要根据不同任务选择最合适的范式,并且可能需要在不同范式之间灵活切换。
LLM 大语言模型新范式
LLM: 公共设施(Utility,如电厂)
斯坦福计算机教授吴恩达Andrew Ng 曾说过:“AI 就是新的电力。”
我认为这句话非常贴切。今天的大语言模型LLM很像一种“公共设施”(Utility):
OpenAI、Anthropic、Google Gemini 等机构,像是建电厂,需要花巨大资本训练大模型
然后通过 API 按用量收费向所有人提供智能服务
我们按照每百万Token付费
我们对这种API有很多类似于“公共设施”的需求:延迟低、稳定可用、输出质量一致。
就像用电一样,你不希望断电、不希望电压忽高忽低。
在电力系统中我们有电源切换器(比如电网、电池、发电机)。在 LLM 领域,我们有 OpenRouter,可以自由切换调用不同的大语言模型。
因为这些 LLM 是软件,不会像物理电站那样互相抢地盘,所以你可以拥有六家 LLM 供应商互相共存。
最近几天,很多 LLM 出现大面积“宕机”。我觉得特别有意思:LLM宕机,就像整个世界的“智力停电”了,全球范围内的人类集体变笨了。
这就是“智能依赖”带来的新现象。我们对 LLM 的依赖已经非常深了,这种趋势还会加剧。
LLM: 半导体工厂(Fab)
LLM 不仅像电力,它也像半导体工厂(Fab)。
训练模型需要巨大的前期资金投入(CAPEx),而且技术栈越来越深,研究成果逐渐集中在大厂内部。
不过,这个类比也有点模糊,因为正如我提到的,这毕竟是软件,而软件的可塑性很强,防御性较弱。所以这是一个有趣的思考角度。
还有很多类比可以套用,比如“4纳米工艺节点”可能类似于某种拥有特定最大算力的集群。
当你使用Nvidia GPU时,如果你只做软件而不碰硬件,这有点像“无厂模式”(fabless);
但如果你自己也在造硬件,并且在TPU上训练模型(比如谷歌),那就有点像“英特尔”模式,自研自产。
LLM: 操作系统
我觉得最贴切的比喻是:LLM 正在变成一种操作系统。
可以把 GPT、Claude、Gemini 类比成不同的闭源 OS 系统(Windows、macOS);LLaMA 是开源生态里的 Linux。
我们现在还处在早期阶段,因为这些大语言模型目前还比较简单,但我们可以看到,它们会变得越来越复杂——不仅仅是模型本身,还包括工具使用(tool use)、多模态(multimodality)等等。
我画了下面这张图,你可以这样理解:
LLM = CPU
上下文窗口 = 内存
Prompt = 程序
工具调用和多模态交互 = 系统接口
还有一些其他的类比也觉得很有意思,比如,你想安装一个应用:
在传统系统中你下载 VSCode,可以在 Windows、Linux、Mac 上运行
在 LLM 世界,你可以下载像 Cursor这样的IDE,它背后的LLM可以是 GPT、Claude、Gemini。
1960年代的计算机阶段
我们现在可能正处于类似1960年代的阶段。
当年,计算机非常昂贵和庞大,只能部署在中心化的数据中心。现在的大语言模型也是一样:运行成本非常高,所以大多集中在云端。
像早期用终端机连接大型主机一样,我们每个人都是“远程用户”,通过网络去使用这些模型。
没人能独占一台大模型,所以我们采用“分时共享”(time sharing)——轮流使用它的算力。就像当年计算机运行时,我们只是批处理任务中的一个维度一样。
“个人计算机革命”还没有发生。因为从经济角度来说不划算。
但这并不意味着它不会发生。
我们已经看到了一些早期的迹象:比如Apple 的 Mac mini其实就很适合运行某些轻量的大语言模型。
这些模型在推理时内存占用高、但计算量相对较低,而 Mac mini 的架构刚好能很好地满足这一点。所以它在本地运行一些模型时表现也不错。
我认为这是“个人智能计算机”时代即将到来的一个苗头。
当然现在还不知道未来真正的形态是什么。但在座的你们,有人就会成为那个发明它、定义它、或者让它走进现实的人。
还有一个类比:每次我用纯文本和大模型对话时,我都觉得自己像是在使用操作系统的命令行界面(Terminal)。这是一种直接、基于文字的交流方式。
但目前还没有一个真正适用于所有任务的“图形用户界面”(GUI)。虽然有些 LLM 应用有各自的界面,但缺乏一个统一的跨任务GUI。未来这方面的探索空间还很大。
LLM 还有一点与传统操作系统不同,它逆转了技术扩散的方向。
过去每一波新技术(电力、计算机、加密、GPS、计算机等)最先用的都是政府和大公司,因为它们有钱、有资源,而普通消费者则要等很久之后才能用。
但这次完全相反:LLM 是从消费者端率先爆发的。
早期计算机最先用于军事和弹道预测。而今天的 LLM,大家用来查“鸡蛋怎么煮”之类的日常问题。政府和企业反而慢了一拍。
总结一下:
它像电力、像半导体厂
类似于1960年的操作系统
分时共享,每个人都能用
ChatGPT 的发布,一夜之间就传到了全球数十亿人手中。太疯狂了。
现在轮到我们进入这个行业,去编程这些计算机了。这太不可思议了。
LLM的心理特征
LLM 类似于“人类灵魂”的随机模拟(Stochastic Simulation of People)。这里的“模拟器”是一个自回归Transformer 模型。
这个模拟器基于整个互联网的所有文本进行训练,最终形成了一种“人”的模拟器。
因为基于人类数据训练,所以出现了这种“类人”的心理学特性。拥有百科全书式的知识,远超任何人。
强烈推荐大家看一部电影《雨人》(Rain Man),达斯汀·霍夫曼饰演的自闭症天才拥有近乎完美的记忆力,他可以看完一本电话簿并记住所有的名字和号码。
而大语言模型也能轻松记住各种哈希值、代码片段之类的东西。它们确实在某些方面拥有“超能力”。
但它们也有严重的认知缺陷,比如说:
幻觉频发(Hallucination),编造事实
缺乏强大的“自我知识”模型(Self-knowleadge Model)
智能参差不齐,有些方面超人,有些地方低级错误百出(比如Strawberry 有两个 R,9.11大于9.9)
顺行性遗忘(Anterograde Amnesia,无法把新的信息转化为长期记忆)
推荐大家看两部电影《记忆碎片》(Memento)和《初恋50次》(50 First dates)。
两部电影的主角都有固定的“权重”,每天早上醒来时上下文窗口都会被清空(失忆),导致他们无法维持正常的人际关系。而这对LLM来说是常态。
此外,LLM还有安全性问题,容易受到“提示注入”(Prompt Injection)攻击,容易暴露数据。
所以,LLM不是万能的,我们需要了解它的长处与短板,发挥它的“超能力”,也要避免它的“坑”。
AI应用的未来机会
部分自主应用 (Partial Autonomy Apps)
这是我非常兴奋的一个方向。
以编程为例,你可以复制代码粘贴到ChatGPT问,但更合理的是使用一个专用工具,比如 Cursor,我也在用Cursor。
Cursor 是一个典型的早期LLM应用,它保留了传统用户界面,支持人类手动完成所有工作。而且加入了LLM的集成,支持人类以更大的“块”(chunk)来处理任务。
它的设计有一些特点,所有 LLM 应用都可以借鉴:
LLM能够管理大量的上下文
编排协调多个LLM的调用
嵌入模型用于文件索引,聊天模型用于交互,代码差异模型用于修改代码
图形用户界面(GUI)
这一点非常重要但容易忽略。人类阅读和理解文本效率很低。比如查看代码差异时,用红色和绿色标注新增和删除更容易人阅读;直接点击“接受”和“拒绝”比手动输入命令快得多。
自主滑块(Autonomy Slider):允许用户自主调整AI控制权
自动补全代码:用户主导
Command- K: 让LLM修改一小段代码
Command- L:LLM修改整个文件
Command- I:让LLM“自由发挥”,随便改整个仓库 (这是完全自主的大理模式,agentic mode)
Perplexity是另一个成功的例子,也具备类似特性:
- 整合了多个LLM模型的能力
- 提供清晰引用和结果的GUI,可查看引用的来源
- 自主滑块:可选择普通搜索、深入搜索、研究搜索。后者可能需要10分钟才返回结果。
我相信未来很多软件都会变成“部分自主”形式。
对开发者来说,如何让你的产品实现这部分自主?
LLM能否“看见”人类所能看见的一切?
LLM能否采取与人类相同的行动?
人类是否能持续地监督并参与这个过程?
举个例子:在 Photoshop 这种图形软件中,未来 LLM 做出修改时,所谓的差异应该是什么样子?传统的差异是红绿代码,而 Photoshop 的差异可能是图层、滤镜、像素级调整。
传统软件 UI 的各种控件和开关都是为人类设计的,未来都需要重新设计,让它们能被LLM理解和使用。
加速“AI生成+人类验证”的循环
我想强调的一点,也是我认为很多人容易忽视的:我们现在正在与 AI 合作,AI 负责生成内容,人类负责验证。
我们需要让“AI生成 + 人类验证”这个循环尽可能快速地转动。
有两种方式实现这点:
1. 加速验证过程——GUI(可视化界面)极其重要
人类视觉处理远比阅读文本高效;一个好的GUI可以加速人类的验证过程。
2. 给AI“套上缰绳”
很多人对AI Agent过于兴奋。对我来说,直接让AI“一次性修改1万行代码”并没有帮助。因为没人能一下子验证10万行代码没有bug,而且符合安全规则。
所以关键在于:让生成和验证的循环运行得非常快。同时又必须以某种方式控制住AI,防止它过度反应。
就像我自己的编程习惯:小步快跑,每次只解决一个具体而微小的问题,确保每一步都正确,然后快速迭代这个循环。
最近看到一篇关于LLM工作最佳实践的博客文章,其中提到明确提示词的重要性——模糊的指令会导致验证失败,进而陷入反复修改的恶性循环。因此花时间精确描述需求能显著提升验证成功率。
AI教育产品
我对“AI时代的教育”也很感兴趣,花了大量心思思考如何“拴住AI”。
我觉得直接去问ChatGPT“嘿,教我物理”这种方式是行不通的,因为AI很容易迷失方向。
这应该是两个独立的应用:
一个应用是为教师创建课程内容
另一个应用则是把这些课程呈现给学生
在这两种情况下,我们现在有了一个可验证审核的中间产物——课程。
我们可以确保课程质量,确保内容连贯,并且把AI被限制在一个特定的教学大纲和项目进度之中。
这就是一种“拴住AI”的方式,我认为这种方式成功的可能性更高,AI不会迷失方向。
特斯拉的GUI设计
我对“部分自主”并不陌生,在特斯拉工作期间就研究这个领域大约五年时间。那也是一个部分自主的产品,具备很多类似的特性。
比如,在仪表盘上就有一个自动驾驶的GUI界面,它会显示神经网络所“看到”的内容。我们还有一个“自主滑块”,为用户实现了越来越多的自主任务。
2025-2035,Agent的十年
简单分享一个故事: 我第一次体验自动驾驶汽车是在2013年,当时我的一个朋友在Waymo工作,他邀请我在帕洛阿尔托兜风。
我用当时很火的Google Glass拍了一张照片(可能你们很多年轻人都没见过那玩意儿)。
我们上了车,在帕洛阿尔托的高速公路和街道上开了大约30分钟的车,整个过程完美无缺,没有任何人工干预。
那是2013年,距今已经12年了。我当时觉得自动驾驶马上就要实现了,但12年过去了,我们仍然在努力攻克自动驾驶技术。
即使是现在,那些自动驾驶的Waymo车辆,其实背后仍然有大量的远程操作和人类干预。我们还没有真正宣布成功。
我认为它最终肯定会成功,只是这需要很长时间。
所以我认为,软件也很难搞,就像驾驶一样难。所以当我看到有人说“2025年是AI Agent元年”时,我就会感到非常担忧。
我觉得这将是“Agent的十年”,但这也意味着我们需要在这个过程中保持谨慎,必须让人类留在验证循环之中。毕竟这是软件,我们必须认真对待。
钢铁侠战衣
我一直很喜欢《钢铁侠》,我觉得它在很多方面都非常准确地预见了技术的发展路径。
“钢铁侠战衣”既是增强工具(Augmentation)——托尼·斯塔克可以亲自操控它;同时也是一个智能体(Agent)——在某些电影情节里,战衣可以自主飞行、找到托尼等等。
这个“自主滑块”意味着我们既可以构建增强工具,也可以构建智能体,我们两者都想做。
但在目前这个阶段,考虑到LLM还不完美,我认为我们更应该构建的是“增强工具”而不是“炫酷的Agent Demo演示”。
我们应该打造部分自主的应用,这些产品拥有定制化的GUI和UI/UX用户体验,目的是让“AI生成内容,人类验证”的循环变得非常非常快。
同时我们也不能忘记,从原则上讲,这些工作未来是可以被完全自动化的,所以你的产品里应该有一个“自主性滑块”。
你要思考如何调整这个自主滑块,让你的产品随着时间的推移变得更加自主。
Vibe Coding 氛围式编程
英文成为了编程语言,意味着每个人都是程序员。
过去你需要花五到十年时间学习编程才能在软件领域有所作为,但现在情况完全不同了。
我发的这条推文首次提出了“Vibe Coding”这个概念,听说它现在已经成为一个热门梗了。
我已经用了Twitter大概15年了,但我一直搞不懂哪条推文会火,哪条会无人问津。我本来以为这条推文会是后者,就是那种发出来没人理的类型,只是我灵光一现的想法而已。
不知道为什么它突然就火了,成了一种文化现象。我真的搞不懂,但它确实引起了很多人的共鸣,给大家都感受到却说不清楚的东西命了名。
现在甚至有了维基百科页面,感觉就像做出了重大贡献一样。
另外,Hugging Face的Tom Wolf分享了一个超棒的视频,我特别喜欢。
视频里是一群9-13岁的孩子在“vibe coding”。
我觉得这个视频太治愈了,看到它后怎么会对未来悲观呢?未来是光明的!我认为它会吸引更多人进入这个领域。
我自己也尝试了一下vibe coding,真的很有趣。当你想做一个超级定制化的东西,而这个东西似乎并不存在时,你就可以直接上手尝试。
我做了一个iOS应用,虽然我不会Swift编程,但我真的很惊讶,居然能在一天之内做出一个超级基础的应用。这个应用运行得还不错,当天做出来了。
我当时就想:“哇,这太神奇了!”我不需要花五天时间去学习Swift就能开始动手,这种感觉太棒了。
我还用vibe coding做了一个叫Menu Genen的应用,现在它已经上线了,你可以在 https://www.menugen.app/试用。
我遇到的问题是:每次去餐厅,看菜单却不知道上面写的是什么,因为没有图片。于是我就想:“嘿,我来vibe coding一个吧。”
这就是它的样子:你打开menu.app,拍一张菜单的照片,然后Menu Genen就会自动生成图片。
注册时每个人还能获得5美元的免费额度,所以这对我来说其实是个较高的成本,目前是个“亏本”的应用。
但让我感到着迷的是,在vibe coding的过程中,写代码其实是最简单的一部分。
真正困难的是让它变成一个真实可用的产品——你需要增加身份验证、支付功能、域名设置、部署流程等等各种DevOpes相关的工作。
这些都不是写代码,而是在浏览器里点来点去,进行各种配置,非常繁琐,花了我整整一周时间。
所以很有意思的是,我其实在电脑上花了几个小时就做出了Menu Genen的演示版本,但真正让它“上线”却花了一周时间。
比如你想在网页上添加Google登录功能,虽然看起来是个小事情,但那个Clerk库给出的操作指南极其冗长,它会告诉你:去这个URL,点这个下拉菜单,选这个,再去那个地方,点那个……
就像有个电脑在一步步指挥你该做什么,而我却在被迫执行这些指令,这太让人抓狂了。
所以,我今天演讲的最后一部分聚焦在一个问题上:我们能不能直接为Agent构建产品?我不想再做这些繁琐的工作了,能不能让Agent来帮我搞定?
为Agent重构互联网
过去有两种方式:人类通过GUI操作,计算机通过API交互。
如今我们有了一个全新的数字信息操作者——Agent,是计算机,又像人类,可以说是“互联网上的灵魂”。
我们需要开始为 Agent 构建互联网。这是一个全新的领域。
举几个例子:
大家通常会在网站放一个robots.txt文件,告诉网络爬虫如何抓取。同样的,我们可以在网站根目录创建一个 llm.txt 文件,用Markdown格式专门向LLM介绍这个网站,LLM不用再解析复杂的 HTML。
![640.webp][46]
大量文档是写给人看的,强调排版、加粗文字和图片。但这些对LLM来说并不直接可读。接下来文档不再只写给人读,也要让 LLM 可读(Markdown 格式)。Vercel、Stripe 等公司已经开始将文档转为 Markdown,方便LLM阅读。
![640.webp][47]
油管上的3blue1brown写了一个很酷的Manim动画库。我也想做但不想读文档,于是我直接把文档粘贴给 LLM,它帮我生成了动画代码。
![640.webp][48]
文档里的“点击这里”不方便LLM操作。Vercel把“点击这里”替换成了等效的curl命令,这样LLM就可以直接代替你操作了。
![640.webp][49]
还有Anthropic推出的MCP 协议,也是直接与Agent沟通的方式,能够高效获取信息。我非常看好。
还有一些小工具,比如把GitHub URL改为 Gitingest,可以把整个repo汇总成文档,便于 LLM 读取。
![640.webp][50]
还有 DeepWiki,自动将 GitHub 项目生成说明书式的文档。
![640.webp][51]
如果我们能让文档对LLM变得可读,那将会释放出巨大的潜力,我认为这应该成为未来的趋势。
当然,未来LLM可能像人一样自己点击按钮、浏览网页等等。其实现在也可行,但是成本高、效率低。因此仍然值得主动“为LLM铺路”,让它们更容易获取信息。
可以预见,在长尾应用场景中,许多软件可能不会专门适配LLM——比如那些非标准化的数据仓库或数字基础设施。针对这类情况,我们确实需要开发专门的适配工具。
但对于绝大多数应用而言,在人类与AI之间寻找平衡点将极具价值。所以我对这两种路径都非常看好。
现在是加入的最佳时机
我们现在正处在一个多么令人激动的时代啊!
大量代码被重写,需要你我来写
LLM像电力公司、芯片工厂,本质上更像处于1960年代的操作系统
LLM还像不完美的“人类灵魂”,我们需要构建基础设施,理解并使用它们
构建LLM应用时,设计好的GUI可以加速“生成验证”循环,逐步提高Agent自治能力
回到“钢铁侠战衣”的比喻,我认为在未来十年中,我们将逐步把这个“自主滑块”从左向右滑动。从AI与人协作,到完全自主化的Agent。
这将会是一个非常有趣的过程,我迫不及待想和你们一起参与其中。
完