OpenAI创始人揭秘：ChatGPT是如何炼成的

OpenAI联合创始人Andrej Karpathy发布的3.5小时最新公开课，解释了像ChatGPT这样的LLM如何从数据训练到实际应用，为一般观众提供关于大型语言模型（LLM）的工作机制、能力和局限性的深入了解。

Andrej Karpathy是人工智能领域的杰出人物，他是OpenAI的创始成员之一，随后担任特斯拉(Tesla)的AI高级总监。目前，他是人工智能教育和研究机构Eureka Labs的创始人，近期，Karpathy最新的课程《Deep Dive into LLMs like ChatGPT》主要目标是提高人们对AI最新技术的认识和理解，赋能人们在工作中有效利用这些尖端技术。

![image.png][1]

01 LLM的诞生：预训练
-------------

LLM的预训练可以理解为让模型“先读万卷书”的过程。在这个阶段，我们把大量的互联网文本数据输入模型，让它学习语言的基本规律，比如语法、词汇以及上下文之间的关系。

**第一步：数据收集与整理**

大语言模型的预训练数据来源——互联网。Karpathy详细解释了模型如何通过互联网上的海量文本数据进行训练，这是构建模型基础知识的关键步骤，例如Hugging Face的FineWeb（44TB，包含15万亿标记），以及Common Crawl（2024年，27亿网页）。

收集完数据后对数据进行清洗。这里涉及多个步骤，包括URL过滤、文本提取、语言检测（例如>65%英语）、去重和去除个人身份信息（PII）。

![image.png][2]

**第二部：数据分词**

数据收集完毕后，利用分词(tokenization)技术，这是将原始文本转换为模型可以处理的数字表示，这些标记就是神经网络处理的基本单位。

![image.png][3]

分词过程是理解语言模型的基础环节，分词技术对模型性能有重大影响，模型在拼写方面的困难很大程度上与分词方式有关。

通过下面的工具，我们可以直观地感受到tokenization的效果。以“小眼睛的AI世界为例”

![image.png][4]

**第三步：神经网络训练**

当下的 LLM 多数运用 Transformer 网络，凭借注意力机制捕获长距离的依赖关系，促使模型能够更优地理解上下文的信息。

通过采用 Transformer 架构，对下一个标记予以预测，其窗口大小可达 8000 标记之多。并且运用随机梯度下降（SGD）进行反向传播，从而让模型具备理解和生成人类语言的能力。

![image.png][5]

**第四步：推理**

推理(inference)过程是模型实际应用的核心，模型从前缀标记开始，通过随机采样生成文本，产生多样化的输出，适用于实时响应如ChatGPT。以GPT-2模型的实例，拥有16亿参数，训练于100亿标记，上下文长度为1,024标记。2019年训练成本约40,000美元，现在通过llm.c（GitHub讨论）可重现成本降至600美元。

![image.png][6]

通过HuggingFace和Hyperbolic等推理平台，我们可以直观地了解模型是如何一步步生成文本的，这为理解大语言模型的工作机制提供了宝贵的视角。

02 LLM的强化：后训练
-------------

**监督微调（SFT）**

监督微调（SFT）是在预训练模型已经具备基本语言能力的基础上，通过进一步使用专门构建的对话数据集（例如OASST1和UltraChat）来精细化模型的表现。这个过程就像是给一个知识丰富的学生进行针对性训练，使其在实际对话中更懂人情味和更符合用户期望。通过监督微调，模型不仅能更准确地理解用户的问题，还能生成连贯、自然的回答，同时减少无关或不恰当的信息输出。整个过程依赖于人工标注的数据，利用这些数据反复校正模型，使其逐步纠正预训练阶段可能存在的偏差，从而在实际应用中展现出更优秀的对话能力和更高的用户体验。

![image.png][7]

**基于人类反馈的强化学习（RLHF）**

基于人类反馈的强化学习（RLHF）是当前最先进的大语言模型训练技术之一。它通过让模型在生成回答后接受人类评估，将人类的主观反馈转化为一种“奖励信号”，从而指导模型不断调整和改进自身的输出质量。具体来说，模型首先会基于预训练和有监督微调获得基本能力，然后在RLHF阶段，通过大量真实对话场景下的反馈，逐步学习到哪些回答更符合人类的期望和偏好。

在这个过程中，模型会生成多个候选回答，然后由人工评审者对这些回答进行打分或排序，确定哪个回答更合理、准确且具有帮助性。模型利用这些反馈信号，通过强化学习算法（例如PPO）更新内部参数，从而“奖励”那些优秀的回答，抑制那些不够理想的回答。这样，模型就能不断优化，使输出不仅正确，还更加自然、连贯、符合人类交流的习惯。

另外，为了支持多轮对话和更复杂的交互，RLHF通常会使用一些特殊标记，如IM_start、user、assistant等。这些标记可以帮助模型明确区分不同对话参与者的发言，从而更好地理解上下文并保持对话连贯性。例如，在面对“2 + 2是什么？”这样的问题时，通过这些标记，模型学会了识别用户的提问，并生成准确且直接的回答“2 + 2是4”。这种机制不仅使得多轮对话更加结构化，还提升了整体交互体验。

我们熟悉的DeepSeek就是强化学习的产物。

通过模型的预训练和后训练，至此模型就算练成了。

**03 总结**
Andrej Karpathy的这部视频是一份极为宝贵的大语言模型技术全景指南，从数据收集到模型部署的每个环节都有深入浅出的讲解。通过丰富的可视化工具和实际案例，Karpathy成功地将复杂的技术概念转化为可理解的知识点，既适合AI领域的专业人士深化理解，也适合对这一领域感兴趣的普通观众入门学习。

这个视频的价值不仅在于其全面性，还在于Karpathy作为行业内领先专家带来的独特洞见。他对大语言模型的"心理学"的探讨，以及对未来发展趋势的分析，为我们理解这一快速发展的技术领域提供了重要视角。无论是希望了解ChatGPT等产品背后的技术原理，还是计划在工作中应用大语言模型的观众，都能从这部超过3小时的深度解析中获益良多。

除此之外,更多的教程可以关注Karpathy的GitHub地址
https://github.com/karpathy/nn-zero-to-hero

文章来源：https://mp.weixin.qq.com/s/FNdhYrRcp2ZJDxzUzUPI1g

[1]: https://www.samool.com/usr/uploads/2025/06/4189470486.png
  [2]: https://www.samool.com/usr/uploads/2025/06/3341561756.png
  [3]: https://www.samool.com/usr/uploads/2025/06/2588142589.png
  [4]: https://www.samool.com/usr/uploads/2025/06/3982271185.png
  [5]: https://www.samool.com/usr/uploads/2025/06/181865416.png
  [6]: https://www.samool.com/usr/uploads/2025/06/112571720.png
  [7]: https://www.samool.com/usr/uploads/2025/06/4223296258.png

AI摘要

OpenAI联合创始人Andrej Karpathy在其最新公开课中详细解释了大型语言模型（LLM）如ChatGPT的工作原理和应用。课程内容包括LLM的预训练过程，涉及数据收集、整理、分词、神经网络训练和推理；后训练阶段的监督微调和基于人类反馈的强化学习（RLHF）；以及如何通过这些技术提升模型的对话能力和用户体验。Karpathy的课程为观众提供了深入了解LLM的机会，适合AI专业人士和普通观众学习。

01 LLM的诞生：预训练

第一步：数据收集与整理

收集完数据后对数据进行清洗。这里涉及多个步骤，包括URL过滤、文本提取、语言检测（例如>65%英语）、去重和去除个人身份信息（PII）。

第二部：数据分词

数据收集完毕后，利用分词(tokenization)技术，这是将原始文本转换为模型可以处理的数字表示，这些标记就是神经网络处理的基本单位。

分词过程是理解语言模型的基础环节，分词技术对模型性能有重大影响，模型在拼写方面的困难很大程度上与分词方式有关。

通过下面的工具，我们可以直观地感受到tokenization的效果。以“小眼睛的AI世界为例”

第三步：神经网络训练

当下的 LLM 多数运用 Transformer 网络，凭借注意力机制捕获长距离的依赖关系，促使模型能够更优地理解上下文的信息。

第四步：推理

通过HuggingFace和Hyperbolic等推理平台，我们可以直观地了解模型是如何一步步生成文本的，这为理解大语言模型的工作机制提供了宝贵的视角。

02 LLM的强化：后训练

监督微调（SFT）

基于人类反馈的强化学习（RLHF）

我们熟悉的DeepSeek就是强化学习的产物。

通过模型的预训练和后训练，至此模型就算练成了。

03 总结
Andrej Karpathy的这部视频是一份极为宝贵的大语言模型技术全景指南，从数据收集到模型部署的每个环节都有深入浅出的讲解。通过丰富的可视化工具和实际案例，Karpathy成功地将复杂的技术概念转化为可理解的知识点，既适合AI领域的专业人士深化理解，也适合对这一领域感兴趣的普通观众入门学习。

除此之外,更多的教程可以关注Karpathy的GitHub地址
https://github.com/karpathy/nn-zero-to-hero

文章来源：https://mp.weixin.qq.com/s/FNdhYrRcp2ZJDxzUzUPI1g