AI摘要

OpenAI联合创始人Andrej Karpathy在其最新公开课中详细解释了大型语言模型(LLM)如ChatGPT的工作原理和应用。课程内容包括LLM的预训练过程,涉及数据收集、整理、分词、神经网络训练和推理;后训练阶段的监督微调和基于人类反馈的强化学习(RLHF);以及如何通过这些技术提升模型的对话能力和用户体验。Karpathy的课程为观众提供了深入了解LLM的机会,适合AI专业人士和普通观众学习。
OpenAI联合创始人Andrej Karpathy在其最新公开课中详细解释了大型语言模型(LLM

OpenAI联合创始人Andrej Karpathy发布的3.5小时最新公开课,解释了像ChatGPT这样的LLM如何从数据训练到实际应用,为一般观众提供关于大型语言模型(LLM)的工作机制、能力和局限性的深入了解。

Andrej Karpathy是人工智能领域的杰出人物,他是OpenAI的创始成员之一,随后担任特斯拉(Tesla)的AI高级总监。目前,他是人工智能教育和研究机构Eureka Labs的创始人,近期,Karpathy最新的课程《Deep Dive into LLMs like ChatGPT》主要目标是提高人们对AI最新技术的认识和理解,赋能人们在工作中有效利用这些尖端技术。

image.png

01 LLM的诞生:预训练

LLM的预训练可以理解为让模型“先读万卷书”的过程。在这个阶段,我们把大量的互联网文本数据输入模型,让它学习语言的基本规律,比如语法、词汇以及上下文之间的关系。

第一步:数据收集与整理

大语言模型的预训练数据来源——互联网。Karpathy详细解释了模型如何通过互联网上的海量文本数据进行训练,这是构建模型基础知识的关键步骤,例如Hugging Face的FineWeb(44TB,包含15万亿标记),以及Common Crawl(2024年,27亿网页)。

收集完数据后对数据进行清洗。这里涉及多个步骤,包括URL过滤、文本提取、语言检测(例如>65%英语)、去重和去除个人身份信息(PII)。

image.png

第二部:数据分词

数据收集完毕后,利用分词(tokenization)技术,这是将原始文本转换为模型可以处理的数字表示,这些标记就是神经网络处理的基本单位。

image.png

分词过程是理解语言模型的基础环节,分词技术对模型性能有重大影响,模型在拼写方面的困难很大程度上与分词方式有关。

通过下面的工具,我们可以直观地感受到tokenization的效果。以“小眼睛的AI世界为例”

image.png

第三步:神经网络训练

当下的 LLM 多数运用 Transformer 网络,凭借注意力机制捕获长距离的依赖关系,促使模型能够更优地理解上下文的信息。

通过采用 Transformer 架构,对下一个标记予以预测,其窗口大小可达 8000 标记之多。并且运用随机梯度下降(SGD)进行反向传播,从而让模型具备理解和生成人类语言的能力。

image.png

第四步:推理

推理(inference)过程是模型实际应用的核心,模型从前缀标记开始,通过随机采样生成文本,产生多样化的输出,适用于实时响应如ChatGPT。以GPT-2模型的实例,拥有16亿参数,训练于100亿标记,上下文长度为1,024标记。2019年训练成本约40,000美元,现在通过llm.c(GitHub讨论)可重现成本降至600美元。

image.png

通过HuggingFace和Hyperbolic等推理平台,我们可以直观地了解模型是如何一步步生成文本的,这为理解大语言模型的工作机制提供了宝贵的视角。

02 LLM的强化:后训练

监督微调(SFT)

监督微调(SFT)是在预训练模型已经具备基本语言能力的基础上,通过进一步使用专门构建的对话数据集(例如OASST1和UltraChat)来精细化模型的表现。这个过程就像是给一个知识丰富的学生进行针对性训练,使其在实际对话中更懂人情味和更符合用户期望。通过监督微调,模型不仅能更准确地理解用户的问题,还能生成连贯、自然的回答,同时减少无关或不恰当的信息输出。整个过程依赖于人工标注的数据,利用这些数据反复校正模型,使其逐步纠正预训练阶段可能存在的偏差,从而在实际应用中展现出更优秀的对话能力和更高的用户体验。

image.png

基于人类反馈的强化学习(RLHF)

基于人类反馈的强化学习(RLHF)是当前最先进的大语言模型训练技术之一。它通过让模型在生成回答后接受人类评估,将人类的主观反馈转化为一种“奖励信号”,从而指导模型不断调整和改进自身的输出质量。具体来说,模型首先会基于预训练和有监督微调获得基本能力,然后在RLHF阶段,通过大量真实对话场景下的反馈,逐步学习到哪些回答更符合人类的期望和偏好。

在这个过程中,模型会生成多个候选回答,然后由人工评审者对这些回答进行打分或排序,确定哪个回答更合理、准确且具有帮助性。模型利用这些反馈信号,通过强化学习算法(例如PPO)更新内部参数,从而“奖励”那些优秀的回答,抑制那些不够理想的回答。这样,模型就能不断优化,使输出不仅正确,还更加自然、连贯、符合人类交流的习惯。

另外,为了支持多轮对话和更复杂的交互,RLHF通常会使用一些特殊标记,如IM_start、user、assistant等。这些标记可以帮助模型明确区分不同对话参与者的发言,从而更好地理解上下文并保持对话连贯性。例如,在面对“2 + 2是什么?”这样的问题时,通过这些标记,模型学会了识别用户的提问,并生成准确且直接的回答“2 + 2是4”。这种机制不仅使得多轮对话更加结构化,还提升了整体交互体验。

我们熟悉的DeepSeek就是强化学习的产物。

通过模型的预训练和后训练,至此模型就算练成了。

03 总结
Andrej Karpathy的这部视频是一份极为宝贵的大语言模型技术全景指南,从数据收集到模型部署的每个环节都有深入浅出的讲解。通过丰富的可视化工具和实际案例,Karpathy成功地将复杂的技术概念转化为可理解的知识点,既适合AI领域的专业人士深化理解,也适合对这一领域感兴趣的普通观众入门学习。

这个视频的价值不仅在于其全面性,还在于Karpathy作为行业内领先专家带来的独特洞见。他对大语言模型的"心理学"的探讨,以及对未来发展趋势的分析,为我们理解这一快速发展的技术领域提供了重要视角。无论是希望了解ChatGPT等产品背后的技术原理,还是计划在工作中应用大语言模型的观众,都能从这部超过3小时的深度解析中获益良多。

除此之外,更多的教程可以关注Karpathy的GitHub地址
https://github.com/karpathy/nn-zero-to-hero

文章来源:https://mp.weixin.qq.com/s/FNdhYrRcp2ZJDxzUzUPI1g

最后修改:2025 年 06 月 17 日
点赞的人是最酷的