3332 字
10 分钟
LLM 核心论文发展史系列导读
系列简介
大语言模型(Large Language Model)的发展历程,是一部波澜壮阔的技术创新史。从 2017 年 Google 发表《Attention Is All You Need》Transformer 论文,到 2026 年 Kimi 发布 Attention Residuals 架构创新,LLM 领域发生了翻天覆地的变化。
本系列按照时间线,系统梳理 LLM 发展的关键论文,帮助读者理解每项技术的起源、演进和影响。
学习路径
第一阶段:架构基础├── 01 Transformer 架构革命├── 02 GPT 系列├── 03 BERT 与双向预训练├── 04 PaLM 与 Scaling Law├── 19 RoPE 旋转位置编码├── 20 Chinchilla 与训练法则├── 21 LLaMA 2 与开源突破├── 27 PaLM 2 技术报告└── 35 Transformer-XL 超长上下文
第二阶段:能力增强├── 05 Chain of Thought 推理增强├── 06 RLHF 人类反馈强化学习├── 07 Claude 与对齐技术├── 16 DPO 直接偏好优化├── 23 Claude 系列发展史├── 41 Verify Step by Step 过程监督└── 44 RLAIF 人工智能反馈
第三阶段:开源生态├── 08 LLaMA 与开源生态├── 09 Mixtral 与 MoE 架构├── 21 LLaMA 2 与开源突破├── 26 Qwen 与 InternLM 开源模型├── 28 AlphaCode 编程竞赛├── 29 Mistral 7B 小而美└── 38 Codex 编程能力
第四阶段:效率优化├── 14 Flash Attention 高效注意力├── 15 LoRA 与 PEFT 高效微调├── 17 LLM 量化技术├── 18 MQA 与 GQA 注意力├── 24 Speculative Decoding 推理加速├── 30 Grok 与 LLaMA 3 新星└── 39 GLaM 混合专家
第五阶段:Agent 与推理├── 10 ReAct 与 Agent 架构├── 11 OpenAI o 系列推理模型├── 12 DeepSeek R1 与 GRPO├── 13 Kimi AttnRes 与架构创新├── 25 T5 与 FLAN 指令微调├── 32 o1/o3 推理时代├── 40 WebGPT 网页搜索└── 42 Toolformer 工具调用
第六阶段:多模态与展望├── 22 Gemini 多模态模型├── 31 RAG 与 Long Context├── 34 Prompt Engineering 与最佳实践├── 36 ERNIE 知识图谱增强├── 37 AutoPrompt 自动提示├── 43 Phi-1 高质量数据├── 45 Superalignment 弱到强泛化└── 46 GraphRAG 知识图谱检索
第七阶段:新架构与基础技术├── 47 Mamba 与 SSM 状态空间模型├── 48 InstructGPT 与 ChatGPT 前身├── 49 PagedAttention 与 vLLM 推理├── 50 CLIP 视觉语言对比学习├── 51 Tree of Thoughts 树状搜索推理└── 52 LLaVA 开源多模态对话
第八阶段:前沿技术与基础设施├── 53 DeepSeek-V2/V3 与 MLA 创新├── 54 Sentence-BERT 语义表示├── 55 GPT-4 技术报告解读├── 56 BPE 与 SentencePiece 分词器├── 57 RWKV 线性注意力├── 58 DistilBERT 知识蒸馏├── 59 Megatron-LM 张量并行└── 60 ChatBot Arena 模型评估系列文章
0.1 架构基础(01-04)
| 文章 | 状态 | 简介 |
|---|---|---|
| [Transformer 架构革命](./01-Transformer 架构革命.md) | 已发布 | Attention Is All You Need、自注意力机制、多头注意力、位置编码 |
| [GPT 系列论文解读](./02-GPT 系列论文解读.md) | 已发布 | GPT-1/2/3/4 演进、Few-Shot Learning、InstructGPT |
| [BERT 与双向预训练](./03-BERT 与双向预训练.md) | 已发布 | MLN、NSP、预训练+微调范式、GPT vs BERT |
| [PaLM 与 Scaling Law](./04-PaLM 与 ScalingLaw.md) | 已发布 | 540B 参数、Pathways 系统、涌现能力 |
0.2 能力增强(05-07)
| 文章 | 状态 | 简介 |
|---|---|---|
| [Chain of Thought 推理增强](./05-CoT 推理增强.md) | 已发布 | CoT Prompting、中间推理步骤、涌现特性 |
| [RLHF 与人类反馈强化学习](./06-RLHF 与人类反馈强化学习.md) | 已发布 | 奖励模型、PPO 算法、InstructGPT |
| [Claude 与对齐技术](./07-Claude 与对齐技术.md) | 已发布 | Constitutional AI、AI Feedback、3H 原则 |
0.3 开源生态(08-09)
| 文章 | 状态 | 简介 |
|---|---|---|
| [LLaMA 与开源生态](./08-LLaMA 与开源生态.md) | 已发布 | LLaMA 7B-65B、Chinchilla Law、开源协议 |
| [Mixtral 与 MoE 架构](./09-Mixtral 与 MoE 架构.md) | 已发布 | 稀疏专家混合、Expert FFN、Sliding Window Attention |
0.4 Agent 与推理(10-13)
| 文章 | 状态 | 简介 |
|---|---|---|
| [ReAct 与 Agent 架构](./10-ReAct 与 Agent 架构.md) | 已发布 | Thought/Action/Observation 循环、Tool Use |
| [OpenAI o 系列推理模型](./11-OpenAI-o 系列推理模型.md) | 已发布 | o1/o3、RLVR、Test-Time Compute Scaling |
| [DeepSeek R1 与开源推理](./12-DeepSeek-R1 与开源推理.md) | 已发布 | GRPO、纯 RL 训练、蒸馏模型 |
| [Kimi AttnRes 与架构创新](./13-Kimi-AttnRes 与架构创新.md) | 已发布 | 注意力残差、Block AttnRes、1.25x 效率提升 |
0.5 效率优化(14-18)
| 文章 | 状态 | 简介 |
|---|---|---|
| [Flash Attention 高效注意力](./14-FlashAttention 高效注意力.md) | 已发布 | IO 感知、内存优化、计算加速 |
| [LoRA 与 PEFT 高效微调](./15-LoRA 与 PEFT 高效微调.md) | 已发布 | 低秩适配、参数高效微调、QLoRA |
| [DPO 直接偏好优化](./16-DPO 直接偏好优化.md) | 已发布 | 无需奖励模型、偏好学习、IPO/KTO |
| [LLM 量化技术](./17-LLM 量化技术.md) | 已发布 | GPTQ、AWQ、GGUF、KV Cache 量化 |
| [MQA 与 GQA 注意力](./18-MQA 与 GQA 注意力.md) | 已发布 | 多查询注意力、分组查询注意力 |
0.6 架构优化(19-21)
| 文章 | 状态 | 简介 |
|---|---|---|
| [RoPE 旋转位置编码](./19-RoPE 旋转位置编码.md) | 已发布 | 相对位置编码、旋转矩阵、长文本扩展 |
| [Chinchilla 与训练法则](./20-Chinchilla 与训练法则.md) | 已发布 | 计算最优、数据-参数配比、Chinchilla Law |
| [LLaMA 2 与开源突破](./21-LLaMA-2 与开源突破.md) | 已发布 | 对话优化、安全微调、商用许可 |
0.7 多模态与微调(22-25)
| 文章 | 状态 | 简介 |
|---|---|---|
| [Gemini 多模态模型](./22-Gemini 多模态模型.md) | 已发布 | 原生多模态、Long Context、思维链 |
| [Claude 系列发展史](./23-Claude 系列发展史.md) | 已发布 | Claude 1-4 演进、对齐技术、MCP 协议 |
| [Speculative Decoding 推理加速](./24-SpeculativeDecoding 推理加速.md) | 已发布 | 草稿模型、推测解码、延迟优化 |
| [T5 与 FLAN 指令微调](./25-T5 与 FLAN 指令微调.md) | 已发布 | Text-to-Text、指令微调、FLAN |
0.8 开源新星(26-30)
| 文章 | 状态 | 简介 |
|---|---|---|
| [Qwen 与 InternLM 开源模型](./26-Qwen 与 InternLM 开源模型.md) | 已发布 | 国产开源、多模态、长文本 |
| [PaLM 2 技术报告](./27-PaLM2 技术报告.md) | 已发布 | 改进架构、多语言、推理能力 |
| [AlphaCode 编程竞赛](./28-AlphaCode 编程竞赛.md) | 已发布 | 代码生成、竞赛级编程、采样策略 |
| [Mistral 7B 小而美](./29-Mistral7B 小而美.md) | 已发布 | 高效架构、滑动窗口、性能对标 |
| [Grok 与 LLaMA 3 新星](./30-Grok 与 LLaMA3 开源新星.md) | 已发布 | xAI Grok、LLaMA 3、开源新势力 |
0.9 前沿进展(31-33)
| 文章 | 状态 | 简介 |
|---|---|---|
| [RAG 与 Long Context](./31-RAG 与 LongContext 知识增强.md) | 已发布 | 检索增强、长上下文、知识注入 |
| [o1/o3 推理时代](./32-o1o3 推理时代.md) | 已发布 | 推理模型演进、Test-Time Compute |
| [Prompt Engineering 最佳实践](./33-PromptEngineering 提示工程.md) | 已发布 | 提示技巧、结构化提示、最佳实践 |
0.10 经典论文补充(34-46)
| 文章 | 状态 | 简介 |
|---|---|---|
| [Transformer-XL 长文本模型](./34-Transformer-XL 长文本模型.md) | 已发布 | 段级递归、相对位置编码、超长上下文 |
| [Transformer-XL 超长上下文](./35-Transformer-XL 超长上下文.md) | 已发布 | 段级递归、相对位置编码、长依赖捕获 |
| [ERNIE 知识图谱增强](./36-ERNIE 知识图谱增强.md) | 已发布 | 异构信息融合、知识编码器、实体级别表示 |
| [AutoPrompt 自动提示](./37-AutoPrompt 自动提示.md) | 已发布 | 梯度引导提示搜索、自动化标签选择 |
| [Codex 编程能力](./38-Codex 编程能力.md) | 已发布 | HumanEval、代码微调、功能正确性验证 |
| [GLaM 混合专家](./39-GLaM 混合专家.md) | 已发布 | 稀疏 MoE、Top-2 激活、训练效率提升 |
| [WebGPT 网页搜索](./40-WebGPT 网页搜索.md) | 已发布 | 浏览器控制、模仿学习、引用收集 |
| [Verify Step by Step 过程监督](./41-VerifyStepByStep 过程监督.md) | 已发布 | ORM vs PRM、主动学习、MATH 数据集 |
| [Toolformer 工具调用](./42-Toolformer 工具调用.md) | 已发布 | 自监督 API 调用、零样本泛化、工具学习 |
| [Phi-1 高质量数据](./43-Phi-1 高质量数据.md) | 已发布 | 数据工程、教科书级数据、合成数据 |
| [RLAIF 人工智能反馈](./44-RLAIF 人工智能反馈.md) | 已发布 | AI 偏好标注、蒸馏 RLAIF、位置偏差处理 |
| [Superalignment 弱到强泛化](./45-Superalignment 弱到强泛化.md) | 已发布 | 弱到强泛化、辅助置信损失、超级对齐 |
| [GraphRAG 知识图谱检索](./46-GraphRAG 知识图谱检索.md) | 已发布 | 图谱索引、社区检测、全局问题回答 |
0.11 新架构与基础技术(47-52)
| 文章 | 状态 | 简介 |
|---|---|---|
| [Mamba 与 SSM 状态空间模型](./47-Mamba 与 SSM 状态空间模型.md) | 已发布 | 选择性状态空间、硬件感知算法、线性复杂度序列建模 |
| [InstructGPT 与 ChatGPT 前身](./48-InstructGPT 与 ChatGPT 前身.md) | 已发布 | SFT → RM → PPO 三阶段训练、奖励模型、对齐方法 |
| [PagedAttention 与 vLLM 推理](./49-PagedAttention 与 vLLM 推理.md) | 已发布 | KV Cache 分页管理、连续批处理、高效推理框架 |
| [CLIP 视觉语言对比学习](./50-CLIP 视觉语言对比学习.md) | 已发布 | 图像-文本对比学习、零样本分类、视觉语言预训练 |
| [Tree of Thoughts 树状搜索推理](./51-TreeOfThoughts 树状搜索推理.md) | 已发布 | 树状搜索、多路径探索、推理能力增强 |
| [LLaVA 开源多模态对话](./52-LLaVA 开源多模态对话.md) | 已发布 | 视觉指令微调、CLIP+LLaMA 组合、GPT-4 生成数据 |
0.12 前沿技术与基础设施(53-60)
| 文章 | 状态 | 简介 |
|---|---|---|
| [DeepSeek-V2/V3 与 MLA 创新](./53-DeepSeek-V2V3 与 MLA 创新.md) | 已发布 | MLA 注意力压缩、DeepSeekMoE、FP8 训练、极致效率 |
| [Sentence-BERT 语义表示](./54-SentenceBERT 语义表示.md) | 已发布 | 孪生网络、对比学习、语义搜索、向量检索 |
| [GPT-4 技术报告解读](./55-GPT4 技术报告解读.md) | 已发布 | 多模态理解、可预测扩展性、红队测试、安全对齐 |
| [BPE 与 SentencePiece 分词器](./56-BPE 与 SentencePiece 分词器.md) | 已发布 | 子词分词、BPE 算法、WordPiece、压缩率分析 |
| [RWKV 线性注意力](./57-RWKV 线性注意力.md) | 已发布 | 线性注意力 RNN、时间衰减、Token Shift、Transformer 替代 |
| [DistilBERT 知识蒸馏](./58-DistilBERT 知识蒸馏.md) | 已发布 | Teacher-Student 蒸馏、模型压缩、三重损失函数 |
| [Megatron-LM 张量并行](./59-MegatronLM 张量并行.md) | 已发布 | 张量并行、流水线并行、ZeRO、3D 并行策略 |
| [ChatBot Arena 模型评估](./60-ChatBotArena 模型评估.md) | 已发布 | 匿名对战、ELO 评分、人类偏好评估、LLM 评估新范式 |
前置知识
- Python 基础
- 深度学习基础概念(神经网络、梯度下降、反向传播)
- 线性代数基础(矩阵运算、向量空间)
相关系列
本系列是机器学习学习路线的核心理论部分,推荐结合以下系列阅读:
| 系列 | 定位 | 关联内容 |
|---|---|---|
| AI Agent 实战指南 | 实战导向 | ReAct(10)、o 系列(11)、DeepSeek R1(12)、Kimi AttnRes(13)应用实践 |
| LLM 安全漏洞发展史 | 安全专题 | RLHF 对齐原理、模型安全机制、攻击与防御 |
| 从零理解大语言模型 | 入门教程 | LLM 基础概念、Prompt 工程、RAG、Function Calling |
阅读建议:
- 先学 从零理解大语言模型 建立 LLM 基础认知
- 本系列按时间线深入论文细节,适合想深入理解原理的读者
- 论文中的 Agent 相关内容(ReAct、o 系列、R1)可结合 AI Agent 实战指南 实践
发展时间线
timeline
title LLM 发展时间线
2017 : Transformer 论文
: Google 发表《Attention Is All You Need》
2018 : GPT-1 / BERT
: OpenAI GPT-1 / Google BERT
2019 : GPT-2 / Transformer-XL
: OpenAI 发布 GPT-2 / Google 发布 Transformer-XL
2020 : GPT-3 / ERNIE
: 175B 参数 / 知识图谱增强
2021 : InstructGPT / GLaM / Codex
: RLHF / MoE 稀疏激活 / AI 编程
2022 : GPT-4 / PaLM / CoT / Claude
: 推理能力大幅提升
2023 : LLaMA / Claude 2 / Mixtral / Toolformer
: 开源生态爆发 / 工具调用
2024 : o1 / Claude 3.5 / GraphRAG
: 推理模型商用 / 知识图谱 RAG
2025 : o3 / R1 / Gemini 2.5
: DeepSeek R1 开源
2025-2026 : 新架构与基础
: Mamba/SSM, DeepSeek MLA, RWKV<br/>Megatron-LM, ChatBot Arena
2026 : AttnRes
: Kimi 发布注意力残差
核心技术点
0.13 架构演进
| 年份 | 架构 | 关键创新 |
|---|---|---|
| 2017 | Transformer | 自注意力机制、位置编码 |
| 2018 | GPT、BERT | 生成式预训练、双向编码 |
| 2019 | Transformer-XL | 段级递归、相对位置编码 |
| 2020 | GPT-3 | 175B 参数、Few-Shot Learning |
| 2021 | GLaM | 稀疏 MoE、Top-K 激活 |
| 2022 | PaLM | 540B、Scaling Law |
| 2023 | LLaMA / Mixtral | 开源、稀疏 MoE |
| 2024-2025 | o1 / R1 | Test-Time Compute、GRPO |
| 2024 | Mamba/SSM | 选择性状态空间、线性复杂度 |
| 2024 | DeepSeek-V2/V3 | MLA 注意力压缩、MoE、FP8 |
| 2024 | RWKV-6 | 线性注意力 RNN、时间衰减 |
| 2026 | AttnRes | 注意力动态选择 |
0.14 训练方法演进
| 方法 | 论文 | 核心贡献 |
|---|---|---|
| Pre-training | GPT/BERT | 下一个 Token 预测 |
| SFT | InstructGPT | 监督微调 |
| RLHF | InstructGPT | 人类反馈强化学习 |
| RLAIF | RLAIF | AI 反馈替代人类 |
| CoT | Chain of Thought | 中间推理步骤 |
| GRPO | DeepSeek R1 | 纯 RL 训练 |
| Process Sup | Verify Step by Step | 过程监督 |
| Self-Supervised | Toolformer | 自监督工具学习 |
| Weak-to-Strong | Superalignment | 弱监督强模型 |
参考资源
必读论文
- Attention Is All You Need - (Vaswani et al., 2017)
- GPT-1 - (Radford et al., 2018)
- BERT - (Devlin et al., 2018)
- GPT-2 - (Radford et al., 2019)
- Transformer-XL - (Dai et al., 2019)
- ERNIE - (Zhang et al., 2019)
- GPT-3 - (Brown et al., 2020)
- AutoPrompt - (Shin et al., 2020)
- InstructGPT - (Ouyang et al., 2022)
- Chain of Thought - (Wei et al., 2022)
- PaLM - (Chowdhery et al., 2022)
- Codex - (Chen et al., 2021)
- WebGPT - (Nakano et al., 2021)
- GLaM - (Du et al., 2021)
- Verify Step by Step - (Lightman et al., 2023)
- Toolformer - (Schick et al., 2023)
- LLaMA - (Touvron et al., 2023)
- Phi-1 - (Li et al., 2023)
- GPT-4 - (OpenAI, 2023)
- RLAIF - (Lee et al., 2023)
- Mixtral - (Jiang et al., 2024)
- Superalignment - (Burns et al., 2023)
- GraphRAG - (Edge et al., 2024)
- DeepSeek R1 - (DeepSeek Team, 2025)
- Attention Residuals - (Kimi Team, 2026)
- Mamba - (Gu & Dao, 2023)
- DeepSeek-V2 - (DeepSeek-AI, 2024)
- DeepSeek-V3 - (DeepSeek-AI, 2024)
- Sentence-BERT - (Reimers & Gurevych, 2019)
- GPT-4 Technical Report - (OpenAI, 2023)
- BPE - (Sennrich et al., 2016)
- SentencePiece - (Kudo & Richardson, 2018)
- RWKV - (Peng et al., 2023)
- DistilBERT - (Sanh et al., 2019)
- Megatron-LM - (Shoeybi et al., 2019)
- ChatBot Arena - (Chiang et al., 2024)
- CLIP - (Radford et al., 2021)
- PagedAttention/vLLM - (Kwon et al., 2023)
- Tree of Thoughts - (Yao et al., 2023)
- LLaVA - (Liu et al., 2023)
可视化资源
- Jay Alammar: The Illustrated Transformer - Jay Alammar: The Illustrated Transformer 相关文档
- Jay Alammar: The Illustrated GPT-2 - Jay Alammar: The Illustrated GPT-2 相关文档
- Lil’Log: Attention? Attention! - Lil’Log: Attention? Attention! 相关文档
学习路径推荐
- 入门:从 Transformer 论文开始,理解注意力机制
- 理解 GPT/BERT:掌握预训练+微调范式
- 理解 RLHF/CoT:掌握能力增强方法
- 理解 Agent:掌握 ReAct 等架构
- 理解工具使用:掌握 Toolformer、WebGPT 等工具调用
- 理解最新进展:阅读 o1/R1/AttnRes 论文
补充说明
0.15 第一批补充(34-46)
本系列新增了 13 篇经典论文解读(34-46),包括:
- 架构类:Transformer-XL、GLaM
- 知识增强类:ERNIE、GraphRAG
- 提示工程类:AutoPrompt
- 代码生成类:Codex、Phi-1
- 工具使用类:WebGPT、Toolformer
- 对齐类:Verify Step by Step、RLAIF、Superalignment
0.16 第二批补充(47-60)
本系列新增了 14 篇前沿技术与基础设施工论文解读(47-60),包括:
- 新架构类:Mamba/SSM(47)、RWKV(57)
- 注意力优化类:DeepSeek-V2/V3 MLA(53)、PagedAttention/vLLM(49)
- 多模态类:CLIP(50)、LLaVA(52)、GPT-4(55)
- 训练方法类:InstructGPT(48)、DistilBERT(58)、Megatron-LM(59)
- 基础技术类:Sentence-BERT(54)、BPE/SentencePiece(56)
- 评估方法类:ChatBot Arena(60)、Tree of Thoughts(51)
这些论文覆盖了 LLM 发展的完整技术栈,从底层分词器到顶层评估方法,从模型架构到训练基础设施。
支持与分享
如果这篇文章对你有帮助,欢迎支持作者或分享给更多人
部分信息可能已经过时
相关文章 智能推荐
1
AI Agent 实战指南系列导读
AI AI Agent 实战指南系列——从基础概念到项目实战,手把手教你构建智能体应用,涵盖最新大模型架构创新。
2
AutoPrompt 论文解读:自动化提示词生成的探索
AI 深度解读 AutoPrompt 论文——如何通过梯度引导搜索自动生成提示词,让语言模型更好地发挥知识提取能力。
3
从 Chatbot 到 Agent:打造能自主干活的 AI
AI 从 Chatbot 到 Agent——打造能自主干活的 AI
4
Transformer-XL 论文解读:超越固定长度的注意力机制
AI 深度解读 Transformer-XL 论文——如何通过段级递归机制和相对位置编码,让 Transformer 突破固定长度限制,捕获更长的依赖关系。
5
构建你的第一个 AI 应用:架构与工程实践
AI 构建你的第一个 AI 应用——架构与工程实践






