LLM 核心论文发展史系列导读

3332 字

10 分钟

LLM 核心论文发展史系列导读

2025-07-11

系列简介#

大语言模型（Large Language Model）的发展历程，是一部波澜壮阔的技术创新史。从 2017 年 Google 发表《Attention Is All You Need》Transformer 论文，到 2026 年 Kimi 发布 Attention Residuals 架构创新，LLM 领域发生了翻天覆地的变化。

本系列按照时间线，系统梳理 LLM 发展的关键论文，帮助读者理解每项技术的起源、演进和影响。

学习路径#

1
第一阶段：架构基础
2
├── 01 Transformer 架构革命
3
├── 02 GPT 系列
4
├── 03 BERT 与双向预训练
5
├── 04 PaLM 与 Scaling Law
6
├── 19 RoPE 旋转位置编码
7
├── 20 Chinchilla 与训练法则
8
├── 21 LLaMA 2 与开源突破
9
├── 27 PaLM 2 技术报告
10
└── 35 Transformer-XL 超长上下文
11

12
第二阶段：能力增强
13
├── 05 Chain of Thought 推理增强
14
├── 06 RLHF 人类反馈强化学习
15
├── 07 Claude 与对齐技术
16
├── 16 DPO 直接偏好优化
17
├── 23 Claude 系列发展史
18
├── 41 Verify Step by Step 过程监督
19
└── 44 RLAIF 人工智能反馈
20

21
第三阶段：开源生态
22
├── 08 LLaMA 与开源生态
23
├── 09 Mixtral 与 MoE 架构
24
├── 21 LLaMA 2 与开源突破
25
├── 26 Qwen 与 InternLM 开源模型
26
├── 28 AlphaCode 编程竞赛
27
├── 29 Mistral 7B 小而美
28
└── 38 Codex 编程能力
29

30
第四阶段：效率优化
31
├── 14 Flash Attention 高效注意力
32
├── 15 LoRA 与 PEFT 高效微调
33
├── 17 LLM 量化技术
34
├── 18 MQA 与 GQA 注意力
35
├── 24 Speculative Decoding 推理加速
36
├── 30 Grok 与 LLaMA 3 新星
37
└── 39 GLaM 混合专家
38

39
第五阶段：Agent 与推理
40
├── 10 ReAct 与 Agent 架构
41
├── 11 OpenAI o 系列推理模型
42
├── 12 DeepSeek R1 与 GRPO
43
├── 13 Kimi AttnRes 与架构创新
44
├── 25 T5 与 FLAN 指令微调
45
├── 32 o1/o3 推理时代
46
├── 40 WebGPT 网页搜索
47
└── 42 Toolformer 工具调用
48

49
第六阶段：多模态与展望
50
├── 22 Gemini 多模态模型
51
├── 31 RAG 与 Long Context
52
├── 34 Prompt Engineering 与最佳实践
53
├── 36 ERNIE 知识图谱增强
54
├── 37 AutoPrompt 自动提示
55
├── 43 Phi-1 高质量数据
56
├── 45 Superalignment 弱到强泛化
57
└── 46 GraphRAG 知识图谱检索
58

59
第七阶段：新架构与基础技术
60
├── 47 Mamba 与 SSM 状态空间模型
61
├── 48 InstructGPT 与 ChatGPT 前身
62
├── 49 PagedAttention 与 vLLM 推理
63
├── 50 CLIP 视觉语言对比学习
64
├── 51 Tree of Thoughts 树状搜索推理
65
└── 52 LLaVA 开源多模态对话
66

67
第八阶段：前沿技术与基础设施
68
├── 53 DeepSeek-V2/V3 与 MLA 创新
69
├── 54 Sentence-BERT 语义表示
70
├── 55 GPT-4 技术报告解读
71
├── 56 BPE 与 SentencePiece 分词器
72
├── 57 RWKV 线性注意力
73
├── 58 DistilBERT 知识蒸馏
74
├── 59 Megatron-LM 张量并行
75
└── 60 ChatBot Arena 模型评估

系列文章#

0.1 架构基础（01-04）#

文章	状态	简介
[Transformer 架构革命](./01-Transformer 架构革命.md)	已发布	Attention Is All You Need、自注意力机制、多头注意力、位置编码
[GPT 系列论文解读](./02-GPT 系列论文解读.md)	已发布	GPT-1/2/3/4 演进、Few-Shot Learning、InstructGPT
[BERT 与双向预训练](./03-BERT 与双向预训练.md)	已发布	MLN、NSP、预训练+微调范式、GPT vs BERT
[PaLM 与 Scaling Law](./04-PaLM 与 ScalingLaw.md)	已发布	540B 参数、Pathways 系统、涌现能力

0.2 能力增强（05-07）#

文章	状态	简介
[Chain of Thought 推理增强](./05-CoT 推理增强.md)	已发布	CoT Prompting、中间推理步骤、涌现特性
[RLHF 与人类反馈强化学习](./06-RLHF 与人类反馈强化学习.md)	已发布	奖励模型、PPO 算法、InstructGPT
[Claude 与对齐技术](./07-Claude 与对齐技术.md)	已发布	Constitutional AI、AI Feedback、3H 原则

0.3 开源生态（08-09）#

文章	状态	简介
[LLaMA 与开源生态](./08-LLaMA 与开源生态.md)	已发布	LLaMA 7B-65B、Chinchilla Law、开源协议
[Mixtral 与 MoE 架构](./09-Mixtral 与 MoE 架构.md)	已发布	稀疏专家混合、Expert FFN、Sliding Window Attention

0.4 Agent 与推理（10-13）#

文章	状态	简介
[ReAct 与 Agent 架构](./10-ReAct 与 Agent 架构.md)	已发布	Thought/Action/Observation 循环、Tool Use
[OpenAI o 系列推理模型](./11-OpenAI-o 系列推理模型.md)	已发布	o1/o3、RLVR、Test-Time Compute Scaling
[DeepSeek R1 与开源推理](./12-DeepSeek-R1 与开源推理.md)	已发布	GRPO、纯 RL 训练、蒸馏模型
[Kimi AttnRes 与架构创新](./13-Kimi-AttnRes 与架构创新.md)	已发布	注意力残差、Block AttnRes、1.25x 效率提升

0.5 效率优化（14-18）#

文章	状态	简介
[Flash Attention 高效注意力](./14-FlashAttention 高效注意力.md)	已发布	IO 感知、内存优化、计算加速
[LoRA 与 PEFT 高效微调](./15-LoRA 与 PEFT 高效微调.md)	已发布	低秩适配、参数高效微调、QLoRA
[DPO 直接偏好优化](./16-DPO 直接偏好优化.md)	已发布	无需奖励模型、偏好学习、IPO/KTO
[LLM 量化技术](./17-LLM 量化技术.md)	已发布	GPTQ、AWQ、GGUF、KV Cache 量化
[MQA 与 GQA 注意力](./18-MQA 与 GQA 注意力.md)	已发布	多查询注意力、分组查询注意力

0.6 架构优化（19-21）#

文章	状态	简介
[RoPE 旋转位置编码](./19-RoPE 旋转位置编码.md)	已发布	相对位置编码、旋转矩阵、长文本扩展
[Chinchilla 与训练法则](./20-Chinchilla 与训练法则.md)	已发布	计算最优、数据-参数配比、Chinchilla Law
[LLaMA 2 与开源突破](./21-LLaMA-2 与开源突破.md)	已发布	对话优化、安全微调、商用许可

0.7 多模态与微调（22-25）#

文章	状态	简介
[Gemini 多模态模型](./22-Gemini 多模态模型.md)	已发布	原生多模态、Long Context、思维链
[Claude 系列发展史](./23-Claude 系列发展史.md)	已发布	Claude 1-4 演进、对齐技术、MCP 协议
[Speculative Decoding 推理加速](./24-SpeculativeDecoding 推理加速.md)	已发布	草稿模型、推测解码、延迟优化
[T5 与 FLAN 指令微调](./25-T5 与 FLAN 指令微调.md)	已发布	Text-to-Text、指令微调、FLAN

0.8 开源新星（26-30）#

文章	状态	简介
[Qwen 与 InternLM 开源模型](./26-Qwen 与 InternLM 开源模型.md)	已发布	国产开源、多模态、长文本
[PaLM 2 技术报告](./27-PaLM2 技术报告.md)	已发布	改进架构、多语言、推理能力
[AlphaCode 编程竞赛](./28-AlphaCode 编程竞赛.md)	已发布	代码生成、竞赛级编程、采样策略
[Mistral 7B 小而美](./29-Mistral7B 小而美.md)	已发布	高效架构、滑动窗口、性能对标
[Grok 与 LLaMA 3 新星](./30-Grok 与 LLaMA3 开源新星.md)	已发布	xAI Grok、LLaMA 3、开源新势力

0.9 前沿进展（31-33）#

文章	状态	简介
[RAG 与 Long Context](./31-RAG 与 LongContext 知识增强.md)	已发布	检索增强、长上下文、知识注入
[o1/o3 推理时代](./32-o1o3 推理时代.md)	已发布	推理模型演进、Test-Time Compute
[Prompt Engineering 最佳实践](./33-PromptEngineering 提示工程.md)	已发布	提示技巧、结构化提示、最佳实践

0.10 经典论文补充（34-46）#

文章	状态	简介
[Transformer-XL 长文本模型](./34-Transformer-XL 长文本模型.md)	已发布	段级递归、相对位置编码、超长上下文
[Transformer-XL 超长上下文](./35-Transformer-XL 超长上下文.md)	已发布	段级递归、相对位置编码、长依赖捕获
[ERNIE 知识图谱增强](./36-ERNIE 知识图谱增强.md)	已发布	异构信息融合、知识编码器、实体级别表示
[AutoPrompt 自动提示](./37-AutoPrompt 自动提示.md)	已发布	梯度引导提示搜索、自动化标签选择
[Codex 编程能力](./38-Codex 编程能力.md)	已发布	HumanEval、代码微调、功能正确性验证
[GLaM 混合专家](./39-GLaM 混合专家.md)	已发布	稀疏 MoE、Top-2 激活、训练效率提升
[WebGPT 网页搜索](./40-WebGPT 网页搜索.md)	已发布	浏览器控制、模仿学习、引用收集
[Verify Step by Step 过程监督](./41-VerifyStepByStep 过程监督.md)	已发布	ORM vs PRM、主动学习、MATH 数据集
[Toolformer 工具调用](./42-Toolformer 工具调用.md)	已发布	自监督 API 调用、零样本泛化、工具学习
[Phi-1 高质量数据](./43-Phi-1 高质量数据.md)	已发布	数据工程、教科书级数据、合成数据
[RLAIF 人工智能反馈](./44-RLAIF 人工智能反馈.md)	已发布	AI 偏好标注、蒸馏 RLAIF、位置偏差处理
[Superalignment 弱到强泛化](./45-Superalignment 弱到强泛化.md)	已发布	弱到强泛化、辅助置信损失、超级对齐
[GraphRAG 知识图谱检索](./46-GraphRAG 知识图谱检索.md)	已发布	图谱索引、社区检测、全局问题回答

0.11 新架构与基础技术（47-52）#

文章	状态	简介
[Mamba 与 SSM 状态空间模型](./47-Mamba 与 SSM 状态空间模型.md)	已发布	选择性状态空间、硬件感知算法、线性复杂度序列建模
[InstructGPT 与 ChatGPT 前身](./48-InstructGPT 与 ChatGPT 前身.md)	已发布	SFT → RM → PPO 三阶段训练、奖励模型、对齐方法
[PagedAttention 与 vLLM 推理](./49-PagedAttention 与 vLLM 推理.md)	已发布	KV Cache 分页管理、连续批处理、高效推理框架
[CLIP 视觉语言对比学习](./50-CLIP 视觉语言对比学习.md)	已发布	图像-文本对比学习、零样本分类、视觉语言预训练
[Tree of Thoughts 树状搜索推理](./51-TreeOfThoughts 树状搜索推理.md)	已发布	树状搜索、多路径探索、推理能力增强
[LLaVA 开源多模态对话](./52-LLaVA 开源多模态对话.md)	已发布	视觉指令微调、CLIP+LLaMA 组合、GPT-4 生成数据

0.12 前沿技术与基础设施（53-60）#

文章	状态	简介
[DeepSeek-V2/V3 与 MLA 创新](./53-DeepSeek-V2V3 与 MLA 创新.md)	已发布	MLA 注意力压缩、DeepSeekMoE、FP8 训练、极致效率
[Sentence-BERT 语义表示](./54-SentenceBERT 语义表示.md)	已发布	孪生网络、对比学习、语义搜索、向量检索
[GPT-4 技术报告解读](./55-GPT4 技术报告解读.md)	已发布	多模态理解、可预测扩展性、红队测试、安全对齐
[BPE 与 SentencePiece 分词器](./56-BPE 与 SentencePiece 分词器.md)	已发布	子词分词、BPE 算法、WordPiece、压缩率分析
[RWKV 线性注意力](./57-RWKV 线性注意力.md)	已发布	线性注意力 RNN、时间衰减、Token Shift、Transformer 替代
[DistilBERT 知识蒸馏](./58-DistilBERT 知识蒸馏.md)	已发布	Teacher-Student 蒸馏、模型压缩、三重损失函数
[Megatron-LM 张量并行](./59-MegatronLM 张量并行.md)	已发布	张量并行、流水线并行、ZeRO、3D 并行策略
[ChatBot Arena 模型评估](./60-ChatBotArena 模型评估.md)	已发布	匿名对战、ELO 评分、人类偏好评估、LLM 评估新范式

前置知识#

Python 基础
深度学习基础概念（神经网络、梯度下降、反向传播）
线性代数基础（矩阵运算、向量空间）

系列	定位	关联内容
AI Agent 实战指南	实战导向	ReAct（10）、o 系列（11）、DeepSeek R1（12）、Kimi AttnRes（13）应用实践
LLM 安全漏洞发展史	安全专题	RLHF 对齐原理、模型安全机制、攻击与防御
从零理解大语言模型	入门教程	LLM 基础概念、Prompt 工程、RAG、Function Calling

发展时间线#

timeline title LLM 发展时间线 2017 : Transformer 论文 : Google 发表《Attention Is All You Need》 2018 : GPT-1 / BERT : OpenAI GPT-1 / Google BERT 2019 : GPT-2 / Transformer-XL : OpenAI 发布 GPT-2 / Google 发布 Transformer-XL 2020 : GPT-3 / ERNIE : 175B 参数 / 知识图谱增强 2021 : InstructGPT / GLaM / Codex : RLHF / MoE 稀疏激活 / AI 编程 2022 : GPT-4 / PaLM / CoT / Claude : 推理能力大幅提升 2023 : LLaMA / Claude 2 / Mixtral / Toolformer : 开源生态爆发 / 工具调用 2024 : o1 / Claude 3.5 / GraphRAG : 推理模型商用 / 知识图谱 RAG 2025 : o3 / R1 / Gemini 2.5 : DeepSeek R1 开源 2025-2026 : 新架构与基础 : Mamba/SSM, DeepSeek MLA, RWKV<br/>Megatron-LM, ChatBot Arena 2026 : AttnRes : Kimi 发布注意力残差

核心技术点#

0.13 架构演进#

年份	架构	关键创新
2017	Transformer	自注意力机制、位置编码
2018	GPT、BERT	生成式预训练、双向编码
2019	Transformer-XL	段级递归、相对位置编码
2020	GPT-3	175B 参数、Few-Shot Learning
2021	GLaM	稀疏 MoE、Top-K 激活
2022	PaLM	540B、Scaling Law
2023	LLaMA / Mixtral	开源、稀疏 MoE
2024-2025	o1 / R1	Test-Time Compute、GRPO
2024	Mamba/SSM	选择性状态空间、线性复杂度
2024	DeepSeek-V2/V3	MLA 注意力压缩、MoE、FP8
2024	RWKV-6	线性注意力 RNN、时间衰减
2026	AttnRes	注意力动态选择

0.14 训练方法演进#

方法	论文	核心贡献
Pre-training	GPT/BERT	下一个 Token 预测
SFT	InstructGPT	监督微调
RLHF	InstructGPT	人类反馈强化学习
RLAIF	RLAIF	AI 反馈替代人类
CoT	Chain of Thought	中间推理步骤
GRPO	DeepSeek R1	纯 RL 训练
Process Sup	Verify Step by Step	过程监督
Self-Supervised	Toolformer	自监督工具学习
Weak-to-Strong	Superalignment	弱监督强模型

参考资源#

必读论文

Attention Is All You Need - (Vaswani et al., 2017)
GPT-1 - (Radford et al., 2018)
BERT - (Devlin et al., 2018)
GPT-2 - (Radford et al., 2019)
Transformer-XL - (Dai et al., 2019)
ERNIE - (Zhang et al., 2019)
GPT-3 - (Brown et al., 2020)
AutoPrompt - (Shin et al., 2020)
InstructGPT - (Ouyang et al., 2022)
Chain of Thought - (Wei et al., 2022)
PaLM - (Chowdhery et al., 2022)
Codex - (Chen et al., 2021)
WebGPT - (Nakano et al., 2021)
GLaM - (Du et al., 2021)
Verify Step by Step - (Lightman et al., 2023)
Toolformer - (Schick et al., 2023)
LLaMA - (Touvron et al., 2023)
Phi-1 - (Li et al., 2023)
GPT-4 - (OpenAI, 2023)
RLAIF - (Lee et al., 2023)
Mixtral - (Jiang et al., 2024)
Superalignment - (Burns et al., 2023)
GraphRAG - (Edge et al., 2024)
DeepSeek R1 - (DeepSeek Team, 2025)
Attention Residuals - (Kimi Team, 2026)
Mamba - (Gu & Dao, 2023)
DeepSeek-V2 - (DeepSeek-AI, 2024)
DeepSeek-V3 - (DeepSeek-AI, 2024)
Sentence-BERT - (Reimers & Gurevych, 2019)
GPT-4 Technical Report - (OpenAI, 2023)
BPE - (Sennrich et al., 2016)
SentencePiece - (Kudo & Richardson, 2018)
RWKV - (Peng et al., 2023)
DistilBERT - (Sanh et al., 2019)
Megatron-LM - (Shoeybi et al., 2019)
ChatBot Arena - (Chiang et al., 2024)
CLIP - (Radford et al., 2021)
PagedAttention/vLLM - (Kwon et al., 2023)
Tree of Thoughts - (Yao et al., 2023)
LLaVA - (Liu et al., 2023)

可视化资源

Jay Alammar: The Illustrated Transformer - Jay Alammar: The Illustrated Transformer 相关文档
Jay Alammar: The Illustrated GPT-2 - Jay Alammar: The Illustrated GPT-2 相关文档
Lil’Log: Attention? Attention! - Lil’Log: Attention? Attention! 相关文档

学习路径推荐

入门：从 Transformer 论文开始，理解注意力机制
理解 GPT/BERT：掌握预训练+微调范式
理解 RLHF/CoT：掌握能力增强方法
理解 Agent：掌握 ReAct 等架构
理解工具使用：掌握 Toolformer、WebGPT 等工具调用
理解最新进展：阅读 o1/R1/AttnRes 论文

补充说明#

0.15 第一批补充（34-46）#

本系列新增了 13 篇经典论文解读（34-46），包括：

架构类：Transformer-XL、GLaM
知识增强类：ERNIE、GraphRAG
提示工程类：AutoPrompt
代码生成类：Codex、Phi-1
工具使用类：WebGPT、Toolformer
对齐类：Verify Step by Step、RLAIF、Superalignment

0.16 第二批补充（47-60）#

本系列新增了 14 篇前沿技术与基础设施工论文解读（47-60），包括：

新架构类：Mamba/SSM（47）、RWKV（57）
注意力优化类：DeepSeek-V2/V3 MLA（53）、PagedAttention/vLLM（49）
多模态类：CLIP（50）、LLaVA（52）、GPT-4（55）
训练方法类：InstructGPT（48）、DistilBERT（58）、Megatron-LM（59）
基础技术类：Sentence-BERT（54）、BPE/SentencePiece（56）
评估方法类：ChatBot Arena（60）、Tree of Thoughts（51）

这些论文覆盖了 LLM 发展的完整技术栈，从底层分词器到顶层评估方法，从模型架构到训练基础设施。

支持与分享

如果这篇文章对你有帮助，欢迎支持作者或分享给更多人

赞助

LLM 核心论文发展史系列导读

https://blog.souloss.com/posts/ai/paper-history/llm-paper-history-series-guide/

作者

Tsukimi

发布于

2025-07-11

许可协议

CC BY-NC-SA 4.0

部分信息可能已经过时

GraphRAG 论文解读：知识图谱增强的检索生成

可观测性全景：从监控到可观测性

系列简介#

学习路径#

系列文章#

0.1 架构基础（01-04）#

0.2 能力增强（05-07）#

0.3 开源生态（08-09）#

0.4 Agent 与推理（10-13）#

0.5 效率优化（14-18）#

0.6 架构优化（19-21）#

0.7 多模态与微调（22-25）#

0.8 开源新星（26-30）#

0.9 前沿进展（31-33）#

0.10 经典论文补充（34-46）#

0.11 新架构与基础技术（47-52）#

0.12 前沿技术与基础设施（53-60）#

前置知识#

相关系列#

发展时间线#

核心技术点#

0.13 架构演进#

0.14 训练方法演进#

参考资源#

补充说明#

0.15 第一批补充（34-46）#

0.16 第二批补充（47-60）#

支持与分享