mobile wallpaper 1mobile wallpaper 2mobile wallpaper 3mobile wallpaper 4
3332 字
10 分钟
LLM 核心论文发展史系列导读
2025-07-11

系列简介#

大语言模型(Large Language Model)的发展历程,是一部波澜壮阔的技术创新史。从 2017 年 Google 发表《Attention Is All You Need》Transformer 论文,到 2026 年 Kimi 发布 Attention Residuals 架构创新,LLM 领域发生了翻天覆地的变化。

本系列按照时间线,系统梳理 LLM 发展的关键论文,帮助读者理解每项技术的起源、演进和影响。

学习路径#

第一阶段:架构基础
├── 01 Transformer 架构革命
├── 02 GPT 系列
├── 03 BERT 与双向预训练
├── 04 PaLM 与 Scaling Law
├── 19 RoPE 旋转位置编码
├── 20 Chinchilla 与训练法则
├── 21 LLaMA 2 与开源突破
├── 27 PaLM 2 技术报告
└── 35 Transformer-XL 超长上下文
第二阶段:能力增强
├── 05 Chain of Thought 推理增强
├── 06 RLHF 人类反馈强化学习
├── 07 Claude 与对齐技术
├── 16 DPO 直接偏好优化
├── 23 Claude 系列发展史
├── 41 Verify Step by Step 过程监督
└── 44 RLAIF 人工智能反馈
第三阶段:开源生态
├── 08 LLaMA 与开源生态
├── 09 Mixtral 与 MoE 架构
├── 21 LLaMA 2 与开源突破
├── 26 Qwen 与 InternLM 开源模型
├── 28 AlphaCode 编程竞赛
├── 29 Mistral 7B 小而美
└── 38 Codex 编程能力
第四阶段:效率优化
├── 14 Flash Attention 高效注意力
├── 15 LoRA 与 PEFT 高效微调
├── 17 LLM 量化技术
├── 18 MQA 与 GQA 注意力
├── 24 Speculative Decoding 推理加速
├── 30 Grok 与 LLaMA 3 新星
└── 39 GLaM 混合专家
第五阶段:Agent 与推理
├── 10 ReAct 与 Agent 架构
├── 11 OpenAI o 系列推理模型
├── 12 DeepSeek R1 与 GRPO
├── 13 Kimi AttnRes 与架构创新
├── 25 T5 与 FLAN 指令微调
├── 32 o1/o3 推理时代
├── 40 WebGPT 网页搜索
└── 42 Toolformer 工具调用
第六阶段:多模态与展望
├── 22 Gemini 多模态模型
├── 31 RAG 与 Long Context
├── 34 Prompt Engineering 与最佳实践
├── 36 ERNIE 知识图谱增强
├── 37 AutoPrompt 自动提示
├── 43 Phi-1 高质量数据
├── 45 Superalignment 弱到强泛化
└── 46 GraphRAG 知识图谱检索
第七阶段:新架构与基础技术
├── 47 Mamba 与 SSM 状态空间模型
├── 48 InstructGPT 与 ChatGPT 前身
├── 49 PagedAttention 与 vLLM 推理
├── 50 CLIP 视觉语言对比学习
├── 51 Tree of Thoughts 树状搜索推理
└── 52 LLaVA 开源多模态对话
第八阶段:前沿技术与基础设施
├── 53 DeepSeek-V2/V3 与 MLA 创新
├── 54 Sentence-BERT 语义表示
├── 55 GPT-4 技术报告解读
├── 56 BPE 与 SentencePiece 分词器
├── 57 RWKV 线性注意力
├── 58 DistilBERT 知识蒸馏
├── 59 Megatron-LM 张量并行
└── 60 ChatBot Arena 模型评估

系列文章#

0.1 架构基础(01-04)#

文章状态简介
[Transformer 架构革命](./01-Transformer 架构革命.md)已发布Attention Is All You Need、自注意力机制、多头注意力、位置编码
[GPT 系列论文解读](./02-GPT 系列论文解读.md)已发布GPT-1/2/3/4 演进、Few-Shot Learning、InstructGPT
[BERT 与双向预训练](./03-BERT 与双向预训练.md)已发布MLN、NSP、预训练+微调范式、GPT vs BERT
[PaLM 与 Scaling Law](./04-PaLM 与 ScalingLaw.md)已发布540B 参数、Pathways 系统、涌现能力

0.2 能力增强(05-07)#

文章状态简介
[Chain of Thought 推理增强](./05-CoT 推理增强.md)已发布CoT Prompting、中间推理步骤、涌现特性
[RLHF 与人类反馈强化学习](./06-RLHF 与人类反馈强化学习.md)已发布奖励模型、PPO 算法、InstructGPT
[Claude 与对齐技术](./07-Claude 与对齐技术.md)已发布Constitutional AI、AI Feedback、3H 原则

0.3 开源生态(08-09)#

文章状态简介
[LLaMA 与开源生态](./08-LLaMA 与开源生态.md)已发布LLaMA 7B-65B、Chinchilla Law、开源协议
[Mixtral 与 MoE 架构](./09-Mixtral 与 MoE 架构.md)已发布稀疏专家混合、Expert FFN、Sliding Window Attention

0.4 Agent 与推理(10-13)#

文章状态简介
[ReAct 与 Agent 架构](./10-ReAct 与 Agent 架构.md)已发布Thought/Action/Observation 循环、Tool Use
[OpenAI o 系列推理模型](./11-OpenAI-o 系列推理模型.md)已发布o1/o3、RLVR、Test-Time Compute Scaling
[DeepSeek R1 与开源推理](./12-DeepSeek-R1 与开源推理.md)已发布GRPO、纯 RL 训练、蒸馏模型
[Kimi AttnRes 与架构创新](./13-Kimi-AttnRes 与架构创新.md)已发布注意力残差、Block AttnRes、1.25x 效率提升

0.5 效率优化(14-18)#

文章状态简介
[Flash Attention 高效注意力](./14-FlashAttention 高效注意力.md)已发布IO 感知、内存优化、计算加速
[LoRA 与 PEFT 高效微调](./15-LoRA 与 PEFT 高效微调.md)已发布低秩适配、参数高效微调、QLoRA
[DPO 直接偏好优化](./16-DPO 直接偏好优化.md)已发布无需奖励模型、偏好学习、IPO/KTO
[LLM 量化技术](./17-LLM 量化技术.md)已发布GPTQ、AWQ、GGUF、KV Cache 量化
[MQA 与 GQA 注意力](./18-MQA 与 GQA 注意力.md)已发布多查询注意力、分组查询注意力

0.6 架构优化(19-21)#

文章状态简介
[RoPE 旋转位置编码](./19-RoPE 旋转位置编码.md)已发布相对位置编码、旋转矩阵、长文本扩展
[Chinchilla 与训练法则](./20-Chinchilla 与训练法则.md)已发布计算最优、数据-参数配比、Chinchilla Law
[LLaMA 2 与开源突破](./21-LLaMA-2 与开源突破.md)已发布对话优化、安全微调、商用许可

0.7 多模态与微调(22-25)#

文章状态简介
[Gemini 多模态模型](./22-Gemini 多模态模型.md)已发布原生多模态、Long Context、思维链
[Claude 系列发展史](./23-Claude 系列发展史.md)已发布Claude 1-4 演进、对齐技术、MCP 协议
[Speculative Decoding 推理加速](./24-SpeculativeDecoding 推理加速.md)已发布草稿模型、推测解码、延迟优化
[T5 与 FLAN 指令微调](./25-T5 与 FLAN 指令微调.md)已发布Text-to-Text、指令微调、FLAN

0.8 开源新星(26-30)#

文章状态简介
[Qwen 与 InternLM 开源模型](./26-Qwen 与 InternLM 开源模型.md)已发布国产开源、多模态、长文本
[PaLM 2 技术报告](./27-PaLM2 技术报告.md)已发布改进架构、多语言、推理能力
[AlphaCode 编程竞赛](./28-AlphaCode 编程竞赛.md)已发布代码生成、竞赛级编程、采样策略
[Mistral 7B 小而美](./29-Mistral7B 小而美.md)已发布高效架构、滑动窗口、性能对标
[Grok 与 LLaMA 3 新星](./30-Grok 与 LLaMA3 开源新星.md)已发布xAI Grok、LLaMA 3、开源新势力

0.9 前沿进展(31-33)#

文章状态简介
[RAG 与 Long Context](./31-RAG 与 LongContext 知识增强.md)已发布检索增强、长上下文、知识注入
[o1/o3 推理时代](./32-o1o3 推理时代.md)已发布推理模型演进、Test-Time Compute
[Prompt Engineering 最佳实践](./33-PromptEngineering 提示工程.md)已发布提示技巧、结构化提示、最佳实践

0.10 经典论文补充(34-46)#

文章状态简介
[Transformer-XL 长文本模型](./34-Transformer-XL 长文本模型.md)已发布段级递归、相对位置编码、超长上下文
[Transformer-XL 超长上下文](./35-Transformer-XL 超长上下文.md)已发布段级递归、相对位置编码、长依赖捕获
[ERNIE 知识图谱增强](./36-ERNIE 知识图谱增强.md)已发布异构信息融合、知识编码器、实体级别表示
[AutoPrompt 自动提示](./37-AutoPrompt 自动提示.md)已发布梯度引导提示搜索、自动化标签选择
[Codex 编程能力](./38-Codex 编程能力.md)已发布HumanEval、代码微调、功能正确性验证
[GLaM 混合专家](./39-GLaM 混合专家.md)已发布稀疏 MoE、Top-2 激活、训练效率提升
[WebGPT 网页搜索](./40-WebGPT 网页搜索.md)已发布浏览器控制、模仿学习、引用收集
[Verify Step by Step 过程监督](./41-VerifyStepByStep 过程监督.md)已发布ORM vs PRM、主动学习、MATH 数据集
[Toolformer 工具调用](./42-Toolformer 工具调用.md)已发布自监督 API 调用、零样本泛化、工具学习
[Phi-1 高质量数据](./43-Phi-1 高质量数据.md)已发布数据工程、教科书级数据、合成数据
[RLAIF 人工智能反馈](./44-RLAIF 人工智能反馈.md)已发布AI 偏好标注、蒸馏 RLAIF、位置偏差处理
[Superalignment 弱到强泛化](./45-Superalignment 弱到强泛化.md)已发布弱到强泛化、辅助置信损失、超级对齐
[GraphRAG 知识图谱检索](./46-GraphRAG 知识图谱检索.md)已发布图谱索引、社区检测、全局问题回答

0.11 新架构与基础技术(47-52)#

文章状态简介
[Mamba 与 SSM 状态空间模型](./47-Mamba 与 SSM 状态空间模型.md)已发布选择性状态空间、硬件感知算法、线性复杂度序列建模
[InstructGPT 与 ChatGPT 前身](./48-InstructGPT 与 ChatGPT 前身.md)已发布SFT → RM → PPO 三阶段训练、奖励模型、对齐方法
[PagedAttention 与 vLLM 推理](./49-PagedAttention 与 vLLM 推理.md)已发布KV Cache 分页管理、连续批处理、高效推理框架
[CLIP 视觉语言对比学习](./50-CLIP 视觉语言对比学习.md)已发布图像-文本对比学习、零样本分类、视觉语言预训练
[Tree of Thoughts 树状搜索推理](./51-TreeOfThoughts 树状搜索推理.md)已发布树状搜索、多路径探索、推理能力增强
[LLaVA 开源多模态对话](./52-LLaVA 开源多模态对话.md)已发布视觉指令微调、CLIP+LLaMA 组合、GPT-4 生成数据

0.12 前沿技术与基础设施(53-60)#

文章状态简介
[DeepSeek-V2/V3 与 MLA 创新](./53-DeepSeek-V2V3 与 MLA 创新.md)已发布MLA 注意力压缩、DeepSeekMoE、FP8 训练、极致效率
[Sentence-BERT 语义表示](./54-SentenceBERT 语义表示.md)已发布孪生网络、对比学习、语义搜索、向量检索
[GPT-4 技术报告解读](./55-GPT4 技术报告解读.md)已发布多模态理解、可预测扩展性、红队测试、安全对齐
[BPE 与 SentencePiece 分词器](./56-BPE 与 SentencePiece 分词器.md)已发布子词分词、BPE 算法、WordPiece、压缩率分析
[RWKV 线性注意力](./57-RWKV 线性注意力.md)已发布线性注意力 RNN、时间衰减、Token Shift、Transformer 替代
[DistilBERT 知识蒸馏](./58-DistilBERT 知识蒸馏.md)已发布Teacher-Student 蒸馏、模型压缩、三重损失函数
[Megatron-LM 张量并行](./59-MegatronLM 张量并行.md)已发布张量并行、流水线并行、ZeRO、3D 并行策略
[ChatBot Arena 模型评估](./60-ChatBotArena 模型评估.md)已发布匿名对战、ELO 评分、人类偏好评估、LLM 评估新范式

前置知识#

  • Python 基础
  • 深度学习基础概念(神经网络、梯度下降、反向传播)
  • 线性代数基础(矩阵运算、向量空间)

相关系列#

本系列是机器学习学习路线的核心理论部分,推荐结合以下系列阅读:

系列定位关联内容
AI Agent 实战指南实战导向ReAct(10)、o 系列(11)、DeepSeek R1(12)、Kimi AttnRes(13)应用实践
LLM 安全漏洞发展史安全专题RLHF 对齐原理、模型安全机制、攻击与防御
从零理解大语言模型入门教程LLM 基础概念、Prompt 工程、RAG、Function Calling

阅读建议

发展时间线#

timeline title LLM 发展时间线 2017 : Transformer 论文 : Google 发表《Attention Is All You Need》 2018 : GPT-1 / BERT : OpenAI GPT-1 / Google BERT 2019 : GPT-2 / Transformer-XL : OpenAI 发布 GPT-2 / Google 发布 Transformer-XL 2020 : GPT-3 / ERNIE : 175B 参数 / 知识图谱增强 2021 : InstructGPT / GLaM / Codex : RLHF / MoE 稀疏激活 / AI 编程 2022 : GPT-4 / PaLM / CoT / Claude : 推理能力大幅提升 2023 : LLaMA / Claude 2 / Mixtral / Toolformer : 开源生态爆发 / 工具调用 2024 : o1 / Claude 3.5 / GraphRAG : 推理模型商用 / 知识图谱 RAG 2025 : o3 / R1 / Gemini 2.5 : DeepSeek R1 开源 2025-2026 : 新架构与基础 : Mamba/SSM, DeepSeek MLA, RWKV<br/>Megatron-LM, ChatBot Arena 2026 : AttnRes : Kimi 发布注意力残差

核心技术点#

0.13 架构演进#

年份架构关键创新
2017Transformer自注意力机制、位置编码
2018GPT、BERT生成式预训练、双向编码
2019Transformer-XL段级递归、相对位置编码
2020GPT-3175B 参数、Few-Shot Learning
2021GLaM稀疏 MoE、Top-K 激活
2022PaLM540B、Scaling Law
2023LLaMA / Mixtral开源、稀疏 MoE
2024-2025o1 / R1Test-Time Compute、GRPO
2024Mamba/SSM选择性状态空间、线性复杂度
2024DeepSeek-V2/V3MLA 注意力压缩、MoE、FP8
2024RWKV-6线性注意力 RNN、时间衰减
2026AttnRes注意力动态选择

0.14 训练方法演进#

方法论文核心贡献
Pre-trainingGPT/BERT下一个 Token 预测
SFTInstructGPT监督微调
RLHFInstructGPT人类反馈强化学习
RLAIFRLAIFAI 反馈替代人类
CoTChain of Thought中间推理步骤
GRPODeepSeek R1纯 RL 训练
Process SupVerify Step by Step过程监督
Self-SupervisedToolformer自监督工具学习
Weak-to-StrongSuperalignment弱监督强模型

参考资源#

必读论文

可视化资源

学习路径推荐

  • 入门:从 Transformer 论文开始,理解注意力机制
  • 理解 GPT/BERT:掌握预训练+微调范式
  • 理解 RLHF/CoT:掌握能力增强方法
  • 理解 Agent:掌握 ReAct 等架构
  • 理解工具使用:掌握 Toolformer、WebGPT 等工具调用
  • 理解最新进展:阅读 o1/R1/AttnRes 论文

补充说明#

0.15 第一批补充(34-46)#

本系列新增了 13 篇经典论文解读(34-46),包括:

  • 架构类:Transformer-XL、GLaM
  • 知识增强类:ERNIE、GraphRAG
  • 提示工程类:AutoPrompt
  • 代码生成类:Codex、Phi-1
  • 工具使用类:WebGPT、Toolformer
  • 对齐类:Verify Step by Step、RLAIF、Superalignment

0.16 第二批补充(47-60)#

本系列新增了 14 篇前沿技术与基础设施工论文解读(47-60),包括:

  • 新架构类:Mamba/SSM(47)、RWKV(57)
  • 注意力优化类:DeepSeek-V2/V3 MLA(53)、PagedAttention/vLLM(49)
  • 多模态类:CLIP(50)、LLaVA(52)、GPT-4(55)
  • 训练方法类:InstructGPT(48)、DistilBERT(58)、Megatron-LM(59)
  • 基础技术类:Sentence-BERT(54)、BPE/SentencePiece(56)
  • 评估方法类:ChatBot Arena(60)、Tree of Thoughts(51)

这些论文覆盖了 LLM 发展的完整技术栈,从底层分词器到顶层评估方法,从模型架构到训练基础设施。

支持与分享

如果这篇文章对你有帮助,欢迎支持作者或分享给更多人

LLM 核心论文发展史系列导读
https://blog.souloss.com/posts/ai/paper-history/llm-paper-history-series-guide/
作者
Tsukimi
发布于
2025-07-11
许可协议
CC BY-NC-SA 4.0

部分信息可能已经过时