B+ 树（B+ Tree）

一、为什么需要 B+ 树#

假设你在设计一个数据库，表里有 10 亿条记录，索引键是用户 ID。数据存在磁盘上，每次读取一个磁盘页大约 10ms。如果用二叉搜索树做索引，树高大约 30 层（log₂ 10⁹），一次查询需要 30 次磁盘读取，也就是 300ms——用户点一个搜索按钮要等半秒，不可接受。

红黑树或 AVL 树能保证平衡，但每个节点只存一个键和两个子指针，一个磁盘页（通常 4KB 或 8KB）只能装下一个节点，太浪费了。一次磁盘读取换来一个键的比较，性价比极低。

问题的核心是：磁盘 I/O 是按页计费的，不是按字节计费的。读取 1 字节和读取 4KB 花的时间几乎一样。所以你希望每次读一页，能比较尽可能多的键。这就是 B+ 树的设计动机——让每个节点装下几百个键，把树压扁，减少层数，从而减少磁盘读取次数。

二、现实类比#

图书馆的卡片目录柜。顶层是一排大抽屉，每个抽屉上贴着一个范围标签：「A-Da」「Db-Ha」「Hb-Ma」。你根据标签找到对应的大抽屉，打开后发现里面不是书，而是更小的抽屉，每个小抽屉又贴着更细的范围：「A-An」「Ao-Da」。最后一层的小抽屉里才是真正的书卡——上面写着书名、作者和书架位置，而且这些书卡按字母顺序串在一起。

关键点：大抽屉和小抽屉只负责「指路」，不存放真正的书卡。只有最底层的抽屉才存放数据，并且相邻抽屉之间用链条串起来。这样，找一本书只需要开几个抽屉，而要找某个范围内的所有书，只需要在底层沿着链条顺序扫描。

三、核心思想#

B+ 树是一种平衡多路搜索树。内部节点只存键和子指针，不存数据——纯路由角色。叶子节点存键值对，且所有叶子通过链表串联，支持高效的范围扫描。每个节点对应一个磁盘页，高扇出（fanout）让树变得很矮。

flowchart TD subgraph 内部节点——只存键，负责路由 I1["5 | 12 | 20"] end subgraph 叶子节点——存键值对 + 链表 L1["1→v1 | 3→v3 | 5→v5"]:::leaf L2["7→v7 | 10→v10 | 12→v12"]:::leaf L3["15→v15 | 18→v18 | 20→v20"]:::leaf end I1 -->|"≤5"| L1 I1 -->|"6-12"| L2 I1 -->|"≥13"| L3 L1 <-->|"链表"| L2 L2 <-->|"链表"| L3 classDef leaf fill:#e8f5e9,stroke:#4caf50

高扇出 = 矮树 = 少读磁盘。一个阶数（order）为 100 的 B+ 树，每个内部节点最多 100 个键、101 个子指针。3 层就能存 100 万个键（100 × 100 × 100），4 层存 1 亿，5 层存 100 亿。也就是说，在 10 亿条记录中查找，只需要 5 次磁盘读取——从 300ms 降到 50ms。

操作	时间复杂度	说明
点查询	O(logₘ N)	M 为阶数，实际约 3-5 次磁盘 I/O
范围查询	O(logₘ N + K)	K 为结果数量，叶子链表顺序扫描
插入	O(logₘ N)	可能触发节点分裂，向上传播
删除	O(logₘ N)	可能触发节点合并或借用

四、变体与对比#

结构	内部节点存数据	叶子链表	适合场景
B+ 树	否（只存键）	有	数据库索引、文件系统、范围查询
B 树	是（键值都在节点）	无	早期数据库、嵌入式存储
LSM 树	N/A（写内存，合并到磁盘）	N/A	写多读少、追加写入
哈希索引	N/A（O(1) 直接定位）	N/A	纯等值查询、内存缓存

为什么数据库选 B+ 树而不是 B 树？两个核心原因：

扇出更高。B+ 树内部节点不存值，同样大小的磁盘页能放更多键，树更矮，磁盘 I/O 更少。
范围扫描更简单。B+ 树的叶子链表让范围查询变成链表的顺序遍历；B 树做范围查询需要反复回溯父节点，实现复杂且 I/O 多。

B 树的优势在哪？虽然 B+ 树是数据库索引的主流选择，B 树在特定场景下反而更优。B 树的关键区别在于每个节点都存储键值对——内部节点也不例外。这意味着点查询可能在中途就能命中数据返回，不必一路走到叶子，在某些情况下能减少 1 次磁盘 I/O。但代价也很明显：内部节点存了值，同样大小的磁盘页能放的键更少，扇出更低，树更高，范围查询也更麻烦。SQLite 是一个典型的例子——它的表数据用 B 树而非 B+ 树存储。原因在于 SQLite 的典型工作负载是嵌入式设备的点查询（比如手机上的通讯录查找），而不是服务端的大范围扫描。点查询场景下，B 树提前命中数据带来的 I/O 节省更有价值，而 B+ 树叶子链表对范围扫描的优势用不上。

B-link 树（PostgreSQL 使用的变体）：在每个节点增加指向右兄弟的链接。当节点分裂时，即使父节点还没更新，其他线程也能通过右兄弟链接找到正确位置，实现并发访问而不需要全局锁。这是 Lehman-Yao 算法的核心思路。

Note

联合索引的最左前缀规则：索引 (status, region) 可以高效查询 status 或 status + region，但无法高效查询单独的 region——因为 B+ 树按左到右的列顺序组织键。

五、多语言实现#

5.1 Go 实现——搜索与插入#

1
package bplustree
2

3
import "sort"
4

5
// BPlusTree 的节点
6
type Node struct {
7
    keys     []int       // 键列表
8
    children []*Node     // 子指针（内部节点用）
9
    values   []string    // 值列表（叶子节点用）
10
    next     *Node       // 叶子链表右指针
11
    isLeaf   bool
12
}
13

14
type BPlusTree struct {
15
    root *Node
16
    order int // 每个节点最多 order 个键
17
}
18

19
func New(order int) *BPlusTree {
20
    return &BPlusTree{
21
        root:  &Node{isLeaf: true},
22
        order: order,
23
    }
24
}
25

26
// Search 在树中查找 key 对应的值
27
func (t *BPlusTree) Search(key int) (string, bool) {
28
    leaf := t.findLeaf(key)
29
    idx := sort.SearchInts(leaf.keys, key)
30
    if idx < len(leaf.keys) && leaf.keys[idx] == key {
31
        return leaf.values[idx], true
32
    }
33
    return "", false
34
}
35

36
// findLeaf 沿内部节点一路向下，找到 key 所属的叶子
37
func (t *BPlusTree) findLeaf(key int) *Node {
38
    node := t.root
39
    for !node.isLeaf {
40
        // 找到第一个大于 key 的位置，进入对应子树
41
        idx := sort.SearchInts(node.keys, key)
42
        node = node.children[idx]
43
    }
44
    return node
45
}
46

47
// Insert 插入键值对，必要时分裂节点
48
func (t *BPlusTree) Insert(key int, value string) {
49
    leaf := t.findLeaf(key)
50
    t.insertIntoLeaf(leaf, key, value)
51
    // 键数超过上限，需要分裂
52
    if len(leaf.keys) >= t.order {
53
        t.splitLeaf(leaf)
54
    }
55
}
56

57
func (t *BPlusTree) insertIntoLeaf(leaf *Node, key int, value string) {
58
    idx := sort.SearchInts(leaf.keys, key)
59
    leaf.keys = append(leaf.keys, 0)
60
    leaf.values = append(leaf.values, "")
61
    // 向后移动腾出位置
62
    copy(leaf.keys[idx+1:], leaf.keys[idx:])
63
    copy(leaf.values[idx+1:], leaf.values[idx:])
64
    leaf.keys[idx] = key
65
    leaf.values[idx] = value
66
}
67

68
// splitLeaf 将叶子节点一分为二，把中间键提升到父节点
69
func (t *BPlusTree) splitLeaf(leaf *Node) {
70
    mid := len(leaf.keys) / 2
71
    newLeaf := &Node{
72
        keys:   append([]int{}, leaf.keys[mid:]...),
73
        values: append([]string{}, leaf.values[mid:]...),
74
        isLeaf: true,
75
        next:   leaf.next,
76
    }
77
    leaf.keys = leaf.keys[:mid]
78
    leaf.values = leaf.values[:mid]
79
    leaf.next = newLeaf // 维护叶子链表
80

81
    // 将新叶子的最小键提升到父节点
82
    t.insertIntoParent(leaf, newLeaf.keys[0], newLeaf)
83
}
84

85
// insertIntoParent 递归向上插入分裂产生的键和子节点
86
func (t *BPlusTree) insertIntoParent(left *Node, key int, right *Node) {
87
    if left == t.root {
88
        // 根节点分裂，创建新根
89
        t.root = &Node{
90
            keys:     []int{key},
91
            children: []*Node{left, right},
92
        }
93
        return
94
    }
95
    // 简化：实际需要回溯查找父节点并处理内部节点分裂
96
    // 生产实现通常在搜索路径上保存父节点栈
97
}

Go 实现展示了 B+ 树的核心操作流程：搜索时沿内部节点逐层下降到叶子；插入时先在叶子中找到位置，键数超限则分裂，分裂后的中间键向上传播。

5.2 TypeScript 实现——搜索与范围查询#

1
interface LeafNode {
2
  isLeaf: true;
3
  keys: number[];
4
  values: string[];
5
  next: LeafNode | null;
6
}
7

8
interface InternalNode {
9
  isLeaf: false;
10
  keys: number[];
11
  children: BPlusNode[];
12
}
13

14
type BPlusNode = LeafNode | InternalNode;
15

16
class BPlusTree {
17
  root: BPlusNode;
18
  order: number;
19

20
  constructor(order: number) {
21
    this.root = { isLeaf: true, keys: [], values: [], next: null };
22
    this.order = order;
23
  }
24

25
  // 点查询：沿内部节点下降到叶子
26
  search(key: number): string | undefined {
27
    let node = this.root;
28
    while (!node.isLeaf) {
29
      let i = 0;
30
      // 找到第一个大于 key 的位置
31
      while (i < node.keys.length && key >= node.keys[i]) i++;
32
      node = node.children[i];
33
    }
34
    const idx = node.keys.indexOf(key);
35
    return idx !== -1 ? node.values[idx] : undefined;
36
  }
37

38
  // 范围查询：找到起点后沿叶子链表顺序扫描
39
  rangeSearch(start: number, end: number): Map<number, string> {
40
    const result = new Map<number, string>();
41
    let node: BPlusNode = this.root;
42

43
    // 先下降到起始叶子
44
    while (!node.isLeaf) {
45
      let i = 0;
46
      while (i < node.keys.length && start >= node.keys[i]) i++;
47
      node = node.children[i];
48
    }
49

50
    // 沿叶子链表扫描直到超出范围
51
    let leaf = node as LeafNode;
52
    while (leaf !== null) {
53
      for (let i = 0; i < leaf.keys.length; i++) {
54
        if (leaf.keys[i] > end) return result; // 超出上界，直接返回
55
        if (leaf.keys[i] >= start) {
56
          result.set(leaf.keys[i], leaf.values[i]);
57
        }
58
      }
59
      leaf = leaf.next;
60
    }
61
    return result;
62
  }
63
}

TypeScript 实现重点展示了 B+ 树最独特的优势——范围查询。先定位到起始叶子，然后沿 next 指针顺序扫描，无需回溯父节点。这正是 B+ 树成为数据库索引标配的核心原因。

六、生产验证#

PostgreSQL——nbtinsert.c——PostgreSQL 的 B+ 树索引（文档中称 B-tree，实际是 B-link 树/Lehman-Yao 变体）。文件头注释明确写明 “Item insertion in Lehman and Yao btrees”。每个节点带有右兄弟链接（right sibling link），分裂时无需全局锁，其他并发线程可以通过右链接继续搜索。_bt_stepright、_bt_split、_bt_insert_parent 等函数协同完成无锁并发插入。

SQLite——btreeInt.h——SQLite 中所有表和索引都由 B+ 树支撑。BtShared 结构体管理共享的页面缓存和 B+ 树元信息，pageSize、maxLocal/minLocal、maxLeaf/minLeaf 等字段控制每个页面的有效载荷上限，超过时溢出到溢出页。数据库文件就是一组磁盘页的集合，每个页是一棵 B+ 树的节点。

InnoDB（MySQL）——MySQL 的 InnoDB 存储引擎使用 B+ 树组织聚簇索引和二级索引。聚簇索引的叶子节点直接包含行数据，二级索引的叶子节点存主键值，查询时可能需要回表。page size 默认 16KB，非叶子页可容纳约 1170 个键，3 层 B+ 树可索引约 2000 万行。

七、小结#

适合使用 B+ 树的场景：

数据库索引——点查和范围查都高效，几乎所有关系型数据库的默认选择
文件系统目录——NTFS、ext4、Btrfs 用 B+ 树管理文件名到磁盘块的映射
需要范围查询的有序数据——叶子链表让范围扫描变成顺序读取
磁盘存储——高扇出降低树高，把磁盘 I/O 次数压到个位数

不适合使用 B+ 树的场景：

小规模内存数据——数据能全部放内存时，哈希表或 BST 更简单，不需要考虑页对齐
写多读少——频繁插入导致页分裂，LSM 树（写内存、后台合并）更适合
纯等值查询——哈希索引 O(1) 比 B+ 树 O(log N) 快，且实现更轻
追加写入为主的场景——页分裂开销大，LSM 树或日志结构存储更合适

八、参考资料#

PostgreSQL nbtree 文档 - PostgreSQL B+ 树实现细节，包含 Lehman-Yao 并发控制机制
SQLite 文件格式 - SQLite 数据库文件格式规范，B+ 树页面布局的权威参考
B+ 树原始论文 - Douglas Comer, 1979, The Ubiquitous B-Tree
Lehman-Yao 并发 B 树 - Lehman & Yao, 1981, 高并发 B 树的右链接方案
MySQL InnoDB 存储引擎 - InnoDB 内部实现，B+ 树索引结构