面试题：为什么 MySQL 选择使用 B+ 树作为索引结构？ - 程序百科-程序百科

面试题：为什么 MySQL 选择使用 B+ 树作为索引结构？

10个月前更新

648

MySQL 选择使用 B+ 树 作为索引结构，是基于其对 磁盘 I/O 性能优化、范围查询效率 和 数据存储特性 的综合考量。以下是详细分析：

1. 为什么 B+ 树比 B 树更适合数据库索引？

(1) 更低的树高 → 减少磁盘 I/O 次数

B+ 树的非叶子节点仅存储键值（Key）和指针，不存储实际数据，而 B 树的非叶子节点同时存储键值和数据。
B+ 树的节点容量更大：假设每个节点大小为 16KB，B+ 树非叶子节点可以存储更多键值（例如 1000 个），而 B 树需要存储数据，键值数量显著减少（例如 100 个）。
树高更低：B+ 树的树高比 B 树低 30%-50%，查询时需要的磁盘 I/O 次数更少（例如千万级数据仅需 3 次 I/O）。

(2) 范围查询的极致优化

B+ 树的叶子节点通过双向链表连接：
- 范围查询（如 WHERE id BETWEEN 100 AND 200）只需定位到起始位置（ID=100），然后沿链表顺序扫描即可。
- B 树需要反复回溯父节点，进行“父节点回溯→子节点查找”，导致大量随机 I/O。
性能对比：
- B+ 树范围查询效率比 B 树高 3-5 倍。
- MySQL 中的 ORDER BY 和 LIMIT 等操作也受益于叶子节点的链表结构。

(3) 全表扫描的高效性

B+ 树全表扫描只需遍历叶子节点链表（顺序 I/O），而 B 树需要层序遍历所有节点（随机 I/O + 冗余非叶节点访问）。
减少 50% 随机 I/O，提升全表扫描性能。

(4) 数据稳定性与写入优化

B+ 树的数据变更仅影响叶子节点，非叶节点作为纯索引层更稳定。
B 树的数据插入/删除可能导致非叶节点分裂/合并，维护成本更高。

2. 为什么 B+ 树优于其他数据结构？

(1) 与哈希表对比

哈希表的优势：
- 等值查询时间复杂度为 O(1)，适合 WHERE id = 100 的场景。
哈希表的劣势：
- 无法支持范围查询（如 BETWEEN、>、<）。
- 无序性：无法高效支持 ORDER BY 或 LIMIT。
- 哈希冲突：冲突概率随数据量增加而上升，需链表或红黑树处理，增加空间开销。
MySQL 的折中方案：
- InnoDB 支持自适应哈希索引（Adaptive Hash Index），但仅用于热点查询，主索引仍是 B+ 树。

(2) 与二叉树/红黑树对比

二叉树/红黑树的劣势：
- 树高过高：每个节点仅有两个分支，数据量大时树高急剧增加（例如百万级数据树高可达 20 层）。
- 随机 I/O 多：每层需访问磁盘一次，性能低下。
- 极端情况下退化：插入有序数据时，二叉树退化为链表，查询性能从 O(log n) 降至 O(n)。
B+ 树的优势：
- 多路搜索：每个节点可容纳数百个键值，树高极低（例如千万级数据仅需 3 层）。

(3) 与跳表（Skip List）对比

跳表的优势：
- 支持范围查询，且实现简单。
跳表的劣势：
- 树高更高：存储 2000 万数据时，跳表的查找需 24 次 I/O（B+ 树仅需 3 次）。
- 空间开销大：需要维护多级索引，占用更多内存。

3. B+ 树在 MySQL 中的具体优势

(1) 适配磁盘存储特性

节点大小与磁盘页匹配：InnoDB 默认页大小为 16KB，B+ 树节点大小与之匹配，减少磁盘 I/O。
顺序访问友好：叶子节点链表结构符合磁盘预读（Prefetching）特性，提升 I/O 效率。

(2) 支持高效回表操作

InnoDB 的聚簇索引（主键索引）：叶子节点直接存储数据行，避免额外 I/O。
非聚簇索引（二级索引）：叶子节点存储主键值，通过一次回表即可获取数据。

(3) 有序性保障

B+ 树的键值全局有序：天然支持 ORDER BY、GROUP BY 等排序操作。
前缀匹配：适用于 LIKE 'abc%' 等前缀查询（如联合索引的最左匹配原则）。

(4) 平衡性与扩展性

自平衡特性：插入/删除操作不会导致树结构剧烈变化，保持树高稳定。
动态调整：节点分裂/合并机制适应数据增长，避免频繁重建索引。

4. 实际案例与性能对比

(1) 查询性能对比

数据量	B+ 树查询次数	二叉树查询次数	跳表查询次数
100 万	3	20	20
1000 万	3	30	30
1 亿	4	40	40

(2) 范围查询优化

B+ 树：定位起始位置后沿链表扫描，时间复杂度为 O(k)（k 为结果数量）。
B 树：需逐层回溯父节点，时间复杂度为 O(k * log n)。

5. 总结：MySQL 选择 B+ 树的核心原因

磁盘 I/O 优化：节点紧凑、树高极低，减少磁盘访问次数。
范围查询高效：叶子节点链表结构支持高效范围扫描。
适配数据库需求：支持排序、前缀匹配、全表扫描等多样化查询。
平衡性与稳定性：自平衡特性保障高并发下的性能一致性。
兼容性设计：结合哈希索引（自适应哈希）弥补等值查询短板。

附：B+ 树 vs B 树 vs 哈希表的典型场景

场景	B+ 树	B 树	哈希表
等值查询	O(log n)（需回表）	O(log n)	O(1)
范围查询	O(log n + k)（链表扫描）	O(k * log n)	❌ 不支持
排序/分页	✅ 高效（链表顺序访问）	❌ 需额外排序	❌ 无序
插入/删除	✅ 稳定（局部调整）	❌ 非叶节点可能分裂	✅ O(1)（无序）
磁盘 I/O	✅ 低（树高极低）	❌ 高（树高较高）	✅ 低（单次 I/O）

通过上述分析可见，B+ 树在 磁盘 I/O 效率、范围查询能力 和 数据库通用性 方面具有显著优势，是 MySQL 索引结构的最优解。

THE END

MySQL 面试题

喜欢就支持一下吧

相关推荐