按秩合并与路径压缩定理

概述

按秩合并与路径压缩定理（Union-Find with Rank and Path Compression Theorem）：使用按秩合并（union by rank）与路径压缩（path compression）的并查集数据结构，执行 $m$ 次 MAKE-SET、UNION、FIND-SET 操作的总时间为 $O (m α (n))$ ，其中 $α (n)$ 是反 Ackermann 函数，在实际中 $α (n) \leq 4$ （对所有实际可能的 $n$ ）。

定理陈述

形式化陈述

定理（CLRS 定理21.14）：一个由 $n$ 个元素构成的不相交集合森林，使用按秩合并与路径压缩，执行 $m$ 次 MAKE-SET、UNION、FIND-SET 操作的序列（其中 $n$ 次 MAKE-SET），总运行时间为 $O (m α (n))$ 。

其中 $α (n)$ 是反 Ackermann 函数（inverse Ackermann function），定义为使得 $A (k, k) \geq n$ 的最小整数 $k$ ， $A$ 为 Ackermann 函数： $A (0, n) = n + 1$ $A (k, 0) = A (k - 1, 1), k \geq 1$ $A (k, n) = A (k - 1, A (k, n - 1)), k, n \geq 1$

关键性质： $α (n)$ 增长极其缓慢，对所有实际可能的输入规模（远小于宇宙原子数）， $α (n) \leq 4$ 。因此，并查集的每次操作在实际中可视为 $O (1)$ 。

证明概要

证明思路

证明分三步：(1) 按秩合并保证树高 $O (lo g n)$ ；(2) 路径压缩进一步优化；(3) 通过势能分析（accounting method）结合 Ackermann 函数的层级结构，得到 $O (m α (n))$ 的总时间上界。

第一步：按秩合并的分析

按秩合并（union by rank）：每个节点维护一个秩（rank），初始为 0。UNION 操作时，将秩较小的树根作为秩较大的树根的子节点。若两棵树秩相同，任选一个为根，秩加 1。

引理：使用按秩合并的并查集中，每个节点的秩至多为 $⌊ lo g_{2} n ⌋$ 。

证明：对秩 $r$ 的节点 $x$ ，其子树大小至少为 $2^{r}$ （归纳可证）。由于子树大小不超过 $n$ ，故 $2^{r} \leq n$ ，即 $r \leq ⌊ lo g_{2} n ⌋$ 。

因此，不使用路径压缩时，FIND-SET 的时间为 $O (lo g n)$ ， $m$ 次操作的总时间为 $O (m lo g n)$ 。

第二步：路径压缩的效果

路径压缩（path compression）：在 FIND-SET( $x$ ) 的执行过程中，将从 $x$ 到根的路径上所有节点的父指针直接指向根节点。

路径压缩使得后续的 FIND-SET 操作更快，但分析其效果非常复杂——因为路径压缩会改变树的结构，使得秩不再精确反映树高。

第三步：势能分析（核心）

定义节点的层级（level）和迭代次数（iteration count）：

节点 $x$ 的层级 $ℓ (x)$ 是使得 $rank (x) < A (ℓ (x), rank (x))$ 的最大整数 $ℓ$ （若不存在则为 $α (n)$ ）。
节点 $x$ 在层级 $ℓ$ 上的迭代次数 $i (x)$ 是使得 $rank (x) < A (ℓ, i (x))$ 的最大整数 $i$ 。

势能函数：为每个 FIND-SET 操作分配”记账代价”。路径上每个节点根据其层级和迭代次数被记账。

关键观察：

层级 $ℓ \geq α (n)$ 的节点不会被记账（因为 $α (n)$ 是最大可能的层级）。
在层级 $ℓ < α (n)$ 上，每个节点的迭代次数 $i (x) \leq α (n)$ 。
路径压缩使得节点的迭代次数增加，但每个节点的迭代次数最多增加 $α (n)$ 次。
因此， $m$ 次操作中，所有记账代价的总和为 $O (m α (n))$ 。

参考文献：

CLRS 第4版，第19章 “Disjoint-set data structures”，定理21.14
Tarjan, R.E., “Efficiency of a good but not linear set union algorithm”, JACM, 22(2):215-225, 1975
UCSD CSE 100 Notes: https://cseweb.ucsd.edu/~kube/cls/100/Lectures/lec14/lec14-17.html
U of Toronto CSC265 Notes: http://www.cs.toronto.edu/~anikolov/CSC265F19/DisjointSets-logstar.pdf

关键推论

实际常数时间：由于 $α (n) \leq 4$ 对所有实际输入成立，并查集操作在实际应用中可视为 $O (1)$ 。
MST 算法的优化：Kruskal 算法使用并查集检测回路， $O (E lo g E)$ 的时间中，排序占主导，并查集操作不增加渐近复杂度。
按秩合并 vs 按大小合并：按大小合并（union by size）与按秩合并效果相同，都保证树高 $O (lo g n)$ 。
仅路径压缩：仅使用路径压缩（不使用按秩合并）时， $m$ 次操作的摊还时间为 $O (m lo g^{*} n)$ ，其中 $lo g^{*} n$ 是迭代对数函数。

应用场景

在算法导论中的具体应用：

Kruskal 最小生成树算法（Ch19）：并查集用于高效判断两个顶点是否在同一连通分量中（检测回路），是 Kruskal 算法的核心数据结构。
动态连通性：维护一个不断变化的图的连通分量信息，支持”合并两个分量”和”查询两个元素是否连通”两种操作。
网络连通性分析：在社交网络、计算机网络中判断两个节点是否连通。
图像处理：在图像分割中，并查集用于高效合并相邻的相似区域。
编译器优化：在寄存器分配和等价类分析中使用并查集管理变量间的等价关系。

CS Wiki

探索

按秩合并与路径压缩定理

按秩合并与路径压缩定理

定理陈述

证明概要

第一步：按秩合并的分析

第二步：路径压缩的效果

第三步：势能分析（核心）

关键推论

应用场景

参见

关系图谱

目录

反向链接