数据结构扩张

概述

数据结构扩张（Augmenting Data Structures）是在现有数据结构上添加额外信息以支持新操作的技术。其核心思想是：不重新设计数据结构，而是通过在已有结构的节点上维护附加信息（additional information），使其能够高效回答原本无法直接回答的查询。这种技术是算法设计中一种”站在巨人肩膀上”的策略——复用已证明正确的数据结构，以最小的改动代价获得更强大的功能。

定义

数据结构扩张

给定一个基础数据结构 $D$ ，数据结构扩张是指：

在 $D$ 的每个节点上添加一个或多个附加域（augmented fields），存储额外的聚合信息；

修改 $D$ 的插入、删除等基本操作，使其在执行过程中正确维护这些附加域的值；

基于这些附加域，设计新的操作，使其能在 $O (f (n))$ 的时间内完成原本无法高效完成的查询。

形式化地说，若基础数据结构 $D$ 支持 $k$ 个基本操作，每个操作的时间复杂度为 $O (g_{i} (n))$ ，扩张后的数据结构 $D^{'}$ 在保持所有基本操作复杂度不变的前提下，新增 $m$ 个操作，每个新操作的时间复杂度为 $O (h_{j} (n))$ 。

附加信息的类型

附加信息通常是对子树或节点集合的聚合统计量，常见的类型包括：

附加信息类型	含义	典型应用
子树大小（size）	以该节点为根的子树中的节点总数	顺序统计树
子树最大值（max）	子树中所有关键字的最大值	区间树
子树最小值（min）	子树中所有关键字的最小值	范围查询
子树和（sum）	子树中所有关键字的累加和	统计求和
子树深度（height）	以该节点为根的子树的高度	平衡检测

生活化类比

想象你管理一个大型图书馆的图书分类系统。原本你只有按书名排列的书架（基础数据结构），可以快速查找某本书。现在读者开始问：“排名第100本的书是什么？“或”这个书架上最厚的书有多厚？”

你不需要推翻整个分类系统重新来过。你只需要在每个书架旁边贴一张小纸条，记录”这个书架上有多少本书”或”这个书架上最厚的书的页数”——这就是附加信息。每次有书上架或下架时，更新一下小纸条就行。这就是数据结构扩张的核心思想。

核心性质

性质1：不改变基本操作复杂度

扩张后的数据结构必须保持原数据结构所有基本操作的时间复杂度。例如，在红黑树上扩张后，INSERT、DELETE、SEARCH 等操作仍须为 $O (l g n)$ 。附加信息的维护开销必须被”吸收”到原有操作的复杂度中。

性质2：附加信息的可维护性

附加信息必须能够在基本操作执行过程中被高效更新。具体而言，在插入、删除或旋转操作中，只有 $O (1)$ 个节点需要更新其附加信息，且每个节点的更新时间为 $O (1)$ 。

性质3：新操作的高效性

基于附加信息设计的新操作，其时间复杂度应当显著优于不使用附加信息时的朴素方法。例如，顺序统计树将 SELECT 操作从 $O (n)$ 优化到 $O (l g n)$ 。

性质4：正确性依赖基础结构

扩张后数据结构的正确性完全依赖于基础数据结构的正确性。如果基础结构（如红黑树）的性质被破坏，附加信息也将失去意义。因此，扩张时必须确保基础结构的所有不变量（如红黑性质）不被破坏。

扩张的一般流程

数据结构扩张遵循系统化的四步方法论，详见数据结构扩张四步法：

选择基础数据结构：根据问题需求选择合适的基础结构
确定附加信息：设计需要在每个节点上维护的额外域
验证可维护性：证明基础操作能在原有复杂度内维护附加信息
设计新操作：利用附加信息实现新的查询操作

典型应用

扩张结构	基础结构	附加信息	新增操作
顺序统计树	红黑树	`size`（子树大小）	OS-SELECT, OS-RANK
区间树	红黑树	`max`（区间最大端点）	INTERVAL-SEARCH
线段树	二叉树	区间聚合值	范围查询、更新
树状数组（BIT）	数组	前缀和	前缀查询、单点更新

参见

红黑树 — 数据结构扩张中最常用的基础结构
顺序统计树 — 红黑树扩张的经典案例，支持顺序统计操作
区间树 — 红黑树扩张的另一经典案例，支持区间重叠查询
数据结构扩张四步法 — 系统化扩张数据结构的通用方法论
红黑树扩张定理 — 保证红黑树扩张后旋转操作仍为 $O (1)$ 的理论基础

CS Wiki

探索

数据结构扩张

数据结构扩张

定义

附加信息的类型

生活化类比

核心性质

性质1：不改变基本操作复杂度

性质2：附加信息的可维护性

性质3：新操作的高效性

性质4：正确性依赖基础结构

扩张的一般流程

典型应用

参见

关系图谱

目录

反向链接