散列函数

概述

散列函数（Hash Function）是散列表的核心组件，负责将全域 $U$ 中的关键字 $k$ 映射到散列表 $T [0.. m - 1]$ 的某个槽位。散列函数的质量直接决定了散列表的性能：好的散列函数能将关键字均匀分散到各槽位，最小化冲突；差的散列函数会导致大量元素聚集在少数槽位，使性能严重退化。本章介绍除法散列、乘法散列以及全域散列等经典方法。

定义

散列函数

一个散列函数 $h : U \to {0, 1, \dots, m - 1}$ 将全域 $U$ 中的每个关键字 $k$ 映射到散列表的一个槽位 $h (k)$ 。散列函数需要满足：

确定性：对同一关键字 $k$ ，每次计算 $h (k)$ 的结果相同

均匀性：理想情况下，每个关键字等概率地映射到任意槽位

高效性：计算 $h (k)$ 的时间为 $O (1)$

核心性质

1. 除法散列（Division Method）

除法散列

$h (k) = k mod m$ 即关键字 $k$ 除以表大小 $m$ 的余数。

特点：

实现最简单，只需一次取模运算
关键： $m$ 的选择至关重要

$m$ 的选择原则：

$m$ 不应接近 $2^{p}$ 的幂（否则 $h (k)$ 仅由 $k$ 的低 $p$ 位决定）
$m$ 不应接近 $1 0^{p}$ 的幂（对十进制关键字同理）
推荐： $m$ 选择远离 2 的幂次的素数，例如当散列表大小约为 2000 时，选 $m = 701$ 或 $m = 1009$

示例： 若 $m = 701$ ，则 $h (1234567) = 1234567 mod 701 = 293$ 。

2. 乘法散列（Multiplication Method）

乘法散列

$h (k) = ⌊ m \cdot (k A mod 1)⌋$ 其中 $A$ 是一个常数， $0 < A < 1$ ， $k A mod 1$ 表示 $k A$ 的小数部分。

工作原理：

将关键字 $k$ 乘以常数 $A$ ，得到一个 $0$ 到 $k$ 之间的值
取 $k A$ 的小数部分（即 $k A - ⌊ k A ⌋$ ）
将小数部分乘以 $m$ 并向下取整，得到槽位

特点：

对 $m$ 的选择不如除法散列敏感， $m$ 可以取 $2$ 的幂（便于位运算）
推荐的 $A$ 值：Knuth 建议 $A = \frac{5 - 1}{2} \approx 0.6180339887$ （黄金比例的倒数）

示例： 设 $m = 1024$ ， $A = 0.618$ ， $k = 12345$ ：

$k A = 12345 \times 0.618 = 7629.21$
$k A mod 1 = 0.21$
$h (k) = ⌊ 1024 \times 0.21 ⌋ = ⌊ 215.04 ⌋ = 215$

3. 全域散列（Universal Hashing）

全域散列

从一个精心设计的散列函数族 $H$ 中随机选取散列函数 $h$ 。全域散列保证：对于任意两个不同的关键字 $k_{1} \neq = k_{2}$ ，它们发生冲突的概率不超过 $1/ m$ ： $Pr_{h \in H} [h (k_{1}) = h (k_{2})] \leq \frac{1}{m}$

Carter-Wegman 全域散列类（1979）：

设全域 $U = {0, 1, \dots, p - 1}$ （ $p$ 为大于任何关键字的素数），散列函数族为：

$H_{p m} = {h_{a, b} : h_{a, b} (k) = ((ak + b) mod p) mod m}$

其中 $a \in {1, 2, \dots, p - 1}$ ， $b \in {0, 1, \dots, p - 1}$ 。

性质：

$∣ H_{p m} ∣ = p (p - 1)$ ，从中均匀随机选取 $a$ 和 $b$
对任意 $k_{1} \neq = k_{2}$ ，恰好有 $(p - 1) / m$ 个散列函数使 $h (k_{1}) = h (k_{2})$
因此 $Pr [h (k_{1}) = h (k_{2})] = \frac{( p - 1 ) / m}{p ( p - 1 )} \cdot p (p - 1) /... = \frac{1}{m}$ （精确等于 $1/ m$ ，而非上界）

意义： 全域散列使得即使对手知道散列函数族，也无法构造一组关键字使性能最坏化，因为具体的散列函数是在运行时随机选取的。

4. d-独立散列（d-Universal Hashing）

d-独立散列

一个散列函数族 $H$ 是d-独立的，如果从 $H$ 中均匀随机选取 $h$ 后，对于任意 $d$ 个互不相同的关键字 $k_{1}, k_{2}, \dots, k_{d} \in U$ 和任意 $d$ 个槽位 $r_{1}, r_{2}, \dots, r_{d} \in {0, 1, \dots, m - 1}$ ： $Pr [h (k_{1}) = r_{1} \land h (k_{2}) = r_{2} \land \dots \land h (k_{d}) = r_{d}] = \frac{1}{m ^{d}}$

2-独立 = 全域散列（Carter-Wegman 定义）
1-独立 = 每个关键字等概率映射到每个槽位（简单均匀散列）
$d$ 越大，独立性越强，但构造和计算也越复杂

章节扩展

散列函数选择指南

场景	推荐方法	理由
通用场景	除法散列（ $m$ 选素数）	简单高效
$m$ 需为 2 的幂	乘法散列	对 $m$ 不敏感
对抗性输入	全域散列	随机化防止最坏情况
理论分析	d-独立散列	提供更强的概率保证

散列函数与冲突处理的关系

散列函数决定了元素的分布方式，而冲突处理方法（链地址法或开放寻址法）决定了冲突发生后的应对策略。两者共同决定了散列表的整体性能。一个好的散列函数可以减少冲突频率，但不能完全消除冲突。

参见

散列表 —— 散列函数所服务的散列表结构
链地址法 —— 基于链表的冲突处理方法
开放寻址法 —— 基于探测的冲突处理方法
直接寻址表 —— 不需要散列函数的简单字典实现

CS Wiki

探索

散列函数

散列函数

定义

核心性质

1. 除法散列（Division Method）

2. 乘法散列（Multiplication Method）

3. 全域散列（Universal Hashing）

4. d-独立散列（d-Universal Hashing）

章节扩展

散列函数选择指南

散列函数与冲突处理的关系

参见

关系图谱

目录

反向链接