相关笔记

[!abstract] 概览

本节是第5章的高级进阶部分,通过四个经典问题进一步展示概率分析指示器随机变量的强大应用能力。四个问题分别是:

  1. 生日悖论(Birthday Paradox):仅需约 人即可使两人生日相同的概率超过
  2. 球与箱子(Balls and Bins):随机投球模型,涵盖二项分布、几何分布与优惠券收集者问题
  3. 连续正面(Streaks):公平硬币抛掷中最长连续正面长度的期望为
  4. 在线雇佣问题(Online Hiring Problem):在只雇佣一次的约束下,选择 可使雇佣最优候选人的概率至少为

关键术语生日悖论指示器随机变量期望的线性性质优惠券收集者问题在线算法几何分布二项分布


知识结构总览

mindmap
  root((5.4 概率分析与<br>指示器随机变量的<br>进一步应用))
    生日悖论 (5.4.1)
      精确分析:互补事件法
        Pr{B_k} = 递推公式
        上界:1 + x <= e^x
        结论:k >= 23 (n=365)
      近似分析:指示器随机变量
        X_ij = I{两人同生日}
        E[X] = C(k,2) / n
        结论:k >= 28
      两种方法渐近一致:Theta(sqrt(n))
    球与箱子 (5.4.2)
      给定箱子中的球数
        二项分布 b(k; n, 1/b)
        期望:n/b
      命中给定箱子
        几何分布
        期望:b
      每个箱子至少一个球
        分阶段分析
        优惠券收集者问题
        期望:b ln b
    连续正面 (5.4.3)
      上界证明:O(lg n)
        事件 A_ik
        Pr{A_ik} = 1/2^k
        最长正面 <= 2*ceil(lg n)
      下界证明:Omega(lg n)
        分组策略
        s = floor((lg n)/2)
      指示器随机变量分析
        E[X] = (n-k+1)/2^k
        结论:Theta(lg n)
    在线雇佣问题 (5.4.4)
      ONLINE-MAXIMUM(k, n)
        观察前k个,拒绝
        之后选第一个更优者
      成功概率分析
        Pr{S_i} = k / (n(i-1))
        积分近似上下界
      最优策略
        k = n/e
        成功概率 >= 1/e

核心思想

[!tip] 概率分析的核心方法论

本节展示了概率分析的两种核心工具:

  1. 互补事件法:通过计算对立事件的概率来间接求解目标概率。生日悖论的精确分析即采用此法——计算”所有人生日都不同”的概率,再用 减去该值。
  2. 指示器随机变量 + 期望的线性性质:将复杂事件分解为若干简单子事件的指示器变量之和,利用期望的线性性质(无需独立性!)直接计算期望值。

指示器随机变量(Indicator Random Variable)

对于事件 ,其关联的指示器随机变量定义为:

由引理 5.1,其期望为:

期望的线性性质(Linearity of Expectation)

对于任意随机变量 无需相互独立),有:

这是本节所有指示器随机变量分析的数学基础。

5.4.1 生日悖论

生日悖论问题

一年有 天,房间中有 个人,每个人的生日均匀分布于 天中且相互独立。求使至少两人生日相同的概率超过 的最小

精确分析(互补事件法):

【互补事件法(计算”都不同”的概率)】

个人生日互不相同的事件, 为第 个人的生日与前 个人都不同的事件。由于 ,由条件概率公式得递推关系:

其中 (前 人已占据 天,还剩 天可选)。

展开递推:

【利用不等式 1+x e^x 放缩】 利用不等式 (当 ):

时,,即至少两人生日相同的概率

【解二次方程得 k 的下界】 解二次方程 ,取正根:

时,

近似分析(指示器随机变量):

【指示器随机变量+期望的线性性质】

对每对 ),定义:

由引理 5.1:

【期望的线性性质(无需独立性)】(同生日对的总数),则:

时,。对于

两种分析的对比

  • 精确分析:求的是”概率 “所需的 ,得
  • 近似分析:求的是”期望同生日对数 “所需的 ,得
  • 两者渐近一致:

5.4.2 球与箱子

球与箱子模型

个相同的球随机投入 个编号为 的箱子中,每次投球独立且等概率(每箱 )。

问题一:给定箱子中的球数

服从二项分布 ,期望为

问题二:命中给定箱子所需投球数

服从几何分布(成功概率 ),期望为

问题三:每个箱子至少一个球(优惠券收集者问题)

将投球过程分为 个阶段。第 阶段从第 次”命中”(球落入空箱)到第 次”命中”。

阶段中,已有 个箱有球, 个箱为空,每次投球命中的概率为

为第 阶段的投球数, 服从几何分布:

由期望的线性性质:

其中 是第 调和数。由于 ,因此:

优惠券收集者问题

如果你想收集 种不同的优惠券,每随机获得一张优惠券,期望需要获得约 张才能集齐全部种类。这就是”优惠券收集者问题”(Coupon Collector’s Problem)。

5.4.3 连续正面

连续正面问题

抛掷公平硬币 次,求最长连续正面长度的期望值。

上界证明:

【分步期望分析(分两段求和)】

为”从第 次抛掷开始出现至少 个连续正面”的事件:

【取 k=2*ceil(lg n) 使概率 1/n^2】,则

这样的连续正面最多从 个位置开始,因此:

为最长连续正面长度, 为”最长连续正面恰好为 “的事件。由期望定义:

第一部分:,故

第二部分:(由上界),故

因此

下界证明:

【分组策略(将 n 次抛掷分成多组)】

次抛掷分成 组,每组 次连续抛掷。

每组全部为正面的概率为

【利用 (1-1/m)^m 1/e 估计联合概率】 所有组都不全为正面的概率至多为:

因此最长连续正面 的概率至少为

类似上界的分析方法可得

综合结论:

指示器随机变量分析:

(长度 的连续正面数),则:

为正常数):

  • 较大时(如 ),,不太可能出现
  • 时,,预期会出现多个

因此最长连续正面的期望长度为

5.4.4 在线雇佣问题

在线雇佣问题

面试 个候选人,每人有唯一分数。面试后必须立即决定录用或拒绝,且只能录用一次。目标:最大化录用最优候选人的概率。

策略 ONLINE-MAXIMUM(k, n):

算法执行流程

  1. 初始化 best-score 为负无穷
  2. 遍历前 k 个候选人,记录其中的最高分
  3. 从第 k+1 个开始,若当前分数高于 best-score,则立即录用并返回
  4. 若无人超过 best-score,则返回最后一个候选人
flowchart TD
    A["ONLINE-MAXIMUM(k, n)"] --> B["best-score = -inf"]
    B --> C["i = 1"]
    C --> D{"i <= k?"}
    D -- 是 --> E{"score(i) > best-score?"}
    E -- 是 --> F["best-score = score(i)"]
    F --> G["i = i + 1"]
    G --> D
    E -- 否 --> G
    D -- 否 --> H{"i <= n?"}
    H -- 是 --> I{"score(i) > best-score?"}
    I -- 是 --> J["返回 i(录用)"]
    I -- 否 --> K["i = i + 1"]
    K --> H
    H -- 否 --> L["返回 n"]
ONLINE-MAXIMUM(k, n)
1  best-score = -inf
2  for i = 1 to k
3     if score(i) > best-score
4        best-score = score(i)
5  for i = k + 1 to n
6     if score(i) > best-score
7        return i
8  return n

即:面试并拒绝前 个候选人(仅记录最高分),之后录用第一个超过此前最高分的候选人。若最优者在 前 个中,则只能录用最后一个。

成功概率分析:

【互斥事件分解(Pr{S} = sum Pr{S_i})】

为成功事件(录用最优候选人), 为”最优候选人是第 个且被成功录用”。由于 互斥:

(当 ,因为前 个都被拒绝了。)

【独立事件乘法(B_i 和 O_i 独立)】 要使 发生,需要两个独立事件同时成立:

  • :最优者在位置
  • :位置 中无人被选中(即这些位置的分数都小于前 个中的最高分

(前 个中的最大值等概率出现在任意位置,需出现在前 个中)。

因此:

【积分近似(调和数上下界)】 利用

最优 的选择:

【求导优化(k = n/e)】 对下界 关于 求导并令其为零:

【代入得 Pr{S} >= 1/e】 解得 ,即

代入得

在线雇佣问题的核心结论

  • 最优策略:观察前 个候选人,之后选第一个更优者
  • 成功概率下界:
  • 这是在”只雇佣一次”的严格约束下能达到的最佳保证

补充理解与拓展

[!info] 生日悖论的直觉理解

生日悖论之所以被称为”悖论”,是因为结果违反直觉。关键在于:我们不是在找”某个人与你的生日相同”(这需要约 人),而是在找”任意两个人之间的生日匹配”。

个人之间共有 对不同的配对。当 时,配对数 ,已经接近 。每一对都有 的匹配概率,253 对的累积效应使得至少一对匹配的概率超过

类比:想象一个教室里有 23 个学生。虽然每个学生单独来看与某个特定人生日相同的概率很低,但 253 对配对中只要有一对”撞车”就够了——这就是组合爆炸的力量。

[!info] 优惠券收集者问题与哈希表

球与箱子模型中的”每个箱子至少一个球”问题直接对应哈希表的分析场景:

  • 箱子 = 哈希表的槽位(slot)
  • = 被哈希的关键字
  • 投球 = 哈希操作

当使用开放寻址法的哈希表时,首次探测到每个槽位所需的时间就对应优惠券收集者问题。期望探测次数为 为表大小),这意味着哈希表的首次填充阶段的时间复杂度为

此外,球与箱子模型还可用于分析:

  • 负载均衡:任务分配到服务器
  • 密码学:生日攻击(Birthday Attack)利用生日悖论原理寻找哈希碰撞

易混淆点与辨析

[!warning] “概率 >= 1/2” 与 “期望 >= 1” 的区别

在生日悖论中,两种分析方法给出了不同的数值:

  • 精确分析(互补事件法): 时,
  • 近似分析(指示器随机变量): 时,

❌ 错误理解:两种方法矛盾了,或者其中一种有误。

✅ 正确理解:两者回答的是不同的问题。概率 不意味着期望 ,反之亦然。期望 只说明”平均来看”至少有一对,但可能少数情况下有很多对拉高了平均值。概率 说明”大多数情况下”至少有一对。两者渐近一致(都是 ),但常数因子不同。

[!warning] 在线雇佣问题中 的独立性

在在线雇佣问题的分析中,关键一步是:

这要求 相互独立。

❌ 错误理解:所有事件都可以直接相乘概率,不需要验证独立性。

✅ 正确理解:独立性在此处成立是有具体原因的:

  • 仅依赖于位置 中分数的相对排序
  • 仅依赖于位置 的分数是否大于所有其他位置的分数
  • 位置 的内部排序不影响位置 是否为全局最大
  • 位置 的值不影响位置 的内部排序

因此两个事件确实独立。在概率分析中,使用乘法公式前必须验证独立性,否则可能导致错误结论。


习题精选

题号题目摘要涉及知识点难度
5.4-1与你同生日 / 至少两人在7月4日过生日生日悖论变体★★☆
5.4-2概率达0.99所需人数 + 期望同生日对数生日悖论计算★★☆
5.4-3球与箱子:某箱出现两球所需期望投球数几何分布★★★
5.4-4生日悖论需要相互独立还是两两独立?独立性辨析★★★★
5.4-5三人同生日的概率分析生日悖论推广★★★★
5.4-6k-串形成k-排列的概率排列与生日悖论★★★
5.4-7n球n箱的空箱数与单球箱数的期望指示器随机变量★★★
5.4-8连续正面下界的改进证明Streaks下界★★★★

[!faq]- 5.4-1 解答

问题:房间中需要多少人,才能使某人与你生日相同的概率至少为 ?需要多少人才能使至少两人在7月4日过生日的概率大于

解答

(a) 某人与你生日相同:

每个人与你生日不同的概率为 个人都与你不同的概率为

要求 ,即

需要约 253 人

(b) 至少两人在7月4日过生日:

每个人不在7月4日过生日的概率为 个人都不在7月4日过生日的概率为

与 (a) 完全相同的计算,需要约 253 人

[!faq]- 5.4-2 解答

问题:需要多少人才能使两人生日相同的概率至少为 ?此时期望同生日对数是多少?

解答

由精确分析:

要求 ,即

因此需要约 57 人(可通过精确计算验证 )。

期望同生日对数:

[!faq]- 5.4-3 解答

问题:向 个箱子投球直到某个箱子中有两个球,期望需要投多少次?

解答

这等价于生日悖论:箱子的数量 对应一年的天数

由指示器随机变量分析,当投了 个球时,期望碰撞对数为

更精确地说,设 为首次碰撞的投球次数。前 次无碰撞的概率为:

由期望的定义:

较大时,

[!faq]- 5.4-7 解答

问题:将 个球投入 个箱子,期望空箱数和恰好有一个球的箱数分别是多少?

解答

(a) 期望空箱数:

对每个箱子 ),定义指示器随机变量:

,由期望的线性性质:

时,

(b) 期望恰好一个球的箱数:

对每个箱子 ,定义:

时,


视频学习指南

资源名称讲者/来源覆盖内容推荐度语言
MIT 6.006 Lecture 10Erik Demaine生日悖论、球与箱子★★★★★EN
MIT 6.046 Lecture 5Erik Demaine在线雇佣问题★★★★★EN
3Blue1Brown 生日悖论3Blue1Brown生日悖论可视化★★★★☆EN
Khan Academy 概率论Salman Khan指示器随机变量基础★★★☆☆EN
概率论与数理统计浙江大学(中国大学MOOC)条件概率、独立性★★★★☆ZH

教材原文

5.4 节引言

This advanced section further illustrates probabilistic analysis by way of four examples. The first determines the probability that in a room of people, two of them share the same birthday. The second example examines what happens when randomly tossing balls into bins. The third investigates “streaks” of consecutive heads when flipping coins. The final example analyzes a variant of the hiring problem in which you have to make decisions without actually interviewing all the candidates.

生日悖论的核心结论

Thus, if at least 23 people are in a room, the probability is at least that at least two people have the same birthday. Since a year on Mars is 669 Martian days long, it takes 31 Martians to get the same effect.

优惠券收集者问题

It therefore takes approximately tosses before we can expect that every bin has a ball. This problem is also known as the coupon collector’s problem, which says that if you are trying to collect each of different coupons, then you should expect to acquire approximately randomly obtained coupons in order to succeed.

在线雇佣问题的最优策略

Setting this derivative equal to 0, we see that you maximize the lower bound on the probability when or, equivalently, when . Thus, if you implement our strategy with , you succeed in hiring the best-qualified applicant with probability at least .


参见Wiki

(待补充)

第05章 概率分析 指示器随机变量