相关笔记: 7.3 贝叶斯定理 | 8.1 递推关系

概览

本节系统介绍了随机变量的两个最重要的数字特征——期望值(Expected Value)方差(Variance),以及它们的性质和重要应用。

  • 随机变量(Random Variable):为样本空间中每个结果分配一个实数的函数
  • ==期望值 ==:随机变量的加权平均值,也称均值或数学期望
  • 期望的线性性质
  • ==方差 ==:衡量随机变量取值偏离期望值的离散程度
  • 方差性质,独立随机变量之和的方差等于方差之和(Bienayme 公式)
  • 马尔可夫不等式
  • 切比雪夫不等式
  • 几何分布,期望

一、知识结构总览

graph TB
    A["7.4 期望值与方差 Expected Value and Variance"] --> B["随机变量"]
    A --> C["期望值 Expected Value"]
    A --> D["期望的线性性"]
    A --> E["几何分布"]
    A --> F["独立随机变量"]
    A --> G["方差 Variance"]
    A --> H["不等式"]

    B --> B1["定义:X: S → R"]
    B --> B2["分布:值与概率的对应"]
    B --> B3["期望、方差等数字特征"]

    C --> C1["定义:E(X) = Σ p(s)X(s)"]
    C --> C2["按值分组:E(X) = Σ p(X=r)·r"]
    C --> C3["Bernoulli 试验期望 = np"]

    D --> D1["E(X₁+...+Xₙ) = Σ E(Xᵢ)"]
    D --> D2["E(aX+b) = aE(X)+b"]
    D --> D3["帽子检查问题"]
    D --> D4["逆序数期望"]

    E --> E1["定义:p(X=k) = (1-p)^(k-1)p"]
    E --> E2["期望:E(X) = 1/p"]
    E --> E3["首次成功的等待时间"]

    F --> F1["独立性定义"]
    F --> F2["E(XY) = E(X)E(Y)"]
    F --> F3["反例:非独立则不成立"]

    G --> G1["定义:V(X) = E(X²) - [E(X)]²"]
    G --> G2["标准差 σ(X) = √V(X)"]
    G --> G3["Bernoulli 方差 = npq"]
    G --> G4["Bienayme 公式"]

    H --> H1["马尔可夫不等式"]
    H --> H2["切比雪夫不等式"]
    H --> H3["应用:概率界限估计"]

二、核心思想

核心思想

本节的核心思想是利用期望值方差这两个数字特征来刻画随机变量的”中心位置”和”离散程度”。期望值是随机变量取值的加权平均,告诉我们”平均而言会得到什么结果”;方差衡量随机变量取值偏离期望值的程度,告诉我们”结果的不确定性有多大”。期望的线性性质是一个极其强大的工具——即使随机变量之间不独立,期望的和仍然等于和的期望,这使得许多看似复杂的问题(如帽子检查问题、逆序数期望)可以优雅地解决。切比雪夫不等式马尔可夫不等式则提供了仅凭期望和方差就能对概率做出定量估计的通用方法。

1. 随机变量与期望值

随机变量(Random Variable)

是样本空间。一个随机变量 是从 到实数集的函数,即 ,它为每个可能的结果 分配一个实数值

期望值(Definition 1)

随机变量 在样本空间 上的期望值(Expected Value),也称均值(Mean)数学期望,定义为:

  • 期望值是 取值的加权平均,权重为各结果出现的概率
  • 时,
  • 对无穷样本空间,期望值仅在级数绝对收敛时存在

掷骰子的期望值(Example 1)

为公平骰子掷出的点数。 取值 ,每个概率

注意 不是骰子的任何可能取值,但它是大量投掷后的平均值。

按值分组计算期望(Theorem 1)

是随机变量, 的概率,则:

其中 的值域。这个公式将相同取值的结果合并计算,当结果数量很大时特别有用。

掷两枚骰子点数之和的期望(Example 3)

为两枚公平骰子点数之和,值域为

Bernoulli 试验的期望(Theorem 2)

次相互独立的 Bernoulli 试验中(每次成功概率为 ),成功次数的期望值为

证明:设 为成功次数,则

2. 期望的线性性质

期望的线性性质(Theorem 3)

)是样本空间 上的随机变量, 是实数,则:

(i)

(ii)

证明 (i) 的情形):

证明 (ii)

因为

  • ⚠️ 注意:期望的线性性不要求随机变量独立,这是一个极其强大的性质

利用线性性求两枚骰子之和的期望(Example 4)

为第一枚骰子的点数, 为第二枚骰子的点数。

两枚骰子之和 ,由线性性:

帽子检查问题(Example 6)

个人把帽子交给新员工,员工随机归还帽子。求正确归还帽子数量的期望。

:设 为第 个人收到正确帽子的指示变量(),

每个人收到正确帽子的概率为 ,故

由线性性:

无论有多少人,平均只有 1 人收到正确的帽子!

逆序数的期望(Example 7)

个正整数排列中逆序数的期望是多少?

:设 为指示变量, 当且仅当 构成逆序( 排在 前面)。

在随机排列中, 排在 前面和 排在 前面的概率相等,故

共有 对,由线性性:

3. 几何分布

几何分布(Definition 2)

随机变量 具有==参数为 的几何分布==,如果:

其中 。几何分布描述的是在独立重复试验中首次成功所需的试验次数

几何分布的期望(Theorem 4)

服从参数为 的几何分布,则

证明

其中利用了 (对 ),取

硬币首次出现正面的期望次数(Example 10)

一枚硬币出现正面的概率为 ,反复抛掷直到出现正面。期望抛掷次数为

若硬币公平(),则 ,平均需要抛 2 次。

4. 独立随机变量

独立随机变量(Definition 3)

样本空间 上的随机变量 独立的,如果对所有实数

独立随机变量乘积的期望(Theorem 5)

是独立的随机变量,则

  • ⚠️ 注意:若 不独立,则 一般不等于

5. 方差

方差(Definition 4)

是样本空间 上的随机变量。方差(Variance) 定义为:

即方差是偏差平方的加权平均。标准差(Standard Deviation)

方差的计算公式(Theorem 6)

证明

Bernoulli 试验的方差(Example 14)

为 Bernoulli 试验的结果(成功 ,失败 ),成功概率 ,失败概率

(因为 )。

掷骰子的方差(Example 15)

方差的线性性质

为实数,则:

  • 平移()不影响方差,缩放()使方差乘以

Bienayme 公式(Theorem 7)

是独立的随机变量,则:

更一般地,若 两两独立,则:

  • ⚠️ 与期望不同,方差的加法性要求随机变量独立

次 Bernoulli 试验的方差(Example 18)

次独立 Bernoulli 试验(成功概率 )的成功次数

每个 ,由 Bienayme 公式:

6. 马尔可夫不等式与切比雪夫不等式

马尔可夫不等式(Markov's Inequality)

是样本空间 上的随机变量,且 对所有 成立。则对任意正实数

  • 马尔可夫不等式仅利用期望值就给出了概率的上界
  • 适用于非负随机变量
  • 直觉:如果期望值很小,则取大值的概率不可能太大

切比雪夫不等式(Chebyshev's Inequality, Theorem 8)

是样本空间 上的随机变量,概率函数为 。若 是正实数,则:

证明:设

第二个求和非负(每个被加项非负),故:

因此

切比雪夫不等式的应用(Example 19)

为公平硬币抛 次出现正面的次数。

,由切比雪夫不等式:

即正面次数偏离均值超过 的概率不超过 1/4。

切比雪夫不等式的局限性(Example 20)

为公平骰子的点数。

但实际上 的取值为 ,与 的最大距离为 ,故

切比雪夫不等式给出了正确的上界(),但估计非常粗糙。


三、补充理解与易混淆点

补充理解

补充1:期望值的直觉——"长期平均值"

期望值 的核心直觉是大量重复实验后的长期平均值。例如,掷公平骰子的期望值是 ,虽然任何一次投掷都不会得到 ,但如果你投掷骰子 1000 次,所有结果的平均值将非常接近 。这一性质由大数定律严格保证。期望值的另一个重要视角是加权平均:每个可能取值乘以其出现概率后求和,概率越大的取值对期望的贡献越大。

在算法分析中,期望值直接对应平均情况复杂度。例如,线性搜索的平均比较次数就是查找成功的期望比较次数。

来源:Rosen, K. H. (2019). Discrete Mathematics and Its Applications (8th ed.), McGraw-Hill, Section 7.4. 来源:Ross, S. M. (2019). A First Course in Probability (10th ed.), Pearson, Chapter 4.

补充2:方差的直觉——"不确定性度量"

方差 衡量的是随机变量取值偏离其期望值的平均程度。方差越大,说明取值越分散,不确定性越高;方差为零意味着随机变量是常数(没有任何不确定性)。

一个有用的类比:期望值是”靶心”,方差是”弹着点的散布范围”。标准差 与原始数据具有相同的量纲,因此更便于解释。例如,如果考试成绩的期望是 75 分,标准差是 10 分,那么大多数成绩在 分附近。

来源:Feller, W. (1968). An Introduction to Probability Theory and Its Applications, Vol. 1 (3rd ed.). Wiley, Chapter IX. 来源:Rosen, K. H. (2019). Discrete Mathematics and Its Applications (8th ed.), McGraw-Hill, Section 7.4.

补充3:期望线性性的强大之处——指示变量技巧

期望线性性最精妙的应用之一是指示变量技巧(Indicator Variable Trick)。核心思想是:将一个复杂的随机变量 分解为若干简单的指示变量 之和( 只取 0 或 1),然后利用 求解。由于每个 ,问题简化为计算各事件发生的概率。

经典应用:

  • 帽子检查问题,故
  • 逆序数期望,故
  • 插入排序平均比较次数

这种技巧的关键在于:不需要随机变量之间独立,线性性无条件成立。

来源:Graham, R. L., Knuth, D. E. & Patashnik, O. (1994). Concrete Mathematics (2nd ed.), Addison-Wesley, Section 8.4 (Indicator Random Variables). 来源:Cormen, T. H., et al. (2009). Introduction to Algorithms (3rd ed.), MIT Press, Chapter 5 (Hiring Problem).

易混淆点

误区:混淆

  • ❌ 认为
  • ✅ 方差公式 恰好说明二者之差就是方差
  • ⚠️ 例如: 取值 各概率 ,但
  • 直觉: 是”平方后的平均值”, 是”平均值的平方”,由 Jensen 不等式,(等号当且仅当 为常数)

误区:期望的线性性 vs 方差的加法性

  • ❌ 认为 对所有随机变量成立
  • ✅ 期望的线性性无条件成立,即使 不独立
  • ✅ 方差的加法性要求独立性 仅当 独立时成立
  • ⚠️ 一般情况下:,其中协方差

误区:切比雪夫不等式 vs 马尔可夫不等式

  • ❌ 混淆两个不等式的适用条件和结论
  • 马尔可夫不等式:适用于非负随机变量,给出
  • 切比雪夫不等式:适用于任意随机变量,给出
  • 切比雪夫不等式更强大(因为它同时利用了期望和方差两个信息),但给出的上界可能很宽松
  • 两个不等式都是”最坏情况”的估计,实际概率可能远小于上界

四、习题精选

习题概览

题号范围核心考点难度
1-2抛硬币期望正面数
3-4掷骰子期望值(公平/偏置)
5彩票期望值⭐⭐
6考试期望分数⭐⭐
7-9线性搜索平均比较次数⭐⭐
10-11条件停止的期望试验次数⭐⭐⭐
12-13几何分布期望⭐⭐
14-15几何分布性质证明⭐⭐⭐
16非独立随机变量反例⭐⭐
17-18方差计算(骰子、硬币)⭐⭐
19-20期望与方差的性质⭐⭐⭐
27-28Bernoulli 试验方差⭐⭐
29逆序数方差⭐⭐⭐
35-36切比雪夫不等式应用⭐⭐⭐
37-39马尔可夫不等式应用⭐⭐⭐

题1:期望值计算

题目

一枚公平硬币抛 5 次。设 为出现正面的次数。

(a) 求 。 (b) 求

题2:方差计算

题目

一枚公平骰子掷 10 次。设 为出现 6 的次数。求

题3:马尔可夫不等式应用

题目

某灌装厂每天灌装汽水的罐数是随机变量

(a) 用马尔可夫不等式求某天灌装超过 11000 罐的概率上界。 (b) 用切比雪夫不等式求某天灌装 9000 到 11000 罐之间的概率下界。

题4:切比雪夫不等式应用

题目

一枚公平硬币抛 次,设 为出现正面的次数。用切比雪夫不等式求正面次数偏离均值超过 的概率上界。

题5:几何分布的期望

题目

某种零件的不合格率为 5%。质检员逐个检查零件,直到发现第一个不合格品为止。

(a) 求需要检查的零件数量的期望值。 (b) 求恰好检查 3 个零件才发现不合格品的概率。 (c) 求需要检查超过 10 个零件的概率。

解题思路提示

期望与方差问题的解题方法论:

  1. 识别分布类型:Bernoulli 试验(二项分布)、几何分布、均匀分布等
  2. 利用已知公式:二项分布 ;几何分布
  3. 期望线性性:将复杂随机变量分解为简单指示变量之和
  4. 方差计算:先求 ,再利用
  5. 不等式应用:马尔可夫不等式(非负随机变量)或切比雪夫不等式(任意随机变量)
  6. 注意独立性条件:期望的线性性无条件成立,方差的加法性要求独立

五、视频学习指南

视频资源

资源链接对应内容备注
Rosen 8e Section 7.4教材原文完整定义、定理与例题英文教材
Khan Academy: Expected Value链接期望值完整教程英文,免费
Khan Academy: Variance链接方差与标准差英文,免费
StatQuest: Variance链接方差的可视化讲解英文,直观
Brilliant: Chebyshev’s Inequality链接切比雪夫不等式交互式学习英文,有练习题
3Blue1Brown: Probability链接概率论可视化系列英文,高质量

六、教材原文

教材原文

“The expected value of a random variable is the sum over all elements in a sample space of the product of the probability of the element and the value of the random variable at this element. Consequently, the expected value is a weighted average of the values of a random variable.”

“The expected value of a random variable provides a central point for the distribution of values of this random variable. We can solve many problems using the notion of the expected value of a random variable, such as determining who has an advantage in gambling games and computing the average-case complexity of algorithms.”

“Another useful measure of a random variable is its variance, which tells us how spread out the values of this random variable are. We can use the variance of a random variable to help us estimate the probability that a random variable takes values far removed from its expected value.”


参见 Wiki

离散概率