切比雪夫不等式

Abstract

切比雪夫不等式(Chebyshev's Inequality)是概率论中最基本的不等式之一,它利用随机变量方差给出偏离期望值的概率上界。具体而言,对于期望为 、方差为 的随机变量 ,有 。该不等式是马尔可夫不等式的直接推论,无需知道 的具体分布即可使用,是证明大数定律、确定样本量等问题的核心工具。

定义

切比雪夫不等式(Chebyshev's Inequality)

随机变量(其中 ),则对任意

等价形式(令 ):

直观含义随机变量偏离其期望超过 个标准差的概率不超过

切比雪夫不等式的证明

证明(利用马尔可夫不等式):

,则 是非负随机变量。

  • 事件 等价于事件 ,即

马尔可夫不等式

应用一:确定样本量

问题:要估计某人群的平均身高 ,希望估计误差不超过 厘米的概率至少为 。已知身高方差 (标准差 厘米),至少需要多少个样本?

解法:设 为样本均值,则

由切比雪夫不等式:

要求 ,即 ,解得

结论:至少需要2000个样本。

应用二:证明大数定律(弱大数定律的切比雪夫证明)

定理(弱大数定律):设 是独立同分布的随机变量序列,,则对任意

证明:令 ,则

由切比雪夫不等式:

时,

核心性质

编号性质说明
P1分布无关性不需要知道 的具体分布,只需期望和方差存在即可使用
P2上界的宽松性切比雪夫不等式给出的上界通常比较宽松,实际概率往往远小于上界
P3马尔可夫不等式的推论切比雪夫不等式是马尔可夫不等式应用于 的直接结果
P4标准差形式,以标准差为单位度量偏差
P5大数定律的证明工具是证明弱大数定律的经典方法之一
P6样本量确定在统计推断中用于确定所需的样本量以保证估计精度

关系网络

graph LR
    A[切比雪夫不等式]
    B[方差]
    C[马尔可夫不等式]
    D[期望值]
    E[大数定律]

    B -- "σ² 参数" --> A
    C -- "应用于 (X-μ)²" --> A
    D -- "μ 参数" --> A
    A -- "证明工具" --> E
    A -- "推论" --> C

章节扩展

  • 方差方差 是切比雪夫不等式的核心参数,方差越小,上界越紧
  • 马尔可夫不等式马尔可夫不等式是切比雪夫不等式的基础,切比雪夫不等式是其最重要的推论
  • 期望值期望值 是切比雪夫不等式中度量偏差的基准点

补充

生活类比

假设一家工厂生产的灯泡平均寿命为1000小时(期望值),标准差为100小时(方差为10000)。切比雪夫不等式告诉我们:灯泡寿命偏离平均值超过300小时(即 个标准差)的概率不超过 。也就是说,超过95%的灯泡寿命在700到1300小时之间。虽然这个估计偏保守(实际可能远好于此),但它不需要知道灯泡寿命的具体分布就能给出保证。

切比雪夫不等式 vs 正态分布

对于标准正态分布 ,实际概率 ,而切比雪夫不等式给出的上界为 。切比雪夫不等式确实很宽松,但它的优势在于适用于任何分布——当你不知道数据服从什么分布时,切比雪夫不等式是唯一可用的通用工具。

切比雪夫不等式的等价形式

切比雪夫不等式也可以表述为”下界”形式:

或用标准差表示:

例如 时,至少有 的数据落在 范围内; 时,至少有 的数据落在 范围内。

参见

  • 方差:切比雪夫不等式的核心参数
  • 马尔可夫不等式:切比雪夫不等式的基础,是其最重要的推论
  • 期望值:切比雪夫不等式中度量偏差的基准