相关笔记: 7.1 离散概率导论 | 7.3 贝叶斯定理

概览

本节在7.1节的基础上,将概率论从等可能结果推广到更一般的概率赋值框架,并引入了条件概率、独立性、伯努利试验与二项分布等核心概念,最后介绍了蒙特卡洛算法和概率方法等应用。

  • 概率赋值,推广了拉普拉斯定义
  • 条件概率 ,已知 发生时 的概率
  • 独立性 ,两事件互不影响
  • 乘法规则
  • 伯努利试验(Bernoulli trial):只有成功/失败两种结果的独立重复试验
  • 二项分布 次试验中恰好 次成功的概率
  • 蒙特卡洛算法:利用随机性加速计算,以可控的错误概率换取效率

一、知识结构总览

graph TB
    A["7.2 概率论 Probability Theory"] --> B["概率赋值"]
    A --> C["条件概率"]
    A --> D["独立性"]
    A --> E["伯努利试验与二项分布"]
    A --> F["随机变量"]
    A --> G["生日问题"]
    A --> H["蒙特卡洛算法"]
    A --> I["概率方法"]

    B --> B1["概率分布 p(s)"]
    B --> B2["条件: 0≤p(s)≤1, Σp(s)=1"]
    B --> B3["均匀分布 Uniform Distribution"]
    B --> B4["事件概率 p(E) = Σp(s)"]

    C --> C1["定义: p(E|F) = p(E∩F)/p(F)"]
    C --> C2["乘法规则"]
    C --> C3["贝叶斯公式预览"]

    D --> D1["定义: p(E∩F) = p(E)·p(F)"]
    D --> D2["两两独立 vs 相互独立"]
    D --> D3["独立性的验证方法"]

    E --> E1["伯努利试验定义"]
    E --> E2["二项分布 b(k;n,p)"]
    E --> E3["二项定理验证 Σ=1"]

    F --> F1["随机变量定义"]
    F --> F2["随机变量的分布"]

    G --> G1["生日悖论"]
    G --> G2["哈希碰撞概率"]

    H --> H1["决策问题的Monte Carlo"]
    H --> H2["错误概率 (1-p)^n"]

    I --> I1["概率方法"]
    I --> I2["Ramsey数下界"]

二、核心思想

核心思想

本节的核心思想是从等可能概率到一般概率的推广,以及条件概率这一革命性概念的引入。条件概率 回答的核心问题是:“在已知事件 已经发生的前提下,事件 发生的概率是多少?“这一概念衍生出独立性、乘法规则和贝叶斯定理等重要工具。同时,伯努利试验与二项分布为”重复独立实验”提供了精确的数学模型,使得我们可以计算如”抛10次硬币恰好7次正面”这类问题的概率。最后,蒙特卡洛算法展示了概率论在计算机科学中的实际威力——通过引入可控的随机性,我们可以用常数时间解决原本需要线性甚至更高时间复杂度的问题。

1. 概率赋值(Assigning Probabilities)

概率分布(Definition: Probability Distribution)

是一个具有有限或可数个结果的样本空间。对每个结果 ,赋一个概率 ,满足:

(i) 对所有

(ii)

函数 称为概率分布(probability distribution)。

  • 条件 (i) 保证每个结果的概率非负且不超过1
  • 条件 (ii) 保证所有结果的概率之和为1(即实验一定会产生某个结果)

均匀分布(Definition 1)

是一个有 个元素的集合。均匀分布将概率 赋给 中的每个元素。

  • 均匀分布是拉普拉斯定义的推广形式
  • 当所有结果等可能时,使用均匀分布

事件概率的一般定义(Definition 2)

事件 的概率是 中所有结果的概率之和:

  • 当使用均匀分布时,此定义退化为拉普拉斯定义

有偏硬币的概率赋值

一枚硬币正面出现的概率是反面的两倍,如何赋值?

,且

有偏骰子的概率计算

一枚骰子使得3出现的概率是其他数字的两倍,其他数字等可能。求出现奇数的概率。

奇数事件

2. 条件概率(Conditional Probability)

条件概率(Definition 3)

是事件且 条件概率 (在 发生的条件下 的概率)定义为

  • 直觉含义:将 作为新的样本空间,只考虑 中也属于 的结果
  • 度量的是 发生后, 发生的”相对可能性”

位串的条件概率

随机生成长度为4的等可能位串,已知第一位是0,求至少包含两个连续0的概率。

= “至少两个连续0”, = “第一位是0”

两个孩子的家庭

已知一个有两个孩子的家庭至少有一个男孩,求两个都是男孩的概率。

= “两个都是男孩” = = “至少一个男孩” =

注意:答案不是 !因为 也是”至少一个男孩”的情况。

3. 独立性(Independence)

独立事件(Definition 4)

事件 独立的(independent)当且仅当

  • 等价条件: 的发生不改变 的概率)
  • 独立意味着一个事件的发生不提供关于另一个事件的任何信息

验证独立性

随机生成长度为4的等可能位串。 = “以1开头”, = “包含偶数个1”。 是否独立?

因此 是独立的。

不独立的例子

两个孩子的家庭: = “两个都是男孩”, = “至少一个男孩”。

因此 不独立。知道”至少一个男孩”确实改变了”两个都是男孩”的概率。

两两独立与相互独立(Definition 5)

事件 两两独立的(pairwise independent),当且仅当对所有 ,有

事件 相互独立的(mutually independent),当且仅当对所有子集 ),有

  • 相互独立蕴含两两独立,但反之不成立
  • 大多数定理需要相互独立的假设

4. 乘法规则(Multiplication Rule)

乘法规则

是事件,则

推导:由条件概率的定义 ,两边乘以 即得。

  • 乘法规则是条件概率定义的直接推论
  • 可推广到多个事件:

5. 伯努利试验与二项分布(Bernoulli Trials and Binomial Distribution)

伯努利试验(Bernoulli Trial)

伯努利试验是一种只有两种可能结果的实验:

  • 成功(success),概率为
  • 失败(failure),概率为

多次独立重复的伯努利试验称为独立伯努利试验

以 James Bernoulli(1654-1705)命名,他在《Ars Conjectandi》中系统研究了此类问题。

二项分布定理(Theorem 2)

次独立伯努利试验中,成功概率为 ,失败概率为 ,恰好成功 次的概率为

证明

  1. 每个由 个成功和 个失败组成的特定结果序列,由于试验独立,其概率为
  2. 次试验中选择 次成功位置的方式数为
  3. 由加法规则,总概率为

验证(二项定理)

有偏硬币的二项分布

一枚硬币正面概率为 ,抛7次恰好出现4次正面的概率?

位串生成的二项分布

生成0的概率为0.9,生成1的概率为0.1,各位独立。生成10位中恰好8个0的概率?

6. 随机变量(Random Variables)

随机变量(Definition 6)

随机变量是从样本空间到实数集的函数,即它为每个可能的结果赋予一个实数值。

  • 注意:随机变量是一个函数,既不是”变量”,也不是”随机的”
  • 名称由来:意大利数学家 F. P. Cantelli 于1916年引入

掷骰子的随机变量

掷一枚骰子三次,设 为正面出现的次数:

随机变量的分布(Definition 7)

随机变量 在样本空间 上的分布是所有值对 的集合,其中

7. 生日问题(The Birthday Problem)

生日悖论

一个房间中最少需要多少人,才能使至少两人生日相同的概率超过

假设366天等可能, 个人的生日各不相同的概率为

至少两人生日相同的概率为

计算结果:

  • 时,
  • 时,

答案:最少需要23人——远小于大多数人的直觉(通常猜测需要183人或365人左右)。

这一结果在密码学中有重要应用:哈希碰撞(hash collision)的概率分析与生日问题完全同构。

8. 蒙特卡洛算法(Monte Carlo Algorithms)

蒙特卡洛算法

蒙特卡洛算法是一种概率算法(probabilistic algorithm),在执行过程中做出随机选择。用于决策问题时:

  • 每次测试返回”true”(确定答案为真)或”unknown”(尚不确定)
  • 最终答案:只要有一次返回”true”则输出”true”;全部返回”unknown”则输出”false”
  • 当正确答案为”false”时,算法一定正确
  • 当正确答案为”true”时,可能以 的概率出错( 为测试次数, 为单次测试返回”true”的概率)

芯片质量检测

制造商收到一批 个芯片。未测试批次中坏芯片概率为0.1。用蒙特卡洛算法检测批次是否已被测试:

  • 随机抽取 个芯片逐一测试
  • 发现坏芯片则回答”true”(批次未测试)
  • 全部合格则回答”false”(批次已测试)

错误概率 = (未测试批次中所有被测芯片恰好都是好的)

  • 时,错误概率 (千分之一)
  • 时,错误概率 (百万分之一)

关键优势:算法复杂度为 (与批次大小 无关!)

概率素性测试

利用 Miller 测试进行概率素性判定:

  • 合数 通过 Miller 测试的基 少于
  • 每次随机选基测试,合数通过的概率
  • 次测试:错误概率
  • 次测试:错误概率

9. 概率方法(The Probabilistic Method)

概率方法(Theorem 3)

如果从集合 中随机选取一个元素不具有某特定性质的概率小于1,则 存在具有该性质的元素。

  • 由 Paul Erdős 和 Alfréd Rényi 引入
  • 提供了一种非构造性的存在性证明方法

Ramsey 数的下界(Theorem 4)

,则

证明思路:利用概率方法,假设 个人参加派对,每两人等可能为朋友或敌人,证明存在一种关系使得没有 人互为朋友或互为敌人。


三、补充理解与易混淆点

补充理解

补充1:条件概率的直觉理解

条件概率 的核心思想是”缩小样本空间”。当已知事件 已经发生时,我们不再关心 之外的所有结果,而是将 本身作为新的”宇宙”来重新计算概率。

用一个生活类比:假设你在一个有100人的班级中,其中60人喜欢数学,40人喜欢物理,20人同时喜欢两者。随机选一个人喜欢数学的概率是 。但如果已知这个人喜欢物理,那么他喜欢数学的条件概率变为 ——因为样本空间从100人缩小到了40人(喜欢物理的人)。

条件概率是贝叶斯统计、机器学习(朴素贝叶斯分类器)、自然语言处理等领域的基石。

来源:Rosen, K. H. (2019). Discrete Mathematics and Its Applications (8th ed.), McGraw-Hill, Section 7.2. 来源:Ross, S. M. (2019). A First Course in Probability (10th ed.), Pearson, Chapter 3.

补充2:二项分布与正态近似

二项分布 是离散概率中最重要的分布之一。当 较大时,二项分布可以用正态分布近似(棣莫弗-拉普拉斯定理),这是中心极限定理的特例。

二项分布的期望和方差:

  • 期望:
  • 方差:

实际应用场景:

来源:de Moivre, A. (1738). The Doctrine of Chances (2nd ed.). London: Woodfall. 来源:Feller, W. (1968). An Introduction to Probability Theory and Its Applications, Vol. 1 (3rd ed.). Wiley, Chapter VII.

易混淆点

误区:条件概率的顺序不可颠倒

  • ❌ 认为
  • ✅ 两者通常不相等。 是在 发生条件下 的概率, 是在 发生条件下 的概率
  • 例如:,但

这两个条件概率的关系由贝叶斯公式描述(将在7.3 贝叶斯定理中学习):

误区:独立性不等于互斥

  • ❌ 认为独立事件就是互斥事件
  • ✅ 这是两个完全不同的概念:
    • 互斥(不能同时发生)
    • 独立(一个不影响另一个)
  • ⚠️ 如果 ,则互斥事件一定不独立(因为
  • 直觉:如果两个事件互斥,知道一个发生了,另一个一定不发生——这恰恰说明它们高度相关(不独立)

误区:两两独立不等于相互独立

  • ❌ 认为两两独立就足够了
  • ✅ 两两独立只保证任意两个事件之间的关系,不保证三个或更多事件的联合独立性
  • 例如:可能存在 ,但
  • 大多数概率定理(如二项分布、大数定律)需要相互独立的假设

误区:生日问题的反直觉

  • ❌ 认为需要约183人(365/2)才能使生日碰撞概率超过1/2
  • ✅ 实际只需要23人。原因在于碰撞是两两比较:23人有 对可能的生日配对,远大于直觉预期
  • 一般公式: 个人产生 对比较,增长速度是二次的而非线性的

四、习题精选

习题概览

题号范围核心考点难度
1-4概率赋值(有偏硬币/骰子)
5-10排列的概率、事件概率计算⭐⭐
11-17条件概率与独立性验证⭐⭐⭐
18-22生日问题变体⭐⭐⭐
23-27条件概率计算⭐⭐⭐
28-35伯努利试验与二项分布⭐⭐⭐
36-37互斥事件概率的归纳证明⭐⭐⭐⭐
38-39概率方法应用⭐⭐⭐⭐

题1:条件概率计算

题目

公平硬币抛5次,已知第一次是正面,求恰好出现4次正面的条件概率。

题2:独立性验证

题目

随机生成长度为3的等可能位串。设 = “包含奇数个1”, = “以1开头”。验证 是否独立。

题3:伯努利试验概率

题目

一个家庭有5个孩子,每个孩子是男孩的概率为0.51(且各孩子性别独立)。求恰好有3个男孩的概率。

题4:二项分布计算

题目

生成10位随机位串,每位独立且为0的概率为0.9、为1的概率为0.1。求恰好8个0的概率。若要求至少8个0的概率呢?

题5:Monty Hall 问题的条件概率分析

题目

在 Monty Hall 三门问题中,你选择了1号门。主持人打开了3号门(后面没有奖)。用条件概率证明换到2号门获胜的概率是

解题思路提示

条件概率与独立性问题的解题方法论:

  1. 条件概率:先明确”条件事件” 和”目标事件” ,计算
  2. 独立性验证:分别计算 ,比较是否相等
  3. 伯努利试验:确认满足三个条件(两种结果、固定概率 、独立重复),然后套用二项分布公式
  4. 补事件策略:计算”至少 个”时,考虑
  5. 蒙特卡洛分析:确定单次测试的正确概率 和测试次数 ,错误概率为

五、视频学习指南

视频资源

资源链接对应内容备注
Khan Academy: Conditional probability链接条件概率定义与计算英文,交互式练习
3Blue1Brown: Bayes theorem链接贝叶斯定理可视化英文,高质量动画
Brilliant: Independence链接独立性概念与应用英文,互动课程
MIT 6.042J Lecture 18链接条件概率与独立性英文,MIT开放课程
Khan Academy: Binomial distribution链接二项分布完整教程英文,含练习

六、教材原文

教材原文

“Suppose that we flip a coin three times, and all eight possibilities are equally likely. Moreover, suppose we know that the event F, that the first flip comes up tails, occurs. Given this information, what is the probability of the event E, that an odd number of tails appears?”

“The events E and F are independent if and only if p(E ∩ F) = p(E)p(F). When two events are independent, the occurrence of one of the events gives no information about the probability that the other event occurs.”

“Monte Carlo algorithms always produce answers to problems, but a small probability remains that these answers may be incorrect. However, the probability that the answer is incorrect decreases rapidly when the algorithm carries out sufficient computation.”


参见 Wiki

离散概率