相关笔记: 7.2 概率论 | 7.4 期望值与方差

概览

本节系统介绍了贝叶斯定理(Bayes' Theorem)及其在实际问题中的应用。贝叶斯定理是条件概率理论的核心结果之一,它提供了一种在获得新证据后更新事件发生概率的严格数学方法。

  • 全概率公式(Law of Total Probability):若 互斥且覆盖整个样本空间,则
  • 贝叶斯定理
  • 先验概率(Prior Probability):在获得新证据之前对事件发生概率的初始估计
  • 后验概率(Posterior Probability):在获得新证据 之后对事件发生概率的更新估计
  • 似然函数(Likelihood):在假设 为真的条件下观察到证据 的概率
  • 贝叶斯定理广泛应用于医疗诊断垃圾邮件过滤可靠性分析等领域
  • 贝叶斯定理可推广到多个假设的情形(广义贝叶斯定理)

一、知识结构总览

graph TB
    A["7.3 贝叶斯定理 Bayes' Theorem"] --> B["全概率公式"]
    A --> C["贝叶斯定理(基本形式)"]
    A --> D["广义贝叶斯定理"]
    A --> E["贝叶斯推理应用"]

    B --> B1["样本空间的划分"]
    B --> B2["p(E) = Σ p(E|Fᵢ)p(Fᵢ)"]
    B --> B3["证明:E = ∪(E ∩ Fᵢ)"]

    C --> C1["两事件形式"]
    C --> C2["p(F|E) = p(E|F)p(F) / p(E)"]
    C --> C3["先验 → 后验的更新"]

    D --> D1["多个互斥假设 F₁,...,Fₙ"]
    D --> D2["分母为全概率展开"]
    D --> D3["∑ Fᵢ = S"]

    E --> E1["医疗诊断"]
    E --> E2["垃圾邮件过滤"]
    E --> E3["可靠性分析"]
    E --> E4["Monty Hall 问题"]

    E1 --> E1a["真阳性/假阳性"]
    E1 --> E1b["真阴性/假阴性"]
    E1 --> E1c["稀有疾病悖论"]

    E2 --> E2a["单词概率估计 p(w), q(w)"]
    E2 --> E2b["多词联合概率"]
    E2 --> E2c["阈值判定"]

二、核心思想

核心思想

本节的核心思想是贝叶斯推理(Bayesian Inference):通过贝叶斯定理,在获得新证据(evidence)后,系统地更新我们对事件发生概率的估计。具体而言,贝叶斯定理建立了一个从先验概率(prior probability)后验概率(posterior probability)的数学桥梁——当我们观察到新证据 时,对假设 的置信度从 更新为 。更新幅度取决于两个因素:证据在假设为真时的出现概率(似然 ),以及证据在所有可能假设下的总出现概率(全概率 )。这一思想是现代机器学习、人工智能、医学诊断等领域的重要基石。

1. 全概率公式(Law of Total Probability)

全概率公式

是样本空间 互斥的事件,且 。若 对所有 成立,则对任意事件

  • 这里的 构成样本空间的一个划分(partition)
  • 全概率公式的本质是全分解:将事件 拆分为 ,由于 两两互斥,故

全概率公式的直观理解

假设一个工厂有三条生产线 ,分别生产总产品的 50%、30%、20%。各线的不合格率分别为 2%、3%、1%。则任意一件产品不合格的概率为:

即总不合格率为 2.1%。

2. 贝叶斯定理(基本形式)

贝叶斯定理(Theorem 1)

是样本空间 中的事件,且 。则:

证明

第一步,由条件概率的定义:

第二步,同样由条件概率定义:

第三步,将第二步代入第一步:

第四步,利用全概率公式展开分母

这里 ,且 互斥。

第五步,将第四步代入第三步即得证。

两盒取球问题(Example 1)

有两个盒子:第一个盒子有 2 个绿球和 7 个红球,第二个盒子有 4 个绿球和 3 个红球。Bob 先随机选一个盒子,再从中随机取一个球。若取出的是红球,求该球来自第一个盒子的概率。

:设 为”取出红球”, 为”选第一个盒子”, 为”选第二个盒子”。

  • (第一个盒子中红球占 7/9)
  • (第二个盒子中红球占 3/7)
  • (随机选盒子)

由贝叶斯定理:

在没有额外信息时,选第一个盒子的概率是 ;但知道取出了红球后,概率更新为约

3. 广义贝叶斯定理

广义贝叶斯定理(Theorem 2)

是样本空间 中的事件,互斥事件且 。若 成立,则:

  • 分子:在假设 下观察到证据 的概率(似然 先验)
  • 分母:在所有可能假设下观察到证据 的总概率(归一化常数,即全概率
  • 时退化为基本形式的贝叶斯定理

4. 先验概率与后验概率

先验概率与后验概率

  • ==先验概率 ==:在观察到证据 之前,对假设 成立概率的初始估计,反映我们的背景知识或先验信念
  • ==后验概率 ==:在观察到证据 之后,对假设 成立概率的更新估计
  • ==似然 ==:假设 为真时,观察到证据 的概率
  • 贝叶斯定理的直觉:==后验 先验 似然==

5. 贝叶斯推理的实际应用

5.1 医疗诊断

稀有疾病的检测悖论(Example 2)

假设每 10 万人中有 1 人患某种稀有疾病。有一种相当准确的诊断测试:对患病者,99.0% 呈阳性(真阳性率);对未患病者,99.5% 呈阴性(真阴性率)。

(a) 检测为阳性的人实际患病的概率是多少?

:设 为”患病”, 为”检测为阳性”。

  • (真阳性率),(假阳性率)

仅有约 0.2% 的阳性检测者实际患病!这是因为疾病极其稀有,假阳性的人数远超真阳性的人数。

(b) 检测为阴性的人实际未患病的概率是多少?

99.99999% 的阴性检测者确实未患病。

5.2 贝叶斯垃圾邮件过滤器

贝叶斯垃圾邮件过滤器

贝叶斯垃圾邮件过滤器利用已知的垃圾邮件和非垃圾邮件中特定单词的出现频率,估计一封新邮件是垃圾邮件的概率。

  • 为单词 在垃圾邮件中出现的经验概率:
  • 为单词 在非垃圾邮件中出现的经验概率:
  • 假设 (无先验信息),则包含单词 的邮件是垃圾邮件的概率估计为:

  • 超过预设阈值(如 0.9)时,将邮件判定为垃圾邮件

单词过滤(Example 3)

“Rolex”在 2000 封垃圾邮件中出现 250 次,在 1000 封非垃圾邮件中出现 5 次。

超过阈值 0.9,判定为垃圾邮件。

多词联合过滤

若邮件同时包含单词 ,假设各单词出现事件独立,则:

更一般地,对 个单词

双词过滤(Example 4)

“stock”在 2000 封垃圾邮件中出现 400 次,在 1000 封非垃圾邮件中出现 60 次;“undervalued”在垃圾邮件中出现 200 次,在非垃圾邮件中出现 25 次。

超过阈值 0.9,判定为垃圾邮件。


三、补充理解与易混淆点

补充理解

补充1:贝叶斯定理的历史与意义

贝叶斯定理由英国数学家兼牧师Thomas Bayes(1702—1761)提出,其论文《概率论中的一个问题的解法》在他去世后的 1764 年由朋友整理发表。法国数学家Laplace 独立发现并推广了这一结果。在过去的二十年中,贝叶斯定理被广泛应用于医学、法律、机器学习、工程和软件开发等领域,成为贝叶斯统计贝叶斯机器学习的理论基础。在现代人工智能中,朴素贝叶斯分类器、贝叶斯网络、贝叶斯优化等算法都直接基于贝叶斯定理。

来源:Bayes, T. (1763). “An Essay towards solving a Problem in the Doctrine of Chances.” Philosophical Transactions of the Royal Society, 53, 370–418. 来源:Rosen, K. H. (2019). Discrete Mathematics and Its Applications (8th ed.), McGraw-Hill, Section 7.3.

补充2:贝叶斯定理与全概率公式的关系

贝叶斯定理本质上是全概率公式条件概率定义的直接推论。全概率公式回答的问题是”证据 出现的总概率是多少?“(对所有假设加权求和),而贝叶斯定理进一步回答”在证据 出现的条件下,哪个假设最可能成立?“(比较各假设的后验概率)。二者配合使用,构成了完整的贝叶斯推理框架:

  1. 全概率公式计算归一化常数:
  2. 贝叶斯定理更新后验概率:

这种”先分解、再比较”的思想在模式识别、决策理论、信息检索等领域有广泛应用。

来源:Ross, S. M. (2019). A First Course in Probability (10th ed.), Pearson, Chapter 3. 来源:Rosen, K. H. (2019). Discrete Mathematics and Its Applications (8th ed.), McGraw-Hill, Section 7.3.

补充3:贝叶斯推理的直觉——"翻转条件"

贝叶斯定理的核心操作是翻转条件方向:从 (已知原因求结果)到 (已知结果求原因)。日常生活中大量推理都是”由果推因”:看到症状推断疾病、看到单词判断垃圾邮件、看到数据更新模型参数。贝叶斯定理为这种逆向推理提供了严格的数学基础。

一个有用的记忆方式是:

来源:Jaynes, E. T. (2003). Probability Theory: The Logic of Science. Cambridge University Press, Chapter 4. 来源:McGrayne, S. B. (2011). The Theory That Would Not Die. Yale University Press.

易混淆点

误区:混淆

  • ❌ 认为 ,即混淆条件方向
  • 是”假设 为真时观察到证据 的概率”(似然)
  • 是”观察到证据 后假设 为真的概率”(后验)
  • ⚠️ 例如: 完全不同。前者仅约 0.2%(Example 2),后者为 99%
  • 这两个量的关系由贝叶斯定理精确给出:

误区:忽视先验概率的影响——稀有疾病悖论

  • ❌ 认为检测准确率高达 99%,所以阳性结果意味着几乎肯定患病
  • ✅ 当疾病极其稀有时(如 ),即使测试很准确,阳性结果中假阳性的人数仍远超真阳性
  • 在 Example 2 中,,即阳性者中只有 0.2% 真正患病
  • 关键原因: 极大,即使假阳性率仅 0.5%,假阳性人数 也远超真阳性人数
  • ⚠️ 先验概率在贝叶斯推理中至关重要,不可忽略

误区:贝叶斯垃圾邮件过滤器中的独立性假设

  • ❌ 认为多词过滤公式 在任何情况下都精确
  • ✅ 该公式假设各单词出现事件条件独立,这在现实中不一定成立
  • 例如:“buy” 和 “now” 在垃圾邮件中经常一起出现,并非独立
  • 条件独立性假设会引入一定误差,但在实际应用中通常误差较小,且使用更多单词可以弥补这一缺陷

四、习题精选

习题概览

题号范围核心考点难度
1-2利用条件概率定义和贝叶斯定理求
3-4两盒取球问题(贝叶斯定理基本应用)⭐⭐
5-6体育兴奋剂检测(先验概率与后验概率)⭐⭐
7-8医疗诊断(稀有疾病检测悖论)⭐⭐⭐
9-10传染病检测(HIV、禽流感)⭐⭐⭐
11产品成功预测(市场分析)⭐⭐
12通信信道(位传输错误)⭐⭐⭐
13-14三假设贝叶斯定理⭐⭐⭐
15Monty Hall 问题(贝叶斯定理求解)⭐⭐⭐⭐
16多种通勤方式的贝叶斯推断⭐⭐
17证明广义贝叶斯定理⭐⭐⭐
18-22贝叶斯垃圾邮件过滤器(单/多词)⭐⭐⭐

题1:贝叶斯定理基本计算

题目

是样本空间中的事件,。求

题2:医疗诊断问题

题目

每 10000 人中有 1 人患某种遗传疾病。有一种极佳的检测方法:患病者中 99.9% 检测为阳性,未患病者中仅 0.02% 检测为阳性。

(a) 检测为阳性的人实际患病的概率是多少? (b) 检测为阴性的人实际未患病的概率是多少?

题3:垃圾邮件过滤

题目

一个贝叶斯垃圾邮件过滤器在 500 封垃圾邮件和 200 封非垃圾邮件上训练。“exciting”在 40 封垃圾邮件和 25 封非垃圾邮件中出现。若阈值设为 0.9,一封包含”exciting”的邮件会被判定为垃圾邮件吗?

题4:三假设贝叶斯定理

题目

是样本空间 中的事件, 两两互斥且 。已知 。求

题5:全概率公式应用

题目

某诊所中 8% 的患者感染 HIV。血液检测中,98% 的 HIV 感染者检测为阳性,3% 的未感染者检测为阳性。求:

(a) 检测为阳性的患者实际感染 HIV 的概率? (b) 检测为阳性的患者实际未感染 HIV 的概率?

解题思路提示

贝叶斯定理问题的解题方法论:

  1. 明确事件定义:设 为各假设, 为观察到的证据
  2. 列出已知量:先验概率 、似然
  3. 计算全概率(分母)
  4. 应用贝叶斯定理
  5. 验证结果:所有假设的后验概率之和应为 1
  6. 注意条件方向:不要混淆

五、视频学习指南

视频资源

资源链接对应内容备注
Rosen 8e Section 7.3教材原文完整定义、定理与例题英文教材
Khan Academy: Conditional Probability链接条件概率与贝叶斯定理英文,免费
3Blue1Brown: Bayes Theorem链接贝叶斯定理可视化讲解英文,直观
StatQuest: Naive Bayes链接朴素贝叶斯分类器英文,机器学习视角
Brilliant: Bayes’ Theorem链接交互式练习与讲解英文,有练习题

六、教材原文

教材原文

“There are many times when we want to assess the probability that a particular event occurs on the basis of partial evidence. For example, suppose we know the percentage of people who have a particular disease for which there is a very accurate diagnostic test. People who test positive for this disease would like to know the likelihood that they actually have the disease.”

“The result that we can use to answer questions such as these is called Bayes’ theorem and dates back to the eighteenth century. In the past two decades, Bayes’ theorem has been extensively applied to estimate probabilities based on partial evidence in areas as diverse as medicine, law, machine learning, engineering, and software development.”

“Thomas Bayes was the son of a minister in a religious sect known as the Nonconformists. Bayes is best known for his essay on probability published in 1764, three years after his death. This essay was sent to the Royal Society by a friend who found it in the papers left behind when Bayes died.”


参见 Wiki

离散概率