本文试图给出贝叶斯定理的直观理解和部分相关应用场景。

观察

教室里有30个学生,10个女生,20个男生。女生有5个穿裙子,5个穿长裤。男士穿的都是长裤。

我们用A代表女生(字母A是多么亭亭玉立呀),B代表穿长裤(B多像两条腿的裤子呀。)

于是有

P(A) P(B|A) A∩B P(A|B) P(B)
女生的概率 女生里穿长裤的概率 女生且穿长裤的概率 穿长裤的同学里是女生的概率 穿长裤同学的概率
1030 510 530 525 2530
0.33 0.50 0.17 0.20 0.83

类似地,以女生,和穿裙子为讨论话题:

P(A) P(B|A) A∩B P(A|B) P(B)
女生的概率 女生里穿裙子的概率 女生且穿裙子的概率 穿裙子的同学里是女生的概率 穿裙子同学的概率
1030 510 530 55 530
0.33 0.50 0.17 1.00 0.17

推导

画出文氏图

A: 女生=1030 B: 穿长裤的同学 = 2530 img

​ A∩B: 女生且穿的是长裤

  • 把所有女生放在一起。站在女生群A里观察,发现

女生同学里穿长裤的概率 = 穿长裤且是女生的概率 / 女生的概率

​ P(B|A) = P(A∩B) / P(A)

  • 把所有穿长裤的同学放在一起,站在穿长裤的同学群里观察,发现

    穿长裤的同学是女生的概率 = 穿长裤且是女生的概率 / 穿长裤同学的概率

​ $$P(A|B) = \frac{P(A∩B)}{P(B)}$$

或者写成

​ P(A∩B) = P(B|A) * P(A)

​ P(A∩B) = P(A|B) * P(B)

得到

​ P(B|A) * P(A) = P(A|B) * P(B)

或者写成

$$P(A|B) = \frac {P(A∩B)}{P(B)} = P(A) *\frac {P(B|A)}{P(B)}$$

这就是在计算机机器学习领域有着广泛应用的贝叶斯定理

直观理解:

解说1:女生同学里穿长裤的概率,与女生且穿长裤的概率成正比,与女生的概率成反比

解说2:女生前提下穿长裤的概率,与无前提穿长裤的概率成正比。

解说3:事件B发生的情况下事件A发生的概率P(A|B)与事件A发生的概率P(A)成正比。

数学陈述:

贝叶斯定理是关于随机事件A和B的条件概率的一则定理。

​ $$P(A|B) = P(A) \frac { P(B|A)}{P(B)}$$

其中P(A|B)是指在事件B发生的情况下事件A发生的概率。

我们把不设前提条件的概率P(A)称为先验概率,把预设前提的概率P(A|B)称为后验概率,也称为条件概率

把 P(B|A)/P(B) 称为标准似然度, 代表了先验概率近似的情况下,P(A|B)可能性。

很明显地,后验概率与先验概率成正比。或者

后验概率 = 先验概率 * 标准似然度

总结与思考:

贝叶斯定律阐述的事件B发生的情况下事件A发生的概率,在机器学习领域有广泛的应用。

P(A|B)的例子有:

  1. 语言歧义分析

分析这句话的含义:“The girl saw the boy with a telescope.”

应该理解成“女孩用望远镜看男孩“,还是“女孩看见男孩拿着一个望远镜”。

思考:女孩用望远镜看的概率大(A=用望远镜,B=女孩),还是被看到的男孩拿着一个望远镜(A=拿望远镜,B=男孩被看到)。

  1. 拼写纠正可以理解为A=正确单词,B=错误单词,比较几个和错误单词相近的词Ai中,那个P(Ai|B)大。

  2. 中文分词可以理解为A=分词方式,B=给定的句子。考虑这两种分词方式“南京市长/江大桥”, “南京市/长江大桥”。

  3. 机器翻译可以理解为A=翻译语句,B=原文语句。求P(A|B).

  4. 图像识别:A=某物体,B=给定的图像。

  5. 垃圾邮件过滤:A=是垃圾邮件,B=某给定邮件。

  6. 文本分类:A=某预定义的类别,B=给定的文本。