大道至简的“贝叶斯定理”
本文试图给出贝叶斯定理的直观理解和部分相关应用场景。
观察
教室里有30个学生,10个女生,20个男生。女生有5个穿裙子,5个穿长裤。男士穿的都是长裤。
我们用A代表女生(字母A是多么亭亭玉立呀),B代表穿长裤(B多像两条腿的裤子呀。)
于是有
P(A) | P(B|A) | A∩B | P(A|B) | P(B) |
---|---|---|---|---|
女生的概率 | 女生里穿长裤的概率 | 女生且穿长裤的概率 | 穿长裤的同学里是女生的概率 | 穿长裤同学的概率 |
10⁄30 | 5⁄10 | 5⁄30 | 5⁄25 | 25⁄30 |
0.33 | 0.50 | 0.17 | 0.20 | 0.83 |
类似地,以女生,和穿裙子为讨论话题:
P(A) | P(B|A) | A∩B | P(A|B) | P(B) |
---|---|---|---|---|
女生的概率 | 女生里穿裙子的概率 | 女生且穿裙子的概率 | 穿裙子的同学里是女生的概率 | 穿裙子同学的概率 |
10⁄30 | 5⁄10 | 5⁄30 | 5⁄5 | 5⁄30 |
0.33 | 0.50 | 0.17 | 1.00 | 0.17 |
推导
画出文氏图
A: 女生=10⁄30 B: 穿长裤的同学 = 25⁄30
A∩B: 女生且穿的是长裤
- 把所有女生放在一起。站在女生群A里观察,发现
女生同学里穿长裤的概率 = 穿长裤且是女生的概率 / 女生的概率
即
P(B|A) = P(A∩B) / P(A)
把所有穿长裤的同学放在一起,站在穿长裤的同学群里观察,发现
穿长裤的同学是女生的概率 = 穿长裤且是女生的概率 / 穿长裤同学的概率
即
$$P(A|B) = \frac{P(A∩B)}{P(B)}$$
或者写成
P(A∩B) = P(B|A) * P(A)
P(A∩B) = P(A|B) * P(B)
得到
P(B|A) * P(A) = P(A|B) * P(B)
或者写成
这就是在计算机机器学习领域有着广泛应用的贝叶斯定理。
直观理解:
解说1:女生同学里穿长裤的概率,与女生且穿长裤的概率成正比,与女生的概率成反比
解说2:女生前提下穿长裤的概率,与无前提穿长裤的概率成正比。
解说3:事件B发生的情况下事件A发生的概率P(A|B)与事件A发生的概率P(A)成正比。
数学陈述:
贝叶斯定理是关于随机事件A和B的条件概率的一则定理。
$$P(A|B) = P(A) \frac { P(B|A)}{P(B)}$$
其中P(A|B)是指在事件B发生的情况下事件A发生的概率。
我们把不设前提条件的概率P(A)称为先验概率,把预设前提的概率P(A|B)称为后验概率,也称为条件概率。
把 P(B|A)/P(B) 称为标准似然度, 代表了先验概率近似的情况下,P(A|B)可能性。
很明显地,后验概率与先验概率成正比。或者
后验概率 = 先验概率 * 标准似然度
总结与思考:
贝叶斯定律阐述的事件B发生的情况下事件A发生的概率,在机器学习领域有广泛的应用。
P(A|B)的例子有:
- 语言歧义分析:
分析这句话的含义:“The girl saw the boy with a telescope.”
应该理解成“女孩用望远镜看男孩“,还是“女孩看见男孩拿着一个望远镜”。
思考:女孩用望远镜看的概率大(A=用望远镜,B=女孩),还是被看到的男孩拿着一个望远镜(A=拿望远镜,B=男孩被看到)。
拼写纠正可以理解为A=正确单词,B=错误单词,比较几个和错误单词相近的词Ai中,那个P(Ai|B)大。
中文分词可以理解为A=分词方式,B=给定的句子。考虑这两种分词方式“南京市长/江大桥”, “南京市/长江大桥”。
机器翻译可以理解为A=翻译语句,B=原文语句。求P(A|B).
图像识别:A=某物体,B=给定的图像。
垃圾邮件过滤:A=是垃圾邮件,B=某给定邮件。
文本分类:A=某预定义的类别,B=给定的文本。