精益求精
条件概率定义如下
\[p(m\vert A) = {p(m A)\over p(A)}\]m和A是两个随机事件,事件m发生的概率为$p(m)$; 事件A发生的概率为$p(A)$; m、A同时发生的概率为$p(m A)$. 条件概率 $p(m\vert A)$,顾名思义,就是当某个条件(事件A)已经发生的前提下,另外一个事件m发生的概率.
用一个图例来说明条件概率更直观。
如上图,s为起点,中途经过A或B,最终到达m或者n。一共有8种可能性。假设这7种可能性具有相同的概率。
分析结果:
$p(A)$ 表示从s到达A的概率: $p(A) = 4/(4+4) = 1/2$; 也就是说,总共8条线路,其中4条线路可以到达A点。
$p(m)$ 表示从s到达m的概率:$p(m)=(3+2)/(4+4)=5/8$; 总共8条线路,其中5条线路到达m点。
$p(m\vert A)$ 表示A已经发生的条件下,到达m的概率,也就是从A点到达m的概率:$p(m\vert A)=3/(3+1)=3/4$,也就是说,从A出发共有4条线路,其中3条到达m.
$p(mA)$ 表示从s点出发,经过A后到达m的概率,通过图上可以看出有3种可能性经过A到达m,因此 $p(mA)=3/8$. 从另一个角度去理解$p(mA)$, 将mA事件分成两个步骤,第一步骤是从s点到达A,第二步骤是从A点到达m点,从s点到达A点的概率为$p(A)$, 而从A到达m的概率为$p(m\vert A)$. 根据排列组合的乘法原理,
$p(mA)= p(A) P(m\vert A)= 1/2*3/4=3/8$,结果一致。
$p(m) =5/8 \neq p(m\vert A)=3/4$, 说明事件m和事件A不独立;
$p(m)*p(A)=5/8 * 1/2 = 5/16 \neq p(mA)=3/8$, 说明事件m和事件A不独立,两个事件不能用简单的乘法原理来表述。因为他们之间有相关性,也就是说,是否经过A,对到达m的概率是有影响的。
假如修改图形,让从B点出发和从A点出发一样,也是3条到达m,一条到达n,如下图. 可以得到: $p(m)=6/8=3/4$; 那么到达m的概率和是否经过A点其实没有关系,因为经过B点到达m的概率和经过A点到达m的概率一致;这时,事件m和事件A就是相互独立的: $p(m)p(A) = 3/41/2=3/8 = P(mA)$
条件概率$p(A\vert m)$定义为假设已经知道从s点到达m点,请问其中经过A的概率是多少?还是看第一幅图, 可以得到,从s点到达m点一共有5条线路,其中3条是经过A点的,因此 $p(A\vert m)=3/5$; $p(mA)/p(m)={3/8\over 5/8}=3/5$. 可以看出条件概率是符合定义的.
再来计算熵。令X={A,B}, Y={m,n}; 可以这样理解,s为起点,m、n为终点; A、B点为中途的驿站。
$H(X) = \sum{p_i log2(1/p_i)}=1/2log2(2) + 1/2log2(2)=1$, 即,驿站的熵为1bit
$H(Y) =p(m)log2(1/p(m))+p(n)log2(1/p(n))=5/8log2(8/5)+3/8log2(8/3)= 0.9544$, 即,终点的熵为0.9544bit
条件熵的定义,遍历条件,计算每个条件发生的情况下目标事件的熵。然后用条件本身的概率作为权重做平均。互信息定义$I(Y,X) =H(Y)-H(Y\vert X)=0.04879$
互信息$I(X,Y) = H(X) - H(X\vert Y) = 0.04879$, 可以看出,$I(X,Y) = I(Y,X)$,和理论一致。