芯有所想

精益求精

简单实例:条件概率,事件独立,熵,互信息

条件概率定义如下

\[p(m\vert A) = {p(m A)\over p(A)}\]

m和A是两个随机事件,事件m发生的概率为$p(m)$; 事件A发生的概率为$p(A)$; m、A同时发生的概率为$p(m A)$. 条件概率 $p(m\vert A)$,顾名思义,就是当某个条件(事件A)已经发生的前提下,另外一个事件m发生的概率.

用一个图例来说明条件概率更直观。

blog

如上图,s为起点,中途经过A或B,最终到达m或者n。一共有8种可能性。假设这7种可能性具有相同的概率。

  1. 其中4种可能性要经过A点。 经过A点的4种可能性中,有3个会到达m点,有1个会到达n点。
  2. 其中4种可能性要经过B点。经过B点的4种可能性中,有2个会到达m点,有2个会到达n点。
  3. 总体看,从s到达m点共有5种可能性,其中3个要经过A点,2个经过B点。同理,从s到达n点共有3种可能性,其中1个经过A点,2个经过B点。

分析结果:

  • $p(A)$ 表示从s到达A的概率: $p(A) = 4/(4+4) = 1/2$; 也就是说,总共8条线路,其中4条线路可以到达A点。

  • $p(m)$ 表示从s到达m的概率:$p(m)=(3+2)/(4+4)=5/8$; 总共8条线路,其中5条线路到达m点。

  • $p(m\vert A)$ 表示A已经发生的条件下,到达m的概率,也就是从A点到达m的概率:$p(m\vert A)=3/(3+1)=3/4$,也就是说,从A出发共有4条线路,其中3条到达m.

  • $p(mA)$ 表示从s点出发,经过A后到达m的概率,通过图上可以看出有3种可能性经过A到达m,因此 $p(mA)=3/8$. 从另一个角度去理解$p(mA)$, 将mA事件分成两个步骤,第一步骤是从s点到达A,第二步骤是从A点到达m点,从s点到达A点的概率为$p(A)$, 而从A到达m的概率为$p(m\vert A)$. 根据排列组合的乘法原理,

    $p(mA)= p(A) P(m\vert A)= 1/2*3/4=3/8$,结果一致。

  • $p(m) =5/8 \neq p(m\vert A)=3/4$, 说明事件m和事件A不独立;

  • $p(m)*p(A)=5/8 * 1/2 = 5/16 \neq p(mA)=3/8$, 说明事件m和事件A不独立,两个事件不能用简单的乘法原理来表述。因为他们之间有相关性,也就是说,是否经过A,对到达m的概率是有影响的。

  • 假如修改图形,让从B点出发和从A点出发一样,也是3条到达m,一条到达n,如下图. 可以得到: $p(m)=6/8=3/4$; 那么到达m的概率和是否经过A点其实没有关系,因为经过B点到达m的概率和经过A点到达m的概率一致;这时,事件m和事件A就是相互独立的: $p(m)p(A) = 3/41/2=3/8 = P(mA)$

    AB_eq

  • 条件概率$p(A\vert m)$定义为假设已经知道从s点到达m点,请问其中经过A的概率是多少?还是看第一幅图, 可以得到,从s点到达m点一共有5条线路,其中3条是经过A点的,因此 $p(A\vert m)=3/5$; $p(mA)/p(m)={3/8\over 5/8}=3/5$. 可以看出条件概率是符合定义的.

再来计算熵。令X={A,B}, Y={m,n}; 可以这样理解,s为起点,m、n为终点; A、B点为中途的驿站。

  • $H(X) = \sum{p_i log2(1/p_i)}=1/2log2(2) + 1/2log2(2)=1$, 即,驿站的熵为1bit

  • $H(Y) =p(m)log2(1/p(m))+p(n)log2(1/p(n))=5/8log2(8/5)+3/8log2(8/3)= 0.9544$, 即,终点的熵为0.9544bit

  • \[H(Y\vert X)=p(A) (p(m\vert A)log2(1/p(m\vert A)) + p(n\vert A)log2(1/p(n\vert A)) ) \\ + p(B) (p(m\vert A)log2(1/p(m\vert B)) + p(n\vert B)log2(1/p(n\vert B)) ) \\ =1/2(3/4log2(4/3)+1/4log2(4)) + 1/2(1/2log2(2)+1/2log2(2))=0.9056\]

    条件熵的定义,遍历条件,计算每个条件发生的情况下目标事件的熵。然后用条件本身的概率作为权重做平均。互信息定义$I(Y,X) =H(Y)-H(Y\vert X)=0.04879$

  • \[H(X\vert Y) =p(m)(p(A\vert m)log2(1/p(A\vert m))+p(B\vert m)log2(1/p(B\vert m))) \\ + p(n)(p(A\vert n)log2(1/p(A\vert n))+p(B\vert n)log2(1/p(B\vert n))) \\ = 5/8(3/5log2(5/3)+2/5log2(5/2)) + 3/8(1/3log2(3)+2/3log2(3/2))= 0.9512\]

    互信息$I(X,Y) = H(X) - H(X\vert Y) = 0.04879$, 可以看出,$I(X,Y) = I(Y,X)$,和理论一致。

  • 互信息$H(Y\vert X)$是指, 知道了X之后, 对了解Y提供了多少信息. 通过图,可以看出, 知道了中途驿站A或者B, 对于了解到达哪个终点m或n是否有帮助. 我们可以分析, 如果途经A, 那么终点站是m的可能性更大. 如果途径B, 则终点站m/n的概率还是一样的. 整体来收, 知道了中途站点, 对判断终点站还是有一定帮助的.所以$H(X\vert Y) > 0$. 但是帮助不太大, 所以值显得很小.