Dirichlet Multinomial 共轭

作为LDA的预备知识,Dirichlet Multinomial共轭结构很重要,在介绍这个共轭结构之前,先介绍一下将会用到的相关概念

Gamma 函数

Gamma函数定义:
1.png
分部积分后可得:
2.png
不断展开等式右边,进而有:
3.png
Bohr-Mullerup定理:
如果f:(0,∞)→(0,∞),且满足:f(1)=1;f(x+1)=xf(x);log(f(x))是凸函数,那么唯一满足以上条件的就是Γ(x)
Gamma函数图像(from Wikipedia):
4.png
复平面上的Gamma函数(from Wikipedia):
5.png
如下函数被称为Digamma函数:
6.png
这是个很重要的函数,在求Dirichlet分布相关的参数的极大似然估计时往往用到该函数
Digamma函数具有如下性质
7.png

Beta Binomial 共轭

在贝叶斯统计中,如果后验分布与先验分布属于同分布,则先验分布与后验分布被称为共轭分布,而先验分布被称为似然函数的共轭先验.
Beta分布是Binomial分布的共轭先验

Beta分布

9.png
可以通过推导n个独立产生于同一个均匀分布的数字中第k大数字的过程推导出Beta分布,具体可参考靳志辉老师的LDA数学八卦
Beta分布的期望:
13.png

14.png
Beta分布(from Wikipedia)
PDF:probability density function(概率密度函数)
8.png
因为Beta分布可以拟合多种曲线,所以被广泛使用

二项分布

n是总的试验次数,p是实验成功的概率,k是实验成功的次数
Probability mass function:
12.png

Beta Binomial 共轭

按照贝叶斯推理的过程引出Beta-Binomial共轭:

  1. p是要猜的参数,假设p的先验分布为Beta分布,即
    10.png
  2. 现有m个数字,知道这m个数字与p的大小关系,其中有m1个数字比p小,m2个数字比p大(m1+m2=m).可知这m个数字与p的大小关系是二项分布(Binomial Distribution)的一个观察值
  3. 那么根据m1和m2这个经验,我们便可以得到p的后验分布(证明过程可参考靳志辉老师的LDA数学八卦,并不复杂)
    11.png
    后验分布和先验分布都是Beta分布,只不过是参数变了,所以Beta分布式二项分布的共轭先验.
    实际上,第一步也可以假设p服从其它分布,只不过因为观察值服从二项分布,所以假设p为Beta分布后,p的后验概率也服从Beta分布,方面计算

Dirichlet Multinomial 共轭

Dirichlet分布

15.png
Beta分布就是Dirichlet分布的参数n=2时的情况
Dirichlet分布的期望:
16.png
或者
17.png
Dirichlet分布(from Wikipedia)
dirichlet-distribution:
dirichlet-distribution.png

LogDirichletDensity-alpha_0.3_to_alpha_2.0
在LDA中用的主要是α<1的对称Dirichlet分布
LogDirichletDensity-alpha_0.3_to_alpha_2.0.gif

Multinomial 分布

多项分布是二项分布的推广,举例来说,多项分布建模的是这一问题:有一个k个面的骰子,投掷一次结果是第i的面概率是pi,现独立地投掷n次,结果是第i个面的有xi次,多项分布就是给出了投掷n次后各种结果的概率公式
Probability mass function:
18.png
Binomial分布就是Multinomial分布的n=2时的情况

Dirichlet Multinomial 共轭

类似Beta Binomial共轭的贝叶斯推理:

  1. (p1,p2,…pn)是要猜的参数,假设(p1,p2,…pn)的先验分布为Dirichlet分布
  2. 现有n个数字(x1,x2,…,xn),知道这n个数字与(p1,p2,…pn)的大小关系,其中有c1个数字比p1小,c2个数字比p1大同时比p2小,cn个数字比p_(n-1)大同时比pn小.这n个数字与(p1,p2,…pn)的大小关系是多项分布的一个观察值
  3. 根据(c1,c2,…,cn)这个经验,可以得到(p1,p2,…pn)的后验分布
    19.png

参考:靳志辉,LDA数学八卦