狄利克雷-多项式模型(Dirichlet-Multionmial Model)

作者: 引线小白-本文永久链接:httpss://www.limoncc.com/post/5afe722cdba3caacf42894f5bfd847d4/
知识共享许可协议: 本博客采用署名-非商业-禁止演绎4.0国际许可证

简介: 本文总结了狄利克雷-多项式模型的部分和我自己的一些体会,我们将再一次熟悉贝叶斯方法的基本概念、流程、特点。把我们思维进化到更高的维度。
摘要:本文意在狄利克雷-多项式模型的问题。若有错误,请大家指正。
关键词: 狄利克雷-多项式模型,分类分布,狄利克雷分布

一、狄利克雷-多项式模型(dirichlet-multionmial model)

分类分布(Categorical distribution) 或者又叫1-C分布(multinoulli distribution)

(1)xCat(xμ)
其中 x{0,1}c,j=1cxj=ITx=1μj[0,1]j=1cμj=ITμ=1

在这里有必要解释一下符号问题。首先分类分布是对0-1分布的推广,这句话可能不好理解。我们可以这样思考,0-1分布是抛硬币。而分类分布类似于掷骰子。为了让符号统一我们使用小写 c表示有C个分类,例如 c=6可以类比于掷骰子。这样很多问题就好理解了。
变量 x=[x1 xjxc] 实例或者一个观测 xi=[xi1 xijxic] 例子: xs=[0 10]

1、分类分布(multinoulli distribution)概率质量函数:

(2)PMFCat(xμ)=i=1cμixi

其中: x=[x1,x2,,xc]T,μ=[μ1,μ2,,μc]T,x{0,1}c,j=1cxj=ITx=1,i=1cμi=ITμ=1这个表示方法也称为 1ofc编码方法。这个方法方便计算。

其他表示方法:
Cat(xμ)=j=1cμjI(x=j),x{1,,c},
这个示性函数表示方法,有重要应用,降低表示维度,节约了有限的数学符号。

2、均值与方差

我们知道向量函数微分结果: f(x)=eAxfxT=diag[eAx]A。且有: f(x)=μTeAx,易得:
(3)fx=diag[eAx]Aμ(4)2fx2=ATdiag[eAx]diag[μ]A

我们又知道特征函数: φx(t)=E[eitTx]=ITx=1pjeitxj=j=1cμieitxj=μTeiXt
于是可分析得到分类分布 xCat(xμ)的期望与方差(协方差矩阵):

E[x]=(i)1φ(t)t|t=0=diag[eiXt]Xμ=μ

cov[x]=(i)22φ(t)t2|t=0E[x]ET[x]
=XTdiag[eiXt]diag[μ]X|t=0μμT=diag[μ]μμT

其中: X=Ic×cc×c维的单位矩阵。也就说遍历了 x所有可能取值组成的矩阵。为了表示简洁,我们在其中选用了c×c维的单位矩阵。

3、似然函数(likelihood)

有数据集: D={xi}i=1n于是有似然函数
(5)L(μ)=p(Dμ)=i=1nj=1cμjxj=j=1cμji=1nxij=j=1cμjkj

其中: kj=i=1Nxij表示第 j个分类在 n次观测中发生了 kj次。同时我们知道 j=1cμj=ITμ=1,j=1ckj=ITk=n

4、对数似然函数

(6)(μ,λ)lnj=1cμjkj+λ(j=1cμj1)(7)=kTlnμ+λ[ITμ1]

5、求极大似然估计

{μ=kμ+λI=0λ=ITμ1=0
分析可得 μMLE=kλ 代入 ITμ1=0得: ITkλ=1由于 ITk=n可得:
(8)λ=n

(9)μMLE=kn

其中 μjMLE=kjn,kj=i=1nxij

6、多项式分布

我们定义 kj=i=1Nxij是分类 jn次观测中发生的次数。同时令 k=[k1,,kj,,kc]T 则有:
(10)Mu(kμ,n)=n!k1!k2!kc!j=1cμjkj

其中 j=1ckj=n,j=1cμj=1

我们有特征函数:
φk(t)=E[eitTk]=ITk=npieitkj=ITk=nn!k1!k2!kc!j=1c(μjeit)kj=(μTeit)n
于是可得多项式分布的均值与协方差矩阵

E[k]=(i)1φ(t)t|t=0=(i)2n(μTeit)n1diag[eit]μ=nμ

cov[k]=(i)22φ(t)t2|t=0E[k]ET[k]
=n(μTeit)n1diag[eit]diag[μ]|t=0+n(n1)(μTeit)n2diag[eit]μ[diag[eit]μ]T|t=0n2μμT
=ndiag[μ]+n(n1)μμTn2μμT=n[diag[μ]μμT]

7、共轭先验分布

μ作为变量。观察似然函数,我们知道
(11)p(μ)p(Dμ)=j=1cμjkj

我们知道狄利克雷分布 μDir(μa)=Γ(a0)Γ(a1)Γ(a2)Γ(ac)j=1cμjaj1。而这正是我们需要的共轭先验,即后验与先验有相同的函数形式:
(12)Dir(μa)=1B(a)j=1cμjaj1

其中: μj[0,1]j=1cμj=ITμ=1,a0=ITa=a1++ac,aj>0

利用 Γ,B函数性质容易知道:
E(μ)=aITa=aa0

cov(μ)=a0diag[a]aaTa02(a0+1)

mode[μ]=argmaxμDir(μa)=a1a0c

为了方便使用,我们把它写成离散形式:
E(μj)=aja0

var(μj)=(a0aj)aja02(a0+1)

cov(μi,μj)=aiaja02(a0+1)

mode[μj]=argmaxμjDir(μa)=ai1a0c

8、后验分布

我们用似然函数乘以狄利克雷先验得到后验分布:
(13)p(μD)Mu(kμ,n)Dir(μa) 归一化得:
(14)p(μD)=Dir(μk+a)

1、在线学习

我们发现狄利克雷分布也具有再生性质,和在线性学习性质,我们假设,陆续观测到两个的数据集 D1D2
1、当我们观察到 D1时,有
p(μD1)=Dir(μk1+a)
2、当我们观察到 D2时,有
p(μD1,D2)p(D2μ)p(μD1)
易得:

(15)p(μD1,D2)=Dir(μk2+k1+a)

2、后验分析

最大后验估计
(16)μMAP=mode[μ]=argmaxμDir(μk+a)=k+a1n+a0c

极大似然估计:
(17)μMLE=kn

后验均值:
(18)E(μD)=k+an+a0

后验均值是先验均值和最大似然估计的凸组合。知道 μ=aa0
(19)E(μD)=k+an+a0=a0n+a0μ0+nn+a0μMLE
我们发现 a0可以理解为先验对于后验的等价样本大小。 a0n+a0是先验对于后验的等价样本大小比率。

同理可知最大后验估计是先验众数和最大似然估计的凸组合,而且更加倾向于最大似然估计,知道 mode[μ0]=a1a0c
(20)μMAP=k+a1n+a0c=a0cn+a0cmode[μ0]+nn+a0cμMLE

3、 拉格朗日乘数法

首先为了让符号有意义我们定义向量点除运算 1a=1./a=[1/a1,,1/an]T下面我们用拉格朗日乘数法在推理一遍,我们知道 ITμ=1,于是有:
(21)(μ,λ)=lnjcμjkj+aj1+λ(ITμ1)=[k+a1]Tlnμ+λ(ITμ1)
求解得:
{μ=k+a1μ+λI=0λ=ITμ1=0

知道: μMAP=k+a1λ 代入 ITμ=1得: λ=n+a0c
μMAP=k+a1n+a0c

写成离散形式有
(22)μjMAP=kj+aj1n+a0c

4、后验协方差矩阵

(23)cov(μ)=(n+a0)diag[k+a][k+a][k+a]T(n+a0)2(n+a0+1)
当 N足够大时:

cov(μ)(n)diag[k]kkTnnn=[μiMLE(1μiMLE)I(i=j)μjMLEI(ij)n]c×c

它随着我们数据的增加以 1n的速度下降

5、后验预测分布

开始分析之前,我们回忆一下B函数:
B(a)=x[0,1]cxiai1dx,ai>0andi1nxi=1且有: B(a)=i=1nΓ(a1)Γ(an)Γ(a0)。同时为了简化符号,我们令后验分布 p(μD)=Dir(μa)
现在我们令下一次观测 xn+1=x~。我们现在想知道 x~各种情况下概率,以辅助决策。考虑到 x~{0,1}c,μ[0,1]c=U。我们有:
(24)p(x~D)=Up(x~μ)p(μD)dμ(25)=UCat(xμ)Dir(μa)dμ(26)=Uj=1cμjx~jΓ(a0)j=1cΓ(aj)j=1cμjaj1dμ=Γ(a0)j=1cΓ(aj)Uj=1cμjaj+x~j1dμ(27)=Γ(a0)j=1cΓ(aj)j=1cΓ(aj+x~j)Γ(IT[a+x])=Γ(a0)j=1cΓ(aj)j=1cΓ(aj+x~j)Γ(a0+1)(28)=Γ(a0)j=1cΓ(aj)j=1cajx~jj=1cΓ(aj)a0x~jΓ(a0)=j=1caja0x~j=j=1cEx~j(μD)(29)=Cat(x~E[μD])

所以可以看到,后验预测分布等价于 pluginE[μD]。我们也可以分析出类似贝塔-伯努利模型的结论。

6、多试验后验预测

考虑这个问题,我们又观察到了 m个数据,那么分类 j发生 sj次的概率。写成向量形式 s。于是有:
(30)p(sD,m)=UMu(sμ,m)Dir(μa)dμ(31)=Um!s1!sc!j=1cμjsj1B(a)j=1cμjaj1dμ(32)=m!s1!sc!B(s+a)B(a)

我们称 Dm(sD,m)=m!s1!sc!B(s+a)B(a)为狄利克雷-多项式分布(Dirichlet-multionmial distribution)。后验预测分布的均值与协方差矩阵问题

后验预测分布均值:
(33)E[sjD,m]=ITs=1sjUMu(sμ,m)Dir(μa)dμ(34)=UITs=1sjMu(sμ,m)Dir(μa)dμ(35)=UE(sj)Dir(μa)dμ=UmμjDir(μa)dμ(36)=mΓ(aj+1)Γ(a0)Γ(aj)Γ(a0+1)=maja0

E[sD,m]=maa0

后验预测分布方差:
(37)var[sjD,m]=ITs=1sj2UMu(sμ,m)Dir(μa)dμE2[sj](38)=UITs=1sj2Mu(sμ,m)Dir(μa)dμE2[sj](39)=UE(sj2)Dir(μa)dμE2[sj](40)=U[mμj+m(m1)μj2]Dir(μa)dμE2[sj](41)=maja0+m(m1)Γ(aj+2)Γ(a0)Γ(aj)Γ(a0+2)m2aj2a02(42)=maja0+m(m1)(aj+1)aja0(a0+2)m2aj2a02(43)=maj(a0aj)a02a0+ma0+1

后验预测分布协方差:
(44)cov[si,sjD,m]=ITs=1sisjUMu(sμ,m)Dir(μa)dμE[si]E[sj](45)=UITs=1sisjMu(sμ,m)Dir(μa)dμE[si]E[sj](46)=Ucov(si,sj)Dir(μa)dμE[si]E[sj](47)=U[mμiμj]Dir(μa)dμm2aiaja02(48)=mΓ(ai+1)Γ(aj+1)Γ(a0)Γ(ai)Γ(aj)Γ(a0+2)m2aiaja02(49)=maiaj(a0+1)a0m2aiaja02(50)=maiaja02a0+ma0+1

后验预测分布协方差矩阵:
cov[sD,m]=m(m+a0)a0diag[a]aaTa02(a0+1)

对于 pluginμMAP插值 Mu(sμMAP,m),我们知道 μMAP=a1a0c其协方差矩阵为:
cov[sμMAP,m]=m[diag[μMAP]μMAPμMAPT]

var[sjμMAP,m]=m(aj1)(a0aj+1c)(a0c)2

cov[si,sjμMAP,m]=m(ai1)(aj1)(a01)2
比较大小容易证明:
(51)cov[sD,m]cov[sμMAP,m]
所以

贝叶斯预测的概率密度更宽、拥有长尾,从而避免了过拟合和黑天鹅悖论。

7、数据集后验预测与边缘似然函数

有数据集 Dt,Dt+1,这有
(52)p(Dta)=Up(Dtμ)p(μa)dμ(53)=Uj=1cμjkjt1B(a)j=1cμjaj1dμ(54)=B(kt+a)B(a)

(55)p(Dt+1Dta)=Up(Dt+1μ)p(μDt,a)dμ(56)=Uj=1cμjkjt+11B(kt+a)j=1cμjkj+aj1dμ(57)=B(kt+1+kt+a)B(kt+a)

所以有:
(58)p(Dt+1Dt,a)=p(Dt+1Dta)p(Dta)=B(kt+1+kt+a)B(a)

9、评述

通过狄利克雷-多项式模型,我们从离散二维拓展到了离散多维。

1、上帝给 x选择了一个分布:xCat(xμ)=j=1cμjI(x=j),x{1,..,c},μ[0,1]c 这个分布由 μ确定。

2、犹豫种种原因,人类也知晓了 x的分布类型,但是不知道 μ。于是人类搞了个假设空间 H={μi},为了找到上帝的那个 μ^,于是人类的征程开始了。

3、人类的智者,选择了用概率来解决这个难题。并且动用了自己的经验和感觉,人类假设 μDir(μa)=1B(a)j=1cμjaj1。另外我们还可以结合,不断知晓的信息流 Dt,Dt+1D,来给假设空间的每个 μ更新概率。于是这个表达式横空出世 p(μDt+1,Dt)p(Dt+1μ)p(μDt)。于是我们得到了:

p(μDt)=Dir(μkt+a)这样我们就把假设空间的 μ都给了个概率。这样我们就有关于 μ决策的信息。

4、上帝微微一笑, 人类继续开始征程:令 x~为一随机变量,代表 n次观测后的值,于是得到:
p(x~D)=Up(x~μ)p(μD)dμ=Cat(x~E[μD])于是基于对假设空间再次赋概,我们对上帝有了新的认识

5、上帝开始感觉人类是个聪明的物种,甚为满意! 我们又观察到了 m个数据,那么发生 x~的次数是s次的概率
(59)p(sD,m)=UMu(sμ,m)Dir(μa)dμ(60)=n!s1!sc!B(s+a)B(a)这样我们对 s的可能值也赋概了。这个式子称之为狄利克雷-多项式分布。我们对上帝又有了新的认识

6、至此,由于 p(μDt,Dt+1)=Dir(μkt+1+kt+a)。当 limtDt人类基本可以看到上帝裸体了。因为
cov(μ)(n)diag[k]kkTnnn=[μiMLE(1μiMLE)I(i=j)μjMLEI(ij)n]c×c

它随着我们数据的增加以 1n的速度下降,我们发现人类的认识 μ^会越来越逼近上帝的那个 μ概率。也就是说
(61)p(μ^μ)1


版权声明
引线小白创作并维护的柠檬CC博客采用署名-非商业-禁止演绎4.0国际许可证。
本文首发于柠檬CC [ https://www.limoncc.com ] , 版权所有、侵权必究。
本文永久链接httpss://www.limoncc.com/post/5afe722cdba3caacf42894f5bfd847d4/
如果您需要引用本文,请参考:
引线小白. (Mar. 8, 2017). 《狄利克雷-多项式模型(Dirichlet-Multionmial Model)》[Blog post]. Retrieved from https://www.limoncc.com/post/5afe722cdba3caacf42894f5bfd847d4
@online{limoncc-5afe722cdba3caacf42894f5bfd847d4,
title={狄利克雷-多项式模型(Dirichlet-Multionmial Model)},
author={引线小白},
year={2017},
month={Mar},
date={8},
url={\url{https://www.limoncc.com/post/5afe722cdba3caacf42894f5bfd847d4}},
}

来发评论吧~
Powered By Valine
v1.5.2
'