弱大数定律——百年大数定律系列01

作者: 引线小白-本文永久链接:httpss://www.limoncc.com/post/d780e582351be7e8/
知识共享许可协议: 本博客采用署名-非商业-禁止演绎4.0国际许可证

或然之事是很可能发生之事。
—— 亚里士多德,《修辞学》

一、简要回顾

在瑞士巴塞尔出生于1654年12月7日的雅各布• 伯努利,他在1705年8 月16 日年去世,在这前两年的时间里写作了《猜度术》。提出了第一个大数定律:伯努利大数定律。距今已有300多年[^1]

概率论的真正历史开始于极限定理的研究。我们发现在大量的重复实验中,一个随机事件有明显的规律性,即它出现的频率在某个固定数的附近摆动。同时我们也观测到,大量随机现象的平均结果也一般具有稳定性:在大量随机现象共同作用时,由于这些随机偏差相互抵消、补偿和拉平,致使总的平均结果趋于稳定。

同时也发现,独立随机变量之和的极限分布是正态分布。这被称为中心极限定理。下面我们用数学语言来表达和探索上述思想。

x1,x2,,xn,是随机变量序列,令

(1)ξn=x1+x2++xnn

如果存在一个常数序列 a1,a2,,an,,对任意的 ε>0恒有

(2)limnp(|ξnan|<ε)=1

则称序列 ξn服从大数定律。

如果存在 E[xi]var[xi],令

(3)ζn=i=1nxii=1nE[xi]i=1nvar[xi]

我们的目的是寻找使得

(4)limnp(ζn<x)=12πxe12t2dt

成立的条件。一般的若随机序列 xi的标准化和 ζn使得上述成立,则我们称 {xi}服从中心极限定理。

二、随机变量序列收敛性

2.1、依概率1收敛

称随机变量序列 x1(ω),x2(ω), 依概率1收敛于某随机变量 x(ω),如果

(5)p({ωlimnxn(ω)=x(ω)})=1

又记为 xna.e.x。就是说随机变量序列 {xi(ω)} 几乎处处收敛于随机变量 x(ω)

另外一个表示为

(6)p(m=1N=1n=N{ω|xn(ω)x(ω)|<1m})=1

2.2、依概率收敛

称随机变量序列 x1(ω),x2(ω), 依概率收敛于某随机变量 x(ω),如果对于任意的 ε>0,有

(7)limnp({ω|xn(ω)x(ω)|ε})=0

又记为 xnPx。就是说随机变量序列 {xi(ω)} 依概率收敛于随机变量 x(ω)

2.3、依分布收敛

称随机变量序列 x1(ω),x2(ω), 依分布收敛于某随机变量 x(ω),如果相应的分布函数序列 F1(x),F2(x),弱收敛于 x(ω)的分布函数 F(x)

(8)x{xlimtxF(t)=F(x)}limnFn(x)=F(x)

又记为 xnWx。就是说随机变量序列 {xi(ω)} 依分布收敛于随机变量 x(ω)

2.4、依矩收敛

假设对于 r>0E[|x|r]<E[|xn|r]<。称随机变量序列 x1(ω),x2(ω), r阶矩收敛于某随机变量 x(ω),如果有

(9)limnE[|xnx|r]=0

又记为 xnrx。就是说随机变量序列 {xi(ω)} r阶矩收敛于随机变量 x(ω)

三、概率不等式

3.1、随机变量不等式引理

【概率不等式引理】
g(x)(0,+)上是一个非负单调不减函数。且有一随机变量ξ使得 E[g(ξ)]<。则对于任意的 ε>0,有:

(10)p(|ξ|ε)E[g(ξ)]g(ε)

证明:
有对任意的 ε>0,当 ξε时,有 g(ξ)g(ε)。我们根据数学期望的性质有

(11)p(|ξ|ε)=E[I{ωξ(ω)ε}]E[g(ξ)g(ε)I{ωξ(ω)ε}]E[g(ξ)g(ε)]=E[g(ξ)]g(ε)

其中 I{ωξ(ω)ε}是集合 {ωξ(ω)ε}的示性函数。同时我们利用任意事件的概率等于它的示性函数的数学期望 p(A)=E[IA]=ΩIAdF(x),和定积分不等式性质。当然我们也可以反向思考,用积分第二中值定理得到:

(12)E[g(ξ)]=Ωg(ξ)dF(ξ)(13)Ωg(ε)dF(ξ)Ωg(ε)dF(ξ)|ξ|εg(ξ)dF(ξ)(14)=g(ε)[1p(ε<ξ<δ)],δ[ε,+ε](15)g(ε)p(|ξ|ε)

通过非负随机变量 x构造简单随机变量序列 xn,来实现勒贝格积分。

(16)xn(ω)={k2n,ω{k2nx(ω)<k+12n}n,ω{x(ω)n}

3.2、马尔可夫不等式

g(x)=xr

(17)p(|ξ|ε)E[|ξ|r]εr

3.2.1、切比雪夫不等式

将马尔可夫不等式的随机变量变为 ξE[ξ],令 r=2

(18)p(|ξE[ξ]|ε)var[ξ]ε2

3.2.2、其他矩不等式

【施瓦茨不等式】对于任意随机变量 ξη有有穷二阶矩,那么

(19)E2[ξη]E[ξ2]E[η2]其中等式成立,当且仅当存在一常数 λ,使得 p(ξ=λη)=1

证明:

首先证明 E[ξη]有穷
(20)ξ2+η22|ξ||η|=(|ξ||η|)20(21)|ξη|12(ξ2+η2)(22)E[|ξη|]12(E[ξ2]+E[η2])<

其次有

(23)0E[(ξ+tη)2]=E[ξ2]+2tE[ξη]+t2E[η2]

由此可见此式关于 t的二次三项式不可能有两个不同实根,因而由其判别式知道

(24)Δ=4E2[ξη]4E[ξ2]E[η2]0E2[ξη]E[ξ2]E[η2]

再次,若 Δ=0,则存在 t,使得 E[(ξ+tη)2]=0,由于

(25)0var[ξ+tη]E[(ξ+tη)2]=0(26)var[ξ+tη]=0(27)p(ξ+tη=0)=1 or p(ξ=λt)=1
该不等式告诉我们,若随机变量的方差存在,则它们的协方差也存在。

【赫德不等式】

假设 E[|ξ|α]<E[|η|β]<,其中 α>1,β>1,1α+1β=1,那么

(28)E[|ξη|]E1α[|ξ|α]E1β[|η|β]
特别的,当 α=β=2时,得施瓦茨不等式。

【证明】
考虑曲线 y=xα1,任取 a>0,b>0,有点 D(a,aα1)A(a,0)B(0,b)C(b1α1,b)。画图有

(29)abSAOD+SBOC同时我们有
(30)SAOD=0axα1dx=1αaαSBOC=0byβ1dy=1βbβ于是有
(31)ab1αaα+1βbβ现在令

(32)a=|ξ|E1α[|ξ|α]b=|η|E1β[|η|β]代入在不等式两边去期望有
(33)E[ab]1α+1β整理即是结论。

【闵可夫斯基不等式】
假设 r1E[|ξ|r]<E[|η|r]<,那么

(34)E1r[(ξ+η)r]E1r[|ξ|r]+E1r[|η|r]

【证明】
r=1时,有 |ξ+η||ξ|+|η|得结论

r>1时,若 E[|ξ+η|r]=0,则结论显然成立

r>1时,且 E[|ξ+η|r]0,同时我们考虑赫德不等式 1r+1s=1s(r1)=r1

(35)|ξ+η|r|ξ||ξ+η|r1+|η||ξ+η|r1(36)E[|ξ+η|r]E[|ξ||ξ+η|r1]+E[|η||ξ+η|r1](37)E[|ξ+η|r][E1r[|ξ|r]+E1r[|η|r]]E1s[|ξ+η|s(r1)](38)E1r[(ξ+η)r]E1r[|ξ|r]+E1r[|η|r]

0<r<1时有

(39)|ξ+η|r|ξ|r+|η|r(40)E[|ξ+η|r]E[|ξ|r]+E[|η|r]

由此可见如果随机变量有又穷 r阶绝对矩,那么他们的和也有又穷 r阶绝对矩:

(41)E[|ξ|r]<,E[|η|r]<E[|ξ+η|r]<

【詹森不等式】
假设 ξ是一随机变量,取值区间 (a,b), a<b+g(x),x(a,b) 是连续的凹函数,如果 E[ξ]E[g(ξ)]存在,则

(42)E[g(ξ)]g(E[ξ])

证明
如果函数 g(x)(a,b)上是凹的,那么对于任意的 x1,x2(a,b)

(43)12[g(x1)+g(x2)]g(x1+x22)那么根据这性质,对个 g(x)上一点 (x0,g(x0)),有切点斜率 k(x0)我们有

(44)g(x)k(x0)(xx0)+g(x0)现在取 x0=E[ξ],令 x=ξ

(45)g(ξ)k(E[ξ])(ξE[ξ])+g(E[ξ])再两边取期望有结论

【李雅普诺夫不等式】
对于任意实数 0<r<s, 如果 E[|ξ|s]<,则

(46)E1r[|ξ|r]E1s[|ξ|s]

证明

考虑詹森不等式,令 g(x)=|x|t,当 t1时是凹函数,设 t=sr>1
(47)Esr[|ξ|r]=g(E[|ξ|r])E[g(ξ)]=E[|ξ|s](48)E1r[|ξ|r]E1s[|ξ|s]

四、弱大数定律

定义:如果随机变量序列 {xi} 服从弱大数定律,那么对于任意的 ε>0,有

(49)limnp(1n|i=1n(xiE[xi])|ε)=0
成立。下面叙述一下常用的弱大数定律

4.1、马尔可夫大数定律

若有随机变量序列 {xi}i=1n,对于 n1满足下列条件:
1、 E[|ξn|]<
2、 var[i=1nxi]<
3、 limn1n2var[i=1nxi]=0
那么随机变量序列 {xi}服从大数定律:
(50)limnp(1n|i=1n(xiE[xi])|ε)=0

证明

对任意的 ε>0, 由马尔可夫不等式知道

(51)p(|i=1n(xiE[xi])|nε)var[i=1nxi]n2ε2

再由条件三即可得出结论。

4.1.1、切比雪夫大数定律

若有随机变量序列 {xi}i=1n 两两独立,对于任意的 n1, 有 var[xn]C,那么随机变量序列 {xi}服从大数定律:

(52)limnp(1n|i=1n(xiE[xi])|ε)=0

证明
随机变量序列 {xi}i=1n 两两独立,且对于任意的 n1,有 var[xn]C。所有

(53)limn1n2var[i=1nxi]=limn1n2i=1nvar[xi]limnCn=0

再由马尔可夫大数定律即可得出结论。

4.1.2、伯努利大数数定律

knn重伯努利实验中某事件 A出现的次数,已知 A出的概率为 μ,那么

(54)limnp(|knnμ|ε)=0

证明:
xiBer(xiμ)=μxi(1μ)1xi,xi{0,1},于是有
1、kn=i=1nxi
2、而其中随机变量序列 {xi}是独立同分布的。 且有 E[xi]=μ,var[xi]=μ(1μ)14

由切比雪夫大数定律即可得出结论。

4.1.3、泊松大数数定律

对于伯努利实验,有随机变量序列 {xi}i=1n,且有有xiBer(xiμi)=μixi(1μi)1xi,xi{0,1}。某事件 A出现的次数 kn=i=1nxi,则

(55)limnp(|knn1ni=1nμi|ε)=0

证明

(56)ξi={1在第i 次试验中A 出现0在第i 次试验中A 不出现
由定律条件知道随机序列 {ξi}相互独立,且有 p(ξi=1)=μi,p(ξi=0)=1μi

又有 E[ξi]=μi,var[ξi]=μi(1μi)14

于是由切比雪夫大数定律知道结论成立。

评述 泊松大数定律是伯努利大数定律的推广,伯努利大数定律证明了事件在完全相同的条件下,在重复进行随机试验中频率的稳定性,而泊松定理表明,当独立进行的随机试验的条件变化时,频率仍然具有稳定性:随着 n的无限增大,在 n次独立试验中,事件 A的频率趋于稳定在各次试验中事件 A出现概率的算术平均值。

上面几种大数定律一般不要求随机序列 {ξi}有相同分布,但是却要求方差满足一定条件,而下面的定律表明对于独立同分布随机变量,只要数学期望又穷就够了。

4.2、辛钦大数数定律

对于独立同分布的随机变量序列 {xi}i=1n,如果数学期望 E[xi]=μ<,则

(57)limnp(|1ni=1nxiμ|ε)=o

证明

由于随机序列 {xi}i=1n同分布,故它们有相同的特征函数 φ(t)。同时为简洁记 ξn=1ni=1nxi。同时知道随机序列 {xi}i=1n相互独立,根据特征函数性质易得

(58)φξn(t)=φn(t)=E[eitξn]=[φ(tn)]n=[φ(0)+φ˙(0)tn+o(tn)]n(59)=[1+iμtn+o(tn)]2

对于任意的 t(,+),有

(60)limnφn(t)=limn[1+iμtn+o(tn)]2=eiμt

这样 ξn的特征函数 φn(t)服从退化分布的特征函数,所以有

(61)limnp(ξnx)=F(x)={0,x<μ1,xμ
于是对于任意的 ε>0

(62)limn(|ξnμ|<ε)=limnp(με<ξn<με)(63)=limn[p(ξn<μ+ε)p(ξnμε)](64)=F(μ+ε)F(με)(65)=10=1

显然伯努利大数定律是辛钦大数定律的特殊情形。

五、大数定律的应用

统计试验计算,要求积分 abg(x)dx,令 ξiU(a,b),有随机变量序列 {ξi}i=1n。由大数定律有
(66)p(limn|1ni=1ng(ξi)1baabg(x)dx|=0)=1也就是说有:

(67)abg(x)dxbani=1ng(ξi)

六、评述

6.1、一个哲学的说法

大数定律实质是哲学上可知论的证明。即人类能够正确认识世界。怎么样才能正确的认识世界,毛同志在认识论实践论中说到:

1、占有十分丰富和合乎实际的感性材料
2、运用科学思维方法对感性材料进行去粗取精、去伪存真、由此及彼、由表及里分析与综合的加工制作。

大数定律符合这两条规律,但是它是一种归纳综合方法,缺乏演绎逻辑。补上这一缺陷的是后来的因果推断理论的兴起。
按照贝叶斯的观点,人类是可以从客观世界观察的数据 D 中学习到真理 θ的:p(θD)p(Dθ)p(θ)

当我们观察到的数据足够多时,足够真实的时候,limDrealityp(θ=θD)=1 ,人类的估计应该足够接近真理。概率论这一理论应该要能证明这一点:人类能够认识世界,或者说这个世界能够被正确认识。或者更进一步说,神经元组成的大脑,或者有类似人工神经网络的智能体。在大数定律的保证下他们能够正确认识世界。而这也是我们回顾百年大数定律的现实意义之一。

6.2、矩方法

证明弱大数定理中,矩不等式占据重要地位。首先矩是观测随机变量重要的工具。为什么矩对随机变量如此重要,我们回归一下矩对定义

(68)M[n]=xndF(x)=xnp(x)dx

简而言之矩反应了概率密度函数的形状。容易证明k阶矩是特征函数k阶导数(t=0)。
由于特征函数与概率分布等价。当我们知道特征函数所有阶导数时候的,按泰勒展开也就是可以无限逼近了。所以我们一定可以通过矩知道分布的一些性质。

待续

^[1] Seneta, E. (2013). A Tricentenary history of the Law of Large Numbers. Bernoulli, 19(4). https://doi.org/10.3150/12-BEJSP12


版权声明
引线小白创作并维护的柠檬CC博客采用署名-非商业-禁止演绎4.0国际许可证。
本文首发于柠檬CC [ https://www.limoncc.com ] , 版权所有、侵权必究。
本文永久链接httpss://www.limoncc.com/post/d780e582351be7e8/
如果您需要引用本文,请参考:
引线小白. (Jan. 2, 2019). 《弱大数定律——百年大数定律系列01》[Blog post]. Retrieved from https://www.limoncc.com/post/d780e582351be7e8
@online{limoncc-d780e582351be7e8,
title={弱大数定律——百年大数定律系列01},
author={引线小白},
year={2019},
month={Jan},
date={2},
url={\url{https://www.limoncc.com/post/d780e582351be7e8}},
}

Powered By Valine
v1.5.2
'