高斯噪声与中心极限定理

1. 前言

  
在众多的信号处理学科领域,噪声一直是衡量算法或系统抗噪声性能的一种指标,笔者是通信专业的学生。对于一个通信系统而言,衡量一个通信系统的质量有两个最重要的指标,一个是有效性,一个是可靠性。有效性的衡量标准是传输带宽,而可靠性的衡量准则是误码率。在误码率的计算中,取决于信噪比和码间串扰等因素。另外,信噪比的定义是信号的能量与噪声的能量的比值。那么如何合理的用数学模型来描述噪声呢?
  
在长达四年的本科学习中,笔者发现,通信专业的书中一般假设噪声服从高斯分布(复信号服从循环对称高斯分布,其实部和虚部分别服从高斯分布)。笔者很是不解,为什么噪声是高斯的?记得在“通信原理”课上,当我问老师的时候,老师回答说“中心极限定理”。事实上,很多信号处理领域的学生一直不明白为什么噪声是高斯的,包括很多通信专业的学生。笔者觉得“为什么噪声是高斯的”这个问题是一个很重要的问题,它直接关系到绝大多数的理论的合理性。
  
实际系统中,由于存在众多噪声源,且大多噪声源(电子噪声,电磁噪声等)满足相互独立假设,当噪声源数量足够多时,且每个噪声源对于总体的贡献可忽略不计,根据中心极限定理可知,这些噪声源的累加的结果服从高斯分布。此篇推导是笔者在考研的时候完成的,现在重新整理与大家分享。由于本人所学知识有限,诚恳地希望读者批评指正。

2. 辛钦大数定律

设随机变量 X1,X2,⋯,Xn X 1 , X 2 , ⋯ , X n 是相互独立同分布的随机变量序列,且具有相同的数学期望 E[Xi]=μ, (i∈[n]) E [ X i ] = μ , ( i ∈ [ n ] ) ,作前 n n 个随机变量的算数平均值1n∑i=1nXi" role="presentation" style="position: relative;">1ni=1nXi,则 ∀ε>0 ∀ ε > 0 ,有

limn→∞P{∣∣∣1n∑i=1nXi−μ∣∣∣<ε}=1(17) (17) lim n → ∞ P { | 1 n ∑ i = 1 n X i − μ | < ε } = 1

证:我们只在随机变量 D(xi)=σ2 (i∈[n]) D ( x i ) = σ 2 ( i ∈ [ n ] ) 存在,这一条件下证明上述结果。
因为

E(1n∑i=1nXi)=1n∑ni=1E[Xi]=μ(18) (18) E ( 1 n ∑ i = 1 n X i ) = 1 n ∑ i = 1 n E [ X i ] = μ
根据独立性,有
D(1n∑i=1nXi)=1n2∑i=1nD(xi)=σ2n(19) (19) D ( 1 n ∑ i = 1 n X i ) = 1 n 2 ∑ i = 1 n D ( x i ) = σ 2 n
由切比雪夫不等式 【见附录A】,有
1−σ2/nε2≤P{∣∣∣1n∑i=1nXi−μ∣∣∣<ε}≤1(20) (20) 1 − σ 2 / n ε 2 ≤ P { | 1 n ∑ i = 1 n X i − μ | < ε } ≤ 1
当 n→∞ n → ∞ 时,由夹逼准则,可得
limn→∞P{∣∣∣1n∑ni=1Xi−μ∣∣∣<ε}=1(21) (21) lim n → ∞ P { | 1 n ∑ i = 1 n X i − μ | < ε } = 1
Remarks:

  1. 辛钦大数定理所说明的是,当随机变量个数 n→∞ n → ∞ 时,这些随机变量的算术平均 1n∑ni=1Xi 1 n ∑ i = 1 n X i 逐渐趋于概率均值 μ μ
  2. 另一方面,假设 {xi}(i∈[n]) { x i } ( i ∈ [ n ] ) 为随机变量 X X 的样本,则当样本个数n&#x2192;&#x221E;" role="presentation" style="position: relative;">n时,有样本均值趋于统计均值,即 1n∑ni=1xi=E[X] 1 n ∑ i = 1 n x i = E [ X ]

3. 特征函数

大多数情况下,数字特征(均值,方差,各阶距)不能完全确定随机变量的分布(除少数分布,如高斯分布,仅需要一阶矩和二阶矩就可以确定概率分布,详见附录B),我们需要一种与概率分布对应的一种表示,并且相对于概率分布更有利于计算。特征函数就是这样的一种与随机变量对应的表示,既能完全决定随机变量的分布函数,又具有良好的性质。

定义:设 X X 为实随机变量,其概率密度为pX(x)" role="presentation" style="position: relative;">pX(x),我们称

ϕX(t)=E[exp(itX)]=∫eitxpX(x)dx(22) (22) ϕ X ( t ) = E [ exp ⁡ ( i t X ) ] = ∫ e i t x p X ( x ) d x
为随机变量 X X 的特征函数(characteristic funciton)这里的t" role="presentation" style="position: relative;">t是任意实数。

设随机变量 X X 的特征函数为&#x03D5;X(t)" role="presentation" style="position: relative;">ϕX(t),则存在以下特性:

  1. 若随机变量具有相同的特征函数,则它们具有相同的概率分布,即若随机变量 Y Y 的特征函数&#x03D5;Y(t)=&#x03D5;X(t)" role="presentation" style="position: relative;">ϕY(t)=ϕX(t),则有 pY(y)=pX(x) p Y ( y ) = p X ( x )
  2. 独立同分布随机变量和的特征函数,等于每个随机变量特征函数的乘积。
  3. 设 Z=aX Z = a X ,则有 ϕZ(t)=ϕX(at) ϕ Z ( t ) = ϕ X ( a t )

Remarks: 从特征函数的定义上可以看出, X X 的特征函数&#x03D5;X(t)" role="presentation" style="position: relative;">ϕX(t)也是概率密度 pX(x) p X ( x ) 傅里叶变换的共轭复数。而,傅里叶变换正是一种将信号从时域投影到频域的信号分解技术,其存在的意义,就是将信号转换到频域更有利于相应的处理。因此,不难看出,特征函数与概率密度是对应关系。关于特征函数的这些特性,笔者将在附录B中给出详细证明。

4. 中心极限定理

设随机变量 X1,⋯,Xn X 1 , ⋯ , X n 相互独立同分布,且具有相同的数学期望和方差,即 E(xi)=μ E ( x i ) = μ , D(xi)=σ2 D ( x i ) = σ 2 ,则随机变量之和的归一化变量

Yn=∑i=1nXi−E(∑i=1nXi)D(∑i=1nXi)−−−−−−−−−√=∑i=1nXi−nμn−−√σ(2358) (2358) Y n = ∑ i = 1 n X i − E ( ∑ i = 1 n X i ) D ( ∑ i = 1 n X i ) = ∑ i = 1 n X i − n μ n σ
的分布函数 FYn(x) F Y n ( x ) 对 ∀x ∀ x ,满足
limn→∞FYn(x)=limn→∞P⎧⎩⎨⎪⎪⎪⎪⎪⎪∑i=1nXi−nμn−−√σ≤x⎫⎭⎬⎪⎪⎪⎪⎪⎪=∫x−∞12π−−√e−t2/2dt=Φ(x)(2359) (2359) lim n → ∞ F Y n ( x ) = lim n → ∞ P { ∑ i = 1 n X i − n μ n σ ≤ x } = ∫ − ∞ x 1 2 π e − t 2 / 2 d t = Φ ( x )
即, limn→∞∑ni=1Xi−nμn√σ∼N(0,1) lim n → ∞ ∑ i = 1 n X i − n μ n σ ∼ N ( 0 , 1 )

证:
step 1–––––– step 1 _ :设 Zi=Xi−μ Z i = X i − μ ,则 Zi (i∈[n]) Z i ( i ∈ [ n ] ) 相互独立,且 E[Zi]=0 E [ Z i ] = 0 , D(Zi)=σ2 D ( Z i ) = σ 2 。设 Zi Z i 的特征函数为 ϕZi(t) ϕ Z i ( t ) ,根据特征函数的性质3,随机变量 1n√σZi 1 n σ Z i 的特征函数为 ϕZi(1n√σt) ϕ Z i ( 1 n σ t ) 。而

Yn=∑i=1nXi−nμn−−√σ=∑i=1n(Zin−−√σ)(2360) (2360) Y n = ∑ i = 1 n X i − n μ n σ = ∑ i = 1 n ( Z i n σ )
根据,特征函数的性质2,得到 Yn Y n 的特征函数为 ∏i=1n[ϕZi(1n√σt)] ∏ i = 1 n [ ϕ Z i ( 1 n σ t ) ]

step 2–––––– step 2 _ :对 ϕZ(t) ϕ Z ( t ) 在 t=0 t = 0 处,进行二阶泰勒展开,有

ϕZi(t)=ϕZi(0)+ϕ′Zi(t)|t=0t+ϕ′′Zi(t)(t)|t=0t2+o(t2)(2361) (2361) ϕ Z i ( t ) = ϕ Z i ( 0 ) + ϕ Z i ′ ( t ) | t = 0 t + ϕ Z i ″ ( t ) ( t ) | t = 0 t 2 + o ( t 2 )
其中
ϕZi(0)ϕ′Zi(t)|t=0ϕ′′Zi(t)|t=0=∫+∞−∞pZi(z)dz=1=[∫+∞−∞jzejtzpZi(z)dz]t=0=0=−[∫+∞−∞z2ejtzpZi(z)dz]t=0=−σ2(2362)(2363)(2364) (2362) ϕ Z i ( 0 ) = ∫ − ∞ + ∞ p Z i ( z ) d z = 1 (2363) ϕ Z i ′ ( t ) | t = 0 = [ ∫ − ∞ + ∞ j z e j t z p Z i ( z ) d z ] t = 0 = 0 (2364) ϕ Z i ″ ( t ) | t = 0 = − [ ∫ − ∞ + ∞ z 2 e j t z p Z i ( z ) d z ] t = 0 = − σ 2

ϕZi(t)=1−σ22t2+o(t2)(2365) (2365) ϕ Z i ( t ) = 1 − σ 2 2 t 2 + o ( t 2 )
相应地
ϕYn(t)=∏i=1n[ϕZi(1n−−√σt)]=[1−12nt2+o(t2nσ2)]n(2366) (2366) ϕ Y n ( t ) = ∏ i = 1 n [ ϕ Z i ( 1 n σ t ) ] = [ 1 − 1 2 n t 2 + o ( t 2 n σ 2 ) ] n

step 3–––––– step 3 _

limn→∞ϕYn(t)=limn→∞[1−12nt2+o(t2nσ2)]n=limn→∞(1−12nt2)n=limn→∞(1−12nt2)2nt2×t22=e−t2/2(2367)(2368)(2369)(2370) (2367) lim n → ∞ ϕ Y n ( t ) = lim n → ∞ [ 1 − 1 2 n t 2 + o ( t 2 n σ 2 ) ] n (2368) = lim n → ∞ ( 1 − 1 2 n t 2 ) n (2369) = lim n → ∞ ( 1 − 1 2 n t 2 ) 2 n t 2 × t 2 2 (2370) = e − t 2 / 2
其中,最后一个公式成立,根据极限公式 limx→∞(1+1x)x=e lim x → ∞ ( 1 + 1 x ) x = e 。因此,随机变量 Yn=limn→∞∑ni=1Xi−nμn√σ Y n = lim n → ∞ ∑ i = 1 n X i − n μ n σ 的特征函数为 ϕYn(t)=e−t2/2 ϕ Y n ( t ) = e − t 2 / 2

step 4–––––– step 4 _ :又因为标准正态分布的特征函数为 e−t2/2 e − t 2 / 2 【见附录C】,因此有

Yn=limn→∞∑ni=1Xi−nμn−−√σ∼N(0,1)(2371) (2371) Y n = lim n → ∞ ∑ i = 1 n X i − n μ n σ ∼ N ( 0 , 1 )

Remarks

  1. 本文所介绍的中心极限定理,是独立同分布的中心极限定理。这里假设 n n 个相互独立的随机变量具有相同的均值和方差,因此该中心极限定理的条件相对较强,这中类型的中心极限定理,也称为独立同分布的中心极限定理
  2. 若假设n" role="presentation" style="position: relative;">n个相互独立的变量,具有不同的均值和方差,即 E[Xi]=μi E [ X i ] = μ i , D(Xi)=σ2i,(i∈[n]) D ( X i ) = σ i 2 , ( i ∈ [ n ] ) 。该情况为独立同分布的中心极限定理的扩展,称为李亚普诺夫定理。
  3. 中心极限定理告诉我们,当相互独立的变量个数足够多,且每个个体对总体的贡献在 n→∞ n → ∞ 时,均可忽略不计时,那么这些随机变量的算术平均,服从高斯分布,这也是为什么噪声服从高斯分布,这种假设的合理性解释。

附录

A. 切比雪夫不等式

设随机变量 X X 具有数学期望E[X]=&#x03BC;" role="presentation" style="position: relative;">E[X]=μ,方差 DX=σ2 D X = σ 2 ,则对于任意的正数 ε ε ,有

P{|X−μ|≥ε}≤σ2ε2(2372) (2372) P { | X − μ | ≥ ε } ≤ σ 2 ε 2

证:设 X X 的概率密度为pX(x)" role="presentation" style="position: relative;">pX(x),则有

P{|X−μ|≥ε}≤∫|x−μ|≥ε|x−μ|2ε2pX(x)dx≤1ε2∫∞−∞(x−μ)2pX(x)dx=σ2ε(2373)(2374)(2375) (2373) P { | X − μ | ≥ ε } ≤ ∫ | x − μ | ≥ ε | x − μ | 2 ε 2 p X ( x ) d x (2374) ≤ 1 ε 2 ∫ − ∞ ∞ ( x − μ ) 2 p X ( x ) d x (2375) = σ 2 ε

B. 特征函数性质的证明

  1. 若随机变量具有相同的特征函数,则它们具有相同的概率分布。
    :设随机变量 X X Y" role="presentation" style="position: relative;">Y具有相同的特征函数,即 ϕX(t)=ϕY(t) ϕ X ( t ) = ϕ Y ( t ) ,则有

    ϕX(t)=∫+∞−∞pX(x)eitxdx=∫+∞−∞pY(y)eitydy⇒pX(x)=pY(y)(2376) (2376) ϕ X ( t ) = ∫ − ∞ + ∞ p X ( x ) e i t x d x = ∫ − ∞ + ∞ p Y ( y ) e i t y d y ⇒ p X ( x ) = p Y ( y )
    反之,亦成立。

  2. 独立同分布随机变量和的特征函数,等于每个随机变量特征函数的乘积。
    :设随机变量 X X Y" role="presentation" style="position: relative;">Y的特征函数分别为 ϕX(t) ϕ X ( t ) , ϕY(t) ϕ Y ( t ) ,令 Z=X+Y Z = X + Y ,则随机变量 Z Z 的概率密度,可以由卷积公式得到
    (2377)pZ(z)=pX(x)&#x2217;pY(y)=&#x222B;&#x2212;&#x221E;+&#x221E;pX(x)pY(z&#x2212;x)dx" role="presentation">(2377)pZ(z)=pX(x)pY(y)=+pX(x)pY(zx)dx
    则随机变量 Z Z 的特征函数为
    (2378)&#x03D5;Z(t)=&#x222B;&#x2212;&#x221E;+&#x221E;pZ(z)eitzdz(2379)=&#x222B;&#x2212;&#x221E;+&#x221E;(&#x222B;&#x2212;&#x221E;+&#x221E;pX(x)pY(z&#x2212;x)dx)eitzdz(2380)=&#x222B;&#x2212;&#x221E;+&#x221E;(&#x222B;&#x2212;&#x221E;+&#x221E;pX(x)pY(y)dx)eit(x+y)d(x+y)(2381)=(&#x222B;&#x2212;&#x221E;+&#x221E;pX(x)ejtxdx)(&#x222B;&#x2212;&#x221E;+&#x221E;pY(y)ejtydy)(2382)=&#x03D5;X(t)&#x03D5;Y(t)" role="presentation">(2378)ϕZ(t)=+pZ(z)eitzdz(2379)=+(+pX(x)pY(zx)dx)eitzdz(2380)=+(+pX(x)pY(y)dx)eit(x+y)d(x+y)(2381)=(+pX(x)ejtxdx)(+pY(y)ejtydy)(2382)=ϕX(t)ϕY(t)

  3. 设 Z=aX Z = a X ,则有 ϕZ(t)=ϕX(at) ϕ Z ( t ) = ϕ X ( a t )
    :设随机变量 X X 的概率密度为pX(x)" role="presentation" style="position: relative;">pX(x),则随机变量 Z Z 的累积分布函数(CDF)可以表示为
    (2383)P(Z&#x2264;z)=P(X&#x2264;za)=&#x222B;&#x2212;&#x221E;z/apX(x)dx" role="presentation">(2383)P(Zz)=P(Xza)=z/apX(x)dx
    由于概率密度与累积分布函数互为导数关系,即

    pZ(z)=∂P(Z≤z)∂z=∂∂z∫z/a−∞pX(x)dx=1apX(z/a)(2384) (2384) p Z ( z ) = ∂ P ( Z ≤ z ) ∂ z = ∂ ∂ z ∫ − ∞ z / a p X ( x ) d x = 1 a p X ( z / a )
    因此,随机变量 Z=aX Z = a X 的特征函数,表示为
    ϕZ(t)=∫+∞−∞pZ(z)eitzdz=∫+∞−∞1apX(x)eit(ax)d(ax)=∫+∞−∞pX(x)ei(at)xdx=ϕX(at)(2385)(2386)(2387)(2388) (2385) ϕ Z ( t ) = ∫ − ∞ + ∞ p Z ( z ) e i t z d z (2386) = ∫ − ∞ + ∞ 1 a p X ( x ) e i t ( a x ) d ( a x ) (2387) = ∫ − ∞ + ∞ p X ( x ) e i ( a t ) x d x (2388) = ϕ X ( a t )

C. 高斯分布的特征函数

设随机变量 X∼N(a,A) X ∼ N ( a , A ) ,则其特征函数为

ϕX(t)=eita−At22(2389) (2389) ϕ X ( t ) = e i t a − A t 2 2
特别地,当 X∼N(0,1) X ∼ N ( 0 , 1 ) 时,有 ϕX(t)=e−t22 ϕ X ( t ) = e − t 2 2
:随机变量 X X 的特征函数为
(2390)&#x03D5;X(t)=&#x222B;&#x2212;&#x221E;+&#x221E;eitx12&#x03C0;Aexp&#x2061;[&#x2212;(x&#x2212;a)22A]dx" role="presentation">(2390)ϕX(t)=+eitx12πAexp[(xa)22A]dx
作变量替换 y=x−μA√ y = x − μ A ,即 x=A−−√y+μ x = A y + μ ,则
ϕX(t)=∫+∞−∞eit(A√y+μ)12πA−−−−√exp(−y22)dy⋅A−−√=12π−−√eitμ⋅∫+∞−∞eitA√y−y22dy=12π−−√eitμ−At22∫+∞−∞e−(y−itA√)22dy(I)=eitμ−At22(2391)(2392)(2393)(2394) (2391) ϕ X ( t ) = ∫ − ∞ + ∞ e i t ( A y + μ ) 1 2 π A exp ⁡ ( − y 2 2 ) d y ⋅ A (2392) = 1 2 π e i t μ ⋅ ∫ − ∞ + ∞ e i t A y − y 2 2 d y (2393) = 1 2 π e i t μ − A t 2 2 ∫ − ∞ + ∞ e − ( y − i t A ) 2 2 d y ⏟ ( I ) (2394) = e i t μ − A t 2 2
其中,对于 (I) (I) 的值,我们可以利用概率的归一性进行计算,即
∫+∞−∞12π−−√e−(y−a)2/2dy=1(2395) (2395) ∫ − ∞ + ∞ 1 2 π e − ( y − a ) 2 / 2 d y = 1
因此,可以得到
∫+∞−∞e−(y−a)2/2dy=2π−−√(2396) (2396) ∫ − ∞ + ∞ e − ( y − a ) 2 / 2 d y = 2 π
值得注意的是, (I) (I) 中的均值部分为 itA−−√ i t A ,是虚数,但是积分是对实数变量 y y 积分,实际上,&#x222B;&#x2212;&#x221E;+&#x221E;e&#x2212;(y&#x2212;itA)22dy=&#x222B;&#x2212;&#x221E;+&#x221E;e&#x2212;y22dy" role="presentation" style="position: relative;">+e(yitA)22dy=+ey22dy,具体我们可以由复高斯概率密度得到。

高斯噪声与中心极限定理

1. 前言

  
在众多的信号处理学科领域,噪声一直是衡量算法或系统抗噪声性能的一种指标,笔者是通信专业的学生。对于一个通信系统而言,衡量一个通信系统的质量有两个最重要的指标,一个是有效性,一个是可靠性。有效性的衡量标准是传输带宽,而可靠性的衡量准则是误码率。在误码率的计算中,取决于信噪比和码间串扰等因素。另外,信噪比的定义是信号的能量与噪声的能量的比值。那么如何合理的用数学模型来描述噪声呢?
  
在长达四年的本科学习中,笔者发现,通信专业的书中一般假设噪声服从高斯分布(复信号服从循环对称高斯分布,其实部和虚部分别服从高斯分布)。笔者很是不解,为什么噪声是高斯的?记得在“通信原理”课上,当我问老师的时候,老师回答说“中心极限定理”。事实上,很多信号处理领域的学生一直不明白为什么噪声是高斯的,包括很多通信专业的学生。笔者觉得“为什么噪声是高斯的”这个问题是一个很重要的问题,它直接关系到绝大多数的理论的合理性。
  
实际系统中,由于存在众多噪声源,且大多噪声源(电子噪声,电磁噪声等)满足相互独立假设,当噪声源数量足够多时,且每个噪声源对于总体的贡献可忽略不计,根据中心极限定理可知,这些噪声源的累加的结果服从高斯分布。此篇推导是笔者在考研的时候完成的,现在重新整理与大家分享。由于本人所学知识有限,诚恳地希望读者批评指正。

2. 辛钦大数定律

设随机变量 X1,X2,⋯,Xn X 1 , X 2 , ⋯ , X n 是相互独立同分布的随机变量序列,且具有相同的数学期望 E[Xi]=μ, (i∈[n]) E [ X i ] = μ , ( i ∈ [ n ] ) ,作前 n n 个随机变量的算数平均值1n&#x2211;i=1nXi" role="presentation" style="position: relative;">1ni=1nXi,则 ∀ε>0 ∀ ε > 0 ,有

limn→∞P{∣∣∣1n∑i=1nXi−μ∣∣∣<ε}=1(17) (17) lim n → ∞ P { | 1 n ∑ i = 1 n X i − μ | < ε } = 1

证:我们只在随机变量 D(xi)=σ2 (i∈[n]) D ( x i ) = σ 2 ( i ∈ [ n ] ) 存在,这一条件下证明上述结果。
因为

E(1n∑i=1nXi)=1n∑ni=1E[Xi]=μ(18) (18) E ( 1 n ∑ i = 1 n X i ) = 1 n ∑ i = 1 n E [ X i ] = μ
根据独立性,有
D(1n∑i=1nXi)=1n2∑i=1nD(xi)=σ2n(19) (19) D ( 1 n ∑ i = 1 n X i ) = 1 n 2 ∑ i = 1 n D ( x i ) = σ 2 n
由切比雪夫不等式 【见附录A】,有
1−σ2/nε2≤P{∣∣∣1n∑i=1nXi−μ∣∣∣<ε}≤1(20) (20) 1 − σ 2 / n ε 2 ≤ P { | 1 n ∑ i = 1 n X i − μ | < ε } ≤ 1
当 n→∞ n → ∞ 时,由夹逼准则,可得
limn→∞P{∣∣∣1n∑ni=1Xi−μ∣∣∣<ε}=1(21) (21) lim n → ∞ P { | 1 n ∑ i = 1 n X i − μ | < ε } = 1
Remarks:

  1. 辛钦大数定理所说明的是,当随机变量个数 n→∞ n → ∞ 时,这些随机变量的算术平均 1n∑ni=1Xi 1 n ∑ i = 1 n X i 逐渐趋于概率均值 μ μ
  2. 另一方面,假设 {xi}(i∈[n]) { x i } ( i ∈ [ n ] ) 为随机变量 X X 的样本,则当样本个数n&#x2192;&#x221E;" role="presentation" style="position: relative;">n时,有样本均值趋于统计均值,即 1n∑ni=1xi=E[X] 1 n ∑ i = 1 n x i = E [ X ]

3. 特征函数

大多数情况下,数字特征(均值,方差,各阶距)不能完全确定随机变量的分布(除少数分布,如高斯分布,仅需要一阶矩和二阶矩就可以确定概率分布,详见附录B),我们需要一种与概率分布对应的一种表示,并且相对于概率分布更有利于计算。特征函数就是这样的一种与随机变量对应的表示,既能完全决定随机变量的分布函数,又具有良好的性质。

定义:设 X X 为实随机变量,其概率密度为pX(x)" role="presentation" style="position: relative;">pX(x),我们称

ϕX(t)=E[exp(itX)]=∫eitxpX(x)dx(22) (22) ϕ X ( t ) = E [ exp ⁡ ( i t X ) ] = ∫ e i t x p X ( x ) d x
为随机变量 X X 的特征函数(characteristic funciton)这里的t" role="presentation" style="position: relative;">t是任意实数。

设随机变量 X X 的特征函数为&#x03D5;X(t)" role="presentation" style="position: relative;">ϕX(t),则存在以下特性:

  1. 若随机变量具有相同的特征函数,则它们具有相同的概率分布,即若随机变量 Y Y 的特征函数&#x03D5;Y(t)=&#x03D5;X(t)" role="presentation" style="position: relative;">ϕY(t)=ϕX(t),则有 pY(y)=pX(x) p Y ( y ) = p X ( x )
  2. 独立同分布随机变量和的特征函数,等于每个随机变量特征函数的乘积。
  3. 设 Z=aX Z = a X ,则有 ϕZ(t)=ϕX(at) ϕ Z ( t ) = ϕ X ( a t )

Remarks: 从特征函数的定义上可以看出, X X 的特征函数&#x03D5;X(t)" role="presentation" style="position: relative;">ϕX(t)也是概率密度 pX(x) p X ( x ) 傅里叶变换的共轭复数。而,傅里叶变换正是一种将信号从时域投影到频域的信号分解技术,其存在的意义,就是将信号转换到频域更有利于相应的处理。因此,不难看出,特征函数与概率密度是对应关系。关于特征函数的这些特性,笔者将在附录B中给出详细证明。

4. 中心极限定理

设随机变量 X1,⋯,Xn X 1 , ⋯ , X n 相互独立同分布,且具有相同的数学期望和方差,即 E(xi)=μ E ( x i ) = μ , D(xi)=σ2 D ( x i ) = σ 2 ,则随机变量之和的归一化变量

Yn=∑i=1nXi−E(∑i=1nXi)D(∑i=1nXi)−−−−−−−−−√=∑i=1nXi−nμn−−√σ(2358) (2358) Y n = ∑ i = 1 n X i − E ( ∑ i = 1 n X i ) D ( ∑ i = 1 n X i ) = ∑ i = 1 n X i − n μ n σ
的分布函数 FYn(x) F Y n ( x ) 对 ∀x ∀ x ,满足
limn→∞FYn(x)=limn→∞P⎧⎩⎨⎪⎪⎪⎪⎪⎪∑i=1nXi−nμn−−√σ≤x⎫⎭⎬⎪⎪⎪⎪⎪⎪=∫x−∞12π−−√e−t2/2dt=Φ(x)(2359) (2359) lim n → ∞ F Y n ( x ) = lim n → ∞ P { ∑ i = 1 n X i − n μ n σ ≤ x } = ∫ − ∞ x 1 2 π e − t 2 / 2 d t = Φ ( x )
即, limn→∞∑ni=1Xi−nμn√σ∼N(0,1) lim n → ∞ ∑ i = 1 n X i − n μ n σ ∼ N ( 0 , 1 )

证:
step 1–––––– step 1 _ :设 Zi=Xi−μ Z i = X i − μ ,则 Zi (i∈[n]) Z i ( i ∈ [ n ] ) 相互独立,且 E[Zi]=0 E [ Z i ] = 0 , D(Zi)=σ2 D ( Z i ) = σ 2 。设 Zi Z i 的特征函数为 ϕZi(t) ϕ Z i ( t ) ,根据特征函数的性质3,随机变量 1n√σZi 1 n σ Z i 的特征函数为 ϕZi(1n√σt) ϕ Z i ( 1 n σ t ) 。而

Yn=∑i=1nXi−nμn−−√σ=∑i=1n(Zin−−√σ)(2360) (2360) Y n = ∑ i = 1 n X i − n μ n σ = ∑ i = 1 n ( Z i n σ )
根据,特征函数的性质2,得到 Yn Y n 的特征函数为 ∏i=1n[ϕZi(1n√σt)] ∏ i = 1 n [ ϕ Z i ( 1 n σ t ) ]

step 2–––––– step 2 _ :对 ϕZ(t) ϕ Z ( t ) 在 t=0 t = 0 处,进行二阶泰勒展开,有

ϕZi(t)=ϕZi(0)+ϕ′Zi(t)|t=0t+ϕ′′Zi(t)(t)|t=0t2+o(t2)(2361) (2361) ϕ Z i ( t ) = ϕ Z i ( 0 ) + ϕ Z i ′ ( t ) | t = 0 t + ϕ Z i ″ ( t ) ( t ) | t = 0 t 2 + o ( t 2 )
其中
ϕZi(0)ϕ′Zi(t)|t=0ϕ′′Zi(t)|t=0=∫+∞−∞pZi(z)dz=1=[∫+∞−∞jzejtzpZi(z)dz]t=0=0=−[∫+∞−∞z2ejtzpZi(z)dz]t=0=−σ2(2362)(2363)(2364) (2362) ϕ Z i ( 0 ) = ∫ − ∞ + ∞ p Z i ( z ) d z = 1 (2363) ϕ Z i ′ ( t ) | t = 0 = [ ∫ − ∞ + ∞ j z e j t z p Z i ( z ) d z ] t = 0 = 0 (2364) ϕ Z i ″ ( t ) | t = 0 = − [ ∫ − ∞ + ∞ z 2 e j t z p Z i ( z ) d z ] t = 0 = − σ 2

ϕZi(t)=1−σ22t2+o(t2)(2365) (2365) ϕ Z i ( t ) = 1 − σ 2 2 t 2 + o ( t 2 )
相应地
ϕYn(t)=∏i=1n[ϕZi(1n−−√σt)]=[1−12nt2+o(t2nσ2)]n(2366) (2366) ϕ Y n ( t ) = ∏ i = 1 n [ ϕ Z i ( 1 n σ t ) ] = [ 1 − 1 2 n t 2 + o ( t 2 n σ 2 ) ] n

step 3–––––– step 3 _

limn→∞ϕYn(t)=limn→∞[1−12nt2+o(t2nσ2)]n=limn→∞(1−12nt2)n=limn→∞(1−12nt2)2nt2×t22=e−t2/2(2367)(2368)(2369)(2370) (2367) lim n → ∞ ϕ Y n ( t ) = lim n → ∞ [ 1 − 1 2 n t 2 + o ( t 2 n σ 2 ) ] n (2368) = lim n → ∞ ( 1 − 1 2 n t 2 ) n (2369) = lim n → ∞ ( 1 − 1 2 n t 2 ) 2 n t 2 × t 2 2 (2370) = e − t 2 / 2
其中,最后一个公式成立,根据极限公式 limx→∞(1+1x)x=e lim x → ∞ ( 1 + 1 x ) x = e 。因此,随机变量 Yn=limn→∞∑ni=1Xi−nμn√σ Y n = lim n → ∞ ∑ i = 1 n X i − n μ n σ 的特征函数为 ϕYn(t)=e−t2/2 ϕ Y n ( t ) = e − t 2 / 2

step 4–––––– step 4 _ :又因为标准正态分布的特征函数为 e−t2/2 e − t 2 / 2 【见附录C】,因此有

Yn=limn→∞∑ni=1Xi−nμn−−√σ∼N(0,1)(2371) (2371) Y n = lim n → ∞ ∑ i = 1 n X i − n μ n σ ∼ N ( 0 , 1 )

Remarks

  1. 本文所介绍的中心极限定理,是独立同分布的中心极限定理。这里假设 n n 个相互独立的随机变量具有相同的均值和方差,因此该中心极限定理的条件相对较强,这中类型的中心极限定理,也称为独立同分布的中心极限定理
  2. 若假设n" role="presentation" style="position: relative;">n个相互独立的变量,具有不同的均值和方差,即 E[Xi]=μi E [ X i ] = μ i , D(Xi)=σ2i,(i∈[n]) D ( X i ) = σ i 2 , ( i ∈ [ n ] ) 。该情况为独立同分布的中心极限定理的扩展,称为李亚普诺夫定理。
  3. 中心极限定理告诉我们,当相互独立的变量个数足够多,且每个个体对总体的贡献在 n→∞ n → ∞ 时,均可忽略不计时,那么这些随机变量的算术平均,服从高斯分布,这也是为什么噪声服从高斯分布,这种假设的合理性解释。

附录

A. 切比雪夫不等式

设随机变量 X X 具有数学期望E[X]=&#x03BC;" role="presentation" style="position: relative;">E[X]=μ,方差 DX=σ2 D X = σ 2 ,则对于任意的正数 ε ε ,有

P{|X−μ|≥ε}≤σ2ε2(2372) (2372) P { | X − μ | ≥ ε } ≤ σ 2 ε 2

证:设 X X 的概率密度为pX(x)" role="presentation" style="position: relative;">pX(x),则有

P{|X−μ|≥ε}≤∫|x−μ|≥ε|x−μ|2ε2pX(x)dx≤1ε2∫∞−∞(x−μ)2pX(x)dx=σ2ε(2373)(2374)(2375) (2373) P { | X − μ | ≥ ε } ≤ ∫ | x − μ | ≥ ε | x − μ | 2 ε 2 p X ( x ) d x (2374) ≤ 1 ε 2 ∫ − ∞ ∞ ( x − μ ) 2 p X ( x ) d x (2375) = σ 2 ε

B. 特征函数性质的证明

  1. 若随机变量具有相同的特征函数,则它们具有相同的概率分布。
    :设随机变量 X X Y" role="presentation" style="position: relative;">Y具有相同的特征函数,即 ϕX(t)=ϕY(t) ϕ X ( t ) = ϕ Y ( t ) ,则有

    ϕX(t)=∫+∞−∞pX(x)eitxdx=∫+∞−∞pY(y)eitydy⇒pX(x)=pY(y)(2376) (2376) ϕ X ( t ) = ∫ − ∞ + ∞ p X ( x ) e i t x d x = ∫ − ∞ + ∞ p Y ( y ) e i t y d y ⇒ p X ( x ) = p Y ( y )
    反之,亦成立。

  2. 独立同分布随机变量和的特征函数,等于每个随机变量特征函数的乘积。
    :设随机变量 X X Y" role="presentation" style="position: relative;">Y的特征函数分别为 ϕX(t) ϕ X ( t ) , ϕY(t) ϕ Y ( t ) ,令 Z=X+Y Z = X + Y ,则随机变量 Z Z 的概率密度,可以由卷积公式得到
    (2377)pZ(z)=pX(x)&#x2217;pY(y)=&#x222B;&#x2212;&#x221E;+&#x221E;pX(x)pY(z&#x2212;x)dx" role="presentation">(2377)pZ(z)=pX(x)pY(y)=+pX(x)pY(zx)dx
    则随机变量 Z Z 的特征函数为
    (2378)&#x03D5;Z(t)=&#x222B;&#x2212;&#x221E;+&#x221E;pZ(z)eitzdz(2379)=&#x222B;&#x2212;&#x221E;+&#x221E;(&#x222B;&#x2212;&#x221E;+&#x221E;pX(x)pY(z&#x2212;x)dx)eitzdz(2380)=&#x222B;&#x2212;&#x221E;+&#x221E;(&#x222B;&#x2212;&#x221E;+&#x221E;pX(x)pY(y)dx)eit(x+y)d(x+y)(2381)=(&#x222B;&#x2212;&#x221E;+&#x221E;pX(x)ejtxdx)(&#x222B;&#x2212;&#x221E;+&#x221E;pY(y)ejtydy)(2382)=&#x03D5;X(t)&#x03D5;Y(t)" role="presentation">(2378)ϕZ(t)=+pZ(z)eitzdz(2379)=+(+pX(x)pY(zx)dx)eitzdz(2380)=+(+pX(x)pY(y)dx)eit(x+y)d(x+y)(2381)=(+pX(x)ejtxdx)(+pY(y)ejtydy)(2382)=ϕX(t)ϕY(t)

  3. 设 Z=aX Z = a X ,则有 ϕZ(t)=ϕX(at) ϕ Z ( t ) = ϕ X ( a t )
    :设随机变量 X X 的概率密度为pX(x)" role="presentation" style="position: relative;">pX(x),则随机变量 Z Z 的累积分布函数(CDF)可以表示为
    (2383)P(Z&#x2264;z)=P(X&#x2264;za)=&#x222B;&#x2212;&#x221E;z/apX(x)dx" role="presentation">(2383)P(Zz)=P(Xza)=z/apX(x)dx
    由于概率密度与累积分布函数互为导数关系,即

    pZ(z)=∂P(Z≤z)∂z=∂∂z∫z/a−∞pX(x)dx=1apX(z/a)(2384) (2384) p Z ( z ) = ∂ P ( Z ≤ z ) ∂ z = ∂ ∂ z ∫ − ∞ z / a p X ( x ) d x = 1 a p X ( z / a )
    因此,随机变量 Z=aX Z = a X 的特征函数,表示为
    ϕZ(t)=∫+∞−∞pZ(z)eitzdz=∫+∞−∞1apX(x)eit(ax)d(ax)=∫+∞−∞pX(x)ei(at)xdx=ϕX(at)(2385)(2386)(2387)(2388) (2385) ϕ Z ( t ) = ∫ − ∞ + ∞ p Z ( z ) e i t z d z (2386) = ∫ − ∞ + ∞ 1 a p X ( x ) e i t ( a x ) d ( a x ) (2387) = ∫ − ∞ + ∞ p X ( x ) e i ( a t ) x d x (2388) = ϕ X ( a t )

C. 高斯分布的特征函数

设随机变量 X∼N(a,A) X ∼ N ( a , A ) ,则其特征函数为

ϕX(t)=eita−At22(2389) (2389) ϕ X ( t ) = e i t a − A t 2 2
特别地,当 X∼N(0,1) X ∼ N ( 0 , 1 ) 时,有 ϕX(t)=e−t22 ϕ X ( t ) = e − t 2 2
:随机变量 X X 的特征函数为
(2390)&#x03D5;X(t)=&#x222B;&#x2212;&#x221E;+&#x221E;eitx12&#x03C0;Aexp&#x2061;[&#x2212;(x&#x2212;a)22A]dx" role="presentation">(2390)ϕX(t)=+eitx12πAexp[(xa)22A]dx
作变量替换 y=x−μA√ y = x − μ A ,即 x=A−−√y+μ x = A y + μ ,则
ϕX(t)=∫+∞−∞eit(A√y+μ)12πA−−−−√exp(−y22)dy⋅A−−√=12π−−√eitμ⋅∫+∞−∞eitA√y−y22dy=12π−−√eitμ−At22∫+∞−∞e−(y−itA√)22dy(I)=eitμ−At22(2391)(2392)(2393)(2394) (2391) ϕ X ( t ) = ∫ − ∞ + ∞ e i t ( A y + μ ) 1 2 π A exp ⁡ ( − y 2 2 ) d y ⋅ A (2392) = 1 2 π e i t μ ⋅ ∫ − ∞ + ∞ e i t A y − y 2 2 d y (2393) = 1 2 π e i t μ − A t 2 2 ∫ − ∞ + ∞ e − ( y − i t A ) 2 2 d y ⏟ ( I ) (2394) = e i t μ − A t 2 2
其中,对于 (I) (I) 的值,我们可以利用概率的归一性进行计算,即
∫+∞−∞12π−−√e−(y−a)2/2dy=1(2395) (2395) ∫ − ∞ + ∞ 1 2 π e − ( y − a ) 2 / 2 d y = 1
因此,可以得到
∫+∞−∞e−(y−a)2/2dy=2π−−√(2396) (2396) ∫ − ∞ + ∞ e − ( y − a ) 2 / 2 d y = 2 π
值得注意的是, (I) (I) 中的均值部分为 itA−−√ i t A ,是虚数,但是积分是对实数变量 y y 积分,实际上,&#x222B;&#x2212;&#x221E;+&#x221E;e&#x2212;(y&#x2212;itA)22dy=&#x222B;&#x2212;&#x221E;+&#x221E;e&#x2212;y22dy" role="presentation" style="position: relative;">+e(yitA)22dy=+ey22dy,具体我们可以由复高斯概率密度得到。