参考skyking-pia的概率论与数理统计复习与浙大概统教材整理。
注意:
- 笔记内容和浙大教材略有出入,比如 α 分位数的概念浙大版没怎么提,定义置信区间时用的符号略有差别。
- 最后一章(假设检验)内容没有整理,见于概统公式表
- 文中公式均可复制,复制内容是对应的 LATEX 公式。
概率论的基本概念
加法公式
P(A1∪A2)P(A1∪A2∪A3)P(i=1⋃nAi)===P(A1)+P(A2)−P(A1A2)P(A1)+P(A2)+P(A3)−P(A1A2)−P(A1A3)−P(A2A3)+P(A1A2A3)i=1∑nP(Ai)−i<j∑P(AiAj)+i<j<k∑P(AiAjAk)+⋯+(−1)n−1P(A1A2⋯An)
条件概率
P(B∣A)P(AB)P(A1A2⋯An)====P(A)P(AB)P(B)P(A∣B)P(A)P(B∣A)P(A1)P(A1∣A2)P(A3∣A1A2)⋯P(An∣A1A2⋯An−1)
全概率公式
P(A)P(A)===P(AB)+P(AB)P(B)P(A∣B)+P(B)P(A∣B)j=1∑nP(Bj)P(A∣Bj)
贝叶斯公式
P(B∣A)P(Bi∣A)====P(A)P(AB)P(B)P(A∣B)+P(B)P(A∣B)P(B)P(A∣B)P(A)P(ABi)∑j=1nP(Bj)P(A∣Bj)P(Bi)P(ABi)
事件运算
A(B∪C)A∪BCA∪BA∩BA−B=====AB∪A(A∪B)(A∪C)A∩BA∪BAB
随机变量及其概率分布
概率密度
F(x)=∫−∞xf(t)dt
1=∫−∞+∞f(x)dx
有对数集 A, 使得
P(x∈A)=∫Af(x)dx
常见离散随机变量的分布、期望与方差
(0−1) 分布
X∼0−1(p)
P(X=k)=pk(1−p)n−k
E(X)=pD(X)=p(1−p)
二项分布
X∼B(n,p)
P(X=k)=Cnk⋅pk⋅(1−p)n−k
E(X)=npD(X)=np(1−p)
泊松分布
X∼P(λ)
P(X=k)=k!λke−λk=0,1,2,⋯
E(X)=λD(X)=λ
超几何分布
X∼H(N,M,n)
P(X=k)=CNN−MCULkCN−Mn−k
E(X)=nNMD(X)=nN2(N−1)M(N−M)(N−n)
几何分布
X∼G(p)
P(X=k)=(1−p)k−1p
E(X)=p1D(X)=p21−p
连续随机变量的分布、期望与方差
正态分布
X∼N(μ,σ2)
f(x)=2πσ1e−2σ2(x−μ)2
E(X)=μD(X)=σ2
化为标准正态分布:
Y=σX−μ∼N(0,1)
指数分布
X∼E(λ)
f(x)=λe−λxx⩾0
F(x)=1−e−λxx⩾0
E(X)=μ1D(X)=λ21
威布尔分布
X∼W(X)
f(x)=λαxα−1e−λxαx>0
F(x)=1−e−λxαx>0
均匀分布
X∼U(a,b)
f(x)=b−a1a⩽x<b
F(x)=⎩⎨⎧0(b−a)(x−a)1,x⩽a,a<x<b,x⩾b
E(X)=2a+bD(X)=12(b−a)2
伽马分布
Γ(α)=∫0∞xα−1e−x dxα>0
X∼Γ(α,β)
f(x)=Γ(α)βαxα−1e−βxx⩾0
E(X)=βαD(X)=β2α
对数正态分布
lnX∼N(μ,σ)
f(x)=xσ2π1e−2σ2(lnx−μ)2
E(X)=eμ+2σ2D(X)=(eσ2−1)e2μ+σ2
随机变量函数的概率密度
若有 Y=g(x), 使 g′(x)>0 或 g′(x)<0
则有
fY(y)=fX(h(y))⋅∣h′(y)∣
α<y<β
其中 h(y) 是 g(x) 的反函数, 即 h(y)=g−1(x)
随机向量及其概率分布
分布函数
联合分布函数
对于随机向量 (X,Y), 称 F(x,y)=P(X⩽x,Y⩽y) 为 (X,Y) 的联合分布函数
联合分布函数是 x, y 的单调不减函数
边缘分布函数
当 F(x,y) 是 (X,Y) 的联合分布函数时, 由于 {Y⩽∞},{X⩽∞} 是必然事件, 所以对于 X,Y 来说, 有概率分布
FX(x)=P(X⩽x,Y⩽∞)=F(x,∞)
FY(y)=P(X⩽∞,Y⩽y)=F(∞,y)
此时称 FX(x),FY(y) 为 (X,Y) 的边缘分布函数
独立性
X,Y 相互独立的充要条件是对任何 x,y 都有 F(x,y)=FX(x)FY(y) , 该定理可推广至任意多个随机变量
当 X1,X2,⋯,Xn 相互独立时, 有以下定理成立
- Y1=g1(X1),Y2=g2(X2),⋯,Yn=gn(Xn) 相互独立
- 对于 k 元函数 g(x1,x2,⋯,xk) ,定义 Zk=g(X1,X2,⋯,Xk) ,则 Zk,Xk+1,⋯,Xn 相互独立
密度函数
联合密度函数
设 (X,Y) 是随机向量, 如果有 R2 上的非负函数 f(x,y) 使得 R2 的任何长方形子集
D={(x,y)∣a<x⩽b,c<y}
有
P((X,Y)∈D)=∬Df(x,y)dx dy
则称, (X,Y) 是连续型随机变量, 并称 f(x,y) 是 (X,Y) 的联合概率密度或联合密度(joint density)
边缘密度函数
如果 f(x,y) 是随机向量 (X,Y) 的联合密度, 则称 X,Y 各自的概率密度为 f(x,y) 或 (X,Y) 的边缘密度(marginal density)
由定义与随机向量中变量关系可得:
fX(x)=∫−∞∞f(x,y)dy
fY(y)=∫−∞∞f(x,y)dx
独立性
设 X,Y 分别有概率密度 fX(x),fY(y) , 则 X,Y 独立的充分必要条件是随机向量 (X,Y) 有联合密度
f(x,y)=fX(x)fY(y)
若已知 X,Y 独立, 则已知 X=x 时, Y 的取值范围与 x 无关
若连续型随机向量 (X1,X2,⋯,Xn) 的概率密度函数 f(x1,⋯,xn) 可表示 n 个函数 (g1,⋯,gn) 之积, 其中 gi 只依赖于 xi , 即
f(x1,⋯,xn)=g1(x1)⋯gn(xn)
则 X1,X2,⋯,Xn 互相独立, 且 Xi 的边缘密度函数 fi(xi) 与 gi(xi) 只相差一个常数因子
随机向量函数的分布函数与概率密度函数
离散型随机向量的函数
泊松分布具有可加性: 如果 X1,X2,⋯,Xn 相互独立, Xi∼P(λi) , 则
Zn=X1+X2+⋯+Xn∼P(λ1+λ2+⋯+λn)
二项分布具有可加性: 如果 X1,X2,⋯,Xn 相互独立, Xi∼B(mi,p) , 则
Zn=X1+X2+⋯+Xn∼P(m1+m2+⋯+mn,p)
正态分布具有可加性: 如果 X1,X2,⋯,Xn 相互独立, Xi∼N(μi,σi) , 则
Zn=c0±c1X1±c2X2±⋯±cnXn∼N(c0±c1μ1±⋯±cnμn,c12σ12+c22σ22+⋯+cn2σn2)
连续性随机向量的函数
加法
设 (X,Y) 有联合密度 f(x,y) , 则 U=X+Y 有概率密度
fU(u)=∫−∞∞f(x,u−x)dx=∫−∞∞f(u−y,y)dy
当 X,Y 独立时
fU(u)=∫−∞∞fX(x)fY(u−x)dx=∫−∞∞fX(u−y)fY(y)dy
减法
设 (X,Y) 有联合密度 f(x,y) , 则 V=X−Y 有概率密度
fV(v)=∫−∞∞f(x,x−v)dx=∫−∞∞f(v+y,y)dy
当 X,Y 独立时
fV(v)=∫−∞∞fX(x)fY(x−v)dx=∫−∞∞fX(v+y)fY(y)dy
最值
最大值: 设 (X,Y) 有联合密度 f(x,y) , 则 Z=max(X,Y) 有概率密度
fmax(z)=fX(z)fY(z)
最小值: 设 (X,Y) 有联合密度 f(x,y) , 则 Z=min(X,Y) 有概率密度
fmin(z)=1−(1−fX(z))(1−fY(z))
随机向量函数的联合概率密度
如果 x=x(u,v),y=y(u,v) , 在平面的开集D中有连续的偏导数, 且雅克比行列式为
J=∂(u,v)∂(x,y)=∂u∂x∂u∂y∂v∂x∂v∂y=0
则有
dx dy=∣∂(u,v)∂(x,y)∣du dv=∣J∣du dv
u,v∈D
其中 ∣J∣ 是 J 的绝对值
然后利用
g(u,v)=f(x(u,v),y(u,v))∣J∣
得到随机向量 (X,Y) 的联合密度
条件概率密度
fX∣Y(x∣y)=fY(y)f(x,y)
因此, X,Y 独立的充要条件是 fX∣Y(x∣y)=fX(x)
随机变量的数字特征
期望
定义
离散型:
E(X)=k=1∑+∞xk⋅pk
连续型:
E(X)=∫−∞+∞x⋅f(x)dx
Y=g(X)
离散型:
E(Y)=E[g(X)]=k=1∑∞g(xk)⋅pk
连续型:
E(Y)=E[g(X)]=∫−∞+∞g(x)f(x)dx
Z=h(X,Y)
离散型:
E(Z)=E[h(X,Y)]=i=1∑∞j=1∑∞h(xi,yj)⋅pij
连续型:
E(Z)=E[h(X,Y)]=∫−∞+∞∫−∞+∞h(x,y)f(x,y)dx dy
性质
- 线性组合 Y=c0+c1X1+c2X2+⋯+cnXn 的期望存在, 且 E(c0+c1X1+c2X2+⋯+cnXn)=c0+c1E(X1)+c2
- 若 X1,X2,⋯,Xn 相互独立, 那么乘积 Z=X1X2⋯Xn 的期望存在, 且 E(X1X2⋯Xn)=E(X1)E(X2)⋯E(Xn)
- E(X)=μ
方差
定义
-
基本:
D(X)=E((X−μ)2)=E(X2)−μ2=E(X2)−(E(X))2
-
离散型:
D(X)=i=1∑+∞[xi−E(X)]2pi
-
连续型:
D(X)=∫−∞+∞[x−E(X)]2f(x)dx
性质
-
Var(X)=EX2−(EX)2⩾0⇒Var(X)⩽EX2
-
Var(cX)=c2Var(X)
-
Var(X)⩽E(X−c)2, 当且仅当 c=EX 时等号成立
-
Var(X+Y)=Var(X)+Var(Y)+2⋅Cov(X,Y)
-
Var(X−Y)=Var(X)+Var(Y)−2⋅Cov(X,Y)
-
若 X,Y 相互独立, a,b 为常数, 那么有
Var(aX+bY)=a2Var(X)+b2Var(Y)
-
Var(X)=nσ2
-
Var(XY)=Var(X)Var(Y)+Var(X)(EY)2+Var(Y)(EX)2
标准化
我们称
X∗=Var(X)X−EX
为 X 的标注化随机变量, 易得 EX∗=0,Var(X∗)=1
矩
定义
设 X 为随机变量, c 为常数, r 为正整数, 则 E[(X−c)2] 称为 X 关于 c 点的 r 阶矩
原点矩与中心距
c=0 , 此时 αk=EXr 称为 X 的 r 阶原点矩
c=EX , 此时 μk=E[(X−EX)r] 称为 X 的 r 阶中心矩
协方差与相关性
协方差定义
Cov(X,Y)=E{[X−E(X)][Y−E(Y)]}
称为 X,Y 的协方差, 其中 Cov 是英文单词 Covariance 的缩写
协方差性质
- Cov(X,Y)=Cov(Y,X)
- Cov(X,X)=Var(X)
- Cov(X,Y)=E(XY)−E(X)E(Y), 所以当 X,Y 相互独立时, 协方差为 0
- Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)
- Cov(aX,bY)=ab⋅Cov(X,Y)
相关系数定义
设 X,Y 是随机变量, 则称
ρXY=Var(X)Var(Y)Cov(X,Y)
为 X,Y 的相关系数
相关系数性质
- 当 ρXY=0 时, 称 X,Y 不(线性)相关
- ρXY=Cov(X∗,Y∗) , 因此可以将相关系数视为标准尺度下的协方差
- ∣ρXY∣⩽1 , 等号成立当且仅当 X,Y 之间存在严格的线性关系, 即
- ρXY=1 , 则存在 a>0,b∈R 使得 X=aY+b (正相关)
- ρXY=−1 , 则存在 a<0,b∈R 使得 X=aY+b (负相关)
不相关与独立
不相关:
独立:
- P(X=xi,Y=yj)=P(X=xi)P(Y=yj)
- f(x,y)=fX(x)fY(y)
因此对随机变量 X,Y , 如果 X,Y 相互独立, 那么他们一定不相关, 但如果他们不相关却未必相互独立.
大数定律与中心极限定理
切比雪夫不等式
∀ε>0,P{∣X−μ∣⩾ε}<ε2σ2
伯努利大数定律
n→+∞limP{∣nnA−p∣⩾ε}=0
独立同分布的中心极限定理
设 X1,X2,⋯,Xn,⋯ 相互独立且同分布, E(Xi)=μ,D(Xi)=σ2,i=1,2,⋯ , 则对于充分大的 n 有
i=1∑nXi→dN(nμ,nσ2)
nσX1+⋯+Xn−nμ→dN(0,1)
n→∞limP(nσX1+⋯+Xn−nμ⩽x)=Φ(x)
德莫弗-拉普拉斯定理
即二项分布可以用正态分布逼近:
nA→dN(np,np(1−p))
np(1−p)X1+⋯+Xn−np→dN(0,1)
n→∞limP(np(1−p)X1+⋯+Xn−np⩽x)=Φ(x)
统计分布与序分布
卡方分布
定义
设 X1,X2,⋯,Xn 是来自标准正态总体 N(0,1) 的一个样本, 令
X=i=1∑nXi2
则称 X 是自由度为 n 的 χ2 变量, 其分布称为自由度为 n 的 χ2 分布, 记为 X∼χn2
概率密度
fn(x)={22nΓ(2n)1y2n−1e−2π0,x>0,x⩽0.
可以观察到自由度为 n 的 χ2 分布与 Gamma 分布的关系为:
X=i=1∑nXi2∼Γ(2n,21)
性质
- 期望: E(χn2)=n
- 方差: Var(χn2)=2n
- 可加性: 若 X∼χn12,Y∼χn22 , 且 X,Y 相互独立, 那么有 X+Y∼χ2(n1+n2)
上侧α分位数
若 X∼χn2 , 记 P(X>c)=α , 则 c=χn2(α) 称为 χn2 分布的上侧 α 分位数
t分布
定义
设随机变量 X∼N(0,1),Y∼χn2 , 且 X,Y 独立, 则称
T=nYX
为自由度为 n 的 t 变量, 其分布称为自由度为 n 的 t 分布, 记作 T∼tn
概率密度
tn(x)=Γ(2n)nπΓ(2n+1)(1+nx2)−2n+1,(x∈R)
易得 t 分布于正态分布的关系
n→∞limtn(x)=φ(x)
性质
期望: 当 n>=2 时, E(T)=0
方差: 当 n>=3 时, Var(T)=n−2n
双侧α分位数
若 T∼tn , 记 P(∣T∣>c)=α , 则 c=tn(2α) 为自由度为 n 的 t 分布的双侧 α 分位数
F分布
定义
设随机变量 X∼χ2(m),Y∼χ2(n) , 且 X,Y 独立, 则称
F=nYmX
为自由度分别是 m,n 的 F 变量, 其分布称为自由度为 m,n 的 F 分布, 记作 F∼F(m,n)
概率密度
fm,n(x)=Γ(2n)Γ(2m)Γ(2m+n)m2mn2nx2m−1(n+mx)−2m+n,(x>0)
性质
若 Z∼F(m,n) , 则 Z1∼F(n,m)
若 T∼tn , 则 T2∼F(1,n)
F1−α(m,n)=Fα(n,m)1 , 注意自由度对换
上侧α分位数
若 F∼F(m,n) , 记 P(F>c)=α , 则 c=Fα(m,n) 为 F 分布的上侧 α 分位数
正态总体的样本均值与样本方差的分布
一般总体的样本均值与样本方差
设总体 X 分布未知, 但已知 E(X)=μ, D(X)=σ2, X1,X2,⋯,Xn 是来自总体 X 的样本
X=n1i=1∑nXi
S2=n−11i=1∑n(Xi−X)2
分别为样本均值与样本方差, 则有
E(X)=μD(X)=nσ2
E(S2)=D(X)=σ2
正态变量样本均值与样本方差的性质
设 X1,X2,⋯,Xn∼N(μ,σ2), X,S2 分别为样本均值与样本方差, 则有
X∼N(μ,nσ2)
σ2(n−1)S2∼χn−12X,S2相互独立
几个重要推论
- 设 X1,X2,⋯,Xn 相互独立相同分布 ∼N(μ,σ2), 则有
T=Sn(X−μ)∼t(n−1)
- 设 X1,X2,⋯,Xm 相互独立相同分布 ∼N(μ1,σ12), Y1,Y2,⋯,Yn 相互独立相同分布 ∼N(μ2,σ22), 且假定 σ12=σ22=σ2 , 样本 X1,X2,⋯,Xm,Y1,Y2,⋯,Yn 独立, 则有
n1σ12+m2σ22(X−Y)−(μ1−μ2)∼N(0,1)
T=Sw(X−Y)−(μ1−μ2)⋅n+mmn∼t(n+m−2)
Sw=n+m−2(m−1)S12+(n−1)S22
- 设 X1,X2,⋯,Xm 相互独立相同分布 ∼N(μ1,σ12), Y1,Y2,⋯,Yn 相互独立相同分布 ∼N(μ2,σ22) , 样本 X1,X2,⋯,Xm,Y1,Y2,⋯,Yn 独立, 则有
F=S22S12⋅σ12σ22=σ22S22σ12S12∼F(m−1,n−1)
参数估计
估计
估计的分类
假设 θ^ 是 θ 的估计, 那么有
- 若 Eθ^=θ , 则称 θ^ 是 θ 的无偏估计
- 当样本量 n→∞ , θ^ 依概率收敛到 θ ,则称 θ^ 是 θ 的相合估计
- 当样本量 n→∞ , θ^ 依概率1收敛到 θ ,则称 θ^ 是 θ 的强相合估计
样本均值与样本方差的估计
- 样本均值 Xn 是总体均值 μ 的强相合无偏估计
- 样本方差 S2 是总体方差 σ2 的强相合无偏估计
- 样本标准差 S 是总体标准差 σ 的强相合估计, 但 ES<σ
点估计
矩估计
定义
矩估计是最简单的估计方法, 基本思路是用样本矩估计总体矩. 由大数率, 若未知参数与总体的某个或某些矩有关系, 则自然想到构造样本矩去估计未知参数
样本矩
样本 k 阶原点矩:
ak=n1i=1∑nXik
样本 k 阶中心矩:
ak=n1i=1∑n(Xik−X)k
由大数律保证了
ak→pαk
mk→pμk
常用矩估计
- 在泊松分布 P(λ) 中
λ=EX=α1
且 α1 的矩估计是 a1, 因此
λ^=a1=n1i=1∑nXi
- 在指数分布 E(λ) 中
μ=EX=λ1⇒λ=EX1=α11
且 α1 的矩估计是 a1, 因此
λ^=a11=n1∑i=1nXi1
- 在正态总体N(μ,σ2)中
μ=EX=α1σ2=EX2−(EX)2=α2−α12
且 α1 的矩估计是 a1, α2 的矩估计是 a2, 因此
分别用
μ^=a1=n1i=1∑nXiσ^2=a2−a12=n1i=1∑nXi2−(n1i=1∑nXi2)2
来估计参数 μ 与 σ2
- 在均匀总体 U(a,b) 中
α1=EX=2a+bα2−α12=D(X)=12(b−a)2
解出方程组得到
a=α1−3(α2−α12)b=α1+3(α2−α12)
分别用
a^=a1−3(a2−a12)b^=a1+3(a2−a12)
来估计参数 a,b
极大似然估计
定义
设 X=(X1,⋯,Xn) 为从总体中抽出的样本, 该总体具有概率函数 f , θ 为未知参数或未知参数向量, x=(x1,⋯,xn) 为样本的观察值
若在给定 x 时, 值 θ^=θ^(x) 满足下式
L(θ^)=θ∈ΘmaxL(x;θ)
则称 θ^ 为参数 θ 的极大似然估计, 而 θ^(X) 称为 θ 的极大似然估计量, L(x;θ) 称为极大似然函数
若待估参数是 θ 的函数 g(θ) , 那么它的极大似然估计就是 g(θ^) , 由于lnL(θ) 与 L(θ) 有相同的最大值点, 因此也可以用 l(θ)=lnL(θ) 进行极大似然估计, 通常称 l(θ) 为对数似然函数
操作方法
求极大似然估计相当于求似然函数的最大值, 在简单样本的情况下
L(x;θ)=i=1∏nf(x;θ)
当似然函数对变量 θ 单调时, 直接利用单调性得到最大值点
当似然函数非单调, 且对变量 θ 可微分时, 我们可以求其驻点
令
dθdL(θ)=0或者dθdl(θ)=0
当 θ 为多维时, 令
∂θi∂L(θ)=0或者∂θi∂l(θ)=0
然后判断此驻点是否是最大值
区间估计
定义
设总体分布 F(x,θ) 含有一个或多个未知参数 θ , θ∈Θ
对给定的值 αt(0<α<1) ,若由样本 X1,⋯,Xn 确定的两个统计量 θ^L=θ^L(X1,⋯,Xn) 和 θ^U=θ^U(X1,⋯,Xn) 有
Pθ(θ^L<θ<θ^U)=1−αθ^L<θ^U
则称 (θ^L,θ^U) 是参数 θ 的置信水平为 1−α 的置信区间
枢轴量法
设待估参数为 g(θ)
-
找一个与待估参数 g(θ) 有关的统计量 T , 一般是个良好的点估计 (往往通过极大似然估计构造)
-
设法找出 T 与 g(θ) 的某个函数 S(T,g(θ)) 的分布,其分布 F 要与参数 θ 无关 (S即为枢轴变量)
-
对任何常数 a<b , 不等式 a⩽S(T,g(θ))⩽b 要能表示成等价的形式 A⩽g(θ)⩽B ,其中 A,B 只与 T,a,b 有关, 而与参数无关
-
取分布 F 的上 α/2 分位数 ωα/2 和下 1−α/2 分位数 ω1−α/2 ,有 F(ω1−α/2)−F(ωα/2)=1−α , 因此
Pθ(ωα/2⩽S(T,g(θ))⩽ω1−α/2)=1−α