参考skyking-pia的概率论与数理统计复习与浙大概统教材整理。

注意:

  • 笔记内容和浙大教材略有出入,比如 α\alpha 分位数的概念浙大版没怎么提,定义置信区间时用的符号略有差别。
  • 最后一章(假设检验)内容没有整理,见于概统公式表
  • 文中公式均可复制,复制内容是对应的 LaTeX\LaTeX 公式。

概率论的基本概念

加法公式

P(A1A2)=P(A1)+P(A2)P(A1A2)P(A1A2A3)=P(A1)+P(A2)+P(A3)P(A1A2)P(A1A3)P(A2A3)+P(A1A2A3)P(i=1nAi)=i=1nP(Ai)i<jP(AiAj)+i<j<kP(AiAjAk)++(1)n1P(A1A2An)\begin{aligned} &P(A_1 \cup A_2)&=&P(A_1)+P(A_2)-P(A_1 A_2) \\ &P(A_1 \cup A_2 \cup A_3)&=&P(A_1)+P(A_2)+P(A_3)-P(A_1 A_2)-P(A_1 A_3)-P(A_2 A_3)+P(A_1 A_2 A_3) \\ &P(\bigcup_{i=1}^n A_i)&=&\sum_{i=1}^n P(A_i)-\sum_{i < j} P(A_i A_j)+\sum_{i<j<k} P(A_i A_j A_k)+\cdots+(-1)^{n-1} P(A_1 A_2 \cdots A_n) \\ \end{aligned}

条件概率

P(BA)=P(AB)P(A)P(AB)=P(B)P(AB)=P(A)P(BA)P(A1A2An)=P(A1)P(A1A2)P(A3A1A2)P(AnA1A2An1)\begin{aligned} &P(B \mid A)&=&\frac{P(A B)}{P(A)} \\ &P(A B)&=&P(B) P(A \mid B)\\ &&=&P(A) P(B \mid A) \\ &P(A_1 A_2 \cdots A_n)&=&P(A_1) P(A_1 \mid A_2) P(A_3 \mid A_1 A_2) \cdots P(A_n \mid A_1 A_2 \cdots A_{n-1}) \\ \end{aligned}

全概率公式

P(A)=P(AB)+P(AB)=P(B)P(AB)+P(B)P(AB)P(A)=j=1nP(Bj)P(ABj)\begin{aligned} &P(A)&=& P(A B)+P(A \overline{B}) \\ &&=&P(B) P(A \mid B)+P(\overline{B}) P(A \mid \overline{B}) \\ &P(A)&=& \sum_{j=1}^n P(B_j) P(A \mid B_j) \\ \end{aligned}

贝叶斯公式

P(BA)=P(AB)P(A)=P(B)P(AB)P(B)P(AB)+P(B)P(AB)P(BiA)=P(ABi)P(A)=P(Bi)P(ABi)j=1nP(Bj)P(ABj)\begin{aligned} &P(B \mid A)&=&\frac{P(AB)}{P(A)} \\ &&=&\frac{P(B) P(A \mid B)}{P(B) P(A \mid B)+P(\overline{B}) P(A \mid \overline{B})}\\ &P(B_i \mid A)&=&\frac{P(A B_i)}{P(A)} \\ &&=&\frac{P(B_i) P(A B_i)}{\sum_{j=1}^n P(B_j) P(A \mid B_j)} \end{aligned}

事件运算

A(BC)=ABAABC=(AB)(AC)AB=ABAB=ABAB=AB\begin{aligned} &A(B \cup C) &=& A B \cup A \\ &A \cup B C &=& (A \cup B)(A \cup C)\\ &\overline{A \cup B} &=& \overline{A} \cap \overline{B}\\ &\overline{A \cap B} &=& \overline{A} \cup \overline{B}\\ &A-B &=& A \overline{B} \\ \end{aligned}

随机变量及其概率分布

概率密度

F(x)=xf(t)dtF(x)=\int_{-\infty}^x f(t) d t

1=+f(x)dx1=\int_{-\infty}^{+\infty} f(x) d x

有对数集 AA, 使得

P(xA)=Af(x)dxP(x \in A)=\int_A f(x) d x

常见离散随机变量的分布、期望与方差

(01)(0-1) 分布

X01(p)X \sim 0-1(p)

P(X=k)=pk(1p)nkP(X=k)=p^k(1-p)^{n-k}

E(X)=pD(X)=p(1p)E(X)=p \\ D(X)=p(1-p)

二项分布

XB(n,p)X \sim B(n, p)

P(X=k)=Cnkpk(1p)nkP(X=k)=C_n^k \cdot p^k \cdot(1-p)^{n-k}

E(X)=npD(X)=np(1p)E(X)=n p \\ D(X)=n p(1-p)

泊松分布

XP(λ)X \sim P(\lambda)

P(X=k)=λkeλk!k=0,1,2,P(X=k)=\frac{\lambda^k e^{-\lambda}}{k !} \hspace{2em} k=0,1,2, \cdots

E(X)=λD(X)=λE(X)=\lambda \\ D(X)=\lambda

超几何分布

XH(N,M,n)X \sim H(N, M, n)

P(X=k)=CULkCNMnkCNNMP(X=k)=\frac{C_{U L}^k C_{N-M}^{n-k}}{C_N^{N-M}}

E(X)=nMND(X)=nM(NM)(Nn)N2(N1)E(X)=n \frac{M}{N} \\ D(X)=n \frac{M(N-M)(N-n)}{N^2(N-1)}

几何分布

XG(p)X \sim G(p)

P(X=k)=(1p)k1pP(X=k)=(1-p)^{k-1} p

E(X)=1pD(X)=1pp2E(X)=\frac{1}{p} \\ D(X)=\frac{1-p}{p^2}

连续随机变量的分布、期望与方差

正态分布

XN(μ,σ2)X \sim N(\mu, \sigma^2)

f(x)=12πσe(xμ)22σ2f(x)=\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{(x-\mu)^2}{2 \sigma^2}}

E(X)=μD(X)=σ2E(X)=\mu \\ D(X)=\sigma^2

化为标准正态分布:

Y=XμσN(0,1)Y=\frac{X-\mu}{\sigma} \sim N(0,1)

指数分布

XE(λ)X \sim E(\lambda)

f(x)=λeλxx0f(x)=\lambda e^{-\lambda x} \hspace{2em} x \geqslant 0

F(x)=1eλxx0F(x)=1-e^{-\lambda x} \hspace{2em} x \geqslant 0

E(X)=1μD(X)=1λ2E(X)=\frac{1}{\mu} \\ D(X)=\frac{1}{\lambda^2}

威布尔分布

XW(X)X \sim W(X)

f(x)=λαxα1eλxαx>0f(x)=\lambda \alpha x^{\alpha-1} e^{-\lambda x^{\alpha}} \hspace{2em} x>0

F(x)=1eλxαx>0F(x)=1-e^{-\lambda x^{\alpha}} \hspace{2em} x>0

均匀分布

XU(a,b)X \sim U(a, b)

f(x)=1baax<bf(x)=\frac{1}{b-a} \hspace{2em} a \leqslant x<b

F(x)={0,xa(xa)(ba),a<x<b1,xbF(x)=\begin{cases}0 &, x \leqslant a \\ \frac{(x-a)}{(b-a)} &, a<x<b \\ 1&, x \geqslant b\end{cases}

E(X)=a+b2D(X)=(ba)212E(X)=\frac{a+b}{2} \\ D(X)=\frac{(b-a)^2}{12}

伽马分布

Γ(α)=0xα1ex dxα>0\Gamma(\alpha)=\int_0^{\infty} x^{\alpha-1} e^{-x} ~d x \hspace{2em} \alpha>0

XΓ(α,β)X \sim \Gamma(\alpha, \beta)

f(x)=βαΓ(α)xα1eβxx0f(x)=\frac{\beta^{\alpha}}{\Gamma(\alpha)} x^{\alpha-1} e^{-\beta x} \hspace{2em} x \geqslant 0

E(X)=αβD(X)=αβ2E(X)=\frac{\alpha}{\beta} \\ D(X)=\frac{\alpha}{\beta^2}

对数正态分布

lnXN(μ,σ)\ln X \sim N(\mu, \sigma)

f(x)=1xσ2πe(lnxμ)22σ2f(x)=\frac{1}{x \sigma \sqrt{2 \pi}} e^{-\frac{(\ln x-\mu)^2}{2 \sigma^2}}

E(X)=eμ+σ22D(X)=(eσ21)e2μ+σ2E(X)=e^{\mu+\frac{\sigma^2}{2}} \\ D(X)=(e^{\sigma^2}-1) e^{2 \mu+\sigma^2}

随机变量函数的概率密度

若有 Y=g(x)Y=g(x), 使 g(x)>0g^{\prime}(x)>0g(x)<0g^{\prime}(x)<0

则有

fY(y)=fX(h(y))h(y)f_Y(y)=f_X(h(y)) \cdot|h^{\prime}(y)|

α<y<β\alpha<y<\beta

其中 h(y)h(y)g(x)g(x) 的反函数, 即 h(y)=g1(x)h(y)=g^{-1}(x)

随机向量及其概率分布

分布函数

联合分布函数

对于随机向量 (X,Y)(X, Y), 称 F(x,y)=P(Xx,Yy)F(x, y)=P(X \leqslant x, Y \leqslant y)(X,Y)(X, Y) 的联合分布函数

联合分布函数是 xx, yy 的单调不减函数

边缘分布函数

F(x,y)F(x, y)(X,Y)(X, Y) 的联合分布函数时, 由于 {Y},{X}\{Y \leqslant \infty\},\{X \leqslant \infty\} 是必然事件, 所以对于 X,YX, Y 来说, 有概率分布

FX(x)=P(Xx,Y)=F(x,)F_X(x)=P(X \leqslant x, Y \leqslant \infty)=F(x, \infty)

FY(y)=P(X,Yy)=F(,y)F_Y(y)=P(X \leqslant \infty, Y \leqslant y)=F(\infty, y)

此时称 FX(x),FY(y)F_X(x), F_Y(y)(X,Y)(X, Y) 的边缘分布函数

独立性

X,YX, Y 相互独立的充要条件是对任何 x,yx,y 都有 F(x,y)=FX(x)FY(y)F(x, y)=F_X(x) F_Y(y) , 该定理可推广至任意多个随机变量

X1,X2,,XnX_1, X_2, \cdots, X_n 相互独立时, 有以下定理成立

  1. Y1=g1(X1),Y2=g2(X2),,Yn=gn(Xn)Y_1=g_1(X_1), Y_2=g_2(X_2), \cdots, Y_n=g_n(X_n) 相互独立
  2. 对于 k 元函数 g(x1,x2,,xk)g(x_1, x_2, \cdots, x_k) ,定义 Zk=g(X1,X2,,Xk)Z_k=g(X_1, X_2, \cdots, X_k) ,则 Zk,Xk+1,,XnZ_k, X_{k+1}, \cdots, X_n 相互独立

密度函数

联合密度函数

(X,Y)(X, Y) 是随机向量, 如果有 R2\mathbb{R}^2 上的非负函数 f(x,y)f(x, y) 使得 R2\mathbb{R}^2 的任何长方形子集

D={(x,y)a<xb,c<y}D=\{(x, y) \mid a<x \leqslant b, c<y\}

P((X,Y)D)=Df(x,y)dx dyP((X, Y) \in D)=\iint_D f(x, y) d x ~d y

则称, (X,Y)(X, Y) 是连续型随机变量, 并称 f(x,y)f(x, y)(X,Y)(X, Y) 的联合概率密度或联合密度(joint density)

边缘密度函数

如果 f(x,y)f(x, y) 是随机向量 (X,Y)(X, Y) 的联合密度, 则称 X,YX, Y 各自的概率密度为 f(x,y)f(x, y)(X,Y)(X, Y) 的边缘密度(marginal density)

由定义与随机向量中变量关系可得:

fX(x)=f(x,y)dyf_X(x)=\int_{-\infty}^{\infty} f(x, y) d y

fY(y)=f(x,y)dxf_Y(y)=\int_{-\infty}^{\infty} f(x, y) d x

独立性

X,YX, Y 分别有概率密度 fX(x),fY(y)f_X(x), f_Y(y) , 则 X,YX,Y 独立的充分必要条件是随机向量 (X,Y)(X,Y) 有联合密度

f(x,y)=fX(x)fY(y)f(x, y)=f_X(x) f_Y(y)

若已知 X,YX,Y 独立, 则已知 X=xX = x 时, YY 的取值范围与 xx 无关

若连续型随机向量 (X1,X2,,Xn)(X_1, X_2, \cdots, X_n) 的概率密度函数 f(x1,,xn)f(x_1, \cdots, x_n) 可表示 nn 个函数 (g1,,gn)(g_1, \cdots, g_n) 之积, 其中 gig_i 只依赖于 xix_i , 即

f(x1,,xn)=g1(x1)gn(xn)f(x_1, \cdots, x_n)=g_1(x_1) \cdots g_n(x_n)

X1,X2,,XnX_1, X_2, \cdots, X_n 互相独立, 且 XiX_i 的边缘密度函数 fi(xi)f_i(x_i)gi(xi)g_i(x_i) 只相差一个常数因子

随机向量函数的分布函数与概率密度函数

离散型随机向量的函数

泊松分布具有可加性: 如果 X1,X2,,XnX_1, X_2, \cdots, X_n 相互独立, XiP(λi)X_i \sim P(\lambda_i) , 则

Zn=X1+X2++XnP(λ1+λ2++λn)Z_n=X_1+X_2+\cdots+X_n \sim P(\lambda_1+\lambda_2+\cdots+\lambda_n)

二项分布具有可加性: 如果 X1,X2,,XnX_1, X_2, \cdots, X_n 相互独立, XiB(mi,p)X_i \sim B(m_i, p) , 则

Zn=X1+X2++XnP(m1+m2++mn,p)Z_n=X_1+X_2+\cdots+X_n \sim P(m_1+m_2+\cdots+m_n, p)

正态分布具有可加性: 如果 X1,X2,,XnX_1, X_2, \cdots, X_n 相互独立, XiN(μi,σi)X_i \sim N(\mu_i, \sigma_i) , 则

Zn=c0±c1X1±c2X2±±cnXnN(c0±c1μ1±±cnμn,c12σ12+c22σ22++cn2σn2)Z_n=c_0 \pm c_1 X_1 \pm c_2 X_2 \pm \cdots \pm c_n X_n \\ \sim N(c_0 \pm c_1 \mu_1 \pm \cdots \pm c_n \mu_n, c_1^2 \sigma_1^2+c_2^2 \sigma_2^2+\cdots+c_n^2 \sigma_n^2)

连续性随机向量的函数

加法

(X,Y)(X,Y) 有联合密度 f(x,y)f(x,y) , 则 U=X+YU = X + Y 有概率密度

fU(u)=f(x,ux)dx=f(uy,y)dyf_U(u)=\int_{-\infty}^{\infty} f(x, u-x) d x=\int_{-\infty}^{\infty} f(u-y, y) d y

X,YX,Y 独立时

fU(u)=fX(x)fY(ux)dx=fX(uy)fY(y)dyf_U(u)=\int_{-\infty}^{\infty} f_X(x) f_Y(u-x) d x=\int_{-\infty}^{\infty} f_X(u-y) f_Y(y) d y

减法

(X,Y)(X,Y) 有联合密度 f(x,y)f(x,y) , 则 V=XYV = X - Y 有概率密度

fV(v)=f(x,xv)dx=f(v+y,y)dyf_V(v)=\int_{-\infty}^{\infty} f(x, x-v) d x=\int_{-\infty}^{\infty} f(v+y, y) d y

X,YX,Y 独立时

fV(v)=fX(x)fY(xv)dx=fX(v+y)fY(y)dyf_V(v)=\int_{-\infty}^{\infty} f_X(x) f_Y(x-v) d x=\int_{-\infty}^{\infty} f_X(v+y) f_Y(y) d y

最值

最大值: 设 (X,Y)(X,Y) 有联合密度 f(x,y)f(x,y) , 则 Z=max(X,Y)Z = max(X,Y) 有概率密度

fmax(z)=fX(z)fY(z)f_{\max }(z)=f_X(z) f_Y(z)

最小值: 设 (X,Y)(X,Y) 有联合密度 f(x,y)f(x,y) , 则 Z=min(X,Y)Z = min(X,Y) 有概率密度

fmin(z)=1(1fX(z))(1fY(z))f_{\min }(z)=1-(1-f_X(z))(1-f_Y(z))

随机向量函数的联合概率密度

如果 x=x(u,v),y=y(u,v)x=x(u, v), y=y(u, v) , 在平面的开集D中有连续的偏导数, 且雅克比行列式为

J=(x,y)(u,v)=xuxvyuyv0J=\frac{\partial(x, y)}{\partial(u, v)}=\begin{vmatrix}\frac{\partial x}{\partial u} & \frac{\partial x}{\partial v} \\ \frac{\partial y}{\partial u} & \frac{\partial y}{\partial v}\end{vmatrix} \neq 0

则有

dx dy=(x,y)(u,v)du dv=Jdu dvd x ~d y=|\frac{\partial(x, y)}{\partial(u, v)}| d u ~d v=|J| d u ~d v

u,vDu, v \in D

其中 J|J|JJ 的绝对值

然后利用

g(u,v)=f(x(u,v),y(u,v))Jg(u, v)=f(x(u, v), y(u, v))|J|

得到随机向量 (X,Y)(X,Y) 的联合密度

条件概率密度

fXY(xy)=f(x,y)fY(y)f_{X \mid Y}(x \mid y)=\frac{f(x, y)}{f_Y(y)}

因此, X,YX,Y 独立的充要条件是 fXY(xy)=fX(x)f_{X \mid Y}(x \mid y)=f_X(x)

随机变量的数字特征

期望

定义

离散型:

E(X)=k=1+xkpkE(X)=\sum_{k=1}^{+\infty} x_k \cdot p_k

连续型:

E(X)=+xf(x)dxE(X)=\int_{-\infty}^{+\infty} x \cdot f(x) d x

Y=g(X)Y = g(X)

离散型:

E(Y)=E[g(X)]=k=1g(xk)pkE(Y)=E[g(X)]=\sum_{k=1}^{\infty} g(x_k) \cdot p_k

连续型:

E(Y)=E[g(X)]=+g(x)f(x)dxE(Y)=E[g(X)]=\int_{-\infty}^{+\infty} g(x) f(x) d x

Z=h(X,Y)Z = h(X,Y)

离散型:

E(Z)=E[h(X,Y)]=i=1j=1h(xi,yj)pijE(Z)=E[h(X, Y)]=\sum_{i=1}^{\infty} \sum_{j=1}^{\infty} h(x_i, y_j) \cdot p_{i j}

连续型:

E(Z)=E[h(X,Y)]=++h(x,y)f(x,y)dx dyE(Z)=E[h(X, Y)]=\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} h(x, y) f(x, y) d x ~d y

性质

  1. 线性组合 Y=c0+c1X1+c2X2++cnXnY=c_0+c_1 X_1+c_2 X_2+\cdots+c_n X_n 的期望存在, 且 E(c0+c1X1+c2X2++cnXn)=c0+c1E(X1)+c2E(c_0+c_1 X_1+c_2 X_2+\cdots+c_n X_n)=c_0+c_1 E(X_1)+c_2
  2. X1,X2,,XnX_1, X_2, \cdots, X_n 相互独立, 那么乘积 Z=X1X2XnZ=X_1 X_2 \cdots X_n 的期望存在, 且 E(X1X2Xn)=E(X1)E(X2)E(Xn)E(X_1 X_2 \cdots X_n)=E(X_1) E(X_2) \cdots E(X_n)
  3. E(X)=μE(\overline{X})=\mu

方差

定义

  1. 基本:

    D(X)=E((Xμ)2)=E(X2)μ2=E(X2)(E(X))2D(X)=E((X-\mu)^2)=E(X^2)-\mu^2=E(X^2)-(E(X))^2

  2. 离散型:

    D(X)=i=1+[xiE(X)]2piD(X)=\sum_{i=1}^{+\infty}[x_i-E(X)]^2 p_i

  3. 连续型:

    D(X)=+[xE(X)]2f(x)dxD(X)=\int_{-\infty}^{+\infty}[x-E(X)]^2f(x)dx

性质

  1. Var(X)=EX2(EX)20Var(X)EX2Var(X)=E_X^2-(E_X)^2 \geqslant 0 \Rightarrow Var(X) \leqslant E_X^2

  2. Var(cX)=c2Var(X)Var(c X)=c^2 Var(X)

  3. Var(X)E(Xc)2Var(X) \leqslant E(X-c)^2, 当且仅当 c=EXc=E_X 时等号成立

  4. Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)Var(X+Y)=Var(X)+Var(Y)+2 \cdot Cov(X, Y)

  5. Var(XY)=Var(X)+Var(Y)2Cov(X,Y)Var(X-Y)=Var(X)+Var(Y)-2 \cdot Cov(X, Y)

  6. X,YX, Y 相互独立, a,ba, b 为常数, 那么有

    Var(aX+bY)=a2Var(X)+b2Var(Y)Var(a X+b Y)=a^2 Var(X)+b^2 Var(Y)

  7. Var(X)=σ2nVar(\overline{X})=\frac{\sigma^2}{n}

  8. Var(XY)=Var(X)Var(Y)+Var(X)(EY)2+Var(Y)(EX)2Var(X Y)=Var(X) Var(Y)+Var(X)(E_Y)^2+Var(Y)(E_X)^2

标准化

我们称

X=XEXVar(X)X^*=\frac{X-E_X}{\sqrt{Var(X)}}

XX 的标注化随机变量, 易得 EX=0,Var(X)=1E_X^*=0, Var(X^*)=1

定义

XX 为随机变量, cc 为常数, rr 为正整数, 则 E[(Xc)2]E[(X-c)^2] 称为 XX 关于 cc 点的 rr 阶矩

原点矩与中心距

c=0c=0 , 此时 αk=EXr\alpha_k=E_X^r 称为 XXrr 阶原点矩

c=EXc=E_X , 此时 μk=E[(XEX)r]\mu_k=E[(X-E_X)^r] 称为 XXrr 阶中心矩

协方差与相关性

协方差定义

Cov(X,Y)=E{[XE(X)][YE(Y)]}Cov(X, Y)=E\{[X-E(X)][Y-E(Y)]\}

称为 X,YX, Y 的协方差, 其中 CovCov 是英文单词 Covariance 的缩写

协方差性质

  1. Cov(X,Y)=Cov(Y,X)Cov(X, Y)=Cov(Y, X)
  2. Cov(X,X)=Var(X)Cov(X, X)=Var(X)
  3. Cov(X,Y)=E(XY)E(X)E(Y)Cov(X, Y)=E(X Y)-E(X) E(Y), 所以当 X,YX, Y 相互独立时, 协方差为 0
  4. Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)Cov(X_1+X_2, Y)=Cov(X_1, Y)+Cov(X_2, Y)
  5. Cov(aX,bY)=abCov(X,Y)Cov(a X, b Y)=a b \cdot Cov(X, Y)

相关系数定义

X,YX, Y 是随机变量, 则称

ρXY=Cov(X,Y)Var(X)Var(Y)\rho_{X Y}=\frac{Cov(X, Y)}{\sqrt{Var(X) Var(Y)}}

X,YX,Y 的相关系数

相关系数性质

  • ρXY=0\rho_{X Y}=0 时, 称 X,YX, Y 不(线性)相关
  • ρXY=Cov(X,Y)\rho_{X Y}=Cov(X^*, Y^*) , 因此可以将相关系数视为标准尺度下的协方差
  • ρXY1|\rho_{X Y}| \leqslant 1 , 等号成立当且仅当 X,YX, Y 之间存在严格的线性关系, 即
    • ρXY=1\rho_{X Y}=1 , 则存在 a>0,bRa>0, b \in \mathbb{R} 使得 X=aY+bX=a Y+b (正相关)
    • ρXY=1\rho_{X Y}=-1 , 则存在 a<0,bRa<0, b \in \mathbb{R} 使得 X=aY+bX=a Y+b (负相关)

不相关与独立

不相关:

  • ρXY=0\rho_{X Y}=0

独立:

  • P(X=xi,Y=yj)=P(X=xi)P(Y=yj)P(X=x_i, Y=y_j)=P(X=x_i) P(Y=y_j)
  • f(x,y)=fX(x)fY(y)f(x, y)=f_X(x) f_Y(y)

因此对随机变量 X,Y , 如果 X,Y 相互独立, 那么他们一定不相关, 但如果他们不相关却未必相互独立.

大数定律与中心极限定理

切比雪夫不等式

ε>0,P{Xμε}<σ2ε2\forall \varepsilon>0, P\{|X-\mu| \geqslant \varepsilon\}<\frac{\sigma^2}{\varepsilon^2}

伯努利大数定律

limn+P{nAnpε}=0\lim _{n \to+\infty} P\{|\frac{n_A}{n}-p| \geqslant \varepsilon\}=0

独立同分布的中心极限定理

X1,X2,,Xn,X_1, X_2, \cdots, X_n, \cdots 相互独立且同分布, E(Xi)=μ,D(Xi)=σ2,i=1,2,E(X_i)=\mu, D(X_i)=\sigma^2, i=1,2, \cdots , 则对于充分大的 nn

i=1nXidN(nμ,nσ2)\sum_{i=1}^n X_i \to^d N(n \mu, n \sigma^2)

X1++XnnμnσdN(0,1)\frac{X_1+\cdots+X_n-n \mu}{\sqrt{n} \sigma} \to^d N(0,1)

limnP(X1++Xnnμnσx)=Φ(x)\lim _{n \to \infty} P(\frac{X_1+\cdots+X_n-n \mu}{\sqrt{n} \sigma} \leqslant x)=\Phi(x)

德莫弗-拉普拉斯定理

即二项分布可以用正态分布逼近:

nAdN(np,np(1p))n_A \to^d N(n p, n p(1-p))

X1++Xnnpnp(1p)dN(0,1)\frac{X_1+\cdots+X_n-n p}{\sqrt{n p(1-p)}} \to^d N(0,1)

limnP(X1++Xnnpnp(1p)x)=Φ(x)\lim _{n \to \infty} P(\frac{X_1+\cdots+X_n-n p}{\sqrt{n p(1-p)}} \leqslant x)=\Phi(x)

统计分布与序分布

卡方分布

定义

X1,X2,,XnX_1, X_2, \cdots, X_n 是来自标准正态总体 N(0,1)N(0,1) 的一个样本, 令

X=i=1nXi2X=\sum_{i=1}^n X_i^2

则称 XX 是自由度为 nnχ2\chi^2 变量, 其分布称为自由度为 nnχ2\chi^2 分布, 记为 Xχn2X \sim \chi_n^2

概率密度

fn(x)={12n2Γ(n2)yn21eπ2,x>00,x0.f_n(x)=\begin{cases}\frac{1}{2^{\frac{n}{2}} \Gamma(\frac{n}{2})} y^{\frac{n}{2}-1} e^{-\frac{\pi}{2}} &, x>0 \\ 0 &, x \leqslant 0.\end{cases}

可以观察到自由度为 nnχ2\chi^2 分布与 GammaGamma 分布的关系为:

X=i=1nXi2Γ(n2,12)X=\sum_{i=1}^n X_i^2 \sim \Gamma(\frac{n}{2}, \frac{1}{2})

性质

  1. 期望: E(χn2)=nE(\chi_n^2)=n
  2. 方差: Var(χn2)=2nVar(\chi_n^2)=2 n
  3. 可加性: 若 Xχn12,Yχn22X \sim \chi_{n_1}^2, Y \sim \chi_{n_2}^2 , 且 X,YX, Y 相互独立, 那么有 X+Yχ2(n1+n2)X+Y \sim \chi^2(n_1+n_2)

上侧α分位数

Xχn2X \sim \chi_n^2 , 记 P(X>c)=αP(X>c)=\alpha , 则 c=χn2(α)c=\chi_n^2(\alpha) 称为 χn2\chi_n^2 分布的上侧 α\alpha 分位数

t分布

定义

设随机变量 XN(0,1),Yχn2X \sim N(0,1), Y \sim \chi_n^2 , 且 X,YX, Y 独立, 则称

T=XYnT=\frac{X}{\sqrt{\frac{Y}{n}}}

为自由度为 nntt 变量, 其分布称为自由度为 nntt 分布, 记作 TtnT \sim t_n

概率密度

tn(x)=Γ(n+12)Γ(n2)nπ(1+x2n)n+12,(xR)t_n(x)=\frac{\Gamma(\frac{n+1}{2})}{\Gamma(\frac{n}{2}) \sqrt{n \pi}}(1+\frac{x^2}{n})^{-\frac{n+1}{2}},(x \in \mathbb{R})

易得 t 分布于正态分布的关系

limntn(x)=φ(x)\lim _{n \to \infty} t_n(x)=\varphi(x)

性质

期望: 当 n>=2n>=2 时, E(T)=0E(T) = 0

方差: 当 n>=3n>=3 时, Var(T)=nn2Var(T)=\frac{n}{n-2}

双侧α分位数

TtnT \sim t_n , 记 P(T>c)=αP(|T|>c)=\alpha , 则 c=tn(α2)c=t_n(\frac{\alpha}{2}) 为自由度为 nntt 分布的双侧 α\alpha 分位数

F分布

定义

设随机变量 Xχ2(m),Yχ2(n)X \sim \chi^2(m), Y \sim \chi^2(n) , 且 X,YX, Y 独立, 则称

F=XmYnF=\frac{\frac{X}{m}}{\frac{Y}{n}}

为自由度分别是 m,nm, nFF 变量, 其分布称为自由度为 m,nm, nFF 分布, 记作 FF(m,n)F \sim F(m, n)

概率密度

fm,n(x)=Γ(m+n2)Γ(n2)Γ(m2)mm2nn2xm21(n+mx)m+n2,(x>0)f_{m, n}(x)=\frac{\Gamma(\frac{m+n}{2})}{\Gamma(\frac{n}{2}) \Gamma(\frac{m}{2})} m^{\frac{m}{2}} n^{\frac{n}{2}} x^{\frac{m}{2}-1}(n+m x)^{-\frac{m+n}{2}},(x>0)

性质

ZF(m,n)Z \sim F(m, n) , 则 1ZF(n,m)\frac{1}{Z} \sim F(n, m)

TtnT \sim t_n , 则 T2F(1,n)T^2 \sim F(1, n)

F1α(m,n)=1Fα(n,m)F_{1-\alpha}(m, n)=\frac{1}{F_{\alpha}(n, m)} , 注意自由度对换

上侧α分位数

FF(m,n)F \sim F(m, n) , 记 P(F>c)=αP(F>c)=\alpha , 则 c=Fα(m,n)c=F_{\alpha}(m, n)FF 分布的上侧 α\alpha 分位数

正态总体的样本均值与样本方差的分布

一般总体的样本均值与样本方差

设总体 XX 分布未知, 但已知 E(X)=μE(X)=\mu, D(X)=σ2D(X)=\sigma^2, X1,X2,,XnX_1, X_2, \cdots, X_n 是来自总体 X 的样本

X=1ni=1nXi\overline{X}=\frac{1}{n} \sum_{i=1}^n X_i

S2=1n1i=1n(XiX)2S^2=\frac{1}{n-1} \sum_{i=1}^n(X_i-\overline{X})^2

分别为样本均值与样本方差, 则有

E(X)=μD(X)=σ2nE(\overline{X})=\mu \\ D(\overline{X})=\frac{\sigma^2}{n}

E(S2)=D(X)=σ2E(S^2)=D(\overline{X})=\sigma^2

正态变量样本均值与样本方差的性质

X1,X2,,XnN(μ,σ2)X_1, X_2, \cdots, X_n \sim N(\mu, \sigma^2), X,S2\overline{X}, S^2 分别为样本均值与样本方差, 则有

XN(μ,σ2n)\overline{X} \sim N(\mu, \frac{\sigma^2}{n})

(n1)S2σ2χn12X,S2相互独立\frac{(n-1) S^2}{\sigma^2} \sim \chi_{n-1}^2 \hspace{2em} \overline{X}, S^2 \text{相互独立}

几个重要推论

  1. X1,X2,,XnX_1, X_2, \cdots, X_n 相互独立相同分布 N(μ,σ2)\sim N(\mu, \sigma^2) , 则有

T=n(Xμ)St(n1)T=\frac{\sqrt{n}(\overline{X}-\mu)}{S} \sim t(n-1)

  1. X1,X2,,XmX_1, X_2, \cdots, X_m 相互独立相同分布 N(μ1,σ12)\sim N(\mu_1, \sigma_1^2), Y1,Y2,,YnY_1, Y_2, \cdots, Y_n 相互独立相同分布 N(μ2,σ22)\sim N(\mu_2, \sigma_2^2), 且假定 σ12=σ22=σ2\sigma_1^2=\sigma_2^2=\sigma^2 , 样本 X1,X2,,Xm,Y1,Y2,,YnX_1, X_2, \cdots, X_m, Y_1, Y_2, \cdots, Y_n 独立, 则有

(XY)(μ1μ2)σ12n1+σ22m2N(0,1)\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{m_2}}} \sim N(0,1)

T=(XY)(μ1μ2)Swmnn+mt(n+m2)T=\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{S_w} \cdot \sqrt{\frac{m n}{n+m}} \sim t(n+m-2)

Sw=(m1)S12+(n1)S22n+m2S_w=\frac{(m-1) S_1^2+(n-1) S_2^2}{n+m-2}

  1. X1,X2,,XmX_1, X_2, \cdots, X_m 相互独立相同分布 N(μ1,σ12)\sim N(\mu_1, \sigma_1^2), Y1,Y2,,YnY_1, Y_2, \cdots, Y_n 相互独立相同分布 N(μ2,σ22)\sim N(\mu_2, \sigma_2^2) , 样本 X1,X2,,Xm,Y1,Y2,,YnX_1, X_2, \cdots, X_m, Y_1, Y_2, \cdots, Y_n 独立, 则有

F=S12S22σ22σ12=S12σ12S22σ22F(m1,n1)F=\frac{S_1^2}{S_2^2} \cdot \frac{\sigma_2^2}{\sigma_1^2}=\frac{\frac{S_1^2}{\sigma_1^2}}{\frac{S_2^2}{\sigma_2^2}} \sim F(m-1, n-1)

参数估计

估计

估计的分类

假设 θ^\hat\thetaθ\theta 的估计, 那么有

  1. Eθ^=θE_{\hat\theta}=\theta , 则称 θ^\hat\thetaθ\theta 的无偏估计
  2. 当样本量 nn\to\infty , θ^\hat\theta 依概率收敛到 θ\theta ,则称 θ^\hat\thetaθ\theta 的相合估计
  3. 当样本量 nn\to\infty , θ^\hat\theta 依概率1收敛到 θ\theta ,则称 θ^\hat\thetaθ\theta 的强相合估计

样本均值与样本方差的估计

  1. 样本均值 Xn\overline{X}_n 是总体均值 μ\mu 的强相合无偏估计
  2. 样本方差 S2S^2 是总体方差 σ2\sigma^2 的强相合无偏估计
  3. 样本标准差 SS 是总体标准差 σ\sigma 的强相合估计, 但 ES<σE_S<\sigma

点估计

矩估计

定义

矩估计是最简单的估计方法, 基本思路是用样本矩估计总体矩. 由大数率, 若未知参数与总体的某个或某些矩有关系, 则自然想到构造样本矩去估计未知参数

样本矩

样本 kk 阶原点矩:

ak=1ni=1nXika_k=\frac{1}{n}\sum_{i=1}^nX_i^k

样本 kk 阶中心矩:

ak=1ni=1n(XikX)ka_k=\frac{1}{n}\sum_{i=1}^n(X_i^k-\overline{X})^k

由大数律保证了

akpαka_k \to^p \alpha_k

mkpμkm_k \to^p \mu_k

常用矩估计

  1. 在泊松分布 P(λ)P(\lambda)

λ=EX=α1\lambda=E_X=\alpha_1

α1\alpha_1 的矩估计是 a1a_1, 因此

λ^=a1=1ni=1nXi\hat\lambda=a_1=\frac{1}{n}\sum_{i=1}^nX_i

  1. 在指数分布 E(λ)E(\lambda)

μ=EX=1λλ=1EX=1α1\mu=E_X=\frac{1}{\lambda}\Rightarrow\lambda=\frac{1}{E_X}=\frac{1}{\alpha_1}

α1\alpha_1 的矩估计是 a1a_1, 因此

λ^=1a1=11ni=1nXi\hat\lambda=\frac{1}{a_1}=\frac{1}{\frac{1}{n}\sum_{i=1}^{n}X_i}

  1. 在正态总体N(μ,σ2)N(\mu,\sigma^2)

μ=EX=α1σ2=EX2(EX)2=α2α12\mu=E_X=\alpha_1 \\ \sigma^2=E_X^2-(E_X)^2=\alpha_2-\alpha_1^2

α1\alpha_1 的矩估计是 a1a_1, α2\alpha_2 的矩估计是 a2a_2, 因此

分别用

μ^=a1=1ni=1nXiσ^2=a2a12=1ni=1nXi2(1ni=1nXi2)2\hat\mu=a_1=\frac{1}{n}\sum_{i=1}^nX_i \\ \hat\sigma^2=a2-a_1^2=\frac{1}{n}\sum_{i=1}^nX_i^2-(\frac{1}{n}\sum_{i=1}^nX_i^2)^2

来估计参数 μ\muσ2\sigma^2

  1. 在均匀总体 U(a,b)U(a,b)

α1=EX=a+b2α2α12=D(X)=(ba)212\alpha_1=E_X=\frac{a+b}{2} \\ \alpha_2-\alpha_1^2=D(X)=\frac{(b-a)^2}{12}

解出方程组得到

a=α13(α2α12)b=α1+3(α2α12)a=\alpha_1-\sqrt{3(\alpha_2-\alpha_1^2)} \\ b=\alpha_1+\sqrt{3(\alpha_2-\alpha_1^2)}

分别用

a^=a13(a2a12)b^=a1+3(a2a12)\hat a=a_1-\sqrt{3(a_2-a_1^2)} \\ \hat b=a_1+\sqrt{3(a_2-a_1^2)}

来估计参数 a,ba, b

极大似然估计

定义

X=(X1,,Xn)X=(X_1, \cdots, X_n) 为从总体中抽出的样本, 该总体具有概率函数 ff , θ\theta 为未知参数或未知参数向量, x=(x1,,xn)x=(x_1, \cdots, x_n) 为样本的观察值

若在给定 xx 时, 值 θ^=θ^(x)\hat\theta=\hat\theta(x) 满足下式

L(θ^)=maxθΘL(x;θ)L(\hat\theta)=\max_{\theta \in \Theta} L(x;\theta)

则称 θ^\hat\theta 为参数 θ\theta 的极大似然估计, 而 θ^(X)\hat\theta(X) 称为 θ\theta 的极大似然估计量, L(x;θ)L(x;\theta) 称为极大似然函数

若待估参数是 θ\theta 的函数 g(θ)g(\theta) , 那么它的极大似然估计就是 g(θ^)g(\hat\theta) , 由于lnL(θ)\ln L(\theta)L(θ)L(\theta) 有相同的最大值点, 因此也可以用 l(θ)=lnL(θ)l(\theta)=\ln L(\theta) 进行极大似然估计, 通常称 l(θ)l(\theta) 为对数似然函数

操作方法

求极大似然估计相当于求似然函数的最大值, 在简单样本的情况下

L(x;θ)=i=1nf(x;θ)L(x;\theta)=\prod_{i=1}^{n}f(x;\theta)

当似然函数对变量 θ\theta 单调时, 直接利用单调性得到最大值点

当似然函数非单调, 且对变量 θ\theta 可微分时, 我们可以求其驻点

dL(θ)dθ=0或者dl(θ)dθ=0\frac{d L(\theta)}{d \theta}=0 \hspace{1em}\text{或者}\hspace{1em} \frac{d l(\theta)}{d \theta}=0

θ\theta 为多维时, 令

L(θ)θi=0或者l(θ)θi=0\frac{\partial L(\theta)}{\partial \theta_i}=0 \hspace{1em}\text{或者}\hspace{1em} \frac{\partial l(\theta)}{\partial \theta_i}=0

然后判断此驻点是否是最大值

区间估计

定义

设总体分布 F(x,θ)F(x,\theta) 含有一个或多个未知参数 θ\theta , θΘ\theta\in\Theta
对给定的值 αt(0<α<1)\alpha_t(0<\alpha<1) ,若由样本 X1,,XnX_1, \cdots, X_n 确定的两个统计量 θ^L=θ^L(X1,,Xn)\hat\theta_L=\hat\theta_L(X_1, \cdots, X_n)θ^U=θ^U(X1,,Xn)\hat\theta_U=\hat\theta_U(X_1, \cdots, X_n)

Pθ(θ^L<θ<θ^U)=1αθ^L<θ^UP_\theta(\hat\theta_L<\theta<\hat\theta_U)=1-\alpha \hspace{2em} \hat\theta_L<\hat\theta_U

则称 (θ^L,θ^U)(\hat\theta_L, \hat\theta_U) 是参数 θ\theta 的置信水平为 1α1-\alpha 的置信区间

枢轴量法

设待估参数为 g(θ)g(\theta)

  1. 找一个与待估参数 g(θ)g(\theta) 有关的统计量 TT , 一般是个良好的点估计 (往往通过极大似然估计构造)

  2. 设法找出 TTg(θ)g(\theta) 的某个函数 S(T,g(θ))S(T, g(\theta)) 的分布,其分布 FF 要与参数 θ\theta 无关 (S即为枢轴变量)

  3. 对任何常数 a<ba<b , 不等式 aS(T,g(θ))ba\leqslant S(T, g(\theta))\leqslant b 要能表示成等价的形式 Ag(θ)BA\leqslant g(\theta)\leqslant B ,其中 A,BA, B 只与 T,a,bT, a, b 有关, 而与参数无关

  4. 取分布 FF 的上 α/2\alpha/2 分位数 ωα/2\omega_{\alpha/2} 和下 1α/21-\alpha/2 分位数 ω1α/2\omega_{1-\alpha/2} ,有 F(ω1α/2)F(ωα/2)=1αF(\omega_{1-\alpha/2})-F(\omega_{\alpha/2})=1-\alpha , 因此

    Pθ(ωα/2S(T,g(θ))ω1α/2)=1αP_\theta(\omega_{\alpha/2}\leqslant S(T, g(\theta))\leqslant \omega_{1-\alpha/2})=1-\alpha