参数估计与假设检验
基本概念
样本与样本观测值
样本是由 总体 中的一部分 个体 组成,是一组随机变量,记为 $X_1,\,X_2,…,X_n$, 其中 n 为 样本容量。样本中个体的实际取值 $x_1,\,x_2,…,x_n$ 称为 样本观测值。
统计量与统计值
统计量 是不含未知参数的样本函数 $g(X_1,\,X_2,\,…,X_n)$, 也是一个随机变量。统计量是对总体进行推断的基础。 统计值 是样本观测值代入统计量中得到的函数值。
抽样分布
统计量的分布
常用统计量
$$ 样本均值\, —— \, \overline{X} = \frac{1}{n} \sum_{i=1}^n Xi \
样本方差\, —— \, S^2 = \frac{1}{n-1} \sum{i=1}^n (X_i - \overline{X})^2 \
样本标准差\, —— \, S\
样本\, k\, 阶原点矩\, —— \, Ak = \frac{1}{n} \sum{i=1}^n X_i^k \
样本\, k\, 阶中心矩\,—— \, Mk = \frac{1}{n} \sum{i=1}^n (X_i - \overline{X})^k
$$
抽样分布
$\chi^2$ 分布
若随机变量 $X$ 的概率密度函数为:
$$ f(x) = \left{\begin{array}{}
\cfrac{1}{2\Gamma(\frac{n}{2})} (\frac{x}{2})^{\frac{n}{2}-1} e^{-\frac{x}{2}},\quad x>0\
0,\quad x \le 0
\end{array}\right. $$
则称 $X$ 服从自由度为 n 的 $\chi^2$ 分布, 记 $X\sim \chi^2(n)$。 其中,
$$ \Gamma(s) = \int_0^{+\infty} x^{s-1}e^{-x}\,dx$$
性质
$$ X \sim \chi^2(n) \Rightarrow E(X) = n,\; D(X)=2n\
X,\;Y\;相互独立,且\;X\sim\chi^2(n_1),\;Y\sim\chi^2(n_2) \Rightarrow X+Y\sim\chi^2(n_1+n2)\
\chi\alpha^2(n) \approx n+u\alpha\sqrt{2n},\quad with\; big\; n\
\chi^2(n)\;近似服从\;N(n,2n) ,\quad with\; big\; n
$$
在第三条性质中, $\chi\alpha^2(n)$ 为上侧概率为 $\alpha$ 的 $\chi^2(n)$ 上侧分位数, $u_\alpha$ 为上侧概率为 $\alpha$ 的标准正态分布的上侧分位数。
$t$ 分布
随机变量 T 的概率密度函数为:
$$ f(x) = \cfrac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi}\Gamma(\frac{n}{2})} (1+\frac{x^2}{n})^{-\frac{n+1}{2}},\quad -\infty<x<+\infty $$
则称 T 服从自由度为 n 的 t 分布, 记 $T \sim t(n)$
当 n 足够大时, T 近似服从 $N(0,1)$ 分布。
$F$ 分布
设随机变量 F 的概率密度函数为
$$ f(x) = \left{\begin{array}{}
n_1^{n_1/2} n_2^{n_2/2} \cfrac{\Gamma((n_1+n_2)/2)}{\Gamma(n_1 / 2)\Gamma(n_2/2)} x^{n_1/2-1}(n_1 x + n_2)^{(n_1+n_2)/2},\quad x > 0\
0,\quad x \le 0
\end{array}\right. $$
则称 F 服从第一自由度为 $n_1$, 服从第二自由度为 $n_2$ 的 F 分布, 记为 $F\sim F(n_1,n_2)$
性质
$$ F \sim F(n_1,n_2) \Rightarrow \frac{1}{F} \sim F(n_2, n1) $$
$$ F{1-\alpha}(n_1,n2)=\frac{1}{F\alpha(n_2,n_1)} $$
抽样分布定理
服从抽样分布的随机变量
n 个相互独立并服从标准正态分布的随机变量的平方和服从自由度为 n 的 $\chi^2$ 分布:
$$ \sum_{i=1}^n X_i^2 \sim \chi^2(n) $$
相互独立的随机变量 X,Y, $X\sim N(0,1),\;Y\sim \chi^2(n)$ 有
$$ T = \frac{X}{\sqrt{Y/n}} \sim t(n) $$
相互独立的随机变量 X,Y, $X\sim \chi^2(n_1),\;Y\sim \chi^2(n_2)$ 有
$$ F = \frac{X/n_1}{Y/n_2} \sim F(n_1,n_2) $$
单样本抽样分布
样本 $X_1,\,X_2\,…,X_n$ 来自于分布为 $N(\mu,\sigma^2)$ 的正态总体, $\overline{X},\;S^2$ 分别为样本均值与方差,则有
$$ \overline{X}\; 与 \;S^2\; 相互独立\
\overline{X} \sim N(\mu,\frac{\sigma^2}{n})\
\frac{n-1}{\sigma^2}S^2 \sim \chi^2(n-1)\
\frac{\overline{X}-\mu}{S/\sqrt{n}} \sim t(n-1) $$
双样本抽样分布
两样本分别来自于正态总体 $N(\mu_1,\sigma_1^2)$ 和 $N(\mu_2,\sigma_2^2)$, 它们相互独立,样本均值和方差分别为 $\overline{X},\;S_1^2$ 及 $\overline{Y},\;S_2^2$, 样本容量分别为 $n_1,\;n_2$。 则有
$$\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F(n_1-1,n_2-1)$$
$$ with\; \sigma_1^2=\sigma_2^2,\quad
\cfrac{(\overline{X}- \overline{Y})-(\mu_1 - \mu_2)}{S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim t(n_1+n_2 - 2) $$
其中
$$ S_w = \sqrt{\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}} $$
无偏估计
样本均值与方差的期望分别是总体分布的期望与方差。
$$ E(\overline{X}) = \mu $$
$$ E(S^2) = \sigma^2 $$