数理统计基本概念

概率论与数理统计\
参数估计与假设检验

基本概念

样本与样本观测值

样本是由 总体 中的一部分 个体 组成,是一组随机变量,记为 $X_1,\,X_2,…,X_n$, 其中 n 为 样本容量。样本中个体的实际取值 $x_1,\,x_2,…,x_n$ 称为 样本观测值

统计量与统计值

统计量 是不含未知参数的样本函数 $g(X_1,\,X_2,\,…,X_n)$, 也是一个随机变量。统计量是对总体进行推断的基础。 统计值 是样本观测值代入统计量中得到的函数值。

抽样分布

统计量的分布

常用统计量

$$ 样本均值\, —— \, \overline{X} = \frac{1}{n} \sum_{i=1}^n Xi \
样本方差\, —— \, S^2 = \frac{1}{n-1} \sum
{i=1}^n (X_i - \overline{X})^2 \
样本标准差\, —— \, S\
样本\, k\, 阶原点矩\, —— \, Ak = \frac{1}{n} \sum{i=1}^n X_i^k \
样本\, k\, 阶中心矩\,—— \, Mk = \frac{1}{n} \sum{i=1}^n (X_i - \overline{X})^k
$$

抽样分布

$\chi^2$ 分布

若随机变量 $X$ 的概率密度函数为:
$$ f(x) = \left{\begin{array}{}
\cfrac{1}{2\Gamma(\frac{n}{2})} (\frac{x}{2})^{\frac{n}{2}-1} e^{-\frac{x}{2}},\quad x>0\
0,\quad x \le 0
\end{array}\right. $$

则称 $X$ 服从自由度为 n 的 $\chi^2$ 分布, 记 $X\sim \chi^2(n)$。 其中,

$$ \Gamma(s) = \int_0^{+\infty} x^{s-1}e^{-x}\,dx$$

性质

$$ X \sim \chi^2(n) \Rightarrow E(X) = n,\; D(X)=2n\
X,\;Y\;相互独立,且\;X\sim\chi^2(n_1),\;Y\sim\chi^2(n_2) \Rightarrow X+Y\sim\chi^2(n_1+n2)\
\chi
\alpha^2(n) \approx n+u\alpha\sqrt{2n},\quad with\; big\; n\
\chi^2(n)\;近似服从\;N(n,2n) ,\quad with\; big\; n
$$
在第三条性质中, $\chi
\alpha^2(n)$ 为上侧概率为 $\alpha$ 的 $\chi^2(n)$ 上侧分位数, $u_\alpha$ 为上侧概率为 $\alpha$ 的标准正态分布的上侧分位数。

$t$ 分布

随机变量 T 的概率密度函数为:

$$ f(x) = \cfrac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi}\Gamma(\frac{n}{2})} (1+\frac{x^2}{n})^{-\frac{n+1}{2}},\quad -\infty<x<+\infty $$

则称 T 服从自由度为 n 的 t 分布, 记 $T \sim t(n)$

当 n 足够大时, T 近似服从 $N(0,1)$ 分布。

$F$ 分布

设随机变量 F 的概率密度函数为

$$ f(x) = \left{\begin{array}{}
n_1^{n_1/2} n_2^{n_2/2} \cfrac{\Gamma((n_1+n_2)/2)}{\Gamma(n_1 / 2)\Gamma(n_2/2)} x^{n_1/2-1}(n_1 x + n_2)^{(n_1+n_2)/2},\quad x > 0\
0,\quad x \le 0
\end{array}\right. $$

则称 F 服从第一自由度为 $n_1$, 服从第二自由度为 $n_2$ 的 F 分布, 记为 $F\sim F(n_1,n_2)$

性质

$$ F \sim F(n_1,n_2) \Rightarrow \frac{1}{F} \sim F(n_2, n1) $$
$$ F
{1-\alpha}(n_1,n2)=\frac{1}{F\alpha(n_2,n_1)} $$

抽样分布定理

服从抽样分布的随机变量

n 个相互独立并服从标准正态分布的随机变量的平方和服从自由度为 n 的 $\chi^2$ 分布:

$$ \sum_{i=1}^n X_i^2 \sim \chi^2(n) $$

相互独立的随机变量 X,Y, $X\sim N(0,1),\;Y\sim \chi^2(n)$ 有

$$ T = \frac{X}{\sqrt{Y/n}} \sim t(n) $$

相互独立的随机变量 X,Y, $X\sim \chi^2(n_1),\;Y\sim \chi^2(n_2)$ 有

$$ F = \frac{X/n_1}{Y/n_2} \sim F(n_1,n_2) $$

单样本抽样分布

样本 $X_1,\,X_2\,…,X_n$ 来自于分布为 $N(\mu,\sigma^2)$ 的正态总体, $\overline{X},\;S^2$ 分别为样本均值与方差,则有

$$ \overline{X}\; 与 \;S^2\; 相互独立\
\overline{X} \sim N(\mu,\frac{\sigma^2}{n})\
\frac{n-1}{\sigma^2}S^2 \sim \chi^2(n-1)\
\frac{\overline{X}-\mu}{S/\sqrt{n}} \sim t(n-1) $$

双样本抽样分布

两样本分别来自于正态总体 $N(\mu_1,\sigma_1^2)$ 和 $N(\mu_2,\sigma_2^2)$, 它们相互独立,样本均值和方差分别为 $\overline{X},\;S_1^2$ 及 $\overline{Y},\;S_2^2$, 样本容量分别为 $n_1,\;n_2$。 则有

$$\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F(n_1-1,n_2-1)$$

$$ with\; \sigma_1^2=\sigma_2^2,\quad
\cfrac{(\overline{X}- \overline{Y})-(\mu_1 - \mu_2)}{S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim t(n_1+n_2 - 2) $$

其中

$$ S_w = \sqrt{\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}} $$

无偏估计

样本均值与方差的期望分别是总体分布的期望与方差。

$$ E(\overline{X}) = \mu $$

$$ E(S^2) = \sigma^2 $$