主成分分析

发表于 2017-01-19 | 分类于 ML

主成分分析（Principal Components Analysis，简称PCA）是一种数据降维方法，在降低数据维度的同时，尽可能保留原始数据的特征。PCA的原理解释有多个版本，这篇笔记只讨论其中一个。

参考

原理

PCA最终目的是对表示 $m$ 条 $n$ 维（n个特征）数据的矩阵 $X{m \times n}$ 做线性变换，得到矩阵 $Y{m \times n}$，再从中选取 k 维：

$$ Y{m \times n} = X{m \times n} P_{n \times n} $$

怎样求解变换矩阵 $P$？ 我们想要的理想效果是 $Y$ 的 $n$ 个维度相互独立，这样每个维度保留各自的特征互不干扰，然后选取 $n$ 个维度中方差最大的 k 个维度，包含最丰富的信息。

先介绍矩阵 $X$ 协方差矩阵的计算公式，这里假设已经处理 $X$ 每个维度使之均值为0：

$$ CX = \frac{1}{n}\sum{i=1}^{m}(X[:,i]^T X[:,i]) = \frac{1}{n} X^TX $$

其中 $X[:,i]$ 表示取 $X$ 的第 $i$ 列特征。这里引入协方差的概念，如果两个随机变量相互独立，那么它们的协方差为0。协方差矩阵的每个元素 $c_{ij}$ 等于对应 $i,j$ 维度的协方差，而对角元素等于对应维度的方差，所以我们的目标是 使 $Y$ 的协方差矩阵为对角矩阵。

同样，有：

$$ C_Y = \frac{1}{n} Y^T Y = \frac{1}{n} (XP)^T(XP) = P^T (\frac{1}{n}X^TX) P \
= P^T C_X P $$

因为 $C_X$ 为实对称矩阵，故能够进行对角化：

$$ C_X = S\Lambda S^{-1} = S\Lambda S^{T}$$

其中 $\Lambda$ 为对角矩阵，其对角线元素为 $C_X$ 的特征值，而 $S$ 是正交矩阵，有 $S^TS=I$。容易想到，如果令 $P=S$：

$$ C_Y = (P^TS) \Lambda (P^TS)^T = \Lambda $$

这就成功将 $C_Y$ 变换为对角矩阵，所以顺利解得 $P=S$。

最后一步选取 $n$ 维中方差最大的 $k$ 维以达到降维的最终目的。$C_Y$ 的对角元素对应 $Y$ 每个维度的方差，所以我们只需保留 $k$ 个最大对角元对应的 $P$ 的 $k$ 个列向量，同时也是 $C_X$ 的 $k$ 个最大特征值对应的特征向量，得到 $n \times k$ 的变换矩阵 $P$，最后做线性变换 $Y=XP$。

实战

$m$ 条 $n$ 维数据由矩阵 $X_{m \times n}$ 表示。以下是处理步骤：

对 $X$ 每个维度做中心化（可进一步做标准化）
求协方差矩阵 $C_X = X^TX$
对角化： $C_X = S\Lambda S^{T}$
从 $S$ 中挑选 $k$ 列特征值（$\Lambda$ 对角元）最大的特征向量得到 $P$
$Y{m\times k}=X{m\times n}P_{n\times k}$

调用 sklearn API：

from sklearn import datasets
iris = datasets.load_iris()
X = iris.data  # 加载实验数据，有 4 维

from sklearn import decomposition
# 调用只需这一句，n_components 指定降维后的维度数 3
pX = decomposition.PCA(n_components=3).fit_transform(X)

python 实现：

from sklearn import datasets
iris = datasets.load_iris()
X = iris.data # 加载实验数据，有 4 维

from numpy import linalg as LA

n_components = 3 # 指定降维后的维度数 3

Xm = X - X.mean(axis=0) # 中心化
Cx = Xm.T.dot(Xm) # 协方差矩阵
ev, S = LA.eigh(Cx) # 对角化，S 特征向量按特征值升序排列
P = S[:, [i for i in range(4-n_components, 4)]] # 选取特征向量，构造变换矩阵
pX = Xm.dot(P)  # 线性变换

白化

白化的目的：

特征之间相关性较低
所有特征具有相同的方差

前者可以用 不降维 的PCA做到。假设已经通过PCA得到变换矩阵 $P{n\times n}$，则 $Y{m \times n}=X{m \times n}P{n \times n}$。接下来需要达到后一个目标，使 $C_Y=I$。

PCA白化

由于 $CY = \frac{1}{n} Y^T Y= \Lambda$，所以只需更新 $Y{PCAwhite}=Y\Lambda^{-1/2}$

ZCA白化

ZCA (Zero-phase Component Analysis Whitening) 在PCA白化的基础上，把数据变换回原空间。更新公式 $Y{ZCAwhite}=Y{PCAwhite}P^T$，可检验 $C_Y$，仍满足单位矩阵。

神经网络之反向传播与自编码器

发表于 2017-01-18 | 分类于 ML

本文主要对神经网络反向传播（Backpropagation Algorithm）的求导关键部分做笔记，并简要介绍自编码器概念（Autoencoder）。

参考

UFLDL
林轩田老师教授的《机器学习技法》 12课：神经网络

符号

符号	含义
$(x^i, y^i)$	第 $i$ 个训练样本
$h_{W,b}(x)$	输入为 $x$ 时的假设输出，其中包含参数 $W,b$
$a_i^l$	第 $l$ 层 $i$ 单元的激活值，对第一层有 $a_i^1=x_i$
$W^l_{ij}$	连接第 $l$ 层 $j$ 单元和第 $l+1$ 层 $i$ 单元的参数
$b^l_i$	连接第 $l$ 层偏置单元和第 $l+1$ 层 $i$ 单元的参数
$z_i^l$	第 $l$ 层 $i$ 单元所有输入的加权和
$f()$	激活函数，可选 $sigmoid$ 或 $tanh$ 函数
$s_l$	第 $l$ 层的单元数目（不包含偏置单元）
$n_l$	神经网络层数

有：

$$z_i^{l+1} = bi^{l} + \sum{j=1}^{s{l}} W{ij}^{l} a_j^{l}$$

$$a_i^l = f(z_i^l)$$

前向传播（forward propagation）

从输入层单元开始，逐层计算下层单元，直到求得输出层。可以说就是神经网络由输入预测输出的整个过程。

反向传播

反向传播运用梯度下降试图寻找最优模型参数，即 $W_{ij}^l$ 与 $b_i^l$，使得代价函数最小。梯度下降开始前给参数随机赋值，用前向传播计算出各层单元。下降关键是整体代价函数 $J$ 对参数 $W$ 和 $b$ 的求导。

对于单个样例 $(x,y)$，其代价函数为：
$$ J(W,b; x,y) = \frac{1}{2} \left| h_{W,b}(x) - y \right|^2 $$

给定一个包含 $m$ 个样例的数据集，定义整体代价函数为：

$$ J(W,b) = \frac{1}{m} \sum{i=1}^m J(W,b;x^{(i)},y^{(i)}) + \frac{\lambda}{2} \sum (W^{(l)}{ji})^2 $$

第一项是对所有样例的代价求和取平均，而第二项作为规则化项，防止过拟合。因为第二项求导简单，不再赘述。对第二项只关心单个样例求导，即

$$ \frac{\partial J(W,b;x,y)}{\partial W_{ij}^l}\;\; and \;\; \frac{\partial J(W,b;x,y)}{\partial b_i^l} $$

首先有：

$$\frac{\partial J}{\partial W_{ij}^l} = \frac{\partial J}{\partial z_i^{l+1}} \frac{\partial zi^{l+1}}{\partial W{ij}^l} = \frac{\partial J}{\partial z_i^{l+1}} a_j^l$$

同理：

$$\frac{\partial J}{\partial b_i^l} = \frac{\partial J}{\partial z_i^{l+1}} \frac{\partial z_i^{l+1}}{\partial b_i^l} = \frac{\partial J}{\partial z_i^{l+1}} $$

所以，关键是求解：

$$ \delta^{(l+1)}_i = \frac{\partial J}{\partial z_i^{l+1}}$$

当 $l=n_l$

$$ \delta^{(n_l)}_i
= \frac{\partial}{\partial z^{n_l}i}\frac{1}{2} \left| y - h{W,b}(x) \right|^2
= \frac{\partial}{\partial z^{n_l}i}\frac{1}{2} \sum{j=1}^{S_{n_l}} (y_j-f(z_j^{(n_l)}))^2 \
= - (y_i - f(z_i^{(n_l)})) \cdot f’(z^{(n_l)}_i) = - (y_i - a^{(n_l)}_i) \cdot f’(z^{(n_l)}_i) $$

当 $l<n_l$

$$\delta^{(l)}_i = \frac{\partial J}{\partial zi^{l}}
= \sum{k=1}^{s_{l+1}} \frac{\partial J}{\partial z_k^{l+1}} \frac{\partial z_k^{l+1}}{\partial a_i^l} \frac{\partial a_i^l}{\partial zi^l} \
= \sum{k=1}^{s_{l+1}} \delta^{(l+1)}k W{ki}^l f’(z^{(l)}_i)
$$

这里用了链式求导法则， $a_i^l$ 是 $z_i^l$ 的函数，而 $l+1$ 层的所有 $z_k^{l+1}$ 都是 $a_i^l$ 的函数且作为 $J$ 的自变量。

可见求解 $\delta^{(l)}_i$ 需要用到 $l+1$ 层的 $\delta$，所以迭代过程从输出层“反向”向输入层渐进。

自编码器与稀疏性

自编码器是一种输入作为输出进行训练的神经网络。通常会给隐藏层神经元添加限制，比如要求100维输入样本只能使用50个隐藏神经元，由于最终训练出的模型能“还原”输入，所以这50个隐藏神经元能“压缩”表示这100维的样本。稀疏性限制也可被用于这样的目的。

稀疏性可以被简单地解释如下。如果当神经元的输出接近于1的时候我们认为它被激活，而输出接近于0的时候认为它被抑制，那么使得神经元大部分的时间都是被抑制的限制则被称作稀疏性限制。

数据预处理——中心化、归一化与标准化

发表于 2017-01-15 | 分类于 ML

参考：归一化与标准化

中心化（mean normalization）、归一化（normalization）和标准化（standardization）对原始数据进行处理，有利于后续的训练与分析工作。

中心化处理后的数据均值为 0：

$$ x’ = x-\mu $$

归一化将数据映射到 [0, 1] 之间：

$$ x’ = \frac{x-x{min}}{x{max}-x_{min}} $$

标准化处理后的数据均值为 0，方差为 1：

$$ x’ = \frac{x-\mu}{\sigma} $$

以上 $\mu, \sigma$ 分别为原始数据的均值与方差。

对于标准化和归一化，sklearn 提供了函数

import numpy as np
from sklearn import preprocessing
x = np.array([[ 1., -1.,  2.],[ 2.,  0.,  0.],[ 0.,  1., -1.]])

# 两个中心化处理调用
mean_x = x - x.mean(axis=0)
mean_x = preprocessing.StandardScaler(with_std=False).fit_transform(x)

# 两个标准化处理调用
std_x = preprocessing.scale(x)
std_x = preprocessing.StandardScaler().fit_transform(x)

# 归一化处理
norm_x = preprocessing.MinMaxScaler().fit_transform(x)

机器学习技法第十课——Gradient Boosted Decision Tree

发表于 2016-10-17 | 分类于 ML

此文是本人学习林轩田老师教授的机器学习技法第十一课—— Gradient Boosted Decision Tree ——的笔记。这节课会讲两个模型：Adaptive Boosted Decision Tree 和 Gradient Boosted Decision Tree (GBDT)。本质上讲，两者同属 boosting 方法结合 Decision Tree，只是他们的 error function 不同，训练方法稍有差别。（这节课有许多证明，因为太笨没懂就没详述 :-) ）

参考

Adaptive Boosted Decision Tree

Adaptive Boosted，即 AdaBoost，与 Decision Tree 已经在前面课程做过介绍，Adaptive Boosted Decision Tree 以 AdaBoost 为框架，以 Decision Tree 为弱模型，整合成一个模型。而在机器学习技法第八课——Adaptive Boosting 中，弱模型简单地选取 Decision Stump，这也算 Adaptive Boosted Decision Tree 的一个特例，老师称之为 AdaBoost-Stump。

模型训练

在训练过程中，应该注意两点。

一、决策树应该剪枝。一方面为了正则化，另一方面，完全决策树的误差为零，这使得以修正误差为中心的 AdaBoost 难以进行。

二、从整个训练集中抽样出每次迭代的训练数据，每笔数据的选中概率正比于 AdaBoost 所计算的权重，替代了原来（第八课）将权重直接用于 error function 的方式。一方面与剪枝目的相同，避免将所有数据输入完全树导致误差为零。另一方面，权重不仅能通过抽取概率体现数据的重要程度，同时又能避免对弱模型 error function 的修改。

训练过程可参考第八课，改动的只有：在训练弱模型时，根据权重随机抽取训练数据，并训练出剪枝的决策树。

AdaBoost 与梯度下降

课上，老师详细证明了 AdaBoost 的训练过程是在最小（优）化函数，所谓的 loss function ：

$$ loss = \frac{1}{N} \sum_{n=1}^N \exp (-y_n s_n^{(T)}) $$

其中 $N$ 表示数据量， $T$ 表示迭代次数， $s_n^{(T)}$ 表示 $T$ 次迭代后模型估计值：

$$ sn^{(T)} = \sum{t=1}^T\alpha_t g_t(\mathbf{x}_n) $$

类似梯度下降，AdaBoost 的每次迭代都向最优点靠近，最终到达最优点。AdaBoost 的正向推导可参考：AdaBoost - wikipedia。

Gradient Boosted Decision Tree

简称 GBDT，它的思想与 AdaBoost 是相同的，只是 loss function 被替换成其他函数。流行用残差平方函数替换 AdaBoost 中的 $\exp$ 函数，以下只介绍这种 GBDT。

$$ loss=\frac{1}{N} \sum_{n=1}^N (s_n^{(T)} - y_n)^2 $$

模型训练

GBDT 的训练流程与 AdaBoost 稍有不同。

每次迭代根据上次估计值与实际值的残差（residual）训练决策树，不断减小残差使估计值逼近实际值。参考博文 Gbdt 迭代决策树入门教程，它详细介绍了 GBDT 所隐含的直觉。

每次迭代的权重计算公式：

$$ \alphat = \frac{\sum{n=1}^N g_t(\mathbf{x}_n)(y_n-sn^{(t-1)})}{\sum{n=1}^N g_t^2(\mathbf{x}_n)} $$

其中 $s_n^{(t-1)}$ 表示 $t-1$ 次迭代（前次迭代）后模型估计值。

$s_1=s_2=…=s_n$
for t=1,2,…,T
- 根据数据集 ${(\mathbf{x}_n, y_n-s_n)}$，训练出决策树 $g_t$
- 根据数据集 ${(g_t(\mathbf{x}_n),y_n-s_n)}$ 计算权重 $\alpha_t$
- 更新 $s_n \leftarrow s_n + \alpha_t g_t(\mathbf{x}_n)$
返回模型 $G(\mathbf{x})=\sum\alpha_t g_t(\mathbf{x}_n)$

注，在一些实现中，权重 $\alpha_t$ 直接设定为 1，没有经过计算。

空间解析几何

发表于 2016-09-28 | 分类于 Math

矩阵相关\
超平面

平面

平面有两个自由度

平面表示方法

点法式方程

$$ a(x-x_0) + b(y-y_0) + c(z-z_0) = 0 $$

其中 $M_0(x_0,y_0,z_0)$ 为平面上一点， $\mathbf{n}=(a,b,c)$ 为平面法向量

一般式方程

$$ ax + by + cz + d = 0 $$

其中 $\mathbf{n}=(a,b,c)$ 为平面法向量。若 $d=0$，平面过原点；若 $a=0$ 且 $d\ne0$，法向量正交 x 轴，故平面平行于 x 轴。

平面间位置关系

平行 $\frac{a_1}{a_2}=\frac{b_1}{b_2}=\frac{c_1}{c_2}\ne\frac{d_1}{d_2}$
重合 $\frac{a_1}{a_2}=\frac{b_1}{b_2}=\frac{c_1}{c_2}=\frac{d_1}{d_2}$
相交 $\frac{a_1}{a_2}=\frac{b_1}{b_2}=\frac{c_1}{c_2}$ 不成立

点到平面距离

点 $(x_0,y_0,z_0)$，平面 $Ax+By+Cz+D=0$

$$ d=\frac{|Ax_0+By_0+Cz_0+D|}{\sqrt{A^2+B^2+C^2}} $$

直线

直线只有一个自由度

直线表示方法

点向式方程

$$ \frac{x-x_0}{m}=\frac{y-y_0}{n}=\frac{z-z_0}{p} $$

其中 $M_0(x_0,y_0,z_0)$ 为直线上一点， $\mathbf{s}=(m,n,p)$ 为直线的 方向向量。如果 $m=0$，应该转化为 $x=x_0$。

参数式方程

$$ \left{ \begin{array}{l}
x=\lambda m + x_0\
y=\lambda n + y_0\
z=\lambda p + z_0
\end{array} \right. $$

其中 $M_0(x_0,y_0,z_0)$ 为直线上一点， $\mathbf{s}=(m,n,p)$ 为直线的 方向向量。

一般式方程

$$ \left{ \begin{array}{l}
a_1 x+ b_1 y + c_1 z+ d_1 = 0\
a_2 x+ b_2 y + c_2 z+ d_2 = 0
\end{array} \right. $$

两平面相交的直线方程。

直线间位置关系

$\mathbf{s}_1$ 与 $\mathbf{s}_2$ 分别为两直线的方向向量， $M_1$ 与 $M_2$ 分别为其上两点。

两直线平行 $\Leftrightarrow$ 方向向量平行且不平行于 ${M_1M_2}$
两直线重合 $\Leftrightarrow$ 方向向量平行且平行于 ${M_1M_2}$
两直线相交 $\Leftrightarrow$ 方向向量不平行且与 ${M_1M_2}$ 混合积为零（共面）
两直线异面 $\Leftrightarrow$ 方向向量不平行且与 ${M_1M_2}$ 混合积不为零（非共面）

直线与平面的位置关系

平行 $\Leftrightarrow$ 方向向量与平面法向量正交，且直线至少有一点不在平面上
直线在平面上 $\Leftrightarrow$ 方向向量与平面法向量正交，且直线至少有一点在平面上
相交 $\Leftrightarrow$ 方向向量与平面法向量非正交

对直线：

$$ \left{ \begin{array}{l}
a_1 x+ b_1 y + c_1 z+ d_1 = 0\
a_2 x+ b_2 y + c_2 z+ d_2 = 0
\end{array} \right. $$

则过直线的平面方程可表示为：

$$ \alpha(a_1 x+ b_1 y + c_1 z+ d_1) + \beta (a_2 x+ b_2 y + c_2 z+ d_2) = 0 $$

多元函数最值

发表于 2016-09-26 | 分类于 Math

微积分笔记

多元函数极值

存在的必要条件

多元函数在极值点处若存在偏导数，则必为零。

存在的充分条件

若 $f(x,y)$ 在 $(x_0, y_0)$ 存在二阶偏导，一阶偏导为零， 黑塞矩阵 为：

$$ H = \begin{bmatrix}
f{xx} & f{xy} \
f{yx} & f{yy} \
\end{bmatrix}
$$

则有以下结论：

若 $f{xx}f{yy}-f{xy}f{yx}>0$ 且 $f_{xx}>0$，则 $H$ 为正定矩阵，故 $f(x_0,y_0)$ 为极小值
若 $f{xx}f{yy}-f{xy}f{yx}>0$ 且 $f_{xx}<0$，则 $H$ 为负定矩阵，故 $f(x_0,y_0)$ 为极大值
若 $f{xx}f{yy}-f{xy}f{yx}<0$，则 $H$ 为不定矩阵，故 $f(x_0,y_0)$ 不是极值

有界闭区域上的最值

$f(x,y)$ 在某一有界闭区域上连续，则 $f(x,y)$ 必定有最大最小值。最值可能是区域内极值及边界上的最值。求最值的一般步骤：

求 $f(x,y)$ 在区域内所有驻点（偏导为零）及其函数值
求 $f(x,y)$ 在边界上的最值
比较前两步的函数值，得出最值

求边界上的最值，直接将边界函数代入目标函数或使用拉格朗日乘数法。

条件极值与拉格朗日乘数法

求目标函数极值： $u=f(x,y)$\
约束函数： $\varphi(x,y)=0$\
拉格朗日函数： $F(x,y,\lambda)=f(x,y)+\lambda\varphi(x,y)$

目标函数极值点满足（必要条件）拉格朗日函数偏导为零：

$$ \left{ \begin{array}{l}
F_x = 0 \
Fy = 0 \
F\lambda = \varphi(x,y) = 0
\end{array} \right. $$

可推广到多元函数多约束函数情况。

参数估计与假设检验

发表于 2016-09-21 | 分类于 Math

概率论与数理统计\
数理统计基本概念

参考：我应该对显著性水平使用什么值？

参数估计 指用样本估计总体分布的参数。分点估计和区间估计。\
假设检验 指对总体情况的假设做检验，在给定显著水平下做出拒绝或接受的判断。

参数的点估计

构造一个适当的统计量 $\hat{\theta}=\hat{\theta}(X_1,X_2,…,X_n)$，作为对总体参数 $\theta$ 的估计。称函数（也是随机变量） $\hat{\theta}$ 为参数 $\theta$ 的 估计量，代入样本观测值得到函数值，称为 估计值。

矩估计

矩估计的依据：大数定律

用总体矩表示总体参数，然后用对应样本矩作为总体矩的估计，达到以样本矩估计总体参数的目的。以下用矩估计期望 $\mu$ 和二阶中心矩 $M_2$：

$$ \hat{\mu} = \overline{X} = \frac{1}{n} \sum_{i=1}^n X_i \
\hat{\sigma}^2 = M2 = \frac{1}{n} \sum{i=1}^n (X_i - \overline{X})^2
$$

极大似然估计

按照最大可能性估计参数。构造抽出当前样本的概率——似然函数，（常用 似然方程）估计最优参数使该概率最大。

似然函数：样本个体概率之积（离散型）或概率密度之积（连续型），记为 $L(x_1,x_2,…,x_n;\theta_1,\theta_2,…,\theta_m)$；\
似然方程：似然函数的对数对参数求偏导

$$ \frac{\partial\ln L}{\partial\theta_k},\quad k=1,2,…,m$$

估计量的优良性准则

不同方法求出的估计量很可能不同，估计量的优良性准则就可用于挑选优良估计量。

无偏性

如果 $E(\hat{\theta})=\theta$，则称 $\hat{\theta}$ 为 无偏估计量。样本方差是总体方差的无偏估计。

有效性

如果无偏估计 $\hat{\theta}_1$ 和 $\hat{\theta}_2$ 满足 $D(\hat{\theta}_1) \le D(\hat{\theta}_2)$，则称 $\hat{\theta}_1$ 比 $\hat{\theta}_2$ 有效。如果 $\hat{\theta}$ 是 $\theta$ 估计中方差最小的，称为 最小方差无偏估计。

相合性

估计量应随着样本容量增大而接近总体参数的真值。当样本容量 $n\rightarrow \infty$ 时， $\hat{\theta}_n$ 依概率收敛于 $\theta$，即对任意 $\epsilon > 0$，满足

$$ \lim_{n\rightarrow \infty} P{ |\hat{\theta}_n - \theta| < \epsilon } = 1 $$

则称 $\hat{\theta}_n$ 为 $\theta$ 的 相合估计量 或 一致估计量。

区间估计

点估计不能给出估计值的可信程度，区间估计弥补了这点。区间估计指估计参数的取值区间及对应的可信程度（概率）。它有 2 个基本要求，可信程度（概率）尽可能大和区间尽可能小，显然这是矛盾的。一般的做法是先指定可信程度，再在该前提下尽可能缩小区间。

如果满足

$$ P{\hat{\theta}_1(X_1,X_2,…,X_n) \le \theta \le \hat{\theta}_2(X_1,X_2,…,X_n)} = 1 -\alpha $$

则称 $[\hat{\theta}_1,\hat{\theta}_2]$ 为 $\theta$ 的 置信度 为 $1-\alpha$ 的 置信区间。

枢轴变量法

在几个抽样分布定理中，可见 统计量、总体分布参数与抽样分布 三者存在一定关系，利用这些关系构造“统计量与总体参数的函数”——服从已知分布的 枢轴变量，及其指定置信度下的概率方程，解出枢轴变量估计区间，进而解出参数估计区间。

例如，已知正态总体分布方差 $\sigma^2$ 和一个容量为 n 的样本，给定置信度 $1-\alpha$，求期望 $\mu$，可构造枢轴变量

$$ U = \frac{\overline{X} - \mu}{\sigma / \sqrt{n}} \sim N(0,1),\quad because\; \overline{X} \sim N(\mu,\frac{\sigma^2}{n}) $$

$$ \Rightarrow P{ -u{\alpha/2} \le U \le u{\alpha/2}} = 1-\alpha $$

其中 $u_{\alpha/2}$ 是正态分布 上侧 $\frac{\alpha}{2}$ 分位数，可以查表解出得到 $U$ 的估计区间，进而解聘 $\mu$ 的估计区间。

一个正态总体的区间估计

以下是用枢轴变量法解出的正态总体参数的估计区间结果。 $\mu，\sigma^2$ 分别为期望、方差，指定置信度为 $1-\alpha$。

$\mu$ 置信区间

$$ [\overline{X}-\frac{\sigma}{\sqrt{n}}u{\alpha/2},\;\; \overline{X}+\frac{\sigma}{\sqrt{n}}u{\alpha/2}],\quad with\; \sigma^2\; known$$

$$ [\overline{X}-\frac{S}{\sqrt{n}}t{\alpha/2}(n-1),\;\; \overline{X}+\frac{S}{\sqrt{n}}t{\alpha/2}(n-1)],\quad with\; \sigma^2\; unknown$$

其中 $u{\alpha/2},\;t{\alpha/2}$ 分别是正态分布与 T 分布的上侧分位数。

$\sigma^2$ 置信区间

$$ [\frac{(n-1)S^2}{\chi^2{\alpha/2}(n-1)} ,\;\; \frac{(n-1)S^2}{\chi^2{1-\alpha/2}(n-1)}] ,\quad with\; \mu\; unknown $$

其中 $\chi^2{\alpha/2},\;\chi^2{1-\alpha/2}$ 为 $\chi^2$ 上侧分位数。

两个正态总体的区间估计

以下是用枢轴变量法解出的正态总体参数的区间估计。 $\mu_1，\sigma_1^2$ 与 $\mu_2，\sigma_2^2$ 分别为两个总体的期望、方差，指定置信度为 $1-\alpha$。

$\mu_1 - \mu_2$

$$ [\overline{X} - \overline{Y} - u_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n2}} ,\;\; \overline{X} - \overline{Y} + u{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}} ],\quad with\; \sigma_1^2,\sigma_2^2\; known$$

如果 $\sigma_1^2,\sigma_2^2$ 未知但相等，则区间为

$$ [(\overline{X}-\overline{Y})-t_{\alpha/2}(n_1+n_2-2)S_w\sqrt{\frac{1}{n_1}+\frac{1}{n2}} ,\quad (\overline{X}-\overline{Y})+t{\alpha/2}(n_1+n_2-2)S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}] $$

$$ S_w = \sqrt{\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}} $$

其中 $u{\alpha/2},\;t{\alpha/2}$ 分别是正态分布与 T 分布的上侧分位数。

$\frac{\sigma_1^2}{\sigma_2^2}$ 区间

$$ [\frac{S_2^2}{S1^2}F{1-\alpha/2}(n_1-1,n_2-1),\;\; \frac{S_2^2}{S1^2}F{\alpha/2}(n_1-1,n_2-1)],\quad with\; \mu_1,\mu_2\; unknown$$

其中 $F{\alpha/2},F{1-\alpha/2}$ 为 F 分布上侧分位数。

大样本方法

用“样本均值”与“总体期望方差”构造出枢轴变量，使之满足中心极限定理，当样本容量足够大时，近似服从正态分布，从而得到指定置信度下的概率方程，解出置信区间。如果总体期望方差均未知，可用点估计代替其中一个解另一个。

单侧置信区间

指估计区间只要求上限或下限，与双侧置信区间解法区别不大。

假设检验

为了检验假设 $H_0$，称为 原假设 或 零假设，假定 $H_0$ 是正确的，进行推导，如果指导出小概率事件，就有理由拒绝原假设，反之，接受原假设。

原假设的逆命题 $H_1$ 称为 对立假设 或 备择假设。使原假设接受的（根据假设构造的） 检验统计量 取值区域称为 检验的接受域，反之为 检验的拒绝域。

假设检验的两类错误

假设检验可能犯两类错误， 第一类错误“弃真” 和 第二类错误“纳伪”。犯第一类错误的概率：

$$ P{ 拒绝 H_0 | H_0 为真} = \alpha $$

称为 显著性水平，通常是一个 小概率。 第一二类错误概率发生概率是互相矛盾的，在实际应用中，根据二者犯错代价设置显著性水平大小。（参考：我应该对显著性水平使用什么值？）

显著性检验的步骤

整个过程类似参数区间估计

提出假设
构造检验统计量，并 在 $H_0$ 成立的条件下，能确定检验统计量的分布
选定显著性水平 $\alpha$，确定拒绝域
根据样本观测值和拒绝域，作出检验决策

单个正态总体假设检验

期望 $\mu$ 检验

$H_0: \mu=\mu_0,\quad H_1: \mu \ne \mu_0$

总体方差 $\sigma^2$ 已知，检验统计量：

$$ U = \frac{\overline{X} - \mu0}{\sigma/\sqrt{n}} \sim N(0,1),\quad 拒绝域：|u|> u{\alpha/2} $$

总体方差未知，检验统计量：

$$ T = \frac{\overline{X} - \mu0}{S/\sqrt{n}} \sim t(n-1),\quad 拒绝域：|t|> t{\alpha/2}(n-1) $$

其中， $u{\alpha/2},\;t{\alpha/2}(n-1)$ 为正态分布与 T 分布上侧分位数。对于备择假设为不等式的情况，统计量不变，拒绝域稍做变化。

方差 $\sigma^2$ 检验

$H_0: \sigma^2=\sigma^2_0,\quad H_1: \sigma^2 \ne \sigma^2_0$

总体期望未知，检验统计量：

$$ \chi^2 = (n-1)\frac{S^2}{\sigma0^2} \sim \chi^2(n-1),\quad 拒绝域：\chi^2 > \chi{\alpha/2}^2(n-1)\; 或\; \chi^2 < \chi_{1-\alpha/2}^2(n-1) $$

总体期望 $\mu$ 已知，检验统计量：

$$ \chi^2 = \frac{\sum_{i=1}^n (X_i - \mu)^2}{\sigma0^2} \sim \chi^{2}(n),\quad 拒绝域：\chi^2 > \chi{\alpha/2}^2(n)\; 或\; \chi^2 < \chi_{1-\alpha/2}^2(n) $$

参考“期望 $\mu$ 检验”备注。

两个正态总体假设检验

期望差 $\mu_1 - \mu_2$ 检验

$H_0: \mu_1 - \mu_2 = 0,\quad H_1: \mu_1 - \mu_2 \ne 0$

总体方差 $\sigma_1^2,\;\sigma_2^2$ 均已知，检验统计量：

$$ U=\cfrac{(\overline{X}-\overline{Y})}{\sqrt{\sigma_1^2/n_1+\sigma_2^2/n2}} \sim N(0,1),\quad 拒绝域：|u|>u{\alpha/2}$$

总体方差 $\sigma_1^2,\;\sigma_2^2$ 均未知，但 $\sigma_1^2=\sigma_2^2=\sigma$，检验统计量：

$$ T=\cfrac{(\overline{X}-\overline{Y})}{S_w\sqrt{1/n_1+1/n_2}} \sim t(n_1+n2-2),\quad 拒绝域：|t|>t{\alpha/2}(n_1+n_2-2)$$

$$ S_w = \sqrt{\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}} $$

参考“期望 $\mu$ 检验”备注。

方差比 $\frac{\sigma_1^2}{\sigma_1^2}$ 检验

$H_0:\sigma_1^2=\sigma_2^2,\quad H_1:\sigma_1^2\ne\sigma_2^2$

总体期望均未知，检验统计量：

$$ F=\frac{S_1^2}{S_2^2} \sim F(n_1-1, n2-2),\quad 拒绝域：f > F{\alpha/2}(n_1-1,n2-1)\; 或\; f < F{1-\alpha/2}(n_1-1,n_2-1) $$

参考“期望 $\mu$ 检验”备注。

大样本检验法

类比区间估计的大样本方法

数理统计基本概念

发表于 2016-09-21 | 分类于 Math

概率论与数理统计\
参数估计与假设检验

基本概念

样本与样本观测值

样本是由总体中的一部分个体组成，是一组随机变量，记为 $X_1,\,X_2,…,X_n$，其中 n 为 样本容量。样本中个体的实际取值 $x_1,\,x_2,…,x_n$ 称为 样本观测值。

统计量与统计值

统计量 是不含未知参数的样本函数 $g(X_1,\,X_2,\,…,X_n)$，也是一个随机变量。统计量是对总体进行推断的基础。 统计值 是样本观测值代入统计量中得到的函数值。

抽样分布

统计量的分布

常用统计量

$$ 样本均值\, —— \, \overline{X} = \frac{1}{n} \sum_{i=1}^n Xi \
样本方差\, —— \, S^2 = \frac{1}{n-1} \sum{i=1}^n (X_i - \overline{X})^2 \
样本标准差\, —— \, S\
样本\, k\, 阶原点矩\, —— \, Ak = \frac{1}{n} \sum{i=1}^n X_i^k \
样本\, k\, 阶中心矩\,—— \, Mk = \frac{1}{n} \sum{i=1}^n (X_i - \overline{X})^k
$$

抽样分布

$\chi^2$ 分布

若随机变量 $X$ 的概率密度函数为：
$$ f(x) = \left{\begin{array}{}
\cfrac{1}{2\Gamma(\frac{n}{2})} (\frac{x}{2})^{\frac{n}{2}-1} e^{-\frac{x}{2}},\quad x>0\
0,\quad x \le 0
\end{array}\right. $$

则称 $X$ 服从自由度为 n 的 $\chi^2$ 分布，记 $X\sim \chi^2(n)$。其中，

$$ \Gamma(s) = \int_0^{+\infty} x^{s-1}e^{-x}\,dx$$

性质

$$ X \sim \chi^2(n) \Rightarrow E(X) = n,\; D(X)=2n\
X,\;Y\;相互独立，且\;X\sim\chi^2(n_1),\;Y\sim\chi^2(n_2) \Rightarrow X+Y\sim\chi^2(n_1+n2)\
\chi\alpha^2(n) \approx n+u\alpha\sqrt{2n},\quad with\; big\; n\
\chi^2(n)\;近似服从\;N(n,2n) ,\quad with\; big\; n
$$
在第三条性质中， $\chi\alpha^2(n)$ 为上侧概率为 $\alpha$ 的 $\chi^2(n)$ 上侧分位数， $u_\alpha$ 为上侧概率为 $\alpha$ 的标准正态分布的上侧分位数。

$t$ 分布

随机变量 T 的概率密度函数为：

$$ f(x) = \cfrac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi}\Gamma(\frac{n}{2})} (1+\frac{x^2}{n})^{-\frac{n+1}{2}},\quad -\infty<x<+\infty $$

则称 T 服从自由度为 n 的 t 分布，记 $T \sim t(n)$

当 n 足够大时， T 近似服从 $N(0,1)$ 分布。

$F$ 分布

设随机变量 F 的概率密度函数为

$$ f(x) = \left{\begin{array}{}
n_1^{n_1/2} n_2^{n_2/2} \cfrac{\Gamma((n_1+n_2)/2)}{\Gamma(n_1 / 2)\Gamma(n_2/2)} x^{n_1/2-1}(n_1 x + n_2)^{(n_1+n_2)/2},\quad x > 0\
0,\quad x \le 0
\end{array}\right. $$

则称 F 服从第一自由度为 $n_1$，服从第二自由度为 $n_2$ 的 F 分布，记为 $F\sim F(n_1,n_2)$

性质

$$ F \sim F(n_1,n_2) \Rightarrow \frac{1}{F} \sim F(n_2, n1) $$
$$ F{1-\alpha}(n_1,n2)=\frac{1}{F\alpha(n_2,n_1)} $$

抽样分布定理

服从抽样分布的随机变量

n 个相互独立并服从标准正态分布的随机变量的平方和服从自由度为 n 的 $\chi^2$ 分布：

$$ \sum_{i=1}^n X_i^2 \sim \chi^2(n) $$

相互独立的随机变量 X，Y， $X\sim N(0,1),\;Y\sim \chi^2(n)$ 有

$$ T = \frac{X}{\sqrt{Y/n}} \sim t(n) $$

相互独立的随机变量 X，Y， $X\sim \chi^2(n_1),\;Y\sim \chi^2(n_2)$ 有

$$ F = \frac{X/n_1}{Y/n_2} \sim F(n_1,n_2) $$

单样本抽样分布

样本 $X_1,\,X_2\,…,X_n$ 来自于分布为 $N(\mu,\sigma^2)$ 的正态总体， $\overline{X},\;S^2$ 分别为样本均值与方差，则有

$$ \overline{X}\; 与 \;S^2\; 相互独立\
\overline{X} \sim N(\mu,\frac{\sigma^2}{n})\
\frac{n-1}{\sigma^2}S^2 \sim \chi^2(n-1)\
\frac{\overline{X}-\mu}{S/\sqrt{n}} \sim t(n-1) $$

双样本抽样分布

两样本分别来自于正态总体 $N(\mu_1,\sigma_1^2)$ 和 $N(\mu_2,\sigma_2^2)$，它们相互独立，样本均值和方差分别为 $\overline{X},\;S_1^2$ 及 $\overline{Y},\;S_2^2$，样本容量分别为 $n_1,\;n_2$。则有

$$\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F(n_1-1,n_2-1)$$

$$ with\; \sigma_1^2=\sigma_2^2,\quad
\cfrac{(\overline{X}- \overline{Y})-(\mu_1 - \mu_2)}{S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim t(n_1+n_2 - 2) $$

其中

$$ S_w = \sqrt{\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}} $$

无偏估计

样本均值与方差的期望分别是总体分布的期望与方差。

$$ E(\overline{X}) = \mu $$

$$ E(S^2) = \sigma^2 $$

二次型

发表于 2016-09-18 | 分类于 Math

矩阵相关

参考：

二次型化为标准形

通过可逆线性变换 $\mathbf{X} = \mathbf{CY}$，变换二次型 $f(\mathbf{X})=\mathbf{X^T A X}=\mathbf{Y^T (C^T A C) Y}$。要求 C 可逆，因为 可逆线性变换不改变二次型的秩。\
二次型化通过可逆线性变换为标准形，即求可逆 $\mathbf{C}$ 使得系数矩阵 $\mathbf{A}$ 的合同矩阵 $\mathbf{\Lambda}=\mathbf{C^T A C}$ 为对角矩阵。（当然 $\mathbf{\Lambda}$ 也解出了）整个过程可视作对实对称矩阵 A 的合同对角化。

配方法

对 x 挨个配方，再用 x 表示 y 构成方程组，求该方程组系数矩阵的逆矩阵即 $\mathbf{C}$，标准形在配方时可知。（参考：线性代数知识梳理6——二次型）

正交变换

在可逆线性变换 $\mathbf{X} = \mathbf{CY}$ 的基础上，进一步要求 $\mathbf{C}$ 为正交矩阵。\
求解步骤参考实对称矩阵的相似对角化。

矩阵特征值、正交化与对角化

发表于 2016-09-17 | 分类于 Math

矩阵相关

几何上看，特征向量乘对应矩阵相当于做一次“伸缩”变换。 每个方阵都有（实数或复数）特征值，而一个特征值对应无数个特征向量。\
对角化指 相似对角化，指求解与方阵相似的对角矩阵的过程。\
正交化指求解与线性无关向量组等价的正交向量组的过程，因为等价，两个向量组在同一子空间。

特征值与特征向量的计算

根据特征方程 $\det (\lambda \mathbf{I}-\mathbf{A}) = 0$ 计算全部特征根 $\lambda_1 \sim \lambda_k\;(k \le n)$
线性方程组 $(\lambda_i \mathbf{I}-\mathbf{A})\mathbf{X}=\mathbf{0}$ 的通解 除去零向量 即对应于 $\lambda_i$ 的所有特征向量

一般矩阵的相似对角化

$$ \mathbf{P}^{-1}\mathbf{A}\mathbf{P} = \mathbf{Diag}[\lambda_1, \lambda_2,…,\lambda_n] $$

现需求解 $\lambda$ 与 $\mathbf{P}$。首先要求 A 能对角化。

求解 A 的特征值 $\lambda$，相似对角矩阵的对角元素即 $\lambda$，每个特征值出现的次数与其代数重数相等
求解每个特征值对应的特征向量，检查是否满足对角化条件。P 即特征列向量构成的矩阵，排列顺序与特征值相同。

施密特正交化

前提是 向量组线性无关。对 $\alpha_1,\alpha_2,…,\alpha_s$ 施密特正交化：

$\beta_1 = \alpha_1$\
$\beta_2 = \alpha_2 - (\alpha_2\cdot \beta_1)/(\beta_1\cdot \beta_1)\,\beta_1$\
$\beta_3 = \alpha_3 - (\alpha_3\cdot \beta_1)/(\beta_1\cdot \beta_1)\,\beta_1 - (\alpha_3\cdot \beta_2)/(\beta_2\cdot \beta_2)\,\beta_2$\
…\
$\beta_s = \alpha_s - (\alpha_s\cdot \beta_1)/(\beta_1\cdot \beta_1)\,\beta_1 - (\alpha_s\cdot \beta_2)/(\beta_2\cdot \beta_2)\,\beta_2-… - (\alphas\cdot \beta{s-1})/(\beta{s-1}\cdot \beta{s-1})\,\beta_{s-1}$

得到正交向量组，再令 $\gamma_i = \beta_i / (|\beta_i|)$ 得到标准正交向量组

实对称矩阵的相似对角化

与一般矩阵的相似对角化相同，但习惯更进一步，要求 $\mathbf{P}$ 正交，所以在对每个特征值求解出特征向量组后，需要做标准正交化处理。（不同特征值的特征向量彼此正交，不必处理）

性质

特征值的和积

$$ \lambda_1 + \lambda_2 + … \lambdan = a{1,1} + a{2,2} + … + a{n,n} \
\lambda_1\lambda_2…\lambda_n = \det \mathbf{A} $$

其中包括复数特征根。可得 方阵可逆的充要条件是其所有特征值全不为零。

不同特征值的特征向量线性无关

对角化与特征值的相关定理

相似矩阵的特征值相同
n 阶方阵能对角化的充要条件
- A 的每个特征值 $\lambda_i$ 的代数重数 $k_i$ 等于方程组 $(\lambda_i \mathbf{I} - \mathbf{A}) \mathbf{X} = \mathbf{0}$ 的基础解系向量个数，即 $k_i=n - R(\lambda_i \mathbf{I} - \mathbf{A})$
- A 有 n 个线性无关的特征向量
- 充分条件：特征值都是单特征根
相似对角方阵的对角元素是全部特征值

正交矩阵的相关性质

$\det \mathbf{A} = \pm 1$
$\mathbf{A},\;\mathbf{B}$ 正交，则 $\mathbf{AB}$ 正交

实对称矩阵相关性质

特征值都是实数
不同特征值的特征向量彼此正交
一定有 正交方阵 $\mathbf{C}$ 使之相似对角化 $\mathbf{C^{-1}AC}=\mathbf{C^TAC}$