Bootstrapping

Bootstrapping 是统计学上通过对样本 重采样(re-sampling) 来估计样本分布情况,并将结果作为总体分布的参考。其背后的思想是样本与总体独立同分布,用样本分布估计总体分布似乎合理。重采样方式是,对样本做 有放回的随机抽取 以得到“新样本”。

Bootstrapping 取名自美国俚语 “pull oneself up by one’s bootstraps”,呵呵,用自己的提靴带把自己提起来,现指做事充分利用自身条件,所以被称为自助法,又称提靴法。

Bootstrapping (statistics)——wikipedia) 上有个估计世界上人的身高均值的例子。当然,统计所有人身高是不现实的,所以可以抽取容量为 N 的样本,算出均值。但是,这个值有多可信呢?这需要知道总体的分布情况。这时可以采用 Bootstrapping。通过在样本中做有放回的随机抽样,抽取到容量为 N 的“新样本”,计算其均值。重复该步骤许多次(典型的1000或10000次),得到一系列身高均值数据,也就能估计总体均值的大致分布了,进而计算均值的置信区间。

Bootstrapping 的优势在于对一系列估计量——如相关系数的置信区间——的简单直接的计算方式,引自 Wikipedia :

A great advantage of bootstrap is its simplicity. It is a straightforward way to derive estimates of standard errors and confidence intervals for complex estimators of complex parameters of the distribution, such as percentile points, proportions, odds ratio, and correlation coefficients.

参考