Bootstrapping 是统计学上通过对样本 重采样(re-sampling) 来估计样本分布情况,并将结果作为总体分布的参考。其背后的思想是样本与总体独立同分布,用样本分布估计总体分布似乎合理。重采样方式是,对样本做 有放回的随机抽取 以得到“新样本”。
Bootstrapping 取名自美国俚语 “pull oneself up by one’s bootstraps”,呵呵,用自己的提靴带把自己提起来,现指做事充分利用自身条件,所以被称为自助法,又称提靴法。
Bootstrapping (statistics)——wikipedia) 上有个估计世界上人的身高均值的例子。当然,统计所有人身高是不现实的,所以可以抽取容量为 N 的样本,算出均值。但是,这个值有多可信呢?这需要知道总体的分布情况。这时可以采用 Bootstrapping。通过在样本中做有放回的随机抽样,抽取到容量为 N 的“新样本”,计算其均值。重复该步骤许多次(典型的1000或10000次),得到一系列身高均值数据,也就能估计总体均值的大致分布了,进而计算均值的置信区间。
Bootstrapping 的优势在于对一系列估计量——如相关系数的置信区间——的简单直接的计算方式,引自 Wikipedia :
A great advantage of bootstrap is its simplicity. It is a straightforward way to derive estimates of standard errors and confidence intervals for complex estimators of complex parameters of the distribution, such as percentile points, proportions, odds ratio, and correlation coefficients.