Unbiased Estimation 无偏估计

何谓无偏估计

个人理解是,用某种方式对采样后的样本进行统计,比如求方差,这个方差会随着样本的不同而有浮动,或者说通过样本得到的方差是个随机变量,多次采样后可以对样本的方差求期望,如果方差的期望值中不含变量则说明计算样本方差的公式是合理的,换句话说:用这种公式进行估计没有系统上的偏差,产生误差的原因只有一个:随机因素(跟你每次采样的运气有关)

样本均值

样本均值计算公式

有n个样本,X1,X2…Xn
可以这样计算样本均值: X拔 = 1/n(ΣXi), 这样估计样本均值是合理的吗?通过计算样本均值的期望进行检验

样本均值无偏检验

样本均值是个随机变量,设真实期望为μ
E[X拔] = E[1/n(ΣXi)] = 1/nΣE[Xi] = 1/nΣμ = μ
采用这个公式计算样本均值,样本均值的期望就是真实期望μ,所以无偏!

样本方差

样本方差计算公式

有n个样本,X1,X2…Xn
不妨先这样计算样本方差: S² = 1/n(Σ(Xi-X拔)²)

样本方差无偏检验

设真实期望是μ,真实方差是σ²
E[S²]
= 1/nE[(Σ(Xi-X拔)²)]
= 1/nE[(Σ(Xi-μ+μ-X拔)²)]
= 1/nE[(Σ(Xi-μ)²+Σ2(Xi-μ)(μ-X拔)+n(X拔-μ)²)]
= 1/nE[(Σ(Xi-μ)²-2n(X拔-μ)²+n(X拔-μ)²)]
= 1/nE[(Σ(Xi-μ)²-n(X拔-μ)²]
= 1/n{ΣE[(Xi-μ)²] - nE[(X拔-μ)²]} (X拔是随机变量,其期望就是真实均值μ,在刚才的样本均值中算过了)
= 1/n{nσ² - nVar(X拔)}
= σ² - Var(1/n(ΣXi))
= σ² - 1/n²Σ{Var(Xi)}
= σ² - σ²/n
= (n-1)σ²/n
由此可以看出,这样计算样本方差S² = 1/n(Σ(Xi-X拔)²), 样本方差的期望值和样本数量n有关,这样就是有偏估计了,
需要调整公式,令S² = 1/(n-1)(Σ(Xi-X拔)²)
E[S²]
= E[1/(n-1)(Σ(Xi-μ)²-2n(X拔-μ)²+n(X拔-μ)²)]
= 1/(n-1){nσ² - nVar(X拔)}
= n/(n-1){σ² - Var(X拔)}
= n/(n-1){σ² - σ²/n}
= σ²
采用这个公式S² = 1/n(Σ(Xi-X拔)²)计算样本方差,样本方差的期望就是真实方差σ² ,所以无偏!

总结

无偏统计
有n个样本,X1,X2…Xn
样本均值计算公式: X拔 = 1/n(ΣXi)
样本方差计算公式: S² = 1/(n-1)(Σ(Xi-X拔)²)
E[X拔] = μ ; E[(X拔-μ)²] = Var(X拔) ; E[S²] = σ²

Extra

貌似在最大似然估计中,样本方差可以按照有偏的方法计算,因为样本非常多时,(n-1)σ²/n ~ σ²