方差为什么除以 ( n-1 )？

为什么

在统计学中，方差是一个非常重要的概念，它用来衡量一组数据的离散程度。当我们计算样本方差时，通常会看到一个公式中的分母是 ( n-1 )，而不是样本数量 ( n )。这可能会让人感到困惑，为什么我们要除以 ( n-1 ) 而不是直接除以 ( n ) 呢？本文将深入探讨这个问题，帮助大家更好地理解这一统计学的基本概念。

1. 什么是方差？

方差（Variance）是用来度量随机变量或一组数据与其均值之间的偏离程度的一种度量。简单来说，方差越大，表示这组数据的波动性越大；方差越小，则表示这组数据更加集中。

对于一个总体，其方差 ( \sigma^2 ) 可以用以下公式计算： [ \sigma^2 = \frac{\sum (x_i - \mu)^2}{N} ] 其中，( x_i ) 是每个观测值，( \mu ) 是总体均值，( N ) 是总体大小。

然而，在实际应用中，我们往往只能获取到一部分样本数据，而不是整个总体的数据。因此，我们需要通过样本数据来估计总体的方差。

2. 样本方差

当我们从总体中抽取一个样本时，样本的方差 ( s^2 ) 通常使用以下公式计算： [ s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1} ] 这里，( x_i ) 是每个样本点的值，( \bar{x} ) 是样本均值，( n ) 是样本大小。

3. 为什么使用 ( n-1 )？

3.1 无偏估计

使用 ( n-1 ) 的主要原因是为了使样本方差成为总体方差的一个无偏估计。无偏估计意味着样本方差的期望值等于总体方差。如果我们在计算样本方差时使用 ( n ) 作为分母，那么得到的样本方差将会系统性地低估总体方差。这是因为样本均值 ( \bar{x} ) 本身已经是最接近这些样本点的值，因此使用 ( n ) 会导致偏差。

3.2 自由度

另一个解释是自由度的概念。在计算样本方差时，我们首先需要计算样本均值 ( \bar{x} )。一旦确定了 ( \bar{x} )，我们就失去了一个自由度，因为最后一个样本点可以通过其他 ( n-1 ) 个样本点和样本均值推导出来。因此，实际上我们只有 ( n-1 ) 个独立的信息来估计方差，这就是为什么分母是 ( n-1 )。

4. 实例说明

假设我们有一个总体，总体均值为 50，总体方差为 100。从这个总体中随机抽取 5 个样本：48, 52, 50, 49, 51。

计算样本均值： [ \bar{x} = \frac{48 + 52 + 50 + 49 + 51}{5} = 50 ]
使用 ( n ) 计算样本方差： [ s^2_n = \frac{(48-50)^2 + (52-50)^2 + (50-50)^2 + (49-50)^2 + (51-50)^2}{5} = \frac{10}{5} = 2 ]
使用 ( n-1 ) 计算样本方差： [ s^2_{n-1} = \frac{(48-50)^2 + (52-50)^2 + (50-50)^2 + (49-50)^2 + (51-50)^2}{4} = \frac{10}{4} = 2.5 ]

可以看到，使用 ( n-1 ) 计算的样本方差更接近于总体方差 100。