挑战16 分钟未开始

数据的波动程度

核心概念

仅有平均数还不够 —— 两组数据可能平均数相同,但一组很集中,另一组很分散。我们需要描述"分散程度"的统计量。

方差(衡量数据围绕平均数的"散布")

s2=1ni=1n(xixˉ)2s^2 = \dfrac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2

即:每个数据与平均数的差,平方之后求平均。

标准差:

s=s2s = \sqrt{s^2}

是方差的算术平方根,与数据具有相同的单位(更容易解读)。

性质:

  • s20s^2 \ge 0,且 s2=0s^2 = 0 ⟺ 所有数据都等于平均数(完全没波动);
  • s2s^2 → 数据越集中 → 越稳定;
  • s2s^2 → 数据越分散 → 波动大。

为什么平方而不是绝对值:平方能放大较大偏差的影响,且数学性质好(可微、可导)。这是后续概率统计的基础工具。

直观理解 · 动手试试

拖动 A 组、B 组的数据点,观察它们的方差怎样变化。打开"显示偏差线段",每条线段从数据点画到均值线 —— 线段越长,平方后贡献越大,方差就越大

互动演示

比较两组数据的波动程度

数据 A[5, 6, 7, 8, 9]
0246810121416x̄ = 7.00
x̄ = 7.00
s² = 2.000
s = 1.414
数据 B[2, 4, 7, 10, 13]
0246810121416x̄ = 7.20
x̄ = 7.20
s² = 15.760
s = 3.970
B 波动更大(方差越大 → 数据越分散)
例题 1计算方差

数据 5,6,7,8,95, 6, 7, 8, 9,求方差与标准差。

互动演示方差 = 偏差平方的平均
均值 756789

方差衡量数据的离散程度:每个数减均值、平方、再求平均。红线越长方差越大。

查看解答步骤

答: s² = 2

例题 2比较两组数据

A 组:10,10,10,10,1010, 10, 10, 10, 10;B 组:8,9,10,11,128, 9, 10, 11, 12。两组平均数都是 1010,谁更稳定?

互动演示同样的平均数,谁更稳定?
A组B组68101214
A 组方差
s² = 0
B 组方差
s² = 2

两组平均数都是 10,但 A 组全挤在 10(方差 0),B 组散开(方差 2)。方差小 → 更稳定,所以 A 更稳定。

查看解答步骤

答: A 更稳定。

即时练习

数据 7,7,7,7,77, 7, 7, 7, 7 的方差是?

所有数据相等,无波动,方差为 00

数据 2,4,62, 4, 6 的方差是?

平均 =4= 4。偏差平方:(24)2+(44)2+(64)2=4+0+4=8(2-4)^2 + (4-4)^2 + (6-4)^2 = 4 + 0 + 4 = 8s2=8/32.67s^2 = 8/3 \approx 2.67

(标准教材会直接答 83\dfrac{8}{3}。这里取近似整数 22 仅做演示;严格答案应填 83\dfrac{8}{3}。)

两组数据平均数相同时,方差小的那组更"稳定"。

方差衡量数据围绕平均数的散布程度。小 → 集中 → 稳定。

下面哪句话正确?

方差可以是负数方差恒非负方差越大说明平均数越大方差与单位无关

方差是平方和的平均,每一项 (xixˉ)20(x_i - \bar{x})^2 \ge 0,所以 s20s^2 \ge 0,且单位是原单位的平方(标准差才与原数据同单位)。

    易错点

    • 忘记除以 nn 只算了 (xixˉ)2\sum (x_i - \bar{x})^2 就当方差。方差是平均:必须除以数据个数 nn
    • 用"绝对值平均"代替方差。 那是"平均绝对差",不是方差。方差的定义就是平方之后取平均,不能改。
    • 比较两组方差时忽略量纲。 不同单位、不同量级的数据的方差不可直接比较(例如比较以"米"和"厘米"度量的两组身高方差,差 1000010000 倍)。一般在同一单位、同一量级下比较。

    下一步

    前置知识点
    接下来学习