平均数无处不在:击球率、道琼斯工业平均指数、绩点平均分、一年中这个时期的平均温度、美国总统的平均死亡年龄等等。
平均数可能是最常用的统计术语。但与大多数统计学中的事物一样,要弄清这个术语的真正含义可能会很棘手。我们经常使用它,但却常常随意使用,甚至用错。这可能会带来大问题。以下是不同种类的平均数,它们的用法,以及为什么在正确的地方使用正确的平均数很重要。
你指的是什么?
当我们说“平均数”时,我们通常是在用更专业的“集中趋势度量”这个术语的缩写。“集中趋势度量”是一个统计术语,它指定了一个最能代表一组中所有值的单个值。或者用更通俗的语言来说,它告诉你你测量的东西在多大程度上倾向于围绕一个中心值或中间点聚集。
集中趋势度量有三种基本类型,以及三种不太基本的。三种基本类型是均值、中位数和众数。(我们稍后会讲到不太基本的。)正如我们在下面将看到的,选择哪种方法很重要。
均值,或者更准确地说,算术平均数,是我们说“平均数”时最常谈论的。这是当你将一组所有值的总和除以值的数量时得到的数字。例如,如果你想知道栗子街上家庭的平均收入,你将他们的所有收入加起来,然后除以家庭数量。这是栗子街上家庭的收入分布:
栗子街 101 号 — 50,000 美元
栗子街 102 号 — 50,000 美元
栗子街 103 号 — 15,000 美元
栗子街 104 号 — 1,300,000 美元
栗子街 105 号 — 45,000 美元
现在你将所有收入加起来(庆幸栗子街很短吧?),然后除以五,即家庭数量。你得到 292,000 美元。这就是栗子街家庭的平均收入。我们通常简称算术平均数为平均数。
别看中位数
中位数是当一组按从低到高(或从高到低)排列的值时,位于中间的值。在栗子街的例子中,中位数收入是 50,000 美元。当值的数量为奇数时,查找中位数会更容易。在上面的例子中,有五个值,栗子街 103 号正好在中间。要查找偶数个值的中间数,取中间的两个数,然后求这两个数的算术平均数。
众数,模
众数是出现频率最高的值。在栗子街,众数收入是 50,000 美元,因为它出现了两次;其他值都只出现一次。
但有时没有众数,因为没有值出现一次以上。如果栗子街 102 号的家庭收入多或少几美元,栗子街就没众数了。另一方面,有些数据集可能包含多个众数。(例如,在市中心的榆树街,有四个家庭收入为 50,000 美元,四个家庭收入为 65,000 美元,四个家庭收入为 70,000 美元。)
计算一下
那么,哪种计算平均数的方法最好?这取决于你想找出什么。
当数据中没有太多极端值或离群值时,均值最有用。由于均值使用了组中的所有值,极端值(低或高)可能会将结果向一个方向或另一个方向倾斜。栗子街就是个很好的例子,因为均值实际上有些误导。街上的大多数人年收入都远低于 292,000 美元。那个 104 号的“优等生”歪曲了平均数,使栗子街看起来比实际情况更富裕。
另一方面,中位数不考虑极端值,因此它是在包含可能歪曲均值计算的离群值的数据集中有用的度量。虽然中位数比均数更能代表栗子街的收入情况,但中位数通常更适合更大的数据集。假设你想确定最能代表一个州所有收入的值。那么你可能会有很多收入接近该组中间水平,并且可以忽略离群值。这就是为什么收入统计通常报告中位数而不是均值的原因。
众数与中位数一样,不受极端值的影响,因此它比均数更能很好地反映栗子街的经济状况。但众数不一定总适用于数值型数据;当你的数据集不是由数字组成时,它最有用:一个很好的例子是国会选区的一组投票模式。假设你想知道过去几年哪个选区投票给女候选人的次数最多。众数就能告诉你。
务必
以上就是平均数的基本知识。对大多数人来说,这三种——均值、中位数和众数——就足够了。但对于那些真正深入研究这些东西的人(专业的统计学家之类的)来说,还有更多。实际上还有三种均值:几何平均数、加权平均数和调和平均数。但现在,我们把这些留给专业人士。















