模式、中介和手段:一个统一的视角

2020-07-11 18:15:54

任何传统的统计学入门课程都会教给学生模式、中值和均值的定义。但是,因为入门课程不能假设学生有很大的数学成熟度,所以这三个汇总统计之间的密切关系也就不清楚了。本文试图通过明确所有这三个概念作为更一般问题的具体参数化来纠正这种情况。

为此,我需要介绍一个可能会困扰某些读者的非标准定义。为了简化我的阐述,让我们都同意假设\(0^0=0\)。特别地,我们将假设\(|0|^0=0\),即使\(|\epsilon|^0=1\)对于所有\(\epsilon&>0\)。这个定义是非标准的,但它大大简化了后面的内容,强调了模式、中介和手段的概念统一。

为了了解模式、中值和均值是如何产生的,让我们假设我们有一个要汇总的数字列表,\((x_1,x_2,\ldots,x_n)\)。我们希望我们的摘要是单个数字,我们将其称为\(s\)。我们应该如何选择\(s\)才能有效地汇总数字\((x_1,x_2,\ldots,x_n)\)?

为了回答这个问题,如果\(s\)和每个\(x_i\)之间的典型差异很小,我们将假设\(s\)是整个列表的有效汇总。有了这个假设,我们只需要做两件事:(1)定义两个数字\(x_i\)和\(s\)之间的差异的概念;以及(2)定义典型差异的概念。因为每个数字\(x_i\)都会产生它自己的差异,所以我们需要引入一种聚合单个差异的方法,以便说明一些典型的差异。

我们可以用多种方式定义一个数\(x_i\)和另一个数\(s\)之间的差异。目前,我们只考虑三种可能性。所有这三个选项都满足我们对差异概念的一个基本直觉:我们期望,如果\(|xi-s|=0\),则\(xi\)和\(s\)之间的差异应该是\(0\),如果\(|xi-s|>;0\),则差异应该大于\(0\),这三个选项都满足我们对差异概念的一个基本直觉:如果\(|x_i-s|>;0\),则\(x_i\)和\(s\)之间的差异应该是\(0\)。这给我们留下了一个明显的问题:当\(|x_i-s|>;0\)时,差异应该大多少?

第一个定义是\(d_i=|x_i-s|^0\),即偏差是\(1)当\(x_i\neq s\),只有当\(x_i=s\)时才是\(0\)。这种差异的概念通常被称为机器学习中的0-1损失。请注意,这个定义意味着任何不完全相等的东西都会产生恒定的差异度量。用\(s=0\)对\(x_i=2\)求和并不比使用\(s=1\)好,也不比用\(s=1)差。换言之,随着距离(X_I)越来越远,差异完全不会增加。您可以在下图最左侧的列中看到这一点:

第二个定义\(d_i=|x_i-s|^1\)表示差异等于\(x_i\)和\(s\)之间的距离。这在机器学习中通常被称为绝对偏差。请注意,这个定义意味着随着距离(X_I)越来越远,差异应该线性增加。这反映在上面图像的中心列中。

第三个定义\(d_i=|x_i-s|^2\)表示差异是\(x_i\)和\(s\)之间的平方距离。这在机器学习中通常被称为平方误差。请注意,这个定义意味着随着距离(X_I)越来越远,差异应该超线性地增加。例如,如果\(x_i=1\)和\(s=0\),则差异为\(1\)。但如果\(x_i=2\)和\(s=0\),则偏差为\(4)。这反映在上图最右侧的一列中。

当我们考虑只有一个元素\((X_1)\)的列表时,这些定义都建议我们应该选择相同的数字:即\(s=x_1\)。

虽然这些定义对于包含单个元素的列表没有什么不同,但它们建议对包含多个数字的列表使用非常不同的摘要。要了解原因,首先让我们假设我们将把每个\(xi\)的\(xi\)和\(s\)之间的差异聚合到一个建议值\(s\)的质量摘要中。要执行此聚合,我们将汇总每个\(x_i\)上的差异,并将结果称为\(E\)。

在这种情况下,我们的三个定义给出了典型差异的三个有趣的不同可能定义,我们称之为\(E\)表示错误:$$E_0=\sum_{i}|x_i-s|^0。$$。

当我们单独写下这些表达式时,它们看起来并没有太大的不同。但是如果我们选择\(s\)来最小化这三种类型的错误,我们会得到非常不同的数字。令人惊讶的是,这三个数字我们都非常熟悉。

例如,假设我们试图找到最小化单个数字汇总误差的零-一损失定义的\(s_0\)。在这种情况下,我们需要$$s_0=\arg\min_{s}\sum_{i}|x_i-s|^0。$$\(s_0\)应该具有什么值?如果您对此进行一些扩展思考,您会发现两件事:(1)不一定有一个最优值\(s_0\),但可能有许多不同的值;(2)这些最佳值中的每一个都是\(x_i\)的模式之一。

换句话说,当您使用精确相等作为误差度量时,一组数字的最佳单个数字汇总是这组数字的模式之一。

如果我们考虑一些其他的定义,会发生什么呢?让我们从考虑\(s_1\)开始:$$s_1=\arg\min_{s}\sum_{i}|x_i-s|^1。$$与\(s_0\)不同,\(s_1\)是唯一的数字:它是\(x_i\)的中值。也就是说,当您使用绝对差异作为误差度量时,对一组数字的最佳汇总是这组数字的中位数。

既然我们刚刚发现模式和中位数会自然出现,我们可能会想,是否会出现其他我们熟悉的基本统计数据。幸运的是,他们会的。如果我们查找,$$s_2=\arg\min_{s}\sum_{i}|x_i-s|^2,$$我们会发现,与\(s_1\)一样,\(s_2\)也是唯一的数字。此外,\(s_2\)是\(xi\)的平均值。也就是说,当您使用平方差作为误差度量时,一组数字的最佳汇总就是这组数字的平均值。

总而言之,我们刚刚看到一个数据集的三个最著名的单个数字汇总是非常密切相关的:它们都最小化了\(s\)和被汇总数字之间的平均差异。它们只是在考虑的差异类型上有所不同:

该模式最大限度地减少了汇总列表中的一个数字与我们使用的汇总不相等的次数。

我们刚才已经看到,模式、中位数和平均值都来自一个简单的参数过程,在这个过程中,我们试图最小化单个数字\(s\)与我们试图用\(s\)总结的一列数字\(x_1,x_2,\ldots,x_n\)之间的平均差异。在未来的一篇博客文章中,我将描述我们刚才介绍的想法如何与\(L_p\)规范的概念相关。关于Lp范数最小化的思想是对取模、取中值和取均值的推广,它导致了统计学中几乎所有重要的线性方法--从线性回归到奇异值分解(SVD)。

感谢肖恩·泰勒(Sean Taylor)阅读了这篇帖子的草稿并对其进行了评论。