统计学意义:实用导论

2020-09-12 02:51:48

简而言之,统计学意义是一种确定实验结果不太可能程度的方法,当某一现状假设为真时。

例如,假设一所学校有两个老师,每个老师的班级里有大约30美元的学生。这两个班都参加了标准化测试,结果是A班的平均分数比B班的平均分数高出5美元。在这方面,统计学意义将是我们确定A班的好成绩是否可以归因于随机机会的方式,例如:

或者是否有其他因素导致班级之间的成绩差异,例如:

这些班级是故意分开的(例如,更高级的学生或以某种语言为母语的人被分到A班)。

注意,在这种情况下,我们不会-至少使用分数上的信息-试图确定不同分数的确切原因是什么。相反,我们只会决定分数的差异是否纯属偶然,抑或不太可能涉及其他因素。

在计算统计显著性时,有两点很重要。第一个是你正在测量的东西和你正在比较的东西之间的差异的大小。第二个是你正在测量的东西的自然变化量。

第一个概念,差异的大小,很容易理解。让我们假设你是一个种植南瓜并尝试新肥料的农民。你有一个基准平均南瓜重,也就是平均10美元磅。你也有来自两种不同肥料的南瓜-A和B-你正在测试。

如果肥料A制造的南瓜重11美元磅。平均来说,那么1美元的重量是有可能的。相对于基线的差异$10$lbs。是由肥料引起的。然而,如果肥料B生产25美元磅。平均是南瓜,那就是15美元一磅。差额(25-10美元)更有可能是B肥的结果,而不是1美元磅的结果。差异是由肥料A造成的。

最常用的统计显著性检验可能是Z检验。Z检验的方程式为:

简而言之,Z-Test方程计算两个量的比率:顶部的分子和底部的分母。让我们逐一来看一看。

这里,$\bar{x}$代表数据集的最新测量平均值,而$u_0$代表最新基线平均值。以我们的化肥B为例,基线和测量平均值将分别为10美元磅和25美元磅,产生的差异幅度为:

一般来说,最终Z值的幅度越大,样本与基线平均值的偏差就越明显。特别是,分子为$15$($25-10$)比分子为$1$($11-10$)更重要-所有其他变量都相同。

到目前为止,我们只关注统计显著性方程的上半部分。让我们来看看这一次方程式的分母:

这里,$\dfrac{\sigma}{\sqrt{n}}$1处理我们测量数据中的变异量。更具体地说,如果我们无限期地重复采样过程,则计算测量的平均本身的平均偏差量。

毕竟,你不会认为你的南瓜真的都重25美元磅。是吗?有些可能重22美元,另一些重27美元。除了25美元磅。只是一个平均值,而这个测量的平均值可能会根据采样的南瓜而改变。

在这一点上,我们需要后退一步,解释什么是正常曲线和标准差。粗略地说,正常曲线是当事物受到聚合的、现实生活中的随机事件影响时如何发生的近似值。它们是随机的这一事实并不意味着它们是任意的。因此,它们采用钟形曲线的形状,如下图所示:在相关注释中,标准偏差是测量正常曲线宽度的一种方式,也可以将其定义为距中心的距离,该距离包含正常曲线下方区域的$68.27\$:类似地,两个标准偏差定义了距包围曲线$95.45\$的中心的距离,三个标准偏差定义了曲线的$99.73\$的距离:对于包含$95.45\$的曲线的一组数据,标准偏差定义为$99.73\$。比方说,如果你能拿起你在后院捡到的100美元的石头的重量,情况就会是这样的。或者,数据也可能几乎没有变化,就像你在一批中测量每个计算机芯片的处理速度的情况一样。让我们考虑另一个例子-这一次涉及汽车。想象一下,去轮胎店,被告知新轮胎的平均使用寿命为5万美元,标准偏差为5000美元英里。利用这些信息,我们可以构建轮胎寿命的概率分布,如下所示:如图所示,我们有50美元的机会超过平均50,000美元的里程(在再次需要新轮胎之前),有50美元的机会低于平均里程50,000美元。我们还知道,由于两个标准差对应于$10,000$英里(即,$5000\x 2$),我们将有$95.45\$机会获得里程在$40,000$到$60,000美元之间的新轮胎(即,两个标准差在平均范围内):现在,假设几年后,如果您已经驾驶了$55,000美元英里,您的轮胎需要更换。(=。你会认为这很不寻常吗?不,可能不会,因为这距离平均水平只有一个标准差-这完全在市场上经常看到的典型的轮胎到轮胎的变化范围内。

但现在,让我们假设这一次你在轮胎需要更换之前已经开了6万美元的里程。这将比平均水平高出两个标准差-这远远高于大多数新轮胎的使用寿命。此外,由于高于平均值的两个标准差对应于曲线$\Left(\frac{100\%-95.45\%}{2}\Right)$的顶部$2.28\$,因此由此得出结论:您的轮胎实际上比所有其他轮胎的寿命更长$97.72\$!

当然,单个测量值超过预期测量值的97美元是相当不寻常的。你必须开始思考,“也许我的情况与相同轮胎的典型安装有所不同。”例如,它可以是:

你只不过是个更谨慎的司机,轮胎磨损的速度比普通人要慢。

这家商店的轮胎比你想象的要好。也许你是因为某个快乐的意外而更上一层楼。

轮胎公司的产品少卖了一点,实际上比他们宣传的要好。

或者,它可能只是一个典型的变体-如果你碰巧在曲线的右尾发现了它。

到目前为止,我们已经了解了法线是如何应用于单个测量的。用一次测量,很容易看出它会落在正常曲线的什么位置,但如果你用多个测量代替,你的看法会发生怎样的变化?

也许你有一支车队,每辆车上都有相同类型的轮胎,这些轮胎可以使用,比如说,46美元,48美元,53美元,54美元,56美元,56美元,57美元,58美元,60美元和62美元,千里行驶里程数分别为46美元、48美元、53美元、54美元、56美元、56美元、57美元、58美元、60美元和62美元。这些额外的测量是否让你或多或少倾向于相信轮胎的使用寿命超过了宣传的5万美元的里程数?

可以肯定的是,如果我们可以,也将会,将这些数字插入等式中,以确定判决。但是,这个等式为什么会这样运作,有一个有趣的原因,理解它的方法-就像运气所说的那样-是从掷骰子开始。

理解统计意义的关键是要认识到,你其实并不太在意数据的标准差。你真正关心的是平均值的标准偏差-这是一种与从数据而不是数据本身中提取的样本有关的指标,它会随着一个指标的变化而变化,其中包括更多的数据进入样本。

要了解平均数的标准差与掷骰子的关系,让我们先从掷一个骰子开始讨论。在这种情况下,你得到$1$、$2$、$3$、$4$、$5$或$6$的概率相等。这是记录在案的卷的概率分布:在这里,你会得到的平均卷是3.5美元,而卷的标准偏差-这是集合${1,2,3,4,5,6\}$的总体标准偏差-是1.7078美元。*请注意,总体标准偏差只是衡量数据集分布程度的指标,数据点偏离数据集中平均值越大,数据集的标准偏差增加的幅度就越大。

例如,在单个掷骰子的情况下,3美元或4美元的掷骰子对标准偏差的贡献最小,2美元或5美元的掷骰子对标准偏差的贡献稍大,1美元或6美元的掷骰子对标准偏差的贡献最大。

现在,如果你掷两个骰子而不是一个,然后取这两个骰子的平均值会发生什么?举个例子,在这种情况下,你会得到$6\x 6=36美元的可能结果,这相当于总共11美元的可能金额-从2美元到总金额再到12美元。

但这里有一个警告:36美元不同的可能滚动实际上并不均匀地映射到11美元可能的总额上!事实上,最有可能的金额是7美元(这就是为什么赌场在赌注中获胜),而最不可能的金额要么是2美元,要么是12美元。这是两个骰子之和的最终概率分布,以备记录:现在,要找到两个骰子的平均值的概率分布,我们只需将上面的图表中的总和除以2美元即可。事实上,如果我们把这个由此产生的概率分布与它的单骰子对应的概率分布作图,那么我们就会得到一个整齐的图,就像下面的图一样:从图中可以看到,虽然两个分布中的单个概率加起来是1美元,但分布的形状实际上是相当不同的。诚然,这两种概率分布确实共享相同的平均值3.5美元,但两骰子分布-其平均滚动值分布在两倍的点上-的概率值通常比一骰子分布的概率值低。

换句话说,更有可能-用两个骰子-更接近3.5美元的真实平均水平,因为它的概率分布通常比单骰子的概率分布窄得多。

事实上,如果我们取两个骰子平均数的标准差,那么我们得到的是1.2076美元,这又一次低于我们在第一个骰子分布的情况下获得的1.7078美元,反映了两个骰子的分布比第一个单骰子分布的分布要小。

虽然我们已经知道,两个骰子的平均掷骰子分布比一个骰子对应的要窄,但我们还没有看到的是,这种“收窄”效应实际上更多的是一种普遍的风险现象。事实上,如果我们拿三个骰子的平均掷骰子来说,那么我们会得到一个更紧密的概率分布,如下图所示:这里,三个骰子的平均标准差为0.986美元,甚至比两个骰子上的骰子(1.2076美元)还要小,以此类推,一个骰子上的骰子也是如此(1.7078美元)。或者,我们也可以从上面的图表中观察到,当一个人从一个/两个骰子移动到三个骰子时,获得极端平均掷骰子(例如,1美元或6美元)的可能性会逐渐减少,从而直观地看到这种下降。

(由于距离3.5美元真实平均值最远的平均辊子由于平方效应对标准偏差的贡献过大,因此降低极端平均辊子的概率也将减少标准偏差本身的大小。)。

到目前为止,似乎如果我们增加骰子的数量,获得外围掷出的概率就会因此降低。事实上,如果我们绘制4美元、8美元和16美元骰子的平均掷骰子分布图,我们会看到这种“异常值减少”效应实际上比我们以前看到的更为剧烈:实际上,每次我们在混合中多投一枚骰子,平均掷骰子的标准偏差也会减少一点,如果我们把这个标准偏差与骰子的数量画在一起,那么我们就会得到一个简洁的图表,说明了这种所谓的反向关系:。回归线实际上是所有数据的精确拟合!并且回归方程可以改写为:其中分子正好是单个掷模辊的标准偏差(即总体标准偏差)。

现在,由于$x$-骰子的数量-也可以被认为是样本中的数据量(即$n$),我们看到上面的等式实际上是这样的:如果你还记得的话-这恰恰是上面提到的Z方程的分母!

尽管到目前为止,所有的讨论都集中在掷骰子上,但实际上认为这是从潜在价值的民意调查中抽取样本并不牵强。事实上,这正是如果有人要求他们测量跑车上新轮胎的寿命,或者田里南瓜的重量时,人们会做的事情。这就是一个人如果被要求测量跑车上新轮胎的寿命,或者是田里南瓜的重量时会做的事情。

在最基本的层面上,你有一个可能结果池中的样本,你的样本中包含的数据越多,样本的平均值就越接近整个池的平均值。

就总体而言,随着我们增加样本中的数据点,可能值的标准差保持不变。在骰子的情况下,总体总是由值$1$、$2$、$3$、$4$、$5$3和$6$组成,其标准差始终保持在$1.7078$不变。

相反,确实发生变化的是(从总体中抽取的样本)平均数的标准差,随着样本量的增加,平均数的标准差会逐渐减小,而与可能值的标准差相反,平均数的标准差才是我们在检验统计意义时真正追求的标准差。(从总体中抽取的样本)的标准差,随着样本规模的增加,标准差会逐渐减小,而与可能值的标准差相反,平均数的标准差才是我们真正追求的统计意义的检验。

对于Z方程来说,一个重要的值是平均值的标准偏差-它不是从总体中提取的样本得出的。

此标准偏差随着您在样本中绘制更多数据而减小-因为样本中较高的值更容易被较低的值“抵消”。

该标准差的减小与样本大小的平方根成正比。

在前面提到的轮胎例子中,我们最初问你车上的轮胎-总共持续了6万美元-有没有什么不寻常的地方。这是在假设相同轮胎的平均寿命为50,000美元英里的情况下进行的,标准偏差为5,000美元英里。

换句话说,你的轮胎的寿命会不会成为你认为你的车和轮胎有什么不寻常的原因,或者这只是一个典型的随机波动的结果-就像它发生的那样-对你有利?

为了回答这个问题,我们首先确定,在60,000美元的里程数,你的轮胎将比基线平均水平高出两个标准差:正如早先确定的那样,这将意味着我们的轮胎比所有其他轮胎的耐久性都要长于97.72美元,而且这是否不寻常到足以怀疑另一个因素在起作用-而不仅仅是随机变化-更多的是一种判断。

从那时起,我们继续问同样的问题,但现在假设你实际上有10美元的轮胎套在不同的汽车上,分别持续了46美元、48美元、53美元、54美元、56美元、56美元、57美元、58美元、60美元和62美元的千英里。这些额外的信息会增加还是降低你的信心,即汽车或轮胎有一些不寻常的地方-或者制造商系统性地低估了他们的产品?

在这里,我们轮胎寿命的平均计算结果是55,000美元英里,所以我们似乎不那么有信心,因为我们之前的平均寿命毕竟是60,000美元英里。

然而,我们还需要认识到的是,我们现在有了10美元的测量结果,而不是只有1美元,所以虽然平均值之间的差异下降了2美元(即从60,000-50,000=10,000美元下降到55,000美元-50,000美元=5,000美元),平均的标准偏差也下降了$\sqrt{10}美元(相当于3.162美元)。以下是最终的Z统计数据记录:将其放在上下文中,3.16美元的Z统计数据意味着,如果轮胎的平均寿命实际上是50,000美元英里,标准偏差为5,000美元英里,那么在进行10美元测量后,获得低于我们测量的55,000美元英里平均值的机会是99.92美元。

由于我们最终得到了比以前更高的Z-统计数据,我们现在处于更强大的地位,相信纯粹因为偶然而获得出人意料的高轮胎寿命是相当不可能的。

这里提供的例子都涉及到具有统计学意义的Z检验。传达的关键见解是,Z检验方程是围绕(从具有一定可能值的总体中抽取的样本)平均值的标准偏差的变化而设计的,并且随着抽取的数据数量的增加,平均值的标准偏差减小。

诚然,虽然Z检验是最常用的具有统计学意义的检验之一,但它肯定不是唯一的检验。还使用了非T-检验,通常在知道的关于基线人群的信息少于Z-检验所需的信息时才应用。

有趣的是,尽管一些T-检验方程比较复杂,但它们都是由完全相同的样本平均标准差驱动的。因此,这里提供的同样的见解也适用于统计显著性的T检验变量。

浅薄的学习和机械练习在高等数学中很少奏效。取而代之的是,使用这10条原则来优化你的学习,防止多年的努力浪费。