正确答案是A。其余的分别是Logistic分布、柯西分布和贝塔分布。
即使你挑对了,也不容易弄清楚。它们看起来都像“钟形曲线”,它们都是对称的,它们都以类似的速度逐渐变小。既然如此,我们为什么要关心它们之间的区别呢?为什么我们不挑一个在数学上最方便的,不用担心呢?
不同之处在于它们的尾巴,也就是曲线图中曲线图消失在x轴上的那部分。这种差异在这些图表中无法察觉,它使得这些分布表现出惊人的不同,我将在下面展示这一点。
概率很少加在一起,概率分布更是很少加在一起。概率的基本运算是乘法。这源于贝叶斯规则,它描述了随机变量的联合分布和条件分布之间的关系:
这使得理解每个分布如何通过贝叶斯规则与其他分布相结合是很重要的;也就是说,它是如何相乘的。
在你看下面的图表之前,试着猜猜每一个会是什么样子。我复制了每个分布的两个副本,将它们的中心移动到-4和+4,然后将这两个中心相乘。这就好比有两个关于同一变量的证据来源大相径庭。
尽管这些发行版的外观非常相似,但它们的产品却完全不同。分布被移动,使得一个的中心相对于另一个的中心是8个标准差,完全在曲线图与x轴无法区分的范围内。显然,在图表的这一看不见的部分中发生了很多事情!
我们应该策划些什么来让我们对此有个直观的认识呢?基本的操作应该不会那么令人惊讶!
对数函数在0处渐近。这使得它成为通过扩大函数值范围来可视化非常小的函数值的完美选择。这些曲线图显示了每个概率分布的对数,而且都很容易一目了然。它们也使得预测分布如何成倍增长成为可能。因为将变量相乘等同于将变量的对数相加,所以我们所要做的就是计算出当您将这些曲线中的两条相加时会发生什么。
正如您所看到的,这些使得分发产品的日志更有意义。
这些形状仍然不是一目了然的,但您可以仅从原木地块就猜到它们。如果你所拥有的只是概率密度图,你将没有任何途径,只能立即去做数学计算。
当您将模型拟合到数据时,也会显示对数概率分布。无论您使用的是贝叶斯方法还是频率方法,将分布拟合到一组数据都将涉及最大化似然函数(可能带有一些附加的乘法项)。你将通过最大化来选择分布,这里是数据的向量,是参数的向量,这是一个正则化项,通常是的先验分布。我们再一次发现,我们处理的是概率的乘积。
函数最大化的第一步通常是求其导数。为了使导数更简单,多项的和比多项的乘积更容易运算。由于log是单调的,最大化一个非负函数等同于最大化它的log,所以我们可以将log概率最大化,并将乘积转化为和。我们将最大限度地提高效率。新的任期正是我们一直在策划的。对数概率密度的出现既是为了数学上的方便,也是为了直观上的方便!
要确定每个样本对概率有什么影响,我们只需从对数曲线图中读出数值即可。我们可以考虑远离分布其余部分的异常值。对于高斯型,对可能性的影响将与。对于物流配送,其影响将大致成正比。这就是当高斯被描述为“对异常值敏感”时的意思。远离均值的样本会把整个适合度拉来拉去,因为它们对可能性有如此大的影响。
对数概率在信息论中也很普遍。负对数概率被称为“惊喜”,而其他每一个量都是根据预期的惊喜来定义的。
这一切有多重要取决于您想要用您的模型回答哪种类型的问题。如果您只想知道大量数据在哪里,那么您选择的分发版本并不那么重要。如果你试图确定异常事件的概率,即远离平均值的事件,那么尾部的大小是唯一重要的事情。距逻辑分布中心6个标准差的事件比距高斯分布中心6个标准差的事件的可能性高几千倍。
这里有一些真实世界的例子,回答一个重要的问题需要估计发生异常事件的概率。
职业棋手在下棋时输给了业余棋手。他们的评级应该降低多少?
美国国际象棋联合会为使收视率更稳定,已从高斯分布转为逻辑分布。
一种广泛销售的证券有大量违约率较低的抵押贷款作为后盾。这款证券应该获得什么评级?
导致世界经济崩溃的金融危机在很大程度上是由错误的统计数据造成的。分析师假设抵押贷款的价值是高斯的,抵押贷款价值的尾部不会比抵押贷款价值的平均值更相关。在现实中,房地产市场的状况和整体经济将违约联系在一起,从而将抵押贷款的价值联系在一起。它们中的大量违约和价值损失的可能性比正态分布预测的要大得多。当大量金融机构立即违约时,这让全球金融机构完全措手不及。
未来10年旧金山发生9.5级地震的可能性有多大?
古登堡-里希特定律描述了不同震级地震的概率分布。地震的对数概率在震级上是线性的。关于这条线的斜率的分歧会导致大地震发生的可能性出现指数级的差异。
气候模型预测全球平均气温将上升1摄氏度。如果气候变得比这个温度高几个标准差,土壤就会失去保持水分的能力,陆地植物的生命就会终结。世界末日的可能性有多大?