基本统计分布的最大熵直观

2020-07-21 08:04:59

想象一下你明天醒来是在一个空荡荡的白色房间里,就像黑客帝国一样。你不记得你是怎么到那里的。什么事都有可能发生。

如果基努·里维斯出现,你可能会认为这在某种程度上与“黑客帝国”有关。如果基努出现,然后劳伦斯·菲什伯恩(Morpheus)出现,你会想-好吧,这几乎肯定与“黑客帝国”有关。

另一方面,如果奥巴马和克林顿出现在你的白色房间里,在你的脑海里,你会想,好吧,与黑客帝国有关的可能性较小;与政治有关的可能性更大,无论是什么。

在那间空荡荡的白色房间里的头几秒钟,在什么都不知道的情况下,一切都有可能发生在我们身上。在统计上,我们称之为均匀分布。当我们一无所知的时候,这是一个很好的起点。然而,一旦我们获得新的信息,我们就根据我们刚刚了解到的情况,将概率质量从不太可能发生的事件转移到更有可能发生的事件-在Neo案例中,从与奥巴马/克林顿相关的概率转移到与矩阵相关的概率;在奥巴马/克林顿的案例中,从与矩阵相关的概率转移到与政治事件相关的概率。

通常,在统计教育中,我们在直觉的真空中学习分布。但是,不可避免的是,我们会问自己:

为什么我们要使用我们使用的统计分布呢?例如,为什么正态分布无处不在?

我们会发现统计分布不是凭空得出的。我们最熟悉的统计分布-均匀分布、指数分布、正态分布-在我们想要从非常简单和很少的初始约束中最大化信息时,是精确确定的。

我们将发现,我们可以使用Matrix示例中的直觉来帮助我们理解这些统计分布从何而来!

让我们从“平均”这个常见的概念开始。用数学术语来说,平均值是每个事件的值由该事件发生的概率加权的总和。

例如,如果我们有一个带有沉重的“六”面的操纵骰子,如果我们使用公平骰子,我们会期望下一个值高于下一个值。六的出现频率越高,期望值(也称为平均值、平均值或数学期望值)就越高。

从数学上讲,我们用每个事件发生的概率来衡量每个事件的值,然后求和,我们就可以大致知道下一个数值会落在哪里。

[\text{数学期望}=p(X)\cot x\text{for all}x\=\sum_i p(X_I)*x_i\]这个通过事物发生的概率来衡量事物的基本概念是一个非常有用的概念。我们还可以通过事件发生的概率来衡量该事件的信息增益,以获得我们关心的所有事件的预期信息值。但是,我们如何衡量信息收益呢?

直觉上,我们知道某件事越令人惊讶,它包含的信息就越多。换句话说,一个事件的信息价值与它因该事件发生而扼杀的所有选择成正比。

事件的信息价值与该事件一旦发生时,它相对于自身移动的概率质量有多大有关。

思考这一问题的一个有趣方式是杠杆。粗略地说,杠杆意味着你相对于你自己的质量移动了多少质量。在金融市场,如果你花100万美元购买500万美元的风险敞口,你就会被杠杆化5倍。出于我们的目的,我们想要一种很好的方式来形式化我们对信息的直观理解;我在其他地方没有看到用杠杆术语谈论信息,我认为这是一种…。见多识广的看待事物的方式。

\[\text{leverage}\propto\frac{\text{曝光控制}}{\text{初始支出}}\]当我们谈论“事件移动的概率有多大”或事件因其发生而杀死的选择量时,这在某种意义上是杠杆率。这看起来是概率的总量(归一化,我们说是1,但它也可以是某个任意的和,比如10000)除以该特定事件的概率(P)。当我们将总数除以个体概率时,10,000个因子被抵消了,所以我们就得到了

\[\text{info}\proto\frac{1}{p}\]二进制在某种意义上是最终的压缩形式。把事情浓缩成信息量最大、最基本的真假本质,这是一点美丽的特点。我们可以通过取一个值的对数(以2为底)来计算表示该值所需的位数,因此我们得到。

\[\text{info}\proto\log_2{\frac{1}{p}}\]如果我们用特定事件发生的概率来衡量这一点,我们会得到。

\[\text{info}\proto p\cdot\log_2{\frac{1}{p}}\]\[\text{info}=p\cdot\log_2{\frac{1}{p}}\\=p\cdot(\log_21-\log_2p)\\=-p\cdot\log_2p\]太棒了!我们已经从一个…中建立了信息熵的定义。位…。直觉的力量。类似于我们对一组事件的数学期望值的理解,我们可以谈论一组事件的数学预期信息。

\[\text{数学信息期望}=\sum_i-p(X_I)*\log_2{p(X_I)}\]这有什么用?结果表明,主要统计分布在一定的约束条件下最大化预期信息增益(每个主要分布对应于不同的约束)。

假设我们的目标是对我们正在查看的数据的概率分布进行建模。

我们通常知道一些关于数据的事情-这些将是我们的约束-我们想要选择最大化我们预期信息增益的概率分布(也就是最大化我们随后的惊喜或熵)-因为如果我们有一个预期信息增益低于**最大熵分布的分布,我们无意中将一些额外的信息编码到了我们的分布中。

因此,最大熵分布是我们能得到的最接近零知识猜测的东西,取决于我们对数据的了解(我们的约束)。

在我们旅程的开始,我们发现均匀分布--我们给每个事件规定了等量的概率质量--与我们在一无所知的情况下应该选择的分布一样,具有直观的意义。这并不是说现实中的每件事都有相同的发生概率-有点微妙;只是说,考虑到我们目前所知道的(假设什么都没有),没有哪个事件比其他任何事件更有可能发生。

如果我们从数学的一端开始研究呢?如果我们只从很少、很基本的假设开始,然后向前努力,我们会发现什么?

\[\text{INFORMATION,我们要最大化的数量:}\\f(X)=-\int_a^b p(X)\cot\log_2p(X)\,dx\text{unity Constraint:}g(X)=\int_a^b p(X)\,dx-1=0\]在英文中,我们希望最大化受到单位约束的信息,我们想看看p(X)是什么样子。

从数学上讲,我们需要沿着单位约束找到信息函数的局部极值(局部最小值和最大值)。类似于单变量微积分中的极小化和极大化,我们希望找到信息函数沿约束函数导数为零的点。直观地说,这应该是有意义的-我们想要极值,如果信息函数的斜率(例如)沿着约束大于零,我们就会沿着那个方向行走,沿途增加我们预期的信息增益,同时越来越接近局部最大值。

找到f沿g的导数为零的位置,等同于说f沿约束g上的向量s的方向导数为零。

因为f沿向量s的方向导数是零,我们知道f的梯度在g上的投影是零(也就是f和g的梯度的点积是零)。

因此,我们知道f的梯度平行于g曲面的范数,所以f的梯度平行于g的梯度。

换句话说,f的梯度是g!的梯度的某个标量倍数。

如果以上与计算相关的想法听起来有点陌生,请给我发电子邮件给[email protected],这样我就知道有人需要我写一些关于渐变的东西。

[\nabla f(X)=a\cot\nabla g(X)\]\[\frac{\part f}{\part p(X)}=a\cot\frac{\part g}{\part p(X)}\]求函数的导数需要一点变分,特别是欧拉-拉格朗日方程。谢天谢地,我们这里有一些相当简单的函数派生函数:

\[\frac{-1-\ln(p(X))}{\ln(2)}=a\cdot 1\]\[-1-\ln(p(X))=a\cdot\ln(2)\1+\ln(p(X))=-a\cdot\ln(p(X))=-1-a\cdot\ln(2)\隐含p(X)=e。)}\\p(X)=e^{-1}\cot e^{-a\ln(2)}\\p(X)=e^{-1}\cdot 2^{-a}\]\[\int_a^b p(X)\,Dx=1\int_a^be^{-1}\cdot 2^{-a}\,dx=1\\e^{-1}\cdot 2^{-a}\cdot\int_a^b\,Dx=1\\e^{-1}\cdot 2^{-a}\cdot(b-a)=1\e^{-1}\cdot 2^{-a}=\frac{1}{b-a}\]\[p(X)=\frac{1}{b-a}\]这是非常有希望的-如果我们基本上只知道一个统一约束,那么最大化我们惊喜的概率分布是均匀概率分布!

我们刚刚做的是从数学上证实了我们在文章开始时探索的一个非常可靠的直觉!

我们很少对我们拥有的数据一无所知。至少,我们可以用“粗略”的方式来描述数据。可频繁计算的粗描述符的一个示例是平均值。

如果均匀分布对应于零知识,那么什么分布对应于仅具有期望值的知识?让我们来看看吧!

再一次,我们将有我们期望的信息最大化和一致性约束。我们将再添加一个表示预期值知识的约束。

\[\text{信息,我们要最大化的数量:}\\f(X)=-\int_0^\infty p(X)\cdot\log_2p(X)\,dx\text{单位约束:}g(X)=\int_0^\infty p(X)\,dx-1=0\text{期望值约束:}h(X)=\int_0^\infty x\cdot p(X)\,Dx-\mu=0\]我们将经历与前面大致相同的步骤。然而,这一次,因为我们要处理多个约束,所以我们必须增加对最小化过程的理解。

现在,我们需要满足的不是一个,而是两个限制。几何上理解这一点最好的方法是考虑三维--特别是,两个平面的交点是一条穿过由两个平面的范数所跨越的矢量子空间的直线。同样的概念也适用于这里,尽管我们在这里并不是专门讨论两个平面的交集。

极值,定义为f沿约束向量s的方向导数为零。

约束向量与由各个约束的范数所跨越的子空间正交,

因此,约束向量与单个约束的范数的线性组合正交。

因为约束梯度与约束向量正交,所以约束梯度平行于各个约束的范数的线性组合,

因为我们在寻找f的梯度与约束梯度平行的位置,

我们在寻找f的梯度是各个约束的范数的线性组合的地方。

呼!这确实很多,但循序渐进地进行推理往往会有所帮助,而不是记住“多重约束的拉格朗日乘数”的步骤。一篇带有几何直觉的帖子即将发布(如果你希望它更早出现,请给我发电子邮件,地址是[email protected])。

\[\nabla f(X)=a\cot\nabla g(X)+b\cdot\nabla h(X)\\frac{\部分f}{\部分p(X)}=a\cot\frac{\部分g}{\部分p(X)}+b\cdot\frac{\部分h}{\部分p(X)}\]\[\frac{-1-\ln p(X)}{\ln2}。[-1-\ln p(X)=(\ln 2)\cdot(a+b\cdot x)\\1+\ln p(X)=-(\ln 2)\cdot(a+b\cdot x)\ln p(X)=-1-(\ln 2)\cdot(a+b\cdot x)\\暗示p(X)=e^{-1-(\ln 2)\cdot(a+b。}\\p(X)=e^{-1}\cdot e^{-(\ln 2)\cdot(a+b\cdot x)}\\p(X)=e^{-1}\cdot 2^{-a-b\cdot x)}\\p(X)=e^{-1}\cdot 2^{-a}\cdot 2^{-bx}\]\[\int_0^\inty p(X)\],Dx=1\隐含\int_0^\infty e^{-1}\CDOT 2^{-a}\CDOT 2^{-bx}\,Dx=1\隐含e^{-1}\cdot 2^{-a}\cdot(b\cdot\ln 2)^{-1}=1\隐含e^{-1}\cdot 2^{-a}=b\cdot\ln2\[p(X)=b\cdot\ln2\cdot 2^{-bx}\]\[\int_0^\infty x\cdot p(X)\],Dx=\mu\暗示\int_0^\infty x\cdot b\cdot\ln 2\cdot 2^{-bx}\,Dx=\mU\\隐含(b\cdot\ln 2)^{-1}=\mu\\隐含b\cdot\ln2=\mu^{-1}\\隐含b=(\mu\cdot\ln2)^{-1}\]\[p(X)=b\cdot\ln 2\cdot 2^{-bx}\隐含p(X)=\mu^{-1}\cdot 2^{-bx}。=\mu^{-1}\cdot2^{-(\mucot\ln 2)^{-1}x}\\p(X)=\mu^{-1}\cdot e^{-\mu^{-1}\cdot x}\]通常,我们发现将平均值的倒数重写为单独的符号是有用的。例如,在指数情况下,如果平均值表示每个时间间隔的平均事件数,则反转表示每个事件的时间间隔,这在与时间相关的推断中可能很有用。

[\lambda=µ^{-1}\\暗示p(X)=\lambda\cot e^{-\lambda x}\]我们从直觉和一些保守的假设中偶然发现了均匀分布和指数分布。我们将要讨论的最后一个分布到处都是,而且似乎没有很好的理由。

我非常困惑,为什么正态(高斯)分布无处不在-在峰态无知的金融市场分析中-本质上,无处不在。想想看,高斯现象的盛行其实是相当反常的。你能猜出为什么到处都是吗?

统计学家很快就得出了中心极限定理,但我认为还有一个更深、更直观、更有力的理由。

如果您只知道数据的均值和方差,那么正态分布是您最好的猜测。

如果您知道这两个容易获得的粗粒度数据描述符,那么它就是您的最低知识、最大熵分布。你准备好看看怎么做了吗?我都等不及了。我等这一天已经等了很多年了。我是认真的。我觉得这非常非常令人满意。好的,继续:

通常,我们可以测量数据与我们预期的偏差程度。这个“预期偏差”我们称为标准偏差,我们还可以将其添加为约束,以确定将最大化预期信息收益的分布。标准差的平方称为方差。

我们将从前面获得相同的信息方程,并添加一个方差约束。因为方差约束意味着期望值约束,所以我们可以稍微简化一下约束,并排除期望值约束。

\[\text{信息,我们要最大化的数量:}\\f(X)=-\int_{-\infty}^\infty p(X)\cdot\log_2p(X)\,dx\text{单位约束:}g(X)=\int_{-\infty}^\infty p(X)\,Dx-1=0\text{方差约束:}h(X)=\int_{-\infty}^\infty(x-\mu)^2\cot p(X)\,dx-\sigma^2=0\]让我们试着找出f的梯度在哪里等价于各个约束规范的线性组合:

[\nabla f=a\cdot\nabla g+b\cdot\nabla h\\frac{\part f}{\part p(X)}=a\cot\frac{\part p(X)}+b\cdot\frac{\part h}{\part p(X)}\]我们将计算泛函导数,看看是否可以分离出p(X):

\\frac{-1-\ln p(X)}{\ln 2}=a\cdot 1+b\cdot(x-\u)^2\\1-\ln p(X)=(\ln 2)\cdot(a+b\cdot(x-\u)^2)\1+\ln p(X)=-(\ln 2)\cdot(a+b\cdot(x-\u)^2)\\。-(\ln 2)\cdot(a+b\cdot(x-\u)^2)\隐含p(X)=e^{-1-(\ln 2)\cdot(a+b\cdot(x-\u)^2)}\\p(X)=e^{-1}\cdot 2^{-(a+b\cdot(x-\u)^2)}\\p(X)=e^{-1}\cdot。\cdot 2^{-b\cdot(x-\mu)^2}\]\[\int_{-\infty}^\infty p(X)\,Dx=1\暗示\int_{-\infty}^\infty e^{-1}\cot 2^{-a}\cdot 2^{-b\cdot(x-\mu)^2}\,Dx=1\\e^{-1}\cdot 2^{-a}\cdot b^{-\frac{1}{2}}\cdot(\frac{\pi}{\ln 2})^{\frac{1}{2}}=1\\e^{-1}\cdot 2^{-a}=b^{\frac{1}{2}}\cdot(\frac{\ln 2}{\pi}。)=e^{-1}\cdot 2^{-a}\cdot 2^{-b\cdot(x-\mu)^2}\暗示p(X)=b^{\frac{1}{2}}\cdot(\frac{\ln 2}{\pi})^{\frac{1}{2}}\cdot 2^{-b\cdot(x-\mu)^2}\]\[\int_{-\infty。Dx=\sigma^2\暗示\int_{-\infty}^\infty(x-\u)^2\cot b^{\frac{1}{2}}\cdot(\frac{\ln 2}{\pi})^{\frac{1}{2}}\cdot 2^{-b\cdot(x-\u)^2}\,Dx=\sigma^2\暗示(b\cdot2\ln2)^{-1}=\sigma^2\暗示(b\cdot\ln2)^{\frac{1}{2}}=\sigma^{-1}\cdot 2^{-\frac{1}{2}}\text{and}b=\frac{1}{2\sigma^2\ln}\]如果我们重写p(x。

\[P(X)=b^{\frac{1}{2}}\cdot(\frac{\ln 2}{\pi})^{\frac{1}{2}}\cdot 2^{-b\cdot(x-\mu)^2}=b^{\frac{1}{2}}\cdot(\ln 2)^{\frac{1}{2}}\cdot\pi^{-\frac{1。U)^2}\\=(b\cdot\ln 2)^{\frac{1}{2}}\cot\pi^{-\frac{1}{2}}\cot 2^{-b\cdot(x-\u)^2}\\=\sigma^{-1}\cot 2^{-\frac{1}{2}}\cot\pi^{-\frac{1}{2}}\cdot 2。\Sigma^{-1}\cdot 2^{-\frac{1}{2}}\cot\pi^{-\frac{1}{2}}\cot 2^{-\frac{(x-\u)^2}{2\sigma^2\ln 2}}\]\[p(X)=\sigma^{-1}\cot 2^{-\frac{1}{2}}\cdot\pi^{。\µ)^2}{2\sigma^2}}\\=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\]\[p(X)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}(\frac{x-\mu}{\。这是正态分布的PDF。我们终于明白了为什么正态分布无处不在--我们已经向自己证明了,出于对均值和方差的非常简单的假设,如果我们不想做进一步的假设,那么正态分布就是我们必须选择的分布。

换句话说,正态分布是指定均值和方差的最大熵分布。漂亮的。

我们已经了解到,真正的零知识分布是均匀分布,并且这种“零知识”分布概念的扩展(而不是您的约束)在均值约束时产生指数分布,在波动性约束时产生高斯分布。

很难找到直观的最大熵分布的一步一步的演练,我真的很喜欢这个关于统计学的观点,所以我想与世界分享它,希望它能帮助人们更好地理解概率、统计和信息。