信息论导论

2021-01-19 04:06:03

信息理论领域研究信号中信息的量化。在机器学习的上下文中,其中一些概念用于表征或比较概率分布。决策树算法中还使用了量化信息的能力,以选择与最大信息增益关联的变量。熵和交叉熵的概念在机器学习中也很重要,因为它们导致分类任务中广泛使用的损失函数:交叉熵损失或对数损失。

直觉理解信息理论的第一步是考虑与随机变量相关的信息量的概念。在信息论中,此信息量称为II,称为香农信息,信息内容,自我信息或意外惊喜。主要思想是,与不太可能发生的事件相比,可能发生的事件传达的信息更少(因此更令人惊讶)。例如,如果有一位来自加利福尼亚州洛杉矶的朋友告诉您:“今天很晴朗”,那么这比她告诉您:“今天正在下雨”要少。因此,将Shannon信息视为与结果相关的惊喜数量会有所帮助。您还将在本节中看到为什么它也是大量信息,以及为什么可能的事件与更少的信息相关联。

数量信息的常用单位是nat和bit。这些数量基于对数函数。 nat是信息的自然单位的缩写,它是基于自然对数的,而bit是“二进制数字”的缩写,是基于以二为底的对数的。因此,该钻头是nat的重新缩放版本。以下各节将主要在公式中使用位和底两个对数,但是将其替换为自然对数只会将单位从位更改为nat。

位表示可以采用两种不同状态(0或1)的变量。例如,编码硬币翻转的结果需要1位。如果您掷出两枚硬币,则至少需要两位来对结果进行编码。例如,HH为00,HT为01,TH为10,TT为11。您可以使用其他代码,例如HH为0,HT为100,TH为101,TT为111。但是,此代码平均使用大量位(如您所见,考虑到四个事件的概率分布是均匀的)

让我们以示例为例,看看有什么描述。埃里卡(Erica)向您发送一条消息,其中包含三次掷硬币的结果,将“头”编码为0,将“尾部”编码为1。共有8种可能的序列,例如001、101等。当您收到一位消息时,它将将不确定性除以2。例如,如果第一位告诉您第一个掷骰是“ heads”,则其余可能的序列为000、001、010和011。只有4个可能的序列,而不是8个类似地,接收到两位消息将使不确定性除以2222;一个三比特的消息,乘以2333,依此类推。

请注意,我们谈论的是“有用的信息”,但是消息可能是多余的,并且以相同的位数传送较少的信息。

假设我们要传送八次掷骰序列的结果。您将为每个掷分配一个位。因此,您需要八个位来编码序列。该序列例如可以是“ 00110110”,对应于HHTTHTTH(四个“头”和四个“尾”)。

但是,可以说硬币是有偏见的:“尾巴”的几率只有8比1。您可以找到一种更好的方式来编码序列。一种选择是对结局“尾巴”的索引进行编码:将花费不止一位,但是“尾巴”仅在一小部分试验中发生。使用此策略,您可以将更多的比特分配给罕见的结果。

此示例说明可以压缩更多可预测的信息:与公平硬币相比,可以用较少的信息量对有偏差的硬币序列进行编码。这意味着香农信息取决于事件的可能性。

香农信息对这一思想进行了编码,并将事件发生的概率转换为相关的信息量。如您所见,其特征是,与不太可能发生的事件相比,可能发生的事件提供的信息较少,而且来自不同事件的信息也具有累加性(如果事件是独立的)。

从数学上讲,函数I(x)是事件X = x的信息,该事件将结果作为输入并返回信息量。它是概率的单调递减函数(即,概率增加时永不增加的函数)。香农信息描述为:

结果是位数的下限,即,以最佳编码对序列进行编码所需的最小位数。

乘积的对数等于元素之和:此属性可用于编码Shannon信息的加性。发生两个事件的概率是它们的各个概率相乘(因为它们是独立的,正如您在《数据科学基础数学》中所看到的):

这意味着与两个事件的发生概率P(x,y)相对应的信息等于与P(x)相对应的信息加上与P(y)相对应的信息。独立事件的信息加在一起。

让我们以0到1之间的概率范围来绘制此函数,以查看曲线的形状: