我最近读了“识别与生成”。作者提出了一个问题:“读课本和写校样都觉得符合‘学习’的定义,为什么简单的就不能做呢?”答案是:“认可并不一定意味着理解,推动你能产生的东西可以帮助揭露你实际知道的东西。”
这让人想起杰夫·霍金斯倡导的“记忆预测”框架。该框架说,识别是通过生成来完成的。来自顶级生成模型的预测和来自感官的观察之间存在着持续的对话。差异被记录为从无意识跳跃到有意识水平的意外:
如果你曾经在一段楼梯上错过了一步,你就会知道你有多快就意识到有什么不对劲。你把脚放低,当它“穿过”预期的楼梯踏板的那一刻,你就知道你有麻烦了。脚没有任何感觉,但是你的大脑做了一个预测,这个预测没有实现。
“智力论”,第91页。
乍一看,该框架并不能很好地符合识别和生成之间的不对称。这种不对称性可以通过强调这样一个事实来解决,即大多数预测都是非特定的或“模糊的”。如果一组预期结果中的一个发生了,模糊预测不会导致惊讶。霍金斯承认这一观点:“预测并不总是准确的。相反,我们的大脑会对即将发生的事情做出概率预测。有时我们确切地知道将会发生什么,有时我们的期望分布在几种可能性之间。“。(同上,第92页)霍金斯在书的其余部分没有太多地阐述这一点,但对我来说,这似乎是至关重要的。特别是,它解释了识别和生成之间的不对称性。
回到学习数学的例子:主观上,当我读到证明的时候,我感觉我知道发生了什么,因为我可以看到下一行紧随其后的是一个有效的逻辑规则的应用。(也就是说,该步骤是与我的预期一致的一组事情之一。)。然后,当我被要求重现这一步时,我惊讶地发现我不知道怎么做-因为我的预测是模糊的,每一步都有多件合理的事情要做,但我不知道到底应该做哪一件。另一方面,如果我知道为什么要采取证明中的每一步,那么我就可以唯一地预测每一步&并且重现证明。
顺便说一下概率预测的机制:如果你想象“概率预测”意味着计算所有可能的感官体验的概率分布,这听起来很困难。然而,所有需要的是“预测”是抽象的--它越抽象,与之一致的观察集就越大,因此与之隐含关联的概率分布就越广。没有必要将概率分布表示为大脑中低水平感觉区域的模糊激活模式-激活功能等效的单个尖锐的、高水平的抽象标签会更有效。然后,大脑可以懒惰地评估无论发生什么观察到的惊喜程度(即概率),相对于预期。
从这个意义上说,一句话抵得上一千张图片:“棕狗”与海量的图片是一致的。这句话可能看起来不像是概率分布-它看起来很具体。然而,从某种角度来看,这是一个空白的分布,涉及狗的形象可能具有的所有可能的属性,事实上,要使其具体化,必须具备这些属性。当我看到一只棕色的狗时,我可能会认出它,但这并不意味着我会画一只,或者我想象中的那只和你想象的很像。
这实际上与统计物理有关。有一个定义良好的过程,用于构建显式概率分布,表示仅知道高级抽象(在本例中,是随机变量函数的期望值或“矩”),而分布的所有其他细节是不确定的情况。我怀疑大脑可以完成这样的事情,就像狗可以做微积分一样。(TL;DR:他们当然不会,但他们可以近似地解决一个问题,人们也可以用微积分提出并正式解决这个问题。)。
关于数学和心理模型的另一个问题是,我一直认为证据或推导就像故事一样:主人公被这个问题困住了--我们的英雄有公理和规则(设置),她想要得到结果,但不立即知道如何得到结果(冲突)。然后她记起了这个很酷的把戏(比如区分被积函数),瞧,问题解决了(解决方案)。我怀疑这个框架有助于回忆。它还将重点放在为什么要做每一步(选择步骤的直觉),而不仅仅是如何做(即证明步骤合理的规则)。