计算机科学家证明了为什么更大的神经网络做得更好

2022-02-12 23:35:35

我们的物种在很大程度上要归功于相对的拇指。但如果进化给了我们额外的拇指,情况可能不会有多大改善。每只手一个拇指就够了。

神经网络则不然,它是执行类似人类任务的领先人工智能系统。随着他们变得越来越大,他们开始掌握更多。这让旁观者大吃一惊。基本的数学结果表明,网络应该只需要这么大,但现代神经网络的规模通常远远超出了预期的要求——这种情况被称为过度参数化。

微软研究院的塞巴斯蒂安·布贝克(Sébastien Bubeck)和斯坦福大学的马克·塞尔克(Mark Sellke)去年12月在领先的NeurIPS会议上发表了一篇论文,为scaling成功背后的奥秘提供了新的解释。他们表明,为了避免某些基本问题,神经网络必须比传统预期的要大得多。这一发现为一个持续了几十年的问题提供了普遍的见解。

“这是一个非常有趣的数学和理论结果,”瑞士洛桑联邦理工学院的Lenka Zdebrová说。“他们用这种非常通用的方式证明了这一点。因此,从这个意义上说,它将成为计算机科学的核心。”

神经网络的一个常见任务是识别图像中的对象。为了创建一个能够做到这一点的网络,研究人员首先向它提供许多图像和对象标签,训练它学习它们之间的相关性。之后,网络将正确识别它已经看到的图像中的对象。换句话说,训练会让网络记住数据。更值得注意的是,一旦一个网络记住了足够的训练数据,它还能够预测从未见过的物体的标签——以不同程度的准确性。后一个过程被称为泛化。

网络的大小决定了它能记住多少。这可以用图形来理解。想象一下,得到放置在xy平面上的两个数据点。可以用两个参数描述的直线连接这些点:直线的坡度和横穿垂直轴时的高度。如果给其他人一条线,以及一个原始数据点的x坐标,他们可以通过查看该线(或使用参数)计算出相应的y坐标。这条线已经记住了两个数据点。

神经网络也有类似的功能。例如,图像由数百或数千个值描述——每个像素一个值。这组自由值在数学上相当于高维空间中一个点的坐标。坐标的数量称为尺寸。

“这不再是正在发生的事情,”德克萨斯大学的奥斯丁说。“现在,我们正在常规地创建神经网络,其参数数量超过训练样本数量。这意味着这些书必须重写。”

布贝克和塞尔克并没有打算重写任何东西。他们正在研究神经网络通常缺乏的另一种特性,即鲁棒性,即网络处理微小变化的能力。例如,一个不健全的网络可能已经学会识别长颈鹿,但它会将一个几乎没有修改过的版本错误地标记为沙鼠。2019年,Bubeck和同事们意识到这个问题与网络的大小有关,他们试图证明有关这个问题的定理。

布贝克说:“我们在研究对抗性的例子——然后规模强加给了我们。”。“我们认识到这是一个难以置信的机会,因为我们需要了解规模本身。”

在他们的新证明中,这两人证明了过参数化对于网络的健壮性是必要的。他们通过计算出需要多少参数来拟合数据点,曲线的数学特性相当于鲁棒性:平滑度。

要看到这一点,再次想象平面中的曲线,其中x坐标表示单个像素的颜色,y坐标表示图像标签。因为曲线是平滑的,如果你稍微修改像素的颜色,沿着曲线移动一小段距离,相应的预测只会改变一小部分。另一方面,对于极不规则的曲线,x坐标(颜色)的微小变化可能会导致y坐标(图像标签)的剧烈变化。长颈鹿可以变成沙鼠。

Bubeck和Sellke证明,平滑拟合高维数据点不仅需要n个参数,还需要n×d个参数,其中d是输入的维度(例如,784像素图像的784)。换句话说,如果你想让一个网络有力地记住它的训练数据,过度参数化不仅有帮助,而且是强制性的。这一证明依赖于一个关于高维几何的奇怪事实,即放置在球体表面上的随机分布点彼此之间几乎都有一个完整的直径。点之间的大间距意味着用一条平滑曲线拟合它们需要许多额外的参数。

这一结果为理解扩展神经网络的简单策略为何如此有效提供了新的途径。