一些人工智能领域的引人注目的进步并不是真的

2020-05-29 23:21:16

人工智能(AI)似乎正变得越来越聪明。每部iPhone都比上一部更好地学习你的脸、声音和习惯,人工智能对隐私和工作构成的威胁也在继续增长。这一激增反映了更快的芯片、更多的数据和更好的算法。麻省理工学院(MIT)计算机科学研究生戴维斯·布拉洛克(Davis Blalock)表示,一些改进来自于微调,而不是他们的发明者声称的核心创新-其中一些收益可能根本不存在。布拉洛克和他的同事们比较了数十种改善神经网络的方法,神经网络是一种松散地模仿大脑的软件架构。“50篇论文,”他说,“很明显,它甚至不是很明显的艺术状态是什么。”

研究人员评估了81种修剪算法,这些算法通过修剪不需要的连接来提高神经网络的效率。所有人都以略有不同的方式声称优越。但很少有人对它们进行适当的比较-当研究人员试图并排评估它们时,没有明确的证据表明在10年的时间里表现有所改善。这一结果在3月份的机器学习和系统会议上公布,这让布拉洛克的博士导师、麻省理工学院计算机科学家约翰·古塔格感到惊讶,他说,不均匀的比较本身可能解释了停滞不前的原因。“这是老生常谈,对吗?”古塔格说。“如果你不能衡量某件事,那就很难把它做得更好.”

研究人员开始意识到人工智能许多子领域进展不稳的迹象。2019年对搜索引擎中使用的信息检索算法进行的荟萃分析得出了“高水位线…”的结论。实际上设定在2009年。“。2019年的另一项研究复制了七个神经网络推荐系统,属于媒体流媒体服务使用的那种系统。研究发现,Six未能超越几年前开发的简单得多的非神经算法,当时早期的技术进行了微调,揭示了该领域的“幻影进展”。在3月份发布在arxiv上的另一篇论文中,康奈尔大学(Cornell University)的计算机科学家凯文·马斯格雷夫(Kevin MusGrave)研究了损失函数,这是一种从数学上指定目标的算法的一部分。马斯格雷夫在一项涉及图像检索的任务中,平等地比较了其中的十几个人,发现与他们的开发者的说法相反,准确性自2006年以来并没有提高。马斯格雷夫说:“总是有这样一波又一波的炒作。”

机器学习算法的收益可以来自其体系结构、损失函数或优化策略的根本改变-它们如何使用反馈来改进。但卡内基梅隆大学(Carnegie Mellon University)研究图像识别模型的计算机科学家齐科·科尔特(Zico Kolter)表示,对这些模型进行微妙的调整也可以提高性能。他研究的图像识别模型被训练成对黑客的“敌意攻击”具有免疫力。早期的一种称为投影梯度下降(PGD)的对抗性训练方法,在这种方法中,模型只在真实和欺骗性的例子上进行训练,似乎已经被更复杂的方法所超越。但在2月份的一篇arxiv论文中,科尔特和他的同事们发现,当使用一个简单的技巧来增强它们时,所有的方法都取得了大致相同的效果。

科尔特的博士生莱斯利·赖斯(Leslie Rice)说:“这是非常令人惊讶的,这是以前没有被发现的。”科尔特说,他的发现表明,像PGD这样的创新很难获得,而且很少有实质性的改善。“很明显,PGD实际上就是正确的算法,”他说。“这是显而易见的事情,人们希望找到过于复杂的解决方案。”

其他主要的算法进步似乎也经受住了时间的考验。1997年,语言翻译中使用了一种名为长短期记忆(LSTM)的体系结构,这是一个重大突破。经过适当的培训后,LSTM的性能与20年后开发出的理应更先进的体系结构的性能相当。机器学习的另一个突破出现在2014年,出现了生成性对手网络(GANS),例如,它在创建和批评循环中将网络配对,以提高它们产生图像的能力。2018年的一篇论文报道,经过足够的计算,最初的GaN方法可以与后来几年的方法的能力相匹配。

科尔特说,与调整现有的算法相比,研究人员更有动力创造一种新的算法,并对其进行调整,直到它达到最先进的水平。他指出,后者可能看起来不那么新奇,这使得“很难从那里拿到一份论文”。

古塔格说,对于算法的发明者来说,与其他算法的发明者彻底比较其性能也是一种阻碍--结果发现他们的突破并不是他们想象的那样。“过于仔细地比较是有风险的。”这也是一项艰巨的工作:人工智能研究人员使用不同的数据集、调优方法、性能度量和基线。“做所有的苹果对苹果的比较并不是真的可行。”

一些夸大业绩的说法可以归因于该领域的爆炸性增长,那里的论文数量超过了经验丰富的评论家。“这其中很多似乎都是成长的烦恼,”Blalock说。他敦促审查者坚持与基准进行更好的比较,并表示更好的工具将有所帮助。今年早些时候,布拉洛克的合著者、麻省理工学院研究员何塞·冈萨雷斯·奥尔蒂斯(Jose Gonzalez Ortiz)发布了一款名为ShrinkBench的软件,它使得比较修剪算法变得更容易。

研究人员指出,即使新方法在根本上并不比旧方法更好,他们实施的调整也可以应用到他们的祖先身上。每隔一段时间,一种新的算法就会是一个真正的突破。“这几乎就像是一个风险投资组合,”布拉洛克说,“有些业务并不是真的在运作,但有些业务做得非常好。”