现代AI系统接近识别图像中的对象等任务,并预测蛋白质的3D结构作为勤奋的学生会准备考试。通过培训许多示例问题,他们随着时间的推移最小化他们的错误,直到他们取得成功。但这是一个孤独的努力,只有一种已知的学习形式。学习也通过与他人进行互动和玩耍来进行。单个个人可以单独解决极其复杂的问题是罕见的。通过允许解决这些游戏的品质来解决这些游戏的品质,之前的深度努力已经训练了AI代理商在捕获旗帜并在星际争霸实现宏大水平。这让我们想知道在游戏理论上建模这样的透视,可以帮助解决其他基本机器的学习问题。
今天在ICLR 2021(国际学习陈述会议)上,我们介绍了“EIGENGAME:PCA作为纳什均衡”,它获得了优秀的纸张奖。我们的研究探讨了旧问题的新方法:我们重新制定了主要成分分析(PCA),一种特征值问题,作为我们称之为eigengame的竞争多智能经纪人。 PCA通常被制定为优化问题(或单次代理问题);但是,我们发现多代理商的角度来看,我们允许我们开发使用最新的计算资源的新洞察力和算法。这使我们能够扩展到以前过于计算的大规模数据集,并提供了未来探索的替代方法。
首先在1900年代初描述,PCA是一种用于了解高维数据结构的长期技术。这种方法现在是普遍存在的数据处理流水线中的第一步,并且可以轻松群集和可视化数据。它也可以是用于学习回归和分类的低维表示的有用工具。超过一个世纪之后,还有令人信服的理由研究PCA。
首先,数据最初用手录制在纸质笔记本上,现在它存储在数据中心的仓库大小。结果,这种熟悉的分析已成为计算瓶颈。研究人员探索了随机算法和其他方向来改进PCA级别的方式,但我们发现这些方法难以扩大到大规模的数据集,因为它们无法完全线束,最近的计算中的深度学习的进步 - 即访问许多平行的GPU或TPU。
其次,PCA共享一个具有许多重要ML和工程问题的常见解决方案,即奇异值分解(SVD)。通过以正确的方式接近PCA问题,我们的见解和算法更广泛地跨越ML树的分支。
与任何棋盘游戏一样,为了重新发明PCA作为游戏,我们需要一组规则和目标来遵循球员。有许多方法可以设计这样的游戏;然而,重要的想法来自PCA本身:最佳解决方案由特征向量组成,捕获数据中的重要方差并彼此正交。
在Eigengame中,每个播放器都控制特征向量。玩家通过解释数据内的差异来增加他们的分数,但如果它们与其他玩家保持紧密地对齐,则受到惩罚。我们还建立了一个层次结构:玩家1只关心最大化方差,而其他玩家也必须担心在层次结构中将它们与球员的对齐最小化。这种奖励和惩罚的组合定义了每个玩家的效用。
如果所有玩家都在最佳地发挥,它们在一起实现了游戏的纳什均衡,这是PCA解决方案。
如果每个玩家独立地和同时使用梯度上升,则可以实现这一点。
同时上升的这种独立性尤为重要,因为它允许计算要分发数十个Google云TPU,从而实现数据和模型并行性。这使我们的算法可以适应真正的大规模数据。 EigEngame在几小时内找到主组件,百分之一的数据集包括数百万个特征或数十亿行。
通过从多功能代理商的角度思考PCA,我们能够提出可扩展的算法和新型分析。我们还发现与Hebbian学习的令人惊讶的联系 - 或者神经元在学习时如何适应。在EIGENGAME中,每个玩家最大化其实用程序都会产生类似于更新与大脑中突触塑性模型的更新规则类似的方程式。已知Hebbian更新将收敛到PCA解决方案,但未导出为任何实用程序函数的渐变。博弈论给了我们一个新鲜的镜头,以查看Hebbian学习,并建议机器学习问题的途径连续。
在M1连续局的一端是提出可以优化的目标函数的良好开发的路径:使用凸和非凸优化的理论,研究人员可以推理解决方案的全局属性。另一方面,直接指定了由神经科学的启发的纯连接方法和更新规则,但整个系统的分析可能更加困难,往往会调用复杂的动态系统的研究。
游戏理论方法,如Eigengame坐在两者之间。播放器更新并不被限制为函数的梯度,只有对其他玩家的当前策略的最佳响应。我们可以自由设计实用程序和具有可取性的更新 - 例如,指定未偏见或加速的更新 - 确保NASH属性仍然允许我们整个系统分析系统。
EIGENGAME代表了将机器学习问题的解决方案设计为大型多功能机系统的输出的具体示例。更一般地说,设计机器学习问题,因为多智能运动游戏是一个具有挑战性的机制设计问题;然而,研究人员已经使用了两位二手零和游戏来解决机器学习问题。最值得注意的是,生成的对抗网络(GANS)的成功作为生成建模的方法引起了对博弈论与机器学习之间关系的兴趣。
EIGENGAME将超出此超越此功能,以更复杂的许多播放器,普通和设置。这使得更明显的并行性以获得更大的比例和速度。它还为社区提供了一种定量基准,用于测试新的多助理算法以及较丰富的域名,如外交和足球。
我们希望我们的蓝图设计公用事业和更新将鼓励其他人探索设计新算法,代理和系统的这种方向。我们期待着看到其他问题可以制定为游戏以及我们收集的见解是否会进一步提高我们对智力多智力本质的理解。
有关详细信息,请参阅我们的论文EIGENGAME:PCA作为纳什均衡和我们的后续工作EIGENGAME卸载:游戏时比优于优化更好。这篇博客文章基于与Greaepel Geemind和Machine学习椅子的研究小组领导的Chore Graepel的联合工作基础。
我们要感谢Rob Fergus在这篇文章以及肖恩卡尔森,Jon Fildes,Dominic Barlow,Mario Pinto和Emma Yousif中的技术反馈。