Microsoft的强化学习

2020-12-08 12:07:43

强化学习是关于代理商从世界上获取信息并学习与之互动的策略,以使他们表现更好。因此,您可以想象一个未来,每次您在键盘上打字时,键盘都会学会更好地了解您。或每次您与某个网站进行交互时,它都会更好地了解您的喜好,因此世界在与人交互方面的工作越来越好。

MSR纽约市合伙人研究经理John Langford

从根本上讲,强化学习(RL)是一种机器学习方法,其中,软件代理与其环境进行交互,获得奖励并选择使这些奖励最大化的操作。强化学习的研究可以追溯到几十年前,它植根于包括动物心理学在内的许多不同领域的工作中,其一些基本概念在最早的人工智能研究中得到了探索,例如马文·明斯基(Marvin Minsky)于1951年使用祖先的SNARC机器。强化学习技术的应用,以模拟解决迷宫的老鼠。

在1990年代和2000年代,强化学习的理论和实践工作开始加速,从而导致我们今天看到的迅速发展。强化学习背后的理论不断发展,同时其在现实场景中的应用正在许多领域带来有意义的影响,例如从培训自治系统到在现实环境中更安全可靠地运行,到使游戏更具吸引力和娱乐性,在网络上提供更多个性化的信息和体验。

以下是Microsoft的研究人员及其合作者在强化学习方面取得的进展的时间表,以及该领域的总体里程碑。

1992年,本文及其Reinforce算法在策略优化算法的开发中发挥了重要作用。

1995年的这篇论文(以及后来的期刊版本)提出了一种新颖的方法来解决“多臂匪徒问题”,而无需对收益的分布进行任何统计假设。

1998年的这篇论文(及其后的期刊版本)展示了如何在一般性地解决Markov决策过程中学习最佳行为。 这份2002年的论文显示了学习局部改进政策以实现最优政策的第一个条件。 在2007年,被普遍使用特征和上下文的强盗被称为上下文强盗。 同样在2007年,Vowpal Wabbit的第一个公共版本发布,提供了快速,高效和灵活的在线机器学习技术以及其他机器学习方法。 约翰·兰福德(John Langford)和他的一些同事在此项目上后来加入了Microsoft Research,以继续他们的工作。 微软研究员约翰·兰福德(John Langford)在神经信息处理系统会议上介绍了有关交互式学习的教程。 (NIPS 2013) 2014年,理查德·萨顿(Richard Sutton)和安德鲁·巴托(Andrew Barto)出版了《强化学习:入门》,讲述了从1970年代末开始的该领域的工作。