2021-1-19 4:5下载PDF摘要:我们通过搜索计算图的空间,提出一种元学习强化学习算法的方法,该计算图可计算损失函数,以基于值的无模型RL代理进行优化。 学习算法与领域无关,可以推广到培训期间未看到的新环境。 我们的方法可以从头开始学习,也可以从已知的现有算法(例如DQN)中引导,从而实现可解释的改进,从而提高性能。 我们的方法从零开......
2021-1-1 8:57Linux不是安全的操作系统。但是,您可以采取一些步骤对其进行改进。本指南旨在说明如何尽可能地加强Linux的安全性和隐私性。本指南试图与发行版无关,并且不限于任何特定的指南。免责声明:如果您不确定自己在做什么,请不要尝试在本文中应用任何内容。本指南仅关注安全性和隐私性,而不关注性能,可用性或其他任何内容。本指南中列......
2020-12-8 12:7强化学习是关于代理商从世界上获取信息并学习与之互动的策略,以使他们表现更好。因此,您可以想象一个未来,每次您在键盘上打字时,键盘都会学会更好地了解您。或每次您与某个网站进行交互时,它都会更好地了解您的喜好,因此世界在与人交互方面的工作越来越好。
MSR纽约市合伙人研究经理John Langford
从根本上讲,强......
2020-10-18 7:11最近的壮举,比如AlphaGo战胜了世界上最好的围棋选手,把强化学习(RL)带到了聚光灯下。然而,什么是RL,它是如何取得如此显著的效果的呢?
在第一篇文章中,我们将探讨蒙特卡罗控制方法(不是深度控制方法),尽管该方法非常简单,但它是构建一些最先进的RL的基础。
RL问题包括(至少)两个实体:代理和环境,如下图所示。......
2020-10-16 11:25车-杆平衡问题是强化学习的一个典型问题。一根杆子系在带有旋转接头的手推车上。代理人必须通过向左或向右移动手推车来平衡杆子。
互联网上的大多数解决方案似乎都采用强化学习结合复杂的Kera模型来解决这一问题。
在这篇文章中,我将向您展示,如果您足够了解您的系统,您不需要任何深度学习方案。在手摇平衡的情况下,你所需要的只是......
2020-9-20 6:40代码的KDD 2020论文稳健垃圾邮件检测纳什强化学习。窦颖彤,马桂祥,余承东,谢思红。[论文][幻灯片][视频][工具箱][中文博客]。
Nash-Detect是本文提出的一种利用强化学习训练鲁棒垃圾评论检测器的算法。鲁棒检测器由五个基本检测器组成,通过垃圾邮件发送者和防御者之间的极小极大博弈进行训练。垃圾邮件发送......
2020-7-12 1:9今天各种人工智能系统背后的许多神经网络结构与一个世纪前的早期计算机有着有趣的相似之处。就像早期的计算机是专门用于特定目的的电路,如解线性系统或密码分析一样,训练有素的神经网络通常也作为执行特定任务的专门电路发挥作用,所有参数在同一全局范围内耦合在一起。
人们可能自然会想,学习系统可能需要什么才能以与编程系统相同的方式......
2020-6-2 22:34ACME是一个强化学习(RL)代理和代理构建块的库。Acme努力公开简单、高效和可读的代理,这些代理既可以作为流行算法的参考实现,也可以作为强基线,同时仍然提供足够的灵活性来进行新的研究。Acme的设计还试图在不同的复杂程度上为RR问题提供多个入口点。
在最高级别,Acme公开了许多可以简单使用的代理,如下所示:
i......
2020-5-5 18:40PermalLink GitHub是5000多万开发人员的家园,他们一起工作,共同托管和审查代码、管理项目和构建软件。
报名