Warning: Can only detect less than 5000 characters
模仿学习,强化学习和辅助学习(由有监督和无监督的表示学习组成)被集成为一种互动的自我游戏形式,这对于创造我们最好的代理人至关重要。这样的代理可以遵循命令并回答问题。我们称这些代理为“求解器”。但是我们的代理人也可以提供命令并提出问题。我们称这些代理商为“设定者”。设置员以交互方式向求解器提出问题,以产生更好的求解器。但是,一旦对代理进行了训练,人类就可以扮演二传手并与求解器代理进行交互。
我们无法像大多数简单的强化学习问题那样评估我们的互动。例如,没有赢或输的概念。实际上,在共享物理环境的同时与语言进行交流会引入数量惊人的抽象和模棱两可的概念。例如,如果设置员要求求解器将某物放置在其他物附近,那么“近”到底是什么?但是,在标准化环境中对经过训练的模型进行准确评估是现代机器学习和人工智能的关键。为了应对这种情况,我们开发了多种评估方法来帮助诊断代理商中的问题并为其评分,包括在大型试验中简单地使人与代理商互动。
我们设置的一个明显优势是,操作员可以通过语言设置几乎无限的新任务集,并快速了解我们代理的能力。他们无法完成许多任务,但是我们构建AI的方法为跨越不断增强的能力范围内的改进提供了一条清晰的途径。我们的方法是通用的,可在需要与复杂环境和人进行交互的代理的任何地方应用。