下载PDF摘要:这篇文章试图建立一个框架,指导一个由简单、专业、自私的代理组成的社会来解决传统上被认为是单一的单代理顺序决策问题。使用分散的方法来集体优化一个中心目标之所以具有挑战性,是因为很难表征非合作博弈的均衡策略概况。为了克服这一挑战,我们设计了一种机制来定义每个Agent的学习环境,在该学习环境中,我们知道全局目标的最优解与优化自己的局部目标的Agent的纳什均衡策略轮廓重合。该协会是一个由代理人组成的经济,他们通过相互买卖对环境州的经营权来学习信用分配过程。我们导出了一类分散的强化学习算法,它不仅广泛适用于标准的强化学习,而且还适用于半MDP中的选项选择和计算图的动态合成。最后,我们展示了ASOSITY固有的模块化结构对于更有效的迁移学习的潜在优势。