下载PDF摘要:人工智能的一个雄心勃勃的目标是创造行为符合伦理的主体:遵守人类道德规范的能力将极大地扩大自主主体得以实用和安全部署的背景。虽然伦理主体可以通过加强训练,通过奖励特定道德理论(例如功利主义)下的正确行为来训练,但对于道德的性质以及什么伦理理论(如果有的话)是客观正确的,仍然存在广泛的分歧(包括社会和道德哲学家)。认识到这种分歧,道德哲学最近的研究提出,伦理行为需要在道德不确定的情况下行动,也就是说,在行动时要考虑到一个人的信任度被几种看似合理的伦理理论所分裂。在这些工作的启发下,本文提出了一种形式主义,将这种见解转化到强化学习领域,展示了形式主义的潜力,然后我们训练代理人在简单的环境中在道德不确定性下行动,强调这种不确定性如何有助于遏制从承诺到单一理论的极端行为。总体思路是从道德哲学和机器伦理学领域与机器学习领域建立有效的联系,通过突出与培训具有伦理能力的强化学习代理相关的一系列机器学习研究问题来启发进一步的研究。