使用Shapley值解释机器学习的新颖框架

2020-11-23 05:15:00

下载PDF摘要:已经提出了许多通过将机器学习模型的预测归因于相应的输入特征来解释机器学习模型的预测的技术。其中最受欢迎的是应用了基于合作博弈理论的Shapley值方法的技术。现有论文集中在Shapley值的公理化动机和有效的计算方法上,但对于所使用的博弈公式并没有什么根据,也没有解决方法输出中所隐含的不确定性。例如,流行的SHAP算法的公式化可以对在模型中不起作用的特征给予实质性的归属。在这项工作中,我们说明了现有方法的基本博弈公式之间的细微差异如何导致预测属性的较大差异。然后,我们提出一个通用游戏的表述,该表述将现有方法统一起来,并对它们的属性启用简单的置信区间。此外,它允许我们将属性解释为相对于参考输入的分布的输入的对比说明。我们将这一思想与基于对比解释的经典研究认知心理学联系起来,并提出了一种概念框架,用于生成和解释ML模型的解释,称为公式化,近似,解释(FAE)。我们将此框架用于解释在两个UCI数据集和一个Lending Club数据集上训练的黑盒模型。