【引用】解释模型预测的统一方法

Table of Contents

解释模型预测的统一方法

Scott M. Lundberg 保罗·艾伦计算机科学与工程学院 华盛顿大学 西雅图,WA 98105 slund1@cs.washington.edu

Su- In Lee 保罗·艾伦计算机科学与工程学院 基因组科学系 华盛顿大学 西雅图,WA 98105 suinlee@cs.washington.edu

摘要

理解模型为何做出某个预测,在许多应用中可以与预测的准确性一样至关重要。然而,对于大型现代数据集,最高准确性通常是通过复杂模型实现的,这些模型即使是专家也难以解释,例如集成或深度学习模型,这造成了准确性与可解释性之间的紧张关系。作为回应,最近提出了各种方法来帮助用户解释复杂模型的预测,但这些方法之间的关系以及何时一种方法优于另一种方法往往不明确。为了解决这个问题,我们提出了一个解释预测的统一框架,SHAP(SHapley Additive exPlanations)。SHAP为每个特征分配对特定预测的重要性值。其新颖的组成部分包括:(1)识别一类新的加性特征重要性度量,以及(2)理论结果表明,在这一类中存在一个具有一组期望特性的唯一解。这个新类别统一了六种现有方法,值得注意的是,因为该类别中的几种最近方法缺乏所提出的期望特性。基于这种统一的见解,我们提出了新方法,这些方法比先前的方法在计算性能和/或与人类直觉的一致性方面表现出改进。

1 引言

正确解释预测模型的输出的能力极其重要。它促使用户产生适当的信任,提供关于模型如何改进的见解,并支持对被建模过程的理解。在某些应用中,简单模型(例如,线性模型)通常因其易于解释而被青睐,即使它们可能比复杂模型准确性低。然而,大数据的日益普及增加了使用复杂模型的好处,因此将模型输出的准确性与可解释性之间的权衡推向了最前沿。最近提出了各种各样的不同方法来应对这个问题[5, 8, 9, 3, 4, 1]。但是,对于这些方法如何关联以及何时一种方法优于另一种方法仍然缺乏理解。

在这里,我们提出了一种新颖的解释模型预测的统一方法。我们的方法带来了三个可能令人惊讶的结果,为不断增长的方法空间带来了清晰度:

  1. 我们引入了将模型的任何解释视为一个模型本身的视角,我们称之为解释模型。这让我们定义了加性特征归因方法类(第2节),它统一了六种当前方法。
  2. 然后我们表明,保证唯一解的博弈论结果适用于整个加性特征归因方法类(第3节),并提出SHAP值作为各种方法近似的特征重要性的统一度量(第4节)。
  3. 我们提出了新的SHAP值估计方法,并证明它们比几种现有方法更符合用户研究测量的人类直觉,并且更有效地区分模型输出类别(第5节)。

2 加性特征归因方法

简单模型的最佳解释是模型本身;它完美地代表了自己并且易于理解。对于复杂模型,例如集成方法或深度网络,我们不能使用原始模型作为其自身的最佳解释,因为它不容易理解。相反,我们必须使用一个更简单的解释模型,我们将其定义为原始模型的任何可解释的近似。我们在下面表明,文献中的六种当前解释方法都使用相同的解释模型。这种以前未被重视的统一具有有趣的启示,我们将在后面的章节中描述。

为待解释的原始预测模型, 为解释模型。在这里,我们关注于局部方法,这些方法旨在基于单个输入 解释预测 ,如LIME[5]所提出的。解释模型通常使用简化的输入 ,这些输入通过映射函数 映射到原始输入。局部方法试图确保每当 。(注意,即使 可能包含比 更少的信息,,因为 特定于当前输入 。)

定义1 加性特征归因方法具有一个解释模型,该模型是二元变量的线性函数:

其中 是简化输入特征的数量,且

具有匹配定义1的解释模型的方法将一个效应 归因于每个特征,并且对所有特征归因的效应求和近似原始模型的输出 。许多当前方法匹配定义1,其中几种在下面讨论。

2.1 LIME

LIME方法基于在给定预测周围局部近似模型来解释个体模型预测[5]。LIME使用的局部线性解释模型完全遵循方程1,因此是一种加性特征归因方法。LIME将简化输入 称为"可解释输入",映射 将可解释输入的二元向量转换为原始输入空间。对于不同的输入空间使用不同类型的 映射。对于词袋文本特征, 将1或0的向量(存在或不存在)转换为原始的词频(如果简化输入为1)或零(如果简化输入为零)。对于图像, 将图像视为一组超像素;然后它将1映射为保持超像素为其原始值,将0映射为用相邻像素的平均值替换超像素(这旨在表示缺失)。

为了找到 ,LIME最小化以下目标函数:

解释模型 对原始模型 的忠实性通过在简化输入空间中由局部核 加权的一组样本上的损失 来强制执行。 惩罚 的复杂性。由于在LIME中 遵循方程1且 是平方损失,方程2可以使用惩罚线性回归求解。

2.2 DeepLIFT

DeepLIFT最近被提出作为一种深度学习的递归预测解释方法[8, 7]。它归因于每个输入 一个值 ,表示该输入被设置为参考值而不是其原始值的效果。这意味着对于DeepLIFT,映射 将二元值转换为原始输入,其中1表示输入取其原始值,0表示它取参考值。参考值尽管由用户选择,但表示该特征典型的无信息背景值。

DeepLIFT使用一个"和到增量"的属性,该属性规定:

其中 是模型输出,,且 是参考输入。如果我们设 ,那么DeepLIFT的解释模型匹配方程1,因此是另一种加性特征归因方法。

2.3 分层相关性传播

分层相关性传播方法解释深度网络的预测[1]。正如Shrikumar等人指出的,该方法等同于将所有神经元的参考激活固定为零的DeepLIFT。因此, 将二元值转换为原始输入空间,其中1表示输入取其原始值,0表示输入取0值。与DeepLIFT一样,分层相关性传播的解释模型匹配方程1。

2.4 经典Shapley值估计

三种先前方法使用合作博弈论中的经典方程来计算模型预测的解释:Shapley回归值[4]、Shapley抽样值[9]和定量输入影响[3]。

Shapley回归值是在存在多重共线性时线性模型的特征重要性。此方法需要在所有特征子集 上重新训练模型,其中 是所有特征的集合。它为每个特征分配一个重要性值,表示包含该特征对模型预测的影响。为了计算这种影响,训练一个模型 (该特征存在),以及另一个模型 (该特征被排除)。然后,在当前输入上比较两个模型的预测 ,其中 表示集合 中输入特征的值。由于排除一个特征的影响取决于模型中的其他特征,上述差异需要对所有可能的子集 进行计算。然后计算Shapley值并将其用作特征归因。它们是所有可能差异的加权平均值:

对于Shapley回归值, 将1或0映射到原始输入空间,其中1表示输入包含在模型中,0表示从模型中排除。如果我们设 ,那么Shapley回归值匹配方程1,因此是一种加性特征归因方法。

Shapley抽样值旨在通过以下方式解释任何模型:(1)对方程4应用抽样近似,以及(2)通过对训练数据集中的样本进行积分来近似从模型中移除变量的影响。这消除了重新训练模型的需要,并允许计算少于 个差异。由于Shapley抽样值的解释模型形式与Shapley回归值的相同,因此它也是一种加性特征归因方法。

定量输入影响是一个更广泛的框架,不仅仅涉及特征归因。然而,作为其方法的一部分,它独立提出了一个与Shapley抽样值几乎相同的Shapley值抽样近似。因此它是另一种加性特征归因方法。 3 简单特性唯一确定加性特征归因

加性特征归因方法类的一个令人惊讶的属性是,存在该类中满足三个期望特性(如下所述)的唯一解。虽然这些特性对经典的Shapley值估计方法是熟悉的,但它们对其他加性特征归因方法而言以前是未知的。

第一个期望特性是局部准确性。在近似特定输入 的原始模型 时,局部准确性要求解释模型至少匹配 在简化输入 (对应于原始输入 )处的输出。

特性1 (局部准确性)

时,解释模型 与原始模型 匹配,其中 表示所有简化输入被切换关闭(即缺失)时的模型输出。

第二个特性是缺失性。如果简化输入表示特征存在,那么缺失性要求原始输入中缺失的特征没有影响。第2节描述的所有方法都遵守缺失性特性。

特性2 (缺失性)

缺失性约束了那些 的特征没有归因影响。

第三个特性是一致性。一致性表明,如果一个模型发生变化,使得某个简化输入的贡献增加或保持不变,而不管其他输入如何,那么该输入的归因不应减少。

特性3 (一致性) 表示设置 。对于任意两个模型 ,如果

对所有输入 成立,则

定理1 只有一种可能的解释模型 遵循定义1并满足特性1、2和3:

其中 中非零条目的数量,且 表示所有 向量,其中非零条目是 中非零条目的子集。

定理1源于组合合作博弈论结果,其中值 被称为Shapley值[6]。Young (1985) 证明了Shapley值是满足三个类似于特性1、特性3以及我们在这个设置中显示为冗余的最终特性的唯一一组值(见补充材料)。特性2是为了使Shapley证明适用于加性特征归因方法类所必需的。

在特性1-3下,对于给定的简化输入映射 ,定理1表明只有一种可能的加性特征归因方法。这个结果意味着不基于Shapley值的方法违反了局部准确性和/或一致性(第2节中的方法已经尊重缺失性)。下一节提出了一个统一的方法,改进了先前的方法,防止它们无意中违反特性1和3。

4 SHAP(SHapley Additive exPlanation)值

我们提出SHAP值作为特征重要性的统一度量。这些值是原始模型的条件期望函数的Shapley值;因此,它们是方程

**图1**:SHAP(SHapley Additive exPlanation)值将每个特征对预期模型预测在条件于该特征时的变化进行归因。它们解释了如何从如果我们不知道任何特征时预测的基值 到当前输出 。此图显示了一个单一的排序。然而,当模型是非线性的或输入特征不独立时,特征添加到期望中的顺序很重要,SHAP值来源于对所有可能排序的 值取平均。

8的解,其中 ,且 中非零索引的集合(图1)。基于第2节和第3节,SHAP值提供了独特的加性特征重要性度量,它遵循特性1-3,并使用条件期望来定义简化输入。SHAP值的这个定义中隐含了一个简化输入映射,,其中 对于不在集合 中的特征具有缺失值。由于大多数模型不能处理任意模式的缺失输入值,我们用 近似 。SHAP值的这个定义旨在与Shapley回归、Shapley抽样和定量输入影响特征归因紧密对齐,同时也允许与LIME、DeepLIFT和分层相关性传播建立联系。

SHAP值的精确计算具有挑战性。然而,通过结合当前加性特征归因方法的见解,我们可以近似它们。我们描述两种模型无关的近似方法,一种已经已知(Shapley抽样值),另一种是新颖的(Kernel SHAP)。我们还描述了四种特定于模型类型的近似方法,其中两种是新颖的(Max SHAP,Deep SHAP)。当使用这些方法时,特征独立性和模型线性是两个可选假设,用于简化期望值的计算(注意 是不在 中的特征集合):

4.1 模型无关的近似

如果我们在近似条件期望时假设特征独立性(方程11),如[9, 5, 7, 3]中那样,那么SHAP值可以直接使用Shapley抽样值方法[9]或等效地使用定量输入影响方法[3]来估计。这些方法使用经典Shapley值方程(方程8)的排列版本的抽样近似。对每个特征归因进行单独的抽样估计。虽然对于少量输入计算是合理的,但接下来描述的Kernel SHAP方法需要更少的原始模型评估即可获得相似的近似精度(第5节)。

Kernel SHAP(线性 LIME + Shapley 值)

线性LIME使用线性解释模型来局部近似 ,其中局部性是在简化的二元输入空间中测量的。乍一看,LIME在方程2中的回归公式似乎与方程8的经典Shapley值公式非常不同。然而,由于线性LIME是一种加性特征归因方法,我们知道Shapley值是满足特性1-3(局部准确性、缺失性和一致性)的方程2的唯一可能解。一个自然的问题是,方程2的解是否恢复了这些值。答案取决于损失函数 、加权核 和正则化项 的选择。LIME对这些参数的选择是启发式的;使用这些选择,方程2不会恢复Shapley值。一个后果是违反了局部准确性和/或一致性,这反过来导致在某些情况下出现不直观的行为(见第5节)。 下面我们展示了如何避免启发式选择方程2中的参数,以及如何找到恢复Shapley值的损失函数 、加权核 和正则化项

定理2 (Shapley核) 在定义1下,使方程2的解与特性1到3一致的 的具体形式是:

其中 中非零元素的数量。

定理2的证明在补充材料中给出。

重要的是要注意,当 ,这强制了 。在实践中,可以通过使用这些约束解析地消除两个变量来避免这些无限权重。

由于定理2中假设 遵循线性形式,且 是平方损失,方程2仍然可以使用线性回归求解。因此,博弈论中的Shapley值可以使用加权线性回归计算。由于LIME使用的简化输入映射等价于方程12中给出的SHAP映射的近似,这使得基于回归的、模型无关的SHAP值估计成为可能。使用回归联合估计所有SHAP值比直接使用经典Shapley方程提供了更好的样本效率(见第5节)。

线性回归与Shapley值之间的直观联系在于方程8是均值的差值。由于均值也是一组数据点的最佳最小二乘点估计,因此自然要寻找一个加权核,使得线性最小二乘回归能够重现Shapley值。这导致了一个与先前启发式选择的核明显不同的核(图2A)。

4.2 特定于模型的近似

虽然Kernel SHAP提高了模型无关估计SHAP值的样本效率,但通过将我们的注意力限制在特定模型类型上,我们可以开发更快的特定于模型的近似方法。

Linear SHAP

对于线性模型,如果我们假设输入特征独立性(方程11),SHAP值可以直接从模型的权重系数近似。

推论1 (Linear SHAP) 给定一个线性模型

这源于定理2和方程11,并且先前已被Štrumbelj和Kononenko[9]指出。

Low-Order SHAP

由于使用定理2的线性回归具有复杂度 ,如果我们选择条件期望的近似(方程11或12),它对于小的 值是高效的。

**图2**:(A) 当所有可能的 向量按基数排序时,Shapley核加权是对称的,在这个例子中有 个向量。这与先前启发式选择的核明显不同。(B) 组合模型,如深度神经网络,由许多简单组件组成。给定组件的Shapley值的解析解,可以使用DeepLIFT风格的反向传播对完整模型进行快速近似。

Max SHAP

使用Shapley值的排列公式,我们可以计算每个输入相对于其他每个输入增加最大值的概率。在输入值的排序顺序上这样做,使我们可以在 时间内而不是 时间内计算具有 个输入的最大函数的Shapley值。完整算法见补充材料。

Deep SHAP (DeepLIFT + Shapley 值)

虽然Kernel SHAP可以用于任何模型,包括深度模型,但自然要问是否有一种方法可以利用关于深度网络组合性质的额外知识来提高计算性能。我们通过一个以前未被重视的Shapley值与DeepLIFT[8]之间的联系找到了这个问题的答案。如果我们将方程3中的参考值解释为方程12中的 ,那么DeepLIFT近似了SHAP值,假设输入特征彼此独立且深度模型是线性的。DeepLIFT使用线性组合规则,这相当于线性化神经网络的非线性组件。其定义每个组件如何线性化的反向传播规则是直观的,但是启发式选择的。由于DeepLIFT是一种满足局部准确性和缺失性的加性特征归因方法,我们知道Shapley值代表了满足一致性的唯一归因值。这激励我们调整DeepLIFT以成为SHAP值的组合近似,从而产生了Deep SHAP。

Deep SHAP将网络较小组件计算的SHAP值组合成整个网络的SHAP值。它通过递归地将DeepLIFT的乘子(现在根据SHAP值定义)向后传递通过网络来实现,如图2B所示:

由于如果简单网络组件是线性的、最大池化的或只有一个输入的激活函数,它们的SHAP值可以高效解析求解,因此这个组合规则使得能够快速近似整个模型的值。Deep SHAP避免了启发式选择线性化组件的方式。相反,它从为每个组件计算的SHAP值推导出有效的线性化。最大函数提供了一个这样的例子,它导致了改进的归因(见第5节)。

**图3**:三种加性特征归因方法的比较:Kernel SHAP(使用去偏的lasso)、Shapley抽样值和LIME(使用开源实现)。显示了两个模型中一个特征的特征重要性估计,随着原始模型函数评估次数的增加。在每次样本量处显示了200次重复估计的第10和第90百分位数。(A) 对一个使用所有10个输入特征的决策树模型针对单个输入进行解释。(B) 对一个只使用100个输入特征中的3个的决策树针对单个输入进行解释。

5 计算与用户研究实验

我们使用Kernel SHAP和Deep SHAP近似方法评估了SHAP值的优势。首先,我们比较了Kernel SHAP与LIME和Shapley抽样值的计算效率和准确性。其次,我们设计了用户研究,将SHAP值与由DeepLIFT和LIME代表的替代特征重要性分配进行比较。正如预期的那样,SHAP值比其他不满足特性1-3(第2节)的方法更符合人类直觉。最后,我们使用MNIST数字图像分类来比较SHAP与DeepLIFT和LIME。

5.1 计算效率

定理2将博弈论中的Shapley值与加权线性回归联系起来。Kernel SHAP利用这种联系来计算特征重要性。与先前基于抽样的方程8估计相比,这导致更少的原始模型评估即可获得更准确的估计,特别是当向线性模型添加正则化时(图3)。在密集和稀疏决策树模型上比较Shapley抽样、SHAP和LIME,既说明了Kernel SHAP改进的样本效率,也说明了LIME的值可能显著不同于满足局部准确性和一致性的SHAP值。

5.2 与人类直觉的一致性

定理1为所有加性特征归因方法使用SHAP值提供了强有力的激励。正如最初展示的,LIME和DeepLIFT计算不同的特征重要性值。为了验证定理1的重要性,我们比较了LIME、DeepLIFT和SHAP对简单模型的解释(使用Amazon Mechanical Turk)。我们的测试假设,好的模型解释应该与理解该模型的人类的解释一致。

我们在两种设置下将LIME、DeepLIFT和SHAP与人类解释进行了比较。第一种设置使用了一种疾病评分,该评分在仅出现两种症状之一时更高(图4A)。第二种使用了一个最大分配问题,可以应用DeepLIFT。参与者被告知一个关于三个人如何根据他们中任何人取得的最高分数赚钱的短故事(图4B)。在两种情况下,参与者被要求将产出(疾病评分或赢得的钱)的功劳分配给输入(即,症状或玩家)。我们发现人类解释与SHAP之间的一致性比其他方法强得多。SHAP在最大函数方面的改进性能解决了DeepLIFT中最大池化函数的开放问题[7]。

5.3 解释类别差异

如第4.2节所讨论,DeepLIFT的组合方法启发了SHAP值的组合近似(Deep SHAP)。这些见解反过来改进了DeepLIFT,一个新版本

**图4**:人类特征影响估计显示为分别由30位(A)和52位(B)随机个体给出的最常见的解释。(A) 模型输出值(疾病评分)为2时的特征归因。当发烧和咳嗽同时出现时,模型输出为2;当只有发烧或咳嗽之一出现时,为5;否则为0。(B) 根据任何一个人答对的问题的最大数量,将利润分配给三个人。第一个人答对了5个问题,第二个人答对了4个,第三个人答对了0个,所以利润是 5\。 **图5**:解释在MNIST数字数据集上训练的卷积网络的输出。原始的DeepLIFT没有明确的Shapley近似,而新的DeepLIFT试图更好地近似Shapley值。(A) 红色区域增加了该类别的概率,蓝色区域减少了概率。掩码按照顺序移除像素,将8变为3。(B) 在20张随机图像上掩码时对数几率的变化支持使用更好的SHAP值估计。

包括了更新以更好地匹配Shapley值[7]。图5扩展了DeepLIFT的卷积网络示例,以突出显示更接近SHAP值的估计的性能提升。预训练的模型和图5示例与[7]中使用的相同,输入在0和1之间归一化。两个卷积层和2个全连接层之后是一个10路softmax输出层。两个DeepLIFT版本解释的是线性层的归一化版本,而SHAP(使用Kernel SHAP计算)和LIME解释的是模型的输出。SHAP和LIME都运行了50k个样本(补充图1);为了提高性能,LIME被修改为对数字像素使用单像素分割。为了匹配[7],我们根据每种方法给出的特征归因,掩蔽了20%的像素,这些像素被选择用来将预测的类别从8切换到3。

6 结论

模型预测的准确性与可解释性之间日益增长的紧张关系促使了帮助用户解释预测的方法的发展。SHAP框架识别了加性特征重要性方法类(包括六种先前方法),并表明在该类中存在一个遵循期望特性的唯一解。SHAP在文献中编织的统一线索是一个令人鼓舞的迹象,表明关于模型解释的共同原则可以为未来方法的发展提供信息。

我们提出了几种不同的SHAP值估计方法,并附有证明和实验,表明这些值是期望的。有希望的下一步包括开发更快的特定于模型类型的估计方法,这些方法做出更少的假设;整合关于从博弈论中估计交互效应的工作;以及定义新的解释模型类。 致谢 这项工作得到了美国国家科学基金会(NSF)DBI-135589、NSF CAREER DBI-155230、美国癌症协会127332-RSG-15-097-01-TBG、美国国立卫生研究院(NIH)AG049196以及NSF研究生研究奖学金的支持。我们要感谢Marco Ribeiro、Erik Štrumbelj、Avanti Shrikumar、Yair Zick、Lee实验室以及NIPS审稿人的反馈,这些反馈显著改进了这项工作。

参考文献

<参考文献列表,保留原格式>