可解释性论文汇总_2snoopy的博客

link之家

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

1. Interpreting multivariate interactions in DNNs（2021 AAAI）

解决的问题：

衡量特征组合之间的显著性交互来解释DNN的预测
NLP领域内shapely value计算的难度比较大

方法和创新：

定义和量化了DNN中多个输入变量之间的交互作用，能够同时反映变量间的正交互和负交互
通过对于交互组合的计算可以提取原型特征，从而能够从博弈交互的视角来解释DNN
通过采样方式对shapely value的值进行逼近运算

如图所示，其中输入特征被划分为不同的组合，代表正交互和负交互，边的粗细代表交互的强度

首先是对于 shapely value的定义 ，可以将神经网络的预测看做一个多个玩家（特征）的游戏（预测），每个玩家对于游戏结果的边际贡献可以根据公式进行计算

\phi _ { v } ( i | N ) = \sum _ { S \subseteq N \backslash \{ i \} } \frac { ( n - | S | - 1 ) ! | S | ! } { n ! } [ v ( S \cup \{ i \} ) - v ( S ) ]

\max } ( [ A ] ) - B _ { \min } ( [ A ] )=\max _ { \Omega } \sum _ { C \in \Omega } \phi ( C | N _ { C } ) - \min _ { \Omega } \sum _ { C \in \Omega } \phi ( C | N _ { C } )

解决的问题 ：

数学及实验证明了dropout能够通过抑制DNN中的特征的交互作用来防止过拟合
过拟合采样通常比其他采样样本有更大的交互作用
通过上述证明了dropout的作用的原因，并根据博弈论观点设计了loss来提升dropout的性能
分析了DNN的交互特征关系

方法和创新 ：

定义由深度神经网络编码的交互(两个特征间）
$\stackrel { \text { def } } { = } \phi ( S _ { i j } | N ^ { \prime } ) - [ \phi ( i | N \backslash \{ j \} ) + \phi ( j | N \backslash \{ i \} ) ] = \sum _ { S \subseteq N \backslash \{ i , j \} } P _ { \text { Shapley } } ( S | N \backslash \{ i , j \} ) \Delta f ( S , i , j )\\I ( i , j ) = \sum _ { s = 0 } ^ { n - 2 } [ \frac { I ^ { ( s ) } ( i , j ) } { n - 1 } ] , \quad I ^ { ( s ) } ( i , j ) \stackrel { \text { def } } { = } E _ { S \subseteq N \backslash \{ i , j \} , | S | = s } [ \Delta f ( S , i , j ) ]$
dropout和交互关系的证明
考虑一个子集
I ^ { ( s ) } ( i , j ) = E _ { S \subseteq N \backslash \{ i , j \} , | S | = s } [ \sum _ { T \subseteq S } R ^ { T } ( i , j ) ] = \sum _ { 0 \leq q \leq s } \left( \begin{array} { l } { s } \ { q } \end{array} \right) J ^ { ( q ) } ( i , j ) = \sum _ { 0 \leq q \leq s } \Gamma ^ { ( q ) } ( i , j | s )
I ( s ) ( i , j ) = E S ⊆ N \ { i , j } , ∣ S ∣ = s [ T ⊆ S ∑ R T ( i , j ) ] = 0 ≤ q ≤ s ∑ ( s q ) J ( q ) ( i , j ) = 0 ≤ q ≤ s ∑ Γ ( q ) ( i , j ∣ s )
当使用dropout后，由于会随机丢掉一些特征，假设我们只考虑没有丢掉的特征 $\text { dropout } } ^ { ( s ) } ( i , j ) = \underset { S \subseteq N \backslash \{ i , j \} , | S | = s } { E } [ \underset { S ^ { \prime } \subseteq S , | S ^ { \prime } | = r } { E } ( \sum _ { T \subseteq S ^ { \prime } } R ^ { T } ( i , j ) ) ] = \sum _ { 0 \leq q \leq r } \Gamma ^ { ( q ) } ( i , j | r )$