- 1 概述
- 1.1 题目
- 1.2 摘要
- 2 方法
- 2.1 问题声明
- 2.2 基于字典的可解释性CNN
- 2.2.1 可解释特征表示
- 2.2.2 特征整合
- 2.2.3 训练目标
2022AAAI-MAKE:病理学图像分析与可解释性深度特征嵌入多示例 (Explainable deep feature embedding using multiple instance learning for pathological image analysis)
1.2 摘要 高像素病理全幻灯片图像 (Whole slide image, WSI) 的计算机辅助诊断算法是一个重要的研究方向。算法的可信度与其准确性以及可解释性息息相关。WSI分类可以制定为多示例学习 (Multi-instance learning, MIL) 问题,其通常是将图像区块嵌入到特征空间并汇聚为特征向量,新近的做法有使用注意力机制CNN训练特征嵌入以及定位关键区块。关键区块的存在对于分类有一定的可解释性。
然而,关于这些区块为什么被选择以及为什么是重要的有些模棱两可,尤其在医学领域并不是那么令人信服。因此,一种基于字典的可解释CNN被提出:
1)确定目标WSI中的一些病理学发现,并提供代表性且分类有用的词典项目辅助解释;
2)基于MIL方案构建字典,从而利用日常诊断而非细粒度注释获得的诊断信息来减少开销。
令 D = { S i : i = 1 , 2 , … , N } D={S_i:i=1,2,dots,N} D={Si:i=1,2,…,N}表示包含多个包的训练集,每个包对于一个图像,包中的实例对应图像中的区块。对于二分类问题,令 S i = { ( x i , j , y i , j ) : j = 1 , 2 , … , M i } S_i={(x_{i,j},y_{i,j}):j=1,2,dots,M_i} Si={(xi,j,yi,j):j=1,2,…,Mi}表示一个WSI,其中 x i , j x_{i,j} xi,j表示区块, y i , j ∈ { 0 , 1 } y_{i,j}in{0,1} yi,j∈{0,1}是区块标签,通常未知。不同的WSI的大小 M i M_i Mi一般不同,其标签 Y i ∈ { 0 , 1 } Y_iin{0,1} Yi∈{0,1}。
2.2 基于字典的可解释性CNN 图2展示了所提算法的总体框架,包括:
1)可解释特征表示:将区块级特征向量映射到人类可以轻松解释的特征字典;
2)特征整合:整合区块级特征为一个用于分类的特征。
特征提取器
F
F
F转换所有图像区块
{
x
i
,
1
,
…
,
x
i
,
M
i
}
{x_{i,1},dots,x_{i,M_i}}
{xi,1,…,xi,Mi}为多个特征向量
{
f
i
,
1
,
…
,
f
i
,
M
i
}
{f_{i,1},dots,f_{i,M_i}}
{fi,1,…,fi,Mi},并用于计算影响分数
a
i
,
j
a_{i,j}
ai,j和相似向量
s
i
,
j
s_{i,j}
si,j。影响分数决定了一个图像特征对WSI分类的影响程度,影响分数大的块级特征向量对决策的影响更大。影响评估器使用softmax方法计算分数,以表示区块之间的相对重要性:
a
i
,
j
=
exp
{
w
T
tanh
(
V
f
i
,
j
)
T
}
∑
l
=
1
M
i
exp
{
w
T
tanh
(
V
f
i
,
l
)
T
}
,
(2)
tag{2} a_{i,j}=frac{exp{w^Ttanh(Vf_{i,j})^T}}{sum_{l=1}^{M_i}exp{w^Ttanh(Vf_{i,l})^T}},
ai,j=∑l=1Miexp{wTtanh(Vfi,l)T}exp{wTtanh(Vfi,j)T},(2)其中
w
w
w和
V
V
V是训练参数。
相似向量
s
i
,
j
s_{i,j}
si,j表示帧级别特征与字典
Q
=
{
q
k
:
k
=
1
,
…
,
K
}
Q={q_k:k=1,dots,K}
Q={qk:k=1,…,K}中条目的相似度。因此,向量包含
K
K
K个值,每个值计算如下:
s
i
,
j
,
k
=
log
(
∥
f
i
,
j
−
q
k
∥
2
2
+
1
∥
f
i
,
j
−
q
k
∥
2
2
+
ϵ
)
,
(3)
tag{3} s_{i,j,k}=logleft(frac{|f_{i,j}-q_k|_2^2+1}{|f_{i,j}-q_k|_2^2+epsilon}right),
si,j,k=log(∥fi,j−qk∥22+ϵ∥fi,j−qk∥22+1),(3)其中
ϵ
epsilon
ϵ是一个小正数。
WSI级特征向量
z
i
z_i
zi汇聚如下:
z
i
=
∑
j
=
1
M
i
a
i
,
j
s
i
,
j
.
(4)
tag{4} z_i=sum_{j=1}^{M_i}a_{i,j}s_{i,j}.
zi=j=1∑Miai,jsi,j.(4) 框架的最后一层是单层感知机
h
h
h,其在WSI级特征上决策。
优化目标包含分类和字典构建两个部分:
L
=
λ
1
L
CE
+
λ
2
L
DICT
.
(5)
tag{5} mathcal{L}=lambda_1mathcal{L}_text{CE}+lambda_2mathcal{L}_text{DICT}.
L=λ1LCE+λ2LDICT.(5) 这里设置
λ
1
lambda_1
λ1和
λ
2
lambda_2
λ2分别为
1
1
1和
0.5
0.5
0.5。
分类损失定义为:
L
C
E
=
−
∑
i
=
1
N
∑
c
=
1
C
Y
i
c
⋅
log
(
h
∘
z
i
c
)
,
mathcal{L}_{mathrm{CE}}=-sum_{i=1}^{N} sum_{c=1}^{C} Y_{i c} cdot log left(h circ z_{i c}right),
LCE=−i=1∑Nc=1∑CYic⋅log(h∘zic),其中
Y
i
c
Y_{i c}
Yic指示
S
i
S_{i}
Si是否分类为
c
c
c。
字典构建损失如下:
L
D
I
C
T
=
L
D
I
C
T
1
+
L
D
I
C
T
2
,
mathcal{L}_{D I C T}=mathcal{L}_{D I C T_{1}}+mathcal{L}_{D I C T_{2}},
LDICT=LDICT1+LDICT2,其中
L
D
I
C
T
1
=
1
c
∑
k
=
1
c
min
j
∈
[
1
,
M
i
]
∥
q
k
−
f
i
,
j
∥
2
2
,
L
D
I
C
T
2
=
1
M
i
∑
j
=
1
M
i
min
k
∈
[
1
,
c
]
∥
f
i
,
j
−
q
k
∥
2
2
.
begin{aligned} mathcal{L}_{mathrm{DICT}_{1}} &=frac{1}{c} sum_{k=1}^{c} min _{j inleft[1, M_{i}right]}left|q_{k}-f_{i, j}right|_{2}^{2}, \ mathcal{L}_{mathrm{DICT}_{2}} &=frac{1}{M_{i}} sum_{j=1}^{M_{i}} min _{k in[1, c]}left|f_{i, j}-q_{k}right|_{2}^{2} . end{aligned}
LDICT1LDICT2=c1k=1∑cj∈[1,Mi]min∥qk−fi,j∥22,=Mi1j=1∑Mik∈[1,c]min∥fi,j−qk∥22.