论文阅读 (66)：Explainable Deep Feature Embedding Using Multiple Instance Learning for Pathological Image

文章目录

1 概述
- 1.1 题目
- 1.2 摘要
2 方法
- 2.1 问题声明
- 2.2 基于字典的可解释性CNN
- - 2.2.1 可解释特征表示
  - 2.2.2 特征整合
  - 2.2.3 训练目标

1 概述 1.1 题目

2022AAAI-MAKE：病理学图像分析与可解释性深度特征嵌入多示例 (Explainable deep feature embedding using multiple instance learning for pathological image analysis)

1.2 摘要

高像素病理全幻灯片图像 (Whole slide image, WSI) 的计算机辅助诊断算法是一个重要的研究方向。算法的可信度与其准确性以及可解释性息息相关。WSI分类可以制定为多示例学习 (Multi-instance learning, MIL) 问题，其通常是将图像区块嵌入到特征空间并汇聚为特征向量，新近的做法有使用注意力机制CNN训练特征嵌入以及定位关键区块。关键区块的存在对于分类有一定的可解释性。
然而，关于这些区块为什么被选择以及为什么是重要的有些模棱两可，尤其在医学领域并不是那么令人信服。因此，一种基于字典的可解释CNN被提出：
1）确定目标WSI中的一些病理学发现，并提供代表性且分类有用的词典项目辅助解释；
2）基于MIL方案构建字典，从而利用日常诊断而非细粒度注释获得的诊断信息来减少开销。

2 方法 2.1 问题声明

令 D = { S i : i = 1 , 2 , … , N } D={S_i:i=1,2,dots,N} D={Si:i=1,2,…,N}表示包含多个包的训练集，每个包对于一个图像，包中的实例对应图像中的区块。对于二分类问题，令 S i = { ( x i , j , y i , j ) : j = 1 , 2 , … , M i } S_i={(x_{i,j},y_{i,j}):j=1,2,dots,M_i} Si={(xi,j,yi,j):j=1,2,…,Mi}表示一个WSI，其中 x i , j x_{i,j} xi,j表示区块， y i , j ∈ { 0 , 1 } y_{i,j}in{0,1} yi,j∈{0,1}是区块标签，通常未知。不同的WSI的大小 M i M_i Mi一般不同，其标签 Y i ∈ { 0 , 1 } Y_iin{0,1} Yi∈{0,1}。

2.2 基于字典的可解释性CNN

图2展示了所提算法的总体框架，包括：
1）可解释特征表示：将区块级特征向量映射到人类可以轻松解释的特征字典；
2）特征整合：整合区块级特征为一个用于分类的特征。

图2：总体框架 2.2.1 可解释特征表示

特征提取器 F F F转换所有图像区块 { x i , 1 , … , x i , M i } {x_{i,1},dots,x_{i,M_i}} {xi,1,…,xi,Mi}为多个特征向量 { f i , 1 , … , f i , M i } {f_{i,1},dots,f_{i,M_i}} {fi,1,…,fi,Mi}，并用于计算影响分数 a i , j a_{i,j} ai,j和相似向量 s i , j s_{i,j} si,j。影响分数决定了一个图像特征对WSI分类的影响程度，影响分数大的块级特征向量对决策的影响更大。影响评估器使用softmax方法计算分数，以表示区块之间的相对重要性：
a i , j = exp ⁡ { w T tanh ⁡ ( V f i , j ) T } ∑ l = 1 M i exp ⁡ { w T tanh ⁡ ( V f i , l ) T } , (2) tag{2} a_{i,j}=frac{exp{w^Ttanh(Vf_{i,j})^T}}{sum_{l=1}^{M_i}exp{w^Ttanh(Vf_{i,l})^T}}, ai,j=∑l=1Miexp{wTtanh(Vfi,l)T}exp{wTtanh(Vfi,j)T},(2)其中 w w w和 V V V是训练参数。
相似向量 s i , j s_{i,j} si,j表示帧级别特征与字典 Q = { q k : k = 1 , … , K } Q={q_k:k=1,dots,K} Q={qk:k=1,…,K}中条目的相似度。因此，向量包含 K K K个值，每个值计算如下：
s i , j , k = log ⁡ ( ∥ f i , j − q k ∥ 2 2 + 1 ∥ f i , j − q k ∥ 2 2 + ϵ ) , (3) tag{3} s_{i,j,k}=logleft(frac{|f_{i,j}-q_k|_2^2+1}{|f_{i,j}-q_k|_2^2+epsilon}right), si,j,k=log(∥fi,j−qk∥22+ϵ∥fi,j−qk∥22+1),(3)其中 ϵ epsilon ϵ是一个小正数。

2.2.2 特征整合

WSI级特征向量 z i z_i zi汇聚如下：
z i = ∑ j = 1 M i a i , j s i , j . (4) tag{4} z_i=sum_{j=1}^{M_i}a_{i,j}s_{i,j}. zi=j=1∑Miai,jsi,j.(4) 框架的最后一层是单层感知机 h h h，其在WSI级特征上决策。

2.2.3 训练目标

优化目标包含分类和字典构建两个部分：
L = λ 1 L CE + λ 2 L DICT . (5) tag{5} mathcal{L}=lambda_1mathcal{L}_text{CE}+lambda_2mathcal{L}_text{DICT}. L=λ1LCE+λ2LDICT.(5) 这里设置 λ 1 lambda_1 λ1和 λ 2 lambda_2 λ2分别为 1 1 1和 0.5 0.5 0.5。
分类损失定义为：
L C E = − ∑ i = 1 N ∑ c = 1 C Y i c ⋅ log ⁡ ( h ∘ z i c ) , mathcal{L}_{mathrm{CE}}=-sum_{i=1}^{N} sum_{c=1}^{C} Y_{i c} cdot log left(h circ z_{i c}right), LCE=−i=1∑Nc=1∑CYic⋅log(h∘zic),其中 Y i c Y_{i c} Yic指示 S i S_{i} Si是否分类为 c c c。
字典构建损失如下：
L D I C T = L D I C T 1 + L D I C T 2 , mathcal{L}_{D I C T}=mathcal{L}_{D I C T_{1}}+mathcal{L}_{D I C T_{2}}, LDICT=LDICT1+LDICT2,其中
L D I C T 1 = 1 c ∑ k = 1 c min ⁡ j ∈ [ 1 , M i ] ∥ q k − f i , j ∥ 2 2 , L D I C T 2 = 1 M i ∑ j = 1 M i min ⁡ k ∈ [ 1 , c ] ∥ f i , j − q k ∥ 2 2 . begin{aligned} mathcal{L}_{mathrm{DICT}_{1}} &=frac{1}{c} sum_{k=1}^{c} min _{j inleft[1, M_{i}right]}left|q_{k}-f_{i, j}right|_{2}^{2}, \ mathcal{L}_{mathrm{DICT}_{2}} &=frac{1}{M_{i}} sum_{j=1}^{M_{i}} min _{k in[1, c]}left|f_{i, j}-q_{k}right|_{2}^{2} . end{aligned} LDICT1LDICT2=c1k=1∑cj∈[1,Mi]min∥qk−fi,j∥22,=Mi1j=1∑Mik∈[1,c]min∥fi,j−qk∥22.

论文阅读 (66)：Explainable Deep Feature Embedding Using Multiple Instance Learning for Pathological Image

Python相关栏目本月热门文章