论文阅读分享
已同步至知乎,全文请移步知乎Link

来自SAIVT Lab, Queensland University of Technology, Australia的一篇关于优化图像目标识别的工作。

Background 背景部分
1 Saliency maps 显著图
在计算机视觉中,显著图是一种突出显示人们的眼睛首先关注的区域或机器学习模型最相关区域的图像。

参考 VGG2014:Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps
知乎

2 Class Activation Mapping 类激活映射

类别激活图只是这些视觉模式在不同空间位置的存在的加权线性和。通过简单地将类别激活图上采样到输入图像的大小,我们就可以识别与特定类别最相关的图像区域。

参考Learning Deep Features for Discriminative Localization
知乎

Deep Saliency Methods 深度显著性方法

大致可以分为三类基于梯度的,基于激活的,基于扰动的

Gradient-based methods
Saliency Maps
Grad-CAM (Gradient-weighted Class Activation Mapping)
Activation-based methods
Class Activation Mapping (CAM)
Group score weighted Class Activation Mapping (Group-CAM)
Perturbation-based methods
RISE(Randomized Input Sampling for Explanation)
Related Work
这篇文章使用了三种基础显著性提取方法分别是:Grad-CAM , Guided-BP and Group-CAM

Gradient-weighted Class Activation Mapping (Grad-CAM)
知乎
Grad-CAM 是一种用于为卷积神经网络 (CNN) 模型生成视觉解释的方法,可使模型更加透明和易于解释。它使用目标概念的梯度信息来创建粗略的定位图,突出显示影响预测的图像重要区域。此方法适用于各种 CNN 模型,无需对架构进行任何更改或重新训练。通过将 Grad-CAM 与现有的细粒度可视化方法相结合,它可以生成高分辨率、特定于类别的可视化,并且可用于图像分类、图像字幕和视觉问答等任务。

给定一张图像和一个感兴趣的类别(例如“虎猫”或任何其他类型的可区分输出)作为输入,它们将图像通过模型的 CNN 部分进行前向传播,然后通过特定于任务的计算来获得该类别的原始分数。

Guided backpropagation (Guided-BP)
CSDN
从某种意义上说,以底部 ReLU 激活模式形式出现的自下而上的信号替代了开关。

在处理 ReLU 非线性激活函数时,Guided-bp 不仅考虑顶层梯度信号(例如 deconvnet 方法),还考虑底层数据信号(例如传统的反向传播方法)。它只保留顶层和底层数据中均为正的梯度值,从而避免了负梯度的反向传播,有助于生成更清晰的特征可视化图像。

“自下而上的信号”是指来自网络较低层的信号,这些信号基于这些层中 ReLU 的激活模式。这些模式表示较低层的神经元如何响应输入数据中的不同特征。

“替代开关”意味着替换开关信息,该信息通常用于反卷积过程。在最大池化的上下文中,开关信息记录在正向传递期间选择了哪些像素位置,以便在反卷积期间将激活映射回原始图像中的正确位置。

然而,Guided-bp 建议不要依赖开关信息,而是可以使用来自较低层 ReLU 的激活模式作为自下而上的信号。这些激活模式有助于重建输入图像中与某些特征相对应的特定区域。通过使用这些 ReLU 激活模式,反卷积过程可以产生更准确的可视化效果,从而提高我们对神经网络学习到的特征的理解。

Group score weighted Class Activation Mapping (Group-CAM)

群组得分加权类别激活映射 (Group-CAM) 是计算机视觉领域使用的一种先进技术,用于为深度学习模型(尤其是深度卷积网络)的预测提供视觉解释。它通过结合群组得分来增强传统的类别激活映射 (CAM),从而可以更细致地了解不同类别对模型决策过程的贡献。
图片描述
这张图展示了一种基于显著性图生成视觉解释的流程,是Grad-CAM的一种扩展或变体。其工作流程可以总结如下:

输入与特征图生成
输入图像
经过卷积神经网络(CNN)处理,生成目标卷积层的特征图。同时,通过反向传播计算梯度,以表示目标类别对特征图的敏感性。
权重计算与显著性图生成
通过全局加权计算每个特征图的重要性分数。这些权重与特征图进行逐元素相乘并进行组求和,生成粗略的定位图。
去噪与优化
粗略显著性图经过去噪和双线性插值优化,调整到与输入图像相同的分辨率,得到优化后的显著性图(即的优化版)。优化后的显著性图与输入图像结合,用于突出目标区域并抑制无关背景。
显著性图权重计算
多个显著性图通过额外的卷积层和全连接层处理,计算出权重​,用于确定每个显著性图的贡献。
最终加权求和与输出
所有显著性图的加权组合生成高分辨率、特定类别的可视化图,清晰地突出图像中与目标类别最相关的区域。
这种增强的可视化方法提高了定位的准确性和可解释性,非常适合需要精确、清晰视觉解释的任务,例如图像分类和目标检测。

这些方法都增强深度显着性可视化,有着如下优点:

使用 RELU 作为激活单元,在反向传播期间忽略零梯度。

采用噪声样本的平均梯度来生成更清晰的结果。

使用平均通道梯度作为权重。

使用特征图的正偏导数作为权重。

但是 这些方法的可转移性和多功能性都非常首先,只能对于特定图像特定大小进行处理。因此作者为了克服这些问题提出了本文的SSES方法。