ACM MM'24

论文信息

题目:DCAFuse: Dual-Branch Diffusion-CNN Complementary Feature Aggregation Network for Multi-Modality Image Fusion
DCAFuse:用于多模态图像融合的双分支扩散 - CNN 互补特征聚合网络
作者:Xudong Lu, Yuqi Jiang, Haiwen Hong, Qi Sun, Cheng Zhuo

论文创新点

  1. 提出双分支框架:论文提出了DCAFuse这一双分支扩散-CNN框架,融合了DDPM的全局信息建模能力多尺度卷积核的局部细节特征提取能力,通过双分支分别构建全局信息和提取局部细节特征,为多模态图像融合提供了新的架构思路。
  2. 设计互补特征聚合模块:设计了基于坐标注意力机制互补特征聚合模块(CFAM)。该模块能感知双分支特征在水平和垂直方向的长距离依赖关系,生成坐标感知注意力图,动态指导特征聚合,有效整合全局和局部特征。
  3. 引入新损失函数和时间步策略:引入余弦散度损失函数和独特的去噪时间步选择策略

摘要

多模态图像融合(MMIF)旨在将源图像的互补特征整合到融合图像中,包括目标显著性和纹理细节。近年来,利用扩散模型的图像融合方法取得了不错的成果。尽管扩散模型有其优势,但它降低了感知局部特征的能力。此外,其固有的工作机制会给输入引入噪声,从而导致原始信息的丢失。为了解决这个问题,作者提出了一种新颖的扩散 - CNN特征聚合融合(DCAFuse)网络,该网络可以从双分支中提取互补特征并有效地进行聚合。具体来说,作者在基于扩散的分支中利用去噪扩散概率模型(DDPM)构建全局信息,在基于CNN的分支中使用多尺度卷积核对局部细节特征进行提取。之后,作者设计了一种新颖的互补特征聚合模块(CFAM)。通过为特征构建坐标注意力图,CFAM可以捕获水平和垂直方向的长距离依赖关系,从而动态地指导分支的聚合权重。此外,为了进一步提高双分支特征的互补性,作者引入了一种基于余弦相似度的新颖损失函数和一种独特的去噪时间步选择策略。大量实验结果表明,在包括红外与可见光图像融合(IVF)和医学图像融合(MIF)在内的多种图像融合任务中,作者提出的DCAFuse优于其他最先进的方法。

3. 方法

3.1 概述

作者提出的DCAFuse利用双分支扩散 - CNN框架进行全面的多模态图像融合。以IVF任务为例,RGB通道的可见光图像与红外图像相结合,形成原始输入。

如图3所示,DCAFuse由基于扩散的分支和基于CNN的分支组成。在基于扩散的分支中,作者首先按照提出的时间步选择策略向中引入噪声,然后在去噪过程中提取中间特征用于全局信息建模()。在CNN分支中,使用多尺度卷积核和注意力块来提取和整合局部细节特征()。随后,互补特征聚合模型(CFAM)作为作者方法的一个新颖组件,生成坐标感知注意力图来捕获和之间的长距离依赖关系,从而实现有效聚合。最终,聚合后的特征被输入到融合头中以获得融合结果。

3.2 全局信息建模

通过去噪过程,DDPM可以将全局信息封装在中间特征中。在基于扩散的分支中,作者首先通过向引入高斯噪声,得到指定时间步的噪声图像,然后从去噪U - Net中提取中间特征。

根据相关研究,作者可以通过单个操作直接得到,而不是逐步添加噪声,具体如下:

其中噪声,方差与预定义的方差调度相关。

随后,噪声图像被输入到DDPM中进行单步去噪(反向扩散)过程,如下所示:

其中,表示预测的噪声,与预定义的方差调度相关。

公式(1)和公式(2)在个时间步(即)执行,以全面捕获原始信息。然后,从去噪U - Net的个不同块中,作者提取多尺度中间特征,记为,其中, 。如图3所示,从第个块(从开始)提取的多时间步特征被连接为。随后,跨时间步特征聚合器(CTFA)使用各种卷积和注意力块对进行细化。细化后的特征然后被上采样到与相同的大小,记为。最后,得到,并将其输入到CTFA中进行下一次迭代,持续直到 。基于扩散的分支的最终输出表示为。

3.3 局部细节特征提取

由于CNN具有卓越的局部感知能力,它能够捕获详细特征,这些特征是对DDPM构建的全局信息的有效补充。

在基于CNN的分支中,3阶段卷积层与混合注意力块(MABs)一起用于提取多尺度特征,表示为,其中。

随后,多尺度特征聚合器(MSFA)逐步合并。首先,被上采样以匹配的大小,然后通过MLP生成缩放因子和偏差来调制,如下所示:

其中表示逐元素乘法操作。通过这个公式,多尺度局部细节特征被融合到中。

3.4 互补特征聚合模块

作者设计了一种新颖的互补特征聚合模块(CFAM),以有效地聚合全局信息和局部细节特征。具体来说,通过生成的坐标感知注意力图,CFAM可以捕获其在多个方向上的长距离依赖关系,从而动态地调整聚合权重。

图4展示了作者提出的CFAM的具体工作流程。最初,使用一个卷积层来调整通道数(即 )。然后,CFAM通过正交的1 - D平均池化层提取方向感知特征图和,如下所示:

其中和分别表示沿轴(水平)和轴(垂直)方向进行平均池化。

由于和获得了相应方向上特征的显著性信息,作者在垂直方向上连接它们,并通过卷积层进行通道缩减,如下所示:

其中表示转置操作,表示通道缩减比例。之后,通过卷积层和非线性函数,被编码为1 - D坐标感知注意力向量和,它们捕获了输入沿相应空间方向的长距离依赖关系。

随后,和被广播到进行逐元素乘法,得到坐标感知注意力图,它反映了所有方向上的长距离依赖关系。然后CFAM按照如下方式聚合和:

其中表示聚合后的特征。根据坐标感知注意力图,CFAM充分封装了双分支特征的互补属性,从而有效地聚合了全局信息和局部细节特征。最后,聚合后的特征被输入到融合头中生成MMIF结果。

4. 实验

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与作者联系,作者将在第一时间回复并处理。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-03-20,如有侵权请联系 cloudcommunity@tencent 删除acm函数论文设计网络