CN117893858A - 一种融合多层级多尺度与边界信息的图像篡改定位方法 - Google Patents
一种融合多层级多尺度与边界信息的图像篡改定位方法 Download PDFInfo
- Publication number
- CN117893858A CN117893858A CN202311679406.2A CN202311679406A CN117893858A CN 117893858 A CN117893858 A CN 117893858A CN 202311679406 A CN202311679406 A CN 202311679406A CN 117893858 A CN117893858 A CN 117893858A
- Authority
- CN
- China
- Prior art keywords
- feature
- tampering
- module
- tamper
- boundary information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 230000003993 interaction Effects 0.000 claims abstract description 35
- 230000000007 visual effect Effects 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims description 36
- 230000006870 function Effects 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 27
- 238000000605 extraction Methods 0.000 claims description 22
- 230000004913 activation Effects 0.000 claims description 18
- 238000010606 normalization Methods 0.000 claims description 18
- 230000004927 fusion Effects 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 claims description 11
- 230000009467 reduction Effects 0.000 claims description 10
- 230000002708 enhancing effect Effects 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 7
- 238000012512 characterization method Methods 0.000 claims description 6
- 230000004807 localization Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 238000007634 remodeling Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000005096 rolling process Methods 0.000 claims description 4
- 238000000638 solvent extraction Methods 0.000 claims description 4
- 238000013519 translation Methods 0.000 claims description 4
- 230000003014 reinforcing effect Effects 0.000 abstract 1
- 238000001514 detection method Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 5
- 238000007792 addition Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种融合多层级多尺度与边界信息的图像篡改定位方法,能够对图像的浅层特征,如边界、纹理和轮廓等进行充分的全局上下文建模,显著提高图像篡改定位模型的精度,使用金字塔视觉Transformer骨干网络的篡改特征编码模块,得到四个层级的篡改特征;通过多尺度篡改特征增强模块对得到的篡改特征的多尺度信息进行强化;篡改边界信息模块利用高层特征融合篡改区域的全局位置信息,针对性地建模篡改区域的边界信息;将与篡改区域边界相关的特征注入到篡改特征;跨层特征交互传播模块接收经过篡改边界信息引导后的、不同层级的特征作为输入,输出融合后的跨层特征;还将篡改特征图自顶向下、逐层上采样至模型输入的分辨率,并给出最终的预测结果。
Description
技术领域
本发明涉及网络空间安全、数字取证、内容安全技术等领域,具体的说,是一种融合多层级多尺度与边界信息的图像篡改定位方法。
背景技术
图像作为高效的信息载体,具有直观、简洁和感染力强的特点,满足了人们对美感和信息获取的需求。而随着图像编辑技术的不断进步和图像处理软件的普及,编辑、修改图像变得越来越简单。这一便利性也引发了对逐渐频发的图像篡改问题的关注。社交网络和智能移动终端的普及使得篡改图像能够更快速地传播,进一步增大了图像篡改所带来的危害。图像篡改问题可能在政治、军事、新闻、司法、学术等多个领域带来巨大的危害。例如,2014年,日本学者小保方晴子在《Nature》上的论文中存在实验结果图片的造假问题,导致相关研究领域学术资源的极大浪费。为了减少图像篡改可能带来的危害,图像篡改取证技术成为了一项亟需发展的技术,其在新闻鉴真、法庭取证、电子票据等多方面都具有广泛的应用前景。
图像编辑操作主要可以分为两类。首先是全局操作,包括色调修改、亮度和对比度调整,以及模糊等,它们不会改变图像的语义信息。其次是局部操作,包括复制-移动、拼接和擦除等三种,这些操作会改变图像原有的语义信息,可能导致误导,存在较大的潜在风险。因此,现有的图像篡改取证技术主要聚焦在解决这三种能够改变图像语义的图像操作的检测与定位问题。
在对上述图像篡改进行检测的技术方面,主要可以分为两类:基于手工特征的篡改检测和基于深度学习的篡改检测。前者是针对特定篡改操作留下的痕迹进行判断,例如重复区域、边缘异常、成像设备一致性和光照一致性等。然而,这类方法只能对特定的篡改类型设计专门算法,其过程繁琐且使用场景受限。此外,这类方法也无法给出细粒度的篡改区域定位结果。相较之下,深度学习方法利用深度神经网络来提取图像特征,从而给出图像篡改区域的定位。由于深度学习方法不依赖于专家知识,能够自适应地提取具有代表性和泛化性的篡改特征;可以通过灵活构建数据集与设置学习目标,从而获得处理多种篡改类型的图像的能力;能够实现细粒度的篡改区域定位,因而成为了图像篡改取证技术的主流发展方向。近年来,涌现出了一些基于深度学习的通用图像篡改检测算法,如Mantra-Net、CAT-Net、MVSS-Net、PSCC-Net等,它们在提高图像篡改取证技术的准确性和鲁棒性方面取得了一定的进展。然而,仍然存在以下问题:
1、上下文建模机制通过构建图像局部区域与周围环境的关系,有助于推断该局部区域是否受到篡改。基于深度学习的篡改取证技术在进一步发展中需要提升其模型的上下文建模能力,以更全面地捕获篡改特征。目前的方法通常采用卷积神经网络作为骨干网络,用以提取图像中的篡改特征。虽然卷积神经网络能够有效地建模局部位置关系,但由于采用固定大小的卷积核,其感受也相对有限。为了获取更强的全局上下文建模能力,通常需要通过堆叠卷积层或者有针对性地增加注意力模块。然而,这种做法可能会导致现有方法无法充分对包含丰富的底层特征,如边缘、纹理和轮廓等信息进行全局建模,从而使得篡改特征的表征不足。因此,训练出的模型仍然可能存在较高的误报率和漏报率。
2、篡改图像的伪造区域尺寸差异较大,为了准确定位篡改区域,需要提取多尺度的图像特征。尽管一些图像篡改取证方法引入了特征金字塔,以在不同的尺度和分辨率上提取图像特征。但现有方法仍缺乏有效的网络层次间特征交互机制,未充分利用底层特征与高层特征的关系,导致在处理尺寸变化的篡改区域时,特别是在定位极大或极小的篡改区域时,定位精度仍然不高。为此,有必要进一步优化特征金字塔网络,强化网络层次间特征的交互,提升多尺度建模能力。
3、篡改区域通常被不自然的伪影包围,且其具有不规则的形状和模糊的边界。因此,提取篡改区域的边界特征,可以帮助模型更好的聚焦于篡改区域的整体结构,是提升图像篡改定位精度的重要手段之一。现有方法在利用篡改图像的边界特征时,采用固定的滤波器,捕捉编码器的底层特征作为边界特征表征分支的原始输入。上述操作会引入非篡改区域的边界噪声,难以准确提取篡改区域边界特征,导致现有方法篡改区域检测的定位结果不精确、不完整。
发明内容
本发明的目的在于提供一种融合多层级多尺度与边界信息的图像篡改定位方法,能够对图像的浅层特征,如边界、纹理和轮廓等信息,进行充分的全局上下文建模,从而显著提高图像篡改定位模型的精度。
本发明通过下述技术方案实现:一种融合多层级多尺度与边界信息的图像篡改定位方法,包括下述步骤:
1)使用金字塔视觉Transformer骨干网络的篡改特征编码模块,得到四个层级的篡改特征fi,其中,i={1,2,3,4},数字越大,层级越高;
2)通过多尺度篡改特征增强模块对从篡改特征编码模块得到的篡改特征的多尺度信息进行强化,得到多尺度篡改特征fi′;
3)篡改边界信息模块的边界信息提取模块利用高层特征融合篡改区域的全局位置信息,以有针对性地建模篡改区域的边界信息;以及篡改边界信息模块的边界信息引导模块将从边界信息提取模块得到的与篡改区域边界相关的特征注入到从多尺度篡改特征增强模块得到的多尺度篡改特征fi′;
4)跨层特征交互传播模块的跨层特征交互模块接收经过篡改边界信息引导后的、不同层级的特征作为输入,输出融合后的跨层特征,旨在充分建模不同层级不同分辨率的特征间的相关性;以及跨层特征交互传播模块的跨层特征传播模块将篡改特征图自顶向下、逐层上采样至模型输入的分辨率,并给出最终的预测结果,跨层特征传播模块接收两个层级的特征图作为输入,输出为上采样后的融合特征图。
进一步为更好地实现本发明所述的一种融合多层级多尺度与边界信息的图像篡改定位方法,特别采用下述设置方式:所述步骤1)中每个层级的篡改特征fi均通过下述步骤得到:
1.1)局部相关性建模:通过利用由卷积层组成的重叠批次划分模块,对输入三维特征图的局部相关性进行建模;
1.2)二维特征重塑:将三维特征图重新塑造为二维特征;
1.3)对步骤1.2)得到的二维特征进行层归一化处理;
1.4)对步骤1.3)得到的二维特征进行线性空间缩减,并进行多头自注意力计算;
1.5)对步骤1.4)得到的二维特征再次进行层归一化处理;
1.6)对步骤1.5)得到的二维特征进行深度可分离卷积计算;
1.7)迭代处理:重复步骤1.3)至1.6)多次,以进一步提取特征信息;
1.8)特征重塑:对步骤1.7)所得进行变形(二维特征),重新塑造为三维特征,即得到篡改特征fi,其中,i={1,2,3,4},数字越大,层级越高,以便进行后续处理。
进一步为更好地实现本发明所述的一种融合多层级多尺度与边界信息的图像篡改定位方法,特别采用下述设置方式:所述步骤2)包括下述具体步骤:
2.1)将从篡改特征编码模块获得的篡改特征fi输入多尺度篡改特征增强模块的普通卷积块中,通过两个大小为3x3的卷积核,在篡改特征fi上以步幅为1进行滑动,同时应用填充值为1的操作,将其与篡改特征fi做卷积操作;其中,普通卷积块由两个卷积核尺寸为3x3的卷积层构成;
2.2)将从篡改特征编码模块获得的篡改特征fi输入多尺度篡改特征增强模块的空洞卷积块中,通过两个膨胀卷积核,做膨胀卷积操作;其中,空洞卷积块的卷积核尺寸大小均为3x3、扩张率分别为2和3;
2.3)将从篡改特征编码模块获得的篡改特征fi输入多尺度篡改特征增强模块的可变形卷积块中,通过一个可变形卷积核,做可变形卷积运算;其中,可变形卷积核的尺寸大小为3x3,并含有9个采样点,分组数为4;
2.4)将步骤2.1)、步骤2.2)和步骤2.3)得到的输出特征,在多尺度篡改特征增强模块的通道维度上进行拼接,并通过一个3x3的卷积层进行特征降维,得到多尺度篡改特征fi′。
进一步为更好地实现本发明所述的一种融合多层级多尺度与边界信息的图像篡改定位方法,特别采用下述设置方式:所述篡改边界信息模块的边界信息提取模块利用高层特征融合篡改区域的全局位置信息,以有针对性地建模篡改区域的边界信息,包括下述具体步骤:
3.1.1)所述边界信息提取模块对于从篡改特征编码模块得到的最低层篡改特征f1和最高层篡改特征f4,分别经过一个1x1大小的卷积层,以调整最低层篡改特征f1和最高层篡改特征f4的通道数至相同;
3.1.2)通过两个3x3卷积层和矩阵乘法的计算,将最高层篡改特征f4和最底层篡改特征f1进行融合,以抑制与篡改区域无关的边界噪声;
3.1.3)通过两个3x3卷积层,并采用残差连接的结构,进一步融合最底层篡改特征f1和最高层篡改特征f4,从而获得篡改区域边界信息的篡改边界特征fb;
3.1.4)如果处于模型的训练阶段,由步骤3.1.3)得到的篡改区域边界信息的篡改边界特征fb经过上采样和sigmoid激活函数等处理,得到篡改区域边界的预测结果,并计算Dice损失。
进一步为更好地实现本发明所述的一种融合多层级多尺度与边界信息的图像篡改定位方法,特别采用下述设置方式:所述篡改边界信息模块的边界信息引导模块将从边界信息提取模块得到的与篡改区域边界相关的特征注入到从多尺度篡改特征增强模块得到的多尺度篡改特征fi′,包括下述具体步骤:
3.2.1)将从边界信息提取模块得到的篡改边界特征fb降采样至与待注入的多尺度篡改特征fi′一致;
3.2.2)计算篡改边界特征fb和多尺度篡改特征fi′的哈达玛乘积;
3.2.3)通过含逐元素加法和3x3卷积残差连接的结构,将边界信息引导模块的输入和步骤3.2.2)的计算结果融合;
3.2.4)将步骤3.2.3)得到的融合特征经过全局平均池化、一维卷积和sigmoid激活函数组成的通道注意力计算层;
3.2.5)通过将步骤3.2.3)得到的融合特征与步骤3.2.4)得到的通道权重计算向量相乘;
3.2.6)将加权后的特征通过一个1x1的卷积层,调整通道数。
进一步为更好地实现本发明所述的一种融合多层级多尺度与边界信息的图像篡改定位方法,特别采用下述设置方式:所述跨层特征交互传播模块的跨层特征交互模块接收经过篡改边界信息引导后的、不同层级的特征作为输入,输出融合后的跨层特征,具体包括下述步骤:
4.1.1)如果当前层级存在上级特征,将上级特征图上采样至分辨率和当前层级相同;如果当前层级存在下级特征,将下级特征图下采样至分辨率和当前层级相同;
4.1.2)经步骤4.1.1)后,将相邻层级的特征图拼接;
4.1.3)将拼接后的特征图通过一个含有批归一化和标准化的3*3卷积层。
进一步为更好地实现本发明所述的一种融合多层级多尺度与边界信息的图像篡改定位方法,特别采用下述设置方式:所述跨层特征交互传播模块的跨层特征传播模块将篡改特征图自顶向下、逐层上采样至模型输入的分辨率,并给出最终的预测结果,具体包括下述步骤:
4.2.1)利用上采样和3x3卷积,对齐两个特征图,然后将它们级联;
4.2.2)将级联后的特征图通过两个内核尺寸为1x1、输出通道为1的卷积层,映射到一维的空间门;
4.2.3)对步骤4.2.2)得到的空间门使用softmax函数,得到两个输入特征图的权重;
4.2.4)将两个输入特征图按照其相应的权重进行加权乘法,得到最终的细化特征;
4.2.5)如果目前处于模型训练阶段,每个细化特征图会先经过sigmoid激活函数处理,各自得到一个预测结果{P1,P2,P3,P4},接着,将所有细化特征图级联,并再次通过sigmoid激活函数处理,得到另一个预测结果Pfuse,最终,针对所有的预测结果进行BCE和Dice损失的计算;如果目前处于推断阶段,前述级联后得到的预测结果Pfuse将作为模型的推断结果。
进一步为更好地实现本发明所述的一种融合多层级多尺度与边界信息的图像篡改定位方法,特别采用下述设置方式:在所述步骤1)之前还包括对对输入的原始图像进行预处理步骤:
S1:利用opencv读取原始图像并调整图像尺寸,得到调整后的RGB原始图;
S2:如果在模型的训练阶段,针对RGB原始图像,执行随机裁剪、缩放、翻转、平移和旋转等之类的变换操作,并相应地调整篡改定位标签图以适应变换,得到增强的RGB原始图;
S3:利用torchvision将步骤S2得到的增强的RGB原始图转化为原始图张量表示;
S4:将原始图张量表示进行规范化。
本发明与现有技术相比,具有以下优点及有益效果:
针对现有技术在全局上下文建模和篡改特征表征方面的不足,本发明引入了金字塔视觉Transformer作为篡改特征编码器。通过全局自注意力机制的计算,该方法能够对图像的浅层特征,如边界、纹理和轮廓等信息,进行充分的全局上下文建模,从而显著提高图像篡改定位模型的精度。
针对现有技术在捕捉不同尺度、不同阶段特征之间复杂关系以及篡改区域定位能力方面的不足,本发明引入了多尺度篡改特征增强模块与跨层特征交互传播模块。多尺度篡改特征增强模块并联了三个具有不同内核形状、不同感受野的卷积层,从而丰富了篡改特征的多样性。同时,跨层特征交互传播模块聚合了编码器的各阶段特征及其上下层特征表示,并通过一个门控加权算法进行解码细化,从而获得高质量的多阶段、多尺度的篡改特征,显著提升了对不同大小篡改区域的检测能力。
针对现有技术在篡改边界信息提取时可能引入与篡改区域无关的边界噪声的问题,本发明提出了一种篡改边界信息引导策略。首先,边界信息提取模块利用含有篡改区域全局位置信息的最高层特征,引导富含边界信息的最底层特征,从而仅提取与篡改区域相关的边界信息。其次,边界信息引导模块将提取到的边界信息加权融合至原有的多阶段篡改特征中,促使网络更加有效地建模篡改区域的整体结构,并给出精确的定位预测结果。
本发明在篡改特征提取阶段,采用金字塔视觉Transformer作为篡改特征编码器,提高了方法的全局上下文建模能力和篡改特征表征能力。通过全局自注意力机制的计算,有效地对图像的浅层特征进行全局上下文建模,尤其是对边界、纹理和轮廓等信息进行了充分考虑,从而显著提高了本发明的精度。
本发明提出了多尺度篡改特征增强模块与跨层特征交互传播模块,提高了方法的多尺度篡改特征提取能力。多尺度篡改特征增强模块的并联设计,结合不同内核形状与感受野的卷积层,丰富了篡改特征的多样性,从而显著提升了图像篡改定位模型对不同大小篡改区域的准确检测能力,跨层特征交互传播模块有效利用了不同层次间的特征表示,从而获得了高质量多尺度篡改特征表示,提高了图像篡改定位模型对于不同尺寸篡改区域的定位精度。
本发明提出了一种篡改边界信息引导策略,提高了方法对于篡改区域边界的建模能力,避免引入与篡改区域无关的边界噪声的问题。通过利用含有篡改区域全局位置信息的最高层特征,引导最底层特征提取与篡改区域相关的边界信息,从而有效地提升了篡改区域定位结果的准确性和完整性。
附图说明
图1为本发明所述图像篡改定位模型的架构图。
图2为一个视觉Transformer特征编码阶段示意图。
图3为多尺度篡改特征增强模块的示意图。
图4为跨层特征交互模块结构示意图。
图5为跨层特征传播模块结构示意图。
图6为本发明所述图像篡改定位模型的流程图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
实施例1:
一种融合多层级多尺度与边界信息的图像篡改定位方法,通过图像篡改定位模型实现,包括下述步骤:
1)使用金字塔视觉Transformer骨干网络的篡改特征编码模块,得到四个层级的篡改特征fi,其中,i={1,2,3,4},数字越大,层级越高;
2)通过多尺度篡改特征增强模块对从篡改特征编码模块得到的篡改特征的多尺度信息进行强化,得到多尺度篡改特征fi′;
3)篡改边界信息模块的边界信息提取模块利用高层特征融合篡改区域的全局位置信息,以有针对性地建模篡改区域的边界信息;以及篡改边界信息模块的边界信息引导模块将从边界信息提取模块得到的与篡改区域边界相关的特征注入到从多尺度篡改特征增强模块得到的多尺度篡改特征fi′;
4)跨层特征交互传播模块的跨层特征交互模块接收经过篡改边界信息引导后的、不同层级的特征作为输入,输出融合后的跨层特征,旨在充分建模不同层级不同分辨率的特征间的相关性;以及跨层特征交互传播模块的跨层特征传播模块将篡改特征图自顶向下、逐层上采样至模型输入的分辨率,并给出最终的预测结果,跨层特征传播模块接收两个层级的特征图作为输入,输出为上采样后的融合特征图。
其中,图像篡改定位模型包括使用金字塔视觉Transformer骨干网络的篡改特征编码模块;用于对从篡改特征编码模块得到的篡改特征的多尺度信息进行强化,得到多尺度篡改特征f'i的多尺度篡改特征增强模块;采用边界信息提取模块和边界信息引导模块所构成的篡改边界信息模块,其中,边界信息提取模块利用高层特征融合篡改区域的全局位置信息,以有针对性地建模篡改区域的边界信息,边界信息引导模块将从边界信息提取模块得到的与篡改区域边界相关的特征注入到从多尺度篡改特征增强模块得到的篡改特征;采用跨层特征交互模块和跨层特征传播模块构成的跨层特征交互传播模块。
实施例2:
本实施例是在上述实施例的基础上进一步优化,与前述技术方案相同之处在此不再赘述,进一步为更好地实现本发明所述的一种融合多层级多尺度与边界信息的图像篡改定位方法,特别采用下述设置方式:所述步骤1)中每个层级的篡改特征fi均通过下述步骤得到:
1.1)局部相关性建模:通过利用由卷积层组成的重叠批次划分模块,对输入三维特征图的局部相关性进行建模;
1.2)二维特征重塑:将三维特征图重新塑造为二维特征;
1.3)对步骤1.2)得到的二维特征进行层归一化处理;
1.4)对步骤1.3)得到的二维特征进行线性空间缩减,并进行多头自注意力计算;
1.5)对步骤1.4)得到的二维特征再次进行层归一化处理;
1.6)对步骤1.5)得到的二维特征进行深度可分离卷积计算;
1.7)迭代处理:重复步骤1.3)至1.6)多次,以进一步提取特征信息;
1.8)特征重塑:对步骤1.7)所得进行变形(二维特征),重新塑造为三维特征,即得到篡改特征fi,其中,i={1,2,3,4},数字越大,层级越高,以便进行后续处理。
实施例3:
本实施例是在上述任一实施例的基础上进一步优化,与前述技术方案相同之处在此不再赘述,进一步为更好地实现本发明所述的一种融合多层级多尺度与边界信息的图像篡改定位方法,特别采用下述设置方式:所述步骤2)包括下述具体步骤:
2.1)将从篡改特征编码模块获得的篡改特征fi输入多尺度篡改特征增强模块的普通卷积块中,通过两个大小为3x3的卷积核,在篡改特征fi上以步幅为1进行滑动,同时应用填充值为1的操作,将其与篡改特征fi做卷积操作;其中,普通卷积块由两个卷积核尺寸为3x3的卷积层构成;
2.2)将从篡改特征编码模块获得的篡改特征fi输入多尺度篡改特征增强模块的空洞卷积块中,通过两个膨胀卷积核,做膨胀卷积操作;其中,空洞卷积块的卷积核尺寸大小均为3x3、扩张率分别为2和3;
2.3)将从篡改特征编码模块获得的篡改特征fi输入多尺度篡改特征增强模块的可变形卷积块中,通过一个可变形卷积核,做可变形卷积运算;其中,可变形卷积核的尺寸大小为3x3,并含有9个采样点,分组数为4;
2.4)将步骤2.1)、步骤2.2)和步骤2.3)得到的输出特征,在多尺度篡改特征增强模块的通道维度上进行拼接,并通过一个3x3的卷积层进行特征降维,得到多尺度篡改特征fi′。
实施例4:
本实施例是在上述任一实施例的基础上进一步优化,与前述技术方案相同之处在此不再赘述,进一步为更好地实现本发明所述的一种融合多层级多尺度与边界信息的图像篡改定位方法,特别采用下述设置方式:所述篡改边界信息模块的边界信息提取模块利用高层特征融合篡改区域的全局位置信息,以有针对性地建模篡改区域的边界信息,包括下述具体步骤:
3.1.1)所述边界信息提取模块对于从篡改特征编码模块得到的最低层篡改特征f1和最高层篡改特征f4,分别经过一个1x1大小的卷积层,以调整最低层篡改特征f1和最高层篡改特征f4的通道数至相同;
3.1.2)通过两个3x3卷积层和矩阵乘法的计算,将最高层篡改特征f4和最底层篡改特征f1进行融合,以抑制与篡改区域无关的边界噪声;
3.1.3)通过两个3x3卷积层,并采用残差连接的结构,进一步融合最底层篡改特征f1和最高层篡改特征f4,从而获得篡改区域边界信息的篡改边界特征fb;
3.1.4)如果处于模型的训练阶段,由步骤3.1.3)得到的篡改区域边界信息的篡改边界特征fb经过上采样和sigmoid激活函数等处理,得到篡改区域边界的预测结果,并计算Dice损失。
所述篡改边界信息模块的边界信息引导模块将从边界信息提取模块得到的与篡改区域边界相关的特征注入到从多尺度篡改特征增强模块得到的多尺度篡改特征fi′,包括下述具体步骤:
3.2.1)将从边界信息提取模块得到的篡改边界特征fb降采样至与待注入的多尺度篡改特征fi′一致;
3.2.2)计算篡改边界特征fb和多尺度篡改特征fi′的哈达玛乘积;
3.2.3)通过含逐元素加法和3x3卷积残差连接的结构,将边界信息引导模块的输入和步骤3.2.2)的计算结果融合;
3.2.4)将步骤3.2.3)得到的融合特征经过全局平均池化、一维卷积和sigmoid激活函数组成的通道注意力计算层;
3.2.5)通过将步骤3.2.3)得到的融合特征与步骤3.2.4)得到的通道权重计算向量相乘;
3.2.6)将加权后的特征通过一个1x1的卷积层,调整通道数。
实施例5:
本实施例是在上述任一实施例的基础上进一步优化,与前述技术方案相同之处在此不再赘述,进一步为更好地实现本发明所述的一种融合多层级多尺度与边界信息的图像篡改定位方法,特别采用下述设置方式:所述跨层特征交互传播模块的跨层特征交互模块接收经过篡改边界信息引导后的、不同层级的特征作为输入,输出融合后的跨层特征,具体包括下述步骤:
4.1.1)如果当前层级存在上级特征,将上级特征图上采样至分辨率和当前层级相同;如果当前层级存在下级特征,将下级特征图下采样至分辨率和当前层级相同;
4.1.2)经步骤4.1.1)后,将相邻层级的特征图拼接;
4.1.3)将拼接后的特征图通过一个含有批归一化和标准化的3*3卷积层。
进一步为更好地实现本发明所述的一种融合多层级多尺度与边界信息的图像篡改定位方法,特别采用下述设置方式:所述跨层特征交互传播模块的跨层特征传播模块将篡改特征图自顶向下、逐层上采样至模型输入的分辨率,并给出最终的预测结果,具体包括下述步骤:
4.2.1)利用上采样和3x3卷积,对齐两个特征图,然后将它们级联;
4.2.2)将级联后的特征图通过两个内核尺寸为1x1、输出通道为1的卷积层,映射到一维的空间门;
4.2.3)对步骤4.2.2)得到的空间门使用softmax函数,得到两个输入特征图的权重;
4.2.4)将两个输入特征图按照其相应的权重进行加权乘法,得到最终的细化特征;
4.2.5)如果目前处于模型训练阶段,每个细化特征图会先经过sigmoid激活函数处理,各自得到一个预测结果{P1,P2,P3,P4},接着,将所有细化特征图级联,并再次通过sigmoid激活函数处理,得到另一个预测结果Pfuse,最终,针对所有的预测结果进行BCE和Dice损失的计算;如果目前处于推断阶段,前述级联后得到的预测结果Pfuse将作为模型的推断结果。
实施例6:
本实施例是在上述任一实施例的基础上进一步优化,与前述技术方案相同之处在此不再赘述,进一步为更好地实现本发明所述的一种融合多层级多尺度与边界信息的图像篡改定位方法,特别采用下述设置方式:在所述步骤1)之前还包括对对输入的原始图像进行预处理步骤:
S1:利用opencv读取原始图像并调整图像尺寸,得到调整后的RGB原始图;
S2:如果在模型的训练阶段,针对RGB原始图像,执行随机裁剪、缩放、翻转、平移和旋转等之类的变换操作,并相应地调整篡改定位标签图以适应变换,得到增强的RGB原始图;
S3:利用torchvision将步骤S2得到的增强的RGB原始图转化为原始图张量表示;
S4:将原始图张量表示进行规范化。
实施例7:
一种融合多层级多尺度与边界信息的图像篡改定位方法,基于图像篡改定位模型实现,如图1所示,该模型包含篡改特征编码模块、多尺度篡改特征增强模块、跨层特征交互传播模块和篡改边界信息模块,篡改特征编码模块使用金字塔视觉Transformer骨干网络,为模型提供了优秀的全局上下文建模能力。多尺度篡改特征增强模块使得模型能更好的适应变化大小的篡改区域。跨层特征交互传播模块使得模型能够得到高质量的多分辨率和多层级的多尺度篡改特征表示。篡改边界信息模块指导模型获得更加准确和完整的篡改区域特征表示。
该图像篡改定位方法包括下述四个阶段:
第一阶段为篡改特征编码阶段,通过篡改特征编码模块完成,篡改特征编码模块引入了金字塔视觉Transformer作为篡改特征编码器,得到四个层级的篡改特征,以便后续模块的进一步使用和处理,其具体实施方法如下描述:
S1:对输入的原始图像进行预处理,具体操作如下:
1-1:利用opencv读取原始图像并调整图像尺寸,得到调整后的RGB原始图;
1-2如果在模型的训练阶段,针对RGB原始图像,执行随机裁剪、缩放、翻转、平移和旋转等之类的变换操作,并相应地调整篡改定位标签图以适应变换,得到增强的RGB原始图。
1-3:利用torchvision将步骤1-2得到的RGB原始图转化为原始图张量表示。
1-4:将原始图张量表示进行规范化。
S2:将规范化后的原始图张量表示输入采用金字塔视觉Transformer骨干网络的篡改特征编码模块提取特征,得到四个层级的篡改特征中间量{f1,f2,f3,f4}。
金字塔视觉Transformer是一种基于全局自注意力计算的计算机视觉骨干网络,有多种结构,每种结构的编码块的个数不同,但所有结构都由四个子阶段构成,在本实施例中,每个子阶段包含[3,4,6,3]个基本的视觉Transformer编码块。
每个子阶段的具体步骤如下:
2-1:局部相关性建模:通过利用由卷积层组成的重叠批次划分模块,对输入三维特征图的局部相关性进行建模;
2-2:二维特征重塑:将三维特征图重新塑造为二维特征;
2-3:对步骤2-2得到的二维特征进行层归一化处理;
2-4:对步骤2-3得到的二维特征进行线性空间缩减,并进行多头自注意力计算,计算公式如下:
其中,Concat(•)表示连接操作,和/>是线性投影的参数。ni是阶段i的自注意力头数,dhead是每个头的维度。SR(•)表示降低输入序列的空间维度,计算公式如下:
SR(x)=Norm(Reshape(x,ri)Ws) (3);
其中表示输入序列,ri表示阶段i的空间降维的比例,Reshape(·)将输入序列x重塑为具有/>大小的序列,Norm(·)表示层归一化。Attention(·)表示自注意力计算,公式如下:
2-5:对步骤2-4得到的二维特征再次进行层归一化处理;
2-6:对步骤2-5得到的二维特征进行深度可分离卷积计算;
2-7:迭代处理:重复步骤2-3至2-6多次,以进一步提取特征信息;
2-8:特征重塑:将步骤2-7所得进行变形(二维特征),重新塑造为三维特征,即得到篡改特征fi,其中,i={1,2,3,4},数字越大,层级越高,以便进行后续处理。
第二阶段为多尺度篡改特征增强阶段,通过多尺度篡改特征增强模块完成,多尺度篡改特征增强模块接收篡改特征编码模块得到的篡改特征中间量作为输入,输出多尺度增强的篡改特征中间量,具体实施方法如下描述:
S1:将从篡改特征编码模块获得的篡改特征fi输入多尺度篡改特征增强模块的普通卷积块中,通过大小为3x3的卷积核,在篡改特征fi上以步幅为1进行滑动,同时应用填充值为1的操作,将其与篡改特征fi做卷积操作;
S2:将从篡改特征编码模块获得的篡改特征fi输入多尺度篡改特征增强模块的空洞卷积块中,通过两个尺寸大小均为3x3、膨胀率分别为2和3的空洞卷积核进行空洞(膨胀)卷积运算;其中,空洞卷积块由两个卷积核尺寸为3x3,膨胀率分别为2和3的空洞卷积层构成;
S3:将从篡改特征编码模块获得的篡改特征fi输入多尺度篡改特征增强模块的可变形卷积块中,进行可变形卷积运算;其中,可变形卷积块由含有9个采样点和4个分组的可变形卷积核构成;
其计算公式如下:
其中,K表示采样点的个数,G表示分组卷积实现中组的个数,wg表示第g组内的投影权重,mgk表示第g组第k个采样点的调制因子,pk表示对应采样点的相对位置;
S4:将步骤S1、S2和S3得到的输出特征,在多尺度篡改特征增强模块的通道维度上进行拼接,并通过一个3x3的卷积层进行特征降维,得到多尺度篡改特征fi′。
第三阶段为篡改边界信息阶段,通过篡改边界信息模块完成,篡改边界信息模块由边界信息提取模块和边界信息引导模块两个子模块组成。
边界信息提取模块接收篡改特征编码模块得到的多层级篡改特征中间量的最高层篡改特征f4和最低层篡改特征f1作为输入,输出篡改边界特征fb。该模块的具体实施方法如下描述:
S1:利用一个1x1大小的卷积层,对从篡改特征编码模块得到的最低层篡改特征f1和最高层篡改特征f4进行处理,以调整最低层篡改特征f1和最高层篡改特征f4的通道数至相同。
S2:利用两个3x3卷积层和矩阵乘法的计算,将最高层篡改特征f4和最底层篡改特征f1进行融合,从而抑制与篡改区域无关的边界噪声。计算公式如下:
其中,b1、b4表示通道数降维后的特征,表示逐元素乘法,Conv3×3(·)表示带有批归一化和激活函数的3×3卷积层,bfuse表示融合后的边界信息特征图;
S3:利用两个3x3卷积层和采用残差连接的结构,进一步融合最底层特征f1和最高层特征f4,得到篡改区域边界信息的篡改边界特征fb。计算公式如下:
fb=Conv1×1(Concat(b′1,b′4)) (9);
其中,b′i表示采用残差连接后的加权特征,表示逐元素加法;
S4:如果处于模型的训练阶段,由步骤S3得到的篡改区域边界信息的篡改边界特征fb经过上采样和sigmoid激活函数等处理,得到篡改区域边界的预测结果,并计算Dice损失函数。
边界信息引导模块接收两个输入:来自边界信息提取模块的篡改区域边界信息特征以及多尺度篡改特征增强模块生成的多尺度增强的篡改特征中间量,输出边界信息引导的篡改特征中间量。以下是该模块的详细实施方法描述:
S1:将从边界信息提取模块得到的篡改边界特征fb降采样至与待注入的多尺度篡改特征fi′一致;
S2:计算篡改边界特征fb和多尺度篡改特征fi′的哈达玛乘积;
S3:通过含逐元素加法和3x3卷积残差连接的结构,将边界信息引导模块的输入和S2的计算结果融合;
S4:将S3得到的融合特征经过全局平均池化、一维卷积和sigmoid激活函数组成的通道注意力计算层;
S5:通过将S3得到的融合特征与S4得到的通道权重计算向量相乘;
S6:将加权后的特征通过一个1x1的卷积层,调整通道数。
S4-S6的计算步骤可以用如下公式表示:
其中,GAP表示全局平均池化,Conv1D(·)表示一维卷积,σ(·)表示sigmoid激活函数,表示通过篡改边界信息模块最终得到的融合特征。
第四阶段为跨层特征交互传播阶段,通过跨层特征交互传播模块完成,跨层特征交互传播模块由跨层特征交互模块和跨层特征传播模块两个模块组成。
跨层特征交互模块接收来自边界信息引导模块、不同层级的边界信息引导的篡改特征中间量作为输入,输出多层级篡改特征中间量。该模块的计算包含以下步骤:
S1:利用torch进行特征图分辨率变换,若当前层级存在上级特征,则进行上采样以使其分辨率与当前层级相匹配;若当前层级存在下级特征,则进行下采样以使其分辨率与当前层级相匹配;
S2:经S1后,将相邻层级的特征图拼接;
S3:利用含有批归一化和标准化的3*3卷积层,对拼接后的特征图进行跨层级融合。
跨层特征传播模块接收跨层特征交互传播模块获取的多层级篡改特征作为输入。它利用带有批归一化和规范化的卷积层以及torch中的上采样方法,来产生多层级的篡改区域预测结果。该模块的实施包含以下步骤:
S1:利用上采样和3x3卷积,对齐两个特征图,然后将它们级联;
S2:将级联后的特征图通过两个内核尺寸为1x1、输出通道为1的卷积层,映射到一维的空间门;
S3:对S2得到的空间门使用softmax函数,得到两个输入特征图的权重;
S4:将两个输入特征图按照其相应的权重进行加权乘法,得到最终的细化特征。
S5:如果目前处于模型训练阶段,每个细化特征图会先经过sigmoid激活函数处理,各自得到一个预测结果{P1,P2,P3,P4},接着,将所有细化特征图级联,并再次通过sigmoid激活函数处理,得到另一个预测结果Pfuse,最终,针对所有的预测结果进行BCE和Dice损失的计算;如果目前处于推断阶段,前述级联后得到的预测结果Pfuse将作为模型的推断结果。
本发明的方法模型在训练时,利用预测得到的预测结果图与对应的篡改区域真值图进行计算损失,并通过反向传播进行优化。篡改区域真值图是指原始图像的篡改版本的标注图,其中将篡改图像的非篡改区域标记为黑色,篡改区域标记为白色。然而,由于在一般情况下,篡改区域所占比例较小,导致数据分布极不平衡,因此常用的交叉熵损失函数等效果并不理想。
为解决这一问题,本方法采用了联合使用Dice损失函数和BCE损失函数来计算上述损失。此外,本方法将篡改区域边界作为辅助任务,同样计算了边界预测结果的Dice损失函数,具体计算方式可参见如下公式:
其中y为输入样本的标签,yp为模型预测的结果,N为一张图中像素点的数量。
训练时的模型参数说明:模型输入图像的尺寸为384×384.模型使用AdamW优化器,并采用余弦退火算法动态调整模型学习率。学习率首先通过热身阶段上升到2×10-2,随后逐步衰减到10-6。训练的迭代周期设置为50,一个批次的图片数量为8。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。
Claims (9)
1.一种融合多层级多尺度与边界信息的图像篡改定位方法,其特征在于:包括下述步骤:
1)使用金字塔视觉Transformer骨干网络的篡改特征编码模块,得到四个层级的篡改特征fi,其中,i={1,2,3,4};。
2)通过多尺度篡改特征增强模块对从篡改特征编码模块得到的篡改特征的多尺度信息进行强化,得到多尺度篡改特征f′i;
3)篡改边界信息模块的边界信息提取模块利用高层特征融合篡改区域的全局位置信息,以有针对性地建模篡改区域的边界信息;以及篡改边界信息模块的边界信息引导模块将从边界信息提取模块得到的与篡改区域边界相关的特征注入到从多尺度篡改特征增强模块得到的多尺度篡改特征fi′;
4)跨层特征交互传播模块的跨层特征交互模块接收经过篡改边界信息引导后的、不同层级的特征作为输入,输出融合后的跨层特征;以及跨层特征交互传播模块的跨层特征传播模块将篡改特征图自顶向下、逐层上采样至模型输入的分辨率,并给出最终的预测结果。
2.根据权利要求1所述的一种融合多层级多尺度与边界信息的图像篡改定位方法,其特征在于:所述步骤1)中每个层级的篡改特征fi均通过下述步骤得到:
1.1)局部相关性建模:通过利用由卷积层组成的重叠批次划分模块,对输入三维特征图的局部相关性进行建模;
1.2)二维特征重塑:将三维特征图重新塑造为二维特征;
1.3)对步骤1.2)得到的二维特征进行层归一化处理;
1.4)对步骤1.3)得到的二维特征进行线性空间缩减,并进行多头自注意力计算;
1.5)对步骤1.4)得到的二维特征再次进行层归一化处理;
1.6)对步骤1.5)得到的二维特征进行深度可分离卷积计算;
1.7)迭代处理:重复步骤1.3)至步骤1.6)多次,以进一步提取特征信息;
1.8)特征重塑:对步骤1.7)所得进行变形,重新塑造为三维特征,即得到篡改特征fi,以便进行后续处理。
3.根据权利要求1所述的一种融合多层级多尺度与边界信息的图像篡改定位方法,其特征在于:所述步骤2)包括下述具体步骤:
2.1)将从篡改特征编码模块获得的篡改特征fi输入多尺度篡改特征增强模块的普通卷积块中,通过两个大小为3x3的卷积核,在篡改特征fi上以步幅为1进行滑动,同时应用填充值为1的操作,将其与篡改特征fi做卷积操作;
2.2)将从篡改特征编码模块获得的篡改特征fi输入多尺度篡改特征增强模块的空洞卷积块中,通过两个大小为3x3、扩张率分别为2和3的膨胀卷积核,做膨胀卷积操作;
2.3)将从篡改特征编码模块获得的篡改特征fi输入多尺度篡改特征增强模块的可变形卷积块中,通过一个大小为3x3、分组数为4的可变形卷积核,做可变形卷积运算;
2.4)将步骤2.1)、步骤2.2)和步骤2.3)得到的输出特征,在多尺度篡改特征增强模块的通道维度上进行拼接,并通过一个3x3的卷积层进行特征降维,得到多尺度篡改特征fi′。
4.根据权利要求3所述的一种融合多层级多尺度与边界信息的图像篡改定位方法,其特征在于:所述普通卷积块由两个卷积核尺寸为3x3的卷积层构成;所述空洞卷积块由两个卷积核尺寸为3x3,膨胀率分别为2和3的空洞卷积层构成;所述可变形卷积块由含有9个采样点的可变形卷积层构成。
5.根据权利要求1所述的一种融合多层级多尺度与边界信息的图像篡改定位方法,其特征在于:所述篡改边界信息模块的边界信息提取模块利用高层特征融合篡改区域的全局位置信息,以有针对性地建模篡改区域的边界信息,包括下述具体步骤:
3.1.1)所述边界信息提取模块对于从篡改特征编码模块得到的最低层篡改特征f1和最高层篡改特征f4,分别经过一个1x1大小的卷积层,以调整最低层篡改特征f1和最高层篡改特征f4的通道数至相同;
3.1.2)通过两个3x3卷积层和矩阵乘法的计算,将最高层篡改特征f4和最底层篡改特征f1进行融合;
3.1.3)通过两个3x3卷积层,并采用残差连接的结构,进一步融合最底层篡改特征f1和最高层篡改特征f4,从而获得篡改区域边界信息的篡改边界特征fb;
3.1.4)如果处于模型的训练阶段,由步骤3.1.3)得到的篡改区域边界信息的篡改边界特征fb经过上采样和sigmoid激活函数处理,得到篡改区域边界的预测结果,并计算Dice损失。
6.根据权利要求5所述的一种融合多层级多尺度与边界信息的图像篡改定位方法,其特征在于:所述篡改边界信息模块的边界信息引导模块将从边界信息提取模块得到的与篡改区域边界相关的特征注入到从多尺度篡改特征增强模块得到的多尺度篡改特征fi′,包括下述具体步骤:
3.2.1)将从边界信息提取模块得到的篡改边界特征fb降采样至与待注入的多尺度篡改特征fi′一致;
3.2.2)计算篡改边界特征fb和多尺度篡改特征fi′的哈达玛乘积;
3.2.3)通过含逐元素加法和3x3卷积残差连接的结构,将边界信息引导模块的输入和步骤3.2.2)的计算结果融合;
3.2.4)将步骤3.2.3)得到的融合特征经过全局平均池化、一维卷积和sigmoid激活函数组成的通道注意力计算层;
3.2.5)通过将步骤3.2.3)得到的融合特征与步骤3.2.4)得到的通道权重计算向量相乘;
3.2.6)将加权后的特征通过一个1x1的卷积层,调整通道数。
7.根据权利要求1所述的一种融合多层级多尺度与边界信息的图像篡改定位方法,其特征在于:所述跨层特征交互传播模块的跨层特征交互模块接收经过篡改边界信息引导后的、不同层级的特征作为输入,输出融合后的跨层特征,具体包括下述步骤:
4.1.1)如果当前层级存在上级特征,将上级特征图上采样至分辨率和当前层级相同;如果当前层级存在下级特征,将下级特征图下采样至分辨率和当前层级相同;
4.1.2)经步骤4.1.1)后,将相邻层级的特征图拼接;
4.1.3)将拼接后的特征图通过一个含有批归一化和标准化的3*3卷积层。
8.根据权利要求1所述的一种融合多层级多尺度与边界信息的图像篡改定位方法,其特征在于:所述跨层特征交互传播模块的跨层特征传播模块将篡改特征图自顶向下、逐层上采样至模型输入的分辨率,并给出最终的预测结果,具体包括下述步骤:
4.2.1)利用上采样和3x3卷积,对齐两个特征图,然后将它们级联;
4.2.2)将级联后的特征图通过两个内核尺寸为1x1、输出通道为1的卷积层,映射到一维的空间门;
4.2.3)对步骤4.2.2)得到的空间门使用softmax函数,得到两个输入特征图的权重;
4.2.4)将两个输入特征图按照其相应的权重进行加权乘法,得到最终的细化特征;
4.2.5)如果目前处于模型训练阶段,每个细化特征图会先经过sigmoid激活函数处理,各自得到一个预测结果{P1,P2,P3,P4},接着,将所有细化特征图级联,并再次通过sigmoid激活函数处理,得到另一个预测结果Pfuse,最终,针对所有的预测结果进行BCE和Dice损失的计算;如果目前处于推断阶段,级联后得到的预测结果Pfuse将作为模型的推断结果。
9.根据权利要求1所述的一种融合多层级多尺度与边界信息的图像篡改定位方法,其特征在于:在所述步骤1)之前还包括对对输入的原始图像进行预处理步骤:
S1:利用opencv读取原始图像并调整图像尺寸,得到调整后的RGB原始图;
S2:如果在模型的训练阶段,针对RGB原始图像,执行随机裁剪、缩放、翻转、平移和旋转之类的变换操作,并相应地调整篡改定位标签图以适应变换,得到增强的RGB原始图;
S3:利用torchvision将步骤S2得到的增强的RGB原始图转化为原始图张量表示;
S4:将原始图张量表示进行规范化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311679406.2A CN117893858A (zh) | 2023-12-08 | 2023-12-08 | 一种融合多层级多尺度与边界信息的图像篡改定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311679406.2A CN117893858A (zh) | 2023-12-08 | 2023-12-08 | 一种融合多层级多尺度与边界信息的图像篡改定位方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117893858A true CN117893858A (zh) | 2024-04-16 |
Family
ID=90645574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311679406.2A Pending CN117893858A (zh) | 2023-12-08 | 2023-12-08 | 一种融合多层级多尺度与边界信息的图像篡改定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117893858A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118115729A (zh) * | 2024-04-26 | 2024-05-31 | 齐鲁工业大学(山东省科学院) | 多层次多尺度特征交互的图像伪造区域识别方法及*** |
-
2023
- 2023-12-08 CN CN202311679406.2A patent/CN117893858A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118115729A (zh) * | 2024-04-26 | 2024-05-31 | 齐鲁工业大学(山东省科学院) | 多层次多尺度特征交互的图像伪造区域识别方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Detection and localization of image forgeries using improved mask regional convolutional neural network | |
CN110929736A (zh) | 多特征级联rgb-d显著性目标检测方法 | |
Zhang et al. | Feature pyramid network for diffusion-based image inpainting detection | |
CN116309648A (zh) | 一种基于多注意力融合的医学图像分割模型构建方法 | |
CN117893858A (zh) | 一种融合多层级多尺度与边界信息的图像篡改定位方法 | |
Li et al. | Deep recursive up-down sampling networks for single image super-resolution | |
CN116596846A (zh) | 图像分割方法、图像分割模型构建方法、装置及介质 | |
CN116228702A (zh) | 一种基于注意力机制和卷积神经网络的伪装目标检测方法 | |
CN113822951A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
Shan et al. | SCA-Net: A spatial and channel attention network for medical image segmentation | |
CN117197763A (zh) | 基于交叉注意引导特征对齐网络的道路裂缝检测方法和*** | |
Huang et al. | Attention-guided label refinement network for semantic segmentation of very high resolution aerial orthoimages | |
CN118134952B (zh) | 一种基于特征交互的医学图像分割方法 | |
CN112149526A (zh) | 一种基于长距离信息融合的车道线检测方法及*** | |
CN113553973A (zh) | 一种基于双向注意力的伪装物体检测方法 | |
Guo et al. | Salient object detection from low contrast images based on local contrast enhancing and non-local feature learning | |
Zuo et al. | A remote sensing image semantic segmentation method by combining deformable convolution with conditional random fields | |
Guan et al. | RoadCapsFPN: Capsule feature pyramid network for road extraction from VHR optical remote sensing imagery | |
Guan et al. | NCDCN: multi-focus image fusion via nest connection and dilated convolution network | |
CN114677349A (zh) | 编解码端边缘信息增强和注意引导的图像分割方法及*** | |
CN116935051B (zh) | 一种息肉分割网络方法、***、电子设备及存储介质 | |
CN117292117A (zh) | 一种基于注意力机制的小目标检测方法 | |
CN116229104A (zh) | 一种基于边缘特征引导的显著性目标检测方法 | |
Chen et al. | SRCBTFusion-Net: An Efficient Fusion Architecture via Stacked Residual Convolution Blocks and Transformer for Remote Sensing Image Semantic Segmentation | |
CN115619678A (zh) | 一种图像变形的矫正方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |