CN116452472A - 基于语义知识引导的低照度图像增强方法 - Google Patents
基于语义知识引导的低照度图像增强方法 Download PDFInfo
- Publication number
- CN116452472A CN116452472A CN202310277679.8A CN202310277679A CN116452472A CN 116452472 A CN116452472 A CN 116452472A CN 202310277679 A CN202310277679 A CN 202310277679A CN 116452472 A CN116452472 A CN 116452472A
- Authority
- CN
- China
- Prior art keywords
- image
- semantic
- loss
- image enhancement
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000005286 illumination Methods 0.000 title claims abstract description 29
- 230000011218 segmentation Effects 0.000 claims description 57
- 238000012545 processing Methods 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000000638 solvent extraction Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000001174 ascending effect Effects 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000005457 optimization Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008485 antagonism Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/40—Image enhancement or restoration using histogram techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于语义知识引导的低照度图像增强方法,属于低照度图像增强技术领域。本发明通过语义信息的引入,本发明的语义知识引导的低照度图像增强方法可以关注到之前方法忽略的问题。并且本发明可以应用在任意的编码器‑解码器结构的图像增强网络上,使这些本不具有语义相关信息的模型学习到更多的知识。即本发明通过语义引导嵌入模块,并结合语义引导色彩直方图损失和语义引导对抗损失,本发明可以从多个不同的角度关注到语义相关的知识。本发明提升了低照度图像增强网络的能力,得到更真实、自然的增强结果。
Description
技术领域
本发明属于低照度图像增强技术领域,具体涉及一种基于语义知识引导的低照度图像增强方法。
背景技术
由于不可避免的环境和/或技术限制,如照明不足和曝光时间有限,图像往往是在次优的照明条件下拍摄的,受到背光、非均匀光照和弱光的干扰。这类图像的美学质量会受到影响,而且对于高层的任务,如物体跟踪、识别和检测,信息的传输也不尽人意。低照度(图像亮度低于或等于指定值)增强在不同领域享有广泛的应用,包括视觉监控、自动驾驶和计算摄影。特别是,智能手机摄影已经变得普遍且流行。受限于手机相机光圈的大小、实时处理的需求以及内存的限制,在昏暗的环境中用智能手机的相机拍照尤其具有挑战性。在这种应用中,增强低照度图像和视频是一个值得探索的研究领域。传统的低照度图像增强方法包括基于直方图均衡化和基于Retinex模型的方法,但是这些方法传统模型不能很好地适应多变的环境,运行时间普遍较长,并且很难获得最优的参数。近年来,结合深度学习技术的进步,基于深度学习的低照度图像增强取得了令人瞩目的成功。
目前基于深度学习的低照度图像增强方法主要分为两类,端到端的方法和基于Retinex的方法。从最经典的LLNet被提出后,受此启发,研究者们陆续提出了各种各样的端到端方法,包括端到端参数滤波器估计网络、递归神经网络、多重曝光融合网络、深度堆积拉普拉斯增强网络和基于小波变换的增强网络。与在端到端网络中直接学习到的增强效果相比,Retinex理论由于其物理上的可解释性,基于Retinex理论的深度低照度图像增强方法一般来说可以获得更好的效果。第一个基于Retinex的方法被称为Retinex-Net,其通过网络将低照度图像分解为光照成分和反射成分,增强光照成分后再融合成为正常光图像。之后研究者基于Retinex-Net提出了KinD,增加了对反射成分的增强和去噪操作,提高了增强效果。除此之外,还有KinD++、基于Retinex和神经结构搜索的增强网络、基于Retinex的深度展开增强网络和基于正则化流的增强网络。值得注意的是,这些方法都倾向于增强低照度图像而不考虑其不同区域的语义信息,当低照度图像中存在原本就是黑色的物体时,比如人的黑发和黑色的车辆,这些增强方法通常都会将这些部分增强为灰色,导致色彩的偏差。为了解决这个问题,需要使增强网络学习到语义相关的信息,有研究者提出了一些初步的方案,包括将语义分割网络的预测结果融合到基于Retinex的网络中,以及用语义分割网络的损失函数约束图像增强网络的参数更新。这两种方法都通过精心设计的网络和训练方法,实现了语义信息和图像信息的结合,但是他们没有充分利用语义分割网络能够提供的信息,并且也没有考虑到语义信息和原本图像增强任务之间的差异。对前者来说,语义分割结果与图像增强中间特征的差异比较大,在融合时难免会损坏原本的图像信息;对后者来说,两个不同的任务之间直接通过损失来互相约束,会影响图像增强网络参数原本的优化过程,从而影响最终的增强结果。综上所述,目前的方案都不能很好地将语义信息引入到图像增强任务中,并且语义信息和图像信息的交互式精心设计的,不仅泛化性有限,还导致生成的正常光图像存在不正常的色彩和细节,影响图像的视觉效果,也会影响后续的图像处理任务的效果。
发明内容
本发明提供了一种基于语义知识引导的低照度图像增强方法,可用于提升低照度图像的图像增强效果。
本发明采用的技术方案为:
基于语义知识引导的低照度图像增强方法,所述方法包括:
步骤1,构建图像增强处理网络模型;
所述图像增强处理网络模型包括两条支路,一条支路为语义分割网络,一条支路为图像增强网络,并在两条支路之间设置有N(N≥2)个语义嵌入模块;
所述语义分割网络依次包括:第一编码器、第一解码器和预测头,第一编码器用于对输入图像Il(低照度图像)进行特征提取,得到输入图像Il的第一初始特征图;
第一解码器用于对第一初始特征图进行多个尺度的解码,得到不同尺度的深层特征图,即语义分割特征Fi,且语义分割特征的尺度数量M大于N;
预测头对第一解码器输出的不同尺度的语义分割特征Fi进行像素级语义类别预测,输出输入图像Il的语义预测图Iseg(语义分割结果);
从M个尺度的深层特征图中选取连续尺度的N个尺度的语义分割特征分别作为每个语义嵌入模块的两个输入之一,并按照尺度升序的方向将N个语义嵌入模块依次定义为第1至第N个语义嵌入模块;
所述图像增强网络包括:第二编码器和第二解码器,其中,第二编码器用于对输入图像Il的低照度图像进行特征提取,得到输入图像Il的第二初始特征图;解码器包括N+1个卷积块,每个卷积块用于对其输入进行上采样,输出不同尺度的图像增强特征Fi,最后一个卷积块的输出即为输入图像Il的预测增强图像且第1个卷积块的输入为第二初始特征图,并将第1个卷积块的输出作为第1个语义嵌入模块的另一个输入,对任意第i(i=1,…,N)个语义嵌入模块,将第i个语义嵌入模块的输出作为第i+1个卷积块的输入;
步骤2,基于训练样本对图像增强处理网络模型的网络参数进行学习训练,当满足预置的训练结束条件时停止,得到训练好的图像增强处理网络模型;
训练图像增强处理网络模型时的损失函数设置为:
其中,表示预测增强图像/>与输入图像Il的标签图像Ih之间的重建损失,表示语义引导色彩直方图损失,即预测增强图像/>的直方图与标签图像Ih的直方图之间的L1范数损失,λSCH表示语义引导色彩直方图损失/>的权重,/>表示语义引导对抗损失,λSA表示语义引导对抗损失/>的权重;
步骤3,将与图像增强处理网络模型的输入相匹配的待增强图像输入训练好的图像增强络模型,基于图像增强网络的最后一个卷积块的输出得到待增强图像的增强结果。
进一步的,步骤2中,语义引导对抗损失为全局对抗损失/>与局部对抗损失/>之和,并通过在训练过程中引入判别器来获取全局对抗损失/>与局部对抗损失具体为:
基于语义分割网络输出的语义预测图Iseg,对预测增强图像进行分块,每个图像块对应一个语义类别,定义Pk表示任意的第k个图像块;
计算局部对抗损失
xf=Pt,D(Pt)=min{D(Pk)}
其中,G表示生成器,即图像增强处理网络模型,D表示生成器,D()表示生成器的输出,xr表示真实图像块,preal表示真实图像块的数据分布,xf表示虚假图像块,pfake表示虚假图像块的数据分布,表示关于真实图像块的数学期望;
将语义分割网络的预测头的输入记为特征图Is ′ eg,在通道维度对预测增强图像于特征图Is ′ eg进行拼接作为新的虚假图像块x′f,并算全局对抗损失/>
其中,表示关于新的虚假图像块的数学期望。
进一步的,语义分割网络为预训练好的网络,在对图像增强处理网络模型的网络参数进行学习训练中保持不变,即仅对图像增强网络和N个语义嵌入模块的网络参数进行学习更新。
进一步的,语义嵌入模块的网络结构具体为:
输入的语义分割特征Fs和图像增强特征Fi分别经归一化层和卷积层后,得到维度一致的语义特征图与图像增强特征图;分别对语义特征图与图像增强特征图在通道维度展平,再通过转置注意力机制计算两个展平后的特征图之间的注意力图,得到语义相关注意力图A;
通过语义相关注意力图A调整图像增强特征Fi,得到语义嵌入模块的输出特征Fo:
Fo=FN(Wv(Fi)×A+Fi),
其中,Wv表示value嵌入卷积层的权重,FN()表示前馈神经网络的输出。
进一步的,计算语义引导色彩直方图损失时,采用可导方式估计直方图,具体为:
基于语义分割网络输出的语义预测图Iseg,分别对预测增强图像和标签图像Ih进行分块,每个图像块对应一个语义类别;
分别估计预测增强图像和标签图像Ih的语义引导色彩直方图:
对各图像块的各个颜色通道分别进行类别边缘像素调整,得到每个图像块的每个像素的每个的像素灰度值的高、低锚点值;
对同一语义类别的同一颜色通道的同一像素灰度值,分别将高、低锚点值乘以预置的放缩因子后作为Sigmoid激活函数的输入,基于所有像素点的高、低锚点值在缩放因子下的Sigmoid激活函数值之差的累计值得到当前语义类别的当前像素灰度值的像素数量估计值,基于所有像素灰度值的像素数量估计值得到当前语义类别的当前颜色通道的估计直方图,基于所有颜色通道的估计直方图得到预测增强图像或标签图像Ih的语义引导色彩直方图。
本发明提供的技术方案至少带来如下有益效果:
通过语义信息的引入,本发明的语义知识引导的低照度图像增强方法可以关注到之前方法忽略的问题。并且本发明可以应用在任意的编码器-解码器结构的图像增强网络上,使这些本不具有语义相关信息的模型学习到更多的知识。即本发明通过语义引导嵌入模块,并结合语义引导色彩直方图损失和语义引导对抗损失,本发明可以从多个不同的角度关注到语义相关的知识。
本发明的语义引导嵌入模块在特征层面进行处理,将语义分割网络所提取的多尺度特征(语义分割特征)与原本的低照度图像增强网络解码器中的多尺度特征相对应,通过相似度计算将语义分割的深层编码信息引入到图像特征中,在特征表征空间做变换,进而实现对输出的优化;语义引导色彩直方图损失在输出层面进行处理,在获得语义分割预测结果后,将图像增强网络输出的最终的增强图像按类别分割开,并分别对不同的图像块估计色彩直方图并与真实标签图像的直方图进行比较,实现更准确的色彩约束,使网络学习到和语义类别相关的色彩信息,保证了增强结果的色彩一致性。语义引导对抗损失同样在输出层面进行处理,再次利用语义分割预测结果,将其和全局与局部对抗损失相结合,在局部对抗损失中,利用比较图像块通过判别器的输出,找到最“虚假”的图像块,使生成器(即图像增强网络)关注到“虚假”部分。除此之外,在全局对抗损失中,将分割结果和增强结果拼接后输入到判别器中,使判别器参考语义信息给出全局判别结果,和前述的局部对抗损失共同约束判别器和生成器,提高低照度图像增强网络的能力,得到更真实、自然的增强结果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的基于语义知识引导的低照度图像增强方法的处理过程示意图;
图2为本发明实施例采用的语义引导语义嵌入模块的网络结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例用于解决缺少语义信息的引导从而导致增强后的图像存在颜色偏差和异常细节的问题。本发明实施例的目的在于:确认有哪些语义信息可以被图像增强利用,这些语义信息如何对低照度图像增强任务产生积极影响。对于语义分割网络而言,网络内部有许多中间层输出的多尺度特征(语义分割特征),这些特征具有不同感受野以及不同的表征能力,可以在表征空间中对图像增强网络的中间层特征进行优化。其次,语义分割网络的预测结果也可以作为先验信息引导图像增强网络学习到语义相关的映射关系。
由于语义分割网络的中间层特征和图像增强网络的中间层特征存在一定的差异,如果直接采用拼接或者加乘操作,会导致特征的退化,反而影响图像增强的效果。因此本发明方法提出语义引导嵌入模块,通过建立跨模态交互信息,从而将语义特征合理地嵌入到图像增强特征中。其次,对于色彩的优化,本发明实施例通过色彩直方图的约束保留输出图像的色彩一致性,但是直方图作为全局统计特征,不能保证局部一致性,从而限制了其对于色彩的保留能力。因此,本发明提出语义引导的色彩直方图损失,通过借助语义分割结果,分割开各个区域,分别计算直方图并计算损失,在语义层级上约束输出的色彩特性。最后,目前的损失函数并没有很好的代表图像的视觉效果,并且不能捕捉到图像的内部结构,导致视觉上欠佳的结果,为了进一步提升输出图像的质量,有研究者通过全局和局部对抗训练提高图像的质量,但是局部图像块的随机选取并不能完全发挥局部对抗损失的能力。因此,本发明方法提出语义引导的对抗损失,通过语义分割结果得到对应不同类别的图像块,找出最虚假的图像块作为局部图像块进行参数更新,从而提高局部损失的能力,提高最终输出图像的质量。
作为一种可能的实现方式,本发明实施例提供的基于语义知识引导的低照度图像增强方法的具体实现过程包括:
首先输入低照度图像(Il)到图像增强网络和语义分割网络中,在经过多层特征交互后,输出图像增强和语义分割结果(Iseg),并在语义分割结果的引导下实现色彩直方图损失和对抗损失,约束图像增强网络的训练,如图1所示。
在本方法中,语义引导下的低照度图像增强问题可以被描述为如下的公式,
M=Fsegment(Il;θs),
其中,Fsegment为预训练好的语义分割网络,M为从语义分割网络中得到的语义先验信息,Il为输入的低照度图像,θs为语义分割网络的参数。该语义分割网络由于在大规模数据集上进行预训练,可以提供丰富多变的语义先验信息,在本实施例中被称为语义知识库。在获得了语义先验信息后,将其和低照度图像一起输入到图像增强网络中:
其中,Fenhance为低照度图像增强网络,θe为图像增强网络的参数,为输出的正常光图像,即预测增强图像。本实施例中,在训练过程中,只有图像增强网络的参数进行更新,语义分割网络是固定的,如下所示:
其中,Ih为对应与Il的正常光图像(即标签图像),作为标签约束图像增强网络的更新。
为了解决语义分割和图像增强之间的差异对特征融合的影响,本发明通过所构建的语义引导嵌入模块在语义分割网络和图像增强网络之间建立了合理的交互。本实施例中,选择HRNet(High-Resolution Net)作为语义知识库提供语义先验信息。在HRNet中,多尺度中间层特征、输出特征和预测结果作为语义信息被用在图像增强任务中。为了更好的说明,本实施例中的语义引导嵌入模块的数量被设置为三个,如图1所示。
图2给出了每个语义引导语义嵌入模块的网络结构示意图,该模块的输入为语义分割特征和图像增强特征,经过卷积、层归一化和展平操作后变为同样维度的特征图,之后计算注意力图并将语义分割特征包含的信息融入到图像增强特征中,最终输出优化后的特征,实现对应的特征交互操作。即在本发明的每个语义引导语义嵌入模块中,其输入为对应的语义分割特征和图像增强特征,进入模块后,首先经过卷积层和层归一化对特征进行预处理,将两个特征的维度变换为一致,其对应的维度表示为H×W×C。接下来将特征在通道维度展平,得到两个HW×C的特征图。之后基于转置注意力机制,计算两特征图之间的注意力图并且节省计算资源,最终得到的语义相关注意力图A如下所示:
其中,Wk和Wq为key嵌入和query嵌入卷积层,Fi和Fs为图像增强特征和语义分割特征,C为通道数,Softmax为激活函数。由此得到的语义相关注意力图表示了Fi和Fs之间的内在相关性,之后使用A来调整Fi,如下所示:
Fo=FN(Wv(Fi)×A+Fi),
其中,Wv为value嵌入卷积层,FN为前馈神经网络,Fo为优化后的特征,即语义引导语义嵌入模块的输出特征。由此,本发明通过语义分割特征实现了对图像增强特征的优化,使其在表征子空间中关注了语义相关信息。
即Wv(Fi)×A经卷积层后再与图像增强特征Fi相加,然后该相加结果依次经归一化层和卷积层,经矩阵的点乘后再经卷积层后,最后与该相加结果进行相加,得到语义引导语义嵌入模块的输出特征。
色彩直方图具有很重要的图像统计信息,并且很适合用来保留图像的色彩一致性。为了达到优化色彩的目的,可采用亲和矩阵的方法将学习到的色彩直方图与图像内容相结合,但是直方图描述的是全局统计信息,和内容之间有很大的差异性,直接融合会影响细节纹理的恢复。并且每个类别的色彩特征在计算全局直方图时会被忽略掉,限制了色彩的优化能力。因此,本发明实施例提出了语义引导色彩直方图损失来实现局部的色彩调整,以提高图像增强框架的色彩保留能力。
首先,本发明实施例使用语义分割结果将图像分割成图像块,每个图像块都只包含一个类别的内容。因此,图像块的生成过程如下所示:
P={P0,P1,…,Pclass},
其中,⊙表示矩阵点乘,Iout表示输出的增强结果(即预测增强图像),/>表示语义分割网络输出的第c类别预测结果,Pc表示第c类别图像块,P表示图像块的群组。由此,就得到了每种类别的图像块。
由于色彩直方图是离散的统计特征,本发明实施例将直方图用可导的方式估计出来,从而可以用于模型训练。考虑到语义分割结果的误差,在计算时类别边缘的像素将被忽略掉,降低分割误差对训练的影响,基于类别边缘像素调整对图像块的群组P的每个图像块进行调整,得到调整过的图像块群组P′。为了方便解释直方图估计过程,以第c类别的R通道调整后的图像块Pc′(R)为例进行说明:
其中,xj表示Pc′(R)的第j个像素,i∈[0,255]表示像素灰度值。和/>分别表示高锚点值和低锚点值,作为当前像素的特征用在后续的计算中,如下所示:
其中,Hc表示Pc′(R)的可导直方图估计,表示灰度值为i的像素数量的估计值,α为放缩因子,本实施例中,将其设置为400。前述中的两个锚点值经过放缩后用Sigmoid激活函数输出,输出的差值作为像素xj对像素数量估计值的贡献,xj与i的距离越近,该差值越大,当xj的值恰好等于i时,差值为1,即贡献一个像素。最后,将l1损失作为估计的色彩直方图最终的约束,因此,语义引导色彩直方图损失如下所示:
其中,和Ih分别表示输出图像和真实标签图像,Hc(·)表示直方图估计过程。
在图像补全任务中,全局和局部判别器被用于得到更加真实的补全结果。在低照度图像增强任务中,本发明引入语义信息,指导判别器去关注感兴趣的区域。为了实现这个目的,本发明实施例优化了全局和局部对抗损失,将语义预测图Iseg和图像块群组P′引入损失函数的计算中,提出了语义引导的对抗损失。
对于局部对抗损失,首先将前述的图像块群组P′作为候选的虚假图像块。之后将这些候选的虚假图像块输入到判别器中得到判别结果(是否为标签图像的概率),其中输出结果最小的图像块被视为最虚假的部分,并且选择这个输出获得的梯度对判别器和生成器进行参数更新,这样判别器就合理地运用语义先验信息找到了虚假的目标区域。而对于真实图像块,还是采用随机裁剪的办法从数据集中获取,因此,局部对抗损失可以被描述为:
xf=Pt,D(Pt)=min(D(P0),…,D(Pclass))
其中,MSE(·)表示均方误差,Pt表示候选的虚假图像块,xr表示真实图像块,xf表示虚假图像块。
对于全局对抗损失,本发明实施例采用了一种简单的设计实现语义相关的引导。在通道维度拼接了Iout(第N+1个卷积块输出)和Is ′ eg作为新的xf,其中,Is ′ eg为语义分割网络最后的Softmax激活函数前的输出特征,即语义分割网络的预测头的输出特征。真实图像则仍然采用随机采样的方式,因此最终的全局对抗损失可以被描述为:
即本发明实施例的语义引导对抗损失可以被描述为:
同时,本发明实施例还将增强网络的原本损失函数定义为(预测增强图像/>与输入图像Il的标签图像Ih之间的重建损失),一般来说,增强网络的损失函数(重建损失)可以为一阶差分损失、均方误差损失或结构相似性损失等。
综上,本发明实施例中,语义知识引导的低照度图像增强的损失函数可以被描述为:
其中,λsCH和λSA为平衡各损失函数的权重,经验值。
基于总损失对本发明的图像增强处理网络模型进行训练,当损失值趋于收敛保持稳定时停止训练,得到训练好的图像增强处理网络模型,从而基于其输出获取待增强图像(低照度图像)的增强处理结果。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (5)
1.基于语义知识引导的低照度图像增强方法,其特征在于,包括下列步骤:
步骤1,构建图像增强处理网络模型;
所述图像增强处理网络模型包括两条支路,一条支路为语义分割网络,一条支路为图像增强网络,并在两条支路之间设置有N个语义嵌入模块,其中,N≥2;
所述语义分割网络依次包括:第一编码器、第一解码器和预测头,第一编码器用于对输入图像Il进行特征提取,得到输入图像Il的第一初始特征图,所述输入图像Il为低照度图像;
第一解码器用于对第一初始特征图进行多个尺度的解码,得到不同尺度的深层特征图,即语义分割特征Fi,且语义分割特征的尺度数量M大于N;
预测头对第一解码器输出的不同尺度的语义分割特征Fi进行像素级语义类别预测,输出输入图像Il的语义预测图Iseg;
从M个尺度的深层特征图中选取连续尺度的N个尺度的语义分割特征分别作为每个语义嵌入模块的两个输入之一,并按照尺度升序的方向将N个语义嵌入模块依次定义为第1至第N个语义嵌入模块;
所述图像增强网络包括:第二编码器和第二解码器,其中,第二编码器用于对输入图像Il的低照度图像进行特征提取,得到输入图像Il的第二初始特征图;解码器包括N+1个卷积块,每个卷积块用于对其输入进行上采样,输出不同尺度的图像增强特征Fi,最后一个卷积块的输出即为输入图像Il的预测增强图像且第1个卷积块的输入为第二初始特征图,并将第1个卷积块的输出作为第1个语义嵌入模块的另一个输入,对任意第i个语义嵌入模块,将第i个语义嵌入模块的输出作为第i+1个卷积块的输入,其中,i=1,…,N;
步骤2,基于训练样本对图像增强处理网络模型的网络参数进行学习训练,当满足预置的训练结束条件时停止,得到训练好的图像增强处理网络模型;
训练图像增强处理网络模型时的损失函数设置为:
其中,表示预测增强图像/>与输入图像Il的标签图像Ih之间的重建损失,/>表示语义引导色彩直方图损失,即预测增强图像/>的直方图与标签图像Ih的直方图之间的L1范数损失,λSCH表示语义引导色彩直方图损失/>的权重,/>表示语义引导对抗损失,λSA表示语义引导对抗损失/>的权重;
步骤3,将与图像增强处理网络模型的输入相匹配的待增强图像输入训练好的图像增强络模型,基于图像增强网络的最后一个卷积块的输出得到待增强图像的增强结果。
2.如权利要求1所述的方法,其特征在于,步骤2中,语义引导对抗损失为全局对抗损失/>与局部对抗损失/>之和,并通过在训练过程中引入判别器来获取全局对抗损失与局部对抗损失/>具体为:
基于语义分割网络输出的语义预测图Iseg,对预测增强图像进行分块,每个图像块对应一个语义类别,定义Pk表示任意的第k个图像块;
计算局部对抗损失
xf=Pt,D(Pt)=min{D(Pk)}
其中,G表示生成器,即图像增强处理网络模型,D表示生成器,D(·)表示生成器的输出,xr表示真实图像块,preal表示真实图像块的数据分布,xf表示虚假图像块,pfake表示虚假图像块的数据分布,表示关于真实图像块的数学期望;
将语义分割网络的预测头的输入记为特征图I′seg,在通道维度对预测增强图像于特征图I′seg进行拼接作为新的虚假图像块x′f,并算全局对抗损失/>
其中,表示关于新的虚假图像块的数学期望。
3.如权利要求1所述的方法,其特征在于,语义分割网络为预训练好的网络,在对图像增强处理网络模型的网络参数进行学习训练中保持不变。
4.如权利要求1所述的方法,其特征在于,语义嵌入模块的网络结构具体为:
输入的语义分割特征Fs和图像增强特征Fi分别经归一化层和卷积层后,得到维度一致的语义特征图与图像增强特征图;分别对语义特征图与图像增强特征图在通道维度展平,再通过转置注意力机制计算两个展平后的特征图之间的注意力图,得到语义相关注意力图A;
通过语义相关注意力图A调整图像增强特征Fi,得到语义嵌入模块的输出特征Fo:
Fo=FN(Wv(Fi)×A+Fi),
其中,Wv表示value嵌入卷积层的权重,FN()表示前馈神经网络的输出。
5.如权利要求1所述的方法,其特征在于,计算语义引导色彩直方图损失时,采用可导方式估计直方图,具体为:
基于语义分割网络输出的语义预测图Iseg,分别对预测增强图像和标签图像Ih进行分块,每个图像块对应一个语义类别;
分别估计预测增强图像和标签图像Ih的语义引导色彩直方图:
对各图像块的各个颜色通道分别进行类别边缘像素调整,得到每个图像块的每个像素的每个的像素灰度值的高、低锚点值;
对同一语义类别的同一颜色通道的同一像素灰度值,分别将高、低锚点值乘以预置的放缩因子后作为Sigmoid激活函数的输入,基于所有像素点的高、低锚点值在缩放因子下的Sigmoid激活函数值之差的累计值得到当前语义类别的当前像素灰度值的像素数量估计值,基于所有像素灰度值的像素数量估计值得到当前语义类别的当前颜色通道的估计直方图,基于所有颜色通道的估计直方图得到预测增强图像或标签图像Ih的语义引导色彩直方图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310277679.8A CN116452472A (zh) | 2023-03-21 | 2023-03-21 | 基于语义知识引导的低照度图像增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310277679.8A CN116452472A (zh) | 2023-03-21 | 2023-03-21 | 基于语义知识引导的低照度图像增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116452472A true CN116452472A (zh) | 2023-07-18 |
Family
ID=87119327
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310277679.8A Pending CN116452472A (zh) | 2023-03-21 | 2023-03-21 | 基于语义知识引导的低照度图像增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116452472A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117853348A (zh) * | 2024-03-07 | 2024-04-09 | 中国石油大学(华东) | 一种基于语义感知的水下图像增强方法 |
-
2023
- 2023-03-21 CN CN202310277679.8A patent/CN116452472A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117853348A (zh) * | 2024-03-07 | 2024-04-09 | 中国石油大学(华东) | 一种基于语义感知的水下图像增强方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110363716B (zh) | 一种基于条件生成对抗网络复合降质图像高质量重建方法 | |
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN113688723B (zh) | 一种基于改进YOLOv5的红外图像行人目标检测方法 | |
CN111950649B (zh) | 基于注意力机制与胶囊网络的低照度图像分类方法 | |
CN113313657B (zh) | 一种用于低光照图像增强的非监督学习方法和*** | |
CN112150493B (zh) | 一种基于语义指导的自然场景下屏幕区域检测方法 | |
CN111292264A (zh) | 一种基于深度学习的图像高动态范围重建方法 | |
Li et al. | Deep dehazing network with latent ensembling architecture and adversarial learning | |
CN111861925A (zh) | 一种基于注意力机制与门控循环单元的图像去雨方法 | |
CN113781377A (zh) | 基于对抗性语义引导与感知的红外和可见光图像融合方法 | |
CN113378775B (zh) | 一种基于深度学习的视频阴影检测与消除方法 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
CN113705490A (zh) | 基于重构和预测的异常检测方法 | |
CN111126155B (zh) | 一种基于语义约束生成对抗网络的行人再识别方法 | |
CN116524307A (zh) | 一种基于扩散模型的自监督预训练方法 | |
CN112418032A (zh) | 一种人体行为识别方法、装置、电子设备及存储介质 | |
CN116452472A (zh) | 基于语义知识引导的低照度图像增强方法 | |
CN112149526A (zh) | 一种基于长距离信息融合的车道线检测方法及*** | |
CN117237994B (zh) | 一种油气作业区人员计数及行为检测方法、装置及*** | |
CN113283320A (zh) | 一种基于通道特征聚合的行人重识别方法 | |
CN117058235A (zh) | 跨多种室内场景的视觉定位方法 | |
CN116597503A (zh) | 一种基于时空特征的课堂行为检测方法 | |
Xu et al. | Adaptive brightness learning for active object recognition | |
CN114581769A (zh) | 一种基于无监督聚类的在建房屋识别方法 | |
CN114549340A (zh) | 对比度增强方法、计算机程序产品、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |