CN116091337B - 一种基于事件信号神经编码方式的图像增强方法及装置 - Google Patents
一种基于事件信号神经编码方式的图像增强方法及装置 Download PDFInfo
- Publication number
- CN116091337B CN116091337B CN202211515957.0A CN202211515957A CN116091337B CN 116091337 B CN116091337 B CN 116091337B CN 202211515957 A CN202211515957 A CN 202211515957A CN 116091337 B CN116091337 B CN 116091337B
- Authority
- CN
- China
- Prior art keywords
- image
- event
- neural
- resolution
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 210000005036 nerve Anatomy 0.000 title claims abstract description 20
- 238000011084 recovery Methods 0.000 claims abstract description 9
- 230000001537 neural effect Effects 0.000 claims description 54
- 238000013528 artificial neural network Methods 0.000 claims description 27
- 230000015654 memory Effects 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 19
- 238000004891 communication Methods 0.000 claims description 17
- 230000002457 bidirectional effect Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 8
- 230000002441 reversible effect Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000008707 rearrangement Effects 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims 4
- 238000003384 imaging method Methods 0.000 abstract description 11
- 238000006243 chemical reaction Methods 0.000 abstract description 3
- 238000013461 design Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 241000512668 Eunectes Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- STEPQTYSZVCJPV-UHFFFAOYSA-N metazachlor Chemical compound CC1=CC=CC(C)=C1N(C(=O)CCl)CN1N=CC=C1 STEPQTYSZVCJPV-UHFFFAOYSA-N 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 210000001525 retina Anatomy 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
- G06T5/92—Dynamic range modification of images or parts thereof based on global image properties
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于事件信号神经编码方式的图像增强方法及装置,结合了物理成像模型和数据驱动两种方式的特性,提出了一种鲁棒的、良好编码事件信号流中运动和时序信息的编码方式——神经事件帧,通过神经事件帧,构建了低质量图像和高质量图像之间的转换关系,有效克服了事件信号中的噪声干扰等问题,实现了对于图像信号的去模糊以及超分辨率。同时,本发明设计了事件信号引导下统一的高速视频生成框架,实现了从低速视频到高速视频的恢复。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于事件信号神经编码方式的图像增强方法及装置。
背景技术
随着人工智能和计算机算力的不断提高,深度学习在计算机视觉的各个领域上都取得了长足的发展,目前深度学习方法在物体分类、跟踪检测等多个任务上都取得超越传统视觉方法的表现,也让计算机视觉算法的鲁棒性和实用性更为增加。但是在实际场景中,存在环境对于检测算法的干扰,例如高动态范围、高速运动等,严重影响了图像的采集,这也限制了下游计算机视觉任务的表现。所以如何能够在输入端尽可能提高图像数据的质量,成为研究的热点问题之一。
图像增强即是对于低质量的图像信号进行增强,以期得到具有高动态范围、高时间分辨率等特性的图像信号。图像增强作为计算摄像学的基础任务,它的发展对于未来计算机视觉任务的进一步提升至关重要,也成为计算机视觉任务落地中不可或缺的一环。
传统的数码相机经过多年的发展,在图像动态范围和时间分辨率上取得一定的进展,大多数的数码相机可以实现40~60分贝的动态范围和1080P@120Hz/4K@60Hz的时空分辨率。但是这样的表现远不能满足自动驾驶,无人机控制、工业智能等领域的要求,尤其是自动驾驶等需要考验极端场景下算法可靠性,传统数码相机的缺点更加明显。究其原因在于传统相机逐帧固定时间采样的成像模型,限制了相机的动态范围和时间分辨率的进一步提高。
神经形态相机作为一种新型的相机,不同于传统相机通过量化固定曝光时间内的光子数量,从而得到图像像素值的方式。神经形态相机在成像原理上模仿人眼的视网膜成像方式,主要分为两种,一类是动态视觉成像模型,只有场景发生变化时才会产生信号;另一类是基于视网膜中央凹视觉采样成像模型,通过脉冲方法机制记录动态场景的同时也记录了静态场景。这两种类型的神经形态相机的时间分辨率相较于传统相机均有较大幅度的提高,对于图像增强能够起到良好的辅助作用。
近年来逐渐热门的动态视觉传感器(Dynamic Vision Sensor,简称DVS)作为第一种类别的神经形态相机,能够监测场景的辐照值变化,如果辐照值的变化超过设定的阈值就会产生事件信号(记录触发位置、时间戳和极性),所以该相机也被成为事件相机。由此相较于传统相机,事件相机展现出高时间分辨率、低延迟、高动态范围等良好特性,现已经被广泛应用在计算机视觉的相关任务上。但是事件信号仅仅纪录了辐照值的变化,缺少静态区域的纹理信息,这造成从事件信号直接恢复出灰度图像的困难。尽管最近的事件相机(如DAVIS)已经可以同时异步采样得到灰度图像,但是所得的灰度图像严重受限于传感器的低分辨率(通常为346×260像素分辨率)和运动模糊问题。同时由于事件相机抛弃了逐帧成像的方式,输出为离散的事件信号流,使其难以兼容目前的深度学习图像增强算法框架。因此,寻找一种合适的事件信号编码方式,在保留其高速高动态信息的同时,兼容深度学习图像增强框架成为一个重要的研究方向。
目前主要有两种方式来实现事件信号的编码:1)基于人为定义的编码方式和2)基于数据驱动的编码方式。
方式1),如事件增强的高质量图像恢复(Event Enhanced High-Quality ImageRecovery)(European Conference on Computer Vision(ECCV)2020),被广泛应用的是两种事件信号编码方式:体素网格(Voxel Grid)和事件帧(Event Stack)。体素网格是对于事件信号流利用双线性插值的方式处理,将事件信号按照线性的权重进行累加,编码为三维矩阵;而事件帧的编码方式则是将固定时间间隔内或一定数量的事件信号直接进行累加。尽管通过编码为三维矩阵的方式在一定程度上保留事件信号的时序信息,但是这两种编码方式未能实现事件信号信息的充分利用,随着时间精度的提高(通道数增加),均会表现出对于噪声信号的高度敏感性。当事件信号中存在的噪声干扰较强时,方式1)的表现会出现显著下降,限制了图像的质量增强。
方式2),如基于异步事件数据的可微递归曲面(A Differentiable RecurrentSurface for Asynchronous Event-Based Data)(European Conference on ComputerVision(ECCV)2020),主要有事件张量(Event Tensor,EST)以及矩阵神经表示(Matrix-LSTM)两种表示方式,他们利用全连接网络或者长短期记忆神经网络,来对于每个事件信号赋权重,然后以带权合并的方式得到事件信号的编码,这样的方法在高层的视觉任务(分类、检测)中取得了较好的效果,但没有考虑到事件信号和图像增强的物理模型,未能够针对图像增强任务进行特定的数据处理,导致其中编码的事件信号对于图像增强的辅助效果受限。同时其编码方式丢弃了中间信息,直接迁移很难直接有效提取事件信号中的时空信息辅助图像增强,使得迁移至现有图像增强框架下,不能实现高速视频的恢复。
发明内容
本发明针对现有技术未考虑事件信号成像模型的缺陷,提出一种基于事件信号神经编码方式的图像增强方法。
为了实现上述目的,本发明提供如下技术方案:
一方面,本发明提供了一种基于事件信号神经编码方式的图像增强方法,包括以下步骤:
S1、事件信号神经编码:对于输入的离散事件信号流在一段时间内进行累加,之后通过卷积层提取特征,再经过双向的长短时记忆神经网络进行正向和反向双向编码,得到不同时刻的神经事件帧;
S2、模糊图像去模糊:利用神经事件帧保留的事件信号中高时间分辨率的信息,利用神经网络对于图像进行去模糊操作,得到清晰图像;
S3、低分辨率图像超分辨率:利用神经事件帧保留的事件信号中高时间分辨率的信息,利用神经网络以时间换空间的方式提升图像的分辨率;
S4、高速视频生成:将去模糊图像和超分辨率图像联合,生成恢复重建的高速视频。
进一步地,步骤S1中采用密集卷积模块提取特征,然后再利用长短时记忆神经网络编码时序信号的特点抽取时序信息。
进一步地,步骤S2中,通过一个U-Net神经网络融合图像信号和神经事件帧,网络学习输出模糊图像和清晰图像之间的残差,实现从模糊图像恢复清晰图像。
进一步地,步骤S3中,通过多层RRDB模块逐渐融合图像信号特征和神经事件帧,最终以像素重排列的方式实现图像超分辨率。
进一步地,步骤S2和S3的神经网络使用的损失函数均由均方误差和感知误差两个部分构成:
l=α·l2(Io,Igt)+β·lprec(Io,Igt)
其中Io表示输出图像,Igt表示目标图像,α和β两个参数分别设定为100和0.5,l2(·)表示均方误差,lpree(·)表示的是感知误差,感知误差的定义如下:
lprec(Io,Igt)=l2(φh(Io),φh(Igt))
其中φh(·)表示一个已经在ImageNet上预训练好的VGG19网络的第h层特征图。
进一步地,整个网络采用逐阶段的训练策略,首先同时训练神经事件帧编码器和去模糊网络;在两个网络训练相对稳定之后,结合超分网络继续进行训练,并对神经事件帧编码器和去模糊网络的参数进行微调;在两个阶段的学习率分别设置为1×10-3和1×10-4;两个阶段的优化器都使用ADAM优化器。
进一步地,整个网络在训练过程中仅使用灰度图像;在测试过程中,先将图像从RGB颜色空间转化为YUV颜色空间,分离出Y通道,然后对于Y通道进行去模糊和超分,对于UV颜色通道直接插值到相应分辨率,然后与Y通道合并得到最终的彩色图像。
另一方面,本发明还提供了一种基于事件信号神经编码方式的图像增强装置,包括以下模块以实现上述任一项所述的方法:
事件信号神经编码模块:用于对输入的离散事件信号流在一段时间内进行累加,之后通过卷积层提取特征,再经过双向的长短时记忆神经网络进行正向和反向双向编码,得到不同时刻的神经事件帧;
模糊图像去模糊模块:利用神经事件帧保留的事件信号中高时间分辨率的信息,利用神经网络对于图像进行去模糊操作,得到清晰图像;
低分辨率图像超分辨率模块:利用神经事件帧保留的事件信号中高时间分辨率的信息,利用神经网络以时间换空间的方式提升图像的分辨率;
高速视频生成模块:用于将去模糊图像和超分辨率图像联合,生成恢复重建的高速视频。
又一方面,本发明还提供了一种设备,包括处理器、通信接口、存储器和通信总线,所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信;其中:
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现上述任一项所述的方法。
与现有技术相比,本发明的有益效果为:
本发明的基于事件信号神经编码方式的图像增强方法和装置,结合了物理成像模型和数据驱动两种方式的特性,提出了一种鲁棒的、良好编码事件信号流中运动和时序信息的编码方式——神经事件帧,通过神经事件帧,构建了低质量图像和高质量图像之间的转换关系,有效克服了事件信号中的噪声干扰等问题,实现了对于图像信号的去模糊以及超分辨率。同时,本发明设计了事件信号引导下统一的高速视频生成框架,实现了从低速视频到高速视频的恢复。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于事件信号神经编码方式的图像增强方法流程图。
图2为本发明实施例提供的图像去模糊应用效果图。
图3为本发明实施例提供的图像超分辨率应用效果图。
图4为本发明实施例提供的高速视频生成应用效果图。
具体实施方式
为了更好地理解本技术方案,下面结合附图对本发明的方法做详细的说明。
本发明的基于事件信号神经编码方式的图像增强方法,如图1所示,包括以下步骤:
S1、事件信号神经编码:对于输入的离散事件信号流在一段时间内进行累加,之后通过卷积层提取特征,再经过双向的长短时记忆神经网络进行正向和反向双向编码,得到不同时刻的神经事件帧;
S2、模糊图像去模糊:利用神经事件帧保留的事件信号中高时间分辨率的信息,利用神经网络对于图像进行去模糊操作,得到清晰图像;
S3、低分辨率图像超分辨率:利用神经事件帧保留的事件信号中高时间分辨率的信息,利用神经网络以时间换空间的方式提升图像的分辨率;
S4、高速视频生成:将去模糊图像和超分辨率图像联合,生成恢复重建的高速视频。
其中每个步骤具体通过神经网络中相应设计的模块或架构来实现:
(1)事件信号神经编码:对于单个事件的信号难以分辨是否为噪声,而对于图像增强任务而言,并不需要处理单个事件信号中的信息,所以本发明设计了一种数据驱动的事件信号编码方式——神经事件帧。如图1所示,对于输入的离散事件信号流在一段时间内进行累加,之后通过设计的卷积层提取特征,然后经过双向的长短时记忆神经网络进行双向编码,得到神经事件帧,表示为:
其中ei代表单个事件信号,Ei代表最终所得的神经事件帧,N(·)代表神经编码过程。双向的编码方式能够在一次编码中提取正向和反向信息,一是能够克服正负阈值不同的问题,二是在双向编码过程中,能够有效合并零均值的随机白噪声,得到更为鲁棒的事件信号编码方式,从而为后续事件信号和图像信号的融合提供更好了的输入。
(2)模糊图像去模糊:在得到神经事件帧之后,就可以利用其保留的事件信号中高时间分辨率的信息,对于图像进行去模糊操作。本发明通过一个U-Net神经网络融合图像信号特征和神经事件帧,网络学习输出模糊图像和清晰图像之间的残差,实现从模糊图像恢复清晰图像,表示为:
其中B代表模糊图像,代表最终恢复的清晰图像,D(·)代表融合神经事件帧和图像信号,利用网络D-Net去模糊的过程。
(3)低分辨率图像超分辨率:得到神经事件帧之后,同时可以利用事件信号中保留的高时间分辨率的特性,实现以时间换空间的方式,提升图像的分辨率。本发明通过多层RRDB模块逐渐融合图像信号特征和神经事件帧,最终以像素重排列的方式实现图像超分辨率,表示为:
其中代表输入的低分辨率图像,/>代表最终恢复的高分辨率图像,S(·)代表融合神经事件帧和图像信号,利用网络S-Net图像超分的过程。
(4)高速视频生成:本发明通过神经事件帧建立了清晰图像和模糊图像,以及低分辨率图像和高分辨率图像之间的关系。同时通过事件信号的一次双向神经编码,获得了不同时刻对应的神经事件帧,从而可以并行地恢复清晰图像和高分辨率图像。如图1所示,本发明方法将图像去模糊和图像超分辨率联合,实现了低质量视频到高分辨率高速清晰视频的恢复重建。
本发明采用合成数据对神经网络进行训练,具体训练过程如下:
(1)合成训练数据
a)从网上下载REDS数据集作为基础,从中选择了23280张图像,其图像分辨率为720*1280像素。
b)模拟图像模糊和低分辨图像的生成过程。首先对视频帧进行分辨率下采样,得到分辨率为180×320像素的低分辨率图像,接着对于120帧/秒的视频进行插帧,得到帧率为960帧/秒的视频,然后将相邻的17张图像像素值进行平均得到帧率为60帧/秒的低帧率模糊视频,即为低质量的输入图像信号。
c)利用V2E模拟器生成仿真事件信号,模拟器的输入为帧率为960帧/秒的低分辨清晰视频。
d)在训练之前,应用数据增强操作,将原始图像调整分辨率大小并随机截取为64×64像素的图像,搭配256×256像素的对应位置的清晰图像,并且用旋转、镜面翻转等操作增加训练数据量。
(2)神经网络的训练
a)损失函数:由均方误差和感知误差两个部分构成,定义如下:
l=α·l2(Io,Igt)+β·lprec(Io,Igt),
其中Io表示输出图像,Igt表示目标图像,α和β两个参数分别设定为100和0.5。l2(·)表示均方误差,而lprec(·)表示的是感知误差。感知误差的定义如下:
lprec(Io,Igt)=l2(φh(Io),φh(Igt)),
其中φh(·)表示一个已经在ImageNet上预训练好的VGG19网络的第h层特征图,这里我们利用的是VGG3,3和VGG5,5这两卷积层所输出的特征图,通过计算均方误差的方法来衡量两张图像的感知差异。训练去模糊网络D-Net和超分网络S-Net均使用上述相同的损失函数。
b)整个网络由采用逐阶段的训练策略,首先同时训练神经事件帧编码器和去模糊网络。在两个网络的训练相对稳定之后,在第二个阶段,我们结合超分网络继续进行训练,并且这个阶段也不会固定神经事件帧编码器和去模糊网络的参数,也需要对其进行参数微调。两个阶段分别训练100轮,并且在前50轮训练完成之后,需要对学习率进行调整,在后50轮学习率线性的减小到0。学习率在两个阶段分别设置为1×10-3和1×10-4。优化器在两个阶段都使用的是ADAM优化器。
c)在训练期间,本实施例将仿真数据中按照9∶1的比例随机划分训练集、验证集,Batchsize设定为8,并用BatchNorm层来帮助网络收敛。使用PyTorch 1.7和NVIDIA3090GPU进行训练。
d)在训练过程中仅使用灰度图像,而在测试过程中,先将图像从RGB颜色空间转化为YUV颜色空间,分离出Y通道,然后对于Y通道进行去模糊和超分,对于UV颜色通道直接插值到相应分辨率,然后与Y通道合并得到最终的彩色图像。
相应于上述本发明实施例提供的方法,本发明提供了一种基于事件信号神经编码方式的图像增强装置,包括事件信号神经编码、模糊图像去模糊、低分辨率图像超分辨率和高速视频生成4个模块,以实现上述本发明实施例提供的方法流程。
本发明的方法或装置在应用时,采用以下步骤:
a)环境搭建:在Linux***上利用Anaconda搭建虚拟环境,并且安装环境依赖包,包括以下:Python 3.8,PyTorch 1.7,CUDA 11.3,cuDNN等。
b)数据生成:训练数据采用仿真数据,其由REDS数据集进行合成,通过V2E仿真生成事件信号。测试数据采用实拍数据,由DAVIS346相机进行拍摄,得到分辨率为260×346像素的灰度图像和事件信号。
c)模型训练:按照图1进行模型结构的搭建,在NVIDIA GeForce RTX3090显卡上对模型进行训练,训练200轮后模型收敛。
d)模型测试:实拍得到的灰度图像信号模糊且分辨率低,首先将事件信号编码为神经事件帧,在利用网络D-Net和S-Net对于图像进行去模糊和超分辨率,得到的结果如图2和图3所示,本发明恢复结果能够获得良好的图像边缘重建,恢复图像质量显著高于现有方法,同时基于图像增强框架生成高速视频,生成结果如图4所示,本发明重建的高速视频帧能够保持更好的图像细节以及帧间连续性,恢复质量高于现有方法。
相比现有技术1,本发明提出了神经事件帧的编码方式,能够有效克服事件相机阈值变化、噪声干扰等问题,使得图像增强更为稳定。
相比现有技术2,本发明以事件相机成像模型为基础,避免数据驱动方法存在的过拟合等问题,针对图像增强任务,有效的提取了事件信号中的运动、时空信息,使得图像增强的效果提升。
综上,本发明结合事件相机的成像模型,基于神经事件帧提出了深度学习图像增强框架,利用数据驱动的方法,对于事件信号进行神经编码,针对图像增强任务,通过双向编码方式保留了事件信号中的有效信息,能够有效实现高速高分辨率的清晰图像恢复,提高了图像增强的质量。
相应于上述本发明实施例提供的方法,本发明实施例还提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述本发明实施例提供的方法流程。
上述控制设备设备中提到的通信总线可以是外设部件互连标准(PeripheralComponent Interconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述本发明实施例提供的任一方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述本发明实施例提供的任一方法的步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字终端设备线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例、电子设备实施例、计算机可读存储介质实施例和计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (7)
1.一种基于事件信号神经编码方式的图像增强方法,其特征在于,包括以下步骤:
S1、事件信号神经编码:对于输入的离散事件信号流在一段时间内进行累加,之后通过卷积层提取特征,再经过双向的长短时记忆神经网络进行正向和反向双向编码,得到不同时刻的神经事件帧;
S2、模糊图像去模糊:利用神经事件帧保留的事件信号中高时间分辨率的信息,利用神经网络对于图像进行去模糊操作,得到清晰图像;具体过程为:通过一个U-Net神经网络融合图像信号特征和神经事件帧,网络学习输出模糊图像和清晰图像之间的残差,实现从模糊图像恢复清晰图像,表示为:
其中B代表模糊图像,代表最终恢复的清晰图像,D(·)代表融合神经事件帧和图像信号利用网络D-Net去模糊的过程;
S3、低分辨率图像超分辨率:利用神经事件帧保留的事件信号中高时间分辨率的信息,利用神经网络以时间换空间的方式提升图像的分辨率;具体过程为:通过多层RRDB模块逐渐融合图像信号特征和神经事件帧,最终以像素重排列的方式实现图像超分辨率,表示为:
其中代表输入的低分辨率图像,/>代表最终恢复的高分辨率图像,S(·)代表融合神经事件帧和图像信号利用网络S-Net图像超分的过程;
S4、高速视频生成:将去模糊图像和超分辨率图像联合,生成恢复重建的高速视频。
2.根据权利要求1所述的基于事件信号神经编码方式的图像增强方法,其特征在于,步骤S1中采用密集卷积模块提取特征,然后再利用长短时记忆神经网络编码时序信号的特点抽取时序信息。
3.根据权利要求1所述的基于事件信号神经编码方式的图像增强方法,其特征在于,步骤S2和S3的神经网络使用的损失函数均由均方误差和感知误差两个部分构成:
l=α·l2(Io,Igt)+β·lprec(Io,Igt)
其中Io表示输出图像,Igt表示目标图像,α和β两个参数分别设定为100和0.5,l2(·)表示均方误差,lprec(·)表示的是感知误差,感知误差的定义如下:
lprec(Io,Igt)=l2(φh(Io),φh(Igt))
其中φh(·)表示一个已经在ImageNet上预训练好的VGG19网络的第h层特征图。
4.根据权利要求1所述的基于事件信号神经编码方式的图像增强方法,其特征在于,整个网络采用逐阶段的训练策略,首先同时训练神经事件帧编码器和去模糊网络;在两个网络训练相对稳定之后,结合超分网络继续进行训练,并对神经事件帧编码器和去模糊网络的参数进行微调;在两个阶段的学习率分别设置为1×10-3和1×10-4;两个阶段的优化器都使用ADAM优化器。
5.根据权利要求1所述的基于事件信号神经编码方式的图像增强方法,其特征在于,整个网络在训练过程中仅使用灰度图像;在测试过程中,先将图像从RGB颜色空间转化为YUV颜色空间,分离出Y通道,然后对于Y通道进行去模糊和超分,对于UV颜色通道直接插值到相应分辨率,然后与Y通道合并得到最终的彩色图像。
6.一种基于事件信号神经编码方式的图像增强装置,其特征在于,包括以下模块以实现权利要求1-5任一项所述的方法:
事件信号神经编码模块:用于对输入的离散事件信号流在一段时间内进行累加,之后通过卷积层提取特征,再经过双向的长短时记忆神经网络进行正向和反向双向编码,得到不同时刻的神经事件帧;
模糊图像去模糊模块:利用神经事件帧保留的事件信号中高时间分辨率的信息,利用神经网络对于图像进行去模糊操作,得到清晰图像;
低分辨率图像超分辨率模块:利用神经事件帧保留的事件信号中高时间分辨率的信息,利用神经网络以时间换空间的方式提升图像的分辨率;
高速视频生成模块:用于将去模糊图像和超分辨率图像联合,生成恢复重建的高速视频。
7.一种设备,其特征在于,包括处理器、通信接口、存储器和通信总线,所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信;其特征在于,
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现权利要求1-5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211515957.0A CN116091337B (zh) | 2022-11-29 | 2022-11-29 | 一种基于事件信号神经编码方式的图像增强方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211515957.0A CN116091337B (zh) | 2022-11-29 | 2022-11-29 | 一种基于事件信号神经编码方式的图像增强方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116091337A CN116091337A (zh) | 2023-05-09 |
CN116091337B true CN116091337B (zh) | 2024-02-02 |
Family
ID=86201491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211515957.0A Active CN116091337B (zh) | 2022-11-29 | 2022-11-29 | 一种基于事件信号神经编码方式的图像增强方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116091337B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116523754A (zh) * | 2023-05-10 | 2023-08-01 | 广州民航职业技术学院 | 一种飞机蒙皮损伤自动识别图像质量增强方法及*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111667442A (zh) * | 2020-05-21 | 2020-09-15 | 武汉大学 | 一种基于事件相机的高质量高帧率图像重建方法 |
CN113240605A (zh) * | 2021-05-21 | 2021-08-10 | 南开大学 | 基于对称神经网络进行正反双向学习的图像增强方法 |
CN113837938A (zh) * | 2021-07-28 | 2021-12-24 | 北京大学 | 基于动态视觉传感器重建潜在图像的超分辨率方法 |
CN114463218A (zh) * | 2022-02-10 | 2022-05-10 | 中国科学技术大学 | 一种基于事件数据驱动的视频去模糊方法 |
CN115082341A (zh) * | 2022-06-24 | 2022-09-20 | 西安理工大学 | 基于事件相机的弱光图像增强方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11037278B2 (en) * | 2019-01-23 | 2021-06-15 | Inception Institute of Artificial Intelligence, Ltd. | Systems and methods for transforming raw sensor data captured in low-light conditions to well-exposed images using neural network architectures |
-
2022
- 2022-11-29 CN CN202211515957.0A patent/CN116091337B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111667442A (zh) * | 2020-05-21 | 2020-09-15 | 武汉大学 | 一种基于事件相机的高质量高帧率图像重建方法 |
CN113240605A (zh) * | 2021-05-21 | 2021-08-10 | 南开大学 | 基于对称神经网络进行正反双向学习的图像增强方法 |
CN113837938A (zh) * | 2021-07-28 | 2021-12-24 | 北京大学 | 基于动态视觉传感器重建潜在图像的超分辨率方法 |
CN114463218A (zh) * | 2022-02-10 | 2022-05-10 | 中国科学技术大学 | 一种基于事件数据驱动的视频去模糊方法 |
CN115082341A (zh) * | 2022-06-24 | 2022-09-20 | 西安理工大学 | 基于事件相机的弱光图像增强方法 |
Non-Patent Citations (2)
Title |
---|
Bio-inspired color image enhancement model;Yufeng Zheng et al;《The International Society for Optical Engineering》;1-12 * |
基于生成对抗网络的低照度图像增强方法研究;蔡文成;《中国优秀硕士学位论文全文数据库(电子期刊)》;第2020年卷(第08期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116091337A (zh) | 2023-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Baldwin et al. | Time-ordered recent event (tore) volumes for event cameras | |
US11741581B2 (en) | Training method for image processing model, image processing method, network device, and storage medium | |
CN113837938B (zh) | 基于动态视觉传感器重建潜在图像的超分辨率方法 | |
CN111669514B (zh) | 高动态范围成像方法和装置 | |
CN112837245B (zh) | 一种基于多模态融合的动态场景去模糊方法 | |
CN113076685A (zh) | 图像重建模型的训练方法、图像重建方法及其装置 | |
CN112529776B (zh) | 图像处理模型的训练方法、图像处理方法及装置 | |
CN113067979A (zh) | 基于仿生式脉冲相机的成像方法、装置、设备及存储介质 | |
CN111079764A (zh) | 一种基于深度学习的低照度车牌图像识别方法及装置 | |
WO2023086194A1 (en) | High dynamic range view synthesis from noisy raw images | |
Yan et al. | High dynamic range imaging via gradient-aware context aggregation network | |
Yuan et al. | Single image dehazing via NIN-DehazeNet | |
Yang et al. | Learning event guided high dynamic range video reconstruction | |
CN116091337B (zh) | 一种基于事件信号神经编码方式的图像增强方法及装置 | |
CN112750092A (zh) | 训练数据获取方法、像质增强模型与方法及电子设备 | |
CN112651911A (zh) | 一种基于偏振图像的高动态范围成像生成方法 | |
Jiang et al. | Event-based low-illumination image enhancement | |
Shaw et al. | Hdr reconstruction from bracketed exposures and events | |
Tang et al. | Structure-embedded ghosting artifact suppression network for high dynamic range image reconstruction | |
Liu et al. | Sensing diversity and sparsity models for event generation and video reconstruction from events | |
CN117078574A (zh) | 一种图像去雨方法及装置 | |
CN115358962B (zh) | 一种端到端视觉里程计方法及装置 | |
CN116385283A (zh) | 一种基于事件相机的图像去模糊方法及*** | |
Cui et al. | Multi-stream attentive generative adversarial network for dynamic scene deblurring | |
US20230394632A1 (en) | Method and image processing device for improving signal-to-noise ratio of image frame sequences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |