CN108304755B - 用于图像处理的神经网络模型的训练方法和装置 - Google Patents
用于图像处理的神经网络模型的训练方法和装置 Download PDFInfo
- Publication number
- CN108304755B CN108304755B CN201710136471.9A CN201710136471A CN108304755B CN 108304755 B CN108304755 B CN 108304755B CN 201710136471 A CN201710136471 A CN 201710136471A CN 108304755 B CN108304755 B CN 108304755B
- Authority
- CN
- China
- Prior art keywords
- image
- network model
- loss
- intermediate image
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003062 neural network model Methods 0.000 title claims abstract description 182
- 238000012549 training Methods 0.000 title claims abstract description 114
- 238000012545 processing Methods 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000003287 optical effect Effects 0.000 claims abstract description 66
- 230000008859 change Effects 0.000 claims description 91
- 239000011159 matrix material Substances 0.000 claims description 60
- 238000011156 evaluation Methods 0.000 claims description 34
- 230000002441 reversible effect Effects 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 abstract description 63
- 230000000694 effects Effects 0.000 abstract description 13
- 230000000875 corresponding effect Effects 0.000 description 214
- 238000010586 diagram Methods 0.000 description 24
- 230000006870 function Effects 0.000 description 21
- 238000004364 calculation method Methods 0.000 description 18
- 230000009467 reduction Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000002123 temporal effect Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/758—Involving statistics of pixels or of feature values, e.g. histogram matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
- G06V10/993—Evaluation of the quality of the acquired pattern
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Quality & Reliability (AREA)
- Biodiversity & Conservation Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种用于图像处理的神经网络模型的训练方法和装置,所述方法包括:获取时间相邻的视频帧;将所述视频帧分别经过神经网络模型输出相对应的中间图像;获取时序靠前的所述视频帧变化至时序靠后的所述视频帧的光流信息;获取时序靠前的视频帧所对应的中间图像按所述光流信息变化后的图像;获取时序靠后的视频帧所对应的中间图像与变化后的图像间的时间损耗;获取所述中间图像与目标特征图像的特征损耗;根据所述时间损耗和所述特征损耗调整所述神经网络模型,返回所述获取时间相邻的视频帧的步骤继续训练,直至所述神经网络模型满足训练结束条件。本申请提供的方案提高训练得到的神经网络模型对视频进行特征转换时的转换效果。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及一种用于图像处理的神经网络模型的训练方法和装置。
背景技术
随着计算机技术的发展,在图像处理技术中,通常会用到神经网络模型来对图像的特征进行转换处理,比如图像颜色特征转换、图像光影特征转换或者图像风格特征转换等。在通过神经网络模型对图像进行特征转换处理之前,需要先训练出用于图像处理的神经网络模型。
采用传统的神经网络模型训练方法训练出的用于图像处理的神经网络模型在对图像进行特征转换时效果较好。然而,在采用该神经网络模型对视频进行特征转换时,会引入大量的闪烁噪声,导致视频特征转换的效果较差。
发明内容
基于此,有必要针对传统的用于图像处理的神经网络模型对视频进行特征转换时效果差的问题,提供一种用于图像处理的神经网络模型的训练方法和装置。
一种用于图像处理的神经网络模型的训练方法,所述方法包括:
获取时间相邻的视频帧;
将所述视频帧分别经过神经网络模型输出相对应的中间图像;
获取时序靠前的所述视频帧变化至时序靠后的所述视频帧的光流信息;
获取时序靠前的视频帧所对应的中间图像按所述光流信息变化后的图像;
获取时序靠后的视频帧所对应的中间图像与变化后的图像间的时间损耗;
获取所述中间图像与目标特征图像的特征损耗;
根据所述时间损耗和所述特征损耗调整所述神经网络模型,返回所述获取时间相邻的视频帧的步骤继续训练,直至所述神经网络模型满足训练结束条件。
一种用于图像处理的神经网络模型的训练装置,所述装置包括:
输入获取模块,用于获取时间相邻的视频帧;
输出获取模块,用于将所述视频帧分别经过神经网络模型输出相对应的中间图像;
损耗获取模块,用于获取时序靠前的所述视频帧变化至时序靠后的所述视频帧的光流信息;获取时序靠前的视频帧所对应的中间图像按所述光流信息变化后的图像;获取时序靠后的视频帧所对应的中间图像与变化后的图像间的时间损耗;获取所述中间图像与目标特征图像的特征损耗;
模型调整模块,用于根据所述时间损耗和所述特征损耗调整所述神经网络模型,返回所述获取时间相邻的视频帧的步骤继续训练,直至所述神经网络模型满足训练结束条件。
上述用于图像处理的神经网络模型的训练方法和装置,在对神经网络模型进行训练时,将时间损耗与特征损耗协同作为反馈调整依据来调整神经网络模型,以训练得到可用于图像处理的神经网络模型。其中,在对神经网络模型进行训练时,通过将时间相邻的视频帧作为输入,以对时序靠前的视频帧所对应的中间图像,按照时序靠前的视频帧变化至时序靠后的视频帧的光流信息,得到时序靠后的视频帧预期所对应的中间图像,从而得到时间损耗。该时间损耗反映了时间相邻的视频帧各自对应的中间图像之间在时间一致性上的损耗。训练后的神经网络模型在对视频进行特征转换时,会考虑视频的各视频帧之间的时间一致性,极大地减少了特征转换过程中引入的闪烁噪声,从而提高了对视频进行特征转换时的转换效果。
附图说明
图1为一个实施例中用于实现用于图像处理的神经网络模型的训练方法的电子设备的内部结构示意图;
图2为一个实施例中用于图像处理的神经网络模型的训练方法的流程示意图;
图3为另一个实施例中用于图像处理的神经网络模型的训练方法的流程示意图;
图4为一个实施例中用于图像处理的神经网络模型的训练架构图;
图5为一个实施例中用于图像处理的神经网络模型的训练装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为一个实施例中用于实现用于图像处理的神经网络模型的训练方法的电子设备的内部结构示意图。参照图1,该电子设备包括通过***总线连接的处理器、非易失性存储介质和内存储器。其中,电子设备的非易失性存储介质存储有操作***,还存储有一种用于图像处理的神经网络模型的训练装置,该用于图像处理的神经网络模型的训练装置用于实现一种用于图像处理的神经网络模型的训练方法。电子设备的处理器用于提供计算和控制能力,支撑整个电子设备的运行。电子设备中的内存储器为非易失性存储介质中的用于图像处理的神经网络模型的训练装置的运行提供环境。该内存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种用于图像处理的神经网络模型的训练方法。该电子设备可以是终端,也可以是服务器。终端可以是个人计算机或者移动电子设备,移动电子设备包括手机、平板电脑、个人数字助理或者穿戴式设备等中的至少一种。服务器可以用独立的服务器或者是多个物理服务器组成的服务器集群来实现。本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图1中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
图2为一个实施例中用于图像处理的神经网络模型的训练方法的流程示意图。本实施例主要以该方法应用于上述图1中的电子设备来举例说明。参照图2,该用于图像处理的神经网络模型的训练方法具体包括如下步骤:
S202,获取时间相邻的视频帧。
具体地,视频是指可分割为按时间排列的静态图像序列的数据。将视频分割得到的静态图像可作为视频帧。时间相邻的视频帧是指按时序排列的视频帧中相邻的视频帧。获取的时间相邻的视频帧,具体可以是两个或多于两个且时间相邻的视频帧。比如,若按时序排列的视频帧p1,p2,p3,p4……,p1和p2为时间相邻的视频帧,p1,p2和p3也是时间相邻的视频帧。
在一个实施例中,电子设备中设置有训练样本集,在训练样本集中存储着多组时间相邻的视频帧,电子设备从训练样本集中获取任意一组时间相邻的视频帧。训练样本集中的时间相邻的视频帧可以是由电子设备根据从互联网上爬取的视频分割得到,也可以是由电子设备根据通过该电子设备包括的摄像设备录制的视频分割得到。
在一个实施例中,电子设备中可设置多个训练样本集,用户通过电子设备可以访问训练样本集,并通过电子设备选择用于进行训练的训练样本集。电子设备可检测用户触发的携带有训练样本集标识的选择指令,电子设备提取选择指令中的训练样本集标识,从训练样本集标识对应的训练样本集中获取时间相邻的视频帧。
S204,将视频帧分别经过神经网络模型输出相对应的中间图像。
其中,神经网络模型是指由多层互相连接而形成的复杂网络模型。在本实施例中,电子设备可对一个神经网络模型进行训练,训练结束后的神经网络模型可用于图像处理。神经网络模型可包括多层特征转换层,每层特征转换层都有对应的非线性变化算子,每层的非线性变化算子可以是多个,每层特征转换层中一个非线性变化算子对输入的图像进行非线性变化,得到特征图(featuremap)作为运算结果。每个特征转换层接收前一层的运算结果,经过自身的运算,对下一层输出本层的运算结果。
具体地,电子设备在获取到时间相邻的视频帧之后,将时间相邻的视频帧分别输入神经网络模型,依次通过神经网络模型的各特征转换层。在每一层特征转换层上,电子设备利用该特征转换层对应的非线性变化算子,对上一层输出的特征图中包括的像素点对应的像素值进行非线性变化,并输出当前特征转换层上的特征图。其中,如果当前特征转换层为第一级特征转换层,则上一层输出的特征图为输入的视频帧。像素点对应的像素值具体可以为像素点的RGB(Red Green Blue)三通道颜色值。
举例说明,在一个实施例中,需训练的神经网络模型具体可包括3个卷积层、5个残差模块、2个反卷积层和1个卷积层。电子设备将视频帧输入神经网络模型后,首先经过卷积层,该卷积层对应的各卷积核对输入的视频帧对应的像素值矩阵进行卷积操作,得到与该卷积层中各卷积核各自对应的像素值矩阵,亦即特征图,再将得到的各特征图共同作为下一层卷积层的输入,逐层进行非线性变化,直至最后一层卷积层输出相应卷积核数量的特征图,再按照各特征图对应的偏置项对各特征图中对应的像素位置的像素值进行运算,合成一个特征图作为输出的中间图像。
电子设备可设置在其中一层卷积层的卷积操作后进行下采样操作。下采样的方式具体可以是均值采样,或者极值采样。比如,下采样的方式为对2*2像素区域进行均值,那么其中一个2*2像素区域对应的像素值矩阵为[1,2,3,4],那么下采样得到的像素值为:(1+2+3+4)/4=2.5。下采样操作后得到的特征图的分辨率减小为输入的视频帧分辨率的1/4。进一步地,电子设备需在反卷积层的反卷积操作后设置与在前的下采样操作相应的上采样操作,使得上采样操作后得到的特征图的分辨率增大为上采样操作前的特征图的分辨率的4倍,以保证输出的中间图像与输入的视频帧的分辨率一致。
其中,神经网络模型中包括的层的个数以及层的类型可自定义调整,也可根据后续的训练结果相应调整。但需满足输入神经网络模型的图像的分辨率与神经网络模型输出的图像的分辨率一致。
S206,获取时序靠前的视频帧变化至时序靠后的视频帧的光流信息。
其中,光流可表示图像中灰度模式的运动速度。图像中按照空间位置排列的所有光流组成光流场。光流场表征了图像中像素点的变化情况,可用来确定图像间相应像素点的运动信息。
时序靠前的视频帧,是指相邻的视频帧中时间戳较早的视频帧;时序靠后的视频帧,则是指相邻的视频帧中时间戳较晚的视频帧。比如时间相邻的视频帧按时序排列依次为x1,x2和x3,则x1相对于x2和x3为时序靠前的视频帧;x2相对于x1为时序靠后的视频帧,x2相对于x3为时序靠前的视频帧。
时序靠前的视频帧变化至时序靠后的视频帧的光流信息,可由时序靠前的视频帧与时序靠后的视频帧之间的光流场表示。在本实施例中,用于计算光流信息的方式具体可以是根据光流约束方程得到的基于微分的光流算法、基于区域匹配的光流算法、基于能量的光流算法、基于相位的光流算法和神经动力学光流算法等中的任意一种。
具体地,电子设备可按照用于计算光流信息的方式计算时序靠前的视频帧变化至时序靠后的视频帧的光流信息,得到时序靠前的视频帧中每个像素点相应的于时序靠后的视频帧中相应的像素点的光流。电子设备也可从时序靠前的视频帧中选取特征点,采用稀疏光流计算方式,计算选取的特征点相应的光流。比如,时序靠前的视频帧中像素点A的位置为(x1,y1),时序靠后的视频帧中像素点A的位置为(x2,y2),那么像素点A的速度矢量时序靠前的视频帧中各像素点变化至时序靠后的视频帧中相应像素点的速度矢量形成的矢量场,即为时序靠前的视频帧变化至时序靠后的视频帧的光流场。
在一个实施例中,当时间相邻的视频帧是多于两个且时间相邻的视频帧时,电子设备可计算时间相邻的视频帧中相邻的两帧视频帧之间的光流信息,也可以计算时间相邻的视频帧中不相邻的两帧视频帧之间的光流信息。比如,时间相邻的视频帧按时序排列依次为x1,x2和x3,电子设备可计算x1与x2之间的光流信息,x2与x3之间的光流信息;还可以计算x1与x3之间的光流信息。
在一个实施例中,电子设备在按照用于计算光流信息的方式计算时序靠前的视频帧变化至时序靠后的视频帧的光流信息时,也可确定计算得到的光流信息的置信度。光流信息的置信度与光流信息一一对应,用于表示相应的光流信息的可信程度。光流信息的置信度越高,表示计算得到的光流信息的表征的图像中像素点的运动信息越准确。
S208,获取时序靠前的视频帧所对应的中间图像按光流信息变化后的图像。
具体地,电子设备可将时序靠前的视频帧所对应的中间图像中包括的像素点,按照时序靠前的视频帧变化至时序靠后的视频帧的光流信息进行变化,得到变化后的像素点形成的图像,亦即时序靠后的视频帧预期所对应的中间图像的像素值分布。
在一个实施例中,当时间相邻的视频帧是多于两个且时间相邻的视频帧时,电子设备时间相邻的视频帧中相邻的两帧视频帧之间的光流信息,对相邻的两帧视频帧中时序靠前的视频帧所对应的中间图像按照该光流信息得到相邻的两帧视频帧中时序靠后的视频帧预期所对应的之间图像。比如,时间相邻的视频帧按时序排列依次为x1,x2和x3,神经网络模型输出中间图像相应排序依次为y1,y2和y3。x1变化至x2的光流信息为g1,x2变化至x3的光流信息为g2,电子设备可将y1按照g1变化为z2,将z2按照g2变化为z3;z2为x2预期对应的中间图像,z3为x3预期对应的中间图像。
电子设备也可按照时间相邻的视频帧中不相邻的两帧视频帧之间的光流信息,对不相邻的两帧视频帧中时序靠前的视频帧所对应的中间图像按照该光流信息得到不相邻的两帧视频帧中时序靠后的视频帧预期所对应的之间图像。比如,时间相邻的视频帧按时序排列依次为x1,x2和x3,神经网络模型输出中间图像相应排序依次为y1,y2和y3。x1变化至x3的光流信息为g3,电子设备可将y1按照g3变化为z3,z3为x3预期对应的中间图像。
在一个实施例中,电子设备也可将时序靠前的视频帧所对应的中间图像中包括的像素点按照相应的光流信息变化时,将光流信息的置信度作为权重,修正变化后的像素点形成的图像。
S210,获取时序靠后的视频帧所对应的中间图像与变化后的图像间的时间损耗。
其中,时间损耗可用于表征时间相邻的视频帧在时域上的变化,与时间相邻的视频帧通过神经网络模型后得到的图像之间在时域上的变化的差异。具体地,电子设备可将时序靠后的视频帧所对应的中间图像,与将时序靠后的视频帧所对应的中间图像,按照时序靠前的视频帧变化至时序靠后的视频帧的光流信息变化后的图像进行比较,得到两者之间的差异,根据该差异确定时序靠后的视频帧所对应的中间图像与变化后的图像间的时间损耗。
举例说明,假设时间相邻的视频帧的帧数为两帧,时序靠前的视频帧为xt-1,时序靠后的视频帧为xt,且xt-1变化至xt的光流信息为Gt。xt-1经过神经网络模型后输出的中间图像为yt-1,xt经过神经网络模型后输出的中间图像为yt。电子设备可将yt-1按照xt-1变化至xt的光流信息Gt进行变化,得到zt,zt可作为预期的时序靠后的视频帧所对应的神经网络模型后输出的图像。电子设备可再比较yt与zt的差异,从而得到yt与zt间的时间损耗。
举例说明,假设时间相邻的视频帧按时序排列依次为x1,x2和x3,神经网络模型输出中间图像相应排序依次为y1,y2和y3。x1变化至x2的光流信息为g1,x2变化至x3的光流信息为g2,x1变化至x3的光流信息为g3。电子设备可将y1按照g1变化为z2,将z2按照g2变化为z3,将y1按照g3变化为z’3;z2为x2预期对应的中间图像,z3与z’3均为x3预期对应的中间图像,电子设备可比较y2与z2的差异,得到y2与z2的时间损耗;电子设备可比较y3与z3的差异,以及y3与z’3的差异,根据z3与z’3的权重得到y3与z3和z’3的时间损耗。
S212,获取中间图像与目标特征图像的特征损耗。
其中,神经网络模型用于对图像进行特征转换时需转换至的图像特征即为目标特征图像所对应的图像特征。特征损耗为神经网络模型输出的中间图像所对应的图像特征,与目标特征图像所对应的图像特征之间的差异。图像特征具体可以是图像颜色特征、图像光影特征或者图像风格特征等。相应地,目标特征图像具体可以是目标颜色特征图像、目标光影特征图像或者目标风格特征图像等;中间图像与目标特征图像的特征损耗具体可以是颜色特征损耗、光影特征损耗或者风格特征损耗等。
具体地,电子设备可先确定需训练至的图像特征,并获取符合该图像特征的图像作为目标特征图像。电子设备可再采用训练完成的用于提取图像特征的神经网络模型分别提取中间图像与目标特征图像对应的图像特征,再将中间图像对应的图像特征与目标特征图像对应的图像特征进行比较,得到两者之间的差异,根据该差异确定中间图像与目标特征图像的特征损耗。
举例说明,假设神经网络模型用于对图像进行图像风格特征转换,目标风格特征图像为S,时间相邻的视频帧的帧数为两帧,时序靠前的视频帧为xt-1,时序靠后的视频帧为xt。xt-1经过神经网络模型后输出的中间图像为yt-1,xt经过神经网络模型后输出的中间图像为yt。电子设备可分别比较yt-1与yt和S的差异,从而得到yt-1与S的风格特征损耗以及yt与S的风格特征损耗。
S214,根据时间损耗和特征损耗调整神经网络模型,返回获取时间相邻的视频帧的步骤继续训练,直至神经网络模型满足训练结束条件。
具体地,训练神经网络模型的过程为确定需训练的神经网络模型中各特征转换层对应的非线性变化算子的过程。在确定各非线性变化算子时,电子设备可以先初始化需训练的神经网络模型中各特征转换层对应的非线性变化算子,并在后续的训练过程中,不断优化该初始化的非线性变化算子,并将优化得到的最优的非线性变化算子作为训练好的神经网络模型的非线性变化算子。
在一个实施例中,电子设备可根据时间损耗构建时间域损失函数,根据特征损耗构建空间域损失函数,合并得到混合损失函数,再计算混合损失函数随神经网络模型中各特征转换层对应的非线性变化算子的变化率。电子设备可根据计算得到的变化率调整神经网络模型中各特征转换层对应的非线性变化算子,使得计算得到的变化率变小,以使得神经网络模型得到训练优化。
在一个实施例中,训练结束条件可以是对神经网络模型的训练次数达到预设训练次数。电子设备可在对神经网络模型进行训练时,对训练次数进行计数,当计数达到预设训练次数时,电子设备可判定神经网络模型满足训练结束条件,并结束对神经网络模型的训练。
在一个实施例中,训练结束条件也可以是混合损失函数满足收敛条件。电子设备可在对神经网络模型进行训练时,对每次训练完成后计算得到的混合损失函数随神经网络模型中各特征转换层对应的非线性变化算子的变化率进行记录,当计算得到的该变化率逐渐靠近于某一特定数值时,电子设备可判定神经网络模型满足训练结束条件,并结束对神经网络模型的训练。
上述用于图像处理的神经网络模型的训练方法,在对神经网络模型进行训练时,将时间损耗与特征损耗协同作为反馈调整依据来调整神经网络模型,以训练得到可用于图像处理的神经网络模型。其中,在对神经网络模型进行训练时,通过将时间相邻的视频帧作为输入,以对时序靠前的视频帧所对应的中间图像,按照时序靠前的视频帧变化至时序靠后的视频帧的光流信息,得到时序靠后的视频帧预期所对应的中间图像,从而得到时间损耗。该时间损耗反映了时间相邻的视频帧各自对应的中间图像之间在时间一致性上的损耗。训练后的神经网络模型在对视频进行特征转换时,会考虑视频的各视频帧之间的时间一致性,极大地减少了特征转换过程中引入的闪烁噪声,从而提高了对视频进行特征转换时的转换效果。
在一个实施例中,该用于图像处理的神经网络模型的训练方法中根据时间损耗和特征损耗调整神经网络模型具体包括:获取中间图像与相应的视频帧的内容损耗;根据时间损耗、特征损耗和内容损耗,生成训练代价;按照训练代价调整神经网络模型。
其中,内容损耗是指通过神经网络模型输出的中间图像与相应的输入的视频帧之间在图像内容上的差异。具体地,电子设备可采用训练完成的用于提取图像内容特征的神经网络模型分别提取中间图像与相应的视频帧对应的图像内容特征,再将中间图像对应的图像内容特征与相应的视频帧对应的图像内容特征进行比较,得到两者之间的差异,根据该差异确定中间图像与相应的视频帧的内容损耗。
在一个实施例中,电子设备可根据时间损耗构建时间域损失函数,再根据特征损耗和内容损耗联合构建空间域损失函数,并生成与时间域损失函数正相关,且与空间域损失函数正相关的训练代价。电子设备可再计算训练代价随神经网络模型中各特征转换层对应的非线性变化算子的变化率,并根据计算得到的变化率调整神经网络模型中各特征转换层对应的非线性变化算子,使得计算得到的变化率变小,以使得神经网络模型得到训练优化。
在一个实施例中,电子设备还可对神经网络模型输出的中间图像进行去噪处理。具体地,电子设备可基于实现全变分(Total Variation,TV)的去噪算法,确定用于对中间图像的边缘像素点进行去噪处理的全变分最小化项,并将该全变分最小化项联合特征损耗和内容损耗联合构建空间域损失函数,以进行神经网络模型训练。这种采用总变分最小化项来对图像进行去噪处理的方式提高了神经网络模型对视频进行特征转换时的转换效果。
在本实施例中,在对神经网络模型进行训练时,将时间损耗、与特征损耗与内容损耗协同作为反馈调整依据来调整神经网络模型,以训练得到可用于图像处理的神经网络模型,在时间、内容与特征三个维度保证了图像特征转换的准确性,提高了训练得到的神经网络模型对视频进行特征转换时的转换效果。
在一个实施例中,步骤S210具体包括:将时序靠后的视频帧所对应的中间图像与变化后的图像中对应的像素位置的数值相减,得到差异分布图;根据差异分布图,确定时序靠后的视频帧所对应的中间图像与变化后的图像间的时间损耗。
具体地,电子设备将时序靠后的视频帧所对应的中间图像与变化后的图像中对应的像素位置的数值相减得到的差异分布图,具体可以是像素值差异矩阵。电子设备可对差异分布图进行降维运算得到时间损耗数值。电子设备在首次计算时间损耗时选定采用的降维运算方式后,后续的时间损耗计算均采用选定的该降维运算方式。其中,降维运算具体可以是均值降维或者极值降维。比如,像素值差异矩阵为[1,2,3,4],那么均值降维运算得到的时间损耗为:(1+2+3+4)/4=2.5。
在本实施例中,通过时序靠后的视频帧所对应的中间图像与变化后的图像中对应的像素位置的像素值的差异,计算时序靠后的视频帧所对应的中间图像与变化后的图像间的时间损耗,使得时间损耗的计算更为准确。
在一个实施例中,该用于图像处理的神经网络模型的训练方法中获取中间图像与相应的视频帧的内容损耗的步骤包括:将视频帧与相应的中间图像输入评价网络模型;获取评价网络模型所包括的层输出的,与视频帧对应的特征图和与中间图像对应的特征图;根据中间图像所对应的特征图和相应的视频帧所对应的特征图,确定中间图像与相应的视频帧的内容损耗。
其中,评价网络模型用于提取输入图像的图像特征。在本实施例中,评价网络模型具体可以是Alexnet网络模型、VGG(Visual Geometry Group视觉几何组)网络模型或者GoogLeNet网络。评价网络模型所包括的层对应有多个特征提取因子,每个特征提取因子提取不同的特征。特征图是通过评价网络模型中的层的变化算子对输入的图像处理得到的图像处理结果,图像处理结果为图像特征矩阵,该图像特征矩阵由通过变化算子对输入的图像矩阵进行处理得到的响应值构成。
具体地,电子设备将视频帧与相应的中间图像输入评价网络模型后,评价网络模型可得到与输入的视频帧对应的像素值矩阵以及与相应的中间图像对应的像素值矩阵。评价网络模型所包括的层按照该层所对应的特征提取因子,对输入的视频帧或中间图像对应的像素值矩阵进行操作,得到相应的响应值构成特征图。评价网络模型中不同的层提取的特征不同。电子设备可事先设置将评价网络模型中提取图像内容特征的层输出的特征图作为进行内容损耗计算的特征图。其中,评价网络模型中提取图像内容特征的层具体可以是一层,也可以是多层。
电子设备在获取中间图像所对应的特征图和相应的视频帧所对应的特征图后,将中间图像所对应的特征图和相应的视频帧所对应的特征图中对应的像素位置的像素值相减,得到两者之间的内容差异矩阵,再对内容差异矩阵进行降维运算得到内容损耗。
在本实施例中,通过评价网络模型来提取特征转换前的视频帧与特征转换后的中间图像的图像内容特征,利用输出的提取了图像内容特征的特征图来计算相应输入的图像之间的内容损耗,使得内容损耗的计算更为准确。
在一个实施例中,步骤S212具体包括:将中间图像与目标特征图像输入评价网络模型;获取评价网络模型所包括的层输出的,与中间图像对应的特征图和与目标特征图像对应的特征图;根据中间图像所对应的特征图和目标特征图像所对应的特征图,确定中间图像与目标特征图像的特征损耗。
具体地,电子设备可事先设置将评价网络模型中提取图像特征的层输出的特征图作为进行特征损耗计算的特征图。其中,评价网络模型中提取图像特征的层具体可以是一层,也可以是多层。在本实施例中,通过评价网络模型来目标特征图像与特征转换后的中间图像的图像特征,利用输出的提取了图像特征的特征图来计算相应输入的图像之间的特征损耗,使得特征损耗的计算更为准确。
进一步地,在一个实施例中,该用于图像处理的神经网络模型的训练方法中根据中间图像所对应的特征图和目标特征图像所对应的特征图,确定中间图像与目标特征图像的特征损耗的步骤具体包括:根据中间图像所对应的特征图,确定中间图像所对应的特征矩阵;根据目标特征图像所对应的特征图,确定目标特征图像所对应的特征矩阵;将中间图像所对应的特征矩阵和目标特征图像所对应的特征矩阵中对应位置的数值相减,得到特征差异矩阵;根据特征差异矩阵,确定中间图像与目标特征图像间的特征损耗。
在一个实施例中,神经网络模型用于对图像进行图像风格特征转换,中间图像所对应的特征矩阵具体可以是风格特征矩阵。风格特征矩阵是反映图像风格特征的矩阵。风格特征矩阵具体可以是格拉姆矩阵(Gram Matrix)。电子设备可通过将中间图像所对应的特征图求取内积得到相应的格拉姆矩阵作为中间图像所对应的风格特征矩阵,将目标风格图像所对应的特征图求取内积得到相应的格拉姆矩阵作为目标风格图像所对应的风格特征矩阵。电子设备可再将中间图像所对应的风格特征矩阵和目标风格图像所对应的风格特征矩阵中对应位置的数值相减,得到风格差异特征矩阵;根据风格差异特征矩阵,再对风格差异特征矩阵进行降维运算得到风格特征损耗。
在本实施例中,具体采用了可反映图像特征的特征矩阵具体计算特征转换得到的图像与目标特征图像的特征损耗,使得特征损耗的计算更为准确。
举例说明,电子设备可选取VGG-19网络模型作为评价网络模型,该网络模型包括16层卷积层和5层池化层。试验表明该模型的第四层卷积层提取的特征能体现图像内容特征,该模型的第一、二、三、四层卷积层提取的特征能体现图像风格特征。电子设备可获取第四层卷积层输出的中间图像所对应的特征图和相应的视频帧所对应的特征图,计算中间图像与相应的视频帧的内容损耗。电子设备可获取第一、二、三、四层卷积层输出的中间图像所对应的特征图和相应的视频帧所对应的特征图,计算中间图像与相应的视频帧的风格特征损耗。
在一个实施例中,该用于图像处理的神经网络模型的训练方法中按照训练代价调整神经网络模型,包括:按照神经网络模型所包括的层的顺序,逆序确定训练代价随各层所对应的非线性变化算子的变化率;按逆序调整神经网络模型所包括的层所对应的非线性变化算子,使得训练代价随相应调整的层所对应的非线性变化算子的变化率减小。
具体地,图像被输入神经网络模型后,每经过一层则进行一次非线性变化,并将输出的运算结果作为下一层的输入。电子设备可按照神经网络模型所包括的层的顺序,从神经网络模型所包括的最后一层起,确定训练代价随当前层所对应的非线性变化算子的变化率,再依次逆序确定训练代价随各层所对应的非线性变化算子的变化率。电子设备可再按逆序依次调整神经网络模型所包括的层所对应的非线性变化算子,使得训练代价随相应调整的层所对应的非线性变化算子的变化率减小。
举例说明,假设训练代价为L,按照神经网络模型所包括的层的顺序,逆序第一层所对应的非线性变化算子z,则L随z的变化率为逆序第二层所对应的非线性变化算子为b,则L随b的变化率为逆序第三层所对应的非线性变化算子为c,则L随c的变化率为在求解变化率时,链式求导会一层一层的将梯度传导到在前的层。在求解变化率至神经网络模型所包括的第一层,电子设备可逆序依次调整非线性变化算子z、b、c至神经网络模型所包括的第一层对应的非线性变化算子,使得最后一层求得的变化率减小。
在一个实施例中,训练代价具体可表示为:
其中,Lspatial(xi,yi,s)表示空间域损失函数;Ltemporal(yt,yt-1)表示时间域损失函数,由时间损耗生成,λ为时间域损失函数相应的权重。空间域损失函数具体可表示为:
其中,l表示评价网络模型中提取图像特征的层;表示输入神经网络模型的图像与神经网络模型输出的图像之间的内容损耗;表示神经网络模型输出的图像与目标特征图像之间的特征损耗;Rtv表示全变分最小化项;α、β和γ为各项损耗相应的权重。比如,α的取值可为1,β的取值可为1,γ的取值可为104。
在本实施例中,通过反向传播方式求解训练代价随神经网络模型各层所对应的非线性变化算子的变化率,通过调节神经网络模型各层所对应的非线性变化算子使得计算得到的变化率减小,以训练神经网络模型,使得训练得到的神经网络模型用于进行图像转换时的效果更优。
如图3所示,在一个具体的实施例中,用于图像处理的神经网络模型的训练方法具体包括以下步骤:
S302,获取时间相邻的视频帧。
S304,将视频帧分别经过神经网络模型输出相对应的中间图像。
S306,获取时序靠前的视频帧变化至时序靠后的视频帧的光流信息。
S308,获取时序靠前的视频帧所对应的中间图像按光流信息变化后的图像。
S310,将时序靠后的视频帧所对应的中间图像与变化后的图像中对应的像素位置的数值相减,得到差异分布图;根据差异分布图,确定时序靠后的视频帧所对应的中间图像与变化后的图像间的时间损耗。
S312,将中间图像与目标特征图像输入评价网络模型;获取评价网络模型所包括的层输出的,与中间图像对应的特征图和与目标特征图像对应的特征图;根据中间图像所对应的特征图,确定中间图像所对应的特征矩阵;根据目标特征图像所对应的特征图,确定目标特征图像所对应的特征矩阵;将中间图像所对应的特征矩阵和目标特征图像所对应的特征矩阵中对应位置的数值相减,得到特征差异矩阵;根据特征差异矩阵,确定中间图像与目标特征图像间的特征损耗。
S314,将视频帧与相应的中间图像输入评价网络模型;获取评价网络模型所包括的层输出的,与视频帧对应的特征图和与中间图像对应的特征图;根据中间图像所对应的特征图和相应的视频帧所对应的特征图,确定中间图像与相应的视频帧的内容损耗。
S316,根据时间损耗、特征损耗和内容损耗,生成训练代价。
S318,按照神经网络模型所包括的层的顺序,逆序确定训练代价随各层所对应的非线性变化算子的变化率;按逆序调整神经网络模型所包括的层所对应的非线性变化算子,使得训练代价随相应调整的层所对应的非线性变化算子的变化率减小。
S320,判断神经网络模型是否满足训练结束条件;若是,则跳转至步骤S322;若否,则跳转至步骤S302。
S322,结束训练神经网络模型。
在本实施例中,在对神经网络模型进行训练时,将时间损耗与特征损耗协同作为反馈调整依据来调整神经网络模型,在时间、特征与内容三个维度来训练神经网络模型,提高了神经网络模型的训练效果。
图4示出了一个实施例中用于图像处理的神经网络模型的训练架构图。参考图4,本实施例中神经网络模型由3个卷积层,5个残差模块,2个反卷积层和1个卷积层组成,电子设备可将时序靠前的视频帧为xt-1,时序靠后的视频帧为xt分别输入神经网络模型中,得到神经网络模型输出的中间图像为yt-1和yt。电子设备可按照xt-1与xt之间的光流信息,得到yt-1与yt的时间域损失函数;再将xt-1、xt、yt-1、yt和目标特征图像S输入评价网络模型,通过评价网络模型所包括的层输出的特征图,得到xt-1与yt-1、xt与yt的内容损耗,yt-1与S、yt与S的特征损耗,从而得到空间域损失函数。
在一个实施例中,电子设备按照该用于特征图像处理的神经网络模型的训练方法对神经网络模型训练完成后,可将该神经网络模型用于进行视频特征转换。电子设备可将需要进行特征转换的视频分割为时间相邻的视频帧,依次将分割得到的视频帧输入训练完成的神经网络模型,得到每帧视频帧对应的特征准换后的输出图像,再将各输出图像按照所对应的输入视频的时间顺序合并,得到特征转换后的视频。其中,神经网络模型可同时对多帧视频帧进行特征转换。
如图5所示,在一个实施例中,提供一种用于图像处理的神经网络模型的训练装置500,该装置具体包括:输入获取模块501、输出获取模块502、损耗获取模块503和模型调整模块504。
输入获取模块501,用于获取时间相邻的视频帧。
输出获取模块502,用于将视频帧分别经过神经网络模型输出相对应的中间图像。
损耗获取模块503,用于获取时序靠前的视频帧变化至时序靠后的视频帧的光流信息;获取时序靠前的视频帧所对应的中间图像按光流信息变化后的图像;获取时序靠后的视频帧所对应的中间图像与变化后的图像间的时间损耗;获取中间图像与目标特征图像的特征损耗。
模型调整模块504,用于根据时间损耗和特征损耗调整神经网络模型,返回获取时间相邻的视频帧的步骤继续训练,直至神经网络模型满足训练结束条件。
上述用于图像处理的神经网络模型的训练装置,在对神经网络模型进行训练时,将时间损耗与特征损耗协同作为反馈调整依据来调整神经网络模型,以训练得到可用于图像处理的神经网络模型。其中,在对神经网络模型进行训练时,通过将时间相邻的视频帧作为输入,以对时序靠前的视频帧所对应的中间图像,按照时序靠前的视频帧变化至时序靠后的视频帧的光流信息,得到时序靠后的视频帧预期所对应的中间图像,从而得到时间损耗。该时间损耗反映了时间相邻的视频帧各自对应的中间图像之间在时间一致性上的损耗。训练后的神经网络模型在对视频进行特征转换时,会考虑视频的各视频帧之间的时间一致性,极大地减少了特征转换过程中引入的闪烁噪声,从而提高了对视频进行特征转换时的转换效果。
在一个实施例中,模型调整模块504还用于获取中间图像与相应的视频帧的内容损耗;根据时间损耗、特征损耗和内容损耗,生成训练代价;按照训练代价调整神经网络模型。
在本实施例中,在对神经网络模型进行训练时,将时间损耗、与特征损耗与内容损耗协同作为反馈调整依据来调整神经网络模型,以训练得到可用于图像处理的神经网络模型,在时间、内容与特征三个维度保证了图像特征转换的准确性,提高了训练得到的神经网络模型对视频进行特征转换时的转换效果。
在一个实施例中,模型调整模块504还用于将视频帧与相应的中间图像输入评价网络模型;获取评价网络模型所包括的层输出的,与视频帧对应的特征图和与中间图像对应的特征图;根据中间图像所对应的特征图和相应的视频帧所对应的特征图,确定中间图像与相应的视频帧的内容损耗。
在本实施例中,通过评价网络模型来提取特征转换前的视频帧与特征转换后的中间图像的图像内容特征,利用输出的提取了图像内容特征的特征图来计算相应输入的图像之间的内容损耗,使得内容损耗的计算更为准确。
在一个实施例中,模型调整模块504还用于按照神经网络模型所包括的层的顺序,逆序确定训练代价随各层所对应的非线性变化算子的变化率;按逆序调整神经网络模型所包括的层所对应的非线性变化算子,使得训练代价随相应调整的层所对应的非线性变化算子的变化率减小。
在本实施例中,通过反向传播方式求解训练代价随神经网络模型各层所对应的非线性变化算子的变化率,通过调节神经网络模型各层所对应的非线性变化算子使得计算得到的变化率减小,以训练神经网络模型,使得训练得到的神经网络模型用于进行图像转换时的效果更优。
在一个实施例中,损耗获取模块503还用于将时序靠后的视频帧所对应的中间图像与变化后的图像中对应的像素位置的数值相减,得到差异分布图;根据差异分布图,确定时序靠后的视频帧所对应的中间图像与变化后的图像间的时间损耗。
在本实施例中,通过时序靠后的视频帧所对应的中间图像与变化后的图像中对应的像素位置的像素值的差异,计算时序靠后的视频帧所对应的中间图像与变化后的图像间的时间损耗,使得时间损耗的计算更为准确。
在一个实施例中,损耗获取模块503还用于将中间图像与目标特征图像输入评价网络模型;获取评价网络模型所包括的层输出的,与中间图像对应的特征图和与目标特征图像对应的特征图;根据中间图像所对应的特征图和目标特征图像所对应的特征图,确定中间图像与目标特征图像的特征损耗。
在本实施例中,通过评价网络模型来目标特征图像与特征转换后的中间图像的图像特征,利用输出的提取了图像特征的特征图来计算相应输入的图像之间的特征损耗,使得特征损耗的计算更为准确。
在一个实施例中,损耗获取模块503还用于根据中间图像所对应的特征图,确定中间图像所对应的特征矩阵;根据目标特征图像所对应的特征图,确定目标特征图像所对应的特征矩阵;将中间图像所对应的特征矩阵和目标特征图像所对应的特征矩阵中对应位置的数值相减,得到特征差异矩阵;根据特征差异矩阵,确定中间图像与目标特征图像间的特征损耗。
在本实施例中,具体采用了可反映图像特征的特征矩阵具体计算特征转换得到的图像与目标特征图像的特征损耗,使得特征损耗的计算更为准确。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (14)
1.一种用于图像处理的神经网络模型的训练方法,所述方法包括:
获取时间相邻的视频帧;
将所述视频帧分别经过神经网络模型输出相对应的中间图像;
获取时序靠前的所述视频帧变化至时序靠后的所述视频帧的光流信息;
获取时序靠前的视频帧所对应的中间图像按所述光流信息变化后的图像;
获取时序靠后的视频帧所对应的中间图像与变化后的图像间的时间损耗;
获取所述中间图像与目标特征图像的特征损耗;
根据所述时间损耗和所述特征损耗调整所述神经网络模型,返回所述获取时间相邻的视频帧的步骤继续训练,直至所述神经网络模型满足训练结束条件。
2.根据权利要求1所述的方法,其特征在于,所述根据所述时间损耗和所述特征损耗调整所述神经网络模型,包括:
获取所述中间图像与相应的视频帧的内容损耗;
根据所述时间损耗、所述特征损耗和所述内容损耗,生成训练代价;
按照所述训练代价调整所述神经网络模型。
3.根据权利要求2所述的方法,其特征在于,所述获取所述中间图像与相应的视频帧的内容损耗,包括:
将所述视频帧与相应的中间图像输入评价网络模型;
获取所述评价网络模型所包括的层输出的,与所述视频帧对应的特征图和与所述中间图像对应的特征图;
根据所述中间图像所对应的特征图和相应的所述视频帧所对应的特征图,确定所述中间图像与相应的视频帧的内容损耗。
4.根据权利要求2所述的方法,其特征在于,所述按照所述训练代价调整所述神经网络模型,包括:
按照所述神经网络模型所包括的层的顺序,逆序确定所述训练代价随各所述层所对应的非线性变化算子的变化率;
按所述逆序调整所述神经网络模型所包括的层所对应的非线性变化算子,使得所述训练代价随相应调整的所述层所对应的非线性变化算子的变化率减小。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述获取时序靠后的视频帧所对应的中间图像与变化后的图像间的时间损耗,包括:
将所述时序靠后的视频帧所对应的中间图像与变化后的图像中对应的像素位置的数值相减,得到差异分布图;
根据所述差异分布图,确定时序靠后的视频帧所对应的中间图像与变化后的图像间的时间损耗。
6.根据权利要求1至4中任一项所述的方法,其特征在于,所述获取所述中间图像与目标特征图像的特征损耗,包括:
将所述中间图像与目标特征图像输入评价网络模型;
获取所述评价网络模型所包括的层输出的,与所述中间图像对应的特征图和与所述目标特征图像对应的特征图;
根据所述中间图像所对应的特征图和所述目标特征图像所对应的特征图,确定所述中间图像与目标特征图像的特征损耗。
7.根据权利要求6所述的方法,其特征在于,所述根据所述中间图像所对应的特征图和所述目标特征图像所对应的特征图,确定所述中间图像与目标特征图像的特征损耗,包括:
根据所述中间图像所对应的特征图,确定所述中间图像所对应的特征矩阵;
根据所述目标特征图像所对应的特征图,确定所述目标特征图像所对应的特征矩阵;
将所述中间图像所对应的特征矩阵和所述目标特征图像所对应的特征矩阵中对应位置的数值相减,得到特征差异矩阵;
根据所述特征差异矩阵,确定所述中间图像与所述目标特征图像间的特征损耗。
8.一种用于图像处理的神经网络模型的训练装置,其特征在于,所述装置包括:
输入获取模块,用于获取时间相邻的视频帧;
输出获取模块,用于将所述视频帧分别经过神经网络模型输出相对应的中间图像;
损耗获取模块,用于获取时序靠前的所述视频帧变化至时序靠后的所述视频帧的光流信息;获取时序靠前的视频帧所对应的中间图像按所述光流信息变化后的图像;获取时序靠后的视频帧所对应的中间图像与变化后的图像间的时间损耗;获取所述中间图像与目标特征图像的特征损耗;
模型调整模块,用于根据所述时间损耗和所述特征损耗调整所述神经网络模型,返回所述获取时间相邻的视频帧的步骤继续训练,直至所述神经网络模型满足训练结束条件。
9.根据权利要求8所述的装置,其特征在于,所述模型调整模块还用于获取所述中间图像与相应的视频帧的内容损耗;根据所述时间损耗、所述特征损耗和所述内容损耗,生成训练代价;按照所述训练代价调整所述神经网络模型。
10.根据权利要求9所述的装置,其特征在于,所述模型调整模块还用于将所述视频帧与相应的中间图像输入评价网络模型;获取所述评价网络模型所包括的层输出的,与所述视频帧对应的特征图和与所述中间图像对应的特征图;根据所述中间图像所对应的特征图和相应的所述视频帧所对应的特征图,确定所述中间图像与相应的视频帧的内容损耗。
11.根据权利要求9所述的装置,其特征在于,所述模型调整模块还用于按照所述神经网络模型所包括的层的顺序,逆序确定所述训练代价随各所述层所对应的非线性变化算子的变化率;按所述逆序调整所述神经网络模型所包括的层所对应的非线性变化算子,使得所述训练代价随相应调整的所述层所对应的非线性变化算子的变化率减小。
12.根据权利要求8至11中任一项所述的装置,其特征在于,所述损耗获取模块还用于将所述时序靠后的视频帧所对应的中间图像与变化后的图像中对应的像素位置的数值相减,得到差异分布图;根据所述差异分布图,确定时序靠后的视频帧所对应的中间图像与变化后的图像间的时间损耗。
13.根据权利要求8至11中任一项所述的装置,其特征在于,所述损耗获取模块还用于将所述中间图像与目标特征图像输入评价网络模型;获取所述评价网络模型所包括的层输出的,与所述中间图像对应的特征图和与所述目标特征图像对应的特征图;根据所述中间图像所对应的特征图和所述目标特征图像所对应的特征图,确定所述中间图像与目标特征图像的特征损耗。
14.根据权利要求13所述的装置,其特征在于,所述损耗获取模块还用于根据所述中间图像所对应的特征图,确定所述中间图像所对应的特征矩阵;根据所述目标特征图像所对应的特征图,确定所述目标特征图像所对应的特征矩阵;将所述中间图像所对应的特征矩阵和所述目标特征图像所对应的特征矩阵中对应位置的数值相减,得到特征差异矩阵;根据所述特征差异矩阵,确定所述中间图像与所述目标特征图像间的特征损耗。
Priority Applications (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710136471.9A CN108304755B (zh) | 2017-03-08 | 2017-03-08 | 用于图像处理的神经网络模型的训练方法和装置 |
PCT/CN2018/075958 WO2018161775A1 (zh) | 2017-03-08 | 2018-02-09 | 一种用于图像处理的神经网络模型的训练方法、装置和存储介质 |
KR1020197021770A KR102281017B1 (ko) | 2017-03-08 | 2018-02-09 | 이미지 처리를 위한 신경망 모델 훈련 방법, 장치 및 저장 매체 |
JP2019524446A JP6755395B2 (ja) | 2017-03-08 | 2018-02-09 | 画像処理用のニューラルネットワークモデルのトレーニング方法、装置、及び記憶媒体 |
EP18764177.4A EP3540637B1 (en) | 2017-03-08 | 2018-02-09 | Neural network model training method, device and storage medium for image processing |
TW107107998A TWI672667B (zh) | 2017-03-08 | 2018-03-08 | 訓練用於影像處理神經網路模型的方法及裝置和電腦可讀儲存媒體 |
US16/373,034 US10970600B2 (en) | 2017-03-08 | 2019-04-02 | Method and apparatus for training neural network model used for image processing, and storage medium |
US17/187,473 US11610082B2 (en) | 2017-03-08 | 2021-02-26 | Method and apparatus for training neural network model used for image processing, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710136471.9A CN108304755B (zh) | 2017-03-08 | 2017-03-08 | 用于图像处理的神经网络模型的训练方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108304755A CN108304755A (zh) | 2018-07-20 |
CN108304755B true CN108304755B (zh) | 2021-05-18 |
Family
ID=62872021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710136471.9A Active CN108304755B (zh) | 2017-03-08 | 2017-03-08 | 用于图像处理的神经网络模型的训练方法和装置 |
Country Status (7)
Country | Link |
---|---|
US (2) | US10970600B2 (zh) |
EP (1) | EP3540637B1 (zh) |
JP (1) | JP6755395B2 (zh) |
KR (1) | KR102281017B1 (zh) |
CN (1) | CN108304755B (zh) |
TW (1) | TWI672667B (zh) |
WO (1) | WO2018161775A1 (zh) |
Families Citing this family (60)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10181195B2 (en) * | 2015-12-28 | 2019-01-15 | Facebook, Inc. | Systems and methods for determining optical flow |
US10713754B1 (en) * | 2018-02-28 | 2020-07-14 | Snap Inc. | Remote distribution of neural networks |
CN109272486B (zh) * | 2018-08-14 | 2022-07-08 | 中国科学院深圳先进技术研究院 | Mr图像预测模型的训练方法、装置、设备及存储介质 |
US10318842B1 (en) * | 2018-09-05 | 2019-06-11 | StradVision, Inc. | Learning method, learning device for optimizing parameters of CNN by using multiple video frames and testing method, testing device using the same |
CN109068174B (zh) * | 2018-09-12 | 2019-12-27 | 上海交通大学 | 基于循环卷积神经网络的视频帧率上变换方法及*** |
CN109389072B (zh) * | 2018-09-29 | 2022-03-08 | 北京字节跳动网络技术有限公司 | 数据处理方法和装置 |
CN109712228B (zh) * | 2018-11-19 | 2023-02-24 | 中国科学院深圳先进技术研究院 | 建立三维重建模型的方法、装置、电子设备及存储介质 |
CN109785249A (zh) * | 2018-12-22 | 2019-05-21 | 昆明理工大学 | 一种基于持续性记忆密集网络的图像高效去噪方法 |
CN111353597B (zh) * | 2018-12-24 | 2023-12-05 | 杭州海康威视数字技术股份有限公司 | 一种目标检测神经网络训练方法和装置 |
CN109919874B (zh) * | 2019-03-07 | 2023-06-02 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备及存储介质 |
CN109840598B (zh) * | 2019-04-29 | 2019-08-09 | 深兰人工智能芯片研究院(江苏)有限公司 | 一种深度学习网络模型的建立方法及装置 |
CN110532431B (zh) * | 2019-07-23 | 2023-04-18 | 平安科技(深圳)有限公司 | 短视频关键词提取方法、装置及存储介质 |
CN110378936B (zh) * | 2019-07-30 | 2021-11-05 | 北京字节跳动网络技术有限公司 | 光流计算方法、装置及电子设备 |
CN110555861B (zh) * | 2019-08-09 | 2023-04-25 | 北京字节跳动网络技术有限公司 | 光流计算方法、装置及电子设备 |
CN110677651A (zh) * | 2019-09-02 | 2020-01-10 | 合肥图鸭信息科技有限公司 | 一种视频压缩方法 |
CN110599421B (zh) * | 2019-09-12 | 2023-06-09 | 腾讯科技(深圳)有限公司 | 模型训练方法、视频模糊帧转换方法、设备及存储介质 |
US20210096934A1 (en) * | 2019-10-01 | 2021-04-01 | Shanghai United Imaging Intelligence Co., Ltd. | Systems and methods for enhancing a patient positioning system |
CN110717593B (zh) * | 2019-10-14 | 2022-04-19 | 上海商汤临港智能科技有限公司 | 神经网络训练、移动信息测量、关键帧检测的方法及装置 |
US11023791B2 (en) * | 2019-10-30 | 2021-06-01 | Kyocera Document Solutions Inc. | Color conversion using neural networks |
CN110753225A (zh) * | 2019-11-01 | 2020-02-04 | 合肥图鸭信息科技有限公司 | 一种视频压缩方法、装置及终端设备 |
CN110830848B (zh) * | 2019-11-04 | 2021-12-07 | 上海眼控科技股份有限公司 | 图像插值方法、装置、计算机设备和存储介质 |
CN111091144B (zh) * | 2019-11-27 | 2023-06-27 | 云南电网有限责任公司电力科学研究院 | 基于深度伪孪生网络的图像特征点匹配方法及装置 |
CN110913230A (zh) * | 2019-11-29 | 2020-03-24 | 合肥图鸭信息科技有限公司 | 一种视频帧预测方法、装置及终端设备 |
CN110913219A (zh) * | 2019-11-29 | 2020-03-24 | 合肥图鸭信息科技有限公司 | 一种视频帧预测方法、装置及终端设备 |
CN110830806A (zh) * | 2019-11-29 | 2020-02-21 | 合肥图鸭信息科技有限公司 | 一种视频帧预测方法、装置及终端设备 |
CN110913218A (zh) * | 2019-11-29 | 2020-03-24 | 合肥图鸭信息科技有限公司 | 一种视频帧预测方法、装置及终端设备 |
US11080834B2 (en) * | 2019-12-26 | 2021-08-03 | Ping An Technology (Shenzhen) Co., Ltd. | Image processing method and electronic device |
CN111083478A (zh) * | 2019-12-31 | 2020-04-28 | 合肥图鸭信息科技有限公司 | 一种视频帧重构方法、装置及终端设备 |
CN111083499A (zh) * | 2019-12-31 | 2020-04-28 | 合肥图鸭信息科技有限公司 | 一种视频帧重构方法、装置及终端设备 |
CN111083479A (zh) * | 2019-12-31 | 2020-04-28 | 合肥图鸭信息科技有限公司 | 一种视频帧预测方法、装置及终端设备 |
KR102207736B1 (ko) * | 2020-01-14 | 2021-01-26 | 한국과학기술원 | 심층 신경망 구조를 이용한 프레임 보간 방법 및 장치 |
CN111314733B (zh) * | 2020-01-20 | 2022-06-10 | 北京百度网讯科技有限公司 | 用于评估视频清晰度的方法和装置 |
CN111340905B (zh) * | 2020-02-13 | 2023-08-04 | 北京百度网讯科技有限公司 | 图像风格化方法、装置、设备和介质 |
KR102198480B1 (ko) * | 2020-02-28 | 2021-01-05 | 연세대학교 산학협력단 | 재귀 그래프 모델링을 통한 비디오 요약 생성 장치 및 방법 |
CN111340195B (zh) * | 2020-03-09 | 2023-08-22 | 创新奇智(上海)科技有限公司 | 网络模型的训练方法及装置、图像处理方法及存储介质 |
CN111524166B (zh) * | 2020-04-22 | 2023-06-30 | 北京百度网讯科技有限公司 | 视频帧的处理方法和装置 |
CN111726621B (zh) * | 2020-04-24 | 2022-12-30 | 中国科学院微电子研究所 | 一种视频转换方法及装置 |
CN111754503B (zh) * | 2020-07-01 | 2023-12-08 | 武汉楚精灵医疗科技有限公司 | 基于两通道卷积神经网络的肠镜退镜超速占比监测方法 |
CN111915573A (zh) * | 2020-07-14 | 2020-11-10 | 武汉楚精灵医疗科技有限公司 | 一种基于时序特征学习的消化内镜下病灶跟踪方法 |
US11272097B2 (en) * | 2020-07-30 | 2022-03-08 | Steven Brian Demers | Aesthetic learning methods and apparatus for automating image capture device controls |
CN112104830B (zh) * | 2020-08-13 | 2022-09-27 | 北京迈格威科技有限公司 | 视频插帧方法、模型训练方法及对应装置 |
CN111970518B (zh) * | 2020-08-14 | 2022-07-22 | 山东云海国创云计算装备产业创新中心有限公司 | 一种图像丢帧处理方法、***、设备及计算机存储介质 |
CN112016041B (zh) * | 2020-08-27 | 2023-08-04 | 重庆大学 | 基于格拉姆求和角场图像化和Shortcut-CNN的时间序列实时分类方法 |
CN112116692B (zh) * | 2020-08-28 | 2024-05-10 | 北京完美赤金科技有限公司 | 模型渲染方法、装置、设备 |
CN112055249B (zh) * | 2020-09-17 | 2022-07-08 | 京东方科技集团股份有限公司 | 一种视频插帧方法及装置 |
CN112288621B (zh) * | 2020-09-21 | 2022-09-16 | 山东师范大学 | 基于神经网络的图像风格迁移方法及*** |
WO2022070574A1 (ja) * | 2020-09-29 | 2022-04-07 | 富士フイルム株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
CN112561167B (zh) * | 2020-12-17 | 2023-10-24 | 北京百度网讯科技有限公司 | 出行推荐方法、装置、电子设备及存储介质 |
CN114760524A (zh) * | 2020-12-25 | 2022-07-15 | 深圳Tcl新技术有限公司 | 视频处理方法、装置、智能终端及计算机可读存储介质 |
EP4262207A4 (en) | 2021-02-22 | 2024-03-27 | Samsung Electronics Co., Ltd. | IMAGE ENCODING AND DECODING DEVICE USING AI AND IMAGE ENCODING AND DECODING METHOD USING SAID DEVICE |
EP4250729A4 (en) | 2021-02-22 | 2024-05-01 | Samsung Electronics Co., Ltd. | AI-BASED IMAGE ENCODING AND DECODING APPARATUS AND RELATED METHOD |
WO2022250372A1 (ko) * | 2021-05-24 | 2022-12-01 | 삼성전자 주식회사 | Ai에 기반한 프레임 보간 방법 및 장치 |
CN113542651B (zh) * | 2021-05-28 | 2023-10-27 | 爱芯元智半导体(宁波)有限公司 | 模型训练方法、视频插帧方法及对应装置 |
KR102404166B1 (ko) * | 2021-07-20 | 2022-06-02 | 국민대학교산학협력단 | 스타일 전이를 활용한 엑스레이 영상의 유체 탐지 방법 및 장치 |
WO2023004727A1 (zh) * | 2021-07-30 | 2023-02-02 | 华为技术有限公司 | 视频处理方法、视频处理装置及电子装置 |
CN113591761B (zh) * | 2021-08-09 | 2023-06-06 | 成都华栖云科技有限公司 | 一种视频镜头语言识别方法 |
CN113706414B (zh) * | 2021-08-26 | 2022-09-09 | 荣耀终端有限公司 | 视频优化模型的训练方法和电子设备 |
CN113705665B (zh) * | 2021-08-26 | 2022-09-23 | 荣耀终端有限公司 | 图像变换网络模型的训练方法和电子设备 |
CN113792654A (zh) * | 2021-09-14 | 2021-12-14 | 湖南快乐阳光互动娱乐传媒有限公司 | 视频片段的整合方法、装置、电子设备及存储介质 |
KR102658912B1 (ko) * | 2021-09-24 | 2024-04-18 | 한국과학기술원 | 도메인별 최적화를 위한 생성 신경망의 에너지 효율적인 재학습 방법 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102209246A (zh) * | 2011-05-23 | 2011-10-05 | 北京工业大学 | 一种实时视频白平衡处理*** |
CN106056628A (zh) * | 2016-05-30 | 2016-10-26 | 中国科学院计算技术研究所 | 基于深度卷积神经网络特征融合的目标跟踪方法及*** |
CN106331433A (zh) * | 2016-08-25 | 2017-01-11 | 上海交通大学 | 基于深度递归神经网络的视频去噪方法 |
CN106469443A (zh) * | 2015-08-13 | 2017-03-01 | 微软技术许可有限责任公司 | 机器视觉特征跟踪*** |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9892606B2 (en) * | 2001-11-15 | 2018-02-13 | Avigilon Fortress Corporation | Video surveillance system employing video primitives |
KR101284561B1 (ko) * | 2011-02-14 | 2013-07-11 | 충남대학교산학협력단 | 멀티 모달리티 감정인식 시스템, 감정인식 방법 및 그 기록매체 |
US8655030B2 (en) * | 2012-04-18 | 2014-02-18 | Vixs Systems, Inc. | Video processing system with face detection and methods for use therewith |
US9213901B2 (en) * | 2013-09-04 | 2015-12-15 | Xerox Corporation | Robust and computationally efficient video-based object tracking in regularized motion environments |
ITTO20130971A1 (it) * | 2013-11-29 | 2015-05-30 | Protodesign S R L | Sistema di codifica video per immagini e video da piattaforma aerea o satellitare assistita da sensori e da modello geometrico della scena |
CN104504366A (zh) * | 2014-11-24 | 2015-04-08 | 上海闻泰电子科技有限公司 | 基于光流特征的笑脸识别***及方法 |
US9741107B2 (en) * | 2015-06-05 | 2017-08-22 | Sony Corporation | Full reference image quality assessment based on convolutional neural network |
CN105160310A (zh) * | 2015-08-25 | 2015-12-16 | 西安电子科技大学 | 基于3d卷积神经网络的人体行为识别方法 |
US10157309B2 (en) * | 2016-01-14 | 2018-12-18 | Nvidia Corporation | Online detection and classification of dynamic gestures with recurrent convolutional neural networks |
US10423830B2 (en) * | 2016-04-22 | 2019-09-24 | Intel Corporation | Eye contact correction in real time using neural network based machine learning |
US10037471B2 (en) * | 2016-07-05 | 2018-07-31 | Nauto Global Limited | System and method for image analysis |
CN106203533B (zh) * | 2016-07-26 | 2019-09-20 | 厦门大学 | 基于混合训练的深度学习人脸验证方法 |
CN106407889B (zh) * | 2016-08-26 | 2020-08-04 | 上海交通大学 | 基于光流图深度学习模型在视频中人体交互动作识别方法 |
CN108073933B (zh) * | 2016-11-08 | 2021-05-25 | 杭州海康威视数字技术股份有限公司 | 一种目标检测方法及装置 |
US20180190377A1 (en) * | 2016-12-30 | 2018-07-05 | Dirk Schneemann, LLC | Modeling and learning character traits and medical condition based on 3d facial features |
-
2017
- 2017-03-08 CN CN201710136471.9A patent/CN108304755B/zh active Active
-
2018
- 2018-02-09 EP EP18764177.4A patent/EP3540637B1/en active Active
- 2018-02-09 KR KR1020197021770A patent/KR102281017B1/ko active IP Right Grant
- 2018-02-09 WO PCT/CN2018/075958 patent/WO2018161775A1/zh unknown
- 2018-02-09 JP JP2019524446A patent/JP6755395B2/ja active Active
- 2018-03-08 TW TW107107998A patent/TWI672667B/zh active
-
2019
- 2019-04-02 US US16/373,034 patent/US10970600B2/en active Active
-
2021
- 2021-02-26 US US17/187,473 patent/US11610082B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102209246A (zh) * | 2011-05-23 | 2011-10-05 | 北京工业大学 | 一种实时视频白平衡处理*** |
CN106469443A (zh) * | 2015-08-13 | 2017-03-01 | 微软技术许可有限责任公司 | 机器视觉特征跟踪*** |
CN106056628A (zh) * | 2016-05-30 | 2016-10-26 | 中国科学院计算技术研究所 | 基于深度卷积神经网络特征融合的目标跟踪方法及*** |
CN106331433A (zh) * | 2016-08-25 | 2017-01-11 | 上海交通大学 | 基于深度递归神经网络的视频去噪方法 |
Non-Patent Citations (1)
Title |
---|
Efficient detection tracking of multiple moving objects in temporal domain;L. Sindhia; K. B. Hariharan; Dhananjay Kumar;《IEEE》;20160919;全文 * |
Also Published As
Publication number | Publication date |
---|---|
EP3540637A1 (en) | 2019-09-18 |
JP2019534520A (ja) | 2019-11-28 |
KR20190100320A (ko) | 2019-08-28 |
EP3540637B1 (en) | 2023-02-01 |
EP3540637A4 (en) | 2020-09-02 |
KR102281017B1 (ko) | 2021-07-22 |
US11610082B2 (en) | 2023-03-21 |
US10970600B2 (en) | 2021-04-06 |
JP6755395B2 (ja) | 2020-09-16 |
WO2018161775A1 (zh) | 2018-09-13 |
US20210182616A1 (en) | 2021-06-17 |
CN108304755A (zh) | 2018-07-20 |
US20190228264A1 (en) | 2019-07-25 |
TW201833867A (zh) | 2018-09-16 |
TWI672667B (zh) | 2019-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304755B (zh) | 用于图像处理的神经网络模型的训练方法和装置 | |
CN111898701B (zh) | 模型训练、帧图像生成、插帧方法、装置、设备及介质 | |
US9344690B2 (en) | Image demosaicing | |
US10991150B2 (en) | View generation from a single image using fully convolutional neural networks | |
CN112396645B (zh) | 一种基于卷积残差学习的单目图像深度估计方法和*** | |
CN106600536A (zh) | 一种视频图像超分辨率重建方法及装置 | |
CN111835983B (zh) | 一种基于生成对抗网络的多曝光图高动态范围成像方法及*** | |
Vu et al. | Perception-enhanced image super-resolution via relativistic generative adversarial networks | |
CN114339030B (zh) | 一种基于自适应可分离卷积的网络直播视频稳像方法 | |
WO2023005818A1 (zh) | 噪声图像生成方法、装置、电子设备及存储介质 | |
WO2023160426A1 (zh) | 视频插帧方法、训练方法、装置和电子设备 | |
JP7463186B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN110049242A (zh) | 一种图像处理方法和装置 | |
CN111429371A (zh) | 图像处理方法、装置及终端设备 | |
CN110443754B (zh) | 一种数字图像分辨率提升的方法 | |
CN116980549A (zh) | 视频帧处理方法、装置、计算机设备和存储介质 | |
CN115909088A (zh) | 基于超分辨特征聚合的光学遥感图像目标检测方法 | |
CN110717913A (zh) | 一种图像分割方法及装置 | |
CN110830848B (zh) | 图像插值方法、装置、计算机设备和存储介质 | |
CN113674154B (zh) | 一种基于生成对抗网络的单幅图像超分辨率重建方法及*** | |
CN115471413A (zh) | 图像处理方法及装置、计算机可读存储介质和电子设备 | |
WO2021115941A1 (en) | A computer-implemented method of converting an input image into an output image based on a reference image | |
CN114119698B (zh) | 基于注意力机制的无监督单目深度估计方法 | |
JP7512150B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
Mathai et al. | Video frame interpolation using deep convolutional neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |