CN113988294A - 训练预测网络的方法、图像处理方法和装置 - Google Patents
训练预测网络的方法、图像处理方法和装置 Download PDFInfo
- Publication number
- CN113988294A CN113988294A CN202111279847.4A CN202111279847A CN113988294A CN 113988294 A CN113988294 A CN 113988294A CN 202111279847 A CN202111279847 A CN 202111279847A CN 113988294 A CN113988294 A CN 113988294A
- Authority
- CN
- China
- Prior art keywords
- histogram
- image
- foreground
- prediction
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012549 training Methods 0.000 title claims abstract description 29
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 33
- 238000004590 computer program Methods 0.000 claims description 13
- 230000005012 migration Effects 0.000 claims description 9
- 238000013508 migration Methods 0.000 claims description 9
- 230000002194 synthesizing effect Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 8
- 239000002131 composite material Substances 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000005286 illumination Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本公开提供了一种训练预测网络的方法、图像处理方法、装置、设备以及存储介质,涉及人工智能领域,具体涉及计算机视觉和深度学习技术。具体实现方案为:针对多个样本集合中的每个样本集合,将样本集合输入预测网络,其中,多个样本集合中的每个样本集合包括背景直方图样本和对应的前景直方图样本;根据与样本集合对应的标准直方图和预测结果,确定损失值;以及在损失值大于损失阈值的情况下,根据损失值调整预测网络的参数。
Description
技术领域
本公开涉及人工智能领域,具体涉及计算机视觉和深度学习技术。
背景技术
近些年随着远程办公的兴起,视频会议软件得到了越来越多的使用。视频会议软件中一项常用的功能就是背景替换,即将图像中处于前景中的人像部分抠出后,替换掉图像中的背景部分,从而起到保护隐私、获得更好的会议效果等作用。
发明内容
本公开提供了一种训练预测网络的方法、图像处理方法、装置、设备以及存储介质。
根据本公开的一方面,提供了一种训练预测网络的方法,包括:针对多个样本集合中的每个样本集合,将所述样本集合输入预测网络,其中,所述多个样本集合中的每个样本集合包括背景直方图样本和对应的前景直方图样本;根据与所述样本集合对应的标准直方图和所述预测结果,确定损失值;以及在所述损失值大于损失阈值的情况下,根据所述损失值调整所述预测网络的参数。
根据本公开的另一方面,提供了一种图像处理方法,包括:确定背景图像的背景直方图和第一前景图像的第一前景直方图;将所述背景直方图和所述第一前景直方图输入预测网络,得到预测直方图;根据所述预测直方图和所述第一前景直方图,确定第一目标前景图像;以及将所述背景图像与所述第一目标前景图像合成,得到第一目标图像,其中,所述预测网络是根据本公开实施例所述的训练预测网络的方法训练的。
根据本公开的另一方面,提供了一种训练预测网络的装置,包括:输入模块,用于针对多个样本集合中的每个样本集合,将所述样本集合输入预测网络,其中,所述多个样本集合中的每个样本集合包括背景直方图样本和对应的前景直方图样本;损失确定模块,用于根据与所述样本集合对应的标准直方图和所述预测结果,确定损失值;以及调整模块,用于在所述损失值大于损失阈值的情况下,根据所述损失值调整所述预测网络的参数。
根据本公开的另一方面,提供了一种图像处理装置,包括:第一确定模块,用于确定背景图像的背景直方图和第一前景图像的第一前景直方图;输入模块,用于将所述背景直方图和所述第一前景直方图输入预测网络,得到预测直方图;第二确定模块,用于根据所述预测直方图和所述第一前景直方图,确定第一目标前景图像;以及合成模块,用于将所述背景图像与所述第一目标前景图像合成,得到第一目标图像,其中,所述预测网络是根据本公开实施例所述的训练预测网络的方法训练的。
本公开的另一个方面提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开实施例所示的方法。
根据本公开实施例的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开实施例所示的方法。
根据本公开实施例的另一方面,提供了一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现本公开实施例所示方法的步骤。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1A示意性示出了根据本公开实施例的背景图像示意图;
图1B示意性示出了根据本公开实施例的视频图像示意图;
图1C示意性示出了根据本公开实施例的合成图像示意图;
图2示意性示出了根据本公开的实施例的训练预测网络的方法的流程图;
图3示意性示出了根据本公开的实施例的预测网络示意图;
图4示意性示出了根据本公开的实施例的训练预测网络的方法的示意图;
图5示意性示出了根据本公开的实施例的图像处理方法的流程图;
图6示意性示出了根据本公开另一实施例的图像处理方法的流程图;
图7示意性示出了根据本公开实施例的训练预测网络的装置的框图;
图8示意性示出了根据本公开实施例的图像处理装置的框图;以及
图9示意性示出了可以用来实施本公开的实施例的示例电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
以下将结合图1A~1C对本公开提供的方法和装置的应用场景进行描述。
需要注意的是,以下仅为可以应用本公开实施例的应用场景的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、***、环境或场景。
根据本公开的实施例的图像处理方法例如可以用于替换图像中背景部分。
基于此,图1A示意性示出了根据本公开实施例的背景图像示意图。如图1A所示,示例性地,该背景图像110展示了一个办公室环境。
图1B示意性示出了根据本公开实施例的视频图像示意图。如图1B所示,该视频图像示意图120包括人体图像121。
根据本公开的实施例,处于保护隐私或实现更好的视频效果等原因,可以将视频图像120中人体图像121所处的背景替换掉。基于此,可以从视频图像120中提取人体图像121。然后将人体图像121作为前景图像,与背景图像110进行合成,得到合成图像130。
图1C示意性示出了根据本公开实施例的合成图像示意图。如图1C所示,原视频图像120中的背景部分被替换为背景图像110,使得人体图像121与背景图像110合成为合成图像130,实现了使人体处于办公室环境的效果。
但是,在背景图像110和视频图像120的拍摄环境不同的情况下,替换背景后的合成图像130中,人体图像121与背景图像110在色彩和光照等方面差异较大,造成合成图像130的违和感较强。
基于此,根据本公开的实施例,可以预先训练预测网络。其中,该预测网络的输入为背景图片的直方图和前景图片的直方图,输出为另一个直方图。该直方图包含将背景图片与前景图片合成后的色彩和光照信息。在此基础上,可以确定背景图像120的背景直方图和作为前景图像的人体图像121的前景直方图。然后将背景直方图和前景直方图输入预先训练的预测网络,得到预测直方图。接下来,根据预测直方图和前景直方图,确定目标前景图像。将背景图像120与目标前景图像合成,得到合成图像130,从而可以使合成图像130中前景图像121的色彩和光照与背景图像110更加匹配,减少违和感。
需要说明的是,本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
图2示意性示出了根据本公开的实施例的训练预测网络的方法的流程图。
如图2所示,该训练预测网络的方法200包括在操作S210,针对多个样本集合中的每个样本集合,将所述样本集合输入预测网络。
根据本公开的实施例,多个样本集合中的每个样本集合包括背景直方图样本和对应的前景直方图样本。
然后,在操作S220,根据与样本集合对应的标准直方图和预测结果,确定损失值。
在操作S230,在损失值大于损失阈值的情况下,根据损失值调整预测网络的参数。
根据本公开的实施例,样本集合中的背景直方图样本和对应的前景直方图样本可以根据标准图像来生成。其中,标准图像包括背景部分和前景部分。根据本公开的实施例,可以提取标准图像中的前景图像和背景图像。然后可以对前景图像进行调整,以使前景图像与背景图像不契合。该调整可以进行至少一次,从而得到至少一个调整后的前景图像,即目标前景图像。接下来,可以确定至少一个目标前景图像的直方图,作为前景直方图样本,确定背景图像的直方图,作为背景直方图样本,并确定标准图像的直方图,作为标准直方图。
本实施例中,例如可以将对应于同一标准图像的前景直方图样本和背景直方图样本作为一个样本集合。可以理解的是,在训练预测网络时,该样本集合可以以该标准图像的标准直方图作为预期输出。
示例性地,本实施例中,例如可以收集拍摄于真实场景的图像作为标准图像。
下面参考图3,结合具体实施例对上文所示的预测网络做进一步说明。
图3示意性示出了根据本公开的实施例的预测网络示意图。
如图3所示,预测网络310可以包括多个一维卷积层。示例性地,本实施例中,预测网络310例如可以包括8个一维卷积层。
根据本公开的实施例,预测网络310的输入可以为背景直方图301和前景直方图302。其中,背景直方图301和前景直方图302可以分别包括3个通道的直方图,该3个通道分别为红色通道、绿色通道和蓝色通道。背景直方图301和前景直方图302的大小可以为3*256,其中3代表3个通道,256代表像素的亮度范围(0,255)中包含256个亮度值。
根据本公开的实施例,预测网络310的输出可以为直方图303。其中,直方图303也包括与背景直方图301和前景直方图302相同的3个通道的直方图,大小也为3*256。
下面参考图4,结合具体实施例对上文所示的训练预测网络的方法做进一步说明。
图4示意性示出了根据本公开的实施例的训练预测网络的方法的示意图。
如图4所示,可以从多个样本集合中获取一个样本集合,该样本集合包括背景直方图样本Fa和前景直方图样本Fb,该样本集合所对应的预期输出为标准直方图Fc。
根据本公开的实施例,可以将背景直方图样本Fa和对应的前景直方图样本Fb输入预测网络,得到预测结果Fd。然后,利用损失函数计算预测结果Fd和标准直方图Fc之间的损失值。损失值可以用于表示预测结果Fd和预期输出之间的差异大小。本实施例中,预期输出即与作为输入的样本集合对应的标准直方图Fc。
接下来,判断损失值是否大于损失阈值。若损失值大于损失阈值,则调整预测网络的参数,然后选择另一个样本集合继续上述训练过程。若损失值小于或等于损失阈值,则结束训练。根据本公开的实施例,损失阈值可以根据实际需要来确定,本公开对损失阈值的具体值不作具体限定。
示例性地,本实施例中,例如可以根据以下公式计算损失值:
其中,L为损失值,n为预测结果中亮度值的总数量,yi为标准直方图中与第i个亮度值对应的像素数量,xi为预测结果中与第i个亮度值对应的像素数量。
根据本公开的实施例,利用网络预测输出的直方图可以对前景图像进行重打光(relighting)处理,使得前景图像中的色彩和光照与背景更加契合。
基于此,图5示意性示出了根据本公开的实施例的图像处理方法的流程图。
如图5所示,该图像处理方法500包括在操作S510,确定背景图像的背景直方图和前景图像的前景直方图。
在操作S520,将背景直方图和前景直方图输入预测网络,得到预测直方图。
根据本公开的实施例,预测网络是根据本公开实施例的练预测网络的方法训练的。
在操作S530,根据预测直方图和前景直方图,确定目标前景图像。
根据本公开的实施例,操作S530例如可以包括对预测直方图和前景直方图进行直方图均衡化处理。然后以均衡化后的预测直方图作为目标,对前景直方图进行迁移处理,得到目标前景图像。
在操作S540,将背景图像与目标前景图像合成,得到目标图像。
根据本公开的实施例,利用预测网络输出的直方图对前景图像进行重打光处理,可以使得前景图像中的色彩和光照与背景更加契合。从而在前景图像与背景图像合成之后,合成效果更为真实和自然。
根据本公开实施例的图像处理方法还可以用于处理视频流中的帧图像。基于此,图6示意性示出了根据本公开另一实施例的图像处理方法的流程图。
如图6所示,该图像处理方法600包括在操作S610,获取视频流中的初始帧图像。
根据本公开的实施例,初始帧图像例如可以为视频流中的第一帧所对应的帧图像。
在操作S620,提取初始帧图像中包含目标对象的图像,作为第一前景图像。
根据本公开的实施例,目标对象例如可以包括人体。根据本公开另一些实施例,目标对象也可以包括人体以外的其他需要放置在前景中的物体。
在操作S630,确定背景图像的背景直方图和第一前景图像的第一前景直方图。
在操作S640,将背景直方图和第一前景直方图输入预测网络,得到预测直方图。
在操作S650,根据预测直方图和第一前景直方图,确定第一目标前景图像。
根据本公开的实施例,例如可以对预测直方图和第一前景直方图进行直方图均衡化处理。然后以均衡化后的预测直方图作为目标,对第一前景直方图进行迁移处理,得到第一目标前景图像。
在操作S660,将背景图像与第一目标前景图像合成,得到第一目标图像。
在操作S670,获取视频流中除初始帧图像之外的其他帧图像。然后,可以针对其他帧图像中的每个帧图像,执行操作S680~S6110。
在操作S680,提取帧图像中包含目标对象的图像,作为第二前景图像。
在操作S690,确定第二前景图像的第二前景直方图。
在操作S6100,根据预测直方图和第二前景直方图,确定第二目标前景图像。
根据本公开的实施例,确定第二目标前景图像的方法例如可以参考上文确定第一目标前景图像的方法,在此不再赘述。
在操作S6110,将背景图像与第二前景图像合成,得到第二目标图像。
根据本公开的实施例,除了第一帧需要利用预测网络进行预测之外,后续帧可以直接进行之前得到的预测直方图进行迁移处理,从而处理速度较快。另外,相关技术中,将针对图片重打光的方法直接应用于视频流上,常常会造成结果抖动等问题。而根据本公开实施例的图像处理方法在处理视频流的帧图像时,由于所有帧图像都用以相同的预测直方图为目标进行迁移处理,时序较为稳定,所以不会有抖动现象。
下面对本公开实施例所示的训练预测网络的装置做进一步说明。
图7示意性示出了根据本公开实施例的训练预测网络的装置的框图。
如图7所示,该训练预测网络的装置700包括输入模块710、损失确定模块720和调整模块730。
输入模块710,用于针对多个样本集合中的每个样本集合,将所述样本集合输入预测网络,其中,多个样本集合中的每个样本集合包括背景直方图样本和对应的前景直方图样本。
损失确定模块720,用于根据预测结果和与样本集合对应的标准直方图,确定损失值。
调整模块730,用于在损失值大于损失阈值的情况下,根据损失值调整预测网络的参数。
根据本公开的实施例,损失确定模块可以包括计算子模块,用于根据以下公式计算所述损失值:
其中,所述L为所述损失值,所述n为所述预测结果中亮度值的总数量,所述yi为标准直方图中与第i个亮度值对应的像素数量,所述xi为所述预测结果中与第i个亮度值对应的像素数量。
根据本公开的实施例,上述装置还可以包括图像提取模块、调整模块、第一直方图确定模块、第二直方图确定模块和第三直方图确定模块。其中,图像提取模块,用于针对至少一个标准图像中的每个标准图像,提取所述标准图像中的前景图像和背景图像。调整模块,用于对所述前景图像进行调整,得到至少一个目标前景图像。第一直方图确定模块,用于确定所述至少一个目标前景图像的直方图,作为所述前景直方图样本。第二直方图确定模块,用于确定所述背景图像的直方图,作为所述背景直方图样本。第三直方图确定模块,用于确定所述标准图像的直方图,作为所述标准直方图。
根据本公开的实施例,预测网络例如可以包括多个一维卷积层。
下面对本公开实施例所示的图像处理装置做进一步说明。
图8示意性示出了根据本公开实施例的图像处理装置的框图。
如图8所示,该图像处理装置800包括第一确定模块810、输入模块820、第二确定模块830和合成模块840。
第一确定模块810,用于确定背景图像的背景直方图和第一前景图像的第一前景直方图。
输入模块820,用于将背景直方图和第一前景直方图输入预测网络,得到预测直方图。
第二确定模块830,用于根据预测直方图和第一前景直方图,确定第一目标前景图像。
合成模块840,用于将背景图像与第一目标前景图像合成,得到第一目标图像。其中,预测网络是根据本公开实施例的训练预测网络的方法训练的。
根据本公开的实施例,第二确定模块可以包括均衡化处理子模块和迁移处理子模块。其中,均衡化处理子模块,用于对预测直方图和第一前景直方图进行直方图均衡化处理。迁移处理子模块,用于以均衡化后的预测直方图作为目标,对第一前景直方图进行迁移处理,得到第一目标前景图像。
根据本公开的实施例,上述装置还可以包括第一获取模块和第一提取模块。其中,第一获取模块,用于获取视频流中的初始帧图像。第一提取模块,用于提取初始帧图像中包含目标对象的图像,作为第一前景图像。
根据本公开的实施例,上述装置还可以包括第二获取模块、第二提取模块、第三确定模块、第四确定模块和第二合成模块。其中,第二获取模块,用于获取视频流中除初始帧图像之外的其他帧图像。第二提取模块,用于针对其他帧图像中的每个帧图像,提取帧图像中包含目标对象的图像,作为第二前景图像。第三确定模块,用于确定第二前景图像的第二前景直方图。第四确定模块,用于根据预测直方图和第二前景直方图,确定第二目标前景图像。第二合成模块,用于将背景图像与第二目标前景图像合成,得到第二目标图像。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图9示意性示出了可以用来实施本公开的实施例的示例电子设备900的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM 903中,还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
设备900中的多个部件连接至I/O接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如训练预测网络的方法和图像处理方法。例如,在一些实施例中,训练预测网络的方法和图像处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时,可以执行上文描述的训练预测网络的方法和图像处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行训练预测网络的方法和图像处理方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (19)
1.一种训练预测网络的方法,包括:
针对多个样本集合中的每个样本集合,将所述样本集合输入预测网络,得到预测结果,其中,所述多个样本集合中的每个样本集合包括背景直方图样本和对应的前景直方图样本;
根据与所述样本集合对应的标准直方图和所述预测结果,确定损失值;以及
在所述损失值大于损失阈值的情况下,根据所述损失值调整所述预测网络的参数。
3.根据权利要求1所述的方法,还包括:针对至少一个标准图像中的每个标准图像,
提取所述标准图像中的前景图像和背景图像;
对所述前景图像进行调整,得到至少一个目标前景图像;
确定所述至少一个目标前景图像的直方图,作为所述前景直方图样本;
确定所述背景图像的直方图,作为所述背景直方图样本;以及
确定所述标准图像的直方图,作为所述标准直方图。
4.根据权利要求1-3中任一项所述的方法,其中,所述预测网络包括多个一维卷积层。
5.一种图像处理方法,包括:
确定背景图像的背景直方图和第一前景图像的第一前景直方图;
将所述背景直方图和所述第一前景直方图输入预测网络,得到预测直方图;
根据所述预测直方图和所述第一前景直方图,确定第一目标前景图像;以及
将所述背景图像与所述第一目标前景图像合成,得到第一目标图像,
其中,所述预测网络是根据权利要求1-4中任意一项所述的方法训练的。
6.根据权利要求5所述的方法,其中,所述根据所述预测直方图和所述第一前景直方图,确定第一目标前景图像,包括:
对所述预测直方图和所述第一前景直方图进行直方图均衡化处理;以及
以均衡化后的所述预测直方图作为目标,对所述第一前景直方图进行迁移处理,得到第一目标前景图像。
7.根据权利要求5或6所述的方法,还包括:
获取视频流中的初始帧图像;以及
提取所述初始帧图像中包含目标对象的图像,作为所述第一前景图像。
8.根据权利要求7所述的方法,还包括:
获取所述视频流中除所述初始帧图像之外的其他帧图像;
针对所述其他帧图像中的每个帧图像,
提取所述帧图像中包含目标对象的图像,作为第二前景图像;
确定第二前景图像的第二前景直方图;
根据所述预测直方图和所述第二前景直方图,确定第二目标前景图像;以及
将所述背景图像与所述第二目标前景图像合成,得到第二目标图像。
9.一种训练预测网络的装置,包括:
输入模块,用于针对多个样本集合中的每个样本集合,将所述样本集合输入预测网络,其中,所述多个样本集合中的每个样本集合包括背景直方图样本和对应的前景直方图样本;
损失确定模块,用于根据与所述样本集合对应的标准直方图和所述预测结果,确定损失值;以及
调整模块,用于在所述损失值大于损失阈值的情况下,根据所述损失值调整所述预测网络的参数。
11.根据权利要求9所述的装置,还包括:
图像提取模块,用于针对至少一个标准图像中的每个标准图像,提取所述标准图像中的前景图像和背景图像;
调整模块,用于对所述前景图像进行调整,得到至少一个目标前景图像;
第一直方图确定模块,用于确定所述至少一个目标前景图像的直方图,作为所述前景直方图样本;
第二直方图确定模块,用于确定所述背景图像的直方图,作为所述背景直方图样本;以及
第三直方图确定模块,用于确定所述标准图像的直方图,作为所述标准直方图。
12.根据权利要求9-11中任一项所述的装置,其中,所述预测网络包括多个一维卷积层。
13.一种图像处理装置,包括:
第一确定模块,用于确定背景图像的背景直方图和第一前景图像的第一前景直方图;
输入模块,用于将所述背景直方图和所述第一前景直方图输入预测网络,得到预测直方图;
第二确定模块,用于根据所述预测直方图和所述第一前景直方图,确定第一目标前景图像;以及
第一合成模块,用于将所述背景图像与所述第一目标前景图像合成,得到第一目标图像,
其中,所述预测网络是根据权利要求1-4中任意一项所述的方法训练的。
14.根据权利要求13所述的装置,其中,所述第二确定模块,包括:
均衡化处理子模块,用于对所述预测直方图和所述第一前景直方图进行直方图均衡化处理;以及
迁移处理子模块,用于以均衡化后的所述预测直方图作为目标,对所述第一前景直方图进行迁移处理,得到第一目标前景图像。
15.根据权利要求13或14所述的装置,还包括:
第一获取模块,用于获取视频流中的初始帧图像;以及
第一提取模块,用于提取所述初始帧图像中包含目标对象的图像,作为所述第一前景图像。
16.根据权利要求15所述的装置,还包括:
第二获取模块,用于获取所述视频流中除所述初始帧图像之外的其他帧图像;
第二提取模块,用于针对所述其他帧图像中的每个帧图像,提取所述帧图像中包含目标对象的图像,作为第二前景图像;
第三确定模块,用于确定第二前景图像的第二前景直方图;
第四确定模块,用于根据所述预测直方图和所述第二前景直方图,确定第二目标前景图像;以及
第二合成模块,用于将所述背景图像与所述第二目标前景图像合成,得到第二目标图像。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111279847.4A CN113988294A (zh) | 2021-10-29 | 2021-10-29 | 训练预测网络的方法、图像处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111279847.4A CN113988294A (zh) | 2021-10-29 | 2021-10-29 | 训练预测网络的方法、图像处理方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113988294A true CN113988294A (zh) | 2022-01-28 |
Family
ID=79745156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111279847.4A Pending CN113988294A (zh) | 2021-10-29 | 2021-10-29 | 训练预测网络的方法、图像处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113988294A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115293960A (zh) * | 2022-07-28 | 2022-11-04 | 珠海视熙科技有限公司 | 融合图像的光照调节方法、装置、设备及介质 |
-
2021
- 2021-10-29 CN CN202111279847.4A patent/CN113988294A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115293960A (zh) * | 2022-07-28 | 2022-11-04 | 珠海视熙科技有限公司 | 融合图像的光照调节方法、装置、设备及介质 |
CN115293960B (zh) * | 2022-07-28 | 2023-09-29 | 珠海视熙科技有限公司 | 融合图像的光照调节方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112633384B (zh) | 基于图像识别模型的对象识别方法、装置和电子设备 | |
CN112492388B (zh) | 视频处理方法、装置、设备以及存储介质 | |
US10810462B2 (en) | Object detection with adaptive channel features | |
CN113163260B (zh) | 一种视频帧输出控制方法、装置及电子设备 | |
KR20220126264A (ko) | 비디오 흔들림 검출 방법, 장치, 전자 기기 및 저장 매체 | |
CN111768356A (zh) | 一种人脸图像融合方法、装置、电子设备及存储介质 | |
CN113365146B (zh) | 用于处理视频的方法、装置、设备、介质和产品 | |
CN113177451A (zh) | 图像处理模型的训练方法、装置、电子设备及存储介质 | |
CN115345968B (zh) | 虚拟对象驱动方法、深度学习网络的训练方法及装置 | |
CN114449343A (zh) | 一种视频处理方法、装置、设备及存储介质 | |
CN113014936A (zh) | 视频插帧方法、装置、设备以及存储介质 | |
CN112732553A (zh) | 图像测试方法、装置、电子设备及存储介质 | |
CN111784757A (zh) | 深度估计模型的训练方法、深度估计方法、装置及设备 | |
CN113379877A (zh) | 人脸视频生成方法、装置、电子设备及存储介质 | |
CN113988294A (zh) | 训练预测网络的方法、图像处理方法和装置 | |
CN113989174A (zh) | 图像融合方法和图像融合模型的训练方法、装置 | |
CN113873323B (zh) | 视频播放方法、装置、电子设备和介质 | |
CN114173158B (zh) | 人脸识别方法、云端设备、客户端设备、电子设备及介质 | |
CN116668843A (zh) | 一种拍摄状态的切换方法、装置、电子设备以及存储介质 | |
CN113887435A (zh) | 人脸图像处理方法、装置、设备、存储介质及程序产品 | |
CN113409199A (zh) | 图像处理方法、装置、电子设备及计算机可读介质 | |
CN113691866B (zh) | 视频处理方法、装置、电子设备和介质 | |
CN116071422B (zh) | 面向元宇宙场景的虚拟设备亮度调节方法、装置 | |
CN113283305B (zh) | 人脸识别方法、装置、电子设备及计算机可读存储介质 | |
CN115631103B (zh) | 图像生成模型的训练方法和装置、图像生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |