CN111951154B - 包含背景和介质的图片的生成方法及装置 - Google Patents

包含背景和介质的图片的生成方法及装置 Download PDF

Info

Publication number
CN111951154B
CN111951154B CN202010818037.0A CN202010818037A CN111951154B CN 111951154 B CN111951154 B CN 111951154B CN 202010818037 A CN202010818037 A CN 202010818037A CN 111951154 B CN111951154 B CN 111951154B
Authority
CN
China
Prior art keywords
picture
background
medium
training
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010818037.0A
Other languages
English (en)
Other versions
CN111951154A (zh
Inventor
张宝华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202010818037.0A priority Critical patent/CN111951154B/zh
Publication of CN111951154A publication Critical patent/CN111951154A/zh
Application granted granted Critical
Publication of CN111951154B publication Critical patent/CN111951154B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种包含背景和介质的图片的生成方法及装置,涉及人工智能技术领域,该方法包括:获取通过训练好的第一图片生成模型生成的目标背景图片;获取通过训练好的第二图片生成模型生成的第一包含背景和介质的图片,其中,所述第二图片生成模型为采用历史包含背景和介质的图片作为训练数据训练得出的;根据训练好的抠图模型从所述第一包含背景和介质的图片提取出介质图片;根据所述介质图片和所述目标背景图片生成第二包含背景和介质的图片。本发明实现了高效生成大量包含背景和介质的图片,有助于提高训练出的目标检测和文字识别模型的识别准确性。

Description

包含背景和介质的图片的生成方法及装置
技术领域
本发明涉及人工智能技术领域,具体而言,涉及一种包含背景和介质的图片的生成方法及装置。
背景技术
在金融领域部分图像识别场景中,需要识别通过高拍仪拍摄的包含背景(客户交易凭证)和介质(如客户身份证、卡片介质、港澳通行证以及U盾等多种介质)的图片,现有技术可以通过构建目标检测、文本识别等模型,对图片中的介质进行检测和识别,以自动进行信息核对,提升业务处理效率。
金融领域部分图像识别场景存在样本量较少、样本不均衡的问题,并且部分介质图片极少。主要是由于业务办理差异,提供的训练样本较不均匀,如包含身份证或银行卡介质图片数量与包含U盾或密码器图片数量相比超过1000:1。而获取足够多的包含U盾或密码器图片的数量,挑战较大,需要花费大量人力去查找相关介质图片。
综上,由于样本数量有限,导致该场景目标检测和文字识别模型效果不佳。因此,如何快速的生成大量的包含背景和介质的图片,以提升训练出的目标检测模型和文字识别模型的准确率,是本领域亟需解决的技术问题。
发明内容
本发明为了解决上述背景技术中的技术问题,提出了一种包含背景和介质的图片的生成方法及装置。
为了实现上述目的,根据本发明的一个方面,提供了一种包含背景和介质的图片的生成方法,该方法包括:
获取通过训练好的第一图片生成模型生成的目标背景图片,其中,所述第一图片生成模型为采用历史背景图片作为训练数据训练得出的;
获取通过训练好的第二图片生成模型生成的第一包含背景和介质的图片,其中,所述第二图片生成模型为采用历史包含背景和介质的图片作为训练数据训练得出的;
根据训练好的抠图模型从所述第一包含背景和介质的图片提取出介质图片,其中,所述抠图模型为采用标注出介质的包含背景和介质的图片作为训练数据训练得出的;
根据所述介质图片和所述目标背景图片生成第二包含背景和介质的图片。
可选的,该包含背景和介质的图片的生成方法,还包括:
获取第一训练数据,其中,所述第一训练数据为历史背景图片;
根据所述第一训练数据采用变分自编码器和生成对抗网络训练出所述第一图片生成模型。
可选的,所述第一图片生成模型的损失函数为根据变分自编码器的损失函数以及生成对抗网络的损失函数确定得出的。
可选的,该包含背景和介质的图片的生成方法,还包括:
获取第二训练数据,其中,所述第二训练数据为历史包含背景和介质的图片;
根据所述第二训练数据采用变分自编码器和生成对抗网络训练出所述第二图片生成模型。
可选的,所述第二图片生成模型的损失函数为根据变分自编码器的损失函数以及生成对抗网络的损失函数确定得出的。
可选的,所述介质图片为二值图;
所述根据所述介质图片和所述目标背景图片生成第二包含背景和介质的图片包括:
将所述二值图与所述目标背景图片做乘法运算,得到第一图片;
将所述二值图先取反,再与对应的第一包含背景和介质的图片做乘法运算,得到第二图片;
将所述第一图片和所述第二图片相加得到所述第二包含背景和介质的图片。
为了实现上述目的,根据本发明的另一方面,提供了一种包含背景和介质的图片的生成装置,该装置包括:
背景图片获取单元,用于获取通过训练好的第一图片生成模型生成的目标背景图片,其中,所述第一图片生成模型为采用历史背景图片作为训练数据训练得出的;
第一包含背景和介质的图片获取单元,用于获取通过训练好的第二图片生成模型生成的第一包含背景和介质的图片,其中,所述第二图片生成模型为采用历史包含背景和介质的图片作为训练数据训练得出的;
介质图片提取单元,用于根据训练好的抠图模型从所述第一包含背景和介质的图片提取出介质图片,其中,所述抠图模型为采用标注出介质的包含背景和介质的图片作为训练数据训练得出的;
第二包含背景和介质的图片生成单元,用于根据所述介质图片和所述目标背景图片生成第二包含背景和介质的图片。
可选的,该包含背景和介质的图片的生成装置,还包括:
第一训练数据获取单元,用于获取第一训练数据,其中,所述第一训练数据为历史背景图片;
第一模型训练单元,用于根据所述第一训练数据采用变分自编码器和生成对抗网络训练出所述第一图片生成模型。
可选的,该包含背景和介质的图片的生成装置,还包括:
第二训练数据获取单元,用于获取第二训练数据,其中,所述第二训练数据为历史包含背景和介质的图片;
第二模型训练单元,用于根据所述第二训练数据采用变分自编码器和生成对抗网络训练出所述第二图片生成模型。
可选的,所述介质图片为二值图;所述第二包含背景和介质的图片生成单元包括:
第一图片生成模块,用于将所述二值图与所述目标背景图片做乘法运算,得到第一图片;
第二图片生成模块,用于将所述二值图先取反,再与对应的第一包含背景和介质的图片做乘法运算,得到第二图片;
第二包含背景和介质的图片生成模块,用于将所述第一图片和所述第二图片相加得到所述第二包含背景和介质的图片。
为了实现上述目的,根据本发明的另一方面,还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述包含背景和介质的图片的生成方法中的步骤。
为了实现上述目的,根据本发明的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序在计算机处理器中执行时实现上述包含背景和介质的图片的生成方法中的步骤。
本发明的有益效果为:本发明提供一种高效生成大量包含背景和介质的图片的方法,从而显著的提升了目标检测和文字识别模型的训练样本的数量,进而提高了训练出的目标检测和文字识别模型的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明实施例包含背景和介质的图片的生成方法的第一流程示意图;
图2是本发明实施例第一图片生成模型的训练流程图;
图3是本发明实施例第二图片生成模型的训练流程图;
图4是本发明实施例生成第二包含背景和介质的图片的流程图;
图5是本发明实施例包含背景和介质的图像检测和识别总体***结构图;
图6是本发明实施例包含背景和介质的图片的生成方法的第二流程示意图;
图7是本发明实施例VAE+GAN训练示意图;
图8是本发明实施例计算机设备示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
图1是本发明实施例包含背景和介质的图片的生成方法的第一流程示意图,如图1所示,本实施例的包含背景和介质的图片的生成方法包括步骤S101至步骤S104。
步骤S101,获取通过训练好的第一图片生成模型生成的目标背景图片,其中,所述第一图片生成模型为采用历史背景图片作为训练数据训练得出的。
在本发明可选实施例中,第一图片生成模型可以采用现有技术中任意一种适用的图像生成算法,如GAN(生成对抗网络)、BigGAN以及VQ-VAE等。
本发明以大量背景图片作为训练数据采用图像生成算法训练出第一图片生成模型,该第一图片生成模型用于生成大量背景图片。
步骤S102,获取通过训练好的第二图片生成模型生成的第一包含背景和介质的图片,其中,所述第二图片生成模型为采用历史包含背景和介质的图片作为训练数据训练得出的。
在本发明可选实施例中,第二图片生成模型可以采用现有技术中任意一种适用的图像生成算法,如GAN(生成对抗网络)、BigGAN以及VQ-VAE等。
本发明以大量包含背景和介质的图片作为训练数据采用图像生成算法训练出第二图片生成模型,该第二图片生成模型用于生成大量包含背景和介质的图片,本发明中将第二图片生成模型生成的包含背景和介质的图片称为第一包含背景和介质的图片。
在本发明实施例中,每个包含背景和介质的图片中包括一个背景和至少一个介质(又称前景),介质位于在背景上。在本发明可选实施例中,每个包含背景和介质的图片中包括一个背景和至少两个介质。在金融领域,背景可以为客户交易凭证或者其他文件,介质可以为客户身份证、卡片介质、港澳通行证以及U盾等多种介质。在其他领域,背景和介质可以与金融领域的完全不同,本发明不对背景和介质做具体限定。本发明通过将港澳通行证以及U盾等样本量较少的介质与通过模型生成的背景相结合,生成大量包含背景和介质的图片,有效的提高了目前样本量较少的介质的样本数量,有助于提高训练出的目标检测和文字识别模型对这些样本量较少的介质的识别准确性。
步骤S103,根据训练好的抠图模型从所述第一包含背景和介质的图片提取出介质图片,其中,所述抠图模型为采用标注出介质的包含背景和介质的图片作为训练数据训练得出的。
在本发明可选实施例中,本发明可以采用CNN方法--Deep Image Matting训练出抠图模型,该抠图模型用于提取出第一包含背景和介质的图片中的介质,得到介质图片。
步骤S104,根据所述介质图片和所述目标背景图片生成第二包含背景和介质的图片。
本发明先通过机器学习模型生成大量的背景图片和包含背景和介质的图片,进而通过抠图模型从生成的包含背景和介质的图片中提取出介质图片,进而将介质图片与生成的背景图片进行组合,生成大量包含背景和介质的图片。提升了目标检测和文字识别模型的训练样本的数量,进而可以提高训练出的目标检测和文字识别模型的准确性。
图2是本发明实施例第一图片生成模型的训练流程图,如图2所示,在本发明可选实施例中,上述步骤S101中的第一图片生成模型的训练流程包括步骤S201和步骤S202。
步骤S201,获取第一训练数据,其中,所述第一训练数据为历史背景图片。
步骤S202,根据所述第一训练数据采用变分自编码器和生成对抗网络训练出所述第一图片生成模型。
在本发明可选实施例中,所述第一图片生成模型的损失函数为根据变分自编码器的损失函数以及生成对抗网络的损失函数确定得出的。
图3是本发明实施例第二图片生成模型的训练流程图,如图3所示,在本发明可选实施例中,上述步骤S102中的第二图片生成模型的训练流程包括步骤S301和步骤S302。
步骤S301,获取第二训练数据,其中,所述第二训练数据为历史包含背景和介质的图片。
步骤S302,根据所述第二训练数据采用变分自编码器和生成对抗网络训练出所述第二图片生成模型。
在本发明可选实施例中,所述第二图片生成模型的损失函数为根据变分自编码器的损失函数以及生成对抗网络的损失函数确定得出的。
在本发明可选实施例中,本发明的第一图片生成模型和/或第二图片生成模型可以采用变分自编码器(VariationalAuto-Encoder,VAE)和生成对抗网络(GenerativeAdversarial Networks,GAN)相结合的方式训练得出,即采用VAE+GAN的方式进行模型训练。
图7是本发明可选实施例VAE+GAN训练示意图。VAE(VariationalAuto-Encoder,变分自编码器)和GAN(Generative Adversarial Networks,生成对抗网络)都是生成模型(Generative model)。虽然GAN利用生成对抗网络可以生成相对特征清晰明显的图像,但GAN的训练过程中容易发生崩溃、梯度消失以及模式坍缩等问题,且GAN的博弈理论是为了让生成器生成的图像欺骗判别器,而无法保证生成图像的合理性。故上述原因会导致GAN生成的图像有时候看起来不合理,无法满足实际场景的需求。VAE由一个编码器和一个解码器构成,其利用已有图像在编码器上编码生成低维的潜在向量,并且通过对编码器施加约束使得这个潜在向量服从高斯分布。在服从高斯分布的情况下这个潜在向量能很好地保留原输入图像的特征,并在通过解码器解码后得到的图像与原始图像的特征具有一定的相似度,因此生成的图像会更加的合理与准确。但由于图像在训练时损失函数一般用平均平方误差之类的进行粗略衡量生成图像与原图像之间的差异,没有对抗网络进行判别,导致生成的图像不能很好地保留原图像的清晰度,会趋于产生模糊的图像。VAE优点在于生成的图像合理,学习到的潜在向量z可以很好地还原出图像,并且训练不会出现崩溃的状况。本发明采用的VAE+GAN的目的就是结合VAE和GAN的优点让生成图像在合理的前提下做到模型的稳定与图像的质量上的保证。
VAE+GAN的目的就是结合VAE和GAN的优点让生成图像在合理的前提下做到模型的稳定与图像的质量上的保证。单纯的VAE+GAN在无监督学习条件下同时训练了编码器、生成器和判别器来达到图像生成的过程。GAN几乎不允许对模型进行分布假设,而VAE允许对潜在向量进行推断,这对于表征学习,可视化和解释是非常有用的。不同于GAN通过生成样本与真实数据比较,梯度反向传播从而渐渐优化模型,VAE+GAN通过调整潜在向量z来达到想要的生成效果。由于真实样本可以是不连续的,而z是连续的,故通过对z进行微整,可以生成更加真实的样本,解决了GAN无法生成离散样本的问题。
最后,仅仅将VAE和GAN单纯地结合是不合理的,对训练损失函数的参数控制是一个很大的难点。VAE+GAN模型的损失函数包含二大部分,一是VAE的损失函数,称为L_G(img);二是GAN的损失函数,称之为L_G(D)。本发明将这两个损失函数乘以各自对应的预设参数然后相加,得到VAE+GAN的损失函数,其中预设参数为根据经验设置。这两部分损失函数都非常重要,如果没有L_G(img),则生成的图像会变得不合理;如果没有L_G(D),生成的图像又会非常模糊。因此,找到一个好的损失函数对模型进行训练,从而生成既合理又清晰的图片,是非常关键的,需要在实验中进行多次尝试。
在本发明可选实施例中,上述步骤S103提取出的介质图片为二值图(mask)。
图4是本发明实施例生成第二包含背景和介质的图片的流程图,如图4所示,在本发明可选实施例中,上述步骤S104的根据所述介质图片和所述目标背景图片生成第二包含背景和介质的图片具体包括步骤S401至步骤S403。
步骤S401,将所述二值图与所述目标背景图片做乘法运算,得到第一图片。
步骤S402,将所述二值图先取反,再与对应的第一包含背景和介质的图片做乘法运算,得到第二图片。
步骤S403,将所述第一图片和所述第二图片相加得到所述第二包含背景和介质的图片。
在本发明可选实施例中,本发明可以采用图像混合(前景+背景)技术,即Alpha混合,在图像的每个像素处,使用Alpha遮罩(α)组合前景图像颜色(F)和背景图像颜色(B)。具体公式如下:
I=α×F+(1–α)×B
1、获取前景图片(介质)的Alpha蒙版,即介质为白背景为黑轮廓图,二值图(mask);
2、将mask与背景图片做乘法运算,即在背景图中,介质部分像素值均为0;
3、对二值图(mask)取反,将其与前景图(介质)做与运算;
4、将上两步得到的图相加。
上述步骤中的难点在于,如何从原图中生成alpha蒙版(该图像用来评估前景对应的不透明度),即抠图。本发明主要采用CNN方法--Deep Image Matting训练抠图模型。该模型由两部分组成,一部分为深度编码-解码器网络,输入为原图像和对应的trimap图,输出为预测的Alpha蒙版;第二部分为一个小卷积网络用于对alpha蒙版进行精修以获得更精确的α值和更明确的边界。该网络不仅利用了低层次的颜色特征,同时结合了高层次的结构性和语义性的特征,利用这些特征来提升抠图效果,提升边缘点的分类的准确度。
综上,本发明通过VAE+GAN分别生成背景图片和包含背景和介质的图片,再应用深度学习模型的扣图技术,将不同背景图片和介质图片进行合成,可以达到生成更多多样的包含背景和多种介质图片,作为样本数据集的补充,可以有效提升目标检测模型和文字识别模型的准确率。
在本发明可选实施例中,本发明还提供一种包含背景和介质的图像检测和识别总体***,如图5所示,该***将本发明生成的包含背景和介质的图片应用到具体的目标检测及文字识别模型的训练及后续应用中。如图5所示,本发明实施例的包含背景和介质的图像检测和识别总体***包括:包含背景和介质图片生成模块1、目标检测模型构建2、文字识别模型构建3、包含背景和介质图片输入模块4、介质检测模块5、文字识别模块6以及自动核对模块7,其中:
1、包含背景和介质图片生成模块1,基于有限背景图片(纯背景,不包含介质)和带背景的多种介质图片(即一张背景上有多种介质的图像),生成更多量包含背景和多种介质图片,作为图片样本数据集的补充,用于目标检测模型构建2和文字识别模型构建3,提升目标检测模型和文字识别模型的准确率。
2、将目标检测模型构建2和文字识别模型构建3构建的模型,进行部署上线,得到介质检测模块5和文字识别模块6。介质检测模块5,可以将包含背景和多种介质图片中的具体介质检测出来;文字识别模块6,进一步对目标检测模型构建检测到的介质图片的文字信息进行识别。
3、包含背景和介质图片输入模块4获得***前台输入的图片后,传入介质检测模块5得到具体介质图片,将具体介质图片传入文字识别模块6得到介质的具体文字信息(如身份证号码等),再将具体介质图片和文字信息传入自动核对模块7进行核对。
在本发明一具体可选实施例中,本发明的包含背景和介质的图片的生成方法的流程示意图可以如图6所示。如图6所示,在本实施例中生成包含背景和介质的图片的流程包括步骤0101至步骤0108,其中步骤0101~步骤0102以及步骤0103~步骤0104,可并发执行。
步骤0101:基于有限的背景图片(只有客户交易凭证等背景图片,不包含介质如银行卡、身份证等介质的图片),训练VAE+GAN生成模型,以生成更多背景图片。
步骤0102:基于步骤0101得到的VAE+GAN生成背景图片模型,生成更多的背景图片。
步骤0103:基于有限的包含背景和多种介质的图片(包含客户交易凭证等背景和多种介质如银行卡、身份证等图片),训练VAE+GAN生成模型,以生成包含背景和多种介质的图片。该模型和步骤0101是两个不同的模型,这两个模型分别生成两类图片。
步骤0104:基于步骤0103得到的模型生成包含背景和多种介质图片模型,生成更多的成包含背景和多种介质图片。
步骤0105:基于步骤0104得到的包含背景和多种介质图片,以及Deep ImageMatting深度神经网络算法,训练抠图模型,得到前景图像(介质)的Alpha蒙版,即介质为白背景为黑的轮廓图,称为二值图mask。
步骤0106:将基于步骤0105得到的二值图mask,与步骤0102得到的背景图片做乘法运算,即在背景图中,介质部分像素值均为0。
步骤0107:将基于步骤0105得到的二值图mask取反,与步骤0104得到的包含背景和多种介质图片做乘法运算,即在包含背景和多种介质图片中,背景部分像素值均为0。
步骤0108:将步骤0106和步骤0107得到的图片相加,即可得到合成的包含背景和多种介质的图片。
由以上实施例可以看出,本发明针对金融领域常有的计算机视觉的目标检测和文字识别等小样本场景,这些场景的样本包含背景和多种介质图片,样本量较少且不均衡,通过VAE+GAN技术以及深度神经网络抠图技术,实现背景图片和介质图片的数据合成,有效生成更多、更多样的图片样本数据。
通过上述方法,可以生成更多、更多样的包含背景和多种介质的图片,从而带来以下效果:
1、通过提高样本数据量,提升目标检测模型的准确率。
2、通过提高样本数据量,提升文字识别模型的准确率。
3、提升整个***的图像检测和识别效果,提升运营管理效率。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
基于同一发明构思,本发明实施例还提供了一种包含背景和介质的图片的生成装置,可以用于实现上述实施例所描述的包含背景和介质的图片的生成方法,如下面的实施例所述。由于包含背景和介质的图片的生成装置解决问题的原理与包含背景和介质的图片的生成方法相似,因此包含背景和介质的图片的生成装置的实施例可以参见包含背景和介质的图片的生成方法的实施例,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
在本发明实施例中,本发明的包含背景和介质的图片的生成装置,包括:
背景图片获取单元,用于获取通过训练好的第一图片生成模型生成的目标背景图片,其中,所述第一图片生成模型为采用历史背景图片作为训练数据训练得出的;
第一包含背景和介质的图片获取单元,用于获取通过训练好的第二图片生成模型生成的第一包含背景和介质的图片,其中,所述第二图片生成模型为采用历史包含背景和介质的图片作为训练数据训练得出的;
介质图片提取单元,用于根据训练好的抠图模型从所述第一包含背景和介质的图片提取出介质图片,其中,所述抠图模型为采用标注出介质的包含背景和介质的图片作为训练数据训练得出的;
第二包含背景和介质的图片生成单元,用于根据所述介质图片和所述目标背景图片生成第二包含背景和介质的图片。
在本发明可选实施例中,本发明的包含背景和介质的图片的生成装置,还包括:
第一训练数据获取单元,用于获取第一训练数据,其中,所述第一训练数据为历史背景图片;
第一模型训练单元,用于根据所述第一训练数据采用变分自编码器和生成对抗网络训练出所述第一图片生成模型。
在本发明可选实施例中,所述第一图片生成模型的损失函数为根据变分自编码器的损失函数以及生成对抗网络的损失函数确定得出的。
在本发明可选实施例中,本发明的包含背景和介质的图片的生成装置,还包括:
第二训练数据获取单元,用于获取第二训练数据,其中,所述第二训练数据为历史包含背景和介质的图片;
第二模型训练单元,用于根据所述第二训练数据采用变分自编码器和生成对抗网络训练出所述第二图片生成模型。
在本发明可选实施例中,所述第二图片生成模型的损失函数为根据变分自编码器的损失函数以及生成对抗网络的损失函数确定得出的。
在本发明可选实施例中,所述介质图片为二值图;所述第二包含背景和介质的图片生成单元具体包括:
第一图片生成模块,用于将所述二值图与所述目标背景图片做乘法运算,得到第一图片;
第二图片生成模块,用于将所述二值图先取反,再与对应的第一包含背景和介质的图片做乘法运算,得到第二图片;
第二包含背景和介质的图片生成模块,用于将所述第一图片和所述第二图片相加得到所述第二包含背景和介质的图片。
为了实现上述目的,根据本申请的另一方面,还提供了一种计算机设备。如图8所示,该计算机设备包括存储器、处理器、通信接口以及通信总线,在存储器上存储有可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例方法中的步骤。
处理器可以为中央处理器(Central Processing Unit,CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及单元,如本发明上述方法实施例中对应的程序单元。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及作品数据处理,即实现上述方法实施例中的方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个单元存储在所述存储器中,当被所述处理器执行时,执行上述实施例中的方法。
上述计算机设备具体细节可以对应参阅上述实施例中对应的相关描述和效果进行理解,此处不再赘述。
为了实现上述目的,根据本申请的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序在计算机处理器中执行时实现上述包含背景和介质的图片的生成方法中的步骤。本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种包含背景和介质的图片的生成方法,其特征在于,包括:
获取通过训练好的第一图片生成模型生成的目标背景图片,其中,所述第一图片生成模型为采用历史背景图片作为训练数据并采用变分自编码器和生成对抗网络训练得出的;
获取通过训练好的第二图片生成模型生成的第一包含背景和介质的图片,其中,所述第二图片生成模型为采用历史包含背景和介质的图片作为训练数据并采用变分自编码器和生成对抗网络训练得出的;
根据训练好的抠图模型从所述第一包含背景和介质的图片提取出介质图片,其中,所述抠图模型为采用标注出介质的包含背景和介质的图片作为训练数据训练得出的;
根据所述介质图片和所述目标背景图片生成第二包含背景和介质的图片。
2.根据权利要求1所述的包含背景和介质的图片的生成方法,其特征在于,还包括:
获取第一训练数据,其中,所述第一训练数据为历史背景图片;
根据所述第一训练数据采用变分自编码器和生成对抗网络训练出所述第一图片生成模型。
3.根据权利要求2所述的包含背景和介质的图片的生成方法,其特征在于,所述第一图片生成模型的损失函数为根据变分自编码器的损失函数以及生成对抗网络的损失函数确定得出的。
4.根据权利要求1所述的包含背景和介质的图片的生成方法,其特征在于,还包括:
获取第二训练数据,其中,所述第二训练数据为历史包含背景和介质的图片;
根据所述第二训练数据采用变分自编码器和生成对抗网络训练出所述第二图片生成模型。
5.根据权利要求4所述的包含背景和介质的图片的生成方法,其特征在于,所述第二图片生成模型的损失函数为根据变分自编码器的损失函数以及生成对抗网络的损失函数确定得出的。
6.根据权利要求1所述的包含背景和介质的图片的生成方法,其特征在于,所述介质图片为二值图;
所述根据所述介质图片和所述目标背景图片生成第二包含背景和介质的图片包括:
将所述二值图与所述目标背景图片做乘法运算,得到第一图片;
将所述二值图先取反,再与对应的第一包含背景和介质的图片做乘法运算,得到第二图片;
将所述第一图片和所述第二图片相加得到所述第二包含背景和介质的图片。
7.一种包含背景和介质的图片的生成装置,其特征在于,包括:
背景图片获取单元,用于获取通过训练好的第一图片生成模型生成的目标背景图片,其中,所述第一图片生成模型为采用历史背景图片作为训练数据并采用变分自编码器和生成对抗网络训练得出的;
第一包含背景和介质的图片获取单元,用于获取通过训练好的第二图片生成模型生成的第一包含背景和介质的图片,其中,所述第二图片生成模型为采用历史包含背景和介质的图片作为训练数据并采用变分自编码器和生成对抗网络训练得出的;
介质图片提取单元,用于根据训练好的抠图模型从所述第一包含背景和介质的图片提取出介质图片,其中,所述抠图模型为采用标注出介质的包含背景和介质的图片作为训练数据训练得出的;
第二包含背景和介质的图片生成单元,用于根据所述介质图片和所述目标背景图片生成第二包含背景和介质的图片。
8.根据权利要求7所述的包含背景和介质的图片的生成装置,其特征在于,还包括:
第一训练数据获取单元,用于获取第一训练数据,其中,所述第一训练数据为历史背景图片;
第一模型训练单元,用于根据所述第一训练数据采用变分自编码器和生成对抗网络训练出所述第一图片生成模型。
9.根据权利要求8所述的包含背景和介质的图片的生成装置,其特征在于,所述第一图片生成模型的损失函数为根据变分自编码器的损失函数以及生成对抗网络的损失函数确定得出的。
10.根据权利要求7所述的包含背景和介质的图片的生成装置,其特征在于,还包括:
第二训练数据获取单元,用于获取第二训练数据,其中,所述第二训练数据为历史包含背景和介质的图片;
第二模型训练单元,用于根据所述第二训练数据采用变分自编码器和生成对抗网络训练出所述第二图片生成模型。
11.根据权利要求10所述的包含背景和介质的图片的生成装置,其特征在于,所述第二图片生成模型的损失函数为根据变分自编码器的损失函数以及生成对抗网络的损失函数确定得出的。
12.根据权利要求7所述的包含背景和介质的图片的生成装置,其特征在于,所述介质图片为二值图;
所述第二包含背景和介质的图片生成单元包括:
第一图片生成模块,用于将所述二值图与所述目标背景图片做乘法运算,得到第一图片;
第二图片生成模块,用于将所述二值图先取反,再与对应的第一包含背景和介质的图片做乘法运算,得到第二图片;
第二包含背景和介质的图片生成模块,用于将所述第一图片和所述第二图片相加得到所述第二包含背景和介质的图片。
13.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一项所述的方法。
14.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序在计算机处理器中执行时实现如权利要求1至6任意一项所述的方法。
CN202010818037.0A 2020-08-14 2020-08-14 包含背景和介质的图片的生成方法及装置 Active CN111951154B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010818037.0A CN111951154B (zh) 2020-08-14 2020-08-14 包含背景和介质的图片的生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010818037.0A CN111951154B (zh) 2020-08-14 2020-08-14 包含背景和介质的图片的生成方法及装置

Publications (2)

Publication Number Publication Date
CN111951154A CN111951154A (zh) 2020-11-17
CN111951154B true CN111951154B (zh) 2023-11-21

Family

ID=73343788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010818037.0A Active CN111951154B (zh) 2020-08-14 2020-08-14 包含背景和介质的图片的生成方法及装置

Country Status (1)

Country Link
CN (1) CN111951154B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113034648A (zh) * 2021-04-30 2021-06-25 北京字节跳动网络技术有限公司 图像处理方法、装置、设备和存储介质
CN113590858B (zh) * 2021-06-30 2023-10-03 北京百度网讯科技有限公司 目标对象的生成方法、装置、电子设备以及存储介质
CN114037599B (zh) * 2021-09-16 2022-08-30 福建大娱号信息科技股份有限公司 一种基于自然环境场景信息的智能抠像方法、装置以及存储介质
CN114882229A (zh) * 2022-05-19 2022-08-09 浙江大华技术股份有限公司 一种目标检测图片生成方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109544496A (zh) * 2018-11-19 2019-03-29 南京旷云科技有限公司 训练数据的生成方法、对象检测模型的训练方法和装置
CN109766879A (zh) * 2019-01-11 2019-05-17 北京字节跳动网络技术有限公司 字符检测模型的生成、字符检测方法、装置、设备及介质
CN110136163A (zh) * 2019-04-29 2019-08-16 中国科学院自动化研究所 手部运动模糊自动抠图及在人体软分割和背景更换的应用
CN110222722A (zh) * 2019-05-14 2019-09-10 华南理工大学 交互式图像风格化处理方法、***、计算设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11509818B2 (en) * 2019-02-11 2022-11-22 Disney Enterprises, Inc. Intelligent photography with machine learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109544496A (zh) * 2018-11-19 2019-03-29 南京旷云科技有限公司 训练数据的生成方法、对象检测模型的训练方法和装置
CN109766879A (zh) * 2019-01-11 2019-05-17 北京字节跳动网络技术有限公司 字符检测模型的生成、字符检测方法、装置、设备及介质
CN110136163A (zh) * 2019-04-29 2019-08-16 中国科学院自动化研究所 手部运动模糊自动抠图及在人体软分割和背景更换的应用
CN110222722A (zh) * 2019-05-14 2019-09-10 华南理工大学 交互式图像风格化处理方法、***、计算设备及存储介质

Also Published As

Publication number Publication date
CN111951154A (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
CN111951154B (zh) 包含背景和介质的图片的生成方法及装置
Žbontar et al. Stereo matching by training a convolutional neural network to compare image patches
US10325181B2 (en) Image classification method, electronic device, and storage medium
US20220261659A1 (en) Method and Apparatus for Determining Neural Network
EP4085369A1 (en) Forgery detection of face image
CN110335199A (zh) 一种图像处理方法、装置、电子设备及存储介质
CN112257665A (zh) 图像内容的识别方法、图像识别模型的训练方法及介质
US20230281974A1 (en) Method and system for adaptation of a trained object detection model to account for domain shift
CN110827312A (zh) 一种基于协同视觉注意力神经网络的学习方法
CN110599453A (zh) 一种基于图像融合的面板缺陷检测方法、装置及设备终端
Wang et al. Pert: a progressively region-based network for scene text removal
CN112101344A (zh) 一种视频文本跟踪方法及装置
CN111461211A (zh) 一种用于轻量级目标检测的特征提取方法及相应检测方法
CN114373106A (zh) 基于上下文解耦和数据增强的弱监督语义分割方法及装置
CN113361567A (zh) 图像处理方法、装置、电子设备和存储介质
Wang et al. A multi-scale attentive recurrent network for image dehazing
CN113570615A (zh) 一种基于深度学习的图像处理方法、电子设备及存储介质
CN112597909A (zh) 一种用于人脸图片质量评价的方法与设备
Wang et al. SCNet: Scale-aware coupling-structure network for efficient video object detection
Li et al. Ao-detr: Anti-overlapping detr for x-ray prohibited items detection
CN116977484A (zh) 图像脱敏方法、装置、电子设备及存储介质
CN114612989A (zh) 人脸识别数据集的生成方法及装置、电子设备及存储介质
CN114913588A (zh) 一种应用于复杂场景下的人脸图像修复及识别方法
Xiong et al. Domain adaptation of object detector using scissor-like networks
Wang et al. MSGC: A new bottom-up model for salient object detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant