CN112464924A - 一种构建训练集的方法及装置 - Google Patents

一种构建训练集的方法及装置 Download PDF

Info

Publication number
CN112464924A
CN112464924A CN201910844042.6A CN201910844042A CN112464924A CN 112464924 A CN112464924 A CN 112464924A CN 201910844042 A CN201910844042 A CN 201910844042A CN 112464924 A CN112464924 A CN 112464924A
Authority
CN
China
Prior art keywords
sample image
image
training set
style
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910844042.6A
Other languages
English (en)
Inventor
刘大勇
高瑞阳
王正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201910844042.6A priority Critical patent/CN112464924A/zh
Publication of CN112464924A publication Critical patent/CN112464924A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/625License plates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种构建训练集的方法,涉及人工智能领域,该方法包括:获取第一样本图像,其中,第一样本图像携带第一标签,第一标签指示第一样本图像的内容的属性;获取素材信息,根据素材信息生成第二样本图像,第二样本图像携带第二标签,第二标签指示所述第二样本图像的内容的属性,第二样本图像的风格与第一样本图像的风格不同;进一步地,根据第一样本图像和第二样本图像生成第三样本图像,其中,第三样本图像的内容和标签与第二样本图像的内容和标签相同,第三样本图像的风格与所述第一样本图像的风格相似;最后,根据第一样本图像、第二样本图像以及第三样本图像,构建训练集。该方法可高效地构建包含丰富的样本图像的训练集。

Description

一种构建训练集的方法及装置
技术领域
本申请涉及人工智能(artificial intelligence,AI)领域,尤其涉及一种构建训练集的方法及装置。
背景技术
人工智能(artificial intelligence,AI)技术是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能的技术学科,AI技术通过感知环境、获取知识并使用知识获得最佳结果。换句话说,人工智能技术是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。利用人工智能进行图像处理是人工智能常见的一个应用方式。
以光学字符识别(optical character recognition,OCR)业务进行说明,在OCR业务的过程中,通常是根据业务方的需求对某一特定场景下的某些字符进行识别,这一般需要业务方提供该场景下真实的图像数据,并且需要对数据进行人工标注,然后用这些标注后的图像数据生成训练集,并使用训练集对AI模型进行训练得到可用于光学字符识别的AI模型,也称为光学字符识别模型。为了提升训练得到的模型的鲁棒性,需要使用丰富的图像数据,这些丰富的图像数据构成一个训练集。在现有技术中,训练集中的图像数据均需要人工采集和标注后才可使用,因此训练光学字符识别模型之前,训练集的构建需要耗费巨大的人工成本和时间成本。
基于上述技术缺陷,亟需一种构建训练集的方法,在保证训练集中数据的丰富性前提下,高效地增加训练集中的数据量。
发明内容
本申请提供了一种构建训练集的方法及装置。
第一方面,本申请提供一种构建训练集的方法,该方法可用于云计算设备***、边缘计算设备***或终端计算设备等多种应用环境中。
训练集构建装置首先获取第一样本图像,该第一样本图像为摄像头等图像传感器采集得到的真实图像,该第一样本图像中包括一张或多张真实图像。该第一样本图像的具体内容,与训练集构建装置最终所构建的训练集的用途相关,例如,当训练集构建装置构建的训练集是用于训练OCR业务中车牌识别模型,则第一样本图像为摄像头采集得到的车牌的真实图像。第一样本图像携带第一标签,第一标签指示第一样本图像的内容的属性,例如:第一样本图像为车牌的真实图像时,该第一标签为车牌图像中车牌号的字符串;
其次,训练集构建装置获取素材信息,根据素材信息生成第二样本图像。训练集构建装置根据输入的素材信息以及至少一个模板样本图像生成算法生成模板样本图像,再次,训练集构建装置对模板样本图像进行图像处理,训练集构建装置提供多种图像处理操作,经过一种或多种图像处理操作后,生成第二样本图像。
第二样本图像携带第二标签,第二标签指示第二样本图像的内容的属性,第二样本图像的风格与第一样本图像的风格不同,图像的风格指由图像的色彩、明暗、噪声分布、像素值大小、内容排布等因素共同构成的图像面貌。例如:当第一样本图像为车牌的真实图像时,第二样本图像也是车牌图像,第二样本图像中第二标签为车牌号的字符串;
根据第一样本图像和第二样本图像生成第三样本图像,其中,第三样本图像的内容和标签与第二样本图像的内容和标签相同,第三样本图像的风格与第一样本图像的风格相似;根据第一样本图像、第二样本图像以及第三样本图像,构建训练集。
本申请中,训练集构建装置获取第一样本图像,其中,第一样本图像携带第一标签,该第一标签指示第一样本图像的内容的属性,该第一标签为人工标注的标签;训练集构建装置获取素材信息,根据素材信息生成第二样本图像,第二样本图像携带第二标签,第二标签指示第二样本图像的内容的属性,第二样本图像的风格与第一样本图像的风格不同;根据第一样本图像和第二样本图像生成第三样本图像,其中,第三样本图像的内容和标签与第二样本图像相同,第三样本图像的风格与第一样本图像相似;根据第一样本图像、第二样本图像以及第三样本图像,构建训练集。只需要少量携带人工标注标签的第一样本图像,即可得到包括大量数据的训练集,因此,提升训练集数据丰富性的同时,节省了人力。用户可以根据自身业务需求方便快捷的生成大量模拟现实各种场景的数据,或者对已有数据进行增强。以缩短构建训练集的时间周期,并提高数据丰富性和质量。
在第一方面的一种可能的实现方式中,根据第一样本图像和第二样本图像生成第三样本图像,具体包括:
输入第一样本图像和第二样本图像至风格迁移模型,风格迁移模型可以采用AI模型,例如可以是基于对抗神经网络框架下的循环一致性生成对抗网络作为风格迁移模型;
训练集构建装置在获取第一样本图像,生成第二样本图像后,将第一样本图像与第二样本图像输入至风格迁移模型,风格迁移模型生成第三样本图像,第三样本图像的内容和标签与第二样本图像相同,第三样本图像的风格与第一样本图像相似,该第三样本图像为第二样本图像根据第一样本图像进行风格转换生成的样本图像,该转换生成第三样本图像的过程称为风格迁移。由于第三样本图像的内容和标签与第二样本图像相同,且第三样本图像的风格与第一样本图像相似,因此,训练集的样本图像具有更加丰富的特征。
在第一方面的一种可能的实现方式中,风格迁移模型包括多个生成器、多个判别器和内容不变分支。风格迁移模型在循环一致性生成对抗网络的基础上新增了内容不变分支,内容不变分支用于保证在风格迁移过程中,图像的内容与标签保持不变,具体的,当训练集构建装置所构建的训练集是用于训练OCR业务时,该内容不变分支使用文本识别算法,在一种可选的实现方式中,该文本识别算法为基于卷积循环神经网络的时序类分类(convolutional recurrent neural network+connectionist temporalclassification, CRNN+CTC);
根据风格迁移模型将第二样本图像的风格转换成与第一样本图像相似的风格,生成第三样本图像,具体包括:
根据内容不变分支对多个生成器和多个判别器中的参数进行更新;
经过参数更新后的多个生成器中的一个生成器生成第三样本图像,通过风格迁移模型中的内容不变分支,使得第二样本图像的标签和内容,与对应生成的第三样本图像的标签和内容保持一致。通过在风格迁移模型中新增内容不变分支,使得第三样本图像的内容和标签与第二样本图像相同,第三样本图像的风格与第一样本图像相似。保证了生成的第三样本图像的实用性。
在第一方面的一种可能的实现方式中,根据素材信息生成第二样本图像,具体包括:
首先,训练集构建装置根据素材信息以及至少一个模板样本图像生成算法,生成模板样本图像,以构建的训练集是用于训练OCR业务中车牌识别模型为例,车牌具有多种类型,例如:大型汽车号牌、挂车号牌以及小型汽车号牌等,每一种车牌具有不同的特点,具有不同特点的车牌可以对应不同的模板样本图像生成算法。用户可通过用户界面选择一个或多个模板样本图像生成算法,或设置各个模板样本图像生成算法的处理概率,以实现生成的目标样本图像为不同类型的图片。例如,用户通过用户界面设置各个模板样本图像生成算法的处理概率。以设置大型汽车号牌的处理概率50%,小型汽车号牌的处理概率50%为例,若生成100张模板样本图像,则其中的50张模板样本图像为大型汽车号牌的模板,剩余的50张模板样本图像为小型汽车号牌的模板;
其次,训练集构建装置对模板样本图像进行图像处理,生成第二样本图像。图像处理操作包括:裁剪、平移、旋转、仿射、透视、高斯噪声、不均匀光、图像模糊、动态模糊、alpha通道空白填充以及随机颜色填充等。训练集构建装置提供用户界面,用户可通过用户界面选择一种或多种图像处理操作,实现对模板样本图像的个性化图像处理操作。同时,训练集构建装置还提供各个图像处理的执行概率选项,用户通过设置各个图像处理的执行概率,以调整训练集构建装置输出的第二样本图像中经过各项图像处理的样本图像数。例如:当用户设置裁剪的执行概率为0.5、设置高斯噪声的执行概率为0.5时,训练集构建装置生成100张第二样本图像,其中50张第二样本图像执行“裁剪”图像处理操作,50 张第二样本图像执行“高斯噪声”图像处理操作。训练集构建装置根据预置的图像处理、用户自定义的其他图像处理和/或用户设置的各个图像处理的执行概率,可以生成第二样本图像,第二样本图像包括多个图像,每个图像为由训练集构建装置根据模板样本图像执行了不同图像处理后获得的图像。
在第一方面的一种可能的实现方式中,训练集构建装置可以提供上传素材信息的接口,以供用户输入素材信息,该素材信息与训练集构建装置最终构建的训练集相关。训练集构建装置获取用户输入的素材信息。以训练集是用于OCR业务中的相关模型为例,通常情况下,素材信息包括模板样本图像的背景信息、模板样本图像的内容信息、模板样本图像的内容的位置信息。其中,模板样本图像的内容信息包括字符、字体;模板样本图像的内容的位置信息指示字符在模板样本图像中的位置。
在第一方面的一种可能的实现方式中,训练集构建装置还可以根据素材信息生成第四样本数据。训练集构建装置对素材信息进行随机噪声处理,训练集构建装置提供多种随机噪声处理。训练集构建装置提供随机噪声处理包括生成随机统一颜色背景、生成随机像素点颜色背景、生成随机字符颜色和字体以及字符位置随机扰动等。除了上述随机噪声处理外,还可以根据实际需求,通过预设的函数端口新增其它随机噪声处理函数,以实现对素材信息的自定义随机噪声处理。
训练集构建装置还提供各个随机噪声处理的执行概率选项,用户通过设置各个随机噪声处理的执行概率,以调整训练集构建装置输出的第四样本图像中经过各项随机噪声处理的样本图像数。根据素材信息自动生成的第四样本图像,可提升训练集中数据种类的丰富性,减少训练集的过拟合,对使用训练集进行训练的模型精度的提升有明显帮助。增强该模型的鲁棒性。
第二方面,本申请实施例提供了一种训练集构建装置,该训练集构建装置可部署于云计算设备***、边缘计算设备***或终端计算设备等多种设备中。训练集构建装置包括获取模块、生成模块以及构建模块:
获取模块,用于获取第一样本图像,该第一样本图像为摄像头等图像传感器采集得到的真实图像,该第一样本图像中包括一张或多张真实图像。该第一样本图像的具体内容,与训练集构建装置最终所构建的训练集的用途相关,例如,当训练集构建装置构建的训练集是用于训练OCR业务中车牌识别模型,则第一样本图像为摄像头采集得到的车牌的真实图像。第一样本图像携带第一标签,第一标签指示第一样本图像的内容的属性,例如:第一样本图像为车牌的真实图像时,该第一标签为车牌图像中车牌号的字符串;
生成模块,用于获取素材信息,生成模块根据素材信息生成第二样本图像。首先,生成模块根据输入的素材信息以及至少一个模板样本图像生成算法生成模板样本图像,其次,生成模块对模板样本图像进行图像处理,训练集构建装置提供多种图像处理操作,经过一种或多种图像处理操作后,生成模块生成第二样本图像。
第二样本图像携带第二标签,第二标签指示第二样本图像的内容的属性,第二样本图像的风格与第一样本图像的风格不同,图像的风格指由图像的色彩、明暗、噪声分布、像素值大小、内容排布等因素共同构成的图像面貌。例如:当第一样本图像为车牌的真实图像时,第二样本图像也是车牌图像,第二样本图像中第二标签为车牌号的字符串;
生成模块,还用于根据第一样本图像和第二样本图像生成第三样本图像,其中,第三样本图像的内容和标签与第二样本图像的内容和标签相同,第三样本图像的风格与第一样本图像的风格相似;
构建模块,用于根据第一样本图像、第二样本图像以及第三样本图像,构建训练集。
在第二方面的一种可能实现方式中,生成模块,具体用于:
输入第一样本图像和第二样本图像至风格迁移模型;
根据风格迁移模型将第二样本图像的风格转换成与第一样本图像相似的风格,生成第三样本图像。
在第二方面的一种可能实现方式中,生成模块包括多个生成器、多个判别器和内容不变分支;
生成模块具体用于:
根据风格迁移模型将第二样本图像的风格转换成与第一样本图像相似的风格,生成第三样本图像,具体包括:
根据内容不变分支对多个生成器和多个判别器中的参数进行更新;
经过参数更新后的多个生成器中的一个生成器生成第三样本图像。
在第二方面的一种可能实现方式中,生成模块具体用于:
根据素材信息生成模板样本图像;
对模板样本图像进行图像处理,生成第二样本图像。
在第二方面的一种可能实现方式中,素材信息包括:模板样本图像的背景信息、模板样本图像的内容信息、模板样本图像的内容的位置信息。
在第二方面的一种可能实现方式中,对模板样本图像进行图像处理,具体包括以下处理操作中的一种或多种:
裁剪、平移、旋转、仿射、透视、高斯噪声、不均匀光、动态模糊、随机颜色填充。
在第二方面的一种可能实现方式中,生成模块,还用于对素材信息进行随机噪声处理;
生成模块,还用于根据随机噪声处理后的素材信息生成第四样本图像;
构建模块,还用于根据第一样本图像、第二样本图像、第三样本图像和第四样本图像,构建训练集。
第三方面,提供了一种计算设备。本申请提供的计算设备具有实现上述方法方面中训练集构建装置的功能,其包括用于执行上述方法方面所描述的步骤或功能相对应的部件 (means)。该步骤或功能可以通过软件实现,或硬件(如电路)实现,或者通过硬件和软件结合来实现。
在一种可能的设计中,上述计算设备包括一个或多个处理器。该一个或多个处理器被配置为支持该计算设备执行上述方法中训练集构建装置相应的功能。例如训练集构建装置根据该第一样本图像和该第二样本图像生成第三样本图像。
该计算设备还可以包括一个或多个存储器,该存储器用于与处理器耦合,其保存计算设备必要的程序指令和/或数据。该一个或多个存储器可以和处理器集成在一起,也可以与处理器分离设置。本申请并不限定。
另一个可能的设计中,上述计算设备中的处理器用于运行存储器中的计算机程序,使得该处理器执行第二方面或第二方面中任一种可能实现方式中训练集构建装置完成的方法。
第四方面,提供了一种计算机可读存储介质,用于存储计算机程序,该计算机程序包括用于执行第一方面或第一方面中任一种可能实现方式中的方法的指令。
第五方面,提供了一种计算机程序产品,该计算机程序产品包括:计算机程序代码,当该计算机程序代码在计算机上运行时,使得计算机执行上述第一方面或第一方面中任一种可能实现方式中的方法。
第六方面,本申请提供了一种芯片装置,该芯片装置包括处理器,用于支持训练集构建装置实现上述方面中所涉及的功能,例如,例如发送或处理上述方法中所涉及的数据和 /或信息。在一种可能的设计中,该芯片装置还包括存储器,该存储器,用于保存训练集构建装置必要的程序指令和数据。该芯片装置,可以由芯片构成,也可以包括芯片和其他分立器件。
该芯片装置包括:处理单元和通信单元,该处理单元例如可以是处理器,该通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令,以使执行设备内的芯片执行上述实施例描述的构建训练集的方法。可选地,该存储单元为该芯片内的存储单元,如寄存器、缓存等,该存储单元还可以是该训练集构建装置内的位于该芯片外部的存储单元,如只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM) 等。
从以上技术方案可以看出,本申请具有以下优点:提升训练集数据丰富性的同时,节省了人力。同时,由于第三样本图像的内容和标签与第二样本图像相同,且第三样本图像的风格与第一样本图像相似,因此,训练集的样本图像具有更加丰富的特征。
附图说明
图1a为本申请实施例提供的一种***架构示意图;
图1b为本申请实施例提供的另一种***架构示意图;
图2为本申请实施例提供的***架构200的结构示意图;
图3为本申请实施例提出的一种构建训练集的方法的实施例示意图;
图4a为本申请实施例中小型汽车号牌模板示意图;
图4b为本申请实施例中提供的图像处理界面示意图;
图5a为本申请实施例中一种样本图像在图像处理前后的示意图;
图5b为本申请实施例中另一种样本图像在图像处理前后的示意图;
图6为本申请实施例中生成第三样本图像的流程示意图;
图7a为本申请实施例中提供的随机噪声处理界面示意图;
图7b为本申请实施例中随机噪声处理的一种样本图像示意图;
图8为循环一致性生成对抗网络结构示意图;
图9为本申请实施例中风格迁移模型结构示意图;
图10为本申请实施例提出的车牌识别模型的训练示意图;
图11为本申请实施例中训练集构建装置的一种实施例示意图;
图12是本申请实施例提供的计算设备一种结构示意图;
图13为本申请实施例提供的芯片的一种结构示意图。
具体实施方式
本申请实施例提供了一种构建训练集的方法及装置。训练集构建装置获取第一样本图像,其中,第一样本图像携带第一标签,第一标签指示第一样本图像的内容的属性;
训练集构建装置获取素材信息,根据素材信息生成第二样本图像,第二样本图像携带第二标签,第二标签指示第二样本图像的内容的属性,第二样本图像的风格与第一样本图像的风格不同;根据第一样本图像和第二样本图像生成第三样本图像,其中,第三样本图像的内容和标签与第二样本图像相同,第三样本图像的风格与第一样本图像相似;根据第一样本图像、第二样本图像以及第三样本图像,构建训练集。只需要少量携带人工标注标签的第一样本图像,即可得到包括大量数据的训练集,因此,提升训练集数据丰富性的同时,节省了人力。同时,由于第三样本图像的内容和标签与第二样本图像相同,且第三样本图像的风格与第一样本图像相似,因此,训练集的样本图像具有更加丰富的特征。
下面结合附图,对本申请的实施例进行描述。本领域普通技术人员可知,随着技术的发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、***、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
本申请提供一种构建训练集的方法,该方法由训练集构建装置执行。本申请可以应用于人工智能领域的图像处理领域中,具体的,本申请实施例中训练集构建装置获取第一样本图像,其中,第一样本图像携带第一标签,第一标签指示第一样本图像的内容的属性;获取素材信息,根据素材信息生成第二样本图像,第二样本图像携带第二标签,第二标签指示第二样本图像的内容的属性,第二样本图像的风格与第一样本图像的风格不同;根据第一样本图像和第二样本图像生成第三样本图像,其中,第三样本图像的内容和标签与第二样本图像的内容和标签相同,第三样本图像的风格与第二样本图像的风格相似;根据第一样本图像、第二样本图像以及第三样本图像,构建训练集。
下面对前文提到的“内容”、“风格”以及“标签”等概念进行介绍:
内容:指图像中包含的可用于AI模型进行目标学习的、且具有特定意义的部分或全部,例如:对于一个包含多个字符的图像,其用于训练一个AI模型使得训练后的AI模型可识别这些字符,则这些字符即该图像的内容。再例如:对于一个包含一个人脸的图像,其用于训练一个AI模型使得训练后的AI模型可用于识别不同的人脸,则这个图像中的人脸即为该图像的内容。
在本申请的一个实施例中,以训练集应用于训练车牌识别模型为例,“内容”具体指训练集中图像中的车牌号部分。
风格:
图像的风格指由图像的色彩、明暗、噪声分布、像素值大小、内容排布等因素共同构成的图像面貌。在一种实施例中,两张图像的风格不同即指这两张图像由上述各种因素构成的图像面貌由人眼可识别出不同或者根据特定算法可识别出不同。
标签(label):指示图像的内容的属性,本申请中的训练集中的图像都携带标签,用以在图像用于AI模型的训练过程中计算AI模型的损失函数值,以用于更新AI模型中的参数。
在本申请实施例中,以训练集应用于训练车牌识别模型为例,“标签”具体为图像中的车牌号(即内容)对应的一个字符串。
由于众多领域中都可以用到本申请实施例中的构建训练集的方法,下面将对多个应用场景进行介绍。
作为一种示例,本申请实施例可以应用于智能交通领域,在该智能交通***中,配置摄像头,摄像头采集到包含车牌信息的图像后,对这些图像进行标注,得到携带人工标注的标签(label)的真实图像,该标签具体为图像中的车牌号对应的字符串。训练集构建装置获取到这些携带人工标注的标签的真实图像后,将这些图像称为第一样本图像,将这些图像携带的标签称为第一标签。训练集构建装置根据用户输入的素材信息(包括构成车牌号的字符,车牌背景等)生成模板样本图像,第二样本图像携带第二标签,第二标签指示第二样本图像的内容的属性,第二样本图像的风格与第一样本图像的风格不同。再对模板样本图像进行不同的图像处理操作,例如剪切、旋转或平移等生成第二样本图像。训练集构建装置在得到第一样本图像以及第二样本图像后,将第一样本图像与第二样本图像输入至风格迁移模型中,该风格迁移模型输出第三样本图像,该第三样本图像为第二样本图像根据第一样本图像进行风格转换生成的样本图像,该转换生成第三样本图像的过程称为风格迁移。最后训练集构建装置根据第一样本图像、第二样本图像以及第三样本图像构建训练集。该训练集可以用于车牌识别模型的训练,在智能交通***中,可使用训练好的车牌识别模型,识别通过摄像头采集到的真实图像中的车牌号。
作为另一种示例,本申请实施例可以应用于平安城市领域,在该平安城市***中,配置摄像头。当摄像头采集到包含身份证的图像后,对这些图像进行标注,得到携带人工标注的标签(label)的真实图像,该标签具体为图像中的身份证号对应的字符串。训练集构建装置获取到这些携带人工标注的标签的真实图像后,将这些图像称为第一样本图像,将这些图像携带的标签称为第一标签。训练集构建装置根据用户输入的素材信息(包括构成身份证号的字符,身份证背景等)生成模板样本图像。再对模板样本图像进行图像处理操作,例如剪切、旋转或平移等生成第二样本图像,第二样本图像携带第二标签,第二标签指示第二样本图像的内容的属性,第二样本图像的风格与第一样本图像的风格不同。训练集构建装置在得到第一样本图像以及第二样本图像后,将第一样本图像与第二样本图像输入至风格迁移模型中,该风格迁移模型输出第三样本图像,该第三样本图像为第二样本图像根据第一样本图像进行风格转换生成的样本图像。最后训练集构建装置根据第一样本图像、第二样本图像以及第三样本图像构建训练集。该训练集可以用于身份证识别模型的深度学***安城市***中,可使用训练好的身份证识别模型,识别通过摄像头采集到的真实图像中的身份证号。
需要说明的是,本申请实施例提出的构建训练集的方法所构建的训练集还可以应用于多种光学字符识别(optical character recognition,OCR)业务中,例如:增值税***、驾驶证、广告牌、医疗单、保险单等,此处不再赘述。
作为另一种示例,本申请实施例可以应用于增强现实(augmented reality,AR)领域。具体的,智能终端如手机、平板、笔记本电脑、智能穿戴设备等,配置摄像头。当摄像头采集到包含各个物件的图像后,对这些图像中的物件进行标注,得到携带人工标注的标签(label)的真实图像。例如:当图像中包括一张桌子的桌面时,该标签具体为桌面;当图像中包括水杯时,该标签具体为水杯;当图像中包括一把雨伞时,该标签具体为雨伞的伞把。训练集构建装置获取到这些携带人工标注的标签的真实图像后,将这些图像称为第一样本图像。训练集构建装置根据用户输入的素材信息(包括标签所对应物件的图像:如桌面、水杯或伞把等图像;环境背景图像:如办公室背景图、厨房背景图或卧室背景图等)生成模板样本图像。再对模板样本图像进行图像处理操作,例如剪切、旋转或平移等生成第二样本图像,第二样本图像携带第二标签,第二标签指示第二样本图像的内容的属性,第二样本图像的风格与第一样本图像的风格不同。训练集构建装置在得到第一样本图像以及第二样本图像后,将第一样本图像与第二样本图像输入至风格迁移模型中,该风格迁移模型输出第三样本图像,该第三样本图像为第二样本图像根据第一样本图像进行风格转换生成的样本图像。最后训练集构建装置根据第一样本图像、第二样本图像以及第三样本图像构建训练集。该训练集可以用于AR物件识别模型的深度学习训练。智能终端使用训练好的该AR物件识别模型,识别通过摄像头采集到的真实图像中的各种物件,并且可以在识别出的物件周边显示相关信息。
应当理解,本申请实施例还可以应用于其他需要训练集的场景中,此处不再对其他应用场景进行一一列举。
本申请实施例提供的构建训练集的方法可以由训练集构建装置执行,本申请实施例中并不限定训练集构建装置所部署的位置。示例性的,如图1a所示,图1a为本申请实施例提供的一种***架构示意图,训练集构建装置可以运行在云计算设备***(包括至少一个云计算设备,例如:服务器等),也可以运行在边缘计算设备***(包括至少一个边缘计算设备,例如:服务器、台式电脑等),也可以运行在各种终端计算设备上,例如:手机、笔记本电脑、个人台式电脑等。
训练集构建装置中的各个组成部分还可以分别部署在不同的***或服务器中。示例性的,如图1b所示,装置的各部分可以分别运行在云计算设备***、边缘计算设备***或终端计算设备这三个环境中,也可以运行在这三个环境中的任意两个中。云计算设备***、边缘计算设备***和终端计算设备之间由通信通路连接,可以互相进行通信和数据传输。本申请实施例提供的分类模型的训练方法由运行在三个环境(或三个环境中的任意两个)中的训练集构建装置的各组合部分配合执行。
下面以训练集构建装置一部分部署于终端计算设备,另一部分部署于云计算设备***中为例进行说明。请参见图2,图2为本申请实施例提供的一种***架构200的示意图,训练集构建装置中的各部分部署于该***架构200上的不同设备上,以使得该***架构200中的设备协同工作一起实现训练集构建装置的功能。如图2所示,该***架构200包括服务器220、数据库230、第一通信设备240、数据存储***250和第二通信设备260,其中,数据库260、服务器220以及数据存储***250属于云计算设备***,第一通信设备240 属于终端计算设备。
第一通信设备240用于接收第一样本图像以及用户录入的素材信息,并将第一样本图像以及用户录入的素材信息发送给服务器220,服务器220根据用户录入的素材信息生成第二样本图像。
数据库230中存储有数据集合,该数据集合用于供服务器220对风格迁移模型进行迭代训练,该数据集合可以为用户通过第一通信设备240上传至服务器220中的,也可以为服务器220通过数据采集设备采集获取的,本申请实施例中,该数据集合包括第一样本图像以及第二样本图像。服务器220在接收到第一样本图像以及第二样本图像之后,获取一个或多个风格迁移模型,服务器220将第一样本图像以及第二样本图像输入进多个风格迁移模型,并通过多个风格迁移模型生成第三样本图像;进一步的,服务器220还用于利用数据库230中存储的数据集合对多个风格迁移模型中的所有风格迁移模型或部分风格迁移模型进行迭代训练,以得到训练成熟的风格迁移模型,并使用训练成熟的风格迁移模型生成第三样本图像。
服务器220根据第一样本图像、第二样本图像以及第三样本图像构建训练集,并将训练集存储至数据库230中。服务器220在构建训练集后,可以将训练集发送至第一通信设备240。
可选的,可以在第一通信设备240上通过训练集训练目标AI模型;也可以在服务器220中通过训练集训练目标AI模型。
可选的,训练成熟的目标AI模型可以加载于服务器220、第一通信设备240或第二通信设备260中,分别由服务器220、第一通信设备240或第二通信设备260运行训练成熟的目标AI模型。
其中,第一通信设备240包括但不限于平板电脑、笔记本电脑、掌上电脑、手机、语音交互设备及个人电脑(personal computer,PC),此处不做限定。第二通信设备260可以表示任何计算设备,例如个人计算机、计算机工作站、智能手机、平板电脑、智能摄像头、智能汽车或其他类型蜂窝电话、媒体消费设备、可穿戴设备、机顶盒、游戏机等。
第一通信设备240与服务器220以及第一通信设备240与第二通信设备260之间均可以通过无线网络连接。其中,上述的无线网络使用标准通信技术和/或协议。无线网络通常为因特网、但也可以是任何网络,包括但不限于局域网(local area network,LAN)、城域网(metropolitan area network,MAN)、广域网(wide area network,WAN)、移动、专用网络或者虚拟专用网络的任何组合)。在另一些实施例中,还可以使用定制或专用数据通信技术取代或者补充上述数据通信技术。
虽然图2中仅示出了一个服务器220、一个第一通信设备240和一个第二通信设备260,但应当理解,图2中的示例仅用于理解本方案,具体服务器220、第一通信设备240和第二通信设备260的数量均应当结合实际情况灵活确定。
下面结合附图以构建的训练集是用于训练OCR业务中车牌识别模型为例,对本申请提出的构建训练集的方法具体实现流程进行描述。请参阅图3。图3为本申请实施例提出的一种构建训练集的方法的实施例示意图。
301、获取第一样本图像,其中,第一样本图像携带第一标签,第一标签指示第一样本图像的内容的属性。
本实施例中,训练集构建装置首先获取第一样本图像,该第一样本图像为摄像头等图像传感器采集得到的真实图像,该第一样本图像中包括一张或多张真实图像。该第一样本图像的具体内容,与训练集构建装置最终所构建的训练集的用途相关,例如,当训练集构建装置构建的训练集是用于训练OCR业务中车牌识别模型,则第一样本图像为摄像头采集得到的车牌的真实图像;当训练集构建装置构建的训练集是用于训练OCR业务中身份证识别模型,则第一样本图像为摄像头采集得到的身份证的真实图像;当训练集构建装置构建的训练集是用于训练AR物件识别模型,则第一样本图像为摄像头采集得到的物件的真实图像(如雨伞图像或水杯图像等)。
以构建的训练集是用于训练OCR业务中车牌识别模型为例,则第一样本图像为摄像头采集得到的车牌的真实图像。该第一样本图像携带第一标签(label),例如,当真实图像中的车牌为“川U 32501”,则该真实图像所对应的标签为车牌号“川U 32501”这一串字符串。
需要说明的是,该第一样本图像既可以是训练集构建装置采集并进行自动标注得到的,也可以是用户通过其它途径采集并标注后,上传至训练集构建装置中,此处不作限定。
302、获取素材信息。
具体地,在本申请的一个实施例中,训练集构建装置可以提供上传素材信息的接口,以供用户输入素材信息,该素材信息与训练集构建装置最终构建的训练集相关。训练集构建装置获取用户输入的素材信息。以训练集是用于OCR业务中的相关模型为例,通常情况下,素材信息包括模板样本图像的背景信息、模板样本图像的内容信息、模板样本图像的内容的位置信息。其中,模板样本图像的内容信息包括字符、字体;模板样本图像的内容的位置信息指示字符在模板样本图像中的位置。
具体的,以构建的训练集是用于训练OCR业务中车牌识别模型为例,其中,具体为中国大陆地区的车牌,步骤302获取素材信息中,具体获取的素材信息包括:模板样本图像的内容信息:字符以及字体;模板样本图像的内容的位置信息:字符位置信息;模板样本图像的背景信息:背景信息,其中,字符包括:10个数字“‘0',‘1',‘2',‘3',‘4', ‘5',‘6',‘7',‘8',‘9'”;26个大写字母“‘A',‘B',‘C',‘D',‘E',‘F',‘G',‘H', ‘I',‘J',‘K',‘L',‘M',‘N',‘O',‘P',‘Q',‘R',‘S',‘T',‘U','V',‘W',‘X', ‘Y',‘Z'”;31个省级行政区简称“‘京',‘津',‘沪',‘渝',‘冀',‘豫',‘云',‘辽 ',‘黑',‘湘',‘皖',‘鲁',‘新',‘苏',‘浙',‘赣',‘鄂',‘桂',‘甘',‘晋',‘蒙 ',‘陕',‘吉',‘闽',‘贵',‘粤',‘青',‘藏',‘川',‘宁',‘琼'”。字体采用与车牌字体接近的“黑体”,所上传的字体素材信息具体可以为“黑体.TTF”。字符位置信息具体为每个字符的像素大小以及每个字符之间间隔的像素大小,例如对应不同的车牌字符位置不同。背景信息具体是背景图像,这些背景图像的红(R)、绿(G)、蓝(B)三种色值的具体取值不同,以背景信息为黑色为例,则上传的背景图像的RGB取值为(R=0;G=0;B=0)。
需要说明的是,此处不对步骤301与302执行的先后顺序进行限定,既可以先执行步骤301,再执行步骤302;也可以先执行步骤302,再执行步骤301;还可以同时执行步骤301与步骤302,此处不作限定。在执行步骤302后,执行步骤303。
303、根据所获取的素材信息,生成第二样本图像,第二样本图像携带第二标签,第二标签指示第二样本图像的内容的属性,第二样本图像的风格与第一样本图像的风格不同。
本实施例中,训练集构建装置根据用户输入的素材信息,生成模板样本图像,然后对该模板样本图像进行图像处理,最后生成第二样本图像。
首先,训练集构建装置根据输入的素材信息以及至少一个模板样本图像生成算法生成模板样本图像。以构建的训练集是用于训练OCR业务中车牌识别模型为例,此时存在多种情况,例如:大型汽车号牌、挂车号牌、小型汽车号牌、使馆汽车号牌、领馆汽车号牌、港澳入出境车号牌、教练汽车号牌、警用汽车号牌、普通摩托车号牌、轻便摩托车号牌、使馆摩托车号牌、领馆摩托车号牌、教练摩托车号牌、警用摩托车号牌、低速车号牌和拖拉机号牌、临时行驶车号牌、临时入境汽车号牌以及临时入境摩托车号牌等,每一种车牌具有不同的特点,具有不同特点的车牌可以对应不同的模板样本图像生成算法。以大型汽车号牌为例,请参阅图4a,图4a为本申请实施例中小型汽车号牌模板示意图。小型汽车号牌模板,如图4a所示,在该模板中规定了小型汽车号牌的图像尺寸以及各个字符的具***置。在一种实施例中,当用户选择生成的第二样本图像为小型汽车号牌时,训练集构建装置根据该小型汽车号牌模板的模板样本图像生成算法生成模板样本图像,例如,根据素材信息中的字符“京/A/-/0/2/3/6”、蓝色背景图像以及小型汽车号牌模板,生成模板样本图像“京A-0236”,其中,标注模板数据“京A-0236”的图像尺寸以及各个字符的位置,与小型汽车号牌模板一致。例如,训练集构建装置还可以存储临时行驶车号牌模板等,可以根据用户的实际需求,利用不同的模板样本图像生成算法生成多种不同模板所对应的模板样本图像。
再次,训练集构建装置对模板样本图像进行图像处理,训练集构建装置提供多种图像处理操作,具体的请参阅图4b,图4b为本申请实施例中提供的图像处理界面示意图,训练集构建装置提供的图像处理操作包括:裁剪、平移、旋转、仿射、透视、高斯噪声、不均匀光、图像模糊、动态模糊、alpha通道空白填充以及随机颜色填充。
训练集构建装置还可以提供上传函数端口,例如:
“def ImageAug(image,parameters):
‘”
To define the method of augmentation
‘”
return image”
“To define the method of augmentation”为用户自定义函数。用户通过上述图像处理函数端口上传自定义函数,会在图4b中的“自定义-其它增强操作1”以及“自定义-其它增强操作2”等选项中显示。同时,训练集构建装置还提供各个图像处理的执行概率选项,用户通过设置各个图像处理的执行概率,以调整训练集构建装置输出的第二样本图像中经过各项图像处理的样本图像数。该执行概率为对任一模板样本图像进行图像处理时,进行某项图像处理的概率。例如,当设置裁剪的执行概率为0.5、高斯噪声的执行概率为0.5时,训练集构建装置对模板样本图像进行裁剪的概率为0.5并且进行高斯噪声的概率为0.5。训练集构建装置根据预置的图像处理、用户自定义的其他图像处理和/或用户设置的各个图像处理的执行概率,可以生成第二样本图像,第二样本图像包括多个图像,每个图像为由训练集构建装置根据模板样本图像执行了不同图像处理后获得的图像。
对于模板样本图像的图像处理操作:裁剪、平移、旋转、仿射、透视、高斯噪声、不均匀光、图像模糊、动态模糊、alpha通道空白填充以及随机颜色填充等的具体技术方法不作限定,可以调用已有的函数以实现上述一种或多种处理方式的功能。
以图像模糊为例,可采用图像高斯模糊方法进行,使用的是“opencv-python”中“cv2.GaussianBlur()”函数,函数定义如下:
“cv2.GaussianBlur(img,kernel,sigma)
def process(self,img):
return cv2.GaussianBlur(img,(5,5),self.sigma)”,
其中,“img”:待处理数据(图像数据);“kernel”:高斯核,是正奇数,如(5,5);“sigma”:指定x/y方向标准差,控制模糊的程度,数值越大模糊度也高。
以高斯噪声为例,通常使用的是“skimage.util.random_noise()”函数,函数定义如下:
“skimage.util.random_noise(gray_img,mode,seed=None,clip=True,kwargs)
def process(self,img):
return random_noise(img,mode='gaussian',var=self.var)”
其中,“gray_img”:待处理数据的灰度图;“mode”:str类型,添加噪音类型;“seed”: int类型,添加噪音随机性;“clip”:为“clip=True”时应用剪切,输入和输入大小相同;“mean”:噪音随机分布的均值;“var”:噪音随机分布的方差。
可选的,训练集构建装置除了可以对模板样本图像进行图像处理以外,还可以对第一样本图像中的数据进行图像处理,此时输出的数据也称为第二样本图像。以图5a为例,图5a为本申请实施例中图像处理的一种样本图像示意图。对第一样本图像中摄像头采集得到的真实图像“藏A-3003”(图5a中①)进行不均匀光处理后,生成第二样本图像“藏 A-3003”(图5a中②)。
而对模板样本图像进行图像处理,可参见图5b。图5b为本申请实施例中图像处理的另一种样本图像示意图。对模板样本图像“川S-90J8”(图5b中①)进行动态模糊处理后,生成第二样本图像“川S-90J8”(图5b中②)。
304、根据第一样本图像和第二样本图像生成第三样本图像,其中,第三样本图像的内容和标签与第二样本图像的内容和标签相同,第三样本图像的风格与第一样本图像的风格相似。
在步骤301、步骤303后,执行步骤304。具体地,训练集构建装置在获取第一样本图像,生成第二样本图像后,将第一样本图像与第二样本图像输入至风格迁移模型,风格迁移模型生成第三样本图像,第三样本图像的内容和标签与第二样本图像相同,第三样本图像的风格与第一样本图像相似,该第三样本图像为第二样本图像根据第一样本图像进行风格转换生成的样本图像,该转换生成第三样本图像的过程称为风格迁移。通过风格迁移模型中的内容不变分支,使得第二样本图像的标签(label)和内容,与对应生成的第三样本图像的标签(label)和内容保持一致。例如:第二样本图像为车牌号“川S-90J8”的图像,该图像中的车牌号为该第二样本图像的内容,该车牌号对应的字符串“川S-90J8”为该第二样本图像的标签,经过风格转换后生成第三样本图像,该第三样本图像的标签和内容与该第二样本图像相同。但是生成的第三样本图像的风格与第一样本图像相似,例如:第一样本图像为人工在光照过强情况下采集到的曝光图像,则经过风格迁移后的第二样本图像也被转换为了曝光图像。
具体的生成第三样本图像的过程,请参阅图6,图6为本申请实施例中前述步骤S304 的具体流程示意图。
步骤S1、构建风格迁移模型训练集。
步骤S1中,训练集构建装置在第一样本图像与第二样本图像中抽取一些图像,生成风格迁移模型训练集。可选的,风格迁移模型训练集中的第一样本图像可以在线添加;可选的,风格迁移模型训练集中的第二样本图像中的数据可以实时更新。
步骤S2、将风格迁移模型训练集输入至风格迁移模型进行训练。
步骤S2中,训练集构建装置将风格迁移模型训练集输入至风格迁移模型进行训练,其中风格迁移模型采用一种AI模型,具体对于风格迁移模型的介绍如后文所述。将第二样本图像转换为与第一样本图像风格类似的样本图像,并计算转换过程中的损失,具体的训练步骤,与后文中的图8-图9类似,此处不赘述。
需要说明的是,既可以单个第二样本图像用于训练,可以多个第二样本图像用于训练,此处不作限定。既可以是一个风格迁移模型训练,也可以是多个风格迁移模型进行训练,此处不作限定。
S3、保存第一子集。
步骤S3中,风格迁移模型在使用风格迁移模型训练集进行训练的过程中,每经过n个步数(step),风格迁移模型保存第二样本图像根据第一样本图像进行风格转换生成的样本图像,该样本图像称为第一子集,其中,n为正整数。
具体的,第一子集通过下述方法生成:每经过n个步数,风格迁移模型在风格迁移模型训练集中抽取k个第二样本图像与q个第一样本图像进行训练,风格迁移模型将训练过程中前向传播数据(k个)保存下来,该前向传播数据为第一子集,其中k为正整数,通常可以设置为32、64或128等,此处不作限定。q为正整数。
S4、保存第二子集。
步骤S4中,风格迁移模型在使用风格迁移模型训练集进行训练的过程中,每经过n个步数或每经过m个回合(epoch),风格迁移模型保存第二样本图像根据第一样本图像进行风格转换生成的样本图像,该样本图像称为第二子集,其中,n为正整数,m为正整数,每一回合代表训练集内所有的样本图像经过了一次训练。
具体的,第二子集通过下述方法生成:经过每n个步数或每m个回合,迭代训练后的风格迁移模型暂停训练,此时迭代训练后的风格迁移模型从风格迁移模型训练集中抽取f个第二样本图像与p个第一样本图像,风格迁移模型使用该f个第二样本图像与该p个第一样本图像在线推理,得到的样本图像(f个)称为第二子集,m为正整数,f为正整数, p为正整数。其中,f通过可以设置为500、800或1000等。目的是,便于迅速增加第三样本图像中的样本数量。
需要说明的是,训练每经过1个步数,风格迁移模型都会生成相应的损失,而该损失会向前反馈更新生成器与判别器中的相关数据,因此,训练每经过1个步数,风格迁移模型中的参数均会相应发生变化。本申请实施例中,训练集构建装置可以每经过n个步数或每经过m个回合,获得迭代训练后的风格迁移模型,并使用训练后的风格迁移模型生成第三样本图像。
为了便于说明,将每经过n个步数或每经过m个回合所保存的风格迁移模型称为第一风格迁移模型集合。例如:当m取5时,第5回合所保存的风格迁移模型称为第一风格迁移模型,第10回合所保存的风格迁移模型称为第二风格迁移模型,第一风格迁移模型与第二风格迁移模型共同组成第一风格迁移模型集合。训练集构建装置使用风格迁移模型与第一风格迁移模型集合中的风格迁移模型生成第三样本图像。
S5、根据第一子集与第二子集生成第三样本图像。
步骤S5中,训练集构建装置根据第一子集与第二子集生成第三样本图像,具体的,训练集构建装置可以提供“同源覆盖”选项,当用户选择了该“同源覆盖”选项时,对于同一第二样本图像,生成时间晚的第三样本图像替换生成时间早的第三样本图像。例如,在风格迁移模型训练至第5步时,输出与第二样本图像“桂L-7AK8”相对应的第三样本图像,该第三样本图像称为第三子集;在在风格迁移模型训练至第10步时,输出与第二样本图像“桂L-7AK8”相对应的第三样本图像,该第三样本图像称为第四子集。第四子集的生成时间晚于第三子集,因此当用户选择“同源覆盖”时,训练集构建装置所生成的第三样本图像中,仅存在第四子集。当然,若用户未选择“同源覆盖”,则训练集构建装置所生成的第三样本图像中,同时存在第三子集与第四子集。
上述S1-S5即为生成第三样本图像的具体流程。
305、根据素材信息生成第四样本图像。
本实施例中,训练集构建装置还可以根据素材信息生成第四样本数据。
具体的,首先,训练集构建装置对素材信息进行随机噪声处理,训练集构建装置提供多种随机噪声处理,具体的请参阅图7a,图7a为本申请实施例中提供的随机噪声处理界面示意图,训练集构建装置提供随机噪声处理包括生成随机统一颜色背景、生成随机像素点颜色背景、生成随机字符颜色和字体以及字符位置随机扰动等。除了上述随机噪声处理外,还可以根据实际需求,通过预设的函数端口新增其它随机噪声处理函数,以实现对素材信息的自定义随机噪声处理。“生成随机统一颜色背景”指的是生成的第四样本图像中,背景所有像素点的颜色统一;“生成随机像素点颜色背景”指的是生成的第四样本图像中,背景每个像素点的颜色随机生成。需要说明的是,生成第四样本图像的素材信息包括字符。
训练集构建装置还提供各个随机噪声处理的执行概率选项,用户通过设置各个随机噪声处理的执行概率,以调整训练集构建装置输出的第四样本图像中经过各项随机噪声处理的样本图像数。
对素材信息进行随机噪声处理生成第四样本图像,包括多种方式。例如:当用户选择“生成随机统一颜色背景”的执行概率为100%,此时训练集构建装置输出的第四样本图像的过程包括:首先,根据“生成随机统一颜色背景”,生成任意颜色的背景,如粉红色背景。其次,在该背景上贴字符,如贴上“蒙/M/-/E/X/3/C”字符,此时生成包括“蒙 /M/-/E/X/3/C”字符的粉红色背景图像。再次,对该图像进行图像处理,该图像处理如前述第二样本图像中的图像处理,例如对该粉红色背景图像进行旋转,裁剪等。然后通过 alpha通道对图像处理后出现的空白区域进行填充,具体填充方式包括“生成随机统一颜色背景”或“生成随机像素点颜色背景”,填充完后的图像为第四样本图像(如图7b中②)。需要说明的是,这仅是生成第四样本图像的一种可选的实现方式。
还存在多种可选的实现方式生成第四样本图像,例如:当用户选择“生成随机统一颜色背景”的执行概率为0%,“生成随机像素点颜色背景”的执行概率为0%,“生成随机字符颜色和字体”的执行概率为100%,以及“字符位置随机扰动”的执行概率为0%时,首先,生成空白背景图像或蓝色背景图像,该蓝色背景图像为小型汽车号牌标准模板。以生成空白背景图像为例,再次,在该空白背景上贴字符,如“蒙/M/-/E/X/3/C”字符,此时,该字符的字符颜色和字体是随机的,例如字符颜色为绿色的“蒙”,字符颜色为红色的“M/-”,字符颜色为蓝色的“E/X/3/C”。最后,将贴完字符的图像作为第四样本图像。
具体的,训练集构建装置根据素材信息生成第四样本图像,可参见图7b为本申请实施例中随机噪声处理的一种样本图像示意图。当用户选择随机噪声处理中“生成随机统一颜色背景”、“生成随机字符颜色和字体”后,根据素材信息中的字符“沪/C/-/9/E/A/2/Y”生成第四样本图像“沪C-9EA2Y”(如图7b中①)。首先,根据“生成随机像素点颜色背景”,生成布满随机颜色像素点的背景。其次,在该背景上贴上字符,如贴上“沪 /C/-/9/E/A/2/Y”字符,生成包括“沪/C/-/9/E/A/2/Y”字符的图像。再次,对该图像进行图像处理,最后将图像处理完毕的图像作为第四样本图像。
当用户选择随机噪声处理中“生成随机统一颜色背景”、“生成随机字符颜色和字体”后,根据素材信息中的字符“蒙/M/-/E/X/3/C”生成第四样本图像“蒙M-EX3C”(如图7b中②)。
需要说明的是,此处不对步骤305的执行顺序进行限定,步骤305可与步骤303同时进行,也可以与步骤304同时进行。在一些可选的实现方式中,步骤305为可选步骤。
306、构建训练集。
本实施例中,训练集构建装置根据第一样本图像、第二样本图像、第三样板图像以及第四样本图像构建训练集。具体的,训练集中各个样本图像可以按照第一样本图像、第二样本图像、第三样板图像以及第四样本图像四大部分划分。具体的比例可以通过机器学习技术确定,例如自动机器学习(automatic machine learning,autoML),也可以为用户根据实际需求预先配置,此处不作限定。在一种可选的实施方式中,训练集中各个部分的比例可参见表1。
比例(总和=1)
第一样本图像 0.5
第二样本图像 0.2
第三样本图像 0.15
第四样本图像 0.15
表1
需要说明的是,训练集中样本图像还可以根据用户的实际需求进行拓展,该拓展的样本图像称为第五样本图像。该第五样本图像为外源数据,以增加训练集的数据丰富性。当训练集中还包括第五样本图像时,在一种可选的实施方式中,训练集中各个部分的比例可参见表2。
比例(总和=1)
第一样本图像 0.4
第二样本图像 0.2
第三样本图像 0.15
第四样本图像 0.15
第五样本图像 0.1
表2
具体的,以训练集是用于训练OCR业务中车牌识别模型为例,第五样本图像可以是不同国家的车牌图像,以增加使用训练集训练得到的车牌识别模型的鲁棒性。本申请实施例中,训练集构建装置获取第一样本图像,其中,第一样本图像携带第一标签,该第一标签指示第一样本图像的内容的属性,该第一标签为人工标注的标签;训练集构建装置获取素材信息,根据素材信息生成第二样本图像,第二样本图像携带第二标签,第二标签指示第二样本图像的内容的属性,第二样本图像的风格与第一样本图像的风格不同;根据第一样本图像和第二样本图像生成第三样本图像,其中,第三样本图像的内容和标签与第二样本图像相同,第三样本图像的风格与第一样本图像相似;根据第一样本图像、第二样本图像以及第三样本图像,构建训练集。只需要少量携带人工标注标签的第一样本图像,即可得到包括大量数据的训练集,因此,提升训练集数据丰富性的同时,节省了人力。同时,由于第三样本图像的内容和标签与第二样本图像相同,且第三样本图像的风格与第一样本图像相似,因此,训练集的样本图像具有更加丰富的特征。用户可以根据自身业务需求方便快捷的生成大量模拟现实各种场景的数据,或者对已有数据进行增强。以缩短构建训练集的时间周期,并提高数据丰富性和质量。
其次,根据素材信息自动生成的第四样本图像,可提升训练集中数据种类的丰富性,减少训练集的过拟合,对使用训练集进行训练的模型精度的提升有明显帮助。增强该模型的鲁棒性。
再次,通过在风格迁移模型中新增内容不变分支,使得第三样本图像的内容和标签与第二样本图像相同,第三样本图像的风格与第一样本图像相似。保证了生成的第三样本图像的实用性。
关于前述本申请实施例中,如步骤304出现的风格迁移模型,下面进行详细描述。风格迁移模型可以采用AI模型,具体地,可以采用神经网络模型,例如:在一种实施例中,可以是基于对抗神经网络(generative adversarial networks,GAN)框架下的循环一致性生成对抗网络(cycle consistent generative adversarial networks,cycleGAN)作为风格迁移模型,在介绍cycleGAN之前,首先介绍对抗神经网络(GAN)的原理:
GAN是一种深度学习模型,GAN中至少包括两个子模型:一个子模型称为(generator),另一个子模型称为判别器(discriminator),通过这两个子模型互相博弈学习,从而产生更好的输出。生成器和判别器都可以是神经网络模型,具体可以是深度神经网络模型,或者卷积神经网络模型。
GAN的基本原理如下:以生成图像的GAN为例,假设有两个网络,生成器(generator,G)和判别器(discriminator,D),其中G是一个生成网络,它接收一个随机的噪声z,通过这个噪声生成图像,记做G(z);D是一个判别网络,用于判别一张图像是不是“真实的”。它的输入参数是s,s代表一张图像,输出D(s)代表s为真实图像的概率,如果为 1,就代表100%是真实图像,如果为0,就代表不可能是真实图像。在对该生成式对抗网络进行训练的过程中,生成网络G的目标就是尽可能生成真实图像去欺骗判别网络D,而判别网络D的目标就是尽量把G生成的图像和真实图像区分开来。这样,G和D就构成了一个动态的“博弈”过程,也即“生成式对抗网络”中的“对抗”。最后博弈的结果,在理想的状态下,G可以生成足以“以假乱真”的图像G(z),而D难以判定G生成的图像究竟是不是真实的,即D(G(z))=0.5。这样就得到了一个优异的生成模型G,它可以用来生成图像。
在GAN的基础上,发展出循环一致性生成对抗网络(cycle consistentgenerative adversarial networks,cycleGAN),为了便于理解,请参阅图8,图8为循环一致性生成对抗网络结构示意图。cycleGAN的目的是将一类图像转换成另一类图像(例如本申请实施例中的风格迁移模型目的是将根据素材信息自动生成的图像,转换为与真实拍摄图像的风格类似的图像)。首先,先假设两个图像数据集“X”和“Y”,目的是通过cycleGAN将“X”中的样本图像转换为“Y”中的样本图像(在一种可选的实现方式中,X为根据素材信息自动生成的图像,即模板样本图像;在另一种可选的实现方式中,X为经过图像处理的模板样本图像,即第二样本图像;Y为真实拍摄图像,即第一样本图像)。因此,该cycleGAN 的目标为学习从“X”到“Y”的映射,这里假设该映射为“XtoY”,该映射“XtoY”通过生成器“XtoY”实现。当数据集“X”中的样本图像输入至生成器“XtoY”后,将该输入的第二样本图像称为“real_X”,该生成器“XtoY”输出的风格迁移后的第二样本图像称为“fake_Y”。判别器“Y”会对该“fake_Y”进行判别,具体的,通过数据集“Y”中的第一样本图像“real_Y”,判别该“fake_Y”是否约等于“real_Y”,并得到从“real_X”到“fake_Y”的映射的损失(loss)。由于单纯使用这一个损失是无法进行训练的,原因在于,映射“X”到“Y”可能将数据集“X”中的所有样本图像都转换为数据集“Y”中的同一个样本图像,使得损失无效化,因此需要再学习从“Y”到“X”的映射,这里假设该映射为“YtoX”,该映射“YtoX”对应与生成器“YtoX”。具体的,将样本图像“fake_Y”输入至生成器“YtoX”,该生成器“YtoX”输出样本图像“rec_X”,该样本图像“rec_X”为生成器“YtoX”根据样本图像“fake_Y”与样本图像“real_X”生成的重构样本图像。通过判别器判别样本图像“rec_X”是否约等于样本图像“real_X”,并得到从“real_X”到“rec_X”的映射的损失(loss)。
如图8所示,同理,对应的“Y”到“X”的映射。当数据集“Y”中的样本图像输入至生成器“YtoX”后,将该输入的第一样本图像称为“real_Y”,该生成器“YtoX”输出的风格迁移后的第一样本图像称为“fake_X”。判别器“X”会对该“fake_X”进行判别,具体的,通过数据集“X”中的样本图像“real_X”,判别该“fake_X”是否约等于“real_X”,并得到从“real_Y”到“fake_X”的映射的损失(loss)。然后,将样本图像“fake_X”输入至生成器“XtoY”,该生成器“XtoY”输出样本图像“rec_Y”,该样本图像“rec_Y”为生成器“XtoY”根据样本图像“fake_X”与样本图像“real_Y”生成的重构样本图像。通过判别器判别样本图像“rec_Y”是否约等于样本图像“real_Y”,并得到从“real_Y”到“rec_Y”的映射的损失(loss)。
最后,共得到从“real_X”到“fake_Y”的映射的损失;从“real_X”到“rec_X”的映射的损失;从“real_Y”到“fake_X”的映射的损失;从“real_Y”到“rec_Y”的映射的损失,这四个损失计算一个总损失。根据总损失训练cycleGAN中的生成器“XtoY”、生成器“YtoX”、判别器“X”以及判别器“Y”。通过上述方法,避免映射“X”到“Y”可能将数据集“X”中的所有样本图像都转换为数据集“Y”中的同一个样本图像的情况发生。
在本申请实施例中的风格迁移模型,在上述cycleGAN的基础上新增了内容不变分支,如图9所示,图9为本申请实施例中风格迁移模型结构示意图。该内容不变分支用于保证从“X”到“Y”的映射中,图像的内容与标签(label)保持不变。具体的,当训练集构建装置所构建的训练集是用于训练OCR业务时,该内容不变分支使用文本识别算法,在一种可选的实现方式中,该文本识别算法为基于卷积循环神经网络的时序类分类 (convolutionalrecurrent neural network+connectionist temporal classification, CRNN+CTC)。第一样本图像“real_Y”、第二样本图像“real_X”、风格迁移后的第二样本图像“fake_Y”以及风格迁移后的第一样本图像“fake_X”均输入至内容不变分支。内容不变分支根据上述4种数据“real_Y”、“real_X”、“fake_Y”、“fake_X”、第一样本图像“real_Y”的标签以及第二样本图像“real_X”的标签计算风格迁移中的损失。具体的,计算“real_Y”的标签与“real_Y”的损失,计算“real_X”的标签与“real_X”的损失,计算“real_Y”与“fake_Y”的损失,计算“real_X”与“fake_X”的损失,根据上述四个损失,计算总的损失,该损失称为第一损失函数“OCR_loss”。该“OCR_loss”与前文中计算得到的总损失,一同反馈至生成器“XtoY”、生成器“YtoX”、判别器“X”以及判别器“Y”,用于训练上述生成器与判别器。以实现风格迁移中内容不变的效果。需要说明的是,内容不变分支具体可以使用卷积神经网络(convolutionalneural networks, CNN)加循环神经网络(recurrent neural networks,RNN)加时序分类算法(connectionist temporal classification,CTC),而内容不变分支中的卷积神经网络可以与判别器 (Discriminator)中的卷积神经网络,采用同一个骨干网络(backbone)。
前述图2以及相关文字说明中提到:“服务器220在构建训练集后,可以将训练集发送至第一通信设备240,在第一通信设备240上通过训练集训练目标AI模型;也可以在服务器220中通过训练集训练目标AI模型。”下面以目标AI模型目的是训练得到车牌识别模型为例进行说明。
请参阅图10,图10为本申请实施例提出的车牌识别模型的训练示意图。训练集构建装置在构建训练集后,将训练集输入至目标AI模型,目标AI模型使用训练集训练车牌识别模型,同时,目标AI模型获取验证集(validation set)以训练车牌识别模型。该验证集为通过摄像头等图像采集装置得到的车牌图像,在一种可选的实现方式中,该验证集可以是训练集构建装置根据第一样本图像生成的;在另一种可选的实现方式中,该验证集还可以是其它装置提供的,此处不作限定。目标AI模型使用训练集以及验证集进行训练,根据在验证集上的精度选择所要输出的车牌识别模型。
由于训练集可以在线生成,在目标AI模型训练车牌识别模型的过程中,还可以同步增加训练集中的样本图像,这些新增的样本图像又可以输入至目标AI模型中,以便目标AI模型使用这些新增的样本图像训练车牌识别模型。在生成训练集中样本图像的同时,目标AI模型使用训练集的样本图像进行训练。因此,极大的缩短了训练集采集以及模型训练周期,同时,训练集中的样本图像量与数据丰富度均较大,因此使用训练集训练得到的模型精度也较高。
本申请实施例提出的训练集构建装置所构建的训练集,除了应用于车牌识别模型的训练,还可以应用于多种不同的应用场景,以训练不同用途的目标AI模型。例如:
训练集构建装置在构建训练集后,将训练集输入至目标AI模型,目标AI模型使用训练集训练身份证识别模型,同时,目标AI模型获取验证集(validation set)以训练身份证识别模型。该验证集为通过摄像头等图像采集装置得到的身份证图像,在一种可选的实现方式中,该验证集可以是训练集构建装置根据第一样本图像生成的;在另一种可选的实现方式中,该验证集还可以是其它装置提供的,此处不作限定。目标AI模型使用训练集以及验证集进行训练,根据在验证集上的精度选择所要输出的身份证识别模型。可使用训练好的身份证识别模型,识别通过摄像头采集到的真实图像中的身份证号。
在另一种可选的实现方式中,训练集构建装置在构建训练集后,将训练集输入至目标 AI模型,目标AI模型使用训练集训练AR物件识别模型。同时,目标AI模型获取验证集(validation set)以训练AR物件识别模型,该验证集可以是各类携带摄像头的智能终端设备采集的,也可以是根据第一样本图像生成的,此处不作限定。目标AI模型使用训练集以及验证集进行训练,根据在验证集上的精度选择所要输出的AR物件识别模型。智能终端使用训练好的该AR物件识别模型,识别通过摄像头采集到的真实图像中的各种物件,并且可以在识别出的物件周边显示相关信息。
在一种可能的精度实验结果中,采用本申请实施例提出的训练集构建方法所构建的训练集,训练得到的车牌识别模型的精度为98.35%,其模型的精度,不仅高于使用相同第一样本图像(样本图像总量为5000个)所训练得到的车牌识别模型,还高于使用大量人工标注的样本图像(样本图像总量为60万个)所训练得到的车牌识别模型。由于训练集中,除了有第一样本图像这类通过摄像头真实采集的,携带人工标注的样本图像;还包括第二样本图像,第二样本图像为根据素材信息并且通过图像处理自动生成的样本图像,因此可提供大量摄像头难以采集到的样本图像;还包括第三样本图像,第三样本图像通过风格迁移模型生成,该第三样本图像的内容和标签与第二样本图像相同,且第三样本图像的风格与第一样本图像相似,因此可在较短时间生成风格多样的样本图像;另外,还包括经过随机噪声处理后生成的第四样本图像,进一步增加样本集的数据丰富性。因此,使用该训练集所训练的目标AI模型,精度较高。
需要说明的是,这仅是一种可能的精度实验结果,根据***经网络以及样本图像的不同,还可以存在其它的精度实验结果,此处不作限定。
上述主要以方法的角度对本申请实施例提供的方案进行了介绍。可以理解的是,上述训练集构建装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对训练集构建装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个生成模块1102中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
下面对本申请中的训练集构建装置进行详细描述,请参阅图11,图11为本申请实施例中训练集构建装置的一种实施例示意图。训练集构建装置1100包括:
获取模块1101、生成模块1102以及构建模块1103:
获取模块1101,用于获取第一样本图像,其中,第一样本图像携带第一标签,第一标签指示第一样本图像的内容的属性;
生成模块1102,用于获取素材信息,根据素材信息生成第二样本图像,第二样本图像携带第二标签,第二标签指示第二样本图像的内容的属性,第二样本图像的风格与第一样本图像的风格不同;
生成模块1102,还用于根据第一样本图像和第二样本图像生成第三样本图像,其中,第三样本图像的内容和标签与第二样本图像的内容和标签相同,第三样本图像的风格与第一样本图像的风格相似;
构建模块1103,还用于根据第一样本图像、第二样本图像以及第三样本图像,构建训练集。
在本申请的一些实施例中,生成模块1102,具体用于:
输入第一样本图像和第二样本图像至风格迁移模型;
根据风格迁移模型将第二样本图像的风格转换成与第一样本图像相似的风格,生成第三样本图像。
在本申请的一些实施例中,生成模块1102包括多个生成器、多个判别器和一个内容不变分支;生成模块1102具体用于:
根据风格迁移模型将第二样本图像的风格转换成与第一样本图像相似的风格,生成第三样本图像,具体包括:
根据内容不变分支对多个生成器和多个判别器中的参数进行更新;
参数更新后的多个生成器中的一个生成器生成第三样本图像,第三样本图像的内容与第二样本图像的内容相同。
在本申请的一些实施例中,生成模块1102具体用于:
根据素材信息生成模板样本图像;
对模板样本图像进行图像处理,生成第二样本图像。
在本申请的一些实施例中,图像处理,具体包括以下处理操作中的一种或多种:
裁剪、平移、旋转、仿射、透视、高斯噪声、不均匀光、动态模糊、随机颜色填充。
在本申请的一些实施例中,生成模块1102,还用于对素材信息进行随机噪声处理;
生成模块1102,还用于对素材信息进行随机噪声处理;
生成模块1102,还用于根据随机噪声处理后的素材信息生成第四样本图像;
构建模块1103,还用于根据第一样本图像、第二样本图像、第三样本图像和第四样本图像,构建训练集。
在本申请的一些实施例中,获取模块1101可以执行如图3所示的实施例中步骤301-302;生成模块1102可以执行如图3所示的实施例中步骤303以及步骤305;生成模块1102还可以执行如图3所示的实施例中步骤304,具体的,可以执行图6所对应的步骤 S1-S5;构建模块1103可以执行如图3所示的实施例中步骤306。
本申请实施例还提供了一种计算设备,请参阅图12,图12是本申请实施例提供的计算设备一种结构示意图,计算设备1200上可以部署有图11对应实施例中所描述的训练集构建装置1100,用于实现图11对应实施例中训练集构建装置的功能,具体的,计算设备1200可以是云计算设备***、终端计算设备或边缘计算设备***中的一个计算设备。需要说明的是,训练集构建装置1100可以部署在计算设备1200上以实现前述训练集构建装置实现的功能。计算设备1200可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processing units,CPU)1222(例如,一个或一个以上处理器)和存储器1232,一个或一个以上存储应用程序1242或数据1244的存储介质1230 (例如一个或一个以上海量存储设备)。其中,存储器1232和存储介质1230可以是短暂存储或持久存储。存储在存储介质1230的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对计算设备中的一系列指令操作。更进一步地,中央处理器1222 可以设置为与存储介质1230通信,在计算设备1200上执行存储介质1230中的一系列指令操作。
计算设备1200还可以包括一个或一个以上电源1226,一个或一个以上有线或无线网络接口1250,一个或一个以上输入输出接口1258,和/或,一个或一个以上操作***1241,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本申请实施例中,中央处理器1222,用于执行前述描述的构建训练集的方法。
需要说明的是,中央处理器1222执行上述各个步骤的具体方式,与本申请中前述各个方法实施例基于同一构思,其带来的技术效果与本申请中前述各个方法实施例相同,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
应注意,本申请实施例中的处理器可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
可以理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DR RAM)。应注意,本文描述的***和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本申请实施例中还提供一种包括计算机程序产品,当其在计算机上运行时,使得计算机执行如前述实施例描述的方法中训练集构建装置所执行的步骤。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有用于进行训练集构建的程序,当其在计算机上运行时,使得计算机执行如前述实施例描述的方法中训练集构建装置所执行的步骤。
本申请实施例还提供一种芯片,芯片包括:处理单元和通信单元,所述处理单元例如可以是处理器,所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令,以使执行设备内的芯片执行上述实施例描述的构建训练集的方法。可选地,所述存储单元为所述芯片内的存储单元,如寄存器、缓存等,所述存储单元还可以是该训练集构建装置内的位于所述芯片外部的存储单元,如只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)等。
具体的,请参阅图13,图13为本申请实施例提供的芯片的一种结构示意图,所述芯片可以表现为神经网络处理器NPU 130,NPU 130作为协处理器挂载到主CPU(Host CPU)上,由Host CPU分配任务。NPU的核心部分为运算电路130,通过控制器1304控制运算电路1303提取存储器中的矩阵数据并进行乘法运算。
在一些实现中,运算电路1303内部包括多个处理单元(Process Engine,PE)。在一些实现中,运算电路1303是二维脉动阵列。运算电路1303还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中,运算电路1303 是通用的矩阵处理器。
举例来说,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路从权重存储器1302中取矩阵B相应的数据,并缓存在运算电路中每一个PE上。运算电路从输入存储器1301 中取矩阵A数据与矩阵B进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器(accumulator)1308中。
统一存储器1306用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(Direct Memory Access Controller,DMAC)1305,DMAC被搬运到权重存储器1302中。输入数据也通过DMAC被搬运到统一存储器1306中。
BIU为Bus Interface Unit即,总线接口单元1310,用于AXI总线与DMAC和取指存储器(Instruction Fetch Buffer,IFB)1309的交互。
总线接口单元1310(Bus Interface Unit,简称BIU),用于取指存储器1309从外部存储器获取指令,还用于存储单元访问控制器1305从外部存储器获取输入矩阵A或者权重矩阵B的原数据。
DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器1306或将权重数据搬运到权重存储器1302中或将输入数据数据搬运到输入存储器1301中。
向量计算单元1307包括多个运算处理单元,在需要的情况下,对运算电路的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。主要用于神经网络中非卷积/全连接层网络计算,如Batch Normalization(批归一化),像素级求和,对特征平面进行上采样等。
在一些实现中,向量计算单元1307能将经处理的输出的向量存储到统一存储器1306。例如,向量计算单元1307可以将线性函数和/或非线性函数应用到运算电路1303的输出,例如对卷积层提取的特征平面进行线性插值,再例如累加值的向量,用以生成激活值。在一些实现中,向量计算单元1307生成归一化的值、像素级求和的值,或二者均有。在一些实现中,处理过的输出的向量能够用作到运算电路1303的激活输入,例如用于在神经网络中的后续层中的使用。
控制器1304连接的取指存储器(instruction fetch buffer)1309,用于存储控制器1304使用的指令;
统一存储器1306,输入存储器1301,权重存储器1302以及取指存储器1309均为On-Chip存储器。外部存储器私有于该NPU硬件架构。
其中,图3和图6所示的风格迁移模型中各层的运算可以由运算电路1303或向量计算单元1307执行。
其中,上述任一处提到的处理器,可以是一个通用中央处理器,微处理器,ASIC,或一个或多个用于控制上述第一方面方法的程序执行的集成电路。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本申请提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用 CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令用以使得一台计算机设备执行本申请各个实施例所述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、训练集构建装置、计算设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练集构建装置、计算设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质, (例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
另外,本文中术语“***”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应理解,在本申请实施例中,“与A相应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。
总之,以上所述仅为本申请技术方案的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (16)

1.一种构建训练集的方法,其特征在于,包括:
获取第一样本图像,其中,所述第一样本图像携带第一标签,所述第一标签指示所述第一样本图像的内容的属性;
获取素材信息,根据所述素材信息生成第二样本图像,所述第二样本图像携带第二标签,所述第二标签指示所述第二样本图像的内容的属性,所述第二样本图像的风格与所述第一样本图像的风格不同;
根据所述第一样本图像和所述第二样本图像生成第三样本图像,其中,所述第三样本图像的内容和标签与所述第二样本图像的内容和标签相同,所述第三样本图像的风格与所述第一样本图像的风格相似;
根据所述第一样本图像、所述第二样本图像以及所述第三样本图像,构建训练集。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一样本图像和所述第二样本图像生成第三样本图像,具体包括:
输入所述第一样本图像和所述第二样本图像至风格迁移模型;
根据所述风格迁移模型将所述第二样本图像的风格转换成与所述第一样本图像相似的风格,生成所述第三样本图像。
3.根据权利要求2所述的方法,其特征在于,所述风格迁移模型包括多个生成器、多个判别器和内容不变分支;
根据所述风格迁移模型将所述第二样本图像的风格转换成与所述第一样本图像相似的风格,生成所述第三样本图像,具体包括:
根据所述内容不变分支对所述多个生成器和所述多个判别器中的参数进行更新;
经过参数更新后的所述多个生成器中的一个生成器生成所述第三样本图像。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述素材信息生成所述第二样本图像,具体包括:
根据所述素材信息生成模板样本图像;
对所述模板样本图像进行图像处理,生成第二样本图像。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述素材信息包括:模板样本图像的背景信息、所述模板样本图像的内容信息、所述模板样本图像的内容的位置信息。
6.根据权利要求4所述的方法,其特征在于,
所述对所述模板样本图像进行图像处理,具体包括以下处理操作中的一种或多种:
裁剪、平移、旋转、仿射、透视、高斯噪声、不均匀光、动态模糊、随机颜色填充。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:
对所述素材信息进行随机噪声处理;
根据随机噪声处理后的素材信息生成第四样本图像;
根据所述第一样本图像、所述第二样本图像、所述第三样本图像和所述第四样本图像,构建训练集。
8.一种训练集构建装置,其特征在于,所述装置包括获取模块、生成模块以及构建模块:
所述获取模块,用于获取第一样本图像,其中,所述第一样本图像携带第一标签,所述第一标签指示所述第一样本图像的内容的属性;
所述生成模块,用于获取素材信息,根据所述素材信息生成第二样本图像,所述第二样本图像携带第二标签,所述第二标签指示所述第二样本图像的内容的属性,所述第二样本图像的风格与所述第一样本图像的风格不同;
所述生成模块,还用于根据所述第一样本图像和所述第二样本图像生成第三样本图像,其中,所述第三样本图像的内容和标签与所述第二样本图像的内容和标签相同,所述第三样本图像的风格与所述第一样本图像的风格相似;
所述构建模块,用于根据所述第一样本图像、所述第二样本图像以及所述第三样本图像,构建训练集。
9.根据权利要求8所述的装置,其特征在于,所述生成模块,具体用于:
输入所述第一样本图像和所述第二样本图像至风格迁移模型;
根据所述风格迁移模型将所述第二样本图像的风格转换成与所述第一样本图像相似的风格,生成所述第三样本图像。
10.根据权利要求9所述的装置,其特征在于,所述生成模块包括多个生成器、多个判别器和内容不变分支;
所述生成模块具体用于:
根据所述风格迁移模型将所述第二样本图像的风格转换成与所述第一样本图像相似的风格,生成所述第三样本图像,具体包括:
根据所述内容不变分支对所述多个生成器和所述多个判别器中的参数进行更新;
经过参数更新后的所述多个生成器中的一个生成器生成所述第三样本图像。
11.根据权利要求8-10中任一项所述的装置,其特征在于,所述生成模块具体用于:
根据所述素材信息生成模板样本图像;
对所述模板样本图像进行图像处理,生成第二样本图像。
12.根据权利要求8-11任一项所述的装置,其特征在于,所述素材信息包括:模板样本图像的背景信息、所述模板样本图像的内容信息、所述模板样本图像的内容的位置信息。
13.根据权利要求11所述的装置,其特征在于,所述对所述模板样本图像进行图像处理,具体包括以下处理操作中的一种或多种:
裁剪、平移、旋转、仿射、透视、高斯噪声、不均匀光、动态模糊、随机颜色填充。
14.根据权利要求8-13任一项所述的装置,其特征在于,
所述生成模块,还用于对所述素材信息进行随机噪声处理;
所述生成模块,还用于根据随机噪声处理后的所述素材信息生成第四样本图像;
所述构建模块,还用于根据所述第一样本图像、所述第二样本图像、所述第三样本图像和所述第四样本图像,构建训练集。
15.一种计算设备,其特征在于,包括存储器和处理器,
所述存储器,用于存储计算机指令;
所述处理器执行所述存储器存储的计算机指令,以执行上述权利要求1至7中任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令被计算设备执行时,所述计算设备执行上述权利要求1至7中任一项所述的方法。
CN201910844042.6A 2019-09-06 2019-09-06 一种构建训练集的方法及装置 Pending CN112464924A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910844042.6A CN112464924A (zh) 2019-09-06 2019-09-06 一种构建训练集的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910844042.6A CN112464924A (zh) 2019-09-06 2019-09-06 一种构建训练集的方法及装置

Publications (1)

Publication Number Publication Date
CN112464924A true CN112464924A (zh) 2021-03-09

Family

ID=74807354

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910844042.6A Pending CN112464924A (zh) 2019-09-06 2019-09-06 一种构建训练集的方法及装置

Country Status (1)

Country Link
CN (1) CN112464924A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115171199A (zh) * 2022-09-05 2022-10-11 腾讯科技(深圳)有限公司 图像处理方法、装置及计算机设备、存储介质
WO2024001363A1 (zh) * 2022-06-30 2024-01-04 魔门塔(苏州)科技有限公司 一种图像处理方法、装置和电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190620A (zh) * 2018-09-03 2019-01-11 苏州科达科技股份有限公司 车牌样本生成方法、***、设备及存储介质
CN109214443A (zh) * 2018-08-24 2019-01-15 北京第视频科学技术研究院有限公司 车牌识别模型训练方法、车牌识别方法、装置及设备
CN109255772A (zh) * 2018-08-27 2019-01-22 平安科技(深圳)有限公司 基于风格迁移的车牌图像生成方法、装置、设备及介质
WO2019025909A1 (en) * 2017-08-01 2019-02-07 3M Innovative Properties Company NEURONAL STYLE TRANSFER FOR VARIETY AND IMAGE RECOGNITION
CN109325989A (zh) * 2018-08-27 2019-02-12 平安科技(深圳)有限公司 车牌图像生成方法、装置、设备及介质
CN109614968A (zh) * 2018-10-10 2019-04-12 浙江大学 一种基于多尺度混合图像风格化的车牌检测场景图片生成方法
CN109685749A (zh) * 2018-09-25 2019-04-26 平安科技(深圳)有限公司 图像风格转换方法、装置、设备和计算机存储介质
US20190244060A1 (en) * 2018-02-02 2019-08-08 Nvidia Corporation Domain Stylization Using a Neural Network Model

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019025909A1 (en) * 2017-08-01 2019-02-07 3M Innovative Properties Company NEURONAL STYLE TRANSFER FOR VARIETY AND IMAGE RECOGNITION
US20190244060A1 (en) * 2018-02-02 2019-08-08 Nvidia Corporation Domain Stylization Using a Neural Network Model
CN109214443A (zh) * 2018-08-24 2019-01-15 北京第视频科学技术研究院有限公司 车牌识别模型训练方法、车牌识别方法、装置及设备
CN109255772A (zh) * 2018-08-27 2019-01-22 平安科技(深圳)有限公司 基于风格迁移的车牌图像生成方法、装置、设备及介质
CN109325989A (zh) * 2018-08-27 2019-02-12 平安科技(深圳)有限公司 车牌图像生成方法、装置、设备及介质
CN109190620A (zh) * 2018-09-03 2019-01-11 苏州科达科技股份有限公司 车牌样本生成方法、***、设备及存储介质
CN109685749A (zh) * 2018-09-25 2019-04-26 平安科技(深圳)有限公司 图像风格转换方法、装置、设备和计算机存储介质
CN109614968A (zh) * 2018-10-10 2019-04-12 浙江大学 一种基于多尺度混合图像风格化的车牌检测场景图片生成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024001363A1 (zh) * 2022-06-30 2024-01-04 魔门塔(苏州)科技有限公司 一种图像处理方法、装置和电子设备
CN115171199A (zh) * 2022-09-05 2022-10-11 腾讯科技(深圳)有限公司 图像处理方法、装置及计算机设备、存储介质

Similar Documents

Publication Publication Date Title
JP6774137B2 (ja) Id写真の真正性を検証するためのシステムおよび方法
WO2023185785A1 (zh) 一种图像处理方法、模型训练方法及相关装置
CN111615702B (zh) 一种从图像中提取结构化数据的方法、装置和设备
CN113283446B (zh) 图像中目标物识别方法、装置、电子设备及存储介质
CN112446302B (zh) 一种人体姿态检测方法、***、电子设备和存储介质
WO2022022154A1 (zh) 脸部图像处理方法、装置、设备及存储介质
CN111291629A (zh) 图像中文本的识别方法、装置、计算机设备及计算机存储介质
CN110222718B (zh) 图像处理的方法及装置
CN110287836B (zh) 图像分类方法、装置、计算机设备和存储介质
CN113704531A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN112839223B (zh) 图像压缩方法、装置、存储介质及电子设备
CN111108508B (zh) 脸部情感识别方法、智能装置和计算机可读存储介质
CN112651333B (zh) 静默活体检测方法、装置、终端设备和存储介质
WO2022111387A1 (zh) 一种数据处理方法及相关装置
CN112950640A (zh) 视频人像分割方法、装置、电子设备及存储介质
CN110688897A (zh) 一种基于联合判断与生成学习的行人重识别方法及装置
CN112464924A (zh) 一种构建训练集的方法及装置
CN117095019A (zh) 一种图像分割方法及相关装置
CN115115552B (zh) 图像矫正模型训练及图像矫正方法、装置和计算机设备
CN111445545A (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN112836467B (zh) 一种图像处理方法及装置
CN112419249B (zh) 一种特殊服饰图片转化方法、终端设备及存储介质
CN111091198B (zh) 一种数据处理方法及装置
CN113762059A (zh) 图像处理方法、装置、电子设备及可读存储介质
CN112580505A (zh) 网点开关门状态识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination