CN109255826B - 中文训练图像生成方法、装置、计算机设备及存储介质 - Google Patents

中文训练图像生成方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN109255826B
CN109255826B CN201811182135.9A CN201811182135A CN109255826B CN 109255826 B CN109255826 B CN 109255826B CN 201811182135 A CN201811182135 A CN 201811182135A CN 109255826 B CN109255826 B CN 109255826B
Authority
CN
China
Prior art keywords
image
chinese
acquiring
scene
transparent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811182135.9A
Other languages
English (en)
Other versions
CN109255826A (zh
Inventor
黄泽浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811182135.9A priority Critical patent/CN109255826B/zh
Priority to PCT/CN2018/122993 priority patent/WO2020073497A1/zh
Publication of CN109255826A publication Critical patent/CN109255826A/zh
Application granted granted Critical
Publication of CN109255826B publication Critical patent/CN109255826B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开一种中文训练图像生成方法、装置、计算机设备及存储介质,该中文训练图像生成方法包括:获取训练图像生成请求,训练图像生成请求包括场景应用需求;基于场景应用需求,从预先创建好的背景图像库中获取原始背景图像;从预先创建好的中文字库中获取中文字;对原始背景图像进行透明化处理,获取第一透明图像;将中文字填充到第一透明图像上,获取第二透明图像,采用中文字对第二透明图像进行标注,获取与第二透明图像对应的文本文件;对第二透明图像增加噪点,获取第三透明图像,对第三透明图像和原始背景图像进行叠加处理,获取待训练图像,将待训练图像与文本文件关联存储,该过程无需人工采集训练图像,提高效率。

Description

中文训练图像生成方法、装置、计算机设备及存储介质
技术领域
本发明涉及图像识别技术领域,尤其涉及一种中文训练图像生成方法、装置、计算机设备及存储介质。
背景技术
随着信息时代的飞速发展,人工智能技术也被人们逐渐应用到各种实际场景中。其中,OCR(Optical Character Recognition,光学字符识别)技术是目前对图像文件进行分析识别处理,获取文字及版面信息最常用的技术。但在采用OCR识别技术训练图像识别模型时,需要人工收集训练图像并对其进行标注以形成训练集,然后基于标注好的训练集进行模型训练,耗费时间且人力成本高。
发明内容
本发明实施例提供一种中文训练图像生成方法、装置、计算机设备及存储介质,以解决目前图像识别模型训练过程中,需要人工收集训练图像并对其进行标注以形成训练集,耗费时间且人力成本高的问题。
一种中文训练图像生成方法,包括:
获取训练图像生成请求,所述训练图像生成请求包括场景应用需求;
基于所述场景应用需求,从预先创建好的背景图像库中获取与所述场景应用需求相对应的原始背景图像;从预先创建好的中文字库中获取与所述场景应用需求相对应的中文字;
对所述原始背景图像进行透明化处理,获取第一透明图像;
将所述中文字填充到所述第一透明图像上,获取第二透明图像,采用所述中文字对所述第二透明图像进行标注,获取与所述第二透明图像对应的文本文件;
对所述第二透明图像增加噪点,获取第三透明图像,对所述第三透明图像和所述原始背景图像进行叠加处理,获取待训练图像,将所述待训练图像与所述文本文件关联存储。
一种中文训练图像生成装置,包括:
训练图像生成请求获取模块,用于获取训练图像生成请求,所述训练图像生成请求包括场景应用需求;
场景应用需求处理模块,用于基于所述场景应用需求,从预先创建好的背景图像库中获取与所述场景应用需求相对应的原始背景图像;从预先创建好的中文字库中获取与所述场景应用需求相对应的中文字;
第一透明图像获取模块,用于对所述原始背景图像进行透明化处理,获取第一透明图像;
第二透明图像获取模块,用于将所述中文字填充到所述第一透明图像上,获取第二透明图像,采用所述中文字对所述第二透明图像进行标注,获取与所述第二透明图像对应的文本文件;
待训练图像获取模块,用于对所述第二透明图像增加噪点,获取第三透明图像,对所述第三透明图像和所述原始背景图像进行叠加处理,获取待训练图像,将所述待训练图像与所述文本文件关联存储。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述中文训练图像生成方法的步骤。
一种非易失性存储介质,所述非易失性存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述中文训练图像生成方法的步骤。
上述中文训练图像生成方法、装置、计算机设备及存储介质中,服务器先获取训练图像生成请求,以便基于训练图像生成请求中的场景应用需求,从预先创建好的背景图像库中获取与场景应用需求相对应的原始背景图像,从预先创建好的中文字库中获取与场景应用需求相对应的中文字,该过程无需人工采集背景图像并编辑中文字,节省时间。对原始背景图像进行透明化处理,获取第一透明图像,以突出后续增加噪点图像的效果。然后,将中文字填充到第一透明图像上,获取第二透明图像,同时,采用中文字对第二透明图像进行标注,获取与第二透明图像对应的文本文件,该过程无需人工标注,即可自动进行标注。最后,对第二透明图像增加噪点,获取第三透明图像,对第三透明图像和原始背景图像进行叠加处理,获取待训练图像,将待训练图像与文本文件关联存储形成训练样本,以便采用该训练样本进行训练,无需人工采集,提高效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中中文训练图像生成方法的一应用环境示意图;
图2是本发明一实施例中中文训练图像生成方法的一流程图;
图3是图2中步骤S20的一具体流程图;
图4是图2中步骤S30的一具体流程图;
图5是图2中步骤S40的一具体流程图;
图6是本发明一实施例中中文训练图像生成装置的一示意图;
图7是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的中文训练图像生成方法,可应用在如图1的应用环境中,该中文训练图像生成方法可应用在中文训练图像生成工具中,用于自动生成中文训练图像,节省人工收集数据并标注的时间,提高效率。其中,中文训练图像生成工具包括服务器和计算机设备。其中,计算机设备通过网络与服务器进行通信。计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器来实现。
在一实施例中,如图2所示,提供一种中文训练图像生成方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S10:获取训练图像生成请求,训练图像生成请求包括场景应用需求。
其中,训练图像生成请求是用于触发中文训练图像生成工具生成训练图像的请求。场景应用需求是指生成应用在特定场景下的训练图像的需求。具体地,在中文训练图像生成工具的显示界面上会显示场景类型列表,该场景类型列表包括香港身份证、二代身份证、各航空公司登机牌(如:国航)和各家银行卡正面(如:工商银行)等场景类型,便于用户选择,根据用户选择的场景类型确定场景应用需求,以使服务器获取训练图像生成请求,并根据该训练图像生成请求获取场景应用需求。
S20:基于场景应用需求,从预先创建好的背景图像库中获取与场景应用需求相对应的原始背景图像,从预先创建好的中文字库中获取与场景应用需求相对应的中文字。
其中,背景图像库是预先通过拍照上传或制作的背景图像的图像库。该背景图想库包括场景图像和非场景图像。场景图像是指应用在特定场景下的背景图像。场景图像包括但不限于本实施例提供的香港身份证图像、二代身份证图像、各航空公司登机牌图像和各家银行卡正面图像。非场景图像是指应用在非特定场景的背景图像,如不同颜色的背景图像。原始背景图像是服务器基于场景应用需求,从预先创建好的背景图像库中获取与场景应用需求(如二代身份证)对应的背景图像。
中文字库包括常用的中文一级字库、百家姓和繁体字库。若要生成香港身份证时,可从繁体字库中获取对应的繁体字;若无需生成繁体字,则可从中文一级字库获取对应的中文字。可理解地,中文字包括繁体字或简体字。中文字是服务器基于场景应用需求,从预先创建好的中文字库中获取与应用需求对应的汉字。
本实施例中,若场景用需求为二代身份证,则服务器基于场景应用需求从预先创建好的背景图像库中获取与场景应用需求相对应的原始背景图像即身份证背景图像,从预先创建好的中文字库中获取与场景应用需求相对应的中文字(如姓名),该过程无需人工采集原始背景图像并编辑中文字,节省时间,为后续生成训练图像提供技术支持。
S30:对原始背景图像进行透明化处理,获取第一透明图像。
具体地,为了突出后续对图像增加噪点的效果,需先对背景图像进行透明化处理,获取原始透明图像。透明化处理包括但不限于采用pillow库技术进行处理。其中,Pillow是Python工具里的图像处理库(PIL:Python ImageLibrary),提供广泛的文件格式支持,强大的图像处理能力,主要提供包括图像储存、图像显示、格式转换以及基本的图像处理操作的接口,可直接调用,实现简单,可有效节省重复开发的时间。
S40:将中文字填充到第一透明图像上,获取第二透明图像,采用中文字对第二透明图像进行标注,获取与第二透明图像对应的文本文件。
其中,第二透明图像是指在第一透明图像中填充与场景应用需求相对应的中文字的透明图像。文本文件是指与第二透明图像相对应的标注文件。在生成训练图像时,会获取N(N为大于1的正整数,可由用户指定)个原始背景图像,服务器采用pillow库技术随机选取原始背景图像对应的第一透明图像,以将所选取的中文字填充到所选取的第一透明图像上,获取第二透明图像,同时,服务器会采用所选取的中文字对第二透明图像进行标注,获取与第二透明图像对应的文本文件,该过程无需人工标注,即可自动进行标注。
S50:对第二透明图像增加噪点,获取第三透明图像,对第三透明图像和原始背景图像进行叠加处理,获取待训练图像,将待训练图像与文本文件关联存储。
其中,第三透明图像为第二透明图像增加噪点后的透明图像。具体地,服务器随机选取预设比例的需要增加噪点的像素点,以对该比例的像素点进行随机增加噪点,以便增加训练图像的鲁棒性。然后,对第三透明图像和原始背景图像进行叠加处理,获取待训练图像,将待训练图像与文本文件关联存储,以形成训练样本,以便采用该训练样本进行模型训练,省去人工采集的步骤,提高效率。叠加处理指将第三透明图像和原始背景图像叠加成一个图像的处理过程,从而获取待训练图像。本实施例中,采用imadd函数对第三透明图像和原始背景图像进行叠加处理,以获取待训练图像。imadd函数是计算机语言中的一个函数,用于对图像进行叠加处理。
噪点的类型包括但不限于反光、干扰线条、干扰色点、倾斜角度(包括两种倾斜方式,每种倾斜方式包括三种倾斜角度:0.5,1和1.5)、膨胀、腐蚀以及高斯模糊等类型。以增加干扰色点为例,随机选取预设比例的像素点,并将该选取的像素点设置为黑色即可完成增加噪点的目的。其中,预设比例是由中文训练图像混合生成工具根据经验值自动推荐的比例,支持用户更改,其更改的方式包括两种:一种是更改增加噪点的像素点的比例;一种是更改增加噪点的像素点数量。本实施例中,对于膨胀和腐蚀的处理根据所要生成的字体进行判断,以生成香港身份证为例,对于常规字体来说,由于常规字体线条较细可选择膨胀处理,而对于粗体字体,由于线条较粗,因此可选择腐蚀处理,以增强训练图像的清晰度。
本实施例中,服务器先获取训练图像生成请求,以便基于训练图像生成请求中的场景应用需求,从预先创建好的背景图像库中获取与场景应用需求相对应的原始背景图像,从预先创建好的中文字库中获取与场景应用需求相对应的中文字,该过程无需人工采集原始背景图像并编辑中文字,节省时间。对原始背景图像进行透明化处理,获取第一透明图像,以突出后续图像增加噪点的效果。然后,将中文字填充到第一透明图像上,获取第二透明图像,同时,采用中文字对第二透明图像进行标注,获取与第二透明图像对应的文本文件,该过程无需人工标注,即可对第二透明图像进行自动标注。最后,对第二透明图像增加噪点,获取第三透明图像,对第三透明图像和原始背景图像进行叠加处理,获取待训练图像,增加待训练图像的真实性,以提高后续采用该待训练图像进行训练所得到的模型的识别准确性。最后,将待训练图像与文本文件关联存储形成训练样本,以便采用该训练样本进行训练,无需人工采集,提高效率。
在一实施例中,如图3所示,步骤S20中,即基于场景应用需求,从预先创建好的背景图像库中获取与场景应用需求相对应的原始背景图像,从预先创建好的中文字库中获取与场景应用需求相对应的中文字,具体包括如下步骤:
S21:若场景应用需求为第一应用需求,则从背景图像库中获取与第一应用需求相对应的原始背景图像,原始背景图像包括场景字段,基于场景字段,按照预设生成规则,从中文字库中获取与场景字段相对应的中文字。
其中,第一应用需求是指生成在特定场景下应用的训练图像,如二代身份证图像和银行卡正面图像。具体地,若场景应用需求为第一应用需求,则从背景图像库中获取与第一应用需求相对应的原始背景图像,原始背景图像包括场景字段(如姓名),基于场景字段,按照预设生成规则,从中文字库中获取与场景字段相对应的中文字。预设生成规则是预先设置的用于生成与每一场景字段对应的属性值的规则。例如:若第一应用需求为二代身份证图像,服务器会基于第一应用需求从背景图像库中获取二代身份证图像作为原始背景图像,由于二代身份证图像中包含姓名、性别、出生年月日、住址以及身份证号等场景字段。基于场景字段,按照预设生成规则从中文字库中,获取与每一场景字段相对应的中文字,该过程无需人工干预,节省人工成本。
对于姓名这一场景字段来说,由于目前少数民族人群的姓名所包含的字符较长,因此,本实施例中的姓名字段的预设生成规则是限制在10个字符以内。
对于性别这一场景字段来说,其只能在男/女中随机获取,因此其对应的预设生成规则为男/女这两个字符中的一个。
对于出生年月日来说,其预设生成规则根据日期格式设定。
对于住址来说,可采用网络爬虫方式从现有的地址库中爬取到的地址数据,这些地址数据基本上都符合其对应的预设生成规则。
对于身份证号码的预设生成规则如下:由于身份证号码的结构有固定格式,身份号码是特征组合码,由十七位数字本体码和一位校验码组成。排列顺序从左至右依次为:六位数字地址码,八位数字出生日期码、三位数字顺序码和一位数字校验码。
地址码(前六位数)表示编码对象常住户口所在县(市、旗、区)的行政区划代码,按GB/T2260的规定执行。本案中会先设置好地区和地区码对应关联,然后随机获取地区以及对应的地区码。7-14位是出生年月,根据日期格式随机生成。15位-17位是顺序码,根据随机数生成方式生成。最后一位校验码,根据校验码规则进行生成。出生日期码表示编码对象出生的年、月、日,按GB/T7408的规定执行,年、月、日代码之间不用分隔符。顺序码表示在同一地址码所标识的区域范围内,对同年、同月、同日出生的人编定的顺序号,顺序码的奇数分配给男性,偶数分配给女性。
校验码的获取过程包括如下步骤:
1)十七位数字本体码加权求和公式S=Sum(Ai*Wi),i=0,...,16,先对前17位数字的权求和,其中,Ai:表示第i位置上的身份证号码数字值;Wi:表示第i位置上的加权因子Wi:7 9 10 5 8 4 2 1 6 3 7 9 10 5 8 4 2 2)取模计算:Y=mod(S,11)。
3)通过取模得到对应的校验码Y:0 1 2 3 4 5 6 7 8 9 10,校验码:1 0 X 9 8 76 5 4 3 2*/
例如,第十八位数字(校验码)的计算方法为:1.将前面的身份证号码17位数分别乘以不同的系数。从第一位到第十七位的系数分别为:7 9 10 5 8 4 2 1 6 3 7 9 10 5 84。2.将这17位数字和系数相乘的结果相加。3.将加和除以11,看余数是多少?4.余数只可能有0 1 2 3 4 5 6 7 8 9 10这11个数字。其分别对应的最后一位身份证的号码为1 0 X 98 7 6 5 4 3 2。5.若余数是2,则会在身份证的第18位数字为罗马数字的Ⅹ。若余数是10,身份证的最后一位号码就是2。
S22:若场景应用需求为第二应用需求,则从背景图像库中随机获取原始背景图像,从中文字库中随机获取中文字。
其中,第二应用需求是指生成在非特定场景下应用的训练图像,如汉字图像。由于该类型的汉字图像仅仅是用于训练非特定场景下的OCR汉字识别模型,因此可直接从背景图像库中随机获取原始背景图像,从中文字库中随机获取对应的中文字,简单便捷。
本实施例中,若场景应用需求为第一应用需求,则从背景图像库中获取与第一应用需求相对应的原始背景图像,以便基于原始背景图像中的场景字段,按照预设生成规则,从中文字库中获取与场景字段相对应的中文字,无需人工干预,节省人工成本。若场景应用需求为第二应用需求,则从直接背景图像库中随机获取原始背景图像,从中文字库中随机获取中文字,简单便捷。
在一实施例中,场景字段包括姓名字段;中文字库包括百家姓和中文一级字库。步骤S21中,即基于场景字段,按照预设生成规则,从中文字库中获取与场景字段相对应的中文字,具体包括:
基于姓名字段,从百家姓中依序或者随机获取姓氏,从中文一级字库中依序或随机获取汉字,将姓氏和汉字拼接,获取与场景字段相对应的中文字。
本实施例中,对于姓名字段的生成规则包括两种,一种是从百家姓中依据百家姓的顺序获取姓氏,然后,从中文一级字库中依序获取汉字,将姓氏与汉字拼接,即可获取与姓名字段相对应的中文字,提高获取与姓名字段对应属性值的效率。或者,从百家姓中随机选取百家姓作为姓名字段对应的姓氏,从中文一级字库中随机选取汉字,将选取的姓氏与汉字拼接,即可获取与姓名字段相对应的中文字,提高获取与姓名字段对应属性值的多样性。
进一步地,在实际应用中,也可按照当前相关机构统计的各种姓氏人数所占的比例来选择相对应的姓氏,从常用汉字中选取汉字,随机组合,既保证其组合的多样性,也可提高采用获取的训练图像进行训练所得到的图像识别模型的真实性与可靠性。
需说明,中文字库中还包括繁体字库,若要生成香港身份证时,则无需从中文一级字库中获取简体字形式的汉字,可直接从繁体字库中获取对应的繁体字。对于百家姓来说步骤S21中所采用的百家姓为简体字形式,若要生成香港身份证时,则可从繁体字形式的百家姓中获取姓氏,然后,将获取的姓氏与繁体字拼接,即可获取与姓名字段相对应的中文字。
在一实施例中,如图4所示,步骤S30中,即对原始背景图像进行透明化处理,获取第一透明图像,具体包括如下步骤:
S31:将原始背景图像进行模式转换,获取模式图像,模式图像包括颜色参数。
其中,模式图像是指带透明度的真彩色图像模式(简称RGBA模式)。需说明,原始背景图像本身所处的图像模式为RGB模式(即彩色图像模式)。具体地,可采用如下方法PIL.Image.new(mode,size,color=0)将原始背景图像的图像模式转化为RGBA模式,其中,mode参数是定义了图像中关于像素的一些属性,如带透明度的真彩色RGBA。size参数是以像素为单位指定图像的长与宽。color参数即颜色参数,用于限定图像(即原始背景图像)的背景色。其中,RGBA模式是Red(红色)、Green(绿色)、Blue(蓝色)和Alpha的色彩空间模式,也就是透明度。
S32:将模式图像的颜色参数设置为空,获取第一透明图像。
具体地,当图像模式为RGBA模式时,若不指定模式图像的颜色参数,则服务器默认是透明背景,则获取第一透明图像,实现简单,提高训练图像的生成效率。
本实施例中,服务器先将原始背景图像进行模式转换,获取带透明度的模式图像,通过将模式图像中的颜色参数设置为空,以获取第一透明图像,实现简单,提高训练图像的生成效率。
在一实施例中,如图5所示,步骤S40中,即将中文字填充到第一透明图像上,获取第二透明图像,具体包括如下步骤:
S41:获取中文字对应的属性参数。
其中,中文字对应的属性参数包括中文字在第一透明图像中所要填充的位置、文字内容、文字颜色和文字字体等。该属性参数是预先按照不同的场景应用需求设置好的。可理解地,若场景应用需求为第一应用需求则按照实际应用场景进行设置。例如,第一应用需求为二代身份证,则按照实际身份证图像中的文字属性设置中文字对应的属性参数,以贴合实际,提高训练图像的真实性与可靠性。例如,场景应用需求为第二应用需求,则可随机获取中文字对应的属性参数,例如若要生成汉字图像,则可在预先存储的字体(如楷体、宋体)中随机选取相应字体,或者也可由用户自定义。对于文字内容、文字颜色和文字位置也可由服务器随机获取,或者由用户自定义,提高中文训练图像生成工具的实用性。
S42:将属性参数应用到文字填充函数中,以将中文字填充到第一透明图像上,获取第二透明图像。
具体地,服务器基于属性参数的设置,将属性参数应用到基于图像处理技术(即pillow库技术)的文字填充函数中,以将中文字填充到第一透明图像上,获取第二透明图像。具体地,服务器采用如下文字填充函数“draw.text((40,10),u,font=myfont,fill=fillcolor)”,以基于属性参数,将中文字填充到第一透明图像上,获取透明图像。可理解,“(40,10),u,font=myfont,fill=fillcolor”表示属性参数;draw.text()表示文字填充函数。其中,第一参数(40,10)表示文字位置;第二个参数u表示文字内容;第三个参数font表示文字字体,第四个参数fill表示文字颜色。服务器通过采用如上语句进行自动填充,以获取第二透明图像,无需人工干预,实现自动生成训练图像的目的。
本实施例中,服务器通过获取中文字对应的属性参数,以便基于属性参数,采用pillow库技术提供的图像处理接口将中文字填充到第一透明图像上,获取第二透明图像,实现简单,无需人工干预,以实现自动生成训练图像的目的。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种中文训练图像生成装置,该中文训练图像生成装置与上述实施例中中文训练图像生成方法一一对应。如图6所示,该中文训练图像生成装置包括训练图像生成请求获取模块10、场景应用需求处理模块20、第一透明图像获取模块30、第二透明图像获取模块40和待训练图像获取模块50。各功能模块详细说明如下:
训练图像生成请求获取模块10,用于获取训练图像生成请求,训练图像生成请求包括场景应用需求。
场景应用需求处理模块20,用于基于场景应用需求,从预先创建好的背景图像库中获取与场景应用需求相对应的原始背景图像;从预先创建好的中文字库中获取与场景应用需求相对应的中文字。
第一透明图像获取模块30,用于对原始背景图像进行透明化处理,获取第一透明图像。
第二透明图像获取模块40,用于将中文字填充到第一透明图像上,获取第二透明图像,采用中文字对第二透明图像进行标注,获取与第二透明图像对应的文本文件。
待训练图像获取模块50,用于对第二透明图像增加噪点,获取第三透明图像,对第三透明图像和原始背景图像进行叠加处理,获取待训练图像,将待训练图像与文本文件关联存储。
具体地,场景应用需求处理模块包括第一处理单元和第二处理单元。
第一处理单元,用于若场景应用需求为第一应用需求,则从背景图像库中获取与第一应用需求相对应的原始背景图像,原始背景图像包括场景字段;基于场景字段,按照预设生成规则,从中文字库中获取与场景字段相对应的中文字。
第二处理单元,用于若场景应用需求为第二应用需求,则从背景图像库中随机获取原始背景图像,从中文字库中随机获取中文字。
具体地,第一处理单元具体为:基于姓名字段,从百家姓中依序或者随机获取姓氏,从中文一级字库中依序或随机获取汉字;将姓氏和汉字拼接,获取与场景字段相对应的中文字。
具体地,第一透明图像获取模块包括图像模式转换单元和第一透明图像获取单元。
图像模式转换单元,用于将原始背景图像进行模式转换,获取模式图像;模式图像包括颜色参数。
第一透明图像获取单元,用于将模式图像的颜色参数设置为空,获取第一透明图像。
具体地,第二透明图像获取模块包括属性参数获取单元和第二透明图像获取单元。
属性参数获取单元,用于获取中文字对应的属性参数。
第二透明图像获取单元,用于将属性参数应用到文字填充函数中,以将中文字填充到第一透明图像上,获取第二透明图像。
关于中文训练图像生成装置的具体限定可以参见上文中对于中文训练图像生成方法的限定,在此不再赘述。上述中文训练图像生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于用于存储执行中文训练图像生成方法过程中生成或获取的数据,如待训练图像。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种中文训练图像生成方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中的中文训练图像生成方法的步骤,例如图2所示的步骤S10-S50,或者图3至图5中所示的步骤。或者,处理器执行计算机程序时实现中文训练图像生成装置这一实施例中的各模块/单元的功能,例如图6所示的各模块/单元的功能,为避免重复,这里不再赘述。
在一实施例中,提供一计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中中文训练图像生成方法的步骤,例如图2所示的步骤S10-S50,或者图3至图5中所示的步骤,为避免重复,这里不再赘述。或者,该计算机程序被处理器执行时实现上述中文训练图像生成装置这一实施例中的各模块/单元的功能,例如图6所示的各模块/单元的功能,为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (5)

1.一种中文训练图像生成方法,其特征在于,包括:
获取训练图像生成请求,所述训练图像生成请求包括场景应用需求;
基于所述场景应用需求,从预先创建好的背景图像库中获取与所述场景应用需求相对应的原始背景图像;从预先创建好的中文字库中获取与所述场景应用需求相对应的中文字;
若所述场景应用需求为第一应用需求,则从所述背景图像库中获取与所述第一应用需求相对应的原始背景图像,所述原始背景图像包括场景字段;基于所述场景字段,按照预设生成规则,从所述中文字库中获取与所述场景字段相对应的所述中文字;
若所述场景应用需求为第二应用需求,则从所述背景图像库中随机获取原始背景图像,从所述中文字库中随机获取中文字;
对所述原始背景图像进行透明化处理,获取第一透明图像;
将所述中文字填充到所述第一透明图像上,获取第二透明图像,采用所述中文字对所述第二透明图像进行标注,获取与所述第二透明图像对应的文本文件;
对所述第二透明图像增加噪点,获取第三透明图像,对所述第三透明图像和所述原始背景图像进行叠加处理,获取待训练图像,将所述待训练图像与所述文本文件关联存储;
所述场景字段包括姓名字段;所述中文字库包括百家姓和中文一级字库;
基于所述场景字段,按照预设生成规则,从所述中文字库中获取与所述场景字段相对应的所述中文字,包括:
基于所述姓名字段,从所述百家姓中依序或者随机获取姓氏,从所述中文一级字库中依序或随机获取汉字;
将所述姓氏和所述汉字拼接,获取与所述场景字段相对应的所述中文字;
所述将所述中文字填充到所述第一透明图像上,获取第二透明图像,包括:
获取所述中文字对应的属性参数;
将所述属性参数应用到文字填充函数中,以将所述中文字填充到所述第一透明图像上,获取第二透明图像。
2.如权利要求1所述的中文训练图像生成方法,其特征在于,所述对所述原始背景图像进行透明化处理,获取第一透明图像,包括:
将所述原始背景图像进行模式转换,获取模式图像;所述模式图像包括颜色参数;
将所述模式图像的颜色参数设置为空,获取所述第一透明图像。
3.一种中文训练图像生成装置,其特征在于,包括:
训练图像生成请求获取模块,用于获取训练图像生成请求,所述训练图像生成请求包括场景应用需求;
场景应用需求处理模块,用于基于所述场景应用需求,从预先创建好的背景图像库中获取与所述场景应用需求相对应的原始背景图像;从预先创建好的中文字库中获取与所述场景应用需求相对应的中文字;
第一透明图像获取模块,用于对所述原始背景图像进行透明化处理,获取第一透明图像;
第二透明图像获取模块,用于将所述中文字填充到所述第一透明图像上,获取第二透明图像,采用所述中文字对所述第二透明图像进行标注,获取与所述第二透明图像对应的文本文件;
待训练图像获取模块,用于对所述第二透明图像增加噪点,获取第三透明图像,对所述第三透明图像和所述原始背景图像进行叠加处理,获取待训练图像,将所述待训练图像与所述文本文件关联存储;
所述场景应用需求处理模块包括:
第一处理单元,用于若所述场景应用需求为第一应用需求,则从所述背景图像库中获取与所述第一应用需求相对应的原始背景图像,所述原始背景图像包括场景字段;所述场景字段包括姓名字段;所述中文字库包括百家姓和中文一级字库;基于所述姓名字段,从所述百家姓中依序或者随机获取姓氏,从所述中文一级字库中依序或随机获取汉字;将所述姓氏和所述汉字拼接,获取与所述场景字段相对应的所述中文字;
第二处理单元,用于若所述场景应用需求为第二应用需求,则从所述背景图像库中随机获取原始背景图像,从所述中文字库中随机获取中文字;
所述第二透明图像获取模块包括:
属性参数获取单元,用于获取所述中文字对应的属性参数;
第二透明图像获取单元,用于将所述属性参数应用到文字填充函数中,以将所述中文字填充到所述第一透明图像上,获取第二透明图像。
4.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1或2所述中文训练图像生成方法的步骤。
5.一种非易失性存储介质,所述非易失性存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1或2所述中文训练图像生成方法的步骤。
CN201811182135.9A 2018-10-11 2018-10-11 中文训练图像生成方法、装置、计算机设备及存储介质 Active CN109255826B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811182135.9A CN109255826B (zh) 2018-10-11 2018-10-11 中文训练图像生成方法、装置、计算机设备及存储介质
PCT/CN2018/122993 WO2020073497A1 (zh) 2018-10-11 2018-12-24 中文训练图像生成方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811182135.9A CN109255826B (zh) 2018-10-11 2018-10-11 中文训练图像生成方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN109255826A CN109255826A (zh) 2019-01-22
CN109255826B true CN109255826B (zh) 2023-11-21

Family

ID=65046103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811182135.9A Active CN109255826B (zh) 2018-10-11 2018-10-11 中文训练图像生成方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN109255826B (zh)
WO (1) WO2020073497A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858542B (zh) * 2019-01-25 2021-03-19 广州云测信息技术有限公司 一种字符识别方法和装置
CN109978044B (zh) * 2019-03-20 2021-03-19 广州云测信息技术有限公司 训练数据生成方法和装置、以及模型的训练方法和装置
CN110136225B (zh) * 2019-03-29 2023-05-30 北京旷视科技有限公司 生成书面印刷数据的样本的方法、装置及计算机存储介质
CN111860389A (zh) * 2020-07-27 2020-10-30 北京易真学思教育科技有限公司 数据处理方法、电子设备及计算机可读介质
CN112489165B (zh) * 2020-11-06 2024-02-06 中科云谷科技有限公司 一种用于合成文字的方法、装置和存储介质
CN113989814A (zh) * 2021-11-23 2022-01-28 腾讯科技(深圳)有限公司 图像生成方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203291A (zh) * 2016-07-01 2016-12-07 昆明理工大学 一种基于形态成分分析与自适应字典学习的场景图像文字检测的方法
WO2017054676A1 (zh) * 2015-09-30 2017-04-06 努比亚技术有限公司 图像处理装置、终端和方法
CN106683161A (zh) * 2016-12-13 2017-05-17 中国传媒大学 基于图像分割与自定义图层法的增强现实遮挡方法
CN107491752A (zh) * 2017-08-14 2017-12-19 中国石油大学(华东) 一种基于深度学习的自然场景中船牌文字识别方法、装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103679208A (zh) * 2013-11-27 2014-03-26 北京中科模识科技有限公司 基于广电字幕识别的训练数据自动生成和深度学习方法
CN104794504B (zh) * 2015-04-28 2018-05-22 浙江大学 基于深度学习的图形图案文字检测方法
CN105955687B (zh) * 2016-04-29 2019-12-17 华为技术有限公司 图像处理的方法、装置和***
CN108288064B (zh) * 2017-01-09 2022-06-07 北京京东尚科信息技术有限公司 用于生成图片的方法和装置
CN106874937B (zh) * 2017-01-18 2023-06-09 腾讯科技(上海)有限公司 一种文字图像生成方法、装置及终端
CN107393018A (zh) * 2017-07-27 2017-11-24 北京中达金桥技术股份有限公司 一种利用Kinect实现实时虚拟影像叠加的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017054676A1 (zh) * 2015-09-30 2017-04-06 努比亚技术有限公司 图像处理装置、终端和方法
CN106203291A (zh) * 2016-07-01 2016-12-07 昆明理工大学 一种基于形态成分分析与自适应字典学习的场景图像文字检测的方法
CN106683161A (zh) * 2016-12-13 2017-05-17 中国传媒大学 基于图像分割与自定义图层法的增强现实遮挡方法
CN107491752A (zh) * 2017-08-14 2017-12-19 中国石油大学(华东) 一种基于深度学习的自然场景中船牌文字识别方法、装置

Also Published As

Publication number Publication date
WO2020073497A1 (zh) 2020-04-16
CN109255826A (zh) 2019-01-22

Similar Documents

Publication Publication Date Title
CN109255826B (zh) 中文训练图像生成方法、装置、计算机设备及存储介质
CN109635627A (zh) 图片信息提取方法、装置、计算机设备及存储介质
CN109872284A (zh) 图像信息脱敏方法、装置、计算机设备及存储介质
CN107239491A (zh) 用于实现用户行为追踪的方法、设备、浏览器及电子设备
CN110516541B (zh) 文本定位方法、装置、计算机可读存储介质和计算机设备
CN109635805B (zh) 图像文本定位方法及装置、图像文本识别方法及装置
CN109446873A (zh) 手写字体识别方法、***以及终端设备
CA3119249C (en) Querying semantic data from unstructured documents
CN107301046A (zh) 图标的处理方法和装置、计算机设备和存储介质
CN114332895A (zh) 文本图像合成方法、装置、设备、存储介质和程序产品
CN110390254A (zh) 基于人脸的性格分析方法、装置、计算机设备及存储介质
CN115631205B (zh) 图像分割及模型训练的方法、装置及设备
CN110399760A (zh) 一种批量二维码定位方法、装置、电子设备及存储介质
CN112581344A (zh) 一种图像处理方法、装置、计算机设备及存储介质
CN114596566A (zh) 文本识别方法及相关装置
CN113435210A (zh) 社交图片文本识别方法、装置、计算机设备及存储介质
CN115131803A (zh) 文档字号的识别方法、装置、计算机设备和存储介质
CN114550189A (zh) 票据识别方法、装置、设备、计算机存储介质和程序产品
CN114332883A (zh) ***信息识别方法、装置、计算机设备及存储介质
CN112464924A (zh) 一种构建训练集的方法及装置
CN112434267B (zh) 一种生成盲水印的方法、装置、介质和设备
CN112836467B (zh) 一种图像处理方法及装置
CN113936187A (zh) 文本图像合成方法、装置、存储介质及电子设备
CN111583168A (zh) 图像合成方法、装置、计算机设备和存储介质
CN117079084B (zh) 样本图像的生成方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant