CN110347983A - 训练样本保存方法、装置、电子设备及存储介质 - Google Patents

训练样本保存方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110347983A
CN110347983A CN201910325393.6A CN201910325393A CN110347983A CN 110347983 A CN110347983 A CN 110347983A CN 201910325393 A CN201910325393 A CN 201910325393A CN 110347983 A CN110347983 A CN 110347983A
Authority
CN
China
Prior art keywords
sample
training sample
training
default
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910325393.6A
Other languages
English (en)
Other versions
CN110347983B (zh
Inventor
娄康
史忠伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuba Co Ltd
Original Assignee
Wuba Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuba Co Ltd filed Critical Wuba Co Ltd
Priority to CN201910325393.6A priority Critical patent/CN110347983B/zh
Publication of CN110347983A publication Critical patent/CN110347983A/zh
Application granted granted Critical
Publication of CN110347983B publication Critical patent/CN110347983B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种训练样本保存方法、装置、电子设备及存储介质,其中,所述方法包括:根据基准样本确定用于生成训练样本的制作模板;填充预设训练字段至所述空白区域,得到待处理训练样本;生成所述待处理训练样本对应的若干仿真训练样本;生成最终训练样本;根据所述预设训练字段,生成最终训练样本的样本名称;以所述样本名称为文件名保存所述最终训练样本,得到训练样本库。本发明所提供的训练样本保存方法能够快速且自动的生成训练样本的样本名称,从而提高训练样本的保存效率。

Description

训练样本保存方法、装置、电子设备及存储介质
技术领域
本申请涉及图像处理技术领域,尤其涉及一种训练样本保存方法、装置、电子设备及存储介质。
背景技术
在图像处理的过程中,可以通过增加训练样本的数量,有效提高识别真实样本图像的准确度。然而大量的训练样本在生成之后,只有经过有效地命名和保存,才能够为真实样本图像提供有序的识别环境。
通常,技术人员会采用人工手动操作的方式对训练样本进行命名和保存。具体处理过程中,在训练样本生成后,首先技术人员需要识别该训练样本的文本信息,然后根据文本信息确定该训练样本的名称,最后根据训练样本的名称,人工确定训练样本保存时的命名。例如:已生成的训练样本的具体内容为×××有限公司,则首先识别该训练样本的文本信息为单位名称;然后根据该文本信息确定该训练样本的名称为单位名称训练样本;最后人工将该训练样本命名为单位名称训练样本,并对其进行保存,进而完成训练样本的人工保存工作。
然而由以上保存过程可知,人工手动操作的方式不仅需要对训练样本的文本信息进行识别,还需要对训练样本进行人工手动命名,在训练样本数量庞大的情况下,人工手动操作难以保证训练样本的保存效率。
发明内容
本申请提供了一种训练样本保存方法、装置、电子设备及存储介质,以解决现有训练样本保存方法保存效率低的问题。
第一方面,本发明实施例提供了一种训练样本保存方法,包括:
根据基准样本确定用于生成训练样本的制作模板,所述制作模板带有可填充训练字段的空白区域;
填充预设训练字段至所述空白区域,得到待处理训练样本,其中,所述预设训练字段与所述基准样本中相应字段在语义类型和结构类型上相同;
生成所述待处理训练样本对应的若干仿真训练样本,所述仿真训练样本的样本效果与所述基准样本在预设环境参数下的样本效果相同;
生成最终训练样本,所述最终训练样本为所述仿真训练样本中各所述预设训练字段所对应的区域;
根据所述预设训练字段,生成最终训练样本的样本名称;
以所述样本名称为文件名保存所述最终训练样本,得到训练样本库。
在本发明实施例第一方面一种可能的实现方式中,所述根据基准样本,确定用于生成训练样本的制作模板包括:
确定基准样本中的目标字段,以及所述目标字段对应的标题,所述目标字段与预设训练字段的语义类型和结构类型均相同;
清除全部所述目标字段,获得空白区域和模板框架;
根据所述模板框架、所述标题和所述空白区域,确定用于生成训练样本的制作模板。
在本发明实施例第一方面一种可能的实现方式中,所述填充预设训练字段至空白区域,得到待处理训练样本包括:
根据所述预设训练字段的语义类型和结构类型,确定所述预设训练字段对应的标题;
根据所述标题,确定对应的空白区域;
填充所述预设训练字段至所述空白区域,得到待处理训练样本。
在本发明实施例第一方面一种可能的实现方式中,所述生成待处理训练样本对应的若干仿真训练样本包括:
根据各所述预设环境参数,确定仿真参数,所述仿真参数包括噪声参数、亮度参数和色度参数;
添加所述噪声参数、所述亮度参数和所述色度参数至所述待处理训练样本,得到仿真训练样本。
在本发明实施例第一方面一种可能的实现方式中,所述生成最终训练样本包括:
确定各所述预设训练字段对应的空白区域;
以所述空白区域的边缘为边界,剪切所述仿真训练样本中各预设训练字段所对应的区域,得到最终训练样本,所述最终训练样本包括预设训练字段和预设训练字段填充至对应空白区域后的留白区域。
在本发明实施例第一方面一种可能的实现方式中,所述根据预设训练字段,生成最终训练样本的样本名称包括:
获取所述预设训练字段的属性,所述属性包括语义、关键词和文本内容;
根据所述语义、所述关键词和所述文本内容,直接生成最终训练样本的样本名称。
在本发明实施例第一方面一种可能的实现方式中,所述方法还包括:
根据所述训练样本库,识别真实样本;
如果所述真实样本识别通过,则添加所述真实样本至所述训练样本库。
第二方面,本发明实施例提供了一种训练样本保存装置,包括:
制作模板确定模块,用于根据基准样本确定用于生成训练样本的制作模板,所述制作模板带有可填充训练字段的空白区域;
填充模块,用于填充预设训练字段至所述空白区域,得到待处理训练样本,其中,所述预设训练字段与所述基准样本中相应字段在语义类型和结构类型上相同;
仿真模块,用于生成最终训练样本,所述最终训练样本为所述仿真训练样本中各所述预设训练字段所对应的区域;
剪切模块,用于剪切所述仿真训练样本中各所述训练字段所对应的区域,获得最终训练样本;
命名模块,用于根据所述预设训练字段,生成最终训练样本的样本名称;
保存模块,用于以所述样本名称为文件名保存所述最终训练样本,得到训练样本库。
在本发明实施例第二方面一种可能的实现方式中,所述制作模板确定模块包括:
目标确定模块,用于确定基准样本中的目标字段,以及所述目标字段对应的标题,所述目标字段与预设训练字段的语义类型和结构类型均相同;
清除模块,用于清除全部所述目标字段,获得空白区域和模板框架;
制作模板生成模块,用于根据所述模板框架、所述标题和所述空白区域,确定用于生成训练样本的制作模板。
在本发明实施例第二方面一种可能的实现方式中,所述填充模块包括:
标题确定模块,用于根据所述预设训练字段的语义类型和结构类型,确定所述预设训练字段对应的标题;
定位模块,用于根据所述标题,确定对应的空白区域;
待处理训练样本生成模块,用于填充所述预设训练字段至所述空白区域,得到待处理训练样本。
在本发明实施例第二方面一种可能的实现方式中,所述仿真模块包括:
仿真参数确定模块,用于根据各所述预设环境参数,确定仿真参数,所述仿真参数包括噪声参数、亮度参数和色度参数;
参数添加模块,用于添加所述噪声参数、所述亮度参数和所述色度参数至所述待处理训练样本,得到仿真训练样本。
在本发明实施例第二方面一种可能的实现方式中,所述剪切模块包括:
空白区域确定模块,用于确定各所述预设训练字段对应的空白区域;
最终训练样本生成模块,用于以所述空白区域的边缘为边界,剪切所述仿真训练样本中各预设训练字段所对应的区域,得到最终训练样本,所述最终训练样本包括预设训练字段和预设训练字段填充至对应空白区域后的留白区域。
在本发明实施例第二方面一种可能的实现方式中,所述命名模块包括:
属性获取模块,用于获取所述预设训练字段的属性,所述属性包括语义、关键词和文本内容;
样本名称生成模块,用于根据所述语义、所述关键词和所述文本内容,直接生成最终训练样本的样本名称。
在本发明实施例第二方面一种可能的实现方式中,所述装置还包括:
识别模块,用于根据所述训练样本库,识别真实样本;
扩充模块,用于如果所述真实样本识别通过,则添加所述真实样本至所述训练样本库。
第三方面,本发明实施例提供了一种电子设备,包括:
处理器,以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行所述的训练样本保存方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的训练样本保存方法。
本发明实施例提供的训练样本保存方法、装置、电子设备及存储介质,其中,在训练样本保存方法中,根据基准样本确定用于生成训练样本的制作模板;填充预设训练字段至所述空白区域,得到待处理训练样本;生成所述待处理训练样本对应的若干仿真训练样本;生成最终训练样本;根据所述预设训练字段,生成最终训练样本的样本名称;以所述样本名称为文件名保存所述最终训练样本,得到训练样本库。本发明实施例中针对一类样本制作统一的制作模板,并在制作模板上添加预设训练字段,将生成的待处理训练样本进行仿真处理,以获得一系列贴近真实样本使用效果的仿真训练样本,并根据所添加的预设训练字段的本身属性即可自动生成最终样本的样本名称,无需再通过识别最终样本的语义结构等信息以获得最终样本的样本名称。最后可以用所生成的样本名称直接命名最终样本,并保存命名后的最终样本。可见,本发明所提供的训练样本保存方法能够快速且自动的生成训练样本的样本名称,从而提高训练样本的保存效率。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的训练样本保存方法的流程示意图;
图2为本发明实施例提供的基准样本示意图和制作模板示意图,其中,A图为基准样本示意图,B图为制作模板示意图;
图3为本发明实施例提供的一种制作模板的生成方法的流程示意图;
图4为本发明实施例提供的一种准确填充预设训练字段至空白区域的方法的流程示意图;
图5为本发明实施例提供的一种生成仿真训练样本的方法的流程示意图;
图6为本发明实施例提供的样本效果的示意图,其中,A图为添加噪声参数后的样本效果,B图为添加亮度参数后的样本效果,C图为添加色度参数后的样本效果;
图7为本发明实施例提供的一种生成最终训练样本的方法的流程示意图;
图8为本发明实施例提供的一种命名最终训练样本的方法的流程示意图;
图9为本发明实施例提供的一种扩展训练样本库的方法的流程示意图;
图10为本发明实施例提供的训练样本保存装置实施例一的结构示意图;
图11为本发明实施例提供的训练样本保存装置实施例二的结构示意图;
图12为本发明实施例提供的训练样本保存装置实施例三的结构示意图;
图13为本发明实施例提供的训练样本保存装置实施例四的结构示意图;
图14为本发明实施例提供的训练样本保存装置实施例五的结构示意图;
图15为本发明实施例提供的训练样本保存装置实施例六的结构示意图;
图16为本发明实施例提供的训练样本保存装置实施例七的结构示意图;
图17为本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的训练样本保存方法的流程示意图。如图1所示,本实施例提供的训练样本保存方法包括:
S1、根据基准样本确定用于生成训练样本的制作模板,所述制作模板带有可填充训练字段的空白区域。
本发明所提供的训练样本保存方法可以应用于多种卡证,例如行驶证、身份证、营业执照等,但是针对每一种卡证,均需要设置对应的基准样本,例如针对A类企业信息证件,就需要以A类企业信息证件作为基准样本;针对B类企业信息证件,就需要以B 类企业信息证件作为基准样本。通常,主要利用训练样本识别真实样本的文本部分,因此,在确定基准样本之后,需要将基准样本中的文字区域去除,得到带有可填充训练字段的空白区域,这样就能够通过在空白区域处填充的训练字段识别真实样本中的文本部分。如图2所示,A图为以一种企业信息证件为例的基准样本,B图则为根据该基准样本生成的制作模板,其中①②③为可填充训练字段的空白区域。
S2、填充预设训练字段至所述空白区域,得到待处理训练样本,其中,所述预设训练字段与所述基准样本中相应字段在语义类型和结构类型上相同。
通过填充预设训练字段,获得大量具有识别真实样本功能的待处理训练样本,真实样本的待识别文本与基准样本中空白区域处的相应字段具有相同的语义类型和结构类型,为了能够准确识别真实样本的待识别文本,所填充的预设训练字段也应该具有与该基准样本中空白区域处的相应字段相同的语义类型和结构类型。如图2中A图所示的基准样本,名称部分的字段为“×××有限公司”,可知,该字段的语义类型为×××有限公司类型,结构类型为定语+名词类型,因此,在B图的空白区域①处所填写的预设训练字段可以为“白云科技有限公司”、“蓝天科技有限公司”等,在全部空白区域填写完毕后得到待处理训练样本。
S3、生成所述待处理训练样本对应的若干仿真训练样本,所述仿真训练样本的样本效果与所述基准样本在预设环境参数下的样本效果相同。
由于真实样本存在不同的样本效果,例如字体模糊、字体较暗、字体存在色度变化等,而待处理训练样本只能准确识别具有字体清晰、亮度足够、无色差等标准样本效果的真实样本,而对于其它样本效果的识别准确度就比较低,因此,为了提高待处理训练样本识别各种样本效果的真实样本的准确度,需要将待处理训练样本对应处理为具有不同样本效果的仿真训练样本,以贴近真实样本的样本效果。通常,基准样本所展示的样本效果为标准样本效果,而通过将基准样本放入不同的预设环境参数下,能够获得具有不同样本效果的训练样本,这些训练样本能够与真实样本相贴近,因此,将待处理训练样本对应处理为与这些训练样本具有相同样本效果的训练样本,即可获得仿真训练样本。
S4、生成最终训练样本,所述最终训练样本为所述仿真训练样本中各所述预设训练字段所对应的区域。
经过S3获得的仿真训练样本,能够准确识别具有各种样本效果的真实样本,因为,真实样本中需要识别的部分就是填充的预设训练字段所对应的部分。因此,为了减少制作模板上其余部分对识别过程的影响,需要将仿真训练样本中与预设训练字段所对应的区域剪切出来作为最终训练样本。
S5、根据所述预设训练字段,生成最终训练样本的样本名称。
根据S2可知,预设训练字段是根据基本样本中相应字段的语义类型和结构类型选择的,因此,在填充的初始就已经获知能够代表该预设训练字段的具体内容,这样就能够根据该具体内容直接生成最终训练样本的样本名称,例如,预训练字段为“××科技有限公司”,可以直接生成样本名称“××科技样本”,而无需再重新通过分析预设训练字段的语义和结构来确定样本名称,进而提高最终训练样本的命名效率。
S6、以所述样本名称为文件名保存所述最终训练样本,得到训练样本库。
将S5中命名后的最终训练样本全部保存起来,得到训练样本库,以便后续建立训练样本模型,方便管理训练样本。
由以上技术方案可知,本发明所提供的训练样本保存方法能够快速且自动的生成训练样本的样本名称,从而提高训练样本的保存效率。同时,本申请根据预设训练字段自动生成样本名称,而无需通过再次识别预设训练字段获得样本名称的过程,能够有效提高命名的准确性,便于后续对训练样本的管理和调用。
由以上方案可知,制作模板是填充预设训练字段的基础,也是进行仿真处理的基础。而且在识别真实样本的过程中,如果制作模板和真实样本自身的模板重合度高,会更加利于真实样本中待识别文本区域的定位,进而能够更快的从训练样本库中找到所需的最终训练样本。可见,制作模板的准确度越高,最终训练样本的识别质量越高。
图3展示了一种制作模板的生成方法,包括:
S101、确定基准样本中的目标字段,以及所述目标字段对应的标题,所述目标字段与预设训练字段的语义类型和结构类型均相同。
为了获得带有可填充预设训练字段的空白区域的制作模板,需要首先确定基准样本中空白区域的位置。根据空白区域的作用“填充预设训练字段”,可知,空白区域对应于将要填充的预设训练字段,由S2可知,预设训练字段与基准样本中相应字段在语义类型和结构类型上相同,因此,只要找到与预设训练字段的语义类型和结构类型相同的字段,即可确定该字段为目标字段。例如预设训练字段为“××科技有限公司”,即可在图2的 B图中对应找到与“××科技有限公司”语义类型和结构类型相同的字段“×××有限公司”,就可以将“×××有限公司”确定为目标字段。在基准样本中,通常存在能够标志各目标字段的标题,只要看到该标题,就能够准确定位目标字段,例如,图2的A图中目标字段“×××有限公司”所对应的标题就是“名称”。
S102、清除全部所述目标字段,获得空白区域和模板框架。
从基准样本中清除S101中所得的全部目标字段,能够获得用于填充预设训练字段的空白区域和用于后续编辑处理训练样本的模板框架。如图2所示,从A图的基准样本中清除了目标字段“×××有限公司”、“1×××××××××××××6”和“孙××”,然后获得B图的空白区域①②③,以及基准样本余下的非文本部分“模板框架”。
S103、根据所述模板框架、所述标题和所述空白区域,确定用于生成训练样本的制作模板。
由模板框架、目标字段对应的标题和空白区域,共同构成制作模板。如图2中的B图所示。
同一个制作模板上可以填充多个预设训练字段,只有将预设训练字段准确填充在制作模板的对应位置上,才能够进行有效的识别工作。
图4展示了一种准确填充预设训练字段至空白区域的方法,包括:
S201、根据所述预设训练字段的语义类型和结构类型,确定所述预设训练字段对应的标题;
S202、根据所述标题,确定对应的空白区域;
S203、填充所述预设训练字段至所述空白区域,得到待处理训练样本。
由S101可知,目标字段对应的标题是确定目标字段的关键,而预设训练字段的填充区域与清除目标字段后所得的空白区域相对应,因此,目标字段的标题同样能够准确确定预设训练字段的填充位置。而预设训练字段与目标字段的语义类型和结构类型均相同,因此,通过分析预设训练字段的语义类型和结构类型,即可确定目标字段对应的标题。确定标题之后,即可确定标题对应的空白区域。将预设训练字段填充至该空白区域即可得到待处理训练样本。例如预设训练字段为“白云科技有限公司”,其语义类型为×××有限公司类型,结构类型为定语+名词类型,与图2的A图中“×××有限公司”的语义类型和结构类型相同,可知,“×××有限公司”为目标字段,所以“××科技有限公司”所对应的标题与“×××有限公司”对应的标题相同,即为“名称”。而根据“名称”即可确定空白区域为①,因此,在B图的①处填充“××科技有限公司”即可获得待处理训练样本。
本实施例提供的方法能够将预设训练字段准确填充至对应的空白区域,进而有效提高后续识别真实样本的准确度。
由S3可知,S2中得到的待处理训练样本的样本效果单一,无法贴近真实样本的样本效果,因此,需要对待处理训练样本进行处理,得到具有不同样本的仿真训练样本,以贴近真实样本的样本效果。
图5展示了一种生成仿真训练样本的方法,包括:
S301、根据各所述预设环境参数,确定仿真参数,所述仿真参数包括噪声参数、亮度参数和色度参数;
S302、添加所述噪声参数、所述亮度参数和所述色度参数至所述待处理训练样本,得到仿真训练样本。
基准样本在不同的预设环境参数下,能够获得不同的样本效果。预设环境参数可以包括:环境亮度、振动系数和光照分布度等,从而影响基准样本获得具有明暗效果、清晰效果和色彩渐变效果不同样本效果的样本。为了贴近这些样本效果,需要根据预设环境参数确定出对应的仿真参数。例如,利用椒盐噪声、高斯噪声等噪声参数对应振动系数,调整待处理训练样本的清晰效果;在RGB模式下随机改变亮度参数,以对应环境亮度,调整待处理训练样本的明暗效果;在LAB模式下渐进调整色度参数,以对应光照分布度,调整待处理训练样本的色彩渐变效果。
通过添加不同的仿真参数至待处理训练样本,即可获得一系列具有不同样本效果的仿真训练样本。如图6的A图为添加噪声参数令待处理训练样本的清晰度下降;B图为添加亮度参数令待处理训练样本的亮度降低;C图为添加了色度参数令待处理驯良样本出现部分阴影效果。
通过添加仿真参数,能够令待处理训练样本的样本效果更加贴近真实样本的样本效果,进而提高识别准确度与广度。
由S3所生成的仿真训练样本不仅包括预设训练字段部分,还包括模板框架,以及一些无用文本部分,为了提高识别效率和识别质量,需要将仿真训练样本中与预设训练字段所对应的区域剪切出来作为最终训练样本。
图7展示了一种生成最终训练样本的方法,包括:
S401、确定各所述预设训练字段对应的空白区域;
S402、以所述空白区域的边缘为边界,剪切所述仿真训练样本中各预设训练字段所对应的区域,得到最终训练样本,所述最终训练样本包括预设训练字段和预设训练字段填充至对应空白区域后的留白区域。
在实际填充预设训练字段时,由于各预设训练字段与基准样本中的目标字段的长度不同,因此,预设训练字段填充至空白区域之后,也会存在不同程度的留白区域。而在真实样本的识别过程中,除了要识别真实样本的文本内容,也要识别真实样本的文本位置,其中,文本位置不仅是指文本在整个制作模板中的位置,也是指文本在空白区域中的相对位置,例如左对齐、居中、右对齐、两端对齐等。因此,为了能够更加准确的识别真实样本,需要以整个空白区域的边缘为边界,剪切各预设训练字段对应的区域,而不是单纯剪切包含预设字段对应的最小区域。
经由S4会获得大量的最终训练样本,如果人工命名不仅工作量巨大,而且准确率低
图8展示了一种命名最终训练样本的方法,包括:
S501、获取所述预设训练字段的属性,所述属性包括语义、关键词和文本内容;
S502、根据所述语义、所述关键词和所述文本内容,直接生成最终训练样本的样本名称。
由S2可知,所填充的预设训练字段是根据基准样本中对应的字段所确定的,因此,在填充预设训练字段的同时就已经获知了预设训练字段的属性,例如语义、关键词和具体的文本内容。而根据预设训练字段的属性,就可以直接生成能够代表训练样本的样本名称,从而有效避免人工命名效率低、准确率低的问题。
利用最终训练样本识别真实样本之后,如图9所示,还包括一种扩展训练样本库的方法,具体包括:
S7、根据所述训练样本库,识别真实样本;
S8、如果所述真实样本识别通过,则添加所述真实样本至所述训练样本库。
识别真实样本所采用的训练样本数量越多,则识别准确度越高,而且,识别时所采用的训练样本的质量越高,识别准确度也越高,在众多训练样本中,能够通过识别的真实样本的质量无疑是较高的,因此,将通过识别的真实样本添加至训练样本库,不仅能够扩充训练样本库,又能提高训练样本的质量,进而提高后续的识别质量。
图10为本发明实施例提供的训练样本保存装置实施例一的结构示意图,所述装置包括:制作模板确定模块1,用于根据基准样本确定用于生成训练样本的制作模板,所述制作模板带有可填充训练字段的空白区域;填充模块2,用于填充预设训练字段至所述空白区域,得到待处理训练样本,其中,所述预设训练字段与所述基准样本中相应字段在语义类型和结构类型上相同;仿真模块3,用于生成最终训练样本,所述最终训练样本为所述仿真训练样本中各所述预设训练字段所对应的区域;剪切模块4,用于剪切所述仿真训练样本中各所述训练字段所对应的区域,获得最终训练样本;命名模块5,用于根据所述预设训练字段,生成最终训练样本的样本名称;保存模块6,用于以所述样本名称为文件名保存所述最终训练样本,得到训练样本库。
图11为本发明实施例提供的训练样本保存装置实施例二的结构示意图,所述制作模板确定模块1包括:目标确定模块11,用于确定基准样本中的目标字段,以及所述目标字段对应的标题,所述目标字段与预设训练字段的语义类型和结构类型均相同;清除模块12,用于清除全部所述目标字段,获得空白区域和模板框架;制作模板生成模块13,用于根据所述模板框架、所述标题和所述空白区域,确定用于生成训练样本的制作模板。
图12为本发明实施例提供的训练样本保存装置实施例三的结构示意图,所述填充模块2包括:标题确定模块21,用于根据所述预设训练字段的语义类型和结构类型,确定所述预设训练字段对应的标题;定位模块22,用于根据所述标题,确定对应的空白区域;待处理训练样本生成模块23,用于填充所述预设训练字段至所述空白区域,得到待处理训练样本。
图13为本发明实施例提供的训练样本保存装置实施例四的结构示意图,所述仿真模块3包括:仿真参数确定模块31,用于根据各所述预设环境参数,确定仿真参数,所述仿真参数包括噪声参数、亮度参数和色度参数;参数添加模块32,用于添加所述噪声参数、所述亮度参数和所述色度参数至所述待处理训练样本,得到仿真训练样本。
图14为本发明实施例提供的训练样本保存装置实施例五的结构示意图,所述剪切模块4包括:空白区域确定模块41,用于确定各所述预设训练字段对应的空白区域;最终训练样本生成模块42,用于以所述空白区域的边缘为边界,剪切所述仿真训练样本中各预设训练字段所对应的区域,得到最终训练样本,所述最终训练样本包括预设训练字段和预设训练字段填充至对应空白区域后的留白区域。
图15为本发明实施例提供的训练样本保存装置实施例六的结构示意图,所述命名模块5包括:属性获取模块51,用于获取所述预设训练字段的属性,所述属性包括语义、关键词和文本内容;样本名称生成模块52,用于根据所述语义、所述关键词和所述文本内容,直接生成最终训练样本的样本名称。
图16为本发明实施例提供的训练样本保存装置实施例七的结构示意图,所述装置还包括:识别模块7,用于根据所述训练样本库,识别真实样本;扩充模块8,用于如果所述真实样本识别通过,则添加所述真实样本至所述训练样本库。
图17为本发明实施例提供的电子设备的硬件结构示意图。该电子设备包括:存储器 101和处理器102;
存储器101,用于存储计算机程序;
处理器102,用于执行存储器存储的计算机程序,以实现上述实施例中的流量数据监控方法。具体可以参见前述方法实施例中的相关描述。
可选地,存储器101既可以是独立的,也可以跟处理器102集成在一起。
当所述存储器101是独立于处理器102之外的器件时,所述电子设备还可以包括:
总线103,用于连接所述存储器101和处理器102。
本发明实施例提供的电子设备可用于执行上述实施例中任一所示的训练样本保存方法,其实现方式和技术效果类似,本发明实施例此处不再赘述。
本发明实施例还提供一种可读存储介质,可读存储介质中存储有计算机程序,当消息发送的装置的至少一个处理器执行该计算机程序时,消息发送的装置执行上述实施例任一所述的训练样本保存方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于以计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换,而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (16)

1.一种训练样本保存方法,其特征在于,所述方法包括:
根据基准样本确定用于生成训练样本的制作模板,所述制作模板带有可填充训练字段的空白区域;
填充预设训练字段至所述空白区域,得到待处理训练样本,其中,所述预设训练字段与所述基准样本中相应字段在语义类型和结构类型上相同;
生成所述待处理训练样本对应的若干仿真训练样本,所述仿真训练样本的样本效果与所述基准样本在预设环境参数下的样本效果相同;
生成最终训练样本,所述最终训练样本为所述仿真训练样本中各所述预设训练字段所对应的区域;
根据所述预设训练字段,生成最终训练样本的样本名称;
以所述样本名称为文件名保存所述最终训练样本,得到训练样本库。
2.根据权利要求1所述的方法,其特征在于,所述根据基准样本,确定用于生成训练样本的制作模板包括:
确定基准样本中的目标字段,以及所述目标字段对应的标题,所述目标字段与预设训练字段的语义类型和结构类型均相同;
清除全部所述目标字段,获得空白区域和模板框架;
根据所述模板框架、所述标题和所述空白区域,确定用于生成训练样本的制作模板。
3.根据权利要求2所述的方法,其特征在于,所述填充预设训练字段至空白区域,得到待处理训练样本包括:
根据所述预设训练字段的语义类型和结构类型,确定所述预设训练字段对应的标题;
根据所述标题,确定对应的空白区域;
填充所述预设训练字段至所述空白区域,得到待处理训练样本。
4.根据权利要求1所述的方法,其特征在于,所述生成待处理训练样本对应的若干仿真训练样本包括:
根据各所述预设环境参数,确定仿真参数,所述仿真参数包括噪声参数、亮度参数和色度参数;
添加所述噪声参数、所述亮度参数和所述色度参数至所述待处理训练样本,得到仿真训练样本。
5.根据权利要求1所述的方法,其特征在于,所述生成最终训练样本包括:
确定各所述预设训练字段对应的空白区域;
以所述空白区域的边缘为边界,剪切所述仿真训练样本中各预设训练字段所对应的区域,得到最终训练样本,所述最终训练样本包括预设训练字段和预设训练字段填充至对应空白区域后的留白区域。
6.根据权利要求1所述的方法,其特征在于,所述根据预设训练字段,生成最终训练样本的样本名称包括:
获取所述预设训练字段的属性,所述属性包括语义、关键词和文本内容;
根据所述语义、所述关键词和所述文本内容,直接生成最终训练样本的样本名称。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述训练样本库,识别真实样本;
如果所述真实样本识别通过,则添加所述真实样本至所述训练样本库。
8.一种训练样本保存装置,其特征在于,所述装置包括:
制作模板确定模块,用于根据基准样本确定用于生成训练样本的制作模板,所述制作模板带有可填充训练字段的空白区域;
填充模块,用于填充预设训练字段至所述空白区域,得到待处理训练样本,其中,所述预设训练字段与所述基准样本中相应字段在语义类型和结构类型上相同;
仿真模块,用于生成最终训练样本,所述最终训练样本为所述仿真训练样本中各所述预设训练字段所对应的区域;
剪切模块,用于剪切所述仿真训练样本中各所述训练字段所对应的区域,获得最终训练样本;
命名模块,用于根据所述预设训练字段,生成最终训练样本的样本名称;
保存模块,用于以所述样本名称为文件名保存所述最终训练样本,得到训练样本库。
9.根据权利要求8所述的装置,其特征在于,所述制作模板确定模块包括:
目标确定模块,用于确定基准样本中的目标字段,以及所述目标字段对应的标题,所述目标字段与预设训练字段的语义类型和结构类型均相同;
清除模块,用于清除全部所述目标字段,获得空白区域和模板框架;
制作模板生成模块,用于根据所述模板框架、所述标题和所述空白区域,确定用于生成训练样本的制作模板。
10.根据权利要求9所述的装置,其特征在于,所述填充模块包括:
标题确定模块,用于根据所述预设训练字段的语义类型和结构类型,确定所述预设训练字段对应的标题;
定位模块,用于根据所述标题,确定对应的空白区域;
待处理训练样本生成模块,用于填充所述预设训练字段至所述空白区域,得到待处理训练样本。
11.根据权利要求8所述的装置,其特征在于,所述仿真模块包括:
仿真参数确定模块,用于根据各所述预设环境参数,确定仿真参数,所述仿真参数包括噪声参数、亮度参数和色度参数;
参数添加模块,用于添加所述噪声参数、所述亮度参数和所述色度参数至所述待处理训练样本,得到仿真训练样本。
12.根据权利要求8所述的装置,其特征在于,所述剪切模块包括:
空白区域确定模块,用于确定各所述预设训练字段对应的空白区域;
最终训练样本生成模块,用于以所述空白区域的边缘为边界,剪切所述仿真训练样本中各预设训练字段所对应的区域,得到最终训练样本,所述最终训练样本包括预设训练字段和预设训练字段填充至对应空白区域后的留白区域。
13.根据权利要求8所述的装置,其特征在于,所述命名模块包括:
属性获取模块,用于获取所述预设训练字段的属性,所述属性包括语义、关键词和文本内容;
样本名称生成模块,用于根据所述语义、所述关键词和所述文本内容,直接生成最终训练样本的样本名称。
14.根据权利要求8所述的装置,其特征在于,所述装置还包括:
识别模块,用于根据所述训练样本库,识别真实样本;
扩充模块,用于如果所述真实样本识别通过,则添加所述真实样本至所述训练样本库。
15.一种电子设备,其特征在于,所述电子设备包括:
处理器,以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任一所述的训练样本保存方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一所述的训练样本保存方法。
CN201910325393.6A 2019-04-22 2019-04-22 训练样本保存方法、装置、电子设备及存储介质 Active CN110347983B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910325393.6A CN110347983B (zh) 2019-04-22 2019-04-22 训练样本保存方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910325393.6A CN110347983B (zh) 2019-04-22 2019-04-22 训练样本保存方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN110347983A true CN110347983A (zh) 2019-10-18
CN110347983B CN110347983B (zh) 2022-12-27

Family

ID=68174680

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910325393.6A Active CN110347983B (zh) 2019-04-22 2019-04-22 训练样本保存方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110347983B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183296A (zh) * 2020-09-23 2021-01-05 北京文思海辉金信软件有限公司 模拟票据图像生成、票据图像识别方法和装置
CN112381948A (zh) * 2020-11-03 2021-02-19 上海交通大学烟台信息技术研究院 一种基于语义的激光条纹中心线提取及拟合方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06274097A (ja) * 1993-03-22 1994-09-30 Mitsubishi Electric Corp 訓練用シミュレータ
CN107622056A (zh) * 2016-07-13 2018-01-23 百度在线网络技术(北京)有限公司 训练样本的生成方法和装置
CN109615671A (zh) * 2018-10-25 2019-04-12 北京中关村科金技术有限公司 一种字库样本自动生成方法、计算机装置及可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06274097A (ja) * 1993-03-22 1994-09-30 Mitsubishi Electric Corp 訓練用シミュレータ
CN107622056A (zh) * 2016-07-13 2018-01-23 百度在线网络技术(北京)有限公司 训练样本的生成方法和装置
CN109615671A (zh) * 2018-10-25 2019-04-12 北京中关村科金技术有限公司 一种字库样本自动生成方法、计算机装置及可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183296A (zh) * 2020-09-23 2021-01-05 北京文思海辉金信软件有限公司 模拟票据图像生成、票据图像识别方法和装置
CN112183296B (zh) * 2020-09-23 2022-03-04 中电金信软件有限公司 模拟票据图像生成、票据图像识别方法和装置
CN112381948A (zh) * 2020-11-03 2021-02-19 上海交通大学烟台信息技术研究院 一种基于语义的激光条纹中心线提取及拟合方法
CN112381948B (zh) * 2020-11-03 2022-11-29 上海交通大学烟台信息技术研究院 一种基于语义的激光条纹中心线提取及拟合方法

Also Published As

Publication number Publication date
CN110347983B (zh) 2022-12-27

Similar Documents

Publication Publication Date Title
CN111595850B (zh) 切片缺陷检测方法、电子装置及可读存储介质
CN110875920A (zh) 一种网络威胁分析方法、装置、电子设备及存储介质
CN110490180A (zh) 基于图像识别的作业批改方法、装置、存储介质及服务器
CN110532397A (zh) 基于人工智能的问答方法、装置、计算机设备及存储介质
CN113689436B (zh) 图像语义分割方法、装置、设备及存储介质
CN109918984A (zh) 保险单号码识别方法、装置、电子设备及存储介质
CN110175519B (zh) 一种变电站的分合标识仪表识别方法、装置与存储介质
CN110347983A (zh) 训练样本保存方法、装置、电子设备及存储介质
CN110264274A (zh) 客群划分方法、模型生成方法、装置、设备及存储介质
CN117294727B (zh) 一种基于云原生和容器技术的云边端协同管理方法
CN110399334A (zh) 对纸质文档进行排序的方法和***
CN110705400A (zh) 一种试卷版面题目自动拆分的方法
CN109800776A (zh) 素材标注方法、装置、终端和计算机可读存储介质
CN113934839A (zh) 一种根据知识点进行组卷的方法、设备及存储介质
CN110490056A (zh) 对包含算式的图像进行处理的方法和装置
CN117235527A (zh) 端到端容器化的大数据模型构建方法、装置、设备及介质
CN112434581A (zh) 一种室外目标颜色识别方法、***、电子设备及存储介质
CN106776552B (zh) 文件识别方法、装置、服务器和计算机存储介质
CN111859985B (zh) Ai客服模型测试方法、装置、电子设备及存储介质
CN111428724A (zh) 一种试卷手写统分方法、装置及存储介质
CN114037828A (zh) 组件识别方法、装置、电子设备及存储介质
CN113515771A (zh) 数据敏感度判定方法、电子设备及计算机可读存储介质
CN112364640A (zh) 实体名词链接方法、装置、计算机设备和存储介质
CN113496256B (zh) 一种图像标注模型训练方法、标注方法、装置、设备及介质
CN115204158B (zh) 数据隔离应用方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant