CN109978044A

CN109978044A - 训练数据生成方法和装置、以及模型的训练方法和装置

Info

Publication number: CN109978044A
Application number: CN201910211469.2A
Authority: CN
Inventors: 戴亦斌; 谢春鸿
Original assignee: Guangzhou Cloud Information Technology Co Ltd
Current assignee: Beijing Testin Information Technology Co Ltd
Priority date: 2019-03-20
Filing date: 2019-03-20
Publication date: 2019-07-05
Anticipated expiration: 2039-03-20
Also published as: CN109978044B

Abstract

本发明公开一种针对文本识别模型的训练数据生成方法及装置，以及一种针对文本识别模型的训练数据生成方法及装置，在收集训练数据时，结合文本控件对于文本区域的全面覆盖，以及布局识别对于图像元素进行无多余范围的准确识别，可以从包含文本的样本图像中，较为准确地裁剪出包含文本的目标区域，以及对应的文本内容，通过这种方式可以较为高效、准确地收集训练数据。而在进行模型训练时，可以以单行文本作为辅助训练文本，通过将单行文本附着在模拟应用场景的背景图像中，从而裁剪出包含单行文本的辅助训练图像。据此，可以将模拟出的辅助训练数据和实际收集到的训练数据进行结合，对文本识别模型进行训练，进而提高训练后模型的性能。

Description

训练数据生成方法和装置、以及模型的训练方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种针对文本识别模型的训练数据生成方法和装置，以及一种文本识别模型的训练方法和装置。

背景技术

深度学习是机器学习中一种基于对数据进行表征学习的方法，随着深入研究，领域内兴起了一种端到端深度学习(end-to-end learning)的方式，区别于传统的机器学习中由多个阶段分别处理的方法，端到端深度学习忽略多个不同的阶段，通过单个神经网络实现模型训练。

对于训练文本识别模型而言，可以将大量的包含文本的图像和对应的文本作为训练数据输入，训练时不再需要通过分词、特征匹配、拼接等多个阶段，而是通过神经网络直接学习图像和文本之间的内在联系，使训练后的模型可以根据包含文本的图像识别出文本结果，且相对于传统的机器学习，端到端深度学习往往具有更好的效果。

然而，为了达到更好的效果，端到端深度学习通常需要大量的训练数据。对于训练文本识别模型的而言，目前收集训练数据的方式是以人工标注为主，具体可以在应用界面、网页等包含文本的图像中，人工框选出包含文本的图像，并标注出对应的文本。但人工标注在数量和质量上往往存在较大的问题，严重影响训练数据的收集效率，也就导致了模型训练的效果。所以，至少需要提供一种方案，可以较为高效、准确地收集训练数据。

发明内容

本发明实施例提供一种针对文本识别模型的训练数据生成方法和装置，用于较为高效、准确地收集用于训练文本识别模型的训练数据。

本发明实施例还提供一种文本识别模型的训练方法和装置，用于提高文本识别模型的训练效果。

为解决上述技术问题，本发明实施例是这样实现的：

本发明实施例采用下述技术方案：

一种针对文本识别模型的训练数据生成方法，包括：

获取包含文本内容的样本图像中的文本控件信息，所述文本控件信息中包含文本区域、以及对应的文本内容；

对所述样本图像进行布局识别，得到包含图像元素的候选区域；

将包含在所述文本区域内的候选区域，确定为目标区域，并将所述文本区域对应的文本内容确定为训练文本；

根据所述目标区域从所述样本图像中裁剪出包含所述训练文本的训练图像；

根据所述训练图像以及所述训练文本生成训练数据。

一种针对文本识别模型的训练数据生成装置，包括：获取单元、识别单元、确定单元、裁剪单元、以及生成单元，其中，

所述获取单元，用于获取包含文本内容的样本图像中的文本控件信息，所述文本控件信息中包含文本区域、以及对应的文本内容；

所述识别单元，用于对所述样本图像进行布局识别，得到包含图像元素的候选区域；

所述确定单元，用于将包含在所述文本区域内的候选区域，确定为目标区域，并将所述文本区域对应的文本内容确定为训练文本；

所述裁剪单元，用于根据所述目标区域从所述样本图像中裁剪出包含所述训练文本的训练图像；

所述生成单元，用于根据所述训练图像以及所述训练文本生成训练数据。

一种文本识别模型的训练方法，包括：

利用透明图层和单行文本，生成包含文本的背景透明图像；

对所述背景透明图像进行像素点识别，确定出包含所述单行文本的区域；

将所述背景透明图像以指定位置附着在模拟应用场景的背景图像中，生成包含所述单行文本的应用图像；

根据所述区域以及附着的位置，从所述应用图像中裁剪出包含所述单行文本的辅助训练图像，并将所述单行文本确定为辅助训练文本；

根据所述辅助训练图像以及所述辅助训练文本，生成辅助训练数据；

将所述辅助训练数据以及收集到的训练数据作为输入，训练文本识别模型。

一种文本识别模型的训练装置，包括：生成单元、确定单元、裁剪单元、以及训练单元，其中，

所述生成单元，用于利用透明图层和单行文本，生成包含文本的背景透明图像；

所述确定单元，用于对所述背景透明图像进行像素点识别，确定出包含所述单行文本的区域；

所述生成单元，用于将所述背景透明图像以指定位置附着在模拟应用场景的背景图像中，生成包含所述单行文本的应用图像；

所述裁剪单元，用于根据所述区域以及附着的位置，从所述应用图像中裁剪出包含所述单行文本的辅助训练图像；

所述确定单元，用于，并将所述单行文本确定为辅助训练文本；

所述生成单元，用于根据所述辅助训练图像以及所述辅助训练文本，生成辅助训练数据；

所述训练单元，用于将所述辅助训练数据以及收集到的训练数据作为输入，训练文本识别模型。

由以上实施例提供的技术方案可见，在针对文本识别模型生成训练数据时，可以从包含文本的样本图像中获取文本控件信息，得到其中的文本区域、以及对应的文本内容，并对该样本图像进行布局识别，得到包含图像元素的候选区域。此后，可以查找出包含在文本区域内的候选区域，并将这种候选区域确定为目标区域，以及将该文本区域对应的文本内容作为训练文本。据此，就可以根据目标区域，从样本图像中裁剪出包含该训练文本的训练图像，以便根据训练图像和训练文本生成训练数据。

而在对模型进行训练时，可以先利用透明图层和单行文本，生成包含文本的背景透明图像。对该背景透明图像，可以进行像素点识别，从而确定出包含单行文本的区域，并以指定位置附着在模拟应用场景的背景图像中，从而生成包含该单行文本的应用图像。此后，可以根据该区域以及附着的位置，从应用图像中裁剪出包含该单行文本的辅助训练图像，并将该单行文本确定为辅助训练文本。据此，就可以根据辅助训练图像以及辅助训练文本，生成辅助训练数据，并将辅助训练数据以及收集到的训练数据作为输入，训练文本识别模型。

也即，在收集训练数据时，结合文本控件对于文本区域的全面覆盖，以及布局识别对于图像元素进行无多余范围的准确识别，可以从包含文本的样本图像中，较为准确地裁剪出包含文本的目标区域，以及对应的文本内容，通过这种方式可以较为高效、准确地收集训练数据。

而在进行模型训练时，可以以单行文本作为辅助训练文本，通过将单行文本附着在模拟应用场景的背景图像中，从而裁剪出包含单行文本的辅助训练图像。据此，可以将模拟出的辅助训练数据和实际收集到的训练数据进行结合，对文本识别模型进行训练，进而提高训练后模型的性能。

附图说明

为了更清楚地说明本发明实施例或现有的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的针对文本识别模型的训练数据生成方法的流程示意图；

图2为本发明实施例提供的包含文本内容的样本图像的示意图；

图3为本发明实施例提供的对样本图像进行控件识别后体现在代码上的示意图；

图4为本发明实施例提供的对样本图像进行控件识别后体现在图像上的示意图；

图5为本发明实施例提供的对样本图像进行布局识别的示意图；

图6为本发明实施例提供的文本内容的文本区域和候选区域的示意图；

图7为本发明实施例提供的文本内容的文本区域和目标区域的示意图；

图8为本发明实施例提供的确定出目标区域的示意图；

图9为本发明实施例提供的包含训练图像和训练文本的训练数据的示意图；

图10为本发明实施例提供的文本识别模型的训练方法的流程示意图；

图11为本发明实施例提供的针对文本识别模型的训练数据生成装置的结构示意图；

图12为本发明实施例提供的文本识别模型的训练装置的结构示意图；

图13为本发明实施例提供的电子设备的结构示意图；

图14为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下结合附图，详细说明本发明中各实施例提供的技术方案。

实施例1

在前文已经介绍，为了达到更好的效果，端到端深度学习通常需要大量的训练数据，而对于人工标注的方式，在数量和质量上往往存在较大的问题，所以，本实施例提供一种针对文本识别模型的训练数据生成方法，可以用于较为高效、准确地收集用于训练文本识别模型的训练数据。假设本方法的该执行主体可以是终端，具体流程示意图如图1所示，包括：

步骤102：获取包含文本内容的样本图像中的文本控件信息，文本控件信息中包含文本区域、以及对应的文本内容。

这里，包含文本内容的样本图像，可以是应用软件中用户图形界面(GUI，Graphical User Interface)的截图，而这类截图通常具有较高的真实性，具体地，在文本内容方面，和文本内容对应的背景颜色方面，均可以体现出真实的应用场景。

而控件信息，则可以通过***中自带的测试框架进行识别，比如以搭载 Android(Google公司开发的操作***)的移动终端为例，可以利用***中的 UI Automator实现对界面中的控件信息进行识别，从而可以得到文本、图像、音频、视频等多种控件信息。UIAutomator可以是一个开源测试框架，主要是针对于Android应用GUI所做的一个自动化测试框架，可以提供识别控件的功能。又如，以搭载iOS(苹果公司的移动操作***)的移动终端为例，可以利用XCtest测试框架实现对控件的识别。还如，搭载Windows(美国微软公司研发的操作***)的固定终端，可以利用UIAutomation实现识别界面中的控件。

如图2所示，为包含文本内容的样本图像的示意图，在图中可以包含“拍照扫描”、“图片转换”等多个文本内容。而通过对该样本图像进行文本控件信息获取，则可以得到多个文本区域、以及对应的文本内容。具体如图3所示，为对样本图像进行控件识别后体现在代码上的示意图，图中可以有针对不同控件的识别结果，其中text字段(实线矩形线框)可以是指文本控件对应的文本内容，bounds字段(实线矩形线框)可以是指文本控件对应的通过坐标表示的文本区域，也即文本区域、以及对应的文本内容。而利用控件识别得到文本区域和文本内容的方式，可以保证对文本区域的全面覆盖，也即理论上通过控件识别的方式，可以保证将界面中的全部文本区域和文本内容识别出来，遗漏的概率很低。

如图4所示，为对样本图像进行控件识别后体现在图像上的示意图，其中，界面中的实线矩形线框可以表示文本控件信息中的文本区域，而实线矩形线框内的文本内容，就可以是与各自文本区域对应的文本内容。

可以看到，通过控件识别得到的文本区域对于文本内容的覆盖非常好，图 4的示例中可以无遗漏的识别出，但对于一些文本内容，其对应的文本区域较大，比如对于“图片与扫描”这一文本内容，文本区域过大。这是由于在开发界面时，设置了较大的文本区域，但实际应用中，出于文本的字数和字号的不同需求，可能由于文本内容较少、字号较小等情况，或者还有可能由于文本区域内出现一些文本符号等，这就会导致包含文本内容的文本区域范围较大甚至过大。而在模型训练中，这种文本区域比文本内容所占据的实际区域较大甚至过大的情况，可能会直接影响模型的训练结果。另外，文本区域内的文本符号等，更会影响模型的训练结果。所以，就需要为文本内容找出相对紧凑的文本区域，以及仅包含文本内容的区域。

步骤104：对样本图像进行布局识别，得到包含图像元素的候选区域。

图像中可以包含多种图像元素，比如图标、文本、表格等，这些元素均可由开发人员在图像中进行布局，比如上图2或4所示，图中可以布局有文本元素、以及各种形状的图标元素。而通过布局识别就可以获得包含图像元素的区域。比如，可以利用OCR(OpticalCharacter Recognition，光学字符识别)识别***来进行布局识别。

具体地，OCR识别***可以通过检测暗、亮的模式确定各图像元素的形状，而通常情况下，图像元素自身的颜色与周围的颜色往往差别较大，所以就可以基于这一特点，利用OCR识别***对样本图像进行布局识别，从而得到包含图像元素的、相对紧凑的区域。如图5所示，为对样本图像进行布局识别的示意图，界面中的图像元素，自身的颜色与背景颜色存在的差别较大，所以可以利用OCR识别***对图像进行布局识别，从而得到多个包含图像元素的区域。比如，文本“拍照扫描”可以有一个区域，左侧的图标可以有一个区域，而该图标的内部，由于圆环的颜色(浅色)与周围的背景颜色(深色)差别较大，还可以识别出一个局部，底部的三个按键可以分别有三个区域，等。

如图5所示，在进行布局识别后，可以得到包含不同图像元素的不同区域，而这些图像元素并非均为文本，所以就可以暂时将包含图像元素的区域确定为候选区域。也即在对样本图像进行布局识别后，可以类似于图5所示，得到包含图像元素的候选区域。

需要说明的是，步骤102和步骤104没有特定的前后关系，可以一前一后，也可以同时执行。

步骤106：将包含在文本区域内的候选区域，确定为目标区域，并将该文本区域对应的文本内容确定为训练文本。

在前文已经介绍，通过控件识别，可以较为全面的得到文本区域以及对应的文本内容，但通常情况下相对于文本内容而言，文本区域的范围较大。而通过布局识别的候选区域，可以较为紧凑的包围住图像元素，但图像元素并非均为文字内容。所以本步骤就可以结合这两类区域各自的特点，得到仅包含文本内容的、且范围紧凑的区域。

具体地，根据前文的介绍，控件识别出的文本区域范围较大，而布局识别出的图像元素的候选区域范围较为紧凑，所以就可以据此筛选出包含在文本区域内的候选区域。如图4和图5所示，其中的“图片与扫描”，由局部识别确定出的候选区域，可以包含在由控件识别确定出的文本区域内；而对于图5中“图片与扫描”左侧的图标，由于不是文字，所以该图标所属的候选区域就没有包含在任何文本区域内。因此，就可以将包含在文本区域内的候选区域确定为目标区域，这里的目标区域就可以是指仅包含文本内容的、且范围紧凑的区域。例如图5中的“图片与扫描”、“拍照扫描”等。

进一步地，包含在文本区域内的候选区域的个数，可以如图4和图5所示的一个。此时就可以直接将候选区域确定为目标区域。

当然在实际应用中，开发人员可能考虑便于浏览等原因，将一段整体的文本内容通过空格的方式进行分隔，也就导致同一个文本区域内可能有多个候选区域，但实际多个候选区域内的文本均属于一段整体的文内内容。正如图6所示，为文本内容的文本区域和候选区域的示意图，其中，***的实线可以是通过控件识别得到的文本区域，内部的虚线可以是通过局部识别得到的图像元素候选区域，可以看到，由于局部识别主要根据像素点的颜色差异，可以将原本在同一个文本区域内、但间隔相对较大的三段文本识别出三个候选区域。所以，此时就可以判断在文本区域内的多个候选区域，是否能够进行合并。

在一种实施方式中，将包含在文本区域内的候选区域，确定为目标区域，可以包括：当确定出包含在文本区域内有属于同一行的至少两个候选区域时，判断每相邻两个候选区域之间的距离是否均满足预设的区域合并条件；当满足该区域合并条件时，则将该至少两个候选区域进行相互连结，确定出目标区域。具体地，判断属于同一行的至少两个候选区域之间是否均属于一段整体的文内内容，可以通过预设区域合并条件的策略实现，这里的区域合并条件可以是小于间隔阈值，比如图6所示，有属于同一行的三个候选区域，如果每相邻两个候选区域之间的距离小于间隔阈值，则可以将这三个候选区域进行相互连结，确定出目标区域，也即可以如图7所示，为文本内容的文本区域和目标区域的示意图，可以得到点划线区域表示的目标区域。这里，判断是否属于同一行，可以通过不同候选区域之间的纵向坐标相同的占比是否大于预设占比阈值，比如，占比阈值可以是90％，则若两个不同的候选区域之间，纵向坐标有95％相同，就可以判断两个不同的候选区域属于同一行，也即，该同一行的至少两个候选区域的纵向坐标相同的占比大于预设占比阈值。

在实际应用中，属于同一行的多个候选区域之间的距离大小通常与字符的尺寸有关，可以理解地，字符越大，则空格两侧的字符之间相对的间隔就越大。所以为了更加准确地判断出相邻两个候选区域之间是否可以合并，在一种实施方式中，判断每相邻两个候选区域之间的距离是否满足预设的区域合并条件，可以包括：根据每个候选区域的高度，确定文本高度；判断每相邻两个候选区域之间的距离是否均小于文本高度与合并系数之积。则确定满足该区域合并条件，可以包括：每相邻两个候选区域之间的距离均小于文本高度与合并系数之积。

具体地，当候选区域为一个时，则可以根据候选区域的高度，直接确定出文本高度，而如果存在多个候选区域，则可以根据每个候选区域的高度，确定文本高度。比如，可以根据平均值确定出文本高度，还可以根据候选区域的高度的最大值确定出文本高度等。对于合并系数，可以是预先设置的，比如可以是1.3至1.7之间的数值，其设置依据可以是根据实际的书写习惯而确定。所以在确定出文本高度后，可以判断每相邻两个候选区域之间的距离是否均小于文本高度与合并系数之积。以图6为例，则可以判断每相邻两个候选区域之间的距离是否均小于文本高度的1.5倍，若是，则可以确定满足该区域合并条件，据此就可以将至少两个候选区域进行相互连结，从而确定出目标区域，也即可以如图7所示，得到点划线区域表示的目标区域。

在确定出目标区域后，就可以将该文本区域对应的文本内容确定为训练文本，比如图5所示，文本区域内对应的文本内容为“图片与扫描”，则可以将“图片与扫描”确定为训练文本。又如图7所示，则可以将“AAA BBB CCC”确定为训练文本。

在实际应用中，虽然确定出了目标区域，但为了进一步确保目标区域真实性，还可以通过预设置信条件，来确保目标区域的可用性。所以在一种实施方式中，本方法还可以包括：判断确定出的目标区域是否满足预设的置信条件。比如该置信条件可以是目标区域的宽度小于等于界面总宽度，可以理解地，若目标区域的宽度大于界面总宽度，显然出现了问题。

在实际应用中，根据文本的高度、以及文本内容，可以预测出文本的理论宽度，而如果理论宽度与实际宽度相差较大，则可以在一定程度上说明可信程度。所以在一种实施方式中，判断确定出的目标区域是否满足预设的置信条件，可以包括：当确定出包含在文本区域内有一个候选区域时，根据这个候选区域的高度，确定文本高度；或当确定出包含在文本区域内有属于同一行的至少两个候选区域时，根据每个候选区域的高度，确定文本高度；根据确定出的目标区域的宽度，确定出文本实际宽度；根据文本区域对应的文本内容、以及确定出的文本高度，确定出该目标区域的文本理论宽度；最终，根据文本实际宽度、文本理论宽度、以及文本高度，判断该目标区域是否满足预设的置信条件。

具体地，在前文已经介绍，当文本区域内包含有候选区域时，可以根据候选区域的高度，确定出文本高度，进一步地，当包含在文本区域内有一个候选区域时，可以直接根据这个候选区域的高度，确定文本高度；或当包含在文本区域内有属于同一行的至少两个候选区域时，则可以根据每个候选区域的高度，确定文本高度，比如前文介绍的平均值或某个候选区域高度的最大值等。同时，可以根据确定出的目标区域的宽度，确定出文本实际宽度，比如图5中“图片与扫描”对应的区域就可以是目标区域，这个区域的宽度，就可以是文本的实际宽度；又如图7中的点划线区域，就可以是文本内容“AAA BBB CCC”的实际宽度。

此后，可以根据文本区域对应的文本内容、以及确定出的文本高度，确定出该目标区域的文本理论宽度，具体地，文本区域内可以包含全角中文、半角字符(数字、字母、符号)等，不同的内容可以与文本高度有对应的关系，比如一个全角中文的宽度约等于文本高度的1.036倍，一个半角字符的宽度约等于文本高度的0.618倍等。所以就可以据此确定出文本理论宽度。

最终，可以根据文本实际宽度、文本理论宽度、以及文本高度，判断该目标区域是否满足预设的置信条件。具体地，可以根据反复测试，得到可信的条件，比如文本实际宽度与文本理论宽度的差的绝对值、除以文本高度，若超过 0.25，则认为不可信，则可以放弃该目标区域，反之则认为可信。也即判断(| 文本实际宽度-文本理论宽度|)/文本高度≤0.25是否成立，若成立，则认为该目标区域为可信。

如图8所示，为确定出目标区域的示意图，如图所示，在综合了控件识别得到的文本区域，以及局部识别得到的图像元素后，得到的仅包含文本内容、且较为紧凑的目标区域，且文本区域对应的文本内容也确定为训练文本，而该目标区域也可以经过置信条件的检验而得到。

步骤108：根据该目标区域从样本图像中裁剪出包含该训练文本的训练图像。

步骤110：根据裁剪出的训练图像以及确定出的训练文本生成训练数据。

在前文介绍了确定出目标区域后，则可以据此从样本图像中裁剪出包含该训练文本的训练图像，比如图8所示，实线线框均为目标区域，且均对应有训练文本，则本步骤就可以从样本图像中裁剪出包含该训练文本的训练图像。

在裁剪出训练图像后，就可以根据前述步骤已经确定出的训练文本生成训练数据，具体地，可以通过映射关系的方式，生成多组训练数据，比如图9所示，为包含训练图像和训练文本的训练数据的示意图，图中，左侧一列可以包含从样本图像中、根据目标区域裁剪出训练图像，中间一列，可以为对应的训练文本，右侧一列可以为裁剪出的训练图像的文件。

由以上实施例提供的方法可见，在针对文本识别模型生成训练数据时，可以从包含文本的样本图像中获取文本控件信息，得到其中的文本区域、以及对应的文本内容，并对该样本图像进行布局识别，得到包含图像元素的候选区域。此后，可以查找出包含在文本区域内的候选区域，并将这种候选区域确定为目标区域，以及将该文本区域对应的文本内容作为训练文本。据此，就可以根据目标区域，从样本图像中裁剪出包含该训练文本的训练图像，以便根据训练图像和训练文本生成训练数据。

实施例2

基于相同的构思，本发明实施例2提供一种文本识别模型的训练方法，可以用于提高文本识别模型的训练效果。假设本方法的该执行主体可以是终端，具体流程示意图如图10所示，包括：

步骤202：利用透明图层和单行文本，生成包含文本的背景透明图像。

在实施例1中，可以从应用软件的用户图形界面中，收集到训练图像和训练文本的训练数据，而这些界面具有较高的真实性。在实际的模型训练中，可以将训练数据作为正样本，所以还可以生成一些负样本，作为辅助训练数据，一并作为输入对文本识别模型进行更加完善的训练。具体在本实施例中，就可以生成辅助训练数据。

具体地，可以先生成一个单行文本，并利用透明图层，生成包含文本的背景透明图像，比如，可以利用图像处理工具，先建立一个透明图层，再在透明图层中，创建一个单行文本，从而生成包含文本的背景透明图像。

在一种实施方式中，该单行文本可以从公开的文章中选取，文本字数可以控制8个字符以内，以确保单行文本是较为常用的文本，或较高频率出现的文本等。

步骤204：对生成的背景透明图像进行像素点识别，确定出包含该单行文本的区域。

在前述步骤中生成了包含文本的背景透明图像，则本步骤可以对该图像进行像素点识别，从而确定出包含该单行文本的区域，本步骤也可以利用OCR进行布局识别，或其他的像素点识别工具，从而确定出背景透明图像中这个单行文本的区域。

步骤206：将该背景透明图像以指定位置附着在模拟应用场景的背景图像中，生成包含该单行文本的应用图像。

为了模拟真实的应用场景，可以预设出模拟应用场景的背景图像，比如可以根据渐变色、单色、背景图像等，生成可能应用在用户图形界面中的模拟应用场景的背景图像。

据此，可以将前述步骤生成的背景透明图像以指定位置附着在模拟应用场景的背景图像中，从而生成包含该单行文本的应用图像，此时，该应用图像就可以包括模拟应用场景的背景图像，以及单行文本。

步骤208：根据单行文本的区域以及附着的位置，从生成的应用图像中裁剪出包含单行文本的辅助训练图像，并将单行文本确定为辅助训练文本。

在实施例1中，可以裁剪出训练图像，则在本步骤中，也可以根据单行文本的区域以及附着的位置，从应用图像中裁剪出包含单行文本的辅助训练图像。具体地，在确定出背景透明图像中的单行文本区域时，可以确定出单行文本相对于背景透明图像的第一相对位置，而在将背景透明图像以指定位置附着在模拟应用场景的背景图像时，则可以确定出背景透明图像相对于模拟应用场景的背景图像的第二相对位置，从而可以根据这两个相对位置，从应用图像中裁剪出包含单行文本的图像，由于该图像是模拟生成的用于训练的图像，则可以称为辅助训练图像，而对于该单行文本，则可以将其确定为辅助训练文本。

步骤210：根据裁剪出的辅助训练图像以及确定的辅助训练文本，生成辅助训练数据。

步骤212：将生成的辅助训练数据以及收集到的训练数据作为输入，训练文本识别模型。

在得到辅助训练图像、以及辅助训练文本后，则可以生成辅助训练数据，具体地，可以类似于实施例1中如图9的方式，确定出具有对应关系的辅助训练图像和辅助训练文本。

在生成了辅助训练数据，以及根据收集到的训练数据，则可以作为输入，对文本识别模型进行训。利用真实性较高的训练数据，以及模拟出的辅助训练数据，可以提高模型的训练效果，使训练后的模型具有较高文本识别性能。

由以上实施例提供的方法可见，在对模型进行训练时，可以先利用透明图层和单行文本，生成包含文本的背景透明图像。对该背景透明图像，可以进行像素点识别，从而确定出包含单行文本的区域，并以指定位置附着在模拟应用场景的背景图像中，从而生成包含该单行文本的应用图像。此后，可以根据该区域以及附着的位置，从应用图像中裁剪出包含该单行文本的辅助训练图像，并将该单行文本确定为辅助训练文本。据此，就可以根据辅助训练图像以及辅助训练文本，生成辅助训练数据，并将辅助训练数据以及收集到的训练数据作为输入，训练文本识别模型。

也即，在进行模型训练时，可以以单行文本作为辅助训练文本，通过将单行文本附着在模拟应用场景的背景图像中，从而裁剪出包含单行文本的辅助训练图像。据此，可以将模拟出的辅助训练数据和实际收集到的训练数据进行结合，对文本识别模型进行训练，进而提高训练后模型的性能。

实施例3

基于相同的构思，本发明实施例3还提供一种针对文本识别模型的训练数据生成装置，可以用于较为高效、准确地收集用于训练文本识别模型的训练数据。该装置的结构示意图如图11所示，包括：获取单元302、识别单元304、确定单元306、裁剪单元308、以及生成单元310，其中，

获取单元302，可以用于获取包含文本内容的样本图像中的文本控件信息，文本控件信息中包含文本区域、以及对应的文本内容；

识别单元304，可以用于对样本图像进行布局识别，得到包含图像元素的候选区域；

确定单元306，可以用于将包含在文本区域内的候选区域，确定为目标区域，并将文本区域对应的文本内容确定为训练文本；

裁剪单元308，可以用于根据目标区域从样本图像中裁剪出包含训练文本的训练图像；

生成单元310，可以用于根据训练图像以及训练文本生成训练数据。

在一种实施方式中，确定单元306，可以用于：

当确定出包含在文本区域内有属于同一行的至少两个候选区域时，判断每相邻两个候选区域之间的距离是否均满足预设的区域合并条件；

当满足区域合并条件时，则将至少两个候选区域进行相互连结，确定出目标区域。

在一种实施方式中，确定单元306，可以用于：

根据每个候选区域的高度，确定文本高度；

判断每相邻两个候选区域之间的距离是否均小于文本高度与合并系数之积；则确定单元，用于：

每相邻两个候选区域之间的距离均小于文本高度与合并系数之积。

在一种实施方式中，装置还包括判断单元，可以用于根据目标区域从样本图像中裁剪出包含训练文本的训练图像之前，

判断目标区域是否满足预设的置信条件；则

裁剪单元308，可以用于：

当满足置信条件时，则根据目标区域从样本图像中裁剪出包含训练文本的训练图像。

在一种实施方式中，判断单元，用于：

当确定出包含在文本区域内有一个候选区域时，根据候选区域的高度，确定文本高度；或当确定出包含在文本区域内有属于同一行的至少两个候选区域时，根据每个候选区域的高度，确定文本高度；

根据目标区域的宽度，确定出文本实际宽度；

根据文本区域对应的文本内容、以及文本高度，确定出目标区域的文本理论宽度；

根据文本实际宽度、文本理论宽度、以及文本高度，判断目标区域是否满足预设的置信条件。

实施例4

基于相同的构思，本发明实施例4还提供一种文本识别模型的训练装置，可以用于提高文本识别模型的训练效果。该装置的结构示意图如图12所示，包括：生成单元402、确定单元404、裁剪单元406、以及训练单元408，其中，

生成单元402，可以用于利用透明图层和单行文本，生成包含文本的背景透明图像；

确定单元404，可以用于对背景透明图像进行像素点识别，确定出包含单行文本的区域；

生成单元402，可以用于将背景透明图像以指定位置附着在模拟应用场景的背景图像中，生成包含单行文本的应用图像；

裁剪单元406，可以用于根据区域以及附着的位置，从应用图像中裁剪出包含单行文本的辅助训练图像；

确定单元404，可以用于，并将单行文本确定为辅助训练文本；

生成单元402，可以用于根据辅助训练图像以及辅助训练文本，生成辅助训练数据；

训练单元408，可以用于将辅助训练数据以及收集到的训练数据作为输入，训练文本识别模型。

由以上两个实施例提供的装置可见，在针对文本识别模型生成训练数据时，可以从包含文本的样本图像中获取文本控件信息，得到其中的文本区域、以及对应的文本内容，并对该样本图像进行布局识别，得到包含图像元素的候选区域。此后，可以查找出包含在文本区域内的候选区域，并将这种候选区域确定为目标区域，以及将该文本区域对应的文本内容作为训练文本。据此，就可以根据目标区域，从样本图像中裁剪出包含该训练文本的训练图像，以便根据训练图像和训练文本生成训练数据。

图13和图14是本发明的一个实施例电子设备的结构示意图。在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory， RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图13和图14中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成测试脚本的生成和测试脚本的执行装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

根据所述训练图像以及所述训练文本生成训练数据。

以及用于执行以下操作：

利用透明图层和单行文本，生成包含文本的背景透明图像；

上述如本发明图11和图12所示实施例提供的针对文本识别模型的训练数据生成和文本识别模型的训练装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图11和图12所示实施例提供的测试脚本的生成和测试脚本的执行装置分别在图13和图14所示实施例的功能，本发明实施例在此不再赘述。

本发明实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的电子设备执行时，能够使该电子设备执行图11和图12所示实施例中针对文本识别模型的训练数据生成和文本识别模型的训练装置执行的方法，并具体用于执行：

根据所述训练图像以及所述训练文本生成训练数据。

以及用于执行以下操作：

利用透明图层和单行文本，生成包含文本的背景透明图像；

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/ 或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本发明中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种针对文本识别模型的训练数据生成方法，其特征在于，包括：

根据所述训练图像以及所述训练文本生成训练数据。

2.如权利要求1所述的方法，其特征在于，将包含在所述文本区域内的候选区域，确定为目标区域，包括：

当确定出包含在所述文本区域内有属于同一行的至少两个候选区域时，判断每相邻两个候选区域之间的距离是否均满足预设的区域合并条件；

当满足所述区域合并条件时，则将所述至少两个候选区域进行相互连结，确定出目标区域。

3.如权利要求2所述的方法，其特征在于，判断每相邻两个候选区域之间的距离是否满足预设的区域合并条件，包括：

根据每个候选区域的高度，确定文本高度；

判断每相邻两个候选区域之间的距离是否均小于所述文本高度与合并系数之积；则

确定满足所述区域合并条件，包括：

每相邻两个候选区域之间的距离均小于所述文本高度与所述合并系数之积。

4.如权利要求1所述的方法，其特征在于，根据所述目标区域从所述样本图像中裁剪出包含所述训练文本的训练图像之前，所述方法还包括：

判断所述目标区域是否满足预设的置信条件；则

根据所述目标区域从所述样本图像中裁剪出包含所述训练文本的训练图像，包括：

当满足所述置信条件时，则根据所述目标区域从所述样本图像中裁剪出包含所述训练文本的训练图像。

5.如权利要求4所述的方法，其特征在于，判断所述目标区域是否满足预设的置信条件，包括：

当确定出包含在所述文本区域内有一个候选区域时，根据所述候选区域的高度，确定文本高度；或当确定出包含在所述文本区域内有属于同一行的至少两个候选区域时，根据每个候选区域的高度，确定文本高度；

根据所述目标区域的宽度，确定出文本实际宽度；

根据所述文本区域对应的文本内容、以及所述文本高度，确定出所述目标区域的文本理论宽度；

根据所述文本实际宽度、所述文本理论宽度、以及所述文本高度，判断所述目标区域是否满足预设的置信条件。

6.一种针对文本识别模型的训练数据生成装置，其特征在于，包括：获取单元、识别单元、确定单元、裁剪单元、以及生成单元，其中，

7.如权利要求6所述的装置，其特征在于，所述确定单元，用于：

8.如权利要求7所述的装置，其特征在于，所述确定单元，用于：

根据每个候选区域的高度，确定文本高度；

所述确定单元，用于：

9.如权利要求6所述的装置，其特征在于，所述装置还包括判断单元，用于根据所述目标区域从所述样本图像中裁剪出包含所述训练文本的训练图像之前，

判断所述目标区域是否满足预设的置信条件；则

所述裁剪单元，用于：

10.如权利要求9所述的装置，其特征在于，所述判断单元，用于：

根据所述目标区域的宽度，确定出文本实际宽度；

11.一种文本识别模型的训练方法，其特征在于，包括：

利用透明图层和单行文本，生成包含文本的背景透明图像；

12.一种文本识别模型的训练装置，其特征在于，包括：生成单元、确定单元、裁剪单元、以及训练单元，其中，