CN111753814B

CN111753814B - 样本生成方法、装置及设备

Info

Publication number: CN111753814B
Application number: CN201910234590.7A
Authority: CN
Inventors: 张鹏
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2023-07-25
Anticipated expiration: 2039-03-26
Also published as: CN111753814A

Abstract

本发明提供一种样本生成方法、装置及设备，样本生成方法包括：对指定的电子版内容进行解析获取电子版内容的结构化信息；获取包含所述电子版内容的目标图像；将所述结构化信息与所述目标图像中的电子版内容进行关联生成样本。生成样本时字符的位置信息无需人为一一标定，提升样本生成效率。

Description

样本生成方法、装置及设备

技术领域

本发明涉及图像技术领域，尤其涉及的是一种样本生成方法、装置及设备。

背景技术

随着科学技术的发展，深度学习算法在分类、检测、识别等任务中表现优异。但该性能的取得依赖于计算机算力的提升、大量的训练样本等多个方面因素，其中训练样本作为“燃料”是算法开发中不可或缺的一环。基于神经网络实现文字识别技术中，将图像输入到已训练的神经网络中以通过神经网络对图像中的字符进行识别并输出，实现此技术的前提是需要利用包含字符且已经标定好字符的位置信息的图像作为样本来训练该神经网络。

相关的样本生成方式中，采集到包含字符的图像后，需要人为地一一标定图像中字符的位置信息，标定好所需位置信息的图像作为样本。通常来说，需要标定的位置信息会很多，比如一幅图像中包含50行字符，每行字符包含35个字符，需要至少标定1750个字符位置信息，并且对一个神经网络进行训练需要较多的样本。因而，上述方式中，确定字符的位置信息效率过低，导致生成所需样本的效率很低，需耗费大量的人力、物力。

发明内容

有鉴于此，本发明提供一种样本生成方法、装置及设备，生成样本时字符的位置信息无需人为一一标定，提升样本生成效率。

本发明第一方面提供一种样本生成方法，包括：

对指定的电子版内容进行解析获取电子版内容的结构化信息；

获取包含所述电子版内容的目标图像；

将所述结构化信息与所述目标图像中的电子版内容进行关联生成样本。

根据本发明的一个实施例，获取包含所述电子版内容的目标图像，包括：

依据当前场景确定用于获取所述目标图像的图像获取方式；所述图像获取方式至少包括以下方式之一：将所述电子版内容的格式从电子版格式转换为图片格式；采集纸质文件的图像，所述纸质文件包含所述电子版内容；

依据所述图像获取方式获取包含所述电子版内容的目标图像，所述目标图像与所述当前场景对应。

根据本发明的一个实施例，所述对指定的电子版内容进行解析获取电子版内容的结构化信息，包括：

利用指定的解析工具从指定的电子版内容中解析出电子版内容中各字符的位置信息。

根据本发明的一个实施例，所述将结构化信息与所述目标图像中的电子版内容进行关联生成样本，包括：

确定第一坐标系与第二坐标系的映射关系，所述第一坐标系是所述电子版内容所处的坐标系，所述第二坐标系是所述目标图像所处的坐标系；

针对所述电子版内容中的每一目标字符，按照所述映射关系将目标字符从第一坐标系映射到第二坐标系中，并将目标字符在所述第二坐标系中的位置信息与所述目标图像中的目标字符关联得到所述样本。

根据本发明的一个实施例，所述目标图像与所述电子版内容中存在多个相同的标记对象；

所述确定第一坐标系与第二坐标系的映射关系，包括：

从所述目标图像和电子版内容中获取各个标记对象的位置信息；

依据目标图像和电子版内容中相同标记对象的位置信息构建所述映射关系。

本发明第二方面提供一种样本生成装置，包括：

信息获取模块，用于对指定的电子版内容进行解析获取电子版内容的结构化信息；

图像获取模块，用于获取包含所述电子版内容的目标图像；

样本生成模块，用于将所述结构化信息与所述目标图像中的电子版内容进行关联生成样本。

根据本发明的一个实施例，所述图像获取模块包括：

图像获取方式确定单元，用于依据当前场景确定用于获取所述目标图像的图像获取方式；所述图像获取方式至少包括以下方式之一：将所述电子版内容的格式从电子版格式转换为图片格式；采集纸质文件的图像，所述纸质文件包含所述电子版内容；

目标图像获取单元，用于依据所述图像获取方式获取包含所述电子版内容的目标图像，所述目标图像与所述当前场景对应。

根据本发明的一个实施例，所述信息获取模块包括：

位置信息获取单元，用于利用指定的解析工具从指定的电子版内容中解析出电子版内容中各字符的位置信息。

根据本发明的一个实施例，所述样本生成模块包括：

映射关系确定单元，用于确定第一坐标系与第二坐标系的映射关系，所述第一坐标系是所述电子版内容所处的坐标系，所述第二坐标系是所述目标图像所处的坐标系；

样本生成单元，用于针对所述电子版内容中的每一目标字符，按照所述映射关系将目标字符从第一坐标系映射到第二坐标系中，并将目标字符在所述第二坐标系中的位置信息与所述目标图像中的目标字符关联得到所述样本。

所述映射关系确定单元包括：

标记对象位置信息获取子单元，用于从所述目标图像和电子版内容中获取各个标记对象的位置信息；

映射关系构建子单元，用于依据目标图像和电子版内容中相同标记对象的位置信息构建所述映射关系。

本发明第三方面提供一种电子设备，包括处理器及存储器；所述存储器存储有可被处理器调用的程序；其中，所述处理器执行所述程序时，实现如前述实施例所述的样本生成方法。

本发明实施例具有以下有益效果：

本发明实施例中，通过解析电子版内容获取其结构化信息，获取包含电子版内容的目标图像后，将结构化信息与目标图像中的电子版内容进行关联即可生成样本，无需人为地在目标图像中一一标定字符的位置信息来生成所需样本，大大提升了样本生成效率，可以更快速地生成所需的样本。

附图说明

图1是本发明一实施例的样本生成方法的流程示意图；

图2是本发明一实施例的样本的示意图；

图3是本发明一实施例的样本生成装置的结构框图；

图4是本发明一实施例的映射关系的示意图；

图5是本发明一实施例的电子设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种器件，但这些信息不应限于这些术语。这些术语仅用来将同一类型的器件彼此区分开。例如，在不脱离本发明范围的情况下，第一器件也可以被称为第二器件，类似地，第二器件也可以被称为第一器件。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为了使得本发明的描述更清楚简洁，下面对本发明中的一些技术术语进行解释：

神经网络：一种通过模仿大脑结构抽象而成的技术，该技术将大量简单的函数进行复杂的连接，形成一个网络***，该***可以拟合极其复杂的函数关系，一般可以包括卷积/反卷积操作、激活操作、池化操作，以及加减乘除、通道合并、元素重新排列等操作。使用特定的输入数据和输出数据对网络进行训练，调整其中的连接，可以让神经网络学习拟合输入和输出之间的映射关系。

下面对本发明实施例的样本生成方法进行更具体的描述，但不应以此为限。在一个实施例中，参看图1，一种样本生成方法，可以包括以下步骤：

S100：对指定的电子版内容进行解析获取电子版内容的结构化信息；

S200：获取包含所述电子版内容的目标图像；

S300：将所述结构化信息与所述目标图像中的电子版内容进行关联生成样本。

本发明实施例的样本生成方法的执行主体可以是电子设备，更具体的可以是电子设备的处理器。电子设备可以是计算机设备或者嵌入式设备，具体类型不限，只要能够具备数据处理能力即可，比如该电子设备可以为能够采集图像的成像设备。

步骤S100中，对指定的电子版内容进行解析获取电子版内容的结构化信息。

电子版内容的格式可以为电子版格式，比如为word、pdf、txt等格式，通过在上述任一格式下的新建文档中进行内容编辑可以得到该电子版内容。

电子版内容可以具有至少一个字符，具体数量及字符内容不限，可以根据样本所需来编辑。比如，当神经网络用于实现卡证(比如身份证)图像中的文字识别时，字符可以与卡证相关；当神经网络用于实现简历图像中的文字识别时，字符可以与简历相关，当然，神经网络可以用于任意场景中的文字识别，字符与该场景相关。电子版内容的排布同样可以根据需要而定，比如，可按照卡证、简历等场景进行排布。

在电子设备执行本发明实施例中的样本生成方法时，该指定的电子版内容可以预先配置好并存储在电子设备中，在需要时调用即可。

电子版内容的结构化信息可以包括电子版内容中字符行的位置信息、和/或各字符的位置信息，当然，也可以包含电子版内容中的各个字符行、各个字符等。结构化信息可以通过解析电子版内容获取。

在获取结构化信息时，可以既获取字符行的位置信息，又获取各字符的位置信息，或者可以仅确定前述两者中的一个，具体可视需要而定。

步骤S200中，获取包含所述电子版内容的目标图像。

由于目标图像包含电子版内容，因而电子版内容中各个字符之间的位置关系可原样地在目标图像中呈现。当然，目标图像的尺寸是可根据需要调节的。目标图像的获取方式不限，包含电子版内容即可。

步骤S300中，将所述结构化信息与所述目标图像中的电子版内容进行关联生成样本。

由于目标图像包含电子版内容，电子版内容的结构化信息事实上可作为目标图像中电子版内容的结构化信息，因而将所述结构化信息与所述目标图像中的电子版内容进行关联即可生成所需的样本。样本中的电子版内容已经确定好了相应的结构化信息。

结构化信息可以包括电子版内容中字符行的位置信息、及各字符的位置信息。将结构化信息与所述目标图像中的电子版内容进行关联之后，样本中各字符行及字符的位置信息也相应确定了。样本中字符行的位置信息可以用包围该字符行的包围框的四个角点的位置信息来表示，样本中字符的位置信息可以用包围该字符的包围框的四个角点来表示，上述的包围框优选是最小包围框。

比如，参看图2，样本IM1中包含有一行字符“样本生成示例”。该字符行的位置信息可以用包围该字符行的包围框的四个角点T1、T2、T3、T4的位置信息来表示。该字符行中字符“样”的位置信息可以用包围该字符的包围框的四个角点T1、T2、T5、T6的位置信息来表示，其他字符的位置信息也是类似。样本各字符行或字符的位置信息都可以通过关联来确定。

生成的样本可以用于神经网络的训练。当然，本实施例仅是举了一个样本的生成例子，根据实际训练需要，还可以确定更多的不同样本来训练神经网络。

在一个实施例中，上述方法流程可由样本生成装置100执行，如图3所示，样本生成装置100主要包含3个模块：信息获取模块100、图像获取模块200和样本生成模块300。信息获取模块100用于执行上述步骤S100，图像获取模块200用于执行上述步骤S200，样本生成模块300用于执行上述步骤S300。

在一个实施例中，步骤S200中，获取包含所述电子版内容的目标图像，包括以下步骤：

S201：依据当前场景确定用于获取所述目标图像的图像获取方式；所述图像获取方式至少包括以下方式之一：将所述电子版内容的格式从电子版格式转换为图片格式；采集纸质文件的图像，所述纸质文件包含所述电子版内容；

S202：依据所述图像获取方式获取包含所述电子版内容的目标图像，所述目标图像与所述当前场景对应。

根据场景的不同，可以选择不同的图像获取方式获取包含所述电子版内容的目标图像。如果所需训练的神经网络识别时的真实场景是拍摄场景，那么可以选择采用采集纸质文件的图像这种图像获取方式。如果所需训练的神经网络识别时的真实场景是电子场景，那么可以选择将所述电子版内容的格式从电子版格式转换为图片格式这种图像获取方式。具体图像获取方式可视当前场景而定。

比如，在简历场景中，可选择采集纸质文件的图像这种图像获取方式，模拟真实场景中的数据，进而生成真实拍摄场景的样本改善算法性能。在电子版文档阅读场景中，可选择将所述电子版内容的格式从电子版格式转换为图片格式这种图像获取方式。

将所述电子版内容的格式从电子版格式转换为图片格式这种图像获取方式中，仅仅是格式上的转换，所述目标图像中电子版内容的排布与电子版格式下的电子版内容排布相同，可以更快速地确定出电子版内容各字符在所述目标图像中的位置信息。

采集纸质文件的图像这种图像获取方式中，可以先将电子版内容通过实体打印机进行打印得到包含所述电子版内容纸质文件，再针对该纸质文件进行图像采集得到目标图像。将电子版内容打印成纸质文件后，该纸质文件是真实场景中的物体，基于真实场景采集的图像作为目标图像，可使生成的样本更逼近真实场景，有利于提升训练后的神经网络对包含真实场景的图像中文字识别的准确性。

在一个实施例中，步骤S100中，所述对指定的电子版内容进行解析获取电子版内容的结构化信息，包括：

解析工具可以根据电子版内容的格式来确定。以电子版内容的格式为pdf格式为例，指定的解析工具为pdf解析工具，可通过pdf解析工具从电子版内容中解析出各字符的位置信息。电子设备在执行本发明实施例中的方法时，可调用该pdf解析工具来解析电子版内容中各字符的位置信息。pdf解析工具比如为pdfminer等。

当然，还可利用指定的解析工具从该电子版内容中解析出电子版内容中各字符行的位置信息。电子版内容中各字符行的位置信息与各字符的位置信息也可以同时解析获取。

在一个实施例中，步骤S300中，所述将结构化信息与所述目标图像中的电子版内容进行关联生成样本，包括以下步骤：

S301：确定第一坐标系与第二坐标系的映射关系，所述第一坐标系是所述电子版内容所处的坐标系，所述第二坐标系是所述目标图像所处的坐标系；

S302：针对所述电子版内容中的每一目标字符，按照所述映射关系将目标字符从第一坐标系映射到第二坐标系中，并将目标字符在所述第二坐标系中的位置信息与所述目标图像中的目标字符关联得到所述样本。

由于第一坐标系是电子版内容所处的坐标系，第二坐标系是目标图像所处的坐标系，因而通过第一坐标系与第二坐标系的映射关系可以确定电子版内容中字符的位置信息与第一图像中同一字符的位置信息的映射关系。

该映射关系可以通过对电子版内容和目标图像中进行特征点匹配来确定。特征点可以是字符的包围框上的角点，也可以是其他特征点，具体不限。

电子版内容中的目标字符可以是其中的全部字符，也可以是其中的某几个字符。针对每一个目标字符，均按照映射关系进行映射，映射在第二坐标系中的目标字符的位置信息与目标图像中的同一目标字符进行关联，比如将映射在第二坐标系中的目标字符的位置信息确定为该目标字符在目标图像中的位置信息。

当然，如果目标图像是通过将所述电子版内容的格式从电子版格式转换为图片格式这种图像获取方式获取的，可以将电子版内容中的每一目标字符的位置信息直接确定为目标字符在所述目标图像中的位置信息，生成样本。

在一个实施例中，所述目标图像与所述电子版内容中存在多个相同的标记对象；

步骤S301中，所述确定第一坐标系与第二坐标系的映射关系，包括：

S3011：从所述目标图像和电子版内容中获取各个标记对象的位置信息；

S3012：依据目标图像和电子版内容中相同标记对象的位置信息构建所述映射关系。

下面详细说明一下确定映射关系的方式，但不应以此为限。

参看图4，DO1为电子版内容，IM2为目标图像，两者中存在四个标记对象，标记对象的形状类似于回字形，当然此处仅是举例，标记对象数量及形状不限。四个标记对象在DO1中的位置信息分别为P1、P2、P3、P4，四个标记对象在IM2中的位置信息分别为Q1、Q2、Q3、Q4，一个标记对象的P1可以用该标记对象的四个顶角在DO1中的坐标(x0,y0)、(x1,y1)、(x2,y2)、(x3,y3)来表示，P2、P3、P4及Q1、Q2、Q3、Q4也是类似的。

P1、P2、P3、P4的可以通过解析工具从电子版内容中解析得到，或者可以预先设置，在此不再赘述。Q1、Q2、Q3、Q4可以通过识别算法识别出，比如可以检测出IM2中的回字形标记对象，将检测出的回字形标记对象的四个顶点的位置信息分别确定为Q1、Q2、Q3、Q4。

将P1、P2、P3、P4作为一个点集P，将Q1、Q2、Q3、Q4作为P对应的点集，通过矩阵运算方式求取点集P到点集Q的映射矩阵M，公式如下：

Q＝M*P。

计算所得的M即可作为所述映射关系，可按照M将“样本生成示例”或者其中的单个字符从DO1所处坐标系映射至IM2所处坐标系中，以字符行“样本生成示例”映射为例，将已映射在IM2中所处坐标系的“样本生成示例”的位置信息关联为“样本生成示例”在IM2中的位置信息，关联后的IM2为样本。

本发明还提供一种样本生成装置，参看图3，该样本生成装置100包括：

信息获取模块101，用于对指定的电子版内容进行解析获取电子版内容的结构化信息；

图像获取模块102，用于获取包含所述电子版内容的目标图像；

样本生成模块103，用于将所述结构化信息与所述目标图像中的电子版内容进行关联生成样本。

根据本发明的一个实施例，所述图像获取模块包括：

根据本发明的一个实施例，所述信息获取模块包括：

根据本发明的一个实施例，所述样本生成模块包括：

所述映射关系确定单元包括：

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元。

本发明还提供一种电子设备，包括处理器及存储器；所述存储器存储有可被处理器调用的程序；其中，所述处理器执行所述程序时，实现如前述实施例中所述的样本生成方法。

本发明样本生成装置的实施例可以应用在电子设备上。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，图5是本发明根据一示例性实施例示出的样本生成装置100所在电子设备的一种硬件结构图，除了图5所示的处理器510、内存530、接口520、以及非易失性存储器540之外，实施例中装置100所在的电子设备通常根据该电子设备的实际功能，还可以包括其他硬件，对此不再赘述。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种样本生成方法，其特征在于，包括：

对指定的电子版内容进行解析获取电子版内容的结构化信息，包括：利用指定的解析工具从指定的电子版内容中解析出电子版内容中各字符的位置信息；

获取包含所述电子版内容的目标图像；

将所述结构化信息与所述目标图像中的电子版内容进行关联生成样本，包括：确定第一坐标系与第二坐标系的映射关系，所述第一坐标系是所述电子版内容所处的坐标系，所述第二坐标系是所述目标图像所处的坐标系；针对所述电子版内容中的每一目标字符，按照所述映射关系将目标字符从第一坐标系映射到第二坐标系中，并将目标字符在所述第二坐标系中的位置信息与所述目标图像中的目标字符关联得到所述样本。

2.如权利要求1所述的样本生成方法，其特征在于，获取包含所述电子版内容的目标图像，包括：

3.如权利要求1所述的样本生成方法，其特征在于，所述目标图像与所述电子版内容中存在多个相同的标记对象；

所述确定第一坐标系与第二坐标系的映射关系，包括：

4.一种样本生成装置，其特征在于，包括：

信息获取模块，用于对指定的电子版内容进行解析获取电子版内容的结构化信息，包括：利用指定的解析工具从指定的电子版内容中解析出电子版内容中各字符的位置信息；

图像获取模块，用于获取包含所述电子版内容的目标图像；

样本生成模块，用于将所述结构化信息与所述目标图像中的电子版内容进行关联生成样本，包括：确定第一坐标系与第二坐标系的映射关系，所述第一坐标系是所述电子版内容所处的坐标系，所述第二坐标系是所述目标图像所处的坐标系；针对所述电子版内容中的每一目标字符，按照所述映射关系将目标字符从第一坐标系映射到第二坐标系中，并将目标字符在所述第二坐标系中的位置信息与所述目标图像中的目标字符关联得到所述样本。

5.如权利要求4所述的样本生成装置，其特征在于，所述目标图像与所述电子版内容中存在多个相同的标记对象；

所述映射关系确定单元包括：

6.一种电子设备，其特征在于，包括处理器及存储器；所述存储器存储有可被处理器调用的程序；其中，所述处理器执行所述程序时，实现如权利要求1-3中任意一项所述的样本生成方法。