CN109919037A

CN109919037A - 一种文本定位方法及装置、文本识别方法及装置

Info

Publication number: CN109919037A
Application number: CN201910105748.0A
Authority: CN
Inventors: 刘正珍; 黄威
Original assignee: Hanwang Technology Co Ltd
Current assignee: Hanwang Technology Co Ltd
Priority date: 2019-02-01
Filing date: 2019-02-01
Publication date: 2019-06-21
Anticipated expiration: 2039-02-01
Also published as: CN109919037B

Abstract

本申请提供了一种文本识别方法，属于文本识别技术领域，解决了现有技术文本识别过程中准确率低下的问题。所述方法包括：获取待识别文本行图像；将所述待识别文本行图像输入至预先训练的文本行识别模型，确定所述待识别文本行图像对应的文本行识别结果，所述文本行识别结果用于指示所述待识别文本行图像相应位置处的文本行属性；根据文本行识别结果确定所述待识别文本行图像中与所述文本行属性对应的图像区域。本申请公开的文本定位方法通过训练的文本行识别模型确定复杂排布的待识别文本行图像中不同文本行属性的文本的分布区域，有助于针对不同的文本区域采用与该文本区域的文本行属性对应的文本图像识别引擎进行识别，以提升文本识别的准确性。

Description

一种文本定位方法及装置、文本识别方法及装置

技术领域

本申请涉及文本识别技术领域，尤其涉及一种文本定位方法及装置，文本识别方法及装置。

背景技术

文档图像识别过程通常是将行文本的图像，或者列文本图像输入至预先训练的文本图像识别引擎以得到相应的文本编码。列文本通过旋转90度得到行文本，因此，通常把行文本和列文本统称为行文本。

现有技术中的文本图像识别引擎是基于单行文本的图像或单列文本的图像进行训练的，因此，对于输入的文本图像中混合分布的单行文本和多行文本的情况，文本图像识别引擎均将其作为单行文本进行识别。

例如，古籍文档中，最常见的就是由单列正文文本和两列注释文本的文本行图像，而现有的文本图像识别引擎会将两列注释文本的文本行当做单行正文文本识别，显然，这单列文本行和多列文本行是不一样的，因此，这样就容易导致双列注释文本的文本行误判为单列正文文本，从而导致文本图像识别引擎对该列文本的图像的识别准确率较低。

综上，现有技术中在进行复杂排布的文本图像进行识别时，至少存在识别准确率低的问题。

发明内容

本申请实施例提供一种文本定位方法，有助于解决现有技术中文本识别方法存在的准确率低的问题。

第一方面，本申请实施例提供了一种文本定位方法，包括：

获取待识别文本行图像；

将所述待识别文本行图像输入至预先训练的文本行识别模型，确定所述待识别文本行图像对应的文本行识别结果，其中，所述文本行识别结果用于指示所述待识别文本行图像相应位置处的文本行属性；

根据文本行识别结果确定所述待识别文本行图像中与所述文本行属性对应的图像区域。

可选的，所述将所述待识别文本行图像输入至预先训练的文本行识别模型，确定所述待识别文本行图像对应的文本行识别结果的步骤之前，包括：

获取文本行识别模型的训练样本，其中，所述训练样本的样本数据为预设高度和预设宽度的文本行图像，所述训练样本的样本标签用于指示所述文本行图像中相应位置处的文本行属性；

以所述训练样本的样本数据作为所述文本行识别模型的输入，以所述文本行识别模型的输出与所述训练样本的样本标签的误差最小为目标，训练所述文本行识别模型，其中，所述文本行识别模型是基于卷积神经网络构建的。

可选的，获取文本行识别模型的训练样本的步骤，包括：

获取若干预设高度和预设宽度的文本行图像作为样本数据，构建样本数据集合；

对于所述样本数据集合中的每一条样本数据对应的文本行图像，通过按照预设步长移动指定滑窗对所述文本行图像沿图像宽度方向进行扫描，以根据扫描结果标记所述指定滑窗移动过程中顺序经过的各位置处所述文本行图像的文本行属性；

根据标记的所述指定滑窗移动过程中顺序经过的各位置处所述文本行图像的文本行属性，确定相应样本数据的样本标签；其中，所述指定滑窗的高度为所述文本行图像的所述预设高度的第一预设比例，所述指定滑窗的宽度为所述文本行图像的所述预设宽度的第二预设比例。

可选的，所述获取待识别文本行图像的步骤，包括：

通过对待识别文本行图像沿宽度和/或高度方向进行拉伸或压缩处理，将所述待识别文本行图像调整为所述预设高度和所述预设宽度的待识别文本行图像。

可选的，所述文本行识别结果包括顺序标识所述待识别文本行图像相应位置处的文本行属性的分类结果，所述根据文本行识别结果确定所述待识别文本行图像中与所述文本行属性对应的图像区域的步骤，包括：

根据所述指定滑窗的宽度确定所述待识别文本行图像中顺序分布的文本图像位置，所述顺序分布的文本图像位置依序与所述文本行属性的分类结果对应；

根据所述文本行属性的分类结果，对相邻且分类结果相同的文本图像位置进行聚合，确定与不同文本行属性对应的所述待识别文本行图像中的图像区域。

第二方面，本申请实施例还提供了一种文本识别方法，包括：通过前述第一方面公开的所述的文本定位方法确定待识别文本行图像中与不同文本行属性对应的图像区域；

通过与各所述文本行属性匹配的文本图像识别模型，分别对与相应文本行属性对应的图像区域内的待识别文本行图像进行识别，确定相应图像区域内的待识别文本行图像的识别结果；

根据所述图像区域的位置，对各图像区域内的待识别文本行图像的识别结果进行融合，确定所述待识别文本行图像对应的文本。

第三方面，本申请实施例还提供了一种文本定位装置，包括：

待识别文本行图像获取模块，用于获取待识别文本行图像；

文本行识别结果确定模块，用于将所述待识别文本行图像输入至预先训练的文本行识别模型，确定所述待识别文本行图像对应的文本行识别结果，其中，所述文本行识别结果用于指示所述待识别文本行图像相应位置处的文本行属性；

图像区域确定模块，用于根据文本行识别结果确定所述待识别文本行图像中与所述文本行属性对应的图像区域。

可选的，在将所述待识别文本行图像输入至预先训练的文本行识别模型，确定所述待识别文本行图像对应的文本行识别结果的步骤之前，还包括：

样本采集模块，用于获取文本行识别模型的训练样本，其中，所述训练样本的样本数据为预设高度和预设宽度的文本行图像，所述训练样本的样本标签用于指示所述文本行图像中相应位置处的文本行属性；

文本行识别模型训练模块，用于以所述训练样本的样本数据作为所述文本行识别模型的输入，以所述文本行识别模型的输出与所述训练样本的样本标签的误差最小为目标，训练所述文本行识别模型，其中，所述文本行识别模型是基于卷积神经网络构建的。

可选的，所述样本采集模块进一步用于：

可选的，在获取待识别文本行图像时，所述待识别文本行图像获取模块进一步用于：

通过对待识别文本行图像沿宽度和/或高度方向进行拉伸或压缩处理，将所述待识别文本行图像调整为所述预设高度和预设宽度的待识别文本行图像。

可选的，所述文本行识别结果包括顺序标识所述待识别文本行图像相应位置处的文本行属性的分类结果，所述图像区域确定模块，进一步用于：

第四方面，本申请实施例还提供了一种文本识别装置，包括：

待识别文本行图像区域确定模块，用于通过前述第一方面所述的文本定位方法确定待识别文本行图像中与不同文本行属性对应的图像区域；

分区域识别模块，用于通过与各所述文本行属性匹配的文本图像识别模型，分别对与相应文本行属性对应的图像区域内的待识别文本行图像进行识别，确定相应图像区域内的待识别文本行图像的识别结果；

识别结果融合模块，用于根据所述图像区域的位置，对各图像区域内的待识别文本行图像的识别结果进行融合，确定所述待识别文本行图像对应的文本。

第五方面，本申请实施例还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例中所述的文本定位方法和/或文本识别方法。

第六方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本申请实施例所述的文本定位方法和/或文本识别方法的步骤。

这样，本申请实施例公开的文本定位方法，通过获取待识别文本行图像，然后，将所述待识别文本行图像输入至预先训练的文本行识别模型，确定所述待识别文本行图像对应的文本行识别结果，所述文本行识别结果用于指示所述待识别文本行图像相应位置处的文本行属性；最后，根据文本行识别结果确定所述待识别文本行图像中与所述文本行属性对应的图像区域，有助于解决现有技术中文本识别准确率低下的问题。本申请实施例公开的文本定位方法通过训练的文本行识别模型确定复杂排布的待识别文本行图像中不同文本行属性的文本(如单行文本或多行文本)的分布区域，有助于针对不同的文本区域采用与该文本区域的文本行属性对应的文本图像识别引擎对相应文本区域的图像进行识别，以提升文本识别的准确性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例一的文本定位方法流程图；

图2是本申请实施例二的文本定位方法流程图；

图3是本申请实施例二中采集训练样本的原始图像；

图4是本申请实施例二中基于图3中图像采集的文本行图像示意图；

图5是对采集的文本行图像进行拉伸处理后得到的样本数据示意图；

图6是基于图5的样本数据进行样本标注的示意图；

图7是本申请实施例二中对图6的样本数据进行滑窗扫描的示意图；

图8是本申请实施例二中采用的文本行识别模型网络结构示意图；

图9是本申请实施例二中的待识别文本图像的识别结果与输入图像对应关系示意图；

图10是本申请实施例二中待识别文本图像的最终定位结果示意图；

图11是本申请实施例三的文本识别方法流程图；

图12是本申请实施例四的文本定位装置结构示意图之一；

图13是本申请实施例四的文本定位装置结构示意图之二；

图14是本申请实施例五的文本识别装置结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例中的所述不同文本行属性可以为单行文本或和双行文本，也可以为不同文字字体，或者不同文字种类等。为了便于读者理解本方案，本申请实施例中的以不同文本行属性为单行文本或和双行文本举例说明文本定位方法的具体实施方式。

实施例一：

本实施例提供了一种文本定位方法，如图1所示，所述方法包括：步骤10至步骤12。

步骤10，获取待识别文本行图像。

本申请实施例中所述的待识别文本行图像为预设尺寸的图像。所述待识别文本行图像中可以仅包括单行文本的文本行图像，也可以为仅包括多行文本的文本行图像，还可以为既包括单行文本又包括多行文本的混合排布的文本行图像。

具体实施时，为了减少运算量，提升文本定位的效率，优选地，获取的待识别文本行图像为灰度图像。

步骤11，将所述待识别文本行图像输入至预先训练的文本行识别模型，确定所述待识别文本行图像对应的文本行识别结果。

其中，所述文本行识别结果用于指示所述待识别文本行图像相应位置处的文本行属性。

本申请具体实施时，在对所述待识别文本行图像进行识别之前，首先需要训练文本行识别模型。所述文本行识别模型基于卷积神经网络训练，通过对输入文本行图像进行多次卷积运算并进行特征抽取和映射，最终输出所述待识别文本行图像沿图像宽度方向(如从左向右或从右向左)依次划分的每个图像区域的文本行属性分类结果。其中，每个图像区域的大小与训练所述文本行识别模型时，对采集的文本行图像样本设置样本标签时采用的滑窗的尺寸相同；以所述文本行属性包括：单行文本和多行文本举例，所述文本行识别结果用于指示输入至所述文本行识别模型的待识别文本行图像沿图像宽度方向依次以所述滑窗尺寸进行划分得到每个图像区域是单行文本或多行文本。

步骤12，根据文本行识别结果确定所述待识别文本行图像中与所述文本行属性对应的图像区域。

在确定了待识别文本行图像的识别结果之后，接下来进一步对识别结果进行聚合。由于待识别文本行图像中包括的文本行可能为单行文本行或多行文本混合排布的，并且，单行文本或多行文本的位置和长度不固定，因此，需要对前述步骤得到的文本行识别结果中相邻的单行文本区域和相邻的多行文本区域进行聚合，以确定该待识别文本行图像中单行文本和多文本行图像的图像区域。

具体实施时，上述文本行识别结果可以表示为字符数组，数组的每个元素分别指示所述待识别文本行图像中依次排列的图像区域的文本行属性。其中，该待识别文本行图像中依次排列的图像区域为通过以与前述步骤中提到的滑窗的宽度相等的宽度对该待识别文本行图像沿图像宽度方向进行顺序划分得到的多个图像区域。

本申请实施例公开的文本定位方法，通过获取待识别文本行图像，然后，将所述待识别文本行图像输入至预先训练的文本行识别模型，确定所述待识别文本行图像对应的文本行识别结果，所述文本行识别结果用于指示所述待识别文本行图像相应位置处的文本行属性；最后，根据文本行识别结果确定所述待识别文本行图像中与所述文本行属性对应的图像区域，有助于解决现有技术中因将多行文本当做单行文本识别而导致的文本识别准确率低下的问题。本申请实施例公开的文本定位方法通过训练的文本行识别模型确定复杂排布的待识别文本行图像中不同文本行属性的文本(如单行文本或多行文本)的分布区域，有助于针对不同的文本区域采用与该文本区域的文本行属性对应的文本图像识别引擎对相应文本区域的图像进行识别，以提升文本识别的准确性。

实施例二：

本实施例提供了一种文本定位方法，如图2所示，所述方法包括：步骤20至步骤23。

步骤20，训练文本行识别模型。

在本申请的一些实施例中，将待识别文本行图像输入至预先训练的文本行识别模型，确定该待识别文本行图像对应的文本行识别结果的步骤之前，还包括：训练文本行识别模型。具体实施时，训练文本行识别模型进一步包括：获取文本行识别模型的训练样本，其中，训练样本的样本数据为预设高度和预设宽度的文本行图像，该训练样本的样本标签用于指示上述文本行图像中相应位置处的文本行属性；以该训练样本的样本数据作为文本行识别模型的输入，以文本行识别模型的输出与该训练样本的样本标签的误差最小为目标，训练该文本行识别模型，其中，该文本行识别模型是基于卷积神经网络构建的。

具体实施时，首先需要搜集训练样本。

在本申请的一些实施例中，获取文本行识别模型的训练样本的步骤，包括：获取若干预设高度和预设宽度的文本行图像作为样本数据，构建样本数据集合；对于样本数据集合中的每一条样本数据对应的文本行图像，通过按照预设步长移动指定滑窗对该文本行图像沿图像宽度方向进行扫描，以根据扫描结果标记该指定滑窗移动过程中顺序经过的各位置处该文本行图像的文本行属性；根据标记的该指定滑窗移动过程中顺序经过的各位置处该文本行图像的文本行属性，确定相应样本数据的样本标签；其中，该指定滑窗的高度为该文本行图像的前述预设高度的第一预设比例，该指定滑窗的宽度为该文本行图像的前述预设宽度的第二预设比例。进一步的，第一预设比例和第二预设比例根据待识别的文本行图像的长度和文本分布高度确定；预设步长通常等于滑窗的宽度。本实施例中，为了便于描述，以沿图像宽度方向从左到右对文本行图像进行扫描或卷积运算为例，说明文本定位方法的具体技术方案。

本申请的一些实施例中，可以选择古籍、文献的图像作为原始图像，然后对原始进行灰度化处理，并分割出每一行或每一列内容对应的图像作为文本行图像。当以如图3所示的地方志图像作为原始图像，在采集训练样本时，通过对原始图像进行预处理，可以得到每一列文本的图像，如矩形区域310中的一列文本的图像。然后，将每列文本的图像旋转90度，得到一幅文本行图像，如图4所示。

具体实施时，用于训练文本行识别模型的文本图像可以具有统一的尺寸，因此，对于通过不同原始图像中采集的文本行图像需要进行拉伸或压缩处理，以归一化到统一尺寸。如对文本行图像进行拉伸处理时，将需要拉伸的文本行图像的高度调整到预设高度(如64)、宽度调整到预设宽度(如1280)。经过拉伸处理，将得到如图5所示的文本行图像。

通过上述方法可以获取若干文本行图像，每幅文本行图像作为一条训练样本的样本数据，构建样本数据集合。本申请具体实施时，前述预设高度根据待识别文本图像的行高、古籍文件的列宽、行高等数据确定；前述预设宽度根据古籍文件的列长、行长等数据确定。

进一步的，对样本数据集合中的每一条样本数据设置样本标签。

首先，对样本数据集合中的每一条样本数据(即每一幅文本行图像)人工标注不同文本行属性的图像区域的坐标和对应的文本行属性。例如，标注每幅文本行图像中各双行文本区域的左上角坐标和右下角坐标，以及双行文本区域的数量。以图5所示的文本行图像举例，标注结果示意图如图6所示。其中，bound[]表示双行文本区域的左上角坐标和右下角坐标；dNum表示该文本行图像中双行文本的数量。

具体实施时，对样本数据集合中的每一条样本数据(即每一幅文本行图像)通过滑窗扫描文本行图像相应位置处的文本像素分布确定该样本数据的样本标签。例如，以样本数据集合中文本行图像的高度作为指定滑窗的高度，或者，以样本数据集合中文本行图像的高度的第一预设比例(如4/5至6/5)作为指定滑窗的高度；以样本数据集合中文本行图像的宽度的第二预设比例(如1/40)作为指定滑窗的宽度，确定指定滑窗。

然后，对样本数据集合中的每一条样本数据，即每一幅文本行图像，从该文本行图像的最左侧位置起，以预设步长移动该指定滑窗，该指定滑窗的每一个位置对应该文本行图像的一个位置，文本行图像的该位置对应一个图像区域，每个图像区域的宽度与该指定滑窗的宽度相等。通过指定滑窗进行扫描确定的文本行图像的若干图像区域如图7所示。本实施例中，前述预设步长为1个指定滑窗的宽度，具体实施时，可以根据文本行定位的准确性和运算效率综合确定指定滑窗移动的步长。

进一步的，对于确定的每个图像区域，进一步根据该图像区域的横坐标与对该文本行图像标注的双行文本区域的左上角横坐标和右下角横坐标确定该图像区域是否为双行文本区域。如果该图像区域为双行文本区域，则可以将该图像区域对应的样本标签中的数据为设置为指示双行文本的文本行属性标签，如0，即该图像区域的扫描结果为0；如果该图像区域非双行文本区域，则可以将该图像区域对应的样本标签中的数据为设置为指示单行文本的文本行属性标签，如1，即该图像区域的扫描结果为1。

具体实施过程中，在判断某一图像区域是双行文本区域或单行文本区域时，可以根据该图像区域中双行文本区域的面积占比判断。例如，当某一图像区域中双行文本区域的面积大于该图像区域面积的1/2时，则确定该图像区域为双行文本区域，否则，确定该图像区域为单行文本区域。

之后，将通过上述指定滑窗从左到右移动过程中依次确定的该文本行图像的每个图像区域的文本行属性标签组成的40维的数组，作为该文本行图像的样本标签，即相应样本数据的样本标签。图7所示的文本行图像的样本标签可以标识为:

Label＝[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0]。

具体实施时，前述第二预设比例根据文本行定位的准确性和运算效率综合确定。

本申请具体实施时，还需要构建文本行识别模型。

本申请实施例中，基于卷积神经网络构建文本行识别模型。具体实施时，可以构建如图8所示的网络结构的文本行识别模型。该文本行识别模型从输入侧到输出侧依次为：由卷积核大小为7×7的16个卷积核构成的2维卷积层、卷积核大小为2×2的最大池化层、由卷积核大小为5×5的32个卷积核构成的2维卷积层、卷积核大小为2×2的最大池化层、由卷积核大小为3×3的64个卷积核构成的2维卷积层、卷积核大小为2×2的最大池化层、由卷积核大小为3×3的64个卷积核构成的2维卷积层、卷积核大小为2×2的最大池化层、由卷积核大小为2×2的128个卷积核构成的2维卷积层、卷积核大小为2×2的最大池化层、批规范化层、由卷积核大小为1×1的1个卷积核构成的2维卷积层、一个向量转置处理层、向量压平层。其中，最后一个卷积层的输出表示输入的文本行图像中每个图像区域的分类结果。

具体实施时，可以通过opencv(基于BSD许可(开源)发行的跨平台计算机视觉库)或其他现有工具包读取每个样本数据(即文本行图像)，得到64×1280×1的灰度图像，然后将读取的灰度图像输入至前述文本行识别模型。该灰度图像经过第一次卷积后的大小为64×1280×16，接着经过一次最大池化操作，经过第一次最大池化后的大小为32×640×16。经过上述各层的依次卷积和池化处理，将得到大小为2×M×1的向量，例如[[0.2,0.6,0.3,…,0.9],[0.8,,0.4,0.7,…,0.1]]。之后，将2×M×1的向量的第一维和第二维进行转置处理，使该向量与输入的文本行图像在宽度方向对应，将得到大小为M×2×1的向量。最后，通过，TimeDistrition(Flatten)表示对转置处理后的向量的最后两维的数据进行压平处理，得到模型的输出，如[[0.2,0.8],[0.6,0.4],[0.3,0.7],[0.9,0.1],…]，其中，M等于40，为每个样本数据被指定滑窗扫描时确定的图像区域的数量。

之后，基于上述样本集合中的训练样本训练文本行识别模型。训练得到的训练文本行识别模型能够对某一长度的文本行图像进行处理，并输出与输入图像的每个图像区域对应的文本行属性特征。

模型的训练过程实际是不断求解、优化模型中各层的卷积参数的过程，通过反向传播方法，以文本行识别模型的输出与相应输入的文本行图像的样本标签的误差最小为目标，求解最优参数，最终完成该文本行识别模型的训练。模型的具体训练过程参见现有技术，本实施例中不再赘述。

本申请具体实施时，可以首先对样本数据集合中的样本数据做均衡处理，防止模型训练偏。同时，对样本数据集合中的样本进行随机打乱处理以得到好的泛化效果，以比例为总样本的0.8作为训练集，剩下作为测试集，以验证训练得到的文本行识别模型的泛化能力。

步骤21，获取待识别文本行图像。

本申请实施例中所述的待识别文本行图像为预设尺寸的图像。所述待识别文本行图像中可以仅包括单行文本的文本行图像，也可以为仅包括多行文本的文本行图像，还可以为如图3所示的既包括单行文本又包括多行文本的混合排布的文本行图像。

在本申请的一些实施例中，所述获取待识别文本行图像的步骤，包括：通过对待识别文本行图像沿宽度和/或高度方向进行拉伸或压缩处理，将该待识别文本行图像调整为所述预设高度和预设宽度的待识别文本行图像。因为，在模型训练的过程中，训练样本是预设高度和预设宽度的文本行图像，因此，在进行识别的过程中，如果待识别文本行图像的宽度不等于前述预设宽度，则需要将该待识别文本行图像沿宽度方向进行拉伸或者压缩处理，将该待识别文本行图像的宽度调整到前述预设宽度。进一步的，如果待识别文本行图像的高度不等于前述预设高度，还需要将该待识别文本行图像沿高度方向进行拉伸或者压缩处理，将该待识别文本行图像的高度调整到前述预设高度，如将待识别文本行图像的尺寸调整为64×1280。

步骤22，将所述待识别文本行图像输入至预先训练的文本行识别模型，确定所述待识别文本行图像对应的文本行识别结果。

本申请具体实施时，在对所述待识别文本行图像进行识别之前，首先需要训练文本行识别模型。所述文本行识别模型基于卷积神经网络训练，通过对输入文本行图像进行多次卷积运算并进行特征抽取和映射，最终输出所述待识别文本行图像从左向右依次划分的每个图像区域的文本行属性分类结果。其中，每个图像区域的大小与训练所述文本行识别模型时，对采集的文本行图像样本设置样本标签时采用的滑窗的尺寸相同；以所述文本行属性包括：单行文本和多行文本举例，所述文本行识别结果用于指示输入至所述文本行识别模型的待识别文本行图像沿宽度方向(如从左向右)依次以所述滑窗尺寸进行划分得到每个图像区域是单行文本或多行文本。

步骤23，根据文本行识别结果确定所述待识别文本行图像中与所述文本行属性对应的图像区域。

在确定了待识别文本行图像的识别结果之后，接下来进一步对识别结果进行聚合。在本申请的一些实施例中，文本行识别结果包括顺序标识所述待识别文本行图像相应位置处的文本行属性的分类结果，所述根据文本行识别结果确定所述待识别文本行图像中与所述文本行属性对应的图像区域的步骤，包括：根据所述指定滑窗的宽度确定所述待识别文本行图像中顺序分布的文本图像位置，所述顺序分布的文本图像位置依序与所述文本行属性的分类结果对应；根据所述文本行属性的分类结果，对相邻且分类结果相同的文本图像位置进行聚合，确定与不同文本行属性对应的所述待识别文本行图像中的图像区域。

以训练文本行识别模型时样本标签为40个元素的数组，即每个样本数据被指定滑窗扫描时确定的图像区域为40个举例，该文本行识别模型的文本行识别结果将为40×2的二维数组，例如表示为A[40,2]，其中，数组中的每个元素A的值用于指示待识别文本行图像中相应位置的图像区域识别为单行文本或双行文本的概率。例如，数组元素A[0,0]可以用于表示待识别文本行图像中第一个指定滑窗位置的图像区域识别为单行文本的概率；数组元素A[0,1]可以用于表示待识别文本行图像中第一个指定滑窗位置的图像区域识别为双行文本的概率。当待识别文本行图像中某一位置的图像区域识别为单行文本的概率大于预设阈值时，则确定该图像区域的文本行属性为单行文本。例如，当A[0,0]>A[0,1]时，表示待识别文本行图像中第一个指定滑窗位置的图像区域识别为单行文本，例如将其文本行属性标记为0；反之，确定该图像区域的文本行属性为双行文本，例如将其文本行属性标记为1。其中，每一个图像区域的宽度对应前述指定滑窗的宽度。

按照前述方法可以确定待识别文本行图像中从左向右依次分布的每个图像区域的文本行属性标记，如：

0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0。其中，依序排列的每一个文本行属性标记对应待识别文本行图像中的一个图像区域的分类结果。文本行属性标记与待识别文本行图像中的一个图像区域的对应关系如图9所示。

进一步的，对于相邻且文本行属性标记相同的图像区域进行聚合，对相邻且分类结果相同的文本图像位置进行聚合，确定与不同文本行属性对应的待识别文本行图像中的图像区域。如图9中的左侧13个文本行属性标记均为0，则将这13个文本行属性标记对应的待识别文本行图像中的图像区进行聚合，将聚合后得到的图像区域的文本行属性确定为与文本行属性标记0对应的文本行属性，即单行文本。再例如，图9中的左侧起第14个至第18个文本行属性标记均为1，则将这5个文本行属性标记对应的待识别文本行图像中的图像区进行聚合，将聚合后得到的图像区域的文本行属性确定为与文本行属性标记1对应的文本行属性，即多行文本。按照此方法，可以确定待识别文本行图像中的不同文本行属性的图像区域。如图10所示，经过前述文本行识别和聚合，最终确定待识别文本行图像中包括的3个图像区域1010、1011和1012，其中，图像区域1010和1012为对应单行文本的图像区域，图像区域1011为对应单行文本的图像区域。

本申请实施例公开的文本定位方法，通过基于卷积神经网络预先训练文本行识别模型，在获取到待识别文本行图像后，将所述待识别文本行图像输入至预先训练的文本行识别模型，确定该待识别文本行图像对应的文本行识别结果，该文本行识别结果用于指示该待识别文本行图像相应位置处的文本行属性；最后，根据文本行识别结果确定该待识别文本行图像中与上述文本行属性对应的图像区域，有助于解决现有技术中文本识别准确率低下的问题。本申请实施例公开的文本定位方法通过训练的文本行识别模型确定复杂排布的待识别文本行图像中不同文本行属性的文本(如单行文本或多行文本)的分布区域，有助于针对不同的文本区域采用与该文本区域的文本行属性对应的文本图像识别引擎对相应文本区域的图像进行识别，以提升文本识别的准确性。

实施例三：

相应的，如图11所示，本申请实施例还公开了一种文本识别方法，包括步骤1101至步骤1103。

步骤1101，确定待识别文本行图像中与不同文本行属性对应的图像区域。

具体实施时，对于待识别文本行图像，通过实施例一或实施例二所述的文本定位方法确定该待识别文本行图像中与不同文本行属性对应的图像区域，如与单行文本对应的图像区域、与多行文本对应的图像区域。

步骤1102，通过与各文本行属性匹配的文本图像识别模型，分别对与相应文本行属性对应的图像区域内的待识别文本行图像进行识别，确定相应图像区域内的待识别文本行图像的识别结果。

接下来，通过单行文本图像识别模型对与单行文本对应的各图像区域，分别进行识别，得到相应的单行识别结果；通过多行文本图像识别模型对与多行文本对应的各图像区域，分别进行识别，得到相应的多行识别结果。

步骤1103，根据上述各图像区域的位置，对各图像区域内的待识别文本行图像的识别结果进行融合，确定该待识别文本行图像对应的文本。

最后，对得到的单行识别结果和多行识别结果，按照相应的图像区域在待识别文本行图像中的位置进行拼接，得到该待识别文本行图像中的识别结果。

具体实施时，所述不同文本行属性可以为单行文本或和双行文本，也可以为不同文字字体，或者不同文字种类。

本申请实施例公开的文本识别方法，通过确定待识别文本行图像中与不同文本行属性对应的图像区域，然后，通过与各所述文本行属性匹配的文本图像识别模型，分别对与相应文本行属性对应的图像区域内的待识别文本行图像进行识别，确定相应图像区域内的待识别文本行图像的识别结果，根据所述图像区域的位置，对各图像区域内的待识别文本行图像的识别结果进行融合，确定所述待识别文本行图像对应的文本，有助于提升复杂排布的文本图像的识别准确性。

实施例四：

相应的，本申请实施例还公开了一种文本定位装置，如图12所示，所述装置包括：

待识别文本行图像获取模块121，用于获取待识别文本行图像；

文本行识别结果确定模块122，用于将上述待识别文本行图像输入至预先训练的文本行识别模型，确定上述待识别文本行图像对应的文本行识别结果，其中，上述文本行识别结果用于指示上述待识别文本行图像相应位置处的文本行属性；

图像区域确定模块123，用于根据文本行识别结果确定上述待识别文本行图像中与各文本行属性对应的图像区域。

可选的，在将上述待识别文本行图像输入至预先训练的文本行识别模型，确定上述待识别文本行图像对应的文本行识别结果之前，如图13所示，上述文本定位装置还包括：

样本采集模块124，用于获取文本行识别模型的训练样本，其中，上述训练样本的样本数据为预设高度和预设宽度的文本行图像，训练样本的样本标签用于指示文本行图像中相应位置处的文本行属性；

文本行识别模型训练模块125，用于以上述训练样本的样本数据作为上述文本行识别模型的输入，以上述文本行识别模型的输出与上述训练样本的样本标签的误差最小为目标，训练所述文本行识别模型，其中，上述文本行识别模型是基于卷积神经网络构建的。

可选的，所述样本采集模块124进一步用于：

对于所述样本数据集合中的每一条样本数据对应的文本行图像，通过按照预设步长移动指定滑窗对上述文本行图像沿图像宽度方向进行扫描，以根据扫描结果标记上述指定滑窗移动过程中顺序经过的各位置处上述文本行图像的文本行属性；

根据标记的上述指定滑窗移动过程中顺序经过的各位置处上述文本行图像的文本行属性，确定相应样本数据的样本标签；其中，上述指定滑窗的高度为上述文本行图像的所述预设高度的第一预设比例，上述指定滑窗的宽度为上述文本行图像的上述预设宽度的第二预设比例。

可选的，在获取待识别文本行图像时，上述待识别文本行图像获取模块121进一步用于：

通过对待识别文本行图像沿宽度和/或高度方向进行拉伸或压缩处理，将该待识别文本行图像调整为上述预设高度和预设宽度的待识别文本行图像。

可选的，所述文本行识别结果包括顺序标识该待识别文本行图像相应位置处的文本行属性的分类结果，上述图像区域确定模块123，进一步用于：

根据所述指定滑窗的宽度确定上述待识别文本行图像中顺序分布的文本图像位置，上述顺序分布的文本图像位置依序与上述文本行属性的分类结果对应；

根据所述文本行属性的分类结果，对相邻且分类结果相同的文本图像位置进行聚合，确定与不同文本行属性对应的所述待识别文本行图像中的图像区域。本申请实施例公开的文本定位装置，通过获取待识别文本行图像，然后，将所述待识别文本行图像输入至预先训练的文本行识别模型，确定所述待识别文本行图像对应的文本行识别结果，所述文本行识别结果用于指示所述待识别文本行图像相应位置处的文本行属性；最后，根据文本行识别结果确定所述待识别文本行图像中与所述文本行属性对应的图像区域，有助于解决现有技术中文本识别准确率低下的问题。本申请实施例公开的文本定位装置通过训练的文本行识别模型确定复杂排布的待识别文本行图像中不同文本行属性的文本(如单行文本或多行文本)的分布区域，有助于针对不同的文本区域采用与该文本区域的文本行属性对应的文本图像识别引擎对相应文本区域的图像进行识别，以提升文本识别的准确性。

实施例五：

相应的，本申请实施例还公开了一种文本识别装置，如图14所示，所述装置包括：

待识别文本行图像区域确定模块141，用于通过实施例一和实施例二所述的文本定位方法确定待识别文本行图像中与不同文本行属性对应的图像区域；

分区域识别模块142，用于通过前述与各文本行属性匹配的文本图像识别模型，分别对与相应文本行属性对应的图像区域内的待识别文本行图像进行识别，确定相应图像区域内的待识别文本行图像的识别结果；

识别结果融合模块143，用于根据所述图像区域的位置，对各图像区域内的待识别文本行图像的识别结果进行融合，确定待识别文本行图像对应的文本。

本申请实施例公开的文本识别装置，通过确定待识别文本行图像中与不同文本行属性对应的图像区域，然后，通过与各所述文本行属性匹配的文本图像识别模型，分别对与相应文本行属性对应的图像区域内的待识别文本行图像进行识别，确定相应图像区域内的待识别文本行图像的识别结果，根据所述图像区域的位置，对各图像区域内的待识别文本行图像的识别结果进行融合，确定所述待识别文本行图像对应的文本，有助于提升复杂排布的文本图像的识别准确性。

相应的，本申请实施例还公开了一种电子设备，所述电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例一和实施例二所述的文本定位方法，和/或，实现本申请实施例三所述的文本识别方法。所述电子设备可以为手机、PAD、平板电脑、人脸识别机等。

相应的，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本申请实施例一和实施例二所述的文本定位方法的步骤，和/或，实现本申请实施例三所述的文本识别方法的步骤。

本申请的装置实施例与方法相对应，装置实施例中各模块和各单元的具体实现方式参见方法是实施例，此处不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解，在本申请所提供的实施例中，所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

Claims

1.一种文本定位方法，其特征在于，包括：

获取待识别文本行图像；

2.根据权利要求1所述的方法，其特征在于，所述将所述待识别文本行图像输入至预先训练的文本行识别模型，确定所述待识别文本行图像对应的文本行识别结果的步骤之前，包括：

3.根据权利要求2所述的方法，其特征在于，获取文本行识别模型的训练样本的步骤，包括：

4.根据权利要求2所述的方法，其特征在于，所述获取待识别文本行图像的步骤，包括：

5.根据权利要求3所述的方法，其特征在于，所述文本行识别结果包括顺序标识所述待识别文本行图像相应位置处的文本行属性的分类结果，所述根据文本行识别结果确定所述待识别文本行图像中与所述文本行属性对应的图像区域的步骤，包括：

6.一种文本识别方法，其特征在于，包括：

通过权利要求1至5任一项所述的文本定位方法确定待识别文本行图像中与不同文本行属性对应的图像区域；

7.一种文本定位装置，其特征在于，包括：

待识别文本行图像获取模块，用于获取待识别文本行图像；

8.根据权利要求7所述的装置，其特征在于，在将所述待识别文本行图像输入至预先训练的文本行识别模型，确定所述待识别文本行图像对应的文本行识别结果的步骤之前，还包括：

9.根据权利要求8所述的装置，其特征在于，所述样本采集模块进一步用于：

10.根据权利要求8所述的装置，其特征在于，在获取待识别文本行图像时，所述待识别文本行图像获取模块进一步用于：

11.根据权利要求9所述的装置，其特征在于，所述文本行识别结果包括顺序标识所述待识别文本行图像相应位置处的文本行属性的分类结果，所述图像区域确定模块，进一步用于：

12.一种文本识别装置，其特征在于，包括：

待识别文本行图像区域确定模块，用于通过权利要求1至5任一项所述的文本定位方法确定待识别文本行图像中与不同文本行属性对应的图像区域；

13.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5任意一项所述的文本定位方法，和/或，实现权利要求6所述的文本识别方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至5任意一项所述的文本定位方法的步骤，和/或，实现权利要求6所述的文本识别方法的步骤。