CN109977762A

CN109977762A - 一种文本定位方法及装置、文本识别方法及装置

Info

Publication number: CN109977762A
Application number: CN201910105737.2A
Authority: CN
Inventors: 刘正珍; 黄威
Original assignee: Hanwang Technology Co Ltd
Current assignee: Hanwang Technology Co Ltd
Priority date: 2019-02-01
Filing date: 2019-02-01
Publication date: 2019-07-05
Anticipated expiration: 2039-02-01
Also published as: CN109977762B

Abstract

本申请提供了一种文本定位方法，属于文本识别技术领域，解决了现有技术文本识别过程中准确率低下的问题。所述方法包括：获取待识别文本行图像；沿所述待识别文本行图像的宽度方向按照预设步长移动预设宽度和预设高度的滑窗，确定所述待识别文本行图像上顺序分布的图像区域，所述图像区域的宽度与所述滑窗的宽度匹配；将各所述图像区域内待识别文本行图像分别输入至预先训练的文本行识别模型，确定各所述图像区域内所述待识别文本行图像对应的文本行识别结果，根据各所述图像区域内所述待识别文本行图像对应的文本行识别结果，确定所述待识别文本行图像中与所述文本行属性匹配的图像位置，可以提升文本识别的准确性。

Description

一种文本定位方法及装置、文本识别方法及装置

技术领域

本申请涉及文本识别技术领域，尤其涉及一种文本定位方法及装置，文本识别方法及装置。

背景技术

文档图像识别过程通常是将行文本的图像，或者列文本的图像输入至预先训练的文本图像识别引擎以得到相应的文本编码。列文本通过旋转90度得到行文本，因此，通常把行文本和列文本统称为行文本。

现有技术中的文本图像识别引擎是基于单行文本的图像或单列文本的图像进行训练的，因此，对于输入的文本图像中混合分布的单行文本和多行文本的情况，文本图像识别引擎均将其作为单行文本进行识别。

例如，古籍文档中，最常见的就是由单列正文文本和两列注释文本组成的文本行图像，而现有的文本图像识别引擎会将两列注释文本的文本行当做单行正文文本识别，显然，这单列文本行和多列文本行是不一样的，因此，这样就容易导致多列注释文本的文本行误判为单列正文文本，从而导致文本图像识别引擎对该多列文本的图像的识别准确率较低。

综上，现有技术中的在进行复杂排布的文本图像进行识别时，至少存在识别准确率低的问题。

发明内容

本申请实施例提供一种文本定位方法，以解决现有技术中文本识别方法存在的准确率低的问题。

第一方面，本申请实施例提供了一种文本定位方法，包括：

获取待识别文本行图像；

沿所述待识别文本行图像的宽度方向按照预设步长移动预设宽度和预设高度的滑窗，确定所述待识别文本行图像上顺序分布的图像区域，所述图像区域的宽度与所述滑窗的宽度匹配，所述图像区域的高度与所述滑窗的高度匹配；

将各所述图像区域内待识别文本行图像分别输入至预先训练的文本行识别模型，确定各所述图像区域内所述待识别文本行图像对应的文本行识别结果，其中，所述文本行识别结果用于指示相应图像区域内所述待识别文本行图像的文本行属性；

根据各所述图像区域内所述待识别文本行图像对应的文本行识别结果，确定所述待识别文本行图像中与所述文本行属性匹配的图像位置。

可选的，所述将各所述图像区域内的所述待识别文本行图像分别输入至预先训练的文本行识别模型，确定各所述图像区域内的所述待识别文本行图像对应的文本行识别结果的步骤之前，还包括：

获取文本行识别模型的训练样本，其中，所述训练样本的样本数据包括：所述预设宽度和预设高度的文本行图像，所述训练样本的样本标签用于指示所述文本行图像的文本行属性；

以所述样本数据作为所述文本行识别模型的输入，以所述文本行识别模型的输出与相应的样本标签的误差最小为目标，训练所述文本行识别模型。

可选的，获取文本行识别模型的训练样本的步骤，包括：

获取匹配不同文本行属性的若干文本行图像，所述若干文本行图像的高度与所述滑窗的高度匹配；

通过沿所述文本行图像的宽度方向以任意步长移动所述滑窗，并确定所述滑窗所覆盖的所述文本行图像上的每个图像区域的图像作为所述文本行图像生成的一条样本数据；

以所述文本行图像所匹配的文本行属性作为所述文本行图像生成的各条样本数据的样本标签，构建训练样本集合。

可选的，所述获取匹配不同文本行属性的若干文本行图像的步骤之后，还包括：

分别对每幅所述文本行图像进行高度归一化处理，将各所述文本行图像归一化到所述滑窗的高度；

对于每幅经过高度归一化处理的所述文本行图像，按照对所述文本行图像进行高度归一化处理的比例，对经过高度归一化处理的所述文本行图像沿宽度方向进行相应拉伸或压缩处理。

可选的，所述获取待识别文本行图像的步骤，包括：

通过对待识别文本行图像沿高度方向进行归一化处理，将所述待识别文本行图像的高度调整为所述滑窗的高度；

按照对待识别文本行图像沿高度方向进行归一化处理的比例，对所述待识别文本行图像沿宽度方向进行相应拉伸或压缩处理。

可选的，所述根据各所述图像区域内所述待识别文本行图像对应的文本行识别结果，确定所述待识别文本行图像中与所述文本行属性匹配的图像位置的步骤，包括：

根据各所述图像区域内所述待识别文本行图像对应的文本行识别结果，对相邻且对应的文本行识别结果相同的图像区域进行聚合，确定与不同文本行属性对应的所述图像区域；

根据与不同文本行属性对应的所述图像区域，确定所述待识别文本行图像中与所述文本行属性匹配的图像位置。

第二方面，本申请实施例还提供了一种文本定位装置，包括：

待识别文本行图像获取模块，用于获取待识别文本行图像；

图像区域确定模块，用于沿所述待识别文本行图像的宽度方向按照预设步长移动预设宽度和预设高度的滑窗，确定所述待识别文本行图像上顺序分布的图像区域，所述图像区域的宽度与所述滑窗的宽度匹配，所述图像区域的高度与所述滑窗的高度匹配；

图像区域识别模块，用于将各所述图像区域内待识别文本行图像分别输入至预先训练的文本行识别模型，确定各所述图像区域内所述待识别文本行图像对应的文本行识别结果，其中，所述文本行识别结果用于指示相应图像区域内所述待识别文本行图像的文本行属性；

文本定位模块，用于根据各所述图像区域内所述待识别文本行图像对应的文本行识别结果，确定所述待识别文本行图像中与所述文本行属性匹配的图像位置。

可选的，在将各所述图像区域内的所述待识别文本行图像分别输入至预先训练的文本行识别模型，确定各所述图像区域内的所述待识别文本行图像对应的文本行识别结果之前，所述装置还包括：

训练样本获取模块，用于获取文本行识别模型的训练样本，其中，所述训练样本的样本数据包括：所述预设宽度和预设高度的文本行图像，所述训练样本的样本标签用于指示所述文本行图像的文本行属性；

文本行识别模型训练模块，用于以所述样本数据作为所述文本行识别模型的输入，以所述文本行识别模型的输出与相应的样本标签的误差最小为目标，训练所述文本行识别模型。

可选的，所述训练样本获取模块进一步用于：

可选的，所述获取匹配不同文本行属性的若干文本行图像的步骤之后，所述训练样本获取模块进一步还用于：

可选的，所述待识别文本行图像获取模块进一步用于：

可选的，所述文本定位模块进一步用于：

第三方面，本申请实施例提供了一种文本识别方法，包括：

通过本申请前述第一方面所述的文本定位方法确定待识别文本行图像中与不同文本行属性对应的图像区域；

通过与各所述文本行属性匹配的文本图像识别模型，分别对与相应文本行属性对应的图像区域内的待识别文本行图像进行识别，确定相应图像区域内的待识别文本行图像的识别结果；

根据所述图像区域的位置，对各图像区域内的待识别文本行图像的识别结果进行融合，确定所述待识别文本行图像对应的文本。

第四方面，本申请实施例还提供了一种文本识别装置，包括：

文本行属性对应图像区域确定模块，用于通过本申请前述第一方面所述的文本定位方法确定待识别文本行图像中与不同文本行属性对应的图像区域；

分区域识别模块，用于通过与各所述文本行属性匹配的文本图像识别模型，分别对与相应文本行属性对应的图像区域内的待识别文本行图像进行识别，确定相应图像区域内的待识别文本行图像的识别结果；

识别结果确定模块，用于根据所述文本行属性对应图像区域确定模块确定的图像区域的位置，对各图像区域内的待识别文本行图像的识别结果进行融合，确定所述待识别文本行图像对应的文本。

第五方面，本申请实施例还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例所述的文本定位方法和/或文本识别方法。

第六方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本申请实施例所述的文本定位方法的步骤和/或文本识别方法的步骤。

这样，本申请实施例公开的文本定位方法，通过获取待识别文本行图像；沿所述待识别文本行图像的宽度方向按照预设步长移动预设宽度和预设高度的滑窗，确定所述待识别文本行图像上顺序分布的图像区域，所述图像区域的宽度与所述滑窗的宽度匹配；将各所述图像区域内待识别文本行图像分别输入至预先训练的文本行识别模型，确定各所述图像区域内所述待识别文本行图像对应的文本行识别结果，其中，所述文本行识别结果用于指示相应图像区域内所述待识别文本行图像的文本行属性；根据各所述图像区域内所述待识别文本行图像对应的文本行识别结果，确定所述待识别文本行图像中与所述文本行属性匹配的图像位置，有助于解决现有技术中文本识别准确率低下的问题。本申请实施例公开的文本定位方法通过对待识别文本行图像进行分区域识别文本行属性，再根据识别结果对图像区域进行聚合，从而确定待识别文本行图像中不同文本行属性的文本(如单行文本或多行文本)的分布区域，有助于针对不同的文本区域采用与该文本区域的文本行属性对应的文本图像识别引擎对相应文本区域的图像进行识别，以提升文本识别的准确性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例一的文本定位方法流程图；

图2是本申请实施例二的文本定位方法流程图；

图3是本申请实施例中的原始图像的示意图；

图4是图3中的一列文本的图像转化得到的文本行图像示意图；

图5是图4中的文本行图像切割后得到的文本行图像示意图；

图6是基于图5中文本行图像中确定的样本数据的示意图；

图7是本申请实施例而采用的文本行识别模型结构示意图；

图8是本申请实施例二中待识别文本行图像示意图；

图9是图8所示的待识别文本行图像中确定的图像区域示意图；

图10是图9所示的待识别文本行图像中的图像区域聚合后得到的图像区域示意图；

图11是本申请实施例三的文本识别方法流程图；

图12是本申请实施例四的文本定位装置结构示意图之一；

图13是本申请实施例四的文本定位装置结构示意图之二；

图14是本申请实施例五的文本识别装置结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例中所述的不同文本行属性可以为单行文本或和双行文本，也可以为不同文字字体，或者不同文字种类等。为了便于读者理解本方案，本申请实施例中的以不同文本行属性为单行文本或和双行文本举例说明文本定位方法的具体实施方式。

实施例一：

本实施例提供了一种文本定位方法，如图1所示，所述方法包括：步骤10至步骤13。

步骤10，获取待识别文本行图像。

本申请实施例中所述的待识别文本行图像为预设高度的图像，例如，待识别文本行图像的高度为50像素点。该待识别文本行图像中可以仅包括单行文本的文本行图像，也可以为仅包括多行文本的文本行图像，还可以为既包括单行文本又包括多行文本的混合排布的文本行图像。

具体实施时，为了减少运算量，提升文本定位的效率，优选地，获取的待识别文本行图像为灰度图像。

步骤11，沿该待识别文本行图像的宽度方向按照预设步长移动预设宽度和预设高度的滑窗，确定该待识别文本行图像上顺序分布的图像区域。

其中，确定的图像区域的宽度与滑窗的宽度匹配，确定的图像区域的高度与滑窗的高度匹配。

在获取到待识别文本行图像之后，进一步的，通过滑窗将该待识别文本行图像划分为多个图像区域。本申请实施例中所述的滑窗为可以移动的矩形框，用于通过在该待识别文本行图像上移动该滑窗，从而在该待识别文本行图像上定位出多个大小与该滑窗相同的矩形图像区域。具体实施时，例如，可以从该待识别文本行图像的左侧开始，以该滑窗的宽度为步长，向右侧移动该滑窗，则可以定位出该待识别文本行图像上的顺序分布多个图像区域。

步骤12，将各图像区域内该待识别文本行图像分别输入至预先训练的文本行识别模型，确定各图像区域内该待识别文本行图像对应的文本行识别结果。

其中，前述文本行识别结果用于指示相应图像区域内该待识别文本行图像的文本行属性。

本申请具体实施时，在对该待识别文本行图像进行识别之前，首先需要训练文本行识别模型。前述文本行识别模型基于卷积神经网络训练，通过对输入文本行图像进行多次卷积运算并进行特征抽取和映射，最终输出该待识别文本行图像的文本行属性识别结果。其中，输入文本行图像为前述步骤中确定的待识别文本行图像中确定的各图像区域内的图像。以文本行属性包括：单行文本和多行文本举例，输出的文本行属性识别结果为输入的图像识别为单行文本和双行文本的概率。

步骤13，根据各图像区域内该待识别文本行图像对应的文本行识别结果，确定该待识别文本行图像中与前述文本行属性匹配的图像位置。

在确定了待识别文本行图像中每个图像区域的识别结果之后，接下来进一步根据识别结果对各图像区域进行聚合。由于待识别文本行图像中包括的文本行可能为单行文本行或多行文本混合排布的，并且，单行文本或多行文本的位置和长度不固定，因此，需要根据前述步骤得到的文本行识别结果对识别结果指示文本行属性为单行文本的相邻图像区域进行聚合，得到单行文本分布的至少一个聚合图像区域，以及，对识别结果指示文本行属性为多行文本的相邻图像区域进行聚合，得到多行文本分布的至少一个聚合图像区域。至此，确定了该待识别文本行图像中不同文本行属性的文本在该待识别文本行图像中的分布位置。

本申请实施例公开的文本定位方法，通过获取待识别文本行图像；沿该待识别文本行图像的宽度方向按照预设步长移动预设宽度和预设高度的滑窗，确定该待识别文本行图像上顺序分布的图像区域，其中，确定的图像区域的宽度与前述滑窗的宽度匹配，确定的图像区域的高度与前述滑窗的高度匹配；将确定的各图像区域内该待识别文本行图像分别输入至预先训练的文本行识别模型，确定各图像区域内该待识别文本行图像对应的文本行识别结果，其中，前述文本行识别结果用于指示相应图像区域内该待识别文本行图像的文本行属性；根据各图像区域内该待识别文本行图像对应的文本行识别结果，确定该待识别文本行图像中与前述文本行属性匹配的图像位置，有助于解决现有技术中因将多行文本当做单行文本识别而导致文本识别准确率低下的问题。本申请实施例公开的文本定位方法通过对待识别文本行图像进行分区域识别文本行属性，再根据识别结果对图像区域进行聚合，从而确定待识别文本行图像中不同文本行属性的文本(如单行文本或多行文本)的分布区域，有助于针对不同的文本区域采用与该文本区域的文本行属性对应的文本图像识别引擎对相应文本区域的图像进行识别，以提升文本识别的准确性。

实施例二：

本实施例提供了一种文本定位方法，如图2所示，所述方法包括：步骤20至步骤24。

步骤20，训练文本行识别模型。

在本申请的一些实施例中，将各图像区域内的待识别文本行图像分别输入至预先训练的文本行识别模型，确定各图像区域内该待识别文本行图像对应的文本行识别结果的步骤之前，还包括：训练文本行识别模型。具体实施时，训练文本行识别模型包括：获取文本行识别模型的训练样本，其中，所述训练样本的样本数据包括：所述预设宽度和预设高度的文本行图像，所述训练样本的样本标签用于指示文本行图像的文本行属性；以前述样本数据作为所述文本行识别模型的输入，以该文本行识别模型的输出与相应的样本标签的误差最小为目标，训练该文本行识别模型。

本申请实施例中所述的文本行识别模型用于对输入的图像进行识别，并输出该图像的文本行属性的识别结果。具体实施时，首先需要构建训练样本，训练样本的样本数据为对应单一文本行属性的文本行图像(如，仅包括单行文本的文本图像或仅包括多行文本的文本图像)，相应的，样本标签为对应的文本行属性。

在本申请的一些实施例中，获取文本行识别模型的训练样本的步骤，包括：获取匹配不同文本行属性的若干文本行图像，若干文本行图像的高度与前述滑窗的高度匹配；通过沿该文本行图像的宽度方向以任意步长移动所述滑窗，并确定该滑窗所覆盖的文本行图像上的每个图像区域的图像作为该文本行图像生成的一条样本数据；以该文本行图像所匹配的文本行属性作为该文本行图像生成的各条样本数据的样本标签，构建训练样本集合。

本申请的一些实施例中，可以选择古籍、文献的图像作为原始图像，然后对原始图像进行灰度化处理，并分割出每一行或每一列内容对应的图像作为文本行图像。当以如图3所示的地方志图像作为原始图像，采集训练样本时，通过对原始图像进行处理，可以得到每一列文本的图像，如矩形区域310中的一列文本的图像。然后，将每列文本的图像旋转90度，得到一幅文本行图像，如图4所示。

然后，对文本行图像进行标注，确定各文本行图像中不同文本行属性对应的图像区域的位置(如，标注文本行图像中单行文本对应的图像区域的左上角坐标和右下角坐标，和/或，多行文本对应的图像区域的左上角坐标和右下角坐标)。之后，根据标注信息将上述各文本行图像划分为仅包括单一文本行属性的文本行图像。如，得到若干仅包括单行文本的文本行图像(如图5中的510)，和若干仅包括多行文本的文本行图像(如图5中的520)。

具体实施时，训练样本需要具有统一尺寸，如果文本行图像的高度等于预设的滑窗的高度，则直接通过在该文本行图像上沿宽度方向以任意步长移动前述滑窗，以确定前述滑窗移动的各个位置所覆盖的图像区域中的文本行图像作为与该文本行图像对应的一条样本数据。如果该文本行图像的高度不等于预设的滑窗的高度，则需要首先对该文本行图像进行拉伸或压缩处理，使该文本行图像的高度与前述滑窗的高度匹配。

在本申请的一些实施例中，获取匹配不同文本行属性的若干文本行图像的步骤之后，还包括：分别对每幅文本行图像进行高度归一化处理，将各文本行图像归一化到预设的滑窗的高度；对于每幅经过高度归一化处理的文本行图像，按照对该文本行图像进行高度归一化处理的比例，对经过高度归一化处理的该文本行图像沿宽度方向进行相应拉伸或压缩处理。

首先，分别对每幅所述文本行图像进行高度归一化处理，将各文本行图像归一化到预设高度。该预设高度为输入至文本行识别模型的待识别文本行图像的高度，也是训练样本的高度。具体实施时，该预设高度根据待处理的文本的行高或列宽确定，如设置为50个像素。

之后，为了保证图像中的文本不变形，还需要对经过高度归一化处理的文本行图像，按照对该文本行图像进行高度归一化处理的比例，进行宽度拉伸或压缩处理。

例如，如果某一文本行图像的原始高度为30像素，原始宽度为960，经过拉伸将该文本行图像的高度拉伸至50，拉伸比例为5/3，则需要将该文本行图像的按照5/3的比例进行宽度拉伸，即将该文本行图像的宽度拉伸至960×5/3＝1600。

之后，通过前述滑窗对高度与该滑窗的高度匹配的每幅文本行图像进行分割，根据每幅文本行图像生成至少一条样本数据，并根据该文本行图像的文本行属性设置该文本行图像生成的样本数据的样本标签。例如，对于图5中的文本行图像510，以60个像素点为步长沿该文本行图像的宽度方向移动宽50高50的滑窗，将得到多个滑窗位置，其中，每个滑窗位置覆盖该文本行图像中50×50的图像区域。

按照此方法，通过移动滑窗可以确定该文本行图像中6个50×50的图像区域，如图6中的610至650，则可以将图像区域610至650中的文本行图像分别作为一条样本数据，该样本数据的样本标签与文本行图像510的文本行属性匹配，如表示为0。按照同样的方法对图5中的文本行图像520进行处理，可以得到多条样本数据。根据文本行图像520得到的样本数据的样本标签与文本行图像520的文本行属性匹配，如表示为1。

按照前述方法，每幅文本行图像将生成多条训练样本，不同文本行属性的文本行图像生成的若干训练样本构成了训练样本集合。该训练样本集合中的训练样本的样本数据为匹配不同文本行属性的预设尺寸的文本行图像。

本申请具体实施时，还需要构建文本行识别模型。

本申请实施例中，基于卷积神经网络构建文本行识别模型。该文本行识别模型为包括：卷积层、批规范化层、激活函数、最大池化层、向量压平层、全连接层层以及线性处理函数的分类模型。其中，线性处理函数的输出表示输入的文本行图像分类为不同文本行属性的概率。

具体实施时，可以构建如图7所示的网络结构的文本行识别模型。图7所示的网络结构从前向后依次为：CONV1表示第1个卷积层，具体实施时，CONV1由128个3×3的滤波器构成，滤波器的滑动步长为1；BatchNorm1表示第1个批规范化层；ActivationRelu1表示第1个激活函数；MaxPooling1表示第1个最大池化层，具体实施时，MaxPooling1由大小为3×3的滤波器构成，滤波器的滑动步长为2×2；CONV2表示第2个卷积层，具体实施时，CONV2由196个3×3的滤波器构成，滤波器的滑动步长为1；BatchNorm2表示第2个批规范化层；ActivationRelu2表示第2个激活函数；MaxPooling2表示第2个最大池化层，具体实施时，MaxPooling2由大小为3×3的滤波器构成，滤波器的滑动步长为2×2；CONV3表示第3个卷积层，具体实施时，CONV3由196个3×3的滤波器构成，滤波器的滑动步长为1；BatchNorm3表示第3个批规范化层；ActivationRelu3表示第3个激活函数；MaxPooling3表示第3个最大池化层，具体实施时，MaxPooling3由大小为3×2的滤波器构成，滤波器的滑动步长为2×2；Flatten表示向量压平层；FullyConnected1表示第1个全连接层，变换得到一个420维特征；ActivationRelu4表示第4个激活函数；FullyConnected2表示第2个全连接层，变换得到一个2维特征；SoftMax损失函数用于确定有限项离散概率分布，例如，输入图像分类为单行文本和多行文本的概率分布。

具体实施时，还可以采用其他网络结构训练文本行识别模型，本实施例中所述的网络结构仅为一优选网络结构，不应理解为是对本申请中文本行识别模型结构的限定。

之后，基于上述训练样本集合中的训练样本训练文本行识别模型。训练得到的训练文本行识别模型能够对预设尺寸的文本行图像进行识别，并输出该预设尺寸的文本行图像匹配不同文本行属性的概率。

模型的训练过程实际是不断求解、优化模型中各层网络结构参数的过程，通过反向传递方法，以文本行识别模型的输出与相应输入的文本行图像的样本标签的误差最小为目标，求解最优参数，最终完成该文本行识别模型的训练。模型的具体训练过程参见现有技术，本实施例中不再赘述。

本申请具体实施时，可以首先对训练样本集合中的样本数据做均衡处理，防止模型训练偏。同时，对训练样本集合中的训练样本进行随机打乱处理以得到好的泛化效果，以比例为总样本的0.8作为训练集，剩下作为测试集，以验证训练得到的文本行识别模型的泛化能力。

步骤21，获取待识别文本行图像。

本申请实施例中所述的待识别文本行图像为预设尺寸的图像。获取的待识别文本行图像中可以仅包括单行文本的文本行图像，也可以为仅包括多行文本的文本行图像，还可以为如图4所示的既包括单行文本又包括多行文本的混合排布的文本行图像。

因为，在模型训练的过程中，训练样本是预设高度和预设宽度的文本行图像，因此，在进行识别的过程中，如果待识别文本行图像的宽度不等于前述预设宽度，则需要将该待识别文本行图像沿高度方向进行拉伸或者压缩处理，将该待识别文本行图像的高度调整到前述预设的滑窗的高度。

在本申请的一些实施例中，获取待识别文本行图像的步骤，包括：通过对待识别文本行图像沿高度方向进行归一化处理，将该待识别文本行图像的高度调整为预设滑窗的高度；按照对待识别文本行图像沿高度方向进行归一化处理的比例，对所述待识别文本行图像沿宽度方向进行相应拉伸或压缩处理。

例如：当滑窗的预设高度为50时，如果获取的待识别文本行图像的高度小于50，则首先需要该待识别文本行图像的高度拉伸至50，然后，按照对该待识别文本行图像的高度进行拉伸的比例，对该待识别文本行图像的宽度进行拉伸处理；如果获取的待识别文本行图像的高度大于50，则首先需要该待识别文本行图像的高度压缩至50，然后，按照对该待识别文本行图像的高度进行压缩的比例，对该待识别文本行图像的宽度进行压缩处理。

步骤22，沿该待识别文本行图像的宽度方向按照预设步长移动预设宽度和预设高度的滑窗，确定该待识别文本行图像上顺序分布的图像区域。

其中，所述图像区域的宽度与所述滑窗的宽度匹配。

在获取到待识别文本行图像之后，进一步的，通过滑窗将该待识别文本行图像划分为多个图像区域。本申请实施例中所述的滑窗为可以移动的矩形框，用于通过在该待识别文本行图像上移动该滑窗，从而在该待识别文本行图像上定位出多个大小与该滑窗相同的矩形图像区域。

具体实施时，例如，可以从图8所示的待识别文本行图像的左侧开始，以该滑窗的宽度为步长，向右侧移动该滑窗，则可以定位出该待识别文本行图像上的顺序分布多个图像区域，如图9中图像区域910至9010。其中，图像区域910至9010中每个图像区域的宽度等于该滑窗的宽度。

步骤23，将前述各图像区域内该待识别文本行图像分别输入至预先训练的文本行识别模型，确定前述各图像区域内该待识别文本行图像对应的文本行识别结果。

其中，所述文本行识别结果用于指示相应图像区域内该待识别文本行图像的文本行属性。

本申请具体实施时，将前述步骤确定的待识别文本行图像中顺序且两两相邻分布的所有图像区域分别输入至预先训练的文本行识别模型，分别确定每个图像区域内的待识别文本行图像的文本行识别结果，即分别确定待识别文本行图像中不同图像区域的文本行识别结果。

例如，将图9中所示的待识别文本行图像中图像区域910至9010共10个图像区域的图像分别输入至前述步骤中训练的文本行识别模型，可以分别得到图像区域910至9010的文本行识别结果。文本行识别模型针对输入的每个图像输出的文本行识别结果包括输入的该图像属于不同文本行属性的概率。例如，针对图像区域910中的待识别文本行图像的文本行识别结果包括：(0.90，0.10)，其中，0.90表示图像区域910中的待识别文本行图像属于单行文本的概率，0.10表示图像区域910中的待识别文本行图像属于多行文本的概率；针对图像区域990中的待识别文本行图像的文本行识别结果包括：(0.11，0.89)，其中，0.11表示图像区域980中的待识别文本行图像属于单行文本的概率，0.89表示图像区域980中的待识别文本行图像属于多行文本的概率。

步骤24，根据前述各图像区域内该待识别文本行图像对应的文本行识别结果，确定该待识别文本行图像中与前述各文本行属性匹配的图像位置。

在确定了待识别文本行图像中每个图像区域的识别结果之后，接下来进一步根据识别结果对各图像区域进行聚合。具体实施时，根据前述各图像区域内该待识别文本行图像对应的文本行识别结果，确定该待识别文本行图像中与前述文本行属性匹配的图像位置的步骤，包括：根据各图像区域内该待识别文本行图像对应的文本行识别结果，对相邻且对应的文本行识别结果相同的图像区域进行聚合，确定与不同文本行属性对应的所述图像区域；根据与不同文本行属性对应的所述图像区域，确定所述待识别文本行图像中与所述文本行属性匹配的图像位置。

由于待识别文本行图像中包括的文本行可能为单行文本行或多行文本混合排布的，并且，单行文本或多行文本的位置和长度不固定，因此，需要根据前述步骤得到的文本行识别结果对识别结果指示文本行属性为单行文本的相邻图像区域进行聚合，得到单行文本分布的至少一个聚合图像区域，以及，对识别结果指示文本行属性为多行文本的相邻图像区域进行聚合，得到多行文本分布的至少一个聚合图像区域。

例如，如图9所示的图像区域图像区域910至9010中的待识别文本行图像的文本行识别结果分别为：(0.90，0.10)、(0.80，0.20)、(0.90，0.10)、(0.80，0.20)、(0.90，0.10)、(0.80，0.20)、(0.89，0.11)、(0.55，0.45)、(0.10，0.90)和(0.20，0.80)。上述文本行识别结果说明该待识别文本行图像中：左侧第1个图像区域至左侧第8个图像区域的文本行属性为单行文本，左侧第9个图像区域和左侧第10个图像区域的文本行属性为多行文本。进一步的，把文本行属性为单行文本的8个图像区域(即图像区域910至980)进行聚合，得到一个新的图像区域，如图10中的1010，则该图像区域1010中该待识别文本行图像的文本行属性为单行文本；把文本行属性为多行文本的2个图像区域(即图像区域990至9010)进行聚合，得到一个新的图像区域，如图10中的1020，则该图像区域1020中该待识别文本行图像的文本行属性为多行文本。由于聚合之前的每个图像区域的尺寸等于滑窗的尺寸，因此，可以确定聚合之前的每个图像区域的位置坐标，进一步可以确定聚合后得到的新的图像区域的位置坐标。

至此，确定了该待识别文本行图像中不同文本行属性的文本在该待识别文本行图像中的分布位置。

本申请实施例公开的文本定位方法，通过预先训练文本行识别模型，并在获取到待识别文本行图像；沿所述待识别文本行图像的宽度方向按照预设步长移动预设宽度和预设高度的滑窗，确定所述待识别文本行图像上顺序分布的图像区域，所述图像区域的宽度与所述滑窗的宽度匹配；将各所述图像区域内待识别文本行图像分别输入至预先训练的文本行识别模型，确定各所述图像区域内所述待识别文本行图像对应的文本行识别结果，其中，所述文本行识别结果用于指示相应图像区域内所述待识别文本行图像的文本行属性；根据各所述图像区域内所述待识别文本行图像对应的文本行识别结果，确定所述待识别文本行图像中与所述文本行属性匹配的图像位置，有助于解决现有技术中文本识别准确率低下的问题。本申请实施例公开的文本定位方法通过对待识别文本行图像进行分区域识别文本行属性，再根据识别结果对图像区域进行聚合，从而确定待识别文本行图像中不同文本行属性的文本(如单行文本或多行文本)的分布区域，有助于针对不同的文本区域采用与该文本区域的文本行属性对应的文本图像识别引擎对相应文本区域的图像进行识别，以提升文本识别的准确性。

实施例三：

相应的，如图11所示，本申请实施例还公开了一种文本识别方法，包括步骤111至步骤113。

步骤111，确定待识别文本行图像中与不同文本行属性对应的图像区域。

具体实施时，对于待识别文本行图像，通过实施例一或实施例二所述的文本定位方法确定该待识别文本行图像中与不同文本行属性对应的图像区域，如与单行文本对应的图像区域、与多行文本对应的图像区域。

步骤112，通过与各文本行属性匹配的文本图像识别模型，分别对与相应文本行属性对应的图像区域内的待识别文本行图像进行识别，确定相应图像区域内的待识别文本行图像的识别结果。

接下来，通过单行文本图像识别模型对与单行文本对应的各图像区域，分别进行识别，得到相应的单行识别结果；通过多行文本图像识别模型对与多行文本对应的各图像区域，分别进行识别，得到相应的多行识别结果。

步骤113，根据上述各图像区域的位置，对各图像区域内的待识别文本行图像的识别结果进行融合，确定该待识别文本行图像对应的文本。

最后，对得到的单行识别结果和多行识别结果，按照相应的图像区域在待识别文本行图像中的位置进行拼接，得到该待识别文本行图像中的识别结果。

具体实施时，所述不同文本行属性可以为单行文本或和双行文本，也可以为不同文字字体，或者不同文字种类。

本申请实施例公开的文本识别方法，通过确定待识别文本行图像中与不同文本行属性对应的图像区域，然后，通过与各所述文本行属性匹配的文本图像识别模型，分别对与相应文本行属性对应的图像区域内的待识别文本行图像进行识别，确定相应图像区域内的待识别文本行图像的识别结果，根据所述图像区域的位置，对各图像区域内的待识别文本行图像的识别结果进行融合，确定所述待识别文本行图像对应的文本，有助于提升复杂排布的文本图像的识别准确性。

实施例四：

相应的，本申请实施例还公开了一种文本定位装置，如图12所示，所述装置包括：

待识别文本行图像获取模块121，用于获取待识别文本行图像；

图像区域确定模块122，用于沿该待识别文本行图像的宽度方向按照预设步长移动预设宽度和预设高度的滑窗，确定该待识别文本行图像上顺序分布的图像区域，上述图像区域的宽度与上述滑窗的宽度匹配，上述图像区域的高度与上述滑窗的高度匹配；

图像区域识别模块123，用于将各上述图像区域内该待识别文本行图像分别输入至预先训练的文本行识别模型，确定各图像区域内该待识别文本行图像对应的文本行识别结果，其中，文本行识别结果用于指示相应图像区域内该待识别文本行图像的文本行属性；

文本定位模块124，用于根据各图像区域内该待识别文本行图像对应的文本行识别结果，确定该待识别文本行图像中与上述文本行属性匹配的图像位置。

可选的，在将各所述图像区域内的所述待识别文本行图像分别输入至预先训练的文本行识别模型，确定各所述图像区域内的所述待识别文本行图像对应的文本行识别结果之前，如图13所示，所述文本定位装置还包括：

训练样本获取模块125，用于获取文本行识别模型的训练样本，其中，所述训练样本的样本数据包括：所述预设宽度和预设高度的文本行图像，所述训练样本的样本标签用于指示所述文本行图像的文本行属性；

文本行识别模型训练模块126，用于以所述样本数据作为所述文本行识别模型的输入，以所述文本行识别模型的输出与相应的样本标签的误差最小为目标，训练所述文本行识别模型。

可选的，所述训练样本获取模块125进一步用于：

可选的，所述获取匹配不同文本行属性的若干文本行图像的步骤之后，所述训练样本获取模块125进一步还用于：

可选的，所述待识别文本行图像获取模块121进一步用于：

可选的，所述文本定位模块124进一步用于：

本申请实施例公开的文本定位装置，通过在获取到待识别文本行图像之后；沿所述待识别文本行图像的宽度方向按照预设步长移动预设宽度和预设高度的滑窗，确定所述待识别文本行图像上顺序分布的图像区域，所述图像区域的宽度与所述滑窗的宽度匹配；将各所述图像区域内待识别文本行图像分别输入至预先训练的文本行识别模型，确定各所述图像区域内所述待识别文本行图像对应的文本行识别结果，其中，所述文本行识别结果用于指示相应图像区域内所述待识别文本行图像的文本行属性；根据各所述图像区域内所述待识别文本行图像对应的文本行识别结果，确定所述待识别文本行图像中与所述文本行属性匹配的图像位置，有助于解决现有技术中文本识别准确率低下的问题。本申请实施例公开的文本定位装置通过对待识别文本行图像进行分区域识别文本行属性，再根据识别结果对图像区域进行聚合，从而确定待识别文本行图像中不同文本行属性的文本(如单行文本或多行文本)的分布区域，有助于针对不同的文本区域采用与该文本区域的文本行属性对应的文本图像识别引擎对相应文本区域的图像进行识别，以提升文本识别的准确性。

实施例五：

相应的，本申请实施例还公开了一种文本识别装置，如图14所示，所述装置包括：

文本行属性对应图像区域确定模块141，用于通过本申请实施例一和实施例二所述的文本定位方法确定待识别文本行图像中与不同文本行属性对应的图像区域；

分区域识别模块142，用于通过与各所述文本行属性匹配的文本图像识别模型，分别对与相应文本行属性对应的图像区域内的待识别文本行图像进行识别，确定相应图像区域内的待识别文本行图像的识别结果；

识别结果确定模块143，用于根据所述文本行属性对应图像区域确定模块确定的图像区域的位置，对各图像区域内的待识别文本行图像的识别结果进行融合，确定所述待识别文本行图像对应的文本。

本实施例公开的文本识别装置用于实现前述实施例三中所述的文本识别方法，文本识别装置的各个模块的具体实施方式参见文本识别方法中的相应步骤，本实施例不再赘述。

本申请实施例公开的文本识别装置，通过确定待识别文本行图像中与不同文本行属性对应的图像区域，然后，通过与各所述文本行属性匹配的文本图像识别模型，分别对与相应文本行属性对应的图像区域内的待识别文本行图像进行识别，确定相应图像区域内的待识别文本行图像的识别结果，根据所述图像区域的位置，对各图像区域内的待识别文本行图像的识别结果进行融合，确定所述待识别文本行图像对应的文本，有助于提升复杂排布的文本图像的识别准确性。

相应的，本申请实施例还公开了一种电子设备，所述电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例一和实施例二所述的文本定位方法，和/或，实现本申请实施例三所述的文本识别方法。所述电子设备可以为手机、PAD、平板电脑、人脸识别机等。

相应的，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本申请实施例一和实施例二所述的文本定位方法的步骤，和/或，实现本申请实施例三所述的文本识别方法的步骤。

本申请的装置实施例与方法相对应，装置实施例中各模块和各单元的具体实现方式参见方法是实施例，此处不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解，在本申请所提供的实施例中，所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

Claims

1.一种文本定位方法，其特征在于，包括：

获取待识别文本行图像；

2.根据权利要求1所述的方法，其特征在于，所述将各所述图像区域内的所述待识别文本行图像分别输入至预先训练的文本行识别模型，确定各所述图像区域内的所述待识别文本行图像对应的文本行识别结果的步骤之前，还包括：

获取文本行识别模型的训练样本，其中，所述训练样本的样本数据包括：所述预设宽度和所述预设高度的文本行图像，所述训练样本的样本标签用于指示所述文本行图像的文本行属性；

3.根据权利要求2所述的方法，其特征在于，获取文本行识别模型的训练样本的步骤，包括：

4.根据权利要求3所述的方法，其特征在于，所述获取匹配不同文本行属性的若干文本行图像的步骤之后，还包括：

5.根据权利要求1所述的方法，其特征在于，所述获取待识别文本行图像的步骤，包括：

6.根据权利要求3所述的方法，其特征在于，所述根据各所述图像区域内所述待识别文本行图像对应的文本行识别结果，确定所述待识别文本行图像中与所述文本行属性匹配的图像位置的步骤，包括：

7.一种文本识别方法，其特征在于，包括：

通过权利要求1至6任一项所述的文本定位方法确定待识别文本行图像中与不同文本行属性对应的图像区域；

8.一种文本定位装置，其特征在于，包括：

待识别文本行图像获取模块，用于获取待识别文本行图像；

9.根据权利要求8所述的装置，其特征在于，在将各所述图像区域内的所述待识别文本行图像分别输入至预先训练的文本行识别模型，确定各所述图像区域内的所述待识别文本行图像对应的文本行识别结果之前，所述装置还包括：

10.根据权利要求9所述的装置，其特征在于，所述训练样本获取模块进一步用于：

11.根据权利要求10所述的装置，其特征在于，所述获取匹配不同文本行属性的若干文本行图像的步骤之后，所述训练样本获取模块进一步还用于：

12.根据权利要求8所述的装置，其特征在于，所述待识别文本行图像获取模块进一步用于：

13.根据权利要求10所述的装置，其特征在于，所述文本定位模块进一步用于：

14.一种文本识别装置，其特征在于，包括：

文本行属性对应图像区域确定模块，用于通过权利要求1至6任一项所述的文本定位方法确定待识别文本行图像中与不同文本行属性对应的图像区域；

15.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任意一项所述的文本定位方法，和/或权利要求7所述的文本识别方法。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至6任意一项所述的文本定位方法的步骤，和/或权利要求7所述的文本识别方法的步骤。