CN111881916B

CN111881916B - 一种文字定位方法、装置及设备

Info

Publication number: CN111881916B
Application number: CN202010692775.5A
Authority: CN
Inventors: 卢健
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2023-07-25
Anticipated expiration: 2040-07-17
Also published as: CN111881916A

Abstract

本说明书实施例公开了一种文字定位方法、装置及设备，所述方法包括获取包括文字的原始图像；基于原始图像生成多个中间图像；中间图像包括预计文字区域和预计背景区域；分别对应多个中间图像生成多个二值矩阵；以预计文字区域的面积最小的中间图像对应的二值矩阵作为基准矩阵，以其他中间图像对应的二值矩阵作为约束矩阵。对应所述预计文字区域的元素为第一取值，对应所述预计背景区域的元素为第二取值。以中间图像的预计文字区域的面积顺次增大的顺序，选择约束矩阵，对所述基准矩阵中第一取值的元素的数量进行扩展处理，利用目标二值矩阵中第一取值的元素确定所述原始图像中的文字所在位置。利用本说明书各个实施例，可以提高文字定位的效率。

Description

一种文字定位方法、装置及设备

技术领域

本说明书涉及文字识别技术领域，特别地，涉及一种文字定位方法、装置及设备。

背景技术

文字识别是一种从图像中提取出文字字符的方法，而文字定位则是文字识别任务中的重要环节。目前，文字定位的方法主要有两种，一种是基于检测框的目标检测方法，一种是基于像素的实例分割方法。目前的实例分割方法中，在获得分割图像后，可采用如渐进扩展等方法进一步定位各文字字符，以便于准确识别各文字字符。但目前的实例分割方法中多采用队列的方式进行扩展处理，该方式需要遍历文字区域相邻的各像素点，因此扩展处理效率较低。而随着文字识别技术的应用越来越广泛，文字识别的数据处理量也越来越大，如何进一步提高文字定位的效率，进而提高文字识别的效率，成为亟待解决的技术问题。

发明内容

本说明书实施例的目的在于提供一种文字定位方法、装置及设备，可以进一步提高文字定位的效率。

本说明书提供一种文字定位方法、装置及设备是包括如下方式实现的：

一种文字定位方法，应用于服务器，包括：获取包括文字的原始图像。基于所述原始图像生成多个中间图像；其中，所述中间图像包括表示预计文字区域的颜色和表示预计背景区域的颜色；所述多个中间图像的预计文字区域的面积不同。分别对应所述多个中间图像生成多个二值矩阵；其中，以预计文字区域的面积最小的中间图像对应的二值矩阵作为基准矩阵，以除预计文字区域的面积最小的中间图像之外的中间图像对应的二值矩阵作为约束矩阵；其中，与中间图像对应的二值矩阵中，对应所述预计文字区域的元素为第一取值，以及对应所述预计背景区域的元素为第二取值。以中间图像的预计文字区域的面积顺次增大的顺序，选择约束矩阵，对所述基准矩阵中第一取值的元素的数量进行扩展处理，得到目标二值矩阵；其中，所述目标二值矩阵中第一取值的元素对应的所述原始图像中的区域为文字区域。

本说明书提供的所述方法的另一些实施例中，所述对所述基准矩阵中第一取值的元素的数量进行扩展处理，包括：确定所述基准矩阵中对应预计文字区域的外边界的第一位置信息。基于所述第一位置信息执行下述扩展步骤：获取选择的约束矩阵中所述第一位置信息所对应的元素的取值；在获取的取值中存在第一取值的情况下，根据所述获取的取值对所述基准矩阵中第一取值的元素的数量进行扩展处理。

本说明书提供的所述方法的另一些实施例中，所述对所述基准矩阵中第一取值的元素的数量进行扩展处理，包括：确定所述获取的取值中第一取值的元素所对应的第二位置信息。将所述基准矩阵中第二位置信息所对应的元素的取值更新为第一取值，获得扩展后的基准矩阵。

本说明书提供的所述方法的另一些实施例中，所述对所述基准矩阵中第一取值的元素的数量进行扩展处理，包括：将所述基准矩阵中所述第一位置信息所对应的元素的取值更新为所述获取的取值中相应第一位置信息所对应的元素的取值。

本说明书提供的所述方法的另一些实施例中，所述确定所述基准矩阵中对应预计文字区域的外边界的第一位置信息，包括：以所述基准矩阵的维度范围为限制，将所述基准矩阵中第一取值的元素的位置分别向四周平移一个元素单位。将平移后的基准矩阵与平移前的基准矩阵进行矩阵运算，得到边界矩阵。将所述边界矩阵中第一取值的元素的位置信息作为所述基准矩阵中对应预计文字区域的外边界的第一位置信息。

本说明书提供的所述方法的另一些实施例中，所述方法还包括：将扩展后的基准矩阵代替所述基准矩阵，重复上述扩展步骤，直至所述选择的约束矩阵中所述第一位置信息所对应的元素的取值中不存在第一取值。

本说明书提供的所述方法的另一些实施例中，所述方法还包括：在所述选择的约束矩阵中所述第一位置信息所对应的元素的取值中不存在第一取值情况下，获取所述选择的约束矩阵的下一个约束矩阵，对在所述选择的约束矩阵约束下最后一次扩展后的基准矩阵重复第一位置信息确定以及扩展步骤，直至不存在约束矩阵，得到目标二值矩阵。

本说明书提供的所述方法的另一些实施例中，所述对所述基准矩阵中第一取值的元素的数量进行扩展处理，包括：利用pytorch工具，调用GPU资源并行对所述基准矩阵中第一取值的元素的数量进行扩展处理。

另一方面，本说明书实施例还提供一种文字定位装置，应用于服务器，包括：原始图像获取模块，用于获取包括文字的原始图像。中间图像生成模块，用于基于所述原始图像生成多个中间图像；其中，所述中间图像包括表示预计文字区域的颜色和表示预计背景区域的颜色；所述多个中间图像的预计文字区域的面积不同。二值矩阵生成模块，用于分别对应所述多个中间图像生成多个二值矩阵；其中，以预计文字区域的面积最小的中间图像对应的二值矩阵作为基准矩阵，以除预计文字区域的面积最小的中间图像之外的中间图像对应的二值矩阵作为约束矩阵；其中，与中间图像对应的二值矩阵中，对应所述预计文字区域的元素为第一取值，以及对应所述预计背景区域的元素为第二取值。扩展处理模块，用于以中间图像的预计文字区域的面积顺次增大的顺序，选择约束矩阵，利用选择的约束矩阵对所述基准矩阵中第一取值的元素的数量进行扩展处理，得到目标二值矩阵；其中，所述目标二值矩阵中第一取值的元素对应的所述原始图像中的区域为文字区域。

另一方面，本说明书实施例还提供一种文字定位设备，所述设备包括至少一个处理器及用于存储处理器可执行指令的存储器，所述指令被所述处理器执行时实现包括上述任意一个或者多个实施例所述方法的步骤。

本说明书一个或多个实施例提供的文字定位方法、装置及设备，在接收到待文字定位的原始图像后，可以先初步对原始图像中文字所对应的预计文字区域与文字之外的预计背景区域进行分割，获得多个针对不同预计文字区域面积的中间图像。然后，再将中间图像转换为二值矩阵，利用不同的取值在二维矩阵中表征预计文字区域以及预计背景区域。进而利用二值矩阵对文字所占的像素区域进行渐进式扩展处理。基于二值矩阵进行扩展处理，可以有效利用矩阵运算及索引进行扩展过程中的数据处理，降低处理时间复杂度，大幅提高像素扩展处理的效率，进而提高文字定位效率，满足文字识别应用的需求。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本说明书提供的一种文字定位方法实施例的流程示意图；

图2为本说明书提供的一个实施例中的渐进式扩展流程示意图；

图3为本说明书提供的一个实施例中的渐进式扩展流程示意图；

图4为本说明书提供的一个实施例中的平移前中间图像的二值矩阵示意图；

图5为本说明书提供的一个实施例中的平移后中间图像的二值矩阵示意图；

图6为本说明书提供的一个实施例中的外边界的二值矩阵示意图；

图7为本说明书提供的一个实施例中的扩展前的中间图像示意图；

图8为本说明书提供的一个实施例中的扩展前的中间图像的边界线示意图；

图9为本说明书提供的一个实施例中的扩展后的中间图像示意图；

图10为本说明书提供的一个实施例中的待文字定位的原始图像示意图；

图11为本说明书提供的一种文字定位装置的模块结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是说明书一部分实施例，而不是全部的实施例。基于说明书一个或多个实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书实施例方案保护的范围。

本说明书实施例提供的一个场景示例中，所述文字定位方法可以应用于进行文字识别的服务器，也可以应用于仅实现文字定位的服务器。所述服务器在接收到包括文字的原始图像后，可以先将原始图像进行分割处理，以初步定位文字所在的预计文字区域，将文字所在的预计文字区域与预计背景区域进行区分，获得预计文字区域的面积不同的多个中间图像。然后，分别对应所述多个中间图像生成多个二值矩阵，基于二值矩阵进行文字所占像素区域的定位。基于二值矩阵进行文字所在像素的定位，可以大幅降低数据处理的复杂度，从而可以大幅提高文字定位效率，满足实际应用的需要。

图1是本说明书提供的所述文字定位方法实施例流程示意图。虽然本说明书提供了如下述实施例或附图所示的方法操作步骤或装置结构，但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者部分合并后更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中，这些步骤的执行顺序或装置的模块结构不限于本说明书实施例或附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置、服务器或终端产品应用时，可以按照实施例或者附图所示的方法或模块结构进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境、甚至包括分布式处理、服务器集群的实施环境)。具体的一个实施例如图1所示，本说明书提供的文字定位方法的一个实施例中，所述方法可以应用于所述服务器，所述方法可以包括如下步骤：

S20：获取包括文字的原始图像。

服务器可以获取包括文字的原始图像。所述原始图像可以是指预计文字区域与预计背景区域分割处理前的图像。如可以为信息采集设备对包含文字的实物载体进行拍照等方式采集到的图像。也可以为对原始采集的图像进行预处理后得到的图像。当然，也可以为基于电子设备制作的包含文字并转换成图像格式的图像。

服务器可以获取上述设备发送的包括文字的原始图像，以利用文字定位以及识别等方法对所述原始图像中的文字进行处理，将原始图像中的文字转换成计算机可编辑的文字字符。

S22：基于所述原始图像生成多个中间图像；其中，所述中间图像包括表示预计文字区域的颜色和表示预计背景区域的颜色；所述多个中间图像的预计文字区域的面积不同。

所述预计文字区域可以是指包含文字部分像素区域或者全部像素区域的图像区域。所述预计背景区域可以是指原始图像中预计文字区域之外的图像区域。服务器可以对所述原始图像中的文字所在区域进行初步定位，并将初步定为出的文字所在区域作为预计文字区域，预计文字区域之外的图像区域作为预计背景区域，得到包含预计文字区域与预计背景区域的中间图像。服务器还可以生成包含不同面积的预计文字区域的多个中间图像。

一些实施方式中，服务器可以以原始图像中初步定位的文字的中心点为基准点，基于不同的分割尺度确定所述原始图像中的文字所在区域，将文字所在区域与文字所在区域之外的图像区域进行分割，获得所述原始图像相对不同分割尺度分割处理后得到的中间图像。需要说明的是，所述文字的中心点为基于算法初步确定的文字定位的基准点，并非文字字符的实际中心点，其可以与实际中心点向重合，也可以不重合。所述分割尺度可以表示以文字的中心点为基准，定位图像中的文字所在区域时所采用的像素范围值相对完整文字的像素范围值的占比。相应的，部分中间图像中的预计文字区域可能仅包括文字的部分像素区域，而并非全部像素区域，而部分中间图像中的预计文字区域则包含文字的全部像素区域。当然，实际应用中，也可以采用其他的方式初步定为所述原始图像中文字所在的区域，生成多个中间图像，这里不做限定。

在预计文字区域与预计文字区域之外的预计背景区域分割时，可以对预计文字区域与预计背景区域分别赋予不同的像素值，以更为简单方便的对预计文字区域与预计背景区域进行区分。相应的，所述中间图像可以包括表示预计文字区域的颜色和表示预计背景区域的颜色。一些实施方式中，所述中间图像如可以采用二值图的形式。如可以将中间图像中预计文字区域的像素值赋予一固定值，而预计背景区域赋予另一固定值。利用二值化的方式表征中间图像中的预计文字图像以及预计背景图像，可以进一步提高后续文字定位的处理效率。当然，如果原始图像包含多个文字，也可以对不同的文字所对应的预计文字区域分别赋予不同的像素值，对预计文字区域之外的预计背景区域赋予另一像素值。

可以利用PSENET方法对所述原始图像进行处理，获得多个中间图像。如图2所示，图2中的a、e、f为利用PSENET算法对原始图像进行分割处理后，获得的中间图像。其中，白色区域为预计文字区域，黑色区域为预计背景区域。其中，a、e、f所对应的分割尺度越来越大，即文字核(kenel)越来越大，相应的分割出的预计文字区域的面积也越来越大。a、e中的预计文字区域仅包括文字的部分像素区域，而f中的预计文字区域则包含了文字的全部像素区域。

S24：分别对应所述多个中间图像生成多个二值矩阵；其中，以预计文字区域的面积最小的中间图像对应的二值矩阵作为基准矩阵，以除预计文字区域的面积最小的中间图像之外的中间图像对应的二值矩阵作为约束矩阵；其中，与中间图像对应的二值矩阵中，对应所述预计文字区域的元素为第一取值，以及对应所述预计背景区域的元素为第二取值。

在获得中间图像后，服务器可以分别对应所述多个中间图像生成多个二值矩阵。相应的，二值矩阵中元素与中间图像的像素点对应，各元素的取值可以根据相应的像素点的值确定。如二值矩阵中各元素的取值可以直接为相应像素点的取值。一些实施例中，可以配置与中间图像对应的二值矩阵中，对应所述预计文字区域的元素为第一取值，对应所述预计背景区域的元素为第二取值。如可以配置所述预计文字区域的元素对应的第一取值为1，预计背景区域的元素对应的第二取值为0。当然，也可以采用其他的取值形式，这里不做限定。

为了便于表述，可以将预计文字区域的面积最小的中间图像作为基准图像，相应的，将基准图像对应的二值矩阵作为基准矩阵，将除预计文字区域的面积最小的中间图像之外的中间图像作为约束图像，相应的，将约束图像对应的二值矩阵作为约束矩阵。

S26：以中间图像的预计文字区域的面积顺次增大的顺序，选择约束矩阵，利用选择的约束矩阵对所述基准矩阵中第一取值的元素的数量进行扩展处理，得到目标二值矩阵；其中，所述目标二值矩阵中第一取值的元素对应的所述原始图像中的区域为文字区域。

服务器可以以中间图像的预计文字区域的面积顺次增大的顺序，选择约束矩阵。然后，可以利用选择的约束矩阵为约束，对所述基准矩阵中第一取值的元素的数量逐渐进行扩展处理，得到目标二值矩阵。

如可以按预计文字区域的面积从小到大的顺序对各中间图像进行排序。以排在第一位的中间图像所对应的二值矩阵作为基准矩阵。从排在第二位的中间图像开始，依次选择各中间图像所对应的二值矩阵作为约束矩阵。如先将排在第二位的中间图像所对应的二值矩阵作为约束矩阵，以该约束矩阵中的第一取值的元素为约束，对所述基准矩阵中第一取值的元素的数量进行扩展，直至无法再扩展。然后，再确定是否存在排在第三位的中间图像，如果存在，则再将排在第三位的中间图像所对应的二值矩阵作为约束矩阵，再对第二位的中间图像约束下扩展后的基准矩阵继续进行扩展。

重复上述步骤，依次确定是否存在下一个中间图像，直至不再存在中间图像。则输出最后一次约束下扩展后的基准矩阵，作为目标二值矩阵。可以利用最后一次约束下扩展后输出的目标二值矩阵定位出原始图像中相应文字所在的区域。

上述实施例提供的方案，以中间图像所对应的二值矩阵中预计文字区域所对应的元素的取值为约束，进行文字所占像素位置的逐渐扩展，可以有效降低数据处理复杂度，更加简单有效的实现原始图像中文字所对应的文字区域的定位。

一些实施例中，服务器可以采用下述方式对所述基准矩阵中第一取值的元素的数量进行扩展处理：

确定所述基准矩阵中对应预计文字区域的外边界的第一位置信息。以及，基于所述第一位置信息执行下述扩展步骤：获取选择的约束矩阵中所述第一位置信息所对应的元素的取值；在获取的取值中存在第一取值的情况下，根据所述获取的取值对所述基准矩阵中第一取值的元素的数量进行扩展处理。

一些实施例中，可以以所述基准矩阵的维度范围为限制，将所述基准矩阵中第一取值的元素的位置分别向四周平移一个元素单位，将平移后的基准矩阵与平移前的基准矩阵进行矩阵运算，得到边界矩阵。然后，可以将所述边界矩阵中第一取值的元素的位置信息作为所述基准矩阵中对应预计文字区域的外边界的第一位置信息。

以将所述基准矩阵中第一取值的元素的位置向下平移一个元素单位为例进行说明如下。可以将所述基准矩阵中第一取值的元素的位置向下平移一个元素单位，获得平移后的基准矩阵，然后，可以将平移后的基准矩阵与平移前的基准矩阵进行矩阵运算，得到边界矩阵。可以根据中间图像对应的二值矩阵中各元素的值的设定方式确定矩阵运算的具体运算形式，以准确高效的确定出预计文字区域的外边界所对应的元素的位置信息。例如，所述矩阵运算可以包括平移后的基准矩阵与平移前的基准矩阵中所有相应元素之间的运算，也可以包括平移后的基准矩阵与平移前的基准矩阵中部分元素之间的运算。所述矩阵运算如可以为点乘运算、加和运算等等。基于上述方案，可以将所述基准矩阵中第一取值的元素的位置向上、左或右分别进行平移处理。

其中，以所述基准矩阵的维度范围为限制向四周平移一个元素单位是指，如果预计文字区域已经达到中间图像的某边界，即某一个或者多个第一取值的元素位于基准矩阵的边界行或者列中，其在相应的方向上向已无列或者行可以进行平移，此时，在此方向上，无需再进行平移操作，仅对其他可以平移的方向上进行平移操作。所述平移一个元素单位是指元素向上或向下或向左或向右平移一个元素位置。所述位置信息如可以利用行编号、列编号来表征。

本实施例中，在预计文字区域的边界确定时，通过直接利用一次矩阵运算即可确定预计文字区域的外边界，可以大幅提高边界确定的效率，进而提高扩展效率。

当然，实际应用中，还可以采用其他方式对所述基准矩阵进行平移处理，这里不做限定。

然后，可以以中间图像的预计文字区域的面积顺次增大的顺序，首先选择排在第二位的中间图像所对应的二值矩阵作为约束矩阵，然后，可以获取并判断该选择的约束矩阵中所述第一位置信息所对应的元素的取值中是否存在第一取值。在确定存在第一取值的情况下，可以基于上述获取的取值对所述基准矩阵中第一取值的元素的数量进行扩展处理。

一些实施例中，如可以将所述基准矩阵中所述第一位置信息所对应的元素的取值更新为所述获取的取值中相应第一位置信息所对应的元素的取值。例如，可以根据矩阵元素索引的方式，获取并判断选择的约束矩阵中第一位置信息所对应的行编号、列编号下各元素的取值中是否存在第一取值，如果存在，可以将所述基准矩阵中相应行编号、列编号所对应的元素的取值更新为获取的取值中相应行编号、列编号所对应的元素的取值。

或者，另一些实施例中，可以进一步确定所述获取的取值中第一取值的元素在选择的约束矩阵中所对应的第二位置信息。将所述基准矩阵中第二位置信息所对应的元素的取值更新为第一取值，获得扩展后的基准矩阵。通过进一步确定获取的取值中第一取值的元素在选择的约束矩阵中所对应的第二位置信息，然后，仅将基准矩阵中第二位置信息所对应的元素的取值更换为第一取值，可以更加简单高效的实现对基准矩阵中第一取值元素的数量的扩展处理。

上述实施例中，通过矩阵元素取值进行文字所占像素点扩展过程中的扩展范围判断，以及通过矩阵元素取值索引的方式进行文字所占像素点的扩展处理，可以降低数据处理复杂度，更加简单高效的实现文字所占的像素点的扩展处理。

然后，可以将扩展后的基准矩阵代替扩展前的基准矩阵，重新确定扩展后的基准矩阵中预计文字区域的外边界所对应的第一位置信息。并基于新确定的第一位置信息重复上述扩展步骤，直至当前所选择的约束矩阵中所述第一位置信息所对应的元素的取值中不存在第一取值，从而实现以单个约束矩阵为约束，对基准矩阵中第一取值元素的数量的逐步扩展，

然后，可以在所述选择的约束矩阵中所述第一位置信息所对应的元素的取值中不存在第一取值情况下，以中间图像的预计文字区域的面积顺次增大的顺序，获取当前所选择的约束矩阵的下一个约束矩阵，对在所述选择的约束矩阵约束下最后一次扩展后的基准矩阵重复第一位置信息确定以及扩展步骤，直至不存在约束矩阵，完成在各中间图像约束下的扩展处理，得到目标二值矩阵。

上述实施例中，通过利用矩阵运算以及矩阵索引的方法，可以简单高效的实现单次扩展时所对应范围判断以及扩展处理，有效较低各文字所对应的像素点单次扩展时数据处理的复杂度，进而提高单次扩展效率。同时，基于矩阵运算以及索引的方式进行扩展处理，还可以有效调取GPU资源进行并行处理，从而可以进一步提高扩展处理的效率，进而提高文字定位的效率。

相应的，一些实施例中，可以利用pytorch工具，调用GPU资源并行对所述基准矩阵中第一取值的元素的数量进行扩展处理，从而可以进一步提高数据处理的效率。

基于上述实施例提供的方案，一些实施方式中，可以利用下述方法进行扩展处理：

S240：将所述多个中间图像分别转换为二值矩阵，其中，二值矩阵中的元素可以用于表征中间图像中对应像素的取值。

S241：将所述多个中间图像按预计文字区域的面积从小到大的顺序进行排序。并将预计文字区域的面积最小的中间图像对应的二值矩阵作为基准矩阵，将除预计文字区域的面积最小的中间图像之外的中间图像对应的二值矩阵作为约束矩阵。执行下述迭代步骤S242至S249。

S242：以所述基准矩阵的维度范围为限制，将所述基准矩阵中第一取值的元素的位置分别向四周平移一个元素单位。

S243：将平移后的基准矩阵与平移前的基准矩阵进行矩阵运算，获得边界矩阵。

S244：确定所述边界矩阵中第一取值的元素的位置信息，作为第一位置信息。

S245：获取选择的约束矩阵中所述第一位置信息所对应的元素的取值。

S246：判断步骤S245中获取的取值中是否存在第一取值，如果存在，则执行S247步骤。如果不存在，则跳转至S249步骤。

S247：根据步骤S245中获取的取值对所述基准矩阵中第一取值的元素的数量进行扩展处理。

S248：以扩展后的基准矩阵替换扩展前的基准矩阵，重复步骤S242至S247。

S249：获取所述选择的约束矩阵的下一个约束矩阵，重复上述步骤S242至S248，对在所述选择的约束矩阵约束下最后一次扩展后的基准矩阵继续进行扩展处理，直至不存在约束矩阵，得到目标二值矩阵。

然后，可以根据目标二值矩阵中第一取值的元素确定相应文字在原始图像中的像素位置，实现对文字的定位。

如图3所示，假设可以一直向下扩展，以仅向下扩展为例，对上述扩展处理步骤进行说明，如下。

S301：将所有中间图像存储为tensor(二值矩阵)，即二值矩阵。矩阵上每一个元素对应中间图像上的像素点。假设取值为1的元素对应预计文字区域所占的像素点，取值为0的元素对应预计背景区域所占的像素点。如图4所示。图4表示基准矩阵A的元素分布示意图。

执行下述迭代步骤：

S302：将基准矩阵A往下平移一个单位，第一行全部补0处理，形成如图5所示的平移后的基准矩阵B。然后，对A与B进行矩阵运算，获得边界矩阵C，如图6所示。矩阵运算的伪代码可以表示为：

Down＝(B>0)×(A＝＝0)

这样仅用一次矩阵点乘，判断出B中等于1且A中等于0的像素位置，就可以直接确定中间图像的下边界的位置信息。图6中虚线框中的部分即为确定的下边界所对应的元素。使用该矩阵运算的方式所对应的操作时间复杂度仅为O(1)，且可以使用GPU并行计算资源，从而可以大幅提高处理效率。一些实施例中，可以利用pytorch算法进行上述运算操作。而若采用队列的方式，则需要遍历预计文字区域相邻的各像素点，时间操作复杂度为O(n)，例如，对于上述附图4所对应的中间图像需要建立的队列的长度n为20，显然处理效率较低。

如图7及图8所述，其中，图7表示预计文字区域的面积最小的中间图像。图8中的白色区域表示预计文字区域的面积最小的中间图像的下边界。

S303：确定边界矩阵中取值大于0的元素的位置信息，作为第一位置信息。判断选择的约束矩阵在第一位置信息中是否存在大于0的元素。

S304：如果存在取值大于0的元素，则对基准矩阵进行一次扩展处理。具体的，可以进一步确定上述判断出的取值大于0的元素在选择的约束矩阵中所对应的第二位置信息，将基准矩阵中第二位置信息所对应的元素的取值更新为1。伪代码实现如下：

Down＝Down×B

Origin[Down>0]＝Down

这里使用了张量的高级索引操作Origin[Down>0]，时间复杂度同样为O(1)，从而可以进一步提高数据处理效率。一些实施方式中，如可以利用pytorch算法进行张量的索引操作。

以扩展后的基准矩阵代替扩展前的基准矩阵，转S302重新确定扩展后的基准图像中预计文字区域的外边界所对应的元素的第一位置信息，并重复S303～S304，直至该约束矩阵在第一位置信息下不存在取值大于0元素，即在该中间图像的约束下已无法进行再扩展。

S305：判断是否还存在下一个约束矩阵。如果存在，则转向S306。如不存在，则转307。

S306：重复S302～S304步骤，将下一个约束矩阵作为选择的约束矩阵，对扩展后的基准矩阵继续进行扩展处理。直至无约束矩阵，转S307。

S307：输出最后一次扩展后的基准矩阵，得到目标二值矩阵。

如图9所示，图9表示扩展后目标二值矩阵所对应的中间图像，其中，白色部分即为文字像素点所在位置，即图10中的日期所在的位置。

一些实施方式中，可以利用PSENET(渐进式扩展网络)进行对原始图像进行二值化处理，获得多个中间图像。PESNET采用以文字的中心所在区域为最小尺度，逐渐向外扩增文字所在的区域的方式，最终确定完整文字所在的区域，获得多个二值化的中间图像。如图2所示，中间图像中的黑色表示预计背景区域，白色表示预计文字区域。白色部分面积在不同的中间图像中由小到大递增。

然后，可以利用本说明书上述实施例提供的扩展的方法，依次以e、f二值图作为约束，对a中的文字的像素进行扩展。如图2中的g图所示，左边表示两个文字在a二值图中所对应的初始像素区域，以e二值图为约束，经过扩展(Scale Expansion)后，初始占2个像素的文字扩展后占12个像素，而初始占1个像素的文字扩展后占5个像素。图2中的b图基于a图定位的文字区域示意图；图2中的c图为以e图为约束，经过扩展后定位的文字区域示意图；图2中的d图为以f图为约束，经过扩展后定位的文字区域示意图。

当前二值图a上的像素扩展范围是由下一张二值图e上对应的预计文字区域的面积决定的，a中文字像素在e的约束下扩展完后文字像素面积不会超过e二值图上白色部分面积。在以e为约束无法再扩展后，再以f为约束，对在e为约束下扩展后的a进一步进行扩展。对于上述实例中，f为最后一个二值图，则以f为约束，无法再扩展后，既可输出最后一次扩展的二值图。如果f后还存在其他二值图，则继续以其他二值图为约束，进行扩展。依次类推，最终各文字所对应的像素区域不会超过尺度最大的二值图的文字区域。

本说明书上述实施例提供的扩展方式，相对于基于队列的方式，处理时间复杂度大幅降低，且还可以调用GPU资源进行并行处理，从而可以大幅提高扩展处理的效率，进而提高文字定位的效率，满足文字识别应用的需要。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。具体的可以参照前述相关处理相关实施例的描述，在此不做一一赘述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书一个或多个实施例提供的文字定位方法，在接收到待文字定位的原始图像后，可以先初步对原始图像中文字所对应的预计文字区域与文字之外的预计背景区域进行分割，获得多个针对不同预计文字区域面积的中间图像。然后，再将中间图像转换为二值矩阵，利用不同的取值在二维矩阵中表征预计文字区域以及预计背景区域。进而利用二值矩阵对文字所占的像素区域进行渐进式扩展处理。基于二值矩阵进行扩展处理，可以有效利用矩阵运算及索引进行扩展过程中的数据处理，降低处理时间复杂度，大幅提高像素扩展处理的效率，进而提高文字定位效率，满足文字识别应用的需求。

基于上述所述的文字定位方法，本说明书一个或多个实施例还提供一种文字定位装置。所述的装置可以包括使用了本说明书实施例所述方法的***、软件(应用)、模块、组件、服务器等并结合必要的实施硬件的装置。基于同一创新构思，本说明书实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似，因此本说明书实施例具体的装置的实施可以参见前述方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。具体的，图11表示说明书提供的一种文字定位装置实施例的模块结构示意图，如图11所示，应用于服务器，所述装置包括：

原始图像获取模块102，可以用于获取包括文字的原始图像；

中间图像生成模块104，可以用于基于所述原始图像生成多个中间图像；其中，所述中间图像包括表示预计文字区域的颜色和表示预计背景区域的颜色；所述多个中间图像的预计文字区域的面积不同；

二值矩阵生成模块106，可以用于分别对应所述多个中间图像生成多个二值矩阵；其中，以预计文字区域的面积最小的中间图像对应的二值矩阵作为基准矩阵，以除预计文字区域的面积最小的中间图像之外的中间图像对应的二值矩阵作为约束矩阵；其中，与中间图像对应的二值矩阵中，对应所述预计文字区域的元素为第一取值，以及对应所述预计背景区域的元素为第二取值；

扩展处理模块108，可以用于以中间图像的预计文字区域的面积顺次增大的顺序，选择约束矩阵，利用选择的约束矩阵对所述基准矩阵中第一取值的元素的数量进行扩展处理，得到目标二值矩阵；其中，所述目标二值矩阵中第一取值的元素对应的所述原始图像中的区域为文字区域。

另一些实施例中，所述扩展处理模块108可以包括：

位置信息确定单元，可以用于确定所述基准矩阵中对应预计文字区域的外边界的第一位置信息。

扩展处理单元，可以用于基于所述第一位置信息执行下述扩展步骤：获取选择的约束矩阵中所述第一位置信息所对应的元素的取值；在获取的取值中存在第一取值的情况下，根据所述获取的取值对所述基准矩阵中第一取值的元素的数量进行扩展处理。

另一些实施例中，所述扩展处理单元还可以用于确定所述获取的取值中第一取值的元素所对应的第二位置信息；将所述基准矩阵中第二位置信息所对应的元素的取值更新为第一取值，获得扩展后的基准矩阵。

另一些实施例中，所述扩展处理单元还可以用于将所述基准矩阵中所述第一位置信息所对应的元素的取值更新为所述获取的取值中相应第一位置信息所对应的元素的取值。

另一些实施例中，所述平移处理单元还可以用于以所述基准矩阵的维度范围为限制，将所述基准矩阵中第一取值的元素的位置分别向四周平移一个元素单位；将平移后的基准矩阵与平移前的基准矩阵进行矩阵运算，得到边界矩阵；将所述边界矩阵中第一取值的元素的位置信息作为所述基准矩阵中对应预计文字区域的外边界的第一位置信息。

另一些实施例中，所述扩展处理模块108还可以用于对扩展后的基准矩阵进行平移处理，并基于扩展后的基准矩阵所对应的第一位置信息重复上述扩展步骤，直至所述选择的约束矩阵中所述第一位置信息所对应的元素的取值中不存在第一取值。

另一些实施例中，所述扩展处理模块108还可以用于在所述选择的约束矩阵中所述第一位置信息所对应的元素的取值中不存在第一取值情况下，获取所述选择的约束矩阵的下一个约束矩阵，对在所述选择的约束矩阵约束下最后一次扩展后的基准矩阵重复平移处理以及扩展步骤，直至不存在约束矩阵，得到目标二值矩阵。

另一些实施例中，所述扩展处理模块108还可以用于利用pytorch工具，调用GPU资源并行对所述基准矩阵中第一取值的元素的数量进行扩展处理。

需要说明的，上述所述的装置根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

本说明书一个或多个实施例提供的文字定位装置，在接收到待文字定位的原始图像后，可以先初步对原始图像中文字所对应的预计文字区域与文字之外的预计背景区域进行分割，获得多个针对不同预计文字区域面积的中间图像。然后，再将中间图像转换为二值矩阵，利用不同的取值在二维矩阵中表征预计文字区域以及预计背景区域。进而利用二值矩阵对文字所占的像素区域进行渐进式扩展处理。基于二值矩阵进行扩展处理，可以有效利用矩阵运算及索引进行扩展过程中的数据处理，降低处理时间复杂度，大幅提高像素扩展处理的效率，进而提高文字定位效率，满足文字识别应用的需求。

本说明书还提供一种文字定位设备，所述设备可以为单独的文字定位设备，也可以应用在多种计算机数据处理***中。所述的***可以为单独的服务器，也可以包括使用了本说明书的一个或多个所述方法或一个或多个实施例装置的服务器集群、***(包括分布式***)、软件(应用)、实际操作装置、逻辑门电路装置、量子计算机等并结合必要的实施硬件的终端装置。一些实施例中，所述设备可以包括至少一个处理器及用于存储处理器可执行指令的存储器，所述指令被所述处理器执行时实现包括上述任意一个或者多个实施例所述方法的步骤。

所述存储器可以包括用于存储信息的物理装置，通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。所述存储介质有可以包括：利用电能方式存储信息的装置如，各式存储器，如RAM、ROM等；利用磁能方式存储信息的装置如，硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘；利用光学方式存储信息的装置如，CD或DVD。当然，还有其他方式的可读存储介质，例如量子存储器、石墨烯存储器等等。

需要说明的，上述所述的***根据方法或者装置实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

上述实施例所述的文字定位设备，在接收到待文字定位的原始图像后，可以先初步对原始图像中文字所对应的预计文字区域与文字之外的预计背景区域进行分割，获得多个针对不同预计文字区域面积的中间图像。然后，再将中间图像转换为二值矩阵，利用不同的取值在二维矩阵中表征预计文字区域以及预计背景区域。进而利用二值矩阵对文字所占的像素区域进行渐进式扩展处理。基于二值矩阵进行扩展处理，可以有效利用矩阵运算及索引进行扩展过程中的数据处理，降低处理时间复杂度，大幅提高像素扩展处理的效率，进而提高文字定位效率，满足文字识别应用的需求。

需要说明的是，本说明书实施例并不局限于必须是符合标准数据模型/模板或本说明书实施例所描述的情况。某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、存储、判断、处理方式等获取的实施例，仍然可以属于本说明书的可选实施方案范围之内。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述并不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种文字定位方法，其特征在于，应用于服务器，包括：

获取包括文字的原始图像；

基于所述原始图像生成多个中间图像；其中，所述中间图像包括表示预计文字区域的颜色和表示预计背景区域的颜色；所述多个中间图像的预计文字区域的面积不同；

分别对应所述多个中间图像生成多个二值矩阵；其中，以预计文字区域的面积最小的中间图像对应的二值矩阵作为基准矩阵，以除预计文字区域的面积最小的中间图像之外的中间图像对应的二值矩阵作为约束矩阵；其中，与中间图像对应的二值矩阵中，对应所述预计文字区域的元素为第一取值，以及对应所述预计背景区域的元素为第二取值；

以中间图像的预计文字区域的面积顺次增大的顺序，选择约束矩阵，对所述基准矩阵中第一取值的元素的数量进行扩展处理，得到目标二值矩阵；其中，所述目标二值矩阵中第一取值的元素对应的所述原始图像中的区域为文字区域。

2.根据权利要求1所述的方法，其特征在于，所述对所述基准矩阵中第一取值的元素的数量进行扩展处理，包括：

确定所述基准矩阵中对应预计文字区域的外边界的第一位置信息；

基于所述第一位置信息执行下述扩展步骤：获取选择的约束矩阵中所述第一位置信息所对应的元素的取值；在获取的取值中存在第一取值的情况下，根据所述获取的取值对所述基准矩阵中第一取值的元素的数量进行扩展处理。

3.根据权利要求2所述的方法，其特征在于，所述对所述基准矩阵中第一取值的元素的数量进行扩展处理，包括：

确定所述获取的取值中第一取值的元素所对应的第二位置信息；

将所述基准矩阵中第二位置信息所对应的元素的取值更新为第一取值，获得扩展后的基准矩阵。

4.根据权利要求2所述的方法，其特征在于，所述对所述基准矩阵中第一取值的元素的数量进行扩展处理，包括：

将所述基准矩阵中所述第一位置信息所对应的元素的取值更新为所述获取的取值中相应第一位置信息所对应的元素的取值。

5.根据权利要求2所述的方法，其特征在于，所述确定所述基准矩阵中对应预计文字区域的外边界的第一位置信息，包括：

以所述基准矩阵的维度范围为限制，将所述基准矩阵中第一取值的元素的位置分别向四周平移一个元素单位；

将平移后的基准矩阵与平移前的基准矩阵进行矩阵运算，得到边界矩阵；

将所述边界矩阵中第一取值的元素的位置信息作为所述基准矩阵中对应预计文字区域的外边界的第一位置信息。

6.根据权利要求2所述的方法，其特征在于，所述方法还包括：

将扩展后的基准矩阵代替所述基准矩阵，重复上述扩展步骤，直至所述选择的约束矩阵中所述第一位置信息所对应的元素的取值中不存在第一取值。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

在所述选择的约束矩阵中所述第一位置信息所对应的元素的取值中不存在第一取值情况下，获取所述选择的约束矩阵的下一个约束矩阵，对在所述选择的约束矩阵约束下最后一次扩展后的基准矩阵重复第一位置信息确定以及扩展步骤，直至不存在约束矩阵，得到目标二值矩阵。

8.根据权利要求1所述的方法，其特征在于，所述对所述基准矩阵中第一取值的元素的数量进行扩展处理，包括：

利用pytorch工具，调用GPU资源并行对所述基准矩阵中第一取值的元素的数量进行扩展处理。

9.一种文字定位装置，其特征在于，应用于服务器，包括：

原始图像获取模块，用于获取包括文字的原始图像；

中间图像生成模块，用于基于所述原始图像生成多个中间图像；其中，所述中间图像包括表示预计文字区域的颜色和表示预计背景区域的颜色；所述多个中间图像的预计文字区域的面积不同；

二值矩阵生成模块，用于分别对应所述多个中间图像生成多个二值矩阵；其中，以预计文字区域的面积最小的中间图像对应的二值矩阵作为基准矩阵，以除预计文字区域的面积最小的中间图像之外的中间图像对应的二值矩阵作为约束矩阵；其中，与中间图像对应的二值矩阵中，对应所述预计文字区域的元素为第一取值，以及对应所述预计背景区域的元素为第二取值；

扩展处理模块，用于以中间图像的预计文字区域的面积顺次增大的顺序，选择约束矩阵，利用选择的约束矩阵对所述基准矩阵中第一取值的元素的数量进行扩展处理，得到目标二值矩阵；其中，所述目标二值矩阵中第一取值的元素对应的所述原始图像中的区域为文字区域。

10.一种文字定位设备，其特征在于，应用于服务器，所述设备包括至少一个处理器及用于存储处理器可执行指令的存储器，所述指令被所述处理器执行时实现包括所述权利要求1-8任一项所述方法的步骤。