CN112749606A

CN112749606A - 一种文本定位方法和装置

Info

Publication number: CN112749606A
Application number: CN202010147332.8A
Authority: CN
Inventors: 郑岩
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-05
Filing date: 2020-03-05
Publication date: 2021-05-04

Abstract

本申请实施例公开了一种文本定位方法和装置；本申请实施例可以获取文本图像；对文本图像进行字符轮廓提取，得到文本图像中字符的字符轮廓信息；根据字符轮廓信息，从文本图像中确定字符所在的字符区域；对字符区域进行分类，得到字符区域的字符类别；根据字符区域的字符类别，对字符区域进行区域合并，得到每种字符类别对应的目标字符区域。该方案能够基于字符的字符轮廓信息确定字符所在的字符区域，并对字符区域进行分类以及区域合并，使得合并后得到的每种字符类别对应的目标字符区域更加准确，从而大大提高了文本定位的准确度。

Description

一种文本定位方法和装置

技术领域

本发明涉及人工智能技术领域，具体涉及一种文本定位方法和装置。

背景技术

随着人工智能的到来，文本识别作为该领域的重要应用，愈发收到重视。如今，数字文档由最初的纯文本文档过渡到文本图片混排、手写印刷体混排、多语言和多字体的文档混排等。以生活中应用较多的手写和印刷体混排文本为例，文本中的手写和印刷体文本都各自发挥着应有的作用，因此将手写和印刷文本进行区分和定位，是非常有意义的，也有助于后续更加针对性的数据处理。

现有的文本定位方法，在文本分类过程中，多是针对单个文本行进行的印刷和手写文本的分类，在文本定位过程中，通常是基于空白模板对手写文本进行定位，即在定位过程中需要使用额外的模板信息用于特征配准。

在对现有技术的研究和实践过程中，本发明的发明人发现，现有技术难以在没有空白模板的情况下对手写文本进行定位，从而使得对文本定位的准确度大大降低。

发明内容

本申请实施例提供一种文本定位方法和装置，可以提高文本定位的准确度。

本申请实施例提供一种文本定位方法，包括：

获取文本图像；

对所述文本图像进行字符轮廓提取，得到所述文本图像中字符的字符轮廓信息；

根据所述字符轮廓信息，从所述文本图像中确定字符所在的字符区域；

对所述字符区域进行分类，得到所述字符区域的字符类别；

根据所述字符区域的字符类别，对所述字符区域进行区域合并，得到每种字符类别对应的目标字符区域。

相应的，本申请实施例还提供了一种文本定位装置，包括：

获取单元，用于获取文本图像；

提取单元，用于对所述文本图像进行字符轮廓提取，得到所述文本图像中字符的字符轮廓信息；

确定单元，用于根据所述字符轮廓信息，从所述文本图像中确定字符所在的字符区域；

分类单元，用于对所述字符区域进行分类，得到所述字符区域的字符类别；

合并单元，用于根据所述字符区域的字符类别，对所述字符区域进行区域合并，得到每种字符类别对应的目标字符区域。

在一些实施例中，所述提取单元，用于：

对所述文本图像进行灰度处理，得到所述文本图像对应的灰度图像；

对所述灰度图像进行二值化处理，得到处理后文本图像；

对所述处理后文本图像进行字符轮廓提取，得到所述文本图像中字符的字符轮廓信息。

在一些实施例中，所述确定单元，包括：

确定子单元，用于根据所述字符轮廓信息，从所述文本图像中确定字符的初始字符区域；

修正子单元，用于对所述初始字符区域进行修正处理，得到字符所在的字符区域。

在一些实施例中，所述修正子单元，用于：

确定所述初始字符区域的区域面积；

根据所述区域面积的大小对所述初始字符区域进行筛选，得到字符的候选字符区域；

对所述候选字符区域进行合并处理，得到字符所在的字符区域。

在一些实施例中，所述修正子单元，用于：

从所述候选字符区域中确定存在交集区域的候选字符区域对、以及不存在交集区域的独立候选字符区域；

计算所述交集区域与参考候选字符区域的区域面积比值，其中，所述参考候选字符区域为所述候选字符区域对中区域面积最小的候选字符区域；

基于所述区域面积比值，对所述候选字符区域对进行合并，得到合并后候选字符区域；

根据独立候选字符区域以及合并后候选字符区域，确定字符所在的字符区域。

在一些实施例中，所述合并单元，用于：

对所述字符区域进行排序，得到排序后字符区域；

在排序后字符区域中，对字符类别相同的相邻字符区域进行区域合并，得到每种字符类别对应的目标字符区域。

在一些实施例中，所述合并单元，具体用于：

获取排序后字符区域的区域属性；

在排序后字符区域中，根据排序后字符区域的区域属性，对字符类别相同的相邻字符区域进行区域合并，得到每种字符类别对应的目标字符区域。

在一些实施例中，所述分类单元，包括：

分类子单元，用于通过预设分类模型对所述字符区域进行分类，得到所述字符区域的字符类别；

所述分类单元还包括训练子单元，用于：

获取样本文本图像，以及所述样本文本图像中样本字符区域的样本字符类别；

对所述样本文本图像进行预处理，得到处理后样本文本图像；

通过所述处理后样本文本图像以及所述样本字符区域的样本字符类别，对分类模型进行训练，得到预设分类模型。

在一些实施例中，所述分类子单元，具体用于：

对所述字符区域进行特征提取，得到所述字符区域的区域特征；

基于所述区域特征，预测所述字符区域中每个像素的类别概率；

根据所述字符区域中每个像素的类别概率，确定所述字符区域的字符类别。

相应的，本申请还提供一种计算机设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现本申请实施例提供的任一种文本定位方法中的步骤。

此外，本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现本申请实施例提供的任一种文本定位方法中的步骤。

本申请实施例可以获取文本图像；对所述文本图像进行字符轮廓提取，得到所述文本图像中字符的字符轮廓信息；根据所述字符轮廓信息，从所述文本图像中确定字符所在的字符区域；对所述字符区域进行分类，得到所述字符区域的字符类别；根据所述字符区域的字符类别，对所述字符区域进行区域合并，得到每种字符类别对应的目标字符区域。该方案能够基于字符的字符轮廓信息确定字符所在的字符区域，然后采用预设分类模型对字符区域进行分类，并根据分类得到的字符区域的字符类别对字符区域进行区域合并，使得合并后得到的每种字符类别对应的目标字符区域更加准确，从而大大提高了文本定位的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的文本定位方法的场景示意图；

图1b是本申请实施例提供的文本定位方法的流程示意图；

图1c是本申请实施例提供的SqueezeNet网络的结构示意图；

图2a是本申请实施例提供的文本定位方法的另一流程示意图；

图2b是本申请实施例提供的二值化图像的显示效果示意图；

图2c是本申请实施例提供的文本图像中字符的外接矩形示意图；

图2d是本申请实施例提供的标注目标字符区域的定位效果示意图；

图2e是本申请实施例提供的手写及印刷文本分类与定位的流程示意图；

图2f是本申请实施例提供的区块链的结构示意图；

图2g是本申请实施例提供的区块链的另一结构示意图；

图3a是本申请实施例提供的文本定位装置的结构示意图；

图3b是本申请实施例提供的文本定位装置的另一结构示意图；

图3c是本申请实施例提供的文本定位装置的另一结构示意图；

图4是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例提供一种文本定位方法、装置、计算机设备和计算机可读存储介质。具体地，本申请实施例的文本定位方法可以由计算机设备执行，其中，计算机设备可以为终端或者服务器等设备，该终端可以为手机、平板电脑、笔记本电脑、智能电视、穿戴式智能设备、个人计算机(PC，Personal Computer)等设备；该服务器可以是单台服务器，也可以是由多个服务器组成的服务器集群。

本申请实施例提供的文本定位方案涉及人工智能(AI,ArtificialIntelligence)领域下的计算机视觉技术(CV,Computer Vision)。可以通过人工智能的自然语言处理技术实现从文本图像中识别字符所在的字符区域，并对字符区域进行分类，从而得到每种字符类别对应的目标字符区域。

其中，计算机视觉技术是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

例如，参见图1a，以该文本定位装置集成在计算机设备中为例，该计算机设备可以获取文本图像；对文本图像进行字符轮廓提取，得到文本图像中字符的字符轮廓信息；根据字符轮廓信息，从文本图像中确定字符所在的字符区域；对字符区域进行分类，得到字符区域的字符类别；根据字符区域的字符类别，对字符区域进行区域合并，得到每种字符类别对应的目标字符区域。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

在本实施例中，将从文本定位装置的角度进行描述，该文本定位装置具体可以集成在计算机设备中，例如，文本定位装置可以是设置于计算机设备中的实体装置，或者文本定位装置可以以客户端的形式集成在计算机设备中。该计算机设备可以是服务器，也可以是终端等设备。

如图1b所示，该文本定位方法的具体流程可以如下：

101、获取文本图像。

其中，文本图像为包含有文本信息的图像，该文本信息可以是字符，例如，文字、字母、数字、标点符号、运算符号等，其中，字符的类别可以有多种，例如，根据编辑对象可分为手写体和印刷体，根据语言可分为中文、英文、韩文、日文、德文等，根据字体可以分为宋体、楷体、隶书，等等。

其中，文本图像中包含的字符可以是单个字符，也可以是若干字符的组合，既可以是一种字符，也可以是多种字符的组合。例如，以学生的考试试卷为例，其中，既包括印刷体字符(如考试题目)，也包括手写体字符(如学生写的答案)。

其中，获取文本图像的方式可以有多种，例如，可以是接收其他计算机设备发送的文本图像，或者是从本地数据库中获取预先存储的文本图像，还可以是根据实际应用的需求通过计算机设备如终端的摄像部件(如摄像头)进行拍摄得到，等等。

102、对文本图像进行字符轮廓提取，得到文本图像中字符的字符轮廓信息。

其中，字符轮廓信息包含文本图像中字符的轮廓信息。在一实施例中，为了提高字符轮廓提取的准确性和可靠性，在对文本图像进行字符轮廓提取的过程中，可以先对文本图像进行灰度处理，即，将文本图像转化为灰度图像，然后，对该灰度图像进行二值化处理，得到二值化图像，通过对该二值化图像进行字符轮廓提取，则可以得到文本图像中字符的字符轮廓信息。具体地，步骤“对文本图像进行字符轮廓提取，得到文本图像中字符的字符轮廓信息”，可以包括：

对文本图像进行灰度处理，得到文本图像对应的灰度图像；

对灰度图像进行二值化处理，得到处理后文本图像；

对处理后文本图像进行字符轮廓提取，得到文本图像中字符的字符轮廓信息。

其中，对灰度图像进行二值化处理，即是通过二值化阈值将图像中的前景和背景区域进行分割，从而得到二值化图像(即处理后文本图像)，二值化图像中像素点的灰度值为0或255，也就是将整个图像呈现出明显的只有黑和白的视觉效果。

其中，计算二值化阈值的方法可以有多种，例如，为使计算得到的二值化阈值不受图像的亮度和对比度等因素的影响，且有较强的泛化能力，可以采用最大类间方差法计算二值化阈值，具体过程可以为：首先，预设图像前景和背景的分割阈值为T，然后将图像中像素的灰度值小于该阈值T的像素个数占整图像素个数的比例记为w，其平均灰度值为u1，灰度值大于该阈值T的像素个数占整图像素个数的比例则为1-w，其平均灰度值为u2，则有其类间方差的公式为：g＝w*(1-w)*(u1-u2)²，然后遍历所有可能的阈值使得类间方差g最大，可以认为此时前景和背景差异最大，即可得到最佳分割阈值T作为为二值化阈值。

对处理后文本图像即二值化图像进行字符轮廓提取，具体地，按行扫描该二值化图像内的每个像素点，然后标记出满足预设条件的像素点，该预设条件可以是“一像素点满足该点像素值为1，该左相邻像素点值为0”，或，“一像素点满足该点像素值等于1，该右相邻像素点值为0”，等等，此时可以对标记得到的结果进行优化处理，最终得到文本图像中字符的字符轮廓信息。

103、根据字符轮廓信息，从文本图像中确定字符所在的字符区域。

其中，字符区域为文本图像中包含有字符的图像区域，该字符区域可以为文本图像中单个字符所在的位置区域(即单字符图像)。其中，字符区域可以为不同的形状，例如，该字符区域可以是矩形区域、圆形区域或者三角形区域等。

在一实施例中，确定字符所在的字符区域，可以是确定文本图像中每个字符的外接矩形区域。具体地，步骤“根据字符轮廓信息，从文本图像中确定字符所在的字符区域”，可以包括：

根据字符轮廓信息，从文本图像中确定字符的初始字符区域；

对初始字符区域进行修正处理，得到字符所在的字符区域。

其中，根据字符轮廓信息确定字符的初始字符区域，，可以是基于字符轮廓上像素点的位置坐标确定得到。例如，在字符轮廓上像素点中，当两像素点在纵向坐标上的距离最大时，则该距离即为矩形区域的长(或宽)，当两像素点在横向坐标上的距离最大时，则该距离即为矩形区域的宽(或长)，根据矩形区域的长和宽可以确定字符的初始字符区域的区域范围。

在一实施例中，为了更加准确地得到字符所在的字符区域，可以对根据字符轮廓信息确定出的初始字符区域进行修正处理，该修正处理包括对噪声、或者笔迹断连等情况的处理，例如，对初始字符区域进行去除噪声干扰处理、或者合并断连笔迹处理等。具体地，步骤“对初始字符区域进行修正处理，得到字符所在的字符区域”，包括：

确定初始字符区域的区域面积；

根据区域面积的大小对初始字符区域进行筛选，得到字符的候选字符区域；

对候选字符区域进行合并处理，得到字符所在的字符区域。

其中，初始字符区域的区域面积可以通过不同形式进行衡量，以初始字符区域为矩形区域为例，其区域面积可以是实际的物理面积(如计算该矩形长乘宽得到的面积)，或者通过计算矩形区域中像素点的个数得到，等等。

其中，根据区域面积的大小对初始字符区域进行筛选，可以是从初始字符区域中筛选出区域面积大于或者等于第一预设阈值的字符区域，作为字符的候选字符区域，其中，第一预设阈值可以根据实际应用的需求进行设置。例如，从初始字符区域中筛选出区域面积大于或者等于A(A取30个像素点)的字符区域，得到字符的候选字符区域。

其中，对候选字符区域进行合并处理，即是对字符中存在断连的笔迹进行合并处理，具体地，步骤“对候选字符区域进行合并处理，得到字符所在的字符区域”，可以包括：

从候选字符区域中确定存在交集区域的候选字符区域对、以及不存在交集区域的独立候选字符区域；

计算交集区域与参考候选字符区域的区域面积比值，其中，参考候选字符区域为候选字符区域对中区域面积最小的候选字符区域；

基于区域面积比值，对候选字符区域对进行合并，得到合并后候选字符区域；

其中，区域面积比值为交集区域的区域面积与候选字符区域对中参考候选字符区域的区域面积的比值。当区域面积比值大于第二预设阈值时，则合并该候选字符区域对，得到合并后候选字符区域，将合并后候选字符区域、以及独立候选字符区域作为字符的字符区域。其中，预设第二阈值可以根据实际应用的需求进行设置。

例如，存在交集区域的两个候选字符区域分别为P1和P2，P1的面积大于P2，P1与P2的交集区域为O，则计算O的面积与P2的面积的比值，将该比值与第二预设阈值B(B取0.5)进行比较，当该比值大于阈值B时，则将P1和P2进行合并，得到合并后的候选字符区域。

104、对字符区域进行分类，得到字符区域的字符类别。

其中，字符区域的字符类别可以有多种，例如，字符区域中的字符类别可以是手写体字符、或是印刷体字符。

在一实施例中，可以采用预设分类模型对字符区域进行分类，该预设分类模型可以是通过对分类模型通过训练得到。具体地，步骤“对字符区域进行分类，得到字符区域的字符类别”，可以包括：

通过预设分类模型对字符区域进行分类，得到字符区域的字符类别。

在一实施例中，为了提高对字符区域分类的精确度和效率，具体地，可以通过SqueezeNet轻量级网络对字符区域(即单字符图像)进行分类。具体地，步骤“通过预设分类模型对字符区域进行分类，得到字符区域的字符类别”，可以包括：

对字符区域进行特征提取，得到字符区域的区域特征；

基于区域特征，预测字符区域中每个像素的类别概率；

根据字符区域中每个像素的类别概率，确定字符区域的字符类别。

其中，SqueezeNet模型是一种轻量且高效的卷积神经网络模型，该模型不仅分类速度快，而且参数量较少、泛化性能好，且该模型所占用的内存空间也很小，即使移动端也可以部署，可以应用于对文本图像进行分类。参见图1c，整个网络包含10层：第1层为卷积层，缩小输入图像，提取图像特征；第2到9层为fire模块，fire模块用于压缩和扩展数据(fire模块中的卷积核为1的卷积层用于降维，即压缩数据；fire模块中的卷积核为3的卷积层用于提取图片深层特征)；在1、4、8层之后加入降采样的最大池化层，用于对其上一层的输出而在每一个局域范围内选出最大的值作为其输出；第10层又是卷积层，为小图的每个像素预测分类得分；最后用全局平均池化层输出这张图的分类得分，使用softmax函数归一化为概率。例如，预测类别可以为2类，分别是0:手写，1:印刷，基于每种类别的概率，确定字符区域(即单字符图像)的字符类别为手写体字符或是印刷体字符。

在一实施例中，为了提高预设分类模型对字符区域进行分类的准确性和可靠性，可以通过样本文本图像预先对分类模型进行训练，得到预设分类模型，具体地，步骤“对所述字符区域进行分类，得到字符区域的字符类别”，还包括：

获取样本文本图像，以及样本文本图像中样本字符区域的样本字符类别；

对样本文本图像进行预处理，得到处理后样本文本图像；

通过处理后样本文本图像以及样本字符区域的样本字符类别，对分类模型进行训练，得到预设分类模型。

其中，样本文本图像为包含手写体和印刷体文本的图像，例如，书本、记事本、作业本、试卷、广告牌等包含有文本内容的图像。在样本文本图像中标注出全手写图像区域或全印刷图像区域，如果图像中既有手写也有印刷体文本，则分别标注出手写及印刷区域，然后对样本文本图像进行字符轮廓提取，得到样本文本图像中所有的样本字符区域，并赋予每个样本字符区域相应的样本字符类别如手写或印刷的类别标签。

其中，对样本文本图像进行预处理，可以是对样本文本图像使用旋转、仿射(二维坐标变换)、透视(三维坐标变换)、加噪声、加亮度、加对比度、改变背景等方式进行数据增强处理。例如，将单字符图像的亮度调整至原亮度的两倍、或三倍等，或者是将其背景调整为绿色背景、或预设图案背景等。

通过分类模型对样本文本图像中的样本字符区域进行分类，得到样本字符区域的训练字符类别，然后构建损失函数，通过损失函数对训练字符类别和样本字符类别进行收敛，以调整分类模型的参数至适当值，使得损失降低且梯度不再下降，降低训练字符类别与样本字符类别之间的误差，从而得到训练后的分类模型，将该训练后的分类模型作为预设分类模型。

由于分类模型在分类过程中是对单字符图像进行分类而不是整幅文本图像，所以可以使用更小的图像尺寸以获得更快的推断速度，具体地，在输入模型前，可以将单字符图像进行尺寸修改，例如，按照边长为32进行等比例缩放，然后补充短边至32*32送入分类模型。

105、根据字符区域的字符类别，对字符区域进行区域合并，得到每种字符类别对应的目标字符区域。例如，具体可以如下：

对字符区域进行排序，得到排序后字符区域；

其中，对字符区域进行排序，可以是根据字符区域在文本图像中所处的位置坐标进行排序，例如，以字符区域的形状为矩形为例，则根据字符区域左上角顶点的x轴从左到右，y轴从上到下对所有字符区域进行二维排序，并在排序后的字符区域中，对字符类别相同的相邻字符区域进行合并，得到每种字符类别对应的目标字符区域。具体的过程可以为：预设初始字符为A，其类别为x，赋值该初始字符所在的类别为x的区域S＝A，对于其邻近的字符B，如果B类别为x，则S＝AUB，如果类别不是x，则遍历其下一个邻近字符C，以此类推，结束条件为该区域S周围所有字符类别都不为x，然后删除所有S中的字符，对余下的字符继续上述操作，最后得到整幅文本图像中不同字符类别对应的目标字符区域。

在一实施例中，可以按照排序后字符区域的区域属性如按行，对字符类别相同的相邻字符区域进行区域合并，具体地，步骤“在排序后字符区域中，对字符类别相同的相邻字符区域进行区域合并，得到每种字符类别对应的目标字符区域”，可以包括：

获取排序后字符区域的区域属性；

例如，在排序后字符区域中，对于字符区域中心纵向坐标差在第三预设阈值之内的字符区域可以认为其处在同一行，然后，对该行中字符类别相同的相邻字符区域进行上述合并操作即可，从而得到的整幅文本图像中每种字符类别对应的目标字符区域。其中，第三预设阈值可以根据实际应用的需求进行设置。

在一实施例中，得到每种字符类别对应的目标字符区域后，还可以在文本图像中标注出该目标字符区域，例如，为加以区分，可以采用不同的颜色、或者不同的形状等方式区别标注出每种字符类别对应的目标字符区域。

由上可知，本申请实施例可以获取文本图像；对文本图像进行字符轮廓提取，得到文本图像中字符的字符轮廓信息；根据字符轮廓信息，从文本图像中确定字符所在的字符区域；对字符区域进行分类，得到字符区域的字符类别；根据字符区域的字符类别，对字符区域进行区域合并，得到每种字符类别对应的目标字符区域。由于该方案能够基于字符的字符轮廓信息确定字符所在的字符区域，然后采用预设分类模型对字符区域进行分类，并根据分类得到的字符区域的字符类别对字符区域进行区域合并，例如，可以对文本图像中的手写体字符区域和印刷体字符区域进行分类，并对相同类别的字符区域进行合并，使得合并后得到的每种字符类别对应的目标字符区域更加准确，从而大大提高了文本定位的准确率。

根据上述实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该文本定位装置具体集成在计算机设备中为例进行说明。

如图2a所示，该文本定位方法，具体流程可以如下：

201、计算机设备获取文本图像。

计算机获取文本图像的方式可以有多种，例如，可以是接收其他计算机设备发送的文本图像，或者是从本地数据库中获取预先存储的文本图像，还可以是根据实际应用的需求通过计算机设备如终端的摄像部件(如摄像头)进行拍摄得到，等等。

202、计算机设备对文本图像进行字符轮廓提取，得到文本图像中字符的字符轮廓信息。

其中，字符轮廓信息包含文本图像中字符的轮廓信息。在一实施例中，为了提高字符轮廓提取的准确性和可靠性，计算机设备在对文本图像进行字符轮廓提取的过程中，可以先对文本图像进行灰度处理，即，将文本图像转化为灰度图像，然后，对该灰度图像进行二值化处理，得到二值化图像，通过对该二值化图像进行字符轮廓提取，则可以得到文本图像中字符的字符轮廓信息

其中，对灰度图像进行二值化处理，即是通过二值化阈值将图像中的前景和背景区域进行分割，从而得到二值化图像(即处理后文本图像)，二值化图像中像素点的灰度值为0或255，也就是将整个图像呈现出明显的只有黑和白的视觉效果，如图2b所示，该二值化图像中，字符的轮廓呈现出白色，非字符轮廓的区域呈现出黑色。

203、计算机设备根据字符轮廓信息，从文本图像中确定字符所在的字符区域。

在一实施例中，计算机设备确定字符所在的字符区域，可以是确定文本图像中每个字符的外接矩形区域。具体地，步骤“根据字符轮廓信息，从文本图像中确定字符所在的字符区域”，可以包括：

对初始字符区域进行修正处理，得到字符所在的字符区域。

其中，根据字符轮廓信息确定字符的初始字符区域，可以是基于字符轮廓上像素点的位置坐标确定得到。例如，在字符轮廓上像素点中，当两像素点在纵向坐标上的距离最大时，则该距离即为矩形区域的长(或宽)，当两像素点在横向坐标上的距离最大时，则该距离即为矩形区域的宽(或长)，根据矩形区域的长和宽可以确定字符的初始字符区域的区域范围。

确定初始字符区域的区域面积；

对候选字符区域进行合并处理，得到字符所在的字符区域。

其中，根据区域面积的大小对初始字符区域进行筛选，可以是从初始字符区域中筛选出区域面积大于或者等于第一预设阈值的字符区域，作为字符的候选字符区域，其中，第一预设阈值可以根据实际应用的需求进行设置。例如，从初始字符区域中筛选出区域面积大于或者等于C(C取25个像素点)的字符区域，得到字符的候选字符区域。

例如，存在交集区域的两个候选字符区域分别为P1和P2，P1的面积大于P2，P1与P2的交集区域为O，则计算O的面积与P2的面积的比值，将该比值与第二预设阈值B(B取0.5)进行比较，当该比值大于阈值B时，则将P1和P2进行合并，得到合并后的候选字符区域。然后，根据合并后的候选字符区域和独立候选字符区域，确定字符所在的字符区域，该字符区域可以是字符的外接矩形区域，参见图2c，该文本图像中每个字符都对应一个外接矩形区域。

204、计算机设备对字符区域进行分类，得到字符区域的字符类别。

其中，字符区域的字符类别可以有多种，例如，字符区域的字符类别可以是手写体字符、或是印刷体字符。

在一实施例中，计算机设备可以采用预设分类模型对字符区域进行分类，该预设分类模型可以是通过对分类模型通过训练得到。具体地，步骤“对字符区域进行分类，得到字符区域的字符类别”，可以包括：

在一实施例中，为了提高对字符区域分类的精确度和效率，具体可以通过SqueezeNet轻量级网络对字符区域(即单字符图像)进行分类。具体地，步骤“通过预设分类模型对字符区域进行分类，得到字符区域的字符类别”，可以包括：对字符区域进行特征提取，得到字符区域的区域特征；基于区域特征，预测字符区域中每个像素的类别概率；根据字符区域中每个像素的类别概率，确定字符区域的字符类别。例如，可以基于每种字符类别的概率，确定字符区域(即单字符图像)的字符类别是手写体字符或是印刷体字符。

对样本文本图像进行预处理，得到处理后样本文本图像；

205、计算机设备根据字符区域的字符类别，对字符区域进行区域合并，得到每种字符类别对应的目标字符区域。例如，具体可以如下：

对字符区域进行排序，得到排序后字符区域；

其中，对字符区域进行排序，可以是根据字符区域在文本图像中所处的位置坐标进行排序，例如，以字符区域的形状为矩形为例，则根据字符区域左上角顶点的x轴从左到右，y轴从上到下对所有字符区域进行二维排序，并在排序后的字符区域中，对字符类别相同的相邻字符区域进行合并，得到每种字符类别对应的目标字符区域。具体的过程可以为：预设初始字符为A，其类别为y，赋值该初始字符所在的类别为y的区域S＝A，对于其邻近的字符B，如果B类别为y，则S＝AUB，如果类别不是y，则遍历其下一个邻近字符C，以此类推，结束条件为该区域S周围所有字符类别都不为y，然后删除所有S中的字符，对余下的字符继续上述操作，最后得到整幅文本图像中不同字符类别对应的目标字符区域。

获取排序后字符区域的区域属性；

例如，在排序后字符区域中，对于字符区域中心纵向坐标差在第三预设阈值之内的字符区域可以认为其处在同一行，然后，对该行中相邻且相同字符类别的字符区域进行上述合并操作即可，从而得到的整幅文本图像中不同字符类别对应的目标字符区域，参见图2d。其中，第三预设阈值可以根据实际应用的需求进行设置。

在一实施例中，得到每种字符类别对应的目标字符区域后，计算机设备还可以在文本图像中标注出该目标字符区域，例如，为加以区分，可以采用不同的颜色、或者不同的形状等方式区别标注出每种字符类别对应的目标字符区域。参见图2d，其中，对于印刷体字符所在的矩形区域，其区域边框可以用黑色进行标注，而对于手写体字符(如：“14”、“18+11＝29(人)”)所在的矩形区域，其区域边框则可以用灰色进行标注。

在一实施例中，本申请实施例提供的文本定位方法可以对文本图像中的手写体字符和印刷体字符进行分类，并能够分别定位出(即标注出)手写体字符对应的字符区域、以及印刷体字符对应的字符区域，具体流程参见图2e。

在一实施例中，标注出目标字符区域的文本图像还可以存储至区块链中。其中，区块链***可以是由客户端、多个节点(接入网络中的任意形式的计算设备，如服务器、用户终端)通过网络通信的形式连接形成的分布式***。参见图2f，图2f是本发明实施例提供的分布式***100应用于区块链***的一个可选的结构示意图，由多个节点(接入网络中的任意形式的计算设备，如服务器、用户终端)和客户端形成，节点之间形成组成的点对点(P2P，Peer To Peer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission ControlProtocol)协议之上的应用层协议。在分布式***中，任何机器如服务器、终端都可以加入而成为节点，节点包括硬件层、中间层、操作***层和应用层。

参见图2f示出的区块链***中各节点的功能，涉及的功能包括：

1)路由，节点具有的基本功能，用于支持节点之间的通信。

节点除具有路由功能外，还可以具有以下功能：

2)应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链***中的其他节点，供其他节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。

例如，应用实现的业务包括：

2.1)钱包，用于提供进行电子货币的交易的功能，包括发起交易(即，将当前交易的交易记录发送给区块链***中的其他节点，其他节点验证成功后，作为承认交易有效的响应，将交易的记录数据存入区块链的临时区块中；当然，钱包还支持查询电子货币地址中剩余的电子货币；

2.2)共享账本，用于提供账目数据的存储、查询和修改等操作的功能，将对账目数据的操作的记录数据发送到区块链***中的其他节点，其他节点验证有效后，作为承认账目数据有效的响应，将记录数据存入临时区块中，还可以向发起操作的节点发送确认。

2.3)智能合约，计算机化的协议，可以执行某个合约的条款，通过部署在共享账本上的用于在满足一定条件时而执行的代码实现，根据实际的业务需求代码用于完成自动化的交易，例如查询买家所购买商品的物流状态，在买家签收货物后将买家的电子货币转移到商户的地址；当然，智能合约不仅限于执行用于交易的合约，还可以执行对接收的信息进行处理的合约。

3)区块链，包括一系列按照产生的先后时间顺序相互接续的区块(Block)，新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链***中节点提交的记录数据。

参见图2g，图2g是本发明实施例提供的区块结构(Block Structure)一个可选的示意图，每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值，各区块通过哈希值连接形成区块链。另外，区块中还可以包括有区块生成时的时间戳等信息。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了相关的信息，用于验证其信息的有效性(防伪)和生成下一个区块。

为便于更好地实施以上方法，本申请实施例还提供了一种文本定位装置。

例如，如图3a所示，该文本定位装置可以包括获取单元301、提取单元302、确定单元303、分类单元304、以及合并单元305，如下：

获取单元301，用于获取文本图像；

提取单元302，用于对所述文本图像进行字符轮廓提取，得到所述文本图像中字符的字符轮廓信息；

确定单元303，用于根据所述字符轮廓信息，从所述文本图像中确定字符所在的字符区域；

分类单元304，用于对所述字符区域进行分类，得到所述字符区域的字符类别；

合并单元305，用于根据所述字符区域的字符类别，对所述字符区域进行区域合并，得到每种字符类别对应的目标字符区域。

在一些实施例中，所述提取单元302，用于：

对所述灰度图像进行二值化处理，得到处理后文本图像；

在一些实施例中，参见图3b，所述确定单元303，包括：

确定子单元3031，用于根据所述字符轮廓信息，从所述文本图像中确定字符的初始字符区域；

修正子单元3032，用于对所述初始字符区域进行修正处理，得到字符所在的字符区域。

在一些实施例中，所述修正子单元3032，用于：

确定所述初始字符区域的区域面积；

在一些实施例中，所述修正子单元3032，用于：

在一些实施例中，所述合并单元305，用于：

对所述字符区域进行排序，得到排序后字符区域；

在一些实施例中，所述合并单元305，具体用于：

获取排序后字符区域的区域属性；

在一些实施例中，参见图3c，所述分类单元304，包括：

分类子单元3041，用于通过预设分类模型对所述字符区域进行分类，得到所述字符区域的字符类别；

所述分类单元还包括训练子单元3042，用于：

在一些实施例中，所述分类子单元3041，具体用于：

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本申请实施例的视频播放装置可以通过获取单元301获取文本图像；由提取单元302对文本图像进行字符轮廓提取，得到文本图像中字符的字符轮廓信息；由确定单元303根据字符轮廓信息，从文本图像中确定字符所在的字符区域；由分类单元304对字符区域进行分类，得到字符区域的字符类别；由合并单元305根据字符区域的字符类别，对字符区域进行区域合并，得到每种字符类别对应的目标字符区域。由于该方案能够基于字符的字符轮廓信息确定字符所在的字符区域，然后采用预设分类模型对字符区域进行分类，并根据分类得到的字符区域的字符类别对字符区域进行区域合并，使得合并后得到的每种字符类别对应的目标字符区域更加准确，从而大大提高了文本定位的准确率。

本申请实施例还提供一种计算机设备，如图4所示，其示出了本申请实施例所涉及的计算机设备的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、影像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

计算机设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理***与处理器401逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取文本图像；对所述文本图像进行字符轮廓提取，得到所述文本图像中字符的字符轮廓信息；根据所述字符轮廓信息，从所述文本图像中确定字符所在的字符区域；对所述字符区域进行分类，得到所述字符区域的字符类别；根据所述字符区域的字符类别，对所述字符区域进行区域合并，得到每种字符类别对应的目标字符区域。

以上各个操作具体可参见前面的实施例，在此不作赘述。

由上可知，本申请实施例的计算机设备可以获取文本图像；对文本图像进行字符轮廓提取，得到文本图像中字符的字符轮廓信息；根据字符轮廓信息，从文本图像中确定字符所在的字符区域；对字符区域进行分类，得到字符区域的字符类别；根据字符区域的字符类别，对字符区域进行区域合并，得到每种字符类别对应的目标字符区域。由于该方案能够基于字符的字符轮廓信息确定字符所在的字符区域，然后采用预设分类模型对字符区域进行分类，并根据分类得到的字符区域的字符类别对字符区域进行区域合并，使得合并后得到的每种字符类别对应的目标字符区域更加准确，从而大大提高了文本定位的准确率。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种文本定位方法中的步骤。例如，该计算机程序可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本申请实施例所提供的任一种文本定位方法中的步骤，因此，可以实现本申请实施例所提供的任一种文本定位方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种文本定位方法、装置、计算机设备和计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种文本定位方法，其特征在于，包括：

获取文本图像；

对所述字符区域进行分类，得到所述字符区域的字符类别；

2.根据权利要求1所述的方法，其特征在于，所述对所述文本图像进行字符轮廓提取，得到所述文本图像中字符的字符轮廓信息，包括：

对所述灰度图像进行二值化处理，得到处理后文本图像；

3.根据权利要求1所述的方法，其特征在于，所述根据所述字符轮廓信息，从所述文本图像中确定字符所在的字符区域，包括：

根据所述字符轮廓信息，从所述文本图像中确定字符的初始字符区域；

对所述初始字符区域进行修正处理，得到字符所在的字符区域。

4.根据权利要求3所述的方法，其特征在于，所述对所述初始字符区域进行修正处理，得到字符所在的字符区域，包括：

确定所述初始字符区域的区域面积；

5.根据权利要求4所述的方法，其特征在于，所述对所述候选字符区域进行合并处理，得到字符所在的字符区域，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述字符区域的字符类别，对所述字符区域进行区域合并，得到每种字符类别对应的目标字符区域，包括：

对所述字符区域进行排序，得到排序后字符区域；

7.根据权利要求6所述的方法，其特征在于，所述在排序后字符区域中，对字符类别相同的相邻字符区域进行区域合并，得到每种字符类别对应的目标字符区域，包括：

获取排序后字符区域的区域属性；

8.根据权利要求1所述的方法，其特征在于，所述对所述字符区域进行分类，得到所述字符区域的字符类别，包括：

通过预设分类模型对所述字符区域进行分类，得到所述字符区域的字符类别；

所述方法还包括：

9.根据权利要求8所述的方法，其特征在于，所述通过预设分类模型对所述字符区域进行分类，得到所述字符区域的字符类别，包括：

10.一种文本定位装置，其特征在于，包括：

获取单元，用于获取文本图像；