CN114241481A

CN114241481A - 基于文本骨架的文本检测方法、装置和计算机设备

Info

Publication number: CN114241481A
Application number: CN202210062733.2A
Authority: CN
Inventors: 周忠诚; 郭建京; 索红亮; 黄九鸣; 张圣栋
Original assignee: Hunan Sifang Tianjian Information Technology Co ltd
Current assignee: Hunan Sifang Tianjian Information Technology Co ltd
Priority date: 2022-01-19
Filing date: 2022-01-19
Publication date: 2022-03-25

Abstract

本发明涉及计算机视觉技术领域，提供了一种基于文本骨架的文本检测方法、装置、计算机设备和存储介质，所述方法包括：预测待检测文本图像的文本骨架，得到文本骨架图像；将所述文本骨架图像二值化，根据二值图像确定所述待检测文本图像中各文本框的核心点；以各所述核心点为岭，对所述文本骨架图像进行分水岭像素分割，得到各文本区域像素点集合；分别确定各所述文本区域像素点集合的最小外接矩形，得到检测的文本框。采用本方法能够提高文本框的检测精度。

Description

基于文本骨架的文本检测方法、装置和计算机设备

技术领域

本发明属于计算机视觉技术领域，尤其涉及一种基于骨架的文本检测方法、装置、计算机设备和存储介质。

背景技术

图像中通常都包含大量有价值的信息，比如图像中的文本。因此，有效的提取图像文本是图像内容分析和理解的前提，并可广泛应用于图像识别、图片内容检索、机器人自动导航等领域。传统由于图像中文本信息字体样式、颜色、尺寸变化多端，图像背景复杂多变，加之图像文本易受光照阴影遮挡等相关因素干扰，从而极大增加了图像中文本检测的难度。

但是，随着人工智能技术飞速发展，图像中文本检测领域迎来了新的曙光，学术界和工业界提出了一系列创新性的文本检测方法，比如基于像素分割的文本检测方法。基于像素分割的文本检测方法则是一种通过像素点回归或对文本像素聚合的方式得到文本框位置，从而能有效地检测大尺寸文本。然而，基于像素分割的文本检测方法虽然能够有效的检测大尺寸文本，但是对像素点稀疏的小文本框的漏检率较高，降低了检测精度。并且由于无法分割文本示例位置，对于重叠性的文本框检测精度也有所下降。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高检测精度的基于骨架的文本检测方法、装置、计算机设备和存储介质。

本发明提供一种基于骨架的文本检测方法，包括：

预测待检测文本图像的文本骨架，得到文本骨架图像；

将所述文本骨架图像二值化，根据二值图像确定所述待检测文本图像中各文本框的核心点；

以各所述核心点为岭，对所述文本骨架图像进行分水岭像素分割，得到各文本区域像素点集合；

分别确定各所述文本区域像素点集合的最小外接矩形，得到检测的文本框。

在其中一个实施例中，所述预测待检测文本图像的文本骨架，得到文本骨架图像，包括：

利用文本骨架预测模型中的卷积池化块对所述待检测文本图像连续进行预设次数的卷积池化处理，得到卷积池化特征图；

从最后一个所述卷积池化特征图开始，将每一个所述卷积池化特征图进行上采样并与前一个所述卷积池化特征图进行特征融合，得到融合特征图；

对所述融合特征图进行卷积和分割，输出文本骨架图像。

在其中一个实施例中，所述文本骨架预测模型的训练方法，包括：

获取原始文本图像以及所述原始文本图像的文本框标注结果集合；

新建与所述原始文本图像尺寸一致的单通道浮点型图像，将所述单通道浮点型图像的像素值初始化为0作为文本骨架标签图像；

基于所述文本框标注结果集合，在所述文本骨架标签图像上构建文本骨架训练图像；

利用所述原始文本图像与所述文本骨架训练图像对文本骨架预测神经网络结构进行训练，得到文本骨架预测模型。

在其中一个实施例中，所述基于所述文本框标注结果集，在所述文本骨架标签图像上构建文本骨架训练图像，包括：

遍历所述文本框标注结果集合，所述文本框标注结果集合包括各个文本框的顶点坐标；

分别计算各所述文本框的顶点坐标到所述文本框的中心点的距离最小值；

基于所述距离最小值确定缩放比例，按照所述缩放比例缩放所述文本框，得到缩放文本框；

根据所述文本骨架标签图像中各像素点与所述缩放文本框的位置关系，修改所述像素点的值，得到文本骨架训练图像。

在其中一个实施例中，所述基于所述距离最小值确定缩放比例，按照所述缩放比例缩放对应的文本框，得到缩放文本框，包括：

根据所述距离最小值确定缩放文本框的数量，得到所述缩放文本框的序号；

确定所述序号与所述距离最小值的比值，得到第一比值；

将预设阈值与所述第一比值的差作为缩放比例；

按照所述缩放比例且以所述文本框的中心点为缩放中心，对所述文本框进行缩放，得到缩放文本框。

在其中一个实施例中，所述根据所述文本骨架标签图像中各像素点与所述缩放文本框的位置关系，修改所述像素点的值，得到文本骨架训练图像，包括：

遍历所述文本骨架标签图像中各像素点，判断所述像素点是否在所述缩放文本框内；

当所述像素点在所述缩放文本框内时，确定所述缩放文本框的序号与缩放比例集合长度的比值，得到第二比值；

计算像素阈值与所述第二比值的乘积，将所述像素阈值与所述乘积的和修改为所述像素点的值，得到文本骨架图。

在其中一个实施例中，所述将所述文本骨架图像二值化，根据二值图像确定所述待检测文本图像中各文本框的核心点，包括：

基于二值化阈值，将所述文本骨架图像进行二值化，得到二值图像；

提取所述二值图像的连通区域；

计算所述连通区域的中心点作为所述待检测文本图像中文本框的核心点。

一种基于文本骨架的文本检测装置，包括：

预测模块，用于预测待检测文本图像的文本骨架，得到文本骨架图像；

二值化模块，用于将所述文本骨架图像进行二值化，根据二值图像确定所述待检测文本图像中各文本框的核心点；

分割模块，用于以各所述核心点为岭，对所述文本骨架图像进行分水岭像素分割，得到各文本区域像素点集合；

确定模块，用于分别确定所述文本区域像素点集合的最小外接矩形，得到检测的文本框。

本发明还提供一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器存储由计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的基于文本骨架的文本检测方法的步骤。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的基于文本骨架的文本检测方法的步骤。

上述基于文本骨架的文本检测方法、装置、计算机设备和存储介质，通过对待检测文本图像进行文本骨架预测得到文本骨架图像后，将文本骨架图像进行二值化，进而根据二值图像确定待检测文本图像中各文本框的核心点，以各核心点为岭对文本骨架图像进行分水岭像素分割，得到各文本区域像素点集合；再分别确定各文本区域像素点集合的最小外接矩形，得到检测的文本框。该方法引入文本骨架的不变性进行文本框的检测，即使处理像素点稀疏的小文本框图像也能够降低漏检率提高检测精度。同时，基于各文本框各自的核心点进行分割，在文本框有重叠的情况下也能够准确分割得到各个独立的文本框，进一步提高了文本框的检测精度。

附图说明

图1为一个实施例中基于文本骨架的文本检测方法的应用环境图。

图2为一个实施例中基于文本骨架的文本检测方法的流程示意图。

图3为一个实施例中文本骨架图像示意图。

图4为一个实施例中文本骨架预测模型的网络结构示意图。

图5为一个实施例中文本骨架预测模型的训练方法的流程示意图。

图6为一个实施例中训练损失变化曲线示意图。

图7为一个实施例中训练过程准确率变化曲线示意图。

图8为一个实施例中缩放文本框的示意图。

图9为一个实施例中基于文本骨架的文本检测装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本申请提供的基于骨架的文本检测方法，可以应用于如图1所示的应用环境中，该应用环境涉及终端102和服务器104。其中，终端102通过网络与服务器104进行通信。终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和携带式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

当终端102接收到文本检测指令时，可以由终端102单独实现上述基于骨架的文本检测方法。也可以由终端102将文本检测指令发送给通信的服务器104，由服务器104实现上述基于骨架的文本检测方法。以服务器104为例，具体的，服务器104预测待检测文本图像的文本骨架，得到文本骨架图像；服务器104将文本骨架图像进行二值化，根据二值图像确定待检测文本图像中各文本框的核心点；服务器104以各核心点为岭，对文本骨架图像进行分水岭像素分割，得到各文本区域像素点集合；服务器104分别确定各文本区域像素点集合的最小外接矩形，得到检测的文本框。

在一个实施例中，如图2所示，提供一种基于骨架的文本检测方法，以该方法应用于服务器为例进行说明，包括以下步骤：

步骤S201，预测待检测文本图像的文本骨架，得到文本骨架图像。

其中，待检测文本图像是指需要进行文本检测的图像，文本骨架图像是基于文本框所构建的骨架图像。如图3所示，提供一种文本骨架图像的示意图，图3中黑色区域为非文本框区域，非黑色区域为文本框所在的区域，即文本框区域。并且，文本框区域内并非呈现为同一个颜色，而是从中心点往边界点呈现渐变，呈渐变式的文本框区域即为文本骨架。

具体的，当获取到待检测文本图像之后，服务器调用预先训练好的文本骨架预测模型，将待检测文本图像输入至文本骨架预测模型进行文本骨架的预测，得到待检测文本图像对应的文本骨架图像。

步骤S202，将文本骨架图像进行二值化，根据二值图像确定待检测文本图像中各文本框的核心点。

其中，二值化是通过将整个图像的像素点进行赋值，使得图像呈现出明显的黑白效果的过程，核心点是指文本框的中心点。

具体的，为了能够准确得到文本框的核心点，在预测得到待检测文本图像的文本骨架图像之后，基于一定的阈值对文本骨架图像进行图像二值化处理来准确得到各个文本框的中心点作为核心点。应当理解的是，核心点的数量与待检测文本图像中所包括的文本框的数量相等。比如，当待检测文本图像中存在两行文本时，那么最终得到的核心点就是两个，这两个核心点分别是两行文本所对应的两个文本框的中心点。

步骤S203，以各核心点为岭，对文本骨架图像进行分水岭像素分割，得到各文本区域像素点集合。

其中，分水岭像素分割是指利用分水岭算法对文本骨架图像进行像素级别的图像分割。文本区域像素点集合是文本所在区域所有像素点的集合。

具体地，服务器得到各个文本框的核心点之后，以各个核心点为基准对预测的文本骨架图像进行分水岭像素分割。即，以各个核心点为岭，利用分水岭算法对文本骨架图像进行像素级别的分割，从而得到各个文本区域像素点集合。

步骤S204，确定各文本区域像素点集合的最小外接矩形，得到检测的文本框。

具体的，服务器得到各文本区域像素点集合之后，为了能够得到能够精准地确定文本所在的区域，从而通过获取各个文本区域像素点集合的最小外接矩形，得到该文本对应的文本框。

上述基于文本骨架的文本检测方法，通过对待检测文本图像进行文本骨架预测得到文本骨架图像后，将文本骨架图像进行二值化，进而根据二值图像确定待检测文本图像中各文本框的核心点，以各核心点为岭对文本骨架图像进行分水岭像素分割，得到各文本区域像素点集合；再分别确定各文本区域像素点集合的最小外接矩形，得到检测的文本框。该方法引入文本骨架的不变性进行文本框的检测，即使处理像素点稀疏的小文本框图像也能够降低漏检率提高检测精度。同时，基于各文本框各自的核心点进行分割，在文本框有重叠的情况下也能够准确分割得到各个独立的文本框，进一步提高了文本框的检测精度。

在一个实施例中，步骤S201，包括：利用文本骨架预测模型中的卷积池化块对待检测文本图像连续进行预设次数的卷积池化处理，得到卷积池化特征图；从最后一个卷积池化特征图开始，将每一个卷积池化特征图进行上采样并与前一个卷积池化特征图进行特征融合，得到融合特征图；对融合特征图进行卷积和分割，输出文本骨架图像。

具体的，如图4所示，提供一种文本骨架预测模型的网络结构示意图。本实施例中的文本骨架预测模型以VGG16网络作为前端图像语义特征模型，一共有5个block，分别为block1、block2、block3、block4和block5，每一个block都包含若干CNN(卷积)和一个池化(pool)层，因此经过block时图像尺寸会缩小2倍。比如，网络的输入维度(b，h，w，3)，那么经过5个连续block的卷积池化处理之后，最终输出维度为(b，h/32，w/32，512)。

然后，以上采样和稠密链接策略，对VGG16中每一个Block卷积池化处理后输出的卷积池化特征图进行上采样，并与上一个block卷积池化处理后输出的卷积池化特征图进行特征融合。即，如图4所示，对block5卷积池化处理后输出的卷积池化特征图经过up1进行第一次上采样，之后up1输出的特征图与block4输出的卷积池化特征图进行特征融合后再经过up2进行第二次上采样。同理，up2输出的特征图与block3输出的卷积池化特征图进行特征融合后再经过up3进行第三次上采样，按照此方式直到up5完成第五次上采样为止，将up5输出的特征图作为上采样和特征融合最终得到的融合特征图。由于每一次上采样，图像会被扩大2倍，所以最终输出维度又会为(b，h，w，3)，也就是最终输出的融合特征图的维度为(b，h，w，3)。最后，将融合特征图经过一个卷积核为(1，1)的CNN，得到整个模型最终的输出结果，记为y，维度为(b，h，w，1)，代表的语义信息为当前像素点的文本骨架预测值。

在一个实施例中，如图5所示，文本骨架预测模型的训练方法，包括步骤：

步骤S501，获取原始文本图像以及原始文本图像的文本框标注结果集合。

具体的，收集一定数量包含文本的图像作为原始文本图像，比如收集2000张包含文本的图像作为原始文本图像。然后，使用文本检测标注工具对各个原始文本图像进行标注得到原始文本图像对应的文本框标注结果集合。因此，所收集的原始文本图像与标注得到的文本框标注结果集合即可构建文本检测数据集S1＝(I,G)，I是原始文本图像集合，I_a与G_a存在一一对应关系，G_a＝{r₁,r₂,……,r_n}是文本框标注结果集合，其中r_i表示对应原始文本图像中第i个文本框的文本框标注结果，i＝{1,2,3,……,n}，此处n为原始文本图像I_a中所有文本框的总数量，r_i＝{(x₁,y₁)，(x₂,y₂)，(x₃,y₃)，(x₄,y₄)}，其中(x₁,y₁)，(x₂,y₂)，(x₃,y₃)，(x₄,y₄)为所标注的文本框的四个顶点坐标。

步骤S502，新建与原始文本图像尺寸一致的单通道浮点型图像，将单通道浮点型图像的像素值初始化为0作为文本骨架标签图像。

具体的，对于每一张原始文本图像，新建一张尺寸与原始文本图像I_a一致，且类型为单通道浮点型的图像作为文本骨架标签图像，同时将文本骨架标签图像中所有像素值初始化为0。

步骤S503，基于文本框标注结果集合，在文本骨架标签图像上构建文本骨架训练图像。

具体的，当得到文本骨架标签图像之后，基于所对应的原始文本图像I_a的文本框标注结果集合G_a中各文本框的标注结果，在文本骨架标签图像上构建文本骨架训练图像L_a。文本骨架训练图像L_a是构建的用于训练文本骨架神经网络结构的文本骨架图像。

在一个实施例中，步骤S503，包括：遍历文本框标注结果集合，文本框标注结果集合包括各个文本框的顶点坐标；分别计算各文本框的顶点坐标到文本框的中心点的距离最小值；基于距离最小值确定缩放比例，按照缩放比例缩放文本框，得到缩放文本框；根据文本骨架标签图像中各像素点与缩放文本框的位置关系，修改像素点的值，得到文本骨架训练图像。

具体的，依次遍历原始文本图像I_a的文本框标注结果集合G_a＝{r₁,r₂,……,r_n}，对每一个文本框r_i＝{(x₁,y₁)，(x₂,y₂)，(x₃,y₃)，(x₄,y₄)}，计算文本框的中心点(x_c,y_c)，进而计算四个顶点坐标到中心点距离最小值minDis，距离最小值minDis的计算公式如下：

然后，基于所确定的各个文本框的距离最小值，分别确定缩放比例，进而按照各文本框的缩放比例对文本框进行缩放，得到缩放文本框。应当理解的是，每个文本框所对应的缩放文本框的数量与基于距离最小值确定的缩放比例的数量相等。最后，根据文本骨架标签图像中各个像素点与缩放文本框的位置关系，修改文本骨架标签图像中各像素点的像素值，完成像素值修改后的文本骨架标签图像即为对应原始文本图像I_a的文本骨架训练图像L_a。

步骤S504，利用原始文本图像与文本骨架训练图像对文本骨架预测神经网络结构进行训练，得到文本骨架预测模型。

具体的，将原始文本图像I_a与对应的文本骨架训练图像L_a组成新的数据集S2＝(I,L)作为模型数据集，按照8:2的比例将模型数据集S2划分为训练集和测试集对所构建的文本骨架预测神经网络结构进行训练。首先使用训练集对文本骨架预测神经网络结构进行训练，同时在训练完一个Epoch之后，然后再使用测试集对其进行测试，其中训练损失变化曲线如图6所示，loss曲线为训练集的损失值，val_loss曲线为测试集的损失值。重复训练和测试的步骤直到模型在测试集上结果收敛为止，然后选择测试结果最佳的模型参数进行固化，封装为文本骨架预测模型，其中训练过程准确率变化曲线如图7所示，accuracy曲线为训练集的损失值，val_accuracy曲线为测试集的损失值。本实施例中所训练的文本骨架预测神经网络结构即为图4所示的网络结构。

模型所采用的网络损失函数为带权重的smooth L1函数，定义如下公示所示：

其中，此处n为所有像素点总量，w(x_d，y_d)为像素点(x_d,y_d)的权重，y为模型的文本骨架预测值。

网络优化策略本实施例优选为自适应网络优化器，定义如下公示所示：

其中，cost_θt-1表示θ_t-1时刻损失值，α为学习率。

本实施例中，基于原始文本图像的文本框标注结果构建对应的文本骨架图像作为训练数据，与原始文本图像一并训练文本骨架预测神经网络结构得到文本骨架预测模型，相比传统直接将文本框标注结果与原始文本图像训练得到的模型来说，由于引入了文本骨架，而基于骨架不变的特性，即使是像素点稀疏的小文本框或者存在重叠的文本框来说，都能精准的定位检测到相应的文本框，提高了文本框检测的精度。

在一个实施例中，基于距离最小值确定缩放比例，按照缩放比例缩放对应的文本框，得到缩放文本框，包括：根据距离最小值确定缩放文本框的数量，得到缩放文本框的序号；确定序号与距离最小值的比值，得到第一比值；将预设阈值与第一比值的差作为缩放比例；按照缩放比例且以文本框的中心点为缩放中心，对文本框进行缩放，得到缩放文本框。

具体的，缩放比例t_j计算公式如下：

t_j＝1-j/minDis

其中，t_j表示第j个缩放比例，minDis为距离最小值，因此缩放比例的集合T＝{t₀,t₁……t_n|n＜minDis}，j＝{1,2,3……,n}，此处n表示缩放文本框的总数。

然后，依次从缩放比例集合T中取出缩放比例t_j，以文本框的中心点(x_c,y_c)为缩放中心，对文本框r_i＝{(x₁,y₁)，(x₂,y₂)，(x₃,y₃)，(x₄,y₄)}进行缩放，得到缩放文本框。如图8所示，文本行“有了这颗星”以及“我们走不散”的文本框分别经过多次不同缩放比例的缩放之后，构建了多个文本缩放框。即，图8中完全囊括文本行的文本框为最初所标注的文本框，而在该文本框之内与文本内容相交的文本框为对最初标注的文本框进行不同比例缩放得到的缩放文本框。

在一个实施例中，根据文本骨架标签图像中各像素点与缩放文本框的位置关系，修改像素点的值，得到文本骨架训练图像，包括：遍历文本骨架标签图像中各像素点，判断像素点是否在缩放文本框内；当像素点在缩放文本框内时，确定缩放文本框的序号与缩放比例集合长度的比值，得到第二比值；计算像素阈值与第二比值的乘积，将像素阈值与乘积的和修改为像素点的值，得到文本骨架图。

具体的，确定缩放文本框之后，遍历文本骨架标签图像中的各个像素点(x_d,y_d)，如果像素点(x_d,y_d)的位置在缩放文本框之内，则该像素点的对应值La(x_d,y_d)修改为：

La(x_d,y_d)＝0.5+0.5*j/len(T)

其中，j为缩放文本框的序号，0.5为预设的像素阈值，len(T)为缩放比例集合的长度。当完成所有比例缩放之后，文本框核心点区域的文本骨架值为1，文本框边界区域的文本骨架值为0.5，并且，从核心点向边界点文本骨架呈现逐渐减低的趋势，基于该趋势文本框内的区域呈渐变，即如图3所示。

在一个实施例中，步骤S202，包括：基于二值化阈值，将文本骨架图像进行二值化，得到二值图像；提取二值图像的连通区域；计算连通区域的中心点作为待检测文本图像中文本框的核心点。

其中，二值化阈值是预先设置用于图像二值化的阈值，该阈值基于修改像素点所用的像素阈值所设定，虽然只要大于像素阈值即可，但是二值化阈值越大后续所精确的核心区域会越精准。考虑到实际训练所得模型的情况，本实施例中的二值化阈值优选0.9。比如，前序所用的像素阈值本实施例优选的是0.5，那么当进行图像二值化时，二值化阈值只需要大于0.5即可，而为了更加精准的确定核心点，优选为0.9。

具体的，当通过文本骨架预测模型预测得到待检测文本图像上各像素的文本骨架预测值而得到文本骨架图像之后，以二值化阈值0.9对文本骨架图像进行二值化，得到二值图像。使用8连通区域查找算法提取该二值图像的连通区域，进一步计算连通区域的中心点作为文本框的核心点。然后，以各个文本框的核心点为岭，利用分水岭算法对文本骨架图像进行像素级别的分割得到文本区域像素点集合，进而确定最小外接矩形得到检测的文本框。

本实施例中，通过文本骨架预测模型检测得到文本骨架图像之后，进一步通过二值化以及计算连通区域的中心点作为核心点进行像素分割得到文本框，相比直接在文本骨架图像上确定核心点进行分割，能够提高核心点的准确性，从而提高分割的准确性，对于重叠的多个文本框来说能够更加精准的进行文本框的分割，而整体提高了文本框检测的精度。

应该理解的是，虽然图2、5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、5中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图9所示，提供一种基于文本骨架的文本检测装置，包括：预测模块901、二值化模块902、分割模块903和确定模块904，其中：

预测模块901，用于预测待检测文本图像的文本骨架，得到文本骨架图像。

二值化模块902，用于将文本骨架图像进行二值化，根据二值图像确定待检测文本图像中各文本框的核心点。

分割模块903，用于以各核心点为岭，对文本骨架图像进行分水岭像素分割，得到各文本区域像素点集合。

确定模块904，用于分别确定文本区域像素点集合的最小外接矩形，得到检测的文本框。

在一个实施例中，预测模块901还用于利用文本骨架预测模型中的卷积池化块对待检测文本图像连续进行预设次数的卷积池化处理，得到卷积池化特征图；从最后一个卷积池化特征图开始，将每一个卷积池化特征图进行上采样并与前一个卷积池化特征图进行特征融合，得到融合特征图；对融合特征图进行卷积和分割，输出文本骨架图像。

在一个实施例中，还包括训练模块，用于获取原始文本图像以及原始文本图像的文本框标注结果集合；新建与原始文本图像尺寸一致的单通道浮点型图像，将单通道浮点型图像的像素值初始化为0作为文本骨架标签图像；基于文本框标注结果集合，在文本骨架标签图像上构建文本骨架训练图像；利用原始文本图像与文本骨架训练图像对文本骨架预测神经网络结构进行训练，得到文本骨架预测模型。

在一个实施例中，训练模块还用于遍历文本框标注结果集合，文本框标注结果集合包括各个文本框的顶点坐标；分别计算各文本框的顶点坐标到文本框的中心点的距离最小值；基于距离最小值确定缩放比例，按照缩放比例缩放文本框，得到缩放文本框；根据文本骨架标签图像中各像素点与缩放文本框的位置关系，修改像素点的值，得到文本骨架训练图像。

在一个实施例中，训练模块还用于根据距离最小值确定缩放文本框的数量，得到缩放文本框的序号；确定序号与距离最小值的比值，得到第一比值；将预设阈值与第一比值的差作为缩放比例；按照缩放比例且以文本框的中心点为缩放中心，对文本框进行缩放，得到缩放文本框。

在一个实施例中，训练模块还用于遍历文本骨架标签图像中各像素点，判断像素点是否在缩放文本框内；当像素点在缩放文本框内时，确定缩放文本框的序号与缩放比例集合长度的比值，得到第二比值；计算像素阈值与第二比值的乘积，将像素阈值与乘积的和修改为像素点的值，得到文本骨架图。

在一个实施例中，二值化模块902还用于基于二值化阈值，将文本骨架图像进行二值化，得到二值图像；提取二值图像的连通区域；计算连通区域的中心点作为待检测文本图像中文本框的核心点。

关于基于文本骨架的文本检测装置的具体限定可以参见上文中对于基于文本骨架的文本检测方法的限定，在此不再赘述。上述基于文本骨架的文本检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个基于文本骨架的文本检测方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

在一个实施例中，提供一种计算机设备，该计算机设备可以是服务器，包括处理器，存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于文本骨架的文本检测方法。示例性的，计算机程序可以被分割成一个或多个模块，一个或者多个模块被存储在存储器中，并由处理器执行以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机装置中的执行过程。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本领域技术人员可以理解，本实施例中所示出的计算机设备结构，仅仅是与本发明方案相关的部分结构，并不构成对本发明所应用于其上的计算机设备的限定，具体的计算机设备可以包括更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

预测待检测文本图像的文本骨架，得到文本骨架图像；

将文本骨架图像进行二值化，根据二值图像确定待检测文本图像中各文本框的核心点；

以各核心点为岭，对文本骨架图像进行分水岭像素分割，得到各文本区域像素点集合；

分别确定文本区域像素点集合的最小外接矩形，得到检测的文本框。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：利用文本骨架预测模型中的卷积池化块对待检测文本图像连续进行预设次数的卷积池化处理，得到卷积池化特征图；从最后一个卷积池化特征图开始，将每一个卷积池化特征图进行上采样并与前一个卷积池化特征图进行特征融合，得到融合特征图；对融合特征图进行卷积和分割，输出文本骨架图像。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取原始文本图像以及原始文本图像的文本框标注结果集合；新建与原始文本图像尺寸一致的单通道浮点型图像，将单通道浮点型图像的像素值初始化为0作为文本骨架标签图像；基于文本框标注结果集合，在文本骨架标签图像上构建文本骨架训练图像；利用原始文本图像与文本骨架训练图像对文本骨架预测神经网络结构进行训练，得到文本骨架预测模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：遍历文本框标注结果集合，文本框标注结果集合包括各个文本框的顶点坐标；分别计算各文本框的顶点坐标到文本框的中心点的距离最小值；基于距离最小值确定缩放比例，按照缩放比例缩放文本框，得到缩放文本框；根据文本骨架标签图像中各像素点与缩放文本框的位置关系，修改像素点的值，得到文本骨架训练图像。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据距离最小值确定缩放文本框的数量，得到缩放文本框的序号；确定序号与距离最小值的比值，得到第一比值；将预设阈值与第一比值的差作为缩放比例；按照缩放比例且以文本框的中心点为缩放中心，对文本框进行缩放，得到缩放文本框。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：遍历文本骨架标签图像中各像素点，判断像素点是否在缩放文本框内；当像素点在缩放文本框内时，确定缩放文本框的序号与缩放比例集合长度的比值，得到第二比值；计算像素阈值与第二比值的乘积，将像素阈值与乘积的和修改为像素点的值，得到文本骨架图。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：基于二值化阈值，将文本骨架图像进行二值化，得到二值图像；提取二值图像的连通区域；计算连通区域的中心点作为待检测文本图像中文本框的核心点。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

预测待检测文本图像的文本骨架，得到文本骨架图像；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：利用文本骨架预测模型中的卷积池化块对待检测文本图像连续进行预设次数的卷积池化处理，得到卷积池化特征图；从最后一个卷积池化特征图开始，将每一个卷积池化特征图进行上采样并与前一个卷积池化特征图进行特征融合，得到融合特征图；对融合特征图进行卷积和分割，输出文本骨架图像。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取原始文本图像以及原始文本图像的文本框标注结果集合；新建与原始文本图像尺寸一致的单通道浮点型图像，将单通道浮点型图像的像素值初始化为0作为文本骨架标签图像；基于文本框标注结果集合，在文本骨架标签图像上构建文本骨架训练图像；利用原始文本图像与文本骨架训练图像对文本骨架预测神经网络结构进行训练，得到文本骨架预测模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：遍历文本框标注结果集合，文本框标注结果集合包括各个文本框的顶点坐标；分别计算各文本框的顶点坐标到文本框的中心点的距离最小值；基于距离最小值确定缩放比例，按照缩放比例缩放文本框，得到缩放文本框；根据文本骨架标签图像中各像素点与缩放文本框的位置关系，修改像素点的值，得到文本骨架训练图像。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据距离最小值确定缩放文本框的数量，得到缩放文本框的序号；确定序号与距离最小值的比值，得到第一比值；将预设阈值与第一比值的差作为缩放比例；按照缩放比例且以文本框的中心点为缩放中心，对文本框进行缩放，得到缩放文本框。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：遍历文本骨架标签图像中各像素点，判断像素点是否在缩放文本框内；当像素点在缩放文本框内时，确定缩放文本框的序号与缩放比例集合长度的比值，得到第二比值；计算像素阈值与第二比值的乘积，将像素阈值与乘积的和修改为像素点的值，得到文本骨架图。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：基于二值化阈值，将文本骨架图像进行二值化，得到二值图像；提取二值图像的连通区域；计算连通区域的中心点作为待检测文本图像中文本框的核心点。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于文本骨架的文本检测方法，其特征在于，包括：

预测待检测文本图像的文本骨架，得到文本骨架图像；

2.根据权利要求1所述的方法，其特征在于，所述预测待检测文本图像的文本骨架，得到文本骨架图像，包括：

对所述融合特征图进行卷积和分割，输出文本骨架图像。

3.根据权利要求2所述的方法，其特征在于，所述文本骨架预测模型的训练方法，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述文本框标注结果集，在所述文本骨架标签图像上构建文本骨架训练图像，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述距离最小值确定缩放比例，按照所述缩放比例缩放对应的文本框，得到缩放文本框，包括：

确定所述序号与所述距离最小值的比值，得到第一比值；

将预设阈值与所述第一比值的差作为缩放比例；

6.根据权利要求4所述的方法，其特征在于，所述根据所述文本骨架标签图像中各像素点与所述缩放文本框的位置关系，修改所述像素点的值，得到文本骨架训练图像，包括：

7.根据权利要求1所述的方法，其特征在于，所述将所述文本骨架图像二值化，根据二值图像确定所述待检测文本图像中各文本框的核心点，包括：

提取所述二值图像的连通区域；

8.一种基于文本骨架的文本检测装置，其特征在于，包括：

9.一种计算机设备，包括处理器和存储器，所述存储器存储有计算机程序，其特征在于，所述处理器用于执行所述计算机程序时实现权利要求1-7中任意一项所述的基于文本骨架的文本检测方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7中任意一项所述的基于文本骨架的文本检测方法。