CN116434209A

CN116434209A - 一种文字检测方法、终端及可读存储介质

Info

Publication number: CN116434209A
Application number: CN202111652649.8A
Authority: CN
Inventors: 关涛; 梅君君; 吕燕; 童俊文; 葛成伟
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2023-07-14
Also published as: WO2023125244A1

Abstract

本发明实施例涉及计算机视觉领域，公开了一种文字检测方法、终端及可读存储介质。本发明中，文字检测方法包括：在数据集内的样本图片上形成标记，其中，所述标记至少包括缩小文本框标记，所述标记还包括距离分布标记和/或边界分布标记；将形成标记后的所述样本图片输入待训练的文字检测模型，得到训练后的文字检测模型，所述训练后的文字检测模型用于进行文字检测。本发明提供的文字检测方法、终端及可读存储介质，能够提高文字区域检测的准确性，进而提高文字识别结果的准确性。

Description

一种文字检测方法、终端及可读存储介质

技术领域

本发明实施例涉及计算机视觉领域，特别涉及一种文字检测方法、终端及可读存储介质。

背景技术

自然场景中出现的文字往往拥有丰富而精准的语义信息，能够从自然场景中识别这些文字的信息具有很高的应用前景，例如：自动驾驶、场景理解、盲人辅助等。场景文字检测就是通过算法直接从场景图片中发现并定位其中的文字区域。场景文字检测作为场景文字识别的前期工作具有十分重要的地位，检测的结果直接影响后期文字识别的效果。近些年，随着深度学习的快速发展，基于深度学习的文字检测有了突破性进展，检测和识别效果远超传统方法。目前，基于深度学习的文字检测方法包括基于分割的检测方法。但由于文本边界处的模糊性和稀疏性，基于分割的场景文字检测方法仍然存在文字区域检测的准确性不高，进而导致文字识别结果的准确性不高的问题。

发明内容

本发明实施方式的目的在于提供一种文字检测方法、终端及可读存储介质，能够提高文字区域检测的准确性，进而提高文字识别结果的准确性。

为解决上述技术问题，本发明的实施方式提供了一种文字检测方法，包括：在数据集内的样本图片上形成标记，其中，所述标记至少包括缩小文本框标记，所述标记还包括距离分布标记和/或边界分布标记；将形成标记后的所述样本图片输入待训练的文字检测模型，得到训练后的文字检测模型，所述训练后的文字检测模型用于进行文字检测。

本发明的实施方式还提供了一种终端，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述的文字检测方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述的文字检测方法。

本发明实施方式相对于现有技术而言，利用距离分布标记和边界分布标记能够更为准确的描述文本边界处的模糊性和稀疏性，增强模型训练所需要的监督信息，从而能够提高文字区域检测的准确性，进而提高文字识别结果的准确性。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本发明一实施方式提供的文字检测方法的流程示意图；

图2是训练后的文字检测模型的预测网络的结构示意图；

图3是本发明另一实施方式提供的文字检测方法的流程示意图；

图4是本发明一实施方式提供的终端的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

基于分割的场景文字检测，是通过神经网络模型预测具有位置和形状信息的概率图，再通过概率图来生成预测的文本框。为了避免相邻的文字区域在预测时出现粘连的情况，相关技术中，使用缩小的文本框标记来训练神经网络模型。

发明人发现，这种方法存在两个个问题：一是缩小标记与实际的文本区域存在差异，在训练的阶段，这种差异会给模型的拟合带来困难，进而影响模型的训练效果；二是缩小标记对较小的文本区域不够友好，因为较小的文本区域内包含的正例原本就很少，在这个基础上再对本文区域进行缩小，过小的文本区域很难达到监督训练的效果，致使模型在预测时很容易漏掉较小的文本区域。

另外，真实的文本标记也存在两个现象：一是在文本框的边界处的像素很难确定为正例或反例，即边界的模糊性；二是在人工标记文本框时，为了保证文本框能较好的框住文本区域，通常文本框的会略大一些，在文本框边界处的文字笔画通常也更为稀疏一些，即边界的稀疏性。

本发明的实施方式涉及一种文字检测方法，本实施方式中的文字检测方法通过在数据集内的样本图片上形成标记，其中，所述标记至少包括缩小文本框标记，所述标记还包括距离分布标记和/或边界分布标记；将形成标记后的所述样本图片输入待训练的文字检测模型，得到训练后的文字检测模型，该述训练后的文字检测模型可以用于进行更加准确且高效地文字检测。利用距离分布标记和/或边界分布标记能够更为准确的描述文本边界处的模糊性和稀疏性，增强模型训练所需要的监督信息，从而能够提高文字区域检测的准确性，进而提高文字识别结果的准确性。

下面对本实施方式的文字检测方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

依据本申请的一种实施方式，提供了一种文字检测方法，如图1所示，可以包括，但不限于以下操作。当然，在其他实施方式中，也可以少于下述步骤。

操作S11：在数据集内的样本图片上形成标记，其中，标记至少包括缩小文本框标记，标记还可以包括距离分布标记和/或边界分布标记。

在一示例性的实施例中，所述在数据集内的样本图片上形成距离分布标记，可以包括以下步骤：在所述样本图片上生成原文本框和缩小文本框；将所述样本图片中位于所述缩小文本框的内部的像素标记为第一标记值，将所述样本图片中位于所述原文本框的外部的像素标记为第二标记值，将所述样本图片中位于所述缩小文本框和所述原文本框之间的像素，按照距离的变化均匀标记为第二标记值与第一标记值之间的过渡实数，以在所述样本图片上形成内部数值高、外部数值低的距离分布标记。

在一些实施例中，所述在数据集内的样本图片上形成边界分布标记，可以包括以下步骤：在所述样本图片上生成原文本框、缩小文本框和放大文本框；将所述样本图片中位于所述缩小文本框的内部和所述放大文本框的外部的像素标记为第二标记值，将所述样本图片中位于所述原文本框上的像素标记为第一标记值，将所述样本图片中位于所述缩小文本框和所述原文本框之间、以及所述原文本框和所述放大文本框之间的像素，按照距离的变化均匀标记为第二标记值与第一标记值之间的过渡实数，以在所述样本图片上形成边界处数值最高、向内外两个方向数值逐渐减小的边界分布标记。

在一示例性的实施例中，第二标记值和第一标记值均为实数，第二标记值可以小于第一标记值，例如，第二标记值可以为0，第一标记值可以为1，将所述样本图片中位于所述缩小文本框和所述原文本框之间的像素，按照距离的变化可以均匀标记为[0，1]之间的过渡实数。

在一示例性的实施例中，生成缩小文本框和放大文本框的方式可以为：使用Vatticlipping algorithm算法对文本框进行缩小或放大，缩放偏移量D的计算公式为：

其中，A是文本框的面积，L是文本框的周长，r是缩放率，设置为0.4。

操作S12：将形成标记后的样本图片输入待训练的文字检测模型，得到训练后的文字检测模型。

在一示例性的实施例中，本步骤之前，还可以包括：创建所述待训练的文字检测模型，其中，所述待训练的文字检测模型包括骨干网络和预测网络，其中，骨干网络用于提取图像特征，骨干网络可以为ResNet-50构建的金字塔网络，该骨干网络中的3×3卷积层可以使用可变形卷积。

在一示例性的实施例中，预测网络可以包括主干分支和辅助分支，其中，所述主干分支用于输出与所述缩小文本框标记对应的通道的概率图，所述辅助分支用于输出与所述距离分布标记和/或所述边界分布标记对应的通道的概率图。

也就是说，待训练的文字检测模型的预测网络可以使用多种分支设计：一种是叶子分支，该分支在网络最后输出多个通道的概率图，每个通道对应一种标记；另一种是主干分支，该分支使用骨干网络的提取的特征图作为输入预测一个通道的概率图对应一种标记。

如图2所示，待训练的文字检测模型的预测网络可以包括：一层3×3卷积层，两层2×2转置卷积层，且在3×3卷积层和第一层2×2转置卷积层后紧跟批处理标准化层和ReLU层，而在第二层2×2转置卷积层之后，则采用Sigmoid层用以输出符合标准的概率图。

可以理解的是，训练后的训练后的文字检测模型与待训练的文字检测模型类似，此处不再赘述。

本实施方式中，所述标记可以包括所述缩小文本框标记、所述距离分布标记以及所述边界分布标记，所述模型训练的总损失可以为所述缩小文本框标记的损失、所述距离分布标记的损失以及所述边界分布标记的损失的加权和；其中，所述缩小文本框标记的损失的加权系数大于所述距离分布标记的损失的加权系数、且所述缩小文本框标记的损失的加权系数大于所述边界分布标记的损失的加权系数。由于权重设置的原则是目标标记，即用来预测文本框的缩小文本框标记，因此，给所述缩小文本框标记的损失分配最大的权重(加权系数)，能够得到更加准确的所述模型训练的总损失。

可以理解的是，所述标记也可以仅包括所述缩小文本框标记和所述距离分布标记，此时，所述模型训练的总损失可以为所述缩小文本框标记的损失和所述距离分布标记的损失的加权和。当然，所述标记也可以仅包括所述缩小文本框标记和所述边界分布标记，此时，所述模型训练的总损失可以为所述缩小文本框标记的损失和所述边界分布标记的损失的加权和。

在一示例性的实施例中，模型训练的损失组成，训练的总损失可表示为各标记损失的加权和，例如，训练的总损失可以为：

L＝α×L_s+β×L_d+γ×L_b

其中，L_s为缩小标记的损失，L_d为距离分布标记的损失，L_b为边界分布标记的损失。权重设置的原则是目标标记，即给用来预测文本框的缩小标记分配最大的权重，其余标记按照与目标标记的相关性大小来分配权重，相关性大的标记分配较大的权重，反之，分配较小的权重，例如，α可以设置为2，β、Y可以设置为1。

其中，所述缩小文本框标记的损失和所述距离分布标记的损失可以采用二值交叉熵损失函数计算得到。具体的，损失计算可以采用困难样本挖掘技术，正负样本的采样比例可以为1∶3，损失函数的具体计算公式如下：

其中，P_S为选择的正负样本集，y_i是标记像素值，x_i是预测像素值。

L_b可以选择L1损失，具体如下：

其中，y_i表示标记像素值，x_i表示预测像素值，R_d表示放大的文本框区域。

在一些实施例中，数据集可以由包含各种场景下的文字的图片构成，所述数据集可以包括合成数据集和实际检测到的真实数据集，步骤S12可以包括：依次将形成标记后的所述合成数据集中的样本图片和形成标记后的所述真实数据集中的样本图片输入所述待训练的文字检测模型，得到所述训练后的文字检测模型，其中，合成数据集由通过计算机程序生成的自然场景文本数据组成，例如，可以为SynthText数据集等。通过首先使用合成数据集对文字检测模型进行预训练，然后再使用真实数据集对文字检测模型进行微调训练，使得模型训练又快捷又准确。

在一示例性的实施例中，关于模型的训练及优化，训练的批大小可以为8，优化方法可以为随机梯度下降(SGD)，动量可以为0.9，权重衰减可以为0.0001，学习率随训练迭代次数变化的策略可以为：

其中，r是当前学习率，r′是初始学习率，可以设为0.007，power可以为0.9。

操作S13：将待检测图片输入训练后的文字检测模型，得到文字检测结果。

本发明实施方式相对于现有技术而言，将距离分布标记和/或边界分布标记用于模型的训练，利用距离分布标记和/或边界分布标记能够更为准确的描述文本边界处的模糊性和稀疏性，增强模型训练所需要的监督信息，从而能够提高文字区域检测的准确性，进而提高文字识别结果的准确性。

本发明的第二实施方式涉及一种文字检测方法。第二实施方式与第一实施方式大致相同，主要区别之处在于：在第一实施方式中，将待检测图片输入训练后的文字检测模型，得到文字检测结果。而在本发明第二实施方式中，仅保留所述训练后的文字检测模型中的骨干网络和主干分支，以得到预测模型，将待检测图片输入所述预测模型，得到文字检测结果。此外，本领域技术人员可以理解，通过将训练后的文字检测模型的预测网络去除了辅助分支，仅保留了用于生成文本框的主干分支，在模型预测时仅使用缩小标记对应的概率图，从而提高了文字检测速度。

本实施方式中的文字检测方法，如图3所示，可以包括以下步骤：

S21：在数据集内的样本图片上形成标记，其中，标记至少包括缩小文本框标记，标记还可以包括距离分布标记和/或边界分布标记。

S22：将形成标记后的样本图片输入待训练的文字检测模型，得到训练后的文字检测模型。

本实施方式中步骤S21、S22与第一实施方式中的步骤S11、S12类似，此处不再赘述。

S23：仅保留训练后的文字检测模型中的骨干网络和主干分支，以得到预测模型。

也就是说，在预测阶段，将训练后的文字检测模型的预测网络去除了辅助分支，仅保留了用于生成文本框的主干分支，在模型预测时仅使用缩小标记对应的概率图，从而提高了文字检测速度。

S24：将待检测图片输入预测模型，得到文字检测结果。

具体的说，在预测阶段，首先，选择固定阈值对概率图进行阈值分割生成{0，1}二值图，阈值根据实际分割效果在0.4-0.8之间选择，然后，根据二值图的连通域边界确定文本框，最后对文本框进行放大，放大的距离D′为：

其中，A′是文本框的面积，L′是文本框的周长，r′是放大率，设置为1.5。

需要说明的是，用于提取图像的金字塔网络骨干网络，可以由其他网络搭建，也可以是其他类型的骨干网络其目的是为了提取图像特征。预测网络分支，也可以是其他类型的网络分支，其目的是为了对应多个监督学习标记。文本框缩小方法也可以是其他缩小方法。缩小标记的生成是文本框内外像素的差异标记，也可以是其他数值。距离分布标记的生成，也可是其他形式的分布，采用分布形式来过渡步骤五中的差异标记。训练损失计算，各标记的损失的权重也可以是其他数值，只要保证目标标记的权重最大，其他标记的权重较小。各标记损失的计算也可以是其他损失函数，包括并不限于二值交叉熵损失和L1损失。模型训练和优化方法，并不限于预训练和微调以及梯度下降等优化方法，也可是Adam、AdaGrad等其他优化方法，学习率的设置也可使用其他方法。模型预测中，对预测到的文本框进行放大的方法也可以是其它方法。

如下表所示，其中，ResNet-18和ResNet-50表示搭建金字塔网络的骨干网络和仅使用缩小标记进行训练的效果，“Dis”和“Bor”表示增加了距离分布标记和边界分布标记进行监督训练的效果。

方法	精确度	召回率	F测度
				ResNet-18	84.7	77.0	80.6
ResNet-18+Dis	86.5	80.6	83.5
				ResNet-18+Dis+Bor	88.1	79.9	83.8
ResNet-50	90.5	77.9	83.7
				ResNet-50+Dis	90.9	80.6	85.4
ResNet-50+Dis+Bor	91.5	80.9	85.9

从实验结果可以看出，增加距离分布标记训练后模型的检测性能显著提升，继续增加边界分布标记训练会进一步提升模型的性能，本实施方式中的文字检测方法，在标准文字检测数据集MSRA-TD500上的消融实验充分验证本方法的有效性，效果提升明显。

本发明实施方式相对于现有技术而言，将距离分布标记和边界分布标记用于模型的训练，利用距离分布标记和边界分布标记能够更为准确的描述文本边界处的模糊性和稀疏性，增强模型训练所需要的监督信息，从而能够提高文字区域检测的准确性，进而提高文字识别结果的准确性；同时，在训练阶段使用多个预测分支来增加多个标记的监督训练，提高模型的训练效果，在预测阶段仅使用缩小标记对应的预测分支来预测最后的文本框，提高文本检测的速度。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

依据本申请的一实施方式，提供了一种终端，如图4所示，包括：至少一个处理器201，以及与至少一个处理器201通信连接的存储器202，其中，存储器202存储有可被至少一个处理器201执行的指令，指令被至少一个处理器201执行，以使至少一个处理器201能够执行如上述的文字检测方法。

其中，存储器202和处理器201可以采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器201和存储器202的各种电路连接在一起。总线还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器201处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器201。

处理器201可以用于负责管理总线和通常的处理，还可以提供各种功能，包括定时，***接口，电压调节、电源管理以及其他控制功能。而存储器202可以被用于存储处理器201在执行操作时所使用的数据。

依据本申请的一实施方式，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述的文字检测方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。这样的计算机程序可以被存储在设备(例如，计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-OnlyMemory，只读存储器)、RAM(Random Access Memory，随即存储器)、EPROM(ErasableProgrammable Read-Only Memory，可擦写可编程只读存储器)、EEPROM(ElectricallyErasable Programmable Read-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，可读介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

进一步地，相关技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文字检测方法，其特征在于，包括：

在数据集内的样本图片上形成标记，其中，所述标记至少包括缩小文本框标记，所述标记还包括距离分布标记和/或边界分布标记；

将形成标记后的所述样本图片输入待训练的文字检测模型，得到训练后的文字检测模型，所述训练后的文字检测模型用于进行文字检测。

2.根据权利要求1所述的文字检测方法，其特征在于，所述将形成标记后的所述样本图片输入待训练的文字检测模型，得到训练后的文字检测模型之前，还包括：

创建所述待训练的文字检测模型，其中，所述待训练的文字检测模型包括骨干网络和预测网络，所述预测网络包括主干分支和辅助分支，所述主干分支用于输出与所述缩小文本框标记对应的通道的概率图，所述辅助分支用于输出与所述距离分布标记和/或所述边界分布标记对应的通道的概率图。

3.根据权利要求2所述的文字检测方法，其特征在于，所述将形成标记后的所述样本图片输入待训练的文字检测模型，得到训练后的文字检测模型之后，还包括：

仅保留所述训练后的文字检测模型中的骨干网络和主干分支，以得到预测模型；

将待检测图片输入所述预测模型，得到文字检测结果。

4.根据权利要求1所述的文字检测方法，其特征在于，所述在数据集内的样本图片上形成标记，包括：

在所述样本图片上生成原文本框和缩小文本框；

将所述样本图片中位于所述缩小文本框的内部的像素标记为第一标记值，将所述样本图片中位于所述原文本框的外部的像素标记为第二标记值，将所述样本图片中位于所述缩小文本框和所述原文本框之间的像素，按照距离的变化均匀标记为第二标记值与第一标记值之间的过渡实数，以在所述样本图片上形成所述距离分布标记。

5.根据权利要求1所述的文字检测方法，其特征在于，所述在数据集内的样本图片上形成标记，包括：

在所述样本图片上生成原文本框、缩小文本框和放大文本框；

将所述样本图片中位于所述缩小文本框的内部和所述放大文本框的外部的像素标记为第二标记值，将所述样本图片中位于所述原文本框上的像素标记为第一标记值，将所述样本图片中位于所述缩小文本框和所述原文本框之间、以及所述原文本框和所述放大文本框之间的像素，按照距离的变化均匀标记为第二标记值与第一标记值之间的过渡实数，以在所述样本图片上形成所述边界分布标记。

6.根据权利要求1所述的文字检测方法，其特征在于，所述标记包括所述缩小文本框标记、所述距离分布标记以及所述边界分布标记，所述模型训练的总损失为所述缩小文本框标记的损失、所述距离分布标记的损失以及所述边界分布标记的损失的加权和；

其中，所述缩小文本框标记的损失的加权系数大于所述距离分布标记的损失的加权系数、且所述缩小文本框标记的损失的加权系数大于所述边界分布标记的损失的加权系数。

7.根据权利要求6所述的文字检测方法，其特征在于，所述缩小文本框标记的损失和所述距离分布标记的损失采用二值交叉熵损失函数计算得到。

8.根据权利要求1所述的文字检测方法，其特征在于，所述数据集包括合成数据集和实际检测到的真实数据集，所述将形成标记后的所述样本图片输入待训练的文字检测模型，得到训练后的文字检测模型，包括：

依次将形成标记后的所述合成数据集中的样本图片和形成标记后的所述真实数据集中的样本图片输入所述待训练的文字检测模型，得到所述训练后的文字检测模型。

9.一种终端，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至8中任一所述的文字检测方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的文字检测方法。