CN111737478B

CN111737478B - 文本检测方法、电子设备及计算机可读介质

Info

Publication number: CN111737478B
Application number: CN202010791553.9A
Authority: CN
Inventors: 张子浩; 李兵; 秦勇
Original assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Current assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2021-06-01
Anticipated expiration: 2040-08-07
Also published as: CN111737478A

Abstract

本发明实施例公开了一种文本检测方法、电子设备和计算机可读介质，其中，文本检测方法包括：对待处理文本图像进行特征提取及特征融合，获得融合特征图，其中，待处理文本图像中包含第一文本类型的第一文本和第二文本类型的第二文本；基于融合特征图进行文本分类检测，获得用于区分所述第一文本和所述第二文本的文本分类特征图；并且，对融合特征图进行文本边界检测，获得用于指示融合特征图中的文本边界的文本边界特征图；将文本分类特征图和文本边界特征图进行匹配，获得第一文本对应的第一文本边界和第二文本对应的第二文本边界。通过本发明实施例，有效提升了针对同时包含不同文本类型文本的文本图像的检测和处理效率。

Description

文本检测方法、电子设备及计算机可读介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种文本检测方法、电子设备和计算机可读介质。

背景技术

现在的教育教学场景中，学生的作业或试卷大多仍然采用人工方式进行批阅，为家长和老师带来了巨大的批阅负担。为此，多种自动判题、自动阅卷的方法应运而生。

因学生的作业或试卷中，通常打印体文本和学生手写的文本混杂，不便于机器判断和识别。为了方便对作业和试卷进行机器处理，目前采用的方式是，作业或试卷仅用于学生读题，而答案或选项则需要学生涂写在对应的答题卡上。然后，通过自动判题***对学生涂写的答题卡进行计算机识别。但是，这种方法对学生答题来说无形中增加了答题时间成本，甚至容易出现填涂错误、漏涂的现象。有些主观题需要学生将答案写在固定方框内，当手写答案超出答题区时会出现漏判问题。

因此，如何在文本图像中同时包含两种文本类型的文本时，如同时包含有打印体文本和手写体文本时，简单、准确地对文本类型进行区分和有效处理，成为亟待解决的问题。

发明内容

本发明提供了一种文本检测方案，以至少部分解决上述问题。

根据本发明实施例的第一方面，提供了一种文本检测方法，包括：对待处理文本图像进行特征提取及特征融合，获得融合特征图，其中，所述待处理文本图像中包含第一文本类型的第一文本和第二文本类型的第二文本；基于所述融合特征图进行文本分类检测，获得用于区分所述第一文本和所述第二文本的文本分类特征图；并且，对所述融合特征图进行文本边界检测，获得用于指示所述融合特征图中的文本边界的文本边界特征图；将所述文本分类特征图和所述文本边界特征图进行匹配，获得所述第一文本对应的第一文本边界和所述第二文本对应的第二文本边界。

根据本发明实施例的第二方面，提供了一种电子设备，所述设备包括：一个或多个处理器；计算机可读介质，配置为存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的文本检测方法。

根据本发明实施例的第三方面，提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的文本检测方法。

根据本发明实施例提供的方案，针对同时包含有第一文本类型的文本和第二文本类型的文本的待处理文本图像，在进行特征提取和融合，获得融合特征图后，一方面，对其进行文本分类检测，以获得能够区分出不同文本类型的文本分类特征图；另一方面，对其进行文本边界检测，以获得融合特征图中存在的多个文本边界对应的文本边界特征图。进而，对文本分类特征图和文本边界特征图进行匹配，从而分别确定出第一文本类型的第一文本的文本边界（即第一文本边界）和第二文本类型的第二文本的文本边界（即第二文本边界）。在进行文本检测时，通过对文本进行分类，可以准确区分出不同文本类型的文本，再通过与文本边界的匹配即可准确确定出不同文本类型在待处理文本图像中的位置，以便于后续对不同文本类型的文本进行处理。将本发明实施例的方案应用于学生作业或试题场景中时，学生可按照正常答题习惯在作业或试卷上答题，无需额外填涂答案；并且，也避免了学生将答案写在固定答题区外时出现的判题问题。从而，有效提升了针对同时包含不同文本类型文本的文本图像的检测和处理效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为根据本发明实施例一的一种文本检测方法的步骤流程图；

图2为根据本发明实施例二的一种文本检测方法的步骤性流程图；

图3A为根据本发明实施例三的一种文本检测方法的步骤性流程图；

图3B为图3A所示实施例中的一种用于进行文本检测的神经网络模型的结构示意图；

图3C为图3B所示神经网络模型中的文本分类检测部分的结构示意图；

图3D为图3B所示神经网络模型中的边界回归分析示意图；

图3E为图3A所示实施例中的一种用于进行文本识别的神经网络模型的结构示意图；

图4为根据本发明实施例四的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅配置为解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

实施例一

参照图1，示出了根据本发明实施例一的一种文本检测方法的步骤流程图。

本实施例的文本检测方法包括以下步骤：

步骤S102：对待处理文本图像进行特征提取及特征融合，获得融合特征图。

其中，待处理文本图像中包含第一文本类型的第一文本和第二文本类型的第二文本。本实施例中，对第一文本类型和第二文本类型的具体类型不作限制，本领域技术人员可以根据实际需要，设置两种不同的文本类型。在一种可行方式中，第一文本类型为打印体文本类型，第二文本类型为手写体文本类型，由此，可通过作业图像或试题图像，实现对常规的学生作业和试题答卷中不同类型文本如打印体文本和手写体文本的自动检测和识别。

对待处理文本图像的特征提取和特征融合同样可由本领域技术人员根据实际情况采用适当方式实现，例如各种卷积网络模型，或用于进行特征提取和/或特征融合的模块或模型等等。本实施例中，首先对待处理文本图像进行特征提取，获得提取出的文本图像特征；进而，再对提取出的文本图像特征进行特征融合，以获得融合特征图。经过该过程获得的融合特征图中包含了从不同维度融合后的文本图像的有效特征。

步骤S104：基于融合特征图进行文本分类检测，获得用于区分第一文本和第二文本的文本分类特征图；并且，对融合特征图进行文本边界检测，获得用于指示融合特征图中的文本边界的文本边界特征图。

在获得了融合特征图中，通过两个分支对其进行处理，一个分支为进行文本分类检测的分支，一个为进行文本边界检测的分支，这两个分支可并行设置，并行进行检测操作。

在进行文本分类检测的分支中，与仅能检测出像素点是否为文本像素点的常规文本检测不同，本实施例中，不仅检测出像素点是否为文本像素点，并且还进一步对其进行分类，以明确区别出某个像素点是第一文本类型的文本像素点还是第二文本类型的文本像素点。该文本分类检测可基于对融合特征图中的特征再次进行不同通道的特征提取，并通过分类函数对再次提取的特征进行分类实现。由此，经过文本分类检测处理获得的文本分类特征图，可确定不同像素点的文本类型。

在进行文本边界检测的分支中，可采用适当方式对融合特征图进行文本边界检测，例如，可以基于神经网络模型中预先设置的锚框进行检测，也可以基于神经网络模型进行无锚框的边界检测。通过文本边界检测，可获得待处理文本图像中的多个文本边界，包括第一文本类型的第一文本的文本边界，和第二文本类型的第二文本的文本边界。但仅依赖于文本边界特征图，无法对文本边界究竟是第一文本的文本边界还是第二文本的文本边界进行区分。为此，本实施例通过步骤S106，明确区分出不同文本类型的文本的文本边界。

需要说明的是，本发明实施例中，若无特殊说明，“多个”、“多种”等与“多”有关的数量，意指两个及两个以上。

步骤S106：将文本分类特征图和文本边界特征图进行匹配，获得第一文本对应的第一文本边界和第二文本对应的第二文本边界。

如前所述，仅依赖文本边界特征图，无法对文本边界究竟是第一文本的文本边界还是第二文本的文本边界进行区分。而将文本分类特征图和文本边界特征图进行匹配后，即可获得第一文本对应的第一文本边界和第二文本对应的第二文本边界。

例如，对于像素点A，若其在文本分类特征图中被指示为第一文本类型，该像素点A落入文本边界特征图的文本边界X的范围内，则可确定文本边界X为第一文本边界。类似地，对于像素点B，若其在文本分类特征图中被指示为第二文本类型，该像素点B落入文本边界特征图的文本边界Y的范围内，则可确定文本边界Y为第二文本边界。需要说明的是，在本文中，也可将文本边界称为文本框。

通过本实施例，针对同时包含有第一文本类型的文本和第二文本类型的文本的待处理文本图像，在进行特征提取和融合，获得融合特征图后，一方面，对其进行文本分类检测，以获得能够区分出不同文本类型的文本分类特征图；另一方面，对其进行文本边界检测，以获得融合特征图中存在的多个文本边界对应的文本边界特征图。进而，对文本分类特征图和文本边界特征图进行匹配，从而分别确定出第一文本类型的第一文本的文本边界（即第一文本边界）和第二文本类型的第二文本的文本边界（即第二文本边界）。在进行文本检测时，通过对文本进行分类，可以准确区分出不同文本类型的文本，再通过与文本边界的匹配即可准确确定出不同文本类型在待处理文本图像中的位置，以便于后续对不同文本类型的文本进行处理。将本发明实施例的方案应用于学生作业或试题场景中时，学生可按照正常答题习惯在作业或试卷上答题，无需额外填涂答案；并且，也避免了学生将答案写在固定答题区外时出现的判题问题。从而，有效提升了针对同时包含不同文本类型文本的文本图像的检测和处理效率。

本实施例的文本检测方法可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：服务器、和PC机等。

实施例二

参照图2，示出了根据本发明实施例二的一种文本检测方法的步骤性流程图。

本实施例的文本检测方法包括以下步骤：

步骤S202：获取原始文本图像并进行预处理，获得待处理文本图像。

通过对图像的预处理，可以提高后续的图像处理速度和效率。本实施例中，首先获得包含第一文本类型的第一文本和第二文本类型的第二文本的原始文本图像；再对所述原始文本图像进行预处理，获得二值化的待处理文本图像。通过将原始文本图像进行二值化，可以大大减少后续的图像数据的处理数据量，提高处理效率。

如前所述，第一文本类型和第二文本类型可以为任意适当的不同类型，本实施例中，以第一文本类型为打印体文本类型，第二文本类型为手写体文本类型为示例。

其中，在一种可行方式中，所述对所述原始文本图像进行预处理，获得二值化的待处理文本图像可以包括：对所述原始文本图像依次进行图像白平衡调整处理、二值化处理和去噪处理，获得二值化的待处理文本图像。由此，既减少了后续进行图像处理的数据量，也排除了原始文本图像中存在的大量干扰因素。

步骤S204：对待处理文本图像进行特征提取及特征融合，获得融合特征图。

由上述步骤S202可见，原始文本图像经过预处理后获得的待处理文本图像中，仍然包含第一文本类型的第一文本和第二文本类型的第二文本。对待处理文本图像的特征提取和特征融合，包括了对这两种文本类型的文本的特征提取和特征融合。

在一种可行方式中，可通过神经网络模型实现本步骤，例如，可通过神经网络模型中的残差网络部分，对待处理文本图像进行特征提取，获得第一特征映射图；将第一特征映射图输入神经网络模型的FPN（特征金字塔网络）部分再次进行特征提取，获得第二特征映射图；将第二特征映射图输入神经网络模型的FML（特征融合层）进行特征融合，获得融合特征图。

本实施例中，残差网络部分采用ResNET结构，但不限于此，残差网络部分也可以实现为多个残差块ResBlock的形式，通过残差网络部分，可以实现特征的有效、快速提取，进而获得多个第一特征映射图。而通过FPN则可以从多个尺度对多个第一特征映射图进行特征提取和增强处理，获得多个第二特征映射图。进而，再通过FML对多个第二特征映射图中的特征进行融合，获得融合特征图。需要说明的是，本发明实施例中，“第一”、“第二”等仅用于区别不同的对象，并不表示时序、顺序或数量关系。

通过上述过程，使用神经网络模型进行特征提取和特征融合，使得获得的特征具有更好的表达能力，更便于后续处理。

步骤S206：基于融合特征图进行文本分类检测，获得用于区分第一文本和第二文本的文本分类特征图；并且，对融合特征图进行文本边界检测，获得用于指示融合特征图中的文本边界的文本边界特征图。

其中，在一种基于融合特征图进行文本分类检测，获得用于区分第一文本和第二文本的文本分类特征图的可行方式中，可以基于融合特征图中的像素点进行文本分类检测，获得所述像素点对应于第一文本类型和第二文本类型的概率；根据获得的所述概率，确定第一文本类型对应的第一像素点和第二文本类型对应的第二像素点；根据第一像素点和第二像素点，获得文本分类特征图。也即，基于融合特征图中的像素点进行文本分类检测，获得每个像素点属于第一文本类型的概率和属于第二文本类型的概率，进而，以此为依据，确定出融合特征图中属于第一文本类型的像素点和属于第二文本类型的像素点，获得文本分类特征图。由此，实现了第一文本和第二文本的有效区分。

但本领域技术人员应当理解的是，在实际应用中，文本图像不仅包括第一文本和第二文本，也具有相应的背景像素，即第一文本和第二文本的背景，即本发明实施例中的文本背景。虽然通过两种文本类型的分类也区分出第一文本和第二文本，但增加对文本背景的考量，使得对整体像素信息的考量更为全面，获得的信息也更为准确。基于此，在一种可行方式中，所述基于融合特征图中的像素点进行文本分类检测，获得所述像素点对应于第一文本类型和所述第二文本类型的概率可以实现为：基于融合特征图中的像素点进行文本分类检测，获得所述像素点对应于第一文本类型的概率、第二文本类型的概率、和文本背景的概率。

相应地，所述根据获得的所述概率，确定第一文本类型对应的第一像素点和第二文本类型对应的第二像素点可以包括：根据获得的所述概率，确定第一文本类型对应的第一像素点、第二文本类型对应的第二像素点、和文本背景对应的第三像素点。所述根据第一像素点和第二像素点，获得文本分类特征图，包括：根据第一像素点、第二像素点和第三像素点，获得文本分类特征图。

而在对融合特征图进行文本边界检测，获得用于指示融合特征图中的文本边界的文本边界特征图时，可以对融合特征图的像素点进行边界回归分析，获得用于指示融合特征图中的文本边界的文本边界特征图。边界回归分析是基于像素点对应的特征向量和适当的参数，利用回归算法确定该像素点对应的文本边界的方法。通过边界回归分析方式，无需预先设定锚框，简化了方案实现，也降低了方案实现成本。其中，回归分析的具体实现可采用任意适当的、可预测或确定文本边界的算法实现。

可选地，对融合特征图的像素点进行边界回归分析，获得用于指示融合特征图中的文本边界的文本边界特征图可以包括：对融合特征图的像素点进行边界回归分析，获得所述像素点的边界距离和边界倾斜角度；根据所述边界距离和所述边界倾斜角度，确定文本边界的中心点、宽度、高度和倾斜角度；根据所述文本边界的中心点、宽度、高度和倾斜角度，获得文本边界特征图。由此，即可实现文本边界的准确预测或判定。

而若通过前述神经网络模型实现上述过程时，步骤S206可以实现为：将融合特征图分别输入所述神经网络模型的文本分类分支和边界检测分支；通过文本分类分支对融合特征图进行文本分类检测，获得用于区分第一文本和第二文本的文本分类特征图；并且，通过边界检测分支对融合特征图进行文本边界检测，获得用于指示融合特征图中的文本边界的文本边界特征图。

也即，在所述神经网络模型中，在FML之后，同时设置有文本分类分支和边界检测分支。其中，文本分类分支用于进行文本分类检测，获得文本分类特征图；边界检测分支用于进行文本边界检测，获得文本边界特征图。

与前述过程相结合，则文本分类分支可以通过模型训练阶段的训练，确定其用于进行文本分类检测的各个模型参数，文本分类分支的输入为融合特征图，输出指示像素点为第一文本、第二文本和文本背景的三个概率，通过任意适当的分类函数如SOFTMAX函数对这三个概率进行处理后，获得每个像素点的最大通道概率值，即为该像素点的分类结果。基于每个像素点的分类结果形成文本分类特征图。基于此，所述通过文本分类分支对融合特征图进行文本分类检测，获得用于区分第一文本和第二文本的文本分类特征图可以实现为：通过文本分类分支提取融合特征图的至少三个通道的特征，所述三个通道的特征分别用于表示融合特征图中的每个像素点属于第一文本类型的概率、第二文本类型的概率和文本背景的概率；通过所述三个通道的特征和预设的分类函数，确定融合特征图中的每个像素点对应的类型。通过三个通道的特征提取，可获得不同角度的文本特征，进而准确确定像素点所属的分类。其中，所述预设的分类函数可以为任意适当的分类函数，包括但不限于SOFTMAX函数。

而边界检测分支则通过边界回归分析方式，确定每个像素点对应的文本边界（即文本框）。与文本分类分支类似，边界检测分支中的模型参数同样可通过神经网络模型在训练阶段的训练获得，包括回归分析算法中的各个参数。

上述对神经网络模型中的文本分类分支中的模型参数的训练，和对边界检测分支中的模型参数的训练，可参照分类网络的参数训练和无预设锚框的文本框参数训练实现，本发明实施例在此不再详述。

步骤S208：将文本分类特征图和文本边界特征图进行匹配，获得第一文本对应的第一文本边界和第二文本对应的第二文本边界。

例如，可以将文本分类特征图中的像素点与文本边界特征图中的文本边界进行匹配，获得所述像素点对应的文本边界；根据所述像素点对应的文本类型和所述像素点对应的文本边界，获得第一文本类型对应的第一文本的第一文本边界，和第二文本类型对应的第二文本的第二文本边界。以像素点为单位进行匹配，可准确确定每个像素点所属的文本边界，并基于该像素点的文本类型确定其所属的文本边界的类型，由此实现不同文本边界的准确确定。

而当使用神经网络模型实现本步骤时，可以通过神经网络模型的后处理部分，对文本分类特征图和文本边界特征图进行匹配；对匹配结果进行非极大值抑制处理，根据处理结果获得第一文本对应的第一文本边界和第二文本对应的第二文本边界。通过非极大值抑制NMS处理，可以去除掉较高重合度的文本边界（文本框），以获得准确的文本边界信息。

通过上述过程，即可实现不同文本类型如打印体文本类型和手写体文本类型的检测。

可选地，还可以基于上述检测的检测结果进行下文所述步骤的内容识别和处理。

步骤S210：分别对第一文本边界中的第一文本和第二文本边界中的第二文本进行内容识别，获得对应的第一文本内容和第二文本内容。

对文本内容的识别可采用任意适当的方式实现，例如，可以采用CNN+LSTM+CTC的模式方式实现文本内容识别，本实施例中具体采用ResNet+LSTM+Decoder的模型结构对第一文本和第二文本进行文本内容识别。在待处理文本图像为作业图像或试题图像时，可以将打印体的题干部分作为第一文本，将学生的手写体答案部分作为第二文本，并且，在此情况下，通常会包括多个题目，每个题目都有题干和答案部分，则通过本步骤可以识别出每个题目的题干内容和答案内容。

通过本步骤，基于确定的第一文本边界和第二文本边界，即可实现不同文本类型的文本内容的准确识别。

步骤S212：以第一文本边界为基准，通过近邻匹配算法，获得与第一文本边界相匹配的第二文本边界；根据第一文本边界和第二文本边界的匹配关系，获得文本条目。

在包含有不同文本类型的文本图像中，第一文本和第二文本通常具有一定的关联关系，如在作业图像和试题图像中，通常一个第一文本对应有一个第二文本，也即，打印体的题干和手写体的答案是成对出现。但不限于此，在实际应用中，也可能一个第一文本对应有多个第二文本，或者，多个第一文本对应有一个第二文本，均可适用本实施例的方案。

本实施例中，以每个第一文本边界为基准，通过近邻匹配算法查找与该第一文本边界最为接近的第二文本边界。例如，以一个第一文本边界A1为示例，以A1为中心从横向和竖向方向查找与A1最接近的第二文本边界A2，将A2视为与A1匹配的第二文本边界，A1和A2形成一个文本条目。对其它第一文本边界和第二文本边界也进行类似操作，可获得多个文本条目。具体到作业图像和试题图像情形，即可获得每个作业或试题条目，每个条目包含有第一文本边界内的题干和第二文本边界内的答案。

通过本步骤，即可实现不同类型的文本边界的准确匹配，以便为后续进行内容匹配判断提供依据。

需要说明的是，在实际应用中，步骤S210和步骤S212的执行可以不分先后顺序，也可以并行执行。

步骤S214：根据匹配的第一文本边界对应的第一文本内容，和第二文本边界对应的第二文本内容，对文本条目的内容正确性进行判断。

例如，在作业图像和试题图像的情况下，一种可行方式中，可以先根据第一文本内容获得匹配的参考内容，再将该参考内容与第二文本内容进行比较，若两者一致，则可确定文本条目内容正确。在另一种可行方式中，可以直接对第一文本内容和第二文本内容的内容关联性或对应性进行分析，根据分析结果来确定文本条目的内容是否正确。

以文本条目“‘1+2=’‘3’”为示例，其中，第一文本内容为“1+2=”，第二文本内容为“3”。则，可以首先计算获得“1+2”的结果，即参考内容“3”，然后将参考内容“3”与第二文本内容“3”进行比较，判断两者一致，则可认为文本条目“‘1+2=’‘3’”内容正确。

再例如，以文本条目“‘3*7=’‘28’”为示例，其中，第一文本内容为“3*7=”，第二文本内容为“28”。则，可以首先计算获得“3*7”的结果，即参考内容“21”，然后将参考内容“21”与第二文本内容“28”进行比较，判断两者不一致，则可认为文本条目“‘3*7=’‘28’”内容不正确。

由上可见，通过上述过程，除可实现不同文本类型的文本检测外，还可实现不同文本类型的文本匹配，及包含不同文本类型的文本内容正确性的判断，大大提升了包含不同文本类型的文本图像的处理效率，节约了人工成本，减轻了人工负担。将本实施例的方案应用于作业图像或试题图像场景时，可实现作业或试题的自动判题功能。

实施例三

本实施例以一个具体示例的形式，对本发明实施例提供的文本检测方案进行说明。该示例中，待处理文本图像为包含打印体的题干和手写体的答案的口算式子图像，其中，第一文本类型为打印体类型，其对应有第一文本（主要对应于题干部分）；第二文本类型为手写体类型，其对应有第二文本（主要对应于答案部分）。并且，本示例中的文本检测方案通过神经网络模型实现。

基于此，本实施例的文本检测方法如图3A所示，该方法包括以下步骤：

步骤S302：获取原始文本图像并对原始文本图像进行预处理，得到待处理文本图像。

本实施例中，原始文本图像中包含有第一文本类型的第一文本和第二文本类型的第二文本，具体到作业图像或试题图像，打印体的题干作为第一文本，手写体的答案作为第二文本。

因在实际应用场景中，原始文本图像中可能存在大量的干扰，为了更好地适用神经网络模型，首先对该原始文本图像进行预处理，包括：依次进行的图像白平衡调整处理、二值化处理、去噪增强处理。

其中，图像白平衡处理可以采用灰度世界算法，以处理原始文本图像中的光照不均的问题；二值化处理可以采用局部自适应二值化方法，可有效地区分原始文本图像的前景和背景；去噪增强处理可以采用高斯和椒盐去噪，去除噪点。

经过上述预处理，能够有效去除原始文本图像中的背景噪音和光线变换的影响。

步骤S304：对待处理文本图像进行文本检测。

本步骤中，一方面，对待处理文本图像进行打印体文本和手写体文本的分类检测；另一方面，还对待处理文本图像进行文本框检测（即文本边界检测）。

在作业图像或试题图像中，一般打印体文本为题干或说明，手写体文本为学生的答案，本实施例口算式子图像同样适用于此。基于此，本实施例的神经网络模型采用基于无锚点框的打印体和手写体分类检测算法，检测出打印体文本和手写体文本的位置信息。可选地，还可将对应的文本区域进行裁剪。

本实施例的神经网络模型中的检测部分如图3B所示，设定待处理文本图像inputimage的尺寸为512*512*3，首先输入ResNet50进行特征提取；然后，将提取的特征形成的第一特征映射图送入FPN（特征金字塔）中再次进行特征提取和特征增强，获得第二特征映射图；送入FML（Feature Merge Layer，特征融合层）将不同尺度的第二特征映射图进行融合，得到融合特征图；然后，将得到的融合特征图分别进行卷积得到cls map（文本分类特征图，尺寸为128*128*3）和rb map（文本边界特征图，也称为文本框特征图，尺寸为128*128*5）；最后，通过算法后处理部分将cls map得到的手写体文本的像素点和打印体文本的像素点分别和rb map的像素点进行匹配，得到手写体文本框和打印体文本框；进而，对手写体文本框和打印体文本框进行NMS处理，得到最终的输出结果，即最终的手写体文本框和打印体文本框。

其中，上述神经网络模型中的文本分类检测部分如图3C所示。图3C中，待处理文本图像在经过Resnet50和FPN的处理后，将会得到4个不同尺度的特征映射图，分别为C1、C2、C3、C4，它们的尺寸分别为128*128*64、64*64*128、32*32*256、16*16*512。C4经过unpool尺寸变为32*32*512，然后和C3进行通道融合，再分别通过1*1和3*3的卷积得到融合后的融合的特征映射图，其尺寸为32*32*128。依此类推，该融合的特征映射图再和C2进行通道融合获得融合后的特征映射图；进一步地，和C2进行融合后获得的特征映射图再和C1进行通道融合，获得最终的融合特征图。

基于上述获得的最终的融合特征图再进行卷积，获得cls map和rb map。

其中，cls map为文本分类特征图，其尺寸为待处理文本图像的1/4大小，通道为3，每个通道分别代表像素点为文本背景的概率、为手写体文本的概率、和为打印体文本的概率。在图3B中所示的神经网络模型的算法后处理部分，采用SOFTMAX函数获取每个像素点的最大通道概率值，得到该像素点的分类结果。例如，在cls map中某一位置的像素点上每个通道的概率分别为0.1、0.8和0.1，那么该像素点分类结果为手写体文本。

本实施例的神经网络模型中，手写体文本类型和打印体文本类型的分类检测采用anchor free思想，无需手动设计anchor尺寸和数量，直接回归以当前像素点为基点的左、右、上、下相对距离，从而完成文本框检测。

本实施例中，rb map为几何回归特征图，其尺寸同样为待处理文本图像的1/4大小，通道为5。如图3D所示，其中每个通道分别代表该像素点预测的左边相对距离LL、预测的右边相对距离RL、预测的上边相对距离TL、预测的下边相对距离BL和预测的角度TT。设待处理文本图像的尺寸宽高分别为W、H，以某个像素点（x，y）为基准，通过下述公式1、2、3、4，即可得到绝对预测框（即该像素点所在的文本框）的中心点（cx，cy）、宽度w、高度h和倾斜角度TT。

（公式1）

（公式2）

（公式3）

（公式4）

根据上述各个通道的输出，可获得所述rb map。

在得到cls map和rb map后，通过匹配即可得到待处理文本图像中所有的文本框。例如，在cls map上位置为10*10的像素点上其3通道概率值分别为0.1、0.8、0.1，那么该像素点即为手写体文本，对应到rb map的10*10像素点分别得到其文本框的5个值。映射到待处理文本图像中，就可以得到位置为40*40的像素点的分类结果和文本框大小。最后通过NMS算法得到该像素点最终的检测结果，即手写体文本框的位置或打印体文本框的位置。

步骤S306：进行文本内容识别。

在得到步骤S304的输出后，本实施例采用以卷积神经网络和循环神经网络构成的模型进行文本内容识别，分别得到手写体文本和打印体文本的识别结果。

如图3E所示，步骤S304输出的具有手写体文本框的位置和打印体文本框的位置的图像，作为本步骤的模型输入，该图像为尺寸为32*128*1的灰度图。基于此，可以首先将该图像进行缩放，长度超过128的直接进行缩放，长度不足128的剩下的补0至128；然后，输入ResNet18进行特征提取，获得相应的特征映射图；接着，将该特征映射图送入LSTM进行再次特征提取，并获得相应的特征映射图；最后，再将LSTM输出的特征映射图通过Decoder进行解码，获得最终的文本内容识别结果。其中，Decoder可以采用贪心解码算法。

步骤S308：获得文本条目。

本实施例的原始文本图像中，题干为打印体文本，答案为手写体文本。为了得到每个文本条目，本实施例中具体为口算式子的完整内容（题干和答案），以方便后面进行文本条目的内容正确性判断（本实施例具体为判断每个口算式子的答案是否正确），在得到不同文本类型的文本位置信息即文本框位置后，采用近邻匹配算法进行口算式子题型匹配。例如，以每个打印体文本框为中心，去横向和竖向寻找和其最接近的手写体文本框，将其视为该打印体文本框对应的手写体文本框。一个口算式子包含一个打印体文本框和一个手写体文本框。

步骤S310：对文本条目进行内容正确性判断，获得判断结果。

具体到本实施例，在得到了一个口算式子的打印体文本框中的打印体文本内容和手写体文本框中的手写体文本内容后，可以首先通过识别判断是否为口算式子，如果为口算式子，则根据打印体文本内容和手写体文本内容进行判题，判断口算式子是否正确，并最终将判断结果进行输出。其中，可以通过不同的颜色框来标示正确的口算式子和错误的口算式子，也可以通过不同的标记，如“P”或“O”来标示正确的口算式子和错误的口算式子。

通过本实施例，可以对作业图像或试题图像中的手写体文本和打印体文本进行分类检测和识别，从而能够高效地获得题干信息和答案信息，进而通过智能分析匹配和判题得到判题结果。由此，可实现图像形式的作业或试题的自动判题，无需人工参与，大大降低了人工成本，提高了作业和试题的判题效率。

实施例四

图4为本发明实施例四中电子设备的硬件结构，如图4所示，该电子设备可以包括：处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403、以及通信总线404。

其中：

处理器401、通信接口402、以及存储器403通过通信总线404完成相互间的通信。

通信接口402，用于与其它电子设备或服务器进行通信。

处理器401，用于执行程序405，具体可以执行上述文本检测方法实施例中的相关步骤。

具体地，程序405可以包括程序代码，该程序代码包括计算机操作指令。

处理器401可能是中央处理器CPU，或者是特定集成电路ASIC（ApplicationSpecific Integrated Circuit），或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器403，用于存放程序405。存储器403可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。

程序405具体可以用于使得处理器401执行以下操作：对待处理文本图像进行特征提取及特征融合，获得融合特征图，其中，所述待处理文本图像中包含第一文本类型的第一文本和第二文本类型的第二文本；基于所述融合特征图进行文本分类检测，获得用于区分所述第一文本和所述第二文本的文本分类特征图；并且，对所述融合特征图进行文本边界检测，获得用于指示所述融合特征图中的文本边界的文本边界特征图；将所述文本分类特征图和所述文本边界特征图进行匹配，获得所述第一文本对应的第一文本边界和所述第二文本对应的第二文本边界。

在一种可选的实施方式中，程序405还用于使得处理器401在基于所述融合特征图进行文本分类检测，获得用于区分所述第一文本和所述第二文本的文本分类特征图时，基于所述融合特征图中的像素点进行文本分类检测，获得所述像素点对应于所述第一文本类型和所述第二文本类型的概率；根据获得的所述概率，确定所述第一文本类型对应的第一像素点和所述第二文本类型对应的第二像素点；根据所述第一像素点和所述第二像素点，获得所述文本分类特征图。

在一种可选的实施方式中，程序405还用于使得处理器401在所述基于所述融合特征图中的像素点进行文本分类检测，获得所述像素点对应于所述第一文本类型和所述第二文本类型的概率时，基于所述融合特征图中的像素点进行文本分类检测，获得所述像素点对应于所述第一文本类型的概率、所述第二文本类型的概率、和文本背景的概率；在所述根据获得的所述概率，确定所述第一文本类型对应的第一像素点和所述第二文本类型对应的第二像素点时，根据获得的所述概率，确定所述第一文本类型对应的第一像素点、所述第二文本类型对应的第二像素点、和所述文本背景对应的第三像素点；在所述根据所述第一像素点和所述第二像素点，获得所述文本分类特征图时，根据所述第一像素点、所述第二像素点和所述第三像素点，获得所述文本分类特征图。

在一种可选的实施方式中，程序405还用于使得处理器401在对所述融合特征图进行文本边界检测，获得用于指示所述融合特征图中的文本边界的文本边界特征图时，对所述融合特征图的像素点进行边界回归分析，获得用于指示所述融合特征图中的文本边界的文本边界特征图。

在一种可选的实施方式中，程序405还用于使得处理器401在对所述融合特征图的像素点进行边界回归分析，获得用于指示所述融合特征图中的文本边界的文本边界特征图时，对所述融合特征图的像素点进行边界回归分析，获得所述像素点的边界距离和边界倾斜角度；根据所述边界距离和所述边界倾斜角度，确定文本边界的中心点、宽度、高度和倾斜角度；根据所述文本边界的中心点、宽度、高度和倾斜角度，获得文本边界特征图。

在一种可选的实施方式中，程序405还用于使得处理器401在将所述文本分类特征图和文本边界特征图进行匹配，获得所述第一文本对应的第一文本边界和所述第二文本对应的第二文本边界时，将所述文本分类特征图中的像素点与所述文本边界特征图中的文本边界进行匹配，获得所述像素点对应的文本边界；根据所述像素点对应的文本类型和所述像素点对应的文本边界，获得所述第一文本类型对应的第一文本的第一文本边界，和所述第二文本类型对应的第二文本的第二文本边界。

在一种可选的实施方式中，程序405还用于使得处理器401分别对所述第一文本边界中的第一文本和所述第二文本边界中的第二文本进行内容识别，获得对应的第一文本内容和第二文本内容。

在一种可选的实施方式中，程序405还用于使得处理器401以所述第一文本边界为基准，通过近邻匹配算法，获得与所述第一文本边界相匹配的第二文本边界；根据所述第一文本边界和所述第二文本边界的匹配关系，获得文本条目。

在一种可选的实施方式中，程序405还用于使得处理器401在根据匹配的所述第一文本边界对应的第一文本内容，和所述第二文本边界对应的第二文本内容，对所述文本条目的内容正确性进行判断。

在一种可选的实施方式中，程序405还用于使得处理器401在所述对待处理文本图像进行特征提取及特征融合，获得融合特征图之前，获得包含所述第一文本和所述第二文本的原始文本图像；对所述原始文本图像进行预处理，获得二值化的所述待处理文本图像。

在一种可选的实施方式中，程序405还用于使得处理器401在对所述原始文本图像进行预处理，获得二值化的所述待处理文本图像时，对所述原始文本图像依次进行图像白平衡调整处理、二值化处理和去噪处理，获得二值化的所述待处理文本图像。

在一种可选的实施方式中，程序405还用于使得处理器401在对待处理文本图像进行特征提取及特征融合，获得融合特征图时，通过神经网络模型中的残差网络部分，对待处理文本图像进行特征提取，获得第一特征映射图；将所述第一特征映射图输入所述神经网络模型的特征金字塔网络部分再次进行特征提取，获得第二特征映射图；将所述第二特征映射图输入所述神经网络模型的特征融合层进行特征融合，获得融合特征图。

在一种可选的实施方式中，程序405还用于使得处理器401在基于所述融合特征图进行文本分类检测，获得用于区分所述第一文本和所述第二文本的文本分类特征图；并且，对所述融合特征图进行文本边界检测，获得用于指示所述融合特征图中的文本边界的文本边界特征图时，将所述融合特征图分别输入所述神经网络模型的文本分类分支和边界检测分支；通过所述文本分类分支对所述融合特征图进行文本分类检测，获得用于区分所述第一文本和所述第二文本的文本分类特征图；并且，通过所述边界检测分支对所述融合特征图进行文本边界检测，获得用于指示所述融合特征图中的文本边界的文本边界特征图。

在一种可选的实施方式中，程序405还用于使得处理器401在通过所述文本分类分支对所述融合特征图进行文本分类检测，获得用于区分所述第一文本和所述第二文本的文本分类特征图时，通过所述文本分类分支提取所述融合特征图的至少三个通道的特征，所述三个通道的特征分别用于表示所述融合特征图中的每个像素点属于第一文本类型的概率、第二文本类型的概率和文本背景的概率；通过所述三个通道的特征和预设的分类函数，确定所述融合特征图中的每个像素点对应的类型。

在一种可选的实施方式中，程序405还用于使得处理器401在将所述文本分类特征图和所述文本边界特征图进行匹配，获得所述第一文本对应的第一文本边界和所述第二文本对应的第二文本边界时，通过所述神经网络模型的后处理部分，对所述文本分类特征图和所述文本边界特征图进行匹配；对匹配结果进行非极大值抑制处理，根据处理结果获得所述第一文本对应的第一文本边界和所述第二文本对应的第二文本边界。

在一种可选的实施方式中，所述第一文本类型为打印体文本类型，所述第二文本类型为手写体文本类型。

程序405中各步骤的具体实现可以参见上述文本检测方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

通过本实施例的电子设备，针对同时包含有第一文本类型的文本和第二文本类型的文本的待处理文本图像，在进行特征提取和融合，获得融合特征图后，一方面，对其进行文本分类检测，以获得能够区分出不同文本类型的文本分类特征图；另一方面，对其进行文本边界检测，以获得融合特征图中存在的多个文本边界对应的文本边界特征图。进而，对文本分类特征图和文本边界特征图进行匹配，从而分别确定出第一文本类型的第一文本的文本边界（即第一文本边界）和第二文本类型的第二文本的文本边界（即第二文本边界）。在进行文本检测时，通过对文本进行分类，可以准确区分出不同文本类型的文本，再通过与文本边界的匹配即可准确确定出不同文本类型在待处理文本图像中的位置，以便于后续对不同文本类型的文本的处理。通过这种方式，学生可按照正常答题习惯在作业或试卷上答题，无需额外填涂答案；并且，也避免了学生将答案写在固定答题区外时出现的判题问题。从而，有效提升了针对同时包含不同文本类型文本的文本图像的处理效率。

需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质（诸如CD ROM、RAM、软盘、硬盘或磁光盘）中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件（诸如ASIC或FPGA）的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件（例如，RAM、ROM、闪存等），当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的文本检测方法。此外，当通用计算机访问用于实现在此示出的文本检测方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的文本检测方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

以上实施方式仅用于说明本发明实施例，而并非对本发明实施例的限制，有关技术领域的普通技术人员，在不脱离本发明实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明实施例的范畴，本发明实施例的专利保护范围应由权利要求限定。

Claims

1.一种文本检测方法，其特征在于，包括：

对待处理文本图像进行特征提取及特征融合，获得融合特征图，其中，所述待处理文本图像中包含第一文本类型的第一文本和第二文本类型的第二文本；

基于所述融合特征图进行文本分类检测，获得用于区分所述第一文本和所述第二文本的文本分类特征图；并且，对所述融合特征图进行文本边界检测，获得用于指示所述融合特征图中的文本边界的文本边界特征图；

将所述文本分类特征图和所述文本边界特征图进行匹配，获得所述第一文本对应的第一文本边界和所述第二文本对应的第二文本边界；

其中，将所述融合特征图分别输入神经网络模型的文本分类分支和边界检测分支；通过所述文本分类分支对所述融合特征图进行文本分类检测；并且，通过所述边界检测分支对所述融合特征图进行文本边界检测；

进行文本分类检测包括：基于所述融合特征图中的像素点进行文本分类检测，获得所述像素点对应于所述第一文本类型和所述第二文本类型的概率；

根据获得的所述概率，确定所述第一文本类型对应的第一像素点和所述第二文本类型对应的第二像素点；

根据所述第一像素点和所述第二像素点，获得所述文本分类特征图；

进行文本边界检测包括：对所述融合特征图的像素点进行边界回归分析，获得所述像素点的边界距离和边界倾斜角度；所述边界距离包括预测的左边相对距离LL、预测的右边相对距离RL、预测的上边相对距离TL、预测的下边相对距离BL；所述边界倾斜角度包括预测的倾斜角度TT；

根据所述边界距离和所述边界倾斜角度，确定文本边界的中心点、宽度、高度和倾斜角度；

根据所述文本边界的中心点、宽度、高度和倾斜角度，获得文本边界特征图。

2.根据权利要求1所述的方法，其特征在于，

所述基于所述融合特征图中的像素点进行文本分类检测，获得所述像素点对应于所述第一文本类型和所述第二文本类型的概率，包括：基于所述融合特征图中的像素点进行文本分类检测，获得所述像素点对应于所述第一文本类型的概率、所述第二文本类型的概率、和文本背景的概率；

所述根据获得的所述概率，确定所述第一文本类型对应的第一像素点和所述第二文本类型对应的第二像素点，包括：根据获得的所述概率，确定所述第一文本类型对应的第一像素点、所述第二文本类型对应的第二像素点、和所述文本背景对应的第三像素点；

所述根据所述第一像素点和所述第二像素点，获得所述文本分类特征图，包括：根据所述第一像素点、所述第二像素点和所述第三像素点，获得所述文本分类特征图。

3.根据权利要求1所述的方法，其特征在于，所述将所述文本分类特征图和文本边界特征图进行匹配，获得所述第一文本对应的第一文本边界和所述第二文本对应的第二文本边界，包括：

将所述文本分类特征图中的像素点与所述文本边界特征图中的文本边界进行匹配，获得所述像素点对应的文本边界；

根据所述像素点对应的文本类型和所述像素点对应的文本边界，获得所述第一文本类型对应的第一文本的第一文本边界，和所述第二文本类型对应的第二文本的第二文本边界。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

分别对所述第一文本边界中的第一文本和所述第二文本边界中的第二文本进行内容识别，获得对应的第一文本内容和第二文本内容。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

以所述第一文本边界为基准，通过近邻匹配算法，获得与所述第一文本边界相匹配的第二文本边界；

根据所述第一文本边界和所述第二文本边界的匹配关系，获得文本条目。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

根据匹配的所述第一文本边界对应的第一文本内容，和所述第二文本边界对应的第二文本内容，对所述文本条目的内容正确性进行判断。

7.根据权利要求1所述的方法，其特征在于，在所述对待处理文本图像进行特征提取及特征融合，获得融合特征图之前，所述方法还包括：

获得包含所述第一文本和所述第二文本的原始文本图像；

对所述原始文本图像进行预处理，获得二值化的所述待处理文本图像。

8.根据权利要求7所述的方法，其特征在于，所述对所述原始文本图像进行预处理，获得二值化的所述待处理文本图像，包括：

对所述原始文本图像依次进行图像白平衡调整处理、二值化处理和去噪处理，获得二值化的所述待处理文本图像。

9.根据权利要求1所述的方法，其特征在于，所述对待处理文本图像进行特征提取及特征融合，获得融合特征图，包括：

通过神经网络模型中的残差网络部分，对待处理文本图像进行特征提取，获得第一特征映射图；

将所述第一特征映射图输入所述神经网络模型的特征金字塔网络部分再次进行特征提取，获得第二特征映射图；

将所述第二特征映射图输入所述神经网络模型的特征融合层进行特征融合，获得融合特征图。

10.根据权利要求1所述的方法，其特征在于，所述通过所述文本分类分支对所述融合特征图进行文本分类检测，获得用于区分所述第一文本和所述第二文本的文本分类特征图，包括：

通过所述文本分类分支提取所述融合特征图的至少三个通道的特征，所述三个通道的特征分别用于表示所述融合特征图中的每个像素点属于第一文本类型的概率、第二文本类型的概率和文本背景的概率；

通过所述三个通道的特征和预设的分类函数，确定所述融合特征图中的每个像素点对应的类型。

11.根据权利要求1所述的方法，其特征在于，所述将所述文本分类特征图和所述文本边界特征图进行匹配，获得所述第一文本对应的第一文本边界和所述第二文本对应的第二文本边界，包括：

通过所述神经网络模型的后处理部分，对所述文本分类特征图和所述文本边界特征图进行匹配；

对匹配结果进行非极大值抑制处理，根据处理结果获得所述第一文本对应的第一文本边界和所述第二文本对应的第二文本边界。

12.根据权利要求1-11中任一项所述的方法，其特征在于，所述第一文本类型为打印体文本类型，所述第二文本类型为手写体文本类型。

13.一种电子设备，其特征在于，所述设备包括：

一个或多个处理器；

计算机可读介质，配置为存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-12中任一项所述的文本检测方法。

14.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-12中任一项所述的文本检测方法。