CN111860443A

CN111860443A - 语文作业题目文字识别方法、搜索方法、服务器及***

Info

Publication number: CN111860443A
Application number: CN202010762664.7A
Authority: CN
Inventors: 王鑫琛; 姚璐
Original assignee: Shanghai Palm Education Technology Co ltd
Current assignee: Shanghai Palm Education Technology Co ltd
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-10-30

Abstract

本发明实施例公开了一种语文作业题目文字识别方法、搜索方法、服务器及***，方法包括：图像输入、文字行检测、图片预处理、文字识别及行文字结果整合。采用深度神经网络模型进行文字行检测和文字识别，可快速准确地识别出题目文本内容，进一步地采用分布式搜索技术和文本相似度技术，可实时、快速、准确地识别出客户端提供的语文作业图片对应的题目，提高了语文作业题目查询或批改等行为的效率，并且不需要人工筛选，节省了人力物力。当其用于在线教育辅导时，可有效的降低在线教育辅导机构的运营成本。

Description

语文作业题目文字识别方法、搜索方法、服务器及***

技术领域

本发明涉及图像识别技术领域，具体涉及一种语文作业题目文字识别方法、搜索方法、服务器及***。

背景技术

在在线教育领域中，对于学生语文作业的批改和答疑，经常需要根据学生上传的作业图像内容进行人工判断，如检查图片中的答案是否正确，查看题目答案的详细解析等。但是仅依靠人工去判断的方法不仅花费大量的人力和时间成本，而且有时辅导老师会遇到一些还不知道答案题目，就需要人工再解答后才能最终确认答案，大大增加了在线教育辅导机构的运营成本。

发明内容

针对现有技术中的技术缺陷，本发明实施例的目的在于提供一种语文作业题目文字识别方法、搜索方法、服务器及***。

为实现上述目的，第一方面，本发明实施例提供了一种语文作业题目文字识别方法，包括：

图像输入步骤：输入待处理的语文作业图片；

文字行检测步骤：采用第一神经网络模型对待处理的语文作业图片进行文字行检测，得到待处理的语文作业图片中的每行文字图像的坐标位置；

图片预处理步骤：将经过文字行检测的待处理语文作业图片作为第一图片，所述第一图片中包含文字行区域，对所述第一图片进行图像尺寸归一化和灰度化处理，得到灰度图像；

文字识别步骤：采用第二神经网络模型对所述灰度图像进行每一行的文字识别，得到每一行的文字内容；

行文字结果整合步骤：针对识别出的每一行的文字内容，根据行的位置关系进行文本整合，得到题目文本内容。

在本申请某些具体实施方式中，所述第一神经网络模型的具体实现为：

在VGG-16网络的最后一个卷积层后增加一层Bi-LSTM层，最后的网络全连接层中分别采用Softmax和逻辑回归作为网络最后的损失函数；

模型中采用极大值抑制算法筛选出最佳的文字行区域；

指定迭代次数为40epoch；

模型停止训练后，根据每次epoch的计算结果筛选出最佳权重参数，并保存所述最佳权重参数。

在本申请某些具体实施方式中，所述第二神经网络模型的具体实现为：

在深度残差网络模型的最后的网络全连接层中采用CTC作为网络训练过程中的损失函数；

指定迭代次数为20epoch；

第二方面，本发明实施例提供了一种语文作业题目文字识别装置，包括：

图片输入单元，用于输入待处理的语文作业图片；

文字行检测单元，用于采用第一神经网络模型对待处理的语文作业图片进行文字行检测，得到待处理的语文作业图片中的每行文字图像的坐标位置；

图片预处理单元，用于将经过文字行检测的待处理语文作业图片作为第一图片，所述第一图片中包含文字行区域，对所述第一图片进行图像尺寸归一化和灰度化处理，得到灰度图像；

文字识别单元，用于采用第二神经网络模型对所述灰度图像进行每一行的文字识别，得到每一行的文字内容；

整合单元，用于针对识别出的每一行的文字内容，根据行的位置关系进行文本整合，得到题目文本内容。

第三方面，本发明实施例提供了一种语文作业题目快速搜索方法，包括：

接收客户端发送的待处理的语文作业图片；

对待处理的语文作业图片进行文字识别，以得到待搜索的题目文本内容；

获取搜索集群可分配资源，将待搜索的题目文本内容分配给预设数量的执行单元，使得执行单元在对应的语文题目搜索数据库中进行分布式搜索；

待所有执行单元完成分布式搜索后，挑选出相似度最高的题目作为待处理的语文作业图片对应的搜索结果；

将所述搜索结果返回至所述客户端进行展示。

在本申请某些具体实施方式中，对待处理的语文作业图片进行文字识别，以得到待搜索的题目文本内容，具体为：

图像输入步骤：输入待处理的语文作业图片；

进一步地，在本申请的某些优选实施方式中，所述搜索方法还包括：

将客户端发送的待处理的语文作业图片和本次搜索结果存储关系型数据库，以作为历史搜索记录查询和数据分析使用。

第四方面，本发明实施例提供了一种服务器，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如上述第三方面所述的方法。

第五方面，本发明实施例提供了一种语文作业题目快速搜索***，包括客户端和服务器，其中服务器如上述第四方面所述。

第六方面，本发明实施例还提供了另一种语文作业题目快速搜索***，包括：

题目文本内容识别模块，用于执行上述第一方面所述的语文作业题目文字识别方法；

题目搜索模块，用于对所述题目文本内容识别模块得到的题目文本内容进行分布式搜索，以得到搜索结果；

搜索***交互模块，用于将所述搜索结果返回客户端，以及实现客户端与服务端的交互。

实施本发明实施例的语文作业题目文字识别方法，采用深度神经网络模型进行文字行检测和文字识别，可快速准确地识别出题目文本内容，从而为后续的快速题目搜索提供了基础。

实施本发明实施例的语文作业题目快速搜索方法，采用深度神经网络模型进行文字行检测和文字识别，可快速准确地识别出题目文本内容，进一步地采用分布式搜索技术和文本相似度技术，可实时、快速、准确地识别出客户端提供的语文作业图片对应的题目，提高了语文作业题目查询或批改等行为的效率，并且不需要人工筛选，节省了人力物力。当其用于在线教育辅导时，可有效的降低在线教育辅导机构的运营成本。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。

图1是本发明实施例提供的语文作业题目文字识别方法的流程示意图；

图2是本发明实施例提供的语文作业题目文字识别装置的结构示意图；

图3是本发明第一实施例提供的语文作业题目快速搜索***的结构示意图；

图4是图3中服务器的结构示意图；

图5是本发明第二实施例提供的语文作业题目快速搜索***的结构示意图；

图6是图5的交互流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，本发明实施例提供的语文作业题目文字识别方法可以包括：

S101，图像输入步骤：输入待处理的语文作业图片。

S102，文字行检测步骤：采用第一神经网络模型对待处理的语文作业图片进行文字行检测，得到待处理的语文作业图片中的每行文字图像的坐标位置。

具体地，通过用于文字行检测的深度卷积神经网络模型，将图片中的每行文字图像坐标位置检测出来，该模型采用了大规模的含有文字位置标注信息的语文作业题目图像数据集，在经过一定次数的迭代学习后，最终可以有效地将每一行文字所对应的图像坐标信息预测出来；模型具体的实现如下所述：

(1)选取的用于特征提取的卷积网络模型为VGG-16，由于文本之间存在序列关系，本发明引入了递归神经网络，采用在VGG-16网络的最后一个卷积层后增加一层Bi-LSTM层，最后的网络全连接层中分别采用Softmax和逻辑回归作为网络最后的损失函数，网络的输出为一些包含文字的置信度和预测的文字行区域坐标信息；

(2)由于网络输出的结果中会会包含从图片中找出的多个可能是物体的矩形框，本发明又采用了非极大值抑制(NMS)算法，将最佳的文字行区域筛选出来；

(3)指定迭代次数为40个epoch，1个epoch指使用训练集中的全部样本训练一次模型，当模型的训练没有达到设定迭代次数时，继续调整模型权重参数，如果达到设定的迭代次数则停止训练；

(4)最佳的模型权重参数：模型停止训练后，会根据每个epoch的识别准确率的计算结果筛选出最佳的权重参数，最后将权重参数保存到文件中。

S103，图片预处理步骤：将经过文字行检测的待处理语文作业图片作为第一图片，所述第一图片中包含文字行区域，对所述第一图片进行图像尺寸归一化和灰度化处理，得到灰度图像。

具体地，将上述检测出来的文字行区域进行图像尺寸归一化和灰度化处理，归一化的方法是将图像高度归一化到32个像素值，图像宽度随高度的缩放比例进行缩放，最终保持原来图像纵横比不变；由于色彩对于题目文字识别的影响不大，因此将彩色图像转化为灰度图像。

S104，文字识别步骤：采用第二神经网络模型对所述灰度图像进行每一行的文字识别，得到每一行的文字内容。

具体地，将上述预处理后的图像输入到用于文字识别的深度卷积神经网络模型中，进行每一行的文字识别，该模型采用了大规模的含有文字内容标注信息的语文作业题目图像数据集，在经过一定次数的迭代学习后，最终可以有效地将图片中的文字内容预测出来；模型具体的实现如下所述：

(1)选取的卷积网络模型是深度残差网络模型(Resnet-34)，最后的网络全连接层中采用CTC(Connectionist Temporal Classification)作为网络训练过程中的损失函数；

(2)指定迭代次数为20个epoch，1个epoch指使用训练集中的全部样本训练一次模型，当模型的训练没有达到设定迭代次数时，继续调整模型权重参数，如果达到设定的迭代次数则停止训练；

(3)最佳的模型权重参数：模型停止训练后，会根据每个epoch的识别准确率的计算结果筛选出最佳的权重参数，最后将权重参数保存到文件中。

S105，行文字结果整合步骤：针对识别出的每一行的文字内容，根据行的位置关系进行文本整合，得到题目文本内容。

对应地，针对上述语文作业题目文字识别方法，本发明实施例提供了一种语文作业题目文字识别装置，如图2所示，包括：

图片输入单元10，用于输入待处理的语文作业图片；

文字行检测单元11，用于采用第一神经网络模型对待处理的语文作业图片进行文字行检测，得到待处理的语文作业图片中的每行文字图像的坐标位置；

图片预处理单元12，用于将经过文字行检测的待处理语文作业图片作为第一图片，所述第一图片中包含文字行区域，对所述第一图片进行图像尺寸归一化和灰度化处理，得到灰度图像；

文字识别单元13，用于采用第二神经网络模型对所述灰度图像进行每一行的文字识别，得到每一行的文字内容；

整合单元14，用于针对识别出的每一行的文字内容，根据行的位置关系进行文本整合，得到题目文本内容。

其中，第一神经网络模型的具体实现为：

模型中采用极大值抑制算法筛选出最佳的文字行区域；

指定迭代次数为40epoch；

第二神经网络模型的具体实现为：

指定迭代次数为20epoch；

需要说明的是，关于语文作业题目文字识别方法更为具体的工作流程描述及相关的有益效果描述，请参考前述方法实施例部分，在此不再赘述。

基于相同的发明构思，如图3所示，本发明实施例提供一种语文作业题目快速搜索方法。需要说明的是，图3所示方法是以服务器为执行主体进行描述的。该方法包括以下步骤：

S201，接收客户端发送的待处理的语文作业图片。

S202，对待处理的语文作业图片进行文字识别，以得到待搜索的题目文本内容。

关于步骤S202的描述，请参考图1所示方法实施例部分的描述，在此不再赘述。

S203，获取搜索集群可分配资源，将待搜索的题目文本内容分配给预设数量的执行单元，使得执行单元在对应的语文题目搜索数据库中进行分布式搜索。

进一步地，在本实施例中，以字符串莱文斯坦距离(Levenshtein)作为题目间差异程度的量化指标，该量测方法的主要思想是计算至少需要多少次的处理(删除、***、替换)才能将一个字符串变成另一个字符串，具体的计算公式如下所示；

公式中，

是当a_i≠b_j时值为1，否则值为0的示性函数，lev_a,b(i,j)是表示a的前i个字符和b的前j个字符之间的距离(i和j都是从1开始的下标)。

S204，待所有执行单元完成分布式搜索后，挑选出相似度最高的题目作为待处理的语文作业图片对应的搜索结果。

S205，将所述搜索结果返回至所述客户端进行展示。

进一步地，在某些优选实施例中，上述搜索方法还包括：

对应地，针对上述语文作业题目快速搜索方法，本发明实施例提供了一种语文作业题目快速搜索***。如图3所示，该***包括服务器100和客户端200，其中客户端200包括但不仅限于手机或平板电脑等。

进一步地，如图4所示，服务器100可以包括：一个或多个处理器101、一个或多个输入设备102、一个或多个输出设备103和存储器104，上述处理器101、输入设备102、输出设备103和存储器104通过总线105相互连接。存储器104用于存储计算机程序，所述计算机程序包括程序指令，所述处理器101被配置用于调用所述程序指令执行上述语文作业题目快速搜索实施例部分的方法。

应当理解，在本发明实施例中，所称处理器101可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备102可以包括键盘等，输出设备103可以包括显示器(LCD等)、扬声器等。

该存储器104可以包括只读存储器和随机存取存储器，并向处理器101提供指令和数据。存储器104的一部分还可以包括非易失性随机存取存储器。例如，存储器104还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器101、输入设备102、输出设备103可执行本发明实施例提供的语文作业题目快速搜索方法的实施例中所描述的实现方式，在此不再赘述。

可选地，在本发明另一优选实施例中，如图5所示，语文作业题目快速搜索***包括：

题目文本内容识别模块20，用于执行上述语文作业题目文字识别方法；

题目搜索模块21，用于对所述题目文本内容识别模块得到的题目文本内容进行分布式搜索，以得到搜索结果；

搜索***交互模块22，用于将搜索结果返回客户端，以及实现客户端与服务端的交互。

为更好地理解本实施例中语文作业题目快速搜索***的工作流程，下面结合图6所示进行详述：

整个***包含三个个部分，分别是题目文本内容识别模块、题目搜索模块和搜索***交互模块。

其中，题目文本内容识别模块包括如下步骤：

首先，读取本地待识别的图片数据；

进一步地，服务端将上述图片通过图1所述的题目文字识别方法获取需要搜索的题目文本内容。

其中，题目语文题目搜索模块包括如下步骤：

首先，服务端获取搜索集群可分配资源，将待搜索的题目文本内容分配给一定数量的执行单元在对应的题目搜索数据库中进行分布式搜索；

进一步地，以字符串莱文斯坦距离(Levenshtein)作为题目间差异程度的量化指标，该量测方法的主要思想是计算至少需要多少次的处理(删除、***、替换)才能将一个字符串变成另一个字符串，具体的计算公式如下所示；

公式中，

进一步地，待所有执行单元将语文题目搜索数据库中分布式的搜索一遍后，挑选出相似度最高的题目作为图片所对应题目的搜索结果。

如图6所示，语文题目搜索模块的具体流程为：

(1)服务端获取搜索集群可分配资源；

(2)执行单元在对应的题目搜索数据库进行题目搜索；

(3)计算待搜索题目和题库中题目之间的莱文斯坦距离；

(4)判断所有题目是否匹配完成，若是，则执行步骤(5)，反之，执行步骤(6)；

(5)输出最相似的题目(莱文斯坦距离最小)，并发送至搜索***交互模块；

(6)继续下一次题目匹配相似度计算；

(7)完成题目搜索。

最后，搜索***交互模块如下步骤：

首先，客户端上传截图，后台将上传的图片通过HTTP请求发送到服务端；

进一步地，服务端接收图片文件，并存入本地，用来作为题目文本内容识别模块的输入图片；

进一步地，服务端将题目搜索模块输出的最相似的题目结果通过HTTP请求响应内容返还给客户端；

进一步地，客户端获取HTTP请求响应内容，将搜索到的最相似题目详细信息展示出来；

最后，服务端将上传的图片信息和搜索结果存入关系型数据库中，用来作为历史搜索记录查询和数据分析使用。

综上，实施本发明实施例的语文作业题目快速搜索***，采用深度神经网络模型进行文字行检测和文字识别，可快速准确地识别出题目文本内容，进一步地采用分布式搜索技术和文本相似度技术，可实时、快速、准确地识别出客户端提供的语文作业图片对应的题目，提高了语文作业题目查询或批改等行为的效率，并且不需要人工筛选，节省了人力物力。当其用于在线教育辅导时，可有效的降低在线教育辅导机构的运营成本。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种语文作业题目文字识别方法，其特征在于，包括：

图像输入步骤：输入待处理的语文作业图片；

2.如权利要求1所述的语文作业题目文字识别方法，其特征在于，所述第一神经网络模型的具体实现为：

模型中采用极大值抑制算法筛选出最佳的文字行区域；

指定迭代次数为40epoch；

3.如权利要求1或2所述的语文作业题目文字识别方法，其特征在于，所述第二神经网络模型的具体实现为：

指定迭代次数为20epoch；

4.一种语文作业题目文字识别装置，其特征在于，包括：

图片输入单元，用于输入待处理的语文作业图片；

5.一种语文作业题目快速搜索方法，其特征在于，包括：

接收客户端发送的待处理的语文作业图片；

将所述搜索结果返回至所述客户端进行展示。

6.如权利要求5所述的语文作业题目快速搜索方法，其特征在于，对待处理的语文作业图片进行文字识别，以得到待搜索的题目文本内容，具体为：

图像输入步骤：输入待处理的语文作业图片；

7.如权利要求6所述的语文作业题目快速搜索方法，其特征在于，所述搜索方法还包括：

8.一种服务器，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求5-7任一项所述的方法。

9.一种语文作业题目快速搜索***，包括客户端和服务器，其特征在于，所述服务器如权利要求8所述。

10.一种语文作业题目快速搜索***，其特征在于，包括：

题目文本内容识别模块，用于执行如权利要求3所述的语文作业题目文字识别方法；