CN111860443A - 语文作业题目文字识别方法、搜索方法、服务器及*** - Google Patents
语文作业题目文字识别方法、搜索方法、服务器及*** Download PDFInfo
- Publication number
- CN111860443A CN111860443A CN202010762664.7A CN202010762664A CN111860443A CN 111860443 A CN111860443 A CN 111860443A CN 202010762664 A CN202010762664 A CN 202010762664A CN 111860443 A CN111860443 A CN 111860443A
- Authority
- CN
- China
- Prior art keywords
- picture
- chinese
- character
- image
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000001514 detection method Methods 0.000 claims abstract description 28
- 238000003062 neural network model Methods 0.000 claims abstract description 28
- 238000012216 screening Methods 0.000 claims abstract description 13
- 230000010354 integration Effects 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 10
- 230000007474 system interaction Effects 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000007405 data analysis Methods 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 4
- 238000007477 logistic regression Methods 0.000 claims description 4
- 230000001629 suppression Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 8
- 238000012937 correction Methods 0.000 abstract description 4
- 230000007246 mechanism Effects 0.000 abstract description 4
- 230000006399 behavior Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Library & Information Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
Abstract
本发明实施例公开了一种语文作业题目文字识别方法、搜索方法、服务器及***,方法包括:图像输入、文字行检测、图片预处理、文字识别及行文字结果整合。采用深度神经网络模型进行文字行检测和文字识别,可快速准确地识别出题目文本内容,进一步地采用分布式搜索技术和文本相似度技术,可实时、快速、准确地识别出客户端提供的语文作业图片对应的题目,提高了语文作业题目查询或批改等行为的效率,并且不需要人工筛选,节省了人力物力。当其用于在线教育辅导时,可有效的降低在线教育辅导机构的运营成本。
Description
技术领域
本发明涉及图像识别技术领域,具体涉及一种语文作业题目文字识别方法、搜索方法、服务器及***。
背景技术
在在线教育领域中,对于学生语文作业的批改和答疑,经常需要根据学生上传的作业图像内容进行人工判断,如检查图片中的答案是否正确,查看题目答案的详细解析等。但是仅依靠人工去判断的方法不仅花费大量的人力和时间成本,而且有时辅导老师会遇到一些还不知道答案题目,就需要人工再解答后才能最终确认答案,大大增加了在线教育辅导机构的运营成本。
发明内容
针对现有技术中的技术缺陷,本发明实施例的目的在于提供一种语文作业题目文字识别方法、搜索方法、服务器及***。
为实现上述目的,第一方面,本发明实施例提供了一种语文作业题目文字识别方法,包括:
图像输入步骤:输入待处理的语文作业图片;
文字行检测步骤:采用第一神经网络模型对待处理的语文作业图片进行文字行检测,得到待处理的语文作业图片中的每行文字图像的坐标位置;
图片预处理步骤:将经过文字行检测的待处理语文作业图片作为第一图片,所述第一图片中包含文字行区域,对所述第一图片进行图像尺寸归一化和灰度化处理,得到灰度图像;
文字识别步骤:采用第二神经网络模型对所述灰度图像进行每一行的文字识别,得到每一行的文字内容;
行文字结果整合步骤:针对识别出的每一行的文字内容,根据行的位置关系进行文本整合,得到题目文本内容。
在本申请某些具体实施方式中,所述第一神经网络模型的具体实现为:
在VGG-16网络的最后一个卷积层后增加一层Bi-LSTM层,最后的网络全连接层中分别采用Softmax和逻辑回归作为网络最后的损失函数;
模型中采用极大值抑制算法筛选出最佳的文字行区域;
指定迭代次数为40epoch;
模型停止训练后,根据每次epoch的计算结果筛选出最佳权重参数,并保存所述最佳权重参数。
在本申请某些具体实施方式中,所述第二神经网络模型的具体实现为:
在深度残差网络模型的最后的网络全连接层中采用CTC作为网络训练过程中的损失函数;
指定迭代次数为20epoch;
模型停止训练后,根据每次epoch的计算结果筛选出最佳权重参数,并保存所述最佳权重参数。
第二方面,本发明实施例提供了一种语文作业题目文字识别装置,包括:
图片输入单元,用于输入待处理的语文作业图片;
文字行检测单元,用于采用第一神经网络模型对待处理的语文作业图片进行文字行检测,得到待处理的语文作业图片中的每行文字图像的坐标位置;
图片预处理单元,用于将经过文字行检测的待处理语文作业图片作为第一图片,所述第一图片中包含文字行区域,对所述第一图片进行图像尺寸归一化和灰度化处理,得到灰度图像;
文字识别单元,用于采用第二神经网络模型对所述灰度图像进行每一行的文字识别,得到每一行的文字内容;
整合单元,用于针对识别出的每一行的文字内容,根据行的位置关系进行文本整合,得到题目文本内容。
第三方面,本发明实施例提供了一种语文作业题目快速搜索方法,包括:
接收客户端发送的待处理的语文作业图片;
对待处理的语文作业图片进行文字识别,以得到待搜索的题目文本内容;
获取搜索集群可分配资源,将待搜索的题目文本内容分配给预设数量的执行单元,使得执行单元在对应的语文题目搜索数据库中进行分布式搜索;
待所有执行单元完成分布式搜索后,挑选出相似度最高的题目作为待处理的语文作业图片对应的搜索结果;
将所述搜索结果返回至所述客户端进行展示。
在本申请某些具体实施方式中,对待处理的语文作业图片进行文字识别,以得到待搜索的题目文本内容,具体为:
图像输入步骤:输入待处理的语文作业图片;
文字行检测步骤:采用第一神经网络模型对待处理的语文作业图片进行文字行检测,得到待处理的语文作业图片中的每行文字图像的坐标位置;
图片预处理步骤:将经过文字行检测的待处理语文作业图片作为第一图片,所述第一图片中包含文字行区域,对所述第一图片进行图像尺寸归一化和灰度化处理,得到灰度图像;
文字识别步骤:采用第二神经网络模型对所述灰度图像进行每一行的文字识别,得到每一行的文字内容;
行文字结果整合步骤:针对识别出的每一行的文字内容,根据行的位置关系进行文本整合,得到题目文本内容。
进一步地,在本申请的某些优选实施方式中,所述搜索方法还包括:
将客户端发送的待处理的语文作业图片和本次搜索结果存储关系型数据库,以作为历史搜索记录查询和数据分析使用。
第四方面,本发明实施例提供了一种服务器,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如上述第三方面所述的方法。
第五方面,本发明实施例提供了一种语文作业题目快速搜索***,包括客户端和服务器,其中服务器如上述第四方面所述。
第六方面,本发明实施例还提供了另一种语文作业题目快速搜索***,包括:
题目文本内容识别模块,用于执行上述第一方面所述的语文作业题目文字识别方法;
题目搜索模块,用于对所述题目文本内容识别模块得到的题目文本内容进行分布式搜索,以得到搜索结果;
搜索***交互模块,用于将所述搜索结果返回客户端,以及实现客户端与服务端的交互。
实施本发明实施例的语文作业题目文字识别方法,采用深度神经网络模型进行文字行检测和文字识别,可快速准确地识别出题目文本内容,从而为后续的快速题目搜索提供了基础。
实施本发明实施例的语文作业题目快速搜索方法,采用深度神经网络模型进行文字行检测和文字识别,可快速准确地识别出题目文本内容,进一步地采用分布式搜索技术和文本相似度技术,可实时、快速、准确地识别出客户端提供的语文作业图片对应的题目,提高了语文作业题目查询或批改等行为的效率,并且不需要人工筛选,节省了人力物力。当其用于在线教育辅导时,可有效的降低在线教育辅导机构的运营成本。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。
图1是本发明实施例提供的语文作业题目文字识别方法的流程示意图;
图2是本发明实施例提供的语文作业题目文字识别装置的结构示意图;
图3是本发明第一实施例提供的语文作业题目快速搜索***的结构示意图;
图4是图3中服务器的结构示意图;
图5是本发明第二实施例提供的语文作业题目快速搜索***的结构示意图;
图6是图5的交互流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,本发明实施例提供的语文作业题目文字识别方法可以包括:
S101,图像输入步骤:输入待处理的语文作业图片。
S102,文字行检测步骤:采用第一神经网络模型对待处理的语文作业图片进行文字行检测,得到待处理的语文作业图片中的每行文字图像的坐标位置。
具体地,通过用于文字行检测的深度卷积神经网络模型,将图片中的每行文字图像坐标位置检测出来,该模型采用了大规模的含有文字位置标注信息的语文作业题目图像数据集,在经过一定次数的迭代学习后,最终可以有效地将每一行文字所对应的图像坐标信息预测出来;模型具体的实现如下所述:
(1)选取的用于特征提取的卷积网络模型为VGG-16,由于文本之间存在序列关系,本发明引入了递归神经网络,采用在VGG-16网络的最后一个卷积层后增加一层Bi-LSTM层,最后的网络全连接层中分别采用Softmax和逻辑回归作为网络最后的损失函数,网络的输出为一些包含文字的置信度和预测的文字行区域坐标信息;
(2)由于网络输出的结果中会会包含从图片中找出的多个可能是物体的矩形框,本发明又采用了非极大值抑制(NMS)算法,将最佳的文字行区域筛选出来;
(3)指定迭代次数为40个epoch,1个epoch指使用训练集中的全部样本训练一次模型,当模型的训练没有达到设定迭代次数时,继续调整模型权重参数,如果达到设定的迭代次数则停止训练;
(4)最佳的模型权重参数:模型停止训练后,会根据每个epoch的识别准确率的计算结果筛选出最佳的权重参数,最后将权重参数保存到文件中。
S103,图片预处理步骤:将经过文字行检测的待处理语文作业图片作为第一图片,所述第一图片中包含文字行区域,对所述第一图片进行图像尺寸归一化和灰度化处理,得到灰度图像。
具体地,将上述检测出来的文字行区域进行图像尺寸归一化和灰度化处理,归一化的方法是将图像高度归一化到32个像素值,图像宽度随高度的缩放比例进行缩放,最终保持原来图像纵横比不变;由于色彩对于题目文字识别的影响不大,因此将彩色图像转化为灰度图像。
S104,文字识别步骤:采用第二神经网络模型对所述灰度图像进行每一行的文字识别,得到每一行的文字内容。
具体地,将上述预处理后的图像输入到用于文字识别的深度卷积神经网络模型中,进行每一行的文字识别,该模型采用了大规模的含有文字内容标注信息的语文作业题目图像数据集,在经过一定次数的迭代学习后,最终可以有效地将图片中的文字内容预测出来;模型具体的实现如下所述:
(1)选取的卷积网络模型是深度残差网络模型(Resnet-34),最后的网络全连接层中采用CTC(Connectionist Temporal Classification)作为网络训练过程中的损失函数;
(2)指定迭代次数为20个epoch,1个epoch指使用训练集中的全部样本训练一次模型,当模型的训练没有达到设定迭代次数时,继续调整模型权重参数,如果达到设定的迭代次数则停止训练;
(3)最佳的模型权重参数:模型停止训练后,会根据每个epoch的识别准确率的计算结果筛选出最佳的权重参数,最后将权重参数保存到文件中。
S105,行文字结果整合步骤:针对识别出的每一行的文字内容,根据行的位置关系进行文本整合,得到题目文本内容。
实施本发明实施例的语文作业题目文字识别方法,采用深度神经网络模型进行文字行检测和文字识别,可快速准确地识别出题目文本内容,从而为后续的快速题目搜索提供了基础。
对应地,针对上述语文作业题目文字识别方法,本发明实施例提供了一种语文作业题目文字识别装置,如图2所示,包括:
图片输入单元10,用于输入待处理的语文作业图片;
文字行检测单元11,用于采用第一神经网络模型对待处理的语文作业图片进行文字行检测,得到待处理的语文作业图片中的每行文字图像的坐标位置;
图片预处理单元12,用于将经过文字行检测的待处理语文作业图片作为第一图片,所述第一图片中包含文字行区域,对所述第一图片进行图像尺寸归一化和灰度化处理,得到灰度图像;
文字识别单元13,用于采用第二神经网络模型对所述灰度图像进行每一行的文字识别,得到每一行的文字内容;
整合单元14,用于针对识别出的每一行的文字内容,根据行的位置关系进行文本整合,得到题目文本内容。
其中,第一神经网络模型的具体实现为:
在VGG-16网络的最后一个卷积层后增加一层Bi-LSTM层,最后的网络全连接层中分别采用Softmax和逻辑回归作为网络最后的损失函数;
模型中采用极大值抑制算法筛选出最佳的文字行区域;
指定迭代次数为40epoch;
模型停止训练后,根据每次epoch的计算结果筛选出最佳权重参数,并保存所述最佳权重参数。
第二神经网络模型的具体实现为:
在深度残差网络模型的最后的网络全连接层中采用CTC作为网络训练过程中的损失函数;
指定迭代次数为20epoch;
模型停止训练后,根据每次epoch的计算结果筛选出最佳权重参数,并保存所述最佳权重参数。
需要说明的是,关于语文作业题目文字识别方法更为具体的工作流程描述及相关的有益效果描述,请参考前述方法实施例部分,在此不再赘述。
基于相同的发明构思,如图3所示,本发明实施例提供一种语文作业题目快速搜索方法。需要说明的是,图3所示方法是以服务器为执行主体进行描述的。该方法包括以下步骤:
S201,接收客户端发送的待处理的语文作业图片。
S202,对待处理的语文作业图片进行文字识别,以得到待搜索的题目文本内容。
关于步骤S202的描述,请参考图1所示方法实施例部分的描述,在此不再赘述。
S203,获取搜索集群可分配资源,将待搜索的题目文本内容分配给预设数量的执行单元,使得执行单元在对应的语文题目搜索数据库中进行分布式搜索。
进一步地,在本实施例中,以字符串莱文斯坦距离(Levenshtein)作为题目间差异程度的量化指标,该量测方法的主要思想是计算至少需要多少次的处理(删除、***、替换)才能将一个字符串变成另一个字符串,具体的计算公式如下所示;
S204,待所有执行单元完成分布式搜索后,挑选出相似度最高的题目作为待处理的语文作业图片对应的搜索结果。
S205,将所述搜索结果返回至所述客户端进行展示。
进一步地,在某些优选实施例中,上述搜索方法还包括:
将客户端发送的待处理的语文作业图片和本次搜索结果存储关系型数据库,以作为历史搜索记录查询和数据分析使用。
实施本发明实施例的语文作业题目快速搜索方法,采用深度神经网络模型进行文字行检测和文字识别,可快速准确地识别出题目文本内容,进一步地采用分布式搜索技术和文本相似度技术,可实时、快速、准确地识别出客户端提供的语文作业图片对应的题目,提高了语文作业题目查询或批改等行为的效率,并且不需要人工筛选,节省了人力物力。当其用于在线教育辅导时,可有效的降低在线教育辅导机构的运营成本。
对应地,针对上述语文作业题目快速搜索方法,本发明实施例提供了一种语文作业题目快速搜索***。如图3所示,该***包括服务器100和客户端200,其中客户端200包括但不仅限于手机或平板电脑等。
进一步地,如图4所示,服务器100可以包括:一个或多个处理器101、一个或多个输入设备102、一个或多个输出设备103和存储器104,上述处理器101、输入设备102、输出设备103和存储器104通过总线105相互连接。存储器104用于存储计算机程序,所述计算机程序包括程序指令,所述处理器101被配置用于调用所述程序指令执行上述语文作业题目快速搜索实施例部分的方法。
应当理解,在本发明实施例中,所称处理器101可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备102可以包括键盘等,输出设备103可以包括显示器(LCD等)、扬声器等。
该存储器104可以包括只读存储器和随机存取存储器,并向处理器101提供指令和数据。存储器104的一部分还可以包括非易失性随机存取存储器。例如,存储器104还可以存储设备类型的信息。
具体实现中,本发明实施例中所描述的处理器101、输入设备102、输出设备103可执行本发明实施例提供的语文作业题目快速搜索方法的实施例中所描述的实现方式,在此不再赘述。
可选地,在本发明另一优选实施例中,如图5所示,语文作业题目快速搜索***包括:
题目文本内容识别模块20,用于执行上述语文作业题目文字识别方法;
题目搜索模块21,用于对所述题目文本内容识别模块得到的题目文本内容进行分布式搜索,以得到搜索结果;
搜索***交互模块22,用于将搜索结果返回客户端,以及实现客户端与服务端的交互。
为更好地理解本实施例中语文作业题目快速搜索***的工作流程,下面结合图6所示进行详述:
整个***包含三个个部分,分别是题目文本内容识别模块、题目搜索模块和搜索***交互模块。
其中,题目文本内容识别模块包括如下步骤:
首先,读取本地待识别的图片数据;
进一步地,服务端将上述图片通过图1所述的题目文字识别方法获取需要搜索的题目文本内容。
其中,题目语文题目搜索模块包括如下步骤:
首先,服务端获取搜索集群可分配资源,将待搜索的题目文本内容分配给一定数量的执行单元在对应的题目搜索数据库中进行分布式搜索;
进一步地,以字符串莱文斯坦距离(Levenshtein)作为题目间差异程度的量化指标,该量测方法的主要思想是计算至少需要多少次的处理(删除、***、替换)才能将一个字符串变成另一个字符串,具体的计算公式如下所示;
进一步地,待所有执行单元将语文题目搜索数据库中分布式的搜索一遍后,挑选出相似度最高的题目作为图片所对应题目的搜索结果。
如图6所示,语文题目搜索模块的具体流程为:
(1)服务端获取搜索集群可分配资源;
(2)执行单元在对应的题目搜索数据库进行题目搜索;
(3)计算待搜索题目和题库中题目之间的莱文斯坦距离;
(4)判断所有题目是否匹配完成,若是,则执行步骤(5),反之,执行步骤(6);
(5)输出最相似的题目(莱文斯坦距离最小),并发送至搜索***交互模块;
(6)继续下一次题目匹配相似度计算;
(7)完成题目搜索。
最后,搜索***交互模块如下步骤:
首先,客户端上传截图,后台将上传的图片通过HTTP请求发送到服务端;
进一步地,服务端接收图片文件,并存入本地,用来作为题目文本内容识别模块的输入图片;
进一步地,服务端将题目搜索模块输出的最相似的题目结果通过HTTP请求响应内容返还给客户端;
进一步地,客户端获取HTTP请求响应内容,将搜索到的最相似题目详细信息展示出来;
最后,服务端将上传的图片信息和搜索结果存入关系型数据库中,用来作为历史搜索记录查询和数据分析使用。
综上,实施本发明实施例的语文作业题目快速搜索***,采用深度神经网络模型进行文字行检测和文字识别,可快速准确地识别出题目文本内容,进一步地采用分布式搜索技术和文本相似度技术,可实时、快速、准确地识别出客户端提供的语文作业图片对应的题目,提高了语文作业题目查询或批改等行为的效率,并且不需要人工筛选,节省了人力物力。当其用于在线教育辅导时,可有效的降低在线教育辅导机构的运营成本。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种语文作业题目文字识别方法,其特征在于,包括:
图像输入步骤:输入待处理的语文作业图片;
文字行检测步骤:采用第一神经网络模型对待处理的语文作业图片进行文字行检测,得到待处理的语文作业图片中的每行文字图像的坐标位置;
图片预处理步骤:将经过文字行检测的待处理语文作业图片作为第一图片,所述第一图片中包含文字行区域,对所述第一图片进行图像尺寸归一化和灰度化处理,得到灰度图像;
文字识别步骤:采用第二神经网络模型对所述灰度图像进行每一行的文字识别,得到每一行的文字内容;
行文字结果整合步骤:针对识别出的每一行的文字内容,根据行的位置关系进行文本整合,得到题目文本内容。
2.如权利要求1所述的语文作业题目文字识别方法,其特征在于,所述第一神经网络模型的具体实现为:
在VGG-16网络的最后一个卷积层后增加一层Bi-LSTM层,最后的网络全连接层中分别采用Softmax和逻辑回归作为网络最后的损失函数;
模型中采用极大值抑制算法筛选出最佳的文字行区域;
指定迭代次数为40epoch;
模型停止训练后,根据每次epoch的计算结果筛选出最佳权重参数,并保存所述最佳权重参数。
3.如权利要求1或2所述的语文作业题目文字识别方法,其特征在于,所述第二神经网络模型的具体实现为:
在深度残差网络模型的最后的网络全连接层中采用CTC作为网络训练过程中的损失函数;
指定迭代次数为20epoch;
模型停止训练后,根据每次epoch的计算结果筛选出最佳权重参数,并保存所述最佳权重参数。
4.一种语文作业题目文字识别装置,其特征在于,包括:
图片输入单元,用于输入待处理的语文作业图片;
文字行检测单元,用于采用第一神经网络模型对待处理的语文作业图片进行文字行检测,得到待处理的语文作业图片中的每行文字图像的坐标位置;
图片预处理单元,用于将经过文字行检测的待处理语文作业图片作为第一图片,所述第一图片中包含文字行区域,对所述第一图片进行图像尺寸归一化和灰度化处理,得到灰度图像;
文字识别单元,用于采用第二神经网络模型对所述灰度图像进行每一行的文字识别,得到每一行的文字内容;
整合单元,用于针对识别出的每一行的文字内容,根据行的位置关系进行文本整合,得到题目文本内容。
5.一种语文作业题目快速搜索方法,其特征在于,包括:
接收客户端发送的待处理的语文作业图片;
对待处理的语文作业图片进行文字识别,以得到待搜索的题目文本内容;
获取搜索集群可分配资源,将待搜索的题目文本内容分配给预设数量的执行单元,使得执行单元在对应的语文题目搜索数据库中进行分布式搜索;
待所有执行单元完成分布式搜索后,挑选出相似度最高的题目作为待处理的语文作业图片对应的搜索结果;
将所述搜索结果返回至所述客户端进行展示。
6.如权利要求5所述的语文作业题目快速搜索方法,其特征在于,对待处理的语文作业图片进行文字识别,以得到待搜索的题目文本内容,具体为:
图像输入步骤:输入待处理的语文作业图片;
文字行检测步骤:采用第一神经网络模型对待处理的语文作业图片进行文字行检测,得到待处理的语文作业图片中的每行文字图像的坐标位置;
图片预处理步骤:将经过文字行检测的待处理语文作业图片作为第一图片,所述第一图片中包含文字行区域,对所述第一图片进行图像尺寸归一化和灰度化处理,得到灰度图像;
文字识别步骤:采用第二神经网络模型对所述灰度图像进行每一行的文字识别,得到每一行的文字内容;
行文字结果整合步骤:针对识别出的每一行的文字内容,根据行的位置关系进行文本整合,得到题目文本内容。
7.如权利要求6所述的语文作业题目快速搜索方法,其特征在于,所述搜索方法还包括:
将客户端发送的待处理的语文作业图片和本次搜索结果存储关系型数据库,以作为历史搜索记录查询和数据分析使用。
8.一种服务器,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求5-7任一项所述的方法。
9.一种语文作业题目快速搜索***,包括客户端和服务器,其特征在于,所述服务器如权利要求8所述。
10.一种语文作业题目快速搜索***,其特征在于,包括:
题目文本内容识别模块,用于执行如权利要求3所述的语文作业题目文字识别方法;
题目搜索模块,用于对所述题目文本内容识别模块得到的题目文本内容进行分布式搜索,以得到搜索结果;
搜索***交互模块,用于将所述搜索结果返回客户端,以及实现客户端与服务端的交互。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010762664.7A CN111860443A (zh) | 2020-07-31 | 2020-07-31 | 语文作业题目文字识别方法、搜索方法、服务器及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010762664.7A CN111860443A (zh) | 2020-07-31 | 2020-07-31 | 语文作业题目文字识别方法、搜索方法、服务器及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111860443A true CN111860443A (zh) | 2020-10-30 |
Family
ID=72954198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010762664.7A Pending CN111860443A (zh) | 2020-07-31 | 2020-07-31 | 语文作业题目文字识别方法、搜索方法、服务器及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111860443A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112308053A (zh) * | 2020-12-29 | 2021-02-02 | 北京易真学思教育科技有限公司 | 检测模型训练、判题方法、装置、电子设备及存储介质 |
CN112348028A (zh) * | 2020-11-30 | 2021-02-09 | 广东国粒教育技术有限公司 | 一种场景文本检测方法、批改方法、装置、电子设备及介质 |
CN113205046A (zh) * | 2021-04-30 | 2021-08-03 | 作业帮教育科技(北京)有限公司 | 题册识别方法、***、装置及介质 |
CN113420176A (zh) * | 2021-06-22 | 2021-09-21 | 百度在线网络技术(北京)有限公司 | 搜题方法、题目框绘制方法和装置、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1317114A (zh) * | 1998-07-10 | 2001-10-10 | 快速检索及传递公司 | 一种用于数据检索的搜索***和方法及其在搜索引擎中的应用 |
CN106202360A (zh) * | 2016-07-06 | 2016-12-07 | 广东小天才科技有限公司 | 试题搜索方法及装置 |
CN110059694A (zh) * | 2019-04-19 | 2019-07-26 | 山东大学 | 电力行业复杂场景下的文字数据的智能识别方法 |
CN110399798A (zh) * | 2019-06-25 | 2019-11-01 | 朱跃飞 | 一种基于深度学习的离散图片文件信息提取***及方法 |
CN110414529A (zh) * | 2019-06-26 | 2019-11-05 | 深圳中兴网信科技有限公司 | 试卷信息提取方法、***及计算机可读存储介质 |
CN110413731A (zh) * | 2019-07-12 | 2019-11-05 | 广东小天才科技有限公司 | 搜题方法、装置、电子设备和存储介质 |
CN110942067A (zh) * | 2019-11-29 | 2020-03-31 | 上海眼控科技股份有限公司 | 文本识别方法、装置、计算机设备和存储介质 |
CN111428715A (zh) * | 2020-03-26 | 2020-07-17 | 广州市南方人力资源评价中心有限公司 | 一种基于神经网络的文字识别方法 |
-
2020
- 2020-07-31 CN CN202010762664.7A patent/CN111860443A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1317114A (zh) * | 1998-07-10 | 2001-10-10 | 快速检索及传递公司 | 一种用于数据检索的搜索***和方法及其在搜索引擎中的应用 |
CN106202360A (zh) * | 2016-07-06 | 2016-12-07 | 广东小天才科技有限公司 | 试题搜索方法及装置 |
CN110059694A (zh) * | 2019-04-19 | 2019-07-26 | 山东大学 | 电力行业复杂场景下的文字数据的智能识别方法 |
CN110399798A (zh) * | 2019-06-25 | 2019-11-01 | 朱跃飞 | 一种基于深度学习的离散图片文件信息提取***及方法 |
CN110414529A (zh) * | 2019-06-26 | 2019-11-05 | 深圳中兴网信科技有限公司 | 试卷信息提取方法、***及计算机可读存储介质 |
CN110413731A (zh) * | 2019-07-12 | 2019-11-05 | 广东小天才科技有限公司 | 搜题方法、装置、电子设备和存储介质 |
CN110942067A (zh) * | 2019-11-29 | 2020-03-31 | 上海眼控科技股份有限公司 | 文本识别方法、装置、计算机设备和存储介质 |
CN111428715A (zh) * | 2020-03-26 | 2020-07-17 | 广州市南方人力资源评价中心有限公司 | 一种基于神经网络的文字识别方法 |
Non-Patent Citations (1)
Title |
---|
陈次白: "信息存储与检索技术", 30 September 2006, 国防工业出版社, pages: 215 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112348028A (zh) * | 2020-11-30 | 2021-02-09 | 广东国粒教育技术有限公司 | 一种场景文本检测方法、批改方法、装置、电子设备及介质 |
CN112308053A (zh) * | 2020-12-29 | 2021-02-02 | 北京易真学思教育科技有限公司 | 检测模型训练、判题方法、装置、电子设备及存储介质 |
CN112308053B (zh) * | 2020-12-29 | 2021-04-09 | 北京易真学思教育科技有限公司 | 检测模型训练、判题方法、装置、电子设备及存储介质 |
CN113205046A (zh) * | 2021-04-30 | 2021-08-03 | 作业帮教育科技(北京)有限公司 | 题册识别方法、***、装置及介质 |
CN113420176A (zh) * | 2021-06-22 | 2021-09-21 | 百度在线网络技术(北京)有限公司 | 搜题方法、题目框绘制方法和装置、设备及存储介质 |
CN113420176B (zh) * | 2021-06-22 | 2024-05-17 | 百度在线网络技术(北京)有限公司 | 搜题方法、题目框绘制方法和装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111860443A (zh) | 语文作业题目文字识别方法、搜索方法、服务器及*** | |
CN109815932B (zh) | 一种试卷批改方法、装置、电子设备及存储介质 | |
US11410407B2 (en) | Method and device for generating collection of incorrectly-answered questions | |
CN112507125A (zh) | 三元组信息提取方法、装置、设备及计算机可读存储介质 | |
US20190294921A1 (en) | Field identification in an image using artificial intelligence | |
CN110750624A (zh) | 信息输出方法及装置 | |
CN112163424A (zh) | 数据的标注方法、装置、设备和介质 | |
CN112417158A (zh) | 文本数据分类模型的训练方法、分类方法、装置和设备 | |
CN112396032B (zh) | 书写检测方法、装置、存储介质及电子设备 | |
CN113537801B (zh) | 板书处理方法、装置、终端和存储介质 | |
CN112580503A (zh) | 一种作业批改方法、装置、设备及存储介质 | |
CN113822847A (zh) | 基于人工智能的图像评分方法、装置、设备及存储介质 | |
CN111507680A (zh) | 在线面试方法、***、设备及存储介质 | |
CN112801099B (zh) | 一种图像处理方法、装置、终端设备及介质 | |
CN110795997B (zh) | 基于长短期记忆的教学方法、装置和计算机设备 | |
CN117077679B (zh) | 命名实体识别方法和装置 | |
CN113505786A (zh) | 试题拍照评判方法、装置及电子设备 | |
CN111027533B (zh) | 一种点读坐标的变换方法、***、终端设备及存储介质 | |
CN112001152A (zh) | 对象识别处理方法、处理装置、电子设备和存储介质 | |
CN110363245B (zh) | 在线课堂的精彩图片筛选方法、装置及*** | |
CN111177387A (zh) | 用户名单信息处理方法、电子装置及计算机可读存储介质 | |
US20220277575A1 (en) | Method and apparatus for detecting table, device and storage medium | |
CN110895924B (zh) | 一种文档内容朗读方法、装置、电子设备及可读存储介质 | |
CN114331932A (zh) | 目标图像生成方法和装置、计算设备以及计算机存储介质 | |
CN112148855A (zh) | 一种智能客服问题检索方法、终端以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |