CN109086652A - 手写字模型训练方法、汉字识别方法、装置、设备及介质 - Google Patents
手写字模型训练方法、汉字识别方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN109086652A CN109086652A CN201810563511.2A CN201810563511A CN109086652A CN 109086652 A CN109086652 A CN 109086652A CN 201810563511 A CN201810563511 A CN 201810563511A CN 109086652 A CN109086652 A CN 109086652A
- Authority
- CN
- China
- Prior art keywords
- image
- handwritten word
- training
- neural network
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 252
- 238000000034 method Methods 0.000 title claims abstract description 95
- 238000003062 neural network model Methods 0.000 claims abstract description 126
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 44
- 238000012360 testing method Methods 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims description 70
- 230000000306 recurrent effect Effects 0.000 claims description 54
- 239000011159 matrix material Substances 0.000 claims description 44
- 238000005260 corrosion Methods 0.000 claims description 40
- 230000007797 corrosion Effects 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 37
- 238000004590 computer program Methods 0.000 claims description 32
- 238000013527 convolutional neural network Methods 0.000 claims description 32
- 238000009826 distribution Methods 0.000 claims description 29
- 238000010586 diagram Methods 0.000 claims description 26
- 238000005520 cutting process Methods 0.000 claims description 19
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 239000003518 caustics Substances 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000007493 shaping process Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 7
- 230000007423 decrease Effects 0.000 claims description 6
- 230000014509 gene expression Effects 0.000 claims description 6
- 238000012790 confirmation Methods 0.000 claims description 4
- 210000004218 nerve net Anatomy 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 7
- 230000004913 activation Effects 0.000 description 6
- 238000012015 optical character recognition Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 210000005036 nerve Anatomy 0.000 description 3
- 239000004575 stone Substances 0.000 description 3
- 230000010485 coping Effects 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 241001062009 Indigofera Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/36—Matching; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种手写字模型训练方法、汉字识别方法、装置、设备及介质。该方法包括:获取手写字训练样本,将手写字训练样本划分成训练集和测试集;将训练集输入到卷积循环神经网络模型中,获取卷积循环神经网络模型的前向输出,根据卷积循环神经网络模型的前向输出,采用基于批量梯度下降的反向传播算法更新卷积循环神经网络模型中的权值和偏置,获取手写字训练模型;将测试集输入到手写字训练模型中,获取每一手写字图像对应的识别汉字,基于识别汉字和标签汉字获取识别准确率,若识别准确率大于预设准确率,则确定手写字训练模型为手写字识别模型。该手写字识别模型对手写字的识别具有较高的准确性。
Description
技术领域
本发明涉及手写字识别领域,尤其涉及一种手写字模型训练方法、汉字识别方法、装置、设备及介质。
背景技术
传统汉字的识别方法大多会采用OCR(Optical Character Recognition,光学字符识别)技术进行识别。由于汉字的类别繁多,比如“宋体、楷体、姚体和仿宋”,而且部分汉字的结构比较复杂,比如“魑、魅”,并且汉字中存在着较多的结构相似的字,比如“受和爱”,使得汉字识别准确性无法保证。对标准的、书写简单且规范的句子,采用OCR(光学字符识别)技术可以识别,但是对于手写的字组成的句子,由于每个人的书写习惯不相同且不是标准的横竖撇捺组成的汉字,采用OCR技术识别时,会存在识别不准确的情况,极大限制了识别***的性能,造成识别的精确度不高,使得识别效果不理想。
发明内容
基于此,有必要针对上述技术问题,提供一种可以提高识别准确度的手写字模型训练方法、装置、设备及介质。
一种手写字模型训练方法,包括:
获取手写字训练样本,所述手写字训练样本包括手写字图像和与所述手写字图像关联的标签汉字;
将所述手写字训练样本划分成训练集和测试集;
将所述训练集输入到卷积循环神经网络模型中,获取卷积循环神经网络模型的前向输出,根据所述卷积循环神经网络模型的前向输出,采用基于批量梯度下降的反向传播算法更新所述卷积循环神经网络模型中的权值和偏置,获取手写字训练模型;
将所述测试集输入到所述手写字训练模型中,获取每一手写字图像对应的识别汉字,基于所述识别汉字和所述标签汉字获取识别准确率,若所述识别准确率大于预设准确率,则确定所述手写字训练模型为手写字识别模型。
一种手写字模型训练装置,包括:
训练样本获取模块,用于获取手写字训练样本,所述手写字训练样本包括手写字图像和与所述手写字图像关联的标签汉字;
训练样本处理模块,用于将所述手写字训练样本划分成训练集和测试集;
训练模型获取模块,用于将所述训练集输入到卷积循环神经网络模型中,获取卷积循环神经网络模型的前向输出,根据所述卷积循环神经网络模型的前向输出,采用基于批量梯度下降的反向传播算法更新所述卷积循环神经网络模型中的权值和偏置,获取手写字训练模型;
识别模型获取模块,用于将所述测试集输入到所述手写字训练模型中,获取每一手写字图像对应的识别汉字,基于所述识别汉字和所述标签汉字获取识别准确率,若所述识别准确率大于预设准确率,则确定所述手写字训练模型为手写字识别模型。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述手写字模型训练方法的步骤。
一种非易失性存储介质,所述非易失性存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述手写字模型训练方法的步骤。
基于此,有必要针对上述技术问题,提供一种识别准确度较高的汉字识别方法、装置、设备及介质。
一种汉字识别方法,包括:
获取原始图像,所述原始图像包括手写字和背景图像;
对所述原始图像进行预处理,获取有效图像;
采用核密度估计算法和腐蚀方法对所述有效图像进行处理,去除背景图像,获取包括所述手写字的目标图像;
采用垂直投影方法对所述目标图像进行单字体切割,获取单字体图像;
将所述单字体图像输入到手写字识别模型中进行识别,获取所述单字体图像对应的识别结果,所述手写字识别模型是采用上述手写字模型训练方法获取到的;
基于所述识别结果查询语义库,获取所述单字体图像对应的目标汉字。
一种汉字识别装置,包括:
原始图像获取模块,用于获取原始图像,所述原始图像包括手写字和背景图像;
有效图像获取模块,用于对所述原始图像进行预处理,获取有效图像;
目标图像获取模块,用于采用核密度估计算法和腐蚀方法对所述有效图像进行处理,去除背景图像,获取包括所述手写字的目标图像;
单字体图像获取模块,用于采用垂直投影方法对所述目标图像进行单字体切割,获取单字体图像;
识别结果获取模块,用于将所述单字体图像输入到手写字识别模型中进行识别,获取所述单字体图像对应的识别结果,所述手写字识别模型是采用上述手写字模型训练方法获取到的;
目标汉字确认模块,用于基于所述识别结果查询语义库,获取所述单字体图像对应的目标汉字。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述汉字识别方法的步骤。
一种非易失性存储介质,所述非易失性存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述汉字识别方法的步骤。
上述手写字模型训练方法、装置、计算机设备及存储介质,将训练集输入到卷积循环神经网络模型中,获取卷积循环神经网络模型的前向输出,然后基于卷积循环神经网络模型的前向输出,采用基于批量梯度下降的反向传播算法更新卷积循环神经网络模型中的权值和偏置,获取手写字训练模型,保证了卷积循环神经网络模型中的参数的充分更新,提高了手写字训练模型的识别准确率。最后将测试集输入到手写字训练模型中进行测试,若手写字训练模型对手写字训练样本的识别准确率大于预设准确率,则表示手写字训练模型对手写字训练样本的识别准确率达到了要求,将该手写字训练模型确定为用于识别手写字图像的手写字识别模型,以使获得的手写字识别模型对手写字进行识别,具有较高的识别准确性。
上述汉字识别方法、装置、计算机设备及存储介质,通过对原始图像进行预处理,获取有效图像,并采用核密度估计算法和腐蚀方法对有效图像进行处理,去除背景图像的部分,保留仅含有手写字的目标图像,为后续进行单字体切割提供数据来源。采用垂直投影方法对目标图像进行单字体切割,获取单字体图像,将获取的单字体图像输入到手写字识别模型中识别,基于单字体图像对应的识别概率值,获取识别结果。采用手写字识别模型对单字体图像进行识别,可以提高识别准确率。基于识别结果查询语义库,根据语义库中存储的中文句子获取单字体图像对应的目标汉字,该目标汉字则为单字体图像对应的汉字。利用语义库获取目标汉字,可以筛选出该单字体图像精准对应的目标汉字,通过手写字识别模型和语义库的判断可以提高手写字识别的精准度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中手写字模型训练方法的一应用场景图;
图2是本发明一实施例中手写字模型训练方法的一流程图;
图3是图2中步骤S30的一具体流程图;
图4是本发明一实施例中手写字模型训练装置的一示意图;
图5是本发明一实施例中汉字识别方法的一流程图;
图6是图5中步骤S52的一具体流程图;
图7是图5中步骤S53的一具体流程图;
图8是图7中步骤S534的一具体流程图;
图9是本发明一实施例中汉字识别装置的一示意图;
图10是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的手写字模型训练方法,可应用在如图1的应用环境中。该手写字模型训练方法的应用环境包括服务器和客户端,其中,客户端通过网络与服务器进行通信,客户端是可与用户进行人机交互的设备,包括但不限于电脑、智能手机和平板等设备。本发明实施例提供的手写字模型训练方法应用于服务器。
在一实施例中,如图2所示,提供一种手写字模型训练方法,该手写字模型训练方法包括如下步骤:
S10:获取手写字训练样本,手写字训练样本包括手写字图像和与手写字图像关联的标签汉字。
具体地,服务器从数据库中获取手写字训练样本,为后续模型训练提供数据来源。其中,手写字训练样本指预先存储在数据库中的用于训练神经网络模型的手写字样本。手写字训练样本中包括手写字图像和与手写字图像关联的标签汉字。该手写字图像指携带有不同人手写的汉字的图像,为了方便训练手写字识别模型,本实施例中一个手写字图像对应一个手写字,每个手写字图像上携带有对应的顺序标签,该顺序标签指用于表示手写字图像顺序的标签。如有N个手写字训练样本,每个手写字训练样本中有M个手写字图像,n为非0自然数,对应的顺序标签则为1、2、3……M。标签汉字指从二级中文字库获取的与手写字图像匹配的标准字体的汉字,标准字体包括但不限于宋体、楷体和仿宋。将标签汉字与手写字图像关联,可以方便识别手写字图像属于什么字。本实施例中,将手写字图像和标签汉字关联时,标签汉字可以只选用使用较普遍的宋体、楷体或仿宋的汉字与手写字图像关联,节省存储空间同时简化模型训练量。如一个手写字图像上的手写字是“我”,该手写字图像关联的标签汉字是二级中文字库中收录的宋体、楷体或仿宋等字体的“我”。
S20:将手写字训练样本划分成训练集和测试集。
其中,训练集(training set)是用于调整卷积循环神经网络模型中的参数的数据。测试集(test set)是用于测试训练好的卷积循环神经网络模型的识别准确率的数据。具体地,采用十折交叉验证方法将手写字训练样本划分成训练集和测试集。其中,十折交叉验证方法是一种常用的测试算法准确性的方法。本实施例中,采用十折交叉验证方法将手写字训练样本按照9:1的比例对进行分类,即将手写字训练样本分为10组,其中的9组手写字训练样本作为训练集,用于训练卷积循环神经网络模型,剩余的1组手写字训练样本作为测试集,用于验证训练好的卷积循环神经网络模型的准确率。
S30:将训练集输入到卷积循环神经网络模型中,获取卷积循环神经网络模型的前向输出,根据卷积循环神经网络模型的前向输出,采用基于批量梯度下降的反向传播算法更新卷积循环神经网络模型中的权值和偏置,获取手写字训练模型。
其中,卷积循环神经网络(Convolutional-Recurrent Neural Networks,简称C-RNN)模型是由卷积神经网络(Convolutional Neural Networks,简称CNN)模型和循环神经网络(Recurrent Neural Networks,简称RNN)模型组成的一种神经网络模型。卷积循环神经网络模型的前向输出即就是循环神经网络模型的前向输出。批量梯度下降(BatchGradient Descent,简称BGD)指在根据反向传播算法更新卷积循环神经网络模型的权值和偏置时,基于训练集中的所有手写字训练样本中的手写字图像在卷积循环神经网络模型中获取的前向输出对卷积循环神经网络模型中的权值和偏置进行更新的情况。反向传播(Back Propagation)算法是指按照时序状态的反向顺序调整隐藏层与输出层之间的权值和偏置、以及输入层与隐藏层之间的权值和偏置的算法。手写字训练模型指将训练集输入到卷积循环神经网络模型中进行训练后的模型。
具体地,服务器将训练集输入到卷积循环神经网络模型中,采用卷积神经网络模型中的卷积层和池化层对训练集中的手写字图像进行特征提取和处理,获取每个手写字图像的图像特征。该图像特征指手写字图像经过卷积层和池化层计算后得到的像素矩阵。然后,将该图像特征输入到循环神经网络模型中进行训练,获取循环神经网络模型的前向输出,即获取卷积循环神经网络模型的前向输出。其中,循环神经网络模型的前向输出指手写字图像的图像特征在经过循环神经网络模型的处理,在输出层输出的像素矩阵。
获取卷积循环神经网络模型的前向输出,便于基于卷积循环神经网络模型的前向输出更新卷积循环神经网络模型中的权值和偏重。获取训练集中所有手写字训练样本的手写字图像的前向输出后,基于该前向输出和与手写字图像关联的标签汉字构建一个误差函数,利用误差函数求偏导更新卷积循环神经网络模型中的权值和偏置,从而获取手写字训练模型。采用批量梯度下降的反向传播算法更新卷积循环神经网络模型中的权值和偏置,使得权值和偏置的更新是根据训练集中的所有手写字图像构建的误差函数进行的更新,保证了卷积循环神经网络模型中的参数的充分更新,从而提高了手写字训练模型的识别准确率。
S40:将测试集输入到手写字训练模型中,获取每一手写字图像对应的识别汉字,基于识别汉字和标签汉字获取识别准确率,若识别准确率大于预设准确率,则确定手写字训练模型为手写字识别模型。
其中,手写字识别模型指经过测试集对手写字训练模型进行测试后确定的识别准确率符合预设准确率的模型,该手写字识别模型可用于识别手写字图像的模型。在手写字训练模型训练完成后,将测试集中每一手写字训练样本的手写字图像依次输入到手写字训练模型中,获取每个手写字图像对应的识别汉字,本实施例中的识别汉字具体指手写字图像经过手写字训练模型识别得到的汉字。
根据每一手写字图像对应的识别汉字和标签汉字判断该手写字训练模型对该手写字图像的识别是否准确,若准确,则将识别准确数量加1,然后根据公式:识别准确率=识别准确数量/测试集中手写字图像的数量,计算该手写字训练模型的识别准确率。若该手写字训练模型的识别准确率大于预设准确率,则确定该手写字训练模型为手写字识别模型;反之,若该手写字训练模型的识别准确率不大于预设准确率,则需重新进行手写字训练模型训练,直至手写字训练模型的识别准确率符合要求。其中,预设准确率是预先设置的用于评价手写字训练模型的准确率符合预设要求的阈值。例如,预设准确率为82%,测试集在经过手写字训练模型的识别后,得到的识别准确率大于82%(如85%或者90%等),则表示该手写字训练模型对手写字训练样本的识别准确率达到了要求,该手写字训练模型可以确定为手写字识别模型。
本实施例所提供的手写字模型训练方法中,将训练集输入到卷积循环神经网络模型中,获取卷积循环神经网络模型的前向输出,然后基于卷积循环神经网络模型的前向输出,采用基于批量梯度下降的反向传播算法更新卷积循环神经网络模型中的权值和偏置,获取手写字训练模型,保证了卷积循环神经网络模型中的参数的充分更新,提高了手写字训练模型的识别准确率。最后将测试集输入到手写字训练模型中进行测试,若手写字训练模型对手写字训练样本的识别准确率大于预设准确率,则表示手写字训练模型对手写字训练样本的识别准确率达到了要求,将该手写字训练模型确定为用于识别手写字图像的手写字识别模型,以使获得的手写字识别模型对手写字进行识别,具有较高的识别准确性。
在一实施例中,由于卷积循环神经网络模型是由卷积神经网络模型和循环神经网络模型组成的一种神经网络模型,因此在基于卷积循环神经网络模型训练手写字训练模型时,需采用卷积神经网络模型和循环神经网络模型进行模型训练。如图3所示,步骤S30,将训练集输入到卷积循环神经网络模型中,获取卷积循环神经网络模型的前向输出,根据卷积循环神经网络模型的前向输出,采用基于批量梯度下降的反向传播算法更新卷积循环神经网络模型中的权值和偏置,获取手写字训练模型,具体包括如下步骤:
S31:将训练集输入到卷积神经网络模型中,获取训练集中手写字图像对应的图像特征。
具体地,卷积神经网络模型包括多层卷积层和池化层。获取训练集后,将对应的手写字训练样本中的手写字图像输入卷积神经网络模型中进行训练,通过每一层卷积层的计算,获取每一层的卷积层的输出,卷积层的输出可以通过公式am l=σ(zm l)=σ(am l-1*Wl+bl)计算,其中,am l表示第l层卷积层的第m个顺序标签的输出,zm l表示未采用激活函数处理前的第m个顺序标签的输出,am l-1表示l-1层卷积层的第m个顺序标签输出(即上一层的输出),σ表示激活函数,对于卷积层采用的激活函数σ为ReLu(Rectified Linear Unit,线性整流函数),相比其他激活函数的效果会更好,*表示卷积运算,Wl表示第l层卷积层的卷积核(权值),bl表示第l层卷积层的偏置。若第l层是池化层,则在池化层采用最大池化的下样采样对卷积层的输出进行降维处理,具体公式为am l=pool(am l-1),其中pool是指下采样计算,该下采样计算可以选择最大池化的方法,最大池化实际上就是在m*m的样本中取最大值。最后通过公式获取输出层的输出,T(m)表示卷积神经网络模型输出层的输出,该输出即是要获取第m个顺序标签所对应的手写字图像的图像特征,该图像特征携带有顺序标签,该图像特征的顺序标签与该图像标签对应的手写字图像的顺序标签一致。
S32:将训练集中手写字图像对应的图像特征输入到循环神经网络模型中进行训练,获取循环神经网络模型的前向输出。
具体地,卷积神经网络模型将训练集中手写字图像对应的图像特征输入到循环神经网络模型隐藏层中,根据公式h(m)=σ'(U'T(m-1)+W'T(m)+b')获取该循环神经网络模型的隐藏层的输出,其中,h(m)表示第m个顺序标签在循环神经网络模型中的隐藏层的输出,σ'表示循环神经网络模型的隐藏层的激活函数,U'表示卷积神经网络模型的卷积层和循环神经网络模型的隐藏层之间的权值,若第l层是池化层,则U'表示卷积神经网络模型的池化层和循环神经网络模型的隐藏层之间的权值。W'表示隐藏层和隐藏层之间的权值,b'表示输入层和隐藏层之间的偏置,T(m)表示循环神经网络模型的输入层获取的第m个顺序标签所对应的手写字图像的图像特征。
然后,将循环神经网络模型的隐藏层的输出h(m)通过公式o(m)=V'h(m)+c'计算输入到循环神经网络模型中的输出层,获取循环神经网络模型的输出。其中,o(m)表示循环神经网络模型的隐藏层输入给输出层的输入,V'表示循环神经网络模型的隐藏层和输出层之间的权值,c'表示隐藏层和输出层之间的偏置。该循环神经网络模型的输出层根据公式y(m)=σ”(o(m))对循环神经网络模型中的输出层的输入o(m)进行计算,获取循环神经网络模型的前向输出y(m),该循环神经网络模型的前向输出y(m)具体指训练集中的手写字图像输入到循环神经网络模型中得到的手写字图像对应的前向输出,σ”表示循环神经网络模型的输出层的激活函数,一般为softmax函数。
S33:根据循环神经网络模型的前向输出和标签汉字,构建损失函数,损失函数的具体表达式为:其中,N表示手写字训练样本中手写字图像的个数,Eloss(θ)表示N个手写字训练样本中所有手写字图像对应的总误差的平均值,M表示手写字训练样本中手写字图像携带的顺序标签的个数,表示第n个手写字训练样本中第m个顺序标签对应的手写字图像的前向输出,表示第n个手写字训练样本中第m个顺序标签对应的标签汉字,θ表示权值和偏置的集合。
具体地,θ表示卷积神经网络模型中的权值和偏置与循环神经网络模型的权值和偏置的集合。
S34:根据损失函数,采用基于批量梯度下降的反向传播算法更新调整循环神经网络模型和卷积神经网络模型中的权值和偏置,获取手写字训练模型。
其中,批量梯度下降的反向传播算法指获取N个手写字训练样本中的所有手写字图像的误差值后,对误差值取平均值,利用反向传播算法更新调整循环神经网络模型和卷积神经网络模型中的权值和偏置的方法。
本实施例中,获取手写字训练样本中的一个手写字图像的前向输出,根据该前向输出和对应的标签汉字获取误差,然后将该手写字训练样本中的所有手写字图像的误差进行累加,获取样本误差,其中样本误差指样本中所有手写字图像的误差累加得到的总和。最后将训练集中的所有手写字训练样本的样本误差进行累加,获取训练集的总误差,对训练集的总误差进行平均值计算,得到Eloss(θ)。采用基于批量梯度下降的反向传播算法更新调整循环神经网络模型和卷积神经网络模型中的权值和偏置,可以使得训练集中的所有手写字图像产生的误差都能参与卷积循环神经网络模型(循环神经网络模型和卷积神经网络模型)的权值和偏置的更新和调整,保证了手写字训练模型的训练全面性,提高了手写字训练模型的准确性。
在获取Eloss(θ)后,通过对Eloss(θ)求偏导,更新调整循环神经网络模型和卷积神经网络模型中的权值和偏置,获取手写字训练模型。其中,求偏导的公式为
步骤S31-S34,通过卷积神经网络模型获取训练集中手写字图像对应的图像特征,然后将图像特征输入到循环神经网络模型中进行训练,获取循环神经网络模型的前向输出,并根据前向输出和标签汉字构建损失函数。最后根据损失函数,采用基于批量梯度下降的反向传播算法更新调整循环神经网络模型和卷积神经网络模型中的权值和偏置,获取手写字训练模型。保证了手写字训练模型的训练全面性,从而提高了手写字训练模型的准确性。
本实施例所提供的手写字模型训练方法中,将训练集输入到卷积循环神经网络模型中,通过卷积神经网络模型,获取手写字图像对应的图像特征,然后将图像特征输入到循环神经网络模型中,获取循环神经网络模型的前向输出,然后根据循环神经网络模型的前向输出和标签汉字构建损失函数,利用损失函数,采用基于批量梯度下降的反向传播算法更新卷积循环神经网络模型中的权值和偏置,获取手写字训练模型,保证了卷积循环神经网络模型中的参数的充分更新,提高了手写字训练模型的识别准确率。为了进一步验证手写字训练模型的准确性,将测试集输入到手写字训练模型中进行测试,若手写字训练模型对手写字训练样本的识别准确率大于预设准确率,则表示手写字训练模型对手写字训练样本的识别准确率达到了要求,该手写字训练模型确定为用于识别手写字图像的手写字识别模型,该手写字识别模型具有较高的识别准确性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种手写字模型训练装置,该手写字模型训练装置与上述实施例中手写字模型训练方法一一对应。如图4所示,该手写字模型训练装置包括训练样本获取模块10、训练样本处理模块20、训练模型获取模块30和识别模型获取模块40,各功能模块详细说明如下:
训练样本获取模块10,用于获取手写字训练样本,手写字训练样本包括手写字图像和与手写字图像关联的标签汉字。
训练样本处理模块20,用于将手写字训练样本划分成训练集和测试集。
训练模型获取模块30,用于将训练集输入到卷积循环神经网络模型中,获取卷积循环神经网络模型的前向输出,根据卷积循环神经网络模型的前向输出,采用基于批量梯度下降的反向传播算法更新卷积循环神经网络模型中的权值和偏置,获取手写字训练模型。
识别模型获取模块40,用于将测试集输入到手写字训练模型中,获取每一手写字图像对应的识别汉字,基于识别汉字和标签汉字获取识别准确率,若识别准确率大于预设准确率,则确定手写字训练模型为手写字识别模型。
具体地,卷积循环神经网络模型包括卷积神经网络模型及循环神经网络模型。
训练模型获取模块30包括图像特征获取单元31、前向输出获取单元32、损失函数构建单元33和训练模型获取单元34。
图像特征获取单元31,用于将训练集输入到卷积神经网络模型中,获取训练集中手写字图像对应的图像特征。
前向输出获取单元32,用于将训练集中手写字图像对应的图像特征输入到循环神经网络模型中进行训练,获取循环神经网络模型的前向输出。
损失函数构建单元33,用于根据循环神经网络模型的前向输出和标签汉字,构建损失函数,损失函数的具体表达式为:
其中,N表示手写字训练样本中手写字图像的个数,Eloss(θ)表示N个手写字训练样本中所有手写字图像对应的总误差的平均值,M表示手写字训练样本中手写字图像携带的顺序标签的个数,表示第n个手写字训练样本中第m个顺序标签对应的手写字图像的前向输出,表示第n个手写字训练样本中第m个顺序标签对应的标签汉字,θ表示权值和偏置的集合。
训练模型获取单元34,用于根据损失函数,采用基于批量梯度下降的反向传播算法更新调整循环神经网络模型和卷积神经网络模型中的权值和偏置,获取手写字训练模型。
在一实施例中,如图5所示,提供一种汉字识别方法,该汉字识别方法具体包括如下步骤:
S51:获取原始图像,原始图像包括手写字和背景图像。
其中,原始图像指没有经过任何处理的特定图像,该特定图像是指需要包括手写字的图像。本实施例中的原始图像包括手写字和背景图像。其中,背景图像是指原始图像上的背景图案对应的图像。该原始图像的获取方式包括但不限于从网页上爬取或者通过访问与服务器相连的数据库上获取,该数据库上的原始图像可以是终端设备预先上传的图像。
S52:对原始图像进行预处理,获取有效图像。
其中,有效图像指原始图像经过预处理后的图像。服务器获取有效图像的具体步骤为:(1)判断原始图像是否为彩色图像,若原始图像为彩色图像,则对原始图像进行灰度化处理,获取灰度图像,使得彩色图像中每个像素对应的三个分量R(红色)、G(绿色)和B(蓝色)可以用一个值替代,有助于简化后续进行极差标准化处理的复杂度。可以理解地,若原始图像不为彩色图像,则原始图像为灰度图像,无需再进行灰度化处理。(2)对灰度图像对应的像素矩阵进行极差标准化处理,获取有效图像。对灰度图像对应的像素矩阵进行极差标准化处理可以在保留像素矩阵中相对关系,同时又可以提高计算速度。
S53:采用核密度估计算法和腐蚀方法对有效图像进行处理,去除背景图像,获取包括手写字的目标图像。
目标图像指仅包含手写字部分的图像。核密度估计算法是一种从数据样本本身出发研究数据分布特征,用于估计概率密度函数的非参数方法。核密度估计算法的具体公式为 表示像素的估计概率密度,K(.)为核函数,h为像素范围,x为要估计概率密度的像素,xi为h范围内的第i个像素,n为h范围内像素为x的个数。腐蚀方法指对图像进行腐蚀处理的方法,其中,腐蚀指去除图像中背景图像的部分,仅保留手写字的部分。
本实施例中,采用核密度估计算法的公式对有效图像对应的频率分布直方图进行处理,获取频率分布直方图对应的平滑曲线,根据平滑曲线上的极小值和极大值,获取极小值和极大值对应的像素,然后根据极大值和极小值对应的像素对有效图像进行分层处理,在分层处理后,对分层处理后的图像进行腐蚀处理,去除背景图像,保留手写字部分。最后将经过分层和腐蚀处理的图像进行叠加处理,获取目标图像。其中,叠加处理指将分层后的仅保留有手写字部分的图像叠加成一个图像的处理过程,从而实现获取目标图像的目的。
S54:采用垂直投影方法对目标图像进行单字体切割,获取单字体图像。
其中,垂直投影方法是指将每一行手写字进行垂直方向的投影,获取垂直投影直方图的方法。垂直投影直方图是指反映目标图像在垂直方向上的像素数量的图,垂直投影直方图的横坐标轴表示目标图像的宽度,纵坐标表示目标图像的像素数量分布情况。
具体地,逐行扫描目标图像中的每一行手写字并获取每一行手写字对应的像素的数量,基于像素和像素的数量形成垂直投影直方图,再根据该垂直投影直方图,按照预先设置的切割阈值对目标图像进行切割,获取单字体图像。单字体图像指单个字体对应的图像。其中,切割阈值指预先设置好的用于切割目标图像中的手写字,获取单字体。当扫描到目标图像对应的垂直投影直方图中的纵坐标上的像素数量小于等于阈值时,则表示对应的横坐标的位置是两个相邻手写字之间的分隔点,在该分隔点对目标图像进行单字体切割。如预先设置的切割阈值为10,当扫描到目标图像对应的垂直投影直方图中像素数量为小于等于10时(0、9和10),则该像素数量值(0、9和10)对应的横坐标所在的位置是两个相邻手写字之间的分割点,在该分割点对目标图像进行单字体切割,获取该目标图像对应的单字体图像。可以理解地,每一个手写字对应的像素是比较集中的,汉字与汉字之间的间隙对应的像素是比较稀疏的,像素的密集程度反应在对应的垂直投影直方图中,则为有汉字的像素对应的像素数量比较高,没有汉字的像素对应的像素数量比较低,通过垂直投影方法能够有效对目标图像进行单字体切割,获取单字体图像,为后续进行模型识别提供技术支持。
S55:将单字体图像输入到手写字识别模型中进行识别,获取单字体图像对应的识别结果,手写字识别模型是采用上述手写字模型训练方法获取到的。
其中,手写字识别模型是预先训练好的用于识别手写字的模型。识别结果指识别概率大于预设概率的输出。预设概率指预先设置的用于判断识别概率是否满足要求的概率。具体地,将单字体图像输入到手写字识别模型中,获取每一单字体图像对应的识别概率,该识别概率是指该单字体图像可能为某一具体汉字的概率。将识别概率和预设概率进行比较,若识别概率大于预设概率,则获取对应的识别结果,有助于提高识别结果的准确性。
如预设概率为85%,将“海”对应的单字体图像输入到手写字识别模型中,获取识别概率大于预设概率对应的识别结果,该识别结果可能为“诲”或“海”,即“海”对应的单字体图像识别为“诲”或“海”的识别概率均大于85%,因此可能输出两个识别结果“诲”或“海”。
S56:基于识别结果查询语义库,获取单字体图像对应的目标汉字。
其中,语义库是预先设置的用于对识别结果进行语义分析的知识库。语义分析是对识别结果进行上下文有关性质的分析。语义库是由大量的中文句子组成。目标汉字是查询语义库后符合语义的单字体图像所对应的汉字。
具体地,在获取识别结果后,还需要根据语义库进一步确定目标汉字,如“海”“枯”、“石”以及“烂”这四个单字体图像对应的识别结果为“诲”或“海”、“枯”、“石”以及“烂”或“栏”,为了进一步确定存在两个或两个以上识别结果对应的单字体图像的目标汉字,因此需查询语义库,根据语义库中收录的中文句子判断更加准确的识别结果。通过查询语义库“海枯石烂”符合语义,则确定每一单字体图像对应的目标汉字为“海”“枯”“石”“烂”,根据语义库确定目标汉字,可以提高对单字体图像识别的准确率。
本实施例所提供的汉字识别方法,通过对原始图像进行预处理,获取有效图像,并采用核密度估计算法和腐蚀方法对有效图像进行处理,去除背景图像的部分,保留仅含有手写字的目标图像,为后续进行单字体切割提供数据来源。采用垂直投影方法对目标图像进行单字体切割,获取单字体图像,将获取的单字体图像输入到手写字识别模型中识别,基于单字体图像对应的识别概率值,获取识别结果。采用手写字识别模型对单字体图像进行识别,可以提高识别准确率。基于识别结果查询语义库,根据语义库中存储的中文句子获取单字体图像对应的目标汉字,该目标汉字则为单字体图像对应的汉字。利用语义库获取目标汉字,可以筛选出该单字体图像精准对应的目标汉字,通过手写字识别模型和语义库的判断可以提高手写字识别的精准度。
在一实施例中,如图6所示,步骤S52,对原始图像进行预处理,获取有效图像,具体包括如下步骤:
S521:对原始图像进行放大和灰度化处理,获取灰度图像。
由于在原始图像中,手写字本身的尺寸相对于背景图像而言较小,在对原始图像进行灰度化处理时,手写字容易被误处理掉,因此,为了保证手写字不会再灰度化处理时被误清除,需要对原始图像对应的每个像素进行放大处理,如原始图像中第n个像素的大小为xn,对原始图像中的每个像素进行幂次放大处理,使得xn变为xn 2。本实施例中,将原始图像中的像素进行放大处理,可以有效避免在对原始图像进行灰度化处理时,手写字被误处理掉。
在原始图像进行放大处理后,若原始图像不是灰度图像而是彩色图像时,则需要对原始图像进行灰度化处理,获取灰度图像。可以理解地,若原始图像为灰度图像,则不需要进行灰度化处理。当原始图像为彩色图像时,对原始图像进行灰度化处理的具体步骤为:采用公式Y=0.299R+0.587G+0.114B对原始图像中的每个像素进行处理,获取每个像素对应的采样像素,依据该采样像素形成灰度图像;其中,R(红色)、G(绿色)和B(蓝色)是原始图像中的三个分量,采样像素是灰度图像中用于替换彩色图像中R、G和B三个分量对应的像素。
对原始图像为彩色图像进行灰度化处理,有效减少了后续步骤获取有效图像时需要处理的数据量和计算的复杂度。
S522:对灰度图像对应的像素矩阵进行极差标准化处理,获取有效图像,其中,极差标准化处理的公式为x是标准化前有效图像的像素,x'是标准化后有效图像的像素,Mmin是灰度图像对应的像素矩阵M中最小的像素,Mmax是灰度图像对应的像素矩阵M中最大的像素。
其中,极差标准化处理是对数据进行处理,使数据压缩在(0,1)范围内的处理方法。对灰度图像对应的像素矩阵进行价差标准化处理并乘上255,可以方便对像素矩阵中的数据进行处理,同时保留像素矩阵中各像素的相互关系。灰度图像中,背景图像和每个手写字都有各自对应的像素矩阵。在获取灰度图像中的背景图像和每个手写字对应的像素矩阵后,对像素矩阵进行极差标准化处理,获取极差标准化处理后的像素矩阵对应的有效图像。对像素矩阵进行极差标准化处理,能够提高获取目标图像的处理速度。
步骤S521-S522,通过对原始图像进行放大处理,可以有效避免在对原始图像在下一个步骤中对原始图像进行灰度化处理时,将手写字误处理掉的情况发生。对原始图像进行灰度化处理,获取灰度图像可以减少后续步骤中需要处理的数据量。对灰度图像进行极差标准化处理,能够提高获取目标图像的处理速度。
在一实施例中,如图7所示,步骤S53,采用核密度估计算法和腐蚀方法对有效图像进行处理,去除背景图像,获取包括手写字的目标图像,具体包括如下步骤:
S531:对有效图像中的像素出现的次数进行统计,获取有效图像对应的频率分布直方图。
其中,频率分布直方图的横轴表示样本数据的连续值,横轴上的每个小区间对应一个组的组距,作为小矩形的底边;纵轴表示频率与组距的比值,并用该比值作为小矩形的高,以多个小矩形构成的一组图称为频率直方图。具体地,获取有效图像后,在频率直方图的横轴表示像素为(0,255)之间的连续值,横轴上每个小矩形对应的组距为1,纵轴表示小矩形对应的像素出现的频率与组距的比值,该比值即为对应的小矩形的高。该频率分布直方图可以形象地将有效图像中的像素出现的次数展示出来,使得数据的分布情况一目了然地反映出来。
S532:采用高斯核密度估算方法对频率分布直方图进行处理,获取频率分布直方图对应的频率极大值和频率极小值,并根据频率极大值和频率极小值获取对应的像素。
高斯核密度估算方法指核函数为高斯核的核密度估算方法。其中,高斯核对应的函数为其中,K(x)指像素(自变量)为x的高斯核函数,x指像素,e和π为常数。频率极大值指在频率分布直方图中,频率值大小为极大值的频率值;频率极小值指在频率分布直方图中,频率值大小为极小值的频率值。具体地,采用高斯核密度函数估算方法对获取的有效图像对应的频率分布直方图进行高斯平滑处理,获取该频率分布直方图对应的高斯平滑曲线。基于该高斯平滑曲线上的频率极大值和频率极小值,获取频率极大值和频率极小值对应横轴上的像素。本实施例中,获取频率极大值和频率极小值对应的像素,便于后续对有效图像进行分层区分,获取分层图像。
S533:基于频率极大值和频率极小值对应的像素对有效图像进行分层处理,获取分层图像。
分层图像指基于频率极大值和频率极小值对有效图像进行分层处理得到的图像。获取频率极大值和频率极小值对应的像素,根据频率极大值对应的像素对有效图像进行分层处理,有效图像中有多少个频率极大值,对应的有效图像的像素就被聚类为多少类,该有效图像就会被分为几层。然后以频率极小值对应的像素作为类之间的边界值,根据类之间的边界则可以每一层分层图像对应的像素。
如有效图像中的频率极大值对应的像素分别为12、54、97、113、159、172,频率极小值对应的像素分别为26、69、104、139和163,根据有效图像中的频率极大值的个数可以确定该有效图像的像素可以被分为6类,该有效图像可以被分为6层,频率极小值对应的像素作为类之间的边界值,由于最小的像素为0,最大的像素为255,因此,根据类之间的边界值则可以确定以像素为12的分层图像,该分层图像对应的像素范围为[0,26);以像素为54的分层图像,该分层图像对应的像素范围为[26,69);以像素为97的分层图像,该分层图像对应的像素范围为[69,104);以像素为113的分层图像,该分层图像对应的像素范围为[104,139);以像素为159的分层图像,该分层图像对应的像素范围为[139,163);以像素为172的分层图像,该分层图像对应的像素范围为[163,255]。
S534:对分层图像进行腐蚀处理,并将腐蚀处理后的分层图像进行叠加处理,获取目标图像。
获取分层图像后,对分层图像进行二值化处理。其中,二值化处理是指将图像上的像素设置为0(黑色)或1(白色),将整个图像呈现出明显的黑白效果的处理。对分层图像进行二值化处理后,对二值化处理后的分层图像进行腐蚀处理,去除背景图像部分,保留分层图像上的手写字部分。其中,腐蚀处理是用于形态学中去除图像的某部分的内容的操作。由于每个分层图像上的像素是属于不同范围的像素,因此,对分层图像进行腐蚀处理后,还需要将每个分层图像叠加,生成仅含有手写字的目标图像。
步骤S531-S534,通过获取有效图像对应的频率分布直方图,并根据频率分布直方图获取频率极大值和频率极小值对应的像素,从而获取分层图像。最后对分层图像进行二值化、腐蚀和叠加处理,完成对原始图像中手写字和背景图像的识别,去除背景图像,获取手写字的目标图像。
在一实施例中,如图8所示,步骤S534中,对分层图像进行腐蚀处理,具体包括如下步骤:
S5341:对分层图像进行二值化处理,获取分层二值化图像。
分层二值化图像指对分层图像进行二值化处理获取的图像。具体地,获取分层图像后,基于分层图像的采样像素和预先选取的阈值进行比较,将采样大于等于阈值的像素设置为1,小于阈值的像素设置为0的过程。本实施例中,0代表背景像素,1代表目标像素(手写字像素)。该阈值可以通过计算分层图像的类间方差获取,也可以根据经验值获取。阈值的大小会影响分层图像二值化处理的效果,若阈值选取合适,则对分层图像进行二值化处理的效果就比较好,相应地,若阈值选取不合适,则影响分层图像二值化处理的效果。为了方便操作,简化计算过程,本实施例中的阈值根据经验值确定。
S5342:对分层二值化图像中的像素进行检测标记,获取分层二值化图像对应的连通区域。
其中,连通区域是指某一特定像素周围的邻接像素所围成的区域。如某特定像素为0,其周围的邻接像素为1,则将邻接像素所围成的区域作为连通区域。
获取每个分层图像对应的分层二值化图像后,对分层二值化图像对应的像素矩阵进行逐行扫描,将符合连通规则(4邻域连通或者8邻域连通)的像素向相同的标号标记出来。4邻域连通指一个特定像素与上、下、左、右四个方向相邻的像素相同的情况;8邻域连通指一个特定像素上、下、左、右、左上、左下、右上、右下八个方向相邻的像素相同的情况。
具体地,像素矩阵包括行和列。对二值化图像中的像素进行检测标记的具体过程为:(1)逐行扫描像素矩阵,把每一行中连续为1的像素(目标像素)组成一个序列,该序列称为团,标记好该团的起点、终点以及所在的行号。团的起点指团的第一个像素,团的终点指团的最后一个像素。(2)对像素矩阵中除了第一行外的剩余行里的团,比较某一特定剩余行中的团与前一行中的所有团是否有重合区域,若没有重合区域,则给该特定剩余行中的团一个新的标号;如果该特定剩余行中的团仅与上一行中一个团有重合区域,则将上一行的该团的标号赋给它;如果该特定剩余行与上一行中有两个以上的团有重合区域,则给对应的团赋一个相关联团的最小标号,并将上一行的这几个团中的标记写入等价对,说明它们属于一类。其中,相关联团指与特定剩余行的团有重合区域的上一行的团;等价对指相互连通的团上的标号。
例如,一像素矩阵中的特定剩余行为第三行,该第三行中有两个团(A,B),其中A团与第二行中的两个团(该两个团的标号为1,2)有重合区域,则将第二行中的两个团的最小标号1赋给该A团,A团的标号为1,并将A团、1团和2团对应的标号记为等价对,即将(1,2)记为等价对。标号为1和标号为2的团则称为一个连通区域。
S5343:对分层二值化图像对应的连通区域进行腐蚀处理。
采用MATLAB中的imerode函数或者Open CV中的cvErode函数对分层二值化图像的连通区域进行腐蚀处理。具体地,选取一个结构像素,本实施例是以像素矩阵中某个特征像素相邻的8个像素作为该特征像素的连通区域的,因此,选取的结构像素3×3的像素矩阵。使用结构像素对分层二值化图像的像素矩阵进行扫描,比较分层二值化图像中的像素矩阵与结构像素是否完全一致,若完全一致时,则像素矩阵中对应的9个像素为都变为1;若不完全一致,则像素矩阵中对应的9个像素都变为0,其中,0(黑色)则为分层二值化图像被腐蚀的部分。
基于预先设置的手写字区域抗腐蚀能力范围对分层二值化图像进行筛选,对于不在手写字区域抗腐蚀能力范围内的分层二值化图像部分删除,获取分层二值化图像中在手写字区域抗腐蚀能力范围内的部分。对筛选出的符合手写字区域抗腐蚀能力范围的每个分层二值化图像部分对应的像素矩阵进行叠加,就可以获取到仅含有手写字的目标图像。其中,手写字区域抗腐蚀能力可以采用公式:计算,s1表示分层二值化图像中被腐蚀后的总面积,s2表示分层二值化图像中被腐蚀前的总面积。
如预先设置的手写字区域抗腐蚀能力范围为[0.05,0.8],根据公式计算每个分层二值化图像被腐蚀后的总面积和分层二值化图像被腐蚀前的总面积的比值。通过计算,分层二值化图像中某区域腐蚀后的总面积和腐蚀前的总面积的比值不在预先设置的手写字区域抗腐蚀能力范围内,则表示该区域的分层二值化图像是手写字,需要保留。分层二值化图像中的某区域腐蚀后的总面积和腐蚀前的总面积的比值在[0.05,0.8]范围内,则表示该区域的分层二值化图像是手写字,需要保留。对每个分层二值化图像对应的像素矩阵进行叠加,则可以获取含有手写字的目标图像。
步骤S5341-S5343,对分层图像进行二值化处理,获取分层二值化图像,然后对分层二值化图像中的像素进行检测标记,获取分层二值化图像对应的像素矩阵中每个像素的连通区域,采用结构像素对每个像素的连通区域进行检测,对与结构像素不完全一致的像素矩阵中的像素都变为0,像素为0的分层二值化图像为黑色,该黑色部分则是分层二值化图像被腐蚀的部分,通过计算分层二值化图像被腐蚀后的总面积和分层二值化图像被腐蚀前的总面积的比值,判断该比值是否在预先设置的手写字区域抗腐蚀能力范围,去除背景图像,保留手写字,达到获取目标图像的目的。
该汉字识别方法通过对原始图像进行放大和灰度化处理,获取灰度图像,然后对灰度图像进行价差标准化处理,获取有效图像。方便后续步骤采用高斯核密度估计算法对有效图像进行分层、二值化、腐蚀和叠加处理,去除背景图像,保留只含有手写字的目标图像。采用垂直投影方法对目标图像进行单字体切割,获取单字体图像,将获取的单字体图像输入到手写字识别模型中识别,基于单字体图像对应的识别概率值,获取识别结果。基于识别结果查询语义库,根据语义库中存储的中文句子获取单字体图像对应的目标汉字,通过手写字识别模型和语义库的判断筛选可以提高手写字识别的精准度。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种汉字识别装置,该汉字识别装置与上述实施例中汉字识别方法一一对应。如图9所示,该汉字识别装置包括原始图像获取模块51、有效图像获取模块52、目标图像获取模块53、单字体图像获取模块54、识别结果获取模块55和目标汉字确认模块56。各功能模块详细说明如下:
原始图像获取模块51,用于获取原始图像,原始图像包括手写字和背景图像。
有效图像获取模块52,用于对原始图像进行预处理,获取有效图像。
目标图像获取模块53,用于采用核密度估计算法和腐蚀方法对有效图像进行处理,去除背景图像,获取包括手写字的目标图像。
单字体图像获取模块54,用于采用垂直投影方法对目标图像进行单字体切割,获取单字体图像。
识别结果获取模块55,用于将单字体图像输入到手写字识别模型中进行识别,获取单字体图像对应的识别结果,手写字识别模型是采用上述手写字模型训练方法获取到的。
目标汉字确认模块56,用于基于识别结果查询语义库,获取单字体图像对应的目标汉字。
具体地,有效图像获取模块52包括灰度图像获取单元521和极差标准化处理单元522。
灰度图像获取单元521,用于对原始图像进行放大和灰度化处理,获取灰度图像。
极差标准化处理单元522,用于对灰度图像对应的像素矩阵进行极差标准化处理,获取有效图像,其中,极差标准化处理的公式为x是标准化前有效图像的像素,x'是标准化后有效图像的像素,Mmin是灰度图像对应的像素矩阵M中最小的像素,Mmax是灰度图像对应的像素矩阵M中最大的像素。
具体地,目标图像获取模块53包括第一处理单元531、第二处理单元532、分层图像获取单元533和分层图像处理单元534。
第一处理单元531,用于对有效图像中的像素出现的次数进行统计,获取有效图像对应的频率分布直方图。
第二处理单元532,用于采用高斯核密度估算方法对频率分布直方图进行处理,获取频率分布直方图对应的频率极大值和频率极小值,并根据频率极大值和频率极小值获取对应的像素。
分层图像获取单元533,用于基于频率极大值和频率极小值对应的像素对有效图像进行分层处理,获取分层图像。
分层图像处理单元534,用于对分层图像进行腐蚀处理,并将腐蚀处理后的分层图像进行叠加处理,获取目标图像。
具体地,分层图像处理单元534包括二值化处理单元5341、连通区域获取单元5342和连通区域处理单元5343。
二值化处理单元5341,用于对分层图像进行二值化处理,获取分层二值化图像。
连通区域获取单元5342,用于对分层二值化图像中的像素进行检测标记,获取分层二值化图像对应的连通区域。
连通区域处理单元5343,用于对分层二值化图像对应的连通区域进行腐蚀处理。
在一实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储手写字识别模型。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种手写字模型训练方法。
在一实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取手写字训练样本,手写字训练样本包括手写字图像和与手写字图像关联的标签汉字;将手写字训练样本划分成训练集和测试集;将训练集输入到卷积循环神经网络模型中,获取卷积循环神经网络模型的前向输出,根据卷积循环神经网络模型的前向输出,采用基于批量梯度下降的反向传播算法更新卷积循环神经网络模型中的权值和偏置,获取手写字训练模型;将测试集输入到手写字训练模型中,获取每一手写字图像对应的识别汉字,基于识别汉字和标签汉字获取识别准确率,若识别准确率大于预设准确率,则确定手写字训练模型为手写字识别模型。
在一实施例中,处理器执行计算机程序时还实现以下步骤:卷积循环神经网络模型包括卷积神经网络模型及循环神经网络模型;将训练集输入到卷积神经网络模型中,获取训练集中手写字图像对应的图像特征;将训练集中手写字图像对应的图像特征输入到循环神经网络模型中进行训练,获取循环神经网络模型的前向输出;根据循环神经网络模型的前向输出和标签汉字,构建损失函数,损失函数的具体表达式为:
其中,N表示手写字训练样本中手写字图像的个数,Eloss(θ)表示N个手写字训练样本中所有手写字图像对应的总误差的平均值,M表示手写字训练样本中手写字图像携带的顺序标签的个数,表示第n个手写字训练样本中第m个顺序标签对应的手写字图像的前向输出,表示第n个手写字训练样本中第m个顺序标签对应的标签汉字,θ表示权值和偏置的集合;根据损失函数,采用基于批量梯度下降的反向传播算法更新调整循环神经网络模型和卷积神经网络模型中的权值和偏置,获取手写字训练模型。
在一实施例中,提供了一种非易失性存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取手写字训练样本,手写字训练样本包括手写字图像和与手写字图像关联的标签汉字;将手写字训练样本划分成训练集和测试集;将训练集输入到卷积循环神经网络模型中,获取卷积循环神经网络模型的前向输出,根据卷积循环神经网络模型的前向输出,采用基于批量梯度下降的反向传播算法更新卷积循环神经网络模型中的权值和偏置,获取手写字训练模型;将测试集输入到手写字训练模型中,获取每一手写字图像对应的识别汉字,基于识别汉字和标签汉字获取识别准确率,若识别准确率大于预设准确率,则确定手写字训练模型为手写字识别模型。
在一实施例中,计算机程序被处理器执行时还实现以下步骤:卷积循环神经网络模型包括卷积神经网络模型及循环神经网络模型;将训练集输入到卷积神经网络模型中,获取训练集中手写字图像对应的图像特征;将训练集中手写字图像对应的图像特征输入到循环神经网络模型中进行训练,获取循环神经网络模型的前向输出;根据循环神经网络模型的前向输出和标签汉字,构建损失函数,损失函数的具体表达式为:
其中,N表示手写字训练样本中手写字图像的个数,Eloss(θ)表示N个手写字训练样本中所有手写字图像对应的总误差的平均值,M表示手写字训练样本中手写字图像携带的顺序标签的个数,表示第n个手写字训练样本中第m个顺序标签对应的手写字图像的前向输出,表示第n个手写字训练样本中第m个顺序标签对应的标签汉字,θ表示权值和偏置的集合;根据损失函数,采用基于批量梯度下降的反向传播算法更新调整循环神经网络模型和卷积神经网络模型中的权值和偏置,获取手写字训练模型。
在一实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取原始图像,原始图像包括手写字和背景图像;对原始图像进行预处理,获取有效图像;采用核密度估计算法和腐蚀方法对有效图像进行处理,去除背景图像,获取包括手写字的目标图像;采用垂直投影方法对目标图像进行单字体切割,获取单字体图像;将单字体图像输入到手写字识别模型中进行识别,获取单字体图像对应的识别结果,手写字识别模型是采用上述手写字模型训练方法获取到的;基于识别结果查询语义库,获取单字体图像对应的目标汉字。
在一实施例中,处理器执行计算机程序时还实现以下步骤:对原始图像进行放大和灰度化处理,获取灰度图像;对灰度图像对应的像素矩阵进行极差标准化处理,获取有效图像,其中,极差标准化处理的公式为x是标准化前有效图像的像素,x'是标准化后有效图像的像素,Mmin是灰度图像对应的像素矩阵M中最小的像素,Mmax是灰度图像对应的像素矩阵M中最大的像素。
在一实施例中,处理器执行计算机程序时还实现以下步骤:对有效图像中的像素出现的次数进行统计,获取有效图像对应的频率分布直方图;采用高斯核密度估算方法对频率分布直方图进行处理,获取频率分布直方图对应的频率极大值和频率极小值,并根据频率极大值和频率极小值获取对应的像素;基于频率极大值和频率极小值对应的像素对有效图像进行分层处理,获取分层图像;对分层图像进行腐蚀处理,并将腐蚀处理后的分层图像进行叠加处理,获取目标图像。
在一实施例中,处理器执行计算机程序时还实现以下步骤:对分层图像进行二值化处理,获取分层二值化图像;对分层二值化图像中的像素进行检测标记,获取分层二值化图像对应的连通区域;对分层二值化图像对应的连通区域进行腐蚀处理。
在一实施例中,提供了一种非易失性存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取原始图像,原始图像包括手写字和背景图像;对原始图像进行预处理,获取有效图像;采用核密度估计算法和腐蚀方法对有效图像进行处理,去除背景图像,获取包括手写字的目标图像;采用垂直投影方法对目标图像进行单字体切割,获取单字体图像;将单字体图像输入到手写字识别模型中进行识别,获取单字体图像对应的识别结果,手写字识别模型是采用上述手写字模型训练方法获取到的;基于识别结果查询语义库,获取单字体图像对应的目标汉字。
在一实施例中,计算机程序被处理器执行时还实现以下步骤:对原始图像进行放大和灰度化处理,获取灰度图像;对灰度图像对应的像素矩阵进行极差标准化处理,获取有效图像,其中,极差标准化处理的公式为x是标准化前有效图像的像素,x'是标准化后有效图像的像素,Mmin是灰度图像对应的像素矩阵M中最小的像素,Mmax是灰度图像对应的像素矩阵M中最大的像素。
在一实施例中,计算机程序被处理器执行时还实现以下步骤:对有效图像中的像素出现的次数进行统计,获取有效图像对应的频率分布直方图;采用高斯核密度估算方法对频率分布直方图进行处理,获取频率分布直方图对应的频率极大值和频率极小值,并根据频率极大值和频率极小值获取对应的像素;基于频率极大值和频率极小值对应的像素对有效图像进行分层处理,获取分层图像;对分层图像进行腐蚀处理,并将腐蚀处理后的分层图像进行叠加处理,获取目标图像。
在一实施例中,计算机程序被处理器执行时还实现以下步骤:对分层图像进行二值化处理,获取分层二值化图像;对分层二值化图像中的像素进行检测标记,获取分层二值化图像对应的连通区域;对分层二值化图像对应的连通区域进行腐蚀处理。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种手写字模型训练方法,其特征在于,包括:
获取手写字训练样本,所述手写字训练样本包括手写字图像和与所述手写字图像关联的标签汉字;
将所述手写字训练样本划分成训练集和测试集;
将所述训练集输入到卷积循环神经网络模型中,获取卷积循环神经网络模型的前向输出,根据所述卷积循环神经网络模型的前向输出,采用基于批量梯度下降的反向传播算法更新所述卷积循环神经网络模型中的权值和偏置,获取手写字训练模型;
将所述测试集输入到所述手写字训练模型中,获取每一手写字图像对应的识别汉字,基于所述识别汉字和所述标签汉字获取识别准确率,若所述识别准确率大于预设准确率,则确定所述手写字训练模型为手写字识别模型。
2.如权利要求1所述的手写字模型训练方法,其特征在于,所述卷积循环神经网络模型包括卷积神经网络模型及循环神经网络模型;
所述将所述训练集输入到卷积循环神经网络模型中,获取卷积循环神经网络模型的前向输出,根据所述卷积循环神经网络模型的前向输出,采用基于批量梯度下降的反向传播算法更新所述卷积循环神经网络模型中的权值和偏置,获取手写字训练模型,包括:
将所述训练集输入到卷积神经网络模型中,获取训练集中手写字图像对应的图像特征;
将所述训练集中手写字图像对应的图像特征输入到循环神经网络模型中进行训练,获取所述循环神经网络模型的前向输出;
根据所述循环神经网络模型的前向输出和所述标签汉字,构建损失函数,所述损失函数的具体表达式为:其中,N表示手写字训练样本中手写字图像的个数,Eloss(θ)表示N个手写字训练样本中所有手写字图像对应的总误差的平均值,M表示手写字训练样本中手写字图像携带的顺序标签的个数,表示第n个手写字训练样本中第m个顺序标签对应的手写字图像的前向输出,表示第n个手写字训练样本中第m个顺序标签对应的标签汉字,θ表示权值和偏置的集合;
根据所述损失函数,采用基于批量梯度下降的反向传播算法更新调整所述循环神经网络模型和所述卷积神经网络模型中的权值和偏置,获取手写字训练模型。
3.一种汉字识别方法,其特征在于,包括:
获取原始图像,所述原始图像包括手写字和背景图像;
对所述原始图像进行预处理,获取有效图像;
采用核密度估计算法和腐蚀方法对所述有效图像进行处理,去除背景图像,获取包括所述手写字的目标图像;
采用垂直投影方法对所述目标图像进行单字体切割,获取单字体图像;
将所述单字体图像输入到手写字识别模型中进行识别,获取所述单字体图像对应的识别结果,所述手写字识别模型是采用权利要求1或2所述手写字模型训练方法获取到的;
基于所述识别结果查询语义库,获取所述单字体图像对应的目标汉字。
4.如权利要求3所述的汉字识别方法,其特征在于,所述对所述原始图像进行预处理,获取有效图像,包括:
对所述原始图像进行放大和灰度化处理,获取灰度图像;
对所述灰度图像对应的像素矩阵进行极差标准化处理,获取有效图像,其中,所述极差标准化处理的公式为x是标准化前有效图像的像素,x'是标准化后有效图像的像素,Mmin是所述灰度图像对应的像素矩阵M中最小的像素,Mmax是所述灰度图像对应的像素矩阵M中最大的像素。
5.如权利要求3所述的汉字识别方法,其特征在于,所述采用核密度估计算法和腐蚀方法对所述有效图像进行处理,去除背景图像,获取包括所述手写字的目标图像,包括:
对所述有效图像中的像素出现的次数进行统计,获取所述有效图像对应的频率分布直方图;
采用高斯核密度估算方法对所述频率分布直方图进行处理,获取所述频率分布直方图对应的频率极大值和频率极小值,并根据所述频率极大值和频率极小值获取对应的像素;
基于所述频率极大值和所述频率极小值对应的像素对有效图像进行分层处理,获取分层图像;
对所述分层图像进行腐蚀处理,并将所述腐蚀处理后的分层图像进行叠加处理,获取目标图像。
6.如权利要求5所述的汉字识别方法,其特征在于,所述对所述分层图像进行腐蚀处理,包括:
对所述分层图像进行二值化处理,获取分层二值化图像;
对所述分层二值化图像中的像素进行检测标记,获取所述分层二值化图像对应的连通区域;
对所述分层二值化图像对应的连通区域进行腐蚀处理。
7.一种手写字模型训练装置,其特征在于,包括:
训练样本获取模块,用于获取手写字训练样本,所述手写字训练样本包括手写字图像和与所述手写字图像关联的标签汉字;
训练样本处理模块,用于将所述手写字训练样本划分成训练集和测试集;
训练模型获取模块,用于将所述训练集输入到卷积循环神经网络模型中,获取卷积循环神经网络模型的前向输出,根据所述卷积循环神经网络模型的前向输出,采用基于批量梯度下降的反向传播算法更新所述卷积循环神经网络模型中的权值和偏置,获取手写字训练模型;
识别模型获取模块,用于将所述测试集输入到所述手写字训练模型中,获取每一手写字图像对应的识别汉字,基于所述识别汉字和所述标签汉字获取识别准确率,若所述识别准确率大于预设准确率,则确定所述手写字训练模型为手写字识别模型。
8.一种汉字识别装置,其特征在于,包括:
原始图像获取模块,用于获取原始图像,所述原始图像包括手写字和背景图像;
有效图像获取模块,用于对所述原始图像进行预处理,获取有效图像;
目标图像获取模块,用于采用核密度估计算法和腐蚀方法对所述有效图像进行处理,去除背景图像,获取包括所述手写字的目标图像;
单字体图像获取模块,用于采用垂直投影方法对所述目标图像进行单字体切割,获取单字体图像;
识别结果获取模块,用于将所述单字体图像输入到手写字识别模型中进行识别,获取所述单字体图像对应的识别结果,所述手写字识别模型是采用权利要求1或2所述手写字模型训练方法获取到的;
目标汉字确认模块,用于基于所述识别结果查询语义库,获取所述单字体图像对应的目标汉字。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1或2所述手写字模型训练方法的步骤,或者,所述处理器执行所述计算机程序时实现如权利要求3至6任一项所述汉字识别方法的步骤。
10.一种非易失性存储介质,所述非易失性存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1或2所述手写字模型训练方法的步骤,或者,所述计算机程序被处理器执行时实现如权利要求3至6任一项所述汉字识别方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810563511.2A CN109086652A (zh) | 2018-06-04 | 2018-06-04 | 手写字模型训练方法、汉字识别方法、装置、设备及介质 |
PCT/CN2018/094403 WO2019232872A1 (zh) | 2018-06-04 | 2018-07-04 | 手写字模型训练方法、汉字识别方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810563511.2A CN109086652A (zh) | 2018-06-04 | 2018-06-04 | 手写字模型训练方法、汉字识别方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109086652A true CN109086652A (zh) | 2018-12-25 |
Family
ID=64839309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810563511.2A Pending CN109086652A (zh) | 2018-06-04 | 2018-06-04 | 手写字模型训练方法、汉字识别方法、装置、设备及介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109086652A (zh) |
WO (1) | WO2019232872A1 (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110363086A (zh) * | 2019-06-11 | 2019-10-22 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 图数据识别方法、装置、计算机设备和存储介质 |
CN110363303A (zh) * | 2019-06-14 | 2019-10-22 | 平安科技(深圳)有限公司 | 智能分配模型训练内存方法、装置及计算机可读存储介质 |
CN110378372A (zh) * | 2019-06-11 | 2019-10-25 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 图数据识别方法、装置、计算机设备和存储介质 |
CN111414844A (zh) * | 2020-03-17 | 2020-07-14 | 北京航天自动控制研究所 | 一种基于卷积循环神经网络的集装箱箱号识别方法 |
CN111428715A (zh) * | 2020-03-26 | 2020-07-17 | 广州市南方人力资源评价中心有限公司 | 一种基于神经网络的文字识别方法 |
CN112434699A (zh) * | 2020-11-25 | 2021-03-02 | 杭州六品文化创意有限公司 | 手写汉字或偏旁、笔划的自动提取及智能评分*** |
CN112632979A (zh) * | 2020-12-31 | 2021-04-09 | 上海臣星软件技术有限公司 | 文字生成方法、装置、设备及介质 |
CN113176830A (zh) * | 2021-04-30 | 2021-07-27 | 北京百度网讯科技有限公司 | 识别模型训练、识别方法、装置、电子设备及存储介质 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414917B (zh) * | 2020-03-18 | 2023-05-12 | 民生科技有限责任公司 | 一种低像素密度文本的识别方法 |
CN113686031B (zh) * | 2020-05-19 | 2022-06-24 | 山东大学 | 一种基于机器学习的环路热管太阳能液位模式识别方法 |
CN112052852B (zh) * | 2020-09-09 | 2023-12-29 | 国家气象信息中心 | 一种基于深度学习的手写气象档案资料的字符识别方法 |
CN112364860B (zh) * | 2020-11-05 | 2024-06-25 | 北京字跳网络技术有限公司 | 字符识别模型的训练方法、装置和电子设备 |
CN113343814B (zh) * | 2021-05-31 | 2022-06-14 | 太原理工大学 | 一种基于单节点光子储备池计算的手写数字图像识别方法 |
CN115880782B (zh) * | 2023-02-16 | 2023-08-08 | 广州佰锐网络科技有限公司 | 基于ai的签字动作识别定位方法、识别训练方法及*** |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184226A (zh) * | 2015-08-11 | 2015-12-23 | 北京新晨阳光科技有限公司 | 数字识别方法和装置及神经网络训练方法和装置 |
CN107122809A (zh) * | 2017-04-24 | 2017-09-01 | 北京工业大学 | 基于图像自编码的神经网络特征学习方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5812697A (en) * | 1994-06-10 | 1998-09-22 | Nippon Steel Corporation | Method and apparatus for recognizing hand-written characters using a weighting dictionary |
CN104268541A (zh) * | 2014-09-15 | 2015-01-07 | 青岛高校信息产业有限公司 | 一种设备铭牌和能效标识的智能化图像识别方法 |
CN105139036B (zh) * | 2015-06-19 | 2018-10-19 | 四川大学 | 一种基于稀疏编码的手写体数字识别方法 |
CN107784316A (zh) * | 2016-08-26 | 2018-03-09 | 阿里巴巴集团控股有限公司 | 一种图像识别方法、装置、***和计算设备 |
CN107909564B (zh) * | 2017-10-23 | 2021-04-09 | 昆明理工大学 | 一种基于深度学习的全卷积网络图像裂纹检测方法 |
-
2018
- 2018-06-04 CN CN201810563511.2A patent/CN109086652A/zh active Pending
- 2018-07-04 WO PCT/CN2018/094403 patent/WO2019232872A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184226A (zh) * | 2015-08-11 | 2015-12-23 | 北京新晨阳光科技有限公司 | 数字识别方法和装置及神经网络训练方法和装置 |
CN107122809A (zh) * | 2017-04-24 | 2017-09-01 | 北京工业大学 | 基于图像自编码的神经网络特征学习方法 |
Non-Patent Citations (2)
Title |
---|
王岩: "离线手写体汉字鉴别及识别算法研究", 《中国博士学位论文全文数据库》 * |
蒲体信等: "《遥感技术在土地利用调查与监测中的应用》", 30 June 2005, pages: 116 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110363086A (zh) * | 2019-06-11 | 2019-10-22 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 图数据识别方法、装置、计算机设备和存储介质 |
CN110378372A (zh) * | 2019-06-11 | 2019-10-25 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 图数据识别方法、装置、计算机设备和存储介质 |
CN110363303A (zh) * | 2019-06-14 | 2019-10-22 | 平安科技(深圳)有限公司 | 智能分配模型训练内存方法、装置及计算机可读存储介质 |
WO2020248365A1 (zh) * | 2019-06-14 | 2020-12-17 | 平安科技(深圳)有限公司 | 智能分配模型训练内存方法、装置及计算机可读存储介质 |
CN110363303B (zh) * | 2019-06-14 | 2023-07-07 | 平安科技(深圳)有限公司 | 智能分配模型训练内存方法、装置及计算机可读存储介质 |
CN111414844A (zh) * | 2020-03-17 | 2020-07-14 | 北京航天自动控制研究所 | 一种基于卷积循环神经网络的集装箱箱号识别方法 |
CN111414844B (zh) * | 2020-03-17 | 2023-08-29 | 北京航天自动控制研究所 | 一种基于卷积循环神经网络的集装箱箱号识别方法 |
CN111428715A (zh) * | 2020-03-26 | 2020-07-17 | 广州市南方人力资源评价中心有限公司 | 一种基于神经网络的文字识别方法 |
CN112434699A (zh) * | 2020-11-25 | 2021-03-02 | 杭州六品文化创意有限公司 | 手写汉字或偏旁、笔划的自动提取及智能评分*** |
CN112632979A (zh) * | 2020-12-31 | 2021-04-09 | 上海臣星软件技术有限公司 | 文字生成方法、装置、设备及介质 |
CN113176830A (zh) * | 2021-04-30 | 2021-07-27 | 北京百度网讯科技有限公司 | 识别模型训练、识别方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2019232872A1 (zh) | 2019-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109086652A (zh) | 手写字模型训练方法、汉字识别方法、装置、设备及介质 | |
CN108710866A (zh) | 汉字模型训练方法、汉字识别方法、装置、设备及介质 | |
CN108921031A (zh) | 汉字模型训练方法、手写字识别方法、装置、设备及介质 | |
CN106407986B (zh) | 一种基于深度模型的合成孔径雷达图像目标识别方法 | |
CN106023220B (zh) | 一种基于深度学习的车辆外观部件图像分割方法 | |
CN109492643A (zh) | 基于ocr的证件识别方法、装置、计算机设备及存储介质 | |
CN108764195A (zh) | 手写模型训练方法、手写字识别方法、装置、设备及介质 | |
CN109063720A (zh) | 手写字训练样本获取方法、装置、计算机设备及存储介质 | |
CN109241904A (zh) | 文字识别模型训练、文字识别方法、装置、设备及介质 | |
CN108182454A (zh) | 安检识别***及其控制方法 | |
CN108052523A (zh) | 基于卷积神经网络的赌博网站识别方法和*** | |
CN109886238A (zh) | 基于语义分割的无人机航拍图像变化检测算法 | |
CN109063706A (zh) | 文字模型训练方法、文字识别方法、装置、设备及介质 | |
CN110827260B (zh) | 一种基于lbp特征与卷积神经网络的布匹缺陷分类方法 | |
CN109543526A (zh) | 基于深度差异性特征的真假面瘫识别*** | |
CN107145885A (zh) | 一种基于卷积神经网络的单字图文字识别方法及装置 | |
CN109657582A (zh) | 人脸情绪的识别方法、装置、计算机设备及存储介质 | |
CN107609575A (zh) | 书法评价方法、书法评价装置和电子设备 | |
CN110490232A (zh) | 训练文字行方向预测模型的方法、装置、设备、介质 | |
CN109886153A (zh) | 一种基于深度卷积神经网络的实时人脸检测方法 | |
CN111339902B (zh) | 一种数显仪表的液晶屏示数识别方法及装置 | |
CN109033953A (zh) | 多任务学习深度网络的训练方法、设备及存储介质 | |
CN109086653A (zh) | 手写模型训练方法、手写字识别方法、装置、设备及介质 | |
CN108932712A (zh) | 一种转子绕组质量检测***及方法 | |
CN109635653A (zh) | 一种植物识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |