CN110210468B - 一种基于卷积神经网络特征融合迁移的文字识别方法 - Google Patents
一种基于卷积神经网络特征融合迁移的文字识别方法 Download PDFInfo
- Publication number
- CN110210468B CN110210468B CN201910459252.3A CN201910459252A CN110210468B CN 110210468 B CN110210468 B CN 110210468B CN 201910459252 A CN201910459252 A CN 201910459252A CN 110210468 B CN110210468 B CN 110210468B
- Authority
- CN
- China
- Prior art keywords
- convolution
- layer
- feature
- neural network
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 49
- 238000013508 migration Methods 0.000 title claims abstract description 28
- 230000005012 migration Effects 0.000 title claims abstract description 28
- 230000004927 fusion Effects 0.000 title claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 33
- 230000008569 process Effects 0.000 claims abstract description 22
- 238000003062 neural network model Methods 0.000 claims abstract description 16
- 238000010276 construction Methods 0.000 claims abstract description 6
- 238000010606 normalization Methods 0.000 claims description 17
- 238000011176 pooling Methods 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 10
- 230000009191 jumping Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 5
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims description 2
- 230000008014 freezing Effects 0.000 claims 1
- 238000007710 freezing Methods 0.000 claims 1
- 230000003044 adaptive effect Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- 238000007499 fusion processing Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于卷积神经网络特征融合迁移的文字识别方法,包括:构建源卷积特征提取器、训练源卷积特征提取器、构建基于源卷积特征提取器的目标卷积神经网络模型、训练目标卷积神经网络模型和输入图片进行文字识别。本发明通过分析卷积神经网络模型的特点提出了一种新的特征迁移方法,使得源特征生成器结构和目标网络结构可以灵活地进行定义,从而在文字图像识别应用中更具备鲁棒,解决了传统卷积网络特征迁移方法在特征迁移的网络模型构建过程中缺乏灵活性的问题。
Description
技术领域
本发明涉及图像识别领域,尤其涉及一种基于卷积神经网络特征迁移的文字识别方法。
背景技术
现如今在各种互联网应用中,图片是信息传递的重要载体,特别是在社交领域、媒体领域和电子商务领域等应用中,每天都会产生和传播亿兆级别的图像,很多图像都包括了文字信息而将图片中的文字信息识别成具体的文字编码被称为图片文字识别(OCR)。图片文字识别对商业领域和工业领域自动化具有一定的应用价值,是打通线上和线下数据信息化通道的重要手段,也是如今学术界关注的热点之一。
文字识别对于书面文本数字化应用具有重要意义,比如在报纸、书籍和票据等的数字化应用上:保险、金融和快递等行业通常有大量单据,只有对这些单据进行数字化后才能方便存储、检索和分析;现如今司法界正在推行智能法务,对于办案过程中产生的手写的文书常常需要数字化存储;医疗领域里的医生手稿和教育领域里的作业题、考试答卷等都具有数字化存储的需求。文字识别问题上的难点在于处理图像模糊和光照等变化因素,通常平板扫描仪获取的扫描图片清晰较高,对其进行文字识别具有较高的准确率。而对于手机等设备拍摄的图片,由于光照的变化,文字识别率则会降低。对室外自然场景图片中的文字进行检测和识别,由于可变因素太多和带标注的数据量有限,其仍是当今研究的热点和难点问题。
现如今文字识别的主流方法是基于深度卷积神经网络的图像识别方法,深度卷积神经网络在图像识别领域逐渐显现出巨大优势,在近几年里的微软COCO图像描述竞赛和ImageNet图像识别大赛里,使用深度卷积神经网络的机器学习方法占据统治地位,而其他传统机器学习算法逐渐被边缘化。深度卷积神经网络在上述比赛中能够取得成功的原因在于超大规模的数据量,其图像样本采集自互联网上与生活相关的类别事物,样本数量巨大并且由专门的团队进行标注维护。然而对于特定的领域,比如室外室外自然场景图片中的文字进行检测和识别,其带标注的数据规模比较小,无法支持训练一个高性能的复杂卷积神经网络模型。对于这种情况,基于卷积特征迁移的方法提供了一种解决问题的新思路,借助其他领域的知识来提升性能,比如:可以在其它数据量充足的文字识别领域(源领域)训练源卷积特征提取器,然后把它的输出作为当前文字识别领域(目标领域)的目标卷积神经网络的辅助特征。目前已有的基于卷积神经网络特征迁移的方法分为两种:
(1)第一种方式的架构如图1所示,这种方法采用将源特征生成器的最后一层特征向量作为目标域卷积神经网络在分类层的辅助输入,使用这种特征输入方式可以让特征生成器和目标网络模型在底层相互独立,这样两者的层次数都是可变的并且互不影响,从而可以灵活的设计网络模型,但缺点是只能迁移特征生成器在分类层产生的特征语义信息而无法迁移底层的卷积语义信息
(2)第二种方式的架构如图2所示,这种方法采用侧连的输入方式,在目标网络的各个卷积层拼接上源特征生成器对应层次的卷积特征图,这样可以迁移源特征生成器在各个卷积层提取的语义特征信息,但这种方法存在缺点:使用这个特征输入方式的架构要求目标卷积模型和源特征生成器有相同的卷积层次,无法灵活的设计网络结构。
因此,需要一种基于卷积神经网络特征融合迁移的文字识别方法,使得源特征生成器结构和目标网络结构可以灵活地进行定义,从而在文字图像识别应用中更具备鲁棒。
发明内容
为了解决上述问题,本发明提出一种基于卷积神经网络特征融合迁移的文字识别方法。
一种基于卷积神经网络特征融合迁移的文字识别方法,包括:构建源卷积特征提取器Gs、训练源卷积特征提取器Gs、构建基于源卷积特征提取器的目标卷积神经网络模型Mt、训练目标卷积神经网络模型Mt和输入图片进行文字识别;
所述构建源卷积特征提取器Gs,是对源领域中的文字图片样本进行预测;
所述训练源卷积特征提取器Gs,是利用数据量充足的源领域的文字图片样本并基于批量梯度下降算法对源卷积特征提取器的参数进行学习优化;
所述构建基于源卷积特征提取器的目标卷积神经网络模型Mt,是对目标领域文字图片样本进行预测,其中目标卷积神经网络模型的输入包括目标域图片样本的特征和源源卷积特征提取器提供的辅助特征;
所述训练目标卷积神经网络模型Mt,是利用数据量有限的目标领域的文字图片样本并基于批量梯度下降算法对目标卷积神经网络模型的参数进行学习优化。
进一步的,一种基于卷积神经网络特征融合迁移的文字识别方法,所述构建源卷积特征提取器Gs采用以下步骤:
S11:构建5个卷积模块,每个卷积模块的构建过程为:顺序依次构建卷积层,batchnormalization层,relu非线性激活层、卷积层,batch normalization层,relu非线性激活层,max池化层;
S12:构建分类层模块Classifier,其过程为:顺序依次构建第一全连接层,batchnormalization层,relu非线性激活层,第二全连接层,batch normalization层,relu非线性激活层,第三全连接层,软最大化softmax层。
进一步的,一种基于卷积神经网络特征融合迁移的文字识别方法,所述卷积层的卷积核大小为3*3,输出特征图数分别为64、128、256、512、512,max池化层的池化核大小为2*2;所述第一全连接层和第二全连接层的输出特征数为4096,第三全连接层的输出特征数为C,其中C为待分类的图片类别数。
进一步的,一种基于卷积神经网络特征融合迁移的文字识别方法,所述训练源卷积特征提取器Gs包括以下步骤:
S21:对Gs的参数进行随机初始化;
S22:随机从源领域训练数据集中采用一批次样本记作(Xs,Ys),并对Xs进行归一化和标准化处理;
S23:顺序经过源卷积特征提取器Gs中的5个卷积模块及分类层模块,进行前向传播,将结果记作:Gs(Xs),并保留Gs里各层计算的中间结果;
S24:使用交叉熵准则计算代价,计算方式如下:
其中1{·}是表示性函数,其运算规则为1{表达式的值等于真}=1,1{表达式的值等于假}=0;G(Xi)j表示样本Xi被输入到Gs后得到的属于类别j的概率值;
S25:对源卷积特征提取器Gs进行反向传播:根据步骤S23中保存的各层计算的中间结果,计算代价对各层参数的导数值并使用梯度下降算法对其进行更新优化;
S26:判断Gs是否达到最优,是则保存最优模型,否则跳到步骤S22。
进一步的,一种基于卷积神经网络特征融合迁移的文字识别方法,所述构建基于源卷积特征提取器的目标卷积神经网络模型Mt包括以下步骤:
S31:为数据量有限的目标领域构建一个目标卷积神经网络;
S32:对源特征生成器各层的卷积特征图进行转换,最后将转换的结果特征图作为辅助特征输入目标卷积神经网络,其中对源特征生成器各层的卷积特征图进行转换的过程见步骤S32、S33和S34。
进一步的,一种基于卷积神经网络特征融合迁移的文字识别方法,所述对源特征生成器各层的卷积特征图进行转换包括如下子步骤:
S321:首先对源特征生成器中的每一个卷积特征图逐一进行一次卷积运算,将这次的卷积操作的输出通道数统一用一个超参数ω进行设置;
S322:将步骤S321得到的卷积特征图按照从底层到高层的顺序进行处理,首先对隶属于同一个卷积模块的输出卷积特征图进行一次加性融合,然后对融合后的卷积特征图执行一次输出通道数为τ的卷积操作;
S323:将得到的所有通道数为τ的特征图视作一个特征集合,然后将特征集合输入到目标卷积网络的每一个卷积层,在输入的时候,会根据目标网络中卷积层的输入特征图大小,将特征集合中每一个特征图进行采样变换到相应的大小,并在每一个目标层为特征集合生成新的卷积参数,最后将此特征集合和相应卷积层原生的输入特征图融合成一个完整的多通道特征图并进行相应的卷积操作。
进一步的,一种基于卷积神经网络特征融合迁移的文字识别方法,所述训练目标卷积神经网络模型Mt采用以下步骤:
S41:对目标卷积神经网络模型Mt的参数进行随机初始化;对源卷积特征提取器Gs的参数使用在源领域中训练的最优模型参数进行初始化并且将其冻结,使其不参与目标域训练过程中的参数更新优化。
S42:随机从目标领域训练数据集中采用一小批次样本记作(Xt,Yt),并对Xt进行归一化和标准化处理。
S43:对目标卷积神经网络模型Mt进行前向传播,将结果记作:Mt(Xt),并保留Mt里各层计算的中间结果。
S44:使用交叉熵准则计算代价,计算方式如下:
其中1{·}是表示性函数,其运算规则为1{表达式的值等于真}=1,1{表达式的值等于假}=0;Mt(Xi)j表示样本Xi被输入到Mt后得到的属于类别j的概率值。
S45:对目标卷积神经网络模型Mt进行反向传播:根据步骤S43中保存的各层计算的中间结果,计算代价对各层参数的导数值并使用梯度下降算法对其进行更新优化。
S46:判断Mt是否达到最优,是则保存最优模型,否则跳到步骤S42。
本发明的有益效果在于:解决了传统卷积网络特征迁移方法在特征迁移的网络模型构建过程中缺乏灵活性的问题,本发明通过分析卷积神经网络模型的特点提出了一种新的特征迁移方法,使得源特征生成器结构和目标网络结构可以灵活地进行定义,从而在文字图像识别应用中更具备鲁棒。
附图说明
图1为传统的基于分类层的特征迁移方式;
图2为传统的卷积特征迁移方式;
图3为基于卷积神经网络特征融合的特征迁移;
图4为特征融合过程的具体结构;
图5为特征自适应输入结构;
图6为本发明的流程示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。
本实施例中,假设训练模型时采用的是交叉熵分类准则,但本发明不限于交叉熵分类准则。
如图3所示,一种基于卷积神经网络特征融合迁移的文字识别方法,包括:构建源卷积特征提取器Gs、训练源卷积特征提取器Gs、构建基于源卷积特征提取器的目标卷积神经网络模型Mt和训练目标卷积神经网络模型Mt。图4和图5分别展示了基于源卷积特征提取器所构建的目标卷积神经网络模型Mt的特征融合过程(CONV Layer#1,CONV Layer#2,Σ)和特征自适应输入(Adaptive Training Input)。
所述构建源卷积特征提取器Gs,用于对源领域中的文字图片样本进行预测。
所述训练源卷积特征提取器Gs,用于利用数据量充足的源领域的文字图片样本并基于批量梯度下降算法对源卷积特征提取器的参数进行学习优化。
所述构建基于源卷积特征提取器的目标卷积神经网络模型Mt,用于对目标领域文字图片样本进行预测,其中目标卷积神经网络模型的输入包括目标域图片样本的特征和源源卷积特征提取器提供的辅助特征。
所述训练目标卷积神经网络模型Mt,用于利用数据量有限的目标领域的文字图片样本并基于批量梯度下降算法对目标卷积神经网络模型的参数进行学习优化。
优选的,所述构建源卷积特征提取器采用以下步骤:
A1:构建卷积模块COVN Module#1,其过程为:顺序依次构建卷积层(卷积核大小:3*3,输出特征图数:64),batch normalization层,relu非线性激活层、卷积层(卷积核大小:3*3,输出特征图数:64),batch normalization层,relu非线性激活层,max池化层(池化核大小:2*2)。
A2:构建卷积模块COVN Module#2,其过程为:顺序依次构建卷积层(卷积核大小:3*3,输出特征图数:128),batch normalization层,relu非线性激活层,卷积层(卷积核大小:3*3,输出特征图数:128),batch normalization层,relu非线性激活层,max池化层(池化核大小:2*2)。
A3:构建卷积模块COVN Module#3,其过程为:顺序依次构建卷积层(卷积核大小:3*3,输出特征图数:256),batch normalization层,relu非线性激活层,卷积层(卷积核大小:3*3,输出特征图数:256),batch normalization层,relu非线性激活层,卷积层(卷积核大小:3*3,输出特征图数:256),batch normalization层,relu非线性激活层,max池化层(池化核大小:2*2)。
A4:构建卷积模块COVN Module#4,其过程为:顺序依次构建卷积层(卷积核大小:3*3,输出特征图数:512),batch normalization层,relu非线性激活层,卷积层(卷积核大小:3*3,输出特征图数:512),batch normalization层,relu非线性激活层,卷积层(卷积核大小:3*3,输出特征图数:512),batch normalization层,relu非线性激活层,max池化层(池化核大小:2*2)。
A5:构建卷积模块COVN Module#5,其过程为:顺序依次构建卷积层(卷积核大小:3*3,输出特征图数:512),batch normalization层,relu非线性激活层,卷积层(卷积核大小:3*3,输出特征图数:512),batch normalization层,relu非线性激活层,卷积层(卷积核大小:3*3,输出特征图数:512),batch normalization层,relu非线性激活层,max池化层(池化核大小:2*2)。
A6:构建分类层模块Classifier,其过程为:顺序依次构建全连接层(输出特征数为4096),batch normalization层,relu非线性激活层,全连接层(输出特征数为4096),batch normalization层,relu非线性激活层,全连接层(输出特征数为c,其中c待分类的图片类别数),软最大化softmax层,(这里假设文字图片满足每张图片对应一个文字,可以使用交叉熵分类准则进行训练,但是可以将分类层替换成其他分类准则所需要的结构)。
所述训练源卷积特征提取器采用以下步骤:
B1:随机从源领域训练数据集中采用一小批次样本记作(Xs,Ys),并对Xs进行归一化和标准化处理。
B2:对源卷积特征提取器Gs进行前向传播(顺序经过卷积模块COVN Module #1、卷积模块COVN Module #2,卷积模块COVN Module #3,卷积模块COVN Module #4,卷积模块COVNModule #5和分类层模块Classifier),将结果记作:Gs(Xs),并保留Gs里各层计算的中间结果。
B3:使用交叉熵准则计算代价,计算方式如下:
其中1{·}是表示性函数,其运算规则为1{表达式的值等于真}=1,1{表达式的值等于假}=0;G(Xi)j表示样本Xi被输入到Gs后得到的属于类别j的概率值。
B4:对源卷积特征提取器Gs进行反向传播:根据步骤B2中保存的各层计算的中间结果,计算代价对各层参数的导数值并使用梯度下降算法对其进行更新优化,更新方式如下:
θt=θt-1-vt
其中θ和θt分别表示模型的任意一个参数和在优化过程中第t次迭代后的相应参数值;vt是第t次迭代的动量;表示模型的代价函数cost对参数θ的导数函数在θt-1这个点的函数值;γ表示动量项衰减超参数,被设置为0.9;ε为梯度下降算法的学习率,被设置成2e-4。
B5:判断Gs是否达到最优,是则保存最优模型,否则跳到步骤B1。
所述构建基于源卷积特征提取器的目标卷积神经网络模型Mt采用以下步骤:
C0:首先为数据量有限的目标领域构建一个精心设计的目标卷积神经网络,然后对源特征生成器各层的卷积特征图进行转换,最后将转换的结果特征图作为辅助特征输入目标卷积神经网络,其中对源特征生成器各层的卷积特征图进行转换的过程见步骤C1、C2和C3。
C1:首先对源特征生成器中的每一个卷积特征图逐一进行一次卷积运算(记作CONV Layer #1),这里为了应对复杂的源特征生成器结构,将卷积操作的输出通道数统ω设置成21。
C2:将步骤C1得到的卷积特征图按照从底层到高层的顺序进行处理,首先对隶属于同一个卷积模块(COVN Module#i,i=1,…,4)的输出卷积特征图进行一次加性融合(记作Σ),然后对融合后的卷积特征图执行一次输出通道数为τ的卷积操作(记作CONV Layer#2),其中τ被设置成1。
C3:将前面得到的所有通道数为τ的特征图视作一个特征集合(Feature Set),然后将特征集合输入到目标卷积网络的每一个卷积层。在输入的时候,会根据目标网络中卷积层的输入特征图大小,将特征集合中每一个特征图进行采样变换到相应的大小,并在每一个目标层为Feature Set生成新的卷积参数,最后将此特征集合和相应卷积层原生的输入特征图融合成一个完整的多通道特征图并进行相应的卷积操作,我们将这个步骤记作:AdaptiveTraining Input,图5展示了这种自适应输入的结构。
训练目标卷积神经网络模型Mt采用以下步骤:
D0:对Mt的参数进行随机初始化,随机初始化参数采用的方法为从区间均匀随机取值,其中d是当前层神经元的输入数量;对源卷积特征提取器Gs的参数使用在源领域中训练的最优模型参数进行初始化并且将其冻结,使其不参与目标域训练过程中的参数更新优化。
D1:随机从目标领域训练数据集中采用一小批次样本记作(Xt,Yt),并对Xt进行归一化和标准化处理。
D2:对目标卷积神经网络模型Mt进行前向传播,将结果记作:Mt(Xt),并保留Mt里各层计算的中间结果。
D3:使用交叉熵准则计算代价,计算方式如下:
其中1{·}是表示性函数,其运算规则为1{表达式的值等于真}=1,1{表达式的值等于假}=0;Mt(Xi)j表示样本Xi被输入到Mt后得到的属于类别j的概率值。
D4:对目标卷积神经网络模型Mt进行反向传播:根据步骤D2中保存的各层计算的中间结果,计算代价对各层参数的导数值并使用梯度下降算法对其进行更新优化,更新方式如下:
θt=θt-1-vt
其中θ和θt分别表示模型的任意一个参数和在优化过程中第t次迭代后的相应参数值;vt是第t次迭代的动量;表示模型的代价函数cost对参数θ的导数函数在θt-1这个点的函数值;γ表示动量项衰减超参数,被设置为0.9;ε为梯度下降算法的学习率,被设置成2e-4。
D5:判断Mt是否达到最优,是则保存最优模型,否则跳到步骤D1。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和单元并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、ROM、RAM等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (5)
1.一种基于卷积神经网络特征融合迁移的文字识别方法,其特征在于包括:构建源卷积特征提取器Gs、训练源卷积特征提取器Gs、构建基于源卷积特征提取器的目标卷积神经网络模型Mt、训练目标卷积神经网络模型Mt和输入图片进行文字识别;
所述构建源卷积特征提取器Gs,是对源领域中的文字图片样本进行预测;
所述训练源卷积特征提取器Gs,是利用数据量充足的源领域的文字图片样本并基于批量梯度下降算法对源卷积特征提取器的参数进行学习优化;
所述构建基于源卷积特征提取器的目标卷积神经网络模型Mt,是对目标领域文字图片样本进行预测,其中目标卷积神经网络模型的输入包括目标域图片样本的特征和源卷积特征提取器提供的辅助特征;
所述构建基于源卷积特征提取器的目标卷积神经网络模型Mt包括以下步骤:
S31:为数据量有限的目标领域构建一个目标卷积神经网络;
S32:对源特征生成器各层的卷积特征图进行转换,最后将转换的结果特征图作为辅助特征输入目标卷积神经网络,其中对源特征生成器各层的卷积特征图进行转换的过程包括如下子步骤:
S321:首先对源特征生成器中的每一个卷积特征图逐一进行一次卷积运算,将这次的卷积操作的输出通道数统一用一个超参数ω进行设置;
S322:将步骤S321得到的卷积特征图按照从底层到高层的顺序进行处理,首先对隶属于同一个卷积模块的输出卷积特征图进行一次加性融合,然后对融合后的卷积特征图执行一次输出通道数为τ的卷积操作;
S323:将得到的所有通道数为τ的特征图视作一个特征集合,然后将特征集合输入到目标卷积网络的每一个卷积层,在输入的时候,会根据目标网络中卷积层的输入特征图大小,将特征集合中每一个特征图进行采样变换到相应的大小,并在每一个目标层为特征集合生成新的卷积参数,最后将此特征集合和相应卷积层原生的输入特征图融合成一个完整的多通道特征图并进行相应的卷积操作;
所述训练目标卷积神经网络模型Mt,是利用数据量有限的目标领域的文字图片样本并基于批量梯度下降算法对目标卷积神经网络模型的参数进行学习优化。
2.根据权利要求1所述的一种基于卷积神经网络特征融合迁移的文字识别方法,其特征在于,所述构建源卷积特征提取器Gs采用以下步骤:
S11:构建5个卷积模块,每个卷积模块的构建过程为:顺序依次构建卷积层,batchnormalization层,relu非线性激活层、卷积层,batch normalization层,relu非线性激活层,max池化层;
S12:构建分类层模块Classifier,其过程为:顺序依次构建第一全连接层,batchnormalization层,relu非线性激活层,第二全连接层,batch normalization层,relu非线性激活层,第三全连接层,软最大化softmax层。
3.根据权利要求2所述的一种基于卷积神经网络特征融合迁移的文字识别方法,其特征在于,所述卷积层的卷积核大小为3*3,输出特征图数分别为64、128、256、512、512,max池化层的池化核大小为2*2;所述第一全连接层和第二全连接层的输出特征数为4096,第三全连接层的输出特征数为C,其中C为待分类的图片类别数。
4.根据权利要求1所述的一种基于卷积神经网络特征融合迁移的文字识别方法,其特征在于,所述训练源卷积特征提取器Gs包括以下步骤:
S21:对Gs的参数进行随机初始化;
S22:随机从源领域训练数据集中采用一批次样本记作(Xs,Ys),并对Xs进行归一化和标准化处理;
S23:顺序经过源卷积特征提取器Gs中的5个卷积模块及分类层模块,进行前向传播,将结果记作:Gs(Xs),并保留Gs里各层计算的中间结果;
S24:使用交叉熵准则计算代价,计算方式如下:
其中1{·}是表示性函数,其运算规则为1{表达式的值等于真}=1,1{表达式的值等于假}=0;G(Xi)j表示样本Xi被输入到Gs后得到的属于类别j的概率值;
S25:对源卷积特征提取器Gs进行反向传播:根据步骤S23中保存的各层计算的中间结果,计算代价对各层参数的导数值并使用梯度下降算法对其进行更新优化;
S26:判断Gs是否达到最优,是则保存最优模型,否则跳到步骤S22。
5.根据权利要求1所述的一种基于卷积神经网络特征融合迁移的文字识别方法,其特征在于,所述训练目标卷积神经网络模型Mt采用以下步骤:
S41:对目标卷积神经网络模型Mt的参数进行随机初始化;对源卷积特征提取器Gs的参数使用在源领域中训练的最优模型参数进行初始化并且将其冻结,使其不参与目标域训练过程中的参数更新优化;
S42:随机从目标领域训练数据集中采用一小批次样本记作(Xt,Yt),并对Xt进行归一化和标准化处理;
S43:对目标卷积神经网络模型Mt进行前向传播,将结果记作:Mt(Xt),并保留Mt里各层计算的中间结果;
S44:使用交叉熵准则计算代价,计算方式如下:
其中1{·}是表示性函数,其运算规则为1{表达式的值等于真}=1,1{表达式的值等于假}=0;
Mt(Xi)j表示样本Xi被输入到Mt后得到的属于类别j的概率值;
S45:对目标卷积神经网络模型Mt进行反向传播:根据步骤S43中保存的各层计算的中间结果,计算代价对各层参数的导数值并使用梯度下降算法对其进行更新优化;
S46:判断Mt是否达到最优,是则保存最优模型,否则跳到步骤S42。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910459252.3A CN110210468B (zh) | 2019-05-29 | 2019-05-29 | 一种基于卷积神经网络特征融合迁移的文字识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910459252.3A CN110210468B (zh) | 2019-05-29 | 2019-05-29 | 一种基于卷积神经网络特征融合迁移的文字识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110210468A CN110210468A (zh) | 2019-09-06 |
CN110210468B true CN110210468B (zh) | 2022-12-16 |
Family
ID=67789322
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910459252.3A Expired - Fee Related CN110210468B (zh) | 2019-05-29 | 2019-05-29 | 一种基于卷积神经网络特征融合迁移的文字识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110210468B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674648B (zh) * | 2019-09-29 | 2021-04-27 | 厦门大学 | 基于迭代式双向迁移的神经网络机器翻译模型 |
CN111259880B (zh) * | 2020-01-09 | 2022-11-18 | 国网浙江省电力有限公司舟山供电公司 | 一种基于卷积神经网络的电力操作票文字识别方法 |
CN111932445B (zh) * | 2020-07-27 | 2024-07-16 | 广州市百果园信息技术有限公司 | 对风格迁移网络的压缩方法及风格迁移方法、装置和*** |
CN112560861B (zh) * | 2020-12-10 | 2022-11-18 | 上海亿保健康管理有限公司 | 票据处理方法、装置、设备及存储介质 |
CN112507995B (zh) * | 2021-02-05 | 2021-06-01 | 成都东方天呈智能科技有限公司 | 一种跨模型人脸特征向量的转换***及方法 |
CN113191944B (zh) * | 2021-05-31 | 2023-11-07 | 大连民族大学 | 一种多通道图像内容特征融合风格迁移方法及*** |
CN115968087A (zh) * | 2023-03-16 | 2023-04-14 | 中建八局发展建设有限公司 | 一种会展中心交互式灯光控制装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830242A (zh) * | 2018-06-22 | 2018-11-16 | 北京航空航天大学 | 基于卷积神经网络的sar图像海洋目标分类检测方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069472B (zh) * | 2015-08-03 | 2018-07-27 | 电子科技大学 | 一种基于卷积神经网络自适应的车辆检测方法 |
US10796135B2 (en) * | 2017-09-28 | 2020-10-06 | Nec Corporation | Long-tail large scale face recognition by non-linear feature level domain adaptation |
CN107909566A (zh) * | 2017-10-28 | 2018-04-13 | 杭州电子科技大学 | 一种基于深度学习的皮肤癌黑色素瘤的图像识别方法 |
CN108182427B (zh) * | 2018-01-30 | 2021-12-14 | 电子科技大学 | 一种基于深度学习模型和迁移学习的人脸识别方法 |
CN108597539B (zh) * | 2018-02-09 | 2021-09-03 | 桂林电子科技大学 | 基于参数迁移和语谱图的语音情感识别方法 |
CN109086723B (zh) * | 2018-08-07 | 2022-03-25 | 广东工业大学 | 一种基于迁移学习的人脸检测的方法、装置以及设备 |
-
2019
- 2019-05-29 CN CN201910459252.3A patent/CN110210468B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830242A (zh) * | 2018-06-22 | 2018-11-16 | 北京航空航天大学 | 基于卷积神经网络的sar图像海洋目标分类检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110210468A (zh) | 2019-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110210468B (zh) | 一种基于卷积神经网络特征融合迁移的文字识别方法 | |
US11250255B2 (en) | Systems and methods for generating and using semantic images in deep learning for classification and data extraction | |
CN112084327B (zh) | 在保留语义的同时对稀疏标注的文本文档的分类 | |
CN111126386B (zh) | 场景文本识别中基于对抗学习的序列领域适应方法 | |
CN105631479B (zh) | 基于非平衡学习的深度卷积网络图像标注方法及装置 | |
US11481605B2 (en) | 2D document extractor | |
RU2707147C1 (ru) | Обучение нейронной сети посредством специализированных функций потерь | |
CN113344206A (zh) | 融合通道与关系特征学习的知识蒸馏方法、装置及设备 | |
CN111476315A (zh) | 一种基于统计相关性与图卷积技术的图像多标签识别方法 | |
CN111832573B (zh) | 一种基于类激活映射和视觉显著性的图像情感分类方法 | |
CN111581368A (zh) | 一种基于卷积神经网络的面向智能专家推荐的用户画像方法 | |
Sharma et al. | Deep eigen space based ASL recognition system | |
Hossain et al. | Recognition and solution for handwritten equation using convolutional neural network | |
Ayyar et al. | Review of white box methods for explanations of convolutional neural networks in image classification tasks | |
Bose et al. | Light weight structure texture feature analysis for character recognition using progressive stochastic learning algorithm | |
CN116258990A (zh) | 一种基于跨模态亲和力的小样本参考视频目标分割方法 | |
Parameshachari et al. | Comparative Analysis of Handwritten Text Recognition using CNN and SVM | |
CN111522979B (zh) | 图片排序推荐方法、装置、电子设备、存储介质 | |
Zhao et al. | Domain adaptation with feature and label adversarial networks | |
Jiang et al. | Multilingual interoperation in cross-country industry 4.0 system for one belt and one road | |
Gnjatović et al. | Putting humans back in the loop: a study in human-machine cooperative learning | |
CN115862015A (zh) | 文字识别***的训练方法及装置、文字识别方法及装置 | |
Kanungo | Analysis of Image Classification Deep Learning Algorithm | |
RU2703270C1 (ru) | Оптическое распознавание символов посредством применения специализированных функций уверенности, реализуемое на базе нейронных сетей | |
WO2022177581A1 (en) | Improved two-stage machine learning for imbalanced datasets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20221216 |