CN109977950A - 一种基于混合cnn-lstm网络的文字识别方法 - Google Patents

一种基于混合cnn-lstm网络的文字识别方法 Download PDF

Info

Publication number
CN109977950A
CN109977950A CN201910222217.XA CN201910222217A CN109977950A CN 109977950 A CN109977950 A CN 109977950A CN 201910222217 A CN201910222217 A CN 201910222217A CN 109977950 A CN109977950 A CN 109977950A
Authority
CN
China
Prior art keywords
convolution
cnn
picture
text
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910222217.XA
Other languages
English (en)
Inventor
袁三男
沈兆轩
刘虹
孙哲
刘志超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai University of Electric Power
University of Shanghai for Science and Technology
Original Assignee
Shanghai University of Electric Power
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai University of Electric Power filed Critical Shanghai University of Electric Power
Priority to CN201910222217.XA priority Critical patent/CN109977950A/zh
Publication of CN109977950A publication Critical patent/CN109977950A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及一种基于混合CNN‑LSTM网络的文字识别方法,包括步骤:1)获取包含文本的图片,将图片灰度化、归一化;2)将图片分为训练样本和测试样本两部分,将训练样本图片对应的文本根据字典转码成二值向量序列作为标签;3)将处理过的训练样本的图片与标签输入混合CNN‑LSTM网络中进行数据训练,获取识别模型;4)将处理后的图像和标签输入识别模型,输出特征矩阵;5)将特征矩阵采用梯度下降法进行CTC_loss计算,获取损失函数结果;6)重复1)~3),直至损失函数结果最小,获取其对应的文本标签序列作为预测数据;7)将预测数据根据字典再次反转码得到文本,获取文字识别结果。与现有技术相比,本发明具有简化运算、增强识别效果等优点。

Description

一种基于混合CNN-LSTM网络的文字识别方法
技术领域
本发明涉及深度学习领域和文字识别领域,尤其是涉及一种基于混合CNN-LSTM网络的文字识别方法。
背景技术
近年来随着深度学习领域飞速发展,其在语音识别、文字识别等多个领域取得了优异的成果。现有技术中较为流行的用于文本识别和语音识别的神经网络设计方法通常层数较浅,无法更好的提取高维特征,导致识别效果较差,且使用基于深度学习的神经网络结构的运算过程通常需要巨量的运算资源,不利于移动端的开发。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于混合CNN-LSTM网络的文字识别方法。
本发明的目的可以通过以下技术方案来实现:
一种基于混合CNN-LSTM网络的文字识别方法,该方法包括下列步骤:
S1:获取包含文本的图片,将图片灰度化、归一化;
S2:将图片分为训练样本和测试样本两部分,并将训练样本图片对应的文本根据字典转码成二值向量序列作为标签;
S3:将步骤S2中处理过的训练样本的图片与标签输入混合CNN-LSTM网络中进行数据训练,训练完成后获取识别模型;
混合CNN-LSTM网络为包含卷积神经网络和卷积LSTM(Long Short-Term Memory,长短期记忆)网络的深度结构的神经网络,卷积神经网络用以提取高维特征,卷积LSTM网络用以将提取到的高维特征继续通过卷积来提取特征和长期信息。其中,卷积LSTM网络为卷积长短期循环网络与旁路所构成的神经网络结构。
混合CNN-LSTM网络的具体结构包括依次设置的卷积块、轻量块、轻量块、卷积长短期块、轻量块、卷积块、卷积长短期块、卷积块、轻量块、卷积块。所述的轻量块为宽卷积、深度可分离卷积、逐点卷积连接形成的轻量化结构。
S4:将步骤S1、S2处理后的图像和标签输入步骤S3中的识别模型,输出特征矩阵;
S5:将步骤S4中的特征矩阵采用梯度下降法进行CTC_loss(ConnectionistTemporal Classification loss,联结主义时间分类损失)计算,获取损失函数结果;优选地,采用Adma梯度下降算法进行CTC_loss计算,获取损失函数结果。
S6:重复步骤S1至步骤S3,直至步骤S5中的损失函数结果最小,获取的最小的损失函数对应的文本标签序列作为预测数据;预测数据为0,1二值矩阵,矩阵中1的位置为字典中文字的位置。
S7:将预测数据根据字典再次反转码得到文本,获取测试样本的文字识别结果。具体内容为:
采用CTC解码器对最终得到的特征矩阵进行解码,特征矩阵中1的位置为文字在字典的位置,查找字典后输出具体的文字识别结果。
与现有技术相比,本发明具有以下优点:
1)本发明中轻量结构块中深度可分离卷积的使用减少了程序运算所需参数,简化了运算,轻量化的网络可用于移动端开发;
2)本发明将卷积长短期结构与轻量结构块结合使用,可以构造更深层的网络结构来提取高维度特征,增强识别效果;
3)本发明将CNN和卷积LSTM网络结构混合使用,这种设计方案在有效的提取数据特征的同时可有效分析待识别单词或句子的长期依赖性,对长、难词组和句子的识别更有效。
附图说明
图1为本发明方法中的卷积长短期结构块的流程示意图;
图2为本发明方法中的轻量块结构的流程示意图;
图3为本发明方法中CNN-LSTM神经网络总结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
本发明涉及一种基于混合CNN-LSTM网络的文字识别方法,其实现的具体步骤包括:
步骤一、输入包含文本的图片,将图片灰度化、大小归一化为(100,32,1)。将图片分为训练样本和测试样本两部分,并将训练样本图片对应的文本根据字典转码成二值向量序列作为标签。
步骤二、将灰度化、归一化后的训练样本的图片和标签输入混合CNN-LSTM网络,图片进入第1个卷积层进行卷积计算和非线性映射,初步提取特征并降低图像矩阵大小得到大小为(50,16,32)的三维矩阵。
步骤三、将步骤二中的矩阵送入第一个轻量块进行计算,此时的宽卷积的系数为1,因此进行不对图像通道升维,只进行分通道卷积计算和逐点卷积计算来提取特征并降低矩阵大小为(25,8,16)。
步骤四、将步骤三中的矩阵送入第二个轻量块中,进行升维—卷积—压缩操作,宽卷积系数为6,因此首先将矩阵通道维度提升6倍,然后在不同的通道的空间内进行卷积计算,最后在使用逐点卷积将矩阵大小压缩。矩阵大小变化为(25,8,24)→(25,8,144)→(25,8,24)。
步骤五、将步骤四中的矩阵送到卷积长短期块中提取时间依赖性特征,矩阵大小不变。
步骤六、将步骤五中的矩阵送到第三个轻量块,进行升维—卷积—压缩操作,宽卷积系数为6,矩阵大小变化为(25,8,32)→(25,8,192)→(25,8,32)。
步骤七、将步骤六中的矩阵送到卷积层进行卷积计算和非线性映射,同时减小矩阵大小,矩阵大小变为(25,4,128)。
步骤八、将步骤七中的矩阵送到卷积长短期块中提取时间依赖性特征,矩阵大小不变。
步骤九、将步骤八中的矩阵送到卷积层计算,矩阵大小变为(25,2,256)。
步骤十、将步骤九中的矩阵送到轻量块中计算,矩阵大小变为(25,2,192)。
步骤十一、将步骤十中的矩阵送到卷积块中计算,矩阵大小为(25,1,512)。
步骤十二、将步骤十一中的矩阵使用梯度下降法进行CTC_loss计算,得出结果损失函数结果。优选地,采用Adma梯度下降算法进行CTC_loss计算,获取损失函数结果。
步骤十三、重复步骤一到步骤十二,直到步骤十二中的损失函数结果最小,结束训练。
步骤十四、训练结束后开始识别,将步骤十一中得到的矩阵送入CTC解码器中,进行解码,得到结果。步骤十一中得到的矩阵得到的特征为0、1二值矩阵,矩阵使用CTC解码器解码,矩阵中1的位置就是文字在字典的位置,查找字典后可以输出具体的文字识别结果。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的工作人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种基于混合CNN-LSTM网络的文字识别方法,其特征在于,该方法包括以下步骤:
1)获取包含文本的图片(w,h,n),将图片灰度化、归一化;
2)将图片分为训练样本和测试样本两部分,并将训练样本图片对应的文本根据字典转码成二值向量序列作为标签;
3)将步骤2)中处理过的训练样本的图片与标签输入混合CNN-LSTM网络中进行数据训练,训练完成后获取识别模型;
4)将步骤1)、2)处理后的图像和标签输入步骤3)中的识别模型,输出特征矩阵;
5)将步骤4)中的特征矩阵采用梯度下降法进行CTC_loss计算,获取损失函数结果;
6)重复步骤1)至步骤3),直至步骤5)中的损失函数结果最小,获取的最小的损失函数对应的文本标签序列作为预测数据;
7)将预测数据根据字典再次反转码得到文本,获取测试样本的文字识别结果。
2.根据权利要求1所述的一种基于混合CNN-LSTM网络的文字识别方法,其特征在于,所述的混合CNN-LSTM网络包括用以提取高维特征的卷积神经网络及用以将提取到的高维特征继续通过卷积来提取特征和长期信息的卷积LSTM块。
3.根据权利要求2所述的一种基于混合CNN-LSTM网络的文字识别方法,其特征在于,所述的卷积LSTM块为卷积长短期循环网络与旁路所构成的神经网络结构。
4.根据权利要求3所述的一种基于混合CNN-LSTM网络的文字识别方法,其特征在于,所述的混合CNN-LSTM网络为依次设置卷积块、轻量块、轻量块、卷积长短期块、轻量块、卷积块、卷积长短期块、卷积块、轻量块、卷积块的深度结构的神经网络。
5.根据权利要求4所述的一种基于混合CNN-LSTM网络的文字识别方法,其特征在于,所述的轻量块为宽卷积、深度可分离卷积、逐点卷积连接形成的轻量化结构。
6.根据权利要求1所述的一种基于混合CNN-LSTM网络的文字识别方法,其特征在于,所述的预测数据为0,1二值矩阵,矩阵中1的位置为字典中文字的位置。
7.根据权利要求6所述的一种基于混合CNN-LSTM网络的文字识别方法,其特征在于,步骤7)的具体内容为:
采用CTC解码器对最终得到的特征矩阵进行解码,特征矩阵中1的位置为文字在字典的位置,查找字典后输出具体的文字识别结果。
8.根据权利要求1所述的一种基于CNN-LSTM神经网络的文字识别方法,其特征在于,采用Adma梯度下降算法进行CTC_loss计算,获取损失函数结果。
CN201910222217.XA 2019-03-22 2019-03-22 一种基于混合cnn-lstm网络的文字识别方法 Pending CN109977950A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910222217.XA CN109977950A (zh) 2019-03-22 2019-03-22 一种基于混合cnn-lstm网络的文字识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910222217.XA CN109977950A (zh) 2019-03-22 2019-03-22 一种基于混合cnn-lstm网络的文字识别方法

Publications (1)

Publication Number Publication Date
CN109977950A true CN109977950A (zh) 2019-07-05

Family

ID=67080046

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910222217.XA Pending CN109977950A (zh) 2019-03-22 2019-03-22 一种基于混合cnn-lstm网络的文字识别方法

Country Status (1)

Country Link
CN (1) CN109977950A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674777A (zh) * 2019-09-30 2020-01-10 电子科技大学 一种专利文本场景下的光学字符识别方法
CN110674825A (zh) * 2019-09-27 2020-01-10 安徽咪鼠科技有限公司 应用于智能语音鼠标的文字识别方法、装置、***和存储介质
CN111428718A (zh) * 2020-03-30 2020-07-17 南京大学 一种基于图像增强的自然场景文本识别方法
CN112185543A (zh) * 2020-09-04 2021-01-05 南京信息工程大学 一种医疗感应数据流分类模型的构建方法
CN112836702A (zh) * 2021-01-04 2021-05-25 浙江大学 一种基于多尺度特征提取的文本识别方法
CN113065352A (zh) * 2020-06-29 2021-07-02 国网浙江省电力有限公司杭州供电公司 一种电网调度工作文本的操作内容识别方法
CN113221871A (zh) * 2021-05-31 2021-08-06 支付宝(杭州)信息技术有限公司 一种文字识别方法、装置、设备及介质
CN114757969A (zh) * 2022-04-08 2022-07-15 华南理工大学 基于全局追踪解码的文字图像书写轨迹恢复方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609549A (zh) * 2017-09-20 2018-01-19 北京工业大学 一种自然场景下证件图像的文本检测方法
CN108388896A (zh) * 2018-02-09 2018-08-10 杭州雄迈集成电路技术有限公司 一种基于动态时序卷积神经网络的车牌识别方法
CN108399419A (zh) * 2018-01-25 2018-08-14 华南理工大学 基于二维递归网络的自然场景图像中中文文本识别方法
CN108427953A (zh) * 2018-02-26 2018-08-21 北京易达图灵科技有限公司 一种文字识别方法及装置
CN109447078A (zh) * 2018-10-23 2019-03-08 四川大学 一种自然场景图像敏感文字的检测识别方法
CN109492679A (zh) * 2018-10-24 2019-03-19 杭州电子科技大学 基于注意力机制与联结时间分类损失的文字识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609549A (zh) * 2017-09-20 2018-01-19 北京工业大学 一种自然场景下证件图像的文本检测方法
CN108399419A (zh) * 2018-01-25 2018-08-14 华南理工大学 基于二维递归网络的自然场景图像中中文文本识别方法
CN108388896A (zh) * 2018-02-09 2018-08-10 杭州雄迈集成电路技术有限公司 一种基于动态时序卷积神经网络的车牌识别方法
CN108427953A (zh) * 2018-02-26 2018-08-21 北京易达图灵科技有限公司 一种文字识别方法及装置
CN109447078A (zh) * 2018-10-23 2019-03-08 四川大学 一种自然场景图像敏感文字的检测识别方法
CN109492679A (zh) * 2018-10-24 2019-03-19 杭州电子科技大学 基于注意力机制与联结时间分类损失的文字识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
江帆等: "基于CNN-GRNN模型的图像识别", 《计算机工程》 *
靳振伟: "基于CTPN的网店工商信息提取***的研究和实现", 《现代信息科技》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674825A (zh) * 2019-09-27 2020-01-10 安徽咪鼠科技有限公司 应用于智能语音鼠标的文字识别方法、装置、***和存储介质
CN110674777A (zh) * 2019-09-30 2020-01-10 电子科技大学 一种专利文本场景下的光学字符识别方法
CN111428718A (zh) * 2020-03-30 2020-07-17 南京大学 一种基于图像增强的自然场景文本识别方法
CN113065352A (zh) * 2020-06-29 2021-07-02 国网浙江省电力有限公司杭州供电公司 一种电网调度工作文本的操作内容识别方法
CN113065352B (zh) * 2020-06-29 2022-07-19 国网浙江省电力有限公司杭州供电公司 一种电网调度工作文本的操作内容识别方法
CN112185543A (zh) * 2020-09-04 2021-01-05 南京信息工程大学 一种医疗感应数据流分类模型的构建方法
CN112836702A (zh) * 2021-01-04 2021-05-25 浙江大学 一种基于多尺度特征提取的文本识别方法
CN113221871A (zh) * 2021-05-31 2021-08-06 支付宝(杭州)信息技术有限公司 一种文字识别方法、装置、设备及介质
CN113221871B (zh) * 2021-05-31 2024-02-02 支付宝(杭州)信息技术有限公司 一种文字识别方法、装置、设备及介质
CN114757969A (zh) * 2022-04-08 2022-07-15 华南理工大学 基于全局追踪解码的文字图像书写轨迹恢复方法

Similar Documents

Publication Publication Date Title
CN109977950A (zh) 一种基于混合cnn-lstm网络的文字识别方法
CN109086678B (zh) 一种基于深度监督学习提取图像多级特征的行人检测方法
CN109948691B (zh) 基于深度残差网络及注意力的图像描述生成方法和装置
CN109993164A (zh) 一种基于rcrnn神经网络的自然场景文字识别方法
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN110209801A (zh) 一种基于自注意力网络的文本摘要自动生成方法
EP3869411A1 (en) Intent identification method based on deep learning network
CN111460807A (zh) 序列标注方法、装置、计算机设备和存储介质
CN109582952A (zh) 诗歌生成方法、装置、计算机设备和介质
CN112000771B (zh) 一种面向司法公开服务的句子对智能语义匹配方法和装置
CN112487812A (zh) 一种基于边界识别的嵌套实体识别方法及***
CN111242033A (zh) 一种基于视频和文字对判别分析的视频特征学习方法
CN111783478B (zh) 机器翻译质量估计方法、装置、设备及存储介质
CN112070114A (zh) 基于高斯约束注意力机制网络的场景文字识别方法及***
CN116343190B (zh) 自然场景文字识别方法、***、设备及存储介质
CN110046356A (zh) 标签嵌入在微博文本情绪多标签分类中的应用研究
CN112232070A (zh) 自然语言处理模型构建方法、***、电子设备及存储介质
CN112329766A (zh) 文字识别方法、装置、电子设备及存储介质
CN115331073A (zh) 一种基于TransUnet架构的影像自监督学习方法
CN108417220B (zh) 基于代理模型Volterra建模的语音信号编码和解码方法
CN111563161A (zh) 一种语句识别方法、语句识别装置及智能设备
CN112926323B (zh) 基于多级残差卷积与注意力机制的中文命名实体识别方法
CN112990196B (zh) 基于超参数搜索和二阶段训练的场景文字识别方法及***
CN111523325A (zh) 一种基于笔画的中文命名实体识别方法
CN115358227A (zh) 一种基于短语增强的开放域关系联合抽取方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190705