CN114298054A - 一种文本识别方法、装置、电子设备及可读存储介质 - Google Patents

一种文本识别方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN114298054A
CN114298054A CN202111435871.2A CN202111435871A CN114298054A CN 114298054 A CN114298054 A CN 114298054A CN 202111435871 A CN202111435871 A CN 202111435871A CN 114298054 A CN114298054 A CN 114298054A
Authority
CN
China
Prior art keywords
characteristic information
text
visual
target image
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111435871.2A
Other languages
English (en)
Inventor
高大帅
武卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jietong Hongtai Technology Co ltd
Original Assignee
Beijing Jietong Hongtai Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jietong Hongtai Technology Co ltd filed Critical Beijing Jietong Hongtai Technology Co ltd
Priority to CN202111435871.2A priority Critical patent/CN114298054A/zh
Publication of CN114298054A publication Critical patent/CN114298054A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本申请实施例公开了一种文本识别方法、装置、电子设备及可读存储介质,该方法包括:获取包括待识别文本的目标图像;提取目标图像的视觉特征信息和语义特征信息;对视觉特征信息和语义特征信息进行融合处理,得到融合特征信息;通过时序分类算法CTC对融合特征信息进行解码处理,得到待识别文本的目标识别结果。根据本申请的实施例,能够提升文本识别的效率。

Description

一种文本识别方法、装置、电子设备及可读存储介质
技术领域
本申请属于信息处理技术领域,尤其涉及一种文本识别方法、装置、电子设备及可读存储介质。
背景技术
目前,对文本的识别已扩大到图像文本的识别领域,通常包括扫描文档文本识别和拍照自然场景文本识别。在实际的识别过程中,自然环境中的光照、遮挡以及字体形变等因素,都会影响最终的识别效果。
目前,为了降低自然环境中的因素对识别结果的影响,通常使用基于attention解码的算法来确定文本的识别结果,但是基于attention解码的算法在识别包括长文本的图像时,识别效率不佳。
申请内容
本申请实施例提供一种文本识别方法、装置、设备及可读存储介质,能够解决目前文本识别效率低的问题。
第一方面,本申请实施例提供一种文本识别方法,该方法包括:
获取包括待识别文本的目标图像;
提取目标图像的视觉特征信息和语义特征信息;
对视觉特征信息和语义特征信息进行融合处理,得到融合特征信息;
通过时序分类算法CTC对融合特征信息进行解码处理,得到待识别文本的目标识别结果。
在一种可能的实现方式中,提取目标图像的视觉特征信息和语义特征信息,包括:
将目标图像输入到视觉模型,提取视觉特征信息以及输出待识别文本的预识别结果;
通过语言模型,对预识别结果进行特征提取,得到语义特征信息。
在一种可能的实现方式中,将目标图像输入到视觉模型,提取视觉特征信息以及输出待识别文本的预识别结果,包括:
通过卷积循环神经网络,对目标图像进行特征提取,得到视觉特征信息;
通过CTC对视觉特征信息进行解码处理,得到待识别文本的预识别结果。
在一种可能的实现方式中,通过卷积循环神经网络,对目标图像进行特征提取,得到视觉特征信息,包括:
通过卷积神经网络对目标图像进行特征提取,得到图像特征;
将图像特征输入到循环神经网络中,输出待处理图像的视觉特征信息。
第二方面,本申请实施例提供一种文本识别装置,该装置包括:
获取模块,用于获取包括待识别文本的目标图像;
提取模块,用于提取目标图像的视觉特征信息和语义特征信息;
融合模块,用于对视觉特征信息和语义特征信息进行融合处理,得到融合特征信息;
解码模块,用于通过时序分类算法CTC对融合特征信息进行解码处理,得到待识别文本的目标识别结果。
在一种可能的实现方式中,提取模块,具体用于:
将目标图像输入到视觉模型,提取视觉特征信息以及输出待识别文本的预识别结果;
通过语言模型,对预识别结果进行特征提取,得到语义特征信息。
在一种可能的实现方式中,提取模块,具体用于:
通过卷积循环神经网络,对目标图像进行特征提取,得到视觉特征信息;
解码模块,还用于通过CTC对视觉特征信息进行解码处理,得到待识别文本的预识别结果。
在一种可能的实现方式中,提取模块,具体用于:
通过卷积神经网络对目标图像进行特征提取,得到图像特征;
将图像特征输入到循环神经网络中,输出待处理图像的视觉特征信息。
第三方面,本申请实施例提供了一种电子设备,该设备包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时,实现如第一方面或者第一方面的任一可能实现方式中的方法。
第四方面,本申请实施例提供了一种可读存储介质,该计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如第一方面或者第一方面的任一可能实现方式中的方法。
本申请实施例中,通过提取包括待识别文本的目标图像的视觉特征信息和语义特征信息;然后对视觉特征信息和语义特征信息进行融合处理,得到融合特征信息;最后通过时序分类算法CTC对融合特征信息进行解码处理,得到待识别文本的目标识别结果。本申请的实施例,通过CTC对基于视觉特征信息和语义特征信息生成的融合特征信息进行解码处理,解码速度快,由此,能够提升对待识别文本的识别效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文本识别方法的流程图;
图2是本申请实施例提供的一种实现文本识别的方法的流程图;
图3是本申请实施例提供的一种文本识别装置结构示意图;
图4是本申请实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本申请,并不被配置为限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
首先,对于本申请实施例涉及的技术术语进行介绍。
语义信息:文本的上下文关联,可以理解为语言模型的功能。
卷积循环神经网络结构(Convolutional Recurrent Neural Network,CRNN),用于解决基于图像的序列识别问题,特别是场景文本识别问题。
卷积神经网络(Convolutional Neural Networks,CNN):如resnet18,resnet50等常见的backbone。
循环神经网络(Recurrent Neural Network,RNN):如GRU、LSTM等。
文本行识别:将检测到的文本行图像进行光学字符识别转成文本,常用的算法有CRNN_CTC及CRNN_attention及CNN_Transformer。
ABCnet:一种端到端的基于贝塞尔曲线内插的任意形状文本行识别算法。
语言模型:根据语言客观事实而进行的语言抽象数学建模,如BERT,RNN等。Bert:一种双向建模的语言模型。
时序分类算法(Connectionist Temporal Classification,CTC),是一种光学字符识别(Optical Character Recognition,OCR)中常用的损失函数。在时序分类任务中,传统的做法是输入数据与给定标签必须要在时间上一一对齐,只有这样才能采取交叉熵按帧训练来进行分类,而CTC的做法是不需要标签在时间上一一对齐就可以进行训练,在对输入数据的任一时刻做出的预测不是很关心,而关心的是整体上输出是否与标签一致,从而减少了标签预划定的冗杂工作。
本申请实施例提供的文本识别方法至少可以应用于下述应用场景中,下面进行说明。
在自然语言理解任务(natural language understanding,NLU)领域中,智能纠错就是利用文本行的语义信息对输入文本行进行自动纠错,而自然场景中文本行识别面临很多挑战,如光照、遮挡、字体、形变等等因素都会影响最终的识别效果,因此将语义信息和视觉信息进行融合理论上能够提升文本行的识别率。
目前已经公布的融合语义信息的文本行识别算法如SRN、SEED、ABINet等都是以attention的方式进行解码。通常,首先使用CNN进行特征提取,使用RNN进行上下文特征编码;其次,使用带attention的RNN进行文本行解码;最后,将解码后的文本行进行语义特征提取,然后利用带attention的RNN对视觉信息及语义信息进行文本行解码。其中,上述涉及到的,使用带attention的RNN进行文本行解码的步骤在处理器中占用内存大而且解码效率很低,且上述涉及到的利用带attention的RNN对视觉信息及语义信息进行文本行解码的步骤,在处理器中占用内存更大,解码效率更低。
鉴于此,本申请提出一种基于CTC快速解码的文本识别方法,能够有效提升不定长文本图像及长文本图像的文本识别性能,从而满足OCR商业应用中的性能需求。
基于上述应用场景,下面对本申请实施例提供的文本识别方法进行详细说明。
图1为本申请实施例提供的一种文本识别方法的流程图。
如图1所示,该文本识别方法可以包括步骤110-步骤140,该方法应用于文本识别装置,具体如下所示:
步骤110,获取包括待识别文本的目标图像。
步骤120,提取目标图像的视觉特征信息和语义特征信息。
步骤130,对视觉特征信息和语义特征信息进行融合处理,得到融合特征信息。
步骤140,通过时序分类算法CTC对融合特征信息进行解码处理,得到待识别文本的目标识别结果。
本申请提供的文本识别方法中,通过提取包括待识别文本的目标图像的视觉特征信息和语义特征信息;然后对视觉特征信息和语义特征信息进行融合处理,得到融合特征信息;最后通过时序分类算法CTC对融合特征信息进行解码处理,得到待识别文本的目标识别结果。本申请的实施例,通过CTC对基于视觉特征信息和语义特征信息生成的融合特征信息进行解码处理,解码速度快,由此,能够提升对待识别文本的识别效率。
下面,对步骤110-步骤140的内容分别进行描述:
首先,涉及步骤110。
获取包括待识别文本的目标图像。
其中,上述涉及到的目标图像通常包括:拍摄的图片以及扫描的便携式文档格式(Portable Document Format,PDF)图像。
其次,涉及步骤120。
在一种可能的实施例中,步骤120,包括:
将目标图像输入到视觉模型,提取视觉特征信息以及输出待识别文本的预识别结果;通过语言模型,对预识别结果进行特征提取,得到语义特征信息。
将目标图像输入到视觉模型,提取视觉特征信息以及输出预识别结果;将视觉模型的预识别结果送入语言模型来提取语义特征信息;该步骤得到的视觉特征信息和语义特征信息用于后续将二者进行融合来得到融合的预测结果;进而用于最后通过时序分类算法CTC对融合特征信息进行解码处理,以得到最终的目标预测结果。
其中,上涉及到的将目标图像输入到视觉模型,提取视觉特征信息以及输出待识别文本的预识别结果的步骤中,具体可以包括以下步骤:
通过卷积循环神经网络,对目标图像进行特征提取,得到视觉特征信息;
通过CTC对视觉特征信息进行解码处理,得到待识别文本的预识别结果。
文本识别是对序列的预测方法,所以需要采用对序列预测的RNN网络。通过CNN将目标图像的特征提取出来后采用RNN对序列进行预测,最后通过一个CTC的翻译层,得到最终结果,即是CNN+RNN+CTC的结构。
其中,CRNN主要用于端到端地,对不定长的文本序列进行识别,不用先对单个文本进行切割,而是将文本识别转化为时序依赖的序列学习问题,就是基于图像的序列识别。
在一种可能的实施例中,上涉及到的通过卷积循环神经网络,对目标图像进行特征提取,得到视觉特征信息的步骤中,具体可以包括以下步骤:
通过卷积神经网络对目标图像进行特征提取,得到图像特征;
将图像特征输入到循环神经网络中,输出待处理图像的视觉特征信息。
卷积神经网络是一种特殊的深层的神经网络模型,它的特殊性体现在两个方面,一方面它的神经元的连接是非全连接的,另一方面同一层中某些神经元之间的连接的权重是共享的。它的非全连接和权值共享的网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。
循环神经网络是一种特殊的神经网络结构,它是根据“人的认知是基于过往的经验和记忆”这一观点提出的,RNN之所以称为循环神经网路,即一个序列当前的输出与前面的输出也有关,它不仅考虑前一时刻的输入,而且赋予了网络对前面的内容的一种“记忆”功能。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。
由此,通过卷积神经网络对目标图像进行特征提取,得到图像特征;然后将图像特征输入到循环神经网络中,输出待处理图像的视觉特征信息,能够快速准确地得到待处理图像的视觉特征信息。
接着,涉及步骤130。
对视觉特征信息和语义特征信息进行融合处理,得到融合特征信息。
具体地,根据视觉特征信息和第一权重确定视觉特征加权信息,根据语义特征信息和第二权重确定语义特征加权信息,根据视觉特征加权信息和语义特征加权信息确定融合特征信息。这里,通过对视觉特征信息和语义特征信息进行融合处理得到融合特征信息,能够兼顾视觉和语义两方面的特征对识别结果的影响,后续用融合特征信息确定待识别文本的目标识别结果会更加准确。
最后,涉及步骤140。
CTC是一种Loss计算方法,用CTC代替Softmax Loss,训练样本无需对齐。CTC不仅能够解决有些位置没有字符的问题,还可以通过递推,快速计算梯度。由此,通过CTC对融合特征信息进行解码处理,能够快速得到待识别文本的目标识别结果。
综上,在本申请实施例中,通过提取包括待识别文本的目标图像的视觉特征信息和语义特征信息;然后对视觉特征信息和语义特征信息进行融合处理,得到融合特征信息;最后通过时序分类算法CTC对融合特征信息进行解码处理,得到待识别文本的目标识别结果。本申请的实施例,通过CTC对基于视觉特征信息和语义特征信息生成的融合特征信息进行解码处理,解码速度快,由此,能够提升对待识别文本的识别效率。
基于上述图1所示的文本识别方法,本申请还提供了一种实现数据处理的方法,图2为本申请实施例提供的一种实现数据处理的方法的流程图。
如图2所示,该文本识别方法可以包括步骤210-步骤260,该方法应用于文本识别装置,具体如下所示:
步骤210,获取包括待识别文本的目标图像。
具体地,首先需要确定识别需求,如对客户上传的不定长文本图像进行文本识别。其次需要确定样本,如可以使用文本图像仿真工具获取不定长文本图像100万行。其中,可以随机选取95万行仿真数据作为训练集,剩下的5万行样本作为测试集。
步骤220,通过卷积循环神经网络,对目标图像进行特征提取,得到视觉特征信息。
目标图像输入到卷积循环神经网络,提取视觉特征信息以及输出待识别文本的预识别结果。
示例性地,选择合适的CNN骨架,如resnet50等对不定长的彩色文本输入图像(H*W*3)进行特征提取,输出为h*w*512,其中h=H/8,w=W/4,然后将其进行维度变换(reshape),输出图像特整天T*512,其中T=h*w。然后选择合适的RNN,如GRU进行上下文特征关联,输出视觉特征信息结果为T*512。
步骤230,通过CTC对视觉特征信息进行解码处理,得到待识别文本的预识别结果。
步骤240,通过语言模型,对预识别结果进行特征提取,得到语义特征信息。
具体地,择合适的语言模型,如BERT或RNN对预识别结果进行特征提取,输出的语义特征信息结果为N*512,其中N为文本行长度。
步骤250,对视觉特征信息和语义特征信息进行融合处理,得到融合特征信息。
具体地,将步骤220的视觉特征信息T*512与步骤240的语义特征信息N*512进行特征融合处理,输出融合特征信息为T*512。
其中,将视觉特征信息和语义特征信息进行融合,融合时采用简单的线性加权和,视觉特征T*512,语义特征N*512,融合后的特征为T*512,然后使用CTC解码获得最终的文本行识别结果。(对于每一个视觉特征时间步的特征向量为512维,与语义特征点乘后获得N个数值,N个数值与语义特征N*512进行求和获得1*512的融合特征)。
步骤260,通过时序分类算法CTC对融合特征信息进行解码处理,得到待识别文本的目标识别结果。
具体地,使用CTC解码获取最终的目标识别结果,选择合适的多任务损失函数,total_loss=CTC1_loss(初步识别结果损失函数,如0.5*L)+lang_loss(语言模型损失函数,如0.1*L)+CTC2_loss(最终识别结果损失函数,如1.0*L_),其中0.5、0.1和1.0是实验中的经验值。使用TensorFlow深度学习框架进行模型训练。
由此,通过卷积循环神经网络,对目标图像进行特征提取,得到视觉特征信息;然后通过CTC对视觉特征信息进行解码处理,得到待识别文本的预识别结果,之后使用语言模型提取预识别结果的语义特征信息,最终将视觉特征信息及语义特征信息进行融合,再次使用CTC解码获得最终的目标识别结果,CRNN网络及语义网络可以端到端的训练,根据本申请的实施例,能够有效提升对包括待识别文本的目标图像的识别性能。
综上,在本申请实施例中,基于CTC快速解码的融合语义信息的文本行识别方法,首先使用CRNN提取视觉信息,然后使用CTC解码获得初步的文本行识别结果;之后将语言模型提取的语义特征与CRNN提取的视觉信息进行融合,再使用CTC解码获得最终的文本行识别结果。根据本申请的实施例,能够有效缓解目前的基于Attention解码的语义识别模型对不定长文本图像及长文本图像在使用中的内存占用大、识别性能差的问题。
基于上述图1所示的文本识别方法,本申请实施例还提供一种文本识别装置,如图3所示,该装置300可以包括:
获取模块310,用于获取包括待识别文本的目标图像。
提取模块320,用于提取目标图像的视觉特征信息和语义特征信息。
融合模块330,用于对视觉特征信息和语义特征信息进行融合处理,得到融合特征信息。
解码模块340,用于通过时序分类算法CTC对融合特征信息进行解码处理,得到待识别文本的目标识别结果。
在一种可能的实现方式中,提取模块320,具体用于:
将目标图像输入到视觉模型,提取视觉特征信息以及输出待识别文本的预识别结果。
通过语言模型,对预识别结果进行特征提取,得到语义特征信息。
在一种可能的实现方式中,提取模块320,具体用于:通过卷积循环神经网络,对目标图像进行特征提取,得到视觉特征信息。
解码模块,还用于通过CTC对视觉特征信息进行解码处理,得到待识别文本的预识别结果。
在一种可能的实现方式中,提取模块320,具体用于:
通过卷积神经网络对目标图像进行特征提取,得到图像特征。
将图像特征输入到循环神经网络中,输出待处理图像的视觉特征信息。
综上,在本申请实施例中,通过提取包括待识别文本的目标图像的视觉特征信息和语义特征信息;然后对视觉特征信息和语义特征信息进行融合处理,得到融合特征信息;最后通过时序分类算法CTC对融合特征信息进行解码处理,得到待识别文本的目标识别结果。本申请的实施例,通过CTC对基于视觉特征信息和语义特征信息生成的融合特征信息进行解码处理,解码速度快,由此,能够提升对待识别文本的识别效率。
图4示出了本申请实施例提供的一种电子设备的硬件结构示意图。
在电子设备可以包括处理器401以及存储有计算机程序指令的存储器402。
具体地,上述处理器401可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器402可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器402可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器402可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器402可在综合网关容灾设备的内部或外部。在特定实施例中,存储器402是非易失性固态存储器。在特定实施例中,存储器402包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器401通过读取并执行存储器402中存储的计算机程序指令,以实现图所示实施例中的任意一种文本识别方法。
在一个示例中,电子设备还可包括通信接口403和总线410。其中,如图4所示,处理器401、存储器402、通信接口403通过总线410连接并完成相互间的通信。
通信接口403,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线410包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、***组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线410可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该电子设备可以执行本申请实施例中的文本识别方法,从而实现结合图1至图2描述的文本识别方法。
另外,结合上述实施例中的文本识别方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现图1至图2中的文本识别方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或***。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的***、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

Claims (10)

1.一种文本识别方法,其特征在于,所述方法包括:
获取包括待识别文本的目标图像;
提取所述目标图像的视觉特征信息和语义特征信息;
对所述视觉特征信息和所述语义特征信息进行融合处理,得到融合特征信息;
通过时序分类算法CTC对所述融合特征信息进行解码处理,得到所述待识别文本的目标识别结果。
2.根据权利要求1所述的方法,其特征在于,所述提取所述目标图像的视觉特征信息和语义特征信息,包括:
将所述目标图像输入到视觉模型,提取所述视觉特征信息以及输出所述待识别文本的预识别结果;
通过语言模型,对所述预识别结果进行特征提取,得到所述语义特征信息。
3.根据权利要求2所述的方法,其特征在于,所述将所述目标图像输入到视觉模型,提取所述视觉特征信息以及输出所述待识别文本的预识别结果,包括:
通过卷积循环神经网络,对所述目标图像进行特征提取,得到所述视觉特征信息;
通过所述CTC对所述视觉特征信息进行解码处理,得到所述待识别文本的预识别结果。
4.根据权利要求3所述的方法,其特征在于,所述通过卷积循环神经网络,对所述目标图像进行特征提取,得到所述视觉特征信息,包括:
通过卷积神经网络对所述目标图像进行特征提取,得到图像特征;
将所述图像特征输入到循环神经网络中,输出所述待处理图像的视觉特征信息。
5.一种文本识别装置,其特征在于,所述装置包括:
获取模块,用于获取包括待识别文本的目标图像;
提取模块,用于提取所述目标图像的视觉特征信息和语义特征信息;
融合模块,用于对所述视觉特征信息和所述语义特征信息进行融合处理,得到融合特征信息;
解码模块,用于通过时序分类算法CTC对所述融合特征信息进行解码处理,得到所述待识别文本的目标识别结果。
6.根据权利要求5所述的装置,其特征在于,所述提取模块,具体用于:
将所述目标图像输入到视觉模型,提取所述视觉特征信息以及输出所述待识别文本的预识别结果;
通过语言模型,对所述预识别结果进行特征提取,得到所述语义特征信息。
7.根据权利要求6所述的装置,其特征在于,所述提取模块,具体用于:
通过卷积循环神经网络,对所述目标图像进行特征提取,得到所述视觉特征信息;
所述解码模块,还用于通过所述CTC对所述视觉特征信息进行解码处理,得到所述待识别文本的预识别结果。
8.根据权利要求7所述的装置,其特征在于,所述提取模块,具体用于:
通过卷积神经网络对所述目标图像进行特征提取,得到图像特征;
将所述图像特征输入到循环神经网络中,输出所述待处理图像的视觉特征信息。
9.一种电子设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;所述处理器执行所述计算机程序指令时实现如权利要求1-4任意一项所述的文本识别方法。
10.一种可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-4任意一项所述的文本识别方法。
CN202111435871.2A 2021-11-29 2021-11-29 一种文本识别方法、装置、电子设备及可读存储介质 Pending CN114298054A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111435871.2A CN114298054A (zh) 2021-11-29 2021-11-29 一种文本识别方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111435871.2A CN114298054A (zh) 2021-11-29 2021-11-29 一种文本识别方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN114298054A true CN114298054A (zh) 2022-04-08

Family

ID=80965397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111435871.2A Pending CN114298054A (zh) 2021-11-29 2021-11-29 一种文本识别方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN114298054A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116343233A (zh) * 2023-04-04 2023-06-27 北京百度网讯科技有限公司 文本识别方法和文本识别模型的训练方法、装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116343233A (zh) * 2023-04-04 2023-06-27 北京百度网讯科技有限公司 文本识别方法和文本识别模型的训练方法、装置
CN116343233B (zh) * 2023-04-04 2024-02-06 北京百度网讯科技有限公司 文本识别方法和文本识别模型的训练方法、装置

Similar Documents

Publication Publication Date Title
CN112232149B (zh) 一种文档多模信息和关系提取方法及***
CN113313022B (zh) 文字识别模型的训练方法和识别图像中文字的方法
US11270099B2 (en) Method and apparatus for generating facial feature
CN112633290A (zh) 文本识别方法、电子设备及计算机可读介质
CN113254654B (zh) 模型训练、文本识别方法、装置、设备和介质
CN110188762B (zh) 中英文混合商户门店名称识别方法、***、设备及介质
CN111914654B (zh) 一种文本版面分析方法、装置、设备和介质
US20220327816A1 (en) System for training machine learning model which recognizes characters of text images
CN111046971A (zh) 图像识别方法、装置、设备及计算机可读存储介质
CN113313113B (zh) 证件信息获取方法、装置、设备以及存储介质
CN114863437B (zh) 文本识别方法、装置、电子设备和存储介质
CN112487913A (zh) 一种基于神经网络的标注方法、装置及电子设备
CN114429636B (zh) 图像扫描识别方法、装置及电子设备
CN112232070A (zh) 自然语言处理模型构建方法、***、电子设备及存储介质
CN114170484B (zh) 图片属性预测方法、装置、电子设备和存储介质
CN114298054A (zh) 一种文本识别方法、装置、电子设备及可读存储介质
CN111651674A (zh) 双向搜索方法、装置及电子设备
CN114549904A (zh) 视觉处理及模型训练方法、设备、存储介质及程序产品
CN110555462A (zh) 基于卷积神经网络的无固定多字符验证码识别方法
CN116433936A (zh) 图像检测方法、装置、电子设备及存储介质
CN115631502A (zh) 文字识别方法、装置、模型训练方法、电子设备及介质
CN115565186A (zh) 文字识别模型的训练方法、装置、电子设备和存储介质
CN114463734A (zh) 文字识别方法、装置、电子设备及存储介质
CN114842541A (zh) 模型的训练及人脸识别方法、装置、设备以及存储介质
CN115700519A (zh) 一种文本到图像的生成方法、装置、存储介质及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination