CN112784841A - 文本识别方法及装置 - Google Patents

文本识别方法及装置 Download PDF

Info

Publication number
CN112784841A
CN112784841A CN202110220330.1A CN202110220330A CN112784841A CN 112784841 A CN112784841 A CN 112784841A CN 202110220330 A CN202110220330 A CN 202110220330A CN 112784841 A CN112784841 A CN 112784841A
Authority
CN
China
Prior art keywords
feature
text
feature sequence
sequence
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110220330.1A
Other languages
English (en)
Inventor
蔡晓聪
侯军
伊帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN202110220330.1A priority Critical patent/CN112784841A/zh
Publication of CN112784841A publication Critical patent/CN112784841A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/625License plates

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及计算机视觉技术领域,具体提供了一种文本识别方法及装置。文本识别方法包括:对文本图像进行特征提取,得到第一特征序列;第一特征序列包括多个特征切片,特征切片表示待识别文本的特征向量;基于第一特征序列的多个特征切片之间的上下文信息,对第一特征序列进行处理,得到第二特征序列;根据第二特征序列,确定第二特征序列中各个特征切片的注意力权值;基于第二特征序列和注意力权值,得到待识别文本的识别结果。本公开方法提高文本识别精度。

Description

文本识别方法及装置
技术领域
本公开涉及计算机视觉技术领域,具体涉及一种文本识别方法及装置。
背景技术
场景文本识别是计算机视觉以及智能视频分析领域的重要问题之一,其在众多场景均有广泛的应用,例如车牌识别、文档文本行识别、自然场景文字识别等。对于场景文本识别,如何提高识别精度是重要研究方向。
发明内容
为提高场景文本识别的精度,本公开实施方式提供了一种文本识别方法及装置。
第一方面,本公开实施方式提供了一种文本识别方法,包括:
对文本图像进行特征提取,得到第一特征序列;所述第一特征序列包括多个特征切片,所述特征切片表示待识别文本的特征向量;
基于所述第一特征序列的多个特征切片之间的上下文信息,对所述第一特征序列进行处理,得到第二特征序列;
根据所述第二特征序列,确定所述第二特征序列中各个所述特征切片的注意力权值;
基于所述第二特征序列和所述注意力权值,得到所述待识别文本的识别结果。
在一些实施方式中,所述对文本图像进行特征提取,得到第一特征序列,包括:
对所述文本图像进行卷积处理,得到所述文本图像的特征图;
基于所述特征图处理得到所述第一特征序列。
在一些实施方式中,所述基于所述第一特征序列的多个特征切片之间的上下文信息,对所述第一特征序列进行处理,得到第二特征序列,包括:
对所述第一特征序列进行空洞卷积处理,得到所述第二特征序列。
在一些实施方式中,所述基于所述第二特征序列和所述注意力权值,得到所述待识别文本的识别结果,包括:
基于所述第二特征序列和所述注意力权值,得到各所述特征切片的分类结果;
对各所述特征切片的所述分类结果进行解析处理,得到所述待识别文本的所述识别结果。
在一些实施方式中,在所述对文本图像进行特征提取,得到第一特征序列之前,所述方法还包括:
获取场景图像,并由所述场景图像中检测得到至少一个所述文本图像。
在一些实施方式中,所述场景图像包括车辆,所述由所述场景图像中检测得到至少一个所述文本图像,包括:
由所述场景图像中检测得到至少一个车牌图像,作为所述文本图像。
在一些实施方式中,所述注意力权值包括以下中至少之一:
空间注意力权值、通道注意力权值以及混合注意力权值。
在一些实施方式中,所述对文本图像进行特征提取,得到第一特征序列,包括:
通过特征提取网络对所述文本图像进行特征提取,得到所述第一特征序列;
所述基于所述第一特征序列的多个特征切片之间的上下文信息,对所述第一特征序列进行处理,得到第二特征序列,包括:
通过时间卷积网络基于所述第一特征序列的多个特征切片之间的上下文信息对所述第一特征序列进行处理,得到所述第二特征序列;
所述根据所述第二特征序列,确定所述第二特征序列中各个所述特征切片的注意力权值,包括:
通过所述时间卷积网络根据所述第二特征序列,确定所述第二特征序列中各个特征切片的注意力权值;
所述基于所述第二特征序列和所述注意力权值,得到所述待识别文本的识别结果,包括:
通过文本分类网络基于所述第二特征序列和所述注意力权值,得到所述待识别文本的所述识别结果。
在一些实施方式中,本公开所述的文本识别方法,还包括如下网络训练的过程:
获取样本文本图像集;所述样本文本图像集中的每个样本文本图像包括文本行以及所述文本行对应的标签信息;
将所述样本文本图像集输入未训练的特征提取网络,并依次通过未训练的特征提取网络、未训练的时间卷积网络以及未训练的文本分类网络,得到各所述文本行对应的识别结果;
基于所述识别结果与所述标签信息之间的差异,调整未训练的特征提取网络、未训练的时间卷积网络以及未训练的文本分类网络中至少之一的网络参数,直至所述差异满足收敛条件。
第二方面,本公开实施方式提供了一种文本识别装置,包括:
特征提取模块,被配置为对文本图像进行特征提取,得到第一特征序列;所述第一特征序列包括多个特征切片,所述特征切片表示待识别文本的特征向量;
处理模块,被配置为基于所述第一特征序列的多个特征切片之间的上下文信息,对所述第一特征序列进行处理,得到第二特征序列;
确定模块,被配置为根据所述第二特征序列,确定所述第二特征序列中各个所述特征切片的注意力权值;
文本识别模块,被配置为基于所述第二特征序列和所述注意力权值,得到所述待识别文本的识别结果。
在一些实施方式中,所述特征提取模块具体被配置为:
对所述文本图像进行卷积处理,得到所述文本图像的特征图;
基于所述特征图处理得到所述第一特征序列。
在一些实施方式中,所述处理模块具体被配置为:
对所述第一特征序列进行空洞卷积处理,得到所述第二特征序列。
在一些实施方式中,所述文本识别模块具体被配置为:
基于所述第二特征序列和所述注意力权值,得到各所述特征切片的分类结果;
对各所述特征切片的所述分类结果进行解析处理,得到所述待识别文本的所述识别结果。
在一些实施方式中,本公开所述的文本识别装置还包括:
获取模块,被配置为获取场景图像,并由所述场景图像中检测得到至少一个所述文本图像。
在一些实施方式中,所述场景图像包括车辆,所述获取模块具体被配置为:
由所述场景图像中检测得到至少一个车牌图像,作为所述文本图像。
在一些实施方式中,所述注意力权值包括以下中至少之一:
空间注意力权值、通道注意力权值以及混合注意力权值。
第三方面,本公开实施方式提供了一种电子设备,包括:
处理器;和
存储器,存储有能够被所述处理器读取的计算机指令,当所述计算机指令被读取时,所述处理器执行根据第一方面中任一项实施方式所述的方法。
第四方面,本公开实施方式提供了一种存储介质,用于存储计算机可读指令,所述计算机可读指令用于使计算机执行根据第一方面中任一实施方式所述的方法。
本公开实施方式的文本识别方法,包括对文本图像进行特征提取得到第一特征序列,基于第一特征序列的多个特征切片之间的上下文信息,对第一特征序列进行处理得到第二特征序列,根据第二特征序列确定各个特征切片的注意力权值,根据第二特征序列和注意力权值,得到待识别文本的识别结果。在本公开方法中,基于特征切片之间的上下文信息对第一特征序列进行处理得到第二特征序列,使其充分融合上下文信息,并且结合注意力机制准确检测文本位置,提高识别精度。
附图说明
为了更清楚地说明本公开具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本公开一些实施方式中文本识别方法的流程图。
图2是根据本公开一些实施方式中文本识别网络的结构示意图。
图3是本公开一些实施方式中文本识别方法的原理图。
图4是根据本公开一些实施方式中文本识别方法的流程图。
图5是本公开一些实施方式中文本识别方法的原理图。
图6是根据本公开一些实施方式中时间卷积网络的结构示意图。
图7是根据本公开一些实施方式中时间卷积子模块的结构示意图。
图8是根据本公开一些实施方式中文本识别方法的流程图。
图9是本公开一些实施方式中文本识别方法的原理图。
图10是根据本公开一些实施方式中文本识别方法的流程图。
图11是根据本公开一些实施方式中文本识别装置的结构框图。
图12是适于实现本公开文本识别方法的计算机***结构图。
具体实施方式
下面将结合附图对本公开的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本公开一部分实施方式,而不是全部的实施方式。基于本公开中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本公开保护的范围。此外,下面所描述的本公开不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
图像文本识别是自然场景识别领域重要的研究方向之一,其在众多场景均具有广泛的应用,例如车牌识别、场景文字识别、文档文本行识别等。
相关技术中,图像文本识别网络架构为:卷积神经网络模块提取图像特征,循环神经网络模块建立特征序列,分类器模块进行分类输出。循环神经网络模块一般可以为RNN(Recurrent Neural Network,循环神经网络)、BiLSTM(Bi-directional Long Short-TermMemory,双层双向长短时记忆网络)等。
相关技术中的文本识别网络,虽然可以达到一定的识别精度要求,但是其运算速度存在缺陷,而若采用其他运算速度快的网络,识别精度又往往不能满足使用需求。因此,如何在保证文本识别网络识别精度的情况下提高运算速度成为重要的问题。
正是基于上述相关技术中存在的问题,本公开实施方式提供了一种文本识别方法、装置、电子设备以及存储介质,在保证文本识别精度的同时提高识别速度。
第一方面,本公开实施方式提供了一种文本识别方法。本公开实施方式的文本识别方法的执行主体可以是终端设备、服务器、或者其他处理设备,例如终端设备可以为用户终端、车载设备、穿戴设备等,本公开对此不作限制。图1中示出了本公开文本识别方法的一些实施方式,下面结合图1对本公开方法进行说明。
如图1所示,在一些实施方式中,本公开的文本识别方法包括:
S110、对文本图像进行特征提取,得到第一特征序列。
具体而言,所述文本图像可指从自然场景图像中检测到的文本行区域。在一个示例中,可通过例如文字检测网络(CTPN,Connectionist Text Proposal Network)对自然场景图像进行文本行检测,得到自然场景图像中各个文本行区域的检测框位置,进而通过检测框坐标提取得到对应各文本行区域的文本图像。文本图像检测的过程在下文实施方式中进行说明,在此暂不详述。
在一个示例中,在对文本图像进行特征提取之前,还可对文本图像进行预处理,例如对模糊图像进行去模糊处理、对倾斜图像进行转正处理、对批图像进行归一化处理等,从而减少干扰信息。可以理解,预处理过程为可选的而非必须的,本领域技术人员对此能够理解并实施,本公开不再赘述。
在一些实施方式中,可利用深度卷积神经网络对文本图像进行特征提取,例如VGG、ResNet、ShuffleNet等,本公开对此不作限制。卷积神经网络提取得到特征图之后,通过对特征图处理映射得到第一特征序列,第一特征序列包括多个特征切片,其中每个特征切片表示待识别文本的特征向量。对文本图像进行特征提取的过程在下文实施方式中具体说明,在此暂不详述。
S120、基于第一特征序列的多个特征切片之间的上下文信息,对第一特征序列进行处理,得到第二特征序列。
具体而言,在得到第一特征序列之后,对第一特征序列进行融合处理得到第二特征序列,使其充分融合相邻特征切片之间的上下文信息。
在一些实施方式中,通过对第一特征序列进行空洞卷积(dilated convolutions)处理,得到第二特征序列。下文中进行详细说明,在此暂不展开。
S130、根据第二特征序列,确定第二特征序列中各个特征切片的注意力权值。
具体而言,本公开实施方式中,在对特征序列进行解码处理时引入注意力机制,从而为各个特征切片分配注意力权重,使得信息有效聚焦于文本位置。
在一个示例中,可采用时间卷积网络(TCN,Temporal Convolutional Network)作为文本识别网络的解码器,通过在TCN的输出层之前嵌入注意力模块,从而为第二特征序列的各个特征切片分配注意力权值。
在本示例中,注意力模块可以将某时刻输出特征切片的隐层节点状态,与输入的各特征切片的隐层节点状态进行对比,获取该特征切片和每个输入特征切片对应的对齐可能性,然后经过例如Softmax层进行归一化处理,即可得到符合概率分布取值区间的各特征切片的注意力权值。
在一个示例中,注意力机制可以是空间注意力、通道注意力或混合注意力机制,本公开对此不作限制。
S140、基于第二特征序列和注意力权值,得到待识别文本的识别结果。
具体而言,在得到融合了注意力权值的第二特征序列之后,即可通过输出模块预测得到待识别文本的识别结果。
在一个示例中,可使用全连接层作为分类器,从而预测得到每个特征切片的分类结果,然后利用例如CTC(Connectionist Temporal Classification,连接时序分类)解析算法处理得到待识别文本的识别结果。下文中进行详细说明,在此暂不详述。
通过上述可知,本公开的文本识别方法,基于特征切片之间的上下文信息对第一特征序列进行处理得到第二特征序列,使其充分融合上下文信息,并且结合注意力机制准确检测文本位置,提高网络识别精度。
在一些实施方式中,基于第一特征序列的多个特征切片之间的上下文信息,对第一特征序列进行处理得到第二特征序列,包括:
对所述第一特征序列进行空洞卷积处理,得到所述第二特征序列。
可以理解,空洞卷积(dilated convolutions)与普通卷积处理类似,主要区别在于引入“扩张率(dilation rate)”参数,扩张率定义了卷积核在处理数据时各值的间距。空洞卷积可以包括多层的卷积操作,一般随着层数的增加扩张率逐渐增大,从而使得上层的节点感受野更大,能够捕捉较早的特征切片的信息,从而充分融合相邻特征切片之间的上下文信息。
值得说明的是,与相关技术中利用RNN或BiLSTM获取上下文信息不同,RNN和BiLSTM在解码处理时,需要将特征序列的每个特征切片依照特定的顺序进行输入,当前时刻的输出信号需要作为下一时段的输入信号,因此其无法实现并行计算。而空洞卷积则可以同时对整个特征序列进行并行处理,同时也通过扩大感受野充分提取特征序列的上下文信息,更有利于后续的分类识别,从而在保证识别精度的同时提高运算速度。
通过上述可知,本公开的文本识别方法,利用空洞卷积提取特征切片的上下文信息,使得特征序列充分融合上下文信息,在保证识别精度的同时实现该过程的并行化处理,相较于传统的RNN和BiLSTM解码模块提高运算速度。
在一些实施方式中,本公开文本识别方法可以通过神经网络实现,图2中示出了实现本公开方法的网络结构的一些实施方式,下面结合图2网络结构对本公开方法进一步说明。
如图2所示,在一些实施方式中,本公开文本识别网络包括:文本检测网络100、特征提取网络200、嵌入有注意力模块的时间卷积网络300以及文本分类网络400。
文本检测网络100用于识别自然场景图像中的文本行区域,例如车辆图像中的车牌号区域、街道图像中的广告牌区域、文档图像中的文本行区域等。文本检测网络100可采用例如文字检测网络CTPN实现,CPTN对带有文本的自然场景图像进行文本行检测,得到自然场景图像中各个文本行区域的检测框位置,进而通过检测框坐标提取得到文本图像。其中,场景图像可以是图像采集设备采集的单帧图像,也可以是图像采集设备采集的视频流中的帧图像,本公开对此不作限制。
在一个示例中,如图3所示,以车牌识别场景为例,输入场景图像10,文本检测网络100通过例如CTPN检测处理后得到文本图像20,也即场景图像10中包含的车牌号区域。
在另一个示例中,以广告牌识别为例,输入包含至少一个广告牌的街道图像,文本检测网络100通过例如CTPN检测处理后得到对应各个广告牌区域的文本图像,也即多个广告牌区域的图像。
在又一个示例中,以文档图像识别为例,输入包含至少一个文本行区域的文档图像,文本检测网络100通过例如CTPN检测处理后得到对应各个文本行区域的文本图像。
在一些实施方式中,在利用CTPN对文本检测时,还可以对文本图像进行相应的处理,例如对倾斜图像进行旋转处理等,更利于后续的特征提取。本领域技术人员对此能够理解,本公开对此不再赘述。
特征提取网络200用于对输入的文本图像20进行特征提取,如图4所示,特征提取网络200得到第一特征序列的过程包括:
S410、对文本图像进行卷积处理,得到文本图像的特征图。
S420、基于特征图处理得到第一特征序列。
具体来说,在一个示例中,仍以图3中的车牌识别场景为例进行说明。特征提取网络200的基础结构可采用VGG网络结构。
如图5所示,输入图像为文本图像20,在经过卷积(CNN)处理后,经过池化层得到C*W*1的特征图30,其中C为特征的通道数,W为序列长度,1为序列高度。然后把卷积提取得到的特征图30按列切分进行序列映射(Map to Sequence)得到第一特征序列40。图5中所示的框41、42即表示第一特征序列40中的特征切片,每个特征切片表示一个大小为C的特征向量,也即待识别文本的特征表达。
在一些实施方式中,特征提取网络200的输入图像可以是按照一定batch size的批图像,也可以是单张图像,本公开对此不作限制。
时间卷积网络(TCN)300用于提取更高层的特征,也即融合特征序列的上下文信息。在本实施方式中,时间卷积网络300包括1个或多个时间卷积子模块,例如图6所示中,时间卷积网络由3个时间卷积子模块串联构成,其中每个时间卷积子模块的网络结构如图7所示。
如图7所示,时间卷积子模块依次包括空洞卷积层301、BN层302以及激活层303,并且时间卷积子模块可以包括多层的空洞卷积操作,例如图7中包括两层空洞卷积层301。第一特征序列经过空洞卷积层301提取特征切片的上下文信息,BN层的作用是对激活层303的输入进行归一化处理,解决数据偏移和增大的影响,可以增加训练速度,防止网络过拟合,提高泛化能力。
在最后一层的激活层之前,时间卷积子模块中还嵌入有注意力模块304,用于为最后输出的特征序列分配注意力权值。注意力模块304可以将某个时刻输出特征切片的隐层节点状态,与输入的各特征切片的隐层节点状态进行对比,获取该特征切片和每个输入特征切片对应的对齐可能性,然后经过例如Softmax层进行归一化处理,即可得到符合概率分布取值区间的各特征切片的注意力权值。继续参照图7,时间卷积子模块还连接有残差模块305,残差模块305用于实现跳层连接,解决网络深度带来的梯度消失问题。
在本实施方式中,在经过三个时间卷积子模块处理之后,输出得到融合了上下文以及注意力权值的第二特征序列。第二特征序列的长度可以与第一特征序列保持一致,也可以不一致,本公开对此不作限制。
值得说明的是,对于注意力模块304,在本公开实施方式中,其可以是例如空间注意力模块、通道注意力模块、混合注意力模块等,本公开对此不作限制。在一些实施方式中,考虑到对文本位置的精确检测,可采用空间注意力模块作为注意力模块304。
另外,在一些实施方式中,对于三个时间卷积子模块的空洞卷积层301,其空洞卷积的扩张率可依次增大,从而使得特征切片之间的信息在更早的特征切片位置被捕捉到,逐渐扩大后层输出的感受野,充分融合上下文信息。
文本分类网络400用于根据时间卷积网络300输出的融合有注意力权值第二特征序列,预测输出识别结果。在一些实施方式中,如图8所示,本公开文本识别方法包括:
S810、基于第二特征序列和注意力权值,得到各特征切片的分类结果。
S820、对各特征切片的分类结果进行解析处理,得到待识别文本的识别结果。
在一个示例中,文本分类网络400可采用例如全连接层实现,全连接层包括C个输入神经元和N个输出神经元,N表示分类数。第二特征序列经过全连接层结合注意力权值进行分类处理之后,得到的预测结果中包括每个特征切片的类别概率分布,对于每个特征切片,取概率最大的类别作为该特征切片的分类类别,也即该特征切片的分类结果。
在得到每个特征切片的分类结果之后,可利用例如CTC解析算法处理得到待识别文本的识别结果。在一个示例中,如图9所示,在对第二特征序列分类处理后,得到的预测结果为图9中序列801所示,在序列801中,“∈”为占位符,在网络训练中一般默认为第0类,占位符一般对应于图像上的空白位置。然后合并除占位符之外连续出现的字符,例如序列801中“hhe”合并为“he”,得到序列802。然后删除序列802中的占位符“∈”,得到序列803,最后输出待识别文本的识别结果为序列804,也即“hello”。
图10中示出了对本公开一些实施方式中文本识别网络的训练过程,下面进行具体说明。
如图10所示,在一些实施方式中,本公开文本识别方法包括:
S1010、获取样本文本图像集。
具体来说,样本文本图像集包括多个样本文本图像,每个样本文本图像包括文本行,例如车辆图像中的车牌号、街道图像中的广告牌、文档图像中的文本行等。同时,每个样本文本图像还包括与文本行对应的标签信息,也即真实值,标签信息可以通过人工标注得到,也可以通过神经网络标注得到,本公开对此不作限制。
S1020、将样本文本图像集输入未训练的特征提取网络,并依次通过未训练的特征提取网络、未训练的时间卷积网络以及未训练的文本分类网络,得到各文本行对应的识别结果。
具体来说,结合图2所示,将样本文本图像集输入未训练的文本检测网络100和未训练的特征提取网络200,得到输出的第一特征序列,未训练的时间卷积网络300根据第一特征序列处理得到融合注意力权值以及上下文信息的第二特征序列,未训练的文本分类网络400根据第二特征序列输出对应的识别结果,也即输出值。
S1030、基于识别结果与标签信息之间的差异,调整未训练的特征提取网络、未训练的时间卷积网络以及未训练的文本分类网络中至少之一的网络参数,直至差异满足收敛条件。
具体而言,获取各样本文本图像的输出值与标签信息之间的差异,也即损失(loss),并且根据该差异调整特征提取网络200、时间卷积网络300以及文本分类网络400中至少之一的网络参数,直至满足收敛条件,即可完成网络训练。
在一些实施方式中,还包括对文本检测网络100的训练过程,本领域技术人员参照上述说明即可实现,本公开对此不再赘述。
通过上述可知,本公开的文本识别方法,采用空洞卷积提取特征切片的上下文信息,使得特性序列充分融合上下文信息,提高网络鲁棒性,而且在保证识别精度的同时实现该过程的并行化处理,相较于传统的RNN和BiLSTM解码模块提高了运算速度,并且结合注意力机制准确检测文本位置,提高网络识别精度。
第二方面,本公开实施方式提供了一种文本识别装置。图11中示出了本公开文本识别装置的一些实施方式,如图11所示,本公开文本识别装置包括:
特征提取模块1101,被配置为对文本图像进行特征提取,得到第一特征序列;第一特征序列包括多个特征切片,特征切片表示待识别文本的特征向量;
处理模块1102,被配置为基于第一特征序列的多个特征切片之间的上下文信息,对第一特征序列进行处理,得到第二特征序列;
确定模块1103,被配置为根据第二特征序列,确定第二特征序列中各个特征切片的注意力权值;
文本识别模块1104,被配置为基于第二特征序列和注意力权值,得到待识别文本的识别结果。
通过上述可知,本公开的文本识别方法,基于特征切片之间的上下文信息对第一特征序列进行处理得到第二特征序列,使其充分融合上下文信息,并且结合注意力机制准确检测文本位置,提高网络识别精度。
在一些实施方式中,特征提取模块1101具体被配置为:
对文本图像进行卷积处理,得到文本图像的特征图;
基于特征图处理得到第一特征序列。
在一些实施方式中,处理模块1102具体被配置为:
对第一特征序列进行空洞卷积处理,得到第二特征序列。
在一些实施方式中,文本识别模块1104具体被配置为:
基于第二特征序列和注意力权值,得到各特征切片的分类结果;
对各特征切片的分类结果进行解析处理,得到待识别文本的识别结果。
在一些实施方式中,本公开的文本识别装置还包括:
获取模块,被配置为获取场景图像,并由场景图像中检测得到至少一个文本图像。
在一些实施方式中,场景图像包括车辆,获取模块具体被配置为:
由场景图像中检测得到至少一个车牌图像,作为文本图像。
在一些实施方式中,注意力权值包括以下中至少之一:
空间注意力权值、通道注意力权值以及混合注意力权值。
通过上述可知,本公开的文本识别装置,采用空洞卷积提取特征切片的上下文信息,使得特性序列充分融合上下文信息,提高网络鲁棒性,而且在保证识别精度的同时实现该过程的并行化处理,相较于传统的RNN和BiLSTM解码模块提高了运算速度,并且结合注意力机制准确检测文本位置,提高网络识别精度。
第三方面,本公开实施方式提供了一种电子设备,包括:
处理器;和
存储器,存储有能够被所述处理器读取的计算机指令,当所述计算机指令被读取时,所述处理器执行根据第一方面中任一项实施方式所述的方法。
第四方面,本公开实施方式提供了一种存储介质,用于存储计算机可读指令,所述计算机可读指令用于使计算机执行根据第一方面中任一实施方式所述的方法。
具体而言,图12示出了适于用来实现本公开方法的计算机***600的结构示意图,通过图12所示***,可实现上述处理器及存储介质相应功能。
如图12所示,计算机***600包括处理器601,其可以根据存储在存储器602中的程序或者从存储部分608加载到存储器602中的程序而执行各种适当的动作和处理。在存储器602中,还存储有***600操作所需的各种程序和数据。处理器601和存储器602通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施方式,上文方法过程可以被实现为计算机软件程序。例如,本公开的实施方式包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行上述方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。
附图中的流程图和框图,图示了按照本公开各种实施方式的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
显然,上述实施方式仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本公开创造的保护范围之中。

Claims (12)

1.一种文本识别方法,其特征在于,包括:
对文本图像进行特征提取,得到第一特征序列;所述第一特征序列包括多个特征切片,所述特征切片表示待识别文本的特征向量;
基于所述第一特征序列的多个特征切片之间的上下文信息,对所述第一特征序列进行处理,得到第二特征序列;
根据所述第二特征序列,确定所述第二特征序列中各个所述特征切片的注意力权值;
基于所述第二特征序列和所述注意力权值,得到所述待识别文本的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述对文本图像进行特征提取,得到第一特征序列,包括:
对所述文本图像进行卷积处理,得到所述文本图像的特征图;
基于所述特征图处理得到所述第一特征序列。
3.根据权利要求1或2所述的方法,其特征在于,所述基于所述第一特征序列的多个特征切片之间的上下文信息,对所述第一特征序列进行处理,得到第二特征序列,包括:
对所述第一特征序列进行空洞卷积处理,得到所述第二特征序列。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述基于所述第二特征序列和所述注意力权值,得到所述待识别文本的识别结果,包括:
基于所述第二特征序列和所述注意力权值,得到各所述特征切片的分类结果;
对各所述特征切片的所述分类结果进行解析处理,得到所述待识别文本的所述识别结果。
5.根据权利要求1至4任一项所述的方法,其特征在于,在所述对文本图像进行特征提取,得到第一特征序列之前,所述方法还包括:
获取场景图像,并由所述场景图像中检测得到至少一个所述文本图像。
6.根据权利要求5所述的方法,其特征在于,所述场景图像包括车辆,所述由所述场景图像中检测得到至少一个所述文本图像,包括:
由所述场景图像中检测得到至少一个车牌图像,作为所述文本图像。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述注意力权值包括以下中至少之一:
空间注意力权值、通道注意力权值以及混合注意力权值。
8.根据权利要求1至7任一项所述的方法,其特征在于,
所述对文本图像进行特征提取,得到第一特征序列,包括:
通过特征提取网络对所述文本图像进行特征提取,得到所述第一特征序列;
所述基于所述第一特征序列的多个特征切片之间的上下文信息,对所述第一特征序列进行处理,得到第二特征序列,包括:
通过时间卷积网络基于所述第一特征序列的多个特征切片之间的上下文信息对所述第一特征序列进行处理,得到所述第二特征序列;
所述根据所述第二特征序列,确定所述第二特征序列中各个所述特征切片的注意力权值,包括:
通过所述时间卷积网络根据所述第二特征序列,确定所述第二特征序列中各个特征切片的注意力权值;
所述基于所述第二特征序列和所述注意力权值,得到所述待识别文本的识别结果,包括:
通过文本分类网络基于所述第二特征序列和所述注意力权值,得到所述待识别文本的所述识别结果。
9.根据权利要求8所述的方法,其特征在于,还包括如下网络训练的过程:
获取样本文本图像集;所述样本文本图像集中的每个样本文本图像包括文本行以及所述文本行对应的标签信息;
将所述样本文本图像集输入未训练的特征提取网络,并依次通过未训练的特征提取网络、未训练的时间卷积网络以及未训练的文本分类网络,得到各所述文本行对应的识别结果;
基于所述识别结果与所述标签信息之间的差异,调整未训练的特征提取网络、未训练的时间卷积网络以及未训练的文本分类网络中至少之一的网络参数,直至所述差异满足收敛条件。
10.一种文本识别装置,其特征在于,包括:
特征提取模块,被配置为对文本图像进行特征提取,得到第一特征序列;所述第一特征序列包括多个特征切片,所述特征切片表示待识别文本的特征向量;
处理模块,被配置为基于所述第一特征序列的多个特征切片之间的上下文信息,对所述第一特征序列进行处理,得到第二特征序列;
确定模块,被配置为根据所述第二特征序列,确定所述第二特征序列中各个所述特征切片的注意力权值;
文本识别模块,被配置为基于所述第二特征序列和所述注意力权值,得到所述待识别文本的识别结果。
11.一种电子设备,其特征在于,包括:
处理器;和
存储器,存储有能够被所述处理器读取的计算机指令,当所述计算机指令被读取时,所述处理器执行根据权利要求1至9任一项所述的方法。
12.一种存储介质,其特征在于,用于存储计算机可读指令,所述计算机可读指令用于使计算机执行根据权利要求1至9任一项所述的方法。
CN202110220330.1A 2021-02-26 2021-02-26 文本识别方法及装置 Pending CN112784841A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110220330.1A CN112784841A (zh) 2021-02-26 2021-02-26 文本识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110220330.1A CN112784841A (zh) 2021-02-26 2021-02-26 文本识别方法及装置

Publications (1)

Publication Number Publication Date
CN112784841A true CN112784841A (zh) 2021-05-11

Family

ID=75761982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110220330.1A Pending CN112784841A (zh) 2021-02-26 2021-02-26 文本识别方法及装置

Country Status (1)

Country Link
CN (1) CN112784841A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627243A (zh) * 2021-06-30 2021-11-09 中国科学院深圳先进技术研究院 一种文本识别方法及相关装置
CN114170482A (zh) * 2022-02-11 2022-03-11 阿里巴巴达摩院(杭州)科技有限公司 模型训练方法、装置、设备及介质
CN114281041A (zh) * 2021-12-23 2022-04-05 浙江中控技术股份有限公司 流程图创建方法、模型的训练方法、装置、设备及介质
CN114693941A (zh) * 2022-03-31 2022-07-01 湖南大学 文本识别方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180005082A1 (en) * 2016-04-11 2018-01-04 A2Ia S.A.S. Systems and methods for recognizing characters in digitized documents
CN109902622A (zh) * 2019-02-26 2019-06-18 中国科学院重庆绿色智能技术研究院 一种用于登机牌信息验证的文字检测识别方法
CN110738262A (zh) * 2019-10-16 2020-01-31 北京市商汤科技开发有限公司 文本识别方法和相关产品
CN111428727A (zh) * 2020-03-27 2020-07-17 华南理工大学 基于序列变换纠正及注意力机制的自然场景文本识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180005082A1 (en) * 2016-04-11 2018-01-04 A2Ia S.A.S. Systems and methods for recognizing characters in digitized documents
CN109902622A (zh) * 2019-02-26 2019-06-18 中国科学院重庆绿色智能技术研究院 一种用于登机牌信息验证的文字检测识别方法
CN110738262A (zh) * 2019-10-16 2020-01-31 北京市商汤科技开发有限公司 文本识别方法和相关产品
CN111428727A (zh) * 2020-03-27 2020-07-17 华南理工大学 基于序列变换纠正及注意力机制的自然场景文本识别方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627243A (zh) * 2021-06-30 2021-11-09 中国科学院深圳先进技术研究院 一种文本识别方法及相关装置
CN113627243B (zh) * 2021-06-30 2022-09-30 中国科学院深圳先进技术研究院 一种文本识别方法及相关装置
WO2023273196A1 (zh) * 2021-06-30 2023-01-05 中国科学院深圳先进技术研究院 一种文本识别方法及相关装置
CN114281041A (zh) * 2021-12-23 2022-04-05 浙江中控技术股份有限公司 流程图创建方法、模型的训练方法、装置、设备及介质
CN114170482A (zh) * 2022-02-11 2022-03-11 阿里巴巴达摩院(杭州)科技有限公司 模型训练方法、装置、设备及介质
CN114693941A (zh) * 2022-03-31 2022-07-01 湖南大学 文本识别方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN109117777B (zh) 生成信息的方法和装置
CN111652217B (zh) 文本检测方法、装置、电子设备及计算机存储介质
CN112784841A (zh) 文本识别方法及装置
CN113255694B (zh) 训练图像特征提取模型和提取图像特征的方法、装置
CN106897681B (zh) 一种遥感图像对比分析方法及***
CN106372624B (zh) 人脸识别方法及***
CN110084172B (zh) 文字识别方法、装置和电子设备
CN114187311A (zh) 一种图像语义分割方法、装置、设备及存储介质
CN109409288B (zh) 图像处理方法、装置、电子设备和存储介质
CN112541448B (zh) 一种行人重识别方法、装置、电子设备和存储介质
CN112668522B (zh) 一种人体关键点与人体掩码联合检测网络及方法
CN112819008B (zh) 实例检测网络的优化方法、装置、介质及电子设备
CN114283350A (zh) 视觉模型训练和视频处理方法、装置、设备及存储介质
Asgarian Dehkordi et al. Vehicle type recognition based on dimension estimation and bag of word classification
CN111402113A (zh) 图像处理方法、装置、电子设备及计算机可读介质
CN112613474B (zh) 一种行人重识别的方法和装置
Kumar et al. Improved YOLOv4 approach: a real time occluded vehicle detection
CN114463552A (zh) 迁移学习、行人重识别方法及相关设备
CN112016434A (zh) 一种基于注意力机制3d残差网络的镜头运动识别方法
CN112084954A (zh) 视频目标的检测方法、装置、电子设备及存储介质
CN111444834A (zh) 图像文本行检测方法、装置、设备及存储介质
CN116630917A (zh) 一种车道线检测方法
Kim et al. ESSN: Enhanced semantic segmentation network by residual concatenation of feature maps
Abdullah et al. Contour Based Tracking for Driveway Entrance Counting System
CN113971830A (zh) 一种人脸识别方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210511