CN115797948A - 一种文字识别方法、装置及设备 - Google Patents
一种文字识别方法、装置及设备 Download PDFInfo
- Publication number
- CN115797948A CN115797948A CN202211615905.0A CN202211615905A CN115797948A CN 115797948 A CN115797948 A CN 115797948A CN 202211615905 A CN202211615905 A CN 202211615905A CN 115797948 A CN115797948 A CN 115797948A
- Authority
- CN
- China
- Prior art keywords
- features
- feature
- visual
- semantic
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 94
- 230000000007 visual effect Effects 0.000 claims abstract description 392
- 230000004927 fusion Effects 0.000 claims abstract description 172
- 238000004458 analytical method Methods 0.000 claims abstract description 25
- 238000013507 mapping Methods 0.000 claims description 17
- 238000003860 storage Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 description 47
- 238000010586 diagram Methods 0.000 description 15
- 238000000605 extraction Methods 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000007499 fusion processing Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 10
- 230000003993 interaction Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 239000000047 product Substances 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本申请提供一种文字识别方法、装置及设备,该方法包括:确定待识别图像对应的图像特征,所述待识别图像包括待识别文字;对所述图像特征进行视觉分析得到初始视觉特征,对所述图像特征进行语义分析得到初始语义特征,确定所述初始视觉特征与所述初始语义特征之间的相似度特征;基于所述初始视觉特征和所述相似度特征确定目标视觉特征,基于所述初始语义特征和所述相似度特征确定目标语义特征;基于所述目标视觉特征和所述目标语义特征确定融合特征,基于所述融合特征确定所述待识别图像中的所述待识别文字的文字识别结果。通过本申请的技术方案,能够对文字进行有效识别,有效提升文字识别的精度和文字识别的性能,能够得到准确的文字识别结果。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种文字识别方法、装置及设备。
背景技术
文字识别是利用计算机自动识别字符的技术,是模式识别应用的一个重要领域。为了实现文字识别,可以采集包括待识别文字的待识别图像,获取待识别图像的图像特征,然后基于图像特征确定待识别图像中的待识别文字的文字识别结果,从而实现文字识别。然而,在上述文字识别方式中,只关注待识别图像的图像特征,针对视觉条件较差(如环境亮度低等)、成像条件较差、文字遮挡模糊等应用场景,待识别图像的清晰度较低,从而导致无法基于待识别图像的图像特征得到准确的文字识别结果,文字识别的准确性较低。
发明内容
本申请提供一种文字识别方法,所述方法包括:
确定待识别图像对应的图像特征,所述待识别图像包括待识别文字;
对所述图像特征进行视觉分析得到初始视觉特征,对所述图像特征进行语义分析得到初始语义特征,确定所述初始视觉特征与所述初始语义特征之间的相似度特征;基于所述初始视觉特征和所述相似度特征确定目标视觉特征,基于所述初始语义特征和所述相似度特征确定目标语义特征;
基于所述目标视觉特征和所述目标语义特征确定融合特征,基于所述融合特征确定所述待识别图像中的所述待识别文字的文字识别结果。
本申请提供一种文字识别装置,所述装置包括:
确定模块,用于确定待识别图像对应的图像特征,所述待识别图像包括待识别文字;对所述图像特征进行视觉分析得到初始视觉特征,对所述图像特征进行语义分析得到初始语义特征,确定所述初始视觉特征与所述初始语义特征之间的相似度特征;基于所述初始视觉特征和所述相似度特征确定目标视觉特征,基于所述初始语义特征和所述相似度特征确定目标语义特征;
识别模块,用于基于所述目标视觉特征和所述目标语义特征确定融合特征,基于所述融合特征确定所述待识别图像中的所述待识别文字的文字识别结果。
本申请提供一种电子设备,包括:处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令;其中,所述处理器用于执行机器可执行指令,以实现上述示例的文字识别方法。
由以上技术方案可见,本申请实施例中,在得到待识别图像对应的图像特征之后,可以对图像特征进行视觉分析得到初始视觉特征,对图像特征进行语义分析得到初始语义特征,确定初始视觉特征与初始语义特征之间的相似度特征,基于初始视觉特征和相似度特征确定目标视觉特征,基于初始语义特征和相似度特征确定目标语义特征,基于目标视觉特征和目标语义特征确定融合特征,基于融合特征确定待识别图像中的待识别文字的文字识别结果。这样,在文字识别过程中,可以结合视觉特征和语义特征实现文字识别,视觉特征中涵盖语义特性(基于相似度特征将语义特性关联到视觉特征),语义特征中涵盖视觉特性(基于相似度特征将视觉特性关联到语义特征),从而充分利用视觉特征和语义特征之间的关联,最后,将视觉特征和语义特征进行有机融合,利用融合后特征实现文字识别,能够对文字进行有效识别,有效提升文字识别的精度和文字识别的性能,能够得到准确的文字识别结果,文字识别的准确性很高。比如说,针对视觉条件较差、成像条件较差、文字遮挡模糊等应用场景,也可以结合视觉特征和语义特征,得到准确的文字识别结果。
附图说明
为了更加清楚地说明本申请实施例或者现有技术中的技术方案,下面将对本申请实施例或者现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据本申请实施例的这些附图获得其他的附图。
图1是本申请一种实施方式中的文字识别方法的流程示意图;
图2是本申请一种实施方式中的文字识别过程的示意图;
图3是本申请一种实施方式中的文字识别方法的流程示意图;
图4是本申请一种实施方式中的融合权重的自适应调整示意图;
图5是本申请一种实施方式中的目标网络模型的结构示意图;
图6是本申请一种实施方式中的文字识别装置的结构示意图;
图7是本申请一种实施方式中的电子设备的硬件结构图。
具体实施方式
在本申请实施例使用的术语仅仅是出于描述特定实施例的目的,而非限制本申请。本申请和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其它含义。还应当理解,本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,此外,所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本申请实施例中提出一种文字识别方法,参见图1所示,该方法可以包括:
步骤101、确定待识别图像对应的图像特征,待识别图像包括待识别文字。
示例性的,待识别图像中的待识别文字可以包括但不限于手写体文字,当然,待识别文字也可以是非手写体文字,对此待识别文字的类型不作限制。
步骤102、对该待识别图像对应的图像特征进行视觉分析,以得到初始视觉特征,对该待识别图像对应的图像特征进行语义分析,以得到初始语义特征,并确定该初始视觉特征与该初始语义特征之间的相似度特征。
示例性的,确定该初始视觉特征与该初始语义特征之间的相似度特征,可以包括但不限于:将该初始视觉特征映射为目标维度的视觉特征,将该初始语义特征映射为目标维度的语义特征;其中,目标维度的视觉特征与目标维度的语义特征的尺寸相同,且目标维度的视觉特征与目标维度的语义特征的特征点对齐。计算目标维度的视觉特征与目标维度的语义特征之间的相似度特征。
步骤103、基于该初始视觉特征和该相似度特征确定目标视觉特征,并基于该初始语义特征和该相似度特征确定目标语义特征。
示例性的,基于该初始视觉特征和该相似度特征确定目标视觉特征,可以包括但不限于:基于初始语义特征和相似度特征确定语义特征中与视觉特征匹配的语义关联特征,并基于初始视觉特征和语义关联特征确定目标视觉特征。
示例性的,基于该初始语义特征和该相似度特征确定目标语义特征,可以包括但不限于:基于初始视觉特征和相似度特征确定视觉特征中与语义特征匹配的视觉关联特征,并基于初始语义特征和视觉关联特征确定目标语义特征。
步骤104、基于目标视觉特征和目标语义特征确定融合特征,并基于该融合特征确定待识别图像中的待识别文字的文字识别结果。
示例性的,基于目标视觉特征和目标语义特征确定融合特征,可以包括但不限于:对目标视觉特征和目标语义特征进行拼接,得到拼接特征;基于该拼接特征确定目标视觉特征对应的第一融合权重以及目标语义特征对应的第二融合权重,并基于目标视觉特征、目标视觉特征对应的第一融合权重、目标语义特征和目标语义特征对应的第二融合权重确定融合特征。
示例性的,基于该拼接特征确定目标视觉特征对应的第一融合权重以及目标语义特征对应的第二融合权重,可以包括但不限于:基于该拼接特征和第一网络参数确定第一输出特征,将第一输出特征映射为目标区间的第一概率值;基于第一概率值确定目标视觉特征对应的第一融合权重,并基于第一融合权重确定目标语义特征对应的第二融合权重;其中,在拼接特征中的视觉特征优于语义特征时,第一网络参数用于使第一概率值大于概率阈值;在拼接特征中的语义特征优于视觉特征时,第一网络参数用于使第一概率值小于概率阈值。
或者,可以基于该拼接特征和第二网络参数确定第二输出特征,将该第二输出特征映射为目标区间的第二概率值,并基于该第二概率值确定该目标语义特征对应的第二融合权重,并基于该第二融合权重确定该目标视觉特征对应的第一融合权重;其中,在该拼接特征中的视觉特征优于语义特征时,则该第二网络参数用于使第二概率值小于概率阈值;在该拼接特征中的语义特征优于视觉特征时,则该第二网络参数用于使第二概率值大于概率阈值。
由以上技术方案可见,本申请实施例中,在得到待识别图像对应的图像特征之后,可以对图像特征进行视觉分析得到初始视觉特征,对图像特征进行语义分析得到初始语义特征,确定初始视觉特征与初始语义特征之间的相似度特征,基于初始视觉特征和相似度特征确定目标视觉特征,基于初始语义特征和相似度特征确定目标语义特征,基于目标视觉特征和目标语义特征确定融合特征,基于融合特征确定待识别图像中的待识别文字的文字识别结果。这样,在文字识别过程中,可以结合视觉特征和语义特征实现文字识别,视觉特征中涵盖语义特性(基于相似度特征将语义特性关联到视觉特征),语义特征中涵盖视觉特性(基于相似度特征将视觉特性关联到语义特征),从而充分利用视觉特征和语义特征之间的关联,最后,将视觉特征和语义特征进行有机融合,利用融合后特征实现文字识别,能够对文字进行有效识别,有效提升文字识别的精度和文字识别的性能,能够得到准确的文字识别结果,文字识别的准确性很高。比如说,针对视觉条件较差、成像条件较差、文字遮挡模糊等应用场景,也可以结合视觉特征和语义特征,得到准确的文字识别结果。
以下结合具体应用场景,对本申请实施例的技术方案进行说明。
为了实现文字识别,可以采集包括待识别文字的待识别图像,获取待识别图像对应的图像特征,然后,基于图像特征确定待识别图像中的待识别文字的文字识别结果,从而实现文字识别。然而,在上述文字识别方式中,只关注待识别图像对应的图像特征,若待识别图像的清晰度比较低,则无法基于待识别图像对应的图像特征得到准确的文字识别结果,文字识别的准确性较低。
针对上述发现,本申请实施例中提出一种文字识别方法,通过引入多模态信息,分别从视觉和语义等两个模态对文字进行识别,充分利用模态之间的关联,两个模态之间可以进行相互更新、相互优化和相互促进,最终将两个模态的信息(即视觉和语义的更新结果)进行自适应融合,利用融合特征实现文字识别,有效提升文字识别的精度,提升文字识别的性能。其中,两个模态是视觉模态和语义模态,即可以结合视觉特征和语义特征实现文字识别,视觉特征中涵盖语义特性,语义特征中涵盖视觉特性,从而充分利用视觉特征和语义特征之间的关联,最后,将视觉特征和语义特征进行有机融合实现文字识别。
参见图2所示,本申请实施例中的文字识别方法,可以包括视觉编码过程、多模态更新过程,多模态融合过程和识别结果输出过程。其中,多模态更新过程可以包括视觉建模过程和语义建模过程,在视觉建模过程中,引入视觉模态的视觉特征,在语义建模过程中,引入语义模态的语义特征,从而能够从视觉和语义等两个模态对文字进行识别。视觉建模过程和语义建模过程之间能够相互更新、相互优化和相互促进,即视觉特征中涵盖语义特性,语义特征中涵盖视觉特性,从而能够充分利用视觉特征和语义特征之间的关联。其中,多模态融合过程可以将两个模态的信息(即视觉特征和语义特征)进行自适应的融合,得到融合特征,继而能够基于融合特征实现文字识别。参见图2所示,视觉编码过程、多模态更新过程,多模态融合过程和识别结果输出过程依次连成一个端到端的整体来运行,能够基于这几个过程有效实现文字识别。
参见图3所示,为文字识别方法的流程示意图,该方法可以包括:
步骤301、获取待识别图像,该待识别图像可以包括待识别文字。
示例性的,可以获取待识别图像,待识别图像可以是相机或者摄像头采集的图像,对此待识别图像的来源不作限制。其中,待识别图像可以包括待识别文字,该待识别文字可以是手写体文字,也可以是非手写体文字,对此待识别文字的类型不作限制。其中,待识别文字可以是各种语言的文字,如中文文字、英文文字等,待识别文字还可以是数字、符号、标志等,对此不作限制。
步骤302、确定待识别图像对应的图像特征。
示例性的,在得到待识别图像之后,可以基于待识别图像完成视觉编码过程,在视觉编码过程中,可以确定待识别图像对应的图像特征。比如说,可以采用图像特征提取算法确定待识别图像对应的图像特征,也可以采用网络模型确定待识别图像对应的图像特征,对此确定方式不作限制。
比如说,可以采用LBP(Local Binary Patterns,局部二值模式)算法、HOG(Histogram of Oriented Gradient,方向梯度直方图)算法、SIFT(Scale-invariantfeature transform,尺度不变特征变换)算法等图像特征提取算法,确定待识别图像对应的图像特征,对此图像特征提取算法的实现过程不作限制。
又例如,可以预先训练一个视觉编码网络,视觉编码网络可以是神经网络或者深度学习网络等,对此视觉编码网络的结构和训练过程不作限制,视觉编码网络用于提取图像特征,也可以称为图像特征提取网络。在将待识别图像输入给视觉编码网络之后,视觉编码网络可以输出待识别图像对应的图像特征。
在一种可能的实施方式中,视觉编码网络可以为卷积神经网络,卷积神经网络(Convolutional Neural Network,CNN)是一种前馈的人工神经网络,其神经元可以响应有限覆盖范围内的周围单元,并通过权值共享和特征汇聚,有效提取图像的结构信息。其中,视觉编码网络的功能可以是:为文字识别过程提供输入特征,也就是说,视觉编码网络对输入的待识别图像进行特征提取,得到待识别图像对应的图像特征,将图像特征供后续的文字识别过程使用。
示例性的,视觉编码网络可以包括但不限于卷积层(Conv)、池化层(Pooling)、批归一化层(BN)等,针对输入的待识别图像,可以不断使用卷积层、池化层、批归一化层进行特征提取,最终得到待识别图像对应的图像特征。其中,卷积层用于图像特征提取,池化层用于图像降采样,批归一化层用于图像归一化。
比如说,视觉编码网络的实现过程可以参见公式(1)所示:
V=F(x),V∈RC*H*W
在公式(1)中,V为视觉编码网络的输出特征,即待识别图像对应的图像特征,x为输入图像,即待识别图像,C代表输出特征的通道数,H代表输出特征的高度,W代表输出特征的宽度,F表示特征提取变换。
步骤303、基于待识别图像的图像特征确定目标视觉特征和目标语义特征。
示例性的,在得到待识别图像的图像特征之后,可以基于待识别图像的图像特征完成多模态更新过程,在多模态更新过程中,可以基于待识别图像的图像特征确定目标视觉特征和目标语义特征。比如说,基于待识别图像的图像特征,可以采用网络模型确定目标视觉特征和目标语义特征,也可以不采用网络模型,直接确定目标视觉特征和目标语义特征,对此确定方式不作限制。
示例性的,在多模态更新过程中,可以实现视觉模态和语义模态的特征更新交互,并实现两个模态的特征增强和信息双向传递,提升单模态特征的鲁棒性。通过对视觉模态信息(即视觉特征)和语义模态信息(即语义特征)进行相互更新,实现两个模态信息的同步优化,便于后续的特征融合。
在一种可能的实施方式中,多模态更新过程可以包括以下步骤:
步骤3031、对待识别图像对应的图像特征进行视觉分析得到初始视觉特征。
示例性的,在得到待识别图像对应的图像特征之后,可以采用图像特征提取算法对该图像特征进行视觉分析,得到初始视觉特征,也可以采用网络模型确定该图像特征对应的初始视觉特征,对此确定方式不作限制。
以采用网络模型确定该图像特征对应的初始视觉特征为例进行说明,可以预先训练一个多模态更新网络,多模态更新网络可以是神经网络或者深度学习网络等,对此多模态更新网络的结构和训练过程均不作限制。
多模态更新网络可以包括视觉建模子网络,视觉建模子网络用于对图像特征进行视觉分析以得到视觉特征,也称为视觉特征提取网络。在将待识别图像对应的图像特征输入给多模态更新网络中的视觉建模子网络后,视觉建模子网络可以对该图像特征进行视觉分析得到视觉特征,并输出该图像特征对应的视觉特征,为了区分方便,将视觉建模子网络输出的视觉特征称为初始视觉特征。
步骤3032、对待识别图像对应的图像特征进行语义分析得到初始语义特征。
示例性的,在得到待识别图像对应的图像特征之后,可以采用语义特征提取算法对该图像特征进行语义分析,得到初始语义特征,也可以采用网络模型确定该图像特征对应的初始语义特征,对此确定方式不作限制。
以采用网络模型确定该图像特征对应的初始语义特征为例进行说明,可以预先训练一个多模态更新网络,即步骤3031中的多模态更新网络。多模态更新网络还可以包括语义建模子网络,语义建模子网络用于对图像特征进行语义分析以得到语义特征,因此,也可以称为语义特征提取网络。在将待识别图像对应的图像特征输入给多模态更新网络中的语义建模子网络之后,语义建模子网络可以对该图像特征进行语义分析得到语义特征,并输出该图像特征对应的语义特征,为了区分方便,将语义建模子网络输出的语义特征称为初始语义特征。
步骤3033、确定初始视觉特征与初始语义特征之间的相似度特征。
示例性的,在得到初始视觉特征和初始语义特征之后,可以采用相似度算法确定初始视觉特征与初始语义特征之间的相似度特征,也可以采用网络模型确定初始视觉特征与初始语义特征之间的相似度特征,对此确定方式不作限制。
以采用网络模型确定初始视觉特征与初始语义特征之间的相似度特征为例进行说明,可以预先训练一个多模态更新网络,即步骤3031中的多模态更新网络。多模态更新网络还可以包括特征交互子网络,视觉建模子网络在得到初始视觉特征之后,可以将初始视觉特征输入给特征交互子网络,语义建模子网络在得到初始语义特征之后,可以将初始语义特征输入给特征交互子网络。特征交互子网络在得到初始视觉特征和初始语义特征之后,就可以确定初始视觉特征与初始语义特征之间的相似度特征,并输出这个相似度特征。
示例性的,为了确定初始视觉特征与初始语义特征之间的相似度特征,可以对初始视觉特征和初始语义特征进行空间投影,将初始视觉特征和初始语义特征映射到相同空间,在相同空间下进行相似度计算,得到相似度特征。
其中,相同空间可以理解为相同维度,即将初始视觉特征和初始语义特征映射到同一维度进行相似度计算,可以将映射后的维度称为目标维度,也就是说,将初始视觉特征映射为目标维度的视觉特征,将初始语义特征映射为目标维度的语义特征。目标维度的视觉特征与目标维度的语义特征的尺寸相同,且目标维度的视觉特征与目标维度的语义特征的特征点对齐。既然需要尺寸相同且特征点对齐,因此,目标维度可以是目标尺寸维度和特征点对齐维度。
目标尺寸维度可以是目标尺寸,即给出目标长度和目标高度,在得到初始视觉特征之后,先将初始视觉特征映射为目标尺寸的视觉特征,即映射后的视觉特征的长度为目标长度,映射后的视觉特征的高度为目标高度。在得到初始语义特征之后,先将初始语义特征映射为目标尺寸的语义特征,即映射后的语义特征的长度为目标长度,映射后的语义特征的高度为目标高度。显然,既然映射后的视觉特征和映射后的语义特征均为目标尺寸,因此,映射后的视觉特征(目标维度)和映射后的语义特征(目标维度)的尺寸相同。
特征点对齐维度是指需要将视觉特征中的特征点与语义特征中的特征点进行对齐,比如说,针对真实物理空间中的某一位置点,该位置点在视觉特征中对应的特征点与该位置点在语义特征中对应的特征点对齐,因此,在对初始视觉特征和初始语义特征进行空间投影时,需要使初始视觉特征中的特征点与初始语义特征中的特征点对齐,对此对齐方式不作限制,也就是说,在映射到目标维度之后,目标维度的视觉特征与目标维度的语义特征的特征点对齐。
综上所述,可以得到目标维度的视觉特征和目标维度的语义特征,目标维度的视觉特征与目标维度的语义特征的尺寸相同,且目标维度的视觉特征与目标维度的语义特征的特征点对齐。然后,可以计算目标维度的视觉特征与目标维度的语义特征之间的相似度特征,也就是初始视觉特征与初始语义特征之间的相似度特征。比如说,可以采用如下公式(2)计算相似度特征,当然,如下公式(2)只是一个示例,对此相似度特征的确定方式不作限制。
在公式(2)中,F表示目标维度的视觉特征与目标维度的语义特征之间的相似度特征,即初始视觉特征与初始语义特征之间的相似度特征,embed(visual)表示目标维度的视觉特征,embed(semantic)表示目标维度的语义特征。
步骤3034、基于初始语义特征和相似度特征确定语义特征中与视觉特征匹配的语义关联特征,比如说,将初始语义特征与相似度特征的乘积作为语义关联特征。显然,由于相似度特征是初始视觉特征与初始语义特征之间的相似度特征,因此,针对初始语义特征与相似度特征的乘积,就是初始语义特征中与初始视觉特征更为相似的信息,即语义特征中与视觉特征匹配的语义关联特征。
示例性的,在得到相似度特征之后,可以直接基于相似度特征确定语义特征中与视觉特征匹配的语义关联特征,也可以采用网络模型确定语义特征中与视觉特征匹配的语义关联特征,对此确定方式不作限制。比如说,多模态更新网络中的特征交互子网络在得到相似度特征之后,将初始语义特征与相似度特征的乘积作为语义关联特征,即初始语义特征中与视觉特征更为相似的信息。
步骤3035、基于初始视觉特征和相似度特征确定视觉特征中与语义特征匹配的视觉关联特征,比如说,将初始视觉特征与相似度特征的乘积作为视觉关联特征。显然,由于相似度特征是初始视觉特征与初始语义特征之间的相似度特征,因此,针对初始视觉特征与相似度特征的乘积,就是初始视觉特征中与初始语义特征更为相似的信息,即视觉特征中与语义特征匹配的视觉关联特征。
示例性的,在得到相似度特征之后,可以直接基于相似度特征确定视觉特征中与语义特征匹配的视觉关联特征,也可以采用网络模型确定视觉特征中与语义特征匹配的视觉关联特征,对此确定方式不作限制。比如说,多模态更新网络中的特征交互子网络在得到相似度特征之后,将初始视觉特征与相似度特征的乘积作为视觉关联特征,即初始视觉特征中与语义特征更为相似的信息。
步骤3036、基于初始视觉特征和语义关联特征确定目标视觉特征。比如说,将初始视觉特征与语义关联特征的加和作为目标视觉特征。显然,由于语义关联特征是语义特征中与视觉特征匹配的特征,因此,在将语义关联特征叠加到初始视觉特征时,就可以基于语义特征强化视觉特征,丰富视觉特征的信息。
示例性的,在得到语义关联特征之后,可以直接基于初始视觉特征和语义关联特征确定目标视觉特征,也可以采用网络模型确定目标视觉特征,对此确定方式不作限制。比如说,多模态更新网络中的特征交互子网络可以将语义关联特征输入给多模态更新网络中的视觉建模子网络,这样,视觉建模子网络就可以基于初始视觉特征和语义关联特征确定目标视觉特征。比如说,可以采用如下公式(3)确定目标视觉特征,当然,如下公式(3)只是一个示例。
在公式(3)中,visual表示初始视觉特征,F(visual,semantic)表示相似度特征,semantic表示初始语义特征,F(visual,semantic)*semantic表示语义特征中与视觉特征匹配的语义关联特征,表示目标视觉特征。
步骤3037、基于初始语义特征和视觉关联特征确定目标语义特征。比如说,将初始语义特征与视觉关联特征的加和作为目标语义特征。显然,由于视觉关联特征是视觉特征中与语义特征匹配的特征,因此,在将视觉关联特征叠加到初始语义特征时,就可以基于视觉特征强化语义特征,丰富语义特征的信息。
示例性的,在得到视觉关联特征之后,可以直接基于初始语义特征和视觉关联特征确定目标语义特征,也可以采用网络模型确定目标语义特征,对此确定方式不作限制。比如说,多模态更新网络中的特征交互子网络可以将视觉关联特征输入给多模态更新网络中的语义建模子网络,这样,语义建模子网络就可以基于初始语义特征和视觉关联特征确定目标语义特征。比如说,可以采用如下公式(4)确定目标语义特征,当然,如下公式(4)只是一个示例。
在公式(4)中,semantic表示初始语义特征,F(visual,semantic)表示相似度特征,visual表示初始视觉特征,F(visual,semantic)*visual表示视觉特征中与语义特征匹配的视觉关联特征,表示目标语义特征。
至此完成步骤303的多模态更新过程,得到目标视觉特征和目标语义特征。在多模态更新过程中,采用全局注意力机制进行特征更新,两个模态的特征(视觉特征和语义特征)可自适应的从其余模态信息挑选出可用的信息,即从视觉特征中获取与语义模态更为相似的信息叠加到语义特征中,从语义特征中获取与视觉模态更为相似的信息叠加到视觉特征中,从而直接增强原始模态特征丰富各自模态的信息,实现不同模态信息的有效交互和不同模态之间的信息强化。
步骤304、基于目标视觉特征和目标语义特征确定融合特征。
示例性的,在得到目标视觉特征和目标语义特征之后,可以基于目标视觉特征和目标语义特征完成多模态融合过程,在多模态融合过程中,基于目标视觉特征和目标语义特征确定融合特征。比如说,采用网络模型对目标视觉特征和目标语义特征进行融合,得到融合特征,也可以不采用网络模型,直接对目标视觉特征和目标语义特征进行融合,得到融合特征,对此确定方式不作限制。
示例性的,在多模态融合过程中,为不同模态的特征(即目标视觉特征和目标语义特征)自适应确定融合权重,根据不同模态特征进行有机融合,通过对不同模态特征的有机融合,实现不同模态信息的高效融合,丰富待识别文字的信息,丰富待识别文字的多模态特征,从而更准确对待识别文字进行识别。
在一种可能的实施方式中,多模态融合过程可以包括以下步骤:
步骤3041、对目标视觉特征和目标语义特征进行拼接,得到拼接特征。
示例性的,可以直接对目标视觉特征和目标语义特征进行拼接,得到拼接特征,也可以采用网络模型对目标视觉特征和目标语义特征进行拼接,得到拼接特征,对此确定方式不作限制。以采用网络模型为例,可以预先训练一个多模态融合网络,多模态融合网络可以是神经网络或者深度学习网络等,对此多模态融合网络的结构和训练过程均不作限制。多模态融合网络可以包括全连接网络,由全连接网络对目标视觉特征和目标语义特征进行拼接,得到拼接特征。
步骤3042、基于该拼接特征确定目标视觉特征对应的第一融合权重和目标语义特征对应的第二融合权重,第一融合权重与第二融合权重之和为固定值。
比如说,基于该拼接特征,可以采用网络模型确定第一融合权重和第二融合权重,也可以不采用网络模型,直接确定第一融合权重和第二融合权重,对此确定方式不作限制。显然,由于是基于拼接特征确定第一融合权重和第二融合权重,因此,第一融合权重和第二融合权重与待识别图像的拼接特征(即目标视觉特征和目标语义特征)有关,从而能够基于拼接特征自适应的调整第一融合权重和第二融合权重。既然不同待识别图像的拼接特征不同,那么,不同待识别图像对应的第一融合权重和第二融合权重也可以不同,即融合权重随着待识别图像的不同而变化,从而根据拼接特征的特性自适应学习第一融合权重和第二融合权重。比如说,参见图4所示,第一融合权重与第二融合权重之和是1,针对第一个待识别图像,目标视觉特征对应的第一融合权重为0.6,目标语义特征对应的第二融合权重为0.4,针对第二个待识别图像,目标视觉特征对应的第一融合权重为0.8,目标语义特征对应的第二融合权重为0.2。
在一种可能的实施方式中,可以基于拼接特征和第一网络参数确定第一输出特征,将第一输出特征映射为目标区间的第一概率值。基于第一概率值确定目标视觉特征对应的第一融合权重,例如,目标区间可以为[0,1]区间,可以将第一概率值作为第一融合权重。基于第一融合权重确定目标语义特征对应的第二融合权重,如可以将固定值(如1)与第一融合权重的差作为第二融合权重。
示例性的,在拼接特征中的视觉特征优于语义特征时,第一网络参数用于使第一概率值大于概率阈值(根据经验配置,如0.5);在拼接特征中的语义特征优于视觉特征时,第一网络参数用于使第一概率值小于概率阈值。
比如说,在采用网络模型确定第一融合权重和第二融合权重时,可以预先训练一个多模态融合网络,多模态融合网络可以包括Sigmoid网络,由Sigmoid网络确定第一融合权重。在得到第一融合权重之后,就可以基于第一融合权重确定出第二网络权重。Sigmoid网络的处理过程可以参见公式(5)所示,当然,公式(5)只是一个示例,对此Sigmoid网络的处理过程不作限制。
在公式(5)中,表示拼接特征,Wz表示第一网络参数,第一网络参数Wz是Sigmoid网络的权重,在多模态融合网络的训练过程中,就是对第一网络参数Wz进行调整优化,在多模态融合网络训练完成后,可以基于第一网络参数Wz控制拼接特征对应的第一融合权重,从而针对拼接特征的特性,能够动态实现融合权重的自适应调整,融合权重能够随着第一网络参数Wz的优化同步优化,表示第一输出特征,即第一网络参数Wz和拼接特征的乘积作为第一输出特征。Sigmoid表示将第一输出特征映射为目标区间的第一概率值,如将第一输出特征映射为[0,1]区间的第一概率值,z表示目标视觉特征对应的第一融合权重,即第一融合权重为第一概率值。
示例性的,在多模态融合网络的训练过程中,通过对第一网络参数Wz进行调整优化,能够使第一网络参数Wz控制拼接特征对应的第一融合权重,从而针对拼接特征的特性,实现融合权重的自适应调整。比如说,在拼接特征中的视觉特征优于语义特征时,第一网络参数Wz能够使第一概率值大于概率阈值(根据经验配置,如0.5),这样,能够使得目标视觉特征对应的第一融合权重大于目标语义特征对应的第二融合权重,从而使融合过程更加侧重于目标视觉特征。反之,在拼接特征中的语义特征优于视觉特征时,第一网络参数Wz能够使第一概率值小于概率阈值,这样,能够使得目标视觉特征对应的第一融合权重小于目标语义特征对应的第二融合权重,从而使融合过程更加侧重于目标语义特征。
其中,拼接特征中的视觉特征优于语义特征是指:视觉特征的可靠性更高,语义特征的可靠性更低,即视觉信息更强,而语义信息更弱。
此外,拼接特征中的语义特征优于视觉特征是指:视觉特征的可靠性更低,语义特征的可靠性更高,即视觉信息更弱,而语义信息更强。
综上所述,可以基于拼接特征确定目标视觉特征对应的第一融合权重,然后,将固定值1与第一融合权重的差作为目标语义特征对应的第二融合权重。
在另一种可能的实施方式中,可以基于拼接特征和第二网络参数确定第二输出特征,将第二输出特征映射为目标区间的第二概率值。基于第二概率值确定目标语义特征对应的第二融合权重,例如,目标区间可以为[0,1]区间,可以将第二概率值作为第二融合权重。基于第二融合权重确定目标视觉特征对应的第一融合权重,如可以将固定值(如1)与第二融合权重的差作为第一融合权重。
示例性的,在拼接特征中的视觉特征优于语义特征时,第二网络参数用于使第二概率值小于概率阈值(根据经验配置,如0.5);在拼接特征中的语义特征优于视觉特征时,第二网络参数用于使第二概率值大于概率阈值。
示例性的,该实现方式与上述实现方式的区别在于:在该实现方式中,基于Sigmoid网络确定目标语义特征对应的第二融合权重,而不是基于Sigmoid网络确定目标视觉特征对应的第一融合权重,在此不再重复赘述。
步骤3043、基于目标视觉特征、目标视觉特征对应的第一融合权重、目标语义特征和目标语义特征对应的第二融合权重确定融合特征。
示例性的,基于学习到的第一融合权重和第二融合权重,乘上对应的模态特征,再对加权后模态特征进行加和,就可以实现不同模态信息的有机结合,能够避免单模态特征单一性和串联多模态特征存在的误差累计问题。
比如说,基于目标视觉特征、目标视觉特征对应的第一融合权重、目标语义特征和目标语义特征对应的第二融合权重,可以采用如下公式(6)确定融合特征,当然,公式(6)只是一个示例,对此融合特征的确定方式不作限制。
至此,完成步骤304的多模态融合过程,得到融合特征。
步骤305、基于融合特征确定待识别图像中的待识别文字的文字识别结果。
示例性的,在得到融合特征之后,可以基于融合特征完成识别结果输出过程,在识别结果输出过程中,可以确定待识别图像中的待识别文字的文字识别结果,并输出待识别文字的文字识别结果。比如说,可以采用文本识别算法确定待识别图像中的待识别文字的文字识别结果,也可以采用网络模型确定待识别图像中的待识别文字的文字识别结果,对此确定方式不作限制。
比如说,可以预先训练一个文本识别网络,文本识别网络可以是神经网络或者深度学习网络等,对此文本识别网络的结构和训练过程不作限制,文本识别网络用于确定待识别图像中的待识别文字。在将融合特征输入给文本识别网络之后,文本识别网络可以输出待识别图像中的待识别文字的文字识别结果。
示例性的,文本识别网络可以包括CTC、Attention等,在字符识别中,文本识别网络可以为由卷积神经网络(CNN)和循环神经网络(RNN)组成的识别网络,能够利用融合特征进行识别和预测。比如说,将融合特征作为文本识别网络的输入端,采用识别图片中的字符串所需的序列预测网络进行预测,如可以直接使用ResNet作为特征提取网络,后接2层双向LSTM进行关系建模,最后用Attention解码得到最终的字符串预测结果,对此过程不作限制。
在一种可能的实施方式中,参见图5所示,可以预先训练一个目标网络模型,目标网络模型可以包括视觉编码网络、多模态更新网络、多模态融合网络和文本识别网络。其中,多模态更新网络可以包括视觉建模子网络、语义建模子网络和特征交互子网络,多模态融合网络可以包括全连接网络和Sigmoid网络。在目标网络模型的训练过程中,就是对视觉编码网络、多模态更新网络、多模态融合网络和文本识别网络中的网络参数进行训练,对此目标网络模型的训练过程不作限制。在目标网络模型训练完成后,就可以基于目标网络模型完成上述实施例的文字识别过程。比如说,可以由视觉编码网络完成视觉编码过程,即视觉编码网络执行步骤302,可以由多模态更新网络完成多模态更新过程,即多模态更新网络执行步骤303,可以由多模态融合网络完成多模态融合过程,即多模态融合网络执行步骤304,可以由文本识别网络完成识别结果输出过程,即文本识别网络执行步骤305,对目标网络模型的处理过程不再赘述。
由以上技术方案可见,本申请实施例中,在文字识别过程中,可以结合视觉特征和语义特征实现文字识别,视觉特征中涵盖语义特性(基于相似度特征将语义特性关联到视觉特征),语义特征中涵盖视觉特性(基于相似度特征将视觉特性关联到语义特征),从而充分利用视觉特征和语义特征之间的关联,最后,将视觉特征和语义特征进行有机融合,利用融合后特征实现文字识别,能够对文字进行有效识别,有效提升文字识别的精度和文字识别的性能,能够得到准确的文字识别结果,文字识别的准确性很高。比如说,针对视觉条件较差、成像条件较差、文字遮挡模糊等应用场景,也可以结合视觉特征和语义特征,得到准确的文字识别结果。能够对待识别图像中的手写体文字进行有效识别,对手写体文字的识别准确率带来了很大提高。提出一种基于深度学习的自适应多模态手写体文字识别方式,性能更好,能够充分将不同模态的信息进行合理交互和融合,保证稳定可靠的性能,对手写体文字进行整体识别,获得手写体文字的识别结果。能够充分利用多种模态的信息进行手写体文字识别,充分将多模态信息进行有机融合,将多模态建模的文本特征充分融合和利用。从多模态信息建模到多模态信息更新,实现目标文本的多模态建模,更为全面的刻画目标文本的特征表示。同时,多模态信息之间进行相互更新和优化,进一步提升多模态建模的质量,最终对优化后的多模态进行有机融合,实现完整手写体文字识别的目的。多模态更新、融合组件与其余模块连接成一个整体,形成端到端的网络结构,但两个部分相对独立,特征提取网络和文字识别网络可以依据使用场景和用户需求自由更换不同结构,具备即插即用,应用灵活等优点。多模态更新组件能够高效优化不同模态的信息,同时实现特征之间的关联更新,更为全面的刻画目标手写体文本的特征表示,通过不同模态的特征表示能够进一步挖掘更为细粒度的信息。多模态融合组件能够有效避免因单一模态所造成的片面、抑或是串行多模态的误差累计问题,实现不同模态信息的有机融合,丰富所获得的信息,从而提升在手写体文字识别的性能。
基于与上述方法同样的申请构思,本申请实施例中提出一种文字识别装置,参见图6所示,为所述文字识别装置的结构示意图,所述装置可以包括:
确定模块61,用于确定待识别图像对应的图像特征,所述待识别图像包括待识别文字;对所述图像特征进行视觉分析得到初始视觉特征,对所述图像特征进行语义分析得到初始语义特征,确定所述初始视觉特征与所述初始语义特征之间的相似度特征;基于所述初始视觉特征和所述相似度特征确定目标视觉特征,基于所述初始语义特征和所述相似度特征确定目标语义特征;
识别模块62,用于基于所述目标视觉特征和所述目标语义特征确定融合特征,基于融合特征确定所述待识别图像中的所述待识别文字的文字识别结果。
示例性的,所述确定模块61确定所述初始视觉特征与所述初始语义特征之间的相似度特征时具体用于:将所述初始视觉特征映射为目标维度的视觉特征,将所述初始语义特征映射为目标维度的语义特征,目标维度的视觉特征与目标维度的语义特征的尺寸相同,目标维度的视觉特征与目标维度的语义特征的特征点对齐;计算目标维度的视觉特征与目标维度的语义特征之间的相似度特征。
示例性的,所述确定模块61基于所述初始视觉特征和相似度特征确定目标视觉特征时具体用于:基于初始语义特征和相似度特征确定语义特征中与视觉特征匹配的语义关联特征,基于初始视觉特征和语义关联特征确定目标视觉特征;所述确定模块61基于所述初始语义特征和所述相似度特征确定目标语义特征时具体用于:基于初始视觉特征和相似度特征确定视觉特征中与语义特征匹配的视觉关联特征,基于所述初始语义特征和视觉关联特征确定目标语义特征。
示例性的,所述识别模块62基于所述目标视觉特征和所述目标语义特征确定融合特征时具体用于:对所述目标视觉特征和所述目标语义特征进行拼接,得到拼接特征;基于所述拼接特征确定所述目标视觉特征对应的第一融合权重以及所述目标语义特征对应的第二融合权重,基于所述目标视觉特征、所述第一融合权重、所述目标语义特征和所述第二融合权重确定所述融合特征。
示例性的,所述识别模块62基于所述拼接特征确定所述目标视觉特征对应的第一融合权重以及所述目标语义特征对应的第二融合权重时具体用于:基于所述拼接特征和第一网络参数确定第一输出特征,将第一输出特征映射为目标区间的第一概率值;基于第一概率值确定所述目标视觉特征对应的第一融合权重,基于所述第一融合权重确定目标语义特征对应的第二融合权重;其中,在所述拼接特征中的视觉特征优于语义特征时,第一网络参数用于使第一概率值大于概率阈值;在所述拼接特征中的语义特征优于视觉特征时,第一网络参数用于使第一概率值小于概率阈值;或,基于所述拼接特征和第二网络参数确定第二输出特征,将第二输出特征映射为目标区间的第二概率值;基于第二概率值确定所述目标语义特征对应的第二融合权重,基于所述第二融合权重确定目标视觉特征对应的第一融合权重;其中,在所述拼接特征中的视觉特征优于语义特征时,第二网络参数用于使第二概率值小于概率阈值;在所述拼接特征中的语义特征优于视觉特征时,第二网络参数用于使第二概率值大于概率阈值。
示例性的,所述待识别图像中的所述待识别文字包括手写体文字。
基于与上述方法同样的申请构思,本申请实施例中提出一种电子设备,参见图7所示,所述电子设备包括:处理器71和机器可读存储介质72,所述机器可读存储介质72存储有能够被所述处理器71执行的机器可执行指令;所述处理器71用于执行机器可执行指令,以实现本申请上述示例公开的文字识别方法。
基于与上述方法同样的申请构思,本申请实施例还提供一种机器可读存储介质,所述机器可读存储介质上存储有若干计算机指令,所述计算机指令被处理器执行时,能够实现本申请上述示例公开的文字识别方法。
其中,上述机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(Radom Access Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
而且,这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种文字识别方法,其特征在于,所述方法包括:
确定待识别图像对应的图像特征,所述待识别图像包括待识别文字;
对所述图像特征进行视觉分析得到初始视觉特征,对所述图像特征进行语义分析得到初始语义特征,确定所述初始视觉特征与所述初始语义特征之间的相似度特征;基于所述初始视觉特征和所述相似度特征确定目标视觉特征,基于所述初始语义特征和所述相似度特征确定目标语义特征;
基于所述目标视觉特征和所述目标语义特征确定融合特征,基于所述融合特征确定所述待识别图像中的所述待识别文字的文字识别结果。
2.根据权利要求1所述的方法,其特征在于,
所述确定所述初始视觉特征与所述初始语义特征之间的相似度特征,包括:
将所述初始视觉特征映射为目标维度的视觉特征,将所述初始语义特征映射为目标维度的语义特征;其中,目标维度的视觉特征与目标维度的语义特征的尺寸相同,目标维度的视觉特征与目标维度的语义特征的特征点对齐;
计算目标维度的视觉特征与目标维度的语义特征之间的相似度特征。
3.根据权利要求1所述的方法,其特征在于,
所述基于所述初始视觉特征和所述相似度特征确定目标视觉特征,包括:
基于初始语义特征和所述相似度特征确定语义特征中与视觉特征匹配的语义关联特征,并基于所述初始视觉特征和所述语义关联特征确定目标视觉特征。
4.根据权利要求1所述的方法,其特征在于,
所述基于所述初始语义特征和所述相似度特征确定目标语义特征,包括:
基于初始视觉特征和所述相似度特征确定视觉特征中与语义特征匹配的视觉关联特征,并基于所述初始语义特征和所述视觉关联特征确定目标语义特征。
5.根据权利要求1所述的方法,其特征在于,
所述基于所述目标视觉特征和所述目标语义特征确定融合特征,包括:
对所述目标视觉特征和所述目标语义特征进行拼接,得到拼接特征;
基于所述拼接特征确定所述目标视觉特征对应的第一融合权重以及所述目标语义特征对应的第二融合权重,并基于所述目标视觉特征、所述第一融合权重、所述目标语义特征和所述第二融合权重确定所述融合特征。
6.根据权利要求5所述的方法,其特征在于,
所述基于所述拼接特征确定所述目标视觉特征对应的第一融合权重以及所述目标语义特征对应的第二融合权重,包括:
基于所述拼接特征和第一网络参数确定第一输出特征,将所述第一输出特征映射为目标区间的第一概率值;基于第一概率值确定所述目标视觉特征对应的第一融合权重,基于所述第一融合权重确定所述目标语义特征对应的第二融合权重;其中,在所述拼接特征中的视觉特征优于语义特征时,所述第一网络参数用于使第一概率值大于概率阈值;在所述拼接特征中的语义特征优于视觉特征时,所述第一网络参数用于使第一概率值小于概率阈值;或者,
基于所述拼接特征和第二网络参数确定第二输出特征,将所述第二输出特征映射为目标区间的第二概率值;基于第二概率值确定所述目标语义特征对应的第二融合权重,基于所述第二融合权重确定所述目标视觉特征对应的第一融合权重;其中,在所述拼接特征中的视觉特征优于语义特征时,所述第二网络参数用于使第二概率值小于概率阈值;在所述拼接特征中的语义特征优于视觉特征时,所述第二网络参数用于使第二概率值大于概率阈值。
7.根据权利要求1-6任一项所述的方法,其特征在于,
所述待识别图像中的所述待识别文字包括手写体文字。
8.一种文字识别装置,其特征在于,所述装置包括:
确定模块,用于确定待识别图像对应的图像特征,所述待识别图像包括待识别文字;对所述图像特征进行视觉分析得到初始视觉特征,对所述图像特征进行语义分析得到初始语义特征,确定所述初始视觉特征与所述初始语义特征之间的相似度特征;基于所述初始视觉特征和所述相似度特征确定目标视觉特征,基于所述初始语义特征和所述相似度特征确定目标语义特征;
识别模块,用于基于所述目标视觉特征和所述目标语义特征确定融合特征,基于所述融合特征确定所述待识别图像中的所述待识别文字的文字识别结果。
9.根据权利要求8所述的装置,其特征在于,
其中,所述确定模块确定所述初始视觉特征与所述初始语义特征之间的相似度特征时具体用于:将所述初始视觉特征映射为目标维度的视觉特征,将所述初始语义特征映射为目标维度的语义特征,目标维度的视觉特征与目标维度的语义特征的尺寸相同,目标维度的视觉特征与目标维度的语义特征的特征点对齐;计算目标维度的视觉特征与目标维度的语义特征之间的相似度特征;
其中,所述确定模块基于所述初始视觉特征和相似度特征确定目标视觉特征时具体用于:基于初始语义特征和所述相似度特征确定语义特征中与视觉特征匹配的语义关联特征,基于所述初始视觉特征和语义关联特征确定目标视觉特征;所述确定模块基于所述初始语义特征和所述相似度特征确定目标语义特征时具体用于:基于初始视觉特征和相似度特征确定视觉特征中与语义特征匹配的视觉关联特征,基于所述初始语义特征和视觉关联特征确定目标语义特征;
其中,所述识别模块基于所述目标视觉特征和所述目标语义特征确定融合特征时具体用于:对所述目标视觉特征和所述目标语义特征进行拼接,得到拼接特征;基于所述拼接特征确定所述目标视觉特征对应的第一融合权重以及所述目标语义特征对应的第二融合权重,基于所述目标视觉特征、所述第一融合权重、所述目标语义特征和所述第二融合权重确定所述融合特征;
其中,所述识别模块基于所述拼接特征确定所述目标视觉特征对应的第一融合权重以及所述目标语义特征对应的第二融合权重时具体用于:基于所述拼接特征和第一网络参数确定第一输出特征,将第一输出特征映射为目标区间的第一概率值;基于第一概率值确定所述目标视觉特征对应的第一融合权重,基于所述第一融合权重确定所述目标语义特征对应的第二融合权重;其中,在所述拼接特征中的视觉特征优于语义特征时,第一网络参数用于使第一概率值大于概率阈值;在所述拼接特征中的语义特征优于视觉特征时,第一网络参数用于使第一概率值小于概率阈值;或,基于所述拼接特征和第二网络参数确定第二输出特征,将第二输出特征映射为目标区间的第二概率值;基于第二概率值确定所述目标语义特征对应的第二融合权重,基于所述第二融合权重确定所述目标视觉特征对应的第一融合权重;其中,在所述拼接特征中的视觉特征优于语义特征时,第二网络参数用于使第二概率值小于概率阈值;在所述拼接特征中的语义特征优于视觉特征时,第二网络参数用于使第二概率值大于概率阈值;
其中,所述待识别图像中的所述待识别文字包括手写体文字。
10.一种电子设备,其特征在于,包括:处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令;其中,所述处理器用于执行机器可执行指令,以实现权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211615905.0A CN115797948A (zh) | 2022-12-15 | 2022-12-15 | 一种文字识别方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211615905.0A CN115797948A (zh) | 2022-12-15 | 2022-12-15 | 一种文字识别方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115797948A true CN115797948A (zh) | 2023-03-14 |
Family
ID=85425655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211615905.0A Pending CN115797948A (zh) | 2022-12-15 | 2022-12-15 | 一种文字识别方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115797948A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117292443A (zh) * | 2023-09-25 | 2023-12-26 | 杭州名光微电子科技有限公司 | 一种融合人脸和掌静脉的多模态识别***及其方法 |
-
2022
- 2022-12-15 CN CN202211615905.0A patent/CN115797948A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117292443A (zh) * | 2023-09-25 | 2023-12-26 | 杭州名光微电子科技有限公司 | 一种融合人脸和掌静脉的多模态识别***及其方法 |
CN117292443B (zh) * | 2023-09-25 | 2024-06-07 | 杭州名光微电子科技有限公司 | 一种融合人脸和掌静脉的多模态识别***及其方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | Global and local-contrast guides content-aware fusion for RGB-D saliency prediction | |
Marvasti-Zadeh et al. | Deep learning for visual tracking: A comprehensive survey | |
CN110176027B (zh) | 视频目标跟踪方法、装置、设备及存储介质 | |
US20200258241A1 (en) | Representation learning using joint semantic vectors | |
KR102646889B1 (ko) | 스타일 변환을 위한 영상 처리 장치 및 방법 | |
US20200349414A1 (en) | Systems and methods for neuronal networks for associative gestalt learning | |
Li et al. | Fast a3rl: Aesthetics-aware adversarial reinforcement learning for image cropping | |
US11495020B2 (en) | Systems and methods for stream recognition | |
Tian et al. | Scene Text Detection in Video by Learning Locally and Globally. | |
Raut | Facial emotion recognition using machine learning | |
CN115223020B (zh) | 图像处理方法、装置、设备、存储介质及计算机程序产品 | |
CN115017911A (zh) | 针对视觉和语言的跨模态处理 | |
WO2023036157A1 (en) | Self-supervised spatiotemporal representation learning by exploring video continuity | |
CN114937285B (zh) | 动态手势识别方法、装置、设备及存储介质 | |
CN111723769A (zh) | 用于处理图像的方法、装置、设备以及存储介质 | |
Lin et al. | Pedestrian detection by exemplar-guided contrastive learning | |
CN115797948A (zh) | 一种文字识别方法、装置及设备 | |
CN110942463B (zh) | 一种基于生成对抗网络的视频目标分割方法 | |
CN111259701B (zh) | 行人再识别方法、装置及电子设备 | |
CN116758449A (zh) | 一种基于深度学习的视频显著目标检测方法及*** | |
Huang et al. | Bidirectional tracking scheme for visual object tracking based on recursive orthogonal least squares | |
CN114328904A (zh) | 内容处理方法、装置、计算机设备和存储介质 | |
CN114912540A (zh) | 迁移学习方法、装置、设备及存储介质 | |
CN115131570A (zh) | 图像特征提取模型的训练方法、图像检索方法及相关设备 | |
Li et al. | Learning temporally correlated representations using LSTMs for visual tracking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |