CN110717336A - 基于语义相关度预测和注意力解码的场景文本识别方法 - Google Patents
基于语义相关度预测和注意力解码的场景文本识别方法 Download PDFInfo
- Publication number
- CN110717336A CN110717336A CN201910898753.1A CN201910898753A CN110717336A CN 110717336 A CN110717336 A CN 110717336A CN 201910898753 A CN201910898753 A CN 201910898753A CN 110717336 A CN110717336 A CN 110717336A
- Authority
- CN
- China
- Prior art keywords
- semantic
- neural network
- network model
- deep neural
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000003062 neural network model Methods 0.000 claims abstract description 60
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000011156 evaluation Methods 0.000 claims abstract description 26
- 230000007246 mechanism Effects 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 5
- 230000001131 transforming effect Effects 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000013518 transcription Methods 0.000 claims description 5
- 230000035897 transcription Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 11
- 230000008859 change Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012015 optical character recognition Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于语义相关度预测和注意力解码的场景文本识别方法,包括:S1,数据获取:获取合成训练数据集、真实评测数据集及常用词根统计表;所述常用词根统计表作为语义指导;S2,数据处理:将所述合成训练数据集和真实评测数据集进行拉伸变换至统一规范;S3,深度神经网络模型训练,S4,场景文本识别:将待识别的场景文本图像输入到深度神经网络模型,深度神经网络模型对待识别的场景文本图像进行精确识别,并返回一串字符作为识别结果。本发明的语义相关度预测模块以词根统计表为语义指导为语义注意力机制提供更加准确的高阶先验信息引导,学习得到的参数更能适应真实场景文本的图像特点,识别准确率更高。
Description
技术领域
本发明涉及模式识别与人工智能技术领域,具体涉及一种基于语义相关度预测和注意力解码的场景文本识别方法。
背景技术
文本中富含大量准确而丰富的语义信息,这些信息适用于许多实际应用场景,如智能检索、自动驾驶、构建视障人士的辅助设备等。因而,场景文本识别是计算机视觉领域长期存在的研究课题之一。不同于扫描文档中的光学字符识别,场景文本识别因文本字体多样,图像分辨率低,图像易受光影变化影响而十分具有挑战性。近年来,随着深度神经网络的飞速发展,大大推动了人工智能技术的创新应用。深度神经网络模型,特别是基于注意力机制的深度神经网络模型在场景文本识别中取得了较好的性能。基于注意力机制的识别网络着重关注文本区域,同时隐式嵌入了相邻字符的高阶先验信息,为后续转录过程提供了高阶统计语言模型,因而提高了识别性能。然而,现有场景文本识别中广泛使用的注意力机制缺乏高阶先验信息的选择性。它为所有识别情况提供了同等重要的先验信息指导,这无异于削弱了具有强烈语义的字符相关性,增强了无关字符相关性。
发明内容
本发明的目的是为了克服以上现有技术存在的不足,提供了一种识别精度高、测试阶段不增加额外算力开销、识别速度快的基于语义相关度预测和注意力解码的场景文本识别方法。
本发明的目的通过以下的技术方案实现:
一种基于语义相关度预测和注意力解码的场景文本识别方法,包括:
S1,数据获取:获取合成训练数据集、真实评测数据集及常用词根统计表;所述常用词根统计表作为语义指导;
S2,数据处理:将所述合成训练数据集和真实评测数据集进行拉伸变换至统一规范;
S3,深度神经网络模型训练:将统一规范的合成训练数据集、对应的标注文本数据及常用词根统计表输入到深度神经网络模型中进行训练,训练过程中采用标注文本数据和语义指导做监督参数学习;其中所述深度神经网络模型包括语义相关度预测模块和语义注意力机制解码模块;
S4,场景文本识别:将待识别的场景文本图像输入到深度神经网络模型,深度神经网络模型对待识别的场景文本图像进行精确识别,并返回一串字符作为识别结果。
优选地,所述合成训练数据集、真实评测数据集中的场景文本占据场景文本图像面积的三分之二以上,所述合成训练数据集的文本部分包含N种不同字体风格,N≥2,所述真实评测数据集由摄像设备拍摄得到;所述常用词根统计表包含707个常用词根,词根长度范围为2~10个字符之间。
优选地,在步骤S2中的拉伸变换的操作双线性插值或下采样操作。
优选地,步骤S3包括:
S31,构建深度神经网络模型;
S32,设定所述深度神经网络模型训练时的参数;其中,迭代次数:1,000,000,优化器:Adadelta,学习率:1.0;
S33,在设定的初始化参数下进行深度神经网络的训练。
优选地,所述深度神经网络模型的模型结构表1:
表1深度神经网络模型的模型结构
表2残差层的模型结构
深度神经网络模型的模型结构中的残差层的模型结构如表2所示,残差层内的非线性层均采用ReLU激活函数;下采样层通过卷积层和批标准化层实现。
优选地,步骤S4包括:待识别的场景文本图像通过深层卷积神经网络模型,获取具有鲁棒性的高级特征表达,语义相关度预测模块以常用词根统计表为语义指导,预测得到相邻字符语义相关度参数;语义注意力机制解码模块根据所述相邻字符语义相关度参数和文本图像的高级特征表达进行转录和修正,得到一串字符作为识别结果。
优选地,步骤S3和S4之间还包括:深度神经网络模型测试;所述深度神经网络模型测试的步骤包括:真实评测数据集输入到深度神经网络模型,深度神经网络模型对真实评测数据集进行精确识别,并返回一串字符作为识别结果;若所述识别结果和真实评测数据集对应的标注文本数据一致,则所述深度神经网络模型的识别能力达到预设要求。
本发明相对于现有技术具有如下优点:
(1)本方案的深度神经网络模型中包括语义相关度预测模块和语义注意力机制解码模块;所述语义相关度预测模块以词根统计表为语义指导,预测得到相邻字符语义相关度参数,为语义注意力机制提供更加准确的高阶先验信息引导,学习得到的参数更能适应真实场景文本的图像特点,识别准确率更高。
(2)语义注意力机制仅依靠常用词根统计表作为语义引导,语义相关度标注信息不需要人工标注过程,节省了大量的人力物力;实际应用中可以有效提高识别准确率。
(3)采用反向传播算法,自动调整卷积核参数,从而得到更鲁棒的滤波器,能够适应图像模糊、透视变换、光线变化等应用场景。
(4)相对人工方式,本方案可以自动完成场景文本的识别,可以节省人力物力。
(5)相对传统基于计算机视觉的注意力机制方法,本方案有选择性地构建语义相关性,具有实现简单、识别精度高、测试阶段不增加额外算力开销、识别速度快等特点。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的基于语义相关度预测和注意力解码的场景文本识别方法的流程示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
参见图1、一种基于语义相关度预测和注意力解码的场景文本识别方法,其特征在于,包括:
S1,数据获取:获取合成训练数据集、真实评测数据集及常用词根统计表;所述常用词根统计表作为语义指导;所述合成训练数据集、真实评测数据集中的场景文本占据场景文本图像面积的三分之二以上,所述合成训练数据集的文本部分包含N种不同字体风格,N≥2,允许涵盖一定程度光影变化及分辨率变化。所述真实评测数据集由摄像设备拍摄得到;拍摄过程中,规范化后的场景文本图像中的文本应占据图像面积的三分之二以上,允许存在一定程度的倾斜、模糊。所述常用词根统计表包含707个常用词根,词根长度范围为2~10个字符之间。其中训练数据集、真实评测数据集场景文本识别领域常用的数据集,二者均涵盖多种不同字体风格、光影变化和分辨率变化;
需要说明的是,所谓自然场景图片或图像,指手机等电子设备获取的图片或图像,如路牌、招牌等街景图像。场景文字识别,是指识别自然场景图片中的文字信息。因自然场景图片中的文字展现形式丰富,图像背景复杂,分辨率低下等特点,难度远大于传统扫描文档图像中的文字识别。
S2,数据处理:将所述合成训练数据集和真实评测数据集进行拉伸变换至统一规范,大小为32*100,便于深度神经网络模型并行化处理;在步骤S2中的拉伸变换的操作双线性插值或下采样操作。
S3,深度神经网络模型训练:将统一规范的合成训练数据集、对应的标注文本数据及常用词根统计表输入到深度神经网络模型中进行训练,训练过程中采用标注文本数据和语义指导做监督参数学习;其中所述深度神经网络模型包括语义相关度预测模块和语义注意力机制解码模块;所述语义相关度预测模块以词根统计表为语义指导,预测得到相邻字符语义相关度参数;,为语义注意力机制提供更加准确的高阶先验信息引导。
其中,在步骤S3中,对应的标注文本数据指对合成训练数据集中的图像包含的文本的标注。比如,一张街景图像中含有文字“中国”,则该图像的标注文本数据为“中国”。每幅图像对应于一行特定的标注文本数据。
步骤S3和S4之间还包括:深度神经网络模型测试;所述深度神经网络模型测试的步骤包括:真实评测数据集输入到深度神经网络模型,深度神经网络模型对真实评测数据集进行精确识别,并返回一串字符作为识别结果;若所述识别结果和真实评测数据集对应的标注文本数据一致,则所述深度神经网络模型的识别能力达到预设要求。
S4,场景文本识别:将待识别的场景文本图像输入到深度神经网络模型,深度神经网络模型对待识别的场景文本图像进行精确识别,并返回一串字符作为识别结果。
需要说明的是,深度神经网络模型测试和场景文本识别的步骤一致,二者的区别点在于输入所述深度神经网络模型的图像不一样。深度神经网络模型测试输入的是真实评测数据集的文本图像,其中真实评测数据集的文本图像中的文本是预先已知的。若深度神经网络模型的识别后,识别结果和预先已知的文本图像中的文本一致,则所述深度神经网络模型的识别能力好。场景文本识别的输入是待识别的场景文本图像,是将待识别的场景文本图像输入到经测试识别能力好的深度神经网络模型,深度神经网络模型对将待识别的场景文本图像进行识别,返回一串字符作为待识别的场景文本图像中的文本。
更进一步地,步骤S4包括:待识别的场景文本图像通过深层卷积神经网络模型,获取具有鲁棒性的高级特征表达,语义相关度预测模块以常用词根统计表为语义指导,预测得到相邻字符语义相关度参数;语义注意力机制解码模块根据所述相邻字符语义相关度参数和文本图像的高级特征表达进行转录和修正,得到一串字符作为识别结果。
在本实施例,步骤S3包括:
S31,构建深度神经网络模型;
S32,设定所述深度神经网络模型训练时的参数;其中,迭代次数:1,000,000,优化器:Adadelta,学习率:1.0;
S33,在设定的初始化参数下进行深度神经网络的训练。
所述深度神经网络模型的模型结构表1:
表1深度神经网络模型的模型结构
表2残差层的模型结构
深度神经网络模型的模型结构中的残差层的模型结构如表2所示,残差层内的非线性层均采用ReLU激活函数;下采样层通过卷积层和批标准化层实现。最后3层残差层的步长由2*2变为2*1,更适合场景文本图像的长宽比要求,便于提取鲁棒的空间特征。
语义相关度预测模块以常用词根统计表为语义指导,为语义注意力机制提供更加准确的高阶先验信息引导。经过统计,移除重复词根和单字母词根后的常用词根统计表中共计包含707个常用词根。词根长度主要分布在2~10个字符之间,其中3~4个字符长的的词根占比最大,约为71.99%,典型词根如"ing"和"ance"。极少数词根超过8个字符。
设场景文本图片标注信息为"information″,字符长度为11字符,因此字符长度为10字符。若两个相邻字符构成词根,则在的相应位置增加1,反之增加0。标注信息″information″标注信息″information″中共计含有7个词根,分别为‘at’、‘ation’、‘or’、‘for’、‘form’、‘in’及‘ion’,重复上述过程,最终得到的高阶语义向量为[1,0,2,3,1,0,2,1,2,2]。在深度神经网络训练过程中,的值被归一化至区间[0,1]。该过程无需人工标注。
进一步地定义语义先验损失函数Lp为,
其中MSELoss代表预测值和真实标签之间的均方误差。
语义注意力机制解码模块根据语义相关度参数和经过深度卷积神经网络处理得到的文本图像高级特征表达进行有针对性的转录和修正,得到一串字符识别结果。
用Fe(I)=(h1,h2...hn)代表深度卷积神经网络编码过程,则基于语义注意力机制的解码模块用于将预测序列y=(y1,y2...yT)和真实标注g=(g1,g2...gL)对齐。用字母T代表最大解码步长,则t时刻,深度识别模型的输出yt可以表示为,
yt=Softmax(Wost+bo), (2)
其中,st代表t时刻的Gated Recurrent unit(GRU)隐藏层状态。GRU是递归神经网络的一个变种,常被用于为文本序列长期语义依赖建模。st的计算方式表示为,
st=GRU((p′t,ct),st-1). (3)
p′t代表上一位输出yt-1的高阶先验信息,不同于传统的注意力机制,语义注意力机制的p′t有选择性地构建如下所示,
p′t=γtpt, (4)
其中γt反映了相邻字符串yt和yt-1的相关程度。γt的值越大代表相邻字符间的语义相关性越强烈,反之,γt的值越小,代表相邻字符间的语义相关性越弱。当γt=0时,代表相邻字符间不存在语义相关性。相应地,γt的计算方式如下,
γt=femb(ct,ct-1), (5)
进一步地,先验函数femb计算方式为,
femb(ct,ct-1)=σ(VcTanh(Wpct-1+Wcct+bc), (6)
其中,σ为激活函数Sigmoid函数,符号ct代表语义向量,由特征的权重和表示,
符号N代表特征向量的长度。αt,j是注意力机制的权重向量,通常被表示为,
et,j=fattn(st-1,hj). (9)
其中,对齐函数fattn计算方式如下:·
fattn(st-1,hj)=VaTanh(Wsst-1+Wfhj+b). (10)
上述提到的Wo,bo,Va,Ws,Wf,b,Vc,Wp,Wc和bc都是可学习参数。当识别模型预测出终止符"EOS"时,语义注意力机制解码模块结束转录过程。
注意力机制损失函数用符号Lattn表示,其计算方式如下所示,
其中,θ代表深度神经网络模型的所有可学习参数。
结合语义相关度预测模块提出的语义先验损失函数Lp,深度网络识别模型最终的优化函数被定义为,
L=Lattn+λLp. (12)
其中,超参数λ用于平衡注意力机制损失函数和语义先验损失函数。实验过程中设定为常数1.
网络模型训练中采用反向传播算法,通过从最后一层计算传递梯度,逐层传递,更新网络模型的所有参数。训练策略采用监督方式:利用人工合成图像数据、相应的标注信息及词根表,训练一个通用的深度网络识别模型。该识别模型的输入为一张规范的场景文本图像,输出为该图像中的字符序列,训练的损失函数为前述的L。
本方案的场景文本识别可以用于路牌的自动识别,智能检索,图像数据的存储等。
本方案充分利用常用词根表的语义指导能力,基于深度网络模型的对抗式学习能力和反传残差的物理意义,通过学习数据样本的分布,提供一种准确的基于语义相关度预测和注意力解码的场景文本识别方法。该方法具有实现简单、识别精度高、测试阶段不增加额外算力开销、识别速度快等特点,具有较好的实用价值。
上述具体实施方式为本发明的优选实施例,并不能对本发明进行限定,其他的任何未背离本发明的技术方案而所做的改变或其它等效的置换方式,都包含在本发明的保护范围之内。
Claims (7)
1.一种基于语义相关度预测和注意力解码的场景文本识别方法,其特征在于,包括:
S1,数据获取:获取合成训练数据集、真实评测数据集及常用词根统计表;
S2,数据处理:将所述合成训练数据集和真实评测数据集进行拉伸变换至统一规范;
S3,深度神经网络模型训练:将统一规范的合成训练数据集、对应的标注文本数据及常用词根统计表输入到深度神经网络模型中进行训练,其中所述深度神经网络模型包括语义相关度预测模块和语义注意力机制解码模块;所述语义相关度预测模块以词根统计表为语义指导,预测得到相邻字符语义相关度参数;
S4,场景文本识别:将待识别的场景文本图像输入到深度神经网络模型,深度神经网络模型对待识别的场景文本图像进行精确识别,并返回一串字符作为识别结果。
2.根据权利要求1所述的基于语义相关度预测和注意力解码的场景文本识别方法,其特征在于:所述合成训练数据集、真实评测数据集中的场景文本占据场景文本图像面积的三分之二以上,所述合成训练数据集的文本部分包含N种不同字体风格,N≥2,所述真实评测数据集由摄像设备拍摄得到;所述常用词根统计表包含707个常用词根,词根长度范围为2~10个字符之间。
3.根据权利要求1所述的基于语义相关度预测和注意力解码的场景文本识别方法,其特征在于:在步骤S2中的拉伸变换的操作双线性插值或下采样操作。
4.根据权利要求1所述的基于语义相关度预测和注意力解码的场景文本识别方法,其特征在于,步骤S3包括:
S31,构建深度神经网络模型;
S32,设定所述深度神经网络模型训练时的参数;其中,迭代次数:1,000,000,优化器:Adadelta,学习率:1.0;
S33,在设定的初始化参数下进行深度神经网络的训练。
6.根据权利要求1所述的基于语义相关度预测和注意力解码的场景文本识别方法,其特征在于,步骤S4包括:
待识别的场景文本图像通过深层卷积神经网络模型,获取具有鲁棒性的高级特征表达,语义相关度预测模块以常用词根统计表为语义指导,预测得到相邻字符语义相关度参数;语义注意力机制解码模块根据所述相邻字符语义相关度参数和文本图像的高级特征表达进行转录和修正,得到一串字符作为识别结果。
7.根据权利要求1所述的基于语义相关度预测和注意力解码的场景文本识别方法,其特征在于,步骤S3和S4之间还包括:深度神经网络模型测试;
所述深度神经网络模型测试的步骤包括:真实评测数据集输入到深度神经网络模型,深度神经网络模型对真实评测数据集进行精确识别,并返回一串字符作为识别结果;若所述识别结果和真实评测数据集对应的标注文本数据一致,则所述深度神经网络模型的识别能力达到预设要求。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910898753.1A CN110717336A (zh) | 2019-09-23 | 2019-09-23 | 基于语义相关度预测和注意力解码的场景文本识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910898753.1A CN110717336A (zh) | 2019-09-23 | 2019-09-23 | 基于语义相关度预测和注意力解码的场景文本识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110717336A true CN110717336A (zh) | 2020-01-21 |
Family
ID=69210752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910898753.1A Pending CN110717336A (zh) | 2019-09-23 | 2019-09-23 | 基于语义相关度预测和注意力解码的场景文本识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110717336A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428593A (zh) * | 2020-03-12 | 2020-07-17 | 北京三快在线科技有限公司 | 一种文字识别方法、装置、电子设备及存储介质 |
CN111783705A (zh) * | 2020-07-08 | 2020-10-16 | 厦门商集网络科技有限责任公司 | 一种基于注意力机制的文字识别方法及*** |
CN111860116A (zh) * | 2020-06-03 | 2020-10-30 | 南京邮电大学 | 一种基于深度学习和特权信息的场景识别方法 |
CN111967471A (zh) * | 2020-08-20 | 2020-11-20 | 华南理工大学 | 一种基于多尺度特征的场景文本识别方法 |
CN111967470A (zh) * | 2020-08-20 | 2020-11-20 | 华南理工大学 | 一种基于解耦注意力机制的文本识别方法及*** |
CN112990196A (zh) * | 2021-03-16 | 2021-06-18 | 北京大学 | 基于超参数搜索和二阶段训练的场景文字识别方法及*** |
CN113553885A (zh) * | 2020-04-26 | 2021-10-26 | 复旦大学 | 一种基于生成对抗网络的自然场景文本识别方法 |
CN113673507A (zh) * | 2020-08-10 | 2021-11-19 | 广东电网有限责任公司 | 电力专业的设备铭牌识别算法 |
CN113743291A (zh) * | 2021-09-02 | 2021-12-03 | 南京邮电大学 | 一种融合注意力机制的多尺度检测文本的方法及装置 |
CN118072973A (zh) * | 2024-04-15 | 2024-05-24 | 慧医谷中医药科技(天津)股份有限公司 | 基于医学知识库的智能问诊方法与*** |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097049A (zh) * | 2019-04-03 | 2019-08-06 | 中国科学院计算技术研究所 | 一种自然场景文本检测方法及*** |
CN110147763A (zh) * | 2019-05-20 | 2019-08-20 | 哈尔滨工业大学 | 基于卷积神经网络的视频语义分割方法 |
-
2019
- 2019-09-23 CN CN201910898753.1A patent/CN110717336A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097049A (zh) * | 2019-04-03 | 2019-08-06 | 中国科学院计算技术研究所 | 一种自然场景文本检测方法及*** |
CN110147763A (zh) * | 2019-05-20 | 2019-08-20 | 哈尔滨工业大学 | 基于卷积神经网络的视频语义分割方法 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428593A (zh) * | 2020-03-12 | 2020-07-17 | 北京三快在线科技有限公司 | 一种文字识别方法、装置、电子设备及存储介质 |
CN113553885A (zh) * | 2020-04-26 | 2021-10-26 | 复旦大学 | 一种基于生成对抗网络的自然场景文本识别方法 |
CN111860116A (zh) * | 2020-06-03 | 2020-10-30 | 南京邮电大学 | 一种基于深度学习和特权信息的场景识别方法 |
CN111783705A (zh) * | 2020-07-08 | 2020-10-16 | 厦门商集网络科技有限责任公司 | 一种基于注意力机制的文字识别方法及*** |
CN111783705B (zh) * | 2020-07-08 | 2023-11-14 | 厦门商集网络科技有限责任公司 | 一种基于注意力机制的文字识别方法及*** |
CN113673507A (zh) * | 2020-08-10 | 2021-11-19 | 广东电网有限责任公司 | 电力专业的设备铭牌识别算法 |
CN111967471A (zh) * | 2020-08-20 | 2020-11-20 | 华南理工大学 | 一种基于多尺度特征的场景文本识别方法 |
CN111967470A (zh) * | 2020-08-20 | 2020-11-20 | 华南理工大学 | 一种基于解耦注意力机制的文本识别方法及*** |
CN112990196A (zh) * | 2021-03-16 | 2021-06-18 | 北京大学 | 基于超参数搜索和二阶段训练的场景文字识别方法及*** |
CN112990196B (zh) * | 2021-03-16 | 2023-10-24 | 北京大学 | 基于超参数搜索和二阶段训练的场景文字识别方法及*** |
CN113743291A (zh) * | 2021-09-02 | 2021-12-03 | 南京邮电大学 | 一种融合注意力机制的多尺度检测文本的方法及装置 |
CN113743291B (zh) * | 2021-09-02 | 2023-11-07 | 南京邮电大学 | 一种融合注意力机制的多尺度检测文本的方法及装置 |
CN118072973A (zh) * | 2024-04-15 | 2024-05-24 | 慧医谷中医药科技(天津)股份有限公司 | 基于医学知识库的智能问诊方法与*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717336A (zh) | 基于语义相关度预测和注意力解码的场景文本识别方法 | |
CN110083831B (zh) | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 | |
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN111967471A (zh) | 一种基于多尺度特征的场景文本识别方法 | |
CN111738169B (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN111967470A (zh) | 一种基于解耦注意力机制的文本识别方法及*** | |
CN112819686A (zh) | 基于人工智能的图像风格处理方法、装置及电子设备 | |
CN110472248A (zh) | 一种中文文本命名实体的识别方法 | |
CN114492646A (zh) | 一种基于跨模态互注意力机制的图文匹配方法 | |
CN113283336A (zh) | 一种文本识别方法与*** | |
CN112257716A (zh) | 一种基于尺度自适应及方向注意力网络的场景文字识别方法 | |
CN112836702A (zh) | 一种基于多尺度特征提取的文本识别方法 | |
CN115546553A (zh) | 一种基于动态特征抽取和属性修正的零样本分类方法 | |
Wu et al. | STR transformer: a cross-domain transformer for scene text recognition | |
CN113886615A (zh) | 一种基于多粒度联想学习的手绘图像实时检索方法 | |
CN116740362B (zh) | 一种基于注意力的轻量化非对称场景语义分割方法及*** | |
CN111242114B (zh) | 文字识别方法及装置 | |
CN110909645B (zh) | 一种基于半监督流形嵌入的人群计数方法 | |
CN116071544A (zh) | 面向弱监督指向性视觉理解的图像描述预测方法 | |
CN114694133A (zh) | 一种基于图像处理与深度学习相结合的文本识别方法 | |
CN113362088A (zh) | 一种基于crnn的电信行业智能客服图像识别的方法及其*** | |
CN114298047A (zh) | 基于笔画卷积和词向量的中文命名实体识别方法及*** | |
CN113361277A (zh) | 基于注意力机制的医学命名实体识别建模方法 | |
CN113505783B (zh) | 基于少次学习的甲骨文单字识别方法和装置 | |
Ali et al. | Urdu-text: a dataset and benchmark for Urdu text detection and recognition in natural scenes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200121 |
|
RJ01 | Rejection of invention patent application after publication |