CN110717336A - 基于语义相关度预测和注意力解码的场景文本识别方法 - Google Patents

基于语义相关度预测和注意力解码的场景文本识别方法 Download PDF

Info

Publication number
CN110717336A
CN110717336A CN201910898753.1A CN201910898753A CN110717336A CN 110717336 A CN110717336 A CN 110717336A CN 201910898753 A CN201910898753 A CN 201910898753A CN 110717336 A CN110717336 A CN 110717336A
Authority
CN
China
Prior art keywords
semantic
neural network
network model
deep neural
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910898753.1A
Other languages
English (en)
Inventor
陈晓雪
金连文
王天玮
毛慧芸
朱远志
罗灿杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201910898753.1A priority Critical patent/CN110717336A/zh
Publication of CN110717336A publication Critical patent/CN110717336A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于语义相关度预测和注意力解码的场景文本识别方法,包括:S1,数据获取:获取合成训练数据集、真实评测数据集及常用词根统计表;所述常用词根统计表作为语义指导;S2,数据处理:将所述合成训练数据集和真实评测数据集进行拉伸变换至统一规范;S3,深度神经网络模型训练,S4,场景文本识别:将待识别的场景文本图像输入到深度神经网络模型,深度神经网络模型对待识别的场景文本图像进行精确识别,并返回一串字符作为识别结果。本发明的语义相关度预测模块以词根统计表为语义指导为语义注意力机制提供更加准确的高阶先验信息引导,学习得到的参数更能适应真实场景文本的图像特点,识别准确率更高。

Description

基于语义相关度预测和注意力解码的场景文本识别方法
技术领域
本发明涉及模式识别与人工智能技术领域,具体涉及一种基于语义相关度预测和注意力解码的场景文本识别方法。
背景技术
文本中富含大量准确而丰富的语义信息,这些信息适用于许多实际应用场景,如智能检索、自动驾驶、构建视障人士的辅助设备等。因而,场景文本识别是计算机视觉领域长期存在的研究课题之一。不同于扫描文档中的光学字符识别,场景文本识别因文本字体多样,图像分辨率低,图像易受光影变化影响而十分具有挑战性。近年来,随着深度神经网络的飞速发展,大大推动了人工智能技术的创新应用。深度神经网络模型,特别是基于注意力机制的深度神经网络模型在场景文本识别中取得了较好的性能。基于注意力机制的识别网络着重关注文本区域,同时隐式嵌入了相邻字符的高阶先验信息,为后续转录过程提供了高阶统计语言模型,因而提高了识别性能。然而,现有场景文本识别中广泛使用的注意力机制缺乏高阶先验信息的选择性。它为所有识别情况提供了同等重要的先验信息指导,这无异于削弱了具有强烈语义的字符相关性,增强了无关字符相关性。
发明内容
本发明的目的是为了克服以上现有技术存在的不足,提供了一种识别精度高、测试阶段不增加额外算力开销、识别速度快的基于语义相关度预测和注意力解码的场景文本识别方法。
本发明的目的通过以下的技术方案实现:
一种基于语义相关度预测和注意力解码的场景文本识别方法,包括:
S1,数据获取:获取合成训练数据集、真实评测数据集及常用词根统计表;所述常用词根统计表作为语义指导;
S2,数据处理:将所述合成训练数据集和真实评测数据集进行拉伸变换至统一规范;
S3,深度神经网络模型训练:将统一规范的合成训练数据集、对应的标注文本数据及常用词根统计表输入到深度神经网络模型中进行训练,训练过程中采用标注文本数据和语义指导做监督参数学习;其中所述深度神经网络模型包括语义相关度预测模块和语义注意力机制解码模块;
S4,场景文本识别:将待识别的场景文本图像输入到深度神经网络模型,深度神经网络模型对待识别的场景文本图像进行精确识别,并返回一串字符作为识别结果。
优选地,所述合成训练数据集、真实评测数据集中的场景文本占据场景文本图像面积的三分之二以上,所述合成训练数据集的文本部分包含N种不同字体风格,N≥2,所述真实评测数据集由摄像设备拍摄得到;所述常用词根统计表包含707个常用词根,词根长度范围为2~10个字符之间。
优选地,在步骤S2中的拉伸变换的操作双线性插值或下采样操作。
优选地,步骤S3包括:
S31,构建深度神经网络模型;
S32,设定所述深度神经网络模型训练时的参数;其中,迭代次数:1,000,000,优化器:Adadelta,学习率:1.0;
S33,在设定的初始化参数下进行深度神经网络的训练。
优选地,所述深度神经网络模型的模型结构表1:
表1深度神经网络模型的模型结构
Figure BDA0002211119430000031
表2残差层的模型结构
Figure BDA0002211119430000032
深度神经网络模型的模型结构中的残差层的模型结构如表2所示,残差层内的非线性层均采用ReLU激活函数;下采样层通过卷积层和批标准化层实现。
优选地,步骤S4包括:待识别的场景文本图像通过深层卷积神经网络模型,获取具有鲁棒性的高级特征表达,语义相关度预测模块以常用词根统计表为语义指导,预测得到相邻字符语义相关度参数;语义注意力机制解码模块根据所述相邻字符语义相关度参数和文本图像的高级特征表达进行转录和修正,得到一串字符作为识别结果。
优选地,步骤S3和S4之间还包括:深度神经网络模型测试;所述深度神经网络模型测试的步骤包括:真实评测数据集输入到深度神经网络模型,深度神经网络模型对真实评测数据集进行精确识别,并返回一串字符作为识别结果;若所述识别结果和真实评测数据集对应的标注文本数据一致,则所述深度神经网络模型的识别能力达到预设要求。
本发明相对于现有技术具有如下优点:
(1)本方案的深度神经网络模型中包括语义相关度预测模块和语义注意力机制解码模块;所述语义相关度预测模块以词根统计表为语义指导,预测得到相邻字符语义相关度参数,为语义注意力机制提供更加准确的高阶先验信息引导,学习得到的参数更能适应真实场景文本的图像特点,识别准确率更高。
(2)语义注意力机制仅依靠常用词根统计表作为语义引导,语义相关度标注信息不需要人工标注过程,节省了大量的人力物力;实际应用中可以有效提高识别准确率。
(3)采用反向传播算法,自动调整卷积核参数,从而得到更鲁棒的滤波器,能够适应图像模糊、透视变换、光线变化等应用场景。
(4)相对人工方式,本方案可以自动完成场景文本的识别,可以节省人力物力。
(5)相对传统基于计算机视觉的注意力机制方法,本方案有选择性地构建语义相关性,具有实现简单、识别精度高、测试阶段不增加额外算力开销、识别速度快等特点。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的基于语义相关度预测和注意力解码的场景文本识别方法的流程示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
参见图1、一种基于语义相关度预测和注意力解码的场景文本识别方法,其特征在于,包括:
S1,数据获取:获取合成训练数据集、真实评测数据集及常用词根统计表;所述常用词根统计表作为语义指导;所述合成训练数据集、真实评测数据集中的场景文本占据场景文本图像面积的三分之二以上,所述合成训练数据集的文本部分包含N种不同字体风格,N≥2,允许涵盖一定程度光影变化及分辨率变化。所述真实评测数据集由摄像设备拍摄得到;拍摄过程中,规范化后的场景文本图像中的文本应占据图像面积的三分之二以上,允许存在一定程度的倾斜、模糊。所述常用词根统计表包含707个常用词根,词根长度范围为2~10个字符之间。其中训练数据集、真实评测数据集场景文本识别领域常用的数据集,二者均涵盖多种不同字体风格、光影变化和分辨率变化;
需要说明的是,所谓自然场景图片或图像,指手机等电子设备获取的图片或图像,如路牌、招牌等街景图像。场景文字识别,是指识别自然场景图片中的文字信息。因自然场景图片中的文字展现形式丰富,图像背景复杂,分辨率低下等特点,难度远大于传统扫描文档图像中的文字识别。
S2,数据处理:将所述合成训练数据集和真实评测数据集进行拉伸变换至统一规范,大小为32*100,便于深度神经网络模型并行化处理;在步骤S2中的拉伸变换的操作双线性插值或下采样操作。
S3,深度神经网络模型训练:将统一规范的合成训练数据集、对应的标注文本数据及常用词根统计表输入到深度神经网络模型中进行训练,训练过程中采用标注文本数据和语义指导做监督参数学习;其中所述深度神经网络模型包括语义相关度预测模块和语义注意力机制解码模块;所述语义相关度预测模块以词根统计表为语义指导,预测得到相邻字符语义相关度参数;,为语义注意力机制提供更加准确的高阶先验信息引导。
其中,在步骤S3中,对应的标注文本数据指对合成训练数据集中的图像包含的文本的标注。比如,一张街景图像中含有文字“中国”,则该图像的标注文本数据为“中国”。每幅图像对应于一行特定的标注文本数据。
步骤S3和S4之间还包括:深度神经网络模型测试;所述深度神经网络模型测试的步骤包括:真实评测数据集输入到深度神经网络模型,深度神经网络模型对真实评测数据集进行精确识别,并返回一串字符作为识别结果;若所述识别结果和真实评测数据集对应的标注文本数据一致,则所述深度神经网络模型的识别能力达到预设要求。
S4,场景文本识别:将待识别的场景文本图像输入到深度神经网络模型,深度神经网络模型对待识别的场景文本图像进行精确识别,并返回一串字符作为识别结果。
需要说明的是,深度神经网络模型测试和场景文本识别的步骤一致,二者的区别点在于输入所述深度神经网络模型的图像不一样。深度神经网络模型测试输入的是真实评测数据集的文本图像,其中真实评测数据集的文本图像中的文本是预先已知的。若深度神经网络模型的识别后,识别结果和预先已知的文本图像中的文本一致,则所述深度神经网络模型的识别能力好。场景文本识别的输入是待识别的场景文本图像,是将待识别的场景文本图像输入到经测试识别能力好的深度神经网络模型,深度神经网络模型对将待识别的场景文本图像进行识别,返回一串字符作为待识别的场景文本图像中的文本。
更进一步地,步骤S4包括:待识别的场景文本图像通过深层卷积神经网络模型,获取具有鲁棒性的高级特征表达,语义相关度预测模块以常用词根统计表为语义指导,预测得到相邻字符语义相关度参数;语义注意力机制解码模块根据所述相邻字符语义相关度参数和文本图像的高级特征表达进行转录和修正,得到一串字符作为识别结果。
在本实施例,步骤S3包括:
S31,构建深度神经网络模型;
S32,设定所述深度神经网络模型训练时的参数;其中,迭代次数:1,000,000,优化器:Adadelta,学习率:1.0;
S33,在设定的初始化参数下进行深度神经网络的训练。
所述深度神经网络模型的模型结构表1:
表1深度神经网络模型的模型结构
Figure BDA0002211119430000081
表2残差层的模型结构
深度神经网络模型的模型结构中的残差层的模型结构如表2所示,残差层内的非线性层均采用ReLU激活函数;下采样层通过卷积层和批标准化层实现。最后3层残差层的步长由2*2变为2*1,更适合场景文本图像的长宽比要求,便于提取鲁棒的空间特征。
语义相关度预测模块以常用词根统计表为语义指导,为语义注意力机制提供更加准确的高阶先验信息引导。经过统计,移除重复词根和单字母词根后的常用词根统计表中共计包含707个常用词根。词根长度主要分布在2~10个字符之间,其中3~4个字符长的的词根占比最大,约为71.99%,典型词根如"ing"和"ance"。极少数词根超过8个字符。
给定输入图片I和真实标注信息g=(g1,g2...gL),用符号
Figure BDA0002211119430000091
代表高阶先验信息得分γt的真实标注信息。的值代表了相邻字符间的语义相关性。向量
Figure BDA0002211119430000093
长度为L-1。则γt的标注信息构建过程如下:
设场景文本图片标注信息为"information″,字符长度为11字符,因此
Figure BDA0002211119430000094
字符长度为10字符。若两个相邻字符构成词根,则在的相应位置增加1,反之增加0。标注信息″information″标注信息″information″中共计含有7个词根,分别为‘at’、‘ation’、‘or’、‘for’、‘form’、‘in’及‘ion’,重复上述过程,最终得到的高阶语义向量
Figure BDA0002211119430000096
为[1,0,2,3,1,0,2,1,2,2]。在深度神经网络训练过程中,
Figure BDA0002211119430000097
的值被归一化至区间[0,1]。该过程无需人工标注。
进一步地定义语义先验损失函数Lp为,
Figure BDA0002211119430000098
其中MSELoss代表预测值和真实标签之间的均方误差。
语义注意力机制解码模块根据语义相关度参数和经过深度卷积神经网络处理得到的文本图像高级特征表达进行有针对性的转录和修正,得到一串字符识别结果。
用Fe(I)=(h1,h2...hn)代表深度卷积神经网络编码过程,则基于语义注意力机制的解码模块用于将预测序列y=(y1,y2...yT)和真实标注g=(g1,g2...gL)对齐。用字母T代表最大解码步长,则t时刻,深度识别模型的输出yt可以表示为,
yt=Softmax(Wost+bo), (2)
其中,st代表t时刻的Gated Recurrent unit(GRU)隐藏层状态。GRU是递归神经网络的一个变种,常被用于为文本序列长期语义依赖建模。st的计算方式表示为,
st=GRU((p′t,ct),st-1). (3)
p′t代表上一位输出yt-1的高阶先验信息,不同于传统的注意力机制,语义注意力机制的p′t有选择性地构建如下所示,
p′t=γtpt, (4)
其中γt反映了相邻字符串yt和yt-1的相关程度。γt的值越大代表相邻字符间的语义相关性越强烈,反之,γt的值越小,代表相邻字符间的语义相关性越弱。当γt=0时,代表相邻字符间不存在语义相关性。相应地,γt的计算方式如下,
γt=femb(ct,ct-1), (5)
进一步地,先验函数femb计算方式为,
femb(ct,ct-1)=σ(VcTanh(Wpct-1+Wcct+bc), (6)
其中,σ为激活函数Sigmoid函数,符号ct代表语义向量,由特征的权重和表示,
Figure BDA0002211119430000111
符号N代表特征向量的长度。αt,j是注意力机制的权重向量,通常被表示为,
et,j=fattn(st-1,hj). (9)
其中,对齐函数fattn计算方式如下:·
fattn(st-1,hj)=VaTanh(Wsst-1+Wfhj+b). (10)
上述提到的Wo,bo,Va,Ws,Wf,b,Vc,Wp,Wc和bc都是可学习参数。当识别模型预测出终止符"EOS"时,语义注意力机制解码模块结束转录过程。
注意力机制损失函数用符号Lattn表示,其计算方式如下所示,
Figure BDA0002211119430000121
其中,θ代表深度神经网络模型的所有可学习参数。
结合语义相关度预测模块提出的语义先验损失函数Lp,深度网络识别模型最终的优化函数被定义为,
L=Lattn+λLp. (12)
其中,超参数λ用于平衡注意力机制损失函数和语义先验损失函数。实验过程中设定为常数1.
网络模型训练中采用反向传播算法,通过从最后一层计算传递梯度,逐层传递,更新网络模型的所有参数。训练策略采用监督方式:利用人工合成图像数据、相应的标注信息及词根表,训练一个通用的深度网络识别模型。该识别模型的输入为一张规范的场景文本图像,输出为该图像中的字符序列,训练的损失函数为前述的L。
本方案的场景文本识别可以用于路牌的自动识别,智能检索,图像数据的存储等。
本方案充分利用常用词根表的语义指导能力,基于深度网络模型的对抗式学习能力和反传残差的物理意义,通过学习数据样本的分布,提供一种准确的基于语义相关度预测和注意力解码的场景文本识别方法。该方法具有实现简单、识别精度高、测试阶段不增加额外算力开销、识别速度快等特点,具有较好的实用价值。
上述具体实施方式为本发明的优选实施例,并不能对本发明进行限定,其他的任何未背离本发明的技术方案而所做的改变或其它等效的置换方式,都包含在本发明的保护范围之内。

Claims (7)

1.一种基于语义相关度预测和注意力解码的场景文本识别方法,其特征在于,包括:
S1,数据获取:获取合成训练数据集、真实评测数据集及常用词根统计表;
S2,数据处理:将所述合成训练数据集和真实评测数据集进行拉伸变换至统一规范;
S3,深度神经网络模型训练:将统一规范的合成训练数据集、对应的标注文本数据及常用词根统计表输入到深度神经网络模型中进行训练,其中所述深度神经网络模型包括语义相关度预测模块和语义注意力机制解码模块;所述语义相关度预测模块以词根统计表为语义指导,预测得到相邻字符语义相关度参数;
S4,场景文本识别:将待识别的场景文本图像输入到深度神经网络模型,深度神经网络模型对待识别的场景文本图像进行精确识别,并返回一串字符作为识别结果。
2.根据权利要求1所述的基于语义相关度预测和注意力解码的场景文本识别方法,其特征在于:所述合成训练数据集、真实评测数据集中的场景文本占据场景文本图像面积的三分之二以上,所述合成训练数据集的文本部分包含N种不同字体风格,N≥2,所述真实评测数据集由摄像设备拍摄得到;所述常用词根统计表包含707个常用词根,词根长度范围为2~10个字符之间。
3.根据权利要求1所述的基于语义相关度预测和注意力解码的场景文本识别方法,其特征在于:在步骤S2中的拉伸变换的操作双线性插值或下采样操作。
4.根据权利要求1所述的基于语义相关度预测和注意力解码的场景文本识别方法,其特征在于,步骤S3包括:
S31,构建深度神经网络模型;
S32,设定所述深度神经网络模型训练时的参数;其中,迭代次数:1,000,000,优化器:Adadelta,学习率:1.0;
S33,在设定的初始化参数下进行深度神经网络的训练。
5.根据权利要求4所述的基于语义相关度预测和注意力解码的场景文本识别方法,其特征在于,所述深度神经网络模型的模型结构表1:
表1 深度神经网络模型的模型结构
Figure FDA0002211119420000021
表2 残差层的模型结构
Figure FDA0002211119420000022
深度神经网络模型的模型结构中的残差层的模型结构如表2所示,残差层内的非线性层均采用ReLU激活函数;下采样层通过卷积层和批标准化层实现。
6.根据权利要求1所述的基于语义相关度预测和注意力解码的场景文本识别方法,其特征在于,步骤S4包括:
待识别的场景文本图像通过深层卷积神经网络模型,获取具有鲁棒性的高级特征表达,语义相关度预测模块以常用词根统计表为语义指导,预测得到相邻字符语义相关度参数;语义注意力机制解码模块根据所述相邻字符语义相关度参数和文本图像的高级特征表达进行转录和修正,得到一串字符作为识别结果。
7.根据权利要求1所述的基于语义相关度预测和注意力解码的场景文本识别方法,其特征在于,步骤S3和S4之间还包括:深度神经网络模型测试;
所述深度神经网络模型测试的步骤包括:真实评测数据集输入到深度神经网络模型,深度神经网络模型对真实评测数据集进行精确识别,并返回一串字符作为识别结果;若所述识别结果和真实评测数据集对应的标注文本数据一致,则所述深度神经网络模型的识别能力达到预设要求。
CN201910898753.1A 2019-09-23 2019-09-23 基于语义相关度预测和注意力解码的场景文本识别方法 Pending CN110717336A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910898753.1A CN110717336A (zh) 2019-09-23 2019-09-23 基于语义相关度预测和注意力解码的场景文本识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910898753.1A CN110717336A (zh) 2019-09-23 2019-09-23 基于语义相关度预测和注意力解码的场景文本识别方法

Publications (1)

Publication Number Publication Date
CN110717336A true CN110717336A (zh) 2020-01-21

Family

ID=69210752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910898753.1A Pending CN110717336A (zh) 2019-09-23 2019-09-23 基于语义相关度预测和注意力解码的场景文本识别方法

Country Status (1)

Country Link
CN (1) CN110717336A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428593A (zh) * 2020-03-12 2020-07-17 北京三快在线科技有限公司 一种文字识别方法、装置、电子设备及存储介质
CN111783705A (zh) * 2020-07-08 2020-10-16 厦门商集网络科技有限责任公司 一种基于注意力机制的文字识别方法及***
CN111860116A (zh) * 2020-06-03 2020-10-30 南京邮电大学 一种基于深度学习和特权信息的场景识别方法
CN111967471A (zh) * 2020-08-20 2020-11-20 华南理工大学 一种基于多尺度特征的场景文本识别方法
CN111967470A (zh) * 2020-08-20 2020-11-20 华南理工大学 一种基于解耦注意力机制的文本识别方法及***
CN112990196A (zh) * 2021-03-16 2021-06-18 北京大学 基于超参数搜索和二阶段训练的场景文字识别方法及***
CN113553885A (zh) * 2020-04-26 2021-10-26 复旦大学 一种基于生成对抗网络的自然场景文本识别方法
CN113673507A (zh) * 2020-08-10 2021-11-19 广东电网有限责任公司 电力专业的设备铭牌识别算法
CN113743291A (zh) * 2021-09-02 2021-12-03 南京邮电大学 一种融合注意力机制的多尺度检测文本的方法及装置
CN118072973A (zh) * 2024-04-15 2024-05-24 慧医谷中医药科技(天津)股份有限公司 基于医学知识库的智能问诊方法与***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097049A (zh) * 2019-04-03 2019-08-06 中国科学院计算技术研究所 一种自然场景文本检测方法及***
CN110147763A (zh) * 2019-05-20 2019-08-20 哈尔滨工业大学 基于卷积神经网络的视频语义分割方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097049A (zh) * 2019-04-03 2019-08-06 中国科学院计算技术研究所 一种自然场景文本检测方法及***
CN110147763A (zh) * 2019-05-20 2019-08-20 哈尔滨工业大学 基于卷积神经网络的视频语义分割方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428593A (zh) * 2020-03-12 2020-07-17 北京三快在线科技有限公司 一种文字识别方法、装置、电子设备及存储介质
CN113553885A (zh) * 2020-04-26 2021-10-26 复旦大学 一种基于生成对抗网络的自然场景文本识别方法
CN111860116A (zh) * 2020-06-03 2020-10-30 南京邮电大学 一种基于深度学习和特权信息的场景识别方法
CN111783705A (zh) * 2020-07-08 2020-10-16 厦门商集网络科技有限责任公司 一种基于注意力机制的文字识别方法及***
CN111783705B (zh) * 2020-07-08 2023-11-14 厦门商集网络科技有限责任公司 一种基于注意力机制的文字识别方法及***
CN113673507A (zh) * 2020-08-10 2021-11-19 广东电网有限责任公司 电力专业的设备铭牌识别算法
CN111967471A (zh) * 2020-08-20 2020-11-20 华南理工大学 一种基于多尺度特征的场景文本识别方法
CN111967470A (zh) * 2020-08-20 2020-11-20 华南理工大学 一种基于解耦注意力机制的文本识别方法及***
CN112990196A (zh) * 2021-03-16 2021-06-18 北京大学 基于超参数搜索和二阶段训练的场景文字识别方法及***
CN112990196B (zh) * 2021-03-16 2023-10-24 北京大学 基于超参数搜索和二阶段训练的场景文字识别方法及***
CN113743291A (zh) * 2021-09-02 2021-12-03 南京邮电大学 一种融合注意力机制的多尺度检测文本的方法及装置
CN113743291B (zh) * 2021-09-02 2023-11-07 南京邮电大学 一种融合注意力机制的多尺度检测文本的方法及装置
CN118072973A (zh) * 2024-04-15 2024-05-24 慧医谷中医药科技(天津)股份有限公司 基于医学知识库的智能问诊方法与***

Similar Documents

Publication Publication Date Title
CN110717336A (zh) 基于语义相关度预测和注意力解码的场景文本识别方法
CN110083831B (zh) 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN111950453A (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN111967471A (zh) 一种基于多尺度特征的场景文本识别方法
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN111967470A (zh) 一种基于解耦注意力机制的文本识别方法及***
CN112819686A (zh) 基于人工智能的图像风格处理方法、装置及电子设备
CN110472248A (zh) 一种中文文本命名实体的识别方法
CN114492646A (zh) 一种基于跨模态互注意力机制的图文匹配方法
CN113283336A (zh) 一种文本识别方法与***
CN112257716A (zh) 一种基于尺度自适应及方向注意力网络的场景文字识别方法
CN112836702A (zh) 一种基于多尺度特征提取的文本识别方法
CN115546553A (zh) 一种基于动态特征抽取和属性修正的零样本分类方法
Wu et al. STR transformer: a cross-domain transformer for scene text recognition
CN113886615A (zh) 一种基于多粒度联想学习的手绘图像实时检索方法
CN116740362B (zh) 一种基于注意力的轻量化非对称场景语义分割方法及***
CN111242114B (zh) 文字识别方法及装置
CN110909645B (zh) 一种基于半监督流形嵌入的人群计数方法
CN116071544A (zh) 面向弱监督指向性视觉理解的图像描述预测方法
CN114694133A (zh) 一种基于图像处理与深度学习相结合的文本识别方法
CN113362088A (zh) 一种基于crnn的电信行业智能客服图像识别的方法及其***
CN114298047A (zh) 基于笔画卷积和词向量的中文命名实体识别方法及***
CN113361277A (zh) 基于注意力机制的医学命名实体识别建模方法
CN113505783B (zh) 基于少次学习的甲骨文单字识别方法和装置
Ali et al. Urdu-text: a dataset and benchmark for Urdu text detection and recognition in natural scenes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200121

RJ01 Rejection of invention patent application after publication