CN110276351A - 多语言场景文本检测与识别方法 - Google Patents

多语言场景文本检测与识别方法 Download PDF

Info

Publication number
CN110276351A
CN110276351A CN201910577855.3A CN201910577855A CN110276351A CN 110276351 A CN110276351 A CN 110276351A CN 201910577855 A CN201910577855 A CN 201910577855A CN 110276351 A CN110276351 A CN 110276351A
Authority
CN
China
Prior art keywords
text
loss
candidates
recognition methods
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910577855.3A
Other languages
English (en)
Other versions
CN110276351B (zh
Inventor
张勇东
周宇
谢洪涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201910577855.3A priority Critical patent/CN110276351B/zh
Publication of CN110276351A publication Critical patent/CN110276351A/zh
Application granted granted Critical
Publication of CN110276351B publication Critical patent/CN110276351B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种多语言场景文本检测与识别方法,包括:通过文本检测器对输入的图像进行处理,得到一系列文本候选框:通过特征选择和长范围依赖性提取模块,自适应地生成一个一维权重向量和一个二维权重矩阵,从而更关注那些提取了文本信息的通道以及包含文本的区域,以及通过捕获长范围依赖性,从而获得全局信息;再通过特征增强模块的操作,使网络对文本/非文本具有更好的辨别性能,从而减小误报。最后分别使用多个卷积来预测一系列文本候选框;将经过阈值处理以及缩放之后的文本候选框通过文本识别器与文本类别识别器进行文本识别与文本类别识别,得到文本内容与文本的类别。该方法具有较高的文本检测与识别性能,并适用于多语言的应用场景。

Description

多语言场景文本检测与识别方法
技术领域
本发明涉及文本检测识别技术领域,尤其涉及一种多语言场景文本检测与识别方法。
背景技术
场景文本读取是指从自然场景图像中检测并识别出其中包含的所有文本,在图像检索,场景理解,自动驾驶和文本翻译等领域有很多应用。目前很多研究方法都只单独做文本检测或者文本识别,有一些方法能够同时进行文本检测和识别,但是它们主要是针对一种语言的文本(例如,英文或者中文),也即,这些方法无法适用于多语言的场景。
此外,这些方法只使用卷积神经网络和循环神经网络这些局部操作,没有捕获长范围依赖性。再者,这些方法一般都使用在线难例挖掘算法来降低网络的误判率,但是其效率较低。最后,现有的方法都只使用Connectionist Temporal Classification(CTC)或者基于注意力机制的解码器来将输入序列解码为文本,使得文本识别性能较低。
发明内容
本发明的目的是提供一种多语言场景文本检测与识别方法,具有较高的文本检测与识别性能。
本发明的目的是通过以下技术方案实现的:
一种多语言场景文本检测与识别方法,包括:
通过文本检测器对输入的图像进行处理,得到一系列文本候选框:在特征选择和长范围依赖性提取模块中,通过特征选择操作,自适应地生成一个一维权重向量和一个二维权重矩阵,从而使文本检测器更关注那些提取了文本信息的通道以及包含文本的区域,以及通过捕获长范围依赖性,从而获得全局信息;通过特征增强模块对特征选择和长范围依赖性提取模块输出的特征图进行增强处理,再通过卷积操作得到一系列文本候选框;
将文本候选框通过文本识别器与文本类别识别器进行文本识别与文本类别识别,得到文本内容与文本的类别。
由上述本发明提供的技术方案可以看出,能够自适应地学习一个一维权重向量和一个二维权重矩阵,从而使网络更关注那些提取了文本信息的通道以及包含文本的位置;并且能捕获长范围依赖性,从而能有效地读取长文本,进而提高了文本检测与后续文本识别的效果;同时,通过文本类别识别器还可以实现文本类别的识别,从而适用于多语言的应用场景。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种多语言场景文本检测与识别方法的示意图;
图2为本发明实施例提供的在三种文本图像数据集上的性能示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种多语言场景文本检测与识别方法,如图1所示,主要包括:
1、通过文本检测器对输入的图像进行处理,得到一系列文本候选框;它主要包括两个模块,即特征选择及长范围依赖性模块和特征增强模块。通过特征选择和长范围依赖性提取模块(FSDE),自适应地生成一个一维权重向量和一个二维权重矩阵,从而使文本检测器更关注那些提取了文本信息的通道以及包含文本的区域,,并获得全局信息,从而有利于提取长文本信息;通过特征增强模块(FEM)对特征选择和长范围依赖性提取模块输出的特征图进行增强处理,增强文本区域的响应并抑制非文本区域的响应,从而使网络更好地区分文本/非文本,从而减小误报再通过卷积操作得到一系列文本候选框。
特征选择和长范围依赖性提取模块包含特征提取与长范围依赖性提取两个操作。特征选择中通过自适应地生成一个一维权重向量和一个二维权重矩阵得到与输入特征图一样大小的二维矩阵,这个二维矩阵可以理解为正方形网格,每个网格的值越大,代表对应的特征图的在该位置越有可能是文本,特征选择操作得到相应特征图。长范围依赖性提取是针对之前的结果(得到的特征图)进行的操作,操作结果依然是特征图,但是特征图的效果得到提升。
长范围依赖性:是指一个点的值不止与它周围的几个像素有关,而是与整个特征图的所有像素都有关。具体来说就是,要判断一个点是不是文本,之前的方法是通过这个点的附近像素来判断,长范围依赖性,则是通过特征图的所有点来进行判断。通过捕获长范围依赖性,从而获得全局信息,也即能够知道特征图上哪些部分是文本哪些部分是背景。
通常情况下,FSDE模块输出的特征图与高级特征图经过上采样(即特征图分辨率放大)之后的特征图进行融化后,再输入至FEM模块。FEM处理过程主要包括:对响应值进行指数处理,从而增大文本与非文本的响应值之差;以及,生成一个文本与非文本的语义分割图,从而辅助文本检测。
通过对FEM生成的特征图进行卷积操作,得到一系列文本候选框。示例性的,可以通过1个1通道的1x1卷积,1个4通道的1x1卷积,和1个2通道的1x1卷积操作得到一系列文本候选框。
为了便于理解,下面针对文本检测器的工作过程进行介绍,值得注意的是,下述介绍中所涉及的网络结构或者具体的参数均为举例,并非构成限制。
文本检测器的工作流程:输入一幅文本图像,经过一系列卷积操作(如3x3,16之类的)以及几个resnet block(每个resnet块是一些卷积操作的组合,如很多方法一样使用resnet)进行特征提取,其中前三个resnet block后面使用了FSDE模块,目的是让网络能更关注文本区域,并能更好地检测长文本(捕获长范围依赖性的作用)。FSDE模块输出的特征图与高级特征图经过上采样之后得到的特征图进行融化之后,使用FEM模块来使网络能更好地区分文本和非文本。在FEM操作得到的特征图之后,使用1个1通道的1x1卷积,1个4通道的1x1卷积,和1个2通道的1x1卷积操作得到文本候选框。
优选的,在得到一系列文本候选框后,通过非极大值抑制过滤掉置信度低于阈值的文本候选框;然后在保持宽高比不变的情况下,将过滤后的所有文本候选框的高度缩放到相同高度,再输入至文本识别器与文本类别识别器。
2、将所有文本候选框通过文本识别器与文本类别识别器进行文本识别与文本类别识别,得到文本内容与文本的类别。
1)文本识别器进行文本识别的过程为:使用卷积网络和循环神经网络提取文本候选框内的特征,再使用CTC解码器和基于注意力机制的解码器将提取到的特征序列解码为字符序列。与现有技术中的二选一不同,本发明结合CTC解码器和基于注意力机制的解码器进行文本识别,以提高识别性能。
2)文本类别识别器使用一个神经网络实现,网络结构跟VGG16类似,区别在于最后的全连接层有N个输出,分别代表文本候选框为第一种语言、第二种语言、…、第N-1种语言、以及符号的概率。示例性的,可设置N=7,则可以实现6种语言(***语、孟加拉语、韩语、日语、英语、汉语)与符号的识别。
将图1所示的文本检测器、文本识别器与文本类别识别器作为一个整体的网络模型,对其进行训练。
1、数据集。
示例性的,可以从网络下载多语言的合成文本数据集,以及从ICDAR官网下载ICDAR2013、ICDAR2015、ICDAR2017MLT数据集,其中包含训练集和测试集。训练集用于训练模型使计算机学到文本检测、识别和类别识别的经验,测试集用于测试学习得到的模型的性能。同时构建了一个包含7500个字符的集合,它包含了6种语言的字符和标点符号。
2、网络模型训练。
训练过程与前述介绍的工作过程类似,首先对文本检测器、文本识别器和文本类别识别器分别单独训练3个周期,然后再把这三个模块联合起来训练。下面以文本检测器为例进行介绍。
一次取16张训练集数据图像,缩放成256×256大小之后,输入到网络模型中。图像首先被传送到具有FSDE(特征选择和长范围依赖性提取)模块和FEM(特征增强)模块的文本检测器。FSDE模块有两个作用,1)就是使网络自适应地生成一个一维权重向量和一个二维权重矩阵,这两个权重分别代表网络更关注哪些通道和更关注包含文本特征的位置;2)捕获长范围依赖性,从而能够获得全局信息,有利于提取一些比较大的文本。而FEM的作用也有两个:1)把网络的响应值进行指数处理,从而增大文本与非文本的响应值之差;2)生成一个文本/非文本的语义分割图,从而辅助文本检测。文本检测器的有7个输出,其中2个代表像素点是否属于文本的分割图,4个分别代表每个像素到包含这个像素的文本框的上下左右边的距离,,剩下1个代表文本候选框相对于水平方向的角度。然后这些文本候选框经过非极大值抑制过滤掉大部分误判为文本的候选框,剩下的候选框缩放之后,分别被输入到文本识别器和文本类别识别器中,从而输出识别处理的文本和它们所属的文本语言种类。
网络模型参数初始化采用随机初始化,然后对网络模型参数进行更新,用于更新参数的损失函数包括检测损失函数Ldet和识别损失函数Lrec
Ldet=Lgeo1Langle2Ldice3Lseg
Lrec=λ4Lsoft max5Lctc
则总体损失函数为:
L=LdetrecLrec
其中,Lgeo表示坐标损失,用来判断预测的文本框是否准确,预测的文本框越准确,这个损失就越小;Langle表示角度损失,即预测的文本的排版方向与实际方向之间偏差越大则损失越大,其他损失类似;Ldice表示对图像像素进行文本与非文本预测的损失,比如说那些像素本来是文本,而网络把它预测成不是文本,则损失大,背景被预测成背景,文本被预测成文本则没有损失;Lseg表示FEM模块的损失,与Ldice类似;Lsoftmax表示基于注意力机制的解码器的损失;Lctc表示CTC解码器的损失;λ1~λ5、λrec为相应损失的比例系数。
上述网络模型可以用PyTorch实现,它由ADAM优化器进行优化,初始学习率lr为0.0001,β1和β2分别设置为0.9和0.999。权重衰减和批量大小设置分别为0和16。上述网络模型可以在Ubuntu上使用一个Nvidia K80 GPU进行训练,训练模型需要两天时间。
与现有方法相比,本方法能够自适应地学习一个一维权重向量和一个二维权重矩阵,从而使网络更关注那些提取了文本信息的通道以及包含文本的位置。此外,能捕获长范围依赖性,从而能有效地读取长文本。同时,能够同时有效地检测和识别多种语言的文本以及数字符号。如图2所示,(a)、(b)、(c)三部分依次为本方法在ICDAR2017 MLT数据集、ICDAR2015数据集、ICDAR 2013数据集上的文本检测识别结果,图2中的矩形框也即预测的文本框,文本框附近的文字也即预测到的文字结果。可以看出,本方法在ICDAR 2017 MLT数据集上达到了最先进的效果,同时在ICDAR2013和ICDAR2015数据集上与现有的最好方法的性能差不多。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (6)

1.一种多语言场景文本检测与识别方法,其特征在于,包括:
通过文本检测器对输入的图像进行处理,得到一系列文本候选框:在特征选择和长范围依赖性提取模块中,通过特征选择操作,自适应地生成一个一维权重向量和一个二维权重矩阵,从而使文本检测器更关注那些提取了文本信息的通道以及包含文本的区域,以及通过捕获长范围依赖性,从而获得全局信息;通过特征增强模块对特征选择和长范围依赖性提取模块输出的特征图进行增强处理,再通过卷积操作得到一系列文本候选框;
将文本候选框通过文本识别器与文本类别识别器进行文本识别与文本类别识别,得到文本内容与文本的类别。
2.根据权利要求1所述的一种多语言场景文本检测与识别方法,其特征在于,特征增强模块处理过程包括:
对响应值进行指数处理,从而增大文本与非文本的响应值之差;
以及,生成一个文本与非文本的语义分割图,从而辅助文本检测。
3.根据权利要求1所述的一种多语言场景文本检测与识别方法,其特征在于,在得到一系列文本候选框后,通过非极大值抑制过滤掉置信度低于阈值的文本候选框;然后在保持宽高比不变的情况下,将过滤后的所有文本候选框的高度缩放到相同高度,再输入至文本识别器与文本类别识别器。
4.根据权利要求1所述的一种多语言场景文本检测与识别方法,其特征在于,所述文本识别器进行文本识别的过程为:
使用卷积网络以及循环神经网络提取文本候选框内的特征,再使用CTC解码器和基于注意力机制的解码器将提取到的特征序列解码为字符序列。
5.根据权利要求1所述的一种多语言场景文本检测与识别方法,其特征在于,文本类别识别器使用一个神经网络实现,网络结构跟VGG16类似,区别在于最后的全连接层有N个输出,分别代表文本候选框为第一种语言、第二种语言、…、第N-1种语言、以及符号的概率。
6.根据权利要求4所述的一种多语言场景文本检测与识别方法,其特征在于,在训练阶段,对文本检测器、文本识别器与文本类别识别器进行参数更新,用于更新参数的损失函数包括检测损失函数Ldet和识别损失函数Lrec
Ldet=Lgeo1Langle2Ldice3Lseg
Lrec=λ4Lsoft max5Lctc
则总体损失函数为:
L=LdetrecLrec
其中,Lgeo表示坐标损失,Langle表示角度损失,Ldice表示对图像像素进行文本与非文本预测的损失,Lseg表示特征增强模块的损失,Lsoftmax表示基于注意力机制的解码器的损失;Lctc表示CTC解码器的损失;λ1~λ5、λrec为相应损失的比例系数。
CN201910577855.3A 2019-06-28 2019-06-28 多语言场景文本检测与识别方法 Active CN110276351B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910577855.3A CN110276351B (zh) 2019-06-28 2019-06-28 多语言场景文本检测与识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910577855.3A CN110276351B (zh) 2019-06-28 2019-06-28 多语言场景文本检测与识别方法

Publications (2)

Publication Number Publication Date
CN110276351A true CN110276351A (zh) 2019-09-24
CN110276351B CN110276351B (zh) 2022-09-06

Family

ID=67962601

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910577855.3A Active CN110276351B (zh) 2019-06-28 2019-06-28 多语言场景文本检测与识别方法

Country Status (1)

Country Link
CN (1) CN110276351B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766020A (zh) * 2019-10-30 2020-02-07 哈尔滨工业大学 一种面向多语种自然场景文本检测与识别的***及方法
CN111126243A (zh) * 2019-12-19 2020-05-08 北京科技大学 一种图像数据检测方法、装置以及计算机可读存储介质
CN111242197A (zh) * 2020-01-07 2020-06-05 中国石油大学(华东) 基于双视域语义推理网络的图像文匹配方法
CN111259764A (zh) * 2020-01-10 2020-06-09 中国科学技术大学 文本检测方法、装置、电子设备及存储装置
CN111401374A (zh) * 2020-03-06 2020-07-10 湖南快乐阳光互动娱乐传媒有限公司 基于多任务的模型训练方法、字符识别方法及装置
CN112016545A (zh) * 2020-08-11 2020-12-01 ***股份有限公司 一种包含文本的图像生成方法及装置

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799879A (zh) * 2012-07-12 2012-11-28 中国科学技术大学 从自然场景图像中识别多言语、多字体文字的方法
CN106503715A (zh) * 2016-11-07 2017-03-15 南京大学 基于深度学习的自然场景多语言文本检测方法
CN106570497A (zh) * 2016-10-08 2017-04-19 中国科学院深圳先进技术研究院 一种场景图像的文本检测方法和装置
US9710703B1 (en) * 2016-07-15 2017-07-18 StradVision, Inc. Method and apparatus for detecting texts included in a specific image
CN107977620A (zh) * 2017-11-29 2018-05-01 华中科技大学 一种基于全卷积网络的多方向场景文本单次检测方法
CN108205376A (zh) * 2016-12-19 2018-06-26 谷歌有限责任公司 用于对话的图标符号预测
CN108288088A (zh) * 2018-01-17 2018-07-17 浙江大学 一种基于端到端全卷积神经网络的场景文本检测方法
CN108491836A (zh) * 2018-01-25 2018-09-04 华南理工大学 一种自然场景图像中中文文本整体识别方法
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN108615036A (zh) * 2018-05-09 2018-10-02 中国科学技术大学 一种基于卷积注意力网络的自然场景文本识别方法
CN109165697A (zh) * 2018-10-12 2019-01-08 福州大学 一种基于注意力机制卷积神经网络的自然场景文字检测方法
CN109299274A (zh) * 2018-11-07 2019-02-01 南京大学 一种基于全卷积神经网络的自然场景文本检测方法
CN109492679A (zh) * 2018-10-24 2019-03-19 杭州电子科技大学 基于注意力机制与联结时间分类损失的文字识别方法
CN109753956A (zh) * 2018-11-23 2019-05-14 西北工业大学 基于分割候选区提取的多方向文本检测算法
CN109902622A (zh) * 2019-02-26 2019-06-18 中国科学院重庆绿色智能技术研究院 一种用于登机牌信息验证的文字检测识别方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799879A (zh) * 2012-07-12 2012-11-28 中国科学技术大学 从自然场景图像中识别多言语、多字体文字的方法
US9710703B1 (en) * 2016-07-15 2017-07-18 StradVision, Inc. Method and apparatus for detecting texts included in a specific image
CN106570497A (zh) * 2016-10-08 2017-04-19 中国科学院深圳先进技术研究院 一种场景图像的文本检测方法和装置
CN106503715A (zh) * 2016-11-07 2017-03-15 南京大学 基于深度学习的自然场景多语言文本检测方法
CN108205376A (zh) * 2016-12-19 2018-06-26 谷歌有限责任公司 用于对话的图标符号预测
CN107977620A (zh) * 2017-11-29 2018-05-01 华中科技大学 一种基于全卷积网络的多方向场景文本单次检测方法
CN108288088A (zh) * 2018-01-17 2018-07-17 浙江大学 一种基于端到端全卷积神经网络的场景文本检测方法
CN108491836A (zh) * 2018-01-25 2018-09-04 华南理工大学 一种自然场景图像中中文文本整体识别方法
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN108615036A (zh) * 2018-05-09 2018-10-02 中国科学技术大学 一种基于卷积注意力网络的自然场景文本识别方法
CN109165697A (zh) * 2018-10-12 2019-01-08 福州大学 一种基于注意力机制卷积神经网络的自然场景文字检测方法
CN109492679A (zh) * 2018-10-24 2019-03-19 杭州电子科技大学 基于注意力机制与联结时间分类损失的文字识别方法
CN109299274A (zh) * 2018-11-07 2019-02-01 南京大学 一种基于全卷积神经网络的自然场景文本检测方法
CN109753956A (zh) * 2018-11-23 2019-05-14 西北工业大学 基于分割候选区提取的多方向文本检测算法
CN109902622A (zh) * 2019-02-26 2019-06-18 中国科学院重庆绿色智能技术研究院 一种用于登机牌信息验证的文字检测识别方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
HUI LI 等: "Towards End-to-end Text Spotting with Convolutional Recurrent Neural Networks", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 *
MICHAL BUŠTA 等: "E2E-MLT - an Unconstrained End-to-End Method for Multi-Language Scene Text", 《COMPUTER VISION - ACCV 2018 WORKSHOPS》 *
NIBAL NAYEF 等: "Robust Reading Challenge on Multi-Lingual Scene Text Detection and Script Identification - RRC-MLT", 《ICDAR2017》 *
张巍 等: "基于隐含狄利克雷分布的多语种文本的自动检测研究", 《中国海洋大学学报》 *
王林 等: "卷积深度置信网络的场景文本检测", 《计算机***应用》 *
陈晓龙 等: "基于深度学习的电力设备铭牌识别", 《广西大学学报(自然科学版)》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766020A (zh) * 2019-10-30 2020-02-07 哈尔滨工业大学 一种面向多语种自然场景文本检测与识别的***及方法
CN111126243A (zh) * 2019-12-19 2020-05-08 北京科技大学 一种图像数据检测方法、装置以及计算机可读存储介质
CN111126243B (zh) * 2019-12-19 2023-04-07 北京科技大学 一种图像数据检测方法、装置以及计算机可读存储介质
CN111242197A (zh) * 2020-01-07 2020-06-05 中国石油大学(华东) 基于双视域语义推理网络的图像文匹配方法
CN111242197B (zh) * 2020-01-07 2023-11-07 中国石油大学(华东) 基于双视域语义推理网络的图像文匹配方法
CN111259764A (zh) * 2020-01-10 2020-06-09 中国科学技术大学 文本检测方法、装置、电子设备及存储装置
CN111401374A (zh) * 2020-03-06 2020-07-10 湖南快乐阳光互动娱乐传媒有限公司 基于多任务的模型训练方法、字符识别方法及装置
CN112016545A (zh) * 2020-08-11 2020-12-01 ***股份有限公司 一种包含文本的图像生成方法及装置

Also Published As

Publication number Publication date
CN110276351B (zh) 2022-09-06

Similar Documents

Publication Publication Date Title
CN110276351A (zh) 多语言场景文本检测与识别方法
CN110598029B (zh) 基于注意力转移机制的细粒度图像分类方法
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
US11055557B2 (en) Automated extraction of product attributes from images
CN111680706B (zh) 一种基于编码和解码结构的双通道输出轮廓检测方法
US10635949B2 (en) Latent embeddings for word images and their semantics
CN110032998B (zh) 自然场景图片的文字检测方法、***、装置和存储介质
CN111079739B (zh) 一种多尺度注意力特征检测方法
Iqbal et al. Coconut trees detection and segmentation in aerial imagery using mask region‐based convolution neural network
CN109948615A (zh) 多语言文本检测识别***
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
CN107133622A (zh) 一种单词的分割方法和装置
CN110175609B (zh) 界面元素检测方法、装置及设备
Li et al. Semisupervised semantic segmentation of remote sensing images with consistency self-training
Ali et al. Urdu natural scene character recognition using convolutional neural networks
CN116311310A (zh) 一种结合语义分割和序列预测的通用表格识别方法和装置
CN113591719A (zh) 一种自然场景任意形状文本检测方法、装置和训练方法
CN111598155A (zh) 一种基于深度学习的细粒度图像弱监督目标定位方法
CN115713715A (zh) 一种基于深度学习的人体行为识别方法及识别***
He et al. Aggregating local context for accurate scene text detection
Li et al. Multilingual text detection with nonlinear neural network
CN116189162A (zh) 一种船牌检测与识别方法、装置、电子设备和储存介质
Amrouche et al. Detection and localization of arabic text in natural scene images
CN109635810B (zh) 一种确定文本信息的方法、装置、设备及存储介质
CN113011528A (zh) 一种基于上下文和级联结构的遥感图像小目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant