CN107688808B - 一种快速的自然场景文本检测方法 - Google Patents

一种快速的自然场景文本检测方法 Download PDF

Info

Publication number
CN107688808B
CN107688808B CN201710665997.6A CN201710665997A CN107688808B CN 107688808 B CN107688808 B CN 107688808B CN 201710665997 A CN201710665997 A CN 201710665997A CN 107688808 B CN107688808 B CN 107688808B
Authority
CN
China
Prior art keywords
convolution
module
filling
size
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710665997.6A
Other languages
English (en)
Other versions
CN107688808A (zh
Inventor
李宏亮
方清
陈雅丽
杨燕平
姚晓宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201710665997.6A priority Critical patent/CN107688808B/zh
Publication of CN107688808A publication Critical patent/CN107688808A/zh
Application granted granted Critical
Publication of CN107688808B publication Critical patent/CN107688808B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/23Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on positionally close patterns or neighbourhood relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

该发明公开了一种快速的自然场景文本检测方法,涉及图像处理领域,特别是用于文本检测的卷积神经网络的新型应用技术。提出一个快速的特征提取小网络,使用inception模块,采用小卷积核,减少参数,缩小网络,加快运行速度。添加一个反卷积层用于融合多尺度信息,提高检测精度。检测阶段采用基于SSD的检测框架,对预置框的宽高比例进行改进,采用了适应文本特征的比例。本发明提出的方法在公开数据集上进行测试,验证了方法的有效性和实时性。

Description

一种快速的自然场景文本检测方法
技术领域
本发明涉及图像处理领域,特别是用于文本检测的卷积神经网络的新型应用技术。
背景技术
一直以来,文本都在人们的生活中发挥着重要的作用。文本中包含的丰富而精确的信息对基于视觉的应用来说非常重要,比如:图像检索、目标定位、人机交互、机器人导航以及工业自动化等等。自动的文本检测提供了一种获取、利用图片与视频中文本信息的方法,因而成为计算机视觉和文档分析领域的热门研究课题。
在计算机视觉领域,有诸多方法可以用于文本检测。传统的文本检测方法通常是基于纹理和连通域信息的,最常用的方法有笔划宽度变换(SWT)、笔划特征变换(SFT)和最大稳定极值区域(MSER)法。这些方法都是通过人工选择特征,并不能很好地描述文本中的语义信息以适应文本的多样性。例如基于SWT的算法对于边缘信息较少的模糊图像效果很差,基于MSER的算法无法检测出不是MSER区域的文字。另外人工设计的特征会带来大量的参数,这些参数往往需要针对不同的图像做出具体的调整,不具有普适性,算法的鲁棒性较差。而且在一些场景复杂的自然图像上,可能无法区分与文本类似的背景区域,检测效果不理想。与这些人工选择的特征相比,深度学习方法提取到的特征具有很大的优势。
深度学习网络在特征提取方面巨大的优越性使得其在目标检测、图像分类和语义分割上有出色的表现。一些优秀的深度网络,如:AlexNet、VGG Net、GoogLeNet和ResNet都得到了广泛的应用。有效的特征提取网络为目标检测等任务提供了坚实的基础。
基于深度学习的通用目标检测方法可以分为两大类:基于区域的方法和基于回归的方法。前者比如:Fast-RCNN、Faster-RCNN和R-FCN,这些方法能够获得很高的准确率,但运行速度较慢。后者比如:SSD和YOLO,这些方法追求算法的实时性但也能获得尚可的检测结果。在这些方法中,SSD因其速度快、精度高而成为一种广泛应用的高效算法。
目前,有一些基于深度卷积网络的文本检测工作,如:将LSTM与Faster-RCNN相结合的算法,将RPN与Fast-RNN相结合的算法,这些算法检测效果好,但速度较慢。另外,也有基于SSD的文本检测算法,能够在提高速度的同时满足精度要求。
发明内容
本发明解决的技术问题包括:现有公开的训练文本数据库数量不充足的问题,现有技术中因网络参数过多而训练样本太少所产生的过拟合问题,从而准确检测出图像中文本信息。
本发明技术方案为一种快速的自然场景文本检测方法,该方法包括:
步骤1:获取充足的训练文本数据,对获取的训练文本进行人工标定文字的位置和类别,将每一幅训练样本进行图像处理,获得额外的训练样本,对所有的训练样本进行归一化处理;
步骤2:建立一个特征提取网络,根据该特征提取网络提取出各训练样本的高层次语义特征;
步骤3:根据步骤2提取的全局特征,输入检测器,识别出图像中文字的位置;
其特征在于,所述步骤2中包括1个输入模块、第一、二卷积模块、第一至第七共7个卷积网络、1个池化模块、1个反卷积模块、1个级联模块;其中输入模块作为第一卷积模块的输入,第一、二卷积模块、第一至第七卷积网络、池化模块依次级联;额外的第四卷积网络的输出作为反卷积模块的输入,反卷积模块的输出与第三卷积网络的输出共同作为级联模块的输入,所述级联模块是将反卷积模块与第三卷积网络的输出进行级联;所述级联模块、第五、七卷积网络、池化模块的输出作为整个特征提取网路的输出。
进一步的,所述第一至第七卷积网络包括输入谱端、特征谱级联端,所述输入谱端和特征谱级联端之间通过并联的多条卷积支路连接,每条卷积支路上包括1、2或3个卷积模块。所述卷积网络采用了多条支路并联的结构,不同支路上的卷积模块使用不同大小的卷积核,更好地利用了多尺度的特征信息,使得多尺度信息得以融合,有效提高了提取到的特征质量。
进一步的,所述第一卷积模块的卷积核的大小为3*3、步长为1、填充为1,第二卷积模块的卷积核大小为1*1,步长为1,填充为0。所述第一、二卷积模块位于整个特征提取网络的前端,用于提取底层的边缘特征,选用较小的卷积核能够在更好地提取图像中的细节特征的同时,显著减少网络的参数,加快运行速度。
进一步的,第一卷积网络包括并联的4条卷积支路,第一条卷积支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块;第二条支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,1个卷积核大小为5*5,步长为1,填充为2的卷积模块;第三条支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,2个卷积核大小为3*3,步长为1,填充为1的卷积模块;第四条卷积支路上包括1个核的大小为3*3,步长为1,填充为1的池化模块,1个卷积核大小为1*1,步长为1,填充为0的卷积模块;
第二、三卷积网络与第一卷积网络的结构相同;
第四卷积网络包括并联的3条卷积支路,第一条卷积支路上包括1个核大小为3*3,步长为2,填充为0的池化模块;第二条支路上包括1个卷积核大小为3*3,步长为2,填充为1的卷积模块;第三条支路上包括1个卷积核大小为1*1,步长为1,填充为1的卷积模块,1个卷积核大小为3*3,步长为2,填充为0的卷积模块;
第五卷积网络包括并联的4条卷积支路,第一条卷积支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块;第二条支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,1个卷积核大小为7*1,步长为1,横向填充为3的卷积模块,1个卷积核大小为1*7,步长为1,纵向填充为3的卷积模块;第三条支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,2个卷积核大小为7*1,步长为1,横向填充为3的卷积模块;第四条卷积支路上包括1个核的大小为3*3,步长为1,填充为1的池化模块,1个卷积核大小为1*1,步长为1,填充为0的卷积模块;
第六卷积网络包括并联的3条卷积支路,第一条卷积支路上包括1个核大小为3*3,步长为2,填充为0的池化模块;第二条支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,1个卷积核大小为3*3,步长为2,填充为0的卷积模块;第三条支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,1个卷积核大小为7*1,步长为1,横向填充为3的卷积模块,1个卷积核大小为3*3,步长为2,填充为0的卷积模块;
第七卷积网络包括并联的4条卷积支路,第一条卷积支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,1个卷积核大小为3*1,步长为1,横向填充为1的卷积模块;第二条支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,1个卷积核大小为1*3,步长为1,纵向填充为1的卷积模块;第三条支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,1个卷积核大小为3*3,步长为1,填充为1的卷积模块,1个卷积核大小为3*1,步长为1,横向填充为1的卷积模块;第四条卷积支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,1个卷积核大小为3*3,步长为1,填充为1的卷积模块,1个卷积核大小为1*3,步长为1,纵向填充为1的卷积模块。
所述第一至第七卷积网络均采用多条卷积支路并联的结构,采用多种尺度和形状的卷积核,能够针对不同尺度和形状的的文本目标进行特征提取。
本文提出一个快速的特征提取小网络,使用inception模块,采用小卷积核,减少参数,缩小网络,加快运行速度。添加一个反卷积层用于融合多尺度信息,提高检测精度。检测阶段采用基于SSD的检测框架,对预置框的宽高比例进行改进,采用了适应文本特征的比例。本发明提出的方法在公开数据集上进行测试,验证了方法的有效性和实时性。
附图说明
图1为本发明网络结构图;
图2为inception结构示意图;
图3为本发明的检测结果图。
具体实施方式
首先,集合了几个公开数据库——ICDAR2013、HUST-TR400、SVT中的训练数据,得到约800张训练图片,拍摄以及从网络上搜集到不同背景、光照、字体的图像样本约2000张。之后对2916张训练样本进行人工标注。在权威的公开数据库ICDAR2013测试集上进行的。在训练时将样本的大小归一化到448*448。
本发明主要可以分为卷积神经网络的学习和测试两个部分,全部工作可以分为以下5个步骤:
步骤一、特征提取网络预训练:在ImageNet数据库上对设计的特征提取小网络进行预训练。由于网络参数较多而样本较少,为了避免过拟合,在训练时随机地将图像从300*300裁剪到224*224,用以网络训练,以增加样本数。设置初始学习率为0.1,每迭代2*105次学习率乘以0.1。按照0.3的丢失率随机丢弃30%的参数。
步骤二、构建文本检测数据库并进行标注:首先针对提出的问题,建立一个包含不同光照、背景、字体的自然场景文本的数据库,包含2916张训练样本和233张测试样本,这些图像样本部分取自公开的数据库,部分来自于拍摄以及网络上的收集。所有的图像大小都归一化到448*448。
步骤三、对数据库中的未标注图像进行人工标注文本的ground truth,通过画框同时标注出目标位置(左上角坐标和宽高)和类别标签,在这里,目标只有一类,即文本。
步骤四、训练文本检测网络:将文本检测网络在步骤二提出的数据库上进行微调训练。该步骤包括以下几个关键点:
1.设置6种不同宽高比的预置框,分别为:1,2,3,5,7,和10。修改检测类别数为2(文本标签为1,背景为0)。
2.检测层的卷积核大小设置为宽为5,高为1,以适应文本特征。
3.设置初始学习率为0.0001,每迭代2*104次学习率乘以0.1。在该过程中使用随机梯度下降法优化公式(1)中定义的能量损失函数,最终得到深度网络模型。
步骤五、对学习好的模型进行测试:该步骤中,将归一化的测试图像输入网络模型中,网络输出为文本目标的位置和文本的置信度打分,部分测试结果如图3所示;
在ICDAR数据集上进行测试,对比fast TextBoxes、SSD和本文方法的准确率、召回率和运行时间,得到如下表所示的结果:
Figure BDA0001371787480000051
对比结果表明,在准确率和召回率相当的情况下,本文提出的网络能够显著加快运行速度。

Claims (2)

1.一种快速的自然场景文本检测方法,该方法包括:
步骤1:获取充足的训练文本数据,对获取的训练文本进行人工标定文字的位置和类别,将每一幅训练样本进行图像处理,获得额外的训练样本,对所有的训练样本进行归一化处理;
步骤2:建立一个特征提取网络,根据该特征提取网络提取出各训练样本的高层次语义特征;
步骤3:根据步骤2提取的全局特征,输入检测器,识别出图像中文字的位置;
其特征在于,所述步骤2中包括1个输入模块、第一、二卷积模块、第一至第七共7个卷积网络、1个池化模块、1个反卷积模块、1个级联模块;其中输入模块作为第一卷积模块的输入,第一、二卷积模块、第一至第七卷积网络、池化模块依次级联;额外的第四卷积网络的输出作为反卷积模块的输入,反卷积模块的输出与第三卷积网络的输出共同作为级联模块的输入,所述级联模块是将反卷积模块与第三卷积网络的输出进行级联;所述级联模块、第五、七卷积网络、池化模块的输出作为整个特征提取网路的输出;
所述第一卷积网络包括并联的4条卷积支路,第一条卷积支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块;第二条支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,1个卷积核大小为5*5,步长为1,填充为2的卷积模块;第三条支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,2个卷积核大小为3*3,步长为1,填充为1的卷积模块;第四条卷积支路上包括1个核的大小为3*3,步长为1,填充为1的池化模块,1个卷积核大小为1*1,步长为1,填充为0的卷积模块;
第二、三卷积网络与第一卷积网络的结构相同;
第四卷积网络包括并联的3条卷积支路,第一条卷积支路上包括1个核大小为3*3,步长为2,填充为0的池化模块;第二条支路上包括1个卷积核大小为3*3,步长为2,填充为1的卷积模块;第三条支路上包括1个卷积核大小为1*1,步长为1,填充为1的卷积模块,1个卷积核大小为3*3,步长为2,填充为0的卷积模块;
第五卷积网络包括并联的4条卷积支路,第一条卷积支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块;第二条支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,1个卷积核大小为7*1,步长为1,横向填充为3的卷积模块,1个卷积核大小为1*7,步长为1,纵向填充为3的卷积模块;第三条支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,2个卷积核大小为7*1,步长为1,横向填充为3的卷积模块;第四条卷积支路上包括1个核的大小为3*3,步长为1,填充为1的池化模块,1个卷积核大小为1*1,步长为1,填充为0的卷积模块;
第六卷积网络包括并联的3条卷积支路,第一条卷积支路上包括1个核大小为3*3,步长为2,填充为0的池化模块;第二条支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,1个卷积核大小为3*3,步长为2,填充为0的卷积模块;第三条支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,1个卷积核大小为7*1,步长为1,横向填充为3的卷积模块,1个卷积核大小为3*3,步长为2,填充为0的卷积模块;
第七卷积网络包括并联的4条卷积支路,第一条卷积支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,1个卷积核大小为3*1,步长为1,横向填充为1的卷积模块;第二条支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,1个卷积核大小为1*3,步长为1,纵向填充为1的卷积模块;第三条支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,1个卷积核大小为3*3,步长为1,填充为1的卷积模块,1个卷积核大小为3*1,步长为1,横向填充为1的卷积模块;第四条卷积支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,1个卷积核大小为3*3,步长为1,填充为1的卷积模块,1个卷积核大小为1*3,步长为1,纵向填充为1的卷积模块。
2.如权利要求1所述的一种快速的自然场景文本检测方法,其特征在于所述第一卷积模块的卷积核的大小为3*3、步长为1、填充为1,第二卷积模块的卷积核大小为1*1,步长为1,填充为0。
CN201710665997.6A 2017-08-07 2017-08-07 一种快速的自然场景文本检测方法 Active CN107688808B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710665997.6A CN107688808B (zh) 2017-08-07 2017-08-07 一种快速的自然场景文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710665997.6A CN107688808B (zh) 2017-08-07 2017-08-07 一种快速的自然场景文本检测方法

Publications (2)

Publication Number Publication Date
CN107688808A CN107688808A (zh) 2018-02-13
CN107688808B true CN107688808B (zh) 2021-07-06

Family

ID=61153244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710665997.6A Active CN107688808B (zh) 2017-08-07 2017-08-07 一种快速的自然场景文本检测方法

Country Status (1)

Country Link
CN (1) CN107688808B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564035B (zh) 2018-04-13 2020-09-25 杭州睿琪软件有限公司 识别单据上记载的信息的方法及***
CN108764228A (zh) * 2018-05-28 2018-11-06 嘉兴善索智能科技有限公司 一种图像中文字目标检测方法
CN109002863B (zh) * 2018-06-27 2022-04-15 佛山市顺德区中山大学研究院 一种基于紧凑卷积神经网络的图像处理方法
CN108985231B (zh) * 2018-07-12 2021-08-13 广州麦仑信息科技有限公司 一种基于多尺度卷积核的掌静脉特征提取方法
CN109214383A (zh) * 2018-07-17 2019-01-15 北京陌上花科技有限公司 一种图像识别方法及装置
CN109214333A (zh) * 2018-08-31 2019-01-15 厦门中控智慧信息技术有限公司 卷积神经网络结构、人脸属性识别方法、装置及终端设备
CN109447078B (zh) * 2018-10-23 2020-11-06 四川大学 一种自然场景图像敏感文字的检测识别方法
CN109508675B (zh) * 2018-11-14 2020-07-28 广州广电银通金融电子科技有限公司 一种针对复杂场景的行人检测方法
CN111461105B (zh) * 2019-01-18 2023-11-28 顺丰科技有限公司 一种文本识别方法和装置
CN109919025A (zh) * 2019-01-30 2019-06-21 华南理工大学 基于深度学习的视频场景文本检测方法、***、设备及介质
CN109934181A (zh) * 2019-03-18 2019-06-25 北京海益同展信息科技有限公司 文本识别方法、装置、设备和计算机可读介质
CN111783756B (zh) * 2019-04-03 2024-04-16 北京市商汤科技开发有限公司 文本识别方法及装置、电子设备和存储介质
CN110210400B (zh) * 2019-06-03 2020-11-17 上海眼控科技股份有限公司 一种表格文件检测方法及设备
CN110276445A (zh) * 2019-06-19 2019-09-24 长安大学 基于Inception卷积模块的国内交通标志分类方法
CN110263877B (zh) * 2019-06-27 2022-07-08 中国科学技术大学 场景文字检测方法
CN110533041B (zh) * 2019-09-05 2022-07-01 重庆邮电大学 基于回归的多尺度场景文本检测方法
CN110751232A (zh) * 2019-11-04 2020-02-04 哈尔滨理工大学 一种中文复杂场景文本检测与识别方法
CN111428718B (zh) * 2020-03-30 2023-05-09 南京大学 一种基于图像增强的自然场景文本识别方法
CN112446372B (zh) * 2020-12-08 2022-11-08 电子科技大学 基于通道分组注意力机制的文本检测方法
CN113095444B (zh) * 2021-06-07 2021-09-17 北京智芯微电子科技有限公司 图像标注方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455823A (zh) * 2013-08-27 2013-12-18 电子科技大学 一种基于分类模糊及图像分割的英文字符识别方法
CN104794504A (zh) * 2015-04-28 2015-07-22 浙江大学 基于深度学习的图形图案文字检测方法
CN106710589A (zh) * 2016-12-28 2017-05-24 百度在线网络技术(北京)有限公司 基于人工智能的语音特征提取方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455823A (zh) * 2013-08-27 2013-12-18 电子科技大学 一种基于分类模糊及图像分割的英文字符识别方法
CN104794504A (zh) * 2015-04-28 2015-07-22 浙江大学 基于深度学习的图形图案文字检测方法
CN106710589A (zh) * 2016-12-28 2017-05-24 百度在线网络技术(北京)有限公司 基于人工智能的语音特征提取方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Going Deeper with Convolutions;Christian Szegedy等;《2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR)》;20150612;第4页左栏第2段、右栏第2段、图2(b) *
High Performance Offline Handwritten Chinese Character Recognition Using GoogLeNet and Directional Feature Maps;Zhuoyao Zhong等;《2015 13th International Conference on Document Analysis and Recognition(ICDAR)》;20150826;第Ⅲ部分第2段、第Ⅴ部分A-B节、图2 *
Zhuoyao Zhong等.High Performance Offline Handwritten Chinese Character Recognition Using GoogLeNet and Directional Feature Maps.《2015 13th International Conference on Document Analysis and Recognition(ICDAR)》.2015,第1-5页. *

Also Published As

Publication number Publication date
CN107688808A (zh) 2018-02-13

Similar Documents

Publication Publication Date Title
CN107688808B (zh) 一种快速的自然场景文本检测方法
CN110533084B (zh) 一种基于自注意力机制的多尺度目标检测方法
CN108562589B (zh) 一种对磁路材料表面缺陷进行检测的方法
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN109509187B (zh) 一种针对大分辨率布匹图像中的小瑕疵的高效检验算法
Zhong et al. Deeptext: A new approach for text proposal generation and text detection in natural images
CN107833213B (zh) 一种基于伪真值自适应法的弱监督物体检测方法
CN109614979B (zh) 一种基于选择与生成的数据增广方法及图像分类方法
Zamberletti et al. Text localization based on fast feature pyramids and multi-resolution maximally stable extremal regions
Yogesh et al. Computer vision based analysis and detection of defects in fruits causes due to nutrients deficiency
CN106846362B (zh) 一种目标检测跟踪方法和装置
CN110751232A (zh) 一种中文复杂场景文本检测与识别方法
CN110245697B (zh) 一种表面脏污检测方法、终端设备及存储介质
CN112862849B (zh) 一种基于图像分割和全卷积神经网络的田间稻穗计数方法
Termritthikun et al. NU-InNet: Thai food image recognition using convolutional neural networks on smartphone
Nagaoka et al. Text detection by faster R-CNN with multiple region proposal networks
Zhu et al. Deep residual text detection network for scene text
CN113128335B (zh) 微体古生物化石图像检测、分类及发现方法、***及应用
CN103839078A (zh) 一种基于主动学习的高光谱图像分类方法
CN111382766A (zh) 一种基于Faster R-CNN的设备故障检测方法
CN110309810A (zh) 一种基于批次中心相似度的行人重识别方法
CN115115825B (zh) 图像中的对象检测方法、装置、计算机设备和存储介质
Zhong et al. Improved localization accuracy by locnet for faster r-cnn based text detection
CN110119739B (zh) 一种冰晶图片的自动分类方法
CN110508510A (zh) 一种塑料泵缺陷检测方法、装置及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant