CN108288088B - 一种基于端到端全卷积神经网络的场景文本检测方法 - Google Patents

一种基于端到端全卷积神经网络的场景文本检测方法 Download PDF

Info

Publication number
CN108288088B
CN108288088B CN201810046076.6A CN201810046076A CN108288088B CN 108288088 B CN108288088 B CN 108288088B CN 201810046076 A CN201810046076 A CN 201810046076A CN 108288088 B CN108288088 B CN 108288088B
Authority
CN
China
Prior art keywords
text
feature
affine transformation
scene
detecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810046076.6A
Other languages
English (en)
Other versions
CN108288088A (zh
Inventor
李玺
王芳芳
赵黎明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201810046076.6A priority Critical patent/CN108288088B/zh
Publication of CN108288088A publication Critical patent/CN108288088A/zh
Application granted granted Critical
Publication of CN108288088B publication Critical patent/CN108288088B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于端到端全卷积神经网络的场景文本检测方法,用于在自然场景的图像中发现多方向文本位置的问题。具体包括如下步骤:获取用于训练场景文本检测的多个图像数据集,并定义算法目标;利用全卷积特征提取网络对图像进行特征学习;对特征图上的每个样本点预测实例级别的仿射变换矩阵,根据预测的仿射变换变形采样网格对文本进行特征表达;对候选文本的特征向量进行分类,同时进行坐标回归和仿射变换回归,联合优化模型;使用所述学习框架检测文本的精确位置;对网络输出的包围框集合进行非极大值抑制得到最终文本检测结果。本发明用于真实图像数据的场景文本检测,对多方向、多尺度、多语种、形状畸变等各类复杂情况具有较佳的效果和鲁棒性。

Description

一种基于端到端全卷积神经网络的场景文本检测方法
技术领域
本发明属于计算机视觉领域,特别地涉及一种基于端到端全卷积神经网络场景文本检测方法。
背景技术
场景文本检测被定义为如下问题:在自然场景图像中发现多方向、多尺度、多语种的文本区域位置。近年来,在计算机视觉任务如场景理解、图像检索等领域中得到了广泛应用。该任务主要有两个关键点:第一是如何很好地建模多方向、形状畸变剧烈的文本目标从而产生有效的特征表达;第二是如何实现利用一个端到端网络直接输出检测结果。针对第一点,本发明认为场景文本的特征表达关键在于准确地建模其空间几何特性,利用仿射变换编码其空间结构,以产生更加准确、完整、噪音较少的特征表达;针对第二点,本发明认为在网络中嵌入仿射变换模块,在特征提取的过程中适应性地调整特征提取的感受野能够实现端到端训练。传统方法一般用固定的感受野提取文本的特征表达而忽略文本目标空间结构的多样化,尽管这些方法有一定的创新性,但是却不能准确地表达文本的几何特性,这在本任务中是非常重要的。
由于统计建模的有效性,目前基于学习的方法逐渐被应用到场景文本检测任务中。现有的基于学习的方法主要采用深度学习框架,输入一幅图像,输出检测的文本区域。
发明内容
为解决上述问题,本发明的目的在于提供一种基于端到端全卷积神经网络场景文本检测方法。在场景文本检测中,文本的方向、尺度、长宽比等几何特性多变,因此我们的工作基于卷积神经网络在特征层面上对文本目标空间几何特性的建模,以得到更准确的特征表达。另外,由于每个样本具有独特的几何特性,我们对每个文本实例进行适应性的特征表达。结合上述两方面,我们设计了一个统一的端到端深度学习框架对场景文本进行个性化、适应性的特征表达,从而使模型更具准确性和鲁棒性。
为实现上述目的,本发明的技术方案为:
基于端到端全卷积神经网络的场景文本检测方法,包括以下步骤:
S1、获取用于训练显著性检测的多组图像数据集,并定义算法目标;
S2、利用全卷积特征提取网络对组内图像进行特征学习;
S3、对特征图上的每个样本点预测实例级别的仿射变换矩阵并根据预测的仿射变换变形采样网格对文本进行特征表达;
S4、对候选文本的特征向量进行分类,同时进行坐标回归和仿射变换回归,联合优化模型;
S5、使用由S1~S4建立的端到端联合学习框架检测文本的精确位置;
S6、对网络输出的包围框集合进行非极大值抑制得到最终文本检测结果。
基于上述方案,各步骤可以通过如下方式实现:
步骤S1中,对于所述的用于场景文本检测的多个图像数据集中的一幅图像I,定义算法目标为:检测图像内的文本区域
Figure BDA0001550950480000021
其中di为第i个文本区域包围框,K为I中的文本样本数量。
进一步的,步骤S2中,利用全卷积特征提取网络对图像进行特征学习具体包括:
S21、提取每张图像在不同尺度上的深度特征;
S22、选取三个尺度的特征图并对尺寸较小的两层特征图进行上采样使得三层特征图尺寸匹配,对三个尺度的特征图进行拼接处理,得到融合的多尺度特征图M。
进一步的,步骤S3中,对特征图M上的每个样本点预测实例级别的仿射变换矩阵并根据预测的仿射变换变形采样网格对文本进行特征表达具体包括:
S31、使用一层卷积操作,对M上每个像素点针对其对应的文本实例预测一个六维的仿射变换θ,输出与M尺寸匹配的仿射变换参数图Θ;
S32、根据预测的仿射变换变形采样网格并进行卷积操作对文本进行特征表达,输出特征图V:
Figure BDA0001550950480000031
其中w为卷积核,w(p,q)为卷积核在(p,q)位置的参数值,k×k为卷积核大小,vxy为V上点(x,y)处的特征向量,θxy为S31步骤中在(x,y)处预测的仿射变换矩阵,Tθxy(x+p,y+q)为原采样网格位置(x+p,y+q)经过仿射变换后的新采样网格点坐标。
进一步的,步骤S4中,对候选文本的特征向量进行分类,同时进行坐标回归和仿射变换回归,联合优化模型具体包括:
S41、对vxy进行softmax分类,判别属于文本类或非文本;
S42、对θxy利用smooth L1损失函数进行回归,利用最小二乘法计算出的从样本点(x,y)所对应原图中的区域到目标文本区域之间的仿射变换矩阵作为监督信息;
S43、利用θxy计算文本粗略位置并在vxy上利用smooth L1损失函数回归文本区域包围框顶点粗略坐标和精确坐标之间的偏移量。
进一步的,步骤S5中,使用由S1~S4建立的端到端联合学习框架检测文本的精确位置具体包括:
基于由S1~S4建立的端到端联合学习框架,输入测试图像即真值监督信息,通过最小化损失函数学习得到V上每个样本点处所预测的区域是否为文本区域及判定为文本区域的样本点处所回归处的精确位置信息。
进一步的,步骤S6中,对网络输出的包围框集合进行非极大值抑制得到最终文本检测结果具体包括:
在网络输出中,消除重叠率较高的区域中分数较低的包围框,以去除冗余的重复检测,得到最终的检测结果。
本发明的基于端到端全卷积神经网络场景文本检测方法,相比于现有的场景文本检测方法,具有以下有益效果:
首先,本发明的场景文本检测方法定义了场景文本检测中的一个关键问题,即针对文本目标的空间几何特性的建模以及适应性的特征表达。通过寻求这个方向的解决方法,可以有效地解决复杂场景中的文本检测。
其次,本发明提出了在网络中嵌入仿射变换模块,在训练过程中能够自适应提取特征,有效地提升了场景文本检测的结果。
最后,本发明的场景文本检测方法提出端到端的深度学习网络去联合优化特征表达学习过程、文本与非文本分类过程及坐标偏移量回归过程,从而得到了更加鲁棒的场景文本检测结果。
本发明的基于端到端全卷积神经网络场景文本检测方法,在场景理解、图像分割等场景中,具有良好的应用价值。例如,在场景分析任务中,场景中的文本包含大量帮助理解场景的信息,准确检测文本所在位置是利用场景文本信息的基础,本发明的场景文本检测方法能够快速准确地定位图像中的文本区域,为后续利用分析文本信息提供基础。
附图说明
图1为本发明的流程示意图;
图2为实施例中的原始图像;
图3为实施例中预测的仿射变换指导下的采样网格变形;其中○格子为普通卷积操作的采样网格,×格子为根据仿射变换变形之后的采样网格。
图4为实施例中的联合学习框架对于自然场景图像的文本检测效果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参考图1,在本发明的较佳实施例中,一种基于端到端全卷积神经网络场景文本检测方法,包括以下步骤:
首先,获取用于场景文本检测的多个图像数据集,定义算法目标为:检测图像I内的文本区域
Figure BDA0001550950480000051
其中di为第i个文本区域包围框,K为I中的文本样本数量。
其次,利用全卷积特征提取网络对图像进行特征学习具体包括:
第一步、提取每张图像在不同尺度上的深度特征;
第二步、选取三个尺度的特征图并对尺寸较小的两层特征图进行上采样使得三层特征图尺寸匹配,对三个尺度的特征图进行拼接处理,得到融合的多尺度特征图M。
接下来,对特征图M上的每个样本点预测实例级别的仿射变换矩阵并根据预测的仿射变换变形采样网格对文本进行特征表达具体包括:
第一步、使用一层卷积操作,对M上每个像素点针对其对应的文本实例预测一个六维的仿射变换θ,输出与M尺寸匹配的仿射变换参数图Θ;
第二步、根据预测的仿射变换变形采样网格并进行卷积操作对文本进行特征表达,输出特征图V:
Figure BDA0001550950480000052
其中w为卷积核,w(p,q)为卷积核在(p,q)位置的参数值,k×k为卷积核大小,vxy为V上点(x,y)处的特征向量,θxy为S31步骤中在(x,y)处预测的仿射变换矩阵,
Figure BDA0001550950480000053
为原采样网格位置(x+p,y+q)经过仿射变换后的新采样网格点坐标。
之后,对候选文本的特征向量进行分类,同时进行坐标回归和仿射变换回归,联合优化模型具体包括:
第一步、对vxy进行softmax分类,判别属于文本类或非文本;
第二步、对θxy利用smooth L1损失函数进行回归,利用最小二乘法计算出的从样本点(x,y)所对应原图中的区域到目标文本区域之间的仿射变换矩阵作为监督信息;
第三步、利用θxy计算文本粗略位置并在vxy上利用smooth L1损失函数回归文本区域包围框顶点粗略坐标和精确坐标之间的偏移量。
然后,使用由S1~S4建立的端到端联合学习框架检测文本的精确位置具体包括:
基于由S1~S4建立的端到端联合学习框架,输入测试图像即真值监督信息,通过最小化损失函数学习得到V上每个样本点处所预测的区域是否为文本区域及判定为文本区域的样本点处所回归处的精确位置信息。
最后,对网络输出的包围框集合进行非极大值抑制得到最终文本检测结果具体包括:
在网络输出中,消除重叠率较高的区域中分数较低的包围框,以去除冗余的重复检测,得到最终的检测结果。
下面将上述方法应用于具体实施例中,以便本领域技术人员能够更好地理解本发明的效果。
实施例
本实施例的实现方法如前所述,不再详细阐述具体的步骤,下面仅针对案例数据展示其效果。本发明在两个具有真值标注的数据集上实施,分别为:
MSRA-TD500数据集:该数据集包含300张训练图像,200张测试图像。
ICDAR 2015数据集:该数据集包含1000张训练图像,500张测试图像。
本实施例在每个数据集上分别进行实验,数据集中图像举例如图2所示。
文本检测的主要流程如下:
1)通过基础全卷积网络提取图像的多尺度特征图;
2)融合三个尺度上的特征图,得到初始特征;
3)使用一层卷积操作,预测特征图上每个样本点的仿射变换矩阵,并根据预测的变换变形采样网格进行卷积操作提取适应性特征,如图3所示;
4)联合优化文本分类、仿射变换矩阵回归、包围框坐标偏移量回归;
5)使用所述学习框架检测文本的精确位置;
6)对网络输出的包围框集合进行非极大值抑制得到最终文本检测结果,如图4所示。
7)为综合比较本方法的有效性,我们比较了其他较先进方法以及相同框架和实验条件下对文本进行非适应性特征表达的方法;
8)本实施例检测结果的准确率(precision)、召回率(recall)及F-measure见表1表2所示。图中数据显示了本发明在precision,recall以及F-measure三个指标上的表现,与其他方法和相同框架下对文本进行非适应性特征表达的方法相比,在整体上有了进一步的提升。其中F-measure表示准确度与回归之间的目标检索平衡度:
表1本实施例在MSRA-TD500数据集上各评价指标
Figure BDA0001550950480000072
表2本实施例在ICDAR 2015数据集上各评价指标
Figure BDA0001550950480000081
其中ITN为本实验方法,Baseline为相同框架何实验条件下对文本进行非适应性特征表达的方法。其余方法对应的参考文献如下:
[1]L.Kang,Y.Li,and D.S.Doermann.Orientation robust text linedetection in natural images.In CVPR,2014.
[2]C.Yao,X.Bai,W.Liu,Y.Ma,and Z.Tu.Detecting texts of arbitraryorientations in natural images.In CVPR,2012.
[3]X.Yin,W.Pei,J.Zhang,and H.Hao.Multi-orientation scene textdetection with adaptive clustering.PAMI,37(9):1930–1937,2015.
[4]X.Yin,X.Yin,K.Huang,and H.Hao.Robust text detection in naturalscene images.PAMI,36(5):970–983,2014.
[5]Z.Zhang,C.Zhang,W.Shen,C.Yao,W.Liu,and X.Bai.Multi-oriented textdetection with fully convolutional networks.In CVPR,2016.
[6]J.Ma,W.Shao,H.Ye,L.Wang,H.Wang,Y.Zheng,and X.Xue.
Arbitrary-oriented scene text detection via rotation proposals.CoRR,abs/1703.01086,2017.
[7]C.Yao,X.Bai,N.Sang,X.Zhou,S.Zhou,and Z.Cao.Scene text detectionvia holistic,multi-channel prediction.CoRR,abs/1606.09002,2016.
[8]B.Shi,X.Bai,and S.J.Belongie.Detecting oriented text in naturalimages by linking segments.In CVPR,2017.
[9]Z.Tian,W.Huang,T.He,P.He,and Y.Qiao.Detecting text in naturalimage with connectionist text proposal network.In ECCV,2016.
[10]Y.Liu and L.Jin.Deep matching prior network:Toward tighter multi-oriented text detection.In CVPR,2017.
通过以上技术方案,本发明实施基于深度学习技术提供了一种基于端到端全卷积神经网络场景文本检测方法。本发明可以在各种真实图像数据上建模场景文本的空间几何特性,提取适应性特征表达,从而得到准确的检测结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于端到端全卷积神经网络场景文本检测方法,其特征在于,包括以下步骤:
S1、获取用于训练显著性检测的多组图像数据集,并定义算法目标;
S2、利用全卷积特征提取网络对组内图像进行特征学习;
S3、对特征图上的每个样本点预测实例级别的仿射变换矩阵,并根据预测的仿射变换变形采样网格并进行卷积操作对文本进行特征表达,输出特征图V:
Figure FDA0002286134250000011
其中w为卷积核,w(p,q)为卷积核在(p,q)位置的参数值,k×k为卷积核大小,vxy为V上点(x,y)处的特征向量,θxy为S31步骤中在(x,y)处预测的仿射变换矩阵,
Figure FDA0002286134250000012
为原采样网格位置(x+p,y+q)经过仿射变换后的新采样网格点坐标;
S4、对候选文本的特征向量进行分类,同时进行坐标回归和仿射变换回归,联合优化模型;
S5、使用由S1~S4建立的端到端联合学习框架检测文本的精确位置;
S6、对网络输出的包围框集合进行非极大值抑制得到最终文本检测结果。
2.如权利要求1所述的基于端到端全卷积神经网络场景文本检测方法,其特征在于,步骤S1中,对于用于场景文本检测的多组图像数据集中的一幅图像I,定义算法目标为:检测图像内的文本区域
Figure FDA0002286134250000013
其中di为第i个文本区域包围框,K为I中的文本样本数量。
3.如权利要求2所述的基于端到端全卷积神经网络场景文本检测方法,其特征在于,步骤S2中,利用全卷积特征提取网络对图像进行特征学习具体包括:
S21、提取每张图像在不同尺度上的深度特征;
S22、选取三个尺度的特征图并对尺寸较小的两层特征图进行上采样使得三层特征图尺寸匹配,对三个尺度的特征图进行拼接处理,得到融合的多尺度特征图M。
4.如权利要求3所述的基于端到端全卷积神经网络场景文本检测方法,其特征在于,步骤S3中,对特征图M上的每个样本点预测实例级别的仿射变换矩阵具体包括:
使用一层卷积操作,对M上每个像素点针对其对应的文本实例预测一个六维的仿射变换θ,输出与M尺寸匹配的仿射变换参数图Θ。
5.如权利要求4所述的基于端到端全卷积神经网络场景文本检测方法,其特征在于,步骤S4中,对候选文本的特征向量进行分类,同时进行坐标回归和仿射变换回归,联合优化模型具体包括:
S41、对vxy进行softmax分类,判别属于文本类或非文本;
S42、对θxy利用smooth L1损失函数进行回归,利用最小二乘法计算出的从样本点(x,y)所对应原图中的区域到目标文本区域之间的仿射变换矩阵作为监督信息;
S43、利用θxy计算文本粗略位置并在vxy上利用smooth L1损失函数回归文本区域包围框顶点粗略坐标和精确坐标之间的偏移量。
6.如权利要求5所述的基于端到端全卷积神经网络场景文本检测方法,其特征在于,步骤S5中,使用由S1~S4建立的端到端联合学习框架检测文本的精确位置具体包括:
基于由S1~S4建立的端到端联合学习框架,输入测试图像即真值监督信息,通过最小化损失函数学习得到V上每个样本点处所预测的区域是否为文本区域及判定为文本区域的样本点处所回归处的精确位置信息。
7.如权利要求6所述的基于端到端全卷积神经网络场景文本检测方法,其特征在于,步骤S6中,对网络输出的包围框集合进行非极大值抑制得到最终文本检测结果具体包括:
在网络输出中,消除重叠率高于第一阈值的区域中分数低于第二阈值的包围框,以去除冗余的重复检测,得到最终的检测结果。
CN201810046076.6A 2018-01-17 2018-01-17 一种基于端到端全卷积神经网络的场景文本检测方法 Active CN108288088B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810046076.6A CN108288088B (zh) 2018-01-17 2018-01-17 一种基于端到端全卷积神经网络的场景文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810046076.6A CN108288088B (zh) 2018-01-17 2018-01-17 一种基于端到端全卷积神经网络的场景文本检测方法

Publications (2)

Publication Number Publication Date
CN108288088A CN108288088A (zh) 2018-07-17
CN108288088B true CN108288088B (zh) 2020-02-28

Family

ID=62835326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810046076.6A Active CN108288088B (zh) 2018-01-17 2018-01-17 一种基于端到端全卷积神经网络的场景文本检测方法

Country Status (1)

Country Link
CN (1) CN108288088B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299274B (zh) * 2018-11-07 2021-12-17 南京大学 一种基于全卷积神经网络的自然场景文本检测方法
CN109492580B (zh) * 2018-11-08 2020-08-07 北方工业大学 一种基于全卷积网络的邻域显著性参照的多尺寸航拍图像定位方法
DE112019005750T5 (de) * 2018-11-16 2021-08-05 Nvidia Corporation Erlernen des Erzeugens synthetischer Datensätze zum Trainieren neuronalerNetze
CN109753956A (zh) * 2018-11-23 2019-05-14 西北工业大学 基于分割候选区提取的多方向文本检测算法
CN111259878A (zh) * 2018-11-30 2020-06-09 中移(杭州)信息技术有限公司 一种检测文本的方法和设备
CN109711401B (zh) * 2018-12-03 2023-05-26 广东工业大学 一种基于Faster Rcnn的自然场景图像中的文本检测方法
CN109886264A (zh) * 2019-01-08 2019-06-14 深圳禾思众成科技有限公司 一种文字检测方法、设备及计算机可读存储介质
CN109977997B (zh) * 2019-02-13 2021-02-02 中国科学院自动化研究所 基于卷积神经网络快速鲁棒的图像目标检测与分割方法
CN110032998B (zh) * 2019-03-18 2021-03-23 华南师范大学 自然场景图片的文字检测方法、***、装置和存储介质
CN110135248A (zh) * 2019-04-03 2019-08-16 华南理工大学 一种基于深度学习的自然场景文本检测方法
CN110188865B (zh) * 2019-05-21 2022-04-26 深圳市商汤科技有限公司 信息处理方法及装置、电子设备和存储介质
CN110163208B (zh) * 2019-05-22 2021-06-29 长沙学院 一种基于深度学习的场景文字检测方法和***
CN110175610B (zh) * 2019-05-23 2023-09-05 上海交通大学 一种支持隐私保护的票据图像文本识别方法
CN110276279B (zh) * 2019-06-06 2020-06-16 华东师范大学 一种基于图像分割的任意形状场景文本探测方法
CN110263877B (zh) * 2019-06-27 2022-07-08 中国科学技术大学 场景文字检测方法
CN110276351B (zh) * 2019-06-28 2022-09-06 中国科学技术大学 多语言场景文本检测与识别方法
CN110674807A (zh) * 2019-08-06 2020-01-10 中国科学院信息工程研究所 一种基于半监督与弱监督学习的曲形场景文字检测方法
CN110458165B (zh) * 2019-08-14 2022-11-08 贵州大学 一种引入注意力机制的自然场景文本检测方法
CN110569738B (zh) * 2019-08-15 2023-06-06 杨春立 基于密集连接网络的自然场景文本检测方法、设备和介质
CN110738203B (zh) * 2019-09-06 2024-04-05 中国平安财产保险股份有限公司 字段结构化输出方法、装置及计算机可读存储介质
CN110751154B (zh) * 2019-09-27 2022-04-08 西北工业大学 一种基于像素级分割的复杂环境多形状文本检测方法
CN110796664B (zh) * 2019-10-14 2023-05-23 北京字节跳动网络技术有限公司 图像处理方法、装置、电子设备及计算机可读存储介质
CN112825141B (zh) 2019-11-21 2023-02-17 上海高德威智能交通***有限公司 识别文本的方法、装置、识别设备和存储介质
JP2021111066A (ja) * 2020-01-08 2021-08-02 株式会社科学計算総合研究所 情報処理システム、情報処理方法及びプログラム
CN111310746B (zh) * 2020-01-15 2024-03-01 支付宝实验室(新加坡)有限公司 文本行检测方法、模型训练方法、装置、服务器及介质
CN111931763B (zh) * 2020-06-09 2024-03-12 浙江大学 一种基于随机形态边缘几何建模的深度场景文本检测方法
CN114972947B (zh) * 2022-07-26 2022-12-06 之江实验室 一种基于模糊语义建模的深度场景文本检测方法和装置
CN116070687B (zh) * 2023-03-06 2023-07-04 浙江优众新材料科技有限公司 一种基于全局光线空间仿射变换的神经网络光场表示方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017060850A1 (en) * 2015-10-07 2017-04-13 Way2Vat Ltd. System and methods of an expense management system based upon business document analysis
CN106650725A (zh) * 2016-11-29 2017-05-10 华南理工大学 基于全卷积神经网络的候选文本框生成和文本检测方法
CN106778757A (zh) * 2016-12-12 2017-05-31 哈尔滨工业大学 基于文本显著性的场景文本检测方法
CN107563379A (zh) * 2017-09-02 2018-01-09 西安电子科技大学 用于对自然场景图像中文本的定位方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017060850A1 (en) * 2015-10-07 2017-04-13 Way2Vat Ltd. System and methods of an expense management system based upon business document analysis
CN106650725A (zh) * 2016-11-29 2017-05-10 华南理工大学 基于全卷积神经网络的候选文本框生成和文本检测方法
CN106778757A (zh) * 2016-12-12 2017-05-31 哈尔滨工业大学 基于文本显著性的场景文本检测方法
CN107563379A (zh) * 2017-09-02 2018-01-09 西安电子科技大学 用于对自然场景图像中文本的定位方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Multi-Oriented Text Detection with Fully Convolutional Networks;Zheng Zhang 等;《CVPR》;20161231;4159-4167 *
STN-OCR: A single Neural Network for Text Detection and Text Recognition;Christian Bartz 等;《arXiv》;20170727;1-9 *
基于全卷积网络的场景文本检测;贺通姚剑;《科技论坛》;20161231(第17期);95 *
基于卷积神经网络的场景文本定位及多方向字符识别研究;朱安娜;《中国博士学位论文全文数据库 信息科技辑》;20170815(第08期);1-117 *

Also Published As

Publication number Publication date
CN108288088A (zh) 2018-07-17

Similar Documents

Publication Publication Date Title
CN108288088B (zh) 一种基于端到端全卷积神经网络的场景文本检测方法
CN112200111B (zh) 一种全局与局部特征融合的遮挡鲁棒行人重识别方法
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
He et al. Enhanced boundary learning for glass-like object segmentation
CN112528976B (zh) 文本检测模型的生成方法和文本检测方法
EP3635629A1 (en) Fine-grained image recognition
CN109977997B (zh) 基于卷积神经网络快速鲁棒的图像目标检测与分割方法
Mao et al. Finding every car: a traffic surveillance multi-scale vehicle object detection method
CN110334762B (zh) 一种基于四叉树结合orb和sift的特征匹配方法
CN111931763B (zh) 一种基于随机形态边缘几何建模的深度场景文本检测方法
Chen et al. Attention-aware cross-modal cross-level fusion network for RGB-D salient object detection
Shen et al. Vehicle detection in aerial images based on lightweight deep convolutional network and generative adversarial network
CN112434618B (zh) 基于稀疏前景先验的视频目标检测方法、存储介质及设备
CN112801047B (zh) 缺陷检测方法、装置、电子设备及可读存储介质
CN114202743A (zh) 自动驾驶场景下基于改进faster-RCNN的小目标检测方法
CN111507222A (zh) 一种基于多源数据知识迁移的三维物体检测框架
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN112633088B (zh) 一种基于航拍图像中光伏组件识别的电站容量估测方法
CN117252904B (zh) 基于长程空间感知与通道增强的目标跟踪方法与***
CN111507337A (zh) 基于混合神经网络的车牌识别方法
Chen et al. Tensored generalized hough transform for object detection in remote sensing images
Yang et al. An effective and lightweight hybrid network for object detection in remote sensing images
Rao et al. Roads detection of aerial image with FCN-CRF model
CN115049833A (zh) 一种基于局部特征增强和相似性度量的点云部件分割方法
CN111178158B (zh) 一种骑车人检测方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant