CN110263877A - 场景文字检测方法 - Google Patents

场景文字检测方法 Download PDF

Info

Publication number
CN110263877A
CN110263877A CN201910567794.2A CN201910567794A CN110263877A CN 110263877 A CN110263877 A CN 110263877A CN 201910567794 A CN201910567794 A CN 201910567794A CN 110263877 A CN110263877 A CN 110263877A
Authority
CN
China
Prior art keywords
characteristic pattern
size
scene
loss
detecting method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910567794.2A
Other languages
English (en)
Other versions
CN110263877B (zh
Inventor
张勇东
王裕鑫
谢洪涛
李岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Academy Of Chinese Studies
University of Science and Technology of China USTC
Original Assignee
Beijing Academy Of Chinese Studies
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Academy Of Chinese Studies, University of Science and Technology of China USTC filed Critical Beijing Academy Of Chinese Studies
Priority to CN201910567794.2A priority Critical patent/CN110263877B/zh
Publication of CN110263877A publication Critical patent/CN110263877A/zh
Application granted granted Critical
Publication of CN110263877B publication Critical patent/CN110263877B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种场景文字检测方法,包括:利用神经网络对输入图像进行特征提取,并对提取的特征图进行上采样操作,得到不同尺寸的特征图;以最大尺寸的特征图为标准,将其余尺寸的特征图映射为与最大尺寸的特征图相同的尺寸;将映射到相同尺寸的特征图进行尺度信息的融合,得到融合后的特征图,这一融合操作能够使不同尺寸的文字在融合后的特征图中统一激活;对融合后的特征图进行文字框的回归和分类操作,得到场景文字检测结果。上述方法能够从根本上提升特征图的质量,从而提升场景文字检测的性能。

Description

场景文字检测方法
技术领域
本发明涉及文字识别技术领域,尤其涉及一种场景文字检测方法。
背景技术
自然场景文字检测与识别是一种通用的文字识别技术,已成为近年来计算机视觉与文档分析领域的热点研究方向,其被广泛应用于车牌识别、无人驾驶、人机交互等领域。
由于自然场景中的文字检测与识别面临背景复杂、分辨率低下、字体多变等困难,导致传统的文字检测与识别技术无法应用到自然场景的文字检测与识别中。文字检测技术作为识别的基础,具有重大的研究意义。
近年来,随着深度学习技术在目标检测领域的发展,通用的目标检测技术在场景文字检测中达到了比较好的效果。深度学习运用于自然场景文字检测成为了一种趋势。但是由于这些方法包含较繁琐的后处理步骤和文字检测本身的多样性,导致检测的速度和精度还有待提升。
发明内容
本发明的目的是提供一种场景文字检测方法,能够提升文字检测的召回率。
本发明的目的是通过以下技术方案实现的:
一种场景文字检测方法,包括:
利用神经网络对输入图像进行特征提取,并对提取的特征图进行上采样操作,得到不同尺寸的特征图;
以最大尺寸的特征图为标准,将其余尺寸的特征图映射为与最大尺寸的特征图相同的尺寸;
将映射到相同尺寸的特征图进行不同尺度信息的融合,这一融合操作能够使不同尺度的文字特征在融合后的统一尺寸的特征图中得到统一的激活;
对融合后的特征图进行文字框的回归和分类操作,得到场景文字检测结果。
由上述本发明提供的技术方案可以看出,通过尺寸映射操作可以统一特征图的尺寸,通过建立尺度关系能够传递特征图的尺度信息,由于不同尺寸的特征图对不同尺度的文字具有更好地表达(小尺寸的特征图能够更好地检测大目标而丢失小目标的细节,大尺寸的特征图则相反),从而能够使不同尺度的文字在特征图中实现更加统一地激活,从根本上提升特征图的质量,从而提升场景文字检测的性能。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种场景文字检测方法的示意图;
图2为本发明实施例提供的尺寸映射的示意图;
图3为本发明实施例提供的双向卷积操作的示意图;
图4为本发明实施例提供的特征聚合操作的示意图;
图5为本发明实施例提供的场景文字检测结果示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种场景文字检测方法,首先,将提取的不同尺寸的特征图映射到统一的尺寸。然后,在特征图中建立尺度关系模块实现不同尺度的特征传递。由于这些特征图对不同尺度的文字具有更好的表达(小尺寸的特征图能够更好地检测大目标而丢失对小目标的细节检测,大尺寸的特征图则相反),该操作能够使不同尺度的文字在特征图中实现更加统一地激活,从根本上提升特征图的质量。另外,本文发明实施例还提出了一种新的损失函数Recall Loss,它通过对增加对弱检测的文字实例在损失函数中损失项的权重,使网络更加关注没有检测到的文字区域,从而有效地提升文字检测的召回率。
如图1所示,为本发明实施例提供的一种场景文字检测方法示意图,主要包括:
1、利用神经网络对输入图像进行特征提取,并对提取的特征图进行上采样操作,得到不同尺寸的特征图。
本发明实施例中,通过连续的上采样模块对提取的特征图进行上采样操作。在上采样过程中,将当前的特征图和相同尺寸的浅层特征图进行级联操作。
示例性的,通过本步骤可以得到四种不同尺寸的特征图。
图1示例性的给出了实现本方法的网络框架。主网络中去掉ResNet50网络后面的全连接层,并将该网络嵌入本文的框架进行特征提取操作。之后加入了4层额外的卷积层(F1,F2,F3,F4)进行上采样操作。在上采样过程中,将和当前特征图相同尺寸的浅层特征图进行级联。图1中的符号符号分别表示级联操作、上采样模块。
值得注意的是,不同尺寸的特征图数量可以根据实际情况来设定。
2、以最大尺寸的特征图为标准,将其余尺寸的特征图映射为与最大尺寸的特征图相同的尺寸。
本步骤是将其余尺寸的特征图映射为与最大尺寸特征图相同的尺寸,使特征图的尺寸统一,该操作可以通过尺寸映射模块来实现。
还以图1所示的示例进行介绍,图1所示的示例中F4中的特征图为最大尺寸特征图,将小尺寸的卷积层F1,F2,F3中的特征图输入尺寸映射模块,输出和F4相同尺寸的特征图。如图2所示,首先,通过通道匹配层改变输入特征图的通道数到指定大小;然后,由尺寸映射层通过压缩特征图的通道数实现特征图尺寸的扩大,实现将不同尺寸的特征图映射到相同的尺寸。输入特征图的维度为Ci×Hi×Wi(i=1,2,3),输出的维度为在本示例中,分别对F1,F2,F3取m=8,4,2。其中C、H、W分别表示特征图的通道数、高度和宽度,m表示变化比例。
3、将映射到相同尺寸的特征图进行不同尺度信息的融合,这一融合操作能够使不同尺度的文字特征在融合后的统一尺寸的特征图中得到更统一的激活。
本步骤通过在不同的特征图中建立尺度关系模块传递相关的尺度信息,以提升特征图的质量;主要分为双向卷积操作和特征聚合操作两个部分。
如图3所示的双向卷积操作,主要通过两个方向的连续卷积操作对包含不同尺度信息的特征图单向传递;同时运用注意力机制(相乘操作)控制前层的尺度信息的传递;
如图4所示,通过特征聚合操作将双向卷积的特征图融合在一起,得到融合后的特征图。
4、对融合后的特征图进行文字框的回归和分类操作,得到场景文字检测结果。
本步骤输出尺寸为原图四分之一大小的六通道特征图,分别如下:
a.单通道的文字评分图,对应每个像素属于文字的概率。
b.四通道的文本框尺寸图,对应每个相似点到四条边框的距离。
c.单通道的文本框旋转角度图,对应每个像素点所属文本框所旋转的角度。
将得到的文本框进行非极大化抑制(NMS)后得到最终的预测结果。
本发明实施例中,训练过程,可以采用随机梯度下降法(SGD)进行端到端的训练,整体损失函数为:
L=LclsregLreg
上式中,Lcls为分类损失,Lreg为回归损失,λreg为平衡参数。
本发明实施例中提出了一种新的损失函数Recall Loss,它通过增加弱检测的文字实例在损失函数中的损失项所占的权重,使网络更加关注没有检测到的文字区域,实现提升召回率(Recall)的目的。在本文提出的方法中,将Recall Loss和Dice Loss结合用于分类任务
基于此,分类损失Lcls为:
Lcls=λRRL+λDLDice
IoU=S∩G/S∪G
其中,RL代表Recall Loss(召回损失),LDice代表Dice Loss(交并比损失),λR与λD均代表平衡参数,G代表对应的标签框区域,η1、η2代表平衡参数,p代表预测该像素为文字的概率大小,y代表该像素对应的标签,S代表预测的单通道文字评分图中的每个连通域,IoU代表交集比上并集的值,β表示阈值,α表示增加的权重,e为常数。
回归损失Lreg表示为:
Lreg=Lloc+Lθ
Lθ=1-cos(θ′-θ*)
其中,P代表预测的文字框,G代表对应的标签文字框,θ′代表预测的角度,θ*代表真实角度,Lθ代表角度的损失。
下面示例性的给出一些训练时所设定的参数,开始训练时,选择学习率为0.0001,每经过10k次训练学习率下降为原来的0.94倍,直到模型收敛时停止训练。
在测试阶段,在得到场景文字检测结果后加入非极大化抑制操作,对重复检测的文字框使用非极大化抑制进行筛选,得到最终的检测结果。图5示例性的给出了四个不同的场景文字检测结果,需要说明的是,图5仅仅是一个场景文字检测的示例,其主要用来说明本发明的方案对于较大或较小的场景文字都能够准确检测,其余不够清晰的部分不影响本发明的实现。
为了验证本发明上述方案的性能,还进行了相关实验。
实验相关的数据集:
ICDAR2015:该数据集是用于检测不同尺度,模糊度,分辨率的多方向文本的数据集。它包含1000个训练图像和500个测试图像。标签是每个文字框的4个定点的坐标。
MSRA-TD500:该数据集是用于检测任意方向和多语言长文本行的数据集。它包含300张用于训练的图像和200张测试图像。标签是文本框左上角定点的位置、文本框的长宽和旋转角度。
HUST:具有和MSRA-TD500相同的标注方法,总共含有400张图片。由于MSRA-TD500数据过少,本文将该数据集加入MSRA-TD00数据的训练集中。
实验结果表明,本发明上述方法在场景文字检测中达到了先进的性能,在ICDAR2015和MSRA-TD500数据集上召回率、准确率、F值分别为79.6%、83.2%、81.4%,FPS为8.8和71.2%、87.6%、78.5%,FPS为13.3。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (7)

1.一种场景文字检测方法,其特征在于,包括:
利用神经网络对输入图像进行特征提取,并对提取的特征图进行上采样操作,得到不同尺寸的特征图;
以最大尺寸的特征图为标准,将其余尺寸的特征图映射为与最大尺寸的特征图相同的尺寸;
将映射到相同尺寸的特征图进行不同尺度信息的融合,这一融合操作能够使不同尺度的文字特征在融合后的统一尺寸的特征图中得到统一的激活;
对融合后的特征图进行文字框的回归和分类操作,得到场景文字检测结果。
2.根据权利要求1所述的一种场景文字检测方法,其特征在于,通过连续的上采样模块对提取的特征图进行上采样操作;在上采样过程中,将当前的特征图和相同尺寸的浅层特征图进行级联操作。
3.根据权利要求1所述的一种场景文字检测方法,其特征在于,所述将其余尺寸的特征图映射为与最大尺寸的特征图相同的尺寸包括:
通过通道匹配层改变输入特征图的通道数到指定大小;
由尺寸映射层通过压缩特征图的通道数实现尺寸的扩大,从而将输入特征图的尺寸映射为最大尺寸的特征图相同的尺寸。
4.根据权利要求1所述的一种场景文字检测方法,其特征在于,所述将映射到相同尺寸的特征图进行不同尺度信息的融合包括:
通过两个方向的连续卷积操作对包含不同尺度信息的特征图进行叠加;同时运用注意力机制控制前层的尺度信息的传递;
再通过特征聚合操作将叠加结果与注意力机制操作结果聚合。
5.根据权利要求1所述的一种场景文字检测方法,其特征在于,在训练阶段,采用随机梯度下降法进行端到端的训练,整体损失函数为:
L=LclsregLreg
上式中,Lcls为分类损失,Lreg为回归损失,λreg为平衡参数。
6.根据权利要求5所述的一种场景文字检测方法,其特征在于,
分类损失Lcls表示为:
Lcls=λRRL+λDLDice
IoU=S∩G/S∪G
回归损失Lreg表示为:
Lreg=Lloc+Lθ
Lθ=1-cos(θ′-θ*)
其中,RL代表召回损失,LDice代表交并比损失,λR与λD均代表平衡参数,η1、η2代表平衡参数,p代表预测当前像素为文字的概率大小,y代表当前像素对应的标签,S代表预测的单通道文字评分图中的每个连通域,IoU代表交集比上并集的值,β表示阈值,α表示增加的权重,e为常数;P代表预测的文字框,G代表对应的标签文字框,θ′代表预测的角度,θ*代表真实角度,Lθ代表角度的损失。
7.根据权利要求1所述的一种场景文字检测方法,其特征在于,在测试阶段,在得到场景文字检测结果后加入非极大化抑制操作,对重复检测的文字框进行筛选,得到最终的检测结果。
CN201910567794.2A 2019-06-27 2019-06-27 场景文字检测方法 Active CN110263877B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910567794.2A CN110263877B (zh) 2019-06-27 2019-06-27 场景文字检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910567794.2A CN110263877B (zh) 2019-06-27 2019-06-27 场景文字检测方法

Publications (2)

Publication Number Publication Date
CN110263877A true CN110263877A (zh) 2019-09-20
CN110263877B CN110263877B (zh) 2022-07-08

Family

ID=67922320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910567794.2A Active CN110263877B (zh) 2019-06-27 2019-06-27 场景文字检测方法

Country Status (1)

Country Link
CN (1) CN110263877B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242120A (zh) * 2020-01-03 2020-06-05 中国科学技术大学 文字检测方法及***
CN111259764A (zh) * 2020-01-10 2020-06-09 中国科学技术大学 文本检测方法、装置、电子设备及存储装置
CN111680628A (zh) * 2020-06-09 2020-09-18 北京百度网讯科技有限公司 文字框融合方法、装置、设备以及存储介质
CN111767935A (zh) * 2019-10-31 2020-10-13 杭州海康威视数字技术股份有限公司 一种目标检测方法、装置及电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688808A (zh) * 2017-08-07 2018-02-13 电子科技大学 一种快速的自然场景文本检测方法
CN107977620A (zh) * 2017-11-29 2018-05-01 华中科技大学 一种基于全卷积网络的多方向场景文本单次检测方法
CN108288088A (zh) * 2018-01-17 2018-07-17 浙江大学 一种基于端到端全卷积神经网络的场景文本检测方法
CN108446698A (zh) * 2018-03-15 2018-08-24 腾讯大地通途(北京)科技有限公司 在图像中检测文本的方法、装置、介质及电子设备
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN108764228A (zh) * 2018-05-28 2018-11-06 嘉兴善索智能科技有限公司 一种图像中文字目标检测方法
CN109165697A (zh) * 2018-10-12 2019-01-08 福州大学 一种基于注意力机制卷积神经网络的自然场景文字检测方法
CN109299274A (zh) * 2018-11-07 2019-02-01 南京大学 一种基于全卷积神经网络的自然场景文本检测方法
US20190130204A1 (en) * 2017-10-31 2019-05-02 The University Of Florida Research Foundation, Incorporated Apparatus and method for detecting scene text in an image

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688808A (zh) * 2017-08-07 2018-02-13 电子科技大学 一种快速的自然场景文本检测方法
US20190130204A1 (en) * 2017-10-31 2019-05-02 The University Of Florida Research Foundation, Incorporated Apparatus and method for detecting scene text in an image
CN107977620A (zh) * 2017-11-29 2018-05-01 华中科技大学 一种基于全卷积网络的多方向场景文本单次检测方法
CN108288088A (zh) * 2018-01-17 2018-07-17 浙江大学 一种基于端到端全卷积神经网络的场景文本检测方法
CN108446698A (zh) * 2018-03-15 2018-08-24 腾讯大地通途(北京)科技有限公司 在图像中检测文本的方法、装置、介质及电子设备
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN108764228A (zh) * 2018-05-28 2018-11-06 嘉兴善索智能科技有限公司 一种图像中文字目标检测方法
CN109165697A (zh) * 2018-10-12 2019-01-08 福州大学 一种基于注意力机制卷积神经网络的自然场景文字检测方法
CN109299274A (zh) * 2018-11-07 2019-02-01 南京大学 一种基于全卷积神经网络的自然场景文本检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
PENG ZHOU 等: "Scale-Transferrable Object Detection", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
XINGYU ZENG 等: "Gated Bi-directional CNN for Object Detection", 《COMPUTER VISION - ECCV 2016》 *
YONGHYUN KIM 等: "SAN: Learning Relationship between Convolutional Features for Multi-Scale Object Detection", 《ECCV 2018》 *
李东勤 等: "自然场景图像中的文本检测及定位算法研究-基于边缘信息与笔画特征", 《重庆科技学院学报(自然科学版)》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767935A (zh) * 2019-10-31 2020-10-13 杭州海康威视数字技术股份有限公司 一种目标检测方法、装置及电子设备
CN111767935B (zh) * 2019-10-31 2023-09-05 杭州海康威视数字技术股份有限公司 一种目标检测方法、装置及电子设备
CN111242120A (zh) * 2020-01-03 2020-06-05 中国科学技术大学 文字检测方法及***
CN111242120B (zh) * 2020-01-03 2022-07-29 中国科学技术大学 文字检测方法及***
CN111259764A (zh) * 2020-01-10 2020-06-09 中国科学技术大学 文本检测方法、装置、电子设备及存储装置
CN111680628A (zh) * 2020-06-09 2020-09-18 北京百度网讯科技有限公司 文字框融合方法、装置、设备以及存储介质
CN111680628B (zh) * 2020-06-09 2023-04-28 北京百度网讯科技有限公司 文字框融合方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN110263877B (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
CN110263877A (zh) 场景文字检测方法
Liu et al. Change detection using deep learning approach with object-based image analysis
CN106127204B (zh) 一种全卷积神经网络的多方向水表读数区域检测算法
Cheng et al. Feature enhancement network for object detection in optical remote sensing images
CN103390164B (zh) 基于深度图像的对象检测方法及其实现装置
Li et al. Coal gangue detection and recognition algorithm based on deformable convolution YOLOv3
Wang et al. FE-YOLOv5: Feature enhancement network based on YOLOv5 for small object detection
CN109948593A (zh) 基于结合全局密度特征的mcnn人群计数方法
CN109343920A (zh) 一种图像处理方法及其装置、设备和存储介质
CN106845341A (zh) 一种基于虚拟号牌的无牌车辆识别方法
Logoglu et al. Cospair: colored histograms of spatial concentric surflet-pairs for 3d object recognition
Xiu et al. 3D semantic segmentation for high-resolution aerial survey derived point clouds using deep learning
Yu et al. SAR ship detection based on improved YOLOv5 and BiFPN
Sun et al. Arbitrary-angle bounding box based location for object detection in remote sensing image
CN106096658A (zh) 基于无监督深度空间特征编码的航拍图像分类方法
Cao et al. Multi angle rotation object detection for remote sensing image based on modified feature pyramid networks
Hui et al. Detail texture detection based on Yolov4‐tiny combined with attention mechanism and bicubic interpolation
Chawda et al. Extracting building footprints from satellite images using convolutional neural networks
Yang et al. Building detection in high spatial resolution remote sensing imagery with the U-Rotation Detection Network
Wang et al. Automatic identification and location of tunnel lining cracks
Zhong et al. A multitask fusion network for region-level and pixel-level pavement distress detection
Ma et al. LA-YOLO: an effective detection model for multi-UAV under low altitude background
CN110516094A (zh) 门类兴趣点数据的去重方法、装置、电子设备及存储介质
Song et al. PDD: Post-Disaster Dataset for Human Detection and Performance Evaluation
CN110321867A (zh) 基于部件约束网络的遮挡目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant