CN110458165A - 一种引入注意力机制的自然场景文本检测方法 - Google Patents

一种引入注意力机制的自然场景文本检测方法 Download PDF

Info

Publication number
CN110458165A
CN110458165A CN201910750169.1A CN201910750169A CN110458165A CN 110458165 A CN110458165 A CN 110458165A CN 201910750169 A CN201910750169 A CN 201910750169A CN 110458165 A CN110458165 A CN 110458165A
Authority
CN
China
Prior art keywords
attention
text
feature
power module
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910750169.1A
Other languages
English (en)
Other versions
CN110458165B (zh
Inventor
牛作东
李捍东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou University
Original Assignee
Guizhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou University filed Critical Guizhou University
Priority to CN201910750169.1A priority Critical patent/CN110458165B/zh
Publication of CN110458165A publication Critical patent/CN110458165A/zh
Application granted granted Critical
Publication of CN110458165B publication Critical patent/CN110458165B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种引入注意力机制的自然场景文本检测方法,该方法为:在利用PVANet网络进行下图像采样的过程中,利用中间的文本特征信息的空间关系生成空间注意力模块,空间注意力模块用来捕捉二维空间中对于目标区判定的重要性信息,每次卷积生成的特征信息为I∈R1×H×W,并经过sgmod函数激活;在图像采样的过程中通过unpool池化的方式提取特征用于对目标位特征的逼近生成通道注意力模块,然后经过共享网络MLP进行调整;最后在特征融合的过程中,将通道注意力权重和空间注意力权重构成整个分支注意力模型。本发明在提取文本目标特征时更加关注有用信息和抑制无用信息,有效提升了EAST算法检测长文本的能力,在没有损失检测效率的同时提升了检测精度。

Description

一种引入注意力机制的自然场景文本检测方法
技术领域
本发明涉及一种引入注意力机制的自然场景文本检测方法,属于文本检测方法技术领域。
背景技术
基于原始检测目标的分类策略主要有基于角色的检测算法,其过程为首先检测单个字符或文本的一部分,然后将其分组成一个单词。基于字的检测方法:它是与一般物体检测类似的方式直接提取文本。基于文本行的检测算法:该方法首先检测文本行,然后再分逐个分成单词。基于目标边界框形状的分类策略的检测方法可以分为两类,第一类为水平或接近水平的检测方法,这类方法专注于检测图像中的水平或接近水平的文本。第二类为多方向的检测方法,与水平或接近水平检测方法相比,多方向的文本检测更加稳健,因为自然场景下的文本可以在图像中处于任意方向,这类的主要研究方法有利用检测多方向文本的旋转不变特征,首先在特征计算之前估计检测目标的中心、比例、方向信息,然后根据尺寸变化、颜色自相似性和结构自相似性进行链级特征。
而EAST算法中提出了一种快速、准确的场景文本检测流水线,该流水线只有两个阶段。管道采用完全卷积网络(FCN)模型,直接生成字或文本行级别的预测,不包括冗余和缓慢的中间步骤。生成的文本预测,可以是旋转的矩形或四边形,发送到非最大抑制以产生最终结果,如图2所示,该方法存在提取长文本受限,长文本的检测效果差。
发明内容
本发明要解决的技术问题是:提供一种引入注意力机制的自然场景文本检测方法,以解决上述现有技术中存在的问题。
本发明采取的技术方案为:一种引入注意力机制的自然场景文本检测方法,该方法为:在利用PVANet网络进行下图像采样的过程中,利用中间的文本特征信息的空间关系生成空间注意力模块,空间注意力模块用来捕捉二维空间中对于目标区判定的重要性信息,每次卷积生成的特征信息为I∈R1×H×W,并经过sgmod函数激活,其表达式为:
WS(I)=σf7×7Pool(I) (4)
其中f7×7为卷积操作,卷积核为7×7的卷积层,在图像采样的过程中通过unpool池化的方式提取特征用于对目标位特征的逼近生成通道注意力模块,然后经过共享网络MLP进行调整,其表达式为:
WC(I′)=σMLP(unpool(I))=σW1W0I′ (5)
式中σ为singmod激活函数,W0∈RC/r×C和W1∈RC×C/r分别为MLP的权重,最后在特征融合的过程中,将通道注意力权重和空间注意力权重构成整个分支注意力模型,其过程表示为:
I′=(WS(I)+1)⊙I (6)
I″=(WC(I′)+1)⊙I′ (7)
式中⊙为对应矩阵元素相乘,由于每个模块最后都需要使用sigmod函数来激活,使注意力通道每个元素值在[0,1]之间,达到注意力模块强化有用图像信息和抑制无用信息的效果。
本发明的有益效果:与现有技术相比,本发明针对EAST算法在对于文本方向特征提取时视野受限的问题,通过在主干网络PVANet中引入注意力机制,获得一种Attention-EAST检测方法,使得训练模型在提取文本目标特征时更加关注有用信息和抑制无用信息,实验证明该方法有效提升了EAST算法检测长文本的能力,在没有损失检测效率的同时提升了检测精度。
附图说明
图1是目标检测算法基本流程图;
图2是EAST算法结构图;
图3是Attention-EAST算法结构图;
图4是EAST算法长文本检测效果图;
图5是Attention-EAST算法长文本检测效果图。
具体实施方式
下面结合附图及具体的实施例对本发明进行进一步介绍。
视觉注意的可行性主要归功于合理的假设,即人类视觉不会立即整体处理整个图像;相反,人们只在需要的时间和地点专注于整个视觉空间的选择性部分。具体而言,注意力不是将图像编码成静态矢量,而是允许图像特征从手边的句子上下文演化,从而导致对杂乱图像的更丰富和更长的描述。通过这种方式,视觉注意力可以被视为一种动态特征提取机制,它随着时间的推移结合了上下文定位。
当在描述图像中检测目标的特征和信息的图像处理任务中加入注意力机制,注意力模块需要处理的特征信息包含明确的序列项a={a1,a2,a3,…,aL},ai∈RD,其中L代表特征向量的个数,D代表的是空间维度。因此所采用的注意力机制需要计算出当前时刻t每个特征向量ai的权重αt,i,公式如下:
eti=fatt(ai,ht-1) (1)
其中,fatt()代表多层感知机,eti代表中间变量,ht-1代表的是上个时刻的隐含状态,k代表特征向量的下标。计算出权重后,模型就可以对输入的序列a进行筛选,得到筛选后的序列项为:
最终收函数μ来决定该注意机制是硬注意力还是软注意力。
实施例1:如图3-图5所示,一种引入注意力机制的自然场景文本检测方法,该方法为:在利用PVANet网络进行下图像采样的过程中,利用中间的文本特征信息的空间关系生成空间注意力模块,空间注意力模块用来捕捉二维空间中对于目标区判定的重要性信息,每次卷积生成的特征信息为I∈R1×H×W,并经过sgmod函数激活,其表达式为:
WS(I)=σf7×7Pool(I) (4)
其中f7×7为卷积操作,卷积核为7×7的卷积层,在图像采样的过程中通过unpool池化的方式提取特征用于对目标位特征的逼近生成通道注意力模块,然后经过共享网络MLP进行调整,其表达式为:
WC(I′)=σMLP(unpool(I))=σW1W0I′ (5)
式中σ为singmod激活函数,W0∈RC/r×C和W1∈RC×C/r分别为MLP的权重,最后在特征融合的过程中,将通道注意力权重和空间注意力权重构成整个分支注意力模型,其过程表示为:
I′=(WS(I)+1)⊙I (6)
I″=(WC(I′)+1)⊙I′ (7)
式中⊙为对应矩阵元素相乘,由于每个模块最后都需要使用sigmod函数来激活,使注意力通道每个元素值在[0,1]之间,达到注意力模块强化有用图像信息和抑制无用信息的效果。
本发明的文件检测方法中损失函数为:
L=LsgLg (8)
其中,Ls和Lg分别表示分数图和几何图形的损失,而λg表示两个损失之间的重要性。在发明中,将λg设为1,为了简化训练过程,本发明引入的类平衡交叉熵:
其中是分数图的预测值,Y*是基本的真实值。参数β是正负样本之间的平衡因子,由下式得出:
为了使大文本区域和小文本区域生成精确的几何预测,保持回归损失尺度不变,旋转矩形框RBox回归部分采用IoU损失函数,因为它对不同尺度的对象是固定,其表达式为:
其中表示为预测的几何形状,R*是其对应的真实形状,相交矩形的宽度和高度分别为:
其中d1,d2,d3和d4分别表示像素到其对应矩形的上、右、下和左边界的距离。联合区由以下公式给出:
由此计算交叉或者联合区域,旋转角损失计算如下:
式中,是对旋转角度的预测,θ*表示实际值。最后计算出总的几何损失为:
Lg=LRθLθ (15)
在实验过程中本发明将λθ设置成10。
如图3所示的算法中,该算法的关键部分是引入了注意力模块的神经网络模型,通过训练直接从全图像预测文本实例及其几何图形的存在。该模型是一个完全卷积的神经网络,适用于文本检测,输出每像素密集的单词或文本行预测。这消除了中间步骤,如候选方案、文本区域形成和单词划分。后处理步骤仅包括预测几何图形上的阈值和NMS。由Attention-EAST算法结构图,该算法应用于文本检测主要由三个部分构成,包括特征提取网络、特征融合网络和输出层:
一、特征提取网络:首先在ICDAR数据集上对卷积神经网络进行预训练,用来生成神经网络模型的初始化参数。然后基于PVANet模型在特征提取阶段中经过卷积操作提取四个级别的特征图,其大小分别为输入图像的1/32、1/16、1/8和1/4。接着利用空间注意力特征模块计算每个特征图的空间注意力特征,用来关注文本的特征,并记为fi(i=1,2,3,4)作为输出用于特征合并;
二、特征融合网络:在该网络中采用逐层合并的方法对特征提取网提取的特征进行合并,其计算公式如下:
在每次合并的过程中,首先将来自上一个阶段的特征图首先被输入到一个采样层来扩大其大小;然后经过通道注意力特征模块关注文本位置特征信息。接与当前层特征提取网络的文本特征图进行合并。最后通过卷积操作Conv1×1来减少通道数量和计算量,卷积操作Conv3×3将局部信息融合来产生该合并阶段的输出hi(i=1,2,3,4)。在最在最后一个合并阶段之后,卷积操作conv3×3层会生成合并分支的最终特征图并将其送到输出层;
三、输出层:在输出层中包含若干个卷积Conv1×1操作,以将32个通道的特征图投影到1个通道的分数特征图和一个多通道几何图形特征图。几何特征图采用旋转矩形框对检测到的文本进行位置回归,其中通过四个通道来描述矩形文本框,分别表示从像素位置到矩形的顶部,右侧,底部,左侧边界的4个距离,一个通道表示文本框的旋转角度。最后以生成的旋转矩形框来标注图像中检测到的文本,检测效果如下图5如示。
模型训练:对于本发明提出的模型按照EAST算法的训练方式采用Adam优化器对网络进行端到端的训练。为了加快学***稳。
实验验证与分析:
实验环境:本实验是在Ubuntu18.04LTS操作***上进行,开发语言为Python3.6,集成开发环境为Pycharm,深度学习框架是GPU版本的TensorFlow。硬件配置CPU为四核八线程的i7-6700k,其主频4GHz,内存为32GB,GPU为NVIDIA GTX 1080T,显存11G。
实验结果:本实验采用的数据集为ICDAR挑战赛所用的数据集,该数据集也是当文本目标检测算法中比较流行的数据集,其中共有1500张图片,其中1000张图片用于模型训练,其作图片用于测试集,其文本区域由四边形的四个顶点进行注释,对应于目标文本中的四边几何图形,这些图片均由手机或相机随机拍摄,因此,场景中的文本信息是任意方向的,而且可能受到自然环境的影响,这些特征有利于对文本检测算法的估计检验。
本发明引入注意力机制的Attention-EAST算法与EAST算法在处理自然场景下的长文本的检测结果对比如图4-5所示,可以看出通过加入注意力机制对于提取文本和方位的特征信息的增强,提高了文本检测视野,有效改善了对于长文本的检测效果。同时,本发明使用召回率(Recall)、准确率(Precision)和加权调和平均值F-measured三个指标来评价本发明检测方法在ICDAR数据集上的训练效果。实验结果如表1所示,通过实验结果可以表明,本文提出的引入注意力机制的方法相比原EAST算法在文本检测性能指标均有所提升。
表1各文本检测算法实验结果对比数据
算法 使用召回率 准确率 加权调和平均值
Attention-EAST 0.7902 0.8401 0.8144
EAST 0.7831 0.8224 0.8022
为分析引入注意力模块后在检测效率上对于原EAST算法的影响,在本文的实验环境下采用每秒帧率(Frame Per Second,FPS)这一指标来评价本文算法和原EAST算法的检测效率,表示每秒处理的图片数量,将测试集500张检测图片随机分成5份分别进行测试。实验结果表2所示,可以看出加注入注意力模块后,并没有损失原算法的检测效率。
表2两种算法文本检测效率对比数据(FPS)
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内,因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (1)

1.一种引入注意力机制的自然场景文本检测方法,其特征在于:该方法为:在利用PVANet网络进行下图像采样的过程中,利用中间的文本特征信息的空间关系生成空间注意力模块,空间注意力模块用来捕捉二维空间中对于目标区判定的重要性信息,每次卷积生成的特征信息为I∈R1×H×W,并经过sgmod函数激活,其表达式为:
WS(I)=σf7×7Pool(I) (4)
其中f7×7为卷积操作,卷积核为7×7的卷积层,在图像采样的过程中通过unpool池化的方式提取特征用于对目标位特征的逼近生成通道注意力模块,然后经过共享网络MLP进行调整,其表达式为:
WC(I′)=σMLP(unpool(I))=σW1W0I′ (5)
式中σ为singmod激活函数,W0∈RC/r×C和W1∈RC×C/r分别为MLP的权重,最后在特征融合的过程中,将通道注意力权重和空间注意力权重构成整个分支注意力模型,其过程表示为:
I′=(WS(I)+1)⊙I (6)
I″=(WC(I′)+1)⊙I′ (7)
式中⊙为对应矩阵元素相乘,使注意力通道每个元素值在[0,1]之间。
CN201910750169.1A 2019-08-14 2019-08-14 一种引入注意力机制的自然场景文本检测方法 Active CN110458165B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910750169.1A CN110458165B (zh) 2019-08-14 2019-08-14 一种引入注意力机制的自然场景文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910750169.1A CN110458165B (zh) 2019-08-14 2019-08-14 一种引入注意力机制的自然场景文本检测方法

Publications (2)

Publication Number Publication Date
CN110458165A true CN110458165A (zh) 2019-11-15
CN110458165B CN110458165B (zh) 2022-11-08

Family

ID=68486514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910750169.1A Active CN110458165B (zh) 2019-08-14 2019-08-14 一种引入注意力机制的自然场景文本检测方法

Country Status (1)

Country Link
CN (1) CN110458165B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126243A (zh) * 2019-12-19 2020-05-08 北京科技大学 一种图像数据检测方法、装置以及计算机可读存储介质
CN111414875A (zh) * 2020-03-26 2020-07-14 电子科技大学 基于深度回归森林的三维点云头部姿态估计***
CN111680695A (zh) * 2020-06-08 2020-09-18 河南工业大学 一种基于反向注意力模型的语义分割方法
CN111753825A (zh) * 2020-03-27 2020-10-09 北京京东尚科信息技术有限公司 图像描述生成方法、装置、***、介质及电子设备
CN112446372A (zh) * 2020-12-08 2021-03-05 电子科技大学 基于通道分组注意力机制的文本检测方法
CN112749621A (zh) * 2020-11-25 2021-05-04 厦门理工学院 一种基于深度卷积神经网络的遥感图像云层检测方法
CN113052159A (zh) * 2021-04-14 2021-06-29 ***通信集团陕西有限公司 一种图像识别方法、装置、设备及计算机存储介质
CN113255646A (zh) * 2021-06-02 2021-08-13 北京理工大学 一种实时场景文本检测方法
CN113311700A (zh) * 2020-02-27 2021-08-27 陕西师范大学 一种非平均机制引导的uuv集群协同控制方法
CN113554026A (zh) * 2021-07-28 2021-10-26 广东电网有限责任公司 电力设备铭牌识别方法、识别装置及电子设备
CN114863437A (zh) * 2022-04-21 2022-08-05 北京百度网讯科技有限公司 文本识别方法、装置、电子设备和存储介质
CN116636423A (zh) * 2023-07-26 2023-08-25 云南农业大学 一种茯苓菌种的高效培育方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288088A (zh) * 2018-01-17 2018-07-17 浙江大学 一种基于端到端全卷积神经网络的场景文本检测方法
CN109165697A (zh) * 2018-10-12 2019-01-08 福州大学 一种基于注意力机制卷积神经网络的自然场景文字检测方法
CN109299262A (zh) * 2018-10-09 2019-02-01 中山大学 一种融合多粒度信息的文本蕴含关系识别方法
CN109376611A (zh) * 2018-09-27 2019-02-22 方玉明 一种基于3d卷积神经网络的视频显著性检测方法
CN109389091A (zh) * 2018-10-22 2019-02-26 重庆邮电大学 基于神经网络和注意力机制结合的文字识别***及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288088A (zh) * 2018-01-17 2018-07-17 浙江大学 一种基于端到端全卷积神经网络的场景文本检测方法
CN109376611A (zh) * 2018-09-27 2019-02-22 方玉明 一种基于3d卷积神经网络的视频显著性检测方法
CN109299262A (zh) * 2018-10-09 2019-02-01 中山大学 一种融合多粒度信息的文本蕴含关系识别方法
CN109165697A (zh) * 2018-10-12 2019-01-08 福州大学 一种基于注意力机制卷积神经网络的自然场景文字检测方法
CN109389091A (zh) * 2018-10-22 2019-02-26 重庆邮电大学 基于神经网络和注意力机制结合的文字识别***及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XINYU ZHOU 等: "EAST: An Efficient and Accurate Scene Text Detector", 《 2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
孙萍 等: "结合注意力机制的深度学习图像目标检测", 《计算机工程与应用》 *
程华 等: "基于Attention机制的链接预测算法", 《华中科技大学学报(自然科学版)》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126243B (zh) * 2019-12-19 2023-04-07 北京科技大学 一种图像数据检测方法、装置以及计算机可读存储介质
CN111126243A (zh) * 2019-12-19 2020-05-08 北京科技大学 一种图像数据检测方法、装置以及计算机可读存储介质
CN113311700A (zh) * 2020-02-27 2021-08-27 陕西师范大学 一种非平均机制引导的uuv集群协同控制方法
CN111414875A (zh) * 2020-03-26 2020-07-14 电子科技大学 基于深度回归森林的三维点云头部姿态估计***
CN111414875B (zh) * 2020-03-26 2023-06-02 电子科技大学 基于深度回归森林的三维点云头部姿态估计***
CN111753825A (zh) * 2020-03-27 2020-10-09 北京京东尚科信息技术有限公司 图像描述生成方法、装置、***、介质及电子设备
CN111680695A (zh) * 2020-06-08 2020-09-18 河南工业大学 一种基于反向注意力模型的语义分割方法
CN112749621A (zh) * 2020-11-25 2021-05-04 厦门理工学院 一种基于深度卷积神经网络的遥感图像云层检测方法
CN112749621B (zh) * 2020-11-25 2023-06-13 厦门理工学院 一种基于深度卷积神经网络的遥感图像云层检测方法
CN112446372A (zh) * 2020-12-08 2021-03-05 电子科技大学 基于通道分组注意力机制的文本检测方法
CN112446372B (zh) * 2020-12-08 2022-11-08 电子科技大学 基于通道分组注意力机制的文本检测方法
CN113052159A (zh) * 2021-04-14 2021-06-29 ***通信集团陕西有限公司 一种图像识别方法、装置、设备及计算机存储介质
CN113052159B (zh) * 2021-04-14 2024-06-07 ***通信集团陕西有限公司 一种图像识别方法、装置、设备及计算机存储介质
CN113255646B (zh) * 2021-06-02 2022-10-18 北京理工大学 一种实时场景文本检测方法
CN113255646A (zh) * 2021-06-02 2021-08-13 北京理工大学 一种实时场景文本检测方法
CN113554026A (zh) * 2021-07-28 2021-10-26 广东电网有限责任公司 电力设备铭牌识别方法、识别装置及电子设备
CN114863437A (zh) * 2022-04-21 2022-08-05 北京百度网讯科技有限公司 文本识别方法、装置、电子设备和存储介质
CN116636423A (zh) * 2023-07-26 2023-08-25 云南农业大学 一种茯苓菌种的高效培育方法
CN116636423B (zh) * 2023-07-26 2023-09-26 云南农业大学 一种茯苓菌种的高效培育方法

Also Published As

Publication number Publication date
CN110458165B (zh) 2022-11-08

Similar Documents

Publication Publication Date Title
CN110458165A (zh) 一种引入注意力机制的自然场景文本检测方法
Liu et al. ABNet: Adaptive balanced network for multiscale object detection in remote sensing imagery
Anderson et al. Bottom-up and top-down attention for image captioning and visual question answering
Wang et al. Understanding convolution for semantic segmentation
CN110287960A (zh) 自然场景图像中曲线文字的检测识别方法
CN110598610B (zh) 一种基于神经选择注意的目标显著性检测方法
CN110276253A (zh) 一种基于深度学习的模糊文字检测识别方法
CN111079739B (zh) 一种多尺度注意力特征检测方法
CN111598030A (zh) 一种航拍图像中车辆检测和分割的方法及***
CN108921058A (zh) 基于深度学习的鱼类识别方法、介质、终端设备及装置
CN107945153A (zh) 一种基于深度学习的路面裂缝检测方法
CN108427924A (zh) 一种基于旋转敏感特征的文本回归检测方法
CN109214366A (zh) 局部目标重识别方法、装置及***
US11853892B2 (en) Learning to segment via cut-and-paste
CN111539991B (zh) 目标跟踪方法及装置、存储介质
Pham et al. Road damage detection and classification with YOLOv7
CN115131797B (zh) 一种基于特征增强金字塔网络的场景文本检测方法
Yu et al. SNNFD, spiking neural segmentation network in frequency domain using high spatial resolution images for building extraction
CN110399826B (zh) 一种端到端人脸检测和识别方法
CN116758130A (zh) 一种基于多路径特征提取和多尺度特征融合的单目深度预测方法
Li et al. Gated auxiliary edge detection task for road extraction with weight-balanced loss
CN113554653A (zh) 基于互信息校准点云数据长尾分布的语义分割方法
Zhang Innovation of English teaching model based on machine learning neural network and image super resolution
Xiang et al. Recognition of characters on curved metal workpiece surfaces based on multi-exposure image fusion and deep neural networks
CN108694398B (zh) 一种图像分析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant