CN112149620A - 基于无锚点的自然场景文字区域检测模型的构建方法 - Google Patents

基于无锚点的自然场景文字区域检测模型的构建方法 Download PDF

Info

Publication number
CN112149620A
CN112149620A CN202011098722.7A CN202011098722A CN112149620A CN 112149620 A CN112149620 A CN 112149620A CN 202011098722 A CN202011098722 A CN 202011098722A CN 112149620 A CN112149620 A CN 112149620A
Authority
CN
China
Prior art keywords
feature map
loss
feature
centrality
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011098722.7A
Other languages
English (en)
Inventor
徐亦飞
王冕
王爱臣
严汤文
王优
李斌
尉萍萍
肖志峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang Huiyichen Technology Co ltd
Original Assignee
Nanchang Huiyichen Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang Huiyichen Technology Co ltd filed Critical Nanchang Huiyichen Technology Co ltd
Priority to CN202011098722.7A priority Critical patent/CN112149620A/zh
Publication of CN112149620A publication Critical patent/CN112149620A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于无锚点的自然场景文字区域检测模型的构建方法,使用基于像素的检测方式,引入预测边界框倾斜角度的卷积分支,从而可以检测自然场景中的倾斜文字;在网络主干的某些层中加入可变形卷积DCN,从而提升网络表达文本实例特定特征的能力,并对文本目标形状的感受野更加灵活;在网络中引入了注意力模块,从而对提取的特征进行过滤,增强积极信息并抑制干扰信息;本发明中使用分类损失、回归损失CIoU Loss、中心度损失和角度损失作为联合损失函数,从而提升了检测精度,并且使得目标框回归变得更加稳定,同时达到更快的收敛速度。

Description

基于无锚点的自然场景文字区域检测模型的构建方法
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于无锚点的自然场景文字区域检测模型的构建方法。
背景技术
文字区域检测是计算机视觉领域研究的热点,其旨在将自然场景图像中的文字的位置检测出来,以供下一步进行识别,从而将图像转换为可供计算机处理的真实的文字信息。自然场景图像中的文字通常在字体、组合方式和文字大小等方面存在着较大的差异,且自然场景图像还在光照强度、分辨率、图像噪声以及拍摄角度等方面存在很大的不确定性,这些复杂的因素大大增加了自然场景下的文字区域检测的难度。
自然场景文字区域检测常用的一种方法为基于边界框回归的方法,基于边界框回归的方法通常将文本看做一种类型的目标,直接预测出它的边界框作为检测的结果。基于边界框回归的方法包括双阶段(two-stage)方法以及单阶段(one-stage)方法,其中,前者是先由算法生成一系列作为样本的候选框,再通过卷积神经网络进行样本分类;后者则不用产生候选框,直接将目标边框定位的问题转化为回归问题处理。通常来说,前者的准确率要高于后者,而后者速度要优于前者。
基于两类方法的特点,在实时性要求比较高的场合下,例如自动驾驶场景中的文字区域检测需要较短的识别时间,属于实时性,常使用单阶段方法。例如,Tian Z,Shen C,Chen H,et al.FCOS:Fully convolutional one-stage object detection提出的FCOS算法是一种无锚框单阶段的目标检测算法,该算法保留了无锚框机制,并且引入了基于像素回归预测,多尺度特征以及中心度(Center-ness)预测三种策略,最终实现了在无锚框的情况下效果能够比肩各类主流基于锚框的目标检测算法。但是,该FCOS算法存在准确度较低的问题。
发明内容
本发明提供了一种基于无锚点的自然场景文字区域检测模型的构建方法,以解决现有的无锚点的自然场景文字区域检测的准确度较低的问题。
本发明提供了一种无锚点的自然场景文字区域检测模型的构建方法,包括:
步骤S100,采集面向自然场景下的含有文字图像的数据集,所述数据集包括训练图像集Ttrain和检测图像集Ttest
步骤S200,将自然图像作为输入,输至特征提取网络,生成由多尺度的输入特征图Input Feature Map组成的特征金字塔,其中,特征提取网络包含可变形卷积DCN;
步骤S300,将特征金字塔传入注意力模块Attention,通过头部操作Head金字塔注意力模块对输入特征图Input Feature Map进行过滤,生成精准特征图Refined FeatureMap,其中,注意力模块Attention包括通道注意力模块Channel Attention Module和空间注意力模块Spatial Attention Module;
步骤S400,将精准特征图Refined Feature Map传入包括三个卷积分支Convolution的输出层,生成特性特征图,所述特性特征图包括分类特征图ClassificationFeature Map、中心度特征图Center-ness Feature Map、回归特征图Regression FeatureMap、角度特征图Angle Feature Map,
其中,三个卷积分支Convolution中,第一卷积分支负责分类任务和中心度预测任务,第二卷积分支负责边界框的回归,第三卷积分支负责边界框倾斜角度的预测;
步骤S500,将训练图像集Ttrain中的训练图像输入到步骤S200中,经过步骤S200、步骤S300、步骤S400,得到训练图像对应的特性特征图,
将训练图像标注的各个实际的目标框中心度、目标框回归坐标目标框文字倾斜角度与对应的特性特征图使用联合损失函数进行训练,得到无锚点的自然场景文字区域检测模型;
步骤S600,将检测图像数据集Ttest中的检测图像作为输入,输至无锚点的自然场景文字区域检测模型,得到检测图像中的文字检测区域。
可选地,步骤S200,包括,
步骤S210,将自然图像传至特征提取网络,特征提取网络中ResNet网络的第三层C3、第四层C4、第五层C5生成对应的输入特征图P3、输入特征图P4以及输入特征图P5;
步骤S220,在第五层生成的输入特征图P5上添加了两个卷积层,生成了两个新的输入特征图P6与输入特征图P7,得到由五个不同尺寸的输入特征图构成特征金字塔。
可选地,步骤S300,包括,
步骤S310,使用最大池化Maxpool和平均池化Avgpool操作对特征金字塔中的输入特征图Input Feature Map在空间维度上进行压缩,生成两个不同的空间上、下文描述子;将两个描述子输入到共享网络中,其中,共享网络由一个隐层的多层感知器MLP组成,通过共享网络分别生成对应的分通道注意图;将生成的两个分通道注意力图合并生成注意力权重图;将注意力权重图和输入特征图Input Feature Map进行点积运算,生成通道精准特征图Channel Refined Feature Map;
步骤S320,对通道精准特征图Channel Refined Feature Map沿其通道轴进行最大池化Maxpool和平均池化Avgpool操作,并将生成的特征图进行连接操作,生成特征描述子;在特征描述子上应用卷积层Conv,生成空间注意力图Spatial Attention;生成的空间注意力图Spatial Attention与通道精准特征图Channel Refined Feature Map进行点积运算,生成空间注意精准特征图Spatial Refined Feature Map。
可选地,采用分类损失、回归损失CIoU Loss、中心度损失和角度损失作为联合损失函数,所述联合损失函数的计算公式为:
Figure BDA0002724619220000021
其中,Lcls、Lreg、Lθ、Lces分别为分类损失、回归损失、角度损失、中心度损失,Npos表示正样本的数量,l是一个指示函数,当
Figure BDA0002724619220000022
即该位置的分类为文本时,该函数的值为1,否则该函数的值为0;
具体的,分类损失为:
Figure BDA0002724619220000023
回归损失CIoU Loss为:
Figure BDA0002724619220000024
其中,b和bgt分别代表预测框和目标框的中心点,p()为计算两个中心点的欧氏距离,a是用来平衡长宽比例的系数,v是用来衡量预测框和目标框的比例一致性;
角度损失函数为:
Lθ(θ,θ*)=1-cos(θ-θ*),其中,θ表示预测的倾斜角度,θ*表示目标框文字倾斜角度。
中心度损失为:
Lces(c,c*)=-c*·log(c)+(1-c*)·log(1-c),其中,c和c*分别为中心度的预测值和目标框的中心度。
可选地,步骤S600,包括,
步骤S610,对于无锚点的自然场景文字检测模型,将检测图像数据集Ttest作为输入,得到检测图像对应的特性特征图,针对回归特征图Regression Feature Map和角度特征图Angle Feature Map中的某一点,生成该点在检测图像中对应的像素点距离预测框中四个边框的距离,进而生成预测框;
根据分类特征图Classification Feature Map和中心度特征图CenternessFeature Map,得到该点的初步分类得分和中心度得分,根据上述分类特征图得到的初步分类得分,将其与中心度相乘作为最终的分类得分;
步骤S620,利用非极大抑制算法NMS和最终的分类得分对预测框进行过滤,得到检测图像中的文字区域。
本发明提供了一种基于无锚点的自然场景文字区域检测模型的构建方法,在无锚点的算法上加入预测边界框倾斜角度的卷积分支,从而可以检测自然场景中的倾斜文字;在网络主干的某些层中加入可变形卷积DCN,从而提升网络表达文本实例特定特征的能力,并对文本目标形状的感受野更加灵活;在网络中引入了注意力模块,从而对提取的特征进行过滤,增强积极信息并抑制干扰信息;本发明中使用分类损失、回归损失CIoU Loss、中心度损失和角度损失作为联合损失函数,从而提升了检测精度,并且使得目标框回归变得更加稳定,同时达到更快的收敛速度。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于无锚点的自然场景文字区域检测模型的构建方法的流程图;
图2为本发明基于无锚点的自然场景文字区域检测模型的构建方法的网络结构图;
图3为本发明注意力模块的网络结构图;
图4为本发明通道注意力模块的网络结构图;
图5为本发明空间注意力模块的网络结构图。
具体实施方式
本发明提供一种基于无锚点的自然场景文字区域检测模型的构建方法,应用在对实时性要求比较高的场合,在保持较快的检测速度同时,确保具有较高的准确率。
图1为本发明基于无锚点的自然场景文字区域检测模型的构建方法的流程图,图2为本发明基于无锚点的自然场景文字区域检测模型的构建方法的网络结构图,结合图1与图2所示,本发明的基于无锚点的自然场景文字区域检测模型的构建方法包括,
步骤S100,采集面向自然场景下的含有文字图像的数据集,所述数据集包括训练图像集Ttrain和检测图像集Ttest
步骤S200,将自然图像作为输入,输至特征提取网络,生成由多尺度的输入特征图Input Feature Map组成的特征金字塔,其中,特征提取网络包含可变形卷积DCN(Deformable Convolution Net)。
在此说明,该特征提取网络采用ResNet50作为骨干网络,在该网络中加入了可变形卷积DCN,使得网络更适应于提取文本信息。将网络构造成特征金字塔结构,从而使用一种多尺度策略,使得网络对各种尺度的目标都能得到很好的检测。
本发明中,步骤S200具体包括:
步骤S210,将自然图像传至特征提取网络,特征提取网络中ResNet网络的第三层C3、第四层C4、第五层C5生成对应的输入特征图P3、输入特征图P4以及输入特征图P5;
步骤S220,在第五层生成的输入特征图P5上添加了两个卷积层,生成了两个新的输入特征图P6与输入特征图P7,得到由五个不同尺寸的输入特征图构成特征金字塔。
步骤S300,将特征金字塔传入注意力模块Attention,通过头部操作Head金字塔注意力模块对输入特征图Input Feature Map进行过滤,生成精准特征图Refined FeatureMap,其中,注意力模块Attention包括通道注意力模块Channel Attention Module和空间注意力模块Spatial Attention Module,如图3所示。
本发明中,步骤S300具体包括:
步骤S310,使用最大池化Maxpool和平均池化Avgpool操作对特征金字塔中的输入特征图Input Feature Map在空间维度上进行压缩,生成两个不同的空间上、下文描述子;将两个描述子输入到共享网络中,其中,共享网络由一个隐层的多层感知器MLP组成,通过共享网络分别生成对应的分通道注意图;将生成的两个分通道注意力图合并生成注意力权重图;将注意力权重图和输入特征图Input Feature Map进行点积运算,生成通道精准特征图Channel Refined Feature Map,如图4所示;
步骤S320,对通道精准特征图Channel Refined Feature Map沿其通道轴进行最大池化Maxpool和平均池化Avgpool操作,并将生成的特征图进行连接操作,生成特征描述子;在特征描述子上应用卷积层Conv,生成空间注意力图Spatial Attention;生成的空间注意力图Spatial Attention与通道精准特征图Channel Refined Feature Map进行点积运算,生成空间注意精准特征图Spatial Refined Feature Map,如图5所示。
步骤S400,将精准特征图Refined Feature Map传入包括三个卷积分支Convolution的输出层,生成特性特征图,所述特性特征图包括分类特征图ClassificationFeature Map、中心度特征图Center-ness Feature Map、回归特征图Regression FeatureMap、角度特征图Angle Feature Map;
其中,三个卷积分支Convolution中,第一卷积分支负责分类任务和中心度预测任务,第二卷积分支负责边界框的回归,第三卷积分支负责边界框倾斜角度的预测。
相比FCOS算法,本发明中,加入了一个预测边界框倾斜角度的卷积分支,使得算法可以检测倾斜的文本。
步骤S500,将训练图像集Ttrain中的训练图像输入到步骤S200中,经过步骤S200、步骤S300、步骤S400,得到训练图像对应的特性特征图,
将训练图像标注的各个实际的目标框中心度、目标框回归坐标目标框文字倾斜角度与对应的特性特征图使用联合损失函数进行训练,得到无锚点的自然场景文字区域检测模型。
为了提升了检测精度,并且使得目标框回归变得更加稳定,同时达到更快的收敛速度,本发明中,采用分类损失、回归损失CIoU Loss、中心度损失和角度损失作为联合损失函数,所述联合损失函数的计算公式为:
Figure BDA0002724619220000051
其中,Lcls、Lreg、Lθ、Lces分别为分类损失、回归损失、角度损失、中心度损失,Npos表示正样本的数量,l是一个指示函数,当
Figure BDA0002724619220000052
即该位置的分类为文本时,该函数的值为1,否则该函数的值为0。
具体的,分类损失为:
Figure BDA0002724619220000053
回归损失CIoU Loss为:
Figure BDA0002724619220000054
其中,b和bgt分别代表预测框和目标框的中心点,p()为计算两个中心点的欧氏距离,a是用来平衡长宽比例的系数,v是用来衡量预测框和目标框的比例一致性;
角度损失函数为:
Lθ(θ,θ*)=1-cos(θ-θ*),其中,θ表示预测的倾斜角度,θ*表示目标框文字倾斜角度。
中心度损失为:
Lces(c,c*)=-c*·log(c)+(1-c*)·log(1-c),其中,c和c*分别为中心度的预测值和目标框的中心度。
步骤S600,将检测图像数据集Ttest中的检测图像作为输入,输至无锚点的自然场景文字区域检测模型,得到检测图像中的文字检测区域。
本发明中,步骤S600具体包括:
步骤S610,对于无锚点的自然场景文字检测模型,将检测图像数据集Ttest作为输入,得到检测图像对应的特性特征图,针对回归特征图Regression Feature Map和角度特征图Angle Feature Map中的某一点,生成该点在检测图像中对应的像素点距离预测框中四个边框的距离,进而生成预测框;
根据分类特征图Classification Feature Map和中心度特征图CenternessFeature Map,得到该点的初步分类得分和中心度得分,根据上述分类特征图得到的初步分类得分,将其与中心度相乘作为最终的分类得分;
步骤S620,利用非极大抑制算法NMS和最终的分类得分对预测框进行过滤,得到检测图像中的文字区域。在本发明中,NMS中的阈值为预测框覆盖率为0.6。
本发明提供了一种基于无锚点的自然场景文字区域检测模型的构建方法,本发明通过加入预测边界框倾斜角度的卷积分支,从而可以检测自然场景中的倾斜文字;在网络主干的某些层中加入可变形卷积,从而提升网络表达文本实例特定特征的能力,并对文本目标形状的感受野更加灵活;在网络中引入了注意力模块,从而对提取的特征进行过滤,增强积极信息并抑制干扰信息;本发明中使用分类损失、回归损失CIoU Loss、中心度损失和角度损失作为联合损失函数,从而提升了检测精度,并且使得目标框回归变得更加稳定,同时达到更快的收敛速度。
以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims (5)

1.一种基于无锚点的自然场景文字区域检测模型的构建方法,其特征在于,包括:
步骤S100,采集面向自然场景下的含有文字图像的数据集,所述数据集包括训练图像集Ttrain和检测图像集Ttest
步骤S200,将自然图像作为输入,输至特征提取网络,生成由多尺度的输入特征图Input Feature Map组成的特征金字塔,其中,特征提取网络包含可变形卷积DCN;
步骤S300,将特征金字塔传入注意力模块Attention,通过头部操作Head金字塔注意力模块对输入特征图Input Feature Map进行过滤,生成精准特征图Refined Feature Map,其中,注意力模块Attention包括通道注意力模块Channel Attention Module和空间注意力模块Spatial Attention Module;
步骤S400,将精准特征图Refined Feature Map传入包括三个卷积分支Convolution的输出层,生成特性特征图,所述特性特征图包括分类特征图Classification Feature Map、中心度特征图Center-ness Feature Map、回归特征图Regression Feature Map、角度特征图Angle Feature Map,
其中,三个卷积分支Convolution中,第一卷积分支负责分类任务和中心度预测任务,第二卷积分支负责边界框的回归,第三卷积分支负责边界框倾斜角度的预测;
步骤S500,将训练图像集Ttrain中的训练图像输入到步骤S200中,经过步骤S200、步骤S300、步骤S400,得到训练图像对应的特性特征图,
将训练图像标注的各个实际的目标框中心度、目标框回归坐标目标框文字倾斜角度与对应的特性特征图使用联合损失函数进行训练,得到无锚点的自然场景文字区域检测模型;
步骤S600,将检测图像数据集Ttest中的检测图像作为输入,输至无锚点的自然场景文字区域检测模型,得到检测图像中的文字检测区域。
2.根据权利要求1所述的基于无锚点的自然场景文字区域检测模型的构建方法,其特征在于,步骤S200,包括,
步骤S210,将自然图像传至特征提取网络,特征提取网络中ResNet网络的第三层C3、第四层C4、第五层C5生成对应的输入特征图P3、输入特征图P4以及输入特征图P5;
步骤S220,在第五层生成的输入特征图P5上添加了两个卷积层,生成了两个新的输入特征图P6与输入特征图P7,得到由五个不同尺寸的输入特征图构成特征金字塔。
3.根据权利要求1所述的基于无锚点的自然场景文字区域检测模型的构建方法,其特征在于,步骤S300,包括,
步骤S310,使用最大池化Maxpool和平均池化Avgpool操作对特征金字塔中的输入特征图Input Feature Map在空间维度上进行压缩,生成两个不同的空间上、下文描述子;将两个描述子输入到共享网络中,其中,共享网络由一个隐层的多层感知器MLP组成,通过共享网络分别生成对应的分通道注意图;将生成的两个分通道注意力图合并生成注意力权重图;将注意力权重图和输入特征图Input Feature Map进行点积运算,生成通道精准特征图Channel Refined Feature Map;
步骤S320,对通道精准特征图Channel Refined Feature Map沿其通道轴进行最大池化Maxpool和平均池化Avgpool操作,并将生成的特征图进行连接操作,生成特征描述子;在特征描述子上应用卷积层Conv,生成空间注意力图Spatial Attention;生成的空间注意力图Spatial Attention与通道精准特征图Channel Refined Feature Map进行点积运算,生成空间注意精准特征图Spatial Refined Feature Map。
4.根据权利要求1所述的基于无锚点的自然场景文字区域检测模型的构建方法,其特征在于,采用分类损失、回归损失CIoU Loss、中心度损失和角度损失作为联合损失函数,所述联合损失函数的计算公式为:
Figure FDA0002724619210000021
其中,Lcls、Lreg、Lθ、Lces分别为分类损失、回归损失、角度损失、中心度损失,Npos表示正样本的数量,l是一个指示函数,当
Figure FDA0002724619210000022
即该位置的分类为文本时,该函数的值为1,否则该函数的值为0;
具体的,分类损失为:
Figure FDA0002724619210000023
回归损失CIoU Loss为:
Figure FDA0002724619210000024
其中,b和bgt分别代表预测框和目标框的中心点,p()为计算两个中心点的欧氏距离,a是用来平衡长宽比例的系数,v是用来衡量预测框和目标框的比例一致性;
角度损失函数为:
Lθ(θ,θ*)=1-cos(θ-θ*),其中,θ表示预测的倾斜角度,θ*表示目标框文字倾斜角度。
中心度损失为:
Lces(c,c*)=-c*·log(c)+(1-c*)·log(1-c),其中,c和c*分别为中心度的预测值和目标框的中心度。
5.根据权利要求1所述的基于无锚点的自然场景文字区域检测模型的构建方法,其特征在于,步骤S600,包括,
步骤S610,对于无锚点的自然场景文字检测模型,将检测图像数据集Ttest作为输入,得到检测图像对应的特性特征图,针对回归特征图Regression Feature Map和角度特征图Angle Feature Map中的某一点,生成该点在检测图像中对应的像素点距离预测框中四个边框的距离,进而生成预测框;
根据分类特征图Classification Feature Map和中心度特征图Centerness FeatureMap,得到该点的初步分类得分和中心度得分,根据上述分类特征图得到的初步分类得分,将其与中心度相乘作为最终的分类得分;
步骤S620,利用非极大抑制算法NMS和最终的分类得分对预测框进行过滤,得到检测图像中的文字区域。
CN202011098722.7A 2020-10-14 2020-10-14 基于无锚点的自然场景文字区域检测模型的构建方法 Pending CN112149620A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011098722.7A CN112149620A (zh) 2020-10-14 2020-10-14 基于无锚点的自然场景文字区域检测模型的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011098722.7A CN112149620A (zh) 2020-10-14 2020-10-14 基于无锚点的自然场景文字区域检测模型的构建方法

Publications (1)

Publication Number Publication Date
CN112149620A true CN112149620A (zh) 2020-12-29

Family

ID=73951780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011098722.7A Pending CN112149620A (zh) 2020-10-14 2020-10-14 基于无锚点的自然场景文字区域检测模型的构建方法

Country Status (1)

Country Link
CN (1) CN112149620A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560857A (zh) * 2021-02-20 2021-03-26 鹏城实验室 文字区域边界检测方法、设备、存储介质及装置
CN112926584A (zh) * 2021-05-11 2021-06-08 武汉珈鹰智能科技有限公司 裂缝检测方法、装置、计算机设备及存储介质
CN112966690A (zh) * 2021-03-03 2021-06-15 中国科学院自动化研究所 基于无锚框和提议框的场景文字检测方法
CN113255906A (zh) * 2021-04-28 2021-08-13 中国第一汽车股份有限公司 一种自动驾驶中回归障碍物3d角度信息方法、装置、终端及存储介质
CN113435266A (zh) * 2021-06-09 2021-09-24 东莞理工学院 基于极值点特征增强的fcos智能目标检测方法
CN114022558A (zh) * 2022-01-05 2022-02-08 深圳思谋信息科技有限公司 图像定位方法、装置、计算机设备和存储介质
CN114841244A (zh) * 2022-04-05 2022-08-02 西北工业大学 一种基于鲁棒采样和混合注意力金字塔的目标检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117836A (zh) * 2018-07-05 2019-01-01 中国科学院信息工程研究所 一种基于焦点损失函数的自然场景下文字检测定位方法和装置
US20200090506A1 (en) * 2018-09-19 2020-03-19 National Chung-Shan Institute Of Science And Technology License plate recognition system and license plate recognition method
CN111126472A (zh) * 2019-12-18 2020-05-08 南京信息工程大学 一种基于ssd改进的目标检测方法
WO2020097734A1 (en) * 2018-11-15 2020-05-22 Element Ai Inc. Automatically predicting text in images
CN111723798A (zh) * 2020-05-27 2020-09-29 西安交通大学 一种基于关联性层级残差的多实例自然场景文本检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117836A (zh) * 2018-07-05 2019-01-01 中国科学院信息工程研究所 一种基于焦点损失函数的自然场景下文字检测定位方法和装置
US20200090506A1 (en) * 2018-09-19 2020-03-19 National Chung-Shan Institute Of Science And Technology License plate recognition system and license plate recognition method
WO2020097734A1 (en) * 2018-11-15 2020-05-22 Element Ai Inc. Automatically predicting text in images
CN111126472A (zh) * 2019-12-18 2020-05-08 南京信息工程大学 一种基于ssd改进的目标检测方法
CN111723798A (zh) * 2020-05-27 2020-09-29 西安交通大学 一种基于关联性层级残差的多实例自然场景文本检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JIFENG DAI等: "Deformable Convolutional Networks", 《ARXIV》, pages 1 - 12 *
SANGHYUN WOO等: "CBAM Convolutional Block Attention Module", 《ARXIV》, pages 1 - 17 *
ZHI TIAN等: "FCOS: Fully Convolutional One-Stage Object Detection", 《ARXIV》, pages 1 - 13 *
刘济樾: "基于轻量化网络的实时人脸检测方法研究", 《中国优秀硕士学位论文全文数据库:信息科技辑》, no. 7, pages 1 - 84 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560857A (zh) * 2021-02-20 2021-03-26 鹏城实验室 文字区域边界检测方法、设备、存储介质及装置
CN112966690A (zh) * 2021-03-03 2021-06-15 中国科学院自动化研究所 基于无锚框和提议框的场景文字检测方法
CN112966690B (zh) * 2021-03-03 2023-01-13 中国科学院自动化研究所 基于无锚框和提议框的场景文字检测方法
CN113255906A (zh) * 2021-04-28 2021-08-13 中国第一汽车股份有限公司 一种自动驾驶中回归障碍物3d角度信息方法、装置、终端及存储介质
CN112926584A (zh) * 2021-05-11 2021-06-08 武汉珈鹰智能科技有限公司 裂缝检测方法、装置、计算机设备及存储介质
CN112926584B (zh) * 2021-05-11 2021-08-06 武汉珈鹰智能科技有限公司 裂缝检测方法、装置、计算机设备及存储介质
CN113435266A (zh) * 2021-06-09 2021-09-24 东莞理工学院 基于极值点特征增强的fcos智能目标检测方法
CN113435266B (zh) * 2021-06-09 2023-09-01 东莞理工学院 基于极值点特征增强的fcos智能目标检测方法
CN114022558A (zh) * 2022-01-05 2022-02-08 深圳思谋信息科技有限公司 图像定位方法、装置、计算机设备和存储介质
CN114841244A (zh) * 2022-04-05 2022-08-02 西北工业大学 一种基于鲁棒采样和混合注意力金字塔的目标检测方法
CN114841244B (zh) * 2022-04-05 2024-03-12 西北工业大学 一种基于鲁棒采样和混合注意力金字塔的目标检测方法

Similar Documents

Publication Publication Date Title
CN112149620A (zh) 基于无锚点的自然场景文字区域检测模型的构建方法
CN108961235B (zh) 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法
CN110428432B (zh) 结肠腺体图像自动分割的深度神经网络算法
JP6547069B2 (ja) 物体検出のためのサブカテゴリ認識機能付き畳み込みニューラルネットワーク
CN112150821B (zh) 轻量化车辆检测模型构建方法、***及装置
CN111222396B (zh) 一种全天候多光谱行人检测方法
CN114565860B (zh) 一种多维度增强学习合成孔径雷达图像目标检测方法
CN112836713A (zh) 基于图像无锚框检测的中尺度对流***识别与追踪方法
CN113052200B (zh) 一种基于yolov3网络的声呐图像目标检测方法
CN115294038A (zh) 一种基于联合优化与混合注意力特征融合的缺陷检测方法
CN111626993A (zh) 一种基于嵌入式FEFnet网络的图像自动检测计数方法及***
CN113569724B (zh) 基于注意力机制和扩张卷积的道路提取方法及***
CN116342894B (zh) 基于改进YOLOv5的GIS红外特征识别***及方法
CN114299060A (zh) 一种适用于复杂水下环境的深度学习大坝裂缝检测方法
CN113033315A (zh) 一种稀土开采高分影像识别与定位方法
CN111860587A (zh) 一种用于图片小目标的检测方法
CN111008994A (zh) 基于MPSoC的运动目标实时检测跟踪***及方法
CN113420819A (zh) 一种基于CenterNet的轻量级水下目标检测方法
CN113052215A (zh) 基于神经网络可视化的声呐图像自动目标识别方法
CN113505634A (zh) 一种双流解码跨任务交互网络的光学遥感图像显著目标检测方法
CN113609904B (zh) 一种基于动态全局信息建模和孪生网络的单目标跟踪算法
CN114821316A (zh) 一种三维探地雷达裂缝病害识别方法及***
CN114565824A (zh) 基于全卷积网络的单阶段旋转舰船检测方法
CN113222824B (zh) 一种红外图像超分辨率及小目标检测方法
CN112446292B (zh) 一种2d图像显著目标检测方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination