CN113887282A - 一种面向场景图像中任意形状邻近文本的检测***及方法 - Google Patents
一种面向场景图像中任意形状邻近文本的检测***及方法 Download PDFInfo
- Publication number
- CN113887282A CN113887282A CN202111004566.8A CN202111004566A CN113887282A CN 113887282 A CN113887282 A CN 113887282A CN 202111004566 A CN202111004566 A CN 202111004566A CN 113887282 A CN113887282 A CN 113887282A
- Authority
- CN
- China
- Prior art keywords
- region
- text
- detection
- suggestion
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 title claims description 26
- 238000012549 training Methods 0.000 claims abstract description 33
- 230000004927 fusion Effects 0.000 claims description 15
- 230000000007 visual effect Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种面向场景图像中任意形状邻近文本的检测***及方法,属于图像文本检测领域,通过生成区域建议使得网络更加关注文本特征,同时提出一种一对多的训练策略,为每一个候选框匹配多个目标文本,用以缓解邻近文本时在选取回归目标混淆的问题,最终提升基于回归的两阶段模型检测场景图像中任意形状邻近文本的能力。
Description
技术领域
本发明属于图像文本检测领域,具体涉及一种面向场景图像中任意形状邻近文本的检测***及方法。
背景技术
场景图像的文本检测与识别是近年来的研究热点,由于场景图像中文本的复杂性,难以直接将文本识别出来,需要先将图像中的文本检测出来,即定位场景图像中文本所在的位置。随着深度学***文本到多向文本,再到最近几年受到关注的任意形状文本,文本检测的目标变得更加多样化。
尽管有一部分方法针对任意形状的文本提出了解决方案,其中基于分割的方法能够适应任意形状的文本却严重受到分割质量的影响,基于回归的方法大多都是利用矩形锚框的特征,其中包含很多的背景噪声。现有的方法不能很好地解决邻近文本的情况,其中基于分割的方法采用收缩的文本区域以达到分离邻近文本的目的,但这种方法会引入其它要预测的属性和不灵活的膨胀后处理,基于回归的方法使用最大交并比为每一个候选框选取对应的目标文本,但这样最大交并比对每一个候选框都是变化的,导致测试时会产生目标混淆问题。任意形状邻近的文本在场景图像中很常见,但很少有方法同时聚焦到任意形状和邻近文本。
发明内容
本发明的目的是提升基于回归的两阶段模型检测场景图像中任意形状邻近文本的能力,提出了一种面向场景图像中任意形状邻近文本的检测***及方法,通过生成区域建议使得网络更加关注文本特征,同时提出一种一对多的训练策略,为每一个候选框匹配多个目标文本,用以缓解邻近文本时在选取回归目标混淆的问题。
为达到上述目的,本发明采用以下技术方案:
一种面向场景图像中任意形状邻近文本的检测***,包括:
特征提取模块,由一个50层的残差网络和一个特征金字塔网络组成,残差网络为卷积神经网络,用于提取一个自底向上的不同尺度的视觉特征;特征金字塔网络由一个横向连接和一个自顶向下连接构成,用于融合不同尺度的视觉特征,得到一个更加丰富的视觉特征即融合特征;
区域建议生成模块,用于在所述融合特征的每个位置上预设多个不同的锚框,经过分类和回归,生成一系列区域建议;
检测头模块,用于单独对每个区域建议进行处理,根据区域建议中的坐标将区域建议对应的特征从融合特征中提取出来,得到区域建议特征,然后在该区域建议特征基础上进行分类和回归,得到场景图像的文本检测结果。
优选地,在对检测头模块进行训练时,区域建议生成模块根据生成的区域建议与输入图像中的文本对应的矩形框计算交并比,根据该交并比确定正负样本,选择正负样本为一定比例的区域建议来训练检测头模块。
优选地,若交并比大于0.7则为正样本,小于3.0则为负样本;正负样本比例为3:1。
优选地,检测头模块包括一区域建议特征关注模块PFAM,PFAM用于使用一个感知机模块来生成当前区域建议特征对应的注意力权重,该注意力权重和区域建议的对应位置相乘即可得到一个自适应关注文本特征的优化特征,去除背景噪声。
优选地,检测头模块包括两个卷积层、两个全连接层、两个PFAM,按照数据流的顺序为两个卷积层、一个全连接层、一个PFAM、另一个全连接层和另一个PFAM。
优选地,检测头模块根据一对多训练策略OMTS进行训练,使区域建议在有多个标注的文本实例的情况下学习优化;该OMTS为在检测头模块添加的一个检测分支,为每一个区域建议给出两种检测结果,然后利用匹配的两个文本实例来监督该两个检测结果,来进行模型训练。
优选地,在训练过程中,为每一个区域建议根据交并比匹配两个文本实例,若一个区域建议根据交并比只能匹配到一个文本实例时,另一个则匹配到背景。
一种面向场景图像中任意形状邻近文本的检测方法,基于上述***实现,包括以下步骤:
利用特征提取模块从场景图像中提取不同尺度的视觉特征,并融合得到融合特征;
利用区域建议生成模块在所述融合的每个位置上预设多个不同的锚框,经过分类和回归,生成一系列的区域建议;
利用检测头模块根据区域建议中的坐标将区域建议对应的特征从融合特征中提取出来,得到区域建议特征,在该区域建议特征基础上进行分类和回归;
利用上述步骤处理训练数据的场景图像,并根据一对多的训练策略来优化训练整个***,利用训练好的***检测场景图像,获取场景图像中的文本检测结果。
优选地,利用检测头模块根据每一个区域建议特征生成对应的注意力权重,将区域建议特征和注意力权重对应的位置相乘,得到一个自适应关注文本特征的优化特征,去除背景噪声。
与现有方法相比,本发明提出的方法简单而有效,在经典的通用目标检测方法Faster RCNN上增加区域建议特征关注模块和一对多训练策略,这两个模块的加入对速度基本没有影响。其中,对每个区域建议特征使用注意力机制自适应关注文本特征,抑制背景噪声。一对多的训练策略为每一个区域建议回归多个实例,使其在有多个文本实例的情况下学习更适当的目标。同时多个通用的文本检测数据集上的实验结果表明,本发明相比之前的方法能够取得更好的检测结果。
附图说明
图1为实施例的一种面向场景图像中任意形状邻近文本的检测***的网络结构图。
图2为本发明在不同数据上的检测的可视化结果图。
具体实施方式
为使本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图作详细说明如下。
本实施例提出一种面向场景图像中任意形状邻近文本的检测***,如图1所示,该***是一个基于回归的两阶段检测模型,整个模型由三个部分组成:特征提取模块、区域建议生成模块和检测头模块。
其中,特征提取模块,由一个50层的残差网络和一个特征金字塔网络组成,残差网络是一种卷积神经网络,可以提取一个自底向上的不同尺度的视觉特征,然后利用一个横向连接和一个自顶向下连接构成的特征金字塔网络融合不同尺度的特征,可以更好地处理尺度变化较大的文本,得到一个更加丰富的视觉特征即融合特征,用于接下来的区域建议生成模块和检测头模块。
区域建议生成模块,则是在特征提取模块得到的融合特征基础上,利用区域建议生成网络生成一系列区域建议,首先在融合特征每个位置上预设多个大小和尺度不同的锚框,然后这些锚框经过分类和回归得到初步的检测结果即区域建议;训练时区域建议与输入图像中的文本对应的矩形框计算交并比确定正负样本,若交并比大于0.7则为正样本,小于3.0则为负样本,选取正负样本比例为3:1的一定数量的区域建议用于训练后续的检测头模块,测试时这些区域建议则作为后续的检测头模块的输入来预测最后的文本检测结果。
检测头模块,是单独对每个区域建议进行处理的,区域建议是一个初步的检测结果,根据检测结果中的坐标将区域建议对应的特征从融合特征中提取出来得到区域建议特征,然后在区域建议特征基础上进行分类和回归得到最终的文本检测结果。
在检测头模块中,本发明首先提出区域建议特征关注模块(PFAM),为每个区域建议挖掘更有效的特征,以便更好地适应任意形状邻近的文本实例。具体地,该模块使用一个感知机模块来生成当前区域建议特征对应的注意力权重wa,该权重和区域建议特征是大小一致的,两者对应位置相乘即可得到一个新的优化特征,该优化特征能够自适应地关注文本特征,去除背景噪声。如图1所示,每个PFAM模块可以直接拼接在每个全连接层(fc)之后。其次,设计了一种一对多训练策略(OMTS),使区域建议在有多个文本实例的情况下学习更适当的目标,以消除混淆。具体地,在训练过程中,考虑到实际文本实例的分布情况,为每一个区域建议根据交并比(IoU)匹配两个文本实例,若一个区域建议根据IoU只能匹配到一个文本实例时,另一个则匹配到背景,同时在检测头模块添加一个检测分支,为每一个区域建议给出两个检测结果,然后利用匹配的两个文本实例监督两个检测结果以训练模型。使用一对多训练策略后,测试时当有邻近文本实例存在时,区域建议能够更好地选择其要回归和分类的目标文本实例。
本发明还提出一种面向场景图像中任意形状邻近文本的检测方法,通过上述***实现,整个流程分为以下几步:
S1:输入图片经过特征提取模块提取出融合不同尺度的视觉特征,即融合特征。
S2:所述融合特征经过一个区域建议生成模块,生成大量的区域建议。
S3:将区域建议对应的视觉特征提取后处理为固定大小及维度的区域建议特征。
S4:对每一个区域建议特征经过卷积、全连接层和区域建议特征关注模块得到一个自适应关注文本的优化特征。
S5:使用优化特征进行分类和回归,使用一对多的训练策略来优化训练整个***模型,训练好以后检测场景图像并获取文本。
本发明在CTW1500、Total-Text、ICDAR2015和MSRA-TD500四个主流的场景文本检测数据上进行了广泛的实验,以评估方法的效果。为了公平起见,在与其它方法进行比较时,本实验使用生成数据对模型进行预训练。CTW1500有1000张训练图像和500张测试图像,其中包含较多曲线长文本;Total-Text有1255张训练图像和300张测试图像,其中包含水平、多向和曲线文本;ICDAR2015有1000张训练图像和500张测试图像,是一个多向文本数据集,其中大多数图像质量较低;MSRA-TD500有300张训练图像和200张测试图像,参考之前的方法,增加HUST-TR400的400张图像作为训练图像,其中大多为长宽比较大的文本。
表格1展示了本发明各个模块之间的效果对比,结果证明了本发明提出的区域建议特征关注模块和一对多训练策略可以带来性能提升,同时两个模块之间有互补性,一起能够带来更明显的提升。
表1各个模块对比实验
同时为了进一步验证一对多训练策略对任意形状邻近文本的有效性,本实验将标准的CTW1500和ICDAR2015测试集进行不同角度的旋转,实验结果如表格2所示,可以看到使用一对多训练策略是有非常明显的性能提升。
表2 OMTS在CTW1500和ICDAR2015的不同旋转角度测试集的效果
表格3和表格4展示了本发明和其他主流方法在测试数据集上的效果对比,本发明在多个数据集上达到了最好的性能,证明了本发明的有效性,同时本发明的速度(FPS)比大多数方法要快。
表3 CTW1500和totaltext数据集的检测结果
注:表中*代表使用真实数据集预训练模型。
表4 ICDAR2015和MSRA-TD500数据集的检测结果
注:表中*代表使用真实数据集预训练模型
图2展示了本发明在不同数据集上文本检测的可视化结果,可以直观地看到本发明在多种数据集上都有较好的检测结果。
虽然本发明已以实施例公开如上,然其并非用以限定本发明,本领域的普通技术人员对本发明的技术方案进行的适当修改或者等同替换,均应涵盖于本发明的保护范围内,本发明的保护范围以权利要求所限定者为准。
Claims (10)
1.一种面向场景图像中任意形状邻近文本的检测***,其特征在于,包括:
特征提取模块,由一个50层的残差网络和一个特征金字塔网络组成,残差网络为卷积神经网络,用于提取一个自底向上的不同尺度的视觉特征;特征金字塔网络由一个横向连接和一个自顶向下连接构成,用于融合不同尺度的视觉特征,得到融合特征;
区域建议生成模块,用于在所述融合特征的每个位置上预设多个不同的锚框,经过分类和回归,生成一系列区域建议;
检测头模块,用于单独对每个区域建议进行处理,根据区域建议中的坐标将区域建议对应的特征从融合特征中提取出来,得到区域建议特征,然后在该区域建议特征基础上进行分类和回归,得到场景图像的文本检测结果。
2.如权利要求1所述的***,其特征在于,在对检测头模块进行训练时,区域建议生成模块根据生成的区域建议与输入图像中的文本对应的矩形框计算交并比,根据该交并比确定正负样本,选择正负样本为一定比例的区域建议来训练检测头模块。
3.如权利要求2所述的***,其特征在于,若交并比大于0.7则为正样本,小于3.0则为负样本。
4.如权利要求2所述的***,其特征在于,正负样本比例为3:1。
5.如权利要求1所述的***,其特征在于,检测头模块包括一区域建议特征关注模块PFAM,PFAM用于使用一个感知机模块来生成当前区域建议特征对应的注意力权重,该注意力权重和区域建议的对应位置相乘即可得到一个自适应关注文本特征的优化特征,去除背景噪声。
6.如权利要求5所述的***,其特征在于,检测头模块包括两个卷积层、两个全连接层、两个PFAM,按照数据流的顺序为两个卷积层、一个全连接层、一个PFAM、另一个全连接层和另一个PFAM。
7.如权利要求1所述的***,其特征在于,检测头模块根据一对多训练策略OMTS进行训练,使区域建议在有多个标注的文本实例的情况下学习优化;该OMTS为在检测头模块添加的一个检测分支,为每一个区域建议给出两种检测结果,然后利用匹配的两个文本实例来监督该两个检测结果,来进行模型训练。
8.如权利要求7所述的***,其特征在于,在训练过程中,为每一个区域建议根据交并比匹配两个文本实例,若一个区域建议根据交并比只能匹配到一个文本实例时,另一个则匹配到背景。
9.一种面向场景图像中任意形状邻近文本的检测方法,基于权利要求1-8任一项所述的***实现,其特征在于,包括以下步骤:
利用特征提取模块从场景图像中提取不同尺度的视觉特征,并融合得到融合特征;
利用区域建议生成模块在所述融合的每个位置上预设多个不同的锚框,经过分类和回归,生成一系列的区域建议;
利用检测头模块根据区域建议中的坐标将区域建议对应的特征从融合特征中提取出来,得到区域建议特征,在该区域建议特征基础上进行分类和回归;
利用上述步骤处理训练数据的场景图像,并根据一对多的训练策略来优化训练整个***,利用训练好的***检测场景图像,获取场景图像中的文本检测结果。
10.如权利要求9所述的方法,其特征在于,利用检测头模块根据每一个区域建议特征生成对应的注意力权重,将区域建议特征和注意力权重对应的位置相乘,得到一个自适应关注文本特征的优化特征,去除背景噪声。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111004566.8A CN113887282A (zh) | 2021-08-30 | 2021-08-30 | 一种面向场景图像中任意形状邻近文本的检测***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111004566.8A CN113887282A (zh) | 2021-08-30 | 2021-08-30 | 一种面向场景图像中任意形状邻近文本的检测***及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113887282A true CN113887282A (zh) | 2022-01-04 |
Family
ID=79011582
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111004566.8A Pending CN113887282A (zh) | 2021-08-30 | 2021-08-30 | 一种面向场景图像中任意形状邻近文本的检测***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113887282A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114677691A (zh) * | 2022-04-06 | 2022-06-28 | 北京百度网讯科技有限公司 | 文本识别方法、装置、电子设备及存储介质 |
CN116258915A (zh) * | 2023-05-15 | 2023-06-13 | 深圳须弥云图空间科技有限公司 | 多个目标部位联合检测的方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107704859A (zh) * | 2017-11-01 | 2018-02-16 | 哈尔滨工业大学深圳研究生院 | 一种基于深度学习训练框架的文字识别方法 |
WO2018054326A1 (zh) * | 2016-09-22 | 2018-03-29 | 北京市商汤科技开发有限公司 | 文字检测方法和装置、及文字检测训练方法和装置 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110689012A (zh) * | 2019-10-08 | 2020-01-14 | 山东浪潮人工智能研究院有限公司 | 一种端到端的自然场景文本识别方法及*** |
CN110807422A (zh) * | 2019-10-31 | 2020-02-18 | 华南理工大学 | 一种基于深度学习的自然场景文本检测方法 |
CN110837835A (zh) * | 2019-10-29 | 2020-02-25 | 华中科技大学 | 一种基于边界点检测的场景文本端到端识别方法 |
CN111553347A (zh) * | 2020-04-26 | 2020-08-18 | 佛山市南海区广工大数控装备协同创新研究院 | 一种面向任意角度的场景文本检测方法 |
WO2020173036A1 (zh) * | 2019-02-26 | 2020-09-03 | 博众精工科技股份有限公司 | 基于深度学习的定位方法和*** |
-
2021
- 2021-08-30 CN CN202111004566.8A patent/CN113887282A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018054326A1 (zh) * | 2016-09-22 | 2018-03-29 | 北京市商汤科技开发有限公司 | 文字检测方法和装置、及文字检测训练方法和装置 |
CN107704859A (zh) * | 2017-11-01 | 2018-02-16 | 哈尔滨工业大学深圳研究生院 | 一种基于深度学习训练框架的文字识别方法 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
WO2020173036A1 (zh) * | 2019-02-26 | 2020-09-03 | 博众精工科技股份有限公司 | 基于深度学习的定位方法和*** |
CN110689012A (zh) * | 2019-10-08 | 2020-01-14 | 山东浪潮人工智能研究院有限公司 | 一种端到端的自然场景文本识别方法及*** |
CN110837835A (zh) * | 2019-10-29 | 2020-02-25 | 华中科技大学 | 一种基于边界点检测的场景文本端到端识别方法 |
CN110807422A (zh) * | 2019-10-31 | 2020-02-18 | 华南理工大学 | 一种基于深度学习的自然场景文本检测方法 |
CN111553347A (zh) * | 2020-04-26 | 2020-08-18 | 佛山市南海区广工大数控装备协同创新研究院 | 一种面向任意角度的场景文本检测方法 |
Non-Patent Citations (1)
Title |
---|
李瑞;王朝坤;郑伟;***;王伟平: "基于MapReduce框架的近似复制文本检测", 第27届中国数据库学术会议, 13 October 2010 (2010-10-13) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114677691A (zh) * | 2022-04-06 | 2022-06-28 | 北京百度网讯科技有限公司 | 文本识别方法、装置、电子设备及存储介质 |
CN114677691B (zh) * | 2022-04-06 | 2023-10-03 | 北京百度网讯科技有限公司 | 文本识别方法、装置、电子设备及存储介质 |
CN116258915A (zh) * | 2023-05-15 | 2023-06-13 | 深圳须弥云图空间科技有限公司 | 多个目标部位联合检测的方法及装置 |
CN116258915B (zh) * | 2023-05-15 | 2023-08-29 | 深圳须弥云图空间科技有限公司 | 多个目标部位联合检测的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112884064B (zh) | 一种基于神经网络的目标检测与识别方法 | |
Liu et al. | Picanet: Learning pixel-wise contextual attention for saliency detection | |
CN108334848B (zh) | 一种基于生成对抗网络的微小人脸识别方法 | |
CN111860171B (zh) | 一种大规模遥感图像中不规则形状目标的检测方法及*** | |
CN112580664A (zh) | 一种基于ssd网络的小目标检测方法 | |
CN114445706A (zh) | 一种基于特征融合的输电线路目标检测与识别方法 | |
CN109614979A (zh) | 一种基于选择与生成的数据增广方法及图像分类方法 | |
CN113887282A (zh) | 一种面向场景图像中任意形状邻近文本的检测***及方法 | |
JP2022174707A (ja) | スペース・シーケンス・フィーチャー学習に基づく歩行者の再識別システムおよび方法 | |
CN114841244B (zh) | 一种基于鲁棒采样和混合注意力金字塔的目标检测方法 | |
CN110188654B (zh) | 一种基于移动未裁剪网络的视频行为识别方法 | |
CN113643228B (zh) | 一种基于改进的CenterNet网络的核电站设备表面缺陷检测方法 | |
CN104794455B (zh) | 一种东巴象形文字识别方法 | |
CN110826609B (zh) | 一种基于强化学习的双流特征融合图像识别方法 | |
CN110009622B (zh) | 一种显示面板外观缺陷检测网络及其缺陷检测方法 | |
CN112036447A (zh) | 零样本目标检测***及可学习语义和固定语义融合方法 | |
CN114463759A (zh) | 一种基于无锚框算法的轻量化文字检测方法及装置 | |
CN107247952A (zh) | 基于深层监督的循环卷积神经网络的视觉显著性检测方法 | |
WO2024032010A1 (zh) | 一种基于迁移学习策略的少样本目标实时检测方法 | |
CN114419413A (zh) | 感受野自适应的变电站绝缘子缺陷检测神经网络构建方法 | |
CN116402769A (zh) | 一种兼顾大小目标的高精度纺织品瑕疵智能检测方法 | |
CN113658206B (zh) | 一种植物叶片分割方法 | |
Dvoršak et al. | Kinship verification from ear images: An explorative study with deep learning models | |
CN113901924A (zh) | 一种文档表格的检测方法及装置 | |
CN117576038A (zh) | 基于YOLOv8网络的织物瑕疵检测方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |