CN114004963A - 目标类别识别方法、装置及可读存储介质 - Google Patents

目标类别识别方法、装置及可读存储介质 Download PDF

Info

Publication number
CN114004963A
CN114004963A CN202111652406.4A CN202111652406A CN114004963A CN 114004963 A CN114004963 A CN 114004963A CN 202111652406 A CN202111652406 A CN 202111652406A CN 114004963 A CN114004963 A CN 114004963A
Authority
CN
China
Prior art keywords
feature vector
target
sub
feature
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111652406.4A
Other languages
English (en)
Other versions
CN114004963B (zh
Inventor
艾国
杨作兴
房汝明
向志宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen MicroBT Electronics Technology Co Ltd
Original Assignee
Shenzhen MicroBT Electronics Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen MicroBT Electronics Technology Co Ltd filed Critical Shenzhen MicroBT Electronics Technology Co Ltd
Priority to CN202111652406.4A priority Critical patent/CN114004963B/zh
Publication of CN114004963A publication Critical patent/CN114004963A/zh
Application granted granted Critical
Publication of CN114004963B publication Critical patent/CN114004963B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提出目标类别识别方法、装置及可读存储介质。方法包括:对待识别图像进行特征提取,得到第一特征向量;在第一特征向量中查找到各前景和背景区域对应的各第一子特征向量;对各第一子特征向量进行第一插值处理,得到各第二子特征向量;根据各第二子特征向量进行目标检测,得到各目标区域;在第一特征向量中找到各目标区域对应的各第一子特征向量,将各第一子特征向量拼接成第三特征向量;对第一特征向量进行自适应全局平均池化处理,得到第四特征向量;将第四特征向量与第三特征向量进行叠加,得到第五特征向量;根据第五特征向量进行目标类别识别,得到图像中包含的目标类别。本发明实施例更加细化了目标类别识别的粒度。

Description

目标类别识别方法、装置及可读存储介质
技术领域
本发明实施例涉及图像处理技术领域,尤其涉及目标类别识别方法、装置及可读存储介质和计算机程序产品。
背景技术
在很多场景中,由于种种目的,需要对目标进行分类。而对于形态和纹理相近的不同目标类别,一般的图像分类方法难以区分。例如:在地下管道建设场景中,近些年来,我国的城市化进程发展迅猛,随着数以亿计的人口涌入城市,地下管道承担的压力进一步加剧,地下管道建设作为城市建设过程中一项非常重要的基础任务,影响着城市正常运行的稳定性,及时检修管网***,是保证城市基础设施建设稳定性的重要保障。
目前,针对地下管道缺陷检测采用最多的是先通过机器人下井拍摄视频数据,再将获取的海量信息通过人力筛选确定发生缺陷的管道段,生成缺陷类型报告后,再由工人根据报告缺陷类型进行检修。但是人力判断管道缺陷类型有两个方面的缺点,第一:能够筛选管道缺陷类型的人必须具备一定专业知识,这会限制可投入使用的人力数量;第二:人力在工作过程中会产生周期性疲倦,从而导致降低工作效率。上述两个缺陷的叠加导致城市管道检修工作很难及时进行。
目前存在使用神经网络对简单的排水管道破损类别(沉积、裂缝和树根等)分类,由于他们未能有选择地捕获对缺陷类别区分有用地信息,因此难以推广至更多的管道缺陷类别识别之中。
为了能够识别出更多的管道缺陷类别,现有的另一方案在深度卷积神经网络:VGG(Visual Geometry Group,计算机视觉组)16的基础上,在每一个卷积模块中***CBAM(Convolutional Block Attention Module,卷积块注意力机制)分别计算通道和空间级别的注意力矩阵再用其和原始特征相乘,以此达到使网络管道具有判别力特征的目的,从而将之前管道缺陷分类只能识别三类缺陷推广到了识别变形、腐蚀、结垢、错口、沉积、渗漏以及破裂等七类的程度。这种方法虽然相对于之前的方法相对更具普适性,但是仍然存在几点缺陷:
1)根据我国住房城乡***关于发布的行业标准《城镇排水管道检测与评估技术规程》中介绍,地下排水管道缺陷类型共有17种(暗接、变形、错接、残墙、穿入、腐蚀、浮渣、结垢、起伏、树根、脱节、脱落、障碍物、错口、沉积、渗漏以及破裂)。该方法只能识别其中七种最为常见的缺陷类型使得其无法被广泛推广,另一方面也无法达到降低人力投入的目的。因为即便该方法能在这七种缺陷中达到极高识别准确率,但是无法保证剩余10种缺陷是否被认定为正常,而这其他的十类缺陷在排水管道维修中也不可忽视。因此,必须安排人力对模型检测后的数据去做二次筛查。
2)虽然通道和空间级别的注意力机制,能够达到促使神经网络提取样本表达的重要特征,以达到区分类间混淆度大的缺陷类别的目的。但是神经网络的强大拟合能力来自于其成千上万个神经元,在每一个卷积层中***通道和空间级别注意力机制的计算将会大大加剧模型的计算成本。
3)CBAM本质上是一种自注意力机制,即在当前先验基础上自主选择抑制或增强某些特征信息。但是图像分类的标注信息在特征选择时候能提供的先验信息有限,当需要识别更多而复杂的管道缺陷类别时,CBAM机制难以关注到真正有区分力的特征。
此外,学术界对细粒度图像分类任务提供了很多有意义的探索借鉴,这些方法都是基于先检测后分类的方式区分类间混淆度大的类别。即先检测出图像中具有区分粒度的子区域位置,再基于这些区域特征去做精细分类。但是这种先检测后分类的细粒度分类方法不适用于普适性的管道缺陷分类方法建模,因为管道缺陷的一个主要性质是缺陷分布面广但是缺陷区域实际面积占比低(比如管道壁的裂缝和树根等);此外,只基于局部可区分区域的特征分类不利于区分类间距离较远的类别。
发明内容
本发明实施例提出目标类别识别方法、装置及可读存储介质和计算机程序产品,以细化目标类别识别的类别粒度,并提高目标类别识别的识别精度。
本发明实施例的技术方案是这样实现的:
一种目标类别识别方法,该方法包括:
对待识别图像进行特征提取,得到第一特征向量;
根据第一特征向量检测所述图像中的各个前景区域和各个背景区域;
根据各个前景区域和各个背景区域在所述图像中的对应区域,在第一特征向量中查找到各个前景区域和各个背景区域对应的各第一子特征向量;
分别对所述各个前景区域和各个背景区域对应的各第一子特征向量进行第一插值处理,得到第一固定大小的各第二子特征向量;
根据所述各第二子特征向量进行目标检测,得到所述图像中的各目标区域;
根据所述各目标区域在所述图像中的对应区域,在第一特征向量中查找到各目标区域对应的各第一子特征向量,将所有目标区域对应的各第一子特征向量拼接成第三特征向量;
对第一特征向量进行自适应全局平均池化处理,得到第四特征向量;其中,第四特征向量的维度与第三特征向量相同;
将第四特征向量与第三特征向量进行叠加,得到第五特征向量;
根据第五特征向量进行目标类别识别,得到所述图像中包含的目标类别。
所述对待识别图像进行特征提取,得到第一特征向量,包括:
将待识别图像输入到神经网络的骨干网络进行特征提取;
根据第一特征向量检测所述图像中的各个前景区域和各个背景区域,包括:
将第一特征向量输入到所述神经网络的区域建议网络中来检测所述图像中的各个前景区域和各个背景区域;
所述根据所述各第二子特征向量进行目标检测,包括:
将所述各第二子特征向量输入到所述神经网络的目标检测网络进行目标检测;
所述根据第五特征向量进行目标分类识别,包括:
将第五特征向量输入到所述神经网络的目标分类网络进行目标类别识别。
所述神经网络的骨干网络、区域建议网络、目标检测网络和目标分类网络通过如下训练过程得到:
采集训练图像集,在每帧训练图像中标注各个标注目标区域和对应的标注目标类别;
从训练图像集中依次取出一帧训练图像输入到所述神经网络的骨干网络进行特征提取,得到输入的训练图像的第一特征向量;
将第一特征向量输入到所述神经网络的区域建议网络,以检测出输入的训练图像中的各个前景区域和各个背景区域;
根据各个前景区域和各个背景区域在输入的训练图像中的对应区域,在第一特征向量中查找到各个前景区域和各个背景区域对应的各第一子特征向量;
分别对所述各个前景区域和各个背景区域对应的各第一子特征向量进行第一插值处理,得到第一固定大小的各第二子特征向量;
将所述各第二子特征向量输入到所述神经网络的目标检测网络,得到输入的训练图像中的各检测目标区域及各检测目标区域的检测目标类别;
根据所述目标检测网络得到的各检测目标区域及各检测目标区域的检测目标类别与在输入的训练图像中标注的各个标注目标区域和对应的标注目标类别,采用预设的第一损失函数进行计算,得到第一预测偏差;
根据各检测目标区域在输入的训练图像中的对应区域,在第一特征向量中查找到各检测目标区域对应的各第一子特征向量,将所有检测目标区域对应的各第一子特征向量拼接成第三特征向量;
对第一特征向量进行自适应全局平均池化处理,得到第四特征向量;其中,第四特征向量的维度与第三特征向量相同;
将第四特征向量与第三特征向量进行叠加,得到第五特征向量;
将第五特征向量输入到所述神经网络的目标分类网络,得到输入的训练图像中包含的各检测目标类别;
根据所述目标分类网络得到的输入的训练图像中包含的各检测目标类别与在输入的训练图像中标注的各标注目标区域的标注目标类别,采用预设的第二损失函数进行计算,得到第二预测偏差;
对第一预测偏差和第二预测偏差进行加权求和,根据该加权和调整所述神经网络的参数;
当所述神经网络收敛时,将此时的神经网络作为最终使用的神经网络。
所述将所有目标区域对应的各第一子特征向量拼接成第三特征向量之后,将第四特征向量与第三特征向量进行叠加之前,进一步包括:
对第三特征向量进行自注意力机制增强处理,得到第三特征向量中每个特征值的自注意力系数,将第三特征向量中的每个特征值分别与其自注意力系数相乘,得到第三特征向量的自注意力机制增强特征向量;
所述将第四特征向量与第三特征向量进行叠加,包括:
将第四特征向量与第三特征向量的自注意力机制增强特征向量进行叠加。
所述在每帧训练图像中标注各个标注目标区域和对应的标注目标类别,进一步包括:
在每帧训练图像中标注各个标注目标的轮廓;
所述在第一特征向量中查找到各个前景区域和各个背景区域对应的各第一子特征向量之后、所述对第一预测偏差和第二预测偏差进行加权求和之前,进一步包括:
分别对所述各个前景区域和各个背景区域对应的各第一子特征向量进行第二插值处理,得到第二固定大小的各第六子特征向量;
将所述各第六子特征向量输入到所述神经网络的语义分割网络,得到输入的训练图像中的各检测目标的轮廓和检测目标类别;
根据所述语义分割网络得到的输入的训练图像中的各检测目标的轮廓和检测目标类别与在输入的训练图像中标注的各标注目标的轮廓和标注目标类别,采用预设的第三损失函数进行计算,得到第三预测偏差;
所述对第一预测偏差和第二预测偏差进行加权求和,包括:
对第一预测偏差、第二预测偏差和第三预测偏差进行加权求和。
所述待识别图像为管道图像,所述目标类别为管道缺陷类别。
所述管道缺陷类别包括如下之一或任意组合:暗接、变形、错接、残墙、穿入、腐蚀、浮渣、结垢、起伏、树根、脱节、脱落、障碍物、错口、沉积、渗漏、破裂。
一种目标类别识别装置,该装置包括:
特征提取模块,用于对待识别图像进行特征提取,得到第一特征向量;
区域建议模块,用于根据第一特征向量检测待识别图像中的各个前景区域和各个背景区域;
感兴趣区域对齐模块,用于根据各个前景区域和各个背景区域在待识别图像中的对应区域,在第一特征向量中查找到各个前景区域和各个背景区域对应的各第一子特征向量,分别对各个前景区域和各个背景区域对应的各第一子特征向量进行第一插值处理,得到第一固定大小的各第二子特征向量;根据目标检测模块检测出的各目标区域在图像中的对应区域,在第一特征向量中查找到各目标区域对应的各第一子特征向量,将所有目标区域对应的各第一子特征向量拼接成第三特征向量;
目标检测模块,用于根据各第二子特征向量进行目标检测,得到待识别图像中的各目标区域;
自适应全局平均池化处理模块,用于对第一特征向量进行自适应全局平均池化处理,得到第四特征向量;其中,第四特征向量的维度与第三特征向量相同;
特征融合模块,用于将第四特征向量与第三特征向量进行叠加,得到第五特征向量;
类别识别模块,用于根据第五特征向量进行目标类别识别,得到待识别图像中包含的目标类别。
一种目标类别识别神经网络训练装置,该装置包括:
图像采集模块,用于采集训练图像集,在每帧训练图像中标注各个标注目标区域和对应的标注目标类别;
特征提取模块,用于从训练图像集中依次取出一帧训练图像输入到神经网络的骨干网络进行特征提取,得到输入的训练图像的第一特征向量;
区域建议模块,用于将第一特征向量输入到所述神经网络的区域建议网络,以检测出输入的训练图像中的各个前景区域和各个背景区域;
感兴趣区域对齐模块,用于根据各个前景区域和各个背景区域在输入的训练图像中的对应区域,在第一特征向量中查找到各个前景区域和各个背景区域对应的各第一子特征向量,分别对各个前景区域和各个背景区域对应的各第一子特征向量进行第一插值处理,得到第一固定大小的各第二子特征向量;根据目标检测模块得到的各目标区域在输入的训练图像中的对应区域,在第一特征向量中查找到各目标区域对应的各第一子特征向量,将所有目标区域对应的各第一子特征向量拼接成第三特征向量;
目标检测模块,用于将所述各第二子特征向量输入到所述神经网络的目标检测网络,得到输入的训练图像中的各检测目标区域及各检测目标区域的检测目标类别;
自适应全局平均池化处理模块,用于对第一特征向量进行自适应全局平均池化处理,得到第四特征向量;其中,第四特征向量的维度与第三特征向量相同;
特征融合模块,用于将第四特征向量与第三特征向量进行叠加,得到第五特征向量;
类别识别模块,用于将第五特征向量输入到所述神经网络的目标分类网络,得到输入的训练图像中包含的各检测目标类别;
调整模块,用于根据目标检测模块得到的各检测目标区域及各检测目标区域的检测目标类别与在输入的训练图像中标注的各标注目标区域和对应的标注目标类别,采用预设的第一损失函数进行计算,得到第一预测偏差;根据类别识别模块得到的输入的训练图像中包含的各检测目标类别与在输入的训练图像中标注的各标注目标区域的标注目标类别,采用预设的第二损失函数进行计算,得到第二预测偏差;对第一预测偏差和第二预测偏差进行加权求和,根据该加权和调整所述神经网络的参数;当所述神经网络收敛时,将此时的神经网络作为最终使用的神经网络。
一种非瞬时计算机可读存储介质,所述非瞬时计算机可读存储介质存储指令,所述指令在由处理器执行时使得所述处理器执行如上任一项所述的目标类别识别方法的步骤。
本发明实施例中,通过将图像中的各目标区域对应的局部特征(第三特征向量)和从图像中提取的全局特征(第四特征向量)叠加融合后,进行目标类别识别,从而实现了:既能区分类间混淆度大的类别,又能区分类间距离大的类别,从而细化了目标类别识别的类别范围,并提高了目标类别识别的识别精度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的目标类别识别方法流程图;
图2为本发明另一实施例提供的目标类别识别方法流程图;
图3为本发明实施例提供的对用于进行目标类别识别的神经网络进行训练的方法流程图;
图4为采集的一原始训练图像:管道图像的示意图;
图5为对图4中的缺陷进行标注的示意图;
图6为本发明实施例提供的目标类别识别装置的结构示意图;
图7为本发明实施例提供的目标类别识别神经网络训练装置的结构示意图;
图8为本发明实施例提供的一种电子设备的示例性结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。
下面以具体实施例对本发明的技术方案进行详细说明。下面几个具体实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图1为本发明一实施例提供的目标类别识别方法流程图,其具体步骤如下:
步骤101:对待识别图像进行特征提取,得到第一特征向量。
步骤102:根据第一特征向量检测该图像中的各个前景区域和各个背景区域。
其中,一个前景区域对应目标所在的一个连通区域,剩余的每个连通区域分别对应一个背景区域。例如:若待识别图像为管道图像,待识别的目标类别为管道缺陷的类别,则管道图像中缺陷所在的每个连通区域分别为一个前景区域。
步骤103:根据各个前景区域和各个背景区域在该图像中的对应区域,在第一特征向量中查找到各个前景区域和各个背景区域对应的各第一子特征向量。
第一特征向量中的每个特征值分别对应待识别图像的一个区域,即每个特征值分别用于描述待识别图像中的一个区域。因此,对于每个前景区域或背景区域来说,根据其在待识别图像中的位置,就可在第一特征向量中查找到其对应的那部分特征值,由于该部分特征值实际上属于第一特征向量的子特征向量,从而将该部分特征值称为其对应的第一子特征向量。
步骤104:分别对各个前景区域和各个背景区域对应的各第一子特征向量进行第一插值处理,得到第一固定大小的各第二子特征向量。
步骤105:根据该各第二子特征向量进行目标检测,得到该图像中的各目标区域。
步骤106:根据该各目标区域在该图像中的对应区域,在第一特征向量中查找到各目标区域对应的各第一子特征向量,将所有目标区域对应的各第一子特征向量拼接成第三特征向量。
对于每个目标区域,根据该目标区域在待识别图像中的位置,就可在第一特征向量中查找到该目标区域对应的那部分特征值,该部分特征值称为该目标区域对应的第一子特征向量。
步骤107:对第一特征向量进行自适应全局平均池化处理,得到第四特征向量;其中,第四特征向量的维度与第三特征向量相同。
步骤108:将第四特征向量与第三特征向量进行叠加,得到第五特征向量。
步骤109:根据第五特征向量进行目标分类识别,得到该图像中包含的目标类别。
上述实施例中,通过将图像中的各目标区域对应的局部特征(第三特征向量)和从图像中提取的全局特征(第四特征向量)叠加融合后,进行目标类别识别,从而实现了:既能区分类间混淆度大的类别,又能区分类间距离大的类别,从而细化了目标类别识别的类别范围,并提高了目标类别识别的识别精度。
一可选实施例中,步骤101、102、105和109可通过神经网络实现,该神经网络主要由骨干网络、区域建议网络(Regions Proposal Networks,RPN)、目标检测网络和目标分类网络。
图2为本发明另一实施例提供的目标类别识别方法流程图,其具体步骤如下:
步骤201:将待识别图像输入到神经网络的骨干网络进行特征提取,得到第一特征向量。
骨干网络可采用ResNet50结构。
步骤202:将第一特征向量输入到该神经网络的区域建议网络(RPN)中来检测该图像中的各个前景区域和各个背景区域。
步骤203:根据各个前景区域和各个背景区域在该图像中的对应区域,在第一特征向量中查找到各个前景区域和各个背景区域对应的各第一子特征向量。
步骤204:分别对各个前景区域和各个背景区域对应的各第一子特征向量进行第一插值处理,得到第一固定大小的各第二子特征向量。
步骤205:将各第二子特征向量输入到神经网络的目标检测网络进行目标检测,得到该图像中的各目标区域。
步骤206:根据该各目标区域在该图像中的对应区域,在第一特征向量中查找到各目标区域对应的各第一子特征向量,将所有目标区域对应的各第一子特征向量拼接成第三特征向量。
步骤207:对第一特征向量进行自适应全局平均池化处理,得到第四特征向量;其中,第四特征向量的维度与第三特征向量相同。
步骤208:将第四特征向量与第三特征向量进行叠加,得到第五特征向量。
步骤209:将第五特征向量输入到该神经网络的目标分类网络进行目标分类识别,得到该图像中包含的目标类别。
一可选实施例中,步骤106之后、步骤108之前,或者步骤206之后、步骤208之前,进一步包括:对第三特征向量进行自注意力机制增强处理,得到第三特征向量中每个特征值的自注意力系数,将第三特征向量中的每个特征值分别与其自注意力系数相乘,得到第三特征向量的自注意力机制增强特征向量;
其中,步骤108或步骤208中,将第四特征向量与第三特征向量进行叠加,包括:将第四特征向量与第三特征向量的自注意力机制增强特征向量进行叠加。
其中,每个特征值的自注意力系数的取值范围为【0,1】,自注意力机制增强处理为已有算法,在此不作赘述。
上述实施例中,通过计算第三特征向量中每个特征值的自注意力系数,可以对图像中的目标区域对应的特征值进行增强,从而提高最终的目标类别识别的准确度。
图3为本发明实施例提供的对用于进行目标类别识别的神经网络进行训练的方法流程图,其具体步骤如下:
步骤301:采集训练图像集,在每帧训练图像中标注各个目标区域及对应的目标类别。
为了与后续步骤306中的检测目标区域进行区分,将本步骤301中标注的各个目标区域称为标注目标区域;为了与后续步骤306和311中的检测目标类别进行区分,将本步骤301中标注的目标类别称为标注目标类别。
这里,标注目标区域通常采用一个矩形框表示,本质上是标注目标区域的位置,通常采用矩形框的左上顶点或中心点描述目标区域的位置。
例如:当要识别管道缺陷类别时,采集管道图像,形成训练图像集。
图4为采集的一原始训练图像:管道图像的示意图,其中的灰色圆环为缺陷(这里要识别的是管道缺陷类别)。
图5为对图4中的缺陷进行标注的示意图,其中,虚线矩形框为缺陷框(即包含一缺陷的最小矩形框),本质上标注的是缺陷的位置。
图5中的黑色圆环为缺陷对应区域的mask(掩膜)(即由缺陷上的各个像素点构成的最小连通区域),根据该mask可得知缺陷的轮廓,则标注该mask即标注了缺陷的轮廓。
步骤302:从训练图像集中依次取出一帧训练图像输入到神经网络的骨干网络进行特征提取,得到输入的训练图像的第一特征向量。
步骤303:将第一特征向量输入到神经网络的区域建议网络(RPN),以检测出输入的训练图像中的各个前景区域和各个背景区域。
每个前景区域和背景区域用一个矩形框表示。
步骤304:根据各个前景区域和各个背景区域在输入的训练图像中的对应区域,在第一特征向量中查找到各个前景区域和各个背景区域对应的各第一子特征向量。
第一特征向量中的每个特征值分别对应输入的训练图像中的一个区域(该区域由多个像素点组成),根据各个前景框或背景框在训练图像中位于哪个区域(即前景框或背景框对应的矩形能够映射到的训练图像的区域),就可以在第一特征向量中找到对应的子特征向量。
步骤305:分别对各个前景区域和各个背景区域对应的各第一子特征向量进行第一插值处理,得到第一固定大小的各第二子特征向量。
第一插值处理可以是双向线性插值处理,具体采用哪种插值算法,本实施例不作限定。
第一固定大小可根据需要设定,本实施例对此不作限制,例如设定为7*7。
步骤306:将各第二子特征向量输入到神经网络的目标检测网络,得到输入的训练图像中的各检测目标区域及各检测目标区域的检测目标类别。
检测目标区域即,神经网络的目标检测网络在输入的训练图像中检测到的目标区域。
这里的检测目标区域采用检测目标框表示,即包含检测到的目标的最小矩形框,通常采用矩形框的左上顶点或中心点描述检测目标区域的位置。
步骤307:根据各检测目标区域及各检测目标区域的检测目标类别与在输入的训练图像中标注的各个标注目标区域和标注目标类别,采用预设的第一损失函数进行计算,得到第一预测偏差。
这里,由于目标检测网络针对每个目标输出了两个参数:检测目标区域(检测目标框)和检测目标类别,因此分别对这两个参数进行损失函数计算,这两个参数采用的损失函数可以相同,也可以不同,例如:对检测目标区域采用smooth_l1_loss(平滑L1损失)函数,对检测目标类别采用cross entropy(交叉熵)函数,最后将检测目标区域对应的预测偏差和检测目标类别对应的预测偏差相加,得到第一预测偏差。
步骤308:根据各检测目标区域在输入的训练图像中的对应区域,在第一特征向量中查找到各检测目标区域对应的各第一子特征向量,将所有检测目标区域对应的各第一子特征向量拼接成第三特征向量。
步骤309:对第一特征向量进行自适应全局平均池化处理,得到第四特征向量;其中,第四特征向量的维度与第三特征向量相同。
自适应全局平均池化处理为已有成熟算法,在此不作赘述。
步骤310:将第四特征向量与第三特征向量进行叠加,得到第五特征向量。
步骤311:将第五特征向量输入到神经网络的目标分类网络,得到输入的训练图像中包含的检测目标类别。
步骤312:根据目标分类网络得到的检测目标类别与在输入的训练图像中标注的各个标注目标类别,采用预设的第二损失函数进行计算,得到第二预测偏差。
第二损失函数可采用cross entropy函数。
步骤313:对第一预测偏差和第二预测偏差进行加权求和,根据该加权和调整所述神经网络的参数。
例如:可根据该加权和采用SGD(Stochastic Gradient Descent,随机梯度下降)算法调整所述神经网络的参数。
步骤314:当神经网络收敛时,将此时的神经网络作为最终使用的神经网络。
一可选实施例中,步骤308之后、步骤310之前,进一步包括:对第三特征向量进行自注意力机制增强处理,得到第三特征向量中每个特征值的自注意力系数,将第三特征向量中的每个特征值分别与其自注意力系数相乘,得到第三特征向量的自注意力机制增强特征向量;
且,步骤310中,将第四特征向量与第三特征向量进行叠加,包括:
将第四特征向量与第三特征向量的自注意力机制增强特征向量进行叠加。
其中,每个特征值的自注意力系数的取值范围为【0,1】,自注意力机制增强处理为已有算法,在此不作赘述。
一可选实施例中,在步骤301中,进一步在每帧训练图像中标注各标注目标的轮廓和类别,且,在步骤308中的“在第一特征向量中查找到各检测目标区域对应的各第一子特征向量”之后、步骤313中的“对第一预测偏差和第二预测偏差进行加权求和”之前,进一步包括:
分别对各第一子特征向量进行第二插值处理,得到第二固定大小的各第六子特征向量;将各第六子特征向量输入到神经网络的语义分割网络,得到输入的训练图像中的各检测目标的轮廓和类别;根据语义分割网络得到的输入的训练图像中的各检测目标的轮廓和类别与在输入的训练图像中标注的各标注目标的轮廓和类别,采用预设的第三损失函数进行计算,得到第三预测偏差;这里,第三损失函数可以是cross entropy函数。第二插值处理可以是双向线性插值处理,具体采用哪种插值算法,本实施例不作限定。第二固定大小可根据需要设定,本实施例对此不作限制,例如设定为13*13。其中,标注目标的轮廓为目标的真实轮廓。
且,步骤313中,对第一预测偏差和第二预测偏差进行加权求和,包括:对第一预测偏差、第二预测偏差和第三预测偏差进行加权求和。
上述实施例中,通过增加语义分割网络,使得神经网络预测的特征更加偏好目标位置信息,能够起到准确抑制背景信息增强目标信息的作用,为后续过程提供精确的先验信息。
在实际应用中,可将采集的部分图像放入验证图像集,当神经网络收敛时,采用验证图像集对收敛的神经网络进行验证,若验证效果未达到要求,则通过改变神经网络中的各个子网络的结构等,对神经网络重新进行训练,直到验证效果达到要求。通常,验证图像集的大小是训练图像集的1/4。
本发明实施例中的待识别图像可为管道图像,对应的目标类别为管道缺陷类别。
本发明实施例中的管道缺陷类别可包括如下之一或任意组合:暗接、变形、错接、残墙、穿入、腐蚀、浮渣、结垢、起伏、树根、脱节、脱落、障碍物、错口、沉积、渗漏、破裂。当然,本发明实施例中的管道缺陷类别不限于此,对于其他的管道缺陷或者类似于管道的缺陷分类都覆盖在本权利要求的保护范围之内。
图6为本发明实施例提供的目标类别识别装置的结构示意图,该装置主要包括:特征提取模块61、区域建议模块62、感兴趣区域对齐模块63、目标检测模块64、自适应全局平均池化处理模块65、特征融合模块66和类别识别模块67,其中:
特征提取模块61,用于对待识别图像进行特征提取,得到第一特征向量。
区域建议模块62,用于根据特征提取模块61得到的第一特征向量检测待识别图像中的各个前景区域和各个背景区域。
感兴趣区域对齐模块63,用于根据区域建议模块62检测出的图像中的各个前景区域和各个背景区域在待识别图像中的对应区域,在特征提取模块61得到的第一特征向量中查找到各个前景区域和各个背景区域对应的各第一子特征向量;分别对各第一子特征向量进行第一插值处理,得到第一固定大小的各第二子特征向量。根据目标检测模块64检测出的各目标区域在图像中的对应区域,在特征提取模块61得到的第一特征向量中查找到各目标区域对应的各第一子特征向量,将所有目标区域对应的各第一子特征向量拼接成第三特征向量。
目标检测模块64,用于根据感兴趣区域对齐模块63得到的各第二子特征向量进行目标检测,得到待识别图像中的各目标区域。
自适应全局平均池化处理模块65,用于对特征提取模块61得到的第一特征向量进行自适应全局平均池化处理,得到第四特征向量;其中,第四特征向量的维度与第三特征向量相同。
特征融合模块66,用于将自适应全局平均池化处理模块65得到的第四特征向量与感兴趣区域对齐模块63得到的第三特征向量进行叠加,得到第五特征向量。
类别识别模块67,用于根据特征融合模块66得到的第五特征向量进行目标类别识别,得到待识别图像中包含的目标类别。
图7为本发明实施例提供的目标类别识别神经网络训练装置的结构示意图,该装置主要包括:图像采集模块71、特征提取模块72、区域建议模块73、感兴趣区域对齐模块74、目标检测模块75、自适应全局平均池化处理模块76、特征融合模块77、类别识别模块78和调整模块79,其中:
图像采集模块71,用于采集训练图像集,在每帧训练图像中标注各个标注目标区域和对应的标注目标类别。
特征提取模块72,用于从训练图像集中依次取出一帧训练图像输入到神经网络的骨干网络进行特征提取,得到输入的训练图像的第一特征向量。
区域建议模块73,用于将第一特征向量输入到神经网络的区域建议网络,以检测出输入的训练图像中的各个前景区域和各个背景区域。
感兴趣区域对齐模块74,用于根据各个前景区域和各个背景区域在输入的训练图像中的对应区域,在第一特征向量中查找到各个前景区域和各个背景区域对应的各第一子特征向量,分别对各个前景区域和各个背景区域对应的各第一子特征向量进行第一插值处理,得到第一固定大小的各第二子特征向量;根据目标检测模块75得到的各目标区域在输入的训练图像中的对应区域,在第一特征向量中查找到各目标区域对应的各第一子特征向量,将所有目标区域对应的各第一子特征向量拼接成第三特征向量。
目标检测模块75,用于将各第二子特征向量输入到神经网络的目标检测网络,得到输入的训练图像中的各检测目标区域及各检测目标区域的检测目标类别。
自适应全局平均池化处理模块76,用于对第一特征向量进行自适应全局平均池化处理,得到第四特征向量;其中,第四特征向量的维度与第三特征向量相同。
特征融合模块77,用于将第四特征向量与第三特征向量进行叠加,得到第五特征向量。
类别识别模块78,用于将第五特征向量输入到神经网络的目标分类网络,得到输入的训练图像中包含的各检测目标类别。
调整模块79,用于根据目标检测模块75得到的各检测目标区域及各检测目标区域的检测目标类别与在输入的训练图像中标注的各标注目标区域和对应的标注目标类别,采用预设的第一损失函数进行计算,得到第一预测偏差;根据类别识别模块78得到的输入的训练图像中包含的各检测目标类别与在输入的训练图像中标注的各标注目标区域的标注目标类别,采用预设的第二损失函数进行计算,得到第二预测偏差;对第一预测偏差和第二预测偏差进行加权求和,根据该加权和调整神经网络的参数;当神经网络收敛时,将此时的神经网络作为最终使用的神经网络。
本发明实施例还提供一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行时实现如上任一实施例所述的目标类别识别方法的步骤。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储指令,所述指令在由处理器执行时可执行如上所述目标类别识别方法中的步骤。实际应用中,所述的计算机可读介质可以是上述实施例各设备/装置/***所包含的,也可以是单独存在,而未装配入该设备/装置/***中。其中,在计算机可读存储介质中存储指令,其存储的指令在由处理器执行时可执行如上目标类别识别方法中的步骤。
根据本申请公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件,或者上述的任意合适的组合,但不用于限制本申请保护的范围。在本申请公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
如图8所示,本发明实施例还提供一种电子设备。如图8所示,其示出了本发明实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或一个以上处理核心的处理器81、一个或一个以上计算机可读存储介质的存储器82以及存储在存储器上并可在处理器上运行的计算机程序。在执行所述存储器82的程序时,可以实现上述目标类别识别方法。
具体的,实际应用中,该电子设备还可以包括电源83、输入输出单元84等部件。本领域技术人员可以理解,图8中示出的电子设备的结构并不构成对该电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器81是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器82内的软件程序和/或模块,以及调用存储在存储器82内的数据,执行服务器的各种功能和处理数据,从而对该电子设备进行整体监控。
存储器82可用于存储软件程序以及模块,即上述计算机可读存储介质。处理器81通过运行存储在存储器82的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器82可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器82可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器82还可以包括存储器控制器,以提供处理器81对存储器82的访问。
该电子设备还包括给各个部件供电的电源83,可以通过电源管理***与处理器81逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源83还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入输出单元84,该输入单元输出84可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。该输入单元输出84还可以用于显示由用户输入的信息或提供给用户的信息以及各种图像用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。
本申请附图中的流程图和框图,示出了按照本申请公开的各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同附图中所标准的顺序发生。例如,两个连接地表示的方框实际上可以基本并行地执行,它们有时也可以按照相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或者流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本申请中。特别地,在不脱离本申请精神和教导的情况下,本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,所有这些组合和/或结合均落入本申请公开的范围。
本文中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思路,并不用于限制本申请。对于本领域的技术人员来说,可以依据本发明的思路、精神和原则,在具体实施方式及应用范围上进行改变,其所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (10)

1.一种目标类别识别方法,其特征在于,该方法包括:
对待识别图像进行特征提取,得到第一特征向量;
根据第一特征向量检测所述图像中的各个前景区域和各个背景区域;
根据各个前景区域和各个背景区域在所述图像中的对应区域,在第一特征向量中查找到各个前景区域和各个背景区域对应的各第一子特征向量;
分别对所述各个前景区域和各个背景区域对应的各第一子特征向量进行第一插值处理,得到第一固定大小的各第二子特征向量;
根据所述各第二子特征向量进行目标检测,得到所述图像中的各目标区域;
根据所述各目标区域在所述图像中的对应区域,在第一特征向量中查找到各目标区域对应的各第一子特征向量,将所有目标区域对应的各第一子特征向量拼接成第三特征向量;
对第一特征向量进行自适应全局平均池化处理,得到第四特征向量;其中,第四特征向量的维度与第三特征向量相同;
将第四特征向量与第三特征向量进行叠加,得到第五特征向量;
根据第五特征向量进行目标类别识别,得到所述图像中包含的目标类别。
2.根据权利要求1所述的方法,其特征在于,所述对待识别图像进行特征提取,得到第一特征向量,包括:
将待识别图像输入到神经网络的骨干网络进行特征提取;
根据第一特征向量检测所述图像中的各个前景区域和各个背景区域,包括:
将第一特征向量输入到所述神经网络的区域建议网络中来检测所述图像中的各个前景区域和各个背景区域;
所述根据所述各第二子特征向量进行目标检测,包括:
将所述各第二子特征向量输入到所述神经网络的目标检测网络进行目标检测;
所述根据第五特征向量进行目标分类识别,包括:
将第五特征向量输入到所述神经网络的目标分类网络进行目标类别识别。
3.根据权利要求2所述的方法,其特征在于,所述神经网络的骨干网络、区域建议网络、目标检测网络和目标分类网络通过如下训练过程得到:
采集训练图像集,在每帧训练图像中标注各个标注目标区域和对应的标注目标类别;
从训练图像集中依次取出一帧训练图像输入到所述神经网络的骨干网络进行特征提取,得到输入的训练图像的第一特征向量;
将第一特征向量输入到所述神经网络的区域建议网络,以检测出输入的训练图像中的各个前景区域和各个背景区域;
根据各个前景区域和各个背景区域在输入的训练图像中的对应区域,在第一特征向量中查找到各个前景区域和各个背景区域对应的各第一子特征向量;
分别对所述各个前景区域和各个背景区域对应的各第一子特征向量进行第一插值处理,得到第一固定大小的各第二子特征向量;
将所述各第二子特征向量输入到所述神经网络的目标检测网络,得到输入的训练图像中的各检测目标区域及各检测目标区域的检测目标类别;
根据所述目标检测网络得到的各检测目标区域及各检测目标区域的检测目标类别与在输入的训练图像中标注的各个标注目标区域和对应的标注目标类别,采用预设的第一损失函数进行计算,得到第一预测偏差;
根据各检测目标区域在输入的训练图像中的对应区域,在第一特征向量中查找到各检测目标区域对应的各第一子特征向量,将所有检测目标区域对应的各第一子特征向量拼接成第三特征向量;
对第一特征向量进行自适应全局平均池化处理,得到第四特征向量;其中,第四特征向量的维度与第三特征向量相同;
将第四特征向量与第三特征向量进行叠加,得到第五特征向量;
将第五特征向量输入到所述神经网络的目标分类网络,得到输入的训练图像中包含的各检测目标类别;
根据所述目标分类网络得到的输入的训练图像中包含的各检测目标类别与在输入的训练图像中标注的各标注目标区域的标注目标类别,采用预设的第二损失函数进行计算,得到第二预测偏差;
对第一预测偏差和第二预测偏差进行加权求和,根据该加权和调整所述神经网络的参数;
当所述神经网络收敛时,将此时的神经网络作为最终使用的神经网络。
4.根据权利要求1所述的方法,其特征在于,所述将所有目标区域对应的各第一子特征向量拼接成第三特征向量之后,将第四特征向量与第三特征向量进行叠加之前,进一步包括:
对第三特征向量进行自注意力机制增强处理,得到第三特征向量中每个特征值的自注意力系数,将第三特征向量中的每个特征值分别与其自注意力系数相乘,得到第三特征向量的自注意力机制增强特征向量;
所述将第四特征向量与第三特征向量进行叠加,包括:
将第四特征向量与第三特征向量的自注意力机制增强特征向量进行叠加。
5.根据权利要求3所述的方法,其特征在于,所述在每帧训练图像中标注各个标注目标区域和对应的标注目标类别,进一步包括:
在每帧训练图像中标注各个标注目标的轮廓;
所述在第一特征向量中查找到各个前景区域和各个背景区域对应的各第一子特征向量之后、所述对第一预测偏差和第二预测偏差进行加权求和之前,进一步包括:
分别对所述各个前景区域和各个背景区域对应的各第一子特征向量进行第二插值处理,得到第二固定大小的各第六子特征向量;
将所述各第六子特征向量输入到所述神经网络的语义分割网络,得到输入的训练图像中的各检测目标的轮廓和检测目标类别;
根据所述语义分割网络得到的输入的训练图像中的各检测目标的轮廓和检测目标类别与在输入的训练图像中标注的各标注目标的轮廓和标注目标类别,采用预设的第三损失函数进行计算,得到第三预测偏差;
所述对第一预测偏差和第二预测偏差进行加权求和,包括:
对第一预测偏差、第二预测偏差和第三预测偏差进行加权求和。
6.根据权利要求1所述的方法,其特征在于,所述待识别图像为管道图像,所述目标类别为管道缺陷类别。
7.根据权利要求6所述的方法,其特征在于,所述管道缺陷类别包括如下之一或任意组合:暗接、变形、错接、残墙、穿入、腐蚀、浮渣、结垢、起伏、树根、脱节、脱落、障碍物、错口、沉积、渗漏、破裂。
8.一种目标类别识别装置,其特征在于,该装置包括:
特征提取模块,用于对待识别图像进行特征提取,得到第一特征向量;
区域建议模块,用于根据第一特征向量检测待识别图像中的各个前景区域和各个背景区域;
感兴趣区域对齐模块,用于根据各个前景区域和各个背景区域在待识别图像中的对应区域,在第一特征向量中查找到各个前景区域和各个背景区域对应的各第一子特征向量,分别对各个前景区域和各个背景区域对应的各第一子特征向量进行第一插值处理,得到第一固定大小的各第二子特征向量;根据目标检测模块检测出的各目标区域在图像中的对应区域,在第一特征向量中查找到各目标区域对应的各第一子特征向量,将所有目标区域对应的各第一子特征向量拼接成第三特征向量;
目标检测模块,用于根据各第二子特征向量进行目标检测,得到待识别图像中的各目标区域;
自适应全局平均池化处理模块,用于对第一特征向量进行自适应全局平均池化处理,得到第四特征向量;其中,第四特征向量的维度与第三特征向量相同;
特征融合模块,用于将第四特征向量与第三特征向量进行叠加,得到第五特征向量;
类别识别模块,用于根据第五特征向量进行目标类别识别,得到待识别图像中包含的目标类别。
9.一种目标类别识别神经网络训练装置,其特征在于,该装置包括:
图像采集模块,用于采集训练图像集,在每帧训练图像中标注各个标注目标区域和对应的标注目标类别;
特征提取模块,用于从训练图像集中依次取出一帧训练图像输入到神经网络的骨干网络进行特征提取,得到输入的训练图像的第一特征向量;
区域建议模块,用于将第一特征向量输入到所述神经网络的区域建议网络,以检测出输入的训练图像中的各个前景区域和各个背景区域;
感兴趣区域对齐模块,用于根据各个前景区域和各个背景区域在输入的训练图像中的对应区域,在第一特征向量中查找到各个前景区域和各个背景区域对应的各第一子特征向量,分别对各个前景区域和各个背景区域对应的各第一子特征向量进行第一插值处理,得到第一固定大小的各第二子特征向量;根据目标检测模块得到的各目标区域在输入的训练图像中的对应区域,在第一特征向量中查找到各目标区域对应的各第一子特征向量,将所有目标区域对应的各第一子特征向量拼接成第三特征向量;
目标检测模块,用于将所述各第二子特征向量输入到所述神经网络的目标检测网络,得到输入的训练图像中的各检测目标区域及各检测目标区域的检测目标类别;
自适应全局平均池化处理模块,用于对第一特征向量进行自适应全局平均池化处理,得到第四特征向量;其中,第四特征向量的维度与第三特征向量相同;
特征融合模块,用于将第四特征向量与第三特征向量进行叠加,得到第五特征向量;
类别识别模块,用于将第五特征向量输入到所述神经网络的目标分类网络,得到输入的训练图像中包含的各检测目标类别;
调整模块,用于根据目标检测模块得到的各检测目标区域及各检测目标区域的检测目标类别与在输入的训练图像中标注的各标注目标区域和对应的标注目标类别,采用预设的第一损失函数进行计算,得到第一预测偏差;根据类别识别模块得到的输入的训练图像中包含的各检测目标类别与在输入的训练图像中标注的各标注目标区域的标注目标类别,采用预设的第二损失函数进行计算,得到第二预测偏差;对第一预测偏差和第二预测偏差进行加权求和,根据该加权和调整所述神经网络的参数;当所述神经网络收敛时,将此时的神经网络作为最终使用的神经网络。
10.一种非瞬时计算机可读存储介质,所述非瞬时计算机可读存储介质存储指令,其特征在于,所述指令在由处理器执行时使得所述处理器执行如权利要求1至7中任一项所述的目标类别识别方法的步骤。
CN202111652406.4A 2021-12-31 2021-12-31 目标类别识别方法、装置及可读存储介质 Active CN114004963B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111652406.4A CN114004963B (zh) 2021-12-31 2021-12-31 目标类别识别方法、装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111652406.4A CN114004963B (zh) 2021-12-31 2021-12-31 目标类别识别方法、装置及可读存储介质

Publications (2)

Publication Number Publication Date
CN114004963A true CN114004963A (zh) 2022-02-01
CN114004963B CN114004963B (zh) 2022-03-29

Family

ID=79932322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111652406.4A Active CN114004963B (zh) 2021-12-31 2021-12-31 目标类别识别方法、装置及可读存储介质

Country Status (1)

Country Link
CN (1) CN114004963B (zh)

Citations (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897730A (zh) * 2016-12-30 2017-06-27 陕西师范大学 基于融合类别信息与局部保持投影的sar目标型号识别方法
CN108268814A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于全局和局部特征模糊融合的人脸识别方法及装置
CN108509891A (zh) * 2018-03-27 2018-09-07 斑马网络技术有限公司 图像标注方法、装置、存储介质及电子设备
CN109165644A (zh) * 2018-07-13 2019-01-08 北京市商汤科技开发有限公司 目标检测方法和装置、电子设备、存储介质、程序产品
CN109784386A (zh) * 2018-12-29 2019-05-21 天津大学 一种用语义分割辅助物体检测的方法
CN109886933A (zh) * 2019-01-25 2019-06-14 腾讯科技(深圳)有限公司 一种医学图像识别方法、装置和存储介质
CN110516670A (zh) * 2019-08-26 2019-11-29 广西师范大学 基于场景级与区域建议自注意模块的目标检测方法
CN110580487A (zh) * 2018-06-08 2019-12-17 Oppo广东移动通信有限公司 神经网络的训练方法、构建方法、图像处理方法和装置
US10636148B1 (en) * 2016-05-20 2020-04-28 Ccc Information Services Inc. Image processing system to detect contours of an object in a target object image
CN111091140A (zh) * 2019-11-20 2020-05-01 南京旷云科技有限公司 目标分类方法、装置及可读存储介质
CN111640125A (zh) * 2020-05-29 2020-09-08 广西大学 基于Mask R-CNN的航拍图建筑物检测和分割方法及装置
CN111833306A (zh) * 2020-06-12 2020-10-27 北京百度网讯科技有限公司 缺陷检测方法和用于缺陷检测的模型训练方法
CN111881849A (zh) * 2020-07-30 2020-11-03 Oppo广东移动通信有限公司 图像场景检测方法、装置、电子设备及存储介质
US20200401812A1 (en) * 2018-07-13 2020-12-24 Tencent Technology (Shenzhen) Company Limited Method and system for detecting and recognizing target in real-time video, storage medium, and device
CN112149693A (zh) * 2020-10-16 2020-12-29 上海智臻智能网络科技股份有限公司 轮廓识别模型的训练方法和目标对象的检测方法
CN112257758A (zh) * 2020-09-27 2021-01-22 浙江大华技术股份有限公司 细粒度图像识别方法、卷积神经网络及其训练方法
WO2021056705A1 (zh) * 2019-09-23 2021-04-01 平安科技(深圳)有限公司 基于语义分割网络的人体外表损伤检测方法及相关设备
CN112699855A (zh) * 2021-03-23 2021-04-23 腾讯科技(深圳)有限公司 基于人工智能的图像场景识别方法、装置及电子设备
CN112990432A (zh) * 2021-03-04 2021-06-18 北京金山云网络技术有限公司 目标识别模型训练方法、装置及电子设备
CN113269257A (zh) * 2021-05-27 2021-08-17 中山大学孙逸仙纪念医院 一种图像分类方法、装置、终端设备及存储介质
CN113705293A (zh) * 2021-02-26 2021-11-26 腾讯科技(深圳)有限公司 图像场景的识别方法、装置、设备及可读存储介质
CN113762049A (zh) * 2021-05-11 2021-12-07 腾讯科技(深圳)有限公司 内容识别方法、装置、存储介质和终端设备
CN113780270A (zh) * 2021-03-23 2021-12-10 京东鲲鹏(江苏)科技有限公司 目标检测方法和装置

Patent Citations (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10636148B1 (en) * 2016-05-20 2020-04-28 Ccc Information Services Inc. Image processing system to detect contours of an object in a target object image
CN108268814A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于全局和局部特征模糊融合的人脸识别方法及装置
CN106897730A (zh) * 2016-12-30 2017-06-27 陕西师范大学 基于融合类别信息与局部保持投影的sar目标型号识别方法
CN108509891A (zh) * 2018-03-27 2018-09-07 斑马网络技术有限公司 图像标注方法、装置、存储介质及电子设备
CN110580487A (zh) * 2018-06-08 2019-12-17 Oppo广东移动通信有限公司 神经网络的训练方法、构建方法、图像处理方法和装置
US20200401812A1 (en) * 2018-07-13 2020-12-24 Tencent Technology (Shenzhen) Company Limited Method and system for detecting and recognizing target in real-time video, storage medium, and device
CN109165644A (zh) * 2018-07-13 2019-01-08 北京市商汤科技开发有限公司 目标检测方法和装置、电子设备、存储介质、程序产品
CN109784386A (zh) * 2018-12-29 2019-05-21 天津大学 一种用语义分割辅助物体检测的方法
CN109886933A (zh) * 2019-01-25 2019-06-14 腾讯科技(深圳)有限公司 一种医学图像识别方法、装置和存储介质
CN110516670A (zh) * 2019-08-26 2019-11-29 广西师范大学 基于场景级与区域建议自注意模块的目标检测方法
WO2021056705A1 (zh) * 2019-09-23 2021-04-01 平安科技(深圳)有限公司 基于语义分割网络的人体外表损伤检测方法及相关设备
CN111091140A (zh) * 2019-11-20 2020-05-01 南京旷云科技有限公司 目标分类方法、装置及可读存储介质
CN111640125A (zh) * 2020-05-29 2020-09-08 广西大学 基于Mask R-CNN的航拍图建筑物检测和分割方法及装置
CN111833306A (zh) * 2020-06-12 2020-10-27 北京百度网讯科技有限公司 缺陷检测方法和用于缺陷检测的模型训练方法
CN111881849A (zh) * 2020-07-30 2020-11-03 Oppo广东移动通信有限公司 图像场景检测方法、装置、电子设备及存储介质
CN112257758A (zh) * 2020-09-27 2021-01-22 浙江大华技术股份有限公司 细粒度图像识别方法、卷积神经网络及其训练方法
CN112149693A (zh) * 2020-10-16 2020-12-29 上海智臻智能网络科技股份有限公司 轮廓识别模型的训练方法和目标对象的检测方法
CN113705293A (zh) * 2021-02-26 2021-11-26 腾讯科技(深圳)有限公司 图像场景的识别方法、装置、设备及可读存储介质
CN112990432A (zh) * 2021-03-04 2021-06-18 北京金山云网络技术有限公司 目标识别模型训练方法、装置及电子设备
CN112699855A (zh) * 2021-03-23 2021-04-23 腾讯科技(深圳)有限公司 基于人工智能的图像场景识别方法、装置及电子设备
CN113780270A (zh) * 2021-03-23 2021-12-10 京东鲲鹏(江苏)科技有限公司 目标检测方法和装置
CN113762049A (zh) * 2021-05-11 2021-12-07 腾讯科技(深圳)有限公司 内容识别方法、装置、存储介质和终端设备
CN113269257A (zh) * 2021-05-27 2021-08-17 中山大学孙逸仙纪念医院 一种图像分类方法、装置、终端设备及存储介质

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
BENJAMIN BISCHKE等: ""Global-Local Feature Fusion for Image Classification of Flood Affected Roads from Social Multimedia"", 《MEDIAEVAL》 *
WANG J等: ""Collaborative learning for weakly supervised object detection"", 《ARXIV》 *
XUELING WEI等: ""Medical hyperspectral image classification based on end-to-end fusion deep neural network"", 《IEEE TRANSACTIONS ON INSTRUMENTATION AND MEASUREMENT》 *
YAO H等: ""Coarse-to-Fine Description for Fine-Grained Visual Categorization"", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 *
尹红等: ""选择性卷积特征融合的花卉图像分类"", 《中国图象图形学报》 *
李祥霞等: ""细粒度图像分类的深度学习方法"", 《计算机科学与探索》 *
杨丹等: ""基于注意力机制的细粒度图像分类算法"", 《西南科技大学学报》 *
赵浩如等: ""基于RPN与B-CNN的细粒度图像分类算法研究"", 《计算机应用与软件》 *
郭璠等: ""YOLOv3:基于注意力机制的交通标志检测网络"", 《通信学报》 *

Also Published As

Publication number Publication date
CN114004963B (zh) 2022-03-29

Similar Documents

Publication Publication Date Title
CN112581463B (zh) 图像缺陷的检测方法、装置、电子设备、存储介质及产品
CN109858367B (zh) 工人通过支撑不安全行为的视觉自动化检测方法及***
CN107808133B (zh) 基于无人机巡线的油气管道安全监测方法、***及软件存储器
Biasutti et al. Lu-net: An efficient network for 3d lidar point cloud semantic segmentation based on end-to-end-learned 3d features and u-net
CN110264444B (zh) 基于弱分割的损伤检测方法及装置
CN112446870B (zh) 管道损伤检测方法、装置、设备及存储介质
CN110992349A (zh) 一种基于深度学习的地下管道异常自动化定位与识别方法
CN102682428B (zh) 一种基于方向场的指纹图像计算机自动化修补方法
CN109085174A (zh) 显示屏***电路检测方法、装置、电子设备及存储介质
CN113822880A (zh) 一种基于深度学习的裂缝识别方法
CN111462140B (zh) 一种基于区块拼接的实时图像实例分割方法
Moradi et al. Real-time defect detection in sewer closed circuit television inspection videos
CN113962951B (zh) 检测分割模型的训练方法及装置、目标检测方法及装置
CN112198170A (zh) 一种无缝钢管外表面三维检测中识别水滴的检测方法
Fan et al. Application of YOLOv5 neural network based on improved attention mechanism in recognition of Thangka image defects
Peng et al. Research on oil leakage detection in power plant oil depot pipeline based on improved YOLO v5
Rayhana et al. Automated defect-detection system for water pipelines based on CCTV inspection videos of autonomous robotic platforms
CN114120086A (zh) 路面病害识别、图像处理模型训练方法、装置及电子设备
CN109102486B (zh) 基于机器学习的表面缺陷检测方法及装置
CN114004963B (zh) 目标类别识别方法、装置及可读存储介质
CN113469938A (zh) 基于嵌入式前端处理服务器的管廊视频分析方法及***
CN114004838B (zh) 目标类别识别方法、训练方法及可读存储介质
Chen et al. Deep learning based underground sewer defect classification using a modified RegNet
Chalup et al. A computational approach to fractal analysis of a cityscape's skyline
CN111882545B (zh) 基于双向信息传递及特征融合的织物疵点检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant