CN112766407B - 一种图像识别方法、装置及存储介质 - Google Patents
一种图像识别方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112766407B CN112766407B CN202110127057.8A CN202110127057A CN112766407B CN 112766407 B CN112766407 B CN 112766407B CN 202110127057 A CN202110127057 A CN 202110127057A CN 112766407 B CN112766407 B CN 112766407B
- Authority
- CN
- China
- Prior art keywords
- feature
- image
- features
- query
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000004927 fusion Effects 0.000 claims abstract description 19
- 230000009466 transformation Effects 0.000 claims description 58
- 238000013507 mapping Methods 0.000 claims description 9
- 230000010354 integration Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000010606 normalization Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 239000000969 carrier Substances 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biodiversity & Conservation Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种图像识别方法、装置及存储介质,涉及图像处理领域,以提高图像识别的准确率。该方法中,通过对图像进行特征识别,得到图像的全局特征和多个局部特征,并对获取的所有特征整合成为一个图像特征,根据图像特征进行分类,获取分类结果。这样,通过局部特征与全局特征的有效融合,保证了信息的有效利用,从而使分类结果更加准确。
Description
技术领域
本申请涉及图像处理领域,尤其涉及一种图像识别方法、装置及存储介质。
背景技术
随着科技的日益进步和互联网的普及,互联网视频与图像成为了巨大的信息载体,因此对它们所包含的语义进行快速准确地分析,对互联网监管等领域显得日益重要。
在相关技术中,在对图像进行特征识别时,在获得含有目标语义较高区域的前提下,通过将该区域的局部特征与整张图像的各个局域进行相关性计算。因此,在相关技术中,由于忽略了局部特征与全局特征的关联性,从而导致图像识别的准确率较低。
发明内容
本申请实施例提供一种图像识别方法、装置及存储介质,以提高图像识别的准确率。
根据本申请实施例的第一方面,提供一种图像识别方法,包括:
将待识别图像输入到图像特征识别网络中,得到所述待识别图像的全局特征和至少一个局部特征;
将所述全局特征和所述至少一个局部特征进行整合,得到所述待识别图像的图像特征;
通过识别目标语义的分类器对所述图像特征进行分类,得到所述待识别图像包含所述目标语义的概率信息。
在一种可能的实现方式中,所述图像特征识别网络包括第一子网络和至少一个第二子网络;
所述将待识别图像输入到图像特征识别网络中,得到所述待识别图像的全局特征和至少一个局部特征,包括:
将待识别图像输入到所述第一子网络中进行全局特征识别,得到所述待识别图像的全局特征;其中,所述第一子网络包括多层卷积层;
将所述第一子网络中各卷积层输出的特征信息输入到对应的所述第二子网络中进行局部特征识别,得到所述待识别图像的至少一个局部特征。
在一种可能的实现方式中,所述第二子网络包括多个用于获取包含目标语义特征的变换单元;所述特征信息包括对应卷积层的特征图和特征局部位置;
所述将所述第一子网络中各卷积层输出的特征信息输入到对应的所述第二子网络中进行局部特征识别,得到所述待识别图像的至少一个局部特征,包括:
针对各卷积层,将该卷积层对应的所述特征局部位置进行特征映射,得到查询特征;
对该卷积层对应的所述特征图进行特征识别,得到存储特征集合;
根据所述查询特征、所述存储特征集合以及所述多个变换单元,得到所述待识别图像在该卷积层的局部特征。
在一种可能的实现方式中,所述根据所述查询特征、所述存储特征集合以及所述多个变换单元,得到所述待识别图像在该卷积层的局部特征,包括:
将所述存储特征集合分别输入多个变换单元,以及将所述查询特征输入顺序排列的第一个变换单元中,得到输出结果;
使用所述第一个变换单元的输出结果更新所述查询特征,并将更新后的查询特征输入顺序排列的下一个变换单元中,直到得到顺序排列的最后一个变换单元的输出结果;
将所述最后一个变换单元的输出结果作为所述待识别图像在该卷积层的局部特征。
在一种可能的实现方式中,所述存储特征集合包括第一特征集合和第二特征集合;
所述将所述存储特征集合分别输入多个变换单元,以及将所述查询特征输入顺序排列的第一个变换单元中,得到输出结果,包括:
通过所述查询特征和所述第一特征集合生成注意力权重集合;
通过所述注意力权重集合和所述第二特征集合进行加权求和,得到加权特征;
将所述加权特征与所述查询特征的和进行归一化处理,得到融合特征;
将所述加权特征与所述融合特征的和进行归一化处理,得到输出结果。
在一种可能的实现方式中,所述对该卷积层对应的所述特征图进行特征识别,得到存储特征集合,包括:
选取所述特征图的至少两个感受野;
针对每个感受野,对该感受野对应的特征图进行特征识别,得到该感受野对应的存储特征;
将各感受野对应的存储特征作为所述存储特征集合。
根据本申请实施例的第二方面,提供一种图像识别装置,包括:
识别模块,被配置为执行将待识别图像输入到图像特征识别网络中,得到所述待识别图像的全局特征和至少一个局部特征;
整合模块,被配置为执行将所述全局特征和所述至少一个局部特征进行整合,得到所述待识别图像的图像特征;
分类模块,被配置为执行通过识别目标语义的分类器对所述图像特征进行分类,得到所述待识别图像包含所述目标语义的概率信息。
在一种可能的实现方式中,所述图像特征识别网络包括第一子网络和至少一个第二子网络;识别模块包括:
第一识别单元,被配置为执行将待识别图像输入到所述第一子网络中进行全局特征识别,得到所述待识别图像的全局特征;其中,所述第一子网络包括多层卷积层;
第二识别单元,被配置为执行将所述第一子网络中各卷积层输出的特征信息输入到对应的所述第二子网络中进行局部特征识别,得到所述待识别图像的至少一个局部特征。
在一种可能的实现方式中,所述第二子网络包括多个用于获取包含目标语义特征的变换单元;所述特征信息包括对应卷积层的特征图和特征局部位置;第二识别单元包括:
特征映射子单元,被配置为执行针对各卷积层,将该卷积层对应的所述特征局部位置进行特征映射,得到查询特征;
特征识别子单元,被配置为执行对该卷积层对应的所述特征图进行特征识别,得到存储特征集合;
确定局部特征子单元,被配置为执行根据所述查询特征、所述存储特征集合以及所述多个变换单元,得到所述待识别图像在该卷积层的局部特征。
在一种可能的实现方式中,确定局部特征子单元被配置为执行:
将所述存储特征集合分别输入多个变换单元,以及将所述查询特征输入顺序排列的第一个变换单元中,得到输出结果;
使用所述第一个变换单元的输出结果更新所述查询特征,并将更新后的查询特征输入顺序排列的下一个变换单元中,直到得到顺序排列的最后一个变换单元的输出结果;
将所述最后一个变换单元的输出结果作为所述待识别图像在该卷积层的局部特征。
在一种可能的实现方式中,所述存储特征集合包括第一特征集合和第二特征集合;确定局部特征子单元被配置为执行:
通过所述查询特征和所述第一特征集合生成注意力权重集合;
通过所述注意力权重集合和所述第二特征集合进行加权求和,得到加权特征;
将所述加权特征与所述查询特征的和进行归一化处理,得到融合特征;
将所述加权特征与所述融合特征的和进行归一化处理,得到输出结果。
在一种可能的实现方式中,所述存储特征集合包括第一特征集合和第二特征集合;特征识别子单元被配置为执行:
选取所述特征图的至少两个感受野;
针对每个感受野,对该感受野对应的特征图进行特征识别,得到该感受野对应的存储特征;
将各感受野对应的存储特征作为所述存储特征集合。
根据本申请实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现一种图像识别方法;
根据本申请实施例的第四方面,提供一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行一种图像识别方法;
根据本申请实施例的第五方面,提供一种计算机程序产品,包括至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请实施例提供的图像识别方法。
本申请的实施例提供的技术方案至少带来以下有益效果:
本申请提供一种图像识别方法、装置及存储介质,通过对图像进行特征识别,得到图像的全局特征和多个局部特征,并对获取的所有特征整合成为一个图像特征,根据图像特征进行分类,获取分类结果。这样,通过局部特征与全局特征的有效融合,保证了信息的有效利用,从而使分类结果更加准确。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例中一种图像识别方法的流程示意图;
图2为本申请实施例中图像识别网络模型的示意图;
图3为本申请实施例中头网络示意图;
图4为本申请实施例中一种图像识别装置的结构示意图;
图5为本申请实施方式中终端设备结构示意图。
具体实施方式
为了提高图像识别的准确率,本申请实施例中提供一种图像识别方法、装置及存储介质。为了更好的理解本申请实施例提供的技术方案,这里对该方案的基本原理做一下简单说明:
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
下面结合附图介绍本申请实施例提供的技术方案。
随着科技的日益进步和互联网的普及,互联网视频与图像成为了巨大的信息载体,因此对它们所包含的语义进行快速准确地分析,对互联网监管等领域显得日益重要。
针对视频或者图像的语义分析,传统的方法是将单张图像或者视频帧输入神经网络,接着得到其所包含的语义。但由于大量的目标语义仅仅存在于单张图像的部分区域,不少方法开始尝试将含目标语义的区域锁定,进而使得网络对所分析的内容有所侧重。在此基础上,部分研究开始尝试分析含目标语义较高的局部区域与整张图像的全局信息相联系,使得语义识别的准度能够得到进一步的提升。
在相关技术中,在对图像进行特征识别时,在获得含有目标语义较高区域的前提下,通过将该区域的局部特征与整张图像的各个局域进行相关性计算。因此,在相关技术中,由于忽略了局部特征与全局特征的关联性,从而导致图像识别的准确率较低。
有鉴于此,本申请为了解决以上问题,本申请提供一种图像识别方法、装置及存储介质,通过对图像进行特征识别,得到图像的全局特征和多个局部特征,并对获取的所有特征整合成为一个图像特征,根据图像特征进行分类,获取分类结果。这样,通过局部特征与全局特征的有效融合,保证了信息的有效利用,从而使分类结果更加准确。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请实施例中的实施例及实施例中的特征可以相互组合。
下面对本申请实施例提供的图像识别方法进行进一步的解释说明。如图1所示,其为图像识别方法的流程示意图,包括以下步骤。
在步骤S11中,将待识别图像输入到图像特征识别网络中,得到所述待识别图像的全局特征和至少一个局部特征。
其中,由于视频由多个图像组成,因此待识别图像还包括视频。
在本申请实施例中,图像特征识别网络包括两种神经网络模型,分别为第一子网络和第二子网络。其中,根据第一子网络获取待识别图像的全局特征;根据第二子网络获取待识别图像的局部特征;
由于图像特征识别网络中包括第一子网络和至少一个第二子网络,因此可以获取待识别图像的全局特征和至少一个局部特征。具体可实施为:
将待识别图像输入到所述第一子网络中进行全局特征识别,得到所述待识别图像的全局特征;其中,所述第一子网络包括多层卷积层;
将所述第一子网络中各卷积层输出的特征信息输入到对应的所述第二子网络中进行局部特征识别,得到所述待识别图像的至少一个局部特征。
在本申请实施例中,第一子网络为骨干网络,第二子网络为头网络,如图2所示,其为图像识别网络模型的示意图。其中,在图2中,骨干网络共有5层卷积层,将待识别图像输入到骨干网络中,经过5层卷积层后,最后通过全局池化层提取全局特征。其中,可采用了ResNet-50(一种网络模型)作为骨干网络来编码图像。
而从骨干网络的最后3个卷积层中提取了特征信息,并将特征信息输入到对应的头网络中,从而得到局部特征。其中,特征信息包括对应卷积层的特征图和特征局部位置。
需要说明的是,由于每一层卷积层获取到的特征图的大小尺寸并不相同,因此,每一层卷积层对应一个头网络;即特征信息与头网络是一一对应的。
需要说明的是,局部特征并不限于从骨干网络的最后3个卷积层获取,也可以从不连续的卷积层获取,或者中间的卷积层获取。
这样,通过建立两个子网络来获取全局特征和局部特征,可以根据不同的网络获取不同的特征,使获取的特征更加准确;并通过获取的全局特征和局部特征对待识别图像进行一个综合的表征,使获取的特征更能够准确表达待识别图像。
在本申请实施例中,在头网络中包括多个用于获取包含目标语义特征的变换单元,将获取的特征信息通过这些变换单元以使最终得到的局部特征。具体可实施为步骤A1-A3:
步骤A1:针对各卷积层,将该卷积层对应的所述特征局部位置进行特征映射,得到查询特征。
步骤A2:对该卷积层对应的所述特征图进行特征识别,得到存储特征集合。
其中,存储特征集合包括键特征K和值特征V。
在相关技术中,存储特征集合由线性变换得到。而为了能够有效地编码空间信息,采用卷积层编码存储特征集合。
为了保证可以考虑具有不同大小的子区域,可使用具有不同感受野的并行卷积模块对特征进行编码,具体可实施为步骤B1-B3:
步骤B1:选取所述特征图的至少两个感受野。
其中,在卷积神经网络中,感受野(Receptive Field)的定义是卷积神经网络每一层输出的特征图上的像素点在输入图片上映射的区域大小。
步骤B2:针对每个感受野,对该感受野对应的特征图进行特征识别,得到该感受野对应的存储特征。
步骤B3:将各感受野对应的存储特征作为所述存储特征集合。
例如;若使用具有不同感受野的三个并行卷积模块对特征进行编码。对于这三个模块,感受野大小与特征图大小成正比,三个比例分别为r-,r|和r+;其中r|与池化特征比例r相同,然后我们可以计算K(i)和V(i)具有不同的模块,其中K(i)=[K(i)-;K(i)|;K(i)+]和V(i)=[V(i)-;V(i)|;V(i)+]。这样,针对不同尺度的全局特征进行分析,有效提高语义识别的性能,从而使分类结果更加准确。
步骤A3:根据所述查询特征、所述存储特征集合以及所述多个变换单元,得到所述待识别图像在该卷积层的局部特征。
在本申请实施例中,头网络示意图如图3所示,通过区域池化对特征局部位置进行特征映射,得到查询特征q,通过不同感受野获取存储集合。如图3中的[K(3)-;K(3)|;K(3)+]和[V(3)-;V(3)|;V(3)+]。其中,K(3)和V(3)表示该存储特征集合是从第三层卷积层的特征图中获取到的。之后,便将查询特征和存储特征集合依次输入到多个变换单元中,得到待识别图像在该卷积层的局部特征。
这样,通过变换单元可以对局部特征进行丰富,使获取的局部特征包含更多的目标语义,从而能够更为准确的进行识别。
在本申请实施例中,由于一个头网络中包括多个变换单元,因此步骤A3具体可实施为:
将所述存储特征集合分别输入多个变换单元,以及将所述查询特征输入顺序排列的第一个变换单元中,得到输出结果;
使用所述第一个变换单元的输出结果更新所述查询特征,并将更新后的查询特征输入顺序排列的下一个变换单元中,直到得到顺序排列的最后一个变换单元的输出结果;
将所述最后一个变换单元的输出结果作为所述待识别图像在该卷积层的局部特征。
这样,通过不断的对查询特征进行丰富,使最终得到的局部特征包含更多的目标语义,从而使得到的局部特征能够更为准确的表达对应局部区域的特征。
而在本申请实施例中,在一个变换单元中,使用查询特征和存储特征集合通过如下方式进行计算,具体可实施为步骤C1-C4:
步骤C1:通过所述查询特征和所述第一特征集合生成注意力权重集合。
其中,存储特征集合包括第一特征集合K(i)和第二特征集合和V(i)。
在本申请实施例中,通过如下公式确定注意力权重集合:
其中,A(i)表示注意力权重集合,D表示K的维度,T表示矩阵转置。
步骤C2:通过所述注意力权重集合和所述第二特征集合进行加权求和,得到加权特征。
在得到注意力权重集合后,可以与第二特征集合V(i)通过加权求和,得到加权特征,计算公式如下:
c(i)=∑j[Softmax(A(i))]jVj (i);
其中,c(i)表示加权特征;Softma是一种通用归一化操作。
例如:若第一特征集合K(i)和第二特征集合和V(i)均存在三个值;即K(i)-、K(i)丨、K(i)+和V(i)-、V(i)丨、V(i)+;那么第一特征集合K(i)与查询特征计算可以得到三个注意力权重;将这三个注意力权重分别与第二特征集合和V(i)进行加权,便可以得到9个结果,最终进行求和,得到加权特征。
步骤C3:将所述加权特征与所述查询特征的和进行归一化处理,得到融合特征。
为了防止过拟合,进行层归一化(LayerNorm)处理之前,可以先对加权特征进行特征丢弃机制(Dropout)处理;计算公式如下:
c(i)′=LayerNorm(q(i)+Dropout(c(i)));
其中,c(i)′为融合特征。
步骤C4:将所述加权特征与所述融合特征的和进行归一化处理,得到输出结果。
同样的为了防止过拟合,将融合特征在进行层归一化处理之前,将融合特征输入到多层感知器(MLP),并对输入结果进行特征丢弃机制处理,计算公式如下:
q(i)′=LayerNorm(c(i)+Dropout(MLP(c(i)′)));
其中,q(i)′为输出结果。
需要说明的是,如果图像中有多个目标区域,则将所有获得的局部特征的平均特征作为局部特征。
这样,在变换单元中,通过将查询特征和存储特征进行加权求和、归一化处理等操作,可以使局部特征的内容更加丰富,从而使得到的局部特征能够更为准确的表达对应局部区域的特征。
在步骤S12中,将所述全局特征和所述至少一个局部特征进行整合,得到所述待识别图像的图像特征。
如图2所示,在得到了全局特征和3个局部特征后,将这四个特征串联连接,整合成一个图像特征。这样,获取得到的图像特征使局部特征与全局特征有效融合,保证了信息的有效利用。
在步骤S13中,通过识别目标语义的分类器对所述图像特征进行分类,得到所述待识别图像包含所述目标语义的概率信息。
在本申请实施例中,将获得的图像特征输入到分类器,然后就可以得到待识别图像中存在目标语义的概率。
若要对视频进行识别,则对该视频的各帧图像依次输入到图像特征识别网络中,得到各帧图像的图像特征。将各帧图像的图像特征输入到分类器,得到各帧图像存在目标语义的概率。将概率最大的概率值作为该视频中存在目标语义的概率。
这样,通过局部特征与全局特征的有效融合,保证了信息的有效利用,从而使分类结果更加准确。
基于相同的发明构思,本申请还提供一种图像识别装置。如图4所示,为本申请提供的一种图像识别装置示意图。该装置包括:
识别模块401,被配置为执行将待识别图像输入到图像特征识别网络中,得到所述待识别图像的全局特征和至少一个局部特征;
整合模块402,被配置为执行将所述全局特征和所述至少一个局部特征进行整合,得到所述待识别图像的图像特征;
分类模块403,被配置为执行通过识别目标语义的分类器对所述图像特征进行分类,得到所述待识别图像包含所述目标语义的概率信息。
在一种可能的实现方式中,所述图像特征识别网络包括第一子网络和至少一个第二子网络;识别模块401包括:
第一识别单元,被配置为执行将待识别图像输入到所述第一子网络中进行全局特征识别,得到所述待识别图像的全局特征;其中,所述第一子网络包括多层卷积层;
第二识别单元,被配置为执行将所述第一子网络中各卷积层输出的特征信息输入到对应的所述第二子网络中进行局部特征识别,得到所述待识别图像的至少一个局部特征。
在一种可能的实现方式中,所述第二子网络包括多个用于获取包含目标语义特征的变换单元;所述特征信息包括对应卷积层的特征图和特征局部位置;第二识别单元包括:
特征映射子单元,被配置为执行针对各卷积层,将该卷积层对应的所述特征局部位置进行特征映射,得到查询特征;
特征识别子单元,被配置为执行对该卷积层对应的所述特征图进行特征识别,得到存储特征集合;
确定局部特征子单元,被配置为执行根据所述查询特征、所述存储特征集合以及所述多个变换单元,得到所述待识别图像在该卷积层的局部特征。
在一种可能的实现方式中,确定局部特征子单元被配置为执行:
将所述存储特征集合分别输入多个变换单元,以及将所述查询特征输入顺序排列的第一个变换单元中,得到输出结果;
使用所述第一个变换单元的输出结果更新所述查询特征,并将更新后的查询特征输入顺序排列的下一个变换单元中,直到得到顺序排列的最后一个变换单元的输出结果;
将所述最后一个变换单元的输出结果作为所述待识别图像在该卷积层的局部特征。
在一种可能的实现方式中,所述存储特征集合包括第一特征集合和第二特征集合;确定局部特征子单元被配置为执行:
通过所述查询特征和所述第一特征集合生成注意力权重集合;
通过所述注意力权重集合和所述第二特征集合进行加权求和,得到加权特征;
将所述加权特征与所述查询特征的和进行归一化处理,得到融合特征;
将所述加权特征与所述融合特征的和进行归一化处理,得到输出结果。
在一种可能的实现方式中,所述存储特征集合包括第一特征集合和第二特征集合;特征识别子单元被配置为执行:
选取所述特征图的至少两个感受野;
针对每个感受野,对该感受野对应的特征图进行特征识别,得到该感受野对应的存储特征;
将各感受野对应的存储特征作为所述存储特征集合。
如图5所示,基于同一技术构思,本申请实施例还提供了一种电子设备50,可以包括存储器501和处理器502。
所述存储器501,用于存储处理器502执行的计算机程序。存储器501可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据任务管理装置的使用所创建的数据等。处理器502,可以是一个中央处理单元(central processing unit,CPU),或者为数字处理单元等等。本申请实施例中不限定上述存储器501和处理器502之间的具体连接介质。本申请实施例在图5中以存储器501和处理器502之间通过总线503连接,总线503在图5中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。所述总线503可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器501可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器501也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)、或者存储器501是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器501可以是上述存储器的组合。
处理器502,用于调用所述存储器501中存储的计算机程序时执行如图2中所示的实施例中设备所执行的方法。
在一些可能的实施方式中,本申请提供的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的方法中的步骤,例如,所述计算机设备可以执行如图1~图3中所示的实施例中设备所执行的方法。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (8)
1.一种图像识别方法,其特征在于,所述方法包括:
将待识别图像输入到包含于图像特征识别网络的第一子网络中进行全局特征识别,得到所述待识别图像的全局特征;其中,所述第一子网络包括多层卷积层;所述图像特征识别网络还包括至少一个第二子网络,所述第二子网络包括多个用于获取包含目标语义特征的变换单元;
针对各卷积层,将该卷积层对应的特征信息中的特征局部位置进行特征映射,得到查询特征;对该卷积层对应的特征信息中的特征图进行特征识别,得到存储特征集合;
将所述存储特征集合分别输入多个变换单元,以及将所述查询特征输入顺序排列的第一个变换单元中,得到输出结果;使用所述第一个变换单元的输出结果更新所述查询特征,并将更新后的查询特征输入顺序排列的下一个变换单元中,直到得到顺序排列的最后一个变换单元的输出结果;将所述最后一个变换单元的输出结果作为所述待识别图像在该卷积层的局部特征;
将所述全局特征和所述至少一个局部特征进行整合,得到所述待识别图像的图像特征;
通过识别目标语义的分类器对所述图像特征进行分类,得到所述待识别图像包含所述目标语义的概率信息。
2.根据权利要求1所述的方法,其特征在于,所述存储特征集合包括第一特征集合和第二特征集合;
所述将所述存储特征集合分别输入多个变换单元,以及将所述查询特征输入顺序排列的第一个变换单元中,得到输出结果,包括:
通过所述查询特征和所述第一特征集合生成注意力权重集合;
通过所述注意力权重集合和所述第二特征集合进行加权求和,得到加权特征;
将所述加权特征与所述查询特征的和进行归一化处理,得到融合特征;
将所述加权特征与所述融合特征的和进行归一化处理,得到输出结果。
3.根据权利要求1所述的方法,其特征在于,所述对该卷积层对应的所述特征图进行特征识别,得到存储特征集合,包括:
选取所述特征图的至少两个感受野;
针对每个感受野,对该感受野对应的特征图进行特征识别,得到该感受野对应的存储特征;
将各感受野对应的存储特征作为所述存储特征集合。
4.一种图像识别装置,其特征在于,所述装置包括:
识别模块,被配置为执行将待识别图像输入到包含于图像特征识别网络的第一子网络中进行全局特征识别,得到所述待识别图像的全局特征;其中,所述第一子网络包括多层卷积层;所述图像特征识别网络还包括至少一个第二子网络,所述第二子网络包括多个用于获取包含目标语义特征的变换单元;
针对各卷积层,将该卷积层对应的特征信息中的特征局部位置进行特征映射,得到查询特征;对该卷积层对应的特征信息中的特征图进行特征识别,得到存储特征集合;
将所述存储特征集合分别输入多个变换单元,以及将所述查询特征输入顺序排列的第一个变换单元中,得到输出结果;使用所述第一个变换单元的输出结果更新所述查询特征,并将更新后的查询特征输入顺序排列的下一个变换单元中,直到得到顺序排列的最后一个变换单元的输出结果;将所述最后一个变换单元的输出结果作为所述待识别图像在该卷积层的局部特征;
整合模块,被配置为执行将所述全局特征和所述至少一个局部特征进行整合,得到所述待识别图像的图像特征;
分类模块,被配置为执行通过识别目标语义的分类器对所述图像特征进行分类,得到所述待识别图像包含所述目标语义的概率信息。
5.根据权利要求4所述的装置,其特征在于,所述存储特征集合包括第一特征集合和第二特征集合;确定所述识别模块被配置为执行:
通过所述查询特征和所述第一特征集合生成注意力权重集合;
通过所述注意力权重集合和所述第二特征集合进行加权求和,得到加权特征;
将所述加权特征与所述查询特征的和进行归一化处理,得到融合特征;
将所述加权特征与所述融合特征的和进行归一化处理,得到输出结果。
6.根据权利要求4所述的装置,其特征在于,所述存储特征集合包括第一特征集合和第二特征集合;所述识别模块被配置为执行:
选取所述特征图的至少两个感受野;
针对每个感受野,对该感受野对应的特征图进行特征识别,得到该感受野对应的存储特征;
将各感受野对应的存储特征作为所述存储特征集合。
7.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至3中任一项所述的图像识别方法。
8.一种存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至3中任一项所述的图像识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110127057.8A CN112766407B (zh) | 2021-01-29 | 2021-01-29 | 一种图像识别方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110127057.8A CN112766407B (zh) | 2021-01-29 | 2021-01-29 | 一种图像识别方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112766407A CN112766407A (zh) | 2021-05-07 |
CN112766407B true CN112766407B (zh) | 2023-12-05 |
Family
ID=75703753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110127057.8A Active CN112766407B (zh) | 2021-01-29 | 2021-01-29 | 一种图像识别方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112766407B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229468A (zh) * | 2017-06-28 | 2018-06-29 | 北京市商汤科技开发有限公司 | 车辆外观特征识别及车辆检索方法、装置、存储介质、电子设备 |
CN109359696A (zh) * | 2018-10-29 | 2019-02-19 | 重庆中科云丛科技有限公司 | 一种车款识别方法、***及存储介质 |
CN111291819A (zh) * | 2020-02-19 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 图像识别方法、装置、电子设备及存储介质 |
CN111461190A (zh) * | 2020-03-24 | 2020-07-28 | 华南理工大学 | 一种基于深度卷积神经网络的非均衡船舶分类方法 |
-
2021
- 2021-01-29 CN CN202110127057.8A patent/CN112766407B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229468A (zh) * | 2017-06-28 | 2018-06-29 | 北京市商汤科技开发有限公司 | 车辆外观特征识别及车辆检索方法、装置、存储介质、电子设备 |
CN109359696A (zh) * | 2018-10-29 | 2019-02-19 | 重庆中科云丛科技有限公司 | 一种车款识别方法、***及存储介质 |
CN111291819A (zh) * | 2020-02-19 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 图像识别方法、装置、电子设备及存储介质 |
CN111461190A (zh) * | 2020-03-24 | 2020-07-28 | 华南理工大学 | 一种基于深度卷积神经网络的非均衡船舶分类方法 |
Non-Patent Citations (1)
Title |
---|
Spatially-Attentive Patch-Hierarchical Network for Adaptive Motion Deblurring;Maitreya Suin et al.;《2020 CVPR》;第3606-3615页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112766407A (zh) | 2021-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111191791B (zh) | 基于机器学习模型的图片分类方法、装置及设备 | |
CN111797893B (zh) | 一种神经网络的训练方法、图像分类***及相关设备 | |
WO2021042828A1 (zh) | 神经网络模型压缩的方法、装置、存储介质和芯片 | |
WO2020238293A1 (zh) | 图像分类方法、神经网络的训练方法及装置 | |
CN105354307B (zh) | 一种图像内容识别方法及装置 | |
CN111062871B (zh) | 一种图像处理方法、装置、计算机设备及可读存储介质 | |
CN108681746B (zh) | 一种图像识别方法、装置、电子设备和计算机可读介质 | |
CN111291809B (zh) | 一种处理装置、方法及存储介质 | |
CN117456297A (zh) | 图像生成方法、神经网络的压缩方法及相关装置、设备 | |
WO2021057186A1 (zh) | 训练神经网络的方法、数据处理方法和相关装置 | |
CN112639828A (zh) | 数据处理的方法、训练神经网络模型的方法及设备 | |
CN110503076B (zh) | 基于人工智能的视频分类方法、装置、设备和介质 | |
JP2017062781A (ja) | 深層cnnプーリング層を特徴として用いる、類似度に基づく重要な対象の検知 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN114418030B (zh) | 图像分类方法、图像分类模型的训练方法及装置 | |
CN111882031A (zh) | 一种神经网络蒸馏方法及装置 | |
CN111027576A (zh) | 基于协同显著性生成式对抗网络的协同显著性检测方法 | |
CN111898703A (zh) | 多标签视频分类方法、模型训练方法、装置及介质 | |
CN113011568A (zh) | 一种模型的训练方法、数据处理方法及设备 | |
Plonus et al. | Automatic plankton image classification—can capsules and filters help cope with data set shift? | |
CN114299304B (zh) | 一种图像处理方法及相关设备 | |
Yuan et al. | Low-res MobileNet: An efficient lightweight network for low-resolution image classification in resource-constrained scenarios | |
CN114372532A (zh) | 标签标注质量的确定方法、装置、设备、介质及产品 | |
CN116016365B (zh) | 一种加密流量下基于数据包长度信息的网页识别方法 | |
CN112766407B (zh) | 一种图像识别方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |