CN111144484B - 一种图像识别方法及装置 - Google Patents
一种图像识别方法及装置 Download PDFInfo
- Publication number
- CN111144484B CN111144484B CN201911370722.5A CN201911370722A CN111144484B CN 111144484 B CN111144484 B CN 111144484B CN 201911370722 A CN201911370722 A CN 201911370722A CN 111144484 B CN111144484 B CN 111144484B
- Authority
- CN
- China
- Prior art keywords
- feature
- image
- feature map
- target
- feature maps
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供了一种图像识别方法及装置,对待识别图像进行卷积处理,可以得到多个不同尺寸的第一特征图,对第一特征图进行上采样处理,并进行多个第一特征图之间的特征融合,可以得到多个不同尺寸的第二特征图,基于第二特征图可以得到待识别图像的分类结果。本申请实施例中,不同尺寸的第一特征图可以包括待识别图像中的不同特征,而通常来说大尺寸的特征图包括全局信息,而小尺寸的特征图体现局部信息,第二特征图融合了不同尺寸的特征图,兼具全局信息和局部信息,具有更全面的特征,因此基于第二特征图得到的待识别图像的分类结果也更加准确和全面,因此,提高了图像识别的准确性。
Description
技术领域
本发明涉及计算机领域,特别是涉及一种图像识别方法及装置。
背景技术
目前,可以对图像进行识别,得到图像中的目标对象的特征,具体的,可以构建实现分类任务的神经网络,从而利用神经网络进行特征提取、类别分类以及物体框回归。现有技术中以残差网络(Residual Network,ResNet)作为神经网络的骨干网络进行特征提取,然而这种神经网络对图像的识别有时不够准确,尤其是在目标对象具有一定的遮挡或者特征较少的情况下,往往不能有效识别出目标对象。
发明内容
为解决上述技术问题,本申请实施例提供一种图像识别方法及装置,提高图像识别的准确性。
本申请实施例提供了一种图像识别方法,包括:
对待识别图像进行卷积处理,得到多个不同尺寸的第一特征图;
对所述第一特征图进行上采样处理,并进行多个所述第一特征图之间的特征融合,得到多个不同尺寸的第二特征图;
基于所述第二特征图得到所述待识别图像的分类结果。
可选的,所述对待识别图像进行卷积处理,得到多个不同尺寸的第一特征图,包括:
利用残差网络和/或特征金字塔对待识别图像进行卷积处理,得到多个不同尺寸的第一特征图。
可选的,所述利用残差网络和/或特征金字塔对待识别图像进行卷积处理,得到多个不同尺寸的第一特征图,包括:
利用残差网络和/或特征金字塔对待识别图像进行卷积处理,得到多个不同尺寸的初始特征图;
分别对各个所述初始特征图进行卷积处理和上采样处理,得到与各个所述初始特征图对应的第一特征图。
可选的,具有目标尺寸的第二特征图可以通过以下方式得到:
对小于所述目标尺寸的至少一个其他尺寸的第一特征图进行上采样,得到所述其他尺寸的第一特征图对应的上采样特征图,所述上采样特征图具有目标尺寸;
对具有所述目标尺寸的第一特征图以及所述上采样特征图进行融合,得到具有所述目标尺寸的第二特征图。
可选的,所述基于所述第二特征图得到所述待识别图像的分类结果,包括:
对所述第二特征图进行处理,得到所述待识别图像中的目标对象对应的多个物体框;
利用非极大值抑制的方法对所述多个物体框进行筛选,得到所述待识别图像的分类结果。
可选的,所述利用非极大值抑制的方法对所述多个物体框进行筛选,得到所述待识别图像的分类结果,包括:
利用非极大值抑制的方法对所述多个物体框进行筛选,得到所述待识别图像中的目标对象对应的目标框;
将所述待识别图像中的目标对象对应的目标框输入完成训练的神经网络中,得到所述神经网络输出的多个目标框中的目标图像之间的相似度;
基于所述相似度对所述目标框进行筛选,得到所述待识别图像的分类结果。
本申请实施例提供了一种图像识别装置,包括:
第一特征图获取单元,用于对待识别图像进行卷积处理,得到多个不同尺寸的第一特征图;
第二特征图获取单元,用于对所述第一特征图进行上采样处理,并进行多个所述第一特征图之间的特征融合,得到多个不同尺寸的第二特征图;
分类结果获取单元,用于基于所述第二特征图得到所述待识别图像的分类结果。
可选的,所述第一特征图获取单元,包括:
第一特征图获取子单元,用于利用残差网络和/或特征金字塔对待识别图像进行卷积处理,得到多个不同尺寸的第一特征图。
可选的,所述第一特征图获取子单元,包括:
初始特征图获取单元,用于利用残差网络和/或特征金字塔对待识别图像进行卷积处理,得到多个不同尺寸的初始特征图;
处理单元,用于分别对各个所述初始特征图进行卷积处理和上采样处理,得到与各个所述初始特征图对应的第一特征图。
可选的,具有目标尺寸的第二特征图可以通过以下方式得到:
对小于所述目标尺寸的至少一个其他尺寸的第一特征图进行上采样,得到所述其他尺寸的第一特征图对应的上采样特征图,所述上采样特征图具有目标尺寸;
对具有所述目标尺寸的第一特征图以及所述上采样特征图进行融合,得到具有所述目标尺寸的第二特征图。
可选的,所述分类结果获取单元,包括:
物体框获取单元,用于对所述第二特征图进行处理,得到所述待识别图像中的目标对象对应的多个物体框;
筛选单元,用于利用非极大值抑制的方法对所述多个物体框进行筛选,得到所述待识别图像的分类结果。
可选的,所述筛选单元,包括:
第一筛选子单元,用于利用非极大值抑制的方法对所述多个物体框进行筛选,得到所述待识别图像中的目标对象对应的目标框;
相似度获取单元,用于将所述待识别图像中的目标对象对应的目标框输入完成训练的神经网络中,得到所述神经网络输出的多个目标框中的目标图像之间的相似度;
第二筛选子单元,用于基于所述相似度对所述目标框进行筛选,得到所述待识别图像的分类结果。
本申请实施例提供了一种图像识别方法及装置,对待识别图像进行卷积处理,可以得到多个不同尺寸的第一特征图,对第一特征图进行上采样处理,并进行多个第一特征图之间的特征融合,可以得到多个不同尺寸的第二特征图,基于第二特征图可以得到待识别图像的分类结果。本申请实施例中,不同尺寸的第一特征图可以包括待识别图像中的不同特征,而通常来说大尺寸的特征图包括全局信息,而小尺寸的特征图体现局部信息,在将第一特征图进行上采样处理后,可以跨越第一特征图的尺寸不同的障碍,而对这些第一特征图进行特征融合,从而得到多个不同尺寸的第二特征图,第二特征图融合了不同尺寸的特征图,兼具全局信息和局部信息,具有更全面的特征,因此基于第二特征图得到的待识别图像的分类结果也更加准确和全面,因此,提高了图像识别的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种图像识别方法的流程图;
图2为本申请实施例提供的一种图像识别装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,可以对图像进行识别,得到图像中的目标对象的特征,具体的,可以构建实现分类任务的神经网络,从而利用神经网络进行特征提取、类别分类以及物体框回归。现有技术中,可以以残差网络作为神经网络的骨干网络进行特征提取,然而这种神经网络对图像的识别往往更加注重图像的全局信息,导致在对图像识别的过程中有不准确的可能性,尤其是在目标对象具有一定的遮挡或者特征较少的情况下,往往不能有效识别出目标对象。
举例来说,在会议室中会有识别参会人员的需求,然而,会议室中存在桌子椅子的遮挡,在与摄像头距离较远的位置参会人员的特征较少,而在重度遮挡的位置,参会人员的特征也较少,此时若神经网络对图像的特征提取缺乏局部信息,会导致这些参会人员不能被识别出,因此不能满足该场景下的实际需求。
基于此,本申请实施例提供了一种图像识别方法及装置,对待识别图像进行卷积处理,可以得到多个不同尺寸的第一特征图,对第一特征图进行上采样处理,并进行多个第一特征图之间的特征融合,可以得到多个不同尺寸的第二特征图,基于第二特征图可以得到待识别图像的分类结果。本申请实施例中,不同尺寸的第一特征图可以包括待识别图像中的不同特征,而通常来说大尺寸的特征图包括全局信息,而小尺寸的特征图体现局部信息,在将第一特征图进行上采样处理后,可以跨越第一特征图的尺寸不同的障碍,而对这些第一特征图进行特征融合,从而得到多个不同尺寸的第二特征图,第二特征图融合了不同尺寸的特征图,兼具全局信息和局部信息,具有更全面的特征,因此基于第二特征图得到的待识别图像的分类结果也更加准确和全面,因此,提高了图像识别的准确性。
下面结合附图,通过实施例来详细说明本申请实施例提供的一种图像识别方法及装置的具体实现方式。
参考图1所示为本申请实施例提供的一种图像识别方法的流程图,可以包括以下步骤。
S101,对待识别图像进行卷积处理,得到多个不同尺寸的第一特征图。
待识别图像中可以包括目标对象,目标对象具有一定的特征,本申请实施例中,可以从待识别图像中识别出目标对象,识别出的目标对象可以通过物体框标识,物体框可以在形成于目标对象的***,也可以只包围目标对象的关键特征。
为了对待识别图像进行识别,可以先对待识别图像进行特征提取,得到多个不同尺寸的第一特征图。具体的,对待识别图像进行特征提取,可以通过对待识别图像进行卷积处理生成特征图来实现,具体实施时,可以利用残差网络和/或特征金字塔对待识别图像进行卷积处理,从而得到多个而不同尺寸的第一特征图。其中,残差网络和特征金字塔预先经过训练。
具体实施时,为了使特征图获得更深层次的语义,还可以在利用残差网络和/或特征金字塔对待识别图像进行卷积处理得到初始特征图后,继续对各个初始特征图进行卷积处理和上采样处理,从而得到各个初始特征图对应的第一特征图。
举例来说,待识别图像p1的尺寸可以为(1024,1024),利用残差网络和/或特征金字塔可以得到尺寸为(256,256)的初始特征图p2、尺寸为(128,128)的初始特征图p3、尺寸为(64,64)的初始特征图p4、尺寸为(32,32)的初始特征图p5以及尺寸为(16,16)的初始特征图p6。
以初始特征图p6为例,可以对初始特征图p6进行卷积处理以及上采样处理,得到尺寸与初始特征图p6的尺寸一致的第一特征图。具体的,可以对初始特征图p6进行4次3*3,步长(stride)为2的卷积处理,每次卷积处理后,初始特征图p6的尺寸缩小一倍,4次卷积处理后得到的初始特征图p6的尺寸为1*1,之后,可以再对初始特征图p6进行4次3*3,步长为1的上采样处理,每次上采样处理后,初始特征图p6的尺寸增大一倍,则4次上采样处理后得到的第一特征图p6’和初始特征图p6的尺寸一致。
分别对初始特征图p2、p3、p4、p5、p6进行卷积处理和上采样处理,可以得到第一特征图p2’、p3’、p4’、p5’、p6’。
当然,对于初始特征图进行的卷积处理和上采样处理的次数,本领域技术人员可以根据实际情况确定,可以理解的是,为了使第一特征图和初始特征图的尺寸一致,可以使卷积处理和上采样处理的次数一致,而在第一特征图和初始特征图的尺寸可以不一致的情况下,卷积处理和上采样处理的次数可以不一致。
通过对初始特征图进行卷积处理和上采样处理,可以使最终的第一特征图具有更加丰富的语义信息,更加有利于提取全面的图像特征。以上的卷积处理和上采样处理,可以通过程序实现,也可以通过功能模块实现,而程序和功能模块中的参数可以预先训练得到。
S102,对第一特征图进行上采样处理,并进行多个第一特征图之间的特征融合,得到多个不同尺寸的第二特征图。
在本申请实施例中,可以对不同尺寸的第一特征图之间进行特征融合,然而不同尺寸的第一特征图之间的特征融合存在尺寸不同的障碍,因此可以对小尺寸的第一特征图进行上采样处理,使上采样处理后的上采样特征图具有较大的尺寸,因此可以和较大尺寸的第一特征图进行特征融合。
具体的,对于具有目标尺寸的第二特征图,可以通过以下方式得到:对小于目标尺寸的至少一个其他尺寸的第一特征图进行上采样,得到第一特征图对应的上采样特征图,上采样特征图具有目标尺寸,对具有目标尺寸的第一特征图以及上采样特征图进行特征融合,得到具有目标尺寸的第二特征图。特征融合的方式可以是像素点对应加权相加等方式。
作为一种示例,可以将目标尺寸的第一特征图与小于目标尺寸且与目标尺寸相邻的第一特征图进行特征融合。以第一特征图p6’为例,其尺寸为(16,16),因此,可以对第一特征图进行上采样得到p6”,p6”的尺寸为(32,32),与p5’的尺寸一致,因此可以将p6”和p5’进行特征融合,得到与p5’的尺寸一致的第二特征图p5+;当然,对p5’也可以进行上采样得到p5”,p5”的尺寸为(64,64),与p4’的尺寸一致,则可以将p5”和p4’进行特征融合,得到与p4’的尺寸一致的第二特征图p4+;依次类推,可以得到第二特征图p6’、p5+、p4+、p3+、p2+和p1+。
这样,第二特征图p5+是融合了第一特征图p6’和p5’得到的,第二特征图p4+是融合了第一特征图p5’和p4’得到的,第二特征图p3+融合了第一特征图p4’和p3’得到的,第二特征图p2+是融合了第一特征图p3’和p2’得到的,第二特征图p1+是融合了第一特征图p2’和p1’得到的,因此实现了不同尺寸的特征图的特征融合。
作为另一种示例,可以将目标尺寸的第一特征图与小于目标尺寸的多个第一特征图进行特征融合。例如,可以对第一特征图p6’进行两次上采样,对第一特征图p5’进行一个上采样,将p6’对应的上采样特征图像、p5’对应的上采样特征图像以及p4’进行特征融合,可以得到p4’对应的第二特征图,以此类推。
作为又一种示例,可以将目标尺寸的第一特征图与小于目标尺寸且与目标尺寸相邻的第一特征图进行特征融合,得到第一融合图像,目标尺寸的第一特征图与大于目标尺寸且与目标尺寸相邻的第一特征图进行融合,得到第二融合图像,实现了特征的一次堆叠;将第一融合图像和第二融合图像进行融合,实现了特征的第二次堆叠。以此类推,最终得到的融合图像可以作为第二特征图,而此时的第二特征图融合了较多个第一特征图。在实际处理中,3次堆叠可以满足精度需求,同时节省一定的时间。
例如,将第一特征图p6’进行上采样,并与p5’进行融合,得到p5+,而第一特征图p5’进行上采样,并与p4’进行融合,得到p4+,实现特征的第一次堆叠;之后,将p5+进行上采样并与p4+进行融合,得到p4++,实现了特征的第二次堆叠。
S103,基于第二特征图得到待识别图像的分类结果。
在本申请实施例中,第二特征图是融合了多个尺寸的第一特征图之后得到的,由于不同尺寸的特征图中的特征不同,因此第二特征图融合不同特征,事实上,大尺寸的特征图主要体现全局信息,而小尺寸的特征图主要体现局部信息,将不同尺寸的第一特征图进行融合,可以在体现全局信息的同时,不会忽略局部信息,因此第二特征图具有较全面的特征信息,基于第二特征图得到的待识别图像的分类结果也更准确。
具体的,可以前述获取第二特征图的模型结果引入双阶段检测的框架,这样可以基于第二特征图进行候选区域提取(region proposal network,RPN),以及感兴趣区域池化(Region of interest pooling,Rol Pooling)和分类与回归,从而得到待识别图像的分类结果。
在对第二特征图进行处理后,可以得到待识别图像中的目标对象对应的多个物体框,作为待识别图像的初始分类结果,这些物体框中,可能有多个物体框表征同一目标对象,因此可以利用非极大值抑制(Non-Maximum Suppression,NMS)的方法对多个物体框进行筛选,从而去除多余的物体框,得到待识别图像的分类结果。非极大值抑制考虑了多个物体框之间的交并比(Intersection over Union,IoU)。
然而,在目标对象被物体隔断的场景下,采用非极大值抑制的方法并不能判断两个框中的目标对象是否为同一个目标对象。
因此,本申请实施例中,还可以在得到物体框后,将待识别图像中的目标对象对应的物体框输入完成训练的神经网络中,得到神经网络输出的各个物体框中的图像之间的相似度,进而根据物体框中的图像的相似度对物体框进行筛选,通常来说,相似度越高,二者表征同一目标对象的可能性越高,可以选择其中之一,从而去除重框。
本申请实施例中,还可以在利用非极大值抑制的方法对多个物体框进行筛选得到待识别图像中的目标对象对应的目标框后,将待识别图像中的目标对象对应的目标框输入完成训练的神经网络中,得到神经网络输出的各个目标框中的图像之间的相似度,进而根据目标框中的图像的相似度对目标框进行筛选。这样,可以结合非极大值一致与神经网络筛选,节省时间的同时可以有效去除重框。此时,非极大值抑制可以设置较大的阈值,以得到较多数量的目标框,避免非极大值抑制错误的去除了物体框。
以上的神经网络可以3*3卷积层和全连接层,通过预先训练得到。
本申请实施例提供了一种图像识别方法,对待识别图像进行卷积处理,可以得到多个不同尺寸的第一特征图,对第一特征图进行上采样处理,并进行多个第一特征图之间的特征融合,可以得到多个不同尺寸的第二特征图,基于第二特征图可以得到待识别图像的分类结果。本申请实施例中,不同尺寸的第一特征图可以包括待识别图像中的不同特征,而通常来说大尺寸的特征图包括全局信息,而小尺寸的特征图体现局部信息,在将第一特征图进行上采样处理后,可以跨越第一特征图的尺寸不同的障碍,而对这些第一特征图进行特征融合,从而得到多个不同尺寸的第二特征图,第二特征图融合了不同尺寸的特征图,兼具全局信息和局部信息,具有更全面的特征,因此基于第二特征图得到的待识别图像的分类结果也更加准确和全面,因此,提高了图像识别的准确性。
基于以上一种图像识别方法,本申请实施例还提供了一种图像识别装置,参考图2所示,为本申请实施例提供的一种图像识别装置的结构框图,所述装置包括:
第一特征图获取单元110,用于对待识别图像进行卷积处理,得到多个不同尺寸的第一特征图;
第二特征图获取单元120,用于对所述第一特征图进行上采样处理,并进行多个所述第一特征图之间的特征融合,得到多个不同尺寸的第二特征图;
分类结果获取单元130,用于基于所述第二特征图得到所述待识别图像的分类结果。
可选的,所述第一特征图获取单元,包括:
第一特征图获取子单元,用于利用残差网络和/或特征金字塔对待识别图像进行卷积处理,得到多个不同尺寸的第一特征图。
可选的,所述第一特征图获取子单元,包括:
初始特征图获取单元,用于利用残差网络和/或特征金字塔对待识别图像进行卷积处理,得到多个不同尺寸的初始特征图;
处理单元,用于分别对各个所述初始特征图进行卷积处理和上采样处理,得到与各个所述初始特征图对应的第一特征图。
可选的,具有目标尺寸的第二特征图可以通过以下方式得到:
对小于所述目标尺寸的至少一个其他尺寸的第一特征图进行上采样,得到所述其他尺寸的第一特征图对应的上采样特征图,所述上采样特征图具有目标尺寸;
对具有所述目标尺寸的第一特征图以及所述上采样特征图进行融合,得到具有所述目标尺寸的第二特征图。
可选的,所述分类结果获取单元,包括:
物体框获取单元,用于对所述第二特征图进行处理,得到所述待识别图像中的目标对象对应的多个物体框;
筛选单元,用于利用非极大值抑制的方法对所述多个物体框进行筛选,得到所述待识别图像的分类结果。
可选的,所述筛选单元,包括:
第一筛选子单元,用于利用非极大值抑制的方法对所述多个物体框进行筛选,得到所述待识别图像中的目标对象对应的目标框;
相似度获取单元,用于将所述待识别图像中的目标对象对应的目标框输入完成训练的神经网络中,得到所述神经网络输出的多个目标框中的目标图像之间的相似度;
第二筛选子单元,用于基于所述相似度对所述目标框进行筛选,得到所述待识别图像的分类结果。
本申请实施例提供了一种图像识别装置,对待识别图像进行卷积处理,可以得到多个不同尺寸的第一特征图,对第一特征图进行上采样处理,并进行多个第一特征图之间的特征融合,可以得到多个不同尺寸的第二特征图,基于第二特征图可以得到待识别图像的分类结果。本申请实施例中,不同尺寸的第一特征图可以包括待识别图像中的不同特征,而通常来说大尺寸的特征图包括全局信息,而小尺寸的特征图体现局部信息,在将第一特征图进行上采样处理后,可以跨越第一特征图的尺寸不同的障碍,而对这些第一特征图进行特征融合,从而得到多个不同尺寸的第二特征图,第二特征图融合了不同尺寸的特征图,兼具全局信息和局部信息,具有更全面的特征,因此基于第二特征图得到的待识别图像的分类结果也更加准确和全面,因此,提高了图像识别的准确性。
本申请实施例中提到的“第一……”、“第一……”等名称中的“第一”只是用来做名字标识,并不代表顺序上的第一。该规则同样适用于“第二”等。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如只读存储器(英文:read-only memory,ROM)/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及***实施例仅仅是示意性的,其中作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请的优选实施方式,并非用于限定本申请的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (4)
1.一种图像识别方法,其特征在于,包括:
对待识别图像进行卷积处理,得到多个不同尺寸的第一特征图;
所述对待识别图像进行卷积处理,得到多个不同尺寸的第一特征图,包括:利用残差网络和/或特征金字塔对待识别图像进行卷积处理,得到多个不同尺寸的第一特征图;
所述利用残差网络和/或特征金字塔对待识别图像进行卷积处理,得到多个不同尺寸的第一特征图,包括:利用残差网络和/或特征金字塔对待识别图像进行卷积处理,得到多个不同尺寸的初始特征图;分别对各个所述初始特征图进行卷积处理和上采样处理,得到与各个所述初始特征图对应的第一特征图;在所述第一特征图和所述第一特征图对应的初始特征图的尺寸一致的情况下,卷积处理和上采样处理的次数一致,而在所述第一特征图和所述第一特征图对应的初始特征图的尺寸不一致的情况下,卷积处理和上采样处理的次数不一致;
对所述第一特征图进行上采样处理,并进行多个所述第一特征图之间的特征融合,得到多个不同尺寸的第二特征图;
基于所述第二特征图得到所述待识别图像的分类结果;
所述基于所述第二特征图得到所述待识别图像的分类结果,包括:对所述第二特征图进行处理,得到所述待识别图像中的目标对象对应的多个物体框;利用非极大值抑制的方法对所述多个物体框进行筛选,得到所述待识别图像的分类结果;
所述利用非极大值抑制的方法对所述多个物体框进行筛选,得到所述待识别图像的分类结果,包括:利用非极大值抑制的方法对所述多个物体框进行筛选,得到所述待识别图像中的目标对象对应的目标框;将所述待识别图像中的目标对象对应的目标框输入完成训练的神经网络中,得到所述神经网络输出的多个目标框中的目标图像之间的相似度;基于所述相似度对所述目标框进行筛选,得到所述待识别图像的分类结果;
在得到物体框后,将待识别图像中的目标对象对应的物体框输入完成训练的神经网络中,得到神经网络输出的各个物体框中的图像之间的相似度,进而根据物体框中的图像的相似度对物体框进行筛选;为非极大值抑制设置较大的阈值,以得到较多数量的目标框,避免非极大值抑制错误的去除了物体框。
2.根据权利要求1所述的方法,其特征在于,具有目标尺寸的第二特征图可以通过以下方式得到:
对小于所述目标尺寸的至少一个其他尺寸的第一特征图进行上采样,得到所述其他尺寸的第一特征图对应的上采样特征图,所述上采样特征图具有目标尺寸;
对具有所述目标尺寸的第一特征图以及所述上采样特征图进行融合,得到具有所述目标尺寸的第二特征图。
3.一种图像识别装置,其特征在于,包括:
第一特征图获取单元,用于对待识别图像进行卷积处理,得到多个不同尺寸的第一特征图;
所述第一特征图获取单元,包括:第一特征图获取子单元,用于利用残差网络和/或特征金字塔对待识别图像进行卷积处理,得到多个不同尺寸的第一特征图;
所述第一特征图获取子单元,包括:初始特征图获取单元,用于利用残差网络和/或特征金字塔对待识别图像进行卷积处理,得到多个不同尺寸的初始特征图;处理单元,用于分别对各个所述初始特征图进行卷积处理和上采样处理,得到与各个所述初始特征图对应的第一特征图;在所述第一特征图和所述第一特征图对应的初始特征图的尺寸一致的情况下,卷积处理和上采样处理的次数一致,而在所述第一特征图和所述第一特征图对应的初始特征图的尺寸不一致的情况下,卷积处理和上采样处理的次数不一致;
第二特征图获取单元,用于对所述第一特征图进行上采样处理,并进行多个所述第一特征图之间的特征融合,得到多个不同尺寸的第二特征图;
分类结果获取单元,用于基于所述第二特征图得到所述待识别图像的分类结果;
所述分类结果获取单元,包括:物体框获取单元,用于对所述第二特征图进行处理,得到所述待识别图像中的目标对象对应的多个物体框;筛选单元,用于利用非极大值抑制的方法对所述多个物体框进行筛选,得到所述待识别图像的分类结果;
所述筛选单元,包括:第一筛选子单元,用于利用非极大值抑制的方法对所述多个物体框进行筛选,得到所述待识别图像中的目标对象对应的目标框;相似度获取单元,用于将所述待识别图像中的目标对象对应的目标框输入完成训练的神经网络中,得到所述神经网络输出的多个目标框中的目标图像之间的相似度;第二筛选子单元,用于基于所述相似度对所述目标框进行筛选,得到所述待识别图像的分类结果;
在得到物体框后,将待识别图像中的目标对象对应的物体框输入完成训练的神经网络中,得到神经网络输出的各个物体框中的图像之间的相似度,进而根据物体框中的图像的相似度对物体框进行筛选;为非极大值抑制设置较大的阈值,以得到较多数量的目标框,避免非极大值抑制错误的去除了物体框。
4.根据权利要求3所述的装置,其特征在于,具有目标尺寸的第二特征图可以通过以下方式得到:
对小于所述目标尺寸的至少一个其他尺寸的第一特征图进行上采样,得到所述其他尺寸的第一特征图对应的上采样特征图,所述上采样特征图具有目标尺寸;
对具有所述目标尺寸的第一特征图以及所述上采样特征图进行融合,得到具有所述目标尺寸的第二特征图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911370722.5A CN111144484B (zh) | 2019-12-26 | 2019-12-26 | 一种图像识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911370722.5A CN111144484B (zh) | 2019-12-26 | 2019-12-26 | 一种图像识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111144484A CN111144484A (zh) | 2020-05-12 |
CN111144484B true CN111144484B (zh) | 2020-10-23 |
Family
ID=70520587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911370722.5A Active CN111144484B (zh) | 2019-12-26 | 2019-12-26 | 一种图像识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111144484B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111931873B (zh) * | 2020-09-28 | 2020-12-22 | 支付宝(杭州)信息技术有限公司 | 图像识别方法和装置 |
CN113688699B (zh) * | 2021-08-09 | 2024-03-08 | 平安科技(深圳)有限公司 | 一种目标对象的检测方法、装置、存储介质以及电子设备 |
CN113674300B (zh) * | 2021-08-24 | 2022-10-28 | 苏州天准软件有限公司 | 用于cnc自动测量的模型训练方法、测量方法及***、设备、介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10068171B2 (en) * | 2015-11-12 | 2018-09-04 | Conduent Business Services, Llc | Multi-layer fusion in a convolutional neural network for image classification |
CN107169421B (zh) * | 2017-04-20 | 2020-04-28 | 华南理工大学 | 一种基于深度卷积神经网络的汽车驾驶场景目标检测方法 |
CN108846379A (zh) * | 2018-07-03 | 2018-11-20 | 南京览笛信息科技有限公司 | 面单识别方法、***、终端设备及存储介质 |
CN109145769A (zh) * | 2018-08-01 | 2019-01-04 | 辽宁工业大学 | 融合图像分割特征的目标检测网络设计方法 |
CN109816671B (zh) * | 2019-01-31 | 2021-09-24 | 深兰科技(上海)有限公司 | 一种目标检测方法、装置及存储介质 |
-
2019
- 2019-12-26 CN CN201911370722.5A patent/CN111144484B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111144484A (zh) | 2020-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111144484B (zh) | 一种图像识别方法及装置 | |
CN110751134B (zh) | 目标检测方法、装置、存储介质及计算机设备 | |
US9779354B2 (en) | Learning method and recording medium | |
CN112396115B (zh) | 基于注意力机制的目标检测方法、装置及计算机设备 | |
EP3144851A1 (en) | Image recognition method | |
WO2020192433A1 (zh) | 多语言文本检测识别方法和设备 | |
US20230237666A1 (en) | Image data processing method and apparatus | |
US10592726B2 (en) | Manufacturing part identification using computer vision and machine learning | |
JP2017059207A (ja) | 画像認識方法 | |
CN111062964B (zh) | 图像分割方法及相关装置 | |
JP7026165B2 (ja) | テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体 | |
CN109816659B (zh) | 图像分割方法、装置及*** | |
CN112997190A (zh) | 车牌识别方法、装置及电子设备 | |
CN112633159A (zh) | 人-物交互关系识别方法、模型训练方法及对应装置 | |
JP2019164618A (ja) | 信号処理装置、信号処理方法およびプログラム | |
CN113160272B (zh) | 目标跟踪方法、装置、电子设备及存储介质 | |
CN114419428A (zh) | 一种目标检测方法、目标检测装置和计算机可读存储介质 | |
CN117079305A (zh) | 姿态估计方法、姿态估计装置以及计算机可读存储介质 | |
WO2020244076A1 (zh) | 人脸识别方法、装置、电子设备及存储介质 | |
CN113312445B (zh) | 数据处理方法、模型构建方法、分类方法及计算设备 | |
WO2022252519A1 (zh) | 图像处理方法、装置、终端、介质和程序 | |
CN112801045B (zh) | 一种文本区域检测方法、电子设备及计算机存储介质 | |
CN114973424A (zh) | 特征提取模型训练、手部动作识别方法、装置及电子设备 | |
CN114842482A (zh) | 一种图像分类方法、装置、设备和存储介质 | |
CN116266394A (zh) | 多模态的情绪识别方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |