CN111401359A - 目标识别方法、装置、电子设备和存储介质 - Google Patents
目标识别方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN111401359A CN111401359A CN202010116980.7A CN202010116980A CN111401359A CN 111401359 A CN111401359 A CN 111401359A CN 202010116980 A CN202010116980 A CN 202010116980A CN 111401359 A CN111401359 A CN 111401359A
- Authority
- CN
- China
- Prior art keywords
- response
- region
- candidate
- image
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000004044 response Effects 0.000 claims description 147
- 238000009826 distribution Methods 0.000 claims description 23
- 230000001629 suppression Effects 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 8
- 230000008901 benefit Effects 0.000 abstract description 6
- 238000001514 detection method Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000003708 edge detection Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了目标识别方法、装置、电子设备和存储介质。所述方法包括:获取待识别图像;对所述待识别图像进行位置识别,得到位置识别结果,并根据位置识别结果确定所述待识别图像的候选区域集合;对候选区域集合中的各候选区域进行目标类别识别,得到类别识别结果。有益效果在于,将目标位置的识别与目标类别的的识别作为两个阶段,利用多个候选区域进行目标类别的识别,能够更充分地利用待识别图像中的有效信息,提高类别识别的精确度,提高目标识别的效果。
Description
技术领域
本申请涉及计算机视觉领域,具体涉及目标识别方法、装置、电子设备和存储介质。
背景技术
计算机视觉可以让计算机“代替”人眼,从视频或图像中识别出有效的信息,在自动驾驶、活体检测等场景下有着重要意义。计算机视觉领域的一个常见任务就是如何从图像中识别出人、车、树等各类目标,但现有技术的识别准确度不高,尤其是容易将某些相近似的目标混淆,亟待解决。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的目标识别方法、装置、电子设备和存储介质。
依据本申请的一个方面,提供了一种目标识别方法,包括:
获取待识别图像;
对所述待识别图像进行位置识别,得到位置识别结果,并根据位置识别结果确定所述待识别图像的候选区域集合;
对候选区域集合中的各候选区域进行目标类别识别,得到类别识别结果。
可选地,所述对所述待识别图像进行位置识别,得到位置识别结果包括:
通过神经网络从所述待识别图像中识别出目标的多个响应区域,得到响应区域集合;从所述响应区域集合中选出最优响应区域,作为位置识别结果;
所述根据位置识别结果确定所述待识别图像的候选区域集合包括:
根据所述响应区域集合中的剩余响应区域与所述最优响应区域的关联性,从所述响应区域集合中选取出关联响应区域;将最优响应区域和关联相应区域作为候选区域,得到所述候选区域集合。
可选地,所述从所述响应区域集合中选出最优响应区域包括:
根据非极大值抑制方式从所述响应区域中选出最优响应区域。
可选地,所述根据所述响应区域集合中的剩余响应区域与所述最优响应区域的关联性,从所述响应区域集合中选取出关联响应区域包括:
分别计算各剩余响应区域与所述最优响应区域的交并比;
将交并比落入预设区间的剩余响应区域按照置信度筛选出关联响应区域。
可选地,所述对候选区域集合中的各候选区域进行目标类别识别,得到类别识别结果包括:
对各候选区域分别进行目标类别识别,得到与各候选区域对应的类别识别子结果;
对各类别识别子结果进行软投票,得到最终的类别识别结果。
可选地,所述对各类别识别子结果进行软投票,得到最终的类别识别结果包括:
将表征类别识别子结果的类别概率分布按各候选区域的软投票权值进行加权,得到加权后的类别概率分布;
将各类别概率分布按照类别维度分别求和,得到汇总的类别概率分布;
将概率最大的类别作为类别识别结果。
可选地,所述软投票权值是根据各候选区域与所述最优响应区域的交并比确定的。
依据本申请的另一方面,提供了一种目标识别装置,包括:
获取单元,用于获取待识别图像;
识别单元,用于对所述待识别图像进行位置识别,得到位置识别结果,并根据位置识别结果确定所述待识别图像的候选区域集合;对候选区域集合中的各候选区域进行目标类别识别,得到类别识别结果。
可选地,所述识别单元,用于通过神经网络从所述待识别图像中识别出目标的多个响应区域,得到响应区域集合;从所述响应区域集合中选出最优响应区域,作为位置识别结果;根据所述响应区域集合中的剩余响应区域与所述最优响应区域的关联性,从所述响应区域集合中选取出关联响应区域;将最优响应区域和关联相应区域作为候选区域,得到所述候选区域集合。
可选地,所述识别单元,用于根据非极大值抑制方式从所述响应区域中选出最优响应区域。
可选地,所述识别单元,用于分别计算各剩余响应区域与所述最优响应区域的交并比;将交并比落入预设区间的剩余响应区域按照置信度筛选出关联响应区域。
可选地,所述识别单元,用于对各候选区域分别进行目标类别识别,得到与各候选区域对应的类别识别子结果;对各类别识别子结果进行软投票,得到最终的类别识别结果。
可选地,所述识别单元,用于将表征类别识别子结果的类别概率分布按各候选区域的软投票权值进行加权,得到加权后的类别概率分布;将各类别概率分布按照类别维度分别求和,得到汇总的类别概率分布;将概率最大的类别作为类别识别结果。
可选地,所述软投票权值是根据各候选区域与所述最优响应区域的交并比确定的。
依据本申请的又一方面,提供了一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如上述任一所述的方法。
依据本申请的再一方面,提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如上述任一所述的方法。
由上述可知,本申请的技术方案,在获取到待识别图像后,先从待识别图像中识别出与目标对应的候选区域集合,再对对候选区域集合中的各候选区域进行目标类别识别,得到类别识别结果,以及根据类别识别结果确定位置识别结果。该技术方案的有益效果在于,将目标位置的识别与目标类别的的识别作为两个阶段,利用多个候选区域进行目标类别的识别,能够更充分地利用待识别图像中的有效信息,提高类别识别的精确度,提高目标识别的效果。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本申请一个实施例的一种目标识别方法的流程示意图;
图2示出了根据本申请一个实施例的一种目标识别装置的结构示意图;
图3示出了根据本申请一个实施例的电子设备的结构示意图;
图4示出了根据本申请一个实施例的计算机可读存储介质的结构示意图;
图5示出了一种目标识别方法的错误原因分析图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
对目标进行识别,主要包括两方面:一是确定目标的位置,即确定目标在图像中的位置,对目标的位置进行识别,也称为目标检测;二是确定目标的类别,如目标是车辆,则可以确定目标是卡车、小汽车还是救护车等,也称为目标分类。基于这两方面,可以通过以下两种思路进行方案设计。
思路一:将目标检测和目标分类作为一个任务,训练目标识别模型。但是缺点在于,这类模型对于某些类别分布不均衡的目标,如交通标志,效果并不好,类别较少的交通标志很容易被类别较多的交通标志覆盖掉。而且,这类模型的类别区分部分用的神经网络比较轻量,效果也难以满足需求。
思路二:先进行目标检测,比如在图像中以包围框标记出交通指示牌的位置;再对包围框内的图像进行识别,以确定交通指示牌的类别。然而,这种情况下,类别识别的效果与目标检测的结果有着密切关联,如果目标检测的结果中缺少部分有效信息,就会产生识别错误。
如图5所示,图5上部的图像是通过目标检测网络从待识别图像中切割出来的目标图像,由于待识别图像的清晰度不高,因此对其进行识别,得到的结果是目标为限速60km/h的交通标志。但实际上该交通标志为限速50km/h,可见识别并不准确。这是因为在切割出目标图像时,必然会损失一部分待识别图像所包含的信息,实际对于该例而言,如果将切割的区域稍微平移一点,得到图5下部所示的目标图像,就能够准确识别出其是一个限速50km/h的交通标志。
因此,本申请的设计思路在于,将目标检测与目标分类作为两个阶段,先进行目标检测,但区别于现有技术,并不是输出一个检测框,而是多个相关联的检测框,作为候选区域;再对每个候选区域进行目标分类,综合各候选区域的分类结果,确定最终的目标类别,再根据目标类别确定一个具体的目标位置。
图1示出了根据本申请一个实施例的一种目标识别方法的流程示意图。
如图1所示,该方法包括:
步骤S110,获取待识别图像。例如,可以将自动驾驶项目中的道路采集图像作为待识别图像,以进行交通标志的识别。
步骤S120,对待识别图像进行位置识别,得到位置识别结果,并根据位置识别结果确定待识别图像的候选区域集合。
这里,可以选择现有的任一种目标检测方法,检测得到目标的掩膜(mask)或是包围框(bounding box)。实际上目标检测算法可以输出目标的多个区域,但一般只会将概率最高的区域输出,在本申请的实施例中,还可以令其输出多个区域,作为目标的候选区域。
步骤S130,对候选区域集合中的各候选区域进行目标类别识别,得到类别识别结果。
这里可以对每个候选区域分别进行目标类别识别,得到多个类别识别子结果,再根据这些类别识别子结果确定类别识别结果。这样,就能充分利用待识别图像中的有效信息,避免仅根据一个候选区域进行识别导致有效信息的遗漏而产生的识别失败情况。
可见,图1所示的方法,将目标位置的识别与目标类别的的识别作为两个阶段,利用多个候选区域进行目标类别的识别,能够更充分地利用待识别图像中的有效信息,提高类别识别的精确度,提高目标识别的效果。
在本申请的一个实施例中,上述方法中,对待识别图像进行位置识别,得到位置识别结果包括:通过神经网络从待识别图像中识别出目标的多个响应区域,得到响应区域集合;从响应区域集合中选出最优响应区域,作为位置识别结果;根据位置识别结果确定待识别图像的候选区域集合包括:根据响应区域集合中的剩余响应区域与最优响应区域的关联性,从响应区域集合中选取出关联响应区域;将最优响应区域和关联相应区域作为候选区域,得到候选区域集合。
这里的神经网络可以选用Faster R-CNN(更快速的基于区域的卷积神经网络)、RFCN(基于区域的全卷积网络)、SSD(单次多边界框检测器)以及YOLO等。神经网络往往会对一个目标有多个响应区域pk,记响应区域集合为P={p1,p2,p3,p4,…,pn},然后从中选出最优响应区域,记为p,对应于位置识别结果。
在本申请的实施例中,认为p可能遗漏了部分可以用于目标分类的有效信息,问题在于如何获取这些可能遗漏的有效信息。本申请的实施例示出了通过响应区域集合中,剩余响应区域与最优响应区域的关联性进行筛选,得到候选区域的方式,这种方式下,第二批选出的候选区域与第一批选出的最优响应区域之间具有足够高的关联性,并且包含了更多信息,有助于后续进行目标分类。
在本申请的一个实施例中,上述方法中,从响应区域集合中选出最优响应区域包括:根据非极大值抑制方式从响应区域中选出最优响应区域。
非极大值抑制(Non-maximum suppression,NMS)是一种去除非极大值的算法,常用于计算机视觉中的边缘检测、目标识别。
具体的算法流程可以参考下面的示例:
在准备阶段,需要一张图片和上面许多目标检测的候选框(即每个框可能都代表某个目标),但是这些框很可能有互相重叠的部分,我们要做的就是只保留最优的框。假设有N个框,每个框被分类器计算得到的分数为Si,1≤i≤N。
具体进行非极大值抑制时,第一步:建造一个存放待处理候选框的集合H,初始化为包含全部N个框;建造一个存放最优框的集合M,初始化为空集。第二步:将所有集合H中的框进行排序,选出分数最高的框m,从集合H移到集合M。第三步:遍历集合H中的框,分别与框m计算交并比(Interection-over-union,IoU),如果高于某个阈值(一般为0~0.5),则认为此框与m重叠,将此框从集合H中去除。第四步:回到第二步进行迭代,直到集合H为空。
最终集合M中的框就是我们需要的结果。
在本申请的一个实施例中,上述方法中,根据响应区域集合中的剩余响应区域与最优响应区域的关联性,从响应区域集合中选取出关联响应区域包括:分别计算各剩余响应区域与最优响应区域的交并比;将交并比落入预设区间的剩余响应区域按照置信度筛选出关联响应区域。
该实施例参考了非极大值抑制时使用的交并比,通过交并比先确定若干个响应区域,如果数量过多,那么还可以根据置信度(即神经网络输出的候选区域的概率)由高到低选出预设数量个关联响应区域。在一个优选实施例中,关联响应区域的数量可以为4。
一个具体实施例中,要求关联响应区域与最优相应区域的交并比IOU∈[minIOU,maxIOU]。minIOU的选取是为了保证关联响应区域跟最优响应区域有尽可能的关联,在一个优选实施例中取值为0.6;maxIOU是为了保证关联响应区域跟最优响应区域有一定的差异,即纳入更多有效信息,一个优选实施例中取值为0.9。
在本申请的一个实施例中,上述方法中,对候选区域集合中的各候选区域进行目标类别识别,得到类别识别结果包括:对各候选区域分别进行目标类别识别,得到与各候选区域对应的类别识别子结果;对各类别识别子结果进行软投票,得到最终的类别识别结果。
软投票(Soft voting)与硬投票(Hard voting,或Majority voting)是集成学***均概率投票,它是使用输出的类概率来进行分类的投票法,通过输入权值,得到每个类的类概率的加权平均值,值大的那一类会被选择。
由于本申请的实施例是根据多个类别识别子结果确定一个类别识别结果,即对多个类别识别的结果进行集成,符合集成学习的场景,因此可以选用软投票机制。
具体地,在本申请的一个实施例中,上述方法中,对各类别识别子结果进行软投票,得到最终的类别识别结果包括:将表征类别识别子结果的类别概率分布按各候选区域的软投票权值进行加权,得到加权后的类别概率分布;将各类别概率分布按照类别维度分别求和,得到汇总的类别概率分布;将概率最大的类别作为类别识别结果。
对于分类网络而言,每个图像的识别结果都是一个n维的概率向量,n是识别模型的类别数,可以看做是表征了各类别的概率分布。
举一个简化的例子而言,候选区域A的识别结果为:0.1的概率为大型车,0.2的概率为中型车,0.7的概率为小型车,那么候选区域A的概率向量为(0.1,0.2,0.7);候选区域B的识别结果为:0.2的概率为大型车,0.2的概率为中型车,0.6的概率为小型车,那么候选区域B的概率向量为(0.2,0.2,0.6)。候选区域A的权值为0.4,候选区域B的权值为0.6,那么最终的概率向量是(0.16,0.2,0.64),也就是0.16的概率为大型车,0.2的概率为中型车,0.64的概率为小型车,最终确定的类别识别结果为小型车。
在本申请的一个实施例中,上述方法中,软投票权值是根据各候选区域与最优响应区域的交并比确定的。
软投票权值的计算通过各候选区域与最优响应区域的IOU值所占的比例来进行。最优响应区域本身的IOU值为1,而其他各候选区域与最优响应区域的的IOU为{IOU0,IOU1,…IOUk},这样第i个框的权值可见,最优响应区域的权值最高,避免了干扰;但同时也综合考虑了其他候选区域的类别识别结果。IOU值越高,也就说明两个区域包含的信息越一致,可以根据不一致的部分信息进行识别结果的校正。
本申请的技术方案理论上适用于把目标识别分为目标检测和目标分类两个阶段的各类场景,尤其是对交通标志等需要细分类别而样本数量不均的任务,表现效果更好。下表示出了以交通标志识别数据集为基础进行的实验结果。
交通标志识别数据集 | 召回率 | 准确率 |
对照组 | 92.85% | 80.26% |
实验组 | 93.03% | 81.82% |
其中,实验组所采用的的方案是综合了上述实施例,并且交并比区间取值[0.6,0.9],候选区域数量为5的方案。对照组是仅利用一个最优响应区域进行类别识别的方案。可见,实验组的召回率和准确率均较对照组有着明显的提升。具体地,召回率为识别正确的交通标志数目与总交通标志数目的比值,准确率为识别正确的交通标志数目与模型识别出的交通标志数目的比值。
图2示出了根据本申请一个实施例的一种目标识别装置的结构示意图。如图2所示,目标识别装置200包括:
获取单元210,用于获取待识别图像。例如,可以将自动驾驶项目中的道路采集图像作为待识别图像,以进行交通标志的识别。
识别单元220,用于对待识别图像进行位置识别,得到位置识别结果,并根据位置识别结果确定待识别图像的候选区域集合;对候选区域集合中的各候选区域进行目标类别识别,得到类别识别结果。
这里,可以选择现有的任一种目标检测方法,检测得到目标的掩膜(mask)或是包围框(bounding box)。实际上目标检测算法可以输出目标的多个区域,但一般只会将概率最高的区域输出,在本申请的实施例中,还可以令其输出多个区域,作为目标的候选区域。可以对每个候选区域分别进行目标类别识别,得到多个类别识别子结果,再根据这些类别识别子结果确定类别识别结果。这样,就能充分利用待识别图像中的有效信息,避免仅根据一个候选区域进行识别导致有效信息的遗漏而产生的识别失败情况。
可见,图2所示的装置,将目标位置的识别与目标类别的的识别作为两个阶段,利用多个候选区域进行目标类别的识别,能够更充分地利用待识别图像中的有效信息,提高类别识别的精确度,提高目标识别的效果。
在本申请的一个实施例中,上述装置中,识别单元220,用于通过神经网络从待识别图像中识别出目标的多个响应区域,得到响应区域集合;从响应区域集合中选出最优响应区域,作为位置识别结果;根据响应区域集合中的剩余响应区域与最优响应区域的关联性,从响应区域集合中选取出关联响应区域;将最优响应区域和关联相应区域作为候选区域,得到候选区域集合。
这里的神经网络可以选用Faster R-CNN(更快速的基于区域的卷积神经网络)、RFCN(基于区域的全卷积网络)、SSD(单次多边界框检测器)以及YOLO等。神经网络往往会对一个目标有多个响应区域pk,记响应区域集合为P={p1,p2,p3,p4,…,pn},然后从中选出最优响应区域,记为p,对应于位置识别结果。
在本申请的实施例中,认为p可能遗漏了部分可以用于目标分类的有效信息,问题在于如何获取这些可能遗漏的有效信息。本申请的实施例示出了通过响应区域集合中,剩余响应区域与最优响应区域的关联性进行筛选,得到候选区域的方式,这种方式下,第二批选出的候选区域与第一批选出的最优响应区域之间具有足够高的关联性,并且包含了更多信息,有助于后续进行目标分类。
在本申请的一个实施例中,上述装置中,识别单元220,用于根据非极大值抑制方式从响应区域中选出最优响应区域。
非极大值抑制(Non-maximum suppression,NMS)是一种去除非极大值的算法,常用于计算机视觉中的边缘检测、目标识别。
具体的算法流程可以参考下面的示例:
在准备阶段,需要一张图片和上面许多目标检测的候选框(即每个框可能都代表某个目标),但是这些框很可能有互相重叠的部分,我们要做的就是只保留最优的框。假设有N个框,每个框被分类器计算得到的分数为Si,1≤i≤N。
具体进行非极大值抑制时,第一步:建造一个存放待处理候选框的集合H,初始化为包含全部N个框;建造一个存放最优框的集合M,初始化为空集。第二步:将所有集合H中的框进行排序,选出分数最高的框m,从集合H移到集合M。第三步:遍历集合H中的框,分别与框m计算交并比(Interection-over-union,IoU),如果高于某个阈值(一般为0~0.5),则认为此框与m重叠,将此框从集合H中去除。第四步:回到第二步进行迭代,直到集合H为空。
最终集合M中的框就是我们需要的结果。
在本申请的一个实施例中,上述装置中,识别单元220,用于分别计算各剩余响应区域与最优响应区域的交并比;将交并比落入预设区间的剩余响应区域按照置信度筛选出关联响应区域。
该实施例参考了非极大值抑制时使用的交并比,通过交并比先确定若干个响应区域,如果数量过多,那么还可以根据置信度(即神经网络输出的候选区域的概率)由高到低选出预设数量个关联响应区域。在一个优选实施例中,关联响应区域的数量可以为4。
一个具体实施例中,要求关联响应区域与最优相应区域的交并比IOU∈[minIOU,maxIOU]。minIOU的选取是为了保证关联响应区域跟最优响应区域有尽可能的关联,在一个优选实施例中取值为0.6;maxIOU是为了保证关联响应区域跟最优响应区域有一定的差异,即纳入更多有效信息,一个优选实施例中取值为0.9。
在本申请的一个实施例中,上述装置中,识别单元220,用于对各候选区域分别进行目标类别识别,得到与各候选区域对应的类别识别子结果;对各类别识别子结果进行软投票,得到最终的类别识别结果。
软投票(Soft voting)与硬投票(Hard voting,或Majority voting)是集成学***均概率投票,它是使用输出的类概率来进行分类的投票法,通过输入权值,得到每个类的类概率的加权平均值,值大的那一类会被选择。
由于本申请的实施例是根据多个类别识别子结果确定一个类别识别结果,即对多个类别识别的结果进行集成,符合集成学习的场景,因此可以选用软投票机制。
具体地,在本申请的一个实施例中,上述装置中,识别单元220,用于将表征类别识别子结果的类别概率分布按各候选区域的软投票权值进行加权,得到加权后的类别概率分布;将各类别概率分布按照类别维度分别求和,得到汇总的类别概率分布;将概率最大的类别作为类别识别结果。
对于分类网络而言,每个图像的识别结果都是一个n维的概率向量,n是识别模型的类别数,可以看做是表征了各类别的概率分布。
举一个简化的例子而言,候选区域A的识别结果为:0.1的概率为大型车,0.2的概率为中型车,0.7的概率为小型车,那么候选区域A的概率向量为(0.1,0.2,0.7);候选区域B的识别结果为:0.2的概率为大型车,0.2的概率为中型车,0.6的概率为小型车,那么候选区域B的概率向量为(0.2,0.2,0.6)。候选区域A的权值为0.4,候选区域B的权值为0.6,那么最终的概率向量是(0.16,0.2,0.64),也就是0.16的概率为大型车,0.2的概率为中型车,0.64的概率为小型车,最终确定的类别识别结果为小型车。
在本申请的一个实施例中,上述装置中,软投票权值是根据各候选区域与最优响应区域的交并比确定的。
软投票权值的计算通过各候选区域与最优响应区域的IOU值所占的比例来进行。最优响应区域本身的IOU值为1,而其他各候选区域与最优响应区域的的IOU为{IOU0,IOU1,…IOUk},这样第i个框的权值可见,最优响应区域的权值最高,避免了干扰;但同时也综合考虑了其他候选区域的类别识别结果。IOU值越高,也就说明两个区域包含的信息越一致,可以根据不一致的部分信息进行识别结果的校正。
综上所述,本申请的技术方案,在获取到待识别图像后,先从待识别图像中识别出与目标对应的候选区域集合,再对对候选区域集合中的各候选区域进行目标类别识别,得到类别识别结果,以及根据类别识别结果确定位置识别结果。该技术方案的有益效果在于,将目标位置的识别与目标类别的的识别作为两个阶段,利用多个候选区域进行目标类别的识别,能够更充分地利用待识别图像中的有效信息,提高类别识别的精确度,提高目标识别的效果。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的目标识别装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图3示出了根据本申请一个实施例的电子设备的结构示意图。该电子设备300包括处理器310和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器320。存储器320可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器320具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码331的存储空间330。例如,用于存储计算机可读程序代码的存储空间330可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码331。计算机可读程序代码331可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图4所述的计算机可读存储介质。图4示出了根据本申请一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质400存储有用于执行根据本申请的方法步骤的计算机可读程序代码331,可以被电子设备300的处理器310读取,当计算机可读程序代码331由电子设备300运行时,导致该电子设备300执行上面所描述的方法中的各个步骤,具体来说,该计算机可读存储介质存储的计算机可读程序代码331可以执行上述任一实施例中示出的方法。计算机可读程序代码331可以以适当形式进行压缩。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种目标识别方法,包括:
获取待识别图像;
对所述待识别图像进行位置识别,得到位置识别结果,并根据位置识别结果确定所述待识别图像的候选区域集合;
对候选区域集合中的各候选区域进行目标类别识别,得到类别识别结果。
2.如权利要求1所述的方法,其特征在于,所述对所述待识别图像进行位置识别,得到位置识别结果包括:
通过神经网络从所述待识别图像中识别出目标的多个响应区域,得到响应区域集合;从所述响应区域集合中选出最优响应区域,作为位置识别结果;
所述根据位置识别结果确定所述待识别图像的候选区域集合包括:
根据所述响应区域集合中的剩余响应区域与所述最优响应区域的关联性,从所述响应区域集合中选取出关联响应区域;将最优响应区域和关联相应区域作为候选区域,得到所述候选区域集合。
3.如权利要求2所述的方法,其特征在于,所述从所述响应区域集合中选出最优响应区域包括:
根据非极大值抑制方式从所述响应区域中选出最优响应区域。
4.如权利要求2所述的方法,其特征在于,所述根据所述响应区域集合中的剩余响应区域与所述最优响应区域的关联性,从所述响应区域集合中选取出关联响应区域包括:
分别计算各剩余响应区域与所述最优响应区域的交并比;
将交并比落入预设区间的剩余响应区域按照置信度筛选出关联响应区域。
5.如权利要求2所述的方法,其特征在于,所述对候选区域集合中的各候选区域进行目标类别识别,得到类别识别结果包括:
对各候选区域分别进行目标类别识别,得到与各候选区域对应的类别识别子结果;
对各类别识别子结果进行软投票,得到最终的类别识别结果。
6.如权利要求5所述的方法,其特征在于,所述对各类别识别子结果进行软投票,得到最终的类别识别结果包括:
将表征类别识别子结果的类别概率分布按各候选区域的软投票权值进行加权,得到加权后的类别概率分布;
将各类别概率分布按照类别维度分别求和,得到汇总的类别概率分布;
将概率最大的类别作为类别识别结果。
7.如权利要求6所述的方法,其特征在于,所述软投票权值是根据各候选区域与所述最优响应区域的交并比确定的。
8.一种目标识别装置,包括:
获取单元,用于获取待识别图像;
识别单元,用于对所述待识别图像进行位置识别,得到位置识别结果,并根据位置识别结果确定所述待识别图像的候选区域集合;对候选区域集合中的各候选区域进行目标类别识别,得到类别识别结果。
9.一种电子设备,其中,该电子设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010116980.7A CN111401359A (zh) | 2020-02-25 | 2020-02-25 | 目标识别方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010116980.7A CN111401359A (zh) | 2020-02-25 | 2020-02-25 | 目标识别方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111401359A true CN111401359A (zh) | 2020-07-10 |
Family
ID=71432097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010116980.7A Pending CN111401359A (zh) | 2020-02-25 | 2020-02-25 | 目标识别方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111401359A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113643420A (zh) * | 2021-07-02 | 2021-11-12 | 北京三快在线科技有限公司 | 一种三维重建方法及装置 |
CN116229280A (zh) * | 2023-01-09 | 2023-06-06 | 广东省科学院广州地理研究所 | 崩岗识别方法、装置、电子设备以及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107977619A (zh) * | 2017-11-28 | 2018-05-01 | 北京航空航天大学 | 一种基于集成学习约束能量最小化的高光谱目标检测方法 |
US9996890B1 (en) * | 2017-07-14 | 2018-06-12 | Synapse Technology Corporation | Detection of items |
CN108229267A (zh) * | 2016-12-29 | 2018-06-29 | 北京市商汤科技开发有限公司 | 对象属性检测、神经网络训练、区域检测方法和装置 |
CN108629354A (zh) * | 2017-03-17 | 2018-10-09 | 杭州海康威视数字技术股份有限公司 | 目标检测方法及装置 |
CN109492643A (zh) * | 2018-10-11 | 2019-03-19 | 平安科技(深圳)有限公司 | 基于ocr的证件识别方法、装置、计算机设备及存储介质 |
WO2019246250A1 (en) * | 2018-06-20 | 2019-12-26 | Zoox, Inc. | Instance segmentation inferred from machine-learning model output |
CN110807139A (zh) * | 2019-10-23 | 2020-02-18 | 腾讯科技(深圳)有限公司 | 图片识别方法、装置、计算机可读存储介质和计算机设备 |
-
2020
- 2020-02-25 CN CN202010116980.7A patent/CN111401359A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229267A (zh) * | 2016-12-29 | 2018-06-29 | 北京市商汤科技开发有限公司 | 对象属性检测、神经网络训练、区域检测方法和装置 |
CN108629354A (zh) * | 2017-03-17 | 2018-10-09 | 杭州海康威视数字技术股份有限公司 | 目标检测方法及装置 |
US9996890B1 (en) * | 2017-07-14 | 2018-06-12 | Synapse Technology Corporation | Detection of items |
CN107977619A (zh) * | 2017-11-28 | 2018-05-01 | 北京航空航天大学 | 一种基于集成学习约束能量最小化的高光谱目标检测方法 |
WO2019246250A1 (en) * | 2018-06-20 | 2019-12-26 | Zoox, Inc. | Instance segmentation inferred from machine-learning model output |
CN109492643A (zh) * | 2018-10-11 | 2019-03-19 | 平安科技(深圳)有限公司 | 基于ocr的证件识别方法、装置、计算机设备及存储介质 |
CN110807139A (zh) * | 2019-10-23 | 2020-02-18 | 腾讯科技(深圳)有限公司 | 图片识别方法、装置、计算机可读存储介质和计算机设备 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113643420A (zh) * | 2021-07-02 | 2021-11-12 | 北京三快在线科技有限公司 | 一种三维重建方法及装置 |
CN116229280A (zh) * | 2023-01-09 | 2023-06-06 | 广东省科学院广州地理研究所 | 崩岗识别方法、装置、电子设备以及存储介质 |
CN116229280B (zh) * | 2023-01-09 | 2024-06-04 | 广东省科学院广州地理研究所 | 崩岗识别方法、装置、电子设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210213961A1 (en) | Driving scene understanding | |
CN108352072B (zh) | 物体跟踪方法、物体跟踪装置以及记录介质 | |
CN111428875A (zh) | 图像识别方法、装置及相应模型训练方法、装置 | |
CN110569701B (zh) | 计算机执行的车辆定损方法及装置 | |
CN107273832B (zh) | 基于积分通道特征与卷积神经网络的车牌识别方法及*** | |
CN111680698A (zh) | 图像识别方法、装置及图像识别模型的训练方法、装置 | |
CN106709475B (zh) | 障碍物识别方法及装置、计算机设备及可读存储介质 | |
CN111123927A (zh) | 轨迹规划方法、装置、自动驾驶设备和存储介质 | |
CN111507327B (zh) | 一种目标检测方法及装置 | |
CN113239982A (zh) | 检测模型的训练方法、目标检测方法、装置和电子*** | |
CN111401133A (zh) | 目标数据增广方法、装置、电子设备和可读存储介质 | |
CN110555347B (zh) | 具有危险载货行为的车辆目标识别方法、装置及电子设备 | |
CN109934216B (zh) | 图像处理的方法、装置、计算机可读存储介质 | |
CN111311540A (zh) | 车辆定损方法、装置、计算机设备和存储介质 | |
CN112906823B (zh) | 目标对象识别模型训练方法、识别方法及识别装置 | |
CN111241969A (zh) | 目标检测方法、装置及相应模型训练方法、装置 | |
CN111144315A (zh) | 目标检测方法、装置、电子设备和可读存储介质 | |
CN111160395A (zh) | 图像识别方法、装置、电子设备和存储介质 | |
CN114627437B (zh) | 一种交通目标识别方法及*** | |
CN111401359A (zh) | 目标识别方法、装置、电子设备和存储介质 | |
CN111400533A (zh) | 图像筛选方法、装置、电子设备和存储介质 | |
Toprak et al. | Conditional weighted ensemble of transferred models for camera based onboard pedestrian detection in railway driver support systems | |
CN114820644A (zh) | 对图像的像素进行分类的方法和设备 | |
CN112738470A (zh) | 一种高速公路隧道内停车检测的方法 | |
US20170053172A1 (en) | Image processing apparatus, and image processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200710 |
|
WD01 | Invention patent application deemed withdrawn after publication |