CN110738125B - 利用Mask R-CNN选择检测框的方法、装置及存储介质 - Google Patents

利用Mask R-CNN选择检测框的方法、装置及存储介质 Download PDF

Info

Publication number
CN110738125B
CN110738125B CN201910885674.7A CN201910885674A CN110738125B CN 110738125 B CN110738125 B CN 110738125B CN 201910885674 A CN201910885674 A CN 201910885674A CN 110738125 B CN110738125 B CN 110738125B
Authority
CN
China
Prior art keywords
iou
frame
polygonal
candidate detection
preset threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910885674.7A
Other languages
English (en)
Other versions
CN110738125A (zh
Inventor
陈欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910885674.7A priority Critical patent/CN110738125B/zh
Priority to PCT/CN2019/118279 priority patent/WO2021051601A1/zh
Publication of CN110738125A publication Critical patent/CN110738125A/zh
Application granted granted Critical
Publication of CN110738125B publication Critical patent/CN110738125B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像识别技术领域,提出利用Mask R‑CNN选择检测框的方法、装置及存储介质,其中的方法包括:使用Mask R‑CNN对目标图像进行实例分割,获得矩形的候选检测框以及所述候选检测框对应的多边形轮廓;分别计算所述候选检测框和所述多边形轮廓的IOU值;当所述候选检测框的IOU值大于第一预设阈值IOU1,且所述多边形轮廓的IOU值大于第二预设阈值IOU2时,筛选出所述候选检测框作为目标检测框;其中,所述第二预设阈值IOU2大于第一预设阈值IOU1。本发明通过多边形轮廓的IOU二次筛选,提升了检测框的检测精度。

Description

利用Mask R-CNN选择检测框的方法、装置及存储介质
技术领域
本发明涉及图像识别技术领域,尤其涉及一种利用Mask R-CNN选择检测框的方法、装置及存储介质。
背景技术
基于视频的运动人体检测和跟踪被广泛应用于银行、火车站等对安全要求较高的人员密集场所的监控中。而实时场景的人体跟踪比较复杂,存在背景变化、遮挡等其他干扰因素,难以同时满足检测的准确性、鲁棒性和实时性的要求。
目前的人体检测和跟踪方法是通过矩形搜索框来实现的。存在弊端如下:
1、搜索框通过IOU进行评价检测结果,即使符合IOU指标的搜索框,仍存在干扰图像;
2、目前搜索框的检测目标分类仅限于大类,比如人或者动物;而对于细节分类,比如男和女或者老和少无法进一步区分;
3、复杂背景下对人体进行检测时,受周围环境影响较大;比如当行人所穿的衣服颜色与背景着色相似或者背景光线变化较大时,很难从背景中分割出运动的人体;
4、当场景中有“影子”、“镜子”存在时,增加了搜索框中特征的复杂程度,干扰搜索框的检测,会造成“镜子中的人像是人”或者“影子区域是人”的误判;或者场景中存在运动的物体,如汽车或者摇摆的树、波动的水面也会增加搜索框中特征的复杂程度,增加检测难度。
鉴于以上问题的存在,亟须一种更好地排除干扰区分虚假目标以及进行分类更加细致的目标检测方法。
发明内容
本发明提供一种利用Mask R-CNN选择检测框的方法、电子装置及计算机可读存储介质,其主要通过实例分割技术得到目标的矩形框以及多边形轮廓点集,将得到的矩形框经过IOU值初步筛选后;再利用多边形轮廓点集经过IOU值二次筛选,将符合两次筛选的矩形框作为目标检测框,继续进行目标检测。
为实现上述目的,本发明还提供一种利用Mask R-CNN选择检测框的方法,应用于电子装置,所述方法包括:
S110、使用Mask R-CNN对目标图像进行实例分割,获得矩形的候选检测框以及其多边形轮廓;S120、分别计算所述候选检测框和所述多边形轮廓的IOU值;当所述候选检测框的IOU值大于第一预设阈值IOU1,且所述多边形轮廓的IOU值大于第二预设阈值IOU2时,筛选出所述候选检测框作为目标检测框;其中,所述第二预设阈值IOU2大于第一预设阈值IOU1
优选的,计算所述多边形轮廓的IOU值包括,通过二维数组映射编码方法计算所述多边形轮廓的IOU值;将所述多边形轮廓与其预测框分别映射至一个预先被线段组合分割的平面模板上,其中,所述线段组合将所述平面模板分割成等大的分割块;将多边形轮廓和其预测框的映射结果分别对应至与所述平面模板等大的二值图上,将每个分割块表示为二维数组的映射编码(A,B)形式;其中,分割块对应多边形轮廓的编码状态赋值为A,分割块对应预测框的编码状态赋值为B;当所述分割块位于所述多边形轮廓内时A=1,所述分割块位于所述多边形轮廓外时A=0;当所述分割块位于所述预测框内时B=1,所述分割块位于所述预测框外时B=0。
通过统计分割块的编码,求取IOU值;其中,IOU=编码为(1,1)的分割块的数量/[编码为(1,0)的分割块数量+编码为(0,1)的分割块数量+编码为(1,1)分割块数量]。
优选的,计算所述多边形轮廓的IOU值包括,对通过交并集面积方法计算所述多边形轮廓的IOU值;其中所述交并集面积方法包括:获得所述多边形轮廓与其预测框的关键点,并对所述关键点进行标注,其中关键点包括所述多边形轮廓与其预测框的各顶点以及所述多边形轮廓与其预测框的各交点;将所述交点以及交点内部的点,通过排序构成交集多边形的点集;计算多边形轮廓及其预测框的面积、交集多边形的面积,并根据所述多边形轮廓及其预测框的面积、交集多边形的面积计算出多边形轮廓的IOU值,IOU=交集多边形的面积/(多边形轮廓面积+预测框面积-交集多边形面积)。
优选的,所述第一预设阈值IOU1以及所述第二预设阈值IOU2的取值范围均为0.5-0.7。
优选的,在所述筛选出所述候选检测框作为目标检测框之后还包括:对所筛选出的所有候选检测框进行二维数组映射编码;对编码后的候选检测框进行重合度比对;当两个候选检测框的重合度大于重合阈值时,判定所述两个候选检测框所检测的目标中存在镜像。
为实现上述目的,本发明提供一种电子装置,该电子装置包括:存储器、处理器,所述存储器中包括检测框的选择程序,所述检测框的选择程序被所述处理器执行时实现如下步骤:S110、使用Mask R-CNN对目标图像进行实例分割,获得矩形的候选检测框以及其多边形轮廓;S120、分别计算所述候选检测框和所述多边形轮廓的IOU值,并各自与其预设阈值进行比较;其中,所述候选检测框的预设阈值为IOU1,所述多边形轮廓的预设阈值为IOU2,IOU2大于IOU1;S130、筛选所述候选检测框的IOU值大于IOU1,且其多边形轮廓的IOU值大于IOU2的候选检测框作为目标检测框。优选的,计算所述多边形轮廓的IOU值包括,通过二维数组映射编码方法计算所述多边形轮廓的IOU值;S210、将所述多边形轮廓与其预测框分别映射至一个预先被线段组合分割的平面模板上,其中,所述线段组合将所述平面模板分割成等大的分割块;S220、将多边形轮廓和其预测框的映射结果分别对应至与所述平面模板等大的二值图上,将每个分割块表示为二维数组的映射编码(A,B)形式;其中,分割块对应多边形轮廓的编码状态赋值为A,分割块对应预测框的编码状态赋值为B;当所述分割块位于所述多边形轮廓内时A=1,所述分割块位于所述多边形轮廓外时A=0;当所述分割块位于所述预测框内时B=1,所述分割块位于所述预测框外时B=0。S230、通过统计分割块的编码,求取IOU值;其中,IOU=编码为(1,1)的分割块的数量/[编码为(1,0)的分割块数量+编码为(0,1)的分割块数量+编码为(1,1)分割块数量]。优选的,所述第一预设阈值IOU1以及所述第二预设阈值IOU2的取值范围均为0.5-0.7。优选的,在所述筛选出所述候选检测框作为目标检测框之后还包括:对所筛选出的所有候选检测框进行二维数组映射编码;对编码后的候选检测框进行重合度比对;当两个候选检测框的重合度大于重合阈值时,判定所述两个候选检测框所检测的目标中存在镜像。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括检测框的选择程序,所述检测框的选择程序被处理器执行时,实现上述的利用Mask R-CNN选择检测框的方法的步骤。
本发明提出的利用Mask R-CNN选择检测框的方法、电子装置及计算机可读存储介质,利用Mask R-CNN(MaskRegion-based Convolutional Neural Network)神经网络进行的运算方法,监测图像在深度神经网络不断地被卷积和池化,利用神经网络算法对图像的关键特征进行提取和处理,得到的检测结果和类别(即获得图像中对象的矩形边框);将得到的矩形框与真实目标之间的重叠部分进行IOU值初步筛选;然后进一步利用Mask获得的多边形点集(即实例分割得到的多边形轮廓),将多边形点集与真实目标间的多边形进行IOU值的二次筛选,最终符合设定阈值的边框作为检测框。有益效果如下:
(1)、通过Mask R-CNN的Mask得到目标的多边形点集,在矩形候选框的基础上缩小像素范围(即缩小包围盒范围),从而实现更加细致的目标分类;
(2)、根据影子的特征,结合二维数组编码形成一种判断镜像是否存在的分析方法,从而实现对影子这种虚假目标的排除目的;
(3)、利用二维数组编码的方式计算多边形轮廓的IOU,精准快捷;
(4)、对于候选框的选择,先经过候选框的IOU初筛,再通过多边形点集的IOU二次筛选,进一步回归,得到更加精准的目标检测框。
附图说明
图1为本发明利用Mask R-CNN选择检测框的方法较佳实施例的流程图;
图2为本发明的利用二维数组映射编码方法计算IOU值的方法较佳实施例的流程图;
图3为本发明的二维数组映射编码方法的较佳实施例的示意图;
图4为本发明的电子装置的较佳实施例的结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明的是,在本文中,“第一”、“第二”字样仅仅用来将相同的名称区分开来,而不是暗示这些名称之间的关系或者顺序。
目标检测的目的是在图片或者视频中识别并定位特定类别的对象,检测的过程可以看做是一个分类的过程,区分目标和背景。而在检测过程中检测框的选择影响着检测中干扰的排除效果以及检测中分类的细致程度。
本发明提供一种利用Mask R-CNN选择检测框的方法。参照图1所示,为本发明利用Mask R-CNN选择检测框的方法较佳实施例的流程图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
其中,Mask R-CNN(MaskRegion-based Convolutional Neural Network)为用于预测图像中检测对象的类别并精调边框,进而分割检测对象的多边形轮廓的Mask;其中,边框(bounding box)为能够包括图像某个对象的最小的矩形框。
在本实施例中,利用Mask R-CNN选择检测框的方法包括:步骤S110-步骤S130。
S110、使用Mask R-CNN对目标图像进行实例分割,获得矩形的候选检测框以及其多边形轮廓。
Mask R-CNN的实例分割分为两步:第一步的动作是选取,所选取的候选框的位置和种类(即预测图像中对象的类别并精调边框),所选取的为矩形;第二步是的动作是分割,所分割的为多边形轮廓(通过掩码层Mask branch获得)。
S120、分别计算所述候选检测框和所述多边形轮廓的IOU值,且所述多边形轮廓的IOU值大于第二预设阈值IOU2时,筛选出所述候选检测框作为目标检测框;其中,所述第二预设阈值IOU2大于第一预设阈值IOU1需要说明的是,IOU(Intersection over Union,交并比),IOU可以理解为预测框和候选检测框的重合程度。
在一个具体的实施例中,第一预设阈值IOU1和第二预设阈值IOU2可根据不同的场景进行设置;而且,为了提高矩形检测框检测精度,将第二预设阈值IOU2大于第一预设阈值IOU1
先进行候选检测框与预测目标的第一次匹配,并对第一次匹配结果进行筛选,也就是说,进行所述候选检测框的IOU值大于IOU1的筛选。
然后进行多边形轮廓与预测目标的第二次匹配,并对第二次匹配结果进行筛选,也就是说,进行多边形轮廓的IOU值大于IOU2的筛选。
完成两次筛选过后的候选检测框作为最终的目标检测框。
在具体的实施例中,第一预设阈值IOU1和第二预设阈值IOU2的取值范围均为0.5-0.7。
综上所述,Mask R-CNN的实例分割获得的候选检测框与多边形轮廓两个分支结果,本发明将两个平行无交集的分支结果,建立了新的判断关系;通过利用候选检测框进行IOU初步筛选,并利用多边形轮廓进行IOU二次筛选;进而获得了检测精度更高的目标检测框。
参照图2所示,本发明的利用二维数组映射编码方法计算IOU值的方法较佳实施例的流程图;图2示出了,利用二维数组映射编码方法计算IOU值的方法包括步骤:S210-S230;
S210、将所述多边形轮廓与其预测框分别映射至一个预先被线段组合分割的平面模板上,其中,所述线段组合将所述平面模板分割成等大的分割块;
参照图3所示,本发明的二维数组映射编码方法的较佳实施例的示意图;图3示出了,二维数组映射编码方法的编码过程。
右侧为目标检测的对象,其外侧为多边形轮廓;将多边形轮廓映射到二值图上;如图3所示,二值图被选段组合分割成等大的分割块,二值图内的分割块包括编码为1的分割块和编码为0的分割块组成。
S220、将多边形轮廓和其预测框的映射结果分别对应至与所述平面模板等大的二值图上,将每个分割块表示为二维数组的映射编码(A,B)形式;其中,分割块对应多边形轮廓的编码状态赋值为A,分割块对应预测框的编码状态赋值为B;当所述分割块位于所述多边形轮廓内时A=1,所述分割块位于所述多边形轮廓外时A=0;当所述分割块位于所述预测框内时B=1,所述分割块位于所述预测框外时B=0。
如图3所示,将右侧的人形轮廓映射至左侧的二值图上,当所述分割块位于所述多边形轮廓内时分割块被赋值为1,所述分割块位于所述多边形轮廓外时分割块被赋值为0。赋值后的二值图如图3所示。
具体地说,因为多边形轮廓和多边形轮廓的预测框存在差异,每个分割块在对应多边形轮廓和对应多边形轮廓的预测框时,被赋值可能不同。如果一个分割块既在多边形轮廓内,也在多边形轮廓的预测框内,则该分割块的编码为(1,1);如果一个分割块只在多边形轮廓内,不在多边形轮廓的预测框内,则该分割块的编码为(1,0);如果一个分割块不在多边形轮廓内,只在多边形轮廓的预测框内,则该分割块的编码为(0,1);如果一个分割块既不在多边形轮廓内,也不在多边形轮廓的预测框内,则该分割块的编码为(0,0)。所以说,该分割块的编码出现了上述(1,1)、(1,0)、(0,1)和(0,0)四种编码情况。
S230、通过统计分割块的编码,求取IOU值;其中,IOU=编码为(1,1)的分割块的数量/[编码为(1,0)的分割块数量+编码为(0,1)的分割块数量+编码为(1,1)分割块数量]。
IOU=交集多边形的面积/(多边形轮廓面积+预测框面积-交集多边形面积);
因此,交集多边形的面积=多边形轮廓与其预测框之间相交的面积;并集多边形的面积=多边形轮廓面积+预测框面积-交集多边形面积;多边形轮廓与其预测框之间相交的面积也就是编码为(1,1)的所有分割块的面积;而并集多边形的面积等同于编码为(1,0)的分割块面积+编码为(0,1)的分割块面积+编码为(1,1)分割块面积;因此,交集多边形的面积/并集多边形的面积=IOU=编码为(1,1)的分割块的数量/[编码为(1,0)的分割块数量+编码为(0,1)的分割块数量+编码为(1,1)分割块数量]。
在具体的实施例中,当检测的场景中存在“影子”或者“镜子”时,会同时对检测目标以及目标的“镜像”(或者影子)产生检测框,非常容易造成存在两个检测目标的误判。对所获得的所有候选检测框进行二维数组映射编码;对编码后的候选检测框进行重合度比对;当两个候选检测框的重合度大于重合阈值时,判定所述两个候选检测框所检测的目标中存在镜像。
此处的重合阈值设定为75%;也就是说,如果两个候选检测框的编码重合度达到75%的时候,判定存在镜像或者影像等干扰,从而排除干扰。
在一个具体实施例中,计算所述多边形轮廓的IOU值包括,对通过交并集面积方法计算所述多边形轮廓的IOU值;其中所述交并集面积方法包括:S310、获得所述多边形轮廓与其预测框的关键点,并对所述关键点进行标注,其中关键点包括所述多边形轮廓与其预测框的各顶点以及所述多边形轮廓与其预测框的各交点;S320、将所述交点以及交点内部的点,通过排序构成交集多边形的点集;S330、计算多边形轮廓及其预测框的面积、交集多边形的面积,并根据所述多边形轮廓及其预测框的面积、交集多边形的面积计算出多边形轮廓的IOU值,IOU=交集多边形的面积/(多边形轮廓面积+预测框面积-交集多边形面积)。
本发明的一种基于Mask R-CNN提升矩形检测框检测精度的神经网络的结构包括:
Mask R-CNN总的来说,就是在实现目标检测的同时,把目标像素分割出来;换句话说,就是在基础的边框识别的架构上增加了Mask分支网络,其中Mask分支网络就是用于目标像素的分割,从而得到目标的多边形轮廓点集。
在CNN卷积层之后是在RoI Align层,之后就是掩码层、分类器和RoI边框修正训练(全连接层)。其中,Mask R-CNN继承了Faster R-CNN的RPN部分。
执行任务的过程包括:使用共享的卷积层为检测目标图像提取特征,然后将得到的feature maps送入RPN,RPN生成待检测框(指定RoI的位置)并对RoI的包围框进行第一次修正。之后就是Fast R-CNN的架构了,RoIAlign根据RPN的输出在feature map上面选取每个RoI对应的特征,并将维度置为定值。最后,使用全连接层(FC Layer)对框进行分类,并且进行目标包围框的第二次修正;最终得到候选检测框(box regression)和分类(classification)。
另一个分支为head部分,Mask R-CNN最终将RoIAlign的输出维度扩大,预测出一个Mask;也就是说,Mask branch所获得的结果即为多边形轮廓的点集。
而对于Mask R-CNN而言,预测Mask和分类(以及候选检测框)是各有各的训练参数。在Mask R-CNN模型训练之前,将所述Mask R-CNN模型的超参数设置为FAster R-CNN模型的参数值,并利用ResNet50、ResNet101、FPN网络对所述超参数进行预训练;进一步利用大量样本对Mask R-CNN模型进行训练,得到Mask R-CNN模型。训练得到Mask R-CNN模型后,利用测试样本对Mask R-CNN模型进行测试,以验证Mask R-CNN模型的准确性。
在一个具体的实施例中,训练的数据集为COCO trainval35k有80种物体类别和150万个物体实例。
在一个具体的实施例中,将训练后的Mask R-CNN模型检测得到的结果保存至分布式数据库中,以利用分布式数据库对训练后Mask R-CNN模型进行更新。
综上所述,输入的图像为目标的多角度的图像,形成样本库;将样本送入Mask R-CNN检测识别模型中进行训练,并在卷积层提取图像特征,最终得到准去的目标分类框和对应的目标状态以及实例分割的多边形点集。
本发明提供一种利用Mask R-CNN选择检测框的方法,应用于一种电子装置4。参照图4所示,为本发明利用Mask R-CNN选择检测框的方法较佳实施例的应用环境示意图。
在本实施例中,电子装置4可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。
该电子装置4包括:处理器42、存储器41、通信总线43及网络接口44。
存储器41包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器41等的非易失性存储介质。在一些实施例中,所述可读存储介质可以是所述电子装置4的内部存储单元,例如该电子装置4的硬盘。在另一些实施例中,所述可读存储介质也可以是所述电子装置4的外部存储器41,例如所述电子装置4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
在本实施例中,所述存储器41的可读存储介质通常用于存储安装于所述电子装置4的检测框的选择程序40等。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
处理器42在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器41中存储的程序代码或处理数据,例如执行检测框的选择程序40等。
通信总线43用于实现这些组件之间的连接通信。
网络接口44可选地可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子装置4与其他电子设备之间建立通信连接。
图4仅示出了具有组件41-44的电子装置4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该电子装置4还可以包括用户接口,用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等,可选地用户接口还可以包括标准的有线接口、无线接口。
可选地,该电子装置4还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。显示器用于显示在电子装置4中处理的信息以及用于显示可视化的用户界面。
可选地,该电子装置4还可以包括射频(Radio Frequency,RF)电路,传感器、音频电路等等,在此不再赘述。
在图4所示的装置实施例中,作为一种计算机存储介质的存储器41中可以包括操作***、以及检测框的选择程序40;处理器42执行存储器41中存储的检测框的选择程序40时实现如下步骤:S110、使用Mask R-CNN对目标图像进行实例分割,获得矩形的候选检测框以及与所述候选检测框对应的多边形轮廓;S120、分别计算所述候选检测框和所述多边形轮廓的IOU值,且所述多边形轮廓的IOU值大于第二预设阈值IOU2时,筛选出所述候选检测框作为目标检测框;其中,所述第二预设阈值IOU2大于第一预设阈值IOU1
在其他实施例中,检测框的选择程序40还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器41中,并由处理器42执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质中包括检测框的选择程序,所述检测框的选择程序被处理器执行时实现如下操作:S110、使用Mask R-CNN对目标图像进行实例分割,获得矩形的候选检测框以及其多边形轮廓;S120、分别计算所述候选检测框和所述多边形轮廓的IOU值;当所述候选检测框的IOU值大于第一预设阈值IOU1,且所述多边形轮廓的IOU值大于第二预设阈值IOU2时,筛选出所述候选检测框作为目标检测框;其中,所述第二预设阈值IOU2大于第一预设阈值IOU1
本发明之计算机可读存储介质的具体实施方式与上述利用Mask R-CNN选择检测框的方法、电子装置的具体实施方式大致相同,在此不再赘述。
总的来说,本发明的利用Mask R-CNN神经网络进行的运算方法,监测图像在深度神经网络不断地被卷积和池化,利用神经网络算法对图像的关键特征进行提取和处理,获得图像中对象的矩形边框;将得到的矩形框与真实目标之间的重叠部分进行IOU值初步筛选;然后进一步利用Mask获得的的多边形轮廓,将多边形点集与真实目标间的多边形进行IOU值的二次筛选,最终符合设定阈值的边框作为检测框。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种利用Mask R-CNN选择检测框的方法,应用于电子装置,其特征在于,所述方法包括:
使用Mask R-CNN对目标图像进行实例分割,获得矩形的候选检测框以及与所述候选检测框对应的多边形轮廓;
分别计算所述候选检测框和所述多边形轮廓的IOU值;当所述候选检测框的IOU值大于第一预设阈值IOU1,且所述多边形轮廓的IOU值大于第二预设阈值IOU2时,筛选出所述候选检测框作为目标检测框;其中,所述第二预设阈值IOU2大于第一预设阈值IOU1
计算所述多边形轮廓的IOU值包括,通过二维数组映射编码方法计算所述多边形轮廓的IOU值;
其中,所述二维数组映射编码方法包括:
将所述多边形轮廓与其预测框分别映射至一个预先被线段组合分割的平面模板上,其中,所述线段组合将所述平面模板分割成等大的分割块;
将多边形轮廓和其预测框的映射结果分别对应至与所述平面模板等大的二值图上,将每个分割块表示为二维数组的映射编码(A,B)形式;其中,分割块对应多边形轮廓的编码状态赋值为A,分割块对应预测框的编码状态赋值为B;
当所述分割块位于所述多边形轮廓内时A=1,所述分割块位于所述多边形轮廓外时A=0;当所述分割块位于所述预测框内时B=1,所述分割块位于所述预测框外时B=0;
通过统计分割块的编码,求取IOU值;其中,IOU=编码为(1,1)的分割块的数量/[编码为(1,0)的分割块数量+编码为(0,1)的分割块数量+编码为(1,1)分割块数量]。
2.根据权利要求1所述的利用Mask R-CNN选择检测框的方法,其特征在于,计算所述多边形轮廓的IOU值的步骤替换为,包括对通过交并集面积方法计算所述多边形轮廓的IOU值;
其中所述交并集面积方法包括:
获得所述多边形轮廓与其预测框的关键点,并对所述关键点进行标注,其中关键点包括所述多边形轮廓与其预测框的各顶点以及所述多边形轮廓与其预测框的各交点;
将所述交点以及交点内部的点,通过排序构成交集多边形的点集;
计算多边形轮廓及其预测框的面积、交集多边形的面积,并根据所述多边形轮廓及其预测框的面积、交集多边形的面积计算出多边形轮廓的IOU值,IOU=交集多边形的面积/(多边形轮廓面积+预测框面积-交集多边形面积)。
3.根据权利要求1所述的利用Mask R-CNN选择检测框的方法,其特征在于,所述第一预设阈值IOU1以及所述第二预设阈值IOU2的取值范围均为0.5-0.7。
4.根据权利要求1所述的利用Mask R-CNN选择检测框的方法,其特征在于,在所述筛选出所述候选检测框作为目标检测框之后还包括:
对所筛选出的所有候选检测框进行二维数组映射编码;
对编码后的候选检测框进行重合度比对;
当两个候选检测框的重合度大于重合阈值时,判定所述两个候选检测框所检测的目标中存在镜像。
5.一种电子装置,其特征在于,该电子装置包括:存储器、处理器,所述存储器中包括检测框的选择程序,所述检测框的选择程序被所述处理器执行时实现如下步骤:
使用Mask R-CNN对目标图像进行实例分割,获得矩形的候选检测框以及与所述候选检测框对应的多边形轮廓;
分别计算所述候选检测框和所述多边形轮廓的IOU值;当所述候选检测框的IOU值大于第一预设阈值IOU1,且所述多边形轮廓的IOU值大于第二预设阈值IOU2时,筛选出所述候选检测框作为目标检测框;其中,所述第二预设阈值IOU2大于第一预设阈值IOU1
计算所述多边形轮廓的IOU值包括,通过二维数组映射编码方法计算所述多边形轮廓的IOU值;
其中,所述二维数组映射编码方法包括:
将所述多边形轮廓与其预测框分别映射至一个预先被线段组合分割的平面模板上,其中,所述线段组合将所述平面模板分割成等大的分割块;
将多边形轮廓和其预测框的映射结果分别对应至与所述平面模板等大的二值图上,将每个分割块表示为二维数组的映射编码(A,B)形式;其中,分割块对应多边形轮廓的编码状态赋值为A,分割块对应预测框的编码状态赋值为B;
当所述分割块位于所述多边形轮廓内时A=1,所述分割块位于所述多边形轮廓外时A=0;当所述分割块位于所述预测框内时B=1,所述分割块位于所述预测框外时B=0;
通过统计分割块的编码,求取IOU值;其中,IOU=编码为(1,1)的分割块的数量/[编码为(1,0)的分割块数量+编码为(0,1)的分割块数量+编码为(1,1)分割块数量]。
6.根据权利要求5所述的电子装置,其特征在于,
所述第一预设阈值IOU1以及所述第二预设阈值IOU2的取值范围均为0.5-0.7。
7.根据权利要求5所述的电子装置,其特征在于,在所述筛选出所述候选检测框作为目标检测框之后还包括:
对所筛选出的所有候选检测框进行二维数组映射编码;
对编码后的候选检测框进行重合度比对;
当两个候选检测框的重合度大于重合阈值时,判定所述两个候选检测框所检测的目标中存在镜像。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括检测框的选择程序,所述检测框的选择程序被处理器执行时,实现如权利要求1至4中任一项所述的利用Mask R-CNN选择检测框的方法的步骤。
CN201910885674.7A 2019-09-19 2019-09-19 利用Mask R-CNN选择检测框的方法、装置及存储介质 Active CN110738125B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910885674.7A CN110738125B (zh) 2019-09-19 2019-09-19 利用Mask R-CNN选择检测框的方法、装置及存储介质
PCT/CN2019/118279 WO2021051601A1 (zh) 2019-09-19 2019-11-14 利用Mask R-CNN选择检测框的方法及***、电子装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910885674.7A CN110738125B (zh) 2019-09-19 2019-09-19 利用Mask R-CNN选择检测框的方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110738125A CN110738125A (zh) 2020-01-31
CN110738125B true CN110738125B (zh) 2023-08-01

Family

ID=69268320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910885674.7A Active CN110738125B (zh) 2019-09-19 2019-09-19 利用Mask R-CNN选择检测框的方法、装置及存储介质

Country Status (2)

Country Link
CN (1) CN110738125B (zh)
WO (1) WO2021051601A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507341B (zh) * 2020-04-20 2022-06-28 广州文远知行科技有限公司 一种目标边界框的调整方法、装置、设备及存储介质
CN111898411B (zh) * 2020-06-16 2021-08-31 华南理工大学 文本图像标注***、方法、计算机设备和存储介质
CN112132832B (zh) * 2020-08-21 2021-09-28 苏州浪潮智能科技有限公司 一种增强图像实例分割的方法、***、设备及介质
CN112861711A (zh) * 2021-02-05 2021-05-28 深圳市安软科技股份有限公司 区域入侵检测方法、装置、电子设备及存储介质
CN113343779B (zh) * 2021-05-14 2024-03-12 南方电网调峰调频发电有限公司 环境异常检测方法、装置、计算机设备和存储介质
CN113409255A (zh) * 2021-06-07 2021-09-17 同济大学 一种基于Mask R-CNN的斑马鱼形态学分类方法
CN113409267B (zh) * 2021-06-17 2023-04-18 西安热工研究院有限公司 一种基于深度学习的路面裂缝检测与分割方法
CN113408531B (zh) * 2021-07-19 2023-07-14 北博(厦门)智能科技有限公司 一种基于图像识别的目标物形状框选方法及终端
CN113591734B (zh) * 2021-08-03 2024-02-20 中国科学院空天信息创新研究院 一种基于改进nms算法的目标检测方法
CN113705643B (zh) * 2021-08-17 2022-10-28 荣耀终端有限公司 一种目标物检测方法、装置以及电子设备
CN113469302A (zh) * 2021-09-06 2021-10-01 南昌工学院 一种视频图像的多圆形目标识别方法和***
CN114863265A (zh) * 2021-12-14 2022-08-05 青岛海尔电冰箱有限公司 冰箱内物品信息识别方法、冰箱和计算机存储介质
CN114526709A (zh) * 2022-02-21 2022-05-24 中国科学技术大学先进技术研究院 基于无人机的面积测量方法、设备及存储介质
CN114882348A (zh) * 2022-03-29 2022-08-09 青岛海尔电冰箱有限公司 冰箱内物品信息识别方法、冰箱和计算机存储介质
CN116486265B (zh) * 2023-04-26 2023-12-19 北京卫星信息工程研究所 基于目标分割与图分类的飞机细粒度识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529565A (zh) * 2016-09-23 2017-03-22 北京市商汤科技开发有限公司 目标识别模型训练和目标识别方法及装置、计算设备
CN108875577A (zh) * 2018-05-11 2018-11-23 深圳市易成自动驾驶技术有限公司 目标检测方法、装置及计算机可读存储介质
CN109903310A (zh) * 2019-01-23 2019-06-18 平安科技(深圳)有限公司 目标跟踪方法、装置、计算机装置及计算机存储介质
CN109977943A (zh) * 2019-02-14 2019-07-05 平安科技(深圳)有限公司 一种基于yolo的图像目标识别方法、***和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9158996B2 (en) * 2013-09-12 2015-10-13 Kabushiki Kaisha Toshiba Learning image collection apparatus, learning apparatus, and target object detection apparatus
US9972092B2 (en) * 2016-03-31 2018-05-15 Adobe Systems Incorporated Utilizing deep learning for boundary-aware image segmentation
US11475351B2 (en) * 2017-11-15 2022-10-18 Uatc, Llc Systems and methods for object detection, tracking, and motion prediction
CN108009554A (zh) * 2017-12-01 2018-05-08 国信优易数据有限公司 一种图像处理方法以及装置
CN109389640A (zh) * 2018-09-29 2019-02-26 北京字节跳动网络技术有限公司 图像处理方法和装置
CN110047095B (zh) * 2019-03-06 2023-07-21 平安科技(深圳)有限公司 基于目标检测的跟踪方法、装置及终端设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529565A (zh) * 2016-09-23 2017-03-22 北京市商汤科技开发有限公司 目标识别模型训练和目标识别方法及装置、计算设备
CN108875577A (zh) * 2018-05-11 2018-11-23 深圳市易成自动驾驶技术有限公司 目标检测方法、装置及计算机可读存储介质
CN109903310A (zh) * 2019-01-23 2019-06-18 平安科技(深圳)有限公司 目标跟踪方法、装置、计算机装置及计算机存储介质
CN109977943A (zh) * 2019-02-14 2019-07-05 平安科技(深圳)有限公司 一种基于yolo的图像目标识别方法、***和存储介质

Also Published As

Publication number Publication date
CN110738125A (zh) 2020-01-31
WO2021051601A1 (zh) 2021-03-25

Similar Documents

Publication Publication Date Title
CN110738125B (zh) 利用Mask R-CNN选择检测框的方法、装置及存储介质
CN108009543B (zh) 一种车牌识别方法及装置
CN108229509B (zh) 用于识别物体类别的方法及装置、电子设备
KR101880004B1 (ko) 텔레비전 채널 정보를 식별하기 위한 방법 및 장치
WO2019218824A1 (zh) 一种移动轨迹获取方法及其设备、存储介质、终端
CN108345892B (zh) 一种立体图像显著性的检测方法、装置、设备及存储介质
CN108268867B (zh) 一种车牌定位方法及装置
CN107992819B (zh) 一种车辆属性结构化特征的确定方法与装置
CN108305260B (zh) 一种图像中角点的检测方法、装置及设备
CN114241548A (zh) 一种基于改进YOLOv5的小目标检测算法
CN106557740B (zh) 一种遥感图像中油库目标的识别方法
CN109858327B (zh) 一种基于深度学习的字符分割方法
Han et al. Moving object detection revisited: Speed and robustness
CN106372624A (zh) 人脸识别方法及***
CN110502977B (zh) 一种建筑物变化分类检测方法、***、装置及存储介质
CN112001362A (zh) 一种图像分析方法、图像分析装置及图像分析***
CN110462634A (zh) 标志检测视频分析法
CN111738164B (zh) 一种基于深度学习的行人检测方法
CN113780145A (zh) ***形态检测方法、装置、计算机设备和存储介质
Lou et al. Smoke root detection from video sequences based on multi-feature fusion
CN117765485A (zh) 基于改进的深度残差网络的车型识别方法、装置和设备
CN109543716B (zh) 一种基于深度学习的k线形态图像识别方法
CN117115824A (zh) 一种基于笔划区域分割策略的视觉文本检测方法
CN113343987B (zh) 文本检测处理方法、装置、电子设备及存储介质
CN104616302A (zh) 一种目标实时识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant