CN111881907A - 一种边框回归的定位方法、装置和电子设备 - Google Patents
一种边框回归的定位方法、装置和电子设备 Download PDFInfo
- Publication number
- CN111881907A CN111881907A CN202010573240.6A CN202010573240A CN111881907A CN 111881907 A CN111881907 A CN 111881907A CN 202010573240 A CN202010573240 A CN 202010573240A CN 111881907 A CN111881907 A CN 111881907A
- Authority
- CN
- China
- Prior art keywords
- target
- probability
- image
- regression
- probability distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000012545 processing Methods 0.000 claims abstract description 48
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 28
- 230000004913 activation Effects 0.000 claims abstract description 9
- 238000004590 computer program Methods 0.000 claims description 18
- 238000001514 detection method Methods 0.000 claims description 17
- 238000010586 diagram Methods 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000001629 suppression Effects 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000001525 retina Anatomy 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/08—Detecting or categorising vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种边框回归的定位方法、装置和电子设备,其中,该边框回归的定位方法包括:相比于相关技术,本申请实施例提供的边框回归的定位方法,通过对图像进行卷积神经网络处理,分别预测所述图像中目标的概率分布图和所述目标的回归边框;根据所述回归边框确定第一概率,根据所述回归边框和所述预测概率图并通过卷积、激活函数处理确定第二概率,根据所述第一概率和所述第二概率预测坐标点的第三概率,其中,所述坐标点为概率分布图中的像素点,根据所述第三概率所对应的所述坐标点位置调整所述回归边框的位置,解决了采用边框回归的方法定位边界框,目标定位精度低的问题,提高了目标定位的精度。
Description
技术领域
本申请涉及深度学习技术领域,特别是涉及一种边框回归的定位方法、装置和电子设备。
背景技术
目标检测,也叫目标提取,是一种基于目标几何和统计特征的图像分割,它将目标的分割和识别合二为一,其准确性和实时性是整个***的一项重要能力,目标检测的目的是通过矩形边界框将其分类为特定类别,其中最关键的部分在于目标定位。
在相关技术中,目标检测采用边框回归的方法定位边界框的位置,但由于边框回归并不能直接感知整个对象,使得通过边框回归的方法确定的边界框存在定位误差,目标定位精度低的问题。
目前针对相关技术中采用边框回归的方法定位边界框,目标定位精度低的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种边框回归的定位方法、装置和电子设备,以至少解决相关技术中采用边框回归的方法定位边界框,目标定位精度低的问题。
第一方面,本申请实施例提供了一种边框回归的定位方法,所述方法包括:
对图像进行卷积神经网络处理,分别预测所述图像中目标的概率分布图和所述目标的回归边框;
根据所述回归边框确定第一概率,根据所述回归边框和所述概率分布图并通过卷积、激活函数处理确定第二概率,根据所述第一概率和所述第二概率预测坐标点的第三概率,其中,所述坐标点为概率分布图中的像素点;
根据所述第三概率所对应的所述坐标点位置调整所述回归边框的位置。
在其中一些实施例中,所述预测所述目标的概率分布图包括:
获取所述目标第一方向点的第一热度图和所述目标第二方向点的第二热度图;
判断所述第一热度图和所述第二热度图中的所述目标是否类别一致;
在所述目标类别一致的情况下,确定所述第一热度图和所述第二热度图为所述目标的概率分布图。
在其中一些实施例中,确定所述第一热度图和所述第二热度图为所述目标的概率分布图之前,所述方法还包括:
获取所述目标第一方向点的第一嵌入量和所述目标第二方向点的第二嵌入量;
判断所述第一嵌入量与所述第二嵌入量之间的距离是否小于预设阈值,在所述距离小于所述预设阈值的情况下,确定所述第一热度图和所述第二热度图为所述目标的概率分布图。
在其中一些实施例中,确定所述第一热度图和所述第二热度图为所述目标的概率分布图之后,所述方法还包括:
按照预测的时间先后对所述概率分布图进行排序,根据非极大值抑制算法去除冗余的所述概率分布图,保留前N个所述概率分布图。
在其中一些实施例中,所述对图像进行卷积神经网络处理之前,所述方法还包括:
对所述图像进行缩放,并对缩放后的所述图像采用减均值归一化的预处理操作。
在其中一些实施例中,所述坐标点为以概率分布图的中心为圆心、以预设值为半径所形成圆内的像素点。
在其中一些实施例中,所述对图像进行卷积神经网络处理,分别预测所述图像中目标的概率分布图和所述目标的回归边框包括:
根据第一卷积神经网络模型对图像进行处理以输出特征层;
对所述特征层采用池化处理预测所述图像中目标的概率分布图;
对所述特征层根据目标检测算法预测所述目标的回归边框。
在其中一些实施例中,所述对图像进行卷积神经网络处理,分别预测所述图像中目标的概率分布图和所述图像中目标的回归边框包括:
根据第二卷积神经网络模型对图像进行处理,预测所述图像中目标的概率分布图;
根据第三卷积神经网络模型对图像进行处理,预测所述目标的回归边框。
第二方面,本申请实施例提供了一种边框回归的定位装置,所述装置包括:图像处理模块和边界定位模块:
所述图像处理模块,用于对图像进行卷积神经网络处理,分别预测所述图像中目标的概率分布图和所述目标的回归边框;
所述边界定位模块,用于根据所述回归边框确定第一概率,根据所述回归边框和所述预测概率图并通过卷积、激活函数处理确定第二概率,根据所述第一概率和所述第二概率预测坐标点的第三概率,其中,所述坐标点为概率分布图中的像素点,根据所述第三概率所对应的所述坐标点位置调整所述回归边框的位置。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的边框回归的定位方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的边框回归的定位方法。
相比于相关技术,本申请实施例提供的边框回归的定位方法,通过对图像进行卷积神经网络处理,分别预测所述图像中目标的概率分布图和所述目标的回归边框;根据所述回归边框确定第一概率,根据所述回归边框和所述预测概率图并通过卷积、激活函数处理确定第二概率,根据所述第一概率和所述第二概率预测坐标点的第三概率,其中,所述坐标点为概率分布图中的像素点,根据所述第三概率所对应的所述坐标点位置调整所述回归边框的位置,解决了采用边框回归的方法定位边界框,目标定位精度低的问题,提高了目标定位的精度。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1a是根据本申请实施例的边框回归的定位方法的流程图;
图1b是根据本申请实施例的回归边框和预测概率图在图像中的示意图;
图2是根据本申请实施例的预测目标的概率分布图的方法的流程图一;
图3是根据本申请实施例的预测目标的概率分布图的方法的流程图二;
图4是根据本申请实施例的预测目标的概率分布图的方法的流程图三;
图5是根据本申请实施例的边框回归的定位方法的另一种流程图;
图6是根据本申请实施例的对图像进行卷积神经网络处理的方法的流程图一;
图7是根据本申请实施例的对图像进行卷积神经网络处理的方法的流程图二;
图8是根据本申请实施例的边框回归的定位装置的结构框图;
图9是根据本申请实施例的电子设备的内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本申请提供的边框回归的定位方法,应用于目标检测中,目标检测可以识别一张图片的多个物体,并可以定位出不同物体,也就是给出边界框,比如目标检测不仅要判断图片中是不是一辆汽车,还要在图片中标记出它的位置,也就是用边界框把汽车圈起来,其中“定位”的意思是判断汽车在图片中的具***置。
本实施例提供了一种边框回归的定位方法,图1a是根据本申请实施例的边框回归的定位方法的流程图,如图1a所示,该方法包括如下步骤:
步骤S101,对图像进行卷积神经网络处理,分别预测图像中目标的概率分布图和目标的回归边框。卷积神经网络将图像分割成若干图像块,提取每个图像块具有的局部特征,再将这些图像块的局部特征汇总成全局特征,进而完成图像中目标的位置概率分布图识别和目标回归边框的预测。
步骤S102,根据回归边框确定第一概率,根据回归边框和概率分布图并通过卷积、激活函数处理确定第二概率,根据第一概率和第二概率预测坐标点的第三概率,其中,坐标点为概率分布图中的像素点。首先确定坐标点位置在回归边框内的第一概率,其次确定坐标点位置在回归边框内的条件下满足在预测概率图内的第二概率,根据第一概率和第二概率预测坐标点的第三概率,需要说明的是,图1b是回归边框和预测概率图在图像中的示意图,结合图1b,坐标点的第三概率的计算可以采用如下计算:
利用贝叶斯公式,以得到的回归边框为先验概率P(x=i),也就是步骤S102中的第一概率,KP为坐标点附近点的集合,以最大维卷积和激活函数在预测概率图上得到似然性P(KP|x=i),也就是步骤S102中的第二概率,
公式1中,P(x=i|KP)为后验概率,也就是步骤S102中的第三概率,
公式2中,a为系数,x1为回归边框左边界距离图像的左边界的距离,x2为回归边框右边界距离图像的左边界的距离。
步骤S103,根据第三概率所对应的坐标点位置调整回归边框的位置。优先的,x=argmaxP(x=i|KP),也就是取后验概率的最大值所对应的x点坐标位置为最终调整回归边框的位置。
通过步骤S101至步骤S103,对图像进行卷积神经网络处理,一支预测出图像中目标的概率分布图,另一支预测出目标的回归边框,结合目标在整个图像中的概率分布图和回归边框,计算坐标点的第三概率或者是后验概率,选取合适的后验概率所对应的坐标点位置,将回归边框调整到该坐标点位置处,此时调整后的回归边框便是图像中目标最终定位出边界框,解决了采用边框回归的方法定位边界框,目标定位精度低的问题,提高了目标定位的精度。
在其中一些实施例中,图2是根据本申请实施例的预测目标的概率分布图的方法的流程图一,如图2所示,该方法包括如下步骤:
步骤S201,获取目标第一方向点的第一热度图和目标第二方向点的第二热度图。需要说明的是,目标的第一方向点可以为左上角、右上角、左下角、右下角,第二方向点可以为右上角、右下角、左下角、左上角,考虑到相对的两个方向点可以预测目标的边界框,因此,本申请实施例中的第一方向点和第二方向点是两个相对的方向点,也就是,第一方向点和第二方向点的组合可以是左上角与右下角或者右上角与左下角的组合,以下本申请实施例中采用第一方向点为左上角与第二方向点为右下角的组合进行说明。
步骤S202,判断第一热度图和第二热度图中的目标是否类别一致。其中,第一热度图和第二热度的维度均是n×c×w×h,其中c为类别数,n是输入的图像张数,w和h分别为热度图的宽、高,其在目标真实左上角顶点的附近的预测值或者右下角顶点的附近的预测值均符合二维高斯分布。
步骤S203,在目标类别一致的情况下,确定第一热度图和第二热度图为目标的概率分布图。
通过步骤S201至步骤S203,来判断第一热度图和第二热度图中的目标是否类别一致,使得所预测的概率分布图是与目标的类别一致,尽可能避免出现不同类别的目标被圈在一个概率分布图中。
在其中一些实施例中,图3是根据本申请实施例的预测目标的概率分布图的方法的流程图二,如图3所示,确定第一热度图和第二热度图为目标的概率分布图之前,该方法包括如下步骤:
步骤S301,获取目标第一方向点的第一嵌入量和目标第二方向点的第二嵌入量;其中,第一嵌入量和第二嵌入量均是一个N维向量。
步骤S302,判断第一嵌入量与第二嵌入量之间的距离是否小于预设阈值,在距离小于预设阈值的情况下,确定第一热度图和第二热度图为目标的概率分布图。在左上角的第一热度图和右下角的第二热度图中的目标类别一致且左上角的第一嵌入量与右下角的第二嵌入量之间的距离小于预设阈值,此时可认为其是同一个目标的左上角顶点和右下角顶点。
通过步骤S301至步骤S302,在左上角的第一热度图和右下角的第二热度图中的目标类别一致的情况下,对左上角的第一嵌入量与右下角的第二嵌入量之间的距离是否小于预设阈值进行判断,在其小于预设阈值的情况下可认为概率分布图中是同一个目标的左上角顶点和右下角顶点,提高目标检测的精度。
在其中一些实施例中,图4是根据本申请实施例的预测目标的概率分布图的方法的流程图三,如图4所示,该方法包括如下步骤:
步骤S401,按照预测的时间先后对所述概率分布图进行排序,根据非极大值抑制算法去除冗余的概率分布图,保留前N个概率分布图。其中,非极大值抑制算法的本质是搜索局部极大值,抑制非极大值元素,可选的,非极大值抑制算法可以是soft-nms算法;步骤S401可以在步骤S203之后,也可以在步骤S302之后。
通过步骤S401,经过soft-nms操作去除冗余框,只保留前K个预测框,可达到消除多余(交叉重复)的概率分布图。
在其中一些实施例中,图5是根据本申请实施例的边框回归的定位方法的另一种流程图,如图5所示,该流程包括如下步骤:
步骤S501,对图像进行缩放,并对缩放后的图像采用减均值归一化的预处理操作。去均值是为了对图像进行标准化,可以移除图像的平均亮度值,在目标检测过程中,图像的亮度并不会影响图像中存在的是什么物体,也就是亮度对特征的拾取不会产生影响。
通过步骤S501,首先去除图像的整体明亮程度,便于去除在目标检测过程中多余的噪音,其次在每个样本上减去数据的统计平均值可以移除共同的部分,凸显个体差异,有利于识别目标的特征。
在其中一些实施例中,坐标点为以概率分布图的中心为圆心、以预设值为半径所形成圆内的像素点(如图1b所示,r为预设值),相较于坐标点为概率分布图中的像素点,缩小了坐标点所处的范围,减少了对多个坐标点后验概率的计算步骤,提高回归边框的调整效率。
在其中一些实施例中,图6是根据本申请实施例的对图像进行卷积神经网络处理的方法的流程图一,如图6所示,该方法包括如下步骤:
步骤S601,根据第一卷积神经网络模型对图像进行处理以输出特征层。图像中每个像素点内都存储着图像的颜色值,通过一个卷积核从图像中提取特征,卷积核与数字矩阵对应位相乘再相加,得到卷积层输出结果,其中常用的神经网络可为ResNet50或者Hourglass。
步骤S602,对特征层采用池化处理预测图像中目标的概率分布图。卷积层输出的特征作为池化层的输入,因卷积核数量众多,所以输入的特征维度也很大,为了减少需要训练的参数数量和减小过拟合现象,只保留卷积层输出的特征中有用的特征,而消除其中属于噪声的特征,从有用的特征中预测出目标的概率分布图。
步骤S603,对特征层根据目标检测算法预测目标的回归边框。其中,目标检测算法可以是SSD(Single Shot Multi Box Detector目标检测算法)、YOLO(You Only Look Once目标检测算法)、Retina Net(单阶段目标检测算法)任何一种。
通过步骤S601至步骤S603,首先根据第一卷积神经网络模型对图像进行处理以输出特征层,然后一支对特征层采用池化处理预测图像中目标的概率分布图,另一支对特征层根据目标检测算法预测目标的回归边框,也就是先采用的主干网络,然后分支处理,提高目标定位的整体效率。
在其中一些实施例中,图7是根据本申请实施例的对图像进行卷积神经网络处理的方法的流程图二,如图7所示,该方法包括如下步骤:
步骤S701,根据第二卷积神经网络模型对图像进行处理,预测图像中目标的概率分布图。需要说明的是,第二卷积神经网络模型,可以是在训练时通过不断的改变所使用的卷积核,来从中选取出与图片特征最匹配的卷积核和特征所建立的模型,也可以是常用的通过单个卷积神经网络将目标边界框检测为一对关键点。
步骤S702,根据第三卷积神经网络模型对图像进行处理,预测目标的回归边框。第三卷积神经网络模型可以是常用的通过全卷积网络进行目标检测的一种模型,在该目标检测中,可以用Alex Net或者VGG的网络框架来得到目标的回归边框。
通过步骤S701至步骤S702,一支根据第二卷积神经网络模型对图像进行处理预测图像中目标的概率分布图,另一支根据第三卷积神经网络模型对图像进行处理预测目标的回归边框,无需考虑主干网络。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例还提供了一种边框回归的定位装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
在一些实施例中,图8是根据本申请实施例的边框回归的定位装置的结构框图,如图8所示,该装置包括:图像处理模块81和边界定位模块82;
图像处理模块81,用于对图像进行卷积神经网络处理,分别预测图像中目标的概率分布图和目标的回归边框;
边界定位模块82,用于根据回归边框确定第一概率,根据回归边框和预测概率图并通过卷积、激活函数处理确定第二概率,根据第一概率和第二概率预测坐标点的第三概率,其中,坐标点为概率分布图中的像素点,根据第三概率所对应的坐标点位置调整回归边框的位置。
通过图像处理模块81对图像进行卷积神经网络处理,一支预测出图像中目标的概率分布图,另一支预测出目标的回归边框,边界定位模块82结合目标在整个图像中的概率分布图和回归边框,计算坐标点的第三概率或者是后验概率,选取合适的后验概率所对应的坐标点位置,将回归边框调整到该坐标点位置处,此时调整后的回归边框便是图像中目标最终定位出边界框,解决了采用边框回归的方法定位边界框,目标定位精度低的问题,提高了目标定位的精度。
在一些实施例中,图像处理模块81和边界定位模块82还用于实现上述各实施例提供的边框回归的定位方法中的步骤,在这里不再赘述。
在一个实施例中,提供了一种电子设备,该电子设备可以是终端。该电子设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种边框回归的定位方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在一个实施例中,图9是根据本申请实施例的电子设备的内部结构示意图,如图9所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图9所示。该电子设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该电子设备的数据库用于存储数据。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种边框回归的定位方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述各实施例提供的边框回归的定位方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各个实施例提供的边框回归的定位方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (11)
1.一种边框回归的定位方法,其特征在于,所述方法包括:
对图像进行卷积神经网络处理,分别预测所述图像中目标的概率分布图和所述目标的回归边框;
根据所述回归边框确定第一概率,根据所述回归边框和所述概率分布图并通过卷积、激活函数处理确定第二概率,根据所述第一概率和所述第二概率预测坐标点的第三概率,其中,所述坐标点为概率分布图中的像素点;
根据所述第三概率所对应的所述坐标点位置调整所述回归边框的位置。
2.根据权利要求1所述的方法,其特征在于,所述预测所述目标的概率分布图包括:
获取所述目标第一方向点的第一热度图和所述目标第二方向点的第二热度图;
判断所述第一热度图和所述第二热度图中的所述目标是否类别一致;
在所述目标类别一致的情况下,确定所述第一热度图和所述第二热度图为所述目标的概率分布图。
3.根据权利要求2所述的方法,其特征在于,确定所述第一热度图和所述第二热度图为所述目标的概率分布图之前,所述方法还包括:
获取所述目标第一方向点的第一嵌入量和所述目标第二方向点的第二嵌入量;
判断所述第一嵌入量与所述第二嵌入量之间的距离是否小于预设阈值,在所述距离小于所述预设阈值的情况下,确定所述第一热度图和所述第二热度图为所述目标的概率分布图。
4.根据权利要求2或3所述的方法,其特征在于,确定所述第一热度图和所述第二热度图为所述目标的概率分布图之后,所述方法还包括:
按照预测的时间先后对所述概率分布图进行排序,根据非极大值抑制算法去除冗余的所述概率分布图,保留前N个所述概率分布图。
5.根据权利要求1所述的方法,其特征在于,所述对图像进行卷积神经网络处理之前,所述方法还包括:
对所述图像进行缩放,并对缩放后的所述图像采用减均值归一化的预处理操作。
6.根据权利要求1所述的方法,其特征在于,所述坐标点为以概率分布图的中心为圆心、以预设值为半径所形成圆内的像素点。
7.根据权利要求1所述的方法,其特征在于,所述对图像进行卷积神经网络处理,分别预测所述图像中目标的概率分布图和所述目标的回归边框包括:
根据第一卷积神经网络模型对图像进行处理以输出特征层;
对所述特征层采用池化处理预测所述图像中目标的概率分布图;
对所述特征层根据目标检测算法预测所述目标的回归边框。
8.根据权利要求1所述的方法,其特征在于,所述对图像进行卷积神经网络处理,分别预测所述图像中目标的概率分布图和所述图像中目标的回归边框包括:
根据第二卷积神经网络模型对图像进行处理,预测所述图像中目标的概率分布图;
根据第三卷积神经网络模型对图像进行处理,预测所述目标的回归边框。
9.一种边框回归的定位装置,其特征在于,所述装置包括:图像处理模块和边界定位模块:
所述图像处理模块,用于对图像进行卷积神经网络处理,分别预测所述图像中目标的概率分布图和所述目标的回归边框;
所述边界定位模块,用于根据所述回归边框确定第一概率,根据所述回归边框和所述预测概率图并通过卷积、激活函数处理确定第二概率,根据所述第一概率和所述第二概率预测坐标点的第三概率,其中,所述坐标点为概率分布图中的像素点,根据所述第三概率所对应的所述坐标点位置调整所述回归边框的位置。
10.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8中任一项所述方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010573240.6A CN111881907B (zh) | 2020-06-22 | 2020-06-22 | 一种边框回归的定位方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010573240.6A CN111881907B (zh) | 2020-06-22 | 2020-06-22 | 一种边框回归的定位方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111881907A true CN111881907A (zh) | 2020-11-03 |
CN111881907B CN111881907B (zh) | 2021-07-27 |
Family
ID=73157019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010573240.6A Active CN111881907B (zh) | 2020-06-22 | 2020-06-22 | 一种边框回归的定位方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111881907B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113343987A (zh) * | 2021-06-30 | 2021-09-03 | 北京奇艺世纪科技有限公司 | 文本检测处理方法、装置、电子设备及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845374A (zh) * | 2017-01-06 | 2017-06-13 | 清华大学 | 基于深度学习的行人检测方法及检测装置 |
CN108509839A (zh) * | 2018-02-02 | 2018-09-07 | 东华大学 | 一种基于区域卷积神经网络高效的手势检测识别方法 |
US20180268292A1 (en) * | 2017-03-17 | 2018-09-20 | Nec Laboratories America, Inc. | Learning efficient object detection models with knowledge distillation |
CN109492596A (zh) * | 2018-11-19 | 2019-03-19 | 南京信息工程大学 | 一种基于K-means聚类和区域推荐网络的行人检测方法及*** |
CN109859163A (zh) * | 2018-12-19 | 2019-06-07 | 重庆邮电大学 | 一种基于特征金字塔卷积神经网络的lcd缺陷检测方法 |
CN110097050A (zh) * | 2019-04-03 | 2019-08-06 | 平安科技(深圳)有限公司 | 行人检测方法、装置、计算机设备及存储介质 |
CN110111328A (zh) * | 2019-05-16 | 2019-08-09 | 上海中认尚科新能源技术有限公司 | 一种基于卷积神经网络的风力发电机叶片裂纹检测方法 |
CN110245620A (zh) * | 2019-06-18 | 2019-09-17 | 杭州电子科技大学 | 一种基于注意力的非最大化抑制方法 |
CN110942000A (zh) * | 2019-11-13 | 2020-03-31 | 南京理工大学 | 一种基于深度学习的无人驾驶车辆目标检测方法 |
CN111008999A (zh) * | 2018-10-05 | 2020-04-14 | 斯特拉德视觉公司 | 用包含跟踪网络的cnn跟踪对象的方法和使用该方法的装置 |
CN111179262A (zh) * | 2020-01-02 | 2020-05-19 | 国家电网有限公司 | 一种结合形状属性的电力巡检图像金具检测方法 |
-
2020
- 2020-06-22 CN CN202010573240.6A patent/CN111881907B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845374A (zh) * | 2017-01-06 | 2017-06-13 | 清华大学 | 基于深度学习的行人检测方法及检测装置 |
US20180268292A1 (en) * | 2017-03-17 | 2018-09-20 | Nec Laboratories America, Inc. | Learning efficient object detection models with knowledge distillation |
CN108509839A (zh) * | 2018-02-02 | 2018-09-07 | 东华大学 | 一种基于区域卷积神经网络高效的手势检测识别方法 |
CN111008999A (zh) * | 2018-10-05 | 2020-04-14 | 斯特拉德视觉公司 | 用包含跟踪网络的cnn跟踪对象的方法和使用该方法的装置 |
CN109492596A (zh) * | 2018-11-19 | 2019-03-19 | 南京信息工程大学 | 一种基于K-means聚类和区域推荐网络的行人检测方法及*** |
CN109859163A (zh) * | 2018-12-19 | 2019-06-07 | 重庆邮电大学 | 一种基于特征金字塔卷积神经网络的lcd缺陷检测方法 |
CN110097050A (zh) * | 2019-04-03 | 2019-08-06 | 平安科技(深圳)有限公司 | 行人检测方法、装置、计算机设备及存储介质 |
CN110111328A (zh) * | 2019-05-16 | 2019-08-09 | 上海中认尚科新能源技术有限公司 | 一种基于卷积神经网络的风力发电机叶片裂纹检测方法 |
CN110245620A (zh) * | 2019-06-18 | 2019-09-17 | 杭州电子科技大学 | 一种基于注意力的非最大化抑制方法 |
CN110942000A (zh) * | 2019-11-13 | 2020-03-31 | 南京理工大学 | 一种基于深度学习的无人驾驶车辆目标检测方法 |
CN111179262A (zh) * | 2020-01-02 | 2020-05-19 | 国家电网有限公司 | 一种结合形状属性的电力巡检图像金具检测方法 |
Non-Patent Citations (4)
Title |
---|
GEONSEOK SEO ET AL.: "KL-DIVERGENCE-BASED REGION PROPOSAL NETWORK FOR OBJECT DETECTION", 《ARXIV:2005.11220V1》 * |
YIHUI HE ET AL.: "Bounding Box Regression with Uncertainty for Accurate Object Detection", 《ARXIV:1809.08545V3》 * |
张宁: "基于Faster R-CNN的公路路面病害检测算法的研究", 《万方数据》 * |
林国平 余晓龙: "基于改进Faster R-CNN算法的车辆检测", 《闽南师范大学学报(自然科学版)》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113343987A (zh) * | 2021-06-30 | 2021-09-03 | 北京奇艺世纪科技有限公司 | 文本检测处理方法、装置、电子设备及存储介质 |
CN113343987B (zh) * | 2021-06-30 | 2023-08-22 | 北京奇艺世纪科技有限公司 | 文本检测处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111881907B (zh) | 2021-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110517278B (zh) | 图像分割和图像分割网络的训练方法、装置和计算机设备 | |
CN109271870B (zh) | 行人重识别方法、装置、计算机设备及存储介质 | |
CN108564127B (zh) | 图像转换方法、装置、计算机设备及存储介质 | |
CN110047069B (zh) | 一种图像检测装置 | |
CN108805828B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN110569721A (zh) | 识别模型训练方法、图像识别方法、装置、设备及介质 | |
CN110211076B (zh) | 图像拼接方法、图像拼接设备和可读存储介质 | |
CN112132093B (zh) | 高分辨率遥感图像目标检测方法、装置和计算机设备 | |
CN111950329A (zh) | 目标检测及模型训练方法、装置、计算机设备和存储介质 | |
CN107886082B (zh) | 图像中数学公式检测方法、装置、计算机设备及存储介质 | |
CN111968134B (zh) | 目标分割方法、装置、计算机可读存储介质及计算机设备 | |
CN112241976A (zh) | 一种训练模型的方法及装置 | |
CN110807362A (zh) | 一种图像检测方法、装置和计算机可读存储介质 | |
CN111368638A (zh) | 电子表格的创建方法、装置、计算机设备和存储介质 | |
CN110633646B (zh) | 图像敏感信息检测的方法、装置、计算机设备和存储介质 | |
CN113179421B (zh) | 视频封面选择方法、装置、计算机设备和存储介质 | |
CN111062324A (zh) | 人脸检测方法、装置、计算机设备和存储介质 | |
CN111274999A (zh) | 数据处理、图像处理方法、装置及电子设备 | |
CN112950497A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN111626379B (zh) | 肺炎x光图像检测方法 | |
CN111754429B (zh) | 运动矢量后处理方法和装置、电子设备及存储介质 | |
CN111666974B (zh) | 图像匹配方法、装置、计算机设备及存储介质 | |
CN112232140A (zh) | 人群计数方法、装置、电子设备及计算机存储介质 | |
CN112115937A (zh) | 目标识别方法、装置、计算机设备和存储介质 | |
CN116863522A (zh) | 痤疮分级方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |