CN109447943B

CN109447943B - 一种目标检测方法、***及终端设备

Info

Publication number: CN109447943B
Application number: CN201811106758.8A
Authority: CN
Inventors: 张维桐; 田艳玲; 张锲石; 程俊
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2018-09-21
Filing date: 2018-09-21
Publication date: 2020-08-14
Anticipated expiration: 2038-09-21
Also published as: CN109447943A

Abstract

本发明提供了一种目标检测方法、***及终端设备，其中，方法包括：利用卷积神经网络，使用检测框从被测图像中提取若干个目标；获取目标的特征属性，所述特征属性包括空间特征和显式特征；根据所述特征属性，基于关系计算模型，计算目标间的关联特征；利用所述关联特征对所述目标的特征属性进行整合，得到聚合特征；将所述聚合特征代入由所述卷积神经网络的全连接层和所述关系计算模型组成的回溯关系子网络，计算准预测分数；根据所述准预测分数和所述检测框，计算分类分数；根据所述分类分数对目标进行分类检测。本发明极大提高了目标检测的效率和准确度。

Description

一种目标检测方法、***及终端设备

技术领域

本发明属于目标检测技术领域，尤其涉及一种目标检测方法、***及终端设备。

背景技术

目标检测在很多领域有重要的应用价值，如智能布控安防、工业信息应用、汽车辅助驾驶等。但形态各异的外貌特征、复杂多样的背景环境、行人与摄像机之间动态变化的场景、***实时性与稳定性的严格要求等，对目标检测问题提出了很大挑战。目前基于深度学习的目标检测方法，存在过多冗余计算，并且不能很好地准确识别场景中小目标和密集目标，且存在场景中有效信息没有充分利用等问题。

综上，现有技术中存在目标检测的效率和准确度低的问题。

发明内容

有鉴于此，本发明实施例提供了一种目标检测方法、***及终端设备，以解决现有技术中存在的目标检测的效率和准确度低的问题。

本发明实施例的第一方面提供了一种目标检测方法，包括：

利用卷积神经网络，使用检测框从被测图像中提取若干个目标；

获取目标的特征属性，所述特征属性包括空间特征和显式特征；

根据所述特征属性，基于关系计算模型，计算目标间的关联特征；

利用所述关联特征对所述目标的特征属性进行整合，得到聚合特征；

将所述聚合特征代入由所述卷积神经网络的全连接层和所述关系计算模型组成的回溯关系子网络，计算准预测分数；

根据所述准预测分数和所述检测框，计算分类分数；

根据所述分类分数对目标进行分类检测。

本发明实施例的第二方面提供了一种目标检测***，包括：

目标提取模块，用于利用卷积神经网络，使用检测框从被测图像中提取若干个目标；

特征获取模块，用于获取目标的特征属性，所述特征属性包括空间特征和显式特征；

关联计算模块，用于根据所述特征属性，基于关系计算模型，计算目标间的关联特征；

整合模块，用于利用所述关联特征对所述目标的特征属性进行整合，得到聚合特征；

预测模块，用于将所述聚合特征代入由所述卷积神经网络的全连接层和所述关系计算模型组成的回溯关系子网络，计算准预测分数；

分数计算模块，用于根据所述准预测分数和所述检测框，计算分类分数；

分类检测模块，用于根据所述分类分数对目标进行分类检测。

本发明实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述目标检测方法的步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上所述目标检测方法的步骤。

本发明实施例与现有技术相比存在的有益效果是：通过对每个检测区域的特征进行扩展，具有目标视觉度量和几何位置，通过关系计算模型加权计算后，在不同尺度上与目标特征相结合作为新的权重，从而得到更精确强大的描述，表现出了物体间显性关系的交互性，极大提高了目标检测的效率和准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是一种卷积神经网络的结构示意图；

图2是本发明的一个实施例提供的目标检测方法的流程示意图；

图3是一种关系计算模型Nexus的结构示意图；

图4是一种目标整合模型的结构示意图；

图5是一种预测与回归模型的结构示意图；

图6是本发明的一个实施例提供的终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

本发明的说明书和权利要求书及上述附图中的术语“包括”以及其他任何变形，是指“包括但不限于”，意图在于覆盖不排他的包含。例如包含一系列步骤或单元的过程、方法或***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外，术语“第一”、“第二”和“第三”等是用于区别不同对象，而非用于描述特定顺序。

本方案中，所述目标检测方法基于一种卷积神经网络实现，如图1所示，该卷积神经网络以预先训练的VGG-16模型作为网络主框架，包括：特征提取子网络、候选区域生成子网络、回溯关系子网络、以及检测与回归子网络。

VGG-16模型是一个16层深的卷积神经网络。

如图1所示，将被测图像输入卷积神经网络。通过第一级的特征提取子网络中的卷积层，获取图像的特征，例如图像的颜色特征、纹理特征、形状特征和空间关系特征等，组成所述显式特征。通过第二级的候选区域生成子网络，在第一级的特征提取子网络生成的特征图中利用检测框选取目标，对目标进行定位，得到目标的区域特征，组成所述空间特征。通过第三级的回溯关系子网络，根据所述显式特征和所述空间特征，得到准预测分数。其中，图形⊕表示层之间的加法聚合。通过第四级的检测与回归子网络中的分类器，对目标进行回归分类检测。其中，图形

表示对前级得到的检测框进行重叠消除处理。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例1：

图2示出了本发明一实施例所提供的目标检测方法的实现流程图，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

如图2所示，本发明实施例所提供的一种目标检测方法，包括：

步骤S101，利用卷积神经网络，使用检测框从被测图像中提取若干个目标。

步骤S102，获取目标的特征属性，所述特征属性包括空间特征和显式特征。

步骤S103，根据所述特征属性，基于关系计算模型，计算目标间的关联特征。

步骤S104，利用所述关联特征对所述目标的特征属性进行整合，得到聚合特征。

步骤S105，将所述聚合特征代入由所述卷积神经网络的全连接层和所述关系计算模型组成的回溯关系子网络，计算准预测分数。

步骤S106，根据所述准预测分数和所述检测框，计算分类分数。

步骤S107，根据所述分类分数对目标进行分类检测。

本发明实施例中，纳入目标视觉度量和几何位置，并进行关联性加权计算后，得到更精确强大的描述。不仅表现出了物体间显性关系的交互性，充分利用了目标间视觉关系，并使得输出层的判别语义更加丰富，极大提高了目标检测的效率和准确度。经过与其他方法实验对比，在几个常用数据集上都获得了很好的效果，识别率都有提升。

在本发明的一个实施例中，步骤S101中所述的检测框的尺寸按照公式(八)选择：

其中，S为所述检测框的尺寸，s为输入的候选尺度，C为比例系数。

本实施例中，为了更好的表现不同尺度上的特征，采用在不同尺度上生成不同检测框的策略。考虑到被测图像所生成的特征图具有不尽相同的接受域，检测框的分布界限和大小需要得到有效控制。每个特征图上可以拥有2个尺度选择和4种比例系数。s最小可以取被测图像大小的十分之一作为基准值。C比例系数可以表示检测框的宽高比。通过不同的尺度和多个比例系数的组合，检测框就涵盖了各种目标的大小细节。

在本发明的一个实施例中，步骤S102包括：

其中，N_0bj为所述特征属性，

为第p个目标的空间特征，

为第p个目标的显式特征，p为目标的序号，N为从所述被测图像中提取的目标总数。

本实施例中，被测图像中包含若干个目标，所述若干为整数。

目标的关系具象化后，根据视觉习惯，建立目标的空间特征和显式特征，分别记为f_S、f_E。目标的所有特征属性可以记为N_0bj。

在本发明的一个实施例中，步骤S102中所述的空间特征为：

其中，x为目标在当前空间的x轴坐标，y为目标在当前空间的y轴坐标，Wid为目标的宽度，Hei为目标的高度。

在本实施例中，x_q为第q个目标在当前空间的x轴坐标，y_q为第q个目标在当前空间的y轴坐标，Wid_q为第q个目标的宽度，Hei_q为第q个目标的高度。

x_p为第p个目标在当前空间的x轴坐标，y_p为第p个目标在当前空间的y轴坐标，Wid_p为第p个目标的宽度，Hei_p为第p个目标的高度。

T表示矩阵转置。

本实施例中，由公式(二)定义的空间特征

对于被测图像的缩放变换和平移旋转等操作具有鲁棒性，即维持其原有特性。

其中，第q个目标和第p个目标为空间中的关联目标。

如图3所示，在本发明的一个实施例中，提供了一种关系计算模型Nexus的结构，为图3中虚线框内的结构。

图3中，W_V为值权重，W_Q为查询权重，W_K为键权重，dot(·)为点积计算函数，ε_S为常量，W_G为全局权重，ReLU为线性整流函数，weight computation为权重计算过程(此过程计算得到影响程度ω^qp)，integration computing为整合计算过程(此过程计算得到关联特征f_Nex(p))。

在图3的下层支路当中，当特征经由高维度空间转换后，W_G经一个ReLU(线性整流函数，Rectified Linear Unit)进行非线性变换使得f_E被激活，有效抑制了空间关系的过拟合。值得注意的是，f_S以和f_E相同的方式在高维度空间镶嵌其中，并且形成了具有重新加权的空间特征的权重

最终，

与

得以聚合进f_Nex(p)中。我们通过调整公式(四)的参数，从而限制目标空间关系的过拟合，当引入最值调整为0的操作时，也将q、p其中一个置为0，从而能够不计入空间特征的权重。

图3中的关系计算模型Nexus，在考虑到了目标的多种属性的同时保证了保持信道匹配度，从而能够得以通过后续步骤S104进行目标间权重的重计算的优化和传递。

在本发明的一个实施例中，采用如图3所示的关系计算模型Nexus的结构，将两个不同目标的空间特征和显式特征代入关系计算模型Nexus，得到关联特征。

在本发明的一个实施例中，步骤S103包括：

1)获取键权重、值权重和查询权重。

本实施例，采用query和Key-Value的数据映射关系，其中，key是关键字，value是值，query是查询值。Key、query和Value的输出都是向量，分别表示为K、Q、V。

根据预设函数计算键权重W_K和查询权重W_Q，继而累加得到值权重W_V。

2)根据目标的所述显式特征、所述键权重和所述查询权重，计算显式特征的权重。

根据目标的所述显式特征、所述键权重和所述查询权重，按照公式(三)，计算显式特征的权重：

其中，

为所述显式特征的权重，dot为点积计算函数，W_K为所述键权重，

为第q个目标的显式特征，W_Q为所述查询权重，

为第p个目标的显式特征，d_k为特征维度。

本实施例中，W_K、W_Q以矩阵的形式分别和显式特征

在空间中结合，可以得出显式特征的权重

本实施例使用点积计算形式能够更好实现特征关系计算。

d_k作为映射后的特征维度，当d_k较小时，前馈网络计算兼容性函数复杂度较低，当d_k逐渐变大时点积随之变大，由此，以

作为比例因子可以有效减少这样的影响。

3)根据目标的所述空间特征，计算空间特征的权重。

根据目标的所述空间特征，按照公式(四)，计算空间特征的权重：

其中，

为所述空间特征的权重，W_G为全局权重，ε_S为常量，

为第q个目标的空间特征，

为第p个目标的空间特征。

4)根据所述显式特征的权重和所述空间特征的权重，计算相关联目标间的影响程度。

根据所述显式特征的权重和所述空间特征的权重，按照公式(五)，计算相关联目标间的影响程度：

其中，ω^qp为所述影响程度，k是当前维度上对应的键值。

本实施例中，ω^qp表示为相关联目标间的影响程度。

本实施例使用经过优化后的矩阵乘法实现，收敛速度更快，空间效率更高。

5)根据所述影响程度、所述值权重和目标的所述显式特征，计算目标间的所述关联特征。

根据所述影响程度、所述值权重和目标的所述显式特征，按照公式(六)，计算目标间的所述关联特征：

其中，f_Nex(p)为N个目标中的第p个目标间的关联特征，W_V为所述值权重。

本实施例将相关一系列目标的显式特征输入后经过重加权输出关联特征。

如图4所示，在本发明的一个实施例中，提供了一种目标整合模型的结构，为图4中虚线框内的结构。

在图4中，Nexus为图3中的关系计算模型Nexus，⊕表示一个连接的节点，作用相当于加法聚合函数，Addition为加法聚合函数。

在本发明的一个实施例中，利用所述关联特征对所述目标的特征属性进行整合，基于图4所示的目标整合模型，得到聚合特征。

在本发明的一个实施例中，在步骤S104中，所述聚合特征为：

其中，

为所述聚合特征，Addition为加法聚合函数。

为N个目标中的第n个目标间的关联特征。

本实施例中，采用图4所示的目标整合模型，通过加法聚合函数，将不同尺度上的多个目标间的关联特征与显式特征进行整合，得到聚合特征。Addition加法聚合函数能够聚合多级目标的关联特征，引入了关系计算模型，能够高效地定位不同尺度目标。

在一个实施例中，步骤S105包括：

将所述聚合特征

代入图1所示的卷积神经网络中的回溯关系子网络，聚合特征

依次经过两组全连接层和关系计算模型的处理，得到准预测分数pre-scoreⁿ。计算顺序为全连接层-关系计算模型-全连接层-关系计算模型。

如图5所示，在本发明的一个实施例中，提供了一种预测与回归模型的结构，为图5中虚线框内的结构。

在图5中，Nexus为图3中的关系计算模型Nexus，channel match为信道匹配函数，linear classifier为线性分类器，sigmoid为sigmoid函数(是一种激励函数)，multiply为乘法函数，bboxⁿ为所述检测框，pre-scoreⁿ为所述准预测分数，scoreⁿ为所述分类分数。

在本发明的一个实施例中，根据所述准预测分数和所述检测框，基于图5所示的预测与回归模型，得到分类分数。

在本发明的一个实施例中，在步骤S106中，包括：

1)利用信道匹配函数channel match，将所述准预测分数pre-scoreⁿ进行信道转换，得到信道转化后的特征。

2)将所述信道转化后的特征和所述检测框bboxⁿ代入所述关系计算模型Nexus，得到关联分数。

3)将所述关联分数依次通过线性分类器linear classifier和激励函数sigmoid计算后，得到加权后的分数t₁。

4)将所述加权后的分数t₁与所述准预测分数pre-scoreⁿ相乘，得到所述分类分数scoreⁿ。

在一个实施例中，所述激励函数为sigmoid函数。

在一个实施例中，步骤S107包括：

将所述分类分数与预设分类范围进行比较，若找到与所述分类分数符合的预设分类范围，则获取所述符合的预设分类范围对应的分类种类，作为分类检测的结果。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

实施例2：

本发明的一个实施例还提供了一种目标检测***，用于执行图2所对应的实施例中的方法步骤，其包括：

目标提取模块，用于利用卷积神经网络，使用检测框从被测图像中提取若干个目标。

特征获取模块，用于获取目标的特征属性，所述特征属性包括空间特征和显式特征。

关联计算模块，用于根据所述特征属性，基于关系计算模型，计算目标间的关联特征。

整合模块，用于利用所述关联特征对所述目标的特征属性进行整合，得到聚合特征。

预测模块，用于将所述聚合特征代入由所述卷积神经网络的全连接层和所述关系计算模型组成的回溯关系子网络，计算准预测分数。

分数计算模块，用于根据所述准预测分数和所述检测框，计算分类分数。

在一个实施例中，目标检测***还包括其他功能模块/单元，用于实现实施例1中各实施例的方法步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即所述目标检测***的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述目标检测***中模块的具体工作过程，可以参考实施例1中的对应过程，在此不再赘述。

实施例3：

图6是本发明一实施例提供的终端设备的示意图。如图6所示，该实施例的终端设备6包括：处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62。所述处理器60执行所述计算机程序62时实现如实施例1中所述的各实施例中的步骤，例如图2所示的步骤S101至S107。或者，所述处理器60执行所述计算机程序62时实现如实施例2中所述的各***实施例中的各模块/单元的功能。

所述终端设备6是指具有数据处理能力的终端，包括但不限于计算机、工作站、服务器，甚至是一些性能优异的智能手机、掌上电脑、平板电脑、个人数字助理(PDA)、智能电视(Smart TV)等。终端设备上一般都安装有操作***，包括但不限于：Windows操作***、LINUX操作***、安卓(Android)操作***、Symbian操作***、Windows mobile操作***、以及iOS操作***等等。以上详细罗列了终端设备6的具体实例，本领域技术人员可以意识到，终端设备并不限于上述罗列实例。

所述终端设备6可包括，但不仅限于，处理器60、存储器61。本领域技术人员可以理解，图6仅仅是终端设备6的示例，并不构成对终端设备6的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备6还可以包括输入输出设备、网络接入设备、总线等。

所称处理器60可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器61可以是所述终端设备6的内部存储单元，例如终端设备6的硬盘或内存。所述存储器61也可以是所述终端设备6的外部存储设备，例如所述终端设备6上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述终端设备6所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。

实施例4：

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现如实施例1中所述的各实施例中的步骤，例如图2所示的步骤S101至步骤S107。或者，所述计算机程序被处理器执行时实现如实施例2中所述的各***实施例中的各模块/单元的功能。

所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

在上述实施例中，对各个实施例的描述都各有侧重，实施例1至4可以任意组合，组合后形成的新的实施例也在本申请的保护范围之内。某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的终端设备和方法，可以通过其它的方式实现。例如，以上所描述的***/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。