CN115270919A - 目标检测方法、建立空间关联感知模型的方法及装置 - Google Patents
目标检测方法、建立空间关联感知模型的方法及装置 Download PDFInfo
- Publication number
- CN115270919A CN115270919A CN202210700128.3A CN202210700128A CN115270919A CN 115270919 A CN115270919 A CN 115270919A CN 202210700128 A CN202210700128 A CN 202210700128A CN 115270919 A CN115270919 A CN 115270919A
- Authority
- CN
- China
- Prior art keywords
- sensor data
- frame
- target detection
- detection result
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 340
- 230000008447 perception Effects 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000012937 correction Methods 0.000 claims abstract description 45
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims description 75
- 238000013507 mapping Methods 0.000 claims description 26
- 230000000875 corresponding effect Effects 0.000 claims description 24
- 230000007246 mechanism Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 14
- 230000002123 temporal effect Effects 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 230000002596 correlated effect Effects 0.000 claims description 2
- 239000010410 layer Substances 0.000 description 26
- 239000013598 vector Substances 0.000 description 24
- 230000006870 function Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 12
- 230000036962 time dependent Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 4
- 230000001276 controlling effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种目标检测方法、建立空间关联感知模型的方法及装置。主要方法包括:获取待检测的N帧传感器数据,所述N为正整数;通过深度卷积神经网络对各帧传感器数据进行目标检测,得到各帧传感器数据的第二目标检测结果;基于同一帧传感器数据的第二目标检测结果中各目标之间的空间关联,分别对各帧传感器数据的第二目标检测结果进行第一修正预测,得到各帧传感器数据的第一目标检测结果。通过本申请能够提高目标检测的准确性。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种目标检测方法、建立空间关联感知模型的方法及装置。
背景技术
目标检测目前主要的应用场景就是自动驾驶和机器人等领域。目标检测是自动驾驶***的重要组成部分之一,自动驾驶车辆不仅仅需要识别障碍物的类型,还需要识别物体的精确位置和朝向信息,以提供给规划控制模块规划出合理的路线。自动驾驶车辆的目标检测主要基于传感器,包括激光雷达、毫米波雷达、车载相机等。各种传感器能够获取多帧传感器数据,然后通过目标检测算法从多帧传感器数据中分别进行目标检测。
虽然目前已经存在一些基于传感器数据的目标检测算法,但在检测准确性上仍有待提高。
发明内容
有鉴于此,本申请提供了一种目标检测方法、建立空间关联感知模型的方法及装置,以便于提高目标检测的准确性。
本申请提供了如下方案:
第一方面,本申请提供了一种目标检测方法,该方法包括:
获取待检测的N帧传感器数据,所述N为正整数;
通过深度卷积神经网络对各帧传感器数据进行目标检测,得到各帧传感器数据的第二目标检测结果;
基于同一帧传感器数据的第二目标检测结果中各目标之间的空间关联,分别对各帧传感器数据的第二目标检测结果进行第一修正预测,得到各帧传感器数据的第一目标检测结果。
根据本申请实施例中一可实现的方式,所述通过深度卷积神经网络对各帧传感器数据进行目标检测,得到各帧传感器数据的第二目标检测结果包括:
对各帧传感器数据分别生成多个候选区域;
通过深度卷积神经网络对各帧传感器数据进行候选区域的特征提取,并利用提取的特征得到各帧传感器数据的第二目标检测结果。
根据本申请实施例中一可实现的方式,所述基于同一帧传感器数据的第二目标检测结果中各目标之间的空间关联,分别对各帧传感器数据的第二目标检测结果进行第一修正预测包括:
分别将各帧传感器数据作为当前输入帧传感器数据,执行:
利用当前输入帧传感器数据的第二目标检测结果建立当前输入帧传感器数据的信息图并输入空间关联感知模型,所述信息图包括节点和节点之间的边,所述节点包括当前输入帧传感器数据中检测得到的目标,所述边表示节点之间的关联;
由所述空间关联感知模型利用图卷积神经网络对当前输入帧传感器数据的信息图进行特征提取,并由映射层利用提取的特征进行第一修正预测得到当前输入帧传感器数据的第一目标检测结果。
根据本申请实施例中一可实现的方式,所述利用当前输入帧传感器数据的第二目标检测结果建立当前输入帧传感器数据的信息图包括:
利用当前输入帧传感器数据的第二目标检测结果确定当前输入帧传感器数据中各目标的兴趣区域RoI,利用各目标的RoI信息作为所述信息图中各节点的信息,利用各目标的RoI之间的位置关系确定所述信息图中的边。
根据本申请实施例中一可实现的方式,所述利用图卷积神经网络对当前输入帧传感器数据的信息图进行特征提取包括:
在每一轮迭代中通过对边两端的节点的特征进行非线性变换计算信息图中每条边的特征,将节点相连的边通过池化方式进行融合,得到下一轮迭代中该节点的特征;
迭代结束后,将所有迭代中得到的同一节点的特征进行合并,得到从所述信息图中提取的该节点的特征以提供给所述映射层。
根据本申请实施例中一可实现的方式,所述N大于1;该方法还包括:
对所述各帧传感器数据的第一目标检测结果进行目标跟踪以对同一目标的信息进行关联,得到各目标的检测结果序列;
基于所述各目标的检测结果序列中同一目标的信息的时序关联,对所述各帧传感器数据的第一目标检测结果进行第二修正预测,得到各帧传感器数据的第三目标检测结果。
根据本申请实施例中一可实现的方式,基于所述各目标的检测结果序列中同一目标的信息的时序关联,对所述各帧传感器数据的第一目标检测结果进行第二修正预测包括:
分别输入各帧传感器数据及其第一目标检测结果至时间关联感知模型;
所述时间关联感知模型利用当前输入帧传感器数据的上下文目标特征,对当前输入帧传感器数据的第一目标检测结果中各目标的特征分别进行自注意力机制的处理,得到当前输入帧传感器数据的各目标的特征表示,所述当前输入帧传感器数据的上下文目标特征包括所述当前输入帧传感器数据之前和/或之后N帧传感器数据中各目标的特征,所述N为预设的正整数;利用当前输入帧传感器数据的各目标的特征表示映射得到当前输入帧传感器数据的第三目标检测结果。
根据本申请实施例中一可实现的方式,所述传感器数据包括点云数据;
所述目标检测结果包括各目标的类别信息、位置信息、尺寸信息和朝向信息。
第二方面,提供了一种建立空间关联感知模型的方法,该方法包括:
获取第一训练样本,所述第一训练样本包括多帧传感器数据、对所述多帧传感器数据进行目标检测得到的第二目标检测结果以及对所述多帧传感器数据中各目标信息标注的标签;
利用所述第一训练样本训练得到所述空间关联感知模型;
其中所述空间关联感知模型基于各帧传感器数据的第二目标检测结果中各目标之间的空间关联,对所述各帧传感器数据的第二目标检测结果进行第一修正预测,得到各帧传感器数据的第一目标检测结果;
所述训练的目标包括:最小化所述各帧传感器数据的第一目标检测结果与对应标签的差异。
根据本申请实施例中一可实现的方式,利用所述第一训练数据训练得到所述空间关联感知模型包括:
利用各帧传感器数据的第二目标检测结果建立各帧传感器数据的信息图,所述信息图包括节点和节点之间的边,所述节点包括第二目标检测结果中检测得到的目标,所述边表示节点之间的关联;
将各帧传感器数据的信息图作为所述空间关联感知模型的输入,所述空间关联感知模型利用图卷积神经网络对所述信息图进行特征提取,并由映射层利用提取的特征进行第一修正预测得到各帧传感器数据的第一目标检测结果。
第三方面,提供了一种目标检测装置,该装置包括:
数据获取模块,被配置为获取待检测的N帧传感器数据,所述N为正整数;
目标检测模块,被配置为通过深度卷积神经网络对各帧传感器数据进行目标检测,得到各帧传感器数据的第二目标检测结果;
空间关联感知模块,被配置为基于同一帧传感器数据的第二目标检测结果中各目标之间的空间关联,分别对各帧传感器数据的第二目标检测结果进行第一修正预测,得到各帧传感器数据的第一目标检测结果。
第四方面,提供了一种建立空间关联感知网络的装置,该装置包括:
第一样本获取模块,被配置为获取第一训练样本,所述第一训练样本包括多帧传感器数据、对所述多帧传感器数据进行目标检测得到的第二目标检测结果以及对所述多帧传感器数据中各目标信息标注的标签;
第一模型训练模块,被配置为利用所述第一训练样本训练得到所述空间关联感知模型;其中所述空间关联感知模型基于各帧传感器数据的第二目标检测结果中各目标之间的空间关联,对所述各帧传感器数据的第二目标检测结果进行第一修正预测,得到各帧传感器数据的第一目标检测结果;所述训练的目标包括:最小化所述各帧传感器数据的第一目标检测结果与对应标签的差异。
根据第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面或第二方面中任一项所述的方法的步骤。
根据第六方面,提供了一种电子设备,其特征在于,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行上述第一方面或第二方面中任一项所述的方法的步骤。
根据本申请提供的具体实施例,本申请可以达到以下技术效果:
1)本申请在对各帧传感器数据进行目标检测后,利用帧内各目标在空间上的关联,对各帧传感器数据的目标检测结果第一修正预测,从而提高目标检测的准确性。
2)本申请在对各帧传感器数据进行目标检测后,可以进一步利用帧间同一目标信息的时序关联,对各帧传感器数据的目标检测结果进行第二修正预测,从而进一步提高目标检测的准确性。
3)在空间关联感知模型中GCN采用多层非线性变换的方式在多层迭代中不断更新边的特征,从而使得最终学习到的目标的特征融合了节点之间的关联关系,且具有较高的计算效率。
4)在时间关联感知模型中通过自注意力机制的处理,每一个目标的特征表示都考虑了该目标在时序上的关联影响,使得基于目标的特征表示进行的第二修正预测更加准确,且基于自注意力机制的学习过程更加高效。
当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本申请实施例的示例性***架构图;
图2为本申请实施例提供的目标检测方法的流程图;
图3为本申请实施例提供的利用空间关系感知模型进行第一修正预测的示意图;
图4为本申请实施例提供的一种时间关联感知模型的结构图;
图5示出了本申请实施例提供的一种优选流程的示意图;
图6为本申请实施例提供的建立空间关联感知模型的方法流程图;
图7为本申请实施例提供的建立时间关联感知模型的方法流程图;
图8示出根据一个实施例的该目标检测装置的示意性框图;
图9示出根据一个实施例的该建立空间关联感知模型的装置的示意性框图;
图10示出根据一个实施例的该建立时间关联感知模型的装置的示意性框图;
图11为本申请实施例提供的电子设备的架构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
图1示出了可以应用本申请实施例的示例性***架构。如图1中所示,该***可以包括:传感器、车端控制***和服务端控制***。
其中,传感器和车端控制***位于车辆端。该车辆可以是自动驾驶车辆,也可以是辅助驾驶车辆等。
传感器可以包括但不限于雷达、视觉传感器、远红外传感器等。其中雷达可以包括但不限于激光雷达、毫米波雷达、超声波雷达等。视觉传感器可以包括但不限于相机、摄像头等。雷达能够采集到各帧点云数据,视觉传感器可以采集到各帧图像数据,均能够适用于本申请所提供的方法。
车端控制***可以将传感器采集到的数据即传感器数据发送给服务器端控制***,由服务器端控制***采用本申请所提供的方法进行目标检测,并将目标检测结果返回给车端控制***,由车端控制***依据目标检测结果生成具体的决策信息。或者,由服务器端控制***采用本申请所提供的方法进行目标检测,并生成具体的决策信息后,将决策信息返回给车端控制***,由车端控制***直接执行该决策信息以对车辆进行控制。或者,若车端控制***具备强大的计算能力,则也可以由车端控制***采用本申请所提供的方法进行目标检测并生成具体的决策信息,以对车辆进行控制。
其中服务端控制***可以是单一服务器,也可以是多个服务器构成的服务器群组,还可以是云服务器。云服务器又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(VPs,Virtual Private Server)服务中存在的管理难度大,服务扩展性弱的缺陷。
应该理解,图1中的传感器、车端控制***和服务端控制***的数目仅仅是示意性的。根据实现需要,可以具有任意数目的传感器、车端控制***和服务端控制***。
图2为本申请实施例提供的目标检测方法的流程图,该方法可以由图1所示***中的服务端控制***执行,也可以由具有较强计算能力的车端控制***执行。如图2中所示,该方法可以包括以下步骤:
步骤202:获取待检测的N帧传感器数据,N为正整数。
步骤204:通过深度卷积神经网络对各帧传感器数据进行目标检测,得到各帧传感器数据的第二目标检测结果。
步骤206:基于同一帧传感器数据的第二目标检测结果中各目标之间的空间关联,分别对各帧传感器数据的第二目标检测结果进行第一修正预测,得到各帧传感器数据的第一目标检测结果。
由上述流程可以看出,本申请在对各帧传感器数据进行目标检测后,利用帧内各目标在空间上的关联,对各帧传感器数据的目标检测结果第一修正预测,从而提高目标检测的准确性。
在此需要说明的是,本申请所涉及的“多帧”、“多个”等指代多于一个的数量。
下面对上述流程中的各步骤进行详细描述。首先结合实施例对上述步骤202即“获取多帧传感器数据”进行详细描述。
本申请实施例中获取的传感器数据可以是通过诸如激光雷达、毫米波雷达等雷达设备采集到的N帧点云数据。N可以为1,也可以为大于1的数量,即可以是多帧。这里的多帧点云数据通常是连续采集到的多帧点云数据。鉴于雷达具备高准确性和高精度的特点,能够为自动驾驶车辆提供较远距离范围内目标的信息,并且不容易受到阴影、日光等的影响,因此优选通过雷达设备采集到的多帧点云数据。其中,雷达设备可以优选多线旋转式激光雷达或者固态激光雷达等激光雷达。
除此之外,本申请对于通过视觉传感器获取的多帧图像数据同样适用。例如通过摄像头连续采集到的多帧图像数据。
需要说明的是,本步骤中获取的多帧传感器数据通常是传感器在短时间内采集到的多帧传感器数据,采集到的范围的类似的,其中包含的目标信息也是类似的。
下面结合实施例对上述步骤204即“通过深度卷积神经网络对各帧传感器数据进行目标检测,得到各帧传感器数据的第二目标检测结果”进行详细描述。
本步骤是对传感器数据的基础目标检测,可以采用现有技术中的任意目标检测方式对各帧传感器数据进行目标检测,得到的目标检测结果称为第二目标检测结果。
作为其中一种可实现的方式,可以首先对各帧传感器数据生成多个候选区域,然后通过深度卷积神经网络对多帧传感器数据中的各帧传感器数据进行候选区域的特征提取,并利用提取的特征得到各帧传感器数据的第二目标检测结果。
具体地,可以首先针对各帧传感器数据分别生成多个候选区域。例如,若传感器数据为图像数据,则可以采用诸如Selective Search(选择性搜索)生成图像的候选区域。再例如,若传感器数据为点云数据,则可以通过将点云投影到栅格坐标系上生成点云数据的候选区域。
然后使用诸如Faster-RCNN(快速区域卷积神经网络)、SSD(Single ShotMultiBox Detector,一种基于卷积神经网络的端到端目标检测器)网络、YOLO(一种基于卷积神经网络的单阶段目标检测模型)、稀疏卷积神经网络等提取各候选区域的特征,再利用各候选区域的特征进行分类,得到包含目标的区域作为boundingboxes(检测框),并进一步得到各检测框所包含目标的类型信息、位置信息(通常体现为检测框的中心点位置)、尺寸信息(通常体现为检测框的长宽高)。对于点云数据而言,还可以进一步得到目标的朝向信息。
鉴于该部分基础的目标检测采用的是现有技术,在此不做详述。
下面结合实施例对上述步骤206即“基于同一帧传感器数据的第二目标检测结果中各目标之间的空间关联,分别对各帧传感器数据的第二目标检测结果进行第一修正预测,得到各帧传感器数据的第一目标检测结果”进行详细描述。
本步骤中,是将各帧传感器数据及其第二目标检测结果输入空间关联感知模型,由空间关联感知模型利用同一帧内不同目标之间的空间关联,对各帧传感器数据的第二目标检测结果进行第一修正预测,得到各帧传感器数据的第一目标检测结果。
如图3中所示,对各帧传感器数据的第二目标检测结果进行第一修正预测的实现方式主要执行以下两部分的处理:
第一部分的处理:利用当前输入帧传感器数据(表示为Fi)的第二目标检测结果建立当前输入帧传感器数据的信息图,信息图包括节点和节点之间的边,节点包括当前输入帧传感器数据中检测得到的目标,边表示节点之间的关联。
作为其中一种可实现的方式,可以利用当前输入帧传感器数据的第二目标检测结果确定当前输入帧传感器数据中各目标的RoI(Region of Interest,兴趣区域),利用各目标的RoI信息作为信息图中各节点的信息,利用各目标的RoI之间的位置关系确定信息图中的边。
其中,在确定各目标RoI时,可以直接将第二目标检测结果中得到的检测框(bounding boxes)确定为各RoI。但作为其中一种优选的实施方式,可以按照预设的比例将各检测框分别向外扩展得到各RoI。例如,将各检测框分别沿着长、宽和高的方向向外扩展得到各RoI。
在构建信息图时,将各RoI作为信息图中的节点,节点的特征可以由RoI所覆盖区域的特征得到。由于RoI包含第二目标检测结果中的检测框,因此对于RoI中扩展得到的部分可以依据检测框的特征采用双线性插值的方式得到。在信息图中节点之间的边可以依据各RoI之间的位置关系得到,例如若两个RoI的中心点之间的距离在预设第一距离范围内,则认为该两个RoI之间存在关联,对应节点之间存在边。再例如,若两个RoI的边界距离在预设第二距离范围内,则认为该两个RoI之间存在关联,对应节点之间存在边。再例如,对于一个RoI而言,可以将距离其最近的3个(数量3为预设值,也可以取其他预设值)RoI确定为与该一个RoI存在关联的RoI,对应节点之间存在边。
第二部分的处理:在建立信息图后,该信息图输入空间关联感知模型。由空间关联感知模型利用GCN(Graph Convolutional Network,图卷积神经网络)对信息图进行特征提取,并由分类层利用提取的特征进行第一修正预测得到当前输入帧传感器数据的第一目标检测结果。
GCN通过对信息图中节点的特征向量进行非线性变换后得到边的特征向量,并在多层迭代中不断更新每条边的信息,保证了对目标之间空间关联信息的提取。GCN利用节点的特征向量和边的特征向量得到各目标的特征向量,然后通过映射层将目标的特征向量进行映射,从而预测得到修正后的目标检测结果即第一目标检测结果。上述的GCN和映射层构成了空间关联感知模型,其中映射层可以包括分类网络和/或回归网络等。
在上述GCN中,可以采用一种轻量化的图卷积设计。包括:首先在每一轮迭代中通过对边两端的节点的特征进行非线性变换以计算信息图中每条边的特征。例如可以采用如下公式:
其中,表示信息图中节点m在第l轮迭代中得到的特征,表示信息图中节点n在第l轮迭代中得到的特征,即上标表示迭代的轮数,下标表示节点。表示节点m和节点n之间边在第l轮迭代中得到的特征。F()表示非线性变换函数。
然后,通过最大池化的方式,将节点相连的边通过池化进行融合,得到下一轮迭代中该节点的特征。例如可以采用如下公式:
最后将所有迭代获得的同一节点的特征进行合并,得到最终该节点的特征。例如可以采用如下公式:
上述GCN采用L层非线性变换的方式在多层迭代中不断更新边的特征,从而使得最终学习到的目标的特征融合了节点之间的关联关系,且具有较高的计算效率。另外,可以通过进一步控制单层非线性变换的卷积核的数量来提高整体网络的计算效率。例如,单层非线性变换的卷积核数量可以采用64或32等。
上述第一目标检测结果同样可以包括:各检测框所包含目标的类型信息、位置信息(通常体现为检测框的中心点位置)、尺寸信息(通常体现为检测框的长宽高)。对于点云数据而言,还可以进一步得到目标的朝向信息。
可以看出,GCN基于基础目标检测得到的目标检测结果中各目标在空间上的关联关系,对基础目标检测得到的目标检测结果进行了修正,实现了高精度空间特征关联优化,提高了目标检测的精度。
为了更进一步提高目标检测的准确度,在图2所示步骤206之后,还可以进一步执行以下步骤:
步骤208:对各帧传感器数据的第一目标检测结果进行目标跟踪以对同一目标的信息进行关联,得到各目标的检测结果序列。
本步骤中的目标跟踪实际上就是确定各帧传感器数据中属于同一目标的信息,将同一目标的信息进行关联。例如,假设存在T帧传感器数据,将各帧传感器数据的第一目标检测结果中同一目标的信息进行关联后,针对每一个目标都形成一个检测结果序列,该检测结果序列中包含该目标分别在T帧传感器数据的第一目标检测结果中的信息。假设每一帧传感器数据中都存在P个目标,那么对于第j个目标,其对应的检测结果序列Sj表示为[sj,1,sj,2,…,sj,T]。其中,T为大于1的正整数,P为大于或等于1的正整数。
目标跟踪可以采用任意的目标跟踪方法,例如采用区域匹配、特征匹配或者基于轮廓的跟踪方法等等。其中最常见的是特征匹配方法,即依据目标在一帧传感器数据中的特征,在其他帧传感器数据中匹配具有最相似特征的目标,作为同一目标。对于确定为同一目标的可以采用相同的ID进行标注。鉴于目标跟踪目前已经存在大量已有技术,在此不做详述。
步骤210:基于各目标的检测结果序列中同一目标的信息的时序关联,对各帧传感器数据的第一目标检测结果进行第二修正预测,得到各帧传感器数据的第三目标检测结果。
本步骤由时间关联感知模型执行。作为其中一种可实现的方式,可以分别输入各帧传感器数据及其第一目标检测结果、目标跟踪的结果至时间关联感知模型。时间关联感知模型利用当前输入帧传感器数据的上下文目标特征,对当前输入帧传感器数据的第一目标检测结果中各目标的特征分别进行自注意力机制的处理,得到当前输入帧传感器数据的各目标的特征表示;利用当前输入帧传感器数据的各目标的特征表示映射得到当前输入帧传感器数据的第三目标检测结果。可将该第三目标检测结果作为最终的目标检测结果。
图4为本申请实施例提供的一种时间关联感知模型的结构图。如图4中所示,时间关联感知模型可以包括编码(Encode)层、自注意力(Self-Attention)层、前馈网络(Feed-Forward network)层和回归(Regression)层。
编码层用于对输入的各帧传感器数据进行目标特征的提取,得到各帧传感器数据中各目标的特征。
自注意力层用于利用当前输入帧传感器数据的上下文目标特征,对当前输入帧传感器数据的第一目标检测结果中各目标的特征分别进行自注意力机制的处理,得到当前输入帧传感器数据的各目标的特征表示。
其中,当前输入帧传感器数据的上下文目标特征可以包括当前输入帧传感器数据之前和/或之后N帧传感器数据中各目标的特征,N为预设的正整数。以N取3为例,对于当前输入的第i帧传感器数据Fi中的目标j而言,可以利用该第i帧传感器数据的前3帧和后3帧传感器数据中该目标j的特征,对该第i帧传感器数据中的目标j的特征进行自注意力机制的处理,得到该第i帧传感器数据中的目标j的特征表示。
对于同一目标j在T帧传感器数据中的特征序列X,X=[xj,1,xj,2,…,xj,T],经过自注意力机制的处理后,输出各目标j的特征表示序列为H,H=[hj,1,hj,2,…,hj,T],则可以采用如下公式:
其中,Q、K和V分别是查询向量、键向量和值向量构成的矩阵,dk为K的空间维度。
Q=WqX
K=WkX
V=WvX
上述Wq、Wk和Wv分别是将X映射到三个向量空间所采用的参数矩阵,是时间关联感知网络学习到的模型参数。
通过自注意力机制的处理,每一个目标的特征表示都考虑了该目标在时序上的关联影响,从而能够在后续基于目标的特征表示进行的修正预测更加准确。除了自注意力机制,也可以采用普通注意力机制,在此不做详述。但由于自注意力机制具有的高效学习优势,优选采用自注意力机制。
前馈网络层用于将各目标的特征表示映射到统一的向量空间。
回归层用于利用映射到统一的向量空间后各目标的特征表示,预测得到当前输入帧传感器数据的第三目标检测结果。该第三目标检测结果同样可以包括:各检测框所包含目标的类型信息、位置信息(通常体现为检测框的中心点位置)、尺寸信息(通常体现为检测框的长宽高)。对于点云数据而言,还可以进一步得到目标的朝向信息。
可以看出,时间关联感知模型本质上是利用帧间同一目标的时序关联对各帧传感器数据的第一目标检测结果进行修正预测,得到各帧传感器数据的最终目标检测结果。
由于步骤208中进行目标跟踪得到的各目标的检测结果序列是存在对应的置信度的,置信度高的序列认为属于同一目标的概率大,反之,置信度低的序列认为属于同一目标的概率小。因此,作为其中一种可实现的方式,上述时间关联感知模块可以仅针对置信度大于或等于预设置信度阈值的检测结果序列所对应目标的第一检测结果进行修正预测。
具体地,可以确定置信度大于或等于预设置信度阈值的检测结果序列对应的目标为待修正目标;基于待修正目标的检测结果序列所体现的时序关联,对各帧传感器数据的第一目标检测结果中待修正目标的信息进行第二修正预测。这种针对性的修正预测能够降低计算的复杂度,提高计算效率。
图5示出了本申请实施例提供的一种优选流程的示意图,如图5中所示,对于自动驾驶车辆的激光雷达采集到的激光点云数据而言,各帧点云数据Fi首先经过基础目标检测得到第二目标检测结果,该第二目标检测结果中包括各目标的信息,例如各目标的类型信息、尺寸信息、位置信息、朝向信息等。
各帧点云数据Fi及其第二目标检测结果被构建成信息图后,由空间关联感知模型利用帧内各目标在空间上的关联关系进行第一修正预测后,得到各帧点云数据Fi的第一目标检测结果。该第一目标检测结果中包括各目标的信息,例如各目标的类型信息、尺寸信息、位置信息、朝向信息等。这些目标信息是经过修正后的更准确的信息。
各帧点云数据Fi的第一目标检测结果经过目标跟踪后,对各帧点云数据中同一目标的信息进行了关联,得到各目标的检测结果序列。
各帧点云数据Fi及其第一目标检测结果以及各目标的检测结果序列被输入时间关联感知模型,由时间关联感知模型利用帧间同一目标的时序关联进行第二修正预测后,得到各帧点云数据Fi的第三目标检测结果,同样包括各目标的信息,例如各目标的类型信息、尺寸信息、位置信息、朝向信息等。该第三目标检测结果作为最终的目标检测结果。
在上述目标检测过程中用到的基础目标检测和目标跟踪可以采用已有的技术实现,而空间关联感知模型和时间关联感知模型是需要预先训练得到的。下面分别对间关联感知模型和时间关联感知模型的训练方法进行详细描述。
图6为本申请实施例提供的建立空间关联感知模型的方法流程图,如图6中所示,该方法可以包括以下步骤:
步骤602:获取第一训练样本,第一训练样本包括多帧传感器数据、对多帧传感器数据进行目标检测得到的第二目标检测结果以及对多帧传感器数据中各目标信息标注的标签。
在训练空间关联感知模型时,可以获取传感器对已知目标进行采集所得到的多帧传感器数据。由于目标的信息是已知的,例如目标的类型信息、位置信息、尺寸信息和朝向信息等,因此可以利用已知的目标信息对该多帧传感器数据进行标注。
然后通过基础目标检测对多帧传感器数据进行目标检测得到第二目标检测结果。关于基础目标检测部分参见图2所示方法实施例中关于步骤204的相关记载,在此不做赘述。
步骤604:利用第一训练样本训练得到空间关联感知模型;其中空间关联感知模型基于各帧传感器数据的第二目标检测结果中各目标之间的空间关联,对各帧传感器数据的第二目标检测结果进行第一修正预测,得到各帧传感器数据的第一目标检测结果;训练的目标包括:最小化各帧传感器数据的第一目标检测结果与对应标签的差异。
具体地,可以首先利用各帧传感器数据的第二目标检测结果建立各帧传感器数据的信息图,该信息图包括节点和节点之间的边,节点包括第二目标检测结果中检测得到的目标,边表示节点之间的关联。然后将各帧传感器数据的信息图作为空间关联感知模型的输入,空间关联感知模型利用GCN对信息图进行特征提取,并由映射层利用提取的特征进行第一修正预测得到各帧传感器数据的第一目标检测结果。
其中,在建立信息图时,可以利用各帧传感器数据的第二目标检测结果确定各帧传感器数据中各目标的RoI,例如,可以直接将第二目标检测结果中得到的检测框确定为各RoI。但作为其中一种优选的实施方式,可以按照预设的比例将各检测框分别向外扩展得到各RoI。然后利用各目标的RoI信息作为信息图中各节点的信息,利用各目标的RoI之间的位置关系确定信息图中的边。例如若两个RoI的中心点之间的距离在预设第一距离范围内,则认为该两个RoI之间存在关联,对应节点之间存在边。再例如,若两个RoI的边界距离在预设第二距离范围内,则认为该两个RoI之间存在关联,对应节点之间存在边。再例如,对于一个RoI而言,可以将距离其最近的3个RoI确定为与该一个RoI存在关联的RoI,对应节点之间存在边。
空间关联感知模型可以包括GCN和映射层。GCN通过对信息图中节点的特征向量进行非线性变换后得到边的特征向量,并在多层迭代中不断更新每条边的信息,保证了对目标之间空间关联信息的提取。GCN利用节点的特征向量和边的特征向量得到各目标的特征向量,然后通过映射层将目标的特征向量进行映射,从而预测得到修正后的目标检测结果即第一目标检测结果。其中映射层可以包括分类网络和/或回归网络等。具体可以参见图3所示实施例中的相关记载,在此不做赘述。
在训练过程中,空间关联感知模型以第一训练样本中的标签作为输出目标,也就是说,训练目标是最小化空间关联感知模型输出的各帧传感器数据的第一目标检测结果与对应标签的差异。在本说明书实施例中,可以依据上述训练目标构造损失函数,在每一轮迭代中利用损失函数的取值,采用诸如梯度下降等方式更新模型参数,直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值,迭代次数达到预设的次数阈值等。
图7为本申请实施例提供的建立时间关联感知模型的方法流程图,如图7中所示,该方法可以包括以下步骤:
步骤702:获取第二训练样本,第二训练样本包括多帧传感器数据、对多帧传感器数据进行目标检测得到的第一目标检测结果、对各帧传感器数据的第一目标检测结果进行目标跟踪得到的各目标的检测结果序列以及对多帧传感器数据中各目标信息标注的标签。
在训练时间关联感知模型时,可以获取传感器对已知目标进行采集所得到的多帧传感器数据。由于目标的信息是已知的,例如目标的类型信息、位置信息、尺寸信息和朝向信息等,因此可以利用已知的目标信息对该多帧传感器数据进行标注。
然后通过基础目标检测对多帧传感器数据进行目标检测得到第一目标检测结果。关于基础目标检测部分参见图2所示方法实施例中关于步骤204的相关记载,在此不做赘述。
或者,可以通过基础目标检测对多帧传感器数据进行目标检测得到第二目标检测结果,然后利用已经训练得到的空间关联感知模型对各帧传感器数据的第二目标检测结果进行第一修正预测后,得到各帧传感器数据的第一目标检测结果。关于空间关联感知模型的相关记载也可以参见图2所示方法实施例中关于步骤206的相关记载以及图3所示实施例,在此不做赘述。
对于上述得到的各帧传感器数据的第一目标检测结果可以采用目标跟踪的方式对同一目标的信息进行关联,得到各目标的检测结果序列。该部分可以参见图2所示方法实施例中关于步骤208的相关记载,在此不做赘述。
至此可以得到多帧传感器数据、多帧传感器数据的第一目标检测结果、各目标的检测结果序列以及对多帧传感器数据中各目标信息标注的标签,从而构成第二训练样本。
步骤704:利用第二训练样本训练得到时间关联感知模型;其中时间关联感知模型基于各目标的检测结果序列中同一目标的信息的时序关联,对各帧传感器数据的第一目标检测结果进行第二修正预测,得到各帧传感器数据的第三目标检测结果;训练的目标包括:最小化各帧传感器数据的第三目标检测结果与对应标签的差异。
训练过程中,分别输入各帧传感器数据及其第一目标检测结果至时间关联感知模型;时间关联感知模型利用当前输入帧传感器数据的上下文目标特征,对当前输入帧传感器数据的第一目标检测结果中各目标的特征分别进行自注意力机制的处理,得到当前输入帧传感器数据的各目标的特征表示,当前输入帧传感器数据的上下文目标特征包括当前输入帧传感器数据之前和/或之后N帧传感器数据中各目标的特征,N为预设的正整数;利用当前输入帧传感器数据的各目标的特征表示映射得到当前输入帧传感器数据的第三目标检测结果。
关于时间关联感知模型的具体结构可以参见图4所示实施例中的相关记载,在此不做赘述。
时间关联感知模型以第二训练样本中的标签作为输出目标,也就是说,训练目标是最小化时间关联感知模型输出的各帧传感器数据的第三目标检测结果与对应标签的差异。在本说明书实施例中,可以依据上述训练目标构造损失函数,在每一轮迭代中利用损失函数的取值,采用诸如梯度下降等方式更新模型参数,直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值,迭代次数达到预设的次数阈值等。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
根据另一方面的实施例,提供了一种目标检测装置。图8示出根据一个实施例的该目标检测装置的示意性框图,该装置设置于图1所示架构中的服务端控制***。可以为位于服务端控制***的应用,或者还可以为位于服务端控制***的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,或者,还可以位于车端控制***,本发明实施例对此不进行特别限定。如图8所示,该装置800可以包括:数据获取模块801、目标检测模块802和空间关联感知模块803,还可以进一步包括目标跟踪模块804和时序关联感知模块805。其中各组成模块的主要功能如下:
数据获取模块801,被配置为获取多帧传感器数据。
目标检测模块802,被配置为通过深度卷积神经网络对各帧传感器数据进行目标检测,得到各帧传感器数据的第二目标检测结果。
空间关联感知模块803,被配置为基于同一帧传感器数据的第二目标检测结果中各目标之间的空间关联,分别对各帧传感器数据的第二目标检测结果进行第一修正预测,得到各帧传感器数据的第一目标检测结果。
作为其中一种可实现的方式,目标检测模块802可以具体被配置为:对多帧传感器数据中的各帧传感器数据生成多个候选区域;通过深度卷积神经网络对各帧传感器数据进行候选区域的特征提取,并利用提取的特征得到各帧传感器数据的第二目标检测结果。
作为其中一种可实现的方式,空间关联感知模块803可以具体被配置为:分别将各帧传感器数据作为当前输入帧传感器数据,执行:利用当前输入帧传感器数据的第二目标检测结果建立当前输入帧传感器数据的信息图并输入空间关联感知模型,所述信息图包括节点和节点之间的边,所述节点包括当前输入帧传感器数据中检测得到的目标,所述边表示节点之间的关联;由所述空间关联感知模型利用图卷积神经网络对当前输入帧传感器数据的信息图进行特征提取,并由映射层利用提取的特征进行第一修正预测得到当前输入帧传感器数据的第一目标检测结果。
作为其中一种可实现的方式,空间关联感知模块803可以具体被配置为:利用当前输入帧传感器数据的第二目标检测结果确定当前输入帧传感器数据中各目标的兴趣区域RoI,利用各目标的RoI信息作为所述信息图中各节点的信息,利用各目标的RoI之间的位置关系确定所述信息图中的边。
作为其中一种可实现的方式,GCN在每一轮迭代中通过对边两端的节点的特征进行非线性变换计算信息图中每条边的特征,将节点相连的边通过池化方式进行融合,得到下一轮迭代中该节点的特征;迭代结束后,将所有迭代中得到的同一节点的特征进行合并,得到从所述信息图中提取的该节点的特征以提供给所述映射层。
目标跟踪模块804,被配置为对所述各帧传感器数据的第一目标检测结果进行目标跟踪以对同一目标的信息进行关联,得到各目标的检测结果序列。
时序关联感知模块805,被配置为基于所述各目标的检测结果序列中同一目标的信息的时序关联,对所述各帧传感器数据的第一目标检测结果进行第二修正预测,得到各帧传感器数据的第三目标检测结果。
作为其中一种可实现的方式,时序关联感知模块805可以具体被配置为:分别输入各帧传感器数据及其第一目标检测结果至时间关联感知模型;所述时间关联感知模型利用当前输入帧传感器数据的上下文目标特征,对当前输入帧传感器数据的第一目标检测结果中各目标的特征分别进行自注意力机制的处理,得到当前输入帧传感器数据的各目标的特征表示,所述当前输入帧传感器数据的上下文目标特征包括所述当前输入帧传感器数据之前和/或之后N帧传感器数据中各目标的特征,所述N为预设的正整数;利用当前输入帧传感器数据的各目标的特征表示映射得到当前输入帧传感器数据的第三目标检测结果。
更进一步地,目标跟踪模块804进行目标跟踪还得到各目标的检测结果序列的置信度。
时序关联感知模块805可以确定置信度大于或等于预设置信度阈值的检测结果序列对应的目标为待修正目标;基于所述待修正目标的检测结果序列所体现的时序关联,对各帧传感器数据的第一目标检测结果中待修正目标的信息进行第二修正预测。
作为其中一种比较典型的应用场景,上述传感器数据可以包括点云数据,即通过诸如激光雷达、毫米波雷达等雷达设备采集到的点云数据。上述的目标检测结果包括各目标的类别信息、位置信息、尺寸信息和朝向信息。
根据另一方面的实施例,提供了一种建立空间关联感知模型的装置。图9示出根据一个实施例的该建立空间关联感知模型的装置的示意性框图。如图9所示,该装置900可以包括:第一样本获取模块901和第一模型训练模块902。其中,各组成模块可以具备以下功能:
第一样本获取模块901,被配置为获取第一训练样本,所述第一训练样本包括多帧传感器数据、对所述多帧传感器数据进行目标检测得到的第二目标检测结果以及对所述多帧传感器数据中各目标信息标注的标签。
第一样本获取模块901可以获取传感器对已知目标进行采集所得到的多帧传感器数据。由于目标的信息是已知的,例如目标的类型信息、位置信息、尺寸信息和朝向信息等,因此可以利用已知的目标信息对该多帧传感器数据进行标注。
然后通过基础目标检测对多帧传感器数据进行目标检测得到第二目标检测结果。关于基础目标检测部分参见图2所示方法实施例中关于步骤204的相关记载,在此不做赘述。
第一模型训练模块902,被配置为利用所述第一训练样本训练得到所述空间关联感知模型;其中所述空间关联感知模型基于各帧传感器数据的第二目标检测结果中各目标之间的空间关联,对所述各帧传感器数据的第二目标检测结果进行第一修正预测,得到各帧传感器数据的第一目标检测结果;所述训练的目标包括:最小化所述各帧传感器数据的第一目标检测结果与对应标签的差异。
作为其中一种可实现的方式,第一模型训练模块902可以首先利用各帧传感器数据的第二目标检测结果建立各帧传感器数据的信息图,该信息图包括节点和节点之间的边,节点包括第二目标检测结果中检测得到的目标,边表示节点之间的关联。然后将各帧传感器数据的信息图作为空间关联感知模型的输入,空间关联感知模型利用GCN对信息图进行特征提取,并由映射层利用提取的特征进行第一修正预测得到各帧传感器数据的第一目标检测结果。
其中,在建立信息图时,可以利用各帧传感器数据的第二目标检测结果确定各帧传感器数据中各目标的RoI,例如,可以直接将第二目标检测结果中得到的检测框确定为各RoI。但作为其中一种优选的实施方式,可以按照预设的比例将各检测框分别向外扩展得到各RoI。然后利用各目标的RoI信息作为信息图中各节点的信息,利用各目标的RoI之间的位置关系确定信息图中的边。
空间关联感知模型可以包括GCN和映射层。GCN通过对信息图中节点的特征向量进行非线性变换后得到边的特征向量,并在多层迭代中不断更新每条边的信息,保证了对目标之间空间关联信息的提取。GCN利用节点的特征向量和边的特征向量得到各目标的特征向量,然后通过映射层将目标的特征向量进行映射,从而预测得到修正后的目标检测结果即第一目标检测结果。其中映射层可以包括分类网络和/或回归网络等。具体可以参见图3所示实施例中的相关记载,在此不做赘述。
在训练过程中,空间关联感知模型以第一训练样本中的标签作为输出目标,也就是说,训练目标是最小化空间关联感知模型输出的各帧传感器数据的第一目标检测结果与对应标签的差异。在本说明书实施例中,可以依据上述训练目标构造损失函数,在每一轮迭代中利用损失函数的取值,采用诸如梯度下降等方式更新模型参数,直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值,迭代次数达到预设的次数阈值等。
根据另一方面的实施例,提供了一种建立时间关联感知模型的装置。图10示出根据一个实施例的该建立时间关联感知模型的装置的示意性框图。如图10所示,该装置1000可以包括:第二样本获取模块1001和第二模型训练模块1002。其中,各组成模块可以具备以下功能:
第二样本获取模块1001,被配置为获取第二训练样本,所述第二训练包括多帧传感器数据、对所述多帧传感器数据进行目标检测得到的第一目标检测结果、对所述各帧传感器数据的第一目标检测结果进行目标跟踪得到的各目标的检测结果序列以及对所述多帧传感器数据中各目标信息标注的标签。
第二样本获取模块1001可以获取传感器对已知目标进行采集所得到的多帧传感器数据。由于目标的信息是已知的,例如目标的类型信息、位置信息、尺寸信息和朝向信息等,因此可以利用已知的目标信息对该多帧传感器数据进行标注。
然后获取通过基础目标检测对多帧传感器数据进行目标检测得到的第一目标检测结果。关于基础目标检测部分参见图2所示方法实施例中关于步骤204的相关记载,在此不做赘述。
或者,可以通过基础目标检测对多帧传感器数据进行目标检测得到第二目标检测结果,然后利用已经训练得到的空间关联感知模型对各帧传感器数据的第二目标检测结果进行第一修正预测后,得到各帧传感器数据的第一目标检测结果。关于空间关联感知模型的相关记载也可以参见图2所示方法实施例中关于步骤206的相关记载以及图3所示实施例,在此不做赘述。
对于上述得到的各帧传感器数据的第一目标检测结果可以采用目标跟踪的方式对同一目标的信息进行关联,得到各目标的检测结果序列。该部分可以参见图2所示方法实施例中关于步骤208的相关记载,在此不做赘述。
第二模型训练模块1002,被配置为利用所述第二训练样本训练得到时间关联感知网络;其中所述时间关联感知网络基于所述各目标的检测结果序列中同一目标的信息的时序关联,对所述各帧传感器数据的第一目标检测结果进行第二修正预测,得到各帧传感器数据的第三目标检测结果;所述训练的目标包括:最小化所述各帧传感器数据的第三目标检测结果与对应标签的差异。
训练过程中,第二模型训练模块1002分别输入各帧传感器数据及其第一目标检测结果至时间关联感知模型;时间关联感知模型利用当前输入帧传感器数据的上下文目标特征,对当前输入帧传感器数据的第一目标检测结果中各目标的特征分别进行自注意力机制的处理,得到当前输入帧传感器数据的各目标的特征表示,当前输入帧传感器数据的上下文目标特征包括当前输入帧传感器数据之前和/或之后N帧传感器数据中各目标的特征,N为预设的正整数;利用当前输入帧传感器数据的各目标的特征表示映射得到当前输入帧传感器数据的第三目标检测结果。
关于时间关联感知模型的具体结构可以参见图4所示实施例中的相关记载,在此不做赘述。
时间关联感知模型以第二训练样本中的标签作为输出目标,也就是说,训练目标是最小化时间关联感知模型输出的各帧传感器数据的第三目标检测结果与对应标签的差异。在本说明书实施例中,可以依据上述训练目标构造损失函数,在每一轮迭代中利用损失函数的取值,采用诸如梯度下降等方式更新模型参数,直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值,迭代次数达到预设的次数阈值等。
另外,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
以及一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行前述方法实施例中任一项所述的方法的步骤。
其中,图11示例性的展示出了电子设备的架构,具体可以包括处理器1110,视频显示适配器1111,磁盘驱动器1112,输入/输出接口1113,网络接口1114,以及存储器1120。上述处理器1110、视频显示适配器1111、磁盘驱动器1112、输入/输出接口1113、网络接口1114,与存储器1120之间可以通过通信总线1130进行通信连接。
其中,处理器1110可以采用通用的CPU、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。
存储器1120可以采用ROM(Read Only Memory,只读存储器)、RAM(RandomAccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1120可以存储用于控制电子设备1100运行的操作***1121,用于控制电子设备1100的低级别操作的基本输入输出***(BIOS)1122。另外,还可以存储网页浏览器1123,数据存储管理***1124,以及目标检测装置1125等等。上述目标检测装置1125就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器1120中,并由处理器1110来调用执行。
输入/输出接口1113用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口1114用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1130包括一通路,在设备的各个组件(例如处理器1110、视频显示适配器1111、磁盘驱动器1112、输入/输出接口1113、网络接口1114,与存储器1120)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1110、视频显示适配器1111、磁盘驱动器1112、输入/输出接口1113、网络接口1114,存储器1120,总线1130等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***或***实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的***及***实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本申请所提供的技术方案进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。
Claims (14)
1.一种目标检测方法,其特征在于,该方法包括:
获取待检测的N帧传感器数据,所述N为正整数;
通过深度卷积神经网络对各帧传感器数据进行目标检测,得到各帧传感器数据的第二目标检测结果;
基于同一帧传感器数据的第二目标检测结果中各目标之间的空间关联,分别对各帧传感器数据的第二目标检测结果进行第一修正预测,得到各帧传感器数据的第一目标检测结果。
2.根据权利要求1所述的方法,其特征在于,所述通过深度卷积神经网络对各帧传感器数据进行目标检测,得到各帧传感器数据的第二目标检测结果包括:
对各帧传感器数据分别生成多个候选区域;
通过深度卷积神经网络对各帧传感器数据进行候选区域的特征提取,并利用提取的特征得到各帧传感器数据的第二目标检测结果。
3.根据权利要求1所述的方法,其特征在于,所述基于同一帧传感器数据的第二目标检测结果中各目标之间的空间关联,分别对各帧传感器数据的第二目标检测结果进行第一修正预测包括:
分别将各帧传感器数据作为当前输入帧传感器数据,执行:
利用当前输入帧传感器数据的第二目标检测结果建立当前输入帧传感器数据的信息图并输入空间关联感知模型,所述信息图包括节点和节点之间的边,所述节点包括当前输入帧传感器数据中检测得到的目标,所述边表示节点之间的关联;
由所述空间关联感知模型利用图卷积神经网络对当前输入帧传感器数据的信息图进行特征提取,并由映射层利用提取的特征进行第一修正预测得到当前输入帧传感器数据的第一目标检测结果。
4.根据权利要求3所述的方法,其特征在于,所述利用当前输入帧传感器数据的第二目标检测结果建立当前输入帧传感器数据的信息图包括:
利用当前输入帧传感器数据的第二目标检测结果确定当前输入帧传感器数据中各目标的兴趣区域RoI,利用各目标的RoI信息作为所述信息图中各节点的信息,利用各目标的RoI之间的位置关系确定所述信息图中的边。
5.根据权利要求3所述的方法,其特征在于,所述利用图卷积神经网络对当前输入帧传感器数据的信息图进行特征提取包括:
在每一轮迭代中通过对边两端的节点的特征进行非线性变换计算信息图中每条边的特征,将节点相连的边通过池化方式进行融合,得到下一轮迭代中该节点的特征;
迭代结束后,将所有迭代中得到的同一节点的特征进行合并,得到从所述信息图中提取的该节点的特征以提供给所述映射层。
6.根据权利要求1所述的方法,其特征在于,所述N大于1;该方法还包括:
对所述各帧传感器数据的第一目标检测结果进行目标跟踪以对同一目标的信息进行关联,得到各目标的检测结果序列;
基于所述各目标的检测结果序列中同一目标的信息的时序关联,对所述各帧传感器数据的第一目标检测结果进行第二修正预测,得到各帧传感器数据的第三目标检测结果。
7.根据权利要求6所述的方法,其特征在于,基于所述各目标的检测结果序列中同一目标的信息的时序关联,对所述各帧传感器数据的第一目标检测结果进行第二修正预测包括:
分别输入各帧传感器数据及其第一目标检测结果至时间关联感知模型;
所述时间关联感知模型利用当前输入帧传感器数据的上下文目标特征,对当前输入帧传感器数据的第一目标检测结果中各目标的特征分别进行自注意力机制的处理,得到当前输入帧传感器数据的各目标的特征表示,所述当前输入帧传感器数据的上下文目标特征包括所述当前输入帧传感器数据之前和/或之后N帧传感器数据中各目标的特征,所述N为预设的正整数;利用当前输入帧传感器数据的各目标的特征表示映射得到当前输入帧传感器数据的第三目标检测结果。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述传感器数据包括点云数据;
所述目标检测结果包括各目标的类别信息、位置信息、尺寸信息和朝向信息。
9.一种建立空间关联感知模型的方法,其特征在于,该方法包括:
获取第一训练样本,所述第一训练样本包括多帧传感器数据、对所述多帧传感器数据进行目标检测得到的第二目标检测结果以及对所述多帧传感器数据中各目标信息标注的标签;
利用所述第一训练样本训练得到所述空间关联感知模型;
其中所述空间关联感知模型基于各帧传感器数据的第二目标检测结果中各目标之间的空间关联,对所述各帧传感器数据的第二目标检测结果进行第一修正预测,得到各帧传感器数据的第一目标检测结果;
所述训练的目标包括:最小化所述各帧传感器数据的第一目标检测结果与对应标签的差异。
10.根据权利要求9所述的方法,其特征在于,利用所述第一训练数据训练得到所述空间关联感知模型包括:
利用各帧传感器数据的第二目标检测结果建立各帧传感器数据的信息图,所述信息图包括节点和节点之间的边,所述节点包括第二目标检测结果中检测得到的目标,所述边表示节点之间的关联;
将各帧传感器数据的信息图作为所述空间关联感知模型的输入,所述空间关联感知模型利用图卷积神经网络对所述信息图进行特征提取,并由映射层利用提取的特征进行第一修正预测得到各帧传感器数据的第一目标检测结果。
11.一种目标检测装置,其特征在于,该装置包括:
数据获取模块,被配置为获取待检测的N帧传感器数据,所述N为正整数;
目标检测模块,被配置为通过深度卷积神经网络对各帧传感器数据进行目标检测,得到各帧传感器数据的第二目标检测结果;
空间关联感知模块,被配置为基于同一帧传感器数据的第二目标检测结果中各目标之间的空间关联,分别对各帧传感器数据的第二目标检测结果进行第一修正预测,得到各帧传感器数据的第一目标检测结果。
12.一种建立空间关联感知网络的装置,其特征在于,该装置包括:
第一样本获取模块,被配置为获取第一训练样本,所述第一训练样本包括多帧传感器数据、对所述多帧传感器数据进行目标检测得到的第二目标检测结果以及对所述多帧传感器数据中各目标信息标注的标签;
第一模型训练模块,被配置为利用所述第一训练样本训练得到所述空间关联感知模型;其中所述空间关联感知模型基于各帧传感器数据的第二目标检测结果中各目标之间的空间关联,对所述各帧传感器数据的第二目标检测结果进行第一修正预测,得到各帧传感器数据的第一目标检测结果;所述训练的目标包括:最小化所述各帧传感器数据的第一目标检测结果与对应标签的差异。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至10任一项所述的方法的步骤。
14.一种电子设备,其特征在于,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行权利要求1至10任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210700128.3A CN115270919A (zh) | 2022-06-20 | 2022-06-20 | 目标检测方法、建立空间关联感知模型的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210700128.3A CN115270919A (zh) | 2022-06-20 | 2022-06-20 | 目标检测方法、建立空间关联感知模型的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115270919A true CN115270919A (zh) | 2022-11-01 |
Family
ID=83760849
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210700128.3A Pending CN115270919A (zh) | 2022-06-20 | 2022-06-20 | 目标检测方法、建立空间关联感知模型的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115270919A (zh) |
-
2022
- 2022-06-20 CN CN202210700128.3A patent/CN115270919A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109559320B (zh) | 基于空洞卷积深度神经网络实现视觉slam语义建图功能的方法及*** | |
US10748061B2 (en) | Simultaneous localization and mapping with reinforcement learning | |
CN113264066B (zh) | 障碍物轨迹预测方法、装置、自动驾驶车辆及路侧设备 | |
US10748033B2 (en) | Object detection method using CNN model and object detection apparatus using the same | |
WO2021218786A1 (zh) | 一种数据处理***、物体检测方法及其装置 | |
Akai et al. | Simultaneous pose and reliability estimation using convolutional neural network and Rao–Blackwellized particle filter | |
CN110782483A (zh) | 基于分布式相机网络的多视图多目标跟踪方法及*** | |
CN113313763A (zh) | 一种基于神经网络的单目相机位姿优化方法及装置 | |
CN113724388B (zh) | 高精地图的生成方法、装置、设备以及存储介质 | |
Ushani et al. | Feature learning for scene flow estimation from lidar | |
CN115205391A (zh) | 一种三维激光雷达和视觉融合的目标预测方法 | |
CN111709988A (zh) | 一种物体的特征信息的确定方法、装置、电子设备及存储介质 | |
WO2022021661A1 (zh) | 一种基于高斯过程的视觉定位方法、***及存储介质 | |
EP3703008A1 (en) | Object detection and 3d box fitting | |
CN113112525A (zh) | 目标跟踪方法、网络模型及其训练方法、设备和介质 | |
CN111797970A (zh) | 训练神经网络的方法和装置 | |
CN112258565A (zh) | 图像处理方法以及装置 | |
Saleem et al. | Neural network-based recent research developments in SLAM for autonomous ground vehicles: A review | |
CN115690545B (zh) | 训练目标跟踪模型和目标跟踪的方法和装置 | |
Deng et al. | See-csom: Sharp-edged and efficient continuous semantic occupancy mapping for mobile robots | |
US20220164595A1 (en) | Method, electronic device and storage medium for vehicle localization | |
Jo et al. | Mixture density-PoseNet and its application to monocular camera-based global localization | |
CN116664851A (zh) | 一种基于人工智能的自动驾驶数据提取方法 | |
CN115270919A (zh) | 目标检测方法、建立空间关联感知模型的方法及装置 | |
CN115270918A (zh) | 目标检测方法、建立时间关联感知模型的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |