WO2023040068A1

WO2023040068A1 - 感知模型训练方法、基于感知模型的场景感知方法

Info

Publication number: WO2023040068A1
Application number: PCT/CN2021/135453
Authority: WO
Inventors: 贾楠; 徐倩; 杨鑫
Original assignee: 惠州市德赛西威汽车电子股份有限公司
Priority date: 2021-09-16
Filing date: 2021-12-03
Publication date: 2023-03-23
Also published as: CN113780453A

Abstract

本申请涉及感知模型训练方法、基于感知模型的场景感知方法；应用于汽车电子产品中，所述感知模型训练方法包括以下步骤：S1初始化感知模型参数；S2获取图像数据，并对所述图像数据进行前向运算，获得图像数据的损失函数总值；S3根据所述损失函数总值，进行后向运算对感知模型参数进行更新；S4迭代步骤S2到S3，当迭代次数达到预设次数时，获得最终感知模型。本申请的有益效果是：本申请训练感知模型，并通过感知模型获取场景图像的数据，准确度高，同时通过卷积神经网络算法进行2D物体检测任务和多目标分类任务，大大降低计算量，可在车载处理器上进行实时计算，得到感知结果。

Description

感知模型训练方法、基于感知模型的场景感知方法

技术领域

本申请涉及汽车电子技术领域，更具体地，涉及感知模型训练方法、基于感知模型的场景感知方法。

背景技术

近年来借助人工智能领域的技术突破，ADAS(高级驾驶辅助***)和无人驾驶技术有了飞速发展。车辆可通过车载摄像头等车载传感器获取车辆当前环境信息，之后车载处理***通过感知算法对传感器信息进行处理提炼，供车辆控制***做出相应决策。感知算法作为无人驾驶***的重要部分，为车辆的安全提供先决条件和保障。

相关技术中基于图像分类算法，能粗略的给出大致信息，但不能给出更加具体的信息，比如分类算法能给出场景中有人和车辆，但是不能得到例如：人少于5，车辆多于10，交通标志牌等更加细致的信息，而且相关技术对于场景中小尺寸物体的感知力弱，如：交通灯，交通标志牌。相比下本技术不但能给出诸如天气，光照，时段，路段等情况，还不能针对更加敏感物体，如行人、车辆，交通标识等给出更加具体的结构化信息。

发明内容

本申请为克服上述现有技术中的问题，本申请提供感知模型训练方法、基于感知模型的场景感知方法。

一种感知模型训练方法，应用于汽车电子产品中，所述方法包括以下步骤：

S1初始化感知模型参数；

S2获取图像数据，并对所述图像数据进行前向运算，获得图像数据的损失函数总值；

S3根据所述损失函数总值，进行后向运算对感知模型参数进行更新；

S4迭代步骤S2到S3，当迭代次数达到预设次数时，获得最终感知模型。

可选地，在步骤S1中，所述感知模型参数通过随机值赋值进行初始化。

可选地，在步骤S2中，所述获取图像数据，包括以下步骤：

S21通过车载摄像采集多个图像数据；

S22对每一所述图像数据进行预处理，并在每一图像数据标注形成数据集。

可选地，所述步骤S22包括：

S221通过相机标定算法，对所述图像数据进行标定获得畸变参数；

S222通过矫正公式获得获取矫正坐标，并通过双线性差值算法得到矫正图像；

S223进行图像缩放，并对图像进行2D框和多标签标注；

其中，所述矫正公式为：

k ₁，k ₂，p ₁，p ₂，k3为畸变参数，x，y为矫正后像素坐标，x′，y′为矫正前像素坐标，r＝x ²+y ²。

可选地，在步骤S2中，所述对所述图像数据进行前向运算基于卷积神经网络算法进行计算，具体步骤包括：

S23通过CNN特征提取模块，将图像数据映射为特征图；

S24将所述特征图链接线性映射层，将特征图映射为C _scene×1的矩阵，C _scene×1的矩阵为多标签分类分支输出的多标签分类数据，C _scene为多标签分类分支的分类数；

S25对所述特征图进行2 ^n-2倍上采样，得到宽高为原图像

的检测头特征图，其中R＝4为下采样因子。

S26所述检测头特征图分别经过卷积层得到三个分支输出的数据：中心点数据、中心点偏移数据、尺寸数据。

可选地，所述损失函数总值为多标签分离损失函数与2D框物体检测损失函数之和。

可选地，所述多标签分离损失函数，通过以下公式计算：

其中，Y _i为类别真值，

为类别估计值。

可选地，所述2D框物体检测损失函数为中心点损失函数、中心点偏移损失函数、尺寸损失函数之和；

其中，

中心点损失函数通过以下公式计算：

其中α,β为中心点损失函数的超参数，

为中心点位置真值，

为中心点位置预测值，W，H为原图像宽，高，R为下采样因子，C为检测类别数。

中心点偏移损失函数通过以下公式计算：

(4)，其中，p∈R ²为中心点位置真实值，

为中心点位置预测值，

为中心点位置偏移预测值

尺寸损失函数通过以下公式计算：

其中，

为2D框尺寸预测值，s _k为2D框尺寸真值。

可选地，在步骤S23中，所述根据所述损失函数总值，进行后向运算对感知模型参数进行更新，包括：

根据所述损失函数总值通过链式求导法则进行后向运算，对感知模型参数进行更新。

此外，本申请还提供一种基于感知模型的场景感知方法，所述感知模型通过上述的一种感知模型训练方法获得；所述场景感知方法包括：

S5获取场景图像，并对所述输入图像进行预处理，获得输入图像；

S6将所述输入图像，输入所述感知模型进行推断，获得推断结果；

S7对所述推断结果进行解析和信息融合得出场景感知结果。

可选地，所述步骤S5包括：

S51通过相机标定算法，对所述场景图像进行标定获得畸变参数；

S52通过矫正公式获得获取矫正坐标，并通过双线性差值算法得到矫正图像；

S53进行图像缩放，获得输入图像；

其中，所述矫正公式为：

可选地，所述步骤S6包括：

将所述输入图像输入到感知模型，所述感知模型输出的推断结果为多标签分类数据，以及2D框的中心点数据、中心点偏移数据、尺寸数据。

可选地，在所述步骤S7中，所述对所述推断结果进行解析和信息融合得出场景感知结果，包括：

S71解析中心点数据、中心点偏移数据、尺寸数据信息得到2D检测框信息；

S72解析多标签分类数据得到场景信息；

S73融合2D检测框信息和分类信息得到最终场景感知结果。

可选地，在步骤S71中，所述解析中心点，中心点偏移，尺寸三个分支信息得到2D检测框信息，包括：

S711通过中心点数据预测模糊2D框中心点位置坐标；

S712通过中心点偏移数据可以预测2D框中心点的偏移，与模糊中心点相加得到最后的精确2D框中心位置坐标；

S713通过尺寸数据可以预测2D框的宽高信息；

S714通过中心点数据、中心点偏移数据、尺寸数据的信息融合得到完整2D检测框信息。

可选地，所述步骤S73包括：通过所述2D检测框信息获得物体信息，通过多标签分类数据预测场景信息。

与现有技术相比，本申请的有益效果是：本申请训练感知模型，并通过感知模型获取场景图像的数据，准确度高，同时通过卷积神经网络算法进行2D物体检测任务和多目标分类任务，大大降低计算量，可在车载处理器上进行实时计算，得到感知结果。

附图说明

图1为本申请实施例的感知模型训练方法流程图。

图2为本申请实施例的场景感知方法流程图。

图3为本申请实施例的场景图像示意图。

图4为本申请实施例的矫正图像示意图。

图5为本申请实施例的卷积网络算法示意图。

具体实施方式

下面结合具体实施方式对本申请作进一步的说明。

本申请实施例的附图中相同或相似的标号对应相同或相似的部件；在本申请的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制。

此外，若有“第一”、“第二”等术语仅用于描述目的，主要是用于区分不同的装置、元件或组成部分(具体的种类和构造可能相同也可能不同)，并非用于表明或暗示所指示装置、元件或组成部分的相对重要性和数量，而不能理解为指示或者暗示相对重要性。

在如图1所示的实施例中，本申请提供了一种感知模型训练方法，应用于汽车电子产品中，本方法包括以下步骤：

S1初始化感知模型参数；在步骤S1中，感知模型参数通过随机值赋值进行初始化。可通过***的随机数生成函数，生成相应随机数并对感知模型的参数进行赋值。

S2获取图像数据，并对图像数据进行前向运算，获得图像数据的损失函数总值；在步骤2中，获取图像数据，包括以下步骤：S21通过车载摄像采集多个图像数据；S22对每一图像数据进行预处理，并在每一图像数据标注形成数据集。对图像数据进行前向运算基于卷积神经网络算法进行计算，具体步骤包括：S23通过CNN特征提取模块，将图像数据映射为特征图；S24将特征图链接线性映射层，将特征图映射为C _scene×1的矩阵，C _scene×1的矩阵为多标签分类分支的输出的多标签分类数据，C _scene为多标签分类分支的分类数；S25对特征图进行2 ^n-2倍上采样，得到宽高为原图像

的检测头特征图，其中R＝4为下采样因子。S26检测头特征图分别经过卷积层得到三个分支：中心点数据、中心点偏移数据、尺寸数据。前向运算即根据卷积神经网络算法对图像数据依次进行特征提取、特征分类、特征上采样、特征2D框物体检测；通过前向运算获取多标签分类分支，以及2D框的中心点数据、中心点偏移数据、尺寸数据。且根据前向运算，计算图像数据的损失函数总值。

S3根据损失函数总值，进行后向运算对感知模型参数进行更新；在步骤S3中，后向运算为前向运算的反向推导，并根据损失函数总值，对感知模型的函数进行更新。

S4迭代步骤S2到S3，当迭代次数达到预设次数时，获得最终感知模型。在步骤S4，本申请通过用过上一次S3生成的感知模型参数，作为下一次S2的感知模型参数对S2、S3多次迭代，预设次数可以根据最终输入图像数据，获得数据与预先获取2D框和多标签标注连续一致时，则停止迭代，生成最终的感知模型。在本实施例中，预设次数可以是10万次。

在本实施例中，本申请基于CNN的网络模型，准确度高，同时利用多任务学习复用特征提取模块同时进行2D物体检测任务和多目标分类任务，大大降低计算量，可在车载处理器上进行实时计算，得到感知结果。

在一些实施例中，在步骤S2中，获取图像数据，包括以下步骤：

S21通过车载摄像采集多个图像数据；在步骤S21中，本申请的图像数据可通过车载摄像头进行获取，通过车辆在道路行驶持续获得图像数据。

S22对每一图像数据进行预处理，并在每一图像数据标注形成数据集。在步骤S22中包括：S221通过相机标定算法，对图像数据进行标定获得畸变参数；S222通过矫正公式获得获取矫正坐标，并通过双线性差值算法得到矫正图像如图4；S223进行图像缩放，并对图像进行2D框和多标签标注；其中，矫正公式为：

k ₁，k ₂，p ₁，p ₂，k3为畸变参数，x，y为矫正后像素坐标，x′，y′为矫正前像素坐标，r＝x ²+y ²。在本实施例中，相机标定算法可以是张正友标定算法，图像缩放可以是采用双线性差值方法，将图像缩放到统一尺寸，如1280像素x720像素。对图像进行2D框和多标签标注可以通过人工对图像数据内的特征进行2D框选择及多标签标注。

在一些实施例中，在步骤S2中，对图像数据进行前向运算基于卷积神经网络算法进行计算，其中，卷积神经网络算法包括特征提取模块、多标签分类模块、上采样模块、2D框物体检测模块；具体步骤包括：

S23通过CNN特征提取模块，将图像数据映射为特征图；在步骤S23中，轻量级网络作为特征提取模块，例如MobileNetV2，CSPNet，经过特征提取模块后输入图片被映射为特征图，特征图宽高为输入图像的1/2 ⁿ，n通常为5。

S24将特征图链接线性映射层，将特征图映射为C _scene×1的矩阵，C _scene×1的矩阵为多标签分类分支输出的多标签分类数据，C _scene为多标签分类分支的分类数；

S25对特征图进行2 ^n-2倍上采样，得到宽高为原图像

的检测头特征图，其中R＝4为下采样因子。在本实施例中，为了进行2D框物体检测，需要利用上采样模块对特征图进行2 ^n-2倍上采样，得到宽高为原图像

的检测头特征图，其中R＝4为下采样因子。

S26检测头特征图分别经过卷积层得到三个分支输出的数据：中心点数据、中心点偏移数据、尺寸数据。在步骤S26中，检测头特征图分别经过卷积层得到三个分支：中心点数据可得到中心点位置的坐标、中心点偏移数据可得到中心点位置的偏移值、尺寸数据可到2D框的宽高。

在本实施例中，参见图5，在本申请的感知模型中，有四个计算分支，即计算操作，分别为多标签分类分支、中心点分支、中心点偏移分支、尺寸分支，而线性映射层、上采样、卷积层是上述分支中具体的操作。在多标签分类分支中，输入特征图，通过线性映射层操作，多标签分类分支输出多标签分类数据，即C _scene×1的矩阵。在中心点分支中，输入检测头特征图，通过卷积层操作，中心点分支输出中心点数据，即

的矩阵。在中心点偏移分支中，输入检测头特征图，通过卷积层操作，中心点偏移分支输出中心点偏移数据，即

的矩阵。在尺寸分支中，输入检测头特征图，通过卷积层操作，尺寸分支输出尺寸数据，即

的矩阵其中，中心点分支，中心点偏移分支，尺寸分支，一起组成2D框物体检测任务。本申请将图片进行S23进行特征提取后，通过S24进行多标签分类任务，获取多标签分类数据；通过S24上采样、S25 2D框检测任务获取中心点数据、中心点偏移数据、尺寸数据。

在一些实施例中，损失函数总值为多标签分离损失函数与2D框物体检测损失函数之和。

其中，多标签分离损失函数，通过以下公式计算：

Y _i为类别真值，

为类别估计值。

2D框物体检测损失函数为中心点损失函数、中心点偏移损失函数、尺寸损失函数之和；

中心点损失函数通过以下公式计算：

其中α,β为中心点损失函数的超参数，

为中心点位置真值，

中心点偏移损失函数通过以下公式计算：

(4)，其中，p∈R ²为中心点位置真实值，

为中心点位置预测值，

为中心点位置偏移预测值

尺寸损失函数通过以下公式计算：

其中，

为2D框尺寸预测值，s _k为2D框尺寸真值。

在本实施例中，本申请通过计算前向运算各部分的损失函数，计算损失函数总值。

在一些实施例中，在步骤S23中，根据损失函数总值，进行后向运算对感知模型参数进行更新，包括：根据损失函数总值通过链式求导法则进行后向运算，对感知模型参数进行更新。在本实施例中，根据链式求导法则，沿前向运算的各步骤的反向进行后向运算，将前向运算输入图像和输出的结果、损失函数总值，计算并更新感知模型参数。其中，后向运算都是机器学习库，如PyToch、TensorFlow等模型实现。

在如图2所示的实施例中，本申请还提供一种基于感知模型的场景感知方法，感知模型通过上述的一种感知模型训练方法获得；场景感知方法包括：

S5获取场景图像，并对输入图像进行预处理，获得输入图像；在步骤S5中，场景图像通过车辆行驶时通过摄像头进行实时获取，具体包括：S51通过相机标定算法，对场景图像进行标定获得畸变参数；S52通过矫正公式获得获取矫正坐标，并通过双线性差值算法得到矫正图像；S53进行图像缩放，获得输入图像。S53进行图像缩放，获得输入图像；其中，矫正公式为：

k ₁，k ₂，p ₁，p ₂，k3为畸变参数，x，y为矫正后像素坐标，x′，y′为矫正前像素坐标，r＝x ²+y ²。在本实施例中，相机标定算法可以是张正友标定算法，图像缩放可以是采用双线性差值方法，将图像缩放到统一尺寸，如1280像素x720像素。

S6将输入图像，输入感知模型进行推断，获得推断结果；在步骤S6中，将输入图像输入到感知模型，感知模型输出的推断结果为多标签分类数据，以及2D框的中心点数据、中心点偏移数据、尺寸数据。具体地，对输入图像进行前向运算基于卷积神经网络算法进行计算，其中，卷积神经网络算法包括特征提取模块、多标签分类模块、上采样模块、2D框物体检测模块；具体步骤包括：通过CNN特征提取模块，将图像数据映射为特征图；本申请通过轻量级网络作为特征提取模块，例如MobileNetV2，CSPNet，经过特征提取模块后输入图片被映射为特征图，特征图宽高为输入图像的1/2 ⁿ，n通常为5。将特征图链接线性映射层，将特征图映射为C _scene×1的矩阵，C _scene×1的矩阵为多标签分类分支输出的多标签分类数据，C _scene为多标签分类分支的分类数；；对特征图进行2 ^n-2倍上采样，得到宽高为原图像

的检测头特征图，其中R＝4为下采样因子。检测头特征图分别经过卷积层得到三个分支：中心点数据、中心点偏移数据、尺寸数据。在步骤S26中，检测头特征图分别经过卷积层得到三个分支：中心点数据可得到中心点位置的坐标、中心点偏移数据可得到中心点位置的偏移值、尺寸数据可到2D框的宽高。参见图5，本申请将图片通过特征提取模块进行特征提取后，通过多标签分类模块进行多标签分类任务，获取多标签分类数据；通过上采样模块上采样、2D框物体检测模块进行2D框检测任务获取中心点数据、中心点偏移数据、尺寸数据。

S7对推断结果进行解析和信息融合得出场景感知结果。在步骤S7中，对推断结果进行解析和信息融合得出场景感知结果，包括：S71解析中心点数据、中心点偏移数据、尺寸数据信息得到2D检测框信息；S72解析多标签分类数据得到场景信息；S73融合2D检测框信息和分类信息得到最终场景感知结果。

在一些实施例中，在步骤71中，解析中心点，中心点偏移，尺寸三个分支信息得到2D检测框信息，包括：S711通过中心点数据预测模糊2D框中心点位置坐标；S712通过中心点偏移数据可以预测2D框中心点的偏移，与模糊中心点相加得到最后的精确2D框中心位置坐标；S713通过尺寸数据可以预测2D框的宽高信息；S714通过中心点数据、中心点偏移数据、尺寸数据的信息融合得到完整2D检测框信息。

在一些实施例中，步骤S73包括：通过2D检测框信息获得物体信息，通过多标签分类数据预测场景信息。在本实施例中，通过2D检测框信息可以得到物***置和数量，进而可以得到该张图片中包含的物体和数量信息。举例说明：如图3所示，由于检测到2辆车，可输出“车辆少于5”感知结果；由于检测到交通灯，可输出“交通灯”感知结果。多标签分类数据可以预测场景信息。举例说明：如图3所示，可输出“晴天”，“白天”，“城市道路”，“柏油马路”，“路口”等感知结果。现有技术的感知结果：晴天，白天，城市道路。本申请场景感知方法的感知结果：晴天，白天，城市道路，柏油马路，路口，车辆少于5，交通灯，交通标志牌。识别物体更多，更加精确。

显然，本申请的上述实施例仅仅是为清楚地说明本申请所作的举例，而并非是对本申请的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本申请的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本申请权利要求的保护范围之内。

Claims

一种感知模型训练方法，其特征在于，应用于汽车电子产品中，所述方法包括以下步骤：

S1初始化感知模型参数；

S2获取图像数据，并对所述图像数据进行前向运算，获得图像数据的损失函数总值；

S3根据所述损失函数总值，进行后向运算对感知模型参数进行更新；

S4迭代步骤S2到S3，当迭代次数达到预设次数时，获得最终感知模型。
根据权利要求1所述的一种感知模型训练方法，其特征在于，在步骤S1中，所述感知模型参数通过随机值赋值进行初始化。
根据权利要求1所述的一种感知模型训练方法，其特征在于，在步骤S2中，所述获取图像数据，包括以下步骤：

S21通过车载摄像采集多个图像数据；

S22对每一所述图像数据进行预处理，并在每一图像数据标注形成数据集。
根据权利要求3所述的一种感知模型训练方法，其特征在于，所述步骤S22包括：

S221通过相机标定算法，对所述图像数据进行标定获得畸变参数；

S222通过矫正公式获得获取矫正坐标，并通过双线性差值算法得到矫正图像；

S223进行图像缩放，并对图像进行2D框和多标签标注；

其中，所述矫正公式为：

k ₁，k ₂，p ₁，p ₂，k3为畸变参数，x，y为矫正后像素坐标，x′，y′为矫正前像素坐标，r＝x ²+y ²。
根据权利要求1所述的一种感知模型训练方法，其特征在于，在步骤S2中，所述对所述图像数据进行前向运算基于卷积神经网络算法进行计算，具体步骤包括：

S23通过CNN特征提取模块，将图像数据映射为特征图；

S24将所述特征图链接线性映射层，将特征图映射为C _scene×1的矩阵，C _scene×1的矩阵为多标签分类分支输出的多标签分类数据数据，C _scene为多标签分类分支的分类数；

S25对所述特征图进行2 ^n-2倍上采样，得到宽高为原图像
的检测头特征图，其中R＝4为下采样因子。

S26所述检测头特征图分别经过卷积层得到三个分支输出数据：中心点数据、中心点偏移数据、尺寸数据。
根据权利要求1所述的一种感知模型训练方法，其特征在于，所述损失函数总值为多标签分离损失函数与2D框物体检测损失函数之和。
根据权利要求6所述的一种感知模型训练方法，其特征在于，所述多标签分离损失函数，通过以下公式计算：
(2)，其中，Y _i为类别真值，
为类别估计值。
根据权利要求6所述的一种感知模型训练方法，其特征在于，所述2D框物体检测损失函数为中心点损失函数、中心点偏移损失函数、尺寸损失函数之和；

其中，

中心点损失函数通过以下公式计算：

其中α,β为中心点损失函数的超参数，
为中心点位置真值，
为中心点位置预测值，W，H为原图像宽，高，R为下采样因子，C为检测类别数。

中心点偏移损失函数通过以下公式计算：
(4)，其中，p∈R ²为中心点位置真实值，
为中心点位置预测值，
为中心点位置偏移预测值

尺寸损失函数通过以下公式计算：
其中，
为2D框尺寸预测值，s _k为2D框尺寸真值。
根据权利要求1所述的一种感知模型训练方法，其特征在于，在步骤S23中，所述根据所述损失函数总值，进行后向运算对感知模型参数进行更新，包括：

根据所述损失函数总值通过链式求导法则进行后向运算，对感知模型参数进行更新。
一种基于感知模型的场景感知方法，其特征在于，所述感知模型通过权利要求1-9任一项所述的一种感知模型训练方法获得；所述场景感知方法包括：

S5获取场景图像，并对所述输入图像进行预处理，获得输入图像；

S6将所述输入图像，输入所述感知模型进行推断，获得推断结果；

S7对所述推断结果进行解析和信息融合得出场景感知结果。
根据权利要求10所述的场景感知方法，其特征在于，所述步骤S5包括：

S51通过相机标定算法，对所述场景图像进行标定获得畸变参数；

S52通过矫正公式获得获取矫正坐标，并通过双线性差值算法得到矫正图像；

S53进行图像缩放，获得输入图像；

其中，所述矫正公式为：

k ₁，k ₂，p ₁，p ₂，k3为畸变参数，x，y为矫正后像素坐标，x′，y′为矫正前像素坐标，r＝x ²+y ²。
根据权利要求10所述的场景感知方法，其特征在于，所述步骤S600包括：

将所述输入图像输入到感知模型，所述感知模型输出的推断结果为多标签分类数据，以及2D框的中心点数据、中心点偏移数据、尺寸数据。
根据权利要求10所述的场景感知方法，其特征在于，在所述步骤S7中，所述对所述推断结果进行解析和信息融合得出场景感知结果，包括：

S71解析中心点数据、中心点偏移数据、尺寸数据信息得到2D检测框信息；

S72解析多标签分类数据得到场景信息；

S73融合2D检测框信息和分类信息得到最终场景感知结果。
根据权利要求13所述的场景感知方法，其特征在于，在步骤S71中，所述解析中心点，中心点偏移，尺寸三个分支信息得到2D检测框信息，包括：

S711通过中心点数据预测模糊2D框中心点位置坐标；

S712通过中心点偏移数据可以预测2D框中心点的偏移，与模糊中心点相加得到最后的精确2D框中心位置坐标；

S713通过尺寸数据可以预测2D框的宽高信息；

S714通过中心点数据、中心点偏移数据、尺寸数据的信息融合得到完整2D检测框信息。
根据权利要求13所述的场景感知方法，其特征在于，所述步骤S73包括：通过所述2D检测框信息获得物体信息，通过多标签分类数据预测场景信息。