CN115205380A

CN115205380A - 一种体积估计方法、装置、电子设备和存储介质

Info

Publication number: CN115205380A
Application number: CN202210626185.1A
Authority: CN
Inventors: 闫润强; 杨梓钰; 邓柯珀; 李旭强
Original assignee: Henan Xunfei Artificial Intelligence Technology Co ltd
Current assignee: Henan Xunfei Artificial Intelligence Technology Co ltd
Priority date: 2022-06-02
Filing date: 2022-06-02
Publication date: 2022-10-18

Abstract

本申请公开了一种体积估计方法、装置、电子设备和存储介质，该方法包括获取包含待测物体的目标图像；基于目标图像的第一彩色特征和第一深度特征，确定待测物体在目标图像中的第一图像位置；基于第一图像位置，得到待测物体的目标点云数据；基于目标点云数据，得到待测物体的体积。通过上述方式，本申请能够获得准确的物体体积。

Description

一种体积估计方法、装置、电子设备和存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种体积估计方法、装置、电子设备和存储介质。

背景技术

测量物体的体积在人们的日常生活中较为常见，例如：人们邮寄包裹时需要通过各种快递公司进行邮寄，快递公司可以通过测量包裹的体积进行收取费用；电商平台在对物体进行分拣装配时以及精准配送时，准确的包裹体积估计能够提高配送效率，减少配送决策失误。

目前对于物体体积的估计，仍使用较为传统的方法，例如，使用仪器直接测量，或者得到表面积进行积分的方法。在测量复杂不规则物体的体积时，传统的方法很难准确测量。也就是说，目前工业界，相关物体体积测量的算法对于复杂不规则物体体积的测量不能保证准确度。

发明内容

本申请主要解决的技术问题是提供一种体积估计方法、装置、电子设备和存储介质，能够获得准确的物体体积。

为解决上述技术问题，本申请第一方面提供了一种体积估计方法，该方法包括获取包含待测物体的目标图像；基于目标图像的第一彩色特征和第一深度特征，确定待测物体在目标图像中的第一图像位置；基于第一图像位置，得到待测物体的目标点云数据；基于目标点云数据，得到待测物体的体积。

为解决上述技术问题，本申请第二方面提供了一种体积估计装置，该装置包括：获取模块，用于获取包含待测物体的目标图像；位置确定模块，用于基于目标图像的第一彩色特征和第一深度特征，确定待测物体在目标图像中的第一图像位置；点云生成模块，用于基于第一图像位置，得到待测物体的目标点云数据；体积预测模块，用于基于目标点云数据，得到待测物体的体积。

为解决上述技术问题，本申请第三方面提供了一种体积估计设备，该设备包括相互耦接的存储器和处理器；存储器存储有程序指令；处理器用于执行存储器中存储的程序指令，以实现上述第一方面所述的方法。

为解决上述技术问题，本申请第三方面提供了一种计算机可读存储介质，该计算机可读存储介质用于存储程序指令，程序指令能够被执行以实现上述第一方面所述的方法。

本申请的有益效果是：区别于现有技术的情况，本申请基于目标图像的第一彩色特征和第一深度特征，确定待测物体在目标图像中的第一图像位置，根据第一图像位置，得到待测物体的目标点云数据，基于目标点云数据，得到待测物体的体积。通过结合第一彩色特征和第一深度特征，可以获得更准确的第一图像位置，进而获得更准确的目标点云数据和待测物体的体积。

附图说明

图1是本申请提供的体积估计方法第一实施方式的流程示意图；

图2是步骤S120一实施方式的流程示意图；

图3是语义分割模型的结构示意图；

图4是步骤S130一实施方式的流程示意图；

图5是步骤S140一实施方式的流程示意图；

图6是步骤S140另一实施方式的流程示意图；

图7是本申请提供的体积估计方法第二实施方式的流程示意图；

图8是本申请提供的体积估计装置一实施方式的框架示意图；

图9是本申请提供的电子设备一实施方式的框架结构示意图；

图10是本申请提供的计算机可读存储介质一实施方式的框架示意图。

具体实施方式

下面结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中有涉及“第一”、“第二”等的描述，该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

请参阅图1，图1是本申请提供的体积估计方法第一实施方式的流程示意图，该方法包括：

S110：获取包含待测物体的目标图像。

在一实施方式中，可以采用tof(Time of flight)相机在鸟瞰视角下拍摄待测物体，得到包含待测物体的初始图像。具体地，采用深度tof镜头进行拍摄，如KinectV2，该镜头可以给待测物体连续发送光脉冲，然后用传感器接收从待测物体返回的光，通过探测光脉冲的飞行(往返)时间来得到目标物距离。在鸟瞰视角拍摄待测物体，能够获取待测物体最多面的信息。

其中，初始图像可以包含初始彩色图像和初始深度图像，初始彩色图像和初始深度图像可以是利用tof相机的相同采集参数对待测物体拍摄得到的，相同采集参数包括相同视角、相同视野和相同采集时刻。初始彩色图像和初始深度图像已在相机内部对齐。

获取初始彩色图像和初始深度图像后，可以使用目标检测网络(如yolov4、yolov5、nanodet等轻量网络)对初始彩色图像或初始彩色图像进行目标检测，得到待测物体在初始彩色图像中的检测框，检测框可以为待测物体的边界矩形框(bounding box)，将初始彩色图像中位于检测框内的图像部分裁剪，得到目标彩色图像，以及，将初始深度图像中位于检测框内的图像部分裁剪，得到目标深度图像。

在一具体实施方式中，用户可以对初始彩色图像进行目标检测，得到待测物体在初始彩色图像中的检测框。由于初始深度图像和初始彩色图像是利用tof相机的相同采集参数对待测物体拍摄得到的，即可根据检测框的左上角或中心点在初始彩色图像中的位置坐标和待测物体的像素宽高，获取待测物体在初始深度图像中的检测框。可以理解地，在其它实施方式中，用户也可以对初始深度图像进行目标检测，再利用初始深度图像中的检测框的左上角或中心点的位置坐标和待测物体的像素宽高，获得待测物体在初始彩色图像中的检测框。

S120：基于目标图像的第一彩色特征和第一深度特征，确定待测物体在目标图像中的第一图像位置。

在一实施方式中，对目标深度图像和目标彩色图像进行特征提取，得到第一彩色特征和第一深度特征，将第一彩色特征和第一深度特征进行融合，得到目标融合特征，对目标融合特征进行语义分割，得到待测物体在目标深度图像和目标彩色图像中的第一图像位置。其中，目标深度图像和目标彩色图像可以是对相机在相同采集参数下拍摄的初始深度图像和初始彩色图像进行处理裁剪得到的，故，待测物体在目标彩色图像中的第一图像位置与待测物体在所述目标深度图像中的第一图像位置相同。

S130：基于第一图像位置，得到待测物体的目标点云数据。

在一实施方式中，获取第一图像位置后，从目标图像中提取对应第一图像位置的第一局部图像，利用相机的内参，对第一局部图像进行转换，得到初始点云数据，将初始点云数据作为目标点云数据。在另一实施方式中，还可以将初始点云数据投影至第二平面上，得到第二投影图像，利用第二投影图像的第二彩色特征和第二深度特征，确定待测物体在第二投影图像中的第二图像位置；从第二投影图像中提取对应第二图像位置的第二局部图像；利用相机的内参，对第二投影图像进行转换，得到目标点云数据。

其中，目标图像包含目标彩色图像和目标深度图像，可以理解的，用户可以根据需要，选择目标彩色图像和目标深度图像中至少一者，提取其对应第一图像位置的第一局部图像，获得目标点云数据。第一局部图像表示待测物体在垂直于预设视角方向的第一平面上的第一投影图像，其中，预设视角可以为鸟瞰视角，假设物体放置于地面上，可以以物体的一角为原点，建立三维直角坐标系，第一平面可以为垂直于鸟瞰视角的XY平面，第二平面可以为平行于鸟瞰视角的YZ平面。

S140：基于目标点云数据，得到待测物体的体积。

在一实施方式中，由体积预测模型基于目标点云数据，预测待测物体的体积。具体地，体积预测模型可以为点云深度网络(如PointNet或PointNet++)，向体积预测模型输入目标点云数据，对目标点云数据进行降采样，得到采样点云数据，将采样点云数据分成若干块，获取若干块的点云数据对应的点云特征，利用若干块的点云数据的点云特征，得到待测物体的体积。

上述方式，获取包含待测物体的目标图像后，基于目标图像的第一彩色特征和第一深度特征，确定待测物体在目标图像中的第一图像位置，根据第一图像位置，得到待测物体的目标点云数据，基于目标点云数据，得到待测物体的体积。通过结合第一彩色特征和第一深度特征，可以获得更准确的第一图像位置，进而获得更准确的目标点云数据和待测物体的体积。

请结合参阅图2和图3，图2是步骤S120一实施方式的流程示意图，图3是语义分割模型的结构示意图；步骤S120可以包括：

S221：从目标图像提取得到第一彩色特征和第一深度特征。

S222：将第一彩色特征和第一深度特征进行融合，得到目标融合特征。

S223：对目标融合特征进行语义分割，得到第一图像位置。

在一实施方式中，由语义分割模型对目标图像进行特征提取，得到第一彩色特征和第一深度特征。将目标图像包含的目标彩色图像和目标深度图像输入语义分割模型，语义分割模型可以包含三个支路，分别为彩色支路、深度支路和融合支路。在彩色支路对目标彩色图像进行特征提取，具体的，在彩色支路进行多层卷积加maxpooling(最大池化)以进行第一彩色特征的提取和下采样，在深度支路同样进行多层卷积加maxpooling以进行第一深度特征的提取和下采样，得到尺度不同的若干特征组，每组特征组包括对应一个尺度的第一彩色特征和第一深度特征。

进一步地，语义分割模型可以包含多层感知器(MLP，Multi-Layer Perceptron),以获取第一彩色特征和第一深度特征，并在融合支路将特征组中的第一彩色特征和第一深度特征进行融合，得到各特征组对应的初始融合特征。对第一彩色特征和第一深度特征进行融合可以在得到一个特征组后立即进行，例如，彩色支路和深度支路第一次提取得到尺度为112*112的第一特征组，第二次提取得到尺度为56*56的第一特征组，在第一次提取结束后，可以使用拼接(concat)的方式对第一特征组包含的第一彩色特征和第一深度特征进行融合，得到第一初始融合特征；在第二次提取结束后，可以采用同样的方式得到第二初始融合特征。其中，使用concat方式进行融合可以使描述图像本身的特征数(通道数)增加。

得到各特征组对应的初始融合特征后，可以对各初始融合特征进行经过多层卷积提取得到各新融合特征，可以采用增加(add)的方式将各新融合特征进行融合，得到目标融合特征。其中，使用add的方式进行融合可以使描述图像的特征的信息量增多。

最后，将目标融合特征进行解码操作，具体地，对目标融合特征进行多次反卷积，反卷积可以使用近邻差值、双线性差值等方法，生成与目标图像大小一致的概率图，概率图中每个像素位点有一个目标数值，通过判断目标数值与预设数值的大小，即可确定目标数值对应的像素位点是否是待测物体的位置，也即可得到待测物体在垂直于预设视角方向的第一平面上的第一投影图像，第一投影图像表示待测物体的位置，在一实施方式中，第一投影图像可以采用掩码(mask)表示。

本实施方式中，通过将第一深度特征和第一彩色特征进行融合，即可获得准确的待测物体的位置。

可以理解地，语义分割模型在使用前可以经过训练，具体地，可以输入大量的训练图像，训练图像中包括待测物体在训练图像中的标注位置，基于语义分割模型对训练图像进行预测得到的待测物体在训练图像中的训练位置计算CE损失，根据CE损失调整语义分割模型的参数。

请参阅图4，图4是步骤S130一实施方式的流程示意图，步骤S130可以包括：

S431：从目标图像中提取对应第一图像位置的第一局部图像。

在一实施方式中，步骤S120确定待测物体在目标图像中的第一图像位置后，即可从目标图像中提取对应第一图像位置的第一局部图像。即从目标彩色图像中提取对应第一图像位置的第一局部彩色图像，以及从目标深度图像中提取对应第一图像位置的第一局部深度图像。其中，第一局部图像表示待测物体在垂直于预设视角方向的第一平面上的第一投影图像，具体地，预设视角可以为鸟瞰视角，假设物体放置于地面上，可以以物体的一角为原点，建立三维直角坐标系，第一平面可以为垂直于鸟瞰视角的XY平面，第二平面可以为平行于鸟瞰视角的YZ平面。

S432：利用相机的内参，对第一局部图像进行转换，得到初始点云数据。

在一实施方式中，利用相机的内参，结合第一局部彩色图像和第一局部深度图像进行转换，得到初始点云数据，其中，初始点云数据中的各空间点包含彩色信息和深度信息。具体地，可以采用公式1对第一局部图像进行转换，得到初始点云数据，其中，x、y、z为点云数据的坐标，u、v为对应的像素坐标，f_x、f_y分别指相机在x、y轴的焦距，c_x、c_y指相机的光圈中心，

为相机内参矩阵。

S433：将初始点云数据投影至第二平面上，得到第二投影图像。

第二平面可以为YZ平面，也可以为XZ平面，在一实施方式中，初始点云数据投影至YZ平面上，得到第二投影图像。具体地，将初始点云数据中的各空间点的彩色信息投影至第二平面上，得到彩色投影图像；以及将初始点云数据中的各空间点的深度信息投影至第二平面上，得到深度投影图像。

S434：利用第二投影图像的第二彩色特征和第二深度特征，确定待测物体在第二投影图像中的第二图像位置。

在一实施方式中，第二投影图像可以包含彩色投影图像和深度投影图像，将彩色投影图像和深度投影图像输入语义分割模型，得到第二彩色特征和第二深度特征，进而确定待测图像在第二投影图形中的第二图像位置。获取待测图像在第二投影图形中的第二图像位置的步骤与步骤S120类似，具体实施细节请参考上述步骤S120一实施方式的具体描述，在此不再赘述。

在另一实施方式中，用户可以对第二投影图像进行目标检测，获取待测物体在第二投影图像中的检测框，将第二投影图像中位于检测框内的图像部分裁剪，得到第二目标投影图像。其中，第二目标投影图像包含第二目标深度投影图像和第二目标彩色投影图像，将第二目标深度投影图像和第二目标彩色投影图像输入语义分割模型，得到待测物体在第二投影图像中的第二图像位置。

S435：从第二投影图像中提取对应第二图像位置的第二局部图像。

具体地，从第二投影图像中提取对应第二图像位置的第二局部图像包括：从彩色投影图像中提取对应第二图像位置的第二局部彩色图像，以及从深度投影图像中提取对应第二图像位置的第二局部深度图像。

S436：利用相机的内参，对第二投影图像进行转换，得到目标点云数据。

在一实施方式中，利用相机的内参，结合第二局部彩色图像和第二局部深度图像进行转换，得到目标点云数据。具体地，可以采用与步骤S132相同的步骤对第二投影图像进行转换，得到目标点云数据。

通过上述两次点云转换，即可将目标图像中的待测物体与背景分离，获得待测物体的形状。

请参阅图5，图5是步骤S140一实施方式的流程示意图，步骤S140可以包括：

S541：对目标点云数据进行降采样，得到采样点云数据。

在一实施方式中，可以采用体积预测模型的降采样层对目标点云数据进行降采样。具体地，可以使用最远点采样，使得采样的各个点之间尽可能的远，从而使得降采样过程更加均匀。将原始N(d+C)降到N₁(d+C)，其中，N为目标点云的数量；N₁为经过降采样层后的目标点云的数量；d为坐标维度，本实施方式中为3；C为其它特征如法向量，本实施方式中为0。

S542：将采样点云数据划分为若干块。

进一步地，利用体积预测网络的组合层将采样点云数据划分为若干块，各个块中包含预设数量的采样点云，以块为单位输入体积预测模型的预测层。

S543：利用各块的点云数据对应的点云特征，确定待测物体的体积。

在体积预测模型的预测层对各块的点云数据进行特征提取，得到各块的点云数据对应的点云特征，将点云特征送入全连接层，得到物体的体积。

请结合参阅图3和图6，图6是步骤S140另一实施方式的流程示意图，步骤S140可以包括：

S641：对目标点云数据进行降采样，得到采样点云数据。

S642：将采样点云数据划分为若干块。

S643：对于每个块，在采样点云数据中属于块的空间点中，查找块的关键点。

S644：从关键点的预设范围内中选择不多于预设阈值的空间点，组成块的点云数据。

S645：利用各块的点云数据对应的点云特征，确定待测物体的体积。

在一实施方式中，将目标点云数据输入体积预测模型，体积预测模型的降采样层对目标点云数据进行降采样，得到采样点云数据。具体地，可以使用最远点采样，使得采样的各个点之间尽可能的远，从而使得降采样过程更加均匀。将原始N(d+C)降到N₁(d+C)，其中，N为目标点云的数量；N₁为经过降采样层后的目标点云的数量；d为坐标维度，本实施方式中为3；C为其它特征如法向量，本实施方式中为0。进一步地，在体积预测模型的组合层将采样点云数据划分为若干块，对于每个块，在采样点云数据中属于块的空间点中，查找块的关键点，关键点可以为每个块的中心点，找到关键点后可以以关键点为圆心，并指定一个球半径，划定一个球，以关键点为球心规定该范围内的点为邻点，从该球的范围内选择不多于预设阈值的空间点，组成块的点云数据。可以理解地，预设阈值可以根据需要设置，在此不做限定。最后，将组成块的点云数据输入体积预测模型的预测层，得到各块的点云数据对应的点云特征，利用各块的点云数据对应的点云特征，确定待测物体的体积。

本实施方式中，体积预测模型可以为PointNet++模型。通过上述方式进行待测物体的体积预测，可以在保证体积预测准确度的同时，减小计算量。

进一步地，体积预测模型对待测物体的体积进行预测之前，可以对其进行训练，以提高体积预测模型的准确度。训练过程具体包括：获取大量包含样本物体的样本图像，得到样本物体的样本目标点云数据；利用体积预测模型的降采样层对样本物体的样本目标点云数据进行降采样，得到样本采样点云数据；利用体积预测模型的组合层将样本采样点云数据划分为若干样本块；利用体积预测模型的预测层基于各样本块的点云数据对应的点云特征，确定样本物体的预测体积；以及，利用解码器基于各样本块的点云数据对应的点云特征进行解码，得到与样本目标点云数据大小一致的参考点云数据；基于样本物体的实际体积与预测体积之间的差异、样本目标点云数据与参考点云数据之间的差异，调整体积预测模型的网络参数。

在一具体实施方式中，可以获得大量包含样本物体的样本图像，将样本图像送入语义分割模型，得到样本物体在样本图像中的位置，基于样本物体在样本图像中的位置，得到样本物体的样本目标点云数据。其中，获取样本物体在样本图像中的位置以及获取样本物体的样本目标点云数据的具体实施步骤参考上述步骤S120和S130的具体描述，在此不再赘述。将样本目标点云数据输入体积预测模型，利用体积预测模型的降采样层对样本物体的样本目标点云数据进行降采样，得到样本采样点云数据。具体地，可以采用与步骤S141相同的降采样方式进行降采样，在此不再赘述。利用体积预测模型的组合层将样本采样点云数据划分为若干样本块。利用体积预测模型的预测层获得各样本块的点云数据对应的点云特征，基于各样本块的点云数据对应的点云特征，确定样本物体的预测体积；以及，利用解码器基于各样本块的点云数据对应的点云特征进行解码，得到与样本目标点云数据大小一致的参考点云数据。具体地，解码器基于各样本块的点云数据对应的点云特征进行解码，并采用点云特征差值等算法得到与样本目标点云数据大小一致的参考点云数据。基于样本物体的实际体积与预测体积计算第一损失，基于样本目标点云数据与参考点云数据计算第二损失，对第一损失和第二损失进行加权求和，得到总损失，基于总损失调整体积预测模型的网络参数。

上述方式，通过decoder部分(即解码器)对降采样舍弃的点云数据进行还原，得到参考点云数据，基于样本物体的实际体积与预测体积之间的差异、样本目标点云数据与参考点云数据之间的差异，调整体积预测模型的网络参数，可以使得体积预测模型更好地感知待测物体的大小，从而更精准的获取待测物体的体积。

请参阅图7，图7是本申请提供的体积估计方法第二实施方式的流程示意图，该方法包括：

S710：获取包含待测物体的目标图像。

S720：基于目标图像的第一彩色特征和第一深度特征，确定待测物体在目标图像中的第一图像位置。

S730：基于第一图像位置，得到待测物体的目标点云数据。

S740：对目标点云数据进行预处理。

S750：基于目标点云数据，得到待测物体的体积。

步骤S710-S730的详细描述请参考体积估计方法第一实施方式的不走S110-S130，在此不再赘述。

由于数据采集环境的影响，以及采集镜头本身误差带来的数据不稳定问题，可以对待测物体的目标点云数据的进行预处理，预处理可以包括以下至少一者：降采样、外点去除、空洞补全。在一实施方式中，需进行降采样、外点去除、空洞补全三项预处理，则可以先采用体素滤波进行降采样，减少目标点云数据中的点的数量，从而减少计算量和显存。再进行外点去除，可以使用统计滤波的方法，去除点云表面突变离群较远的点。具体地，首先遍历目标点云中的所有点，计算每个点与其最近的K个邻居点之间的平均距离，进而计算所有的平均距离的均值μ与标准差σ，则距离阈值为μ+α×σ，α为常数，即比例系数，其取决于邻居点的数目。最后，再次遍历目标点云中的所有点，去除目标点云中与其最近的K个邻居点之间的平均距离大于距离阈值的点。最后，若由于光线角度以及镜头的原因使得图像产生空洞，可以使用梯度法对较小的空洞进行补全。具体地，可以先找到待补空洞轮廓，遍历轮廓上的点，对于其中的每个点寻找其除了空洞轮廓上的点以外梯度最小的点，用此梯度和该轮廓点拟合的直线计算空洞内最接近轮廓点的待补数值。遍历完成后，重新计算新的轮廓，重复上述步骤直到空洞被填满。

将预处理后的目标点云数据，输入体积预测模型，得到待测物体的体积。

本实施方式中，通过对目标点云数据进行预处理，再利用预处理后的目标点云数据得到待测物体的体积，可以获得较为准确的体积，且可以减少计算量。

请参阅图8，图8是本申请提供的体积估计装置一实施方式的框架示意图。体积估计装置80包括获取模块81、位置确定模块82、点云生成模块83、体积预测模块84。其中，获取模块81用于获取包含待测物体的目标图像；位置确定模块82用于基于目标图像的第一彩色特征和第一深度特征，确定待测物体在目标图像中的第一图像位置；点云生成模块83用于基于第一图像位置，得到待测物体的目标点云数据；体积预测模块84用于基于目标点云数据，得到待测物体的体积。

其中，基于目标图像的第一彩色特征和第一深度特征，确定待测物体在目标图像中的第一图像位置是由语义分割模型执行的；和/或，基于目标图像的第一彩色特征和第一深度特征，确定待测物体在目标图像中的第一图像位置，包括：从目标图像提取得到第一彩色特征和第一深度特征；将第一彩色特征和第一深度特征进行融合，得到目标融合特征；对目标融合特征进行语义分割，得到第一图像位置。

其中，从目标图像提取得到第一彩色特征和第一深度特征，包括：提取得到尺度不同的若干特征组，每组特征组包括对应一个尺度的第一彩色特征和第一深度特征；将第一彩色特征和第一深度特征进行融合，得到目标融合特征，包括：分别将每组特征组中的第一彩色特征和第一深度特征进行融合，得到各特征组对应的初始融合特征；将各特征组对应的初始融合特征进行融合，得到目标融合特征。

其中，目标图像包括目标彩色图像和目标深度图像，目标彩色图像和目标深度图像是利用相同采集参数对待测物体拍摄得到的，相同采集参数包括相同视角、相同视野和相同采集时刻；第一彩色特征是对目标彩色图像提取得到的，第一深度特征是对目标深度图像提取得到的，待测物体在目标彩色图像中的第一图像位置与待测物体在目标深度图像中的第一图像位置相同。

其中，获取包含待测物体的目标图像，包括：获取利用相同采集参数对待测物体拍摄得到的初始彩色图像和初始深度图像；对初始彩色图像进行目标检测，得到待测物体的检测框；将初始彩色图像中位于检测框内的图像部分裁剪，得到目标彩色图像；以及，将初始深度图像中位于检测框内的图像部分裁剪，得到目标深度图像。

其中，目标图像是利用相机在预设视角方向对待测物体拍摄得到的；基于第一图像位置，得到待测物体的目标点云数据，包括：从目标图像中提取对应第一图像位置的第一局部图像，第一局部图像表示待测物体在垂直于预设视角方向的第一平面上的第一投影图像；利用相机的内参，对第一局部图像进行转换，得到初始点云数据；基于初始点云数据得到目标点云数据。

其中，基于初始点云数据得到目标点云数据，包括：将初始点云数据投影至第二平面上，得到第二投影图像；利用第二投影图像的第二彩色特征和第二深度特征，确定待测物体在第二投影图像中的第二图像位置；从第二投影图像中提取对应第二图像位置的第二局部图像；利用相机的内参，对第二投影图像进行转换，得到目标点云数据。

其中，目标图像包括目标彩色图像和目标深度图像；

从目标图像中提取对应第一图像位置的第一局部图像，包括：从目标彩色图像中提取对应第一图像位置的第一局部彩色图像，以及从目标深度图像中提取对应第一图像位置的第一局部深度图像；利用相机的内参，对第一局部图像进行转换，得到初始点云数据，包括：利用相机的内参，结合第一局部彩色图像和第一局部深度图像进行转换，得到初始点云数据，其中，初始点云数据中的各空间点包含彩色信息和深度信息；将初始点云数据投影至第二平面上，得到第二投影图像，包括：将初始点云数据中的各空间点的彩色信息投影至第二平面上，得到彩色投影图像；以及将初始点云数据中的各空间点的深度信息投影至第二平面上，得到深度投影图像；从第二投影图像中提取对应第二图像位置的第二局部图像，包括：从彩色投影图像中提取对应第二图像位置的第二局部彩色图像，以及从深度投影图像中提取对应第二图像位置的第二局部深度图像；利用相机的内参，对第二投影图像进行转换，得到目标点云数据，包括：利用相机的内参，结合第二局部彩色图像和第二局部深度图像进行转换，得到目标点云数据。

其中，基于目标点云数据，得到待测物体的体积，包括：对目标点云数据进行降采样，得到采样点云数据；将采样点云数据划分为若干块；利用各块的点云数据对应的点云特征，确定待测物体的体积。

其中，在利用各块的点云数据对应的点云特征，确定待测物体的体积之前，还包括：对于每个块，在采样点云数据中属于块的空间点中，查找块的关键点；从关键点的预设范围内中选择不多于预设阈值的空间点，组成块的点云数据；和/或，基于目标点云数据，得到待测物体的体积是由体积预测模型执行的，方法还包括：利用体积预测模型的降采样层对样本物体的样本目标点云数据进行降采样，得到样本采样点云数据；利用体积预测模型的组合层将样本采样点云数据划分为若干样本块；利用体积预测模型的预测层基于各样本块的点云数据对应的点云特征，确定样本物体的预测体积；以及，利用解码器基于各样本块的点云数据对应的点云特征进行解码，得到与样本目标点云数据大小一致的参考点云数据；基于样本物体的实际体积与预测体积之间的差异、样本目标点云数据与参考点云数据之间的差异，调整体积预测模型的网络参数。

其中，基于目标点云数据，得到待测物体的体积之前，方法包括：对目标点云数据进行预处理，预处理包括以下至少一者：降采样、外点去除、空洞补全。

本申请提供的体积估计装置80包括的获取模块81、位置确定模块82、点云生成模块83以及体积预测模块84用于执行上述体积估计方法实施例中的对应的步骤，具体步骤的实施可以参考上述体积估计方法实施例中的相关描述，在此不再赘述。

请参阅图9，图9是本申请提供的电子设备一实施方式的框架结构示意图。

电子设备90包括相互耦接的存储器91和处理器92，存储器91存储有程序指令，处理器92用于执行存储器91中存储的程序指令，以实现上述任一方法实施方式的步骤。在一个具体的实施场景中，电子设备90可以包括但不限于：微型计算机、服务器，此外，电子设备90还可以包括笔记本电脑、平板电脑等移动设备，在此不做限定。

具体而言，处理器92用于控制其自身以及存储器91以实现上述任一组织体系构建方法实施方式的步骤。处理器92还可以称为CPU(Central Processing Unit，中央处理单元)。处理器92可能是一种集成电路芯片，具有信号的处理能力。处理器92还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器92可以由集成电路芯片共同实现。

请参阅图10，图10是本申请提供的计算机可读存储介质一实施方式的框架示意图。

计算机可读存储介质100存储有程序指令101，程序指令101被处理器执行时，用以实现上述任一方法实施例中的步骤。

计算机可读存储介质100具体可以为U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等可以存储计算机程序的介质，或者也可以为存储有该计算机程序的服务器，该服务器可将存储的计算机程序发送给其他设备运行，或者也可以自运行该存储的计算机程序。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种体积估计方法，其特征在于，所述方法包括：

获取包含待测物体的目标图像；

基于所述目标图像的第一彩色特征和第一深度特征，确定所述待测物体在所述目标图像中的第一图像位置；

基于所述第一图像位置，得到所述待测物体的目标点云数据；

基于所述目标点云数据，得到所述待测物体的体积。

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标图像的第一彩色特征和第一深度特征，确定所述待测物体在所述目标图像中的第一图像位置是由语义分割模型执行的；

和/或，所述基于所述目标图像的第一彩色特征和第一深度特征，确定所述待测物体在所述目标图像中的第一图像位置，包括：

从所述目标图像提取得到所述第一彩色特征和第一深度特征；

将所述第一彩色特征和第一深度特征进行融合，得到目标融合特征；

对所述目标融合特征进行语义分割，得到所述第一图像位置。

3.根据权利要求2所述的方法，其特征在于，所述从所述目标图像提取得到所述第一彩色特征和第一深度特征，包括：

提取得到尺度不同的若干特征组，每组所述特征组包括对应一个尺度的第一彩色特征和第一深度特征；

所述将所述第一彩色特征和第一深度特征进行融合，得到目标融合特征，包括：

分别将每组所述特征组中的第一彩色特征和第一深度特征进行融合，得到各所述特征组对应的初始融合特征；

将各所述特征组对应的初始融合特征进行融合，得到所述目标融合特征。

4.根据权利要求1所述的方法，其特征在于，所述目标图像包括目标彩色图像和目标深度图像，所述目标彩色图像和目标深度图像是利用相同采集参数对所述待测物体拍摄得到的，所述相同采集参数包括相同视角、相同视野和相同采集时刻；所述第一彩色特征是对所述目标彩色图像提取得到的，所述第一深度特征是对所述目标深度图像提取得到的，所述待测物体在所述目标彩色图像中的第一图像位置与所述待测物体在所述目标深度图像中的第一图像位置相同。

5.根据权利要求4所述的方法，其特征在于，所述获取包含待测物体的目标图像，包括：

获取利用所述相同采集参数对所述待测物体拍摄得到的初始彩色图像和初始深度图像；

对所述初始彩色图像进行目标检测，得到所述待测物体的检测框；

将所述初始彩色图像中位于所述检测框内的图像部分裁剪，得到所述目标彩色图像；以及，

将所述初始深度图像中位于所述检测框内的图像部分裁剪，得到所述目标深度图像。

6.根据权利要求1所述的方法，其特征在于，所述目标图像是利用相机在预设视角方向对所述待测物体拍摄得到的；所述基于所述第一图像位置，得到所述待测物体的目标点云数据，包括：

从所述目标图像中提取对应所述第一图像位置的第一局部图像，所述第一局部图像表示所述待测物体在垂直于所述预设视角方向的第一平面上的第一投影图像；

利用所述相机的内参，对所述第一局部图像进行转换，得到初始点云数据；

基于所述初始点云数据得到所述目标点云数据。

7.根据权利要求6所述的方法，其特征在于，所述基于所述初始点云数据得到所述目标点云数据，包括：

将所述初始点云数据投影至第二平面上，得到第二投影图像；

利用所述第二投影图像的第二彩色特征和第二深度特征，确定所述待测物体在所述第二投影图像中的第二图像位置；

从所述第二投影图像中提取对应所述第二图像位置的第二局部图像；

利用所述相机的内参，对所述第二投影图像进行转换，得到所述目标点云数据。

8.根据权利要求7所述的方法，其特征在于，所述目标图像包括目标彩色图像和目标深度图像；

所述从所述目标图像中提取对应所述第一图像位置的第一局部图像，包括：

从所述目标彩色图像中提取对应所述第一图像位置的第一局部彩色图像，以及从所述目标深度图像中提取对应所述第一图像位置的第一局部深度图像；

所述利用所述相机的内参，对所述第一局部图像进行转换，得到初始点云数据，包括：

利用所述相机的内参，结合所述第一局部彩色图像和第一局部深度图像进行转换，得到初始点云数据，其中，所述初始点云数据中的各空间点包含彩色信息和深度信息；

所述将所述初始点云数据投影至第二平面上，得到第二投影图像，包括：

将所述初始点云数据中的各空间点的所述彩色信息投影至第二平面上，得到彩色投影图像；以及将所述初始点云数据中的各空间点的所述深度信息投影至第二平面上，得到深度投影图像；

所述从所述第二投影图像中提取对应所述第二图像位置的第二局部图像，包括：

从所述彩色投影图像中提取对应所述第二图像位置的第二局部彩色图像，以及从所述深度投影图像中提取对应所述第二图像位置的第二局部深度图像；

所述利用所述相机的内参，对所述第二投影图像进行转换，得到所述目标点云数据，包括：

利用所述相机的内参，结合所述第二局部彩色图像和第二局部深度图像进行转换，得到所述目标点云数据。

9.根据权利要求1所述的方法，其特征在于，所述基于所述目标点云数据，得到所述待测物体的体积，包括：

对所述目标点云数据进行降采样，得到采样点云数据；

将所述采样点云数据划分为若干块；

利用各所述块的点云数据对应的点云特征，确定所述待测物体的体积。

10.根据权利要求9所述的方法，其特征在于，在所述利用各所述块的点云数据对应的点云特征，确定所述待测物体的体积之前，所述方法还包括：

对于每个块，在所述采样点云数据中属于所述块的空间点中，查找所述块的关键点；

从所述关键点的预设范围内中选择不多于预设阈值的空间点，组成所述块的点云数据；

和/或，所述基于所述目标点云数据，得到所述待测物体的体积是由体积预测模型执行的，所述方法还包括：

利用所述体积预测模型的降采样层对样本物体的样本目标点云数据进行降采样，得到样本采样点云数据；

利用所述体积预测模型的组合层将所述样本采样点云数据划分为若干样本块；

利用所述体积预测模型的预测层基于各所述样本块的点云数据对应的点云特征，确定所述样本物体的预测体积；以及，利用解码器基于各所述样本块的点云数据对应的点云特征进行解码，得到与所述样本目标点云数据大小一致的参考点云数据；

基于所述样本物体的实际体积与所述预测体积之间的差异、所述样本目标点云数据与所述参考点云数据之间的差异，调整所述体积预测模型的网络参数。

11.根据权利要求1所述的方法，其特征在于，在所述基于所述目标点云数据，得到所述待测物体的体积之前，所述方法包括：

对所述目标点云数据进行预处理，所述预处理包括以下至少一者：降采样、外点去除、空洞补全。

12.一种体积估计装置，其特征在于，所述装置包括：

获取模块，用于获取包含待测物体的目标图像；

位置确定模块，用于基于所述目标图像的第一彩色特征和第一深度特征，确定所述待测物体在所述目标图像中的第一图像位置；

点云生成模块，用于基于所述第一图像位置，得到所述待测物体的目标点云数据；

体积预测模块，用于基于所述目标点云数据，得到所述待测物体的体积。

13.一种体积估计设备，其特征在于，所述设备包括相互耦接的存储器和处理器；

所述存储器存储有程序指令；

所述处理器用于执行所述存储器中存储的程序指令，以实现权利要求1-11任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序指令，所述程序指令能够被执行以实现如权利要求1-11任一项所述的方法。