CN111563516B

CN111563516B - 行人掩码与三维场景融合显示的方法、终端及存储介质

Info

Publication number: CN111563516B
Application number: CN202010688710.3A
Authority: CN
Inventors: 黄积晟; 任宇鹏; 李乾坤; 卢维
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2020-11-10
Anticipated expiration: 2040-07-16
Also published as: CN111563516A

Abstract

本发明公开了一种行人掩码与三维场景融合显示的方法、终端及存储介质，其中方法包括：利用预先获取的样本图像的样本特征划分出目标并计算第一分类损失，同时划分框定目标的预测框并计算第一边界框损失；识别目标的类别并计算第二分类损失，并基于类别调整预测框，得到检测框，同时计算第二边界框损失；对检测框内的每一个像素进行分类并计算掩码损失；利用第一分类损失、第二分类损失、掩码损失、第一边界框损失、第二边界框损失构建新型损失函数；在将行人图像和三维场景融合显示时，利用新型损失函数从图像中分割得到行人掩码，再融合至三维场景。通过上述方式，本发明能够构建新型的损失函数以对行人掩码和边界框优化，使得最终显示效果更佳。

Description

行人掩码与三维场景融合显示的方法、终端及存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种行人掩码与三维场景融合显示的方法、终端及存储介质。

背景技术

行人检测是目标检测领域研究的重点，是行人识别，行人分析等后续研究的基础。行人检测在区域安防监控***、智能交通等方面，对判断是否有异常行人入侵有着关键的作用。行人分割是对每个行人进行检测并进行语义分割的端到端的网络，不仅在像素级上需要区别每个像素的类别，而且在空间上更具位置区别出每个行人的个体。现有的行人分割主要分为两类，一是基于检测，已有空间上的相关信息，缺少精确的掩码信息；二是已有精确的掩码信息，缺少空间上的相关信息。由此可以引申出两种不同框架的行人分割技术：其一是以检测任务为基础，在检测框中继续做分割任务；其二是以分割任务为基础，在此之上进一步加工边缘。在行人检测方面上，早期的研究已经有很多，大部分行人检测基于检测任务，即使用检测网络只检测行人框，通过使用不同的方法进一步提高行人检测框的检出率。少部分使用实例分割任务检测行人，通过改动实例分割网络，增加后处理，检测以达到检测行人的任务。

但是，现有的行人检测方法依旧存在许多问题，例如：用检测框作为最后的目标的方案中，这个行人检测框还包含其他许多信息，不能单纯表示行人的信息，在三维融合至三维场景中时，如果使用带有背景的检测框作为行人显示，在人群密集的情况下，检测框中可能会出现两个行人实例，或者其他部分行人实例，而且会造成行人之间相互遮挡，或者是行人的实例被其他行人实例的背景遮挡。而在其他的一些方案中，对网络的优化着重于检测框的优化，而没有考虑掩码的优化。

发明内容

本申请提供一种行人掩码与三维场景融合显示的方法、终端及存储介质，以解决现有的行人检测优化效果较差使得三维融合显示效果不理想的问题。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种行人掩码与三维场景融合显示的方法，包括：利用预先获取的样本图像的样本特征划分出目标并计算第一分类损失，同时划分框定目标的预测框并计算第一边界框损失；识别目标的类别并计算第二分类损失，并基于类别调整预测框，得到检测框，同时计算第二边界框损失；对检测框内的每一个像素进行分类并计算掩码损失；利用第一分类损失、第二分类损失、掩码损失、第一边界框损失、第二边界框损失构建新型损失函数；在将行人图像和三维场景融合显示时，利用新型损失函数从图像中分割得到行人掩码，再融合至三维场景。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种终端，终端包括处理器、与处理器耦接的存储器和相机，其中，相机用于拍摄行人图像；存储器存储有用于实现上述的行人掩码与三维场景融合显示的方法的程序指令；处理器用于执行存储器存储的程序指令以从行人图像中提取行人掩码并与三维场景融合。

为解决上述技术问题，本申请采用的再一个技术方案是：提供一种存储介质，存储有能够实现上述的行人掩码与三维场景融合显示的方法的程序文件。

本申请的有益效果是：本发明通过从样本图像中划分出目标时，计算出第一分类损失、以及划分预测框的第一边界框损失，在识别目标的类别时计算第二分类损失、以及基于目标所属类别作出调整后得到检测框时计算第二边界框损失，再对检测框内每一个像素进行分类，并计算掩码损失，利用第一分类损失、第二分类损失、第一边界框损失、第二边界框损失和掩码损失构建出新型损失函数，再在将行人图像融合至三维场景中时，利用该新型损失函数从图像中分割出行人掩码，该新型损失函数包括了分割目标时产生的损失以及对目标分类时形成的损失，并添加了对检测框的双重损失，以及掩码损失计算，从而使得分割得到的目标的图像更为精细，使得最终显示效果更好。

附图说明

图1是本发明第一实施例的行人掩码与三维场景融合显示的方法的流程示意图；

图2是本发明第二实施例的行人掩码与三维场景融合显示的方法的流程示意图；

图3中的a是掩码转换后的距离能量图，b是整个图的能量值；

图4是本发明第三实施例的行人掩码与三维场景融合显示的方法的流程示意图；

图5是本发明第四实施例的行人掩码与三维场景融合显示的方法的流程示意图；

图6是本发明第五实施例的行人掩码与三维场景融合显示的方法的流程示意图；

图7是本发明实施例的行人掩码与三维场景融合显示的装置的结构示意图；

图8是本发明实施例的终端的结构示意图；

图9是本发明实施例的存储介质的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本申请实施例中所有方向性指示（诸如上、下、左、右、前、后……）仅用于解释在某一特定姿态（如附图所示）下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

图1是本发明第一实施例的行人掩码与三维场景融合显示的方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。如图1所示，该方法包括步骤：

步骤S101：利用预先获取的样本图像的样本特征划分出目标并计算第一分类损失，同时划分框定目标的预测框并计算第一边界框损失。

在步骤S101中，需要说明的是，该样本图像预先获取，并且获取该样本图像的同时，还获取了该样本图像的相关信息，其中包括了样本图像中的实际目标、实际目标的实际类别、实际检测框、实际检测框内的每一个像素的实际类别等数据信息。

本实施例中，通过采用FPN（feature pyramid networks，特征金字塔网络）使用卷积编码器-解码器的网络结构，编码器使用ResNet-101（一种深度残差网络）作为特征提取基础网络，该部分使用一系列的卷积池化操作，并采用特有的shortcut结构（一种短路连接），来避免深层网络在学习过程中产生梯度弥散或者梯度***。每次卷积能够提取到更加丰富的特征，池化让特征图尺寸不断减小，参数量降低。在解码器部分使用一系列的卷积和上采样的操作，每个上采样过程中加入解码器中的特征图，低维度特征和高维度特征融合，不但使特征图尺寸变大，也丰富了不同维度上的特征。使用这样编解码结构网络，让特征提取模块达到现今最优效果。

在获取到样本图像的样本特征后，利用RPN（Region Proposal Network，区域建议网络）在输出的样本特征中使用滑动窗口寻找潜在目标的区域，这些区域由不同的尺寸和长宽比构成，再对这个潜在目标的区域进行前景和背景划分，其中前景即为目标，背景即目标所在区域的背景，并调整框定该区域的预测框。而在划分前景和背景时，利用实际已知的样本图像的数据信息，与从样本特征中划分出目标得到的结果，计算出划分前景和背景时所产生的第一分类损失，该第一分类损失利用交叉熵损失函数计算得到，同时，利用样本图像的数据信息与划分的预测框计算第一边界框损失，该第一边界框损失以smooth L1损失函数计算得到。

步骤S102：识别目标的类别并计算第二分类损失，并基于类别调整预测框，得到检测框，同时计算第二边界框损失。

在步骤S102中，识别目标所属的类别，其中目标的类别是指目标是人，或者车，或者其他物品等，该第二分类损失是指识别目标的类别的准确度，该第二分类损失利用已知的样本图像的数据信息，通过交叉熵损失函数计算得到第二分类损失，再基于该目标所属的类别，对预测框的边框位置和尺寸进行调整，得到检测框，再通过smooth L1损失函数计算得到第二边界框损失。

步骤S103：对检测框内的每一个像素进行分类并计算掩码损失。

在步骤S103中，利用FCN（Fully Convolutional Networks，全卷积网络）先对检测框内的图像进行卷积和池化，使其特征图的大小不断减小；然后进行反卷积操作，即进行插值操作，不断的增大其特征图，最后对特征图的每一个像素值进行分类，从而实现对检测框内的图像的像素级分割，再对分割后的图像进行掩码计算，最后将计算到的结果和预先获取的样本图像的数据信息进行分析计算，从而得到掩码损失。

步骤S104：利用第一分类损失、第二分类损失、掩码损失、第一边界框损失、第二边界框损失构建新型损失函数。

在步骤S104中，利用第一分类损失、第二分类损失、掩码损失、第一边界框损失、第二边界框损失构建新型损失函数，具体如下：

；

其中，L指新型损失函数，

指第一分类损失和第二分类损失，

至第一边界框损失和第二边界框损失，

指掩码损失。

步骤S105：在将行人图像和三维场景融合显示时，利用新型损失函数从图像中分割得到行人掩码，再融合至三维场景。

在步骤S105中，在对行人图像进行分割时，通过上述新型损失函数从图像中分割提取行人掩码，利用该新型损失函数得到的行人掩码，其精细化程度更高，显示效果更好。

本发明第一实施例的行人掩码与三维场景融合显示的方法通过从样本图像中划分出目标时，计算出第一分类损失、以及划分预测框的第一边界框损失，在识别目标的类别时计算第二分类损失、以及基于目标所属类别作出调整后得到检测框时计算第二边界框损失，再对检测框内每一个像素进行分类，并计算掩码损失，利用第一分类损失、第二分类损失、第一边界框损失、第二边界框损失和掩码损失构建出新型损失函数，再在将行人图像融合至三维场景中时，利用该新型损失函数从图像中分割出行人掩码，该新型损失函数包括了分割目标时产生的损失以及对目标分类时形成的损失，并添加了对检测框的双重损失，以及掩码损失计算，从而使得分割得到的目标的图像更为精细，使得最终显示效果更好。

图2是本发明第二实施例的行人掩码与三维场景融合显示的方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图2所示的流程顺序为限。如图2所示，该方法包括步骤：

步骤S201：利用预先获取的样本图像的样本特征划分出目标并计算第一分类损失，同时划分框定目标的预测框并计算第一边界框损失。

在本实施例中，图2中的步骤S201和图1中的步骤S101类似，为简约起见，在此不再赘述。

步骤S202：识别目标的类别并计算第二分类损失，并基于类别调整预测框，得到检测框，同时计算第二边界框损失。

在本实施例中，图2中的步骤S202和图1中的步骤S102类似，为简约起见，在此不再赘述。

步骤S203：对检测框内的每一个像素的类别进行识别，以对像素分类。

在步骤S203中，在对检测框内的每一个像素进行分割后，分别对每一个像素的类别进行识别，其中像素的类别分为属于目标本身的像素和不属于目标本身的像素，将两者进行区分，其中，该不属于目标本身的像素通常是属于背景的像素。

步骤S204：计算每个像素的分类概率的准确度，得到像素分类损失。

在步骤S204中，通过预先获取的样本图像中的数据信息，利用其中每一个像素所属的类别，结合交叉熵损失函数计算每一个像素的分类概率的准确度，从而得到像素分类损失。

步骤S205：构建每个像素到实际掩码边界的距离值能量图，并计算每个像素进行逻辑回归后的概率值，利用距离值能量图和概率值积分得到掩码边界损失，实际掩码边界通过提取样本图像的信息时获得。

在步骤S205中，请一并参考图3，通过预先获取的样本图像的数据信息构建每个像素到实际掩码边界的距离值能量图，属于掩码的部分为负值，其他为正值，并计算每个像素进行逻辑回归后的概率值，如图3中的a所示为掩码转换后的距离能量图，为了显示效果，所有值均转换为正值，其中，圆为边界，原点距离边界最远，值越大，成白色，实际值为负值，四个角落离圆边界远，颜色接近白色，实际值为正值，通过对距离值能量图、每个像素进行逻辑回归后的概率值进行积分计算，得到整个图的能量值，如图3中的b所示，不重叠区域越大，整个误差就越大。具体计算过程为：

；

其中，

为掩码边界损失，

为像素q到实际掩码边界的距离值能量图，

为像素q进行逻辑回归后的概率值，

表示整个图。

步骤S206：利用预设的比例因子，将像素分类损失和掩码边界损失按比例计算得到掩码损失。

在步骤S206中，需要说明的是，该比例因子预先设定，掩码损失的计算过程为：

；

其中，

为比例因子，

为像素分类损失，

为掩码边界损失，

为掩码损失。

步骤S207：利用第一分类损失、第二分类损失、掩码损失、第一边界框损失、第二边界框损失构建新型损失函数。

在本实施例中，图2中的步骤S207和图1中的步骤S104类似，为简约起见，在此不再赘述。

步骤S208：在将行人图像和三维场景融合显示时，利用新型损失函数从图像中分割得到行人掩码，再融合至三维场景。

在本实施例中，图2中的步骤S208和图1中的步骤S105类似，为简约起见，在此不再赘述。

本发明第二实施例的行人掩码与三维场景融合显示的方法在第一实施例的基础上，通过分别计算掩码部分的掩码分类损失和掩码边界损失，再按照预设的比例因子，结合掩码分类损失和掩码边界损失计算得到掩码损失，其加入了权重计算，以区分掩码分类损失和掩码边界损失所占的不同比重，使得最终优化掩码边缘的效果更好。

图4是本发明第三实施例的行人掩码与三维场景融合显示的方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图4所示的流程顺序为限。如图4所示，该方法包括步骤：

步骤S301：从样本图像提取样本行人掩码，并记录样本行人掩码的中心位置。

在步骤S301中，样本图像和样本行人掩码可提前获知，本实施例中，从样本图像中将该样本行人掩码分割提取出来，并记录下提取出样本行人掩码之前，样本行人掩码在样本图像中的中心位置。

步骤S302：补全分割出样本行人掩码后的样本图像上的空白区域。

在步骤S302中，通过图像修补算法补全分割出样本行人掩码后的样本图像上的空白区域，本实施例中，优选采用基于深度学习的图像修复算法。

步骤S303：将样本行人掩码随机贴至补全后的样本图像上，且位于中心位置附近，得到新的样本图像。

在步骤S303中，将提取出的样本行人掩码随机贴在中心位置附近，从而得到新的样本图像，再结合原来的样本图像，从而增加了样本图像的数量，丰富了用于训练的样本数据。

步骤S304：利用预先获取的样本图像的样本特征划分出目标并计算第一分类损失，同时划分框定目标的预测框并计算第一边界框损失。

在本实施例中，图4中的步骤S304和图1中的步骤S101类似，为简约起见，在此不再赘述。

步骤S305：识别目标的类别并计算第二分类损失，并基于类别调整预测框，得到检测框，同时计算第二边界框损失。

在本实施例中，图4中的步骤S305和图1中的步骤S102类似，为简约起见，在此不再赘述。

步骤S306：对检测框内的每一个像素进行分类并计算掩码损失。

在本实施例中，图4中的步骤S306和图1中的步骤S103类似，为简约起见，在此不再赘述。

步骤S307：利用第一分类损失、第二分类损失、掩码损失、第一边界框损失、第二边界框损失构建新型损失函数。

在本实施例中，图4中的步骤S307和图1中的步骤S104类似，为简约起见，在此不再赘述。

步骤S308：在将行人图像和三维场景融合显示时，利用新型损失函数从图像中分割得到行人掩码，再融合至三维场景。

在本实施例中，图4中的步骤S308和图1中的步骤S105类似，为简约起见，在此不再赘述。

本发明第三实施例的行人掩码与三维场景融合显示的方法在第一实施例的基础上，通过将样本图像的样本行人掩码提取出来，并将提取样本行人掩码后的样本图像进行修补，再将样本行人掩码贴至修补后的样本图像中，从而在预先准备的样本图像的数量上，新增了一倍的新的样本图像，增加了样本数据，使得对新型损失函数的训练有更好的泛化性。

图5是本发明第四实施例的行人掩码与三维场景融合显示的方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图5所示的流程顺序为限。如图5所示，该方法包括步骤：

步骤S401：利用预先获取的样本图像的样本特征划分出目标并计算第一分类损失，同时划分框定目标的预测框并计算第一边界框损失。

在本实施例中，图5中的步骤S401和图1中的步骤S101类似，为简约起见，在此不再赘述。

步骤S402：识别目标的类别并计算第二分类损失，并基于类别调整预测框，得到检测框，同时计算第二边界框损失。

在本实施例中，图5中的步骤S402和图1中的步骤S102类似，为简约起见，在此不再赘述。

步骤S403：对检测框内的每一个像素进行分类并计算掩码损失。

在本实施例中，图5中的步骤S403和图1中的步骤S103类似，为简约起见，在此不再赘述。

步骤S404：利用第一分类损失、第二分类损失、掩码损失、第一边界框损失、第二边界框损失构建新型损失函数。

在本实施例中，图5中的步骤S404和图1中的步骤S104类似，为简约起见，在此不再赘述。

步骤S405：利用新型损失函数将相机拍摄的图像进行分割，得到行人掩码。

在步骤S405中，通过上述新型损失函数分割提取得到的掩码并不完全属于行人范畴，其中还包括了骑行者、驾驶机动车的人员等，因此，需要进一步区分，以确定属于行人的掩码。因此，利用新型损失函数将相机拍摄的图像进行分割，得到行人掩码的，具体包括：

1、利用新型损失函数将相机拍摄的图像进行分割，得到目标检测框、目标掩码和非目标掩码，以及目标掩码和非目标掩码的位置信息。

具体地，通过新型损失函数获取图像中的掩码，以及每个掩码的目标检测框，以及掩码在样本图像中的位置信息，其中，掩码包括目标掩码和非目标掩码，目标掩码是指属于人的掩码，非目标掩码则是不属于人的掩码，例如汽车掩码。

2、利用目标检测框的长宽比确定属于骑行者的目标掩码并删除，并利用目标掩码和非目标掩码的位置信息确定属于汽车驾驶者或非机动车驾驶者的目标掩码并删除。

具体地，基于骑行者骑行时的姿态，得到的检测框的长宽比一般都在1:1到1.3:1之间，通过判断目标检测框的长宽比即可将绝大部分属于骑行者的检测框找出，即将属于骑行者的掩码找出并删除。进一步的，还可通过目标掩码与非目标掩码之间的位置来确定，通过确认目标掩码的最低位置，若该位置位于非目标掩码1/2区域以下，并且目标掩码的最高位置高于非目标掩码的最高位置，则可认为目标掩码是人，非目标掩码是非机动车，人正骑在非机动车上，从而提取到的目标掩码和非目标掩码才会满足上述位置关系。而针对于汽车驾驶者，通常获取的汽车驾驶者的掩码被汽车掩码包围或者是，汽车驾驶者的掩码与汽车掩码重叠，因此，通过比较目标掩码与非目标掩码的位置即可确认目标掩码是汽车驾驶者的掩码还是行人掩码。通过上述方式，即可确认目标掩码是行人掩码还是骑行者掩码，亦或是驾驶者掩码。

3、将剩余的目标掩码作为行人掩码。

进一步的，为了得到品质较高的行人掩码，本实施例中，在得到行人掩码的之后，还包括：分析行人掩码是行人的概率；将概率低于预设概率阈值的行人掩码删除。

其中，该预设概率阈值预先设置。本实施例通过分析行人掩码是行人的概率，将低于预设概率阈值的行人掩码删除，从而进一步提高得到的行人掩码的质量，提高最终的显示效果。

步骤S406：利用相机在三维场景中的位置确定行人掩码与地面的交点的世界坐标，三维场景根据图像的背景信息构建，相机的位置在构建三维场景时得到。

需要说明的是，相机通常都是定点拍摄，因此可以通过指定图像上几个特征明显的点，并获取这些点在三维场景中的坐标位置。通过棋盘格标定得到相机参数K和畸变参数dc，结合上述已知点的坐标位置Pc和Pw，通过OpenCV中函数solvePnP求解出相机外参，这个外参包括两个部分，旋转矩阵R和平移矩阵T，这两个参数代表了世界坐标系下的相机位置平移到世界坐标系的原点，因此可以求出相机在世界坐标系下的位置。而相机姿态由俯仰角、偏航角和滚轮角三个角度构成，即欧拉角，欧拉角通过刚体运动绕原点轴（x,y,z），旋转角θ。最终，相机的位姿信息可由相机坐标和姿态角构成。

在步骤S406中，将行人掩码融合至三维场景中时，需要先确定行人掩码融合至三维场景时的坐标位置，具体为：

1、获取行人掩码底部的一点在相机的图像坐标系下的二维坐标；

2、将二维坐标转换至三维场景的世界坐标系中，得到一个向量；

3、计算向量与三维场景中地面所在平面的交点，得到世界坐标，地面所处平面在构建三维场景时确定。

通常地，一般默认行人都是站在地面上的，因此，通过确认行人掩码底部的一点在三维空间中的位置坐标，即可确认行人掩码贴至三维空间中的坐标，本实施例中，获取行人掩码底部的一点在相机的图像坐标系下的二维坐标，将该二维坐标转换至三维场景的世界坐标系中，因深度位置不确定，转换得到是一个向量，而地面在三维场景的世界坐标系中是确定的，因此，通过计算该向量与地面所在平面的交点，即可确认该点的世界坐标，进而确认将行人掩码融合至三维场景时的位置坐标。

步骤S407：基于世界坐标将行人掩码融合至三维场景中。

本发明第四实施例的行人掩码与三维场景融合显示的方法在第一实施例的基础上，通过利用新型损失函数分割得到行人掩码，再将行人掩码融合至三维场景中，其中，在得到行人掩码后，通过分析检测框、目标掩码与非目标掩码的位置关系，进一步对行人掩码进行筛选，使得得到的掩码为行人掩码，并且还通过分析行人掩码是行人的概率，对行人掩码进行进一步筛选，保证行人掩码的质量，提升最终的显示效果。

图6是本发明第五实施例的行人掩码与三维场景融合显示的方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图6所示的流程顺序为限。如图6所示，该方法包括步骤：

步骤S501：利用预先获取的样本图像的样本特征划分出目标并计算第一分类损失，同时划分框定目标的预测框并计算第一边界框损失。

在本实施例中，图6中的步骤S501和图4中的步骤S401类似，为简约起见，在此不再赘述。

步骤S502：识别目标的类别并计算第二分类损失，并基于类别调整预测框，得到检测框，同时计算第二边界框损失。

在本实施例中，图6中的步骤S502和图4中的步骤S402类似，为简约起见，在此不再赘述。

步骤S503：对检测框内的每一个像素进行分类并计算掩码损失。

在本实施例中，图6中的步骤S503和图4中的步骤S403类似，为简约起见，在此不再赘述。

步骤S504：利用第一分类损失、第二分类损失、掩码损失、第一边界框损失、第二边界框损失构建新型损失函数。

在本实施例中，图6中的步骤S504和图4中的步骤S404类似，为简约起见，在此不再赘述。

步骤S505：利用新型损失函数将相机拍摄的图像进行分割，得到行人掩码。

在本实施例中，图6中的步骤S505和图4中的步骤S405类似，为简约起见，在此不再赘述。

步骤S506：沿行人掩码的边界添加一圈背景信息，以对行人掩码进行膨胀。

在步骤S506中，为避免行人检测框对掩码区域的束缚，例如：行人的部分身体未落入检测框内，以及掩码过于精细，以至于效果上显得突兀，在最后对掩码加入形态学操作，对行人掩码沿边界添加一圈背景信息，让行人在显示上更加真实，也能部分修复检测框带来的边界束缚。

步骤S507：利用相机在三维场景中的位置确定行人掩码与地面的交点的世界坐标，三维场景根据图像的背景信息构建，相机的位置在构建三维场景时得到。

在本实施例中，图6中的步骤S507和图4中的步骤S406类似，为简约起见，在此不再赘述。

步骤S508：基于世界坐标将行人掩码融合至三维场景中。

在本实施例中，图6中的步骤S508和图4中的步骤S407类似，为简约起见，在此不再赘述。

本发明第五实施例的行人掩码与三维场景融合显示的方法在第四实施例的基础上，通过对行人掩码沿行人掩码的边界添加一圈背景信息，从而对行人掩码进行膨胀操作，防止行人部分身体未在检测框内，而导致提取的行人掩码不完整，膨胀一圈可以使得未在检测框内的身体部分同样可以被提取出来，从而使得融合至三维场景中的行人掩码完整，并且，结合少量背景信息，使得行人看起来更为真实，显示效果更好。

图7是本发明实施例的行人掩码与三维场景融合显示的装置的结构示意图。如图7所示，该装置70包括第一损失模块71、第二损失模块72、掩码损失模块73、构建模块74和融合模块75。

第一损失模块71，用于利用预先获取的样本图像的样本特征划分出目标并计算第一分类损失，同时划分框定目标的预测框并计算第一边界框损失。

第二损失模块72，与第一损失模块71耦接，用于识别目标的类别并计算第二分类损失，并基于类别调整预测框，得到检测框，同时计算第二边界框损失。

掩码损失模块73，与第二损失模块72耦接，用于对检测框内的每一个像素进行分类并计算掩码损失；

构建模块74，与掩码损失模块73耦接，用于利用第一分类损失、第二分类损失、掩码损失、第一边界框损失、第二边界框损失构建新型损失函数。

融合模块75，与构建模块74耦接，用于在将行人图像和三维场景融合显示时，利用新型损失函数从图像中分割得到行人掩码，再融合至三维场景。

可选地，掩码损失模块73对检测框内的每一个像素进行分类并计算掩码损失的操作还可以为：对检测框内的每一个像素的类别进行识别，以对像素分类；计算每个像素的分类概率的准确度，得到像素分类损失；构建每个像素到实际掩码边界的距离值能量图，并计算每个像素进行逻辑回归后的概率值，利用距离值能量图和概率值积分得到掩码边界损失，实际掩码边界通过提取样本图像的信息时获得；利用预设的比例因子，将像素分类损失和掩码边界损失按比例计算得到掩码损失。

可选地，第一损失模块71利用预先获取的样本图像的样本特征划分出目标并计算第一分类损失的操作之前还包括：从样本图像提取样本行人掩码，并记录样本行人掩码的中心位置；补全分割出样本行人掩码后的样本图像上的空白区域；将样本行人掩码随机贴至补全后的样本图像上，且位于中心位置附近，得到新的样本图像。

可选地，融合模块75在将行人图像和三维场景融合显示时，利用新型损失函数从图像中分割得到行人掩码，再融合至三维场景的操作还可以为：利用新型损失函数将相机拍摄的图像进行分割，得到行人掩码；利用相机在三维场景中的位置确定行人掩码与地面的交点的世界坐标，三维场景根据图像的背景信息构建，相机的位置在构建三维场景时得到；基于世界坐标将行人掩码融合至三维场景中。

可选地，融合模块75利用新型损失函数将相机拍摄的图像进行分割，得到行人掩码的操作还可以为：利用新型损失函数将相机拍摄的图像进行分割，得到目标检测框、目标掩码和非目标掩码，以及目标掩码和非目标掩码的位置信息；利用目标检测框的长宽比确定属于骑行者的目标掩码并删除，并利用目标掩码和非目标掩码的位置信息确定属于汽车驾驶者或非机动车驾驶者的目标掩码并删除；将剩余的目标掩码作为行人掩码。

可选地，融合模块75利用新型损失函数将相机拍摄的图像进行分割，得到行人掩码的操作之后还包括：分析行人掩码是行人的概率；将概率低于预设概率阈值的行人掩码删除。

可选地，融合模块75利用新型损失函数将相机拍摄的图像进行分割，得到行人掩码的操作之后还包括：沿行人掩码的边界添加一圈背景信息，以对行人掩码进行膨胀。

可选地，融合模块75利用相机在三维场景中的位置确定行人掩码与地面的交点的世界坐标的操作还可以为：获取行人掩码底部的一点在相机的图像坐标系下的二维坐标；将二维坐标转换至三维场景的世界坐标系中，得到一个向量；计算向量与三维场景中地面所在平面的交点，得到世界坐标，地面所处平面在构建三维场景时确定。

请参阅图8，图8为本发明实施例的终端的结构示意图。如图6所示，该终端80包括处理器81及和处理器81耦接的存储器82、相机83。

相机83用于拍摄行人图像。

存储器82存储有用于实现上述任一实施例所述的行人掩码与三维场景融合显示的方法的程序指令。

处理器81用于执行存储器82存储的程序指令以从行人图像中提取行人掩码并与三维场景融合。

其中，处理器81还可以称为CPU（Central Processing Unit，中央处理单元）。处理器81可能是一种集成电路芯片，具有信号的处理能力。处理器81还可以是通用处理器、数字信号处理器（DSP）、专用集成电路（ASIC）、现场可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

参阅图9，图9为本发明实施例的存储介质的结构示意图。本发明实施例的存储介质存储有能够实现上述所有方法的程序文件91，其中，该程序文件91可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor）执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种行人掩码与三维场景融合显示的方法，其特征在于，包括：

利用预先获取的样本图像的样本特征划分出目标并计算第一分类损失，同时划分框定所述目标的预测框并计算第一边界框损失；

识别所述目标的类别并计算第二分类损失，并基于所述类别调整所述预测框，得到检测框，同时计算第二边界框损失；

对所述检测框内的每一个像素进行分类并计算掩码损失；

利用所述第一分类损失、所述第二分类损失、所述掩码损失、所述第一边界框损失、所述第二边界框损失构建新型损失函数；

在将行人图像和三维场景融合显示时，利用所述新型损失函数从图像中分割得到行人掩码，再融合至所述三维场景；

其中，所述对所述检测框内的每一个像素进行分类并计算掩码损失的步骤，包括：

对所述检测框内的每一个像素的类别进行识别，以对所述像素分类；

计算每个像素的分类概率的准确度，得到像素分类损失；

构建每个像素到实际掩码边界的距离值能量图，并计算每个像素进行逻辑回归后的概率值，利用所述距离值能量图和所述概率值积分得到掩码边界损失，所述实际掩码边界通过提取所述样本图像的信息时获得；

利用预设的比例因子，将所述像素分类损失和所述掩码边界损失按比例计算得到所述掩码损失。

2.根据权利要求1所述的行人掩码与三维场景融合显示的方法，其特征在于，所述利用预先获取的样本图像的样本特征划分出目标并计算第一分类损失的步骤之前，还包括：

从所述样本图像提取样本行人掩码，并记录所述样本行人掩码的中心位置；

补全分割出所述样本行人掩码后的样本图像上的空白区域；

将所述样本行人掩码随机贴至补全后的样本图像上，且位于所述中心位置附近，得到新的样本图像。

3.根据权利要求1所述的行人掩码与三维场景融合显示的方法，其特征在于，所述利用所述新型损失函数从图像中分割得到行人掩码，再融合至所述三维场景的步骤，包括：

利用所述新型损失函数将相机拍摄的图像进行分割，得到所述行人掩码；

利用相机在三维场景中的位置确定所述行人掩码与地面的交点的世界坐标，所述三维场景根据所述图像的背景信息构建，所述相机的位置在构建所述三维场景时得到；

基于所述世界坐标将所述行人掩码融合至所述三维场景中。

4.根据权利要求3所述的行人掩码与三维场景融合显示的方法，其特征在于，所述利用所述新型损失函数将相机拍摄的图像进行分割，得到所述行人掩码的步骤，包括：

利用所述新型损失函数将相机拍摄的图像进行分割，得到目标检测框、目标掩码和非目标掩码，以及所述目标掩码和所述非目标掩码的位置信息；

利用所述目标检测框的长宽比确定属于骑行者的目标掩码并删除，并利用所述目标掩码和所述非目标掩码的位置信息确定属于汽车驾驶者或非机动车驾驶者的目标掩码并删除；

将剩余的目标掩码作为所述行人掩码。

5.根据权利要求3所述的行人掩码与三维场景融合显示的方法，其特征在于，所述利用所述新型损失函数将相机拍摄的图像进行分割，得到所述行人掩码的步骤之后，还包括：

分析所述行人掩码是行人的概率；

将所述概率低于预设概率阈值的行人掩码删除。

6.根据权利要求3所述的行人掩码与三维场景融合显示的方法，其特征在于，所述利用所述新型损失函数将相机拍摄的图像进行分割，得到所述行人掩码的步骤之后，还包括：

沿所述行人掩码的边界添加一圈背景信息，以对所述行人掩码进行膨胀。

7.根据权利要求3所述的行人掩码与三维场景融合显示的方法，其特征在于，所述利用相机在三维场景中的位置确定所述行人掩码与所述地面的交点的世界坐标的步骤，包括：

获取所述行人掩码底部的一点在所述相机的图像坐标系下的二维坐标；

将所述二维坐标转换至所述三维场景的世界坐标系中，得到一个向量；

计算所述向量与所述三维场景中地面所在平面的交点，得到所述世界坐标，所述地面所处平面在构建所述三维场景时确定。

8.一种终端，其特征在于，所述终端包括处理器、与所述处理器耦接的存储器和相机，其中，

所述相机用于拍摄行人图像；

所述存储器存储有用于实现如权利要求1-7中任一项所述的行人掩码与三维场景融合显示的方法的程序指令；

所述处理器用于执行所述存储器存储的所述程序指令以从所述行人图像中提取行人掩码并与三维场景融合。

9.一种存储介质，其特征在于，存储有能够实现如权利要求1-7中任一项所述的行人掩码与三维场景融合显示的方法的程序文件。