CN111932584B

CN111932584B - 图像中运动对象的确定方法及装置

Info

Publication number: CN111932584B
Application number: CN202010671470.6A
Authority: CN
Inventors: 王晓鲁; 卢维; 任宇鹏; 殷俊; 伊进延
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-07-13
Filing date: 2020-07-13
Publication date: 2023-11-07
Anticipated expiration: 2040-07-13
Also published as: CN111932584A

Abstract

本发明提供了一种图像中运动对象的确定方法及装置，包括：获取由双目相机在连续两个时刻拍摄得到的一组图像；将所述一组图像输入到场景流网络模型，得到所述场景流网络模型输出的第一时刻单目图像的场景流；根据所述第一时刻单目图像的场景流确定所述第一时刻单目图像中的运动对象。通过本发明，解决了相关技术中在视频图像序列中检测出特定的运动目标的检测精度低的问题，进而达到了提高检测精度的效果。

Description

图像中运动对象的确定方法及装置

技术领域

本发明涉及通信领域，具体而言，涉及一种图像中运动对象的确定方法及装置。

背景技术

运动目标检测是指在视频图像序列中检测出特定的运动目标，将其与背景分开，并计算其位置等信息。运动目标的检测是运动目标的跟踪、目标的行为分析等问题的基础。在智能安防、智能交通以及机器人的环境感知等领域有着广泛的应用。

目前常见的运动检测方法有帧间差分法、光流法和场景流法等。帧间差分法本身存在的固有限制，容易产生空洞，并且无法得到完整的运动目标。传统的光流和场景流估计算法中多次迭代优化导致的计算耗时较大，并且精度不高的问题。

针对相关技术中，在视频图像序列中检测出特定的运动目标的检测精度低的问题，目前尚未存在有效的解决方案。

发明内容

本发明实施例提供了一种图像中运动对象的确定方法及装置，以至少解决相关技术中在视频图像序列中检测出特定的运动目标的检测精度低的问题。

根据本发明的一个实施例，提供了一种图像中运动对象的确定方法，包括：获取由双目相机在连续两个时刻拍摄得到的一组图像，其中，连续两个时刻包括第一时刻和第二时刻，所述双目相机包括左目相机和右目相机，所述左目相机在第一时刻拍摄得到的图像为第一时刻左目图像，所述右目相机在第一时刻拍摄得到的图像为第一时刻右目图像，所述左目相机在第二时刻拍摄得到的图像为第二时刻左目图像，所述右目相机在第二时刻拍摄得到的图像为第二时刻右目图像；

将所述一组图像输入到场景流网络模型，得到所述场景流网络模型输出的第一时刻单目图像的场景流，其中，所述第一时刻单目图像为所述第一时刻左目图像或所述第一时刻右目图像，所述场景流网络模型是使用多组第一训练数据通过机器学习训练得到的，所述多组第一训练数据中的每组第一训练数据包括：所述双目相机在连续两个时刻拍摄得到的图像以及场景流真值；根据所述第一时刻单目图像的场景流确定所述第一时刻单目图像中的运动对象。

可选地，根据所述第一时刻单目图像的场景流确定所述第一时刻单目图像中的运动对象，包括：通过聚类算法对所述场景流进行分析，得到所述第一时刻单目图像中的运动区域；使用第一实例分割模型对所述第一时刻单目图像中的实例对象进行分割得到第一实例对象，其中，所述第一实例分割模型是使用多组第二训练数据通过机器学习训练得到的，所述多组第二训练数据中的每组第二训练数据包括：图像以及第一分割真值；将所述运动区域与所述第一实例对象进行匹配得到所述运动对象。

可选地，所述场景流网络模型中包括视差网络模型、第一光流网络模型和第二实例分割模型，其中，将所述一组图像输入到场景流网络模型，得到所述场景流网络模型输出的第一时刻单目图像的场景流，包括：将所述第一时刻左目图像和所述第一时刻右目图像输入到所述视差网络模型，得到所述视差网络模型输出的第一视差，以及将所述第二时刻左目图像和所述第二时刻右目图像输入到所述视差网络模型，得到所述视差网络模型输出的第二视差，其中，所述视差网络模型是使用多组第三训练数据通过机器学习训练得到的，所述多组第三训练数据中的每组第三训练数据包括：所述双目相机在同一时刻拍摄得到的两帧图像和视差真值；将所述第一时刻左目图像和所述第二时刻左目图像输入到所述第一光流网络模型，得到所述第一光流网络模型输出的左视图光流，其中，所述第一光流网络模型是使用多组第四训练数据通过机器学习训练得到的，所述多组第四训练数据中的每组第四训练数据包括：所述双目相机中的左目相机在连续两个时刻拍摄得到的图像和光流真值；使用第二实例分割模型对所述第一时刻左目图像中的实例对象进行分割得到第二实例对象，其中，所述第二实例分割模型是使用多组第五训练数据通过机器学习训练得到的，所述多组第五训练数据中的每组第五训练数据包括：图像和第二分割真值；根据所述第一视差、所述第二视差、所述左视图光流和所述第二实例对象确定所述第一时刻左目图像的场景流。

可选地，根据所述第一视差、所述第二视差、所述左视图光流和所述第二实例对象确定所述第一时刻左目图像的场景流，包括：按照所述左视图光流对所述第二视差进行运动矢量平移，得到将所述第二视差映射到所述第一时刻的第一映射视差；使用所述第一时刻左目图像和所述第二实例对象对所述第一映射视差进行优化，得到第一优化映射视差；通过所述第一优化映射视差、所述第一视差和所述左视图光流得到所述第一时刻左目图像的场景流。

可选地，所述场景流网络模型输出的所述第一时刻左目图像的场景流与预定的所述第一时刻左目图像的已知场景流之间的第一损失函数满足第一目标收敛条件，所述第一目标收敛条件用于表示所述第一损失函数的输出值在第一预定范围之内。

可选地，所述场景流网络模型中包括视差网络模型、第二光流网络模型和第二实例分割模型，其中，将所述一组图像输入到场景流网络模型，得到所述场景流网络模型输出的第一时刻单目图像的场景流，包括：将所述第一时刻左目图像和所述第一时刻右目图像输入到所述视差网络模型，得到所述视差网络模型输出的第一视差，以及将所述第二时刻左目图像和所述第二时刻右目图像输入到所述视差网络模型，得到所述视差网络模型输出的第二视差，其中，所述视差网络模型是使用多组第三训练数据通过机器学习训练得到的，所述多组第三训练数据中的每组第三训练数据包括：所述双目相机在同一时刻拍摄得到的两帧图像和视差真值；将所述第一时刻右目图像和所述第二时刻右目图像输入到所述第二光流网络模型，得到所述第二光流网络模型输出的右视图光流，其中，所述第二光流网络模型是使用多组第六训练数据通过机器学习训练得到的，所述多组第六训练数据中的每组第六训练数据包括：所述双目相机中的右目相机在连续两个时刻拍摄得到的图像和光流真值；使用所述第二实例分割模型对所述第一时刻右目图像中的实例对象进行分割得到第三实例对象，其中，所述第二实例分割模型是使用多组第五训练数据通过机器学习训练得到的，所述多组第五训练数据中的每组第五训练数据包括：图像和第二分割真值；根据所述第一视差、所述第二视差、所述右视图光流和所述第三实例对象确定所述第一时刻右目图像的场景流。

可选地，根据所述第一视差、所述第二视差、所述右视图光流和所述第三实例对象确定所述第一时刻右目图像的场景流，包括：按照所述右视图光流对所述第二视差进行运动矢量平移，得到将所述第二视差映射到所述第一时刻的第二映射视差；使用所述第一时刻右目图像和所述第三实例对象对所述第二映射视差进行优化，得到第二优化映射视差；通过所述第二优化映射视差、所述第一视差和所述右视图光流得到所述第一时刻右目图像的场景流。

可选地，所述场景流网络模型输出的所述第一时刻右目图像的场景流与预定的所述第一时刻右目图像的已知场景流之间的第二损失函数满足第二目标收敛条件，所述第二目标收敛条件用于表示所述第二损失函数的输出值在第二预定范围之内。

根据本发明的另一个实施例，提供了一种图像中运动对象的确定装置，包括：获取模块，用于获取由双目相机在连续两个时刻拍摄得到的一组图像，其中，连续两个时刻包括第一时刻和第二时刻，所述双目相机包括左目相机和右目相机，所述左目相机在第一时刻拍摄得到的图像为第一时刻左目图像，所述右目相机在第一时刻拍摄得到的图像为第一时刻右目图像，所述左目相机在第二时刻拍摄得到的图像为第二时刻左目图像，所述右目相机在第二时刻拍摄得到的图像为第二时刻右目图像；输出模块，用于将所述一组图像输入到场景流网络模型，得到所述场景流网络模型输出的第一时刻单目图像的场景流，其中，所述第一时刻单目图像为所述第一时刻左目图像或所述第一时刻右目图像，所述场景流网络模型是使用多组第一训练数据通过机器学习训练得到的，所述多组第一训练数据中的每组第一训练数据包括：所述双目相机在连续两个时刻拍摄得到的图像以及场景流真值；确定模块，用于根据所述第一时刻单目图像的场景流确定所述第一时刻单目图像中的运动对象。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，获取由双目相机在连续两个时刻拍摄得到的一组图像，将一组图像输入到场景流网络模型，得到场景流网络模型输出的第一时刻单目图像的场景流，根据第一时刻单目图像的场景流确定第一时刻单目图像中的运动对象。由于运动目标检测使用对运动较为敏感的场景流进行检测，可以准确完整地检测出场景中运动目标区域，从场景流中检测运动目标区域，结合实例分割将运动目标区域中的运动对象分割出来。本申请使用基于神经网络的场景流计算方法在保证场景流计算精度的同时，实现了相比传统方法更快的计算速度。因此，可以解决在视频图像序列中检测出特定的运动目标的检测精度低的问题，达到提高检测精度的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种图像中运动对象的确定方法的移动终端的硬件结构框图；

图2是根据本发明实施例的图像中运动对象的确定方法的流程图；

图3是根据本发明一个可选实施例的分割运动目标区域的示意图；

图4是根据本发明一个可选实施例的场景流网络模型示意图；

图5是根据本发明一个可选实施例的FlowNetCorr的网络结构示意图；

图6是根据本发明一个可选实施例的优化示意图；

图7是根据本发明一个可选实施例的Encoder-Decoder的网络结构示意图；

图8是根据本发明实施例的图像中运动对象的确定装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种图像中运动对象的确定方法的移动终端的硬件结构框图。如图1所示，移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的图像中运动对象的确定方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述移动终端的图像中运动对象的确定方法，图2是根据本发明实施例的图像中运动对象的确定方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，获取由双目相机在连续两个时刻拍摄得到的一组图像，其中，连续两个时刻包括第一时刻和第二时刻，所述双目相机包括左目相机和右目相机，所述左目相机在第一时刻拍摄得到的图像为第一时刻左目图像，所述右目相机在第一时刻拍摄得到的图像为第一时刻右目图像，所述左目相机在第二时刻拍摄得到的图像为第二时刻左目图像，所述右目相机在第二时刻拍摄得到的图像为第二时刻右目图像；

步骤S204，将所述一组图像输入到场景流网络模型，得到所述场景流网络模型输出的第一时刻单目图像的场景流，其中，所述第一时刻单目图像为所述第一时刻左目图像或所述第一时刻右目图像，所述场景流网络模型是使用多组第一训练数据通过机器学习训练得到的，所述多组第一训练数据中的每组第一训练数据包括：所述双目相机在连续两个时刻拍摄得到的图像以及场景流真值；

步骤S206，根据所述第一时刻单目图像的场景流确定所述第一时刻单目图像中的运动对象。

作为一个可选的实施方案，对于双目相机在前后两个连续的时刻，第一时刻t和第二时刻t+1，有左右两个相机分别拍摄得到的一组图像包括第一时刻左目图像left_image_t0，第一时刻右目图像right_image_t0，第二时刻左目图像left_image_t1，第二时刻右目图像right_image_t1四幅图像。在本实施例中可以将左图作为基准图像，也可以将右图作为基准图像。在将左图作为基准图像的情况下，第一时刻单目图像为第一时刻左目图像left_image_t0。在将右图作为基准图像作为基准图像的情况下，第一时刻单目图像为第一时刻右目图像right_image_t0。

作为一个可选的实施方式，场景流网络模型是使用多组训练数据通过机器学习训练得到的，将一组图像输入至该场景流网络模型可以得到第一时刻左目图像left_image_t0的场景流S_左(u,v,z)，也可以得到右目图像right_image_t0的场景流S_右(u,v,z)。通过该场景流可以确定出在第一时刻左目图像left_image_t0中运动的对象，也可以确定出在第一时刻右目图像right_image_t0中运动的对象。

通过上述步骤，获取由双目相机在连续两个时刻拍摄得到的一组图像，将一组图像输入到场景流网络模型，得到场景流网络模型输出的第一时刻单目图像的场景流，根据第一时刻单目图像的场景流确定第一时刻单目图像中的运动对象。由于运动目标检测使用对运动较为敏感的场景流进行检测，可以准确完整地检测出场景中运动目标区域，从场景流中检测运动目标区域，结合实例分割将运动目标区域中的运动对象分割出来。本申请使用基于神经网络的场景流计算方法在保证场景流计算精度的同时，实现了相比传统方法更快的计算速度。因此，可以解决在视频图像序列中检测出特定的运动目标的检测精度低的问题，达到提高检测精度的效果。

可选地，上述步骤的执行主体可以为终端等，但不限于此。

作为一个可选的实施方式，可以采用聚类方法分割第一时刻左目图像left_image_t0或第一时刻右目图像right_image_t0中的运动目标区域，如图3所示为分割运动目标区域的示意图，其中主要包括以下3个步骤：

步骤S1，使用均值滤波平滑场景流；

步骤S2，使用ISODATA聚类算法对场景流进行聚类；

步骤S3，分割运动区域和背景区域，提取出运动目标区域提取。

由于场景的复杂性，场景流网络计算的结果会有一定程度的噪点。在运动目标区域分割之前，可以使用均值滤波器对场景流进行预处理，例如可以是5*5的均值滤波器，具体滤波器的选取可以根据实际情况而定，在此不做限定。

聚类算法采用迭代自组织数据分析法(ISODATA聚类算法)。ISODATA算法可以实现当属于某个类别的样本数过少时把这个类别去除，当属于某个类别的样本数过多、分散程度较大时把这个类别分为两个子类别，即自动地进行类的“合并”和“***”，从而得到类数较为合理的各个聚类。通过ISODATA聚类算法对预处理后的场景流进行聚类，此时得到的聚类类别包括运动区域和背景区域。具体地，可以计算场景流N聚类结果中的每个类别的场景流均值，记为Mi(u,v,z)(i＝1,2,3…N)，设置阈值T(u,v,z)，然后比较每个聚类区域场景流均值Mi(u,v,z)和阈值T(u,v,z)的大小。聚类区域场景流均值大于阈值时，该区域为运动区域，反之为背景区域。此时提取出的运动区域中可能包含单个运动对象，也可能包含多个运动对象。

运动目标区域分割得到的结果可能包含多个运动目标，通过基于彩色图像的实例分割方法将运动目标区域的每个目标实例分割出来。本实施例中第一实例分割模型可以是基于深度学习的Mask-RCNN网络，使用基于深度学习的Mask-RCNN网络对左视图图像left_image_t0或右视图图像right_image_t0进行实例分割，得到每个实例的掩模mask。然后通过对实例分割掩模instance_mask和运动区域掩模object_mask取交集，该交集为最终的运动目标个体。通过场景流运动目标区域分割和实例分割来进行运动目标检测，既可以利用场景流对目标运动敏感的特性，也可以利用实例分割识别场景中潜在目标实例的优点。

作为一个可选的实施方式，在本实施例中将左视图图像left_image_t0作为基准图像，如图4所示为场景流网络模型示意图，其中，该场景流模型中包括视差网络模型、第一光流网络模型和第二实例分割模型，将left_image_t0，right_image_t0输入视差网络模型计算出第一视差disp_t0，其中，视差网络模型可以是DispNet网络，将left_image_t1,right_image_t1输入视差网络模型计算出第二视差disp_t1，将left_image_t0和left_image_t1输入至光流网络模型计算出左视图光流flow，其中，光流网络模型可以是FlowNet网络。使用第二实体实例分割模型Mask-RCNN网络对left_image_t0进行实例分割计算得到实例的掩膜(对应于第二实体实例对象)。在本实施例中，DispNet和FlowNet的网络结构可以相同，这两个网络都有simple版本和Corr版本，在本实施例中采用DispNetCorr和FlowNetCorr的版本，图5表示FlowNetCorr的网络结构，DispNetCorr的网络结构与FlowNetCorr的网络结构相同，图6表示图5中的优化refinement部分。

作为一个可选的实施方案，利用光流的结果将disp_t1按运动矢量平移，使得每个点的像素坐标变为t0时刻的坐标，得到映射视差disp_warp。场景中一点P在t0时刻投影到图像平面上，在图像上的位置为(x0，y0)。P经过运动位置发生了变化，在图像上的位置变为(x1，y1)。(u＝x1-x0，v＝y0-y1)表示这个点在图像上的运动矢量。也就是光流flow(x0，y0)的值。这个点t1时刻的视差值是disp_t1(x1，y1)，disp_warp(x1-u，y1-v)＝disp_t1(x1，y1)，也就是disp_warp(x0，y0)＝disp_t1(x1，y1)。每个点都这样操作，就得到disp_warp。使用实例分割网络Mask-RCNN网络由第t0帧的左视图left_image_t0计算得到实例的掩膜mask(对应于第二实例对象)。利用t0时刻的左图left_image_t0、实例掩膜mask和disp_warp，经过一个优化模块refinement，得到优化后的优化映射视差disp_1。优化模块refinement采用Encoder-Decoder的网络结构，如图7所示是Encoder-Decoder的网络结构示意图。输入数据经过卷积核反卷积层，得到优化后的disp_1。[H/2，W/2，32]表示经过卷积层后，卷积层输出的特征图尺寸为原始高度宽度的1/2，通道数变为32，其他类似。箭头表示跳跃链接，并按照通道合并到一起。结合优化映射视差disp_1、第一视差disp_t0和左视图光流flow，得到场景流结果S_左(u，v，z)。具体地，对于一点(x，y)、disp_0(x，y)、disp_1(x，y)分别表示图像中点(x，y)在t0，t1两个时刻的深度，所以当然知道深度(z方向)的变化。flow(x，y)表示点(x，y)在t0到t1的x，y方向的运动矢量。所以结合disp_t0、disp_1、flow便可以知道每个点在三个方向上的运动，以此便可以计算出场景流结果。本实施例中场景流计算使用了基于深度学习的方法，可以快速计算出致密场景流S(u，v，z)。

作为一个可选的实施方案，场景流网络设置两个损失函数对网路收敛过程进行指导。第一个损失函数为Loss1，由视差网路计算结果disp_t0和经过左视图光流flow将disp_t1映射后的视差disp_warp计算得到。第二个损失函数Loss2，由场景流sceneflow和样本真值groudtruth计算而来。具体地，对于第一个损失函数为Loss1：可以利用disp_warp和disp_t0计算出深度的变化，和真值(ground truth)做对比，计算差值。计算公式可以为：Loss＝sum(abs(Δdisp–Δdisp_gt))，其中Δdisp＝disp_warp-disp_0。sum表示所有像素求和，abs表示求绝对值。如果真值是以两张视差图的形式给出，则可以直接计算disp_warp和disp_1_gt的差值。计算公式为：Loss＝sum(abs(disp_warp-disp_1_gt))。对于第二个损失函数Loss2计算方法与loss1一致，但是时利用优化后的disp_1去计算的。计算公式为：Loss＝sum(abs(disp_1-disp_1_gt))。

作为一个可选的实施方式，在本实施例中将左视图图像right_image_t0作为基准图像，该场景流模型中包括视差网络模型、第二光流网络模型和第二实例分割模型，将left_image_t0，right_image_t0输入视差网络模型计算出第一视差disp_t0，其中，视差网络模型可以是DispNet网络，将left_image_t1，right_image_t1输入视差网络模型计算出第二视差disp_t1，将right_image_t0和right_image_t1输入至光流网络模型计算出右视图光流flow，其中，光流网络模型可以是FlowNet网络。使用第二实体实例分割模型Mask-RCNN网络对right_image_t0进行实例分割计算得到实例的掩膜。在本实施例中，DispNet和FlowNet的网络结构可以相同，这两个网络都有simple版本和Corr版本，在本实施例中采用DispNetCorr和FlowNetCorr的版本。

作为一个可选的实施方案，利用光流的结果将disp_t1按运动矢量平移，使得每个点的像素坐标变为t0时刻的坐标，得到映射视差disp_warp。场景中一点P在t0时刻投影到图像平面上，在图像上的位置为(x0，y0)。P经过运动位置发生了变化，在图像上的位置变为(x1，y1)。(u＝x1-x0，v＝y0-y1)表示这个点在图像上的运动矢量。也就是光流flow(x0，y0)的值。这个点t1时刻的视差值是disp_t1(x1，y1)，disp_warp(x1-u，y1-v)＝disp_t1(x1，y1)，也就是disp_warp(x0，y0)＝disp_t1(x1，y1)。每个点都这样操作，就得到disp_warp。使用实例分割网络Mask-RCNN网络由第t0帧的右视图right_image_t0计算得到实例的掩膜mask。利用t0时刻的右图right_image_t0、实例掩膜mask和disp_warp，经过一个优化模块refinement，得到优化后的优化映射视差disp_1。优化模块refinement采用Encoder-Decoder的网络结构。输入数据经过卷积核反卷积层，得到优化后的disp_1。[H/2，W/2，32]表示经过卷积层后，卷积层输出的特征图尺寸为原始高度宽度的1/2，通道数变为32，其他类似。箭头表示跳跃链接，并按照通道合并到一起。结合优化映射视差disp_1、第一视差disp_t0和右视图光流flow，得到场景流结果S_右(u，v，z)。具体地，对于一点(x，y)、disp_0(x，y)、disp_1(x，y)分别表示图像中点(x，y)在t0，t1两个时刻的深度，所以当然知道深度(z方向)的变化。flow(x，y)表示点(x，y)在t0到t1的x，y方向的运动矢量。所以结合disp_t0、disp_1、flow便可以知道每个点在三个方向上的运动，以此便可以计算出场景流结果。本实施例中场景流计算使用了基于深度学习的方法，可以快速计算出致密场景流S(u，v，z)。

作为一个可选的实施方式，场景流网络设置两个损失函数对网路收敛过程进行指导。第一个损失函数为Loss1，由视差网路计算结果disp_t0和经过左视图光流flow将disp_t1映射后的视差disp_warp计算得到。第二个损失函数Loss2，由场景流sceneflow和样本真值groudtruth计算而来。具体地，对于第一个损失函数为Loss1：可以利用disp_warp和disp_t0计算出深度的变化，和真值(ground truth)做对比，计算差值。计算公式可以为：Loss＝sum(abs(Δdisp–Δdisp_gt))，其中Δdisp＝disp_warp-disp_0。sum表示所有像素求和，abs表示求绝对值。如果真值是以两张视差图的形式给出，则可以直接计算disp_warp和disp_1_gt的差值。计算公式为：Loss＝sum(abs(disp_warp-disp_1_gt))。对于第二个损失函数Loss2计算方法与loss1一致，但是时利用优化后的disp_1去计算的。计算公式为：Loss＝sum(abs(disp_1-disp_1_gt))。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种图像中运动对象的确定装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图8是根据本发明实施例的图像中运动对象的确定装置的结构框图，如图8所示，该装置包括：获取模块82，用于获取由双目相机在连续两个时刻拍摄得到的一组图像，其中，连续两个时刻包括第一时刻和第二时刻，所述双目相机包括左目相机和右目相机，所述左目相机在第一时刻拍摄得到的图像为第一时刻左目图像，所述右目相机在第一时刻拍摄得到的图像为第一时刻右目图像，所述左目相机在第二时刻拍摄得到的图像为第二时刻左目图像，所述右目相机在第二时刻拍摄得到的图像为第二时刻右目图像；输出模块84，用于将所述一组图像输入到场景流网络模型，得到所述场景流网络模型输出的第一时刻单目图像的场景流，其中，所述第一时刻单目图像为所述第一时刻左目图像或所述第一时刻右目图像，所述场景流网络模型是使用多组第一训练数据通过机器学习训练得到的，所述多组第一训练数据中的每组第一训练数据包括：所述双目相机在连续两个时刻拍摄得到的图像以及场景流真值；确定模块86，用于根据所述第一时刻单目图像的场景流确定所述第一时刻单目图像中的运动对象。

可选地，上述装置通过如下方式实现所述根据所述第一时刻单目图像的场景流确定所述第一时刻单目图像中的运动对象：通过聚类算法对所述场景流进行分析，得到所述第一时刻单目图像中的运动区域；使用第一实例分割模型对所述第一时刻单目图像中的实例对象进行分割得到第一实例对象，其中，所述第一实例分割模型是使用多组第二训练数据通过机器学习训练得到的，所述多组第二训练数据中的每组第二训练数据包括：图像以及第一分割真值；将所述运动区域与所述第一实例对象进行匹配得到所述运动对象。

可选地，上述装置通过如下方式实现所述场景流网络模型中包括视差网络模型、第一光流网络模型和第二实例分割模型，其中，将所述一组图像输入到场景流网络模型，得到所述场景流网络模型输出的第一时刻单目图像的场景流：将所述第一时刻左目图像和所述第一时刻右目图像输入到所述视差网络模型，得到所述视差网络模型输出的第一视差，以及将所述第二时刻左目图像和所述第二时刻右目图像输入到所述视差网络模型，得到所述视差网络模型输出的第二视差，其中，所述视差网络模型是使用多组第三训练数据通过机器学习训练得到的，所述多组第三训练数据中的每组第三训练数据包括：所述双目相机在同一时刻拍摄得到的两帧图像和视差真值；将所述第一时刻左目图像和所述第二时刻左目图像输入到所述第一光流网络模型，得到所述第一光流网络模型输出的左视图光流，其中，所述第一光流网络模型是使用多组第四训练数据通过机器学习训练得到的，所述多组第四训练数据中的每组第四训练数据包括：所述双目相机中的左目相机在连续两个时刻拍摄得到的图像和光流真值；使用第二实例分割模型对所述第一时刻左目图像中的实例对象进行分割得到第二实例对象，其中，所述第二实例分割模型是使用多组第五训练数据通过机器学习训练得到的，所述多组第五训练数据中的每组第五训练数据包括：图像和第二分割真值；根据所述第一视差、所述第二视差、所述左视图光流和所述第二实例对象确定所述第一时刻左目图像的场景流。

可选地，上述装置用于通过如下方式实现所述根据所述第一视差、所述第二视差、所述左视图光流和所述第二实例对象确定所述第一时刻左目图像的场景流：按照所述左视图光流对所述第二视差进行运动矢量平移，得到将所述第二视差映射到所述第一时刻的第一映射视差；使用所述第一时刻左目图像和所述第二实例对象对所述第一映射视差进行优化，得到第一优化映射视差；通过所述第一优化映射视差、所述第一视差和所述左视图光流得到所述第一时刻左目图像的场景流。

可选地，所述场景流网络模型中包括视差网络模型、第二光流网络模型和第二实例分割模型，上述装置用于通过如下方式实现所述将所述一组图像输入到场景流网络模型，得到所述场景流网络模型输出的第一时刻单目图像的场景流：将所述第一时刻左目图像和所述第一时刻右目图像输入到所述视差网络模型，得到所述视差网络模型输出的第一视差，以及将所述第二时刻左目图像和所述第二时刻右目图像输入到所述视差网络模型，得到所述视差网络模型输出的第二视差，其中，所述视差网络模型是使用多组第三训练数据通过机器学习训练得到的，所述多组第三训练数据中的每组第三训练数据包括：所述双目相机在同一时刻拍摄得到的两帧图像和视差真值；将所述第一时刻右目图像和所述第二时刻右目图像输入到所述第二光流网络模型，得到所述第二光流网络模型输出的右视图光流，其中，所述第二光流网络模型是使用多组第六训练数据通过机器学习训练得到的，所述多组第六训练数据中的每组第六训练数据包括：所述双目相机中的右目相机在连续两个时刻拍摄得到的图像和光流真值；使用所述第二实例分割模型对所述第一时刻右目图像中的实例对象进行分割得到第三实例对象，其中，所述第二实例分割模型是使用多组第五训练数据通过机器学习训练得到的，所述多组第五训练数据中的每组第五训练数据包括：图像和第二分割真值；根据所述第一视差、所述第二视差、所述右视图光流和所述第三实例对象确定所述第一时刻右目图像的场景流。

可选地，上述装置还用于通过如下方式实现所述根据所述第一视差、所述第二视差、所述右视图光流和所述第三实例对象确定所述第一时刻右目图像的场景流：按照所述右视图光流对所述第二视差进行运动矢量平移，得到将所述第二视差映射到所述第一时刻的第二映射视差；使用所述第一时刻右目图像和所述第三实例对象对所述第二映射视差进行优化，得到第二优化映射视差；通过所述第二优化映射视差、所述第一视差和所述右视图光流得到所述第一时刻右目图像的场景流。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取由双目相机在连续两个时刻拍摄得到的一组图像，其中，连续两个时刻包括第一时刻和第二时刻，所述双目相机包括左目相机和右目相机，所述左目相机在第一时刻拍摄得到的图像为第一时刻左目图像，所述右目相机在第一时刻拍摄得到的图像为第一时刻右目图像，所述左目相机在第二时刻拍摄得到的图像为第二时刻左目图像，所述右目相机在第二时刻拍摄得到的图像为第二时刻右目图像；

S2，将所述一组图像输入到场景流网络模型，得到所述场景流网络模型输出的第一时刻单目图像的场景流，其中，所述第一时刻单目图像为所述第一时刻左目图像或所述第一时刻右目图像，所述场景流网络模型是使用多组第一训练数据通过机器学习训练得到的，所述多组第一训练数据中的每组第一训练数据包括：所述双目相机在连续两个时刻拍摄得到的图像以及场景流真值；

S3，根据所述第一时刻单目图像的场景流确定所述第一时刻单目图像中的运动对象。

可选地，存储介质还被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像中运动对象的确定方法，其特征在于，包括：

获取由双目相机在连续两个时刻拍摄得到的一组图像，其中，连续两个时刻包括第一时刻和第二时刻，所述双目相机包括左目相机和右目相机，所述左目相机在第一时刻拍摄得到的图像为第一时刻左目图像，所述右目相机在第一时刻拍摄得到的图像为第一时刻右目图像，所述左目相机在第二时刻拍摄得到的图像为第二时刻左目图像，所述右目相机在第二时刻拍摄得到的图像为第二时刻右目图像；

将所述一组图像输入到场景流网络模型，得到所述场景流网络模型输出的第一时刻单目图像的场景流，其中，所述第一时刻单目图像为所述第一时刻左目图像或所述第一时刻右目图像，所述场景流网络模型是使用多组第一训练数据通过机器学习训练得到的，所述多组第一训练数据中的每组第一训练数据包括：所述双目相机在连续两个时刻拍摄得到的图像以及场景流真值；

根据所述第一时刻单目图像的场景流确定所述第一时刻单目图像中的运动对象。

2.根据权利要求1所述的方法，其特征在于，根据所述第一时刻单目图像的场景流确定所述第一时刻单目图像中的运动对象，包括：

通过聚类算法对所述场景流进行分析，得到所述第一时刻单目图像中的运动区域；

使用第一实例分割模型对所述第一时刻单目图像中的实例对象进行分割得到第一实例对象，其中，所述第一实例分割模型是使用多组第二训练数据通过机器学习训练得到的，所述多组第二训练数据中的每组第二训练数据包括：图像以及第一分割真值；

将所述运动区域与所述第一实例对象进行匹配得到所述运动对象。

3.根据权利要求1所述的方法，其特征在于，所述场景流网络模型中包括视差网络模型、第一光流网络模型和第二实例分割模型，其中，将所述一组图像输入到场景流网络模型，得到所述场景流网络模型输出的第一时刻单目图像的场景流，包括：

将所述第一时刻左目图像和所述第一时刻右目图像输入到所述视差网络模型，得到所述视差网络模型输出的第一视差，以及将所述第二时刻左目图像和所述第二时刻右目图像输入到所述视差网络模型，得到所述视差网络模型输出的第二视差，其中，所述视差网络模型是使用多组第三训练数据通过机器学习训练得到的，所述多组第三训练数据中的每组第三训练数据包括：所述双目相机在同一时刻拍摄得到的两帧图像和视差真值；

将所述第一时刻左目图像和所述第二时刻左目图像输入到所述第一光流网络模型，得到所述第一光流网络模型输出的左视图光流，其中，所述第一光流网络模型是使用多组第四训练数据通过机器学习训练得到的，所述多组第四训练数据中的每组第四训练数据包括：所述双目相机中的左目相机在连续两个时刻拍摄得到的图像和光流真值；

使用第二实例分割模型对所述第一时刻左目图像中的实例对象进行分割得到第二实例对象，其中，所述第二实例分割模型是使用多组第五训练数据通过机器学习训练得到的，所述多组第五训练数据中的每组第五训练数据包括：图像和第二分割真值；

根据所述第一视差、所述第二视差、所述左视图光流和所述第二实例对象确定所述第一时刻左目图像的场景流。

4.根据权利要求3所述的方法，其特征在于，根据所述第一视差、所述第二视差、所述左视图光流和所述第二实例对象确定所述第一时刻左目图像的场景流，包括：

按照所述左视图光流对所述第二视差进行运动矢量平移，得到将所述第二视差映射到所述第一时刻的第一映射视差；

使用所述第一时刻左目图像和所述第二实例对象对所述第一映射视差进行优化，得到第一优化映射视差；

通过所述第一优化映射视差、所述第一视差和所述左视图光流得到所述第一时刻左目图像的场景流。

5.根据权利要求3或4所述的方法，其特征在于，所述场景流网络模型输出的所述第一时刻左目图像的场景流与预定的所述第一时刻左目图像的已知场景流之间的第一损失函数满足第一目标收敛条件，所述第一目标收敛条件用于表示所述第一损失函数的输出值在第一预定范围之内。

6.根据权利要求1所述的方法，其特征在于，所述场景流网络模型中包括视差网络模型、第二光流网络模型和第二实例分割模型，其中，将所述一组图像输入到场景流网络模型，得到所述场景流网络模型输出的第一时刻单目图像的场景流，包括：

将所述第一时刻右目图像和所述第二时刻右目图像输入到所述第二光流网络模型，得到所述第二光流网络模型输出的右视图光流，其中，所述第二光流网络模型是使用多组第六训练数据通过机器学习训练得到的，所述多组第六训练数据中的每组第六训练数据包括：所述双目相机中的右目相机在连续两个时刻拍摄得到的图像和光流真值；

使用所述第二实例分割模型对所述第一时刻右目图像中的实例对象进行分割得到第三实例对象，其中，所述第二实例分割模型是使用多组第五训练数据通过机器学习训练得到的，所述多组第五训练数据中的每组第五训练数据包括：图像和第二分割真值；

根据所述第一视差、所述第二视差、所述右视图光流和所述第三实例对象确定所述第一时刻右目图像的场景流。

7.根据权利要求6所述的方法，其特征在于，根据所述第一视差、所述第二视差、所述右视图光流和所述第三实例对象确定所述第一时刻右目图像的场景流，包括：

按照所述右视图光流对所述第二视差进行运动矢量平移，得到将所述第二视差映射到所述第一时刻的第二映射视差；

使用所述第一时刻右目图像和所述第三实例对象对所述第二映射视差进行优化，得到第二优化映射视差；

通过所述第二优化映射视差、所述第一视差和所述右视图光流得到所述第一时刻右目图像的场景流。

8.根据权利要求6或7所述的方法，其特征在于，所述场景流网络模型输出的所述第一时刻右目图像的场景流与预定的所述第一时刻右目图像的已知场景流之间的第二损失函数满足第二目标收敛条件，所述第二目标收敛条件用于表示所述第二损失函数的输出值在第二预定范围之内。

9.一种图像中运动对象的确定装置，其特征在于，包括：

获取模块，用于获取由双目相机在连续两个时刻拍摄得到的一组图像，其中，连续两个时刻包括第一时刻和第二时刻，所述双目相机包括左目相机和右目相机，所述左目相机在第一时刻拍摄得到的图像为第一时刻左目图像，所述右目相机在第一时刻拍摄得到的图像为第一时刻右目图像，所述左目相机在第二时刻拍摄得到的图像为第二时刻左目图像，所述右目相机在第二时刻拍摄得到的图像为第二时刻右目图像；

输出模块，用于将所述一组图像输入到场景流网络模型，得到所述场景流网络模型输出的第一时刻单目图像的场景流，其中，所述第一时刻单目图像为所述第一时刻左目图像或所述第一时刻右目图像，所述场景流网络模型是使用多组第一训练数据通过机器学习训练得到的，所述多组第一训练数据中的每组第一训练数据包括：所述双目相机在连续两个时刻拍摄得到的图像以及场景流真值；

确定模块，用于根据所述第一时刻单目图像的场景流确定所述第一时刻单目图像中的运动对象。

10.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至8任一项中所述的方法。