CN108596032A

CN108596032A - 一种视频中打架行为检测方法、装置、设备及介质

Info

Publication number: CN108596032A
Application number: CN201810234688.8A
Authority: CN
Inventors: 张凯; 卢维; 殷俊; 穆方波
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2018-03-21
Filing date: 2018-03-21
Publication date: 2018-09-28
Anticipated expiration: 2038-03-21
Also published as: CN108596032B

Abstract

本发明公开了一种视频中打架行为检测方法、装置、设备及介质，用以解决现有技术中难以准确分析真实的三维运动，检测结果准确性低的问题。该打架行为检测方法中，通过对双目视频中连续的第一对图像和第二对图像中的每个特征点进行三维运动分析，确定每个特征点的运动幅值均值、运动方向熵值和影响面积，判断该第一对图像是否为目标图像，根据连续的目标图像确定每个时长，根据每个时长对应的目标运动幅值均值、目标运动方向熵值、目标影响面积、该时长以及预先训练完成的打架检测模型，确定该时长对应的视频是否发生打架行为。使该打架检测模型可以准确的分析真实的三维运动；进而准确判断是否发生打架行为，提高了打架行为检测的准确性。

Description

一种视频中打架行为检测方法、装置、设备及介质

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种视频中打架行为检测方法、装置、设备及介质。

背景技术

由于打架斗殴行为的具体过程非常复杂，故而难以准确建立用于打架行为检测的模型，即使在某些特定场景中可以检测到人的四肢信息，也难以在打斗过程中跟踪到这些信息，更不用说基于这些信息定义具体的打架动作。所以，打架斗殴的检测一般基于异常运动检测。在传统二维图像的行为分析中，将光流场近似为二维速度矢量场，运动信息可通过光流场近似描述，将异常运动定义为剧烈而杂乱的运动，对应的异常光流为光流幅值较大且光流方向杂乱。

现有的人群异常分析方法主要是基于单目摄像机视频前后帧的前景的活动范围、图像序列之间光流场的大小、方向来表针运动的剧烈和混乱程度进而进行判断；或者基于双目相机获取深度信息，利用深度信息进行背景建模，进而根据二维光流场的混乱程度和速度指标进行打架行为判断；或者利用深度信息制定运动剧烈程度的评价策略，根据不同深度信息给出对应的二维光流的分析判断第一阈值，仍然是根据图像的二维光流矢量场对打架行为分析。

由于二维光流场只能较准确的描述垂直于相机光轴方向的运动信息，而对于平行于相机光轴方向的运动没有描述能力，所以传统基于二维光流分析的打架斗殴检测算法就会存在一些明显的不足，例如，第一，对于相同的三维运动，发生在不同的景深处对应的二维光流的模值是不同的；第二，对于同一个物体，在不同景深处对应的图像区域大小也会明显不同，相应的做相同的运动也不会获取相同的光流结果；第三，对于同一个目标点做方向不同，大小相同的运动，二维光流的模值也不同等。由于二维的光流场并不等同于运动矢量场，所以通过二维光流场描述的三维场景下的真实运动是不准确的，具有极大误差，故而现有技术难以准确分析真实的三维运动，在检测打架等异常行为时，检测结果准确性低。

发明内容

本发明提供一种视频中打架行为检测方法、装置、设备及介质，用以解决现有技术中难以准确分析真实的三维运动，检测结果准确性低的问题。

本发明实施例提供了一种视频中打架行为检测方法，所述打架行为检测方法包括：

对双目视频中连续的第一对图像和第二对图像进行以下处理：针对所述第一对图像和所述第二对图像中的每个第一特征点，根据每个第一特征点在所述第一对图像和所述第而对图像中的坐标对，及所述双目视频对应的第一标定参数，确定每个第一特征点对应的第一运动矢量，并确定每个第一特征点的第一运动矢量方向及该第一对图像的第一运动幅值均值；根据每个第一特征点的第一运动矢量方向投影到预设的网格空间对应的网格，确定该第一对图像的第一运动方向熵值；根据每个第一特征点在世界坐标系中的三维坐标投影到地面对应的地面网格的数量，确定该第一对图像在地面的第一影响面积；

针对每个第一对图像，判断该第一对图像的第一运动幅值均值、第一运动方向熵值和第一影响面积是否均大于其对应的预设第一阈值，如果是，将该第一对图像标记为第一目标图像；根据被标记的连续的第一目标图像，确定每个第一时长；

针对每个第一时长，根据该第一时长对应的每个第一目标图像，确定第一目标运动幅值均值、第一目标运动方向熵值和第一目标影响面积；根据预先训练完成的打架检测模型，及所述第一目标运动幅值均值、第一目标运动方向熵值、第一目标影响面积和该第一时长，确定第一时长对应的视频是否发生打架行为。

进一步地，所述打架检测模型的训练过程包括：

对样本双目视频中每连续的第一对样本图像和第二对样本图像进行以下处理：针对所述第一对样本图像和所述第二对样本图像中的每个第二特征点，根据每个第而特征点在所述第一对样本图像和所述第二对样本图像中的坐标对，及所述样本双目视频对应的第二标定参数，确定每个第二特征点对应的第二运动矢量，并确定每个第二特征点的第二运动矢量方向及该第一对样本图像的第二运动幅值均值；根据每个第二特征点的第二运动矢量方向投影到预设的网格空间对应的网格，确定该第一对样本图像的第二运动方向熵值；根据每个第二特征点在世界坐标系中的三维坐标投影到地面对应的地面网格的数量，确定该第一对样本图像在地面的第二影响面积；

针对每个第一对样本图像，判断该第一对样本图像的第二运动幅值均值、第二运动方向熵值和第二影响面积是否均大于其对应的预设第二阈值，如果是，将该第一对样本图像标记为第二目标图像；根据被标记的连续的第二目标图像，确定每个第二时长；

针对每个第二时长，根据该第二时长对应的每个第二目标图像，确定第二目标运动幅值均值、第二目标运动方向熵值和第二目标影响面积，根据第二目标运动幅值均值、第二目标运动方向熵值、第二目标影响面积、该第二时长以及所述样本双目视频中每帧图像是否发生打架行为的标识信息，对所述打架检测模型进行训练。

进一步地，确定每个第二特征点在所述第一对样本图像和所述第二对样本图像中的坐标对之前，所述方法还包括：

根据第一对样本图像的第一左图和第一右图，获取第一对样本图像对应的视差图；

针对第二特征点集合中的每个第二特征点，确定在第一左图中与该第二特征点相邻的每个第一候选特征点；将每个第一候选特征点添加到候选集合中；针对候选集合中的每个第一候选特征点，根据所述视差图，确定该第一候选特征点在第一右图中对应的第一像素点，并确定该第一候选特征点在第二对样本图像的第二左图和第二右图中对应的第二像素点和第三像素点；在第二左图中确定包含该第二像素点的第一邻域，并在第二右图中确定包含第三像素点的第二邻域，分别在所述第一邻域和第二邻域内确定与第一候选特征点和第一像素点匹配的第一目标像素点和第二目标像素点；判断第一候选特征点、第一像素点、第一目标像素点和第二目标像素点的相关性是否大于设定的阈值，如果是，则确定第一候选特征点、第一像素点、第一目标像素点和第二目标像素点为第二目标特征点，将该第二特征点移出所述第二特征点集合，并将该第二目标特征点更新为第二特征点并添加到第二特征点集合中。

进一步地，所述确定该第一对样本图像的第二运动幅值均值包括：

根据每个第二特征点对应的第二运动矢量，获取每个第二特征点对应的第二运动幅值；

提取大于预设第二阈值的每个第二运动幅值，根据所述提取的每个第二运动幅值，确定所述第一对样本图像的第二运动幅值均值。

进一步地，所述将每个第二特征点的第二运动矢量方向投影到预设的网格空间，确定该第一对样本图像的第二运动方向熵值包括：

根据所述每个第二特征点对应的第二运动幅值，获取对应的第二运动幅值大于预设第三阈值的每个目标第二特征点；并

将所述每个目标第二特征点的第二运动矢量方向投影到预设的网格空间，根据对应的网格，确定该第一对样本图像的第二运动方向熵值。

进一步地，所述根据每个第二特征点在世界坐标系中的坐标投影到地面对应的地面网格的数量，确定该第一对样本图像在地面的第二影响面积包括：

根据所述每个目标第二特征点，分别获取每个目标第二特征点在世界坐标系中的第三三维坐标和第四三维坐标，将每个目标第二特征点的第三三维坐标和第四三维坐标投影到地面，根据每个第三三维坐标和第四三维坐标所对应的地面网格的数量，确定该第一对样本图像在地面的第二影响面积。

进一步地，确定每个第一特征点在所述第一对图像和所述第二对图像中的坐标对之前，所述方法还包括：

根据第一对图像的第三左图和第三右图，获取第一对图像对应的视差图；

针对第一特征点集合中的每个第一特征点，确定在第三左图中与该第一特征点相邻的每个第二候选特征点；将每个第二候选特征点添加到候选集合中；针对候选集合中的每个第二候选特征点，根据所述视差图，确定该第二候选特征点在第三右图中对应的第四像素点，并确定该第二候选特征点在第二对图像的第四左图和第四右图中对应的第五像素点和第六像素点；在第四左图中确定包含该第五像素点的第三邻域，并在第四右图中确定包含第六像素点的第四邻域，分别在所述第三邻域和第四邻域内确定与第二候选特征点和第四像素点匹配的第三目标像素点和第四目标像素点；确定第二候选特征点、第四像素点、第三目标像素点和第四目标像素点的相关性，判断该相关性是否大于设定的阈值，如果是，则确定第二候选特征点、第四像素点、第三目标像素点和第四目标像素点为第一目标特征点，将该第一特征点移出所述第一特征点集合，并将该第一目标特征点更新为第一特征点并添加到第一特征点集合中。

进一步地，所述确定该第一对图像的第一运动幅值均值包括：

根据每个第一特征点对应的第一运动矢量，获取每个第一特征点对应的第一运动幅值，提取大于预设第二阈值的第一运动幅值，根据所述提取的每个第一运动幅值，确定所述第一对图像的第一运动幅值均值。

进一步地，所述根据每个第一特征点的第一运动矢量方向投影到预设的网格空间，确定该第一对图像的第一运动方向熵值包括：

根据所述每个第一特征点对应的第一运动幅值，获取对应的第一运动幅值大于预设第三阈值的每个目标第一特征点；并

将所述每个目标第一特征点的第一运动矢量方向投影到预设的网格空间，根据对应的网格，确定该第一对图像的第一运动方向熵值。

进一步地，所述根据每个第一特征点在世界坐标系中的坐标投影到地面对应的地面网格的数量，确定该第一对图像在地面的第一影响面积包括：

根据所述每个目标第一特征点，分别获取每个目标第一特征点在世界坐标系中的第七三维坐标和第八三维坐标，将每个目标第一特征点的第七三维坐标和第八三维坐标投影到地面，根据每个第七三维坐标和第八三维坐标所对应的地面网格的数量，确定该第一对图像在地面的第一影响面积。

本发明实施例提供了一种视频中打架行为检测装置，所述打架行为检测装置包括：

获取模块，用于对双目视频中连续的第一对图像和第二对图像进行以下处理：针对所述第一对图像和所述第二对图像中的每个第一特征点，根据每个第一特征点在所述第一对图像和所述第二对图像中的坐标对，及所述双目视频对应的第一标定参数，确定每个第一特征点对应的第一运动矢量，并确定每个第一特征点的第一运动矢量方向及该第一对图像的第一运动幅值均值；根据每个第一特征点的第一运动矢量方向投影到预设的网格空间对应的网格，确定该第一对图像的第一运动方向熵值；根据每个第一特征点在世界坐标系中的坐标投影到地面对应的地面网格的数量，确定该第一对图像在地面的第一影响面积；

时长确定模块，用于针对每个第一对图像，判断该第一对图像的第一运动幅值均值、第一运动方向熵值和第一影响面积是否均大于其对应的预设第一阈值，如果是，将该第一对图像标记为第一目标图像；根据被标记的连续的第一目标图像，确定每个第一时长；

打架行为确定模块，用于针对每个第一时长，根据该第一时长对应的每个第一目标图像，确定第一目标运动幅值均值、第一目标运动方向熵值和第一目标影响面积；根据预先训练完成的打架检测模型，及所述第一目标运动幅值均值、第一目标运动方向熵值、第一目标影响面积和该第一时长，确定第一时长对应的视频是否发生打架行为。

进一步地，所述打架行为检测装置还包括：

训练模块，用于对样本双目视频中每连续的第一对样本图像和第二对样本图像进行以下处理：针对所述第一对样本图像和所述第二对样本图像中的每个第二特征点，根据每个第二特征点在所述第一对样本图像和所述第二对样本图像中的坐标对，及所述样本双目视频对应的第二标定参数，确定每个第二特征点对应的第二运动矢量，并确定每个第二特征点的第二运动矢量方向及该第一对样本图像的第二运动幅值均值；根据每个第二特征点的第二运动矢量方向投影到预设的网格空间对应的网格，确定该第一对样本图像的第二运动方向熵值；分别获取每个第二特征点在世界坐标系中的坐标投影到地面对应的地面网格的数量，确定该第一对样本图像在地面的第二影响面积；针对每个第一对样本图像，判断该第一对样本图像的第二运动幅值均值、第二运动方向熵值和第二影响面积是否均大于其对应的预设第二阈值，如果是，将该第一对样本图像标记为第二目标图像；根据被标记的连续的第二目标图像，确定每个第二时长；针对每个第二时长，根据该第二时长对应的每个第二目标图像，确定第二目标运动幅值均值、第二目标运动方向熵值和第二目标影响面积，根据第二目标运动幅值均值、第二目标运动方向熵值、第二目标影响面积、该第二时长以及所述样本双目视频中每帧图像是否发生打架行为的标识信息，对所述打架检测模型进行训练。

进一步地，所述训练模块，还用于确定每个第二特征点在所述第一对样本图像和所述第二对样本图像中的坐标对之前，根据第一对样本图像的第一左图和第一右图，获取第一对样本图像对应的视差图；针对第二特征点集合中的每个第二特征点，根据第一对样本图像中第一左图的该第二特征点，确定在第一左图中与该第二特征点相邻的每个第一候选特征点；将每个第一候选特征点添加到候选集合中；针对候选集合中的每个第一候选特征点，根据所述视差图，确定该第一候选特征点在第一右图中对应的第一像素点，并分别根据该第一候选特征点及第一像素点，确定该第一候选特征点在第二对样本图像的第二左图和第二右图中对应的第二像素点和第三像素点；在第二左图中确定包含该第二像素点的第一邻域，并在第二右图中确定包含第三像素点的第二邻域，分别在所述第一邻域和第二邻域内确定与第一候选特征点和第一像素点匹配的第一目标像素点和第二目标像素点；判断第一候选特征点、第一像素点、第一目标像素点和第二目标像素点的相关性是否大于设定的阈值，如果是，则确定第一候选特征点、第一像素点、第一目标像素点和第二目标像素点为第二目标特征点，将该第二特征点移出所述第二特征点集合，并将该第二目标特征点更新为第二特征点并添加到第二特征点集合中。

进一步地，所述训练模块，具体用于根据每个第二特征点对应的第二运动矢量，获取每个第二特征点对应的第二运动幅值；提取大于预设第二阈值的每个第二运动幅值，根据所述提取的每个所述第二运动幅值，确定所述第一对样本图像的第二运动幅值均值。

进一步地，所述训练模块，具体用于根据所述每个第二特征点对应的第二运动幅值，获取对应的第二运动幅值大于预设第三阈值的每个目标第二特征点；并将所述每个目标第二特征点的第二运动矢量方向投影到预设的网格空间，根据对应的网格，确定该第一对样本图像的第二运动方向熵值。

进一步地，所述训练模块，具体用于根据所述每个第目标二特征点，分别获取每个目标第二特征点在世界坐标系中的第三三维坐标和第四三维坐标，将每个目标第二特征点的第三三维坐标和第四三维坐标投影到地面，根据每个第三三维坐标和第四三维坐标所对应的地面网格的数量，确定该第一对样本图像在地面的第二影响面积。

进一步地，所述获取模块，还用于在确定每个第一特征点在所述第一对图像和所述第二对图像中的坐标对之前，根据第一对图像的第三左图和第三右图，获取第一对图像对应的视差图；针对第一特征点集合中的每个第一特征点，根据第一对图像中第三左图的该第一特征点，确定在第三左图中与该第一特征点相邻的每个第二候选特征点；将每个第二候选特征点添加到候选集合中；针对候选集合中的每个第二候选特征点，根据所述视差图，确定该第二候选特征点在第三右图中对应的第四像素点，并分别根据该第二候选特征点及第四像素点，确定该第二候选特征点在第二对图像的第四左图和第四右图中对应的第五像素点和第六像素点；在第四左图中确定包含该第五像素点的第三邻域，并在第四右图中确定包含第六像素点的第四邻域，分别在所述第三邻域和第四邻域内确定与第二候选特征点和第四像素点匹配的第五目标像素点和第六目标像素点；判断第二候选特征点、第四像素点、第三目标像素点和第四目标像素点的相关性是否大于设定的阈值，如果是，则确定第二候选特征点、第四像素点、第三目标像素点和第四目标像素点为第一目标特征点，将该第一特征点移出所述第一特征点集合，并将该第一目标特征点更新为第一特征点并添加到第一特征点集合中。

进一步地，所述获取模块，具体用于根据每个第一特征点对应的第一运动矢量，获取每个第一特征点对应的第一运动幅值，提取大于预设第二阈值的第一运动幅值，根据所述提取的每个第一运动幅值，确定所述第一对图像的第一运动幅值均值。

进一步地，所述获取模块，具体用于根据所述每个第一特征点对应的第一运动幅值，获取对应的第一运动幅值大于预设第三阈值的每个目标第一特征点；并将所述每个目标第一特征点的第一运动矢量方向投影到预设的网格空间，根据对应的网格，确定该第一对图像的第一运动方向熵值。

进一步地，所述获取模块，具体用于根据所述每个目标第一特征点，分别获取每个目标第一特征点在世界坐标系中的第七三维坐标和第八三维坐标，将每个目标第一特征点的第七三维坐标和第八三维坐标投影到地面，根据每个第七三维坐标和第八三维坐标所对应的地面网格的数量，确定该第一对图像在地面的第一影响面积。

本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述打架行为检测的步骤。

本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现上述打架行为检测的步骤。

本发明实施例提供了一种视频中打架行为检测方法、装置、设备及介质，该检测方法中对双目视频中连续的第一对图像和第二对图像进行以下处理：针对所述第一对图像和所述第二对图像中的每个第一特征点，根据每个第一特征点在所述第一对图像和所述第二对图像中的坐标对，及所述双目视频对应的第一标定参数，确定每个第一特征点对应的第一运动矢量，并确定每个第一特征点的第一运动矢量方向及该第一对图像的第一运动幅值均值；根据每个第一特征点的第一运动矢量方向投影到预设的网格空间对应的网格，确定该第一对图像的第一运动方向熵值；分别获取每个第一特征点在世界坐标系中的坐标投影到地面对应的地面网格的数量，确定该第一对图像在地面的第一影响面积；针对每个第一对图像，如果该第一对图像的第一运动幅值均值、第一运动方向熵值和第一影响面积均大于其对应的预设第一阈值，将该第一对图像标记为第一目标图像；根据被标记的连续的第一目标图像，确定每个第一时长；针对每个第一时长，根据该第二时长对应的每个第一目标图像，确定第一目标运动幅值均值、第一目标运动方向熵值和第一目标影响面积；根据预先训练完成的打架检测模型，及所述第一目标运动幅值均值、第一目标运动方向熵值、第一目标影响面积和该第一时长，确定第二时长对应的视频是否发生打架行为。由于本发明实施例中通过针对双目视频中连续的两个图像中的每个第一特征点，确定每个第一特征点的第一运动幅值均值、第一运动方向熵值和第一影响面积，针对每个第一对图像，判断该第一对图像是否为第一目标图像，并根据连续的第一目标图像确定每个第一时长，进而根据每个第一时长对应的第一目标运动幅值均值、第一目标运动方向熵值、第一目标影响面积、该第一时长以及预先训练完成的打架检测模型，确定第一时长对应的视频是否发生打架行为。使该打架检测模型可以准确的获取三维场景中每个第一特征点的三维运动情况，能够以实际的物理尺寸准确获取真实的三维运动；通过确定第一时长对应的第一目标运动幅值均值、第一目标运动方向熵值、第一目标影响面积以及该第一时长，使打架检测模型可以基于三维运动矢量场(即场景流)对目标的三维运动情况进行分析，进而准确判断是否发生打架行为，提高了打架行为检测的准确性。

附图说明

图1为本发明实施例提供一种打架检测模型训练的流程图；

图2为本发明实施例提供一种种子点生长方法示意图；

图3A为本发明实施例提供一种网格空间示意图；

图3B为本发明实施例提供一种网格空间示意图；

图4为本发明实施例提供一种打架行为检测方法流程图；

图5为本发明实施例提供一种视频中打架行为检测装置的结构示意图；

图6为本发明实施例提供一种计算机设备示意图。

具体实施方式

为了准确的检测视频中的打架行为，本发明实施例提供了一种视频中打架行为检测方法、装置、设备及介质。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

图1为本发明实施例提供的一种打架检测模型训练的流程图，其具体处理过程如下：

S101：对样本双目视频中每连续的第一对样本图像和第二对样本图像进行以下处理：针对所述第一对样本图像和所述第二对样本图像中的每个第二特征点，根据每个第二特征点在所述第一对样本图像和所述第二对样本图像中的坐标对，及所述样本双目视频对应的第二标定参数，确定每个第二特征点对应的第二运动矢量，并确定每个第二特征点的第二运动矢量方向及该第一对样本图像的第二运动幅值均值。

本发明实施例中，该打架检测模型的训练方法应用于电子设备，该电子设备可以是PC、平板电脑、智能手机、个人数字助理(Personal Digital Assistant，PDA)、图像采集设备和图像处理设备等。

电子设备可以根据样本双目视频，进行打架检测模型的训练，该样本双目视频中在每个时间点包括左、右两幅图像，因此针对每个时间点也就具有一对图像，即左右两幅图像，在本发明实施例中针对样本双目视频中每连续的两帧图像进行以下处理。具体的第一对样本图像和第二对样本图像可以为该样本双目视频中连续的任意两帧图像，此时，第一对样本图像为第二对样本图像的前一帧图像。其中，第一对样本图像可以包含第一左图和第一右图，第二对样本图像可以包含第二左图和第二右图。

当确定了第一对样本图像和第二对样本图像后，通过稀疏特征点匹配，确定每个特征点在第一对样本图像和第二对样本图像中的坐标，具体的，针对每个特征点，确定有该特征点在第一对样本图像中第一左图中的坐标，以及第一右图中的坐标，即确定了该特征点在第一对样本图像中的第一坐标对，并同样的，确定有该特征点在第二对样本图像中的第二坐标对。

其中，采用稀疏特征点匹配，在图像中确定特征点的过程属于现有技术，在本发明实施中对该过程不进行赘述。

例如，某第二特征点在第一左图、第一右图、第二左图和第二右图中对应的像素点在图像中的坐标分别为：和其中，由于该特征点，在第一左图和第一右图中对应的像素点的纵坐标相同，且在第二左图和第二右图中对应的像素点的纵坐标也相同，即，且为了表述方便，令此时，第一坐标对可以表示为第二坐标对可以表示为

具体地，本发明实施例中，预先存储有样本双目视频的第二标定参数。其中，所述第二标定参数为该样本双目视频对应的双目相机的内外标定参数。对双目相机进行标定并获取第二标定参数的过程属于现有技术，在本发明实施例中对该过程不进行赘述。

根据双目相机的三维重建原理，以及该样本双目视频对应的双目相机的第一标定参数，可以利用第二特征点的第一坐标对，可以确定该第一坐标对对应相机坐标系下的第一三维坐标，并利用第二特征点的第二坐标对，确定该第二坐标对对应相机坐标系下的第二三维坐标。

具体地，已知第二标定参数，确定图像坐标系中的坐标对，与相机坐标系下三维坐标关系满足以下公式：假设某第二特征点为点p，其第一坐标对为第二坐标对为则该第二特征点的第一坐标对对应的第一三维坐标为：

同理，该第二特征点的第二坐标对对应的第二三维坐标为：

其中，B、、u₀和v₀为双目相机的第二标定参数中的具体参数，具体地，B为双目相机中两个相机的中心距、f为双目相机的焦距、u₀和v₀分别为图像坐标系的原点在像素坐标系中的横坐标和纵坐标。

由于第一对样本图像和第二对样本图像分别为样本双目视频中连续的两帧图像，为了表述方便，假设第一对样本图像为样本双目视频中对应t₁时刻的图像，第二对样本图像为样本双目视频中对应t₂时刻的图像；则每个第二特征点的第一三维坐标和第二三维坐标分别为，该第二特征点在t₁时刻和t₂时刻对应的三维坐标。根据每个第二特征点的第一三维坐标和第二三维坐标，确定每个第二特征点对应的第二运动矢量的方法可以是，针对每个第二特征点，将该第二特征点的第一三维坐标作为起点，第二三维坐标作为终点，获取该第二特征点的第二运动矢量，进而获取每个第二特征点的第二运动矢量，其中每个第二特征点的第二运动矢量方向分别为其对应的第一三维坐标指向第二三维坐标的方向。

具体地，假设该第一对样本图像和第二对样本图像中共有n个第二特征点，其中，第i个第二特征点p_i的第一三维坐标为(X₁，Y₁，Z₁)，第二三维坐标为(X₂，Y₂，Z₂)；则该第二特征点的第二运动矢量为(dX_i，dY_i，dZ_i)，其中，dX_i＝X₂-X₁，dY_i＝Y₂-Y₁，dZ_i＝Z₂-Z₁。此时，该第二特征点p_i的第二运动幅值fi可以通过以下公式计算：

针对n个第二特征点，在确定了每个第二特征点的第二运动幅值后，可以通过下述公式计算该第一对样本图像的第二运动幅值均值：

其中，n和i均为正整数，且满足i≤n。

S102：根据每个第二特征点的第二运动矢量方向投影到预设的网格空间对应的网格，确定该第一对样本图像的第二运动方向熵值。

在本发明实施例中预设有正方体网格空间，并且该正方体网格空间的每个面包括数量相同的网格，每个网格对应的第二立体角范围可以预先确定，针对每个面，该面对应的第一立体角范围也可以预先确定，因此针对该面上的每个网格，根据该网格对应的第二立体角范围对应的第二差值与第一立体角范围对应的第一差值的比值，可以确定该网格对应的角度比例值。

当确定了每个特征点的第二运动矢量方向后，将每个特征点设置在正方体的中心，针对每个特征点，根据该特征点的第二运动矢量方向，确定该特征点的第二运动矢量方向投影到正方体网格空间对应哪个网格，即以正方体的中心为起点，该第二运动矢量方向为方向，确定一条直线，该直线与正方体网格空间的交点所在的网格，作为该第二运动矢量方向投影到的该预设的网格空间对应的网格。

第二特征点的第二运动矢量方向投影到预设的网格空间，确定每个第二特征点的第二运动矢量方向对应的网格后，根据每个网络对应的角度比例值，可以确定该第一对图像的第二运动方向熵值，例如可以将投影有第二运动矢量方向的每个网格对应的角度比例值的和作为该第一对样本图像的第二运动方向熵值。

S103：根据每个第二特征点在世界坐标系中的坐标投影到地面对应的地面网格的数量，确定该第一对样本图像在地面的第二影响面积。

因为已经获取了每个特征点在相机坐标系下的三维坐标，相机坐标系和世界坐标系的关系可以预知，因此根据每个第二特征点在相机坐标系下的第一三维坐标和第二三维坐标，可以在世界坐标系下分别获取与第一三维坐标和第二三维坐标对应的第三三维坐标和第四三维坐标。

可以将地面划分为多个面积相等的网格，具体划分的地面网格的形状可以是矩形或者正方形或者菱形等其他形状，较佳地，为了方便进行后续操作，本发明实施例将该地面网格划分为面积相等的正方形网格。具体地，划分的地面网格的面积可以根据经验值进行设置，本发明实施例中，确定每个地面网格的面积可以为4平方厘米至25平方厘米之间。

将获取的每个第二特征点在世界坐标系下的第三三维坐标和第四三维坐标分别投影到地面上，并对投影到的地面网格进行标记，针对每个特征点，对其投影到地面上的被标记的地面网格的数量进行统计，根据统计得到的地面网格的数量，以及每个地面网格的面积，可以确定该特征点对应的投影面积，则根据第一对样本图像中每个特征点对应的投影面积的和，可以确定该第一对样本图像在地面的第二影响面积。

S104：针对每个第一对样本图像，判断该第一对样本图像的第二运动幅值均值、第二运动方向熵值和第二影响面积是否均大于其对应的预设第二阈值，如果是，将该第一对样本图像标记为第二目标图像；根据被标记的连续的第二目标图像，确定每个第二时长。

在电子设备中预先保存有运动幅值均值阈值、运动方向熵值阈值和影响面积阈值，针对样本双目视频中的每个第一对样本图像，在获取该第一对样本图像的第二运动幅值均值第二运动方向熵值E和第二影响面积S后，首先判断该第一对样本图像的第二运动幅值均值第二运动方向熵值E和第二影响面积S是否分别大于运动幅值均值阈值、运动方向熵值阈值和影响面积阈值。

如果某个第一对样本图像的第二运动幅值均值大于运动幅值均值阈值、第二运动方向熵值E大于运动方向熵值阈值，并且第二影响面积S大于影响面积阈值，则将该第一对样本图像标记为目标图像，否则，不对第一对样本图像进行标记。

采用上述方法可以确定是否对每个第一对样本图像进行标记，当确定了每个第二目标图像后，该样本双目视频中可能存在多个第二目标图像，并且很可能存在连续的第二目标图像，因此可以确定每个图像组，根据每个图像组中包含的第二目标图像的数量，可以确定每个图像组对应的第二时长，其中每个图像组包括至少一帧第二目标图像。

例如，在该样本双目视频中，被标记为第二目标图像的图像分别为第一帧图像、第二帧图像、第三帧图像、第五帧图像、第七帧图像、第八帧图像等等，则可以确定第一帧图像、第二帧图像、第三帧图像为一个图像组，确定一个第二时长，第五帧图像为一个图像组，确定一个第二时长，第七帧图像、第八帧图像为另一个图像组，确定另一个第二时长。

S105：针对每个第二时长，根据该第二时长对应的每个第二目标图像，确定第二目标运动幅值均值、第二目标运动方向熵值和第二目标影响面积，根据第二目标运动幅值均值、第二目标运动方向熵值、第二目标影响面积、该第二时长以及所述样本双目视频中每帧图像是否发生打架行为的标识信息，对所述打架检测模型进行训练。

针对每个第二时长，在根据该第二时长对应的每个第二目标图像，确定第二目标运动幅值均值、第二目标运动方向熵值和第二目标影响面积时，可以有多种实现方式。例如：针对每个第二时长，可以根据每个第二目标图像的对应的第二运动幅值均值、第二运动方向熵值和第二影响面积，分别将第二运动幅值均值、第二运动方向熵值和第二影响面积中各自对应的最大值作为第二目标运动幅值均值、第二目标运动方向熵值和第二目标影响面积；或者根据每个第二目标图像的对应的第二运动幅值均值、第二运动方向熵值和第二影响面积，分别计算第二运动幅值均值的平均值、第二运动方向熵值的平均值和第二影响面积的平均值，并将其分别作为第二目标运动幅值均值、第二目标运动方向熵值和第二目标影响面积。

为了实现模型的训练，预先设置有样本双目视频的每一帧图像是否发生打架行为的标识信息，例如，如果某一帧图像包含打架行为，则可以将该帧图像的标识信息设置为1，如果某一帧图像不包含打架行为，则可以将该帧图像的标识信息设置为0，因为用户可以预先浏览样本双目视频，因此可以准确的确定每帧图像是否发生打架行为，从而可以准确的确定每帧图像是否发生打架行为的标识信息。

在对打架检测模型进行训练时，可以将第二目标运动幅值均值、第二目标运动方向熵值、第二目标影响面积和第二时长输入打架检测模型，该打架检测模型将会输出每个连续的第二目标图像发生打架行为的概率，当该概率大于预设的打架概率阈值时，确定当前输入模型的连续的第二目标图像中发生了打架行为，进而根据样本中当前输入模型的连续的第二目标图像是否发生打架行为的标识信息对该打架检测模型进行训练。

由于本发明实施例中通过针对样本双目视频中连续的两个样本图像中的每个第二特征点，根据该特征点在样本图像中的第一坐标对和第二坐标对，确定其在相机坐标系中的第一三维坐标和第二三维坐标，以及每个第二特征点在世界坐标系中的第三三维坐标和第四三维坐标，进而确定每个特征点的第二运动幅值均值、第二运动方向熵值和第二影响面积，针对每个第一对样本图像，判断每个第一对样本图像是否为第二目标图像，并根据连续的第二目标图像确定每个第二时长，进而根据每个第二时长对应的第二目标运动幅值均值、第二目标运动方向熵值、第二目标影响面积、该第二时长以及所述样本双目视频中每帧图像是否发生打架行为的标识信息，对所述打架检测模型进行训练。使该打架检测模型可以准确的获取三维场景中每个第二特征点的三维运动情况，能够以实际的物理尺寸准确获取真实的三维运动；通过确定第二时长对应的第二目标运动幅值均值、第二目标运动方向熵值、第二目标影响面积以及该第二时长，使打架检测模型可以基于三维运动矢量场(即场景流)对目标的三维运动情况进行分析，进而准确判断是否发生打架行为，提高了打架行为检测的准确性。

实施例2：

为了使确定的打架检测模型更加准确，在上述实施例的基础上，确定每个第二特征点在所述第一对样本图像和所述第二对样本图像中的坐标对之前，所述方法还包括：

针对第二特征点集合中的每个第二特征点，根据第一对样本图像中第一左图的该第二特征点，确定在第一左图中与该第二特征点相邻的每个第一候选特征点；将每个第一候选特征点添加到候选集合中；针对候选集合中的每个第一候选特征点，根据所述视差图，确定该第一候选特征点在第一右图中对应的第一像素点，并分别根据该第一候选特征点及第一像素点，确定该第一候选特征点在第二左图和第二右图中对应的第二像素点和第三像素点；在第二左图中确定包含该第二像素点的第一邻域，并在第二右图中确定包含第三像素点的第二邻域，分别在所述第一邻域和第二邻域内确定与第一候选特征点和第一像素点匹配的第一目标像素点和第二目标像素点；判断第一候选特征点、第一像素点、第一目标像素点和第二目标像素点的相关性是否大于设定的阈值，如果是，则确定第一候选特征点、第一像素点、第一目标像素点和第二目标像素点为第二目标特征点，将该第二特征点移出所述第二特征点集合，并将该第二目标特征点更新为第二特征点并添加到第二特征点集合中。

当通过稀疏特征点匹配，确定了第一对样本图像和第二对样本图像中对应的特征点后，可以将该特征点作为种子点，并且还可以围绕着种子点进行生长，确定更多的种子点，从而方便进行模型的训练。

在围绕着种子点进行生长时，具体的生长策略是遍历种子点的四邻域像素点，计算每个邻域像素点在其他三幅图像上对应的最相关的三个候选点。在针对种子点进行生长之前，为了方便进行后续操作，针对第一对样本图像的第一左图和第一右图，获取该第一对样本图像对应的视差图。

具体地，为了抑制光照变化的影响，在确定第一对样本图像对应的视差图之前可以对该第一对样本图像进行非参数变换(census变换)，并对census变换后的第一对样本图像采用经典的半全局立体匹配算法，获取该第一对样本图像对应的视差图。具体地，获取视差图的过程为现有技术，本发明实施例在此不再赘述。

在围绕着种子点进行生长时，将种子点保存在第二特征点集合中，针对第二特征点集合中的每个第二特征点，确定该第二特征点是否能够生长出种子点。

将该第二特征点从该第二特征点集合中移出，针对该第二特征点在第一左图中的位置，确定在第一左图中与该第二特征点相邻的每个第一候选特征点，具体的是将以第二特征点为中心的四邻域像素点，作为与该第二特征点相邻的每个第一候选特征点，也就是说该第一候选特征点为该第一左图中位于第二特征点上、下、左、右的像素点。将确定的每个第一候选特征点添加到候选集合中，候选集合是进行种子点生长的中间集合，从候选集合中移出第一候选特征点，针对被移出的第一候选特征点，根据确定的该视差图，确定该第一候选特征点在第一右图中对应的第一像素点，并分别根据该第一候选特征点及第一像素点，确定该第一候选特征点在第二左图和第二右图中对应的第二像素点和第三像素点。具体参见图2所示。

分别在第二左图和第二右图中确定包含该第二像素点的第一邻域，和包含第三像素点的第二邻域，该第一邻域可以为第二左图中该第二像素点以及该第二像素点的四邻域像素点组成的集合；该第二邻域可以为第二右图中该第三像素点以及该第三像素点的四邻域像素点组成的集合；其中，第二像素点和第三像素点的四邻域像素点分别可以为位于该第二像素点和第三像素点上、下、左、右的像素点。分别在第一邻域和第二邻域内确定与第一候选特征点和第一像素点匹配的第一目标像素点和第二目标像素点，其中，在确定第一邻域和第二邻域内与第一候选特征点和第一像素点匹配的像素点时，可以采用现有技术的方法进行确定，本发明实施例在此不再赘述。

当确定了与第一候选特征点和第一像素点匹配的第一目标像素点和第二目标像素点后，确定第一候选特征点、第一像素点、第一目标像素点和第二目标像素点的相关性，当该相关性大于设定的阈值时，则确定第一候选特征点、第一像素点、第一目标像素点和第二目标像素点为第二目标特征点，并将该第二目标特征点更新为第二特征点并添加到第二特征点集合中。将该第二目标特征点更新到第二特征点集合中，以便确定该第二目标特征点是否能够生长出种子点。其中，该阈值可以调节种子点的置信度，可以按照实际需求设置该阈值的值，本发明实施例中可以将该阈值设定为0.8。

具体地，确定第一候选特征点、第一像素点、第一目标像素点和第二目标像素点的相关性时，可以根据下述公式进行计算：

其中，S_i·c为第一候选特征点、第一像素点、第一目标像素点和第二目标像素点的相关性；为第一左图中的第一候选特征点与第二左图中第一目标像素点的相关性；为第一右图中的第一像素点与第二右图中第二目标像素点的相关性；为第二左图中的第一目标像素点与第二右图中第二目标像素点的相关性。

具体地，采用的相关性标准为moravec非归一化交叉相关(MNCC)，其计算公式如下：

其中，W_p为像素点的支持域，这里取5×5像素大小的邻域窗口为支持域；

当计算时，I_l(x，y)和I_r(x+dx，y+dy)分别代表第一左图中的第一候选特征点的灰度值与第二左图中第一目标像素点的灰度值；和分别为第一候选特征点的支持域内每个像素点的灰度值的平均值与第一目标像素点的支持域内每个像素点的灰度值的平均值。

当计算时，I_l(x，y)和I_r(x+dx，y+dy)分别代表第一右图中的第一像素点的灰度值与第二右图中第二目标像素点的灰度值；和分别为第一像素点的支持域内每个像素点的灰度值的平均值与第二目标像素点的支持域内每个像素点的灰度值的平均值。

当计算时，I_l(x，y)和I_r(x+dx，y+dy)分别代表第二左图中的第一目标像素点的灰度值与第二右图中第二目标像素点的灰度值；和分别为第一目标像素点的支持域内每个像素点的灰度值的平均值与第二目标像素点的支持域内每个像素点的灰度值的平均值。

当第一特征点集合和候选集合中不包含任何像素点时，该种子点生长过程结束。

为了提高打架行为检测的效率，在本发明实施例中，在确定第一对样本图像和第二对样本图像中的第二特征点之前，所述方法还包括：

针对第一对样本图像，判断该第一对样本图像之前是否包含至少两帧图像，如果包含，则将根据所述第一对样本图像的前一帧图像中的特征点，预测所述第一对样本图像和第二对样本图像中的第二特征点；否则，分别提取所述第一对样本图像和第二对样本图像中的稀疏特征点，通过稀疏特征点匹配，确定所述第一对样本图像和第二对样本图像中的第二特征点。

因此在本发明实施例中，还可以根据种子点生长过程结束后获取的每个第二特征点，通过现有的卡尔曼滤波等方法，预测样本双目视频中第二对样本图像与其下一帧图像的种子点。此时在确定第二对样本图像与其下一帧图像的第二特征点时，便可以利用预测的第二对样本图像与其下一帧图像的种子点，采用与上述相同的方法进行种子点生长，进而获取第二对样本图像与其下一帧图像的第二特征点。

另外，在本发明实施例中在获取了该样本双目视频中每连续的第一对样本图像和第二对样本图像后，可以对该第一对样本图像和第二对样本图像进行预处理，即，可以根据该样本双目视频对应的双目标定参数对该第一对样本图像和第二对样本图像进行外极线校正，并获取校正后的第一左图、第一右图、第二左图和第二右图；针对校正后的第一左图、第一右图、第二左图和第二右图，分别获取其对应的灰度图像，即，获取第一灰度左图、第一灰度右图、第二灰度左图和第二灰度右图。

分别提取经过外极线校正后的第一灰度左图、第一灰度右图、第二灰度左图和第二灰度右图中的每个稀疏特征点，其中，在进行稀疏特征点提取时，可以采用尺度不变特征转换(Scale-invariant feature transform，SIFT)算法，即SIFT算法，或者采用ORB算法提取图像中的稀疏特征点。针对从第一灰度左图、第一灰度右图、第二灰度左图和第二灰度右图中提取到的每个稀疏特征点，进行稀疏特征点匹配。

通过稀疏特征点匹配，将第一灰度左图、第一灰度右图、第二灰度左图和第二灰度右图中匹配成功的每个稀疏特征点组，确定为每个第二特征点，进而根据每个稀疏特征点组，在第一灰度左图、第一灰度右图、第二灰度左图和第二灰度右图中对应的像素点在图像坐标系下的像素坐标，确定每个第二特征点在第一灰度左图、第一灰度右图、第二灰度左图和第二灰度右图中的坐标。

由于本发明实施例中，通过在第一对样本图像和第二对样本图像中，将特征点作为种子点，并且围绕种子点进行生长，获取更多种子点，进而获取更多的特征点。当场景中存在有较大幅度的运动时，由于违背光流计算的小位移假设，本发明实施例可以避免一般光流算法采用的平滑、逼近约束策略会产生较大的误差的问题。另外，通过种子点生长获取更多的特征点，可以使打架检测模型在基于三维运动矢量场(即场景流)对目标的三维运动情况进行分析时，更加真实的描述场景中目标的三维运动情况。

实施例3：

为了准确的确定每个第一对样本图像是否为第二目标图像，在上述实施例的基础上，在本发明实施例中，所述确定该第一对样本图像的第二运动幅值均值包括：

第二特征点对应的第二运动矢量可以为上述实施例中确定的第二运动矢量，并可以根据每个第二特征点对应的第二运动矢量，确定每个第二特征点对应的第二运动幅值。

本发明实施例中，为了剔除运动幅值较小的特征点对本打架检测模型造成的干扰，可以预先设置第二阈值，根据每个第二特征点对应的第二运动幅值，提取出第二运动幅值大于该第二阈值的第二运动幅值，并根据提取出的每个第二运动幅值，计算其对应的运动幅值均值，并将该运动幅值均值作为第二运动幅值均值。其中，该第二阈值可以根据实际需求进行设置。

具体地，为了使第二运动幅值均值更具有运动剧烈程度的代表性，也可以将每个第二特征点对应的第二运动幅值按从大到小的顺序进行排序，获取排序后的前w个第二运动幅值，并将所述w个第二运动幅值的均值作为所述第二运动幅值均值。其中，所述w为正整数。通过筛选出第二运动幅值大于预设第二阈值的第二运动幅值，并将筛选得到的第二运动幅值的平均值作为第二运动幅值均值，使第二运动幅值均值更具有运动剧烈程度的代表性。

实施例4：

为了准确的确定每个第一对样本图像是否为第二目标图像，在上述实施例的基础上，在本发明实施例中，所述根据每个第二特征点的第二运动矢量方向投影到预设的网格空间对应的网格，确定该第一对样本图像的第二运动方向熵值包括：

将所述每个目标第二特征点的第二运动矢量方向投影到预设的网格空间，根据所述每个目标第二特征点的第二运动矢量方向对应的网格，确定该第一对样本图像的第二运动方向熵值。

可以根据每个特征点确定第二运动方向熵值，但为了更加准确的确定每个第一对样本图像是否为第二目标图像，根据所述每个第二特征点对应的第二运动幅值，获取对应的第二运动幅值大于预设第三阈值的每个目标第二特征点，根据所述每个目标第二特征点的第二运动矢量方向对应的网格，确定该第一对样本图像的第二运动方向熵值。

具体地，图3A为本发明实施例提供的一种网格空间示意图，其中，正方体为球体的内接正方体，将正方体的每个面划分为数量相同的多个正方形网格，并且每个面中划分的每个正方形网格的面积也相同。针对正方体，每个正方形网格对应的第二立体角范围可以预先确定，针对每个面，该面对应的第一立体角范围也可以预先确定，针对该正方体每个面上的每个正方形网格，根据该面中该正方形网格的第二立体角范围对应的第二差值与该面的第一立体角范围对应的第一差值的比值，可以确定该正方形网格对应的角度比例值。将正方体各个面上的每个正方形网格投影到其外接球体的球面上，获得图3B所示的网格空间，并将图3A中每个正方形网格对应的角度比例值作为图3B中对应的每个网格空间的角度比例值。具体地，计算立体角范围的方法为现有技术，本发明实施例在此不再赘述。

具体地，在划分正方形网格时，可以根据需求将正方体中的单个面划分为不同数量的正方形网格，当要求提高计算第二运动方向熵值的精确度时，可以在正方体中的单个面中划分较多数量的正方形网格；当要求提高计算第二运动方向熵值的速度时，可以在正方体中的单个面中划分较少数量的正方形网格。对此本领域技术人员可以根据实际需求自行设置。

由于获取的每个目标第二特征点对应的第二运动矢量方向可以是三维空间中的任意方向，为了获取每个目标第二特征点的运动矢量方向分布情况，将每个目标第二特征点的第二运动矢量方向投影到图3B所示的网格空间中，确定每个第二运动矢量方向投影到的网格，根据每个投影有第二运动矢量方向的网格对应的角度比例值，确定该第一对样本图像的第二运动方向熵值。

确定每个第二运动矢量方向投影到的网格时，可以针对每个目标第二特征点，以球心为起点，以该目标第二特征点的第二运动矢量方向为方向，确定一条直线，该直线与球体中网格空间的交点所在的网格，作为该第二运动矢量方向投影到该网格空间中对应的网格。针对每个目标第二特征点，统计该目标第二特征点的第二运动矢量方向投影到的网格的角度比例值。进而根据每个目标第二特征点的第二运动矢量方向投影到的每个网格的角度比例值，确定该第一对样本图像的第二运动方向熵值。

具体地，假设确定的目标第二特征点的数量为k，可以采用下述公式计算该第一对样本图像的第二运动方向熵值E。

其中，k和j均为正整数，且满足j≤k，j表示第j个目标第二特征点，p_j表示第j个目标第二特征点的第二运动矢量方向投影到的网格的角度比例值。

相应的，在确定第一对样本图像在地面的第二影响面积时，所述分别获取每个第二特征点在世界坐标系中的第三三维坐标和第四三维坐标，将每个第二特征点的第三三维坐标和第四三维坐标投影到地面，根据每个第三三维坐标和第四三维坐标所对应的地面网格的数量，确定该第一对样本图像在地面的第二影响面积包括：

本发明实施例中为了更加准确的确定每个第一对样本图像是否为第二目标图像，在获取该第一对样本图像在地面的第二影响面积时，根据上述筛选出的每个目标第二特征点在世界坐标系中的第三三维坐标和第四三维坐标投影到地面上对应的地面网格的数量，确定该第一对样本图像在地面的第二影响面积。

在划分地面网格时，可以将地面网格划分为面积相等的正方形网格，且每个正方形网格的面积可以在4平方厘米至25平方厘米之间。具体地，在确定该第一对样本图像在地面的第二影响面积时，可以对每个目标第二特征点的第三三维坐标和第四三维坐标投影到地面上对应的地面网格进行标记，确定被标记的地面网格中的最大连通域，进而将该最大连通域中包含的地面网格的数量与每个地面网格的面积的乘积，作为该第一对样本图像在地面的第二影响面积。

实施例5：

图4为本发明实施例提供的一种打架行为检测方法流程图，该方法包括以下步骤：

S401：对双目视频中连续的第一对图像和第二对图像进行以下处理：针对所述第一对图像和所述第二对图像中的每个第一特征点，根据每个第一特征点在所述第一对图像和所述第二对图像中的坐标对，及所述双目视频对应的第一标定参数，确定每个第一特征点对应的第一运动矢量，并确定每个第一特征点的第一运动矢量方向及该第一对图像的第一运动幅值均值。

该双目视频对应每个时间点的每帧图像包括左、右两幅图像，因此针对每个时间点也就具有一对图像，即左右两幅图像，在本发明实施例中针对双目视频中连续的两帧图像进行以下处理。具体的，第一对图像和第二对图像可以为该双目视频中连续的任意两帧图像，而且，第一对图像为第二对图像的前一帧图像。其中，第一对图像可以包含第三左图和第三右图，第二对图像可以包含第四左图和第四右图。

当确定了第一对图像和第二对图像后，通过稀疏特征点匹配，确定每个特征点在第一对图像和第二对图像中的坐标，具体的，针对每个特征点，确定有该特征点在第一对图像中第三左图中的坐标，以及第三右图中的坐标，即确定了该特征点在第一对图像中的第三坐标对，并同样的，确定有该特征点在第二对图像中的第四坐标对。

例如，某第一特征点在第三左图、第三右图、第四左图和第四右图中对应的像素点在图像中的坐标分别为：和其中，由于该特征点，在第三左图和第三右图中对应的像素点的纵坐标相同，且在第四左图和第四右图中对应的像素点的纵坐标也相同，即，且为了表述方便，令此时，第三坐标对可以表示为第四坐标对可以表示为

在本发明实施例中，针对不同的双目视频，预先保存有不同的双目视频对应的第一标定参数。其中，所述第一标定参数为双目视频对应的双目相机的内外标定参数。对双目相机进行标定并获取第一标定参数的过程属于现有技术，在本发明实施例中对该过程不进行赘述。

根据双目相机的三维重建原理，以及该双目视频对应的双目相机的第一标定参数，可以利用第一特征点的第三坐标对，可以确定该第三坐标对对应相机坐标系下的第五三维坐标，并利用第一特征点的第四坐标对，确定该第四坐标对对应相机坐标系下的第六三维坐标。

具体地，已知第一标定参数，确定图像坐标系中的坐标对，与相机坐标系下三维坐标关系满足以下公式：假设某第一特征点为点q，其第三坐标对为第四坐标对为则该第一特征点的第三坐标对对应的第五三维坐标为：

同理，该第一特征点的第四坐标对对应的第六三维坐标为：

其中，B、、u₀和v₀为双目视频的第一标定参数中的具体参数，具体地，B为双目视频中两个相机的中心距、f为双目视频的焦距、u₀和v₀分别为图像坐标系的原点对应像素坐标系中的横坐标和纵坐标。

由于第一对图像和第二对图像分别为双目视频中连续的两帧图像，为了表述方便，假设第一对图像为双目视频中对应t₃时刻的图像，第二对图像为双目视频中对应t₄时刻的图像；则每个第一特征点的第五三维坐标和第六三维坐标分别为，该第一特征点在t₃时刻和t₄时刻对应的三维坐标。根据每个第一特征点的第五三维坐标和第六三维坐标，确定每个第一特征点对应的第一运动矢量的方法可以是，针对每个第一特征点，将该第一特征点的第五三维坐标作为起点，第六三维坐标作为终点，获取该第一特征点的第一运动矢量，进而获取每个第一特征点的第一运动矢量，其中每个第一特征点的第一运动矢量方向分别为其对应的第五三维坐标指向第六三维坐标的方向。

具体地，假设该第一对图像和第二对图像中共有n个第一特征点，其中，第i个第一特征点q_i的第五三维坐标为(X₅，Y₅，Z₅)，第六三维坐标为(X₆，Y₆，Z₆)；则该第一特征点的第一运动矢量为(dX_i，dY_i，dZ_i)，其中，dX_i＝X₆-X₅，dY_i＝Y₆-Y₅，dZ_i＝Z₆-Z₅。此时，该第一特征点qi的第一运动幅值fi可以通过以下公式计算：

针对n个第一特征点，在确定了每个第一特征点的第一运动幅值后，可以通过下述公式计算该第一对图像的第一运动幅值均值：

其中，n和i均为正整数，且满足i≤n。

S402：根据每个第一特征点的第一运动矢量方向投影到预设的网格空间对应的网格，确定该第一对图像的第一运动方向熵值。

当确定了每个特征点的第一运动矢量方向后，将每个特征点设置在正方体的中心，针对每个特征点，根据该特征点的第一运动矢量方向，确定该特征点的第一运动矢量方向投影到正方体网格空间对应哪个网格，即以正方体的中心为起点，该第一运动矢量方向为方向，确定一条直线，该直线与正方体网格空间的交点所在的网格，作为该第一运动矢量方向投影到的该预设的网格空间对应的网格。

第一特征点的第一运动矢量方向投影到预设的网格空间，确定每个第一特征点的第一运动矢量方向对应的网格后，根据每个网络对应的角度比例值，可以确定该第一对图像的第一运动方向熵值，例如可以将投影有第一运动矢量方向的每个网格对应的角度比例值的和作为该第一对图像的第一运动方向熵值。

S403：根据每个第一特征点在世界坐标系中的三维坐标投影到地面对应的地面网格的数量，确定该第一对图像在地面的第一影响面积。

因为已经获取了每个特征点在相机坐标系下的三维坐标，相机坐标系和世界坐标系的关系可以预知，因此根据每个第一特征点在相机坐标系下的第五三维坐标和第六三维坐标，可以在世界坐标系下分别获取与第五三维坐标和第六三维坐标对应的第七三维坐标和第八三维坐标。

将获取的每个第一特征点在世界坐标系下的第七三维坐标和第八三维坐标分别投影到地面上，并对投影到的地面网格进行标记，针对每个特征点，对其投影到地面上的被标记的地面网格的数量进行统计，根据统计得到的地面网格的数量，以及每个地面网格的面积，可以确定该特征点对应的投影面积，则根据第一对图像中每个特征点对应的投影面积的和，可以确定该第一对图像在地面的第一影响面积。

S404：针对每个第一对图像，判断每个第一对图像的第一运动幅值均值、第一运动方向熵值和第一影响面积是否均大于其对应的预设第一阈值，如果是，将该第一对图像标记为第一目标图像；根据被标记的连续的第一目标图像，确定每个第一时长。

在电子设备中预先保存有运动幅值均值阈值、运动方向熵值阈值和影响面积阈值，针对双目视频中的每个第一对图像，在获取该第一对图像的第一运动幅值均值第一运动方向熵值E和第一影响面积S后，首先判断该第一对图像的第一运动幅值均值第一运动方向熵值E和第一影响面积S是否分别大于运动幅值均值阈值、运动方向熵值阈值和影响面积阈值。

如果某个第一对图像的第一运动幅值均值大于运动幅值均值阈值、第一运动方向熵值E大于运动方向熵值阈值，并且第一影响面积S大于影响面积阈值，则将该第一对图像标记为目标图像，否则，不对第一对图像进行标记。

采用上述方法可以确定是否对每个第一对图像进行标记，当确定了每个第一目标图像后，该双目视频中连续帧的图像中可能存在多个第一目标图像，并且很可能存在连续的第一目标图像，因此可以确定每个图像组，根据每个图像组中包含的第一目标图像的数量，可以确定每个图像组对应的第一时长，其中每个图像组包括至少一帧第一目标图像。

例如，在该双目视频中，被标记为第一目标图像的图像分别为第二帧图像、第三帧图像、第四帧图像、第六帧图像、第八帧图像、第九帧图像等等，则可以确定第二帧图像、第三帧图像、第四帧图像为一个图像组，确定一个第一时长，第六帧图像为一个图像组，确定一个第一时长，第八帧图像、第九帧图像为另一个图像组，确定另一个第一时长。

S405：针对每个第一时长，根据该第一时长对应的每个第一目标图像，确定第一目标运动幅值均值、第一目标运动方向熵值和第一目标影响面积；根据预先训练完成的打架检测模型，及所述第一目标运动幅值均值、第一目标运动方向熵值、第一目标影响面积和该第一时长，确定第一时长对应的视频是否发生打架行为。

针对每个第一时长，在根据该第一时长对应的每个第一目标图像，确定第一目标运动幅值均值、第一目标运动方向熵值和第一目标影响面积时，可以有多种实现方式。例如：针对每个第一时长，可以根据每个第一目标图像的对应的第一运动幅值均值、第一运动方向熵值和第一影响面积，分别将第一运动幅值均值、第一运动方向熵值和第一影响面积中各自对应的最大值作为第一目标运动幅值均值、第一目标运动方向熵值和第一目标影响面积；或者根据每个第一目标图像的对应的第一运动幅值均值、第一运动方向熵值和第一影响面积，分别计算第一运动幅值均值的平均值、第一运动方向熵值的平均值和第一影响面积的平均值，并将其分别作为第一目标运动幅值均值、第一目标运动方向熵值和第一目标影响面积。

在确定第一时长对应的视频是否发生打架行为时，可以将第一目标运动幅值均值、第一目标运动方向熵值、第一目标影响面积和第一时长输入预先训练好的打架检测模型，该打架检测模型将会输出每个连续的第一目标图像发生打架行为的概率，当该概率大于预设的打架概率阈值时，确定当前输入模型的连续的第一目标图像对应的视频中发生了打架行为。

由于本发明实施例中通过针对双目视频中连续的两个图像中的每个第一特征点，根据该特征点在图像中的第三坐标对和第四坐标对，确定其在相机坐标系中的第五三维坐标和第六三维坐标，以及每个第一特征点在世界坐标系中的第七三维坐标和第八三维坐标，进而确定每个特征点的第一运动幅值均值、第一运动方向熵值和第一影响面积，针对每个第一对图像，判断每个第一对图像是否为第一目标图像，并将连续的第一目标图像确定每个第一时长，进而根据每个第一时长对应的第一目标运动幅值均值、第一目标运动方向熵值、第一目标影响面积、该第一时长输入预先训练好的打架检测模型，进而确定第一时长对应的视频是否发生打架行为。使该打架检测模型可以准确的获取三维场景中每个第一特征点的三维运动情况，能够以实际的物理尺寸准确获取真实的三维运动；通过确定第一时长对应的第一目标运动幅值均值、第一目标运动方向熵值、第一目标影响面积以及该第一时长，使打架检测模型可以基于三维运动矢量场(即场景流)对目标的三维运动情况进行分析，进而准确判断是否发生打架行为，提高了打架行为检测的准确性。

实施例6：

为了使打架检测模型更加准确的判断打架行为，在上述实施例的基础上，在本发明实施例中，确定每个第一特征点在所述第一对图像和所述第二对图像中的坐标对之前，所述方法还包括：

针对第一特征点集合中的每个第一特征点，根据第一对图像中第三左图的该第一特征点，确定在第三左图中与该第一特征点相邻的每个第二候选特征点；将每个第二候选特征点添加到候选集合中；针对候选集合中的每个第二候选特征点，根据所述视差图，确定该第二候选特征点在第三右图中对应的第四像素点，并分别根据该第二候选特征点及第四像素点，确定该第二候选特征点在第四左图和第四右图中对应的第五像素点和第六像素点；在第四左图中确定包含该第五像素点的第三邻域，并在第四右图中确定包含第六像素点的第四邻域，分别在所述第三邻域和第四邻域内确定与第二候选特征点和第四像素点匹配的第三目标像素点和第四目标像素点；确定第二候选特征点、第四像素点、第三目标像素点和第四目标像素点的相关性，判断该相关性是否大于设定的阈值，如果是，则确定第二候选特征点、第四像素点、第三目标像素点和第四目标像素点为第一目标特征点，将该第一特征点移出所述第一特征点集合，并将该第一目标特征点更新为第一特征点并添加到第一特征点集合中。

当通过稀疏特征点匹配，确定了第一对图像和第二对图像中对应的特征点后，可以将该特征点作为种子点，并且还可以围绕着种子点进行生长，确定更多的种子点，从而使打架检测模型能够更加准确的检测是否发生了打架行为。

在围绕着种子点进行生长时，具体的生长策略是遍历种子点的四邻域像素点，计算每个邻域像素点在其他三幅图像上对应的最相关的三个候选点。在针对种子点进行生长之前，为了方便进行后续操作，针对第一对图像的第三左图和第三右图，获取该第一对图像对应的视差图。

具体地，为了抑制光照变化的影响，在确定第一对图像对应的视差图之前可以对该第一对图像进行非参数变换(census变换)，并对census变换后的第一对图像采用经典的半全局立体匹配算法获取该第一对图像对应的视差图。具体地，获取视差图的过程为现有技术，本发明实施例在此不再赘述。

在围绕着种子点进行生长时，将种子点保存在第一特征点集合中，针对第一特征点集合中的每个第一特征点，确定该第一特征点是否能够生长出种子点。

将该第一特征点从该第一特征点集合中移出，针对该第一特征点在第三左图中的位置，确定在第三左图中与该第一特征点相邻的每个第二候选特征点，具体的是将以第一特征点为中心的四邻域像素点，作为与该第一特征点相邻的每个第二候选特征点，也就是说该第二候选特征点为该第三左图中位于第一特征点上、下、左、右的像素点。将确定的每个第二候选特征点添加到候选集合中，候选集合是进行种子点生长的中间集合，从候选集合中移出第二候选特征点，针对被移出的第二候选特征点，根据确定的该视差图，确定该第二候选特征点在第三右图中对应的第四像素点，并分别根据该第二候选特征点及第四像素点，确定该第二候选特征点在第四左图和第四右图中对应的第五像素点和第六像素点。具体参见图2所示。

分别在第四左图和第四右图中确定包含该第五像素点的第三邻域，和包含第六像素点的第四邻域，该第三邻域可以为第四左图中该第五像素点以及该第五像素点的四邻域像素点组成的集合；该第四邻域可以为第四右图中该第六像素点以及该第六像素点的四邻域像素点组成的集合；其中，第五像素点和第六像素点的四邻域像素点分别可以为位于该第五像素点和第六像素点上、下、左、右的像素点。分别在第三邻域和第四邻域内确定与第二候选特征点和第四像素点匹配的第五目标像素点和第六目标像素点，其中，在确定第三邻域和第四邻域内与第二候选特征点和第四像素点匹配的像素点时，可以采用现有技术的方法进行确定，本发明实施例在此不再赘述。

当确定了与第一候选特征点和第四像素点匹配的第三目标像素点和第四目标像素点后，确定第二候选特征点、第四像素点、第三目标像素点和第四目标像素点的相关性，当该相关性大于设定的阈值时，则确定第二候选特征点、第四像素点、第三目标像素点和第四目标像素点为第一目标特征点，并将该第一目标特征点更新为第一特征点并添加到第一特征点集合中。将该第一目标特征点更新到第一特征点集合中，以便确定该第一目标特征点是否能够生长出种子点。其中，该阈值可以调节种子点的置信度，可以按照实际需求设置该阈值的值，本发明实施例中可以将该阈值设定为0.8。

具体地，确定第二候选特征点、第四像素点、第三目标像素点和第四目标像素点的相关性时，可以根据下述公式进行计算：

其中，S_i·c为第二候选特征点、第四像素点、第三目标像素点和第四目标像素点的相关性；为第三左图中的第二候选特征点与第四左图中第三目标像素点的相关性；为第三右图中的第四像素点与第四右图中第四目标像素点的相关性；为第四左图中的第三目标像素点与第四右图中第四目标像素点的相关性。

当计算时，I_l(x，y)和I_r(x+dx，y+dy)分别代表第三左图中的第二候选特征点的灰度值与第四左图中第三目标像素点的灰度值；和分别为第二候选特征点的支持域内每个像素点的灰度值的平均值与第三目标像素点的支持域内每个像素点的灰度值的平均值。

当计算时，I_l(x，y)和I_r(x+dx，y+dy)分别代表第三右图中的第四像素点的灰度值与第四右图中第四目标像素点的灰度值；和分别为第四像素点的支持域内每个像素点的灰度值的平均值与第四目标像素点的支持域内每个像素点的灰度值的平均值。

当计算时，I_l(x，y)和I_r(x+dx，y+dy)分别代表第四左图中的第三目标像素点的灰度值与第四右图中第四目标像素点的灰度值；和分别为第三目标像素点的支持域内每个像素点的灰度值的平均值与第四目标像素点的支持域内每个像素点的灰度值的平均值。

为了提高打架行为检测的效率，在本发明实施例中，在确定第一对图像和第二对图像中的第一特征点之前，所述方法还包括：

针对第一对图像，判断该第一对图像之前是否包含至少两帧图像，如果包含，则将根据所述第一对图像的前一帧图像中的特征点，预测所述第一对图像和第二对图像中的第一特征点；否则，分别提取所述第一对图像和第二对图像中的稀疏特征点，通过稀疏特征点匹配，确定所述第一对图像和第二对图像中的第一特征点。

因此在本发明实施例中，还可以根据种子点生长过程结束后获取的每个第一特征点，通过现有的卡尔曼滤波等方法，预测双目视频中的第二对图像与其下一帧图像的种子点。此时在确定第二对图像与其下一帧图像的第一特征点时，便可以利用预测的第二对图像与其下一帧图像的种子点，采用与上述相同的方法进行种子点生长，进而获取第二对图像与其下一帧图像的第一特征点。

另外，在本发明实施例中，可以对该双目视频中的每连续的第一对图像和第二对图像进行预处理，即，可以根据该双目视频对应的双目标定参数对该第一对图像和第二对图像进行外极线校正，并获取校正后的第三左图、第三右图、第四左图和第四右图；针对校正后的第三左图、第三右图、第四左图和第四右图，分别获取其对应的灰度图像，即，获取第三灰度左图、第三灰度右图、第四灰度左图和第四灰度右图。

分别提取经过外极线校正后的第三灰度左图、第三灰度右图、第四灰度左图和第四灰度右图中的每个稀疏特征点，其中，在进行稀疏特征点提取时，可以采用尺度不变特征转换(Scale-invariant feature transform，SIFT)算法，即SIFT算法，或者采用ORB算法提取图像中的稀疏特征点。针对从第三灰度左图、第三灰度右图、第四灰度左图和第四灰度右图中提取到的每个稀疏特征点，进行稀疏特征点匹配。

通过稀疏特征点匹配，将第三灰度左图、第三灰度右图、第四灰度左图和第四灰度右图中匹配成功的每个稀疏特征点组，确定为每个第一特征点，进而根据每个稀疏特征点组，在第三灰度左图、第三灰度右图、第四灰度左图和第四灰度右图中对应的像素点在图像坐标系下的像素坐标，确定每个第一特征点在第三灰度左图、第三灰度右图、第四灰度左图和第四灰度右图中的坐标。

由于本发明实施例中，通过在第一对图像和第二对图像中，将特征点作为种子点，并且围绕种子点进行生长，获取更多种子点，进而获取更多的特征点。当场景中存在有较大幅度的运动时，由于违背光流计算的小位移假设，本发明实施例可以避免一般光流算法采用的平滑、逼近约束策略会产生较大的误差的问题。另外，通过种子点生长获取更多的特征点，可以使打架检测模型在基于三维运动矢量场(即场景流)对目标的三维运动情况进行分析时，更加真实的描述场景中目标的三维运动情况。

实施例7：

为了准确的确定每个第一对图像是否为第一目标图像，在上述实施例的基础上，在本发明实施例中，所述确定该第一对图像的第二一运动幅值均值包括：

根据每个第一特征点对应的第一运动矢量，获取每个第一特征点对应的第一运动幅值，提取大于预设第二阈值的第一运动幅值，根据提取的每个第一运动幅值，确定所述第一对图像的第一运动幅值均值。

本发明实施例中，为了剔除运动幅值较小的特征点对本打架检测模型造成的干扰，可以预先设置第二阈值，根据每个第一特征点对应的第一运动幅值，提取出第一运动幅值大于该第二阈值的第一运动幅值，并根据提取出的每个第一运动幅值，计算其对应的运动幅值均值，并将该运动幅值均值作为第一运动幅值均值。其中，该第二阈值可以根据实际需求进行设置。

具体地，为了使第一运动幅值均值更具有运动剧烈程度的代表性，也可以将每个第一特征点对应的第一运动幅值按从大到小的顺序进行排序，获取排序后的前w个第一运动幅值，并将所述w个第一运动幅值的均值作为所述第一运动幅值均值。其中，所述w为正整数。通过筛选出第一运动幅值大于预设第二阈值的第一运动幅值，并将筛选出的第一运动幅值的平均值作为第一运动幅值均值，使第一运动幅值均值更具有运动剧烈程度的代表性。

实施例8：

为了准确的确定每个第一对图像是否为第一目标图像，在上述实施例的基础上，在本发明实施例中，所述将每个第一特征点的第一运动矢量方向投影到预设的网格空间，根据第一特征点的第一运动矢量方向对应的网格，确定该第一对图像的第一运动方向熵值包括：

将所述每个目标第一特征点的第一运动矢量方向投影到预设的网格空间，根据所述每个目标第一特征点的第一运动矢量方向对应的网格，确定该第一对图像的第一运动方向熵值。

可以根据每个特征点确定第一运动方向熵值，但为了更加准确的确定每个第一对图像是否为第一目标图像，根据所述每个第一特征点对应的第一运动幅值，获取对应的第一运动幅值大于预设第三阈值的每个目标第一特征点，根据所述每个目标第一特征点的第一运动矢量方向对应的网格，确定该第一对图像的第一运动方向熵值。

具体地，可以参见图3A，其中，正方体为球体的内接正方体，将正方体的每个面划分为数量相同的多个正方形网格，并且每个面中划分的每个正方形网格的面积也相同。针对正方体，每个正方形网格对应的第二立体角范围可以预先确定，针对每个面，该面对应的第一立体角范围也可以预先确定，针对该正方体每个面上的每个正方形网格，根据该面中该正方形网格的第二立体角范围对应的第二差值与该面的第一立体角范围对应的第一差值的比值，可以确定该正方形网格对应的角度比例值。将正方体各个面上的每个正方形网格投影到其外接球体的球面上，获得图3B所示的网格空间，并将图3A中每个正方形网格对应的角度比例值作为图3B中对应的每个网格空间的角度比例值。具体地，计算立体角范围的方法为现有技术，本发明实施例在此不再赘述。

具体地，在划分正方形网格时，可以根据需求将正方体中的单个面划分为不同数量的正方形网格，当要求提高计算第一运动方向熵值的精确度时，可以在正方体中的单个面中划分较多数量的正方形网格；当要求提高计算第一运动方向熵值的速度时，可以在正方体中的单个面中划分较少数量的正方形网格。对此本领域技术人员可以根据实际需求自行设置。

由于获取的每个目标第一特征点对应的第一运动矢量方向可以是三维空间中的任意方向，为了获取每个第四目标特征点的运动矢量方向分布情况，将每个目标第一特征点的第一运动矢量方向投影到图3B所示的网格空间中，确定每个第一运动矢量方向投影到的网格，根据每个投影有第一运动矢量方向的网格对应的角度比例值，确定该第一对图像的第一运动方向熵值。

具体地，确定每个第一运动矢量方向投影到的网格时，可以针对每个目标第一特征点，以球心为起点，以该目标第一特征点的第一运动矢量方向为方向，确定一条直线，该直线与球体中网格空间的交点所在的网格，作为该第一运动矢量方向投影到该网格空间中对应的网格。针对每个目标第一特征点，统计该目标第一特征点的第一运动矢量方向投影到的网格的角度比例值。进而根据每个目标第一特征点的第一运动矢量方向投影到的每个网格的角度比例值，确定该第一对图像的第一运动方向熵值。

具体地，假设确定的目标第一特征点的数量为m，可以采用下述公式计算该第一对图像的第一运动方向熵值E。

其中，m和h均为正整数，且满足h≤m，h表示第h个目标第一特征点，p_h表示第h个目标第一特征点的第一运动矢量方向投影到的网格的角度比例值。

相应的，在确定第一对图像在地面的第一影响面积时，所述分别获取每个第一特征点在世界坐标系中的第七三维坐标和第八三维坐标，将每个第一特征点的第七三维坐标和第八三维坐标投影到地面，根据每个第七三维坐标和第八三维坐标所对应的地面网格的数量，确定该第一对图像在地面的第一影响面积包括：

本发明实施例中为了更加准确的确定每个第一对图像是否为第一目标图像，在获取该第一对图像在地面的第一影响面积时，根据上述筛选出的每个目标第一特征点在世界坐标系中的第七三维坐标和第八三维坐标投影到地面上对应的地面网格的数量，确定该第一对图像在地面的第一影响面积。

在划分地面网格时，可以将地面网格划分为面积相等的正方形网格，且每个正方形网格的面积可以在4平方厘米至25平方厘米之间。具体地，在确定该第一对图像在地面的第一影响面积时，可以对每个目标第一特征点的第七三维坐标和第八三维坐标投影到地面上对应的地面网格进行标记，确定被标记的地面网格中的最大连通域，进而将该最大连通域中包含的地面网格的数量与每个地面网格的面积的乘积，作为该第一对图像在地面的第一影响面积。

实施例9：

图5为本发明实施例提供的一种视频中打架行为检测装置的结构示意图，所述打架行为检测装置包括：

获取模块51，用于对双目视频中连续的第一对图像和第二对图像进行以下处理：针对所述第一对图像和所述第二对图像中的每个第一特征点，根据每个第一特征点在所述第一对图像和所述第二对图像中的坐标对，及所述双目视频对应的第一标定参数，确定每个第一特征点对应的第一运动矢量，并确定每个第一特征点的第一运动矢量方向及该第一对图像的第一运动幅值均值；根据每个第一特征点的第一运动矢量方向投影到预设的网格空间对应的网格，确定该第一对图像的第一运动方向熵值；根据每个第一特征点在世界坐标系中的三维坐标投影到地面对应的地面网格的数量，确定该第一对图像在地面的第一影响面积；

时长确定模块52，用于针对每个第一对图像，判断该第一对图像的第一运动幅值均值、第一运动方向熵值和第一影响面积是否均大于其对应的预设第一阈值，如果是，将该第一对图像标记为第一目标图像；根据被标记的连续的第一目标图像，确定每个第一时长；

打架行为确定模块53，用于针对每个第一时长，根据该第一时长对应的每个第一目标图像，确定第一目标运动幅值均值、第一目标运动方向熵值和第一目标影响面积；根据预先训练完成的打架检测模型，及所述第一目标运动幅值均值、第一目标运动方向熵值、第一目标影响面积和该第一时长，确定第一时长对应的视频是否发生打架行为。

具体地，所述打架行为检测装置还包括：

训练模块54，用于对样本双目视频中每连续的第一对样本图像和第二对样本图像进行以下处理：针对所述第一对样本图像和所述第二对样本图像中的每个第二特征点，根据每个第二特征点在所述第一对样本图像和所述第二对样本图像中的坐标对，及所述样本双目视频对应的第二标定参数，确定每个第二特征点对应的第二运动矢量，并确定每个第二特征点的第二运动矢量方向及该第一对样本图像的第二运动幅值均值；根据每个第二特征点的第二运动矢量方向投影到预设的网格空间对应的网格，确定该第一对样本图像的第二运动方向熵值；分别获取每个第二特征点在世界坐标系中的三维坐标投影到地面对应的地面网格的数量，确定该第一对样本图像在地面的第二影响面积；针对每个第一对样本图像，判断该第一对样本图像的第二运动幅值均值、第二运动方向熵值和第二影响面积是否均大于其对应的预设第二阈值，如果是，将该第一对样本图像标记为第二目标图像；根据被标记的连续的第二目标图像，确定每个第二时长；针对每个第二时长，根据该第二时长对应的每个第二目标图像，确定第二目标运动幅值均值、第二目标运动方向熵值和第二目标影响面积，根据第二目标运动幅值均值、第二目标运动方向熵值、第二目标影响面积、该第二时长以及所述样本双目视频中每帧图像是否发生打架行为的标识信息，对所述打架检测模型进行训练。

具体地，所述训练模块54，还用于确定每个第二特征点在所述第一对样本图像和所述第二对样本图像中的坐标对之前，根据第一对样本图像的第一左图和第一右图，获取第一对样本图像对应的视差图；针对第二特征点集合中的每个第二特征点，根据第一对样本图像中第一左图的该第二特征点，确定在第一左图中与该第二特征点相邻的每个第一候选特征点；将每个第一候选特征点添加到候选集合中；针对候选集合中的每个第一候选特征点，根据所述视差图，确定该第一候选特征点在第一右图中对应的第一像素点，并分别根据该第一候选特征点及第一像素点，确定该第一候选特征点在第二对样本图像的第二左图和第二右图中对应的第二像素点和第三像素点；在第二左图中确定包含该第二像素点的第一邻域，并在第二右图中确定包含第三像素点的第二邻域，分别在所述第一邻域和第二邻域内确定与第一候选特征点和第一像素点匹配的第一目标像素点和第二目标像素点；判断第一候选特征点、第一像素点、第一目标像素点和第二目标像素点的相关性是否大于设定的阈值，如果是，则确定第一候选特征点、第一像素点、第一目标像素点和第二目标像素点为第二目标特征点，将该第二特征点移出所述第二特征点集合，并将该第二目标特征点更新为第二特征点并添加到第二特征点集合中。

具体地，所述训练模块54，具体用于根据每个第二特征点对应的第二运动矢量，获取每个第二特征点对应的第二运动幅值；提取大于预设第二阈值的每个第二运动幅值，根据所述提取的每个所述第二运动幅值，确定所述第一对样本图像的第二运动幅值均值。

具体地，所述训练模块54，具体用于根据所述每个第二特征点对应的第二运动幅值，获取对应的第二运动幅值大于预设第三阈值的每个目标第二特征点；并将所述每个目标第二特征点的第二运动矢量方向投影到预设的网格空间，根据对应的网格，确定该第一对样本图像的第二运动方向熵值。

具体地，所述训练模块54，具体用于根据所述每个第目标二特征点，分别获取每个目标第二特征点在世界坐标系中的第三三维坐标和第四三维坐标，将每个目标第二特征点的第三三维坐标和第四三维坐标投影到地面，根据每个第三三维坐标和第四三维坐标所对应的地面网格的数量，确定该第一对样本图像在地面的第二影响面积。

具体地，所述获取模块51，还用于在确定每个第一特征点在所述第一对图像和所述第二对图像中的坐标对之前，根据第一对图像的第三左图和第三右图，获取第一对图像对应的视差图；针对第一特征点集合中的每个第一特征点，根据第一对图像中第三左图的该第一特征点，确定在第三左图中与该第一特征点相邻的每个第二候选特征点；将每个第二候选特征点添加到候选集合中；针对候选集合中的每个第二候选特征点，根据所述视差图，确定该第二候选特征点在第三右图中对应的第四像素点，并分别根据该第二候选特征点及第四像素点，确定该第二候选特征点在第二对图像的第四左图和第四右图中对应的第五像素点和第六像素点；在第四左图中确定包含该第五像素点的第三邻域，并在第四右图中确定包含第六像素点的第四邻域，分别在所述第三邻域和第四邻域内确定与第二候选特征点和第四像素点匹配的第五目标像素点和第六目标像素点；判断第二候选特征点、第四像素点、第三目标像素点和第四目标像素点的相关性是否大于设定的阈值，如果是，则确定第二候选特征点、第四像素点、第三目标像素点和第四目标像素点为第一目标特征点，将该第一特征点移出所述第一特征点集合，并将该第一目标特征点更新为第一特征点并添加到第一特征点集合中。

具体地，所述获取模块51，具体用于根据每个第一特征点对应的第一运动矢量，获取每个第一特征点对应的第一运动幅值，提取大于预设第二阈值的第一运动幅值，根据所述提取的每个第一运动幅值，确定所述第一对图像的第一运动幅值均值。

具体地，所述获取模块51，具体用于根据所述每个第一特征点对应的第一运动幅值，获取对应的第一运动幅值大于预设第三阈值的每个目标第一特征点；并将所述每个目标第一特征点的第一运动矢量方向投影到预设的网格空间，根据对应的网格，确定该第一对图像的第一运动方向熵值。

具体地，所述获取模块51，具体用于根据所述每个目标第一特征点，分别获取每个目标第一特征点在世界坐标系中的第七三维坐标和第八三维坐标，将每个目标第一特征点的第七三维坐标和第八三维坐标投影到地面，根据每个第七三维坐标和第八三维坐标所对应的地面网格的数量，确定该第一对图像在地面的第一影响面积。

本发明实施例中通过针对双目视频中连续的两个图像中的每个第一特征点，获取该第一特征点的第三坐标对和第四坐标对、该第三坐标对和第四坐标对对应相机坐标系中的第五三维坐标和第六三维坐标，以及每个第一特征点在世界坐标系中的第七三维坐标和第八三维坐标，进而确定每个特征点的第一运动幅值均值、第一运动方向熵值和第一影响面积，针对每个第一对图像，判断该第一对图像是否为第一目标图像，并根据连续的第一目标图像确定每个第一时长，进而根据每个第一时长对应的第一目标运动幅值均值、第一目标运动方向熵值、第一目标影响面积、该第一时长以及预先训练完成的打架检测模型，确定第一时长对应的视频是否发生打架行为。使该打架检测模型可以准确的获取三维场景中每个第一特征点的三维运动情况，能够以实际的物理尺寸准确获取真实的三维运动；通过确定第一时长对应的第一目标运动幅值均值、第一目标运动方向熵值、第一目标影响面积以及该第一时长，使打架检测模型可以基于三维运动矢量场(即场景流)对目标的三维运动情况进行分析，进而准确判断是否发生打架行为，提高了打架行为检测的准确性。

实施例10：

在上述各实施例的基础上，本发明实施例中还提供了一种电子设备，如图6所示，包括：处理器61、通信接口62、存储器63和通信总线64，其中，处理器61，通信接口62，存储器63通过通信总线64完成相互间的通信；

所述存储器63中存储有计算机程序，当所述程序被所述处理器61执行时，使得所述处理器61执行如下步骤：

对双目视频中连续的第一对图像和第二对图像进行以下处理：针对所述第一对图像和所述第二对图像中的每个第一特征点，根据每个第一特征点在所述第一对图像和所述第二对图像中的坐标对，及所述双目视频对应的第一标定参数，确定每个第一特征点对应的第一运动矢量，并确定每个第一特征点的第一运动矢量方向及该第一对图像的第一运动幅值均值；根据每个第一特征点的第一运动矢量方向投影到预设的网格空间对应的网格，确定该第一对图像的第一运动方向熵值；根据每个第一特征点在世界坐标系中的坐标投影到地面对应的地面网格的数量，确定该第一对图像在地面的第一影响面积；

针对每个第一时长，根据该第一时长对应的每个第一目标图像，确定第一目标运动幅值均值、第一目标运动方向熵值和第一目标影响面积；根据预先训练完成的打架检测模型，及所述第一目标运动幅值均值、第一目标运动方向熵值、第一目标影响面积和该第一时长，确定第一时长对应的视频是否发生打架行为。基于同一发明构思，本发明实施例中还提供了一种电子设备，由于上述电子设备解决问题的原理与打架行为检测方法相似，因此上述电子设备的实施可以参见方法的实施，重复之处不再赘述。

本发明实施例提供的电子设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、图像采集设备和图像处理设备等。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口62用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

在本发明实施例中处理器执行存储器上所存放的程序时，实现对双目视频中连续的第一对图像和第二对图像进行以下处理：针对所述第一对图像和所述第二对图像中的每个第一特征点，根据每个第一特征点在所述第一对图像和所述第二对图像中的坐标对，及所述双目视频对应的第一标定参数，确定每个第一特征点对应的第一运动矢量，并确定每个第一特征点的第一运动矢量方向及该第一对图像的第一运动幅值均值；根据每个第一特征点的第一运动矢量方向投影到预设的网格空间对应的网格，确定该第一对图像的第一运动方向熵值；根据每个第一特征点在世界坐标系中的坐标投影到地面对应的地面网格的数量，确定该第一对图像在地面的第一影响面积；针对每个第一对图像，判断该第一对图像的第一运动幅值均值、第一运动方向熵值和第一影响面积是否均大于其对应的预设第一阈值，如果是，将该第一对图像标记为第一目标图像；根据被标记的连续的第一目标图像，确定每个第一时长；针对每个第一时长，根据该第一时长对应的每个第一目标图像，确定第一目标运动幅值均值、第一目标运动方向熵值和第一目标影响面积；根据预先训练完成的打架检测模型，及所述第一目标运动幅值均值、第一目标运动方向熵值、第一目标影响面积和该第一时长，确定第一时长对应的视频是否发生打架行为。

由于本发明实施例中通过针对双目视频中连续的两个图像中的每个第一特征点，获取该第一特征点的第三坐标对和第四坐标对、该第三坐标对和第四坐标对对应相机坐标系中的第五三维坐标和第六三维坐标，以及每个第一特征点在世界坐标系中的第七三维坐标和第八三维坐标，进而确定每个特征点的第一运动幅值均值、第一运动方向熵值和第一影响面积，针对每个第一对图像，判断该第一对图像是否为第一目标图像，并根据连续的第一目标图像确定每个第一时长，进而根据每个第一时长对应的第一目标运动幅值均值、第一目标运动方向熵值、第一目标影响面积、该第一时长以及预先训练完成的打架检测模型，确定第一时长对应的视频是否发生打架行为。使该打架检测模型可以准确的获取三维场景中每个第一特征点的三维运动情况，能够以实际的物理尺寸准确获取真实的三维运动；通过确定第一时长对应的第一目标运动幅值均值、第一目标运动方向熵值、第一目标影响面积以及该第一时长，使打架检测模型可以基于三维运动矢量场(即场景流)对目标的三维运动情况进行分析，进而准确判断是否发生打架行为，提高了打架行为检测的准确性。

实施例11：

在上述各实施例的基础上，本发明实施例还提供了一种计算机存储可读存储介质，所述计算机可读存储介质内存储有可由电子设备执行的计算机程序，当所述程序在所述电子设备上运行时，使得所述电子设备执行时实现如下步骤：

基于同一发明构思，本发明实施例中还提供了一种计算机可读存储介质，由于处理器在执行上述计算机可读存储介质上存储的计算机程序时解决问题的原理与打架行为检测方法相似，因此处理器在执行上述计算机可读存储介质存储的计算机程序的实施可以参见方法的实施，重复之处不再赘述。

上述计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器如软盘、硬盘、磁带、磁光盘(MO)等、光学存储器如CD、DVD、BD、HVD等、以及半导体存储器如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD)等。

在本发明实施例中提供的计算机可读存储介质内存储计算机程序，计算机程序被处理器执行时实现对双目视频中连续的第一对图像和第二对图像进行以下处理：针对所述第一对图像和所述第二对图像中的每个第一特征点，根据每个第一特征点在所述第一对图像和所述第二对图像中的坐标对，及所述双目视频对应的第一标定参数，确定每个第一特征点对应的第一运动矢量，并确定每个第一特征点的第一运动矢量方向及该第一对图像的第一运动幅值均值；根据每个第一特征点的第一运动矢量方向投影到预设的网格空间对应的网格，确定该第一对图像的第一运动方向熵值；根据每个第一特征点在世界坐标系中的坐标投影到地面对应的地面网格的数量，确定该第一对图像在地面的第一影响面积；针对每个第一对图像，判断该第一对图像的第一运动幅值均值、第一运动方向熵值和第一影响面积是否均大于其对应的预设第一阈值，如果是，将该第一对图像标记为第一目标图像；根据被标记的连续的第一目标图像，确定每个第一时长；针对每个第一时长，根据该第一时长对应的每个第一目标图像，确定第一目标运动幅值均值、第一目标运动方向熵值和第一目标影响面积；根据预先训练完成的打架检测模型，及所述第一目标运动幅值均值、第一目标运动方向熵值、第一目标影响面积和该第一时长，确定第一时长对应的视频是否发生打架行为。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者一个操作与另一个实体或者另一个操作区分开来，而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种视频中打架行为检测方法，其特征在于，所述打架行为检测方法包括：

对双目视频中连续的第一对图像和第二对图像进行以下处理：针对所述第一对图像和所述第二对图像中的每个第一特征点，根据每个第一特征点在所述第一对图像和所述第二对图像中的坐标对，及所述双目视频对应的第一标定参数，确定每个第一特征点对应的第一运动矢量，并确定每个第一特征点的第一运动矢量方向及该第一对图像的第一运动幅值均值；根据每个第一特征点的第一运动矢量方向投影到预设的网格空间对应的网格，确定该第一对图像的第一运动方向熵值；根据每个第一特征点在世界坐标系中的三维坐标投影到地面对应的地面网格的数量，确定该第一对图像在地面的第一影响面积；

2.如权利要求1所述的方法，其特征在于，所述打架检测模型的训练过程包括：

对样本双目视频中每连续的第一对样本图像和第二对样本图像进行以下处理：针对所述第一对样本图像和所述第二对样本图像中的每个第二特征点，根据每个第二特征点在所述第一对样本图像和所述第二对样本图像中的坐标对，及所述样本双目视频对应的第二标定参数，确定每个第二特征点对应的第二运动矢量，并确定每个第二特征点的第二运动矢量方向及该第一对样本图像的第二运动幅值均值；根据每个第二特征点的第二运动矢量方向投影到预设的网格空间对应的网格，确定该第一对样本图像的第二运动方向熵值；根据每个第二特征点在世界坐标系中的坐标投影到地面对应的地面网格的数量，确定该第一对样本图像在地面的第二影响面积；

3.如权利要求2所述的方法，其特征在于，确定每个第二特征点在所述第一对样本图像和所述第二对样本图像中的坐标对之前，所述方法还包括：

4.如权利要求2所述的方法，其特征在于，所述确定该第一对样本图像的第二运动幅值均值包括：

5.如权利要求2所述的方法，其特征在于，所述将每个第二特征点的第二运动矢量方向投影到预设的网格空间，确定该第一对样本图像的第二运动方向熵值包括：

6.如权利要求5所述的方法，其特征在于，所述根据每个第二特征点在世界坐标系中的坐标投影到地面对应的地面网格的数量，确定该第一对样本图像在地面的第二影响面积包括：

7.如权利要求1所述的方法，其特征在于，确定每个第一特征点在所述第一对图像和所述第二对图像中的坐标对之前，所述方法还包括：

8.如权利要求1所述的方法，其特征在于，所述确定该第一对图像的第一运动幅值均值包括：

9.如权利要求1所述的方法，其特征在于，所述根据每个第一特征点的第一运动矢量方向投影到预设的网格空间，确定该第一对图像的第一运动方向熵值包括：

10.如权利要求9所述的方法，其特征在于，所述根据每个第一特征点在世界坐标系中的坐标投影到地面对应的地面网格的数量，确定该第一对图像在地面的第一影响面积包括：

11.一种视频中打架行为检测装置，其特征在于，所述打架行为检测装置包括：

12.如权利要求11所述的装置，其特征在于，所述打架行为检测装置还包括：

13.如权利要求12所述的装置，其特征在于，所述训练模块，还用于确定每个第二特征点在所述第一对样本图像和所述第二对样本图像中的坐标对之前，根据第一对样本图像的第一左图和第一右图，获取第一对样本图像对应的视差图；针对第二特征点集合中的每个第二特征点，根据第一对样本图像中第一左图的该第二特征点，确定在第一左图中与该第二特征点相邻的每个第一候选特征点；将每个第一候选特征点添加到候选集合中；针对候选集合中的每个第一候选特征点，根据所述视差图，确定该第一候选特征点在第一右图中对应的第一像素点，并分别根据该第一候选特征点及第一像素点，确定该第一候选特征点在第二对样本图像的第二左图和第二右图中对应的第二像素点和第三像素点；在第二左图中确定包含该第二像素点的第一邻域，并在第二右图中确定包含第三像素点的第二邻域，分别在所述第一邻域和第二邻域内确定与第一候选特征点和第一像素点匹配的第一目标像素点和第二目标像素点；判断第一候选特征点、第一像素点、第一目标像素点和第二目标像素点的相关性是否大于设定的阈值，如果是，则确定第一候选特征点、第一像素点、第一目标像素点和第二目标像素点为第二目标特征点，将该第二特征点移出所述第二特征点集合，并将该第二目标特征点更新为第二特征点并添加到第二特征点集合中。

14.如权利要求12所述的装置，其特征在于，所述训练模块，具体用于根据每个第二特征点对应的第二运动矢量，获取每个第二特征点对应的第二运动幅值；提取大于预设第二阈值的每个第二运动幅值，根据所述提取的每个所述第二运动幅值，确定所述第一对样本图像的第二运动幅值均值。

15.如权利要求12所述的装置，其特征在于，所述训练模块，具体用于根据所述每个第二特征点对应的第二运动幅值，获取对应的第二运动幅值大于预设第三阈值的每个目标第二特征点；并将所述每个目标第二特征点的第二运动矢量方向投影到预设的网格空间，根据对应的网格，确定该第一对样本图像的第二运动方向熵值。

16.如权利要求15所述的装置，其特征在于，所述训练模块，具体用于根据所述每个第目标二特征点，分别获取每个目标第二特征点在世界坐标系中的第三三维坐标和第四三维坐标，将每个目标第二特征点的第三三维坐标和第四三维坐标投影到地面，根据每个第三三维坐标和第四三维坐标所对应的地面网格的数量，确定该第一对样本图像在地面的第二影响面积。

17.如权利要求11所述的装置，其特征在于，所述获取模块，还用于在确定每个第一特征点在所述第一对图像和所述第二对图像中的坐标对之前，根据第一对图像的第三左图和第三右图，获取第一对图像对应的视差图；针对第一特征点集合中的每个第一特征点，根据第一对图像中第三左图的该第一特征点，确定在第三左图中与该第一特征点相邻的每个第二候选特征点；将每个第二候选特征点添加到候选集合中；针对候选集合中的每个第二候选特征点，根据所述视差图，确定该第二候选特征点在第三右图中对应的第四像素点，并分别根据该第二候选特征点及第四像素点，确定该第二候选特征点在第二对图像的第四左图和第四右图中对应的第五像素点和第六像素点；在第四左图中确定包含该第五像素点的第三邻域，并在第四右图中确定包含第六像素点的第四邻域，分别在所述第三邻域和第四邻域内确定与第二候选特征点和第四像素点匹配的第五目标像素点和第六目标像素点；判断第二候选特征点、第四像素点、第三目标像素点和第四目标像素点的相关性是否大于设定的阈值，如果是，则确定第二候选特征点、第四像素点、第三目标像素点和第四目标像素点为第一目标特征点，将该第一特征点移出所述第一特征点集合，并将该第一目标特征点更新为第一特征点并添加到第一特征点集合中。

18.如权利要求11所述的装置，其特征在于，所述获取模块，具体用于根据每个第一特征点对应的第一运动矢量，获取每个第一特征点对应的第一运动幅值，提取大于预设第二阈值的第一运动幅值，根据所述提取的每个第一运动幅值，确定所述第一对图像的第一运动幅值均值。

19.如权利要求11所述的装置，其特征在于，所述获取模块，具体用于根据所述每个第一特征点对应的第一运动幅值，获取对应的第一运动幅值大于预设第三阈值的每个目标第一特征点；并将所述每个目标第一特征点的第一运动矢量方向投影到预设的网格空间，根据对应的网格，确定该第一对图像的第一运动方向熵值。

20.如权利要求19所述的装置，其特征在于，所述获取模块，具体用于根据所述每个目标第一特征点，分别获取每个目标第一特征点在世界坐标系中的第七三维坐标和第八三维坐标，将每个目标第一特征点的第七三维坐标和第八三维坐标投影到地面，根据每个第七三维坐标和第八三维坐标所对应的地面网格的数量，确定该第一对图像在地面的第一影响面积。

21.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-10任一项所述的方法步骤。

22.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-10任一项所述的方法步骤。