CN116630866A

CN116630866A - 音视频雷达融合的异常事件监控方法、装置、设备及介质

Info

Publication number: CN116630866A
Application number: CN202310907807.2A
Authority: CN
Inventors: 翟葆朔; 李亚洲; 刘宏炜; 刘贺
Original assignee: China Telecom Digital City Technology Co ltd
Current assignee: China Telecom Digital City Technology Co ltd
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2023-08-22
Anticipated expiration: 2043-07-24
Also published as: CN116630866B

Abstract

本发明提供了一种音视频雷达融合的异常事件监控方法、装置、设备及介质，包括：获取当前场景的多元数据集合；其中，多元数据集合包括音频数据、视频数据和点云数据；通过预先训练的异常事件检测网络，根据视频数据的目标视频特征信息和点云数据的目标点云特征信息确定第一融合特征，根据音频数据的音频特征信息和第一融合特征确定第二融合特征，并基于第二融合特征确定当前场景的异常事件检测结果。本发明可以对不同场景下的多种类型异常事件进行检测，减少因环境因素对异常事件检测的影响，提高异常事件检测的准确性。

Description

音视频雷达融合的异常事件监控方法、装置、设备及介质

技术领域

本发明涉及AI（Artificial Intelligence，人工智能）技术领域，尤其是涉及一种音视频雷达融合的异常事件监控方法、装置、设备及介质。

背景技术

目前，现有的视频监控设备在雨雪、大雾等能见度较低的情况下通常很难对环境中的异常事件进行检测。此外，现有的音视频检测异常事件的技术通常只能应用于特定的场景下，由于不同场景下的异常事件的定义可能会不同，因此对于不同场景下的异常事件没有很好的通用性。例如游乐场中的尖叫声通常不能定义为异常事件，但是车站等场景下的尖叫声一般会认为是异常事件。综上所述，现有的监控技术难以准确地对复杂环境的异常事件进行检测，而且针对不同监控场景的通用性较差。

发明内容

有鉴于此，本发明的目的在于提供一种音视频雷达融合的异常事件监控方法、装置、设备及介质，可以对不同场景下的多种类型异常事件进行检测，减少因环境因素对异常事件检测的影响，提高异常事件检测的准确性。

第一方面，本发明实施例提供了一种音视频雷达融合的异常事件监控方法，包括：

获取当前场景的多元数据集合；其中，所述多元数据集合包括音频数据、视频数据和点云数据；

通过预先训练的异常事件检测网络，根据所述视频数据的目标视频特征信息和所述点云数据的目标点云特征信息确定第一融合特征，根据所述音频数据的音频特征信息和所述第一融合特征确定第二融合特征，并基于所述第二融合特征确定所述当前场景的异常事件检测结果。

在一种实施方式中，所述异常事件检测网络包括雷视融合子网络，所述雷视融合子网络包括雷视特征提取模块和雷视特征融合模块；

根据所述视频数据的目标视频特征信息和所述点云数据的目标点云特征信息确定第一融合特征，包括：

通过所述雷视特征提取模块，提取所述视频数据对应的多个层级的目标视频特征信息，以及提取所述点云数据对应的多个层级的目标点云特征信息；

通过所述雷视特征融合模块，对每个层级的所述目标视频特征信息和每个层级的所述目标点云特征信息进行同层级特征融合和不同层级特征融合，得到第一融合特征。

在一种实施方式中，所述雷视特征提取模块包括图像特征提取单元和点云特征提取单元，所述图像特征提取单元和所述点云特征提取单元均包括多个层级的第一特征提取子单元和多个层级的第二特征提取子单元，当前层级的第一特征提取子单元的输入端与前一层级的第一特征提取子单元的输出端连接，所述当前层级的第一特征提取子单元的输出端与后一层级的第一特征提取子单元的输入端和当前层级的第二特征提取子单元的输入端连接；

提取所述视频数据对应的多个层级的目标视频特征信息，包括：

通过所述当前层级的所述第一特征提取子单元，对所述前一层级的视频特征向量进行特征提取，得到所述当前层级的视频特征向量；

通过所述当前层级的所述第二特征提取子单元，对所述当前层级的视频特征向量进行特征提取，得到所述当前层级的目标视频特征信息。

在一种实施方式中，所述第一特征提取子单元包括并行的卷积层和空洞卷积，所述第二特征提取子单元包括特征金字塔层。

在一种实施方式中，所述雷视特征融合模块包括第一特征融合单元和第二特征融合单元；

对每个层级的所述目标视频特征信息和每个层级的所述目标点云特征信息进行同层级特征融合和不同层级特征融合，得到第一融合特征，包括：

通过所述第一特征融合单元，分别对每个层级的所述目标视频特征信息和每个层级的所述目标点云特征信息进行同层级特征融合，得到中间融合特征；

通过所述第二特征融合单元，对所述中间融合特征进行第一卷积操作得到第一卷积操作结果，对所述第一卷积操作结果执行至少两次第二卷积操作得到第二卷积操作结果，将所述第一卷积操作结果和所述第二卷积操作结果进行融合，以实现不同层级特征融合，得到第一融合特征。

在一种实施方式中，所述第一特征融合单元包括多个层级的特征融合子单元，当前层级的所述特征融合子单元的输入端与后一层级的所述特征融合子单元的输出端、所述当前层级的第一特征提取子单元的输出端和所述当前层级的第二特征提取子单元的输出端连接；

分别对每个层级的所述目标视频特征信息和每个层级的所述目标点云特征信息进行同层级特征融合，得到中间融合特征，包括：

通过所述当前层级的所述特征融合子单元，基于后一层级的所述特征融合子单元的输出数据、所述当前层级的目标视频特征信息和所述当前层级的目标点云特征信息进行融合，以实现同层级特征融合，得到中间融合特征。

在一种实施方式中，所述异常事件检测网络还包括多元数据融合子网络，所述多元数据融合子网络包括音频特征提取模块和多元数据融合模块；根据所述音频数据的音频特征信息和所述第一融合特征确定第二融合特征，包括：

通过所述音频特征提取模块，提取所述音频数据对应的音频特征信息；

通过所述多元数据融合模块，对所述音频特征信息和所述第一融合特征进行横向融合，得到第二融合特征；

所述异常事件检测网络还包括异常事件检测子网络；基于所述第二融合特征确定所述当前场景的异常事件检测结果，包括：

通过所述异常事件检测子网络，基于所述第二融合特征确定所述当前场景的异常事件检测结果。

在一种实施方式中，所述方法还包括：

如果所述异常事件检测结果表征所述当前场景发生异常事件，则基于所述异常事件检测结果进行预警；

如果所述异常事件检测结果表征所述当前场景未发生异常事件，则丢弃所述异常事件检测结果。

第二方面，本发明实施例还提供一种音视频雷达融合的异常事件监控装置，包括：

数据获取模块，用于获取当前场景的多元数据集合；其中，所述多元数据集合包括音频数据、视频数据和点云数据；

异常事件检测模块，用于通过预先训练的异常事件检测网络，根据所述视频数据的目标视频特征信息和所述点云数据的目标点云特征信息确定第一融合特征，根据所述音频数据的音频特征信息和所述第一融合特征确定第二融合特征，并基于所述第二融合特征确定所述当前场景的异常事件检测结果。

第三方面，本发明实施例还提供一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机可执行指令，所述处理器执行所述计算机可执行指令以实现第一方面提供的任一项所述的方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现第一方面提供的任一项所述的方法。

本发明实施例提供的一种音视频雷达融合的异常事件监控方法、装置、设备及介质，首先获取当前场景的多元数据集合（包括音频数据、视频数据和点云数据），再通过预先训练的异常事件检测网络，根据视频数据的目标视频特征信息和点云数据的目标点云特征信息确定第一融合特征，以及根据音频数据的音频特征信息和第一融合特征确定第二融合特征，最后即可基于第二融合特征确定当前场景的异常事件检测结果。上述方法采集当前场景下的音频数据、视频数据、点云数据等多元数据集合，将多元数据集合输入至异常事件检测网络，即可通过异常事件检测网络对当前场景是否发生异常事件进行检测，该异常事件检测网络可以将音频数据、视频数据、点云数据的特征信息进行融合，以实现对不同场景下的多种类型异常事件进行检测，减少因环境因素对异常事件检测的影响，提高异常事件检测的准确性；另外，本发明实施例融合视频数据的目标视频特征信息和点云数据的目标点云特征信息，实现了雷视融合，可以减少天气以及环境的影响，通过视觉和雷达的互补，可实现全天候、各类恶劣天气环境下以及不同场景下的异常事件的监测，进一步提高异常事件检测的准确性。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种音视频雷达融合的异常事件监控方法的流程示意图；

图2为本发明实施例提供的一种异常事件检测网络的结构示意图；

图3为本发明实施例提供的一种雷视特征提取模块的结构示意图；

图4为本发明实施例提供的一种音视频雷达融合的异常事件监控方法的技术路线图；

图5为本发明实施例提供的另一种音视频雷达融合的异常事件监控方法的流程示意图；

图6为本发明实施例提供的一种音视频雷达融合的异常事件监控装置的结构示意图；

图7为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着传感器技术的不断发展和人们安全意识的提高，基于音视频的监控***在人们的工作和生活中起着日益重要的作用。例如，在智能家居中，人们会部署摄像头来监控是否有人非法进入；在智能办公室中，人们会部署摄像头来检测异常事件的发生；在婴幼儿监控***中，通常会通过智能摄像头查看婴幼儿的状态等。

随着监控***的普及，单纯的依靠视频的监控***暴露出了越来越多的不足：第一，视频监控***容易受光线的影响。室外监控中，阴天的时候摄像机的检测效果会大幅度下降；室内监控中，在夜晚等不需灯光照明的情况下，摄像机无法正常工作。第二，视频监控***中容易发生遮挡，例如交通监控中，我们所需要监控的车通常会被其他车辆挡住，影响监控效果。第三，对于尖叫声、玻璃破碎声等异常情况，音频监控的效果强于视频监控。

可见，音频监控***在人们生活中的作用越发的重要。通过音频来对视频进行辅助，能够大大提高监控***的工作效率。

但是，现有的视频监控设备在雨雪、大雾等能见度较低的情况下通常很难对环境中的异常事件进行检测。此外，现有的音视频检测异常事件的技术通常只能应用于特定的场景下，对于不同环境下的异常事件没有很好的通用性。在实际使用时，不同场景下的异常事件的定义可能会不同，例如游乐场中的尖叫声通常不能定义为异常事件，但是车站等场景下的尖叫声一般会认为是异常事件。

基于此，本发明实施提供了一种音视频雷达融合的异常事件监控方法、装置、设备及介质，可以对不同场景下的多种类型异常事件进行检测，减少因环境因素对异常事件检测的影响，提高异常事件检测的准确性。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种音视频雷达融合的异常事件监控方法进行详细介绍，参见图1所示的一种音视频雷达融合的异常事件监控方法的流程示意图，该方法主要包括以下步骤S102至步骤S104：

步骤S102，获取当前场景的多元数据集合。其中，多元数据集合包括音频数据、视频数据和点云数据。

在一种实施方式中，当前场景内可部署麦克风阵列、激光雷达、摄像头等监控设备，通过麦克风阵列采集音频数据，通过激光雷达采集点云数据，通过摄像头采集视频数据。

步骤S104，通过预先训练的异常事件检测网络，根据视频数据的目标视频特征信息和点云数据的目标点云特征信息确定第一融合特征，根据音频数据的音频特征信息和第一融合特征确定第二融合特征，并基于第二融合特征确定当前场景的异常事件检测结果。其中，目标视频特征信息也可称之为图像特征信息，第一融合特征也可称之为雷视融合特征，第二融合特征也可以称之为多元融合特征，异常事件检测结果用于表征当前场景下是否发生异常事件，以及发生的异常事件的类型。

在一种实施方式中，异常事件检测网络包括雷视融合子网络、多元数据融合子网络和异常事件检测子网络。其中，雷视融合子网络用于提取视频数据的目标视频特征信息和点云数据的目标点云特征信息，进而融合目标视频特征信息和目标点云特征信息以得到第一融合特征；多元数据融合子网络用于提取音频数据的音频特征信息，进而融合音频特征信息和第一融合特征以得到第二融合特征；异常事件检测子网络用于基于第二融合特征确定当前场景的异常事件检测结果。

本发明实施例提供的音视频雷达融合的异常事件监控方法，采集当前场景下的音频数据、视频数据、点云数据等多元数据集合，将多元数据集合输入至异常事件检测网络，即可通过异常事件检测网络对当前场景是否发生异常事件进行检测，该异常事件检测网络可以将音频数据、视频数据、点云数据的特征信息进行融合，以实现对不同场景下的多种类型异常事件进行检测，减少因环境因素对异常事件检测的影响，提高异常事件检测的准确性；另外，本发明实施例融合视频数据的目标视频特征信息和点云数据的目标点云特征信息，实现了雷视融合，可以减少天气以及环境的影响，通过视觉和雷达的互补，可实现全天候、各类恶劣天气环境下以及不同场景下的异常事件的监测，进一步提高异常事件检测的准确性。

为便于对上述步骤S102进行理解，本发明实施例提供了一种获取当前场景的多元数据集合的具体实施方式：麦克风阵列获得当前场景的音频数据；激光雷达获得当前场景的点云数据；摄像头获得当前场景的视频数据（或图像数据）。

为将麦克风阵列、激光雷达、摄像头的时域信息同步，以实现时间的融合。可以按照如下过程获取相应的多元数据集合，具体的：根据激光雷达采样帧速率为 5 帧/秒，而摄像头采样帧速率为25 帧/秒。为保证数据的可靠性，以激光雷达的采样速率为基准，激光雷达每采集一帧点云数据，选取所对应摄像头当前帧的图像数据，同时截取麦克风阵列所采集到的t-0.2s到当前时刻t的音频数据，即完成共同采样一帧点云数据、图像数据、音频数据，从而保证了麦克风阵列数据、激光雷达数据和摄像头数据时间上的同步，以匹配检测环境的时域信息。

进一步的，在将多元数据集合输入至异常事件检测模型之前，可以对多元数据集合进行预处理，具体的：分别通过音频数据预处理模型对音频数据进行降噪滤波、预加重、分帧加窗等预处理操作得到音频数据对应的语谱图；通过图像数据预处理模型对视频数据进行解码、抽帧、比例缩放等预处理得到视频帧图像；通过点云数据预处理模块对激光雷达采集的信息进行降噪等预处理得到点云数据。

为便于对上述步骤S104进行理解，本发明实施例提供了一种异常事件检测网络的具体结构，参见图2所示的一种异常事件检测网络的结构示意图，异常事件检测网络包括雷视融合子网络、多元数据融合子网络和异常事件检测子网络。

在一例中，图2示意出雷视融合子网络包括雷视特征提取模块和雷视特征融合模块。在此基础上，本发明实施例提供了一种根据视频数据的目标视频特征信息和点云数据的目标点云特征信息确定第一融合特征的实施方式，参见如下步骤1至步骤2：

步骤1，通过雷视特征提取模块，提取视频数据对应的多个层级的目标视频特征信息，以及提取点云数据对应的多个层级的目标点云特征信息。

进一步的，本发明实施例以3个层级为例，提供了如图3所示的一种雷视特征提取模块的结构示意图，图3示意出雷视特征提取模块包括图像特征提取单元和点云特征提取单元，图像特征提取单元和点云特征提取单元均包括多个层级的第一特征提取子单元和多个层级的第二特征提取子单元。其中，第一特征提取子单元记为C，第二特征提取子单元记为F。

可选的，第一特征提取子单元包括Resne50，该Resne50包括并行的卷积层和空洞卷积，第二特征提取子单元包括特征金字塔层，特征金字塔层也即特征金字塔网络（FPN）。

在一种具体的实施方式中，当前层级的第一特征提取子单元的输入端与前一层级的第一特征提取子单元的输出端连接，当前层级的第一特征提取子单元的输出端与后一层级的第一特征提取子单元的输入端和当前层级的第二特征提取子单元的输入端连接。示例性的，以C4作为当前层级的第一特征提取子单元、F4作为当前层级的第二特征提取子单元为例，第一特征提取子单元C4的输入端与第一特征提取子单元C3的输出端连接，第一特征提取子单元C4的输出端与第一特征提取子单元C5的输入端、第二特征提取子单元F4的输入端连接。

应当注意的是，特征提取子单元的层级数量可以基于实际情况进行配置，本发明实施例仅是以3个层级为例提供的示例，不对特征提取子单元的层级数量进行限制。

在图3的基础上，本发明实施例以视频数据为例，提供了一种提取视频数据对应的多个层级的目标视频特征信息的实施方式，包括如下步骤1.1至步骤1.2：

步骤1.1，通过当前层级的第一特征提取子单元，对前一层级的视频特征向量进行特征提取，得到当前层级的视频特征向量；步骤1.2，通过当前层级的第二特征提取子单元，对当前层级的视频特征向量进行特征提取，得到当前层级的目标视频特征信息。在一种实施方式中，首先卷积层和空洞卷积分别提取特征之后，将提取得到的特征融合得到当前层级的视频特征向量，再利用特征金字塔网络进一步提取视频特征向量的特征，以得到当前层级的目标视频特征信息。

示例性的，第一特征提取子单元C3中的对视频数据进行特征提取，得到第一个层级的视频特征向量，第二特征提取单元F3对第一个层级的视频特征向量进行特征提取，得到第一个层级的目标视频特征信息；第一特征提取子单元C4对第一个层级的目标视频特征信息进行特征提取，得到第二个层级的视频特征向量，第二特征提取单元F4对第二个层级的视频特征向量进行特征提取，得到第二个层级的目标视频特征信息；第一特征提取子单元C5对第二个层级的目标视频特征信息进行特征提取，得到第三个层级的视频特征向量，第二特征提取单元F5对第三个层级的视频特征向量进行特征提取，得到第三个层级的目标视频特征信息。

在具体实现时，点云特征提取单元的结构与视频点云提取单元的结构相同，均如图3所示，且提取点云数据对应的多个层级的目标点云特征信息的具体过程可参见前述步骤1.1至步骤1.2，本发明实施例在此不再进行赘述。

本发明实施例利用Resne50作为网络主干，通过特征金字塔网络（FPN）对采集到的图像数据和点云数据进行特征提取。其中，本发明实施例将用于特征信息提取的Resne50网络结构中的卷积层，替换为卷积层和空洞卷积并行的结构，本发明实施例通过该结构可以在不损失图像数据连续性的情况下，增大感受野的同时更好的保留图像的空间特征信息，此外可以从主干网络中提取来自不同层级的图像数据和点云数据的高级特征，以便更好的获取上下层之间的信息。

步骤2，通过雷视特征融合模块，对每个层级的目标视频特征信息和每个层级的目标点云特征信息进行同层级特征融合和不同层级特征融合，得到第一融合特征。

在一种实施方式中，雷视特征融合模块包括第一特征融合单元和第二特征融合单元，其中，第一特征融合单元可以采用RCAM（递归相关联想记忆器），第二特征融合可以采用强监督残差网络。本发明实施例提供了一种步骤2的实施方式，参见如下步骤2.1至步骤2.2：

步骤2.1，通过第一特征融合单元，分别对每个层级的目标视频特征信息和每个层级的目标点云特征信息进行同层级特征融合，得到中间融合特征。

请继续参见图3，图3还示意出第一特征融合单元包括多个层级的特征融合子单元，每个层级的特征融合子单元记为RCAM，当前层级的特征融合子单元的输入端与后一层级的特征融合子单元的输出端、当前层级的第一特征提取子单元的输出端和当前层级的第二特征提取子单元的输出端连接。示例性的，以第二个层级的特征融合子单元RCAM为例，第二个层级的特征融合子单元RCAM的输入端与第三个层级的特征融合子单元RCAM的输出端、第一特征提取子单元C4和第二特征提取子单元F4的输出端连接。

在此基础上，在进行同层级特征融合时，可以通过当前层级的特征融合子单元，基于后一层级的特征融合子单元的输出数据、当前层级的目标视频特征信息和当前层级的目标点云特征信息进行融合，以实现同层级特征融合，得到中间融合特征。本发明实施例将来自同一层级结构的目标视频特征信息和目标点云特征信息的高级特征进行特征融合，得到多级的融合特征。假设在第层得到的图像特征信息和目标点云特征信息的高级特征表示为：/>和/>。则通过拼接所的到的中间融合特征/>可以表示为：

；

其中，表示特征图的大小，/>、/>分别表示第/>层得到的图像信息和点云信息的高级特征的特征图的通道数。/>表示拼接操作。

示例性的，继续以3个层级为例，第三个层级的特征融合子单元RCAM对第三个层级的目标视频特征信息和目标点云特征信息进行融合，得到第三个层级的中间融合特征；第二个层级的特征融合子单元RCAM对第三个层级的中间融合特征、第二个层级的目标视频特征信息和目标点云特征信息进行融合，得到第二个层级的中间融合特征；第一个层级的特征融合子单元RCAM对第二个层级的中间融合特征、第一个层级的目标视频特征信息和目标点云特征信息进行融合，得到第一个层级的中间融合特征，该第一个层级的中间融合特征即为输入至第二特征融合单元的中间融合特征。

步骤2.2，通过第二特征融合单元，对中间融合特征进行第一卷积操作得到第一卷积操作结果，对第一卷积操作结果执行至少两次第二卷积操作得到第二卷积操作结果，将第一卷积操作结果和第二卷积操作结果进行融合，以实现不同层级特征融合，得到第一融合特征。

在一种实施方式中，本发明实施例使用强监督残差网络结构实现不同层级特征信息的补充。本发明实施例所采用的强监督残差网络将同一层级结构得到的中间融合特征作为输入。

首先对中间融合特征执行一次/>的卷积操作得到特征/>，接着对/>执行两次/>的卷积操作，然后与/>进行相加得到特征/>。其计算方式可以表示为：

；

其中，表示leaky relu激活函数，/>和/>分别表示/>和/>的卷积操作。

然后本发明实施例将所得到的特征信息经过/>的卷积操作变为单一通道特征信息，在减少网络参数的同时可以增加网络模型的表达能力。

本发明实施例中采用激光雷达来弥补视频监控设备的不足，减少天气等因素对异常事件检测的影响。

在一例中，图2还示意出多元数据融合子网络包括音频特征提取模块和多元数据融合模块。在此基础上，本发明实施例提供了一种根据音频数据的音频特征信息和第一融合特征确定第二融合特征的实施方式，参见如下步骤a至步骤b：

步骤a，通过音频特征提取模块，提取音频数据对应的音频特征信息；步骤b，通过多元数据融合模块，对音频特征信息和第一融合特征进行横向融合，得到第二融合特征。在一种实施方式中，利用Resne50作为网络主干对音频数据的语谱图信息进行提取，然后将全连接层输出的音频特征信息与雷视融合特征信息（也即，第一融合特征）进行横向拼接得到多元特征融合后的特征信息（也即，第二融合特征）。

本发明实施例将音频、图像、点云的特征信息进行融合，可以对不同场景下的各种类型异常事件进行检测，减少因环境因素对异常事件检测的影响，提高异常事件检测的准确性。

在一例中，图2还示意出异常事件检测子网络，可选的，异常事件检测子网络包括两个全连接层和softmax激活函数。在此基础上，本发明实施例提供了一种基于第二融合特征确定当前场景的异常事件检测结果的实施方式，可以通过异常事件检测子网络，基于第二融合特征确定当前场景的异常事件检测结果。本发明实施例通过两个全连接层和softmax激活函数对多元特征融合后的特征信息（也即，第二融合特征）进行处理可以得到异常事件是否存在以及异常事件的类型。

进一步的，还可以通过预警模块可以完成异常事件的分发。具体的：如果异常事件检测结果表征当前场景发生异常事件，则基于异常事件检测结果进行预警，也即将异常事件检测结果输入至异常事件预警单元，进行报警；如果异常事件检测结果表征当前场景未发生异常事件，则丢弃异常事件检测结果，也即不进行报警。

综上所述，本发明实施例提供的音视频雷达融合的异常事件监控方法至少具有以下特点：

（1）根据监控音频、视频和雷达数据，分析环境中是否存在异常事件。为提高检测准确性，基于雷视融合技术、音频信息分析技术对环境中的事件进行分析，最终判断是否存在异常事件，减少因不同场景对异常事件的定义不同导致的异常事件误判的问题；

（2）将音频、图像、点云的特征信息进行融合，可以对不同场景下的各种类型异常事件进行检测，减少因环境因素对异常事件检测的影响，提高异常事件检测的准确性；

（3）雷视融合技术可以减少天气以及环境的影响，通过视觉和雷达的互补，可实现全天候(白天、黑夜)、各类恶劣天气环境(风、霜、雨、雪、沙尘、雾霾)下以及不同场景下的异常事件的监测，提高异常事件检测的准确性，从而在异常事件发生时，监管部门能及时获取预警信息，减小异常事件所造成的危害。

为便于对上述实施例进行理解，本发明实施例提供了一种音视频雷达融合的异常事件监控方法的具体实现，通过对视频和雷达监控信息进行处理，结合音频信息对异常事件进行分析，通过雷视融合技术及音频识别技术实现对异常事件的精准判定，参见图4所示的一种音视频雷达融合的异常事件监控方法的技术路线图，技术方案主要包括多元信息采集单元（包括麦克风阵列、激光雷达和摄像头）、多元信息预处理单元（包括音频信息预处理、雷达信息预处理和图像信息预处理）、雷视融合单元多元信息融合单元、异常事件检测单元、异常事件预警单元六大部分。各单元作用如下所示：

（1）多元信息采集单元通过麦克风阵列、激光雷达、摄像头分别获取环境中的音频信息、点云信息、图像信息，输送到多元信息预处理单元中；

（2）麦克风阵列采集音频信息语图谱，激光雷达采集环境信息点云图，摄像头采集环境信息检测。在实际应用中，多元信息采集单元通过麦克风阵列、激光雷达、摄像头分别获取环境中的音频信息、点云信息、图像信息，输送到多元信息预处理单元中；

（3）在雷视融合单元中，通过卷积神经网络分别对视频帧图像和点云信息的高级特征进行提取并将所得到的高级特征进行拼接融合，并输送到多元信息融合单元；

（4）在多元信息融合单元中，通过卷积神经网络对音频信息的语谱图的高级特征进行提取，然后与雷视融合单元中所得到的特征进行拼接融合；并输送到异常事件检测单元；

（5）异常事件检测单元中，将多元信息融合单元中的特征信息送入卷积神经网络对异常事件进行检测；如存在异常事件则将异常事件的检测结果输入到异常事件预警单元，进行报警。

相较于现有技术在雷视融合方面通常只是在数据层面进行融合或者其特征的提取与选择缺乏理论指导，本发明实施例提出一种激光雷达与视频数据的融合方法，通过视觉和雷达的互补，可实现全天候(白天、黑夜)、各类恶劣天气环境(风、霜、雨、雪、沙尘、雾霾)以及不同场景下异常事件的监测；另外，本发明实施例基于视觉检测技术、雷达检测技术、音频检测技术，实现异常事件监测端到端的应用，可以有效减少场景因素对于异常事件检测结果的影响，从而实现不同场景下的异常事件检测。

基于此，进一步参见图5所示的另一种音视频雷达融合的异常事件监控方法的流程示意图，包括：（a）麦克风阵列采集音频信息语图谱，激光雷达采集环境信息点云图，摄像头采集环境信息检测；（b）对环境信息点云图和环境信息检测进行雷视特征融合。（c）对音视频语图谱和雷视特征融合的结果进行多元特征融合；（d）进行异常事件监测；（f）如果不存在异常数据，则丢弃检测结果，如果存在异常数据，则异常事件信息报送。

本发明实施例提供的音视频雷达融合的异常事件监控方法，可用于智能监控、智慧工地、智慧社区等场景，帮助帮助监管部门能够对异常事件有实时、直观了解，也能帮助使用者及时发现并处理异常事件，减少其造成的损失。

综上所述，本发明实施例实现了图像、声音和雷达信息的融合，通过深度学习模型对声音、图像和雷达信息进行了提取、融合和分析，可以有效减少环境因素对于异常事件检测结果的影响，从而实现不同场景下的异常事件检测。另外，本发明实施例实现了声音、图像和雷达信息技术端到端深度学习技术的应用，可以与现有的公共监控结合轻量化的用于城市、道路等场景的安全预警，可以有效减少人力和物力的开销。同时本发明通过端到端的深度学习模型，可以有效减少人工提取特征对异常事件判别的影响。

对于前述实施例提供的音视频雷达融合的异常事件监控方法，本发明实施例提供了一种音视频雷达融合的异常事件监控装置，参见图6所示的一种音视频雷达融合的异常事件监控装置的结构示意图，该装置主要包括以下部分：

数据获取模块602，用于获取当前场景的多元数据集合；其中，多元数据集合包括音频数据、视频数据和点云数据；

异常事件检测模块604，用于通过预先训练的异常事件检测网络，根据视频数据的目标视频特征信息和点云数据的目标点云特征信息确定第一融合特征，根据音频数据的音频特征信息和第一融合特征确定第二融合特征，并基于第二融合特征确定当前场景的异常事件检测结果。

本发明实施例提供的音视频雷达融合的异常事件监控装置，采集当前场景下的音频数据、视频数据、点云数据等多元数据集合，将多元数据集合输入至异常事件检测网络，即可通过异常事件检测网络对当前场景是否发生异常事件进行检测，该异常事件检测网络可以将音频数据、视频数据、点云数据的特征信息进行融合，以实现对不同场景下的多种类型异常事件进行检测，减少因环境因素对异常事件检测的影响，提高异常事件检测的准确性；另外，本发明实施例融合视频数据的目标视频特征信息和点云数据的目标点云特征信息，实现了雷视融合，可以减少天气以及环境的影响，通过视觉和雷达的互补，可实现全天候、各类恶劣天气环境下以及不同场景下的异常事件的监测，进一步提高异常事件检测的准确性。

在一种实施方式中，异常事件检测网络包括雷视融合子网络，雷视融合子网络包括雷视特征提取模块和雷视特征融合模块；

异常事件检测模块604还用于：

通过雷视特征提取模块，提取视频数据对应的多个层级的目标视频特征信息，以及提取点云数据对应的多个层级的目标点云特征信息；

通过雷视特征融合模块，对每个层级的目标视频特征信息和每个层级的目标点云特征信息进行同层级特征融合和不同层级特征融合，得到第一融合特征。

在一种实施方式中，雷视特征提取模块包括图像特征提取单元和点云特征提取单元，图像特征提取单元和点云特征提取单元均包括多个层级的第一特征提取子单元和多个层级的第二特征提取子单元，当前层级的第一特征提取子单元的输入端与前一层级的第一特征提取子单元的输出端连接，当前层级的第一特征提取子单元的输出端与后一层级的第一特征提取子单元的输入端和当前层级的第二特征提取子单元的输入端连接；

异常事件检测模块604还用于：

通过当前层级的第一特征提取子单元，对前一层级的视频特征向量进行特征提取，得到当前层级的视频特征向量；

通过当前层级的第二特征提取子单元，对当前层级的视频特征向量进行特征提取，得到当前层级的目标视频特征信息。

在一种实施方式中，第一特征提取子单元包括并行的卷积层和空洞卷积，第二特征提取子单元包括特征金字塔层。

在一种实施方式中，雷视特征融合模块包括第一特征融合单元和第二特征融合单元；

异常事件检测模块604还用于：

通过第一特征融合单元，分别对每个层级的目标视频特征信息和每个层级的目标点云特征信息进行同层级特征融合，得到中间融合特征；

通过第二特征融合单元，对中间融合特征进行第一卷积操作得到第一卷积操作结果，对第一卷积操作结果执行至少两次第二卷积操作得到第二卷积操作结果，将第一卷积操作结果和第二卷积操作结果进行融合，以实现不同层级特征融合，得到第一融合特征。

在一种实施方式中，第一特征融合单元包括多个层级的特征融合子单元，当前层级的特征融合子单元的输入端与后一层级的特征融合子单元的输出端、当前层级的第一特征提取子单元的输出端和当前层级的第二特征提取子单元的输出端连接；

异常事件检测模块604还用于：

通过当前层级的特征融合子单元，基于后一层级的特征融合子单元的输出数据、当前层级的目标视频特征信息和当前层级的目标点云特征信息进行融合，以实现同层级特征融合，得到中间融合特征。

在一种实施方式中，异常事件检测网络还包括多元数据融合子网络，多元数据融合子网络包括音频特征提取模块和多元数据融合模块；异常事件检测模块604还用于：

通过音频特征提取模块，提取音频数据对应的音频特征信息；

通过多元数据融合模块，对音频特征信息和第一融合特征进行横向融合，得到第二融合特征；

异常事件检测网络还包括异常事件检测子网络；异常事件检测模块604还用于：

通过异常事件检测子网络，基于第二融合特征确定当前场景的异常事件检测结果。

在一种实施方式中，还包括异常预警模块，用于：

如果异常事件检测结果表征当前场景发生异常事件，则基于异常事件检测结果进行预警；

如果异常事件检测结果表征当前场景未发生异常事件，则丢弃异常事件检测结果。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本发明实施例提供了一种电子设备，具体的，该电子设备包括处理器和存储装置；存储装置上存储有计算机程序，计算机程序在被所述处理器运行时执行如上所述实施方式的任一项所述的方法。

图7为本发明实施例提供的一种电子设备的结构示意图，该电子设备100包括：处理器70，存储器71，总线72和通信接口73，所述处理器70、通信接口73和存储器71通过总线72连接；处理器70用于执行存储器71中存储的可执行模块，例如计算机程序。

其中，存储器71可能包含高速随机存取存储器（RAM，Random Access Memory），也可能还包括非不稳定的存储器（non-volatilememory），例如至少一个磁盘存储器。通过至少一个通信接口73（可以是有线或者无线）实现该***网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线72可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器71用于存储程序，所述处理器70在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器70中，或者由处理器70实现。

处理器70可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器70中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器70可以是通用处理器，包括中央处理器(CentralProcessingUnit，简称CPU)、网络处理器(NetworkProcessor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器71，处理器70读取存储器71中的信息，结合其硬件完成上述方法的步骤。

本发明实施例所提供的可读存储介质的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见前述方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种音视频雷达融合的异常事件监控方法，其特征在于，包括：

2.根据权利要求1所述的音视频雷达融合的异常事件监控方法，其特征在于，所述异常事件检测网络包括雷视融合子网络，所述雷视融合子网络包括雷视特征提取模块和雷视特征融合模块；

3.根据权利要求2所述的音视频雷达融合的异常事件监控方法，其特征在于，所述雷视特征提取模块包括图像特征提取单元和点云特征提取单元，所述图像特征提取单元和所述点云特征提取单元均包括多个层级的第一特征提取子单元和多个层级的第二特征提取子单元，当前层级的第一特征提取子单元的输入端与前一层级的第一特征提取子单元的输出端连接，所述当前层级的第一特征提取子单元的输出端与后一层级的第一特征提取子单元的输入端和当前层级的第二特征提取子单元的输入端连接；

4.根据权利要求3所述的音视频雷达融合的异常事件监控方法，其特征在于，所述第一特征提取子单元包括并行的卷积层和空洞卷积，所述第二特征提取子单元包括特征金字塔层。

5.根据权利要求2所述的音视频雷达融合的异常事件监控方法，其特征在于，所述雷视特征融合模块包括第一特征融合单元和第二特征融合单元；

6.根据权利要求5所述的音视频雷达融合的异常事件监控方法，其特征在于，所述第一特征融合单元包括多个层级的特征融合子单元，当前层级的所述特征融合子单元的输入端与后一层级的所述特征融合子单元的输出端、所述当前层级的第一特征提取子单元的输出端和所述当前层级的第二特征提取子单元的输出端连接；

7.根据权利要求1所述的音视频雷达融合的异常事件监控方法，其特征在于，所述异常事件检测网络还包括多元数据融合子网络，所述多元数据融合子网络包括音频特征提取模块和多元数据融合模块；根据所述音频数据的音频特征信息和所述第一融合特征确定第二融合特征，包括：

8.根据权利要求1所述的音视频雷达融合的异常事件监控方法，其特征在于，所述方法还包括：

9.一种音视频雷达融合的异常事件监控装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机可执行指令，所述处理器执行所述计算机可执行指令以实现权利要求1至8任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现权利要求1至8任一项所述的方法。