CN111091073A

CN111091073A - 一种将视频和音频联合的异常事件监控设备及方法

Info

Publication number: CN111091073A
Application number: CN201911204850.2A
Authority: CN
Inventors: 刘长松; 刘加; 王丽婷
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-05-01

Abstract

本发明实施例提供一种将视频和音频联合的异常事件监控设备及方法，设备包括：相机成像模块，用于采集和发送视频信号；麦克风阵列收音模块，用于采集和发送音频信号；视频处理模块，用于确定视频信号异常情况；音频处理模块，用于确定音频信号异常情况；音频视频联合处理模块，用于异常事件判断。本发明实施例融合视频信号和音频信号，根据视频处理模块的异常事件判断的结果和音频处理模块的异常事件判断的结果，综合判断是否发生了异常事件。

Description

一种将视频和音频联合的异常事件监控设备及方法

技术领域

本发明涉及异常事件监控技术领域，尤其涉及一种将视频和音频联合的异常事件监控设备及方法。

背景技术

随着科学技术的进步和社会不断向前发展，异常事件监控在社会的各个方面扮演着越来越重要的角色。

目前，监控可以是视频监控***，也可以是音频监控***。在视频监控***中，摄像头很难覆盖所有位置，即有些位置不在摄像头视野范围内。针对不在摄像头视野范围内的位置，采集不到图像。因此，难以判断摄像头视野范围外是否发生异常事件。而在音频监控***中，虽然能采集到声音，但是仅根据采集到的声音，很难判断现场是否发生异常事件。

因此，现有技术中的单一的视频监控***或单一的音频监控***在异常事件监控中存在缺陷。

发明内容

本发明实施例提供一种将视频和音频联合的异常事件监控设备及方法，用以解决现有技术中的单一的视频监控***或单一的音频监控***在异常事件监控中存在缺陷这一技术问题。

本发明实施例提供一种将视频和音频联合的异常事件监控设备，包括：

相机成像模块、麦克风阵列收音模块、视频处理模块、音频处理模块和音频视频联合处理模块；

所述相机成像模块，用于采集视频信号，并将采集的视频信号发送至所述视频处理模块；

所述麦克风阵列收音模块，用于采集音频信号，并将采集的音频信号发送至所述音频处理模块；

所述视频处理模块，用于接收所述视频信号；基于所述视频信号确定所述视频信号的第一异常情况；并将所述视频信号的第一异常情况发送至所述音频视频联合处理模块；

所述音频处理模块，用于接收所述音频信号；基于所述音频信号确定所述音频信号的第一异常情况；并将所述音频信号的第一异常情况发送至所述音频视频联合处理模块；

所述音频视频联合处理模块，用于接收所述视频信号的第一异常情况和所述音频信号的第一异常情况，并根据所述视频信号的第一异常情况和所述音频信号的第一异常情况进行异常事件判断。

可选地，所述视频处理模块，还用于将所述视频信号的第一异常情况发送至所述音频处理模块；接收所述音频处理模块发送的音频信号的第一异常情况；基于所述音频信号的第一异常情况中的相关信息，确定与所述音频信号的第一异常情况中的相关信息对应的视频信号的第二异常情况；将所述视频信号的第二异常情况发送至所述音频视频联合处理模块；接收所述音频视频联合处理模块发送的异常事件判断结果，以确定在所述异常事件判断结果是异常的情况下，用定焦摄像头录像或拍照特定位置的异常事件，或用变焦摄像头放大异常事件场景，并对放大后的异常事件进行录像或拍照。

可选地，所述音频处理模块，还用于将所述音频信号的第一异常情况发送至所述视频处理模块；接收所述视频处理模块发送的视频信号的第一异常情况；基于所述视频信号的第一异常情况中的相关信息，确定与所述视频信号的第一异常情况中的相关信息对应的音频信号的第二异常情况；将所述音频信号的第二异常情况发送至所述音频视频联合处理模块；接收所述音频视频联合处理模块发送的异常事件判断结果，以确定在所述异常事件判断结果是异常的情况下，对异常事件进行录音或存储关键词。

可选地，所述音频视频联合处理模块，还用于接收所述视频信号的第二异常情况和所述音频信号的第二异常情况；

所述根据所述视频信号的第一异常情况和所述音频信号的第一异常情况进行异常事件判断，包括：根据所述视频信号的第一异常情况、所述音频信号的第一异常情况、所述视频信号的第二异常情况和所述音频信号的第二异常情况进行异常事件判断，得到异常事件判断结果。

可选地，所述音频视频联合处理模块，还用于根据所述视频信号的第一异常情况、所述视频信号的第二异常情况、所述音频信号的第一异常情况和所述音频信号的第二异常情况进行异常事件预测与风险评估。

可选地，所述将视频和音频联合的异常事件监控设备，还包括：处理异常监测结果模块；

所述处理异常监测结果模块，用于在所述异常事件判断结果是异常的情况下，启动报警功能和/或呼叫功能；在所述异常事件判断结果是非异常且异常事件预测与风险评估的结果大于预设概率的情况下，启动提示功能。

可选地，所述将视频和音频联合的异常事件监控设备，还包括：定位模块；

所述定位模块，用于在所述麦克风阵列收音模块采集到人说话的声音和/或所述相机成像模块采集到人脸图像的情况下，对人进行定位。

本发明实施例提供一种将视频和音频联合的异常事件监控方法，包括：

采集视频信号和音频信号；

基于所述视频信号确定所述视频信号的第一异常情况，并基于所述音频信号确定所述音频信号的第一异常情况；

根据所述视频信号的第一异常情况和所述音频信号的第一异常情况进行异常事件判断。

本发明实施例还提出一种电子设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述方法。

本发明实施例还提出一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行上述方法。

本发明实施例融合视频信号和音频信号，根据视频处理模块的异常事件判断结果、音频处理模块的异常事件判断结果以及两个模块互相交互后的异常事件判断结果，综合判断是否发生了异常事件以及在异常事件发生之前可以***异常事件。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明一实施例提供的一种将视频和音频联合的异常事件监控设备的结构示意图；

图2示出了本发明一实施例提供的一种将视频和音频联合的异常事件监控设备的另一结构示意图；

图3示出了本发明一实施例提供的一种将视频和音频联合的异常事件监控方法的流程示意图；

图4示出了本发明一实施例提供的电子设备的逻辑框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了本发明一实施例提供的一种将视频和音频联合的异常事件监控设备的结构示意图，包括：相机成像模块11、麦克风阵列收音模块12、视频处理模块13、音频处理模块14和音频视频联合处理模块15。

所述相机成像模块11，用于采集视频信号，并将采集的视频信号发送至所述视频处理模块13。

在本发明实施例中，所述相机成像模块11与所述视频处理模块13相连。所述相机成像模块11用于采集视频信号，并将采集的视频信号发送至所述视频处理模块13。需要说明的是，在所述相机成像模块11采集到视频信号后，可以对采集到的视频信号进行图像信号处理，并将图像信号处理后的视频信号发送至所述视频处理模块13。

所述麦克风阵列收音模块12，用于采集音频信号，并将采集的音频信号发送至所述音频处理模块14。

在本发明实施例中，所述麦克风阵列收音模块12与所述音频处理模块14相连。所述麦克风阵列收音模块12用于采集音频信号，并将采集的音频信号发送至所述音频处理模块14。需要说明的是，在所述麦克风阵列收音模块12采集到音频信号后，可以对采集到的音频信号进行语音信号处理，并将语音信号处理后的音频信号发送至所述音频处理模块14。

所述视频处理模块13，用于接收所述视频信号；基于所述视频信号确定所述视频信号的第一异常情况；并将所述视频信号的第一异常情况发送至所述音频视频联合处理模块15。

在本发明实施例中，所述视频处理模块13与所述相机成像模块11相连。所述视频处理模块13用于接收所述相机成像模块11发送的视频信号。在此需要说明的是，所述视频处理模块13具有视频信号异常判断功能。可以针对接收的所述视频信号，判断其异常情况，得到所述视频信号的第一异常情况；其中，所述视频信号的第一异常情况是对所述视频信号进行异常事件判断的结果。具体地，在本发明实施例中，有预设视频信号异常特征库。所述预设视频信号异常特征库包括不同类型视频信号异常特征集合。每个不同类型视频信号异常特征集合包括该类型视频信号异常特征。提取所述视频信号特征；将提取的所述视频信号特征与不同类型视频信号异常特征集合中的视频信号异常特征进行匹配，得到所述视频信号的第一异常情况。所述视频信号的第一异常情况可以用0至100中的整数表示。例如，不同类型视频信号异常特征集合包括老人摔倒视频信号异常特征集合、殴打老人视频信号异常特征集合和机器故障视频信号异常特征集合。将提取的视频信号特征分别与上述三个异常特征集合中的异常特征进行匹配，得到三个数值分别为66、69、75。这三个数值即是所述视频信号的第一异常情况。且这三个数值会作为所述音频视频联合处理模块15的输入。

所述视频处理模块13还与所述音频视频联合处理模块15相连。所述视频处理模块13将所述视频信号的第一异常情况发送至所述音频视频联合处理模块15。

所述音频处理模块14，用于接收所述音频信号；基于所述音频信号确定所述音频信号的第一异常情况；并将所述音频信号的第一异常情况发送至所述音频视频联合处理模块15；

在本发明实施例中，所述音频处理模块14与所述麦克风阵列收音模块12相连。所述音频处理模块14用于接收所述麦克风阵列收音模块12发送的音频信号。可以针对接收的所述音频信号，判断其异常情况，得到所述音频信号的第一异常情况。其中，所述音频信号的第一异常情况是对所述音频信号进行异常事件判断的结果。具体地，在本发明实施例中，有预设音频信号异常特征库。所述预设音频信号异常特征库包括不同类型音频信号异常特征集合。每个不同类型音频信号异常特征集合包括该类型音频信号异常特征。提取所述音频信号特征；将提取的所述音频信号特征与不同类型音频信号异常特征集合中的音频信号异常特征进行匹配，得到所述音频信号的第一异常情况。所述音频信号的第一异常情况可以用0至100中的整数表示。例如，不同类型音频信号异常特征集合包括老人摔倒音频信号异常特征集合、殴打老人音频信号异常特征集合和机器故障音频信号异常特征集合。将提取的音频信号特征分别与上述三个异常特征集合中的异常特征进行匹配，得到三个数值分别为72、75、69。这三个数值即是所述音频信号的第一异常情况。且这三个数值会作为所述音频视频联合处理模块15的输入。所述音频处理模块14还与所述音频视频联合处理模块15相连。所述音频处理模块14将所述音频信号的第一异常情况发送至所述音频视频联合处理模块15。

所述音频视频联合处理模块15，用于接收所述视频信号的第一异常情况和所述音频信号的第一异常情况，并根据所述视频信号的第一异常情况和所述音频信号的第一异常情况进行异常事件判断。

在本发明实施例中，以训练好的第一卷积神经网络为例，所述音频视频联合处理模块15接收所述视频信号的第一异常情况和所述音频信号的第一异常情况，并将所述视频信号的第一异常情况和所述音频信号的第一异常情况输入训练好的第一卷积神经网络中，进行异常事件判断。训练好的第一卷积神经网络的输出是1或0。1代表异常事件判断的结果是异常，0代表异常事件判断的结果是非异常。

本发明实施例融合视频信号和音频信号，根据视频处理模块13的异常事件判断的结果和音频处理模块14的异常事件判断的结果，综合判断是否发生了异常事件。

进一步地，在上述设备实施例的基础上，所述视频处理模块13，还用于将所述视频信号的第一异常情况发送至所述音频处理模块14；接收所述音频处理模块14发送的音频信号的第一异常情况；基于所述音频信号的第一异常情况中的相关信息，确定与所述音频信号的第一异常情况中的相关信息对应的视频信号的第二异常情况；将所述视频信号的第二异常情况发送至所述音频视频联合处理模块15；接收所述音频视频联合处理模块15发送的异常事件判断结果，以确定在所述异常事件判断结果是异常的情况下，用定焦摄像头录像或拍照特定位置的异常事件，或用变焦摄像头放大异常事件场景，并对放大后的异常事件进行录像或拍照。

在本发明实施例中，所述视频处理模块13除了与所述相机成像模块11和所述音频视频联合处理模块15相连之外，还可以与所述音频处理模块14相连。其中，如图2所示，所述视频处理模块13与所述音频处理模块14存在交互过程。具体地，所述视频处理模块13除了将所述视频信号的第一异常情况发送至所述音频处理模块14之外，还接收所述音频处理模块14发送的音频信号的第一异常情况；并基于所述音频信号的第一异常情况中的相关信息，包括但不限于时间和位置信息，确定与所述音频信号的第一异常情况中的相关信息对应的视频信号的第二异常情况；其中，所述视频信号的第二异常情况是对与所述音频信号的第一异常情况中的相关信息对应的视频信号进行异常事件判断的结果。具体地，确定出与所述音频信号的第一异常情况中的某一时刻对应的视频信号。提取所述与所述音频信号的第一异常情况中的某一时刻对应的视频信号特征。将提取的所述与所述音频信号的第一异常情况中的某一时刻对应的视频信号特征与不同类型视频信号异常特征集合中的视频信号异常特征进行匹配，得到所述与所述音频信号的第一异常情况中的某一时刻对应的视频信号的第二异常情况。所述视频信号的第二异常情况可以用0至100中的整数表示。例如，不同类型视频信号异常特征集合包括老人摔倒视频信号异常特征集合、殴打老人视频信号异常特征集合和机器故障视频信号异常特征集合。将提取的所述与所述音频信号的第一异常情况中的某一时刻对应的视频信号特征分别与上述三个异常特征集合中的异常特征进行匹配，得到三个数值分别为78、87、47。这三个数值即是所述视频信号的第二异常情况。且这三个数值会作为所述音频视频联合处理模块15的输入。将所述视频信号的第二异常情况发送至所述音频视频联合处理模块15。所述视频处理模块13接收所述音频视频联合处理模块15发送的异常事件判断结果，其中，所述异常事件判断结果有两种情况，一种是异常，一种是非异常。在异常事件判断结果是异常的情况下，相机成像模块11用定焦摄像头录像或拍照特定位置的异常事件，或用变焦摄像头放大异常事件场景，并对放大后的异常事件进行录像或拍照，以捕捉异常事件细节。

在此需要说明的是，本发明实施例中的第一异常情况中的“第一”和第二异常情况中的“第二”不表示顺序关系，而是用来区分两种异常情况。

进一步地，在上述设备实施例的基础上，所述音频处理模块14，还用于将所述音频信号的第一异常情况发送至所述视频处理模块13；接收所述视频处理模块13块发送的视频信号的第一异常情况；基于所述视频信号的第一异常情况中的相关信息，确定与所述视频信号的第一异常情况中的相关信息对应的音频信号的第二异常情况；将所述音频信号的第二异常情况发送至所述音频视频联合处理模块15；接收所述音频视频联合处理模块15发送的异常事件判断结果，以确定在所述异常事件判断结果是异常的情况下，对异常事件进行录音或存储关键词。

在本发明实施例中，所述音频处理模块14除了与所述麦克风阵列收音模块12和所述音频视频联合处理模块15相连之外，还可以与所述视频模块13相连。其中，如图2所示，所述音频处理模块14与所述视频处理模块14存在交互过程。具体地，所述音频处理模块14除了将所述音频信号的第一异常情况发送至所述视频处理模块13之外，还接收所述视频处理模块13发送的视频信号的第一异常情况；并基于所述视频信号的第一异常情况中的相关信息，包括但不限于时间和位置信息，确定与所述视频信号的第一异常情况中的相关信息对应的音频信号的第二异常情况；其中，所述音频信号的第二异常情况是对与所述视频信号的第一异常情况中的相关信息对应的音频信号进行异常事件判断的结果。具体地，确定出与所述视频信号的第一异常情况中的某一时刻对应的音频信号。提取所述与所述视频信号的第一异常情况中的某一时刻对应的音频信号特征。将提取的所述与所述视频信号的第一异常情况中的某一时刻对应的音频信号特征与不同类型音频信号异常特征集合中的音频信号异常特征进行匹配，得到所述与所述视频信号的第一异常情况中的某一时刻对应的音频信号的第二异常情况。所述音频信号的第二异常情况可以用0至100中的整数表示。例如，不同类型音频信号异常特征集合包括老人摔倒音频信号异常特征集合、殴打老人音频信号异常特征集合和机器故障音频信号异常特征集合。将提取的所述与所述视频信号的第一异常情况中的某一时刻对应的音频信号特征分别与上述三个异常特征集合中的异常特征进行匹配，得到三个数值分别为68、69、56。这三个数值即是所述音频信号的第二异常情况。且这三个数值会作为所述音频视频联合处理模块15的输入。将所述音频信号的第二异常情况发送至所述音频视频联合处理模块15。所述音频处理模块14接收所述音频视频联合处理模块15发送的异常事件判断结果，其中，所述异常事件判断结果有两种情况，一种是异常，一种是非异常。在确定出所述异常事件判断结果是异常的情况下，麦克风阵列收音模块12对异常事件进行录音或存储关键词

进一步地，在上述设备实施例的基础上，所述音频视频联合处理模块15，还用于接收所述视频信号的第二异常情况和所述音频信号的第二异常情况；

在本发明实施例中，所述视频信号的第二异常情况和所述音频信号的第二异常情况是所述视频处理模块13与所述音频处理模块14交互后的异常事件判断的结果。所述音频视频联合处理模块15可以根据所述视频处理模13的异常事件判断的结果、所述音频处理模块14的异常事件判断的结果以及两个模块交互后的异常事件判断的结果，进行异常事件判断。以训练好的第二卷积神经网络为例。将所述视频信号的第一异常情况67、所述音频信号的第一异常情况72、所述视频信号的第二异常情况56和所述音频信号的第二异常情况87输入训练好的第二卷积神经网络中进行异常事件判断。训练好的第二卷积神经网络的输出结果是1或0，1是代表异常判断结果是异常，0是代表异常判断结果是非异常。

本发明实施例融合视频信号和音频信号，根据视频处理模块13的异常事件判断的结果、音频处理模块14的异常事件判断结果以及两个模块互相交互后的异常事件判断的结果，综合判断是否发生了异常事件。

进一步地，在上述设备实施例的基础上，所述音频视频联合处理模块15，还用于根据所述视频信号的第一异常情况、所述视频信号的第二异常情况、所述音频信号的第一异常情况和所述音频信号的第二异常情况进行异常事件预测与风险评估。

在本发明实施例中，所述异常事件预测与风险评估指的是在异常事件发生之前就可以***异常事件发生的概率。以训练好的第三卷积神经网络为例。将所述视频信号的第一异常情况67、所述视频信号的第二异常情况56、所述音频信号的第一异常情况72和所述音频信号的第二异常情况87输入训练好的第三卷积神经网络中，进行异常事件预测与风险评估。训练好的第三卷积神经网络的输出是一个概率值。所述概率值代表异常事件发生的概率。

本发明实施例融合视频信号和音频信号，根据视频处理模块13的异常事件判断的结果、音频处理模块14的异常事件判断结果以及两个模块互相交互后的异常事件判断的结果，在异常事件发生之前可以***异常事件。

在此需要说明的是，本发明实施例中的训练好的第一卷积神经网络中的“第一”、训练好的第二卷积神经网络中的“第二”和训练好的第三卷积神经网络中的“第三”不代表顺序关系，而是用来区分不同的训练好的卷积神经网络。上述训练好的卷积神经网络都是通过训练样本对卷积神经网络进行训练，再用测试样本对训练后的卷积神经网络进行测试得到的。

进一步地，在上述设备实施例的基础上，所述将视频和音频联合的异常事件监控设备，还包括：处理异常监测结果模块21，如图2所示；

所述处理异常监测结果模块21，用于在所述异常事件判断结果是异常的情况下，启动报警功能和/或呼叫功能；在所述异常事件判断结果是非异常且异常事件预测与风险评估的结果大于预设概率的情况下，启动提示功能。

在本发明实施例中，若所述异常事件判断结果是异常，则所述处理异常监测结果模块21启动报警功能和/或呼叫功能。并将报警信息和/或呼叫信息实时传输至云平台进行处理。若所述异常事件判断结果是非异常且异常事件预测与风险评估的结果大于预设概率，则所述处理异常监测结果模块21启动提示功能。并将提示信息实时传输至云平台进行处理。

在此需要说明的是，实时传输包括实时有线传输和实时无线传输。在本发明实施例中，采用实时有线传输和实时无线传输的双保险传输模式，保证信息能够及时传输。

本发明实施例针对异常事件判断结果是异常的情况，启动不同的功能，以提示用户不同的信息。

进一步地，在上述设备实施例的基础上，所述将视频和音频联合的异常事件监控设备，还包括：定位模块；

在本发明实施例中，所述定位模块可以对具体应用场景中的人进行定位。具体地，在所述麦克风阵列收音模块采集到人说话的声音的情况下，所述定位模块对人进行定位；和/或在所述相机成像模块采集到人脸图像的情况下，所述定位模块对人进行定位。

在此需说明的是，在实施本发明时，可以对诸如老人摔倒、打骂老人、设备故障和管道检修等异常事件进行监控。在安装监控设备时，要使音频信号和视频信号能够全面覆盖待监控区域。如将监控设备安装于居家养老居室之内时，可以将监控设备安装在烟感位置、灯具位置和/或棚顶WiFi路由器位置，尽量使视频信号和音频信号覆盖整个居室范围。

图3示出了本发明一实施例提供的一种将视频和音频联合的异常事件监控方法的流程示意图，包括：

S31，采集视频信号和音频信号；

S32，基于所述视频信号确定所述视频信号的第一异常情况，并基于所述音频信号确定所述音频信号的第一异常情况；

S33，根据所述视频信号的第一异常情况和所述音频信号的第一异常情况进行异常事件判断。

上述方法实施例可以由上述将视频和音频联合的异常事件监控设备执行。其实现原理和效果类似，在此不再赘述。

图4为本发明一实施例提供的电子设备的逻辑框图；所述电子设备，包括：处理器(processor)41、存储器(memory)42和总线43；

其中，所述处理器41和存储器42通过所述总线43完成相互间的通信；所述处理器41用于调用所述存储器42中的程序指令，以执行上述方法实施例所提供的方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种将视频和音频联合的异常事件监控设备，其特征在于，包括：

2.根据权利要求1所述的将视频和音频联合的异常事件监控设备，其特征在于，所述视频处理模块，还用于将所述视频信号的第一异常情况发送至所述音频处理模块；接收所述音频处理模块发送的音频信号的第一异常情况；基于所述音频信号的第一异常情况中的相关信息，确定与所述音频信号的第一异常情况中的相关信息对应的视频信号的第二异常情况；将所述视频信号的第二异常情况发送至所述音频视频联合处理模块；接收所述音频视频联合处理模块发送的异常事件判断结果，以确定在所述异常事件判断结果是异常的情况下，用定焦摄像头录像或拍照特定位置的异常事件，或用变焦摄像头放大异常事件场景，并对放大后的异常事件进行录像或拍照。

3.根据权利要求2所述的将视频和音频联合的异常事件监控设备，其特征在于，所述音频处理模块，还用于将所述音频信号的第一异常情况发送至所述视频处理模块；接收所述视频处理模块发送的视频信号的第一异常情况；基于所述视频信号的第一异常情况中的相关信息，确定与所述视频信号的第一异常情况中的相关信息对应的音频信号的第二异常情况；将所述音频信号的第二异常情况发送至所述音频视频联合处理模块；接收所述音频视频联合处理模块发送的异常事件判断结果，以确定在所述异常事件判断结果是异常的情况下，对异常事件进行录音或存储关键词。

4.根据权利要求3所述的将视频和音频联合的异常事件监控设备，其特征在于，所述音频视频联合处理模块，还用于接收所述视频信号的第二异常情况和所述音频信号的第二异常情况；

5.根据权利要求4所述的将视频和音频联合的异常事件监控设备，其特征在于，所述音频视频联合处理模块，还用于根据所述视频信号的第一异常情况、所述视频信号的第二异常情况、所述音频信号的第一异常情况和所述音频信号的第二异常情况进行异常事件预测与风险评估。

6.根据权利要求5所述的将视频和音频联合的异常事件监控设备，其特征在于，所述将视频和音频联合的异常事件监控设备，还包括：处理异常监测结果模块；

7.根据权利要求1所述的将视频和音频联合的异常事件监控设备，其特征在于，所述将视频和音频联合的异常事件监控设备，还包括：定位模块；

8.一种将视频和音频联合的异常事件监控方法，其特征在于，包括：

采集视频信号和音频信号；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求8所述的将视频和音频联合的异常事件监控方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求8所述的将视频和音频联合的异常事件监控方法的步骤。