CN111863031B

CN111863031B - 加载于已有摄像头网络的音频监测装置及其监测方法

Info

Publication number: CN111863031B
Application number: CN202010797518.8A
Authority: CN
Inventors: 张铭; 张怀卫; 宋伟
Original assignee: Nanjing Sound Technology Co ltd
Current assignee: Nanjing Sound Technology Co ltd
Filing date: 2020-08-10
Publication date: 2024-06-07
Anticipated expiration: 2040-08-10

Abstract

本发明公开了一种加载于已有摄像头网络的音频监测装置及其监测方法。所述装置包括：拾音模块，用于拾取监测区域内的声音信号x(t)；模数转换模块，用于对x(t)进行模数转换后得到数字域声音信号x(n)；异常声音识别模块，用于对x(n)进行异常声音检测和识别；混音模块，用于在识别出异常声音的情况下，将预设的警示音y(n)加载到声音信号x(n)上，得到混合声音信号z(n)；数模转换模块，用于对z(n)进行数模转换后得到模拟信号z(t)；音频输出模块，用于将x(t)和/或z(t)经由音频连接线送入摄像头的线性/麦克风输入端，将监测的音频接入摄像头网络。本发明充分利用现有摄像头监测***成熟和完善的传输和云/服务器架构，使得安装、使用此音频装置变得简单和方便，且成本低廉。

Description

加载于已有摄像头网络的音频监测装置及其监测方法

技术领域

本发明涉及声学处理技术领域，具体涉及一种加载于已有摄像头网络的音频监测装置及其监测方法。

背景技术

出于维护公共安全的目的，现在很多公共场所已经架设了众多的摄像头，摄像头的传输和云/服务器的整个架构和实现已经非常成熟，但是摄像头有其自身的监控弱点，例如只能监控摄像头对准的区域，并且对异常情况识别的实时性不是太好。需要有异常/敏感声音检测的设备来补充，就像人既需要眼睛，也需要耳朵一样。但是如果在架设声音检测设备时另外搭建一套***，那就要增加很多成本。反之，如果能利用摄像头已经有的传输和云/服务器架构，那么复杂度和成本都会降低很多。

发明内容

针对现有技术的不足，本发明提出一种加载于已有摄像头网络的音频监测装置，利用摄像头已经搭建好的传输和云/服务器架构，配合前端麦克风采集声音和检测识别，低成本实现异常/敏感监测声音功能。

本发明的另一目的在于提供相应的音频监测方法。

为了实现上述目的，本发明采用如下的技术方案：

第一方面，一种加载于已有摄像头网络的音频监测装置，包括：

拾音模块，用于利用一个或多个麦克风拾取监测区域内的声音信号x(t)；

模数转换模块，用于对拾取的信号x(t)进行模数转换后得到数字域声音信号x(n)；

异常声音识别模块，用于对声音信号x(n)进行异常声音检测和识别，所述异常声音是预先定义的具有特定特征的声音；

混音模块，用于在识别出异常声音的情况下，将预设的警示音y(n)加载到声音信号x(n)上，得到混合声音信号z(n)；

数模转换模块，用于对混合声音信号z(n)进行数模转换后得到模拟信号z(t)；

音频输出模块，用于将拾取的声音信号x(t)和/或混合声音信号z(t)经由音频连接线送入摄像头的线性/麦克风输入端，将监测的音频接入摄像头网络。

进一步地，所述装置还包括消噪模块，用于通过采样除噪法和噪音门限除噪法将声音信号x(n)中的环境噪声消除，得到纯净的声音信号x(n)，所述异常声音识别模块对消噪后的纯净声音信号x(n)进行异常声音检测和识别。

进一步地，所述异常声音识别模块包括检测单元和识别单元，所述检测单元通过频率比对实时检测拾取的声音中是否包含预先定义的异常/敏感声音，所述识别单元利用预先训练的机器学习模型来识别异常/敏感声音的类别。

进一步地，所述混音模块根据识别出的异常/敏感声音类别，将对应的警示音y(n)在数字域加到声音信号x(n)上，形成混合声音信号z(n)。

进一步地，所述装置还包括警示音提示模块，通过摄像头***的云/服务器端对所传入的音频信号z(t)进行警示音检测，当检测到警示音时，进行相应词汇的语音识别，并播放和/或发送给管理人员。

第二方面，一种音频监测方法，包括以下步骤：

利用一个或多个麦克风拾取监测区域内的声音信号x(t)，通过模数转换得到数字域声音信号x(n)；

对声音信号x(n)进行异常声音检测和识别，所述异常声音是预先定义的具有特定特征的声音；

当识别出异常/敏感声音类别时，将对应的警示音y(n)在数字域加到声音信号x(n)上，得到混合声音信号z(n)，并经过数模转换得到模拟信号z(t)；

将拾取的声音信号x(t)和/或混合声音信号z(t)通过音频连接线接入到摄像头的线性/麦克风输入端，利用已有的摄像头网络架构传输到云/服务器端；

云/服务器端对于所传入的音频信号z(t)进行警示提示音检测，当检测到警示音时，进行相应词汇的语音识别，并播放和/或发送给管理人员。

进一步地，得到数字域声音信号x(n)后，利用采样除噪法和噪音门限除噪法，将声音信号x(n)中的环境噪声消除，得到纯净的声音信号x(n)，再根据纯净的声音信号x(n)进行异常/敏感声音类别。

进一步地，所述对声音信号x(n)进行异常声音检测和识别包括：通过频率比对实时检测拾取的声音中是否包含预先定义的异常/敏感声音；当存在异常/敏感声音时，利用预先训练的机器学习模型进行异常/敏感声音分类识别。

进一步地，所述将对应的警示音y(n)在数字域加到声音信号x(n)上时，令警示音y(n)的能量高于声音信号x(n)。

相比于现有技术，本发明能够取得以下有益效果：充分利用现有摄像头监测***的成熟和完善的传输和云/服务器架构，不对其做任何改变，将异常/敏感声音监测装置直接架设上去，使得安装、使用此音频装置变得很简单和方便，而且成本也低廉。

附图说明

图1为根据本发明的音频监测装置结构框图；

图2为根据本发明的云/服务器端对音频信号z(t)的处理流程框图；

图3为根据本发明的警示音与录音混合处理流程框图。

具体实施方式

下面结合附图和具体实施例对本发明的技术方案作进一步说明。

本发明基于当前摄像头的传输和云/服务器架构已经成熟地存在和广泛使用的情况，将所提的异常/敏感声音监测装置架设在已有的摄像头网络之上，具体布设时可以一个摄像头上加装一个音频监测装置，装置的信号输出端直接用音频连接线接入到摄像头的线性/麦克风输入端，利用摄像头网络的传输线路将音频信号上传至后台服务器端进行实时监测。文中所述摄像头网络也可称为是摄像头采集***或摄像采集***。文中所述加载于已有摄像头网络的音频监测装置也可称为加载于已有摄像采集***的音频监测装置。参照图1，所述音频监测装置具体包括：

音频输出模块，用于将拾取的声音信号x(t)和/或混合声音信号z(t)经由音频连接线送入摄像头的线性/麦克风输入端，将监测的音频接入摄像头网络；

警示音提示模块，音频信号x(t)和z(t)经由摄像头***的传输通道传入云/服务器端，警示音提示模块即摄像头***的云/服务器端，对传入的音频信号z(t)进行警示音检测，当检测到警示音时，进行相应词汇的语音识别，并播放和/或发送给管理人员。

音频监测的目的是对环境中可能出现的异常/敏感声音进行及时准确的识别，异常/敏感声音包括尖叫声、***声、倒塌声、砸玻璃声等等，在很多情况下，麦克风拾取的声音信号往往包含风声、雨声等环境噪声，需要进行消噪，保留目标声音信号。消噪模块利用采样除噪法和噪音门限除噪法，将拾取的声音中的环境噪声消除。

异常声音识别模块包括检测单元和识别单元，检测单元通过频率比对实时检测拾取的声音中是否包含预先定义的异常/敏感声音，识别单元利用预先训练的机器学习模型来识别拾取的声音中包含的异常/敏感声音。

利用上述音频监测装置的进行异常/敏感声音监测的方法，包括以下步骤：

1)麦克风拾取监测区域内的声音信号x(t)，利用模数转换模块转换为数字域声音信号x₀(n)。

2)对声音信号x₀(n)做消除风声、雨声等杂音处理后得到较为纯净的声音信号x(n)。

3)对纯净的声音信号x(n)进行实时检测，确定其是否包含预先定义的异常/敏感声音，如呼救声、砸玻璃声、***声等等。可以根据声音的多重特征进行检测，例如，将较高的一定频率范围内的声音作为检测标准，一旦检测到有同频段声音，则认为存在异常/敏感声音。

4)利用预先训练的机器学习模型对异常/敏感声音进行细致识别，识别具体是哪一种异常/敏感声音。根据频率识别出有异常/敏感声音后，还需进一步确认是否真的有异常，并确认是哪一种异常。预先利用机器学习算法进行模型训练，可以实现类别的识别，并具有较高的识别精度。例如，分别提取呼救声、砸玻璃声、***声等异常声音的特征，将这些样本特征数据划分为训练集和验证集，将训练集数据送入学习模型中进行迭代训练，利用验证集数据进行验证，当验证集的正确率达到一定的精度以上停止训练。具体进行分类识别的机器学习算法已比较成熟，利用现有技术即可实现，此处不加以赘述。

5)一旦监测和识别出具体的异常/敏感声音类别，将对应的警示音y(n)在数字域加到上述x(n)上，形成z(n)，然后在经过数模转换成为模拟信号z(t)作为装置的输出。警示音与异常声音的对应关系，例如，可以在识别出***声时，将警示音文字内容设为“发生***”，在识别出尖叫声时，将警示音文字内容设为“发生呼救”。为了突出警示音，警示音的能量可以明显比x(n)的能量大很多，具体实施时，可以先对声音信号x(n)进行动态范围控制，将其峰值压小，再进行缩小，然后将警示音y(n)人为进行放大后再加上去，确保警示音信号与麦克风平时的录音有足够的区分度。通过这样处理，再对警示音进行检测就比较容易；对其进行语音识别时，确保识别正确；在控制端进行播放时，可以将音量调到适量，确保其他声音近乎听不见，而警示音能听的很清楚。

6)处理后的音频信号以及加上警示提示音，即z(t)信号，直接用音频连接线接入到摄像头的线性/麦克风输入端，即直接并入到摄像头的传输和云/服务器架构体系；z(t)通过已有的摄像头网络架构传输到云/服务器端和监控终端。如果摄像头有数字音频输入，则直接将混合声音信号z(n)上传；如果摄像头只有模拟音频信号输入，则直接上传麦克风拾取的模拟信号x(t)。

7)云/服务器端对于所传入的音频信号z(t)进行警示音检测，一旦检测到警示音，就进行特定词汇的语音识别，将识别出的信息发送给有关管理人员。

8)监控终端可以与云服务器相连，也可以直接与前端音频监测装置连接。在监控终端会同时对于很多个摄像头进行监测，并且播放出所监控的摄像头附带的声音，将音量调至环境声音听不到而警示提示音能听到的水平，这样一旦发生异常，监控人员第一时间就能听到。

以上所述仅是本发明的具体实施方式，在上述教导下，本领域技术人员可以进行其他的改进或变形。在不脱离本发明精神和实质的情形下的任何改进或修改，均应落入本发明要求的保护范围内。

Claims

1.一种加载于已有摄像头网络的音频监测装置，其特征在于，包括：

消噪模块，用于通过采样除噪法和噪音门限除噪法将声音信号x(n)中的环境噪声消除，得到纯净的声音信号x(n)；

异常声音识别模块，用于对消噪后的声音信号x(n)进行异常声音检测和识别，所述异常声音是预先定义的具有特定特征的声音，所述异常声音识别模块包括检测单元和识别单元，所述检测单元通过信号处理实时检测拾取的声音中是否包含预先定义的异常声音，所述识别单元利用预先训练的机器学习模型来识别异常声音的类别；

混音模块，用于在识别出异常声音的情况下，根据识别出的异常声音类别，将对应的预设的警示音y(n)加载到声音信号x(n)上，并令警示音y(n)的能量高于声音信号x(n)，得到混合声音信号z(n)；

数模转换模块，用于对混合声音信号z(n)进行数模转换后得到模拟的混合声音信号z(t)；

音频输出模块，用于将拾取的声音信号x(t)和模拟的混合声音信号z(t)经由音频连接线送入摄像头的线性输入端或麦克风输入端，将监测的音频接入摄像头网络的云端或服务器端；

警示音提示模块，通过摄像头网络的云端或服务器端对所传入的音频信号进行警示音检测，当检测到警示音时，进行相应词汇的语音识别，并播放和/或发送给管理人员。

2.一种音频监测方法，其特征在于，所述方法包括：

利用一个或多个麦克风拾取监测区域内的声音信号x(t)，通过模数转换得到数字域声音信号x(n)，利用采样除噪法和噪音门限除噪法，将声音信号x(n)中的环境噪声消除，得到纯净的声音信号x(n)；

对消噪后的纯净声音信号x(n)进行异常声音检测和识别，所述异常声音是预先定义的具有特定特征的声音，检测和识别方法包括：通过信号处理实时检测拾取的声音中是否包含预先定义的异常声音；当存在异常声音时，利用预先训练的机器学习模型进行异常声音分类识别；

当识别出异常声音类别时，将对应的警示音y(n)在数字域加到声音信号x(n)上，并令警示音y(n)的能量高于声音信号x(n)，得到混合声音信号z(n)，并经过数模转换得到模拟的混合声音信号z(t)；

将拾取的声音信号x(t)和模拟的混合声音信号z(t)通过音频连接线接入到摄像头的线性输入端或麦克风输入端，利用已有的摄像头网络架构传输到云端或服务器端；

云端或服务器端对于所传入的音频信号进行警示提示音检测，当检测到警示音时，进行相应词汇的语音识别，并播放和/或发送给管理人员。