CN105679313A

CN105679313A - 一种音频识别报警***及方法

Info

Publication number: CN105679313A
Application number: CN201610237587.7A
Authority: CN
Inventors: 王奋飞; 黄汉清
Original assignee: Fujian Xinhengtong Intelligent Technology Co Ltd
Current assignee: Fujian Xinhengtong Intelligent Technology Co Ltd
Priority date: 2016-04-15
Filing date: 2016-04-15
Publication date: 2016-06-15

Abstract

本发明涉及一种音频识别报警***及方法，包括：采集模块采集音频数据；第一音频匹配模块对音频数据依次进行模数转换、初次特征选取和分析，生成第一声纹数据，将第一声纹数据与设定声纹数据通过一级匹配模型进行初次匹配，提取初次匹配成功的音频数据；第二音频匹配模块对初次匹配成功的音频数据进行二次特征选取和分析，生成第二声纹数据，将第二成声纹数据与设定声纹数据通过二级匹配模型进行二次匹配，匹配成功则生成报警数据；报警模块根据报警数据进行报警。相对现有技术，本发明能采集检测出环境音中异常的尖叫、惨叫声，尖叫、惨叫声检测精度高，并能进行报警。

Description

一种音频识别报警***及方法

技术领域

本发明涉及安防技术领域，特别涉及一种音频识别报警***及方法。

背景技术

生活环境中在一些偶发的事件中（如抢劫等），人受到惊吓瞬间，由于事件的突发性及受到惊吓，往往会手足无措，但出于本能往往会条件性的尖叫呼喊声，而本发明技术应用音频声纹检测技术及时的拾取加以识别，并输出信号来对事件进行及时的处理。

发明内容

本发明所要解决的技术问题是提供一种能采集检测出环境音中异常的尖叫、惨叫声，尖叫、惨叫声检测精度高，并能进行报警的音频识别报警***及方法。

本发明解决上述技术问题的技术方案如下：一种音频识别报警***，包括：

采集模块，用于采集音频数据；

第一音频匹配模块，用于对音频数据依次进行模数转换、初次特征选取和分析，生成第一声纹数据，将第一声纹数据与设定声纹数据通过一级匹配模型进行初次匹配，提取初次匹配成功的音频数据；

第二音频匹配模块，用于对初次匹配成功的音频数据进行二次特征选取和分析，生成第二声纹数据，将第二成声纹数据与设定声纹数据通过二级匹配模型进行二次匹配，匹配成功则生成报警数据；

报警模块，用于根据报警数据进行报警。

本发明的有益效果是：第一音频匹配模块对音频数据进行初步的匹配，将不匹配的音频数据进行过滤掉，匹配的音频数据传送至第二音频匹配模块进行二次匹配，匹配成功后通过报警模块进行报警；通过两次音频数据匹配，能有效提升声音检测的精准度；再者通过采集模块、第一音频匹配模块、第二音频匹配模块和报警模块的协调运作，能采集检测出环境音中异常的尖叫、惨叫声，并能进行报警。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，还包括黑白名单训练模块，所述黑白名单训练模块用于采集第二声纹数据，对第二声纹数据进行筛选和分析，将符合尖叫音频标准的第二声纹数据录入白名单，将不符合尖叫音频标准的第二声纹数据录入黑名单，并将白名单内的第二声纹数据输入所述第二音频匹配模块内作为设定声纹数据。

采用上述进一步方案的有益效果是：黑白名单训练模块能有效录入音频数据，并进行筛选分析，并将筛选出的音频数据作为设定声纹数据，第二音频匹配模块根据设定声纹数据进行匹配，能有效提高数据处理的精确度，从而实现精准识别尖叫求救声，进行报警。

进一步，所述第一音频匹配模块包括模数转换单元、第一声纹数据单元和第一数据匹配单元，所述模数转换单元将音频模拟数据转换成音频数字数据；所述第一声纹数据单元用于将模数转换后的音频数据进行初次特征选取和分析，生成第一声纹数据；第一数据匹配单元用于将第一声纹数据与尖叫声纹数据通过一级匹配模型进行初次匹配，提取初次匹配成功的音频数据。

采用上述进一步方案的有益效果是：通过模数转换单元、第一声纹数据单元和第一数据匹配单元的协调运作，能有效实现对采集的音频数据进行一次匹配过滤，提升识别尖叫求救声的精准度。

进一步，所述第二音频匹配模块包括数据接收单元、第二声纹数据单元、第二数据匹配单元和数据返回单元，所述数据接收单元用于采集初次匹配成功的音频信号；所述第二声纹数据单元用于将初次匹配成功的音频数据进行二次特征选取和分析，生成第二声纹数据；所述第二数据匹配单元用于将第二成声纹数据与尖叫声纹数据通过二级匹配模型进行二次匹配，当二次匹配成功时，生成警报信号；所述数据返回单元用于将报警数据通过所述第一音频匹配模块传输至报警模块。

采用上述进一步方案的有益效果是：通过数据接收单元、第二声纹数据单元、第二数据匹配单元和数据返回单元的协调运作，能有效实现对音频数据的二次检测识别，提高对尖叫声的精准识别，提升报警的准确度。

进一步，所述一级匹配模型和二级匹配模型均包括高斯混合模型，高斯混合模型具体为：

式中，为GMM模型的参数集；o为K维的声学特征矢量；i为隐状态号，也就是高斯分量的序号，M阶GMM就有M个隐状态；c为第f个分量的混合权值，其值对应为隐状态i的先验概率。

采用上述进一步方案的有益效果是：高斯混合模型能有效对音频信号进行数据处理，便于音频数据的匹配识别，提升匹配精度。

进一步，所述第一音频匹配模块与所述第二音频匹配模块通过网络进行数据传输。

采用上述进一步方案的有益效果是：可以实现第一音频匹配模块和第二音频匹配模块进行远距离传输，扩大了适用范围。

进一步，还包括声音强度检测模块，所述声音强度检测模块用于对采集音频数据进行声音强度检测，当声音强度超过设定标准，将采集音频数据传输至第一音频匹配模块。

采用上述进一步方案的有益效果是：声音强度检测模块能对声音小的一些杂音进行过滤，消除干扰，保证音频资料两次匹配的精准度。

本发明解决上述技术问题的另一技术方案如下：一种尖叫音频识别方法，包括

采集音频数据，第一音频匹配模块对音频数据依次进行模数转换、初次特征选取和分析，生成第一声纹数据，将第一声纹数据与设定声纹数据通过一级匹配模型进行初次匹配，提取初次匹配成功的音频数据；

对初次匹配成功的音频数据进行二次特征选取和分析，生成第二声纹数据，将第二成声纹数据与设定声纹数据通过二级匹配模型进行二次匹配，匹配成功则生成报警数据，根据报警数据进行报警。

附图说明

图1为本发明一种音频识别报警***的模块框图；

图2为本发明一种音频识别报警***的流程图。

附图中，各标号所代表的部件列表如下：

1、采集模块；

2、第一音频匹配模块，21、模数转换单元，22、第一声纹数据单元，23、第一数据匹配单元；

3、第二音频匹配模块，31、数据接收单元，32、第二声纹数据单元，33、第二数据匹配单元，34、数据返回单元；

4、报警模块，5、黑白名单训练模块，6、声音强度检测模块。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，一种音频识别报警***，包括：

采集模块1，用于采集音频数据；

第一音频匹配模块2，用于对音频数据依次进行模数转换、初次特征选取和分析，生成第一声纹数据，将第一声纹数据与设定声纹数据通过一级匹配模型进行初次匹配，提取初次匹配成功的音频数据；

第二音频匹配模块3，用于对初次匹配成功的音频数据进行二次特征选取和分析，生成第二声纹数据，将第二成声纹数据与设定声纹数据通过二级匹配模型进行二次匹配，匹配成功则生成报警数据；

报警模块4，用于根据报警数据进行报警。

优选的，还包括黑白名单训练模块5，所述黑白名单训练模块5用于采集第二声纹数据，对第二声纹数据进行筛选和分析，将符合尖叫音频标准的第二声纹数据录入白名单，将不符合尖叫音频标准的第二声纹数据录入黑名单，并将白名单内的第二声纹数据输入所述第二音频匹配模块3内作为设定声纹数据；黑白名单训练模块5能有效录入音频数据，并进行筛选分析，并将筛选出的音频数据作为设定声纹数据，第二音频匹配模块3根据设定声纹数据进行匹配，能有效提高数据处理的精确度，从而实现精准识别尖叫求救声，进行报警。

优选的，所述第一音频匹配模块2包括模数转换单元21、第一声纹数据单元22和第一数据匹配单元23，所述模数转换单元21将音频模拟数据转换成音频数字数据；所述第一声纹数据单元22用于将模数转换后的音频数据进行初次特征选取和分析，生成第一声纹数据；第一数据匹配单元23用于将第一声纹数据与尖叫声纹数据通过一级匹配模型进行初次匹配，提取初次匹配成功的音频数据；通过模数转换单元21、第一声纹数据单元22和第一数据匹配单元23的协调运作，能有效实现对采集的音频数据进行一次匹配过滤，提升识别尖叫、惨叫求救声的精准度。

优选的，所述第二音频匹配模块3包括数据接收单元31、第二声纹数据单元32、第二数据匹配单元33和数据返回单元34，所述数据接收单元31用于采集初次匹配成功的音频信号；所述第二声纹数据单元32用于将初次匹配成功的音频数据进行二次特征选取和分析，生成第二声纹数据；所述第二数据匹配单元33用于将第二成声纹数据与尖叫声纹数据通过二级匹配模型进行二次匹配，当二次匹配成功时，生成警报信号；所述数据返回单元34用于将报警数据通过所述第一音频匹配模块2传输至报警模块4；通过数据接收单元31、第二声纹数据单元32、第二数据匹配单元33和数据返回单元34的协调运作，能有效实现对音频数据的二次检测识别，提高对尖叫声的精准识别，提升报警的准确度。

优选的，所述一级匹配模型和二级匹配模型均包括高斯混合模型，高斯混合模型具体为：

式中的)为高斯混合分量，是的简写形式，对应隐状态i的观察概率密度函数，一般采用K维单高斯分布函数，如下式所示

式中，为均值矢量：∑_i为协方差矩阵，i=1，2，…，M。因此该公式可以理解为，M阶GMM是用M个单高斯分布的线性组合来描述，即GMM参数2可由各均值矢量、协方差矩阵及混合分量的权值组成，表示

如下三元组的形式

(1)

式中，协方差矩阵∑_i．可以取普通矩阵，也可以取对角阵。由于取对角阵时算法简单，并且性能也很好，所以常取对角阵，即

(2)

式中为GMM第i分量所对应的特征矢量的第k维分量的方差。将式(2)代入式(1)得

将GMM应用于音频识别的直观解释是：每个音频的音频声学特征空间可以用一些声学的特征类来表示，这些声学特征类代表一些广义上的音素，并且能够反映音频的声道形状。每个声学特征类的频谱可以用一个高斯密度函数来描述，即第i个声学特征类的频谱，可以用混合高斯密度函数的第i个高斯分量的均值和方差来表示。但是所有的测试音频和训练音频都没有事先作出标注，即不知道第f个声学特征类能生成哪些特征矢量，也不知道提取的特征矢量分量属于哪些声学特征类中。从这些隐性的声学类里提取的特征矢量(假定特征矢量相互独立)的密度函数就是一个混合高斯密度函数。

不考虑GMM与声音分类的联系，可以对GMM有另一种解释，它是概率密度函数的一种函数表达式。GMM作为高斯概率密度函数的一个线性组合，只要有足够多数目的混合分量，就可以逼近任意一种密度函数。音频特征通常有着平滑的概率密度函数，因此有限数目的高斯密度函数就足以对音频特征的密度函数形成平滑逼近。通过适当地选择GMM的均值、协方差和概率权重，就可以完成对一个概率密度函数的建模。

为音频建立GMM模型，实际上就是通过训练，估计GMM模型的参数，常用的方法是最大似然的估计方法。最大似然估计的目的是在给定训练矢量集的情况下，寻找合适的模型参数，使GMM模型的似然函数值最大。训练时，首先要对模型训练参数进行初始化，一种方法是从训练数据中任取M组数据与M个高斯分量相对应，每组含有相同矢量个数，求其均值和方差作为初始均值和方差，并让各分量具有相同的混合权值；另一种方法是采用K均值。

聚类算法将训练数据聚成M类，然后每一类对应一高斯分量，以每类均值和方差作为对应高斯分量的初始均值和方差，混合权值等于类内数据的数量与数据总量的比值。混合数M的选择与具体的应用有关，一般应由实验来确定。

在基于GMM的尖叫识别***中；一般说来，与测试音频同类的目标模型得分高的帧要多于其它非目标模型。但通过观察发现由于音频的各项特征的长时间变动或者噪声等干扰的影响，某些测试帧对于非目标模型的得分反而大于目标模型的得分，称为破坏帧，且个别破坏帧对于非目标模型的得分还可能极高，而对于目标模型的得分极低。无形之中，非目标模型的得分被拉近甚至可能超过目标模型引起误判,从而设想将每帧对各模型的得分进行加权,加权后的结果再由贝叶斯定理对加权结果得分进行判定。

实验音频数据取自普通实验室环境及模拟应用环境。录取多种音频数据。作为基础训练用。录音采样频率为8KHz。量化精度为16bit。音频经过预处理之后，取帧宽为256点(39ms)，帧移为128点(19．5ms)，分两级建模，一级提取11阶的MFCC及其一阶倒谱及1阶的短时过零率作为特征参数矢量，GMM混合数取13；二级提取11阶的MFCC及其一阶倒谱及10阶的帧短时谱及1阶的短时过零率作为特征参数矢量。GMM混合数取38。建模的时间长度为2s。一级匹配模型用来快速的对数据进行分离提高分析速度，二级匹配模型则对数据进行更细化的分析，加强数据分析的准确性。

优选的，所述第一音频匹配模块2与所述第二音频匹配模块3通过网络进行数据传输；可以实现第一音频匹配模块2和第二音频匹配模块3进行远距离传输，扩大了适用范围。

优选的，还包括声音强度检测模块6，所述声音强度检测模块6用于对采集音频数据进行声音强度检测，当声音强度超过设定标准，将采集音频数据传输至第一音频匹配模块2；声音强度检测模块6能对声音小的一些杂音进行过滤，消除干扰，保证音频资料两次匹配的精准度。

如图2所示，一种尖叫音频识别方法，包括

实施本技术方案，环境音频由采集模块1实时采集，经过第一音频匹配模块2初步的模数转换及声纹匹配判断，分离出疑似尖叫呼喊声数据，对于采集到的尖叫呼喊声通过网络传输到PC机的第二音频匹配模块3进行二次判断，PC机收到网络数据后，将进一步的对数据进行细化分析并将结果返回给第一音频匹配模块2；这里第二音频匹配模块3通过多层分级数学模型数据匹配分析，有效的降低了数据的误判率，同时经过黑白名单的建立，经过持续的数据筛选让数据处理不断的得到优化改善，让应用效果更加的理想，更加的符合实质环境下的应用。

在上述实施例中，所述的尖叫是一个广义的概念，但凡是人在紧急、惊恐、疼痛的状况下发出的足以触发报警的尖叫声、惨叫声、危急状况下的呼喊声都称之为尖叫。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频识别报警***，其特征在于，包括：

采集模块（1），用于采集音频数据；

第一音频匹配模块（2），用于对音频数据依次进行模数转换、初次特征选取和分析，生成第一声纹数据，将第一声纹数据与设定声纹数据通过一级匹配模型进行初次匹配，提取初次匹配成功的音频数据；

第二音频匹配模块（3），用于对初次匹配成功的音频数据进行二次特征选取和分析，生成第二声纹数据，将第二成声纹数据与设定声纹数据通过二级匹配模型进行二次匹配，匹配成功则生成报警数据；

报警模块（4），用于根据报警数据进行报警。

2.根据权利要求1所述一种音频识别报警***，其特征在于，还包括黑白名单训练模块（5），所述黑白名单训练模块（5）用于采集第二声纹数据，对第二声纹数据进行筛选和分析，将符合尖叫音频标准的第二声纹数据录入白名单，将不符合尖叫音频标准的第二声纹数据录入黑名单，并将白名单内的第二声纹数据输入所述第二音频匹配模块（3）内作为设定声纹数据。

3.根据权利要求1所述一种音频识别报警***，其特征在于，所述第一音频匹配模块（2）包括模数转换单元（21）、第一声纹数据单元（22）和第一数据匹配单元（23），所述模数转换单元（21）将音频模拟数据转换成音频数字数据；所述第一声纹数据单元（22）用于将模数转换后的音频数据进行初次特征选取和分析，生成第一声纹数据；第一数据匹配单元（23）用于将第一声纹数据与尖叫声纹数据通过一级匹配模型进行初次匹配，提取初次匹配成功的音频数据。

4.根据权利要求3所述一种音频识别报警***，其特征在于，所述第二音频匹配模块（3）包括数据接收单元（31）、第二声纹数据单元（32）、第二数据匹配单元（33）和数据返回单元（34），所述数据接收单元（31）用于采集初次匹配成功的音频信号；所述第二声纹数据单元（32）用于将初次匹配成功的音频数据进行二次特征选取和分析，生成第二声纹数据；所述第二数据匹配单元（33）用于将第二成声纹数据与尖叫声纹数据通过二级匹配模型进行二次匹配，当二次匹配成功时，生成警报信号；所述数据返回单元（34）用于将报警数据通过所述第一音频匹配模块（2）传输至报警模块（4）。

5.根据权利要求1所述一种音频识别报警***，其特征在于，所述一级匹配模型和二级匹配模型均包括高斯混合模型，高斯混合模型具体为：

6.根据权利要求1所述一种音频识别报警***，其特征在于，所述第一音频匹配模块（2）与所述第二音频匹配模块（3）通过网络进行数据传输。

7.根据权利要求1至6任一项所述一种音频识别报警***，其特征在于，还包括声音强度检测模块（6），所述声音强度检测模块（6）用于对采集音频数据进行声音强度检测，当声音强度超过设定标准，将采集音频数据传输至第一音频匹配模块（2）。

8.一种尖叫音频识别方法，其特征在于：包括