CN110751955B

CN110751955B - 基于时频矩阵动态选择的声音事件分类方法及***

Info

Publication number: CN110751955B
Application number: CN201910900273.4A
Authority: CN
Inventors: 魏莹; 刘迎港
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-09-23
Filing date: 2019-09-23
Publication date: 2022-03-01
Anticipated expiration: 2039-09-23
Also published as: CN110751955A

Abstract

本发明公开了一种基于时频矩阵动态选择的声音事件分类方法及***，包括：采集设定区域环境内的声音信号数据，进行声音信号数据的预处理；对于预处理后的声音信号，生成语谱图；将原始语谱图逐步缩小，生成多个不同大小的时频矩阵；求取各个时频矩阵与原始语谱图之间的相似度，找到最优时频矩阵，将最优时频矩阵转换为图信号；从图信号中提取出特征事件；将提取到的特征事件送入分类器，得到声音事件的分类结果。本发明有益效果：简化特征提取过程，同时设置适合的动态阈值以保证提取的特征的完整性。采用基于图信号的方法计算两图像的相似度，为每一个声音信号动态选择时频矩阵，在减少计算量的同时尽可能保留声音信号的高能量谱信息。

Description

基于时频矩阵动态选择的声音事件分类方法及***

技术领域

本发明属于声音识别与分类技术领域，尤其涉及一种基于时频矩阵动态选择的声音事件分类方法及***。

背景技术

日常生活中在我们周围存在各种各样的声音场景，包括物体相互撞击发出的声音，气体喷射发出的声音，粒子下落发出的声音，物体摩擦发出的声音，各种铃声、喇叭声，电子乐器声音等等，真实环境中的非语言声音事件识别与分类引起越来越多人的关注。声音场景识别与分类有着各种应用，包括智能环境场景识别，基于声音的监测***，家居自动化，机器听觉等等。

现今语音识别技术非常普遍，但声音场景的识别与分类技术相对较少，其中基于图信号的特征提取方法更少。发明人发现，现有的图信号特征提取方法，纯净声音与含噪声音分别采用不同的特征提取过程，较为复杂；且将所有声音信号统一调整为固定大小的时频矩阵，不能有针对性的为不同类别、长度的声音信号选择合适的时频矩阵，计算量也比较大。

发明内容

为了解决上述问题，本发明提出一种基于时频矩阵动态选择的声音事件分类方法及***，增加了利用图信号方法计算两图像相似度进行动态选择时频矩阵的过程，为每一个声音信号选择最合适的时频矩阵。

在一些实施方式中，采用如下技术方案：

一种基于时频矩阵动态选择的声音事件分类方法，包括：

采集设定区域环境内的声音信号数据，进行声音信号数据的预处理；

对于预处理后的声音信号，生成语谱图；

将原始语谱图逐步缩小，生成多个不同大小的时频矩阵；

求取各个时频矩阵与原始语谱图之间的相似度，找到最优时频矩阵，将最优时频矩阵转换为图信号；

从图信号中提取出特征事件；将提取到的特征事件送入分类器，得到声音事件的分类结果。

利用动态时间规整方法计算原始语谱图与各个时频矩阵的相似度，即计算两个图信号序列的相对距离，随着缩减次数的增多，相对距离逐渐增大，当时频矩阵过小时，相对距离会出现一个突增的趋势，据此，为每一个声音信号选择合适大小的时频矩阵。

在另一些实施方式中，采用如下技术方案：

一种基于时频矩阵动态选择的声音事件分类***，包括：

用于采集设定区域环境内的声音信号数据，进行声音信号数据的预处理的装置；

用于对于预处理后的声音信号，生成语谱图的装置；

用于将原始语谱图逐步缩小，生成多个不同大小的时频矩阵的装置；

用于求取各个时频矩阵与原始语谱图之间的相似度，找到最优时频矩阵，将图像转换为图信号的装置；

用于从图信号中提取出特征事件；将提取到的特征事件送入分类器，得到声音事件分类结果的装置。

在另一些实施方式中，采用如下技术方案：

一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行上述的基于时频矩阵动态选择的声音事件分类方法。

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行上述的基于时频矩阵动态选择的声音事件分类方法。

与现有技术相比，本发明的有益效果是：

(1)本发明方法增加了声音信号预处理过程，能够增大信号的高频分辨率，起到提高信噪比的作用。

(2)改进了特征提取算法，简化了特征提取过程；对纯净声音与含噪声音采用相同的特征提取算法，更加简单易于实现，且为每一个声音信号设置适合的动态阈值min(M)以保持信号的高能量谱对比信息，保证提取的特征的完整性。

(3)采用基于图信号的方法计算两图像的相似度，动态选择时频矩阵，为每一个声音信号选择合适大小的时频矩阵，可以在减少计算量的同时尽可能保留声音信号的高能量谱信息。

附图说明

图1为本发明实施例一中基于动态选择时频矩阵声音事件分类方法流程示意图；

图2(a)为本发明实施例一中声音样本horn的语谱图；

图2(b)为本发明实施例一中声音样本horn的图信号；

图3(a)为本发明实施例一中声音样本horn缩减一次后的时频矩阵；

图3(b)为本发明实施例一中声音样本horn缩减两次后的时频矩阵；

图3(c)为本发明实施例一中声音样本horn缩减三次后的时频矩阵；

图3(d)为本发明实施例一中声音样本horn缩减一次后的时频矩阵的图信号；

图3(e)为本发明实施例一中声音样本horn缩减两次后的时频矩阵的图信号；

图3(f)为本发明实施例一中声音样本horn缩减三次后的时频矩阵的图信号；

图4为本发明实施例一中时频矩阵图信号与原始语谱图的图信号相似度对比示意图；

图5为本发明实施例一中声音样本horn提取得到的特征事件示意图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

声音场景识别与分类有着各种应用，包括智能环境场景识别，基于声音的监测***，家居自动化，机器听觉等等。这种声音事件分类方法可以应用于环境场景识别应用中，各种声音检测***中，家居自动化等多种应用中，结合具体的应用场景，实现对应的操作。以通过声音事件分类进行声音监控为例进行说明，监控***通过对实时收集到的各类声音进行识别分类以判断危险事件，进而可采取应对措施，如枪声、***声等会触发报警***；例如在礼堂中，根据识别到的鼓掌声音自动变换灯光颜色、类型等；再如家居自动化中，各智能家居根据识别到的不同声音类型，自动进行预先设定好的操作等，声音分类具有广泛的应用场景。

在一个或多个实施例中，公开了一种基于时频矩阵动态选择的声音事件分类方法，如图1所示，包括以下步骤：

(1)采集设定区域环境内的声音信号数据，进行声音信号数据的预处理；在不同的应用环境与应用目的中，声音信号与噪声是会发生变化的。如声音监控***中，枪声、***声可触发报警***，此时枪声、***声就是要检测的声音信号，其他声音如脚步声、风声等就被视为噪声；礼堂中，鼓掌声音可自动变换灯光颜色和类型，此时鼓掌声就是需要的声音信号，人们说话的嘈杂声就是噪声；家居自动化中，各智能家居则根据识别到的不同声音类型自动采取对应的操作，此时预先设定的触发声音就是需要的声音信号，其他不相关声音就为噪声。

在声音分类过程中，预处理是基础与前提，直接影响到后续声音分类的准确率。该声音场景分类中，预处理主要包括去除声音信号首尾静音部分，最大值归一化和预加重。

为更好的进行特征提取与声音事件分类，首先是对每一个声音样本进行语音活动检测去除首尾静音部分，只保留有用信号部分。实验中认为声音信号幅度值小于等于0.002时为静音。

然后对声音信号进行最大值归一化处理，将绝对强度转化为相对强度，取消各数据间的数量级差别，避免因为数据数量级差别较大而造成预测误差较大。最后进行预加重，通过一阶高通滤波器完成，增强信号的高频分量，以增大信号的高频分辨率，起到提高信噪比的作用。预加重传递函数为H(Z)＝1-a*z^-1，系数0.9<a<1，实验中取a＝0.98。

(2)对于预处理后的声音信号，生成语谱图；

将声音信号进行预处理后提取出最能代表声音本质的信息，用于后续识别分类。在该声音场景分类中，采用基于图信号的特征提取方法，利用语谱图高能量谱部分进行声音特征表示。

首先生成语谱图，因为声音信号是短时平稳的，所以可将信号分成多个相对较短的片段，称为帧，然后通过一个随帧移动的窗函数实现分帧。短时傅里叶变换用于生成语谱图，其公式为

其中，x(n)为时域输入信号，w(n)为海明窗函数，N为窗长，k为离散频率点坐标，n为时域点坐标。

以声音信号horn为例，其语谱图如图2(a)所示。

(3)选取时频参数，对语谱图大小进行调整；

为减少计算量，重新调整语谱图大小。采用动态的时频矩阵选择方法，以找到适合于不同类型、不同长度声音信号的最优时频矩阵大小，而不是将所有声音信号的语谱图统一调整为固定大小的时频矩阵，可以在保证提取到充分的有用信息的同时尽可能的减少计算量。本实施例采用双三次插值图像缩放算法调整语谱图大小，利用待采样点周围16个点的值作三次插值，不仅考虑到周围4个直接相邻点的影响，而且考虑到各相邻点变化率的影响。将原始语谱图逐步缩小，生成多个不同大小的时频矩阵，语谱图横坐标是时间，纵坐标是频率，坐标点值为语音数据能量。将横纵坐标表示为特定数量的时频块，此时语谱图就可以理解为一个时频矩阵。从语谱图到时频矩阵的过程就是调整语谱图大小的过程。

然后采用一种新的基于图信号的方法来量化各个时频矩阵与原始语谱图之间的相似度，找到最优时频矩阵，将最优时频矩阵转换为图信号，计算相似度的目的是判断该时频矩阵是否包含了足够的原语谱图信息，权衡计算复杂度和相似度来寻找最优时频矩阵，从而实现时频矩阵的动态选择，为每一个声音信号选择合适大小的时频矩阵。

为了在减少计算量的同时不丢失过多信息，提出了一种新的基于图信号的方法来量化两幅图像的相似度，首先将原始语谱图与调整后得到的时频矩阵按列遍历转换为一维向量，分别得到各自的图信号，然后提取图信号的包络并进行插值处理与最大值归一化处理，最后利用动态时间规整方法计算原始语谱图与缩减后的时频矩阵的相似度，即计算两个图信号序列的相对距离，使之保持在一个合适的范围，随着缩减次数的增多，相对距离逐渐增大，当时频矩阵过小时，相对距离可能会出现一个突增的趋势，此时就可以为每一个声音信号选择到合适大小的时频矩阵。这种动态选择时频矩阵大小的方法为每一个声音信号选择了合适大小的时频矩阵，而不是将所有声音信号统一确定为一个固定大小的时频矩阵，可以在减少计算量的同时尽可能的保留声音信号的高能量谱信息。

以声音样本horn为例，语谱图及对应的图信号如图2(a)-(b)所示，采用双三次插值方法分别缩减三次后得到的时频矩阵及图信号如图3(a)-(f)所示。对比图2(a)-(b)与图3(a)-(f)可以发现，随着缩减次数的增多，图信号点数不断减少，但时频矩阵与原始语谱图的相似度也越来越低。

当相似度过低时，提取得到的特征信息将不足以判断声音类别，进而会影响分类效果，所以采用了基于图信号的方法来衡量两者的相似度。

以声音样本horn为例，缩减一次、两次、三次后的时频矩阵图信号与原始语谱图的图信号的相对距离分别为4.04％、12.49％、76.46％，其相似度对比如图4所示，缩减三次时相对距离急剧增大，时频矩阵与原始语谱图的相似度过低，故将声音样本horn进行两次缩减得到时频矩阵。原始语谱图大小为129*175，而调整后得到的时频矩阵大小仅为12*11，极大的减少了计算量同时又保留了足够的高能量谱特征。

(4)提取特征事件；

现有技术中纯净声音与含噪声音分别采用不同的特征提取方法，对含噪声音信号增加了局部噪声估计过程，然后再提取其特征。本实施方式对特征提取算法进行调整改进，对纯净声音与含噪声音采用相同的特征提取算法，更加简单易于实现。为每一个声音信号设置适合的动态阈值min(M)以保持信号的高能量谱对比信息，保证提取的特征的完整性。为得到其高能量谱特征信息，将调整后得到的时频矩阵图信号分帧，帧长为2，重叠率为50％，以提取得到最终的特征事件。

确定每一帧的最大值，生成各局部最大值向量M，如公式(2)所示。

M(j)＝max(frame_j),j＝1,…,length(G)-1 (2)

其中，G为图信号，j为帧数，frame_j为各帧信号，M向量存储各局部最大值。

纯净声音与含噪声音采用相同的特征提取方法，且每一个声音信号设置适合的动态阈值min(M)以保持信号的高能量谱对比信息，保证提取的特征的完整性，得到最终的特征向量E：

提取高能量谱信息，得到最终的特征向量E的过程如公式(3)所示。

其中，i为图信号点数，G(i)为图信号G的第i个图信号值，E(i)为特征向量E的第i个特征值。

仍以声音样本horn为例，提取得到的特征事件如图5所示。

(5)利用分类器进行声音分类

将提取到的特征事件送入分类器，最终实现声音事件分类。将提取得到的特征事件随机分为训练集与测试集，首先对训练数据进行不断的学习，建立模型，然后将训练好的模型应用于测试集对未知声音信号进行分类。

实施例二

在一个或多个实施例中，公开了一种基于时频矩阵动态选择的声音事件分类***，包括：

用于对于预处理后的声音信号，生成语谱图的装置；

实施例三

在一个或多个实施方式中，公开了一种终端设备，包括服务器，所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例一中的基于时频矩阵动态选择的声音事件分类方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的基于时频矩阵动态选择的声音事件分类方法，可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于时频矩阵动态选择的声音事件分类方法，其特征在于，包括：

对于预处理后的声音信号，生成语谱图；

将原始语谱图逐步缩小，生成多个不同大小的时频矩阵；

求取各个时频矩阵与原始语谱图之间的相似度，找到最优时频矩阵，将最优时频矩阵转换为图信号；求取各个时频矩阵与原始语谱图之间的相似度，找到最优时频矩阵，具体为：

利用动态时间规整方法计算原始语谱图与各个时频矩阵的相似度，即计算两个图信号序列的相对距离，随着缩减次数的增多，相对距离逐渐增大，当时频矩阵过小时，相对距离会出现一个突增的趋势，据此，为每一个声音信号选择合适大小的时频矩阵；

从图信号中提取出特征事件；从图信号中提取出特征事件，具体为：

将调整后得到的时频矩阵图信号分帧，确定每一帧的最大值，生成各局部最大值向量M；

M(j)＝max(frame_j),j＝1,…,length(G)-1；

其中，G为图信号，j为帧数，frame_j为各帧信号，M向量存储各局部最大值，M(j)为向量M中的第j个值；

其中，i为图信号点数，G(i)为图信号G的第i个图信号值，E(i)为特征向量E的第i个特征值；min(M)为设置的声音信号动态阈值，取向量M中所有值的最小值；为每一个声音信号设置适合的动态阈值min(M)以保持信号的高能量谱对比信息，保证提取的特征的完整性；

将提取到的特征事件送入分类器，得到声音事件的分类结果。

2.如权利要求1所述的一种基于时频矩阵动态选择的声音事件分类方法，其特征在于，所述进行声音信号数据的预处理，具体为：

对每一个声音样本进行语音活动检测，去除首尾静音部分；

对声音信号进行最大值归一化处理；

通过一阶高通滤波器对声音信号进行预加重处理，增强信号的高频分量。

3.如权利要求1所述的一种基于时频矩阵动态选择的声音事件分类方法，其特征在于，所述的生成语谱图，具体方法为：

将信号分成多个相对较短的片段，称为帧，通过一个随帧移动的窗函数实现分帧；

利用短时傅里叶变换生成语谱图，其公式为：

4.如权利要求1所述的一种基于时频矩阵动态选择的声音事件分类方法，其特征在于，将原始语谱图逐步缩小，生成多个不同大小的时频矩阵，具体为：采用双三次插值算法调整语谱图大小。

5.如权利要求1所述的一种基于时频矩阵动态选择的声音事件分类方法，其特征在于，将提取到的特征事件送入分类器，得到声音事件分类结果，具体为：

将提取得到的特征事件随机分为训练集与测试集，对训练集数据进行不断的学习建立最优模型，将训练好的模型应用于测试集对未知声音信号进行分类。

6.一种基于时频矩阵动态选择的声音事件分类***，其特征在于，包括：

用于对于预处理后的声音信号，生成语谱图的装置；

用于求取各个时频矩阵与原始语谱图之间的相似度，找到最优时频矩阵，将图像转换为图信号的装置；求取各个时频矩阵与原始语谱图之间的相似度，找到最优时频矩阵，具体为：

用于从图信号中提取出特征事件；从图信号中提取出特征事件，具体为：

M(j)＝max(frame_j),j＝1,…,length(G)-1；

将提取到的特征事件送入分类器，得到声音事件分类结果的装置。

7.一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，其特征在于，所述指令适于由处理器加载并执行权利要求1-5任一项所述的基于时频矩阵动态选择的声音事件分类方法。

8.一种计算机可读存储介质，其中存储有多条指令，其特征在于，所述指令适于由终端设备的处理器加载并执行权利要求1-5任一项所述的基于时频矩阵动态选择的声音事件分类方法。