CN104347068B

CN104347068B - 音频信号处理装置和方法以及监控***

Info

Publication number: CN104347068B
Application number: CN201310344110.5A
Authority: CN
Inventors: 刘昆
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2013-08-08
Filing date: 2013-08-08
Publication date: 2020-05-22
Anticipated expiration: 2033-08-08
Also published as: US9411883B2; CN104347068A; US20150045920A1

Abstract

本发明公开一种音频信号处理装置和方法以及监控***。所述音频信号处理装置包括：分窗单元，用于利用滑动窗顺次读取输入的音频信号；能量计算单元，用于计算每一窗中的音频信号的每一帧的能量；分段单元，用于根据每一窗中的音频信号的每一帧的能量的分布将所述窗中的音频信号划分为多个段，使得每个段中包括能量接近的连续帧；分类单元，用于利用至少一个声音模型对每个段中的音频信号进行分类；以及识别单元，用于根据分类单元的分类结果来识别每个段中的音频信号的声音类别。

Description

音频信号处理装置和方法以及监控***

技术领域

本发明总体上涉及音频处理领域，更具体而言，本发明涉及一种音频信号处理装置和方法以及一种监控***。

背景技术

对音频信号进行处理以准确地识别音频信号中的声音类别，从而提取出特定的音频事件，是音频处理领域的一个重要议题。将音频信号划分为连续的片段是音频信号识别的基础。音频信号分段的效果直接影响音频信号识别的精度。如何改进音频信号分段技术以提高分段的准确性、避免虚假分割点过多、运算量大、误检率与漏检率高等问题成为目前本领域研究的重要方面。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

本发明的目的是提供一种音频信号处理装置和方法以及一种监控***，以便克服现有技术的上述问题中的至少一个。

根据本发明的一个方面，提供了一种音频信号处理装置，包括：分窗单元，用于利用滑动窗顺次读取输入的音频信号；能量计算单元，用于计算每一窗中的音频信号的每一帧的能量；分段单元，用于根据每一窗中的音频信号的每一帧的能量的分布将所述窗中的音频信号划分为多个段，使得每个段中包括能量接近的连续帧；分类单元，用于利用至少一个声音模型对每个段中的音频信号进行分类；以及识别单元，用于根据分类单元的分类结果来识别每个段中的音频信号的声音类别。

根据本发明的另一方面，提供了一种音频信号处理方法，包括：利用滑动窗顺次读取输入的音频信号；计算每一窗中的音频信号的每一帧的能量；根据每一窗中的音频信号的每一帧的能量的分布将所述窗中的音频信号划分为多个段，使得每个段中包括能量接近的连续帧；利用至少一个声音模型对每个段中的音频信号进行分类；以及根据分类结果来识别每个段中的音频信号的声音类别。

根据本发明的又一方面，提供了一种监控***，包括：音频采集装置，用于采集音频信号；音频信号处理装置，用于对所述音频信号进行处理，以识别所述音频信所包含的声音类别；以及报警装置，用于当音频信号处理装置识别到所述音频信号中包含预定类型的声音类别时，产生并发送报警信息，其中，所述音频信号处理装置是根据本发明的以上方面的音频信号处理装置。

在本发明的上述方面的音频信号处理装置和方法以及监控***中，根据每一窗中的音频信号的每一帧的能量的分布将所述窗中的音频信号划分为多个段，使得每个段中包括能量接近的连续帧，并对每个段中的音频信号进行分类。这样，可以对音频信号快速地进行前端分割，不需要提前训练分割用的声学模型，并且由于每个段中包括能量接近的连续帧，使得每个段中包含的声音类别相对单一，从而有助于提高后续音频信号识别的准确率。

附图说明

本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中：

图1示出根据本发明的一个实施例的音频信号处理装置的示意性框图；

图2示出图1所示的音频信号处理装置的示意性工作流程图；

图3示出根据本发明的一个实施例的分段单元的示意性框图；

图4示出图3所示的分段单元的示意性工作流程图；

图5示出根据本发明的一个实施例的分段处理示例的示意性流程图；

图6示出根据本发明的另一个实施例的分段单元的示意性框图；

图7示出根据本发明的另一个实施例的音频信号处理装置的示意性框图；

图8示出图7所示的音频信号处理装置的示意性工作流程图；

图9示出根据本发明的又一实施例的音频信号处理装置的示意性框图；

图10示出图9所示的音频信号处理装置的示意性工作流程图；

图11示出根据本发明的一个实施例的监控***的示意性框图；以及

图12示出可以实现本发明的实施例/示例的计算机的结构的示例性框图。

具体实施方式

下面将参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意，为了清楚的目的，附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。

图1示出根据本发明的一个实施例的音频信号处理装置的示意性框图。如图1所示，音频信号处理装置100包括分窗单元110、能量计算单元120、分段单元130、分类单元140和识别单元150。以下结合图2来描述音频信号处理装置100的示意性工作流程图。

图2示出图1所示的音频信号处理装置100的示意性工作流程图，即根据本发明的一个实施例的音频信号处理方法。如图2所示，在方法P200中，在步骤S210中，利用滑动窗顺次读取输入的音频信号。每一窗信号作为后续的分段、分类和识别等操作的一个处理单元，依次处理每一窗音频信号。在步骤S220中，计算每一窗中的音频信号的每一帧的能量。帧是音频信号的基本单位，每帧音频信号具有预定时长。在步骤S230中，根据每一窗中的音频信号的每一帧的能量的分布将窗中的音频信号划分为多个段，使得每个段中包括能量接近的连续帧。也就是说，每个段的中的帧的能量变化相对比较平缓。在步骤S240中，利用至少一个声音模型对每个段中的音频信号进行分类。声音模型可以是预先训练好的模型，每种声音模型对应于相应的声音类别。通过分类来确定每段中的音频信号相对于所述至少一个声音模型的相似度（例如似然值或分值），作为分类结果。在本实施例中，所采用的具体分类方法没有限制。例如，可以利用声音模型对每段的音频信号整体的特征参数进行分类，从而获得该段的分类结果；或者，也可以利用声音模型对每个段中的音频信号的每一帧的特征参数进行分类，并根据段中各个帧的分类结果确定该段的分类结果。在步骤S250中，根据分类结果来识别每个段中的音频信号的声音类别。具体而言，音频信号关于哪种声音模型的相似度高，就可以确定音频信号属于该种声音模型对应的声音类别。这里，步骤S210可以由分窗单元110执行，步骤S220可以由能量计算单元120执行，步骤S230可以由分段单元130执行，步骤S240可以由分类单元240执行，步骤S250可以由识别单元150执行。

由此，可以对音频信号快速地进行前端分割，不需要提前训练分割用的声学模型。能量比较接近的连续帧可以被认为具有相同的类别，能量差异较大的连续帧则被认为是具有不同的类别。由于每个段中包括能量接近的连续帧，使得每个段中包含的声音类别相对单一，从而有助于提高后续音频信号识别的准确率。

应当理解，在方法P200中，能量计算步骤S220的执行时机不限于图2所示，而是也可以在分窗步骤S210之前针对音频信号中的每一帧计算能量。

分窗单元110可以使用现有的或将开发的任何适当的技术来在输入的音频信号上移动滑动窗（分窗操作）。例如，可以使用预定的固定长度的滑动窗来读取音频信号。或者，也可以采用可变长度的滑动窗来读取音频信号。

作为可变长度滑动窗的示例，分窗单元110可以以预定帧数作为初始滑动窗的长度，每次递增固定步长（固定帧数）并以初始滑动窗的后边界为中心滑动，寻找音频信号的能量包络的最小极值点作为下一窗的前边界。为了防止扰动产生的误判，最小极值点不包括由于微小扰动产生的极值点。这里，滑动窗的两个边界中时间靠前的边界称为前边界，时间靠后的边界称为后边界。

能量计算单元120可以使用各种适当的方法来计算每一帧音频信号的能量。例如，可以采用以下公式来计算一帧音频信号的能量：

（公式1）

其中，i是当前帧的帧号；N是帧移大小，即相邻帧之间的交叠部分所包含的采样点的个数；M是一帧中采样点的总数，取决于音频信号的帧长和编码速率；j表示一帧内采样点的编号，也称局部编号，s_(i*N+j)表示在音频信号内的全局编号为（i*N+j）的采样点的幅值。

为了快速准确地对音频信号进行分段，分段单元130根据每一窗中的音频信号的每一帧的能量的分布将所述窗中的音频信号划分为能量接近的段。

图3示出根据本发明的一个实施例的分段单元的示意性框图。在图3中，分段单元130包括聚类单元131和段形成单元132。图4示出图3所示的分段单元的示意性工作流程图。其中，步骤S230包括可以由聚类单元131执行的步骤S231：将每一窗中的帧的能量按大小聚类为多个簇，每个簇中包含大小接近的多个能量；以及可以由段形成单元132执行的步骤S232：将同一簇中的连续帧形成一个段。

在一个聚类示例中，聚类单元131分别以每一窗的能量序列中的最大能量和最小能量为中心，根据最近邻原则将所述窗的能量序列聚类为两个簇，并分别以每个簇的能量序列中的最大能量和最小能量为中心，根据最近邻原则迭代地对每个簇的能量序列进行聚类，直到不再满足聚类条件为止。如果当次聚类出的两个簇不满足聚类条件，则取消当此进行的聚类。聚类条件为所聚类出的两个簇的能量序列的分布与单高斯分布的相似度之和高于从中聚类出所述两个簇的窗或簇的能量序列的分布与单高斯分布的相似度达预定程度。或者说，聚类条件为所聚类出的两个簇的能量序列服从单高斯分布的程度之和比从中聚类出所述两个簇的窗或簇的能量序列服从单高斯分布的程度高预定程度。每一窗中的帧的能量组成的序列可以称为该窗的能量序列，每个簇中的帧的能量组成的序列可以称为该簇的能量序列。最近邻原则，即能量序列中的能量的大小距最大能量和最小能量中的哪个最近，则将该能量归到以哪个为中心的簇中。

当聚类出的两个簇的能量序列的分布与单高斯分布的相似度高于这两个簇所源于的窗或簇的能量序列的分布与单高斯分布的相似度时，表明此次聚类后的两个簇中的帧的能量之间的接近程度要高于从中聚类出这两个簇的窗或簇中的帧的能量之间的接近程度，从这两个簇中形成的段所包含的声音类别也将更为单一。

应当理解，对能量序列进行聚类时，不仅限于使用最大能量和最小能量两个中心，也可以更细致地设置多个不同大小的能量中心进行聚类，相应地，聚类条件也可以调整为聚类出的多个簇的能量序列的分布与单高斯分布的相似度之和高于从中聚类出所述多个簇的窗或簇的能量序列的分布与单高斯分布的相似度达预定程度。另外，对于能量序列的分布，也不仅限于使用单高斯分布进行拟合，也可以使用其他与单高斯分布类似的分布进行拟合。

以下结合图5详细描述根据本发明的一个实施例的分段处理示例。在图5的示例中，对一窗音频信号进行分段。

如图5所示，以窗中的能量序列为当前能量序列开始分段处理。在步骤S510中，计算当前能量序列中的最大能量、最小能量以及能量序列的均值和方差。

在步骤S520中，根据当前能量序列的均值和方差来构造高斯概率密度函数，并计算当前能量序列的分布相对于单高斯分布的相似度Lp。更具体而言，可以以当前能量序列的均值和方差作为数学期望和方差来构造高斯分布概率密度函数，该高斯分布概率密度函数表征当前能量序列对应的单高斯分布；利用该高斯分布概率密度函数计算当前能量序列中的每个元素的概率，当前能量序列中所有元素的概率之和作为当前能量序列的分布相对于单高斯分布的相似度Lp。

在步骤S530中，以当前能量序列中的最大能量和最小能量为中心，按照最近邻原则，将当前能量序列聚类为两个簇c1和c2（两个类）。

在步骤S540中，计算所聚类出的每个簇的能量序列的均值和方差。

在步骤S550中，根据每个簇的能量序列的均值和方差来构造高斯概率密度函数，并计算两个簇c1和c2的能量序列的分布分别相对于单高斯分布的相似度Lc1和Lc2。更具体而言，对于每个簇c1或c2，可以以该簇的能量序列的均值和方差作为数学期望和方差来构造高斯分布概率密度函数，该高斯分布概率密度函数表征该簇的能量序列对应的单高斯分布；利用该高斯分布概率密度函数计算该簇的能量序列中的每个元素的概率，能量序列中所有元素的概率之和作为该簇的能量序列的分布相对于单高斯分布的相似度。

在步骤S560中，判断相似度Lc1和Lc2之和与相似度Lp的差是否大于或等于预定阈值Lth。

如果((Lc1+Lc2)-Lp)≥Lth，则表明此次聚类满足聚类条件，过程转到S510，分别以所聚类出的每个簇的能量序列作为当前能量序列，继续进行下一层聚类。

反之，则表明此次聚类不满足聚类条件，过程进行到步骤S570，取消此次聚类。然后，在步骤S580中，针对已有效聚类出的各个簇，将同一簇中的连续帧形成一个段，由此将窗中的音频信号划分为多个段。

以上示例仅为说明的目的而不是为了限制。例如，作为确定能量序列的分布与单高斯分布的相似度的另一方法示例，可以先计算出能量序列的均值，以能量序列的均值为中心作出能量序列中各个能量值的分布曲线，将该分布曲线与任意适当的单高斯分布曲线如标准高斯分布曲线进行形状比较，从而根据形状相似度确定该能量序列的分布与单高斯分布的相似度。本领域技术人员根据以上示例能够想到确定能量序列的分布与单高斯分布的相似度的更多方法，这里不一一描述。

根据本发明的一个实施例，在聚类单元131进行聚类之前，可以对窗中的帧的能量组成的序列进行规整，以增大所述序列中的能量之间的差异性。图6示出根据该实施例的分段单元的示意性框图。与图3所示的分段单元130相比，图6中的分段单元130A还包括能量规整单元133，用于进行上述规整操作。能量规整单元133可以使用现有的任何适当的方法进行能量规整。作为示例，能量规整单元133可以使用以下公式来对一窗的能量序列进行规整：

其中，i是帧的索引，即帧号；E_max是能量序列中的最大能量；E_min是能量序列中的最小能量；E(i)是规整前的帧i的能量；

是规整后的帧i的能量；σ是尺度参数并且为经验值。

在实际应用中，异常声音检测或识别是音频信号识别的一项重要应用。例如在一些无人值守的环境下，需要通过监控设备检测或识别到异常声音例如枪声、尖叫声、玻璃破碎声等，并发出报警信息。然而由于异常声音的声学特征往往与环境噪声相似，因此容易产生虚警或漏检。为了降低异常声音检测中的虚警率以及漏检率，在本发明的另一个实施例中，采用加权方式对分类单元140的分类结果进行加权。

图7示出根据本发明的另一个实施例的音频信号处理装置的示意性框图。如图7所示，除了包括与图1中所示的相同的分窗单元110、能量计算单元120、分段单元130、分类单元140和识别单元150，音频信号处理装置100A还包括加权单元160。

这里，分类单元140更具体地利用异常声音模型和背景声音模型对每个段中的音频信号的每一帧进行分类。加权单元160根据每一帧属于异常声音的可信度对分类单元140对每一帧的分类结果进行加权。其中可信度越大，分类结果的权重越高。作为示例，每一帧属于异常声音的可信度可以直接作为该帧的分类结果的权重。相应地，识别单元150根据每一帧的加权后的分类结果来识别每个段中的音频信号的声音类别。图8示出了图7所示的音频信号处理装置的示意性工作流程图，即，根据本发明的另一实施例的音频信号处理方法。在该方法中，步骤S260即描述加权单元160所执行的上述功能。步骤S260可以如图所示地与分段步骤S230和分类步骤S240并行地执行，也可以串行地在步骤S230、S240或S250之前执行。

通过分析发现，在能量方面，相邻帧的能量变化越大，出现异常声音的可能性越大。由此，在本发明的一个实施例中，加权单元160使用每一帧音频信号相对于前一帧音频信号的能量变化作为每一帧属于异常声音的可信度。例如，加权单元160可以使用以下公式来计算每一帧属于异常声音的可信度，并作为该帧的分类结果的权重：

w(i)=|E(i)–E(i-1)|/E(i-1) 公式（3）

其中，i为段中的帧的索引，即帧号；E(i)是i的能量；E(i-1)是帧i的前一帧i-1的能量。对于段中的起始帧，其前一帧的能量可以是相邻的前一段中的最后一帧的能量。

通过分析每帧信号的特征相对于异常声音模型和背景声音模型的相似度发现，大部分的虚警通常出现在对异常声音模型的相似度和对背景声音模型的相似度非常接近的情况下，也就是说，这两种相似度越接近，出现虚警的可能性越大，声音模型越没有区分性，反之，这两种相似度相差越大，出现虚警的可能性越小，声音模型的区分性也越强。由此，在本发明的一个实施例中，加权单元160可以使用每一帧音频信号与异常声音模型的相似度和该帧音频信号与背景声音模型的相似度的差作为每一帧属于异常声音的可信度。其中，每一帧音频信号与异常声音模型的相似度指的是每一帧音频信号的特征与异常声音模型的相似度，每一帧音频信号与背景声音模型的相似度指的是每一帧音频信号的特征与背景声音模型的相似度。这里不对音频信号的特征进行限定，可以使用音频信号的各种适当的特征以及相应的异常声音模型和背景声音模型。例如，加权单元160可以使用以下公式来计算每一帧属于异常声音的可信度，并作为该帧的分类结果的权重：

或者

其中i为段中的帧的索引，即帧号；L_T(i)表示帧i的特征与异常声音模型T的相似度，L_BG(i)表示帧i的特征与背景声音模型BG的相似度。

另外，通过分析还发现，如果一段中包含的连续帧的个数很少，则各个帧属于突发噪声的可能性较大，属于异常声音的可能性较小。反之，一段中帧的连续性越强，即该段中包含连续帧的个数越多，则各帧属于异常声音的可能性相对越大。由此，在本发明的一个实施例中，加权单元160可以使用每一帧所在的段中包含的连续帧的个数作为每一帧属于异常声音的可信度。相应地，加权单元160可以将一帧的分类结果的权重设置为与该帧所在的段中包含的连续帧的个数对应的值。例如，如果段中的连续帧的个数为1，则确定段中各帧的权重为-0.2；如果段中的连续帧的个数为2，则确定段中各帧的权重为-0.1；如果段中的连续帧的个数为3，则确定段中各帧的权重为1；如果段中的连续帧的个数大于3，则确定段中各帧的权重为1+0.1*L，L为段中连续帧的个数。

以上实施例中的每一帧属于异常声音的可信度也可以任意组合使用。例如，加权单元160可以使用每一帧音频信号相对于前一帧音频信号的能量变化与每一帧音频信号与异常声音模型的相似度和所述帧音频信号与背景声音模型的相似度的差的组合，作为每一帧属于异常声音的可信度。作为示例，加权单元160可以使用以下公式来计算每一帧属于异常声音的可信度，并作为该帧的分类结果的权重：

其中，i为段中的帧的索引，即帧号；delta_E(i)表示帧i与相邻帧之间的能量变化，delta_E(i)=|E(i)-E(i-1)|/E(i-1)，E(i)和E(i-1)分别表示帧i和帧i的前一帧i-1的能量；delta_L(i)表示帧i对异常声音模型T的相似度L_T（i）与帧i对背景声音模型BG的相似度L_BG（i）的差，delta_L(i)=L_BG（i）-L_T（i）；θ₁和θ₂是两个预定阈值，为经验值，在此示例中可以设置为例如θ₁=1，θ₂=-5。

相应地，识别单元150根据每一帧的加权后的分类结果来识别每个段中的音频信号的声音类别。例如，假设有三个异常声音模型（T1，T2，T3）和一个背景声音模型（BG）。对于异常声音模型T1，识别单元150可以使用以下公式来计算段相对于声音模型T1的加权相似度：

（公式7）

其中，i为帧在段中的索引，即帧号；L_T1(i)表示帧i的特征与异常声音模型T1的相似度，即帧i的分类结果；w(i)表示帧i的分类结果的权重；M表示段中包含的帧的总数。

类似地，可以计算出段相对于声音模型T2、T3和BG的加权相似度

和

然后，识别单元150比较相似度

和

并确定最大的加权相似度所对应的声音模型所表示的声音类别作为该段中的音频信号的声音类别。

在以上示例中，识别单元150通过计算段中各帧的加权后的分类结果的总和来识别段中的音频信号的声音类别。该示例仅为说明目的而不是为了限制，并且也可以采用其他方式来应用各帧的加权后的分类结果。例如，在另一个示例中，识别单元150可以通过计算段中每一帧的分类结果的加权平均值来识别段中的音频信号的声音类别。即，段相对于例如声音模型T1的加权相似度可以修改为：

（公式8）

与公式8类似地，可以计算出段相对于声音模型T2、T3和BG的加权相似度

和

然后，识别单元150比较相似度

和

每一段检测出一个音频类别，可以减少信号突变引入的扰动。另外，由于加权后的分类结果的区分性较大，因此提高了音频信号识别的准确率，减少了虚警和漏检情况。

图9示出根据本发明的又一实施例的音频信号处理装置的示意性框图。在该实施例中，与图1中所示的相同的分窗单元110、能量计算单元120、分段单元130、分类单元140和识别单元150，音频信号处理装置100B还包括能量平滑单元170，用于在分段单元130对滑动窗中的音频信号进行划分之前，对滑动窗中的音频信号的每一帧的能量进行平滑，以消除能量突变点对分段的影响。音频信号处理装置100B中也可以包括加权单元160（未示出）以执行与图7中所示的加权单元160相同的功能，在此省略其描述。

作为示例，能量平滑单元170可以使用以下公式来进行能量平滑：

（公式9）

其中，i是帧的索引，即帧号；k是帧i在平滑窗中的索引，K为平滑窗的宽度。

图10示出图9所示的音频信号处理装置的示意性工作流程图，即，根据本发明的又一实施例的音频信号处理方法。在该方法中，步骤S270即描述能量平滑单元170所执行的上述功能。

根据本发明的上述实施例的音频信号处理装置和方法可以应用于监控***。图11示出根据本发明的一个实施例的监控***的示意性框图。如图11所示，监控***1100包括音频信号采集装置1110、音频信号处理装置1120和报警装置1130。音频信号采集装置1110用于采集音频信号。音频信号处理装置1120用于对所述音频信号进行处理，以识别所述音频信所包含的声音类别。报警装置1130用于当音频信号处理装置1120识别到音频信号中包含预定类型的声音类别时，产生并发送报警信息。其中，可以以本发明的上述实施例中的任一音频信号处理装置100、100A或100B来实施音频信号处理装置1120。可以采用任何现有的或将开发的适当技术来配置音频信号采集装置1110和报警装置1130，这里不详细描述，以免不必要地模糊本发明的范围。

应当理解，根据本发明实施例的各个装置中各个组成部件、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

图12示出可以实现本发明的实施例/示例的计算机的结构的示例性框图。在图12中，中央处理单元（CPU）1201根据只读存储器（ROM）1202中存储的程序或从存储部分1208加载到随机存取存储器（RAM）1203的程序执行各种处理。在RAM1203中，还根据需要存储当CPU1201执行各种处理等等时所需的数据。CPU1201、ROM1202和RAM1203经由总线1204彼此连接。输入/输出接口1205也连接到总线1204。

下述部件连接到输入/输出接口1205：输入部分1206（包括键盘、鼠标等等）、输出部分1207（包括显示器，比如阴极射线管（CRT）、液晶显示器（LCD）等，和扬声器等）、存储部分1208（包括硬盘等）、通信部分1209（包括网络接口卡比如LAN卡、调制解调器等）。通信部分1209经由网络比如因特网执行通信处理。根据需要，驱动器1210也可连接到输入/输出接口1205。可拆卸介质1211比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器1210上，使得从中读出的计算机程序根据需要被安装到存储部分1208中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质1211安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图12所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1211。可拆卸介质1211的例子包含磁盘（包含软盘（注册商标））、光盘（包含光盘只读存储器（CD-ROM）和数字通用盘（DVD））、磁光盘（包含迷你盘（MD）（注册商标））和半导体存储器。或者，存储介质可以是ROM1202、存储部分1208中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明实施例的音频信号处理方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

在上面对本发明的实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

此外，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的时间顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

以上虽然结合附图详细描述了本发明的实施例，但是应当明白，上面所描述的实施方式只是用于说明本发明，而并不构成对本发明的限制。对于本领域的技术人员来说，可以对上述实施方式做出各种修改和变更而没有背离本发明的实质和范围。因此，本发明的范围仅由所附的权利要求及其等效含义来限定。

Claims

1.一种音频信号处理装置，包括：

分窗单元，用于利用滑动窗顺次读取输入的音频信号；

能量计算单元，用于计算每一窗中的音频信号的每一帧的能量；

分段单元，用于根据每一窗中的音频信号的每一帧的能量的分布将所述窗中的音频信号划分为多个段，使得每个段中包括能量接近的连续帧；

分类单元，用于利用至少一个声音模型对每个段中的音频信号进行分类；以及

识别单元，用于根据所述分类单元的分类结果来识别每个段中的音频信号的声音类别。

2.根据权利要求1的音频信号处理装置，其中，所述分段单元包括：

聚类单元，用于将所述窗中的帧的能量按大小聚类为多个簇，每个簇中包含大小接近的多个能量；以及

段形成单元，用于将同一簇中的连续帧形成一个段。

3.根据权利要求2的音频信号处理装置，其中，所述聚类单元分别以所述窗的能量序列中的最大能量和最小能量为中心，根据最近邻原则将所述窗的能量序列聚类为两个簇，以及分别以每个簇的能量序列中的最大能量和最小能量为中心，根据最近邻原则迭代地对每个簇的能量序列进行聚类，直到不再满足聚类条件为止，

其中，所述窗中的帧的能量组成的序列作为所述窗的能量序列，每个簇中的帧的能量组成的序列作为所述簇的能量序列，并且所述聚类条件为：从窗的能量序列或簇的能量序列所聚类出的两个簇的能量序列的分布与单高斯分布的相似度之和比所述窗的能量序列的分布或所述簇的能量序列的分布与单高斯分布的相似度高预定程度。

4.根据权利要求2的音频信号处理装置，其中，所述分段单元还包括：

能量规整单元，用于在所述聚类单元进行聚类之前对所述窗中的帧的能量组成的序列进行规整，以增大所述序列中的能量之间的差异性。

5.根据权利要求1的音频信号处理装置，其中，

所述分类单元利用异常声音模型和背景声音模型对每个段中的音频信号的每一帧进行分类，

所述音频信号处理装置还包括加权单元，用于根据每一帧属于异常声音的可信度对所述分类单元对每一帧的分类结果进行加权，其中可信度越大，分类结果的权重越高，并且

所述识别单元根据每一帧加权后的分类结果来识别每个段中的音频信号的声音类别。

6.根据权利要求5的音频信号处理装置，其中，所述加权单元使用以下三项中的任意一项或任意多项的组合作为每一帧属于异常声音的可信度：

每一帧音频信号相对于前一帧音频信号的能量变化；

每一帧音频信号与异常声音模型的相似度和所述帧音频信号与背景声音模型的相似度的差；以及

每一帧所在的段中包含的连续帧的个数。

7.根据权利要求1的音频信号处理装置，还包括能量平滑单元，用于在所述分段单元对所述窗中的音频信号进行划分之前，对所述窗中的音频信号的每一帧的能量进行平滑。

8.一种音频信号处理方法，包括：

利用滑动窗顺次读取输入的音频信号；

计算每一窗中的音频信号的每一帧的能量；

根据每一窗中的音频信号的每一帧的能量的分布将所述窗中的音频信号划分为多个段，使得每个段中包括能量接近的连续帧；

利用至少一个声音模型对每个段中的音频信号进行分类；以及

根据分类结果来识别每个段中的音频信号的声音类别。

9.根据权利要求8的音频信号处理方法，其中，根据每一窗中的音频信号的每一帧的能量的分布将所述窗中的音频信号划分为多个段包括：

将所述窗中的帧的能量按大小聚类为多个簇，每个簇中包含大小接近的多个能量；以及

将同一簇中的连续帧形成一个段。

10.根据权利要求9的音频信号处理方法，其中，将所述窗中的帧的能量按大小聚类为多个簇包括：

分别以所述窗的能量序列中的最大能量和最小能量为中心，根据最近邻原则将所述窗的能量序列聚类为两个簇，以及分别以每个簇的能量序列中的最大能量和最小能量为中心，根据最近邻原则迭代地对每个簇的能量序列进行聚类，直到不再满足聚类条件为止，

11.根据权利要求9的音频信号处理方法，还包括：

在进行聚类之前对所述窗中的帧的能量组成的序列进行规整，以增大所述序列中的能量之间的差异性。

12.根据权利要求8的音频信号处理方法，其中，利用异常声音模型和背景声音模型对每个段中的音频信号的每一帧进行分类，

所述方法还包括：

根据每一帧属于异常声音的可信度对每一帧的分类结果进行加权，其中可信度越大，分类结果的权重越高，并且

其中，根据每一帧加权后的分类结果来识别每个段中的音频信号的声音类别。

13.根据权利要求12的音频信号处理方法，其中，使用以下三项中的任意一项或任意多项的组合作为每一帧属于异常声音的可信度：

每一帧音频信号相对于前一帧音频信号的能量变化；

每一帧所在的段中包含的连续帧的个数。

14.根据权利要求8的音频信号处理方法，还包括：

在对所述窗中的音频信号进行划分之前，对所述窗中的音频信号的每一帧的能量进行平滑。

15.一种监控***，包括：

音频采集装置，用于采集音频信号；

音频信号处理装置，用于对所述音频信号进行处理，以识别所述音频信号所包含的声音类别；以及

报警装置，用于当所述音频信号处理装置识别到所述音频信号中包含预定类型的声音类别时，产生并发送报警信息，

其中，所述音频信号处理装置是根据权利要求1-7中任一项所述的音频信号处理装置。