CN102623007A

CN102623007A - 基于可变时长的音频特征分类方法

Info

Publication number: CN102623007A
Application number: CN2011100334102A
Authority: CN
Inventors: 卢敏; 窦维蓓
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2011-01-30
Filing date: 2011-01-30
Publication date: 2012-08-01
Anticipated expiration: 2031-01-30
Also published as: CN102623007B

Abstract

本发明公开了多媒体信号处理和模式识别技术领域中的一种基于可变时长的音频特征分类方法。包括将确定类型并经过标注的音频序列作为训练序列；提取训练序列中的音频信号的短时特征构成短时特征向量；计算各个短时特征在设定时长内的统计参量，进而得到短时特征向量对应的统计特征向量；计算得到短时特征向量对应的一组统计特征向量，由该组统计特征向量构成训练序列的长时特征向量；利用训练序列的长时特征向量训练分类器；提取测试序列中第i帧的音频信号的短时特征并计算测试序列的第i帧的输入长时特征向量；将第i帧的输入长时特征向量送入训练后的分类器中，得到分类类型。本发明避免提取长时特征导致的延时问题，实现了音频特征的实时分类。

Description

基于可变时长的音频特征分类方法

技术领域

本发明属于多媒体信号处理和模式识别技术领域，尤其涉及一种基于可变时长的音频特征分类方法。

背景技术

随着通信技术的不断发展，数字音频处理在移动通信、互联网、广播以及个人电子等多个领域得到了广泛的应用。以音频编解码技术来看，其已经从传统的以窄带话音为主的语音编码，逐渐扩展到带宽扩展质量更高的多媒体音频编码，3G、LTE的兴起也进一步对新一代音频编解码技术在对信道的适应性、传输的可靠性以及编解码质量等方面有了更高的要求。而无论是音频编解码，或是音效编辑制作，音频信号本身所具有的多样性，使得对不同类型的音频信号可能需要选择不同的处理技术。如ITU-T的G.718和G.729.1，就对音频信号分成了语音和音乐两种编码模式，而在之后的G.718-SWB中又添加了对含正弦特性的音频信号的编码模式。由此可以看出，在某些应用场景中，需要先对音频信号进行简单而高效的分类，获知所属类型。

分类时，提取音频信号的短时特征和长时特征。由于音频信号的短时平稳性，通常相比短时特征，长时特征的稳定性和可区分性更好，但缺点是检测延时大，对实时分类***上的应用有一定局限性。此外，不同特征表现出来的平稳周期可能不一致，若对这些特征都取定同一时长下计算对应的长时特征可能并非最优。

发明内容

本发明的目的在于，针对常用的音频特征分类方法主要采用提取长时特征的技术方案影响实时效果的问题，提出一种基于可变时长的音频特征分类方法，通过提取同一短时特征在不同时长下的同一统计参量构成的可变时长长时特征来训练分类器，并利用训练好的分类器进行音频特征分类。

本发明的技术方案是，一种基于可变时长的音频特征分类方法，其特征是所述方法包括下列步骤：

步骤1：将确定类型并经过标注的音频序列作为训练序列；

步骤2：提取训练序列中的音频信号的短时特征F₁，F₂，...，F_K，构成短时特征向量

，K是短时特征向量的分量个数；

步骤3：计算各个短时特征F_k在设定时长内，当前帧和之前的(n-1)帧的短时特征的统计参量，n为设定时长内的总帧数；每个短时特征F_k对应一组由该短时特征的统计参量构成的统计特征向量

，进而短时特征向量

对应一个统计特征向量

，其中

；1≤k≤K；

步骤4：选取P个值，N₁，N₂，...，N_P满足N₁＜N₂＜...＜N_P，令n分别等于N₁，N₂，...，N_P，按照步骤3计算得到短时特征向量

对应的一组统计特征向量

，由该组统计特征向量构成训练序列的长时特征向量：

步骤5：利用训练序列的长时特征向量

训练分类器；

步骤6：提取测试序列中的音频信号的短时特征，并按照步骤2和步骤3的方法计算测试序列的第i帧的统计特征向量

以及测试序列的；

步骤7：根据测试序列的第i帧的统计特征向量

以及测试序列的

，计算测试序列的第i帧的输入长时特征向量；

步骤8：将第i帧的输入长时特征向量

送入步骤5训练后的分类器中，其输出即为第i帧的分类类型。

所述短时特征包括对数能量、过零率和均匀子带能量分布。

所述当前帧和之前的(n-1)帧的短时特征的统计参量包括当前帧和之前的(n-1)帧的短时特征最大值MaxF_k(n)、最小值MinF_k(n)、算术平均AvgF_k(n)或方差VarF_k(n)中的一个或多个。

所述利用训练序列的长时特征向量

训练分类器具体是利用训练序列的长时特征向量

训练单个分类器。

所述利用训练序列的长时特征向量

训练分类器具体是使用前向特征选择法，在训练序列的长时特征向量

中选择有效特征构成有效长时特征向量

，并利用有效长时特征向量

训练单个分类器。

所述利用训练序列的长时特征向量

训练分类器具体是利用训练序列的长时特征向量

的分向量

各自分别训练同类型的单个分类器后并联构成的分类器组。

所述计算测试序列的第i帧的输入长时特征向量

具体利用公式

其中，q＝1，2，L，P-1，

中的

共有q个，

中的

共有P-q个。

所述单个分类器为基于正态分布的独立特征分类器。

本发明通过提取同一短时特征在不同时长下的同一统计参量构成的可变时长长时特征训练分类器，并利用训练好的分类器进行音频特征分类，避免提取长时特征导致的延时问题，实现了音频特征的实时分类。

附图说明

图1是基于可变时长的音频特征分类方法流程图；

图2是利用训练序列的长时特征向量训练单个分类器的示意图；

图3是利用训练序列的长时特征向量的有效特征构成的有效长时特征向量训练单个分类器的示意图；

图4是利用训练序列的长时特征向量的分向量各自分别训练同类型的单个分类器后并联构成分类器组示意图；

图5是训练样本库信息表；

图6是测试样本库信息表；

图7是分类器性能对比表。

具体实施方式

下面结合附图，对优选实施例作详细说明。应该强调的是，下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。

本发明以32kHz采样率下的语音/音乐信号分类为例进行说明。对其他类型的音频信号分类，本发明仍然适用。

图1是基于可变时长的音频特征分类方法流程图。图1中，基于可变时长的音频特征分类方法包括下列步骤：

步骤1：将确定类型并经过标注的音频序列作为训练序列。

步骤2：提取训练序列中的音频信号的短时特征F₁，F₂，...，F_K，构成短时特征向量，K是短时特征向量的分量个数。

本实施例中音频信号按每40ms一帧，计算的短时特征包括对数能量、过零率和均匀子带能量分布。在本发明中，短时特征包括但不限于对数能量、过零率和均匀子带能量分布。

设第i帧的音频信号样点为x(n)，n＝(i-1)L，(i-1)L+1，L，i·L-1，L是帧长，各个短时特征的计算公式如下：

A、对数能量

E_{1} (i) = Σ_{n = (i - 1) L}^{i \cdot L - 1} x^{2} (n)

E₂(i)＝max(log[E₁(i)]，-10)

B、过零率

ZCR (i) = Σ_{n = (i - 1) L}^{i \cdot L - 1} [sign (x (n) - x (n - 1)) + 1] / 2

其中，sign(x)是符号函数，

sign (x) = \{\begin{matrix} 1, & x > 0 \\ 0, & x = 0 \\ - 1, & x < 0 \end{matrix}

；

C、均匀子带能量分布

SubE (i, k) = Σ_{m = (k - 1) L / 2 K}^{kL / 2 K - 1} X (i, m)

，k＝1，2，L，K

其中，X(i，m)是第i帧音频信号做FFT变换后的幅度谱。

X (i, m) = | Σ_{k = 1}^{L} x ((i - 1) L + k - 1) \cdot \exp [- j \cdot \frac{2 π}{L} (m - 1) (k - 1)] |

，m＝1，2，L，L

根据实序列FFT的性质可知，X(i，m)关于m＝L/2+1偶对称，故可以只保留前(L/2+1)个值。K为均匀子带数，本实施例中令K＝16。

本实施例提取音频特征时，第i帧的短时特征向量

{\overset{r}{V}}_{s} (i) = [\begin{matrix} E_{2} (i) \\ ZCR (i) \\ SubE (i, 1) \\ M \\ SubE (i, 16) \end{matrix}]

其向量维度为18。E₂(i)、ZCR(i)、SubE(i，1)，...，SubE(i，16)即分别为第i帧的短时特征向量F₁，F₂，...，F₁₈。

，进而短时特征向量

对应一个统计特征向量

，其中

；1≤k≤K。

当前帧和之前的(n-1)帧的短时特征的统计参量包括当前帧和之前的(n-1)帧的短时特征最大值MaxF_k(n)、最小值MinF_k(n)、算术平均AvgF_k(n)或方差VarF_k(n)中的一个或多个。在本实施例中，选择最大值和方差作为统计参量，则每个短时特征F_k对应一组由该短时特征的统计参量构成的统计特征向量

。由于本实施例第2步骤计算后，有18个短时特征，每个短时特征对应的由该短时特征的统计参量构成的统计特征向量有2个，则短时特征向量

对应的一个统计特征向量

的维度为36维。

步骤4：选取P个值，N₁，N₂，...，N_P满足N₁＜N₂＜...N_P，令n分别等于N₁，N₂，...，N_P，按照步骤3计算得到短时特征向量

对应的一组统计特征向量

，由该组统计特征向量构成训练序列的长时特征向量

在本实施例中，取P＝3，N₁＝5，N₂＝15，N₃＝25，得到第i帧的3个短时特征向量对应一组统计特征向量

，它们的向量维度都是36维。进而，由该组统计特征向量构成训练序列的长时特征向量

，其向量维度是108维。

步骤5：利用训练序列的长时特征向量

训练分类器。

当取得训练序列的长时特征向量

后，可以使用已知技术，利用训练序列的长时特征向量训练分类器。

图2是利用训练序列的长时特征向量训练单个分类器的示意图。图2中，利用训练序列的长时特征向量训练分类器可以利用训练序列的长时特征向量直接训练单个分类器。

图3是利用训练序列的长时特征向量的有效特征构成的有效长时特征向量训练单个分类器的示意图。图3中，利用训练序列的长时特征向量

训练分类器也可以使用前向特征选择法，在训练序列的长时特征向量中选择有效特征构成有效长时特征向量，并利用有效长时特征向量

训练单个分类器。

图4是利用训练序列的长时特征向量的分向量各自分别训练同类型的单个分类器后并联构成的分类器组示意图。图4中，利用训练序列的长时特征向量

训练分类器还可以利用训练序列的长时特征向量

的分向量

各自分别训练同类型的单个分类器后并联构成的分类器组。

在本实施例中，单个分类器选择基于正态分布的独立特征分类器，对于其他的分类器，本发明仍然适用。训练分类器时，使用如图3和图4所示的方法训练分类器。即使用前向特征选择法，在训练序列的长时特征向量的108维特征中，选择36维有效特征构成有效长时特征向量

，并利用有效长时特征向量

训练单个分类器。同时，分别以

为分类特征向量，独立训练相同类型的分类器。

以及测试序列的。

步骤7：根据测试序列的第i帧的统计特征向量

以及测试序列的

，计算测试序列的第i帧的输入长时特征向量。

计算测试序列的第i帧的输入长时特征向量

具体利用公式

其中，q＝1，2，L，P-1，

中的

共有q个，

中的

共有P-q个。

步骤8：将第i帧的输入长时特征向量

送入步骤5训练的分类器中，其输出即为第i帧的分类类型。

本实施例中的训练样本库和测试样本库均由语音序列和音乐序列组成，两个数据库之间相互独立。图5是训练样本库信息表，图6是测试样本库信息表。在如上所述的测试样本库上测试，对比分类器性能结果如图7所示。由图7中测试结果对比可以看出：长时特征的时长越大，分类正确率越高，但同时检测到类型变换的延时也越大；相比之下，根据本发明训练得到的分类器，在音频类型的分类准确性和检测类型改变的及时性两方面，有更优的性能表现，更适合实时音乐/语音分类的***。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。