CN102723081A

CN102723081A - 语音信号处理方法、语音和声纹识别方法及其装置

Info

Publication number: CN102723081A
Application number: CN2012101736579A
Authority: CN
Inventors: 林其光
Original assignee: Individual
Current assignee: Guangzhou Zhi Co Artificial Intelligence Technology Co Ltd
Priority date: 2012-05-30
Filing date: 2012-05-30
Publication date: 2012-10-10
Anticipated expiration: 2032-05-30
Also published as: CN102723081B

Abstract

本发明提出了一种语音信号处理方法，包括：对所获取的语音信号进行数字化、加窗分帧和傅立叶变换后得到第一频谱信号；基于第一频谱信号导出至少一个作为该第一频谱信号的变型的衍生频谱信号；对第一频谱信号和至少一个衍生频谱信号进行离散余弦变换，计算各自的倒谱系数向量；以及基于所计算出的第一频谱信号和至少一个衍生频谱信号的倒谱系数向量，导出每个短时语音帧的倒谱系数向量，作为与该短时语音帧对应的前端特征向量。

Description

语音信号处理方法、语音和声纹识别方法及其装置

技术领域

本发明涉及语音识别和声纹识别技术，更为具体地，涉及一种基于频谱增强的语音信号处理方法、语音识别方法及装置以及基于频谱增强和倒频系数选择性均值归一化的声纹识别方法及装置。

背景技术

随着现代科学和计算机技术的发展，在进行人机信息交互时，需要一种方便且快捷的方式，由此提出了语音识别技术。利用语音识别技术，可以准确地识别人们发出的语音信号，并且将所识别出的语音信号转换为机器的文本输入，由此进行随后的信息处理。

在现有的语音识别***中，如图1所示，通常，首先通过比如麦克风等的语音输入设备来输入音频信号（即，音频波形）（步骤S110）。然后，对所输入的音频信号进行分帧处理（在短时阶段，假设语音信号为平稳的），即根据音频信号的短时平稳特性，对所输入的音频信号进行短时音框化（例如，采用汉明窗对所输入的音频信号进行处理），从而以帧为单位，将所输入的音频信号处理为多帧音频信号，其中相邻两帧之间存在重叠，通常语音帧长被设置为25ms，两帧之间的重叠部分时长为15ms（步骤S120）。

接着，针对每帧音频信号进行傅立叶变换计算以得到短时频谱（步骤S130），并且利用梅尔频率将所述短时频谱转换成滤波器组输出（步骤S140）。

然后，对所述滤波器组输出进行离散余弦变换，获得倒谱系数（步骤S150），并对所获得的倒谱系数进行均值归一化计算，得到与该短时语音帧对应的前端特征向量（S160）。

在步骤S170，判断是否针对所有帧得到对应的前端特征向量。如果没有，则返回到步骤S130。否则，禁止到步骤S180。

在训练阶段，利用所得到的前端特征向量训练依赖于上下文的子音素模型（或者称为三音素模型）；然后，在测试阶段，与声学模型、语言模型和字典一起识别用户输入的语音信号（S180）。

在现有应用中，除了识别用户所说语音信号的内容之外，有时还需要识别用户本身的身份（即，说话人的身份），这通常也称为声纹识别。声纹识别的过程与上述语音识别过程基本类似。不同之处在于，在声纹识别的训练阶段，获得的前端特征向量是用来为每个说话人训练声纹模型；一旦获得训练好的声纹模型，该声纹模型就可用来识别说话人的身份。

无论是语音识别技术（即电脑自动识别说话人所说的内容）还是声纹识别（即电脑自动识别说话人的身份）都有缺陷，以至于各自的识别率都还不能达到百分之百。最重要的缺陷在于抗噪音干扰性不强，尤其是当干扰噪音的频谱特性与语音相似时。不少语音识别或声纹识别的算法在安静的实验室状况下，识别准确率都相当高。但一旦在实际环境下使用时（real-worlddeployment），由于总是存在周围噪音，识别率因而明显下降，有时甚至低于50%。频谱相减（Spectrum subtraction）是一种抗噪音干扰的技术，试验证明，它能够有效地提高噪音环境下的识别率。另外信道失真（channel distortion），也就是训练时所用的通信信道与测试时所用的通信信道不匹配（mismatch）,也会严重地影响识别率。

对语音识别来说，其技术缺陷还包括（1）处理说话人之间的差异的能力有限（如方言，男女声，大人小孩）和（2）有无说话内容的限制（如以句法为基础的指令识别还是不受限制的听写-dictation）。另一方面，声纹识别的其他缺陷包括所说的内容对识别率有影响。人们通常是视具体的应用，采用固定文本（text-dependent），提示文本（text-prompted），或可变文本（text-independent）来解决这个问题。

发明内容

鉴于上述问题，本发明的一个目的是提供一种基于频谱增强的语音信号处理方法及装置。

本发明的另一目的是提供一种基于频谱增强的语音信号处理方法及装置，以及基于频谱增强和倒频系数选择性均值归一化的声纹识别方法及装置。

根据本发明的一个方面，提供了一种语音信号处理方法，包括：对所获取的语音信号进行数字化；将数字化后的语音信号加窗分帧为多个短时语音帧；针对每个短时语音帧进行下述处理：进行傅立叶变换，得到该短时语音帧的第一频谱信号；基于所得到的第一频谱信号，导出至少一个作为该第一频谱信号的变型的衍生频谱信号；对第一频谱信号和至少一个衍生频谱信号进行离散余弦变换，计算各自的倒谱系数向量；以及基于所计算出的第一频谱信号和至少一个衍生频谱信号的倒谱系数向量，导出每个短时语音帧的倒谱系数向量，作为与该短时语音帧对应的前端特征向量。

在上述方面的一个或多个示例中，基于所计算出的第一频谱信号和至少一个衍生频谱信号的倒谱系数向量，导出与该短时语音帧对应的前端特征向量可以包括：为所计算出的第一频谱信号和至少一个衍生频谱信号的倒谱系数向量分配加权权重；以及基于所分配的加权权重，对所计算出的第一频谱信号和至少一个衍生频谱信号的倒谱系数向量进行加权求和，导出与该短时语音帧对应的前端特征向量，其中，分配给各个倒谱系数向量的加权权重之和等于1。

在上述方面的一个或多个示例中，在基于所计算出的第一频谱信号和至少一个衍生频谱信号的倒谱系数向量，导出与该短时语音帧对应的前端特征向量之前或之后，所述方法还包括：针对每个所计算出或导出的倒谱系数向量，对于声纹识别不敏感的倒谱系数，还对该倒谱系数进行均值归一化，并且利用均值归一化后的倒谱系数对该倒谱系数向量中的对应倒谱系数进行更新；以及对于声纹识别敏感的倒谱系数，将该倒谱系数保持为原样不变。

在上述方面的一个或多个示例中，对倒谱系数进行均值归一化可以包括从该倒谱系数中减去针对所获得的语音信号的所有短时语音帧的倒谱系数均值，或者从该倒谱系数中减去前一短时语音帧的倒谱系数与预定系数a之积，其中a是0和1之间的小数。

在上述方面的一个或多个示例中，所述衍生频谱信号是使用频谱相减、频带限制和/或频带衰减方法对第一频谱信号进行处理后导出的。

根据本发明的另一方面，提供了一种语音信号处理装置，包括：语音信号获取单元，用于获取用户的语音信号；数字化单元，用于对所获取的语音信号进行数字化；分帧单元，用于将数字化后的语音信号加窗分帧为多个短时语音帧；傅立叶变换单元，用于针对每个短时语音帧进行傅立叶变换，得到该短时语音帧的第一频谱信号；衍生频谱信号生成单元，用于基于所得到的每个短时语音帧的第一频谱信号，导出至少一个作为该第一频谱信号的变型的衍生频谱信号；离散余弦变换单元，用于对每个短时语音帧的第一频谱信号和至少一个衍生频谱信号进行离散余弦变换，计算各自的倒谱系数向量；以及前端特征向量导出单元，用于基于所计算出的每个短时语音帧的第一频谱信号和至少一个衍生频谱信号的倒谱系数向量，导出与该短时语音帧对应的倒谱系数向量，作为与该短时语音帧对应的前端特征向量。

在上述方面的一个或多个示例中，所述前端特征向量导出单元可以包括：加权权重分配模块，用于为所计算出的第一频谱信号和至少一个衍生频谱信号的倒谱系数向量分配加权权重；以及求和模块，用于基于所分配的加权权重，对所计算出的第一频谱信号和至少一个衍生频谱信号的倒谱系数向量进行加权求和，其中，分配给各个倒谱系数向量的加权权重之和等于1。

在上述方面的一个或多个示例中，所述语音信号处理装置还可以包括：均值归一化单元，用于针对离散余弦变换单元计算出或者前端特征向量导出单元导出的每个倒谱系数向量，对于声纹识别不敏感的倒谱系数，对该倒谱系数进行均值归一化；以及倒谱系数处理单元，用于针对每个倒谱系数向量，对于声纹识别敏感的倒谱系数，将该倒谱系数保持为原样不变，以及对于声纹识别不敏感的倒谱系数，利用所述均值归一化单元输出的倒谱系数进行更新。

在上述方面的一个或多个示例中，所述衍生频谱信号生成单元被配置为使用频谱相减、频带限制和/或频带衰减方法对第一频谱信号进行处理而生成。

根据本发明的另一方面，提供了一种语音识别方法，包括：对所获取的语音信号进行数字化；将数字化后的语音信号加窗分帧为多个短时语音帧；针对每个短时语音帧进行下述处理：进行傅立叶变换，得到该短时语音帧的第一频谱信号；基于所得到的第一频谱信号，导出至少一个作为该第一频谱信号的变型的衍生频谱信号；对第一频谱信号和至少一个衍生频谱信号进行离散余弦变换，计算各自的倒谱系数向量；基于所计算出的第一频谱信号和至少一个衍生频谱信号的倒谱系数向量，导出每个短时语音帧的倒谱系数向量，作为与该短时语音帧对应的前端特征向量；以及利用所导出的前端特征向量，对用户后续发出的语音信号进行识别。

根据本发明的另一方面，提供了一种语音识别装置，包括：语音信号获取单元，用于获取用户的语音信号；数字化单元，用于对所获取的语音信号进行数字化；分帧单元，用于将数字化后的语音信号加窗分帧为多个短时语音帧；傅立叶变换单元，用于针对每个短时语音帧进行傅立叶变换，得到该短时语音帧的第一频谱信号；衍生频谱信号生成单元，用于基于所得到的每个短时语音帧的第一频谱信号，导出至少一个作为该第一频谱信号的变型的衍生频谱信号；离散余弦变换单元，用于对每个短时语音帧的第一频谱信号和至少一个衍生频谱信号进行离散余弦变换，计算各自的倒谱系数向量；前端特征向量导出单元，用于基于所计算出的每个短时语音帧的第一频谱信号和至少一个衍生频谱信号的倒谱系数向量，导出与该短时语音帧对应的倒谱系数向量，作为与该短时语音帧对应的前端特征向量；以及语音信号识别单元，用于基于所导出的前端特征向量，对用户后续发出的语音信号进行识别。

根据本发明的另一方面，提供了一种声纹识别方法，包括：对所获取的语音信号进行数字化；将数字化后的语音信号加窗分帧为多个短时语音帧；针对每个短时语音帧进行下述处理：进行傅立叶变换，得到该短时语音帧的第一频谱信号；基于所得到的第一频谱信号，导出至少一个作为该第一频谱信号的变型的衍生频谱信号；对第一频谱信号和至少一个衍生频谱信号进行离散余弦变换，计算各自的倒谱系数向量；基于第一频谱信号和至少一个衍生频谱信号的倒谱系数向量，导出该短时语音帧的倒谱系数向量，作为与该短时语音帧对应的前端特征向量；以及利用所导出的前端特征向量集，对发出语音信号的用户进行声纹识别，其中，在基于所计算出的第一频谱信号和至少一个衍生频谱信号的倒谱系数向量，导出与该短时语音帧对应的前端特征向量之前或之后，所述方法还包括：针对所计算出或所导出的倒谱系数向量，对于声纹识别不敏感的倒谱系数，还对该倒谱系数进行均值归一化，并且利用均值归一化后的倒谱系数对该倒谱系数向量中的对应倒谱系数进行更新；以及对于声纹识别敏感的倒谱系数，将该倒谱系数保持为原样不变。

根据本发明的另一方面，提供了一种声纹识别装置，包括：语音信号获取单元，用于获取用户的语音信号；数字化单元，用于对所获取的语音信号进行数字化；分帧单元，用于将数字化后的语音信号加窗分帧为多个短时语音帧；傅立叶变换单元，用于针对每个短时语音帧进行傅立叶变换，得到该短时语音帧的第一频谱信号；衍生频谱信号生成单元，用于基于所得到的每个短时语音帧的第一频谱信号，导出至少一个作为该第一频谱信号的变型的衍生频谱信号；离散余弦变换单元，用于对每个短时语音帧的第一频谱信号和至少一个衍生频谱信号进行离散余弦变换，计算各自的倒谱系数向量；前端特征向量导出单元，用于基于所计算出的每个短时语音帧的第一频谱信号和至少一个衍生频谱信号的倒谱系数向量，导出与该短时语音帧对应的倒谱系数向量，作为与该短时语音帧对应的前端特征向量；均值归一化单元，用于针对离散余弦变换单元计算出或者前端特征向量导出单元导出的每个倒谱系数向量，对于声纹识别不敏感的倒谱系数，对该倒谱系数进行均值归一化；以及倒谱系数处理单元，用于在经过均值归一化单元处理后，针对离散余弦变换单元计算出或者前端特征向量导出单元导出的每个倒谱系数向量，对于声纹识别敏感的倒谱系数，将该倒谱系数保持为原样不变，以及对于声纹识别不敏感的倒谱系数，利用所述均值归一化单元输出的倒谱系数进行更新；以及声纹识别单元，用于基于所导出的前端特征向量，对发出语音信号的用户进行声纹识别。

利用上述方法和装置，可以克服现有技术中在现实应用的包含噪音的环境下语音识别率或说话人识别率不高的问题。特别是，本发明提出使用至少一个衍生的频谱，使之能够充分综合利用多个鲁棒性的算法的优点，相互弥补各自的缺陷，进而能提高识别率。

为了实现上述以及相关目的，本发明的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而，这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外，本发明旨在包括所有这些方面以及它们的等同物。

附图说明

根据下述参照附图进行的详细描述，本发明的上述和其他目的、特征和优点将变得更加显而易见。在附图中：

图1示出了现有技术中的语音识别过程的流程图；

图2示出了根据本发明的第一实施例的语音信号处理过程的流程图；

图3示出了经过FFT变换后的幅值频谱示意图；

图4示出了前端特征向量导出过程的一个示例的示意图；

图5示出了前端特征向量导出过程的一个示例的流程图；

图6示出了根据本发明的第一实施例的用于执行图2中示出的语音信号处理过程的语音信号处理装置的方框示意图；

图7示出了图6中的前端特征向量导出单元的一个示例的方框示意图；

图8示出了根据本发明的第二实施例的语音信号处理过程的流程图；

图9示出了根据本发明的第二实施例的用于执行图6中示出的语音信号处理过程的语音信号处理装置的方框示意图；

图10示出了根据本发明的语音识别过程的流程图；

图11示出了根据本发明的语音识别装置的方框示意图；

图12示出了根据本发明的声纹识别过程的流程图；和

图13示出了根据本发明的声纹识别装置的方框示意图。

在所有附图中相同的标号指示相似或相应的特征或功能。

具体实施方式

下面描述本发明的各个方面。应该明白的是，本文的教导可以以多种多样形式具体体现，并且在本文中公开的任何具体结构、功能或两者仅仅是代表性的。基于本文的教导，本领域技术人员应该明白的是，本文所公开的一个方面可以独立于任何其它方面实现，并且这些方面中的两个或多个方面可以按照各种方式组合。例如，可以使用本文所阐述的任何数目的方面，实现装置或实践方法。另外，可以使用其它结构、功能、或除了本文所阐述的一个或多个方面之外或不是本文所阐述的一个或多个方面的结构和功能，实现这种装置或实践这种方法。此外，本文所描述的任何方面可以包括权利要求的至少一个元素。

以下将结合附图对本发明的具体实施例进行详细描述。

（第一实施例）

下面参照图2到图7对根据本发明的第一实施例进行说明。

图2示出了根据本发明的第一实施例的语音信号处理过程的流程图。

如图2所示，首先，在步骤S210，对通过麦克风等的语音信号获取单元（语音信号输入单元）获取的语音信号进行数字化，将所获取的模拟语音信号变换为数字语音信号，例如利用A/D变换器将所获取的模拟语音信号变换为数字语音信号。这里，语音信号获取单元也可以是本领域公知的其它设备，例如录音笔等。在进行数字化处理时，也可以采用其它已知的数字化处理设备。

在对所获取的语音信号进行数字化处理后，将数字化后的语音信号加窗分帧处理为多个短时语音帧（步骤S220）。例如，利用汉明窗，对所述输入的语音信号进行短时音框化，其中相邻两帧之间有重叠。在本发明的一个实施例中，每帧语音信号为25毫秒，相邻两帧之间存在15毫秒重叠。此外，在每帧里，还假设语音信号平稳。

然后，在步骤S230，针对每个短时语音帧进行傅立叶变换，得到该短时语音帧的第一频谱信号。也就是，利用傅立叶变化，将短时语音帧从时域变换到频域，从而到短时语音帧的振幅谱。图3示出了短时信号x(t)的傅立叶变换振幅谱，其中Fs是以Hz为单位的采样频率，并且有用的频谱信息包含在从0到Fs/2的频率范围内。这里，针对人类语音的特点，每个短时语音帧通常为25毫秒长，同时帧与帧之间有15毫秒的重叠。如果是8000Hz，那么每一帧有0.025*8000=200个采样点。为了能利用FFT来计算频谱，这200个要进行补零(zero-padding)处理，从而使得采样点数目正好是2的整数次幂（即256）。另外一个常用的采样频率是16000Hz。对应的帧长是0.025*16000=400点，补零后取512点的FFT。FFT的一个特征是N个时域的点将对应着N个频域点。这N个频域点的数据可以直接用来表征语音的频谱。

接着，在步骤S240，基于所得到的第一频谱信号，导出至少一个作为该第一频谱信号的变型的衍生频谱信号。这里，第一频谱信号是利用FFT变换后得到的原始振幅谱。所述衍生频谱信号例如可以使用频谱相减、频带限制和/或频带衰减等方法对第一频谱信号进行处理后导出。也就是，假设|X(f)|代表原始傅立叶变换振幅谱，即，|X⁽⁰⁾(f)|＝|X(f)|，则可以经过频谱均值相减来减少加性噪声，或者通过频率限制或频带衰减来去除或衰减易于受到声音变化影响且包含少量发出语音信号的用户的信息的频谱区域，得到|X(f)|的不同变型。

这里，要说明的是，在本发明的另一示例中，在如上得到衍生频谱信号后，还可以使用梅尔频率将短时频谱转换成滤波器输出。梅尔频率是根据对人类听力***作分析后得到的。它把高频部分的频谱进行压缩，将短时频谱转换成滤波器输出。

在如上处理后，在步骤S250，对第一频谱信号和至少一个衍生频谱信号进行离散余弦变换，计算各自的倒谱系数向量。每个倒谱系数向量所含有的元素个数取决于算FFT的点数以及是否采用滤波器方式的输出。通常在语音/声纹识别中，只取该向量的前13个系数，即图2中的Q等于13。也就是说，针对每个帧计算出对应的倒谱系数，例如图4中的C⁽⁰⁾(q)，C⁽¹⁾(q)，……,C^(k)(q)等。这里，C⁽⁰⁾(q)表示短时语音帧对应的第一频谱信号的倒谱系数向量的第q个标量系数，以及C^(k)(q)表示第k个衍生频谱信号的倒谱系数的第q个标量系数。

然后，在步骤S260，基于所计算出的第一频谱信号和至少一个衍生频谱信号的倒谱系数向量，导出每个短时语音帧的倒谱系数向量，作为与该短时语音帧对应的前端特征向量。

接着，在步骤S270，判断是否针对所有短时语音帧导出对应的前端特征向量。如果没有，即步骤S270中为否，则返回到步骤S230，针对下一短时语音帧进行处理。如果已经导出，即步骤S270中为是，则流程结束。

图5示出了前端特征向量导出过程的一个示例的流程图。如图5所示，在步骤S250中得到第一频谱信号和至少一个衍生频谱信号的各自的倒谱系数向量后，为所计算出的第一频谱信号和至少一个衍生频谱信号的倒谱系数向量分配加权权重（步骤S261），其中，分配给各个倒谱系数向量的加权权重之和等于1。这些加权权重可以简单地在各种频谱中平分。例如，当使用两个频谱时，这些加权权重各为0.5，而当使用三个频谱时，这些加权权重各为1/3。或者，可以利用预先确定的条件（例如，用于存储预先确定的条件的条件数据库）来为各个倒谱系数向量分配这些加权权重，使得基于如此分配的加权权重所得到的识别率最好。然后，基于所分配的加权权重，对所计算出的第一频谱信号和至少一个衍生频谱信号的倒谱系数向量进行加权求和，导出与该短时语音帧对应的倒谱系数向量（步骤S263）。例如，如图4中所示，分别为C⁽⁰⁾(q)，C⁽¹⁾(q)，……,C^(k)(q)分配加权权重β⁽⁰⁾、β⁽¹⁾、……、β^(k)，其中，

则短时语音帧q的倒谱系数向量为

图6示出了根据本发明的第一实施例的用于执行图2中示出的语音信号处理过程的语音信号处理装置600的方框示意图。

如图6所示，语音信号处理装置600包括语音信号获取单元610、数字化单元620、分帧单元630、FFT单元640、衍生频谱信号生成单元650、离散余弦变换单元660以及前端特征向量导出单元670。

语音信号获取单元610用于获取用户的语音信号，比如麦克风、录音笔等。数字化单元620用于对所获取的语音信号进行数字化。这里，数字化单元620可以采用本领域中公知的A/D变换器。

分帧单元630用于将数字化后的语音信号加窗分帧为多个短时语音帧。傅立叶变换单元640用于针对每个短时语音帧进行傅立叶变换，得到该语音信号的第一频谱信号。衍生频谱信号生成单元650用于基于所得到的每个短时语音帧的第一频谱信号，导出至少一个作为该第一频谱信号的变型的衍生频谱信号。优选地，衍生频谱信号生成单元650使用频谱相减、频带限制和/或频带衰减方法对第一频谱信号进行处理后导出至少一个衍生频谱信号。在图4中示出了k个衍生频谱信号。

离散余弦变换单元660用于对每个短时语音帧的第一频谱信号和至少一个衍生频谱信号进行离散余弦变换，计算各自的倒谱系数向量。前端特征向量导出单元670用于基于所计算出的第一频谱信号和至少一个衍生频谱信号的倒谱系数向量，导出该短时语音帧的倒谱系数向量，作为与该短时语音帧对应的前端特征向量。

图7示出了图6中的前端特征向量导出单元670的一个示例的方框示意图。在本发明的一个示例中，如图7所示，前端特征向量导出单元670可以包括加权权重分配模块671和求和模块673。加权权重分配模块671用于分别为所计算出的第一频谱信号和至少一个衍生频谱信号的倒谱系数向量分配加权权重，其中分配给各个倒谱系数向量的加权权重之和等于1。求和模块673用于基于所分配的加权权重，对所计算出的各个倒谱系数向量进行加权求和。

如上参照图2到图7对根据本发明的第一实施例的语音信号处理方法及装置进行了说明。

利用根据本发明的第一实施例的语音信号处理方法，可以通过使用至少一个衍生的频谱，使之能够充分综合利用多个鲁棒性的算法的优点，相互弥补各自的缺陷，进而能提高语音识别的准确率。

（第二实施例）

下面参照图8和图9描述根据本发明的第二实施例的语音信号处理方法及装置。

图8示出了根据本发明的第二实施例的语音处理方法的流程图。通过比较图8中示出的流程和图2中示出的流程图可知，图8中的步骤S810到S850与图2中的步骤S210到S250基本上完全相同，在此不再重复描述。下面仅仅对图8中的步骤S860到S895进行说明。

如图8所示，在计算出倒谱系数向量后，在步骤S860，针对各个倒谱系数向量中的倒谱系数，判断该倒谱系数是否对声纹识别不敏感，例如，对用于示出说话人之间的区别的声道不敏感。如果在步骤S860中判断该倒谱系数对声纹识别不敏感（例如，对声道不敏感），即步骤S860中的判断结果为是，则进行到步骤S870。在步骤S870，对该倒谱系数进行均值归一化，并且利用该均值归一化后的倒谱系数对倒谱系数向量中的对应倒谱系数进行更新（步骤S875）。对这类倒谱系数实现均值归一化，能减少信道失真对识别率的影响。

在本发明的一个示例中，对倒谱系数进行均值归一化可以包括从该倒谱系数中减去针对语音信号的所有帧的倒谱系数均值。

倒谱系数均值由下述公式（1）表示，其中总共存在Q+1个倒谱系数，

q为0,1,2，...,Q。

\begin{matrix} m_{q} = \frac{1}{N} Σ_{n = 1}^{N} {\tilde{C}}_{n, q}, & q = 0,1,2, . . . . . ., Q \end{matrix} - - - (1)

在公式（1），

代表第n帧的第q个倒频谱系数，m_q代表q个倒频谱系数的平均值，N为计算平均值时所涉及的帧的数目。

如上进行均值归一化后的倒谱系数由下述公式（2a）-（2c）表示。

n=1,2,...,N以及q∈q^c （2a）

n=1,2，...,N以及q∈q^s （2b）

N_{q^{c}} + N_{q^{s}} = Q + 1

（2c）

在公式（2）中，q^s代表其均值可以最大程度保留说话人之间差异的倒频谱系数集合，即，对声道敏感的倒谱系数集合。q^c代表均值归一化后可以提供鲁棒性抗信道干扰性能的倒频谱系数集合，即对声道不敏感的倒谱系数集合。表示经过均值归一化后的第n帧的第q个倒谱系数，以及

表示均值归一化前的第n帧的第q个倒谱系数，

表示q^c中的元素的个数，以及

表示q^s中的元素的个数。

在本发明的另一示例中，在使用高通滤波器来滤去均值分量的情况下，对所导出的每个短时语音帧的倒谱系数进行均值归一化可以包括从该倒谱系数中减去前一短时语音帧的倒谱系数与预定系数a之积，其中a是0和1之间的小数。这里，优选地，a被设置为0.95。

如上进行均值归一化后的倒谱系数由下述公式（3a）-（3c）表示。

n=1,2,..,N以及q∈q^c （3a）

n=1,2，...,N以及q∈q^s （3b）

{\tilde{C}}_{0, q} = 0 - - - (3 c)

如果在步骤S860中判断该倒谱系数对声道敏感，即步骤S860中的判断结果为否，则进行到步骤S880。在步骤S880，将该倒谱系数保持为不变。

然后，在步骤S890中，基于经过上述选择性均值归一化处理后的第一频谱信号和至少一个衍生频谱信号的倒谱系数向量，导出与该短时语音帧对应的前端特征向量。

接着，在步骤S895，判断是否针对所有短时语音帧导出对应的前端特征向量。如果没有，即步骤S895中为否，则返回到步骤S830，针对下一短时语音帧进行处理。如果针对所有短时语音帧已经导出前端特征向量，即步骤S895中为是，则流程结束。

这里要说明的是，上面示出步骤S860到S880在步骤S890之前执行，在本发明的另一示例中，上面的步骤S860到S880也可以在步骤S890和S895之间执行。

图9示出了根据本发明的第二实施例的语音信号处理装置900的方框示意图。

与图6相比，图9中的大部分组件与图6中的组件相同，不同之处仅仅在于图9中还包括均值归一化单元970和倒谱系数处理单元980。在此对相同的组件不再进行重复说明，而仅仅描述不同之处。

均值归一化单元970用于针对离散余弦变换单元计算出的或者前端特征向量导出单元导出的每个倒谱系数向量，对于声道不敏感的倒谱系数，对该倒谱系数进行均值归一化。倒谱系数处理单元980被配置为针对每个所计算出的或导出的倒谱系数向量，对于声道敏感的倒谱系数，将该倒谱系数保持为原样不变，以及对于声道不敏感的倒谱系数，利用所述均值归一化单元输出的倒谱系数进行更新。

此外，当选择性均值归一化处理在导出前端特征向量之前执行时，前端特征向量导出单元990被配置为基于经过选择性均值归一化处理后的每个短时语音帧的第一频谱信号和至少一个衍生频谱信号的倒谱系数向量，导出该短时语音帧的前端特征向量。

当选择性均值归一化处理在导出前端特征向量之前执行时，前端特征向量导出单元990与图6中示出的前端特征向量导出单元670完全相同。

如上参照图8和图9描述了根据本发明第二实施例的语音信号处理方法及装置。

利用根据本发明的第二实施例的语音信号处理方法，可以通过在生成前端特征向量之前或之后时，针对每个倒谱系数向量，对于声道敏感的倒谱系数，将该倒谱系数保持原样不变，以及对于声道不敏感的倒谱系数，进行均值归一化处理并利用均值归一化处理后获得的倒谱系数进行更新，从而可以保留说话人的声道特性，即，声纹特性，由此提高声纹识别率。

图10示出了使用根据本发明的语音信号处理方法执行的语音识别方法的流程图。

通过与图2中示出的语音信号处理方法相比，图10中示出的语音识别方法的不同之处在于还包括步骤S1080。在步骤S1080中，利用所得到的前端特征向量，对用户后续发出的语音信号进行识别。这里，利用所得到的前端特征向量进行语音识别可以采用本领域公知的技术，例如参照图1中描述的步骤S170中提及的方法。

图11示出了根据本发明的语音识别装置10的方框示意图。如图11中所示，语音识别装置10包括图6中示出的语音信号处理装置600以及语音识别单元1110。所述语音识别单元1110用于基于所导出的前端特征向量集，对用户后续发出的语音信号进行识别。

图12示出了使用根据本发明的语音信号处理方法执行的声纹识别方法的流程图。

通过与图8中示出的语音信号处理方法相比，图12中示出的语音识别方法的不同之处在于还包括步骤S1210。在步骤S1210中，利用所得到的前端特征向量，对发出语音信号的用户进行声纹识别。这里，利用所得到的前端特征向量进行语音识别可以采用本领域公知的技术，例如参照背景技术中描述中提及的方法。

图13示出了根据本发明的语音识别装置20的方框示意图。如图13中所示，声纹识别装置20包括图9中示出的语音信号处理装置900以及声纹识别单元1310。所述声纹识别单元1310用于基于所导出的前端特征向量集，对发出语音信号的用户进行声纹识别。

此外，根据本发明的方法还可以被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本发明的方法中限定的上述功能。

此外，上述方法步骤以及***单元也可以利用控制器（例如，处理器）以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储设备实现。

如上参照附图以示例的方式描述根据本发明的语音信号处理方法和装置、语音识别方法及装置以及声纹识别方法及装置。但是，本领域技术人员应当理解，对于上述本发明所提出的语音信号处理方法及装置、语音识别方法及装置以及声纹识别方法及装置，还可以在不脱离本发明内容的基础上做出各种改进。因此，本发明的保护范围应当由所附的权利要求书的内容确定。

Claims

1.一种语音信号处理方法，包括：

对所获取的语音信号进行数字化；

将数字化后的语音信号加窗分帧为多个短时语音帧；

针对每个短时语音帧进行下述处理：

进行傅立叶变换，得到该短时语音帧的第一频谱信号；

基于所得到的第一频谱信号，导出至少一个作为该第一频谱信号的变型的衍生频谱信号；

对第一频谱信号和至少一个衍生频谱信号进行离散余弦变换，计算各自的倒谱系数向量；以及

基于所计算出的第一频谱信号和至少一个衍生频谱信号的倒谱系数向量，导出每个短时语音帧的倒谱系数向量，作为与该短时语音帧对应的前端特征向量。

2.如权利要求1所述的语音信号处理方法，其中，基于所计算出的第一频谱信号和至少一个衍生频谱信号的倒谱系数向量，导出与该短时语音帧对应的前端特征向量包括：

为所计算出的第一频谱信号和至少一个衍生频谱信号的倒谱系数向量分配加权权重；以及

基于所分配的加权权重，对所计算出的第一频谱信号和至少一个衍生频谱信号的倒谱系数向量进行加权求和，导出与该短时语音帧对应的前端特征向量，

其中，分配给各个倒谱系数向量的加权权重之和等于1。

3.如权利要求1或2所述的语音信号处理方法，其中，在基于所计算出的第一频谱信号和至少一个衍生频谱信号的倒谱系数向量，导出与该短时语音帧对应的前端特征向量之前或之后，所述方法还包括：

针对每个所计算出或导出的倒谱系数向量，

对于声纹识别不敏感的倒谱系数，对该倒谱系数进行均值归一化，并且利用均值归一化后的倒谱系数对该倒谱系数向量中的对应倒谱系数进行更新；以及

对于声纹识别敏感的倒谱系数，将该倒谱系数保持为原样不变。

4.如权利要求3所述的语音处理方法，其中，对倒谱系数进行均值归一化包括从该倒谱系数中减去针对所获得的语音信号的所有短时语音帧的倒谱系数均值，或者从该倒谱系数中减去前一短时语音帧的倒谱系数与预定系数a之积，其中a是0和1之间的小数。

5.如权利要求1所述的语音处理方法，其中，所述衍生频谱信号是使用频谱相减、频带限制和/或频带衰减方法对第一频谱信号进行处理后导出的。

6.一种语音信号处理装置，包括：

语音信号获取单元，用于获取用户的语音信号；

数字化单元，用于对所获取的语音信号进行数字化；

分帧单元，用于将数字化后的语音信号加窗分帧为多个短时语音帧；

傅立叶变换单元，用于针对每个短时语音帧进行傅立叶变换，得到该短时语音帧的第一频谱信号；

衍生频谱信号生成单元，用于基于所得到的每个短时语音帧的第一频谱信号，导出至少一个作为该第一频谱信号的变型的衍生频谱信号；

离散余弦变换单元，用于对每个短时语音帧的第一频谱信号和至少一个衍生频谱信号进行离散余弦变换，计算各自的倒谱系数向量；

前端特征向量导出单元，用于基于所计算出的每个短时语音帧的第一频谱信号和至少一个衍生频谱信号的倒谱系数向量，导出与该短时语音帧对应的倒谱系数向量，作为与该短时语音帧对应的前端特征向量。

7.如权利要求6所述的语音信号处理装置，其中，所述前端特征向量导出单元包括：

加权权重分配模块，用于为所计算出的第一频谱信号和至少一个衍生频谱信号的倒谱系数向量分配加权权重；

求和模块，用于基于所分配的加权权重，对所计算出的第一频谱信号和至少一个衍生频谱信号的倒谱系数向量进行加权求和，

其中，分配给各个倒谱系数向量的加权权重之和等于1。

8.如权利要求6或7所述的语音信号处理装置，还包括：

均值归一化单元，用于针对离散余弦变换单元计算出或者前端特征向量导出单元导出的每个倒谱系数向量，对于声纹识别不敏感的倒谱系数，对该倒谱系数进行均值归一化；以及

倒谱系数处理单元，用于针对每个所计算出或导出的倒谱系数向量，对于声纹识别敏感的倒谱系数，将该倒谱系数保持为原样不变，以及对于声道不敏感的倒谱系数，利用所述均值归一化单元输出的倒谱系数进行更新。

9.如权利要求6所述的语音处理装置，其中，所述衍生频谱信号生成单元被配置为使用频谱相减、频带限制和/或频带衰减方法对第一频谱信号进行处理而生成。

10.一种语音识别方法，包括：

对所获取的语音信号进行数字化；

将数字化后的语音信号加窗分帧为多个短时语音帧；

针对每个短时语音帧进行下述处理：

进行傅立叶变换，得到该短时语音帧的第一频谱信号；

对第一频谱信号和至少一个衍生频谱信号进行离散余弦变换，计算各自的倒谱系数向量；

基于所计算出的第一频谱信号和至少一个衍生频谱信号的倒谱系数向量，导出每个短时语音帧的倒谱系数向量，作为与该短时语音帧对应的前端特征向量；以及

利用所导出的前端特征向量，对用户后续发出的语音信号进行识别。

11.一种语音识别装置，包括：

语音信号获取单元，用于获取用户的语音信号；

数字化单元，用于对所获取的语音信号进行数字化；

前端特征向量导出单元，用于基于所计算出的每个短时语音帧的第一频谱信号和至少一个衍生频谱信号的倒谱系数向量，导出与该短时语音帧对应的倒谱系数向量，作为与该短时语音帧对应的前端特征向量；以及

语音信号识别单元，用于基于所导出的前端特征向量，对用户后续发出的语音信号进行识别。

12.一种声纹识别方法，包括：

对所获取的语音信号进行数字化；

将数字化后的语音信号加窗分帧为多个短时语音帧；

针对每个短时语音帧进行下述处理：

进行傅立叶变换，得到该短时语音帧的第一频谱信号；

基于第一频谱信号和至少一个衍生频谱信号的倒谱系数向量，导出该短时语音帧的倒谱系数向量，作为与该短时语音帧对应的前端特征向量；

以及

利用所导出的前端特征向量集，对发出语音信号的用户进行声纹识别，

其中，在基于所计算出的第一频谱信号和至少一个衍生频谱信号的倒谱系数向量，导出与该短时语音帧对应的前端特征向量之前或之后，所述方法还包括：

针对每个所计算出或导出的倒谱系数向量，

13.一种声纹识别装置，包括：

语音信号获取单元，用于获取用户的语音信号；

数字化单元，用于对所获取的语音信号进行数字化；

前端特征向量导出单元，用于基于所计算出的每个短时语音帧的第一频谱信号和至少一个衍生频谱信号的倒谱系数向量，导出与该短时语音帧对应的倒谱系数向量，作为与该短时语音帧对应的前端特征向量；

倒谱系数处理单元，用于在经过均值归一化单元处理后，针对离散余弦变换单元计算出或者前端特征向量导出单元导出的每个倒谱系数向量，对于声纹识别敏感的倒谱系数，将该倒谱系数保持为原样不变，以及对于声纹识别不敏感的倒谱系数，利用所述均值归一化单元输出的倒谱系数进行更新；以及

声纹识别单元，用于基于所导出的前端特征向量，对发出语音信号的用户进行声纹识别。