CN109841218A

CN109841218A - 一种针对远场环境的声纹注册方法及装置

Info

Publication number: CN109841218A
Application number: CN201910101749.8A
Authority: CN
Inventors: 冯大航; 陈孝良; 苏少炜; 常乐
Original assignee: BEIJING WISDOM TECHNOLOGY Co Ltd
Current assignee: BEIJING WISDOM TECHNOLOGY Co Ltd; Beijing SoundAI Technology Co Ltd
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2019-06-04
Anticipated expiration: 2039-01-31
Also published as: CN109841218B

Abstract

本公开提供了一种针对远场环境的声纹注册方法，包括：通过采集近场语音，得到目标说话人的多条近场语音采样，并对所述多条近场语音采样进行加噪及加混响，得到模拟远场语音；通过采集远程语音，按照不同的距离得到目标说话人的远场语音采样；采用所述多条近场语音采样、模拟远场语音及所述远场语音采样，获取语音频谱特征，并采用语音频谱特征提取声纹特征，得到声纹模型。本公开引入了模拟得到的远场语音或者通过调整距离采集的远场语音，提升了声纹模型的对于远场语音的鲁棒性，能够保证在远场声纹认证的情况下，提高目标说话人的通过率，提升个性化的用户体验。

Description

一种针对远场环境的声纹注册方法及装置

技术领域

本公开涉及自动语音识别领域，尤其涉及一种针对远场环境的声纹注册方法及装置。

背景技术

目前随着信息技术的普及，自动语音识别技术越来越发挥着重要的作用，其应用前景也更加广阔。语音信号中主要包含三个方面的信息：是谁说的、说的语言是什么以及说的内容是什么，其中涉及到的自动语音识别技术分别为：说话人识别、语种识别和语义识别。说话人识别技术，又叫做声纹识别，主要研究的是根据输入的语音信号对说话人的身份进行认证的技术。说话人识别同其他识别技术一样，通过一定的特征，对输入的说话人音频进行识别，从而达到对于输入语音身份的确认。声纹识别因其不涉及用户隐私问题，往往用户接受程度较高。另一方面，声纹的获取相对来说最方便，只需要手机就可以采集用户声纹特征信息，完成身份认证。在目标用户能够进行声纹认证之前，通常需要注册目标用户的声纹模型。目前，通常采用的方法是目标用户需要提交几次目标声纹的采样，再计算均值得到目标说话人的声纹模型，完成声纹模型的注册。但是，通常这种方法采集的都是近场纯净语音作为注册声纹模型的输入，因此只适用于近讲的情况。

发明内容

(一)要解决的技术问题

本公开提供了一种针对远场环境的声纹注册方法及装置，以至少部分解决以上所提出的技术问题。

(二)技术方案

根据本公开的一个方面，提供了一种针对远场环境的声纹注册方法，包括：

通过采集近场语音，得到目标说话人的多条近场语音采样，并对所述多条近场语音采样进行加噪及加混响，得到模拟远场语音；通过采集远程语音，按照不同的距离得到目标说话人的远场语音采样；

采用所述多条近场语音采样、模拟远场语音及所述远场语音采样，获取语音频谱特征，并采用语音频谱特征提取声纹特征，得到声纹模型。

在一些实施例中，对于采集的近场语音采样的加噪，计算公式如下：

其中，y(i)为模拟的加噪语音信号，s(i)为采集的近场语音信号，n(i)为噪声信号及snr为信噪比大小；

对于加混响的部分，模拟远场语音计算公式如下：

y(i)＝s(i)*h(i)

其中，y(i)为模拟的混响后的语音信号，s(i)为近场语音信号，h(i)为房间的冲激响应。

在一些实施例中，对采集的近场语音采样进行加噪时，需要选择不同的噪声类型和设置不同的信噪比大小，所述信噪比范围为5～20dB。

在一些实施例中，采用所述多条近场语音采样、模拟远场语音及所述远场语音采样，获取语音频谱特征包括：

利用端点检测算法处理所述多条近场语音采样、模拟远场语音及所述远场语音采样，截取出实际语音数据；

从所述实际语音数据中，提取语音频谱特征。

在一些实施例中，所述语音频谱特征为梅尔频率倒谱系数特征。

在一些实施例中，所述采用语音频谱特征提取声纹特征，得到声纹模型包括：

将所述语音频谱特征输入到通用背景模型及全局差异空间矩阵，提取出i-vector声纹特征；

利用目标说话人对应的所有注册语音计算产生i-vector均值；

基于概率线性判别分析完成信道补偿；

得到声纹模型，完成声纹注册。

根据本公开的另一个方面，提供了一种针对远场环境的声纹注册装置，包括：

近场语音采集模块，用于通过采集近场语音，得到目标说话人的多条近场语音采样；

加噪及加混响模块，连接到所述近场语音采集模块，用于对近场语音采用进行加噪及加混响，采用所述多条近场语音采样得到模拟远场语音；

远场语音采集模块，用于通过采集远程语音，按照不同的距离得到目标说话人的远场语音采样；

语音频谱特征提取模块，用于从所述多条近场语音采样、模拟远场语音及所述远场语音采样获得的语音数据中，提取语音频谱特征；

声纹特征提取模块，连接到所述语音频谱特征提取模块，用于提取目标说话人的声纹特征；

声纹模型模块，用于通过目标说话人的声纹特征得到声纹模型，完成声纹注册。

在一些实施例中，所述声纹特征提取模块包括：

UBM模型及T矩阵模块，连接到所述语音频谱特征提取模块，将提取的梅尔频率倒谱系数特征作为输入，通过通用背景模型及全局差异空间矩阵提取出i-vector特征；

均值计算模块，用于利用目标说话人对应的所有注册语音计算产生i-vector均值。

在一些实施例中，所述的针对远场环境的声纹注册装置，还包括：

语音端点检测模块，连接到远场语音采集模块、加噪及加混响模块及近场语音采集模块，用于对语音采样数据进行处理，采用语音端点检测算法，截取出所述目标说话人的语音采样中的实际语音数据；

信道补偿模块，连接到所述均值计算模块，用于采用基于概率线性判别分析算法进行声纹识别的信道补偿。

(三)有益效果

从上述技术方案可以看出，本公开针对远场环境的声纹注册方法及装置至少具有以下有益效果：

引入了模拟得到的远场语音或者通过调整距离采集的远场语音，提升了声纹模型的对于远场语音的鲁棒性，能够保证在远场声纹认证的情况下，提高目标说话人的通过率，提升个性化的用户体验。

附图说明

图1为本公开实施例针对远场环境的声纹注册方法的流程图。

图2为本公开实施例针对远场环境的声纹注册装置的结构示意图。

具体实施方式

本公开提供了一种针对远场环境的声纹注册方法及装置。声纹模型的注册方法，目的是通过采集目标说话人的声纹特征来构建声纹模型。现有方法通常都是利用近场纯净语音作为注册声纹模型的输入，没有考虑远场的情况。为了解决远场语音与近场模型不匹配的问题，需要引入模拟远场语音的方式或者注册时调整距离的方式来改善该不匹配的现象。

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

本公开某些实施例于后方将参照所附附图做更全面性地描述，其中一些但并非全部的实施例将被示出。实际上，本公开的各种实施例可以由许多不同形式实现，而不应被解释为限于此处所阐述的实施例；相对地，提供这些实施例使得本公开满足适用的法律要求。

在本公开的一个示例性实施例中，提供了一种针对远场环境的声纹注册方法，在现有方法的基础上引入了加噪及加混响模块和远场语音采集模块来改善远程声纹认证的效果。该方法一方面对于通过近场语音采集模块得到的目标说话人的语音采样，利用加噪及加混响模块处理后得到模拟的远程语音，从而通过一条注册语音就模拟出了多条语音；另一方面直接利用远程语音采集模块得到远程语音。通过加混响及噪声的方式来模拟远场语音信号，或者利用调整注册距离来扩充远场语音声纹的采样，达到了缩小声纹模型与远场认证语音不匹配的目的。

图1为本公开实施例针对远场环境的声纹注册方法的流程图。如图1所示，本公开针对远场环境的声纹注册方法包括：

S1，通过采集近场语音，得到目标说话人的多条近场语音采样，并进行加噪及加混响，采用所述多条近场语音采样得到模拟远场语音；

对于加噪的部分，可以选择不同的噪声类型(白噪声，办公室噪声及餐厅噪声等)和不同的信噪比大小(5～20dB)，计算公式如下：

其中，y(i)为模拟的加噪语音信号，s(i)为采集的近场语音信号，其为所述多条近场语音采样中某条语音的采样点的取值，n(i)为噪声信号及Snr为信噪比大小。对于加混响的部分，模拟远场语音计算公式如下：

y(i)＝s(i)*h(i)

其中，y(i)为模拟的混响后的语音信号，s(i)为近场语音信号，h(i)为房间的冲激响应；

S2，通过采集远程语音，按照不同的距离得到目标说话人的远场语音采样；

S3，对所述步骤S1得到的模拟远场语音及所述步骤S2得到的远场语音采样，利用端点检测算法(VAD，Voice Activity Detection)，截取出实际语音数据；

在获取模拟远场语音及远场语音采样后，采用VAD算法进行语音边界检测，从语音数据中识别和消除长时间的静音期，获取采样语音数据中的实际语音数据。

S4，从所述实际语音数据中，提取梅尔频率倒谱系数(MFCC，Mel-frequencycepstral coefficients)特征；

其中，MFCC特征是在Mel标度频率域提取出来的倒谱参数，Mel标度描述了人耳频率的非线性特性，本实施例采用MFCC特征对目标语音数据进行语音频谱特征提取。所述MFCC特征包括18维的基本倒谱特征和对基本倒谱特征进行特征补偿后的18维特征，所述特征补偿包括高阶差分、倒谱均值减、倒谱方差规整、相关频谱(Relative Spectral，Rasta)滤波，所述MFCC特征的维数为36维。

S5，采用通用背景模型(UBM，Universal Background Model)及全局差异空间矩阵(T矩阵)提取出i-vector声纹特征，并利用目标说话人对应的所有注册语音计算产生i-vector均值；

其中，采用UBM模型及T矩阵提取出i-vector声纹特征时，一条语音经过加噪声，加混响可以变成多条语音，每条语音都独立的计算出其相应的i-vertor声纹特征，再利用目标说话人对应的所有注册语音计算产生i-vector均值。

S6，基于概率线性判别分析(PLDA，Probabilistic Linear DiscriminantAnalysis)完成信道补偿。

所述PLDA是一种采用概率形式的LDA算法，该算法基于d-vector特征，所述d-vector特征除说话人信息之外还包括了信道信息，因此采用PLDA算法进行声纹识别的信道补偿后，能够更好地提取声纹特征。

进一步地，本实施例针对远场环境的声纹注册方法中，所述步骤S6之后还包括：

S7，得到声纹模型，完成声纹注册。

在本公开的又一个实施例中，提供了一种针对远场环境的声纹注册装置。图2为本公开实施例针对远程环境的声纹注册装置的结构示意图。如图2所示，所述针对远场环境的声纹注册装置包括近场语音的采集模块、远场语音采集模块、加噪及加混响模块、语音端点检测模块(VAD)、语音频谱特征提取模块、声纹特征提取模块、信道补偿模块、声纹模型模块等作为基础模块。

具体地，所述针对远场环境的声纹注册装置中：

语音端点检测模块，连接到远场语音采集模块、加噪及加混响模块及近场语音采集模块，用于对语音采样数据进行处理，采用语音端点检测算法(VAD，Voice ActivityDetection)，截取出所述目标说话人的语音采样中的实际语音数据。

语音频谱特征提取模块，连接到所述语音端点检测模块，用于从所述实际语音数据中，提取梅尔频率倒谱系数(MFCC)特征。

声纹特征提取模块，连接到所述语音频谱特征提取模块，包括UBM模型及T矩阵模块及均值计算模块。其中，UBM模型及T矩阵模块将提取的梅尔频率倒谱系数特征作为输入，通过通用背景模型(UBM)及全局差异空间矩阵(T矩阵)提取出i-vector特征。均值计算模块用于利用目标说话人对应的所有注册语音计算产生i-vector均值；

信道补偿模块，连接到所述均值计算模块，用于采用基于概率线性判别分析(PLDA)算法进行声纹识别的信道补偿。

声纹模型模块，连接到所述信道补偿模块，用于得到声纹模型，完成声纹注册。

为了达到简要说明的目的，上述实施例1中任何可作相同应用的技术特征叙述皆并于此，无需再重复相同叙述。

本公开通过在声纹模型的注册阶段，通过加混响及噪声的方式来模拟远场语音信号，同时可以进一步利用调整注册距离来扩充远场语音声纹的采样，达到了缩小声纹模型与远场认证语音不匹配的目的，保证了远场说话人认证(DSV，Distant SpeakerVerification)的性能。

至此，已经结合附图对本公开实施例进行了详细描述。需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换。

此外，除非特别描述或必须依序发生的步骤，上述步骤的顺序并无限制于以上所列，且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑，彼此混合搭配使用或与其他实施例混合搭配使用，即不同实施例中的技术特征可以自由组合形成更多的实施例。

在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述，构造这类***所要求的结构是显而易见的。此外，本公开也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本公开的内容，并且上面对特定语言所做的描述是为了披露本公开的最佳实施方式。

本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。本公开的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开实施例的相关设备中的一些或者全部部件的一些或者全部功能。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。并且，在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。

类似地，应当理解，为了精简本公开并帮助理解各个公开方面中的一个或多个，在上面对本公开的示例性实施例的描述中，本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，公开方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本公开的单独实施例。

以上所述的具体实施例，对本公开的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本公开的具体实施例而已，并不用于限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种针对远场环境的声纹注册方法，包括：

采用所述多条近场语音采样、模拟远场语音及所述远场语音采样获取语音频谱特征，并采用语音频谱特征提取声纹特征，得到声纹模型。

2.根据权利要求1所述的声纹注册方法，其中，对所述多条近场语音采样进行加噪，计算公式为：

对于加混响的部分，模拟远场语音计算公式如下：

y(i)＝s(i)*h(i)

3.根据权利要求2所述的声纹注册方法，其中，对采集的近场语音采样进行加噪时，需要选择不同的噪声类型和设置不同的信噪比大小，所述信噪比范围为5～20dB。

4.根据权利要求2所述的声纹注册方法，其中，采用所述多条近场语音采样、模拟远场语音及所述远场语音采样获取语音频谱特征包括：

从所述实际语音数据中，提取语音频谱特征。

5.根据权利要求4所述的声纹注册方法，其中，所述语音频谱特征为梅尔频率倒谱系数特征。

6.根据权利要求5所述的声纹注册方法，其中，所述采用语音频谱特征提取声纹特征，得到声纹模型包括：

利用目标说话人对应的所有注册语音计算产生i-vector均值；

基于概率线性判别分析完成信道补偿；

得到声纹模型，完成声纹注册。

7.一种针对远场环境的声纹注册装置，包括：

8.根据权利要求7所述的针对远场环境的声纹注册装置，其中，所述语音频谱特征为梅尔频率倒谱系数特征。

9.根据权利要求7所述的针对远场环境的声纹注册装置，所述声纹特征提取模块包括：

10.根据权利要求7所述的针对远场环境的声纹注册装置，还包括：