CN107705791A

CN107705791A - 基于声纹识别的来电身份确认方法、装置和声纹识别***

Info

Publication number: CN107705791A
Application number: CN201610641491.7A
Authority: CN
Inventors: 龚晟; 杨震; 彭晓春; 俞惠华
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2016-08-08
Filing date: 2016-08-08
Publication date: 2018-02-16
Anticipated expiration: 2036-08-08
Also published as: CN107705791B

Abstract

本发明公开了一种基于声纹识别的来电身份确认方法、装置和声纹识别***，涉及声纹技术领域，其中的方法包括：在通话过程中采集的语音和信道特征信息；判断是否能够获取与信道特征信息相匹配的带有信道特征的声纹模型；如果是，则提取语音的声纹特征并与带有信道特征的声纹模型进行匹配，用以确定通话人的身份信息。本发明的方法、装置和声纹识别***，通过实时对声源的信道特征进行采集，优先选择对应的带有信道特征的声纹模型进行模式匹配，建立带信道标识的一般声纹模型库以及信道特征消除后的声纹模型，可以提供统一、可靠的用户身份确认业务，以及一致的用户体验，可有效解决由于信道差异所带来的声纹识别的性能影响，提高了普适性。

Description

基于声纹识别的来电身份确认方法、装置和声纹识别***

技术领域

本发明涉及声纹识别技术领域，尤其涉及基于声纹识别的来电身份确认方法、装置和声纹识别***。

背景技术

声纹(Voiceprint)是携带言语信息的声波频谱，不仅具有特定性，而且有相对稳定性的特点。无论讲话者是故意模仿他人声音和语气，还是耳语轻声讲话，即使模仿得惟妙惟肖，其声纹却始终不相同。声纹识别就是通过分析语音，根据待识别语音的声纹特征识别该段语音所对应的说话人的过程。声纹识别是一类典型的模式识别问题，其主要包含说话人模型训练和测试语音识别2个阶段。声纹识别应用的日益广泛，人们对声纹识别***的性能要求也在逐渐提高，使用高质采音设备并在安静环境下传送的语音，***识别率通常较高。但是由于应用场景不同，往往会遇到很多问题，其中的信道差异影响是其中之一。主要表现在：1、由于信道的不同或采音设备不同，导致采音效果参差、采样率不等、编码格式等各种问题，使得各种信道上声纹采集受到不同程度的影响，也降低了声纹识别的性能。2、传统的声纹识别***不具有信道标签，同时基于信道的特征参数采集有待补充，目前虽已经具备基于特征域、模型域等信道特征消除的算法，但都是对已有模型或已知信道进行特征消除计算，无法对实时传输语音进行信道甄别。

发明内容

有鉴于此，本发明要解决的一个技术问题是提供基于声纹识别的来电身份确认方法、装置和声纹识别***。

根据本发明的一个方面，提供一种基于声纹识别的来电身份确认方法，包括：在通话过程中采集的语音和信道特征信息；判断是否能够获取与所述信道特征信息相匹配的带有信道特征的声纹模型；如果是，则提取所述语音的声纹特征并与所述带有信道特征的声纹模型进行匹配，用以确定通话人的身份信息。

可选地，如果不能获取与所述信道特征信息相匹配的带有信道特征的声纹模型，则获取信道特征消除的声纹模型；从所述语音中提取消除了信道特征的声纹特征、并与所述信道特征消除的声纹模型进行匹配，用以确定通话人的身份信息。

可选地，在进行声纹训练时，获取训练语音以及与所述训练语音相对应的信道特征信息；基于所述信道特征信息建立信道特征库，在所述信道信息库中保存有至少一个信道特征选项；设置信道标签并建立所述信道特征选项与所述信道标签的对应关系；从所述训练语音中提取声纹特征进行训练，在声纹模型库中建立至少一个所述带有信道特征的声纹模型；基于与所述训练语音相对应的信道特征信息，建立所述带有信道特征的声纹模型与所述信道标签的对应关系。

可选地，在声纹模型库中建立所述带有信道特征的声纹模型时，从所述训练语音中提取消除了信道特征的声纹特征进行训练，在声纹库中建立所述信道特征消除的声纹模型。

可选地，所述判断是否能够获取与所述信道特征信息相匹配的带有信道特征的声纹模型包括：将所述信道特征信息与信道特征库中的信道特征选型进行匹配，如果匹配成功，则获取匹配成功的信道特征选项所对应的信道标签；在声纹模型库中获取与匹配成功的信道特征选项所对应的信道标签相对应的带有信道特征的声纹模型。

可选地，所述如果不能获取与所述信道特征信息相匹配的带有信道特征的声纹模型、则获取信道特征消除的声纹模型包括：将所述信道特征信息与信道特征库中的信道特征进行匹配，如果匹配不成功，则在声纹模型库中获取所述信道特征消除的声纹模型。

可选地，所述信道特征信息包括：信道信息、设备信息、背景音信息。

可选地，接收到终端基于设定的规则发送的所述信道信息、设备信息；分析所述语音并从所述语音中提取所述背景音信息。

根据本发明的另一个方法，提供一种基于声纹识别的来电身份确认装置，包括：信息采集模块，用于在通话过程中采集的语音和信道特征信息；模型获取模块，用于判断是否能够获取与所述信道特征信息相匹配的带有信道特征的声纹模型，如果是，则获取所述带有信道特征的声纹模型；声纹识别模块，用于提取所述语音的声纹特征并与所述带有信道特征的声纹模型进行匹配，用以确定通话人的身份信息。

可选地，所述模型获取模块，还用于如果不能获取与所述信道特征信息相匹配的带有信道特征的声纹模型，则获取信道特征消除的声纹模型；所述声纹识别模块，还用于从所述语音中提取消除了信道特征的声纹特征、并与所述信道特征消除的声纹模型进行匹配，用以确定通话人的身份信息。

可选地，训练信息获取模块，用于在进行声纹训练时，获取训练语音以及与所述训练语音相对应的信道特征信息；信道特征建立模块，用于基于所述信道特征信息建立信道特征库，在所述信道信息库中保存有至少一个信道特征选项；设置信道标签并建立所述信道特征选项与所述信道标签的对应关系；模型训练模块，用于从所述训练语音中提取声纹特征进行训练，在声纹模型库中建立至少一个所述带有信道特征的声纹模型；基于与所述训练语音相对应的信道特征信息，建立所述带有信道特征的声纹模型与所述信道标签的对应关系。

可选地，所述模型训练模块，用于在声纹模型库中建立所述带有信道特征的声纹模型时，从所述训练语音中提取消除了信道特征的声纹特征进行训练，在声纹库中建立所述信道特征消除的声纹模型。

可选地，所述模型获取模块，还用于将所述信道特征信息与信道特征库中的信道特征选型进行匹配，如果匹配成功，则获取匹配成功的信道特征选项所对应的信道标签；在声纹模型库中获取与匹配成功的信道特征选项所对应的信道标签相对应的带有信道特征的声纹模型。

可选地，所述模型获取模块，还用于将所述信道特征信息与信道特征库中的信道特征进行匹配，如果匹配不成功，则在声纹模型库中获取所述信道特征消除的声纹模型。

可选地，所述信道特征信息包括：信道信息、设备信息、背景音信息；所述信息采集模块，用于接收到终端基于设定的规则发送的所述信道信息、设备信息；分析所述语音并从所述语音中提取所述背景音信息。

根据本发明的又一方面，提供一种声纹识别***，包括：如上所述的基于声纹识别的来电身份确认装置。

本发明的基于声纹识别的来电身份确认方法、装置和声纹识别***，通过实时对声源的信道特征进行采集，优先选择对应的带有信道特征的声纹模型进行模式匹配，在声纹训练中分别采集并标识语音信道资源，建立带信道标识的一般声纹模型库以及信道特征消除后的声纹模型，可有效解决由于信道差异所带来的声纹识别的性能影响，提高了普适性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明的基于声纹识别的来电身份确认方法的一个实施例的流程示意图；

图2为根据本发明的基于声纹识别的来电身份确认方法的另一个实施例中对语音进行处理的示意图；

图3为根据本发明的基于声纹识别的来电身份确认装置的一个实施例的模块示意图。

具体实施方式

下面参照附图对本发明进行更全面的描述，其中说明本发明的示例性实施例。下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。下面结合各个图和实施例对本发明的技术方案进行多方面的描述。

图1为根据本发明的基于声纹识别的来电身份确认方法的一个实施例的流程示意图，如图1所示：

步骤101，在通话过程中采集的语音和信道特征信息。

信道特征信息包括：信道信息、设备信息、背景音信息等。信道信息是指通信信道的多种参数信息，例如传输的介质包括：电缆、电磁波等、传输质量、编码格式等。设备信息是指进行通话所使用的终端，例如为手机、PC、固定电话等。背景音用于确定进行通话的背景环境，例如通话人在机场、办公室、超市等。

步骤102，判断是否能够获取与信道特征信息相匹配的带有信道特征的声纹模型。

步骤103，如果是，则提取语音的声纹特征并与带有信道特征的声纹模型进行匹配，用以确定通话人的身份信息。

如果不能获取与信道特征信息相匹配的带有信道特征的声纹模型，则获取信道特征消除的声纹模型，从语音中提取消除了信道特征的声纹特征、并与信道特征消除的声纹模型进行匹配，用以确定通话人的身份信息。

上述实施例中的基于声纹识别的来电身份确认方法，进行实时声纹识别、说话人确认场景等，通过实时对声源的信道特征进行采集，优先选择对应的带有信道特征的声纹模型进行模式匹配，以提高声纹识别的普适性。

随着移动互联网技术与服务不断发展，需要通过互联网、手机、固话、甚至APP，语音IM等***对通话者的声纹进行确认认证。上述实施例中的基于声纹识别的来电身份确认方法，能够针对呼叫中心、IM等多信道声源场景下提供跨信道的、统一的声纹识别确认服务。

在声纹训练与声纹识别过程中分别采集并标签语音实时传输信道信息，并采集设备特征参数、背景特征参数等形成基于信道的特征库。根据信道特征参数的组合，对应归类并建立带信道标签的声纹模型，同时配备信道特征消除后的声纹模型，在进行声纹的识别过程中，通过实时基于信道特征选择声纹模型。

在一个实施例中，在进行声纹训练时，获取训练语音以及与训练语音相对应的信道特征信息。基于信道特征信息建立信道特征库，在信道信息库中保存有至少一个信道特征选项。可以对信道信息、设备信息、背景音信息的参数的组合进行归类，建立信道信息库中的信道特征选项。

设置信道标签并建立信道特征选项与信道标签的对应关系，为一对一的关系。从训练语音中提取声纹特征进行训练，在声纹模型库中建立至少一个带有信道特征的声纹模型。基于与训练语音相对应的信道特征信息，建立带有信道特征的声纹模型与信道标签的对应关系，通过信道标签，实现信道特征与带有信道特征的声纹模型的关联关系。

在声纹模型库中建立带有信道特征的声纹模型时，从训练语音中提取消除了信道特征的声纹特征进行训练，在声纹库中建立信道特征消除的声纹模型，从语音中消除信道特征可以采用现有的多种信道特征消除的算法。

在进行实时的声纹识别时，将信道特征信息与信道特征库中的信道特征选型进行匹配，如果匹配成功，则获取匹配成功的信道特征选项所对应的信道标签。在声纹模型库中获取与匹配成功的信道特征选项所对应的信道标签相对应的带有信道特征的声纹模型。将信道特征信息与信道特征库中的信道特征进行匹配，如果匹配不成功，则在声纹模型库中获取信道特征消除的声纹模型。

上述实施例中的基于声纹识别的来电身份确认方法，实现了跨信道的声纹优化处理，使声纹识别更加适应互联网/移动互联网的应用需求，提高了普适性；能够针对不同的语音传输信道进行声纹识别，通过在声纹训练与声纹识别过程中分别采集并标识语音信道资源，建立带信道标识的一般声纹模型库以及信道特征消除后的声纹模型；通过信道标识的匹配，实现跨信道的声纹识别功能，可以提供统一、可靠的用户身份确认业务，以及一致的用户体验。

图2为根据本发明的基于声纹识别的来电身份确认方法的另一个实施例的用于对语音进行处理的示意图。预处理包括降噪和端点检测，对输入的模拟语音信号进行量化和采样，获得数字化的语音信号，采用语音信号的短时能量和短时过零率进行端点检测。

在声纹训练过程中，从多个层面获取信道特征并加以标签，例如信道信息、设备信息、背景特征等。接收终端基于设定的规则发送的信道信息、设备信息，分析语音并从语音中提取背景音信息。

根据预先定义的信道标签，在语音输入的同时，采集信道特征并加以标识，并提取基于该信道的特征(包括设备特征、背景音特征等)，形成信道特征库。根据信道特征库，归类不同的训练用参考模板，同时建立信道特征消除模型库。

根据所采集的各信道特征组合，对应建立声纹模型库，同步通过特征域或模型域算法消除语音特征中的信道影响，建立消除信道特征后的声纹模型库。声纹特征提取可以选取唯一表现说话人身份的有效且稳定可靠的特征，声学特征主要包括提取如谱包络、基音轮廓、共振峰频率等。

在声纹识别过程中同步采集信道特征，将信道特征与信道特征库中的信道特征选项进行对比，若特征值映射度达到一定阈值，则认为相似度较高，可直接与信道标签对应的声纹模型做匹配，反之可选择信道影响消除后的声纹模型库。特征值阈值可自行设定，比如信道特征的有关参数有多个，若设定阈值为90％，则如果90％的特征参数值匹配成功，可认定为其信道特征与信道特征库中的信道特征选项匹配度较高。

上述实施例提供的基于声纹识别的来电身份确认方法、装置和声纹识别***，在声纹训练中分别采集并标识语音信道资源，建立带信道标识的一般声纹模型库以及信道特征消除后的声纹模型；通过获取信道标识，并建立带信道标识声纹数据模型，实现跨信道声纹优化处理，可以提供统一、可靠的用户身份确认业务，以及一致的用户体验，可有效解决由于信道差异所带来的声纹识别***的性能影响，并有效改善目前声纹识别应用中声纹注册信道与声纹验证信道须一致的现状。

在一个实施例中，如图3所示，本发明提供一种基于声纹识别的来电身份确认装置，包括：信息采集模块31、模型获取模块32、声纹识别模块33、信道特征建立模块34和模型训练模块35。信息采集模块31在通话过程中采集的语音和信道特征信息。模型获取模块32判断是否能够获取与信道特征信息相匹配的带有信道特征的声纹模型，如果是，则获取带有信道特征的声纹模型。声纹识别模块33提取语音的声纹特征并与带有信道特征的声纹模型进行匹配，用以确定通话人的身份信息。

如果不能获取与信道特征信息相匹配的带有信道特征的声纹模型，则模型获取模块32获取信道特征消除的声纹模型。声纹识别模块33从语音中提取消除了信道特征的声纹特征、并与信道特征消除的声纹模型进行匹配，用以确定通话人的身份信息。

信息采集模块31在进行声纹训练时，获取训练语音以及与训练语音相对应的信道特征信息。信道特征建立模块34基于信道特征信息建立信道特征库，在信道信息库中保存有至少一个信道特征选项；设置信道标签并建立信道特征选项与信道标签的对应关系。模型训练模块35从训练语音中提取声纹特征进行训练，在声纹模型库中建立至少一个带有信道特征的声纹模型，基于与训练语音相对应的信道特征信息，建立带有信道特征的声纹模型与信道标签的对应关系。

模型训练模块35在声纹模型库中建立带有信道特征的声纹模型时，从训练语音中提取消除了信道特征的声纹特征进行训练，在声纹库中建立信道特征消除的声纹模型。

模型获取模块32将信道特征信息与信道特征库中的信道特征选型进行匹配，如果匹配成功，则获取匹配成功的信道特征选项所对应的信道标签，在声纹模型库中获取与匹配成功的信道特征选项所对应的信道标签相对应的带有信道特征的声纹模型。

模型获取模块32将信道特征信息与信道特征库中的信道特征进行匹配，如果匹配不成功，则在声纹模型库中获取信道特征消除的声纹模型。信息采集模块31接收到终端基于设定的规则发送的信道信息、设备信息，分析语音并从语音中提取背景音信息。

在一个实施例中，本发明提供一种声纹识别***，包括：如上所述的基于声纹识别的来电身份确认装置。

上述实施例提供的基于声纹识别的来电身份确认方法、装置和声纹识别***，在声纹训练中分别采集并标识语音信道资源，建立带信道标识的一般声纹模型库以及信道特征消除后的声纹模型；在声纹识别时通过信道标识的匹配，实现跨信道的声纹识别功能，可以提供统一、可靠的用户身份确认业务，以及一致的用户体验，可有效解决由于信道差异所带来的声纹识别***的性能影响，并有效改善目前声纹识别应用中声纹注册信道与声纹验证信道须一致的现状，使声纹识别引擎更加适应互联网/移动互联网的应用需求，提高了普适性。

可能以许多方式来实现本发明的方法和***。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和***。用于方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种基于声纹识别的来电身份确认方法，其特征在于，包括：

在通话过程中采集的语音和信道特征信息；

判断是否能够获取与所述信道特征信息相匹配的带有信道特征的声纹模型；

如果是，则提取所述语音的声纹特征并与所述带有信道特征的声纹模型进行匹配，用以确定通话人的身份信息。

2.如权利要求1所述的方法，其特征在于，包括：

如果不能获取与所述信道特征信息相匹配的带有信道特征的声纹模型，则获取信道特征消除的声纹模型；

从所述语音中提取消除了信道特征的声纹特征、并与所述信道特征消除的声纹模型进行匹配，用以确定通话人的身份信息。

3.如权利要求1或2所述的方法，其特征在于，包括：

在进行声纹训练时，获取训练语音以及与所述训练语音相对应的信道特征信息；

基于所述信道特征信息建立信道特征库，在所述信道信息库中保存有至少一个信道特征选项；

设置信道标签并建立所述信道特征选项与所述信道标签的对应关系；

从所述训练语音中提取声纹特征进行训练，在声纹模型库中建立至少一个所述带有信道特征的声纹模型；

基于与所述训练语音相对应的信道特征信息，建立所述带有信道特征的声纹模型与所述信道标签的对应关系。

4.如权利要求3所述的方法，其特征在于，包括：

在声纹模型库中建立所述带有信道特征的声纹模型时，从所述训练语音中提取消除了信道特征的声纹特征进行训练，在声纹库中建立所述信道特征消除的声纹模型。

5.如权利要求4所述的方法，其特征在于，所述判断是否能够获取与所述信道特征信息相匹配的带有信道特征的声纹模型包括：

将所述信道特征信息与信道特征库中的信道特征选型进行匹配，如果匹配成功，则获取匹配成功的信道特征选项所对应的信道标签；

在声纹模型库中获取与匹配成功的信道特征选项所对应的信道标签相对应的带有信道特征的声纹模型。

6.如权利要求4所述的方法，其特征在于，所述如果不能获取与所述信道特征信息相匹配的带有信道特征的声纹模型、则获取信道特征消除的声纹模型包括：

将所述信道特征信息与信道特征库中的信道特征进行匹配，如果匹配不成功，则在声纹模型库中获取所述信道特征消除的声纹模型。

7.如权利要求1至6任一项所述的方法，其特征在于：

所述信道特征信息包括：信道信息、设备信息、背景音信息。

8.如权利要求7所述的方法，其特征在于：

接收到终端基于设定的规则发送的所述信道信息、设备信息；

分析所述语音并从所述语音中提取所述背景音信息。

9.一种基于声纹识别的来电身份确认装置，其特征在于，包括：

信息采集模块，用于在通话过程中采集的语音和信道特征信息；

模型获取模块，用于判断是否能够获取与所述信道特征信息相匹配的带有信道特征的声纹模型，如果是，则获取所述带有信道特征的声纹模型；

声纹识别模块，用于提取所述语音的声纹特征并与所述带有信道特征的声纹模型进行匹配，用以确定通话人的身份信息。

10.如权利要求9所述的装置，其特征在于：

所述模型获取模块，还用于如果不能获取与所述信道特征信息相匹配的带有信道特征的声纹模型，则获取信道特征消除的声纹模型；

所述声纹识别模块，还用于从所述语音中提取消除了信道特征的声纹特征、并与所述信道特征消除的声纹模型进行匹配，用以确定通话人的身份信息。

11.如权利要求9或10所述的装置，其特征在于：

所述信息采集模块，还用于在进行声纹训练时，获取训练语音以及与所述训练语音相对应的信道特征信息；

所述来电身份确认装置，还包括：

信道特征建立模块，用于基于所述信道特征信息建立信道特征库，在所述信道信息库中保存有至少一个信道特征选项；设置信道标签并建立所述信道特征选项与所述信道标签的对应关系；

模型训练模块，用于从所述训练语音中提取声纹特征进行训练，在声纹模型库中建立至少一个所述带有信道特征的声纹模型；基于与所述训练语音相对应的信道特征信息，建立所述带有信道特征的声纹模型与所述信道标签的对应关系。

12.如权利要求11所述的装置，其特征在于：

所述模型训练模块，用于在声纹模型库中建立所述带有信道特征的声纹模型时，从所述训练语音中提取消除了信道特征的声纹特征进行训练，在声纹库中建立所述信道特征消除的声纹模型。

13.如权利要求12所述的装置，其特征在于：

所述模型获取模块，还用于将所述信道特征信息与信道特征库中的信道特征选型进行匹配，如果匹配成功，则获取匹配成功的信道特征选项所对应的信道标签；在声纹模型库中获取与匹配成功的信道特征选项所对应的信道标签相对应的带有信道特征的声纹模型。

14.如权利要求13所述的装置，其特征在于：

所述模型获取模块，还用于将所述信道特征信息与信道特征库中的信道特征进行匹配，如果匹配不成功，则在声纹模型库中获取所述信道特征消除的声纹模型。

15.如权利要求9所述的装置，其特征在于，所述信道特征信息包括：信道信息、设备信息、背景音信息；

所述信息采集模块，用于接收到终端基于设定的规则发送的所述信道信息、设备信息；分析所述语音并从所述语音中提取所述背景音信息。

16.一种声纹识别***，其特征在于，包括：

如权利要求9至15任一项所述的基于声纹识别的来电身份确认装置。