CN110265040B

CN110265040B - 声纹模型的训练方法、装置、存储介质及电子设备

Info

Publication number: CN110265040B
Application number: CN201910537129.9A
Authority: CN
Inventors: 陈岩
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2022-05-17
Anticipated expiration: 2039-06-20
Also published as: CN110265040A

Abstract

本申请实施例公开了一种声纹模型的训练方法、装置、存储介质及电子设备，属于计算机技术领域。所述方法包括：对用户的语音数据进行年龄估测得到年龄估测结果，根据年龄估测结果对应的声纹通用模型对模型训练得到该用户的声纹个人模型，实现对不同年龄段的用户使用不同的声纹个人模型进行声纹唤醒。本申请得到的声纹个人模型和用户的年龄有关，根据声纹个人模型进行声纹唤醒能提高唤醒的准确率。

Description

声纹模型的训练方法、装置、存储介质及电子设备

技术领域

本申请涉及语音处理领域，尤其涉及一种声纹模型的训练方法、装置、存储介质及电子设备。

背景技术

声纹识别是根据声音具有用户的生物特征，识别用户的身份的一种识别技术。与传统的身份识别技术相比，声纹识别的优势在于提取过程简单且成本低，广泛应用在各种需要进行安全保护的场合，例如：银行、证券、保险等金融机构。由于语音是一种很随机的过程，各种内在因素或外在因素对发音影响很大，这样用户发出的语音数据的声学特征会发生变化，现有的唤醒方法无法适应变化从而造成唤醒的准确率不高的问题。

发明内容

本申请实施例提供了的声纹模型的训练方法、装置、存储介质及终端，可以解决不同年龄层的用户对设备进行声纹唤醒的准确率不高的问题。所述技术方案如下：

第一方面，本申请实施例提供了一种声纹模型的训练方法，所述方法包括：

获取用户的语音数据；

对所述语音数据进行年龄估测得到年龄估测结果；

在多个声纹通用模型中查询所述年龄估测结果对应的目标声纹通用模型；其中，所述多个声纹通用模型各自对应不同的年龄段，所述声纹通用模型用户唤醒词识别；

训练单元，用于根据语音数据对所述目标声纹通用模型进行训练得到所述用户的声纹个人模型；其中，所述声纹个人模型用于识别待识别语音数据的用户身份是否为所述用户。

第二方面，本申请实施例提供了一种声纹唤醒装置，所述装置包括：

获取单元，用于获取用户的语音数据；

评估单元，用于对所述语音数据进行年龄估测得到年龄估测结果；

查询单元，用于在多个声纹通用模型中查询所述年龄估测结果对应的目标声纹通用模型；其中，多个声纹通用模型各自对应不同的年龄段，所述声纹通用模型用于唤醒词识别；

训练单元，用于根据所述语音数据对所述目标声纹通用模型进行训练得到所述用户的声纹个人模型；其中，所述声纹个人模型用于识别待识别语音数据的用户身份是否为所述用户。

第三方面，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供一种电子设备，可包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

本申请一些实施例提供的技术方案带来的有益效果至少包括：

对用户的语音数据进行年龄估测得到年龄估测结果，根据年龄估测结果对应的声纹通用模型进行训练得到该用户的声纹个人模型，实现对不同年龄段的用户使用不同的声纹个人模型进行声纹唤醒，解决现有的声纹个人模型识别非指定年龄段的声纹造成的唤醒准确率不高的问题，本申请能自适应的根据不同年龄的用户选择合适的声纹个人模型进行声纹唤醒，提高声纹唤醒的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的语音控制过程的示意图；

图2是本申请实施例提供的声纹唤醒方法的流程示意图；

图3是本申请实施例提供的声纹唤醒方法的另一流程示意图；

图4是本申请实施例提供的训练年龄估测模型的示意图；

图5是本申请实施例提供的训练声纹个人模型的示意图；

图6是本申请实施例提供的提取声学特征的示意图；

图7是本申请实施例提供的一种声纹唤醒的示意图；

图8是本申请提供的一种声纹唤醒装置的结构示意图；

图9是本申请提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

首先，对本申请实施例涉及到的一些名词进行解释：

高斯混合模型(gaussianmixture model，GMM)，用于高斯概率密度函数(正态分布曲线)精确的量化事物，是一个将事物分解为若干的基于高斯概率密度函数形成的模型。

单位向量(identityvector)：从GMM均值超矢量中提取出的更加紧凑的向量。

支持向量机(supportvectormachine)：一类按监督学***面。

年龄估测模型：用于估测语音数据对应的用户的年龄，年龄估测模型可以是根据样本集合对初始的模型参数进行训练得到的，年龄估测模型的类型可以是神经网络模型、隐马尔可夫模型或高斯混合模型。

声纹个人模型：用于识别语音数据中是否包括预设的唤醒词以及根据语音数据中的声纹信息进行用户身份确认，用户身份确认即识别发出语音数据的用户是否为预设用户，声纹信息是类似于指纹信息的一种生物特征，声纹信息具有唯一性，不同的用户具有不同的声纹信息，因此能有效的区分不同的用户。声纹个人模型可以使用神经网络模型、隐马尔科夫模型或高斯混合模型。

唤醒词识别模型：用于识别语音数据中是否包括预设的唤醒词，预设的唤醒词可以是电子设备中预先配置的，也可也是用户自定义的。其中，唤醒词识别模型在识别语音数据是否包括预设的唤醒词的同时，还可以将语音数据转换为文本数据，以及在语音控制界面上显示文本数据。

声纹通用模型：用于是初始的声纹模型，使用不同的用户的语音数据样本训练得到的声纹模型，避免从头开始训练声纹个人模型，提高模型训练的收敛速度。

声纹唤醒：识别语音数据是否包括关键词且语音数据对应的用户为预设用户，若为是，激活语音控制功能(例如：激活语音助手)，启动录音，根据录音的语音数据进行后续的语音控制交互。

声学特征：表示语音的幅度信息、相位信息和频谱信息中的一种或多种等特征，不同的语音数据具有不同的声学特征。例如：声学特征可以使用语谱图来表示。

后验概率：表示事件已经发生，确定该事件由于某个因素引起的可能性的大小，后验概率的计算要以先验概率为基础。后验概率可以根据通过贝叶斯公式，用先验概率和似然函数计算出来。

先验概率：表示事件尚未发生，根据以往经验和分析确定该事件发生的概率。

参考图1，图1为用户对电子设备进行语音控制的示意图。其中，电子设备的显示屏处于熄屏状态时，电子设备采集用户100发出的语音，将语音转换为语音数据，提取语音数据中的声学特征，将声学特征输入到声纹个人模型，声纹个人模型对声学特征进行声纹唤醒，识别用户100是否为预设用户，若为是，继续判断语音数据中是否包括唤醒词，若为是，将语音控制功能切换为激活状态，将激活状态保持预设时长，以及将显示屏切换为点亮状态。

其中，在激活状态下，电子设备101可以接收用户100发出的控制语音，将控制语音转换为控制指令，然后执行控制指令对应的操作。例如：给XX联系人打电话、查询天气、播放音乐、启动应用程序等操作。其中，电子设备101还可以将语音数据转换为文本数据，然后在显示屏上显示该文本数据。

例如：参见图1所示，电子设备101中预设的唤醒词为“XX精灵”，用户100发出一段语音，电子设备采集到语音得到语音数据，将语音数据转换为文本数据为“XX精灵”，电子设备根据声纹个人模型确定文本数据中包括预设的唤醒词，然后提取语音数据的声学特征，将声学特征输入到声纹个人模型，根据声学特征识别出发出语音数据的用户100为预设用户，激活语音控制功能，然后显示语音控制界面102，语音控制界面102包括麦克风图标103，语音控制功能处于激活状态，麦克风图标103由静态显示切换为动态显示，动态显示的麦克风图标103用于提示用户电子设备的语音控制功能处于激活状态，电子设备103在预设时长内保持语音控制功能的激活状态，超出预设时长后，电子设备103将语音控制功能由激活状态切换为休眠状态，同时显示屏切换为熄屏状态，同时麦克风图标103采用静态方式进行显示。在熄屏状态下，如果用户100需要使用语音控制功能，需要使用上述的方式重新激活语音控制功能，如果电子设备101处于亮屏状态下，用户100可以点击麦克风图标103将语音控制功能切换为激活状态。

其中，电子设备101还上可以安装有各种通信客户端应用，例如：语音交互应用、视频录制应用、语音交互应用、搜索类应用、及时通信工具、邮箱客户端、社交平台软件等。

其中，电子设备101可以是硬件，也可以是软件。当电子设备101为硬件时，可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携式计算机和台式计算机等等。当电子设备101为软件时，可以是安装上上述所列举的电子设备中。其可以实现呈多个软件或软件模块(例如：用来提供分布式服务)，也可以实现成单个软件或软件模块，在此不作具体限定。

当电子设备101为硬件时，其上还可以安装有显示设备，显示设备可以是各种能实现显示功能的设备，例如：阴极射线管显示器(Cathode ray tubedisplay，简称CR)、发光二极管显示器(Light-emitting diode display，简称LED)、电子墨水屏、液晶显示屏(Liquidcrystal display，简称LCD)、等离子显示面板(Plasma displaypanel，简称PDP)等。用户可以利用电子设备101上的显示设备，来查看显示的文字、图片、视频等信息。

需要说明的是，本申请实施例提供的声纹个人模型的训练一般由电子设备执行，相应的，声纹个人模型的训练装置一般设置于电子设备中。

本申请实施例提供一种声纹模型的训练方法，所述声纹模型的训练方法可以应用于电子设备中。所述电子设备可以是智能手机、平板电脑、游戏设备、AR(AugmentedReality，增强现实)设备、汽车、数据存储装置、音频播放装置、视频播放装置、笔记本、桌面计算设备、可穿戴设备诸如电子手表、电子眼镜、电子头盔、电子手链、电子项链、电子衣物等设备。

下面将结合附图2-附图7，对本申请实施例提供的声纹模型的训练方法进行详细介绍。其中，本申请实施例中的声纹个人模型的训练装置可以是图2-图7所示的电子设备。

请参见图2，为本申请实施例提供了一种声纹模型的训练方法的流程示意图。如图2所示，本申请实施例的所述方法可以包括以下步骤：

S201、获取用户的语音数据。

其中，用户的语音数据用于训练声纹个人模型，语音数据可以是用户读取某个特定的词语后产生的语音数据，例如：用户朗读某个特定的字符串或数字生成的语音数据。用户发出语音后，电子设备通过音频采集装置将语音转换为模拟形式的语音信号，音频采集装置可以是单个麦克风，也可以是多个麦克风组成的麦克风阵列。然后，电子设备将模拟形式的语音信号经过预处理后得到数字形式的语音数据，预处理过程包括但不限于滤波、放大、采样、模数转换和格式转换。语音数据可以无损格式的语音数据，例如：语音数据的格式为：CD、WAV(波形文件)、FLAC(Free Lossless Audio Codec，无损音频压缩编码)格式等。

其中，电子设备可以采集用户的多段语音数据，多段语音数据都是用户朗读相同的内容生成的，保证用户的声纹特征的稳定性，提高模型训练的效率。

例如：电子设备只能处理采样率为32kHz的单声道的WAV格式的语音数据，电子设备通过单个麦克风采集到16kHz的FLAC格式的语音数据，电子设备根据语音数据进行插值处理，得到采样率为32kHz的语音数据，然后电子设备将FLAC格式转换为WAV格式，以便电子设备进行候选的声纹唤醒。

S202、对语音数据进行年龄估测得到年龄估测结果。

具体的，年龄估测结果可以是一个具体的年龄值，也可以是一个年龄段，即最小年龄和最大年龄之间的范围。电子设备可以使用预选训练好的年龄估测模型对语音数据进行年龄估测得到年龄估测结果。

在一个实施例中，在训练用户的声纹个人模型之前，电子设备可以显示年龄输入框，以提示该用户在年龄输入框中输入自己的年龄，电子设备在年龄输入框中接收输入的年龄从而获知该用户的年龄。

在一个实施例中，年龄估测的过程包括：对语音数据进行声学特征提取、降维和聚合，然后加载预先存储的SVM(SupportVectorMachine，支持向量机)类型的年龄估测模型，并根据年龄估测模型和提取的特征参数识别出语音数据所属的年龄段。

在一个实施例中，年龄估测的过程包括：将语音数据转换为语谱图，并将各个语谱图输入到年龄估测模型，从而得出语谱图对应的年龄段，该年龄段即为年龄估测结果。

在一个实施例中，年龄估测的过程包括：从语音数据中提取出i-vector特征，将提取出来的i-vector特征与年龄估测模型中的目标i-vector特征进行匹配，将匹配度最大的目标i-vector特征对应的年龄，确定为语音数据对应的年龄估测结果。

在一个实施例中，年龄估测的过程包括：电子设备预先配置有多个年龄估测模型，多个年龄估测模型分别是使用不同年龄段的训练样本集合进行模型训练得到的。电子设备提取语音数据得到声学特征，由于音频采集装置采集到的是时域上的语音信号，为了便于对语音信号进行分析，可以将时域上语音信号转换为频域上的语音信号，根据频域上的语音信号进行预处理得到语音数据，可以理解，当前的语音数据是频域上的数字信号。然后，电子设备对语音数据进行特征提取得到声学特征，将声学特征输入到多个年龄估测模型分别得到一个年龄估测结果，由于多个年龄估测模型是根据不同年龄段的训练样本集合进行模型训练得到的，因此多个年龄估测模型中有且只有一个年龄估测模型输出的年龄估测结果是匹配的，电子设备需要从多个年龄估测结果中确定匹配的年龄估测结果。

在一个实施例中，电子设备从多个年龄估测结果中确定一个最准确的年龄估测结果的方法可以包括：

电子设备计算多个年龄估测结果的后验概率，后验概率可以使用先验概率和贝叶斯公式得到。年龄估测结果的后验概率表示已经进行年龄估测，利用已经得到的年龄估测结果修正该年龄估测结果的概率。年龄估测结果的先验概率表示尚未进行年龄估测，计算年龄估测结果发生的概率。电子设备确定多个年龄估测结果中后验概率最大的年龄估测结果，将该后验概率最大的年龄估测结果最为最终的年龄估测结果。

其中，从多个年龄估测结果中确定一个最准确的年龄估测结果的方法可以包括：

电子设备将声学特征输入到各个年龄估测模型，各自得到一个特征向量，电子设备中预存储或预配置有标签向量，然后分别计算各个特征向量和标签向量之间的相似度，从多个特征向量中确定相似度最大的特征向量，将该相似度最大的特征向量对应的年龄估测模型得到的年龄估测结果作为最终的年龄估测结果。

S203、选定与年龄估测结果对应的目标声纹通用模型。

其中，电子设备预存储或预配置有多个声纹通用模型，n为大于1的整数，多个声纹通用模型各自对应不同的年龄段，多个声纹通用模型是根据不同的训练样本集合，不同的训练样本各自对应不同的年龄段。各个不同的训练样本集合的年龄段划分可以根据实际需求而定，本申请不作限制。

例如：电子设备预配置或预存储有3个声纹通用模型，3个声纹通用模型分别为：声纹通用模型1、声纹通用模型2和声纹通用模型3，声纹通用模型1是使用14岁以下人群的训练样本集合训练得到的，声纹通用模型2是使用14岁～60岁人群的训练样本集合训练得到的，声纹个人模型3是使用60岁以上人群的训练样本集合训练得到的。

其中，电子设备预存储或预配置有声纹通用模型和年龄段之间的映射关系，电子设备根据该映射关系确定S202得到的年龄估测结果所属的年龄段。例如：声纹通用模型和年龄段之间的映射关系如表1所示。

年龄段	声纹通用模型
		14岁以下	声纹通用模型1
14岁～60岁	声纹通用模型2
		60岁以上	声纹通用模型3

表1

S204、根据语音数据对目标声纹通用模型进行训练得到用户的声纹个人模型。

其中，声纹个人模型用于识别待识别语音数据的用户身份是否为所述用户。本申请可以使用多个用户的语音数据对S203中确定的目标声纹通用模型进行训练得到该用户的声纹个人模型，例如：电子设备显示语音助手界面，语音助手界面提示用户A输入3段指定内容的语音数据，电子设备获取输入的3段语音数据对目标声纹通用模型进行训练得到用户A的声纹个人模型。电子设备利用训练好的用户A的声纹个人模型对待识别语音数据进行用户身份确认。

在一个实施例中，本申请中在使用多个年龄估测模型估测用户的年龄时，电子设备中预先设置的多个年龄估测模型的数量和多个声纹通用模型的数量是相等的，且多个年龄估测模型和多个声纹个人模型相比二者对于年龄段的划分也是一致的。

例如：本申请设置有2个年龄估测模型：年龄估测模型1和年龄估测模型2，年龄估测模型1对应14岁以下，年龄估测模型2对应14岁以上；同时，本申请设置有2个声纹通用模型：声纹通用模型1和声纹通用模型2，声纹通用模型1对应14岁以上，声纹通用模型对应14岁以上，由此可见，本申请的2个声纹通用模型和2个年龄估测模型对应年龄段的划分是完全一致的。

本申请实施例的方案在执行时，对用户的语音数据进行年龄估测得到年龄估测结果，根据年龄估测结果对应的声纹通用模型进行训练得到该用户的声纹识别模型，实现对不同年龄段的用户使用不同的声纹个人模型进行声纹唤醒，解决现有的声纹个人模型识别非指定年龄段的声纹造成的准确率不高的问题，本申请能自适应的根据不同年龄的用户选择合适的声纹个人模型进行声纹唤醒，提高声纹唤醒的准确率。

请参见图3，为本申请实施例提供了一种声纹模型的训练方法的流程示意图。本实施例以声纹模型的训练方法应用于电子设备中来举例说明。该声纹模型的训练方法可以包括以下步骤：

S301、对多个年龄训练样本集合各自进行模型训练得到多个年龄估测模型。

其中，年龄估测模型用估测语音数据对应的用户的年龄。在训练年龄估测模型之前，可预先设置一个初始年龄估测模型，初始年龄估测模型中的各个参数进行初始化。例如：在神经网络模型中，神经网络模型的偏置和权重初始化为0。电子设备对预存储或预配置的多个年龄训练样本集合各自进行模型训练得到多个年龄估测模型，多个年龄训练样本集合各自对应不同的年龄段。

应理解，多个年龄估测模型除电子设备训练出来之外，也可以是其他设备训练出来的，然后将训练好的多个年龄估测模型移植到本申请的电子设备上。

其中，多个年龄训练样本集合各自对应不同的年龄段，各个年龄段之间可以是不重合的，各个年龄训练样本集合可以包括多个语音数据，语音数据对应的年龄估测结果是已知的，即年龄训练样本集合中的各个语音数据样本携带年龄标签，各个年龄训练样本集合对应的年龄段根据实际需求而定，具体年龄段的划分本申请不作限制。

举例来说：参见图4所示的年龄估测模型的训练过程示意图，m＝3，3个年龄训练样本集合分别为年龄训练样本集合40、年龄训练样本集合43和年龄训练样本集合46，年龄训练样本集合40中语音数据样本对应的年龄段为14岁以下(成人)，年龄训练样本集合43中语音数据样本对应的年龄段为14岁～60岁(儿童)，年龄训练样本集合46中语音数据样本对应的年龄段为60岁以上的(老人)。将年龄训练样本集合40经过年龄训练41得到年龄估测模型42，将年龄训练样本集合43经过年龄训练44得到年龄估测模型45，将年龄训练样本集合46经过年龄训练44得到年龄估测模型48。

其中，各个年龄训练样本集合中的语音数据样本的数量可以根据需求而定。根据图4的例子，年龄训练样本集合40中包括5000条语音数据样本，年龄训练样本集合43包括5000条语音数据样本，年龄训练样本集合46包括5000条语音数据样本，每个年龄训练样本集合中各个年龄对应的语音数据样本的数量相等或大致相等，这样各个年龄训练样本集合中各个年龄对应的语音数据样本的数量是均衡的，避免年龄训练样本集合中某个年龄的语音数据样本过多或多少造成模型训练收敛性差的问题。

S302、对多个唤醒词训练样本集合进行模型训练得到多个唤醒词识别模型。

其中，唤醒词模型用于识别语音数据中是否包括预设的唤醒词。多个唤醒词训练样本集合对应不同的年龄段，不同的年龄段之间可以不重合，各个唤醒词训练样本集合中可以包括多个语音数据，各个唤醒词训练样本集合中包括的语音数据的数量可以相同，也可以不相同。各个唤醒词训练样本集合中的语音数据带有识别结果标签，识别结果标签表示语音数据中包括预设的唤醒词和不包括预设的唤醒词两个结果。各个唤醒词训练样本集合中各个年龄对应的样本数相等或大致相等，确保各个年龄的样本数的均衡，避免某个年龄的语音数据样本数量过多或过少造成模型训练的收敛性差的问题。

举例来说：参见图5所示，为本申请提供的唤醒词识别模型的训练过程，n＝3，3个唤醒词训练样本集合分别为唤醒词训练样本集合500、唤醒词训练样本集合503和唤醒词训练样本集合506，唤醒词训练样本集合500中语音数据样本对应的年龄段为14岁以下，唤醒词训练样本集合503中语音数据样本对应的年龄段为14岁～60岁，唤醒词训练样本集合506中语音数据样本对应的年龄段为60岁以上。将唤醒词训练样本集合500进行模型训练501得到唤醒词识别模型502，将唤醒词训练样本集合503进行模型训练504得到唤醒词识别模型505，将唤醒词训练样本集合506进行模型训练507得到唤醒词识别模型508。

其中，S301和S302中的年龄估测模型和唤醒词识别模型类型可以是支持向量机、卷积神经网络模型和深度残渣网络模型(例如：resnet等)。

例如：以卷积神经网络模型为例进行说明，语谱图的规格为112×112，将语谱图输入到神经网络中后，最后输出为2个节点的值，若第一个节点的值较大，则判断年龄类别为儿童；若第二节点的值较大，则可判定年龄类别为成人，即执行一个softmax操作。卷积神经网络模型中还有许多微调函数，均可以根据实际需求进行调整，例如：可将学习率设置为0.001，激活函数均选择修正线性单元。

其中，根据上述网络结果，用任何一款深度学习框架都能搭建本发明的模型，如可包括TensorFlow、caffe以及百度的paddle，使用上述的框架，利用待标签的样本进行训练，收敛后得到年龄估测模型或唤醒词识别模型。

在一个实施例中，多个年龄估测模型和多个唤醒词识别模型的数量相等，即m＝n，且多个年龄估测模型对应的年龄段和多个唤醒词识别模型对应的年龄段相同，例如参见图4和图5的年龄段的划分，均对应14岁以下、14岁～60岁和60岁以上三个年龄段，这样实现年龄估测模型和唤醒词识别模型的数量和年龄段保持一致，能进一步提高唤醒词识别的准确率。

S303、获取用户的语音数据。

其中，用户的语音数据作为训练用户的声纹个人模型的样本，用户的语音数据可是用户朗读指定内容后产生的语音数据，例如：用户A朗读“0123456789”后产生的语音，电子设备采集到该语音后生成该用户的语音数据。电子设备可以采集用户的多段语音数据，多个段语音数据的内容相同，以保证的用户的声纹特征的稳定性，提高模型训练的效率。

在一个实施例中，电子设备获取预先存储的用户的语音数据，该语音数据是数字形式的，语音数据可以是无损的格式，例如：语音数据的格式可以是FLEC、CD或WAV。

在一个实施例中，电子设备通过音频采集装置获取用户的语音数据，音频采集装置可以是一个麦克风或多个麦克风组成的麦克风阵列，通过麦克风阵列中的每个麦克风对应一个采集通道，通过对多个采集通道上采集到的语音信号进行合并得到清晰度更高的语音信号，音频采集装置采集到的语音信号是模拟形式的，电子设备需要将该模拟形式的语音信号进行预处理得到数字形式的语音数据。

其中，电子设备通过音频采集装置采集用户发出的语音信号的过程还包括，对根据语音信号的持续时间，将语音信号进行分段，划分为多个语音帧。例如：采集到的语音信号的持续时间为6秒，那么则可切分得到6个1秒长的语音帧。

S304、将语音数据进行语音特征提取得到声学特征。

具体的，音频采集设备采集的是时域上的语音信号，为了便于对语音信号进行分析，需要将时域上的语音信号转换为频域上的语音信号，本申请的声学特征可以是频域上的声学特征，声学特征可以使用语谱图来表示。

在一个实施例中，参见图5所示，提取声学特征的方法可以是预处理、加窗、傅里叶变化和MFCC提取，将最后得到的MFCC特征作为声学特征。预处理过程包括高通滤波，电子设备使用高通滤波器对语音数据进行高通滤波，高通滤波器的滤波性能表达式可以是：H(z)＝1-a×z^-1，a是修正系数，一般取0.95～0.97之间的数值。加窗用于平滑信号的边缘，例如：使用汉明窗对预处理后是进行加窗处理，汉明窗表示为

其中，n为整数，n＝0、1、2、…、M，M为傅里叶变换的点数。MFCC提取从傅里叶变换后的信号提取MFCC特征。例如：使用公式

其中f为傅里叶变化后的频点。

在一个实施例中，提取到的MFCC特征包括多个MFCC特征分量，不同的MFCC特征分量具有的不同的优先级，为了减少电子设备的计算量和计算时延，可以将第2个分量C₂和第16个分量C₁₆之间的15个分量作为最终的声学特征，减少将MFCC特征中所有的分量作为声学特征造成的数据量大和延迟高的问题。

在一个实施例中，可以将提取得到的声学特征进行存储，以便后续的使用声纹个人模型进行声纹唤醒，不需要重新计算声学特征，减少计算量。

S305、将声学特征输入到多个年龄估测模型得到多个年龄估测结果。

其中，多个年龄估测模型是S301中训练出的，多个年龄估测模型分别对应不同的年龄段，电子设备分别将声学特征输入到多个年龄估测模型得到多个年龄估测结果，多个年龄估测结果可能相同，也可能不相同。

S306、计算多个年龄估测结果的后验概率。

其中，电子设备计算多个年龄估测结果的后验概率，后验概率的计算可以依照现有技术的任意一种方法，例如：可以根据贝叶斯公式和先验概率计算得到后验概率。

例如：可以使用贝叶斯公式

来计算后验概率，其中，中λ_i是第i个年龄估测模型的GMM(gaussian mixture model，高斯混合模型)模型参数，X为输入的语音数据。

S307、将后验概率最大的年龄估测结果作为最终的年龄估测结果。

S308、根据预设的映射关系查询年龄估测结果所在的年龄段。

其中，映射关系表示年龄段和声纹通用模型之间的映射关系。例如：映射关系如表2所示：

年龄段	声纹通用模型
		14岁以下	声纹通用模型77
14岁～60岁	声纹通用模型78
		60岁以上	声纹通用模型79

表2

S309、在多个声纹通用模型中查询与年龄估测结果对应的目标声纹通用模型。

举例来说，参见图7所示的，确定目标声纹通用模型的原理示意图，声纹唤醒过程包括：获取用户的语音数据70，在语音数据中提取声学特征，将提取到的声学特征输入到年龄识别模型72、年龄识别模型73和年龄识别模型74，年龄估测模型72根据声学特征进行年龄估测得到年龄估测结果1、年龄估测模型73根据声学特征进行年龄估测得到年龄估测结果2，年龄估测模型74进行年龄估测得到年龄估测结果3。分别对上述的三个年龄估测结果计算后验概率75，计算年龄估测结果1的后验概率得到后验概率1、计算年龄估测结果2的后验概率得到后验概率2，计算年龄估测结果3的后验概率得到后验概率3，比较上述3个后验概率的大小，假设后验概率2的值最大，将年龄估测结果2最为最终的年龄估测结果。电子设备存储有年龄段和声纹通用模型之间的映射关系(如表2所示)，电子设备根据该映射关系查询对应的目标声纹通用模型，假设根据年龄估测结果查询到对应目标声纹通用模型为声纹通用模型78。

S310、使用用户的语音数据对目标声纹通用模型进行训练得到该用户的声纹个人模型。

其中，电子设备训练用户的声纹个人模型的过程还可以包括：电子设备显示语音助手界面，且语音控制功能处于激活状态时，在语音助手界面显示对话框，提示用户注册多个语音数据，电子设备利用注册的多个语音数据作为声纹训练样本集分别对S310得到的目标声纹通用模型进行声纹训练得到用户的声纹个人模型。

举例来说，参见图5所示，输入用户A的声纹训练样本集合509对声纹通用模型502进行声纹训练得到声纹个人模型513；或输入用户A的声纹训练样本集合509对声纹通用模型505进行声纹训练得到声纹唤醒模块513；或输入用户A的声纹训练样本集合509对声纹通用模型508进行声纹训练得到声纹个人模型515。

S311、根据年龄估测结果在多个唤醒词识别模型中选择对应的目标唤醒词识别模型。

其中，多个唤醒词识别模型是S302中训练出来的，不同的唤醒词识别模型对应不同的年龄段，年龄估测结果是S307中计算得到的，根据年龄估测结果选择对应的目标唤醒词识别模型的过程可参照S308中根据年龄估测结果选择对应的目标通用声纹模型的过程，此处不再赘述。

S312、获取待识别语音数据。

其中，电子设备在完成用户的声纹个人模型的训练之后，可以利用声纹个人模型进行声纹唤醒。电子设备通过音频采集装置获取待识别语音数据的声学特征可参照S304的描述，此处不再赘述。

S312、使用目标唤醒词识别模型识别出待识别语音数据中包括预设的唤醒词。

其中，若待识别语音数据中包括预设的唤醒词，执行S312，若待识别语音数据中不包括预设的唤醒词，电子设备继续保持休眠状态。

S313、根据用户的声纹个人模型对待识别语音数据进行用户确认得到分值。

其中，声纹识别结果使用分值来量化，分值的大小在预设取值范围内，例如：预设取值范围为[0，1]。

S314、判断分值是否大于阈值。

具体的，电子设备预存储或预配置有一个阈值，电子设备比较S313得到的分值和该阈值的大小，若分值大于阈值，执行S315，否则执行316。阈值的大小为分值的预设取值范围之内，阈值的大小可根据实际需求而定。

S315、唤醒成功。

其中，唤醒成功表示待识别语音数据对应的用户为预设用户且语音数据中包括预设的唤醒词。唤醒成功后，在电子设备处于熄屏状态下，电子设备切换为亮屏状态，同时将语音控制功能切换为激活状态和保持机会状态预设时长；电子设备处于亮屏状态下，电子设备保持亮屏状态，同时将语音控制功能切换为激活状态和保持激活状态预设时长。

其中，可以看出，电子设备实现二级唤醒功能，二级唤醒功能包括唤醒词识别和声纹识别，唤醒词识别是使用目标唤醒词识别模型对待识别语音数据进行唤醒词识别，如果待识别语音数据包括预设的唤醒词，则进入声纹识别，声纹；如果待识别语音数据不包括预设的唤醒词，则继续保持熄屏状态。在声纹识别过程中，电子设备根据个人声纹模型对待识别语音数据进行用户身份确认，待识别语音数据的用户身份与所述用户匹配，才会切换为亮屏状态，将语音控制功能切换为激活状态并保持激活状态预设时长。在一些实施例中，电子设备包括数字信号处理器(digital singnal processor，DSP)和应用处理器，唤醒词识别可以由DSP来执行，声纹识别可以由应用处理器来执行。

在一个实施例中，所述方法还包括：

在语音控制功能处于激活状态时，获取语音控制数据；

将所述语音控制数据和预设的参考环境噪音数据进行比较，从所述语音控制数据中分离出环境噪音数据；

从去除环境噪音数据的语音控制数据与预设的命令词列表进行比较，得到匹配的命令词；

执行所述匹配的命令词对应的操作。

其中，电子设备对语音控制数据进行身份识别确认对应的用户为预设用户，语音控制数据为用于对电子设备进行语音控制，例如：查询天气、导航、拨打电话等控制。电子设备可以预存储或预配置有参考环境噪音数据，参考环境噪音数据的相关参数可以是电子设备预先采集的。电子设备可以使用将语音控制数据和预设的参考环境噪音数据进行差分运算的方式，从语音控制数据中分离出环境噪音。电子设备预存储或预配置有命令词列表，命令词列表中的各个命令词分别对应一个操作，电子设备可以将语音控制数据进行文本转换得到语音控制文本，以及在显示屏上显示语音控制文本，然后比较语音控制文本和命令词列表中各个命令词之间的相似度，取相似度最大的命令词作为匹配的命令词，执行该匹配的命令词对应的操作。综上，通过对语音控制数据中唤醒噪音的滤除，能够得到有效的语音控制指令，提高语音控制的成功率。

S316、唤醒失败。

其中，唤醒失败表示待识别语音数据对应的用户不为预设用户和/或语音数据中不包括预设的唤醒词。

本申请实施例的方案在执行时，对用户的语音进行年龄估测得到年龄估测结果，根据年龄估测结果对应的声纹通用模型进行训练得到该用户的声纹个人模型，实现对不同年龄段的用户使用不同的声纹个人模型进行声纹唤醒，解决现有技术识别非指定年龄段的声纹造成的唤醒的准确率不高的问题，本申请能自适应的根据不同年龄的用户选择合适的声纹个人模型进行声纹唤醒，提高声纹唤醒的准确率。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参见图8，其示出了本申请一个示例性实施例提供的声纹个人模型的训练装置的结构示意图，以下简称训练装置8。该训练装置8可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。训练装置8包括获取单元801、评估单元802、查询单元803和训练单元804。

获取单元801，用于获取用户的语音数据。获取单元801可以是一个或多个麦克风。

评估单元802，用于对所述语音数据进行年龄估测得到年龄估测结果。

查询单元803，用于选定与所述年龄估测结果对应的目标声纹通用模型；其中，所述声纹通用模型用于唤醒词识别。

训练单元804，用于根据所述语音数据对所述目标声纹通用模型进行训练得到所述用户的声纹个人模型；其中，所述声纹个人模型用于用于识别待识别语音数据的用户身份是否为所述用户。

在一个实施例中，还包括：

选择单元，用于选定与所述年龄估测结果对应的目标唤醒词识别模型；其中，所述目标唤醒词识别模型用于唤醒词识别。

在一个实施例中，评估单元802用于：

根据多个年龄估测模型对语音数据进行年龄估测得到年龄估测结果；其中，所述多个年龄估测模型各自对应不同的年龄段，所述年龄估测模型用于根据语音数据估测用户年龄。

在一个实施例中，评估单元802根据多个年龄估测模型对语音数据进行年龄估测得到年龄估测结果，包括：

提取所述语音数据中的声学特征，以及存储所述声学特征；

将所述声学特征输入到多个年龄估测模型得到多个年龄估测结果；其中，多个年龄估测模型各自对应不同的年龄段；

计算所述多个年龄估测结果各自对应的后验概率；

将后验概率最大的年龄估测结果作为最终的年龄估测结果。

在一个实施例中，训练装置8还包括：

模型训练单元，用于对多个年龄训练样本集合各自进行模型训练得到多个年龄估测模型；其中，所述多个年龄训练样本集合各自对应不同的年龄段；和/或

根据多个唤醒词训练样本集合各自进行模型训练得到多个声纹通用模型；其中，所述多个唤醒词训练样本集合各自对应不同的年龄段。

在一个实施例中，训练单元804用于：

获取预存储的所述声学特征；

将所述声学特征输入到所述目标声纹通用模型进行训练得到所述用户的声纹个人模型。

在一个实施例中，训练装置8还包括：

识别单元，用于获取待识别语音数据；

根据所述目标唤醒词识别模型识别出所述待识别语音数据中包括预设的唤醒词时，根据所述声纹个人模型对所述待识别语音数据进行身份确认；

若所述待识别语音数据的用户身份与所述用户匹配，则将语音控制功能由休眠状态切换为激活状态；或

若所述待识别语音数据的用户身份与所述用户不匹配的，则保持语音控制功能为休眠状态。

在一个实施例中，在训练装置8具有显示屏，所述识别单元8用于：

若所述待识别语音数据的用户身份与所述用户匹配，则在显示屏为熄屏状态时，将由所述熄屏状态切换为亮屏状态，且将语音控制功能由休眠状态切换为激活状态，以及将激活状态保持为预设时长；或

若所述待识别语音数据的用户身份与所述用户不匹配的，则在显示屏为熄屏状态时，继续将显示屏保持为熄屏状态且保持语音控制功能为休眠状态。

在一个实施例中，训练装置8还包括：

执行单元，用于在语音控制功能处于激活状态时，获取语音控制数据；

执行所述匹配的命令词对应的操作。

需要说明的是，上述实施例提供的训练装置8在执行声纹唤醒方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的触摸操作响应装置与触摸操作响应方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请的训练装置8对语音进行年龄估测得到年龄估测结果，根据年龄估测结果对应的声纹个人模型对语音进行声纹唤醒，实现对不同年龄段的用户使用不同的声纹个人模型进行声纹唤醒，解决现有技术识别非指定年龄段的声纹造成唤醒的准确率不高的问题，本申请能自适应的根据不同年龄的用户选择合适的声纹个人模型进行声纹唤醒，提高声纹唤醒的准确率。

本申请实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图2-图7所示实施例的方法步骤，具体执行过程可以参见图2-图7所示实施例的具体说明，在此不进行赘述。

本申请还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的声纹模型的训练方法。

请参见图9，为本申请实施例提供了一种电子设备的结构示意图。如图9所示，所述电子设备9可以包括：至少一个处理器901，至少一个网络接口904，用户接口903，存储器905，至少一个通信总线902。

其中，通信总线902用于实现这些组件之间的连接通信。

其中，用户接口903可以包括显示屏(Display)、摄像头(Camera)，可选用户接口903还可以包括标准的有线接口、无线接口。

其中，网络接口904可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中，处理器901可以包括一个或者多个处理核心。处理器901利用各种借口和线路连接整个终端900内的各个部分，通过运行或执行存储在存储器905内的指令、程序、代码集或指令集，以及调用存储在存储器905内的数据，执行终端900的各种功能和处理数据。可选的，处理器901可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogicArray，PLA)中的至少一种硬件形式来实现。处理器901可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器901中，单独通过一块芯片进行实现。

其中，存储器905可以包括随机存储器(RandomAccess Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器905包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器905可用于存储指令、程序、代码、代码集或指令集。存储器905可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器905可选的还可以是至少一个位于远离前述处理器901的存储装置。如图9所示，作为一种计算机存储介质的存储器905中可以包括操作***、网络通信模块、用户接口模块以及声纹唤醒应用程序。

在图9所示的电子设备900中，用户接口903主要用于为用户提供输入的接口，获取用户输入的数据；而处理器901可以用于调用存储器905中存储的触摸操作响应应用程序，并具体执行以下操作：

获取用户的语音数据；

对所述语音数据进行年龄估测得到年龄估测结果；

选定与所述年龄估测结果对应的目标声纹通用模型；

根据所述语音数据对所述目标声纹通用模型进行训练得到所述用户的声纹个人模型；其中，所述声纹个人模型用于用于识别待识别语音数据的用户身份是否为所述用户。

在一个实施例中，处理器901执行所述对所述语音数据进行年龄估测得到年龄估测结果，包括：

在一个实施例中，处理器901执行所述根据多个年龄估测模型对语音数据进行年龄估测得到年龄估测结果，包括：

提取所述语音数据中的声学特征，以及存储所述声学特征；

计算所述多个年龄估测结果各自对应的后验概率；

将后验概率最大的年龄估测结果作为最终的年龄估测结果。

在一个实施例中，处理器901还用于执行：

对多个年龄训练样本集合各自进行模型训练得到多个年龄估测模型；其中，所述多个年龄训练样本集合各自对应不同的年龄段；和/或

在一个实施例中，处理器901执行所述根据所述语音数据对所述目标声纹通用模型进行训练得到所述用户的声纹个人模型，包括：

获取预存储的所述声学特征；

在一个实施例中，处理器901还用于执行：

获取待识别语音数据；

在一个实施例中，电子设备9还包括显示屏，处理器901用于：

若所述待识别语音数据的用户身份与所述用户匹配，则在为熄屏状态时，将由所述熄屏状态切换为亮屏状态，且将语音控制功能由休眠状态切换为激活状态，以及将激活状态保持为预设时长；或

在一个实施例中，处理器901还用于执行：

在语音控制功能处于激活状态时，获取语音控制数据；

执行所述匹配的命令词对应的操作。

在一个实施例中，处理器901还用于执行：

将所述文件数据进行文本转换生成文本数据；

指示显示屏在语音控制界面上显示所述文本数据；其中，所述文本数据处于可编辑状态。

在本申请实施例中，电子设备对用户的语音进行年龄估测得到年龄估测结果，根据年龄估测结果对应的声纹通用模型进行训练得到该用户的声纹个人模型，实现对不同年龄段的用户使用不同的声纹个人模型进行声纹唤醒，解决现有技术识别非指定年龄段的声纹造成唤醒的准确率不高的问题，本申请能自适应的根据不同年龄的用户选择合适的声纹个人模型进行声纹唤醒，提高声纹唤醒的准确率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种声纹模型的训练方法，其特征在于，所述方法包括：

获取用户的语音数据；

基于所述语音数据进行年龄估测得到年龄估测结果；

选定与所述年龄估测结果对应的目标声纹通用模型；

对所述目标声纹通用模型进行训练得到所述用户的声纹个人模型；其中，所述声纹个人模型用于识别待识别语音数据的用户身份是否为所述用户；

获取待识别语音数据；

使用目标唤醒词识别模型识别出所述待识别语音数据中包括预设的唤醒词；其中，所述目标唤醒词识别模型用于唤醒词识别；

根据所述用户的声纹个人模型对所述待识别语音数据进行用户确认得到分值；

判断所述分值是否大于阈值；

若所述分值大于所述阈值，唤醒成功，将语音控制功能切换为激活状态并保持激活状态预设时长；

在语音控制功能处于激活状态时，获取语音控制数据；

执行所述匹配的命令词对应的操作。

2.根据权利要求1所述的方法，其特征在于，还包括：

选定与所述年龄估测结果对应的目标唤醒词识别模型；其中，所述目标唤醒词识别模型用于唤醒词识别。

3.根据权利要求2所述的方法，其特征在于，还包括：

获取待识别语音数据；

若所述待识别语音数据的用户身份与所述用户不匹配，则保持语音控制功能为休眠状态。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

在语音控制功能处于激活状态时，获取语音控制数据；

执行所述匹配的命令词对应的操作。

5.根据权利要求1至4任意一项所述的方法，其特征在于，所述对所述语音数据进行年龄估测得到年龄估测结果，包括：

提取所述语音数据的声学特征，以及存储所述声学特征；

利用所述声学特征根据多个年龄估测模型对语音数据进行年龄估测得到年龄估测结果；其中，所述多个年龄估测模型各自对应不同的年龄段，所述年龄估测模型用于根据语音数据估测用户年龄。

6.根据权利要求5所述的方法，其特征在于，所述根据所述语音数据对所述目标声纹通用模型进行训练得到所述用户的声纹个人模型，包括：

获取预存储的所述声学特征；

7.根据权利要求5所述的方法，其特征在于，所述利用所述声学特征根据多个年龄估测模型对语音数据进行年龄估测得到年龄估测结果，包括：

计算所述多个年龄估测结果各自对应的后验概率；

将后验概率最大的年龄估测结果作为最终的年龄估测结果。

8.根据权利要求1所述的方法，其特征在于，所述获取用户的语音数据之前，还包括：

根据多个唤醒词训练样本集合各自进行模型训练得到多个唤醒词识别模型；其中，所述多个唤醒词训练样本集合各自对应不同的年龄段。

9.一种声纹个人模型的训练装置，其特征在于，所述装置包括：

麦克风，用于获取用户的语音数据；

查询单元，用于选定所述年龄估测结果对应的目标声纹通用模型；

训练单元，用于根据所述语音数据对所述目标声纹通用模型进行训练得到所述用户的声纹个人模型；其中，所述声纹个人模型用于识别待识别语音数据的用户身份是否为所述用户；

所述麦克风，用于获取待识别语音数据；

识别单元，用于使用目标唤醒词识别模型识别出所述待识别语音数据中包括预设的唤醒词；其中，所述目标唤醒词识别模型用于唤醒词识别；

确认单元，用于根据所述用户的声纹个人模型对所述待识别语音数据进行用户确认得到分值；

判断单元，用于判断所述分值是否大于阈值；

唤醒单元，用于若所述分值大于所述阈值，唤醒成功，将语音控制功能切换为激活状态并保持激活状态预设时长；

控制单元，用于：

在语音控制功能处于激活状态时，获取语音控制数据；

执行所述匹配的命令词对应的操作。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～8任意一项的方法步骤。

11.一种电子设备，其特征在于，包括：处理器、存储器和麦克风；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～8任意一项的方法步骤。