CN111462756A

CN111462756A - 声纹识别方法、装置、电子设备及存储介质

Info

Publication number: CN111462756A
Application number: CN201910047162.3A
Authority: CN
Inventors: 吴本谷; 宋莎莎
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2019-01-18
Filing date: 2019-01-18
Publication date: 2020-07-28
Anticipated expiration: 2039-01-18
Also published as: CN111462756B

Abstract

本发明涉及语音识别技术领域，公开了一种声纹识别方法、装置、电子设备及存储介质，所述方法包括：获取智能设备采集到的输入语音；在输入语音中，确定出预设唤醒词对应的每个状态对应的音频帧；对于预设唤醒词的每个状态，对状态对应的音频帧的声学特征向量取平均，得到状态对应的目标特征向量；将预设唤醒词的各状态对应的目标特征向量作为预先训练好的声纹识别模型的输入，以通过声纹识别模型对输入语音进行声纹识别。本发明实施例提供的技术方案，对用户输入的语音进行降噪处理，使得通过声纹识别模型得到的声纹特征向量能够更好地还原用户的声纹特征，提高识别成功率。

Description

声纹识别方法、装置、电子设备及存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种声纹识别方法、装置、电子设备及存储介质。

背景技术

随着语音识别技术的发展，人机交互也越来越频繁，因此，人们更希望自己使用的设备能“认识”自己，而不是将所有人都当作主人。为了能让设备通过声音识别指定的用户，提出了声纹识别技术。目前使用的声纹识别技术，在注册阶段对用户的语音创建统计模型，在识别阶段，将输入的语音用户与创建的统计模型进行比较，以判断输入的语音是否属于创建的统计模型来判断是否是注册的用户。

但是，无论在注册阶段还是识别阶段，用户输入的语音都会受到环境噪声的干扰，影响建模结果和识别结果，从而降低声纹识别的准确度。

发明内容

本发明实施例提供一种声纹识别方法、装置、电子设备及存储介质，以解决现有技术中输入语音受到环境噪声的干扰而影响建模和识别结果，从而降低声纹识别的准确度的问题。

第一方面，本发明一实施例提供了一种声纹识别方法，包括：

获取智能设备采集到的输入语音；

在输入语音中，确定出预设唤醒词对应的每个状态对应的音频帧；

对于预设唤醒词的每个状态，对状态对应的音频帧的声学特征向量取平均，得到状态对应的目标特征向量；

将预设唤醒词的各状态对应的目标特征向量作为预先训练好的声纹识别模型的输入，以通过声纹识别模型对输入语音进行声纹识别。

第二方面，本发明一实施例提供了一种声纹识别模型的训练方法，包括：

获取已知用户标识的音频数据，音频数据中包含预设唤醒词；

在音频数据中，确定出预设唤醒词对应的每个状态对应的音频帧；

将预设唤醒词的各状态对应的目标特征向量确定为训练数据，将音频数据对应的用户标识确定为训练数据的训练标签，对声纹识别模型进行训练。

第三方面，本发明一实施例提供了一种声纹识别装置，包括：

获取模块，用于获取智能设备采集到的输入语音；

对齐模块，用于在输入语音中，确定出预设唤醒词对应的每个状态对应的音频帧；

处理模块，用于对于预设唤醒词的每个状态，对状态对应的音频帧的声学特征向量取平均，得到状态对应的目标特征向量，并将预设唤醒词的各状态对应的目标特征向量作为预先训练好的声纹识别模型的输入，以通过声纹识别模型对输入语音进行声纹识别。

第四方面，本发明一实施例提供了一种声纹识别模型的训练装置，包括：

数据获取模块，用于获取已知用户标识的音频数据，音频数据中包含预设唤醒词；

确定模块，用于在音频数据中，确定出预设唤醒词对应的每个状态对应的音频帧；

平均模块，用于对于预设唤醒词的每个状态，对状态对应的音频帧的声学特征向量取平均，得到状态对应的目标特征向量；

训练模块，用于将预设唤醒词的各状态对应的目标特征向量确定为训练数据，将音频数据对应的用户标识确定为训练数据的训练标签，对声纹识别模型进行训练。

第五方面，本发明一实施例提供了一种电子设备，包括收发机、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，收发机用于在处理器的控制下接收和发送数据，处理器执行计算机程序时实现上述声纹识别方法或者声纹识别模型的训练方法的步骤。

第六方面，本发明一实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，该计算机程序指令被处理器执行时实现上述声纹识别方法或者声纹识别模型的训练方法的步骤。

本发明实施例提供的技术方案，通过智能设备采集输入语音，将输入语音与预存的预设唤醒词的声学模型序列进行对齐处理，在输入语音中确定出预设唤醒词对应的每个状态对应的音频帧，对于预设唤醒词的每个状态，对该状态对应的音频帧的声学特征向量取平均，得到该状态对应的目标特征向量，将预设唤醒词对应的所有状态对应的目标特征向量作为声纹识别模型的输入，以此降低输入声纹识别模型的数据的噪声，提高声纹识别准确度。此外，目前的智能设备通常都设置有唤醒单元，唤醒单元在检测到输入语音中包含预设唤醒词时唤醒智能设备，由于唤醒单元也需要对输入语音进行预处理，因此，进行声纹识别时，可复用唤醒单元的预处理结果，无需单独再对输入语音进行预处理，节省了计算资源。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的声纹识别方法的应用场景示意图；

图2为本发明一实施例提供的声纹识别方法的流程示意图；

图3为本发明一实施例提供的声纹识别模型的训练方法的流程示意图；

图4为本发明一实施例提供的利用声纹识别方法实现设备唤醒的流程示意图；

图5为本发明一实施例提供的利用声纹识别方法实现设备唤醒的流程示意图；

图6为本发明一实施例提供的声纹识别装置的结构示意图；

图7为本发明一实施例提供的声纹识别模型的训练装置的结构示意图；

图8为本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

为了方便理解，下面对本发明实施例中涉及的名词进行解释：

音素(phone)，是语音中的最小的单位，依据音节里的发音动作来分析，一个动作构成一个音素。音素分为元音、辅音两大类，例如，元音有a、o、ai等，辅音有p、t、h等。

音节在语音学上指由一个或数个音素组成的语音结构基本单位，在汉语中一般一个汉字的读音即为一个音节，如“普通话”，由三个音节组成。

状态是比音素更细致的语音单位，通常一个音素或一个音节划分为3个状态。若干帧语音对应一个状态，每三个状态组合成一个音素或音节。

附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

在具体实践过程中，目前的声纹识别技术无论在注册阶段还是识别阶段，用户输入的语音都会受到环境噪声的干扰，影响建模结果和识别结果，从而降低声纹识别的准确度。

为此，本发明的发明人考虑到，先对用户输入的语音进行预处理，具体为，将输入语音与预存的预设唤醒词的声学模型序列进行对齐处理，以在输入语音中确定出预设唤醒词对应的每个状态对应的音频帧，对于预设唤醒词的每个状态，对该状态对应的声学特征向量取平均，得到该状态对应的目标特征向量，将预设唤醒词对应的所有状态对应的目标特征向量作为声纹识别模型的输入，以此降低输入声纹识别模型的数据的噪声，提高声纹识别准确度。此外，本发明的发明人发现，目前的智能设备通常都设置有唤醒单元，唤醒单元在检测到输入语音中包含预设唤醒词时唤醒智能设备，由于唤醒单元也需要对输入语音进行预处理，因此，进行声纹识别时，可复用唤醒单元的预处理结果，无需单独再对输入语音进行预处理，节省了计算资源。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

首先参考图1，其为本发明实施例提供的声纹识别方法的应用场景示意图。用户10与智能设备11交互时，通过智能设备11的麦克风采集用户的语音信息，智能设备11对用户的语音信息进行处理后，将处理后的语音信息发送给服务器12，由服务器12对处理后的语音信息进行声纹识别，根据声纹识别的结果控制智能设备11执行对应的操作。其中，智能设备11可以为智能音箱、机器人等，也可以为便携设备(例如：手机、平板、笔记本电脑等)，还可以为个人电脑(PC，PersonalComputer)。智能设备11和服务器13之间通过网络进行通信连接，该网络可以为局域网、广域网等。

下面结合图1所示的应用场景，对本发明实施例提供的技术方案进行说明。

参考图2，本发明实施例提供一种声纹识别方法，包括以下步骤：

S201、获取智能设备采集到的输入语音。

具体实施时，在S201之后，本实施例的方法还包括以下步骤：将输入语音进行分帧处理，得到若干个音频帧，对各个音频帧进行声学特征提取，得到各个音频帧对应的声学特征向量。

本实施例中，分帧处理即是将不定长的音频切分成固定长度的小段，一般取10-30ms为一帧，可使用移动窗口函数实现分帧，相邻音频帧之间有重叠部分，以避免窗边界对信号的遗漏。

具体实施时，提取的声学特征可以Fbank特征、MFCC(Mel Frequency CepstralCoefficents，梅尔频率倒谱系数)特征或语谱图特征等。声学特征向量的维度可以根据具体需要设定，例如，声学特征向量可以是80维的Fbank特征。Fbank特征、MFCC特征以及语谱图特征的提取方法为现有技术，不再赘述。

S202、在输入语音中，确定出预设唤醒词对应的每个状态对应的音频帧。

步骤S202可理解为对齐处理，举例说明，对齐处理的大致过程为：将输入语音对应的各个音频帧对应的声学特征向量输入唤醒模型，通过解码器进行路径搜索，确定出每段音频帧对应的音素，从而得到输入语音对应的音素，将输入语音对应的音素与预设唤醒词对应的音素进行对比，确定输入语音中是否包含预设唤醒词，在确定输入语音中包含预设唤醒词后，根据每个音素对应的音频帧段落，即可得到预设唤醒词对应的每个状态对应的音频帧。上述以唤醒模型采用音素为单位进行建模为例说明的，当然也可以采用其他计量单位，如音节，单词等，本发明实施例中不对唤醒模型的建模进行限定。

本实施例中，预设唤醒词包含的状态的数量可根据预设唤醒词对应的音素总数或音节总数确定。例如，预设唤醒词为“小豹小豹”，当以音素为单位进行建模时，“xiao baoxiao bao”一共包含8个音素“x”“iao”“b”“ao”“x”“iao”“b”“ao”，每个音素对应3个状态，所以“小豹小豹”一共包含24个状态；当以音节为单位进行建模时，“xiao bao xiao bao”一共包含4个音节，每个音节对应6个状态，所以“小豹小豹”一共包含24个状态。如果是以音素为单位进行建模的，对齐结果为：针对第一个“小豹”，“x”第一个状态对应输入语音中的1-10帧、“x”第二个状态对应输入语音中的11-20帧，“x”第三个状态对应输入语音中的21-30帧，“iao”的3个状态分别对应输入语音中的31-40帧、41-50帧、51-60帧，“b”的3个状态分别对应输入语音中的61-70帧、71-80帧、81-90帧，“ao”的3个状态分别对应输入语音中的91-100帧、101-110帧、111-120帧；针对第二个“小豹”，“x”的3个状态分别对应输入语音中的150-160帧、161-170帧、171-180帧，“iao”的3个状态分别对应输入语音中的181-190帧、191-200帧、201-210帧，“b”的3个状态分别对应输入语音中的211-220帧、221-230帧、231-240帧，“ao”的3个状态分别对应输入语音中的241-250帧、251-260帧、261-270帧。当然，各个音素间的音频帧也不一定是连续的，例如，用户在说“小豹小豹”时，两个字之间会出现停顿，停顿处的空白帧不属于任何一个状态。

具体实施时，若输入语音中不包含预设唤醒词，则结束处理流程，即不执行后续步骤S203和S204的处理，等待处理下一段输入语音。

S203、对于预设唤醒词的每个状态，对该状态对应的音频帧的声学特征向量取平均，得到该状态对应的目标特征向量。

仍以上述预设唤醒词为“小豹小豹”的例子来进行说明，预设唤醒词对应的第一个“x”的第一个状态对应输入语音中的第1-10帧，对这10个音频帧的声学特征向量取平均，得到第一个“x”的第一个状态对应的目标特征向量，以此消除环境噪声的影响。通过上述方法，可得到预设唤醒词“小豹小豹”的24个状态分别对应的目标特征向量，将这24个目标特征向量作为声纹识别模型的输入量。假设音频帧为80维的Fbank特征向量，则预设唤醒词“小豹小豹”对应的输入量为一个24×80维的矩阵。

S204、将预设唤醒词的各状态对应的目标特征向量作为预先训练好的声纹识别模型的输入，以通过声纹识别模型对输入语音进行声纹识别。

在声纹识别过程中，由于对输入语音进行了对齐处理，并且对预设唤醒词的各个状态对应的声学特征向量取平均，得到各个状态对应的目标特征向量，从而得到由预设唤醒词的各个状态对应的目标特征向量组成的矩阵，将该矩阵作为声纹识别模型的输入，对声纹识别模型的输入进行了降噪处理，降低环境噪声带来的影响，使得通过声纹识别模型能够更好地还原用户的声纹特征，提高识别成功率。

需要说明的是，上述方法实施例的执行主体可以为智能设备的控制器(即在智能设备本地处理)，也可以为云端服务器(即在云端服务器进行处理)。本发明实施例不对执行主体进行限定。

本发明实施例中的声纹识别模型可采用DNN(Deep Neural Network，深度神经网络)训练得到，具体训练方法如图3所示。基于DNN的声纹识别模型包括输入层、中间层和输出层，中间层的输出结果即为输入语音对应的声纹特征向量，然后，输出层对中间层输出的声纹特征向量进行分类，确定输入语音对应的用户标识，通过用户标识即可确定用户的身份。其中，声纹识别模型的中间层可包含多个隐藏层，输出层可以是softmax。在训练声纹识别模型的过程中，同样可以对训练用的音频数据进行降噪处理后，再作为输入声纹识别模型的训练样本，以提升模型训练的效果，提高最终声纹识别模型的识别准确度。

基于上述任一实施例，本发明实施例在具体实施时，智能设备本地中通常都设置有唤醒单元，智能设备的MIC(microphone，麦克风)采集到的用户语音信号作为输入语音，输入至智能设备内的唤醒单元进行处理，处理过程如下：将输入语音进行分帧处理，得到若干个音频帧，对各个音频帧进行声学特征提取，得到各个音频帧对应的声学特征向量，在输入语音中，确定出预设唤醒词对应的每个状态对应的声学特征向量。然后，唤醒单元输出的预设唤醒词对应的每个状态对应的声学特征向量上传至服务器，由服务器先进行处理后再输入至预先训练好的声纹识别模型进行声纹识别，具体处理过程为：针对预设唤醒词的每个状态，对状态对应的声学特征向量取平均，得到状态对应的目标特征向量，将预设唤醒词的每个状态对应的目标特征向量作为预先训练好的声纹识别模型的输入，以通过声纹识别模型对输入语音进行声纹识别。因此，声纹识别模型可复用智能设备中已有的唤醒单元的输出结果，使得声纹识别模型无需单独再对输入语音进行预处理，节省了计算资源。需要说明的是，智能设备本地的处理流程由智能设备的控制器进行控制。

实际应用时，还可以将取平均的操作(对应步骤S203)也集成到智能设备的唤醒单元中。即，智能设备内的唤醒单元处理输入语音的过程如下：将输入语音进行分帧处理，得到若干个音频帧，对各个音频帧进行声学特征提取，得到各个音频帧对应的声学特征向量，在输入语音中，确定出预设唤醒词对应的每个状态对应的声学特征向量，针对预设唤醒词的每个状态，对状态对应的声学特征向量取平均，得到状态对应的目标特征向量。然后，智能设备将预设唤醒词的每个状态对应的目标特征向量发送给服务器。服务器将预设唤醒词的各状态对应的目标特征向量作为预先训练好的声纹识别模型的输入，以通过声纹识别模型对输入语音进行声纹识别。

进一步地，本实施例的方法还包括以下步骤：根据声纹识别模型，对输入语音进行声纹识别，得到输入语音对应的目标声纹特征向量；将目标声纹特征向量与数据库中的声纹特征向量进行比对，确定出目标声纹特征向量对应的用户标识，数据库中存储有声纹特征向量以及用户标识。

上述通过声纹识别模型进行声纹识别的处理可以由服务器执行，也可以由智能设备的控制器执行。

具体实施时，用户可预先通过智能设备将用户的用户标识和声纹特征向量录入到数据库中，以便后续实现身份识别功能，下面以服务器侧执行声纹识别为例进行说明，具体录入过程可通过以下步骤实现：

第一步、用户根据智能设备的提示输入预设唤醒词对应的语音。

第二步、智能设备的控制器将智能设备采集到的语音输入智能设备内的唤醒单元。

第三步、唤醒单元在输入语音中，确定出预设唤醒词对应的每个状态对应的音频帧。

具体实施方式可参考步骤S202。

第四步、唤醒单元针对预设唤醒词的每个状态，对状态对应的音频帧的声学特征向量取平均，得到状态对应的目标特征向量。

第五步、智能设备的控制器将预设唤醒词的每个状态对应的目标特征向量发送给服务器。

具体实施方式可参考步骤S203。具体实施时，第四步也可以由服务器执行，即，智能设备将预设唤醒词对应的每个状态对应的声学特征向量发送给服务器，服务器针对预设唤醒词的每个状态，对状态对应的声学特征向量取平均，得到状态对应的目标特征向量。

第六步、服务器将预设唤醒词的各状态对应的目标特征向量作为预先训练好的声纹识别模型的输入，获取声纹识别模型的中间层输出的声纹特征向量。

第七步、重复上述第一步至第六步，得到该用户的多个声纹特征向量，服务器对该用户的多个声纹特征向量取平均，将取平均后的声纹特征向量和该用户的用户标识存储到数据库中。

通过上述七个步骤，使得用户在录入声纹时无论身处何种环境，都能得到去除环境噪声的声纹特征向量，以提高后续识别过程中的识别准确度。

本实施例的方法可应用于智能支付过程中。具体为，当用户需要进行支付交易时，通过智能设备输入预设唤醒词对应的语音，智能设备在获取到输入的语音后，将语音进行分帧处理，得到若干个音频帧，对各个音频帧进行声学特征提取，得到各个音频帧对应的声学特征向量，在该语音中确定出预设唤醒词对应的每个状态对应的声学特征向量，对状态对应的声学特征向量取平均，得到状态对应的目标特征向量，将预设唤醒词的每个状态对应的目标特征向量发送给服务器；服务器将预设唤醒词的每个状态对应的目标特征向量作为预先训练好的声纹识别模型的输入，获取声纹识别模型的中间层输出的声纹特征向量，将声纹识别模型输出的声纹特征向量与数据库中的声纹特征向量进行比对，以确定该语音对应的用户标识，根据用户标识进一步判断用户是否有权进行本次支付交易，若用户有权进行支付交易，则完成支付交易。

基于上述任一实施例，进一步地，在步骤S202之后，本发明实施例的方法还包括以下处理步骤：

根据预设唤醒词对应的每个状态对应的目标特征向量，确定输入语音中包含预设唤醒词的置信度；若置信度大于预设置信度阈值，则指示唤醒智能设备，否则，不指示唤醒智能设备。

具体实施时，仍以上述预设唤醒词为“小豹小豹”的例子来说明，可使用深度神经网络建模的声学模型计算每个状态对应的目标特征向量的声学后验得分，根据这24个声学后验得分计算输入语音对应的文本属于预设唤醒词的置信度，例如将24个声学后验得分的平均值作为置信度，进而将计算得到的置信度与预设置信度阈值进行比对，确定是否指示唤醒智能设备。

具体实施时，还可以基于预设唤醒词对应的每个状态对应的声学特征向量计算置信度。以声学特征向量为例，接上述“小豹小豹”的例子，通过对齐处理得到语音“小豹小豹”对应的输入语音中的第0-120、150-270帧音频帧的声学似然评分，根据每个每个状态对应的音频帧的声学似然评分和各个音频帧在输入语音中的序列位置，针对每个状态选出预设数量的目标音频帧，假设预设数量为5帧，则针对每个状态选出声学似然评分较高且排列靠近中间位置的5个音频帧，这样，“小豹小豹”对应的24个状态就选取出120个音频帧，使用深度神经网络建模的声学模型计算每个状态对应的目标音频帧对应的声学特征向量的声学后验得分，并选取出其中最高的声学后验得分，得到24个状态分别对应的最大声学后验得分，根据这24个最大声学后验得分计算输入语音对应的文本属于预设唤醒词的置信度，例如将24个最大声学后验得分的平均值作为置信度，进而将计算得到的置信度与预设置信度阈值进行比对，确定是否指示唤醒智能设备。

基于上述任一实施例，本发明实施例在具体实施时，作为一种可能的实现方式，如图4所示，一级唤醒模型41用于通过步骤S201-S203的方法对输入语音进行预处理，以得到预设唤醒词对应的每个状态对应的目标特征向量。二级唤醒模型42用于根据预设唤醒词对应的每个状态对应的目标特征向量，确定输入语音中包含预设唤醒词的置信度，若置信度大于预设置信度阈值，则指示唤醒智能设备，否则，不指示唤醒智能设备。其中，一级唤醒模型41可以是智能设备中的唤醒单元，二级唤醒模型42可设置在智能设备端或服务器端。

具体实施时，作为另一种可能的实现方式，如图5所示，可通过一级唤醒模型51、降噪单元52和二级唤醒模型53实现唤醒功能。一级唤醒模型51用于通过步骤S201-S202的方法对输入语音进行预处理，以得到预设唤醒词对应的每个状态对应的声学特征向量。降噪单元52用于针对预设唤醒词的每个状态，对状态对应的声学特征向量取平均，得到状态对应的目标特征向量。二级唤醒模型53用于根据预设唤醒词对应的每个状态对应的声学特征向量或目标特征向量，确定输入语音中包含预设唤醒词的置信度，若置信度大于预设置信度，则指示唤醒智能设备，否则，不指示唤醒智能设备。其中，一级唤醒模型51可以是智能设备中的唤醒单元，降噪单元52和二级唤醒模型53可设置在智能设备端或在服务器端。

基于上述任一实施例，进一步地，在指示唤醒智能设备之前，本实施例的方法还包括以下步骤：根据声纹识别模型，对输入语音进行声纹识别，得到输入语音对应的目标声纹特征向量；将目标声纹特征向量与指定用户的声纹特征向量进行比对；在确认目标声纹特征向量属于指定用户后，指示唤醒智能设备。

具体的，若上述处理在服务器侧实现，在确定目标声纹特征向量属于指定用户后，向智能设备的控制器发送指示信息，以指示唤醒所述智能设备。智能设备的控制器在接收到指示信息后，唤醒所述智能设备。

具体实施时，指定用户的声纹特征向量可根据指定用户的用户标识从数据库中获取。或者，在智能设备上设置指定用户时，通过智能设备和服务器实时采集声纹特征向量，并存储在智能设备中。一个智能设备可指定一个或多个指定用户。

如图4所示，具体实施时，一级唤醒模型41用于通过步骤S201-S203的方法对输入语音进行预处理，以得到预设唤醒词对应的每个状态对应的目标特征向量。一级唤醒模型41输出的预设唤醒词对应的每个状态对应的目标特征向量作为声纹识别模型43的输入，声纹识别模型43进行声纹识别，得到输入语音对应的目标声纹特征向量，用户识别单元44将声纹识别模型43输出的目标声纹特征向量与指定用户的声纹特征向量进行比对，得到目标声纹特征向量是否属于指定用户的识别结果，并将识别结果反馈给二级唤醒模型42，由二级唤醒模型42综合识别结果以及计算得到的置信度确定是否指示唤醒智能设备，当输入语音对应的目标声纹特征向量属于指定用户且输入语音中包含预设唤醒词的置信度大于预设置信度阈值时，指示唤醒智能设备，否则不指示唤醒智能设备。其中，一级唤醒模型41可以是智能设备中的唤醒单元，二级唤醒模型42、声纹识别模型43以及用户识别单元44可设置在智能设备侧或在服务器侧。

如图5所示，具体实施时，降噪单元52将预设唤醒词对应的每个状态对应的目标特征向量输入声纹识别模型54，声纹识别模型54进行声纹识别，得到输入语音对应的目标声纹特征向量，用户识别单元55将声纹识别模型54输出的目标声纹特征向量与指定用户的声纹特征向量进行比对，得到目标声纹特征向量是否属于指定用户的识别结果，并将识别结果反馈给二级唤醒模型53，由二级唤醒模型53综合识别结果以及置信度确定是否指示唤醒智能设备，当输入语音对应的目标声纹特征向量属于指定用户且输入语音中包含预设唤醒词的置信度大于预设置信度阈值时，指示唤醒智能设备，否则不指示唤醒智能设备。其中，一级唤醒模型51可以是智能设备中的唤醒单元，降噪单元52、二级唤醒模型53、声纹识别模型54以及用户识别单元55可设置在智能设备侧或在服务器侧。

因此，通过本实施例的方法，可实现指定用户能够唤醒智能设备而其他用户无法唤醒智能设备的功能。

基于同一发明构思，如图3所示，本发明实施例提供了一种声纹识别模型的训练方法，包括以下步骤：

S301、获取已知用户标识的音频数据，音频数据中包含预设唤醒词。

具体实施时，在执行步骤S302之前，还包括以下步骤：将音频数据进行分帧处理，得到若干个音频帧；对各个音频帧进行声学特征提取，得到各个音频帧对应的声学特征向量。提取的声学特征可以Fbank特征、MFCC特征或语谱图特征等。当然，训练时提取的是何种特征，则应用该声纹识别模型进行识别时，也需要提取同种类型的特征。

S302、在音频数据中，确定出预设唤醒词对应的每个状态对应的音频帧。

即，将音频数据的声学特征向量序列与唤醒词对应的声学模型序列进行对齐处理，以从音频数据的声学特征向量序列中定位出与声学模型序列中的每个状态对应的音频帧的范围。具体实施方式可参考步骤S202。

S303、对于预设唤醒词的每个状态，对该状态对应的音频帧的声学特征向量取平均，得到该状态对应的目标特征向量。

具体实施方式可参考步骤S203。

通过步骤S301-S303，完成对唤醒词对应的音频数据的预处理，以去除训练样本中的环境噪声。对所有参与训练的音频数据处理好之后，得到一个包含大量训练样本的样本集，通过该样本集对神经网络进行训练，以确定神经网络的参数。

S304、将预设唤醒词的各状态对应的目标特征向量确定为训练数据，将音频数据对应的用户标识确定为训练数据的训练标签，对声纹识别模型进行训练。

具体实施时，声纹识别模型可采用DNN，基于DNN的声纹识别模型包括输入层、中间层和输出层，中间层可包含多个隐藏层，输出层可以是softmax。中间层的输出结果即为输入语音对应的声纹特征向量，输出层的作用是对通过中间层得到的声纹特征向量进行分类，以确定用户的身份，根据输出层输出结果与训练样本的训练标签的比对结果进行负反馈，以调整神经网络中的参数，达到训练神经网络的目的，使得训练好的神经网络能够根据输入的多维音频向量，输入正确的声纹特征向量。

其中，声纹识别模型的训练方法有多种，例如，交叉熵训练方法，交叉熵是对目标后验概率与实际后验概率间差异度的衡量，在此不作限定。

本发明实施例的声纹识别模型的训练方法，在训练声纹识别模型的过程中，对训练用的音频数据进行降噪处理后，再作为输入声纹识别模型的训练样本，以提升模型训练的效果，提高了声纹识别模型的识别准确度。

具体实施时，可通过用户使用的智能设备收集大量的语音作为训练样本，提高数据采集效率，扩大样本范围。此外，还可以复用智能设备中的唤醒模型对采集的语音进行预处理，即直接从智能设备端获取预设唤醒词对应的每个状态对应的声学特征向量，无需单独再对输入语音进行处理，节省了计算资源。

如图6所示，基于与上述声纹识别方法相同的发明构思，本发明实施例还提供了一种声纹识别装置60，包括获取模块601、对齐模块602和处理模块603。

获取模块601，用于获取智能设备采集到的输入语音。

对齐模块602，用于在输入语音中，确定出预设唤醒词对应的每个状态对应的音频帧。

处理模块603，用于对于预设唤醒词的每个状态，对状态对应的音频帧的声学特征向量取平均，得到状态对应的目标特征向量，并将预设唤醒词的各状态对应的目标特征向量作为预先训练好的声纹识别模型的输入，以通过声纹识别模型对输入语音进行声纹识别。

进一步地，本实施例的声纹识别装置60还包括转换模块，用于在获取输入语音之后，将输入语音进行分帧处理，得到若干个音频帧；对各个音频帧进行声学特征提取，得到各个音频帧对应的声学特征向量。

进一步地，本实施例的声纹识别装置60还包括识别模块，用于根据声纹识别模型，对输入语音进行声纹识别，得到输入语音对应的目标声纹特征向量；将目标声纹特征向量与数据库中的声纹特征向量进行比对，确定出目标声纹特征向量对应的用户标识，数据库中存储有声纹特征向量以及用户标识。

进一步地，本实施例的声纹识别装置60还包括置信度模块和唤醒模块。

置信度模块，用于根据预设唤醒词对应的每个状态对应的目标特征向量，确定输入语音中包含预设唤醒词的置信度。

唤醒模块，用于若置信度大于预设置信度阈值，则指示唤醒智能设备。

进一步地，唤醒模块具体用于：若置信度大于预设置信度阈值，则根据声纹识别模型，对输入语音进行声纹识别，得到输入语音对应的目标声纹特征向量；将目标声纹特征向量与指定用户的声纹特征向量进行比对；在确认目标声纹特征向量属于指定用户后，指示唤醒智能设备。

进一步地，预设唤醒词的状态的数量根据预设唤醒词对应的音素总数或音节总数确定。

本发明实施例提的声纹识别装置与上述声纹识别方法采用了相同的发明构思，能够取得相同的有益效果，在此不再赘述。

如图7所示，基于与上述声纹识别方法相同的发明构思，本发明实施例还提供了一种声纹识别模型的训练装置70，包括：数据获取模块701、确定模块702、平均模块703、训练模块704。

数据获取模块701，用于获取已知用户标识的音频数据，音频数据中包含预设唤醒词。

确定模块702，用于在音频数据中，确定出预设唤醒词对应的每个状态对应的音频帧。

平均模块703，用于对于预设唤醒词的每个状态，对状态对应的音频帧的声学特征向量取平均，得到状态对应的目标特征向量。

训练模块704，用于将预设唤醒词的各状态对应的目标特征向量确定为训练数据，将音频数据对应的用户标识确定为训练数据的训练标签，对声纹识别模型进行训练。

进一步地，本实施例的声纹识别模型的训练装置70还包括数据处理模块，用于：在获取音频数据之后，将音频数据进行分帧处理，得到若干个音频帧；对各个音频帧进行声学特征提取，得到各个音频帧对应的声学特征向量。

本发明实施例提的声纹识别装置与上述声纹识别模型的训练方法采用了相同的发明构思，能够取得相同的有益效果，在此不再赘述。

基于与上述声纹识别方法相同的发明构思，本发明实施例还提供了一种电子设备，该电子设备具体可以为智能设备的控制器、服务器等。如图8所示，该电子设备80可以包括处理器801、存储器802和收发机803。收发机803用于在处理器801的控制下接收和发送数据。

存储器802可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器提供存储器中存储的程序指令和数据。在本发明实施例中，存储器可以用于存储声纹识别方法或声纹识别模型的训练方法的程序。

处理器801可以是CPU(中央处埋器)、ASIC(Application Specific IntegratedCircuit，专用集成电路)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)或CPLD(Complex Programmable Logic Device，复杂可编程逻辑器件)处理器通过调用存储器存储的程序指令，按照获得的程序指令实现上述任一实施例中的声纹识别方法或声纹识别模型的训练方法。

本发明实施例提供了一种计算机可读存储介质，用于储存为上述电子设备所用的计算机程序指令，其包含用于执行上述声纹识别方法或声纹识别模型的训练方法的程序。

上述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。

以上所述，以上实施例仅用以对本申请的技术方案进行了详细介绍，但以上实施例的说明只是用于帮助理解本发明实施例的方法，不应理解为对本发明实施例的限制。本技术领域的技术人员可轻易想到的变化或替换，都应涵盖在本发明实施例的保护范围之内。

Claims

1.一种声纹识别方法，其特征在于，包括：

获取智能设备采集到的输入语音；

在所述输入语音中，确定出预设唤醒词对应的每个状态对应的音频帧；

对于所述预设唤醒词的每个状态，对所述状态对应的音频帧的声学特征向量取平均，得到所述状态对应的目标特征向量；

将所述预设唤醒词的各状态对应的目标特征向量作为预先训练好的声纹识别模型的输入，以通过所述声纹识别模型对所述输入语音进行声纹识别。

2.根据权利要求1所述的方法，其特征在于，获取所述输入语音之后，还包括：

将所述输入语音进行分帧处理，得到若干个音频帧；

对各个音频帧进行声学特征提取，得到各个音频帧对应的声学特征向量。

3.根据权利要求1所述的方法，其特征在于，还包括：

根据所述声纹识别模型，对所述输入语音进行声纹识别，得到所述输入语音对应的目标声纹特征向量；

将所述目标声纹特征向量与数据库中的声纹特征向量进行比对，确定出所述目标声纹特征向量对应的用户标识，所述数据库中存储有声纹特征向量以及用户标识。

4.根据权利要求1所述的方法，其特征在于，还包括：

根据所述预设唤醒词对应的每个状态对应的目标特征向量，确定所述输入语音中包含预设唤醒词的置信度；

若所述置信度大于预设置信度阈值，则指示唤醒所述智能设备。

5.根据权利要求4所述的方法，其特征在于，指示唤醒所述智能设备还包括：

将所述目标声纹特征向量与指定用户的声纹特征向量进行比对；

在确认所述目标声纹特征向量属于所述指定用户后，指示唤醒所述智能设备。

6.根据权利要求1至5中任一所述的方法，其特征在于，所述预设唤醒词的状态的数量根据所述预设唤醒词对应的音素总数或音节总数确定。

7.一种声纹识别模型的训练方法，其特征在于，包括：

获取已知用户标识的音频数据，所述音频数据中包含预设唤醒词；

在所述音频数据中，确定出预设唤醒词对应的每个状态对应的音频帧；

将所述预设唤醒词的各状态对应的目标特征向量确定为训练数据，将所述音频数据对应的用户标识确定为所述训练数据的训练标签，对声纹识别模型进行训练。

8.根据权利要求7所述的方法，其特征在于，在获取所述音频数据之后，还包括：

将所述音频数据进行分帧处理，得到若干个音频帧；

9.一种电子设备，包括收发机、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述收发机用于在所述处理器的控制下接收和发送数据，所述处理器执行所述计算机程序时实现权利要求1至8任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该计算机程序指令被处理器执行时实现权利要求1至8任一项所述方法的步骤。