CN112133311B

CN112133311B - 说话人识别方法、相关设备及可读存储介质

Info

Publication number: CN112133311B
Application number: CN202010986890.3A
Authority: CN
Inventors: 石周; 高天
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2023-01-17
Anticipated expiration: 2040-09-18
Also published as: CN112133311A

Abstract

本申请公开了一种说话人识别方法、相关设备及可读存储介质，上述方案中，可以获取说话人的人脸图像和说话人的语音信号；然后，基于说话人的人脸图像，生成说话人的人脸身份特征；最后，基于说话人的语音信号，和，说话人的人脸身份特征，生成说话人的识别结果。由于说话人的人脸身份特征能够反映说话人的身份信息，在说话人的语音信号无法准确反映说话人的身份信息时，说话人的人脸身份特征能够补充说话人的身份信息，因此，同时基于说话人的语音信号，和，说话人的人脸身份特征对说话人进行识别，相对于仅基于说话人的语音信号对说话人识别，识别结果更为准确。

Description

说话人识别方法、相关设备及可读存储介质

技术领域

本申请涉及数据处理技术领域，更具体的说，是涉及一种说话人识别方法、相关设备及可读存储介质。

背景技术

随着智能识别技术的快速发展，越来越多的场景需要应用生物识别技术对说话人进行识别，例如，金融安全、国家安全、智能家居和行政司法等场景。声纹特征是基于说话人语音信号的音波频谱特征而提取的声学特征，能够反映说话人的身份信息，因此，目前多基于说话人的声纹特征对说话人进行识别。

但是，说话人的语音信号会受说话人所处环境、说话人生理状况等影响，导致说话人的语音信号具有各种各样的不确定性，导致说话人的声纹特征也具有各种各样的不确定性，进而影响对说话人识别的准确性。

因此，如何提升对说话人识别的准确性，成为本领域技术人员亟待解决的技术问题。

发明内容

鉴于上述问题，本申请提出了一种说话人识别方法、相关设备及可读存储介质。具体方案如下：

一种说话人识别方法，包括：

获取说话人的人脸图像和所述说话人的语音信号；

基于所述说话人的人脸图像，生成所述说话人的人脸身份特征；

基于所述说话人的语音信号，和，所述说话人的人脸身份特征，生成所述说话人的识别结果。

可选地，所述基于所述说话人的人脸图像，生成所述说话人的人脸身份特征，包括：

利用人脸图像处理模型对所述说话人的人脸图像进行编码，生成所述说话人的人脸身份特征。

可选地，所述人脸图像处理模型的训练过程，包括：

利用所述人脸图像处理模型的身份自编码模块，对输入的训练人脸图像进行编码，得到所述训练人脸图像的人脸身份特征；

利用所述人脸图像处理模型的解码重构模块，至少对所述训练人脸图像的人脸身份特征进行解码重构，得到与所述训练人脸图像对应的重构图像；

基于所述训练人脸图像，和，与所述训练人脸图像对应的重构图像，确定重构损失；

至少以所述重构损失作为损失函数，训练所述人脸图像处理模型。

可选地，所述人脸图像处理模型的训练过程，还包括：

利用所述人脸图像处理模型的姿态自编码模块，对输入的训练人脸图像进行编码，得到所述训练人脸图像的人脸姿态特征；

所述利用所述人脸图像处理模型的解码重构模块，至少对所述训练人脸图像的人脸身份特征进行解码重构，得到与所述训练人脸图像对应的重构图像，包括：

利用所述人脸图像处理模型的解码重构模块，对所述训练人脸图像的人脸身份特征和所述训练人脸图像的人脸姿态特征进行解码重构，得到与所述训练人脸图像对应的重构图像。

可选地，所述输入的训练人脸图像的样本标签包括人脸姿态标签；

则所述人脸图像处理模型的训练过程，还包括：

基于所述训练人脸图像的人脸姿态标签，和，所述训练人脸图像的人脸姿态特征，确定姿态分类损失；

所述至少以所述重构损失作为损失函数，训练所述人脸图像处理模型，包括：

至少以所述重构损失和所述姿态分类损失作为损失函数，训练所述人脸图像处理模型。

可选地，所述输入的训练人脸图像的样本标签还包括人脸身份标签；

所述人脸图像处理模型的训练过程，还包括：

基于所述训练人脸图像的人脸身份标签，和，所述训练人脸图像的人脸姿态特征，确定对抗分类损失；

以所述重构损失和所述对抗分类损失作为损失函数，训练所述人脸图像处理模型。

可选地，所述利用人脸图像处理模型对所述说话人的人脸图像进行编码，生成所述说话人的人脸身份特征，包括：

利用所述身份自编码模块，对所述说话人的人脸图像进行编码，生成所述说话人的人脸身份特征。

可选地，所述基于所述说话人的语音信号，和，所述说话人的人脸身份特征，生成所述说话人的识别结果，包括：

利用说话人识别模型对所述说话人的语音信号，和，所述说话人的人脸身份特征进行识别，生成所述说话人的识别结果。

可选地，所述利用说话人识别模型对所述说话人的语音信号，和，所述说话人的人脸身份特征进行识别，生成所述说话人的识别结果，包括：

利用所述说话人识别模型的声纹特征提取模块，对所述说话人的语音信号进行特征提取，生成所述说话人的声纹特征；

利用所述说话人识别模型的特征融合模块，将所述说话人的人脸身份特征和所述说话人的声纹特征进行融合，生成所述说话人的身份特征；

利用所述说话人识别模型的识别模块，基于所述说话人的身份特征，生成所述说话人的识别结果。

一种说话人识别装置，包括：

获取单元，用于获取说话人的人脸图像和所述说话人的语音信号；

人脸图像处理单元，用于基于所述说话人的人脸图像，生成所述说话人的人脸身份特征；

说话人识别单元，用于基于所述说话人的语音信号，和，所述说话人的人脸身份特征，生成所述说话人的识别结果。

可选地，所述人脸图像处理单元，用于：

可选地，所述装置还包括人脸图像处理模型训练单元，用于：

可选地，所述人脸图像处理模型训练单元，还用于：

则所述人脸图像处理模型训练单元，还用于：

所述人脸图像处理模型训练单元，还用于：

可选地，所述人脸图像处理单元，具体用于：

可选地，所述说话人识别单元，用于：

可选地，所述说话人识别单元，具体用于：

一种说话人识别设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上所述的说话人识别方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的说话人识别方法的各个步骤。

借由上述技术方案，本申请公开了一种说话人识别方法、相关设备及可读存储介质，上述方案中，可以获取说话人的人脸图像和说话人的语音信号；然后，基于说话人的人脸图像，生成说话人的人脸身份特征；最后，基于说话人的语音信号，和，说话人的人脸身份特征，生成说话人的识别结果。由于说话人的人脸身份特征能够反映说话人的身份信息，在说话人的语音信号无法准确反映说话人的身份信息时，说话人的人脸身份特征能够补充说话人的身份信息，因此，同时基于说话人的语音信号，和，说话人的人脸身份特征对说话人进行识别，相对于仅基于说话人的语音信号对说话人识别，识别结果更为准确。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例公开的说话人识别方法的流程示意图；

图2为本申请实施例公开的一种人脸图像处理模型的结构示意图；

图3为本申请实施例公开的另一种人脸图像处理模型的结构示意图；

图4为本申请实施例公开的另一种人脸图像处理模型的结构示意图；

图5为本申请实施例公开的另一种人脸图像处理模型的结构示意图；

图6为本申请实施例公开的一种说话人识别模型的结构示意图；

图7为本申请实施例公开的一种说话人识别装置结构示意图；

图8为本申请实施例提供的说话人识别设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

接下来，通过下述实施例对本申请提供的说话人识别方法进行介绍。

参照图1，图1为本申请实施例公开的说话人识别方法的流程示意图，该方法可以包括：

步骤S101：获取说话人的人脸图像和所述说话人的语音信号。

在本申请中，可以获取说话人的视频，从说话人的视频中获取说话人的人脸图像和说话人的语音信号。说话人的人脸图像可以为说话人的视频中包含说话人人脸的任意一帧图像，说话人的语音信号为说话人的视频中的说话人音频。

步骤S102：基于所述说话人的人脸图像，生成所述说话人的人脸身份特征。

在本申请中，可以利用人脸图像处理模型对所述说话人的人脸图像进行编码，生成所述说话人的人脸身份特征。人脸身份特征是能够代表说话人的身份信息的较低维度的特征向量，比如，用于表征说话人的五官、说话人的脸部轮廓等的较低维度的特征向量。说话人的身份信息是能够指示说话人与其他人的区别的信息。人脸图像处理模型的详细内容将通过后面的实施例进行说明。

步骤S103：基于所述说话人的语音信号，和，所述说话人的人脸身份特征，生成所述说话人的识别结果。

在本申请中，可以利用说话人识别模型对所述说话人的语音信号，和，所述说话人的人脸身份特征进行识别，生成所述说话人的识别结果。说话人识别模型的详细内容将通过后面的实施例进行说明。

本实施例公开了一种说话人识别方法，该方法中，可以获取说话人的人脸图像和说话人的语音信号；然后，基于说话人的人脸图像，生成说话人的人脸身份特征；最后，基于说话人的语音信号，和，说话人的人脸身份特征，生成说话人的识别结果。由于说话人的人脸身份特征能够反映说话人的身份信息，在说话人的语音信号无法准确反映说话人的身份信息时，说话人的人脸身份特征能够补充说话人的身份信息，因此，同时基于说话人的语音信号，和，说话人的人脸身份特征对说话人进行识别，相对于仅基于说话人的语音信号对说话人识别，识别结果更为准确。

在本申请的另一个实施例中，对所述人脸图像处理模型的结构和训练过程进行了详细介绍，具体如下：

请参阅附图2，图2为本申请实施例公开的一种人脸图像处理模型的结构示意图，如图2所示，该人脸图像处理模型包括身份自编码模块和解码重构模块。

在本申请中，对图2所示的人脸图像处理模型的训练过程可以包括以下步骤：

步骤S201：利用所述人脸图像处理模型的身份自编码模块，对输入的训练人脸图像进行编码，得到所述训练人脸图像的人脸身份特征。

步骤S202：利用所述人脸图像处理模型的解码重构模块，对所述训练人脸图像的人脸身份特征进行解码重构，得到与所述训练人脸图像对应的重构图像。

在本申请中，解码重构模块可以包括解码单元和重构单元，将所述训练人脸图像的人脸身份特征通过解码单元和重构单元，即可得到与训练人脸图像尺寸一致的重构图像。

步骤S203：基于所述训练人脸图像，和，与所述训练人脸图像对应的重构图像，确定重构损失。

在本申请中，可以基于所述训练人脸图像，和，与所述训练人脸图像对应的重构图像的MSELoss(均方误差损失)、L1 Loss(平均绝对误差损失)或SSIMLoss(结构相似性损失)，确定重构损失。

为便于理解，假设训练人脸图像为X，与训练人脸图像对应的重构图像为X_rec，则基于所述训练人脸图像，和，与所述训练人脸图像对应的重构图像的MSELoss，确定的重构损失L_rec具体为：

基于所述训练人脸图像，和，与所述训练人脸图像对应的重构图像的L1Loss，确定的重构损失L_rec具体为：L_rec＝||X-X_rec||

基于所述训练人脸图像，和，与所述训练人脸图像对应的重构图像的SSIM Loss，确定的重构损失L_rec具体为：L_rec＝1-SSIM(X，X_rec)；其中，

μ_x、

为图像X和X_rec的像素的均值，

为方差，

为协方差

步骤S204：以所述重构损失作为损失函数，训练所述人脸图像处理模型。

在本实施例中，人脸图像处理模型包括身份自编码模块和解码重构模块，在对该模型训练完毕后，即可利用该模型的身份自编码模块对说话人的人脸图像进行编码，得到说话人的人脸身份特征。但是，该模型在训练时，仅仅利用人脸图像处理模型的身份自编码模块，对输入的训练人脸图像进行编码，得到训练人脸图像的人脸身份特征，并利用人脸图像处理模型的解码重构模块，对训练人脸图像的人脸身份特征进行解码重构，得到与训练人脸图像对应的重构图像，然后，基于训练人脸图像，和，与训练人脸图像对应的重构图像，确定重构损失，最后基于重构损失训练得到人脸图像处理模型。但是，由于仅对训练人脸图像的人脸身份特征进行解码重构，得到与训练人脸图像对应的重构图像精度较低，导致训练得到的人脸图像处理模型的性能(如准确率、精度、召回率)较差。

为解决上述问题，本申请中公开了另一种人脸图像处理模型的结构及其训练方式，具体如下：

请参阅附图3，图3为本申请实施例公开的另一种人脸图像处理模型的结构示意图，如图3所示，该人脸图像处理模型包括姿态自编码模块、身份自编码模块和解码重构模块。

作为一种可实施方式，在本申请中，对图3所示的人脸图像处理模型的训练过程可以包括以下步骤：

步骤S301：利用所述人脸图像处理模型的姿态自编码模块，对输入的训练人脸图像进行编码，得到所述训练人脸图像的人脸姿态特征。

姿态自编码模块可以从训练人脸图像中提取出第一特征向量，该第一特征向量能够代表该训练人脸图像中人脸的姿态。

步骤S302：利用所述人脸图像处理模型的身份自编码模块，对输入的训练人脸图像进行编码，得到所述训练人脸图像的人脸身份特征。

身份自编码模块可以从训练人脸图像中提取出第二特征向量，该第二特征向量能够代表该训练人脸图像对应的说话人的身份，第二特征向量可以为人脸中五官的特征、人脸轮廓的特征等。

步骤S303：利用所述人脸图像处理模型的解码重构模块，对所述训练人脸图像的人脸身份特征和所述训练人脸图像的人脸姿态特征进行解码重构，得到与所述训练人脸图像对应的重构图像。

在本申请中，解码重构模块可以包括解码单元和重构单元，将所述训练人脸图像的人脸身份特征和所述训练人脸图像的人脸姿态特征进行拼接，得到拼接后的特征，将拼接后的特征输入解码单元，解码单元对拼接后的特征进行解码，得到解码后的特征，将解码后的特征输入重构单元，即可得到与训练人脸图像尺寸一致的重构图像。

步骤S304：基于所述训练人脸图像，和，与所述训练人脸图像对应的重构图像，确定重构损失。

该步骤可参见步骤S203的相关内容，此处不再赘述。

步骤S305：以所述重构损失作为损失函数，训练所述人脸图像处理模型。

在本步骤中，可以通过不断调整人脸图像处理模型中的参数，直至所述损失函数收敛，所述损失函数收敛后，则所述人脸图像处理模型训练完毕。

在本实施例中，人脸图像处理模型包括姿态自编码模块、身份自编码模块和解码重构模块。在训练时，不仅利用人脸图像处理模型的身份自编码模块，对输入的训练人脸图像进行编码，得到训练人脸图像的人脸身份特征，还利用人脸图像处理模型的姿态自编码模块，对输入的训练人脸图像进行编码，得到所述训练人脸图像的人脸姿态特征，并利用人脸图像处理模型的解码重构模块，对训练人脸图像的人脸身份特征和训练人脸图像的人脸姿态特征进行解码重构，得到与训练人脸图像对应的重构图像，使得重构图像精度更高，因此，基于训练人脸图像，和，与训练人脸图像对应的重构图像，确定重构损失，最后基于重构损失训练得到人脸图像处理模型，使得训练得到的人脸图像处理模型的性能有所改善。

但是，上述两个实施例中仅以重构损失作为损失函数，训练人脸图像处理模型，使得训练得到的人脸图像处理模型的性能仍然有所欠缺。

为解决上述问题，本申请实施例公开了另一种人脸图像处理模型及其训练方式，具体如下：

请参阅附图4，图4为本申请实施例公开的另一种人脸图像处理模型的结构示意图，如图4所示，该人脸图像处理模型包括姿态自编码模块、身份自编码模块和解码重构模块。

作为另一种可实施方式，所述输入的训练人脸图像的样本标签包括人脸姿态标签，姿态包括三种：{偏左，偏右，正面}，则在本申请中，对图4所示的人脸图像处理模型的训练过程可以包括以下步骤：

步骤S401：利用所述人脸图像处理模型的姿态自编码模块，对输入的训练人脸图像进行编码，得到所述训练人脸图像的人脸姿态特征。

步骤S402：利用所述人脸图像处理模型的身份自编码模块，对输入的训练人脸图像进行编码，得到所述训练人脸图像的人脸身份特征。

步骤S403：利用所述人脸图像处理模型的解码重构模块，对所述训练人脸图像的人脸身份特征和所述训练人脸图像的人脸姿态特征进行解码重构，得到与所述训练人脸图像对应的重构图像。

步骤S404：基于所述训练人脸图像，和，与所述训练人脸图像对应的重构图像，确定重构损失。

需要说明的是，步骤S401至步骤S404的具体实现可以参见步骤S301至步骤S304，此处不再赘述。

步骤S405：基于所述训练人脸图像的人脸姿态标签，和，所述训练人脸图像的人脸姿态特征，确定姿态分类损失。

在本申请中可以基于交叉熵损失函数确定所述训练人脸图像的人脸姿态标签，和，所述训练人脸图像的人脸姿态特征的姿态分类损失。

为便于理解，假设训练人脸图像的人脸姿态标签为y_pos，训练人脸图像的人脸姿态特征为p，则所述训练人脸图像的人脸姿态标签，和，所述训练人脸图像的人脸姿态特征的姿态分类损失为L_pos-cls＝CELoss(f_pos-cls(p)，y_pos)，其中，CEloss为交叉熵损失函数，f_pos-cls(p)为训练人脸图像的人脸姿态特征为p的姿态分类结果。训练人脸图像的人脸姿态特征为p的姿态分类结果可以基于深度神经网络得到。

步骤S406：以所述重构损失和所述姿态分类损失作为损失函数，训练所述人脸图像处理模型。

作为一种可实施方式，人脸图像处理模型的损失函数可以为L_F＝L_rec+L_pos-cls，其中，L_rec为重构损失，L_pos-cls为姿态分类损失。

作为另一种可实施方式，人脸图像处理模型的损失函数也可以为

L_F＝αL_rec+(1-α)L_pos-cls

其中，α为重构损失的权重，1-α为姿态分类损失的权重。

在本实施例中，以重构损失和姿态分类损失作为损失函数，训练得到的人脸图像处理模型，相对于仅以重构损失作为损失函数，训练得到的人脸图像处理模型，在性能上有所提升。

请参阅附图5，图5为本申请实施例公开的另一种人脸图像处理模型的结构示意图，如图5所示，该人脸图像处理模型包括姿态自编码模块、身份自编码模块和解码重构模块。

作为另一种可实施方式，所述输入的训练人脸图像的样本标签包括人脸姿态标签，和，人脸身份标签；姿态包括三种：{偏左，偏右，正面}，则在本申请中，对图5所示的人脸图像处理模型的训练过程可以包括以下步骤：

步骤S501：利用所述人脸图像处理模型的姿态自编码模块，对输入的训练人脸图像进行编码，得到所述训练人脸图像的人脸姿态特征。

步骤S502：利用所述人脸图像处理模型的身份自编码模块，对输入的训练人脸图像进行编码，得到所述训练人脸图像的人脸身份特征；

步骤S503：利用所述人脸图像处理模型的解码重构模块，对所述训练人脸图像的人脸身份特征和所述训练人脸图像的人脸姿态特征进行解码重构，得到与所述训练人脸图像对应的重构图像；

步骤S504：基于所述训练人脸图像，和，与所述训练人脸图像对应的重构图像，确定重构损失；

步骤S505：基于所述训练人脸图像的人脸姿态标签，和，所述训练人脸图像的人脸姿态特征，确定姿态分类损失；

需要说明的是，步骤S501至步骤S505的具体实现可以参见步骤S401至步骤S405，此处不再赘述。

步骤S506：基于所述训练人脸图像的人脸身份标签，和，所述训练人脸图像的人脸姿态特征，确定对抗分类损失；

在本申请中可以基于交叉熵损失函数确定所述训练人脸图像的人脸身份标签，和，所述训练人脸图像的人脸姿态特征的对抗分类损失。

为便于理解，假设训练人脸图像的人脸身份标签为y_id，训练人脸图像的人脸姿态特征为p，则所述训练人脸图像的人脸身份标签，和，所述训练人脸图像的人脸姿态特征的对抗分类损失为L_adv-cls＝-CELoss(f_adv-cls(p)，y_id)，其中，CEloss为交叉熵损失函数，f_adv-cls(p)为训练人脸图像的人脸姿态特征为p的对抗分类结果。训练人脸图像的人脸姿态特征为p的对抗分类结果可以基于深度神经网络得到。

步骤S507：以所述重构损失、所述姿态分类损失和所述对抗分类损失作为损失函数，训练所述人脸图像处理模型。

作为一种可实施方式，人脸图像处理模型的损失函数可以为L_F＝L_rec+L_pos-cls+L_adv-cls，其中，L_rec为重构损失，L_pos-cls为姿态分类损失，L_adv-cls为对抗分类损失。

作为另一种可实施方式，人脸图像处理模型的损失函数也可以为L_F＝β1L_rec+β2L_pos-cls+β3L_adv-cls

其中，β1为重构损失的权重，β2为姿态分类损失的权重，β3为对抗分类损失的权重。

在本实施例中，以重构损失、姿态分类损失和对抗分类损失作为损失函数，训练得到的人脸图像处理模型，相对于仅以重构损失作为损失函数，训练得到的人脸图像处理模型，以及，以重构损失和姿态分类损失作为损失函数，训练得到的人脸图像处理模型，在性能上均有所提升。

需要说明的是，在本申请中，还可以以所述重构损失和所述对抗分类损失作为损失函数，训练所述人脸图像处理模型。

作为一种可实施方式，人脸图像处理模型的损失函数可以为L_F＝L_rec+L_adv-cls，其中，L_rec为重构损失，L_adv-cls为对抗分类损失。

作为另一种可实施方式，人脸图像处理模型的损失函数也可以为L_F＝γL_rec+(1-γ)L_adv-cls

其中，γ为重构损失的权重，1-γ为对抗分类损失的权重。

在本实施例中，以重构损失和对抗分类损失作为损失函数，训练得到的人脸图像处理模型，相对于仅以重构损失作为损失函数，训练得到的人脸图像处理模型，在性能上也有所提升。

需要说明的是，基于图2至图5中任意一种人脸图像处理模型，在本申请中，所述利用人脸图像处理模型对所述说话人的人脸图像进行编码，生成所述说话人的人脸身份特征，可以包括：利用所述身份自编码模块，对所述说话人的人脸图像进行编码，生成所述说话人的人脸身份特征。

在本申请的另一个实施例中，对说话人识别模型的结构进行了介绍，请参阅附图6，图6为本申请实施例公开的一种说话人识别模型的结构示意图，如图6所示，该说话人识别模型可以包括声纹特征提取模块、特征融合模块和识别模块。

需要说明的是，说话人识别模型可以以训练说话人的语音信号和人脸身份特征为训练样本，以训练说话人的身份标签为样本标签，以交叉熵损失函数为目标函数训练得到。

基于图6所示的说话人识别模型，在本申请中，所述利用说话人识别模型对所述说话人的语音信号，和，所述说话人的人脸身份特征进行识别，生成所述说话人的识别结果的过程可以包括：

步骤S601：利用所述说话人识别模型的声纹特征提取模块，对所述说话人的语音信号进行特征提取，生成所述说话人的声纹特征。

在本申请中，所述说话人识别模型的声纹特征提取模块可以包括一个时延神经网络(TDNN，Time-Delay Neural Network)和一个池化层。该时延神经网络可以为多层(比如，5层)的时延神经网络。

在利用该声纹特征提取模块对说话人的语音信号进行特征提取时，具体可以利用该时延神经网络对说话人的语音信号的底层声学特征(如，短时傅里叶变换STFT特征)进行特征提取，得到时延神经网络输出的特征，池化层可以把时延神经网络输出的特征在时间维度计算一阶及二阶统计量，即均值和标准差，将均值和标准差拼接后作为说话人的声纹特征。

步骤S602：利用所述说话人识别模型的特征融合模块，将所述说话人的人脸身份特征和所述说话人的声纹特征进行融合，生成所述说话人的身份特征。

在本申请中，所述说话人识别模型的特征融合模块可以将所述说话人的人脸身份特征和所述说话人的声纹特征进行拼接，再通过全连接层，得出所述说话人的身份特征。

步骤S603：利用所述说话人识别模型的识别模块，基于所述说话人的身份特征，生成所述说话人的识别结果。

需要说明的是，说话人的识别结果可以为说话人的身份特征，也可以为基于说话人的身份特征在各种识别场景下确定的识别结果，比如，确定说话人是否为已确定说话人身份的目标说话人，确定说话人与另一说话人是否为同一说话人等，对此，本申请不进行任何限定。

下面对本申请实施例公开的说话人识别装置进行描述，下文描述的说话人识别装置与上文描述的说话人识别方法可相互对应参照。

参照图7，图7为本申请实施例公开的一种说话人识别装置结构示意图。如图7所示，该说话人识别装置可以包括：

获取单元11，用于获取说话人的人脸图像和所述说话人的语音信号；

人脸图像处理单元12，用于基于所述说话人的人脸图像，生成所述说话人的人脸身份特征；

说话人识别单元13，用于基于所述说话人的语音信号，和，所述说话人的人脸身份特征，生成所述说话人的识别结果。

可选地，所述人脸图像处理单元，用于：

可选地，所述人脸图像处理模型训练单元，还用于：

则所述人脸图像处理模型训练单元，还用于：

所述人脸图像处理模型训练单元，还用于：

可选地，所述人脸图像处理单元，具体用于：

可选地，所述说话人识别单元，用于：

可选地，所述说话人识别单元，具体用于：

参照图8，图8为本申请实施例提供的说话人识别设备的硬件结构框图，参照图8，说话人识别设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取说话人的人脸图像和所述说话人的语音信号；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

获取说话人的人脸图像和所述说话人的语音信号；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种说话人识别方法，其特征在于，包括：

获取说话人的人脸图像和所述说话人的语音信号；

基于所述说话人的人脸图像，利用人脸图像处理模型生成所述说话人的人脸身份特征；

利用说话人识别模型，基于所述说话人的语音信号，和，所述说话人的人脸身份特征，生成所述说话人的识别结果；

其中，所述说话人识别模型以训练说话人的语音信号和人脸身份特征为训练样本，以训练说话人的身份标签为样本标签，经预先训练得到；

其中，输入的训练人脸图像的样本标签包括人脸姿态标签和人脸身份标签；

则所述人脸图像处理模型的训练过程，包括：

利用人脸图像处理模型的身份自编码模块，对输入的训练人脸图像进行编码，得到所述训练人脸图像的人脸身份特征；

基于训练人脸图像的人脸姿态标签，和，训练人脸图像的人脸姿态特征，确定姿态分类损失；

基于训练人脸图像的人脸身份标签，和，训练人脸图像的人脸姿态特征，确定对抗分类损失；

以所述重构损失、所述姿态分类损失和所述对抗分类损失作为损失函数，训练所述人脸图像处理模型。

2.根据权利要求1所述的方法，其特征在于，所述基于所述说话人的人脸图像，生成所述说话人的人脸身份特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述人脸图像处理模型的训练过程，还包括：

4.根据权利要求3所述的方法，其特征在于，所述利用人脸图像处理模型对所述说话人的人脸图像进行编码，生成所述说话人的人脸身份特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述利用说话人识别模型对所述说话人的语音信号，和，所述说话人的人脸身份特征进行识别，生成所述说话人的识别结果，包括：

6.一种说话人识别装置，其特征在于，包括：

人脸图像处理单元，用于基于所述说话人的人脸图像，利用人脸图像处理模型生成所述说话人的人脸身份特征；

说话人识别单元，用于利用说话人识别模型，基于所述说话人的语音信号，和，所述说话人的人脸身份特征，生成所述说话人的识别结果，其中，所述说话人识别模型以训练说话人的语音信号和人脸身份特征为训练样本，以训练说话人的身份标签为样本标签，经预先训练得到；

则所述人脸图像处理模型的训练过程，包括：

7.一种说话人识别设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1至5中任一项所述的说话人识别方法的各个步骤。

8.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至5中任一项所述的说话人识别方法的各个步骤。