CN108417201B

CN108417201B - 单信道多说话人身份识别方法及***

Info

Publication number: CN108417201B
Application number: CN201810053962.1A
Authority: CN
Inventors: 俞凯; 钱彦旻; 王帅
Original assignee: AI Speech Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2018-01-19
Filing date: 2018-01-19
Publication date: 2020-11-06
Anticipated expiration: 2038-01-19
Also published as: CN108417201A

Abstract

本发明公开一种单信道多说话人身份识别方法及***，所述单信道多说话人身份识别方法包括：获取待识别的关于单信道多说话人的语音数据的混合帧级特征；将混合帧级特征输入至卷积神经网络模型，以由卷积神经网络模型推导关于多说话人各自作为参考目标说话人的帧级别概率分布；根据帧级别概率分布，预测关于多说话人各自作为参考目标说话人的语句级别概率分布；以及基于语句级别概率分布，识别语音数据所对应的说话人身份。本发明实施例的单信道多说话人身份识别方法，以卷积神经网络模型作为学习机器，提高了说话人身份识别的高精确度，并不需要对每种可能的说话人组合都建模，对计算和存储资源的消耗较低，提高了身份识别***的性能。

Description

单信道多说话人身份识别方法及***

技术领域

本发明属于说话者识别技术领域，尤其涉及一种单信道多说话人身份识别方法及***。

背景技术

单信道说话者识别(co-channel speaker identification,单信道SID)旨在识别同时说话的多个说话者的身份，其经常被用于处理如“鸡尾酒会问题”等。尽管现有技术的说话者识别(Speaker identification,SID)***在单个讲话者场景中可以达到令人印象深刻的精确度，但是在处理高度重叠(即单信道多说话人)的语音数据仍然是说话者识别研究领域中非常具有挑战性的工作。

为了实现对同时说话的多个说话者的身份的识别，申请人也作出了一些尝试。近年来，有学者提出基于高斯混合模型的单信道多说话人身份识别，其一般是用不同的高斯混合模型(Gaussian mixture model,GMM)去建模不同的说话人组合的联合分布，然后根据选取概率最大的GMM代表的说话人组合作为判别结果。

但是，本申请的发明人在实践本申请的过程中发现上述相关技术至少存在如下缺陷：由于单信道多说话人的音频比较复杂，GMM很难进行充分的建模，以及每种可能的说话人组合都需要一个GMM进行建模，造成计算和存储上的复杂性，限制了身份识别***的性能。

需说明的是，关于上述相关技术的描述的目的，仅为了便于公众更方便地了解本申请的实践过程，且申请人并不承认上述相关技术的描述为现有技术。

发明内容

本发明实施例提供一种单信道多说话人身份识别方法及***，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种单信道多说话人身份识别方法，所述方法包括：获取待识别的关于单信道多说话人的语音数据的混合帧级特征；将所述混合帧级特征输入至卷积神经网络模型，以由所述卷积神经网络模型推导关于多说话人各自作为参考目标说话人的帧级别概率分布；根据所述帧级别概率分布，预测关于所述多说话人各自作为参考目标说话人的语句级别概率分布；以及基于所述语句级别概率分布，识别所述语音数据所对应的说话人身份。

第二方面，本发明实施例提供一种单信道多说话人身份识别***，所述***包括：混合帧获取程序模块，用于获取待识别的关于单信道多说话人的语音数据的混合帧级特征；卷积神经网络模型，用于根据所述混合帧级特征，推导关于多说话人各自作为参考目标说话人的帧级别概率分布；语句概率预测程序模块，用于根据所述帧级别概率分布，预测关于所述多说话人作为参考目标说话人的语句级别概率分布；语音数据识别程序模块，用于基于所述语句级别概率分布，识别所述语音数据所对应的说话人身份。

第三方面，本发明实施例提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本发明实施例的有益效果在于：其一，运用卷积神经网络模型对语音数据的混合帧级特征推导帧级别概率分布，以卷积神经网络模型作为学习机器，相比于高斯混合模型GMM及其他普通学习模型更能够学习结构化特征，保障了对高度重叠的语音数据中说话人身份识别的高精确度；其二，在本发明实施例中，由帧级别概率分布预测关于多说话人各自作为参考目标说话人的语句级别概率分布，最后基于该语句级别概率分布直接识别语音数据所对应的说话人身份，不需要对每种可能的说话人组合都建模，对计算和存储资源的消耗较低，提高了身份识别***的性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的单信道多说话人身份识别方法的一实施例的流程图；

图2示出了一个3×3滤波器的双空洞卷积神经网络的原理示例图；

图3为关于图1的单信道多说话人身份识别方法中所应用的卷积神经网络模型的训练方法的一实施例的流程图；

图4为本发明实施例中的卷积神经网络模型的工作原理示意图；

图5为本发明实施例的单信道多说话人身份识别方法的另一实施例的流程图；

图6A为关于第一讲话者的原始干净语音的示例性频谱图；

图6B为关于第二讲话者的原始干净语音的示例性频谱图；

图6C示出了混合图6A和图6B中两个讲话者语音的示例性频谱图；

图7为所生成的RSR-2混合数据集中基线KLD(Kullback-Leibler divergence,KL距离)的DNN(Deep Neural Networks,深度神经网络)和本发明实施例所提出的基于FKLD(Focal Kullback-Leibler divergence,焦点KL距离)的空洞CNN的收敛曲线比较的示例；

图8为本发明一实施例的单信道多说话人身份识别***的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“***”等等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地***、分布式***中另一元件交互的，和/或在因特网的网络通过信号与其它***交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

如图1所示，本发明的一实施例的单信道多说话人身份识别方法，包括：

S11、获取待识别的关于单信道多说话人的语音数据的混合帧级特征。

具体的，可以是提取待识别的关于单信道多说话人的语音数据的声学特征，关于该声学特征的提取方式，在此不作具体限定。

S12、将混合帧级特征输入至卷积神经网络模型，以由卷积神经网络模型推导关于多说话人各自作为参考目标说话人的帧级别概率分布。

需说明的是，在本发明实施例特此公开了可以将卷积神经网络模型应用在单信道多说话人身份的说话人身份识别中，并且由于卷积神经网络模型作为学习机器，相比于高斯混合模型及其他普通学习模型更能够学习结构化特征，保障了对高度重叠的语音数据中说话人身份识别的高精确度。

优选的，该卷积神经网络模型还可以是空洞卷积神经网络。空洞卷积神经网络是卷积网络中的一种形式，其能够通过跳过输入值，将滤波器应用于大于其长度的区域上，从而允许模型在比普通卷积神经网络模型更粗的比例下操作，并且支持接收域上的指数扩张。空洞卷积神经网络可以被看作是具有较大滤波器大小的正常卷积，其中一些条目在计算中被忽略。作为示例，如图2所示，其示出了一个3×3滤波器的双空洞卷积神经网络的工作原理的示例，其对输入的展开度为2。

S13、根据帧级别概率分布，预测关于多说话人各自作为参考目标说话人的语句级别概率分布。

具体的，可以是在评估阶段，对帧级别概率分布所对应的帧级分数在话语级别上汇总。例如，针对由T个帧o1、o2...oT组成的测试话语O，可以是分别预测各帧o1、o2...oT对应多个说话人各自的帧概率分布，并之后针对各个说话人对该帧概率分布进行汇总(也叫作帧分数聚合)，以得到各个说话人相对应的语句级别概率分布。

S14、基于语句级别概率分布，识别语音数据所对应的说话人身份。

具体的，可以是通过选择对应最大语句级别概率的说话者来识别并预测说话者的身份，而不需要对每种可能的说话人组合都建模，提高了单信道多说话人身份识别的性能。

如图3所示，本发明的一实施例的单信道多说话人身份识别方法中所应用的卷积神经网络模型的训练方法，包括：

S31、获取待训练的关于单信道多说话人的语音数据的混合帧级特征。

具体的，待训练的该混合帧级特征可以是给定人工生成的。

S32、根据待训练的混合帧级特征的帧级能量比，计算关于多个说话人各自作为参考目标说话人的真实帧级别概率分布。

作为示例，可以是将软训练标签用作参考目标，该软训练标签表示底层说话者生成当前帧的概率。具体的，目标说话者的概率总和等于1，而其他说话者的概率为零，以及软训练标签可以是使用给定人工生成的混合帧级特征的帧级能量比计算所得的。具体的计算细节还可以参照如下的参考文献中的记载：“Xiaojia Zhao,Yuxuan Wang,and DeLiangWang,‘Cochannel speaker identification in anechoic and reverberantconditions,’IEEE/ACM Transactions on Audio,Speech and Language Processing(TASLP),vol.23,no.11,pp.1727–1736,2015.”、“Xiaojia Zhao,Yuxuan Wang,andDeLiang Wang,“Deep neural networks for cochannel speaker identification,”inIEEE International Conference on Acoustics Speech and Signal Processing(ICASSP).IEEE,2015,pp.4824–4828”等。

S33、将待训练的混合帧级特征输入至卷积神经网络模型，以由卷积神经网络模型推导关于多个说话人各自作为参考目标说话人的预测帧级别概率分布。

示例性的，可以是将预测帧级别概率分布作为预测软标签。

S34、将真实帧级别概率分布与预测帧级别概率分布进行比对，并根据该比对的结果来训练卷积神经网络模型。

如图4所示，本发明实施例中的卷积神经网络模型的工作原理，包括针对卷积神经网络模型的训练阶段，以及利用卷积神经网络模型进行推导的阶段。一方面，在卷积神经网络模型的推导阶段，可以是通过将帧级别特征输入至卷积神经网络模型，由卷积神经网络模型推导出说话人预测软标签，并对说话人预测软标签执行帧分数聚合，得到语句级别概率分布，然后基于语句级别概率分布推导出语音数据所对应的说话人身份，具体还可以参照针对图1中实施例的描述。另一方面，在卷积神经网络模型的训练阶段，可以是计算帧级别特征所对应的帧级能量比，并基于帧级能量比来确定说话人参考软标签，进一步地将说话人预测软标签和说话人参考软标签进行比对，以确定二者之间的KL距离，并且该KL距离可以用来优化和训练卷积神经网络模型。由此，利用基于帧级能量比计算所得到的参考目标软标签来对卷积神经网络模型所推导的预测软标签进行比对，能够度量卷积神经网络模型所推导出的预测软标签的损失，并据此训练和优化卷积神经网络模型。

作为示例，可以是确定真实帧级别概率分布相对于预测帧级别概率分布的KL距离，其中所述KL距离通过以下公式来确定：

根据该KL距离确定相应的焦点KL距离，并根据焦点KL距离训练卷积神经网络模型，其中焦点KL距离通过以下公式来确定：

FKLD(θ；o，y)＝w·KLD(θ；o，y)

关于KL距离，其指示Kullback-Leibler差异，也被称作相对熵(RelativeEntropy)。它衡量的是相同事件空间里的两个概率分布的差异情况。其物理意义是：在相同事件空间里，概率分布P(x)对应的每个事件，若用概率分布Q(x)编码时，平均每个基本事件(符号)编码长度增加了多少比特。

其中，p_ref(y_i|o)表示所述真实帧级别概率分布，p_θ(y_i|o)表示预测帧级别概率分布，KLD(θ；o,y)表示所述KL距离，FKLD(θ；o,y)表示所述焦点KL(Kullback-Leibler)距离，w是距离加权因子，α和γ是两个超参数，其中P_θ(y_i|o)是用θ参数化的训练模型计算出的观测值o的后验值，Pref(y_i|o)是参考目标软标签，D是y的维数并代表说话者的数量，以及γ>0。

需说明的是，在以前的工作中，交叉熵被用作损失函数，而在本发明实施例中提出可以使用测量两个概率分布之间距离的KLD散度作为损失函数，以消除模糊性。并且，式(1)还可以被重写为：

KLD(θ；o,y)＝CE(θ；o,y)+const (2)

const＝^Xp_ref(y_i|o)logp_ref(y_i|o)

由于式(2)中的const在给定训练集的情况下是恒定的，所以相当于优化任一损失函数。

以及，式(1)中还提出了

设置γ>0可以降低良好分类样本(简单样本)的相对损失，并且可以将更多的精力集中在更难且误分类的样本上。在这项工作中，本发明实施例提出了焦点KLD(FKLD)，引入了距离加权因子，其可以视为是正常KLD的焦点版本，并且将其应用于多讲话者SID任务中。

在式(1)中，通过α和γ是两个超参数的配置，调整了距离加权因子w的大小，实现了控制损失的衰减程度。关于这两个参数的具体设置，其可以是通过训练过程来确定，例如可以根据针对卷积神经网络模型的训练条件所设置的，其中该训练条件包括训练时间等。

如图5所示，本发明的另一实施例的单信道多说话人身份识别方法，其可以被视为是图1所示实施例方法的进一步的优化，原因在于：在执行S13步骤时，最简单的方法就是执行帧分数聚合的最简单的方法是对帧级概率进行平均，虽然这种方法简单而有效，但它平等地对待语音数据中的所有帧，其极不利于人声纹最后的识别结果的高精确度。为此，在本发明实施例中提出，可以为不同的帧分配相应的帧权重，以提高声纹识别性能(也可被称作是后滤波)，具体的该方法包括：

S51、获取待识别的关于单信道多说话人的语音数据的混合帧级特征。

S52、将混合帧级特征输入至卷积神经网络模型，以由卷积神经网络模型推导关于多说话人各自作为参考目标说话人的帧级别概率分布。

S53、为混合帧级特征中各个帧的帧级概率分别分配对应的帧权重。

S54、基于分配帧权重之后的混合帧级特征中各个帧的帧级概率，预测语句级别概率分布。

S55、基于语句级别概率分布，识别语音数据所对应的说话人身份。

具体的，可以通过以下方式来预测语句级别概率分布，包括：

其中，J(s)表示语句级别概率分布，T表示混合帧级特征中帧的数量，w_t表示帧o_t来自说话者s的最大概率，s表示参考目标说话人，p(s|o_t)表示表示帧o_t来自说话者s的概率，β是可调整的超参数，(w_t)^β表示帧权重。

需说明的是，在混合帧级特征中，对于非重叠的语音片段，可以赋予更多的置信度，并对重叠的语音片段可以赋予更少的置信度；相应地，如式(3)所示，对于每个帧级概率向量，当它更可能由单个说话者生成时，其可以获得的更大的帧权重。

在本发明实施例中，提出了基于具有焦点KL散度损失函数的空洞卷积神经网络模型，来解决单信道多说话人声纹识别的问题。并且，在卷积神经网络模型的整个训练过程中，分类好的样本的相对损失会自动降低，因此对硬样本的重视程度会更高，以及使用焦点KL散度损失函数导致更稳定的训练和优化模型的测试性能。进一步的，本实施例中还采用分配不同权重的不同帧的后处理以进一步改进。所提出的帧可以容易地扩展到多数量(例如多于2个人)讲话人的身份识别的场景。能够显着提高多说话者识别率。

为了使本发明实施例的识别效果更具有说服力，发明人还对本发明一实施例的单信道多说话人身份识别的过程进行了实验，并获得了相应的实验数据。

Ⅰ、***描述

(1)数据准备和评估指标

在本文中，除了标准的SSC语料库之外，还使用了基于RSR2015的人工生成的多讲话者SID语料库，包括两个和三个讲话者混合的语音情景(分别称为RSR-2mix和RSR-3mix)。以两个讲话者语音为例，给出原始语料库中的干净话语，随机选择话语对，将较短的话语填充以匹配较长话语的长度。然后将所选话语与等能量比(即0dB SNR(signal to noiseratio,信噪比)混合。图6A和6B分别示出了单个讲话者原始干净语音的示例性频谱图，图6C示出了混合两个讲话者语音的示例性频谱图。由于混合语音中的重叠面积较大，同声道混合语音对于SID来说比单个讲话者语音要困难得多。三个讲话者混合的语音数据是按照类似的过程生成的，三个讲话者内的能量比相等。

在所有实验中使用40维Fbank作为特征，使用基于能量的VAD(voice activitydetection,语音活性检测)去除大块静音段，之后执行倒谱平均相减(CMScepstral meansubtraction,倒谱均值相减)。

预测精度被用作评估度量。只有当所有潜在的说话者被正确预测时，测试案例才是正确的。

(2)基线DNN***

以正常KLD(Kullback-Leibler divergence,KL距离,又可以被称为相对熵或KL散度)的DNN(Deep Neural Networks,深度神经网络)作为基线***。它包含4个隐藏层，每层包含512个节点。ReLU(Rectified linear unit,修正线性单元)用作激活功能，以初始化模型。SGD(stochastic gradient descent,随机梯度下降)被用作动量设置为0.9的优化方法。

(3)提出的空洞CNN***

为了使模型尺度可比，本实施例中使用的CNN(Convolutional Neural Network,卷积神经网络)包含3个卷积层和1个完全连接的层。不涉及任何合并层。选择不同的填充(两侧)以使特征映射大小不变。表1给出了详细的配置，输出层的大小对应于数据集的说话者数量(对于SSC为34，对于RSR数据集为50)。

表1空洞CNN的配置

Ⅱ、SSC语料库验证实验

语音分离挑战(Speech separation challenge,SSC)语料库包含来自34个说话者的17000个训练话语。每个训练话语都是按照固定模式生成的：命令、颜色、介词、字母、数字和副词。测试话语是由相同的34个说话者生成的混合单声道语音，但是使用来自训练集合的不同话语。虽然测试集包含从-9dB到6dB的6个TIR(target to interfere ratio,目标干扰比)，但是我们只在包含600个测试案例的实验中进行了0dB案例的测试。表2中的结果显示，本申请复现的基线***(使用DNN和KLD)在两个讲话者情况下达到了100.0％的准确率，与此前文献中发表的结果相当(甚至更好)。考虑到SSC的准确性已经接近完美，我们将转而使用另一个较难的语料库来更好地评估所提出的方法。

表2SSC数据集的准确度(％)比较

Ⅲ、多讲话者RSR 2015语料库实验

(1)多讲话者数据集设计

由于SSC任务过于简单，得不到有用的结论，因此我们对人工生成的多讲话者RSR语料库进行了更多的实验。原始RSR2015语料库不是设计用于同声道说话者识别任务，所以我们人为地基于所述RSR 2015部分1 50的说话者(25名男性和25名女性)是随机选择的所生成的多讲话者语料库。在两个讲话者实验中，可以有1225(50*49/2)个说话者对。对于每个说话者对，我们从每个说话者中随机选择一个话语并生成一个同声道话语。为每个说话者产生共20个同声道话语，产生24500个训练话语。我们按照相同的程序生成评估话语，每个说话者对4个同声道话语，产生了4900个测试案例。对于3个讲话者场景，有19600(50*49*48/6)说话者三重态。对于每个说话者三重态，我们产生3个同声道话语，导致58800个训练话语。按照相同的程序，随机产生10000个测试话语。应该注意的是，用于生成测试案例的所有话语都不包括在训练集中。

(2)空洞CNN与焦点KL-散度

基线KLD-DNN和本发明实施例所提出的基于FKLD的空洞CNN的收敛曲线如图7所示。据观察，所提出的基于FKLD的空洞CNN收敛速度快于基线。空洞CNN***首次训练时间后，验证集的准确率达到了68.5％，而DNN只有37.3％。

表3显示了基线DNN***和使用本发明实施例所提出的方法的***的识别结果。焦点是指用增强的焦点-KLD损失训练的深度模型，PF表示在评估阶段使用后滤波处理。如表3所示，在两个讲话者和三个讲话者的场景中，所提出的空洞的CNN结构优于基线DNN。通过将正常KL-散度损失替换为所提出的焦点KL-散度，可以在两种情况下一致地提高准确度。通过具有焦点KLD的空洞CNN结构，两个讲话者和三个讲话者条件下的准确率分别由87.16％和47.79％提高到91.31％和55.74％。进一步的，如上文所述，在帧级评分聚合阶段可以采用称为“后滤波”的帧加权函数，其又会导致另一个显着的改进，使得两个和三个讲话者的准确度分别能够进一步提高到92.47％和55.83％。

表3多讲话者RSR的准确度(％)比较

Ⅳ、超参数设置

在本发明实施例所提出的方法中有几个超参数，包括α，γ和β。建议将α设定在0.0与0.5之间，禁止衰减因子太小或太大，γ可以是一个固定值或一个变化的值，并优先地，在识别工作的过程中逐渐增加了γ，即在训练过程中对硬样本越来越重视。更具体地说，在2个讲话者实验中，α被设置为0.3并且γ被设置为(#epoch/10)，并且在3个讲话者实验中，α被设置为0.5并且γ被设置为(#epoch/10)，相应的，针对2个和3个讲话者条件，等式8中的β分别被设置为2.0和1.0。

因此，本发明实施例提出了基于空洞CNN的框架来解决具有挑战性的同声道多讲话者SID问题。在标准的SSC和人工生成的多讲话者RSR语料库上进行实验。与以前相关技术中所的使用DNN的工作相比，所提出的空洞CNN在同声道条件下的语音特征编码方面效果良好，并且表现出更好的性能。此外，本发明实施例针对模型优化提出了焦点Kullback-Leibler散度(FKLD)损失函数，由此可以减少良好分类(简单)样本的损失，更加关注误分类(硬)样本，与正常的KLD相比，这种新的损失函数可以得到显着的改善。最后，在语句级别概率分布推理阶段执行后滤波操作以进一步改进***性能。

如图8所示，本发明一实施例的单信道多说话人身份识别***800，包括：

混合帧获取程序模块810，用于获取待识别的关于单信道多说话人的语音数据的混合帧级特征；

卷积神经网络模型820，用于根据输入的所述混合帧级特征，推导关于多说话人各自作为参考目标说话人的帧级别概率分布；

语句概率预测程序模块830，用于根据所述帧级别概率分布，预测关于所述多说话人作为参考目标说话人的语句级别概率分布；

语音数据识别程序模块840，用于基于所述语句级别概率分布，识别所述语音数据所对应的说话人身份。

上述本发明实施例的***可用于执行本发明中相应的方法实施例，并相应的达到上述本发明方法实施例所达到的技术效果，这里不再赘述。

本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。

另一方面，本发明实施例提供一种存储介质，其上存储有计算机程序，该程序被处理器执行如上在服务器所执行的单信道多说话人身份识别方法的步骤。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的客户端以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种单信道多说话人身份识别方法，所述方法包括：

获取待识别的关于单信道多说话人的语音数据的混合帧级特征；

将所述混合帧级特征输入至卷积神经网络模型，以由所述卷积神经网络模型推导关于多说话人各自作为参考目标说话人的帧级别概率分布；

其中，卷积神经网络模型的训练方法，包括：获取待训练的关于单信道多说话人的语音数据的混合帧级特征；根据所述待训练的混合帧级特征的帧级能量比，计算关于所述多说话人各自作为参考目标说话人的真实帧级别概率分布；以及将所述待训练的混合帧级特征输入至卷积神经网络模型，以由所述卷积神经网络模型推导关于所述多说话人各自作为参考目标说话人的预测帧级别概率分布；

确定所述真实帧级别概率分布相对于所述预测帧级别概率分布的KL距离，其中所述KL距离通过以下公式来确定：

根据所述KL距离确定相应的焦点KL距离，并根据所述焦点KL距离训练所述卷积神经网络模型，其中所述焦点KL距离通过以下公式来确定：

其中，p_ref(y_i|o)表示所述真实帧级别概率分布，p_θ(y_i|o)表示预测帧级别概率分布，KLD(θ；o,y)表示所述KL距离，FKLD(θ；o,y)表示所述焦点KL距离，w是距离加权因子，α和γ是两个超参数，其中P_θ(y_i|o)是用θ参数化的训练模型计算出的观测值o的后验值，Pref(y_i|o)是参考目标软标签，D是y的维数并代表说话者的数量，以及γ>0；

根据所述帧级别概率分布，预测关于所述多说话人各自作为参考目标说话人的语句级别概率分布；以及

基于所述语句级别概率分布，识别所述语音数据所对应的说话人身份。

2.根据权利要求1所述的方法，其特征在于，所述超参数α和γ是根据针对所述卷积神经网络模型的训练条件所设置的，其中所述训练条件包括训练时间。

3.根据权利要求1所述的方法，其中，所述卷积神经网络模型为空洞卷积神经网络。

4.根据权利要求1所述的方法，其中，所述根据所述帧级别概率分布，预测关于所述多说话人作为参考目标说话人的语句级别概率分布包括：

为所述混合帧级特征中各个帧的帧级概率分别分配对应的帧权重；以及

基于分配所述帧权重之后的所述混合帧级特征中所述各个帧的帧级概率，预测所述语句级别概率分布。

5.根据权利要求4所述的方法，其中，通过以下方式来预测所述语句级别概率分布，包括：

其中，J(s)表示语句级别概率分布，T表示混合帧级特征中帧的数量，w_t表示帧o_t来自说话者s的最大概率，s表示参考目标说话人，p(s|o_t)表示表示帧o_t来自说话者s的概率，β是可调整的超参数，(w_t)^β表示所述帧权重。

6.一种卷积神经网络模型的训练方法，包括：

获取待训练的关于单信道多说话人的语音数据的混合帧级特征；

根据所述待训练的混合帧级特征的帧级能量比，计算关于所述多说话人各自作为参考目标说话人的真实帧级别概率分布；以及

将所述待训练的混合帧级特征输入至卷积神经网络模型，以由所述卷积神经网络模型推导关于所述多说话人各自作为参考目标说话人的预测帧级别概率分布；

其中，p_ref(y_i|o)表示所述真实帧级别概率分布，p_θ(y_i|o)表示预测帧级别概率分布，KLD(θ；o,y)表示所述KL距离，FKLD(θ；o,y)表示所述焦点KL距离，w是距离加权因子，α和γ是两个超参数，其中P_θ(y_i|o)是用θ参数化的训练模型计算出的观测值o的后验值，Pref(y_i|o)是参考目标软标签，D是y的维数并代表说话者的数量，以及γ>0。

7.一种单信道多说话人身份识别***，所述***包括：

混合帧获取程序模块，用于获取待识别的关于单信道多说话人的语音数据的混合帧级特征；

根据权利要求6所述的方法训练后的卷积神经网络模型，用于根据输入的所述混合帧级特征，推导关于多说话人各自作为参考目标说话人的帧级别概率分布；

语句概率预测程序模块，用于根据所述帧级别概率分布，预测关于所述多说话人作为参考目标说话人的语句级别概率分布；

语音数据识别程序模块，用于基于所述语句级别概率分布，识别所述语音数据所对应的说话人身份。

8.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述方法的步骤。

9.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。