CN113345466B

CN113345466B - 基于多麦克风场景的主说话人语音检测方法、装置及设备

Info

Publication number: CN113345466B
Application number: CN202110609713.8A
Authority: CN
Inventors: 罗剑; 王健宗; 程宁
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2024-03-01
Anticipated expiration: 2041-06-01
Also published as: CN113345466A

Abstract

本申请提供了一种基于多麦克风场景的主说话人语音检测方法、装置、计算机设备及计算机可读存储介质，属于人工智能技术领域，通过基于语音场景设置的多个预设麦克风对应的多个预设语音通道，获取多个预设语音通道传输的语音数据，基于语音数据，获取语音数据包含的主说话人的声纹特征，对语音数据及声纹特征进行多语音通道融合编码，以提取语音数据及声纹特征所包含的主说话人的语音隐藏向量序列数据，将语音隐藏向量序列数据进行解码，得到主说话人的主说话人语音数据，通过自动主说话人分析，以及利用语音场景中的多麦克风硬件资源，能够实现对语音场景中主说话人语音的自动检测，且能够提高语音场景中主说话人语音检测的准确性。

Description

基于多麦克风场景的主说话人语音检测方法、装置及设备

技术领域

本申请涉及人工智能技术领域，尤其涉及语音处理技术领域，具体涉及一种基于多麦克风场景的主说话人语音检测方法、装置、计算机设备及计算机可读存储介质。

背景技术

在包含干扰音的语音识别中，例如，车载语音助手、自动生成公开课字幕及自动会议纪要等语音识别场景中，通常主说话人语音过滤***需要首先注册主要说话人的声纹特征，然后根据主说话人的声纹特征进行语音识别，否则将无法识别出主要说话人的声音。其中，注册主要说话人的声纹特征，一般通过录取该说话人数分钟的数据来生成x-vector向量(即该说话人的声纹特征)。发明人意识到，传统技术中通过预先注册主说话人声纹特征方式进行语音识别，将造成语音识别应用上的不便，降低对主说话人语音进行识别的效率与语音识别的灵活性。

发明内容

本申请提供了一种基于多麦克风场景的主说话人语音检测方法、装置、计算机设备及计算机可读存储介质，能够解决传统技术中对主说话人语音识别效率较低的技术问题。

第一方面，本申请提供了一种基于多麦克风场景的主说话人语音检测方法，所述方法包括：基于语音场景设置的多个预设麦克风对应的多个预设语音通道，获取所述预设语音通道传输的语音数据；基于所述语音数据，获取所述语音数据包含的主说话人的声纹特征；对所述语音数据及所述声纹特征进行多语音通道融合编码，以提取所述语音数据及所述声纹特征所包含的所述主说话人的语音隐藏向量序列数据；将所述语音隐藏向量序列数据进行解码，得到所述主说话人的主说话人语音数据。

第二方面，本申请还提供了一种基于多麦克风场景的主说话人语音检测装置，所述装置包括：第一获取单元，用于基于语音场景设置的多个预设麦克风对应的多个预设语音通道，获取所述预设语音通道传输的语音数据；第二获取单元，用于基于所述语音数据，获取所述语音数据包含的主说话人的声纹特征；编码单元，用于对所述语音数据及所述声纹特征进行多语音通道融合编码，以提取所述语音数据及所述声纹特征所包含的所述主说话人的语音隐藏向量序列数据；解码单元，用于将所述语音隐藏向量序列数据进行解码，得到所述主说话人的主说话人语音数据。

第三方面，本申请还提供了一种计算机设备，其包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现所述基于多麦克风场景的主说话人语音检测方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器执行所述基于多麦克风场景的主说话人语音检测方法的步骤。

本申请提供了一种基于多麦克风场景的主说话人语音检测方法、装置、计算机设备及计算机可读存储介质。本申请通过基于语音场景设置的多个预设麦克风对应的多个预设语音通道，获取多个所述预设语音通道传输的语音数据，基于所述语音数据，获取所述语音数据包含的主说话人的声纹特征，并对所述语音数据及所述声纹特征进行多语音通道融合编码，以提取所述语音数据及所述声纹特征所包含的所述主说话人的语音隐藏向量序列数据，将所述语音隐藏向量序列数据进行解码，得到所述主说话人的主说话人语音数据，相比传统技术中基于预先注册识别主说话人的声音，本申请实施例通过自动主说话人分析，以及充分利用语音场景中的多麦克风硬件资源，无需将主说话人的语音进行注册，就能够实现对语音场景中主说话人语音的自动检测，且能够提高语音场景中主说话人语音检测的准确性，提高了对主说话人语音进行识别的效率与语音识别的灵活性，从而提升语音检测广泛使用的便利性，同时提高了对语音场景中多麦克风硬件资源的使用效率。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的基于多麦克风场景的主说话人语音检测方法的一个流程示意图；

图2为本申请实施例提供的基于多麦克风场景的主说话人语音检测方法的主说话人语音自动过滤***结构示意图；

图3为本申请实施例提供的基于多麦克风场景的主说话人语音检测方法的第一个子流程示意图；

图4为本申请实施例提供的基于多麦克风场景的主说话人语音检测方法的第二个子流程示意图；

图5为本申请实施例提供的基于多麦克风场景的主说话人语音检测方法的第三个子流程示意图；

图6为本申请实施例提供的基于多麦克风场景的主说话人语音检测方法的第四个子流程示意图；

图7为本申请实施例提供的基于多麦克风场景的主说话人语音检测方法的第五个子流程示意图；

图8为本申请实施例提供的基于多麦克风场景的主说话人语音检测方法的主要说话人分析与声纹提取模块结构示意图；

图9为本申请实施例提供的基于多麦克风场景的主说话人语音检测方法的第六个子流程示意图；

图10为本申请实施例提供的基于多麦克风场景的主说话人语音检测方法的多语音通道融合的编码器模块结构示意图；

图11为本申请实施例提供的基于多麦克风场景的主说话人语音检测方法的解码器模块结构示意图；

图12为本申请实施例提供的基于多麦克风场景的主说话人语音检测装置的一个示意性框图；以及

图13为本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

请参阅图1，图1为本申请实施例提供的基于多麦克风场景的主说话人语音检测方法的一个流程示意图。如图1所示，该方法包括以下步骤S11-S13：

S11、基于语音场景设置的多个预设麦克风对应的多个预设语音通道，获取所述预设语音通道传输的语音数据。

具体地，在一语音场景中设置多个麦克风，当所述语音场景中产生语音时，通过每个预设麦克风对应的预设语音通道采集语音场景中产生的语音对应的语音数据。例如，在车载环境、公开课环境或者会议场景等语音场景中，在车载环境中设置多个麦克风，在公开课环境中设置多个麦克风，或者在会议场景中设置多个麦克风，每个预设麦克风对应一个预设语音通道，多个预设麦克风对应多个预设语音通道，通过同一预设语音场景中的多个麦克风同时采集所述语音场景中产生的语音。例如，当一语音场景中产生语音A时，通过该语音场景中设置的多个麦克风同时采集产生的语音A，例如可以设置n个麦克风，n≥1，且n为整数，获取所述语音A对应的语音数据A＇，由于每个麦克风均会采集语音A，因此，针对n个麦克风，第i个麦克风采集语音A对应的语音数据为Ai，其中，i＝1…n，获取的所述语音数据A＇＝{A1，A2，A3…An}，其中，虽然多个麦克风的数据源均为所述语音A，但由于每个麦克风采集的角度等采集因素的差异，多个语音数据A1，A2，A3…An不会完全相同，请参阅图2，图2为本申请实施例提供的基于多麦克风场景的主说话人语音检测方法的主说话人语音自动过滤***结构示意图，如图2所示，在图2所示的应用场景示例中，包含麦克风0、麦克风1、麦克风2及麦克风3，共4个麦克风，通过麦克风0、麦克风1、麦克风2及麦克风3同时采集该应用场景中产生的语音。

S12、基于所述语音数据，获取所述语音数据包含的主说话人的声纹特征。

具体地，获取多个所述预设语音通道传输的语音数据后，由于在所述语音场景中，除主说话人的语音外，可能存在其他干扰语音，例如其他人的语音，因此，需要对所述语音数据进行分析，从而从所述语音数据中提取出主说话人的声纹特征，后续根据所述主说话人的声纹特征从所述语音数据中分析出主说话人的语音。

进一步地，请参阅图3，图3为本申请实施例提供的基于多麦克风场景的主说话人语音检测方法的第一个子流程示意图，如图3所示，在该示例中，所述基于所述语音数据，获取所述语音数据包含的主说话人的声纹特征的步骤包括：

S121、将所述语音数据按照所述语音数据对应的时间顺序进行切片处理，得到多个语音切片数据；

S122、将所述语音切片数据输入至基于残差网络的预设声纹检测模型，以提取所述语音切片数据包含的切片声纹特征；

S123、将所有所述切片声纹特征进行聚类，得到目标声纹特征，并将所述目标声纹特征作为所述语音数据包含的主说话人的声纹特征。

其中，声纹，英文为Voiceprint，是携带言语信息的声波频谱，声纹识别，也称为说话人识别，可以使用语音的声纹特征进行说话人辨认与说话人确认。

具体地，语音数据中包含有主说话人的语音及其他干扰音，主说话人的声音与其他声音在声纹方面会存在明显不同，且语音数据是按照语音的发音先后顺序组成的具有时间顺序的数据，主说话人的声纹特征包含在所有的语音数据中，可以从所述语音数据中提取出主说话人的声纹特征。

可以先将所述语音数据按照所述语音数据对应的时间顺序进行切片处理，得到多个语音切片数据，然后基于预设声纹检测模型，所述预设声纹检测模型可以为基于深度学习的预设声纹检测模型，所述基于深度学习的预设声纹检测模型又可以为基于残差网络的预设声纹检测模型，对所述语音切片数据进行声纹检测，以从所述语音切片数据中提取出每个所述语音切片数据包含的切片声纹特征，然后将所有所述切片声纹特征进行聚类，从而提取出所有所述语音切片数据中的主要声纹特征，将所述主要声纹特征作为目标声纹特征，并将所述目标声纹特征作为所述语音数据包含的主说话人的声纹特征，从而根据所述语音切片数据，获取所述语音数据包含的主说话人的声纹特征。其中，将所述语音切片数据通过基于深度学习的预设声纹检测模型进行声纹目标检测，以提取所述语音切片数据包含的切片声纹特征，除采用基于残差网络的预设声纹检测模型外，还可以采用其它深度学习目标检测模型，例如，基于RNN改进的Gated recurrent unit(GRU)神经网络等。其中，残差网络，英文为ResNet，为一种分类CNN模型，本申请实施例，针在残差网络，优选WideResnet，更进一步地，可以采取Wide ResNet-34，能够更有效地提取出声纹特征，需要说明的是，所述基于残差网络的预设声纹检测模型的参数将被单独训练，并且所述基于残差网络的预设声纹检测模型的参数训练完成后，在本申请实施例模型的训练过程中不会更新。

进一步地，请参阅图4，图4为本申请实施例提供的基于多麦克风场景的主说话人语音检测方法的第二个子流程示意图，如图4所示，在该示例中，所述将所述语音切片数据输入至基于残差网络的预设声纹检测模型，以提取所述语音切片数据包含的切片声纹特征的步骤包括：

S1221、判断所述语音切片数据是否表征静音场景；

S1222、若所述语音切片数据不表征静音场景，将所述语音切片数据作为目标语音切片数据；

S1223、将所有所述目标语音切片数据输入至基于残差网络的预设声纹检测模型，以提取所述语音切片数据包含的切片声纹特征；

S1224、若所述语音切片数据表征静音场景，将所述语音切片数据丢弃。

其中，静音检测，又可以称为静音抑制、语音活动检测、语音端点检测或者语音边界检测，英文为Voice Activity Detection，简称为VAD，用于检测是否是人的语音，可以基于HMM(英文为Hidden Markov Model，隐马尔科夫模型)、MLP(英文为MultilayerPerceptron，多层感知器)或者DNN(英文为Deep Neural Networks，深度神经网络)进行检测。

具体地，由于是语音切片数据，针对语音中的静音期，例如发音中的停顿等产生的静音，若静音被切分为语音切片数据，对静音提取声纹特征是没有意义的，为了提高获取所述语音数据包含的主说话人的声纹特征的效率，从而提高主说话人语音检测的效率，可以先判断所述语音切片数据是否表征静音场景，即判断所述语音切片数据对应的语音是否为静音场景，若所述语音切片数据表征静音场景，所述语音切片数据不包含声纹特征，无需进一步对所述语音切片数据进行声纹提取，若所述语音切片数据不表征静音场景，所述语音切片数据包含声纹特征，则进一步从所述语音切片数据中提取所述语音切片数据包含的切片声纹特征。因此，首先对所述语音切片数据进行静音检测，以判断所述语音切片数据是否表征静音场景，若所述语音切片数据表征静音场景，将所述语音切片数据丢弃，若所述语音切片数据不表征静音场景，将所述语音切片数据作为目标语音切片数据，然后将所有所述目标语音切片数据输入至基于残差网络的预设声纹检测模型，以提取所述语音切片数据包含的切片声纹特征。

更进一步地，请参阅图5，图5为本申请实施例提供的基于多麦克风场景的主说话人语音检测方法的第三个子流程示意图，如图5所示，在该示例中，所述将所述语音数据按照所述语音数据对应的时间顺序进行切片处理，得到多个语音切片数据的步骤包括：

S1211、获取所述语音数据对应的语音数据张量，所述语音数据张量包含述语音数据对应的时间轴；

S1212、将所述语音数据张量沿所述时间轴切分为重叠的切片，得到多个语音切片数据。

其中，神经网络使用的数据存储在多维Numpy数组中，也叫张量(英文为Tensor)，张量是一个数据容器，张量的维度(英文为Dimension)通常叫做轴(英文为Axis)，当时间(或序列顺序)对于数据很重要时，应该将数据存储在带有时间轴的张量中，由于语音的发音时间的先后顺序对于语音数据很重要，因此，本申请实施例将语音数据存储在带有时间轴的数据张量中。

具体地，获取所述语音数据对应的语音数据张量后，根据所述语音数据张量包含的时间轴，对所述语音数据张量进行切分，除了将所述语音数据张量按照语音的时间顺序进行连续切分外，例如，将语音数据按照每2秒切分为语音切片数据外，还可以将将所述语音数据张量沿所述时间轴切分为重叠的切片，例如将所述语音数据张量沿所述时间轴切分为长度为两秒、重叠一秒的语音片段，例如将第1秒与第2秒切分为一个语音片段，将第2秒与第3秒切分为一个语音片段，将第3秒与第4秒切分为一个语音片段等，从而得到存在重叠的多个语音切片数据，由于前后每两个语音切片数据之间存在重叠，能够使所述语音切片数据提取的参数平稳过渡，从而使后续提取的每个所述语音切片数据包含的切片声纹特征能够更大程度的准确描述主说话人的声纹特征，能够更准确的体现主说话人的声纹特征，通过提高提取声纹特征的准确性，实现对主说话人语音检测的准确性。

更进一步地，请参阅图6，图6为本申请实施例提供的基于多麦克风场景的主说话人语音检测方法的第四个子流程示意图，如图6所示，在该示例中，所述将所有所述切片声纹特征进行聚类，得到目标声纹特征的步骤包括：

S1231、基于预设凝聚式层次分类，将所有所述切片声纹特征进行合并，得到声纹特征二叉树；

S1232、根据所述声纹特征二叉树，确定目标声纹特征。

其中，凝聚式层次聚类，英文为Hierarchical Agglomerative Clustering，为从个体点作为簇开始，相继合并两个最接近的簇，直到只剩下一个簇，最后形成一个二叉树，即每一个对象都看作是一个类别，然后再不断地把相似的两个合并在一起，直到所有的对象都成为同一个类别为止。

具体地，由于凝聚式层次分类是将距离最短(即最接近)的两个聚类对象进行合并，在将所有所述切片声纹特征传入预设凝聚式层次分类中后，所述预设凝聚式层次分类将不断地合并距离最短的两个所述切片声纹特征组成的样本对，其中，所述样本对为聚类过程中每次进行聚类的一对所述切片声纹特征，直到完全合并，因而最后将生成一棵二叉树，即声纹特征二叉树，所述声纹特征二叉树包含多个聚类(所述也可以称为簇)，可以根据所述声纹特征二叉树，确定目标声纹特征，例如，可以根据所述声纹特征二叉树，将所述声纹特征二叉树中最后的聚类结果对应的声纹特征作为目标声纹特征，也可以选择所述声纹特征二叉树中包含的子聚类中节点成员最多的子聚类的聚类结果对应的声纹特征作为目标声纹特征等。

进一步地，请参阅图7，图7为本申请实施例提供的基于多麦克风场景的主说话人语音检测方法的第五个子流程示意图，如图7所示，在该示例中，所述根据所述声纹特征二叉树，确定目标声纹特征的步骤包括：

S12321、根据所述声纹特征二叉树，确定所述声纹特征二叉树所包含的聚类中所有样本对各自的邻近度均小于或者等于预设邻近度阈值的所有初始聚类，其中，所述样本对为聚类过程中每次进行聚类的一对所述切片声纹特征；

S12322、筛选出所有所述初始聚类中节点成员最多的聚类作为目标聚类；

S12323、获取所述目标聚类的中心点对应的切片声纹特征，并将所述中心点对应的切片声纹特征作为目标声纹特征。

具体地，根据所述声纹特征二叉树，确定目标声纹特征，可以采用启发式算法，即根据所述声纹特征二叉树，计算所述声纹特征二叉树所包含的每个聚类中所有样本对各自的邻近度，所述邻近度可以用欧氏距离、曼哈顿距离、马氏距离、余弦相似度、Jaccard系数或者Bregman散度等描述，从而根据所述邻近度，确定所述声纹特征二叉树所包含的聚类中所有样本对各自的邻近度均小于或者等于预设邻近度阈值的所有初始聚类，并筛选出所有所述初始聚类中节点成员最多的聚类作为目标聚类，然后再获取所述目标聚类的中心点对应的切片声纹特征，并将所述中心点对应的切片声纹特征作为目标声纹特征，从而实现将所有所述切片声纹特征进行聚类，得到目标声纹特征。其中，获取所述目标聚类的中心点可以通过围绕中心点的划分(即PAM)，PAM可以使用任意的距离来计算，PAM算法如下：(1)随机选择K个观测值(每个都称为中心点)；(2)计算观测值到各个中心的距离/相异性；(3)把每个观测值分配到最近的中心点；(4)计算每个中心点到每个观测值的距离的总和(总成本)；(5)选择一个该类中不是中心的点，并和中心点互换；(6)重新把每个点分配到距它最近的中心点；(7)再次计算总成本；(8)如果总成本比步骤(4)计算的总成本少，把新的点作为中心点；(9)重复步骤(5)～(8)直到中心点不再改变。

进一步地，请参阅图8，图8为本申请实施例提供的基于多麦克风场景的主说话人语音检测方法的主要说话人分析与声纹提取模块结构示意图，如图8所示，在该示例中，可以对语音数据对应的输入信号张量使用窗函数进行分窗处理，其中，窗函数就是时域有限宽的信号，并使用Wide ResNet对每帧信号提取其说话人特征向量x-vector，最终聚类获得最主要说话人的特征向量，其中，T代表输入数据在时域上的总长度，C为输入数据的语音通道数，N代表输入数据的MFCC特征维度数，其中，MFCCs，英文为Mel Frequency CepstralCoefficents，是一种在自动语音和说话人识别中使用的特征。例如，在将输入的语音信号进行分窗处理时，可以将输入的语音数据划分为长度为两秒、重叠一秒的语音片段，得到语音切片数据，并将所有所述语音切片数据输入Wide ResNet-34中，尤其Wide ResNet-34可以更有效地提取出声纹特征，且Wide ResNet-34网络的参数将被单独预训练，并且在本申请实施例的训练过程中不会更新参数，从每个语音片段中提取的x-vector将被传入凝聚式层次分类中，该凝聚式层次分类将不断地合并距离最短的样本对，直到完全合并，因而最后将生成一棵二叉树。进一步地，可以使用启发式算法，也就是在所有距离小于某个阈值λ的聚类中选择成员最多的类的中心点作为最终估计的x-vector。即：

其中是所有x-vector形成的集合，node_i为二叉树中的第i个节点，count_subtree是统计某聚类节点的子节点个数的函数，height是计算某聚类的两个子聚类的欧氏距离的函数，λ为预设的两个子聚类的欧氏距离的预设距离阈值，k为节点成员最多的类的节点，/>用于描述最终估计的x-vector。

S13、对所述语音数据及所述声纹特征进行多语音通道融合编码，以提取所述语音数据及所述声纹特征所包含的所述主说话人的语音隐藏向量序列数据。

其中，所述语音隐藏向量序列数据，又可以称为隐藏向量序列或者隐向量序列，用于描述隐藏在所述语音数据中的主说话人的语音的向量特征。

具体地，由于所述语音数据来源于多个预设麦克风，即所述语音数据为多语音通道数据，且根据所述语音数据，获取了所述语音数据包含的主说话人的声纹特征，可以再根据所述语音数据及所述声纹特征，对所述语音数据及所述声纹特征进行多语音通道融合编码，从而提取所述语音数据及所述声纹特征所包含的所述主说话人的语音隐藏向量序列数据，所述语音隐藏向量序列数据用于描述原本隐藏在所述语音数据中的所述主说话人的语音的特征，从而实现得到融合多语音通道语音对应的主说话人的语音对应的语音数据，并且由于在早期就引入了主说话人的声纹特征，从而借助主说话人的声纹特征，从多个语音通道中学习主说话人的声纹特征对应的主说话人的语音，从而使提取的所述主说话人的语音隐藏向量序列数据对应的主说话人语音的准确性更高，使检测出的主说话人的语音更准确。

进一步地，图9为本申请实施例提供的基于多麦克风场景的主说话人语音检测方法的第六个子流程示意图，如图9所示，在该示例中，所述对所述语音数据及所述声纹特征进行多语音通道融合编码，以提取所述语音数据及所述声纹特征所包含的所述主说话人的语音隐藏向量序列数据的步骤包括：

S131、基于预设语音通道间自注意力模块，根据所述声纹特征，获取所述语音数据对应的多个语音通道之间所包含的隐藏语音通道声纹特征；

S132、基于预设时域自注意力模块，根据所述声纹特征，获取所述语音数据对应的每个所述语音通道在时间轴上所包含的隐藏时间轴声纹特征；

S133、将所述隐藏语音通道声纹特征与所述隐藏时间轴声纹特征组合成序列，得到所述语音数据及所述声纹特征所包含的所述主说话人的语音隐藏向量序列数据。

具体地，在语音数据的横向角度上，基于预设语音通道间自注意力模块，根据所述声纹特征，获取所述语音数据对应的多个语音通道之间所包含的隐藏语音通道声纹特征，在语音数据的纵向角度上，基于预设时域自注意力模块，根据所述声纹特征，获取所述语音数据对应的每个所述语音通道在时间轴上所包含的隐藏时间轴声纹特征，将所述隐藏语音通道声纹特征与所述隐藏时间轴声纹特征组合成序列，得到所述语音数据及所述声纹特征所包含的所述主说话人的语音隐藏向量序列数据。

请参阅图10，图10为本申请实施例提供的基于多麦克风场景的主说话人语音检测方法的多语音通道融合的编码器模块结构示意图，该示例中的多语音通道融合编码器将融合多语音通道输入的语音数据，并在早期就引入x-vector，即将x-vector作为模型中全连接层的输入参数，可以使编码器学习并利用x-vector的信息，根据x-vector，从多个语音通道中学习x-vector对应的主说话人的语音，其中最主要的模块为时域-频域自注意力模块，它将重复堆叠n次，该模块主要分为两个部分，分别是语音通道间自注意力模块与时域自注意力模块。

在语音通道间自注意力模块中，C为语音通道个数，N为特征维度数，T为输入张量时长的帧数，为t时刻的各语音通道所录得的特征，/>为各语音通道在所有时刻所录得的特征集合。因而语音通道间自注意力模块可以表示为：

其中是拼接向量操作，MultiHeadAttn是多头自注意力机制，FCN是全连接网络，通过在全连接网络前拼接x-vector，模型将能够在早期特征提取的阶段就融合目标x-vector。

在时域自注意力模块中，要求模型学习时间轴上的信息。由于时间轴的长度可能超出自注意力机制一次可以处理的数据的维度数，因而本申请实施例可以采用Transformer-XL的长距离依赖的模型结构。它在基本的Transformer结构上增加了时间轴上的跨分段之间的自注意力机制，实现了超长距离依赖的传递。它的主要原理可表示为：

其中τ代表当前正在处理的分段的编号，n代表当前所处的时域-频域自注意力模块的层数。stop_grad是终止梯度传递的函数，这表明将不会再更新先前的隐状态。Dattn代表自注意力机制一次可以处理的数据的维度数。W_Q、W_K及W_V是可以学习的参数，描述通过自注意力学习后的隐藏向量。

上面的公式是单个语音通道的单个头中的计算情况。将各语音通道的隐藏向量拼凑起来，就有如下公式(5)：

由于Xt，描述自注意力模块第n层在第t个时刻第c-1个语音通道的隐藏向量，因此时域-频域自注意力模块的每一层的输入大小都是一致的。因此，上述语音通道间自注意力模块的结构对每一层都通用。

对于最终第n层的隐藏向量本申请实施例使用全连接网络来融合各语音通道间的特征：

最终得到的隐藏向量序列，如公式(7)所示，后续，所述隐藏向量序列将被传入解码器，R描述输入的语音数据集合，n、N及N′描述模型的第N′层，C描述语音通道数，T描述第T个时刻。

S14、将所述语音隐藏向量序列数据进行解码，得到所述主说话人的主说话人语音数据。

具体地，获取到所述语音隐藏向量序列数据后，将所述语音隐藏向量序列数据进行解码，得到所述主说话人的主说话人语音数据，由于所述主说话人语音数据是基于筛选的主说话人的声纹特征，及融合了所述语音数据对应的语音通道的横向与纵向的特征，因此，所述主说话人语音数据可以被认为是所述主说话人的语音对应的语音数据，从而实现过滤其他噪声，提取主说话人的干净语音并输出，以便后续对主说话人的语音进行处理，例如对所述主说话人语音数据进行语音识别等。请参阅图11，图11为本申请实施例提供的基于多麦克风场景的主说话人语音检测方法的解码器模块结构示意图，解码器总体结构如图11所示，在该示例中，解码器使用双向LSTM网络来根据隐藏向量序列，生成过滤了其他说话人声音与噪声的干净声音，最终生成的主说话人语音将使用回归损失函数Huber Loss来计算与训练样本对应的样本事实语音x_t(即样本真实值)的区别，Huber Loss所采用的计算公式包括：

实际使用时，直接将识别出的主说话人的语音对应的传入下游任务即可进一步对主说话人语音进行识别，提高对主说话人语音识别的准确性。

本申请实施例，通过基于语音场景设置的多个预设麦克风对应的多个预设语音通道，获取多个所述预设语音通道传输的语音数据，基于所述语音数据，获取所述语音数据包含的主说话人的声纹特征，获取所述语音数据及所述声纹特征，并对所述语音数据及所述声纹特征进行多语音通道融合编码，以提取所述语音数据及所述声纹特征所包含的所述主说话人的语音隐藏向量序列数据，将所述语音隐藏向量序列数据进行解码，得到所述主说话人的主说话人语音数据，相比传统技术中基于预先注册识别主说话人的声音，本申请实施例通过自动主说话人分析，以及充分利用语音场景中的多麦克风硬件资源，无需将主说话人的语音进行注册，就能够实现对语音场景中主说话人语音的自动检测，且能够提高语音场景中主说话人语音检测的准确性，提高了对主说话人语音进行识别的效率与语音识别的灵活性，从而提升语音检测广泛使用的便利性，同时提高了对语音场景中多麦克风硬件资源的使用效率。

需要说明的是，上述各个实施例所述的基于多麦克风场景的主说话人语音检测方法，可以根据需要将不同实施例中包含的技术特征重新进行组合，以获取组合后的实施方案，但都在本申请要求的保护范围之内。

请参阅图12，图12为本申请实施例提供的基于多麦克风场景的主说话人语音检测装置的示意性框图。对应于上述所述基于多麦克风场景的主说话人语音检测方法，本申请实施例还提供一种基于多麦克风场景的主说话人语音检测装置。如图12所示，该基于多麦克风场景的主说话人语音检测装置12包括用于执行上述所述基于多麦克风场景的主说话人语音检测方法的单元，该基于多麦克风场景的主说话人语音检测装置12可以被配置于计算机设备中。具体地，请参阅图12，该基于多麦克风场景的主说话人语音检测装置12，所述基于多麦克风场景的主说话人语音检测装置12包括第一获取单元121、第二获取单元122、编码单元123及解码单元124。

其中，第一获取单121，用于基于语音场景设置的多个预设麦克风对应的多个预设语音通道，获取所述预设语音通道传输的语音数据；第二获取单元122，用于基于所述语音数据，获取所述语音数据包含的主说话人的声纹特征；编码单元123，用于对所述语音数据及所述声纹特征进行多语音通道融合编码，以提取所述语音数据及所述声纹特征所包含的所述主说话人的语音隐藏向量序列数据；解码单元124，用于将所述语音隐藏向量序列数据进行解码，得到所述主说话人的主说话人语音数据。

在一实施例中，所述第二获取单元122包括：

第一切片子单元，用于将所述语音数据按照所述语音数据对应的时间顺序进行切片处理，得到多个语音切片数据；

第一提取子单元，用于将所述语音切片数据输入至基于残差网络的预设声纹检测模型，以提取所述语音切片数据包含的切片声纹特征；

聚类子单元，用于将所有所述切片声纹特征进行聚类，得到目标声纹特征，并将所述目标声纹特征作为所述语音数据包含的主说话人的声纹特征。

在一实施例中，所述提取子单元包括：

判断子单元，用于判断所述语音切片数据是否表征静音场景；

第一筛选子单元，用于若所述语音切片数据不表征静音场景，将所述语音切片数据作为目标语音切片数据；

第二提取子单元，用于将所有所述目标语音切片数据输入至基于残差网络的预设声纹检测模型，以提取所述语音切片数据包含的切片声纹特征。

在一实施例中，所述第一切片子单元包括：

第一获取子单元，用于获取所述语音数据对应的语音数据张量，所述语音数据张量包含述语音数据对应的时间轴；

第二切片子单元，用于将所述语音数据张量沿所述时间轴切分为重叠的切片，得到多个语音切片数据。

在一实施例中，所述聚类子单元包括：

合并子单元，用于基于预设凝聚式层次分类，将所有所述切片声纹特征进行合并，得到声纹特征二叉树；

第一确定子单元，用于根据所述声纹特征二叉树，确定目标声纹特征。

在一实施例中，所述第一确定子单元包括：

第二确定子单元，用于根据所述声纹特征二叉树，确定所述声纹特征二叉树所包含的聚类中所有样本对各自的邻近度均小于或者等于预设邻近度阈值的所有初始聚类，其中，所述样本对为聚类过程中每次进行聚类的一对所述切片声纹特征；

第二筛选子单元，用于筛选出所有所述初始聚类中节点成员最多的聚类作为目标聚类；

第二获取子单元，用于获取所述目标聚类的中心点对应的切片声纹特征，并将所述中心点对应的切片声纹特征作为目标声纹特征。

在一实施例中，所述编码单元123包括：

第三获取子单元，用于基于预设语音通道间自注意力模块，根据所述声纹特征，获取所述语音数据对应的多个语音通道之间所包含的隐藏语音通道声纹特征；

第四获取子单元，用于基于预设时域自注意力模块，根据所述声纹特征，获取所述语音数据对应的每个所述语音通道在时间轴上所包含的隐藏时间轴声纹特征；

组合子单元，用于将所述隐藏语音通道声纹特征与所述隐藏时间轴声纹特征组合成序列，得到所述语音数据及所述声纹特征所包含的所述主说话人的语音隐藏向量序列数据。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述基于多麦克风场景的主说话人语音检测装置和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

同时，上述基于多麦克风场景的主说话人语音检测装置中各个单元的划分和连接方式仅用于举例说明，在其它实施例中，可将基于多麦克风场景的主说话人语音检测装置按照需要划分为不同的单元，也可将基于多麦克风场景的主说话人语音检测装置中各单元采取不同的连接顺序和方式，以完成上述基于多麦克风场景的主说话人语音检测装置的全部或部分功能。

上述基于多麦克风场景的主说话人语音检测装置可以实现为一种计算机程序的形式，该计算机程序可以在如图13所示的计算机设备上运行。

请参阅图13，图13是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是台式机电脑或者服务器等计算机设备，也可以是其它设备中的组件或者部件。

参阅图13，该计算机设备500包括通过***总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504，所述存储器也可以为易失性存储介质。

该非易失性存储介质503可存储操作***5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行一种上述基于多麦克风场景的主说话人语音检测方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种上述基于多麦克风场景的主说话人语音检测方法。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图13所示实施例一致，在此不再赘述。

其中，基于多麦克风场景的主说话人语音检测方法，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下步骤：基于语音场景设置的多个预设麦克风对应的多个预设语音通道，获取所述预设语音通道传输的语音数据；基于所述语音数据，获取所述语音数据包含的主说话人的声纹特征；对所述语音数据及所述声纹特征进行多语音通道融合编码，以提取所述语音数据及所述声纹特征所包含的所述主说话人的语音隐藏向量序列数据；将所述语音隐藏向量序列数据进行解码，得到所述主说话人的主说话人语音数据。

在一实施例中，所述处理器502在实现所述基于所述语音数据，获取所述语音数据包含的主说话人的声纹特征的步骤时，具体实现以下步骤：

将所述语音数据按照所述语音数据对应的时间顺序进行切片处理，得到多个语音切片数据；将所述语音切片数据输入至基于残差网络的预设声纹检测模型，以提取所述语音切片数据包含的切片声纹特征；将所有所述切片声纹特征进行聚类，得到目标声纹特征，并将所述目标声纹特征作为所述语音数据包含的主说话人的声纹特征。

在一实施例中，所述处理器502在实现所述将所述语音切片数据输入至基于残差网络的预设声纹检测模型，以提取所述语音切片数据包含的切片声纹特征的步骤时，具体实现以下步骤：

判断所述语音切片数据是否表征静音场景；若所述语音切片数据不表征静音场景，将所述语音切片数据作为目标语音切片数据；将所有所述目标语音切片数据输入至基于残差网络的预设声纹检测模型，以提取所述语音切片数据包含的切片声纹特征。

在一实施例中，所述处理器502在实现所述将所述语音数据按照所述语音数据对应的时间顺序进行切片处理，得到多个语音切片数据的步骤时，具体实现以下步骤：

获取所述语音数据对应的语音数据张量，所述语音数据张量包含述语音数据对应的时间轴；将所述语音数据张量沿所述时间轴切分为重叠的切片，得到多个语音切片数据。

在一实施例中，所述处理器502在实现所述将所有所述切片声纹特征进行聚类，得到目标声纹特征的步骤时，具体实现以下步骤：

基于预设凝聚式层次分类，将所有所述切片声纹特征进行合并，得到声纹特征二叉树；根据所述声纹特征二叉树，确定目标声纹特征。

在一实施例中，所述处理器502在实现所述根据所述声纹特征二叉树，确定目标声纹特征的步骤时，具体实现以下步骤：

根据所述声纹特征二叉树，确定所述声纹特征二叉树所包含的聚类中所有样本对各自的邻近度均小于或者等于预设邻近度阈值的所有初始聚类，其中，所述样本对为聚类过程中每次进行聚类的一对所述切片声纹特征；筛选出所有所述初始聚类中节点成员最多的聚类作为目标聚类；获取所述目标聚类的中心点对应的切片声纹特征，并将所述中心点对应的切片声纹特征作为目标声纹特征。

在一实施例中，所述处理器502在实现所述对所述语音数据及所述声纹特征进行多语音通道融合编码，以提取所述语音数据及所述声纹特征所包含的所述主说话人的语音隐藏向量序列数据的步骤时，具体实现以下步骤：

基于预设语音通道间自注意力模块，根据所述声纹特征，获取所述语音数据对应的多个语音通道之间所包含的隐藏语音通道声纹特征；基于预设时域自注意力模块，根据所述声纹特征，获取所述语音数据对应的每个所述语音通道在时间轴上所包含的隐藏时间轴声纹特征；将所述隐藏语音通道声纹特征与所述隐藏时间轴声纹特征组合成序列，得到所述语音数据及所述声纹特征所包含的所述主说话人的语音隐藏向量序列数据。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来完成，该计算机程序可存储于一计算机可读存储介质。该计算机程序被该计算机***中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本申请还提供一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质，也可以为易失性的计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时使处理器执行以上各实施例中所描述的所述基于多麦克风场景的主说话人语音检测方法的步骤。

所述计算机可读存储介质可以是前述设备的内部存储单元，例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备，例如所述设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述存储介质为实体的、非瞬时性的存储介质，例如可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储计算机程序的实体存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，终端，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

以上所述，仅为本申请的具体实施方式，但本申请明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于多麦克风场景的主说话人语音检测方法，所述方法包括：

基于语音场景设置的多个预设麦克风对应的多个预设语音通道，获取所述预设语音通道传输的语音数据；

基于所述语音数据，获取所述语音数据包含的主说话人的声纹特征；

对所述语音数据及所述声纹特征进行多语音通道融合编码，以提取所述语音数据及所述声纹特征所包含的所述主说话人的语音隐藏向量序列数据；

将所述语音隐藏向量序列数据进行解码，得到所述主说话人的主说话人语音数据；

所述基于所述语音数据，获取所述语音数据包含的主说话人的声纹特征的步骤包括：

将所述语音数据按照所述语音数据对应的时间顺序进行切片处理，得到多个语音切片数据；

将所述语音切片数据输入至基于残差网络的预设声纹检测模型，以提取所述语音切片数据包含的切片声纹特征；

将所有所述切片声纹特征进行聚类，得到目标声纹特征，并将所述目标声纹特征作为所述语音数据包含的主说话人的声纹特征；

所述将所有所述切片声纹特征进行聚类，得到目标声纹特征的步骤包括：

基于预设凝聚式层次分类，将所有所述切片声纹特征进行合并，得到声纹特征二叉树；

根据所述声纹特征二叉树，确定目标声纹特征；

所述根据所述声纹特征二叉树，确定目标声纹特征的步骤包括：

根据所述声纹特征二叉树，确定所述声纹特征二叉树所包含的聚类中所有样本对各自的邻近度均小于或者等于预设邻近度阈值的所有初始聚类，其中，所述样本对为聚类过程中每次进行聚类的一对所述切片声纹特征；

筛选出所有所述初始聚类中节点成员最多的聚类作为目标聚类；

获取所述目标聚类的中心点对应的切片声纹特征，并将所述中心点对应的切片声纹特征作为目标声纹特征。

2.根据权利要求1所述基于多麦克风场景的主说话人语音检测方法，其特征在于，所述将所述语音切片数据输入至基于残差网络的预设声纹检测模型，以提取所述语音切片数据包含的切片声纹特征的步骤包括：

判断所述语音切片数据是否表征静音场景；

若所述语音切片数据不表征静音场景，将所述语音切片数据作为目标语音切片数据；

将所有所述目标语音切片数据输入至基于残差网络的预设声纹检测模型，以提取所述语音切片数据包含的切片声纹特征。

3.根据权利要求1所述基于多麦克风场景的主说话人语音检测方法，其特征在于，所述将所述语音数据按照所述语音数据对应的时间顺序进行切片处理，得到多个语音切片数据的步骤包括：

获取所述语音数据对应的语音数据张量，所述语音数据张量包含述语音数据对应的时间轴；

将所述语音数据张量沿所述时间轴切分为重叠的切片，得到多个语音切片数据。

4.根据权利要求1所述基于多麦克风场景的主说话人语音检测方法，其特征在于，所述对所述语音数据及所述声纹特征进行多语音通道融合编码，以提取所述语音数据及所述声纹特征所包含的所述主说话人的语音隐藏向量序列数据的步骤包括：

基于预设语音通道间自注意力模块，根据所述声纹特征，获取所述语音数据对应的多个语音通道之间所包含的隐藏语音通道声纹特征；

基于预设时域自注意力模块，根据所述声纹特征，获取所述语音数据对应的每个所述语音通道在时间轴上所包含的隐藏时间轴声纹特征；

将所述隐藏语音通道声纹特征与所述隐藏时间轴声纹特征组合成序列，得到所述语音数据及所述声纹特征所包含的所述主说话人的语音隐藏向量序列数据。

5.一种基于多麦克风场景的主说话人语音检测装置，其特征在于，所述装置包括：

第一获取单元，用于基于语音场景设置的多个预设麦克风对应的多个预设语音通道，获取所述预设语音通道传输的语音数据；

第二获取单元，用于基于所述语音数据，获取所述语音数据包含的主说话人的声纹特征；

编码单元，用于对所述语音数据及所述声纹特征进行多语音通道融合编码，以提取所述语音数据及所述声纹特征所包含的所述主说话人的语音隐藏向量序列数据；

解码单元，用于将所述语音隐藏向量序列数据进行解码，得到所述主说话人的主说话人语音数据；

所述第二获取单元包括：

聚类子单元，用于将所有所述切片声纹特征进行聚类，得到目标声纹特征，并将所述目标声纹特征作为所述语音数据包含的主说话人的声纹特征；

所述聚类子单元包括：

第一确定子单元，用于根据所述声纹特征二叉树，确定目标声纹特征；

所述第一确定子单元包括：

6.一种计算机设备，其特征在于，所述计算机设备包括存储器以及与所述存储器相连的处理器；所述存储器用于存储计算机程序；所述处理器用于运行所述计算机程序，以执行如权利要求1-4任一项所述方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现如权利要求1-4中任一项所述方法的步骤。