CN108520756A

CN108520756A - 一种说话人语音分离的方法及装置

Info

Publication number: CN108520756A
Application number: CN201810231676.XA
Authority: CN
Inventors: 孙学京; 刘恩; 张晨; 张兴涛
Original assignee: Beijing Tuoling Inc
Current assignee: Beijing Tuoling Inc
Priority date: 2018-03-20
Filing date: 2018-03-20
Publication date: 2018-09-11
Anticipated expiration: 2038-03-20
Also published as: CN108520756B

Abstract

本发明公开了一种说话人语音分离的方法及装置，方法包括：获取预设格式的音频信号；针对所述音频信号进行预处理，得到处理后的第一音频信号；针对所述第一音频信号进行音频分离处理，得到不同方位说话人的第二音频信号；针对所述第二音频信号进行增强处理，得到增强后的不同方位说话人的第三音频信号；输出所述第三音频信号。采用本发明的技术方案，实现了快速、准确地分离不用方位的多个说话人的音频信号。

Description

一种说话人语音分离的方法及装置

技术领域

本发明涉及语音识别技术领域，具体涉及一种说话人语音分离的方法及装置。

背景技术

随着科学技术的发展，各个领域对于音频质量的追求越来越高，各类音频文档的获取途径越来越丰富，数据量呈***式增长，从而对音频文档的管理也越来越困难。近年来，人们开始研究音频检索技术，对电话语音、广播语音以及会议语音等多媒体语音文档进行管理。其中，对会议语音的检索难度最大，因为会议语音文档中包含有多个信道、更多的说话人。

现有的音频分离方法主要分为单通道(麦克)技术和多通道(麦克)技术。单麦克技术主要包括基于模型的音频分离方法和基于距离尺度的分离方法；多麦克技术主要包括波束形成分离方法和盲源分离方法。

其中，基于模型的音频分离方法包含训练和识别两个步骤：训练过程中对输入音频进行特征提取后进一步进行训练并存储训练后的模型；识别过程中对输入音频进行特征提取后进行说话人分离以及说话人聚类后，进一步和存储的模型进行匹配计算，判定各个说话人，最终得到分离后的音频信号。基于距离尺度的分离方法则通过计算每一点的左右相邻的一定窗长的两段信号的距离，进一步和设定的门限值进行比较，得到音频信号的跳变点，从而得到分离后的音频信号。波束形成分离方法通过对输入音频实时进行声源定位，并进一步根据说话人方位进行增强处理，得到各个说话人的音频信号。盲源分离方法通过对输入音频进行盲源分离处理，从而得到各个说话人的音频信号。

但是，基于模型的分离方法，要求对话当中每个说话人连续说话的时间较长，而且算法复杂度过高；基于距离尺度的分离方法，存在检测数过多的冗余分割点等问题。而波束形成分离方法、盲源分离方法等方法，主要是针对线性麦克风阵列和平面麦克风阵列等进行处理，且在复杂环境中处理的效果存在一定的不足。

因此，在复杂环境下，比较快速、准确地分离不用方位的多个说话人的音频信号，是当前亟待解决的技术问题。

发明内容

本发明的目的在于提供一种说话人语音分离的方法及装置，实现了快速、准确地分离不用方位的多个说话人的音频信号。

为实现上述目的，本发明提供一种说话人语音分离的方法，包括：

获取预设格式的音频信号；

针对所述音频信号进行预处理，得到处理后的第一音频信号；

针对所述第一音频信号进行音频分离处理，得到不同方位说话人的第二音频信号；

针对所述第二音频信号进行增强处理，得到增强后的不同方位说话人的第三音频信号；

输出所述第三音频信号。

进一步地，上述所述的方法中，针对所述音频信号进行预处理，得到处理后的第一音频信号，包括：

获取麦阵的放置方式参数和周围环境参数；

根据所述麦阵的放置方式参数，对所述音频信号进行转换处理，得到位于同一平面的转换音频信号；

对所述转换音频信号进行时频变换，得到所述转换音频信号对应的频域信号；

根据所述周围环境参数，对所述频域信号进行音频增强处理，得到增强后的频域信号；

针对增强后的频域信号进行时频逆变换，得到时域信号，作为所述第一音频信号。

进一步地，上述所述的方法中，对所述第一音频信号进行音频分离处理，得到不同方位说话人的第二音频信号，包括：

根据所述第一音频信号，获取所述第一音频信号对应的声源定位结果和说话人识别结果；

根据所述声源定位结果和所述说话人识别结果，对所述第一音频信号进行音频分离处理，得到所述第二音频信号。

进一步地，上述所述的方法中，根据所述第一音频信号，获取所述第一音频信号对应的声源定位结果和说话人识别结果，包括：

对所述第一音频信号进行语音检测处理，得到检测结果；

根据所述检测结果，对所述第一音频信号进行声源定位处理，得到所述声源定位结果；

根据预设的识别模型，对所述第一音频信号进行说话人识别处理，得到所述说话人识别结果。

进一步地，上述所述的方法中，根据所述声源定位结果和所述说话人识别结果，对所述第一音频信号进行音频分离处理，得到所述第二音频信号，包括：

根据所述声源定位结果和所述说话人识别结果，利用波束形成方法，对所述第一音频信号进行音频分离处理，得到所述第二音频信号。

选取与所述声源定位结果相对应的音频分离方法；

根据所述说话人识别结果，利用所述音频分离方法，对所述第一音频信号进行音频分离处理，得到所述第二音频信号。

进一步地，上述所述的方法中，对所述第二音频信号进行增强处理，得到增强后的第三音频信号，包括：

基于所述说话人识别结果，对所述第二音频信号进行平滑处理以及音频转换点位置的修正处理，得到所述第三音频信号。

本发明还提供一种说话人语音分离的装置，包括：

获取模块，用于获取预设格式的音频信号；

预处理模块，用于针对所述音频信号进行预处理，得到处理后的第一音频信号；

音频分离模块，用于对所述第一音频信号进行音频分离处理，得到不同方位说话人的第二音频信号；

增强处理模块，用于对所述第二音频信号进行增强处理，得到增强后的第三音频信号；

输出模块，用于输出所述第三音频信号。

本发明的说话人语音分离的方法及装置，通过对预设格式的音频信号进行预处理，得到处理后的第一音频信号，对第一音频信号进行音频分离处理，得到不同方位说话人的第二音频信号，对第二音频信号进行增强处理，得到增强后的不同方位说话人的第三音频信号，输出第三音频信号，实现了快速、准确地分离不用方位的多个说话人的音频信号。

附图说明

图1为本发明的说话人语音分离的方法实施例的流程图；

图2为本发明采集四路音频信号的麦阵放置方式示意图；

图3为本发明的说话人语音分离的装置实施例的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本实施例技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本实施例一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本实施例保护的范围。

说明书和权利要求书及上述附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的部分，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够用以除了在这里图示的以外的顺序实施。

以下实施例用于说明本发明，但不用来限制本发明的范围。

实施例1

图1为本发明的说话人语音分离的方法实施例的流程图，如图1所示，本实施例的说话人语音分离的方法具体可以包括如下步骤：

100、获取预设格式的音频信号。

在本实施方式中的预设格式的音频信号可以是Ambisonic A格式的音频信号。其中，Ambisonic A格式的音频信号为四路音频信号(左前路(Left-Front-Up，LFU)、右前路(Right-Front-Down，RFD)、左后路(Left-Back-Down，LBD)、右后路(Right-Back-Up，RBU))。图2为本发明采集四路音频信号的麦阵放置方式示意图。

101、针对获取的音频信号进行预处理，得到处理后的第一音频信号。

在一个具体实现过程中，在获取预设格式的音频信号时，可以获取麦阵的放置方式参数和周围环境参数，以便根据麦阵的放置方式参数，对获取的预设格式的音频信号进行转换处理，得到位于同一平面的转换音频信号，并对转换音频信号进行时频变换，得到转换音频信号对应的频域信号，以及，根据周围环境参数，对频域信号进行音频增强处理，得到增强后的频域信号，进一步对频域信号进行时频逆变换，得到时域信号，作为第一音频信号。

例如，当获取到麦阵的放置方式后，可以基于麦阵的放置方式对音频信号按照公式(1)进行旋转处理，使得到的音频信号位于同一平面。

其中，A为转换矩阵：

其中，θ_h为首向角，θ_p为俯仰角，θ_b为倾斜角，f(θ_h,θ_p,θ_b)为与θ_h、θ_p以及θ_b相关的函数。

在得到转换信号后，可以采用离散傅氏变换(Discrete FourierTransformation)、快速傅氏变换(Fast Fourier Transformation，FFT)等方法对转换信号逐路进行时频变换处理。以DFT为例，可以按照公式(2)对转换信号进行时频变换处理：

其中，n为时域索引值，k为频域索引值，L为音频处理帧长，L_f为时频变换的长度，j为虚部单位，M为声道数目，x(n)为音频时域样点值，X(k)为音频频域系数。

在得到频域信号后，可以根据4路音频信号估计噪声能量谱，通过混响时间(RT₆₀)参数以及直达和反射比(Direct-to-Reverberant Energy Ratio，DRR)参数估计混响能量谱，进一步基于估计的噪声能量谱和混响能量谱逐路进行音频增强处理，从而对得到的频域信号进行去噪、去混响等处理，使得到的频域信号得到增强。

本实施例中，可以根据麦阵的放置方式参数和周围环境参数，对接收的多声道音频信号进行预处理，降低了环境对后续音频分离处理的影响。

102、对第一音频信号进行音频分离处理，得到不同方位说话人的第二音频信号。

本实施例中，在得到第一音频信号后，可以根据该第一音频信号，获取该第一音频信号对应的声源定位结果和说话人识别结果，并根据声源定位结果和说话人识别结果，对第一音频信号进行音频分离处理，从而得到不同方位说话人的第二音频信号。

在一个具体实现过程中，可以对第一音频信号进行语音检测处理，得到相应的检测结果，以便根据该检测结果，对第一音频信号进行声源定位处理，得到声源定位结果，以及根据预设的识别模型，对第一音频信号进行说话人识别处理，得到说话人识别结果。

例如，可以采用多重信号分类(Multiple Signal Classification，MUSIC)算法、广义互相关(Generalized Cross Correlation，GCC)等方法实现声源定位，以GCC为例具体可以按照以下方式实现：

a)按照公式(3)分别计算各路音频的互相关：

其中，K₁为起始频点，K₂为截止频点。

b)按照公式(4)基于语音检测结果进行平滑处理：

G_sm(i,j)＝G_sm(i,j)*f_sm+(1-f_sm)*G(i,j) (4)

其中，f_sm为平滑因子：

Vad为语音检测处理结果。

c)对平滑后的互相关函数进一步处理，得到声源定位结果。

本实施例中，可以基于模型的方式进行说话人识别，得到说话人识别结果，如高斯混合模型(Gaussian Mixed Model，GMM)，隐马尔科夫模型(Hidden Markov Model，HMM)，深度神经网络(Deep Neural Networks，DNN)等。

在得到声源定位结果和说话人识别结果后，可以采用波束形成方式，对第一路音频信号进行音频分离处理，得到不同方位说话人的第二音频信号。

也可以选取与声源定位结果相对应的音频分离方法，并根据说话人识别结果，利用音频分离方法，对第一音频信号进行音频分离处理，得到不同方位说话人的第二音频信号。

例如，可以利用公式(5)进行音频分离处理，得到不同方位说话人的第二音频信号。

其中，V_doa为在声源方向的加权因子：

τ为时延，S为声源数目，V_spe为单声源时的加权因子。

当S＞1时，可以采用波束形成方法得到声源方向的音频信号。当S≤1时，V_doa＝V_spe，比如设定为(1，0，0，0)时表明采用第1路音频作为分离后的音频信号。

102、对不同方位说话人的第二音频信号进行增强处理，得到增强后的不同方位说话人的第三音频信号。

例如，可以基于说话人识别结果，对不同方位说话人的第二音频信号进行平滑处理以及音频转换点位置的修正处理，得到不同方位说话人的第三音频信号，以保证音频的连贯性。

103、输出第三音频信号。

本实施例的说话人语音分离的方法的执行主体可以为说话人语音分离的装置，该说话人语音分离的装置具体可以通过软件来集成，例如该说话人语音分离的装置具体可以为一个应用，本发明对此不进行特别限定。

本实施例的说话人语音分离的方法，获取预设格式的音频信号，通过对音频信号进行预处理，得到处理后的第一音频信号，对第一音频信号进行音频分离处理，得到不同方位说话人的第二音频信号，对第二音频信号进行增强处理，得到增强后的不同方位说话人的第三音频信号，输出第三音频信号，实现了快速、准确地分离不用方位的多个说话人的音频信号。

实施例2

图3为本发明的说话人语音分离的装置实施例的结构示意图，如图3所示，本实施例的说话人语音分离的装置可以包括获取模块10、预处理模块11、音频分离模块12、增强处理模块13和输出模块14。

其中，获取模块10，用于获取预设格式的音频信号。

在本实施方式中的预设格式的音频信号可以是Ambisonic A格式的音频信号。其中，Ambisonic A格式的音频信号为四路音频信号(左前路(Left-Front-Up，LFU)、右前路(Right-Front-Down，RFD)、左后路(Left-Back-Down，LBD)、右后路(Right-Back-Up，RBU))。图2为本发明采集四路音频信号的麦阵放置方式示意图

预处理模块11，用于对接收音频信号进行预处理，得到处理后的第一音频信号。具体地，预处理模块11可以获取麦阵的放置方式参数和周围环境参数；根据麦阵的放置方式参数，对多声道音频信号进行转换处理，得到位于同一平面的转换音频信号；对转换信号进行时频变换，得到转换信号对应的频域信号；根据周围环境参数，对频域信号进行音频增强处理，得到增强后的频域信号；对增强后的音频信号进行时频逆变换，得到音频时域信号，作为第一音频信号。

音频分离模块12，用于对第一音频信号进行音频分离处理，得到不同方位说话人的第二音频信号。具体地，音频分离模块12可以根据第一音频信号，获取第一音频信号对应的声源定位结果和说话人识别结果，例如，对第一音频信号进行语音检测处理，得到检测结果；根据检测结果，对第一音频信号进行声源定位处理，得到声源定位结果；根据预设的识别模型，对第一音频信号进行说话人识别处理，得到说话人识别结果。

音频分离模块12还可以根据声源定位结果和说话人识别结果，对第一音频信号进行音频分离处理，得到不同方位说话人的第二音频信号。例如，可以根据声源定位结果和说话人识别结果，采用波束形成技术，对第一音频信号进行音频分离处理，得到不用方位说话人的第二音频信号。也可以为选取与声源定位结果相对应的音频分离方法；根据说话人识别结果，利用音频分离方法，对第一音频信号进行音频分离处理，得到不同方位说话人的第二音频信号。

增强处理模块13，用于对不同方位说话人的第二音频信号进行增强处理，得到增强后的不同方位说话人的第三音频信号。具体地，增强处理模块13可以基于说话人识别结果，对第二音频信号进行平滑处理以及音频转换点位置的修正处理，得到不同方位说话人的第三音频信号。

输出模块14，用于输出不同方位说话人的第三音频信号。

本实施例的说话人语音分离的装置，通过采用上述各模块分离音频信号的实现机制与上述图1所示实施例的实现机制相同，详细可以参考上述图1所示实施例的记载，在此不再赘述。

本实施例的说话人语音分离的装置，获取预设格式的音频信号，通过对音频信号进行预处理，得到处理后的第一音频信号，对第一音频信号进行音频分离处理，得到不同方位说话人的第二音频信号，对第二音频信号进行增强处理，得到增强后的不同方位说话人的第三音频信号，输出第三音频信号，实现了快速、准确地分离不用方位的多个说话人的音频信号。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种说话人语音分离的方法，其特征在于，包括：

获取预设格式的音频信号；

输出所述第三音频信号。

2.根据权利要求1所述的方法，其特征在于，针对所述音频信号进行预处理，得到处理后的第一音频信号，包括：

获取麦阵的放置方式参数和周围环境参数；

3.根据权利要求1或2所述的方法，其特征在于，对所述第一音频信号进行音频分离处理，得到不同方位说话人的第二音频信号，包括：

4.根据权利要求3所述的方法，其特征在于，根据所述第一音频信号，获取所述第一音频信号对应的声源定位结果和说话人识别结果，包括：

对所述第一音频信号进行语音检测处理，得到检测结果；

5.根据权利要求3所述的方法，其特征在于，根据所述声源定位结果和所述说话人识别结果，对所述第一音频信号进行音频分离处理，得到所述第二音频信号，包括：

6.根据权利要求3所述的方法，其特征在于，根据所述声源定位结果和所述说话人识别结果，对所述第一音频信号进行音频分离处理，得到所述第二音频信号，包括：

选取与所述声源定位结果相对应的音频分离方法；

7.根据权利要求3所述的方法，其特征在于，对所述第二音频信号进行增强处理，得到增强后的第三音频信号，包括：

8.一种说话人语音分离的装置，其特征在于，包括：

获取模块，用于获取预设格式的音频信号；

音频分离模块，用于针对所述第一音频信号进行音频分离处理，得到不同方位说话人的第二音频信号；

增强处理模块，用于针对所述第二音频信号进行增强处理，得到增强后的第三音频信号；

输出模块，用于输出所述第三音频信号。