CN114333852A

CN114333852A - 一种多说话人语音人声分离方法、终端设备及存储介质

Info

Publication number: CN114333852A
Application number: CN202210017047.3A
Authority: CN
Inventors: 陈剑超; 肖龙源; 李稀敏; 叶志坚
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2022-01-07
Filing date: 2022-01-07
Publication date: 2022-04-12

Abstract

本发明涉及一种多说话人语音人声分离方法、终端设备及存储介质，该方法中包括：S1：采集不同说话人的语音，提取不同说话人的语音叠加生成混合音频，将用于组成混合音频的单人音频作为模型训练的标签音频，将所有混合音频和其对应的标签音频共同组成训练集；S2：构建人声分离模型，用于将输入的混合音频分离为不同说话人对应的单人音频，通过训练集对人声分离模型进行训练，使得模型输出的分离后音频与用于组成输入的混合音频的单人音频的差值最小；S3：通过训练后的人声分离模型对包含多个说话人的音频进行分离。本发明可以实现分离重叠部分的多个说话人语音,并且模型只有一个,不需要单独训练声纹提取模型和语音聚类模型。

Description

一种多说话人语音人声分离方法、终端设备及存储介质

技术领域

本发明涉及语音识别领域，尤其涉及一种多说话人语音人声分离方法、终端设备及存储介质。

背景技术

随着语音识别技术的不断发展,越来越多的智能设备通过语音识别等语音相关的技术来实现人机交互的功能,例如智能音箱、智能手机等设备,通过这些智能设备,人们可以更方便的通过语音来进行设备的相关操作。

在会议的场景当中,通常会使用录音笔将所有说话人的语音录制下来,然后会议结束后将语音转为文字保存下来,但是由于同一条录音中包含了多个说话人的语音,所以在将语音转为文字的时候,无法区分每一句语音是哪个说话人说的,此时就需要通过人声分离的技术将同一段音频当中不同说话人的语音区分开来,然后再对不同说话人的语音单独进行识别。

传统的人声分离采用的是基于语音声纹信息的聚类方法，先将音频进行等长分段,然后提取各个音频片段的说话人声纹信息，最后再对所有的音频片段的说话人声纹信息进行分类，将同一个说话人的音频片段拼接在一起，实现各个说话人语音的分离。该方法是基于语音聚类的方式实现说话人语音的分离,该方法的问题在于无法将多个说话人语音重叠的部分进行分离,并且分离的准确率受到声纹信息提取***的影响,如果声纹信息提取***的准确率不高,会影响音频分类的效果。

发明内容

为了解决上述问题，本发明提出了一种多说话人语音人声分离方法、终端设备及存储介质。

具体方案如下：

一种多说话人语音人声分离方法，包括以下步骤：

S1：采集不同说话人的语音，提取不同说话人的语音叠加生成混合音频，将用于组成混合音频的单人音频作为模型训练的标签音频，将所有混合音频和其对应的标签音频共同组成训练集；

S2：构建人声分离模型，用于将输入的混合音频分离为不同说话人对应的单人音频，通过训练集对人声分离模型进行训练，使得模型输出的分离后音频与用于组成输入的混合音频的单人音频的差值最小；

S3：通过训练后的人声分离模型对包含多个说话人的音频进行分离。

进一步的，步骤S1中采集不同说话人的语音的具体方法为：通过录音笔采集M个说话人的语音，每个说话人的语音为每个人录制的L条固定长度的音频，录制的音频内容为说话人对固定文本内容的朗读语音。

进一步的，步骤S1中提取不同说话人的语音叠加生成混合音频的方法为：从所有说话人中随机选取N个说话人，针对N个说话人，从说话人对应的多条音频内随机选取一条音频，将得到的N条音频通过线性相加的方式叠加生成混合音频。

进一步的，步骤S1中还包括：将训练集中的混合音频转换为一维音频数据。

进一步的，人声分离模型的网络结构包括三个模块，分别为Encoder模块、Separation模块和Decoder模块，其中，Encoder模块用对输入的混合音频进行编码,将一维音频数据转换为二维矩阵结构；Separation模块用于对二维矩阵结构的混合音频进行分离,生成用于分离音频的掩膜；Decoder模块用于对Separation模块输出的分离后音频进行解码，将二维矩阵结构还原为一维音频数据。

进一步的，Encoder模块的网络结构由一个1-D Conv网络组成，将输入的混合音频经过1-D Conv网络后的输出结果与输入的混合音频进行结合后，作为Encoder模块的输出结果；1-D Conv网络为用于对音频数据进行编码的卷积网络。

进一步的，1-D Conv网络依次包括一层1*1大小的卷积层、一层PReLU激活函数层、一层归一化层、一层卷积层、一层PReLU激活函数层、一层归一化层和一层1*1大小的卷积层。

进一步的，Separation模块的输入为Encoder模块的输出结果，Encoder模块的输出结果依次通过一层归一化层、一层1*1大小的卷积层和多个1-D Conv网络后，将所有1-DConv网络的输出结果进行叠加，并将叠加结果依次经过一层PReLU激活函数层、一层1*1大小的卷积层和Sigmoid激活函数层，将Sigmoid激活函数层的输出结果与Encoder模块的输出结果进行相乘的结果作为Separation模块的输出结果。

进一步的，Decoder模块的网络结构由一个1-D Conv网络组成，将输入的Separation模块的输出结果经过1-D Conv网络后的输出结果作为Decoder模块的输出结果。

一种多说话人语音人声分离终端设备，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。

本发明采用如上技术方案，构建的人声分离模型中采用端到端方法来实现多人说话音频的人声分离，可以实现分离重叠部分的多个说话人语音,并且模型只有一个,不需要单独训练声纹提取模型和语音聚类模型。

附图说明

图1所示为本发明实施例一的流程图。

图2所示为该实施例中模型的网络结构示意图。

图3所示为该实施例中模型的具体网络结构示意图。

图4所示为该实施例中Encoder模块的网络结构示意图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

现结合附图和具体实施方式对本发明进一步说明。

实施例一：

本发明实施例提供了一种多说话人语音人声分离方法，如图1所示，所述方法包括以下步骤：

S1：采集不同说话人的语音，提取不同说话人的语音叠加生成混合音频，将用于组成混合音频的单人音频作为模型训练的标签音频，将所有混合音频和其对应的标签音频共同组成训练集。

真实场景中说话人的语音应为真实场景中的语音，该实例中采集不同说话人的语音的具体方法为：通过录音笔采集M个说话人的语音，每个说话人的语音为每个人录制的L条固定长度的音频，录制的音频内容为说话人对固定文本内容的朗读语音。M、L和固定长度的取值本领域技术人员可以根据需求自行设定，在此不做限定，该实施例中设定M和L均为100，固定长度为10秒。为了方便后续使用，将采集的所有语音保存为单声道16k的语音音频，将每个说话人对应的音频分别单独保存在各自对应的文件夹内。

该实例中提取不同说话人的语音叠加生成混合音频的方法为：从所有说话人中随机选取N个说话人，针对N个说话人，从说话人对应的多条音频内随机选取一条音频，将得到的N条音频通过线性相加的方式叠加生成混合音频。N的取值本领域技术人员可以根据需求自行设定，在此不做限定，该实施例中设定N为10，则用于生成混合音频的单人音频为10个说话人对应的10条10秒钟音频，这些单人音频将会作为后续模型训练的标签音频。该实施例中总共生成1万条混合音频。

进一步的，由于模型的输入需要为一维的样本数据，因此该实施例中在模型训练之前还包括将训练集中的混合音频转换为一维音频数据。该实施例中采用的具体转换方式为通过Python的Pydub工具进行音频的读取。

S2：构建人声分离模型，用于将输入的混合音频分离为不同说话人对应的单人音频，通过训练集对人声分离模型进行训练，使得模型输出的分离后音频与用于组成输入的混合音频的单人音频的差值最小。

该实施例中人声分离模型命名为Conv-TasNet模型，如图2和图3所示，Conv-TasNet模型的网络结构包括三个模块，分别为Encoder模块、Separation模块和Decoder模块，其中，Encoder模块用对混合音频数据进行编码，将一维音频数据转换为二维矩阵结构,Separation模块用于对二维矩阵结构的混合音频进行分离,生成用于分离音频的掩膜(Mask)，Decoder模块用于对Separation模块输出的分离后音频进行解码，将二维矩阵结构还原为一维音频数据。

在Encoder模块当中，输入的数据是一维的混合音频，然后通过构建一个卷积网络来对该混合音频进行编码(即将一维结构转换为二维矩阵结构)工作。该实施例中将该卷积网络结构称为1-D Conv网络，如图4所示，其中，混合音频输入到1-D Conv网络之后首先会经过一个1*1大小的卷积层，然后经过一层PReLU激活函数层，接下来经过一层归一化层，用于对数据进行归一化操作，再依次经过一层卷积层、一层PReLU激活函数层、一层归一化层，最后经过一层1*1大小的卷积层，将最后经过的1*1大小的卷积层的输出结果作为1-D Conv网络的输出结果，将输入的混合音频经过1-D Conv网络后的输出结果与输入的混合音频进行结合后，作为Encoder模块的输出结果。

Separation模块的输入为Encoder模块的输出结果，Encoder模块的输出结果依次通过一层归一化层、一层1*1大小的卷积层和多个1-D Conv网络后，将所有1-D Conv网络的输出结果进行叠加，并将叠加结果依次经过一层PReLU激活函数层、一层1*1大小的卷积层和Sigmoid激活函数层，将Sigmoid激活函数层的输出结果与Encoder模块的输出结果进行相乘的结果作为Separation模块的输出结果。该实施例中，Sigmoid激活函数层的输出结果为网络预测的10个说话人各自的掩码过滤网，该过滤网与Encoder模块输出的Mixture混合音频特征数据进行相乘之后,得到该过滤网对应的说话人的语音特征数据，整个Separation模块的输出结果中包含了10个说话人各自的语音特征数据。

Decoder模块的网络结构由一个1-D Conv网络组成，将输入的Separation模块的输出结果经过1-D Conv网络后的输出结果作为Decoder模块的输出结果。该实施例中将Separation模块输出的10个说话人各自的语音特征数据作为Decoder模块的输入，然后所有的说话人语音特征数据经过1-D Conv网络进行处理，输出的结果就是10个说话人各自对应的语音音频一维的样本数据，此时已经完成的模型对混合音频的分离工作。

模型的分离结果为模型预测的单个说话人语音音频数据,由于模型训练的目的需要将模型预测的单个说话人的语音音频数据与原始的单个说话人的语音音频数据也就是标签数据进行比对,通过差值计算的方式计算出两者之间差值,将该差值作为损失值,用于模型训练的迭代优化。

在模型的训练过程中，通过TensorFlow中的AdamOptimizer进行损失值的迭代训练,该实施例中设定每64个音频数据作为一个训练批次,一个Epoch总共有100个批次，共训练50个Epoch,直到训练时的损失值降到一个稳定区间为止。

得到训练拟合之后的模型后，将该训练完成的模型取出作为用于进行人声分离的最终模型，通过将包含有多个说话人的音频输入到最终模型当中,模型输出的结果即为分离后的各个说话人单独的语音音频数据。

该实施例采用的人声分离模型中将所有的RNN网络改为CNN网络，将TCN代替LSTM，同时为了减少参数量和计算量对卷积操作使用深度可分离卷积(depthwise separableconvolution)，这个操作将原先的一种CONV操作，变为两个CONV操作，可以大大的减小参数量和计算量。

该实施例采用的网络框架解决了STFT域语音分离的缺点，包括相位和幅度的分离、混合音频的次优表示和STFT计算的高延迟。此外，本实施例采用的网络具有更小的模型大小和更短的最小延迟，这使得它适合于低资源、低延迟的应用。

本发明实施例采用的端到端的人声分离方法具有很好的场景适应能力,可以将需要分离的场景对应的场景音频录制下来训练模型,然后再在用训练好的模型来分离同一场景下的其他音频,例如使用A会议室的数据训练模型,然后用模型来分离B会议室的混合音频数据。

实施例二：

本发明还提供一种多说话人语音人声分离终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。

进一步地，作为一个可执行方案，所述多说话人语音人声分离终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述多说话人语音人声分离终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述多说话人语音人声分离终端设备的组成结构仅仅是多说话人语音人声分离终端设备的示例，并不构成对多说话人语音人声分离终端设备的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述多说话人语音人声分离终端设备还可以包括输入输出设备、网络接入设备、总线等，本发明实施例对此不做限定。

进一步地，作为一个可执行方案，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述多说话人语音人声分离终端设备的控制中心，利用各种接口和线路连接整个多说话人语音人声分离终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述多说话人语音人声分离终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。

所述多说话人语音人声分离终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)以及软件分发介质等。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种多说话人语音人声分离方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的多说话人语音人声分离方法，其特征在于：步骤S1中采集不同说话人的语音的具体方法为：通过录音笔采集M个说话人的语音，每个说话人的语音为每个人录制的L条固定长度的音频，录制的音频内容为说话人对固定文本内容的朗读语音。

3.根据权利要求1所述的多说话人语音人声分离方法，其特征在于：步骤S1中提取不同说话人的语音叠加生成混合音频的方法为：从所有说话人中随机选取N个说话人，针对N个说话人，从说话人对应的多条音频内随机选取一条音频，将得到的N条音频通过线性相加的方式叠加生成混合音频。

4.根据权利要求1所述的多说话人语音人声分离方法，其特征在于：步骤S1中还包括：将训练集中的混合音频转换为一维音频数据。

5.根据权利要求1所述的多说话人语音人声分离方法，其特征在于：人声分离模型的网络结构包括三个模块，分别为Encoder模块、Separation模块和Decoder模块，其中，Encoder模块用对输入的混合音频进行编码,将一维音频数据转换为二维矩阵结构；Separation模块用于对二维矩阵结构的混合音频进行分离,生成用于分离音频的掩膜；Decoder模块用于对Separation模块输出的分离后音频进行解码，将二维矩阵结构还原为一维音频数据。

6.根据权利要求5所述的多说话人语音人声分离方法，其特征在于：Encoder模块的网络结构由一个1-D Conv网络组成，将输入的混合音频经过1-D Conv网络后的输出结果与输入的混合音频进行结合后，作为Encoder模块的输出结果；1-D Conv网络为用于对音频数据进行编码的卷积网络。

7.根据权利要求6所述的多说话人语音人声分离方法，其特征在于：1-D Conv网络依次包括一层1*1大小的卷积层、一层PReLU激活函数层、一层归一化层、一层卷积层、一层PReLU激活函数层、一层归一化层和一层1*1大小的卷积层。

8.根据权利要求5所述的多说话人语音人声分离方法，其特征在于：Separation模块的输入为Encoder模块的输出结果，Encoder模块的输出结果依次通过一层归一化层、一层1*1大小的卷积层和多个1-D Conv网络后，将所有1-D Conv网络的输出结果进行叠加，并将叠加结果依次经过一层PReLU激活函数层、一层1*1大小的卷积层和Sigmoid激活函数层，将Sigmoid激活函数层的输出结果与Encoder模块的输出结果进行相乘的结果作为Separation模块的输出结果。

9.根据权利要求5所述的多说话人语音人声分离方法，其特征在于：Decoder模块的网络结构由一个1-D Conv网络组成，将输入的Separation模块的输出结果经过1-D Conv网络后的输出结果作为Decoder模块的输出结果。

10.一种多说话人语音人声分离终端设备，其特征在于：包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1～9中任一所述方法的步骤。

11.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1～9中任一所述方法的步骤。