CN111627457A

CN111627457A - 语音分离方法、***及计算机可读存储介质

Info

Publication number: CN111627457A
Application number: CN202010405182.6A
Authority: CN
Inventors: 郑琳琳; 龙洪锋
Original assignee: Guangzhou Speakin Intelligent Technology Co ltd
Current assignee: Guangzhou Speakin Intelligent Technology Co ltd
Priority date: 2020-05-13
Filing date: 2020-05-13
Publication date: 2020-09-04

Abstract

本发明公开了一种语音分离方法、***及计算机可读存储介质，所述语音分离方法包括：获取预处理的语音数据；对所述语音数据进行特征提取，以获取所述语音数据对应的音素特征数据；基于音素特征数据，对所述语音数据进行分离，通过音素特征进行语音分离，提高了语音分离的精准率。

Description

语音分离方法、***及计算机可读存储介质

技术领域

本发明涉及语音分离领域，尤其涉及一种语音分离方法、***及计算机可读存储介质。

背景技术

目前，语音分离方面多注重于将人声与噪音进行分离，然而现实中往往同时存在着多个不同的人声。因此，如何在多个人声混杂的声学环境中分离语音一直是语音信号处理领域的重要研究方向。由于不同说话人的语音特性非常接近，语音分离的技术难度明显大于语音降噪。如何将语音和语音进行分离，仍是未解决的问题。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种语音分离方法、***及计算机可读存储介质，旨在解决目前多人语音分离精准率不高的技术问题。

为实现上述目的，本发明提供一种语音分离方法，所述语音分离方法包括：

获取预处理的语音数据；

对所述语音数据进行特征提取，以获取所述语音数据对应的音素特征数据；

基于音素特征数据，对所述语音数据进行分离。

优选地，将所述音素特征数据输入至语种识别模型，以获取所述语音数据对应的语种预判结果；

根据语种预判结果，将语种不同的语音数据进行分离，以获取若干个语种相同的语音数据集。

优选地，分别对语种相同的语音数据集进行目标音素识别，并获取包含目标音素的多个语音帧；

获取多个语音帧一一对应的目标音素后验概率，以基于所述目标音素后验概率对多个语音帧进行分离。

优选地，基于编码器对多个语音帧一一对应的目标音素后验概率进行编码处理，以获取每一个语音帧对应的编码层特征；

对所述编码层特征进行解码处理，以获取所述编码层特征对应的频谱特征；

根据频谱特征，对多个语音帧进行分离。

优选地，将多个语音帧一一对应的目标音素后验概率依次输入至所述卷积神经网络进行特征映射，以分别获取每一个语音帧对应的映射特征；

将所述映射特征输入至所述双向长短时记忆神经网络，以获取每一个语音帧对应的编码层特征。

优选地，将频谱特征输入至重叠判断模型，并输出多个语音帧之间是否存在重叠的预判结果；

根据预判结果，对多个语音帧进行分离。

优选地，接收音频设备采集的初始语音数据；

对所述初始语音数据进行预滤波处理，以获取预处理的语音数据。

此外，为实现上述目的，本发明还提供一种语音分离***，所述语音分离***包括：

获取模块，用于获取预处理的语音数据；

特征提取模块，用于对所述语音数据进行特征提取，以获取所述语音数据对应的音素特征数据；

分离模块，用于基于音素特征数据，对所述语音数据进行分离。

优选地，所述分离模块还包括：

语种识别单元，用于将所述音素特征数据输入至语种识别模型，以获取所述语音数据对应的语种预判结果；

分离单元，用于根据语种预判结果，将语种不同的语音数据进行分离，以获取若干个语种相同的语音数据集。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有语音分离程序，所述语音分离程序被处理器执行时实现以上任一项所述的语音分离方法的步骤。

本发明提出的语音分离方法，通过获取预处理的语音数据，接着对语音数据进行特征提取，以获取语音数据对应的音素特征数据，最后基于音素特征数据，对语音数据进行分离，基于每个人音素特征的差异性，对语音进行分离，以提高语音分离的精准率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图；

图2为本发明语音分离方法第一实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

如图1所示，该终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，终端还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在移动终端移动到耳边时，关闭显示屏和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；当然，移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机可读存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及语音分离程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的语音分离程序。

在本实施例中，语音分离装置包括：存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的语音分离程序，其中，处理器1001调用存储器1005中存储的语音分离程序时，并执行以下操作：

获取预处理的语音数据；

基于音素特征数据，对所述语音数据进行分离。

进一步地，处理器1001可以调用存储器1005中存储的语音分离程序，还执行以下操作：

将所述音素特征数据输入至语种识别模型，以获取所述语音数据对应的语种预判结果；

分别对语种相同的语音数据集进行目标音素识别，并获取包含目标音素的多个语音帧；

基于编码器对多个语音帧一一对应的目标音素后验概率进行编码处理，以获取每一个语音帧对应的编码层特征；

根据频谱特征，对多个语音帧进行分离。

将多个语音帧一一对应的目标音素后验概率依次输入至所述卷积神经网络进行特征映射，以分别获取每一个语音帧对应的映射特征；

将频谱特征输入至重叠判断模型，并输出多个语音帧之间是否存在重叠的预判结果；

根据预判结果，对多个语音帧进行分离。

接收音频设备采集的初始语音数据；

本发明还提供一种语音分离方法，参照图2，图2为本发明语音分离方法第一实施例的流程示意图。

步骤S10，获取预处理的语音数据；

步骤S20，对所述语音数据进行特征提取，以获取所述语音数据对应的音素特征数据；

在本发明实施例中，获取预处理的语音数据，接着对语音数据进行特征提取，具体地，采集设备采集多段语音帧组成的语音数据，并将多段语音帧组成的语音数据发送至预设特征提取模型，具体地，可以从多段语音帧中提取出与多段语音帧一一对应的多个第一语音特征，可选地，从多个第一语音特征中确定出多个关键语音特征，其中，每个关键语音特征对应于音素集合中的一个音素的概率大于或者等于目标概率阈值，接着确定出与每个关键语音特征对应的语音特征集合，其中，每个语音特征集合包括对应的关键语音特征以及多个第一语音特征中与对应的关键语音特征相邻的一个或多个语音特征；最后分别对每个语音特征集合中的语音特征进行特征融合，得到多个融合语音特征，其中，每个语音特征集合对应一个融合语音特征。

其中，在音素集合中分别识别出与每个融合语音特征对应的音素特征数据，可以采用多种方式进行特征融合，比如对当前语音特征集合的各语音特征进行加权求和，其中，每个语音特征的权重可自定义设置。如根据当前语音特征集合的各语音特征与当前关键语音特征之间的距离，为不同的语音特征赋予不同的权重，当前关键语音特征的距离越近，则权重越大。进一步地，可将每个语音特征集合中的语音特征输入到目标自注意力层中，得到多个融合语音特征，其中，目标自注意力层用于对每个语音特征集合中的语音特征进行加权求和，得到与每个语音特征集合对应的融合语音特征，或通过自注意力层对每个语音特征集合中的语音特征进行特征融合，提取单元长度级别的特征，得到融合语音特征。进一步地，对于多个融合语音特征中的当前融合语音特征，可以根据当前融合语音特征得到该当前融合语音特征对应于音素集合中的各音素的概率，并根据当前融合语音特征对应于音素集合中的各音素的概率，确定与每个融合语音特征对应的音素。

进一步地，步骤S10包括，

步骤S101，接收音频设备采集的初始语音数据；

步骤S102，对所述初始语音数据进行预滤波处理，以获取预处理的语音数据。

该步骤中，可以理解地，为了消除噪音对语音分离的影响，需先将语音数据进行去噪，具体地，接收音频设备采集的初始语音数据，接着对初始语音数据进行预滤波处理，进行去噪，以获取预处理的语音数据。

步骤S30，基于音素特征数据，对所述语音数据进行分离。

该步骤中，在获取音素特征数据，接着根据音素特征数据，对语音数据进行分离，可以理解地，音素是根据语音的自然属性划分出来的最小语音单位，从声学性质来看，音素是从音质角度划分出来的最小语音单位，从生理性质来看，一个发音动作形成一个音素，相同发音动作发出的音就是同一音素，不同发音动作发出的音就是不同音素，音素一般分为元音和辅音两大类，不同的语种可划分出不同的发音音素。以汉语普通话为例，包括22个辅音和10个元音；而英语国际音标共有48个音素，其中元音音素20个，辅音音素28个。具体地，步骤S30包括，

步骤S301，将所述音素特征数据输入至语种识别模型，以获取所述语音数据对应的语种预判结果；

该步骤中，可通过语音特征中表示发音音素信息的音素特征来判别语音数据所属的语种，相应的，本发明的实施例通过提取语音数据中表示发音音素信息的音素特征，输入预先基于多语种语料训练得到的语种识别模型，可实现对语音数据所属语种的预判结果。

步骤S302，根据语种预判结果，将语种不同的语音数据进行分离，以获取若干个语种相同的语音数据集。

该步骤中，在获取语种预判结果之后，将语种不同的语音数据进行分离，以获取若干个语种相同的语音数据集，比如果语音数据中包含中文语种与英文语种，则将中午语种的语音数据与英文语种的语音数据进行分离。

进一步地，步骤S302之后，还包括，

步骤S303，分别对语种相同的语音数据集进行目标音素识别，并获取包含目标音素的多个语音帧；

步骤S304，获取多个语音帧一一对应的目标音素后验概率，以基于所述目标音素后验概率对多个语音帧进行分离。

该步骤中，分别对语种相同的语音数据集进行目标音素识别，并获取包含目标音素的多个语音帧，其中，目标音素可根据当前语音数据信息自定义设置，接着获取多个语音帧一一对应的目标音素后验概率，可选地，语音通常由音色特征和文本特征组成，由于需要将第一人声的源语音转换为第二人声的目标语音，也即保持语音不变的情况下将第一人声转换为第二人声，则对该多个语音帧进行提取时，提取得到与文本特征对应的目标音素后验概率，并通过对目标音素后验概率匹配第二人声对应的音色特征，从而实现将第一人声的源语音转换为第二人声的目标语音。

具体地，步骤S304包括，

步骤S305，基于编码器对多个语音帧一一对应的目标音素后验概率进行编码处理，以获取每一个语音帧对应的编码层特征；

在获取多个语音帧一一对应的目标音素后验概率之后，基于编码器对多个语音帧一一对应的目标音素后验概率进行编码处理，以获取每一个语音帧对应的编码层特征，其中，编码器中包括级联的卷积神经网络和双向长短时记忆神经网络。其中，卷积神经网络是包含卷积计算且具有深度结构的前馈神经网络，该卷积神经网络具有表征学***均池化层，该平均池化层用于对音素后验概率进行池化处理。

进一步地，步骤S305包括，

步骤S3051，将多个语音帧一一对应的目标音素后验概率依次输入至所述卷积神经网络进行特征映射，以分别获取每一个语音帧对应的映射特征；

步骤S3052，将所述映射特征输入至所述双向长短时记忆神经网络，以获取每一个语音帧对应的编码层特征。

该步骤中，将多个语音帧一一对应的目标音素后验概率依次输入至编码器中卷积神经网络进行特征映射，以分别获取每一个语音帧对应的映射特征，接着将映射特征输入至编码器中双向长短时记忆神经网络，以获取每一个语音帧对应的编码层特征。

步骤S306，对所述编码层特征进行解码处理，以获取所述编码层特征对应的频谱特征；

步骤S307，根据频谱特征，对多个语音帧进行分离。

该步骤中，本发明方法中采用解码器对编码层特征进行解码处理，其中，解码器中包括级联的自回归长短时记忆神经网络和特征映射网络，具体地，自回归长短时记忆神经网络用于建立当前音素后验概率与在其之前的音素后验概率和在其之后的音素后验概率之间的时域关系，特征映射网络用于对编码层特征进行映射。可选地，该解码器中还包括残差连接层，该残差连接层用于对特征映射网络输出的频谱特征进行调整。进一步地，本发明方法中编码器和解码器经过预先训练，具体地，以第二人声的样本语音进行训练。可选地，在训练过程中，将第二人声的样本语音输入至编码器和解码器进行处理后，得到频谱特征，将该频谱特征与样本语音的实际频谱特征进行比对，并根据比对结果对编码器和解码器中的参数进行调整，从而实现对编码器和解码器中各个神经网络层的训练。

在本发明实施例中，采用自回归长短时记忆神经网络与特征映射网络对编码层特征进行解码处理，以获取编码层特征对应的频谱特征向量，接着根据多个语音帧一一对应的频谱特征向量的差异性，对多个语音帧进行分离。

进一步地，步骤S307包括，

步骤S3071，将频谱特征输入至重叠判断模型，并输出多个语音帧之间是否存在重叠的预判结果；

步骤S3072，根据预判结果，对多个语音帧进行分离。

该步骤中，在获取多个语音帧一一对应的频谱特征之后，将频谱特征输入至重叠判断模型，具体地，获取多个语音帧对应的单通道频谱特征和多通道方位特征，将多个语音帧对应的单通道频谱特征和多通道方位特征作为输入值，输入至重叠判断模型，并输出多个语音帧之间是否存在重叠的预判结果，进一步地，本发明方法使用的重叠判断模型是经过训练数据及样本数据预先训练得到的，在重叠判断模型输出多个语音帧之间是否存在重叠的预判结果之后，根据预判结果，对多个语音帧进行分离，可以理解地，若多个语音帧一一对应的频谱特征不重叠，则频谱特征不重叠对应的语音帧之间不是同一人发出的，则可将该语音帧进行分离。

本发明实施例提出的语音分离方法，通过获取预处理的语音数据，接着对语音数据进行特征提取，以获取语音数据对应的音素特征数据，最后基于音素特征数据，对语音数据进行分离，基于每个人音素特征的差异性，对语音进行分离，以提高语音分离的精准率。

本发明还提供一种语音分离***，所述语音分离***包括：

获取模块，用于获取预处理的语音数据；

进一步地，分离模块还包括：

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有语音分离程序，所述语音分离程序被处理器执行时实现以上所述语音分离方法的各个实施例的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音分离方法，其特征在于，所述语音分离方法包括以下步骤：

获取预处理的语音数据；

基于音素特征数据，对所述语音数据进行分离。

2.如权利要求1所述的语音分离方法，其特征在于，所述基于音素特征数据，对所述语音数据进行分离的步骤包括：

3.如权利要求2所述的语音分离方法，其特征在于，所述根据语种预判结果，将语种不同的语音数据进行分离，以获取若干个语种相同的语音数据集的步骤之后，还包括：

4.如权利要求3所述的语音分离方法，其特征在于，所述基于所述目标音素后验概率对多个语音帧进行分离的步骤包括：

根据频谱特征，对多个语音帧进行分离。

5.如权利要求4所述的语音分离方法，其特征在于，所述编码器包括卷积神经网络及双向长短时记忆神经网络，所述基于编码器对多个语音帧一一对应的目标音素后验概率进行编码处理，以获取每一个语音帧对应的编码层特征的步骤包括：

6.如权利要求4所述的语音分离方法，其特征在于，所述根据频谱特征，对多个语音帧进行分离的步骤包括：

根据预判结果，对多个语音帧进行分离。

7.如权利要求1至6任一项所述的语音分离方法，其特征在于，所述获取预处理的语音数据的步骤包括：

接收音频设备采集的初始语音数据；

8.一种语音分离***，其特征在于，所述语音分离***包括：

获取模块，用于获取预处理的语音数据；

9.如权利要求8所述的语音分离***，其特征在于，所述分离模块，还包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有语音分离程序，所述语音分离程序被处理器执行时实现如权利要求1至7中任一项所述的语音分离方法的步骤。