CN109036454A

CN109036454A - 基于dnn的说话人无关单通道录音分离的方法和***

Info

Publication number: CN109036454A
Application number: CN201810576208.6A
Authority: CN
Inventors: 徐海青; ***; 吴立刚; 章爱武; 陈是同; 徐唯耀; 秦浩; 王文清; 郑娟; 秦婷; 梁翀; 浦正国; 张天奇; 余江斌; 韩涛; 杨维; 张才俊; 孙林檀; 田诺; 潘子春
Original assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; Anhui Jiyuan Software Co Ltd; Information and Telecommunication Branch of State Grid Anhui Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; Anhui Jiyuan Software Co Ltd; Information and Telecommunication Branch of State Grid Anhui Electric Power Co Ltd
Priority date: 2018-06-06
Filing date: 2018-06-06
Publication date: 2018-12-18

Abstract

本发明公开了一种基于DNN的说话人无关单通道录音分离的方法和***，属于技术领域，具体步骤包括对训练集的语料进行分词处理，同时对词语进行向量编码，通过分词处理和词语向量编码的过程，用矩阵将一段语句表示出来生成词向量，然后将生成的词向量作为输入样本，输入到卷积神经网络中。本发明提出的组合优化算法在对文本情感特征的自动学习上有着不错的效果，模型的训练速度也大大的提高，分类结果准确度高、自动学习能力强。

Description

基于DNN的说话人无关单通道录音分离的方法和***

技术领域

本发明属于情感技术领域，特别涉及一种基于DNN的说话人无关单通道录音分离的方法和***。

背景技术

随着客服中心全业务集中运营，录音、工单及电话呼入量逐年递增，显现海量之势，录音人工质量检测、自助录音服务和少数民族语言服务等业务不能完全支撑客服中心“两全三化”的发展。基于客服中心的业务需求，智能客服的概念被随之提出，随着“互联网+”、大数据、深度学习等技术的发展，智能录音技术与大数据、云计算、人工智能结合应用，可以使用海量的数据对录音识别的声学模型、语言模型进行不间断的训练，同时采用内存计算、流计算等技术处理数据转写，将会大大提升智能录音技术识别率，提高录音数据的转写速度。但是目前客服中心的录音工单都是单通道，其录音识别的正确率受到很大影响，需要对单通道的录音分

离技术研究。对于说话人无关的情况，分离技术变得更加困难，同时在进行分离时复杂度也会上升并带来更大时延。

发明内容

本发明所要解决的技术问题是提供一种基于DNN的说话人无关单通道录音分离的方法和***，本发明使用具有录音对数功率谱作为录音的特征，特征具有全局特性，避免了特征表达不够带来的算法准确率上的损失；在录音的分割和重组的操作上区别CASA的操作使用了DNN算法；并以最小均方误差准则保障DNN的训练集误差不超过标准范围，提高录音识别的正确率。

为实现上述目的，一方面本发明提供以下的技术方案：基于DNN的说话人无关单通道录音分离的方法和***，其中：具体步骤为：

S1:从数据库中提取录音数据，得到训练集和测试集；

S2:对训练集进行单通道说话人混合特征提取；

S3:通过录音对数功率谱特征训练聚类模型对说话人混合特征类聚，将男性和女性声音分为四个子类，提取特征；

S4:将提取的特征送入说话人DNN检测器，检测判断选择对应的DNN分离器；

S5:DNN分离器基于说话人相关的方式进行单通道录音分离训练，实现话者分离，得到目标信号的特征向量，DNN分离器输出目标语音的对数功率谱特征；

S6:对DNN分离器输出目标语音的对数功率谱特征进行波形重建，产生可测听的语音信号。

S7：测试集对产生的可测听的语音信号结果进行测试。

优选的，所述单通道的说话人混合特征包含男女混合，男男混合以及女女混合三种情况

优选的，所述类聚的具体流程为：提取说话人的i-vector,对每一个说话人根据其所有的语料训练提取说话人特性的100维的i-vector；计算欧式距离矩阵，根据说话人的i-vector计算欧式距离；多维尺度分析，Sammon’s准则下的MDS分析获取2d空间上的分布结果；K-means聚类，K-means算法聚类避免局部最优。

优选的，所述DNN检测器用于检测判断混合录音是男男混合、男女混合和女女混合的哪种混合，所述DNN检测器以混合录音对数功率谱特征为输入以干净录音对数功率谱特征为输出，所述DNN检测器的目标函数为：

其中是目标的对数功率谱特征，表示第t帧估测的说话人集合的对数功率谱，T是迭代参数调优的训练样本的数量。

优选的，DNN检测器的判别式如下：

其中和表示RDNN检测器输出说话人在时域变换下的总能量。通过能量的极值来判定录音混合情况。

优选的，所述DNN分离器包括M-M DNN分离器(男男混合DNN分离器)、F-F DNN(女女混合DNN分离器)分离器、M-F DNN分离器(男女混合DNN分离器)。

优选的,分离器使用以下的目标函数进行训练：

另一方面，本发明还提供了基于DNN的说话人无关单通道录音分离***，包括：

数据提取单元，配置用于对数据库录音数据进行单通道的说话人特征的提取；

类聚单元，配置用于通过录音聚类算法对说话人类聚；

检测单元，配置用于输出进行性别检测

分离单元，配置用于单通道录音分离训练，实现话者分离；

输出单元，配置用于将分离结果输出；

测试单元，配置用于用于对语音信号结果进行测试。

另一方面，本发明还提供了一种设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行本发明示例的任一种基于DNN的说话人无关单通道录音分离的方法。

另一方面，本发明还提供了一种存储有计算机程序的计算机可读存储介质，该程序被处理器执行时实现本发明示例的任一种基于DNN的说话人无关单通道录音分离的方法。

本发明与现有技术相比，具有的有益效果为：

1.本发明提供的基于DNN的说话人无关单通道录音分离的方法，通过录音类聚模型对说话人混合特征类聚，将男性和女性声音分为四个子类，提取特征，将男性和女性说话人聚成两类，并进一步的分别将男性和女性说话人聚成两个子类，从而用来处理同性说话人混合的情况，提高算法的准确度。

2.本发明提供的基于DNN的说话人无关单通道录音分离的方法，使用具有录音对数功率谱作为录音的特征，特征具有全局特性，避免了特征表达不够带来的算法准确率上的损失。

3.本发明提出的基于DNN的单通道录音分离***，能够实现无先验信息的情况下单通道录音的角色分离，主要是先通过检测判决说话人的性别信息，判定录音的说话人的组合，在选择相应的DNN分离器，能够快速的分离。

4.本发明在构建检测器时，选用多输出回归深度神经网络检测器，在对比STOI指标和PESQ指标上基于DNN的分离***的分离效果优于比经典CASA***。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为实施例的流程示意图；

图2为类聚的流程图；

图3为DNN检测器结构图；

图4为DNN分离器结构图；

图5为检测性能测试检测结果。

具体实施方式

为使发明的目的、技术方案和优点更加清楚明了，下面通过附图中及实施例，对本发明技术方案进行进一步详细说明。但是应该理解，此处所描述的具体实施例仅仅用以解释本发明技术方案，并不用于限制本发明技术方案的范围。

为解决现有技术问题，本发明实施例提供一种基于CNN-RSC组合优化算法的语音情感分析方法，以下进行详细说明。

实施例1：

如图1-3所示，本发明的一个实施例提供了基于DNN的说话人无关单通道录音分离的方法和***，具体步骤为：

S1:从数据库中提取录音数据，得到训练集和测试集；

S2:对训练集进行单通道说话人混合特征提取；

S3:通过录音类聚模型对说话人混合特征类聚，将男性和女性声音分为四个子类，提取特征；

S7：测试集对产生的可测听的语音信号结果进行测试。

本实施例中的测试和训练集合都是采用基于SSC数据库(Coookie and Lee，2006)中的录音数据来构造的。SSC数据库是由34名说话人(18名男性说话人，16名女性说话人),每个人500局录音数据组成的。本文以信噪比[-10dB,10dB]，间隔2dB,生成混合录音数据，测试集中目标录音和干扰录音信噪比在[-9dB,6dB]，间隔为3dB。混合录音以降采样得到16kHz的波形文件，特征的帧移为32ms，包含512个采样点，特征的帧移为16ms，包含256个采样点，利用短时FFT得到DFT系数得到257维LPC特征的训练数据。

本实施例中，所述类聚的具体流程为：提取说话人的i-vector,对每一个说话人根据其所有的语料训练提取说话人特性的100维的i-vector；计算欧式距离矩阵，根据说话人的i-vector计算欧式距离；多维尺度分析，Sammon’s准则下的MDS分析获取2d空间上的分布结果；K-means聚类，K-means算法聚类避免局部最优。

本实施例中，DNN检测器的目标函数为：

本实施例中，DNN检测器的判别式如下：

优选的,分离器使用以下的目标函数进行训练：

对本实施例的检测性能进行测试，检测性能测试检测结果见图5，由图5可以看出，基于开发集的DNN最优检测率为94.73％。

通过在STOI指标和PESQ指标上对比基于DNN的说话人无关录音分离***和经典的CASA，对比结果见表1。

表1 PESQ和STOI结果对比表

由表1对比的基于DNN的说话人无关录音分离***和CASA***分离异性说话人时的PESQ和STOI结果。整体结果在所有的输入信噪比条件下比CASA***要好很多。

另一方面，本实施例还提供了基于DNN的说话人无关单通道录音分离***，包括：

类聚单元，配置用于通过录音聚类算法对说话人类聚；

检测单元，配置用于输出进行性别检测

分离单元，单通道录音分离训练，实现话者分离；

输出单元，配置用于将分离结果输出；

测试单元，用于对语音信号结果进行测试。

另一方面，本实施例还提供了一种设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.基于DNN的说话人无关单通道录音分离的方法，其特征在于：具体步骤为：

S1:从数据库中提取录音数据，得到训练集和测试集；

S2:对训练集进行单通道说话人混合特征提取；

S7：测试集对产生的可测听的语音信号结果进行测试。

2.根据权利要求1所述的基于DNN的说话人无关单通道录音分离的方法，其特征在于：所述单通道说话人混合特征包含男女混合，男男混合以及女女混合三种情况。

3.根据权利要求1所述的基于DNN的说话人无关单通道录音分离的方法，其特征在于：所述类聚的具体流程为：提取说话人的i-vector,计算欧式距离矩阵，多维尺度分析，K-means聚类。

4.根据权利要求1所述的基于DNN的说话人无关单通道录音分离的方法，其特征在于：DNN检测器的目标函数公式为：

5.根据权利要求1所述的基于DNN的说话人无关单通道录音分离的方法，其特征在于：所述DNN检测器用于检测判断混合录音是男男混合、男女混合和女女混合的哪种混合，DNN检测器采用的判别式如下：

6.根据权利要求1所述的基于DNN的说话人无关单通道录音分离的方法，其特征在于：所述DNN分离器包括M-M DNN分离器、F-F DNN分离器和M-F DNN分离器。

7.根据权利要求1或6所述的基于DNN的说话人无关单通道录音分离的方法，其特征在于：DNN分离器使用的目标函数公式为：

8.基于DNN的说话人无关单通道录音分离***，其特征在于，包括：

类聚单元，配置用于通过录音聚类算法对说话人类聚；

检测单元，配置用于输出进行性别检测

分离单元，配置用于单通道录音分离训练，实现话者分离；

输出单元，配置用于将分离结果输出；

测试单元，配置用于用于对语音信号结果进行测试。

9.一种设备，其特征在于：所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1-7任一所述的基于DNN的说话人无关单通道录音分离的方法。

10.一种存储有计算机程序的计算机可读存储介质，其特征在于：该程序被处理器执行时实现本发明如权利要求1-7任一所述的基于DNN的说话人无关单通道录音分离的方法。