CN113593601A

CN113593601A - 基于深度学习的视听多模态语音分离方法

Info

Publication number: CN113593601A
Application number: CN202110846973.7A
Authority: CN
Inventors: 兰朝凤; 王顺博; 郭小霞; 韩玉兰
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2021-11-02

Abstract

本发明公开了一种基于深度学习的视听多模态语音分离方法，所述方法包括：对视频流的每个说话人的面部进行识别，获得说话人的面部嵌入，处理说话人的每帧面部嵌入以生成说话者的面部视觉特征；获得视频的音频频谱图，对所得到的的音频谱图进行处理以生成音频的音频嵌入特征；将一个或者多个说话人的视觉特征和音频特征进行多模态融合，生成视听融合特征；构建多模态网络模型；将视听融合特征输入多模态网络模型进行训练，得到一个或多个说话人的每一个确定相应的频谱图掩模；根据频率掩模确定每个说话人相应的语音频谱图，最终分离出语音信号。本发明提供的方法能够有效提高语音分离性能，使分离后的语音更加清晰、可懂且音质更好。

Description

基于深度学习的视听多模态语音分离方法

技术领域

本发明涉及语音分离技术领域，具体涉及基于深度学习的视听多模态语音分离方法。

背景技术

随着人工智能的高速发展，传统的计算机视觉和听觉均取得了巨大的发展，而两者的结合即多模态领域也成为了研究的热点。语音分离算法是语音信号处理的重要研究方法，其目标就是从混合语音中分离出单个的语音。语音分离可以运用到许多应用场合，如电话会议***中，语音分离技术可以实现从多个说话人中提取感兴趣的声源，可以提高电话会议的效率；应用于助听装置时，可为听力障碍者提供更加突出的目标声源，并提供有效的语音信息；应用于智能家居领域，使人工智能在城市生活中得到更好地应用。

语音分离是语音信号处理中一个重要的组成部分，近年来国内外研究学者针对鸡尾酒会问题设计了很多计算机模型。在深度学习方法诞生之前，研究学者大多采用统计学方法解决语音分离问题，例如计算机场景分析(Computational auditory sceneanalysis,CASA)和非负矩阵分解(Non-negative matrix factorization,NMF)。但是，这些方法在对于多说话人的语音分离其效果是有限的。近年来，随着深度学习领域的迅速发展，以深度神经网络(Deep neural network,DNN)为代表的深度模型在源分离方面有显著的进展，与传统的语音分离方法相比，其性能有了很大的提高。

纯音频的方法包括深度聚类的方法，即通过使用训练的音频嵌入来聚类和分离不同的声源。纯音频的方法还包括使用深度学习网络来分离语音。随着视觉技术的进步，视听方法也被用于语音分离，利用神经网络对听觉和视觉信号进行多模态融合，来解决声源分离问题。Torfi A等人借助嘴唇信息进行视听匹配，但是该方法依赖说话者，意味着必须为每个说话者分别训练专用的模型，因而导致语音分离模型的适用性不高。

为解决上述问题，本发明使用人脸特征来代替嘴部特征作为视频流的输入，解决了嘴部嵌入的局限性，该方法通过让模型同时学习听觉和视觉特征，并通过视觉的辅助，更好地学习到音频中不同说话人的声音信息。本发明中，提出了一种结合空洞卷积神经网络和双向长短时记忆网络并结合多模态的方法来解决语音分离问题，现对于常规的深度神经网络和卷积网络，可以取得显著的分离性能的提升。

发明内容

本发明所解决的技术问题是提出了一种基于深度学习的视听多模态语音分离方法。

本发明解决其技术问题所采用的技术方案是：基于深度学习的视听多模态语音分离方法。包括如下步骤：1)对视频流的每个说话人的面部进行识别，获得说话人的面部嵌入，处理说话人的每帧面部嵌入以生成说话者的面部视觉特征；2)获得视频的音频频谱图，对所得到的频谱图进行处理以生成音频的音频嵌入特征；3)将一个或者多个说话人的视觉特征和音频特征进行多模态融合，生成视听融合特征；4)构建多模态网络模型；5)将视听融合特征输入多模态网络模型进行训练，得到一个或多个说话人的每一个确定相应的频谱图掩模；6)根据频率掩模确定每个说话人相应的语音频谱图，最终分离出语音。

根据本发明提供的一种基于深度学习的视听多模态语音分离方法，还可以具有这样的技术特征，其中，步骤1)中的对视频流的处理包括以下步骤：获得包含一个或者多个说话人的视频流；在所述的视频流的每帧中检测一个或者多个说话人的每一个相应的面部；对于每个帧，为每个检测到的面部生成相应的每帧面部嵌入，利用视觉子网的3D卷积层对面部嵌入进行特征提取，得到面部视觉特征。

根据本发明提供的一种基于深度学习的视听多模态语音分离方法，还可以具有这样的技术特征，其中，步骤2)中的对音频流的处理包括以下步骤：获得与视频对应的混合音频音轨，其混合方式为：Mix＝AVS_j+AVS_k其中，AVS_j和AVS_k均来自数据集的不同源视频的干净语音，Mix表示混合音频；对输入的音频信息进行短时傅里叶变换(STFT)获得其频谱图；在音频子网中，用1D卷积层对获得的音频频谱图进行特征提取，获得其音频特征。

根据本发明提供的一种基于深度学习的视听多模态语音分离方法，还可以具有这样的技术特征，其中，步骤3)中的视听特征融合的处理包括以下步骤：当所述视频特征的时间采样率与所述音频特征的时间采样率相同时，将所述一个或者多个说话人的视觉特征与所述音频嵌入的音频特征进行多模态融合——级联，然后利用3D卷积层对该融合后的视听特征进行进一步的特征提取，并通过全局池化层得到视听嵌入融合特征。

根据本发明提供的一种基于深度学习的视听多模态语音分离方法，还可以具有这样的技术特征，其中，步骤4)中的多模态网络模型包括以下步骤：多模态网络训练模型是由空洞卷积神经网络和双向长短时记忆网络组合而成的；多模态网络模型训练模块，将步骤3)所述得到的视听嵌入融合特征输入所述的多模态网络模型进行训练，直到所述的多模态网络模型收敛从而得到训练好的多模态网络模型作为视听语音分离模型。

根据本发明提供的一种基于深度学习的视听多模态语音分离方法，还可以具有这样的技术特征，其中，步骤5)中的频谱图掩模是复数理想比率掩模，其具有估计的实部分量和虚部分量。

根据本发明提供的一种基于深度学习的视听多模态语音分离方法，还可以具有这样的技术特征，其中，步骤6)中得到的分离语音包括以下步骤：将复数频率掩模和混合语音的语谱图相乘，可以孤立每个说话人的语音信号，同时抑制其他说话人的信号，得到每个说话人的语音语谱图，通过ISTFT获得分离出的语音信号。

本发明的有益效果是：由于对语音信号进行STFT变换，可以同时提取信号的幅度信息和相位信息，能够更加充分地利用语音信号的信息；由于使用多模态融合，加入视觉信息的补充，视觉信息的辅助，能够更好的学习音频中不同说话人的声音信息；视听模型能够更好地学习到与视觉信息相关的说话人的音频特征，从而更好地表达特征，达到提高含有其他说话人声音的语音分离任务的准确性；视听网络模型采用空洞卷积神经网络可以增大感受野，更好的获得特征，采用双向长短时记忆网络能够对数据进行正向和反向的处理，获得数据中的依赖关系，使数据之间的关系更加紧密。视听多模态语音分离方法相比于纯语音分离方法更加清晰、可懂，音质更好。

本发明的特征及优点将通过实施例结合附图进行详细说明。

附图说明

图1是基于深度学习的视听多模态语音分离方法的***图

图2是视频特征提取示意图

图3是音频特征提取示意图

图4是一种基于深度学习的视听多模态语音分离方法流程图

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

本实施例中一种基于深度学***台：操作***为Linux，编程语音为python2.7，神经网络框架为Tensorflow-gpu 1.8.0版本，CUDA版本为10.0，计算加速单元为NVIDIA 1080Ti GPU。

图1为基于深度学习的视听多模态语音分离方法的流程图。

如图1所示，本发明提供了一种基于深度学习的多模态语音分离方法。首先，获得包含一个或者多个说话人的视频流和音频流，获得其面部嵌入和音频嵌入；然后通过卷积神经网络分别获得其面部特征和音频特征；将面部特征和音频特征进行融合得到其视听多模态融合特征；将视听多模态融合特征输入长短时记忆网络进行训练，在通过全连接层将其分类，分别获得其复数理想比率掩模；最后将复数比率掩模与混合语音频谱图相乘获得各自孤立的语音频谱图，通过ISTFT得到分离出的语音信号。

本实施例中，音视频训练数据是从YouTube视频中下载的20000个声音片段，包含视频和与之对应的音频。

图2为视频特征提取示意图。

如图2所示，对音视频数据中的每个视频进行采样3s的切片从而得到多个采样视频。并且从每个视频中得到75帧的视频帧。在多模态网络模型训练前，从每一帧中截取160×160的人脸图像作为视觉子网的训练。

图3是音频特征提取示意图。

如图3所示，对干净的3s语音进行混合，分别对两个干净语音和混合语音进行STFT，即得到反映信号能量密度的语谱图。语谱图作为语音的图像表示，可直观反映出信号时间与频率的关系及能量大小。语谱图作为网络的输入特征可以保留更多的说话人信息，使模型能充分的学习到代表说话人身份的个性特征。另外将得到的频谱图存为.npy文件，方便后续模型的输入和读取。

图4是一种基于深度学习的视听多模态语音分离方法结构图。

如图4所示，多模态网络模型中包括视觉子网、音频子网和视听融合子网。

其中，在视觉子网中，通过移除或者复制重新采样所有视频中人脸，以每秒25帧的采样率对3s的视频进行采样，即可产生75个人脸嵌入作为输入视频流，另外，当特定的样本中遇到缺失的帧时，使用零向量代替人脸的嵌入，本发明对视频的数据处理空洞卷积参数如表1所示。

表1

在音频子网中，所有音频被重新采样16kHz，立体声音均被转化为左声道。STFT采用计算长度为25ms的汉宁窗，跳长为10ms，FFT的大小为512，结果输入音频的特征为257、298两个标量，本发明对音频的数据处理的空洞卷积网络参数设置如表2所示。

表2

在视听融合子网中，当所述视频特征的时间采样率与所述音频特征的时间采样率相同时，将所述一个或者多个说话人的视觉特征与所述音频嵌入的音频特征进行多模态融合——级联，视听融合特征通过双向长短时记忆网络和全连接层，获得复数频谱图掩模。复数频谱图掩模包含实部分量和虚部分量，描述了说话者的清晰语音与音频声道的复数频谱图中的其他说话者之间的时频关系。将复数频率掩模和混合语音的语谱图相乘，可以孤立每个说话人的语音信号，同时抑制其他说话人的信号，得到每个说话人的语音语谱图，通过ISTFT获得分离出的语音信号。

多模态网络模型训练过程中，在每次迭代之后，通过多模态网络模型最后一层的模型参数计算得到损失误差，然后将计算得到的损失误差反向传播，从而更新模型参数。

另外，本发明的视听模型与视听(Audio-Visual,AV)模型分别在不同性别和两个语音的分离上进行测试，利用SDR评价指标，在测试集中随机取三组男生和男生、男生和女生、女生和女生的声音数据，本发明的语音分离模型对不同特性混合语音的语音分离效果进行评价，并与不同的模型进行分离效果对比，结果如表3所示。其中，表3中M1、M2、M3表示三位男士的声音；F1、F2、F3表示三位女士的声音；在表3中，对于混合语音M1+M2来说，前者表示M1，后者表示M2，其他的混合语音亦是如此。

表3

其中，从表3可以看出，本发明的语音分离模型对混合语音M1+M2进行分离，分离出M1语音的SDR值为15.1dB，M2语音的SDR值为14.7dB，相比于AV模型分离出M1语音的SDR值提升了6.2dB，M2语音的SDR值提升了5.4dB，由表3中其它数据可以得出本发明的的语音分离效果有明显的提升。另外对比同性别说话人和异性说话人的语音分离效果可以看出，AV模型对男生和男生混合语音的分离平均SDR值为9.1dB，而本发明的语音分离模型对其语音的分离SDR值达到15.4dB，由表3中其它数据可知，无论是同性混合语音的分离还是异性混合语音的分离，本发明的语音分离模型的分离效果均优于AV模型。

为对比分析AV模型和本发明的语音分离模型模型在两个语音(语音1和语音2)混合情况下语音分离效果，并分析本文所提出模型层数不同时的语音分离性能，取测试集数据利用PESQ值、STOI值和SDR值进行评价，分离后语音的评价结果如表4所示。

表4

从表4可以看出，本发明的模型分离出语音1的SDR值为14.15dB，语音2的SDR值为15.88dB，相比于AV模型语音1的SDR值提升了1.55dB，语音2的SDR值提升了4.08dB，对比表4中的PESQ值和STOI值，说明本发明的模型在分离两个说话人时的分离效果优于AV模型。从而证明本发明的视听模型在语音分离任务上取得较好的效果。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

Claims

1.基于深度学习的视听多模态语音分离方法，其特征在于，包括以下步骤：

1) 对视频流的每个说话人的面部进行识别，获得说话人的面部嵌入，处理说话人的每帧面部嵌入以生成说话者的面部视觉特征；

2)获得视频的音频频谱图，对所得到的频谱图进行处理以生成音频的音频嵌入特征；

3)将一个或者多个说话人的视觉特征和音频特征进行多模态融合，生成视听融合特征；

4)构建多模态网络模型；

5)将视听融合特征输入多模态网络模型进行训练，得到一个或多个说话人的每一个确定相应的频谱图掩模；

6)根据频率掩模确定每个说话人相应的语音频谱图，最终分离出语音信号。

2.根据权利要求1所述的基于深度学习的视听多模态语音分离方法，其特征在于：在步骤1)中：

获得包含一个或者多个说话人的视频流；

在所述的视频流的每帧中检测一个或者多个说话人的每一个相应的面部；

对于每个帧，为每个检测到的面部生成相应的每帧面部嵌入信息，利用视觉子网的3D卷积层对面部嵌入进行特征提取，得到面部视觉特征。

3.根据权利要求1所述的基于深度学习的视听多模态语音分离方法，其特征在于：在步骤2)中：

获得与视频流对应的混合音频音轨，其混合方式为：

其中，

和

均来自数据集的不同源视频的干净语音，

表示混合音频；

对输入的音频信息进行短时傅里叶变换（STFT）获得其频谱图；

在音频子网中，利用1D卷积层对获得的音频频谱图进行特征提取，获得其音频特征。

4.根据权利要求1所述的基于深度学习的视听多模态语音分离方法，其特征在于：在步骤3)中：

当所述视频特征的时间采样率与所述音频特征的时间采样率相同时，将所述一个或者多个说话人的视觉特征与所述音频嵌入的音频特征进行多模态融合——级联，然后利用3D卷积层对该融合后的视听特征进行进一步的特征提取，并通过全局池化层得到视听嵌入融合特征。

5.根据权利要求1所述的基于深度学习的视听多模态语音分离方法，其特征在于：在步骤4)中：

多模态模型构建模块，多模态网络模型是由空洞卷积神经网络和双向长短时记忆网络组合而成的；

多模态网络模型训练模块，将权利要求4所述得到的视听嵌入融合特征输入所述的多模态网络模型进行训练，直到所述的多模态网络模型收敛从而得到训练好的多模态网络模型作为视听语音分离模型。

6.根据权利要求1所述的基于深度学习的视听多模态语音分离方法，其特征在于：在步骤5)中：

使用训练好的多模态网络模型对视听嵌入进行处理，以生成一个或者多个说话人的每一个对应的频谱图掩模；

该掩模是复数频率掩模，其具有估计的实部分量和虚部分量。

7.根据权利要求1所述的基于深度学习的视听多模态语音分离方法，其特征在于：在步骤6)中：

将复数频率掩模和混合语音的语谱图相乘，可以孤立每个说话人的语音信号，同时抑制其他说话人的信号，得到每个说话人的语音频谱图，通过逆傅里叶变换（ISTFT）获得分离出的语音信号。