CN110619886A

CN110619886A - 一种针对低资源土家语的端到端语音增强方法

Info

Publication number: CN110619886A
Application number: CN201910966022.6A
Authority: CN
Inventors: 于重重; 康萌; 陈运兵; 徐世璇
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2019-10-11
Filing date: 2019-10-11
Publication date: 2019-12-27
Anticipated expiration: 2039-10-11
Also published as: CN110619886B

Abstract

本发明公布了一种针对低资源土家语的端到端语音增强方法，属于语音信号处理领域，涉及低资源语言的语音增强技术，针对土家语数据中环境噪声的多样性、随机性和非平稳性，实现端到端的语音快速增强处理。包括：基于深度卷积生成对抗网络，建立端到端的低资源土家语语音增强模型，进行快速增强处理，实现端到端的土家语语音快速增强处理，在几乎不失真的情况下有效去除土家语语音的环境噪声。

Description

一种针对低资源土家语的端到端语音增强方法

技术领域

本发明属于语音信号处理领域，涉及低资源语言的语音增强技术，具体涉及一种基于深度卷积生成对抗网络针对低资源土家语的端到端语音增强方法。

背景技术

语音增强技术是语音数字信号的预处理部分，主要是从带噪语音信号中尽可能提取纯净的原始语音信号，其目的主要有两点：一是抑制背景噪声，改善语音质量，消除人们的听觉疲劳，这是主观测量；二是提高语音的可懂性，这是客观测量。现在语音识别技术已经进入实用阶段，但许多识别***对环境要求较高。在实际应用中，环境噪声污染会降低语音处理***性能。因此语音增强技术能够有效解决噪声污染，提高语音识别***的准确率。目前语音增强***在语音通信和多媒体技术等领域已被广泛应用。

传统的语音增强算法有谱减法，其计算量小，可简单控制语音信号失真和残留噪声，但容易残留音乐噪声；自适应滤波如维纳滤波、卡尔曼滤波需要知道噪声的一些特征或统计特性。基于时域的子空间分解也可用于语音增强，但在低信噪比或白噪声的情况下效果更好。随着深度学***稳噪声处理中相比传统方法具有明显的优势，但深度网络模型多为有监督训练，模型依赖于大量的标注数据和长时间的训练。

土家语作为我国土家族世代相传的语言，其中蕴含了丰富的民族文化内涵，但由于使用人数急剧减少，口语的传承出现断层现象，且无文本记录形式，已经面临濒危消亡的危机状态。此外土家语的使用范围也极为有限，留存较好的地区处于交通不便、十分闭塞的高山深谷中。在这种情况下不仅可采集的数据量十分有限，而且难以寻得专业的录音室，调查和采集土家语的过程均处于自然环境中，音频文件包含噪声的现象难以避免，其中出现的噪声诸如动物叫声、机动车声、采集设备发出的电流声以及多人同时说话的干扰都会将有用的语音信息淹没在噪声中，更对后续进行土家语标注和语音识别的任务造成影响。

为了确保获得高质量的语料，去除土家语语音数据中的噪声是一项具有挑战性的研究。采用现有的语音去噪方法，难以实现土家语标注和语音识别，土家语语音识别的准确率低。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于深度卷积生成对抗网络的针对低资源土家语的端到端语音增强方法，针对土家语数据中环境噪声的多样性、随机性和非平稳性，实现端到端的语音快速增强处理。

本发明可以为语言数字资源库奠定研究基础，提高后续语音识别的准确率，并且帮助语音学家完成濒危语言的记录和保存工作，更加直观生动地展示语言面貌及其文化内涵，对语言文化保护传承都具有重要的实际意义。

本发明提供的技术方案是：

一种针对低资源土家语的端到端语音增强方法，基于深度卷积生成对抗网络，建立端到端的低资源土家语语音增强模型，实现端到端的土家语语音快速增强处理，有效去除土家语语音的环境噪声，包括以下步骤：

1)构建土家语语料库，对土家语录音数据进行分类和切分，得到土家语原始带噪语料和土家语原始干净语料，并从土家语原始带噪语料中截取得到纯噪声片段：

11)首先根据土家语录音数据的质量将土家语语料分为两部分：无噪声数据 (土家语原始干净语料)和有噪声数据(土家语原始带噪语料)。在有噪声数据中，句与句之间的无人声片段也包含环境噪声，因此可根据语音处理工具(如ELAN软件)将噪声片段截取出来得到纯噪声片段。具体地，土家语原始带噪语料中有人声和无人声的地方均有噪声。将无人声的片段截取出，作为土家语纯噪声片段。

12)土家语的有噪声数据和无噪声数据均为长篇故事叙述(语音长句)，需要对其使用语音处理工具(如采用跨平台的多功能语音学专业软件Praat脚本) 进行切分，切分后的得到独立短句仍然分为两类：土家语原始带噪语料和土家语原始干净语料。

2)扩展语料库：

由于土家语语音数据量有限，将采用汉语语音数据集(例如：清华大学 30小时(thchs30)汉语语音数据集)作为土家语的扩展数据，称为汉语原始干净语料，以此解决土家语语音数据不足的问题。将步骤11)中截取的纯噪声片段分别加入到土家语原始干净语料和汉语原始干净语料中去，分别得到新的语料，将得到的新语料分别称为土家语合成带噪语料和汉语合成带噪语料。

3)建立端到端的语音增强模型：

本发明采用深度卷积生成对抗网络(Deep Convolutional GenerativeAdversarial Network,DCGAN)来建立端到端的土家语语音增强模型，对土家语语料进行语音增强；

端到端的土家语语音增强模型包括：生成网络和判别网络；生成网络采用编码-解码的端到端全卷积网络结构。采用对抗训练设置，将增强后的语音与真实干净语音输入判别网络中进行分类，尽可能地判断出输入信号的真假，从而传递到生成网络，使得增强模型可以将其输出波形朝着真实的分布微调，直到判别网络难以区分输入信号的真实性，从而达到去除噪声信号的目的。本发明在网络的每个卷积层中加入谱归一化(SpectralNormalization,SN)，通过限制每个层的谱范数来约束网络的Lipschitz常数。在模型训练时，采用不平衡学习率可以使模型训练更加稳定，即对生成网络和判别网络分别设置学习率和不同的更新速率。

具体执行如下操作：

31)首先用汉语合成带噪语料的时域波形图作为生成网络的输入。通过采取重叠滑窗的方式对波形进行分帧，具体实施时窗长为1秒，帧与帧之间重叠 500毫秒；然后输入生成网络编码阶段的11个卷积层得到压缩向量，压缩向量进入生成网络解码阶段。解码阶段与编码阶段呈镜像关系，有11个反卷积层且卷积核参数与编码阶段相对应的卷积层参数一致，每一个反卷积层同时接收上一个反卷积层结果和编码阶段中相对称的卷积层结果，将两个结果通过加权相加传递给下一个反卷积层，最终得到增强后的汉语干净语料；

32)判别网络接收汉语原始干净语料和步骤31)得到的增强后的汉语干净语料，经判别网络多层卷积进行分类得到判别结果(输出0或1)，将判别结果传递给生成网络，生成网络根据损失函数计算损失值进行反向传播更新各层权重，开始对带噪语料进行新一轮的增强训练；判别网络继续接收生成网络的增强结果，根据损失函数计算损失值。如此反复迭代，，直到判别网络无法判别输入来源(此时输出设置为0.5)，则得到端到端语音增强模型；

4)对步骤3)得到的语音增强模型进行微调(Fine-tuning)继续训练得到端到端土家语语音增强模型称为Fine-tuning DCGAN(FDCGAN)，具体操作为：采用步骤1)中的土家语原始干净语料和步骤2)得到的土家语合成带噪语料作为训练数据输入步骤3)得到的端到端的语音增强模型，并且修改模型的学习率和批处理参数进行训练，最终得到训练好的端到端土家语语音增强模型FDCGAN；

5)将待进行语音增强的土家语数据输入步骤4)得到的训练好的端到端土家语语音增强模型FDCGAN，即输出增强的土家语语音。

具体实施时，本发明采用步骤1)中的土家语原始带噪语料作为测试数据，对步骤4)得到的土家语语音增强模型进行测试，并采用语音质量评估工具对本发明提供的土家语语音增强模型进行验证和评价。

与现有技术相比，本发明的有益效果是：

本发明针对土家语语音数据中环境噪声的多样性、随机性和非平稳性提出了一种基于改进深度卷积对抗生成网络的语音增强模型，它能够进行快速增强处理，实现了对土家语音频文件进行端到端的增强处理。由于土家语具有低资源性，数据量十分有限，本发明采用汉语语音数据集作为扩展，使得模型泛化性更强。相比于现有技术，本发明在每个卷积层中加入谱归一化(Spectral Normalization,SN)，通过限制每个层的谱范数来约束网络的Lipschitz常数。在模型训练时，采用不平衡学习率可以使模型训练更加稳定，即对生成网络和判别网络分别设置学习率和不同的更新速率。通过与现有主流语音增强方法进行对比，结果表明在几乎不失真的情况下能够有效去除土家语语音中的环境噪声。

附图说明

图1是本发明方法的具体实施方案的流程框图。

图2是本发明实施例采用的端到端语音增强模型的结构示意图。

图3是本发明实施例中生成网络训练时的损失函数值变化示意图。

图4是本发明实施例中判别网络训练时的损失函数值变化示意图。

图3-图4中，横坐标为迭代次数(passes)，纵坐标为损失函数值(loss)。

图5是本发明实施例中未进行增强前的土家语语谱图。

图6是本发明实施例中进行增强后的土家语语谱图。

图5-图6中，横坐标为时间(Time)，纵坐标为频率(Hz)。

具体实施方式

下面结合附图通过实施例对本发明做进一步说明，但不以任何方式限制本发明的范围。

以下实施例采用共包括27篇口语短篇语料、总计时长为7小时8分59秒土家语数据和由25人录制而成总时长超过30小时的thchs30汉语语料库详细叙述本发明提供的语音增强方法的实施过程。

方法具体实施的流程框图如图1所示。本发明提供一种针对低资源土家语的基于深度卷积对抗生成网络的端到端语音增强方法，由于土家语具有低资源性，对实验数据进行扩展来构建数据库；采用深度卷积网络与生成对抗训练相结合来增强语音信号，并且针对土家语数据进行微调再训练，得到最终模型的泛化性更强且增强效果更好。模型直接输入原始语音信号，输出增强语音信号，端到端的方法能够保留原始语音信号时域上的相位细节信息。在深度卷积生成对抗网络中，每一个卷积层都采用谱归一化，通过修改损失函数以及网络层次参数，降低模型训练成本。在训练生成网络和判别网络时采用不平衡学习率，使得二者训练更加稳定。具体实施步骤如下：

数据预处理以及数据库的构建：

1)将土家语数据集分为两部分，一部分为有噪声数据，另一部分为无噪声数据。利用ELAN软件(一个对视频和音频数据的标识进行创建、编辑、可视化和搜索的标注工具，可为标识提供声音技术以及对多媒体剪辑进行开发利用)和语音学软件Praat脚本(一款跨平台的多功能语音学专业软件) 将语音数据切分为短句后称为土家语原始带噪语料和土家语原始干净语料，并且手动截取有噪声数据中的噪声片段，噪声种类包括公鸡叫声、小鸡叫声、机动车声电子设备干扰噪声和其他噪声，数量如表1所示：

表1土家语噪声种类及个数

2)将噪声片段通过音频转换及处理程序sox工具叠加到土家语原始干净语料和汉语原始干净语料中。噪声叠加方法是在采样点上随机选择开始位置，根据每类噪声个数占噪声总个数的比例向汉语原始干净语料中每个人的录音中注入不同噪声，如式(1)所示：

其中，N_i表示噪声i的个数，M_j表示汉语原始干净语料中第j个人的录音条数，m_ij表示向thchs30语料中第j个人的录音中注入噪声i的条数；具体实施时，i＝1,…,5,j＝1,…,25。土家语原始干净语料的噪声注入方法同理，这样得到的新语料称为土家语合成带噪语料和汉语合成带噪语料。

语音增强模型训练过程，端到端语音增强模型如图2所示：

1)将汉语原始带噪语料的语音波形(用z表示)输入生成网络中，其编码端由11个宽度为31、步长为2的1维步进卷积层组成，每层滤波器个数分别为：16、32、32、64、64、128、128、256、256、512、1024，解码端与编码端保持镜像关系，也包含11个同样参数的反卷积层。图 2中的箭头表示跳跃连接，即将卷积特征映射的信息传递给相应的反卷积层，同时接收上一个反卷积层的结将两个结果通过加权相加传递给下一个反卷积层，避免细节的丢失。每个卷积层的激活函数采用PReLU函数。生成网络输出端为汉语增强语音波形记作G(z)。

2)将生成的汉语增强语音G(z)和汉语原始干净语音输入判别网络。判别网络由一个1维的二分类卷积网络构成，有两个获取输入来源的通道，其中每个通道为16384个采样点，最后一层为1×1的卷积，每层使用 alpha值为0.3的LeakyRelu非线性激活函数。判别网络的损失函数L_D记作式(2)：

其中，x表示纯净语音；P_data表示纯净语音x服从的分布函数；z为含噪语音；P_z表示含噪语音z服从的分布函数。如果输入是G(z)则判别网络输出D(G(z))为0；如果输入是x则判别网络输出D(x)为1。

3)判别网络将判别结果传递给生成网络，生成网络根据式(3)计算损失函数L_G：

两个网络根据损失值进行反向传播更新各层权重，直到D(G(z))＝D(x) ＝0.5，即判别网络无法识别输入的信号为原始干净语音信号还是生成网络增强后的干净语音，则训练完成。

4)设置生成网络和判别网络以1比1的速率更新，两个网络在训练其一时，另一个网络保持冻结状态。生成网络学***衡学***滑，在神经网络的优化过程中，参数变化也会更稳定，不容易出现梯度***。分别使用学习速率a(n)和b(n)对生成网络和判别网络进行参数更新，表示为式(4)和式(5)：

其中，θ_n、h(θ_n,ω_n)、分别是生成网络第n次更新的参数向量、随机下降梯度、随机向量；ω_n、g(θ_n,ω_n)、是判别网络第n次更新的参数向量、随机下降梯度、随机向量。

5)在上述利用汉语语料训练好语音增强模型后，将土家语合成带噪语料和土家语原始干净语料输入，其他参数一致的情况下，设置生成网络学习率 0.00006，判别网络学习率为0.0001，批处理参数为16，对模型再次进行训练，使得模型泛化性更好。模型中生成网络和判别网络训练时的损失函数变化如图3和图4所示。

6)最终采用土家语原始带噪语料对模型进行测试，图5为未进行增强的带噪土家语语谱图，图6为增强后的土家语语谱图，根据对比本发明提出的方法能够有效去除土家语数据中的环境噪声。

将本发明提出的针对土家语语音数据的增强方法与常用的传统语音增强方法，以及基于深度循环神经网络的语音增强方法进行对比，评价指标选择主观语音质量评估(Perceptual evaluation of speech quality,PESQ)和平均意见得分-语音质量指标(Mean Opinion Score Listening Quality Objective,MOSLQO)。PESQ是语音质量评价中的一种典型算法，其采用的是线性评分制度，受到广泛使用，数值在 -0.5～4.5之间，表示输入测试语音与输出语音相比语音质量的高低，分数越高，语音质量越好。评价结果如表2所示：

表2不同增强方法结果评价对比

表2的结果表明本发明提出基于深度卷积生成对抗网络的端到端语音增强方法能够有效去除土家语中的环境噪声，具有更好的增强效果，为语音识别奠定了稳定的基础。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种针对低资源土家语的端到端语音增强方法，其特征是，基于深度卷积生成对抗网络，建立端到端的低资源土家语语音增强模型，实现端到端的土家语语音快速增强处理，有效去除土家语语音的环境噪声；包括以下步骤：

1)构建土家语语料库，对土家语录音数据进行分类和切分处理，得到土家语原始带噪语料和土家语原始干净语料，并从土家语原始带噪语料中截取得到纯噪声片段；

2)扩展语料库：利用汉语原始干净语料作为土家语的扩展数据，将纯噪声片段分别加入到土家语原始干净语料和汉语原始干净语料中，将得到的新语料分别称为土家语合成带噪语料和汉语合成带噪语料；

3)建立并训练端到端的语音增强模型；包括：

采用深度卷积生成对抗网络DCGAN建立端到端的土家语语音增强模型；

所述端到端的土家语语音增强模型包括：生成网络和判别网络；

生成网络采用编码-解码的端到端全卷积网络结构；

在网络的每个卷积层中加入谱归一化，通过限制每个卷积层的谱范数约束网络的Lipschitz常数；

采用对抗训练设置，通过将增强后的语音与真实干净语音输入判别网络中进行分类，判断输入信号的真假，并传递到生成网络，使得端到端的土家语语音增强模型将模型输出波形朝着真实的分布微调，由此达到去除噪声信号的目的；

4)对步骤3)得到的端到端的语音增强模型继续进行微调训练，得到训练好的端到端的土家语语音增强模型FDCGAN；具体操作为：

采用步骤1)中的土家语原始干净语料和步骤2)得到的土家语合成带噪语料作为训练数据输入步骤3)得到的端到端的语音增强模型，并且修改模型的学习率和批处理参数进行训练，最终得到训练好的端到端土家语语音增强模型FDCGAN；

2.如权利要求1所述针对低资源土家语的端到端语音增强方法，其特征是，步骤1)构建土家语语料库，具体包括如下操作：

11)首先根据土家语录音数据的质量将土家语语料分为两部分：无噪声数据和有噪声数据，分别为土家语原始带噪语料和土家语原始干净语料；

再利用语音处理工具将有噪声数据中的噪声片段截取出，得到纯噪声片段；

12)对语音数据的长句进行切分，得到独立短句；短句仍分为两类：土家语原始带噪语料和土家语原始干净语料。

3.如权利要求1所述针对低资源土家语的端到端语音增强方法，其特征是，步骤2)扩展语料库，具体采用清华大学30小时汉语语音数据集thchs30作为土家语的扩展数据。

4.如权利要求1所述针对低资源土家语的端到端语音增强方法，其特征是，步骤3)训练端到端的语音增强模型，具体执行如下操作：

31)将所述汉语合成带噪语料的时域波形图作为生成网络的输入；

所述时域波形图通过重叠滑窗的方式输入生成网络编码阶段的多个卷积层，得到压缩向量；

压缩向量进入生成网络解码阶段；

生成网络解码阶段与编码阶段呈镜像关系，其中的反卷积层及卷积核参数与编码阶段相对应的卷积层参数一致；每一个反卷积层同时接收上一个反卷积层结果和编码阶段中相对称的卷积层结果，将结果通过加权相加传递给下一个反卷积层，由此得到增强后的汉语干净语料；

32)判别网络接收汉语原始干净语料和步骤31)得到的增强后的汉语干净语料，经判别网络多层卷积进行分类，得到判别结果；

将判别结果传递给生成网络；

通过计算网络损失函数互相传递循环训练，直到判别网络无法判别输入来源，则得到端到端语音增强模型。

5.如权利要求4所述针对低资源土家语的端到端语音增强方法，其特征是，所述多个卷积层为11个卷积层。

6.如权利要求1所述针对低资源土家语的端到端语音增强方法，其特征是，步骤2)，将纯噪声片段分别加入到土家语原始干净语料和汉语原始干净语料中，具体通过音频转换及处理工具进行叠加；采用如下方法：

在采样点上随机选择开始位置，根据每类噪声个数占噪声总个数的比例，向汉语原始干净语料中每个人的录音中注入不同噪声，表示为式(1)：

其中，N_i表示噪声i的个数，M_j表示汉语原始干净语料中第j个人的录音条数，m_ij表示向thchs30语料中第j个人的录音中注入噪声i的条数。

7.如权利要求1所述针对低资源土家语的端到端语音增强方法，其特征是，步骤3)中，生成网络的每个卷积层的激活函数采用PReLU函数。

8.如权利要求1所述针对低资源土家语的端到端语音增强方法，其特征是，步骤3)中，判别网络由一个1维的二分类卷积网络构成，有两个获取输入来源的通道，每个通道为16384个采样点，最后一层为1×1的卷积层；

判别网络每层均使用LeakyRelu非线性激活函数；

判别网络的损失函数L_D表示为式(2)：

其中，x表示纯净语音；P_data表示纯净语音x服从的分布函数；z为含噪语音；设纯净语音x分布服从P_data，含噪语音z分布服从p_z；如果输入是G(z)则判别网络输出D(G(z))为0；如果输入是x则判别网络输出D(x)为1；

判别网络将判别结果传递给生成网络，生成网络根据式(3)计算损失函数L_G：

两个网络根据损失值进行反向传播更新各层权重，直到判别网络无法识别输入的信号为原始干净语音信号还是生成网络增强后的干净语音，则训练完成。

9.如权利要求8所述针对低资源土家语的端到端语音增强方法，其特征是，具体设置生成网络和判别网络以1比1的速率更新，生成网络和判别网络中的一个在训练时，另一个网络保持冻结状态。

10.如权利要求9所述针对低资源土家语的端到端语音增强方法，其特征是，具体采用谱归一化和不平衡学习率使得训练过程稳定；所述谱归一化限制每个层的谱范数，约束判别网络的Lipschitz常数；

分别使用学习速率a(n)和b(n)对生成网络和判别网络进行参数更新，表示为式(4)和式(6)：

其中，θ_n、h(θ_n,ω_n)、分别是生成网络第n次更新的参数向量、随机下降梯度、随机向量；ω_n、g(θ_n,ω_n)、分别是判别网络第n次更新的参数向量、随机下降梯度、随机向量。