CN112786064B - 一种端到端的骨气导语音联合增强方法 - Google Patents

一种端到端的骨气导语音联合增强方法 Download PDF

Info

Publication number
CN112786064B
CN112786064B CN202011612056.4A CN202011612056A CN112786064B CN 112786064 B CN112786064 B CN 112786064B CN 202011612056 A CN202011612056 A CN 202011612056A CN 112786064 B CN112786064 B CN 112786064B
Authority
CN
China
Prior art keywords
convolution
voice
training
bone
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011612056.4A
Other languages
English (en)
Other versions
CN112786064A (zh
Inventor
王谋
张晓雷
王逸平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202011612056.4A priority Critical patent/CN112786064B/zh
Publication of CN112786064A publication Critical patent/CN112786064A/zh
Application granted granted Critical
Publication of CN112786064B publication Critical patent/CN112786064B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种端到端的骨气导语音联合增强方法,首先同步录制气导语音和骨导语音,添加环境噪声后构造数据集;接下来构建端到端的神经网络模型,包括编码器、掩膜估计器和解码器;通过神经网络模型将带噪声的气导语音和骨导语音转化为一个单通道的语音信号;使用训练集和验证集的数据用Adam优化器对端到端的神经网络模型进行训练,直到SI‑SNR的值不再增大时,停止训练,得到最终端到端的神经网络模型。本方法相比传统的只利用气导的语音信号或者单纯骨导语音进行增强,联合增强的语音质量和可懂度都有大幅的提升,同时语音识别的错误率也显著下降。

Description

一种端到端的骨气导语音联合增强方法
技术领域
本发明属于电子信息技术领域,具体涉及一种语音联合增强方法。
背景技术
语音增强旨在改善带噪语音的质量和可懂度,被广泛应用于各类语音***的前端。近年来,由于深度学习的兴起,基于深度学习的语音增强日益受到关注,包括谱映射方法,时频掩膜方法和近一两年的端到端的时域增强方法。然而目前这些基于深度学习的语音增强方法均只使用了气导语音。
骨导麦克风通过拾取头骨等人体部位的振动信号来获得音频信号。与传统的气导语音相比,骨传导语音不会拾取环境中的噪声,因而可以从声源处屏蔽噪声,实现低信噪比下的语音通信。然而,骨导语音自身也存在许多缺点。首先,由于人体组织的低通性,骨传导语音的高频部分衰减严重,甚至缺失。通常大于800Hz的频率成分就已经十分微弱,大于2kHz的部分基本完全丢失,使得骨导语音听起来十分沉闷,可懂度降低。其次,骨导语音会引入一定的非声学干扰,说话时麦克风与皮肤的摩擦,人体运动等,进一步影响了骨导语音。最后,由于骨传导的特性,语音中的清音,摩擦音等辅音严重丢失。
骨传导语音的用法可以分为两类。一类就是用骨传导麦克风直接替换到原来***中的气导麦克风,然后对骨传导的语音进行带宽扩展,这也被称为骨导语音的盲增强。这类方法主要设计一个模型,实现从骨导语音到气导语音的映射,包括线性表示,重构滤波器,高斯混合模型和深度神经网络。然而,这类工作大多侧重于扩展骨传导语音的带宽,而忽略了骨导自身的各类噪声。另一类方法则将骨导语音作为一个辅助的信号用来提升语音增强的性能。2004年,微软研究院首先提出同时使用骨传导和气导语音进行联合语音增强。在随后的几年里,有不少类似的工作,但是这些方法都是基于传统的信号处理方法。目前为止,还没有基于端到端深度学习的骨气导语音增强的工作。
发明内容
为了克服现有技术的不足,本发明提供了一种端到端的骨气导语音联合增强方法,首先同步录制气导语音和骨导语音,添加环境噪声后构造数据集;接下来构建端到端的神经网络模型,包括编码器、掩膜估计器和解码器;通过神经网络模型将带噪声的气导语音和骨导语音转化为一个单通道的语音信号;使用训练集和验证集的数据用Adam优化器对端到端的神经网络模型进行训练,直到SI-SNR的值不再增大时,停止训练,得到最终端到端的神经网络模型。本方法相比传统的只利用气导的语音信号或者单纯骨导语音进行增强,联合增强的语音质量和可懂度都有大幅的提升,同时语音识别的错误率也显著下降。
本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤1:在无噪声环境下同步录制气导语音xa和骨导语音xb;给气导语音xa添加环境噪声,得到其中/>为带噪声的气导语音,na为环境噪声;构建数据集再将数据集划分为训练集、验证集和测试集;
步骤2:将训练集的语音数据按固定长度切割为多个小段语音;
步骤3:构建端到端的神经网络模型,所述神经网络模型包括编码器E、掩膜估计器M和解码器;
步骤3-1:所述编码器E由一维卷积构成,编码器E的输入为经过步骤2切割的数据通过编码器E将带噪声的气导语音/>和骨导语音xb转化到同一个特征空间中,输出得到特征图/>编码器E的输入通道为2,输出通道数与编码器E的一维卷积的卷积核的数量相同;
步骤3-2:所述掩膜估计器M为一个时域卷积网络,包括多个串行堆叠的卷积块,每个卷积块包括串行排列的一个1x1的卷积和一个深度可分离卷积,每个1x1的卷积后跟随一个PReLU非线性激活函数和归一化操作,每个深度可分离卷积后跟随一个PReLU非线性激活函数和归一化操作;每经过一个卷积块,1x1的卷积的扩张因子的值乘以2;
掩膜估计器M的输入为特征图z,输出为和特征图z尺寸相同的掩膜m,即m=M(z);
步骤3-3:将特征图z和掩膜估计器输出的掩膜m进行点乘,得到一个新的特征图c=z·m;
步骤3-4:所述解码器D由一维反卷积构成;将新的特征图c送入解码器D中,解码器D将新的特征图c转化为一个单通道的语音信号y=D(c);
步骤4:对端到端的神经网络模型进行训练,训练目标为最大化尺度无关的信噪比,具体表示为:
其中,<·>代表内积,SI-SNR为尺度无关的信噪比;
使用训练集和验证集的数据用Adam优化器对端到端的神经网络模型进行训练,如果用验证集验证时SI-SNR的值不再增大,则停止训练,得到最终端到端的神经网络模型;
步骤5:模型测试;
将测试集数据送入步骤4得到的最终端到端的神经网络模型,输出得到联合增强的语音信号。
优选地,所述将数据集划分为训练集、验证集和测试集的方法为将数据集的70%设置为训练集,20%设置为验证集,剩下的10%设置为测试集。
优选地,所述将训练集的语音数据按固定长度切割为多个小段语音分割中的固定长度为1s。
优选地,所述编码器E的一维卷积的卷积核大小为20,个数为256,stride设置为8,输出通道数等于256。
优选地,所述掩膜估计器M包括8个串行堆叠的卷积块。
优选地,所述解码器D的一维卷积的卷积核的大小为20,卷积核个数为1。
优选地,所述步骤4中对端到端的神经网络模型进行训练的最大训练次数设置为30个epoch,初始学习率设置为0.001。
本发明的有益效果如下:
本发明的有益效果在于同时利用带噪的气导语音和骨导语音,实现端到端的联合语音增强。相比传统的只利用气导的语音信号或者单纯骨导语音进行增强,联合增强的语音质量和可懂度都有大幅的提升,同时语音识别的错误率也显著下降。另外,由于带噪的气导语音和骨导语音的相位均有不足,因而传统的时频域的方法也面临相位估计的问题,而本发明设计的端到端的***能有效避免相位估计问题。
附图说明
图1是本发明方法的***框图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1所示,一种端到端的骨气导语音联合增强方法,包括以下步骤:
步骤1:在无噪声环境下同步录制气导语音xa和骨导语音xb;给气导语音xa添加环境噪声,得到其中/>为带噪声的气导语音,na为环境噪声;构建数据集再将数据集划分为训练集、验证集和测试集;
步骤2:将训练集的语音数据按固定长度切割为多个小段语音;
步骤3:构建端到端的神经网络模型,所述神经网络模型包括编码器E、掩膜估计器M和解码器;
步骤3-1:所述编码器E由一维卷积构成,编码器E的输入为经过步骤2切割的数据通过编码器E将带噪声的气导语音/>和骨导语音xb转化到同一个特征空间中,输出得到特征图/>编码器E的输入通道为2,输出通道数与编码器E的一维卷积的卷积核的数量相同;
步骤3-2:所述掩膜估计器M为一个时域卷积网络,包括多个串行堆叠的卷积块,每个卷积块包括串行排列的一个1x1的卷积和一个深度可分离卷积,每个1x1的卷积后跟随一个PReLU非线性激活函数和归一化操作,每个深度可分离卷积后跟随一个PReLU非线性激活函数和归一化操作;每经过一个卷积块,1x1的卷积的扩张因子的值乘以2;
掩膜估计器M的输入为特征图z,输出为和特征图z尺寸相同的掩膜m,即m=M(z);
步骤3-3:将特征图z和掩膜估计器输出的掩膜m进行点乘,得到一个新的特征图c=z·m;
步骤3-4:所述解码器D由一维反卷积构成;将新的特征图c送入解码器D中,解码器D将新的特征图c转化为一个单通道的语音信号y=D(c);
步骤4:对端到端的神经网络模型进行训练,训练目标为最大化尺度无关的信噪比,具体表示为:
其中,<·>代表内积,SI-SNR为尺度无关的信噪比;
使用训练集和验证集的数据用Adam优化器对端到端的神经网络模型进行训练,如果用验证集验证时SI-SNR的值不再增大,则停止训练,得到最终端到端的神经网络模型;
步骤5:模型测试;
将测试集数据送入步骤4得到的最终端到端的神经网络模型,输出得到联合增强的语音信号。
具体实施例:
1、获取同步的骨导和气导语音数据(xa,xb)构建数据集,其中xa为在消声实验室或者较为安静的环境下录制的纯净语音,xb为同步录制的骨导语音。将所有的语音降采样到16kHz,16bit量化。模型的输入数据为带噪的气导和骨导语音。因为骨导语音自身可以抵制环境噪声,因而,只给气导的语音按照一定的信噪比添加噪声,即为其中/>为带噪的气导语音,na为环境噪声。模型的期望的输出为对应的纯净的气导语音xa。则构建数据集为/>然后进一步将数据集的70%设置为训练集,20%设置为验证集,剩下的10%设置为测试集。
2、为了方便训练,将训练的语音数据按固定长度进行切割,本实施例中,分割的长度为1s,每1s包含16000点。
3、搭建端到端的神经网络模型。所提出的模型由三个模块构成,即编码器,掩膜估计器和解码器。
3.1编码器E由一维卷积构成,将带噪的气导语音和骨导语音转化到同一个特征空间中,得到特征图z,即一维卷积的输入通道为2,卷积层的卷积核的大小为20,个数为256,stride设置为8,输出的通道等于256。
3.2掩掩膜估计器M是一个时域卷积网络,由8个堆叠的卷积块构成,每个卷积块包含了1x1的卷积和深度可分离卷积,每个卷积后跟随着一个PReLU非线性激活函数和归一化操作,每一个卷积块的扩张因子呈指数增长。每个卷积块包含512个卷积核。膜估计器的输入为编码器得到的特征图,输出为和特征图同尺寸的掩膜m,即m=M(z)。
3.3先将编码器输出的特征图和掩膜估计器输出的掩膜进行点乘,得到一个新的特征图c=z·m,被认为是纯净的气导语音在该空间的分量。
3.4解码器D由一维卷积构成。将新的特征图送入解码器中,解码器将其转化为一个单通道的语音信号y,即y=D(c)。卷积核的大小为20,卷积核个数为1。
4、优化神经网络。网络的训练目标为最大化尺度无关的信噪比(SI-SNR),用Adam优化器对网络进行优化。最大训练次数设置为30个epoch。初始学习率设置为0.001.如果模型在验证集的指标在连续的2个epoch内没有提升,则学习率减半。如果模型在验证集上的指标在连续的5个epoch都没有提升,则停止训练,得到最佳的模型。
5、模型测试。将测试数据送入第4步得到的训练好的网络,得到联合增强的语音信号。

Claims (7)

1.一种端到端的骨气导语音联合增强方法,其特征在于,包括以下步骤:
步骤1:在无噪声环境下同步录制气导语音xa和骨导语音xb;给气导语音xa添加环境噪声,得到其中/>为带噪声的气导语音,na为环境噪声;构建数据集/>再将数据集划分为训练集、验证集和测试集;
步骤2:将训练集的语音数据按固定长度切割为多个小段语音;
步骤3:构建端到端的神经网络模型,所述神经网络模型包括编码器E、掩膜估计器M和解码器;
步骤3-1:所述编码器E由一维卷积构成,编码器E的输入为经过步骤2切割的数据通过编码器E将带噪声的气导语音/>和骨导语音xb转化到同一个特征空间中,输出得到特征图/>编码器E的输入通道为2,输出通道数与编码器E的一维卷积的卷积核的数量相同;
步骤3-2:所述掩膜估计器M为一个时域卷积网络,包括多个串行堆叠的卷积块,每个卷积块包括串行排列的一个1x1的卷积和一个深度可分离卷积,每个1x1的卷积后跟随一个PReLU非线性激活函数和归一化操作,每个深度可分离卷积后跟随一个PReLU非线性激活函数和归一化操作;每经过一个卷积块,1x1的卷积的扩张因子的值乘以2;
掩膜估计器M的输入为特征图z,输出为和特征图z尺寸相同的掩膜m,即m=M(z);
步骤3-3:将特征图z和掩膜估计器输出的掩膜m进行点乘,得到一个新的特征图c=z·m;
步骤3-4:所述解码器D由一维反卷积构成;将新的特征图c送入解码器D中,解码器D将新的特征图c转化为一个单通道的语音信号y=D(c);
步骤4:对端到端的神经网络模型进行训练,训练目标为最大化尺度无关的信噪比,具体表示为:
其中,<·>代表内积,SI-SNR为尺度无关的信噪比;
使用训练集和验证集的数据用Adam优化器对端到端的神经网络模型进行训练,如果用验证集验证时SI-SNR的值不再增大,则停止训练,得到最终端到端的神经网络模型;
步骤5:模型测试;
将测试集数据送入步骤4得到的最终端到端的神经网络模型,输出得到联合增强的语音信号。
2.根据权利要求1所述的一种端到端的骨气导语音联合增强方法,其特征在于,所述将数据集划分为训练集、验证集和测试集的方法为将数据集的70%设置为训练集,20%设置为验证集,剩下的10%设置为测试集。
3.根据权利要求1所述的一种端到端的骨气导语音联合增强方法,其特征在于,所述将训练集的语音数据按固定长度切割为多个小段语音分割中的固定长度为1s。
4.根据权利要求1所述的一种端到端的骨气导语音联合增强方法,其特征在于,所述编码器E的一维卷积的卷积核大小为20,个数为256,stride设置为8,输出通道数等于256。
5.根据权利要求1所述的一种端到端的骨气导语音联合增强方法,其特征在于,所述掩膜估计器M包括8个串行堆叠的卷积块。
6.根据权利要求1所述的一种端到端的骨气导语音联合增强方法,其特征在于,所述解码器D的一维卷积的卷积核的大小为20,卷积核个数为1。
7.根据权利要求1所述的一种端到端的骨气导语音联合增强方法,其特征在于,所述步骤4中对端到端的神经网络模型进行训练的最大训练次数设置为30个epoch,初始学习率设置为0.001。
CN202011612056.4A 2020-12-30 2020-12-30 一种端到端的骨气导语音联合增强方法 Active CN112786064B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011612056.4A CN112786064B (zh) 2020-12-30 2020-12-30 一种端到端的骨气导语音联合增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011612056.4A CN112786064B (zh) 2020-12-30 2020-12-30 一种端到端的骨气导语音联合增强方法

Publications (2)

Publication Number Publication Date
CN112786064A CN112786064A (zh) 2021-05-11
CN112786064B true CN112786064B (zh) 2023-09-08

Family

ID=75753926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011612056.4A Active CN112786064B (zh) 2020-12-30 2020-12-30 一种端到端的骨气导语音联合增强方法

Country Status (1)

Country Link
CN (1) CN112786064B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113327624B (zh) * 2021-05-25 2023-06-23 西北工业大学 一种采用端到端时域声源分离***进行环境噪声智能监测的方法
CN113314107B (zh) * 2021-05-28 2022-10-21 思必驰科技股份有限公司 训练语音增广模型的方法和装置
CN114495909B (zh) * 2022-02-20 2024-04-30 西北工业大学 一种端到端的骨气导语音联合识别方法
CN114999508B (zh) * 2022-07-29 2022-11-08 之江实验室 一种利用多源辅助信息的通用语音增强方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108986834A (zh) * 2018-08-22 2018-12-11 中国人民解放军陆军工程大学 基于编解码器架构与递归神经网络的骨导语音盲增强方法
CN110136731A (zh) * 2019-05-13 2019-08-16 天津大学 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108986834A (zh) * 2018-08-22 2018-12-11 中国人民解放军陆军工程大学 基于编解码器架构与递归神经网络的骨导语音盲增强方法
CN110136731A (zh) * 2019-05-13 2019-08-16 天津大学 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
骨导麦克风语音盲增强技术研究现状及展望;张雄伟;郑昌艳;曹铁勇;杨吉斌;邢益搏;;数据采集与处理(第05期);全文 *

Also Published As

Publication number Publication date
CN112786064A (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN112786064B (zh) 一种端到端的骨气导语音联合增强方法
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
US9008329B1 (en) Noise reduction using multi-feature cluster tracker
US8880396B1 (en) Spectrum reconstruction for automatic speech recognition
US8063809B2 (en) Transient signal encoding method and device, decoding method and device, and processing system
Hao et al. UNetGAN: A robust speech enhancement approach in time domain for extremely low signal-to-noise ratio condition
Karthik et al. Efficient speech enhancement using recurrent convolution encoder and decoder
US20240177726A1 (en) Speech enhancement
Hidayat et al. A Modified MFCC for Improved Wavelet-Based Denoising on Robust Speech Recognition.
CN114189781A (zh) 双麦神经网络降噪耳机的降噪方法及***
CN112185405B (zh) 一种基于差分运算和联合字典学习的骨导语音增强方法
WO2015027168A1 (en) Method and system for speech intellibility enhancement in noisy environments
CN110197657B (zh) 一种基于余弦相似度的动态音声特征提取方法
CN111009259B (zh) 一种音频处理方法和装置
Zhao et al. Time-Domain Target-Speaker Speech Separation with Waveform-Based Speaker Embedding.
Shifas et al. End-to-end neural based modification of noisy speech for speech-in-noise intelligibility improvement
Lan et al. Research on speech enhancement algorithm of multiresolution cochleagram based on skip connection deep neural network
CN114023352B (zh) 一种基于能量谱深度调制的语音增强方法及装置
US20230386492A1 (en) System and method for suppressing noise from audio signal
CN113327589B (zh) 一种基于姿态传感器的语音活动检测方法
CN111968627B (zh) 一种基于联合字典学习和稀疏表示的骨导语音增强方法
WO2023287782A1 (en) Data augmentation for speech enhancement
Zhu et al. A robust and lightweight voice activity detection algorithm for speech enhancement at low signal-to-noise ratio
Lan et al. Speech Enhancement Algorithm Combining Cochlear Features and Deep Neural Network with Skip Connections
CN112259118A (zh) 单声道人声与背景音乐分离方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant