CN112599145A - 基于生成对抗网络的骨传导语音增强方法 - Google Patents

基于生成对抗网络的骨传导语音增强方法 Download PDF

Info

Publication number
CN112599145A
CN112599145A CN202011427512.8A CN202011427512A CN112599145A CN 112599145 A CN112599145 A CN 112599145A CN 202011427512 A CN202011427512 A CN 202011427512A CN 112599145 A CN112599145 A CN 112599145A
Authority
CN
China
Prior art keywords
network
bone conduction
voice
data
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011427512.8A
Other languages
English (en)
Inventor
魏建国
周秋闰
何宇清
路文焕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202011427512.8A priority Critical patent/CN112599145A/zh
Publication of CN112599145A publication Critical patent/CN112599145A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及语音信号处理、深度学习领域,为在消防、特勤、矿山开采、紧急救援等极端强噪音行业中使得骨导设备获得更好的效果,在强噪声背景下取得良好的语音通信质量。为此,本发明采取的技术方案是,基于生成对抗网络的骨传导语音增强方法,对采集到的骨传导、气传导语音进行包括短时傅里叶变换和裁剪的预处理;其次,将预处理得到的语音数据输入构建好的对抗生成网络进行训练;最后,将需要增强的骨导语音输入训练好的所述对抗生成网络的生成器G,得到的输出结果再进行逆短时傅里叶变换重构生成增强的骨传导语音。本发明主要应用于骨导语音信号处理场合。

Description

基于生成对抗网络的骨传导语音增强方法
技术领域
本发明涉及语音信号处理、深度学习领域,具体为一种基于对抗生成网络的语音增强方法,用于对骨传导语音进行增强便于使用骨传导设备进行通信。
背景技术
语音作为人与人、人与机器之间沟通交流的原始且重要的载体传达着各种各样的信息,广泛作用语交流、发布指令等各种场景。然而我们生活的环境中经常充满各种噪声,人或舍不在接受语音信号的过程中难免会收到环境噪声的干扰。语音增强是运用预测估计的方法尽可能的从被噪声污染的语音信号中提取干净有用信号的过程,研究语音增强技术在实际生活、生产中有着重要的价值。虽然现代的语音增强技术已取得了重大进展,但是在复杂强噪声环境下,现有的语音增强算法性能会大幅下降。
和传统气传导麦克风采集声音的方式不同的,骨传导麦克风采集的声音不是来自于空气,而是通过振动传感器采集骨骼的振动,然后再转换为音频信号。它从声源处就屏蔽了绝大部分环境噪声,因此即使在强噪声环境下通讯有用信号也可以较好的传递。虽然骨导语音能够有效抵抗环境噪声的干扰,但由于声音传输路径的变化和传感器工艺水平的限制,同时骨导语音中也会混入皮肤与传感器摩擦、强风摩擦等噪声,骨导语音的质量比起气导语音有较明显的下降。因此,开展对骨导语音增强算法的研究,对进一步改善强噪声环境下的语音通信质量,进一步扩大骨导麦克风的应用范围,具有重要的理论意义和实用价值。
发明内容
为克服现有技术的不足,本发明旨在提出一种基于对抗生成网络的骨传导语音增强方法,解决目前复杂强噪声环境下通信质量较差且现有语音增强技术效果无法令人满意,在消防、特勤、矿山开采、紧急救援等极端强噪音行业中使得骨导设备获得更好的效果,在强噪声背景下取得良好的语音通信质量。为此,本发明采取的技术方案是,基于生成对抗网络的骨传导语音增强方法,对采集到的骨传导、气传导语音进行包括短时傅里叶变换和裁剪的预处理;其次,将预处理得到的语音数据输入构建好的对抗生成网络进行训练;最后,将需要增强的骨导语音输入训练好的所述对抗生成网络的生成器G,得到的输出结果再进行逆短时傅里叶变换重构生成增强的骨传导语音。
步骤一,语音数据预处理:
首先通过骨导麦克风和气导麦克风设备录制好的骨导、气导数据,接下来需要对骨导、气导数据进行加窗分帧操作,截取10~30ms为一帧,而在截取语音帧的时候要设置合适的帧移,也就是前后两帧之间会有小于或等于一半帧长的重叠,窗口的选择采用汉明窗来对语音信号进行加权处理,式(1)给出了汉明窗的窗函数:
Figure BDA0002819583830000011
使用短时傅里叶变换:非平稳信号f(t)在分析窗口w(t)的一个短时间隔内是平稳的,如果移动分析窗函数,使得f(t)w(t-τ)在不同的有限时间段内也平稳,从而可以计算出非平稳信号在各个不同时刻的功率谱,非平稳信号f(t)的短时傅里叶变换表示为:
Figure BDA0002819583830000021
然后对于原始语音数据做STFT变换;
步骤二:构造生成对抗网络并进行训练:
概率生成模型:在一个连续的或离散的高维空间χ中,存在一个随机向量X服从一个未知的数据分布pr(x),x∈χ,生成模型是根据一些可观测的样本x(1),x(2),……,x(N)来学习一个参数化的模型pθ(x)来近似未知分布pr(x),并利用这个模型来生成一些样本,使得“生成”的样本和“真实”的样本尽可能地相似;
深度生成模型就是利用深层神经网络近似任意函数的能力来建模一个复杂的分布pr(x),假设一个随机向量Z服从一个简单的分布p(z),z∈Z,使用一个深层神经网络g:Z→χ,并使得g(z)服从pr(x),在低维空间Z中有一个简单容易采样的分布p(z),p(z)通常为标准多元正态分布N(0,I),用神经网络构建一个映射函数G:Z→χ,称为生成网络,利用神经网络的拟合能力,使得G(z)服从数据分布pr(x);
判别器(Discriminator)
Figure BDA0002819583830000022
的目标是区分出一个样本x是来自于真实分布pr(x)还是来自于生成模型pθ(x),用标签y=1来表示样本来自真实分布,y=0表示样本来自模型,判别网络D(x;φ)的输出为x属于真实数据分布的概率,即
Figure BDA0002819583830000023
则样本来自模型生成的概率为:
Figure BDA0002819583830000024
给定一个样本(x,y),y={1,0}表示其自于pr(x)还是pθ(x),判别网络的目标函数为最小化交叉熵,即最大化对数似然:
Figure BDA0002819583830000025
Figure BDA0002819583830000026
其中θ和
Figure BDA0002819583830000027
分别是生成网络和判别网络的参数;
生成器(Generator)的目标刚好和判别网络相反,即让判别网络将自己生成的样本判别为真实样本:
Figure BDA0002819583830000028
将判别网络和生成网络合并,整个生成对抗网络的整个目标函数看作最小化最大化游戏,整体目标函数如下:
minGmaxDV(D,G)=Ex~pdata(x)[logD(x)]+Ez~pz(z)[log(1-D(G(z))] (7)
分别使用气传导语音的短时傅里叶变换语谱数据和骨传导语音的短时傅里叶变换语谱数据作为生成对抗网络的输入,其中将气传导语音的语谱数据看作来自真实分布的样本,将生成器G生成的骨传导语音的增强语谱数据看作来自模型生成的数据,通过对抗训练生成器G和判别器D,得到类似气传导语音的增强骨传导语谱数据,从而达到增强骨传导语音的目的;
生成器G由带跳跃连接的全卷积神经网络构成,生成器G一共有8层,卷积核数量设定为64个,分为编码器Encoder和解码器Decoder两个部分;
判别器D则是一个二分类的卷积神经网络,一共有3层卷积层,将气传导语音语谱数据核骨传导语音语谱数据输入判别器D进行训练,训练判别器识别来自真实数据的气传导语音数据并给出高分接近1,识别生成器G生成的增强骨传导语音数据并给出低分。
使用随机梯度下降算法训练生成对抗网络,并采用Adam优化器进行优化,网络的权重使用均值为零且标准偏差为0.02的正态分布进行了初始化,并且在生成对抗网络的损失函数中添加系数为100的L1损失函数。
本发明的特点及有益效果是:
本发明使用了对抗生成网络,对原本音质较差的骨传导语音进行了增强处理,增强后的骨传导语音在音质和可理解度方面有较明显的提升。本发明对改善强噪声环境下的语音通信质量、进一步扩大骨导麦克风的应用范围,具有重要的指导意义和实用价值。
附图说明:
图1基于生成对抗网络的骨导语音增强方法流程图。
图2生成对抗网络流程图。
图3增强语音重构流程图。
图4骨传导语音和增强的骨传导语音语谱对比图。
具体实施方式
本发明的内容在于此方法首先使用生成对抗网络对骨传导语音进行了增强。对采集到的骨传导、气传导语音进行短时傅里叶变换和裁剪等预处理。其次,将预处理得到的语音数据输入构建好的对抗生成网络进行训练。最后,本方法将需要增强的骨导语音输入训练好的生成器G,得到的输出结果再进行逆短时傅里叶变换重构生成增强的骨传导语音。
从整体上而言,本发明包括三个功能模块,分别为:骨传导语音和气传导语音预处理模块、对抗生成网络训练模块和骨传导语音增强模块。其中,骨传导和气传导语音预处理模块是用来对采集到的骨传导语音和气传导语音做短时傅里叶变换和尺寸裁剪等预处理;对抗生成网络训练模块是用来以输入的骨传导和气传导数据为基础、对生成器G和鉴别器D进行对抗训练;骨传导语音增强模块是用来使用训练好的生成器G对骨传导语音进行增强,然后对增强后的数据进行逆短时傅里叶变换得到最后的增强的骨传导语音。
基于生成对抗网络的骨传导语音增强方法的具体实现步骤如下:
步骤一,语音数据预处理:
首先通过骨导麦克风和气导麦克风设备录制好的骨导、气导数据,以16kHz的采样率分别保存为wav文件并且以对应的文件名命名。接下来需要对语音信号进行加窗分帧操作,一般截取10~30ms为一帧,因为在该时间段内语音信号视为平稳过程,而在截取语音帧的时候要设置合适的帧移,也就是前后两帧之间会有小于或等于一半帧长的重叠,这主要是为了语音帧间的平滑过渡。窗口的选择(包括形状和长度)要尽量减小语音帧的截断效应,即减小时间窗两端的坡度使得窗口边缘两端不引起急剧变化而平稳过渡,本方法采用汉明窗等有限长度窗函数来对语音信号进行加权处理,式(1)给出了汉明窗的窗函数:
Figure BDA0002819583830000041
加了窗之后,原始语音信号就被截成了很多具备平稳特性的短时语音帧,然后可通过提取语音特征参数来实现进一步的语音研究。
传统的信号分析是建立在傅里叶变换的基础上的,由于傅里叶分析实现的是一种全局变换,要么完全在时域、要么完全在频域,因此无法表述信号的时频局部性质,而这种性质恰恰是非平稳信号最根本和最关键的性质。为了分析和处理非平稳信号,学者们对傅里叶分析进行了推广乃至根本性的变革,提出并发展了一系列新的信号分析理论。本次方法使用了短时傅里叶变换,其基本思想是:假定非平稳信号f(t)在分析窗口w(t)的一个短时间隔内是平稳的,如果移动分析窗函数,使得f(t)w(t-τ)在不同的有限时间段内也平稳,从而可以计算出非平稳信号在各个不同时刻的功率谱。非平稳信号f(t)的短时傅里叶变换可以表示为:
Figure BDA0002819583830000042
对于原始语音数据做STFT变换,参数设定选择采样率为16kHz,FFT采样点为512个,海明窗长为32ms,帧重叠为16ms。在这样的参数设定下,频率分辨率为16kHz/512=31.25Hz。由于对称性,只需要考虑覆盖正频率的257个点的STFT量级向量。同时忽略STFT语谱中的最后一行,即代表信号最高31.25Hz的频率段。这样的数据量损失造成的影响基本可以忽略不记,但是可以允许后期设计2的幂指数尺寸的生成器和鉴别器的输入,使得之后生成对抗网络的训练更加高效。
步骤二:构造生成对抗网络并进行训练:
概率生成模型,简称生成模型(Generative Model),是概率统计和机器学习中的一类重要模型,指一系列用于随机生成可观测数据的模型。假设在一个连续的或离散的高维空间χ中,存在一个随机向量X服从一个未知的数据分布pr(x),x∈χ。生成模型是根据一些可观测的样本x(1),x(2),……,x(N)来学习一个参数化的模型pθ(x)来近似未知分布pr(x),并可以用这个模型来生成一些样本,使得“生成”的样本和“真实”的样本尽可能地相似。
深度生成模型就是利用深层神经网络可以近似任意函数的能力来建模一个复杂的分布pr(x)。假设一个随机向量Z服从一个简单的分布p(z),z∈Z(比如标准正态分布),可以使用一个深层神经网络g:Z→χ,并使得g(z)服从pr(x)。假设在低维空间Z中有一个简单容易采样的分布p(z),p(z)通常为标准多元正态分布N(0,I)。用神经网络构建一个映射函数G:Z→χ,称为生成网络。利用神经网络强大的拟合能力,使得G(z)服从数据分布pr(x)。
生成对抗网络(Generative Adversarial Networks,GAN)是通过对抗训练的方式来使得生成网络产生的样本服从真实数据分布。在生成对抗网络中,有两个网络进行对抗训练。一个是判别网络,目标是尽量准确地判断一个样本是来自于真实数据还是生成网络产生的;另一个是生成网络,目标是尽量生成判别网络无法区分来源的样本。这两个目标相反的网络不断地进行交替训练。当最后收敛时,如果判别网络再也无法判断出一个样本的来源,那么也就等价于生成网络可以生成符合真实数据分布的样本。
判别器(Discriminator)
Figure BDA0002819583830000051
的目标是区分出一个样本x是来自于真实分布pr(x)还是来自于生成模型pθ(x),因此判别网络实际上是一个两类分类器。用标签y=1来表示样本来自真实分布,y=0表示样本来自模型,判别网络D(x;φ)的输出为x属于真实数据分布的概率,即
Figure BDA0002819583830000052
则样本来自模型生成的概率为:
Figure BDA0002819583830000053
给定一个样本(x,y),y={1,0}表示其自于pr(x)还是pθ(x),判别网络的目标函数为最小化交叉熵,即最大化对数似然:
Figure BDA0002819583830000054
Figure BDA0002819583830000055
其中θ和
Figure BDA0002819583830000056
分别是生成网络和判别网络的参数。
生成器(Generator Network)的目标刚好和判别网络相反,即让判别网络将自己生成的样本判别为真实样本:
Figure BDA0002819583830000057
将判别网络和生成网络合并,整个生成对抗网络的整个目标函数看作最小化最大化游戏(Minimax Game),整体目标函数如下:
minGmaxDV(D,G)=Ex~pdata(x)[logD(x)]+Ez~pz(z)[log(1-D(G(z))] (7)
在本发明中,分别使用气传导语音的短时傅里叶变换语谱数据和骨传导语音的短时傅里叶变换语谱数据作为生成对抗网络的输入。其中将气传导语音的语谱数据看作来自真实分布的样本,将生成器G生成的骨传导语音的增强语谱数据看作来自模型生成的数据。通过对抗训练生成器G和判别器D,得到类似气传导语音的增强骨传导语谱数据,从而达到增强骨传导语音的目的。
生成器G由带跳跃连接的全卷积神经网络构成。生成器G一共有8层,卷积核数量设定为64个,可以分为编码器Encoder和解码器Decoder两个部分。生成器G的输出输入尺寸为256x256,在编码器Encoder部分首先进行下采样卷积:第一层卷积卷积步长为2,卷积核数量为64,卷积后得到的输出尺寸为128x128x64;第二层的卷积步长为2,卷积核数量为128,卷积后得到的输出尺寸为64x64x128;第三层卷积步长为2,卷积核数量为256,卷积后的输出尺寸为32x32x256;第四层卷积步长为2,卷积核数量为512,卷积后的输出尺寸为16x16x512;第五层卷积步长为2,卷积核数量为512,卷积后输出尺寸为8*8*512;第六层卷积步长为2,卷积核数量为512,卷积后输出尺寸为4*4*512;第七层卷积步长为2,卷积核数量为512,卷积后输出尺寸为2*2*512。经过七层卷积之后,输入数据达到瓶颈层。达到瓶颈层的数据通过解码器上采样,通过同样的参数设置反卷积恢复到256*256尺寸进行输出。同时在对应的下采样层核上采样层之间建立跳跃连接,将更深层(有更富的全局信息)的训练和更浅层(有更多的局部细节)的训练结合起来,这样可以在遵守全局训练的同时进行局部训练,进一步提高了生成器的性能。
判别器D则是一个二分类的卷积神经网络,一共有3层卷积层。训练调度器会分别将气传导语音语谱数据核骨传导语音语谱数据输入判别器D进行训练,训练判别器识别来自真实数据的气传导语音数据并给出高分(接近1),识别生成器G生成的增强骨传导语音数据并给出低分(接近0)。
本发明使用随机梯度下降算法训练生成对抗网络,并采用Adam优化器进行优化。训练周期设置为400次,学习率设置为0.0002,并且设置学习率在训练周期一半的时候开始线性衰减。网络的权重使用均值为零且标准偏差为0.02的正态分布进行了初始化,并且在生成对抗网络的损失函数中添加系数为100的L1损失函数。
步骤三:使用训练好的网络进行骨导语音的增强:
首先读取步骤二训练好的生成器G的配置文件。将需要增强的骨导语音数据进行短时傅里叶变换处理,得到的短时傅里叶语谱分别进行取模操作和取相位操作,把取模操作得到的数据输入进生成器G中进行增强。生成器得到的增强数据再结合之前对短时傅里叶语谱的相位部分,通过拟傅里叶变换重构得到增强的骨导语音。

Claims (3)

1.一种基于生成对抗网络的骨传导语音增强方法,其特征是,对采集到的骨传导、气传导语音进行包括短时傅里叶变换和裁剪的预处理;其次,将预处理得到的语音数据输入构建好的对抗生成网络进行训练;最后,将需要增强的骨导语音输入训练好的所述对抗生成网络的生成器G,得到的输出结果再进行逆短时傅里叶变换重构生成增强的骨传导语音。
2.如权利要求1所述的基于生成对抗网络的骨传导语音增强方法,其特征是,步骤一,语音数据预处理:
首先通过骨导麦克风和气导麦克风设备录制好的骨导、气导数据,接下来需要对骨导、气导数据进行加窗分帧操作,截取10~30ms为一帧,而在截取语音帧的时候要设置合适的帧移,也就是前后两帧之间会有小于或等于一半帧长的重叠,窗口的选择采用汉明窗来对语音信号进行加权处理,式(1)给出了汉明窗的窗函数:
Figure FDA0002819583820000011
使用短时傅里叶变换:非平稳信号f(t)在分析窗口w(t)的一个短时间隔内是平稳的,如果移动分析窗函数,使得f(t)w(t-τ)在不同的有限时间段内也平稳,从而可以计算出非平稳信号在各个不同时刻的功率谱,非平稳信号f(t)的短时傅里叶变换表示为:
Figure FDA0002819583820000012
然后对于原始语音数据做STFT变换;
步骤二:构造生成对抗网络并进行训练:
概率生成模型:在一个连续的或离散的高维空间χ中,存在一个随机向量X服从一个未知的数据分布pr(x),x∈χ,生成模型是根据一些可观测的样本x(1),x(2),……,x(N)来学习一个参数化的模型pθ(x)来近似未知分布pr(x),并利用这个模型来生成一些样本,使得“生成”的样本和“真实”的样本尽可能地相似;
深度生成模型就是利用深层神经网络近似任意函数的能力来建模一个复杂的分布pr(x),假设一个随机向量Z服从一个简单的分布p(z),z∈Z,使用一个深层神经网络g:Z→χ,并使得g(z)服从pr(x),在低维空间Z中有一个简单容易采样的分布p(z),p(z)通常为标准多元正态分布N(0,I),用神经网络构建一个映射函数G:Z→χ,称为生成网络,利用神经网络的拟合能力,使得G(z)服从数据分布pr(x);
判别器(Discriminator)
Figure FDA0002819583820000013
的目标是区分出一个样本x是来自于真实分布pr(x)还是来自于生成模型pθ(x),用标签y=1来表示样本来自真实分布,y=0表示样本来自模型,判别网络D(x;φ)的输出为x属于真实数据分布的概率,即
Figure FDA0002819583820000014
则样本来自模型生成的概率为:
Figure FDA0002819583820000015
给定一个样本(x,y),y={1,0}表示其自于pr(x)还是pθ(x),判别网络的目标函数为最小化交叉熵,即最大化对数似然:
Figure FDA0002819583820000016
Figure FDA0002819583820000017
其中θ和
Figure FDA0002819583820000021
分别是生成网络和判别网络的参数;
生成器(Generator)的目标刚好和判别网络相反,即让判别网络将自己生成的样本判别为真实样本:
Figure FDA0002819583820000022
将判别网络和生成网络合并,整个生成对抗网络的整个目标函数看作最小化最大化游戏,整体目标函数如下:
minGmaxDV(D,G)=Ex~pdata(x)[logD(x)]+Ez~pz(z)[log(1-D(G(z))] (7)
分别使用气传导语音的短时傅里叶变换语谱数据和骨传导语音的短时傅里叶变换语谱数据作为生成对抗网络的输入,其中将气传导语音的语谱数据看作来自真实分布的样本,将生成器G生成的骨传导语音的增强语谱数据看作来自模型生成的数据,通过对抗训练生成器G和判别器D,得到类似气传导语音的增强骨传导语谱数据,从而达到增强骨传导语音的目的;
生成器G由带跳跃连接的全卷积神经网络构成,生成器G一共有8层,卷积核数量设定为64个,分为编码器Encoder和解码器Decoder两个部分;
判别器D则是一个二分类的卷积神经网络,一共有3层卷积层,将气传导语音语谱数据核骨传导语音语谱数据输入判别器D进行训练,训练判别器识别来自真实数据的气传导语音数据并给出高分接近1,识别生成器G生成的增强骨传导语音数据并给出低分。
3.如权利要求1所述的基于生成对抗网络的骨传导语音增强方法,其特征是,使用随机梯度下降算法训练生成对抗网络,并采用Adam优化器进行优化,网络的权重使用均值为零且标准偏差为0.02的正态分布进行了初始化,并且在生成对抗网络的损失函数中添加系数为100的L1损失函数。
CN202011427512.8A 2020-12-07 2020-12-07 基于生成对抗网络的骨传导语音增强方法 Pending CN112599145A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011427512.8A CN112599145A (zh) 2020-12-07 2020-12-07 基于生成对抗网络的骨传导语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011427512.8A CN112599145A (zh) 2020-12-07 2020-12-07 基于生成对抗网络的骨传导语音增强方法

Publications (1)

Publication Number Publication Date
CN112599145A true CN112599145A (zh) 2021-04-02

Family

ID=75191383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011427512.8A Pending CN112599145A (zh) 2020-12-07 2020-12-07 基于生成对抗网络的骨传导语音增强方法

Country Status (1)

Country Link
CN (1) CN112599145A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113314109A (zh) * 2021-07-29 2021-08-27 南京烽火星空通信发展有限公司 一种基于循环生成网络的语音生成方法
CN113420870A (zh) * 2021-07-04 2021-09-21 西北工业大学 用于水声目标识别的U-Net结构生成对抗网络及方法
CN114495958A (zh) * 2022-04-14 2022-05-13 齐鲁工业大学 一种基于时间建模生成对抗网络的语音增强***
CN115497496A (zh) * 2022-09-22 2022-12-20 东南大学 一种基于FirePS卷积神经网络的语音增强方法
CN116416963A (zh) * 2023-06-12 2023-07-11 深圳市遐拓科技有限公司 适用于消防头盔中骨传导清晰化处理模型的语音合成方法
CN117633528A (zh) * 2023-11-21 2024-03-01 元始智能科技(南通)有限公司 一种基于小样本数据修复与增强的制造车间能耗预测技术
WO2024050802A1 (zh) * 2022-09-09 2024-03-14 华为技术有限公司 一种语音信号的处理方法、神经网络的训练方法及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886967A (zh) * 2017-11-18 2018-04-06 中国人民解放军陆军工程大学 一种深度双向门递归神经网络的骨导语音增强方法
CN110136731A (zh) * 2019-05-13 2019-08-16 天津大学 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法
CN110648684A (zh) * 2019-07-02 2020-01-03 中国人民解放军陆军工程大学 一种基于WaveNet的骨导语音增强波形生成方法
CN110718232A (zh) * 2019-09-23 2020-01-21 东南大学 一种基于二维语谱图和条件生成对抗网络的语音增强方法
US20200265857A1 (en) * 2019-02-15 2020-08-20 Shenzhen GOODIX Technology Co., Ltd. Speech enhancement method and apparatus, device and storage mediem
CN111968627A (zh) * 2020-08-13 2020-11-20 中国科学技术大学 一种基于联合字典学习和稀疏表示的骨导语音增强方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886967A (zh) * 2017-11-18 2018-04-06 中国人民解放军陆军工程大学 一种深度双向门递归神经网络的骨导语音增强方法
US20200265857A1 (en) * 2019-02-15 2020-08-20 Shenzhen GOODIX Technology Co., Ltd. Speech enhancement method and apparatus, device and storage mediem
CN110136731A (zh) * 2019-05-13 2019-08-16 天津大学 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法
CN110648684A (zh) * 2019-07-02 2020-01-03 中国人民解放军陆军工程大学 一种基于WaveNet的骨导语音增强波形生成方法
CN110718232A (zh) * 2019-09-23 2020-01-21 东南大学 一种基于二维语谱图和条件生成对抗网络的语音增强方法
CN111968627A (zh) * 2020-08-13 2020-11-20 中国科学技术大学 一种基于联合字典学习和稀疏表示的骨导语音增强方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DAIKI WATANABE ET AL.: "《Speech enhancement for bone-conducted speech based on low-order cepstrum restoration》", 《2017 INTERNATIONAL SYMPOSIUM ON INTELLIGENT SIGNAL PROCESSING AND COMMUNICATION SYSTEMS (ISPACS)》 *
QING PAN ET AL.: "《Bone-Conducted Speech to Air-Conducted Speech Conversion Based on CycleConsistent Adversarial Networks》", 《2020 IEEE 3RD INTERNATIONAL CONFERENCE ON INFORMATION COMMUNICATION AND SIGNAL PROCESSING (ICICSP)》 *
张雄伟等: "骨导麦克风语音盲增强技术研究现状及展望", 《数据采集与处理》 *
樊良辉 等: "《基于条件生成对抗网络的语音增强》", 《计算机与数字工程》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420870A (zh) * 2021-07-04 2021-09-21 西北工业大学 用于水声目标识别的U-Net结构生成对抗网络及方法
CN113420870B (zh) * 2021-07-04 2023-12-22 西北工业大学 用于水声目标识别的U-Net结构生成对抗网络及方法
CN113314109A (zh) * 2021-07-29 2021-08-27 南京烽火星空通信发展有限公司 一种基于循环生成网络的语音生成方法
CN113314109B (zh) * 2021-07-29 2021-11-02 南京烽火星空通信发展有限公司 一种基于循环生成网络的语音生成方法
CN114495958A (zh) * 2022-04-14 2022-05-13 齐鲁工业大学 一种基于时间建模生成对抗网络的语音增强***
CN114495958B (zh) * 2022-04-14 2022-07-05 齐鲁工业大学 一种基于时间建模生成对抗网络的语音增强***
WO2024050802A1 (zh) * 2022-09-09 2024-03-14 华为技术有限公司 一种语音信号的处理方法、神经网络的训练方法及设备
CN115497496A (zh) * 2022-09-22 2022-12-20 东南大学 一种基于FirePS卷积神经网络的语音增强方法
CN115497496B (zh) * 2022-09-22 2023-11-14 东南大学 一种基于FirePS卷积神经网络的语音增强方法
CN116416963A (zh) * 2023-06-12 2023-07-11 深圳市遐拓科技有限公司 适用于消防头盔中骨传导清晰化处理模型的语音合成方法
CN116416963B (zh) * 2023-06-12 2024-02-06 深圳市遐拓科技有限公司 适用于消防头盔中骨传导清晰化处理模型的语音合成方法
CN117633528A (zh) * 2023-11-21 2024-03-01 元始智能科技(南通)有限公司 一种基于小样本数据修复与增强的制造车间能耗预测技术

Similar Documents

Publication Publication Date Title
CN112599145A (zh) 基于生成对抗网络的骨传导语音增强方法
Yin et al. Phasen: A phase-and-harmonics-aware speech enhancement network
CN109671433B (zh) 一种关键词的检测方法以及相关装置
CN107452389B (zh) 一种通用的单声道实时降噪方法
US8880396B1 (en) Spectrum reconstruction for automatic speech recognition
CN103489446B (zh) 复杂环境下基于自适应能量检测的鸟鸣识别方法
CN106504763A (zh) 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法
CN108831499A (zh) 利用语音存在概率的语音增强方法
Xiao et al. Normalization of the speech modulation spectra for robust speech recognition
Shahnaz et al. Pitch estimation based on a harmonic sinusoidal autocorrelation model and a time-domain matching scheme
Wang et al. A structure-preserving training target for supervised speech separation
CN111312275B (zh) 一种基于子带分解的在线声源分离增强***
CN103021405A (zh) 基于music和调制谱滤波的语音信号动态特征提取方法
CN111899750B (zh) 联合耳蜗语音特征和跳变深层神经网络的语音增强算法
Ince et al. Ego noise suppression of a robot using template subtraction
CN114041185A (zh) 用于确定深度过滤器的方法和装置
Li et al. A si-sdr loss function based monaural source separation
Paikrao et al. Consumer Personalized Gesture Recognition in UAV Based Industry 5.0 Applications
CN103890843B (zh) 信号噪声衰减
CN116994600B (zh) 基于音频驱动角色口型的方法及***
Selvi et al. Hybridization of spectral filtering with particle swarm optimization for speech signal enhancement
CN114189781A (zh) 双麦神经网络降噪耳机的降噪方法及***
Jamal et al. A comparative study of IBM and IRM target mask for supervised malay speech separation from noisy background
Liu et al. Speech enhancement based on discrete wavelet packet transform and Itakura-Saito nonnegative matrix factorisation
Ouzounov A robust feature for speech detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210402