CN107077860B - 用于将有噪音频信号转换为增强音频信号的方法 - Google Patents

用于将有噪音频信号转换为增强音频信号的方法 Download PDF

Info

Publication number
CN107077860B
CN107077860B CN201580056485.9A CN201580056485A CN107077860B CN 107077860 B CN107077860 B CN 107077860B CN 201580056485 A CN201580056485 A CN 201580056485A CN 107077860 B CN107077860 B CN 107077860B
Authority
CN
China
Prior art keywords
noisy
speech
signal
network
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580056485.9A
Other languages
English (en)
Other versions
CN107077860A (zh
Inventor
H·埃尔多安
J·赫尔希
渡部晋治
J·勒鲁克斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN107077860A publication Critical patent/CN107077860A/zh
Application granted granted Critical
Publication of CN107077860B publication Critical patent/CN107077860B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Machine Translation (AREA)
  • Complex Calculations (AREA)

Abstract

通过首先从环境获取有噪音频信号,方法将该有噪音频信号转换为增强音频信号。通过具有网络参数的增强网络来处理该有噪音频信号,以共同产生幅度掩蔽和相位估计。然后,使用所述幅度掩蔽和相位估计来获得增强音频信号。

Description

用于将有噪音频信号转换为增强音频信号的方法
技术领域
本发明涉及处理音频信号,并且更具体地涉及使用该信号的相位来增强有噪音频语音信号。
背景技术
在语音增强中,目的是获得“增强语音”,其是对有噪语音处理后的版本,在某种意义上更接近真正的“纯净语音”或“目标语音”。
应注意,纯净语音被认为仅能在训练期间获得,而不能在***的真实使用期间获得。对于训练,可以利用近讲麦克风来获得纯净语音,而可以利用同时录音的远场麦克风来获得有噪语音。或者,给定单独的纯净语音信号和噪声信号,可以将所述信号叠加在一起以获得有噪语音信号,其中可以将纯净语音和有噪语音对一起用于训练。
语音增强和语音识别可以被认为是不同却相关的问题。良好的语音增强***当然可以用作语音识别***的输入模块。反过来,语音识别可能被用于改善语音增强,因为识别包含附加的信息。然而,并不清楚如何共同构建用于增强任务和识别任务两者的多任务循环(recurrent)神经网络***。
在本文中,我们把语音增强当作从“有噪语音”获得“增强语音”的问题。另一方面,术语语音分离是指将“目标语音”从背景信号分离出来,其中,背景信号可以是任何其它非语音音频信号,或者甚至是不感兴趣的其它非目标语音信号。我们所使用的术语语音增强还包括语音分离,因为我们把所有背景信号的组合都视为噪声。
在语音分离和语音增强应用中,通常在短时傅里叶变换(STFT)域中进行处理。STFT获得信号的复域频谱-时间(或时间-频率)表示。观测到的有噪信号的STFT可以被写为目标语音信号的STFT和噪声信号的STFT之和。信号的STFT是复数,并且求和是在复域中进行。然而,在常规方法中,相位被忽略,并且假设观测到的信号的STFT的幅度等于目标音频和噪声信号的STFT的幅度之和,这是粗略的假设。因此,现有技术中的焦点已经在给定有噪语音信号作为输入的情况下对“目标语音”的幅度预测上。在从其STFT重建时域增强信号期间,有噪信号的相位被用作增强语音的STFT的估计相位。这一点通常通过声称增强语音的相位的最小均方误差(MMSE)估计是有噪信号的相位来进行证明。
发明内容
本发明的实施方式提供了一种将有噪语音信号转换为增强语音信号的方法。
通过自动语音识别(ASR)***来处理有噪语音以产生ASR特征。ASR特征与有噪语音频谱特征组合,并利用在训练过程中学习到的网络参数被传递给深度循环神经网络(DRNN),以产生掩蔽,该掩蔽应用到有噪语音以产生增强语音。
语音在短时傅立叶变换(STFT)域中处理。虽然存在多种用于从有噪语音计算增强语音的STFT幅度的方法,但我们专注于基于深度循环神经网络(DRNN)的方案。这些方案使用从有噪语音信号的STFT获得的特征作为输入,以在输出获得增强语音信号的STFT的幅度。这些有噪语音信号特征可以是频谱幅度、频谱功率或它们的对数,可以使用从有噪信号的STFT获得的对数梅尔滤波器组特征,或其它类似的频谱-时间特征。
在我们的基于循环神经网络的***中,循环神经网络预测“掩蔽”或“滤波器”,其直接乘以有噪语音信号的STFT,以获得增强信号的STFT。“掩蔽”对于每个时间频率窗具有0到1之间的值,并且理想地是语音幅度除以语音和噪声分量的幅度之和的比。该“理想掩蔽”被称为理想比掩蔽(ideal ratio mask),其在***的真实使用期间是未知的,但可在训练期间获得。由于实值掩蔽与有噪信号的STFT相乘,因此增强语音默认最后使用有噪信号的STFT的相位。当我们将掩蔽应用到有噪信号的STFT的幅度部分时,我们称该掩蔽为“幅度掩蔽”,以表示其仅被应用于有噪输入的幅度部分。
通过最小化目标函数来执行神经网络训练,该目标函数量化纯净语音目标与通过网络使用“网络参数”获得的增强语音之间的差异。训练程序旨在确定使神经网络的输出和纯净语音目标最接近的网络参数。网络训练通常使用反向传播通过时间(BPTT)算法完成,其需要在每次迭代时计算目标函数关于网络参数的梯度。
我们使用深度循环神经网络(DRNN)来执行语音增强。DRNN可以是用于低延迟(在线)应用的长短时记忆(LSTM)网络,或如果延迟不是问题,则可以是双向长短时记忆网络(BLSTM)DRNN。深度循环神经网络也可以是其它现代RNN类型,诸如门控RNN或时钟驱动RNN。
在另一实施方式中,在估计过程中考虑音频信号的幅度和相位。相位感知处理涉及几个不同的方面:
在所谓的相位敏感信号近似(PSA)技术中,当仅预测目标幅度时,使用目标函数中的相位信息;
使用深度循环神经网络、采用能够更好地预测增强信号的幅度和相位两者的适当的目标函数,来预测幅度和相位两者;
使用输入的相位作为预测幅度和相位的***的附加输入;以及
在深度循环神经网络中,使用诸如麦克风阵列的多声道音频信号的所有幅度和相位。
应注意,该想法适用于其它类型的音频信号的增强。例如,音频信号可以包括其中识别任务是音乐转录的音乐信号,或者其中识别任务可以是将动物声音分类成各种类别的动物声音,以及其中识别任务可以是检测和区分某些制音事件和/或目标的环境声音。
附图说明
[图1]
图1是使用ASR特征将有噪语音信号转换为增强语音信号的方法的流程图;
[图2]
图2是图1中的方法的训练过程的流程图;
[图3]
图3是共同语音识别和增强方法的流程图;
[图4]
图4是通过预测相位信息并利用幅度掩蔽将有噪音频信号转换为增强音频信号的方法的流程图;以及
[图5]
图5是图4中的方法的训练过程的流程图。
具体实施方式
图1示出了将有噪语音信号112转换为增强语音信号190的方法。也就是说,该转换增强了有噪语音。本文所描述的所有语音和音频信号可以是由单个或多个麦克风101从环境102获取的单声道或多声道,例如,环境可以具有来自诸如一个或更多个人、动物、乐器等源的音频输入。对于我们的问题,源中的一个是我们的“目标音频”(主要是“目标语音”),音频中的其它源被视为背景。
在音频信号是语音的情况下,通过自动语音识别(ASR)***170来处理有噪语音,以产生ASR特征180,例如以“对齐信息向量”的形式。ASR可以是常规的。利用网络参数140通过深度循环神经网络(DRNN)150来处理与有噪语音的STFT特征组合的ASR特征。可以使用下面描述的训练过程来学习该参数。
DRNN产生掩蔽160。然后,在语音估计165期间,将该掩蔽应用到有噪语音以产生增强语音190。如下所述,可以迭代增强和识别步骤。也就是说,在获得增强语音之后,该增强语音可以被用来获得更好的ASR结果,其可以在随后的迭代期间被用作新的输入。迭代可以持续进行直到达到终止条件,例如,预定的迭代次数,或者直到当前增强语音与来自先前迭代的增强语音之间的差小于预定阈值。
如本领域已知的,可以在通过总线连接到存储器和输入/输出接口的处理器100中执行该方法。
图2示出了训练过程的要素。这里,有噪语音和对应的纯净语音111被存储在数据库110中。确定目标函数(有时称为“成本函数”或“误差函数”)120。该目标函数量化了增强语音与纯净语音之间的差异。通过最小化训练期间的目标函数,网络学习以产生类似于纯净信号的增强信号。目标函数用于执行DRNN训练130以确定网络参数140。
图3示出了执行共同识别和增强的方法的要素。这里,共同目标函数320测量纯净语音信号111及增强语音信号190及参考文本113(即,识别出的语音)与所产生的识别结果355之间的差异。在这种情况下,共同识别和增强网络350还产生识别结果355,其也在确定共同目标函数320时使用。识别结果可以是ASR状态、音素或词序列等的形式。
共同目标函数是增强任务目标函数和识别任务目标函数的加权和。对于增强任务,目标函数可以是掩蔽近似(MA)、幅度频谱近似(MSA)或相位敏感频谱近似(PSA)。对于识别任务,目标函数可以简单地是使用状态或音素作为目标类别的交叉熵成本函数,或者可能是序列鉴别目标函数,诸如使用假设网格计算出的最小音素错误(MPE)、增强型最大互信息(BMMI)。
另选地,如虚线所示,识别结果355和增强语音190可以作为附加输入反馈到共同识别和增强模块350。
图4示出了使用输出增强音频信号的估计相位455和幅度掩蔽460的增强网络(DRNN)450的方法,其采用从其幅度和相位412二者得到的有噪音频信号特征作为输入,并使用预测的相位455和幅度掩蔽460来获得465增强音频信号490。通过一个或更多个麦克风401从环境402获取有噪音频信号。然后从相位和幅度掩蔽获得增强音频信号490。
图5示出了类似的训练过程。在这种情况下,增强网络450使用相位敏感目标函数。使用信号的幅度和相位来处理所有音频信号,并且目标函数420也是相位敏感的,即,目标函数使用复域差。相位预测和相位敏感目标函数提高了增强音频信号490中的信噪比(SNR)。
细节
语言模型已被整合到基于模型的语音分离***中。与概率模型相反,前馈神经网络仅支持从输入到输出的一个方向的信息流。
本发明部分地基于语音增强网络能够从识别出的状态序列受益并且识别***能够从语音增强***的输出受益的认识。在没有完全整合的***的情况下,可以设想一个***,该***在增强与识别之间交替,以在这两个任务中获益。
因此,我们使用在第一次通过期间在有噪语音上训练的噪声-鲁棒的识别器。识别出的状态序列与有噪语音特征组合,并用作被训练以重建增强语音的循环神经网络的输入。
现代语音识别***利用多层次的语言信息。语言模型找到词序列的概率。使用手工制作或学习的词典查找表将词映射到音素序列。音素被建模为三状态左至右隐马尔可夫模型(HMM),其中每个状态分布通常依赖于上下文,主要关于在音素的左边和右边的上下文窗口中存在什么音素。
可以跨不同的音素和上下文绑定HMM状态。这可以使用上下文依存关系树来实现。可以使用各种级别的与感兴趣的帧的语言单元对齐来完成帧级别的识别输出信息的结合。
因此,我们整合了语音识别和增强问题。针对要被增强的所输入的每一帧,一种架构使用帧级别对齐状态序列或从语音识别器接收到的帧级别对齐音素序列信息。对齐信息也可以是词级别对齐。
提供对齐信息作为添加到LSTM网络的输入的额外特征。我们可以使用对齐信息的不同类型的特征。例如,我们可以使用1-hot表示来指示帧级别状态或音素。当针对依赖上下文的状态完成时,这会产生大的向量,其会导致学***均而得到的连续特征。这产生较短的输入表示,并且提供每个状态的某种保持相似性的编码。如果信息与有噪频谱输入处于相同的域中,则在找到语音增强掩蔽时可以更容易地为网络使用。
本发明的另一方面是在下一阶段将来自两个***的反馈作为输入。这种反馈可以以“迭代的方式”执行,以进一步提升性能。
在多任务学习中,目的是构建同时针对不同目标学习“好的”特征的结构。目的是通过学习目标来提升单独任务的执行。
用于幅度预测的相位敏感目标函数
我们描述了对BLSTM-DRNN 450所使用的目标函数的改进。通常,在现有技术中,网络对应用到有噪音频频谱的滤波器或频域掩蔽进行估计,以产生纯净语音频谱的估计。目标函数确定音频估计与纯净音频目标之间的幅度谱域中的误差。重建的音频估计保留有噪音频信号的相位。
然而,当使用有噪相位时,相位误差与幅度相互作用,并且利用与纯净音频幅度不同的幅度来获得关于SNR的最佳重建。这里,我们考虑直接使用基于复频谱中的误差的相位敏感目标函数,该误差包括幅度误差和相位误差二者。这允许所估计的幅度对使用有噪相位进行补偿。
利用时间-频率掩蔽的分离
时间-频率滤波方法对要乘以有噪音频的频域特征表示的滤波器或掩蔽函数进行估计以形成纯净音频信号的估计。我们定义经由时域信号的窗口帧的离散傅里叶变换获得的有噪音频yf,t、噪声nf,t和音频sf,t的复短时谱。之后,我们省略了通过f,t的索引并考虑单个时间频率窗。
假定估计掩蔽函数
Figure GDA0001272096300000071
则纯净音频被估计为
Figure GDA0001272096300000072
在训练期间,提供纯净音频信号和有噪音频信号,并且借助失真测量
Figure GDA0001272096300000073
来训练用于掩蔽函数的估计器
Figure GDA0001272096300000074
其中,θ表示相位。
可以使用各种目标函数,例如,掩蔽近似(MA)和信号近似(SA)。MA目标函数使用y和s计算目标掩蔽,然后将估计出的掩蔽与目标掩蔽之间的误差测量为
Figure GDA0001272096300000075
SA目标函数将经滤波的信号与目标纯净音频之间的误差测量为
Figure GDA0001272096300000076
针对MA方案中的a*,使用了各种“理想”掩蔽。最常见的是所谓的“理想二制掩蔽”(IBM)以及“理想比掩蔽”(IRM)。
用于计算音频估计
Figure GDA0001272096300000077
的各种掩蔽函数a,它们的关于a的公式以及用于最优化的条件如下。在IBM中,如果表达式x为真,则δ(x)为1,否则为0。
表2
Figure GDA0001272096300000078
用于源分离和增强的相位预测
这里,我们描述用于预测相位以及音频源分离和音频源增强应用中的幅度的方法。该设置涉及使用用于执行目标信号的幅度和相位的预测的神经网络W。我们假定(一组)混合(或有噪)信号y(τ),其是目标信号(或源)s*(τ)与来自不同源的其它背景信号之和。我们从y(τ)恢复s*(τ)。用yt,f
Figure GDA0001272096300000079
分别表示y(τ)和s*(τ)的短时傅立叶变换。
简单方案
在简单方案中,
Figure GDA00012720963000000710
其中
Figure GDA00012720963000000711
是纯净音频信号,其在训练期间是已知的,并且
Figure GDA00012720963000000712
是根据有噪信号的幅度和相位y=[yt,f]t,f∈B的网络的预测,即
Figure GDA0001272096300000081
其中,W是网络的权重,并且B是所有时间-频率索引的集合。网络可以将
Figure GDA0001272096300000082
以极坐标表示法表示为
Figure GDA0001272096300000083
或者以复数表示法表示为
Figure GDA0001272096300000084
其中Re和Im是实部和虚部。
复数滤波器方案
通常情况下,对要应用到有噪音频信号的滤波器进行估计会更好,因为当信号纯净时,滤波器可以变为一(unity),使得输入信号是输出信号的估计
Figure GDA0001272096300000085
其中,at,f是由网络估计的实数,其表示纯净信号与有噪信号的幅度之间的比率。我们包括了
Figure GDA0001272096300000086
其中
Figure GDA0001272096300000087
是纯净信号与有噪信号的相位之间的差异的估计。我们也可以把它写成复数滤波器
Figure GDA0001272096300000088
当输入近似纯净时,则at,f接近于一,并且
Figure GDA0001272096300000089
接近于零,使得复数滤波器ht,f接近于一。
组合方案
当信号接近纯净时,复数滤波方案效果最佳,但是当信号非常嘈杂时,***必须估计有噪信号与纯净信号之间的差异。在这种情况下,直接估计纯净信号可能会更好。有鉴于此,我们可以让网络决定使用哪种方法,借助于软门(soft gate)αt,f,其是网络的另一输出且取值在零和一之间,并被用于针对每一时间频率输出选择简单方案和复数滤波器方案的线性组合
Figure GDA00012720963000000810
其中,当有噪信号近似等于纯净信号时,αt,f通常被设置成一,并且rt,f、θt,f表示网络对纯净信号的幅度和相位的最佳估计。在这种情况下,网络的输出是
t,f,at,ft,f,rt,ft,f]t,f∈B=fW(y),
其中W是网络中的权重。
简化组合方案
该组合方案可能具有太多的参数,这可能是不期望的。我们可以将所述组合方案简化如下。当αt,f=1时,网络将输入直接传递到输出,这样我们就不需要对掩蔽进行估计了。因此,当αt,f=1时,我们将掩蔽设置成一并忽略掩蔽参数
Figure GDA00012720963000000811
其中,当有噪信号近似等于纯净信号时,αt,f通常还被设置成一,并且当其不是一时,我们确定
(1-αt,f)rt,fθt,f
这表示网络对αt,fyt,f
Figure GDA0001272096300000091
之间的差的最佳估计。在这种情况下,网络的输出是
t,f,rt,ft,f]t,f∈B=fw(y),
其中W是网络中的权重。注意,组合方案和简化组合方案都是冗余表示,并且可以有多组参数获得相同的估计。

Claims (5)

1.一种用于将有噪音频信号转换为增强音频信号的方法,所述方法包括以下步骤:
从环境获取所述有噪音频信号;
通过具有网络参数的增强网络来处理所述有噪音频信号以共同产生幅度掩蔽和相位估计;
利用所述幅度掩蔽和所述相位估计来获得所述增强音频信号,其中,上述步骤在处理器中执行,
其中,所述增强网络是深度循环神经网络。
2.根据权利要求1所述的方法,其中,所述增强网络是双向长短时记忆BLSTM深度循环神经网络DRNN。
3.根据权利要求1所述的方法,其中,所述增强网络使用基于复频谱中的误差的相位敏感目标函数,所述误差包括所述有噪音频信号的幅度和相位的误差。
4.根据权利要求1所述的方法,其中,通过所述增强网络直接获得所述相位估计。
5.根据权利要求1所述的方法,其中,利用复值掩蔽,共同获得所述相位估计与所述有噪音频信号的幅度。
CN201580056485.9A 2014-10-21 2015-10-08 用于将有噪音频信号转换为增强音频信号的方法 Active CN107077860B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201462066451P 2014-10-21 2014-10-21
US62/066,451 2014-10-21
US14/620,526 US9881631B2 (en) 2014-10-21 2015-02-12 Method for enhancing audio signal using phase information
US14/620,526 2015-02-12
PCT/JP2015/079241 WO2016063794A1 (en) 2014-10-21 2015-10-08 Method for transforming a noisy audio signal to an enhanced audio signal

Publications (2)

Publication Number Publication Date
CN107077860A CN107077860A (zh) 2017-08-18
CN107077860B true CN107077860B (zh) 2021-02-09

Family

ID=55749541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580056485.9A Active CN107077860B (zh) 2014-10-21 2015-10-08 用于将有噪音频信号转换为增强音频信号的方法

Country Status (5)

Country Link
US (2) US9881631B2 (zh)
JP (1) JP6415705B2 (zh)
CN (1) CN107077860B (zh)
DE (1) DE112015004785B4 (zh)
WO (2) WO2016063795A1 (zh)

Families Citing this family (100)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9620108B2 (en) 2013-12-10 2017-04-11 Google Inc. Processing acoustic sequences using long short-term memory (LSTM) neural networks that include recurrent projection layers
US9818431B2 (en) * 2015-12-21 2017-11-14 Microsoft Technoloogy Licensing, LLC Multi-speaker speech separation
US10229672B1 (en) * 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
JP6876061B2 (ja) * 2016-01-26 2021-05-26 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. ニューラル臨床パラフレーズ生成のためのシステム及び方法
US9799327B1 (en) * 2016-02-26 2017-10-24 Google Inc. Speech recognition with attention-based recurrent neural networks
CN108463848B (zh) 2016-03-23 2019-12-20 谷歌有限责任公司 用于多声道语音识别的自适应音频增强
US10249305B2 (en) 2016-05-19 2019-04-02 Microsoft Technology Licensing, Llc Permutation invariant training for talker-independent multi-talker speech separation
US10255905B2 (en) * 2016-06-10 2019-04-09 Google Llc Predicting pronunciations with word stress
KR20180003123A (ko) 2016-06-30 2018-01-09 삼성전자주식회사 메모리 셀 유닛 및 메모리 셀 유닛들을 포함하는 순환 신경망
US10387769B2 (en) 2016-06-30 2019-08-20 Samsung Electronics Co., Ltd. Hybrid memory cell unit and recurrent neural network including hybrid memory cell units
US10810482B2 (en) 2016-08-30 2020-10-20 Samsung Electronics Co., Ltd System and method for residual long short term memories (LSTM) network
US10224058B2 (en) 2016-09-07 2019-03-05 Google Llc Enhanced multi-channel acoustic models
US9978392B2 (en) * 2016-09-09 2018-05-22 Tata Consultancy Services Limited Noisy signal identification from non-stationary audio signals
CN106682217A (zh) * 2016-12-31 2017-05-17 成都数联铭品科技有限公司 一种基于自动信息筛选学习的企业二级行业分类方法
KR20180080446A (ko) 2017-01-04 2018-07-12 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
JP6636973B2 (ja) * 2017-03-01 2020-01-29 日本電信電話株式会社 マスク推定装置、マスク推定方法およびマスク推定プログラム
US10709390B2 (en) 2017-03-02 2020-07-14 Logos Care, Inc. Deep learning algorithms for heartbeats detection
US10460727B2 (en) * 2017-03-03 2019-10-29 Microsoft Technology Licensing, Llc Multi-talker speech recognizer
US10276179B2 (en) 2017-03-06 2019-04-30 Microsoft Technology Licensing, Llc Speech enhancement with low-order non-negative matrix factorization
US10528147B2 (en) 2017-03-06 2020-01-07 Microsoft Technology Licensing, Llc Ultrasonic based gesture recognition
US10984315B2 (en) 2017-04-28 2021-04-20 Microsoft Technology Licensing, Llc Learning-based noise reduction in data produced by a network of sensors, such as one incorporated into loose-fitting clothing worn by a person
EP3625791A4 (en) * 2017-05-18 2021-03-03 Telepathy Labs, Inc. TEXT-SPEECH SYSTEM AND PROCESS BASED ON ARTIFICIAL INTELLIGENCE
US10614826B2 (en) * 2017-05-24 2020-04-07 Modulate, Inc. System and method for voice-to-voice conversion
US10381020B2 (en) * 2017-06-16 2019-08-13 Apple Inc. Speech model-based neural network-assisted signal enhancement
WO2019014890A1 (zh) * 2017-07-20 2019-01-24 大象声科(深圳)科技有限公司 一种通用的单声道实时降噪方法
CN109427340A (zh) * 2017-08-22 2019-03-05 杭州海康威视数字技术股份有限公司 一种语音增强方法、装置及电子设备
JP6827908B2 (ja) * 2017-11-15 2021-02-10 日本電信電話株式会社 音源強調装置、音源強調学習装置、音源強調方法、プログラム
CN108109619B (zh) * 2017-11-15 2021-07-06 中国科学院自动化研究所 基于记忆和注意力模型的听觉选择方法和装置
CN111344778B (zh) * 2017-11-23 2024-05-28 哈曼国际工业有限公司 用于语音增强的方法和***
US10546593B2 (en) 2017-12-04 2020-01-28 Apple Inc. Deep learning driven multi-channel filtering for speech enhancement
KR102420567B1 (ko) * 2017-12-19 2022-07-13 삼성전자주식회사 음성 인식 장치 및 방법
CN107845389B (zh) * 2017-12-21 2020-07-17 北京工业大学 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法
JP6872197B2 (ja) * 2018-02-13 2021-05-19 日本電信電話株式会社 音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム
US11810435B2 (en) 2018-02-28 2023-11-07 Robert Bosch Gmbh System and method for audio event detection in surveillance systems
US10699698B2 (en) * 2018-03-29 2020-06-30 Tencent Technology (Shenzhen) Company Limited Adaptive permutation invariant training with auxiliary information for monaural multi-talker speech recognition
US10699697B2 (en) * 2018-03-29 2020-06-30 Tencent Technology (Shenzhen) Company Limited Knowledge transfer in permutation invariant training for single-channel multi-talker speech recognition
US10957337B2 (en) 2018-04-11 2021-03-23 Microsoft Technology Licensing, Llc Multi-microphone speech separation
WO2019198306A1 (ja) * 2018-04-12 2019-10-17 日本電信電話株式会社 推定装置、学習装置、推定方法、学習方法及びプログラム
US10573301B2 (en) * 2018-05-18 2020-02-25 Intel Corporation Neural network based time-frequency mask estimation and beamforming for speech pre-processing
EP3807878B1 (en) * 2018-06-14 2023-12-13 Pindrop Security, Inc. Deep neural network based speech enhancement
EP3830822A4 (en) * 2018-07-17 2022-06-29 Cantu, Marcos A. Assistive listening device and human-computer interface using short-time target cancellation for improved speech intelligibility
US11252517B2 (en) 2018-07-17 2022-02-15 Marcos Antonio Cantu Assistive listening device and human-computer interface using short-time target cancellation for improved speech intelligibility
CN109036375B (zh) * 2018-07-25 2023-03-24 腾讯科技(深圳)有限公司 语音合成方法、模型训练方法、装置和计算机设备
CN110767244B (zh) * 2018-07-25 2024-03-29 中国科学技术大学 语音增强方法
CN109273021B (zh) * 2018-08-09 2021-11-30 厦门亿联网络技术股份有限公司 一种基于rnn的实时会议降噪方法及装置
CN109215674A (zh) * 2018-08-10 2019-01-15 上海大学 实时语音增强方法
US10726856B2 (en) * 2018-08-16 2020-07-28 Mitsubishi Electric Research Laboratories, Inc. Methods and systems for enhancing audio signals corrupted by noise
CN108899047B (zh) * 2018-08-20 2019-09-10 百度在线网络技术(北京)有限公司 音频信号的掩蔽阈值估计方法、装置及存储介质
WO2020041497A1 (en) * 2018-08-21 2020-02-27 2Hz, Inc. Speech enhancement and noise suppression systems and methods
WO2020039571A1 (ja) * 2018-08-24 2020-02-27 三菱電機株式会社 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム
JP7167554B2 (ja) * 2018-08-29 2022-11-09 富士通株式会社 音声認識装置、音声認識プログラムおよび音声認識方法
CN109841226B (zh) * 2018-08-31 2020-10-16 大象声科(深圳)科技有限公司 一种基于卷积递归神经网络的单通道实时降噪方法
FR3085784A1 (fr) 2018-09-07 2020-03-13 Urgotech Dispositif de rehaussement de la parole par implementation d'un reseau de neurones dans le domaine temporel
JP7159767B2 (ja) * 2018-10-05 2022-10-25 富士通株式会社 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置
CN109119093A (zh) * 2018-10-30 2019-01-01 Oppo广东移动通信有限公司 语音降噪方法、装置、存储介质及移动终端
CN109522445A (zh) * 2018-11-15 2019-03-26 辽宁工程技术大学 一种融合CNNs与相位算法的音频分类检索方法
CN109256144B (zh) * 2018-11-20 2022-09-06 中国科学技术大学 基于集成学习与噪声感知训练的语音增强方法
JP7095586B2 (ja) * 2018-12-14 2022-07-05 富士通株式会社 音声補正装置および音声補正方法
EP3847646B1 (en) * 2018-12-21 2023-10-04 Huawei Technologies Co., Ltd. An audio processing apparatus and method for audio scene classification
US11322156B2 (en) * 2018-12-28 2022-05-03 Tata Consultancy Services Limited Features search and selection techniques for speaker and speech recognition
CN109448751B (zh) * 2018-12-29 2021-03-23 中国科学院声学研究所 一种基于深度学习的双耳语音增强方法
CN109658949A (zh) * 2018-12-29 2019-04-19 重庆邮电大学 一种基于深度神经网络的语音增强方法
CN111696571A (zh) * 2019-03-15 2020-09-22 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
WO2020207593A1 (en) * 2019-04-11 2020-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, apparatus for determining a set of values defining characteristics of a filter, methods for providing a decoded audio representation, methods for determining a set of values defining characteristics of a filter and computer program
CN110047510A (zh) * 2019-04-15 2019-07-23 北京达佳互联信息技术有限公司 音频识别方法、装置、计算机设备及存储介质
EP3726529A1 (en) * 2019-04-16 2020-10-21 Fraunhofer Gesellschaft zur Förderung der Angewand Method and apparatus for determining a deep filter
CN110148419A (zh) * 2019-04-25 2019-08-20 南京邮电大学 基于深度学习的语音分离方法
CN110534123B (zh) * 2019-07-22 2022-04-01 中国科学院自动化研究所 语音增强方法、装置、存储介质、电子设备
US11996108B2 (en) 2019-08-01 2024-05-28 Dolby Laboratories Licensing Corporation System and method for enhancement of a degraded audio signal
WO2021030759A1 (en) 2019-08-14 2021-02-18 Modulate, Inc. Generation and detection of watermark for real-time voice conversion
CN110503972B (zh) * 2019-08-26 2022-04-19 北京大学深圳研究生院 语音增强方法、***、计算机设备及存储介质
CN110491406B (zh) * 2019-09-25 2020-07-31 电子科技大学 一种多模块抑制不同种类噪声的双噪声语音增强方法
CN110728989B (zh) * 2019-09-29 2020-07-14 东南大学 一种基于长短时记忆网络lstm的双耳语音分离方法
CN110992974B (zh) * 2019-11-25 2021-08-24 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
CN111243612A (zh) * 2020-01-08 2020-06-05 厦门亿联网络技术股份有限公司 一种生成混响衰减参数模型的方法及计算***
CN111429931B (zh) * 2020-03-26 2023-04-18 云知声智能科技股份有限公司 一种基于数据增强的降噪模型压缩方法及装置
CN111508516A (zh) * 2020-03-31 2020-08-07 上海交通大学 基于信道关联时频掩膜的语音波束形成方法
CN111583948B (zh) * 2020-05-09 2022-09-27 南京工程学院 一种改进的多通道语音增强***和方法
CN111833896B (zh) * 2020-07-24 2023-08-01 北京声加科技有限公司 融合反馈信号的语音增强方法、***、装置和存储介质
JP2023546989A (ja) 2020-10-08 2023-11-08 モジュレイト インク. コンテンツモデレーションのためのマルチステージ適応型システム
CN112420073B (zh) * 2020-10-12 2024-04-16 北京百度网讯科技有限公司 语音信号处理方法、装置、电子设备和存储介质
CN112133277B (zh) * 2020-11-20 2021-02-26 北京猿力未来科技有限公司 样本生成方法及装置
CN112309411B (zh) * 2020-11-24 2024-06-11 深圳信息职业技术学院 相位敏感的门控多尺度空洞卷积网络语音增强方法与***
CN112669870B (zh) * 2020-12-24 2024-05-03 北京声智科技有限公司 语音增强模型的训练方法、装置和电子设备
US20220369031A1 (en) * 2021-02-25 2022-11-17 Shure Acquisition Holdings, Inc. Deep neural network denoiser mask generation system for audio processing
CN113241083B (zh) * 2021-04-26 2022-04-22 华南理工大学 一种基于多目标异质网络的集成语音增强***
CN113470685B (zh) * 2021-07-13 2024-03-12 北京达佳互联信息技术有限公司 语音增强模型的训练方法和装置及语音增强方法和装置
CN113450822B (zh) * 2021-07-23 2023-12-22 平安科技(深圳)有限公司 语音增强方法、装置、设备及存储介质
WO2023018905A1 (en) * 2021-08-12 2023-02-16 Avail Medsystems, Inc. Systems and methods for enhancing audio communications
CN113707168A (zh) * 2021-09-03 2021-11-26 合肥讯飞数码科技有限公司 一种语音增强方法、装置、设备及存储介质
US11849286B1 (en) 2021-10-25 2023-12-19 Chromatic Inc. Ear-worn device configured for over-the-counter and prescription use
CN114093379B (zh) * 2021-12-15 2022-06-21 北京荣耀终端有限公司 噪声消除方法及装置
US11950056B2 (en) 2022-01-14 2024-04-02 Chromatic Inc. Method, apparatus and system for neural network hearing aid
US11818547B2 (en) * 2022-01-14 2023-11-14 Chromatic Inc. Method, apparatus and system for neural network hearing aid
US20230306982A1 (en) 2022-01-14 2023-09-28 Chromatic Inc. System and method for enhancing speech of target speaker from audio signal in an ear-worn device using voice signatures
US11832061B2 (en) * 2022-01-14 2023-11-28 Chromatic Inc. Method, apparatus and system for neural network hearing aid
CN114067820B (zh) * 2022-01-18 2022-06-28 深圳市友杰智新科技有限公司 语音降噪模型的训练方法、语音降噪方法和相关设备
CN115424628B (zh) * 2022-07-20 2023-06-27 荣耀终端有限公司 一种语音处理方法及电子设备
CN115295001B (zh) * 2022-07-26 2024-05-10 中国科学技术大学 一种基于渐进式融合校正网络的单通道语音增强方法
US11902747B1 (en) 2022-08-09 2024-02-13 Chromatic Inc. Hearing loss amplification that amplifies speech and noise subsignals differently

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2151822A1 (en) * 2008-08-05 2010-02-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing and audio signal for speech enhancement using a feature extraction
CN103489454A (zh) * 2013-09-22 2014-01-01 浙江大学 基于波形形态特征聚类的语音端点检测方法
CN103531204A (zh) * 2013-10-11 2014-01-22 深港产学研基地 语音增强方法
CN104756182A (zh) * 2012-11-29 2015-07-01 索尼电脑娱乐公司 组合听觉注意力线索与音位后验得分以用于音素/元音/音节边界检测

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2776848B2 (ja) * 1988-12-14 1998-07-16 株式会社日立製作所 雑音除去方法、それに用いるニューラルネットワークの学習方法
US5878389A (en) 1995-06-28 1999-03-02 Oregon Graduate Institute Of Science & Technology Method and system for generating an estimated clean speech signal from a noisy speech signal
JPH09160590A (ja) 1995-12-13 1997-06-20 Denso Corp 信号抽出装置
JPH1049197A (ja) * 1996-08-06 1998-02-20 Denso Corp 音声復元装置及び音声復元方法
KR100341197B1 (ko) * 1998-09-29 2002-06-20 포만 제프리 엘 오디오 데이터로 부가 정보를 매립하는 방법 및 시스템
US20020116196A1 (en) * 1998-11-12 2002-08-22 Tran Bao Q. Speech recognizer
US6732073B1 (en) 1999-09-10 2004-05-04 Wisconsin Alumni Research Foundation Spectral enhancement of acoustic signals to provide improved recognition of speech
DE19948308C2 (de) 1999-10-06 2002-05-08 Cortologic Ag Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
US7243060B2 (en) * 2002-04-02 2007-07-10 University Of Washington Single channel sound separation
TWI223792B (en) * 2003-04-04 2004-11-11 Penpower Technology Ltd Speech model training method applied in speech recognition
US7660713B2 (en) * 2003-10-23 2010-02-09 Microsoft Corporation Systems and methods that detect a desired signal via a linear discriminative classifier that utilizes an estimated posterior signal-to-noise ratio (SNR)
JP2005249816A (ja) 2004-03-01 2005-09-15 Internatl Business Mach Corp <Ibm> 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム
GB0414711D0 (en) 2004-07-01 2004-08-04 Ibm Method and arrangment for speech recognition
US8117032B2 (en) 2005-11-09 2012-02-14 Nuance Communications, Inc. Noise playback enhancement of prerecorded audio for speech recognition operations
US7593535B2 (en) * 2006-08-01 2009-09-22 Dts, Inc. Neural network filtering techniques for compensating linear and non-linear distortion of an audio transducer
US8615393B2 (en) 2006-11-15 2013-12-24 Microsoft Corporation Noise suppressor for speech recognition
GB0704622D0 (en) 2007-03-09 2007-04-18 Skype Ltd Speech coding system and method
JP5156260B2 (ja) 2007-04-27 2013-03-06 ニュアンス コミュニケーションズ,インコーポレイテッド 雑音を除去して目的音を抽出する方法、前処理部、音声認識システムおよびプログラム
US8521530B1 (en) * 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
US8392185B2 (en) * 2008-08-20 2013-03-05 Honda Motor Co., Ltd. Speech recognition system and method for generating a mask of the system
US8645132B2 (en) 2011-08-24 2014-02-04 Sensory, Inc. Truly handsfree speech recognition in high noise environments
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
US9728184B2 (en) * 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2151822A1 (en) * 2008-08-05 2010-02-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing and audio signal for speech enhancement using a feature extraction
CN104756182A (zh) * 2012-11-29 2015-07-01 索尼电脑娱乐公司 组合听觉注意力线索与音位后验得分以用于音素/元音/音节边界检测
CN103489454A (zh) * 2013-09-22 2014-01-01 浙江大学 基于波形形态特征聚类的语音端点检测方法
CN103531204A (zh) * 2013-10-11 2014-01-22 深港产学研基地 语音增强方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"SINGLE-CHANNEL SPEECH SEPARATION WITH MEMORY-ENHANCED RECURRENT NEURAL NETWORKS";Felix Weninger et al.;《2014 IEEE International Conference on Acoustic,Speech and Signal Processing(ICASSP)》;20140714;摘要,第3.1-4.3节 *

Also Published As

Publication number Publication date
US9881631B2 (en) 2018-01-30
DE112015004785T5 (de) 2017-07-20
WO2016063794A1 (en) 2016-04-28
DE112015004785B4 (de) 2021-07-08
WO2016063795A1 (en) 2016-04-28
US20160111107A1 (en) 2016-04-21
JP6415705B2 (ja) 2018-10-31
US20160111108A1 (en) 2016-04-21
JP2017520803A (ja) 2017-07-27
CN107077860A (zh) 2017-08-18

Similar Documents

Publication Publication Date Title
CN107077860B (zh) 用于将有噪音频信号转换为增强音频信号的方法
Tu et al. Speech enhancement based on teacher–student deep learning using improved speech presence probability for noise-robust speech recognition
Haeb-Umbach et al. Far-field automatic speech recognition
Kinoshita et al. Improving noise robust automatic speech recognition with single-channel time-domain enhancement network
Zhang et al. A speech enhancement algorithm by iterating single-and multi-microphone processing and its application to robust ASR
Li et al. An overview of noise-robust automatic speech recognition
Kwon et al. NMF-based speech enhancement using bases update
Zmolikova et al. Neural target speech extraction: An overview
Liu et al. Neural network based time-frequency masking and steering vector estimation for two-channel MVDR beamforming
Wang et al. Recurrent deep stacking networks for supervised speech separation
Lee et al. DNN-based feature enhancement using DOA-constrained ICA for robust speech recognition
Yu et al. Adversarial network bottleneck features for noise robust speaker verification
Togami et al. Unsupervised training for deep speech source separation with Kullback-Leibler divergence based probabilistic loss function
Higuchi et al. Adversarial training for data-driven speech enhancement without parallel corpus
Wu et al. Maximum margin clustering based statistical VAD with multiple observation compound feature
Nesta et al. A flexible spatial blind source extraction framework for robust speech recognition in noisy environments
CN113795881A (zh) 使用线索的聚类的语音增强
Tran et al. Nonparametric uncertainty estimation and propagation for noise robust ASR
Wang et al. Enhanced Spectral Features for Distortion-Independent Acoustic Modeling.
JP2016143042A (ja) 雑音除去装置及び雑音除去プログラム
Nathwani et al. DNN uncertainty propagation using GMM-derived uncertainty features for noise robust ASR
Li et al. Single channel speech enhancement using temporal convolutional recurrent neural networks
Menne et al. Speaker adapted beamforming for multi-channel automatic speech recognition
Nicolson et al. Sum-product networks for robust automatic speaker identification
Nakatani et al. Simultaneous denoising, dereverberation, and source separation using a unified convolutional beamformer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant