CN101460996B - 增益控制***和增益控制方法 - Google Patents

增益控制***和增益控制方法 Download PDF

Info

Publication number
CN101460996B
CN101460996B CN2007800204844A CN200780020484A CN101460996B CN 101460996 B CN101460996 B CN 101460996B CN 2007800204844 A CN2007800204844 A CN 2007800204844A CN 200780020484 A CN200780020484 A CN 200780020484A CN 101460996 B CN101460996 B CN 101460996B
Authority
CN
China
Prior art keywords
acoustic pressure
sound model
sound
input signal
characteristic quantity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2007800204844A
Other languages
English (en)
Other versions
CN101460996A (zh
Inventor
荒川隆行
辻川刚范
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of CN101460996A publication Critical patent/CN101460996A/zh
Application granted granted Critical
Publication of CN101460996B publication Critical patent/CN101460996B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

对多个音素的每个或将声音分割成簇的每个单位,将由声压与特征量的组构成的声音模型存储在声音模型存储部(3)中。当提供输入信号时,由特征量变换部(2)算出特征量和声压,由声压比较部(4)求出输入信号与声音模型之每个的声压比,由距离算出部(5)算出输入信号与声音模型之每个的特征量的距离,由增益算出部(6)根据声压的比与距离的信息,算出增益的值,由声压补正部(7)补正输入信号的声压。

Description

增益控制***和增益控制方法
技术领域
本发明涉及一种不依赖于输入信号的声压来使输出信号的声压恒定的增益控制***、增益控制方法、增益控制程序、及使用该增益控制方法的声音识别***、声音识别方法、声音识别程序。 
背景技术
对本说明书中使用的术语定义如下。 
所谓‘声压’,是指该声音存在时的气压的上升量。单位为[N/m2]。该量与声音持有的能量的平方根、声音波形的振幅值成正比。 
所谓‘声压水平’,是指成为对象的声音的声压与基准声压之比的对数值。单位为[dB]。具体而言,如下式(1)所示定义。 
声压水平=20log10(成为对象的声音的声压/基准声压)…(1) 
所谓‘增益’,是指输出信号的声压与输入信号的声压之比。具体而言,如下式(2)所示定义。 
增益=输出信号的声压/输入信号的声压…(2) 
通常的声音通信用或声音录音用中使用的增益控制装置的目的在于,将输入信号变形为人容易听到的声压后输出。 
与此相反,声音识别用中使用的增益控制装置的目的在于,使输入信号的声压与事先通过学习准备的声音模型的声压一致。 
所谓声音模型,如非专利文献1中记载的那样,将声音频谱变换为特征量,用HMM(Hidden Markov Model)或GMM(Gaussian Mixture Model)那样的概率模型表示其出现概率。 
图9是表示专利文献1中记载的、声音通信用或声音录音用中使用的增益控制装置的构成图。在图9的增益补正装置中,具备输入声音信号的输入信号取得部1、仅使事先设定的彼此不同频带的信号通过的多个频分滤波器部件11、绝对值变换各个频分滤波器部件11输出的信号的绝对值 变换部件12、存储对由频分滤波器部件11分割的每个频带进行加权的数据的加权数据存储部件13、向绝对值变换后的值乘以加权数据的乘法部14、将加权后的值相加的加法部15、补正相加后的值的增益补正部件16、存储与补正的值相比较的阈值水平数据的阈值水平存储部件17、比较补正后的值与阈值水平数据的比较部件18、利用比较部件18的比较结果来发生增益值的增益发生部件19、使增益值的变动量变缓慢的抛物线发生部件20、和将抛物线发生部件20输出的增益值乘以输入信号并补正声压水平的声压补正部7。通过如此构成,可对输入信号是声音的可能性高的每个频带进行加权,根据加权后的信号来进行增益控制。 
但是,在图9的构成中,如图10所示,未考虑每个音素的声压的差异,而始终设为恒定的声压输出,所以有可能输出不自然的声音。 
例如,若是母音与子音,则认为母音通常声压大,子音声压小,但在图9的构成中,未考虑该差异,而设为恒定声压的输出,所以变为过度强调了子音的声音。 
这在使增益控制装置与必需声压信息的声音识别装置组合后使用的情况下成为大问题,导致识别性能的恶化。 
并且,在噪声的频带与构成目的的声音的频带重合的情况下,还存在会强调噪声的问题。 
下面,说明声音识别用中使用的增益控制装置。在通常的声音识别中,为了顽强识别声压的变动,不使用依赖于声压的倒谱(ケプストラム)的0次分量或功率特征量等来进行识别。 
但是,在作为噪声下的有效声音识别方法而已知的、PMC(ParallelModel Combination)法等使声音模型适应于噪声的方法中,必需依赖于声压的倒谱的0次信息,所以必需增益控制法(非专利文献2)。 
图11例示了作为根据纯音响模型(纯声音模型)与噪声模型来合成噪声适应模型的方法一例的PMC法。 
对事先以倒谱形式学习纯声音的声音模型,通过实施逆余弦变换、指数变换,变形为频谱形式,得到纯声音频谱。 
对在发声前的无声区间等中学习的噪声模型,通过实施逆余弦变换、指数变换,变形为频谱形式,得到噪声频谱。
接着,对上述纯声音频谱,乘以水平调整系数g(也称为‘水平补正系数’),使之与上述噪声频谱一致,算出噪声适应声音频谱。 
接着,通过对上述噪声适应频谱实施对数变换、余弦变换,得到噪声适应声音模型。 
当识别时,通过比较对照输入信号与噪声适应声音模型,执行识别。 
在PMC法中,通过乘以水平补正系数g,调整声音模型的声压与根据输入信号算出的噪声模型的声压的混合比。 
因此,可将乘以水平补正系数g考虑为一种增益控制。 
在非专利文献3或非专利文献4中,根据似然最大化的方针来推定上述水平调整系数g。 
具体地,有: 
(A)事先准备多个声压的声音模型,选择似然变为最大的声音模型的方法,或 
(B)将增益的值处理为变量,对构成声音模型的各高斯分布的每个重复推定以使似然变为最大的方法。 
在上述两个方法中,由于根据学习时的声音的声压,进行增益控制,所以可执行反映了每个音素的声压差异的增益控制。 
但是,在事先准备多个声压的声音模型的方法(A)中,为了执行正确的推定,必需对全部音素的每个准备改变声压的多个声音模型,在容量或计算量方面,花费成本多。 
在将增益处理为变量重复推定的方法(B)中,通过执行重复推定,存在花费多的计算量等问题、和若最初设定的增益值不同、则完全引入到不同的音素中等问题。 
专利文献1:特开2004-15125号公报 
非专利文献1:Guorong Xuan,Wei Zhang,Peiqi Chai,“EMAlgorithms of Gaussian Mixture Model and Hidden Markov Model”,IEEEInternational Conference on Image Processing ICIP 2001,vol.1,pp.145-148.2001年 
非专利文献2:M.J.F.Gales and S.J.Young,“Robust ContinuousSpeech Recognition Using Parallel Model Combination”,IEEE Trans. SAP-4,No.5,pp.352-359.1996年9月 
非专利文献3:Y.Minami and S.Furui,“A Maximum LikelihoodProcedure for a Universal Adaptation Method Based on HMMComposition”,IEEE ICASSP’95,129-132.1995年 
非专利文献4:高田健司,外山淳,“使用自动适用于S/N比的HMM合成法的单词识别”,电子信息通信学会技术研究报名,SP2002-97pp.19-24 2002年 
非专利文献5:Richard O.Duda,Petter E.Hart,David G.Stork著,尾上守夫监译,“图案辨别”,Joh Willey &Sons.新技术通讯,pp.528-529 
非专利文献6:Steven F.Boll,“Suppression of Acoustic Noisein Speech Using Spectral Subtraction”,IEEE Trans.ASSP 27,pp.113-120,1979年 
如上所述,现有***具有下述记载的课题。 
第一问题在于,在现有的声音通信用或声音录音用中使用的增益控制技术中,由于未考虑每个音素的声压差异,所以输出不自然的声音。 
第二问题在于,在现有的声音通信用或声音录音用中使用的增益控制技术中,在噪声的频带与构成目的的声音的频带重合的情况下,会强调噪声。 
第三问题在于,在现有的基于声音识别用中使用的似然最大化指针的增益控制技术中,为了对声音识别用而准备的全部音素的每个准备多个声压的声音模型、或对音素的每个执行多次推定,在容量或计算量方面花费多的的成本。 
第四问题在于,在现有的基于声音识别用中使用的似然最大化指针的增益控制技术中,若最初设定的增益值不同,则会引入到完全不同的音素中。 
发明内容
因此,本发明的目的在于提供一种增益控制装置、程序,通过反映每个音素的声压差异,可输出自然的声音。
本发明的另一目的在于提供一种不强调无用的噪声、正确强调构成目的的声音的增益控制装置、程序。 
本发明的再一目的在于以少的容量和计算成本提供一种增益控制装置、程序。 
本发明的又一目的在于提供一种维持音素特征不变地执行声压控制的增益控制装置、程序。 
本申请公开的发明为了解决上述课题,大致如下构成。 
本发明的第1增益控制***具备输入信号取得部、特征量变换部、声音模型存储部、声压比较部、距离算出部、增益值算出部件、和声压补正部件。在上述声音模型存储部中,根据多个音素的每个或特征量的距离,存储按将声音分割成簇的每个单位准备的持有特征量与声压的声音模型。 
本发明的第1增益控制方法包含: 
输入信号取得步骤,取得输入信号,并按每个单位时间切分; 
特征量变换步骤,根据上述按每个单位时间切分的输入信号,算出特征量; 
声音模型存储步骤,按每个音素或将声音分割成簇的每个单位,存储持有特征量与声压信息的声音模型; 
声压比较步骤,算出上述按每个单位时间切分的输入信号与上述声音模型的每一个之间的声压之比; 
距离算出步骤,算出上述按每个单位时间切分的输入信号与上述声音模型的每一个之间的特征量的距离; 
增益值算出步骤,通过对声音模型加权平均上述声压的比,算出增益;和 
声压补正步骤,使用算出的增益,补正输入信号的声压。 
本发明的第1增益控制程序,执行如下处理: 
取得输入信号,并按每个单位时间切分; 
将每个单位时间的输入信号变换为特征量; 
比较每个单位时间的输入信号与声音模型的每一个之间的声压; 
算出每个单位时间的输入信号与声音模型的每一个之间的特征量的距离;
通过对多个声音模型加权平均声压的比,算出增益;和 
使用算出的增益值,补正输入声音的声压水平。 
通过如此构成,对音素或每个簇单位使用持有特征量与声压信息的声音模型,可反映每个音素的声压差异,实现第1目的。 
另外,通过对音素或每个簇单位使用持有特征量与声压信息的声音模型,可不强调无用的噪声,正确强调构成目的的声音,实现第2目的。 
另外,通过对音素或每个簇单位准备持有特征量与声压信息的声音模型,对多个音素模型,对输入信号与声音模型每个之间的声压的比执行对应于距离的加权平均,从而算出增益,由此不必对全部音素的每个准备声压不同的多个模型、或不必执行多次推定,所以可用少的容量和计算成本实现,实现第3目的。 
另外,由于增益控制用声音模型与声音识别用声音模型分别准备,所以可对应于容量、计算量的制约来准备适当大小的声音模型,实现第3目的。 
本发明的第2增益控制方法,是在第1增益控制方法中,代替在增益值算出步骤中,对多个声音模型,对上述声压的比执行对应于距离的加权平均,从而算出增益值,而是 
对多个声音模型,考虑上述距离与音素或簇单位的出现频度信息双方,对上述声压之比执行加权平均,从而算出增益值。 
通过如此构成,可正确地推定音素的特征,实现第4目的。 
本发明的第3增益控制方法是在第1增益控制方法中,包含: 
根据输入信号推定噪声分量的步骤;和 
根据输入信号抑制上述噪声分量并算出声音信号的步骤, 
对于第1增益控制方法中的特征量变换步骤,代替根据输入信号算出特征量,按照根据输入信号抑制噪声分量后的声音信号,来算出特征量。 
通过如此构成,与第1增益控制方法相比,可进一步不强调噪声分量地正确强调构成目的的声音。 
本发明的第4增益控制方法,对于第3增益控制方法中的声压补正步骤, 
代替使用算出的增益来补正输入信号的声压,而是使用算出的增益, 来补正仅取得根据输入信号抑制噪声分量的纯分量后的纯声音信号的声压。 
本发明的第5增益控制方法,代替第1增益控制方法中的声压补正步骤,而包含根据算出的增益与输入信号、来算出执行了声压调整的特征量的特征量变换步骤。 
发明效果 
本发明的第1效果在于,通过使用事先以规定声压的声音学习的声音模型,可反映每个音素的声压差异。 
本发明的第2效果在于,通过对每个音素或将声音分割成簇的每个单位使用声音模型,可不强调无用的噪声,正确强调构成目的的声音。 
本发明的第3效果在于,由于通过在增益算出中、对每个音素或将声音分割成簇的每个单位准备的音素模型,执行基于距离的加权平均,从而不必对全部音素准备声压不同的多个模型,或不必执行多次推定,所以可以少的容量和计算成本实现。 
本发明的第4效果在于,通过在增益算出中、对向每个音素或将声音分割成簇的每个单位准备的声音模型执行基于距离的加权平均,可维持音素的特征不变地进行声压控制。 
附图说明
图1是表示本发明第1实施例的***构成图。 
图2是表示本发明第1发明实施例的处理步骤的流程图。 
图3是表示本发明第1实施例中的输入声压与输出声压的特性图。 
图4是表示本发明第2实施例的***构成图。 
图5是表示本发明第3实施例的***构成图。 
图6是表示本发明第4实施例的***构成图。 
图7是表示本发明第5实施例的***构成图。 
图8是表示本发明第6实施例的***构成图。 
图9是表示现有的增益控制***噪声抑制***的构成框图。 
图10是表示现有的增益控制***的输入声压与输出声压的特性图。 
图11是表示现有的声音模型与噪声模型的合成法的图。
符号说明 
1   输入信号取得部 
2   特征量变换部 
3   声音模型存储部 
3’ 声音模型存储部 
3a  声音模型的声压值 
3b  声音模型的特征量 
3c  声音模型的出现频度(事先概率) 
4   声压比较部 
5   距离算出部 
6   增益值算出部 
6’ 增益值算出部 
7   声压补正部 
8   噪声推定部 
9   纯声音推定部 
10  第二特征量变换部件 
11  频带分割滤波部件 
12  绝对值变换部件 
13  加权数据存储部件 
14  乘法部 
15  加法部 
16  增益补正部件 
17  阈值水平存储部件 
18  比较部件 
19  增益发生部件 
20  抛物线发生部件 
具体实施方式
下面,参照附图来详细说明实施本发明的最佳方式。本发明具备声音模型存储部(3),以每个音素或簇单位存储事先由规定声压的声音而学习、 且分别包含声压信息与特征量的声音模型;按每个单位时间切出输入信号后分析并导出特征量的部件(2);和根据所述声音模型存储部中存储的所述声音模型的特征量(μj)与所述输入信号的特征量(C(t))的距离,算出选择各个声音模型j的概率(P(j|C(t))),通过使用所述概率,对声音模型的每一个,加权所述输入信号的特征量中依赖于声压的特征量和所述声音模型存储部中存储的所述声音模型的声压信息之差(μ0,j-C(0,t)),来算出增益(g)的部件(4、5、6),执行使输入信号的声压与事先通过学习而准备的声音模型的音素或簇之每个的声压一致的控制。本发明是一种用于调整并输出输入信号的声压的增益控制***,包含:输入信号取得部(1),取得从输入器件输入的声音信号,并按每个单位时间切出;特征量变换部(2),根据所述按每个单位时间切出的输入信号,算出特征量和声压;声音模型存储部(3),按多个音素的每个或将声音分割成簇的单位的每个,存储持有特征量与声压(依赖于声压的特征量:例如倒谱的0次分量)的信息的声音模型;距离算出部(5),算出所述按每个单位时间切出的输入信号的特征量与所述声音模型存储部中存储的所述声音模型的每一个的特征量之间的距离;声压比较部(4),算出所述按每个单位时间切出的输入信号的声压(依赖于声压的特征量)与所述声音模型存储部中存储的所述声音模型的每一个的声压之比;增益值算出部(6),根据对所述声音模型的每一个算出的距离和声压之比,算出增益;和声压补正部(7),使用由所述增益值算出部算出的增益,补正按每个单位时间切出的输入信号的声压。 
在本发明的其它实施方式中,声音模型存储部(图4的3’)还存储保持声音模型的出现频度信息,所述增益值算出部(6’)根据对所述声音模型的每个算出的距离和声压之比、以及所述声音模型存储部中存储的声音模型的每一个的出现频度,算出增益。 
在本发明中,所述增益值算出部使用按每个单位时间切出的输入信号与声音模型之间的距离,对音素或将声音分割成簇的单位,加权平均每个单位时间切出的输入信号与声音模型之间的声压之比,从而算出增益。 
在本发明的其它实施方式中,具备:噪声推定部(图5的8),根据所述输入信号取得噪声分量;和纯声音推定部(图5的9),根据所述输入信 号,算出将由所述噪声推定部推定的噪声分量抑制后的信号,并输出抑制了噪声分量的信号,所述特征量变换部(2)输入从所述纯声音推定部输出的、抑制了噪声分量的信号,取出输入的信号的特征量和声压。 
在本发明的其它实施方式中,所述声压补正部(7)输入从所述纯声音推定部(9)输出的、抑制了噪声分量的信号,并补正声压。 
在本发明的其它实施方式中,所述声压补正部(7)在多个所述单位时间平滑化或平均化所述每个单位时间上求出的增益,在多个所述单位时间控制声压。 
在本发明的再一个实施方式中,代替所述声压补正部(7),具备第二特征量变换部(图7的10),其根据所述增益值算出部算出的增益与所述输入信号,算出声音识别中使用的特征量,使用由所述第二特征量变换部算出的特征量来执行声音识别。 
在本发明的又一实施方式中,代替所述声压补正部,具备第二特征量变换部(图8的10),其使用由所述增益值算出部算出的增益,补正由所述特征量变换部求出的特征量,算出声音识别中使用的特征量,使用由所述第二特征量变换部算出的特征量来执行声音识别。下面,说明实施例。 
<实施例1> 
图1是表示本发明第1实施例的构成图。参照图1,本发明的第1实施例具备:取得输入信号并按每个单位时间切出的输入信号取得部1、根据每个单位时间的输入信号算出特征量与声压的特征量变换部2、存储声音模型的声音模型存储部3、比较每个单位时间的输入信号与上述声音模型的每个之间的声压并求出声压之比的声压比较部4、求出每个单位时间的输入信号与声音模型的每个之间的特征量的距离的距离算出部5、根据由声压比较部4算出的声压之比与由距离算出部算出的距离来算出增益的增益值算出部6、和使用由增益值算出部6算出的增益来补正输入信号的声压的声压补正部7。 
声音模型存储部3存储对多个音素的每个或将声音分割成簇的每个单位所准备的多个声音模型。 
这里,所谓‘音素’,是指母音或子音、无声音或有声音、或即便为相同的“あ”音、也可利用前后音的排列等来分类声音。
另外,所谓‘簇’,是指将音素汇总和对应于特征量的距离来分割声音。 
作为簇分割方法,例如可使用‘K-means法’(非专利文献5)。所谓‘K-means法’,是指对应于距离将提供的数据分类成K个簇的方法。 
声音模型由声压3a与特征量3b构成。作为声压3a,使用倒谱的0次分量。作为特征量3b,既可使用将声音变换为特征量后的值本身,也可使用输出该值的概率密度分布。 
声压3a与特征量3b使用“Expectation Maximization”(EM)算法等事先学习准备(非专利文献1)。另外,也可使用EM算法来决定簇。 
下面,参照图1和图2的流程图,来详细说明本实施例的整体动作。 
按每个单位时间周期加窗口切出输入信号,用X(f,t)表示通过博立叶解析算出的频谱量。其中,f表示频率方向的序号,t表示时间方向的序号(帧序号)。 
特征量变换部2根据输入信号算出特征量。这里,用作特征量的是 
.频谱 
.对数频谱 
.倒谱 
.间距 
.功率 
.其Δ(一阶差分)量 
.ΔΔ(二阶差分量) 
等量。 
在本实施例中,设倒谱为特征量。倒谱由式(3)算出(步骤S1)。 
C(t)=DCT[log[X(t)]]            (3) 
其中,X(t)是持有X(f,t)作为要素的矢量。 
C(t)是持有C(i,t)作为要素的矢量(其中,i表示倒谱维度)。 
DCT[]表示离散余弦变换。 
设对声音模型存储部3中存储的声音模型的每个执行接着的步骤S2和步骤S3。声压比较部4比较输入信号的声压与声音模型的声压(步骤S2)。
具体而言,由于倒谱的0次分量表示声压的对数值的信息,所以算出声音模型持有的倒谱的0次分量(声音模型存储部3的声压3a)与由特征量变换部2算出的输入信号的倒谱的0次分量C(0,t)之差。 
μ0,j—C(0,t)           (4) 
其中,μ0,j表示第j个声音模型持有的倒谱的0次分量(声音模型存储部3的声压3a)。 
接着,距离算出部5算出输入信号的特征量与声音模型持有的特征量的距离(步骤S3)。 
之后,增益值算出部6根据声压比较部4对每个模型算出的倒谱的0次分量的差与由距离算出部5算出的距离,来推定增益(步骤S4)。 
具体而言,首先,选择声音模型j的概率(正规化后的似然)P(j|C(t))由下式求出。 
P(j|C(t))=d[C(t),μj]/∑j′d[C(t),μj′]      (5) 
式(5)中,d[C(t),μj]表示输入信号的特征量(倒谱)与第j个声音模型持有的特征量的距离。该距离由距离算出部5计算(不包含0次倒谱)。另外,式(5)的分母的j’表示声音模型,涉及j’的距离d[C(t),μj′]之和表示涉及多个声音模型之和。该和也可对声音模型存储部3中存储的全部的声音模型执行。或者,也可对距离近的上位数个执行等。不用说,式(5)的概率导出也可使用倒谱以外的特征量来计算。 
接着,通过使用该概率P(j|C(t))对声音模型的每个取加权平均(期待值),算出增益g(t)的值。 
g(t)=exp[∑j{(μ0,j-C(0,t))P(j|C(t))}]       (6) 
上式(6)中,实施exp[]是为了将由式(3)实施log[]并变形为对数区域的量的值恢复为原始值。 
上式(6)中,涉及j的和表示涉及多个模型的和。该和与式(5)一样对模型执行。 
另外,在本实施例中,示出对应于每个单位时间的输入信号与声音模型每个的距离,来加权平均倒谱的0次项的差的实例,但也可代替式(6),如下式(7)所示,对倒谱的0次项的差实施exp[],恢复为声压之比,之后,对应于每个单位时间的输入信号与声音模型每个的距离,进行加权平 均。 
g(t)=∑j{exp[μ0,j-C(0,t)]P(j|C(t))}     (7) 
另外,也可根据对与每个单位时间的输入信号(的特征量)的距离最近的声音模型的倒谱之0次项的差,算出增益g(t)。 
g(t)=exp[μ0,k-C(0,t)]        (8) 
其中,k表示与每个单位时间的输入信号的距离最近的声音模型。 
最后,声压补正部7取由增益值算出部6算出的增益g(t)与输入信号X(f,t)的积,补正输入信号的声压水平(步骤S5)。 
Y(f,t)=g(t)X(f,t)              (9) 
其中,Y(f,t)表示补正后的信号。Y(f,t)与X(f,t)一样,f表示频率方向的序号,t表示时间方向的序号(帧序号)。 
在本实施例中,示出对按每个单位时间切出输入信号的单位、即每个帧来补正声压水平的实例,但也可就增益g(t)而言,对多个帧取平滑化或平均等,对多个帧补正声压水平。 
下面,说明本实施例的作用效果。 
根据本实施例,通过使用事先以规定声压的声音学习的声音模型,如图3所示,可反映每个音素的声压差异。 
另外,根据本实施例,通过使用声音模型,可不强调无用的噪声,能够正确地强调构成目的的声音。 
并且,根据本实施例,通过在增益算出中使用对应于每个单位时间的输入信号与声音模型的每个之间的距离的加权平均,不必对全部音素的每个准备多个声压的模型或进行多次推定,所以可以少的容量和计算成本实现。 
<实施例2> 
图4是表示本发明第2实施例的构成图。参照图4,在本发明的第2实施例中,声音模型存储部3’按每个音素或分割声音的每个簇单位,包含声压、特征量与声音模型的出现频度(事先概率)。即,在声音模型存储部3’中,向第1实施例的声音模型存储部3追加输出频度信息。另外,本发明的第2实施例中,增益值算出部6’根据声压比较部4对声音模型的每个算出的声压之比、距离算出部5对声压模型的每个算出的距离、和 声音模型的每个的出现频度(事先概率),来算出增益。 
存储在声音模型存储部3’中的声音模型,分别由声压3a、特征量3b与出现频度(事先概率)3c构成。虽然未特别限制,但在本实施例中,可使用GMM作为声音模型。除GMM以外,也可使用声音识别用中使用的HMM等。 
作为声压3a,与上述实施例一样,使用倒谱的0次。另外,作为特征量3b,既可使用将声音变换为特征量后的值本身,也可使用输出该值的概率密度分布。 
另外,出现频度(事先概率)3c是在多个声音模型中构成对象的声音模型出现的频度。 
声压3a、特征量3b、出现频度(事先概率)3c使用ExpectationMaximization(EM)算法等来学习(非专利文献1)。 
本实施例相对所述第1实施例,置换了步骤S4的增益值算出中的处理。 
增益值算出部6’根据声压比较部4对声音模型的每个算出的倒谱的0次分量之差、距离算出部5对声压模型的每个算出的距离、和对应的声音模型的出现频度3c,来推定增益。 
具体地,首先算出选择声音模型j的概率(事后概率)。 
P(j|C(t))=P(j)d[C(t),μj]/∑j′P(j′)d[C(t),μj′]        (10) 
式(10)中,d[C(t),μj]表示输入信号的特征量(倒谱)与第j个声音模型持有的特征量的距离(C(t)中去除C(0,t))。 
P(j)表示第j个声音模型的出现频度。 
涉及分母j’的和{∑j’P(j’)d[C(t),μj′]},表示涉及多个声音模型之和。该和也可对声音模型存储部3’中存储的全部声音模型来执行,或对距离近的上位数个来执行等。 
使用该概率P(j|C(t))对声音模型的每个取加权平均(期待值),由此算出增益值。具体而言,与所述第1实施例一样,使用式(6)、(7)或式(8)来算出。 
下面,说明本实施例的作用效果。 
相对于所述第1实施例,当求出选择声音模型的概率时,通过使用利用事先学习准备的出现频度(事先概率)的信息,可正确地推定音素的特 征。 
<实施例3> 
图5是表示本发明第3实施例的构成图。参照图5,本发明的第3实施例除所述第1实施例外,还具备:根据输入信号取得噪声分量的噪声推定部8;和根据输入信号与噪声推定部8推定的噪声、推定并输出声音的纯声音推定部9。 
噪声推定部8例如将输入信号的最初数个帧视为非声音区间,根据该区间中的输入信号的平均值来推定噪声。 
纯声音推定部9使用非专利文献6所示的频谱减法等噪声抑制方法,根据输入声音和由噪声推定部8得到的噪声分量的信息,推定并输出去除了噪声分量后的纯的声音。所谓频谱减法,是在频谱区域按每个频率分量从输入信号中减去噪声分量的方法。 
特征量变换部2输入从纯声音推定部9输出的、抑制了噪声分量的纯声音,取出纯声音的特征量和声压。 
根据本发明的第3实施例,与图1的第1实施例(无噪声推定部8、纯声音推定部9)相比,可不强调噪声分量,正确强调构成目的的声音。 
<实施例4> 
下面,说明本发明的第4实施例。在图5所示的所述第3实施例中,声压补正部7使用由增益值算出部6算出的增益,补正输入信号的声压。相反,参照图6,在本发明的第4实施例中,声压补正部7使用由增益值算出部6算出的增益,补正由纯声音推定部9推定的纯声音的声压。 
<实施例5> 
下面,说明本发明的第5实施例。参照图7,本发明的第5实施例是将图1的第1实施例中使用增益来补正输入信号的声压的声压补正部7置换成根据增益与输入信号、算出声音识别中使用的特征量的第二特征量变换部10。其它构成与所述第1实施例一样。 
在根据输入信号算出特征量的特征量变换部2、与根据增益和输入信号算出特征量的第二特征量变换部10中,也可使用不同的特征量。 
例如,特征量变换部10将不依赖于声压的量设为特征量,在执行增益控制时,特征量变换部2也可以使用依赖于声压的特征量。
<实施例6> 
下面,说明本发明的第6实施例。在所述第5实施例中,第二特征量变换部10根据增益值算出部6算出的增益与输入信号,算出声音识别中使用的特征量。参照图8,在本发明的第6实施例中,第二特征量变换部10使用由增益值算出部6算出的增益,补正由特征量变换部2算出的特征量,并设为声音识别中使用的第二特征量。例如,第二特征量变换部10对由特征量变换部2算出的特征量执行乘以增益等的处理。 
<实施例7> 
下面,说明本发明的第7实施例。本发明的第7实施例构成为:在使图11所示的声音模型适应于噪声的方法中,使用所述第1实施例的增益算出部6算出的增益,求出图11所示的水平调整系数。另外,也可不直接使用按切出输入信号的每个时间单位由增益值算出部6算出的增益,而在多个帧和多个发声中进行平均化。另外,所述第1~第6实施例也可相互组合后使用。 
根据本发明,可使声音的声压恒定,可通信和录音易听到的明了的声音。 
另外,通过与声音识别***组合使用,可顽强识别声音的声压变动。另外,也可应用于助听器等。 
以上根据上述实施例说明了本发明,但本发明不仅限于上述实施例的构成,不用说,包含在本发明的范围内本领域技术人员可执行的各种变形、修正。

Claims (18)

1.一种增益控制***,调整并输出输入信号的声压,其特征在于,包含:
输入信号取得部,取得从输入器件输入的声音信号,并按每个单位时间切出;
特征量变换部,根据所述按每个单位时间切出的输入信号,算出特征量和声压;
声音模型存储部,按多个音素的每个或将声音分割成簇的每个单位,存储持有特征量与声压信息的声音模型;
距离算出部,算出所述按每个单位时间切出的输入信号的特征量与所述声音模型存储部中存储的所述声音模型之每个的特征量之间的距离;
声压比较部,算出所述按每个单位时间切出的输入信号的声压与所述声音模型存储部中存储的所述声音模型的每个之间的声压之比;
增益值算出部,根据对所述声音模型的每个算出的距离和声压之比,算出增益;和
声压补正部,使用由所述增益值算出部算出的增益,补正按每个单位时间切出的输入信号的声压。
2.根据权利要求1所述的增益控制***,其特征在于:
所述声音模型存储部还存储保持声音模型的出现频度信息,
所述增益值算出部根据对所述声音模型的每个算出的距离、声压之比、和所述声音模型存储部中存储的声音模型的每个的出现频度,算出增益。
3.根据权利要求1或2所述的增益控制***,其特征在于:
所述增益值算出部,使用按每个单位时间切出的输入信号与声音模型之间的距离,对音素或将声音分割成簇的单位,加权平均每个单位时间切出的输入信号与声音模型的声压之比,算出增益。
4.根据权利要求1或2所述的增益控制***,其特征在于,具备:噪声推定部,根据所述输入信号取得噪声分量;和
纯声音推定部,根据所述输入信号,算出抑制由所述噪声推定部推定的噪声分量的信号,并输出抑制了噪声分量的信号,
所述特征量变换部,输入从所述纯声音推定部输出的、抑制了噪声分量的信号,取出输入的信号的特征量和声压。
5.根据权利要求4所述的增益控制***,其特征在于:
所述声压补正部输入从所述纯声音推定部输出的、抑制了噪声分量的信号,并补正声压。
6.根据权利要求1或2所述的增益控制***,其特征在于:
所述声压补正部在多个所述单位时间中平滑化或平均化所述每个单位时间求出的增益,在多个所述单位时间中控制声压。
7.一种增益控制方法,调整并输出输入信号的声压,其特征在于:
按每个音素或将声音分割成簇的每个单位,将持有特征量与声压信息的声音模型存储在声音模型存储部中,
包含如下步骤:
取得从输入器件输入的声音信号,并按每个单位时间切出;
根据所述按每个单位时间切出的输入信号,算出特征量和声压;
算出所述按每个单位时间切出的输入信号的特征量与所述声音模型存储部中存储的所述声音模型之每个的特征量之间的距离;
算出所述按每个单位时间切出的输入信号的声压与所述声音模型存储部中存储的所述声音模型之每个的声压之比;
根据对所述声音模型的每个算出的距离和声压之比,算出增益;和
使用所述算出的增益,补正按每个单位时间切出的输入信号的声压。
8.根据权利要求7所述的增益控制方法,其特征在于:
所述声音模型存储部还存储保持声音模型的出现频度信息,
在所述算出增益的步骤中,根据对所述声音模型的每个算出的距离、声压之比、和所述声音模型存储部中存储的声音模型之每个的出现频度,算出增益。
9.根据权利要求7或8所述的增益控制方法,其特征在于:
在所述算出增益的步骤中,使用按每个单位时间切出的输入信号与声音模型的距离,对音素或将声音分割成簇的单位,加权平均每个单位时间切出的输入信号与声音模型的声压之比,算出增益。
10.根据权利要求7或8所述的增益控制方法,其特征在于,包含如下步骤:
根据所述输入信号取得噪声分量;和
根据所述输入信号,算出抑制了取得的噪声分量的信号,并输出抑制了噪声分量的信号,
在所述算出特征量的步骤中,输入所述抑制了噪声分量的信号,作为所述输入信号,取出特征量和声压。
11.根据权利要求10所述的增益控制方法,其特征在于:
所述补正声压的步骤,输入所述抑制了噪声分量的信号,并补正声压。
12.根据权利要求7或8所述的增益控制方法,其特征在于:
所述补正声压的步骤,在多个所述单位时间中平滑化或平均化所述每个单位时间求出的增益,在多个所述单位时间中控制声压。
13.根据权利要求7所述的增益控制方法,其特征在于:
包含根据算出的增益与输入信号、算出执行声压调整的特征量的步骤,来代替所述补正声压的步骤。
14.一种声音识别用的增益控制装置,其特征在于,具备:
声音模型存储部,以每个音素或簇单位,存储事先由规定声压的声音学习、并分别包含依赖于声压的第1特征量与第2特征量的声音模型;
按每个单位时间切出输入信号后分析、并导出特征量的部件;和
算出增益的部件,其根据所述声音模型存储部中存储的所述声音模型的第2特征量和与所述输入信号对应的特征量的距离,算出选择各个声音模型的概率,使用所述概率,对声音模型的每个,加权所述输入信号的特征量中依赖于声压的特征量与所述声音模型存储部中存储的所述声音模型的第1特征量之差,算出增益,
执行使输入信号的声压与事先通过学习准备的声音模型的音素或每个簇的声压一致的控制。
15.根据权利要求14所述的声音识别用的增益控制装置,其特征在于:
所述声音模型存储部还存储声音模型的出现频度,
使用所述声音模型存储部中存储的声音模型的所述第2特征量与所述输入信号对应的特征量之间的距离、和声音模型的出现频度,算出选择各个声音模型的概率。
16.根据权利要求14或15所述的增益控制装置,其特征在于:
作为所述依赖于声压的第1特征量,使用倒谱的0次分量,
作为所述第2特征量,使用0次分量以外的倒谱、频谱、对数频谱、间距、功率、这些之一的一阶或二阶差分量中的至少一个。
17.一种增益控制装置,其特征在于:
将事先以规定声压的声音学习的声音模型存储在声音模型存储部中,
具备参照所述声音模型存储部,对所述声音模型存储部中存储的声音模型的每个执行输入信号的声压与声音模型的声压的比较、和所述输入信号的特征量与声音模型持有的特征量之间的距离的算出的部件;和
根据所述声压的比较结果与所述特征量的距离来算出增益的部件,所述增益用于补正输入信号的声压的大小。
18.一种增益控制方法,其特征在于,包含下述各步骤:
参照用于存储事先以规定声压的声音学习的声音模型的声音模型存储部,对所述声音模型存储部中存储的声音模型的每个,执行输入信号的声压与声音模型的声压的比较、和所述输入信号的特征量与声音模型持有的特征量之间的距离的算出;
根据所述声压的比较结果与所述特征量的距离来算出增益,所述增益用于补正输入信号的声压的大小。
CN2007800204844A 2006-06-02 2007-01-16 增益控制***和增益控制方法 Active CN101460996B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP154994/2006 2006-06-02
JP2006154994 2006-06-02
PCT/JP2007/050491 WO2007141923A1 (ja) 2006-06-02 2007-01-16 ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム

Publications (2)

Publication Number Publication Date
CN101460996A CN101460996A (zh) 2009-06-17
CN101460996B true CN101460996B (zh) 2012-10-31

Family

ID=38801190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007800204844A Active CN101460996B (zh) 2006-06-02 2007-01-16 增益控制***和增益控制方法

Country Status (4)

Country Link
US (1) US8401844B2 (zh)
JP (1) JP5262713B2 (zh)
CN (1) CN101460996B (zh)
WO (1) WO2007141923A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101771390B (zh) * 2008-12-30 2013-03-06 英业达股份有限公司 声音输出输入***及其音量输出调整方法
JP2011053569A (ja) * 2009-09-03 2011-03-17 Nippon Hoso Kyokai <Nhk> 音響処理装置およびプログラム
KR101726738B1 (ko) * 2010-12-01 2017-04-13 삼성전자주식회사 음성처리장치 및 그 방법
JP2013153307A (ja) * 2012-01-25 2013-08-08 Sony Corp 音声処理装置および方法、並びにプログラム
US8880393B2 (en) * 2012-01-27 2014-11-04 Mitsubishi Electric Research Laboratories, Inc. Indirect model-based speech enhancement
JP6065308B2 (ja) * 2012-09-07 2017-01-25 パナソニックIpマネジメント株式会社 音量補正装置
US9336775B2 (en) * 2013-03-05 2016-05-10 Microsoft Technology Licensing, Llc Posterior-based feature with partial distance elimination for speech recognition
US9933990B1 (en) * 2013-03-15 2018-04-03 Sonitum Inc. Topological mapping of control parameters
WO2017137071A1 (en) * 2016-02-09 2017-08-17 Sonova Ag A method of performing real ear measurements by placing a probe element at an intended position from a tympanic membrane of an individual's ear canal and a measuring system configured to carry out such method.
CN108024186B (zh) * 2016-11-02 2020-07-10 宏碁股份有限公司 助听器及其宽动态范围压缩的恢复时间动态调整方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1282072A (zh) * 1999-07-27 2001-01-31 国际商业机器公司 对语音识别结果中的错误进行校正的方法和语音识别***

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01236000A (ja) 1988-03-16 1989-09-20 Nec Corp 音声認識装置
JPH0424697A (ja) 1990-05-18 1992-01-28 Matsushita Electric Ind Co Ltd 音声認識装置
JP3400474B2 (ja) 1992-11-09 2003-04-28 株式会社リコー 音声認識装置および音声認識方法
US6154549A (en) * 1996-06-18 2000-11-28 Extreme Audio Reality, Inc. Method and apparatus for providing sound in a spatial environment
JP3393532B2 (ja) 1997-03-14 2003-04-07 日本電信電話株式会社 録音音声の音量正規化方法およびこの方法を実施する装置
US6353671B1 (en) * 1998-02-05 2002-03-05 Bioinstco Corp. Signal processing circuit and method for increasing speech intelligibility
JP3797003B2 (ja) 1999-03-05 2006-07-12 オムロン株式会社 音声出力装置
JP2000349865A (ja) * 1999-06-01 2000-12-15 Matsushita Electric Works Ltd 音声通信装置
US7027981B2 (en) * 1999-11-29 2006-04-11 Bizjak Karl M System output control method and apparatus
JP4256631B2 (ja) 2002-06-03 2009-04-22 パナソニック株式会社 オートゲインコントロール装置
JP4449380B2 (ja) 2002-09-24 2010-04-14 パナソニック株式会社 話者正規化方法及びそれを用いた音声認識装置
US20040117181A1 (en) 2002-09-24 2004-06-17 Keiko Morii Method of speaker normalization for speech recognition using frequency conversion and speech recognition apparatus applying the preceding method
JP4282317B2 (ja) * 2002-12-05 2009-06-17 アルパイン株式会社 音声通信装置
JP2004325897A (ja) 2003-04-25 2004-11-18 Pioneer Electronic Corp 音声認識装置及び音声認識方法
JP4583781B2 (ja) * 2003-06-12 2010-11-17 アルパイン株式会社 音声補正装置
JP2005070430A (ja) * 2003-08-25 2005-03-17 Alpine Electronics Inc 音声出力装置および方法
US7539614B2 (en) 2003-11-14 2009-05-26 Nxp B.V. System and method for audio signal processing using different gain factors for voiced and unvoiced phonemes
US7483831B2 (en) * 2003-11-21 2009-01-27 Articulation Incorporated Methods and apparatus for maximizing speech intelligibility in quiet or noisy backgrounds
JP4517163B2 (ja) 2004-03-12 2010-08-04 株式会社国際電気通信基礎技術研究所 周波数特性等化装置
US8103007B2 (en) * 2005-12-28 2012-01-24 Honeywell International Inc. System and method of detecting speech intelligibility of audio announcement systems in noisy and reverberant spaces
JP2008032834A (ja) 2006-07-26 2008-02-14 Toshiba Corp 音声翻訳装置及びその方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1282072A (zh) * 1999-07-27 2001-01-31 国际商业机器公司 对语音识别结果中的错误进行校正的方法和语音识别***

Also Published As

Publication number Publication date
WO2007141923A1 (ja) 2007-12-13
CN101460996A (zh) 2009-06-17
US20090259461A1 (en) 2009-10-15
US8401844B2 (en) 2013-03-19
JP5262713B2 (ja) 2013-08-14
JPWO2007141923A1 (ja) 2009-10-15

Similar Documents

Publication Publication Date Title
CN101460996B (zh) 增益控制***和增益控制方法
JP4245617B2 (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
CN1905006B (zh) 噪声抑制***与方法
Narayanan et al. Improving robustness of deep neural network acoustic models via speech separation and joint adaptive training
US10217456B2 (en) Method, apparatus, and program for generating training speech data for target domain
CN101416237B (zh) 基于源和室内声学的概率模型的语音去混响方法和设备
JP5150542B2 (ja) パターン認識装置、パターン認識方法、及び、プログラム
US20080215322A1 (en) Method and System for Generating Training Data for an Automatic Speech Recogniser
JP4586577B2 (ja) 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム
JP5242782B2 (ja) 音声認識方法
JP6402211B2 (ja) 話者適応システムにおける雑音補償
CN110998723B (zh) 使用神经网络的信号处理装置及信号处理方法、记录介质
JPH09160584A (ja) 音声適応化装置および音声認識装置
US20070150263A1 (en) Speech modeling and enhancement based on magnitude-normalized spectra
JP2006510060A (ja) 複数の音響源が生成した複数の音響信号を分離する方法及びシステム
CN117854536B (zh) 一种基于多维语音特征组合的rnn降噪方法及***
KR102026226B1 (ko) 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템
Liao et al. Joint uncertainty decoding for robust large vocabulary speech recognition
Tu et al. DNN training based on classic gain function for single-channel speech enhancement and recognition
JPWO2019044401A1 (ja) Dnn音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム
JP5438704B2 (ja) 音源パラメータ推定装置と音源分離装置とそれらの方法とプログラム
JP6925995B2 (ja) 信号処理装置、音声強調装置、信号処理方法およびプログラム
JP7333878B2 (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
WO2016092837A1 (ja) 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体
BabaAli et al. A model distance maximizing framework for speech recognizer-based speech enhancement

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant