CN1159948C

CN1159948C - 声音处理装置和方法

Info

Publication number: CN1159948C
Application number: CNB98803137XA
Authority: CN
Inventors: 庄境诚; 谷智洋
Original assignee: Asahi Kasei Kogyo KK
Current assignee: Asahi Kasei Corp
Priority date: 1997-03-06
Filing date: 1998-03-05
Publication date: 2004-07-28
Anticipated expiration: 2018-03-05
Also published as: WO1998039946A1; CN1249889A; US7440891B1; AU6120398A; JPH10257583A; CN100512510C; JP3229335B2; KR20000075980A; ATE509477T1; EP0969692A4; EP0969692B1; CN1545368A; EP0969692A1; KR100382024B1

Abstract

一种声音处理装置，在使用模拟音响回波信号进行回波消除时，作为为了发生模拟音响回波信号而使用的脉冲响应，在麦克风输入信号中包含语音时就连续地使用在前一时刻的帧中使用的脉冲响应，而在麦克风输入信号中不包含语音时就使用新更新的脉冲响应。

Description

声音处理装置和方法

技术领域

本发明涉及可以应用于通过消除从遥控(remote)扬声器向遥控麦克风的音响回波来提高通话品质的免提型的通话***(电视会议***、汽车电话)和通过消除从遥控扬声器向遥控麦克风的绕射声音来提高声音识别性能的免提型的声音识别装置(汽车音响***、汽车驾驶导航***、PC等)的声音处理装置和方法。

背景技术

从遥控扬声器向遥控麦克风绕射的音响信号常常称为音响回波。消除音响回波的技术(音响回波消除器)的用途有以下2个。

(1)在免提型的通话***(电视会议***、汽车电话)中，提高向进行通话的对方传送的声音的音质。

有时从遥控扬声器输出的对方的声音在房间的墙壁和窗玻璃上反射，受该房间固有的音响特性的影响而向遥控麦克风绕射。这时，对于对方而言，由于自己的声音伴有某一时间延迟而作为音响回波返回来，所以，将会出现既难听又难讲的情况。因此，希望在遥控麦克风收集的声音中，通过消除从扬声器绕射回的音响回波而将其余的声音向进行通话的对方发送出去，改善上述不佳的情况。

(2)在免提型的声音识别装置中提高声音识别率。

例如，在汽车内，也有汽车音响***或汽车驾驶导航***的扬声器的输出声音和上述音响回波一样在隔板及窗玻璃上反射而绕射回声音识别用麦克风，作为非稳定的加法性噪音起作用从而降低声音识别率的不良情况。因此，希望在声音识别用麦克风收集的声音中通过消除从扬声器绕射回的声音，进行其余的声音的识别而实现更高的声音识别性能。

在上述2个用途中，都是遥控扬声器的输出音响的直接声音和在房间的墙壁、隔板或窗玻璃等上反射的反射声音时常地向遥控麦克风绕射。这里，将从遥控扬声器向遥控麦克风的直接声音和反射声音通称为音响回波。另外，将从遥控扬声器输出声音生成音响回波的路径称为音响回波生成路径。

通常，音响回波生成路径的特性可以用FIR(Finite ImpulseResponse)滤波器进行模型化，但是，应该考虑是随房间内的状况(人的动作、人数等因素)及汽车内的状况(人的动作、人数、车窗的开闭等因素)而变化的。在几乎不引起音响回波生成路径的特性的变化时，一般认为采用预先求出最佳的滤波系数，将滤波系数固定，消除音响回波的方法即可。但是，音响回波生成路径的特性的变化何时发生，一般是难于预测的。这时，就希望采用利用自适应滤波器动态地推算最佳的滤波系数而自适应地消除音响回波的方法。

所谓自适应滤波器，就是指假定观测信号是对声源已知的信号具有某种脉冲响应的滤波器进行卷积而生成的并且为了使观测信号与(根据声源已知信号与滤波系数的估算值的卷积而计算的)模拟信号之差为0而使滤波器的系数动态地自适应的近似法。通过将由近似音响回波生成路径的FIR滤波器的系数与扬声器的输出信号的卷积而得到的信号从观测信号中减去，便可消除音响回波。作为自适应滤波器的算法，迄今已提案了LMS(Least Mean Square error)[S.Haykin，“Adaptive Filter Theory，”2nd ed.Englewood Cliffs，NJ，Prentice-Hall，1991]、NLMS(Normalized Least Mean Square error)[S.Haykin，“Adaptive Filter Theory，”2nd ed.Englewood Cliffs，NJ，Prentice-Hall，1991]、APA(Affine Projection Algorithm)[尾关和彦，南云仁一，“アフイン部分空间ヘの直交射影を用いた适应フイルタ-·アルゴリズムとその诸性质，”日本电子情报通信学会论文志，Vol，J67-A，No.2，pp.126-132，1984.]、RLS(Recursive LeastSquares)[S.Haykin，“Adaptive Filter Theory，”2nd ed.EnglewoodCliffs，NJ，Prentice-Hall，1991]等。特别是，NLMS的运算量少、收敛速度与已知的声源信号的大小无关，所以，被广泛地采用。但是，人们指出，对于声音这样的有色信号的滤波系数的收敛速度比APA及RLS慢。

在时刻t的FIR滤波器的系数和向FIR滤波器的输入数据(已知的声源信号)分别可以表为

h(t)＝[h₁(t)，h₂(t)，...，hM(t)]^T (1)

x(t)＝[x(t)，x(t-1)，...，x(t-M+1)]^T (2)

其中，T表示转置。M是FIR滤波器的次数。另外，在时刻t的麦克风输入信号为y(t)，则NLMS通常由以下公式给出。即

r(t)＝h(t)^T×(t) (3)

e(t)＝y(t)-r(t) (4)

h (t + 1) = h (t) + \frac{μ}{a + {| | x (t) | |}^{2}} x (t) e (t) - - - (5)

其中，‖·‖²表示矢量的能量。μ是决定滤波系数的更新速度的常数(称为步长增益)，为了使滤波系数收敛，必须满足0＜μ＜2。a是‖x(t)‖²为微小值时防止(5)式的右边第2项发散的正常数。用电路表示上述公式的NLMS的框图示于图1。其中，将r(t)称为模拟音响回波信号，将e(t)称为音响回波消除信号。图2表示将使用以NLMS为主的自适应滤波器的音响回波消除器(AEC)设置在室内的例子。为了便于说明，将从扬声器2输出的信号向AEC1的输入称为远端输入，将麦克风3的输入称为近端输入，将扬声器2的输出称为近端输出，将音响回波消除后的AEC1的输出信号称为远端输出。另外，假定远端输入与近端输出是完全等价的，并假定由远端输入生成近端输出的***的特性(扬声器特性等)包含在音响回波生成路径的特性中。

关于这样的音响回波消除器，人们特别对以下的课题进行了认真的研究。

(1)步长增益的控制

必须尽可能增大步长增益并提高收敛速度，但是，如果太大，将成为颤噪的原因，所以，必须设定适宜的使用环境。作为典型的步长增益的控制方法，已提案了ES(Exponentially Step)法[S.Makino，Y.Kaneda and N.Koizumi，“Exponentially WeightedStepsize NLMS Adaptive Filter Based on the Statistics of a RoomImpulse Response”IEEE Trans.SAP，V0l.1，No.1，pp.101-108，1993.]。室内的自适应滤波系数更新时的变化量具有指数衰减特性，所以，按指数式设定步长增益(在变化量大的脉冲响应前半部大，在后半部小)。减小残留回波电平所需要的时间用通常的NLMS的大约一半就够了。

(2)双方说话(double talk)检测

通常，在双方说话(远端通话者和近端通话者双方同时发出声音的状态)中，由AEC(NLMS)1继续进行自适应滤波系数的更新时，滤波器的系数将发生大的紊乱，结果将减少回波消除量，从而容易引起颤噪。因此，如何迅速地检测双方说话，控制AEC1的自适应滤波器的更新动作，就是重要的关键。对于双方说话的检测，使用残留回波的功率的方法被认为是有效的[藤井健作，大贺寿郎，“エコ-经路变动检出を并用するダブルト-ク检出法，”日本电子情报通信学会论文志，Vol.J78-A，No.3，pp.314-322，1995.]。可以检测埋没在音响回波中的小的近端通话者的声音。

(3)检测音响回波路径变动

伴随近端通话者移动时等发生音响回波路径变动时，将发生残留回波增大、并判定为双方说话从而停止自适应滤波器的系数更新的不良情况。因此，必须将双方说话与音响回波路径变动加以区别，在音响回波路径变动时继续进行自适应滤波器的系数更新。作为其方法，已提案了利用近端输入与模拟回波的相关关系的方法[藤井健作，大贺寿郎，“エコ-经路变动检出を并用するダブルト-ク检出法，”日本电子情报通信学会论文志，Vol.J78-A，No.3，pp.314-322，1995.]等。

以提高在汽车音响***及导航***的音响·声音信号从扬声器输出的汽车环境内的强健的声音识别功能为目的在汽车室内设置NLMS的AEC1用以消除声源已知的加法性噪音的例子示于图3。图3所示的与图2相同部分的符号，采用和图2所示相同的符号。

尝试了旨在实现可以在从扬声器2输出引导声音时识别发出的声音的功能即所谓的Barge-In(Talk-Through)功能而利用AEC1的方法。这里，将在起因于扬声器2的输出的声音的误识别中，根据自适应滤波器的效果而成为正确识别的回复率称为RRE(RecoveryRate of Error)。

例如，在设置在会议室内的声音对话***中，通过利用AEC1抑制从扬声器2向麦克风3的引导声音的绕射，可以获得70～80％的RRE[高桥敏，差峨山茂树，“NOVO合成法を用いたBarge-In音声の认识，”日本音响学会研究发表会讲演论文集，2-5-1，pp.59-60，1996-3.]。

但是，关于存在声源未知的加法性噪音而该噪音电平总在变动的汽车室内的音响回波消除器的研究成果尚未见到报告。在汽车电话的免提型装置中，存在同时使用声音开关(采用近端输入与远端输入的能量比较的交互通话方式)和音响回波消除器的装置，但是，有人指出，话头和话尾常常会被切断，通话品质不太好。

通常，在由近端输出生成的声音以外的声音混入到近端输入中(以下，称为存在近端输入)的状况下继续进行系数的自适应话处理时，滤波系数的估算精度将降低，从而音响回波的消除性能将降低。因此，在存在远端输入并且存在近端输入的状态下(称为双方说话状态)，通常将使根据(5)式的滤波系数的更新停止。是否存在远端输入的判断，可以根据远端输入的能量与预先决定的阈值的单纯的比较而进行。

另一方面，若同样进行是否存在近端输入的判断时，多数情况是由于音响回波的影响而判断为存在近端输入，这样将频繁地停止根据(5)式的滤波系数的更新，结果将发生滤波系数的估算精度降低的不良情况。因此，可以考虑不是使用近端输入信号y(t)而是使用音响回波消除信号e(t)的能量来判断是否存在近端输入的方法。作为在近端输入生成的声音以外混入近端输入的声音，大致可以分为行驶噪音等声源未知的加法性噪音和人的声音2种，不论哪一种噪音都不能用自适应滤波器消除而残存在远端输出中。

通常，在行驶中的汽车环境中，声源未知的加法性噪音的能量电平在60～80dBA之间发生大的变动[金指久则，则松武志，新居康彦，“车载用单语音声认识装置，”日本音响学会研究发表会讲演论文集，1-Q-32，pp.159-160，1995-3.][铃木邦一，中村一雄，宇尾野丰，浅田博重，“车载骚音环境下における连续音声认识，”日本音响学会研究发表会讲演论文集，2-Q-4，pp.155-156，1993-10.]，因而难于唯一地决定用于判断存在近端输入的最佳的阈值。

另外，由于声源未知的加法性噪音的影响，近端输入与模拟音响回波信号的相关系数将降低，所以，可以预想到上述音响回波路径变动检测法[藤井健作，大贺寿郎，“エコ-经路变动检出を并用するダブルト-ク检出法，”日本电子情报通信学会论文志，Vol.J78-A，No.3，pp.314-322，1995.]的应用也有困难的情况。如果有具有正确地识别声源未知的加法性噪音与人的声音的声音检测算法，可以认为就是有力的解决方法。

首先，评价在只存在行驶噪音时的NLMS的音响回波的消除性能。图4A、图4B、图4C、图4D、图4E分别表示远端输入信号(通俗音乐)的频谱、空载时的近端输入信号的频谱、该近端输入信号的音响回波消除信号的频谱、时速100km行驶时的近端输入信号的频谱和该近端输入信号的音响回波消除信号的频谱。

汽车音响***的音量设定为在空载时和时速100km行驶时1名男性感到舒适的电平。因此，在以时速100km行驶时，扬声器输出电平大，从而音响回波电平也大。近端输入信号，由将单一指向性麦克风设置在2000cc的汽车的驾驶员座位的遮光板上而接受。滤波系数的初始值全部取为0.0，从时刻0秒开始连续根据(3)-(5)式更新滤波系数，求出音响回波消除信号。采样频率为8kHz，音响回波的最大延迟考虑到32ms。因此，FIR滤波器的抽头数为256。

另外，作为评价自适应滤波器的性能的尺度，经常使用ERLE(Echo Return Loss Enhancement)。ERLE表示近端输入信号的衰减量，由下式定义[北胁信彦编著，“音のコミユニケ-ツヨン工学-マルチメデイア时代の音声·音响技术-，”コロナ社，1996.]。

ERLE = 10 \cdot \log_{10} \frac{E [{y (t)}^{2}]}{E [{e (t)}^{2}]} - - - (6)

E[·]表示推算值，根据下式求出。

E[z(t)²]＝(1-λ)·E[z(t-1)²]+λ·z(t)² (7)

其中，λ＝1/256。ERLE的单位为dB。空载时的ERLE的最大值、平均值分别为18.80dB、10.13dB。另外，以时速100km行驶时的ERLE的最大值、平均值分别为9.33dB、5.59dB。必须注意，近端输入的声源未知的加法性噪音的电平越大，由(式)6给出的ERLE的值就越低。

从图4C、图4E可知，不论是空载时还是以时速100km行驶时，都基本上可以消除音响回波。在近端输入中不含有人的声音时，通过连续更新滤波系数，认为可消除大部分音响回波。即，可以认为，在声源未知的加法性噪音中定常的并且与声音无关的行驶噪音对滤波系数的推算的影响很小。

其次，研究在近端输入中含有人的声音的情况。在2000cc的汽车中，从汽车音响***播放通俗音乐，并在市内街道上以时速60km行驶，收录加法性噪音数据。这时，音乐的音量设定为1名女性感到舒适的电平。然后，将在停止中(发动机停止)的同一汽车内同一1名女性发出的声音数据(「明快的」)以同一录音电平进行收录。

并且，在计算机上将加法性噪音数据与声音数据相加后的信号的频谱示于图7A。图7B表示取滤波系数的初始值为0.0并从时刻0秒开始连续地更新滤波系数时的音响回波消除信号的频谱。另外，图7C表示滤波系数的第10个系数的值的变化。这时的ERLE的最大值、平均值分别为8.48dB、4.18dB。

由图可知，特别是从时刻0.5秒附近开始在0.15秒的期间中滤波系数值激烈地振荡，呈现不稳定的状态。另外，不能消除时刻1.0秒以后的音响回波(在图7B中用椭圆包围的部分)。在近端输入中存在语音的期间，停止滤波系数的更新，在近端输入中不存在语音的期间，不论定常的加法性噪音的存在如何，都必须连续进行滤波系数的更新。因此，需要正确地判断在混入了声源未知的加法性噪音的近端输入中是否含有语音的声音检测算法。

在声音识别***中，正确地检测声音区间是非常重要的。在几乎没有背景噪音的环境中，正确的语音检测并不是太难的。但是，在像行驶中的汽车室内那样不能忽视背景噪音的存在的环境中，语音的检测是相当困难的。特别是位于语音的最初位置的弱摩擦音、弱鼻音及位于语音的最初或最后位置的无声化的母音等多数情况被埋没到背景噪音中，难于检测。呼吸音、咂嘴音等本来是作为非语音应检测的，但是常常作为语音而被检测到，从而多导致误识别。

通常的方法是，根据某一阈值以上的短时间功率是否连续并继续一定帧以上来检测语音的开始点，根据某一阈值以下的短时间功率是否连续并继续一定帧以上来检测语音的结束点。另外，也有根据2个电平的阈值尝试更正确地检测声音或使用声音信号的0交叉次数的做法[古井贞熙，“デイジタル音声处理，”デイジタルテクノロジ-シリ-ズ，东海大学出版会，1985.]。在可以忽视声源未知的加法性噪音的存在的环境中，即使是仅使用短时间功率或0交叉次数等的时间信息的声音检测法也不会发生问题。

但是，在不能忽视声源未知的加法性噪音的存在的环境中，在使用先有的声音检测法时的音响回波消除器中，将会发生以下不良情况。首先，第一尽管在麦克风输入中不存在语音，却将声源未知的加法性噪音判定为语音，不再进行滤波系数的更新，从而不能跟随音响特性的变化，音响回波的消除性能降低。第二，尽管在麦克风输入中存在语音，也判定没有语音，从而进行滤波系数的更新，偏离所希望的值，音响回波的消除性能降低。因此，希望不仅使用时间信息，而且同时使用频谱等频率信息。

在日本特愿平5-213946号(特开平7-66757)(NTT)中，说明了使用根据输入声音信号(回波消除前的信号)和声源已知的加法性噪音的声源信息的时间信息以及频率信息判断在输入声音信号中是否包含语音的双方说话检测电路的音响回波消除器。但是，作为绕射到输入声音信号中的回波，是以只受声源信号的影响为前提的，在有周围的噪音时，就会有双方说话检测精度降低的不良情况。另外，也不具有保持根据自适应滤波器推算的脉冲响应(FIR滤波器的系数值)的缓冲器。

在日本特开平5-102887号(东芝)中，使用根据回波消除后的信号的大小来判断是否为双方说话的双方说话检测电路，但是，由于不是同时并用时间信息和频率信息进行的判断，所以，在存在周围的噪音的环境中就会有判断精度不精确的问题。

在日本特开平7-303066号(NTT DOCOMO)中，采用了用脉冲响应寄存器补偿判断单元的延迟的结构，但是，由于不具备使用回波消除后的信号的时间信息和频率信息对各帧判断在输入声音信号中是否包含语音的单元，所以，双方说话检测性能是有限的。

在WO 96/42142号(NOKIA)中，具有使用回波消除后的信号的时间信息和频率信息对各帧判断在输入声音信号中是否包含语音的单元，但是，是关于通过减小汽车电话的基站发送信号的增益而具有抑制直接输出音响回波的结构的音响回波抑制器的发明，而不是关于音响回波消除器的发明。

发明的公开

本发明的目的旨在提供在容易混杂音响等的噪音的环境下可以改善声音信号的噪音消除性能的声音处理装置和方法。

本发明的特征在于，具有

根据模拟音响回波的传输路径的现时刻的脉冲响应和声源信号生成模拟音响回波信号的生成单元；

保持现时刻的脉冲响应并供给上述生成单元的供给单元；

通过将该模拟音响回波信号从麦克风输入信号中减去而消除音响回波并生成音响回波消除信号的消除单元；

使用上述声源信号和上述音响回波消除信号以及上述供给单元保持的现时刻的脉冲响应连续更新脉冲响应并将更新的脉冲响应供给上述供给单元的更新单元；

利用上述音响回波消除信号的时间信息和频率信息对各帧判断在麦克风输入信号中是否包含语音的判断单元；

保存1个以上的脉冲响应的保存单元；

和控制单元，在上述判断单元的判断结果为否定的帧中将上述供给单元保持的现时刻的脉冲响应保存到上述保存单元中而在判断结果为肯定的帧中就取出上述保存单元保存的1个脉冲响应并供给上述供给单元。

在本发明中，也可以将上述音响回波消除后的信号用于声音识别。

在本发明中，进而还可以具有根据上述音响回波消除后的信号通过富里叶变换对各帧求频谱的单元；根据该得到的频谱对各帧连续地求频谱平均值的单元；和通过将该得到的频谱平均值从根据上述音响回波消除后的信号对各帧计算的频谱中连续地减去而消除声源未知的加法性噪音的单元。

在本发明中，进而还可以具有根据上述音响回波消除后的信号通过富里叶变换对各帧求频谱的单元；根据该得到的频谱对各帧连续地求频谱平均值的单元；通过将该得到的频谱平均值从根据上述音响回波消除后的信号对各帧计算的频谱中连续地减去而消除声源未知的加法性噪音的单元；根据消除了该加法性噪音的频谱求对数倒频谱的单元；对各通话者分别求该得到的对数倒频谱的语音帧的对数倒频谱平均值和非语音帧的对数倒频谱平均值的单元；和对各通话者将该通话者的语音帧的对数倒频谱平均值从语音帧的对数倒频谱中减去以及将该通话者的非语音帧的对数倒频谱平均值从非语音帧的对数倒频谱中减去而修正与麦克风特性以及从口到麦克风的空间传输特性有关的乘法性畸变的单元。

在本发明中，进而还可以具有根据上述音响回波消除后的信号通过富里叶变换对各帧求频谱的单元；根据该得到的频谱求对数倒频谱的单元；对各通话者分别求该得到的对数倒频谱的语音帧的对数倒频谱平均值和非语音帧的对数倒频谱平均值的单元；和对各通话者通过将该通话者的语音帧的对数倒频谱平均值从语音帧的对数倒频谱中减去并将该通话者的非语音帧的对数倒频谱平均值从非语音帧的对数倒频谱中减去而修正与麦克风特性以及从口到麦克风的空间传输特性有关的乘法性畸变的单元。

在本发明中，还可以具有通过富里叶变换对各帧求频谱的单元；根据该得到的频谱求对数倒频谱的单元；对各通话者分别求该得到的对数倒频谱的语音帧的对数倒频谱平均值和非语音帧的对数倒频谱平均值的单元；和对各通话者通过将该通话者的语音帧的对数倒频谱平均值从语音帧的对数倒频谱中减去并将该通话者的非语音帧的对数倒频谱平均值从非语音帧的对数倒频谱中减去而修正与麦克风特性以及从口到麦克风的空间传输特性有关的乘法性畸变的单元。

在本发明中，使用模拟音响回波信号进行回波消除时，作为为发生模拟音响回波信号而使用的脉冲响应，在麦克风输入信号为语音时连续地使用在前一时刻的帧中使用的脉冲响应，在麦克风输入信号不是语音时通过使用新的更新后的脉冲响应来改善音响回波消除的性能。

此外，本发明根据消除音响回波后的信号求各帧的频谱和频谱平均值，使用得到的频谱和频谱平均值消除加法性噪音。

附图的简单说明

图1是表示NLMS(Normalized Least Mean Square error)的功能结构的框图。

图2是表示音响回波消除器的设置例的图。

图3是表示消除汽车室内的声源已知的加法性噪音的例子的图。

图4A-图4E分别是表示NLMS(Normalized Least Mean Squareerror)的性能(横轴：秒)的图。

图5是表示VAD(Voice Activity Detection)的处理内容的框图。

图6是表示VAD的动作定时的图。

图7A-图7G分别是表示NLMS-VAD(Normalized Least MeanSquare error with frame-wise Voice Activity Detection)的效果(横轴：秒)的图。

图8是用于说明滤波系数缓冲器的动作的图。

图9是表示NLMS-VAD的结构的框图。

图10A和图10B分别是表示NLMS-VAD/CSS法的频谱的图(横轴：秒)。

图11是表示时间不变滤波器的图。

图12是表示NLMS-VAD/CSS/E-CMN法的处理内容的框图(横轴：秒)。

图13是表示NLMS-VAD/CSS/E-CMN的评价的图。

图14是表示本发明实施例1的声音处理装置的结构的框图。

图15是表示本发明实施例2的***的结构的框图。

图16是表示本发明实施例3的***的结构的框图。

图17是表示本发明实施例4的***的结构的框图。

图18是表示本发明实施例5的***的结构的框图。

图19是表示本发明实施例6的***的结构的框图。

实施发明的最佳的形式

作为利用短时间功率及音调等的时间信息和频谱等的频率信息的声音检测算法之一，有按欧洲的手机及汽车电话***的GSM标准规格化的声音检测VAD(Voice Activity Detection)[RecommendationGSM06.32.]。该VAD精细地控制声音CODEC(压缩及解压)等的数字信号处理的动作，用于实现低功耗从而延长电池寿命。图5表示该VAD的简单的结构。首先，对各帧根据声音信号求自相关函数(时间信息)。根据该自相关函数通过线性预测分析LPC(LinearPredictive Coding)求线性预测系数(时间信息)。根据可以由线性预测系数构成的逆LPC滤波器和自相关函数可以求出声音信号的短时间功率(时间信息)。将该短时间功率与阈值比较，进行VAD判断。

在短时间功率大于阈值时，就输出数值1的局部的VAD标志。否则就输出数值0的局部的VAD标志。并且，在VAD后处理中，使用过去的多个帧的局部的VAD标志的数值的经历决定最终的VAD标志的值。

另一方面，在VAD判断中，在与短时间功率的比较中使用的阈值按以下方式作自适应化处理。利用经过平滑处理的自相关函数和自相关预测系数表示的频谱(频率信息)变化在连续的帧之间十分小时，就判定频谱的稳定性非常高。作为判定为频谱的稳定性非常高的声音信号，可以考虑背景噪音和母音。

在背景噪音的帧中进行阈值自适应处理，在母音的帧中不应进行阈值自适应处理。为了区别背景噪音和母音，利用音调信息。根据按照声音信号计算的自相关函数计算音调标志(音调周期)(时间信息)。在连续的帧之间，音调标志的变化小时，就判定该帧是母音，并输出数值1的音调标志。否则就输出数值0的音调标志。

利用从上述短时间功率和逆LPC滤波器求出的残差信号自相关预测系数、音调标志和稳定性的信息在频谱的稳定性高、音调性低的帧中进行阈值的自适应化处理。该VAD对于发动机声音及负载噪音等的比较稳定的背景噪音，不论其电平如何都可以发挥正确的声音检测性能。

在汽车内，从安全性的角度考虑将麦克风设置在遮光板等远离嘴边的位置时，信噪比(SNR)将变坏到小于10dB。这时，得知上述VAD算法的声音检测性能将显著地恶化。

因此，为了在SNR10dB左右时也能正确地进行声音检测，改良了阈值的自适应化等部分。现在，在VAD中使用的声音的窗口长为32ms，帧移动为10ms。以后，在由VAD检测到语音的存在时就说VAD是ON。相反，在未检测到时，就说VAD为OFF。该VAD进行1帧中1次近端输入中是否包含语音的判断，所以，可能发生声音的检测定时从实际的声音的前沿延迟的情况。

图6表示帧、VAD的动作定时和VAD使用的窗口长的关系。实际的声音的开始是帧n的中心时，能够由VAD检测该声音的开始的可能性高的是在帧n+1以后。假定帧n+2可以由VAD检测时，则从实际的声音的开始的检测延迟就成为25ms，可以认为在此期间回波通过的推算值是不稳定的。

图7D表示VAD的声音检测的情况。电平1表示检测到了语音。如使用箭头所示的那样，可以确认约2帧的声音检测延迟。如果可以将不稳定的滤波系数值恢复为更高精度的值，则可避免音响回波消除性能的降低。

因此，准备了可以存储m个滤波系数的缓冲器(称为滤波系数缓冲器)。在VAD为OFF的帧中，在将存储在第n(m-1≥n≥1)个存储位置的滤波系数顺序移动到第n+1个存储位置的同时，将现时刻的自适应滤波器的系数存储到滤波系数缓冲器的第1个存储位置。这时，作为结果，就是丢弃了存储在第m个存储位置的滤波系数。另一方面，在VAD为ON的帧中，取出存储在滤波系数缓冲器的第m个存储位置的滤波系数，可以用该值将变坏的滤波系数重置。

图8表示滤波系数缓冲器的动作的情况。取m为0～4时的ERLE的最大值和平均值示于表1。

表1滤波缓冲器的尺寸和ERLE(Echo Return LossEnhancement)的关系

缓冲器尺寸m	最大ERLE(dB)	平均ERLE(dB)
缓冲器尺寸m	最大ERLE(dB)	平均ERLE(dB)	0	8.80	4.18
1	9.06	4.25	0	8.80	4.18
1	9.06	4.25	2	9.15	4.35
3	9.14	4.36	2	9.15	4.35
3	9.14	4.36	4	9.14	4.36

m＝0表示不进行系数值的保存和重置的情况。由于在m≥2时几乎看不到与ERLE的差别，所以，选择m＝2。这就与VAD的检测延迟(约2帧)对应。

将具有上述特征的算法称为NLMS-VAD(NLMS with frame-wise VAD)，将全体的框图示于图9。这里，[s]、[f]分别表示采样方式和帧方式的信号的流程和处理的动作。在VAD一旦成为ON时，就停止滤波系数的更新直至下一个VAD成为OFF的帧。图7E表示令滤波系数的初始值全部为0.0、使VAD动作进行滤波系数值的存储和重置并从时刻0秒开始更新滤波系数时的滤波系数的第10个系数值的变化。示出了在停止滤波系数的更新的帧之前，滤波系数值不稳定，但是通过进行上述滤波系数的存储和重置而滤波系数恢复的情况。这样，便可消除时刻1.0秒以后的音响回波(在图7B中用椭圆包围的部分)。

但是，由图7E可知，没有消除时刻0.1秒前后的音响回波(在图7E中用椭圆包围的部分)。如果预先保存对各发声推算的滤波系数和在VAD中使用的参量并在下次发声时将其作为初始值使用，则可提高滤波系数的推算速度。图7G表示该例子。由图可知，时刻0.0秒之后的音响回波残存了若干，但是，此后的音响回波(在图7E中用椭圆包围的部分)则几乎全部被消除。这时的ERLE的最大值和平均值分别为9.29dB和4.5dB。另外，本申请人已完成了与NLMS-VAD法关联的使用基于时间信息和频率信息的声音检测的音响回波消除器的在日本国的专利申请(特愿平09-051577号、1997年3月6日申请)。在本发明中，对各帧进行基于时间信息和频率信息的声音检测是与上述申请的发明不同的地方。

下面，对于在存在声源已知的加法性噪音和声源未知的加法性噪音的环境中的强健的声音识别方法，说明将NLMS-VAD法与CSS(Continuous Spectral Subtraction)法组合的方法。将在时刻t以频率ω的观测频谱、声音频谱S(ω；t)的推算值和加法性噪音的推算值分别表为O(ω；t)、S(ω；t)、N(ω；t)时，CSS法则给定为

\hat{N} (ω; t) = γ \cdot \hat{N} (ω; t - 1) + (1 - γ) \cdot O (ω; t) - - - (8)

其中，α是over-estimation factor(超过估计因子)，β是flooringfactor(基准因子)，γ是smoothing factor(平滑因子)，下面，根据预备实验的结果分别设定为2.4、0.1和0.974。CSS是不将语音帧与非语音帧加以区别而连续地求频谱的移动平均值，并将其视为噪音频谱的推算值而从输入频谱中减去的方法。由于声音频谱的影响包含在噪音频谱的推算值中，所以，存在能量弱的声音频谱被掩蔽从而产生畸变的问题，但是，对于过去的某一一定时间的区间，残留相对地具有大的能量的频率成分，从而具有不论噪音还是声音都将能量弱的频率成分掩蔽的作用。因此，对纯净的声音进行CSS处理后得到的特征参量与重叠了加法性噪音的声音进行CSS处理后得到的特征参量间的变化比通常的频谱减法及最小平均二乘误差推算法得到的小。该特长对低SNR的声音识别是有效的。图10A表示对停止中(空载)的汽车内女性发的声音(「明朗的」、与将图7A所示的声音在计算机上进行加法运算而作成时使用的声音相同)进行CSS处理后的频谱，图7B表示对同一声音将以时速60km行驶时的声源未知的加法性噪音与重叠了音响回波的噪音数据在计算机上进行加法运算后(图7A)用NLMS-VAD法消除音响回波(图7G)并进行CSS法处理而得到的频谱。若将图7G与图10B进行比较，可知时刻0.9秒附近的频率1kHz的音响回波的残存成分(图7G中用椭圆包围的部分)已通过CSS法消除了。

CSS法不仅具有消除稳定的加法性噪音的效果，而且也具有抑制不能由NLMS-VAD法消除的残存音响回波的效果。使用对将音响回波消除信号e(t)进行FFT处理而得到的频谱进行CSS法处理后的频谱通过逆FFT处理恢复到时间区域而得到的波形信号取代(6)式的e(t)时的ERLE的平均值为13.60dB。与此相反，不利用NLMS-VAD法进行音响回波消除而只利用CSS法进行加法性噪音消除同样求出的ERLE的平均值为9.87dB。可以看出，仅用CSS法时，不能消除约相当3.7dB的声源已知的加法性噪音。

将图10A与图10B进行比较可知，2个频谱非常类似。这就预示着利用NLMS-VAD法与CSS法的组合对声源已知的加法性噪音和声源未知的加法性噪音可以抽出强健的特征参量。

下面，说明对声音频谱的乘法性畸变的修正方法。将由某个人的发声器官发生的在时刻t的频率ω的短时间频谱S(ω；t)的语音帧的长时间平均值称为讲话者的个性H_person(ω)，定义为

H_{person} (ω) = \frac{1}{T} \cdot Σ_{t = 1}^{T} S (ω; t) - - - (10)

其中，T是十分大的自然数。H_person(ω)可以视为表示声带声源特性和与声道长有关的讲话者固有的频率特性。另外，将用讲话者的个性除短时间频谱所得的值

S^*(ω；t)＝S(ω；t)/H_Person(ω) (11)

定义为标准化声音频谱。这时，如图11所示，声音频谱可以解释为利用标准化声音频谱S^*(ω；t)通过时间不变滤波器H_person(ω)而生成或乘法性畸变H_person(ω)与标准化声音频谱S^*(ω；t)重叠而生成。

S(ω；t)＝H_Person(ω)·S^*(ω；t) (12)

在汽车室内这样的实际环境中，作为对于标准化声音频谱的乘法性畸变，除了上述讲话者的个性外，可以考虑以下3种[A.Acero，”Acoustical and Environmental Robustness in Automatic SpeechRecognition，”Kluwer Academic Publishers，1992.]。

(1)发话样式H_style(N)(ω)

是与加法性噪音N有关的讲话样式(讲话方式、讲话速度、讲话的大小、Lombar效果等)所固有的频率传输特性。所谓Lombar效果，是说在存在加法性噪音的环境下讲话时，与在静寂的环境下不同，在无意识中发声频谱变形的现象。在文献[Y.Chen，”CepstralDomain Talker Stress Compensation for Robust Speech Recognition，”IEEE Trans.ASSP，Vol.36，No.4，pp.433-439，1988.]中，在柔软的讲话方式时，具有1kHz以下的能量强、1kHz以上的能量弱的特性，另一方面，在大声、讲得快、喊叫声、Lombar效果时则具有相反的特性。

(2)空间传输特性H_trans(ω)

表示从口到麦克风的空间的频率传输特性。

(3)麦克风特性H_mic(ω)

表示麦克风等输入***的电气频率传输特性。

通常，假定在声音和噪音的线性频谱区域的加法性成立时，则时刻t的频率ω的观测频谱O(ω；t)可以用

O(ω；t)＝H_Mic(ω)·[H_Trans(ω)·{H_style(N)(ω)·(H_Person(ω)·S^*(ω；t))}+N(ω；t)+E(ω；t)]

(13)进行模型化处理[J.H.L.Hansen，B.D.Womack，and L.M.Arslan，”A Source Generator Based Production Model for EnvironmentalRobustness in Speech Recognition，”Proc.ICSLP94，Yokohama，Japan，pp.1003-1006，1994.]。其中，N(ω；t)表示声源未知的加法性噪音频谱，E(ω；t)表示声源已知的加法性噪音频谱。

在4种乘法性畸变内，H_Mic(ω)是可以预先测定的，但是，在实际环境中，认为不给声音识别***的用户增加负担是难于将H_person(ω)、H_Style(N)(ω)、H_Trans(ω)分离开进行测定的。另外，例如即使假定不存在加法性噪音N(ω；t)和E(ωt)，在作为观测频谱的长时间平均值和(10)一样求出的时间不变滤波器的增益中将不可避免地混入上述4种乘法性畸变。因此，若重新将乘法性畸变H^*(ω)、加法性噪音

\tilde{N} (ω; t), \tilde{E} (ω)

分别定义为

H^{*} (ω) = H_{Mic} (ω) \cdot H_{Trans} (ω) \cdot H_{Style (N)} (ω) \cdot H_{Person} (ω) - - - (14)

\tilde{N} (ω; t) = H_{Mic} (ω) \cdot N (ω; t) - - - (15)

\tilde{E} (ω; t) = H_{Mic} (ω) \cdot E (ω; t) - - - (16)

则可将(13)式简化为以下形式。即

O (ω; t) = H^{*} (ω) \cdot S^{*} (ω; t) + \tilde{N} (ω; t) + \tilde{E} (ω; t) - - - (17)

另一方面，若将(17)式变形，则可得到

S^{*} (ω; t) = \frac{O (ω; t) - \tilde{N} (ω; t) - \tilde{E} (ω; t)}{H^{*} (ω)} - - - (18)

如果不是使用观测的频谱而是使用根据(11)式进行了标准化处理后的频谱作成非特定讲话者音素模型，则对观测频谱O(ω；t)通过消除实际环境中的

\tilde{N} (ω; t), \tilde{E} (ω; t),

H^*(ω)，求出标准化声音频谱S^*(ωt)的推算值，便可实现强健的声音识别***。关于

和的消除，前面讲过，将NLMS-VAD法与CSS法组合的方法是有效的。

在声音识别***中，作为音响参量，通常使用对数倒频谱来取代频谱。对数倒频谱定义为对频谱的对数值进行逆离散余弦变换(DCT：Discrete Cosine Transform)所得的数值。对数倒频谱与频谱相比，多用于用很少的参量数获得同样的声音识别性能之目的。

关于对标准化声音频谱S^*(ωt)的乘法性畸变H^*(ω)的消除，现已证明以下的E-CMN(Exact Cepstrum Mean Normalization)是有效的[M.Shozakai，S.Nakamura and K.Shikano，”A Non-IterativeModel-Adaptive E-CMN/PMC Approach for Speech Recognition inCar EnVironments，”Proc.Eurospeech，Rhodes，Greece，pp.287-290，1997.]。E-CMN法由以下2个步骤构成。推算步骤：对各讲话者分别求出语音/非语音帧的对数倒频谱平均值。将帧t的次数i的对数倒频谱表为C(i，t)时，则帧t的语音帧的对数倒频谱平均值可以利用例如(19)式求出。即

其中，η是求语音帧的对数倒频谱平均值时的平滑化系数，可以设定为小于1.0但接近1.0的值。另外，帧t的非语音帧的对数倒频谱平均值

可以利用例如(20)式求出。其中，η是求非语音帧的对数倒频谱平均值时的平滑化系数，可以设定为小于1.0但接近1.0的值。

语音帧的对数倒频谱平均值是乘法性畸变H^*(ω)的对数倒频谱表现，与讲话者有关。另一方面，非语音帧的对数倒频谱平均值与麦克风特性等输入***的乘法性畸变H_mic(ω)有关。

标准化步骤：对各讲话者按照(21)式在语音帧中将语音帧的对数倒频谱平均值

从观测对数倒频谱C(i，t)减去，在非语音帧中将非语音帧的对数倒频谱平均值减去，通过求标准化对数倒频谱而将观测频谱标准化。

关于E-CMN法的发明，本申请人已在日本国完成了申请(特愿平09-051578号、1997年3月11日)。

E-CMN法是根据约10个单词的少量的声音将各种乘法性畸变之积作为声音区间的对数倒频谱平均值而进行推算本将其从输入对数倒频谱中减去的方法。显而易见，不是通过使用根据所观测的频谱求出的对数倒频谱而是通过使用根据E-CMN法进行标准化处理后的对数倒频谱作成非特定讲话者音素模型，便可将各种乘法性畸变一起修正。

最后，作为在存在声源已知和声源未知的加法性噪音及乘法性畸变的实际环境中的强健的声音识别方法，说明将NLMS-VAD法、CSS法和E-CMN法组合的方法。图12表示按照本组合方法构成的运算电路的框图。首先，在第1电路101中，利用NLMS-VAD法生成从输入声音中消除了声源已知的加法性噪音的波形信号。其次，在第2电路102中，在对该波形信号进行富里叶变换后，利用CSS法生成消除了声源未知的加法性噪音的频谱的时间序列。

此外，在第3电路103中，将该频谱的时间序列变换为对数倒频谱的时间序列，然后利用E-CMN法变换为进行标准化处理后的对数倒频谱的时间序列。最后，在第4电路104中，将对数倒频谱的时间序列利用众所周知的维托毕算法与预先作成的非特定讲话者用的音素模型进行对照，输出声音识别结果。

这时使用的非特定讲话者用音素模型，如前所述，必须使用利用E-CMN法进行标准化处理后的对数倒频谱来作成。此外，在E-CMN法中所需要的语音帧与非语音帧的区别，可以直接使用组装到NLMS-VAD法的VAD的结果。

下面，归纳本组合方法的效果。将单一指向性麦克风设置到2000cc的汽车的驾驶员座位的遮光板上，收录男性2名、女性2名坐到设定在各自喜欢的位置上的座位上讲出520个单词(ATR声音数据库C集合)的声音(数据1)。通过手动进行分割以使各250ms的无音区间附属在声音区间的前后。另外，在空载、以时速60km、时速100km的行驶状态下，用汽车音响***顺序播放5种音乐源(通俗音乐、爵士音乐、摇滚音乐、古典音乐、单口相声)，并将混合了音乐源的左右信道的信号(数据2)和麦克风输入信号(数据3)同时录音。汽车音响***的输出值对各行驶状态设定为1名男性感到舒适的音量。

在空载、时速60km、时速100km的状态下音响回波向麦克风的最大输入电平分别为60.7dBA、65.9dBA、70.6dBA。将数据1和数据3在计算机上进行加法运算后，作成评价数据。数据2作为NLMS-VAD法的远端输入使用。在识别中，使用环境独立的54音素的非特定讲话者用Tied-Mixture HMM模型(根据40名的语音数据作成)。分析条件是8kHz采样、帧长32ms、帧移动10ms，特征参量为10次MFCC、10次ΔMFCC、Δ能量，HMM模型所共有的正态分布的数分别为256、256、64。

非特定讲话者按520个单词的识别任务在空载、时速60km、时速100km的行驶状态下不存在扬声器输出声音时(w/o SpeakerOut)、存在扬声器输出声音但不进行NLMS-VAD法处理时(w/Speaker Out w/o NLMS-VAD)和存在扬声器输出声音并进行NLMS-VAD法处理时(w/Speaker Out w/NLMS-VAD)的识别性能(5种音乐源的平均)和RRE示于图13。

不论在哪种行驶状态下，都可以得到80％以上的RRE。另外，用NLMS-VAD法也不能恢复的误识别率在空载、时速60km、时速100km的状态下也分别仅为0.7％、2.1％、1.8％，从而可以确认上述组合法的有效性。

(实施例1)

实施例1的声音处理装置的电路结构示于图14。以下所述的各个单元，可以使用众所周知的电路，例如可以使用数字电路、以及利用计算机和数字处理器的运算处理而实现的电路，所以，如果是业内人士，就可以根据图13制造声音处理装置。首先，说明各采样的处理。声源信号11作为扬声器输出信号13从扬声器输出。供给单元aa7保持现时刻的脉冲响应(FIR滤波器的系数)，并将现时刻的脉冲响应16供给生成单元aa4。

声源信号11传送给生成单元aa4，由生成单元aa4通过FIR滤波器生成模拟音响回波信号15。在消除单元aa5中，将模拟音响回波信号15从麦克风输入信号12中减去，生成声源回波消除信号14。在更新单元aa3中，根据声源信号11、声源回波消除信号14和供给单元aa7保持的现时刻的脉冲响应16更新脉冲响应，生成更新脉冲响应17，并将其供给上述供给单元aa7。

供给单元aa7仅在后面所述的声音判断标志18为OFF的期间将从更新单元aa3供给的更新脉冲响应17作为新的现时刻的脉冲响应进行保持，而在声音判断标志18为ON的期间则舍弃从更新单元aa3供给的更新脉冲响应17。由消除单元aa5生成的音响回波消除信号14也传送给判断单元aa1。

下面，说明各帧的处理。按各采样传送给判断单元aa1的音响回波消除信号14在判断单元aa1中存储到缓冲器中，在积存了1帧的阶段，由判断单元aa1判断在麦克风输入单元(图中未示出)中是否存在语音，并输出声音判断标志18。在判断结果为肯定时(检测到存在语音时)，声音判断标志的值就是ON。在判断结果为否定时(未检测到存在语音时)，则声音判断标志的值就是OFF。

在该判断处理中，利用音响回波消除信号14的时间信息和频率信息判断在麦克风输入信号12中是否包含语音信号。作为判断的方法，可以使用能够检测重叠在声源未知的加法性噪音上的语音的算法VAD(Voice Activity Detection)。例如，在Recommendation GSM06.32中，通过将信号进行LPC分析后的残差能量与阈值进行比较，来检测声音，但是，由于可以与声源未知的加法性噪音的能量电平相适应地改变阈值，所以，可以将声源未知的加法性噪音与语音分离。

在进行阈值的自适应化处理时，利用了频谱的稳定性(频率信息)和音调性(时间信息)。在上述判断处理的结果是声音判断标志18为OFF时，控制单元aa6就取出供给单元aa7保持的现时刻的脉冲响应16，作为所希望的脉冲响应存储到保存单元aa2中。

另一方面，在声音判断标志18为ON时，由于供给单元aa7保持的脉冲响应有可能偏离所希望的值，所以，控制单元aa6就从保存单元aa2中取出1个保存脉冲响应，并将其改写到供给单元aa7保持的脉冲响应中。保存单元aa2可以是能够保存1个以上的脉冲响应的FIFO(先进先出)。

(实施例2)

图15表示实施例2的基本结构。首先，具有在实施例1中说明的图14的结构的声音处理装置100使用声源信号11和麦克风输入信号12消除包含在麦克风输入信号12中的音响回波，生成音响回波消除信号14。其次，在频谱计算单元bb1中，对备一定帧周期通过富里叶变换计算音响回波消除信号14的频谱21。

频谱21传送给对数倒频谱计算单元bb4，变换为各一定帧的对数倒频谱24。在对照单元bb5中，使用各一定帧的对数倒频谱24进行对照，并输出识别结果25。在进行对照时，可以使用众所周知的隐马尔可夫模型的方法或众所周知的动态计划法的方法或众所周知的神经网络的方法中的任何一种。

(实施例3)

图16表示实施例3的基本结构。对于和图15的实施例2相同的部分标以相同的符号。首先，具有图14的结构的声音处理装置100使用声源信号11和麦克风输入信号12消除包含在麦克风输入信号12中的音响回波，生成音响回波消除信号14。其次，在频谱计算单元bb1中，对各一定帧周期通过富里叶变换计算音响回波消除信号14的频谱21。频谱21传送给频谱平均计算单元bb2，对各一定帧利用(8)式取出频谱平均值22。

另一方面，由频谱计算单元bb1取出的频谱21供给频谱平均减法单元bb3，利用(9)式减去频谱平均值22，求出噪音消除频谱23。噪音消除频谱23传送给对数倒频谱计算单元bb4，变换为各一定帧的对数倒频谱24。在对照单元bb5中，使用各一定帧的对数倒频谱24进行对照，输出识别结果25。在进行对照时，可以使用众所周知的隐马尔可夫模型的方法或众所周知的动态计划法的方法或众所周知的神经网络的方法中的任何一种。

(实施例4)

图17表示实施例4的基本结构。在图17中，对于和实施例2或实施例3相同的部分标以相同的符号。首先，具有图14的结构的手头紧处理装置100使用声源信号11和麦克风输入信号12消除包含在麦克风输入信号12中的音响回波，生成音响回波消除信号14。其次，在频谱计算单元bb1中，对各一定帧周期通过富里叶变换计算音响回波消除信号14的频谱21。频谱21传送给频谱平均计算单元bb2，对各一定帧利用(8)式求出频谱平均值22。

另一方面，由频谱计算单元bb1求出的频谱21供给频谱平均减法单元bb3，利用(9)式减去频谱平均值22，求出噪音消除频谱23。噪音消除频谱23传送给对数倒频谱计算单元bb4，变换为各一定帧的对数倒频谱24。

对数倒频谱24传送给对数倒频谱平均计算单元cc1，在此求出对数倒频谱平均值31。在进行对数倒频谱平均值的计算时，可以使用例如(19)式和(20)式。其次，在对数倒频谱平均计算单元cc2中，将对数倒频谱平均值31从对数倒频谱24中减去，计算标准化对数倒频谱32。此外，在进行减法运算时，可以使用(21)式。在对照单元bb5中，使用各一定帧的标准化对数倒频谱32进行对照，输出识别结果25。在进行对照时，可以使用众所周知的隐马尔可夫模型的方法或众所周知的动态计划法的方法或众所周知的神经网络的方法中的任何一种。

(实施例5)

图18表示实施例5的基本结构。在图18中，对于和实施例2、实施例3或实施例4相同的部分标以相同的符号。首先，具有图14的结构的声音处理装置100使用声源信号11和麦克风输入信号12消除包含在麦克风输入信号12中的音响回波，生成音响回波消除信号14。其次，在频谱计算单元bb1中，对各一定帧周期通过富里叶变换计算音响回波消除信号14的频谱21。频谱21传送给对数倒频谱计算单元bb4，变换为各一定帧的对数倒频谱24。对数倒频谱24传送给对数倒频谱平均计算单元cc1，在此求出对数倒频谱平均值31。在进行对数倒频谱平均值的计算时，可以使用例如(19)式和(20)式。

其次，在对数倒频谱平均减法单元cc2中，将对数倒频谱平均值31从对数倒频谱24中减去，计算标准化对数倒频谱32。此外，在进行减法运算时，可以使用(21)式。在对照单元bb5中，使用各一定帧的标准化对数倒频谱32进行对照，输出识别结果25。在进行对照时，可以使用众所周知的隐马尔可夫模型的方法或众所周知的动态计划法的方法或众所周知的神经网络的方法中的任何一种。

(实施例6)

图19表示实施例6的基本结构。在图19中，对于和实施例2、实施例3、实施例4或实施例5相同的部分标以相同的符号。首先，由具有图14的结构的声音处理装置100使用声源信号11和麦克风输入信号12消除包含在麦克风输入信号12中的音响回波，生成音响回波消除信号14。其次，在频谱计算单元bb1中，对各一定帧周期通过富里叶变换计算音响回波消除信号14的频谱21。频谱21传送给对数倒频谱计算单元bb4，变换为各一定帧的对数倒频谱24。

对数倒频谱24传送给对数倒频谱平均计算单元cc1，在此求出对数倒频谱平均值31。在计算对数倒频谱平均值时，可以使用例如(19)式和(20)式。其次，在对数倒频谱平均减法单元cc2中，将对数倒频谱平均值31从对数倒频谱24中减去，计算标准化对数倒频谱32。此外，在进行减法运算时，可以使用(21)式。在对照单元bb5中，使用各一定帧的标准化对数倒频谱32，进行对照，输出识别结果25。在进行对照时，可以使用众所周知的隐马尔可夫模型的方法或众所周知的动态计划法的方法或众所周知的神经网络的方法中的任何一种。

Claims

1.声音处理装置，其特征在于：具有

保持现时刻的脉冲响应并供给上述生成单元的供给单元；

保存1个以上的脉冲响应的保存单元；

和控制单元，在上述判断单元的判断结果为否定的帧中将上述供给单元保持的现时刻的脉冲响应保存到上述保存单元中，而在判断结果为肯定的帧中就取出上述保存单元保存的1个脉冲响应并供给上述供给单元。

2.按权利要求1所述的声音处理装置，其特征在于：将上述音响回波消除后的信号用于声音识别。

3.按权利要求2所述的声音处理装置，其特征在于：进而具有根据上述音响回波消除后的信号通过富里叶变换对各帧求频谱的单元；根据该得到的频谱对各帧连续地求频谱平均值的单元；和通过将该得到的频谱平均值从根据上述音响回波消除后的信号对各帧计算的频谱中连续地减去而消除声源未知的加法性噪音的单元。

4.按权利要求2所述的声音处理装置，其特征在于：进而具有根据上述音响回波消除后的信号通过富里叶变换对各帧求频谱的单元；根据该得到的频谱对各帧连续地求频谱平均值的单元；通过将该得到的频谱平均值从根据上述音响回波消除后的信号对各帧计算的频谱中连续地减去而消除声源未知的加法性噪音的单元；根据消除了该加法性噪音的频谱求对数倒频谱的单元；对各通话者分别求该得到的对数倒频谱的语音帧的对数倒频谱平均值和非语音帧的对数倒频谱平均值的单元；和对各通话者将该通话者的语音帧的对数倒频谱平均值从语音帧的对数倒频谱中减去以及将该通话者的非语音帧的对数倒频谱平均值从非语音帧的对数倒频谱中减去而修正与麦克风特性以及从口到麦克风的空间传输特性有关的乘法性畸变的单元。

5.按权利要求2所述的声音处理装置，其特征在于：进而具有根据上述音响回波消除后的信号通过富里叶变换对各帧求频谱的单元；根据该得到的频谱求对数倒频谱的单元；对各通话者分别求该得到的对数倒频谱的语音帧的对数倒频谱平均值和非语音帧的对数倒频谱平均值的单元；和对各通话者通过将该通话者的语音帧的对数倒频谱平均值从语音帧的对数倒频谱中减去并将该通话者的非语音帧的对数倒频谱平均值从非语音帧的对数倒频谱中减去而修正与麦克风特性以及从口到麦克风的空间传输特性有关的乘法性畸变的单元。

6.声音处理方法，其特征在于：包括

根据模拟音响回波的传输路径的现时刻的脉冲响应和声源信号生成模拟音响回波信号的生成步骤；

保持现时刻的脉冲响应并供给上述生成步骤的供给步骤；

通过将该模拟音响回波信号从麦克风输入信号中减去而消除音响回波并生成音响回波消除信号的消除步骤；

使用上述声源信号和上述音响回波消除信号以及上述供给步骤保持的现时刻的脉冲响应连续更新脉冲响应并将更新的脉冲响应供给上述供给步骤的更新步骤；

利用上述音响回波消除信号的时间信息和频率信息对各帧判断在麦克风输入信号中是否包含语音的判断步骤；

保存1个以上的脉冲响应的保存步骤；

和控制步骤，在上述判断步骤的判断结果为否定的帧中将上述供给步骤保持的现时刻的脉冲响应在上述保存步骤中进行保存而在判断结果为肯定的帧中就取出上述保存步骤保存的1个脉冲响应并供给上述供给步骤。

7.按权利要求6所述的声音处理方法，其特征在于：将上述音响回波消除后的信号用于声音识别。

8.按权利要求7所述的声音处理方法，其特征在于：进而包括根据上述音响回波消除后的信号通过富里叶变换对各帧求频谱的步骤；根据该得到的频谱对各帧连续地求频谱平均值的步骤；和通过将该得到的频谱平均值从根据上述音响回波消除后的信号对各帧计算的频谱中连续地减去而消除声源未知的加法性噪音的步骤。

9.按权利要求7所述的声音处理方法，其特征在于：进而包括根据上述音响回波消除后的信号通过富里叶变换对各帧求频谱的步骤；根据该得到的频谱对各帧连续地求频谱平均值的步骤；通过将该得到的频谱平均值从根据上述音响回波消除后的信号对各帧计算的频谱中连续地减去而消除声源未知的加法性噪音的步骤；根据消除了该加法性噪音的频谱求对数倒频谱的步骤；对各通话者分别求该得到的对数倒频谱的语音帧的对数倒频谱平均值和非语音帧的对数倒频谱平均值的步骤；和对各通话者将该通话者的语音帧的对数倒频谱平均值从语音帧的对数倒频谱中减去以及将该通话者的非语音帧的对数倒频谱平均值从非语音帧的对数倒频谱中减去而修正与麦克风特性以及从口到麦克风的空间传输特性有关的乘法性畸变的步骤。

10.按权利要求7所述的声音处理方法，其特征在于：进而包括根据上述音响回波消除后的信号通过富里叶变换对各帧求频谱的步骤；根据该得到的频谱求对数倒频谱的步骤；对各通话者分别求该得到的对数倒频谱的语音帧的对数倒频谱平均值和非语音帧的对数倒频谱平均值的步骤；和对各通话者通过将该通话者的语音帧的对数倒频谱平均值从语音帧的对数倒频谱中减去并将该通话者的非语音帧的对数倒频谱平均值从非语音帧的对数倒频谱中减去而修正与麦克风特性以及从口到麦克风的空间传输特性有关的乘法性畸变的步骤。