JP4276781B2

JP4276781B2 - 音声信号処理方法および音声信号処理装置

Info

Publication number: JP4276781B2
Application number: JP2000537202A
Authority: JP
Inventors: シュナイダートビアス
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1998-03-19
Filing date: 1999-03-08
Publication date: 2009-06-10
Anticipated expiration: 2019-03-08
Also published as: JP2002507775A; US6804646B1; EP1062659B1; EP1062659A1; DE59900797D1; WO1999048084A1

Description

【０００１】
本発明は、音声信号処理法および音声信号処理装置に関する。
【０００２】
音声認識システムは文献［１］により知られている。そこには、音声認識システムのコンポーネントの基礎的な概説ならびに音声認識において一般的な重要技術についても開示されている。
【０００３】
また、文献［２］によりウェーブレット変換が公知である。ウェーブレット変換は有利には複数の変換段において行われ、その際、１つの変換段によって１つのパターンがハイパスフィルタ成分とローパスフィルタ成分に分けられる。個々のハイパスフィルタ成分とローパスフィルタ成分は、有利にはそのパターンよりも低減された分解能をもっている（英語の用語ではサブサンプリング subsampling、つまり低減されたサンプリングレート、それにより低減された分解能）。ハイパスフィルタ成分とローパスフィルタ成分から、パターンを再構成することができる。このことはたとえば、変換で用いられる変換フィルタの特別な形態によって保証される。ウェーブレット変換は１次元、２次元またはそれ以上の次元で行うことができる。
【０００４】
音声信号には有効信号と妨害信号が含まれており、妨害信号の強さは周囲環境に依存している。音声信号の後続処理のために重要な前提条件は、有効信号を妨害信号から分離することである。
【０００５】
音声信号における周波数スペクトルのそれぞれ異なる領域を、強さの程度の差をつけて抑圧する方法が知られている。その際の欠点は、妨害信号のダイナミックな発生が考慮されないことである。
【０００６】
本発明の課題は、音声信号の処理にあたり上述の欠点が回避されるようにした方法および装置を提供することにある。
【０００７】
この課題は、独立請求項の特徴部分に記載の構成により解決される。
【０００８】
たとえば高速フーリエ変換（ＦＦＴ）による周波数領域への時間信号の変換によって、所定数のサンプリング値の含まれている時間信号の領域が周波数領域に変換される。このプロセスは種々の時点で行われ、それによって周波数領域において漸進的な時点で、時間信号の変換された個々の領域に依存する様々な値が生じることになる。このようにして、周波数経過特性を時間軸上で表すことができる。
【０００９】
ＦＥＴのほかにウェーブレット変換を使用することができるし、あるいは時間領域を周波数領域にマッピングする他のいかなる変換を使用してもよい。
【００１０】
この場合、音声信号を処理するために音声信号を周波数領域に変換する方法が提供される。音声信号における少なくとも１つの所定の周波数について、周波数領域に変換された音声信号の包絡線が時間軸上で求められる。この包絡線は、それぞれ所定の期間によって定められた複数のセグメントに分割される。これら複数のセグメントにおいて各セグメントごとに、包絡線の最大値が求められる。これら複数のセグメントのうち所定数のセグメントに関して、最も小さい最大値が求められる。その際、何らかの係数で重み付けられた最も小さい最大値を音声信号から差し引くようにして、音声信号の処理が行われる。
【００１１】
したがって有利には、時間軸上で包絡線の求められる個々の周波数について所定の期間にわたって最も小さい最大値が定められ、その際、たとえば有効信号と妨害信号をもつ音声信号であれば、その最も小さい最大値には妨害信号が含まれる。殊にこれは、音声信号が発声された言語すなわちスピーチないしはボイスであるときに明らかになる。この場合、スピーチには複数の単語が含まれており、それらは流暢な発音であってもスペクトル的に最小である個所（たとえば個々の単語の間の休止）を有している。スペクトル的に最小であるそのような個所では有効信号はほとんど存在していないのに対し、妨害信号は優勢である。
【００１２】
別の利点は、複数のセグメントについて最も小さい最大値が求められることである。この場合、複数のセグメントは、時間軸上で妨害信号のダイナミックな経過特性を有している。したがって妨害信号を、ある期間にわたり加速し続けている自動車内のエンジンノイズとすることができる。このように自動車内の妨害信号は（加速中）、時間の経過とともに増大する。そのつど複数のセグメントについて最も小さい最大値が求められるので、時間の経過とともに複数のセグメントごとに最も小さい最大値が（新たに）求められ、その結果、妨害信号のダイナミックな発生をいっしょに考慮できるようになる。
【００１３】
本発明の１つの実施形態によれば、複数のセグメントのうちさらに別の複数のセグメントについて最小値が求められ、上述の最も小さい最大値が最小値と結合されて音声信号から差し引かれるようにして、音声信号が処理される。
【００１４】
上記の別の複数のセグメントについて求められた最小値をいっしょに考慮することは、有効信号を得るために音声信号から差し引かれるべき妨害信号の適応化のために、きわめて有利であることが判明した。目下のところ有効信号が存在していなければ、その最小値は妨害信号を表し、したがってそれが音声信号から差し引かれる。
【００１５】
１つの別の実施形態によれば、上述の最小値と最も小さい最大値は式
【００１６】
【数２】

【００１７】
に従って結合され、ここでａは第１の所定の係数を表し、ｂは第２の所定の係数、ｍａｘは最も小さい最大値、ｍｉｎは最小値を表す。その際、これらの係数は、適用事例にとって好適な妨害信号低減が行われるよう、まえもって与えることができる。
【００１８】
１つの有利な実施形態によれば、それぞれ複数のセグメントまたはさらに別の複数のセグメントが経過した後、更新が実行され、これは更新される妨害信号が音声信号から差し引かれることによって行われる。
【００１９】
付加的な実施形態において有利であるのは、音声信号がスピーチ信号ないしはボイス信号であり、たとえば自然に発声された言語すなわちスピーチないしはボイスである場合である。
【００２０】
また、１つの実施形態によれば、処理された音声信号が音声認識のために用いられる。まさに音声認識システムにとっては、可能なかぎり妨害信号のない明瞭な有効信号というのが有利な前提条件である。したがって有効信号が明瞭であればあるほど、音声認識システムは発声された言語をいっそう良好に認識する。さらに、有効信号を出力することもできる。
【００２１】
本発明によればさらに、音声信号処理装置が提供される。この装置はプロセッサユニットを有しており、これは音声信号を周波数領域に変換できるように構成されている。その際、少なくとも１つのまえもって定められた周波数について、周波数領域に変換された音声信号の包絡線を時間軸上で求めることができる。この包絡線は、それぞれ所定の期間により定められた複数のセグメントに分割可能である。複数のセグメントにおいて各セグメントごとに包絡線の最大値が求められる。また、複数のセグメントにおいて所定数のセグメントについて、最も小さい最大値が求められる。さらに、何らかの係数で重み付けられた最も小さい最大値が音声信号から差し引かれるようにして、音声信号が処理される。
【００２２】
このような音声信号処理装置の１つの可能な実施形態によれば、プロセッサユニットは次のように構成されている。すなわち、複数のセグメントのうち別の複数のセグメントについて最小値が求められ、上述の最も小さい最大値がその最小値と結合されて音声信号から差し引かれるようにして、音声信号の処理が行われる。
【００２３】
この装置は、本発明による方法または前述のその実施形態を実行するために殊に適している。従属請求項には実施形態が示されている。
【００２４】
次に、以下の図面を参照しながら本発明の実施例について詳しく説明する。
【００２５】
図１は、音声信号処理方法における複数のステップを示す図である。
【００２６】
【外１】

【００２７】
図３は、プロセッサユニットを示す図である。
【００２８】
図４は、音声認識システムを示す図である。
【００２９】
図１は、音声信号処理方法の複数のステップを示す図である。以下では図１ａと図１ｂを参照しながら、音声信号処理のための２つの変形例について説明する。
【００３０】
図１ａにおいて、音声信号は少なくとも１つの周波数領域に変換される（ステップ１０１参照）。有利には、この変換は高速フーリエ変換（ＦＦＴ）である。その際、変換は所定の時点ｔ_iにおいて実行され、このため少なくとも１つの周波数の経過特性が時点ｔ_iにおいて求められる。このような時間に依存した周波数経過特性を介して、ステップ１０２において包絡線が求められる。これは少なくとも１つの周波数について実行され、たとえば音声信号における複数の重要な周波数について実行される。ステップ１０３において個々の周波数包絡線が、有利には等しい期間をもつ複数のセグメントに分けられる。各セグメントごとに、包絡線経過特性中の最大値が求められる（ステップ１０４参照）。ステップ１０５において、所定数のセグメントのうち最も小さい最大値が求められ、その最も小さい最大値は、妨害信号を低減してできるかぎり強い有効信号が得られるようにする目的で、たとえば何らかのファクタによって重みづけられて音声信号から差し引かれる（ステップ１０６）。最も小さい最大値は、決まった個数だけ過去に遡った複数のセグメントについて求められ、この場合、所定時間後に最も小さい最大値について再度、その新しい時点で所定数だけ過去に遡ったセグメントを考慮して更新が実行される。このようにして、個数Ｎの先行のセグメントにより定められたすべての時点で、時間軸上の個々の周波数の包絡線に対する最も小さい最大値のダイナミックな整合が行われる。妨害信号のダイナミックな整合の必要性を具体的に表す１つの実例は、加速中の車両内における妨害信号であって、この場合、エンジンノイズが加速に応じて時間が経つにつれて増大する。エンジンノイズの増大に相応する妨害信号は、所定の周波数の包絡線に対しまえもって定められた時点で最も小さい最大値を更新することによって整合され、これによって質的に価値の高い有効信号を音声信号から得ることができる。
【００３１】
図１ｂには図１ａと同様、ステップ１０１，１０２，１０３，１０４，１０５が示されている。この場合、ステップ１０３の後、最大値の決定（１０４および１０５）のほかに、そのつど調べられている周波数の包絡線において所定の期間における最小値も求められる（ステップ１０７参照）。殊にここで注目しているのは、所定数の先行のセグメントにおける（最も小さい）最小値つまり目下の時点から考慮すべき期間にわたり包絡線において現れた最小値である。ついでステップ１０８において、音声信号から差し引くべき妨害信号を得て、有効信号の品質を著しく改善する目的で、最も小さい最大値も最小値も相互に結合される。
【００３２】
最小値は式
【００３３】
【数３】

【００３４】
に従い最も最大値と結合される。ここで、ａは第１の所定の係数を表し、ｂは第２の所定の係数、ｍａｘは最も小さい最大値、さらにｍｉｎは最小値を表す。
【００３５】
これに基づき有利には、
【００３６】
【数４】

【００３７】
この結合によって、妨害信号の時間的な変化も考慮される。有効信号に一定の妨害信号が重畳されているとき、その妨害信号ないしはそれに比例する成分が正確に消去される。
【００３８】
最小値および必要に応じて最も小さい最大値を求めるために考慮すべきタイムインターバルＴ（これは所定数の先行のセグメントの期間を表す）はたとえば、そのタイムインターバルＴが発生された語よりも長くなるように選定される（ここではもちろん音声信号は発声された言語すなわちスピーチないしはボイスに対応する）。最小値ないしは最も小さい最大値の更新は時点ｔ＝ｎ＊Ｔにおいて行われ、つまりｎ個のタイムインターバルＴごとにて行われる。
【００３９】
【外２】

【００４０】
たとえば、最も小さい最大値と最小値による重み付けられた平均値が、（そのつど考慮すべき周波数ｆ_iに関する）音声信号から差し引かれる。
【００４１】
さらに、最も小さい最大値と最小値がその時点ｔ_aktよりも前の所定のＮ個のセグメントを考慮して求められる。音声信号から差し引かれるべき妨害信号の整合によって、それぞれ異なる時点ｔ_aktで新たに最も小さい最大値と最小値が（過去に遡ったＮ個のセグメントについて）求められ、互いに結合され、（個々の周波数ｆ_iに関連する）有効信号から差し引かれる。
【００４２】
【外３】

【００４３】
図３にはプロセッサユニットＰＲＺＥが描かれている。プロセッサユニットＰＲＺＥは、プロセッサＣＰＵとメモリＳＰＥと入出力インタフェースＩＯＳを有しており、これはインタフェースＩＦＣを介してそれぞれ異なるやり方で利用される。すなわち出力はグラフィックインタフェースを介して、モニタＭＯＮで見えるように、および／またはプリンタＰＲＴによって送出される。入力は、マウスＭＡＳまたはキーボードＴＡＳＴによって行われる。さらにこのプロセッサユニットＰＲＺＥはデータバスＢＵＳも有しており、このバスによってメモリＭＥＭ、プロセッサＣＰＵおよび入出力インタフェースＩＯＳの接続が保証される。さらにこのデータバスＢＵＳに付加的なコンポーネントを接続可能であって、たとえば付加的なメモリ、データ記憶装置（ハードディスク）またはスキャナを接続することができる。
【００４４】
図４には音声認識システムが示されている。自然に発生された音声を認識するための前提条件は、知識表現のための適切なフォーマリスム（formalis）である。完全な音声認識システムは複数の処理レベルを有している。これはたとえばアコースティック・フォネティクス、イントネーション、シンタックス、セマンティクスならびにプラグマティクスである。図４には、認識の際の複数の処理レベルが示されている（文献［１］参照）。
【００４５】
この音声認識システムに自然のスピーチ信号ＳＰＲＳが到達する。そこではコンポーネントＭＥＸにおいて特徴抽出が実行される。特徴抽出後、周知の音響音声単位ＡＰＥに基づき言語音が認識される（ブロックＳＰＬＥ参照）。この場合、音響的な距離パラメータの計算が行われる。ＳＰＬＥにおける言語音認識後、ブロックＬＤＫにおいて、発音モデルや単語辞書ＷＯＬＸを用いて語彙的なデコーディング（単語認識）が行われ、それにつづいて文法を含む音声モデルＧＲＳＭＬを用いてシンタクス分析ＳＹＡＬが行われる。単語認識ＬＤＫおよびシンタクス分析ＳＹＡＬは、スピーチ信号に対する対応に従った探索を成している。次にブロックＳＥＮＢにおいてセマンティクスによる後処理が実行され、その際、文脈情報やプラグマティクスＫＷＰＭが考慮され、ついで音声認識システムにより認識されたスピーチＥＲＳＰＲが生じる。
【００４６】
本明細書では以下の刊行物を引用した。
【００４７】
［１］ A. Hauenstein: "Optimierung von Alogrithmen und Entwurf eines Prozessors fuer die automatische Spracherkenung", Lehrstuhl fuer Integrierte Schaltungen, Technische Universitaet Muenchen, Dissertation, 19.07.1993 Chapter 2, p. 13 - 26
［２］S.G. Mallat: A Theory for Multiresolution Signal Decompposition: The Wavelet Representation, IEEE Trans. on Pattern Analysis and Machine Intelligence, Vol. 11, No. 7, 6. 1989, p. 674 - 693

【図面の簡単な説明】
【図１Ａ】音声信号処理方法における複数のステップを示す図である。
【図１Ｂ】音声信号処理方法における複数のステップを示す図である。
【図２】周波数ｆ_iの包絡線の経過特性を時間ｔにわたり示す図である。
【図３】プロセッサユニットを示す図である。
【図４】音声認識システムを示す図である。

Claims

音声信号処理方法において、
ａ）音声信号を周波数領域に変換し、
ｂ）少なくとも１つの所定の周波数について、前記周波数領域に変換された音声信号における時間軸上の包絡線を求め、
ｃ）該包絡線を、それぞれ所定の期間により定められた複数のセグメントに分割し、
ｄ）前記の複数のセグメントにおいて各セグメントごとに包絡線の最大値を求め、
ｅ）前記の複数のセグメントのうち所定数のセグメントについて最も小さい最大値を求め、
ｆ）所定のファクタで重み付けられた最も小さい最大値を音声信号から差し引くことによって音声信号を処理することを特徴とする、
音声信号処理方法。
ａ）複数のセグメントのうちさらに複数のセグメントについて最小値を求め、
ｂ）最も小さい最大値を最小値と結合して音声信号から差し引くことにより音声信号を処理する、
請求項１記載の方法。
前記の最小値と最も小さい最大値を式

に従って結合し、
ここでａは第１の所定の係数を表し、ｂは第２の所定の係数、ｍａｘは最も小さい最大値、ｍｉｎは最小値を表す、
請求項１記載の方法。
前記の所定数のセグメントまたは別の複数のセグメントがそのつど経過した後、音声信号を処理する、請求項１から３のいずれか１項記載の方法。
前記音声信号はスピーチ信号である、請求項１から４のいずれか１項記載の方法。
処理された音声信号を音声認識システムのために使用する、請求項１から５のいずれか１項記載の方法。
音声処理装置において、
プロセッサユニットが設けられており、該プロセッサユニットにより、
ａ）音声信号が周波数領域に変換され、
ｂ）少なくとも１つの所定の周波数について、前記周波数領域に変換された音声信号における時間軸上の包絡線が求められ、
ｃ）該包絡線が、それぞれ所定の期間により定められた複数のセグメントに分割され、
ｄ）前記の複数のセグメントにおいて各セグメントごとに包絡線の最大値が求められ、
ｅ）前記の複数のセグメントのうち所定数のセグメントについて最も小さい最大値が求められ、
ｆ）所定のファクタで重み付けられた最も小さい最大値が音声信号から差し引かれることによって音声信号が処理されることを特徴とする、
音声処理装置。
前記プロセッサユニットにより、
ａ）複数のセグメントのうちさらに複数のセグメントについて最小値が求められ、
ｂ）最も小さい最大値が最小値と結合されて音声信号から差し引かれることにより音声信号が処理される
請求項７記載の装置。