JP4550360B2

JP4550360B2 - ロバストな音声分類のための方法および装置

Info

Publication number: JP4550360B2
Application number: JP2002548711A
Authority: JP
Inventors: フアン、ペンジュン
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2000-12-08
Filing date: 2001-12-04
Publication date: 2010-09-22
Anticipated expiration: 2021-12-04
Also published as: DE60123651D1; CN101131817B; KR20030061839A; JP2004515809A; KR20090026805A; US20020111798A1; BR0116002A; US7472059B2; HK1067444A1; WO2002047068A2; ES2276845T3; KR100895589B1; EP1340223B1; KR100908219B1; CN100350453C; ATE341808T1; AU2002233983A1; CN1543639A; DE60123651T2; JP5425682B2

Description

【０００１】
背景
Ｉ．分野
開示されている実施形態は、音声処理の分野に関する。とくに、開示されている実施形態は、ロバストな音声分類のための新規で向上した方法および装置に関する。
【０００２】
ＩＩ．背景
ディジタル技術による音声伝送は、とくに長距離のディジタル無線電話の応用において普及した。その結果として、チャンネル上で送ることができる最小情報量を判断し、一方で再構成された音声の知覚品質を維持することについての関心が生じた。音声を、単にサンプリングしてディジタル化することによって伝送するとき、従来のアナログ電話の音声品質に達するには、毎秒６４キロビット秒（kbps）のデータレートが必要である。しかしながら、適切なコード化、伝送、および受信機における再合成による音声解析を使用することで、データレートを相当に低減することができる。音声解析をより精密に行なうと、データをより適切にコード化することができ、したがってデータレートを低減することができる。
【０００３】
人間の音声生成モデルに関係するパラメータを抽出することによって音声を圧縮する技術を用いたデバイスは、音声コーダと呼ばれる。音声コーダは、入来する音声信号を時間ブロック、すなわち解析フレームへ分割する。音声コーダには、一般に、エンコーダおよびデコーダ、すなわちコーデックが構成されている。エンコーダは、入来する音声フレームを解析して、ある特定の関連するパラメータを抽出し、次にパラメータを二値表現へ、すなわちビットの組または二値のデータパケットへ量子化する。データパケットは通信チャンネル上で受信機およびデコーダへ送られる。デコーダは、データパケットを処理し、それらを逆量子化（de-quantize）して、パラメータを生成し、その量子化されたパラメータを使用して、音声フレームを再合成する。
【０００４】
音声コーダは、音声に固有の自然冗長の全てを取り除くことによって、ディジタル化された音声信号を低ビットレートの信号へ圧縮する機能を有する。ディジタル圧縮は、入力音声フレームを１組のパラメータで表現して、量子化を用いて、パラメータを１組のビットで表現することによって達成される。入力音声フレームのビット数がＮ_ｉであり、音声コーダによって生成されるデータパケットのビット数がＮ_０であるとき、音声コーダによって達成される圧縮係数は、Ｃ_ｒ＝Ｎ_ｉ／Ｎ_０である。課題は、デコードされた音声の高い音声品質を維持する一方で、目標の圧縮係数を達成することである。音声コーダの性能は、（１）音声モデル、すなわち上述の解析および合成プロセスの組合せが、どのくらい適切に働くか、および（２）パラメータ量子化プロセスが、１フレーム当りＮ_０ビットの目標のビットレートで、どのくらい適切に実行されるかに依存する。したがって、音声モデルは、音声信号の本質、すなわち目標の音声品質を、各フレームごとに少数のパラメータから成る組で捕えることを目的とする。
【０００５】
音声コーダは、時間領域コーダとして構成することができ、時間領域コーダでは、高度の時間分解処理を採用して、音声の小さいセグメント（通常は、５ミリ秒（millisecond, ms）のサブフレーム）を一度にコード化することによって、時間領域の音声波形を捕らえることを試みる。この技術において知られている種々のサーチアルゴリズムによって、コードブック空間から、各サブフレームごとに、高精度の表現を得ることができる。その代わりに、音声コーダは周波数領域コーダとして構成されていてもよく、周波数領域コーダでは、入力音声フレームの短時間のスペクトルを１組のパラメータで捕えて（解析）、対応する合成処理を用いて、スペクトルパラメータから音声波形を再生成することを試みる。文献（A. Gersho & R.M. Gray, Vector Quantization and Signal Compression, 1992）に記載されている既知の技術にしたがうと、パラメータ量子化器は、コードベクトルの記憶されている表現を使用してパラメータを表現することによって、パラメータを維持する。
【０００６】
周知の時間領域の音声コーダは、コード励起線形予測（Code Excited Linear Predictive, CELP）コーダであり、ＣＥＬＰコーダは、文献（L.B. Rabiner & R.W. Schafer, Digital Processing of Speech Signals 396-453, 1978）に記載されており、本明細書では、これを参考文献として全体的に取り上げている。ＣＥＬＰコーダでは、音声信号内の短時間の相関、すなわち冗長を、線形予測（linear prediction, LP）解析によって取り除き、短時間のフォルマントフィルタの係数を検出する。短時間の予測フィルタを入来する音声フレームへ適用して、ＬＰ残差信号を生成し、さらに、これを長時間の予測フィルタのパラメータおよび次の確率コードブックでモデル化して、量子化する。したがって、ＣＥＬＰコーディングでは、時間領域の音声波形をコード化するタスクを、ＬＰの短時間のフィルタ係数をコード化するタスクと、ＬＰ残差をコード化するタスクとへ分割する。時間領域コーディングは、固定レート（すなわち、各フレームごとに同数のビット、Ｎ_０を使用して）か、または可変レート（すなわち、異なるタイプのフレーム内容に対して、異なるビットレートを使用して）で行うことができる。可変レートのコーダでは、使用するビット量を、目標品質を得るのに適したレベルへコーデックパラメータをコード化するのに必要なビット量のみにすることを試みる。例示的な可変レートのＣＥＬＰコーダは、米国特許第5,414,796号に記載されており、なお、米国特許第5,414,796号は本明細書に開示されている実施形態の譲受人に譲渡され、本明細書において参考文献として全体的に取り上げられている。
【０００７】
ＣＥＬＰコーダのような時間領域コーダでは、一般に、１フレーム当りに多数のビットＮ_０に依存して、時間領域の音声波形の精度を維持している。このようなコーダでは、１フレーム当りのビット数Ｎ_０が比較的に多い（例えば、８キロビット秒以上）ときは、優れた音声品質を与える。しかしながら、時間領域コーダは、低ビットレート（４キロビット秒以下）では、使用可能なビット数が制限されることにより、高品質でロバストな性能を保持できない。低ビットレートでは、コードブック空間が制限されることにより、従来の時間領域コーダの波形整合能力は削減されるが、より高いレートの市販のアプリケーションでは、この波形整合能力は正常に展開される。
【０００８】
一般に、ＣＥＬＰ方式では、短時間予測（short term prediction, STP）フィルタと長時間予測（long term prediction, LTP）フィルタとを使用する。エンコーダにおいて合成による解析（Analysis by Synthesis, AbS）のアプローチを用いて、ＬＴＰの遅延および利得と、最良の確率コードブックの利得および指標とを検出する。現在の最新技術のＣＥＬＰコーダ、例えば強化型可変速コーダ（Enhanced Variable Rate Coder, EVRC）では、ほぼ８キロビット秒のデータレートで良好な品質の合成された音声を実現することができる。
【０００９】
無声音が周期性を示さないことも知られている。有声音は、音声の周期性が強く、かつＬＴＰのフィルタリングが重要であるが、従来のＣＥＬＰ方式でＬＴＰフィルタしたものをコード化するのに費やされる帯域幅を、無声音に使用しても、有声音ほど効率的ではない。したがって、無声音のためのより効率的な（すなわち、より低いビットレートの）コーディング方式が望まれている。最も効率的なコーディング方式を選択し、かつ最も低いデータレートを実現するには、正確な音声分類が必要である。
【００１０】
より低いビットレートでコード化するために、スペクトル、すなわち周波数領域で音声をコード化するための種々の方法が発展し、例えば、音声信号を、時間にしたがって発展するスペクトルとして解析するといった方法がある。文献（R.J. McAulay & T.F. Quateri, Sinusoidal Coding, in Speech and Synthesis ch.4(W.B. Kleijin & K.K. Paliwal eds., 1995)）参照。スペクトルコーダの目的は、時間にしたがって変化する音声波形を精密に模倣するのではなく、各入力音声フレームの短時間の音声スペクトルを１組のスペクトルパラメータでモデル化、すなわち予測することである。次に、スペクトルパラメータをコード化して、出力音声フレームをデコードされたパラメータを使用して生成する。結果の合成された音声は、元の入力音声波形と整合しないが、同様の知覚品質を有する。この技術においてよく知られている周波数領域コーダの例には、マルチバンド励起コーダ（multiband excitation coder, MBE）、シヌソイド変形コーダ（sinusoial transform coder, STC）、および高調波コーダ（harmonic coder, HC）が含まれる。このような周波数領域コーダでは、コンパクトな組のパラメータで高品質のパラメータモデルを与え、低ビットレートで使用可能な少数のビットを使用して、正確に量子化することができる。
【００１１】
しかしながら、低ビットレートのコーディングでは、コーディングの分解能が制限される、すなわちコードブック空間が制限されるといった重要な制約が課され、このために単一のコーディング機構の効率が制限され、したがってコーダは、種々の背景の条件の下で、種々のタイプの音声セグメントを等しい精度で表わすことができない。例えば、従来の低ビットレートの周波数領域のコーダでは、音声フレームについての位相情報を送らない。その代わりに、位相情報は、ランダムな人工的に生成された初期位相値および線形補間技術を使用することによって再構成される。例えば、文献（H. Yang et al, Quadratic Phase Interpolation for Voiced Speech Synthesis in the MBE Model, in 29 Electric Letters 856-57, May 1993）参照。シヌソイドの振幅が量子化−逆量子化処理により完全に維持されても、位相情報は人工的に生成されるので、周波数領域コーダによって生成される出力音声は、元の入力音声と整列しない（すなわち、主パルスは同期しない）。したがって、閉ループの性能の測度、例えば周波数領域コーダにおける信号対雑音比（signal-to-noise ratio, SNR）または知覚ＳＮＲを採用することは、困難であるのが分かる。
【００１２】
低ビットレートで音声を効率的にコード化するための１つの効果的な技術には、マルチモードコーディングがある。マルチモードコーディング技術は、開ループモード決定プロセスと組合せて、低レートで音声をコード化するのに用いられている。１つのこのようなマルチモードのコーディング技術は、文献（Amitava Das et al., Multi-mode and Variable-Rate Coding of Speech, in Speech Coding and Synhtesis ch.7 (W.B. Kleijin & K.K. Paliwal eds., 1995)）に記載されている。従来のマルチモードコーダでは、異なるモード、すなわちコーディング−デコーディングアルゴリズムを、異なるタイプの入力音声フレームへ適用する。各モード、すなわちコーディング−デコーディングプロセスは、一定のタイプの音声セグメント、例えば有声音、無声音、または背景ノイズ（非音声）を最も効率的なやり方で表現するようにカスタマイズされる。このようなマルチモードコーディング技術の成功は、正確なモード決定、すなわち音声の分類に相当に依存している。外部の開ループのモード決定機構では、入力音声フレームを調べて、フレームに何れのモードを適用するかに関して決定する。開ループのモードを決定は、一般に、入力フレームから多数のパラメータを抽出し、ある特定の仮のスペクトル特徴に関するパラメータを評価して、この評価についてのモード決定に基づくことによって行われる。したがって、モード決定は、出力音声の正確な状態、すなわち出力音声が、音声品質または他の性能の測度に関して入力音声にどのくらい近くなるかを、前もって知らなくても行なうことができる。音声コーデックにおける例示的な開ループのモード決定は、米国特許第5,414,796号に記載されており、米国特許第5,414,796号は、本発明の譲受人に譲渡され、本明細書では参考文献として全体的に取り上げられている。
【００１３】
マルチモードコーディングは、各フレームに同数のビットＮ_０を使用して固定レートで行われるか、または異なるモードに対して異なるビットレートを使用して可変レートで行われる。可変レートのコーディングでは、使用するビット量を、目標の品質を得るのに適したレベルへコーデックパラメータをコード化するのに必要なビット量のみにすることを目的とする。結果として、固定レート、すなわちより高いレートのコーダの音声品質と同じ目標の音声品質を、可変ビットレート（variable-bit-rate, VBR）技術を使用して、平均が相当により低いビットレートで得ることができる。例示的な可変レートの音声コーダは、米国特許第5,414,796号に記載されている。現在は、中位から低いビットレート（すなわち、２．４ないし４キロビット秒以下の範囲）で動作する高品質の音声コーダを展開するための、研究の関心および強力な販売の必要が急増している。応用領域には、無線電話、衛星通信、インターネット電話、種々のマルチメディア、並びに音声流アプリケーション、すなわち音声メールおよび他の音声記憶システムが含まれる。高容量の必要、およびパケットを損った情況のもとでのロバストな性能への要求が、推進力となっている。別の直接的な推進力として、種々の最近の音声コーディングの標準化への努力が、低レートの音声コーディングアルゴリズムの研究および発展を進めている。低レートの音声コーダでは、許容可能なアプリケーションの帯域幅ごとに、より多くのチャンネル、すなわちユーザを生成する。低レートの音声コーダは、適切なチャンネルコーディングの追加の層と組み合わされて、コーダの仕様の全体的なビット供給に適合し、チャンネルを誤った情況においてロバストな性能を与えることができる。
【００１４】
したがって、マルチモードのＶＢＲの音声コーディングは、低ビットレートで音声をコード化するための効率的な機構である。従来のマルチモード方式では、種々の音声セグメント（例えば、無声音、有声音、遷移部）のための効率的なコード化方式の設計、すなわちモードと、背景ノイズ、すなわち無音のためのモードとが必要である。音声コーダの全体的な性能は、モード分類のロバスト性（robustness）と、各モードがどのくらい適切に機能するかに依存する。コーダの平均レートは、無声音、有声音、および他の音声セグメントのための異なるモードのビットレートに依存する。低い平均レートで目標の品質を実現するために、変化する条件のもとで音声モードを正確に判断することが必要である。一般に、有声音および無声音の音声セグメントは、高ビットレートで捕らえられ、背景ノイズおよび無音のセグメントは、相当に低いレートのモードで表現される。１フレームに対して最少数のビットを使用して、高い割合で音声セグメントを正確に捕らえて、コード化するために、マルチモードの可変ビットレートのエンコーダは、正確に音声分類する必要がある。音声分類がより正確に行われると、平均のコード化ビットレートはより低くなり、かつデコードされる音声の品質はより高くなる。孤立の音声フレームに対するパラメータ数を最少にする音声分類技術は、以前より検討されてきたが、音声モード分類の数が少なく、かつ不正確であった。したがって、変化する環境条件のもとで、多数の音声モードを正確に分類して、マルチモードの可変ビットレートのコード化技術の性能を最大にすることができる高性能の音声分類器が必要とされている。
【００１５】
概要
開示されている実施形態は、ロバストな音声分類技術であって、種々の条件の下で、音声についての多数の特徴パラメータを評価して、種々の音声モードを高精度で分類する技術に関する。したがって、１つの態様では、音声分類方法が開示される。この方法には、外部の構成要素から音声分類器へ分類パラメータを入力して、音声分類器内で、入力パラメータの中の少なくとも１つから、内部の分類パラメータを生成して、正規化された自己相関係数の関数の閾値を設定して、信号環境にしたがってパラメータ解析器を選択して、入力パラメータおよび内部パラメータを解析して、音声モードの分類を生成することが含まれる。
【００１６】
別の態様では、音声分類器が開示される。音声分類器には、少なくとも１つの外部入力パラメータから内部分類パラメータを生成するための生成器と、正規化された自己相関係数の関数の閾値を設定して、かつ信号環境にしたがってパラメータ解析器を選択するための正規化された自己相関係数の関数の閾値の生成器と、少なくとも１つの外部入力パラメータと内部パラメータとを解析して、音声モードの分類を生成するためのパラメータ解析器とが構成されている。
【００１７】
本発明の特徴、目的、および長所は、別途記載されている詳細な説明を添付の図面と組合せて参照することによって、一致する参照符号により全体的に対応して同定され、より明らかになるであろう。
【００１８】
好ましい実施形態についての詳細な説明
開示されている実施形態では、ボコーダの応用において向上した音声分類を行うための方法および装置を提供する。既に使用可能であったパラメータよりも、より高精度でより多くの音声分類を生成するために、新規な音声パラメータを解析する。新規な決定プロセスは、フレームごとに音声を分類するのに使用される。新規な状態に基づく決定器において、元の入力音声、ＳＮＲ情報、ノイズを抑圧された出力音声、音声活動情報、線形予測係数（Linear Prediction Coefficient, LPC）解析、および開ループのピッチ推定値から求めたパラメータを使用して、種々の音声モードを正確に分類する。各音声フレームは、過去のフレーム、将来のフレーム、および現在のフレームを解析することによって分類される。開示されている実施形態によって分類することができる音声モードには、過渡部、活動状態音声への過渡期と単語の終端部における過渡期、有声音、無声音、および無音が含まれる。
【００１９】
開示されている実施形態は、周囲のノイズレベルが変化する環境における種々の音声モードのための音声分類技術を示している。音声モードは、最も効率的なやり方でコード化するために、確実で、かつ正確に識別される。
【００２０】
図１において、第１のエンコーダ10は、ディジタル化された音声サンプルｓ（ｎ）を受信し、サンプルｓ（ｎ）をコード化して、サンプルｓ（ｎ）は伝送媒体12、すなわち通信チャンネル12上で第１のデコーダ14へ送られる。デコーダ14は、コード化された音声サンプルをデコードして、合成出力音声信号Ｓ_{ＳＹＮＴＨ}（ｎ）を生成する。反対方向での伝送のために、第２のエンコーダ16は、ディジタル化された音声サンプルｓ（ｎ）をコード化して、サンプルｓ（ｎ）は通信チャンネル18上で送られる。第２のデコーダ20は、コード化された音声サンプルを受信して、デコードし、合成出力音声信号Ｓ_{ＳＹＮＴＨ}（ｎ）を生成する。
【００２１】
音声サンプルｓ（ｎ）は、この技術において知られている種々の方法、例えば、パルスコード変調（pulse code modulation, PCM）、コンパンデッドμ法（companded μ-law）、すなわちＡ法にしたがって、ディジタル化され、量子化された音声信号を表現している。この技術において知られているように、音声サンプルｓ（ｎ）は、入力データフレームへまとめられ、各フレームには、所定数のディジタル化された音声サンプルｓ（ｎ）が構成される。例示的な実施形態では、８キロヘルツのサンプリングレートを採用し、各２０ミリ秒のフレームには１６０のサンプルが構成されている。別途記載する実施形態では、データ伝送レートは、フレームごとに、８キロビット秒（フルレート）から、４キロビット秒（２分の１レート）、２キロビット秒（４分の１レート）、ないし１キロビット秒（８分の１レート）へ変更することができる。その代わりに、他のデータレートを使用してもよい。本明細書に使用されているように、“フルレート”または“高レート”という用語は、一般に、８キロビット秒以上のデータレートを指し、“２分の１レート”または“低レート”という用語は、一般に、４キロビット以下のデータレートを指す。低ビットレートは、比較的に少ない音声情報を含むフレームに対して選択的に用いられるので、データ伝送レートを変更するのが有益である。当業者には分かるように、他のサンプリングレート、フレームサイズ、およびデータ伝送レートを使用してもよい。
【００２２】
第１のエンコーダ10および第２のデコーダ20で、第１の音声コーダ、すなわち音声コーデックが構成される。同様に、第２のエンコーダ16および第１のデコーダ14で、第２の音声コーダが構成される。当業者には、音声コーダが、ディジタル信号プロセッサ（digital signal processor, DSP）、特定用途向け集積回路（application-specific integrated circuit, ASIC）、ディスクリートなゲート論理、ファームウエアまたは従来のプログラム可能なソフトウエアモジュール、およびマイクロプロセッサで構成されることが分かるであろう。ソフトウエアモジュールはＲＡＭメモリ、フラッシュメモリ、レジスタ、または当業者には知られている他の形態の書込み可能なメモリ媒体の中に位置する。その代わりに、マイクロプロセッサを、従来のプロセッサ、制御装置、または状態機械に置換してもよい。音声コーディングのために特別に設計されたＡＳＩＣの例は、米国特許第5,727,123号および第5,784,532号に記載されており、米国特許第5,727,123号および第5,784,532号は、本発明の譲受人に譲渡され、本明細書に参考文献として全体的に取り上げられている。
【００２３】
図２は、ロバストな音声分類器の例示的な実施形態を示している。１つの実施形態では、図２の音声分類装置は、図１のエンコーダ（10,16）内に位置する。別の実施形態では、ロバストな音声分類器は、スタンドアローン形であって、音声分類モードの出力を、図１のエンコーダ（10，16）のようなデバイスへ供給する。
【００２４】
図２では、入力音声は、ノイズ抑圧器（202）へ供給される。入力音声は、一般に、音声信号をアナログからディジタルへ変換することによって生成される。ノイズ抑圧器（202）は、入力音声信号からノイズ成分をフィルタして、ノイズを抑圧された出力音声信号、および現在の出力音声のＳＮＲ情報を生成する。ＳＮＲ情報および出力音声信号は、音声分類器（210）へ入力される。ノイズ抑圧器（202）の出力音声信号は、音声活動検出器（204）、ＬＰＣ解析器（206）、および開ループピッチ推定器（208）へも入力される。音声分類器（210）は、ＳＮＲ情報を使用して、周期性の閾値を設定し、ノイズのない音声とノイズのある音声とを区別する。以下では、ＳＮＲのパラメータをcurr ns snrと呼ぶ。以下では、出力音声信号をt inと呼ぶ。１つの実施形態において、ノイズ抑圧器（202）が構成されていないか、またはオフにされているときは、ＳＮＲパラメータcurr ns snrをデフォルト値に予め設定すべきである。
【００２５】
音声活動検出器（204）は、現在の音声についての音声活動情報を音声分類器（210）へ出力する。音声活動情報の出力は、現在の音声が活動状態であるか、または非活動状態であるかを示す。１つの例示的な実施形態では、音声活動情報の出力は二値であり、すなわち活動状態か、または非活動状態である。別の実施形態では、音声活動情報の出力は、多値である。本明細書では、音声活動情報のパラメータをvadと呼ぶ。
【００２６】
ＬＰＣ解析器（206）は、現在の出力音声のＬＰＣを反映した係数を音声分類器（210）へ出力する。ＬＰＣ解析器（206）は、ＬＰＣ係数のような他のパラメータも出力する。本明細書では、ＬＣＰの反映係数のパラメータをreflと呼ぶ。
【００２７】
開ループピッチ推定器（208）は、正規化された自己相関係数の関数（Normalized Auto-correlation Coefficient Function, NACF）値およびピッチの周囲のＮＡＣＦの値を音声分類器（210）へ出力する。本明細書では、ＮＡＣＦのパラメータをnacfと呼び、ピッチの周囲のＮＡＣＦのパラメータをnacf_at_pitchと呼ぶ。より周期的な音声信号は、nacf_at_pitchのより大きい値を生成する。nacf_at_pitchの値がより大きくなると、定常音声の出力音声タイプと関係付けられている可能性が高くなる。音声分類器（210）は、nacf_at_pitchの値の配列を維持する。nacf_at_pitchは、サブフレームごとに計算される。例示的な実施形態では、１フレームに対して２つのサブフレームを測定することによって、出力音声の各フレームごとに、２つの開ループのピッチ推定値を測定する。nacf_at_pitchは、各サブフレームごとに、開ループのピッチ推定値から計算される。例示的な実施形態では、nacf_at_pitchの値の５次元配列（すなわち、nacf_at_pitch[5]）には、２と２分の１の出力音声フレームの値が含まれている。nacf_at_pitchの配列は、各出力音声フレームごとに更新される。音声分類器（210）では、nacf_at_pitchのパラメータの配列の新規な使用により、現在、過去、および予見（将来）の信号情報を使用して、より正確で、かつロバストな音声モードを決定することができる。
【００２８】
音声分類器（210）は、外部の構成要素から情報を入力されることに加えて、出力音声から、追加の新規なパラメータを内部で生成し、音声モード決定プロセスにおいて使用する。
【００２９】
１つの実施形態では、音声分類器（210）は、ゼロ交差レートのパラメータを内部で生成し、以下ではゼロ交差レートのパラメータをzcrと呼ぶ。現在の出力音声のzcrのパラメータは、１音声フレーム毎の音声信号内の符号の変化数として定める。信号は非常にランダムであるので、有声音では、zcr値は小さく、一方で無声音（またはノイズ）では、zcr値は大きい。音声分類器（210）は、zcrのパラメータを使用して、有声音および無声音を分類する。
【００３０】
１つの実施形態では、音声分類器（210）は、現在のフレームのエネルギーのパラメータを内部で生成し、以下では、これをEと呼ぶ。音声分類器（210）は、Eを使用して、現在のフレームのエネルギーと、過去および将来のフレームのエネルギーとを比較することによって、過渡部の音声を識別することができる。パラメータvEprevは、Ｅから求められる前のフレームのエネルギーである。
【００３１】
１つの実施形態では、音声分類器（210）は、予見フレームのエネルギーのパラメータを内部で生成し、以下では、これをEnextと呼ぶ。Enextには、現在のフレームの一部分からのエネルギー値と、次の出力音声フレームの一部分からのエネルギー値とが含まれる。１つの実施形態では、Enextは、現在のフレームの後半部のエネルギーと、次の出力音声フレームの前半部のエネルギーとを表現する。音声分類器（210）は、Enextを使用して、過渡部の音声を識別する。音声の終端において、次のフレームのエネルギーは、現在のフレームのエネルギーと比較して、著しく低下する。音声分類器（210）は、現在のフレームのエネルギーと次のフレームのエネルギーとを比較して、音声の終端の状態と音声の始端の状態、または上り過渡部の音声モードと下り過渡部の音声モードとを識別することができる。
【００３２】
１つの実施形態では、音声分類器（210）は、帯域エネルギー比のパラメータを内部で生成する。ELを０ないし２キロヘルツの低帯域での現在のフレームのエネルギーとし、EHを２ないし４キロヘルツの高帯域での現在のフレームのエネルギーとすると、帯域エネルギー比のパラメータはlog2(EL/EH)として定められる。以下では、帯域エネルギー比のパラメータをbERと呼ぶ。一般に、有声音は低帯域にエネルギーが集中し、一方でノイズの無声音は高帯域にエネルギーが集中するので、音声分類器（210）は、bERのパラメータにより、有声音モードと無声音モードとを識別することができる。
【００３３】
１つの実施形態では、音声分類器（210）は、出力音声から、３つのフレームの平均の有声音のエネルギーのパラメータを内部で生成し、以下では、これをvEavと呼ぶ。別の実施形態では、vEavは、３つ以外のフレーム数の平均であってもよい。現在の音声モードが、活動状態で有声音であるときは、vEavから、最後の３つの出力音声フレームにおけるエネルギーの移動平均を計算する。最後の３つの出力音声フレームにおけるエネルギーの平均をとることにより、音声分類器（210）は、基本音声モードの決定において、単一フレームのエネルギーの計算値のみよりも、より安定した統計値を得る。音声の停止時に、現在のフレームのエネルギーEは、平均の音声エネルギーvEavと比較して相当に低下することになるので、音声分類器（210）は、vEavを使用して、有声音の終端、すなわち下り過渡部モードを分類する。vEavは、現在のフレームが有声音であるときのみ更新され、さもなくば無声音または非活動音声のための固定値へリセットされる。１つの実施形態では、固定リセット値は、０．０１である。
【００３４】
１つの実施形態では、音声分類器（210）は、前の３つのフレームの平均の有声音のエネルギーのパラメータを内部で生成し、以下では、これをvEprevと呼ぶ。別の実施形態では、vEprevは、３つ以外のフレーム数の平均であってもよい。音声分類器（210）は、vEprevを使用して、過渡部の音声を識別する。現在のフレームのエネルギーは、音声の始端において、前の３つの有声音のフレームの平均エネルギーと比較して、相当に高くなる。音声分類器（210）は、現在のフレームのエネルギーと、前の３つのフレームのエネルギーとを比較して、音声の始端の状態、すなわち上り過渡部の音声モードを識別することができる。同様に、現在のフレームのエネルギーは、有声音の終端において、相当に低下する。したがって、vEprevを使用して、音声の終端における過渡期を分類することもできる。
【００３５】
１つの実施形態では、音声分類器（210）は、現在のフレームのエネルギー対前の３つのフレームの平均の有声音のエネルギーの比のパラメータを内部で生成することができ、これを10^＊log10(E/vEprev)として定める。別の実施形態では、vEprevは、３つ以外のフレーム数の平均であってもよい。以下では、現在のエネルギー対前の３つのフレームの平均の有声音のエネルギーの比をvERと呼ぶ。vERは、音声が再び始まるときに大きく、かつ有声音の終端において小さいので、音声分類器（210）では、vERを使用して、有声音の始端と有声音の終端、すなわち上り過渡部モードと下り過渡部モードとを分類する。過渡部の音声を分類するときに、vERのパラメータを、vEprevのパラメータと組合せて使用してもよい。
【００３６】
１つの実施形態では、音声分類器（210）は、現在のフレームのエネルギー対３つのフレームの平均の有声音のエネルギーのパラメータを内部で生成し、これをMIN(20,10^＊log10(E/vEav))と定める。以下では、現在のフレームのエネルギー対３つのフレームの平均の有声音のエネルギーのパラメータをvER2と呼ぶ。音声分類器（210）は、vER2を使用して、有声音の終端において過渡部の音声モードを分類する。
【００３７】
１つの実施形態では、音声分類器（210）は、最大のサブフレーム・エネルギーのインデックスのパラメータを内部で生成する。音声分類器（210）は、出力音声の現在のフレームを複数のサブフレームへ等しく分割し、各サブフレームの二乗平均根（Root Means Squared, RMS）のエネルギー値を計算する。１つの実施形態では、現在のフレームは１０個のサブフレームへ分割される。最大のサブフレーム・エネルギーのインデックスのパラメータは、現在のフレーム内または現在のフレームの後半のサブフレーム内における最大のＲＭＳのエネルギー値を有するサブフレームのインデックスである。以下では、最大のサブフレーム・エネルギーのインデックスのパラメータをmaxsfe_idxと呼ぶ。現在のフレームを複数のサブフレームへ分割することは、フレーム内のピークエネルギーの位置、例えば最大のピークエネルギーの位置に関する情報を音声分類器（210）へ供給する。フレームをより多くのサブフレームへ分割することにより、より高い分解能が実現される。無声音または無音の音声モードのエネルギーは一般に安定していて、一方で過渡部の音声モードでは、エネルギーは増加するか、または漸減するので、音声分類器（210）では、maxsfe_idxを他のパラメータと共に使用して、過渡部の音声モードを分類する。
【００３８】
音声分類器（210）は、コード化構成要素から直接に入力された新規なパラメータと、内部で生成される新規なパラメータとを使用して、以前に可能であったよりも、より正確にかつロバストに、音声モードを分類する。音声分類器（210）は、新規な決定プロセスを、直接に入力されたパラメータおよび内部で生成されたパラメータに適用して、改善された音声分類の結果を生成する。決定プロセスについては、図４ａないし４ｃと５ａないし５ｃとを参照して、別途詳しく記載する。
【００３９】
１つの実施形態では、音声分類器（210）によって出力される音声モードには、過渡部、上り過渡部、下り過渡部、有声音、無声音、および無音のモードが含まれる。過渡部モードは有声音であるが、周期性の低い音声であり、フルレートのＣＥＬＰで最適にコード化される。上り過渡モードは、活動状態の音声の最初の有声音のフレームであり、フルレートのＣＥＬＰで最適にコード化される。下り過渡部モードは、一般に単語の終端における低エネルギーの有声音であり、２分の１レートのＣＥＬＰで最適にコード化される。有声音モードは、非常に周期的な有声音であり、主として母音から成る。有声音モードの音声は、フルレート、２分の１レート、４分の１レート、または８分の１レートでコード化される。有声音モードの音声をコード化するためのデータレートは、平均データレート（Average Data Rate, ADR）の要件を満たすように選択される。無声音モードは、主として子音から成り、４分の１レートのノイズ励起線形予測（Noise Excited Linear Prediction, NELP）で最適にコード化される。無音モードは、非活動状態の音声であり、８分の１レートのＣＥＬＰで最適にコード化される。
【００４０】
当業者には、パラメータおよび音声モードが、開示されている実施形態のパラメータおよび音声モードに制限されないことが分かるであろう。開示されている実施形態の技術的範囲から逸脱することなく、追加のパラメータおよび音声モードを採用してもよい。
【００４１】
図３は、ロバストな音声分類技術の音声分類ステップについての１つの実施形態を示すフローチャートである。
【００４２】
ステップ300では、外部の構成要素から入力された分類パラメータを、ノイズを抑圧された出力音声の各フレームごとに処理される。１つの実施形態では、外部の構成要素から入力された分類パラメータには、ノイズ抑圧器の構成要素から入力されるcurr ns snrとt in、開ループのピッチ推定器の構成要素から入力されるnacf at pitchのパラメータ、および音声活動検出器の構成要素から入力されるvad、およびＬＰＣ解析の構成要素から入力されたreflが含まれる。制御フローは、ステップ302へ進む。
【００４３】
ステップ302では、外部の構成要素から入力される分類パラメータから、追加の内部で生成されるパラメータを計算する。例示的な実施形態では、t_inから、zcr、E、Enext、bER、vEav、vEprev、vER、vER2、およびmaxsfe_idxを計算する。各出力音声フレームごとに、内部で生成されるパラメータを計算するとき、制御フローはステップ304へ進む。
【００４４】
ステップ304では、ＮＡＣＦの閾値を判断し、音声信号の環境にしたがって、パラメータ解析器を選択する。例示的な実施形態では、ステップ300において入力されたcurr_ns_snrの閾値をＳＮＲの閾値と比較することによって、ＮＡＣＦの閾値を判断する。ノイズ抑圧器から求められるcurr_ns_snrの情報により、周期性判断の閾値の新規な適応制御が得られる。このようにして、音声信号の分類プロセスにおいて、異なる周期性の閾値を異なるレベルのノイズ成分へ適用する。最も適切なnacf、すなわち音声信号のノイズレベルの周期性の閾値を各出力音声フレームごとに選択するとき、音声分類がより正確に決定される。音声信号に対する最も適切な周期性の閾値が判断されると、その音声信号に対する最良のパラメータ解析器を選択することができる。
【００４５】
ノイズを含まない音声信号とノイズを含む音声信号とは、周期性において本質的に異なる。ノイズがあるときは、音声は破損されている。音声が破損しているときは、ノイズのない音声信号よりも、周期性の測度、すなわちnacfは、より小さい。したがって、ノイズを含む信号環境を補償するために、nacfの閾値をより小さくし、ノイズを含まない信号の環境ではより大きくする。開示されている実施形態の新規な音声分類技術では、ノイズレベルに関係なく、全ての環境において周期性の閾値を固定せず、より正確で、かつロバストなモード決定を行う。
【００４６】
例示的な実施形態では、curr ns snrの値が、２５デシベルのＳＮＲの閾値以上であるときは、ノイズのない音声に対するnacfの閾値を適用する。表１には、ノイズのない音声に対するnacfの閾値の例が定められている。
【００４７】
【表１】

【００４８】
例示的な実施形態では、curr ns snrの値が、２５デシベルのＳＮＲの閾値よりも小さいときは、ノイズを含む音声に対するnacfの閾値を適用する。表２には、ノイズを含む音声に対するnacfの閾値の例が定められている。
【００４９】
【表２】

【００５０】
ノイズを含む音声は、ノイズを含まない音声にノイズを加えたものと同じである。ロバストな音声分類技術では、適応性の周期性閾値制御を使用すると、ノイズを含まない音声とノイズを含む音声とに対する分類決定が同じになる可能性は、以前に可能であったよりも、より高くなる。各フレームごとにnacfの閾値が設定されているときは、制御フローはステップ306へ進む。
【００５１】
ステップ306では、外部の構成要素から入力されるパラメータと、内部で生成されたパラメータとを解析して、音声モードを分類する。信号環境にしたがって選択される状態機械または他の解析方法がパラメータに対して適用される。例示的な実施形態では、外部の構成要素から入力されるパラメータと、内部で生成されるパラメータとを、状態に基づくモード決定プロセスに適用し、図４ａないし４ｃおよび５ａないし５ｃを参照して詳しく記載する。決定プロセスでは、音声モードを分類する。例示的な実施形態では、過渡部、上り過渡部、下り過渡部、有声音、無声音、または無音の音声モードを分類する。音声モード決定が行われると、制御フローはステップ308へ進む。
【００５２】
ステップ308では、現在のフレームを構成している状態変数および種々のパラメータを更新する。例示的な実施形態では、vEav、vEprev、および現在のフレームの有声音の状態を更新する。次のフレームを分類するために、現在のフレームエネルギーＥ、nacf at pitch、および現在のフレームの音声モードを更新する。
【００５３】
各音声フレームごとに、ステップ300ないし308を繰返す。
【００５４】
図４ａないし４ｃは、ロバストな音声分類技術の例示的な実施形態のモード決定プロセスについての実施形態を示している。決定プロセスでは、音声フレームの周期性に基づいて、音声を分類するための状態機械を選択する。決定プロセスでは、各音声フレームごとに、音声フレームの周期性の測度、すなわちnaf at pitchの値を、図３のステップ304において設定されたＮＡＣＦの閾値と比較することによって、音声フレームの周期性、またはノイズ成分に最もコンパチブルな状態機械を選択する。モード決定プロセスは、音声フレームの周期性のレベルにより状態遷移を制限され、かつ制御され、よりロバストな分類が行われる。
【００５５】
図４ａは、vadが１であり（音声が活動状態である）、かつnacf at pitchの第３の値（すなわち、nacf at pitch[2]、ゼロ指標）が非常に大きい、すなわちVOICEDTHよりも大きいときに、例示的な実施形態において選択される状態機械についての１つの実施形態を示している。VOICEDTHは、図３のステップ304において定められている。図５ａは、各状態によって評価されるパラメータを示している。
【００５６】
初期状態は、無音である。vad＝０である（すなわち、音声が活動状態でない）ときは、前の状態に関わらず、現在のフレームは、常に無音であると分類される。
【００５７】
前の状態が無音であるときは、現在のフレームは、常に、無声音または上り過渡部の何れかであると分類される。nacf at pitch[3]が非常に小さく、zcrが大きく、bERが小さく、かつvERが非常に小さいときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは無声音であると分類される。さもなければ、分類は、デフォルトで上り過渡部になる。
【００５８】
前の状態が無声音であるときは、現在のフレームは無声音または上り過渡部として分類される。nacfが非常に小さく、nacf at pitch[3]が非常に小さく、nacf at pitch[4]が非常に小さく、zcrが大きく、bERが小さく、vERが非常に小さく、かつEがvEprevよりも小さいか、またはこれらの条件の組合せが満たされるときは、現在のフレームは、そのまま無声音であると分類される。さもなければ、分類は、デフォルトで上り過渡部になる。
【００５９】
前の状態が有声音であるときは、現在のフレームは無声音、過渡部、下り過渡部、または有声音として分類される。vERが非常に小さく、かつEがvEprevよりも小さいときは、現在のフレームは無声音として分類される。nacf at pitch[1]およびnacf at pitch[3]が小さく、かつEがvEprevの２分の１よりも大きいか、またはこれらの条件の組合せが満たされるときは、現在のフレームは過渡部であると分類される。vERが非常に小さく、かつnacf at pitch[3]が中位の値であるときは、現在のフレームは下り過渡部であると分類される。さもなければ、現在の分類は、デフォルトで有声音になる。
【００６０】
前の状態が過渡部または上り過渡部であるときは、現在のフレームは、無声音、過渡部、または下り過渡部、または有声音として分類される。vERが非常に小さく、かつEがvEprevよりも小さいときは、現在のフレームは無声音として分類される。nacf at pitch[1]が小さく、nacf at pitch[3]が中位の値であり、nacf at pitch[4]が小さく、かつ前の状態が過渡部でないときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは過渡部として分類される。nacf at pitch[3]が中位の値であり、かつEがvEavの０．０５倍よりも小さいときは、現在のフレームは下り過渡部として分類される。さもなければ、現在の分類は、デフォルトで有声音になる。
【００６１】
前のフレームが下り過渡部であるときは、現在のフレームは無声音、過渡部、または下り過渡部として分類される。vERが非常に小さいときは、現在のフレームは無声音として分類される。EがvEprevよりも大きいときは、現在のフレームは過渡部として分類される。さもなければ、現在の分類は、下り過渡部のままである。
【００６２】
図４ｂは、vadが１であり（音声が活動状態である）、かつnacf at pitchの第３の値が非常に小さい、すなわちUNVOICEDTHよりも小さいときの、例示的な実施形態において選択される状態機械についての１つの実施形態を示している。図３のステップ304において、UNVOICEDTHが定められる。図５ｂは、各状態によって評価されるパラメータを示している。
【００６３】
初期状態は無音である。前の状態に関わらず、vad＝0である（すなわち、音声が活動状態である）ときは、現在のフレームは、常に無音として分類される。
【００６４】
前の状態が無音であるときは、現在のフレームは、無声音または上り過渡部の何れかとして分類される。nacf at pitch［2-4］が増加傾向を示し、nacf at pitch［3-4］が中位の値であり、zcrが非常に小さい値から中位の値であり、bERが大きく、かつvERが中位の値であるときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは、上り過渡部であると分類される。さもなければ、分類は、デフォルトで無声音になる。
【００６５】
前の状態が無声音であるときは、現在のフレームがは無声音または上り過渡部として分類される。nacf at pitch［2-4］が増加傾向を示し、nacf at pitch［3-4］が中位の値から非常に大きい値であり、zcrが非常に小さいか、または中位であり、vERが小さくなく、bERが大きく、reflが小さく、nacfが中位の値であり、かつEがvEprevよりも大きいときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは、上り過渡部として分類される。これらの条件の組合せおよび閾値は、パラメータcurr ns snrにおいて反映される音声フレームのノイズレベルに依存して変化する。さもなければ、分類は、デフォルトで無声音になる。
【００６６】
前の状態が有声音、上り過渡部、または過渡部であるときは、現在のフレームは無声音、過渡部、または下り過渡部として分類される。bERがゼロ以下であり、vERが非常に小さく、bERがゼロよりも大きく、かつEがvEprevよりも小さいときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは無声音として分類される。bERがゼロよりも大きく、nacf at pitch［2-4］が増加傾向を示し、zcrが大きくなく、vERが小さくなく、reflが小さく、nacf at pitch［3］およびnacfが中位であり、かつbERがゼロ以下であるときか、またはこれらの条件のある特定の組合せが満たされるときは、現在のフレームは過渡部として分類される。これらの条件の組合せおよび閾値は、パラメータcurr ns snrにおいて反映される音声フレームのノイズレベルに依存して変化する。bERがゼロよりも大きく、nacf at pitch［3］が中位であり、EがvEprevよりも小さく、zcrが大きくなく、かつvER2が−１５よりも小さいときは、現在のフレームは下り過渡部として分類される。
【００６７】
前のフレームが下り過渡部であるとき、現在のフレームは無声音、過渡部、または下り過渡部として分類される。nacf at pitch［2-4］が増加傾向を示し、nacf at pitch［3-4］が適度に大きく、vERが小さくなく、かつEがvEprevの２倍よりも大きいときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは過渡部として分類される。vERが小さくなく、かつzcrが小さいときは、現在のフレームは下り過渡部として分類される。さもなければ、現在の分類は、デフォルトで無声音になる。
【００６８】
図４ｃは、vadが１であり（音声が活動状態であり）、かつnacf at pitchの第３の値（すなわち、nacf at pitch［3］）が中位であり、すなわちUNVOICEDTHよりも大きく、かつVOICEDTHよりも小さいときの、例示的な実施形態において選択される状態機械についての1つの実施形態を示している。UNVOICEDTHおよびVOICETHは、図３のステップ304において定められる。図５ｃは、各状態によって評価されるパラメータを示している。
【００６９】
初期状態は無音である。vad＝０（すなわち、音声は活動状態でない）であるときは、前の状態に関わらず、現在のフレームは、常に、無音として分類される。
【００７０】
前の状態が無音であるときは、現在のフレームは、無声音または上り過渡部の何れかとして分類される。nacf at pitch［2-4］が増加傾向を示し、nacf at pitch［3-4］が適度に大きく、zcrが大きくなく、bERが大きく、vERが中位の値であり、zcrが非常に小さく、かつEがvEprevの２倍よりも大きいときか、またはこれらの状態のある特定の組合せが満たされるときは、現在のフレームは上り過渡部として分類される。さもなければ、分類は、デフォルトで無声音になる。
【００７１】
前の状態が無声音であるときは、現在のフレームは無声音または上り過渡部として分類される。nacf at pitch［2-4］が増加傾向を示し、nacf at pitch［3-4］が中位から非常に大きい値であり、zcrが大きくなく、vERが小さくなく、bERが大きく、reflが小さく、EがvEprevよりも大きく、zcrが非常に小さく、nacf小さくなく、maxsfe idxが最後のサブフレームを示し、かつEがvEprevの２倍よりも大きいときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは上り過渡部として分類される。これらの条件の組合せおよび閾値は、パラメータcurr ns snrにおいて反映される音声フレームのノイズレベルに依存して変化する。さもなければ、分類は、デフォルトで無声音になる。
【００７２】
前の状態が有声音、上り過渡部、または過渡部であるときは、現在のフレームは、無声音、有声音、過渡部、下り過渡部として分類される。bERがゼロ以下であり、vERが非常に小さく、EnextがEよりも小さく、nacf at pitch[3-4]が非常に小さく、bERがゼロよりも大きく、かつEがvEprevよりも小さいときか、またはこれらの条件のある特定の組合せが満たされるときは、現在のフレームは無声音として分類される。bERがゼロよりも大きく、nacf at pitch［2-4］が増加傾向を示し、zcrが大きくなく、vERが小さくなく、reflが小さく、かつnacf at pitch［3］およびnacfが小さくないときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは過渡部として分類される。これらの条件の組合せおよび閾値は、パラメータcurr ns snrにおいて反映される音声フレームのノイズレベルに依存して変化する。bERがゼロよりも大きく、nacf at pitch［3］が大きくなく、EがvEprevよりも小さく、zcrが大きくなく、vERが−１５よりも小さく、かつvER2が−１５よりも小さいか、またはこれらの条件の組合せが満たされるときは、現在のフレームは下り過渡部として分類される。nacf at pitch［2］がLOWVOICEDTHよりも大きく、bERがゼロ以上であり、かつvERが小さくないときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは有声音として分類される。
【００７３】
現在のフレームが下り過渡部であるときは、現在のフレームは、無声音、過渡部、または下り過渡部として分類される。bERがゼロよりも大きく、nacf at pitch［2-4］が増加傾向を示し、nacf at pitch［3-4］が適度に大きく、vERが小さくなく、かつEがvEprevの２倍よりも大きいときか、またはこれらの状態のある特定の組合せが満たされるときは、現在のフレームは過渡部として分類される。vERが小さくなく、かつzcrが小さいときは、現在のフレームは下り過渡部として分類される。さもなければ、現在の分類は、デフォルトで無声音になる。
【００７４】
図５ａないし５ｃは、音声分類についての開示されている実施形態によって使用される決定表についての実施形態である。
【００７５】
図５ａは、１つの実施形態にしたがって、nacf at pitchの第３の値（すなわち、nacf at pitch［2］）が非常に大きい、すなわちVOICEDTHよりも大きいときに、各状態によって評価されるパラメータと、状態遷移とを示している。図５ａに示されている決定表は、図４ａに示されている状態機械によって使用される。前の音声フレームの音声モードの分類は、最左列に示されている。パラメータが、各前のモードと関係付けられている列に示されているように評価されるとき、音声モードの分類は、関係付けられている列の最上行において識別されている現在のモードへ遷移する。
【００７６】
図５ｂは、１つの実施形態にしたがって、第３の値（nacf at pitch［2］）が非常に小さい、すなわちUNVOICEDTHよりも小さいときの、各状態によって評価されるパラメータと、状態遷移とを示している。図５ｂに示されている決定表は、図４ｂに示されている状態機械によって使用される。前の音声フレームの音声モードの分類は、最左列に示されている。パラメータが、各前のモードと関係付けられている行に示されているように評価されるとき、音声モードの分類は、関係付けられている列の最上行において識別されている現在のモードへ遷移する。
【００７７】
図５ｃは、１つの実施形態にしたがって、nacf at pitchの第３の値（すなわち、nacf at pitch［3］）が中位であり、すなわちUNVOICEDTHよりも大きいが、VOITHEDTHよりも小さいときに、各状態によって評価されるパラメータと、状態遷移とを示している。図５ｃに示されている決定表は、図４ｃに示されている状態機械によって使用される。前の音声フレームの音声モードの分類は、最左列に示されている。パラメータが、各前のモードと関係付けられている列に示されているように評価されるときは、音声モードの分類は、関係付けられている列の最上行において識別されている現在のモードへ遷移する。
【００７８】
図６は、音声信号の、関係付けられているパラメータ値と音声分類とについての例示的な実施形態の時間線のグラフである。
【００７９】
当業者には、音声分類器は、ＤＳＰ、ＡＳＩＣ、ディスクリートなゲート論理、ファームウエアまたは従来のプログラマブルソフトウエアモジュール、およびマイクロプロセッサで構成されていてもよいことが分かるであろう。ソフトウエアモジュールは、ＲＡＭメモリ、フラッシュメモリ、レジスタ、またはこの技術において知られている他の形態の書込み可能なメモリ媒体内にあってもよい。その代わりに、マイクロプロセッサを、従来のプロセッサ、制御装置、または状態機械に置換してもよい。
【００８０】
好ましい実施形態についてのこれまでの説明は、当業者が本発明を作成または使用できるように与えられている。これらの実施形態に対する種々の変更は、当業者には容易に明らかであり、本明細書において定義されている全体的な原理は、発明の能力を使用することなく、他の実施形態に適用してもよい。したがって、本発明は、本明細書に示されている実施形態に制限されることを意図されずに、本明細書に開示されている原理および新規な特徴にしたがう最も広い範囲にしたがうことを意図される。
【図面の簡単な説明】
【図１】音声コーダによって各端末において終端する通信チャンネルのブロック図。
【図２】図１に示されているエンコーダによって使用することができるロバストな音声分類器のブロック図。
【図３】ロバストな音声分類器の音声分類ステップを示すフローチャート。
【図４ａ】音声分類についての開示されている実施形態によって使用される状態図。
【図４ｂ】音声分類についての開示されている実施形態によって使用される状態図。
【図４ｃ】音声分類についての開示されている実施形態によって使用される状態図。
【図５ａ】音声分類についての開示されている実施形態によって使用される決定表。
【図５ｂ】音声分類についての開示されている実施形態によって使用される決定表。
【図５ｃ】音声分類についての開示されている実施形態によって使用される決定表。
【図６】分類パラメータおよび音声モード値とを有する音声信号についての１つの実施形態の例示的なグラフ。

Claims

音声分類方法であって、
音声分類器へパラメータを入力することであって、パラメータは音声サンプル、音声サンプルの信号対雑音比（ＳＮＲ）、音声活動情報、およびピッチ情報における正規化された自己相関係数関数（ＮＡＣＦ)の値を含み、
音声分類器において、入力パラメータから内部パラメータを生成すること、
音声サンプルの信号対雑音比に基づいて、有声音、過渡音、および無声音のための正規化された自己相関係数関数の閾値を設定することであって、ノイズ音声環境における有声音のためのＮＡＣＦの閾値がクリーン音声環境における有声音のためのＮＡＣＦの閾値より低く、
入力パラメータおよび内部パラメータを解析して、過渡部モード、有声音モード、および無声音モードを含むグループから音声モードの分類を生成することを含む音声分類方法、
ここで、前記解析することは、前記ピッチ情報における正規化された自己相関係数関数の値を正規化された自己相関係数関数の前記閾値と比較することにより複数の状態機械の中から前記音声サンプルの周期性に最も適合した一の状態機械を選択し、前記選択された一の状態機械に前記入力パラメータおよび内部パラメータを適用することを含み、
前記ピッチ情報における正規化された自己相関係数関数の値は前記音声サンプルのピッチ周期に相当する遅れ時間において前記音声サンプルの前記正規化された自己相関係数関数が示すピーク値であり、前記ピーク値は前記音声サンプルの前記周期性の測度である。
音声サンプルがノイズを抑圧された音声サンプルを含む請求項１記載の方法。
入力パラメータには、線形予測反映係数が含まれる請求項１記載の方法。
複数のフレームのためのピッチ情報における正規化された自己相関係数関数の配列をさらに含む請求項１記載の方法。
内部パラメータには、ゼロ交差レートのパラメータが含まれる請求項１記載の方法。
内部パラメータには、現在のフレームのエネルギーのパラメータが含まれる請求項１記載の方法。
内部パラメータには、予見(look ahead)フレームのエネルギーのパラメータが含まれる請求項１記載の方法。
内部パラメータには、帯域エネルギー比のパラメータが含まれる請求項１記載の方法。
内部パラメータには、３つのフレームの平均の有声音のエネルギーのパラメータが含まれる請求項１記載の方法。
内部パラメータには、前の３つのフレームの平均の有声音のエネルギーのパラメータが含まれる請求項１記載の方法。
内部パラメータには、現在のフレームのエネルギー対前の３つのフレームの平均の有声音のエネルギーの比のパラメータが含まれる請求項１記載の方法。
内部パラメータには、現在のフレームのエネルギー対３つのフレームの平均の有声音のエネルギーの比のパラメータが含まれる請求項１記載の方法。
内部パラメータには、最大のサブフレームのエネルギー指標のパラメータが含まれる請求項１記載の方法。
正規化された自己相関係数関数の閾値を設定することには、所定の信号対雑音比の値に対して音声サンプルの信号対雑音比の値を比較することが含まれる請求項１記載の方法。
解析することには、
ピッチ情報における正規化された自己相関係数関数を正規化された自己相関係数関数の閾値と比較することにより複数の状態機械の間で状態機械を選択し、
選択された状態機械にパラメータを適用することが含まれる請求項１記載の方法。
状態機械には、各音声分類モードの状態が含まれる請求項１５記載の方法。
音声モード分類には、上り過渡部モードが含まれる請求項１記載の方法。
音声モード分類には、下り過渡部モードが含まれる請求項１記載の方法。
音声モード分類には、無音モードが含まれる請求項１記載の方法。
少なくとも１つのパラメータを更新することがさらに含まれる請求項１記載の方法。
更新されるパラメータには、ピッチ情報における正規化された自己相関係数関数が含まれる請求項２０記載の方法。
更新されるパラメータには、３つのフレームの平均の有声音のエネルギーのパラメータが含まれる請求項２０記載の方法。
更新されるパラメータには、予見フレームのエネルギーのパラメータが含まれる請求項２０記載の方法。
更新されるパラメータには、前の３つのフレームの平均の有声音のエネルギーのパラメータが含まれる請求項２０記載の方法。
更新されるパラメータには、音声活動検出のパラメータが含まれる請求項２０記載の方法。
音声サンプル、音声サンプルの信号対雑音比（ＳＮＲ）、音声活動情報、およびピッチ情報における正規化された自己相関係数関数（ＮＡＣＦ)を含む入力パラメータを受取るように構成された音声分類器であって、
入力パラメータから内部パラメータを生成する生成器と、
音声サンプルの信号対雑音比に基づいて、有声音、過渡音、および無声音のための正規化された自己相関係数関数の閾値を設定するための正規化された自己相関係数関数の閾値の生成器であって、ノイズ音声環境における有声音のためのＮＡＣＦの閾値がクリーン音声環境における有声音のためのＮＡＣＦの閾値より低い生成器と、
入力パラメータおよび内部パラメータを解析して、過渡部モード、有声音モード、および無声音モードを含むグループから音声モードの分類を生成するパラメータ解析器とを含む音声分類器、
ここで、前記解析することは、前記ピッチ情報における正規化された自己相関係数関数の値を正規化された自己相関係数関数の前記閾値と比較することにより複数の状態機械の中から前記音声サンプルの周期性に最も適合した一の状態機械を選択し、前記選択された一の状態機械に前記入力パラメータおよび内部パラメータを適用することを含み、
前記ピッチ情報における正規化された自己相関係数関数の値は前記音声サンプルのピッチ周期に相当する遅れ時間において前記音声サンプルの前記正規化された自己相関係数関数が示すピーク値であり、前記ピーク値は前記音声サンプルの前記周期性の測度である。
音声サンプルがノイズを抑圧された音声サンプルを含む請求項２６記載の音声分類器。
線形予測反映係数をさらに受け取るように構成され、生成器が線形予測反映係数から内部パラメータを生成する請求項２６記載の音声分類器。
複数のフレームのためのピッチ情報値における正規化された自己相関係数関数の配列を維持するようにさらに構成された請求項２６記載の音声分類器。
生成されたパラメータには、ゼロ交差レートのパラメータが含まれる請求項２６記載の音声分類器。
生成されるパラメータには、現在のフレームのエネルギーのパラメータが含まれる請求項２６記載の音声分類器。
生成されるパラメータには、予見フレームのエネルギーのパラメータが含まれる請求項２６記載の音声分類器。
生成されるパラメータには、帯域エネルギー比のパラメータが含まれる請求項２６記載の音声分類器。
生成されるパラメータには、３つのフレームの平均の有声音のエネルギーのパラメータが含まれる請求項２６記載の音声分類器。
生成されるパラメータには、前の３つのフレームの平均の有声音のエネルギーのパラメータが含まれる請求項２６記載の音声分類器。
生成されるパラメータには、現在のフレームのエネルギー対前の３つのフレームの平均の有声音のエネルギーの比のパラメータが含まれる請求項２６記載の音声分類器。
生成されるパラメータには、現在のフレームのエネルギー対３つのフレームの平均の有声音のエネルギーの比のパラメータが含まれる請求項２６記載の音声分類器。
生成されるパラメータには、最大のサブフレームのエネルギー指標のパラメータが含まれる請求項２６記載の音声分類器。
正規化された自己相関係数関数の閾値を設定することには、所定の信号対雑音比の値に対する音声サンプルの信号対雑音比を比較することが含まれる請求項２６記載の音声分類器。
パラメータ解析器が、ピッチ情報における正規化された自己相関係数関数を正規化された自己相関係数関数の閾値と比較することにより複数の状態機械の間で状態機械を選択し、選択された状態機械にパラメータを適用するように構成される請求項２６記載の音声分類器。
状態機械には、各音声分類モードの状態が含まれる請求項４０記載の音声分類器。
音声モードの分類には、上り過渡部モードが含まれる請求項２６記載の音声分類器。
音声モードの分類には、下り過渡部モードが含まれる請求項２６記載の音声分類器。
音声モードの分類には、無音モードが含まれる請求項２６記載の音声分類器。
少なくとも１つのパラメータを更新することがさらに含まれる請求項２６記載の音声分類器。
更新されるパラメータには、ピッチパラメータにおける正規化された自己相関係数関数が含まれる請求項４５記載の音声分類器。
更新されるパラメータには、３つのフレームの平均の有声音のエネルギーのパラメータが含まれる請求項４５記載の音声分類器。
更新されるパラメータには、予見フレームのエネルギーのパラメータが含まれる請求項４５記載の音声分類器。
更新されるパラメータには、前の３つのフレームの平均の有声音のエネルギーのパラメータが含まれる請求項４５記載の音声分類器。
更新されるパラメータには、音声活動検出のパラメータが含まれる請求項４５記載の音声分類器。
一組の音声サンプルに関する信号対雑音比（ＳＮＲ）情報をＳＮＲ閾値と比較し、
ＳＮＲ情報とＳＮＲ閾値との比較に基づいて、正規化された自己相関係数関数（ＮＡＣＦ）の閾値を決定し、ＮＡＣＦの閾値が有声音のための第1の閾値、過渡音のための第２の閾値、および無声音のための第３の閾値を含み、ノイズ音声環境における有声音のためのＮＡＣＦの閾値がクリーン音声環境における有声音のためのＮＡＣＦの閾値より低く、
ピッチ値におけるＮＡＣＦの値をＮＡＣＦの閾値と比較し、
前記ピッチ値におけるＮＡＣＦの値と前記ＮＡＣＦの閾値との比較にもとづいて、複数のパラメータを解析する複数のパラメータ解析器の中から前記音声サンプルの組の周期性に最も適合したパラメータ解析器を選択し、前記音声サンプルの組を無音、有声音、無声音または過渡音に分類することを含む方法、
ここで、前記ピッチ値におけるＮＡＣＦの値は前記音声サンプルのピッチ周期に相当する遅れ時間において前記音声サンプルの前記ＮＡＣＦが示すピーク値であり、前記ピーク値は前記音声サンプルの前記周期性の測度である。
各パラメータ解析器が無音、有声音、無声音および過渡音状態を有する状態機械を含む請求項５１の方法。
ＮＡＣＦの閾値を決定することが、クリーン音声に対応するＮＡＣＦの閾値の第１の組とノイズ音声に対応するＮＡＣＦの閾値の第２の組との間で選択することを含む請求項５１の方法。
ピッチ値におけるＮＡＣＦを決定するためにピッチを推定することをさらに含む請求項５１の方法。
一組の音声サンプルに関する信号対雑音比（ＳＮＲ）情報をＳＮＲ閾値と比較し、
ＳＮＲ情報とＳＮＲ閾値との比較に基づいて、正規化された自己相関係数関数（ＮＡＣＦ）の閾値を決定し、ＮＡＣＦの閾値が有声音のための第1の閾値、過渡音のための第２の閾値、および無声音のための第３の閾値を含み、ノイズ音声環境における有声音のためのＮＡＣＦの閾値がクリーン音声環境における有声音のためのＮＡＣＦの閾値より低く、
ピッチ値におけるＮＡＣＦの値をＮＡＣＦの閾値と比較し、
前記ピッチ値におけるＮＡＣＦの値と前記ＮＡＣＦの閾値との比較にもとづいて、複数のパラメータを解析する複数のパラメータ解析器の中から前記音声サンプルの組の周期性に最も適合したパラメータ解析器を選択し、音声サンプルの組を無音、有声音、無声音または過渡音に分類するように構成された音声分類器を含む装置、
ここで、前記ピッチ値におけるＮＡＣＦの値は前記音声サンプルのピッチ周期に相当する遅れ時間において前記音声サンプルの前記ＮＡＣＦが示すピーク値であり、前記ピーク値は前記音声サンプルの前記周期性の測度である。
各パラメータ解析器が無音、有声音、無声音および過渡音状態を有する状態機械を含む請求項５５の装置。
ＮＡＣＦの閾値を決定することが、クリーン音声に対応するＮＡＣＦの閾値の第１の組とノイズ音声に対応するＮＡＣＦの閾値の第２の組との間で選択することを含む請求項５５の装置。
ピッチ値におけるＮＡＣＦを決定するためにピッチを推定するように構成されたピッチ推定器をさらに含む請求項５５の装置。
下記を備える音声分類器：
音声分類器へパラメータを入力することための手段、ここで、パラメータは音声サンプル、音声サンプルの信号対雑音比（ＳＮＲ）、音声活動情報、およびピッチ情報における正規化された自己相関係数関数（ＮＡＣＦ)の値を含み；
音声分類器において、入力パラメータから内部パラメータを生成するための手段；
音声サンプルの信号対雑音比に基づいて、有声音、過渡音、および無声音のための正規化された自己相関係数関数の閾値を設定するための手段、ここで、ノイズ音声環境における有声音のためのＮＡＣＦの閾値がクリーン音声環境における有声音のためのＮＡＣＦの閾値より低い；
過渡部モード、有声音モード、および無声音モードを含むグループから音声モードの分類を生成するために、入力パラメータおよび内部パラメータを解析する手段、
ここで、前記解析するための手段は、前記ピッチ情報における正規化された自己相関係数関数の値を正規化された自己相関係数関数の前記閾値と比較することにより複数の状態機械の中から前記音声サンプルの周期性に最も適合した一の状態機械を選択し、前記選択された一の状態機械に前記入力パラメータおよび内部パラメータを適用することを含み、
前記ピッチ情報における正規化された自己相関係数関数の値は前記音声サンプルのピッチ周期に相当する遅れ時間において前記音声サンプルの前記正規化された自己相関係数関数が示すピーク値であり、前記ピーク値は前記音声サンプルの前記周期性の測度である。
下記の手順を実行可能なＣＰＵ実行可能命令を記録したコンピュータ読み出し可能記録媒体：
音声分類器へパラメータを入力することであって、パラメータは音声サンプル、音声サンプルの信号対雑音比（ＳＮＲ）、音声活動情報、およびピッチ情報における正規化された自己相関係数関数（ＮＡＣＦ)の値を含み、
音声分類器において、入力パラメータから内部パラメータを生成すること、
音声サンプルの信号対雑音比に基づいて、有声音、過渡音、および無声音のための正規化された自己相関係数関数の閾値を設定することであって、ノイズ音声環境における有声音のためのＮＡＣＦの閾値がクリーン音声環境における有声音のためのＮＡＣＦの閾値より低く、
入力パラメータおよび内部パラメータを解析して、過渡部モード、有声音モード、および無声音モードを含むグループから音声モードの分類を生成することを含む音声分類方法、
ここで、前記解析することは、前記ピッチ情報における正規化された自己相関係数関数の値を正規化された自己相関係数関数の前記閾値と比較することにより複数の状態機械の中から前記音声サンプルの周期性に最も適合した一の状態機械を選択し、前記選択された一の状態機械に前記入力パラメータおよび内部パラメータを適用することを含み、
前記ピッチ情報における正規化された自己相関係数関数の値は前記音声サンプルのピッチ周期に相当する遅れ時間において前記音声サンプルの前記正規化された自己相関係数関数が示すピーク値であり、前記ピーク値は前記音声サンプルの前記周期性の測度である。