JP4550360B2 - ロバストな音声分類のための方法および装置 - Google Patents
ロバストな音声分類のための方法および装置 Download PDFInfo
- Publication number
- JP4550360B2 JP4550360B2 JP2002548711A JP2002548711A JP4550360B2 JP 4550360 B2 JP4550360 B2 JP 4550360B2 JP 2002548711 A JP2002548711 A JP 2002548711A JP 2002548711 A JP2002548711 A JP 2002548711A JP 4550360 B2 JP4550360 B2 JP 4550360B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- nacf
- threshold
- parameters
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 230000001052 transient effect Effects 0.000 claims description 82
- 230000006870 function Effects 0.000 claims description 42
- 238000011144 upstream manufacturing Methods 0.000 claims description 23
- 230000000694 effects Effects 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims 2
- 230000007613 environmental effect Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 18
- 230000007704 transition Effects 0.000 description 18
- 230000005236 sound signal Effects 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Exchange Systems With Centralized Control (AREA)
- Machine Translation (AREA)
Description
背景
I.分野
開示されている実施形態は、音声処理の分野に関する。とくに、開示されている実施形態は、ロバストな音声分類のための新規で向上した方法および装置に関する。
【0002】
II.背景
ディジタル技術による音声伝送は、とくに長距離のディジタル無線電話の応用において普及した。その結果として、チャンネル上で送ることができる最小情報量を判断し、一方で再構成された音声の知覚品質を維持することについての関心が生じた。音声を、単にサンプリングしてディジタル化することによって伝送するとき、従来のアナログ電話の音声品質に達するには、毎秒64キロビット秒(kbps)のデータレートが必要である。しかしながら、適切なコード化、伝送、および受信機における再合成による音声解析を使用することで、データレートを相当に低減することができる。音声解析をより精密に行なうと、データをより適切にコード化することができ、したがってデータレートを低減することができる。
【0003】
人間の音声生成モデルに関係するパラメータを抽出することによって音声を圧縮する技術を用いたデバイスは、音声コーダと呼ばれる。音声コーダは、入来する音声信号を時間ブロック、すなわち解析フレームへ分割する。音声コーダには、一般に、エンコーダおよびデコーダ、すなわちコーデックが構成されている。エンコーダは、入来する音声フレームを解析して、ある特定の関連するパラメータを抽出し、次にパラメータを二値表現へ、すなわちビットの組または二値のデータパケットへ量子化する。データパケットは通信チャンネル上で受信機およびデコーダへ送られる。デコーダは、データパケットを処理し、それらを逆量子化(de-quantize)して、パラメータを生成し、その量子化されたパラメータを使用して、音声フレームを再合成する。
【0004】
音声コーダは、音声に固有の自然冗長の全てを取り除くことによって、ディジタル化された音声信号を低ビットレートの信号へ圧縮する機能を有する。ディジタル圧縮は、入力音声フレームを1組のパラメータで表現して、量子化を用いて、パラメータを1組のビットで表現することによって達成される。入力音声フレームのビット数がNiであり、音声コーダによって生成されるデータパケットのビット数がN0であるとき、音声コーダによって達成される圧縮係数は、Cr=Ni/N0である。課題は、デコードされた音声の高い音声品質を維持する一方で、目標の圧縮係数を達成することである。音声コーダの性能は、(1)音声モデル、すなわち上述の解析および合成プロセスの組合せが、どのくらい適切に働くか、および(2)パラメータ量子化プロセスが、1フレーム当りN0ビットの目標のビットレートで、どのくらい適切に実行されるかに依存する。したがって、音声モデルは、音声信号の本質、すなわち目標の音声品質を、各フレームごとに少数のパラメータから成る組で捕えることを目的とする。
【0005】
音声コーダは、時間領域コーダとして構成することができ、時間領域コーダでは、高度の時間分解処理を採用して、音声の小さいセグメント(通常は、5ミリ秒(millisecond, ms)のサブフレーム)を一度にコード化することによって、時間領域の音声波形を捕らえることを試みる。この技術において知られている種々のサーチアルゴリズムによって、コードブック空間から、各サブフレームごとに、高精度の表現を得ることができる。その代わりに、音声コーダは周波数領域コーダとして構成されていてもよく、周波数領域コーダでは、入力音声フレームの短時間のスペクトルを1組のパラメータで捕えて(解析)、対応する合成処理を用いて、スペクトルパラメータから音声波形を再生成することを試みる。文献(A. Gersho & R.M. Gray, Vector Quantization and Signal Compression, 1992)に記載されている既知の技術にしたがうと、パラメータ量子化器は、コードベクトルの記憶されている表現を使用してパラメータを表現することによって、パラメータを維持する。
【0006】
周知の時間領域の音声コーダは、コード励起線形予測(Code Excited Linear Predictive, CELP)コーダであり、CELPコーダは、文献(L.B. Rabiner & R.W. Schafer, Digital Processing of Speech Signals 396-453, 1978)に記載されており、本明細書では、これを参考文献として全体的に取り上げている。CELPコーダでは、音声信号内の短時間の相関、すなわち冗長を、線形予測(linear prediction, LP)解析によって取り除き、短時間のフォルマントフィルタの係数を検出する。短時間の予測フィルタを入来する音声フレームへ適用して、LP残差信号を生成し、さらに、これを長時間の予測フィルタのパラメータおよび次の確率コードブックでモデル化して、量子化する。したがって、CELPコーディングでは、時間領域の音声波形をコード化するタスクを、LPの短時間のフィルタ係数をコード化するタスクと、LP残差をコード化するタスクとへ分割する。時間領域コーディングは、固定レート(すなわち、各フレームごとに同数のビット、N0を使用して)か、または可変レート(すなわち、異なるタイプのフレーム内容に対して、異なるビットレートを使用して)で行うことができる。可変レートのコーダでは、使用するビット量を、目標品質を得るのに適したレベルへコーデックパラメータをコード化するのに必要なビット量のみにすることを試みる。例示的な可変レートのCELPコーダは、米国特許第5,414,796号に記載されており、なお、米国特許第5,414,796号は本明細書に開示されている実施形態の譲受人に譲渡され、本明細書において参考文献として全体的に取り上げられている。
【0007】
CELPコーダのような時間領域コーダでは、一般に、1フレーム当りに多数のビットN0に依存して、時間領域の音声波形の精度を維持している。このようなコーダでは、1フレーム当りのビット数N0が比較的に多い(例えば、8キロビット秒以上)ときは、優れた音声品質を与える。しかしながら、時間領域コーダは、低ビットレート(4キロビット秒以下)では、使用可能なビット数が制限されることにより、高品質でロバストな性能を保持できない。低ビットレートでは、コードブック空間が制限されることにより、従来の時間領域コーダの波形整合能力は削減されるが、より高いレートの市販のアプリケーションでは、この波形整合能力は正常に展開される。
【0008】
一般に、CELP方式では、短時間予測(short term prediction, STP)フィルタと長時間予測(long term prediction, LTP)フィルタとを使用する。エンコーダにおいて合成による解析(Analysis by Synthesis, AbS)のアプローチを用いて、LTPの遅延および利得と、最良の確率コードブックの利得および指標とを検出する。現在の最新技術のCELPコーダ、例えば強化型可変速コーダ(Enhanced Variable Rate Coder, EVRC)では、ほぼ8キロビット秒のデータレートで良好な品質の合成された音声を実現することができる。
【0009】
無声音が周期性を示さないことも知られている。有声音は、音声の周期性が強く、かつLTPのフィルタリングが重要であるが、従来のCELP方式でLTPフィルタしたものをコード化するのに費やされる帯域幅を、無声音に使用しても、有声音ほど効率的ではない。したがって、無声音のためのより効率的な(すなわち、より低いビットレートの)コーディング方式が望まれている。最も効率的なコーディング方式を選択し、かつ最も低いデータレートを実現するには、正確な音声分類が必要である。
【0010】
より低いビットレートでコード化するために、スペクトル、すなわち周波数領域で音声をコード化するための種々の方法が発展し、例えば、音声信号を、時間にしたがって発展するスペクトルとして解析するといった方法がある。文献(R.J. McAulay & T.F. Quateri, Sinusoidal Coding, in Speech and Synthesis ch.4(W.B. Kleijin & K.K. Paliwal eds., 1995))参照。スペクトルコーダの目的は、時間にしたがって変化する音声波形を精密に模倣するのではなく、各入力音声フレームの短時間の音声スペクトルを1組のスペクトルパラメータでモデル化、すなわち予測することである。次に、スペクトルパラメータをコード化して、出力音声フレームをデコードされたパラメータを使用して生成する。結果の合成された音声は、元の入力音声波形と整合しないが、同様の知覚品質を有する。この技術においてよく知られている周波数領域コーダの例には、マルチバンド励起コーダ(multiband excitation coder, MBE)、シヌソイド変形コーダ(sinusoial transform coder, STC)、および高調波コーダ(harmonic coder, HC)が含まれる。このような周波数領域コーダでは、コンパクトな組のパラメータで高品質のパラメータモデルを与え、低ビットレートで使用可能な少数のビットを使用して、正確に量子化することができる。
【0011】
しかしながら、低ビットレートのコーディングでは、コーディングの分解能が制限される、すなわちコードブック空間が制限されるといった重要な制約が課され、このために単一のコーディング機構の効率が制限され、したがってコーダは、種々の背景の条件の下で、種々のタイプの音声セグメントを等しい精度で表わすことができない。例えば、従来の低ビットレートの周波数領域のコーダでは、音声フレームについての位相情報を送らない。その代わりに、位相情報は、ランダムな人工的に生成された初期位相値および線形補間技術を使用することによって再構成される。例えば、文献(H. Yang et al, Quadratic Phase Interpolation for Voiced Speech Synthesis in the MBE Model, in 29 Electric Letters 856-57, May 1993)参照。シヌソイドの振幅が量子化−逆量子化処理により完全に維持されても、位相情報は人工的に生成されるので、周波数領域コーダによって生成される出力音声は、元の入力音声と整列しない(すなわち、主パルスは同期しない)。したがって、閉ループの性能の測度、例えば周波数領域コーダにおける信号対雑音比(signal-to-noise ratio, SNR)または知覚SNRを採用することは、困難であるのが分かる。
【0012】
低ビットレートで音声を効率的にコード化するための1つの効果的な技術には、マルチモードコーディングがある。マルチモードコーディング技術は、開ループモード決定プロセスと組合せて、低レートで音声をコード化するのに用いられている。1つのこのようなマルチモードのコーディング技術は、文献(Amitava Das et al., Multi-mode and Variable-Rate Coding of Speech, in Speech Coding and Synhtesis ch.7 (W.B. Kleijin & K.K. Paliwal eds., 1995))に記載されている。従来のマルチモードコーダでは、異なるモード、すなわちコーディング−デコーディングアルゴリズムを、異なるタイプの入力音声フレームへ適用する。各モード、すなわちコーディング−デコーディングプロセスは、一定のタイプの音声セグメント、例えば有声音、無声音、または背景ノイズ(非音声)を最も効率的なやり方で表現するようにカスタマイズされる。このようなマルチモードコーディング技術の成功は、正確なモード決定、すなわち音声の分類に相当に依存している。外部の開ループのモード決定機構では、入力音声フレームを調べて、フレームに何れのモードを適用するかに関して決定する。開ループのモードを決定は、一般に、入力フレームから多数のパラメータを抽出し、ある特定の仮のスペクトル特徴に関するパラメータを評価して、この評価についてのモード決定に基づくことによって行われる。したがって、モード決定は、出力音声の正確な状態、すなわち出力音声が、音声品質または他の性能の測度に関して入力音声にどのくらい近くなるかを、前もって知らなくても行なうことができる。音声コーデックにおける例示的な開ループのモード決定は、米国特許第5,414,796号に記載されており、米国特許第5,414,796号は、本発明の譲受人に譲渡され、本明細書では参考文献として全体的に取り上げられている。
【0013】
マルチモードコーディングは、各フレームに同数のビットN0を使用して固定レートで行われるか、または異なるモードに対して異なるビットレートを使用して可変レートで行われる。可変レートのコーディングでは、使用するビット量を、目標の品質を得るのに適したレベルへコーデックパラメータをコード化するのに必要なビット量のみにすることを目的とする。結果として、固定レート、すなわちより高いレートのコーダの音声品質と同じ目標の音声品質を、可変ビットレート(variable-bit-rate, VBR)技術を使用して、平均が相当により低いビットレートで得ることができる。例示的な可変レートの音声コーダは、米国特許第5,414,796号に記載されている。現在は、中位から低いビットレート(すなわち、2.4ないし4キロビット秒以下の範囲)で動作する高品質の音声コーダを展開するための、研究の関心および強力な販売の必要が急増している。応用領域には、無線電話、衛星通信、インターネット電話、種々のマルチメディア、並びに音声流アプリケーション、すなわち音声メールおよび他の音声記憶システムが含まれる。高容量の必要、およびパケットを損った情況のもとでのロバストな性能への要求が、推進力となっている。別の直接的な推進力として、種々の最近の音声コーディングの標準化への努力が、低レートの音声コーディングアルゴリズムの研究および発展を進めている。低レートの音声コーダでは、許容可能なアプリケーションの帯域幅ごとに、より多くのチャンネル、すなわちユーザを生成する。低レートの音声コーダは、適切なチャンネルコーディングの追加の層と組み合わされて、コーダの仕様の全体的なビット供給に適合し、チャンネルを誤った情況においてロバストな性能を与えることができる。
【0014】
したがって、マルチモードのVBRの音声コーディングは、低ビットレートで音声をコード化するための効率的な機構である。従来のマルチモード方式では、種々の音声セグメント(例えば、無声音、有声音、遷移部)のための効率的なコード化方式の設計、すなわちモードと、背景ノイズ、すなわち無音のためのモードとが必要である。音声コーダの全体的な性能は、モード分類のロバスト性(robustness)と、各モードがどのくらい適切に機能するかに依存する。コーダの平均レートは、無声音、有声音、および他の音声セグメントのための異なるモードのビットレートに依存する。低い平均レートで目標の品質を実現するために、変化する条件のもとで音声モードを正確に判断することが必要である。一般に、有声音および無声音の音声セグメントは、高ビットレートで捕らえられ、背景ノイズおよび無音のセグメントは、相当に低いレートのモードで表現される。1フレームに対して最少数のビットを使用して、高い割合で音声セグメントを正確に捕らえて、コード化するために、マルチモードの可変ビットレートのエンコーダは、正確に音声分類する必要がある。音声分類がより正確に行われると、平均のコード化ビットレートはより低くなり、かつデコードされる音声の品質はより高くなる。孤立の音声フレームに対するパラメータ数を最少にする音声分類技術は、以前より検討されてきたが、音声モード分類の数が少なく、かつ不正確であった。したがって、変化する環境条件のもとで、多数の音声モードを正確に分類して、マルチモードの可変ビットレートのコード化技術の性能を最大にすることができる高性能の音声分類器が必要とされている。
【0015】
概要
開示されている実施形態は、ロバストな音声分類技術であって、種々の条件の下で、音声についての多数の特徴パラメータを評価して、種々の音声モードを高精度で分類する技術に関する。したがって、1つの態様では、音声分類方法が開示される。この方法には、外部の構成要素から音声分類器へ分類パラメータを入力して、音声分類器内で、入力パラメータの中の少なくとも1つから、内部の分類パラメータを生成して、正規化された自己相関係数の関数の閾値を設定して、信号環境にしたがってパラメータ解析器を選択して、入力パラメータおよび内部パラメータを解析して、音声モードの分類を生成することが含まれる。
【0016】
別の態様では、音声分類器が開示される。音声分類器には、少なくとも1つの外部入力パラメータから内部分類パラメータを生成するための生成器と、正規化された自己相関係数の関数の閾値を設定して、かつ信号環境にしたがってパラメータ解析器を選択するための正規化された自己相関係数の関数の閾値の生成器と、少なくとも1つの外部入力パラメータと内部パラメータとを解析して、音声モードの分類を生成するためのパラメータ解析器とが構成されている。
【0017】
本発明の特徴、目的、および長所は、別途記載されている詳細な説明を添付の図面と組合せて参照することによって、一致する参照符号により全体的に対応して同定され、より明らかになるであろう。
【0018】
好ましい実施形態についての詳細な説明
開示されている実施形態では、ボコーダの応用において向上した音声分類を行うための方法および装置を提供する。既に使用可能であったパラメータよりも、より高精度でより多くの音声分類を生成するために、新規な音声パラメータを解析する。新規な決定プロセスは、フレームごとに音声を分類するのに使用される。新規な状態に基づく決定器において、元の入力音声、SNR情報、ノイズを抑圧された出力音声、音声活動情報、線形予測係数(Linear Prediction Coefficient, LPC)解析、および開ループのピッチ推定値から求めたパラメータを使用して、種々の音声モードを正確に分類する。各音声フレームは、過去のフレーム、将来のフレーム、および現在のフレームを解析することによって分類される。開示されている実施形態によって分類することができる音声モードには、過渡部、活動状態音声への過渡期と単語の終端部における過渡期、有声音、無声音、および無音が含まれる。
【0019】
開示されている実施形態は、周囲のノイズレベルが変化する環境における種々の音声モードのための音声分類技術を示している。音声モードは、最も効率的なやり方でコード化するために、確実で、かつ正確に識別される。
【0020】
図1において、第1のエンコーダ10は、ディジタル化された音声サンプルs(n)を受信し、サンプルs(n)をコード化して、サンプルs(n)は伝送媒体12、すなわち通信チャンネル12上で第1のデコーダ14へ送られる。デコーダ14は、コード化された音声サンプルをデコードして、合成出力音声信号SSYNTH(n)を生成する。反対方向での伝送のために、第2のエンコーダ16は、ディジタル化された音声サンプルs(n)をコード化して、サンプルs(n)は通信チャンネル18上で送られる。第2のデコーダ20は、コード化された音声サンプルを受信して、デコードし、合成出力音声信号SSYNTH(n)を生成する。
【0021】
音声サンプルs(n)は、この技術において知られている種々の方法、例えば、パルスコード変調(pulse code modulation, PCM)、コンパンデッドμ法(companded μ-law)、すなわちA法にしたがって、ディジタル化され、量子化された音声信号を表現している。この技術において知られているように、音声サンプルs(n)は、入力データフレームへまとめられ、各フレームには、所定数のディジタル化された音声サンプルs(n)が構成される。例示的な実施形態では、8キロヘルツのサンプリングレートを採用し、各20ミリ秒のフレームには160のサンプルが構成されている。別途記載する実施形態では、データ伝送レートは、フレームごとに、8キロビット秒(フルレート)から、4キロビット秒(2分の1レート)、2キロビット秒(4分の1レート)、ないし1キロビット秒(8分の1レート)へ変更することができる。その代わりに、他のデータレートを使用してもよい。本明細書に使用されているように、“フルレート”または“高レート”という用語は、一般に、8キロビット秒以上のデータレートを指し、“2分の1レート”または“低レート”という用語は、一般に、4キロビット以下のデータレートを指す。低ビットレートは、比較的に少ない音声情報を含むフレームに対して選択的に用いられるので、データ伝送レートを変更するのが有益である。当業者には分かるように、他のサンプリングレート、フレームサイズ、およびデータ伝送レートを使用してもよい。
【0022】
第1のエンコーダ10および第2のデコーダ20で、第1の音声コーダ、すなわち音声コーデックが構成される。同様に、第2のエンコーダ16および第1のデコーダ14で、第2の音声コーダが構成される。当業者には、音声コーダが、ディジタル信号プロセッサ(digital signal processor, DSP)、特定用途向け集積回路(application-specific integrated circuit, ASIC)、ディスクリートなゲート論理、ファームウエアまたは従来のプログラム可能なソフトウエアモジュール、およびマイクロプロセッサで構成されることが分かるであろう。ソフトウエアモジュールはRAMメモリ、フラッシュメモリ、レジスタ、または当業者には知られている他の形態の書込み可能なメモリ媒体の中に位置する。その代わりに、マイクロプロセッサを、従来のプロセッサ、制御装置、または状態機械に置換してもよい。音声コーディングのために特別に設計されたASICの例は、米国特許第5,727,123号および第5,784,532号に記載されており、米国特許第5,727,123号および第5,784,532号は、本発明の譲受人に譲渡され、本明細書に参考文献として全体的に取り上げられている。
【0023】
図2は、ロバストな音声分類器の例示的な実施形態を示している。1つの実施形態では、図2の音声分類装置は、図1のエンコーダ(10,16)内に位置する。別の実施形態では、ロバストな音声分類器は、スタンドアローン形であって、音声分類モードの出力を、図1のエンコーダ(10,16)のようなデバイスへ供給する。
【0024】
図2では、入力音声は、ノイズ抑圧器(202)へ供給される。入力音声は、一般に、音声信号をアナログからディジタルへ変換することによって生成される。ノイズ抑圧器(202)は、入力音声信号からノイズ成分をフィルタして、ノイズを抑圧された出力音声信号、および現在の出力音声のSNR情報を生成する。SNR情報および出力音声信号は、音声分類器(210)へ入力される。ノイズ抑圧器(202)の出力音声信号は、音声活動検出器(204)、LPC解析器(206)、および開ループピッチ推定器(208)へも入力される。音声分類器(210)は、SNR情報を使用して、周期性の閾値を設定し、ノイズのない音声とノイズのある音声とを区別する。以下では、SNRのパラメータをcurr ns snrと呼ぶ。以下では、出力音声信号をt inと呼ぶ。1つの実施形態において、ノイズ抑圧器(202)が構成されていないか、またはオフにされているときは、SNRパラメータcurr ns snrをデフォルト値に予め設定すべきである。
【0025】
音声活動検出器(204)は、現在の音声についての音声活動情報を音声分類器(210)へ出力する。音声活動情報の出力は、現在の音声が活動状態であるか、または非活動状態であるかを示す。1つの例示的な実施形態では、音声活動情報の出力は二値であり、すなわち活動状態か、または非活動状態である。別の実施形態では、音声活動情報の出力は、多値である。本明細書では、音声活動情報のパラメータをvadと呼ぶ。
【0026】
LPC解析器(206)は、現在の出力音声のLPCを反映した係数を音声分類器(210)へ出力する。LPC解析器(206)は、LPC係数のような他のパラメータも出力する。本明細書では、LCPの反映係数のパラメータをreflと呼ぶ。
【0027】
開ループピッチ推定器(208)は、正規化された自己相関係数の関数(Normalized Auto-correlation Coefficient Function, NACF)値およびピッチの周囲のNACFの値を音声分類器(210)へ出力する。本明細書では、NACFのパラメータをnacfと呼び、ピッチの周囲のNACFのパラメータをnacf_at_pitchと呼ぶ。より周期的な音声信号は、nacf_at_pitchのより大きい値を生成する。nacf_at_pitchの値がより大きくなると、定常音声の出力音声タイプと関係付けられている可能性が高くなる。音声分類器(210)は、nacf_at_pitchの値の配列を維持する。nacf_at_pitchは、サブフレームごとに計算される。例示的な実施形態では、1フレームに対して2つのサブフレームを測定することによって、出力音声の各フレームごとに、2つの開ループのピッチ推定値を測定する。nacf_at_pitchは、各サブフレームごとに、開ループのピッチ推定値から計算される。例示的な実施形態では、nacf_at_pitchの値の5次元配列(すなわち、nacf_at_pitch[5])には、2と2分の1の出力音声フレームの値が含まれている。nacf_at_pitchの配列は、各出力音声フレームごとに更新される。音声分類器(210)では、nacf_at_pitchのパラメータの配列の新規な使用により、現在、過去、および予見(将来)の信号情報を使用して、より正確で、かつロバストな音声モードを決定することができる。
【0028】
音声分類器(210)は、外部の構成要素から情報を入力されることに加えて、出力音声から、追加の新規なパラメータを内部で生成し、音声モード決定プロセスにおいて使用する。
【0029】
1つの実施形態では、音声分類器(210)は、ゼロ交差レートのパラメータを内部で生成し、以下ではゼロ交差レートのパラメータをzcrと呼ぶ。現在の出力音声のzcrのパラメータは、1音声フレーム毎の音声信号内の符号の変化数として定める。信号は非常にランダムであるので、有声音では、zcr値は小さく、一方で無声音(またはノイズ)では、zcr値は大きい。音声分類器(210)は、zcrのパラメータを使用して、有声音および無声音を分類する。
【0030】
1つの実施形態では、音声分類器(210)は、現在のフレームのエネルギーのパラメータを内部で生成し、以下では、これをEと呼ぶ。音声分類器(210)は、Eを使用して、現在のフレームのエネルギーと、過去および将来のフレームのエネルギーとを比較することによって、過渡部の音声を識別することができる。パラメータvEprevは、Eから求められる前のフレームのエネルギーである。
【0031】
1つの実施形態では、音声分類器(210)は、予見フレームのエネルギーのパラメータを内部で生成し、以下では、これをEnextと呼ぶ。Enextには、現在のフレームの一部分からのエネルギー値と、次の出力音声フレームの一部分からのエネルギー値とが含まれる。1つの実施形態では、Enextは、現在のフレームの後半部のエネルギーと、次の出力音声フレームの前半部のエネルギーとを表現する。音声分類器(210)は、Enextを使用して、過渡部の音声を識別する。音声の終端において、次のフレームのエネルギーは、現在のフレームのエネルギーと比較して、著しく低下する。音声分類器(210)は、現在のフレームのエネルギーと次のフレームのエネルギーとを比較して、音声の終端の状態と音声の始端の状態、または上り過渡部の音声モードと下り過渡部の音声モードとを識別することができる。
【0032】
1つの実施形態では、音声分類器(210)は、帯域エネルギー比のパラメータを内部で生成する。ELを0ないし2キロヘルツの低帯域での現在のフレームのエネルギーとし、EHを2ないし4キロヘルツの高帯域での現在のフレームのエネルギーとすると、帯域エネルギー比のパラメータはlog2(EL/EH)として定められる。以下では、帯域エネルギー比のパラメータをbERと呼ぶ。一般に、有声音は低帯域にエネルギーが集中し、一方でノイズの無声音は高帯域にエネルギーが集中するので、音声分類器(210)は、bERのパラメータにより、有声音モードと無声音モードとを識別することができる。
【0033】
1つの実施形態では、音声分類器(210)は、出力音声から、3つのフレームの平均の有声音のエネルギーのパラメータを内部で生成し、以下では、これをvEavと呼ぶ。別の実施形態では、vEavは、3つ以外のフレーム数の平均であってもよい。現在の音声モードが、活動状態で有声音であるときは、vEavから、最後の3つの出力音声フレームにおけるエネルギーの移動平均を計算する。最後の3つの出力音声フレームにおけるエネルギーの平均をとることにより、音声分類器(210)は、基本音声モードの決定において、単一フレームのエネルギーの計算値のみよりも、より安定した統計値を得る。音声の停止時に、現在のフレームのエネルギーEは、平均の音声エネルギーvEavと比較して相当に低下することになるので、音声分類器(210)は、vEavを使用して、有声音の終端、すなわち下り過渡部モードを分類する。vEavは、現在のフレームが有声音であるときのみ更新され、さもなくば無声音または非活動音声のための固定値へリセットされる。1つの実施形態では、固定リセット値は、0.01である。
【0034】
1つの実施形態では、音声分類器(210)は、前の3つのフレームの平均の有声音のエネルギーのパラメータを内部で生成し、以下では、これをvEprevと呼ぶ。別の実施形態では、vEprevは、3つ以外のフレーム数の平均であってもよい。音声分類器(210)は、vEprevを使用して、過渡部の音声を識別する。現在のフレームのエネルギーは、音声の始端において、前の3つの有声音のフレームの平均エネルギーと比較して、相当に高くなる。音声分類器(210)は、現在のフレームのエネルギーと、前の3つのフレームのエネルギーとを比較して、音声の始端の状態、すなわち上り過渡部の音声モードを識別することができる。同様に、現在のフレームのエネルギーは、有声音の終端において、相当に低下する。したがって、vEprevを使用して、音声の終端における過渡期を分類することもできる。
【0035】
1つの実施形態では、音声分類器(210)は、現在のフレームのエネルギー対前の3つのフレームの平均の有声音のエネルギーの比のパラメータを内部で生成することができ、これを10*log10(E/vEprev)として定める。別の実施形態では、vEprevは、3つ以外のフレーム数の平均であってもよい。以下では、現在のエネルギー対前の3つのフレームの平均の有声音のエネルギーの比をvERと呼ぶ。vERは、音声が再び始まるときに大きく、かつ有声音の終端において小さいので、音声分類器(210)では、vERを使用して、有声音の始端と有声音の終端、すなわち上り過渡部モードと下り過渡部モードとを分類する。過渡部の音声を分類するときに、vERのパラメータを、vEprevのパラメータと組合せて使用してもよい。
【0036】
1つの実施形態では、音声分類器(210)は、現在のフレームのエネルギー対3つのフレームの平均の有声音のエネルギーのパラメータを内部で生成し、これをMIN(20,10*log10(E/vEav))と定める。以下では、現在のフレームのエネルギー対3つのフレームの平均の有声音のエネルギーのパラメータをvER2と呼ぶ。音声分類器(210)は、vER2を使用して、有声音の終端において過渡部の音声モードを分類する。
【0037】
1つの実施形態では、音声分類器(210)は、最大のサブフレーム・エネルギーのインデックスのパラメータを内部で生成する。音声分類器(210)は、出力音声の現在のフレームを複数のサブフレームへ等しく分割し、各サブフレームの二乗平均根(Root Means Squared, RMS)のエネルギー値を計算する。1つの実施形態では、現在のフレームは10個のサブフレームへ分割される。最大のサブフレーム・エネルギーのインデックスのパラメータは、現在のフレーム内または現在のフレームの後半のサブフレーム内における最大のRMSのエネルギー値を有するサブフレームのインデックスである。以下では、最大のサブフレーム・エネルギーのインデックスのパラメータをmaxsfe_idxと呼ぶ。現在のフレームを複数のサブフレームへ分割することは、フレーム内のピークエネルギーの位置、例えば最大のピークエネルギーの位置に関する情報を音声分類器(210)へ供給する。フレームをより多くのサブフレームへ分割することにより、より高い分解能が実現される。無声音または無音の音声モードのエネルギーは一般に安定していて、一方で過渡部の音声モードでは、エネルギーは増加するか、または漸減するので、音声分類器(210)では、maxsfe_idxを他のパラメータと共に使用して、過渡部の音声モードを分類する。
【0038】
音声分類器(210)は、コード化構成要素から直接に入力された新規なパラメータと、内部で生成される新規なパラメータとを使用して、以前に可能であったよりも、より正確にかつロバストに、音声モードを分類する。音声分類器(210)は、新規な決定プロセスを、直接に入力されたパラメータおよび内部で生成されたパラメータに適用して、改善された音声分類の結果を生成する。決定プロセスについては、図4aないし4cと5aないし5cとを参照して、別途詳しく記載する。
【0039】
1つの実施形態では、音声分類器(210)によって出力される音声モードには、過渡部、上り過渡部、下り過渡部、有声音、無声音、および無音のモードが含まれる。過渡部モードは有声音であるが、周期性の低い音声であり、フルレートのCELPで最適にコード化される。上り過渡モードは、活動状態の音声の最初の有声音のフレームであり、フルレートのCELPで最適にコード化される。下り過渡部モードは、一般に単語の終端における低エネルギーの有声音であり、2分の1レートのCELPで最適にコード化される。有声音モードは、非常に周期的な有声音であり、主として母音から成る。有声音モードの音声は、フルレート、2分の1レート、4分の1レート、または8分の1レートでコード化される。有声音モードの音声をコード化するためのデータレートは、平均データレート(Average Data Rate, ADR)の要件を満たすように選択される。無声音モードは、主として子音から成り、4分の1レートのノイズ励起線形予測(Noise Excited Linear Prediction, NELP)で最適にコード化される。無音モードは、非活動状態の音声であり、8分の1レートのCELPで最適にコード化される。
【0040】
当業者には、パラメータおよび音声モードが、開示されている実施形態のパラメータおよび音声モードに制限されないことが分かるであろう。開示されている実施形態の技術的範囲から逸脱することなく、追加のパラメータおよび音声モードを採用してもよい。
【0041】
図3は、ロバストな音声分類技術の音声分類ステップについての1つの実施形態を示すフローチャートである。
【0042】
ステップ300では、外部の構成要素から入力された分類パラメータを、ノイズを抑圧された出力音声の各フレームごとに処理される。1つの実施形態では、外部の構成要素から入力された分類パラメータには、ノイズ抑圧器の構成要素から入力されるcurr ns snrとt in、開ループのピッチ推定器の構成要素から入力されるnacf at pitchのパラメータ、および音声活動検出器の構成要素から入力されるvad、およびLPC解析の構成要素から入力されたreflが含まれる。制御フローは、ステップ302へ進む。
【0043】
ステップ302では、外部の構成要素から入力される分類パラメータから、追加の内部で生成されるパラメータを計算する。例示的な実施形態では、t_inから、zcr、E、Enext、bER、vEav、vEprev、vER、vER2、およびmaxsfe_idxを計算する。各出力音声フレームごとに、内部で生成されるパラメータを計算するとき、制御フローはステップ304へ進む。
【0044】
ステップ304では、NACFの閾値を判断し、音声信号の環境にしたがって、パラメータ解析器を選択する。例示的な実施形態では、ステップ300において入力されたcurr_ns_snrの閾値をSNRの閾値と比較することによって、NACFの閾値を判断する。ノイズ抑圧器から求められるcurr_ns_snrの情報により、周期性判断の閾値の新規な適応制御が得られる。このようにして、音声信号の分類プロセスにおいて、異なる周期性の閾値を異なるレベルのノイズ成分へ適用する。最も適切なnacf、すなわち音声信号のノイズレベルの周期性の閾値を各出力音声フレームごとに選択するとき、音声分類がより正確に決定される。音声信号に対する最も適切な周期性の閾値が判断されると、その音声信号に対する最良のパラメータ解析器を選択することができる。
【0045】
ノイズを含まない音声信号とノイズを含む音声信号とは、周期性において本質的に異なる。ノイズがあるときは、音声は破損されている。音声が破損しているときは、ノイズのない音声信号よりも、周期性の測度、すなわちnacfは、より小さい。したがって、ノイズを含む信号環境を補償するために、nacfの閾値をより小さくし、ノイズを含まない信号の環境ではより大きくする。開示されている実施形態の新規な音声分類技術では、ノイズレベルに関係なく、全ての環境において周期性の閾値を固定せず、より正確で、かつロバストなモード決定を行う。
【0046】
例示的な実施形態では、curr ns snrの値が、25デシベルのSNRの閾値以上であるときは、ノイズのない音声に対するnacfの閾値を適用する。表1には、ノイズのない音声に対するnacfの閾値の例が定められている。
【0047】
【表1】
【0048】
例示的な実施形態では、curr ns snrの値が、25デシベルのSNRの閾値よりも小さいときは、ノイズを含む音声に対するnacfの閾値を適用する。表2には、ノイズを含む音声に対するnacfの閾値の例が定められている。
【0049】
【表2】
【0050】
ノイズを含む音声は、ノイズを含まない音声にノイズを加えたものと同じである。ロバストな音声分類技術では、適応性の周期性閾値制御を使用すると、ノイズを含まない音声とノイズを含む音声とに対する分類決定が同じになる可能性は、以前に可能であったよりも、より高くなる。各フレームごとにnacfの閾値が設定されているときは、制御フローはステップ306へ進む。
【0051】
ステップ306では、外部の構成要素から入力されるパラメータと、内部で生成されたパラメータとを解析して、音声モードを分類する。信号環境にしたがって選択される状態機械または他の解析方法がパラメータに対して適用される。例示的な実施形態では、外部の構成要素から入力されるパラメータと、内部で生成されるパラメータとを、状態に基づくモード決定プロセスに適用し、図4aないし4cおよび5aないし5cを参照して詳しく記載する。決定プロセスでは、音声モードを分類する。例示的な実施形態では、過渡部、上り過渡部、下り過渡部、有声音、無声音、または無音の音声モードを分類する。音声モード決定が行われると、制御フローはステップ308へ進む。
【0052】
ステップ308では、現在のフレームを構成している状態変数および種々のパラメータを更新する。例示的な実施形態では、vEav、vEprev、および現在のフレームの有声音の状態を更新する。次のフレームを分類するために、現在のフレームエネルギーE、nacf at pitch、および現在のフレームの音声モードを更新する。
【0053】
各音声フレームごとに、ステップ300ないし308を繰返す。
【0054】
図4aないし4cは、ロバストな音声分類技術の例示的な実施形態のモード決定プロセスについての実施形態を示している。決定プロセスでは、音声フレームの周期性に基づいて、音声を分類するための状態機械を選択する。決定プロセスでは、各音声フレームごとに、音声フレームの周期性の測度、すなわちnaf at pitchの値を、図3のステップ304において設定されたNACFの閾値と比較することによって、音声フレームの周期性、またはノイズ成分に最もコンパチブルな状態機械を選択する。モード決定プロセスは、音声フレームの周期性のレベルにより状態遷移を制限され、かつ制御され、よりロバストな分類が行われる。
【0055】
図4aは、vadが1であり(音声が活動状態である)、かつnacf at pitchの第3の値(すなわち、nacf at pitch[2]、ゼロ指標)が非常に大きい、すなわちVOICEDTHよりも大きいときに、例示的な実施形態において選択される状態機械についての1つの実施形態を示している。VOICEDTHは、図3のステップ304において定められている。図5aは、各状態によって評価されるパラメータを示している。
【0056】
初期状態は、無音である。vad=0である(すなわち、音声が活動状態でない)ときは、前の状態に関わらず、現在のフレームは、常に無音であると分類される。
【0057】
前の状態が無音であるときは、現在のフレームは、常に、無声音または上り過渡部の何れかであると分類される。nacf at pitch[3]が非常に小さく、zcrが大きく、bERが小さく、かつvERが非常に小さいときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは無声音であると分類される。さもなければ、分類は、デフォルトで上り過渡部になる。
【0058】
前の状態が無声音であるときは、現在のフレームは無声音または上り過渡部として分類される。nacfが非常に小さく、nacf at pitch[3]が非常に小さく、nacf at pitch[4]が非常に小さく、zcrが大きく、bERが小さく、vERが非常に小さく、かつEがvEprevよりも小さいか、またはこれらの条件の組合せが満たされるときは、現在のフレームは、そのまま無声音であると分類される。さもなければ、分類は、デフォルトで上り過渡部になる。
【0059】
前の状態が有声音であるときは、現在のフレームは無声音、過渡部、下り過渡部、または有声音として分類される。vERが非常に小さく、かつEがvEprevよりも小さいときは、現在のフレームは無声音として分類される。nacf at pitch[1]およびnacf at pitch[3]が小さく、かつEがvEprevの2分の1よりも大きいか、またはこれらの条件の組合せが満たされるときは、現在のフレームは過渡部であると分類される。vERが非常に小さく、かつnacf at pitch[3]が中位の値であるときは、現在のフレームは下り過渡部であると分類される。さもなければ、現在の分類は、デフォルトで有声音になる。
【0060】
前の状態が過渡部または上り過渡部であるときは、現在のフレームは、無声音、過渡部、または下り過渡部、または有声音として分類される。vERが非常に小さく、かつEがvEprevよりも小さいときは、現在のフレームは無声音として分類される。nacf at pitch[1]が小さく、nacf at pitch[3]が中位の値であり、nacf at pitch[4]が小さく、かつ前の状態が過渡部でないときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは過渡部として分類される。nacf at pitch[3]が中位の値であり、かつEがvEavの0.05倍よりも小さいときは、現在のフレームは下り過渡部として分類される。さもなければ、現在の分類は、デフォルトで有声音になる。
【0061】
前のフレームが下り過渡部であるときは、現在のフレームは無声音、過渡部、または下り過渡部として分類される。vERが非常に小さいときは、現在のフレームは無声音として分類される。EがvEprevよりも大きいときは、現在のフレームは過渡部として分類される。さもなければ、現在の分類は、下り過渡部のままである。
【0062】
図4bは、vadが1であり(音声が活動状態である)、かつnacf at pitchの第3の値が非常に小さい、すなわちUNVOICEDTHよりも小さいときの、例示的な実施形態において選択される状態機械についての1つの実施形態を示している。図3のステップ304において、UNVOICEDTHが定められる。図5bは、各状態によって評価されるパラメータを示している。
【0063】
初期状態は無音である。前の状態に関わらず、vad=0である(すなわち、音声が活動状態である)ときは、現在のフレームは、常に無音として分類される。
【0064】
前の状態が無音であるときは、現在のフレームは、無声音または上り過渡部の何れかとして分類される。nacf at pitch[2-4]が増加傾向を示し、nacf at pitch[3-4]が中位の値であり、zcrが非常に小さい値から中位の値であり、bERが大きく、かつvERが中位の値であるときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは、上り過渡部であると分類される。さもなければ、分類は、デフォルトで無声音になる。
【0065】
前の状態が無声音であるときは、現在のフレームがは無声音または上り過渡部として分類される。nacf at pitch[2-4]が増加傾向を示し、nacf at pitch[3-4]が中位の値から非常に大きい値であり、zcrが非常に小さいか、または中位であり、vERが小さくなく、bERが大きく、reflが小さく、nacfが中位の値であり、かつEがvEprevよりも大きいときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは、上り過渡部として分類される。これらの条件の組合せおよび閾値は、パラメータcurr ns snrにおいて反映される音声フレームのノイズレベルに依存して変化する。さもなければ、分類は、デフォルトで無声音になる。
【0066】
前の状態が有声音、上り過渡部、または過渡部であるときは、現在のフレームは無声音、過渡部、または下り過渡部として分類される。bERがゼロ以下であり、vERが非常に小さく、bERがゼロよりも大きく、かつEがvEprevよりも小さいときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは無声音として分類される。bERがゼロよりも大きく、nacf at pitch[2-4]が増加傾向を示し、zcrが大きくなく、vERが小さくなく、reflが小さく、nacf at pitch[3]およびnacfが中位であり、かつbERがゼロ以下であるときか、またはこれらの条件のある特定の組合せが満たされるときは、現在のフレームは過渡部として分類される。これらの条件の組合せおよび閾値は、パラメータcurr ns snrにおいて反映される音声フレームのノイズレベルに依存して変化する。bERがゼロよりも大きく、nacf at pitch[3]が中位であり、EがvEprevよりも小さく、zcrが大きくなく、かつvER2が−15よりも小さいときは、現在のフレームは下り過渡部として分類される。
【0067】
前のフレームが下り過渡部であるとき、現在のフレームは無声音、過渡部、または下り過渡部として分類される。nacf at pitch[2-4]が増加傾向を示し、nacf at pitch[3-4]が適度に大きく、vERが小さくなく、かつEがvEprevの2倍よりも大きいときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは過渡部として分類される。vERが小さくなく、かつzcrが小さいときは、現在のフレームは下り過渡部として分類される。さもなければ、現在の分類は、デフォルトで無声音になる。
【0068】
図4cは、vadが1であり(音声が活動状態であり)、かつnacf at pitchの第3の値(すなわち、nacf at pitch[3])が中位であり、すなわちUNVOICEDTHよりも大きく、かつVOICEDTHよりも小さいときの、例示的な実施形態において選択される状態機械についての1つの実施形態を示している。UNVOICEDTHおよびVOICETHは、図3のステップ304において定められる。図5cは、各状態によって評価されるパラメータを示している。
【0069】
初期状態は無音である。vad=0(すなわち、音声は活動状態でない)であるときは、前の状態に関わらず、現在のフレームは、常に、無音として分類される。
【0070】
前の状態が無音であるときは、現在のフレームは、無声音または上り過渡部の何れかとして分類される。nacf at pitch[2-4]が増加傾向を示し、nacf at pitch[3-4]が適度に大きく、zcrが大きくなく、bERが大きく、vERが中位の値であり、zcrが非常に小さく、かつEがvEprevの2倍よりも大きいときか、またはこれらの状態のある特定の組合せが満たされるときは、現在のフレームは上り過渡部として分類される。さもなければ、分類は、デフォルトで無声音になる。
【0071】
前の状態が無声音であるときは、現在のフレームは無声音または上り過渡部として分類される。nacf at pitch[2-4]が増加傾向を示し、nacf at pitch[3-4]が中位から非常に大きい値であり、zcrが大きくなく、vERが小さくなく、bERが大きく、reflが小さく、EがvEprevよりも大きく、zcrが非常に小さく、nacf小さくなく、maxsfe idxが最後のサブフレームを示し、かつEがvEprevの2倍よりも大きいときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは上り過渡部として分類される。これらの条件の組合せおよび閾値は、パラメータcurr ns snrにおいて反映される音声フレームのノイズレベルに依存して変化する。さもなければ、分類は、デフォルトで無声音になる。
【0072】
前の状態が有声音、上り過渡部、または過渡部であるときは、現在のフレームは、無声音、有声音、過渡部、下り過渡部として分類される。bERがゼロ以下であり、vERが非常に小さく、EnextがEよりも小さく、nacf at pitch[3-4]が非常に小さく、bERがゼロよりも大きく、かつEがvEprevよりも小さいときか、またはこれらの条件のある特定の組合せが満たされるときは、現在のフレームは無声音として分類される。bERがゼロよりも大きく、nacf at pitch[2-4]が増加傾向を示し、zcrが大きくなく、vERが小さくなく、reflが小さく、かつnacf at pitch[3]およびnacfが小さくないときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは過渡部として分類される。これらの条件の組合せおよび閾値は、パラメータcurr ns snrにおいて反映される音声フレームのノイズレベルに依存して変化する。bERがゼロよりも大きく、nacf at pitch[3]が大きくなく、EがvEprevよりも小さく、zcrが大きくなく、vERが−15よりも小さく、かつvER2が−15よりも小さいか、またはこれらの条件の組合せが満たされるときは、現在のフレームは下り過渡部として分類される。nacf at pitch[2]がLOWVOICEDTHよりも大きく、bERがゼロ以上であり、かつvERが小さくないときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは有声音として分類される。
【0073】
現在のフレームが下り過渡部であるときは、現在のフレームは、無声音、過渡部、または下り過渡部として分類される。bERがゼロよりも大きく、nacf at pitch[2-4]が増加傾向を示し、nacf at pitch[3-4]が適度に大きく、vERが小さくなく、かつEがvEprevの2倍よりも大きいときか、またはこれらの状態のある特定の組合せが満たされるときは、現在のフレームは過渡部として分類される。vERが小さくなく、かつzcrが小さいときは、現在のフレームは下り過渡部として分類される。さもなければ、現在の分類は、デフォルトで無声音になる。
【0074】
図5aないし5cは、音声分類についての開示されている実施形態によって使用される決定表についての実施形態である。
【0075】
図5aは、1つの実施形態にしたがって、nacf at pitchの第3の値(すなわち、nacf at pitch[2])が非常に大きい、すなわちVOICEDTHよりも大きいときに、各状態によって評価されるパラメータと、状態遷移とを示している。図5aに示されている決定表は、図4aに示されている状態機械によって使用される。前の音声フレームの音声モードの分類は、最左列に示されている。パラメータが、各前のモードと関係付けられている列に示されているように評価されるとき、音声モードの分類は、関係付けられている列の最上行において識別されている現在のモードへ遷移する。
【0076】
図5bは、1つの実施形態にしたがって、第3の値(nacf at pitch[2])が非常に小さい、すなわちUNVOICEDTHよりも小さいときの、各状態によって評価されるパラメータと、状態遷移とを示している。図5bに示されている決定表は、図4bに示されている状態機械によって使用される。前の音声フレームの音声モードの分類は、最左列に示されている。パラメータが、各前のモードと関係付けられている行に示されているように評価されるとき、音声モードの分類は、関係付けられている列の最上行において識別されている現在のモードへ遷移する。
【0077】
図5cは、1つの実施形態にしたがって、nacf at pitchの第3の値(すなわち、nacf at pitch[3])が中位であり、すなわちUNVOICEDTHよりも大きいが、VOITHEDTHよりも小さいときに、各状態によって評価されるパラメータと、状態遷移とを示している。図5cに示されている決定表は、図4cに示されている状態機械によって使用される。前の音声フレームの音声モードの分類は、最左列に示されている。パラメータが、各前のモードと関係付けられている列に示されているように評価されるときは、音声モードの分類は、関係付けられている列の最上行において識別されている現在のモードへ遷移する。
【0078】
図6は、音声信号の、関係付けられているパラメータ値と音声分類とについての例示的な実施形態の時間線のグラフである。
【0079】
当業者には、音声分類器は、DSP、ASIC、ディスクリートなゲート論理、ファームウエアまたは従来のプログラマブルソフトウエアモジュール、およびマイクロプロセッサで構成されていてもよいことが分かるであろう。ソフトウエアモジュールは、RAMメモリ、フラッシュメモリ、レジスタ、またはこの技術において知られている他の形態の書込み可能なメモリ媒体内にあってもよい。その代わりに、マイクロプロセッサを、従来のプロセッサ、制御装置、または状態機械に置換してもよい。
【0080】
好ましい実施形態についてのこれまでの説明は、当業者が本発明を作成または使用できるように与えられている。これらの実施形態に対する種々の変更は、当業者には容易に明らかであり、本明細書において定義されている全体的な原理は、発明の能力を使用することなく、他の実施形態に適用してもよい。したがって、本発明は、本明細書に示されている実施形態に制限されることを意図されずに、本明細書に開示されている原理および新規な特徴にしたがう最も広い範囲にしたがうことを意図される。
【図面の簡単な説明】
【図1】 音声コーダによって各端末において終端する通信チャンネルのブロック図。
【図2】 図1に示されているエンコーダによって使用することができるロバストな音声分類器のブロック図。
【図3】 ロバストな音声分類器の音声分類ステップを示すフローチャート。
【図4a】 音声分類についての開示されている実施形態によって使用される状態図。
【図4b】 音声分類についての開示されている実施形態によって使用される状態図。
【図4c】 音声分類についての開示されている実施形態によって使用される状態図。
【図5a】 音声分類についての開示されている実施形態によって使用される決定表。
【図5b】 音声分類についての開示されている実施形態によって使用される決定表。
【図5c】 音声分類についての開示されている実施形態によって使用される決定表。
【図6】 分類パラメータおよび音声モード値とを有する音声信号についての1つの実施形態の例示的なグラフ。
Claims (60)
- 音声分類方法であって、
音声分類器へパラメータを入力することであって、パラメータは音声サンプル、音声サンプルの信号対雑音比(SNR)、音声活動情報、およびピッチ情報における正規化された自己相関係数関数(NACF)の値を含み、
音声分類器において、入力パラメータから内部パラメータを生成すること、
音声サンプルの信号対雑音比に基づいて、有声音、過渡音、および無声音のための正規化された自己相関係数関数の閾値を設定することであって、ノイズ音声環境における有声音のためのNACFの閾値がクリーン音声環境における有声音のためのNACFの閾値より低く、
入力パラメータおよび内部パラメータを解析して、過渡部モード、有声音モード、および無声音モードを含むグループから音声モードの分類を生成することを含む音声分類方法、
ここで、前記解析することは、前記ピッチ情報における正規化された自己相関係数関数の値を正規化された自己相関係数関数の前記閾値と比較することにより複数の状態機械の中から前記音声サンプルの周期性に最も適合した一の状態機械を選択し、前記選択された一の状態機械に前記入力パラメータおよび内部パラメータを適用することを含み、
前記ピッチ情報における正規化された自己相関係数関数の値は前記音声サンプルのピッチ周期に相当する遅れ時間において前記音声サンプルの前記正規化された自己相関係数関数が示すピーク値であり、前記ピーク値は前記音声サンプルの前記周期性の測度である。 - 音声サンプルがノイズを抑圧された音声サンプルを含む請求項1記載の方法。
- 入力パラメータには、線形予測反映係数が含まれる請求項1記載の方法。
- 複数のフレームのためのピッチ情報における正規化された自己相関係数関数の配列をさらに含む請求項1記載の方法。
- 内部パラメータには、ゼロ交差レートのパラメータが含まれる請求項1記載の方法。
- 内部パラメータには、現在のフレームのエネルギーのパラメータが含まれる請求項1記載の方法。
- 内部パラメータには、予見(look ahead)フレームのエネルギーのパラメータが含まれる請求項1記載の方法。
- 内部パラメータには、帯域エネルギー比のパラメータが含まれる請求項1記載の方法。
- 内部パラメータには、3つのフレームの平均の有声音のエネルギーのパラメータが含まれる請求項1記載の方法。
- 内部パラメータには、前の3つのフレームの平均の有声音のエネルギーのパラメータが含まれる請求項1記載の方法。
- 内部パラメータには、現在のフレームのエネルギー対前の3つのフレームの平均の有声音のエネルギーの比のパラメータが含まれる請求項1記載の方法。
- 内部パラメータには、現在のフレームのエネルギー対3つのフレームの平均の有声音のエネルギーの比のパラメータが含まれる請求項1記載の方法。
- 内部パラメータには、最大のサブフレームのエネルギー指標のパラメータが含まれる請求項1記載の方法。
- 正規化された自己相関係数関数の閾値を設定することには、所定の信号対雑音比の値に対して音声サンプルの信号対雑音比の値を比較することが含まれる請求項1記載の方法。
- 解析することには、
ピッチ情報における正規化された自己相関係数関数を正規化された自己相関係数関数の閾値と比較することにより複数の状態機械の間で状態機械を選択し、
選択された状態機械にパラメータを適用することが含まれる請求項1記載の方法。 - 状態機械には、各音声分類モードの状態が含まれる請求項15記載の方法。
- 音声モード分類には、上り過渡部モードが含まれる請求項1記載の方法。
- 音声モード分類には、下り過渡部モードが含まれる請求項1記載の方法。
- 音声モード分類には、無音モードが含まれる請求項1記載の方法。
- 少なくとも1つのパラメータを更新することがさらに含まれる請求項1記載の方法。
- 更新されるパラメータには、ピッチ情報における正規化された自己相関係数関数が含まれる請求項20記載の方法。
- 更新されるパラメータには、3つのフレームの平均の有声音のエネルギーのパラメータが含まれる請求項20記載の方法。
- 更新されるパラメータには、予見フレームのエネルギーのパラメータが含まれる請求項20記載の方法。
- 更新されるパラメータには、前の3つのフレームの平均の有声音のエネルギーのパラメータが含まれる請求項20記載の方法。
- 更新されるパラメータには、音声活動検出のパラメータが含まれる請求項20記載の方法。
- 音声サンプル、音声サンプルの信号対雑音比(SNR)、音声活動情報、およびピッチ情報における正規化された自己相関係数関数(NACF)を含む入力パラメータを受取るように構成された音声分類器であって、
入力パラメータから内部パラメータを生成する生成器と、
音声サンプルの信号対雑音比に基づいて、有声音、過渡音、および無声音のための正規化された自己相関係数関数の閾値を設定するための正規化された自己相関係数関数の閾値の生成器であって、ノイズ音声環境における有声音のためのNACFの閾値がクリーン音声環境における有声音のためのNACFの閾値より低い生成器と、
入力パラメータおよび内部パラメータを解析して、過渡部モード、有声音モード、および無声音モードを含むグループから音声モードの分類を生成するパラメータ解析器とを含む音声分類器、
ここで、前記解析することは、前記ピッチ情報における正規化された自己相関係数関数の値を正規化された自己相関係数関数の前記閾値と比較することにより複数の状態機械の中から前記音声サンプルの周期性に最も適合した一の状態機械を選択し、前記選択された一の状態機械に前記入力パラメータおよび内部パラメータを適用することを含み、
前記ピッチ情報における正規化された自己相関係数関数の値は前記音声サンプルのピッチ周期に相当する遅れ時間において前記音声サンプルの前記正規化された自己相関係数関数が示すピーク値であり、前記ピーク値は前記音声サンプルの前記周期性の測度である。 - 音声サンプルがノイズを抑圧された音声サンプルを含む請求項26記載の音声分類器。
- 線形予測反映係数をさらに受け取るように構成され、生成器が線形予測反映係数から内部パラメータを生成する請求項26記載の音声分類器。
- 複数のフレームのためのピッチ情報値における正規化された自己相関係数関数の配列を維持するようにさらに構成された請求項26記載の音声分類器。
- 生成されたパラメータには、ゼロ交差レートのパラメータが含まれる請求項26記載の音声分類器。
- 生成されるパラメータには、現在のフレームのエネルギーのパラメータが含まれる請求項26記載の音声分類器。
- 生成されるパラメータには、予見フレームのエネルギーのパラメータが含まれる請求項26記載の音声分類器。
- 生成されるパラメータには、帯域エネルギー比のパラメータが含まれる請求項26記載の音声分類器。
- 生成されるパラメータには、3つのフレームの平均の有声音のエネルギーのパラメータが含まれる請求項26記載の音声分類器。
- 生成されるパラメータには、前の3つのフレームの平均の有声音のエネルギーのパラメータが含まれる請求項26記載の音声分類器。
- 生成されるパラメータには、現在のフレームのエネルギー対前の3つのフレームの平均の有声音のエネルギーの比のパラメータが含まれる請求項26記載の音声分類器。
- 生成されるパラメータには、現在のフレームのエネルギー対3つのフレームの平均の有声音のエネルギーの比のパラメータが含まれる請求項26記載の音声分類器。
- 生成されるパラメータには、最大のサブフレームのエネルギー指標のパラメータが含まれる請求項26記載の音声分類器。
- 正規化された自己相関係数関数の閾値を設定することには、所定の信号対雑音比の値に対する音声サンプルの信号対雑音比を比較することが含まれる請求項26記載の音声分類器。
- パラメータ解析器が、ピッチ情報における正規化された自己相関係数関数を正規化された自己相関係数関数の閾値と比較することにより複数の状態機械の間で状態機械を選択し、選択された状態機械にパラメータを適用するように構成される請求項26記載の音声分類器。
- 状態機械には、各音声分類モードの状態が含まれる請求項40記載の音声分類器。
- 音声モードの分類には、上り過渡部モードが含まれる請求項26記載の音声分類器。
- 音声モードの分類には、下り過渡部モードが含まれる請求項26記載の音声分類器。
- 音声モードの分類には、無音モードが含まれる請求項26記載の音声分類器。
- 少なくとも1つのパラメータを更新することがさらに含まれる請求項26記載の音声分類器。
- 更新されるパラメータには、ピッチパラメータにおける正規化された自己相関係数関数が含まれる請求項45記載の音声分類器。
- 更新されるパラメータには、3つのフレームの平均の有声音のエネルギーのパラメータが含まれる請求項45記載の音声分類器。
- 更新されるパラメータには、予見フレームのエネルギーのパラメータが含まれる請求項45記載の音声分類器。
- 更新されるパラメータには、前の3つのフレームの平均の有声音のエネルギーのパラメータが含まれる請求項45記載の音声分類器。
- 更新されるパラメータには、音声活動検出のパラメータが含まれる請求項45記載の音声分類器。
- 一組の音声サンプルに関する信号対雑音比(SNR)情報をSNR閾値と比較し、
SNR情報とSNR閾値との比較に基づいて、正規化された自己相関係数関数(NACF)の閾値を決定し、NACFの閾値が有声音のための第1の閾値、過渡音のための第2の閾値、および無声音のための第3の閾値を含み、ノイズ音声環境における有声音のためのNACFの閾値がクリーン音声環境における有声音のためのNACFの閾値より低く、
ピッチ値におけるNACFの値をNACFの閾値と比較し、
前記ピッチ値におけるNACFの値と前記NACFの閾値との比較にもとづいて、複数のパラメータを解析する複数のパラメータ解析器の中から前記音声サンプルの組の周期性に最も適合したパラメータ解析器を選択し、前記音声サンプルの組を無音、有声音、無声音または過渡音に分類することを含む方法、
ここで、前記ピッチ値におけるNACFの値は前記音声サンプルのピッチ周期に相当する遅れ時間において前記音声サンプルの前記NACFが示すピーク値であり、前記ピーク値は前記音声サンプルの前記周期性の測度である。 - 各パラメータ解析器が無音、有声音、無声音および過渡音状態を有する状態機械を含む請求項51の方法。
- NACFの閾値を決定することが、クリーン音声に対応するNACFの閾値の第1の組とノイズ音声に対応するNACFの閾値の第2の組との間で選択することを含む請求項51の方法。
- ピッチ値におけるNACFを決定するためにピッチを推定することをさらに含む請求項51の方法。
- 一組の音声サンプルに関する信号対雑音比(SNR)情報をSNR閾値と比較し、
SNR情報とSNR閾値との比較に基づいて、正規化された自己相関係数関数(NACF)の閾値を決定し、NACFの閾値が有声音のための第1の閾値、過渡音のための第2の閾値、および無声音のための第3の閾値を含み、ノイズ音声環境における有声音のためのNACFの閾値がクリーン音声環境における有声音のためのNACFの閾値より低く、
ピッチ値におけるNACFの値をNACFの閾値と比較し、
前記ピッチ値におけるNACFの値と前記NACFの閾値との比較にもとづいて、複数のパラメータを解析する複数のパラメータ解析器の中から前記音声サンプルの組の周期性に最も適合したパラメータ解析器を選択し、音声サンプルの組を無音、有声音、無声音または過渡音に分類するように構成された音声分類器を含む装置、
ここで、前記ピッチ値におけるNACFの値は前記音声サンプルのピッチ周期に相当する遅れ時間において前記音声サンプルの前記NACFが示すピーク値であり、前記ピーク値は前記音声サンプルの前記周期性の測度である。 - 各パラメータ解析器が無音、有声音、無声音および過渡音状態を有する状態機械を含む請求項55の装置。
- NACFの閾値を決定することが、クリーン音声に対応するNACFの閾値の第1の組とノイズ音声に対応するNACFの閾値の第2の組との間で選択することを含む請求項55の装置。
- ピッチ値におけるNACFを決定するためにピッチを推定するように構成されたピッチ推定器をさらに含む請求項55の装置。
- 下記を備える音声分類器:
音声分類器へパラメータを入力することための手段、ここで、パラメータは音声サンプル、音声サンプルの信号対雑音比(SNR)、音声活動情報、およびピッチ情報における正規化された自己相関係数関数(NACF)の値を含み;
音声分類器において、入力パラメータから内部パラメータを生成するための手段;
音声サンプルの信号対雑音比に基づいて、有声音、過渡音、および無声音のための正規化された自己相関係数関数の閾値を設定するための手段、ここで、ノイズ音声環境における有声音のためのNACFの閾値がクリーン音声環境における有声音のためのNACFの閾値より低い;
過渡部モード、有声音モード、および無声音モードを含むグループから音声モードの分類を生成するために、入力パラメータおよび内部パラメータを解析する手段、
ここで、前記解析するための手段は、前記ピッチ情報における正規化された自己相関係数関数の値を正規化された自己相関係数関数の前記閾値と比較することにより複数の状態機械の中から前記音声サンプルの周期性に最も適合した一の状態機械を選択し、前記選択された一の状態機械に前記入力パラメータおよび内部パラメータを適用することを含み、
前記ピッチ情報における正規化された自己相関係数関数の値は前記音声サンプルのピッチ周期に相当する遅れ時間において前記音声サンプルの前記正規化された自己相関係数関数が示すピーク値であり、前記ピーク値は前記音声サンプルの前記周期性の測度である。 - 下記の手順を実行可能なCPU実行可能命令を記録したコンピュータ読み出し可能記録媒体:
音声分類器へパラメータを入力することであって、パラメータは音声サンプル、音声サンプルの信号対雑音比(SNR)、音声活動情報、およびピッチ情報における正規化された自己相関係数関数(NACF)の値を含み、
音声分類器において、入力パラメータから内部パラメータを生成すること、
音声サンプルの信号対雑音比に基づいて、有声音、過渡音、および無声音のための正規化された自己相関係数関数の閾値を設定することであって、ノイズ音声環境における有声音のためのNACFの閾値がクリーン音声環境における有声音のためのNACFの閾値より低く、
入力パラメータおよび内部パラメータを解析して、過渡部モード、有声音モード、および無声音モードを含むグループから音声モードの分類を生成することを含む音声分類方法、
ここで、前記解析することは、前記ピッチ情報における正規化された自己相関係数関数の値を正規化された自己相関係数関数の前記閾値と比較することにより複数の状態機械の中から前記音声サンプルの周期性に最も適合した一の状態機械を選択し、前記選択された一の状態機械に前記入力パラメータおよび内部パラメータを適用することを含み、
前記ピッチ情報における正規化された自己相関係数関数の値は前記音声サンプルのピッチ周期に相当する遅れ時間において前記音声サンプルの前記正規化された自己相関係数関数が示すピーク値であり、前記ピーク値は前記音声サンプルの前記周期性の測度である。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/733,740 US7472059B2 (en) | 2000-12-08 | 2000-12-08 | Method and apparatus for robust speech classification |
PCT/US2001/046971 WO2002047068A2 (en) | 2000-12-08 | 2001-12-04 | Method and apparatus for robust speech classification |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010072646A Division JP5425682B2 (ja) | 2000-12-08 | 2010-03-26 | ロバストな音声分類のための方法および装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2004515809A JP2004515809A (ja) | 2004-05-27 |
JP2004515809A5 JP2004515809A5 (ja) | 2010-03-11 |
JP4550360B2 true JP4550360B2 (ja) | 2010-09-22 |
Family
ID=24948935
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002548711A Expired - Lifetime JP4550360B2 (ja) | 2000-12-08 | 2001-12-04 | ロバストな音声分類のための方法および装置 |
JP2010072646A Expired - Lifetime JP5425682B2 (ja) | 2000-12-08 | 2010-03-26 | ロバストな音声分類のための方法および装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010072646A Expired - Lifetime JP5425682B2 (ja) | 2000-12-08 | 2010-03-26 | ロバストな音声分類のための方法および装置 |
Country Status (13)
Country | Link |
---|---|
US (1) | US7472059B2 (ja) |
EP (1) | EP1340223B1 (ja) |
JP (2) | JP4550360B2 (ja) |
KR (2) | KR100895589B1 (ja) |
CN (2) | CN100350453C (ja) |
AT (1) | ATE341808T1 (ja) |
AU (1) | AU2002233983A1 (ja) |
BR (2) | BR0116002A (ja) |
DE (1) | DE60123651T2 (ja) |
ES (1) | ES2276845T3 (ja) |
HK (1) | HK1067444A1 (ja) |
TW (1) | TW535141B (ja) |
WO (1) | WO2002047068A2 (ja) |
Families Citing this family (67)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6691084B2 (en) * | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
GB0003903D0 (en) * | 2000-02-18 | 2000-04-05 | Canon Kk | Improved speech recognition accuracy in a multimodal input system |
US8090577B2 (en) | 2002-08-08 | 2012-01-03 | Qualcomm Incorported | Bandwidth-adaptive quantization |
US7657427B2 (en) * | 2002-10-11 | 2010-02-02 | Nokia Corporation | Methods and devices for source controlled variable bit-rate wideband speech coding |
US7023880B2 (en) | 2002-10-28 | 2006-04-04 | Qualcomm Incorporated | Re-formatting variable-rate vocoder frames for inter-system transmissions |
US7698132B2 (en) * | 2002-12-17 | 2010-04-13 | Qualcomm Incorporated | Sub-sampled excitation waveform codebooks |
US7613606B2 (en) * | 2003-10-02 | 2009-11-03 | Nokia Corporation | Speech codecs |
US7472057B2 (en) * | 2003-10-17 | 2008-12-30 | Broadcom Corporation | Detector for use in voice communications systems |
KR20050045764A (ko) * | 2003-11-12 | 2005-05-17 | 삼성전자주식회사 | 무선 단말기에서의 음성 저장/재생 장치 및 방법 |
US7630902B2 (en) * | 2004-09-17 | 2009-12-08 | Digital Rise Technology Co., Ltd. | Apparatus and methods for digital audio coding using codebook application ranges |
EP1861846B1 (en) * | 2005-03-24 | 2011-09-07 | Mindspeed Technologies, Inc. | Adaptive voice mode extension for a voice activity detector |
US20060262851A1 (en) | 2005-05-19 | 2006-11-23 | Celtro Ltd. | Method and system for efficient transmission of communication traffic |
KR100744352B1 (ko) * | 2005-08-01 | 2007-07-30 | 삼성전자주식회사 | 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치 |
US20070033042A1 (en) * | 2005-08-03 | 2007-02-08 | International Business Machines Corporation | Speech detection fusing multi-class acoustic-phonetic, and energy features |
US7962340B2 (en) * | 2005-08-22 | 2011-06-14 | Nuance Communications, Inc. | Methods and apparatus for buffering data for use in accordance with a speech recognition system |
KR100735343B1 (ko) * | 2006-04-11 | 2007-07-04 | 삼성전자주식회사 | 음성신호의 피치 정보 추출장치 및 방법 |
US8917876B2 (en) | 2006-06-14 | 2014-12-23 | Personics Holdings, LLC. | Earguard monitoring system |
US20080031475A1 (en) | 2006-07-08 | 2008-02-07 | Personics Holdings Inc. | Personal audio assistant device and method |
US8239190B2 (en) * | 2006-08-22 | 2012-08-07 | Qualcomm Incorporated | Time-warping frames of wideband vocoder |
WO2008045846A1 (en) * | 2006-10-10 | 2008-04-17 | Qualcomm Incorporated | Method and apparatus for encoding and decoding audio signals |
KR101016224B1 (ko) * | 2006-12-12 | 2011-02-25 | 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 | 인코더, 디코더 및 시간 영역 데이터 스트림을 나타내는 데이터 세그먼트를 인코딩하고 디코딩하는 방법 |
US11750965B2 (en) | 2007-03-07 | 2023-09-05 | Staton Techiya, Llc | Acoustic dampening compensation system |
US8478587B2 (en) * | 2007-03-16 | 2013-07-02 | Panasonic Corporation | Voice analysis device, voice analysis method, voice analysis program, and system integration circuit |
US8111839B2 (en) | 2007-04-09 | 2012-02-07 | Personics Holdings Inc. | Always on headwear recording system |
US11683643B2 (en) | 2007-05-04 | 2023-06-20 | Staton Techiya Llc | Method and device for in ear canal echo suppression |
US11856375B2 (en) | 2007-05-04 | 2023-12-26 | Staton Techiya Llc | Method and device for in-ear echo suppression |
US8502648B2 (en) | 2007-08-16 | 2013-08-06 | Broadcom Corporation | Remote-control device with directional audio system |
CN101790756B (zh) | 2007-08-27 | 2012-09-05 | 爱立信电话股份有限公司 | 瞬态检测器以及用于支持音频信号的编码的方法 |
US20090319261A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
US8768690B2 (en) | 2008-06-20 | 2014-07-01 | Qualcomm Incorporated | Coding scheme selection for low-bit-rate applications |
US20090319263A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
KR20100006492A (ko) | 2008-07-09 | 2010-01-19 | 삼성전자주식회사 | 부호화 방식 결정 방법 및 장치 |
US8380498B2 (en) * | 2008-09-06 | 2013-02-19 | GH Innovation, Inc. | Temporal envelope coding of energy attack signal by using attack point location |
US8600067B2 (en) | 2008-09-19 | 2013-12-03 | Personics Holdings Inc. | Acoustic sealing analysis system |
US9129291B2 (en) | 2008-09-22 | 2015-09-08 | Personics Holdings, Llc | Personalized sound management and method |
FR2944640A1 (fr) * | 2009-04-17 | 2010-10-22 | France Telecom | Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal. |
US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
US8473287B2 (en) | 2010-04-19 | 2013-06-25 | Audience, Inc. | Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system |
US8538035B2 (en) | 2010-04-29 | 2013-09-17 | Audience, Inc. | Multi-microphone robust noise suppression |
US8781137B1 (en) | 2010-04-27 | 2014-07-15 | Audience, Inc. | Wind noise detection and suppression |
CN102473411B (zh) * | 2010-05-17 | 2014-11-05 | 松下电器(美国)知识产权公司 | 声音分类装置、方法及集成电路 |
US8447596B2 (en) | 2010-07-12 | 2013-05-21 | Audience, Inc. | Monaural noise suppression based on computational auditory scene analysis |
US8311817B2 (en) * | 2010-11-04 | 2012-11-13 | Audience, Inc. | Systems and methods for enhancing voice quality in mobile device |
JP2012203351A (ja) * | 2011-03-28 | 2012-10-22 | Yamaha Corp | 子音識別装置、およびプログラム |
US8990074B2 (en) * | 2011-05-24 | 2015-03-24 | Qualcomm Incorporated | Noise-robust speech coding mode classification |
WO2013075753A1 (en) * | 2011-11-25 | 2013-05-30 | Huawei Technologies Co., Ltd. | An apparatus and a method for encoding an input signal |
US8731911B2 (en) * | 2011-12-09 | 2014-05-20 | Microsoft Corporation | Harmonicity-based single-channel speech quality estimation |
WO2013136742A1 (ja) * | 2012-03-14 | 2013-09-19 | パナソニック株式会社 | 車載通話装置 |
CN103903633B (zh) * | 2012-12-27 | 2017-04-12 | 华为技术有限公司 | 检测语音信号的方法和装置 |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
US9167082B2 (en) | 2013-09-22 | 2015-10-20 | Steven Wayne Goldstein | Methods and systems for voice augmented caller ID / ring tone alias |
US10043534B2 (en) | 2013-12-23 | 2018-08-07 | Staton Techiya, Llc | Method and device for spectral expansion for an audio signal |
EP2922056A1 (en) * | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation |
CN105374367B (zh) | 2014-07-29 | 2019-04-05 | 华为技术有限公司 | 异常帧检测方法和装置 |
DE112015004185T5 (de) | 2014-09-12 | 2017-06-01 | Knowles Electronics, Llc | Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten |
US9886963B2 (en) | 2015-04-05 | 2018-02-06 | Qualcomm Incorporated | Encoder selection |
KR102446392B1 (ko) * | 2015-09-23 | 2022-09-23 | 삼성전자주식회사 | 음성 인식이 가능한 전자 장치 및 방법 |
US10616693B2 (en) | 2016-01-22 | 2020-04-07 | Staton Techiya Llc | System and method for efficiency among devices |
US9820042B1 (en) | 2016-05-02 | 2017-11-14 | Knowles Electronics, Llc | Stereo separation and directional suppression with omni-directional microphones |
EP3324406A1 (en) | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a variable threshold |
EP3324407A1 (en) * | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic |
US20180174574A1 (en) * | 2016-12-19 | 2018-06-21 | Knowles Electronics, Llc | Methods and systems for reducing false alarms in keyword detection |
KR20180111271A (ko) * | 2017-03-31 | 2018-10-11 | 삼성전자주식회사 | 신경망 모델을 이용하여 노이즈를 제거하는 방법 및 장치 |
US10951994B2 (en) | 2018-04-04 | 2021-03-16 | Staton Techiya, Llc | Method to acquire preferred dynamic range function for speech enhancement |
CN109545192B (zh) * | 2018-12-18 | 2022-03-08 | 百度在线网络技术(北京)有限公司 | 用于生成模型的方法和装置 |
US20220180884A1 (en) * | 2019-05-07 | 2022-06-09 | Voiceage Corporation | Methods and devices for detecting an attack in a sound signal to be coded and for coding the detected attack |
CN110310668A (zh) * | 2019-05-21 | 2019-10-08 | 深圳壹账通智能科技有限公司 | 静音检测方法、***、设备及计算机可读存储介质 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US574906A (en) * | 1897-01-12 | Chain | ||
US4281218A (en) * | 1979-10-26 | 1981-07-28 | Bell Telephone Laboratories, Incorporated | Speech-nonspeech detector-classifier |
JPS58143394A (ja) * | 1982-02-19 | 1983-08-25 | 株式会社日立製作所 | 音声区間の検出・分類方式 |
CA2040025A1 (en) | 1990-04-09 | 1991-10-10 | Hideki Satoh | Speech detection apparatus with influence of input level and noise reduced |
US5680508A (en) * | 1991-05-03 | 1997-10-21 | Itt Corporation | Enhancement of speech coding in background noise for low-rate speech coder |
ATE294441T1 (de) * | 1991-06-11 | 2005-05-15 | Qualcomm Inc | Vocoder mit veränderlicher bitrate |
FR2684226B1 (fr) * | 1991-11-22 | 1993-12-24 | Thomson Csf | Procede et dispositif de decision de voisement pour vocodeur a tres faible debit. |
JP3277398B2 (ja) | 1992-04-15 | 2002-04-22 | ソニー株式会社 | 有声音判別方法 |
US5734789A (en) * | 1992-06-01 | 1998-03-31 | Hughes Electronics | Voiced, unvoiced or noise modes in a CELP vocoder |
IN184794B (ja) | 1993-09-14 | 2000-09-30 | British Telecomm | |
US5784532A (en) | 1994-02-16 | 1998-07-21 | Qualcomm Incorporated | Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system |
TW271524B (ja) * | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
WO1996034382A1 (en) | 1995-04-28 | 1996-10-31 | Northern Telecom Limited | Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals |
JPH09152894A (ja) | 1995-11-30 | 1997-06-10 | Denso Corp | 有音無音判別器 |
EP0867856B1 (fr) * | 1997-03-25 | 2005-10-26 | Koninklijke Philips Electronics N.V. | "Méthode et dispositif de detection d'activité vocale" |
JP3273599B2 (ja) * | 1998-06-19 | 2002-04-08 | 沖電気工業株式会社 | 音声符号化レート選択器と音声符号化装置 |
JP2000010577A (ja) | 1998-06-19 | 2000-01-14 | Sony Corp | 有声音/無声音判定装置 |
US6640208B1 (en) * | 2000-09-12 | 2003-10-28 | Motorola, Inc. | Voiced/unvoiced speech classifier |
-
2000
- 2000-12-08 US US09/733,740 patent/US7472059B2/en not_active Expired - Lifetime
-
2001
- 2001-12-04 JP JP2002548711A patent/JP4550360B2/ja not_active Expired - Lifetime
- 2001-12-04 CN CNB018224938A patent/CN100350453C/zh not_active Expired - Lifetime
- 2001-12-04 BR BRPI0116002-8A patent/BR0116002A/pt active IP Right Grant
- 2001-12-04 DE DE60123651T patent/DE60123651T2/de not_active Expired - Lifetime
- 2001-12-04 KR KR1020037007641A patent/KR100895589B1/ko active IP Right Grant
- 2001-12-04 CN CN200710152618XA patent/CN101131817B/zh not_active Expired - Lifetime
- 2001-12-04 AT AT01984988T patent/ATE341808T1/de not_active IP Right Cessation
- 2001-12-04 BR BRPI0116002-8A patent/BRPI0116002B1/pt unknown
- 2001-12-04 WO PCT/US2001/046971 patent/WO2002047068A2/en active IP Right Grant
- 2001-12-04 ES ES01984988T patent/ES2276845T3/es not_active Expired - Lifetime
- 2001-12-04 EP EP01984988A patent/EP1340223B1/en not_active Expired - Lifetime
- 2001-12-04 AU AU2002233983A patent/AU2002233983A1/en not_active Abandoned
- 2001-12-04 KR KR1020097001337A patent/KR100908219B1/ko active IP Right Grant
- 2001-12-07 TW TW090130379A patent/TW535141B/zh not_active IP Right Cessation
-
2004
- 2004-12-30 HK HK04110328A patent/HK1067444A1/xx not_active IP Right Cessation
-
2010
- 2010-03-26 JP JP2010072646A patent/JP5425682B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE60123651D1 (de) | 2006-11-16 |
CN101131817B (zh) | 2013-11-06 |
KR20030061839A (ko) | 2003-07-22 |
JP2004515809A (ja) | 2004-05-27 |
KR20090026805A (ko) | 2009-03-13 |
US20020111798A1 (en) | 2002-08-15 |
BR0116002A (pt) | 2006-05-09 |
US7472059B2 (en) | 2008-12-30 |
HK1067444A1 (en) | 2005-04-08 |
WO2002047068A2 (en) | 2002-06-13 |
ES2276845T3 (es) | 2007-07-01 |
KR100895589B1 (ko) | 2009-05-06 |
EP1340223B1 (en) | 2006-10-04 |
KR100908219B1 (ko) | 2009-07-20 |
CN100350453C (zh) | 2007-11-21 |
ATE341808T1 (de) | 2006-10-15 |
AU2002233983A1 (en) | 2002-06-18 |
CN1543639A (zh) | 2004-11-03 |
DE60123651T2 (de) | 2007-10-04 |
JP5425682B2 (ja) | 2014-02-26 |
WO2002047068A3 (en) | 2002-08-22 |
BRPI0116002B1 (pt) | 2018-04-03 |
CN101131817A (zh) | 2008-02-27 |
TW535141B (en) | 2003-06-01 |
EP1340223A2 (en) | 2003-09-03 |
JP2010176145A (ja) | 2010-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4550360B2 (ja) | ロバストな音声分類のための方法および装置 | |
US6584438B1 (en) | Frame erasure compensation method in a variable rate speech coder | |
JP5543405B2 (ja) | フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ | |
KR100711280B1 (ko) | 소스 제어되는 가변 비트율 광대역 음성 부호화 방법 및장치 | |
US8990074B2 (en) | Noise-robust speech coding mode classification | |
JP4907826B2 (ja) | 閉ループのマルチモードの混合領域の線形予測音声コーダ | |
US6640209B1 (en) | Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder | |
JP4270866B2 (ja) | 非音声のスピーチの高性能の低ビット速度コード化方法および装置 | |
US7085712B2 (en) | Method and apparatus for subsampling phase spectrum information | |
JP2002544551A (ja) | 遷移音声フレームのマルチパルス補間的符号化 | |
JP4567289B2 (ja) | 準周期信号の位相を追跡するための方法および装置 | |
JP2011090311A (ja) | 閉ループのマルチモードの混合領域の線形予測音声コーダ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070731 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071024 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20071120 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080319 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20080513 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20080711 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20090630 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20090706 |
|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20100126 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100127 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100201 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100301 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100305 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100326 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100708 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4550360 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130716 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |