JP2004511003A - 音声コーディングにおける雑音のロバストな分類のための方法 - Google Patents
音声コーディングにおける雑音のロバストな分類のための方法 Download PDFInfo
- Publication number
- JP2004511003A JP2004511003A JP2002521281A JP2002521281A JP2004511003A JP 2004511003 A JP2004511003 A JP 2004511003A JP 2002521281 A JP2002521281 A JP 2002521281A JP 2002521281 A JP2002521281 A JP 2002521281A JP 2004511003 A JP2004511003 A JP 2004511003A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- parameters
- parameter
- speech
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000000694 effects Effects 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims description 23
- 230000005236 sound signal Effects 0.000 claims description 15
- 238000004891 communication Methods 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 5
- 230000002411 adverse Effects 0.000 abstract 1
- 238000004422 calculation algorithm Methods 0.000 description 18
- 230000003595 spectral effect Effects 0.000 description 10
- 238000009795 derivation Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 230000001413 cellular effect Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02168—Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Mobile Radio Communication Systems (AREA)
- Time-Division Multiplex Systems (AREA)
Abstract
Description
【発明の分野】
この発明は、一般に、改良された音声分類のための方法に関し、より特定的に、音声コーディングにおけるロバストな音声分類のための方法に関する。
【0002】
【発明の背景】
音声通信に関して、暗騒音(background noise)は、通行中の自動車運転者、頭上の航空機、レストラン/カフェのタイプの雑音等のバブル雑音、音楽、および多くの他の可聴雑音を含み得る。セルラー電話の技術により、無線信号が送受信され得る任意の場所における通信が容易になった。しかしながら、いわゆる「セルラー時代」の欠点とは、電話での会話が、もはや個人の専用ではないかもしれず、または通信が実際に可能な領域で行なわれないかもしれないということである。たとえば、セルラー電話が鳴ってユーザがそれに応答する場合、ユーザが静かな公園にいても、騒音の大きなジャックハンマーの付近にいても、音声通信が行なわれる。したがって、暗騒音の影響は、セルラー電話のユーザおよびプロバイダにとって主要な問題である。
【0003】
分類は、音声処理における重要なツールである。典型的に、音声信号は多数の異なるクラスに分類されるが、それは特に、その信号の知覚的に重要な特徴をエンコーディング中に強調するためである。音声が明瞭であり、すなわち、暗騒音の影響を受けない場合、ロバストな分類(すなわち、音声フレームを誤って分類する可能性の低いこと)がより容易に実現される。しかしながら、暗騒音のレベルが上昇するにつれ、音声を効率的にかつ正確に分類することが難しくなる。
【0004】
電気通信産業において、音声は、ITU(国際電気通信連合)標準、または無線GSM(移動体通信用グローバルシステム)等の他の標準によってデジタル化され、圧縮される。圧縮量およびアプリケーションの必要性に依存する多くの標準がある。信号を送信前に高度に圧縮すると有利である。なぜなら、圧縮が高度になるにつれ、ビットレートが下がるからである。このため、同量の帯域幅でより多くの情報を転送することができ、それにより、帯域幅、電力、およびメモリを節約することができる。しかしながら、ビットレートが下がるにつれて、音声の忠実な再生がより一層難しくなる。たとえば、電話のアプリケーション(約3.3kHzの周波数帯域幅を有する音声信号)において、デジタル音声信号は、典型的に、16ビットリニアまたは128kbits/sである。ITU−T標準のG.711は、64kbits/sまたはリニアPCM(パルス符号変調)デジタル音声信号の半分で動作する。これらの標準は、帯域幅を増大させる要望に応じて、ビットレートを下げ続けている(たとえば、G.726は32kbits/sであり、G.728は16kbits/sであり、G.729は8kbits/sである)。ビットレートをより低く、4kbits/sまで下げる標準が、現在開発中である。
【0005】
典型的に、音声はパラメータの組に基づいて分類され、それらのパラメータに対してしきい値レベルが設定されて適切なクラスを判定する。暗騒音が環境中に存在する(たとえば、さらなる音声と雑音とが同時に存在する)場合、分類用に導出されたパラメータが、雑音のために、典型的にオーバーレイするか、加わる。現在の解決法には、所与の環境の暗騒音のレベルを推定し、そのレベルに依存してしきい値を変化させることが含まれる。これらの技術の問題の1つとは、しきい値を制御することにより、分類器に別のディメンションを加えることである。これにより、しきい値を調節する複雑さが増し、さらに、すべての雑音レベルに最適な設定を見つけることは、一般的に実用的ではない。
【0006】
たとえば、一般的に導出されるパラメータは、音声がどれほど周期的であるのかに関するピッチの相関性である。母音「a」等の極めて有声音化した音声でも暗騒音が存在すると、その周期性は、雑音のランダム特性によって一段と減少することが明らかである。
【0007】
低減された音声信号に基づき、パラメータを推定するという複雑なアルゴリズムが当該技術において公知である。このようなアルゴリズムの1つでは、たとえば、完全な雑音圧縮アルゴリズムが雑音を含んだ信号に対して実行される。次に、低減された音声信号に対してパラメータが推定される。しかしながら、これらのアルゴリズムは極めて複雑であり、デジタル信号プロセッサ(DSP)から電流およびメモリを消費する。
【0008】
したがって、低ビットレートで有用であって、より複雑でない、音声分類のための方法が必要とされる。特に、パラメータが暗騒音に影響されない、音声分類のための改良された方法が必要とされる。
【0009】
【発明の概要】
この発明は、上で概略を述べた問題を克服し、改良された音声通信のための方法を提供する。特に、この発明は、暗騒音が存在する場合において、改良された音声分類のための、より複雑でない方法を提供する。より特定的に、この発明は、パラメータに対する暗騒音の影響が減じられる、音声コーディングにおける改良された音声分類のためのロバストな方法を提供する。
【0010】
この発明の一局面によると、暗騒音のレベルから独立した同質の組のパラメータが、明瞭な音声のパラメータを推定することによって得られる。
【0011】
この発明のこれらのおよび他の特徴、ならびに局面および利点は、以下の説明と、前掲の請求項と、添付の図面とを参照することにより、一層良く理解されるであろう。
【0012】
【好ましい実施例の詳細な説明】
この発明は、暗騒音が存在する場合の音声分類のための改良された方法に関する。音声通信のための方法、特に、ここに開示される分類のための方法は、セルラー電話の通信に特に好適であるが、この発明はそれに限定されない。たとえば、この発明の分類のための方法は、PSTN(公共交換電話ネットワーク)、無線、IP(インターネットプロトコル)を介した音声等のさまざまな音声通信の情況にも好適であり得る。
【0013】
先行技術の方法とは異なり、この発明は、入力信号の知覚的に重要な特徴を示して、波形のマッチングではなく知覚的なマッチングを行なう方法を開示する。この発明が、より大きな音声コーディングアルゴリズムの一部であり得る、音声分類のための方法を示すことを理解されたい。音声コーディング用のアルゴリズムは、この業界において広く公知である。この発明の実施前および実施後の両方において、さまざまな処理のステップを行なってよいこと(たとえば、実際の音声エンコーディング、汎用フレームに基づいた処理、モード依存処理、およびデコーディングの前に、音声信号を予め処理してよいこと)を当業者が認めるであろうことを認識されたい。
【0014】
導入として、図1は、先行技術で公知の音声処理の典型的なステージをブロック図の形式で概して示す。一般に、音声システム100は、エンコーダ102、ビットストリームの送信または記憶104、およびデコーダ106を含む。エンコーダ102は、特にビットレートが極めて低い場合に、このシステムで重要な役割を果たす。音声と非音声とを区別し、パラメータを導出し、しきい値を設定し、音声フレームを分類する等の送信前の処理が、エンコーダ102で行なわれる。典型的に、高品質の音声通信に関しては、エンコーダが(通常はアルゴリズムを介して)信号の種類を考慮し、その種類に基づいて、その信号を相応に処理することが重要である。この発明のエンコーダに特有の関数を以下に詳細に論じるが、一般に、エンコーダは、音声フレームを任意の数のクラスに分類する。クラスに含まれる情報は、その音声のさらなる処理を助ける。
【0015】
エンコーダは信号を圧縮し、その結果生じたビットストリームが104の受信端に送信される。送信(無線またはワイヤーライン)とは、送信エンコーダ102から受信デコーダ106にビットストリームを運ぶことである。代替的に、ビットストリームは、デコーディングの前に、応答機または音声化された電子メール等の或るデバイスにおいて、リプロダクションまたはプレイバックが遅延されることに備え、一時的に記憶されてよい。
【0016】
元の音声信号のサンプルを取出すために、ビットストリームがデコーダ106でデコードされる。典型的に、元の信号と同一の音声信号の取出しを実現することはできないが、高度な特徴(この発明によって提供される特徴等)により、それに近いサンプルを得ることができる。ある程度まで、デコーダ106は、エンコーダ102の逆と考えることができる。一般に、エンコーダ102によって実施される関数の多くはデコーダ106においても実施され得るが、逆である。
【0017】
図示されていないが、音声システム100がリアルタイムで音声信号を受取るためのマイクロフォンをさらに含み得ることを理解されたい。マイクロフォンは、音声信号をA/D(アナログ−デジタル)コンバータに送り、そこで音声はデジタル形式に変換され、次に、エンコーダ102に送られる。加えて、デコーダ106は、デジタル化された信号をD/A(デジタル−アナログ)コンバータに送り、そこで音声は再びアナログ形式に変換されて、スピーカに送られる。
【0018】
先行技術と同じく、この発明は、CELP(符号励振線形予測)モデルに基づいたアルゴリズムを含む、エンコーダまたは同様のデバイスを含む。しかしながら、低ビットレート(4kbits/s等)でトール品質を達成するために、アルゴリズムは公知のCELPアルゴリズムの厳密な波形のマッチング基準から幾分離れて、入力信号の知覚的に重要な特徴を捉えようとする。この発明は、eX−CELP(拡張CELP)アルゴリズムの一部分にすぎないかもしれないが、このアルゴリズムの関数の全体を広く紹介すると役立つであろう。
【0019】
入力信号は、たとえば、ノイズ様コンテンツの程度、スパイク様コンテンツの程度、音声のコンテンツの程度、非音声のコンテンツの程度、振幅スペクトルの進展変化、エネルギ等高線の進展変化、周期性の進展変化等の或る特徴毎に解析される。この情報は、符号化/量子化の処理中に重み付けを制御するよう用いられる。この方法の一般原理は、波形のマッチングよりも知覚的なマッチングを行なうことによって、知覚的に重要な特徴を正確に表わすものとして特徴付けることができる。これは、部分的に、低ビットレートにおける波形のマッチングが、入力信号の全情報を忠実に捉えるほど十分に正確ではないという仮定に基づく。この発明の一部を含むアルゴリズムは、Cコード、またはこの業界で公知のアセンブリ等の任意の他の好適なコンピュータ言語またはデバイス言語で実現することができる。便宜上、この発明をeX−CELPアルゴリズムに関して説明しているが、ここに開示される、改良された音声分類のための方法が、アルゴリズムの一部にすぎず、同様の公知のアルゴリズムまたは今後発見されるべきアルゴリズムで用いられ得ることを認識されたい。
【0020】
一実施例では、入力信号の特徴に関する情報を提供するために、エンコーダ内に音声アクティビティ検出(VAD)が埋込まれる。VAD情報を用いて、信号対雑音比(SNR)の推定、ピッチ推定、何らかの分類、スペクトルの平滑化、エネルギの平滑化、および利得の正規化を含む、エンコーダのいくつかの局面を制御する。一般に、VADは音声入力と非音声入力とを区別する。非音声には、暗騒音、音楽、無音等が含まれ得る。この情報に基づき、パラメータのいくつかを推定することができる。
【0021】
次に、図2を参照すると、エンコーダ202は、この発明の一実施例に従った分類器204をブロック図の形式で示す。分類器204は、パラメータ導出モジュール206および決定ロジック208を好適な態様で含む。分類を用いて、知覚的に重要な特徴をエンコーディング中に強調することができる。たとえば、分類を用いて、信号フレームに異なる重み付けを適用することができる。分類は、必ずしも帯域幅に影響を及ぼさないが、デコーダ(受信端)において再構築される信号の品質を改良するための情報を提供する。しかしながら、或る実施例においては、単にエンコーディング処理でなく、クラス情報に従ってビットレートも変更することにより、帯域幅(ビットレート)に影響を及ぼす。フレームが暗騒音である場合、そのフレームは相応に分類されてよく、その信号のランダムな特徴を維持することが望ましいかもしれない。しかしながら、フレームが音声である場合、その信号の周期性を保つことが重要であるかもしれない。音声フレームを分類することにより、エンコーダの残りの部分に対して、その信号の重要な特徴に対して置かれるべき強調(すなわち「重み付け」)を可能にする情報をもたらす。
【0022】
分類は、導出されたパラメータの組に基づく。この実施例において、分類器204は、パラメータ導出モジュール206を含む。パラメータの組が特定の音声フレームに対して導出されると、これらのパラメータは、決定ロジック208により、単独でまたは他のパラメータと組合せて測定される。決定ロジック208の詳細を以下に論じるが、一般に、決定ロジック208は、パラメータをしきい値の組と比較する。
【0023】
一例として、セルラー電話のユーザは、特に雑音の多い環境で通信し得る。暗騒音のレベルが上昇するにつれ、導出されたパラメータが変化し得る。この発明は、パラメータのレベルで暗騒音による影響を除去し、それにより、暗騒音のレベルに対して不変であるパラメータの組を生成する方法を提案する。すなわち、この発明の一実施例は、暗騒音のレベルによって変動するパラメータを有する代わりに、同質のパラメータの組を導出することを含む。このことは、異なる種類の音声、たとえば、暗騒音が存在する場合に、音声、非音声、およびオンセットを区別する際に特に重要である。このことを達成するために、雑音を含んだ信号に対するパラメータを依然として推定するものの、暗騒音の情報およびそれらのパラメータに基づき、雑音の影響による成分を除去する。明瞭な信号(雑音のない)のパラメータの推定値が得られる。
【0024】
引続き図2を参照すると、デジタル音声信号が処理のためにエンコーダ202で受取られる。分類器204がパラメータを再び導出する代わりに、エンコーダ210内の他のモジュールが、いくつかのパラメータを好適な態様で導出し得る場合があってよい。特に、予め処理された音声信号(たとえば、これは、無音エンハンスメント、ハイパスフィルタリング、および暗騒音の減衰を含み得る)、ピッチラグおよびフレームの相関性、ならびにVAD情報を、分類器204に対する入力パラメータとして用いてよい。代替的に、デジタル化された音声信号またはその信号と他のモジュールパラメータとの両方の組合せが、分類器204に入力される。これらの入力パラメータおよび/または音声信号に基づき、パラメータ導出モジュール206は、フレームの分類に用いられるであろうパラメータの組を導出する。
【0025】
一実施例において、パラメータ導出モジュール206は、基本的なパラメータ導出モジュール212、雑音成分推定モジュール214、雑音成分除去モジュール216、および任意のパラメータ導出モジュール218を含む。この発明の一局面において、基本的なパラメータ導出モジュール212は、分類の基礎をなし得る3つのパラメータ、すなわち、スペクトルティルト(spectral tilt)、絶対最大(absolute maximum)、およびピッチの相関性を導出する。しかしながら、パラメータの重要な処理および解析が最終決定の前に行なわれ得ることを認識されたい。これらの最初のいくつかのパラメータは、音声および雑音の両方の成分を有する信号の推定値である。パラメータ導出モジュール206の以下の説明には好ましいパラメータの一例が含まれるが、それは限定として解釈されるべきではない。添付の等式を伴ったパラメータの例は、例示を意図するものであり、必ずしも利用可能な唯一のパラメータおよび/または数学的計算としては意図されない。実際に、当業者は以下のパラメータおよび/または等式を熟知しているであろうし、この発明の範囲内にあることが意図される、同様のまたは等価の代用物に気付くであろう。
【0026】
スペクトルティルトは、第1の反射係数に、1フレームにつき4を掛けた推定値であり、以下により求められる:
【0027】
【数1】
【0028】
式中、L=80は、反射係数が好適な態様で計算され得るウィンドウであり、sk(n)は、以下により求められるk番目のセグメントである:
【0029】
【数2】
【0030】
式中、wh(n)は、この業界で公知の80サンプルハミング(Hamming)ウィンドウであり、s(0)、s(1)、…、s(159)は、予め処理された音声信号の現時点のフレームである。
【0031】
絶対最大は、1フレームにつき、絶対信号最大の8つの推定値をたどることであり、以下により求められる:
【0032】
【数3】
【0033】
式中、n s(k)およびns(k)は、フレームの時間k160/8サンプルにおいてk番目の最大を探索するための、それぞれ開始ポイントおよび終了ポイントである。一般に、セグメント長はピッチ周期の1.5倍であり、セグメントは部分的に重複する。このようにして、振幅包絡線の滑らかな等高線が得られる。
【0034】
ピッチラグの正規化標準偏差はピッチ周期を示す。たとえば、音声においてピッチ周期は安定しており、非音声に対しては不安定である:
【0035】
【数4】
【0036】
式中、Lp(m)は入力ピッチラグであり、μLp(m)はこれまでの3つのフレームに関するピッチラグの平均であり、以下により求められる:
【0037】
【数5】
【0038】
一実施例において、雑音成分推定モジュール214は、VADによって制御される。たとえば、VADが、フレームが非音声(すなわち、暗騒音)であることを示す場合、雑音成分推定モジュール214によって規定されたパラメータは更新される。しかしながら、VADが、フレームが音声であることを示す場合、モジュール214は更新されない。以下の等式の例によって規定されるパラメータは、好適な態様で1フレームにつき8回推定され/サンプリングされて、パラメータ空間を精密に時間分解する能力をもたらす。
【0039】
雑音エネルギの移動平均は、雑音のエネルギの推定値であり、以下により求められる:
【0040】
【数6】
【0041】
式中、EN,p(k)は、フレームの時間kθ160/8サンプルにおけるピッチ周期の、正規化されたエネルギである。エネルギの計算されるセグメントが、ピッチ周期が典型的に20サンプル(160サンプル/8)を超えるために、部分的に重複し得ることに注目されたい。
【0042】
雑音のスペクトルティルトの移動平均は、以下により求められる:
【0043】
【数7】
【0044】
雑音の絶対最大の移動平均は、以下により求められる:
【0045】
【数8】
【0046】
雑音のピッチの相関性の移動平均は、以下により求められる:
【0047】
【数9】
【0048】
式中、Rpは、フレームの入力ピッチの相関性である。適応定数∀は、好ましくは適応的であるが、典型的な値は、∀=0.99である。
【0049】
暗騒音対信号比は、以下により計算され得る:
【0050】
【数10】
【0051】
パラメトリック雑音減衰は、許容可能なレベル、たとえば約30dBまで、好適な態様で制限される。すなわち、
【0052】
【数11】
【0053】
雑音除去モジュール216は、以下の等式の例に従い、3つの基本的なパラメータに重み付けを適用する。重み付けは、暗騒音からの影響を減算することによってパラメータの暗騒音成分を除去する。これにより、どのような暗騒音からも独立した、より均一な、暗騒音が存在する場合も分類のロバスト性を改善する、雑音の影響を受けないパラメータの組(重み付けされたパラメータ)をもたらす。
【0054】
重み付けされたスペクトルティルトは、以下により推定される:
【0055】
【数12】
【0056】
重み付けされた絶対最大は以下により推定される:
【0057】
【数13】
【0058】
重み付けされたピッチの相関性は以下により推定される:
【0059】
【数14】
【0060】
次に、導出されたパラメータは決定ロジック208で比較され得る。任意に、特定のアプリケーションに依存して、以下のパラメータのうちの1つ以上を導出することが望ましいこともある。任意のモジュール218は、フレームの分類をさらに助けるよう用いられ得る任意の数のさらなるパラメータを含む。ここでもまた、以下のパラメータおよび/または等式は、単に例として意図され、限定としては意図されない。
【0061】
一実施例では、1つ以上の前のパラメータに従って、フレームの進展変化を推定することが望ましいことがある。この進展変化は、或る時間間隔(たとえば8回/フレーム)に関する推定値であり、リニア近似である。
【0062】
一次近似の傾きとしての、重み付けされたティルトの進展変化は、以下により求められる:
【0063】
【数15】
【0064】
一次近似の傾きとしての、重み付けされた最大の進展変化は、以下により求められる:
【0065】
【数16】
【0066】
さらに別の実施例では、等式6〜16のパラメータがフレームの例示的な8つのサンプルポイントに対して更新されると、以下のフレームに基づいたパラメータが計算され得る:
重み付けされたピッチの相関性の最大(フレームの最大)は、以下により求められる:
【0067】
【数17】
【0068】
重み付けされたピッチの相関性の平均は、以下により求められる:
【0069】
【数18】
【0070】
重み付けされたピッチの相関性の平均の移動平均は、以下により求められる:
【0071】
【数19】
【0072】
式中、mはフレーム数であり、α2=0.75は適応定数の一例である。
重み付けされたスペクトルティルトの最小は、以下により求められる:
【0073】
【数20】
【0074】
重み付けされたスペクトルティルトの最小の移動平均は、以下により求められる:
【0075】
【数21】
【0076】
重み付けされたスペクトルティルトの平均は、以下により求められる:
【0077】
【数22】
【0078】
重み付けされたティルトの最小の傾き(フレーム内において負のスペクトルティルトの方向における最大進展変化を示す)は、以下により求められる:
【0079】
【数23】
【0080】
重み付けされたスペクトルティルトの累積された傾き(スペクトルの進展変化の全体の整合性を示す)は、以下により求められる:
【0081】
【数24】
【0082】
重み付けされた最大の、最大の傾きは、以下により求められる:
【0083】
【数25】
【0084】
重み付けされた最大の、累積された傾きは、以下により求められる:
【0085】
【数26】
【0086】
一般に、等式23、25、および26によって与えられるパラメータは、或るフレームがオンセット(すなわち、音声が開始するポイント)を含む可能性があるかどうかをマークするよう用いられ得る。等式4および等式18〜22によって与えられるパラメータは、或るフレームが音声によって支配されている可能性があるかどうかをマークするよう用いられ得る。
【0087】
次に、図3を参照すると、この発明の一実施例に従い、ブロック図の形式で決定ロジック208が示される。決定ロジック208は、すべてのパラメータをしきい値の組と比較するよう設計されたモジュールである。一般に、(1、2、…、k)として示される、任意の数の所望されたパラメータは、決定ロジック208で比較されてよい。典型的に、各パラメータまたはパラメータの群は、フレームの特定の特徴を識別する。たとえば特徴♯1 302は、音声対非音声の検出であり得る。一実施例において、VADは例としての特徴♯1を示し得る。VADが、フレームが音声であると判定すると、その音声は、典型的に、有声音(母音)対無声音(「s」等)としてさらに識別される。特徴♯2 304は、たとえば有声音対無声音の検出であり得る。任意の数の特徴が含まれてよく、導出されたパラメータのうちの1つ以上を含んでよい。たとえば、一般に識別された特徴♯M 306はオンセットの検出であってよく、等式23、25、および26から導出されたパラメータを含んでよい。各特徴は、その特徴が識別されたか、識別されていないかを示すためのフラグ等を設定することができる。
【0088】
どのクラスにフレームが属するかというような最終決定は、好ましくは、最終決定モジュール308で行なわれる。フラグのすべてが受取られ、プライオリティ、たとえば、モジュール308内の最高位のプライオリティとしてのVADと比較される。この発明において、パラメータは音声自体から導出され、暗騒音の影響を受けていない。したがって、しきい値は、典型的に、暗騒音の変化によって影響を受けない。一般に、一連の「if−then」条件文が、各フラグまたはフラグの群を比較し得る。たとえば、一実施例において、各特徴(フラグ)が1つのパラメータで表わされる場合、「if」条件文には、「パラメータ1がしきい値よりも小さい場合は、クラスXに入れよ。」と書いてあるかもしれない。別の実施例において、条件文には、「パラメータ1がしきい値よりも小さく、パラメータ2がしきい値よりも小さく、以下同様、の場合、クラスXに入れよ。」と書いてあるかもしれない。さらに別の実施例において、条件文には、「パラメータ1にパラメータ2を掛けたものがしきい値よりも小さい場合、クラスXに入れよ。」と書いてあるかもしれない。当業者は、任意の数のパラメータが単独でまたは組合されて、適切な「if−then」条件文に含まれ得ることを容易に認識することができる。当然ながら、パラメータを比較するための、同様に有効な方法もあり得、それらのすべてがこの発明の範囲内に含まれるよう意図される。
【0089】
加えて、最終決定モジュール308は、オーバーハング(overhang)を含み得る。この明細書で用いられるオーバーハングは、この業界の一般的な意味を有する。一般に、オーバーハングとは、信号のクラスの履歴が考慮されること、すなわち、或る信号のクラスの後に、その同じ信号のクラスが幾分か優待されることを意味し、たとえば有声音から無声音への緩やかな遷移の際に、有声音の程度が低いセグメントを尚早に無声音と分類してしまうことのないように、有声音のクラスが幾分優待されることを意味する。
【0090】
説明のために、いくつかの例示的なクラスの簡単な説明を続ける。この発明を用いて、音声を任意の数のクラスまたはクラスの組合せに分類することができ、以下の説明が、1つの可能な組のクラスを単に読者に紹介するためだけに含まれていることを認識されたい。
【0091】
例示的なeX−CELPアルゴリズムは、フレームを、そのフレームの支配的な特徴に従って6つのクラスのうちの1つに分類する。これらのクラスには以下のようにラベルが付される:
0. 無音/暗騒音
1. 雑音様無声音
2. 無声音
3. オンセット
4. 破裂音、未使用
5. 静止していない有声音
6. 静止した有声音
示された実施例において、クラス4は用いられておらず、したがって、クラス数は6である。エンコーダにおいて利用可能な情報を効果的に用いるために、分類モジュールを、最初にクラス5とクラス6とを区別しないよう構成することができる。その代わりに、この区別は、さらなる情報を利用することのできる分類器の外の別のモジュール中に行なわれる。さらに、分類モジュールは、最初にクラス1を検出しなくてもよく、さらなる情報および雑音様の無声音の検出に基づいた別のモジュール中に導入されてよい。したがって、一実施例において、分類モジュールは、無音/暗騒音、無声音、オンセット、および有声音を、クラス番号0、2、3、および5をそれぞれ用いることによって区別することができる。
【0092】
次に、図4を参照すると、この発明の一実施例に従った、1つの例示的なモジュールのフローチャートが示される。例示的なフローチャートは、Cコードまたは当該技術で公知の、任意の他の好適なコンピュータ言語を用いて実現され得る。一般に、図4に示されるステップは、上述の開示と同様である。
【0093】
デジタル化された音声信号は、ビットストリームへの処理および圧縮のためにエンコーダに入力され、または、ビットストリームが再構築のためにデコーダに入力される(ステップ400)。信号が(通常はフレームごとに)、たとえばセルラー電話(無線)、インターネット(IPを介した音声)、または電話(PSTN)から発信され得る。このシステムは、低ビットレートのアプリケーション(4kbits/s)に特に好適であるが、他のビットレートにも用いることができる。
【0094】
エンコーダは、異なる関数を実行するいくつかのモジュールを含み得る。たとえばVADは、入力信号が音声であるか非音声であるかを示すことができる(ステップ405)。非音声には、典型的に、暗騒音、音楽、および無音が含まれる。暗騒音等の非音声は、静止しており、静止を続ける。反対に、音声はピッチを有するため、ピッチの相関性は音と音との間で変動する。たとえば、「s」はピッチの相関性が低く、「a」はピッチの相関性が高い。図4はVADを示しているが、特定の実施例ではVADが必要とされないことを認識されたい。雑音成分を除去する前にいくつかのパラメータを導出することができ、それらのパラメータに基づいて、フレームが暗騒音であるか音声であるかを推定することができる。基本的なパラメータが導出されているが(ステップ415)、エンコーディング用に用いられるパラメータのいくつかが、エンコーダ内の異なるモジュールで計算されてよいことを理解されたい。冗長をなくすために、これらのパラメータは、ステップ415(または後のステップ425および430)で再計算されないが、これらのパラメータは、さらなるパラメータを導出するために用いられてよく、または、単に分類に渡されてよい。任意の数の基本的なパラメータをこのステップ中に導出することができるが、一例として、上に開示した等式1〜5が好適である。
【0095】
VAD(またはその等価物)からの情報は、フレームが音声であるか非音声であるかを示す。フレームが非音声である場合、雑音パラメータ(たとえば、雑音パラメータの平均)は更新され得る(ステップ410)。ステップ410のパラメータに対する等式の変形物を多く導出してよいが、一例として、上に開示した等式6〜11が好適である。この発明は、明瞭な音声のパラメータを推定する、分類するための方法を開示する。これは特に有利である。なぜなら、常に変化する暗騒音が最適しきい値に著しい影響を及ぼさないからである。雑音の影響を受けないパラメータの組は、たとえば、パラメータの雑音成分を推定して除去することによって得られる(ステップ425)。ここでも一例として、上に開示した等式12〜14が好適である。前のステップに基づいて、追加のパラメータが導出されてもよく、導出されなくてもよい(ステップ430)。追加のパラメータの多くの変形物が考慮されるよう含まれてよく、一例として、上に開示した等式15〜26が好適である。
【0096】
所望のパラメータが導出されると、それらのパラメータは予め定められたしきい値の組と比較される(ステップ435)。これらのパラメータは、個別にまたは他のパラメータと組合せて比較され得る。パラメータを比較するための多くの方法が考えられるが、上に開示した一連の「if−then」条件文が好適である。
【0097】
オーバーハングを適用することが望ましいことがある(ステップ440)。これにより、信号の履歴の知識に基づいて、分類器は特定のクラスを優待することができる。それにより、音声信号がどのようにして、僅かにより長い期間に進展変化するかについての知識を利用することが可能になる。ここで、フレームは、アプリケーションに依存して、多くの異なるクラスのうちの1つに分類される準備が整う(ステップ445)。一例として、上に開示したクラス(0〜6)が好適であるが、この発明のアプリケーションを限定することを意図しない。
【0098】
分類されたフレームからの情報を用いて、音声をさらに処理することができる(ステップ450)。一実施例では、重み付けをフレームに適用するために分類を用い(ステップ450等)、別の実施例では、ビットレートを判定するために分類を用いる(図示せず)。たとえば、音声の周期性を維持すること(ステップ460)がしばしば望ましいが、雑音および非音声のランダム性を維持すること(ステップ465)も望ましい。クラス情報の他の多くの用途は、当業者に明らかになるであろう。すべての処理がエンコーダ内で完了すると、エンコーダの関数は終了し(ステップ470)、信号フレームを表わすビットが再構築のためにデコーダに送信され得る。代替的に、上述の分類処理は、デコードされたパラメータおよび/または再構築された信号に基づいて、デコーダで行なわれてよい。
【0099】
この発明は、この明細書において関数のブロック構成要素およびさまざまな処理のステップに関して説明される。このような関数のブロックが、特定の関数を実行するよう構成された任意の数のハードウェア構成要素によって実現され得ることを認識されたい。たとえば、この発明は、1つ以上のマイクロプロセッサまたは他の制御デバイスの制御下でさまざまな関数を実行し得る、たとえば、メモリ素子、デジタル信号処理要素、ロジック素子、ルックアップテーブル等のさまざまな集積回路の構成要素を用いることができる。加えて、当業者は、この発明が任意の数のデータ伝送プロトコルとともに実施されてよいこと、およびこの明細書で説明されたシステムが、この発明の例示的な1つのアプリケーションにすぎないことを認識するであろう。
【0100】
この明細書に示されかつ説明された特定の実施例は、この発明およびその最良の態様を例示するものであり、この発明の範囲を限定するよう意図しないことを認識されたい。実際に、簡潔にするために、信号処理、データ送信、信号送信、およびネットワーク制御のための従来の技術、ならびにこのシステムの他の機能上の局面(およびこれらのシステムの、動作する個々の構成要素からなる要素)は、この明細書では詳細に説明されていない。さらに、この明細書に含まれるさまざまな図面に示される接続線は、さまざまな要素間の、例示的な機能上の関連および/または物理的な結合を示すよう意図される。多くの代替的なまたは追加の機能上の関係または物理的接続が、実際の通信システムで存在し得ることに注目されたい。
【0101】
この発明を、好ましい実施例を参照して上に説明してきた。しかしながら、この開示を読んだ当業者は、好ましい実施例に対して、この発明の範囲から逸脱することなく変更および変形を行なってよいことを認識するであろう。たとえば、この発明の精神から逸脱することなく、同様の形態を加えることができる。これらのおよび他の変更または変形は、前掲の請求項で述べられるとおり、この発明の範囲内に含まれるよう意図される。
【図面の簡単な説明】
【図1】先行技術の音声処理の典型的なステージをブロック図の形式で単純化して示した図である。
【図2】この発明に従った、1つの例示的なエンコーディングシステムの詳細なブロック図である。
【図3】図2の1つの例示的な決定ロジックの詳細なブロック図である。
【図4】この発明に従った、1つの例示的な方法のフローチャート図である。
Claims (23)
- 分類に用いられるパラメータの組を得るための方法であって、
(a) 処理ユニットで信号を受取るステップと、
(b) 前記信号に対応する少なくとも1つの基本的なパラメータを与えるステップと、
(c) 雑音成分が存在する場合、前記パラメータの雑音成分を推定するステップと、
(d) 前記雑音成分が存在する場合、前記パラメータから前記雑音成分を除去するステップとを含む、方法。 - 前記信号が音声であるか非音声であるかを判定するステップをさらに含む、請求項1に記載の方法。
- 少なくとも1つの追加のパラメータを与えるステップをさらに含む、請求項1に記載の方法。
- 前記雑音成分が存在し、前記少なくとも1つの追加のパラメータを与えるステップは、前記雑音成分に応答する、請求項3に記載の方法。
- 前記信号が非音声である場合、前記雑音パラメータを更新するステップをさらに含む、請求項2に記載の方法。
- 前記与えるステップは、前記信号に対応する少なくとも1つの基本的なパラメータを導出するステップを含む、請求項1に記載の方法。
- 前記与えるステップは、前記信号に対応する少なくとも1つの基本的なパラメータを受取るステップを含む、請求項1に記載の方法。
- 音声を分類するための方法であって、
(a) 処理ユニットで音声に関連する信号を受取るステップと、
(b) 前記信号を分類するために用いられるべき少なくとも1つのパラメータを与えるステップと、
(c) 前記パラメータの雑音成分を推定するステップと、
(d) 前記パラメータから前記雑音成分を除去するステップと、
(e) 前記パラメータを少なくとも1つのしきい値の組と比較するステップと、
(f) 前記比較するステップに応答して、前記信号を或るクラスに関連付けるステップとを含む、方法。 - 前記信号が音声であるか非音声であるかを判定するステップをさらに含む、請求項8に記載の方法。
- 前記信号が非音声である場合、雑音成分を更新するステップをさらに含む、請求項9に記載の方法。
- 少なくとも1つのパラメータが前記信号を分類するよう導出される、請求項8に記載の方法。
- 基本的なパラメータの組が導出され、少なくとも1つの雑音成分パラメータが導出される、請求項11に記載の方法。
- 前記比較するステップは、
(a) 前記パラメータのうちの少なくとも1つにより、前記信号の少なくとも1つの特徴を識別するステップと、
(b) 前記特徴が存在することを示すためのフラグを設定するステップと、
(c) 最終決定モジュールにおいて少なくとも1つのフラグを受取るステップと、
(d) 或るクラスを少なくとも1つのフラグと関連付けるステップとを含む、請求項8に記載の方法。 - 少なくとも1つのパラメータは前記信号を分類するよう受取られる、請求項8に記載の方法。
- 少なくとも1つの処理モジュールを有する音声コーディングデバイスにおいて音声信号を知覚的にマッチングするための方法であって、
(a) 前記音声コーディングデバイスにおいて前記信号を受取るステップと、
(b) 前記処理モジュールにおいて複数の信号パラメータを導出するステップと、
(c) 前記パラメータに重み付けをするステップと、
(d) 特定の信号の特徴を前記信号パラメータに関連付けるステップと、
(e) 前記特徴が識別されると前記処理モジュールにおいてフラグを設定するステップと、
(f) 前記フラグを比較するステップと、
(g) 前記比較するステップまたは前記導出するステップの1つに従い、前記信号を分類するステップとを含む、方法。 - 前記導出するステップは、基本的なパラメータの組を導出するステップと、雑音に関連するパラメータの組を導出するステップとを含む、請求項15に記載の方法。
- 前記重み付けするステップは、
(a) 前記処理モジュールにおいて前記パラメータの雑音成分を推定するステップと、
(b) 前記処理モジュールにおいて前記パラメータの前記雑音成分を除去するステップとを含む、請求項15に記載の方法。 - 前記重み付けするステップは、雑音を推定する等式の組を含む、請求項17に記載の方法。
- 信号を分類するために同質のパラメータの組がもたらされる、音声コーディングのための方法であって、前記パラメータの組は暗騒音によって影響を受けない、方法。
- 音声に関連する雑音からの影響が減じられる、音声通信のための方法であって、
(a) 音声処理デバイスにおいてデジタル音声に関連する信号を受取るステップと、
(b) 同質のパラメータの組を形成するステップと、
(c) 前記パラメータをしきい値と比較するステップと、
(d) 前記信号を分類するステップとを含む、方法。 - 前記形成するステップは、「雑音の影響を受けない」パラメータの組を形成するステップを含む、請求項20に記載の方法。
- 前記形成するステップは、
(b1) 雑音成分を推定するステップと、
(b2) 前記雑音成分を除去するステップとを含む、請求項21に記載の方法。 - 前記比較するステップは、しきい値の組を備える、請求項20に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/643,017 US6983242B1 (en) | 2000-08-21 | 2000-08-21 | Method for robust classification in speech coding |
PCT/IB2001/001490 WO2002017299A1 (en) | 2000-08-21 | 2001-08-17 | Method for noise robust classification in speech coding |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007257432A Division JP2008058983A (ja) | 2000-08-21 | 2007-10-01 | 音声コーディングにおける雑音のロバストな分類のための方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004511003A true JP2004511003A (ja) | 2004-04-08 |
Family
ID=24579015
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002521281A Pending JP2004511003A (ja) | 2000-08-21 | 2001-08-17 | 音声コーディングにおける雑音のロバストな分類のための方法 |
JP2007257432A Pending JP2008058983A (ja) | 2000-08-21 | 2007-10-01 | 音声コーディングにおける雑音のロバストな分類のための方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007257432A Pending JP2008058983A (ja) | 2000-08-21 | 2007-10-01 | 音声コーディングにおける雑音のロバストな分類のための方法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US6983242B1 (ja) |
EP (1) | EP1312075B1 (ja) |
JP (2) | JP2004511003A (ja) |
CN (2) | CN1302460C (ja) |
AT (1) | ATE319160T1 (ja) |
AU (1) | AU2001277647A1 (ja) |
DE (1) | DE60117558T2 (ja) |
WO (1) | WO2002017299A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011053557A (ja) * | 2009-09-03 | 2011-03-17 | Raytron:Kk | 悲鳴検出装置および悲鳴検出方法 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4178319B2 (ja) * | 2002-09-13 | 2008-11-12 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声処理におけるフェーズ・アライメント |
US7698132B2 (en) * | 2002-12-17 | 2010-04-13 | Qualcomm Incorporated | Sub-sampled excitation waveform codebooks |
GB0321093D0 (en) * | 2003-09-09 | 2003-10-08 | Nokia Corp | Multi-rate coding |
KR101008022B1 (ko) * | 2004-02-10 | 2011-01-14 | 삼성전자주식회사 | 유성음 및 무성음 검출방법 및 장치 |
KR100735246B1 (ko) * | 2005-09-12 | 2007-07-03 | 삼성전자주식회사 | 오디오 신호 전송 장치 및 방법 |
CN100483509C (zh) * | 2006-12-05 | 2009-04-29 | 华为技术有限公司 | 声音信号分类方法和装置 |
CN101197130B (zh) * | 2006-12-07 | 2011-05-18 | 华为技术有限公司 | 声音活动检测方法和声音活动检测器 |
ATE474312T1 (de) * | 2007-02-12 | 2010-07-15 | Dolby Lab Licensing Corp | Verbessertes verhältnis von sprachlichen zu nichtsprachlichen audio-inhalten für ältere oder hörgeschädigte zuhörer |
KR100930584B1 (ko) * | 2007-09-19 | 2009-12-09 | 한국전자통신연구원 | 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치 |
ES2371619B1 (es) * | 2009-10-08 | 2012-08-08 | Telefónica, S.A. | Procedimiento de detección de segmentos de voz. |
EP2490214A4 (en) * | 2009-10-15 | 2012-10-24 | Huawei Tech Co Ltd | METHOD, DEVICE AND SYSTEM FOR SIGNAL PROCESSING |
CN102467669B (zh) * | 2010-11-17 | 2015-11-25 | 北京北大千方科技有限公司 | 一种在激光检测中提高匹配精度的方法和设备 |
EP2702585B1 (en) | 2011-04-28 | 2014-12-31 | Telefonaktiebolaget LM Ericsson (PUBL) | Frame based audio signal classification |
US8990074B2 (en) * | 2011-05-24 | 2015-03-24 | Qualcomm Incorporated | Noise-robust speech coding mode classification |
CN102314884B (zh) * | 2011-08-16 | 2013-01-02 | 捷思锐科技(北京)有限公司 | 语音激活检测方法与装置 |
CN103177728B (zh) * | 2011-12-21 | 2015-07-29 | ***通信集团广西有限公司 | 语音信号降噪处理方法及装置 |
KR20150032390A (ko) * | 2013-09-16 | 2015-03-26 | 삼성전자주식회사 | 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법 |
US9886963B2 (en) * | 2015-04-05 | 2018-02-06 | Qualcomm Incorporated | Encoder selection |
CN113571036B (zh) * | 2021-06-18 | 2023-08-18 | 上海淇玥信息技术有限公司 | 一种低质数据的自动化合成方法、装置及电子设备 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB8911153D0 (en) * | 1989-05-16 | 1989-09-20 | Smiths Industries Plc | Speech recognition apparatus and methods |
US5459814A (en) * | 1993-03-26 | 1995-10-17 | Hughes Aircraft Company | Voice activity detector for speech signals in variable background noise |
US5491771A (en) * | 1993-03-26 | 1996-02-13 | Hughes Aircraft Company | Real-time implementation of a 8Kbps CELP coder on a DSP pair |
CA2136891A1 (en) * | 1993-12-20 | 1995-06-21 | Kalyan Ganesan | Removal of swirl artifacts from celp based speech coders |
JP2897628B2 (ja) * | 1993-12-24 | 1999-05-31 | 三菱電機株式会社 | 音声検出器 |
BR9610290A (pt) * | 1995-09-14 | 1999-03-16 | Ericsson Ge Mobile Inc | Processo para aumentar a inteligibilidade de voz em sinais de áudio aparelho para reduzir ruído em quadros recebidos de sinais de áudio digitalizados e sistema de telecomunicações |
JPH09152894A (ja) * | 1995-11-30 | 1997-06-10 | Denso Corp | 有音無音判別器 |
SE506034C2 (sv) * | 1996-02-01 | 1997-11-03 | Ericsson Telefon Ab L M | Förfarande och anordning för förbättring av parametrar representerande brusigt tal |
JPH1020891A (ja) * | 1996-07-09 | 1998-01-23 | Sony Corp | 音声符号化方法及び装置 |
JPH10124097A (ja) * | 1996-10-21 | 1998-05-15 | Olympus Optical Co Ltd | 音声記録再生装置 |
WO1999010719A1 (en) * | 1997-08-29 | 1999-03-04 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
WO1999012155A1 (en) * | 1997-09-30 | 1999-03-11 | Qualcomm Incorporated | Channel gain modification system and method for noise reduction in voice communication |
US6453289B1 (en) * | 1998-07-24 | 2002-09-17 | Hughes Electronics Corporation | Method of noise reduction for speech codecs |
US6240386B1 (en) * | 1998-08-24 | 2001-05-29 | Conexant Systems, Inc. | Speech codec employing noise classification for noise compensation |
US6636829B1 (en) * | 1999-09-22 | 2003-10-21 | Mindspeed Technologies, Inc. | Speech communication system and method for handling lost frames |
-
2000
- 2000-08-21 US US09/643,017 patent/US6983242B1/en not_active Expired - Fee Related
-
2001
- 2001-08-17 CN CNB2004100889661A patent/CN1302460C/zh not_active Expired - Fee Related
- 2001-08-17 JP JP2002521281A patent/JP2004511003A/ja active Pending
- 2001-08-17 AT AT01955487T patent/ATE319160T1/de not_active IP Right Cessation
- 2001-08-17 DE DE60117558T patent/DE60117558T2/de not_active Expired - Lifetime
- 2001-08-17 EP EP01955487A patent/EP1312075B1/en not_active Expired - Lifetime
- 2001-08-17 AU AU2001277647A patent/AU2001277647A1/en not_active Abandoned
- 2001-08-17 CN CNB018144187A patent/CN1210685C/zh not_active Expired - Fee Related
- 2001-08-17 WO PCT/IB2001/001490 patent/WO2002017299A1/en active IP Right Grant
-
2007
- 2007-10-01 JP JP2007257432A patent/JP2008058983A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011053557A (ja) * | 2009-09-03 | 2011-03-17 | Raytron:Kk | 悲鳴検出装置および悲鳴検出方法 |
Also Published As
Publication number | Publication date |
---|---|
DE60117558T2 (de) | 2006-08-10 |
EP1312075A1 (en) | 2003-05-21 |
AU2001277647A1 (en) | 2002-03-04 |
JP2008058983A (ja) | 2008-03-13 |
CN1447963A (zh) | 2003-10-08 |
WO2002017299A1 (en) | 2002-02-28 |
CN1210685C (zh) | 2005-07-13 |
EP1312075B1 (en) | 2006-03-01 |
ATE319160T1 (de) | 2006-03-15 |
CN1624766A (zh) | 2005-06-08 |
CN1302460C (zh) | 2007-02-28 |
US6983242B1 (en) | 2006-01-03 |
DE60117558D1 (de) | 2006-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008058983A (ja) | 音声コーディングにおける雑音のロバストな分類のための方法 | |
US6898566B1 (en) | Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal | |
US8600740B2 (en) | Systems, methods and apparatus for context descriptor transmission | |
JP4137634B2 (ja) | 紛失フレームを取扱うための音声通信システムおよび方法 | |
JP4550360B2 (ja) | ロバストな音声分類のための方法および装置 | |
RU2469419C2 (ru) | Способ и устройство для управления сглаживанием стационарного фонового шума | |
JP5543405B2 (ja) | フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ | |
JP2006502426A (ja) | ソース制御された可変ビットレート広帯域音声の符号化方法および装置 | |
KR20080103113A (ko) | 신호 인코딩 | |
JP5390690B2 (ja) | 音声コーデックの品質向上装置およびその方法 | |
US20020156624A1 (en) | Speech enhancement device | |
JP3331297B2 (ja) | 背景音/音声分類方法及び装置並びに音声符号化方法及び装置 | |
WO2016162375A1 (en) | Audio encoder and method for encoding an audio signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060829 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060920 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070508 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20070807 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20070814 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20070907 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20070914 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071001 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080819 |