JP5714700B2

JP5714700B2 - ヘッドマウントマイクロフォンペアを使用する音声信号の処理のためのシステム、方法、装置、及びコンピュータ可読媒体

Info

Publication number: JP5714700B2
Application number: JP2013511404A
Authority: JP
Inventors: シェブシウ、アンドレ・ガスタボ・プッチ; ビッサー、エリック; ラマクリシュナン、ディネッシュ; リウ、イアン・アーナン; リ、レン; モメヤー，ブライアン; パーク、ヒュン・ジン; オリベイラ、ルイス・ディー．
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2010-05-20
Filing date: 2011-05-20
Publication date: 2015-05-07
Anticipated expiration: 2031-05-20
Also published as: EP2572353A1; KR20150080645A; KR20130042495A; EP2572353B1; CN102893331A; CN102893331B; US20110288860A1; JP2013531419A; WO2011146903A1

Description

本開示は、音声信号の処理に関する。

以前は静かなオフィス又は家庭環境で行われていた多くの活動が、今日では車、街路、又はカフェのような音響的に変動する状況で行われている。例えば、ある人は、ボイス通信チャネルを使用して別の人と通信することを望むことがある。そのチャネルは、例えば、モバイルワイヤレスハンドセット又はヘッドセット、ウォーキートーキー、双方向無線、カーキット、又は別の通信機器によって提供され得る。従って、ユーザが他の人々に囲まれる環境で、人が集まる傾向のある場所で一般的に遭遇する種類の雑音成分を伴って、モバイル機器（例えば、スマートフォン、ハンドセット、及び／又はヘッドセット）を使用して、かなりの量のボイス通信が行われている。そのような雑音は、電話会話の遠端にいるユーザの気を散らしたり、いらいらさせたりする傾向がある。その上、多くの標準的な自動業務取引（例えば、口座残高又は株価の確認）はボイス認識ベースのデータ照会を採用しており、これらのシステムの精度は干渉雑音によって著しく妨げられ得る。

雑音の多い環境で通信が行われる適用例では、所望の音声信号を背景雑音から分離することが望ましいことがある。雑音は、所望の信号と干渉するか或いは所望の信号を劣化させる全ての信号の合成と定義され得る。背景雑音は、他の人々の背景会話など、音響環境内で発生される多数の雑音信号及び所望の信号及び／又は他の信号のいずれかから発生される反射及び残響を含み得る。所望の音声信号が背景雑音から分離されない限り、所望の音声信号を確実に効率的に利用することが困難であることがある。１つの特定の例では、雑音の多い環境で音声信号が発生され、その音声信号を環境雑音から分離するために音声処理方法が使用される。

モバイル環境中で遭遇する雑音は、競合する話し手、音楽、バブル、街頭雑音、及び／又は空港雑音など、多種多様な成分を含み得る。そのような雑音のシグナチャは、一般に非定常であり、ユーザ自身の周波数シグナチャに近いので、従来の単一マイクロフォン又は固定ビームフォーミングタイプ方法を使用して雑音を抑圧することが難しいことがある。単一マイクロフォン雑音低減技法は、一般に、定常雑音のみを抑圧し、雑音抑圧を行うと同時にしばしば所望の音声の著しい劣化をもたらす。しかしながら、複数マイクロフォンベースの高度信号処理技法は、一般に、大幅な雑音低減とともに優れたボイス品質を与えることが可能であり、雑音の多い環境においてボイス通信のためのモバイル機器の使用をサポートするために望ましいことがある。

ヘッドセットを使用するボイス通信は、ニアエンドに環境雑音があることによる影響を受けることがある。雑音は、ファーエンドに送信されている信号、及びファーエンドから受信されている信号の信号対雑音比（ＳＮＲ）を低減するので、了解度（intelligibility）が損なわれ、ネットワーク容量と端末バッテリー寿命とが低減することがある。

米国特許法第１１９条に基づく優先権の主張
本特許出願は、本出願の譲受人に譲渡され、２０１０年５月２０日に出願された「Multi-Microphone Configurations in Noise Reduction/Cancellation and Speech Enhancement Systems」と題する仮出願第６１／３４６，８４１号、及び２０１０年６月１８日に出願された「Noise Cancelling Headset with Multiple Microphone Array Configurations」と題する仮出願第６１／３５６，５３９号の優先権を主張する。

一般的構成による信号処理の方法は、第１のオーディオ信号と第２のオーディオ信号との間の関係に基づいているボイスアクティビティ検出信号を生成することと、音声信号を生成するために、第３のオーディオ信号に基づいている信号にボイスアクティビティ検出信号を適用することとを含む。本方法では、第１のオーディオ信号は、（Ａ）ユーザの頭部の側面に位置する第１のマイクロフォンによって、（Ｂ）ユーザのボイスに応答して生成された信号に基づき、第２のオーディオ信号は、ユーザのボイスに応答して、ユーザの頭部の他の側面に位置する第２のマイクロフォンによって生成された信号に基づいている。本方法では、第３のオーディオ信号は、ユーザのボイスに応答して、第１のマイクロフォン及び第２のマイクロフォンとは異なる第３のマイクロフォンによって生成された信号に基づき、第３のマイクロフォンは、第１のマイクロフォン及び第２のマイクロフォンのいずれよりもユーザのボイスの中央出口点に近い、ユーザの頭部の前頭面(coronal plane)にある。機能を読み取る機械にそのような方法を実行させる実体的機能を有するコンピュータ可読記憶媒体も開示される。

一般的構成による信号処理のための装置は、第１のオーディオ信号と第２のオーディオ信号との間の関係に基づいているボイスアクティビティ検出信号を生成するための手段と、音声信号を生成するために、第３のオーディオ信号に基づいている信号にボイスアクティビティ検出信号を適用するための手段とを含む。本装置では、第１のオーディオ信号は、（Ａ）ユーザの頭部の側面に位置する第１のマイクロフォンによって、（Ｂ）ユーザのボイスに応答して生成された信号に基づき、第２のオーディオ信号は、ユーザのボイスに応答して、ユーザの頭部の他の側面に位置する第２のマイクロフォンによって生成された信号に基づいている。本装置では、第３のオーディオ信号は、ユーザのボイスに応答して、第１のマイクロフォン及び第２のマイクロフォンとは異なる第３のマイクロフォンによって生成された信号に基づき、第３のマイクロフォンは、第１のマイクロフォン及び第２のマイクロフォンのいずれよりもユーザのボイスの中央出口点に近い、ユーザの頭部の前頭面にある。

別の一般的な構成による信号処理のための装置は、装置の使用中にユーザの頭部の前頭面に配置されるように構成された第１のマイクロフォンと、装置の使用中にユーザの頭部の他の前頭面に配置されるように構成された第２のマイクロフォンと、装置の使用中に、第１のマイクロフォン及び第２のマイクロフォンのいずれよりもユーザのボイスの中央出口点に近い、ユーザの頭部の前頭面に配置されるように構成された第３のマイクロフォンとを含む。本装置はまた、第１のオーディオ信号と第２のオーディオ信号との間の関係に基づいているボイスアクティビティ検出信号を生成するように構成されたボイスアクティビティ検出器と、音声推定値を生成するために、第３のオーディオ信号に基づいている信号にボイスアクティビティ検出信号を適用するように構成された音声推定器とを含む。本装置では、第１のオーディオ信号は、装置の使用中にユーザのボイスに応答して第１のマイクロフォンによって生成された信号に基づき、第２のオーディオ信号は、装置の使用中にユーザのボイスに応答して第２のマイクロフォンによって生成された信号に基づき、第３のオーディオ信号は、装置の使用中にユーザのボイスに応答して第３のマイクロフォンによって生成された信号に基づいている。

一般的構成による装置Ａ１００のブロック図。オーディオ前処理段ＡＰ１０の実装形態ＡＰ２０のブロック図。 Head and Torso Simulator（ＨＡＴＳ）のそれぞれの耳に装着された雑音基準マイクロフォンＭＬ１０及びＭＲ１０の正面図。ＨＡＴＳの左耳に装着された雑音基準マイクロフォンＭＬ１０の左側面図。装置Ａ１００の使用中の、いくつかの位置の各々におけるマイクロフォンＭＣ１０のインスタンスの配向の一例を示す図。ポータブルメディアプレーヤＤ４００に結合された、装置Ａ１００のコード付き実装形態の一般的な適用例の正面図。装置Ａ１００の実装形態Ａ１１０のブロック図。音声推定器ＳＥ１０の実装形態ＳＥ２０のブロック図。音声推定器ＳＥ２０の実装形態ＳＥ２２のブロック図。音声推定器ＳＥ２２の実装形態ＳＥ３０のブロック図。装置Ａ１００の実装形態Ａ１３０のブロック図。装置Ａ１００の実装形態Ａ１２０のブロック図。音声推定器ＳＥ４０のブロック図。装置Ａ１００の実装形態Ａ１４０のブロック図。イヤホンＥＢ１０の正面図。イヤホンＥＢ１０の実装形態ＥＢ１２の正面図。装置Ａ１００の実装形態Ａ１５０のブロック図。装置Ａ１００のコード付き実装形態におけるイヤホンＥＢ１０のインスタンスとボイスマイクロフォンＭＣ１０のインスタンスとを示す図。音声推定器ＳＥ５０のブロック図。イヤホンＥＢ１０のインスタンスの側面図。ＴＲＲＳプラグの一例を示す図。フックスイッチＳＷ１０がコードＣＤ１０に一体化された一例を示す図。プラグＰ１０と同軸プラグＰ２０とを含むコネクタの一例を示す図。装置Ａ１００の実装形態Ａ２００のブロック図。オーディオ前処理段ＡＰ１２の実装形態ＡＰ２２のブロック図。イヤカップＥＣ１０の断面図。イヤカップＥＣ１０の実装形態ＥＣ２０の断面図。イヤカップＥＣ２０の実装形態ＥＣ３０の断面図。装置Ａ１００の実装形態Ａ２１０のブロック図。装置Ａ１００の実装形態を含む通信機器Ｄ２０のブロック図。雑音基準マイクロフォンＭＬ１０、ＭＲ１０のための追加の候補ロケーションを示す図。誤差マイクロフォンＭＥ１０のための追加の候補ロケーションを示す図。機器Ｄ２０内に含まれ得るヘッドセットＤ１００のビューを示す図。機器Ｄ２０内に含まれ得るヘッドセットＤ１００のビューを示す図。機器Ｄ２０内に含まれ得るヘッドセットＤ１００のビューを示す図。機器Ｄ２０内に含まれ得るヘッドセットＤ１００のビューを示す図。使用中の機器Ｄ１００の一例の上面図。本明細書で説明する装置Ａ１００の実装形態内で使用され得る機器の追加の例を示す図。本明細書で説明する装置Ａ１００の実装形態内で使用され得る機器の追加の例を示す図。本明細書で説明する装置Ａ１００の実装形態内で使用され得る機器の追加の例を示す図。本明細書で説明する装置Ａ１００の実装形態内で使用され得る機器の追加の例を示す図。本明細書で説明する装置Ａ１００の実装形態内で使用され得る機器の追加の例を示す図。一般的構成による方法Ｍ１００のフローチャート。方法Ｍ１００の実装形態Ｍ１１０のフローチャート。方法Ｍ１００の実装形態Ｍ１２０のフローチャート。方法Ｍ１００の実装形態Ｍ１３０のフローチャート。方法Ｍ１００の実装形態Ｍ１４０のフローチャート。方法Ｍ１００の実装形態Ｍ１５０のフローチャート。方法Ｍ１００の実装形態Ｍ２００のフローチャート。一般的構成による装置ＭＦ１００のブロック図。装置ＭＦ１００の実装形態ＭＦ１４０のブロック図。装置ＭＦ１００の実装形態ＭＦ２００のブロック図。装置Ａ１００の実装形態Ａ１６０のブロック図。音声推定器ＳＥ５０の構成のブロック図。装置Ａ１００の実装形態Ａ１７０のブロック図。音声推定器ＳＥ４０の実装形態ＳＥ４２のブロック図。

アクティブ雑音消去（ＡＮＣ：active noise cancellation、アクティブ雑音低減とも呼ばれる）は、「反位相」又は「アンチノイズ」波形とも呼ばれる、（例えば、同じレベル及び反転位相を有する）雑音波の逆の形である波形を発生することによって周囲音響雑音をアクティブに低減する技術である。ＡＮＣシステムは、概して、1つ以上のマイクロフォンを使用して外部雑音基準信号をピックアップし、その雑音基準信号からアンチノイズ波形を発生し、1つ以上のラウドスピーカを通してアンチノイズ波形を再生する。このアンチノイズ波形は、元の雑音波と弱め合うように干渉して、ユーザの耳に到達する雑音のレベルを低減する。

アクティブ雑音消去技法は、周囲環境からの音響雑音を低減するために、ヘッドフォンなどの音声再生機器、及びセルラー電話などのパーソナル通信機器に適用され得る。そのような適用例では、ＡＮＣ技法の使用は、音楽及びファーエンドボイスなどの有用な音響信号を配信しながら、耳に到達する背景雑音のレベルを（例えば、最高２０デシベルだけ）低減し得る。

雑音消去ヘッドセットは、ユーザの頭部に装着する雑音基準マイクロフォンペアと、ユーザからの音響ボイス信号を受信するように配置された第３のマイクロフォンとを含む。ユーザの耳における雑音の自動消去をサポートするため、及び第３のマイクロフォンからの信号に適用されるボイスアクティビティ検出信号を発生するために、ヘッドマウントペアからの信号を使用するためのシステム、方法、装置、及びコンピュータ可読媒体について説明する。そのようなヘッドセットは、例えば、雑音検出のためのマイクロフォンの数を最小限に抑えながら、ニアエンドＳＮＲとファーエンドＳＮＲの両方を同時に改善するために使用され得る。

その文脈によって明確に限定されない限り、「信号」という用語は、本明細書では、ワイヤ、バス、又は他の伝送媒体上に表されたメモリロケーション（又はメモリロケーションのセット）の状態を含む、その通常の意味のいずれをも示すのに使用される。文脈によって明確に限定されない限り、「発生（generating）」という用語は、本明細書では、計算（computing）又は別様の生成（producing）など、その通常の意味のいずれをも示すのに使用される。その文脈によって明確に限定されない限り、「計算（calculating）」という用語は、本明細書では、複数の値からの計算（computing）、評価、平滑化、及び／又は選択など、その通常の意味のいずれをも示すのに使用される。文脈によって明確に限定されない限り、「取得（obtaining）」という用語は、計算、導出、（例えば、外部機器からの）受信、及び／又は（例えば、記憶要素のアレイからの）検索など、その通常の意味のいずれをも示すのに使用される。その文脈によって明確に限定されない限り、「選択（selecting）」という用語は、２つ以上のセットのうちの少なくとも１つ、及び全てよりも少数を識別、指示、適用、及び／又は使用することなど、その通常の意味のいずれをも示すのに使用される。「備える（comprising）」という用語は、本明細書及び特許請求の範囲において使用される場合、他の要素又は動作を除外するものではない。「に基づいている」（「ＡはＢに基づいている」など）という用語は、（ｉ）「から導出される」（例えば、「ＢはＡのプレカーサー(precursor)である」）、（ｉｉ）「少なくとも〜に基づいている」（例えば、「Ａは少なくともＢに基づいている」）、及び特定の文脈で適当な場合に、（ｉｉｉ）「に等しい」（例えば、「ＡはＢに等しい」）という場合を含む、その通常の意味のいずれをも示すのに使用される。同様に、「に応答して」という用語は、「少なくとも〜に応答して」を含む、その通常の意味のいずれをも示すのに使用される。

マルチマイクロフォンオーディオ感知機器のマイクロフォンの「ロケーション」への言及は、文脈によって別段に規定されていない限り、マイクロフォンの音響的に敏感な面の中心のロケーションを示す。マルチマイクロフォンオーディオ感知機器のマイクロフォンの「方向」又は「配向」への言及は、文脈によって別段に規定されていない限り、マイクロフォンの音響的に敏感な面に垂直な方向を示す。「チャネル」という用語は、特定の文脈に応じて、時々、信号経路を示すのに使用され、また他のときには、そのような経路によって搬送される信号を示すのに使用される。別段に規定されていない限り、「一連」という用語は、２つ以上のアイテムのシーケンスを示すのに使用される。「対数」という用語は、１０を底とする対数を示すのに使用されるが、他の底へのそのような演算の拡張も本開示の範囲内である。「周波数成分」という用語は、（例えば、高速フーリエ変換によって生成される）信号の周波数領域表現のサンプル、或いは信号のサブバンド（例えば、バーク尺度又はメル尺度サブバンド）など、信号の周波数又は周波数帯域のセットのうちの１つを示すのに使用される。

別段に規定されていない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する（その逆も同様）ことをも明確に意図し、特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する（その逆も同様）ことをも明確に意図する。「構成」という用語は、その特定の文脈によって示されるように、方法、装置、及び／又はシステムに関して使用され得る。「方法(method)」、「プロセス」、「手順(procedure)」、及び「技法(technique)」という用語は、特定の文脈(context)によって別段に規定されていない限り、一般的、互換的に使用される。「装置」及び「機器」という用語も、特定の文脈によって別段に規定されていない限り、一般的、互換的に使用される。「要素(element)」及び「モジュール」という用語は、一般に、より大きい構成の一部を示すのに使用される。その文脈によって明確に限定されない限り、「システム」という用語は、本明細書では、「共通の目的を果たすために相互作用する要素のグループ」を含む、その通常の意味のいずれをも示すのに使用される。文書の一部の参照によるいかなる組込みも、そのような定義が文書中の他の場所、並びに組み込まれた部分で参照される図に現れた場合、その部分内で言及された用語又は変数の定義を組み込んでいることをも理解されたい。

「コーダ」、「コーデック」、及び「符号化システム」という用語は、（場合によっては知覚的重み付け(perceptual weighting)及び／又は他のフィルタ処理演算(filtering operation)などの1つ以上の前処理演算の後に）オーディオ信号のフレームを受信し符号化するように構成された少なくとも１つのエンコーダと、フレームの復号表現を生成するように構成された対応するデコーダとを含むシステムを示すのに互換的に使用される。そのようなエンコーダ及びデコーダは一般に通信リンクの反対側の端末に配備される。全二重通信をサポートするために、エンコーダとデコーダの両方のインスタンスは、一般にそのようなリンクの各端部に配備される。

本明細書では、「感知オーディオ信号(sensed audio signal)」という用語は、1つ以上のマイクロフォンを介して受信された信号を示し、「再生オーディオ信号」という用語は、記憶装置から取り出され、及び／又はワイヤード若しくはワイヤレス接続を介して別の機器に受信された情報から再生される信号を示す。通信又は再生機器などのオーディオ再生機器は、再生オーディオ信号を機器の1つ以上のラウドスピーカに出力するように構成され得る。代替的に、そのような機器は、再生オーディオ信号を、ワイヤを介して又はワイヤレスに機器に結合されたイヤピース、他のヘッドセット、又は外部ラウドスピーカに出力するように構成され得る。テレフォニーなどのボイス通信のためのトランシーバアプリケーションに関して、感知オーディオ信号は、トランシーバによって送信されるべきニアエンド信号であり、再生オーディオ信号は、トランシーバによって（例えば、ワイヤレス通信リンクを介して）受信されるファーエンド信号である。記録された音楽、ビデオ、又は音声（例えば、ＭＰ３で符号化された音楽ファイル、映画、ビデオクリップ、オーディオブック、ポッドキャスト(podcasts)）の再生、或いはそのようなコンテンツのストリーミングなどのモバイルオーディオ再生アプリケーションに関して、再生オーディオ信号は、再生又はストリーミングされるオーディオ信号である。

セルラー電話ハンドセット（例えば、スマートフォン）とともに使用するヘッドセットは、一般に、ユーザの耳のうちの１つでファーエンドオーディオ信号を再生するためのラウドスピーカと、ユーザのボイスを受信するための１次マイクロフォンとを含んでいる。ラウドスピーカは、一般にユーザの耳に装着され、マイクロフォンは、受付け可能な程度に高いＳＮＲをもつユーザのボイスを受信するために、使用中に配設されるべきヘッドセット内に配置される。マイクロフォンは、一般に、例えば、ユーザの耳に装着するハウジング内に、そのようなハウジングからユーザの口のほうへ延びるブーム又は他の突出部上に、又はセルラー電話との間でオーディオ信号を搬送するコード上に位置する。ヘッドセットとハンドセットとの間のオーディオ情報（及び、場合によっては電話フックステータス(telephone hook status)などの制御情報）の通信は、ワイヤード又はワイヤレスリンクを介して実行され得る。

ヘッドセットはまた、ユーザの耳における1つ以上の追加の２次マイクロフォンを含み得、それは１次マイクロフォン信号のＳＮＲを改善するために使用され得る。そのようなヘッドセットは、一般に、ユーザの他の耳におけるそのような目的の２次マイクロフォンを含まないか又は使用しない。

ヘッドフォン又はイヤホンのステレオセットは、再生ステレオメディアコンテンツを再生するためのポータブルメディアプレーヤとともに使用され得る。そのような機器は、ユーザの左耳に装着するラウドスピーカとユーザの右耳に同じ様式で装着するラウドスピーカとを含む。そのような機器はまた、ユーザの耳の各々において、ＡＮＣ機能をサポートするために、環境雑音信号を生成するために配設される雑音基準マイクロフォンペアの各々を含み得る。雑音基準マイクロフォンによって生成された環境雑音信号は、一般に、ユーザのボイスの処理をサポートするためには使用されない。

図１Ａに、一般的構成による装置Ａ１００のブロック図を示す。装置Ａ１００は、音響環境雑音を受信するためにユーザの頭部の左側に装着され、第１のマイクロフォン信号ＭＳ１０を生成するように構成された第１の雑音基準マイクロフォンＭＬ１０と、音響環境雑音を受信するためにユーザの頭部の右側に装着され、第２のマイクロフォン信号ＭＳ２０を生成するように構成された第２の雑音基準マイクロフォンＭＲ１０と、ユーザによって装着され、第３のマイクロフォン信号ＭＳ３０を生成するように構成されたボイスマイクロフォンＭＣ１０とを含む。図２Ａに、雑音基準マイクロフォンＭＬ１０及びＭＲ１０がHead and Torso Simulator又は「HATS」（Bruel and Kjaer、DK）のそれぞれの耳に装着された、ＨＡＴＳの正面図を示す。図２Ｂに、雑音基準マイクロフォンＭＬ１０がＨＡＴＳの左耳に装着された、ＨＡＴＳの左側面図を示す。

マイクロフォンＭＬ１０、ＭＲ１０、及びＭＣ１０の各々は、全方向、双方向、又は単方向（例えば、カージオイド）である応答を有し得る。マイクロフォンＭＬ１０、ＭＲ１０、及びＭＣ１０の各々のために使用され得る様々なタイプのマイクロフォンには、（限定はしないが）圧電マイクロフォン、ダイナミックマイクロフォン、及びエレクトレットマイクロフォンがある。

雑音基準マイクロフォンＭＬ１０及びＭＲ１０はユーザのボイスのエネルギーをピックアップし得るが、マイクロフォン信号ＭＳ１０及びＭＳ２０におけるユーザのボイスのＳＮＲは、ボイス送信のためには低すぎて有用でないことが予想され得る。とはいえ、本明細書で説明する技法は、第３のマイクロフォン信号ＭＳ３０からの情報に基づいて音声信号の1つ以上の特性（例えば、ＳＮＲ）を改善するためにこのボイス情報を使用する。

マイクロフォンＭＣ１０は、装置Ａ１００の使用中に、マイクロフォン信号ＭＳ３０におけるユーザのボイスのＳＮＲが、マイクロフォン信号ＭＳ１０及びＭＳ２０のいずれかにおけるユーザのボイスのＳＮＲよりも大きくなるように装置Ａ１００内に配置される。代替又は追加として、ボイスマイクロフォンＭＣ１０は、使用中に、雑音基準マイクロフォンＭＬ１０及びＭＲ１０のいずれよりも、ユーザのボイスの中央出口点に向かってよりまっすぐに配向されるように、中央出口点により近くなるように、及び／又は中央出口点により近い前頭面にあるように配置される。ユーザのボイスの中央出口点は、図２Ａ及び図２Ｂ中の十字線によって示され、話中にユーザの上唇の外面と下唇の外面とが接触するユーザの頭部の正中矢状面（midsagittal plane）内のロケーションとして定義される。中央前頭面（midcoronal plane）と中央出口点との間の距離は、一般に７、８、又は、９から１０、１１、１２、１３、又は１４センチメートルまで（例えば、８０〜１３０ｍｍ）の範囲内にある。（本明細書では、点と平面との間の距離は、平面に直交する線に沿って測定されると仮定する。）装置Ａ１００の使用中に、ボイスマイクロフォンＭＣ１０は、一般に中央出口点から３０センチメートル以内に位置する。

装置Ａ１００の使用中のボイスマイクロフォンＭＣ１０の位置のいくつかの異なる例が、図２Ａ中のラベルが付いた円によって示されている。位置Ａでは、ボイスマイクロフォンＭＣ１０は、キャップ又はヘルメットのバイザーに取り付けられる。位置Ｂでは、ボイスマイクロフォンＭＣ１０は、眼鏡、ゴーグル、安全眼鏡、又は他のアイウェア（eyewear）のブリッジに取り付けられる。位置Ｃｌ又はＣＲでは、ボイスマイクロフォンＭＣ１０は、眼鏡、ゴーグル、安全眼鏡、又は他のアイウェアの左テンプル又は右テンプルに取り付けられる。位置ＤＬ又はＤＲでは、ボイスマイクロフォンＭＣ１０は、マイクロフォンＭＬ１０及びＭＲ１０のうちの対応する１つを含むヘッドセットハウジングの前の部分に取り付けられる。位置ＥＬ又はＥＲでは、ボイスマイクロフォンＭＣ１０は、ユーザの耳に装着されたフックからユーザの口のほうへ延びるブームに取り付けられる。位置ＦＬ、ＦＲ、ＧＬ、又はＧＲでは、ボイスマイクロフォンＭＣ１０は、ボイスマイクロフォンＭＣ１０を電気的に接続するコードに取り付けられ、雑音基準マイクロフォンＭＬ１０及びＭＲ１０のうちの対応する１つは通信機器に取り付けられる。

図２Ｂの側面図は、位置Ａ、Ｂ、ＣＬ、ＤＬ、ＥＬ、ＦＬ、及びＧＬの全てが（例えば、位置ＦＬに関して示すように）雑音基準マイクロフォンＭＬ１０よりも中央出口点に近い冠状面（即ち、図示のように中央前頭面に対して平行な平面）内にあることを示す。図３Ａの側面図は、これらの位置の各々にあるマイクロフォンＭＣ１０のインスタンスの配向の例を示し、位置Ａ、Ｂ、ＤＬ、ＥＬ、ＦＬ、及びＧＬにあるインスタンスの各々が（図の平面に垂直に配向された）マイクロフォンＭＬ１０よりも中央出口点に向かってよりまっすぐに配向されていることを示す。

図３Ｂに、コードＣＤ１０を介してポータブルメディアプレーヤＤ４００に結合された、装置Ａ１００のコード付き実装形態の一般的な適用例の正面図を示す。そのような機器は、標準圧縮形式（例えば、Moving Pictures Experts Group（ＭＰＥＧ）−1 Audio Layer ３（ＭＰ３）、ＭＰＥＧ−４ Part １４（ＭＰ４）、Windows (登録商標) Media Audio/Video（ＷＭＡ／ＷＭＶ）のバージョン（マイクロソフト社（ワシントン州レドモンド））、次世代符号化(Advanced Audio Coding（ＡＡＣ）)、国際電気通信連合(International Telecommunication Union (ITU)-T H.264など)に従って符号化されたファイル又はストリームなどの圧縮オーディオ又はオーディオビジュアル情報を再生するように構成され得る。

装置Ａ１００は、第１のオーディオ信号ＡＳ１０、第２のオーディオ信号ＡＳ２０、及び第３のオーディオ信号ＡＳ３０のうちの対応する１つを生成するために、マイクロフォン信号ＭＳ１０、ＭＳ２０、及びＭＳ３０の各々に対して1つ以上の前処理演算を実行するオーディオ前処理段を含む。そのような前処理演算は、（限定はしないが）インピーダンス整合、アナログデジタル変換、利得制御、並びに／或いはアナログ及び／又はデジタル領域におけるフィルタ処理を含み得る。

図１Ｂに、アナログ前処理段Ｐ１０ａ、Ｐ１０ｂ、及びＰ１０ｃを含むオーディオ前処理段ＡＰ１０の実装形態ＡＰ２０のブロック図を示す。一例では、段Ｐ１０ａ、Ｐ１０ｂ、及びＰ１０ｃはそれぞれ、対応するマイクロフォン信号に対して（例えば、５０、１００、又は２００Ｈｚのカットオフ周波数をもつ）高域フィルタ処理演算を実行するように構成される。一般に、段Ｐ１０ａ及びＰ１０ｂは、それぞれ、第１のオーディオ信号ＡＳ１０と第２のオーディオ信号ＡＳ２０とに対して同じ機能を実行するように構成される。

オーディオ前処理段ＡＰ１０は、マルチチャネル信号をデジタル信号として、即ち、サンプルのシーケンスとして生成することが望ましいことがある。オーディオ前処理段ＡＰ２０は、例えば、対応するアナログ信号をサンプリングするようにそれぞれ構成されたアナログデジタル変換器（ＡＤＣ）Ｃ１０ａ、Ｃ１０ｂ、及びＣ１０ｃを含む。音響アプリケーションの典型的なサンプリングレートには、８ｋＨｚ、１２ｋＨｚ、１６ｋＨｚ、及び約８から約１６ｋＨｚまでの範囲内の他の周波数があるが、約４４．１、４８、又は１９２ｋＨｚも使用され得る。一般に、コンバータＣ１０ａ及びＣ１０ｂは、それぞれ、第１のオーディオ信号ＡＳ１０と第２のオーディオ信号ＡＳ２０とを同じレートでサンプリングするように構成されるが、コンバータＣ１０ｃは、第３のオーディオ信号Ｃ１０ｃを同じレートで、又は異なるレートで（例えば、より高いレートで）サンプリングするように構成され得る。

この特定の例では、オーディオ前処理段ＡＰ２０はまた、対応するデジタル化チャネル上で1つ以上の前処理演算（例えば、スペクトル整形）を実行するようにそれぞれ構成されたデジタル前処理段Ｐ２０ａ、Ｐ２０ｂ、及びＰ２０ｃを含む。一般に、段Ｐ２０ａ及びＰ２０ｂは、それぞれ、第１のオーディオ信号ＡＳ１０と第２のオーディオ信号ＡＳ２０とに対して同じ機能を実行するように構成されるが、段Ｐ２０ｃは、第３のオーディオ信号ＡＳ３０に対して1つ以上の異なる機能（例えば、スペクトル整形、雑音低減、及び／又はエコー消去）を実行するように構成され得る。

第１のオーディオ信号ＡＳ１０及び／又は第２のオーディオ信号ＡＳ２０は、２つ以上のマイクロフォンからの信号に基づき得ることに特に留意されたい。例えば、図１３Ｂに、マイクロフォンＭＬ１０（及び／又はＭＲ１０）の複数のインスタンスがユーザの頭部の対応する側面に位置し得るいくつかのロケーションの例を示す。追加又は代替として、第３のオーディオ信号ＡＳ３０は、ボイスマイクロフォンＭＣ１０の２つ以上のインスタンス（例えば、図２Ｂに示す、ロケーションＥＬに配設された１次マイクロフォン、及びロケーションＤＬに配設された２次マイクロフォン）からの信号に基づき得る。そのような場合、オーディオ前処理段ＡＰ１０は、対応するオーディオ信号を生成するために、複数のマイクロフォン信号に対して他の処理演算を混合及び／又は実行するように構成され得る。

音声処理アプリケーション（例えば、テレフォニーなどのボイス通信アプリケーション）では、音声情報を搬送するオーディオ信号のセグメントの正確な検出を実行することが望ましいことがある。そのようなボイスアクティビティ検出（ＶＡＤ：voice activity detection）は、例えば、音声情報を維持する際に重要であり得る。音声情報を搬送するセグメントの誤識別は、復号されたセグメント中のその情報の品質を低下させ得るので、音声コーダは、一般に、雑音として識別されるセグメントを符号化するためよりも、音声として識別されるセグメントを符号化するためにより多くのビットを割り振るように構成される。別の例では、ボイスアクティビティ検出段がこれらのセグメントを音声として識別することができない場合、雑音低減システムは低エネルギー無声音声セグメントをアグレッシブに減衰させ得る。

各チャネルが異なるマイクロフォンによって生成された信号に基づいており、マルチチャネル信号は、一般にボイスアクティビティ検出のために使用され得る、音源方向及び／又は近傍に関する情報を含んでいる。そのようなマルチチャネルＶＡＤ演算は、例えば、特定の方向範囲（例えば、ユーザの口など、所望の音源の方向）から到着する方向性音を含んでいるセグメントを、拡散音又は他の方向から到着する方向性音を含んでいるセグメントと区別することによって、到着方向（ＤＯＡ：direction of arrival）に基づき得る。

装置Ａ１００は、第１のオーディオ信号ＡＳ１０からの情報と第２のオーディオ信号ＡＳ２０からの情報との間の関係に基づいているボイスアクティビティ検出（ＶＡＤ）信号ＶＳ１０を生成するように構成されたボイスアクティビティ検出器ＶＡＤ１０を含む。ボイスアクティビティ検出器ＶＡＤ１０は、ボイスアクティビティ状態の遷移がオーディオ信号ＡＳ３０の対応するセグメント中に存在するかどうかを示すために、一般に、オーディオ信号ＡＳ１０及びＡＳ２０の一連の対応するセグメントの各々を処理するように構成される。典型的なセグメント長は約５又は１０ミリ秒から約４０又は５０ミリ秒にわたり、セグメントは、重複しても（例えば、隣接するセグメントが２５％又は５０％だけ重複する）、重複しなくてもよい。１つの特定の例では、信号ＡＳ１０、ＡＳ２０、及びＡＳ３０の各々は、各フレームが１０ミリ秒の長さを有する一連の重複しないセグメント又は「フレーム」に分割される。また、ボイスアクティビティ検出器ＶＡＤ１０によって処理されるセグメントは、異なる演算によって処理されるより大きいセグメントのセグメント（即ち、「サブフレーム」）であり得、又はその逆も同様である。

第１の例では、ボイスアクティビティ検出器ＶＡＤ１０は、時間領域における第１のオーディオ信号ＡＳ１０の対応するセグメントと第２のオーディオ信号ＡＳ２０の対応するセグメントとを相互相関させることによってＶＡＤ信号ＶＳ１０を生成するように構成される。ボイスアクティビティ検出器ＶＡＤ１０は、以下などの式に従って遅延の範囲−ｄ〜＋ｄにわたる相互相関ｒ（ｄ）を計算するように構成され得る。

又は

上式で、ｘは第１のオーディオ信号ＡＳ１０を示し、ｙは第２のオーディオ信号ＡＳ２０を示し、Ｎは各セグメント中のサンプルの数を示す。

上記で示したようにゼロ詰め(zero-padding)を使用する代わりに、式（１）及び式（２）はまた、各セグメントを循環として扱うか、或いは適宜に前又は後続のセグメントに拡張するように構成され得る。これらのいずれの場合も、ボイスアクティビティ検出器ＶＡＤ１０は、以下などの式に従ってｒ（ｄ）を正規化することによって相互相関を計算するように構成され得る。

上式で、μ_xは第１のオーディオ信号ＡＳ１０のセグメントの平均を示し、μ_yは第２のオーディオ信号ＡＳ２０のセグメントの平均を示す。

ボイスアクティビティ検出器ＶＡＤ１０を、ゼロ遅延の周りの限られた範囲にわたって相互相関を計算するように構成することが望ましいことがある。マイクロフォン信号のサンプリングレートが８キロヘルツである例では、ＶＡＤが、＋又は１、２、３、４、又は５サンプルの限られた範囲にわたって信号を相互相関させることが望ましいことがある。そのような場合、各サンプルは、１２５マイクロ秒の時間差（即ち、４．２５センチメートルの距離）に対応する。マイクロフォン信号のサンプリングレートが１６キロヘルツである例では、ＶＡＤが＋又は１、２、３、４、又は５のサンプルの限られた範囲にわたって信号を相互相関させることが望ましいことがある。そのような場合、各サンプルは、６２．５マイクロ秒の時間差（即ち、２．１２５センチメートルの距離）に対応する。

追加又は代替として、ボイスアクティビティ検出器ＶＡＤ１０を、所望の周波数レンジにわたって相互相関を計算するように構成することが望ましいことがある。例えば、５０（又は１００、２００、又は５００）Ｈｚから５００（又は１０００、１２００、１５００、又は２０００）Ｈｚまでの範囲を有するバンドパス信号として第１のオーディオ信号ＡＳ１０と第２のオーディオ信号ＡＳ２０とを与えるように、オーディオ前処理段ＡＰ１０を構成することが望ましいことがある。（５００から５００Ｈｚまでの自明のケースを除く）これらの１９個の特定の範囲の例の各々は、明確に企図され、本明細書によって開示される。

上記の相互相関例のいずれかでは、ボイスアクティビティ検出器ＶＡＤ１０は、各セグメントのためのＶＡＤ信号ＶＳ１０の状態がゼロ遅延において対応する相互相関値に基づくようにＶＡＤ信号ＶＳ１０を生成するように構成され得る。一例では、ボイスアクティビティ検出器ＶＡＤ１０は、セグメントについて計算された遅延値のうちゼロ遅延値が最大値である場合はボイスアクティビティがあることを示す第１の状態（例えば、高又は１）を有し、他の場合はボイスアクティビティがないことを示す第２の状態（例えば、低又は０）を有するＶＡＤ信号ＶＳ１０を生成するように構成される。別の例では、ボイスアクティビティ検出器ＶＡＤ１０は、ゼロ遅延値がしきい値を上回る（代替的に、それ以上である）場合は第１の状態を有し、他の場合は第２の状態を有するＶＡＤ信号ＶＳ１０を生成するように構成される。そのような場合、しきい値は、固定され得るか、或いは第３のオーディオ信号ＡＳ３０の対応するセグメントの平均サンプル値に、及び／又は1つ以上の他の遅延におけるセグメントの相互相関結果に基づき得る。さらなる一例では、ボイスアクティビティ検出器ＶＡＤ１０は、ゼロ遅延値が＋１サンプル及び１サンプルの遅延の対応する値のうち最高の値の指定された比率（例えば、０．７又は０．８）よりも大きい（代替的に、少なくともそれに等しい）場合は第１の状態を有し、他の場合は第２の状態を有するＶＡＤ信号ＶＳ１０を生成するように構成される。ボイスアクティビティ検出器ＶＡＤ１０はまた、（例えば、ＡＮＤ論理及び／又はＯＲ論理を使用して）２つ以上のそのような結果を合成するように構成され得る。

ボイスアクティビティ検出器ＶＡＤ１０は、信号ＶＳ１０の状態変更を遅延させるために慣性機構(inertial mechanism)を含むように構成され得る。そのような機構の一例は、いくつかの連続するフレーム（例えば、１、２、３、４、５、８、１０、１２、又は２０フレーム）のハングオーバ期間にわたってボイスアクティビティがないことを検出器が検出し続けるまで、検出器ＶＡＤ１０がそれの出力を第１の状態から第２の状態に切り替えることを抑止するように構成された論理である。例えば、そのようなハングオーバ論理は、ボイスアクティビティの最新の検出後ある程度の期間にわたって、検出器ＶＡＤ１０にセグメントを音声として識別し続けさせるように構成され得る。

第２の例では、ボイスアクティビティ検出器ＶＡＤ１０は、時間領域におけるセグメントにわたって第１のオーディオ信号ＡＳ１０と第２のオーディオ信号ＡＳ２０の(利得とも呼ばれる)レベルの間の差に基づいてＶＡＤ信号ＶＳ１０を生成するように構成される。例えば、ボイスアクティビティ検出器ＶＡＤ１０のそのような実装形態は、一方又は両方の信号のレベルがしきい値を上回り（信号がマイクロフォンに近い音源から到着していることを示す）、その２つの信号のレベルが実質的に等しい（信号が２つのマイクロフォン間のロケーションから到着していることを示す）ときに、ボイス検出を示すように構成され得る。この場合、「実質的に等しい」という用語は、小さい方の信号のレベルの５、１０、１５、２０、又は２５パーセント以内を示す。セグメントのレベル測度の例には、合計の大きさ（例えば、サンプル値の絶対値の和）、平均の大きさ（例えば、サンプル当たり）、ＲＭＳ振幅、中央値の大きさ、最大振幅、総エネルギー（例えば、サンプル値の平方和）、及び平均エネルギー（例えば、サンプル当たり）がある。レベル差技法を用いて正確な結果を得るために、２つのマイクロフォンチャネルの応答が互いに較正されることが望ましいことがある。

ボイスアクティビティ検出器ＶＡＤ１０は、比較的少ない計算費用でＶＡＤ信号ＶＳ１０を計算するために、上記で説明した時間領域技法のうちの１つ又は複数を使用するように構成され得る。さらなる実装形態では、ボイスアクティビティ検出器ＶＡＤ１０は、各セグメントの複数のサブバンドの各々について（例えば、相互相関又はレベル差に基づいて）ＶＡＤ信号ＶＳ１０のそのような値を計算するように構成される。この場合、ボイスアクティビティ検出器ＶＡＤ１０は、一様サブバンド分割又は非一様サブバンド分割に従って（例えば、バーク尺度又はメル尺度に従って）構成されたサブバンドフィルタのバンクから時間領域サブバンド信号を得るように配置され得る。

さらなる一例では、ボイスアクティビティ検出器ＶＡＤ１０は、周波数領域における第１のオーディオ信号ＡＳ１０と第２のオーディオ信号ＡＳ２０との間の差に基づいてＶＡＤ信号ＶＳ１０を生成するように構成される。周波数領域ＶＡＤ演算の１つのクラスは、所望の周波数レンジ内のセグメントの周波数成分ごとに、マルチチャネル信号の２つのチャネルの各々における周波数成分間の位相差に基づいている。そのようなＶＡＤ演算は、５００〜２０００Ｈｚなどの広い周波数レンジにわたって位相差と周波数との間の関係が一貫しているときに（即ち、位相差と周波数との相関が線形であるときに）、ボイス検出を示すように構成され得る。そのような位相ベースのＶＡＤ演算については、以下でより詳細に説明する。追加又は代替として、ボイスアクティビティ検出器ＶＡＤ１０は、周波数領域におけるセグメントにわたって（例えば、1つ以上の特定の周波数レンジにわたって）第１のオーディオ信号ＡＳ１０のレベルと第２のオーディオ信号ＡＳ２０のレベルとの間の差に基づいてＶＡＤ信号ＶＳ１０を生成するように構成され得る。追加又は代替として、ボイスアクティビティ検出器ＶＡＤ１０は、周波数領域におけるセグメントにわたって（例えば、1つ以上の特定の周波数レンジにわたって）第１のオーディオ信号ＡＳ１０と第２のオーディオ信号ＡＳ２０との間の相互相関に基づいてＶＡＤ信号ＶＳ１０を生成するように構成され得る。第３のオーディオ信号ＡＳ３０のための現在のピッチ推定値の倍数に対応する周波数成分のみを考慮するように、周波数領域ボイスアクティビティ検出器（例えば、上記で説明した位相、レベル、又は相互相関ベースの検出器）を構成することが望ましいことがある。

チャネル間利得差に基づいているマルチチャネルボイスアクティビティ検出器、及びシングルチャネル（例えば、エネルギーベース）ボイスアクティビティ検出器は、一般に、広い周波数レンジ（例えば、０〜４ｋＨｚ、５００〜４０００Ｈｚ、０〜８ｋＨｚ、又は５００〜８０００Ｈｚの範囲）からの情報に依拠する。到着方向（ＤＯＡ）に基づいているマルチチャネルボイスアクティビティ検出器は、一般に、低周波数レンジ（例えば、５００〜２０００Ｈｚ又は５００〜２５００Ｈｚの範囲）からの情報に依拠する。有声音声が、通常、これらの範囲において有意なエネルギーコンテンツを有すると仮定すれば、そのような検出器は、概して、有声音声のセグメントを確実に示すように構成され得る。本明細書で説明するストラテジと組み合わせられ得る別のＶＡＤストラテジは、（例えば、９００Ｈｚを下回る、又は５００Ｈｚを下回る）低周波数レンジにおけるチャネル間利得差に基づいているマルチチャネルＶＡＤ信号である。そのような検出器は、フォールスアラームの低いレートで有声セグメントを正確に検出することが予想され得る。

ボイスアクティビティ検出器ＶＡＤ１０は、ＶＡＤ信号ＶＳ１０を生成するために、本明細書で説明する第１のオーディオ信号ＡＳ１０と第２のオーディオ信号ＡＳ２０とに対してＶＡＤ演算のうちの２つ以上を実行し、その結果を合成するように構成され得る。代替又は追加として、ボイスアクティビティ検出器ＶＡＤ１０は、ＶＡＤ信号ＶＳ１０を生成するために、第３のオーディオ信号ＡＳ３０に対して1つ以上のＶＡＤ演算を実行し、そのような演算の結果を、本明細書で説明する第１のオーディオ信号ＡＳ１０と第２のオーディオ信号ＡＳ２０とに対するＶＡＤ演算のうちの1つ以上の結果と合成するように構成され得る。

図４Ａに、ボイスアクティビティ検出器ＶＡＤ１０の実装形態ＶＡＤ１２を含む装置Ａ１００の実装形態Ａ１１０のブロック図を示す。ボイスアクティビティ検出器ＶＡＤ１２は、第３のオーディオ信号ＡＳ３０を受信し、信号ＡＳ３０に対する1つ以上のシングルチャネルＶＡＤ演算の結果にも基づいてＶＡＤ信号ＶＳ１０を生成するように構成される。そのようなシングルチャネルＶＡＤ演算の例には、フレームエネルギー、信号対雑音比、周期性、音声及び／又は残差（例えば、線形予測符号化残差）の自己相関、ゼロ交差レート、及び／又は第１の反射係数など、1つ以上のファクタに基づいて、セグメントをアクティブ（例えば、音声）又は非アクティブ（例えば、雑音）として分類するように構成された技法がある。そのような分類は、そのようなファクタの値又は大きさをしきい値と比較すること、及び／又はそのようなファクタの変化の大きさをしきい値と比較することを含み得る。代替又は追加として、そのような分類は、１つの周波数帯域におけるエネルギーなどのそのようなファクタの値若しくは大きさ又はそのようなファクタの変化の大きさと、別の周波数帯域における同様の値との比較を含み得る。複数の基準（例えば、エネルギー、ゼロ交差レートなど）及び／又は最近のＶＡＤ決定のメモリに基づいてボイスアクティビティ検出を実行するように、そのようなＶＡＤ技法を実装することが望ましいことがある。

検出器ＶＡＤ１２によって、その結果が、本明細書で説明する、第１のオーディオ信号ＡＳ１０と第２のオーディオ信号ＡＳ２０とに対するＶＡＤ演算のうちの２つ以上の結果と合成され得るＶＡＤ演算の一例には、例えば、「Enhanced Variable Rate Codec, Speech Service Options 3, 68, 70, and 73 for Wideband Spread Spectrum Digital Systems」と題する３ＧＰＰ２文書Ｃ．Ｓ００１４−Ｄ、ｖ３．０、２０１０年１０月（ｗｗｗ．３ｇｐｐ．ｏｒｇでオンライン入手可能）のセクション４．７（ｐｐ．４−４８〜４−５５）に記載されているように、セグメントのハイバンド及びローバンドエネルギーをそれぞれのしきい値と比較することがある。他の例（例えば、音声オンセット及び／又はオフセットを検出すること、フレームエネルギーと平均エネルギーとの比及び／又はローバンドエネルギーとハイバンドエネルギーとの比を比較すること）については、２０１１年４月２０日に出願された「SYSTEMS, METHODS, AND APPARATUS FOR SPEECH FEATURE DETECTION」と題する米国特許出願第１３／０９２，５０２号、弁理士整理番号第１００８３９号（Ｖｉｓｓｅｒら）に記載されている。

本明細書で説明するボイスアクティビティ検出器ＶＡＤ１０の実装形態（例えば、ＶＡＤ１０、ＶＡＤ１２）は、ＶＡＤ信号ＶＳ１０を２進値信号又はフラグ（即ち、２つの可能な状態を有する）として、又は多値信号（即ち、３つ以上の可能な状態を有する）として生成するように構成され得る。一例では、検出器ＶＡＤ１０又はＶＡＤ１２は、２進値信号に対して（例えば、１次ＩＩＲフィルタを使用して）時間平滑化演算を実行することによって多値信号を生成するように構成される。

雑音低減及び／又は抑圧のためにＶＡＤ信号ＶＳ１０を使用するように装置Ａ１００を構成することが望ましいことがある。１つのそのような例では、第３のオーディオ信号ＡＳ３０に、（例えば、雑音周波数成分及び／又はセグメントを減衰させるために）利得制御としてＶＡＤ信号ＶＳ１０が適用される。別のそのような例では、更新された雑音推定値に基づいている第３のオーディオ信号ＡＳ３０に対して（例えば、ＶＡＤ演算によって雑音として分類された周波数成分又はセグメントを使用して）雑音低減演算のための雑音推定値を計算（例えば、更新）するために、ＶＡＤ信号ＶＳ１０が適用される。

装置Ａ１００は、ＶＡＤ信号ＶＳ３０に従って第３のオーディオ信号ＳＡ３０から音声信号ＳＳ１０を生成するように構成された音声推定器ＳＥ１０を含む。図４Ｂに、利得制御要素ＧＣ１０を含む音声推定器ＳＥ１０の実装形態ＳＥ２０のブロック図を示す。利得制御要素ＧＣ１０は、第３のオーディオ信号ＡＳ３０の各セグメントに、ＶＡＤ信号ＶＳ１０の対応する状態を適用するように構成される。一般的な例では、利得制御要素ＧＣ１０は乗算器として実装され、ＶＡＤ信号ＶＳ１０の各状態が０から１までの範囲内の値を有する。

図４Ｃに、（例えば、ＶＡＤ信号ＶＳ１０が２進値である場合）利得制御要素ＧＣ１０がセレクタＧＣ２０として実装された音声推定器ＳＥ２０の実装形態ＳＥ２２のブロック図を示す。利得制御要素ＧＣ２０は、ＶＡＤ信号ＶＳ１０によってボイスを含んでいるとして識別されたセグメントを渡し、ＶＡＤ信号ＶＳ１０によって雑音のみとして識別されたセグメントをブロックすること（「ゲーティング」とも呼ばれる）によって、音声信号ＳＳ１０を生成するように構成され得る。

ボイスアクティビティがないとして識別された、第３のオーディオ信号ＡＳ３０のセグメントを減衰又は除去することによって、音声推定器ＳＥ２０又はＳＥ２２は、全体的に第３のオーディオ信号ＡＳ３０よりも雑音が少ない音声信号ＳＳ１０を生成することが予想され得る。しかしながら、ボイスアクティビティを含んでいる第３のオーディオ信号ＡＳ３０のセグメント中にもそのような雑音が存在することも予想され得、これらのセグメント内の雑音を低減するために1つ以上の追加の演算を実行するように音声推定器ＳＥ１０を構成することが望ましいことがある。

典型的な環境における音響雑音には、バブル雑音、空港雑音、街頭雑音、競合する話し手のボイス、及び／又は干渉源（例えば、テレビ受像機又はラジオ）からの音があり得る。従って、そのような雑音は、一般に非定常であり、ユーザ自身のボイスの平均スペクトルに近い平均スペクトルを有することがある。シングルチャネルＶＡＤ信号（例えば、第３のオーディオ信号ＡＳ３０のみに基づいているＶＡＤ信号）に従って計算される雑音パワー基準信号は、通常、近似定常雑音推定値のみである。その上、そのような計算は一般に雑音パワー推定遅延を伴うので、かなりの遅延の後にしか、対応する利得調整を実行することができない。環境雑音の確実な同時推定値を得ることが望ましいことがある。

ＶＡＤ信号ＶＳ１０を使用して第３のオーディオ信号ＡＳ３０の成分及び／又はセグメントを分類することによって、（「準シングルチャネル」雑音推定値とも呼ばれる）改善されたシングルチャネル雑音基準が計算され得る。そのような雑音推定値は、長期推定値を必要としないので、他の手法よりも迅速に利用可能であり得る。また、このシングルチャネル雑音基準は、一般に非定常雑音の除去をサポートすることができない長期推定値ベースの手法とは異なり、非定常雑音をキャプチャすることができる。そのような方法は、高速、正確、及び非定常の雑音基準を与え得る。装置Ａ１００は、（例えば、場合によっては各周波数成分に対して第１度平滑器（first-degree smoother）を使用して）現在の雑音セグメントを雑音推定値の前の状態で平滑化することによって雑音推定値を生成するように構成され得る。

図５Ａに、セレクタＧＣ２０の実装形態ＧＣ２２を含む音声推定器ＳＥ２２の実装形態ＳＥ３０のブロック図を示す。セレクタＧＣ２２は、ＶＡＤ信号ＶＳ１０の対応する状態に基づいて、第３のオーディオ信号ＡＳ３０を雑音の多い音声セグメントＮＳＦ１０のストリームと雑音セグメントＮＦ１０のストリームとに分離するように構成される。音声推定器ＳＥ３０はまた、雑音セグメントＮＦ１０からの情報に基づいて雑音推定値ＮＥ１０（例えば、第３のオーディオ信号ＡＳ３０の雑音成分のスペクトルプロファイル）を更新するように構成された雑音推定器ＮＳ１０を含む。

雑音推定器ＮＳ１０は、雑音推定値ＮＥ１０を雑音セグメントＮＦ１０の時間平均として計算するように構成され得る。雑音推定器ＮＳ１０は、例えば、各雑音セグメントを使用して雑音推定値を更新するように構成され得る。そのような更新は、周波数成分値を時間的に平滑化することによって周波数領域において実行され得る。例えば、雑音推定器ＮＳ１０は、１次ＩＩＲフィルタを使用して、雑音推定値の各成分の前の値を現在の雑音セグメントの対応する成分の値で更新するように構成され得る。そのような雑音推定値は、第３のオーディオ信号ＡＳ３０からのＶＡＤ情報のみに基づいている値よりも信頼できる雑音基準を与えることが予想され得る。

音声推定器ＳＥ３０はまた、音声信号ＳＳ１０を生成するために、雑音の多い音声セグメントＮＳＦ１０に対して雑音低減演算を実行するように構成された雑音低減モジュールＮＲ１０を含む。１つのそのような例では、雑音低減モジュールＮＲ１０は、周波数領域において音声信号ＳＳ１０を生成するために、雑音の多い音声フレームＮＳＦ１０から雑音推定値ＮＥ１０を減算することによってスペクトル減算演算を実行するように構成される。別のそのような例では、雑音低減モジュールＮＲ１０は、音声信号ＳＳ１０を生成するために、雑音推定値ＮＥ１０を使用して、雑音の多い音声フレームＮＳＦ１０に対してウィーナーフィルタ処理演算を実行するように構成される。

雑音低減モジュールＮＲ１０は、時間領域において音声信号ＳＳ１０を生成するために、周波数領域において雑音低減演算を実行し、得られた信号を（例えば、逆変換モジュールを介して）変換するように構成され得る。雑音推定器ＮＳ１０及び／又は雑音低減モジュールＮＲ１０内で使用され得る後処理演算（例えば、残留雑音抑圧、雑音推定値合成）のさらなる例は、米国特許出願第６１／４０６，３８２号（Ｓｈｉｎら、２０１０年１０月２５日出願）に記載されている。

図６Ａに、ボイスアクティビティ検出器ＶＡＤ１０の実装形態ＶＡＤ１４と、音声推定器ＳＥ１０の実装形態ＳＥ４０とを含む装置Ａ１００の実装形態Ａ１２０のブロック図を示す。ボイスアクティビティ検出器ＶＡＤ１４は、ＶＡＤ信号ＶＳ１０の２つのバージョン、即ち上記で説明した２進値信号ＶＳ１０ａと上記で説明した多値信号ＶＳ１０ｂとを生成するように構成される。一例では、検出器ＶＡＤ１４は、信号ＶＳ１０ａに対して、（例えば、１次ＩＩＲフィルタを使用した）時間平滑化演算と、場合によっては慣性演算（例えば、ハングオーバ）とを実行することによって信号ＶＳ１０ｂを生成するように構成される。

図６Ｂに、音声推定値ＳＥ１０を生成するために、ＶＡＤ信号ＶＳ１０ｂに従って第３のオーディオ信号ＡＳ３０に対して非２値利得制御を実行するように構成された利得制御要素ＧＣ１０のインスタンスを含む音声推定器ＳＥ４０のブロック図を示す。音声推定器ＳＥ４０はまた、ＶＡＤ信号ＶＳ１０ａに従って第３のオーディオ信号ＡＳ３０から雑音フレームＮＦ１０のストリームを生成するように構成されたセレクタＧＣ２０の実装形態ＧＣ２４を含む。

上記で説明したように、マイクロフォンアレイＭＬ１０及びＭＲ１０からの空間情報を使用して、マイクロフォンＭＣ１０からのボイス情報を向上させるために適用されるＶＡＤ信号を生成する。また、マイクロフォンアレイＭＣ１０及びＭＬ１０（又はＭＣ１０及びＭＲ１０）からの空間情報を使用して、マイクロフォンＭＣ１０からのボイス情報を向上させることが望ましいことがある。

第１の例では、マイクロフォンアレイＭＣ１０及びＭＬ１０（又はＭＣ１０及びＭＲ１０）からの空間情報に基づいているＶＡＤ信号を使用してマイクロフォンＭＣ１０からのボイス情報を向上させる。図５Ｂに、装置Ａ１００のそのような実装形態Ａ１３０のブロック図を示す。装置Ａ１３０は、第２のオーディオ信号ＡＳ２０からの情報と、第３のオーディオ信号ＡＳ３０からの情報とに基づいて、第２のＶＡＤ信号ＶＳ２０を生成するように構成された第２のボイスアクティビティ検出器ＶＡＤ２０を含む。検出器ＶＡＤ２０は、時間領域において、又は周波数領域において動作するように構成され得、本明細書で説明するマルチチャネルボイスアクティビティ検出器（例えば、チャネル間レベル差に基づいている検出器、位相ベース及び相互相関ベースの検出器を含む、到着方向に基づいている検出器）のいずれかのインスタンスとして実装され得る。

利得ベースの方式が使用された場合、検出器ＶＡＤ２０は、第２のオーディオ信号ＡＳ２０のレベルに対する第３のオーディオ信号ＡＳ３０のレベルの比がしきい値を超えた（代替的に、それ以上である）場合はボイスアクティビティがあることを示し、他の場合はボイスアクティビティがないことを示すＶＡＤ信号ＶＳ２０を生成するように構成され得る。同等に、検出器ＶＡＤ２０は、第３のオーディオ信号ＡＳ３０のレベルの対数と第２のオーディオ信号ＡＳ２０のレベルの対数との間の差がしきい値を超えた（代替的に、それ以上である）場合はボイスアクティビティがあることを示し、他の場合はボイスアクティビティがないことを示すＶＡＤ信号ＶＳ２０を生成するように構成され得る。

ＤＯＡベースの方式が使用された場合、検出器ＶＡＤ２０は、セグメントのＤＯＡが、マイクロフォンＭＲ１０からマイクロフォンＭＣ１０に向かうマイクロフォンペアの軸に近い（例えば、１０、１５、２０、３０、又は４５度以内である）場合はボイスアクティビティがあることを示し、他の場合はボイスアクティビティがないことを示すＶＡＤ信号ＶＳ２０を生成するように構成され得る。

装置Ａ１３０はまた、ＶＡＤ信号ＶＳ１０を得るために、ＶＡＤ信号ＶＳ２０を、本明細書で説明する、第１のオーディオ信号ＡＳ１０と第２のオーディオ信号ＡＳ２０とに対するＶＡＤ演算のうちの１つ又は複数（例えば、時間領域相互相関ベースの演算）の結果と、及び場合によっては本明細書で説明する第３のオーディオ信号ＡＳ３０に対する1つ以上のＶＡＤ演算の結果と（例えば、ＡＮＤ論理及び／又はＯＲ論理を使用して）合成するように構成されたボイスアクティビティ検出器ＶＡＤ１０の実装形態ＶＡＤ１６を含む。

第２の例では、マイクロフォンアレイＭＣ１０及びＭＬ１０（又はＭＣ１０及びＭＲ１０）からの空間情報を使用して、音声推定器ＳＥ１０のアップストリームのマイクロフォンＭＣ１０からのボイス情報を向上させる。図７Ａに、装置Ａ１００のそのような実装形態Ａ１４０のブロック図を示す。装置Ａ１４０は、フィルタ処理された信号ＦＳ１０を生成するために、第２のオーディオ信号ＡＳ２０と第３のオーディオ信号ＡＳ３０とに対して空間選択的処理（ＳＳＰ：spatially selective processing）演算を実行するように構成されたＳＳＰフィルタＳＳＰ１０を含む。そのようなＳＳＰ演算の例には、（限定はしないが）ブラインド音源分離、ビームフォーミング、ヌルビームフォーミング、及び方向マスキング方式がある。そのような演算は、例えば、フィルタ処理された信号ＦＳ１０のボイスアクティブフレームが、第３のオーディオ信号ＡＳ３０の対応するフレームよりも、ユーザのボイスのエネルギーをより多く（及び／又は他の指向性音源からの、及び／又は背景雑音からのエネルギーをより少なく）含むように構成され得る。この実装形態では、音声推定器ＳＥ１０は、第３のオーディオ信号ＡＳ３０の代わりにフィルタ処理された信号ＦＳ１０を入力として受信するように構成される。

図８Ａに、フィルタ処理された雑音信号ＦＮ１０を生成するように構成されたＳＳＰフィルタＳＳＰ１０の実装形態ＳＳＰ１２を含む装置Ａ１００の実装形態Ａ１５０のブロック図を示す。フィルタＳＳＰ１２は、例えば、フィルタ処理された雑音信号ＦＮ１０のフレームが、第３のオーディオ信号ＡＳ３０の対応するフレームよりも、指向性雑音源からの及び／又は背景雑音からのエネルギーをより多く含むように構成され得る。装置Ａ１５０はまた、フィルタ処理された信号ＦＳ１０とフィルタ処理された雑音信号ＦＮ１０とを入力として受信するように構成され、配置された音声推定器ＳＥ３０の実装形態ＳＥ５０を含む。図９Ａに、ＶＡＤ信号ＶＳ１０に従って、フィルタ処理された信号ＦＳ１０から雑音の多い音声フレームＮＳＦ１０のストリームを生成するように構成されたセレクタＧＣ２０のインスタンスを含む音声推定器ＳＥ５０のブロック図を示す。音声推定器ＳＥ５０はまた、ＶＡＤ信号ＶＳ１０に従って、フィルタ処理された雑音信号ＦＮ３０から雑音フレームＮＦ１０のストリームを生成するように構成され、配置されたセレクタＧＣ２４のインスタンスを含む。

位相ベースのボイスアクティビティ検出器の一例では、周波数成分ごとに、その周波数における位相差が、所望の範囲内にある方向に対応するかどうかを判断するために、方向マスキング関数が適用され、２値ＶＡＤ指示を得るために、テスト中の周波数レンジにわたってそのようなマスキングの結果に従ってコヒーレンシ測度が計算され、しきい値と比較される。そのような手法は、（例えば、単一の方向マスキング関数が全ての周波数において使用され得るように）各周波数における位相差を、到着方向又は到達時間差など、方向の周波数独立インジケータに変換することを含み得る。代替的に、そのような手法は、各周波数において観測される位相差に異なるそれぞれのマスキング関数を適用することを含み得る。

位相ベースのボイスアクティビティ検出器の別の例では、テスト中の周波数レンジ内の個々の周波数成分についての到着方向の分布の形状（例えば、個々のＤＯＡが互いにどのくらい緊密にグループ化されるか）に基づいてコヒーレンシ測度が計算される。いずれの場合も、現在のピッチ推定値の倍数である周波数のみに基づいてコヒーレンシ測度を計算するように位相ベースのボイスアクティビティ検出器を構成することが望ましいことがある。

検査されるべき周波数成分ごとに、例えば、位相ベースの検出器は、ＦＦＴ係数の実数項に対する、対応する高速フーリエ変換（ＦＦＴ）係数の虚数項の比の逆タンジェント（アークタンジェントとも呼ばれる）として位相を推定するように構成され得る。

広帯域周波数レンジ上で各ペアのチャネル間の方向コヒーレンスを判断するように位相ベースのボイスアクティビティ検出器を構成することが望ましいことがある。そのような広帯域レンジは、例えば、０、５０、１００、又は２００Ｈｚの低周波限界から、３、３．５、又は４ｋＨｚの（或いは最高７又は８ｋＨｚ以上など、さらにより高い）高周波限界に及び得る。ただし、検出器は、信号の帯域幅全体にわたって位相差を計算することが不要であり得る。例えば、そのような広帯域レンジにおける多くの帯域では、位相推定が実際的でないか又は不要であり得る。超低周波数における受信した波形の位相関係の実際的評価は、一般に、トランスデューサ間で相応して大きい間隔を必要とする。従って、マイクロフォン間の最大の利用可能な間隔は、低周波限界を確立し得る。一方、マイクロフォン間の距離は、空間エイリアシングを回避するために、最小波長の１／２を超えるべきではない。例えば、８キロヘルツサンプリングレートは０から４キロヘルツまでの帯域幅を与える。４ｋＨｚ信号の波長は約８．５センチメートルであるので、この場合、隣接するマイクロフォン間の間隔は約４センチメートルを超えるべきではない。マイクロフォンチャネルは、空間エイリアシングを生じ得る周波数を除去するために低域フィルタ処理され得る。

音声信号（又は他の所望の信号）が方向的にコヒーレントであることが予想され得る、特定の周波数成分又は特定の周波数レンジをターゲットにすることが望ましいことがある。（例えば、自動車などの音源からの）指向性雑音及び／又は拡散雑音など、背景雑音は同じ範囲にわたって方向的にコヒーレントでないことになることが予想され得る。音声は４から８キロヘルツまでの範囲において低電力を有する傾向があり、従って、少なくともこの範囲にわたって位相推定を控えることが望ましいことがある。例えば、約７００ヘルツから約２キロヘルツまでの範囲にわたって位相推定を実行し、方向コヒーレンシを判断することが望ましいことがある。

従って、周波数成分の全てよりも少数の周波数成分について（例えば、ＦＦＴの周波数サンプルの全てよりも少数の周波数サンプルについて）位相推定値を計算するように検出器を構成することが望ましいことがある。一例では、検出器は７００Ｈｚ〜２０００Ｈｚの周波数レンジについて位相推定値を計算する。４キロヘルツ帯域幅信号の１２８点ＦＦＴの場合、７００〜２０００Ｈｚの範囲は、ほぼ、第１０のサンプルから第３２のサンプルまでの２３個の周波数サンプルに対応する。信号についての現在のピッチ推定値の倍数に対応する周波数成分について位相差のみを考慮するように検出器を構成することも望ましいことがある。

位相ベースのボイスアクティビティ検出器は、計算された位相差からの情報に基づいて、チャネルペアの方向コヒーレンスを評価するように構成され得る。マルチチャネル信号の「方向コヒーレンス」は、信号の様々な周波数成分が同じ方向から到着する程度として定義される。理想的に方向的にコヒーレントなチャネルペアの場合、

の値は全ての周波数について定数ｋに等しく、ここで、ｋの値は到着方向θ及び到着時間遅延τに関係する。マルチチャネル信号の方向コヒーレンスは、例えば、（例えば、方向マスキング関数によって示されるように）各周波数成分について推定される到着方向が特定の方向にどのくらい良く適合するかに従って、（位相差と周波数との比によって、又は到着時間遅延によって示されることもある）各周波数成分について推定される到着方向を評価する(rating)ことと、次いで、その信号についてのコヒーレンシ測度を取得するために様々な周波数成分についての評価結果(rating results)を組み合わせることとによって、定量化され得る。

コヒーレンシ測度を時間平滑化値として生成すること（例えば、時間平滑化関数を使用してコヒーレンシ測度を計算すること）が望ましいことがある。コヒーレンシ測度の対比は、コヒーレンシ測度の現在値と、経時的コヒーレンシ測度の平均値（例えば、直近の１０、２０、５０、又は１００フレームにわたる平均値、最頻値、又は中央値）との間の関係の値（例えば、差又は比）として表され得る。コヒーレンシ測度の平均値は、時間平滑化関数を使用して計算され得る。また、方向コヒーレンスの測度の計算及び適用を含む、位相ベースＶＡＤ技法は、例えば、米国特許出願公開第２０１０／０３２３６５２Ａ１号及び第２０１１／０３８４８９Ａ１号（Visserら）に記載されている。

利得ベースＶＡＤ技法は、各チャネルについてレベル又は利得測度の対応する値の間の差に基づいてセグメント中のボイスアクティビティの存在又は不在を示すように構成され得る。（時間領域において又は周波数領域において計算され得る）そのような利得測度の例は、合計大きさ、平均大きさ、ＲＭＳ振幅、中央大きさ、ピーク大きさ、総エネルギー、及び平均エネルギーを含む。利得測度に対して及び／又は計算された差に対して時間平滑化演算を実行するように検出器を構成することが望ましいことがある。利得ベースＶＡＤ技法は、（例えば、所望の周波数レンジにわたる）セグメントレベルの結果、又は代替的に、各セグメントの複数のサブバンドの各々についての結果を生成するように構成され得る。

チャネル間の利得差が近接度検出のために使用され得、これは、より良い前面雑音抑圧（例えば、ユーザの前の干渉話者の抑圧）など、よりアグレッシブな近距離場／遠距離場区別(near-field/far-field discrimination)をサポートし得る。マイクロフォン間の距離に応じて、平衡マイクロフォンチャネル間の利得差は、一般に、音源が５０センチメートル又は１メートル以内にある場合のみ発生することになる。

利得ベースＶＡＤ技法は、チャネルの利得間の差がしきい値よりも大きいとき、セグメントが、マイクロフォンアレイの縦方向（endfire direction）における所望の音源からのものであることを検出する（例えば、ボイスアクティビティの検出を示す）ように構成され得る。代替的に、利得ベースＶＡＤ技法は、チャネルの利得間の差がしきい値よりも小さいとき、セグメントがマイクロフォンアレイの横方向（broadside direction）における所望の音源からのものであることを検出する（例えば、ボイスアクティビティの検出を示す）ように構成され得る。しきい値はヒューリスティックに判断され得、信号対雑音比（ＳＮＲ）、雑音フロアなどの1つ以上のファクタに応じて異なるしきい値を使用すること（例えば、ＳＮＲが低いときにより高いしきい値を使用すること）が望ましいことがある。また、利得ベースＶＡＤ技法は、例えば、米国特許出願公開第２０１０／０３２３６５２Ａ１号（Visserら）に記載されている。

図２０Ａに、第１のマイクロフォン信号ＭＳ１０からの情報と第２のマイクロフォン信号ＭＳ２０からの情報とに基づいて雑音基準Ｎ１０を生成するように構成された計算器ＣＬ１０を含む装置Ａ１００の実装形態Ａ１６０のブロック図を示す。計算器ＣＬ１０は、例えば、第１のオーディオ信号ＡＳ１０と第２のオーディオ信号ＡＳ２０との間の差として（例えば、信号ＡＳ１０から信号ＡＳ２０を減算することによって、又はその逆によって）雑音基準Ｎ１０を計算するように構成され得る。装置Ａ１６０はまた、ＶＡＤ信号ＶＳ１０に従って、セレクタＧＣ２０が、第３のオーディオ信号ＡＳ３０から雑音の多い音声フレームＮＳＦ１０のストリームを生成するように構成され、セレクタＧＣ２４が、雑音基準Ｎ１０から雑音フレームＮＦ１０のストリームを生成するように構成されるように、図２０Ｂに示すように、第３のオーディオ信号ＡＳ３０と雑音基準Ｎ１０とを入力として受信するように配置された音声推定器ＳＥ５０のインスタンスを含む。

図２１Ａに、上記で説明した計算器ＣＬ１０のインスタンスを含む装置Ａ１００の実装形態Ａ１７０のブロック図を示す。装置Ａ１７０はまた、利得制御要素ＧＣ１０が、音声推定値ＳＥ１０を生成するために、ＶＡＤ信号ＶＳ１０ｂに従って第３のオーディオ信号ＡＳ３０に対して非２値利得制御を実行するように構成され、セレクタＧＣ２４が、ＶＡＤ信号ＶＳ１０ａに従って雑音基準Ｎ１０から雑音フレームＮＦ１０のストリームを生成するように構成されるように、図２１Ｂに示すように、第３のオーディオ信号ＡＳ３０と雑音基準Ｎ１０とを入力として受信するように配置された、音声推定器ＳＥ４０の実装形態ＳＥ４２を含む。

装置Ａ１００はまた、ユーザの耳の各々においてオーディオ信号を再生するように構成され得る。例えば、装置Ａ１００は、（例えば、図３Ｂに示すように装着される）イヤホンのペアを含むように実装され得る。図７Ｂに、左ラウドスピーカＬＬＳ１０と左雑音基準マイクロフォンＭＬ１０とを含んでいるイヤホンＥＢ１０の例の正面図を示す。使用中に、イヤホンＥＢ１０は、（例えば、コードＣＤ１０を介して受信された信号から）左ラウドスピーカＬＬＳ１０によって生成された音響信号をユーザの耳道に向けるためにユーザの左耳に装着される。音響信号をユーザの耳道に向けるイヤホン(earbud)ＥＢ１０の一部分は、ユーザの耳道を密閉するように快適に装着され得るように、エラストマー（例えば、シリコーンゴム）など、弾性のある材料で製造されているか、又は覆われていることが望ましいことがある。

図８Ｂに、装置Ａ１００のコード付き実装形態におけるイヤホンＥＢ１０のインスタンスとボイスマイクロフォンＭＣ１０のインスタンスとを示す。この例では、マイクロフォンＭＣ１０は、マイクロフォンＭＬ１０から約３〜４センチメートルの距離のところで、コードＣＤ１０の半硬式ケーブル部分ＣＢ１０に取り付けられる。半硬式ケーブルＣＢ１０は、柔軟及び軽量であるが、使用中にマイクロフォンＭＣ１０をユーザの口のほうへ向けた状態に保つのに十分固く構成され得る。図９Ｂに、使用中にマイクロフォンＭＣ１０がユーザの口のほうへ向けられるように、イヤホンのコードＣＤ１０の張力緩和（strain-relief）部分内にマイクロフォンＭＣ１０が取り付けられたイヤホンＥＢ１０のインスタンスの側面図を示す。

装置Ａ１００は、ユーザの頭部全体に装着されるように構成され得る。そのような場合、装置Ａ１００は、音声信号ＳＳ１０を生成し、無線又は有線リンクを介して、それを通信機器に送信し、通信機器から再生オーディオ信号（例えば、遠端通信信号(far-end communications signal)）を受信するように構成され得る。代替的に、装置Ａ１００は、通信機器（それの例には、限定はしないが、セルラー電話、スマートフォン、タブレットコンピュータ、及びラップトップコンピュータがある）中に、処理要素（例えば、ボイスアクティビティ検出器ＶＡＤ１０及び／又は音声推定器ＳＥ１０）の一部又は全部が配置されるように構成され得る。いずれの場合も、有線リンクを介した通信機器との信号伝達は、図９Ｃに示す３．５ミリメートルチップリングリングスリーブ（ＴＲＲＳ：tip-ring-ring-sleeve）プラグＰ１０などの多芯プラグを通して実行され得る。

装置Ａ１００は、ユーザが（例えば、通話を開始、応答、及び／又は終了するために）通信機器のオンフックステータスとオフフックステータスとをそれによって制御し得るフックスイッチＳＷ１０を（例えば、イヤホン又はイヤカップ上に）含むように構成され得る。図９Ｄに、フックスイッチＳＷ１０がコードＣＤ１０に一体化された例を示し、図９Ｅに、プラグＰ１０と、フックスイッチＳＷ１０の状態を通信機器に伝達するように構成された同軸プラグＰ２０とを含むコネクタの例を示す。

イヤホンの代替として、装置Ａ１００は、一般に、ユーザの頭部に装着されるバンドによって結合されるイヤカップのペアを含むように実装され得る。図１１Ａに、（例えば、ワイヤレスに、又はコードＣＤ１０を介して受信された信号から）ユーザの耳への音響信号を生成するように配置された、右ラウドスピーカＲＬＳ１０を含んでいるイヤカップＥＣ１０、及びイヤカップハウジング中の音響ポートを介して環境雑音信号を受信するように配置された右雑音基準マイクロフォンＭＲ１０の断面図を示す。イヤカップＥＣ１０は、耳載せ形（supra-aural）に（即ち、耳を囲むことなくユーザの耳の上に載るように）又は耳覆い形（circumaural）に（即ち、ユーザの耳を覆うように）構成され得る。

従来のアクティブ雑音消去ヘッドセットの場合と同様に、マイクロフォンＭＬ１０及びＭＲ１０の各々は、それぞれの耳道入口位置における受信ＳＮＲを改善するために個別に使用され得る。図１０Ａに、装置Ａ１００のそのような実装形態Ａ２００のブロック図を示す。装置Ａ２００は、第１のマイクロフォン信号ＭＳ１０からの情報に基づいてアンチノイズ信号ＡＮ１０を生成するように構成されたＡＮＣフィルタＮＣＬ１０と、第２のマイクロフォン信号ＭＳ２０からの情報に基づいてアンチノイズ信号ＡＮ２０を生成するように構成されたＡＮＣフィルタＮＣＲ１０とを含む。

ＡＮＣフィルタＮＣＬ１０、ＮＣＲ１０の各々は、対応するオーディオ信号ＡＳ１０、ＡＳ２０に基づいて、対応するアンチノイズ信号ＡＮ１０、ＡＮ２０を生成するように構成され得る。ただし、アンチノイズ処理経路がデジタル前処理段Ｐ２０ａ、Ｐ２０ｂによって実行される1つ以上の前処理演算（例えば、エコー消去）をバイパスすることが望ましいことがある。装置Ａ２００は、第１のマイクロフォン信号ＭＳ１０からの情報に基づいて雑音基準ＮＲＦ１０を生成し、第２のマイクロフォン信号ＭＳ２０からの情報に基づいて雑音基準ＮＲＦ２０を生成するように構成されたオーディオ前処理段ＡＰ１０のそのような実装形態ＡＰ１２を含む。図１０Ｂに、雑音基準ＮＲＦ１０、ＮＲＦ２０が、対応するデジタル前処理段Ｐ２０ａ、Ｐ２０ｂをバイパスするオーディオ前処理段ＡＰ１２の実装形態ＡＰ２２のブロック図を示す。図１０Ａに示す例では、ＡＮＣフィルタＮＣＬ１０は、雑音基準ＮＲＦ１０に基づいてアンチノイズ信号ＡＮ１０を生成するように構成され、ＡＮＣフィルタＮＣＲ１０は、雑音基準ＮＲＦ２０に基づいてアンチノイズ信号ＡＮ２０を生成するように構成される。

ＡＮＣフィルタＮＣＬ１０、ＮＣＲ１０の各々は、任意の所望のＡＮＣ技法に従って対応するアンチノイズ信号ＡＮ１０、ＡＮ２０を生成するように構成され得る。そのようなＡＮＣフィルタは、一般に、雑音基準信号の位相を反転させるように構成され、また、周波数応答を等化し、及び／又は遅延を整合させるか若しくは最小限に抑えるように構成され得る。アンチノイズ信号ＡＮ１０を生成するために、マイクロフォン信号ＭＬ１０からの情報に対して（例えば、第１のオーディオ信号ＡＳ１０又は雑音基準ＮＲＦ１０に対して）ＡＮＣフィルタＮＣＬ１０によって実行され、アンチノイズ信号ＡＮ２０を生成するために、マイクロフォン信号ＭＲ１０からの情報に対して（例えば、第２のオーディオ信号ＡＳ２０又は雑音基準ＮＲＦ２０に対して）ＡＮＣフィルタＮＣＲ１０によって実行され得るＡＮＣ演算の例には、位相反転フィルタ処理演算、最小２乗平均（ＬＭＳ）フィルタ処理演算、ＬＭＳの変形態又は派生物（例えば、米国特許出願公開第２００６／００６９５６６号（Nadjarら）などに記載されているfiltered-x ＬＭＳ）、並びに（例えば、米国特許第５，１０５，３７７号（Ziegler）に記載されている）デジタルバーチャルアースアルゴリズムがある。ＡＮＣフィルタＮＣＬ１０、ＮＣＲ１０の各々は、時間領域及び／又は変換領域（例えば、フーリエ変換若しくは他の周波数領域）において対応するＡＮＣ演算を実行するように構成され得る。

装置Ａ２００は、ユーザの左耳に装着するように構成された左ラウドスピーカＬＬＳ１０を駆動するために、アンチノイズ信号ＡＮ１０を受信し、対応するオーディオ出力信号ＯＳ１０を生成するように構成されたオーディオ出力段ＯＬ１０を含む。装置Ａ２００は、ユーザの右耳に装着するように構成された右ラウドスピーカＲＬＳ１０を駆動するために、アンチノイズ信号ＡＮ２０を受信し、対応するオーディオ出力信号ＯＳ２０を生成するように構成されたオーディオ出力段ＯＲ１０を含む。オーディオ出力段ＯＬ１０、ＯＲ１０は、アンチノイズ信号ＡＮ１０、ＡＮ２０をデジタル形式からアナログ形式に変換することによって、及び／又はその信号に対して任意の他の所望のオーディオ処理演算（例えば、その信号に対するフィルタ処理、増幅、利得係数の適用、及び／又はレベルの制御）を実行することによってオーディオ出力信号ＯＳ１０、ＯＳ２０を生成するように構成され得る。オーディオ出力段ＯＬ１０、ＯＲ１０の各々はまた、対応するアンチノイズ信号ＡＮ１０、ＡＮ２０を再生オーディオ信号（例えば、ファーエンド通信信号）及び／又は（例えば、ボイスマイクロフォンＭＣ１０からの）側音信号と混合するように構成され得る。オーディオ出力段ＯＬ１０、ＯＲ１０はまた、対応するラウドスピーカにインピーダンス整合を与えるように構成され得る。

誤差マイクロフォンを含むＡＮＣシステム（例えば、フィードバックＡＮＣシステム）として装置Ａ１００を実装することが望ましいことがある。図１２に、装置Ａ１００のそのような実装形態Ａ２１０のブロック図を示す。装置Ａ２１０は、音響誤差信号を受信し、第１の誤差マイクロフォン信号ＭＳ４０を生成するために、ユーザの左耳に装着されるように構成された左誤差マイクロフォンＭＬＥ１０と、音響誤差信号を受信し、第２の誤差マイクロフォン信号ＭＳ５０を生成するためにユーザの右耳に装着されるように構成された右誤差マイクロフォンＭＬＥ１０とを含む。装置Ａ２１０はまた、第１の誤差信号ＥＳ１０及び第２の誤差信号ＥＳ２０のうちの対応する１つを生成するために、マイクロフォン信号ＭＳ４０及びＭＳ５０の各々に対して本明細書で説明する1つ以上の前処理演算（例えば、アナログ前処理、アナログデジタル変換）を実行するように構成されたオーディオ前処理段ＡＰ１２の（例えば、ＡＰ２２の）実装形態ＡＰ３２を含む。

装置Ａ２１０は、第１のマイクロフォン信号ＭＳ１０からの、及び第１の誤差マイクロフォン信号ＭＳ４０からの情報に基づいてアンチノイズ信号ＡＮ１０を生成するように構成されたＡＮＣフィルタＮＣＬ１０の実装形態ＮＣＬ１２を含む。装置Ａ２１０はまた、第２のマイクロフォン信号ＭＳ２０からの、及び第２の誤差マイクロフォン信号ＭＳ５０からの情報に基づいてアンチノイズ信号ＡＮ２０を生成するように構成されたＡＮＣフィルタＮＣＲ１０の実装形態ＮＣＲ１２を含む。装置Ａ２１０はまた、ユーザの左耳に装着され、アンチノイズ信号ＡＮ１０に基づいて音響信号を生成するように構成された左ラウドスピーカＬＬＳ１０と、ユーザの右耳に装着され、アンチノイズ信号ＡＮ２０に基づいて音響信号を生成するように構成された右ラウドスピーカＲＬＳ１０と含む。

誤差マイクロフォンＭＬＥ１０、ＭＲＥ１０の各々が、対応するラウドスピーカＬＬＳ１０、ＲＬＳ１０によって生成された音場内に配設されることが望ましいことがある。例えば、誤差マイクロフォンは、ヘッドフォンのイヤカップ又はイヤホンの、鼓膜向き部分内にラウドスピーカとともに配設されることが望ましいことがある。誤差マイクロフォンＭＬＥ１０、ＭＲＥ１０の各々が、対応する雑音基準マイクロフォンＭＬ１０、ＭＲ１０よりもユーザの耳道の近くに配置されることが望ましいことがある。誤差マイクロフォンはまた、環境雑音から遮音されることが望ましいことがある。図７Ｃに、左誤差マイクロフォンＭＬＥ１０を含んでいるイヤホンＥＢ１０の実装形態ＥＢ１２の正面図を示す。図１１Ｂに、（例えば、イヤカップハウジング中の音響ポートを介して）誤差信号を受信するように配置された右誤差マイクロフォンＭＲＥ１０を含んでいるイヤカップＥＣ１０の実装形態ＥＣ２０の断面図を示す。イヤホン又はイヤカップの構造によって、ラウドスピーカＬＬＳ１０、ＲＬＳ１０から機械振動を受けることから、対応するマイクロフォンＭＬＥ１０、ＭＲＥ１０を防振することが望ましいことがある。

図１１Ｃに、ボイスマイクロフォンＭＣ１０をも含むイヤカップＥＣ２０の実装形態ＥＣ３０の（例えば、水平面又は垂直面における）断面図を示す。イヤカップＥＣ１０の他の実装形態では、イヤカップＥＣ１０の左又は右のインスタンスから延びるブーム又は他の突出部上にマイクロフォンＭＣ１０が取り付けられ得る。

本明細書で説明する装置Ａ１００の実装形態は、装置Ａ１１０、Ａ１２０、Ａ１３０、Ａ１４０、Ａ２００、及び／又はＡ２１０の機能を組み合わせた実装形態を含む。例えば、装置Ａ１００は、本明細書で説明する装置Ａ１１０、Ａ１２０、及びＡ１３０のうちの任意の２つ以上の機能を含むように実装され得る。そのような組合せはまた、本明細書で説明する装置Ａ１５０、又は本明細書で説明するＡ１４０、Ａ１６０、及び／又はＡ１７０の機能、並びに／若しくは本明細書で説明する装置Ａ２００又はＡ２１０の機能を含むように実装され得る。そのような各組合せは、明確に企図され、本明細書によって開示される。ユーザが雑音基準マイクロフォンＭＬ１０を装着しないことを選定した場合、又はユーザの耳からマイクロフォンＭＬ１０が外れた場合でも、装置Ａ１３０、Ａ１４０、及びＡ１５０などの実装形態は、第３のオーディオ信号ＡＳ３０に基づいて音声信号に雑音抑圧を行い続け得ることにも留意されたい。第１のオーディオ信号ＡＳ１０とマイクロフォンＭＬ１０との間の本明細書における関連付け、及び第２のオーディオ信号ＡＳ２０とマイクロフォンＭＲ１０との間の本明細書における関連付けが便宜上のものにすぎないことと、第１のオーディオ信号ＡＳ１０が代わりにマイクロフォンＭＲ１０に関連付けられ、第２のオーディオ信号ＡＳ２０が代わりにマイクロフォンＭＲ１０に関連付けられる、全てのそのようなケースも企図され、開示されることとにさらに留意されたい。

本明細書で説明する装置Ａ１００の実装形態の処理要素（即ち、トランスデューサでない要素）は、ハードウェアで、及び／又はハードウェアとソフトウェア並びに／若しくはファームウェアとの組合せにおいて実装され得る。例えば、これらの処理要素のうちの１つ又は複数（場合によっては全て）は、音声信号ＳＳ１０に対して1つ以上の他の演算（例えば、ボコーディング）を実行するようにも構成されたプロセッサ上に実装され得る。

マイクロフォン信号（例えば、信号ＭＳ１０、ＭＳ２０、ＭＳ３０）は、電話ハンドセット（例えば、セルラー電話ハンドセット）又はスマートフォン、ワイヤード又はワイヤレスヘッドセット（例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）ヘッドセット）、ハンドヘルドオーディオ及び／又はビデオレコーダ、オーディオ及び／又はビデオコンテンツを記録するように構成されたパーソナルメディアプレーヤ、携帯情報端末（ＰＤＡ）又は他のハンドヘルドコンピューティング機器、並びにノートブックコンピュータ、ラップトップコンピュータ、ネットブックコンピュータ、タブレットコンピュータ、又は他のポータブルコンピューティング機器など、オーディオ記録及び／又はボイス通信アプリケーションのためのポータブルオーディオ感知機器中にある処理チップにルーティングされ得る。

ポータブルコンピューティング機器の種類は現在、ラップトップコンピュータ、ノートブックコンピュータ、ネットブックコンピュータ、ウルトラポータブルコンピュータ、タブレットコンピュータ、モバイルインターネット機器、スマートブック、又はスマートフォンなどの名称を有する機器を含む。そのような機器の１つのタイプは、上記で説明したようにスレート構成又はスラブ構成を有し（例えば、ｉＰａｄ（登録商標）（Apple、Inc.、Cupertino、ＣＡ）、Ｓｌａｔｅ（Hewlett-Packard Co.、Palo Alto、CA）、又はＳｔｒｅａｋ(Dell Inc.、Round Rock、TX)など、上面にタッチスクリーンディスプレイを含むタブレットコンピュータ）、スライドアウト式キーボードを含むこともある。そのような機器の別のタイプは、ディスプレイスクリーンを含む上部パネルと、キーボードを含み得る下部パネルとを有し、２つのパネルは、クラムシェル又は他のヒンジ結合関係で接続され得る。

本明細書で説明する装置Ａ１００の実装形態内で使用され得るポータブルオーディオ感知機器の他の例には、ｉＰｈｏｎｅ（Apple Inc.、Cupertino、CA）、ＨＤ２（HTC、Taiwan、ROC）又はＣＬＩＱ（Motorola, Inc.、Schaumberg、IL）などの電話ハンドセットのタッチスクリーン実装形態がある。

図１３Ａに、装置Ａ１００の実装形態を含む通信機器Ｄ２０のブロック図を示す。（本明細書で説明するポータブルオーディオ感知機器の任意のインスタンスを含むように実装され得る）機器Ｄ２０は、チップ又は装置Ａ１００の処理要素（例えば、オーディオ前処理段ＡＰ１０、ボイスアクティビティ検出器ＶＡＤ１０、音声推定器ＳＥ１０）を組み込むチップセットＣＳ１０（例えば、移動局モデム（ＭＳＭ）チップセット）を含む。チップ／チップセットＣＳ１０は、装置Ａ１００のソフトウェア及び／又はファームウェア部を（例えば、命令として）実行するように構成され得る1つ以上のプロセッサを含み得る。

チップ／チップセットＣＳ１０は、無線周波（ＲＦ）通信信号を受信し、ＲＦ信号内で符号化されたオーディオ信号を復号し再生するように構成された、受信機と、音声信号ＳＳ１０に基づいているオーディオ信号を符号化し、符号化オーディオ信号を記述しているＲＦ通信信号を送信するように構成された、送信機とを含み得る。そのような機器は、1つ以上の（「コーデック」とも呼ばれる）符号化及び復号方式を介してボイス通信データをワイヤレスに送信及び受信するように構成され得る。そのようなコーデックの例には、「Enhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 for Wideband Spread Spectrum Digital Systems」と題する第三世代提携プロジェクト（Third Generation Partnership Project）２（３ＧＰＰ２）文書Ｃ．Ｓ００１４−Ｃ、ｖ１．０、２００７年２月（ｗｗｗ．３ｇｐｐ．ｏｒｇでオンライン入手可能）に記載されている拡張可変レートコーデック（Enhanced Variable Rate Codec）「Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems」と題する３ＧＰＰ２文書Ｃ．Ｓ００３０−０、ｖ３．０、２００４年１月（ｗｗｗ．３ｇｐｐ．ｏｒｇでオンライン入手可能）に記載されている選択可能モードボコーダ音声コーデック（Selectable Mode Vocoder speech codec)、文書ＥＴＳＩＴＳ１２６０９２Ｖ６．０．０（欧州電気通信標準化機構(European Telecommunications Standards Institute（ＥＴＳＩ）)、Sophia Antipolis Cedex、FR、２００４年１２月）に記載されている適応マルチレート(Adaptive Multi Rate)（ＡＭＲ）音声コーデック、及び文書ＥＴＳＩＴＳ１２６１９２Ｖ６．０．０（ＥＴＳＩ、２００４年１２月）に記載されているＡＭＲ広帯域音声コーデックがある。

機器Ｄ２０は、アンテナＣ３０を介してＲＦ通信信号を受信及び送信するように構成される。機器Ｄ２０はまた、アンテナＣ３０への経路中にダイプレクサと1つ以上のパワー増幅器とを含むことができる。また、チップ／チップセットＣＳ１０は、キーパッドＣ１０を介してユーザ入力を受信し、ディスプレイＣ２０を介して情報を表示するように構成される。この例では、機器Ｄ２０はまた、全地球測位システム（Global Positioning System）（ＧＰＳ）ロケーションサービス及び／又は無線（例えば、Ｂｌｕｅｔｏｏｔｈ））ヘッドセットなどの外部機器との短距離通信をサポートする1つ以上のアンテナＣ４０を含む。別の例では、そのような通信機器は、それ自体でＢｌｕｅｔｏｏｔｈヘッドセットであり、キーパッドＣ１０、ディスプレイＣ２０、及びアンテナＣ３０がない。

図１４Ａ〜図１４Ｄに、機器Ｄ２０内に含まれ得るヘッドセットＤ１００の様々なビューを示す。機器Ｄ１００は、マイクロフォンＭＬ１０（又はＭＲ１０）及びＭＣ１０を担持するハウジングＺ１０と、ハウジングから延びて、ユーザの耳道への音響信号を生成するために配設されたラウドスピーカ（例えば、ラウドスピーカＬＬＳ１０又はＲＬＳ１０）を囲むイヤフォンＺ２０とを含む。そのような機器は、セルラー電話ハンドセット（例えば、スマートフォン）などの電話機器とのワイヤード（例えば、コードＣＤ１０を介した）又はワイヤレス（例えば、Bluetooth Special Interest Group, Inc.、Bellevue、WAによって公表されたＢｌｕｅｔｏｏｔｈプロトコルのバージョンを使用した）通信を介して半二重又は全二重電話をサポートするように構成され得る。概して、ヘッドセットのハウジングは、図１４Ａ、図１４Ｂ、及び図１４Ｄに示すように矩形又はさもなければ細長い形（例えば、ミニブームのような形）であるか、或いはより丸い形、さらには円形であり得る。ハウジングはまた、バッテリー及びプロセッサ及び／又は他の処理回路（例えば、プリント回路板及びその上に取り付けられた構成要素）を封入し得、電気的ポート（例えば、ミニユニバーサルシリアルバス（ＵＳＢ）又はバッテリー充電用の他のポート）と、1つ以上のボタンスイッチ及び／又はＬＥＤなどのユーザインターフェース機能とを含み得る。一般に、ハウジングの長軸に沿った長さは１インチから３インチまでの範囲内にある。

図１５に、使用中にユーザの右耳に装着される機器Ｄ１００の例の平面図を示す。この図はまた、機器Ｄ２０内にも含まれ得る、ユーザの左耳に装着されて使用されるヘッドセットＤ１１０のインスタンスを示している。雑音基準マイクロフォンＭＬ１０を支持し、ボイスマイクロフォンがないことがある機器Ｄ１１０は、有線及び／又は無線リンクを介してヘッドセットＤ１００と、及び／又は機器Ｄ２０内の別のポータブルオーディオ感知機器と通信するように構成され得る。

ヘッドセットは、イヤフックＺ３０などの固定機器をも含み得、これは一般にヘッドセットから着脱可能である。外部イヤフックは、例えば、ユーザがヘッドセットをいずれの耳でも使用するように構成することを可能にするために、可逆的であり得る。代替的に、ヘッドセットのイヤホンは、内部固定機器（例えば、イヤプラグ）として設計され得、この内部固定機器は、特定のユーザの耳道の外側部分により良く合うように、異なるユーザが異なるサイズ（例えば、直径）のイヤピースを使用できるようにするための着脱可能イヤピースを含み得る。

一般に、機器Ｄ１００の各マイクロフォンは、機器内に、音響ポートとして働く、ハウジング中の1つ以上の小さい穴の背後に取り付けられる。図１４Ｂ〜図１４Ｄに、ボイスマイクロフォンＭＣ１０のための音響ポートＺ４０のロケーションと雑音基準マイクロフォンＭＬ１０（又はＭＲ１０）のための音響ポートＺ５０のロケーションとを示す。図１３Ｂ及び図１３Ｃに、雑音基準マイクロフォンＭＬ１０、ＭＲ１０、及び誤差マイクロフォンＭＥ１０のための追加の候補ロケーションを示す。

図１６Ａ〜図１６Ｅに、本明細書で説明する装置Ａ１００の実装形態内で使用され得る機器の追加の例を示す。図１６Ａは、テンプルに取り付けられた雑音基準ペアの各マイクロフォンＭＬ１０、ＭＲ１０と、テンプル又は対応する端部に取り付けられたボイスマイクロフォンＭＣ１０とを有する眼鏡（例えば、度付き眼鏡、サングラス、又は安全眼鏡）を示している。図１６Ｂは、ボイスマイクロフォンＭＣ１０がユーザの口の位置に取り付けられ、雑音基準ペアの各マイクロフォンＭＬ１０、ＭＲ１０がユーザの頭部の対応する側に取り付けられたヘルメットを示している。図１６Ｃ〜図１６Ｅは、雑音基準ペアの各マイクロフォンＭＬ１０、ＭＲ１０がユーザの頭部の対応する側に取り付けられたゴーグル（例えば、スキー用ゴーグル）の例を示しており、これらの例の各々は、ボイスマイクロフォンＭＣ１０の異なる対応するロケーションを示している。本明細書で説明する装置Ａ１００の実装形態内で使用され得るポータブルオーディオ感知機器の使用中のボイスマイクロフォンＭＣ１０の配置の追加の例には、限定はしないが、キャップ又はハットのバイザー又は縁、ラペル、胸ポケット、又は肩がある。

本明細書で開示するシステム、方法、及び装置の適用範囲は、限定はしないが、本明細書で開示する、及び／又は図２Ａ〜３Ｂ、図７Ｂ、図７Ｃ、図８Ｂ、図９Ｂ、図１１Ａ〜図１１Ｃ、及び図１３Ｂ〜図１６Ｅに示す特定の例を含むことが明確に開示される。本明細書で説明する装置Ａ１００の実装形態内で使用され得るポータブルコンピューティング機器のさらなる一例は、ハンズフリーカーキットである。そのような機器は、車両のダッシュボード、風防、バックミラー、バイザー、又は別の室内表面の中若しくは上に設置されるか、又はそれらに着脱自在に固定されるように構成され得る。そのような機器は、上記の例などの1つ以上のコーデックを介してボイス通信データをワイヤレスに送信及び受信するように構成され得る。代替又は追加として、そのような機器は、（例えば、上記で説明したようにＢｌｕｅｔｏｏｔｈプロトコルの一バージョンを使用して）セルラー電話ハンドセットなどの電話機器との通信を介した半二重又は全二重テレフォニーをサポートするように構成され得る。

図１７Ａに、タスクＴ１００とＴ２００とを含む一般的構成による方法Ｍ１００のフローチャートを示す。タスクＴ１００は、（例えば、ボイスアクティビティ検出器ＶＡＤ１０に関して本明細書で説明したように）第１のオーディオ信号と第２のオーディオ信号との間の関係に基づいているボイスアクティビティ検出信号を生成する。第１のオーディオ信号は、ユーザのボイスに応答して、ユーザの頭部の側面に位置する第１のマイクロフォンによって生成された信号に基づいている。第２のオーディオ信号は、ユーザのボイスに応答して、ユーザの頭部の他の側面に位置する第２のマイクロフォンによって生成された信号に基づいている。タスクＴ２００は、（例えば、音声推定器ＳＥ１０に関して本明細書で説明したように）音声推定値を生成するために、第３のオーディオ信号にボイスアクティビティ検出信号を適用する。第３のオーディオ信号は、ユーザのボイスに応答して、第１のマイクロフォン及び第２のマイクロフォンとは異なる第３のマイクロフォンによって生成された信号に基づき、第３のマイクロフォンは、第１のマイクロフォン及び第２のマイクロフォンのいずれよりもユーザのボイスの中央出口点に近い、ユーザの頭部の前頭面にある。

図１７Ｂに、タスクＴ１００の実装形態Ｔ１１０を含む方法Ｍ１００の実装形態Ｍ１１０のフローチャートを示す。タスクＴ１１０は、（例えば、ボイスアクティビティ検出器ＶＡＤ１２に関して本明細書で説明したように）第１のオーディオ信号と第２のオーディオ信号との間の関係に基づいて、また第３のオーディオ信号からの情報に基づいてＶＡＤ信号を生成する。

図１７Ｃに、タスクＴ２００の実装形態Ｔ２１０を含む方法Ｍ１００の実装形態Ｍ１２０のフローチャートを示す。タスクＴ２１０は、雑音推定値を生成するために、第３のオーディオ信号に基づいている信号にＶＡＤ信号を適用するように構成され、（例えば、音声推定器ＳＥ３０に関して本明細書で説明したように）音声信号は雑音推定値に基づいている。

図１７Ｄに、タスクＴ４００とタスクＴ１００の実装形態Ｔ１２０とを含む方法Ｍ１００の実装形態Ｍ１３０のフローチャートを示す。タスクＴ４００は、（例えば、第２のボイスアクティビティ検出器ＶＡＤ２０に関して本明細書で説明したように）第１のオーディオ信号と第３のオーディオ信号との間の関係に基づいて第２のＶＡＤ信号を生成する。タスクＴ１２０は、（例えば、ボイスアクティビティ検出器ＶＡＤ１６に関して本明細書で説明したように）第１のオーディオ信号と第２のオーディオ信号との間の関係と、第２のＶＡＤ信号とに基づいてＶＡＤ信号を生成する。

図１８Ａに、タスクＴ５００とタスクＴ２００の実装形態Ｔ２２０とを含む方法Ｍ１００の実装形態Ｍ１４０のフローチャートを示す。タスクＴ５００は、（例えば、ＳＳＰフィルタＳＳＰ１０に関して本明細書で説明したように）フィルタ処理された信号を生成するために、第２のオーディオ信号と第３のオーディオ信号とに対してＳＳＰ演算を実行する。タスクＴ２２０は、音声信号を生成するために、フィルタ処理された信号にＶＡＤ信号を適用する。

図１８Ｂに、タスクＴ５００の実装形態Ｔ５１０とタスクＴ２００の実装形態Ｔ２３０とを含む方法Ｍ１００の実装形態Ｍ１５０のフローチャートを示す。タスクＴ５１０は、（例えば、ＳＳＰフィルタＳＳＰ１２に関して本明細書で説明したように）フィルタ処理された信号とフィルタ処理された雑音信号とを生成するために、第２のオーディオ信号と第３のオーディオ信号とに対してＳＳＰ演算を実行する。タスクＴ２３０は、（例えば、音声推定器ＳＥ５０に関して本明細書で説明したように）音声信号を生成するために、フィルタ処理された信号とフィルタ処理された雑音信号とにＶＡＤ信号を適用する。

図１８Ｃに、タスクＴ６００を含む方法Ｍ１００の実装形態Ｍ２００のフローチャートを示す。タスクＴ６００は、（例えば、ＡＮＣフィルタＮＣＬ１０に関して本明細書で説明したように）第１のアンチノイズ信号を生成するために、第１のマイクロフォンによって生成された信号に基づいている信号に対してＡＮＣ演算を実行する。

図１９Ａに、一般的構成による装置ＭＦ１００のブロック図を示す。装置ＭＦ１００は、（例えば、ボイスアクティビティ検出器ＶＡＤ１０に関して本明細書で説明したように）第１のオーディオ信号と第２のオーディオ信号との間の関係に基づいているボイスアクティビティ検出信号を生成するための手段Ｆ１００を含む。第１のオーディオ信号は、ユーザのボイスに応答して、ユーザの頭部の側面に位置する第１のマイクロフォンによって生成された信号に基づいている。第２のオーディオ信号は、ユーザのボイスに応答して、ユーザの頭部の他の側面に位置する第２のマイクロフォンによって生成された信号に基づいている。装置ＭＦ２００はまた、（例えば、音声推定器ＳＥ１０に関して本明細書で説明したように）音声推定値を生成するために、第３のオーディオ信号にボイスアクティビティ検出信号を適用するための手段Ｆ２００を含む。第３のオーディオ信号は、ユーザのボイスに応答して、第１のマイクロフォン及び第２のマイクロフォンとは異なる第３のマイクロフォンによって生成された信号に基づき、第３のマイクロフォンは、ユーザのボイスの中央出口点に第１のマイクロフォン及び第２のマイクロフォンのいずれよりも近い、ユーザの頭部の前頭面にある。

図１９Ｂに、（例えば、ＳＳＰフィルタＳＳＰ１０に関して本明細書で説明したように）フィルタ処理された信号を生成するために、第２のオーディオ信号と第３のオーディオ信号とに対してＳＳＰ演算を実行するための手段Ｆ５００を含む装置ＭＦ１００の実装形態ＭＦ１４０のブロック図を示す。装置ＭＦ１４０はまた、音声信号を生成するために、フィルタ処理された信号にＶＡＤ信号を適用するように構成された手段Ｆ２００の実装形態Ｆ２２０を含む。

図１９Ｃに、（例えば、ＡＮＣフィルタＮＣＬ１０に関して本明細書で説明したように）第１のアンチノイズ信号を生成するために、第１のマイクロフォンによって生成された信号に基づいている信号に対してＡＮＣ演算を実行するための手段Ｆ６００を含む装置ＭＦ１００の実装形態ＭＦ２００のブロック図を示す。

本明細書で開示する方法及び装置は、概して任意の送受信及び／又はオーディオ感知適用例、特にそのような適用例のモバイル又は場合によってはポータブルインスタンスにおいて適用され得る。例えば、本明細書で開示する構成の範囲は、符号分割多元接続（ＣＤＭＡ）無線インターフェースを採用するように構成されたワイヤレステレフォニー通信システム中に常駐する通信機器を含む。とはいえ、本明細書で説明する特徴を有する方法及び装置は、有線及び／又は無線（例えば、ＣＤＭＡ、ＴＤＭＡ、ＦＤＭＡ、及び／又はＴＤ−ＳＣＤＭＡ）送信チャネルを介したボイスオーバＩＰ（ＶｏＩＰ）を採用するシステムなど、当業者に知られている広範囲の技術を採用する様々な通信システムのいずれにも常駐し得ることが、当業者には理解されよう。

本明細書で開示する通信機器は、パケット交換式であるネットワーク（例えば、ＶｏＩＰなどのプロトコルに従ってオーディオ送信を搬送するように構成された有線及び／又は無線ネットワーク）及び／又は回線交換式であるネットワークにおける使用に適応させられ得ることが明確に企図され、本明細書によって開示される。また、本明細書で開示する通信機器は、狭帯域符号化システム（例えば、約４又は５キロヘルツの可聴周波数レンジを符号化するシステム）での使用、及び／又は全帯域広帯域符号化グシステム及びスプリットバンド広帯域符号化システムを含む、広帯域符号化システム（例えば、５キロヘルツを超える可聴周波数を符号化するシステム）での使用に適応させられ得ることが明確に企図され、本明細書によって開示される。

説明した構成の上記の提示は、本明細書で開示する方法及び他の構造を当業者が製造又は使用できるように与えたものである。本明細書で図示及び説明するフローチャート、ブロック図、及び他の構造は例にすぎず、これらの構造の他の変形態も本開示の範囲内である。これらの構成に対する様々な変更が可能であり、本明細書で提示した一般原理は他の構成にも同様に適用され得る。従って、本開示は、上記に示した構成に限定されるものではなく、原開示の一部をなす、出願した添付の特許請求の範囲を含む、本明細書において任意の方法で開示した原理及び新規の特徴に一致する最も広い範囲が与えられるべきである。

情報及び信号は、多種多様な技術及び技法のいずれかを使用して表され得ることを当業者ならば理解されよう。例えば、上記の説明全体にわたって言及され得るデータ、命令、コマンド、情報、信号、ビット、及びシンボルは、電圧、電流、電磁波、磁界又は磁性粒子、光場又は光学粒子、或いはそれらの任意の組合せによって表され得る。

本明細書で開示する構成の実装形態の重要な設計要件は、８キロヘルツよりも高いサンプリングレート（例えば、１２、１６、４４．１、４８、又は１９２ｋＨｚ）におけるボイス通信の適用例などの計算集約的適用例では特に、（一般に百万命令毎秒又はＭＩＰＳで測定される）処理遅延及び／又は計算複雑さを最小にすることを含み得る。

本明細書で説明するマルチマイクロフォン処理システムの目的は、全体で１０〜１２ｄＢの雑音低減を達成すること、所望の話者の移動中にボイスレベル及びカラーを保持すること、アグレッシブな雑音除去、音声の残響除去の代わりに雑音が背景に移動されたという知覚を取得すること、及び／又はよりアグレッシブな雑音低減のための後処理（例えば、スペクトル減算又はウィーナーフィルタ処理など、雑音推定値に基づいているスペクトルマスキング及び／又は別のスペクトル修正演算）のオプションを可能にすることを含み得る。

本明細書で開示する装置（例えば、装置Ａ１００、Ａ１１０、Ａ１２０、Ａ１３０、Ａ１４０、Ａ１５０、Ａ１６０、Ａ１７０、Ａ２００、Ａ２１０、ＭＦ１００、ＭＦ１０４、及びＭＦ２００）の実装形態の様々な処理要素は、意図された適用例に好適であると考えられる、任意のハードウェア構造、或いはハードウェアとソフトウェア及び／又はファームウェアとの任意の組合せで実施され得る。例えば、そのような要素は、例えば同じチップ上に、又はチップセット中の２つ以上のチップ間に常駐する電子機器及び／又は光機器として作製され得る。そのような機器の一例は、トランジスタ又は論理ゲートなどの論理要素の固定アレイ又はプログラマブルアレイであり、これらの要素のいずれも1つ以上のそのようなアレイとして実装され得る。これらの要素のうちの任意の２つ以上、さらには全てが、同じ1つ以上のアレイ内に実装され得る。そのような1つ以上のアレイは、1つ以上のチップ内（例えば、２つ以上のチップを含むチップセット内）に実装され得る。

本明細書で開示する装置（例えば、装置Ａ１００、Ａ１１０、Ａ１２０、Ａ１３０、Ａ１４０、Ａ１５０、Ａ１６０、Ａ１７０、Ａ２００、Ａ２１０、ＭＦ１００、ＭＦ１４０、及びＭＦ２００）の様々な実装形態の1つ以上の処理要素は、一部が、マイクロプロセッサ、組込みプロセッサ、ＩＰコア、デジタル信号プロセッサ、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、ＡＳＳＰ（特定用途向け標準製品）、及びＡＳＩＣ（特定用途向け集積回路）などの論理要素の1つ以上の固定アレイ又はプログラマブルアレイ上で実行するように構成された命令の1つ以上のセットとしても実装され得る。本明細書で開示する装置の実装形態の様々な要素のいずれも、1つ以上のコンピュータ（例えば、「プロセッサ」とも呼ばれる、命令の1つ以上のセット又はシーケンスを実行するようにプログラムされた1つ以上のアレイを含む機械）としても実施され得、これらの要素のうちの任意の２つ以上、さらには全てが、同じそのような1つ以上のコンピュータ内に実装され得る。

本明細書で開示するプロセッサ又は処理するための他の手段は、例えば同じチップ上に、又はチップセット中の２つ以上のチップ間に常駐する1つ以上の電子機器及び／又は光機器として作製され得る。そのような機器の一例は、トランジスタ又は論理ゲートなどの論理要素の固定アレイ又はプログラマブルアレイであり、これらの要素のいずれも1つ以上のそのようなアレイとして実装され得る。そのような1つ以上のアレイは、1つ以上のチップ内（例えば、２つ以上のチップを含むチップセット内）に実装され得る。そのようなアレイの例には、マイクロプロセッサ、組込みプロセッサ、ＩＰコア、ＤＳＰ、ＦＰＧＡ、ＡＳＳＰ、及びＡＳＩＣなどの論理要素の固定アレイ又はプログラマブルアレイがある。本明細書で開示するプロセッサ又は処理するための他の手段は、1つ以上のコンピュータ（例えば、命令の1つ以上のセット又はシーケンスを実行するようにプログラムされた1つ以上のアレイを含む機械）或いは他のプロセッサとしても実施され得る。本明細書で説明したプロセッサは、プロセッサが組み込まれている機器又はシステム（例えば、オーディオ感知機器）の別の演算に関係するタスクなど、方法Ｍ１００の実装形態のプロシージャに直接関係しないタスクを実行するか又は命令の他のセットを実行するために使用することが可能である。また、本明細書で開示する方法の一部はオーディオ感知機器のプロセッサによって実行され（例えば、テスクＴ２００）、その方法の別の一部は1つ以上の他のプロセッサの制御下で実行される（例えば、テスクＴ６００）ことが可能である。

本明細書で開示する構成に関して説明する様々な例示的なモジュール、論理ブロック、回路、及びテスト並びに他の動作は、電子ハードウェア、コンピュータソフトウェア、又は両方の組合せとして実装され得ることを、当業者なら理解されよう。そのようなモジュール、論理ブロック、回路、及び動作は、本明細書で開示する構成を生成するように設計された、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、ＡＳＩＣ又はＡＳＳＰ、ＦＰＧＡ又は他のプログラマブル論理機器、個別ゲート又はトランジスタロジック、個別ハードウェア構成要素、或いはそれらの任意の組合せを用いて実装又は実行され得る。例えば、そのような構成は、少なくとも部分的に、ハードワイヤード回路として、特定用途向け集積回路へと作製された回路構成として、或いは不揮発性記憶装置にロードされるファームウェアプログラム、又は汎用プロセッサ若しくは他のデジタル信号処理ユニットなどの論理要素のアレイによって実行可能な命令である機械可読コードとしてデータ記憶媒体からロードされる若しくはデータ記憶媒体にロードされるソフトウェアプログラムとして実装され得る。汎用プロセッサはマイクロプロセッサであり得るが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、又は状態機械であり得る。プロセッサはまた、コンピューティング機器の組合せ、例えば、ＤＳＰとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、ＤＳＰコアと連携する1つ以上のマイクロプロセッサ、或いは任意の他のそのような構成として実装され得る。ソフトウェアモジュールは、ＲＡＭ（ランダムアクセスメモリ）、ＲＯＭ（読取り専用メモリ）、フラッシュＲＡＭなどの不揮発性ＲＡＭ（ＮＶＲＡＭ）、消去可能プログラマブルＲＯＭ（ＥＰＲＯＭ）、電気的消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ）、レジスタ、ハードディスク、リムーバブルディスク、又はＣＤ−ＲＯＭなど、非一時的記憶媒体中に、或いは当技術分野で知られている任意の他の形態の記憶媒体中に常駐し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体はプロセッサに一体化され得る。プロセッサ及び記憶媒体はＡＳＩＣ中に常駐し得る。ＡＳＩＣはユーザ端末中に常駐し得る。代替として、プロセッサ及び記憶媒体は、ユーザ端末中に個別構成要素として常駐し得る。

本明細書で開示する様々な方法（例えば、方法Ｍ１００、Ｍ１１０、Ｍ１２０、Ｍ１３０、Ｍ１４０、Ｍ１５０、及びＭ２００）は、プロセッサなどの論理要素のアレイによって実行され得、本明細書で説明する装置の様々な要素は、そのようなアレイ上で実行するように設計されたモジュールとして実装され得ることに留意されたい。本明細書で使用する「モジュール」又は「サブモジュール」という用語は、ソフトウェア、ハードウェア又はファームウェアの形態でコンピュータ命令（例えば、論理式）を含む任意の方法、装置、機器、ユニット又はコンピュータ可読データ記憶媒体を指すことができる。複数のモジュール又はシステムを１つのモジュール又はシステムに結合することができ、１つのモジュール又はシステムを、同じ機能を実行する複数のモジュール又はシステムに分離することができることを理解されたい。ソフトウェア又は他のコンピュータ実行可能命令で実装した場合、プロセスの要素は本質的に、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを用いて関連するタスクを実行するコードセグメントである。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の1つ以上のセット又はシーケンス、及びそのような例の任意の組合せを含むことを理解されたい。プログラム又はコードセグメントは、プロセッサ可読記憶媒体に記憶され得、或いは搬送波に埋め込まれたコンピュータデータ信号によって伝送媒体又は通信リンクを介して送信され得る。

本明細書で開示する方法、方式、及び技法の実装形態は、（例えば、本明細書に記載する1つ以上のコンピュータ可読記憶媒体の有形のコンピュータ可読特徴において）論理要素のアレイ（例えば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、又は他の有限状態機械）を含む機械によって実行可能な命令の1つ以上のセットとしても有形に実施され得る。「コンピュータ可読媒体」という用語は、情報を記憶又は転送することができる、揮発性、不揮発性、取外し可能及び取外し不可能な記憶媒体を含む、任意の媒体を含み得る。コンピュータ可読媒体の例は、電子回路、半導体メモリ機器、ＲＯＭ、フラッシュメモリ、消去可能ＲＯＭ（ＥＲＯＭ）、フロッピー（登録商標）ディスケット又は他の磁気ストレージ、ＣＤ−ＲＯＭ／ＤＶＤ又は他の光ストレージ、ハードディスク、光ファイバー媒体、無線周波（ＲＦ）リンク、或いは所望の情報を記憶するために使用され得、アクセスされ得る、任意の他の媒体を含む。コンピュータデータ信号は、電子ネットワークチャネル、光ファイバー、エアリンク、電磁リンク、ＲＦリンクなどの伝送媒体を介して伝播することができるどんな信号をも含み得る。コードセグメントは、インターネット又はイントラネットなどのコンピュータネットワークを介してダウンロードされ得る。いずれの場合も、本開示の範囲は、そのような実施形態によって限定されると解釈すべきではない。

本明細書で説明する方法のタスクの各々は、ハードウェアで直接実施され得るか、プロセッサによって実行されるソフトウェアモジュールで実施され得るか、又はその２つの組合せで実施され得る。本明細書で開示する方法の実装形態の典型的な適用例では、論理要素のアレイ（例えば、論理ゲート）は、この方法の様々なタスクのうちの１つ、複数、さらには全てを実行するように構成される。タスクのうちの１つ又は複数（場合によっては全て）は、論理要素のアレイ（例えば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、又は他の有限状態機械）を含む機械（例えば、コンピュータ）によって読取り可能及び／又は実行可能であるコンピュータプログラム製品（例えば、ディスク、フラッシュ又は他の不揮発性メモリカード、半導体メモリチップなど、1つ以上のデータ記憶媒体など）に埋め込まれたコード（例えば、命令の1つ以上のセット）としても実装され得る。本明細書で開示する方法の実装形態のタスクは、２つ以上のそのようなアレイ又は機械によっても実行され得る。これらの又は他の実装形態では、タスクは、セルラー電話など、ワイヤレス通信用の機器、又はそのような通信機能をもつ他の機器内で実行され得る。そのような機器は、（ＶｏＩＰなどの1つ以上のプロトコルを使用して）回線交換及び／又はパケット交換ネットワークと通信するように構成され得る。例えば、そのような機器は、符号化フレームを受信及び／又は送信するように構成されたＲＦ回路を含み得る。

本明細書で開示する様々な方法は、ポータブル通信機器（例えば、ハンドセット、ヘッドセット、又は携帯情報端末（ＰＤＡ））によって実行され得ること、及び本明細書で説明する様々な装置は、そのような機器に含まれ得ることが明確に開示される。典型的なリアルタイム（例えば、オンライン）適用例は、そのようなモバイル機器を使用して行われる電話会話である。

1つ以上の例示的な実施形態では、本明細書で説明する動作は、ハードウェア、ソフトウェア、ファームウェア、又はそれらの任意の組合せで実装され得る。ソフトウェアで実装した場合、そのような動作は、1つ以上の命令又はコードとしてコンピュータ可読媒体に記憶され得るか、或いはコンピュータ可読媒体を介して送信され得る。「コンピュータ可読媒体」という用語は、コンピュータ可読記憶媒体と通信（例えば、伝送）媒体の両方を含む。限定ではなく、例として、コンピュータ可読記憶媒体は、（限定はしないが、ダイナミック又はスタティックＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、及び／又はフラッシュＲＡＭを含み得る）半導体メモリ、又は強誘電体メモリ、磁気抵抗メモリ、オボニックメモリ、高分子メモリ、又は相変化メモリなどの記憶要素のアレイ、ＣＤ−ＲＯＭ又は他の光ディスクストレージ、並びに／或いは磁気ディスクストレージ又は他の磁気ストレージ機器を備えることができる。そのような記憶媒体は、コンピュータによってアクセスされ得る命令又はデータ構造の形態で情報を記憶し得る。通信媒体は、ある場所から別の場所へのコンピュータプログラムの転送を可能にする任意の媒体を含む、命令又はデータ構造の形態の所望でプログラムコードを搬送するために使用され得、コンピュータによってアクセスされ得る任意の媒体を備えることができる。また、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。例えば、ソフトウェアが、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、又は赤外線、無線、及び／又はマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、又は他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、ＤＳＬ、又は赤外線、無線、及び／又はマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書で使用するディスク（disk）及びディスク（disc）は、コンパクトディスク（disc）（ＣＤ）、レーザディスク（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピーディスク（disk）及びブルーレイディスク（登録商標）（Blu-Ray Disc Association、Universal City、CA）を含み、ディスク（disk）は、通常、データを磁気的に再生し、ディスク（disc）はデータをレーザで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含めるべきである。

本明細書で説明する音響信号処理装置は、いくつかの動作を制御するために音声入力を受容し、或いは背景雑音から所望の雑音を分離することから利益を得ることがある、通信機器などの電子機器に組み込まれ得る。多くの適用例では、複数の方向発の背景音から明瞭な所望の音を強調又は分離することから利益を得ることがある。そのような適用例では、ボイス認識及び検出、音声強調及び分離、ボイスアクティブ化制御などの機能を組み込んだ電子機器又はコンピューティング機器におけるヒューマンマシンインターフェースを含み得る。限定された処理機能のみを与える機器に適したそのような音響信号処理装置を実装することが望ましいことがある。

本明細書で説明するモジュール、要素、及び機器の様々な実装形態の要素は、例えば、同じチップ上に又はチップセット中の２つ以上のチップ間に常駐する電子機器及び／又は光機器として作製され得る。そのような機器の一例は、トランジスタ又はゲートなど、論理要素の固定アレイ又はプログラマブルアレイである。本明細書で説明する装置の様々な実装形態の1つ以上の要素は、全体又は一部が、マイクロプロセッサ、組込みプロセッサ、ＩＰコア、デジタル信号プロセッサ、ＦＰＧＡ、ＡＳＳＰ、及びＡＳＩＣなど、論理要素の1つ以上の固定アレイ又はプログラマブルアレイ上で実行するように構成された命令の1つ以上のセットとしても実装され得る。

本明細書で説明する装置の実装形態の1つ以上の要素は、装置が組み込まれている機器又はシステムの別の動作に関係するタスクなど、装置の動作に直接関係しないタスクを実施するために、又は装置の動作に直接関係しない命令の他のセットを実行するために、使用することが可能である。また、そのような装置の実装形態の1つ以上の要素は、共通の構造（例えば、異なる要素に対応するコードの部分を異なる時間に実行するために使用されるプロセッサ、異なる要素に対応するタスクを異なる時間に実施するために実行される命令のセット、或いは、異なる要素向けの動作を異なる時間に実施する電子機器及び／又は光機器の構成）を有することが可能である。
以下に本件出願当初の特許請求の範囲に記載された発明を付記する。
［１］信号処理の方法であって、第１のオーディオ信号と第２のオーディオ信号との間の関係に基づいているボイスアクティビティ検出信号を生成することと、音声信号を生成するために、第３のオーディオ信号に基づいている信号に前記ボイスアクティビティ検出信号を適用することとを備え、前記第１のオーディオ信号が、（Ａ）ユーザの頭部の側面に位置する第１のマイクロフォンによって、（Ｂ）前記ユーザのボイスに応答して生成された信号に基づき、前記第２のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記ユーザの頭部の前記他の側面に位置する第２のマイクロフォンによって生成された信号に基づき、前記第３のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記第１のマイクロフォン及び前記第２のマイクロフォンとは異なる第３のマイクロフォンによって生成された信号に基づき、前記第３のマイクロフォンが、前記第１のマイクロフォン及び前記第２のマイクロフォンのいずれよりも前記ユーザのボイスの中央出口点に近い、前記ユーザの頭部の前頭面に位置する、方法。
［２］前記ボイスアクティビティ検出信号を前記適用することが、雑音推定値を生成するために、前記第３のオーディオ信号に基づいている前記信号に前記ボイスアクティビティ検出信号を適用することを備え、前記音声信号が前記雑音推定値に基づいており、［１］に記載の方法。
［３］前記ボイスアクティビティ検出信号を適用することが、音声推定値を生成するために、前記第３のオーディオ信号に基づいている前記信号に前記ボイスアクティビティ検出信号を適用することと、前記音声信号を生成するために、前記雑音推定値に基づいて、前記音声推定値に対して雑音低減演算を実行することと、を備える、［２］に記載の方法。
［４］前記方法が、雑音基準を生成するために、（Ａ）前記第１のマイクロフォンによって生成された信号に基づいている信号と、（Ｂ）前記第２のマイクロフォンによって生成された信号に基づいている信号との間の差を計算することを備え、前記音声信号が前記雑音基準に基づいており、［１］に記載の方法。
［５］音声推定値を生成するために、前記第２のオーディオ信号と前記第３のオーディオ信号とに基づいて、空間選択的処理演算を実行することを備え、第３のオーディオ信号に基づいている前記信号が前記音声推定値である、［１］に記載の方法。
［６］前記ボイスアクティビティ検出信号を生成することが、前記第１のオーディオ信号と前記第２のオーディオ信号との間の相互相関を計算することを備える、［１］に記載の方法。
［７］前記第２のオーディオ信号と前記第３のオーディオ信号との間の関係に基づいている第２のボイスアクティビティ検出信号を生成することを備え、
前記ボイスアクティビティ検出信号が前記第２のボイスアクティビティ検出信号に基づいている、［１］に記載の方法。
［８］フィルタ処理された信号を生成するために、前記第２のオーディオ信号と前記第３のオーディオ信号とに対して空間選択的処理演算を実行することを備え、第３のオーディオ信号に基づいている前記信号が、前記フィルタ処理された信号である、［１］に記載の方法。
［９］第１のアンチノイズ信号を生成するために、前記第１のマイクロフォンによって生成された信号に基づいている信号に対して第１のアクティブ雑音消去演算を実行することと、前記第１のアンチノイズ信号に基づいている音響信号を生成するために、前記ユーザの頭部の前記側面に位置するラウドスピーカを駆動することと、を備える、［１］に記載の方法。
［１０］前記アンチノイズ信号が、前記ユーザの頭部の前記側面に位置する誤差マイクロフォンによって生成された音響誤差信号からの情報に基づいている、［９］に記載の方法。
［１１］信号処理のための装置であって、第１のオーディオ信号と第２のオーディオ信号との間の関係に基づいているボイスアクティビティ検出信号を生成するための手段と、音声信号を生成するために、第３のオーディオ信号に基づいている信号に前記ボイスアクティビティ検出信号を適用するための手段と、を備え、前記第１のオーディオ信号が、（Ａ）ユーザの頭部の側面に位置する第１のマイクロフォンによって、（Ｂ）前記ユーザのボイスに応答して生成された信号に基づき、前記第２のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記ユーザの頭部の前記他の側面に位置する第２のマイクロフォンによって生成された信号に基づき、前記第３のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記第１のマイクロフォン及び前記第２のマイクロフォンとは異なる第３のマイクロフォンによって生成された信号に基づき、前記第３のマイクロフォンが、前記第１のマイクロフォン及び前記第２のマイクロフォンのいずれよりも前記ユーザのボイスの中央出口点に近い、前記ユーザの頭部の前頭面に位置する、装置。
［１２］前記ボイスアクティビティ検出信号を適用するための前記手段が、雑音推定値を生成するために、前記第３のオーディオ信号に基づいている前記信号に前記ボイスアクティビティ検出信号を適用するように構成され、前記音声信号が前記雑音推定値に基づいている、［１１］に記載の装置。
［１３］前記ボイスアクティビティ検出信号を適用するための手段が、音声推定値を生成するために、前記第３のオーディオ信号に基づいている前記信号に前記ボイスアクティビティ検出信号を適用するための手段と、前記音声信号を生成するために、前記雑音推定値に基づいて、前記音声推定値に対して雑音低減演算を実行するための手段と、を備える、［１２］に記載の装置。
［１４］雑音基準を生成するために、（Ａ）前記第１のマイクロフォンによって生成された信号に基づいている信号と、（Ｂ）前記第２のマイクロフォンによって生成された信号に基づいている信号との間の差を計算するための手段を備え、前記音声信号が前記雑音基準に基づいている、［１１］に記載の装置。
［１５］前記装置が、音声推定値を生成するために、前記第２のオーディオ信号と前記第３のオーディオ信号とに基づいて、空間選択的処理演算を実行するための手段を備え、第３のオーディオ信号に基づいている前記信号が前記音声推定値である、［１１］に記載の装置。
［１６］前記ボイスアクティビティ検出信号を生成するための手段が、前記第１のオーディオ信号と前記第２のオーディオ信号との間の相互相関を計算するための手段を備える、［１１］に記載の装置。
［１７］前記第２のオーディオ信号と前記第３のオーディオ信号との間の関係に基づいている第２のボイスアクティビティ検出信号を生成するための手段を備え、前記ボイスアクティビティ検出信号が前記第２のボイスアクティビティ検出信号に基づいている、［１１］に記載の装置。
［１８］前記装置が、フィルタ処理された信号を生成するために、前記第２のオーディオ信号と前記第３のオーディオ信号とに対して空間選択的処理演算を実行するための手段を備え、第３のオーディオ信号に基づいている前記信号が、前記フィルタ処理された信号である、［１１］に記載の装置。
［１９］第１のアンチノイズ信号を生成するために、前記第１のマイクロフォンによって生成された信号に基づいている信号に対して第１のアクティブ雑音消去演算を実行するための手段と、前記第１のアンチノイズ信号に基づいている音響信号を生成するために、前記ユーザの頭部の前記側面に位置するラウドスピーカを駆動するための手段と、を備える、［１１］に記載の装置。
［２０］前記アンチノイズ信号が、前記ユーザの頭部の前記側面に位置する誤差マイクロフォンによって生成された音響誤差信号からの情報に基づいている、［１９］に記載の装置。
［２１］信号処理のための装置であって、前記装置の使用中にユーザの頭部の側面に位置するように構成された第１のマイクロフォンと、前記装置の前記使用中に前記ユーザの頭部の他の側面に位置するように構成された第２のマイクロフォンと、前記装置の前記使用中に、前記第１のマイクロフォン及び前記第２のマイクロフォンのいずれよりも前記ユーザのボイスの中央出口点に近い、前記ユーザの頭部の前頭面にあるように構成された第３のマイクロフォンと、第１のオーディオ信号と第２のオーディオ信号との間の関係に基づいているボイスアクティビティ検出信号を生成するように構成されたボイスアクティビティ検出器と、音声推定値を生成するために、第３のオーディオ信号に基づいている信号に前記ボイスアクティビティ検出信号を適用するように構成された音声推定器とを備え、前記第１のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記装置の前記使用中に前記第１のマイクロフォンによって生成された信号に基づき、前記第２のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記装置の前記使用中に前記第２のマイクロフォンによって生成された信号に基づき、前記第３のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記装置の前記使用中に前記第３のマイクロフォンによって生成された信号に基づいている、装置。
［２２］前記音声推定器が、雑音推定値を生成するために、前記第３のオーディオ信号に基づいている前記信号に前記ボイスアクティビティ検出信号を適用するように構成され、前記音声信号が前記雑音推定値に基づいており、［２１］に記載の装置。
［２３］前記音声推定器が、音声推定値を生成するために、前記第３のオーディオ信号に基づいている前記信号に前記ボイスアクティビティ検出信号を適用するように構成された利得制御要素と、前記音声信号を生成するために、前記雑音推定値に基づいて、前記音声推定値に対して雑音低減演算を実行するように構成された雑音低減モジュールと、を備える、［２２］に記載の装置。
［２４］前記装置が、雑音基準を生成するために、（Ａ）前記第１のマイクロフォンによって生成された信号に基づいている信号と、（Ｂ）前記第２のマイクロフォンによって生成された信号に基づいている信号との間の差を計算するように構成された計算器を備え、前記音声信号が前記雑音基準に基づいている、［２１］に記載の装置。
［２５］前記装置が、音声推定値を生成するために、前記第２のオーディオ信号と前記第３のオーディオ信号とに基づいて、空間選択的処理演算を実行するように構成されたフィルタを備え、第３のオーディオ信号に基づいている前記信号が前記音声推定値である、［２１］に記載の装置。
［２６］前記ボイスアクティビティ検出器が、前記第１のオーディオ信号と前記第２のオーディオ信号とを相互相関させた結果に基づいて前記ボイスアクティビティ検出信号を生成するように構成された、［２１］に記載の装置。
［２７］前記装置が、前記第２のオーディオ信号と前記第３のオーディオ信号との間の関係に基づいている第２のボイスアクティビティ検出信号を生成するように構成された第２のボイスアクティビティ検出器を備え、前記ボイスアクティビティ検出信号が前記第２のボイスアクティビティ検出信号に基づいている、［２１］に記載の装置。
［２８］フィルタ処理された信号を生成するために、前記第２のオーディオ信号と前記第３のオーディオ信号とに対して空間選択的処理演算を実行するように構成されたフィルタを備え、第３のオーディオ信号に基づいている前記信号が、前記フィルタ処理された信号である、［２１］に記載の装置。
［２９］前記装置が、第１のアンチノイズ信号を生成するために、前記第１のマイクロフォンによって生成された信号に基づいている信号に対してアクティブ雑音消去演算を実行するように構成された第１のアクティブ雑音消去フィルタと、前記装置の前記使用中に前記ユーザの頭部の前記側面に位置し、前記第１のアンチノイズ信号に基づいている音響信号を生成するように構成されたラウドスピーカと、を備える、［２１］に記載の装置。
［３０］前記装置が、前記装置の前記使用中に、前記ユーザの頭部の前記側面に、前記第１のマイクロフォンよりも前記ユーザの前記側面の耳道の近くに位置するように構成された誤差マイクロフォンを含み、前記アンチノイズ信号が、前記誤差マイクロフォンによって生成された音響誤差信号からの情報に基づいている、［２９］に記載の装置。
［３１］実体的機能を有する非一時的コンピュータ可読記憶媒体であって、前記実体的機能が、前記機能を読み取る機械に、第１のオーディオ信号と第２のオーディオ信号との間の関係に基づいているボイスアクティビティ検出信号を生成することと、音声信号を生成するために、第３のオーディオ信号に基づいている信号に前記ボイスアクティビティ検出信号を適用することと、を行わせ、前記第１のオーディオ信号が、（Ａ）ユーザの頭部の側面に位置する第１のマイクロフォンによって、（Ｂ）前記ユーザのボイスに応答して生成された信号に基づき、前記第２のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記ユーザの頭部の前記他の側面に位置する第２のマイクロフォンによって生成された信号に基づき、前記第３のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記第１のマイクロフォン及び前記第２のマイクロフォンとは異なる第３のマイクロフォンによって生成された信号に基づき、前記第３のマイクロフォンが、前記第１のマイクロフォン及び前記第２のマイクロフォンのいずれよりも前記ユーザのボイスの中央出口点に近い、前記ユーザの頭部の前頭面に位置する、非一時的コンピュータ可読記憶媒体。
［３２］前記ボイスアクティビティ検出信号を適用することが、雑音推定値を生成するために、前記第３のオーディオ信号に基づいている前記信号に前記ボイスアクティビティ検出信号を適用することを備え、前記音声信号が前記雑音推定値に基づいている、［３１］に記載のコンピュータ可読記憶媒体。
［３３］前記ボイスアクティビティ検出信号を適用することが、音声推定値を生成するために、前記第３のオーディオ信号に基づいている前記信号に前記ボイスアクティビティ検出信号を適用することと、前記音声信号を生成するために、前記雑音推定値に基づいて、前記音声推定値に対して雑音低減演算を実行することと
を備える、［３２］に記載のコンピュータ可読記憶媒体。
［３４］前記媒体が実体的機能を有し、前記実体的機能が、前記機能を読み取る機械に、雑音基準を生成するために、（Ａ）前記第１のマイクロフォンによって生成された信号に基づいている信号と、（Ｂ）前記第２のマイクロフォンによって生成された信号に基づいている信号との間の差を計算させ、前記音声信号が前記雑音基準に基づいている、［３１］に記載のコンピュータ可読記憶媒体。
［３５］前記媒体が実体的機能を有し、前記実体的機能が、前記機能を読み取る機械に、音声推定値を生成するために、前記第２のオーディオ信号と前記第３のオーディオ信号とに基づいて、空間選択的処理演算を実行させ、第３のオーディオ信号に基づいている前記信号が前記音声推定値である、［３１］に記載のコンピュータ可読記憶媒体。
［３６］前記ボイスアクティビティ検出信号を前記生成することが、前記第１のオーディオ信号と前記第２のオーディオ信号との間の相互相関を計算することを備える、［３１］に記載のコンピュータ可読記憶媒体。
［３７］前記媒体が実体的機能を有し、前記実体的機能が、前記機能を読み取る機械に、前記第２のオーディオ信号と前記第３のオーディオ信号との間の関係に基づいている第２のボイスアクティビティ検出信号を生成させ、前記ボイスアクティビティ検出信号が前記第２のボイスアクティビティ検出信号に基づいている、［３１］に記載のコンピュータ可読記憶媒体。
［３８］前記媒体が実体的機能を有し、前記実体的機能が、前記機能を読み取る機械に、フィルタ処理された信号を生成するために、前記第２のオーディオ信号と前記第３のオーディオ信号とに対して、空間選択的処理演算を実行させ、第３のオーディオ信号に基づいている前記信号が、前記フィルタ処理された信号である、［３１］に記載のコンピュータ可読記憶媒体。
［３９］前記媒体が実体的機能を有し、前記実体的機能が、前記機能を読み取る機械に、第１のアンチノイズ信号を生成するために、前記第１のマイクロフォンによって生成された信号に基づいている信号に対して第１のアクティブ雑音消去演算を実行することと、前記第１のアンチノイズ信号に基づいている音響信号を生成するために、前記ユーザの頭部の前記側面に位置するラウドスピーカを駆動することと、を行わせる、［３１］に記載のコンピュータ可読記憶媒体。
［４０］前記アンチノイズ信号が、前記ユーザの頭部の前記側面に位置する誤差マイクロフォンによって生成された音響誤差信号からの情報に基づいている、［３９］に記載のコンピュータ可読記憶媒体。

Claims

信号処理の方法であって、
第３のマイクロフォンからのボイス情報を向上させるためにユーザ頭部の前頭面に位置する前記第３のマイクロフォンと前記ユーザ頭部の側面に位置する第１のマイクロフォン及び他の側面に位置する第２のマイクロフォンの少なくとも一方からの空間情報を使用することと、
第１のオーディオ信号と第２のオーディオ信号との間の関係に基づいているボイスアクティビティ検出信号を生成することと、
音声信号を生成するために、第３のオーディオ信号に基づいている信号に前記ボイスアクティビティ検出信号を適用することと、を備え、
前記第１のオーディオ信号が、（Ａ）前記第１のマイクロフォンによって、（Ｂ）前記ユーザのボイスに応答して生成された信号に基づいており、
前記第２のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記第２のマイクロフォンによって生成された信号に基づいており、
前記第３のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記ユーザのボイスの中央出口点に関して前記第１及び第２のマイクロフォンとは異なる前記第３のマイクロフォンによって生成された信号に基づいており、
前記第３のマイクロフォンは、前記第１のマイクロフォン及び前記第２のマイクロフォンのいずれよりも前記ユーザのボイスの前記中央出口点に近い前記ユーザの頭部の前頭面に位置する、方法。
前記ボイスアクティビティ検出信号を前記適用することが、雑音推定値を生成するために、前記第３のオーディオ信号に基づく前記信号に前記ボイスアクティビティ検出信号を適用することを備え、
前記音声信号が前記雑音推定値に基づく、請求項１に記載の方法。
前記ボイスアクティビティ検出信号を前記適用することが、
音声推定値を生成するために、前記第３のオーディオ信号に基づいている前記信号に前記ボイスアクティビティ検出信号を適用することと、
前記音声信号を生成するために、前記雑音推定値に基づいて、前記音声推定値に対して雑音低減演算を実行することと、
を備える、請求項２に記載の方法。
雑音基準を生成するために、（Ａ）前記第１のマイクロフォンによって生成された信号に基づいている信号と、（Ｂ）前記第２のマイクロフォンによって生成された信号に基づいている信号との間の差を計算することを備え、
前記音声信号が前記雑音基準に基づいている、請求項１に記載の方法。
音声推定値を生成するために、前記第２のオーディオ信号と前記第３のオーディオ信号とに基づいて、フィルタ処理された信号を生成する空間選択的処理演算を実行することを備え、
前記音声推定値は前記ボイスアクティビティ検出信号を前記第３のオーディオ信号に基づいて前記フィルタ処理された信号に適用することによって取得される、請求項１に記載の方法。
前記ボイスアクティビティ検出信号を前記生成することが、前記第１のオーディオ信号と前記第２のオーディオ信号との間の相互相関を計算することを備える、請求項１に記載の方法。
前記第２のオーディオ信号と前記第３のオーディオ信号との間の関係に基づいている第２のボイスアクティビティ検出信号を生成することを備え、
前記ボイスアクティビティ検出信号が前記第２のボイスアクティビティ検出信号に基づいている、請求項１に記載の方法。
フィルタ処理された信号を生成するために、前記第２のオーディオ信号と前記第３のオーディオ信号とに対して空間選択的処理演算を実行することを備え、
前記第３のオーディオ信号に基づいている前記信号が、前記フィルタ処理された信号である、請求項１に記載の方法。
第１のアンチノイズ信号を生成するために、前記第１のマイクロフォンによって生成された信号に基づいている信号に対して第１のアクティブ雑音消去演算を実行することと、
前記第１のアンチノイズ信号に基づいている音響信号を生成するために、前記ユーザの頭部の前記側面に位置するラウドスピーカを駆動することと、
を備える、請求項１に記載の方法。
前記アンチノイズ信号が、前記ユーザの頭部の前記側面に位置する誤差マイクロフォンによって生成された音響誤差信号からの情報に基づいている、請求項９に記載の方法。
信号処理のための装置であって、
第３のマイクロフォンからのボイス情報を向上させるためユーザ頭部の前頭面に位置する前記第３のマイクロフォンと前記ユーザ頭部の側面に位置する第１のマイクロフォン及び他の側面に位置する第２のマイクロフォンの少なくとも一方からの空間情報を使用するための手段と、
第１のオーディオ信号と第２のオーディオ信号との間の関係に基づいているボイスアクティビティ検出信号を生成するための手段と、
音声信号を生成するために、第３のオーディオ信号に基づいている信号に前記ボイスアクティビティ検出信号を適用するための手段と、を備え、
前記第１のオーディオ信号が、（Ａ）前記第１のマイクロフォンによって、（Ｂ）前記ユーザのボイスに応答して生成された信号に基づいており、
前記第２のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記第２のマイクロフォンによって生成された信号に基づいており、
前記第３のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記ユーザのボイスの中央出口点に関して前記第１のマイクロフォン及び前記第２のマイクロフォンとは異なる前記第３のマイクロフォンによって生成された信号に基づいており、
前記第３のマイクロフォンは、前記第１のマイクロフォン及び前記第２のマイクロフォンのいずれよりも前記ユーザのボイスの前記中央出口点に近い前記ユーザの頭部の前頭面に位置する、装置。
前記ボイスアクティビティ検出信号を適用するための手段が、雑音推定値を生成するために、前記第３のオーディオ信号に基づいている前記信号に前記ボイスアクティビティ検出信号を適用するように構成され、
前記音声信号が前記雑音推定値に基づいている、請求項１１に記載の装置。
前記ボイスアクティビティ検出信号を適用するための手段が、
音声推定値を生成するために、前記第３のオーディオ信号に基づいている前記信号に前記ボイスアクティビティ検出信号を適用するための手段と、
前記音声信号を生成するために、前記雑音推定値に基づいて、前記音声推定値に対して雑音低減演算を実行するための手段と、
を備える、請求項１２に記載の装置。
雑音基準を生成するために、（Ａ）前記第１のマイクロフォンによって生成された信号に基づいている信号と、（Ｂ）前記第２のマイクロフォンによって生成された信号に基づいている信号との間の差を計算するための手段を備え、
前記音声信号が前記雑音基準に基づいている、請求項１１に記載の装置。
音声推定値を生成するために、前記第２のオーディオ信号と前記第３のオーディオ信号とに基づいて、フィルタ処理された信号を生成する空間選択的処理演算を実行するための手段を備え、
前記音声推定値は前記ボイスアクティビティ検出信号を前記第３のオーディオ信号に基づいて前記フィルタ処理された信号に適用することによって取得される、請求項１１に記載の装置。
前記ボイスアクティビティ検出信号を生成するための手段が、前記第１のオーディオ信号と前記第２のオーディオ信号との間の相互相関を計算するための手段を備える、請求項１１に記載の装置。
前記第２のオーディオ信号と前記第３のオーディオ信号との間の関係に基づいている第２のボイスアクティビティ検出信号を生成するための手段を備え、
前記ボイスアクティビティ検出信号が前記第２のボイスアクティビティ検出信号に基づいている、請求項１１に記載の装置。
フィルタ処理された信号を生成するために、前記第２のオーディオ信号と前記第３のオーディオ信号とに対して空間選択的処理演算を実行するための手段を備え、
前記第３のオーディオ信号に基づいている前記信号が、前記フィルタ処理された信号である、請求項１１に記載の装置。
第１のアンチノイズ信号を生成するために、前記第１のマイクロフォンによって生成された信号に基づいている信号に対して第１のアクティブ雑音消去演算を実行するための手段と、
前記第１のアンチノイズ信号に基づいている音響信号を生成するために、前記ユーザの頭部の前記側面に位置するラウドスピーカを駆動するための手段と、
を備える、請求項１１に記載の装置。
前記アンチノイズ信号が、前記ユーザの頭部の前記側面に位置する誤差マイクロフォンによって生成された音響誤差信号からの情報に基づいている、請求項１９に記載の装置。
信号処理のための装置であって、
前記装置の使用中にユーザの頭部の側面に位置するように構成された第１のマイクロフォンと、
前記装置の前記使用中に前記ユーザの頭部の他の側面に位置するように構成された第２のマイクロフォンと、
前記装置の前記使用中に、前記第１のマイクロフォン及び前記第２のマイクロフォンのいずれよりも前記ユーザのボイスの中央出口点に近い、前記ユーザの頭部の前頭面に位置するように構成された第３のマイクロフォンと、
前記第３のマイクロフォンからのボイス情報を向上させるため前記第３のマイクロフォンと前記第１のマイクロフォン及び前記第２のマイクロフォンの少なくとも一方からの空間情報を使用するよう及び第１のオーディオ信号と第２のオーディオ信号との間の関係に基づいているボイスアクティビティ検出信号を生成するように構成されたボイスアクティビティ検出器と、
音声推定値を生成するために、第３のオーディオ信号に基づいている信号に前記ボイスアクティビティ検出信号を適用するように構成された音声推定器とを備え、
前記第１のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記装置の前記使用中に前記第１のマイクロフォンによって生成された信号に基づき、
前記第２のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記装置の前記使用中に前記第２のマイクロフォンによって生成された信号に基づき、
前記第３のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記装置の前記使用中に前記第３のマイクロフォンによって生成された信号に基づいている、装置。
前記音声推定器が、雑音推定値を生成するために、前記第３のオーディオ信号に基づいている前記信号に前記ボイスアクティビティ検出信号を適用するように構成され、
音声信号が前記雑音推定値に基づく、請求項２１に記載の装置。
前記音声推定器が、
音声推定値を生成するために、前記第３のオーディオ信号に基づいている前記信号に前記ボイスアクティビティ検出信号を適用するように構成された利得制御要素と、
前記音声信号を生成するために、前記雑音推定値に基づいて、前記音声推定値に対して雑音低減演算を実行するように構成された雑音低減モジュールと、
を備える、請求項２２に記載の装置。
雑音基準を生成するために、（Ａ）前記第１のマイクロフォンによって生成された信号に基づいている信号と、（Ｂ）前記第２のマイクロフォンによって生成された信号に基づいている信号との間の差を計算するように構成された計算器を備え、
音声信号が前記雑音基準に基づいている、請求項２１に記載の装置。
音声推定値を生成するために、前記第２のオーディオ信号と前記第３のオーディオ信号とに基づいて、フィルタ処理された信号を生成する空間選択的処理演算を実行するように構成されたフィルタを備え、
前記音声推定値は前記ボイスアクティビティ検出信号を前記第３のオーディオ信号に基づいて前記フィルタ処理された信号に適用することによって取得される、請求項２１に記載の装置。
前記ボイスアクティビティ検出器が、前記第１のオーディオ信号と前記第２のオーディオ信号とを相互相関させた結果に基づいて前記ボイスアクティビティ検出信号を生成するように構成された、請求項２１に記載の装置。
前記第２のオーディオ信号と前記第３のオーディオ信号との間の関係に基づいている第２のボイスアクティビティ検出信号を生成するように構成された第２のボイスアクティビティ検出器を備え、
前記ボイスアクティビティ検出信号が前記第２のボイスアクティビティ検出信号に基づいている、請求項２１に記載の装置。
フィルタ処理された信号を生成するために、前記第２のオーディオ信号と前記第３のオーディオ信号とに対して空間選択的処理演算を実行するように構成されたフィルタを備え、
前記第３のオーディオ信号に基づいている前記信号が、前記フィルタ処理された信号である、請求項２１に記載の装置。
第１のアンチノイズ信号を生成するために、前記第１のマイクロフォンによって生成された信号に基づいている信号に対してアクティブ雑音消去演算を実行するように構成された第１のアクティブ雑音消去フィルタと、
前記装置の前記使用中に前記ユーザの頭部の前記側面に位置し、前記第１のアンチノイズ信号に基づいている音響信号を生成するように構成されたラウドスピーカと、
を備える、請求項２１に記載の装置。
前記装置の前記使用中に、前記ユーザの頭部の前記側面に、前記第１のマイクロフォンよりも前記ユーザの前記側面の耳道の近くに位置するように構成された誤差マイクロフォンを含み、
前記アンチノイズ信号が、前記誤差マイクロフォンによって生成された音響誤差信号からの情報に基づいている、請求項２９に記載の装置。
実体的機能を有するコンピュータ可読記憶媒体であって、前記実体的機能を読み取る機械に、
第３のマイクロフォンからのボイス情報を向上させるためユーザ頭部の前頭面に位置する前記第３のマイクロフォンと前記ユーザ頭部の側面に位置する第１のマイクロフォン及び他の側面に位置する第２のマイクロフォンの少なくとも一方からの空間情報を使用することと、
第１のオーディオ信号と第２のオーディオ信号との間の関係に基づいているボイスアクティビティ検出信号を生成することと、
音声信号を生成するために、第３のオーディオ信号に基づいている信号に前記ボイスアクティビティ検出信号を適用することと、
を行わせ、
前記第１のオーディオ信号が、（Ａ）前記第１のマイクロフォンによって、（Ｂ）前記ユーザのボイスに応答して生成された信号に基づいており、
前記第２のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記第２のマイクロフォンによって生成された信号に基づいており、
前記第３のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記ユーザのボイスの中央出口点に関して前記第１のマイクロフォン及び前記第２のマイクロフォンとは異なる第３のマイクロフォンによって生成された信号に基づいており、
前記第３のマイクロフォンは、前記第１のマイクロフォン及び前記第２のマイクロフォンのいずれよりも前記ユーザのボイスの前記中央出口点に近い前記ユーザの頭部の前頭面に位置する、コンピュータ可読記憶媒体。
前記ボイスアクティビティ検出信号を前記適用することが、雑音推定値を生成するために、前記第３のオーディオ信号に基づいている前記信号に前記ボイスアクティビティ検出信号を適用することを備え、
前記音声信号が前記雑音推定値に基づいている、請求項３１に記載のコンピュータ可読記憶媒体。
前記ボイスアクティビティ検出信号を適用することが、
音声推定値を生成するために、前記第３のオーディオ信号に基づいている前記信号に前記ボイスアクティビティ検出信号を適用することと、
前記音声信号を生成するために、前記雑音推定値に基づいて、前記音声推定値に対して雑音低減演算を実行することと
を備える、請求項３２に記載のコンピュータ可読記憶媒体。
前記媒体が実体的機能を有し、前記実体的機能が、前記機能を読み取る機械に、雑音基準を生成するために、（Ａ）前記第１のマイクロフォンによって生成された信号に基づいている信号と、（Ｂ）前記第２のマイクロフォンによって生成された信号に基づいている信号との間の差を計算させ、
前記音声信号が前記雑音基準に基づいている、請求項３１に記載のコンピュータ可読記憶媒体。
前記媒体が実体的機能を有し、前記実体的機能が、前記機能を読み取る機械に、音声推定値を生成するために、前記第２のオーディオ信号と前記第３のオーディオ信号とに基づいて、フィルタ処理された信号を生成する空間選択的処理演算を実行させ、
前記音声推定値は前記ボイスアクティビティ検出信号を前記第３のオーディオ信号に基づいて前記フィルタ処理された信号に適用することによって取得される、請求項３１に記載のコンピュータ可読記憶媒体。
前記ボイスアクティビティ検出信号を前記生成することが、前記第１のオーディオ信号と前記第２のオーディオ信号との間の相互相関を計算することを備える、請求項３１に記載のコンピュータ可読記憶媒体。
実体的機能を有し、前記実体的機能が、前記機能を読み取る機械に、前記第２のオーディオ信号と前記第３のオーディオ信号との間の関係に基づいている第２のボイスアクティビティ検出信号を生成させ、
前記ボイスアクティビティ検出信号が前記第２のボイスアクティビティ検出信号に基づいている、請求項３１に記載のコンピュータ可読記憶媒体。
実体的機能を有し、前記実体的機能が、前記機能を読み取る機械に、フィルタ処理された信号を生成するために、前記第２のオーディオ信号と前記第３のオーディオ信号とに対して、空間選択的処理演算を実行させ、
前記第３のオーディオ信号に基づいている前記信号が、前記フィルタ処理された信号である、請求項３１に記載のコンピュータ可読記憶媒体。
実体的機能を有し、前記実体的機能が、前記機能を読み取る機械に、
第１のアンチノイズ信号を生成するために、前記第１のマイクロフォンによって生成された信号に基づいている信号に対して第１のアクティブ雑音消去演算を実行することと、
前記第１のアンチノイズ信号に基づいている音響信号を生成するために、前記ユーザの頭部の前記側面に位置するラウドスピーカを駆動することと、
を行わせる、請求項３１に記載のコンピュータ可読記憶媒体。
前記アンチノイズ信号が、前記ユーザの頭部の前記側面に位置する誤差マイクロフォンによって生成された音響誤差信号からの情報に基づいている、請求項３９に記載のコンピュータ可読記憶媒体。