JP7123951B2

JP7123951B2 - 通信アセンブリにおけるユーザ音声アクティビティ検出のための方法、その通信アセンブリ

Info

Publication number: JP7123951B2
Application number: JP2019542604A
Authority: JP
Inventors: アン，ジアジン; ウルツ，マイケル・ジョン; ウルツ，デイビッド; カイラ，マンプリート; クマール，アミット; オコナー，ショーン; ラソウド，シャンカー; スキャンラン，ジェイムズ; ソレンセン，エリック
Original assignee: Avnera Corp
Current assignee: Avnera Corp
Priority date: 2017-02-14
Filing date: 2018-02-13
Publication date: 2022-08-23
Anticipated expiration: 2038-02-13
Also published as: KR102578147B1; DE112018000717T5; CN110603588A; KR20190118171A; JP2020506634A

Description

著作権表示および許可
この特許文献の一部は、著作権保護の対象となる題材を含んでいる。著作権保有者は、この特許文献または特許開示が特許商標庁の包袋または記録に掲載されているため、この特許文献または特許開示を誰でも複写複製できることに対して異議はないが、その他の点ではすべての如何なる著作権をも保有する。以下の表示がこの文献に適用される：Copyright (c) 2017, AVNERA CORPORATION
関連出願
本願は、２０１７年９月２１日に出願された米国特許出願第１５／７１１，７９３号、２０１７年２月７日に出願された米国仮特許出願第６２／４５６，１００号、２０１７年２月１４日に出願された米国仮特許出願第６２／４５９，０５５号、および２０１７年７月１４日に出願された米国仮特許出願第６２／５３２，９６４号に対する優先権を主張する。これら４つの出願は全て、全文が引用によって本明細書に援用される。

技術分野
本発明のさまざまな実施形態は、一般に、自動雑音低減を有するヘッドセットなどのさまざまなタイプのヘッドセットにおけるユーザ音声アクティビティの自動検出に関する。

背景
一般に、ヘッドセットは、ユーザの耳を覆うように、ユーザの耳に装着するように、またはユーザの耳に挿入するように着用されて電子通信を容易にする１つまたは２つのイヤデバイスまたはイヤプラグとともに、マイクロフォンを含む。多くの最近のヘッドセットは、周囲雑音のかなりの部分を自動的に検知および消去することによって、ユーザのリスニング体験を向上させるための自動雑音低減（ＡＮＲ）または自動雑音消去（ＡＮＣ）回路も含む。ＡＮＣ回路は、原理上は単純であるが、実現するには複雑であり、多くのヘッドセットは、６つのマイクロフォン（マイク）を含み、これら６つのマイクロフォンのうちの２つがフィードバック（ｆｂ）ＡＮＣのためのものであり、２つがフィードフォワード（ｆｆ）ＡＮＣのためのものであり、１つまたは２つがユーザ音声信号をピックアップするためのものである。

本発明者等が認識している１つの問題は、ＡＮＣヘッドセットは、それらを着用しているユーザのリスニング体験を向上させるが、ヘッドセットから他のデバイスに送信されている信号の品質を向上させることはほとんどまたは全くないということである。たとえば、多くの騒々しい環境では、携帯電話とともにヘッドセットを着用しているユーザは、一般に、電話によって背景雑音が他の電話およびデバイスに伝達されることを防ぐために電話をミュートモードに手動で切り替える必要がある。これは、望ましくない雑音の伝達を防止するには有効であるが、しばしば通信ギャップを引き起こすことになる。なぜなら、電話をミュートしたユーザは、再び話し始めるときに電話をミュート解除し忘れるからである。さらに、多くのユーザが手動でミュートしたりミュート解除したりする会議電話では、通信ギャップの可能性はさらに大きくなる。

この問題を解決しようとして、設計者の中には、音声マイク出力をモニタリングして、マイク出力レベルと１つ以上の閾値との比較に基づいて自動的にミュートしたりミュート解除したりする回路を設けるものもいた。しかし、モニタリング回路は、携帯電話での使用を阻害してきた少なくとも２つの問題を抱えている。第１に、モニタリング回路は、相当な電力を消費するため、電池寿命を短くする。第２に、この回路は、発話の停止および開始に対する反応がゆっくりであるという理由だけでなく、外部雑音、たとえば近くの人の声、とユーザの声とを混同するという理由からも、回路自体の通信ギャップを生じさせる。

したがって、本発明者等は、ＡＮＣおよび他のタイプのヘッドセットを介した周囲雑音の伝達を低減するよりよい方法が必要であることを認識した。

概要
これらのおよび／または他の必要性または問題のうちの１つ以上に対処するために、本発明者等は、とりわけ、ユーザ発話の有無を自動的に検出して、関連付けられたミューティングまたは他の音声もしくは発話依存機能を動作させるための１つ以上の例示的なシステム、キット、方法、デバイス、アセンブリおよび／またはコンポーネントを考案した。いくつかの実施形態は、音声マイクと、少なくとも２つの制御マイクと、処理回路とを含み、処理回路は、制御マイク出力信号の関係に基づいて音声マイクをミュートするように構成される。

第１の実施形態では、２つの制御マイク、たとえば左側イヤピース装着マイクおよび右側イヤピース装着マイク、は、ユーザ音声領域におよそ対称に音響結合するように構成される。処理回路は、２つのマイクからの出力信号の測定された時間的対称性、たとえば位相関係、に基づいて、ユーザが話しているか否かを判断し、対称性が高いことは、ユーザ発話（ほぼ同時に両方のマイクに到達する）を示し、対称性が低いことは、周囲雑音またはユーザ発話が無いことを示す。第１の実施形態のいくつかの変形例における２つの制御マイクは、ＡＮＣヘッドセットにおける左側および右側フィードバックマイクである。いくつかの他の変形例では、サンプリングされたマイク出力の複素コヒーレンスを使用して位相関係を測定または推定し、複素コヒーレンスの実数部が閾値を下回るたびにミューティング回路を起動する。

第２の実施形態では、２つの制御マイクは、ユーザ音声領域に非対称に音響結合するように構成され、すなわち、一方のマイクは、ユーザ音声領域への音響結合が他方のマイクよりも優れている。処理回路は、２つのマイク出力信号のエネルギレベルの相対的大きさに基づいてミューティングをオンにしたりオフにしたりするように構成される。たとえば、いくつかのＡＮＣ実施形態では、優れた音響結合を有するマイクは、ＡＮＣイヤピースにおけるフィードバックエラーマイクであり、他方のマイクは、フィードフォワードマイクである。処理回路は、ミューティング機能をオンにするかオフにするかを判断する際に、フィードバックエラーマイク出力とフィードフォワードマイク出力との比を閾値と比較する。いくつかの変形例では、ＡＮＣ制御マイクではなく、ブームまたはコードに設置された２つのマイクを使用してもよい。

処理回路は、ミューティング機能をオンにするかオフにするかを判断する際に、フィードバックエラーマイク出力とフィードフォワードマイク出力との比を閾値と比較する。いくつかの変形例では、ＡＮＣ制御マイクではなく、ブームまたはコードに設置された２つのマイクを使用してもよい。より一般化された実施例では、２つ以上のマイクロフォンを使用して２つの信号を生成し、第１の信号は、第２の信号よりもユーザ発話に密接に結合され、第２の信号は、第１の信号よりも周囲雑音または音に密接に結合される。

第３の実施形態では、フィードバックエラーマイクおよびフィードフォワードアンビエントマイクなどの２つのマイクからの信号間の位相差も大きさの差も説明する伝達関数を推定する。この実施形態のいくつかの変形例では、ＡＮＣマイクは無くてもよく、音声マイクおよび１つの他のマイクなどの他のマイクの対を使用してもよい。伝達関数は、カルマンフィルタリングまたは他の形態の最適推定器などのさまざまな方法を使用して推定することができる。

１つ以上の実施形態は、他の特徴も含む。たとえば、ｘｏｍ実施形態は、マイクロフォンのうちの１つ以上に関連付けられたイヤピース内のラウドスピーカを介して出力される音楽または他のオーディオ信号を消去するためのキャンセラを含む。いくつかの実施形態は、話される言葉と言葉との間または短い沈黙の間のミューティングのリスクを低減するためのミューティング遅延および保持機能を含む。さらに他の実施形態は、音声マイクのタイムリーなミュート解除を保証することによりユーザ発話の部分的な喪失を回避するためのバッファメモリおよびルックアヘッド機能を含む。

以下の添付の図面（図）を参照して、さまざまな実施形態について本明細書で説明する。これらの図面では、さまざまな特徴および構成要素に対して参照番号がつけられており、これらの番号は、教示を補助するものとして以下の説明で使用されており、同様の番号は、同一または類似の特徴および構成要素を指す。

本発明の１つ以上の実施形態に対応する例示的なヘッドセットシステムまたはアセンブリ１００のブロック図である。本発明の１つ以上の実施形態に対応するアセンブリ１００のユーザ音声アクティビティ検出器部分を動作させる例示的な方法のブロック図である。本発明の１つ以上の実施形態に対応するヘッドセットシステム３００の半分のシステム概念図である。本発明の１つ以上の実施形態に対応する、複数のオーディオトランスデューサおよびオーディオ入力信号を有する一般的な電気音響システムのブロック図である。本発明の１つ以上の実施形態に対応するユーザ音声アクティビティ検出器のブロック図である。

例示的な実施形態の詳細な説明
図面および特許請求の範囲を盛り込んだこの文献には、１つ以上の発明の１つ以上の具体的な実施形態が記載されている。これらの実施形態は、本発明を限定する目的ではなく本発明を単に例示および教示する目的で提供されているが、当業者が本発明を実現または実施できるように十分に詳しく示され、記載されている。さらに、適宜、本発明を曖昧にすることを回避するために、説明では当業者に公知の特定の情報は割愛してもよい。

図１は、ユーザの頭部１０１（上面図）の耳１０２Ａおよび１０２Ｂに装着された例示的なＡＮＲヘッドセットアセンブリまたはシステム１００を示す。ユーザ頭部１０１は、それぞれの左耳１０２Ａおよび右耳１０２Ｂと、口１０３と、ユーザ音声領域１０４とを含む。ユーザ音声領域１０４は、ユーザの口と、喉頭（図示せず）とを含む。アセンブリ１００は、左側イヤピース１１０Ａおよび右側イヤピース１１０Ｂと、任意のヘッドバンド１１０Ｃと、インラインまたはブーム音声マイクロフォン１２０と、処理回路１３０と、ホストまたは外部デバイス１４０とを含む。

挿耳型、耳覆い型または耳装着型の構成の形態をとって垂直軸１１０Ｄを規定し得るイヤピース１１０Ａおよび１１０Ｂは、それぞれのＡＮＲドライバＤＡおよびＤＢと、フィードフォワードマイクＦＦＡおよびＦＦＢと、それぞれのフィードバックマイクＦＢＡおよびＦＢＢとを含む。ＡＮＲドライバＤＡおよびＤＢは、それぞれのイヤピース１１０Ａおよび１１０Ｂの内部容積を前腔部および後腔部（別々に表示せず）に分割する。フィードフォワードアンビエントマイクＦＦＡおよびＦＦＢは、フィードバックマイクＦＢＡおよびＦＢＢよりもそれぞれの耳１０２Ａおよび１０２Ｂからさらに離れて、後腔内または後腔に隣接して位置決めされ、これにより、フィードバックエラーマイクＦＢＡおよびＦＢＢよりも周囲雑音への音響結合を大きくし、ユーザ頭部１０１、ユーザ外耳道および音声領域１０４への音響結合を小さくすることを保証する。フィードバックエラーマイクＦＢＡおよびＦＢＢは、同様に、それらのそれぞれのイヤピース内またはイヤピース上に位置決めされ、これにより、頭部または軸１１０Ｄ上にあるユーザ音声領域１０４への骨（身体）伝導経路１０４Ａおよび１０４Ｂを介した概して同一または対称の音響結合を保証する。また、フィードバックマイクは、周囲雑音源Ｎなどの軸外外部雑音源への空気伝導経路Ｐ１およびＰ２を介した概して対称の音響結合を有する。（同一のイヤピースにおけるフィードバックマイクおよびフィードフォワードマイクは、ユーザ発話および周囲に対する応答が非常に非対称である。）マイクロフォンおよびドライバは、処理回路１３０へのそれぞれの有線または無線通信リンク１３１および１３２を介して結合されている。

いくつかの実施形態では、関連付けられたメモリと、完全に分離されるかまたは部分的もしくは完全にデバイス１４０内に一体化された他の一体型構成要素とを有するデジタル信号プロセッサの形態をとる処理回路１３０は、入力／出力ノードのセット１３３と、ＡＮＲ処理モジュール１３４と、ユーザ音声検出モジュール１３５と、ミューティングモジュール１３６と、発話依存モジュール１３７と、オンイヤー検出モジュール１３７とを含む。

入力／出力ノード１３３は、音声マイク出力信号ノードＶｍと、フィードバックマイク左側信号ノードＦＢＡ（ｆｂＬ）と、フィードバックマイク右側信号ノードＦＢＢ（ｆｂＲ）と、フィードフォワードマイク左側信号ノードＦＦＡ（ｆｆＬ）と、フィードフォワードマイク右側信号ノードＦＦＢ（ｆｆＬ）と、入来デバイスオーディオ／音楽信号ノードＲ×ＡＲ×Ｂとを含む。（本明細書におけるＲｘは、単独でまたは集合的にＲ×ＡまたはＲ×Ｂを指し得て、電話オーディオ信号を含み得る。）
ＡＮＲ処理モジュール１３４は、回路と、ユーザの耳腔内を含むイヤピース前方容積内の周囲雑音を消去するための機械によって実行可能な命令とを提供する。特に、モジュール１３４は、それぞれの外耳道または耳腔内の全音響エネルギの合計を表す出力信号をフィードバックマイクＦＦＡおよびＦＦＢから受信する。また、モジュール１３４は、スマートフォン、音楽プレーヤ、トランシーバまたは他の電子音源などのデバイス１４０からイヤホンオーディオ信号を受信する。フィードフォワードマイクロフォンＦＦＡおよびＦＦＢからの周囲雑音信号に応答して、ＡＮＲ処理回路は、雑音消去信号を生成し、消去信号とイヤホンオーディオ信号（Ｒｘ）との混合信号または合計をＡＮＲドライバＤＡおよびＤＢに送信し、ＡＮＲドライバＤＡおよびＤＢは、感知した周囲雑音のかなりの部分を消去してイヤホンオーディオ信号の音響的表現を提供する音響エネルギを生成する。いくつかの実施形態では、ＡＮＲ処理モジュール１３４は、２０１６年３月４日に出願された米国特許出願第１５／０６９，２７１号に記載されているタイプなどの適応型ＡＮＲ処理を含み、米国特許出願第１５／０６９，２７１号は、引用によって本明細書に援用される。

ユーザ音声アクティビティ検出（ＵＶＡＤ）モジュール１３５は、論理回路、および／または、フィードフォワードマイクＦＦＡおよびＦＦＢならびにフィードバックマイクＦＢＡおよびＦＢＢのうちの２つ以上から導き出された入力信号を処理して、音声マイクロフォン１２０の出力信号内のユーザ発話の有無を検出または予測するための格納された機械によって実行可能な命令を含む。具体的には、例示的な実施形態は、２つのユーザ音声アクティビティ検出方法を提供する。（いくつかの実施形態は、フィードバックマイクと組み合わせて任意の周囲結合マイクを使用したＵＶＡＤを提供する。したがって、たとえば、音声マイクおよびフィードバックマイクが使用され得る。）
第１の方法では、ユーザ頭部が十分に対称的であるので、ユーザ頭部を通る音響経路１０４Ａおよび１０４Ｂが一般に等長であり、材料組成の点で実質的に類似しているという見識を活用する。これは、フィードバックマイク出力の発話成分が、ユーザが話しているときには大きさおよび位相の点で実質的に同一であり、ユーザが話していないときには少なくとも位相の点で実質的に異なることを意味する。言い換えれば、フィードバックマイクからの出力信号は、ほぼ同一の発話データ成分を有し、そのため、ユーザが話しているときには（位相関係の点で）高いコヒーレンスを示す。さらに、周囲雑音から２つのマイクまでの距離は、通常、図１における経路Ｐ１およびＰ２によって示されるように等しくなく、または非対称であり、これは、コヒーレンスの位相が回転させられることを意味する。（依然としてコヒーレントであり得るが、これは、大きさが依然として１に非常に近いが、角度が「同相の」状況を示す０にならないことを意味する。）
したがって、例示的な実施形態では、閾値テストの範囲内の左側および右側フィードバックエラーマイク信号ｆｂＬおよびｆｂＲの複素コヒーレンスを使用して、ユーザ音声アクティビティが存在しそうであるか否かを判断する。閾値基準が満たされる場合、ミュートコマンド信号がミュートモジュール１３６に提供され、満たされない場合、ミュート解除コマンド符号が提供される。より具体的には、閾値テストは、以下の形態をとる。

式中、mean()は、（周波数に対する）平均関数を示し、real()は、複素引数の実数部を示し、Cxy(freq_range)は、freq_rangeで示される周波数範囲に対する信号ｘおよびｙの複素コヒーレンスを示し、添え字ｘは、ｆｂＬエラーマイク信号（左側ｆｂマイク信号、ＦＢＡ）を示し、添え字ｙは、ｆｂＲエラーマイク信号（右側ｆｂマイク信号、ＦＢＢ）を示し、ＣＴは、コヒーレンス閾値を示す。複素コヒーレンスＣｘｙの実数部が使用される理由は、これが２つの信号がどれぐらい「同相」であるかの尺度であるからである。平均値が１つだけ取られる場合には、.Note:abs(Cxy)は１であるが、重要な情報が依然として同相であるので、これは依然として有用であろう。平均値を計算するfreq_rangeは、変動し得る。しかし、人間の喉頭の身体伝導音響特性が元来低周波数であるので、いくつかの実施形態では、７０～７００Ｈｚまたは１００～５００Ｈｚの範囲を使用する。ユーザが話していない（すなわち、ユーザ発話が無い）というＣｘｙ検出器回路または論理回路からの表示に応答して、例示的な実施形態では、ミュートモジュール１３６を使用して、音声マイクなどの１つ以上のマイクロフォンおよび／またはフィードフォワードマイクロフォンの出力をミュートまたは減衰させる。

また、いくつかの実施形態では、コヒーレンス閾値ＣＴは、パフォーマンスの点でわずかなばらつきはあるが、０．７～０．９（０．７および０．９を含む）の範囲内である。それを１に近付けすぎると、かなりの背景雑音がある場合に検出器がフォールスネガティブに陥りやすくなり（発話が存在するときに検出されない）、それを低く設定しすぎると、フォールスポジティブを生じさせる（すなわち、発話がない場合にミュート解除する）。いくつかの実施形態では、コヒーレンス閾値は、信号（発話）対雑音比などのシステムまたは環境パラメータに基づいて動的に調整されてもよい。すなわち、発話が雑音よりもはるかに強い場合には、いくつかの実施形態では、閾値を１、たとえば０．９に近くなるようにシフトさせ、非常に騒々しい場合には、これらの実施形態では、閾値レベルを減少させてユーザ発話のミューティングを回避する。程よい妥協点は、０．７５などの０．７～０．８の例示的な閾値である。

この左右対称性に基づくアプローチは、有効であるが、たとえば第２の話者がユーザとともに軸上にいる（または、左側および右側イヤピースから概して等距離にいる）場合に起こり得る軸上周囲雑音の影響をこうむりやすくなる。また、信号対雑音比（ＳＮＲ）も悪くなる。軸上雑音は、フィードバックエラーマイクロフォンにおいて高いコヒーレンスを示すため、誤って発話として認識される。興味深いことに、この脆弱性を確認する１つの方法は、このＵＶＡＤアプローチ（たとえば、左側および右側フィードフォワードもしくは左側および右側フィードバックマイク、またはより一般的に、音声領域からほぼ等距離であるように構成された２つのマイクを有する）を使用するヘッドセットを、Ｂ＆Ｋタイプ４１２８－Ｃシミュレータ（デンマークのナームに所在するブリュエル・ケアー・サウンド・アンド・バイブレーション・メジャラメントＡ／Ｓ社製）などの従来のヘッドアンドトルソシミュレータ（ＨＡＴＳ）上に設置するという方法である。そうすると、ヘッドセットは、マイクからほぼ等距離の、たとえばＨＡＴＳの真正面、真後ろおよび真上の雑音源に応答して、自動的にミュートすることが分かる。

ユーザ発話が無いなどの軸上周囲雑音源を拒否して、騒々しい環境においてよりよいパフォーマンスを可能にするために、いくつかの実施形態では、第２のユーザ音声アクティビティ検出方法を使用し、この第２のユーザ音声アクティビティ検出方法は、単一イヤピースシステム、またはより一般的に２つのマイクがユーザおよび周囲の音への非対称結合を有する任意の状況でも有用であるというさらなる利点を有する。この方法では、フィードバックマイクおよびフィードフォワードマイクに対する音声信号の音響経路が非対称性であるために、フィードバックマイク（より一般的に、ユーザ音声領域への音響結合が優れたマイク）において生じるエネルギの大きさが、ユーザが話していないときよりも話しているときにフィードフォワードマイクにおいて生じるエネルギの大きさよりも実質的に大きいという見識を活用する。フィードバックマイクは、ユーザ外耳道内またはユーザ外耳道付近のイヤピースの前腔に位置決めされる。この位置決めにより、フィードバックマイクは、非常に低い減衰量で骨伝導経路１０４Ａおよび１０４Ｂを介してユーザ音声エネルギを受信し、ＡＮＲシステムに一般に存在する密閉のために強い減衰量で空気伝導を介して周囲雑音を受信する。したがって、ユーザ音声が存在する場合のフィードバックマイク対フィードフォワードマイク出力比（ｆｂ／ｆｆエネルギ比）は、雑音方向にかかわらず、発話なしの周囲雑音のものよりもはるかに高くなる。このため、いくつかの実施形態では、以下の論理を使用してユーザ音声アクティビティを判断する。

式中、fb_left/ff_leftは、左側フィードバックマイク（ＦＢＡ）の出力信号におけるエネルギと左側フィードフォワードマイク（ＦＦＡ）の出力信号におけるエネルギとの比を示し、ＤＴは、ユーザ発話のための選択された検出閾値を示す。この実施形態では、ＤＴは、プラットフォームに依存する。しかし、一般に、ユーザが話しているときには、この比は、発話が無いときよりも相当に上昇する。（この比は、伝達比であり、この場合実数である。）
特に、いくつかの実施形態では、大きさも位相も含む複素伝達比を使用してもよいため、パフォーマンスが向上する。この複素の場合に閾値を扱う際、この閾値はもはやスケーラではなく、線である。（この線は、おそらく湾曲しているか、またはつなぎ合わせられており、複素平面を分割する。たとえば、虚数部＞０の場合の線は、１つの閾値であろう。または、閾値は、正の実数部および虚数部が発話を示し、複素平面の四分円を規定するようなものであってもよい。）なお、いくつかの実施形態では、左側ではなく右側のフィードバックおよびフィードフォワードマイクロフォンを使用してもよい。さらに他の実施形態では、右側イヤピースを使用するか左側イヤピースを使用するかを自動的に判断してもよい。たとえば、左側イヤピースが取り外される場合、オンイヤー検出回路は、右側イヤピースのみが所定の位置にあると判断して、右側フィードバックおよびフィードフォワードマイクロフォンに基づいて音声検出モジュールを動作させる。

フィードバックおよびフィードフォワードマイクロフォンの出力におけるエネルギレベルを判断する際、以下のように複素伝達関数（ＴＦ）Ｔｘｙを計算することができる。

式中、Ｓｘｙは、ｘとｙとの間のクロススペクトル密度であり、Ｓｘｘは、ｘのパワースペクトル密度である。そのため、Ｓｘｙは、以下のようにＦＦＴを介して推定することができる。

または、ｆｆｔが１つだけ使用される（および平均化がない）場合には、Ｔｘｙは以下のように規定される。

ｆｂ（フィードバックマイク）エネルギとｆｆ（フィードフォワードマイク）エネルギとの比について、ｘは、左側フィードフォワードマイク信号ｆｆＬ（ＦＦＡ）であり、ｙは、左側フィードバックマイク信号ｆｂＬ（ＦＢＡ）である。ｆｂエネルギとｆｆエネルギとの比は、実際には｜Ｔｆｆ２ｆｂ｜^∧２である。

そのため、コア基準としてｆｆｔのものを使用する実施形態では、ｆｆｔ結果の絶対値の二乗の比を閾値とすることができる。または、ｆｆｔのものなしで実施している場合には、サンプリングされた時間信号の移動平均を、バンドパスフィルタを通過させた後に単に計算して、同様の結果に到達することができる。複素伝達関数推定値（Ｔｘｙ..）を使用して、重要な位相情報を活用することができる。

検出閾値ＤＴは、一般に、イヤピースの物理的実装および前腔容積に対してイヤピースが提供する密閉の品質に基づいて設定される。優れたＡＮＣヘッドフォンでは、ユーザが話していないときに２０ｄＢの減衰を期待できる。これは、骨伝導メカニズムのために、ユーザが話している状態ではおおよそ０ｄＢに上昇する。

しかし、変化の程度は、挿耳型ヘッドフォンではより顕著であり、耳装着型ヘッドフォンではそれほど顕著ではなく、アラウンドイヤー型ヘッドフォンでは最も顕著ではなく、これは、各タイプのヘッドセットに対してさまざまな閾値を使用することを意味する。たとえば、ＩＴＥヘッドフォンでは、１００Ｈｚなどの特定の周波数において、ユーザ発話により、閉塞された耳の中（ｆｂマイク）ではその外側（ｆｆマイク）よりもおよそ２０～３０ｄＢ多くの音圧があるであろう。この効果はサーカムオーラル型でも活用することができるが、フィードフォワードマイクにおける外部音圧に対する１００Ｈｚでの発話の耳内音圧差は、おそらく数デシベルに過ぎない。

また、いくつかの実施形態では、周囲雑音または平均信号対雑音比などの測定されたパラメータに基づいて閾値を動的に変化させてもよく、または代替的に、たとえばデバイス１４０によって提供されるアプリを介してユーザ調整機構を設けてもよい。いくつかの実施形態では、動的検出閾値を利用する。なぜなら、ｆｂ／ｆｆ比が、ＡＮＣヘッドセット内の全減衰の関数であるため、かなり広い範囲にわたって変化し得るからである。一実施形態では、検出閾値は、特にミュートのためのエネルギの移動平均およびミュート解除のためのエネルギの移動平均に応じて、両耳スマートミュート期間中に推定される。いくつかの実施形態では、システムの能動的＋受動的減衰を測定し、閾値は、最終的には能動的減衰に応じる。

ＴＦ推定値について、いくつかの実施形態では、平均値を条件付きで更新する。また、いくつかの実施形態では、フィードバックマイク信号が複数の成分、すなわち（デバイス１４０からの）オーディオ入力信号Ｒｘ、周囲雑音、ユーザ発話および測定雑音、を含むことを認識する。これは、周囲雑音と無相関の優れた信号レベルを保証する。代替的に、雑音伝達関数を推定するために、いくつかの実施形態では、ｆｂ／ｆｆのエネルギ比が低いかまたは高相関である場合に平均値を更新し、これにより、ＴＦ推定値がより速く収束することを保証する。

特定の周波数範囲内の２つの制御マイクの複素伝達特性に基づくこのユーザ音声アクティビティ検出（ＵＶＡＤ）の第２のアプローチは、以下の制約を満たす伝達特性を有する任意の２つのマイクとともに使用される場合に特に強固であると考えられる。第１の制約は、伝達特性が干渉と比較して発話で著しく変化するということである。第２の制約は、伝達特性が、相対的干渉方向の変化がありながらも比較的クリア（すなわち、比較的明白）なままであるということである。これらの条件は、挿耳型ヘッドセットにおけるフィードフォワードマイクおよびフィードバックマイク（および、一方のマイクが他方のマイクよりも強くユーザ音声領域に音響結合される他の状況）で満たされる。

周囲雑音について、アンビエントマイクにおける周囲圧力の出力が最初に応答し、２つの理由で、耳に結合されたフィードバックマイクに対して進み位相を有する。１つめの理由は、それが周囲に直接結合され、通常は音響経路長の点で雑音源に近いという理由である。２つめの理由は、一般的なヘッドセットイヤピースがある程度の受動的減衰を有し、これが事実上一種のローパスフィルタである、すなわち非常に低い周波数では差がないが、周波数が上昇するにつれて耳結合マイク（ｆｂマイク）を著しく減衰させる、という理由である。原因となるローパスフィルタは全て、位相遅れを生じさせ、物理的なフィルタは全て、原因となる。

ユーザ発話について、ユーザの口から耳、そして耳結合マイクまでの音響経路に加えて、声帯から身体を通る別の経路がある。身体を通る音の速度は、非常に速く、およそ４～５倍速く、またはサブ１ミリ秒対３～４．５ミリ秒である。（空気中の音の速度はおよそ３４０メートル／秒であり、肉体ではおよそ１５００メートル／秒であり、頭蓋骨および骨では４０００メートル／秒を超える。）その結果、ユーザの身体を通して伝導されるユーザ発話からの音は、口を介した空気伝達音響信号よりもはるかに早く到達する。

非常に近接している周囲結合マイクと耳結合マイクとの間の伝達特性を見てみると、アンビエントマイクロフォンは、到達方向から独立して、耳結合マイクをリードしている。ユーザ発話では、耳結合マイクは、アンビエントマイクロフォンをリードしている。したがって、複素伝達関数（または、他の基準）の非対称性および干渉方向に起因する相当な曖昧さが無いことが、同一の耳からのアンビエントマイクロフォンおよび耳結合マイクロフォンでははるかに優れていることがはっきりと分かる。

本明細書ではフィードバックマイクｆｂと称される耳結合マイクの骨伝導経路を十分に活用するために、いくつかの実施形態では、デバイス１４０などの外部デバイスからの入来オーディオ「Ｒｘ」を説明する。（いくつかの実施形態では、Ｒｘは、システムイベント、プロンプトなどを示すビープ音またはトーンなどの１つ以上の内部生成オーディオ通知信号と組み合わせられてもよい。）この入来オーディオは、一般に、骨伝導発話に非常に似通った特性を有しており、これは、それがアンビエントマイク（フィードフォワードマイクｆｆ）の振幅よりもはるかに強いｆｂ＿マイク振幅を有するため、誤ったユーザ発話検出を引き起こし得ることを意味する。

この問題を軽減する１つのアプローチは、ＵＶＡＤ計算からＲｘ信号の影響を数学的に消去または除去するＲｘキャンセラを使用するというものである。例示的な実施形態では、以下のようにｆｂ信号を分解することに基づいてＲｘキャンセラを使用する。

式中、ｆｂ_ＲｘＲｘは、耳に結合されたスピーカを再生した、Ｒｘ信号に起因するｆｂマイク信号であり、
ｆｂ_{ａｍｂｉｅｎｔ}は、周囲雑音に起因するｆｂマイク信号であり、
ｆｂ_{ｓｐｅｅｃｈ＿ＢＣ}は、骨伝導に起因するｆｂマイク信号である。

また、以下のようにｆｂ＿Ｒｘおよびｆｂ＿ａｍｂｉｅｎｔをさらに規定することができる。

式中、Ｔ_{ｒｘ２ｆｂ}は、他の全ての入力がゼロである状態でのＲｘからｆｂマイクへの伝達関数であり、Ｔ_{ｆｆ２ｆｂ}は、発話またはＲｘがなく雑音励起のみの状態でのフィードフォワードマイクからフィードバックマイクへの伝達関数である。Ｔ_{ｒｘ２ｆｂ}およびＴ_{ｆｆ２ｆｂ}は、いくつかの方法を使用して推定することができる。たとえば、いくつかの実施形態では、たとえばＲｘが存在する場合にはＴｆｆ２ｆｂの平均値を更新しないように気を付けながら、自己スペクトルおよびクロススペクトルに基づいてカルマンフィルタまたは従来の推定値を使用する。また、ユーザ発話が存在する場合には推定値を更新しないように気を付ける必要があるが、これははるかに厳しくない問題である。なぜなら、このステップのためのＵＶＡＤは、全ての発話を把握しなくてもよく、発話が存在しないということに強い自信を持っているからである。

これらの元来静的な伝達関数で推定値が利用できるようになると、それらを使用して準リアルタイムでｆｂ_{ｓｐｅｅｃｈ＿ＢＣ}信号を推定することができる。Ｔｒｘ２ｆｂおよびＴｆｆ２ｆｂの推定値は、時間とともに平均化されるであろう。例示的な実施形態では、高速フーリエ変換（ＦＦＴ）を使用して、推定値を計算する。しかし、いくつかの実施形態では、骨伝導情報を含む部分空間を十分にカバーする任意の基準を使用する。

Ｔｒｘ２ｆｂおよびＴｆｆ２ｆｂが分かったので、以下のようにｆｂ_{ｓｐｅｅｃｈ＿ＢＣ}を表すことができる。

式中、ｆｂ^∧ _{ｓｐｅｅｃｈ＿ＢＣ}は、ｆｂ_{ｓｐｅｅｃｈ＿ＢＣ}の推定値である。したがって、ユーザ発話検出は、元来周囲雑音および入来オーディオからの干渉がない推定信号に基づく。

特に、（同一の側のフィードバックマイクおよびフィードフォワードマイクを使用した）非対称アプローチのこのバージョンは、ユーザ音声領域とフィードバックマイクとの間の骨伝導経路に依拠する。したがって、通常、従来のＨＡＴＳ（上記のＢ＆Ｋ４１２８－Ｃシミュレータなど）上にこの非対称アプローチを利用するヘッドセットを設置することにより、ＵＶＡＤの適切な動作が妨げられるであろう。なぜなら、従来のＨＡＴＳには骨伝導経路が無いからである。言い換えれば、ＨＡＴＳに搭載されたヘッドセットは、ＨＡＴＳに入力される適切な周波数範囲のユーザ音声信号に応答して適切にミュートしたりミュート解除したりすることができない（または、ユーザ音声アクティビティを正確に検出することができない）であろう。（音声領域からフィードバックマイクへの経路は、振動に起因して存在するが、これは、実際の骨伝導と比較して非常に弱い結合であろう。）
いくつかの実施形態では、以下のように対称性に基づく閾値テストと非対称性に基づく閾値テストとを組み合わせる。

特に、この検出論理の実行は、３つの制御マイク、すなわち左側および右側フィードバックエラーマイクならびにフィードフォワードマイクのうちの１つ、を使用することを必要とする。また、この論理は、非対称性閾値テスト（フィードバックマイクエネルギとフィードフォワードマイクエネルギとの比）がミュート解除を制御することを可能にするのみである。他の実施形態では、両方がミュート解除を作動させることを可能にするであろう。

また、いくつかの実施形態では、処理回路１３０内にバッファを設けて、関連する信号データの遅延バージョンに対して音声検出を実行する。より具体的には、いくつかの実施形態では、Ｘミリ秒ルックアヘッドバッファを利用して、ヘッドセットにおいてユーザ発話の存在を検出していかなる発話内容も失うことなくシステムをミュート解除するのに十分な検出器時間を可能にする。たとえば、一実施形態では、システムマイクからの２０ミリ秒サンプリングデータセットを格納し、これにより、検出器がサンプルｎにおいてユーザ発話を検出し、次いで前の２０ミリ秒期間内に採取された全ての事前サンプルをミュート解除することを可能にし、したがってユーザフレーズの最初の部分を飛ばしたりミュートしたりすることを回避する。いくつかの実施形態では、ルックアヘッド期間の長さは、ユーザによって調整または較正されてもよく、他の実施形態では、ユーザの発話リズムの検出、たとえば発話信号におけるピーク間の距離のローリング平均、に基づいて動的に決定されてもよい。

ミュートモジュール１３６は、ユーザ音声検出モジュール１３５からのコマンド信号に応答してミューティング機能を提供する。いくつかの実施形態では、これは、アセンブリ内の音声マイクおよび／または１つ以上の他のマイクに関連付けられた信号経路をオフにすることを必要とする。しかし、ユーザエクスペリエンスを向上させるために、いくつかの実施形態では、３ミリ秒、５ミリ秒、１０ミリ秒、１５ミリ秒または２０ミリ秒にわたってミュートの起動または開始を遅らせて、フレーズの最後の部分の省略または言葉と言葉と間のミューティングを回避するように安全マージンを追加する。いくつかの実施形態では、この遅延期間は、ユーザによって設定されてもよく、またはユーザの測定された発話リズムに基づいて動的に決定されてもよい。また、いくつかの実施形態では、ミュート機能の起動および停止に応答して視覚的、可聴式または触覚型表示が提供されて、ミュート状態の変化をユーザに警告する。いくつかの実施形態では、これらの標識のうちの１つ以上は、ヘッドセット自体および／またはデバイス１４０上に提供される。いくつかの例では、視覚的標識は、ヘッドセット上のＬＥＤ（発光ダイオード）の点灯および／もしくは点滅の形態をとり、ならびに／または、デバイスディスプレイ上のマイクロフォンアイコンの点灯もしくは点滅もしくは色や形状の変化の形態をとる。いくつかの実施形態では、ユーザは、ヘッドセットおよび／またはデバイス上の手動制御要素によってミュート機能を無効にしてもよく、この無効にすることは、予め定められた期間、たとえば１分、２分または３分間にわたって効果を有し、または通話などの現在の通信セッションの終了まで効果を有する。無効期間の終わりに、自動ミュートおよびミュート解除が再開するであろう。

より一般的に、いくつかの実施形態では、ミュートオンとミュートオフとの間（またその逆）の状態変化を減少させ、または故意に減速させ、または減衰させて、そうでなければ可聴のポップまたはクリックを生じさせ得る非常に高速のマイクロフォンゲイン変化を回避し、この可聴のポップまたはクリックは、厄介であり、低品質のオーディオ成分を示すものである。これは、一般に、即座ではなく徐々にゲイン変化を起こすことによって対処される。たとえば、一実施形態では、「動作開始」オフからオンは、およそ１００ミリ秒にわたって行われ、この１００ミリ秒は、ポップを回避するには十分に遅く、ルックアヘッドメモリ要件を最小化するには十分に長い。一実施形態では、以下の形態を有する減衰関数を使用する。

いくつかの実施形態では、２つのイヤピースを有するシステムがイヤピースを１つだけ適切に搭載させるときを検出することによって、より効果的な自動ミューティングを容易にする。これらの実施形態のうちのいくつかでは、パフォーマンスを最適化するためにオンイヤー検出器（ＯＥＤ）に依拠する。ＯＥＤの詳細については、２０１５年９月１０日に出願された共同所有の米国特許出願第１４／８５０，８５９号にさらに記載されており、米国特許出願第１４／８５０，８５９号の開示は、全文が引用によって本明細書に援用される。

発話依存モジュール１３６は、音声アクティビティ検出モジュール１３５からバイナリ発話存在または発話非存在信号を受信する（プロセッサ回路１３０および／またはデバイス１４０の）１つ以上の他の機能を表す。これらのモジュールのうちのいくつかは、この信号を使用して、モジュールの機能を起動させたり停止させたりし、処理電力、メモリおよび／または電池寿命を節約する。たとえば、いくつかの実施形態では、発話依存モジュール１３７は、特定のキーワードコマンドを聞くように、またはより一般化された発話認識機能を実行するように構成された発話またはキーワード認識モジュールを含む。

いくつかの他の実施形態では、モジュール１３７は、音声マイク信号における雑音を低減するためのさらなる処理を提供する雑音低減モジュールをさらに含む。この雑音低減モジュールは、いくつかの実施形態では、ユーザの特定の環境に合わせて調整可能である。そして、さらに他の実施形態では、発話依存モジュール１３６は、音声マイク出力を受信して１つまたは両方のイヤピースのための３～１０％ユーザサイドトーン信号を生成するサイドトーンモジュールまたは回路を含む。サイドトーンを生成することは、電力を消費するため、ユーザが話していない場合にはこの機能をオフにすることによって、電池寿命を節約する。２０１７年７月７日に出願された米国仮特許出願第６２／５３０，０４９号を参照されたい。米国仮特許出願第６２／５３０，０４９号は、引用によって本明細書に援用される。

図２は、２つのイヤピースを有するＡＮＲヘッドセットのための改良された自動ミューティングシステムのフローチャート２００を示す。フローチャート２００は、プロセスブロック２１０～２８０を含む。

ブロック２１０は、ＯＥＤ（オンイヤー検出）を実行してイヤピースの状態を判断することを伴う。（２０１５年９月１０日に出願された同時係属米国特許出願第１４／８５０，８５９号を参照されたい。同時係属米国特許出願第１４／８５０，８５９号は、引用によって本明細書に援用される。）次いで、実行はブロック２２０に進み、ブロック２２０は、周囲雑音レベルが低いか否かを判断することを伴う。周囲雑音が低い場合、ブロック２３０においてモジュール１３４のスマートミュート機能がディスエーブルにされ、実行はブロック２２０に戻る。そうでなければ、実行はブロック２４０に進む。

ブロック２４０は、両方のイヤピースがユーザに装着されているか否かを判断することを伴う。例示的な実施形態では、これは、ＯＥＤモジュールに対する別の呼び出しを必要とする。両方のイヤホンが装着されている場合、実行はブロック２５０に分岐し、ブロック２５０は、上記の対称性に基づくミューティング機能または対称性と非対称性とを組み合わせたミューティング機能（両方とも、両方のイヤピースからの信号を必要とする）を使用して、ミュートするか否かを判断する。実行は、ここからブロック２４０に戻り、両方のイヤピースが依然として装着されているか否かを判断する。両方のイヤホンが装着されていないと判断された場合、実行はブロック２６０に進み、ブロック２６０は、１つのイヤピースが装着されているか否かを判断する。（どちらのイヤピースが装着されているかも判断する。）１つのイヤピースが装着されている場合、実行はブロック２７０に分岐して、上記の非対称性閾値テストに基づいてスマートミューティング機能を実行する。次いで、実行はブロック２６０に戻り、１つのイヤピースが依然として装着されているか否かを判断する。（いくつかの実施形態では、イヤピースは、依然として装着されていてもよいが、不十分な電池パワーを有し得る。）１つのイヤピースが装着されていない場合、スマートミュートは実行されず、実行はブロック２２０に戻る。

図３は、以下のブロックを含むシステム１００のモノラルシステムモデル３００を示す。すなわち、Ｔ_ｐは、受動的減衰伝達関数であり、Ｔ_ｄｍは、ドライバからフィードバックマイクへの伝達関数であり、Ｈ_ｆｆは、フィードフォワードフィルタであり、Ｈ_ｆｂは、フィードバックフィルタであり、Ｖは、ユーザ発話からフィードフォワードマイクへの音響経路（伝達関数）であり、Ｗは、ユーザ発話からフィードバックマイクへの骨伝導経路（伝達関数）である。このモデルは、以下の信号も含む。すなわち、ｓは、ユーザ発話信号であり、ａは、周囲雑音信号であり、ｎは、フィードフォワードマイク測定値（または、より一般的に、音声領域から最も遠い、または音声領域への音響結合が少ないマイク）であり、ｍは、フィードバックマイク測定値（または、より一般的に、音声領域から最も遠い、または音声領域への音響結合が多いマイク）であり、ｕは、ＲＸ信号および／または任意のシステムオーディオ通知信号であり、ｄは、ＤＡＣ(ドライバ)出力である。

より特定的には、図３のシステムには、フィードフォワードフィルタＨｆｆもフィードバックフィルタＨｆｂも存在している。しかし、いくつかの実施形態では、これらのフィルタは省略され、これは、(Ｈ_ｆｆ＝Ｈ_ｆｂ＝０)であり、ヘッドセットが受動型であることを意味する。例示的な実施形態では、以下の線形統計モデルを使用する。

ＤをＭに代入すると、以下のようになる。

項を集めると、以下のようになる。

Ｎを代入すると、以下のようになる。

項を集めると、以下のようになる。

式中、以下の通りである。

線形モデル化の目的は、フィードバックマイクロフォン測定値Ｍを独立成分(周囲雑音、Ｒｘおよびユーザ発話)の線形組み合わせに分解することである。このモデルは、狭帯域信号、すなわち特定の周波数ビンに適用可能である。ブロードバンドシステムをモデル化するために、各項に周波数インデックスを追加するであろう。

分散は、以下のように表すことができる。

推定：回帰係数Ｇ(ｔ)の追跡は、それが時間とともに変化するので、困難な問題であろう。さらに悪いことには、Ｒｘが存在する場合には、ＭとＮとの間のコヒーレンスが低減され、推定値の分散を増加させるという事実がある。Ｕへの参照を使用することにより、推定問題が単純化されるが、それは必須ではない。いくつかの実施形態では、以下のように規定される測定モデルＭ(ｔ)を使用して状態空間フレームワークにおいて推定問題を説明する。

式中、ｒ(ｔ)は、平均０および分散１のガウス確率変数であり、σ_ｒは、モデル化されていない挙動(すなわち、測定値におけるわずかな非線形性)を説明する調整可能なパラメータである。Ｈ(ｔ)は、フィードバックマイク測定値に対するｒｘ／音楽信号の寄与を説明する回帰係数である。

いくつかの実施形態では、以下のプロセスモデルを使用する。

式中、ｑ_１(ｔ)およびｑ_２(ｔ)は、平均０および分散１の独立ガウス確率変数である。α_１およびα_２は、Ｇ(ｔ)およびＨ(ｔ)が時間とともにどれぐらい素早く変化し得るかを決定する調整可能なパラメータである。

状態空間フレームワークは、有用である。なぜなら、たとえば状態推定再帰最小二乗法(ＲＬＳ)、最小二乗平均(ＬＭＳ)およびカルマンフィルタのための効率的なアルゴリズムがあるからである。いくつかの実施形態では、いくつかの周波数ビンにおいて状態Ｇ(ｔ)およびＨ(ｔ)を、各ビンにおいてカルマンフィルタを使用して推定する。

いくつかの実施形態では、より一般化されたユーザ音声アクティビティ検出アプローチを組み入れて、システムの電気音響パラメータを明確に特徴付ける必要性を回避する。この一般化されたアプローチは、各々がユーザ発話ｓ、周囲雑音ａおよび／または入来オーディオｕのうちの少なくとも２つの関数である２つの信号θおよびφを、伝達関数の行列Ｔに従って使用する。(入来オーディオｕは、通信デバイスからのＲｘ／音楽などの外部生成オーディオ信号とシステムイベントプロンプト、通知またはアラームなどの内部生成オーディオ信号との組み合わせであってもよい。)伝達関数の行列Ｔは、発話、周囲および入来オーディオｕがどのように２つ以上のトランスデューサ上に現れるか、およびこれらのトランスデューサがＲｘ／音楽を参照しながらどのように組み合わせられてφおよびθを生成するかによって決定される。数学的には、これは以下のように表すことができる。

式中、Ｔは、伝達関数の行列を示し、以下のように規定される。

式中、Ｔ_ｓθは、ユーザ発話ｓから信号θへの伝達関数を表し、Ｔ_ａθは、周囲雑音ａから信号θへの伝達関数を表し、Ｔ_ｓφは、ユーザ発話ｓから信号φへの伝達関数を表し、Ｔ_ａφは、周囲雑音ａから信号φへの伝達関数を表す。このモデルにより、ユーザ音声アクティビティの確実な検出は、以下の非対称制約の順守を必要とする。

式中、ｚは、非対称性閾値ｚを示し、発話対周囲感度比が大きさおよび／または位相の点で異なっていなければならないことを示す。いくつかの実施形態では、ｚは０に等しく、他の実施形態では、ｚは０．０１、０．１、０．５、０．７５、１．０、２．０に等しい。さらに他の実施形態では、ｚは２よりも大きい。

このより一般化されたモデルの項を図３の特定の電気音響実現例にマッピングすることは、対応するＴ行列を以下のように示す。

式中、以下の通りである。

いくつかの実施形態では、以下の形態の代替的な非対称制約を使用してもよい。

上記は、信号θにおける発話と周囲信号電力との比が信号φにおける発話と周囲信号電力との比よりも大きいことを必要とする。

図４は、マイク入力およびＲｘ／音楽（入来オーディオ）入力の線形組み合わせからの信号θの生成を示す一般的な電気音響システム４００のブロック図である。システム４００は、それぞれのゲインモジュールまたはブロックＫ_１～Ｋ_Ｎを介して、それぞれの伝達関数Ｈ_１～Ｈ_Ｎを有するフィルタＨに提供されるマイクロフォンまたはトランスデューサ測定値または入力のセットＭ_１...Ｍ_ＮおよびＲｘ／音楽信号基準Ｕ１およびＵ２を含む。フィルタ出力は、加算器に送り込まれ、加算器は、θを生成する。このように、信号θは、トランスデューサおよび基準入力のフィルタリングされた組み合わせである。

図５は、図２のプロセス内でＵＶＡＤモジュール１３５の一部として使用できる一般化されたＵＶＡＤモジュール５００のブロック図である。入力信号、ユーザ発話ｓ、周囲雑音ａおよび入来デバイスオーディオｕに加えて、モジュール５００は、電気音響システムモデルブロック５１０と、推定器ブロック５２０と、加算器５３０と、分散比推定器ブロック５４０と、判断ブロック５５０とを含む。電気音響システムモデルブロック５１０は、一般に、Ｔ、すなわち、伝達関数の行列Ｔおよびシステム１００または５００などの任意の電気音響システム、で表される。

推定器ブロック５２０は、φおよびｕから（θ）を繰り返し予測または推定し、加算器ブロック５３０からの予測エラー信号ｅが返されて各々の新たな予測を更新する。例示的な実施形態では、推定器ブロック５２０は、カルマンフィルタ（上記）の形態をとる。しかし、他の実施形態では、ＲＬＳおよびＬＭＳ推定器などの一種の線形推定器を使用する。θΦ
分散比推定器ブロック５４０は、予測エラーの分散Ｓ_ｅおよび信号φの分散Ｓ_φを推定し、比Ｓ_ｅ／Ｓ_φを計算する。この比は、判断ブロック５５０に提供され、判断ブロック５５０は、この比を検出閾値ＤＴと比較する。比が閾値を超える場合、ユーザ音声アクティビティ検出信号は、ユーザ発話が有ることを示す１に設定される。そうでなければ、検出信号は、０に設定される。

結論
上記の明細書では、具体的な例示的な実施形態について説明してきた。しかし、以下の特許請求の範囲に記載されている本発明の範囲から逸脱することなくさまざまな変更および修正を行ってもよいということを当業者は理解する。したがって、明細書および図面は、限定的ではなく例示的であるように見なされるべきであり、全てのこのような変更は、本教示の範囲内に含まれるよう意図される。

利益、利点、問題に対する解決策、および、任意の利益、利点または解決策を生じさせ得るまたはより顕著にさせ得る任意の要素は、一部または全部の請求項の不可欠な、必須のまたは極めて重要な特徴または要素として解釈されるべきではない。本発明は、本願の係属中になされるいかなる補正も含む添付の特許請求の範囲および発行時の特許請求の範囲の全ての等価物によってのみ定義される。

さらに、本文献では、第２の、上部のおよび下部のなどの関係語は、１つの実体または動作を別の実体または動作から区別するためだけに使用されてもよく、このような実体または動作間のいかなる実際のこのような関係または順序を必ずしも必要とせず、または必ずしも示していない。「備える（comprises）」、「備えている（comprising）」、「有する（has）」、「有している（having）」、「含む（includes）」、「含んでいる（including）」、「含有する（contains）」、「含有している（containing）」という語またはこれらの他の変形体は、非排他的な包含をカバーするよう意図されているため、要素のリストを備える、有する、含む、含有するプロセス、方法、物品または装置は、それらの要素のみを含んでいるのではなく、明白に列挙されていない他の要素またはこのようなプロセス、方法、物品または装置に固有の他の要素も含んでいてもよい。「comprises...a」、「has...a」、「includes...a」、「contains...a」に続く要素は、より多くの制約を受けることなく、この要素を備える、有する、含む、含有するプロセス、方法、物品または装置におけるさらなる同一の要素の存在を排除するものではない。「ａ」および「ａｎ」という語は、本明細書中に明示的に別段の記載がない限り、１つ以上として定義される。「実質的に」、「本質的に」、「およそ」、「約」という語またはこれらの他のバージョンは、当業者によって理解されるように、近いものとして定義され、１つの非限定的な実施形態では、この語は、１０％の範囲内であるように定義され、別の実施形態では５％の範囲内であるように定義され、別の実施形態では１％の範囲内であるように定義され、別の実施形態では０．５％の範囲内であるように定義される。本明細書における「結合された」という語は、接続されているが、必ずしも直接的ではなく、必ずしも機械的ではないものとして定義される。特定の態様で「構成される」デバイスまたは構造は、少なくともその態様で構成されるが、記載されていない態様で構成されてもよい。また、「例示的な」という語は、実施形態、システム、方法、デバイスなどの１つ以上の名詞を修飾するための形容詞として本明細書では使用され、名詞が非限定的な例として提供されていることを具体的に示すよう意図されている。

Claims

音声処理システムであって、
複数の音声信号を受信する複数の入力を備え、前記複数の入力は、ユーザの第１の耳の近傍に配置された第１のトランスデューサからの第１の音声信号を受信する第１の入力と、前記ユーザの第２の耳の近傍に配置された第２のトランスデューサからの第２の音声信号を受信する第２の入力と、前記ユーザの口頭の領域の近傍に配置された第３のトランスデューサからの第３の音声信号を受信する第３の入力とを含み、さらに、
前記複数の入力に結合され、前記第１、第２および第３の音声信号を受信して、前記第１の音声信号および前記第２の音声信号の発話成分を比較して、その比較結果に基づいて、前記発話成分が前記ユーザによって与えられたものかどうかを判断して、前記発話成分が前記ユーザによって与えられたものかどうかを示す音声アクティビティ検出信号を与えるように構成された処理回路を備える、音声処理システム。
前記処理回路は、前記第１の音声信号および前記第２の音声信号の前記発話成分の強度および位相を比較して、前記発話成分が前記ユーザによって与えられたものかどうかを判断する、請求項１に記載の音声処理システム。
前記処理回路は、前記第１の音声信号および前記第２の音声信号の前記発話成分の前記強度および前記位相が実質的に同一であることを示す比較結果に応答して、前記発話成分が前記ユーザによって与えられたものであると判断する、請求項２に記載の音声処理システム。
前記処理回路は、さらに、
前記発話成分が前記ユーザによって与えられたものではないという判断に応答して、前記第３の音声信号に対して、ミュートまたは減衰の少なくとも一方を行うように構成される、請求項３に記載の音声処理システム。
前記第１、第２、および第３のトランスデューサは、マイクロフォンである、請求項３に記載の音声処理システム。
前記音声処理システムは、挿耳型ヘッドセット、耳装着型ヘッドセットまたは、耳覆い型ヘッドセットのうちの１つである、請求項３に記載の音声処理システム。
前記処理回路は、前記第１の音声信号および前記第２の音声信号の前記発話成分の少なくとも前記位相が実質的に同一ではないことを示す比較結果に応答して、前記発話成分が前記ユーザによって与えられたものではないと判断する、請求項２に記載の音声処理システム。
前記複数の入力は、第４のトランスデューサからの第４の音声信号を受信する第４の入力をさらに含み、前記第４のトランスデューサは、前記ユーザの前記第１の耳の近傍でありながら前記第１のトランスデューサよりも前記ユーザの前記第１の耳から遠くに配置され、
前記処理回路は、前記第４の音声信号を受信して、前記第１の音声信号および前記第４の音声信号の発話成分を比較して、その比較結果に基づいて、前記発話成分が前記ユーザによって与えられたものかどうかを判断するように、さらに構成される、請求項１に記載の音声処理システム。
前記処理回路は、前記第１の音声信号、前記第２の音声信号および前記第４の音声信号の前記発話成分の強度または位相の少なくとも１つを比較して、前記発話成分が前記ユーザによって与えられたものかどうかを判断する、請求項８に記載の音声処理システム。
前記処理回路は、前記第１の音声信号および前記第２の音声信号の前記発話成分の前記強度および前記位相が実質的に同一であり、かつ、少なくとも前記第１の音声信号の前記強度が前記第４の音声信号の前記強度よりも実質的に大きいことを示す比較結果に応答して、前記発話成分が前記ユーザによって与えられたものであると判断する、請求項９に記載の音声処理システム。
音声処理システムであって、
複数の音声信号を受信する複数の入力を備え、前記複数の入力は、ユーザの第１の耳の近傍に配置された第１のトランスデューサからの第１の音声信号を受信する第１の入力と、前記ユーザの前記第１の耳の近傍であるが前記第１のトランスデューサよりも前記第１の耳から遠くに配置された第２のトランスデューサからの第２の音声信号を受信する第２の入力と、前記ユーザの口頭の領域の近傍に配置された第３のトランスデューサからの第３の音声信号を受信する第３の入力とを含み、さらに、
前記複数の入力に結合され、前記第１、第２および第３の音声信号を受信して、前記第１の音声信号と前記第２の音声信号の発話成分を比較して、その比較結果に基づいて、前記発話成分が前記ユーザによって与えられたものかどうかを判断して、前記発話成分が前記ユーザによって与えられたものかどうかを示す音声アクティビティ検出信号を与えるように構成された処理回路を備える、音声処理システム。
前記処理回路は、前記第１の音声信号および前記第２の音声信号の前記発話成分の強度または位相のうちの少なくとも１つを比較して、前記発話成分が前記ユーザによって与えられたものかどうかを判断する、請求項１１に記載の音声処理システム。
前記処理回路は、少なくとも前記第１の音声信号の前記発話成分の前記強度が前記第２の音声信号の前記発話成分の前記強度よりも実質的に大きいことを示す比較結果に応答して、前記発話成分が前記ユーザによって与えられたものであると判断する、請求項１２に記載の音声処理システム。
前記処理回路は、さらに、
前記発話成分が前記ユーザによって与えられたものではないという判断に応答して、前記第３の音声信号に対して、ミュートまたは減衰の少なくとも一方を行うように構成される、請求項１３に記載の音声処理システム。
前記第１、第２、および第３のトランスデューサは、マイクロフォンであり、
前記音声処理システムは、挿耳型ヘッドセット、耳装着型ヘッドセットまたは、耳覆い型ヘッドセットのうちの１つである、請求項１３に記載の音声処理システム。
前記処理回路は、少なくとも前記第１の音声信号の前記発話成分の前記強度が前記第２の音声信号の前記発話成分の前記強度よりも実質的に大きくないことを示す比較結果に応答して、前記発話成分が前記ユーザによって与えられたものではないと判断する、請求項１２に記載の音声処理システム。
前記処理回路は、前記第１の音声信号の前記発話成分が前記第２の音声信号の前記発話成分よりも時間的に実質的に早く到達したことを示す比較結果に応答して、前記発話成分が前記ユーザによって与えられたものではないと判断する、請求項１１に記載の音声処理システム。
音声処理方法であって、
ユーザの第１の耳の近傍に配置された第１のトランスデューサから第１の音声信号を受信することと、
前記ユーザの第２の耳の近傍、または、前記ユーザの前記第１の耳の近傍でありながら前記第１のトランスデューサよりも前記ユーザの前記第１の耳から遠くに配置された第２のトランスデューサから第２の音声信号を受信することと、
前記ユーザの口頭の領域の近傍に配置された第３のトランスデューサから第３の音声信号を受信することと、
前記第１の音声信号および前記第２の音声信号の発話成分を比較することと、
比較結果に基づいて、前記発話成分が前記ユーザによって与えられたものかどうかを判断することと、
前記発話成分が前記ユーザによって与えられたものかどうかを示す音声アクティビティ検出信号を与えることとを備える、音声処理方法。
前記第２のトランスデューサは、前記ユーザの前記第２の耳の近傍に配置され、
前記第１の音声信号および前記第２の音声信号の発話成分を比較することは、前記第１の音声信号および前記第２の音声信号の前記発話成分の強度および位相を比較することを含み、
前記比較結果に基づいて、前記発話成分が前記ユーザによって与えられたものかどうかを判断することは、前記第１の音声信号および前記第２の音声信号の前記発話成分の前記強度および前記位相が実質的に同一であることを示す前記比較結果に応答して、前記発話成分が前記ユーザによって与えられたものであると判断することを含む、請求項１８に記載の方法。
前記第２のトランスデューサは、前記ユーザの前記第１の耳の近傍でありながら前記第１のトランスデューサよりも前記ユーザの前記第１の耳から遠くに配置され、
前記発話成分を比較することは、前記第１の音声信号および前記第２の音声信号の前記発話成分の少なくとも強度を比較することを含み、
前記比較結果に基づいて、前記発話成分が前記ユーザによって与えられたものであると判断することは、前記第１の音声信号の前記強度が前記第２の音声信号の前記強度よりも実質的に大きいことを示す前記比較結果に応答して、前記発話成分が前記ユーザによって与えられたものであると判断することを含む、請求項１８に記載の方法。
通信アセンブリであって、
入来オーディオ信号を提供する通信デバイスに接続するように構成された入来オーディオ信号ノードと、
ユーザ発話の有無の判断を示す音声アクティビティ検出信号を出力するように構成された信号処理回路とを備え、前記信号処理回路は、第１の信号φ、第２の信号θおよび第３の信号に基づいてユーザ発話の有無を判断するように構成され、前記第１の信号φおよび前記第２の信号θは、少なくとも周囲雑音ａ、ユーザ発話ｓおよび第３の信号に応答して２つ以上のトランスデューサから導き出され、前記第１の信号φおよび前記第２の信号θは、以下の制約を満たし、

式中、Ｔ_ｓθは、前記ユーザ発話ｓから前記第２の信号θへの伝達関数を表し、Ｔ_ａθは、前記周囲雑音ａから前記第２の信号θへの伝達関数を表し、Ｔ_ｓφは、前記ユーザ発話ｓから前記第１の信号φへの伝達関数を表し、Ｔ_ａφは、前記周囲雑音ａから前記第１の信号φへの伝達関数を表し、
前記第３の信号は、少なくとも部分的に入来オーディオ信号または少なくとも１つのオーディオ通知信号に基づく、通信アセンブリ。
前記２つ以上のトランスデューサは、第１および第２のマイクロフォンを含み、前記第１のマイクロフォンは、ユーザ音声領域への音響結合が前記第２のマイクロフォンよりも実質的に大きい状態で位置決めされる、請求項２１に記載の通信アセンブリ。
前記第１のマイクロフォンは、骨伝導経路を介して前記第２のマイクロフォンよりも多くの音響エネルギを前記ユーザ音声領域から受信するように位置決めされる、請求項２２に記載の通信アセンブリ。
ユーザ発話が無いという判断を示す前記音声アクティビティ検出信号に応答して音声マイクロフォン出力信号を減衰させ、ユーザ発話が有ることを示す前記音声アクティビティ検出信号に応答して前記音声マイクロフォン出力信号の減衰を解除するように構成された自動ミューティングモジュールをさらに備える、請求項２１に記載の通信アセンブリ。
前記自動ミューティングモジュールは、前記音声アクティビティ検出信号の受信後に予め定められた時間にわたって前記音声マイクロフォン出力信号をミュートまたは減衰させるように構成される、請求項２４に記載の通信アセンブリ。
音声マイクロフォン出力信号から導き出されたユーザ発話信号内の１つ以上のキーワードを認識し、ユーザ発話が無いという判断を示す前記音声アクティビティ検出信号に応答して、シャットダウンまたはスリープ状態に入って電力またはメモリを節約するように構成されたキーワード認識モジュールをさらに備える、請求項２１に記載の通信アセンブリ。
ユーザ発話に応答して、ヘッドセットイヤピース内のラウドスピーカにサイドトーン信号を提供し、ユーザ発話が無いという判断を示す前記音声アクティビティ検出信号に応答して、シャットダウンまたはスリープ状態に入って電力またはメモリを節約するサイドトーンモジュールをさらに備える、請求項２１に記載の通信アセンブリ。
ユーザ発話が有るという判断を示す前記音声アクティビティ検出信号に応答して、第１の方法で雑音を低減し、ユーザ発話が無いという判断を示す前記音声アクティビティ検出信号に応答して、第２の方法で雑音を低減する雑音低減モジュールをさらに備える、請求項２１に記載の通信アセンブリ。
音声マイクロフォン出力信号の発話内容に依存する態様で動作し、ユーザ発話が無いという判断を示す前記音声アクティビティ検出信号に応答して、電力および／またはメモリ節約モードに入るように構成された少なくとも１つの発話依存モジュールをさらに備える、請求項２１に記載の通信アセンブリ。
ヘッドセットイヤピースに関連付けられたラウドスピーカに接続するように構成された第１のノードと、前記ヘッドセットイヤピースに関連付けられたフィードフォワードアンビエントマイクロフォンに接続するように構成された第２のノードと、ヘッドセットイヤピースに関連付けられたフィードバックエラーマイクロフォンに接続するように構成された第３のノードとをさらに備え、
前記信号処理回路は、前記第１、第２および第３のノードに結合され、前記フィードフォワードアンビエントマイクロフォンおよび前記フィードバックエラーマイクロフォンから生じる信号に応答して前記ラウドスピーカに雑音低減信号を提供するように構成され、
前記第１の信号φおよび前記第２の信号θは、前記フィードフォワードアンビエントマイクロフォンおよび前記フィードバックエラーマイクロフォンから生じる信号から導き出される、請求項２１に記載の通信アセンブリ。
前記信号処理回路は、さらに、範囲内の発話信号を出力している標準的なヘッドアンドトルソシミュレータ上に第１および第２のトランスデューサが設置されると、前記ユーザ発話が無いことを示すように構成される、請求項３０に記載の通信アセンブリ。
挿耳型イヤピースにおける前記ヘッドセットイヤピースは、前記フィードバックエラーマイクロフォンを含む外耳道部分を有する、請求項３０に記載の通信アセンブリ。
音声マイクロフォン出力信号と２つ以上のトランスデューサのセットとを有する通信アセンブリを動作させる方法であって、
第１の信号φ、第２の信号θを導き出すことにより、前記２つ以上のトランスデューサの出力に基づいて、前記通信アセンブリのユーザが話しているか否かを判断するステップを備え、前記第１の信号φおよび前記第２の信号θは、周囲雑音信号ａ、ユーザ発話信号ｓおよび第３の信号を変換する前記２つ以上のトランスデューサから導き出され、前記第１の信号φおよび前記第２の信号θは、以下の制約を満たし、

式中、Ｔ_ｓθは、前記ユーザ発話ｓから前記第２の信号θへの伝達関数を表し、Ｔ_ａθは、前記周囲雑音ａから前記第２の信号θへの伝達関数を表し、Ｔ_ｓφは、前記ユーザ発話ｓから前記第１の信号φへの伝達関数を表し、Ｔ_ａφは、前記周囲雑音ａから前記第１の信号φへの伝達関数を表し、
前記ユーザが話していないという判断に応答して、前記通信アセンブリに関連付けられた１つ以上の発話依存モジュールの動作状態をリソース節約状態に変化させるステップとを備える、方法。
前記１つ以上の発話依存モジュールは、
前記ユーザが話していないという前記判断に応答して前記音声マイクロフォン出力信号をミュートするように構成されたミューティングモジュール、
１つ以上の話された単語またはフレーズを認識するように構成されたキーワード認識モジュール、および
前記音声マイクロフォン出力信号に基づいてサイドトーン信号を生成するように構成されたサイドトーンモジュール、
のうちの少なくとも１つを含む、請求項３３に記載の方法。
通信アセンブリであって、
ユーザ頭部に着用されるように構成された第１および第２のトランスデューサを備え、前記第１のトランスデューサは、ユーザ音声領域への音響結合が前記第２のトランスデューサよりも実質的に大きいように構成され、前記通信アセンブリはさらに、
前記第１および第２のトランスデューサがユーザ頭部に装着されると、予め定められた周波数範囲内のユーザ発話の有無の判断を示す音声アクティビティ検出信号を出力するように構成された信号処理回路を備え、前記通信アセンブリは、ラウドスピーカと、フィードフォワードアンビエントマイクロフォンと、フィードバックエラーマイクロフォンと、音声マイクロフォンと、入来オーディオ信号を提供する通信デバイスに接続するように構成された入来オーディオ信号ノードとを有するイヤピースを備え、
前記信号処理回路は、第１の信号φ、第２の信号θおよび第３の信号に基づいてユーザ発話の有無を判断するように構成され、前記第１の信号φおよび前記第２の信号θは、少なくとも、周囲雑音ａ、ユーザ発話ｓおよび第３の信号に応答して前記フィードフォワードアンビエントマイクロフォン、前記フィードバックエラーマイクロフォンおよび前記音声マイクロフォンのうちの少なくとも２つの出力信号から導き出され、前記第１の信号φおよび前記第２の信号θは、以下の制約を満たし、

式中、Ｔ_ｓθは、前記ユーザ発話ｓから前記第２の信号θへの伝達関数を表し、Ｔ_ａθは、前記周囲雑音ａから前記第２の信号θへの伝達関数を表し、Ｔ_ｓφは、前記ユーザ発話ｓから前記第１の信号φへの伝達関数を表し、Ｔ_ａφは、前記周囲雑音ａから前記第１の信号φへの伝達関数を表し、
前記第３の信号は、少なくとも部分的に入来オーディオ信号または少なくとも１つのオーディオ通知信号に基づくように構成される、通信アセンブリ。
前記信号処理回路は、前記第１および第２のトランスデューサが、所定の周波数範囲において発話信号を出力する、標準ヘッドアンドトルソシミュレータ上に位置するときに、ユーザ発話が無いということを示すように構成される、請求項３５に記載の通信アセンブリ。
前記信号処理回路は、さらに、前記フィードフォワードアンビエントマイクロフォンおよび前記フィードバックエラーマイクロフォンから生じる信号に応答して前記ラウドスピーカに雑音低減信号を提供するように構成され、
前記通信アセンブリは、１つ以上の発話依存モジュールのセットをさらに含み、各発話依存モジュールは、ユーザ発話が無いことを示す前記音声アクティビティ検出信号に応答して、電力またはメモリ節約状態に入り、ユーザ発話が有ることを示す前記音声アクティビティ検出信号に応答して、前記電力またはメモリ節約状態を終了する、請求項３５に記載の通信アセンブリ。
前記１つ以上の発話依存モジュールのセットは、通信デバイスに音声マイクロフォン信号を出力するように構成された音声マイクロフォン出力モジュールと、１つ以上の話された単語またはフレーズを認識するように構成されたキーワード認識モジュールと、出力された前記音声マイクロフォン信号に基づいてサイドトーン信号を生成するように構成されたサイドトーンモジュールとを含む、請求項３７に記載の通信アセンブリ。