JP7123951B2 - 通信アセンブリにおけるユーザ音声アクティビティ検出のための方法、その通信アセンブリ - Google Patents

通信アセンブリにおけるユーザ音声アクティビティ検出のための方法、その通信アセンブリ Download PDF

Info

Publication number
JP7123951B2
JP7123951B2 JP2019542604A JP2019542604A JP7123951B2 JP 7123951 B2 JP7123951 B2 JP 7123951B2 JP 2019542604 A JP2019542604 A JP 2019542604A JP 2019542604 A JP2019542604 A JP 2019542604A JP 7123951 B2 JP7123951 B2 JP 7123951B2
Authority
JP
Japan
Prior art keywords
signal
user
speech
audio
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019542604A
Other languages
English (en)
Other versions
JP2020506634A (ja
JP2020506634A5 (ja
Inventor
アン,ジアジン
ウルツ,マイケル・ジョン
ウルツ,デイビッド
カイラ,マンプリート
クマール,アミット
オコナー,ショーン
ラソウド,シャンカー
スキャンラン,ジェイムズ
ソレンセン,エリック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Avnera Corp
Original Assignee
Avnera Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US15/711,793 external-priority patent/US10564925B2/en
Application filed by Avnera Corp filed Critical Avnera Corp
Publication of JP2020506634A publication Critical patent/JP2020506634A/ja
Publication of JP2020506634A5 publication Critical patent/JP2020506634A5/ja
Application granted granted Critical
Publication of JP7123951B2 publication Critical patent/JP7123951B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/3287Power saving characterised by the action undertaken by switching off individual functional units in the computer system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • G10K11/17821Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the input signals only
    • G10K11/17827Desired external signals, e.g. pass-through audio such as music or speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1787General system configurations
    • G10K11/17879General system configurations using both a reference signal and an error signal
    • G10K11/17881General system configurations using both a reference signal and an error signal the reference signal being an acoustic signal, e.g. recorded with a microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1041Mechanical or electronic switches, or control elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/10Applications
    • G10K2210/108Communication systems, e.g. where useful sound is kept and noise is cancelled
    • G10K2210/1081Earphones, e.g. for telephones, ear protectors or headsets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/10Details of earpieces, attachments therefor, earphones or monophonic headphones covered by H04R1/10 but not provided for in any of its subgroups
    • H04R2201/107Monophonic and stereophonic headphones with microphone for two-way hands free communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Otolaryngology (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Headphones And Earphones (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

著作権表示および許可
この特許文献の一部は、著作権保護の対象となる題材を含んでいる。著作権保有者は、この特許文献または特許開示が特許商標庁の包袋または記録に掲載されているため、この特許文献または特許開示を誰でも複写複製できることに対して異議はないが、その他の点ではすべての如何なる著作権をも保有する。以下の表示がこの文献に適用される:Copyright (c) 2017, AVNERA CORPORATION
関連出願
本願は、2017年9月21日に出願された米国特許出願第15/711,793号、2017年2月7日に出願された米国仮特許出願第62/456,100号、2017年2月14日に出願された米国仮特許出願第62/459,055号、および2017年7月14日に出願された米国仮特許出願第62/532,964号に対する優先権を主張する。これら4つの出願は全て、全文が引用によって本明細書に援用される。
技術分野
本発明のさまざまな実施形態は、一般に、自動雑音低減を有するヘッドセットなどのさまざまなタイプのヘッドセットにおけるユーザ音声アクティビティの自動検出に関する。
背景
一般に、ヘッドセットは、ユーザの耳を覆うように、ユーザの耳に装着するように、またはユーザの耳に挿入するように着用されて電子通信を容易にする1つまたは2つのイヤデバイスまたはイヤプラグとともに、マイクロフォンを含む。多くの最近のヘッドセットは、周囲雑音のかなりの部分を自動的に検知および消去することによって、ユーザのリスニング体験を向上させるための自動雑音低減(ANR)または自動雑音消去(ANC)回路も含む。ANC回路は、原理上は単純であるが、実現するには複雑であり、多くのヘッドセットは、6つのマイクロフォン(マイク)を含み、これら6つのマイクロフォンのうちの2つがフィードバック(fb)ANCのためのものであり、2つがフィードフォワード(ff)ANCのためのものであり、1つまたは2つがユーザ音声信号をピックアップするためのものである。
本発明者等が認識している1つの問題は、ANCヘッドセットは、それらを着用しているユーザのリスニング体験を向上させるが、ヘッドセットから他のデバイスに送信されている信号の品質を向上させることはほとんどまたは全くないということである。たとえば、多くの騒々しい環境では、携帯電話とともにヘッドセットを着用しているユーザは、一般に、電話によって背景雑音が他の電話およびデバイスに伝達されることを防ぐために電話をミュートモードに手動で切り替える必要がある。これは、望ましくない雑音の伝達を防止するには有効であるが、しばしば通信ギャップを引き起こすことになる。なぜなら、電話をミュートしたユーザは、再び話し始めるときに電話をミュート解除し忘れるからである。さらに、多くのユーザが手動でミュートしたりミュート解除したりする会議電話では、通信ギャップの可能性はさらに大きくなる。
この問題を解決しようとして、設計者の中には、音声マイク出力をモニタリングして、マイク出力レベルと1つ以上の閾値との比較に基づいて自動的にミュートしたりミュート解除したりする回路を設けるものもいた。しかし、モニタリング回路は、携帯電話での使用を阻害してきた少なくとも2つの問題を抱えている。第1に、モニタリング回路は、相当な電力を消費するため、電池寿命を短くする。第2に、この回路は、発話の停止および開始に対する反応がゆっくりであるという理由だけでなく、外部雑音、たとえば近くの人の声、とユーザの声とを混同するという理由からも、回路自体の通信ギャップを生じさせる。
したがって、本発明者等は、ANCおよび他のタイプのヘッドセットを介した周囲雑音の伝達を低減するよりよい方法が必要であることを認識した。
概要
これらのおよび/または他の必要性または問題のうちの1つ以上に対処するために、本発明者等は、とりわけ、ユーザ発話の有無を自動的に検出して、関連付けられたミューティングまたは他の音声もしくは発話依存機能を動作させるための1つ以上の例示的なシステム、キット、方法、デバイス、アセンブリおよび/またはコンポーネントを考案した。いくつかの実施形態は、音声マイクと、少なくとも2つの制御マイクと、処理回路とを含み、処理回路は、制御マイク出力信号の関係に基づいて音声マイクをミュートするように構成される。
第1の実施形態では、2つの制御マイク、たとえば左側イヤピース装着マイクおよび右側イヤピース装着マイク、は、ユーザ音声領域におよそ対称に音響結合するように構成される。処理回路は、2つのマイクからの出力信号の測定された時間的対称性、たとえば位相関係、に基づいて、ユーザが話しているか否かを判断し、対称性が高いことは、ユーザ発話(ほぼ同時に両方のマイクに到達する)を示し、対称性が低いことは、周囲雑音またはユーザ発話が無いことを示す。第1の実施形態のいくつかの変形例における2つの制御マイクは、ANCヘッドセットにおける左側および右側フィードバックマイクである。いくつかの他の変形例では、サンプリングされたマイク出力の複素コヒーレンスを使用して位相関係を測定または推定し、複素コヒーレンスの実数部が閾値を下回るたびにミューティング回路を起動する。
第2の実施形態では、2つの制御マイクは、ユーザ音声領域に非対称に音響結合するように構成され、すなわち、一方のマイクは、ユーザ音声領域への音響結合が他方のマイクよりも優れている。処理回路は、2つのマイク出力信号のエネルギレベルの相対的大きさに基づいてミューティングをオンにしたりオフにしたりするように構成される。たとえば、いくつかのANC実施形態では、優れた音響結合を有するマイクは、ANCイヤピースにおけるフィードバックエラーマイクであり、他方のマイクは、フィードフォワードマイクである。処理回路は、ミューティング機能をオンにするかオフにするかを判断する際に、フィードバックエラーマイク出力とフィードフォワードマイク出力との比を閾値と比較する。いくつかの変形例では、ANC制御マイクではなく、ブームまたはコードに設置された2つのマイクを使用してもよい。
処理回路は、ミューティング機能をオンにするかオフにするかを判断する際に、フィードバックエラーマイク出力とフィードフォワードマイク出力との比を閾値と比較する。いくつかの変形例では、ANC制御マイクではなく、ブームまたはコードに設置された2つのマイクを使用してもよい。より一般化された実施例では、2つ以上のマイクロフォンを使用して2つの信号を生成し、第1の信号は、第2の信号よりもユーザ発話に密接に結合され、第2の信号は、第1の信号よりも周囲雑音または音に密接に結合される。
第3の実施形態では、フィードバックエラーマイクおよびフィードフォワードアンビエントマイクなどの2つのマイクからの信号間の位相差も大きさの差も説明する伝達関数を推定する。この実施形態のいくつかの変形例では、ANCマイクは無くてもよく、音声マイクおよび1つの他のマイクなどの他のマイクの対を使用してもよい。伝達関数は、カルマンフィルタリングまたは他の形態の最適推定器などのさまざまな方法を使用して推定することができる。
1つ以上の実施形態は、他の特徴も含む。たとえば、xom実施形態は、マイクロフォンのうちの1つ以上に関連付けられたイヤピース内のラウドスピーカを介して出力される音楽または他のオーディオ信号を消去するためのキャンセラを含む。いくつかの実施形態は、話される言葉と言葉との間または短い沈黙の間のミューティングのリスクを低減するためのミューティング遅延および保持機能を含む。さらに他の実施形態は、音声マイクのタイムリーなミュート解除を保証することによりユーザ発話の部分的な喪失を回避するためのバッファメモリおよびルックアヘッド機能を含む。
以下の添付の図面(図)を参照して、さまざまな実施形態について本明細書で説明する。これらの図面では、さまざまな特徴および構成要素に対して参照番号がつけられており、これらの番号は、教示を補助するものとして以下の説明で使用されており、同様の番号は、同一または類似の特徴および構成要素を指す。
本発明の1つ以上の実施形態に対応する例示的なヘッドセットシステムまたはアセンブリ100のブロック図である。 本発明の1つ以上の実施形態に対応するアセンブリ100のユーザ音声アクティビティ検出器部分を動作させる例示的な方法のブロック図である。 本発明の1つ以上の実施形態に対応するヘッドセットシステム300の半分のシステム概念図である。 本発明の1つ以上の実施形態に対応する、複数のオーディオトランスデューサおよびオーディオ入力信号を有する一般的な電気音響システムのブロック図である。 本発明の1つ以上の実施形態に対応するユーザ音声アクティビティ検出器のブロック図である。
例示的な実施形態の詳細な説明
図面および特許請求の範囲を盛り込んだこの文献には、1つ以上の発明の1つ以上の具体的な実施形態が記載されている。これらの実施形態は、本発明を限定する目的ではなく本発明を単に例示および教示する目的で提供されているが、当業者が本発明を実現または実施できるように十分に詳しく示され、記載されている。さらに、適宜、本発明を曖昧にすることを回避するために、説明では当業者に公知の特定の情報は割愛してもよい。
図1は、ユーザの頭部101(上面図)の耳102Aおよび102Bに装着された例示的なANRヘッドセットアセンブリまたはシステム100を示す。ユーザ頭部101は、それぞれの左耳102Aおよび右耳102Bと、口103と、ユーザ音声領域104とを含む。ユーザ音声領域104は、ユーザの口と、喉頭(図示せず)とを含む。アセンブリ100は、左側イヤピース110Aおよび右側イヤピース110Bと、任意のヘッドバンド110Cと、インラインまたはブーム音声マイクロフォン120と、処理回路130と、ホストまたは外部デバイス140とを含む。
挿耳型、耳覆い型または耳装着型の構成の形態をとって垂直軸110Dを規定し得るイヤピース110Aおよび110Bは、それぞれのANRドライバDAおよびDBと、フィードフォワードマイクFFAおよびFFBと、それぞれのフィードバックマイクFBAおよびFBBとを含む。ANRドライバDAおよびDBは、それぞれのイヤピース110Aおよび110Bの内部容積を前腔部および後腔部(別々に表示せず)に分割する。フィードフォワードアンビエントマイクFFAおよびFFBは、フィードバックマイクFBAおよびFBBよりもそれぞれの耳102Aおよび102Bからさらに離れて、後腔内または後腔に隣接して位置決めされ、これにより、フィードバックエラーマイクFBAおよびFBBよりも周囲雑音への音響結合を大きくし、ユーザ頭部101、ユーザ外耳道および音声領域104への音響結合を小さくすることを保証する。フィードバックエラーマイクFBAおよびFBBは、同様に、それらのそれぞれのイヤピース内またはイヤピース上に位置決めされ、これにより、頭部または軸110D上にあるユーザ音声領域104への骨(身体)伝導経路104Aおよび104Bを介した概して同一または対称の音響結合を保証する。また、フィードバックマイクは、周囲雑音源Nなどの軸外外部雑音源への空気伝導経路P1およびP2を介した概して対称の音響結合を有する。(同一のイヤピースにおけるフィードバックマイクおよびフィードフォワードマイクは、ユーザ発話および周囲に対する応答が非常に非対称である。)マイクロフォンおよびドライバは、処理回路130へのそれぞれの有線または無線通信リンク131および132を介して結合されている。
いくつかの実施形態では、関連付けられたメモリと、完全に分離されるかまたは部分的もしくは完全にデバイス140内に一体化された他の一体型構成要素とを有するデジタル信号プロセッサの形態をとる処理回路130は、入力/出力ノードのセット133と、ANR処理モジュール134と、ユーザ音声検出モジュール135と、ミューティングモジュール136と、発話依存モジュール137と、オンイヤー検出モジュール137とを含む。
入力/出力ノード133は、音声マイク出力信号ノードVmと、フィードバックマイク左側信号ノードFBA(fbL)と、フィードバックマイク右側信号ノードFBB(fbR)と、フィードフォワードマイク左側信号ノードFFA(ffL)と、フィードフォワードマイク右側信号ノードFFB(ffL)と、入来デバイスオーディオ/音楽信号ノードR×A R×Bとを含む。(本明細書におけるRxは、単独でまたは集合的にR×AまたはR×Bを指し得て、電話オーディオ信号を含み得る。)
ANR処理モジュール134は、回路と、ユーザの耳腔内を含むイヤピース前方容積内の周囲雑音を消去するための機械によって実行可能な命令とを提供する。特に、モジュール134は、それぞれの外耳道または耳腔内の全音響エネルギの合計を表す出力信号をフィードバックマイクFFAおよびFFBから受信する。また、モジュール134は、スマートフォン、音楽プレーヤ、トランシーバまたは他の電子音源などのデバイス140からイヤホンオーディオ信号を受信する。フィードフォワードマイクロフォンFFAおよびFFBからの周囲雑音信号に応答して、ANR処理回路は、雑音消去信号を生成し、消去信号とイヤホンオーディオ信号(Rx)との混合信号または合計をANRドライバDAおよびDBに送信し、ANRドライバDAおよびDBは、感知した周囲雑音のかなりの部分を消去してイヤホンオーディオ信号の音響的表現を提供する音響エネルギを生成する。いくつかの実施形態では、ANR処理モジュール134は、2016年3月4日に出願された米国特許出願第15/069,271号に記載されているタイプなどの適応型ANR処理を含み、米国特許出願第15/069,271号は、引用によって本明細書に援用される。
ユーザ音声アクティビティ検出(UVAD)モジュール135は、論理回路、および/または、フィードフォワードマイクFFAおよびFFBならびにフィードバックマイクFBAおよびFBBのうちの2つ以上から導き出された入力信号を処理して、音声マイクロフォン120の出力信号内のユーザ発話の有無を検出または予測するための格納された機械によって実行可能な命令を含む。具体的には、例示的な実施形態は、2つのユーザ音声アクティビティ検出方法を提供する。(いくつかの実施形態は、フィードバックマイクと組み合わせて任意の周囲結合マイクを使用したUVADを提供する。したがって、たとえば、音声マイクおよびフィードバックマイクが使用され得る。)
第1の方法では、ユーザ頭部が十分に対称的であるので、ユーザ頭部を通る音響経路104Aおよび104Bが一般に等長であり、材料組成の点で実質的に類似しているという見識を活用する。これは、フィードバックマイク出力の発話成分が、ユーザが話しているときには大きさおよび位相の点で実質的に同一であり、ユーザが話していないときには少なくとも位相の点で実質的に異なることを意味する。言い換えれば、フィードバックマイクからの出力信号は、ほぼ同一の発話データ成分を有し、そのため、ユーザが話しているときには(位相関係の点で)高いコヒーレンスを示す。さらに、周囲雑音から2つのマイクまでの距離は、通常、図1における経路P1およびP2によって示されるように等しくなく、または非対称であり、これは、コヒーレンスの位相が回転させられることを意味する。(依然としてコヒーレントであり得るが、これは、大きさが依然として1に非常に近いが、角度が「同相の」状況を示す0にならないことを意味する。)
したがって、例示的な実施形態では、閾値テストの範囲内の左側および右側フィードバックエラーマイク信号fbLおよびfbRの複素コヒーレンスを使用して、ユーザ音声アクティビティが存在しそうであるか否かを判断する。閾値基準が満たされる場合、ミュートコマンド信号がミュートモジュール136に提供され、満たされない場合、ミュート解除コマンド符号が提供される。より具体的には、閾値テストは、以下の形態をとる。
Figure 0007123951000001
式中、mean()は、(周波数に対する)平均関数を示し、real()は、複素引数の実数部を示し、Cxy(freq_range)は、freq_rangeで示される周波数範囲に対する信号xおよびyの複素コヒーレンスを示し、添え字xは、fbLエラーマイク信号(左側fbマイク信号、FBA)を示し、添え字yは、fbRエラーマイク信号(右側fbマイク信号、FBB)を示し、CTは、コヒーレンス閾値を示す。複素コヒーレンスCxyの実数部が使用される理由は、これが2つの信号がどれぐらい「同相」であるかの尺度であるからである。平均値が1つだけ取られる場合には、.Note:abs(Cxy)は1であるが、重要な情報が依然として同相であるので、これは依然として有用であろう。平均値を計算するfreq_rangeは、変動し得る。しかし、人間の喉頭の身体伝導音響特性が元来低周波数であるので、いくつかの実施形態では、70~700Hzまたは100~500Hzの範囲を使用する。ユーザが話していない(すなわち、ユーザ発話が無い)というCxy検出器回路または論理回路からの表示に応答して、例示的な実施形態では、ミュートモジュール136を使用して、音声マイクなどの1つ以上のマイクロフォンおよび/またはフィードフォワードマイクロフォンの出力をミュートまたは減衰させる。
また、いくつかの実施形態では、コヒーレンス閾値CTは、パフォーマンスの点でわずかなばらつきはあるが、0.7~0.9(0.7および0.9を含む)の範囲内である。それを1に近付けすぎると、かなりの背景雑音がある場合に検出器がフォールスネガティブに陥りやすくなり(発話が存在するときに検出されない)、それを低く設定しすぎると、フォールスポジティブを生じさせる(すなわち、発話がない場合にミュート解除する。いくつかの実施形態では、コヒーレンス閾値は、信号(発話)対雑音比などのシステムまたは環境パラメータに基づいて動的に調整されてもよい。すなわち、発話が雑音よりもはるかに強い場合には、いくつかの実施形態では、閾値を1、たとえば0.9に近くなるようにシフトさせ、非常に騒々しい場合には、これらの実施形態では、閾値レベルを減少させてユーザ発話のミューティングを回避する。程よい妥協点は、0.75などの0.7~0.8の例示的な閾値である。
この左右対称性に基づくアプローチは、有効であるが、たとえば第2の話者がユーザとともに軸上にいる(または、左側および右側イヤピースから概して等距離にいる)場合に起こり得る軸上周囲雑音の影響をこうむりやすくなる。また、信号対雑音比(SNR)も悪くなる。軸上雑音は、フィードバックエラーマイクロフォンにおいて高いコヒーレンスを示すため、誤って発話として認識される。興味深いことに、この脆弱性を確認する1つの方法は、このUVADアプローチ(たとえば、左側および右側フィードフォワードもしくは左側および右側フィードバックマイク、またはより一般的に、音声領域からほぼ等距離であるように構成された2つのマイクを有する)を使用するヘッドセットを、B&Kタイプ4128-Cシミュレータ(デンマークのナームに所在するブリュエル・ケアー・サウンド・アンド・バイブレーション・メジャラメントA/S社製)などの従来のヘッドアンドトルソシミュレータ(HATS)上に設置するという方法である。そうすると、ヘッドセットは、マイクからほぼ等距離の、たとえばHATSの真正面、真後ろおよび真上の雑音源に応答して、自動的にミュートすることが分かる。
ユーザ発話が無いなどの軸上周囲雑音源を拒否して、騒々しい環境においてよりよいパフォーマンスを可能にするために、いくつかの実施形態では、第2のユーザ音声アクティビティ検出方法を使用し、この第2のユーザ音声アクティビティ検出方法は、単一イヤピースシステム、またはより一般的に2つのマイクがユーザおよび周囲の音への非対称結合を有する任意の状況でも有用であるというさらなる利点を有する。この方法では、フィードバックマイクおよびフィードフォワードマイクに対する音声信号の音響経路が非対称性であるために、フィードバックマイク(より一般的に、ユーザ音声領域への音響結合が優れたマイク)において生じるエネルギの大きさが、ユーザが話していないときよりも話しているときにフィードフォワードマイクにおいて生じるエネルギの大きさよりも実質的に大きいという見識を活用する。フィードバックマイクは、ユーザ外耳道内またはユーザ外耳道付近のイヤピースの前腔に位置決めされる。この位置決めにより、フィードバックマイクは、非常に低い減衰量で骨伝導経路104Aおよび104Bを介してユーザ音声エネルギを受信し、ANRシステムに一般に存在する密閉のために強い減衰量で空気伝導を介して周囲雑音を受信する。したがって、ユーザ音声が存在する場合のフィードバックマイク対フィードフォワードマイク出力比(fb/ffエネルギ比)は、雑音方向にかかわらず、発話なしの周囲雑音のものよりもはるかに高くなる。このため、いくつかの実施形態では、以下の論理を使用してユーザ音声アクティビティを判断する。
Figure 0007123951000002
式中、fb_left/ff_leftは、左側フィードバックマイク(FBA)の出力信号におけるエネルギと左側フィードフォワードマイク(FFA)の出力信号におけるエネルギとの比を示し、DTは、ユーザ発話のための選択された検出閾値を示す。この実施形態では、DTは、プラットフォームに依存する。しかし、一般に、ユーザが話しているときには、この比は、発話が無いときよりも相当に上昇する。(この比は、伝達比であり、この場合実数である。)
特に、いくつかの実施形態では、大きさも位相も含む複素伝達比を使用してもよいため、パフォーマンスが向上する。この複素の場合に閾値を扱う際、この閾値はもはやスケーラではなく、線である。(この線は、おそらく湾曲しているか、またはつなぎ合わせられており、複素平面を分割する。たとえば、虚数部>0の場合の線は、1つの閾値であろう。または、閾値は、正の実数部および虚数部が発話を示し、複素平面の四分円を規定するようなものであってもよい。)なお、いくつかの実施形態では、左側ではなく右側のフィードバックおよびフィードフォワードマイクロフォンを使用してもよい。さらに他の実施形態では、右側イヤピースを使用するか左側イヤピースを使用するかを自動的に判断してもよい。たとえば、左側イヤピースが取り外される場合、オンイヤー検出回路は、右側イヤピースのみが所定の位置にあると判断して、右側フィードバックおよびフィードフォワードマイクロフォンに基づいて音声検出モジュールを動作させる。
フィードバックおよびフィードフォワードマイクロフォンの出力におけるエネルギレベルを判断する際、以下のように複素伝達関数(TF)Txyを計算することができる。
Figure 0007123951000003
式中、Sxyは、xとyとの間のクロススペクトル密度であり、Sxxは、xのパワースペクトル密度である。そのため、Sxyは、以下のようにFFTを介して推定することができる。
Figure 0007123951000004
または、fftが1つだけ使用される(および平均化がない)場合には、Txyは以下のように規定される。
Figure 0007123951000005
fb(フィードバックマイク)エネルギとff(フィードフォワードマイク)エネルギとの比について、xは、左側フィードフォワードマイク信号ffL(FFA)であり、yは、左側フィードバックマイク信号fbL(FBA)である。fbエネルギとffエネルギとの比は、実際には|Tff2fb|2である。
そのため、コア基準としてfftのものを使用する実施形態では、fft結果の絶対値の二乗の比を閾値とすることができる。または、fftのものなしで実施している場合には、サンプリングされた時間信号の移動平均を、バンドパスフィルタを通過させた後に単に計算して、同様の結果に到達することができる。複素伝達関数推定値(Txy..)を使用して、重要な位相情報を活用することができる。
検出閾値DTは、一般に、イヤピースの物理的実装および前腔容積に対してイヤピースが提供する密閉の品質に基づいて設定される。優れたANCヘッドフォンでは、ユーザが話していないときに20dBの減衰を期待できる。これは、骨伝導メカニズムのために、ユーザが話している状態ではおおよそ0dBに上昇する。
しかし、変化の程度は、挿耳型ヘッドフォンではより顕著であり、耳装着型ヘッドフォンではそれほど顕著ではなく、アラウンドイヤー型ヘッドフォンでは最も顕著ではなく、これは、各タイプのヘッドセットに対してさまざまな閾値を使用することを意味する。たとえば、ITEヘッドフォンでは、100Hzなどの特定の周波数において、ユーザ発話により、閉塞された耳の中(fbマイク)ではその外側(ffマイク)よりもおよそ20~30dB多くの音圧があるであろう。この効果はサーカムオーラル型でも活用することができるが、フィードフォワードマイクにおける外部音圧に対する100Hzでの発話の耳内音圧差は、おそらく数デシベルに過ぎない。
また、いくつかの実施形態では、周囲雑音または平均信号対雑音比などの測定されたパラメータに基づいて閾値を動的に変化させてもよく、または代替的に、たとえばデバイス140によって提供されるアプリを介してユーザ調整機構を設けてもよい。いくつかの実施形態では、動的検出閾値を利用する。なぜなら、fb/ff比が、ANCヘッドセット内の全減衰の関数であるため、かなり広い範囲にわたって変化し得るからである。一実施形態では、検出閾値は、特にミュートのためのエネルギの移動平均およびミュート解除のためのエネルギの移動平均に応じて、両耳スマートミュート期間中に推定される。いくつかの実施形態では、システムの能動的+受動的減衰を測定し、閾値は、最終的には能動的減衰に応じる。
TF推定値について、いくつかの実施形態では、平均値を条件付きで更新する。また、いくつかの実施形態では、フィードバックマイク信号が複数の成分、すなわち(デバイス140からの)オーディオ入力信号Rx、周囲雑音、ユーザ発話および測定雑音、を含むことを認識する。これは、周囲雑音と無相関の優れた信号レベルを保証する。代替的に、雑音伝達関数を推定するために、いくつかの実施形態では、fb/ffのエネルギ比が低いかまたは高相関である場合に平均値を更新し、これにより、TF推定値がより速く収束することを保証する。
特定の周波数範囲内の2つの制御マイクの複素伝達特性に基づくこのユーザ音声アクティビティ検出(UVAD)の第2のアプローチは、以下の制約を満たす伝達特性を有する任意の2つのマイクとともに使用される場合に特に強固であると考えられる。第1の制約は、伝達特性が干渉と比較して発話で著しく変化するということである。第2の制約は、伝達特性が、相対的干渉方向の変化がありながらも比較的クリア(すなわち、比較的明白)なままであるということである。これらの条件は、挿耳型ヘッドセットにおけるフィードフォワードマイクおよびフィードバックマイク(および、一方のマイクが他方のマイクよりも強くユーザ音声領域に音響結合される他の状況)で満たされる。
周囲雑音について、アンビエントマイクにおける周囲圧力の出力が最初に応答し、2つの理由で、耳に結合されたフィードバックマイクに対して進み位相を有する。1つめの理由は、それが周囲に直接結合され、通常は音響経路長の点で雑音源に近いという理由である。2つめの理由は、一般的なヘッドセットイヤピースがある程度の受動的減衰を有し、これが事実上一種のローパスフィルタである、すなわち非常に低い周波数では差がないが、周波数が上昇するにつれて耳結合マイク(fbマイク)を著しく減衰させる、という理由である。原因となるローパスフィルタは全て、位相遅れを生じさせ、物理的なフィルタは全て、原因となる。
ユーザ発話について、ユーザの口から耳、そして耳結合マイクまでの音響経路に加えて、声帯から身体を通る別の経路がある。身体を通る音の速度は、非常に速く、およそ4~5倍速く、またはサブ1ミリ秒対3~4.5ミリ秒である。(空気中の音の速度はおよそ340メートル/秒であり、肉体ではおよそ1500メートル/秒であり、頭蓋骨および骨では4000メートル/秒を超える。)その結果、ユーザの身体を通して伝導されるユーザ発話からの音は、口を介した空気伝達音響信号よりもはるかに早く到達する。
非常に近接している周囲結合マイクと耳結合マイクとの間の伝達特性を見てみると、アンビエントマイクロフォンは、到達方向から独立して、耳結合マイクをリードしている。ユーザ発話では、耳結合マイクは、アンビエントマイクロフォンをリードしている。したがって、複素伝達関数(または、他の基準)の非対称性および干渉方向に起因する相当な曖昧さが無いことが、同一の耳からのアンビエントマイクロフォンおよび耳結合マイクロフォンでははるかに優れていることがはっきりと分かる。
本明細書ではフィードバックマイクfbと称される耳結合マイクの骨伝導経路を十分に活用するために、いくつかの実施形態では、デバイス140などの外部デバイスからの入来オーディオ「Rx」を説明する。(いくつかの実施形態では、Rxは、システムイベント、プロンプトなどを示すビープ音またはトーンなどの1つ以上の内部生成オーディオ通知信号と組み合わせられてもよい。)この入来オーディオは、一般に、骨伝導発話に非常に似通った特性を有しており、これは、それがアンビエントマイク(フィードフォワードマイクff)の振幅よりもはるかに強いfb_マイク振幅を有するため、誤ったユーザ発話検出を引き起こし得ることを意味する。
この問題を軽減する1つのアプローチは、UVAD計算からRx信号の影響を数学的に消去または除去するRxキャンセラを使用するというものである。例示的な実施形態では、以下のようにfb信号を分解することに基づいてRxキャンセラを使用する。
Figure 0007123951000006
式中、fbRx Rxは、耳に結合されたスピーカを再生した、Rx信号に起因するfbマイク信号であり、
fbambientは、周囲雑音に起因するfbマイク信号であり、
fbspeech_BCは、骨伝導に起因するfbマイク信号である。
また、以下のようにfb_Rxおよびfb_ambientをさらに規定することができる。
Figure 0007123951000007
式中、Trx2fbは、他の全ての入力がゼロである状態でのRxからfbマイクへの伝達関数であり、Tff2fbは、発話またはRxがなく雑音励起のみの状態でのフィードフォワードマイクからフィードバックマイクへの伝達関数である。Trx2fbおよびTff2fbは、いくつかの方法を使用して推定することができる。たとえば、いくつかの実施形態では、たとえばRxが存在する場合にはTff2fbの平均値を更新しないように気を付けながら、自己スペクトルおよびクロススペクトルに基づいてカルマンフィルタまたは従来の推定値を使用する。また、ユーザ発話が存在する場合には推定値を更新しないように気を付ける必要があるが、これははるかに厳しくない問題である。なぜなら、このステップのためのUVADは、全ての発話を把握しなくてもよく、発話が存在しないということに強い自信を持っているからである。
これらの元来静的な伝達関数で推定値が利用できるようになると、それらを使用して準リアルタイムでfbspeech_BC信号を推定することができる。Trx2fbおよびTff2fbの推定値は、時間とともに平均化されるであろう。例示的な実施形態では、高速フーリエ変換(FFT)を使用して、推定値を計算する。しかし、いくつかの実施形態では、骨伝導情報を含む部分空間を十分にカバーする任意の基準を使用する。
Trx2fbおよびTff2fbが分かったので、以下のようにfbspeech_BCを表すことができる。
Figure 0007123951000008
式中、fb speech_BCは、fbspeech_BCの推定値である。したがって、ユーザ発話検出は、元来周囲雑音および入来オーディオからの干渉がない推定信号に基づく。
特に、(同一の側のフィードバックマイクおよびフィードフォワードマイクを使用した)非対称アプローチのこのバージョンは、ユーザ音声領域とフィードバックマイクとの間の骨伝導経路に依拠する。したがって、通常、従来のHATS(上記のB&K4128-Cシミュレータなど)上にこの非対称アプローチを利用するヘッドセットを設置することにより、UVADの適切な動作が妨げられるであろう。なぜなら、従来のHATSには骨伝導経路が無いからである。言い換えれば、HATSに搭載されたヘッドセットは、HATSに入力される適切な周波数範囲のユーザ音声信号に応答して適切にミュートしたりミュート解除したりすることができない(または、ユーザ音声アクティビティを正確に検出することができない)であろう。(音声領域からフィードバックマイクへの経路は、振動に起因して存在するが、これは、実際の骨伝導と比較して非常に弱い結合であろう。)
いくつかの実施形態では、以下のように対称性に基づく閾値テストと非対称性に基づく閾値テストとを組み合わせる。
Figure 0007123951000009
特に、この検出論理の実行は、3つの制御マイク、すなわち左側および右側フィードバックエラーマイクならびにフィードフォワードマイクのうちの1つ、を使用することを必要とする。また、この論理は、非対称性閾値テスト(フィードバックマイクエネルギとフィードフォワードマイクエネルギとの比)がミュート解除を制御することを可能にするのみである。他の実施形態では、両方がミュート解除を作動させることを可能にするであろう。
また、いくつかの実施形態では、処理回路130内にバッファを設けて、関連する信号データの遅延バージョンに対して音声検出を実行する。より具体的には、いくつかの実施形態では、Xミリ秒ルックアヘッドバッファを利用して、ヘッドセットにおいてユーザ発話の存在を検出していかなる発話内容も失うことなくシステムをミュート解除するのに十分な検出器時間を可能にする。たとえば、一実施形態では、システムマイクからの20ミリ秒サンプリングデータセットを格納し、これにより、検出器がサンプルnにおいてユーザ発話を検出し、次いで前の20ミリ秒期間内に採取された全ての事前サンプルをミュート解除することを可能にし、したがってユーザフレーズの最初の部分を飛ばしたりミュートしたりすることを回避する。いくつかの実施形態では、ルックアヘッド期間の長さは、ユーザによって調整または較正されてもよく、他の実施形態では、ユーザの発話リズムの検出、たとえば発話信号におけるピーク間の距離のローリング平均、に基づいて動的に決定されてもよい。
ミュートモジュール136は、ユーザ音声検出モジュール135からのコマンド信号に応答してミューティング機能を提供する。いくつかの実施形態では、これは、アセンブリ内の音声マイクおよび/または1つ以上の他のマイクに関連付けられた信号経路をオフにすることを必要とする。しかし、ユーザエクスペリエンスを向上させるために、いくつかの実施形態では、3ミリ秒、5ミリ秒、10ミリ秒、15ミリ秒または20ミリ秒にわたってミュートの起動または開始を遅らせて、フレーズの最後の部分の省略または言葉と言葉と間のミューティングを回避するように安全マージンを追加する。いくつかの実施形態では、この遅延期間は、ユーザによって設定されてもよく、またはユーザの測定された発話リズムに基づいて動的に決定されてもよい。また、いくつかの実施形態では、ミュート機能の起動および停止に応答して視覚的、可聴式または触覚型表示が提供されて、ミュート状態の変化をユーザに警告する。いくつかの実施形態では、これらの標識のうちの1つ以上は、ヘッドセット自体および/またはデバイス140上に提供される。いくつかの例では、視覚的標識は、ヘッドセット上のLED(発光ダイオード)の点灯および/もしくは点滅の形態をとり、ならびに/または、デバイスディスプレイ上のマイクロフォンアイコンの点灯もしくは点滅もしくは色や形状の変化の形態をとる。いくつかの実施形態では、ユーザは、ヘッドセットおよび/またはデバイス上の手動制御要素によってミュート機能を無効にしてもよく、この無効にすることは、予め定められた期間、たとえば1分、2分または3分間にわたって効果を有し、または通話などの現在の通信セッションの終了まで効果を有する。無効期間の終わりに、自動ミュートおよびミュート解除が再開するであろう。
より一般的に、いくつかの実施形態では、ミュートオンとミュートオフとの間(またその逆)の状態変化を減少させ、または故意に減速させ、または減衰させて、そうでなければ可聴のポップまたはクリックを生じさせ得る非常に高速のマイクロフォンゲイン変化を回避し、この可聴のポップまたはクリックは、厄介であり、低品質のオーディオ成分を示すものである。これは、一般に、即座ではなく徐々にゲイン変化を起こすことによって対処される。たとえば、一実施形態では、「動作開始」オフからオンは、およそ100ミリ秒にわたって行われ、この100ミリ秒は、ポップを回避するには十分に遅く、ルックアヘッドメモリ要件を最小化するには十分に長い。一実施形態では、以下の形態を有する減衰関数を使用する。
Figure 0007123951000010
いくつかの実施形態では、2つのイヤピースを有するシステムがイヤピースを1つだけ適切に搭載させるときを検出することによって、より効果的な自動ミューティングを容易にする。これらの実施形態のうちのいくつかでは、パフォーマンスを最適化するためにオンイヤー検出器(OED)に依拠する。OEDの詳細については、2015年9月10日に出願された共同所有の米国特許出願第14/850,859号にさらに記載されており、米国特許出願第14/850,859号の開示は、全文が引用によって本明細書に援用される。
発話依存モジュール136は、音声アクティビティ検出モジュール135からバイナリ発話存在または発話非存在信号を受信する(プロセッサ回路130および/またはデバイス140の)1つ以上の他の機能を表す。これらのモジュールのうちのいくつかは、この信号を使用して、モジュールの機能を起動させたり停止させたりし、処理電力、メモリおよび/または電池寿命を節約する。たとえば、いくつかの実施形態では、発話依存モジュール137は、特定のキーワードコマンドを聞くように、またはより一般化された発話認識機能を実行するように構成された発話またはキーワード認識モジュールを含む。
いくつかの他の実施形態では、モジュール137は、音声マイク信号における雑音を低減するためのさらなる処理を提供する雑音低減モジュールをさらに含む。この雑音低減モジュールは、いくつかの実施形態では、ユーザの特定の環境に合わせて調整可能である。そして、さらに他の実施形態では、発話依存モジュール136は、音声マイク出力を受信して1つまたは両方のイヤピースのための3~10%ユーザサイドトーン信号を生成するサイドトーンモジュールまたは回路を含む。サイドトーンを生成することは、電力を消費するため、ユーザが話していない場合にはこの機能をオフにすることによって、電池寿命を節約する。2017年7月7日に出願された米国仮特許出願第62/530,049号を参照されたい。米国仮特許出願第62/530,049号は、引用によって本明細書に援用される。
図2は、2つのイヤピースを有するANRヘッドセットのための改良された自動ミューティングシステムのフローチャート200を示す。フローチャート200は、プロセスブロック210~280を含む。
ブロック210は、OED(オンイヤー検出)を実行してイヤピースの状態を判断することを伴う。(2015年9月10日に出願された同時係属米国特許出願第14/850,859号を参照されたい。同時係属米国特許出願第14/850,859号は、引用によって本明細書に援用される。)次いで、実行はブロック220に進み、ブロック220は、周囲雑音レベルが低いか否かを判断することを伴う。周囲雑音が低い場合、ブロック230においてモジュール134のスマートミュート機能がディスエーブルにされ、実行はブロック220に戻る。そうでなければ、実行はブロック240に進む。
ブロック240は、両方のイヤピースがユーザに装着されているか否かを判断することを伴う。例示的な実施形態では、これは、OEDモジュールに対する別の呼び出しを必要とする。両方のイヤホンが装着されている場合、実行はブロック250に分岐し、ブロック250は、上記の対称性に基づくミューティング機能または対称性と非対称性とを組み合わせたミューティング機能(両方とも、両方のイヤピースからの信号を必要とする)を使用して、ミュートするか否かを判断する。実行は、ここからブロック240に戻り、両方のイヤピースが依然として装着されているか否かを判断する。両方のイヤホンが装着されていないと判断された場合、実行はブロック260に進み、ブロック260は、1つのイヤピースが装着されているか否かを判断する。(どちらのイヤピースが装着されているかも判断する。)1つのイヤピースが装着されている場合、実行はブロック270に分岐して、上記の非対称性閾値テストに基づいてスマートミューティング機能を実行する。次いで、実行はブロック260に戻り、1つのイヤピースが依然として装着されているか否かを判断する。(いくつかの実施形態では、イヤピースは、依然として装着されていてもよいが、不十分な電池パワーを有し得る。)1つのイヤピースが装着されていない場合、スマートミュートは実行されず、実行はブロック220に戻る。
図3は、以下のブロックを含むシステム100のモノラルシステムモデル300を示す。すなわち、Tは、受動的減衰伝達関数であり、Tdmは、ドライバからフィードバックマイクへの伝達関数であり、Hffは、フィードフォワードフィルタであり、Hfbは、フィードバックフィルタであり、Vは、ユーザ発話からフィードフォワードマイクへの音響経路(伝達関数)であり、Wは、ユーザ発話からフィードバックマイクへの骨伝導経路(伝達関数)である。このモデルは、以下の信号も含む。すなわち、sは、ユーザ発話信号であり、aは、周囲雑音信号であり、nは、フィードフォワードマイク測定値(または、より一般的に、音声領域から最も遠い、または音声領域への音響結合が少ないマイク)であり、mは、フィードバックマイク測定値(または、より一般的に、音声領域から最も遠い、または音声領域への音響結合が多いマイク)であり、uは、RX信号および/または任意のシステムオーディオ通知信号であり、dは、DAC(ドライバ)出力である。
より特定的には、図3のシステムには、フィードフォワードフィルタHffもフィードバックフィルタHfbも存在している。しかし、いくつかの実施形態では、これらのフィルタは省略され、これは、(Hff=Hfb=0)であり、ヘッドセットが受動型であることを意味する。例示的な実施形態では、以下の線形統計モデルを使用する。
Figure 0007123951000011
DをMに代入すると、以下のようになる。
Figure 0007123951000012
項を集めると、以下のようになる。
Figure 0007123951000013
Nを代入すると、以下のようになる。
Figure 0007123951000014
項を集めると、以下のようになる。
Figure 0007123951000015
式中、以下の通りである。
Figure 0007123951000016
線形モデル化の目的は、フィードバックマイクロフォン測定値Mを独立成分(周囲雑音、Rxおよびユーザ発話)の線形組み合わせに分解することである。このモデルは、狭帯域信号、すなわち特定の周波数ビンに適用可能である。ブロードバンドシステムをモデル化するために、各項に周波数インデックスを追加するであろう。
分散は、以下のように表すことができる。
Figure 0007123951000017
推定:回帰係数G(t)の追跡は、それが時間とともに変化するので、困難な問題であろう。さらに悪いことには、Rxが存在する場合には、MとNとの間のコヒーレンスが低減され、推定値の分散を増加させるという事実がある。Uへの参照を使用することにより、推定問題が単純化されるが、それは必須ではない。いくつかの実施形態では、以下のように規定される測定モデルM(t)を使用して状態空間フレームワークにおいて推定問題を説明する。
Figure 0007123951000018
式中、r(t)は、平均0および分散1のガウス確率変数であり、σは、モデル化されていない挙動(すなわち、測定値におけるわずかな非線形性)を説明する調整可能なパラメータである。H(t)は、フィードバックマイク測定値に対するrx/音楽信号の寄与を説明する回帰係数である。
いくつかの実施形態では、以下のプロセスモデルを使用する。
Figure 0007123951000019
式中、q(t)およびq(t)は、平均0および分散1の独立ガウス確率変数である。αおよびαは、G(t)およびH(t)が時間とともにどれぐらい素早く変化し得るかを決定する調整可能なパラメータである。
状態空間フレームワークは、有用である。なぜなら、たとえば状態推定再帰最小二乗法(RLS)、最小二乗平均(LMS)およびカルマンフィルタのための効率的なアルゴリズムがあるからである。いくつかの実施形態では、いくつかの周波数ビンにおいて状態G(t)およびH(t)を、各ビンにおいてカルマンフィルタを使用して推定する。
いくつかの実施形態では、より一般化されたユーザ音声アクティビティ検出アプローチを組み入れて、システムの電気音響パラメータを明確に特徴付ける必要性を回避する。この一般化されたアプローチは、各々がユーザ発話s、周囲雑音aおよび/または入来オーディオuのうちの少なくとも2つの関数である2つの信号θおよびφを、伝達関数の行列Tに従って使用する。(入来オーディオuは、通信デバイスからのRx/音楽などの外部生成オーディオ信号とシステムイベントプロンプト、通知またはアラームなどの内部生成オーディオ信号との組み合わせであってもよい。)伝達関数の行列Tは、発話、周囲および入来オーディオuがどのように2つ以上のトランスデューサ上に現れるか、およびこれらのトランスデューサがRx/音楽を参照しながらどのように組み合わせられてφおよびθを生成するかによって決定される。数学的には、これは以下のように表すことができる。
Figure 0007123951000020
式中、Tは、伝達関数の行列を示し、以下のように規定される。
Figure 0007123951000021
式中、Tsθは、ユーザ発話sから信号θへの伝達関数を表し、Taθは、周囲雑音aから信号θへの伝達関数を表し、Tsφは、ユーザ発話sから信号φへの伝達関数を表し、Taφは、周囲雑音aから信号φへの伝達関数を表す。このモデルにより、ユーザ音声アクティビティの確実な検出は、以下の非対称制約の順守を必要とする。
Figure 0007123951000022
式中、zは、非対称性閾値zを示し、発話対周囲感度比が大きさおよび/または位相の点で異なっていなければならないことを示す。いくつかの実施形態では、zは0に等しく、他の実施形態では、zは0.01、0.1、0.5、0.75、1.0、2.0に等しい。さらに他の実施形態では、zは2よりも大きい。
このより一般化されたモデルの項を図3の特定の電気音響実現例にマッピングすることは、対応するT行列を以下のように示す。
Figure 0007123951000023
式中、以下の通りである。
Figure 0007123951000024
いくつかの実施形態では、以下の形態の代替的な非対称制約を使用してもよい。
Figure 0007123951000025
上記は、信号θにおける発話と周囲信号電力との比が信号φにおける発話と周囲信号電力との比よりも大きいことを必要とする。
図4は、マイク入力およびRx/音楽(入来オーディオ)入力の線形組み合わせからの信号θの生成を示す一般的な電気音響システム400のブロック図である。システム400は、それぞれのゲインモジュールまたはブロックK~Kを介して、それぞれの伝達関数H~Hを有するフィルタHに提供されるマイクロフォンまたはトランスデューサ測定値または入力のセットM...MおよびRx/音楽信号基準U1およびU2を含む。フィルタ出力は、加算器に送り込まれ、加算器は、θを生成する。このように、信号θは、トランスデューサおよび基準入力のフィルタリングされた組み合わせである。
図5は、図2のプロセス内でUVADモジュール135の一部として使用できる一般化されたUVADモジュール500のブロック図である。入力信号、ユーザ発話s、周囲雑音aおよび入来デバイスオーディオuに加えて、モジュール500は、電気音響システムモデルブロック510と、推定器ブロック520と、加算器530と、分散比推定器ブロック540と、判断ブロック550とを含む。電気音響システムモデルブロック510は、一般に、T、すなわち、伝達関数の行列Tおよびシステム100または500などの任意の電気音響システム、で表される。
推定器ブロック520は、φおよびuから(θ)を繰り返し予測または推定し、加算器ブロック530からの予測エラー信号eが返されて各々の新たな予測を更新する。例示的な実施形態では、推定器ブロック520は、カルマンフィルタ(上記)の形態をとる。しかし、他の実施形態では、RLSおよびLMS推定器などの一種の線形推定器を使用する。θΦ
分散比推定器ブロック540は、予測エラーの分散Sおよび信号φの分散Sφを推定し、比S/Sφを計算する。この比は、判断ブロック550に提供され、判断ブロック550は、この比を検出閾値DTと比較する。比が閾値を超える場合、ユーザ音声アクティビティ検出信号は、ユーザ発話が有ることを示す1に設定される。そうでなければ、検出信号は、0に設定される。
結論
上記の明細書では、具体的な例示的な実施形態について説明してきた。しかし、以下の特許請求の範囲に記載されている本発明の範囲から逸脱することなくさまざまな変更および修正を行ってもよいということを当業者は理解する。したがって、明細書および図面は、限定的ではなく例示的であるように見なされるべきであり、全てのこのような変更は、本教示の範囲内に含まれるよう意図される。
利益、利点、問題に対する解決策、および、任意の利益、利点または解決策を生じさせ得るまたはより顕著にさせ得る任意の要素は、一部または全部の請求項の不可欠な、必須のまたは極めて重要な特徴または要素として解釈されるべきではない。本発明は、本願の係属中になされるいかなる補正も含む添付の特許請求の範囲および発行時の特許請求の範囲の全ての等価物によってのみ定義される。
さらに、本文献では、第2の、上部のおよび下部のなどの関係語は、1つの実体または動作を別の実体または動作から区別するためだけに使用されてもよく、このような実体または動作間のいかなる実際のこのような関係または順序を必ずしも必要とせず、または必ずしも示していない。「備える(comprises)」、「備えている(comprising)」、「有する(has)」、「有している(having)」、「含む(includes)」、「含んでいる(including)」、「含有する(contains)」、「含有している(containing)」という語またはこれらの他の変形体は、非排他的な包含をカバーするよう意図されているため、要素のリストを備える、有する、含む、含有するプロセス、方法、物品または装置は、それらの要素のみを含んでいるのではなく、明白に列挙されていない他の要素またはこのようなプロセス、方法、物品または装置に固有の他の要素も含んでいてもよい。「comprises...a」、「has...a」、「includes...a」、「contains...a」に続く要素は、より多くの制約を受けることなく、この要素を備える、有する、含む、含有するプロセス、方法、物品または装置におけるさらなる同一の要素の存在を排除するものではない。「a」および「an」という語は、本明細書中に明示的に別段の記載がない限り、1つ以上として定義される。「実質的に」、「本質的に」、「およそ」、「約」という語またはこれらの他のバージョンは、当業者によって理解されるように、近いものとして定義され、1つの非限定的な実施形態では、この語は、10%の範囲内であるように定義され、別の実施形態では5%の範囲内であるように定義され、別の実施形態では1%の範囲内であるように定義され、別の実施形態では0.5%の範囲内であるように定義される。本明細書における「結合された」という語は、接続されているが、必ずしも直接的ではなく、必ずしも機械的ではないものとして定義される。特定の態様で「構成される」デバイスまたは構造は、少なくともその態様で構成されるが、記載されていない態様で構成されてもよい。また、「例示的な」という語は、実施形態、システム、方法、デバイスなどの1つ以上の名詞を修飾するための形容詞として本明細書では使用され、名詞が非限定的な例として提供されていることを具体的に示すよう意図されている。

Claims (38)

  1. 音声処理システムであって、
    複数の音声信号を受信する複数の入力を備え、前記複数の入力は、ユーザの第1の耳の近傍に配置された第1のトランスデューサからの第1の音声信号を受信する第1の入力と、前記ユーザの第2の耳の近傍に配置された第2のトランスデューサからの第2の音声信号を受信する第2の入力と、前記ユーザの口頭の領域の近傍に配置された第3のトランスデューサからの第3の音声信号を受信する第3の入力とを含み、さらに、
    前記複数の入力に結合され、前記第1、第2および第3の音声信号を受信して、前記第1の音声信号および前記第2の音声信号の発話成分を比較して、その比較結果に基づいて、前記発話成分が前記ユーザによって与えられたものかどうかを判断して、前記発話成分が前記ユーザによって与えられたものかどうかを示す音声アクティビティ検出信号を与えるように構成された処理回路を備える、音声処理システム。
  2. 前記処理回路は、前記第1の音声信号および前記第2の音声信号の前記発話成分の強度および位相を比較して、前記発話成分が前記ユーザによって与えられたものかどうかを判断する、請求項1に記載の音声処理システム。
  3. 前記処理回路は、前記第1の音声信号および前記第2の音声信号の前記発話成分の前記強度および前記位相が実質的に同一であることを示す比較結果に応答して、前記発話成分が前記ユーザによって与えられたものであると判断する、請求項2に記載の音声処理システム。
  4. 前記処理回路は、さらに、
    前記発話成分が前記ユーザによって与えられたものではないという判断に応答して、前記第3の音声信号に対して、ミュートまたは減衰の少なくとも一方を行うように構成される、請求項3に記載の音声処理システム。
  5. 前記第1、第2、および第3のトランスデューサは、マイクロフォンである、請求項3に記載の音声処理システム。
  6. 前記音声処理システムは、挿耳型ヘッドセット、耳装着型ヘッドセットまたは、耳覆い型ヘッドセットのうちの1つである、請求項3に記載の音声処理システム。
  7. 前記処理回路は、前記第1の音声信号および前記第2の音声信号の前記発話成分の少なくとも前記位相が実質的に同一ではないことを示す比較結果に応答して、前記発話成分が前記ユーザによって与えられたものではないと判断する、請求項2に記載の音声処理システム。
  8. 前記複数の入力は、第4のトランスデューサからの第4の音声信号を受信する第4の入力をさらに含み、前記第4のトランスデューサは、前記ユーザの前記第1の耳の近傍でありながら前記第1のトランスデューサよりも前記ユーザの前記第1の耳から遠くに配置され、
    前記処理回路は、前記第4の音声信号を受信して、前記第1の音声信号および前記第4の音声信号の発話成分を比較して、その比較結果に基づいて、前記発話成分が前記ユーザによって与えられたものかどうかを判断するように、さらに構成される、請求項1に記載の音声処理システム。
  9. 前記処理回路は、前記第1の音声信号、前記第2の音声信号および前記第4の音声信号の前記発話成分の強度または位相の少なくとも1つを比較して、前記発話成分が前記ユーザによって与えられたものかどうかを判断する、請求項8に記載の音声処理システム。
  10. 前記処理回路は、前記第1の音声信号および前記第2の音声信号の前記発話成分の前記強度および前記位相が実質的に同一であり、かつ、少なくとも前記第1の音声信号の前記強度が前記第4の音声信号の前記強度よりも実質的に大きいことを示す比較結果に応答して、前記発話成分が前記ユーザによって与えられたものであると判断する、請求項9に記載の音声処理システム。
  11. 音声処理システムであって、
    複数の音声信号を受信する複数の入力を備え、前記複数の入力は、ユーザの第1の耳の近傍に配置された第1のトランスデューサからの第1の音声信号を受信する第1の入力と、前記ユーザの前記第1の耳の近傍であるが前記第1のトランスデューサよりも前記第1の耳から遠くに配置された第2のトランスデューサからの第2の音声信号を受信する第2の入力と、前記ユーザの口頭の領域の近傍に配置された第3のトランスデューサからの第3の音声信号を受信する第3の入力とを含み、さらに、
    前記複数の入力に結合され、前記第1、第2および第3の音声信号を受信して、前記第1の音声信号と前記第2の音声信号の発話成分を比較して、その比較結果に基づいて、前記発話成分が前記ユーザによって与えられたものかどうかを判断して、前記発話成分が前記ユーザによって与えられたものかどうかを示す音声アクティビティ検出信号を与えるように構成された処理回路を備える、音声処理システム。
  12. 前記処理回路は、前記第1の音声信号および前記第2の音声信号の前記発話成分の強度または位相のうちの少なくとも1つを比較して、前記発話成分が前記ユーザによって与えられたものかどうかを判断する、請求項11に記載の音声処理システム。
  13. 前記処理回路は、少なくとも前記第1の音声信号の前記発話成分の前記強度が前記第2の音声信号の前記発話成分の前記強度よりも実質的に大きいことを示す比較結果に応答して、前記発話成分が前記ユーザによって与えられたものであると判断する、請求項12に記載の音声処理システム。
  14. 前記処理回路は、さらに、
    前記発話成分が前記ユーザによって与えられたものではないという判断に応答して、前記第3の音声信号に対して、ミュートまたは減衰の少なくとも一方を行うように構成される、請求項13に記載の音声処理システム。
  15. 前記第1、第2、および第3のトランスデューサは、マイクロフォンであり、
    前記音声処理システムは、挿耳型ヘッドセット、耳装着型ヘッドセットまたは、耳覆い型ヘッドセットのうちの1つである、請求項13に記載の音声処理システム。
  16. 前記処理回路は、少なくとも前記第1の音声信号の前記発話成分の前記強度が前記第2の音声信号の前記発話成分の前記強度よりも実質的に大きくないことを示す比較結果に応答して、前記発話成分が前記ユーザによって与えられたものではないと判断する、請求項12に記載の音声処理システム。
  17. 前記処理回路は、前記第1の音声信号の前記発話成分が前記第2の音声信号の前記発話成分よりも時間的に実質的に早く到達したことを示す比較結果に応答して、前記発話成分が前記ユーザによって与えられたものではないと判断する、請求項11に記載の音声処理システム。
  18. 音声処理方法であって、
    ユーザの第1の耳の近傍に配置された第1のトランスデューサから第1の音声信号を受信することと、
    前記ユーザの第2の耳の近傍、または、前記ユーザの前記第1の耳の近傍でありながら前記第1のトランスデューサよりも前記ユーザの前記第1の耳から遠くに配置された第2のトランスデューサから第2の音声信号を受信することと、
    前記ユーザの口頭の領域の近傍に配置された第3のトランスデューサから第3の音声信号を受信することと、
    前記第1の音声信号および前記第2の音声信号の発話成分を比較することと、
    比較結果に基づいて、前記発話成分が前記ユーザによって与えられたものかどうかを判断することと、
    前記発話成分が前記ユーザによって与えられたものかどうかを示す音声アクティビティ検出信号を与えることとを備える、音声処理方法。
  19. 前記第2のトランスデューサは、前記ユーザの前記第2の耳の近傍に配置され、
    前記第1の音声信号および前記第2の音声信号の発話成分を比較することは、前記第1の音声信号および前記第2の音声信号の前記発話成分の強度および位相を比較することを含み、
    前記比較結果に基づいて、前記発話成分が前記ユーザによって与えられたものかどうかを判断することは、前記第1の音声信号および前記第2の音声信号の前記発話成分の前記強度および前記位相が実質的に同一であることを示す前記比較結果に応答して、前記発話成分が前記ユーザによって与えられたものであると判断することを含む、請求項18に記載の方法。
  20. 前記第2のトランスデューサは、前記ユーザの前記第1の耳の近傍でありながら前記第1のトランスデューサよりも前記ユーザの前記第1の耳から遠くに配置され、
    前記発話成分を比較することは、前記第1の音声信号および前記第2の音声信号の前記発話成分の少なくとも強度を比較することを含み、
    前記比較結果に基づいて、前記発話成分が前記ユーザによって与えられたものであると判断することは、前記第1の音声信号の前記強度が前記第2の音声信号の前記強度よりも実質的に大きいことを示す前記比較結果に応答して、前記発話成分が前記ユーザによって与えられたものであると判断することを含む、請求項18に記載の方法。
  21. 通信アセンブリであって、
    入来オーディオ信号を提供する通信デバイスに接続するように構成された入来オーディオ信号ノードと、
    ユーザ発話の有無の判断を示す音声アクティビティ検出信号を出力するように構成された信号処理回路とを備え、前記信号処理回路は、第1の信号φ、第2の信号θおよび第3の信号に基づいてユーザ発話の有無を判断するように構成され、前記第1の信号φおよび前記第2の信号θは、少なくとも周囲雑音a、ユーザ発話sおよび第3の信号に応答して2つ以上のトランスデューサから導き出され、前記第1の信号φおよび前記第2の信号θは、以下の制約を満たし、
    Figure 0007123951000026

    式中、Tsθは、前記ユーザ発話sから前記第2の信号θへの伝達関数を表し、Taθは、前記周囲雑音aから前記第2の信号θへの伝達関数を表し、Tsφは、前記ユーザ発話sから前記第1の信号φへの伝達関数を表し、Taφは、前記周囲雑音aから前記第1の信号φへの伝達関数を表し、
    前記第3の信号は、少なくとも部分的に入来オーディオ信号または少なくとも1つのオーディオ通知信号に基づく、通信アセンブリ。
  22. 前記2つ以上のトランスデューサは、第1および第2のマイクロフォンを含み、前記第1のマイクロフォンは、ユーザ音声領域への音響結合が前記第2のマイクロフォンよりも実質的に大きい状態で位置決めされる、請求項21に記載の通信アセンブリ。
  23. 前記第1のマイクロフォンは、骨伝導経路を介して前記第2のマイクロフォンよりも多くの音響エネルギを前記ユーザ音声領域から受信するように位置決めされる、請求項22に記載の通信アセンブリ。
  24. ユーザ発話が無いという判断を示す前記音声アクティビティ検出信号に応答して音声マイクロフォン出力信号を減衰させ、ユーザ発話が有ることを示す前記音声アクティビティ検出信号に応答して前記音声マイクロフォン出力信号の減衰を解除するように構成された自動ミューティングモジュールをさらに備える、請求項21に記載の通信アセンブリ。
  25. 前記自動ミューティングモジュールは、前記音声アクティビティ検出信号の受信後に予め定められた時間にわたって前記音声マイクロフォン出力信号をミュートまたは減衰させるように構成される、請求項24に記載の通信アセンブリ。
  26. 音声マイクロフォン出力信号から導き出されたユーザ発話信号内の1つ以上のキーワードを認識し、ユーザ発話が無いという判断を示す前記音声アクティビティ検出信号に応答して、シャットダウンまたはスリープ状態に入って電力またはメモリを節約するように構成されたキーワード認識モジュールをさらに備える、請求項21に記載の通信アセンブリ。
  27. ユーザ発話に応答して、ヘッドセットイヤピース内のラウドスピーカにサイドトーン信号を提供し、ユーザ発話が無いという判断を示す前記音声アクティビティ検出信号に応答して、シャットダウンまたはスリープ状態に入って電力またはメモリを節約するサイドトーンモジュールをさらに備える、請求項21に記載の通信アセンブリ。
  28. ユーザ発話が有るという判断を示す前記音声アクティビティ検出信号に応答して、第1の方法で雑音を低減し、ユーザ発話が無いという判断を示す前記音声アクティビティ検出信号に応答して、第2の方法で雑音を低減する雑音低減モジュールをさらに備える、請求項21に記載の通信アセンブリ。
  29. 音声マイクロフォン出力信号の発話内容に依存する態様で動作し、ユーザ発話が無いという判断を示す前記音声アクティビティ検出信号に応答して、電力および/またはメモリ節約モードに入るように構成された少なくとも1つの発話依存モジュールをさらに備える、請求項21に記載の通信アセンブリ。
  30. ヘッドセットイヤピースに関連付けられたラウドスピーカに接続するように構成された第1のノードと、前記ヘッドセットイヤピースに関連付けられたフィードフォワードアンビエントマイクロフォンに接続するように構成された第2のノードと、ヘッドセットイヤピースに関連付けられたフィードバックエラーマイクロフォンに接続するように構成された第3のノードとをさらに備え、
    前記信号処理回路は、前記第1、第2および第3のノードに結合され、前記フィードフォワードアンビエントマイクロフォンおよび前記フィードバックエラーマイクロフォンから生じる信号に応答して前記ラウドスピーカに雑音低減信号を提供するように構成され、
    前記第1の信号φおよび前記第2の信号θは、前記フィードフォワードアンビエントマイクロフォンおよび前記フィードバックエラーマイクロフォンから生じる信号から導き出される、請求項21に記載の通信アセンブリ。
  31. 前記信号処理回路は、さらに、範囲内の発話信号を出力している標準的なヘッドアンドトルソシミュレータ上に第1および第2のトランスデューサが設置されると、前記ユーザ発話が無いことを示すように構成される、請求項30に記載の通信アセンブリ。
  32. 挿耳型イヤピースにおける前記ヘッドセットイヤピースは、前記フィードバックエラーマイクロフォンを含む外耳道部分を有する、請求項30に記載の通信アセンブリ。
  33. 音声マイクロフォン出力信号と2つ以上のトランスデューサのセットとを有する通信アセンブリを動作させる方法であって、
    第1の信号φ、第2の信号θを導き出すことにより、前記2つ以上のトランスデューサの出力に基づいて、前記通信アセンブリのユーザが話しているか否かを判断するステップを備え、前記第1の信号φおよび前記第2の信号θは、周囲雑音信号a、ユーザ発話信号sおよび第3の信号を変換する前記2つ以上のトランスデューサから導き出され、前記第1の信号φおよび前記第2の信号θは、以下の制約を満たし、
    Figure 0007123951000027

    式中、Tsθは、前記ユーザ発話sから前記第2の信号θへの伝達関数を表し、Taθは、前記周囲雑音aから前記第2の信号θへの伝達関数を表し、Tsφは、前記ユーザ発話sから前記第1の信号φへの伝達関数を表し、Taφは、前記周囲雑音aから前記第1の信号φへの伝達関数を表し、
    前記ユーザが話していないという判断に応答して、前記通信アセンブリに関連付けられた1つ以上の発話依存モジュールの動作状態をリソース節約状態に変化させるステップとを備える、方法。
  34. 前記1つ以上の発話依存モジュールは、
    前記ユーザが話していないという前記判断に応答して前記音声マイクロフォン出力信号をミュートするように構成されたミューティングモジュール、
    1つ以上の話された単語またはフレーズを認識するように構成されたキーワード認識モジュール、および
    前記音声マイクロフォン出力信号に基づいてサイドトーン信号を生成するように構成されたサイドトーンモジュール、
    のうちの少なくとも1つを含む、請求項33に記載の方法。
  35. 通信アセンブリであって、
    ユーザ頭部に着用されるように構成された第1および第2のトランスデューサを備え、前記第1のトランスデューサは、ユーザ音声領域への音響結合が前記第2のトランスデューサよりも実質的に大きいように構成され、前記通信アセンブリはさらに、
    前記第1および第2のトランスデューサがユーザ頭部に装着されると、予め定められた周波数範囲内のユーザ発話の有無の判断を示す音声アクティビティ検出信号を出力するように構成された信号処理回路を備え、前記通信アセンブリは、ラウドスピーカと、フィードフォワードアンビエントマイクロフォンと、フィードバックエラーマイクロフォンと、音声マイクロフォンと、入来オーディオ信号を提供する通信デバイスに接続するように構成された入来オーディオ信号ノードとを有するイヤピースを備え、
    前記信号処理回路は、第1の信号φ、第2の信号θおよび第3の信号に基づいてユーザ発話の有無を判断するように構成され、前記第1の信号φおよび前記第2の信号θは、少なくとも、周囲雑音a、ユーザ発話sおよび第3の信号に応答して前記フィードフォワードアンビエントマイクロフォン、前記フィードバックエラーマイクロフォンおよび前記音声マイクロフォンのうちの少なくとも2つの出力信号から導き出され、前記第1の信号φおよび前記第2の信号θは、以下の制約を満たし、
    Figure 0007123951000028

    式中、Tsθは、前記ユーザ発話sから前記第2の信号θへの伝達関数を表し、Taθは、前記周囲雑音aから前記第2の信号θへの伝達関数を表し、Tsφは、前記ユーザ発話sから前記第1の信号φへの伝達関数を表し、Taφは、前記周囲雑音aから前記第1の信号φへの伝達関数を表し、
    前記第3の信号は、少なくとも部分的に入来オーディオ信号または少なくとも1つのオーディオ通知信号に基づくように構成される、通信アセンブリ。
  36. 前記信号処理回路は、前記第1および第2のトランスデューサが、所定の周波数範囲において発話信号を出力する、標準ヘッドアンドトルソシミュレータ上に位置するときに、ユーザ発話が無いということを示すように構成される、請求項35に記載の通信アセンブリ。
  37. 前記信号処理回路は、さらに、前記フィードフォワードアンビエントマイクロフォンおよび前記フィードバックエラーマイクロフォンから生じる信号に応答して前記ラウドスピーカに雑音低減信号を提供するように構成され、
    前記通信アセンブリは、1つ以上の発話依存モジュールのセットをさらに含み、各発話依存モジュールは、ユーザ発話が無いことを示す前記音声アクティビティ検出信号に応答して、電力またはメモリ節約状態に入り、ユーザ発話が有ることを示す前記音声アクティビティ検出信号に応答して、前記電力またはメモリ節約状態を終了する、請求項35に記載の通信アセンブリ。
  38. 前記1つ以上の発話依存モジュールのセットは、通信デバイスに音声マイクロフォン信号を出力するように構成された音声マイクロフォン出力モジュールと、1つ以上の話された単語またはフレーズを認識するように構成されたキーワード認識モジュールと、出力された前記音声マイクロフォン信号に基づいてサイドトーン信号を生成するように構成されたサイドトーンモジュールとを含む、請求項37に記載の通信アセンブリ。
JP2019542604A 2017-02-14 2018-02-13 通信アセンブリにおけるユーザ音声アクティビティ検出のための方法、その通信アセンブリ Active JP7123951B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201762459055P 2017-02-14 2017-02-14
US62/459,055 2017-02-14
US201762532964P 2017-07-14 2017-07-14
US62/532,964 2017-07-14
US15/711,793 2017-09-21
US15/711,793 US10564925B2 (en) 2017-02-07 2017-09-21 User voice activity detection methods, devices, assemblies, and components
PCT/US2018/018075 WO2018148762A2 (en) 2017-02-07 2018-02-13 User voice activity detection methods, devices, assemblies, and components

Publications (3)

Publication Number Publication Date
JP2020506634A JP2020506634A (ja) 2020-02-27
JP2020506634A5 JP2020506634A5 (ja) 2021-03-25
JP7123951B2 true JP7123951B2 (ja) 2022-08-23

Family

ID=68424443

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019542604A Active JP7123951B2 (ja) 2017-02-14 2018-02-13 通信アセンブリにおけるユーザ音声アクティビティ検出のための方法、その通信アセンブリ

Country Status (4)

Country Link
JP (1) JP7123951B2 (ja)
KR (1) KR102578147B1 (ja)
CN (1) CN110603588A (ja)
DE (1) DE112018000717T5 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11809151B1 (en) 2020-03-27 2023-11-07 Amazon Technologies, Inc. Activity-based device recommendations
CN111785300B (zh) * 2020-06-12 2021-05-25 北京快鱼电子股份公司 一种基于深度神经网络的哭声检测方法和***
US11822367B2 (en) * 2020-06-22 2023-11-21 Apple Inc. Method and system for adjusting sound playback to account for speech detection
CN112887872B (zh) * 2021-01-04 2023-06-23 深圳千岸科技股份有限公司 一种耳机语音指令的播放方法、耳机和存储介质
CN113450753B (zh) * 2021-01-22 2022-10-14 深圳市三诺数字科技有限公司 语音骨传导设备及其通讯方法和存储介质
CN113099338A (zh) * 2021-03-08 2021-07-09 头领科技(昆山)有限公司 一种智能控制的音频芯片及无线降噪耳机
US11483655B1 (en) 2021-03-31 2022-10-25 Bose Corporation Gain-adaptive active noise reduction (ANR) device
KR20230069707A (ko) * 2021-11-12 2023-05-19 삼성전자주식회사 동작 제어 방법 및 그 전자 장치
CN115348049B (zh) * 2022-06-22 2024-07-09 北京理工大学 一种利用耳机内向麦克风的用户身份认证方法
CN117198287B (zh) * 2023-08-30 2024-07-05 南京汇智互娱网络科技有限公司 一种用于智能体的人机交互的语音识别***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060262944A1 (en) 2003-02-25 2006-11-23 Oticon A/S Method for detection of own voice activity in a communication device
US20110288860A1 (en) 2010-05-20 2011-11-24 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair
JP2016048872A (ja) 2014-08-28 2016-04-07 日本電信電話株式会社 収音装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120080409A (ko) * 2011-01-07 2012-07-17 삼성전자주식회사 잡음 구간 판별에 의한 잡음 추정 장치 및 방법
US9697831B2 (en) * 2013-06-26 2017-07-04 Cirrus Logic, Inc. Speech recognition
KR102060949B1 (ko) * 2013-08-09 2020-01-02 삼성전자주식회사 청각 기기의 저전력 운용 방법 및 장치
US9190043B2 (en) * 2013-08-27 2015-11-17 Bose Corporation Assisting conversation in noisy environments
WO2016130459A1 (en) * 2015-02-09 2016-08-18 Dolby Laboratories Licensing Corporation Nearby talker obscuring, duplicate dialogue amelioration and automatic muting of acoustically proximate participants

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060262944A1 (en) 2003-02-25 2006-11-23 Oticon A/S Method for detection of own voice activity in a communication device
US20110288860A1 (en) 2010-05-20 2011-11-24 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair
JP2016048872A (ja) 2014-08-28 2016-04-07 日本電信電話株式会社 収音装置

Also Published As

Publication number Publication date
KR102578147B1 (ko) 2023-09-13
DE112018000717T5 (de) 2020-01-16
CN110603588A (zh) 2019-12-20
KR20190118171A (ko) 2019-10-17
JP2020506634A (ja) 2020-02-27

Similar Documents

Publication Publication Date Title
JP7123951B2 (ja) 通信アセンブリにおけるユーザ音声アクティビティ検出のための方法、その通信アセンブリ
US11614916B2 (en) User voice activity detection
US11710473B2 (en) Method and device for acute sound detection and reproduction
US11297443B2 (en) Hearing assistance using active noise reduction
CN109196877B (zh) 个人声音设备的头上/头外检测
CN110326305B (zh) 入耳式耳机的离头检测
US9066167B2 (en) Method and device for personalized voice operated control
EP3005731B1 (en) Method for operating a hearing device and a hearing device
US20150228292A1 (en) Close-talk detector for personal listening device with adaptive active noise control
US11373665B2 (en) Voice isolation system
US10249323B2 (en) Voice activity detection for communication headset
EP2830324A1 (en) Headphone and headset
JPH10294989A (ja) 騒音制御ヘッドセット
JP7164794B2 (ja) 自己音声推定付き聴覚保護システムと関連する方法
EP3449641B1 (en) Headset system failure detection
WO2023283285A1 (en) Wearable audio device with enhanced voice pick-up
CN113994423A (zh) 用于耳戴式播放设备的语音活动检测的音频***和信号处理方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210127

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210127

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220520

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220712

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220810

R150 Certificate of patent or registration of utility model

Ref document number: 7123951

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150