JP2014529943A - 非可聴トーンを使用する音響エコー・キャンセラのためのクロック・スキュー補償 - Google Patents

非可聴トーンを使用する音響エコー・キャンセラのためのクロック・スキュー補償 Download PDF

Info

Publication number
JP2014529943A
JP2014529943A JP2014526049A JP2014526049A JP2014529943A JP 2014529943 A JP2014529943 A JP 2014529943A JP 2014526049 A JP2014526049 A JP 2014526049A JP 2014526049 A JP2014526049 A JP 2014526049A JP 2014529943 A JP2014529943 A JP 2014529943A
Authority
JP
Japan
Prior art keywords
tone
audio signal
acoustic echo
frequency
clock skew
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014526049A
Other languages
English (en)
Other versions
JP5863971B2 (ja
Inventor
エッター,ウォルター
Original Assignee
アルカテル−ルーセント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アルカテル−ルーセント filed Critical アルカテル−ルーセント
Publication of JP2014529943A publication Critical patent/JP2014529943A/ja
Application granted granted Critical
Publication of JP5863971B2 publication Critical patent/JP5863971B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Interface Circuits In Exchanges (AREA)

Abstract

音声信号における音響エコー消去のための方法および装置が提供される。音響エコーは、音声信号に少なくとも1つのトーンを挿入するステップであって、少なくとも1つのトーンは、聞き手にとって実質的に非可聴であるステップと、少なくとも1つのトーンの周波数偏移に基づいて2つのサンプリング・クロック間のクロック・スキューを決定するステップと、決定されたクロック・スキューに基づいて音声信号をリサンプリングするステップと、リサンプリングされた音声信号を使用して、音響エコー消去を実行するステップとによってキャンセルされる。提供される音響エコー・キャンセラは、たとえば、端末ベースおよび/またはネットワークベースの音響エコー・キャンセラとして実装することができる。トーンは、オプションとして、非可聴トーンまたは複数のトーンを含む。トーン生成は、トーン周波数に近い音声パワーが事前に決定したしきい値より大きい場合のみ、または通話の始めのみに制限することができる。トーンが音声信号によってマスクされるように、トーンのレベルをオプションとして制御することができる。

Description

本発明は、一般的に信号処理技法に関し、より詳細には、エコー消去技法に関する。
スピーカフォンおよびテレビ会議の使用が広く使用されるようになり、音響エコー消去がますます重要になってきた。特に、音響エコー・キャンセラ(AEC)は、望まれないエコーを減らすか、または排除することを目的としている。望ましくないエコーは、通常は、スピーカとマイクロフォンの結合による直接的な経路によって、および物体および壁に対するスピーカの信号の音響反射による間接的な経路によって、スピーカの信号がマイクロフォンにフィードバックされたときに生成される。たとえば、電話またはインターネットを通じた音声コミュニケーションでは、電話通信の相手に関連する端末によって音響エコーが十分に減らされていない場合、話し手は、遅延およびフィルタリングされたバージョンの自分の音声を聞くことになる。
端末においてAECを効果的に適用するには、スピーカに送信されるアナログ信号を再構築するデジタル/アナログ変換(D/A)コンバータと、マイクロフォンによって拾い上げられた音声信号をサンプリングするアナログ/デジタル(A/D)コンバータとのサンプリング・レートが正確に一致するべきである。サンプリング・レート間に小さなクロック・スキューがあるだけで、AECのパフォーマンスが大きくを低下することが分かっている。一般的に、スピーカの信号とマイクロフォンの信号との間のサンプリング・レートのオフセットが増加するとAECの信頼性は低下する。たとえばPCベースのソフトウェア端末において、端末のサンプリング・レートのクロック・スキューは、頻繁に生じる問題である。たとえば、外部USBカメラが、オーディオ再生のために独立したサウンドボードに関連してオーディオ録音するために、その内蔵マイクロフォンおよびA/Dコンバータとともに使用される場合、サンプリング・レート・スキューを常に想定することができる。この場合、A/DコンバータおよびD/Aコンバータは、共通の基準(クオーツ・クロック)からそれらのクロックを得ないため同期されない。
端末における展開のためにクロック・スキュー補償法が存在する。そのような端末ベースの方法では、典型的には、D/AおよびA/Dのコンバータに関連するバッファにおいて読み込みおよび書き込みのポインタの位置を利用する。たとえば、受信(RX)バッファの読み取りポインタが送信(TX)バッファの書き込みポインタより速くインクリメントする場合、D/Aコンバータのサンプリング・レートは、A/Dコンバータのサンプリング・レートより高い。したがって、受信バッファの指定された時間ごとの読み取りポインタのインクリメントと、送信バッファの書き込みポインタのインクリメントとの差は、クロックのオフセットまたはサンプリング・レートのオフセットを推定するために使用することができる。次に、結果として生じるオフセットは、スピーカおよびマイクロフォンの信号に対して同じサンプリング・レートを達成するために、信号の1つのリサンプリング・レートを制御するために使用することができる。たとえば、それぞれが参照により本明細書に組み込まれている、M.PawigおよびG.Enzner、「Adaptive Sampling Rate Correction for Acoustic Echo Control in Voice−Over−IP」、IEEE Trans.on Signal Processing、Vol.58、No.1(2010年1月)、またはD.Miljkovicら、「Clock Skew Compensation by Speech Interpolation」、デジタル電気通信に関するIEEE国際会議(2006年)を参照すること。
端末で音響エコーが不十分に抑制またはキャンセルされる場合、音響エコー消去は、ネットワークにおいてリモートで試みることができる。しかし、ネットワークベースの音響エコー消去には、複数の技術的問題が存在する。たとえば、読み取りポインタおよび書き込みポインタの位置は、ネットワークなどリモートの位置からアクセス可能ではないため、上記の端末ベースのクロック・スキュー補償技法は、ネットワークにおいて適用することができない。
したがって、既存のネットワーク・サービスは、音響エコー抑制(AES)のみを提供している。しかし、音響エコー抑制器の知覚的なパフォーマンスは、AECの知覚的なパフォーマンスより著しく劣っている。AESの特定の欠点は、通話における透明性の欠如であり、両端が同時に話すことを試みたときに明白である。その基本的な形式において、AESは、1つの信号経路に損失を挿入することによって、1つの端末だけが話すことを許可する(半二重通信モードに類似)。コンフォート・ノイズ挿入などの拡張により、知覚される通信品質を改善することはできるが、それでも、音響エコー抑制器のパフォーマンスは、真のAECのパフォーマンスより著しく劣っている。
M.PawigおよびG.Enzner、「Adaptive Sampling Rate Correction for Acoustic Echo Control in Voice−Over−IP」、IEEE Trans.on Signal Processing、Vol.58、No.1(2010年1月) D.Miljkovicら、「Clock Skew Compensation by Speech Interpolation」、デジタル電気通信に関するIEEE国際会議(2006年) S.Haykin、「Adaptive Filter Theory」、Prentice Hall(2001年) T.I.Laaksoら、「Splitting the Unit Delay−Tools for Fractional Delay Filter Design」、IEEE Signal Process Magazine(1996年1月)
したがって、AECの効果的な適用を可能にするために、端末で発生するクロック・スキューを補償するための改善された技法に対する必要性が存在する。端末またはネットワークで用いることができるクロック・スキュー補償技法に対するさらなる必要性が存在する。
一般的に、音声信号における音響エコー消去のための方法および装置が提供される。本発明の一態様によると、音響エコーは、音声信号に少なくとも1つのトーンを挿入するステップであって、少なくとも1つのトーンは、聞き手にとって実質的に非可聴であるステップと、少なくとも1つのトーンの周波数偏移に基づいて2つのサンプリング・クロック間のクロック・スキューを決定するステップと、決定されたクロック・スキューに基づいて音声信号をリサンプリングするステップと、リサンプリングされた音声信号を使用して、音響エコー消去を実行するステップとによってキャンセルされる。提供される音響エコー・キャンセラは、たとえば、端末ベースおよび/またはネットワークベースの音響エコー・キャンセラとして実装することができる。
トーンは、たとえば、周波数が高いトーンまたは検出可能な最大周波数を上回るトーンなど、非可聴トーンを含むことができる(つまり、その周波数のために非可聴である)。さらに、トーンは、オプションとして、複数のトーンを含む。様々な実施形態において、トーン周波数に近い音声パワーが事前に決定したしきい値より大きい場合のみ、または通話の始めのみにトーンを生成することができる。
本発明の他の態様によると、トーンが音声信号によってマスクされるように、トーンのレベルをオプションとして制御することができる。たとえば、トーンのレベルは、音声信号から得たマスキングしきい値によって制御することができる。
本発明のより完全な理解、ならびに本発明の特徴および利点については、以下の詳細な説明および図面を参照することによって得られるだろう。
従来のネットワークベースの音響エコー抑制器(AES)を示す図である。 端末に展開した従来の端末ベースの音響エコー・キャンセラ(AEC)を示す図である。 本発明によるクロック・スキュー補償技法を用いる端末に展開した端末ベースの音響エコー・キャンセラ(AEC)を示す図である。 図3のトーン挿入ブロックをさらに詳細に示す図である。 図4に示す技法の代替となるトーン挿入方法を示す図である。 本発明によるクロック・スキュー補償技法を用いるネットワーク機器に展開したネットワークベースの音響エコー・キャンセラ(AEC)を示す図である。
本発明は、音響エコー・キャンセラで使用するためのクロック・スキュー補償の方法および装置を提供する。本発明の一態様によると、非可聴トーンなど、トーンが音声信号に追加される。トーンは、サンプリング・レートの不一致を推定し、それに応じてリサンプラを適応させるために使用される。代表的な一実施形態では、周波数が高いトーンが使用され、それによってトーンが音声信号によってマスクされているように、トーンのレベルを制御することができる。代替の実装では、トーン・レベルは固定されたレベルに設定され、このために、ときには可聴トーンにつながる。
図1は、従来のネットワークベースの音響エコー抑制器(AES)100を示している。通話の2つの側または端部を指すために、本明細書では「近端」および「遠端」という用語を使用する。音響エコーの問題は両端部で生じる可能性があるが、説明を容易にするために、本明細書では1つの端部だけについて説明する。その理由は、当業者には明白なように、典型的には、同じエコー緩和解決策をどちらの側にも適用することができるためである。言い換えると、本記述において、「近端」および「遠端」という用語は、説明全体にわたって入れ替えることができる。したがって、一般性を失うことなく、一方だけについて記述する。図1に示すように、AES100は、ネットワーク機器170の一部である。各遠端音声105および近端音声150の音声活動検出器(VAD)110−1、110−2は、それぞれ、損失制御ブロック120に入力を提供する。損失制御ブロック120は、VAD110−1、110−2によって検出された音声活動に基づいて、遠端信号105または近端信号150のいずれかに対して損失を挿入する。真の音響エコー・キャンセラ(AEC)とは対照的に、AES100は、端末機器180におけるサンプリング・レート差による影響を受けない。
図1に示すように、端末機器180は、受信された遠端信号105を格納する受信バッファ125を含む。D/Aコンバータ135は、デジタル受信された遠端信号105をスピーカ144に適用されるアナログ信号に変換する。さらに、マイクロフォン148によって生成されたアナログ近端音声信号150は、A/Dコンバータ140によって、ネットワークを通じた送信前に送信バッファ130に格納されるデジタル信号に変換される。これらのバッファは、信号の効率的なコーディングおよび送信を可能にする。音響エコー160は、端末180のスピーカ144とマイクロフォン148との間の結合の結果として生じる。AESは、一般的に、D/Aコンバータ135を制御するサンプリング・クロックfSLと、A/Dコンバータ140を制御するサンプリング・クロックfSMとの間のサンプリング・レート差の影響を受けないと考えられる。
説明を容易にするために、AES100による、周知のコンフォート・ノイズ挿入およびダブルトーク検出技法は図1に示していない。同様に、ネットワーク機器170および端末機器180の周知の音声コーデックも、説明を容易にするために示していない。
図2は、端末200に展開された従来の端末ベースの音響エコー・キャンセラ(AEC)290を示している。図2に示すように、端末200は、受信された遠端信号205を格納する受信バッファ225を含む。D/Aコンバータ235は、デジタル受信された遠端信号205をスピーカ244に適用されるアナログ信号に変換する。さらに、マイクロフォン248によって生成されたアナログ近端音声信号250は、A/Dコンバータ240によって、ネットワーク(図2に図示せず)を通じて送信前に送信バッファ230に格納されるデジタル信号に変換される。音響エコー260は、端末280のスピーカ244とマイクロフォン148との間の結合、および壁の反射の結果として生じる。すでに示したように、AECは、D/Aコンバータ235を制御するサンプリング・クロックfSLと、A/Dコンバータ240を制御するサンプリング・クロックfSMとの間のサンプリング・レート差に影響されやすい。
先に示し、図2に示すように、サンプリング・クロック周波数fSLとサンプリング・クロック周波数fSMとの間にサンプリング・レート差を持つ端末200の音響エコー消去を可能にするために、結果として生じるサンプリング・レート
Figure 2014529943
が、D/Aコンバータ235を制御するサンプリング・レートfSLに等しいように、近端音声信号250は、リサンプラ285を使用してリサンプリングされる。リサンプリングは、事前定義された時間間隔ごとに、受信バッファの読み取りポインタのインクリメント270と、送信バッファの書き込みポインタのインクリメント280との間の差に基づいている。ネットワーク機器は、これらのポインタにアクセスできないため、このリサンプリング方法は、端末200のみで実行することができる(ネットワークではできない)。端末(特にPCにおけるIPソフト電話)は、ほとんど、このようにエコーを処理しないため、ネットワークベースのエコー処理に対する必要性がなお存在する。
AEC290の詳細な記述については、たとえば、参照により本明細書に組み込まれている、S.Haykin、「Adaptive Filter Theory」、Prentice Hall(2001年)を参照すること。一般的に、AEC290は、エコー経路を反射(mirror)するために遠端音声信号205を適応するようにフィルタリングし、周知の方法で、近端音声信号250からフィルタリングされた信号、推定されたエコーを減じる。
図3は、本発明によるクロック・スキュー補償技法を用いる端末300に展開した端末ベースの音響エコー・キャンセラ(AEC)390を示している。以下で論じるように、本発明の態様は、挿入されたトーンに基づいてリサンプリングを実装する。挿入されたトーンは、オプションとして、マスクされたトーンでもよい。受信バッファおよび送信バッファは、説明を容易にするために図では省略している。
図3に示すように、周波数fToneを持つトーンがトーン挿入ブロック400によって生成され、図4に関連して下にさらに論じている。スイッチS1およびS2が「適応」位置にあるとき、遠端音声信号305および挿入されたトーンは、D/Aコンバータ335に渡され、次にスピーカ344に適用されて、その後、マイクロフォン348によって拾い上げられる。一般的に、挿入されたトーンは、サンプリング周波数fSLとサンプリング周波数fSMとの間のクロック・スキューにより周波数が偏移する。周波数偏移(または周波数比)を推定するために、偏移されたトーンは、帯域通過フィルタ350によってフィルタリングされ、周波数比計算ブロック360でさらに分析される。帯域通過フィルタ350は、周波数セレクタ355によって生成されたトーン周波数fToneに等しい中心周波数を持つ狭帯域を使用して、偏移されたトーンをフィルタリングする。ブロック355は、事前設定された周波数で始まる。帯域通過フィルタ350の出力レベルが、たとえば、スピーカ・エンクロージャ・マイクロフォン・システムの周波数レスポンスのノッチにより、希望のしきい値を下回る場合(つまり、スピーカ、空間、およびマイクロフォンの組み合わせられた周波数レスポンス)、周波数選択ブロック355は、別の事前設定した周波数に変更する。したがって、トーン挿入ブロック400は、新しい周波数を持つトーンを生成する。帯域通過フィルタ350の出力信号に対するレベル要件が満たされるまで、周波数選択355は、多数の事前設定された周波数を循環することができる。周波数比計算ブロック360は、フィルタリングされたトーンの周波数オフセットを決定し、ブロック365に格納される対応するリサンプリング率Rを計算する。結果として生じるサンプリング周波数
Figure 2014529943
がD/Aコンバータ335を制御するサンプリング周波数fSLと等しいように、リサンプリング・ブロック385は、近端信号350をリサンプリングする。リサンプリング技法は周知である。たとえば、参照により本明細書に組み込まれている、T.I.Laaksoら、「Splitting the Unit Delay−Tools for Fractional Delay Filter Design」、IEEE Signal Process Magazine(1996年1月)を参照すること。
上記のように、たとえば、1〜2秒という事前に決定した評価時間TAにおいてサイクルの数から単純な周波数比計算アルゴリズムを得ることができる。リサンプラ385の希望のリサンプリング率は、R=fSL/fSMにより得られる。2つのトーン周波数のサイクル期間はTSL=1/fSLおよびTSM=1/fSMとして示すことができるため、評価期間におけるサイクルの数は、NSL=TA/TSLおよびNSM=TA/TSMとして表現することができる。TSLが知られているので、NSLは正確に計算することができる。対照的に、NSMは信号から推定しなければならない。たとえば、NSMの推定は、評価間隔TA内の正ゼロ交差(positive zero crossing)の数を数えることによって実装することができる。(正ゼロ交差の数に等しい)サイクルの数により、リサンプリング率は、R=NSL/NSMとして決定することができる。端数のサンプル単位が計算される場合(つまり、2つのトーン信号が過剰サンプリングされた場合)、Rの決定における精度を改善することができる。
適応制御308は、遠端音声305およびリサンプルされた近端音声388(またはオリジナル・サンプリング・レートの近端音声342)を使用して、遠端の話し手、近端の話し手、または両方(いわゆるダブルトーク)が話しているかどうかを決定する。また、そのような検出は、音響エコー消去(図示せず)の適応に必要であり、したがって、AEC制御から得ることができる。スイッチS1およびS2を「適応」位置に設定するために、近端の話し手が沈黙している(つまり近端の話し手が話していない)条件を満たさなければならない。近端の話し手が話している場合、適応制御は、スイッチS1およびS2を「凍結」位置に設定する。これは、トーンが近端スピーカに送信されず、周波数比が更新されないことを意味するが、365に格納された以前に決定された周波数比が使用される。
通話時間が制限されていて、端末(より正確にはサンプリング・レートを決定するクオーツ)の温度変動が制限されている場合、通話またはセッションの最初にのみ周波数比計算の適応を実行するだけで十分な場合がある。言い換えると、たとえば1〜2秒間だけ継続できる通話設定手順でのみ、周波数比計算ブロック360を介してリサンプリング率の適応を実行することで十分な場合がある。すなわち、スイッチS1およびS2は、短い設定間隔の間だけ「適応」位置にあり、通話の残りについては、スイッチS1およびS2は「凍結」位置にある。
あるいは、適応は、1〜2秒の期間について、たとえば10分ごとに1度だけ実行することができる。代替のより単純なトーン挿入方法500が使用される場合でも、図5に関連して下にさらに論じるように、そのようなまれな可聴トーンの急増は、一般的に、通話の参加者によって十分に許容される。
あるいは、遠端音声信号305が、たとえば「s」および「f」など摩擦で生じる音素の間に高周波帯域において十分なエネルギーを含んでいるときのみ、適応を実行することができる。高周波帯域の十分なエネルギーにより、より高いトーン・レベルが可能になる。これにより、周波数比計算ブロック360の信頼性が改善される。高周波帯域における十分なエネルギーの存在は、遠端音声信号の高域通過フィルタリングの手段、次に根二乗平均(RMS)演算、次にしきい値検出によって得ることができる。
トーン挿入400および周波数比計算360のための上記の適応方法のいずれかに基づいて、スイッチS1およびS2の共通制御信号が得られる。共通制御信号はスイッチS1およびS2に対して使用されるが、S2の制御信号は、スイッチS1の出力からリサンプラ385の入力へと信号が経験するラウンドトリップ遅延に対応するために遅延される必要がある。たとえば、D/Aコンバータ335およびA/Dコンバータ340で遅延が発生するが、端末300に示されていない他の信号処理ブロックでも発生する可能性がある。下に論じるネットワーク実装では、ネットワーク送信およびオーディオ・エンコーダ/デコーダによって追加の遅延が引き起こされる。ラウンドトリップ遅延は、たとえば相関を使った従来のライン・エコー・キャンセラにおけるラウンドトリップ遅延推定技法と同様に推定することができる。ネットワーク実装では、ラウンドトリップ遅延は時間とともに変動する場合があり、決定された公称ラウンドトリップ遅延からずれる場合がある。この場合、周波数比計算ブロック360においてトーンの正確な始まりを検出することが必要である。
上記のように、図2と同様にエコー経路の周波数レスポンスに対応するために、代表的なAEC390は、遠端音声信号305を適応するようにフィルタリングし、リサンプリングされた近端音声信号350からフィルタリングされた信号を引く。
図4は、図3のトーン挿入ブロック400をさらに詳細に示している。図4に示すように、周波数fToneを持つトーンは、トーン・ジェネレータ430によって生成され、加算器によって遠端音声信号405のバージョンに追加される。代表的な一実装では、遠端音声信号405は、オプションとして、挿入されたトーンの中心周波数fToneを持つ音声信号405の狭帯域をフィルタリングするノッチ・フィルタ410によってフィルタリングされる。トーン周波数を設定する能力は、スピーカ・エンクロージャ・マイクロフォン(LEM)システムの周波数レスポンスにおいて潜在的なノッチを回避するために有益である。
さらに、代表的な実装では、音声信号に基づいて、(聞き手によって知覚されるように)トーンが音声によってマスクされるように、トーン周波数のマスキングしきい値420が決定される。この目的のために、トーン周波数のマスキングしきい値は、音声信号から計算される。たとえば、H.FastleおよびE.Zwicker、「Psychoacoustics:Facts and Models」、Springer(2006年)を参照すること。一般的に、マスキングしきい値420は、所与の周波数fToneについて、トーンが非可聴になるトーン・レベルLToneを示す。トーン・レベルLToneは、マスキングしきい値420より高く設定されない。図4に示すように、トーン・ジェネレータ430の代表的な出力は、マスクされたトーンを含む遠端音声信号450を生成するために、トーン・レベルLToneがかけられ、マスキングしきい値420によって計算され、かつノッチ・フィルタ410の出力に加えられる。挿入されたトーンは、トーン周波数の近辺において音声周波数コンポーネントがない場合、より簡単に識別されるため、オプションのノッチ・フィルタ410により、周波数比計算360(図3)のパフォーマンスが改善する。
たとえば、周波数fToneは高い周波数(f/4<fTone<f/2)でもよく、fはサンプリング周波数である。16kHzのサンプリング周波数を持つ広帯域音声信号について、トーン周波数は6kHzに設定することができる。そのような高トーン周波数は、単純かつ複雑度の低い時間領域アルゴリズムによって正確に周波数オフセットを検出できるという長所を持っている。たとえば、事前規定された時間間隔(たとえば約1〜2秒)のトーン・サイクルの数は、信号のゼロ交差を検出することにより数えることができる。しかし、トーン周波数が高いほど、音声信号によってマスクされるトーンは少なくなる。マスキングしきい値は、異なる音素を通じて音声が進むと継続的に変化する。たとえば、「so」という単語について考える。摩擦音「s」は、6kHzのトーン周波数の近辺に大きなエネルギーを持っているため、トーン周波数でより高いマスキングしきい値が得られる。これとは対照的に、有声母音「o」は、より低い周波数にほとんどのエネルギーを持っているため、トーン周波数で低いマスキングしきい値が得られる。
一般的に、より高いマスキングしきい値が望ましい。その理由は、より高いレベルのトーンの注入が可能になり、次に周波数比計算の精度および堅牢さが高まるからである。言い換えると、周波数比推定の堅牢さおよび精度は、信号対雑音比(SNR)に依存している。SNRは、トーンのレベルに比例して増加する。しかし、周波数比計算の精度は、トーン・レベルだけでなく、近端音声検出の信頼性によっても決定される。近端音声無音期間の誤検出のために、周波数比計算アルゴリズムの適応がアクティブ化される場合がある(凍結する代わり。つまり率を更新しない)。周波数比計算については、近端音声はノイズと考えられる。よって、近端音声の無音を誤検出するとSNRが低下する。
図5は、基本的なトーン挿入方法を説明している。これは2つのモードで動作することができる。スイッチS3が位置0にあるとき、音声は、適応の時間間隔の間にトーンに置き換えられる。スイッチS3が位置1にあるとき、トーンは遠端音声信号505に追加される。トーン挿入ブロック500は、トーン挿入ブロック400と同様に、トーン・ジェネレータ530を介してトーンを生成する。トーン・レベルは、オプションとして、遠端音声のレベルまたは/および近端音声のレベルのみに依存して、固定されたレベルに設定される。
オーバフローを防ぐために、遠端音声信号505は、振幅を限定するか、または1より小さな係数で変倍することができ、それによってスイッチS1の位置が変更されたときに、振幅変化を回避するために、そのようなオーバフロー防止策を信号経路306および307の両方(図3に示す)に適用しなければならない。専門のオーディオ送信が、たとえば48kHzで使用される場合、トーンは、約19kHz以上の周波数に設定されている場合、非可聴にもすることができる。この場合、トーンは、音声信号によってマスクする必要はない。その理由は、その周波数は、人間の聴覚系が知覚できる最大周波数を超えているからである。
図6は、本発明によるクロック・スキュー補償技法を用いるネットワーク機器670に展開されたネットワークベースの音響エコー・キャンセラ(AEC)690を示している。以下に論じるように、本発明の態様は、挿入されたトーンに基づいてリサンプリングのネットワーク実現を実装する。挿入されたトーンのレベルは、オプションとして制御することができるため、トーンは音声によってマスクされるか、または挿入されたトーンのレベルは固定された値に設定することができる。受信バッファおよび送信バッファは、説明を容易にするために図では省略している。
図6に示すように、周波数fToneを持つトーンは、図4に関して上に論じた、トーン挿入ブロック400によって生成される。スイッチS1およびS2が適応の位置にある場合、トーンはネットワーク機器670においてオーディオ・エンコーダ610によって送信され、次に、デコーダ620によって端末680で復号される。図1〜3と同様に、D/Aコンバータ635は、スピーカ644に適用されるアナログ信号へと、マスクされたトーンを持つ復号されたデジタル受信された遠端信号を変換する。さらに、マイクロフォン648によって生成されたアナログ近端音声信号650は、A/Dコンバータ640によって、端末680の符号器625によって符号化されるデジタル信号に変換され、次に、ネットワーク機器670のデコーダ615によって復号される。音響エコー660は、端末680のスピーカ644からマイクロフォン648への直接的な音および反射された音の結果として生じる。
一般的に、挿入されたトーンは、サンプリング・クロックfSLとサンプリング・クロックfSMとの間のクロック・スキューにより周波数が偏移する。偏移されたトーンは、帯域通過フィルタ650によってフィルタリングされ、周波数比計算ブロック660でさらに分析される。帯域通過フィルタ650は、周波数セレクタ655によって生成され、オリジナルのトーン周波数fToneの中央にある狭帯域を使用して、偏移されたトーンをフィルタリングする。周波数比計算ブロック660は、オリジナルとフィルタリングされたトーンとの間の周波数比R=fSL/fSMを決定する。この比は、図3の端末ベースの実装と同様に、リサンプラに使用される、希望のリサンプリング比である。さらに、リサンプリング比はブロック665に格納される。リサンプリング・ブロック685は近端信号650をリサンプリングするため、結果として生じるサンプリング・レート
Figure 2014529943
は、D/Aコンバータ335を制御するサンプリング・レートfSLに等しい。
上に示したように、図2および図3と同様に、エコー経路に対応するために、代表的なAEC690は、遠端音声信号605を適応するようにフィルタリングし、リサンプリングされた近端音声信号650からフィルタリングされた信号を引く。
図6のネットワークベースの実装について、オーディオ符号化/復号化プロセス610、620を通じてトーンが失われないように、トーン・レベルLToneが設定される。低ビット・レートのオーディオ/音声コーデックについて、得されるトーン・レベルLToneによりトーンを可聴にすることができる、または符号化/復号化プロセスを通過するためにトーン・レベルを上げる必要がある場合がある。あるいは、複数のトーンは、送信を保証するために異なる周波数で同時に生成することができる。トーンの期間が短いため(たとえば約1〜2秒)、わずかに可聴であるトーンを受け入れ可能である。たとえば、PCM(パルス復号変調)符号化/復号化について、トーン・マスキングを完全に適用して、トーンを非可聴にすることができる。
マルチトーンの方法には、さらに2つの利点がある。第一に、トーン周波数のLEM周波数レスポンスにノッチがある場合、異なる周波数を通じて循環する必要性がない。これは、複数の間隔ではなく、1つの評価間隔TAだけが必要であることを意味する。言い換えると、マルチトーンの解決策は、より短時間に適応させることができる。マルチトーンの解決策の第2の利点は、特定のトーン周波数のマスキングしきい値は、信頼性が高い周波数比計算にとって十分に高くない場合がある一方、別のトーン周波数では、マスキングしきい値は十分に高い場合があることである。当業者には明白であろうように、マルチトーンは、図4および図5の単一のトーンと同様に生成される。
先に示したように、クロック・スキュー補償方式の配置は、本明細書に記述したように、従来の配置と比べて多数の利点を提供している。上記のように、クロック・スキュー補償を実装するために開示された技法により、音響エコー消去の効果的な適用が可能になる。また、開示されたクロック・スキュー補償技法は、端末またはネットワークに実装することができる。
ここでも、本発明の上記の実施形態は、例示のみを意図することを強調するべきである。一般的に、当業者には明白であろうように、代表的なクロック・スキュー補償技法は、トーンを挿入し、それによってリサンプリング周波数を決定するために変更することができる。さらに、クロック・スキュー補償のために開示された技法は、音響エコーが生じる可能性がある任意の端末またはネットワーク環境で用いることができる。
本発明の代表的な実施形態について、デジタル論理ブロックに関して記述してきたが、当業者には明白であろうように、ソフトウェア・プログラムの処理ステップとして、回路素子またはステート・マシンによってハードウェアにおいて、またはソフトウェアとハードウェアの両方の組み合わせにおいて、デジタル領域に様々な機能を実装することができる。そのようなソフトウェアは、たとえば、デジタル信号プロセッサ、特定用途向け集積回路、マイクロコントローラ、または汎用コンピュータに用いることができる。そのようなハードウェアおよびソフトウェアは、集積回路内に実装された回路内に具体化することができる。
したがって、本発明の機能は、それらの方法を実践する方法および装置の形で具体化することができる。本発明の1つまたは複数の態様は、たとえば、記憶媒体に格納された、マシンにロードし、かつ/もしくはマシンによって実行される、または何らかの伝送媒体を通して送信されるプログラム・コードの形で具体化することができ、プログラム・コードがコンピュータなどのマシンにロードされ実行されると、マシンは、本発明を実践するための装置になる。汎用プロセッサに実装された場合、特定の論理回路と同様に動作するデバイスを提供するために、プログラム・コード・セグメントはプロセッサと協働する。本発明は、また、集積回路、デジタル信号プロセッサ、マイクロプロセッサ、およびマイクロコントローラの1つまたは複数に実装することができる。
本明細書に図示し記述した実施形態および変形形態は、単に本発明の原理を説明するためのものであり、当業者は、本発明の範囲および精神から逸脱することなく、様々な変更を実装できることを理解されるだろう。

Claims (10)

  1. 音声信号における音響エコー消去の方法であって、
    前記音声信号に少なくとも1つのトーンを挿入するステップであって、前記少なくとも1つのトーンは、聞き手にとって実質的に非可聴であるステップと、
    前記少なくとも1つトーンの周波数偏移に基づいて2つのサンプリング・クロック間のクロック・スキューを決定するステップと、
    前記決定したクロック・スキューに基づいて前記音声信号をリサンプリングするステップと、
    前記リサンプリングされた音声信号を使用して、前記音響エコー消去を実行するステップと
    を含む方法。
  2. 前記方法は、端末デバイスおよびネットワーク・デバイスのうちの1つまたは複数に実装される請求項1に記載の方法。
  3. 前記少なくとも1つトーンは、周波数が高いトーン、および聞き手によって可聴ではない周波数を持つトーンのうちの1つまたは複数を含む請求項1に記載の方法。
  4. 前記少なくとも1つのトーンが前記音声信号によってマスクされるように、前記少なくとも1つのトーンのレベルを制御するステップをさらに含む請求項1の方法。
  5. 前記少なくとも1つトーンは、複数のトーンを含む請求項1に記載の方法。
  6. 前記少なくとも1つトーンのレベルは、音声信号から得たマスキングしきい値によって制御される請求項1に記載の方法。
  7. 音声信号において音響エコーをキャンセルするための装置であって、
    前記音声信号に少なくとも1つのトーンを挿入するためのトーン・ジェネレータであって、前記少なくとも1つのトーンは、聞き手にとって実質的に非可聴であるトーン・ジェネレータと、
    前記少なくとも1つのトーンの周波数偏移に基づいて2つのサンプリング・クロック間のクロック・スキューを決定するためのオフセット計算回路と、
    前記決定されたクロック・スキューに基づいて前記音声信号をリサンプリングするためのリサンプリング回路と、
    前記リサンプリングされた音声信号を使用して、前記音響エコーをキャンセルする音響エコー・キャンセラと
    を備える装置。
  8. 前記少なくとも1つのトーンを含む帯域をフィルタリングするために少なくとも1つの帯域通過フィルタをさらに備える請求項7に記載の装置。
  9. 前記少なくとも1つのトーンに対応する前記音声信号内の帯域をフィルタリングするために少なくとも1つのノッチ・フィルタをさらに備える請求項7に記載の装置。
  10. 前記トーン・ジェネレータは、前記少なくとも1つトーンが前記音声信号によってマスクされるように、前記少なくとも1つのトーンのレベルを制御する請求項7に記載の装置。
JP2014526049A 2011-08-17 2012-08-01 非可聴トーンを使用する音響エコー・キャンセラのためのクロック・スキュー補償 Expired - Fee Related JP5863971B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/211,505 2011-08-17
US13/211,505 US8750494B2 (en) 2011-08-17 2011-08-17 Clock skew compensation for acoustic echo cancellers using inaudible tones
PCT/US2012/049094 WO2013025346A1 (en) 2011-08-17 2012-08-01 Clock skew compensation for acoustic echo cancellers using inaudible tones

Publications (2)

Publication Number Publication Date
JP2014529943A true JP2014529943A (ja) 2014-11-13
JP5863971B2 JP5863971B2 (ja) 2016-02-17

Family

ID=46634571

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014526049A Expired - Fee Related JP5863971B2 (ja) 2011-08-17 2012-08-01 非可聴トーンを使用する音響エコー・キャンセラのためのクロック・スキュー補償

Country Status (7)

Country Link
US (1) US8750494B2 (ja)
EP (1) EP2745500B1 (ja)
JP (1) JP5863971B2 (ja)
KR (1) KR20140048283A (ja)
CN (1) CN103748865B (ja)
TW (1) TW201322724A (ja)
WO (1) WO2013025346A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012046256A2 (en) 2010-10-08 2012-04-12 Optical Fusion Inc. Audio acoustic echo cancellation for video conferencing
US9203633B2 (en) 2011-10-27 2015-12-01 Polycom, Inc. Mobile group conferencing with portable devices
US9024998B2 (en) 2011-10-27 2015-05-05 Pollycom, Inc. Pairing devices in conference using ultrasonic beacon
US8896651B2 (en) 2011-10-27 2014-11-25 Polycom, Inc. Portable devices as videoconferencing peripherals
US9491404B2 (en) * 2011-10-27 2016-11-08 Polycom, Inc. Compensating for different audio clocks between devices using ultrasonic beacon
JP5364141B2 (ja) * 2011-10-28 2013-12-11 楽天株式会社 携帯端末、店舗端末、送信方法、受信方法、決済システム、決済方法、プログラムおよびコンピュータ読み取り可能な記憶媒体
US9025762B2 (en) * 2012-10-23 2015-05-05 Cisco Technology, Inc. System and method for clock synchronization of acoustic echo canceller (AEC) with different sampling clocks for speakers and microphones
US9219456B1 (en) * 2013-12-17 2015-12-22 Amazon Technologies, Inc. Correcting clock drift via embedded sin waves
US10147441B1 (en) 2013-12-19 2018-12-04 Amazon Technologies, Inc. Voice controlled system
US20160171988A1 (en) * 2014-12-15 2016-06-16 Wire Swiss Gmbh Delay estimation for echo cancellation using ultrasonic markers
US9589575B1 (en) * 2015-12-02 2017-03-07 Amazon Technologies, Inc. Asynchronous clock frequency domain acoustic echo canceller
WO2018054171A1 (zh) * 2016-09-22 2018-03-29 腾讯科技(深圳)有限公司 通话方法、装置、计算机存储介质及终端
CN108335701B (zh) * 2018-01-24 2021-04-13 青岛海信移动通信技术股份有限公司 一种进行声音降噪的方法及设备
US10692515B2 (en) * 2018-04-17 2020-06-23 Fortemedia, Inc. Devices for acoustic echo cancellation and methods thereof
CN108494517B (zh) * 2018-05-04 2023-12-26 厦门亿联网络技术股份有限公司 一种实现无线麦克风与内置麦克风语音时钟同步的装置及方法
US11363147B2 (en) 2018-09-25 2022-06-14 Sorenson Ip Holdings, Llc Receive-path signal gain operations
TWI682387B (zh) * 2018-10-24 2020-01-11 新唐科技股份有限公司 多音調通訊系統、多音調訊號解調變裝置及其方法
CN110648679B (zh) * 2019-09-25 2023-07-14 腾讯科技(深圳)有限公司 回声抑制参数的确定方法和装置、存储介质及电子装置
TWI743950B (zh) 2020-08-18 2021-10-21 瑞昱半導體股份有限公司 訊號處理裝置、延遲估計方法與回音消除方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006087813A1 (ja) * 2005-02-21 2006-08-24 Fujitsu Limited エコーキャンセラ
JP2007202088A (ja) * 2005-12-27 2007-08-09 Ntt Docomo Inc 受信装置、搬送波周波数オフセット補正方法
JP2014533014A (ja) * 2012-07-06 2014-12-08 ゴーアーテック インク 送受話端サンプリングレート偏差の補正方法及びシステム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2161676B (en) 1984-07-11 1988-05-25 Stc Plc Data transmission system
US6167133A (en) * 1997-04-02 2000-12-26 At&T Corporation Echo detection, tracking, cancellation and noise fill in real time in a communication system
US7003093B2 (en) * 2000-09-08 2006-02-21 Intel Corporation Tone detection for integrated telecommunications processing
US6747581B2 (en) 2002-02-01 2004-06-08 Octiv, Inc. Techniques for variable sample rate conversion
US7120259B1 (en) * 2002-05-31 2006-10-10 Microsoft Corporation Adaptive estimation and compensation of clock drift in acoustic echo cancellers
US8295475B2 (en) * 2006-01-13 2012-10-23 Microsoft Corporation Selective glitch detection, clock drift compensation, and anti-clipping in audio echo cancellation
US8259928B2 (en) * 2007-04-23 2012-09-04 Microsoft Corporation Method and apparatus for reducing timestamp noise in audio echo cancellation
US8126160B2 (en) * 2008-09-22 2012-02-28 Cisco Technology, Inc. Use of non-audible band to relay information for echo cancellation in a distributed media system
US8385558B2 (en) * 2009-01-13 2013-02-26 Microsoft Corporation Echo presence determination in voice conversations
US8320554B1 (en) * 2010-10-19 2012-11-27 Polycom, Inc. Acoustic echo canceller clock compensation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006087813A1 (ja) * 2005-02-21 2006-08-24 Fujitsu Limited エコーキャンセラ
JP2007202088A (ja) * 2005-12-27 2007-08-09 Ntt Docomo Inc 受信装置、搬送波周波数オフセット補正方法
JP2014533014A (ja) * 2012-07-06 2014-12-08 ゴーアーテック インク 送受話端サンプリングレート偏差の補正方法及びシステム

Also Published As

Publication number Publication date
JP5863971B2 (ja) 2016-02-17
CN103748865B (zh) 2015-08-19
CN103748865A (zh) 2014-04-23
EP2745500A1 (en) 2014-06-25
KR20140048283A (ko) 2014-04-23
WO2013025346A1 (en) 2013-02-21
US20130044873A1 (en) 2013-02-21
EP2745500B1 (en) 2019-06-05
TW201322724A (zh) 2013-06-01
US8750494B2 (en) 2014-06-10

Similar Documents

Publication Publication Date Title
JP5863971B2 (ja) 非可聴トーンを使用する音響エコー・キャンセラのためのクロック・スキュー補償
US11601554B2 (en) Detection of acoustic echo cancellation
EP2868073B1 (en) Echo control through hidden audio signals
JP5332733B2 (ja) エコーキャンセラ
CN102025852B (zh) 在近端对回传音频的检测和抑制
US5390244A (en) Method and apparatus for periodic signal detection
KR20190120416A (ko) 적응형 잡음 제거 시스템에서의 다운링크 톤 검출 및 2차 경로 응답 모델의 적응
KR20010033994A (ko) 통신 시스템에서 컴퍼트 잡음을 제공하기 위한 방법 및 장치
WO2011117860A1 (en) Comfort noise generation method and system
Ogunfunmi et al. Speech over VoIP networks: Advanced signal processing and system implementation
US8369251B2 (en) Timestamp quality assessment for assuring acoustic echo canceller operability
US8582754B2 (en) Method and system for echo cancellation in presence of streamed audio
PL216396B1 (pl) Sposób i układ tłumienia echa akustycznego w terminalu VoIP
CN106297816B (zh) 一种回声消除的非线性处理方法和装置及电子设备
CN108540680B (zh) 讲话状态的切换方法及装置、通话***
CN102918825B (zh) 集合住宅用对讲***的住户机
JP2008131378A (ja) エコー処理方法及び装置
JP2004274683A (ja) エコーキャンセル装置、エコーキャンセル方法、プログラムおよび記録媒体
EP1944877B1 (en) Method of modifying a residual echo
Kumar Variable Step Size (VSS) control for Circular Leaky Normalized Least Mean Square (CLNLMS) algorithm used in AEC
JP5350968B2 (ja) 回線自動切断装置
JP2003324787A (ja) 反響抑圧方法、反響抑圧装置、反響抑圧プログラム
JP2004274681A (ja) エコーキャンセル装置、エコーキャンセル方法、プログラムおよび記録媒体
JP2011172165A (ja) エコー除去装置、方法及びプログラム
JP2008160420A (ja) エコーノイズキャンセル装置及びエコーノイズキャンセル方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150423

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150723

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151022

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151222

R150 Certificate of patent or registration of utility model

Ref document number: 5863971

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees