JP2024521486A - コインシデントステレオ捕捉のためのチャネル間時間差(itd)推定器の改善された安定性 - Google Patents
コインシデントステレオ捕捉のためのチャネル間時間差(itd)推定器の改善された安定性 Download PDFInfo
- Publication number
- JP2024521486A JP2024521486A JP2023577407A JP2023577407A JP2024521486A JP 2024521486 A JP2024521486 A JP 2024521486A JP 2023577407 A JP2023577407 A JP 2023577407A JP 2023577407 A JP2023577407 A JP 2023577407A JP 2024521486 A JP2024521486 A JP 2024521486A
- Authority
- JP
- Japan
- Prior art keywords
- itd
- determining
- audio signal
- channel audio
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 95
- 238000000034 method Methods 0.000 claims abstract description 69
- 230000004044 response Effects 0.000 claims abstract description 27
- 238000001514 detection method Methods 0.000 claims description 69
- 238000012545 processing Methods 0.000 claims description 50
- ULFUJLFTRWWLPO-UHFFFAOYSA-N ethyl 2,7,7-trimethyl-5-oxo-4-(4-phenylphenyl)-1,4,6,8-tetrahydroquinoline-3-carboxylate Chemical compound CCOC(=O)C1=C(C)NC(CC(C)(C)CC2=O)=C2C1C(C=C1)=CC=C1C1=CC=CC=C1 ULFUJLFTRWWLPO-UHFFFAOYSA-N 0.000 claims description 27
- 238000001914 filtration Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 21
- 230000006641 stabilisation Effects 0.000 claims description 19
- 238000011105 stabilization Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 15
- 230000000694 effects Effects 0.000 claims description 11
- 230000003044 adaptive effect Effects 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 16
- 238000004458 analytical method Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000005314 correlation function Methods 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000012732 spatial analysis Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 239000003381 stabilizer Substances 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
- Stereo-Broadcasting Methods (AREA)
Abstract
エンコーダまたはデコーダにおいて、コインシデントマイクロフォン構成CCを識別し、チャネル間時間差ITD探索を適合させる方法および装置(110,120,1000,1006)が提供される。本方法は、マルチチャネルオーディオ信号の各フレームmについて、マルチチャネルオーディオ信号のチャネル対の相互相関を生成することと、相互相関に基づいて、第1のITD推定値を決定することと、マルチチャネルオーディオ信号がCC信号であるかどうかを決定することと、マルチチャネルオーディオ信号がCC信号であると決定したことに応答して、最終ITDを取得するために、ゼロに近いITDを優先するようにITD探索をバイアスすることとを含む。【選択図】図6
Description
本開示は、一般に、通信に関し、より詳細には、オーディオのエンコーディングおよびデコーディングをサポートする方法ならびに関連するエンコーダおよびデコーダに関する。
空間オーディオまたは3Dオーディオは、様々な種類のマルチチャネルオーディオ信号を表す一般的な定式化である。捕捉方法およびレンダリング方法に応じて、オーディオシーンは空間オーディオフォーマットによって表される。捕捉方法(マイクロフォン)によって規定される典型的な空間オーディオフォーマットは、例えば、ステレオ、バイノーラル、アンビソニックスなどとして表される。空間オーディオレンダリングシステム(ヘッドフォンまたはスピーカ)は、ステレオ(左右のチャネル2.0)またはより高度なマルチチャネルオーディオ信号(2.1、5.1、7.1など)で空間オーディオシーンをレンダリングすることができる。
そのようなオーディオ信号の送信および操作のための最近の技術は、エンドユーザがより高い空間品質を有する強化されたオーディオ体感を有することを可能にし、しばしばより良好な了解度ならびに拡張現実をもたらす。MPEG SurroundまたはMPEG-H 3D Audioなどの空間オーディオコーディング技術は、例えばインターネット上のストリーミングなどのデータレート制約アプリケーションと互換性がある空間オーディオ信号のコンパクトな表現を生成する。しかしながら、空間オーディオ信号の送信は、データレート制約が強い場合には制限され、したがって、デコードされたオーディオチャネルの後処理は、空間オーディオ再生を強化するためにも使用される。一般的に使用される技術は、例えば、デコードされたモノ信号またはステレオ信号をマルチチャネルオーディオ(5.1チャネル以上)にブラインドアップミックスすることができる。
空間オーディオシーンを効率的にレンダリングするために、空間オーディオコーディング技術および空間オーディオ処理技術は、マルチチャネルオーディオ信号の空間特性を利用する。特に、空間オーディオ捕捉のチャネル間の時間差およびレベル差は、空間内の指向性音の知覚を特徴付ける両耳間キューを近似するために使用される。チャネル間時間差およびチャネル間レベル差は、聴覚系が検出できるもの(すなわち、両耳間時間差および両耳間レベル差、耳の入り口)の近似にすぎないため、チャネル間時間差が知覚的側面から関連することは非常に重要である。チャネル間時間差およびチャネル間レベル差(ICTDおよびICLD)は、マルチチャネルオーディオ信号の指向性成分をモデル化するために一般的に使用され、一方、両耳間相互相関(IACC)をモデル化するチャネル間相互相関(ICC)は、オーディオ画像の幅を特徴付けるために使用される。特に低周波の場合、ステレオ画像は、チャネル間位相差(ICPD)でモデル化することもできる。
空間聴覚知覚に関連するバイノーラルキューは、両耳間レベル差(ILD)、両耳間時間差(ITD)、および両耳間コヒーレンスまたは両耳間相関(ICまたはIACC)と呼ばれることに留意されたい。一般的なマルチチャネル信号を考慮すると、チャネルに関連する対応するキューは、チャネル間レベル差(ICLD)、チャネル間時間差(ICTD)、およびチャネル間コヒーレンスまたはチャネル間相関(ICC)である。空間オーディオ処理はほとんどが捕捉されたオーディオチャネルで動作するため、「C」は省略されることがあり、オーディオチャネルを参照する場合、ITD、ILDおよびICという用語も使用される。
図1は、パラメトリック空間オーディオ分析を使用する従来の設定を示す。ステレオエンコーダ110には、ステレオ信号対が入力される。空間分析器112は、ダウンミキサ114を補助し、ダウンミキサ114は、2つの入力チャネルの単一チャネル表現を生成する。ダウンミックスプロセスは、時間、相関および位相のチャネル差を補償し、それによってダウンミックス信号のエネルギーを最大化することを目的とする。これにより、ステレオ信号の効率的なエンコーディングが達成される。ダウンミックス信号は、ダウンミックスエンコーダ116に転送される。空間分析からのパラメータは、パラメータエンコーダ118によってエンコードされ、エンコードされたダウンミックスと共にデコーダに送信される。通常、ステレオパラメータの一部は、等価矩形帯域幅(ERB)スケールなどの知覚周波数スケール上のスペクトルサブバンドで表される。ステレオデコーダ120は、ダウンミックスデコーダ124からの信号およびパラメータデコーダ122からのパラメータに基づいて、空間合成器126においてステレオ合成を行う。ステレオ合成動作は、時間、レベル、相関および位相のチャネル差を復元し、入力オーディオ信号に似たステレオ画像を生成することを目的とする。
エンコードされたパラメータは、人間の聴覚系に対して空間オーディオをレンダリングするために使用されるので、チャネル間パラメータは、知覚品質を最大化するための知覚的考慮事項を用いて抽出およびエンコードされ得る。
ステレオおよびマルチチャネルオーディオ信号は、特に環境に雑音が多いかもしくは残響がある場合、または混合音の様々なオーディオ成分が時間および周波数において重複する場合、すなわち雑音の多い音声、音楽上の音声もしくは同時話者などの場合にモデル化が困難であり得る複雑な信号である。
ICTDを推定することになると、従来のパラメトリック手法は、2つの波形x(n)とy(n)との間の類似性の尺度である相互相関関数(CCF)rxyに依存し、一般に、以下のように時間領域で規定され、
rxy(n,τ)=E[x(n)y(n+τ)]
ここで、τは、タイムラグパラメータであり、E[・]は、期待値演算子である。長さNの信号フレームの場合、相互相関は、通常、以下のように推定される。
rxy(n,τ)=E[x(n)y(n+τ)]
ここで、τは、タイムラグパラメータであり、E[・]は、期待値演算子である。長さNの信号フレームの場合、相互相関は、通常、以下のように推定される。
ICCに対応するタイムラグτは、チャネルxとチャネルyとの間のICTDとして決定される。CCFは、以下のように離散フーリエ変換を使用しても計算することができ、
rxy(τ)=DFT-1(X(k)Y*(k))
ここで、X[k]は、時間領域信号x[n]の離散フーリエ変換(DFT)であり、Y*[k]は、時間領域信号y[n]の離散フーリエ変換(DFT)の複素共役であり、すなわち、
であり、DFT-1(・)またはIDFT(・)は、逆離散フーリエ変換である。しかしながら、DFTは分析フレームを周期信号に複製し、x(n)およびy(n)の巡回畳み込みをもたらすことに留意されたい。これに基づいて、分析フレームは、通常、真の相互相関と一致するようにゼロでパディングされる。
rxy(τ)=DFT-1(X(k)Y*(k))
ここで、X[k]は、時間領域信号x[n]の離散フーリエ変換(DFT)であり、Y*[k]は、時間領域信号y[n]の離散フーリエ変換(DFT)の複素共役であり、すなわち、
であり、DFT-1(・)またはIDFT(・)は、逆離散フーリエ変換である。しかしながら、DFTは分析フレームを周期信号に複製し、x(n)およびy(n)の巡回畳み込みをもたらすことに留意されたい。これに基づいて、分析フレームは、通常、真の相互相関と一致するようにゼロでパディングされる。
y(n)が純粋にx(n)の遅延バージョンである場合、相互相関関数は、以下によって与えられ、
ここで、*は、畳み込みを表し、δ(τ-τ0)は、クロネッカーのデルタ関数であり、すなわちτ0で1に等しく、そうでなければゼロに等しい。これは、xとyとの間の相互相関関数が、x(n)に対する自己相関関数であるrxx(τ)との畳み込みによって拡散されたデルタ関数であることを意味する。いくつかの遅延成分、例えばいくつかの話者を有する信号フレームの場合、信号間に存在する各遅延にピークがあり、相互相関は以下のようになる。
rxy(τ)=rxx(τ)*Σiδ(τ-τi)
ここで、*は、畳み込みを表し、δ(τ-τ0)は、クロネッカーのデルタ関数であり、すなわちτ0で1に等しく、そうでなければゼロに等しい。これは、xとyとの間の相互相関関数が、x(n)に対する自己相関関数であるrxx(τ)との畳み込みによって拡散されたデルタ関数であることを意味する。いくつかの遅延成分、例えばいくつかの話者を有する信号フレームの場合、信号間に存在する各遅延にピークがあり、相互相関は以下のようになる。
rxy(τ)=rxx(τ)*Σiδ(τ-τi)
デルタ関数は、その後、互いに拡散され、信号フレーム内のいくつかの遅延を識別することを困難にする可能性がある。しかしながら、この拡散を有しない一般化相互相関(GCC)関数が存在する。GCCは、一般に、以下のように規定され、
ここで、ψ[k]は、周波数重み付けである。空間オーディオでは、低雑音環境での残響に対するその堅牢性のために、位相変換(PHAT)が利用されてきた。位相変換は、基本的に、各周波数係数の絶対値であり、すなわち、
である。
ここで、ψ[k]は、周波数重み付けである。空間オーディオでは、低雑音環境での残響に対するその堅牢性のために、位相変換(PHAT)が利用されてきた。位相変換は、基本的に、各周波数係数の絶対値であり、すなわち、
である。
この重み付けにより、各成分のパワーが等しくなるように相互スペクトルが白色化される。信号x[n]およびy[n]における純粋な遅延および無相関の雑音により、位相変換されたGCC(GCC-PHAT)は、単にクロネッカーのデルタ関数δ(τ-τ0)になる、すなわち、
である。
である。
図2は、純粋な遅延状況についての、チャネル間時間差、それらの相互相関、および位相変換分析による一般化相互相関を有する信号対を示す。
記録されたステレオ信号を分析する実際のシナリオでは、チャネルは遅延のみによって異なるのではなく、例えば、異なる雑音、マイクロフォンおよび録音機器の周波数応答の変動を有し、異なる残響パターンを有する可能性がある。この場合、タイムラグτは、通常、GCC-PHATの最大値を特定することによって見出される。そのような状況では、分析は、フレームごとの変動を示す可能性がさらに高い。これは、短期フーリエ分析における典型的な特性であるが、源信号がレベルおよびスペクトルコンテンツにおいて変動し得るためでもあり、これは、例えばボイス録音の場合である。このため、タイムラグの最終分析に安定化を適用することが有益である。これは、背景雑音に対して信号エネルギーが低いときにタイムラグの更新を減速または防止することによって行うことができる。
米国特許出願公開第2020/0194013号明細書では、GCC-PHATの適応ローパスフィルタを適用することによってITD選択が安定化される。ローパスフィルタリングは、連続するフレームの相互相関を適応的にフィルタリングすることによって相互相関に適用される。ローパスフィルタは、相互相関の時間領域表現にも適用される。推定された信号対雑音比(SNR)が高いクリーンな信号の場合、より高度なローパスフィルタリングが使用される。
米国特許出願公開第20200211575号明細書は、SNR推定に応じて以前に記憶されたITD値を再利用し、それによって経時的により安定したITDパラメータを達成する方法を記載している。
ステレオ録音におけるチャネル間のタイムラグは、マイクロフォン間の物理的距離に起因する。図3に示すように、ABマイクロフォン構成は、通常、マイクロフォン間の距離が約1~1.5メートルと比較的大きい。したがって、AB構成を使用する録音は、捕捉されたオーディオ源の位置に応じて、チャネル間に時間遅延を有することが多い。XYおよびMSなどのいくつかのマイクロフォン構成は、マイクロフォン膜を可能な限り互いに近接して配置しようと試み、いわゆるコインシデントマイクロフォン構成(coincident microphone configuration)である。これらのコインシデントマイクロフォン構成は、通常、チャネル間の時間遅延が非常に小さいか、またはゼロである。XY構成は、主にレベル差を介してステレオ画像を捕捉する。Mid-Sideを略したMS設定は、前方に向けられた前面チャネルと、側面チャネル内の周囲環境を捕捉するための8の字のピックアップパターンを有するマイクロフォンとを有する。Mid-Side表現は、以下の関係を使用してLeft-Right表現に変換され、
側面チャネルSは、反対の符号で左右のチャネルに追加される。より一般的には、ステレオ表現は、2つ以上のモノ信号をステレオ表現に変換することによって得ることができ、信号間の時間差(捕捉の物理的距離に関連する)は小さくなければならない。適切な捕捉技術の別の例は、4つの近接して間隔の空けられたカージオイドを有する四面体マイクロフォンの使用であり、四面体マイクロフォンからステレオ表現が形成され得る。
側面チャネルSは、反対の符号で左右のチャネルに追加される。より一般的には、ステレオ表現は、2つ以上のモノ信号をステレオ表現に変換することによって得ることができ、信号間の時間差(捕捉の物理的距離に関連する)は小さくなければならない。適切な捕捉技術の別の例は、4つの近接して間隔の空けられたカージオイドを有する四面体マイクロフォンの使用であり、四面体マイクロフォンからステレオ表現が形成され得る。
MSコインシデントマイクロフォン構成(以降「コインシデント構成」と呼び、「CC」と略す)の場合、タイムラグは、理想的には常にゼロに近いはずである。しかしながら、残響および雑音に起因して、時折タイムラグが検出される場合がある。タイムラグがステレオまたはマルチチャネルオーディオエンコーダのコンテキストでエンコードされる場合、誤って検出されたラグによって引き起こされるタイムラグにおける突然のジャンプは、再構築されたオーディオ信号内のオーディオ源の位置の不安定な印象を与える可能性がある。さらに、不正確または不安定なタイムラグは、ダウンミックス信号に悪影響を及ぼし、これらの誤差の結果として不安定なエネルギーを示す可能性がある。
たとえGCC-PHATのローパスフィルタリングが、米国特許出願公開第20200194013号明細書において提案されたように適用されたとしても、CC信号における誤ったITDの検出が生じうる。米国特許出願公開第20200211575号明細書に概説されているように、以前に記憶されたITD値を再利用する能力は、CC信号内の誤ったITD推定を防ぐものではない。実際、追加された安定化は、誤った決定をさらに長く持続させる可能性がある。
本開示の特定の態様およびそれらの実施形態は、これらの課題または他の課題に対する解決策を提供し得る。本明細書に記載の発明の概念の様々な実施形態は、例えばMSマイクロフォン構成のコインシデント構成を検出する。このような構成(例えば、MSマイクロフォン構成)が検出された場合、タイムラグ検出は、ゼロに近いタイムラグが優先されるように適合され得る。
本発明の概念のいくつかの実施形態によれば、エンコーダまたはデコーダにおいて、コインシデントマイクロフォン構成CCを識別し、チャネル間時間差ITD探索を適合させる方法が提供される。本方法は、マルチチャネルオーディオ信号の各フレームmについて、マルチチャネルオーディオ信号のチャネル対の相互相関を生成することを含む。本方法は、相互相関に基づいて、第1のITD推定値を決定することを含む。本方法は、マルチチャネルオーディオ信号がCC信号であるかどうかを決定することを含む。本方法は、マルチチャネルオーディオ信号がCC信号であると決定したことに応答して、最終ITDを取得するために、ゼロに近いITDを優先するようにITD探索をバイアスすることを含む。
類似の装置、コンピュータプログラム、およびコンピュータプログラム製品は、本発明の概念の他の実施形態で提供される。
達成され得る利点は、タイムラグまたはITD検出の安定化を可能にし、これにより、例えばMS構成からの、コインシデント構成のステレオ信号の再構築されたオーディオのエンコーディング品質および安定性が改善される。タイムラグまたはITD検出を安定化することにより、コインシデント構成の、例えばMS構成からの、ステレオ信号の再構築されたオーディオのエンコーディング品質および安定性が改善される。
構成検出は、GCC-PHATスペクトルに基づくことができ、これは、タイムラグを推定するためにすでに計算されており、ベースラインシステムと比較して非常に小さい計算オーバーヘッドを与えるのみである。
本開示のさらなる理解を提供するために含まれ、本明細書に組み込まれ本明細書の一部をなす添付の図面は、発明の概念のある特定の非限定的な実施形態を示す。
次に、本明細書で企図される実施形態のうちのいくつかが、添付の図面を参照しながらより十分に説明される。実施形態は、主題の範囲を当業者に伝達するために例として提供され、本発明の概念の実施形態の例が示されている。しかしながら、本発明概念は、多くの異なる形態で具現され得、本明細書に記載される実施形態に限定されるものとして解釈されるべきではない。それよりもむしろ、これらの実施形態は、本開示が包括的で完全なものであるように、また本発明の概念の範囲を当業者に十分に伝達するように提供されるものである。また、これらの実施形態は相互に排他的ではないことに留意されたい。ある実施形態からの構成要素は、別の実施形態において存在する/使用されると暗に仮定され得る。
実施形態をさらに詳細に説明する前に、図10は、本明細書で説明されるようにビットストリームをエンコードするために使用され得るエンコーダ110の動作環境の一例を示す。エンコーダ110は、ネットワーク1002および/または記憶域1004からオーディオを受信し、以下に説明するようにオーディオをビットストリームにエンコードし、エンコードされたオーディオをネットワーク1008を介してデコーダ120に送信する。記憶デバイス1004は、ストアまたはストリーミングオーディオサービスの記憶域リポジトリ、別個の記憶域構成要素、モバイルデバイスの構成要素などのマルチチャネルオーディオ信号の記憶域デポジトリの一部であってもよい。デコーダ120は、メディアプレーヤ1012を有するデバイス1010の一部であってもよい。デバイス1010は、モバイルデバイス、セットトップデバイス、デスクトップコンピュータなどであってもよい。
図11は、いくつかの実施形態によって実装される機能が仮想化され得る、仮想化環境1100を示すブロック図である。本コンテキストでは、仮想化することは、ハードウェアプラットフォーム、記憶デバイスおよびネットワーキングリソースを仮想化することを含み得る、装置またはデバイスの仮想バージョンを作成することを意味する。本明細書で使用される場合、仮想化は、本明細書に記載の任意のデバイスまたはその構成要素に適用することができ、機能の少なくとも一部が1つまたは複数の仮想構成要素として実装される実装に関する。本明細書で説明される機能の一部またはすべては、ネットワークノード、UE、コアネットワークノードまたはホストとして動作するハードウェアコンピューティングデバイスなどのハードウェアノードのうちの1つまたは複数によってホストされる1つまたは複数の仮想環境1100に実装された、1つまたは複数の仮想マシン(VM)によって実行される、仮想構成要素として実装され得る。さらに、仮想ノードが無線接続性(例えば、コアネットワークノードまたはホスト)を必要としない実施形態では、ノードは完全に仮想化され得る。
アプリケーション1102(代替的に、ソフトウェアインスタンス、仮想アプライアンス、ネットワーク機能、仮想ノード、仮想ネットワーク機能などと呼ばれることがある)は、本明細書に開示される実施形態のうちのいくつかの特徴、機能、および/または利益のうちのいくつかを実装するように、仮想化環境1100で稼働される。
ハードウェア1104は、処理回路、ハードウェア処理回路によって実行可能なソフトウェアおよび/もしくは命令を記憶するメモリ、ならびに/またはネットワークインターフェース、入力/出力インターフェースなどの本明細書に記載の他のハードウェアデバイスを含む。ソフトウェアは、処理回路によって実行されて、1つまたは複数の仮想化レイヤ1106(ハイパーバイザまたは仮想マシンモニタ(VMM)とも呼ばれる)をインスタンス化し、VM 1108Aおよび1108B(これらのうちの1つまたは複数は一般にVM1108と呼ばれ得る)を提供し、および/または本明細書に記載されるいくつかの実施形態に関連して説明される機能、特徴および/または利益のいずれかを行うことができる。仮想化レイヤ1106は、VM1108に対してネットワーキングハードウェアのように見える仮想動作プラットフォームを提示してもよい。
VM1108は、仮想処理、仮想メモリ、仮想ネットワーキングまたはインターフェース、および仮想記憶域を備え、対応する仮想化レイヤ1106によって稼働され得る。仮想アプライアンス1102のインスタンスの異なる実施形態が、VM1108の1つまたは複数で実装されてもよく、実装は異なる方法で行われてもよい。ハードウェアの仮想化は、いくつかの文脈において、ネットワーク機能仮想化(NFV)と呼ばれる。NFVは、多くのネットワーク機器タイプを、データ・センタおよび顧客構内機器中に位置し得る、業界標準高ボリュームサーバハードウェア、物理スイッチ、および物理記憶域上にコンソリデートするために使用され得る。
NFVのコンテキストでは、VM1108は、プログラムが物理的な非仮想マシン上で実行しているかのようにそれらのプログラムを稼働させる、物理マシンのソフトウェア実装形態であり得る。VM1108の各々、および各VMを実行するハードウェア1104の部分は、各VM専用のハードウェアおよび/または各VMによって他方のVMと共有されるハードウェアであっても、別個の仮想ネットワーク要素を形成する。さらに、NFVのコンテキストでは、仮想ネットワーク機能は、ハードウェア1104上の1つまたは複数のVM1108内で稼働する特定のネットワーク機能をハンドリングすることを担い、アプリケーション1102に対応する。
ハードウェア1104は、一般的なまたは特定の構成要素を有するスタンドアロンネットワークノードで実装され得る。ハードウェア1104は、仮想化によっていくつかの機能を実装することができる。代替的に、ハードウェア1104は、多くのハードウェアノードが協働し、中でも特に、アプリケーション1102のライフサイクル管理を監督する、管理およびオーケストレーション1110を介して管理される、(例えば、データ・センタまたはCPE内などの)ハードウェアのより大きいクラスタの一部であってもよい。いくつかの実施形態では、ハードウェア1104は、各々が1つまたは複数の送信機と、1つまたは複数のアンテナに結合され得る1つまたは複数の受信機とを含む、1つまたは複数の無線ユニットに結合され得る。無線ユニットは、1つまたは複数の適切なネットワークインターフェースを介してハードウェアノードと直接通信してもよく、無線アクセスノードまたは基地局など、無線能力を有する仮想ノードを提供するために、仮想構成要素と組み合わせて使用されてもよい。いくつかの実施形態では、一部のシグナリングは、ハードウェアノードと無線ユニットとの間の通信に代替的に使用され得る制御システム1112を使用することによって提供され得る。
図12は、本発明の概念のいくつかの実施形態によるオーディオフレームをエンコードするように設定されたエンコーダ1000の要素を示すブロック図である。図示されるように、エンコーダ1000は、他のデバイス/エンティティ/機能などとの通信を提供するように設定されたネットワークインターフェース回路1205(ネットワークインターフェースとも呼ばれる)を含み得る。エンコーダ1000はまた、ネットワークインターフェース回路1205に結合されたプロセッサ回路1201(プロセッサとも呼ばれる)と、プロセッサ回路に結合されたメモリ回路1203(メモリとも呼ばれる)とを含み得る。メモリ回路1203は、プロセッサ回路1201によって実行されたとき、プロセッサ回路に、本明細書に開示される実施形態による動作を行わせるコンピュータ可読プログラムコードを含み得る。
他の実施形態によれば、プロセッサ回路1201は、別個のメモリ回路が必要とされないように、メモリを含むように規定され得る。本明細書で論じられるように、エンコーダ1000の動作は、プロセッサ1201および/またはネットワークインターフェース1205によって実施され得る。例えば、プロセッサ1201は、ネットワークインターフェース1205を制御して、デコーダ1006に通信を送信することができ、および/またはネットワークインターフェース1205を介して、他のエンコーダノード、デポジトリサーバなどの1つまたは複数の他のネットワークノード/エンティティ/サーバから通信を受信することができる。さらに、モジュールは、メモリ1203に記憶されてもよく、これらのモジュールは、モジュールの命令がプロセッサ1201によって実行されたとき、プロセッサ1201がそれぞれの動作を行うように、命令を提供してもよい。
図13は、本発明の概念のいくつかの実施形態に従ってオーディオフレームをデコードするように設定されたデコーダ1006の要素を示すブロック図である。図示されるように、デコーダ1006は、他のデバイス/エンティティ/機能などとの通信を提供するように設定されたネットワークインターフェース回路1305(ネットワークインターフェースとも呼ばれる)を含み得る。デコーダ1006はまた、ネットワークインターフェース回路1305に結合されたプロセッサ回路1301(プロセッサとも呼ばれる)と、プロセッサ回路に結合されたメモリ回路1303(メモリとも呼ばれる)とを含み得る。メモリ回路1303は、プロセッサ回路1301によって実行されたとき、処理回路に、本明細書に開示される実施形態による動作を行わせる、コンピュータ可読プログラムコードを含み得る。
他の実施形態によれば、プロセッサ回路1301は、別個のメモリ回路が必要とされないように、メモリを含むように規定され得る。本明細書で論じられるように、デコーダ1006の動作は、プロセッサ1301および/またはネットワークインターフェース1305によって行われ得る。例えば、プロセッサ回路1301は、エンコーダ1000からの通信を受信するようにネットワークインターフェース回路1305を制御することができる。さらに、モジュールがメモリ1303に記憶されてもよく、これらのモジュールは、モジュールの命令がプロセッサ回路1301によって実行されたとき、プロセッサ回路1301がそれぞれの動作を行うように、命令を提供してもよい。
2つ以上のオーディオチャネルからなるオーディオ入力の空間表現パラメータを取得するように指定されたシステムを考える。システムは、図1に概説されているようなステレオエンコーディングおよびデコーディングシステムまたはエンコーダ/デコーダの一部であってもよい。オーディオ入力は、時間フレームmにセグメント化される。マルチチャネル手法の場合、空間パラメータは、通常、チャネル対について取得され、ステレオ設定の場合、この対は、単に左右のチャネルLおよびRである。エンコーダでは、この方法は、ダウンミックス手順を補助し、空間画像を表すために空間パラメータをエンコードするための空間分析の一部であり得る。デコーダにおいて、本方法は、受信されるチャネルの数がデコーダユニットによってハンドリングされ得るよりも大きい場合、例えばモノオーディオ再生能力を有するステレオデコーダの場合、ダウンミックス手順を補完することができる。以降、単一チャネル対l(n、m)およびr(n、m)について空間分析器112によって導出された空間パラメータのセットの一部としてチャネル間時間差(ITD)パラメータに焦点を合わせ、ここで、nはサンプル番号を表し、mはフレーム番号を表す。以降、インデックスmは、フレームmについて計算された値を示すために使用される。
図6を参照すると、システムは、コインシデント構成から来るステレオ信号に対して起動される指定された方法を有する。空間表現パラメータは、いくつかの実施形態では、ブロック610における入力チャネルの位相変換による一般化相互相関(GCC-PHAT)分析を使用して導出され得る、ITDパラメータを含む。分析は、米国特許出願公開第20200194013号明細書で提案されているように、時間フレーム間の相互相関の平滑化を含み得る。これらの実施形態におけるフレームmのITD0(m)パラメータの第1の推定値は、ブロック620におけるGCC-PHATの絶対最大値である。第1の推定値は、以下に従って決定することができ、
ここで、ITD0(m)は、ITDの第1の推定値であり、τは、タイムラグパラメータであり、
は、GCC-PHATである。
ここで、ITD0(m)は、ITDの第1の推定値であり、τは、タイムラグパラメータであり、
は、GCC-PHATである。
図4に示すように、MS信号(すなわち、特定の種類のCC)のGCC-PHATは、反対称パターンを示し得ることが観察されている。この構造は、MS設定におけるマイクロフォン間の距離が小さいことに起因する時間差、およびS信号が反対の符号で左右のチャネルに追加されるという事実から来る。このパターンは、ブロック630においてCC検出変数を計算する際に、フレームmについてコインシデント構成検出変数D(m)を形成するときに利用され得る。
いくつかのステレオ表現のコインシデント構成の肯定的な指示を与えることが分かっている代替の検出変数は、
であり、
ここで、Rは、探索範囲であり、Wは、対称性-ITD0(m)のタイムラグにおいて一致するITDの第1の推定値付近の領域を規定し、ITD0 ’(m)は、探索範囲[-R,R]に限定されたITD候補であり、例えば、以下のように決定される。
MS信号などのコインシデント構成の場合、対称性はτ=0に近く見え、適切な探索範囲はR=10またはR∈[5,20]の範囲内であり得る。一致する領域を規定する適切な値は、W=1または[0,5]の範囲内である。本明細書に記載の実施形態は、オーディオ信号の32kHzサンプリングを想定しており、パラメータの適切な範囲は、サンプリング周波数に依存し得る。
であり、
ここで、Rは、探索範囲であり、Wは、対称性-ITD0(m)のタイムラグにおいて一致するITDの第1の推定値付近の領域を規定し、ITD0 ’(m)は、探索範囲[-R,R]に限定されたITD候補であり、例えば、以下のように決定される。
MS信号などのコインシデント構成の場合、対称性はτ=0に近く見え、適切な探索範囲はR=10またはR∈[5,20]の範囲内であり得る。一致する領域を規定する適切な値は、W=1または[0,5]の範囲内である。本明細書に記載の実施形態は、オーディオ信号の32kHzサンプリングを想定しており、パラメータの適切な範囲は、サンプリング周波数に依存し得る。
検出器を安定化するために、決定変数、
DLP(m)=αD(m)+(1-α)DLP(m-1)
をローパスフィルタリングすることが望ましい場合があり、
ここで、αは、ローパスフィルタ係数である。αの適切な値は、α=0.1またはα∈(0,0.2)の範囲内であり得る。D(m)の形成に絶対値が含まれない場合、ローパスフィルタは絶対値を含んでもよい。
DLP(m)=α|D(m)|+(1-α)DLP(m-1)
検出器変数は、源がアクティブであるときにのみ有効な値を与えるので、決定変数の更新をこの状況に制限することが有益である。ローパスフィルタリングされた決定変数式は、次のようになり、
ここで、A(m)は、フレームmがアクティブである場合、すなわち音声などのアクティブ源信号を含むと分類される場合にTRUEであり、そうでない場合にFALSEである。A(m)は、例えば、ボイスアクティビティ検出器(VAD)の出力、または閾値と比較したGCC-PHATの絶対最大値とすることができ、
は、源がアクティブであることを示す。ここで、Cthrは、適切な値がCthr=0.5またはCthr∈[0.3,0.9]の範囲内であり得る定数である。この挙動を実現する別の方法は、アクティビティ指標A(m)を使用してローパスフィルタ係数αを適合させることであり、
DLP(m)=α(m)D(m)+(1-α(m))DLP(m-1)
ここで、フィルタ係数に適した値は、αhigh=0.1またはα∈[αlow,0.5]の範囲内、およびαlow=0.01またはαlow∈[0,αhigh]の範囲内であり得る。アクティビティ指標が偽、A(m)=FALSEである場合、検出器変数は信頼できない可能性があり、検出器変数を所定の値に向かって減衰させることが望ましい場合があり、
ここで、D0は、D0=0またはD0=DTHRなどの所定の値であり、DTHRは、後述する決定閾値である。
DLP(m)=αD(m)+(1-α)DLP(m-1)
をローパスフィルタリングすることが望ましい場合があり、
ここで、αは、ローパスフィルタ係数である。αの適切な値は、α=0.1またはα∈(0,0.2)の範囲内であり得る。D(m)の形成に絶対値が含まれない場合、ローパスフィルタは絶対値を含んでもよい。
DLP(m)=α|D(m)|+(1-α)DLP(m-1)
検出器変数は、源がアクティブであるときにのみ有効な値を与えるので、決定変数の更新をこの状況に制限することが有益である。ローパスフィルタリングされた決定変数式は、次のようになり、
ここで、A(m)は、フレームmがアクティブである場合、すなわち音声などのアクティブ源信号を含むと分類される場合にTRUEであり、そうでない場合にFALSEである。A(m)は、例えば、ボイスアクティビティ検出器(VAD)の出力、または閾値と比較したGCC-PHATの絶対最大値とすることができ、
は、源がアクティブであることを示す。ここで、Cthrは、適切な値がCthr=0.5またはCthr∈[0.3,0.9]の範囲内であり得る定数である。この挙動を実現する別の方法は、アクティビティ指標A(m)を使用してローパスフィルタ係数αを適合させることであり、
DLP(m)=α(m)D(m)+(1-α(m))DLP(m-1)
ここで、フィルタ係数に適した値は、αhigh=0.1またはα∈[αlow,0.5]の範囲内、およびαlow=0.01またはαlow∈[0,αhigh]の範囲内であり得る。アクティビティ指標が偽、A(m)=FALSEである場合、検出器変数は信頼できない可能性があり、検出器変数を所定の値に向かって減衰させることが望ましい場合があり、
ここで、D0は、D0=0またはD0=DTHRなどの所定の値であり、DTHRは、後述する決定閾値である。
信号がCC信号であるかどうかを決定するために、検出器変数は、ブロック640において閾値と比較され得る。
絶対値がD(m)、結果としてDLP(m)を形成する際に含まれない場合、閾値との比較は絶対値を含み得る。
絶対値がD(m)、結果としてDLP(m)を形成する際に含まれない場合、閾値との比較は絶対値を含み得る。
信号がCC信号であることを示すことは、信号がコインシデントマイクロフォン構成から来ていることを意味することに留意されたい。CC信号が検出された場合、ITD探索は、ゼロに近いITDが優先されるように影響され得る。例えば、米国特許出願公開第20200194013号明細書に記載されているように、ITDの安定化が適用され、ブロック650において安定化されたITD、ITDstab(m)が得られる。CC信号が検出された場合、本発明の概念のいくつかの実施形態では、ブロック660において、最小の絶対値を有するITDが選択される。
ここで、ITD1(m)は、最終ITDであり、ITD0(m)は、第1のITD推定値であり、ITDstab(m)は、安定化されたITDである。安定化手順は、第1のITD推定値と同じである安定化されたITDをもたらす可能性があり、これは、CC信号が検出されない場合、すなわちCC検出=FALSEの場合でも、ITD1(m)がITD0(m)と同じであり得ることを意味することに留意されたい。別の実施形態では、より小さい絶対値への切り替えは、絶対値がゼロから[-R1,R1]の範囲内にある場合にのみ行われる。
32kHzのサンプリング周波数の場合、R1の適切な値は、R1=10またはR1∈[5,20]の範囲内である。
ここで、ITD1(m)は、最終ITDであり、ITD0(m)は、第1のITD推定値であり、ITDstab(m)は、安定化されたITDである。安定化手順は、第1のITD推定値と同じである安定化されたITDをもたらす可能性があり、これは、CC信号が検出されない場合、すなわちCC検出=FALSEの場合でも、ITD1(m)がITD0(m)と同じであり得ることを意味することに留意されたい。別の実施形態では、より小さい絶対値への切り替えは、絶対値がゼロから[-R1,R1]の範囲内にある場合にのみ行われる。
32kHzのサンプリング周波数の場合、R1の適切な値は、R1=10またはR1∈[5,20]の範囲内である。
さらなる安定化は、例えば、米国特許出願公開第20200211575号明細書に記載されているような以前のITD値を考慮して、適用することができる。ここでも、CC信号が検出された場合、ブロック660において、絶対値がゼロに近い場合に安定化の結果が受け入れられる。ここでも、安定化されたITDの代わりに以前に取得されたITDを保持する決定はまた、以前に取得されたITDがゼロから、例えば[-R1,R1]の範囲内にあるかどうかに依存し得る。
ゼロに近いITDを優先する別の方法は、ゼロに近い値により大きい重みを与えることによって安定化660を補完するために、GCC-PHAT
の重み付けを適用することである。重み付けw(τ)は、
w(τ)=max(0,1-|τ(1+C)/ITDMAX|)
によって得ることができる。
の重み付けを適用することである。重み付けw(τ)は、
w(τ)=max(0,1-|τ(1+C)/ITDMAX|)
によって得ることができる。
この重み付け関数は、32kHzのサンプリング周波数についてのそれらの定数に適した値であり得る、C=5およびITDMAX=200について図5に示されるような、ゼロ付近の相関値のくさびを効果的にマスクアウトする。この場合、ITD推定値は、重み付けされたGCC-PHATの絶対最大値である。
CC検出=FALSEの場合、既に取得されているITD0(m)が使用され得る。
図7を参照すると、上述の実施形態は、入力信号LおよびRのGCC-PHAT分析を生成することができる相互相関分析器710によって実装され得る。第1のITD推定値がITD分析器720によって生成される。CC検出器730は、少なくとも相互相関分析器の出力、および任意選択で第1のITD推定値を使用して、CC信号などの低ITD信号を検出する。CC検出器は、CC信号が存在するかどうかを決定するために閾値と比較されるCC検出器変数を形成する。CC信号が検出された場合、それは、ゼロに近いITD値を優先するようにITD安定化器740に指示する。
図8は、CC検出が前のフレームの分析に基づく実施形態を示す。システムの始動中に、ブロック810において、MS検出器変数メモリおよびMS検出器フラグが初期化される。各フレームmについて、ブロック820から850までが行われる。
識別された最大値は、上述のブロック660で行われる安定化と同様に、任意選択のブロック840でさらに安定化され得る。ブロック630において上述した導出と同様に、ブロック850において、CC検出変数が導出される。その後、この値は、次のフレームで使用されるように記憶される。
絶対値がD(m)、結果としてDLP(m)を形成する際に含まれない場合、閾値との比較は絶対値を含み得る。
絶対値がD(m)、結果としてDLP(m)を形成する際に含まれない場合、閾値との比較は絶対値を含み得る。
この場合、決定変数は、ブロック840において行われ得る安定化方法を含む瞬間推定値ITD0(m)または最終ITD値ITD(m)を使用して形成され得る。
図9を参照すると、図8に記載された実施形態は、入力信号LおよびRのGCC-PHAT分析を生成することができる相互相関分析器910によって実装され得る。重み付け器および絶対最大値ファインダ920は、相互相関に重み付けし、重み付けされた相互相関の絶対最大値ITDを決定する。任意選択のITD安定化器930は、最終ITD1(m)を取得するために、識別された最大値ITDを安定化させる。MS検出器変数およびCC検出器フラグ更新器940は、CC検出変数を導出し、CC検出変数を、次のフレームで使用するために、CC検出器変数を記憶するためのCC検出器変数およびCC検出器フラグメモリ950に提供する。
以下の説明では、エンコーダは、ステレオエンコーダ110、エンコーダ1000、仮想化ハードウェア1104または仮想マシン1108A、1108Bのいずれかであり得るが、エンコーダ1000は、エンコーダの動作の機能を説明するために使用されるものとする。同様に、デコーダは、ステレオデコーダ120、デコーダ1006、ハードウェア1104または仮想マシン1108A、1108Bのいずれかであり得るが、デコーダ1006は、デコーダの動作の機能を説明するために使用されるものとする。次に、本発明の概念のいくつかの実施形態による図14のフローチャートを参照して、エンコーダ1000(図12のブロック図の構造を使用して実装される)またはデコーダ1006(図13のブロック図の構造を使用して実装される)の動作を説明する。例えば、モジュールが図12のメモリ1203または図13のメモリ1303に記憶されてもよく、これらのモジュールは、モジュールの命令がそれぞれの処理回路1201/1301によって実行されたとき、処理回路1201/1301がフローチャートのそれぞれの動作を行うように、命令を提供してもよい。
図14は、エンコーダまたはデコーダにおいて、コインシデントマイクロフォン構成CCを識別し、チャネル間時間差ITD探索を適合させる方法を示す。デコーダの場合、この方法が主に使用されるのは、デコーダがステレオ信号を受信するが、オーディオデバイスがモノ再生能力のみを有するときである。
図14を参照すると、ブロック1401から1409までの動作は、マルチチャネルオーディオ信号の各フレームmに対して行われる。ブロック1401において、処理回路1201/1301は、マルチチャネルオーディオ信号のチャネル対の相互相関を生成する。相互相関生成は、図6および図8で上述したように生成され得る。本発明の概念のいくつかの実施形態では、相互相関は、位相変換による一般化相互相関(GCC-PHAT)である。
ブロック1403において、処理回路1201/1301は、相互相関に基づいて第1のITD推定値を決定する。処理回路1201/1301は、第1のITD推定値を相互相関の絶対最大値として決定することによって、第1のITD推定値を決定し得る。いくつかの実施形態では、処理回路1201/1301は、以下に従って相互相関の絶対最大値を決定し、
ここで、ITD0(m)は、第1のITD推定値であり、
は、相互相関であり、τは、タイムラグパラメータである。
ここで、ITD0(m)は、第1のITD推定値であり、
は、相互相関であり、τは、タイムラグパラメータである。
ブロック1405において、処理回路1201/1301は、マルチチャネルオーディオ信号がCC信号であるかどうかを決定する。
本発明の概念のいくつかの実施形態では、処理回路1201/1301は、CC検出変数に基づいて、マルチチャネルオーディオ信号がCC信号であるかどうかを決定する。図15は、CC検出変数に基づいてマルチチャネルオーディオ信号がCC信号であるかどうかを決定する実施形態を示す。図15を参照すると、ブロック1501において、処理回路1201/1301は、CC検出変数を計算する。CC検出変数の計算については上述した。
ブロック1503において、処理回路1201/1301は、CC検出変数が閾値を上回っているかどうかを決定する。これらの実施形態のいくつかでは、処理回路1201/1301は、CC検出変数の絶対値が閾値を上回っているかどうかを決定することによって、CC検出変数が閾値を上回っているかどうかを決定する。
ブロック1505において、処理回路1201/1301は、CC検出変数が閾値を上回っていると決定したことに応答して、マルチチャネルオーディオ信号がCC信号であると決定する。ブロック1507において、処理回路1201/1301は、CC検出変数が閾値を上回っていないと決定したことに応答して、マルチチャネルオーディオ信号がCC信号ではないと決定する。
他の実施形態では、処理回路1201/1301は、マルチチャネルオーディオ信号のチャネル対における相互相関の反対称パターンおよび対称パターンのうちの一方を検出することによって、マルチチャネルオーディオ信号がCC信号であるかどうかを決定する。いくつかの実施形態では、構成要素内の反対称パターンを検出することは、以下に従って反対称パターンを検出することを含み、
ここで、D(m)は、CC検出変数であり、
は、GCC-PHATであり、ITD0(m)は、第1のITD推定値である。
ここで、D(m)は、CC検出変数であり、
は、GCC-PHATであり、ITD0(m)は、第1のITD推定値である。
本発明の概念の他の実施形態では、処理回路1201/1301は、以下のうちの少なくとも1つに従って反対称パターンを検出することによって、相互相関内の反対称パターンおよび対称パターンのうちの一方を検出し、
ここで、D(m)は、CC検出変数であり、
は、GCC-PHATであり、Rは、探索範囲であり、Wは、一致するITDの第1の推定値付近の領域を規定し、ITD0 ’(m)は、探索範囲[-R,R]に限定されたITD候補である。
ここで、D(m)は、CC検出変数であり、
は、GCC-PHATであり、Rは、探索範囲であり、Wは、一致するITDの第1の推定値付近の領域を規定し、ITD0 ’(m)は、探索範囲[-R,R]に限定されたITD候補である。
図14に戻ると、ブロック1407において、処理回路1201/1301は、マルチチャネルオーディオ信号がCC信号であると決定したことに応答して、最終ITDを取得するために、ゼロに近いITDを優先するようにITD探索をバイアスする。
いくつかの実施形態では、処理回路1201/1301は、最小の絶対値を有するITDを選択することによって、最終ITDを取得するために、ゼロに近いITDを優先するようにITD探索をバイアスする。これらの実施形態では、処理回路1201/1301が最小の絶対値を有するITDを選択することは、以下に従って最終ITDとしてITDを選択することを含み、
ここで、ITD1(m)は、最終ITDであり、ITD0(m)は、第1のITD推定値であり、ITDstab(m)は、安定化されたITDである。
ここで、ITD1(m)は、最終ITDであり、ITD0(m)は、第1のITD推定値であり、ITDstab(m)は、安定化されたITDである。
本発明の概念の他の実施形態では、処理回路1201/1301は、ゼロ付近の限定された範囲内のITD候補から最終ITDを選択することによって、ゼロに近いITDを優先するようにITD探索をバイアスする。
本発明の概念のさらなる実施形態では、処理回路1201/1301は、ゼロに近い相互相関の値により大きい重みを割り当てるために相互相関の重み付けを適用することによって、ゼロに近いITDを優先するようにITD探索をバイアスする。
図14に戻ると、ブロック1409において、処理回路1201/1301は、マルチチャネルオーディオ信号がCC信号ではないと決定したことに応答して、ゼロに近いITDを優先することなく最終ITDを取得する。
本発明の概念のいくつかの他の実施形態では、処理回路1201/1301は、最終ITDを取得するために選択されたITD候補に安定化を適用する。選択されたITD候補は、生成された少なくとも1つのITD候補から選択される。
図14のフローチャートからの様々な動作は、エンコーダ/デコーダおよび関係する方法のいくつかの実施形態に関して、任意選択であり得る。(以下に記載される)例示的な実施形態1の方法に関して、例えば、図14のブロック1409の動作は、任意選択であり得る。
本明細書に記載のコンピューティングデバイス(例えば、UE、ネットワークノード、ホスト)は、ハードウェア構成要素の示された組合せを含み得るが、他の実施形態は、構成要素の異なる組合せを有するコンピューティングデバイスを含み得る。これらのコンピューティングデバイスは、本明細書に開示されるタスク、特徴、機能および方法を行うのに必要な、ハードウェアおよび/またはソフトウェアの任意の適切な組合せを含み得ることが理解されるべきである。本明細書で説明される決定、計算、取得または同様の動作は、処理回路によって行われてもよく、処理回路は、例えば、取得された情報を他の情報に変換することによって、取得された情報または変換された情報をネットワークノードに記憶された情報と比較することによって、ならびに/あるいは、取得された情報または変換された情報に基づいて、および前記処理が決定を行ったことの結果として、1つまたは複数の動作を行うことによって、情報を処理し得る。さらに、構成要素は、より大きなボックス内に位置する単一のボックスとして、または複数のボックス内に入れ子にされた単一のボックスとして示されているが、実際には、コンピューティングデバイスは、単一の図示された構成要素を組成する複数の異なる物理的構成要素を含むことができ、機能は別個の構成要素間で分割され得る。例えば、通信インターフェースは、本明細書に記載の構成要素のいずれかを含むように設定されてもよく、および/または構成要素の機能は、処理回路と通信インターフェースとの間で分割されてもよい。別の例では、そのような構成要素のうちのいずれかの非計算集約的機能は、ソフトウェアまたはファームウェアに実装されてもよく、計算集約的機能はハードウェアに実装されてもよい。
特定の実施形態では、本明細書に記載の機能の一部またはすべては、メモリに記憶された命令を実行する処理回路によって提供されてもよく、特定の実施形態では、非一時的コンピュータ可読記憶媒体の形態のコンピュータプログラム製品であってもよい。代替実施形態では、機能の一部またはすべては、ハードワイヤード様式などで、別個のまたは個別のデバイス可読記憶媒体に記憶された命令を実行することなく、処理回路によって提供されてもよい。これら特定の実施形態のいずれにおいても、非一時的コンピュータ可読記憶媒体に記憶された命令を実行するか否かにかかわらず、処理回路は、上記の機能を行うように設定することができる。そのような機能によって提供される利益は、処理回路単独またはコンピューティングデバイスの他の構成要素に限定されず、コンピューティングデバイス全体によって、および/またはエンドユーザおよび無線ネットワーク一般によって享受される。
例示的な実施形態が以下で説明される。
実施形態1.エンコーダ(110,1000)またはデコーダ(120,1006)において、コインシデントマイクロフォン構成CCを識別し、チャネル間時間差ITD探索を適合させる方法であって、
マルチチャネルオーディオ信号の各フレームmについて、
マルチチャネルオーディオ信号のチャネル対の相互相関を生成すること(1401)と、
相互相関に基づいて、第1のITD推定値を決定すること(1403)と、
マルチチャネルオーディオ信号がCC信号であるかどうかを決定すること(1405)と、
マルチチャネルオーディオ信号がCC信号であると決定したことに応答して、最終ITDを取得するために、ゼロに近いITDを優先するようにITD探索をバイアスすること(1407)と
を含む、方法。
実施形態2.マルチチャネルオーディオ信号がCC信号ではないと決定したことに応答して、ゼロに近いITDを優先することなく最終ITDを取得すること(1409)
をさらに含む、実施形態1に記載の方法。
実施形態3.マルチチャネルオーディオ信号がCC信号ではない場合に最終ITDを取得することが、最終ITDを第1のITD推定値に設定することによって最終ITDを取得することを含む、実施形態2に記載の方法。
実施形態4.最終ITDを取得するために選択されたITD候補に安定化を適用することをさらに含む、実施形態1または2に記載の方法。
実施形態5.安定化を適用することが、少なくとも1つのITD候補を生成することをさらに含む、実施形態4に記載の方法。
実施形態6.最終ITDを取得するためにゼロに近いITDを優先するようにITD探索をバイアスすることが、最小の絶対値を有するITDを選択することによって最終ITDを取得することを含む、実施形態1~5のいずれか1つに記載の方法。
実施形態7.最小の絶対値を有するITDを選択することが、以下に従って最終ITDとしてITDを選択することを含み、
ここで、ITD1(m)は、最終ITDであり、ITD0(m)は、第1のITD推定値であり、ITDstab(m)は、安定化されたITDである、
実施形態6に記載の方法。
実施形態8.ゼロに近いITDを優先するようにITD探索をバイアスすることが、ゼロ付近の限定された範囲内のITD候補から最終ITDを選択することを含む、実施形態1~7のいずれか1つに記載の方法。
実施形態9.最終ITDを取得するためにゼロに近いITDを優先するようにITD探索をバイアスすることが、ゼロに近い相互相関の値により大きい重みを割り当てるために相互相関の重み付けを適用することを含む、実施形態1~3のいずれか1つに記載の方法。
実施形態10.第1のITD推定値を決定することが、第1のITD推定値を相互相関の絶対最大値として決定することを含む、実施形態1~9のいずれか1つに記載の方法。
実施形態11.第1のITD推定値を相互相関の絶対最大値として決定することが、以下に従って絶対最大値を決定することを含み、
ここで、ITD0(m)は、第1のITD推定値であり、
は、相互相関であり、τは、タイムラグパラメータである、
実施形態10に記載の方法。
実施形態12.相互相関が位相変換による一般化相互相関(GCC-PHAT)である、実施形態1~11のいずれか1つにおける方法。
実施形態13.マルチチャネルオーディオ信号がCC信号であるかどうかを決定することが、
マルチチャネルオーディオ信号のチャネル対における相互相関の反対称パターンおよび対称パターンのうちの一方を検出すること
を含む、実施形態1~12のいずれか1つに記載の方法。
実施形態14.構成要素内の反対称パターンを検出することが、以下に従って反対称パターンを検出することを含み、
ここで、D(m)は、CC検出変数であり、
は、GCC-PHATであり、ITD0(m)は、第1のITD推定値である、
実施形態13に記載の方法。
実施形態15.相互相関内の反対称パターンおよび対称パターンのうちの一方を検出することが、以下のうちの少なくとも1つに従って反対称パターンを検出することを含み、
ここで、D(m)は、CC検出変数であり、
は、GCC-PHATであり、Rは、探索範囲であり、Wは、一致するITDの第1の推定値付近の領域を規定し、ITD0 ’(m)は、探索範囲[-R,R]に限定されたITD候補である、
実施形態13に記載の方法。
実施形態16.マルチチャネルオーディオ信号がCC信号であるかどうかを決定することが、
CC検出変数を計算すること(1501)と、
CC検出変数が閾値を上回っているかどうかを決定すること(1503)と、
CC検出変数が閾値を上回っていると決定したことに応答して、マルチチャネルオーディオ信号がCC信号であると決定すること(1505)と
を含む、実施形態1~12のいずれか1つに記載の方法。
実施形態17.CC検出変数が閾値を上回っているかどうかを決定することが、CC検出変数の絶対値が閾値を上回っているかどうかを決定することを含む、実施形態16に記載の方法。
実施形態18.CC検出を安定化するために、CC検出変数をローパスフィルタリングでフィルタリングすることをさらに含む、実施形態14~17のいずれか1つに記載の方法。
実施形態19.CC検出変数に対するローパスフィルタリングが、少なくともアクティビティ検出器の出力A(m)に応じて適応的である、実施形態18に記載の方法。
実施形態20.CC検出変数をローパスフィルタリングでフィルタリングすることが、以下に従って適応ローパスフィルタリングでフィルタリングすることを含み、
DLP(m)=α(m)D(m)+(1-α(m))DLP(m-1)
ここで、A(m)は、アクティビティ検出器の出力であり、αhighおよびαlowは、フィルタ係数である、
実施形態19に記載の方法。
実施形態21.装置(110,120,1000,1006)であって、
処理回路(1201,1301)と、
処理回路と結合されたメモリ(1205,1305)であって、処理回路によって実行されたときに、装置に、
マルチチャネルオーディオ信号の各フレームmについて、
マルチチャネルオーディオ信号のチャネル対の相互相関を生成させる(1401)、
相互相関に基づいて、第1のITD推定値を決定させる(1403)、
マルチチャネルオーディオ信号がCC信号であるかどうかを決定させる(1405)、および
マルチチャネルオーディオ信号がCC信号であると決定したことに応答して、最終ITDを取得するために、ゼロに近いITDを優先するようにITD探索をバイアスさせる(1407)
命令を含む、メモリと
を備える、装置(110,120,1000,1006)。
実施形態22.マルチチャネルオーディオ信号がCC信号ではないと決定したことに応答して、ゼロに近いITDを優先することなく最終ITDを取得すること(1409)
をさらに含む、実施形態21に記載の装置(110,120,1000,1006)。
実施形態23.マルチチャネルオーディオ信号がCC信号ではない場合に最終ITDを取得することが、最終ITDを第1のITD推定値に設定することによって最終ITDを取得することを含む、実施形態22に記載の装置(110,120,1000,1006)。
実施形態24.メモリが、処理回路によって実行されたときに、装置に、最終ITDを取得するために選択されたITD候補に安定化を適用させるさらなる命令を含む、実施形態21または22に記載の装置(110,120,1000,1006)。
実施形態25.安定化を適用することが、少なくとも1つのITD候補を生成することをさらに含む、実施形態24に記載の装置(110,120,1000,1006)。
実施形態26.最終ITDを取得するためにゼロに近いITDを優先するようにITD探索をバイアスすることが、最小の絶対値を有するITDを選択することによって最終ITDを取得することを含む、実施形態21~25のいずれか1つに記載の装置(110,120,1000,1006)。
実施形態27.最小の絶対値を有するITDを選択することが、以下に従って最終ITDとしてITDを選択することを含み、
ここで、ITD1(m)は、最終ITDであり、ITD0(m)は、第1のITD推定値であり、ITDstab(m)は、安定化されたITDである、
実施形態26に記載の装置(110,120,1000,1006)。
実施形態28.ゼロに近いITDを優先するようにITD探索をバイアスすることが、ゼロ付近の限定された範囲内のITD候補から最終ITDを選択することを含む、実施形態21~27のいずれか1つに記載の装置(110,120,1000,1006)。
実施形態29.最終ITDを取得するためにゼロに近いITDを優先するようにITD探索をバイアスすることが、ゼロに近い相互相関の値により大きい重みを割り当てるために相互相関の重み付けを適用することを含む、実施形態21~27のいずれか1つに記載の装置(110,120,1000,1006)。
実施形態30.第1のITD推定値を決定することが、第1のITD推定値を相互相関の絶対最大値として決定することを含む、実施形態21~29のいずれか1つに記載の装置(110,120,1000,1006)。
実施形態31.第1のITD推定値を相互相関の絶対最大値として決定することが、以下に従って絶対最大値を決定することを含み、
ここで、ITD0(m)は、第1のITD推定値であり、
は、相互相関であり、τは、タイムラグパラメータである、
実施形態30に記載の装置(110,120,1000,1006)。
実施形態32.相互相関が位相変換による一般化相互相関(GCC-PHAT)である、実施形態21~31のいずれか1つに記載の装置(110,120,1000,1006)。
実施形態33.マルチチャネルオーディオ信号がCC信号であるかどうかを決定することが、
マルチチャネルオーディオ信号のチャネル対における相互相関の反対称パターンおよび対称パターンのうちの一方を検出すること
を含む、実施形態21~31のいずれか1つに記載の装置(110,120,1000,1006)。
実施形態34.構成要素内の反対称パターンを検出することが、以下に従って反対称パターンを検出することを含み、
ここで、D(m)は、CC検出変数であり、
は、GCC-PHATであり、ITD0(m)は、第1のITD推定値である、
実施形態33に記載の装置(110,120,1000,1006)。+
実施形態35.相互相関内の反対称パターンおよび対称パターンのうちの一方を検出することが、以下のうちの少なくとも1つに従って反対称パターンを検出することを含み、
ここで、D(m)は、CC検出変数であり、
は、GCC-PHATであり、Rは、探索範囲であり、Wは、一致するITDの第1の推定値付近の領域を規定し、ITD0 ’(m)は、探索範囲[-R,R]に限定されたITD候補である、
実施形態35に記載の装置(110,120,1000,1006)。
実施形態36.マルチチャネルオーディオ信号がCC信号であるかどうかを決定することが、
CC検出変数を計算すること(1501)と、
CC検出変数が閾値を上回っているかどうかを決定すること(1503)と、
CC検出変数が閾値を上回っていると決定したことに応答して、マルチチャネルオーディオ信号がCC信号であると決定すること(1505)と
を含む、実施形態21~32のいずれか1つに記載の装置(110,120,1000,1006)。
実施形態37.CC検出変数が閾値を上回っているかどうかを決定することが、CC検出変数の絶対値が閾値を上回っているかどうかを決定することを含む、実施形態33に記載の装置(110,120,1000,1006)。
実施形態38.メモリが、処理回路によって実行されたときに、装置に、CC検出を安定化するためにCC検出変数をローパスフィルタリングでフィルタリングさせるさらなる命令を含む、実施形態34~37のいずれか1つに記載の装置(110,120,1000,1006)。
実施形態39.CC検出変数に対するローパスフィルタリングが、少なくともアクティビティ検出器の出力A(m)に応じて適応的である、実施形態38に記載の装置(110,120,1000,1006)。
実施形態40.CC検出変数をローパスフィルタリングでフィルタリングすることが、以下に従って適応ローパスフィルタリングでフィルタリングすることを含み、
DLP(m)=α(m)D(m)+(1-α(m))DLP(m-1)
ここで、A(m)は、アクティビティ検出器の出力であり、αhighおよびαlowは、フィルタ係数である、
実施形態39に記載の装置(110,120,1000,1006)。
実施形態41.マルチチャネルオーディオ信号の各フレームmについて、
マルチチャネルオーディオ信号のチャネル対の相互相関を生成する(1401)、
相互相関に基づいて、第1のITD推定値を決定する(1403)、
マルチチャネルオーディオ信号がCC信号であるかどうかを決定する(1405)、および
マルチチャネルオーディオ信号がCC信号であると決定したことに応答して、最終ITDを取得するために、ゼロに近いITDを優先するようにITD探索をバイアスする(1407)
ように適合された、装置(110,120,1000,1006)。
実施形態42.実施形態2~20に従って行うように適合された、実施形態41に記載の装置(110,120,1000,1006)。
実施形態43.装置(110,120,1000,1006)の処理回路(1201/1301)によって実行されるプログラムコードを含むコンピュータプログラムであって、プログラムコードの実行によって、前記装置(110,120,1000,1006)に、
マルチチャネルオーディオ信号の各フレームmについて、
マルチチャネルオーディオ信号のチャネル対の相互相関を生成させる(1401)、
相互相関に基づいて、第1のITD推定値を決定させる(1403)、
マルチチャネルオーディオ信号がCC信号であるかどうかを決定させる(1405)、および
マルチチャネルオーディオ信号がCC信号であると決定したことに応答して、最終ITDを取得するために、ゼロに近いITDを優先するようにITD探索をバイアスさせる(1407)
コンピュータプログラム。
実施形態44.プログラムコードが、装置(110,120,1000,1006)を実施形態2~20のいずれか1つに従って行わせるためのさらなるプログラムコードを含む、実施形態43に記載のコンピュータプログラム。
実施形態45.装置(110,120,1000,1006)の処理回路1201/1301)によって実行されるプログラムコードを含む非一時的記憶媒体を含むコンピュータプログラム製品であって、プログラムコードの実行によって、装置(110,120,1000,1006)に、
マルチチャネルオーディオ信号の各フレームmについて、
マルチチャネルオーディオ信号のチャネル対の相互相関を生成させる(1401)、
相互相関に基づいて、第1のITD推定値を決定させる(1403)、
マルチチャネルオーディオ信号がCC信号であるかどうかを決定させる(1405)、および
マルチチャネルオーディオ信号がCC信号であると決定したことに応答して、最終ITDを取得するために、ゼロに近いITDを優先するようにITD探索をバイアスさせる(1407)
コンピュータプログラム製品。
実施形態46.非一時的記憶媒体が、装置(110,120,1000,1006)を実施形態2~20のいずれか1つに従って行わせるためのさらなるプログラムコードを含む、実施形態45に記載のコンピュータプログラム。
実施形態1.エンコーダ(110,1000)またはデコーダ(120,1006)において、コインシデントマイクロフォン構成CCを識別し、チャネル間時間差ITD探索を適合させる方法であって、
マルチチャネルオーディオ信号の各フレームmについて、
マルチチャネルオーディオ信号のチャネル対の相互相関を生成すること(1401)と、
相互相関に基づいて、第1のITD推定値を決定すること(1403)と、
マルチチャネルオーディオ信号がCC信号であるかどうかを決定すること(1405)と、
マルチチャネルオーディオ信号がCC信号であると決定したことに応答して、最終ITDを取得するために、ゼロに近いITDを優先するようにITD探索をバイアスすること(1407)と
を含む、方法。
実施形態2.マルチチャネルオーディオ信号がCC信号ではないと決定したことに応答して、ゼロに近いITDを優先することなく最終ITDを取得すること(1409)
をさらに含む、実施形態1に記載の方法。
実施形態3.マルチチャネルオーディオ信号がCC信号ではない場合に最終ITDを取得することが、最終ITDを第1のITD推定値に設定することによって最終ITDを取得することを含む、実施形態2に記載の方法。
実施形態4.最終ITDを取得するために選択されたITD候補に安定化を適用することをさらに含む、実施形態1または2に記載の方法。
実施形態5.安定化を適用することが、少なくとも1つのITD候補を生成することをさらに含む、実施形態4に記載の方法。
実施形態6.最終ITDを取得するためにゼロに近いITDを優先するようにITD探索をバイアスすることが、最小の絶対値を有するITDを選択することによって最終ITDを取得することを含む、実施形態1~5のいずれか1つに記載の方法。
実施形態7.最小の絶対値を有するITDを選択することが、以下に従って最終ITDとしてITDを選択することを含み、
ここで、ITD1(m)は、最終ITDであり、ITD0(m)は、第1のITD推定値であり、ITDstab(m)は、安定化されたITDである、
実施形態6に記載の方法。
実施形態8.ゼロに近いITDを優先するようにITD探索をバイアスすることが、ゼロ付近の限定された範囲内のITD候補から最終ITDを選択することを含む、実施形態1~7のいずれか1つに記載の方法。
実施形態9.最終ITDを取得するためにゼロに近いITDを優先するようにITD探索をバイアスすることが、ゼロに近い相互相関の値により大きい重みを割り当てるために相互相関の重み付けを適用することを含む、実施形態1~3のいずれか1つに記載の方法。
実施形態10.第1のITD推定値を決定することが、第1のITD推定値を相互相関の絶対最大値として決定することを含む、実施形態1~9のいずれか1つに記載の方法。
実施形態11.第1のITD推定値を相互相関の絶対最大値として決定することが、以下に従って絶対最大値を決定することを含み、
ここで、ITD0(m)は、第1のITD推定値であり、
は、相互相関であり、τは、タイムラグパラメータである、
実施形態10に記載の方法。
実施形態12.相互相関が位相変換による一般化相互相関(GCC-PHAT)である、実施形態1~11のいずれか1つにおける方法。
実施形態13.マルチチャネルオーディオ信号がCC信号であるかどうかを決定することが、
マルチチャネルオーディオ信号のチャネル対における相互相関の反対称パターンおよび対称パターンのうちの一方を検出すること
を含む、実施形態1~12のいずれか1つに記載の方法。
実施形態14.構成要素内の反対称パターンを検出することが、以下に従って反対称パターンを検出することを含み、
ここで、D(m)は、CC検出変数であり、
は、GCC-PHATであり、ITD0(m)は、第1のITD推定値である、
実施形態13に記載の方法。
実施形態15.相互相関内の反対称パターンおよび対称パターンのうちの一方を検出することが、以下のうちの少なくとも1つに従って反対称パターンを検出することを含み、
ここで、D(m)は、CC検出変数であり、
は、GCC-PHATであり、Rは、探索範囲であり、Wは、一致するITDの第1の推定値付近の領域を規定し、ITD0 ’(m)は、探索範囲[-R,R]に限定されたITD候補である、
実施形態13に記載の方法。
実施形態16.マルチチャネルオーディオ信号がCC信号であるかどうかを決定することが、
CC検出変数を計算すること(1501)と、
CC検出変数が閾値を上回っているかどうかを決定すること(1503)と、
CC検出変数が閾値を上回っていると決定したことに応答して、マルチチャネルオーディオ信号がCC信号であると決定すること(1505)と
を含む、実施形態1~12のいずれか1つに記載の方法。
実施形態17.CC検出変数が閾値を上回っているかどうかを決定することが、CC検出変数の絶対値が閾値を上回っているかどうかを決定することを含む、実施形態16に記載の方法。
実施形態18.CC検出を安定化するために、CC検出変数をローパスフィルタリングでフィルタリングすることをさらに含む、実施形態14~17のいずれか1つに記載の方法。
実施形態19.CC検出変数に対するローパスフィルタリングが、少なくともアクティビティ検出器の出力A(m)に応じて適応的である、実施形態18に記載の方法。
実施形態20.CC検出変数をローパスフィルタリングでフィルタリングすることが、以下に従って適応ローパスフィルタリングでフィルタリングすることを含み、
DLP(m)=α(m)D(m)+(1-α(m))DLP(m-1)
ここで、A(m)は、アクティビティ検出器の出力であり、αhighおよびαlowは、フィルタ係数である、
実施形態19に記載の方法。
実施形態21.装置(110,120,1000,1006)であって、
処理回路(1201,1301)と、
処理回路と結合されたメモリ(1205,1305)であって、処理回路によって実行されたときに、装置に、
マルチチャネルオーディオ信号の各フレームmについて、
マルチチャネルオーディオ信号のチャネル対の相互相関を生成させる(1401)、
相互相関に基づいて、第1のITD推定値を決定させる(1403)、
マルチチャネルオーディオ信号がCC信号であるかどうかを決定させる(1405)、および
マルチチャネルオーディオ信号がCC信号であると決定したことに応答して、最終ITDを取得するために、ゼロに近いITDを優先するようにITD探索をバイアスさせる(1407)
命令を含む、メモリと
を備える、装置(110,120,1000,1006)。
実施形態22.マルチチャネルオーディオ信号がCC信号ではないと決定したことに応答して、ゼロに近いITDを優先することなく最終ITDを取得すること(1409)
をさらに含む、実施形態21に記載の装置(110,120,1000,1006)。
実施形態23.マルチチャネルオーディオ信号がCC信号ではない場合に最終ITDを取得することが、最終ITDを第1のITD推定値に設定することによって最終ITDを取得することを含む、実施形態22に記載の装置(110,120,1000,1006)。
実施形態24.メモリが、処理回路によって実行されたときに、装置に、最終ITDを取得するために選択されたITD候補に安定化を適用させるさらなる命令を含む、実施形態21または22に記載の装置(110,120,1000,1006)。
実施形態25.安定化を適用することが、少なくとも1つのITD候補を生成することをさらに含む、実施形態24に記載の装置(110,120,1000,1006)。
実施形態26.最終ITDを取得するためにゼロに近いITDを優先するようにITD探索をバイアスすることが、最小の絶対値を有するITDを選択することによって最終ITDを取得することを含む、実施形態21~25のいずれか1つに記載の装置(110,120,1000,1006)。
実施形態27.最小の絶対値を有するITDを選択することが、以下に従って最終ITDとしてITDを選択することを含み、
ここで、ITD1(m)は、最終ITDであり、ITD0(m)は、第1のITD推定値であり、ITDstab(m)は、安定化されたITDである、
実施形態26に記載の装置(110,120,1000,1006)。
実施形態28.ゼロに近いITDを優先するようにITD探索をバイアスすることが、ゼロ付近の限定された範囲内のITD候補から最終ITDを選択することを含む、実施形態21~27のいずれか1つに記載の装置(110,120,1000,1006)。
実施形態29.最終ITDを取得するためにゼロに近いITDを優先するようにITD探索をバイアスすることが、ゼロに近い相互相関の値により大きい重みを割り当てるために相互相関の重み付けを適用することを含む、実施形態21~27のいずれか1つに記載の装置(110,120,1000,1006)。
実施形態30.第1のITD推定値を決定することが、第1のITD推定値を相互相関の絶対最大値として決定することを含む、実施形態21~29のいずれか1つに記載の装置(110,120,1000,1006)。
実施形態31.第1のITD推定値を相互相関の絶対最大値として決定することが、以下に従って絶対最大値を決定することを含み、
ここで、ITD0(m)は、第1のITD推定値であり、
は、相互相関であり、τは、タイムラグパラメータである、
実施形態30に記載の装置(110,120,1000,1006)。
実施形態32.相互相関が位相変換による一般化相互相関(GCC-PHAT)である、実施形態21~31のいずれか1つに記載の装置(110,120,1000,1006)。
実施形態33.マルチチャネルオーディオ信号がCC信号であるかどうかを決定することが、
マルチチャネルオーディオ信号のチャネル対における相互相関の反対称パターンおよび対称パターンのうちの一方を検出すること
を含む、実施形態21~31のいずれか1つに記載の装置(110,120,1000,1006)。
実施形態34.構成要素内の反対称パターンを検出することが、以下に従って反対称パターンを検出することを含み、
ここで、D(m)は、CC検出変数であり、
は、GCC-PHATであり、ITD0(m)は、第1のITD推定値である、
実施形態33に記載の装置(110,120,1000,1006)。+
実施形態35.相互相関内の反対称パターンおよび対称パターンのうちの一方を検出することが、以下のうちの少なくとも1つに従って反対称パターンを検出することを含み、
ここで、D(m)は、CC検出変数であり、
は、GCC-PHATであり、Rは、探索範囲であり、Wは、一致するITDの第1の推定値付近の領域を規定し、ITD0 ’(m)は、探索範囲[-R,R]に限定されたITD候補である、
実施形態35に記載の装置(110,120,1000,1006)。
実施形態36.マルチチャネルオーディオ信号がCC信号であるかどうかを決定することが、
CC検出変数を計算すること(1501)と、
CC検出変数が閾値を上回っているかどうかを決定すること(1503)と、
CC検出変数が閾値を上回っていると決定したことに応答して、マルチチャネルオーディオ信号がCC信号であると決定すること(1505)と
を含む、実施形態21~32のいずれか1つに記載の装置(110,120,1000,1006)。
実施形態37.CC検出変数が閾値を上回っているかどうかを決定することが、CC検出変数の絶対値が閾値を上回っているかどうかを決定することを含む、実施形態33に記載の装置(110,120,1000,1006)。
実施形態38.メモリが、処理回路によって実行されたときに、装置に、CC検出を安定化するためにCC検出変数をローパスフィルタリングでフィルタリングさせるさらなる命令を含む、実施形態34~37のいずれか1つに記載の装置(110,120,1000,1006)。
実施形態39.CC検出変数に対するローパスフィルタリングが、少なくともアクティビティ検出器の出力A(m)に応じて適応的である、実施形態38に記載の装置(110,120,1000,1006)。
実施形態40.CC検出変数をローパスフィルタリングでフィルタリングすることが、以下に従って適応ローパスフィルタリングでフィルタリングすることを含み、
DLP(m)=α(m)D(m)+(1-α(m))DLP(m-1)
ここで、A(m)は、アクティビティ検出器の出力であり、αhighおよびαlowは、フィルタ係数である、
実施形態39に記載の装置(110,120,1000,1006)。
実施形態41.マルチチャネルオーディオ信号の各フレームmについて、
マルチチャネルオーディオ信号のチャネル対の相互相関を生成する(1401)、
相互相関に基づいて、第1のITD推定値を決定する(1403)、
マルチチャネルオーディオ信号がCC信号であるかどうかを決定する(1405)、および
マルチチャネルオーディオ信号がCC信号であると決定したことに応答して、最終ITDを取得するために、ゼロに近いITDを優先するようにITD探索をバイアスする(1407)
ように適合された、装置(110,120,1000,1006)。
実施形態42.実施形態2~20に従って行うように適合された、実施形態41に記載の装置(110,120,1000,1006)。
実施形態43.装置(110,120,1000,1006)の処理回路(1201/1301)によって実行されるプログラムコードを含むコンピュータプログラムであって、プログラムコードの実行によって、前記装置(110,120,1000,1006)に、
マルチチャネルオーディオ信号の各フレームmについて、
マルチチャネルオーディオ信号のチャネル対の相互相関を生成させる(1401)、
相互相関に基づいて、第1のITD推定値を決定させる(1403)、
マルチチャネルオーディオ信号がCC信号であるかどうかを決定させる(1405)、および
マルチチャネルオーディオ信号がCC信号であると決定したことに応答して、最終ITDを取得するために、ゼロに近いITDを優先するようにITD探索をバイアスさせる(1407)
コンピュータプログラム。
実施形態44.プログラムコードが、装置(110,120,1000,1006)を実施形態2~20のいずれか1つに従って行わせるためのさらなるプログラムコードを含む、実施形態43に記載のコンピュータプログラム。
実施形態45.装置(110,120,1000,1006)の処理回路1201/1301)によって実行されるプログラムコードを含む非一時的記憶媒体を含むコンピュータプログラム製品であって、プログラムコードの実行によって、装置(110,120,1000,1006)に、
マルチチャネルオーディオ信号の各フレームmについて、
マルチチャネルオーディオ信号のチャネル対の相互相関を生成させる(1401)、
相互相関に基づいて、第1のITD推定値を決定させる(1403)、
マルチチャネルオーディオ信号がCC信号であるかどうかを決定させる(1405)、および
マルチチャネルオーディオ信号がCC信号であると決定したことに応答して、最終ITDを取得するために、ゼロに近いITDを優先するようにITD探索をバイアスさせる(1407)
コンピュータプログラム製品。
実施形態46.非一時的記憶媒体が、装置(110,120,1000,1006)を実施形態2~20のいずれか1つに従って行わせるためのさらなるプログラムコードを含む、実施形態45に記載のコンピュータプログラム。
本開示で使用される様々な略語/頭字語についての説明が、以下で提供される。
略語 解説
CC コインシデントマイクロフォン構成
ILD 両耳間レベル差またはチャネル間レベル差
ITD 両耳間時間差またはチャネル間時間差
ICまたはIACC 両耳間コヒーレンスもしくは相関またはチャネル間コヒーレンスもしくは相関
GCC 一般的な相互相関
GCC-PHAT 位相変換による一般化相互相関
略語 解説
CC コインシデントマイクロフォン構成
ILD 両耳間レベル差またはチャネル間レベル差
ITD 両耳間時間差またはチャネル間時間差
ICまたはIACC 両耳間コヒーレンスもしくは相関またはチャネル間コヒーレンスもしくは相関
GCC 一般的な相互相関
GCC-PHAT 位相変換による一般化相互相関
Claims (46)
- エンコーダ(110,1000)またはデコーダ(120,1006)において、コインシデントマイクロフォン構成CCを識別し、チャネル間時間差ITD探索を適合させる方法であって、
マルチチャネルオーディオ信号の各フレームmについて、
前記マルチチャネルオーディオ信号のチャネル対の相互相関を生成すること(1401)と、
前記相互相関に基づいて、第1のITD推定値を決定すること(1403)と、
前記マルチチャネルオーディオ信号がCC信号であるかどうかを決定すること(1405)と、
前記マルチチャネルオーディオ信号がCC信号であると決定したことに応答して、最終ITDを取得するために、ゼロに近いITDを優先するように前記ITD探索をバイアスすること(1407)と
を含む、方法。 - 前記マルチチャネルオーディオ信号がCC信号ではないと決定したことに応答して、ゼロに近いITDを優先することなく前記最終ITDを取得すること(1409)
をさらに含む、請求項1に記載の方法。 - 前記マルチチャネルオーディオ信号がCC信号ではない場合に前記最終ITDを取得することが、前記最終ITDを前記第1のITD推定値に設定することによって前記最終ITDを取得することを含む、請求項2に記載の方法。
- 前記最終ITDを取得するためにITDに安定化を適用することをさらに含む、請求項1または2に記載の方法。
- 安定化を適用することが、少なくとも1つのITD候補を生成することをさらに含む、請求項4に記載の方法。
- 前記最終ITDを取得するためにゼロに近いITDを優先するように前記ITD探索をバイアスすることが、最小の絶対値を有するITDを選択することによって前記最終ITDを取得することを含む、請求項1~5のいずれか一項に記載の方法。
- ゼロに近いITDを優先するように前記ITD探索をバイアスすることが、ゼロ付近の限定された範囲内のITD候補から前記最終ITDを選択することを含む、請求項1~7のいずれか一項に記載の方法。
- 前記最終ITDを取得するためにゼロに近いITDを優先するように前記ITD探索をバイアスすることが、ゼロに近い相互相関の値により大きい重みを割り当てるために相互相関の重み付けを適用することを含む、請求項1~3のいずれか一項に記載の方法。
- 前記第1のITD推定値を決定することが、前記第1のITD推定値を前記相互相関の絶対最大値として決定することを含む、請求項1~9のいずれか一項に記載の方法。
- 前記相互相関が位相変換による一般化相互相関(GCC-PHAT)である、請求項1~11のいずれか一項に記載の方法。
- 前記マルチチャネルオーディオ信号がCC信号であるかどうかを決定することが、
前記マルチチャネルオーディオ信号の前記チャネル対における前記相互相関の反対称パターンおよび対称パターンのうちの一方を検出すること
を含む、請求項1~12のいずれか一項に記載の方法。 - 前記マルチチャネルオーディオ信号がCC信号であるかどうかを決定することが、
CC検出変数を計算すること(1501)と、
前記CC検出変数が閾値を上回っているかどうかを決定すること(1503)と、
前記CC検出変数が前記閾値を上回っていると決定したことに応答して、前記マルチチャネルオーディオ信号がCC信号であると決定すること(1505)と
を含む、請求項1~12のいずれか一項に記載の方法。 - 前記CC検出変数が前記閾値を上回っているかどうかを決定することが、前記CC検出変数の絶対値が前記閾値を上回っているかどうかを決定することを含む、請求項16に記載の方法。
- 前記CC検出を安定化するために、前記CC検出変数をローパスフィルタリングでフィルタリングすることをさらに含む、請求項14~17のいずれか一項に記載の方法。
- 前記CC検出変数に対する前記ローパスフィルタリングが、少なくともアクティビティ検出器の出力A(m)に応じて適応的である、請求項18に記載の方法。
- 装置(110,120,1000,1006)であって、
処理回路(1201,1301)と、
処理回路と結合されたメモリ(1205,1305)であって、前記処理回路によって実行されたときに、前記装置に、
マルチチャネルオーディオ信号の各フレームmについて、
前記マルチチャネルオーディオ信号のチャネル対の相互相関を生成させる(1401)、
前記相互相関に基づいて、第1のITD推定値を決定させる(1403)、
前記マルチチャネルオーディオ信号がCC信号であるかどうかを決定させる(1405)、および
前記マルチチャネルオーディオ信号がCC信号であると決定したことに応答して、最終ITDを取得するために、ゼロに近いITDを優先するようにITD探索をバイアスさせる(1407)
命令を含む、メモリと
を備える、装置(110,120,1000,1006)。 - 前記メモリが、前記処理回路によって実行されたときに、前記装置に、
前記マルチチャネルオーディオ信号がCC信号ではないと決定したことに応答して、ゼロに近いITDを優先することなく前記最終ITDを取得させる(1409)
命令をさらに含む、請求項21に記載の装置(110,120,1000,1006)。 - 前記マルチチャネルオーディオ信号がCC信号ではない場合に前記最終ITDを取得することが、前記最終ITDを前記第1のITD推定値に設定することによって前記最終ITDを取得することを含む、請求項22に記載の装置(110,120,1000,1006)。
- 前記メモリが、前記処理回路によって実行されたときに、前記装置に、前記最終ITDを取得するためにITDに安定化を適用させるさらなる命令を含む、請求項21または22に記載の装置(110,120,1000,1006)。
- 安定化を適用することが、少なくとも1つのITD候補を生成することをさらに含む、請求項24に記載の装置(110,120,1000,1006)。
- 前記最終ITDを取得するためにゼロに近いITDを優先するように前記ITD探索をバイアスすることが、最小の絶対値を有するITDを選択することによって前記最終ITDを取得することを含む、請求項21~25のいずれか一項に記載の装置(110,120,1000,1006)。
- ゼロに近いITDを優先するように前記ITD探索をバイアスすることが、ゼロ付近の限定された範囲内のITD候補から前記最終ITDを選択することを含む、請求項21~27のいずれか一項に記載の装置(110,120,1000,1006)。
- 前記最終ITDを取得するためにゼロに近いITDを優先するように前記ITD探索をバイアスすることが、ゼロに近い相互相関の値により大きい重みを割り当てるために相互相関の重み付けを適用することを含む、請求項21~27のいずれか一項に記載の装置(110,120,1000,1006)。
- 前記第1のITD推定値を決定することが、前記第1のITD推定値を前記相互相関の絶対最大値として決定することを含む、請求項21~29のいずれか一項に記載の装置(110,120,1000,1006)。
- 前記相互相関が位相変換による一般化相互相関(GCC-PHAT)である、請求項21~31のいずれか一項に記載の装置(110,120,1000,1006)。
- 前記マルチチャネルオーディオ信号がCC信号であるかどうかを決定することが、
前記マルチチャネルオーディオ信号の前記チャネル対における前記相互相関の反対称パターンおよび対称パターンのうちの一方を検出すること
を含む、請求項21~32のいずれか一項に記載の装置(110,120,1000,1006)。 - 前記マルチチャネルオーディオ信号がCC信号であるかどうかを決定することが、
CC検出変数を計算すること(1501)と、
前記CC検出変数が閾値を上回っているかどうかを決定すること(1503)と、
前記CC検出変数が前記閾値を上回っていると決定したことに応答して、前記マルチチャネルオーディオ信号がCC信号であると決定すること(1505)と
を含む、請求項21~32のいずれか一項に記載の装置(110,120,1000,1006)。 - 前記CC検出変数が前記閾値を上回っているかどうかを決定することが、前記CC検出変数の絶対値が前記閾値を上回っているかどうかを決定することを含む、請求項36に記載の装置(110,120,1000,1006)。
- 前記メモリが、前記処理回路によって実行されたときに、前記装置に、前記CC検出を安定化するために前記CC検出変数をローパスフィルタリングでフィルタリングさせるさらなる命令を含む、請求項34~37のいずれか一項に記載の装置(110,120,1000,1006)。
- 前記CC検出変数に対する前記ローパスフィルタリングが、少なくともアクティビティ検出器の出力A(m)に応じて適応的である、請求項38に記載の装置(110,120,1000,1006)。
- マルチチャネルオーディオ信号の各フレームmについて、
前記マルチチャネルオーディオ信号のチャネル対の相互相関を生成する(1401)、
前記相互相関に基づいて、第1のITD推定値を決定する(1403)、
前記マルチチャネルオーディオ信号がCC信号であるかどうかを決定する(1405)、および
前記マルチチャネルオーディオ信号がCC信号であると決定したことに応答して、最終ITDを取得するために、ゼロに近いITDを優先するようにITD探索をバイアスする(1407)
ように適合された、装置(110,120,1000,1006)。 - 請求項2~20に従って行うように適合された、請求項41に記載の装置(110,120,1000,1006)。
- 装置(110,120,1000,1006)の処理回路(1201/1301)によって実行されるプログラムコードを含むコンピュータプログラムであって、前記プログラムコードの実行によって、前記装置(110,120,1000,1006)に、
マルチチャネルオーディオ信号の各フレームmについて、
前記マルチチャネルオーディオ信号のチャネル対の相互相関を生成させる(1401)、
前記相互相関に基づいて、第1のITD推定値を決定させる(1403)、
前記マルチチャネルオーディオ信号がCC信号であるかどうかを決定させる(1405)、および
前記マルチチャネルオーディオ信号がCC信号であると決定したことに応答して、最終ITDを取得するために、ゼロに近いITDを優先するようにITD探索をバイアスさせる(1407)
コンピュータプログラム。 - 前記プログラムコードが、前記装置(110,120,1000,1006)を請求項2~20のいずれか一項に従って行わせるためのさらなるプログラムコードを含む、請求項43に記載のコンピュータプログラム。
- 装置(110,120,1000,1006)の処理回路1201/1301)によって実行されるプログラムコードを含む非一時的記憶媒体を含むコンピュータプログラム製品であって、前記プログラムコードの実行によって、前記装置(110,120,1000,1006)に、
マルチチャネルオーディオ信号の各フレームmについて、
前記マルチチャネルオーディオ信号のチャネル対の相互相関を生成させる(1401)、
前記相互相関に基づいて、第1のITD推定値を決定させる(1403)、
前記マルチチャネルオーディオ信号がCC信号であるかどうかを決定させる(1405)、および
前記マルチチャネルオーディオ信号がCC信号であると決定したことに応答して、最終ITDを取得するために、ゼロに近いITDを優先するようにITD探索をバイアスさせる(1407)
コンピュータプログラム製品。 - 前記非一時的記憶媒体が、前記装置(110,120,1000,1006)を請求項2~20のいずれか一項に従って行わせるためのさらなるプログラムコードを含む、請求項45に記載のコンピュータプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2021/066159 WO2022262960A1 (en) | 2021-06-15 | 2021-06-15 | Improved stability of inter-channel time difference (itd) estimator for coincident stereo capture |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024521486A true JP2024521486A (ja) | 2024-05-31 |
Family
ID=76601207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023577407A Pending JP2024521486A (ja) | 2021-06-15 | 2021-06-15 | コインシデントステレオ捕捉のためのチャネル間時間差(itd)推定器の改善された安定性 |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP4356373A1 (ja) |
JP (1) | JP2024521486A (ja) |
CN (1) | CN117501361A (ja) |
BR (1) | BR112023026064A2 (ja) |
WO (1) | WO2022262960A1 (ja) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012105886A1 (en) * | 2011-02-03 | 2012-08-09 | Telefonaktiebolaget L M Ericsson (Publ) | Determining the inter-channel time difference of a multi-channel audio signal |
CN103403801B (zh) * | 2011-08-29 | 2015-11-25 | 华为技术有限公司 | 参数多通道编码器和解码器 |
BR112017025314A2 (pt) | 2016-01-22 | 2018-07-31 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. | aparelho e método para codificação ou decodificação de um sinal multicanal utilizando reamostragem de domínio espectral |
AU2017229323B2 (en) * | 2016-03-09 | 2020-01-16 | Telefonaktiebolaget Lm Ericsson (Publ) | A method and apparatus for increasing stability of an inter-channel time difference parameter |
CN107742521B (zh) | 2016-08-10 | 2021-08-13 | 华为技术有限公司 | 多声道信号的编码方法和编码器 |
CN118283489A (zh) * | 2018-04-05 | 2024-07-02 | 弗劳恩霍夫应用研究促进协会 | 用于估计通道间时间差的装置、方法或计算机程序 |
-
2021
- 2021-06-15 BR BR112023026064A patent/BR112023026064A2/pt unknown
- 2021-06-15 EP EP21734311.0A patent/EP4356373A1/en active Pending
- 2021-06-15 WO PCT/EP2021/066159 patent/WO2022262960A1/en active Application Filing
- 2021-06-15 CN CN202180099390.0A patent/CN117501361A/zh active Pending
- 2021-06-15 JP JP2023577407A patent/JP2024521486A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
BR112023026064A2 (pt) | 2024-03-05 |
AU2021451130A1 (en) | 2023-11-16 |
EP4356373A1 (en) | 2024-04-24 |
WO2022262960A1 (en) | 2022-12-22 |
CN117501361A (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10311881B2 (en) | Determining the inter-channel time difference of a multi-channel audio signal | |
CN111316354B (zh) | 目标空间音频参数和相关联的空间音频播放的确定 | |
US9525956B2 (en) | Determining the inter-channel time difference of a multi-channel audio signal | |
US7983922B2 (en) | Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing | |
TWI714046B (zh) | 用於估計聲道間時間差的裝置、方法或計算機程式 | |
EP3776544A1 (en) | Spatial audio parameters and associated spatial audio playback | |
CN110024421A (zh) | 用于自适应控制去相关滤波器的方法和装置 | |
BR112015025919B1 (pt) | Aparelho e método para criar um sinal de áudio modificado e sistema | |
JP6442037B2 (ja) | 室内インパルス応答の少なくとも第1のペアに基づいて総ミキシング時間を推定する装置および方法、ならびに対応するコンピュータプログラム | |
KR20230035387A (ko) | 스테레오 오디오 신호 지연 추정 방법 및 장치 | |
WO2017202680A1 (en) | Method and apparatus for voice or sound activity detection for spatial audio | |
AU2021451130B2 (en) | Improved stability of inter-channel time difference (itd) estimator for coincident stereo capture | |
JP2024521486A (ja) | コインシデントステレオ捕捉のためのチャネル間時間差(itd)推定器の改善された安定性 | |
WO2024056702A1 (en) | Adaptive inter-channel time difference estimation | |
WO2024074302A1 (en) | Coherence calculation for stereo discontinuous transmission (dtx) | |
JP2024096910A (ja) | パラメトリックマルチチャネル動作と個々のチャネル動作との間で切り替えるためのマルチチャネルオーディオエンコーダ、デコーダ、方法、およびコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240229 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240229 |