JP2023544253A

JP2023544253A - バイノーラル記録を処理するための方法及びデバイス

Info

Publication number: JP2023544253A
Application number: JP2023516696A
Authority: JP
Inventors: シュワーン，ジーウエイ; マー，ユエンシーン; リュー，ヤン; ヤーン，ズーユイ; センガルレ，ギウリオ
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション; ドルビー・インターナショナル・アーベー
Priority date: 2020-09-15
Filing date: 2021-09-15
Publication date: 2023-10-23
Also published as: EP4214707A1; US20230360662A1; CN116349252A; WO2022060891A1

Abstract

本発明は、バイノーラル記録デバイスによって取得された入力バイノーラルオーディオ信号を表す第１のオーディオ信号及び第２のオーディオ信号を処理するための方法及びデバイスに関する。本発明は更に、スピーカシステム上でバイノーラルオーディオ信号をレンダリングするための方法に関する。バイノーラル信号を処理するための方法は、第１のオーディオ信号からオーディオ情報を抽出するステップと、第１のオーディオ信号中のノイズを低減するための帯域利得を計算するステップと、第１の出力オーディオ信号を提供するために、動的スケーリング係数に従って帯域利得を第１のオーディオ信号のそれぞれの周波数帯域に適用するステップとを含む。ここで、動的スケーリング係数は、０と１との間の値を有し、第１のオーディオ信号の品質劣化を低減するように選択される。

Description

本発明は、バイノーラルオーディオ信号（binaural audio signal）を処理するための方法及びデバイスに関する。

ユーザ生成コンテンツ（ＵＧＣ）及びプロフェッショナル生成コンテンツ（ＰＧＣ）の両方の分野では、オーディオをキャプチャするためにバイノーラルキャプチャデバイスが使用されることが多い。バイノーラルオーディオは、例えば、ユーザが装着する一対のイヤホンの差し込み部（earbud）に各々設けられている一対のマイクロフォンによって記録される。従って、バイノーラルキャプチャデバイスは、バイノーラルキャプチャデバイスを装着しているユーザのそれぞれの耳で音をキャプチャする。従って、バイノーラルキャプチャデバイスは、一般に、ユーザの音又はユーザによって知覚されるオーディオをキャプチャするのに長けている。従って、バイノーラルキャプチャデバイスは、多くの場合、ポッドキャスト、インタビュー又は会議を記録するために使用される。

バイノーラルキャプチャデバイスの欠点は、バイノーラルキャプチャデバイスが環境ノイズに対して非常に敏感であり、キャプチャされたバイノーラル信号がレンダリングされるときに再生体験が不十分になることである。

バイノーラルキャプチャデバイスの別の欠点は、バイノーラルキャプチャデバイスを装着しているユーザの音声以外の関心のある音源（audio sources of interest）が、非常に低い信号強度、高いノイズ及び高い残響で拾われる（pick up）ことである。その結果、キャプチャされたバイノーラルオーディオ信号において特徴となる他の関心のある音源の明瞭度が低下する。

これらの欠点を回避するために、以前のソリューションでは、実行するのが計算上面倒である複雑なオーディオ処理アルゴリズムが使用されており、複雑なオーディオ処理を実装することが困難である低レイテンシ通信又はＵＧＣに対して、これらのソリューションの実現を特に困難にしている。

従って、上記に基づいて、本発明の目的は、バイノーラルオーディオ信号のより効率的な処理のための方法及びデバイスを、処理されたバイノーラルオーディオ信号をレンダリングするための方法とともに提供することである。

本発明の第１の態様によれば、入力バイノーラルオーディオ信号を表す第１のオーディオ信号及び第２のオーディオ信号を処理するための方法が提供される。バイノーラルオーディオ信号は、バイノーラル記録デバイスによって取得される。方法は、第１のオーディオ信号からオーディオ情報を抽出するステップであって、オーディオ情報は、第１のオーディオ信号を表す複数の周波数帯域を少なくとも含む、ステップと、各周波数帯域について、第１のオーディオ信号中のノイズを低減するための帯域利得を計算するステップとを含む。更に、方法は、動的スケーリング係数に従って帯域利得を第１のオーディオ信号のそれぞれの周波数帯域に適用して、第１の出力オーディオ信号を提供するステップを含む。動的スケーリング係数は、０と１との間の値を有し、０の値は帯域利得が適用されないことを示し、１の値は全帯域利得が修正なしに適用されることを示す。動的スケーリング係数は、第１のオーディオ信号の品質劣化を低減するように選択され、方法は、以下を含む：
第２のオーディオ信号に基づいて第２の出力オーディオ信号を提供するステップ及び第１の出力オーディオ信号及び第２の出力オーディオ信号に基づいてバイノーラル出力オーディオ信号を決定するステップ。

第１の態様による本発明は、周波数帯域の帯域利得を動的にスケーリングすることによって、出力オーディオ信号の品質劣化が低下し得るという理解に少なくとも部分的に基づく。ノイズ低減帯域利得を計算するために採用されるノイズ低減方法のタイプにかかわらず、帯域利得が適用されたオーディオ信号には、ノイズ低減処理によって導入された望ましくないオーディオアーチファクトが含まれる。これらのオーディオアーチファクトを軽減するために、動的スケーリング係数に従って帯域利得を動的に適用する。静的又は所定のスケーリング係数では、オーディオアーチファクトが出現するほど高い程度まで又はノイズ低減が抑制されるほど低い程度まで帯域利得を実装することによって可能なオーディオ信号の大部分について品質劣化を低減することができない。動的スケーリング係数の選択は、特定のオーディオ信号が処理された後に調整された動的（非静的）スケーリング係数の使用が可能になるように、オーディオ信号のオーディオ情報及び／又は帯域利得に基づき得る。

いくつかの実装形態では、各周波数帯域についての動的スケーリング係数は、第１のオーディオ信号の現在の時間フレーム及び前の時間フレームの対応する周波数帯域に関連付けられた帯域利得に基づく。

時間フレームとは、第１のオーディオ信号の部分的な時間セグメントを意味する。従って、現在の時間フレーム及び前の時間フレームの各周波数帯域についての帯域利得を分析することによって、動的スケーリング係数は、処理されている現在の第１のオーディオ信号に対して動的に調整される。これにより、動的スケーリング係数は、品質劣化が低減された第１の出力オーディオ信号を提供するように最適化される。

いくつかの実装形態では、方法は、追加の記録デバイスからの追加のオーディオ信号を処理するステップを更に含む。これは、追加のオーディオ信号をバイノーラルオーディオ信号と同期させ、追加のオーディオ信号に基づいて追加の出力オーディオ信号を提供することによって達成される。

追加の記録デバイスは、少なくともモノオーディオ信号を記録することが可能な任意のデバイスであり得る。追加の記録デバイスは、例えば、ユーザのスマートフォンであり得る。追加のオーディオ信号により、バイノーラル記録デバイスを装着しているユーザからの音声又は第２の関心のある音源からの音声が強化され得る。バイノーラル記録デバイスは、周囲からのノイズ及び残響を拾う傾向があるので、バイノーラル記録デバイスを装着しているユーザ以外の関心のある音源、例えば、ユーザと会話しているインタビュー対象者からのオーディオを記録するのには適していない。この目的を達成するために、追加のオーディオ信号を記録する追加の記録デバイスが、第２の関心のある音源からのオーディオを記録するためのマイクロフォンとして採用され、使用され得る。追加のオーディオ信号はバイノーラル信号と同期され、同期された追加のオーディオ信号と組み合わされたバイノーラル信号は、例えば、より明瞭なダイアログ再生を容易にすることができる。

いくつかの実装形態は、バイノーラル記録デバイスの骨振動センサによって取得された骨振動センサ信号を処理するステップを更に含む。骨振動センサ信号をバイノーラルオーディオ信号と同期させ、追加のオーディオ信号のＶＡＤ確率を抽出することによって、ＶＡＤ確率及び骨振動センサ信号に基づいて、検出された音声の発生源（source）が決定され得る。発生源が、骨振動センサを有するバイノーラル記録デバイスの装着者である場合、追加のオーディオ信号は、第１のオーディオ処理スキームを用いて処理される。発生源が、骨振動センサを有するバイノーラル記録デバイスの装着者以外である場合、追加のオーディオ信号は、第２のオーディオ処理スキームを用いて処理される。異なる処理スキームを使用して追加のオーディオ信号を処理することで、検出された音声の発生源に応じて、利得レベル及び／又はノイズ低減処理を適応的に切り替えることが可能になり得る。オーディオ処理スキームのこの適応的な切り替えは、上記で説明された動的処理と組み合わされてもよいし、他の一般的な形態のオーディオ処理及び／又はノイズ低減方法で実装されてもよい。

例えば、本発明の第２の態様として、第１のオーディオ信号及び第２のオーディオ信号並びに追加のオーディオ信号を処理するための方法が提供され、第１のオーディオ信号及び第２のオーディオ信号は、バイノーラル記録デバイスによって取得された入力バイノーラルオーディオ信号を表し、追加のオーディオ信号は、追加の記録デバイスによって記録される。方法は、追加のオーディオ信号をバイノーラルオーディオ信号と同期させるステップと、バイノーラル記録デバイスの骨振動センサによって取得された骨振動センサ信号を受信するステップと、また、骨振動センサ信号をバイノーラルオーディオ信号と同期させるステップとを含む。更に、方法は、追加のオーディオ信号のＶＡＤ確率を抽出するステップと、ＶＡＤ確率及び骨振動センサ信号に基づいて、検出された音声の発生源を決定するステップとを含む。発生源が、骨振動センサを有するバイノーラル記録デバイスの装着者である場合、追加のオーディオ信号は、第１のオーディオ処理スキームを用いて処理される。発生源が、骨振動センサを有するバイノーラル記録デバイスの装着者以外である場合、追加のオーディオ信号は、第２のオーディオ処理スキームを用いて処理される。追加的に、追加の出力オーディオ信号は、処理された追加のオーディオ信号に基づいて提供され、第１の出力オーディオ信号及び第２の出力オーディオ信号は、バイノーラル出力オーディオ信号が決定される第１のオーディオ信号及び第２のオーディオ信号に基づいて提供される。

第１の出力オーディオ信号及び第２の出力オーディオ信号を提供することは、本発明の一態様に従って第１のオーディオ信号及び第２のオーディオ信号に対してオーディオ処理を実行すること、並びに／又はノイズキャンセル及び／若しくはイコライゼーションといった他の形態のオーディオ処理を実行することを含み得る。

本発明の第３の態様によれば、オーディオ処理デバイスが提供される。オーディオ処理デバイスは、第１のオーディオ信号及び第２のオーディオ信号を含む入力バイノーラルオーディオ信号を受信するように構成された受信機と、受信機から第１のオーディオ信号を受信し、第１のオーディオ信号からオーディオ情報を抽出するように構成された抽出ユニットとを備える。オーディオ情報は、第１のオーディオ信号の周波数コンテンツの一部を表す複数の周波数帯域を少なくとも含む。オーディオ処理デバイスは、オーディオ情報を受信し、第１のオーディオ信号の各周波数帯域について、帯域利得を計算するように構成された処理デバイスを更に備え、計算された帯域利得は、第１のオーディオ信号中のノイズを低減する。オーディオ処理デバイスの適用ユニットは、動的スケーリング係数に従って帯域利得を第１のオーディオ信号のそれぞれの周波数帯域に適用して、第１の出力オーディオ信号を提供するように構成される。動的スケーリング係数は、０と１との間の値を有し、０の値は帯域利得が適用されないことを示し、１の値は全帯域利得が修正なしに適用されることを示す。動的スケーリング係数は、そうでなければノイズ低減帯域利得によって導入された第１のオーディオ信号の品質劣化を低減するように選択される。オーディオ処理デバイスにおいて、追加の処理モジュールは、第２のオーディオ信号に基づいて第２の出力オーディオ信号を提供するように構成され、出力段は、第１の出力オーディオ信号及び第２の出力オーディオ信号に基づいてバイノーラル出力オーディオ信号を決定するように構成される。

第２又は第３の態様による本発明は、第１の態様による本発明と同じ又は同等の実施形態及び利点を特徴とする。更に、処理方法に関して説明される任意の機能は、処理デバイスにおいて特徴とされる対応する構成要素又はコンピュータプログラム製品においてそのような機能を実行するための対応するコードを有し得る。

第１又は第２の態様による本発明の実施形態を示す添付の図面を参照して、本発明をより詳細に説明する。
例示的なバイノーラル記録デバイス及び追加の記録デバイスを示す。いくつかの実装形態によるバイノーラル処理デバイスを示す。本発明の実装形態による、第１のオーディオ信号及び第２のオーディオ信号を処理するための方法を示すフローチャートである。動的スケーリング係数に従って帯域利得を適用するための代替方法を示すフローチャートである。動的スケーリング係数に従って帯域利得を適用するための別の代替方法を示すフローチャートである。オーディオ信号を表す一連の時間フレームの周波数帯域を示す。いくつかの実装形態による、サイド及び中間信号推定及び処理を示すフローチャートである。本発明の一態様によるレンダリング方法を説明するフローチャートである。

図１は、バイノーラル記録デバイス１を装着しているユーザ４を示す。バイノーラル記録デバイス１は、ヘッドセットのそれぞれのイヤピース内にオプションで設けられた２つのワイヤード（図示せず）又はワイヤレスのマイクロフォン対２ａ、２ｂを備え得る。バイノーラル記録デバイス１は、２つのオーディオ信号、例えば、それぞれのイヤピース内の左マイクロフォン２ａ及び右マイクロフォン２ｂから発せられる左オーディオ信号及び右オーディオ信号を含むバイノーラルオーディオ信号を記録する。いくつかの実装形態では、追加の記録デバイス３１が追加のオーディオ信号を記録し、及び／又は骨振動センサ１１が骨振動信号を記録する。例えば、追加の記録デバイス３１は、ユーザデバイス３（例えば、スマートフォン、タブレット又はラップトップ）内に設けられたマイクロフォンであってもよく、骨振動センサ１１は、バイノーラル記録デバイス１の一体化された部分として設けられてもよいし（例えば、図示のようにイヤピース内に一体化される）、外部に設けられてもよい（図示せず）。追加の記録デバイス３１は、ユーザ４と会話している第２の人物といった第２の関心のある音源を記録し得る。代替的に、追加の記録デバイス３１は、ユーザ４の音声を記録してもよい。

骨振動センサ１１からの骨振動センサ信号は、バイノーラル記録デバイス１を装着しているユーザ４が話しているか否かを示し得、及び／又は、骨振動センサ信号は、オーディオを抽出するために使用され得る。更に、骨振動センサ信号は、強化されたオーディオ情報を抽出するために、第１のオーディオ信号及び／又は第２のオーディオ信号と併せて使用され得る。

バイノーラル記録デバイス１によって記録された第１のオーディオ信号及び第２のオーディオ信号は、ユーザデバイス３にオプションで設けられたバイノーラル処理デバイス３２によって時間的に同期され得、追加のオーディオ信号及び／又は骨振動センサ信号は、バイノーラル処理デバイス３２によってバイノーラルオーディオ信号と同期され得る。いくつかの実装形態では、追加のオーディオ信号及び／又は骨振動センサ信号は、ソフトウェアの実装を使用してバイノーラル処理デバイス３２によって時間的に同期される。例えば、バイノーラルオーディオ信号と追加のオーディオ信号及び／又は骨振動センサ信号との間の同期は、処理デバイスが信号間の最大相関を特徴とする信号間の遅延を求めることによって達成される。代替的に、バイノーラルオーディオ信号並びに追加のオーディオ信号及び／又は骨振動センサ信号の一部を表す各記録されたデータブロック又は時間フレームは、タイムスタンプに関連付けられ、信号は、各ブロックのタイムスタンプを比較することによって同期される。

信号時間同期に加えて、以下で説明される任意のオーディオ処理がバイノーラル処理デバイス３２によって実行されてもよい。バイノーラル処理デバイス３２は、その全体又は一部がバイノーラル記録デバイス１及びバイノーラル記録デバイス１とワイヤード又はワイヤレス（例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標））通信するユーザデバイス３に設けられ得る。例えば、ユーザデバイス３のバイノーラル処理デバイス３２は、バイノーラル記録デバイス１、任意の骨振動センサ１１及び任意の追加の記録デバイス３１からの全てのオーディオ信号を受信し、同期させ、処理し得る。

更に図２を参照すると、いくつかの実装形態によるバイノーラル処理デバイス３２が示されている。バイノーラル処理デバイス３２は、バイノーラル記録デバイス１によって記録された２つのオーディオ信号、例えば、左オーディオ信号Ｌ及び右オーディオ信号Ｒを含むバイノーラルオーディオ信号を受信するように構成される。同期モジュール３２１において、２つのオーディオ信号Ｌ、Ｒが同期される。いくつかの実装形態では、同期モジュール３２１は、バイノーラル記録デバイス１に統合され、任意の骨振動信号及び／又は追加のオーディオ信号との同期などの更なる処理ステップは、ユーザデバイス３によって実行される。

同期モジュール３２１は、同期されたオーディオ信号をオプションの変換モジュール３２２に出力する。オプションの変換モジュール３２２は、同期されたオーディオ信号Ｌ、Ｒのオーディオ情報及び／又は代替表現を抽出し得る。オーディオ信号の代替表現（Ａ１及びＢ１と呼ばれる）は、それぞれの処理モジュール３２３ａ、３２３ｂに提供される。各処理モジュール３２３ａ、３２３ｂは、オーディオ信号表現Ａ１、Ｂ１のノイズ低減を含むオーディオ処理を実行するように構成される。いくつかの実装形態では、処理モジュール３２３ａ、３２３ｂは、以下で説明される第１の処理シーケンス及び第２の処理シーケンスと同等の処理を実行する。

信号処理モジュール３２３ａ、３２３ｂによって出力された処理されたオーディオ信号Ａ２、Ｂ２は、オプションの変換モジュール３２２において受信されたオーディオ信号に対応する処理されたオーディオ信号ＰＬ、ＰＲを再生するように逆変換を実行する逆変換モジュール３２４に提供される。いくつかの実装形態では、変換モジュール３２２及び逆変換モジュール３２４は使用されず、バイノーラル記録デバイスの２つのオーディオ信号Ｌ、Ｒは、それらの元のフォーマットで処理される。

出力段３２５は、第１の出力オーディオ信号ＰＬ及び第２の出力オーディオ信号ＰＲを、２つの出力オーディオ信号を表すバイノーラル出力オーディオ信号に組み合わせる。

いくつかの実装形態では、バイノーラル処理デバイス３２は、第１の処理モジュール３２３ａ及び／又は第２の処理モジュール３２３ｂにおいて骨振動センサ信号ＢＶを考慮する。更に、バイノーラル処理デバイス３２は、追加のオーディオ信号を受信し、追加のオーディオ信号を同期させて、オプションで変換し、追加のオーディオ信号が、第１のオーディオ信号Ａ１及び第２のオーディオ信号Ｂ１の代替表現のうちの少なくとも１つにおいて表現されるようにするように更に構成され得る。代替的に、第１の処理モジュール３２３ａ及び第２の処理モジュール３２３ｂに加えて第３の処理モジュールを追加して、追加のオーディオ信号を処理し、この追加のオーディオ信号を、処理された追加のオーディオ信号を表すサイド情報を有するバイノーラル出力オーディオ信号を生成する出力段３２５に出力する。

図３は、いくつかの実装形態による方法を示すフローチャートである。Ｓ１において、第１のオーディオ信号Ａ１及び第２のオーディオ信号Ｂ１によって表される入力バイノーラルオーディオ信号が受信される。第１のオーディオ信号及び第２のオーディオ信号は、同期された左オーディオ信号及び右オーディオ信号又はサイドオーディオ信号及び中間オーディオ信号などの代替表現であり得る。第１のオーディオ信号Ａ１は、第１の処理シーケンスＳ２ａに渡され、第２のオーディオ信号Ｂ１は、第２の処理シーケンスＳ２ｂに渡される。

Ｓ２１において、第１のオーディオ信号Ａ１からオーディオ情報が抽出される。オーディオ情報は、少なくとも複数の周波数帯域の表現を含み、各周波数帯域は、第１のオーディオ信号Ａ１の周波数コンテンツの一部を表す。更に、第１のオーディオ信号Ａ１からオーディオ情報を抽出することは、第１のオーディオ信号Ａ１を記述する音響パラメータを抽出することを含み得る。

Ｓ２１においてオーディオ情報を抽出することは、最初に、第１のオーディオ信号Ａ１を周波数スペクトル情報に分解することを含み得る。周波数スペクトル情報は、フーリエスペクトル又はフィルタバンク（ＱＭＦなど）といった、連続的又は離散的な周波数スペクトルによって表され得る。周波数スペクトル情報は、複数のビンによって表され得、各ビンは、複数のビンが周波数スペクトル情報の離散的なサンプルを表すような値を含む。

第２に、第１のオーディオ信号Ａ１は、複数の周波数帯域に分割され得、これは、複数の周波数帯域を形成するように、周波数スペクトル情報を表すビンを別々に又は重複してグループ化することを伴い得る。

周波数スペクトル情報は、オーディオ情報中に含まれるべきメル周波数ケプストラム係数（ＭＦＣＣ：Mel Frequency Cepstral Coefficients）又はバーク周波数ケプストラム係数（ＢＦＣＣ：Bark Frequency Cepstral Coefficients）といった帯域特徴を抽出するために使用され得る。第１のオーディオ信号Ａ１の帯域調和性特徴、発話（speech）の基本周波数（Ｆ０）、音声アクティビティ検出（ＶＡＤ）確率及び信号対ノイズ比（ＳＮＲ）は、第１のオーディオ信号Ａ１及び／又は第１のオーディオ信号Ａ１の周波数スペクトル情報のいずれかを分析することによって抽出され得る。従って、オーディオ情報は、第１のオーディオ信号Ａ１の各帯域の帯域調和性特徴、基本周波数、ＶＡＤ確率及びＳＮＲのうちの１つ又は複数を含み得る。

Ｓ２１において抽出されたオーディオ情報からの第１のオーディオ信号Ａ１を表す周波数帯域に少なくとも基づいて、Ｓ２２において、各周波数帯域についての帯域利得ＢＧａｉｎが計算される。帯域利得ＢＧａｉｎは、第１のオーディオ信号Ａ１のノイズを低減するために計算される。いくつかの実装形態では、帯域利得ＢＧａｉｎを計算することは、トレーニングされたニューラルネットワークを用いてオーディオ情報から帯域利得ＢＧａｉｎを予測することを含む。ニューラルネットワークは、ディープニューラルネットワークであり得、それぞれが複数のノードを有する複数のニューラルネットワーク層を含み得る。ニューラルネットワークは、全結合ニューラルネットワーク、リカレントニューラルネットワーク、畳み込みニューラルネットワーク又はそれらの組合せであり得る。ウィナーフィルタ（Wiener Filter）をニューラルネットワークと組み合わせて、帯域利得の最終予測を提供し得る。第１のオーディオ信号Ａ１の一部を表す周波数帯域が少なくとも与えられると、ニューラルネットワークは、ノイズを低減するための関連する帯域利得ＢＧａｉｎを予測するようにトレーニングされる。いくつかの実装形態では、ニューラルネットワーク（又は別個のニューラルネットワーク）は、第１のオーディオ信号の周波数情報の一部を表す周波数帯域が少なくとも与えられると、ＶＡＤ確率も予測するように更にトレーニングされる。

Ｓ２３において、Ｓ２２の帯域利得ＢＧａｉｎが、Ｓ２４からの動的スケーリング係数ｋに従って第１のオーディオ信号Ａ１に適用されて、品質劣化が低減された第１のオーディオ出力信号Ａ２を形成する。ここにおいて、動的スケーリング係数ｋは、品質劣化を低減するためにＳ２２において計算された帯域利得ＢＧａｉｎに基づいてＳ２４において選択される。品質劣化を低減するように動的スケーリング係数ｋを選択することによって、各周波数帯域についての計算された帯域利得ＢＧａｉｎが、品質劣化が低減された第１の出力オーディオ信号Ａ２を提供するために第１のオーディオ信号Ａ１に適用される前に動的スケーリング係数ｋに従って調整され得る。動的スケーリング係数ｋは、０と１との間の値を有し、計算された帯域利得がどの程度適用されるかを示す。いくつかの実装形態では、各周波数帯域についての動的スケーリング係数ｋは、第１のオーディオ信号Ａ１、オーディオ情報の少なくとも一部及び各周波数帯域の計算された帯域利得ＢＧａｉｎのうちの少なくとも１つに基づく。

バイノーラルオーディオ信号の第２のオーディオ信号Ｂ１から、第２の処理シーケンスＳ２ｂにおいて第２のオーディオ信号Ｂ１を処理することによって、第２の出力オーディオ信号Ｂ２が提供される。例えば、第２の処理シーケンスＳ２ｂは、第２のオーディオ信号Ｂ１の別個の処理（例えば、ノイズ低減処理を含む）を実行して、第２の出力オーディオ信号Ｂ２を形成することを含み得る。第２のオーディオ信号Ｂ１の別個の処理は、第１の処理シーケンスＳ１ａにおける第１のオーディオ信号Ａ１の処理と同等であってもよく、ステップＳ２１、Ｓ２２、Ｓ２３及びＳ２４に対応するステップを含み得る。

いくつかの実装形態では、それぞれの処理シーケンスＳ２ａ、Ｓ２ｂにおける第１のオーディオ信号Ａ１及び第２のオーディオ信号Ｂ１の処理は、例えば、モノチャネルノイズ低減モデルを適用するように結合される。モノチャネルノイズ低減モデルでは、各オーディオ信号Ａ１、Ｂ１について、ノイズ低減帯域利得ＢＧａｉｎのそれぞれのセットが、これらの帯域利得ＢＧａｉｎが単一の共通セットへと低減される前に、計算されることを意味する。帯域利得の共通セットは、全てのオーディオ信号Ａ１、Ｂ１にわたる各帯域について、最大、最小又は平均帯域利得として決定され得る。言い換えると、各オーディオ信号Ａ１、Ｂ１についての計算された帯域利得ＢＧａｉｎは、最初に、ＢＧａｉｎｓ（ｉ，ｂ）と表記される帯域利得のマトリックスで表され得、ｉ＝１：オーディオ信号の数であり、ｂ＝１：帯域の数である。従って、ＢＧａｉｎｓ（ｉ，ｂ）の各行は、信号の全ての帯域利得を含み、各列は、各オーディオ信号の所与の帯域についての帯域利得を含む。モノチャネルノイズ低減マトリックスでは、各列を単一の値にマージすることによって、例えば、各列の最大値を見つけることによって、帯域利得の単一の行が抽出される。次いで、帯域利得の同じ単一の行が、全てのオーディオ信号の後続の処理に使用される。

Ｓ３において、第１の出力オーディオ信号Ａ２及び第２の出力オーディオ信号Ｂ２は、品質劣化が低減されたバイノーラル出力信号に組み合わされる。

図３は、第１のオーディオ信号Ａ１の処理において骨振動センサ信号ＢＶが使用されるいくつかの実装形態による方法を更に示す。骨振動センサからの記録された信号は、環境ノイズに対してよりロバストであり、骨振動センサ信号は、追加のオーディオ情報及び／又は強化されたオーディオ情報及び／又は強化された帯域利得を抽出するために使用され得る。

いくつかの実装形態では、骨振動センサ信号ＢＶは、各時間フレーム若しくは各時間フレームの各周波数帯域についてのＶＡＤ確率を抽出するために又は第１のオーディオ信号Ａ１及び骨振動センサ信号ＢＶから抽出された拡張ＶＡＤ確率（enhanced VAD probability）を提供するために使用される。Ｓ２１及びＳ２２において、周波数スペクトル情報、帯域利得、音声基本周波数、ＳＮＲ及びＶＡＤ確率のうちの少なくとも１つを抽出するために、骨振動センサ信号ＢＶのみが使用され得るか、又は骨振動センサ信号ＢＶと第１のオーディオ信号Ａ１が使用され得る。

骨振動センサ信号ＢＶは、バイノーラルオーディオ信号の第１のオーディオ信号Ａ１及び第２のオーディオ信号を補完する別個の記録を構築し得る。例えば、骨振動センサ信号ＢＶは、追加のオーディオ信号として扱われ、バイノーラルオーディオ信号に追加されるか、又は別個の出力信号として提供され得る。

強化された第１のオーディオ信号は、骨振動センサ信号ＢＶと第１のオーディオ信号Ａ１の両方における情報から取得され得る。強化された第１のオーディオ信号から、強化されたオーディオ情報（周波数コンテンツのより正確な表現など）がＳ２１において抽出され得、そこから、強化された帯域利得がＳ２２において計算され得る。いくつかの実装形態では、Ｓ２２における帯域利得及び／又はＶＡＤ確率の予測のために、オーディオ情報に加えて骨振動センサ信号ＢＶがニューラルネットワークに提供される。

同様に、骨振動センサ信号ＢＶが提供され、第２の処理シーケンスＳ２ｂにおける第２のオーディオ信号Ｂ２の処理において考慮され得る。

図４ａは、Ｓ２３ａにおいて動的スケーリング係数ｋに従って帯域利得ＢＧａｉｎがそれぞれの周波数帯域にどのように適用されるかを示すフローチャートである。Ｓ２２において計算された帯域利得ＢＧａｉｎは、第１のオーディオ信号Ａ１とともに提供され、Ｓ２３１において、計算された帯域利得が第１のオーディオ信号Ａ１に適用されて、ノイズ低減された第１のオーディオ信号ＮＡ１を形成する。ノイズ低減された第１のオーディオ信号ＮＡ１は、Ｓ２３１において帯域利得を適用することによって導入された望ましくないオーディオアーチファクトを示し得る。Ｓ２４において、品質劣化を低減するための動的スケーリング係数ｋが、以下で説明されるように選択又は計算される。Ｓ２３２において、ノイズ低減された第１のオーディオ信号ＮＡ１は、動的スケーリング係数ｋに従って帯域利得を適用するために、Ｓ２４において選択された動的スケーリング係数ｋに対応する混合比で（元の）第１のオーディオ信号Ａ１と混合される。従って、第１の出力オーディオ信号Ａ２は、第１のオーディオ信号Ａ１、ノイズ低減された第１のオーディオ信号ＮＡ１及び動的スケーリング係数ｋから、次のように求められる：

混合は、それぞれの動的スケーリング係数ｋを用いて第１のオーディオ信号Ａ１の各周波数帯域について実行され得る。２つ以上の周波数帯域の動的スケーリング係数ｋが同じであってもよい。動的スケーリング係数ｋに等しい混合比で、ノイズ低減された第１のオーディオ信号ＮＡ１を第１のオーディオ信号Ａ１と混合した後、品質劣化が低下した第１の出力オーディオ信号Ａ２が得られる。

図４ｂは、動的スケーリング係数ｋに従って帯域利得ＢＧａｉｎを適用するための代替方法を示す。Ｓ２３ｂにおいて、Ｓ２２からの第１のオーディオ信号Ａ１についての計算された帯域利得、Ｓ２４からの選択された動的スケーリング係数ｋ及び第１のオーディオ信号Ａ１が利用可能である。動的スケーリング係数ｋは、Ｓ２２において予測された帯域利得がどの程度適用されるべきかを示し、それにより、第１の出力オーディオ信号は、第１のオーディオ信号Ａ１と、帯域利得ＢＧａｉｎｓが適用された第１のオーディオ信号Ａ１との加重和（weighted sum）である。すなわち、第１の出力オーディオ信号Ａ２は、次のように計算され得る：

は、動的帯域利得と呼ばれる。従って、動的帯域利得を計算して第１のオーディオ信号Ａ１に適用すれば十分であるので、ノイズ低減された第１のオーディオ信号を計算し、ノイズ低減された第１のオーディオ信号と第１のオーディオ信号Ａ１との混合を実行する必要はない。ここにおいて、各周波数帯域についての動的帯域利得は、動的スケーリング係数ｋ及び各周波数帯域からの計算された帯域利得ＢＧａｉｎから抽出される。動的帯域利得を第１のオーディオ信号Ａ１に適用すると、第１の出力オーディオ信号Ａ２は、低下した品質劣化で形成される。

図５は、オーディオ信号、例えば、第１のオーディオ信号の時間フレーム表現を示す。オーディオ信号は、列によって表される複数のフレーム１０１、１０２、１０３、１０４に分割され、各時間フレームは、行によって表される複数の周波数帯域を含む。特定の周波数帯域１００について、計算された帯域利得（線形単位）は、前のフレーム１０１、１０２、１０３については０．４、０．６、０．７と示され、現在のフレーム１０４については０．８として示される。

計算された帯域利得に基づいて動的スケーリング係数ｋを決定するための方法が提供される。例えば、動的スケーリング係数ｋは、オーディオ信号の現在の（ｎ＋１）時間フレーム１０４及び前の（ｎ，ｎ－１，ｎ－２）時間フレーム１０１、１０２、１０３について計算された帯域利得に基づく。いくつかの実装形態では、現在のフレーム１０４（ｎ＋１）の特定の周波数帯域１００についての動的スケーリング係数ｋは、利得の加重和Ｇ（ｎ＋１）から決定され、加重和Ｇ（ｎ＋１）は、次のように計算される：

ここで、ａは、現在のフレーム１０４の計算された帯域利得ＢＧａｉｎ（ｎ＋１）が現在のフレーム１０４についての利得の加重和Ｇ（ｎ＋１）をどの程度修正することになるかを指示する定数である。定数ａは、０と１との間であり、好ましくは、ａは、０．９と１の間、例えば、ａ＝０．９９又はａ＝０．９９９９である。定数ａは、１－εであってもよく、ここで、εは１０^-1と１０^-6との間である。Ｇの初期値は１に設定され得る。他の例では、Ｇの初期値は、１と０．６との間、例えば、０．８である。前のフレーム１０１、１０２、１０３の対応する処理は、Ｇ（ｎ）の値に影響を与え、それによって、現在のフレーム１０４についてのＧ（ｎ＋１）の最終値に影響を与え得ることが理解される。動的スケーリング係数ｋは、Ｇ（ｎ＋１）に線形に比例し得、例えば、現在のフレーム１０４についての動的スケーリング係数ｋは、次のように計算され得る：

いくつかの実装形態では、現在のフレーム１０４についての動的スケーリング係数ｋは、所定の閾値利得Ｔ_Gainを超える前のフレーム１０１、１０２、１０３の帯域利得のみの影響を受け得る。所定の閾値利得Ｔ_Gainは、０．３と０．７との間、好ましくは、（線形単位で）約０．５であり得る。これは、計算された帯域利得ＢＧａｉｎが所定の閾値利得Ｔ_Gainを超えることにのみ応答して、利得の加重和Ｇを更新することによって達成され得る。従って、現在のフレーム１０４についての利得の加重和Ｇ（ｎ＋１）は、次式によって与えられる：

Ｇ（ｎ）は、閾値利得Ｔ_Gainを超える前のフレーム１０１、１０２、１０３の影響を受ける。

一例として、Ｔ_Gain＝０．５である場合、第１のフレーム１０１の周波数帯域１００の計算された帯域利得は、０．４＜Ｔ_Gainであるため、所定の閾値利得Ｔ_Gainを超えないと決定される。次いで、利得の加重和Ｇの初期値が１の場合、第１の時間フレーム１０１の周波数帯域１００についての動的スケーリング係数ｋは、上記に従って、例えば、ｋ＝１－Ｇであるため、０であり得る。その結果、第１の処理されたフレーム１０１の帯域１００は、第１の（ノイズ低減されたオーディオ）オーディオ信号の計算された帯域１００に等しくなる。後続の時間フレーム１０２、１０３、１０４はそれぞれ、１未満でありつつ所定の閾値利得Ｔ_Gainを超える計算された帯域利得を特徴とするので、各後続のフレーム１０２、１０３、１０４の処理は、より低い値のＧを取得し、それに応答して、より大きい動的スケーリング係数ｋを取得することを含み、これは、適用された帯域利得が、計算された帯域利得から逸脱し始め、フレーム１０２、１０３、１０４の帯域１００についての元のオーディオ信号に近づくことを意味する。

図５の行によって表される各周波数帯域は、現在の時間フレーム１０４及び前の時間フレーム１０１、１０２、１０３の個々の周波数帯域の帯域利得を記述する帯域利得のそれぞれの加重和Ｇに関連付けられることが理解される。

更に、現在のフレーム１０４の計算された帯域利得ＢＧａｉｎ（ｎ＋１）が所定の閾値利得Ｔ_Gainを超え、計算された帯域利得ＢＧａｉｎ（ｎ＋１）もまた（線形単位で）１を超えることに応答して、計算された帯域ＢＧａｉｎ（ｎ＋１）は、帯域利得の加重和Ｇ（ｎ＋１）を更新する前に、所定の最大数値に設定され得る。所定の最大値は、（線形単位で）１であり得、これは、結果として得られる動的混合比ｋが０～１の範囲内に留まることが保証されることを意味する。

オフライン処理の場合、全ての時間フレーム１０１、１０２、１０３、１０４（図５の列によって表される）の各周波数帯域についての動的スケーリング係数ｋは、各周波数帯域についての所定の閾値利得Ｔ_Gainを超える全ての計算された帯域利得ＢＧａｉｎを平均して、帯域利得の加重和Ｇ又は動的スケーリング係数ｋが計算される平均帯域利得を形成することによって決定され得る。

いくつかの実装形態では、動的スケーリング係数は、各時間フレーム１０１、１０２、１０３、１０４の各周波数帯域のＶＡＤ確率に更に基づき得る。所定の閾値利得Ｔ_Gainが帯域利得の加重和Ｇを更新するための基準であることに加えて、ＶＡＤ確率は、更なる基準を定義し得る。この目的のために、動的スケーリング係数ｋを決定することは、現在のフレーム１０４の周波数帯域１００についてのＶＡＤ確率が所定のＶＡＤ確率閾値Ｔ_VADを超えるかどうかを決定することを更に含み得、所定のＶＡＤ確率閾値Ｔ_VADは、０．４（４０％）～０．６（６０％）、好ましくは、約０．５（５０％）である。従って、動的スケーリング係数ｋが現在のフレーム１０４について決定されるとき、オーディオ信号が音声を表す可能性が高い前のフレーム１０１、１０２、１０３及び現在のフレーム１０４の帯域利得ＢＧａｉｎのみが考慮される。

現在の時間フレーム１０４及び前の時間フレーム１０１、１０２、１０３の各帯域についての帯域利得及びオプションでＶＡＤ確率を考慮することによって、動的スケーリング係数ｋは、オーディオ信号の各フレーム（及び各帯域）が、利用可能な情報を与えられると、品質劣化を低下させるために適切な帯域利得ＢＧａｉｎを適用させるように、オンライン処理中に更新され得る。従って、処理されるオーディオ信号にかかわらず、動的スケーリング係数は、各追加の処理された時間フレーム１０１、１０２、１０３、１０４について、品質劣化を低下させるのに適した値に迅速に近づき得る。

オフライン処理の場合、オーディオ信号の全てのフレーム１０１、１０２、１０３、１０４における周波数帯域１００の帯域利得及びオプションでオーディオ情報が分析されて、オーディオ信号の全てのフレームについての帯域利得の適用を指示するために各周波数帯域についての動的スケーリング係数ｋを決定し得る。全ての時間フレームの各周波数帯域についての動的スケーリング係数は、各周波数帯域についての所定の確率閾値Ｔ_VAD及び所定の閾値利得Ｔ_Gainを超える全ての計算された帯域利得ＢＧａｉｎを平均して、帯域利得の加重和Ｇを形成することによって決定され得る。

図４によって示される更なる例では、現在のフレーム１０４についての特定の周波数帯域１００の帯域利得は、０．８（線形単位）として計算されるが、前の３つのフレーム１０１、１０２、１０３についての対応する計算された帯域利得は、時間が増加する順にそれぞれ０．４、０．６、０．７（線形単位）である。所定の閾値利得Ｔ_Gainが０．５である状況では、フレーム１０２、１０３、１０４の帯域利得は、帯域利得の加重和Ｇ、及び、現在のフレーム１０４についての結果として得られる動的スケーリング係数ｋに影響を与えるであろう。前のフレーム１０３が処理されたとき、フレーム１０２の帯域利得は、帯域利得の加重和Ｇに影響を与えたが、閾値利得Ｔ_Gainを下回っているフレーム１０１の帯域利得は、無視された。フレーム１０１、１０２、１０３、１０４の各帯域について計算されたＶＡＤ確率により、現在のフレーム１０４についての動的スケーリング係数ｋの選択に影響を与えるフレームの選択は異なる場合がある。例えば、前のフレーム１０３が確率閾値Ｔ_VADを下回るＶＡＤ確率を有する場合、フレーム１０２及び１０４のみが、現在のフレーム１０４についての動的スケーリング係数ｋの選択に影響を与え得、フレーム１０２は、低すぎる帯域利得により無視され、フレーム１０３は、低すぎるＶＡＤ確率により無視される。

図６は、いくつかの実装形態による、Ｓ１において受信されたバイノーラルオーディオ信号を処理するための方法を示す。バイノーラルオーディオ信号のオーディオ信号は、左オーディオ信号Ｌ及び右オーディオ信号Ｒであるか、又は少なくとも代替表現から左オーディオ信号Ｌ及び右オーディオ信号Ｒに変換され、Ｓ１２に提供される（オプションで、後述するようにＳ１１を介してＳ１２に提供される）。

左オーディオ信号Ｌ及び右オーディオ信号Ｒは、Ｓ１２において組み合わされて、左オーディオ信号Ｌ及び右オーディオ信号Ｒの代替表現である中間オーディオ信号Ｍ及びサイドオーディオ信号Ｓを形成する。中間オーディオ信号Ｍは、左オーディオ信号Ｌと右オーディオ信号Ｒとの和によって推定される。例えば、中間オーディオ信号Ｍは、次のように推定され得る：

同様に、サイドオーディオ信号Ｓは、左オーディオ信号Ｌと右オーディオ信号Ｒとの間の差によって推定され得る。例えば、サイドオーディオ信号Ｓは、次のように推定され得る：

推定された中間オーディオ信号Ｍ及びサイドオーディオ信号Ｓの各々又は１つは、第１のオーディオ信号及び／又は第２のオーディオ信号を構成し、本開示の説明された実装形態に従って処理され得る。例えば、サイドオーディオ信号Ｓ及び中間オーディオ信号Ｍの両方が、図３からの処理シーケンスＳ２ａ及びＳ２ｂで別々に処理され得る。サイドオーディオ信号Ｓのオーディオ処理は、中間オーディオ信号Ｍのオーディオ処理と異なっていてもよい。一実装形態では、Ｓ２ａにおけるサイドオーディオ信号Ｓの処理では、Ｓ２ｂにおける中間オーディオ信号Ｍの処理と比較して、より積極的なノイズ低減が使用される。記録されたノイズのより大きな部分がサイドオーディオ信号Ｓに存在すると仮定されるので、サイドオーディオ信号Ｓ中のノイズをより多く低減することで、処理されたサイドオーディオ信号ＰＳ及び処理された中間オーディオ信号ＰＭが再結合されて処理されたバイノーラルオーディオ信号を形成するときに、信号品質を向上させる。

元の左オーディオ信号Ｌ及び右オーディオ信号Ｒの処理されたバージョン、すなわち、処理された左オーディオ信号ＰＬ及び処理された右オーディオ信号ＰＲを再現する（recreate）ために、処理されたサイドオーディオ信号ＰＳ及び処理された中間オーディオ信号ＰＭは、Ｓ２８において、和及び差として再結合され、それぞれ、処理された左オーディオ信号ＰＬ及び処理された右オーディオ信号ＰＲを形成し得る。例えば、処理された左オーディオ信号ＰＬは、次のように推定され得る：

ここにおいて、処理された右オーディオ信号ＰＲは、次のように推定され得る：

いくつかの実装形態では、Ｓ４において、追加の記録デバイスからの追加のオーディオ信号が受信される。追加のオーディオ信号は、バイノーラルオーディオ信号に同期され、第１のオーディオ信号及び第２のオーディオ信号に対して、別々に処理され得るか、又は結合様式で処理され得る（例えば、モノチャネルノイズ低減モデルを提供するために第１のオーディオ信号及び第２のオーディオ信号と一緒に考慮される）。例えば、追加のオーディオ信号の処理は、第１の処理シーケンスＳ２ａ及び第２の処理シーケンスＳ２ｂにおける第１のオーディオ信号及び第２のオーディオ信号の処理と同等であり得る。処理された追加のオーディオ信号ＰＡは、Ｓ２８において抽出されたバイノーラル出力オーディオ信号におけるサイド情報として提供され得る。

代替的に、追加のオーディオ信号は、Ｓ１１において、バイノーラルオーディオ信号の左オーディオ信号Ｌ及び右オーディオ信号Ｒと同期され、混合される。追加のオーディオ信号Ａの混合は、左オーディオ信号Ｌ及び右オーディオ信号Ｒのそれぞれに対して同じ所定の混合比で実行され得る。例えば、追加のオーディオ信号Ａの混合比は、左オーディオ信号Ｌと混合する場合０．３であり、右オーディオ信号Ｒと混合する場合０．３である。追加のオーディオ信号Ａが発話を含む可能性が高いと（例えば、ＶＡＤ確率を計算することによって）決定された場合、所定の混合比は、例えば、追加のオーディオ信号Ａの結果として得られる混合比が、左オーディオ信号Ｌと混合する場合０．７であり、右オーディオ信号Ｒと混合する場合０．７となるように、混合利得を適用することによって増加され得る。追加のオーディオ信号Ａは、左オーディオ信号Ｌ及び右オーディオ信号Ｒとの混合の前に、前処理、例えば、ノイズ低減又はＶＡＤ確率抽出を受け得る。Ｓ３において得られた結果として得られたバイノーラル出力オーディオ信号は、追加の記録デバイスによってキャプチャされた第２の関心のある音源からのオーディオのより正確な再現を容易にし得る。

いくつかの実装形態では、バイノーラル記録デバイス及び追加の記録デバイスの周波数応答が得られる。周波数応答は、各周波数帯域について各デバイスによってキャプチャされたエネルギーを表す尺度を記録することによって取得され得る。例えば、イコライゼーション曲線（equalization curve）で表され得る、各デバイスに関連付けられたイコライゼーション情報（equalization information）の周波数応答を比較することによって、イコライゼーション情報が計算され、バイノーラルオーディオ信号（第１のオーディオ信号及び第２のオーディオ信号の各々）及び追加のオーディオ信号のうちの少なくとも１つに適用され得る。例えば、イコライゼーション情報は、バイノーラル記録デバイスによってキャプチャされた帯域ごとのエネルギーを追加の記録デバイスによってキャプチャされた帯域ごとのエネルギーと比較することによって抽出される帯域ごとの利得を含み得る。

バイノーラル記録デバイス及び追加の記録デバイスは、異なる周波数応答を特徴とし得るので、イコライゼーション曲線といったイコライゼーション情報の適用は、バイノーラル記録デバイス及び追加の記録デバイスの調性が一致するようにする。その結果、各記録によってキャプチャされた音源の混合がより均質になり、記録デバイスによってキャプチャされる音源の明瞭度を向上させる。

いくつかの実装形態では、Ｓ１１における、Ｓ４からの追加のオーディオ信号とバイノーラルオーディオ信号との混合利得及び／又はバイノーラルオーディオ信号の混合利得は、ＶＡＤ確率に基づいて調整される。例えば、追加のオーディオ信号についてのＶＡＤ確率が抽出され得、追加のオーディオ信号が発話を含む可能性が高いことをＶＡＤ確率が示す場合、Ｓ１１においてバイノーラルオーディオ信号Ｌ、Ｒと混合するときに、１より大きい線形の混合利得を追加のオーディオ信号に適用して、例えば、追加の記録デバイスに近いインタビュー対象者の発話をブーストし得る。更に、中間オーディオ信号について抽出されたＶＡＤ確率が、中間オーディオ信号Ｍが発話を含む可能性が高いことを示す場合、Ｓ２８において、１より大きい線形の利得を中間オーディオ信号Ｍに適用して、例えば、バイノーラル記録デバイスを装着しているユーザの発話をブーストし得る。

バイノーラルオーディオ信号の処理において又はバイノーラルオーディオ信号及び追加のオーディオ信号の処理において、骨振動センサ信号ＢＶが考慮され得る。各処理シーケンスＳ２ａ、Ｓ２ｂは、上記に従って骨振動センサ信号ＢＶを受信し得る。

代替的又は追加的に、骨振動センサ信号ＢＶは、Ｓ１１におけるバイノーラルオーディオ信号と追加の信号Ａとの混合をステアリングするためのＶＡＤ確率又は拡張ＶＡＤ確率を確立するために使用されてもよい。例えば、バイノーラル記録デバイスのユーザが話している可能性が低いことを骨振動センサ信号ＢＶが示す場合、Ｓ１１において、１よりも大きい線形の混合利得を適用して、追加のオーディオ信号Ａをブーストし得る。いくつかの実装形態では、骨振動センサ信号ＢＶから推定されたＶＡＤは、発話が、バイノーラル記録デバイスを装着しているユーザから発せられているのか、又は第２の関心のある音源から発せられているのかを決定するために使用される。例えば、骨振動センサがバイノーラル記録デバイスのユーザによって装着され、骨振動オーディオ信号ＢＶから抽出されたＶＡＤ確率が、音声オーディオが存在する可能性が高いことを示す場合、バイノーラル記録デバイスを装着しているユーザが話していると決定される。骨振動オーディオ信号ＢＶから抽出されたＶＡＤ確率が、音声オーディオが存在する可能性が低いことを示す場合、バイノーラル記録デバイスを装着しているユーザが話していないと決定され得る。ユーザが話していないと決定されたことに応答して、追加のオーディオ信号及び／又はサイドオーディオ信号Ｓは、インタビュー対象者が話している場合など、周囲からの任意のオーディオを強化するためにブーストされる。ユーザが話していると決定されたことに応答して、中間オーディオ信号は、ユーザの音声を強化するためにブーストされる。

左オーディオ信号Ｌ及び右オーディオ信号Ｒに対して同じ混合比で追加のオーディオ信号を混合する代わりに、中間オーディオ信号Ｍが、追加のオーディオ信号から単独で又は主に抽出され得、サイドオーディオ信号が、左オーディオ信号Ｌ及び右オーディオ信号Ｒから単独で又は主に抽出される。

いくつかの実装形態では、バイノーラル記録デバイスの骨振動センサから発せられる骨振動センサ信号は、検出された音声の発生源を決定するために、追加のオーディオ信号の抽出されたＶＡＤ確率とともに使用される。例えば、追加のオーディオ信号のＶＡＤは高いが、骨振動センサ信号が振動をほとんど又は全く示さない場合、検出された音声の発生源はバイノーラル記録デバイスの装着者ではないと確定され得る。代替的に、追加のオーディオ信号のＶＡＤ確率が高く、骨振動センサ信号が発話に関連付けられた骨振動を示す場合、検出された音声の発生源はバイノーラル記録デバイスの装着者であると確定され得る。

この目的のために、検出された音声の確定された発生源に応じて、異なるノイズ低減方法が、バイノーラルオーディオ信号及び／又は追加のオーディオ信号に採用され得る。例えば、音声が追加の記録デバイスの装着者から発せられる場合、バイノーラル記録デバイスの装着者と追加の記録デバイスとの間のチャネルによって追加されるノイズを抑制するのに特化した第１のノイズ低減技術が採用され得る。音声が別の関心のある音源からから発せられる場合、別のノイズ低減技術が、別の関心のある音源と追加の記録デバイスとの間のチャネルのノイズを低減するのにより適している。

追加的又は代替的に、検出された音声の発生源に応じて、バイノーラルオーディオ信号及び追加のオーディオ信号の相対利得がそれに応じて変調され得る。例えば、音声が別の関心のある音源から発せられていることが確定された場合、バイノーラルオーディオに対する追加のオーディオ信号の利得を増加させる。音声がバイノーラルオーディオ信号の装着者から発せられていることが確定された場合、バイノーラルオーディオに対する追加のオーディオ信号の利得を低下させる。

図７は、いくつかの実装形態によるレンダリング方法を説明するフローチャートを示す。ヘッドホンを通じてバイノーラルオーディオ信号を再生することに加えて、スピーカシステム（例えば、ＨｉＦｉシステム又はサラウンドサウンドシステム）において又はポータブルデバイスにおいて複数のスピーカを使用することは別の一般的な選択肢である。ポータブルデバイスは、例えば、２つの上部スピーカ及び２つの下部スピーカといった４つの独立したスピーカを有するタブレットであり得、各スピーカは、個々の電力増幅器を介して供給される。この目的のために、バイノーラルオーディオ信号を少なくとも４つのスピーカにレンダリングするためのレンダリング方法が提供される。

いくつかの実装形態では、バイノーラルオーディオ信号は、処理された左オーディオ信号ＰＬ及び処理された右オーディオ信号ＰＲといった一対のオーディオ信号を含む。バイノーラルオーディオ信号のレンダリングは、Ｓ２０５で得られたパンニング情報（panning information）及びＳ２１０で得られたクロストークキャンセル情報をバイノーラルオーディオ信号に適用するという２つのカスケードされた手順に基づいており、一般に、Ｎチャネルスピーカシステム上でバイノーラル信号をレンダリングするように拡張され得る。ここで、Ｎは、４以上の自然数であり、スピーカシステムの少なくとも２つのスピーカは、左右のスピーカ対を形成する。Ｎチャネルレンダリング信号Ｓは、次のように求められ得る：
ここで、Ｍは、次元Ｎ×２のパンニング情報を表すパンニングマトリックス（panning matrix）であり、Ｘは、サイズＮ×Ｎのクロストークキャンセルマトリックスである。パンニングマトリックスは、スピーカにパンニングされるべき振幅比を示し、いくつかの実装形態では、パンニング情報は、少なくとも１つの左右のスピーカ対のための中心パンニング（パンニングマトリックスＭにおける等しい行エントリ）を示す。従って、バイノーラルオーディオ信号は、Ｎチャネルスピーカ上でレンダリングされ得る。

Ｓ２０１において、バイノーラルオーディオ信号が得られ、Ｓ２０５において、スピーカシステムの少なくとも１つの左右のスピーカ対についての中心パンニングを示すパンニング情報（例えば、パンニングマトリックスＭ）が生成される。

いくつかの実装形態では、Ｓ２０１で得られた（処理された左オーディオ信号ＰＬ及び処理された右オーディオ信号ＰＲである）２つのオーディオ信号をもつバイノーラルオーディオ信号に加えて、Ｓ２０２において、（追加の記録デバイスによって記録された追加のオーディオ信号Ａから発せられる）処理された追加のオーディオ信号ＰＡが得られる。Ｎチャネルレンダリング信号Ｓは、Ｓ２２０において、次のように求められ得る：
ここで、Ｍ₁は、バイノーラルオーディオ信号のためのパンニングマトリックス（次元Ｎ×２）であり、Ｍ₂は、処理された追加のオーディオ信号のためのパンニングマトリックス（次元Ｎ×１）である。パンニングマトリックスＭ₁によって表されるパンニング情報及びパンニングマトリックスＭ₂によって表されるパンニング情報は、個別に設定され得、例えば、Ｍ₁は、少なくとも１つのスピーカ対のための中心パンニングを示し得、Ｍ₂は、全てのスピーカに対するパンニングを示す。例えば、４つのスピーカを有するタブレットでは、Ｍ₁は、（周囲オーディオを提供するために）スピーカの一番上の対に対するパンニングを示し得、Ｍ₂は、（第２の関心のある音源からクリアなオーディオを提供するために）４つ全てのスピーカに対するパンニングを示す。従って、タブレットのユーザには、バイノーラル記録デバイス及び追加の記録デバイスから発せられるより理解しやすい発話が提供され得る。

パラメータｇ₁及びｇ₂は、追加のオーディオ信号に対するバイノーラルオーディオ信号の信号電力レベルを設定する、バイノーラルオーディオ信号及び追加のオーディオ信号のそれぞれの混合係数を示す。

クロストークキャンセルマトリックスＸ₁は、バイノーラルオーディオ信号がレンダリングされる少なくとも１つのスピーカ対についてのクロストークキャンセル情報を表す。

上記によれば、処理された追加のオーディオ信号を伴うバイノーラルオーディオ信号は、バイノーラル記録デバイスを装着しているユーザ及び第２の関心のある音源（例えば、追加の記録デバイスの近くにいるインタビュー対象者）の音声をより明確に再現するために、Ｎチャネルスピーカシステムにレンダリングされ得る。

従って、スピーカシステムは、第２の関心のある音源からのオーディオを強化するために、追加のオーディオ信号を伴うバイノーラルオーディオ信号をレンダリングし得る。追加のオーディオ信号を全てのスピーカにパンニングすることによって、追加のオーディオ信号が明瞭に知覚され、バイノーラル信号は、周囲オーディオ効果を提供するために少なくとも１つのスピーカ対上でレンダリングされる。

一実施形態では、システムは、１つ又は複数のコンピュータプロセッサと、命令を記憶する非一時的コンピュータ可読媒体とを備え、命令は、１つ又は複数のプロセッサによって実行されると、１つ又は複数のプロセッサに、前述の方法クレームのいずれか１つの動作を実行させる。

一実施形態では、非一時的コンピュータ可読媒体は、１つ又は複数のコンピュータプロセッサによって実行されると、１つ又は複数のプロセッサに、前述の方法クレームのいずれか１つの動作を実行させる命令を記憶する。

本開示の例示的な実施形態によれば、上記で説明したプロセスは、コンピュータソフトウェアプログラムとして又はコンピュータ可読記憶媒体上で実装され得る。例えば、本開示の実施形態は、機械可読媒体上に有形に具現化されたコンピュータプログラムを含むコンピュータプログラム製品を含み、コンピュータプログラムは、方法を実行するためのプログラムコードを含む。このような実施形態では、コンピュータプログラムは、通信ユニットを介してネットワークからダウンロードされてマウントされ得、及び／又はリムーバブル媒体からインストールされ得る。

一般に、本開示の様々な例示的な実施形態は、ハードウェア又は専用回路（例えば、制御回路）、ソフトウェア、ロジック又はそれらの任意の組合せで実装され得る。例えば、上述したユニットは、制御回路（例えば、他の構成要素と組み合わせたＣＰＵ）によって実行され得、従って、制御回路は、本開示で説明したアクションを実行している可能性がある。いくつかの態様はハードウェアで実装され得るが、他の態様は、コントローラ、マイクロプロセッサ又は他のコンピューティングデバイス（例えば、制御回路）によって実行され得るファームウェア又はソフトウェアで実装され得る。本開示の例示的な実施形態の様々な態様は、ブロック図、フローチャートとして又は何らかの他の図的記述を使用して例示及び説明されるが、本明細書で説明されるブロック、装置、システム、技法又は方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路若しくはロジック、汎用ハードウェア若しくはコントローラ若しくは他のコンピューティングデバイス又はそれらの何らかの組合せで実装され得ることが理解されよう。

追加的に、フローチャートに示された様々なブロックは、方法ステップとして、及び／又はコンピュータプログラムコードの動作の結果得られた動作として、及び／又は関連する機能（複数可）を実行するように構築された複数の結合された論理回路要素として見なされ得る。例えば、本開示の実施形態は、機械可読媒体上に有形に具現化されたコンピュータプログラムを含むコンピュータプログラム製品を含み、コンピュータプログラムは、上記で説明した方法を実行するように構成されたプログラムコードを含む。

本開示の文脈では、機械可読媒体は、命令実行システム、装置若しくはデバイスによって又はそれに関連して使用するためのプログラムを包含又は記憶し得る任意の有形媒体であり得る。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であり得る。機械可読媒体は、非一時的であってもよく、電子、磁気、光学、電磁気、赤外線、若しくは半導体のシステム、装置、若しくはデバイス又は上記の任意の適切な組合せを含み得るが、これらに限定されない。機械可読記憶媒体のより具体的な例には、１つ又は複数のワイヤを有する電気接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読取り専用メモリ（ＣＤ－ＲＯＭ）、光記憶デバイス、磁気記憶デバイス又は上記の任意の適切な組合せが含まれるであろう。

本開示の方法を実行するためのコンピュータプログラムコードは、１つ又は複数のプログラミング言語の任意の組合せで書かれ得る。これらのコンピュータプログラムコードは、汎用コンピュータ、専用コンピュータ又は制御回路を有する他のプログラマブルデータ処理装置のプロセッサに提供され得、その結果、プログラムコードは、コンピュータ又は他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャート及び／又はブロック図で指定された機能／動作を実装させる。プログラムコードは、完全にコンピュータ上で、部分的にコンピュータ上で、独立型ソフトウェアパッケージとして、部分的にコンピュータ上及び部分的に遠隔コンピュータ上で又は完全に遠隔コンピュータ若しくはサーバ上で又は１つ又は複数の遠隔コンピュータ及び／若しくはサーバを経由して分散されて、実行され得る。

本文書は多くの特定の実装形態の詳細を含んでいるが、これらは、特許請求され得るものの範囲に対する限定として解釈されるべきではなく、むしろ、特定の実施形態に固有であり得る特徴の説明として解釈されるべきである。別々の実施形態の文脈で本明細書に記載されている特定の特徴は、単一の実施形態において組み合わせて実装することも可能である。逆に、単一の実施形態の文脈で説明される様々な特徴は、複数の実施形態で別々に又は任意の適切な部分組合せで実施することも可能である。更に、特徴は、特定の組合せで作用するものとして上記で説明され、最初にそのように請求されることさえあるが、請求される組合せからの１つ又は複数の特徴は、場合によっては、その組合せから削除することができ、請求される組合せは、部分組合せ又は部分組合せの変形形態を対象とし得る。図に示された論理フローは、所望の結果を達成するために、示された特定の順序又は連続的な順序を必要としない。加えて、他のステップが提供されてもよいし、ステップが、説明されるフローから排除されてもよく、他の構成要素が、説明されるシステムに追加されてよいし、そこから除去されてもよい。従って、他の実装形態は、以下の特許請求の範囲内にある。

本発明の第１の態様によれば、請求項１に従って、入力バイノーラルオーディオ信号を表す第１のオーディオ信号及び第２のオーディオ信号を処理するための方法が提供される。本発明の第１の態様の方法は、請求項１に記載されている通りである。

本発明の第３の態様によれば、請求項２０に従って、オーディオ処理デバイスが提供される。

Claims

バイノーラル記録デバイスによって取得された入力バイノーラルオーディオ信号を表す第１のオーディオ信号及び第２のオーディオ信号を処理するための方法であって、
前記第１のオーディオ信号からオーディオ情報を抽出するステップであって、前記オーディオ情報は、前記第１のオーディオ信号を表す複数の周波数帯域を含む、ステップと、
前記第１のオーディオ信号の各周波数帯域について、前記第１のオーディオ信号中のノイズを低減するための帯域利得を計算するステップと、
動的スケーリング係数に従って前記帯域利得を前記第１のオーディオ信号のそれぞれの周波数帯域に適用して、第１の出力オーディオ信号を提供するステップであって、
前記動的スケーリング係数は、０と１との間の値を有し、０の値は全帯域利得が適用されることを示し、１の値は帯域利得が適用されないことを示し、
前記動的スケーリング係数は、前記第１のオーディオ信号の品質劣化を低減するように前記オーディオ情報に基づく、
ステップと、
前記第２のオーディオ信号に基づいて第２の出力オーディオ信号を提供するステップと、
前記第１の出力オーディオ信号及び前記第２の出力オーディオ信号に基づいてバイノーラル出力オーディオ信号を決定するステップと
を含む方法。
前記第２のオーディオ信号に基づいて第２の出力オーディオ信号を提供するステップは、前記第１のオーディオ信号を処理する前記ステップに対応する別個の処理ステップを含む、請求項１に記載の方法。
前記第１の出力オーディオ信号を提供するステップは、
前記帯域利得を前記第１のオーディオ信号のそれぞれの周波数帯域に適用することによって、ノイズ低減されたオーディオ信号を計算するステップと、
前記動的スケーリング係数に等しい混合比で、前記第１のオーディオ信号の各周波数帯域を前記ノイズ低減されたオーディオ信号の対応する周波数帯域と混合して、前記第１の出力オーディオ信号を提供するステップと
を含む、請求項１又は２に記載の方法。
前記第１の出力オーディオ信号を提供するステップは、
各帯域について、ｋ＋（１－ｋ）Ｂｇａｉｎとして動的帯域利得を計算するステップであって、ｋは前記動的スケーリング係数であり、Ｂｇａｉｎは前記計算された帯域利得である、ステップと、
第１のオーディオ信号の各帯域に対して前記動的帯域利得を適用して、前記第１の出力オーディオ信号を提供するステップと
を含む、請求項１又は２に記載の方法。
各周波数帯域についての前記動的スケーリング係数は、前記第１のオーディオ信号の現在の時間フレーム及び前の時間フレームの対応する周波数帯域に関連付けられた前記帯域利得に基づく、請求項１から４のいずれか一項に記載の方法。
各動的スケーリング係数は、所定の閾値利得を超える前記現在の時間フレーム及び前記前の時間フレームの帯域利得に基づく、請求項５に記載の方法。
前記第１のオーディオ信号の各周波数帯域について、音声アクティビティ検出（ＶＡＤ）確率を計算するステップを更に含み、
各動的スケーリング係数は、ＶＡＤ確率が所定のＶＡＤ確率閾値を超える前記現在の時間フレーム及び前記前の時間フレームの帯域利得に基づく、
請求項５又は６に記載の方法。
前記動的スケーリング係数は、帯域利得の加重和に基づき、前記加重和は、前の時間フレームからの帯域利得を含み、前記方法は、
前記現在の時間フレームの前記帯域利得が所定の閾値利得を超えると決定するステップと、
前記現在のフレームに関連する前記帯域利得が前記所定の閾値利得を超える場合には、
現在の加重和を、前記現在の時間フレームの前記帯域利得と、前の時間フレームからの帯域利得を含む加重和との加重和として計算するステップと
を更に含む、請求項５から７のいずれか一項に記載の方法。
前記動的スケーリング係数は、１－Ｇとして決定され、Ｇは、前の時間フレームの周波数帯域からの帯域利得を少なくとも含む帯域利得の加重和である、請求項５から８のいずれか一項に記載の方法。
各周波数帯域についての前記動的スケーリング係数を決定するステップは、オフラインで実行され、各動的スケーリング係数は、前記第１のオーディオ信号の全ての時間フレームの対応する周波数帯域に関連付けられた前記帯域利得に基づく、請求項１から４のいずれか一項に記載の方法。
前記第１のオーディオ信号の各周波数帯域について、ＶＡＤ確率を計算するステップと、
全てのフレームからの前記平均帯域利得に基づいて、前記第１のオーディオ信号の各周波数帯域についての動的スケーリング係数を決定するステップであって、前記帯域利得は所定の閾値利得を超え、前記ＶＡＤ確率は所定の確率閾値を超える、ステップと
を更に含む、請求項１０に記載の方法。
前記２つのオーディオ信号は、左チャネルオーディオ信号及び右チャネルオーディオ信号であり、前記方法は、
前記第１のオーディオ信号を中間チャネルオーディオ信号として推定するステップであって、前記中間信号は前記左信号と前記右信号との和から計算される、ステップと、
前記第２のオーディオ信号をサイドチャネルオーディオ信号として推定するステップであって、前記サイド信号は、前記左信号と前記右信号との間の差から計算される、ステップと、
前記中間出力信号とサイド出力信号との和として左出力オーディオ信号を推定すること、及び
前記中間出力信号とサイド出力信号との差として右出力オーディオ信号を推定すること
によって、前記バイノーラル出力オーディオ信号を決定するステップと
を更に含む、請求項１から１１のいずれか一項に記載の方法。
追加の記録デバイスからの追加のオーディオ信号を処理するステップを更に含み、前記方法は、
前記追加のオーディオ信号を前記バイノーラルオーディオ信号と同期させるステップと、
前記追加のオーディオ信号に基づいて追加の出力オーディオ信号を提供するステップと
を更に含む、請求項１から１２のいずれか一項に記載の方法。
骨振動センサによって取得された骨振動センサ信号を処理するステップを更に含み、前記方法は、
前記骨振動センサ信号を前記バイノーラルオーディオ信号と同期させるステップと、
前記骨振動センサ信号に基づいて前記追加のオーディオ信号の利得を制御するステップと
を更に含む、請求項１３に記載の方法。
前記バイノーラル記録デバイスの骨振動センサによって取得された骨振動センサ信号を処理するステップを更に含み、前記方法は、
前記骨振動センサ信号を前記バイノーラルオーディオ信号と同期させるステップと、
前記追加のオーディオ信号のＶＡＤ確率を抽出するステップと、
前記ＶＡＤ確率及び前記骨振動センサ信号に基づいて、検出された音声の発生源を決定するステップと、
前記発生源が、前記骨振動センサを有する前記バイノーラル記録デバイスの前記装着者である場合、第１のオーディオ処理スキームを用いて前記追加のオーディオ信号を処理するステップと、
前記発生源が、前記骨振動センサを有する前記バイノーラル記録デバイスの前記装着者以外である場合、第２のオーディオ処理スキームを用いて前記追加のオーディオ信号を処理するステップと
を更に含む、請求項１３に記載の方法。
前記第１のオーディオ処理スキーム及び前記第２のオーディオ処理スキームは、異なる形態のノイズ低減を実装する、請求項１５に記載の方法。
前記第１のオーディオ処理スキーム及び前記第２のオーディオ処理スキームは、前記追加のオーディオ信号に対して異なる信号利得を実装する、請求項１５又は１６に記載の方法。
前記オーディオ情報は、
前記第１のオーディオ信号の前記ＳＮＲ、
前記第１のオーディオ信号の前記基本周波数、
前記第１のオーディオ信号の前記ＶＡＤ確率、
骨振動センサによって取得された骨振動センサ信号、
骨振動センサによって取得された骨振動センサ信号から抽出された基本周波数、及び
骨振動センサによって取得された骨振動センサ信号から抽出されたＶＡＤ確率、
のうちの１つ又は複数を更に含む、請求項１から１７のいずれか一項に記載の方法。
前記骨振動センサ信号から抽出された前記ＶＡＤ確率に基づいて、前記第１のオーディオ信号の利得を制御するステップ
を更に含む、請求項１８に記載の方法。
前記第１のオーディオ信号の各周波数帯域についての帯域利得を計算するステップは、トレーニングされたニューラルネットワークを用いて前記オーディオ情報から前記帯域利得を予測するステップを含む、請求項１から１９のいずれか一項に記載の方法。
コンピュータ上で実行されたときに、請求項１から２０のいずれか一項に記載の方法を実行するためのコンピュータプログラムコードを含むコンピュータプログラム製品。
バイノーラル記録デバイスによって取得された入力バイノーラルオーディオ信号を表す第１のオーディオ信号及び第２のオーディオ信号及び追加の記録デバイスからの追加のオーディオ信号を処理するための方法であって、
前記追加のオーディオ信号を前記バイノーラルオーディオ信号と同期させるステップと、
前記バイノーラル記録デバイスの骨振動センサによって取得された骨振動センサ信号を受信するステップと、
前記骨振動センサ信号を前記バイノーラルオーディオ信号と同期させるステップと、
前記追加のオーディオ信号のＶＡＤ確率を抽出するステップと、
前記ＶＡＤ確率及び前記骨振動センサ信号に基づいて、検出された音声の発生源を決定するステップと、
前記発生源が、前記骨振動センサを有する前記バイノーラル記録デバイスの前記装着者である場合、第１のオーディオ処理スキームを用いて前記追加のオーディオ信号を処理するステップと、
前記発生源が、前記骨振動センサを有する前記バイノーラル記録デバイスの前記装着者以外である場合、第２のオーディオ処理スキームを用いて前記追加のオーディオ信号を処理するステップと、
前記処理された追加のオーディオ信号に基づいて追加の出力オーディオ信号を提供するステップと、
前記第１のオーディオ信号及び第２のオーディオ信号に基づいて第１の出力オーディオ信号及び第２の出力オーディオ信号を提供するステップと、
前記第１の出力オーディオ信号及び前記第２の出力オーディオ信号に基づいてバイノーラル出力オーディオ信号を決定するステップと
を含む方法。
前記第１のオーディオ処理スキーム及び前記第２のオーディオ処理スキームは、異なる形態のノイズ低減を実装する、請求項２２に記載の方法。
前記第１のオーディオ処理スキーム及び前記第２のオーディオ処理スキームは、前記追加のオーディオ信号に対して異なる信号利得を実装する、請求項２２又は２３に記載の方法。
オーディオ処理デバイスであって、
バイノーラル記録デバイスによって取得された入力バイノーラルオーディオ信号を受信する受信機であって、前記入力バイノーラルオーディオ信号は、第１のオーディオ信号及び第２のオーディオ信号を含む、受信機と、
前記受信機から前記第１のオーディオ信号を受信し、前記第１のオーディオ信号からオーディオ情報を抽出するように構成された抽出ユニットであって、前記オーディオ情報は、前記第１のオーディオ信号を表す複数の周波数帯域を含む、抽出ユニットと、
前記オーディオ情報を受信し、前記第１のオーディオ信号の各周波数帯域について、前記第１のオーディオ信号中のノイズを低減するための帯域利得を計算するように構成された処理デバイスと、
動的スケーリング係数に従って前記帯域利得を前記第１のオーディオ信号のそれぞれの周波数帯域に適用して、第１の出力オーディオ信号を提供するように構成された適用ユニットであって、前記動的スケーリング係数は、０と１との間の値を有し、０の値は全帯域利得が適用されることを示し、１の値は帯域利得が適用されないことを示し、前記動的スケーリング係数は、前記第１のオーディオ信号の品質劣化を低減するように前記オーディオ情報に基づく、適用ユニットと、
前記第２のオーディオ信号に基づいて第２の出力オーディオ信号を提供するように構成された追加の処理モジュールと、
前記第１の出力オーディオ信号及び前記第２の出力オーディオ信号に基づいてバイノーラル出力オーディオ信号を決定するように構成された出力段と
を備えるオーディオ処理デバイス。