JP7210602B2

JP7210602B2 - オーディオ信号の処理用の方法及び装置

Info

Publication number: JP7210602B2
Application number: JP2020545268A
Authority: JP
Inventors: ▲傳▼▲増▼ 黄
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2018-10-12
Filing date: 2019-01-24
Publication date: 2023-01-23
Anticipated expiration: 2039-01-24
Also published as: GB2590256A; JP2021535632A; CN111050271A; GB202100831D0; WO2020073563A1; US20210029486A1; CN111050271B; US11425524B2; GB2590256B

Description

本出願は、出願人である北京微播視界科技有限公司が２０１８年１０月１２日付で出願した（出願番号が２０１８１１１９０４１５.４、発明の名称が「オーディオ信号の処理用の方法及び装置」である中国特許出願に基づくものであり、その内容の全てをここに参照として取り込まれる。

本開示の実施例はコンピュータ技術分野に関し、具体的にオーディオ信号の処理用の方法及び装置に関する。

インターネット技術と電子技術との結合程度がますます高くなっていくにつれて、電子機器のインテリジェント化、人間化に対する要求もますます高くなっていく。携帯電話及び携帯電子端末の使用普及度がますます高まり、マルチメディア機能がユーザに最も広く使われているアップリケ―ションの一つである。

現在、オーディオ処理分野において、リアルに近い音場を模擬するために、通常、左右のチャンネルのラウドネス差を調整する方法と、左右のチャンネルの両耳間時差を調整する方法が適用される。

本開示の実施例はオーディオ信号の処理用の方法及び装置を提案する。

第一の様態では、本開示の実施例はオーディオ信号の処理用の方法を提供している。この方法は、目標ユーザの頭部画像と処理対象オーディオ信号とを取得することと、頭部画像に基づいて、目標ユーザの頭部姿勢角を特定し、目標音源と目標ユーザの頭部との距離を特定することと、所定の頭部関連伝達関数に、頭部姿勢角、距離および処理対象オーディオ信号を入力して、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を得ることと、を含め、頭部関連伝達関数は、頭部姿勢角、距離、処理対象オーディオ信号と、処理後左チャンネルオーディオ信号および処理後右チャンネルオーディオ信号との対応関係を表すためのものである。

ある実施例では、頭部画像に基づいて、目標ユーザの頭部姿勢角を特定することには、頭部画像と頭部画像に示されるユーザの頭部姿勢角との対応関係を表すための、予めトレーニングされた頭部姿勢識別モデルに、頭部画像を入力して、目標ユーザの頭部姿勢角を得ること、を含む。

ある実施例では、頭部姿勢識別モデルは、複数のサンプル頭部画像と、複数のサンプル頭部画像におけるサンプル頭部画像に対応するサンプル頭部姿勢角とを取得するステップと、機械学習方法を利用して、複数のサンプル頭部画像におけるサンプル頭部画像を入力として、入力されたサンプル頭部画像に対応するサンプル頭部姿勢角を所望の出力とするステップと、に従って予めトレーニングすることで得られる。

ある実施例では、目標音源と目標ユーザの頭部との距離を特定することには、頭部画像の大きさを特定することと、所定の頭部画像の大きさと距離との対応関係に基づいて、目標音源と目標ユーザの頭部との距離を特定することと、を含む。

ある実施例では、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を得ることの後には、該方法は、さらに、予め特定された、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号とのラウドネス差を初期ラウドネス差として取得することと、ラウドネス調整後の処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号とのラウドネス差と、初期ラウドネス差との差分値が第一所定範囲にあるように、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号の強度をそれぞれ調整することと、を含む。

ある実施例では、当該方法は、さらに、予め特定された、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号との両耳間時差を初期両耳間時差として取得することと、
両耳間時差調整後の処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号との両耳間時差と、初期両耳間時差との差分値が第二所定範囲にあるように、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号との両耳間時差を調整することと、を含む。

第二の様態では、本開示の実施例はオーディオ信号の処理用の装置を提供している。この装置は、目標ユーザの頭部画像と処理対象オーディオ信号とを取得するように配置された第一取得手段と、頭部画像に基づいて、目標ユーザの頭部姿勢角を特定し、目標音源と目標ユーザの頭部との距離を特定するように配置された特定手段と、所定の頭部関連伝達関数に、頭部姿勢角、距離および処理対象オーディオ信号を入力して、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を得るように配置された処理手段と、を備え、頭部関連伝達関数は、頭部姿勢角、距離、処理対象オーディオ信号と、処理後左チャンネルオーディオ信号および処理後右チャンネルオーディオ信号との対応関係を表すためのものである。

ある実施例では、特定手段は、頭部画像と頭部画像に示されるユーザの頭部姿勢角との対応関係を表すための、予めトレーニングされた頭部姿勢識別モデルに、頭部画像を入力して、目標ユーザの頭部姿勢角を得るように配置された識別モジュールを備える。

ある実施例では、特定手段は、頭部画像の大きさを特定するように配置された第一特定モジュールと、所定の頭部画像の大きさと距離との対応関係に基づいて、目標音源と目標ユーザの頭部との距離を特定するように配置された第二特定モジュールと、を備える。

ある実施例では、この装置は、予め特定された、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号とのラウドネス差を初期ラウドネス差として取得するように配置された第二取得手段と、ラウドネス調整後の処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号とのラウドネス差と、初期ラウドネス差との差分値が第一所定範囲にあるように、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号の強度をそれぞれ調整するように配置された第一調整手段と、をさらに備える。

ある実施例では、この装置は、予め特定された、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号との両耳間時差を初期両耳間時差として取得するように配置された第三取得手段と、両耳間時差調整後の処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号との両耳間時差と、初期両耳間時差との差分値が第二所定範囲にあるように、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号との両耳間時差を調整するように配置された第二調整手段と、をさらに備える。

第三の様態では、本開示の実施例は端末設備を提供している。この端末設備は、一つ又は複数のプロセッサと、一つ又は複数のプログラムが記憶された記憶装置とを備え、一つ又は複数のプログラムが一つ又は複数のプロセッサによって実行される場合、一つ又は複数のプロセッサに第一の様態のいずれかの実現方法に記載の方法を実現させる。

第四の様態では、本開示の実施例はコンピュータ読み取り可能な記憶媒体を提供してする。プロセッサによって実行されるときに、第一の様態のいずれかの実現方法に記載の方法を実現するコンピュータプログラムが記憶された。

本開示の実施例が提供するオーディオ信号の処理用の方法及び装置は、目標ユーザの頭部画像と処理対象オーディオ信号とを取得し、次に頭部画像によって目標ユーザの頭部姿勢角及び目標音源と目標ユーザの頭部との距離を特定し、最後に所定の頭部関連伝達関数に、頭部姿勢角、距離および処理対象オーディオ信号を入力して、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を得て、頭部画像と頭部関連伝達関数を利用してオーディオ信号を調整する。これによって、オーディオ信号の処理の柔軟性を向上させ、リアルに近いオーディオ再生効果を模擬することに寄与する。

本開示におけるその他の特徴、目的、利点は、以下の図面を参照して実施例に対する非限定的な詳細な説明より、より明らかになる。

本開示のある実施例を適用できる例示的なシステム構成の図である。本開示の実施例にかかるオーディオ信号の処理用の方法のある実施例のフローチャートである。本開示の実施例にかかるオーディオ信号の処理用の方法の頭部姿勢角の例示的な模式図である。本開示の実施例にかかるオーディオ信号の処理用の方法の頭部姿勢角の他の例示的な模式図である。本開示の実施例にかかるオーディオ信号の処理用の方法のある使用シーンの模式図である。本開示の実施例にかかるオーディオ信号の処理用の方法の他の実施例のフローチャートである。本開示の実施例にかかるオーディオ信号の処理用の装置のある実施例の構成模式図である。本開示の実施例の端末設備を実現することに適する構成模式図である。

次いで、図面と実施例を参照しながら本開示についてさらに詳細的に説明する。ここで記載された具体的な実施例は本開示を説明するためのものに過ぎず、本開示を限定するものではないことは当然理解される。また、説明の便宜上、図面には開示関連する部分のみが示されている。

なお、競合しない場合に、本開示における実施例及び実施例における特徴は互いに組み合わせることができる。次に、図面と実施例を参照しながら本開示について詳細的に説明する。

図１は、本開示の実施例のオーディオ信号の処理用の方法又はオーディオ信号の処理用の装置を適用できる例示的なシステム構成１００を示している。

図１に示すように、システム構成１００は、端末設備１０１、１０２、１０３と、ネットワーク１０４と、サーバ１０５とを備え得る。ネットワーク１０４は、端末設備１０１、１０２、１０３とサーバ１０５との間で通信リンクの媒体を提供するために用いられる。ネットワーク１０４には、例えば、有線、無線通信リンク、又は光ファイバケーブル等の様々な接続タイプを含み得る。

ユーザは、端末設備１０１、１０２、１０３を用いて、ネットワーク１０４を介してサーバ１０５とインタラクトして、メッセージ等を受信又は発信することができる。端末設備１０１、１０２、１０３には各種通信クライアントアップリケ―ションがインストールされることができ、例えば、オーディオ再生系のアップリケ―ション、ビデオ再生系のアップリケ―ション、ソーシャルプラットフォームソフトウェア等である。

端末設備１０１、１０２、１０３は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末設備１０１、１０２、１０３がハードウェアである場合、オーディオ再生をサポートする、カメラを含む各種の電子機器であってもよい。端末設備１０１、１０２、１０３がソフトウェアである場合、上記電子機器にインストールされることができる。複数のソフトウェア又はソフトウェアモジュール（例えば、分散型サービスを提供するためのソフトウェア又はソフトウェアモジュール）として実現してもよいし、個別のソフトウェア又はソフトウェアモジュールとして実現してもよい。ここで、具体的に限定されない。

サーバ１０５は様々なサービスを提供するサーバであってもよい。例えば、端末設備１０１、１０２、１０３で再生されるオーディオに対してサポートを提供するバックオーディオサーバである。バックオーディオサーバは、端末設備で再生されるように、端末設備にオーディオを送信することができる。

なお、本開示の実施例が提供するオーディオ信号の処理用の方法は、一般的に端末設備１０１、１０２、１０３によって実行される。相応的に、オーディオ信号の処理用の装置は、端末設備１０１、１０２、１０３に設置することができる。

なお、サーバはハードウェアであってもよいし、ソフトウェアであってもよい。サーバはハードウェアである場合、複数のサーバからなる分散型サーバクラスタとして実現してもよいし、個別のサーバとして実現してもよい。サーバはソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール（例えば、分散型サービスを提供するためのソフトウェア又はソフトウェアモジュール）として実現してもよいし、個別のソフトウェア又はソフトウェアモジュールとして実現してもよい。ここで、具体的に限定されない。

図１に示す端末設備、ネットワーク、サーバの数は例示的なものだけであることは理解すべきである。実現の需要に応じて、任意の数の端末設備、ネットワーク、サーバを備えてもよい。処理が必要とする頭部画像とオーディオ信号とを遠隔から取得する必要がない場合、上記システム構成はネットワーク及びサーバを備えなくてもよい。

次いで、図２を参照して、本開示のオーディオ信号の処理用の方法のある実施例のフローチャート２００が示されている。このオーディオ信号の処理用の方法は、以下のステップを含む。

ステップ２０１：目標ユーザの頭部画像と処理対象オーディオ信号とを取得する。

本実施例において、オーディオ信号の処理用の方法の実行主体（例えば、図１のような端末設備）は、有線接続方式又は無線接続方式によって遠隔又はローカルから目標ユーザの頭部画像、左チャンネル処理対象オーディオ信号および右チャンネル処理対象オーディオ信号を取得することができる。目標ユーザは、図1のような端末設備におけるカメラの撮影範囲内のユーザ（例えば、図１のような端末設備を使用するユーザ）であってもよい。上記処理対象オーディオ信号は、上記実行主体に予め記憶された、処理待ちのオーディオ信号であってもよい。例として、上記処理対象オーディオ信号は、現在、上記実行主体において再生されているオーディオに含まれる、まだ再生されていないオーディオセグメントであってもよい。このオーディオセグメントの時間長は所定の時間長であってもよい、例えば、５秒、１０秒等である。

ステップ２０２：頭部画像に基づいて、目標ユーザの頭部姿勢角を特定し、目標音源と目標ユーザの頭部との距離を特定する。

本実施例において、ステップ２０１で取得された頭部画像に基づいて、上記実行主体は、目標ユーザの頭部姿勢角を特定し、目標音源と目標ユーザの頭部との距離を特定することができる。頭部姿勢角は、目標ユーザの顔の正面向きが、目標ユーザの頭部画像を撮影して取得するためのカメラに対する振れ度合いを表すためのものであってもよい。

実践において、頭部姿勢角はピッチ角（ｐｉｔｃｈ）、ヨー角（ｙａｗ）、ロール角（ｒｏｌｌ）の三種類が含め、それぞれ上下反転、左右反転、水平面内で回転する角度を示す。図３のように、ｘ軸、ｙ軸、ｚ軸は直交座標系の三つの軸である。ｚ軸は、端末設備３０１におけるカメラの光軸である。ｙ軸は、人間の頭部が側方回転しない状態で、人間の頭頂輪郭の中心点を通って水平面に垂直の直線であってもよい。ピッチ角は、人間の顔がｘ軸回りに回転する角度であり、ヨー角は、人間の顔がｙ軸回りに回転する角度であり、ロール角は、人間の顔がｚ軸回りに回転する角度である。図３における直交座標系では、人間の頭部が回転するとき、その直交座標系の原点を端点とし人間の２つの目玉の中心点を結ぶ線の中点を通る射線を特定する。この射線がｘ軸、ｙ軸、ｚ軸のそれぞれとなす角度を、頭部姿勢角として特定することができる。

なお、本実施例において、特定された頭部姿勢角は上記ロール角を含めなくてもよい。図４に示すように、図における点Ａを目標音源とし、目標音源とカメラの位置が同一であるため、特定された頭部姿勢角は、θ（ヨー角）とφ（ピッチ角）を含めている。

なお、上記実行主体は、各種既存の頭部姿勢の推定方法によって２次元の頭部画像に対して頭部姿勢の推定を行うことができる。頭部姿勢の推定方法は、機械学習モデルによる方法、人間の顔のキーポイントによる座標変換方法等を含むが、これらに限られない。

本実施例のある選択的な実現方式において、上記実行主体は、頭部画像に基づいて、以下のようなステップに従って目標ユーザの頭部姿勢角を特定することができる。

頭部画像を、予めトレーニングされた頭部姿勢識別モデルに入力して、目標ユーザの頭部姿勢角を得る。頭部姿勢識別モデルは、頭部画像と頭部画像に示されるユーザの頭部姿勢角との対応関係を表すためのものである。

例として、上記頭部姿勢識別モデルは、特徴抽出部分と対応関係テーブルとを含んでもよい。特徴抽出部分は、頭部画像から特徴を抽出して特徴ベクトルを生成することができる。例えば、特徴抽出部分は、畳み込みニューラルネットワーク、ディープニューラルネットワーク等である。対応関係テーブルは、技術者が大量の特徴ベクトルと頭部姿勢角に対する統計に基づいて予め作成された、複数の特徴ベクトルと頭部姿勢角との対応関係が記憶されている対応関係テーブルであってもよい。このように、上記頭部姿勢識別モデルは、まず特徴抽出部分を使用して頭部画像の特徴を抽出して、対象特徴ベクトルを生成する。次に、その対象特徴ベクトルを対応関係テーブルにおける複数の特徴ベクトルとを順次に比較して、対応関係テーブルにおけるある特徴ベクトルが対象特徴ベクトルと同様又は類似であれば、対応関係テーブルにおける当該特徴ベクトルに対応する頭部姿勢角を目標ユーザの頭部姿勢角とする。

本実施例のある選択的な実現方式において、上記頭部姿勢識別モデルは、上記実行主体又は他の電子設備で以下のようなステップに従って予めトレーニングすることで得られる。まず、複数のサンプル頭部画像と、複数のサンプル頭部画像におけるサンプル頭部画像に対応するサンプル頭部姿勢角とを取得する。サンプル頭部姿勢角は、予めサンプル頭部画像にラベル付けられた、サンプル頭部画像の示す人物の頭部の頭部姿勢角である。次いで、機械学習方法を利用して、複数のサンプル頭部画像におけるサンプル頭部画像を入力とし、入力されたサンプル頭部画像に対応するサンプル頭部姿勢角を所望の出力として、トレーニングすることで、頭部姿勢識別モデルを得る。

上記頭部姿勢識別モデルは、初期化の人工ニューラルネットワークをトレーニングして得たモデルであってもよい。初期化の人工ニューラルネットワークは、トレーニングされていない人工ニューラルネットワーク又はトレーニングが完成されていない人工ニューラルネットワークである。初期化の人工ニューラルネットワークの各層に初期パラメータが設置されており、パラメータは人工ニューラルネットワークのトレーニング中においてどんどん調整されることができる（例えば、逆伝搬アルゴリズムによってパラメータが調整される）。初期化の人工ニューラルネットワークは、各種類のトレーニングされていない又はトレーニングが完成されていない人工ニューラルネットワークであってもよい。例えば、初期化の人工ニューラルネットワークは畳み込みニューラルネットワーク（例えば、畳み込み層、プーリング層、全接合層等を含む）であってもよい。

目標ユーザの頭部画像によって頭部姿勢角を特定することで、リアルタイムで目標ユーザの頭部姿勢を監視することを実現でき、頭部装着設備のようなハードウェアを使用することを回避することができるため、ハードウェアの構成を簡素化し、ハードウェアのコストを低減する目的を達成することができる。

本実施例において、上記実行主体は、頭部画像に基づいて目標音源と目標ユーザの頭部との距離を特定することができる。

一つの例として、上記実行主体は、以下のようなステップで目標音源と目標ユーザの頭部との距離を特定することができる。

まず、頭部画像の大きさを特定する。例として、頭部画像の大きさは、上記実行主体が既存の目標検出モデル（例えば、ＳＳＤ（ＳｉｎｇｌｅＳｈｏｔＭｕｌｔｉＢｏｘＤｅｔｅｃｔｏｒ）、ＤＰＭ（ＤｅｆｏｒｍａｂｌｅＰａｒｔＭｏｄｅｌ）等）を利用して、頭部画像から識別された頭部画像領域の大きさである。大きさは様々な方式で表すことができる。例えば、頭部画像領域を含む最小矩形状の長さ又は幅であってもよいし、頭部画像領域を含む最小円形状の半径等であってもよい。

次いで、所定の頭部画像の大きさと距離との対応関係に基づいて、目標音源と目標ユーザの頭部との距離を特定する。具体的に、例として、上記対応関係は、所定の対応関係テーブルによって表すことができる。この対応関係テーブルには、頭部画像の大きさ、対応する距離が記憶されていてもよい。上記実行主体は、特定された頭部画像の大きさに応じて、当該対応関係テーブルから特定された頭部画像の大きさに対応する距離を調べることができる。別の例として、上記対応関係は、所定の転換式によって表すことができる。上記実行主体は、上記転換式を利用して、特定された頭部画像の大きさから計算して目標音源と目標ユーザの頭部との距離を得ることができる。例えば、上記転換式はｙ＝ｋｘである。ここで、ｋは所定の比例値であり、ｘは頭部画像の大きさであり、ｙは目標音源と頭部画像が示す目標ユーザの頭部との距離である。

さらに別の例として、上記実行主体は、既存の人間の顔のキーポイントを特定する方法を利用して、頭部画像における人間の顔のキーポイントを特定し、特定された人間の顔のキーポイントを含む画像領域の大きさを特定することができる。画像領域の大きさを表す方式は上記実施例と同様であってもよい。次いで、上記実行主体は、所定の画像領域の大きさと距離との対応関係に基づいて、目標音源と目標ユーザの頭部との距離を特定することができる。ここで、本例における対応関係を表す方式は、上記例と同様であるため、説明は繰り返さない。

なお、目標音源は実際にオーディオ信号を出力する電子設備であってよい。通常、オーディオ信号を出力する電子設備は、上記カメラを含む端末設備であってもよく、上記実行主体によって特定された、目標位置にある仮想音源であってもよい。相応的に、目標音源と目標ユーザの頭部との距離は、上記例に従って特定された、オーディオ信号を出力する電子設備と目標ユーザの頭部との間の距離である。或いは、目標音源と目標ユーザの頭部との距離は、特定された距離を計算して（例えば、所定の係数と相乗する、又は所定の距離を加算する等）、目標音源（即ち仮想音源）と目標ユーザの頭部との間の距離を得る。

ステップ２０３：所定の頭部関連伝達関数に、頭部姿勢角、距離および処理対象オーディオ信号を入力して、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を得る。

本実施例において、上記実行主体は、頭部姿勢角、距離および処理対象オーディオ信号を、所定の頭部関連伝達関数（ＨｅａｄＲｅｌａｔｅｄＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎ，ＨＲＴＦ）に入力し、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を得ることができる。ここで、頭部関連伝達関数は、頭部姿勢角、距離、処理対象オーディオ信号と、処理後左チャンネルオーディオ信号および処理後右チャンネルオーディオ信号との対応関係を表すためのものである。

具体的に、頭部関連伝達関数（両耳間伝達関数ともいう）は、音波が音源から両耳への伝達過程を記述する。それは、人の生理構造（例えば、頭、耳介及び胴部等）が音波に対して総合的にフィルタリングした結果である。頭部関連伝達関数に、音源の位置決めに関する情報が含まれるため、両耳聴覚及び心理聴覚分析の研究に対して非常に重要な意味を有する。実際の適用において、頭部関連伝達関数によって処理された信号をイヤホン又はスピーカーで出力すると、様々な異なる空間聴覚効果を模擬することができる。

通常、ＨＲＴＦは二つの部分を含め、それぞれ左ＨＲＴＦと右ＨＲＴＦである。上記実行主体は、頭部姿勢角、特定された距離および処理対象オーディオ信号をそれぞれ左ＨＲＴＦと右ＨＲＴＦに入力して、左ＨＲＴＦは、処理後左チャンネルオーディオ信号を出力し、右ＨＲＴＦは、処理後右チャンネルオーディオ信号を出力する。実践において、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号とは、ラウドネス差（ＩｎｔｅｒａｕｒａｌＬｅｖｅｌＤｉｆｆｅｒｅｎｃｅｓ、ＩＬＤ）と両耳間時差（ＩＴＤ、ＩｎｔｅｒａｕｒａｌＴｉｍｅＤｉｆｆｅｒｅｎｃｅ）とを有してもよい。ここで、ラウドネスは音量とも呼ばれ、音声の大きさであり、人間の耳が音声に対する主観的な感覚を表し、その計測単位が、ソン（ｓｏｎｅ）であり、１ｋＨｚで音圧レベルが４０ｄＢの純音のラウドネスを１ｓｏｎｅとして定義される。両耳間時差は、音源が聴く者の両耳に到達する時間の差である。上記各ステップの処理によって、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号とのラウドネス差及び両耳間時差をリアルの場面に近いようにすることができ、リアルに近いオーディオ再生効果を模擬することに寄与する。

好ましくは、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号が得られた後、上記実行主体は、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を各方式で出力することができる。例えば、イヤホン、スピーカー等の設備によって処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を再生することができる。又は、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を所定の記憶領域に出力して記憶させることができる。

引き続き、図５を参照する。図５は本実施例に係るオーディオ信号の処理用の方法の応用シーンのある模式図である。図５の応用シーンにおいて、端末設備５０１では音楽が再生されている。端末設備５０１は、まず目標ユーザ５０２の頭部画像５０３を撮影して、さらに、処理対象オーディオ信号５０４を取得した。ここで、処理対象オーディオ信号５０４は、現在再生されているオーディオにおける、まだ再生されていないオーディオセグメントである。次いで、端末設備５０１は、頭部画像５０３に基づいて、目標ユーザの頭部姿勢角５０５を特定し（例えば、予めトレーニングされた頭部姿勢識別モデルを使用して頭部姿勢角を識別する）、目標音源と目標ユーザ５０２の頭部との距離５０６を特定する（例えば、頭部画像の大きさと距離との対応関係に基づいて、目標音源と目標ユーザの頭部との距離を特定する）。ここで、目標音源は端末設備５０１である。最後に、端末設備５０１は、頭部姿勢角５０５、距離５０６および処理対象オーディオ信号５０４を所定の頭部関連伝達関数５０７に入力し、処理後左チャンネルオーディオ信号５０８と処理後右チャンネルオーディオ信号５０９とを得た。

本開示の上記実施例が提供する方法は、目標ユーザの頭部画像と処理対象オーディオ信号とを取得し、次に頭部画像によって目標ユーザの頭部姿勢角及び目標音源と目標ユーザの頭部との距離を特定し、最後に所定の頭部関連伝達関数に、頭部姿勢角、距離および処理対象オーディオ信号を入力して、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を得て、頭部画像と頭部関連伝達関数を利用してオーディオ信号を調整する。これによって、オーディオ信号の処理の柔軟性を向上させ、リアルに近いオーディオ再生効果を模擬することに寄与する。

さらに、図６を参照する。図６には、オーディオ信号の処理用の方法の他の実施例のフロー６００が示されている。このオーディオ信号の処理用の方法のフロー６００は、以下のようなステップを含む。

ステップ６０１：目標ユーザの頭部画像と処理対象オーディオ信号とを取得する。

本実施例において、ステップ６０１は、図２に対応する実施例におけるステップ２０１とはほぼ一致するので、説明は繰り返さない。

ステップ６０２：頭部画像に基づいて、目標ユーザの頭部姿勢角を特定し、目標音源と目標ユーザの頭部との距離を特定する。

本実施例において、ステップ６０２は、図２に対応する実施例におけるステップ２０２とはほぼ一致するので、説明は繰り返さない。

ステップ６０３：所定の頭部関連伝達関数に、頭部姿勢角、距離および処理対象オーディオ信号を入力して、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を得る。

本実施例において、ステップ６０３は、図２に対応する実施例におけるステップ２０３とはほぼ一致するので、説明は繰り返さない。

ステップ６０４：予め特定された、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号とのラウドネス差を初期ラウドネス差として取得する。

本実施例において、オーディオ信号の処理用の方法の実行主体は（例えば、図１に示す端末設備）、予め特定された、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号とのラウドネス差を取得することができる。ここで、予め特定された、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号は、予め上記実行主体に記憶された、処理されていないオーディオ信号であってもよい。処理されていないオーディオ信号と、上記処理対象オーディオ信号とは、同一のオーディオファイルに基づいて生成されたものであってもよい。例えば、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号は、あるオーディオファイルから抽出されたオーディオ信号であり、処理対象オーディオ信号は、再生されている当該オーディオファイルから抽出された、再生されていないオーディオセグメントである。

本実施例において、上記実行主体は、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号のラウドネスを予めそれぞれ特定しておき、特定された二つのラウドネスの差分値を、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号とのラウドネス差として特定してもよい。なお、オーディオ信号の強度を特定する方法は、現在広く研究、応用されている公知技術であるため、説明を省略する。

ステップ６０５：ラウドネス調整後の処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号とのラウドネス差と、初期ラウドネス差との差分値が第一所定範囲にあるように、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号のラウドネスをそれぞれ調整する。

本実施例において、上記実行主体は、ラウドネス調整後の処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号とのラウドネス差と、初期ラウドネス差との差分値が第一所定範囲にあるように、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号の強度をそれぞれ調整する。第一所定範囲は、所定のラウドネス差の範囲であって、例えば、０ソン、±１ソン等であってもよい。

例として、初期左チャンネルオーディオ信号のラウドネスをＡと仮設し、初期右チャンネルオーディオ信号のラウドネスをＢと仮設すると、ラウドネス調整後の処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号とのラウドネス差と、初期ラウドネス差との差分値が第一所定範囲にあるように、処理後左チャンネルオーディオ信号のラウドネスをＡに近いと調整し、処理後右チャンネルオーディオ信号のラウドネスをＢに近いと調整する。

処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号のラウドネスを調整することで、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号のラウドネス差を初期のラウドネス差に還元させることができる。これにより、オーディオ再生時において、オーディオ信号のラウドネスの急変を回避することに寄与する。

本実施例のある選択的な実現方式において、上記ステップ６０３の後に、上記実行主体は、さらに以下のようなステップを実行することができる。

まず、予め特定された、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号との両耳間時差を初期両耳間時差として取得する。具体的に、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号は、ステップ６０４において説明した初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号と同じであるため、ここで説明は繰り返さない。上記実行主体は、予め既存の左右チャンネルの両耳間時差を特定する方法に従って、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号との両耳間時差を特定することができる。なお、左右チャンネルの両耳間時差を特定する方法は、現在広く研究、応用されている公知技術であるため、ここで説明を省略する。

次いで、両耳間時差調整後の処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号との両耳間時差と、初期両耳間時差との差分値が第二所定範囲にあるように、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号との両耳間時差を調整する。ここで、第二所定範囲は、所定の両耳間時差の範囲であって、例えば、０秒、±１秒等であってもよい。

例として、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号の再生開始時間を調整することによって、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号の両耳間時差を調整する目的を達成できる。両耳間時差を調整することで、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号の両耳間時差を初期の両耳間時差に還元させることができる。よって、オーディオ再生時において、オーディオ信号の両耳間時差の急変を回避することに寄与し、リアルの音場をさらによく模擬することに寄与する。図６から分かるように、図２に対応する実施例と比べて、本実施例に係るオーディオ信号の処理用の方法のフロー６００は、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号のラウドネスを調整するステップを強調している。これによって、本実施例に係る技術案は、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号のラウドネスを初期のラウドネスに還元することができ、オーディオ再生時において、オーディオ信号のラウドネスの急変を回避することに寄与する。

さらに、図７を参照する。上記各図に示す方法を実現するものとして、本開示は、オーディオ信号の処理用の装置のある実施例を提供する。この装置の実施例は、図２に示す方法の実施例に対応しており、この装置は具体的に各種電子設備に適用することができる。

図７のように、本実施例に係るオーディオ信号の処理用の装置７００は、目標ユーザの頭部画像と処理対象オーディオ信号とを取得するように配置された第一取得手段７０１と、頭部画像に基づいて、目標ユーザの頭部姿勢角を特定し、目標音源と目標ユーザの頭部との距離を特定するように配置された特定手段７０２と、所定の頭部関連伝達関数に、頭部姿勢角、距離および処理対象オーディオ信号を入力して、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を得るように配置された処理手段７０３とを備え、頭部関連伝達関数は、頭部姿勢角、距離、処理対象オーディオ信号と、処理後左チャンネルオーディオ信号および処理後右チャンネルオーディオ信号との対応関係を表すためのものである。

本実施例において、第一取得手段７０１は、有線接続方式又は無線接続方式によって遠隔又はローカルから目標ユーザの頭部画像および左チャンネル処理対象オーディオ信号と右チャンネル処理対象オーディオ信号を取得することができる。目標ユーザは、図1に示すような端末設備におけるカメラの撮影範囲内のユーザ（例えば、図１に示すような端末設備を使用するユーザ）であってもよい。上記処理対象オーディオ信号は、上記装置７００に予め記憶された、処理待ちのオーディオ信号であってもよい。例として、上記処理対象オーディオ信号は、現在、上記装置７００において再生されているオーディオに含まれる、まだ再生されていないオーディオセグメントであってもよい。このオーディオセグメントの時間長は所定の時間長であって、例えば、５秒、１０秒等であってもよい。

本実施例において、特定手段７０２は、目標ユーザの頭部姿勢角を特定し、目標音源と目標ユーザの頭部との距離を特定することができる。ここで、頭部姿勢角は、目標ユーザの顔の正面向きが、目標ユーザの頭部画像を撮影して取得するためのカメラに対する振れ度合いを表すためのものであってもよい。

なお、上記特定手段７０２は、各種既存の頭部姿勢の推定方法によって２次元の頭部画像に対して頭部姿勢の推定を行うことができる。頭部姿勢の推定方法は、機械学習モデルによる方法、人間の顔のキーポイントによる座標変換方法等を含むが、これらに限られない。

本実施例において、上記特定手段７０２は、頭部画像に基づいて、目標音源と目標ユーザの頭部との距離を特定することができる。例として、上記特定手段７０２は、既存のユーザの顔のキーポイントを特定する方法を利用して、頭部画像における人間の顔のキーポイントを特定し、特定された人間の顔のキーポイントを含む画像領域の大きさを特定することができる。次いで、上記特定手段７０２は、所定の画像領域の大きさと距離との対応関係に基づいて、目標音源と目標ユーザの頭部との距離を特定することができる。

本実施例において、処理手段７０３は、頭部姿勢角、距離および処理対象オーディオ信号を、所定の頭部関連伝達関数（ＨｅａｄＲｅｌａｔｅｄＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎ，ＨＲＴＦ）に入力し、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を得ることができる。ここで、頭部関連伝達関数は、頭部姿勢角、距離、処理対象オーディオ信号と、処理後左チャンネルオーディオ信号および処理後右チャンネルオーディオ信号との対応関係を表すためのものである。

通常、ＨＲＴＦは二つの部分を含め、それぞれ左ＨＲＴＦと右ＨＲＴＦである。上記処理手段７０３は、頭部姿勢角、特定された距離および処理対象オーディオ信号をそれぞれ左ＨＲＴＦと右ＨＲＴＦに入力して、左ＨＲＴＦは、処理後左チャンネルオーディオ信号を出力し、右ＨＲＴＦは、処理後右チャンネルオーディオ信号を出力する。実践において、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号とは、ラウドネス差（ＩｎｔｅｒａｕｒａｌＬｅｖｅｌＤｉｆｆｅｒｅｎｃｅｓ、ＩＬＤ）と両耳間時差（ＩＴＤ、ＩｎｔｅｒａｕｒａｌＴｉｍｅＤｉｆｆｅｒｅｎｃｅ）とを有してもよい。ここで、ラウドネスは音量とも呼ばれ、音声の大きさであり、人間の耳が音声に対する主観的な感覚を表し、その計測単位が、ソン（ｓｏｎｅ）であり、１ｋＨｚで音圧レベルが４０ｄＢの純音のラウドネスを１ｓｏｎｅとして定義される。両耳間時差は、音源が聴く者の両耳に到達する時間の差である。上記各ステップの処理によって、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号とのラウドネス差及び両耳間時差をリアルの場面に近いようにすることができ、リアルに近いオーディオ再生効果を模擬することに寄与する。

本実施例のある選択的な実現方式において、特定手段７０２は、頭部画像を、予めトレーニングされた、頭部画像と頭部画像に示されるユーザの頭部姿勢角との対応関係を表すための頭部姿勢識別モデルに入力して、目標ユーザの頭部姿勢角を得るように配置された識別モジュール（図示しない）を備えてもよい。

本実施例のある選択的な実現方式において、頭部姿勢識別モデルは、複数のサンプル頭部画像と、複数のサンプル頭部画像におけるサンプル頭部画像に対応するサンプル頭部姿勢角とを取得するステップと、機械学習方法を利用して、複数のサンプル頭部画像におけるサンプル頭部画像を入力として、入力されたサンプル頭部画像に対応するサンプル頭部姿勢角を所望の出力とするステップと、に従って予めトレーニングすることで得られる。

本実施例のある選択的な実現方式において、特定手段７０２は、頭部画像の大きさを特定するように配置された第一特定モジュール（図示しない）と、所定の頭部画像の大きさと距離との対応関係に基づいて、目標音源と目標ユーザの頭部との距離を特定するように配置された第二特定モジュール（図示しない）とを備えてもよい。

本実施例のある選択的な実現方式において、当該装置７００は、予め特定された、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号とのラウドネス差を初期ラウドネス差として取得するように配置された第二取得手段（図示しない）と、ラウドネス調整後の処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号とのラウドネス差と、初期ラウドネス差との差分値が第一所定範囲にあるように、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号のラウドネスをそれぞれ調整するように配置された第一調整手段（図示しない）とをさらに備えてもよい。

本実施例のある選択的な実現方式において、当該装置７００は、予め特定された、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号との両耳間時差を初期両耳間時差として取得するように配置された第三取得手段（図示しない）と、両耳間時差調整後の処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号との両耳間時差と、初期両耳間時差との差分値が第二所定範囲にあるように、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号との両耳間時差を調整するように配置された第二調整手段（図示しない）とをさらに備えてもよい。

本開示の上記実施例が提供する装置は、目標ユーザの頭部画像と処理対象オーディオ信号とを取得し、次に頭部画像によって目標ユーザの頭部姿勢角及び目標音源と目標ユーザの頭部との距離を特定し、最後に所定の頭部関連伝達関数に、頭部姿勢角、距離および処理対象オーディオ信号を入力して、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を得て、頭部画像と頭部関連伝達関数を利用してオーディオ信号を調整する。これによって、オーディオ信号の処理の柔軟性を向上させ、リアルに近いオーディオ再生効果を模擬することに寄与する。

次いで、図８を参照する。図８は、本開示の実施例を実現するための端末設備８００の構成模式図を示す。本開示の実施例に係る端末設備は、携帯電話、ノートパソコン、デジタル放送受信機、ＰＤＡ（携帯情報端末）、ＰＡＤ（タブレット）、ＰＭＰ（携帯型マルチメディアプレイヤ）、車載端末（例えば、車載ナビゲーション端末）等の形態端末、又はデジタルＴＶ、デスクトップ型コンピュータ等の固定端末を含むが、これらに限られない。図８に示す端末設備は一例に過ぎず、本開示の実施例の機能と使用範囲に制限を与えるものではない。

図８に示すように、端末設備８００は、リードオンリーメモリ（ＲＯＭ）８０２に記憶されたプログラム、或いは記憶装置８０８からランダムアクセスメモリ（ＲＡＭ）８０３にロードされたプログラムによって様々な適宜な動作と処理を行う処理装置（例えば、中央処理装置（ＣＰＵ）、グラフィックプロセッサ等）８０１を備えてもよい。ＲＡＭ８０３には、端末設備８００の操作に必要な様々なプログラムとデータがさらに記憶されている。処理装置８０１と、ＲＯＭ８０２と、ＲＡＭ８０３とは、バス８０４により相互に接続されている。入／出力（Ｉ／Ｏ）インタフェース８０５もバス８０４に接続されている。

一般的に、以下のような装置は、入／出力（Ｉ／Ｏ）インタフェース８０５に接続可能である。例えば、タッチスクリーン、タッチパネル、キーボード、マウス、カメラ、マイク、加速度計、ジャイロ等を含む入力装置８０６と、例えば、液晶ディスプレイ（ＬＣＤ）、スピーカー、振動子等を含む出力装置８０７と、例えば、磁気テープ、ハードディスク等を含む記憶装置８０８と、通信装置８０９である。通信装置８０９は、端末設備８００と他の設備と、無線又は有線通信でデータ交換を行うことを許可することができる。図８は各種の装置を備える端末設備８００を示しているが、全ての装置を実施する又は備えることが要求されていないことは理解すべきである。代替的に実施してもよいし、より多い又はより少ない装置を備えてもよい。

特に、本開示の実施例によれば、フローチャートを参照しながら説明した上記過程は、コンピュータソフトウェアプログラムとして実現されることが可能である。例えば、本開示の実施例は、あるコンピュータプログラム製品に関し、コンピュータ読み取り可能な媒体に搭載されたコンピュータプログラムに関する。このコンピュータプログラムは、フローチャートに示す方法を実行するプログラムコードを含む。このような実施例において、当該コンピュータプログラムは、通信装置８０９によってネットからダウンロード及びインストールされることができる。或いは、記憶装置８０８からインストールされる、又は、ＲＯＭ８０２からインストールされる。このコンピュータプログラムは、処理装置８０１によって実行されるとき、本開示の実施例に係る方法に制限された上記機能が実行される。

なお、本開示に記載のコンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体、又はコンピュータ読み取り可能な記憶媒体、又は上記双方の任意の組み合わせであってもよい。コンピュータ読み取り可能な記憶媒体は、例えば、電気、磁気、光、電磁、赤外線、又は半導体のシステム、装置又はデバイス、又は上記の任意の組み合わせであってもよいが、これらに限られない。コンピュータ読み取り可能な記憶媒体のさらに具体的な例は、一つ又は複数のリード線を有する電気的接続、携帯型コンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、コンパクトディスク・リードオンリーメモリ（ＣＤ－ＲＯＭ）、光メモリデバイス、磁気メモリデバイス、又は上記の任意の組み合わせを含むが、これらに限られない。本開示において、コンピュータ読み取り可能な記憶媒体は、プログラムを含む又は記憶するいかなる有形媒体であってもよい。このプログラムは、指令実行システム、装置又はデバイスに使用されるか、或いはこれらと組み合わせて使用されることができる。本開示において、コンピュータ読み取り可能な信号媒体は、さらにコンピュータ読み取り可能な記憶媒体以外のいかなるコンピュータ読み取り可能な媒体であってもよい。このコンピュータ読み取り可能な信号媒体は、指令実行システム、装置又はデバイスに使用されるか、或いはこれらと組み合わせて使用されるプログラムを送信、伝搬又は伝送することができる。コンピュータ読み取り可能な媒体に含まれるプログラムコードは、いかなる好適な媒介によって伝送でき、例えば、電線、光テーブル、ＲＦ（ｒａｄｉｏｆｒｅｑｕｅｎｃｙ）、又は上記の任意の組み合わせを含むが、これらに限られない。

上記コンピュータ読み取り可能な媒体は、上記端末設備に含まれてもよいし、上記端末設備に装着されずに独立に存在してもよい。上記コンピュータ読み取り可能な媒体は、一つ又は複数のプログラムを搭載されており、上記一つ又は複数のプログラムが上記端末設備に実行されるとき、当該端末設備に以下のような処理を行わせる。目標ユーザの頭部画像と処理対象オーディオ信号とを取得して、頭部画像に基づき目標ユーザの頭部姿勢角及び目標音源と目標ユーザの頭部との距離を特定して、所定の頭部関連伝達関数に、頭部姿勢角、距離および処理対象オーディオ信号を入力して、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を得る。ここで、頭部関連伝達関数は、頭部姿勢角、距離、処理対象オーディオ信号と、処理後左チャンネルオーディオ信号および処理後右チャンネルオーディオ信号との対応関係を表すためのものである。

本開示の操作を実行するためのコンピュータプログラムコードは、一つ又は複数のプログラミング言語又はその組み合わせでコーディングされる。前記プログラミング言語は、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋等のオブジェクト向けのプログラミング言語を含め、さらに「Ｃ」などの従来のプロセス式プログラミング言語又は類似的なプログラミング言語を含める。プログラムコードは、ユーザのコンピュータ上で全体的に、ユーザのコンピュータ上で部分的に、ユーザのコンピュータ上でスタンドアローン・ソフトウェア・パッケージとして実行されてもよい。ユーザのコンピュータ上で部分的におよび遠隔コンピュータ上で部分的に、又は遠隔コンピュータやサーバで全体的に、実行されてもよい。遠隔コンピュータに関する場合、遠隔コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）又はワイド・エリア・ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを通じて、ユーザのコンピュータに接続することができ、或いは接続は外部コンピュータ（例えば、インターネット・サービス・プロバイダを利用してインターネットを通じて）に対して行うこともできる。

図面におけるフローチャート及びブロック図は、本開示の様々な実施例に係るシステム、方法及びコンピュータプログラム製品によって実現可能なシステム構成、機能及び操作を示す。フローチャート又はブロック図における各ブロックは、一つのモジュール、プログラムセグメント、又はコードの一部を表し、このモジュール、プログラムセグメント、又はコードの一部は、一つ又は複数の所定の論理機能を実現するための実行可能な指令を含む。なお、いくつかの代替の実現において、ブロックに記載された機能は、図に記載された順序を外れて発生することがある。例えば、連続して示された２つのブロックが、実際には、ほぼ同時に実行されてもよいし、時には、その機能に応じて、逆の順番で実行されてもよい。なお、ブロック図及び／又はフローチャートにおける各ブロック、ブロック図及び／又はフローチャートにおけるブロックの組み合わせは、所定の機能または操作を実行する、専用のハードウェアベースのシステムによって実現されてもよいし、或いは、専用のハードウェア及びコンピュータ指令の組み合わせによって実現されてもよい。

本開示の実施例に係る手段は、ソフトウェアによって実現されてもよいし、ハードウェアによって実現されてもよい。手段の名称は、ある場合において、その手段自身を限定するものではない。例えば、第一取得手段は、「目標ユーザの頭部画像と処理対象オーディオ信号とを取得する手段」と記述されてもよい。

以上の説明は、本開示の好ましい実施例及び運用技術の原理に対する説明である。本開示に係る開示の範囲は、上記技術的特徴の特定の組み合わせによる技術案に限られるものではないことを、当業者は理解すべきである。また、上記開示の要旨を逸脱しない場合に、上記技術的特徴又はその均等の特徴によって任意に組み合わせて形成される他の技術案も含むべきである。例えば、上記特徴と本開示に開示された（但しこれに限られない）、類似の機能を有する技術的特徴とを、入れ替えて形成する技術案も含むべきである。

701 第一取得手段
702 特定手段
703 処理手段
801 処理装置
805 Ｉ／Ｏインタフェース
806 入力装置
807 出力装置
808 記憶装置
809 通信装置

Claims

目標ユーザの頭部画像と処理対象オーディオ信号とを取得することと、
前記頭部画像に基づいて、前記目標ユーザの頭部姿勢角を特定し、目標音源と前記目標ユーザの頭部との距離を特定することと、
所定の頭部関連伝達関数に、前記頭部姿勢角、前記距離および前記処理対象オーディオ信号を入力して、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を得ることと、を含め、
頭部関連伝達関数は、頭部姿勢角、距離、処理対象オーディオ信号と、処理後左チャンネルオーディオ信号および処理後右チャンネルオーディオ信号との対応関係を表すためのものであり、
前記頭部姿勢角は、前記目標ユーザの顔の正面向きが、前記目標ユーザの頭部画像を撮影して取得するためのカメラに対する振れ度合いを表すためのものである
オーディオ信号の処理用の方法。
前記頭部画像に基づいて、前記目標ユーザの頭部姿勢角を特定することには、
頭部画像と頭部画像に示されるユーザの頭部姿勢角との対応関係を表すための、予めトレーニングされた頭部姿勢識別モデルに、前記頭部画像を入力して、前記目標ユーザの頭部姿勢角を得ること、を含む
請求項１に記載の方法。
前記頭部姿勢識別モデルは、
複数のサンプル頭部画像と、前記複数のサンプル頭部画像におけるサンプル頭部画像に対応するサンプル頭部姿勢角とを取得するステップと、
機械学習方法を利用して、前記複数のサンプル頭部画像におけるサンプル頭部画像を入力として、入力されたサンプル頭部画像に対応するサンプル頭部姿勢角を所望の出力とするステップと、
に従って予めトレーニングすることで得られる
請求項２に記載の方法。
前記目標音源と前記目標ユーザの頭部との距離を特定することには、
前記頭部画像の大きさを特定することと、
所定の頭部画像の大きさと距離との対応関係に基づいて、前記目標音源と前記目標ユーザの頭部との距離を特定することと、を含む
請求項１に記載の方法。
前記処理後左チャンネルオーディオ信号と前記処理後右チャンネルオーディオ信号を得ることの後には、前記方法は、さらに、
予め特定された、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号とのラウドネス差を初期ラウドネス差として取得することと、
ラウドネス調整後の処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号とのラウドネス差と、前記初期ラウドネス差との差分値が第一所定範囲にあるように、前記処理後左チャンネルオーディオ信号と前記処理後右チャンネルオーディオ信号の強度をそれぞれ調整することと、を含む
請求項１から４のいずれか１項に記載の方法。
前記方法は、さらに、予め特定された、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号との両耳間時差を初期両耳間時差として取得することと、
両耳間時差調整後の処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号との両耳間時差と、前記初期両耳間時差との差分値が第二所定範囲にあるように、前記処理後左チャンネルオーディオ信号と前記処理後右チャンネルオーディオ信号との両耳間時差を調整することと、を含む
請求項５に記載の方法。
目標ユーザの頭部画像と処理対象オーディオ信号とを取得するように配置された第一取得手段と、
前記頭部画像に基づいて、前記目標ユーザの頭部姿勢角を特定し、目標音源と前記目標ユーザの頭部との距離を特定するように配置された特定手段と、
所定の頭部関連伝達関数に、前記頭部姿勢角、前記距離および前記処理対象オーディオ信号を入力して、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を得るように配置された処理手段と、を備え、
前記頭部関連伝達関数は、頭部姿勢角、距離、処理対象オーディオ信号と、処理後左チャンネルオーディオ信号および処理後右チャンネルオーディオ信号との対応関係を表すためのものであり、
前記頭部姿勢角は、前記目標ユーザの顔の正面向きが、前記目標ユーザの頭部画像を撮影して取得するためのカメラに対する振れ度合いを表すためのものである
オーディオ信号の処理用の装置。
前記特定手段は、頭部画像と頭部画像に示されるユーザの頭部姿勢角との対応関係を表すための、予めトレーニングされた頭部姿勢識別モデルに、前記頭部画像を入力して、前記目標ユーザの頭部姿勢角を得るように配置された識別モジュールを備える
請求項７に記載の装置。
前記頭部姿勢識別モデルは、
複数のサンプル頭部画像と、前記複数のサンプル頭部画像におけるサンプル頭部画像に対応するサンプル頭部姿勢角とを取得するステップと、
機械学習方法を利用して、前記複数のサンプル頭部画像におけるサンプル頭部画像を入力として、入力されたサンプル頭部画像に対応するサンプル頭部姿勢角を所望の出力とするステップと、
に従って予めトレーニングすることで得られる
請求項８に記載の装置。
前記特定手段は、
前記頭部画像の大きさを特定するように配置された第一特定モジュールと、
所定の頭部画像の大きさと距離との対応関係に基づいて、前記目標音源と前記目標ユーザの頭部との距離を特定するように配置された第二特定モジュールと、
を備える請求項７に記載の装置。
予め特定された、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号とのラウドネス差を初期ラウドネス差として取得するように配置された第二取得手段と、
ラウドネス調整後の処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号とのラウドネス差と、前記初期ラウドネス差との差分値が第一所定範囲にあるように、前記処理後左チャンネルオーディオ信号と前記処理後右チャンネルオーディオ信号の強度をそれぞれ調整するように配置された第一調整手段と、
をさらに備える
請求項７から１０のいずれか１項に記載の装置。
予め特定された、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号との両耳間時差を初期両耳間時差として取得するように配置された第三取得手段と、
両耳間時差調整後の処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号との両耳間時差と、前記初期両耳間時差との差分値が第二所定範囲にあるように、前記処理後左チャンネルオーディオ信号と前記処理後右チャンネルオーディオ信号との両耳間時差を調整するように配置された第二調整手段と、
をさらに備える請求項１１に記載の装置。
一つ又は複数のプロセッサと、
一つ又は複数のプログラムが記憶された記憶装置と、を備え、
前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサによって実行される場合、前記一つ又は複数のプロセッサに請求項１から６のいずれか１項に記載の方法を実現させる端末設備。
プロセッサによって実行されるときに、請求項１から６のいずれか１項に記載の方法を実現するコンピュータプログラムが記憶されたコンピュータ読み取り可能な記憶媒体。
オーディオ信号の処理用のコンピュータプログラムであって、
プロセッサによって実行されるときに、請求項１から６のいずれか１項に記載の方法を実現する
コンピュータプログラム。