JP2019533404A

JP2019533404A - バイノーラルオーディオ信号処理方法及び装置

Info

Publication number: JP2019533404A
Application number: JP2019537729A
Authority: JP
Inventors: サンペ・チョン; テギュ・イ; ヒョンオ・オ
Original assignee: ガウディオ・ラボ・インコーポレイテッド
Priority date: 2016-09-23
Filing date: 2017-09-25
Publication date: 2019-11-14
Also published as: US10356545B2; US20180091917A1; WO2018056780A1

Abstract

オーディオ信号をレンダリングするオーディオ信号処理装置が開示される。オーディオ信号処理装置は、オーディオ信号を含むオーディオファイルを受信する受信部と、オーディオファイルの第１トラックに含まれた第１オーディオ信号成分と第２トラックに含まれた第２オーディオ信号成分を同時にレンダリングするプロセッサと、レンダリングされた第１オーディオ信号成分とレンダリングされた第２オーディオ信号成分を出力する出力部と、を含む。

Description

本発明は、オーディオ信号処理方法及び装置に関する。詳しくは、本発明はバイノーラルオーディオ信号処理方法及び装置に関する。

３Ｄオーディオとは、従来のサラウンドオーディオから提供される水平面（２Ｄ）上のサウンド場面に高さ位置に当たる他の軸を提供することで、３次元空間で臨場感のあるサウンドを提供するための一連の信号処理、伝送、符号化及び再生技術などを通称する。特に、３Ｄオーディオを提供するためには、従来よりも多数のスピーカを使用するか、或いは少数のスピーカを使用してもスピーカが存在しない仮想の位置で音像が結ばれるようにするレンダリング技術が要求される。

３Ｄオーディオは超高解像度ＴＶ（ＵＨＤＴＶ）に対応するオーディオソリューションになると予想され、高品質インフォテインメント空間と進化しつつある車両におけるサウンドをはじめ、その他に劇場サウンド、個人用３ＤＴＶ、タブレット、無線通信端末、及びクラウドゲームなど、多様な分野で応用されると予想される。

一方、３Ｄオーディオに提供される音源の形態としては、チャネル基盤の信号とオブジェクト基盤の信号が存在する。これだけでなく、チャネル基盤の信号とオブジェクト基盤の信号が混合された形態の音源が存在してもよく、これを介してユーザに新たな形態のコンテンツ経験を提供することができる。

バイノーラルレンダリングは、このような３Ｄオーディオを人の両耳に伝達される信号にモデリングすることである。ユーザは、ヘッドホンやイヤホンなどを介したバイノーラルレンダリングされた２チャネルオーディオ出力信号を介しても立体感を感じることができる。バイノーラルレンダリングの具体的な原理は以下のようである。人は常に両耳を介して音を聞き、音を介して音源の位置と方向を認識する。よって、３Ｄオーディオを人の両耳に伝達されるオーディオ信号の形態にモデリングすることができれば、多数のスピーカがなくても、２チャネルオーディオ出力を介しても３Ｄオーディオの立体感を再現することができる。

本発明の一実施態様は、オーディオ信号をプロセッシングするオーディオ信号処理方法及び装置を提供することを目的とする。

詳しくは、本発明の一実施態様は、バイノーラルオーディオ信号を処理するオーディオ信号処理方法及び装置を提供することを目的とする。

詳しくは、本発明の一実施態様は、メタデータを利用してバイノーラルオーディオ信号を処理するオーディオ信号処理方法及び装置を提供することを目的とする。

詳しくは、本発明の一実施態様は、オーディオ信号のチャネル数よりも少数のチャネル数をサポートするオーディオファイルフォーマットを使用するオーディオ信号処理方法及び装置を提供することを目的とする。

本発明の実施態様によってオーディオ信号をレンダリングするオーディオ信号処理装置は、オーディオ信号を含むオーディオファイルを受信する受信部と、前記オーディオファイルの第１トラックに含まれた第１オーディオ信号成分と第２トラックに含まれた第２オーディオ信号成分を同時にレンダリングするプロセッサと、前記レンダリングされた第１オーディオ信号成分と前記レンダリングされた第２オーディオ信号成分を出力する出力部と、を含む。

前記第１トラックと前記第２トラックそれぞれがサポートするオーディオ信号のチャネル数が、前記オーディオ信号のチャネル数の和よりも小さい。

前記第１トラックは、前記オーディオファイルの複数のトラックのうち予め指定された位置のトラックである。

前記第１オーディオ信号成分は、オーディオ信号がシミュレーションする音像の位置を表現するためのメタデータなしにレンダリングされるオーディオ信号成分である。

前記第１オーディオ信号成分は、バイノーラルレンダリングのためのメタデータなしにレンダリングされるオーディオ信号成分である。

前記第１トラックはメタデータを含む。この際、前記プロセッサは、前記メタデータに基づいてオーディオ信号成分を含む前記オーディオファイルのトラックを判断する。

前記プロセッサは、前記メタデータに基づいて前記第１オーディオ信号成分と前記第２オーディオ信号成分をレンダリングする。

前記プロセッサは、前記オーディオファイルの複数のトラックが前記オーディオ信号のオーディオ信号成分を含むのかを、予め指定されたトラック順から確認する。

前記プロセッサは、前記オーディオ信号処理装置の能力に応じて前記オーディオファイルの複数のトラックに含まれた複数のオーディオ信号成分のうち、前記第１オーディオ信号成分と前記第２オーディオ信号成分を選択する。

本発明の実施態様によってオーディオ信号を伝達するためのオーディオ信号を処理するオーディオ信号処理装置は、オーディオ信号を受信する受信部と、前記オーディオ信号の第１オーディオ信号成分を第１トラックに含み、前記オーディオ信号の第２オーディオ信号成分を第２トラックに含むオーディオファイルを生成するプロセッサと、前記オーディオファイルを出力する出力部と、を含む。

前記プロセッサは、前記第１トラックにメタデータを挿入し、前記メタデータは、前記オーディオファイルの複数のトラックのうちどのトラックが前記オーディオ信号のオーディオ信号成分を含むのかを示す。

前記プロセッサは、前記オーディオ信号の複数のオーディオ信号成分を前記オーディオファイルの複数のトラックに指定された順に挿入する。

本発明の実施態様によってオーディオ信号をレンダリングするオーディオ信号処理装置は、オーディオ信号を受信する受信部と、前記オーディオ信号に対するメタデータに基づいて前記オーディオ信号がシミュレーションする音像の位置を反映して前記オーディオ信号をレンダリングするのかを決定し、前記決定によって前記オーディオ信号をレンダリングするプロセッサと、前記レンダリングされたオーディオ信号を出力する出力部と、を含む。

前記メタデータは、前記メタデータが支持する時間区間に当たるサウンドレベルを示すサウンドレベル情報を含む。この際、前記プロセッサは、前記サウンドレベル情報に基づいて前記オーディオ信号がシミュレーションする音像の位置を反映して、前記オーディオ信号をレンダリングするのかを決定する。

前記プロセッサは、第１時間区間に当たるオーディオ信号のサウンドレベルと第２時間区間に当たるオーディオ信号のサウンドレベルの差を比較し、前記第２時間区間に当たるオーディオ信号がシミュレーションする音像の位置を反映して、前記第２時間区間に当たるオーディオ信号をレンダリングするのかを決定する。この際、前記第１時間区間は前記第２時間区間よりも先の時間である。

前記プロセッサは、前記サウンドレベル情報が示すサウンドレベルが予め指定された値よりも小さいのかに基づき、前記オーディオ信号がシミュレーションする音像の位置を反映して、前記オーディオ信号をレンダリングするのかを決定する。

前記メタデータは、バイノーラルレンダリングの適用強度を示すバイノーラル効果強度情報を含む。前記プロセッサは、前記バイノーラル効果強度情報に基づいて前記オーディオ信号に対するバイノーラルレンダリングの適用強度を決定し、前記決定されたバイノーラルレンダリングの適用強度で前記オーディオ信号をバイノーラルレンダリングする。

前記プロセッサは、前記決定されたバイノーラルレンダリングの適用強度に応じてバイノーラルレンダリングのためのＨＲＴＦ（ＨｅａｄＲｅｌａｔｅｄＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎ）、またはＢＲＩＲ（ＢｉｎａｕｒａｌＲｅｎｄｅｒｉｎｇＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）の適用強度を変更する。

前記バイノーラル効果強度情報は、前記オーディオ信号の成分別にバイノーラルレンダリングの強度を指示する。

前記バイノーラル効果強度情報は、フレーム単位でバイノーラルレンダリングの強度を指示する。

前記メタデータは、聴者の動きを反映して前記オーディオ信号をレンダリングするのかを示す動き適用可否情報を含む。この際、前記プロセッサは、前記動き適用可否情報に基づいて前記聴者の動きを反映し、前記オーディオ信号をレンダリングするのかを決定する。

前記プロセッサは、前記オーディオ信号がシミュレーションする音像の位置を反映してレンダリングするのかが変更されるのかに応じて、フェードイン・フェードアウトを適用して前記オーディオ信号をレンダリングする。

前記メタデータは、聴者よって設定されるパラメータである個人化パラメータの適用許容可否を示す個人化パラメータ適用情報を含む。この際、前記プロセッサは、前記個人化パラメータ適用情報に応じて前記個人化パラメータを適用せずに前記オーディオ信号をレンダリングする。

本発明の実施態様によってオーディオ信号を伝達するためのオーディオ信号を処理するオーディオ信号処理装置は、前記オーディオ信号を受信する受信部と、前記オーディオ信号がシミュレーションする音像の位置を反映するための情報を含む、前記オーディオ信号に対するメタデータを生成するプロセッサと、前記メタデータを出力する出力部と、を含む。

前記プロセッサは、前記メタデータが支持する時間区間に当たるサウンドレベルを前記メタデータに挿入する。この際、前記サウンドレベルは前記オーディオ信号がシミュレーションする音像の位置を反映し、前記オーディオ信号をレンダリングするのかを決定するのに使用される。

前記プロセッサは、前記オーディオ信号に適用されるバイノーラルレンダリングの強度を示すバイノーラル効果強度情報を前記メタデータに挿入する。

前記バイノーラル効果強度情報は、バイノーラルレンダリングのためのＨＲＴＦ、またはＢＲＩＲの適用強度を変更するのに使用される。

前記バイノーラル効果強度情報は、前記オーディオ信号のオーディオ信号成分別にバイノーラルレンダリングの強度を指示する。

前記バイノーラル効果強度情報は、フレーム単位でバイノーラルレンダリングの適用強度を指示する。

前記プロセッサは、聴者の動きを反映して前記オーディオ信号をレンダリングするのかを示す動き適用可否情報を前記メタデータに挿入する。前記聴者の動きは、前記聴者の頭の動きを含む。

本発明の実施態様によってオーディオ信号をレンダリングするオーディオ信号処理装置の動作方法は、オーディオ信号を受信するステップと、前記オーディオ信号に対するメタデータに基づいて前記オーディオ信号がシミュレーションする音像の位置を反映して前記オーディオ信号をレンダリングするステップと、前記レンダリングされたオーディオ信号を出力するステップと、を含む。

本発明の一実施態様は、複数のオーディオ信号をプロセッシングするオーディオ信号処理方法及び装置を提供する。

詳しくは、本発明の一実施態様は、アンビソニック信号で表現されるオーディオ信号を処理するオーディオ信号処理方法及び装置を提供する。

本発明の一実施形態によってオーディオ信号をレンダリングするオーディオ信号処理装置を示すブロック図である。本発明の実施形態によってオーディオ信号をレンダリングするオーディオ信号処理装置がアンビソニック信号とオブジェクト信号を共にプロセッシングする動作を示すブロック図である。本発明の実施形態によってバイノーラルレンダリングの適用程度を示すメタデータのシンタックス（ｓｙｎｔａｘ）を示す図である。本発明の実施形態によってオーディオ信号がレンダリングされる装置の特性に応じてレンダリング条件を調整するためのメタデータのシンタックスを示す図である。本発明の実施形態による付加情報の分類を示す図である。本発明の実施形態によるヘッダパラメータの構造を示す図である。本発明の実施形態によるＧＡＯ＿ＨＤＲの具体的なフォーマットを示す図である。本発明の実施形態によるメタデータパラメータの構造を示す図である。本発明の一実施形態によってオーディオ信号をレンダリングするオーディオ信号処理装置がオーディオ信号とは別にメタデータを獲得する動作を示す図である。本発明の一実施形態によってオーディオ信号をレンダリングするオーディオ信号処理装置がオーディオ信号と共にメタデータを獲得する動作を示す図である。本発明の一実施形態によってオーディオ信号をレンダリングするオーディオ信号処理装置がオーディオ信号とメタデータをリンクするリンク情報を共に獲得する動作を示す図である。本発明の一実施形態によってオーディオ信号をレンダリングするオーディオ信号処理装置がオーディオビットストリームに基づいてメタデータを獲得する動作を示す図である。本発明の一実施形態によってオーディオ信号をレンダリングするオーディオ信号処理装置がオーディオビットストリームに基づいてメタデータを獲得する動作を示す図である。本発明の一実施形態によってオーディオ信号をレンダリングするオーディオ信号処理装置が伝送ストリーミングを介してオーディオ信号を受信する際のオーディオ信号処理装置がメタデータを獲得する方法を示す図である。本発明の実施形態によるＡＡＣファイルのシンタックスを示す図である。本発明の実施形態によるＡＡＣファイルのシンタックスを示す図である。本発明の一実施形態によってオーディオ信号が含むチャネルの和よりも少数のチャネルをサポートするオーディオファイルフォーマットを利用するオーディオ信号処理方法を示す図である。本発明の一実施形態によってオーディオ信号を伝達するためにオーディオ信号を処理するオーディオ信号処理装置を示すブロック図である。本発明の一実施形態によってオーディオ信号を伝達するためにオーディオ信号を処理するオーディオ信号処理装置の動作方法を示す順序図である。本発明の一実施形態によってオーディオ信号をレンダリングするオーディオ信号処理の動作方法を示す順序図である。

以下、添付した図面を参照し本発明の実施形態について本発明が属する技術分野における通常の知識を有する者が容易に実施し得るように詳細に説明する。しかしながら、本発明は様々な異なる形態に具現されてもよく、ここで説明する実施形態に限定されない。そして、図面において、本発明を明確に説明するために説明と関係のない部分は省略しており、明細書全体にわたって類似した部分に対しては類似した図面符号を付している。

また、ある部分がある構成要素を「含む」という際、これは特に反対する記載がない限り、他の構成要素を除くのではなく、他の構成要素を更に含むことを意味する。

本出願は、韓国特許出願第１０−２０１６−０１２２５１５号（２０１６年９月２３日）、及び第１０−２０１７−００１８５１５号（２０１７年２月１０日）に基づく優先権を主張し、優先権の基礎となる前記各出願に述べられた実施形態及び記載事項は、本出願の詳細な説明に含まれるとする。

図１は、本発明の一実施形態によってオーディオ信号をレンダリングするオーディオ信号処理装置を示すブロック図である。

本発明の一実施形態によってオーディオ信号をレンダリングするオーディオ信号処理装置１００は、受信部１０、プロセッサ３０、及び出力部７０を含む。

受信部１０は、入力オーディオ信号を受信する。この際、入力オーディオ信号は音響収集装置が受信した音響が変換されたものである。音響収集装置はマイクである。また、音響収集装置は複数のマイクを含むマイクアレイであってもよい。

プロセッサ３０は、受信部１０が受信した入力オーディオ信号をプロセッシングする。詳しくは、プロセッサ３０は、フォーマットコンバータ、レンダラ、及びポストプロセッシング部を含む。フォーマットコンバータは、入力オーディオ信号のフォーマットを他のフォーマットに変換する。詳しくは、フォーマットコンバータはオブジェクト信号をアンビソニック信号に変換する。この際、アンビソニック信号はマイクアレイを介して録音された信号である。また、アンビソニック信号は、マイクアレイを介して録音した信号を球面調和関数（ｓｐｈｅｒｉｃａｌｈａｒｍｏｎｉｃｓ）の基底に対する係数（ｃｏｅｆｆｉｃｉｅｎｔ）に変換した信号であってもよい。また、フォーマットコンバータはアンビソニック信号をオブジェクト信号に変換する。詳しくは、フォーマットコンバータはアンビソニック信号の次数を変更する。例えば、フォーマットコンバータはＨｏＡ（ＨｉｇｈｅｒＯｒｄｅｒＡｍｂｉｓｏｎｉｃｓ）信号をＦｏＡ（ＦｉｒｓｔＯｒｄｅｒＡｍｂｉｓｏｎｉｃｓ）信号に変更する。また、フォーマットコンバータは入力オーディオ信号に関する位置情報を獲得し、獲得した位置情報に基づいて入力オーディオ信号のフォーマットを変換する。この際、位置情報はオーディオ信号に当たる音響を収集したマイクアレイに関する情報である。詳しくは、マイクアレイに関する情報は、マイクアレイを構成するマイクの配列情報、個数情報、位置情報、周波数特性情報、及びビームパターン情報のうち少なくとも一つを含む。また、入力オーディオ信号に関する位置情報は音源の位置を示す情報を含む。

レンダラは入力オーディオ信号をレンダリングする。詳しくは、レンダラはフォーマットが変換された入力オーディオ信号をレンダリングする。この際、入力オーディオ信号はラウドスピーカチャネル信号、オブジェクト信号、及びアンビソニック信号のうち少なくともいずれか一つを含む。具体的な実施形態において、レンダラはオーディオ信号のフォーマットが示す情報を利用して入力オーディオ信号が３次元上に位置する仮想のサウンドオブジェクトによって表現されるようにするオーディオ信号にレンダリングする。例えば、レンダラは入力オーディオ信号を複数のスピーカにマッチングしてレンダリングする。また、レンダラは入力オーディオ信号をバイノーラルレンダリングする。

また、レンダラはオブジェクト信号とアンビソニック信号の時間を同期化する時間同期化部（ＴｉｍｅＳｙｎｃｈｒｏｎｉｚｅｒ）を含む。

また、レンダラはアンビソニック信号の６自由度（６ＤｅｇｒｅｅｓＯｆＦｒｅｅｄｏｍ、６ＤＯＦ）を制御する６ＤＯＦ制御部を含む。この際、６ＤＯＦ制御部は、アンビソニック信号の特定方向成分の大きさを変更する方向変更部を含む。詳しくは、６ＤＯＦ制御部は、オーディオ信号がシミュレーションする仮想の空間における聴者の位置に応じて、アンビソニック信号の特定方向成分の大きさを変更する。方向変更部は、アンビソニック信号の特定方向成分の大きさを変更するための行列を生成する方向変更行列生成部（ＤｉｒｅｃｔｉｏｎａｌＭｏｄｉｆｉｃａｔｉｏｎＭａｔｒｉｘＧｅｎｅｒａｔｏｒ）を含む。また、６ＤＯＦ制御部はアンビソニック信号をチャネル信号に変換する変換部を含み、６ＤＯＦ制御部はチャネル信号に対応する仮想のスピーカとオーディオ信号の聴者との間の相対的位置を演算する相対的位置演算部を含む。

出力部７０は、レンダリングされたオーディオ信号を出力する。詳しくは、出力部７０は２つ以上のラウドスピーカを介してオーディオ信号を出力する。別の具体的な実施形態において、出力部７０は２チャネルステレオヘッドホンを介してオーディオ信号を出力してもよい。

オーディオ信号処理装置１００は、アンビソニック信号とオブジェクト信号を共に処理する。この際、オーディオ信号処理装置１００の具体的な動作については図２を介して説明する。

図２は、本発明の実施形態によってオーディオ信号をレンダリングするオーディオ信号処理装置がアンビソニック信号とオブジェクト信号を共にプロセッシングする動作を示すブロック図である。

上述したアンビソニック（Ａｍｂｉｓｏｎｉｃｓ）は、オーディオ信号処理装置が音場に関する情報を獲得し、獲得した情報を利用して音を再現する方法の一つである。詳しくは、アンビソニックはオーディオ信号処理装置が以下のようにオーディオ信号をプロセッシングすることを示す。

理想的なアンビソニック信号のプロセッシングのために、オーディオ信号処理装置は空間上の一点に入射する全方向の音響から音源に関する情報を獲得すべきである。しかし、マイクの大きさを減らすには限界があるため、オーディオ信号処理装置は球の表面から収集された音響から無限に小さい点に入射する信号を演算して音源に関する情報を獲得し、獲得した情報を使用する。詳しくは、球面座標系上において、マイクアレイの各マイクの位置は、座標系中心からの距離、方位角（または水平角）、及び高度角（または垂直角）で表現される。オーディオ信号処理装置は、球面座標系における各マイクの座標値を介して球面調和関数の基底を獲得する。この際、オーディオ信号処理装置は、球面調和関数の各基底に基づいてマイクアレイ信号を球面調和関数ドメインにプロジェクション（ｐｒｏｊｅｃｔｉｏｎ）する。

例えば、マイクアレイ信号は球状のマイクアレイを介して録音される。球面座標系の中心をマイクアレイの中心と一致させると、マイクアレイの中心から各マイクまでの距離はいずれも一定である。よって、各マイクの位置は方位角θと高度角Φのみで表現される。マイクアレイにおいて、ｑ番目のマイクの位置を（θｑ、Φｑ）とすると、該当マイクを介して録音された信号Ｐ_ａは球面調和関数ドメインで以下の数式のように表現される。

Ｐ_ａは、マイクを介して録音された信号を示す。（θｑ、Φｑ）は、ｑ番目のマイクの方位角と高度角を示す。Ｙは、方位角と高度角を因子として有する球面調和関数を示す。ｍはそれぞれ球面調和関数との次数（ｏｒｄｅｒ）を示し、ｎはディグリー（ｄｅｇｒｅｅ）を示す。Ｂは、球面調和関数に対応するアンビソニック係数を示す。本明細書において、アンビソニック係数はアンビソニック信号と称される。詳しくは、アンビソニック信号はＦｏＡ信号及びＨｏＡ信号のうちいずれか一つを示す。

この際、オーディオ信号処理装置は、球面調和関数を利用して擬似逆行列（ｐｓｅｕｄｏｉｎｖｅｒｓｅｍａｔｒｉｘ）を利用してアンビソニック信号を獲得する。詳しくは、オーディオ信号処理装置は以下の数式を使用してアンビソニック信号を獲得する。

Ｐ_ａは上述したようにマイクを介して録音された信号を示し、Ｂは球面調和関数に対応するアンビソニック係数を示す。ｐｉｎｖ（Ｙ）は、Ｙの擬似逆行列を示す。

上述したオブジェクト信号は、一つのサウンドオブジェクトに対応するオーディオ信号を示す。詳しくは、オブジェクト信号は特定のサウンドオブジェクトに近接した音響収集装置から獲得された信号である。オブジェクト信号は、特定地点で収集可能な全ての音響を空間上に表現するアンビソニック信号とは異なって、いずれか一つのサウンドオブジェクトが出力する音が特定地点に伝達されることを表現するために使用される。オーディオ信号処理装置は、オブジェクト信号に対応するサウンドオブジェクトの位置を利用してオブジェクト信号をアンビソニック信号のフォーマットで示す。この際、オーディオ信号処理装置は、サウンドオブジェクトに当たる音響を収集するマイクに設置された外部センサと、位置測定の基準点に設置された外部センサを使用してサウンドオブジェクトの位置を測定する。別の具体的な実施形態において、オーディオ信号処理装置は、マイクで収集されたオーディオ信号を分析してサウンドオブジェクトの位置を推定する。詳しくは、オーディオ信号処理装置は以下の数式を使用してオブジェクト信号をアンビソニック信号で示す。

θｓとΦｓそれぞれは、オブジェクトに対応するサウンドオブジェクトの位置を示す方位角と高度角を示す。Ｙは、方位角と高度角を因子として有する球面調和関数を示す。Ｂ^ｓｎｍは、オブジェクト信号が変換されたアンビソニック信号を示す。

よって、オーディオ信号処理装置がオブジェクト信号とアンビソニック信号を同時にプロセッシングする際、オーディオ信号処理装置は以下のうち少なくともいずれか一つの方法を使用する。詳しくは、オーディオ信号処理装置は、オブジェクト信号とアンビソニック信号を別途に出力する。また、オーディオ信号処理装置は、オブジェクト信号をアンビソニック信号フォーマットに変換し、アンビソニック信号フォーマットに変換されたオブジェクト信号とアンビソニック信号を出力する。この際、アンビソニック信号フォーマットに変換されたオブジェクト信号とアンビソニック信号はＨｏＡ信号である。また、アンビソニック信号フォーマットに変換されたオブジェクト信号とアンビソニック信号はＦｏＡ信号である。別の具体的な実施形態において、オーディオ信号処理装置は、オブジェクト信号なしにアンビソニック信号のみを出力してもよい。この際、アンビソニック信号はＦｏＡ信号である。アンビソニック信号は空間上の一地点から収集された全ての音響を含むと仮定するため、アンビソニック信号はオブジェクト信号に当たる信号成分を含んでいると仮定してもよい。よって、オーディオ信号処理装置は、前記実施形態のようにオブジェクト信号を別途にプロセッシングせずにアンビソニック信号のみをプロセッシングしても、オブジェクト信号に当たるサウンドオブジェクトを再現することができる。

具体的な実施形態において、オーディオ信号処理装置はアンビソニック信号とオブジェクト信号を図２の実施形態のように処理する。アンビソニック変換部３１は、アンビエント音響をアンビソニック信号に変更する。フォーマットコンバータ３３は、オブジェクト信号とアンビソニック信号のフォーマットを変更する。この際、フォーマットコンバータ３３はオブジェクト信号をアンビソニック信号のフォーマットに変換する。詳しくは、フォーマットコンバータ３３はオブジェクト信号をＨｏＡ信号に変換する。また、フォーマットコンバータ３３はオブジェクト信号をＦｏＡ信号に変換する。また、フォーマットコンバータ３３はＨｏＡ信号をＦｏＡ信号に変換する。ポストプロセッサ３５は、フォーマットが変換されたオーディオ信号をポストプロセッシングする。レンダラ３７は、ポストプロセッシングされたオーディオ信号をレンダリングする。この際、レンダラ３７はバイノーラルレンダラである。よって、レンダラ３７は、ポストプロセッシングされたオーディオ信号をバイノーラルレンダリングする。

オーディオ信号処理装置は、オーディオ信号をレンダリングして仮想の空間に位置する音源をシミュレーションする。この際、オーディオ信号処理装置は、オーディオ信号をレンダリングするための情報を必要とする。オーディオ信号をレンダリングするための情報はメタデータの形式で伝達され、オーディオ信号処理装置はメタデータに基づいてオーディオ信号をレンダリングする。特に、メタデータはコンテンツ製作者が意図したレンダリング方法に関する情報、及びレンダリング環境に関する情報を含む。それによって、オーディオ信号処理装置はコンテンツ製作者の意図を反映してオーディオ信号をレンダリングすることができる。メタデータの種類及びフォーマットについて、図３乃至図１６を介して説明する。

図３は、本発明の実施形態によってバイノーラルレンダリングの適用程度を示すメタデータのシンタックスを示す図である。

メタデータは、オーディオ信号をレンダリングする際に聴者の頭の動きを反映し、オーディオ信号をレンダリングするのかを示す頭の動き適用情報を含む。この際、オーディオ信号をレンダリングするオーディオ信号処理装置は、メタデータから頭の動き適用情報を獲得する。オーディオ信号処理装置は、頭の動き適用情報に基づいて聴者の頭の動きを反映し、オブジェクト信号をレンダリングするのかを決定する。また、頭の動きは頭の回転（ｈｅａｄｒｏｔａｔｉｏｎ）を示す。オーディオ信号処理装置は、頭の動き適用情報に応じて聴者の頭の動きを反映せずに、オブジェクト信号をレンダリングする。また、オーディオ信号処理装置は、頭の動き適用情報に応じて聴者の頭の動きを反映し、オブジェクト信号をレンダリングしてもよい。聴者の頭に付いている蜂のように、聴者の頭の動きに応じて一緒に動くオブジェクトがあることがある。聴者の頭が回転する場合でも、聴者との間の相対的位置は変化しないか非常に少なく変化する。よって、オーディオ信号処理装置は、聴者の頭の動きを反映せずに該当オブジェクトをシミュレーションするオーディオ信号をレンダリングする。このような実施形態を介して、オーディオ信号処理装置の演算量を減らすことができる。

また、メタデータは、バイノーラルレンダリングの適用強度を示すバイノーラル効果強度情報を含む。この際、オーディオ信号をレンダリングするオーディオ信号処理装置は、メタデータからバイノーラル効果の強度を獲得する。また、オーディオ信号処理装置は、バイノーラル効果強度情報に基づいてオブジェクト信号にバイノーラルレンダリングの適用強度（ｌｅｖｅｌ）を決定する。詳しくは、オーディオ信号処理装置は、バイノーラル効果強度情報に基づいてオーディオ信号にバイノーラルレンダリングの適用するのかを決定する。上述したように、オーディオ信号処理装置がオーディオ信号をバイノーラルレンダリングすれば、オーディオ信号処理装置は３次元空間にオーディオ信号が表現する音像が位置するようにシミュレーションする。但し、バイノーラルレンダリングはＨＲＴＦまたはＢＲＩＲのような伝達関数を使用するため、バイノーラルレンダリングによってオーディオ信号の音色が変形する可能性がある。また、オーディオ信号が表現する音像の種類によっては、空間感よりは音色がより重要な可能性がある。よって、オーディオ信号が含むコンテンツの製作者は、バイノーラル効果強度情報を設定してオーディオ信号のバイノーラルレンダリングの適用程度を決定する。詳しくは、バイノーラル効果強度情報は、バイノーラルレンダリングが適用されていないことを示す。この際、オーディオ信号処理装置は、バイノーラル効果強度情報に基づいてオーディオ信号をバイノーラルレンダリングを使用せずにレンダリングする。また、バイノーラル効果強度情報は、バイノーラルレンダリングが適用される際にバイノーラルレンダリングのためのＨＲＴＦまたはＢＲＩＲの適用強度を示す。

詳しくは、バイノーラル効果強度情報は量子化されたレベルに区分される。別の具体的な実施形態において、バイノーラル効果強度情報はＭｉｌｄ、Ｎｏｒｍａｌ、及びＳｔｒｏｎｇのように３段階に区分される。また、バイノーラル効果強度情報は、図３（ａ）の実施形態のように５段階に区分されてもよい。別の具体的な実施形態において、バイノーラル効果強度情報は０と１との間の連続した実数のうちいずれか一つの値で表現されてもよい。

オーディオ信号をレンダリングするオーディオ信号処理装置は、バイノーラル効果強度情報をオーディオ信号が含むオーディオトラック別に適用する。また、オーディオ信号処理装置は、バイノーラル効果強度情報をオーディオ信号が含むオーディオソース別に適用する。また、オーディオ信号をレンダリングするオーディオ信号処理装置は、バイノーラル効果強度情報を信号特性別に適用する。また、オーディオ信号処理装置は、バイノーラル効果強度情報をオーディオ信号が含むオブジェクト別に適用する。また、オーディオ信号をレンダリングするオーディオ信号処理装置は、バイノーラル効果強度情報を各オーディオトラックの時間区間別に適用する。この際、時間区間はオーディオ信号のフレームである。詳しくは、メタデータは、図３（ｂ）の実施形態のようにバイノーラル効果強度情報をトラック別、フレーム別に区分する。

また、メタデータは、バイノーラル効果強度情報の適用が強制されるのかを示すバイノーラル効果強度強制可否情報を含む。オーディオ信号をレンダリングするオーディオ信号処理装置は、メタデータからバイノーラル効果強度強制可否情報を獲得し、バイノーラル効果強度強制可否情報に応じてバイノーラル強化強度情報を選択的に適用する。また、オーディオ信号処理装置は、バイノーラル効果強度強制可否情報に応じてバイノーラル効果強度情報を強制に適用する。オーディオ信号をレンダリングするオーディオ信号処理装置は、バイノーラル効果強度強制可否情報をオーディオ信号が含むオーディオトラック別に適用する。また、オーディオ信号をレンダリングするオーディオ信号処理装置は、バイノーラル効果強度強制可否情報をオーディオ信号が含むオーディオソース別に適用する。また、オーディオ信号処理装置は、バイノーラル効果強度強制可否情報を信号特性別に適用する。また、オーディオ信号をレンダリングするオーディオ信号処理装置は、バイノーラル効果強度強制可否情報をオーディオ信号が含むオブジェクト別に適用する。また、オーディオ信号をレンダリングするオーディオ信号処理装置は、バイノーラル効果強度強制可否情報を各オーディオトラックの時間区間別に適用する。具体的な実施形態において、バイノーラル効果強度強制可否情報の具体的な形式は図３（ｃ）のようである。

オーディオ信号をレンダリングするオーディオ信号処理装置は、バイノーラル効果強度情報を使用してバイノーラルレンダリングだけでなく他の立体音響の適用可否を決定する。詳しくは、オーディオ信号処理装置は、バイノーラル効果強度情報に応じてバイノーラル効果強度情報が指示するオーディオ信号を該当オーディオ信号がシミュレーションする音像の位置を反映せずにレンダリングする。このような実施形態を介して、オーディオ信号をレンダリングするオーディオ信号処理装置の演算効率を上げられる。また、このような実施形態を介して、オーディオ信号が含むコンテンツの製作者が意図したコンテンツ経験が聴者に精巧に伝達される。

同じオーディオ信号でも、多様な装置を介してレンダリングされる。特に、多様な映像表示装置を介してコンテンツが消費されることで、オーディオ信号のレンダリング環境も多様になりつつある。例えば、同じオーディオ信号がヘッドマウントディスプレイ（ｈｅａｄｍｏｕｎｔｅｄｄｉｓｐｌａｙ、ＨＭＤ）形態のＶＲ機器にレンダリングされてもよく、携帯やテレビにレンダリングされてもよい。よって、同じオーディオ信号であってもオーディオ信号がレンダリングされる装置に応じて異なるようにレンダリングされる必要がある。それについては図４を介して説明する。

図４は、本発明の実施形態によってオーディオ信号がレンダリングされる装置の特性に応じてレンダリング条件を調整するためのメタデータのシンタックスを示す図である。

メタデータは、該当メタデータが生成される際に基準となるオーディオ信号処理装置の特性を示すリファレンス装置特性パラメータを含む。詳しくは、リファレンス装置特性パラメータは、オーディオ信号が含むコンテンツの製作者がオーディオ信号をレンダリングすると意図したオーディオ信号処理装置の特性を示す。

オーディオ信号リファレンス装置特性パラメータは、オーディオ信号がレンダリングされる映像表示装置の特性を含む。詳しくは、リファレンス装置特性パラメータは、映像表示装置のスクリーン特性を含む。詳しくは、スクリーン特性は、スクリーンのタイプ、スクリーンの解像度、スクリーンのサイズ、及びスクリーンの画面割合のうち少なくともいずれか一つを含む。スクリーンのタイプは、テレビ、パソコンのモニタ、携帯、及びＨＭＤのうち少なくともいずれか一つを含む。また、スクリーンのタイプは、スクリーンの解像度と組み合わせられて区分される。例えば、装置特性パラメータは、ＨＤをサポートするＨＭＤとＵＨＤをサポートするＨＭＤを区別して示してもよい。スクリーンの画面割合は、１：１、４：３、１５：９、及び１６：９のうち少なくともいずれか一つを含む。また、リファレンス装置特性パラメータは、具体的なモデル名を含む。

詳しくは、リファレンス装置特性パラメータは、聴者と映像表示装置の位置関係を含む。聴者と映像表示装置の位置関係は、聴者と映像表示装置のスクリーンとの間の距離を含む。また、聴者と映像表示装置の位置関係は、聴者が映像表示装置を眺める視聴角度を含む。聴者と映像表示装置のスクリーンとの間の距離は、オーディオコンテンツを製作する際の製作環境に応じて異なり得る。また、装置特性パラメータは、視聴角度を９０度以下、９０度乃至１１０度、１１０度乃至１３０度、１３０度以上のように区別して示す。

また、リファレンス装置特性パラメータは、オーディオ信号出力特性を含む。オーディオ信号出力特性は、ラウドネスレベル、出力装置のタイプ及び出力に使用されるＥＱのうち少なくともいずれか一つを含む。リファレンス装置特性パラメータは、ラウドネスレベルをＳＰＬ（ＳｏｕｎｄＰｒｅｓｓｕｒｅＬｅｖｅｌ）値に示す。詳しくは、リファレンス装置特性パラメータは、メタデータが意図するラウドネスレベルの範囲を示す。別の具体的な実施形態において、リファレンス装置特性パラメータは、メタデータが意図するラウドネスレベルの値を示す。出力装置のタイプは、ヘッドホン及びスピーカのうち少なくともいずれか一つを含む。また、出力装置のタイプは、ヘッドホン、スピーカの出力特性に応じて細分化される。また、出力に使用されるＥＱは、創作家コンテンツを製作する際に使用したＥＱである。詳しくは、リファレンス装置特性パラメータは、図４のようなシンタックスを有する。

オーディオ信号処理装置は、リファレンス装置特性パラメータとオーディオ信号処理装置の特性の差に基づいてオーディオ信号をレンダリングする。具体的な実施形態において、オーディオ信号処理装置は、リファレンス装置特性パラメータが示す聴者と映像出力装置のスクリーンとの間の距離と、実際の装置特性パラメータが示す聴者と映像出力装置のスクリーンとの間の距離の差に基づいてオーディオ信号の大きさを調整する。別の具体的な実施形態において、オーディオ信号処理装置は、リファレンス装置特性パラメータが示す視聴角度と実際の装置特性パラメータが示す視聴角度の差に基づいて、メタデータが示す音像の位置を補正してオーディオ信号をレンダリングする。また別の具体的な実施形態において、オーディオ信号処理装置は、リファレンス装置特性パラメータが示すラウドネスレベルに基づいて、オーディオ信号処理装置の出力レベルを調整する。詳しくは、オーディオ信号処理装置は、リファレンス装置特性パラメータが示すラウドネスレベルにオーディオ信号処理装置の出力レベルを調整する。また、オーディオ信号処理装置は、リファレンス装置特性パラメータが示すラウドネスレベルをユーザに表示する。詳しくは、オーディオ信号処理装置は、リファレンス装置特性パラメータが示すラウドネスレベルと、等ラウドネス曲線（ＥｑｕａｌＬｏｕｄｎｅｓｓＣｏｎｔｏｕｒ）に基づいてオーディオ信号処理装置の出力レベルを調整する。

オーディオ信号処理装置は、複数のリファレンス装置特性パラメータセットのうちいずれか一つを選択し、選択したリファレンス装置特性パラメータセットに当たるメタデータを利用してオーディオ信号をレンダリングする。詳しくは、オーディオ信号処理装置は、オーディオ信号処理装置の特性に基づいて複数のリファレンス装置特性パラメータセットのうちいずれか一つを選択する。この際、リファレンス装置特性パラメータセットは、上述した装置特性パラメータのうち少なくともいずれか一つを含む。オーディオ信号処理装置は、複数のリファレンス装置特性パラメータセットと、複数のリファレンス装置特性パラメータセットそれぞれに当たるメタデータを含むメタデータセットを受信する。この際、メタデータセットは、リファレンス装置特性パラメータセットの個数を示すスクリーン最適情報個数（ｎｕｍＳｃｒｅｅｎＯｐｔｉｍｉｚｅｄＩｎｆｏ）を含む。スクリーン最適情報個数は５ビット表示され、最大３２個を示す。

オーディオ信号処理装置は、個人化（ｐｅｒｓｏｎａｌｉｚａｔｉｏｎ）パラメータを使用してオーディオ信号をバイノーラルレンダリングする。この際、個人化パラメータは、聴者によって設定されるパラメータを示す。詳しくは、個人化パラメータはＨＲＴＦ、身体情報及び３Ｄモデルのうち少なくともいずれか一つを含む。個人化パラメータは、オーディオ信号レンダリングに影響を及ぼす。よって、聴者が設定した個人化パラメータが適用されれば、オーディオ信号が含むコンテンツの製作者の意図がレンダリングされたオーディオに反映されない可能性がある。結果的に、オーディオ信号がコンテンツを介して伝達しようとするコンテンツの経験が伝達できない恐れがある。よって、メタデータは個人化パラメータの適用可否を示す個人化適用可否情報を含む。オーディオ信号処理装置は、個人化適用可否情報に基づいて個人化パラメータを適用し、オーディオ信号をバイノーラルレンダリングするのかを決定する。個人化適用可否情報が個人化パラメータの適用を許容されないことを示せば、オーディオ信号処理装置は個人化パラメータを適用せずにオーディオ信号をバイノーラルレンダリングする。

オーディオ信号が含むコンテンツの製作者は、メタデータを使用してオーディオ信号処理装置の演算量の最適化を誘導する。詳しくは、メタデータは、オーディオ信号のサウンドレベルを示すサウンドレベル情報を含む。オーディオ信号処理装置は、サウンドレベル情報に基づいてオーディオ信号を該当オーディオ信号がシミュレーションする音像の位置を反映せずにレンダリングする。オーディオ信号がシミュレーションする音像の位置を反映せずにレンダリングすることは、バイノーラルレンダリングを適用せずにオーディオ信号をレンダリングすることを含む。

例えば、メタデータは、サウンドレベルが０であることを示すミュート情報を含む。この際、オーディオ信号処理装置は、ミュート情報に基づいてオーディオ信号を該当オーディオ信号がシミュレーションする音像の位置を反映せずにレンダリングする。詳しくは、オーディオ信号処理装置は、ミュート情報がサウンドレベルが０であることを示すオーディオ信号を該当オーディオ信号がシミュレーションする音像の位置を反映せずにレンダリングする。

別の具体的な実施形態において、オーディオ信号処理装置は、サウンドレベルが一定大きさ以下のオーディオ信号を該当オーディオ信号がシミュレーションする音像の位置を反映せずにレンダリングする。

また別の具体的な実施形態において、オーディオ信号処理装置は、第１時間区間に当たるオーディオ信号のサウンドレベルと第２時間区間に当たるオーディオ信号のサウンドレベルに基づき、第２時間区間に当たるオーディオ信号がシミュレーションする音像の位置を反映せずに、第２時間区間に当たるオーディオ信号をレンダリングする。この際、第１時間区間は第２時間区間の前に位置する時間区間である。また、第１時間区間と第２時間区間は連続した時間区間である。詳しくは、オーディオ信号処理装置は、第１時間区間に当たるオーディオ信号のサウンドレベルと第２時間区間に当たるオーディオ信号のサウンドレベルの差を比較し、第２時間区間に当たるオーディオ信号がシミュレーションする音像の位置を反映せずに、第２時間区間に当たるオーディオ信号をレンダリングする。例えば、第１時間区間に当たるオーディオ信号のサウンドレベルと第２時間区間に当たるオーディオ信号のサウンドレベルの差が指定された値以上であれば、オーディオ信号処理装置は、第２時間区間に当たるオーディオ信号がシミュレーションする音像の位置を反映せずに、第２時間区間に当たるオーディオ信号をレンダリングする。聴者が大きい音の後に相対的に小さい音を聞く場合、聴者は時間マスキングエフェクト（ｔｅｍｐｏｒａｌｍａｓｋｉｎｇｅｆｆｅｃｔ）によって相対的に小さい音をよく認識できない恐れがある。聴者が大きい音の後に相対的に小さい音を聞く場合、聴者は空間マスキングエフェクト（ｓｐａｔｉａｌｍａｓｋｉｎｇｅｆｆｅｃｔ）によって相対的に小さい音を出す音源の位置をよく認識できない恐れがある。よって、相対的に大きい音の後に聞こえる小さい音に立体音響を再現するためのレンダリングを適用しても聴者に及ぼす影響はわずかな可能性がある。よって、オーディオ信号処理装置は、演算効率を上げるために大きい音の後に聞こえる小さい音に立体音響を再現するためのレンダリング適用しない。

具体的な実施形態において、メタデータはサウンドレベルをオーディオトラック、オーディオソース、オブジェクト、及び時間区間のうちいずれか一つに区分して示す。上述した時間区間は、オーディオ信号のフレームである。また、上述した実施形態において、オーディオ信号処理装置は、オーディオ信号がシミュレーションする音像の位置を反映してレンダリングするのかが変更されるのかに応じて、フェードイン・フェードアウトを適用してオーディオ信号をレンダリングする。オーディオ信号処理装置は、このような実施形態を介して選択的に立体音響レンダリングを適用することで、レンダリングされる音響が不自然に聞こえることを防止する。

また、メタデータはオーディオ信号がシミュレーション音像の位置に対する聴者の動きを反映してオーディオ信号をレンダリングするのかを示す動き適用可否情報を含む。オーディオ信号処理装置は、メタデータから動き適用可否情報を獲得する。オーディオ信号処理装置は、動き適用可否情報に基づいて聴者の動きを反映し、オブジェクト信号をレンダリングするのかを決定する。詳しくは、メタデータは聴者の頭の動きを反映し、オーディオ信号をレンダリングするのかを示すヘッドトラッキング適用可否情報を含む。この際、オーディオ信号処理装置はメタデータからヘッドトラッキング適用可否情報を獲得する。オーディオ信号処理装置は、ヘッドトラッキング適用可否情報に基づいて聴者の頭の動きを反映し、オブジェクト信号をレンダリングするのかを決定する。オーディオ信号処理装置は、ヘッドトラッキング適用可否情報に基づいて聴者の頭の動きを反映せずに、オブジェクト信号をレンダリングする。聴者の頭に付いている蜂のように聴者の頭の動きに応じて一緒に動くオブジェクトの場合、オブジェクトの相対的な位置変化が起こらないか非常に小さい変化のみが起こる。よって、オーディオ信号処理装置は、このようなオブジェクトを示すオーディオ信号に対して聴者の頭の動きを反映せずに、該当オブジェクトをシミュレーションするオーディオ信号をレンダリングする。

オーディオ信号処理装置は、上述した実施形態によるメタデータを使用して演算効率を最適化する。

図５乃至図８を介して、メタデータの具体的な構造とフォーマットを説明する。

図５は、本発明の実施形態による付加情報の分類を示す図である。

付加情報はメタデータを含む。付加情報は、付加情報がシグナリングするオーディオ信号の時間区間の相対的な長さによって区分される。詳しくは、付加情報は、付加情報がシグナリングするオーディオ信号の時間区間の相対的な長さによってヘッダパラメータとメタデータパラメータに区分される。ヘッダパラメータは、オーディオ信号をレンダリングする際によく変更される可能性が低いパラメータを含む。ヘッダパラメータが含むパラメータは、オーディオ信号が含むコンテンツが終了されるかレンダリング構成（ｃｏｎｆｉｇｕｒａｔｉｏｎ）が変更される前まで同じく維持される情報である。例えば、ヘッダパラメータはアンビソニック信号の次数を含む。メタデータパラメータは、オーディオ信号をレンダリングする際によく変更される可能性が高いパラメータを含む。例えば、メタデータパラメータは、オーディオ信号がシミュレーションするオブジェクトの位置に関する情報を含む。詳しくは、オブジェクトの位置に関する情報は方位角（ａｚｉｍｕｔｈ）、高度角（ｅｌｅｖａｔｉｏｎ）、距離（ｄｉｓｔａｎｃｅ）のうち少なくともいずれか一つである。

また、付加情報のタイプは、オーディオ信号レンダリングのための情報を含むエレメントパラメータと、オーディオ信号自体に関する情報以外の情報を含むジェネラルパラメータに区分される。詳しくは、ジェネラルパラメータは、オーディオ信号自体に関する情報を含む。

ヘッダパラメータの具体的な構造及びフォーマットについては、図６乃至図７を介して説明する。

図６は、本発明の実施形態によるヘッダパラメータの構造を示す図である。

ヘッダパラメータは、オーディオ信号が含む構成成分（ｃｏｍｐｏｎｅｎｔ）のタイプ別に情報を含む。詳しくは、ヘッダパラメータは、全体のオーディオ信号、アンビソニック信号、及びチャネル信号別に情報を含む。詳しくは、全体のオーディオ信号を示すヘッダパラメータはＧＡＯ＿ＨＤＲと称される。

ＧＡＯ＿ＨＤＲは、オーディオ信号のサンプリングレートに関する情報を含む。オーディオ信号処理装置は、サンプリングレートに関する情報を基準にＨＲＴＦまたはＢＲＩＲに基づくフィルタ係数を算出する。オーディオ信号処理装置は、オーディオ信号をバイノーラルレンダリングする際、サンプリングレートに当たるフィルタ係数が存在しなければ、オーディオ信号処理装置は、オーディオ信号をリサンプリング（ｒｅｓａｍｐｌｉｎｇ）してフィルタ係数を算定する。オーディオ信号がＷＡＶファイルやＡＡＣファイルのようにサンプリングレートに関する情報を含めば、ＧＡＯ＿ＨＤＲはサンプリングレートに関する情報を含まない。

また、ＧＡＯ＿ＨＤＲは、エレメントメタデータが示すフレーム別長さを示す情報を含む。フレーム別長さは、音質、バイノーラルレンダリングアルゴリズム、メモリ、演算量など、様々な制約条件を基準に設定される。フレーム別長さは、ポストプロダクション（ｐｏｓｔ−ｐｒｏｄｕｃｔｉｏｎ）またはエンコーディングの際に設定される。製作者はフレーム別長さを介して、オーディオ信号がバイノーラルレンダリングされる際に時間別（ｔｉｍｅｒｅｓｏｌｕｔｉｏｎ）密度を調節する。

また、ＧＡＯ＿ＨＤＲは、オーディオ信号が含む構成成分のタイプによる構成成分の個数を含む。詳しくは、ＧＡＯ＿ＨＤＲは、オーディオ信号が含むアンビソニック信号の個数、チャネル信号の個数、オブジェクトオーディオ信号の個数それぞれを含む。

ＧＡＯ＿ＨＤＲは、以下の表が含む情報のうち少なくともいずれか一つを含む。この際、ＧＥＮはジェネラルパラメータを示し、ＥＬＥはエレメントパラメータを示す。

ＧＡＯ＿ＨＤＲが示す構成成分のタイプによる構成成分の個数が１つ以上であれば、各構成成分に当たるヘッダパラメータがＧＡＯ＿ＨＤＲと共にオーディオ信号処理装置に伝達される。詳しくは、構成成分のタイプによる構成成分の個数が１つ以上であれば、ＧＡＯ＿ＨＤＲは各構成成分に当たるヘッダパラメータを含む。詳しくは、構成成分のタイプによる構成成分の個数が１つ以上であれば、ＧＡＯ＿ＨＤＲは各構成成分に当たるヘッダパラメータを連結するリンク情報を含む。

図７は、本発明の実施形態によるＧＡＯ＿ＨＤＲの具体的なフォーマットを示す図である。

アンビソニック信号を示すヘッダパラメータは、ＧＡＯ＿ＨＯＡ＿ＨＤＲと称される。ＧＡＯ＿ＨＯＡ＿ＨＤＲは、アンビソニック信号をレンダリングする際に使用するスピーカレイアウトに関する情報を含む。上述したように、オーディオ信号処理装置はアンビソニック信号をチャネル信号に変換し、変換したアンビソニック信号をバイノーラルレンダリングする。この際、オーディオ信号処理装置は、スピーカレイアウトに関する情報に基づいてアンビソニック信号をチャネル信号に変換する。スピーカレイアウトに関する情報は、ＣＩＣＰ（ＣｏｄｅＩｎｄｅｐｅｎｄｅｎｔＣｏｄｉｎｇＰｏｉｎｔ）インデックスである。スピーカレイアウトに関する情報によってスピーカレイアウトが決定されなければ、別途のファイルを介してスピーカレイアウトに関する情報がオーディオ信号処理装置に伝達される。スピーカレイアウト上のスピーカ数が減ると、バイノーラルレンダリングが必要な音源の個数も減る。よって、スピーカレイアウトに応じてバイノーラルレンダリングに必要な演算量が調整される。

ＧＡＯ＿ＨＯＡ＿ＨＤＲは、オーディオ信号処理男装置が該当アンビソニック信号をバイノーラルレンダリングする際に使用するバイノーラルレンダリングモードに関する情報を含む。オーディオ信号処理装置は、バイノーラルレンダリングモードに基づいて該当アンビソニック信号をバイノーラルレンダリングする。この際、バイノーラルレンダリングモードは、チャネルレンダリングの後にユーザの頭の動きを適用するレンダリングモードと、ユーザの頭の動きを適用した後にチャネルレンダリングを適用するモードのうちいずれか一つを示す。この際、頭の動きは頭の回転を示す。詳しくは、オーディオ信号処理装置は、第１アンビソニック信号に頭の動きに当たる回転マトリックスを適用して第２アンビソニック信号を生成し、第２アンビソニック信号をチャネルレンダリングする。オーディオ信号処理装置は、このようなレンダリングモードを介してアンビソニック信号の音色を維持する。また、オーディオ信号処理装置は第１アンビソニック信号をチャネル信号に変換し、頭の動きに応じて第１チャネル信号のスピーカレイアウトを変更した後、チャネル信号をバイノーラルレンダリングする。オーディオ信号処理装置は、このようなレンダリングモードを介してアンビソニック信号がシミュレーションする音像の位置を精巧に表現することができる。ＧＡＯ＿ＨＯＡ＿ＨＤＲがバイノーラルレンダリングモードに関する情報を含めば、製作者はコンテンツ特性に応じてバイノーラルレンダリングモードを選択する。例えば、製作者は、自動車の音のような広帯域のノイズのような音響は、アンビソニック信号をチャネルレンダリングした後、チャネルレンダリングされたアンビソニック信号に頭の動きを適用する。自動車の音の位置よりは音色が重要なためである。また、会話の音のように音像の位置が重要な場合、製作者はアンビソニック信号に頭の動きを適用した後、頭の動きが適用されたアンビソニック信号をチャネルレンダリングする。

ＧＡＯ＿ＨＯＡ＿ＨＤＲは、アンビソニック信号がシミュレーションする音像の位置が時間の変化に応じて回転されるのかを示す情報を含む。オーディオ信号がシミュレーションする音像の位置が時間の変化に応じて回転されるのかを示す情報は、フラッグの形態に表示される。オーディオ信号がシミュレーションする音像の位置が時間の変化に応じて回転されなければ、オーディオ信号処理装置は、最初に獲得したアンビソニック信号がシミュレーションする音像の位置回転に関する情報を続けて使用する。

ＧＡＯ＿ＨＯＡ＿ＨＤＲは、アンビソニック信号が含むコンテンツの言語を示す情報を含む。オーディオ信号処理装置は、オーディオ信号が含むコンテンツの言語を示す情報に基づいてアンビソニック信号を選択的にレンダリングする。

詳しくは、ＧＡＯ＿ＨＯＡ＿ＨＤＲは、以下の表が含む情報のうち少なくともいずれか一つを含む。

チャネル信号を示すヘッダパラメータは、ＧＡＯ＿ＣＨＮ＿ＨＤＲと称される。ＧＡＯ＿ＣＨＮ＿ＨＤＲは、チャネル信号のスピーカレイアウトに関する情報を示す情報を含む。

ＧＡＯ＿ＣＨＮ＿ＨＤＲは、ＧＡＯ＿ＨＯＡ＿ＨＤＲが含む情報を少なくともいずれか一つ含む。詳しくは、ＧＡＯ＿ＣＨＮ＿ＨＤＲは、以下の表が含む情報のうち少なくともいずれか一つを含む。

チャネル信号を示すヘッダパラメータは、ＧＡＯ＿ＯＢＪ＿ＨＤＲと称される。ＧＡＯ＿ＯＢＪ＿ＨＤＲは、ＧＡＯ＿ＨＯＡ＿ＨＤＲが含む情報を少なくともいずれか一つ含む。詳しくは、ＧＡＯ＿ＯＢＪ＿ＨＤＲは、以下の表が含む情報のうち少なくともいずれか一つを含む。

メタデータパラメータの具体的な構造及びフォーマットについては、図８を介して説明する。

図８は、本発明の実施形態によるメタデータパラメータの構造を示す図である。

メタデータパラメータは、オーディオ信号が含む構成成分のタイプ別に情報を含む。詳しくは、メタデータパラメータは、全体のオーディオ信号、アンビソニック信号、オブジェクト信号、及びチャネル信号別に情報を含む。この際、全体のオーディオ信号を示すメタデータパラメータはＧＡＯ＿ＭＥＴＡと称される。

ＧＡＯ＿ＭＥＴＡ示す構成成分のタイプによる構成成分の個数が１つ以上であれば、各構成成分に当たるメタデータパラメータがＧＡＯ＿ＭＥＴＡと共にオーディオ信号処理装置に伝達される。詳しくは、構成成分のタイプによる構成成分の個数が１つ以上であれば、ＧＡＯ＿ＭＥＴＡは各構成成分に当たるメタデータパラメータを含む。詳しくは、構成成分のタイプによる構成成分の個数が１つ以上であれば、ＧＡＯ＿ＭＥＴＡは各構成成分に当たるメタデータパラメータを連結するリンク情報を含む。

オブジェクト信号を示すメタデータパラメータは、ＧＡＯ＿ＭＥＴＡ＿ＯＢＪと称される。ＧＡＯ＿ＭＥＴＡ＿ＯＢＪは、上述したヘッドトラッキング適用可否情報を含む。この際、オーディオ信号処理装置は、ＧＡＯ＿ＭＥＴＡ＿ＯＢＪからヘッドトラッキング適用可否情報をレンダリングするのかを示す情報を獲得する。オーディオ信号処理装置は、ヘッドトラッキング適用可否情報に基づいて聴者の頭の動きを反映し、オブジェクト信号をレンダリングするのかを決定する。

ＧＡＯ＿ＭＥＴＡ＿ＯＢＪは、上述した外バイノーラル効果強度情報を含む。この際、オーディオ信号処理装置は、ＧＡＯ＿ＭＥＴＡ＿ＯＢＪからバイノーラル効果強度情報を示す情報を獲得する。また、オーディオ信号処理装置は、バイノーラル効果強度情報に基づいてオブジェクト信号に適用するバイノーラルレンダリングの適用強度を決定する。詳しくは、オーディオ信号処理装置は、バイノーラル効果強度情報に基づいてオブジェクト信号をバイノーラルレンダリングするのかを決定する。

ＧＡＯ＿ＭＥＴＡ＿ＯＢＪは、上述した外サウンドレベル情報を含む。この際、オーディオ信号処理装置は、ＧＡＯ＿ＭＥＴＡ＿ＯＢＪからサウンドレベル情報を獲得する。また、オーディオ信号処理装置は、サウンドレベル情報に基づき、オブジェクト信号がシミュレーションする音像の位置を反映してレンダリングするのかを決定する。詳しくは、オーディオ信号処理装置は、サウンドレベル情報に基づいてオブジェクト信号をバイノーラルレンダリングするのかを決定する。

詳しくは、ＧＡＯ＿ＭＥＴＡ＿ＯＢＪは、以下の表に示した情報のうち少なくともいずれか一つを含む。

ＧＡＯ＿ＭＥＴＡ＿ＣＨＮとＧＡＯ＿ＭＥＴＡ＿ＨＯＡは、上述した外バイノーラル効果強度情報を含む。この際、オーディオ信号処理装置は、ＧＡＯ＿ＭＥＴＡ＿ＣＨＮまたはＧＡＯ＿ＭＥＴＡ＿ＨＯＡからバイノーラル効果強度情報を示す情報を獲得する。また、オーディオ信号処理装置は、バイノーラル効果強度情報に基づいてチャネル信号に適用するバイノーラルレンダリングの適用強度を決定する。詳しくは、オーディオ信号処理装置は、バイノーラル効果強度情報に基づいてチャネル信号をバイノーラルレンダリングするのかを決定する。また、オーディオ信号処理装置は、バイノーラル効果強度情報に基づいてアンビソニック信号に適用するバイノーラルレンダリングの適用強度を決定する。詳しくは、オーディオ信号処理装置は、バイノーラル効果強度情報に基づいてアンビソニック信号をバイノーラルレンダリングするのかを決定する。

ＧＡＯ＿ＭＥＴＡ＿ＣＨＮとＧＡＯ＿ＭＥＴＡ＿ＨＯＡは、上述した外サウンドレベル情報を含む。この際、オーディオ信号処理装置は、ＧＡＯ＿ＭＥＴＡ＿ＣＨＮとＧＡＯ＿ＭＥＴＡ＿ＨＯＡからサウンドレベル情報を獲得する。また、オーディオ信号処理装置は、サウンドレベル情報に基づき、チャネル信号がシミュレーションする音像の位置を反映してレンダリングするのかを決定する。詳しくは、オーディオ信号処理装置は、サウンドレベル情報に基づいてチャネル信号をバイノーラルレンダリングするのかを決定する。また、オーディオ信号処理装置は、サウンドレベル情報に基づき、アンビソニック信号がシミュレーションする音像の位置を反映してレンダリングするのかを決定する。詳しくは、オーディオ信号処理装置は、サウンドレベル情報に基づいてアンビソニック信号をバイノーラルレンダリングするのかを決定する。

ＧＡＯ＿ＭＥＴＡ＿ＣＨＮとＧＡＯ＿ＭＥＴＡ＿ＯＢＪは、同じ種類のパラメータを含む。また、具体的な実施形態によって、ＧＡＯ＿ＭＥＴＡ＿ＣＨＮとＧＡＯ＿ＭＥＴＡ＿ＯＢＪは異なる種類のパラメータを含んでもよい。詳しくは、ＧＡＯ＿ＭＥＴＡ＿ＣＨＮとＧＡＯ＿ＭＥＴＡ＿ＯＢＪは、以下の表に示した情報のうち少なくともいずれか一つを含む。

オーディオ信号は、ファイルの形態でオーディオ信号処理装置に伝達される。また、オーディオ信号は、ストリーミングを介してオーディオ信号処理装置に伝達される。また、オーディオ信号は、放送信号を介してオーディオ信号処理装置に伝達される。オーディオ信号の伝達形態に応じて、メタデータの伝達方法も異なり得る。それについては、図９乃至図１２を介して説明する。

図９は、本発明の一実施形態によるオーディオ信号処理装置がオーディオ信号とは別にメタデータを獲得する動作を示す図である。

オーディオ信号を伝達するために、オーディオ信号を処理するオーディオ信号処理装置は、オーディオ信号をエンコーディングしたオーディオ信号ビットストリームとは別途にメタデータをオーディオ信号処理装置に伝達する。よって、オーディオ信号をレンダリングするオーディオ信号処理装置は、メタデータをオーディオ信号とは別途に獲得する。詳しくは、オーディオ信号をレンダリングするオーディオ信号処理装置は、メタデータをオーディオ信号とは異なる伝送ファイルまたは他の伝送ストリームから獲得する。具体的な実施形態において、オーディオ信号をレンダリングするオーディオ信号処理装置は、伝送ストリームまたは伝送ファイルを第２リンクを介して受信し、メタデータを第２リンクを介して受信する。この際、伝送ファイルまたは伝送ストリームは、オーディオ信号をエンコーディングしたオーディオビットストリームを含むか、オーディオ信号をエンコーディングしたオーディオビットストリームとビデオ信号をエンコーディングしたビデオビットストリームを全て含む。

図９の実施形態は、オーディオ信号処理装置を含む映像信号処理装置を示す。映像信号処理装置は、第１リンクＵＲＬ１を介してオーディオ信号とビデオ信号を含む伝送ストリーム（ｔｒａｎｓｐｏｒｔｓｔｒｅａｍ）を受信する。映像信号処理装置は、第２リンクＵＲＬ２からメタデータ（ｍｅｔａｄａｔａ）を受信する。映像信号処理装置は、伝送ストリームをデマクシングし、オーディオビットストリームＡとビデオビットストリームＶを抽出する。オーディオ信号処理装置のデコーダ（ＡｕｄｉｏＤｅｃｏｄｅｒ）は、オーディオビットストリームＡをデコードしてオーディオ信号（ａｕｄｉｏｓｉｇｎａｌ）を獲得する。オーディオ信号処理装置のオーディオレンダラ（ＡｕｄｉｏＲｅｎｄｅｒｅｒ）は、オーディオ信号とメタデータを受信する。この際、オーディオ信号処理装置のレンダラは、メタデータインタフェース（ＭｅｔａｄａｔａＩｎｔｅｒｆａｃｅ）を使用してメタデータを受信する。また、オーディオ信号処理装置のレンダラは、メタデータに基づいてオーディオ信号をレンダリングする。オーディオレンダラは、メタデータを処理するモジュール（Ｇ−ｆｏｒｍａｔ）とオーディオ信号を処理するモジュール（Ｇ−ｃｏｒｅ）を含む。また、オーディオレンダラは、映像信号処理装置のユーザの頭の動きに基づいてオーディオ信号をレンダリングする。映像信号処理装置は、レンダリングされたビデオを一緒に出力する。また、ビデオレンダラはビデオ信号（ｖｉｄｅｏｓｉｇｎａｌ）をレンダリングする。この際、ビデオレンダラは、映像信号処理装置のユーザの頭の動きに基づいてビデオ信号をレンダリングする。また、映像処理装置は、制御部（Ｃｏｎｔｒｏｌｌｅｒ）を使用してユーザ入力を受信する。また、制御部は、デマックス（Ｄｅｍｕｘ）とメタデータインタフェースの動作を制御する。図９の実施形態において、実線で示した部分は図９の実施形態によるオーディオ信号処理装置が含むモジュールを示す。また、点線で示した部分は映像信号処理装置が含むモジュールであって、省略されるか代替されてもよい。

図１０は、本発明の一実施形態によってオーディオ信号をレンダリングするオーディオ信号処理装置がオーディオ信号と共にメタデータを獲得する動作を示す図である。

オーディオ信号を伝達するために、オーディオ信号を処理するオーディオ信号処理装置は、オーディオ信号をエンコーディングしたオーディオ信号ビットストリームと一緒にメタデータを伝達する。オーディオ信号をレンダリングするオーディオ信号処理装置は、メタデータをオーディオ信号と一緒に獲得する。詳しくは、オーディオ信号をレンダリングするオーディオ信号処理装置は、同じ伝送ファイルまたは伝送ストリームからメタデータとオーディオ信号と一緒に獲得する。この際、伝送ファイルまたは伝送ストリームは、オーディオ信号をエンコーディングしたオーディオビットストリームとメタデータを含むか、オーディオ信号をエンコーディングしたオーディオビットストリーム、ビデオ信号をエンコーディングしたビデオビットストリーム、及びメタデータを全て含む。例えば、伝送ファイルのユーザデータフィールドはメタデータを含む。詳しくは、伝送ファイルがｍｐ４であれば、ｍｐ４のユーザデータフィールドであるＵＴＤＡはメタデータを含む。別の具体的な実施形態において、伝送ファイルがｍｐ４であれば、ｍｐ４の個別ボックス（ｂｏｘ）またはエレメントがメタデータを含む。

図１０の実施形態は、オーディオ信号処理装置を含む映像信号処理装置を示す。映像信号処理装置は、第１リンクＵＲＬ１を介してオーディオ信号、ビデオ信号、及びメタデータを含む伝送ストリームを受信する。映像信号処理装置は、伝送ストリームをパージングしてメタデータを抽出する。この際、映像信号処理装置は、パーサ（Ｐａｒｓｅｒ）を使用して伝送ストリームをパージングする。映像信号処理装置は、伝送ストリームをデマクシングし、オーディオ信号とビデオ信号を抽出する。オーディオ信号処理装置のデコーダは、デマクシングされたオーディオ信号Ａをデコードする。オーディオ信号処理装置のオーディオレンダラは、デコードされたオーディオ信号とメタデータを受信する。この際、オーディオ信号処理装置のレンダラは、メタデータインタフェースを使用してメタデータを受信する。また、オーディオ信号処理装置のレンダラは、メタデータに基づいてデコードされたオーディオ信号をレンダリングする。オーディオ信号処理装置と映像信号処理装置の他の動作は、図９を介して説明した実施形態と同じである。

図１１は、本発明の一実施形態によってオーディオ信号をレンダリングするオーディオ信号処理装置がオーディオ信号とメタデータをリンクするリンク情報を共に獲得する動作を示す図である。

オーディオ信号を伝達するために、オーディオ信号を処理するオーディオ信号処理装置は、伝送ストリームまたは伝送ファイルを介してメタデータをリンクするリンク情報を伝達する。よって、オーディオ信号をレンダリングするオーディオ信号処理装置は、伝送ストリームまたは伝送ファイルからメタデータをリンクするリンク情報を獲得し、リンク情報を使用してメタデータを獲得する。この際、伝送ファイルまたは伝送ストリームは、オーディオ信号をエンコーディングしたビットストリームを含むか、オーディオ信号をエンコーディングしたビットストリームとビデオ信号をエンコーディングしたビットストリームを全て含む。例えば、伝送ファイルのユーザデータフィールドがメタデータをリンクするリンク情報を含む。伝送ファイルがｍｐ４であれば、ｍｐ４のユーザデータフィールドであるＵＴＤＡはメタデータをリンクするリンク情報を含む。別の具体的な実施形態において、伝送ファイルがｍｐ４であれば、ｍｐ４の個別ボックスまたはエレメントがメタデータをリンクするリンク情報を含む。オーディオ信号をレンダリングするオーディオ信号処理装置は、リンク情報を使用して獲得されたメタデータを受信する。

図１１の実施形態は、オーディオ信号処理装置を含む映像信号処理装置を示す。映像信号処理装置は、第１リンクＵＲＬ１を介してオーディオ信号、ビデオ信号、及びメタデータをリンクするリンク情報を含む伝送ストリームを受信する。映像信号処理装置は、伝送ストリームをデマクシングし、オーディオビットストリームＡ、ビデオビットストリームＶ、及びメタデータをリンクするリンク情報を抽出する。オーディオ信号処理装置のデコーダは、オーディオビットストリームＡをデコードしてオーディオ信号を獲得する。オーディオ信号処理装置のレンダラは、メタデータインタフェースを使用してリンク情報が支持する第２リンクＵＲＬ２からメタデータを受信する。オーディオ信号処理装置のオーディオレンダラは、オーディオ信号とメタデータを受信する。また、オーディオ信号処理装置のレンダラは、メタデータに基づいてオーディオ信号をレンダリングする。オーディオ信号処理装置と映像信号処理装置の他の動作は、図９を介して説明した実施形態と同じである。

図１２乃至図１３は、本発明の一実施形態によってオーディオ信号をレンダリングするオーディオ信号処理装置がオーディオビットストリームに基づいてメタデータを獲得する動作を示す図である。

オーディオ信号を伝達するために、オーディオ信号を処理するオーディオ信号処理装置は、オーディオビットストリームにメタデータを挿入する。よって、オーディオ信号をレンダリングするオーディオ信号処理装置は、オーディオビットストリームからメタデータを獲得する。詳しくは、オーディオビットストリームのユーザデータフィールドはメタデータを含む。それによって、オーディオ信号をレンダリングするオーディオ信号処理装置は、オーディオビットストリームからメタデータをパージングするパーサを含む。別の具体的な実施形態において、オーディオ信号処理装置のデコーダは、オーディオビットストリームからメタデータを獲得する。

図１２の実施形態において、オーディオ信号処理装置のパーサはオーディオビットストリームからメタデータを獲得する。オーディオ信号処理装置のレンダラは、パーサからメタデータを受信する。図１３の実施形態において、オーディオ信号処理装置のデコーダはオーディオビットストリームからメタデータを獲得する。オーディオ信号処理装置のレンダラは、オーディオ信号処理装置のデコーダからメタデータを受信する。図１２乃至図１３の実施形態において、オーディオ信号処理装置と映像信号処理装置の他の動作は、図９を介して説明した実施形態と同じである。

オーディオ信号処理装置がストリーミングを介してオーディオ信号を受信すれば、オーディオ信号処理装置はストリーミングの途中からオーディオ信号を受信してもよい。よって、オーディオ信号をレンダリングするために必要な情報は周期的に伝送されるべきである。それについては、図１４乃至図１６を介して説明する。

図１４は、本発明の一実施形態によるオーディオ信号処理装置が伝送ストリーミングを介してオーディオ信号を受信する際のオーディオ信号処理装置がメタデータを獲得する方法を示す図である。

オーディオ信号を伝達するために、オーディオ信号を処理するオーディオ信号処理装置はマルチメディアストリームにメタデータを周期的に挿入する。この際、オーディオ信号を伝達するために、オーディオ信号を処理するオーディオ信号処理装置はマルチメディアストリームにフレーム単位でメタデータを挿入する。具体的な実施形態において、オーディオ信号を伝達するために、オーディオ信号を処理するオーディオ信号処理装置はマルチメディアストリームに、上述したヘッダパラメータとメタデータパラメータを周期的に挿入する。この際、オーディオ信号を伝達するために、オーディオ信号を処理するオーディオ信号処理装置はマルチメディアストリームに、ヘッダパラメータをメタデータパラメータよりも大きい周期で挿入する。詳しくは、フレームに含まれたメタデータパラメータの長さが他のフレームに含まれたメタデータパラメータの長さよりも小さければ、オーディオ信号を伝達するためにオーディオ信号を処理するオーディオ信号処理装置は、該当フレームにヘッダパラメータを挿入する。

よって、オーディオ信号をレンダリングするオーディオ信号処理装置は、マルチメディアストリームから周期的にメタデータを獲得する。詳しくは、オーディオ信号をレンダリングするオーディオ信号処理装置は、マルチメディアストリームからフレーム単位でメタデータを獲得する。オーディオ信号をレンダリングするオーディオ信号処理装置がフレーム単位でメタデータを獲得すれば、オーディオ信号をレンダリングするオーディオ信号処理装置は、メタデータとオーディオ信号の同期を取るためにオーディオ信号とメタデータを更にパッキング（Ｐａｃｋｉｎｇ）しなくてもよい。また、オーディオ信号をレンダリングするオーディオ信号処理装置は、メタデータとオーディオ信号を効率的管理することができる。メタデータの具体的なシンタックスについては、図１５乃至図１６を介して説明する。

図１５乃至図１６は、本発明の実施形態によるＡＡＣファイルのシンタックスを示す図である。詳しくは、図１５（ａ）は、本発明の実施形態によるオーディオ信号処理装置がＡＡＣファイルが含むエレメントのＩＤを判断するシンタックスを示す。図１５（ｂ）と図１５（ｃ）は、本発明の実施形態によるオーディオ信号処理装置のデータストリームエレメントパージング動作のシンタックスを示す。

上述したように、マルチメディアストリームはフレーム単位でメタデータを含む。詳しくは、ＡＡＣファイルがストリーミングを介して伝送されれば、図１５乃至図１６のようなシンタックスを有する。オーディオ信号処理装置は、ＡＡＣファイルが含むエレメントのＩＤがデータストリームエレメントＩＤ＿ＤＳＥを示すのかを判断する。ＡＡＣファイルが含むエレメントのＩＤがデータストリームエレメントＩＤ＿ＤＳＥを示せば、オーディオ信号処理装置はデータストリームエレメントパージング動作（ＧａｏＲｅａｄＤＳＥ）を行う。

図１６（ａ）は、上述したヘッダパラメータのシンタックスを示す。図１６（ｂ）は、上述したメタデータパラメータのシンタックスを示す。また、オーディオ信号処理装置は、ヘッダパラメータをパージング（ＧａｏＲｅａｄＤＳＥＨＤＲ）し、メタデータパラメータをパージング（ＧａｏＲｅａｄＤＳＥＭｅｔａ）する。

本発明の実施形態をサポートしないレガシオーディオ信号処理装置がデコーディング・レンダリングし得るチャネルの数が、本発明の実施形態によるオーディオ信号処理装置がデコーディング・レンダリングし得るチャネルの数よりも小さい。また、レガシオーディオファイルフォーマットも、オーディオ信号処理装置がデコーディング・レンダリングし得るチャネルの数よりも小さい数のオーディオ信号のみを含む。よって、レガシオーディオファイルフォーマットを介して本発明の実施形態によるオーディオ信号処理装置のためのオーディオ信号を伝送することは難しい。また、新たなファイルフォーマットを使用すれば、レガシオーディオ信号処理装置との互換性が問題になり得る。よって、レガシオーディオファイルフォーマットを利用するオーディオ信号処理方法については、図１７を介して説明する。

図１７は、本発明の一実施形態によってオーディオ信号が含むチャネルの和よりも少数のチャネルをサポートするオーディオファイルフォーマットを利用するオーディオ信号処理方法を示す図である。

オーディオファイルが複数のコンテンツを含めば、オーディオファイルは複数のトラックを含む。例えば、一つのオーディオファイルは、同じ映画のせりふを互いに異なる言語で録音された複数のトラックを含む。また、オーディオファイルは互いに異なる音楽を含む複数のトラックを含む。オーディオ信号を伝達するためにオーディオ信号を処理するオーディオ信号処理装置は、オーディオファイルのトラックを利用してオーディオファイルがサポートするチャネルの数よりも多いチャネルを有するオーディオ信号をオーディオファイルにエンコーディングする。

詳しくは、オーディオ信号を伝達するためにオーディオ信号を処理するオーディオ信号処理装置は、オーディオ信号の複数のオーディオ信号成分をオーディオファイルが含む複数のトラックに分けて挿入する。この際、複数の信号成分は、オブジェクト信号、チャネル信号、及びアンビソニック信号のうち少なくともいずれか一つである。また、オーディオファイルの各トラックは、複数の信号成分のチャネル数の和よりも小さい数のチャネルのみをサポートする。また、オーディオファイルの各トラックに含まれる信号成分のチャネル数は、オーディオファイルの各トラックがサポートするチャネル数よりも小さい。詳しくは、オーディオ信号が第１信号成分と第２信号成分を含めば、オーディオ信号を伝達するためにオーディオ信号を処理するオーディオ信号処理装置は、フォーマットの第１トラックにオーディオファイルがサポートするチャネル数をサポートする第１信号成分を挿入し、オーディオファイルの第２トラックに第２信号成分を挿入する。上述したように、第１トラックは予め指定されたトラックである。また、第１信号成分は、オーディオ信号がシミュレーションする音像の位置を表現するためのメタデータなしにレンダリングされるオーディオ信号成分である。詳しくは、第１信号成分は、バイノーラルレンダリングのためのメタデータなしにレンダリングされるオーディオ信号成分である。また、オーディオ信号を伝達するために、オーディオ信号を処理するオーディオ信号処理装置は、予め指定されたトラック順に応じて第１信号成分以外の信号成分を挿入する。別の具体的な実施形態において、オーディオ信号を伝達するために、オーディオ信号を処理するオーディオ信号処理装置は、第１トラックにメタデータを挿入する。この際、メタデータは第１信号成分以外の信号成分が含まれたトラックを指す。また、メタデータはオーディオ信号をレンダリングするのに使用される。詳しくは、メタデータは図３乃至図８を介して説明したメタデータである。

オーディオ信号をレンダリングするオーディオ信号処理装置は、オーディオファイルが含む複数のトラックに含まれたオーディオ信号成分を同時にレンダリングする。この際、複数のオーディオ信号成分は、オブジェクト信号、チャネル信号、及びアンビソニック信号のうち少なくともいずれか一つである。また、上述したように、オーディオファイルの各トラックは、複数のオーディオ信号成分のチャネル数の和よりも小さい数のチャネルをサポートする。詳しくは、オーディオ信号をレンダリングするオーディオ信号処理装置は、オーディオファイルの第１トラックに含まれた第１オーディオ信号成分と第２トラックに含まれた第２オーディオ成分を一緒にレンダリングする。この際、第１トラックは、上述したように複数のトラックのうち予め指定された位置のトラックである。例えば、第１トラックは、前記オーディオファイルの複数のトラックのうち最初トラックであってもよい。この際、オーディオ信号をレンダリングするオーディオ信号処理装置は、オーディオファイルの複数のトラックがオーディオ信号成分を含むのかを予め指定されたトラック順から確認する。別の具体的な実施形態において、オーディオ信号をレンダリングするオーディオ信号処理装置は、第１トラックからメタデータを獲得し、獲得したメタデータに基づいてオーディオ成分を獲得する。詳しくは、オーディオ信号をレンダリングするオーディオ信号処理装置は、獲得したメタデータに基づいてオーディオ信号成分を含むトラックを判断する。また、オーディオ信号をレンダリングするオーディオ信号処理装置は、第１トラックからメタデータを獲得し、獲得したメタデータに基づいてオーディオ成分をレンダリングする。詳しくは、メタデータは図３乃至図８を介して説明したメタデータである。

また、オーディオ信号をレンダリングするオーディオ信号処理装置は、オーディオ信号処理装置の能力（ｃａｐａｂｉｌｉｔｙ）に応じてオーディオファイルが含む複数のトラックを選択し、選択した複数のトラックをレンダリングする。詳しくは、オーディオ信号をレンダリングするオーディオ信号処理装置は、複数のトラックがそれぞれ含むオーディオ成分の特徴及びオーディオ信号処理装置の能力に応じて複数のトラックを選択する。上述した実施形態において、オーディオ信号をレンダリングするオーディオ信号処理装置は、オーディオ信号処理装置の能力に応じて第１オーディオ信号成分と第２オーディオ信号成分を選択する。

図１７の実施形態において、オーディオ信号を伝達するために、オーディオ信号を処理するオーディオ信号処理装置は、図１７（ａ）のようにＦＯＡ信号とメタデータを一つのトラックにエンコーディングする。図１７の実施形態において、オーディオ信号をレンダリングするオーディオ信号処理装置は、図１７（ｂ）のＭＰ４ファイルが含むＡＡＣファイルを生成する。詳しくは、オーディオ信号を伝達するためにオーディオ信号を処理するオーディオ信号処理装置は、第１アンビソニック信号ＦＯＡとメタデータＡＡＣファイルの第１トラックＴＲＫ０に挿入する。オーディオ信号を伝達するためにオーディオ信号を処理するオーディオ信号処理装置は、第１オブジェクト信号ＯＢＪ０と第２オブジェクト信号ＯＢＪ１をＡＡＣファイルの第２トラックＴＲＫ１に挿入する。また、オーディオ信号を伝達するためにオーディオ信号を処理するオーディオ信号処理装置は、第３オブジェクト信号ＯＢＪ２と第４オブジェクト信号ＯＢＪ３をＡＡＣファイルの第３トラックＴＲＫ２に挿入する。また、オーディオ信号を伝達するためにオーディオ信号を処理するオーディオ信号処理装置は、第５オブジェクト信号ＯＢＪ４と第６オブジェクト信号ＯＢＪ５をＡＡＣファイルの第４トラックＴＲＫ３に挿入する。また、オーディオ信号を伝達するためにオーディオ信号を処理するオーディオ信号処理装置は、第７オブジェクト信号ＯＢＪ６と第８オブジェクト信号ＯＢＪ７をＡＡＣファイルの第５トラックＴＲＫ４に挿入する。また、オーディオ信号を伝達するためにオーディオ信号を処理するオーディオ信号処理装置は、第２アンビソニック信号ＦＯＡ１をＡＡＣファイルの第６トラックＴＲＪ５に挿入する。この際、第２アンビソニック信号ＦＯＡ１は４つのチャネルを含む１次アンビソニック信号である。また、オーディオ信号を伝達するためにオーディオ信号を処理するオーディオ信号処理装置は、第３アンビソニック信号ＨＯＡ２をＡＡＣファイルの第７トラックＴＲＫ６に挿入する。第３アンビソニック信号ＨＯＡ２アンビソニック信号は５チャネルを含み、第２アンビソニック信号ＨＯＡ１と第３アンビソニック信号ＨＯＡ２は２次アンビソニック信号を構成する。また、オーディオ信号を伝達するためにオーディオ信号を処理するオーディオ信号処理装置は、第４アンビソニック信号ＨＯＡ３をＡＡＣファイルの第８トラックＴＲＫ７に挿入する。第４アンビソニック信号ＨＯＡ２アンビソニック信号は７チャネルを含み、第２アンビソニック信号ＦＯＡ１、第３アンビソニック信号ＨＯＡ２、及び第４アンビソニック信号ＨＯＡ３は３次アンビソニック信号を構成する。

図１７（ｃ）に実施形態において、オーディオ信号をレンダリングするオーディオ信号処理装置のデコーダは、ＡＡＣファイルのトラックが含むオーディオ信号をデコーディングする。この際、オーディオ信号をレンダリングするオーディオ信号処理装置のデコーダは、ＡＡＣファイルの第１トラックＴＲＫ０に含まれたメタデータをデコーディングしない。上述したように、オーディオ信号をレンダリングするオーディオ信号処理装置は、メタデータに基づいてオーディオ信号成分を含むＡＡＣファイルのトラックを判断し、ＡＡＣファイルのトラックが含むオーディオ信号をデコーディングする。図１７（ｄ）の実施形態において、オーディオ信号をレンダリングするオーディオ信号処理装置のレンダラは、ＡＡＣファイルのトラックが含むオーディオ信号成分ＯＢＪ／ＨＯＡ／ＣＨＮＡｕｄｉｏをメタデータＯＢＪ／ＨＯＡ／ＣＨＮＭｅｔａｄａｔａに基づいてレンダリングする。特に、オーディオ信号をレンダリングするオーディオ信号処理装置は、複数のトラックをオーディオ信号処理装置の能力に応じて選択的にレンダリングする。例えば、４つのチャネルを含む信号をレンダリングし得るオーディオ信号処理装置は、第２アンビソニック信号ＦＯＡ１をレンダリングする。この際、９つのチャネルを含む信号をレンダリングし得るオーディオ信号処理装置は、第２アンビソニック信号ＦＯＡ１と第３アンビソニック信号ＨＯＡ２を同時にレンダリングする。また、１６つのチャネルを含む信号をレンダリングし得るオーディオ信号処理装置は、第２アンビソニック信号ＦＯＡ１、第３アンビソニック信号ＨＯＡ２、及び第４アンビソニック信号ＨＯＡ３を同時にレンダリングする。

このような実施形態を介して、オーディオ信号をレンダリングするオーディオ信号処理装置は、オーディオファイルフォーマットの個別のトラックがサポートするチャネル数よりも多いチャネル数を含むオーディ信号をレンダリングすることができる。また、異なる個数のチャネルでコーディング・レンダリングをサポートするオーディオ信号処理装置間の互換性を確保することができる。

図１８は、本発明の一実施形態によってオーディオ信号を伝達するためにオーディオ信号を処理するオーディオ信号処理装置を示すブロック図である。

本発明の一実施形態によってオーディオ信号を伝達するためにオーディオ信号を処理するオーディオ信号処理装置３００は、受信部３１０、プロセッサ３３０、及び出力部３７０を含む。

受信部３１０は、入力オーディオ信号を受信する。この際、オーディオ信号は音響収集装置が受信した音響が変換されたものである。音響収集装置はマイクである。また、音響収集装置は複数のマイクを含むマイクアレイであってもよい。

プロセッサ３３０は、受信部３１０が受信したオーディオ信号をエンコーディングしてビットストリームを生成し、オーディオ信号に対するメタデータを生成する。詳しくは、プロセッサ３３０は、フォーマットコンバータ、及びメタデータ生成部を含む。フォーマットコンバータは、入力オーディオ信号のフォーマットを他のフォーマットに変換する。詳しくは、フォーマットコンバータはオブジェクト信号をアンビソニック信号に変換する。この際、アンビソニック信号はマイクアレイを介して録音された信号である。また、アンビソニック信号は、マイクアレイを介して録音した信号を球面調和関数の基底に対する係数に変換した信号であってもよい。また、フォーマットコンバータはアンビソニック信号をオブジェクト信号に変換する。詳しくは、フォーマットコンバータはアンビソニック信号の次数を変更する。例えば、フォーマットコンバータはＨｏＡ信号を信号に変更する。また、フォーマットコンバータは入力オーディオ信号に関する情報を獲得し、獲得した位置情報に基づいて入力オーディオ信号のフォーマットを変換する。この際、位置情報はオーディオ信号に当たる音響を収集したマイクアレイに関する情報である。詳しくは、マイクアレイに関する情報は、マイクアレイを構成するマイクの配列情報、個数情報、位置情報、周波数特性情報、及びビームパターン情報のうち少なくとも一つを含む。また、入力オーディオ信号に関する位置情報は音源の位置を示す情報を含む。

メタデータ生成部は、入力オーディオ信号に当たるメタデータを生成する。詳しくは、メタデータ生成部は、入力オーディオ信号をレンダリングするのに使用されるメタデータを生成する。この際、メタデータは図３乃至図１７を介して説明した実施形態におけるメタデータである。また、メタデータは図９乃至図１７を介して説明した実施形態によってオーディオ信号処理装置に伝達される。

また、プロセッサ３３０は、オーディオ信号の複数のオーディオ信号成分をオーディオファイルフォーマットが含む複数のトラックに分けて挿入する。この際、複数の信号成分は、オブジェクト信号、チャネル信号、及びアンビソニック信号のうち少なくともいずれか一つである。詳しくは、プロセッサ３３０は、図１７を介して説明した実施形態のように動作する。

出力部３７０は、ビットストリームとメタデータを出力する。

図１９は、本発明の一実施形態によってオーディオ信号を伝達するためにオーディオ信号処理装置の動作方法を示す順序図である。

オーディオ信号を伝達するために、オーディオ信号を処理するオーディオ信号処理装置は、オーディオ信号を受信する（Ｓ１９０１）。

オーディオ信号処理装置は、受信したオーディオ信号をエンコーディングする（Ｓ１９０３）。詳しくは、オーディオ信号処理装置は、オーディオ信号に対するメタデータを生成する。メタデータはオーディオ信号をレンダリングするのに使用される。この際、レンダリングはバイノーラルレンダリングである。詳しくは、オーディオ信号処理装置は、オーディオ信号がシミュレーションする音像の位置を反映するための情報を含む、オーディオ信号に対するメタデータを生成する。オーディオ信号処理装置は、メタデータが支持する時間区間に当たるサウンドレベルをメタデータに挿入する。この際、サウンドレベルはオーディオ信号がシミュレーションする音像の位置を反映し、オーディオ信号をレンダリングするのかを決定するのに使用される。

詳しくは、オーディオ信号処理装置は、オーディオ信号に適用されるバイノーラルレンダリングの強度を示すバイノーラル効果強度情報をメタデータに挿入する。この際、バイノーラル効果強度情報は、ＨＲＴＦまたはＢＲＩＲの相対的な大きさを変更するのに使用される。また、バイノーラル効果強度情報は、オーディオ信号のオーディオ信号成分別にバイノーラルレンダリングの強度を指示する。また、バイノーラル効果強度情報は、フレーム単位でバイノーラルレンダリングの適用強度を示す。

オーディオ信号処理装置は、聴者の動きを反映してオーディオ信号をレンダリングするのかを示す動き適用可否情報をメタデータに挿入する。この際、聴者の動きは、聴者の頭の動きを含む。

オーディオ信号処理装置は、聴者よって設定されるパラメータである個人化パラメータの適用許容可否を示す個人化パラメータ適用情報をメタデータに挿入する。この際、個人化パラメータ適用情報は、個人化パラメータの適用が許容されないことを示す。詳しくは、メタデータのフォーマットは図３乃至図１６を介して説明した実施形態のようである。

また、オーディオ信号処理装置は、受信したオーディオ信号の複数のオーディオ信号成分を複数のトラックに含むオーディオファイルを生成する。詳しくは、オーディオ信号処理装置は、オーディオ信号の第１オーディオ信号成分を第１トラックに含み、オーディオ信号の第２オーディオ信号成分を第２トラックに含むオーディオファイルを生成する。この際、第１トラックと第２トラックそれぞれがサポートするオーディオ信号のチャネル数が、オーディオ信号のチャネル数の和よりも小さい。また、第１トラックは、オーディオファイルの複数のトラックのうち予め指定された位置のトラックである。詳しくは、第１トラックは最初のトラックである。また、オーディオ信号エンコーディング装置は、第１トラックにメタデータを挿入する。この際、メタデータは、オーディオファイルの複数のトラックのうちどのトラックがオーディオ信号のオーディオ信号成分を含むのかを示す。別の具体的な実施形態において、オーディオ信号処理装置は、オーディオ信号の複数のオーディオ信号成分を複数のトラックに指定された順に挿入する。詳しくは、オーディオ信号を伝達するために、オーディオ信号を処理するオーディオ信号処理装置は、図１７乃至図１８を介して説明した実施形態のように動作する。

オーディオ信号処理装置は、エンコーディングされたオーディオ信号を出力する（Ｓ１９０５）。また、オーディオ信号処理装置は、生成したメタデータを出力する。また、オーディオ信号エンコーディング装置は、生成したオーディオファイルを出力する。

図２０は、本発明の一実施形態によってオーディオ信号をレンダリングするオーディオ信号処理の動作方法を示す順序図である。

オーディオ信号をレンダリングするオーディオ信号処理装置は、オーディオ信号を受信する（Ｓ２００１）。詳しくは、オーディオ信号処理装置は、オーディオ信号を含むオーディオファイルを受信する。

オーディオ信号処理装置は、受信したオーディオ信号をレンダリングする（Ｓ２００３）。オーディオ信号処理装置は、受信したオーディオ信号をバイノーラルレンダリングする。また、オーディオ信号処理装置は、受信したオーディオ信号に対するメタデータに基づいてオーディオ信号がシミュレーションする音像の位置を反映してオーディオ信号をレンダリングする。詳しくは、オーディオ信号処理装置は、オーディオ信号がシミュレーションする音像の位置を反映してオーディオ信号をレンダリングするのかを決定する。この際、オーディオ信号処理装置は、決定によってオーディオ信号をレンダリングする。

具体的な実施形態において、メタデータは、メタデータが支持する時間区間に当たるサウンドレベルを示すサウンドレベル情報を含む。オーディオ信号処理装置は、サウンドレベル情報に基づき、オーディオ信号がシミュレーションする音像の位置を反映してオーディオ信号をレンダリングするのかを決定する。例えば、オーディオ信号処理装置は、第１時間区間に当たるオーディオ信号のサウンドレベルと第２時間区間に当たるオーディオ信号のサウンドレベルの差を比較する。この際、オーディオ信号処理装置は、比較結果に基づいて第２時間区間に当たるオーディオ信号を前記第２時間区間に当たるオーディオ信号がシミュレーションする音像の位置を反映し、前記オーディオ信号をレンダリングするのかを決定する。この際、第１時間区間は第２時間区間よりも先の時間である。また、第１時間区間と第２時間区間は連続した時間区間である。別の具体的な実施形態において、オーディオ信号処理装置は、サウンドレベル情報が示すサウンドレベルが予め指定された値よりも小さいのかに基づき、オーディオ信号がシミュレーションする音像の位置を反映して、前記オーディオ信号をレンダリングするのかを決定する。詳しくは、オーディオ信号処理装置は、サウンドレベル情報がミュートを示せば、オーディオ信号がシミュレーションする音像の位置を反映せずにオーディオ信号をレンダリングする。

また、メタデータは、バイノーラルレンダリングの適用強度を示すバイノーラル効果強度情報を含む。この際、オーディオ信号処理装置は、バイノーラル効果強度情報に基づいて前記オーディオ信号に対するバイノーラルレンダリングの適用強度を決定する。また、オーディオ信号処理装置は、決定されたバイノーラルレンダリング適用強度でモードで前記オーディオ信号をバイノーラルレンダリングする。詳しくは、前記オーディオ信号処理装置は、前記決定されたバイノーラルレンダリングの適用強度に応じてバイノーラルレンダリングのためのＨＲＴＦ、またはＢＲＩＲの相対的な大きさを変更する。バイノーラル効果強度情報は、前記オーディオ信号の成分別にバイノーラルレンダリングの強度を指示する。また、バイノーラル効果強度情報は、フレーム単位でバイノーラルレンダリングの強度を指示する。

また、上述した実施形態において、オーディオ信号処理装置は、オーディオ信号がシミュレーションする音像の位置を反映してレンダリングするのかが変更されるのかに応じて、フェードイン・フェードアウトを適用してオーディオ信号をレンダリングする。

また、メタデータは、聴者の動きを反映してオーディオ信号をレンダリングするのかを示す動き適用可否情報を含む。この際、オーディオ信号処理装置は、動き適用可否情報に基づいて聴者の頭の動きを反映し、オーディオ信号をレンダリングするのかを決定する。詳しくは、オーディオ信号処理装置は、動き適用可否情報に応じて聴者の頭の動きを反映せずに、オーディオ信号をレンダリングする。この際、聴者の動きは、聴者の頭の動きを含む。

また、メタデータは、聴者よって設定されるパラメータである個人化パラメータの適用許容可否を示す個人化パラメータ適用情報を含む。この際、オーディオ信号処理装置は、個人化パラメータ適用情報に基づいてオーディオ信号をレンダリングする。詳しくは、オーディオ信号処理装置は、個人化パラメータ適用情報に応じて個人化パラメータを適用せずに、オーディオ信号をレンダリングする。メタデータの具体的なフォーマットは、図３乃至図１６を介して説明した実施形態のようである。また、メタデータは図９乃至図１４を介して説明した実施形態によって伝達される。

オーディオ信号処理装置は、オーディオ信号を含むオーディオファイルの複数のトラックそれぞれに含まれた複数のオーディオ信号成分を同時にレンダリングする。オーディオ信号処理装置は、オーディオ信号を含むオーディオファイルの第１トラックに含まれた第１オーディオ信号成分と第２トラックに含まれた第２オーディオ信号成分を同時にレンダリングする。この際、第１トラックと第２トラックそれぞれがサポートするオーディオ信号のチャネル数が、オーディオ信号のチャネル数の和よりも小さい。この際、第１トラックは、オーディオファイルの複数のトラックのうち予め指定された位置のトラックである。また、前記第１トラックはメタデータを含む。この際、オーディオ信号処理装置は、メタデータに基づいてオーディオ信号成分を含むオーディオファイルのトラックを判断する。また、オーディオ信号処理装置は、メタデータに基づいて第１オーディオ信号成分と第２オーディオ信号成分をレンダリングする。詳しくは、オーディオ信号処理装置は、メタデータに基づいて第１オーディオ信号成分と第２オーディオ信号成分をバイノーラルレンダリングする。また、オーディオ信号をレンダリングするオーディオ信号処理装置は、オーディオファイルの複数のトラックがオーディオ信号のオーディオ信号成分を含むのかを予め指定されたトラック順から確認する。

オーディオ信号処理装置は、レンダリングされたオーディオ信号を出力する（Ｓ２００５）。上述したように、オーディオ信号処理装置は２つ以上のラウドスピーカを介してレンダリングされたオーディオ信号を出力する。別の具体的な実施形態において、オーディオ信号処理装置は、２チャネルステレオヘッドホンを介してレンダリングされたオーディオ信号を出力してもよい。

これまで本発明を具体的な実施形態を介して説明したが、当業者であれば本発明の趣旨及び範囲を逸脱せずに修正、変更し得るはずである。つまり、本発明はマルチオーディオ信号に対するプロセッシングの実施形態について説明したが、本発明はオーディオ信号のみならず、ビデオ信号を含む多様なマルチメディア信号にも同じく適用及び拡張することができる。よって、本発明の詳細な説明及び実施形態から本発明の属する技術分野に属する者が容易に類推し得るものは、本発明の権利範囲に属すると解される。

１０受信部
３０プロセッサ
３１アンビソニック変換部
３３フォーマットコンバータ
３５ポストプロセッサ
３７レンダラ
７０出力部
１００オーディオ信号処理装置
３００オーディオ信号処理装置
３１０受信部
３３０プロセッサ
３７０出力部

Claims

オーディオ信号をレンダリングするオーディオ信号処理装置において、
オーディオ信号を含むオーディオファイルを受信する受信部と、
前記オーディオファイルの第１トラックに含まれた第１オーディオ信号成分と第２トラックに含まれた第２オーディオ信号成分を同時にレンダリングするプロセッサと、
前記レンダリングされた第１オーディオ信号成分と前記レンダリングされた第２オーディオ信号成分を出力する出力部と、を含む
オーディオ信号処理装置。
前記第１トラックと前記第２トラックそれぞれがサポートするオーディオ信号のチャネル数が、前記オーディオ信号のチャネル数の和よりも小さい
請求項１に記載のオーディオ信号処理装置。
前記第１トラックは、前記オーディオファイルの複数のトラックのうち予め指定された位置のトラックである
請求項２に記載のオーディオ信号処理装置。
前記第１オーディオ信号成分は、オーディオ信号がシミュレーションする音像の位置を表現するためのメタデータなしにレンダリングされるオーディオ信号成分である
請求項３に記載のオーディオ信号処理装置。
前記第１オーディオ信号成分は、バイノーラルレンダリングのためのメタデータなしにレンダリングされるオーディオ信号成分である
請求項４に記載のオーディオ信号処理装置。
前記第１トラックはメタデータを含み、
前記プロセッサは、
前記メタデータに基づいてオーディオ信号成分を含む前記オーディオファイルのトラックを判断する
請求項３に記載のオーディオ信号処理装置。
前記プロセッサは、
前記メタデータに基づいて前記第１オーディオ信号成分と前記第２オーディオ信号成分をレンダリングする
請求項５に記載のオーディオ信号処理装置。
前記プロセッサは、
前記オーディオファイルの複数のトラックが前記オーディオ信号のオーディオ信号成分を含むのかを、予め指定されたトラック順から確認する
請求項３に記載のオーディオ信号処理装置。
前記プロセッサは、
前記オーディオ信号処理装置の能力に応じて前記オーディオファイルの複数のトラックに含まれた複数のオーディオ信号成分のうち、前記第１オーディオ信号成分と前記第２オーディオ信号成分を選択する
請求項１に記載のオーディオ信号処理装置。
オーディオ信号を伝達するためのオーディオ信号を処理するオーディオ信号処理装置において、
オーディオ信号を受信する受信部と、
前記オーディオ信号の第１オーディオ信号成分を第１トラックに含み、前記オーディオ信号の第２オーディオ信号成分を第２トラックに含むオーディオファイルを生成するプロセッサと、
前記オーディオファイルを出力する出力部と、を含む
オーディオ信号処理装置。
前記第１トラックと前記第２トラックそれぞれがサポートするオーディオ信号のチャネル数が、前記オーディオ信号のチャネル数の和よりも小さい
請求項１０に記載のオーディオ信号処理装置。
前記第１トラックは、前記オーディオファイルの複数のトラックのうち予め指定された位置のトラックである
請求項１０に記載のオーディオ信号処理装置。
前記第１オーディオ信号成分は、オーディオ信号がシミュレーションする音像の位置を表現するためのメタデータなしにレンダリングされるオーディオ信号成分である
請求項１２に記載のオーディオ信号処理装置。
前記第１オーディオ信号成分は、バイノーラルレンダリングのためのメタデータなしにレンダリングされるオーディオ信号成分である
請求項１３に記載のオーディオ信号処理装置。
前記プロセッサは、
前記第１トラックにメタデータを挿入し、
前記メタデータは、前記オーディオファイルの複数のトラックのうちどのトラックが前記オーディオ信号のオーディオ信号成分を含むのかを示す
請求項１２に記載のオーディオ信号処理装置。
前記プロセッサは、
前記オーディオ信号の複数のオーディオ信号成分を前記オーディオファイルの複数のトラックに指定された順に挿入する
請求項１２に記載のオーディオ信号処理装置。