WO2016056411A1

WO2016056411A1 - 符号化装置および方法、再生装置および方法、並びにプログラム

Info

Publication number: WO2016056411A1
Application number: PCT/JP2015/077243
Authority: WO
Inventors: 辻　実; 徹知念; 潤宇史; 西口　正之; 優樹山本
Original assignee: ソニー株式会社
Priority date: 2014-10-10
Filing date: 2015-09-28
Publication date: 2016-04-14
Also published as: EP3829185B1; JP2021185720A; CN112511833A; US20240146981A1; JP6565922B2; JP6992789B2; EP3206408A1; US20180242030A1; US10631025B2; CN115209186A; JPWO2016056411A1; US20200221146A1; EP3829185A1; CN115243075A; EP3206408A4; US11330310B2; US11917221B2; EP3206408B1; JP2019186969A; US20220256216A1

Abstract

　本技術は、より簡単に各再生機器において適切なコンテンツを再生することができるようにする符号化装置および方法、再生装置および方法、並びにプログラムに関する。コンテンツデータ復号部は符号化メタデータを復号し、その結果得られたメタデータに含まれている、ズームするエリアを指定するズームエリア情報を出力する。ズームエリア選択部は、ズームエリア情報のなかから1または複数のズームエリア情報を選択する。映像切出部は、映像データに基づく映像における、選択されたズームエリア情報により示されるズームエリアを切り出して、その結果得られたズーム映像データを出力する。音声変換部は、音声データに対して、選択されたズームエリア情報に応じた音声変換処理を施し、その結果得られたズーム音声データを出力する。本技術は再生装置に適用することができる。

Description

符号化装置および方法、再生装置および方法、並びにプログラム

　本技術は符号化装置および方法、再生装置および方法、並びにプログラムに関し、特に、より簡単に各再生機器において適切なコンテンツを再生することができるようにした符号化装置および方法、再生装置および方法、並びにプログラムに関する。

　近年、4Kや8Kといった高解像度なビデオコンテンツが知られている。このような4Kや8Kのビデオコンテンツは、大きな視野角、すなわち大画面での再生が想定されて制作される場合が多い。

　また、4Kや8Kのビデオコンテンツは高解像度であるため、ビデオコンテンツの画面の一部分を切り出しても、その解像度は十分であることからトリミング再生されることがある（例えば、非特許文献１参照）。

FDR-AX100、[online]、[平成２６年９月２４日検索]、インターネット<URL: http://www.sony.net/Products/di/en-us/products/j4it/index.html>

　一方で、ビデオ再生機器は多様化しており、大型スクリーンからスマートフォン（多機能型携帯電話機）まで、様々な画面サイズでの再生が考えられるが、現状では同じコンテンツがそれぞれの画面サイズに合わせて拡大または縮小されて再生されている。

　ところが、4Kや8Kといったビデオコンテンツは、上述のように大画面での再生を想定して制作されていることが多い。そのため、タブレット型PC（Personal Computer）やスマートフォンなど、比較的小さい画面を有する再生機器でそれらのビデオコンテンツを再生することは適切とはいえなかった。

　したがって、例えば画面サイズ等の異なる各再生機器に対して、それぞれの画面サイズや画面の形状等に適したコンテンツを提供するには、それぞれの画面サイズや画面の形状等に適したコンテンツを別々に用意する必要があった。

　本技術は、このような状況に鑑みてなされたものであり、より簡単に各再生機器において適切なコンテンツを再生することができるようにするものである。

　本技術の第１の側面の再生装置は、符号化された映像データ、または符号化された音声データを復号する復号部と、ズームするエリアを指定する複数のズームエリア情報のなかから、１または複数のズームエリア情報を選択するズームエリア選択部と、選択された前記ズームエリア情報に基づいて、復号により得られた前記映像データに対するトリミング処理、または復号により得られた前記音声データに対する音声変換処理を行うデータ処理部とを備える。

　前記複数の前記ズームエリア情報には、再生対象機器の種別ごとの前記エリアを指定する前記ズームエリア情報が含まれているようにすることができる。

　前記複数の前記ズームエリア情報には、再生対象機器の回転方向ごとの前記エリアを指定する前記ズームエリア情報が含まれているようにすることができる。

　前記複数の前記ズームエリア情報には、特定の映像オブジェクトごとの前記エリアを指定する前記ズームエリア情報が含まれているようにすることができる。

　前記ズームエリア選択部には、ユーザの操作入力に応じて前記ズームエリア情報を選択させることができる。

　前記ズームエリア選択部には、前記再生装置に関する情報に基づいて前記ズームエリア情報を選択させることができる。

　前記ズームエリア選択部には、前記再生装置の種別を示す情報、および前記再生装置の回転方向を示す情報の少なくとも何れか一つを前記再生装置に関する情報として、前記ズームエリア情報を選択させることができる。

　本技術の第１の側面の再生方法またはプログラムは、符号化された映像データ、または符号化された音声データを復号し、ズームするエリアを指定する複数のズームエリア情報のなかから、１または複数のズームエリア情報を選択し、選択された前記ズームエリア情報に基づいて、復号により得られた前記映像データに対するトリミング処理、または復号により得られた前記音声データに対する音声変換処理を行うステップを含む。

　本技術の第１の側面においては、符号化された映像データ、または符号化された音声データが復号され、ズームするエリアを指定する複数のズームエリア情報のなかから、１または複数のズームエリア情報が選択され、選択された前記ズームエリア情報に基づいて、復号により得られた前記映像データに対するトリミング処理、または復号により得られた前記音声データに対する音声変換処理が行われる。

　本技術の第２の側面の符号化装置は、映像データを符号化するか、または音声データを符号化する符号化部と、符号化された前記映像データ、または符号化された前記音声データと、ズームするエリアを指定する複数のズームエリア情報とを多重化してビットストリームを生成する多重化部とを備える。

　本技術の第２の側面の符号化方法またはプログラムは、映像データを符号化するか、または音声データを符号化し、符号化された前記映像データ、または符号化された前記音声データと、ズームするエリアを指定する複数のズームエリア情報とを多重化してビットストリームを生成するステップを含む。

　本技術の第２の側面においては、映像データが符号化されるか、または音声データが符号化され、符号化された前記映像データ、または符号化された前記音声データと、ズームするエリアを指定する複数のズームエリア情報とが多重化されてビットストリームが生成される。

　本技術の第１の側面および第２の側面によれば、より簡単に各再生機器において適切なコンテンツを再生することができる。

　なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。

符号化装置の構成例を示す図である。符号化コンテンツデータの構成について説明する図である。ズームエリア情報について説明する図である。ズームエリア情報存在フラグのシンタックスを示す図である。ズームエリア情報のシンタックスを示す図である。ズームエリア情報のシンタックスを示す図である。ズームエリア情報のシンタックスを示す図である。ズームエリア情報のシンタックスを示す図である。ズームエリア情報のシンタックスを示す図である。ズームエリア情報のシンタックスを示す図である。ズームエリア情報について説明する図である。ズームエリア情報について説明する図である。ズームエリア情報のシンタックスを示す図である。ズームエリア情報存在フラグ等のシンタックスを示す図である。ズームエリア情報のシンタックスを示す図である。ズームエリア補助情報等のシンタックスを示す図である。ズーム仕様について説明する図である。再生されるコンテンツの例について説明する図である。符号化処理を説明するフローチャートである。再生装置の構成例を示す図である。再生処理を説明するフローチャートである。再生装置の構成例を示す図である。再生処理を説明するフローチャートである。再生装置の構成例を示す図である。再生処理を説明するフローチャートである。再生装置の構成例を示す図である。再生処理を説明するフローチャートである。コンピュータの構成例を示す図である。

　以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈符号化装置の構成例〉
　本技術は、テレビジョン受像機やスマートフォンといった表示画面のサイズ等が異なる各再生機器において、それらの再生機器に適したコンテンツなど、適切なコンテンツをより簡単に再生することができるようにするものである。ここでいうコンテンツは、例えば映像と音声からなるコンテンツであってもよいし、映像または音声の何れか一方のみからなるコンテンツであってもよい。以下では、コンテンツが映像と、その映像に付随する音声とからなるものである場合を例として説明を続ける。

　図１は、本技術を適用した符号化装置の構成例を示す図である。

　この符号化装置１１は、コンテンツ制作者により制作されたコンテンツを符号化し、その結果得られた符号化データが格納されたビットストリーム（符号列）を出力する。

　符号化装置１１は、映像データ符号化部２１、音声データ符号化部２２、メタデータ符号化部２３、多重化部２４、および出力部２５を有している。

　この例では、コンテンツを構成する映像の映像データおよび音声の音声データが、それぞれ映像データ符号化部２１および音声データ符号化部２２に供給され、コンテンツのメタデータがメタデータ符号化部２３に供給される。

　映像データ符号化部２１は、供給されたコンテンツの映像データを符号化し、その結果得られた符号化映像データを多重化部２４に供給する。音声データ符号化部２２は、供給されたコンテンツの音声データを符号化し、その結果得られた符号化音声データを多重化部２４に供給する。

　メタデータ符号化部２３は、供給されたコンテンツのメタデータを符号化し、その結果得られた符号化メタデータを多重化部２４に供給する。

　多重化部２４は映像データ符号化部２１から供給された符号化映像データ、音声データ符号化部２２から供給された符号化音声データ、およびメタデータ符号化部２３から供給された符号化メタデータを多重化してビットストリームを生成し、出力部２５に供給する。出力部２５は、多重化部２４から供給されたビットストリームを再生機器等に出力する。

　なお、以下、出力部２５から出力されるビットストリームを符号化コンテンツデータとも称することとする。

〈符号化コンテンツデータについて〉
　ところで、符号化装置１１において符号化されるコンテンツは、必要に応じてトリミング再生されることが想定されて制作されている。すなわち、コンテンツ制作者は、コンテンツをそのまま再生したり、コンテンツを構成する映像全体の領域の一部分をトリミングして再生したりすることを想定してコンテンツを制作する。

　例えば、コンテンツ制作者は、コンテンツを構成する映像（画像）全体の領域のうち、トリミング再生される一部分の領域、すなわちトリミングによりズーム再生される領域をズームエリアとして選択する。

　なお、ズームエリアは、例えば想定する再生機器に適した視野角を再現することなどを目的として、コンテンツ制作者により自由に決定されてもよい。また、ズームエリアは、コンテンツの映像内のヴォーカリストや選手等の特定のオブジェクトにズームインして追いかけるなど、ズームの目的に応じて決定されてもよい。

　このようにコンテンツに対して、いくつかのズームエリアが制作者側で指定された場合、符号化装置１１から出力されるビットストリーム、つまり符号化コンテンツデータには、メタデータとしてズームエリアを指定するズームエリア情報が格納される。このとき、所定の時間単位ごとにズームエリアを指定したいときには、その時間単位ごとにズームエリア情報が符号化コンテンツデータに格納されるようにしてもよい。

　具体的には、例えば図２に示すようにコンテンツがフレームごとにビットストリームに格納される場合には、ズームエリア情報がフレームごとにビットストリームに格納されるようにしてもよい。

　図２の例では、ビットストリーム、つまり符号化コンテンツデータの先頭にはヘッダ情報等が格納されるヘッダ部HDが配置され、そのヘッダ部HDに続いて、符号化映像データや符号化音声データが格納されるデータ部DAが配置されている。

　ヘッダ部HDには、コンテンツを構成する映像に関するヘッダ情報が格納される映像情報ヘッダ部PHD、コンテンツを構成する音声に関するヘッダ情報が格納される音声情報ヘッダ部AHD、およびコンテンツのメタデータに関するヘッダ情報が格納されるメタ情報ヘッダ部MHDが設けられている。

　そして、メタ情報ヘッダ部MHDには、ズームエリア情報に関する情報が格納されるズームエリア情報ヘッダ部ZHDが設けられている。例えばズームエリア情報ヘッダ部ZHDには、データ部DAにズームエリア情報が格納されているか否かを示すズームエリア情報存在フラグなどが格納される。

　また、データ部DAには、符号化されたコンテンツのデータが、コンテンツのフレームごとに格納されるデータ部が設けられる。この例ではデータ部DAの先頭には、先頭フレームのデータが格納されるデータ部DAF-1が設けられており、そのデータ部DAF-1に続いてコンテンツの2番目のフレームのデータが格納されるデータ部DAF-2が設けられている。なお、ここでは3番目のフレーム以降についてのデータ部は図示が省略されている。以下では、各フレームのデータ部DAF-1やデータ部DAF-2を特に区別する必要のない場合には、単にデータ部DAFと称することとする。

　先頭フレームのデータ部DAF-1には、符号化映像データが格納される映像情報データ部PD-1、符号化音声データが格納される音声情報データ部AD-1、および符号化メタデータが格納されるメタ情報データ部MD-1が設けられている。

　例えばメタ情報データ部MD-1には、コンテンツの先頭フレームに含まれている映像オブジェクトや音源オブジェクトの位置情報などが含まれている。また、メタ情報データ部MD-1内には、符号化メタデータのうちの符号化されたズームエリア情報が格納されるズームエリア情報データ部ZD-1が設けられている。これらの映像オブジェクトや音源オブジェクトの位置情報、ズームエリア情報などがコンテンツのメタデータとされている。

　データ部DAF-1と同様にデータ部DAF-2にも、符号化映像データが格納される映像情報データ部PD-2、符号化音声データが格納される音声情報データ部AD-2、および符号化メタデータが格納されるメタ情報データ部MD-2が設けられている。また、メタ情報データ部MD-2内には、符号化されたズームエリア情報が格納されるズームエリア情報データ部ZD-2が設けられている。

　なお、以下、映像情報データ部PD-1や映像情報データ部PD-2を特に区別する必要のない場合には、単に映像情報データ部PDとも称し、音声情報データ部AD-1や音声情報データ部AD-2を特に区別する必要のない場合には、単に音声情報データ部ADとも称する。また、メタ情報データ部MD-1やメタ情報データ部MD-2を特に区別する必要のない場合には、単にメタ情報データ部MDとも称し、ズームエリア情報データ部ZD-1やズームエリア情報データ部ZD-2を特に区別する必要のない場合には、単にズームエリア情報データ部ZDとも称する。

　さらに、図２では、各データ部DAFには、映像情報データ部PD、音声情報データ部AD、およびメタ情報データ部MDが設けられる例について説明した。しかし、映像情報データ部PDおよび音声情報データ部ADのそれぞれ、またはそれらの一方にメタ情報データ部MDが設けられるようにしてもよい。そのような場合、映像情報データ部PDや音声情報データ部ADの内部に設けられたメタ情報データ部MDのズームエリア情報データ部ZDに、ズームエリア情報が格納される。

　同様にヘッダ部HDに映像情報ヘッダ部PHD、音声情報ヘッダ部AHD、およびメタ情報ヘッダ部MHDが設けられる例について説明したが、映像情報ヘッダ部PHDおよび音声情報ヘッダ部AHDの両方または何れか一方にメタ情報ヘッダ部MHDが設けられるようにしてもよい。

　また、コンテンツの各フレームにおいてズームエリア情報が同じである場合には、ズームエリア情報がヘッダ部HDに格納されるようにしてもよい。この場合、各データ部DAFにズームエリア情報データ部ZDを設ける必要がなくなる。

〈ズームエリア情報の具体例１〉
　続いて、ズームエリア情報のより具体的な例について説明する。

　上述したズームエリア情報は、ズームするエリアであるズームエリアを指定する情報であり、具体的にはズームエリア情報は、ズームエリアの位置を示す情報とされる。ズームエリアは、例えば図３に示すようにズームエリアの中心位置の座標や始点座標、終点座標、垂直幅、水平幅等を用いて特定することができる。

　図３では、コンテンツの映像（画像）全体の領域がオリジナルエリアORとなっており、そのオリジナルエリアOR内に1つの矩形のズームエリアZEが指定されている。この例では、ズームエリアZEの図中、横方向（水平方向）の幅が水平幅XWとなっており、ズームエリアZEの図中、縦方向（垂直方向）の幅が垂直幅YWとなっている。

　ここで、図中、横方向（水平方向）をX方向とし、縦方向（垂直方向）をY方向とするXY座標系上の点を座標（X,Y）で表すとする。

　いま、ズームエリアZEの中央位置（中心位置）である点P11の座標を（XC,YC）とすると、この中央座標（XC,YC）と、ズームエリアZEの水平幅XWおよび垂直幅YWとから、ズームエリアZEを特定することができる。したがって、中央座標（XC,YC）、水平幅XW、および垂直幅YWをズームエリア情報とすることができる。

　また、ズームエリアZEが矩形領域である場合には、例えばズームエリアZEの図中、左上の頂点P12を始点とし、ズームエリアZEの図中、右下の頂点P13を終点として、それらの始点（頂点P12）の座標（X0,Y0）および終点（頂点P13）の座標（X1,Y1）によってもズームエリアZEを特定することができる。したがって、始点座標（X0,Y0）および終点座標（X1,Y1）をズームエリア情報とすることもできる。

　より具体的には、始点座標（X0,Y0）および終点座標（X1,Y1）がズームエリア情報とされるとする。そのような場合、例えば図４に示すズームエリア情報存在フラグを上述したズームエリア情報ヘッダ部ZHDに格納し、そのズームエリア情報存在フラグの値に応じて、各ズームエリア情報データ部ZDに図５に示すズームエリア情報を格納すればよい。

　図４はズームエリア情報存在フラグのシンタックスを示している。この例では、「hasZoomAreaInfo」がズームエリア情報存在フラグを示しており、ズームエリア情報存在フラグhasZoomAreaInfoの値は0または1の何れかとされる。

　ここでズームエリア情報存在フラグhasZoomAreaInfoの値が0である場合には、符号化コンテンツデータには、ズームエリア情報が含まれていないことを示している。これに対してズームエリア情報存在フラグhasZoomAreaInfoの値が1である場合には、符号化コンテンツデータに、ズームエリア情報が含まれていることを示している。

　また、ズームエリア情報存在フラグhasZoomAreaInfoの値が1である場合には、各フレームのズームエリア情報データ部ZDにズームエリア情報が格納される。例えばズームエリア情報は、図５に示すシンタックスでズームエリア情報データ部ZDに格納されている。

　図５では、「ZoomAreaX0」および「ZoomAreaY0」は、それぞれズームエリアZEの始点のX座標およびY座標であるX0およびY0を示している。また、「ZoomAreaX1」および「ZoomAreaY1」は、それぞれズームエリアZEの終点のX座標およびY座標であるX1およびY1を示している。

　例えば、符号化されるコンテンツの映像が8Kの映像である場合、「ZoomAreaX0」および「ZoomAreaX1」の値は0乃至7679までの何れかの値とされ、「ZoomAreaY0」および「ZoomAreaY1」の値は0乃至4319の何れかの値とされる。

〈ズームエリア情報の具体例２〉
　また、例えば中央座標（XC,YC）、水平幅XW、および垂直幅YWがズームエリア情報とされる場合にも、図４に示したズームエリア情報存在フラグhasZoomAreaInfoがズームエリア情報ヘッダ部ZHDに格納される。そして、ズームエリア情報存在フラグhasZoomAreaInfoの値が1であるときに、各フレームのズームエリア情報データ部ZDにズームエリア情報が格納される。この場合、ズームエリア情報は、例えば図６に示すシンタックスでズームエリア情報データ部ZDに格納される。

　図６では、「ZoomAreaXC」および「ZoomAreaYC」は、それぞれズームエリアZEの中央座標（XC,YC）のX座標およびY座標であるXCおよびYCを示している。

　また、「ZoomAreaXW」および「ZoomAreaYW」は、それぞれズームエリアZEの水平幅XWおよび垂直幅YWを示している。

　この例においても、例えば符号化されるコンテンツの映像が8Kの映像である場合には、「ZoomAreaXC」および「ZoomAreaXW」の値は0乃至7679までの何れかの値とされ、「ZoomAreaYC」および「ZoomAreaYW」の値は0乃至4319の何れかの値とされる。

〈ズームエリア情報の具体例３〉
　さらに、例えばズームエリアが中央座標（XC,YC）、水平幅XW、および垂直幅YWにより特定され、水平幅XWおよび垂直幅YWが固定値とされる場合には、中央座標（XC,YC）の差分のみをズームエリア情報としてズームエリア情報データ部ZDに格納してもよい。

　そのような場合、例えば先頭フレームのデータ部DAF-1に設けられたズームエリア情報データ部ZD-1には、図６に示したズームエリア情報が格納される。また、2番目以降のフレームのデータ部DAFに設けられたズームエリア情報データ部ZDには、図７に示すシンタックスでズームエリア情報が格納される。

　図７では「nbits」、「ZoomAreaXCshift」、および「ZoomAreaYCshift」がズームエリア情報として格納されている。「nbits」は「ZoomAreaXCshift」および「ZoomAreaYCshift」のそれぞれが何ビットの情報であるかを示すビット数情報である。

　また、「ZoomAreaXCshift」は、中央座標（XC,YC）のX座標であるXCの所定の基準値からの差分を示している。例えば座標XCの基準値は、先頭フレームにおける中央座標（XC,YC）のX座標であってもよいし、現フレームの直前のフレームにおける中央座標（XC,YC）のX座標であってもよい。

　「ZoomAreaYCshift」は、中央座標（XC,YC）のY座標であるYCの所定の基準値からの差分を示している。例えば座標YCの基準値は、座標XCの基準値と同様に、先頭フレームにおける中央座標（XC,YC）のY座標であってもよいし、現フレームの直前のフレームにおける中央座標（XC,YC）のY座標であってもよい。

　これらの「ZoomAreaXCshift」および「ZoomAreaYCshift」は、中央座標（XC,YC）の基準値からの移動量を示している。

　なお、例えばコンテンツの再生側において中央座標（XC,YC）の基準値が既知である場合や、ズームエリア情報ヘッダ部ZHDに中央座標（XC,YC）の基準値が格納されている場合などにおいては、各フレームのズームエリア情報データ部ZDに、図７に示したズームエリア情報を格納してもよい。

〈ズームエリア情報の具体例４〉
　また、例えばズームエリアが中央座標（XC,YC）、水平幅XW、および垂直幅YWにより特定され、中央座標（XC,YC）が固定値とされる場合には、水平幅XWおよび垂直幅YWの差分、つまり変化量のみをズームエリア情報としてズームエリア情報データ部ZDに格納してもよい。

　そのような場合、例えば先頭フレームのデータ部DAF-1に設けられたズームエリア情報データ部ZD-1には、図６に示したズームエリア情報が格納される。また、2番目以降のフレームのデータ部DAFに設けられたズームエリア情報データ部ZDには、図８に示すシンタックスでズームエリア情報が格納される。

　図８では「nbits」、「ZoomAreaXWshift」、および「ZoomAreaYWshift」がズームエリア情報として格納されている。「nbits」は「ZoomAreaXWshift」および「ZoomAreaYWshift」のそれぞれが何ビットの情報であるかを示すビット数情報である。

　また、「ZoomAreaXWshift」は、水平幅XWの所定の基準値からの変化量を示している。例えば水平幅XWの基準値は、先頭フレームにおける水平幅XWであってもよいし、現フレームの直前のフレームにおける水平幅XWであってもよい。

　「ZoomAreaYWshift」は、垂直幅YWの基準値からの変化量を示している。例えば垂直幅YWの基準値は、水平幅XWの基準値と同様に、先頭フレームにおける垂直幅YWであってもよいし、現フレームの直前のフレームにおける垂直幅YWであってもよい。

　なお、例えばコンテンツの再生側において水平幅XWおよび垂直幅YWの基準値が既知である場合や、ズームエリア情報ヘッダ部ZHDに水平幅XWおよび垂直幅YWの基準値が格納されている場合などにおいては、各フレームのズームエリア情報データ部ZDに、図８に示したズームエリア情報を格納してもよい。

〈ズームエリア情報の具体例５〉
　さらに、例えばズームエリアが中央座標（XC,YC）、水平幅XW、および垂直幅YWにより特定される場合、図７や図８における場合と同様に中央座標（XC,YC）、水平幅XW、および垂直幅YWの差分をズームエリア情報としてズームエリア情報データ部ZDに格納してもよい。

　そのような場合、例えば先頭フレームのデータ部DAF-1に設けられたズームエリア情報データ部ZD-1には、図６に示したズームエリア情報が格納される。また、2番目以降のフレームのデータ部DAFに設けられたズームエリア情報データ部ZDには、図９に示すシンタックスでズームエリア情報が格納される。

　図９では「nbits」、「ZoomAreaXCshift」、「ZoomAreaYCshift」、「ZoomAreaXWshift」、および「ZoomAreaYWshift」がズームエリア情報として格納されている。

　「nbits」は「ZoomAreaXCshift」、「ZoomAreaYCshift」、「ZoomAreaXWshift」、および「ZoomAreaYWshift」のそれぞれが何ビットの情報であるかを示すビット数情報である。

　「ZoomAreaXCshift」および「ZoomAreaYCshift」は、図７における場合と同様に中央座標（XC,YC）のX座標およびY座標の基準値からの差分を示している。

　また、「ZoomAreaXWshift」および「ZoomAreaYWshift」は、図８における場合と同様に、水平幅XWおよび垂直幅YWの基準値からの変化量を示している。

　ここで、中央座標（XC,YC）や水平幅XW、垂直幅YWの基準値は、先頭フレーム、または現フレームの直前のフレームにおける中央座標（XC,YC）や水平幅XW、垂直幅YWとすることができる。また、コンテンツの再生側において中央座標（XC,YC）や水平幅XW、垂直幅YWの基準値が既知である場合や、ズームエリア情報ヘッダ部ZHDに基準値が格納されている場合には、各フレームのズームエリア情報データ部ZDに、図９に示したズームエリア情報を格納してもよい。

〈ズームエリア情報の具体例６〉
　さらに、上述した図６乃至図９に示した各例を組み合わせて、例えば図１０に示すシンタックスでズームエリア情報を各ズームエリア情報データ部ZDに格納するようにしてもよい。

　そのような場合、図４に示したズームエリア情報存在フラグhasZoomAreaInfoがズームエリア情報ヘッダ部ZHDに格納される。そして、ズームエリア情報存在フラグhasZoomAreaInfoの値が1であるときに、各フレームのズームエリア情報データ部ZDにズームエリア情報が格納される。例えばズームエリア情報は、図１０に示すシンタックスでズームエリア情報データ部ZDに格納される。

　図１０では、ズームエリア情報の先頭には、図６乃至図９に示した各形式のうちのどの形式でズームエリア情報、より詳細にはズームエリアの位置を特定する情報が記述されているかを示す符号化モード情報が配置されている。図１０では、「mode」が符号化モード情報を示している。

　ここでは、符号化モード情報modeの値は0乃至3の何れかの値とされる。

　例えば、符号化モード情報modeの値が0である場合、図中、「case0」以下に示されるように図６の例と同様にして座標XCを示す「ZoomAreaXC」、座標YCを示す「ZoomAreaYC」、水平幅XWを示す「ZoomAreaXW」、および垂直幅YWを示す「ZoomAreaYW」がズームエリア情報として格納されている。

　また、符号化モード情報modeの値が1である場合、図中、「case1」以下に示されるように図７の例と同様にしてビット数情報である「nbits」、座標XCの差分を示す「ZoomAreaXCshift」、および座標YCの差分を示す「ZoomAreaYCshift」がズームエリア情報として格納されている。

　符号化モード情報modeの値が2である場合、図中、「case2」以下に示されるように図８の例と同様にしてビット数情報である「nbits」、水平幅XWの変化量を示す「ZoomAreaXWshift」、および垂直幅YWの変化量を示す「ZoomAreaYWshift」がズームエリア情報として格納されている。

　さらに符号化モード情報modeの値が3である場合、図中、「case3」以下に示されるように図９の例と同様にしてビット数情報である「nbits」、座標XCの差分を示す「ZoomAreaXCshift」、座標YCの差分を示す「ZoomAreaYCshift」、水平幅XWの変化量を示す「ZoomAreaXWshift」、および垂直幅YWの変化量を示す「ZoomAreaYWshift」がズームエリア情報として格納されている。

〈ズームエリア情報の具体例７〉
　また、以上においてはズームエリア情報として座標情報を格納する例について説明したが、ズームエリアを特定する角度情報をズームエリア情報として各ズームエリア情報データ部ZDに格納するようにしてもよい。

　例えば図１１に示すように、オリジナルエリアORの中心位置CPと同じ高さであり、中心位置CPから図１１中、手前側に所定距離だけ離れた位置にある点を、コンテンツ視聴時の基準となる視聴点WPとする。また、中心位置CPと視聴点WPの位置関係は、コンテンツのフレームによらず常に同じ位置関係であるものとする。なお、図１１において図３における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図１１において、中心位置CPと視聴点WPを結ぶ直線を直線L11とする。また、ズームエリアZEの図中、左側の辺の中点を点P21とし、点P21と視聴点WPを結ぶ直線を直線L12とする。さらに、直線L11と直線L12とのなす角度を水平角φ_leftとする。

　同様に、ズームエリアZEの図中、右側の辺の中点を点P22とし、点P22と視聴点WPを結ぶ直線を直線L13とする。また、直線L11と直線L13とのなす角度を水平角φ_rightとする。

　さらに、ズームエリアZEの図中、右側の辺上において中心位置CPとY座標が同じである位置を点P23とし、点P23と視聴点WPを結ぶ直線を直線L14とする。また、ズームエリアZEの図中、右上の頂点を点P24とし、点P24と視聴点WPを結ぶ直線を直線L15とするとともに、直線L14と直線L15とのなす角度を仰角θ_topとする。

　同様にズームエリアZEの図中、右下の頂点を点P25とし、点P25と視聴点WPを結ぶ直線を直線L16とするとともに、直線L14と直線L16とのなす角度を仰角θ_bottomとする。

　このとき、水平角φ_left、水平角φ_right、仰角θ_top、および仰角θ_bottomによって、ズームエリアZEを特定することが可能である。したがって、これらの水平角φ_left、水平角φ_right、仰角θ_top、および仰角θ_bottomをズームエリア情報として、図２に示した各ズームエリア情報データ部ZDに格納してもよい。また、これらの水平角φ_left、水平角φ_right、仰角θ_top、および仰角θ_bottomの一部または全部の変化量をズームエリア情報としてもよい。

〈ズームエリア情報の具体例８〉
　さらに、例えば図１２に示すように中心位置CP、ズームエリアZEの中心位置である点P11、および視聴点WPの位置関係から定まる角度情報をズームエリア情報としてもよい。なお、図１２において、図３または図１１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図１２において、ズームエリアZEの中心位置である点P11と視聴点WPを結ぶ直線を直線L21とする。また、ズームエリアZEの中心位置である点P11とX座標が同じであり、かつオリジナルエリアORの中心位置CPとY座標が同じである点を点P31とし、点P31と視聴点WPを結ぶ直線を直線L22とする。

　また、ズームエリアZEの図中、上側の辺の中点を点P32とし、点P32と視聴点WPを結ぶ直線を直線L23とするとともに、ズームエリアZEの図中、下側の辺の中点を点P33とし、点P33と視聴点WPを結ぶ直線を直線L24とする。

　さらに、直線L12と直線L13とのなす角度を水平視野角φ_Wとするとともに、直線L11と直線L22とのなす角度を水平角φ_Cとする。また、直線L23と直線L24とのなす角度を垂直視野角θ_Wとするとともに、直線L21と直線L22とのなす角度を仰角θ_Cとする。

　ここで、水平角φ_Cおよび仰角θ_Cは、それぞれズームエリアZEの中心位置である点P11に対する視聴点WPからの水平角および仰角を示している。

　このとき、水平視野角φ_W、水平角φ_C、垂直視野角θ_W、および仰角θ_Cによって、ズームエリアZEを特定することが可能である。したがって、水平視野角φ_W、水平角φ_C、垂直視野角θ_W、および仰角θ_Cや、それらの角度の変化量をズームエリア情報として、図２に示した各ズームエリア情報データ部ZDに格納してもよい。

　そのような場合、例えば図４に示したズームエリア情報存在フラグhasZoomAreaInfoがズームエリア情報ヘッダ部ZHDに格納される。そして、ズームエリア情報存在フラグhasZoomAreaInfoの値が1であるときに、各フレームのズームエリア情報データ部ZDにズームエリア情報が格納される。例えばズームエリア情報は、図１３に示すシンタックスでズームエリア情報データ部ZDに格納される。

　図１３では、ズームエリア情報の先頭には複数の形式のうちのどの形式でズームエリア情報、より詳細にはズームエリアの位置を特定する情報が記述されているかを示す符号化モード情報が配置されている。

　図１３では、「mode」が符号化モード情報を示しており、符号化モード情報modeの値は0乃至3の何れかの値とされる。

　例えば符号化モード情報modeの値が0である場合、図中、「case0」以下に示されるように水平角φ_Cを示す「ZoomAreaAZC」、仰角θ_Cを示す「ZoomAreaELC」、水平視野角φ_Wを示す「ZoomAreaAZW」、および垂直視野角θ_Wを示す「ZoomAreaELW」がズームエリア情報として格納される。

　符号化モード情報modeの値が1である場合、図中、「case1」以下に示されるようにビット数情報を示す「nbits」、水平角φ_Cの移動角度を示す「ZoomAreaAZCshift」、および仰角θ_Cの移動角度を示す「ZoomAreaELCshift」がズームエリア情報として格納される。

　ここで、ビット数情報nbitsは、「ZoomAreaAZCshift」および「ZoomAreaELCshift」のそれぞれが何ビットの情報であるかを示す情報である。

　また、「ZoomAreaAZCshift」および「ZoomAreaELCshift」は、それぞれ現フレームの直前のフレームの水平角φ_Cおよび仰角θ_C、または所定の基準となる水平角φ_Cおよび仰角θ_Cと、現フレームの水平角φ_Cおよび仰角θ_Cとの差分などとされる。

　符号化モード情報modeの値が2である場合、図中、「case2」以下に示されるようにビット数情報を示す「nbits」、水平視野角φ_Wの変化量を示す「ZoomAreaAZWshift」、および垂直視野角θ_Wの変化量を示す「ZoomAreaELWshift」がズームエリア情報として格納される。

　ここで、ビット数情報nbitsは、「ZoomAreaAZWshift」および「ZoomAreaELWshift」のそれぞれが何ビットの情報であるかを示す情報である。

　また、「ZoomAreaAZWshift」および「ZoomAreaELWshift」は、それぞれ現フレームの直前のフレームの水平視野角φ_Wおよび垂直視野角θ_W、または所定の基準となる水平視野角φ_Wおよび垂直視野角θ_Wと、現フレームの水平視野角φ_Wおよび垂直視野角θ_Wとの差分などとされる。

　さらに、符号化モード情報modeの値が3である場合、図中、「case3」以下に示されるようにビット数情報である「nbits」、水平角φ_Cの移動角度を示す「ZoomAreaAZCshift」、仰角θ_Cの移動角度を示す「ZoomAreaELCshift」、水平視野角φ_Wの変化量を示す「ZoomAreaAZWshift」、および垂直視野角θ_Wの変化量を示す「ZoomAreaELWshift」がズームエリア情報として格納される。

　この場合におけるビット数情報nbitsは、「ZoomAreaAZCshift」、「ZoomAreaELCshift」、「ZoomAreaAZWshift」、および「ZoomAreaELWshift」のそれぞれが何ビットの情報であるかを示している。

　なお、図１３の例に限らず「ZoomAreaAZC」、「ZoomAreaELC」、「ZoomAreaAZW」、および「ZoomAreaELW」のみがズームエリア情報とされてもよい。また、「ZoomAreaAZCshift」および「ZoomAreaELCshift」と、「ZoomAreaAZWshift」および「ZoomAreaELWshift」との両方または一方のみがズームエリア情報とされてもよい。

〈ズームエリア情報の具体例９〉
　また、以上においてはズームエリア情報が1つである場合について説明したが、ズームエリア情報データ部ZDに複数のズームエリア情報が格納されるようにしてもよい。すなわち、1つのコンテンツに対して複数のズームエリアが指定され、それらのズームエリアごとにズームエリア情報がズームエリア情報データ部ZDに格納されるようにしてもよい。

　そのような場合、例えば図１４に示すシンタックスで各情報がズームエリア情報ヘッダ部ZHDに格納され、さらに図１５に示すシンタックスでズームエリア情報が各フレームのズームエリア情報データ部ZDに格納される。

　図１４に示す例では、「hasZoomAreaInfo」はズームエリア情報存在フラグを示しており、ズームエリア情報存在フラグhasZoomAreaInfoの値が1である場合に、そのズームエリア情報存在フラグhasZoomAreaInfoに続いて「numZoomAreas」が格納される。

　ここで、「numZoomAreas」はズームエリア情報データ部ZD内に記述されているズームエリア情報の個数、すなわちコンテンツに対して定められたズームエリアの個数を示すズームエリア個数情報を示している。この例ではズームエリア個数情報numZoomAreasの値は0乃至15の何れかの値とされる。

　符号化コンテンツデータでは、ズームエリア個数情報numZoomAreasの値に1を加算した数だけ、ズームエリア情報、より詳細には各ズームエリアの位置を特定する情報がズームエリア情報データ部ZDに格納されている。

　したがって、例えばズームエリア個数情報numZoomAreasの値が0であれば、ズームエリア情報データ部ZDには、1つのズームエリアについて、そのズームエリアの位置を特定する情報が格納されていることになる。

　さらに、ズームエリア情報存在フラグhasZoomAreaInfoの値が1である場合、ズームエリア情報データ部ZDにズームエリア情報が格納されている。例えばズームエリア情報は、図１５に示すシンタックスでズームエリア情報データ部ZDに記述されている。

　図１５の例では、ズームエリア個数情報numZoomAreasにより示される個数だけズームエリア情報が格納されている。

　図１５では「mode[idx]」は、インデックスidxにより特定されるズームエリアについての符号化モード情報を示しており、符号化モード情報mode[idx]の値は0乃至3の何れかの値とされる。なお、インデックスidxは0乃至numZoomAreasの各値とされる。

　例えば、符号化モード情報mode[idx]の値が0である場合、図中、「case0」以下に示されるように座標XCを示す「ZoomAreaXC[idx]」、座標YCを示す「ZoomAreaYC[idx]」、水平幅XWを示す「ZoomAreaXW[idx]」、および垂直幅YWを示す「ZoomAreaYW[idx]」が、インデックスidxにより特定されるズームエリアのズームエリア情報として格納されている。

　また、符号化モード情報mode[idx]の値が1である場合、図中、「case1」以下に示されるようにビット数情報である「nbits」、座標XCの差分を示す「ZoomAreaXCshift[idx]」、および座標YCの差分を示す「ZoomAreaYCshift[idx]」が、インデックスidxにより特定されるズームエリアのズームエリア情報として格納されている。ここで、ビット数情報nbitsは「ZoomAreaXCshift[idx]」および「ZoomAreaYCshift[idx]」のそれぞれが何ビットの情報であるかを示している。

　符号化モード情報mode[idx]の値が2である場合、図中、「case2」以下に示されるようにビット数情報である「nbits」、水平幅XWの変化量を示す「ZoomAreaXWshift[idx]」、および垂直幅YWの変化量を示す「ZoomAreaYWshift[idx]」が、インデックスidxにより特定されるズームエリアのズームエリア情報として格納されている。ここで、ビット数情報nbitsは「ZoomAreaXWshift[idx]」および「ZoomAreaYWshift[idx]」のそれぞれが何ビットの情報であるかを示している。

　さらに符号化モード情報mode[idx]の値が3である場合、図中、「case3」以下に示されるようにビット数情報である「nbits」、座標XCの差分を示す「ZoomAreaXCshift[idx]」、および座標YCの差分を示す「ZoomAreaYCshift[idx]」、水平幅XWの変化量を示す「ZoomAreaXWshift[idx]」、および垂直幅YWの変化量を示す「ZoomAreaYWshift[idx]」が、インデックスidxにより特定されるズームエリアのズームエリア情報として格納されている。ここで、ビット数情報nbitsは「ZoomAreaXCshift[idx]」、「ZoomAreaYCshift[idx]」、「ZoomAreaXWshift[idx]」、および「ZoomAreaYWshift[idx]」のそれぞれが何ビットの情報であるかを示している。

　図１５に示す例では、ズームエリアの個数分だけ、符号化モード情報mode[idx]とズームエリア情報がズームエリア情報データ部ZD内に格納されている。

　なお、その他、ズームエリア情報は、座標XCおよび座標YC、水平角φ_Cおよび仰角θ_C、座標XCの差分および座標YCの差分、または水平角φ_Cの差分および仰角θ_Cの差分のみとされるようにしてもよい。

　そのような場合、水平幅XWおよび垂直幅YWや、水平視野角φ_Wおよび垂直視野角θ_Wは再生側において定められるようにすることができる。その際、水平幅XWおよび垂直幅YWや、水平視野角φ_Wおよび垂直視野角θ_Wは、再生側の機器において自動的に定められてもよいし、ユーザにより指定されるようにしてもよい。

　このような例では、例えばコンテンツが球技の映像と音声である場合には、ボールの位置を示す座標XCおよび座標YCがズームエリア情報とされ、再生側の機器において固定またはユーザにより指定された水平幅XWおよび垂直幅YWが用いられる。

〈ズームエリア補助情報について〉
　また、ズームエリア情報ヘッダ部ZHDにズームエリア補助情報として、再生対象機器やズーム目的を示すID、その他のテキスト情報等の補足情報が含まれるようにしてもよい。

　そのような場合、ズームエリア情報ヘッダ部ZHDには、例えば図１６に示すシンタックスで、ズームエリア情報存在フラグhasZoomAreaInfoやズームエリア補助情報が格納される。

　図１６に示す例では、先頭にズームエリア情報存在フラグhasZoomAreaInfoが配置されており、このズームエリア情報存在フラグhasZoomAreaInfoの値が1である場合、それ以降にズームエリア補助情報等の各情報が格納されている。

　すなわち、この例ではズームエリア情報存在フラグhasZoomAreaInfoに続いて、ズームエリア情報データ部ZD内に記述されているズームエリア情報の個数を示すズームエリア個数情報「numZoomAreas」が格納される。ここでは、ズームエリア個数情報numZoomAreasの値は0乃至15の何れかの値とされる。

　また、ズームエリア個数情報numZoomAreasの後には、インデックスidxにより特定されるズームエリアについての情報が、ズームエリア個数情報numZoomAreasにより示される個数だけ配置されている。ここで、インデックスidxは0乃至numZoomAreasの各値とされる。

　すなわち、ズームエリア個数情報numZoomAreasに続く「hasExtZoomAreaInfo[idx]」は、インデックスidxにより特定されるズームエリアのズームエリア補助情報が格納されているか否かを示す補助情報フラグを示している。ここでは、補助情報フラグhasExtZoomAreaInfo[idx]の値は0または1の何れかとされる。

　補助情報フラグhasExtZoomAreaInfo[idx]の値が0である場合には、ズームエリア情報ヘッダ部ZHDには、インデックスidxにより特定されるズームエリアのズームエリア補助情報が格納されていないことを示している。これに対して、補助情報フラグhasExtZoomAreaInfo[idx]の値が1である場合には、ズームエリア情報ヘッダ部ZHDにインデックスidxにより特定されるズームエリアのズームエリア補助情報が格納されていることを示している。

　補助情報フラグhasExtZoomAreaInfo[idx]の値が1である場合、その補助情報フラグhasExtZoomAreaInfo[idx]の後には、インデックスidxにより特定されるズームエリアの仕様を示す仕様IDである「ZoomAreaSpecifiedID[idx]」が配置されている。

　また、「hasZoomAreaCommentary」は、インデックスidxにより特定されるズームエリアについて、そのズームエリアについての説明等のテキスト情報など、仕様ID以外にさらなる補足情報があるか否かを示す補足情報フラグを示している。

　例えば、この補足情報フラグhasZoomAreaCommentaryの値が0である場合には、補足情報がないことを示している。これに対して、補足情報フラグhasZoomAreaCommentaryの値が1である場合には、補足情報があることを示しており、その補足情報フラグhasZoomAreaCommentaryに続いて、バイト数情報である「nbytes」および補足情報である「ZoomAreaCommentary[idx]」が配置されている。

　ここではバイト数情報nbytesは、補足情報ZoomAreaCommentary[idx]が何バイトの情報であるかを示している。また、補足情報ZoomAreaCommentary[idx]は、インデックスidxにより特定されるズームエリアについて説明するテキスト情報とされる。

　具体的には、例えばコンテンツがライブ映像とその音声からなり、インデックスidxにより特定されるズームエリアが映像オブジェクトとしてのヴォーカリストをズームし続けることを目的としたズームエリアであるとする。そのような場合、例えば「ヴォーカルズーム」などのテキスト情報が補足情報ZoomAreaCommentary[idx]とされる。

　ズームエリア情報ヘッダ部ZHDには、ズームエリア個数情報numZoomAreasにより示される個数だけ、必要に応じて補助情報フラグhasExtZoomAreaInfo[idx]、仕様IDであるZoomAreaSpecifiedID[idx]、補足情報フラグhasZoomAreaCommentary、バイト数情報nbytes、および補足情報ZoomAreaCommentary[idx]のセットが格納されている。但し、補助情報フラグhasExtZoomAreaInfo[idx]の値が0であるズームエリアに関しては、ZoomAreaSpecifiedID[idx]、補足情報フラグhasZoomAreaCommentary、バイト数情報nbytes、および補足情報ZoomAreaCommentary[idx]は格納されていない。同様に、補足情報フラグhasZoomAreaCommentaryの値が0であるズームエリアに関しては、バイト数情報nbytes、および補足情報ZoomAreaCommentary[idx]は格納されていない。

　また、仕様IDであるZoomAreaSpecifiedID[idx]は、ズームエリアに対する再生対象機器やズーム目的といったズーム仕様を示す情報であり、例えば図１７に示すようにZoomAreaSpecifiedID[idx]の各値に対してズーム仕様が定められている。

　この例では、例えばZoomAreaSpecifiedID[idx]の値が1である場合、その仕様IDにより示されるズーム仕様のズームエリアは、再生対象機器がプロジェクタであることを想定したズームエリアであることを示している。

　また、ZoomAreaSpecifiedID[idx]の値が2乃至4のそれぞれである場合、それらの仕様IDにより示されるズーム仕様のズームエリアは、画面サイズが50型超、30型乃至50型、および30型未満であるテレビジョン受像機のぞれぞれを再生対象機器として想定したズームエリアであることを示している。

　このように、図１７に示す例ではZoomAreaSpecifiedID[idx]の値が1乃至4の何れかであるズームエリア情報は、再生対象機器の種別ごとに定められたズームエリアを示す情報となっている。

　また、例えばZoomAreaSpecifiedID[idx]の値が7である場合、その仕様IDにより示されるズーム仕様のズームエリアは、再生対象機器がスマートフォンであり、かつスマートフォンの回転方向が縦方向であることを想定したズームエリアであることを示している。

　ここで、スマートフォンの回転方向が縦方向であるとは、ユーザがスマートフォンでコンテンツを視聴するときのスマートフォンの方向が縦方向である、つまりスマートフォンの表示画面の長手方向がユーザから見て縦方向（上下方向）であることをいう。したがって、ZoomAreaSpecifiedID[idx]の値が7である場合、ズームエリアは例えば縦長の領域とされる。

　同様に、例えばZoomAreaSpecifiedID[idx]の値が8である場合、その仕様IDにより示されるズーム仕様のズームエリアは、再生対象機器がスマートフォンであり、かつスマートフォンの回転方向が横方向であることを想定したズームエリアであることを示している。この場合、ズームエリアは、例えば横長の領域とされる。

　このように、図１７に示す例ではZoomAreaSpecifiedID[idx]の値が5乃至8の何れかである各ズームエリア情報は、再生対象機器の種別と、その再生対象機器の回転方向に対して定められたズームエリアを示す情報となっている。

　さらに、例えばZoomAreaSpecifiedID[idx]の値が9である場合、その仕様IDにより示されるズーム仕様のズームエリアは、コンテンツ制作者により定められた所定のズーム目的のズームエリアであることを示している。ここで、所定のズーム目的とは、例えば所定の映像オブジェクトをズーム表示させるなど、特定のズームビューを表示させることなどとされる。

　したがって、例えばZoomAreaSpecifiedID[idx]の値「9」がヴォーカリストをズームし続けることを目的としたズーム仕様を示すものである場合、そのインデックスidxの補足情報ZoomAreaCommentary[idx]が「ヴォーカルズーム」などのテキスト情報とされる。ユーザは仕様ID、またはその仕様IDに対応付けられた情報や、仕様IDについての補足情報などから、各仕様IDにより示されるズーム仕様が、どのようなズーム仕様であるかを知ることができる。

　このように、図１７に示す例ではZoomAreaSpecifiedID[idx]の値が9乃至15の何れかである各ズームエリア情報は、例えば特定の映像オブジェクトごとに定められたズームエリアなど、コンテンツ制作者側で自由に定められた任意のズームエリアを示す情報となっている。

　以上のように1つのコンテンツに対して1または複数のズームエリアを設定することで、例えば図１８に示すように、より簡単にユーザの嗜好に合ったコンテンツや、各再生機器に適したコンテンツを提供することができるようになる。

　図１８では、画像Q11は所定のコンテンツの映像（画像）を示している。このコンテンツはライブ映像のコンテンツであり、画像Q11はライブの演者であるヴォーカリストM11、ギタリストM12、およびベーシストM13が写っている他、ステージ全体や観客等も写っている広角画像となっている。

　コンテンツ制作者は、このようなコンテンツを構成する画像Q11に対して、再生対象機器やズーム目的等のズーム仕様に応じて、1または複数のズームエリアを設定する。

　例えば映像オブジェクトであるヴォーカリストM11をズームアップしたズームビューを表示させるために、画像Q11上のヴォーカリストM11を中心とする領域をズームエリアとすれば、再生側においてコンテンツとして画像Q12を再生させることができる。

　同様に、例えば映像オブジェクトであるギタリストM12をズームアップしたズームビューを表示させるために、画像Q11上のギタリストM12を中心とする領域をズームエリアとすれば、再生側においてコンテンツとして画像Q13を再生させることができる。

　さらに、例えば再生側において複数のズームエリアを選択し、それらのズームエリアを並べて1つの画面を構成することで、再生側においてコンテンツとして画像Q14を再生させることができる。

　この例では画像Q14は、画像Q11よりもやや画角が狭いズームエリアの画像Q21、ヴォーカリストM11をズームアップしたズームエリアの画像Q22、ギタリストM12をズームアップしたズームエリアの画像Q23、およびベーシストM13をズームアップしたズームエリアの画像Q24から構成されている。すなわち、画像Q14はマルチ画面構成となっている。コンテンツ提供側が予め複数のズームエリア定めておけば、コンテンツ再生側においていくつかのズームエリアを選択し、画像Q14のようなマルチ画面構成でコンテンツを再生させることができる。

　また、例えばタブレット型PC等のあまり表示画面が大きくない再生機器を想定して、画像Q11の半分程度の画角とすれば、つまり画像Q11の中心を含む、画像Q11全体の半分程度の面積の領域をズームエリアとすれば、再生側においてコンテンツとして画像Q15を再生させることができる。この例では、あまり表示画面が大きくない再生機器においても、各演者を十分な大きさで表示させることができる。

　さらに、例えば回転方向が横方向、つまり表示画面が横長の状態のスマートフォンを想定して、画像Q11の中心を含む、画像Q11内の比較的狭い横長の領域をズームエリアとすれば、再生側においてコンテンツとして画像Q16を再生させることができる。

　例えば回転方向が縦方向、つまり表示画面が縦長の状態のスマートフォンを想定して、画像Q11の中心近傍の縦方向に長い領域をズームエリアとすれば、再生側においてコンテンツとして画像Q17を再生させることができる。

　画像Q17では演者の1人であるヴォーカリストM11がズームアップされて表示されている。この例では、縦長の小さい表示画面が想定されているので、横方向に並ぶ全ての演者を表示させるよりも1人の演者をズームアップして表示させた方が、より再生対象機器に適した表示であるため、そのようなズームエリアが設定されている。

　また、例えば大型のテレビジョン受像機等の比較的表示画面が大きい再生機器を想定して、画像Q11よりもやや画角を狭くすれば、つまり画像Q11の中心を含む、画像Q11内の比較的広い領域をズームエリアとすれば、再生側においてコンテンツとして画像Q18を再生させることができる。

　以上のようにコンテンツ提供側においてズームエリアを設定し、そのズームエリアを示すズームエリア情報を含む符号化コンテンツデータを生成することで、再生側において、コンテンツの視聴者であるユーザは、コンテンツをそのまま再生するか、またはズームエリア情報に従ってズーム再生、つまりトリミング再生するかを選択することができる。

　特に、ズームエリア情報が複数ある場合には、ユーザは、それらの複数のズームエリア情報のうちのどのズームエリア情報に従ってズーム再生をするかを選択することができる。

　また、符号化コンテンツデータにズームエリア補助情報が格納されている場合には、再生側において再生対象機器、ズーム目的、ズームの内容等のズーム仕様や、補足情報を参照し、再生機器やユーザの嗜好に適したズームエリアを選択することができる。ズームエリアの選択は、ユーザが指定するようにしてもよいし、再生機器において自動的に行われるようにしてもよい。

〈符号化処理の説明〉
　次に、符号化装置１１の具体的な動作について説明する。

　符号化装置１１は、外部からコンテンツを構成する映像データおよび音声データと、そのコンテンツのメタデータとが供給されると符号化処理を行い、符号化コンテンツデータを出力する。以下、図１９のフローチャートを参照して、符号化装置１１による符号化処理について説明する。

　ステップＳ１１において、映像データ符号化部２１は、供給されたコンテンツの映像データを符号化し、その結果得られた符号化映像データを多重化部２４に供給する。

　ステップＳ１２において、音声データ符号化部２２は、供給されたコンテンツの音声データを符号化し、その結果得られた符号化音声データを多重化部２４に供給する。

　ステップＳ１３において、メタデータ符号化部２３は、供給されたコンテンツのメタデータを符号化し、その結果得られた符号化メタデータを多重化部２４に供給する。

　ここで、符号化されるメタデータには、例えば上述したズームエリア情報が含まれている。ズームエリア情報は、例えば図５乃至図１０や、図１３、図１５などを参照して説明したものの他、どのようなものであってもよい。

　また、メタデータ符号化部２３は、必要に応じてズームエリア情報存在フラグhasZoomAreaInfoや、ズームエリア個数情報numZoomAreas、ズームエリア補助情報等のズームエリア情報のヘッダ情報も符号化し、多重化部２４に供給する。

　ステップＳ１４において、多重化部２４は映像データ符号化部２１から供給された符号化映像データ、音声データ符号化部２２から供給された符号化音声データ、およびメタデータ符号化部２３から供給された符号化メタデータを多重化してビットストリームを生成し、出力部２５に供給する。このとき、多重化部２４は、メタデータ符号化部２３から供給された、ズームエリア情報の符号化されたヘッダ情報もビットストリームに格納する。

　これにより、例えば図２に示した符号化コンテンツデータがビットストリームとして得られる。なお、符号化コンテンツデータのズームエリア情報ヘッダ部ZHDの構成は、例えば図４や図１４、図１６に示した構成など、どのような構成とされてもよい。

　ステップＳ１５において、出力部２５は、多重化部２４から供給されたビットストリームを出力し、符号化処理は終了する。

　以上のようにして符号化装置１１は、コンテンツとともに、ズームエリア情報を含むメタデータを符号化し、ビットストリームを生成する。

　このようにズームエリアを指定するためのズームエリア情報を含むビットストリームを生成することで、再生機器ごと等にコンテンツを用意することなく、より簡単にユーザの嗜好に合ったコンテンツや各再生機器に適したコンテンツを提供することができる。

　すなわち、コンテンツ制作者は、ユーザの嗜好や再生機器の画面サイズ、再生機器の回転方向等に対して最適と考えるコンテンツを、それらの嗜好や再生機器ごとに用意することなく、ズームエリアを指定するだけで簡単に提供することが可能となる。

　また、再生側においては、ズームエリアを選択し、必要に応じてコンテンツをトリミングすることで、ユーザの嗜好や再生機器の画面サイズ、再生機器の回転方向等に対して最適なコンテンツを視聴することができる。

〈再生装置の構成例〉
　次に、符号化装置１１から出力されたビットストリーム、すなわち符号化コンテンツデータを受信して、コンテンツを再生する再生装置について説明する。

　図２０は、本技術を適用した再生装置の一実施の形態の構成例を示す図である。

　この例では、再生装置５１には、必要に応じてズームエリアの選択時に情報を表示する表示装置５２、コンテンツの映像を出力する映像出力装置５３、およびコンテンツの音声を出力する音声出力装置５４が接続されている。

　なお、これらの表示装置５２、映像出力装置５３、および音声出力装置５４は、再生装置５１に設けられていてもよい。また、表示装置５２と映像出力装置５３は、同一の装置であってもよい。

　再生装置５１はコンテンツデータ復号部６１、ズームエリア選択部６２、映像データ復号部６３、映像切出部６４、音声データ復号部６５、および音声変換部６６を有している。

　コンテンツデータ復号部６１は、符号化装置１１から送信されたビットストリーム、すなわち符号化コンテンツデータを受信し、符号化コンテンツデータから符号化映像データ、符号化音声データ、および符号化メタデータを分離させる。

　コンテンツデータ復号部６１は、符号化映像データを映像データ復号部６３に供給するとともに、符号化音声データを音声データ復号部６５に供給する。

　コンテンツデータ復号部６１は、符号化メタデータを復号してメタデータを得るとともに、得られたメタデータを必要に応じて再生装置５１の各部に供給する。また、コンテンツデータ復号部６１は、メタデータにズームエリア情報が含まれている場合には、そのズームエリア情報をズームエリア選択部６２に供給する。さらに、コンテンツデータ復号部６１は、ビットストリームにズームエリア補助情報が格納されている場合には、そのズームエリア補助情報を読み出すとともに必要に応じて復号し、ズームエリア選択部６２に供給する。

　ズームエリア選択部６２は、コンテンツデータ復号部６１から供給された1または複数のズームエリア情報のなかから1つのズームエリア情報を選択し、選択されたズームエリア情報を選択ズームエリア情報として映像切出部６４および音声変換部６６に供給する。換言すれば、ズームエリア選択部６２では、コンテンツデータ復号部６１から供給されたズームエリア情報に基づいてズームエリアが選択される。

　例えば、ズームエリア選択部６２は、コンテンツデータ復号部６１からズームエリア補助情報が供給された場合には、そのズームエリア補助情報を表示装置５２に供給し、表示させる。これにより、例えば表示装置５２には、ズームエリアの目的や内容、再生対象機器等のズーム仕様を示す仕様IDや、その仕様IDに基づく情報、テキスト情報等の補足情報がズームエリア補助情報として表示される。

　すると、ユーザは、表示装置５２に表示されたズームエリア補助情報を確認し、図示せぬ入力部を操作して、所望のズームエリアを選択する。ズームエリア選択部６２は、入力部から供給されたユーザの操作に応じた信号に基づいてズームエリアを選択し、選択されたズームエリアを示す選択ズームエリア情報を出力する。つまり、ユーザにより指定されたズームエリアのズームエリア情報が選択され、選択されたズームエリア情報が選択ズームエリア情報として出力される。

　なお、ズームエリア選択部６２によってズームエリア情報からズームエリアの位置および大きさを示す情報が生成されて表示装置５２に表示され、その表示に基づいてユーザがズームエリアを選択するなど、ズームエリアの選択はどのようにして行われてもよい。

　なお、ズームエリアの選択がなされなかった場合、すなわち、もとのコンテンツの再生が選択された場合には、選択ズームエリア情報はトリミングをしない旨の情報などとされる。

　また、例えば再生装置５１が、スマートフォンやテレビジョン受像機など、自身がどのような種別の機器であるかを示す再生機器情報を予め記録している場合には、その再生機器情報が用いられてズームエリア情報（ズームエリア）が選択されるようにしてもよい。

　そのような場合、例えばズームエリア選択部６２は、再生機器情報を取得するとともに、取得した再生機器情報とズームエリア補助情報とを用いてズームエリア情報を選択する。

　具体的には、ズームエリア選択部６２は、ズームエリア補助情報としての仕様IDのうち、再生対象機器が再生機器情報により示される種別の機器であることを示す仕様IDを選択する。そして、ズームエリア選択部６２は、選択された仕様IDに対応するズームエリア情報、つまりインデックスidxが、選択された仕様IDのものと同じであるズームエリア情報を、選択されたズームエリア情報とする。

　さらに、例えば再生装置５１がスマートフォンやタブレット型PC等のポータブル機器である場合、ズームエリア選択部６２は、図示せぬジャイロセンサ等から再生装置５１の回転方向を示す方向情報を取得し、その方向情報を用いてズームエリア情報を選択してもよい。

　そのような場合、例えばズームエリア選択部６２は、ズームエリア補助情報としての仕様IDのうち、再生対象機器が再生機器情報により示される種別の機器であり、かつ想定された回転方向が、取得した方向情報により示される方向であることを示す仕様IDを選択する。そして、ズームエリア選択部６２は、選択された仕様IDに対応するズームエリア情報を、選択されたズームエリア情報とする。これにより、ユーザが再生装置５１を縦方向（縦長の画面）にして使用している状態でも、横方向（横長の画面）にして使用している状態でも、現状態に最適なズームエリアのズームエリア情報が選択される。

　なお、その他、再生機器情報または方向情報の何れか一方のみが用いられてズームエリア情報が選択されるようにしてもよいし、再生装置５１に関する他の情報が用いられてズームエリア情報が選択されるようにしてもよい。

　映像データ復号部６３は、コンテンツデータ復号部６１から供給された符号化映像データを復号し、その結果得られた映像データを映像切出部６４に供給する。

　映像切出部６４は、映像データ復号部６３から供給された映像データに基づく映像（画像）のうち、ズームエリア選択部６２から供給された選択ズームエリア情報により示されるズームエリアをトリミングして（切り出して）、その結果得られたズーム映像データを映像出力装置５３に出力する。

　なお、選択ズームエリア情報が、トリミングをしない旨の情報である場合には、映像切出部６４は、映像データに対するトリミング処理を行わず、その映像データをそのままズーム映像データとして映像出力装置５３に出力する。

　音声データ復号部６５は、コンテンツデータ復号部６１から供給された符号化音声データを復号し、その結果得られた音声データを音声変換部６６に供給する。

　音声変換部６６は、ズームエリア選択部６２から供給された選択ズームエリア情報に基づいて、音声データ復号部６５から供給された音声データに対して音声変換処理を施し、その結果得られたズーム音声データを音声出力装置５４に供給する。

　ここで、音声変換処理はコンテンツの映像のズームに適合した音声再生となるような変換とされる。

　例えばズームエリアのトリミング処理、つまり切り出しズーム処理によって、映像内のオブジェクトから基準となる視聴点までの距離が変化する。そこで、音声変換部６６は、例えば音声データがオブジェクトベースオーディオである場合には、音声データ復号部６５を介してコンテンツデータ復号部６１から供給された、メタデータとしてのオブジェクトの位置情報を、選択ズームエリア情報に基づいて変換する。すなわち、音声変換部６６は、音源であるオブジェクトの位置、つまりオブジェクトまでの距離を選択ズームエリア情報に基づいて移動させる。

　そして、音声変換部６６は、オブジェクトの位置が移動された音声データに基づいてレンダリング処理を行い、その結果得られたズーム音声データを音声出力装置５４に供給し、音声を再生させる。

　なお、このような音声変換処理は、例えば国際特許出願番号PCT/JP2014/067508の明細書等に詳細に記載されている。

　また、選択ズームエリア情報が、トリミングをしない旨の情報である場合には、音声変換部６６は、音声データに対する音声変換処理を行わず、その音声データをそのままズーム音声データとして音声出力装置５４に出力する。

〈再生処理の説明〉
　続いて再生装置５１の動作について説明する。

　再生装置５１は、符号化装置１１から出力された符号化コンテンツデータを受信すると、受信した符号化コンテンツデータを復号してコンテンツを再生する再生処理を行う。以下、図２１のフローチャートを参照して、再生装置５１による再生処理について説明する。

　ステップＳ４１において、コンテンツデータ復号部６１は、受信した符号化コンテンツデータから符号化映像データ、符号化音声データ、および符号化メタデータを分離させるとともに、符号化メタデータを復号する。

　そして、コンテンツデータ復号部６１は、符号化映像データを映像データ復号部６３に供給するとともに、符号化音声データを音声データ復号部６５に供給する。また、コンテンツデータ復号部６１は、復号により得られたメタデータを必要に応じて再生装置５１の各部に供給する。

　このとき、コンテンツデータ復号部６１は、メタデータとして得られたズームエリア情報をズームエリア選択部６２に供給する。さらに、コンテンツデータ復号部６１は、符号化コンテンツデータにメタデータのヘッダ情報としてズームエリア補助情報が格納されている場合には、そのズームエリア補助情報を読み出してズームエリア選択部６２に供給する。例えば、ズームエリア補助情報として、上述した補足情報ZoomAreaCommentary[idx]や、仕様IDであるZoomAreaSpecifiedID[idx]などが読み出される。

　ステップＳ４２において、ズームエリア選択部６２は、コンテンツデータ復号部６１から供給されたズームエリア情報から1つのズームエリア情報を選択し、その選択結果に応じた選択ズームエリア情報を映像切出部６４および音声変換部６６に供給する。

　例えば、ズームエリア情報の選択時には、ズームエリア選択部６２はズームエリア補助情報を表示装置５２に供給して表示させ、その表示を見たユーザの操作入力により供給された信号に基づいてズームエリア情報を選択する。

　また、上述したようにズームエリア補助情報や、ユーザの操作入力だけでなく、再生機器情報や方向情報も利用されてズームエリア情報の選択が行われてもよい。

　ステップＳ４３において、映像データ復号部６３は、コンテンツデータ復号部６１から供給された符号化映像データを復号し、その結果得られた映像データを映像切出部６４に供給する。

　ステップＳ４４において、映像切出部６４は、映像データ復号部６３から供給された映像データに基づく映像に対して、ズームエリア選択部６２から供給された選択ズームエリア情報により示されるズームエリアの切り出し（トリミング）を行う。これにより、選択ズームエリア情報により示されるズームエリアの映像を再生するためのズーム映像データが得られる。

　映像切出部６４は、切り出しにより得られたズーム映像データを映像出力装置５３に供給し、トリミングされたコンテンツの映像を再生させる。映像出力装置５３は、映像切出部６４から供給されたズーム映像データに基づいて映像を再生（表示）する。

　ステップＳ４５において、音声データ復号部６５は、コンテンツデータ復号部６１から供給された符号化音声データを復号し、その結果得られた音声データを音声変換部６６に供給する。

　ステップＳ４６において、音声変換部６６は、ズームエリア選択部６２から供給された選択ズームエリア情報に基づいて、音声データ復号部６５から供給された音声データに対して音声変換処理を施す。また、音声変換部６６は、音声変換処理により得られたズーム音声データを音声出力装置５４に供給して音声を出力させる。音声出力装置５４は、音声変換部６６から供給されたズーム音声データに基づいて、音声変換処理されたコンテンツの音声を再生し、再生処理は終了する。

　なお、より詳細には、ステップＳ４３およびステップＳ４４の処理と、ステップＳ４５およびステップＳ４６の処理は並行して行われる。

　以上のようにして再生装置５１は、適切なズームエリア情報を選択し、その選択結果に応じた選択ズームエリア情報に基づいて、映像データに対するトリミングや音声データに対する音声変換処理を行い、コンテンツを再生する。

　このようにズームエリア情報を選択することで、より簡単にユーザの嗜好に合ったコンテンツや、再生装置５１の表示画面サイズ、再生装置５１の回転方向等に適したコンテンツなど、適切にトリミングや音声変換されたコンテンツを再生することができる。また、ユーザが表示装置５２により提示されたズームエリア補助情報に基づいてズームエリアを選択する場合には、ユーザは簡単に所望のズームエリアを選択することができる。

　なお、図２１を参照して説明した再生処理では、選択ズームエリア情報に基づいて、コンテンツを構成する映像のトリミングとコンテンツを構成する音声の音声変換処理の両方が行われる場合について説明したが、何れか一方のみが行われてもよい。

　また、コンテンツが映像のみまたは音声のみから構成される場合でも、それらの映像または音声に対して、トリミングや音声変換処理を施して再生することが可能である。

　例えばコンテンツが音声のみから構成される場合でも、ズームするエリアを示すズームエリア情報を選択し、選択されたズームエリア情報に応じて音源オブジェクトまでの距離等を音声変換処理により変化させることで、ユーザの嗜好や再生機器等に適したコンテンツ再生を実現することができる。

〈第２の実施の形態〉
〈再生装置の構成例〉
　なお、以上においては、映像切出部６４において、1つの選択ズームエリア情報に従ってコンテンツの映像からズームエリアをトリミングする例について説明したが、複数のズームエリアが選択されるようにし、それらの複数のズームエリアがマルチ画面配置で出力されてもよい。

　そのような場合、再生装置５１は、例えば図２２に示すように構成される。なお、図２２において図２０における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図２２に示す再生装置５１は、コンテンツデータ復号部６１、ズームエリア選択部６２、映像データ復号部６３、映像切出部６４、映像配置部９１、音声データ復号部６５、および音声変換部６６を有している。

　図２２に示す再生装置５１の構成は、映像切出部６４の後段に映像配置部９１が新たに設けられている点で図２０の再生装置５１と異なり、その他の点では図２０の再生装置５１と同じ構成となっている。

　この例では、ズームエリア選択部６２は1または複数のズームエリア情報を選択し、それらのズームエリア情報を選択ズームエリア情報として映像切出部６４に供給する。また、ズームエリア選択部６２は、1つのズームエリア情報を選択し、そのズームエリア情報を選択ズームエリア情報として音声変換部６６に供給する。

　なお、ズームエリア選択部６２におけるズームエリア情報の選択は、図２０に示した再生装置５１における場合と同様に、ユーザの入力操作に応じて行われてもよいし、ズームエリア補助情報や再生機器情報、方向情報などに基づいて行われてもよい。

　また、音声変換部６６に供給される選択ズームエリア情報としてのズームエリア情報は、ユーザの入力操作に応じて選択されてもよいし、符号化コンテンツデータにおいて先頭等の所定位置に配置されているズームエリア情報であってもよい。その他、ズームエリアのサイズが最も大きいものなど、代表的なズームエリアのズームエリア情報であればよい。

　映像切出部６４は、映像データ復号部６３から供給された映像データに基づく映像（画像）のうち、ズームエリア選択部６２から供給された1または複数の選択ズームエリア情報のそれぞれにより示されるズームエリアをトリミングして、各ズームエリアのズーム映像データを生成する。また、映像切出部６４は、トリミングにより得られた各ズームエリアのズーム映像データを映像配置部９１に供給する。

　なお、映像切出部６４が、トリミングが行われていない映像データを、そのまま1つのズーム映像データとして映像配置部９１に供給してもよい。

　映像配置部９１は、映像切出部６４から供給された1または複数のズーム映像データに基づいて、それらのズーム映像データに基づく映像がマルチ画面配置されて再生されるマルチ画面映像データを生成し、映像出力装置５３に供給する。ここで、マルチ画面映像データにより再生される映像は、例えば図１８の画像Q14のように、選択されたズームエリアの映像（画像）が並べられて配置された映像となる。

　また音声変換部６６は、ズームエリア選択部６２から供給された選択ズームエリア情報に基づいて、音声データ復号部６５から供給された音声データに対して音声変換処理を施し、その結果得られたズーム音声データをマルチ画面配置の代表音声の音声データとして音声出力装置５４に供給する。なお、音声変換部６６が、音声データ復号部６５から供給された音声データを、そのまま代表音声の音声データ（ズーム音声データ）として音声出力装置５４に供給するようにしてもよい。

〈再生処理の説明〉
　次に、図２３のフローチャートを参照して、図２２に示した再生装置５１による再生処理について説明する。なお、ステップＳ７１の処理は図２１のステップＳ４１の処理と同様であるので、その説明は省略する。

　ステップＳ７２において、ズームエリア選択部６２は、コンテンツデータ復号部６１から供給されたズームエリア情報のなかから1または複数のズームエリア情報を選択し、その選択結果に応じた選択ズームエリア情報を映像切出部６４に供給する。

　なお、ここでのズームエリア情報の選択の処理は、選択されるズームエリア情報の個数が異なるだけで、基本的には図２１のステップＳ４２の処理と同様の処理が行われる。

　また、ズームエリア選択部６２は、コンテンツデータ復号部６１から供給されたズームエリア情報のなかから、代表的な1つのズームエリアのズームエリア情報を選択し、その選択結果に応じた選択ズームエリア情報を音声変換部６６に供給する。ここで、音声変換部６６に供給される選択ズームエリア情報は、映像切出部６４に供給される1または複数の選択ズームエリア情報のなかの1つと同じものとされる。

　ズームエリア情報の選択が行われると、その後、ステップＳ７３およびステップＳ７４の処理が行われて符号化映像データの復号、および映像からのズームエリアのトリミングが行われるが、これらの処理は図２１のステップＳ４３およびステップＳ４４の処理と同様であるので、その説明は省略する。但し、ステップＳ７４では、1または複数の選択ズームエリア情報ごとに、映像データに基づく映像から、選択ズームエリア情報により示されるズームエリアのトリミング（切り出し）が行われ、各ズームエリアのズーム映像データが映像配置部９１に供給される。

　ステップＳ７５において、映像配置部９１は、映像切出部６４から供給された1または複数のズーム映像データに基づいて映像配置処理を行う。すなわち、映像配置部９１は、1または複数のズーム映像データに基づいてマルチ画面映像データを生成し、映像出力装置５３に供給して、コンテンツの各ズームエリアの映像を再生させる。映像出力装置５３は、映像配置部９１から供給されたマルチ画面映像データに基づいてマルチ画面配置された映像を再生（表示）する。例えば複数のズームエリアが選択された場合には、図１８の画像Q14のようなマルチ画面構成でコンテンツが再生される。

　映像配置処理が行われると、その後、ステップＳ７６およびステップＳ７７の処理が行われて再生処理は終了するが、これらの処理は図２１のステップＳ４５およびステップＳ４６の処理と同様であるので、その説明は省略する。

　以上のようにして再生装置５１は、1または複数のズームエリア情報を選択し、その選択結果に応じた選択ズームエリア情報に基づいて、映像データに対するトリミングや音声データに対する音声変換処理を行い、コンテンツを再生する。

　このように1または複数のズームエリア情報を選択することで、より簡単にユーザの嗜好に合ったコンテンツや、再生装置５１の表示画面サイズ等に適したコンテンツなど、適切なコンテンツを再生することができる。特に、複数のズームエリア情報が選択された場合には、ユーザの嗜好等に合ったマルチ画面表示でコンテンツ映像を再生することができる。

　さらに、ユーザが表示装置５２により提示されたズームエリア補助情報に基づいてズームエリアを選択する場合には、ユーザは簡単に所望のズームエリアを選択することができる。

〈第３の実施の形態〉
〈再生装置の構成例〉
　さらに、上述したコンテンツがネットワークを介して配信される場合には、再生側の機器が、選択されたズームエリアの再生に必要なデータのみを効率よく受信できるようにすることも可能である。そのような場合、例えば再生装置は、図２４に示すように構成される。なお、図２４において、図２０における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図２４では、コンテンツを再生する再生装置１２１は、コンテンツやメタデータを記録しているコンテンツデータ配信サーバ１２２から、所望の符号化映像データや符号化音声データの供給を受ける。すなわち、コンテンツデータ配信サーバ１２２は、コンテンツおよびそのコンテンツのメタデータを、符号化された状態または符号化されていない状態で記録しており、再生装置１２１の要求に応じてコンテンツを配信する。

　この例では再生装置１２１は、通信部１３１、メタデータ復号部１３２、映像／音声データ復号部１３３、ズームエリア選択部６２、映像データ復号部６３、映像切出部６４、音声データ復号部６５、および音声変換部６６を有している。

　通信部１３１は、ネットワークを介してコンテンツデータ配信サーバ１２２との間で各種のデータの授受を行う。

　例えば通信部１３１は、符号化メタデータをコンテンツデータ配信サーバ１２２から受信してメタデータ復号部１３２に供給したり、符号化映像データおよび符号化音声データをコンテンツデータ配信サーバ１２２から受信して映像／音声データ復号部１３３に供給したりする。また、通信部１３１は、ズームエリア選択部６２から供給された選択ズームエリア情報をコンテンツデータ配信サーバ１２２に送信する。

　メタデータ復号部１３２は、通信部１３１から供給された符号化メタデータを復号してメタデータを得るとともに、得られたメタデータを必要に応じて再生装置１２１の各部に供給する。

　また、メタデータ復号部１３２は、メタデータにズームエリア情報が含まれている場合には、そのズームエリア情報をズームエリア選択部６２に供給する。さらに、メタデータ復号部１３２は、コンテンツデータ配信サーバ１２２からズームエリア補助情報を受信した場合には、ズームエリア補助情報をズームエリア選択部６２に供給する。

　映像／音声データ復号部１３３は、通信部１３１から符号化映像データおよび符号化音声データが供給されると、符号化映像データを映像データ復号部６３に供給するとともに、符号化音声データを音声データ復号部６５に供給する。

〈再生処理の説明〉
　続いて再生装置１２１の動作について説明する。

　再生装置１２１は、コンテンツデータ配信サーバ１２２に符号化メタデータの送信を要求し、コンテンツデータ配信サーバ１２２から符号化メタデータが送信されてくると、再生処理を行ってコンテンツを再生する。以下、図２５のフローチャートを参照して、再生装置１２１による再生処理について説明する。

　ステップＳ１０１において、通信部１３１は、コンテンツデータ配信サーバ１２２から送信されてきた符号化メタデータを受信してメタデータ復号部１３２に供給する。なお、より詳細には、通信部１３１は、必要に応じて、ズームエリア個数情報やズームエリア補助情報等のメタデータのヘッダ情報もコンテンツデータ配信サーバ１２２から受信して、メタデータ復号部１３２に供給する。

　ステップＳ１０２において、メタデータ復号部１３２は、通信部１３１から供給された符号化メタデータを復号し、復号により得られたメタデータを必要に応じて再生装置１２１の各部に供給する。また、メタデータ復号部１３２は、メタデータとして得られたズームエリア情報をズームエリア選択部６２に供給するとともに、メタデータのヘッダ情報としてズームエリア補助情報がある場合には、ズームエリア補助情報もズームエリア選択部６２に供給する。

　このようにしてメタデータが得られると、続いてステップＳ１０３の処理が行われてズームエリア情報が選択されるが、ステップＳ１０３の処理は図２１のステップＳ４２の処理と同様であるので、その説明は省略する。但し、ステップＳ１０３では、ズームエリア情報の選択により得られた選択ズームエリア情報が、映像切出部６４、音声変換部６６、および通信部１３１に供給される。

　ステップＳ１０４において、通信部１３１は、ズームエリア選択部６２から供給された選択ズームエリア情報を、ネットワークを介してコンテンツデータ配信サーバ１２２に送信する。

　選択ズームエリア情報を受信したコンテンツデータ配信サーバ１２２は、記録しているコンテンツの映像データに対して、選択ズームエリア情報により示されるズームエリアのトリミング（切り出し）を行い、ズーム映像データを生成する。このようにして得られたズーム映像データは、もとのコンテンツの映像全体のなかの選択ズームエリア情報により示されるズームエリアのみを再生する映像データである。

　コンテンツデータ配信サーバ１２２は、ズーム映像データを符号化して得られた符号化映像データと、コンテンツを構成する音声データを符号化して得られた符号化音声データとを、再生装置１２１に送信する。

　なお、コンテンツデータ配信サーバ１２２において、各ズームエリアのズーム映像データが予め用意されているようにしてもよい。また、コンテンツデータ配信サーバ１２２において、コンテンツを構成する音声データについては、選択されたズームエリアによらず、全ての音声データを符号化して符号化音声データを出力するのが一般的であるが、一部の音声データの符号化音声データのみが出力されるようにしてもよい。例えば、コンテンツを構成する音声データが、各オブジェクトの音声データである場合には、選択ズームエリア情報により示されるズームエリア内のオブジェクトの音声データのみが符号化されて再生装置１２１に送信されてもよい。

　ステップＳ１０５において、通信部１３１は、コンテンツデータ配信サーバ１２２から送信されてきた符号化映像データおよび符号化音声データを受信して映像／音声データ復号部１３３に供給する。また、映像／音声データ復号部１３３は、通信部１３１から供給された符号化映像データを映像データ復号部６３に供給するとともに、通信部１３１から供給された符号化音声データを音声データ復号部６５に供給する。

　符号化映像データと符号化音声データが得られると、その後、ステップＳ１０６乃至ステップＳ１０９の処理が行われて再生処理は終了するが、これらの処理は図２１のステップＳ４３乃至ステップＳ４６の処理と同様であるので、その説明は省略する。

　但し、映像データ復号部６３が符号化映像データを復号して得られる信号は、既にトリミングが行われたズーム映像データとなっているので、基本的には映像切出部６４においてトリミング処理は行われない。映像切出部６４は、さらにトリミングが必要な場合にのみ、ズームエリア選択部６２から供給された選択ズームエリア情報に基づいて、映像データ復号部６３から供給されたズーム映像データに対するトリミングを行う。

　このようにズーム映像データとズーム音声データに基づいて、映像出力装置５３および音声出力装置５４でコンテンツが再生されると、例えば図１８に示したように選択されたズームエリアに応じたコンテンツが再生される。

　以上のようにして再生装置１２１は、適切なズームエリア情報を選択し、その選択結果に応じた選択ズームエリア情報をコンテンツデータ配信サーバ１２２に送信して、符号化映像データおよび符号化音声データを受信する。

　このように選択ズームエリア情報に応じて符号化映像データおよび符号化音声データを受信することで、より簡単にユーザの嗜好に合ったコンテンツや、再生装置１２１の表示画面サイズ、再生装置１２１の回転方向等に適したコンテンツなど、適切なコンテンツを再生することができる。しかも、効率よくコンテンツの再生に必要なデータのみを得ることができる。

〈第４の実施の形態〉
〈再生装置の構成例〉
　また、以上においては、符号化コンテンツデータにズームエリア情報が含まれている例について説明した。しかし、例えばコンテンツとは別に、インターネット等のネットワーク上で公開されているズームエリア情報や、所定の記録媒体に記録されているズームエリア情報に従ってコンテンツをトリミング再生するようにしてもよい。そのような場合、例えばコンテンツ制作者だけでなく、コンテンツ制作者とは異なる第三者、すなわち他のユーザが作成したズームエリア情報を取得してトリミング再生を行うことが可能となる。

　このようにコンテンツと、ズームエリア情報を含むメタデータとを別々に取得する場合、再生装置は、例えば図２６に示すように構成される。なお、図２６において図２０における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図２６に示す再生装置１６１は、メタデータ復号部１７１、コンテンツデータ復号部１７２、ズームエリア選択部６２、映像データ復号部６３、映像切出部６４、音声データ復号部６５、および音声変換部６６を有している。

　メタデータ復号部１７１は、例えばネットワーク上の装置や、再生装置１６１に接続された記録媒体などから、ズームエリア情報を含むメタデータの符号化メタデータを取得して復号する。

　また、メタデータ復号部１７１は、符号化メタデータを復号して得られたメタデータを、必要に応じて再生装置１６１の各部に供給するとともに、メタデータに含まれているズームエリア情報をズームエリア選択部６２に供給する。さらに、メタデータ復号部１７１は、必要に応じて符号化メタデータとともに、ズームエリア補助情報等のメタデータのヘッダ情報を取得してズームエリア選択部６２に供給する。

　コンテンツデータ復号部１７２は、例えばネットワーク上の装置や、再生装置１６１に接続された記録媒体などから、コンテンツの符号化映像データと符号化音声データを取得する。また、コンテンツデータ復号部１７２は、取得した符号化映像データを映像データ復号部６３に供給するとともに、取得した符号化音声データを音声データ復号部６５に供給する。なお、この例では、符号化映像データおよび符号化音声データと、符号化メタデータとは互いに異なる装置や記録媒体等から取得される。

〈再生処理の説明〉
　続いて再生装置１６１の動作について説明する。

　再生装置１６１は、コンテンツの再生が指示されると、符号化メタデータと、符号化されたコンテンツとを取得してコンテンツを再生する再生処理を行う。以下、図２７のフローチャートを参照して、再生装置１６１による再生処理について説明する。

　ステップＳ１３１において、メタデータ復号部１７１は、例えばネットワーク上の装置や、再生装置１６１に接続された記録媒体などから、ズームエリア情報を含む符号化メタデータを取得する。なお、符号化メタデータは、再生処理の開始前に予め取得されているようにしてもよい。

　ステップＳ１３２において、メタデータ復号部１７１は、取得した符号化メタデータを復号し、その結果得られたメタデータを必要に応じて再生装置１６１の各部に供給する。また、メタデータ復号部１７１は、メタデータに含まれているズームエリア情報をズームエリア選択部６２に供給するとともに、必要に応じて取得されたズームエリア補助情報等のメタデータのヘッダ情報もズームエリア選択部６２に供給する。

　復号によりメタデータが得られると、ステップＳ１３３の処理が行われてズームエリア情報が選択されるが、ステップＳ１３３の処理は図２１のステップＳ４２の処理と同様であるので、その説明は省略する。

　ステップＳ１３４において、コンテンツデータ復号部１７２は、例えばネットワーク上の装置や再生装置１６１に接続された記録媒体などから、コンテンツの符号化映像データおよび符号化音声データを取得する。また、コンテンツデータ復号部１７２は、取得した符号化映像データを映像データ復号部６３に供給するとともに、取得した符号化音声データを音声データ復号部６５に供給する。

　このようにしてコンテンツの符号化映像データと符号化音声データが取得されると、その後、ステップＳ１３５乃至ステップＳ１３８の処理が行われて再生処理は終了するが、これらの処理は図２１のステップＳ４３乃至ステップＳ４６の処理と同様であるため、その説明は省略する。

　以上のようにして再生装置１６１は、コンテンツの符号化映像データおよび符号化音声データと、ズームエリア情報を含む符号化メタデータとを別々に取得する。そして、再生装置１６１は、適切なズームエリア情報を選択し、その選択結果に応じた選択ズームエリア情報に基づいて、映像データに対するトリミングや音声データに対する音声変換処理を行い、コンテンツを再生する。

　このようにズームエリア情報を含む符号化メタデータを、符号化映像データおよび符号化音声データとは別に取得することで、コンテンツ制作者だけでなく他のユーザ等が設定したズームエリアなど、様々なズームエリアをトリミング再生することができる。

　ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図２８は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア５１１を駆動する。

　以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブルメディア５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、本技術は、以下の構成とすることも可能である。

［１］
　符号化された映像データ、または符号化された音声データを復号する復号部と、
　ズームするエリアを指定する複数のズームエリア情報のなかから、１または複数のズームエリア情報を選択するズームエリア選択部と、
　選択された前記ズームエリア情報に基づいて、復号により得られた前記映像データに対するトリミング処理、または復号により得られた前記音声データに対する音声変換処理を行うデータ処理部と
　を備える再生装置。
［２］
　前記複数の前記ズームエリア情報には、再生対象機器の種別ごとの前記エリアを指定する前記ズームエリア情報が含まれている
　［１］に記載の再生装置。
［３］
　前記複数の前記ズームエリア情報には、再生対象機器の回転方向ごとの前記エリアを指定する前記ズームエリア情報が含まれている
　［１］または［２］に記載の再生装置。
［４］
　前記複数の前記ズームエリア情報には、特定の映像オブジェクトごとの前記エリアを指定する前記ズームエリア情報が含まれている
　［１］乃至［３］の何れか一項に記載の再生装置。
［５］
　前記ズームエリア選択部は、ユーザの操作入力に応じて前記ズームエリア情報を選択する
　［１］乃至［４］の何れか一項に記載の再生装置。
［６］
　前記ズームエリア選択部は、前記再生装置に関する情報に基づいて前記ズームエリア情報を選択する
　［１］乃至［４］の何れか一項に記載の再生装置。
［７］
　前記ズームエリア選択部は、前記再生装置の種別を示す情報、および前記再生装置の回転方向を示す情報の少なくとも何れか一つを前記再生装置に関する情報として、前記ズームエリア情報を選択する
　［６］に記載の再生装置。
［８］
　符号化された映像データ、または符号化された音声データを復号し、
　ズームするエリアを指定する複数のズームエリア情報のなかから、１または複数のズームエリア情報を選択し、
　選択された前記ズームエリア情報に基づいて、復号により得られた前記映像データに対するトリミング処理、または復号により得られた前記音声データに対する音声変換処理を行う
　ステップを含む再生方法。
［９］
　符号化された映像データ、または符号化された音声データを復号し、
　ズームするエリアを指定する複数のズームエリア情報のなかから、１または複数のズームエリア情報を選択し、
　選択された前記ズームエリア情報に基づいて、復号により得られた前記映像データに対するトリミング処理、または復号により得られた前記音声データに対する音声変換処理を行う
　ステップを含む処理をコンピュータに実行させるプログラム。
［１０］
　映像データを符号化するか、または音声データを符号化する符号化部と、
　符号化された前記映像データ、または符号化された前記音声データと、ズームするエリアを指定する複数のズームエリア情報とを多重化してビットストリームを生成する多重化部と
　を備える符号化装置。
［１１］
　映像データを符号化するか、または音声データを符号化し、
　符号化された前記映像データ、または符号化された前記音声データと、ズームするエリアを指定する複数のズームエリア情報とを多重化してビットストリームを生成する
　ステップを含む符号化方法。
［１２］
　映像データを符号化するか、または音声データを符号化し、
　符号化された前記映像データ、または符号化された前記音声データと、ズームするエリアを指定する複数のズームエリア情報とを多重化してビットストリームを生成する
　ステップを含む処理をコンピュータに実行させるプログラム。

　１１　符号化装置，　２１　映像データ符号化部，　２２　音声データ符号化部，　２３　メタデータ符号化部，　２４　多重化部，　２５　出力部，　５１　再生装置，　６１　コンテンツデータ復号部，　６２　ズームエリア選択部，　６３　映像データ復号部，　６４　映像切出部，　６５　音声データ復号部，　６６　音声変換部

Claims

　符号化された映像データ、または符号化された音声データを復号する復号部と、
　ズームするエリアを指定する複数のズームエリア情報のなかから、１または複数のズームエリア情報を選択するズームエリア選択部と、
　選択された前記ズームエリア情報に基づいて、復号により得られた前記映像データに対するトリミング処理、または復号により得られた前記音声データに対する音声変換処理を行うデータ処理部と
　を備える再生装置。
　前記複数の前記ズームエリア情報には、再生対象機器の種別ごとの前記エリアを指定する前記ズームエリア情報が含まれている
　請求項１に記載の再生装置。
　前記複数の前記ズームエリア情報には、再生対象機器の回転方向ごとの前記エリアを指定する前記ズームエリア情報が含まれている
　請求項１に記載の再生装置。
　前記複数の前記ズームエリア情報には、特定の映像オブジェクトごとの前記エリアを指定する前記ズームエリア情報が含まれている
　請求項１に記載の再生装置。
　前記ズームエリア選択部は、ユーザの操作入力に応じて前記ズームエリア情報を選択する
　請求項１に記載の再生装置。
　前記ズームエリア選択部は、前記再生装置に関する情報に基づいて前記ズームエリア情報を選択する
　請求項１に記載の再生装置。
　前記ズームエリア選択部は、前記再生装置の種別を示す情報、および前記再生装置の回転方向を示す情報の少なくとも何れか一つを前記再生装置に関する情報として、前記ズームエリア情報を選択する
　請求項６に記載の再生装置。
　符号化された映像データ、または符号化された音声データを復号し、
　ズームするエリアを指定する複数のズームエリア情報のなかから、１または複数のズームエリア情報を選択し、
　選択された前記ズームエリア情報に基づいて、復号により得られた前記映像データに対するトリミング処理、または復号により得られた前記音声データに対する音声変換処理を行う
　ステップを含む再生方法。
　符号化された映像データ、または符号化された音声データを復号し、
　ズームするエリアを指定する複数のズームエリア情報のなかから、１または複数のズームエリア情報を選択し、
　選択された前記ズームエリア情報に基づいて、復号により得られた前記映像データに対するトリミング処理、または復号により得られた前記音声データに対する音声変換処理を行う
　ステップを含む処理をコンピュータに実行させるプログラム。
　映像データを符号化するか、または音声データを符号化する符号化部と、
　符号化された前記映像データ、または符号化された前記音声データと、ズームするエリアを指定する複数のズームエリア情報とを多重化してビットストリームを生成する多重化部と
　を備える符号化装置。
　映像データを符号化するか、または音声データを符号化し、
　符号化された前記映像データ、または符号化された前記音声データと、ズームするエリアを指定する複数のズームエリア情報とを多重化してビットストリームを生成する
　ステップを含む符号化方法。
　映像データを符号化するか、または音声データを符号化し、
　符号化された前記映像データ、または符号化された前記音声データと、ズームするエリアを指定する複数のズームエリア情報とを多重化してビットストリームを生成する
　ステップを含む処理をコンピュータに実行させるプログラム。