WO2019203207A1 - 受信装置、受信方法、送信装置および送信方法 - Google Patents

受信装置、受信方法、送信装置および送信方法 Download PDF

Info

Publication number
WO2019203207A1
WO2019203207A1 PCT/JP2019/016232 JP2019016232W WO2019203207A1 WO 2019203207 A1 WO2019203207 A1 WO 2019203207A1 JP 2019016232 W JP2019016232 W JP 2019016232W WO 2019203207 A1 WO2019203207 A1 WO 2019203207A1
Authority
WO
WIPO (PCT)
Prior art keywords
depth
information
image data
angle
data
Prior art date
Application number
PCT/JP2019/016232
Other languages
English (en)
French (fr)
Inventor
塚越 郁夫
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to CN201980025347.2A priority Critical patent/CN111971955A/zh
Priority to US16/981,051 priority patent/US20210006769A1/en
Priority to EP19789348.0A priority patent/EP3783887A4/en
Publication of WO2019203207A1 publication Critical patent/WO2019203207A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/156Mixing image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/183On-screen display [OSD] information, e.g. subtitles or menus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/332Displays for viewing with the aid of special glasses or head-mounted displays [HMD]

Definitions

  • FIG. 1 shows a configuration example of a transmission / reception system 10 as an embodiment.
  • the transmission / reception system 10 includes a service transmission system 100 and a service receiver 200.
  • the control unit 101 includes a CPU (Central Processing Unit) and controls the operation of each unit of the service transmission system 100 based on a control program.
  • the user operation unit 101a constitutes a user interface for a user to perform various operations, and includes, for example, a keyboard, a mouse, a touch panel, a remote controller, and the like.
  • the 16-bit field of “rendering_metadata_id” is an ID for identifying a rendering metadata structure.
  • a 16-bit field of “rendering_metadata_length” indicates a rendering metadata structure byte size.
  • Each 16-bit field of “reference_point_horizontal” and “reference_point_vertical” indicates position information of the reference point RP (x, y) of the projection image (see FIG. 7B).
  • the field “reference_point_horizontal” indicates the horizontal pixel position “x” of the reference point RP (x, y).
  • the field “reference_point_vertical” indicates the vertical pixel position “y” of the reference point RP (x, y).
  • FIG. 9 illustrates a concept of depth control of, for example, graphics using a parallax value.
  • the parallax value is a negative value
  • the parallax is given so that the left-eye display graphics are shifted to the right side and the right-eye display graphics are shifted to the left side on the screen.
  • the graphics display position is in front of the screen.
  • the parallax value is a positive value
  • parallax is given so that the left-eye display graphics are shifted to the left and the right-eye display graphics are shifted to the right on the screen.
  • the graphics display position is behind the screen.
  • ( ⁇ 0 ⁇ 2) indicates the parallax angle in the same direction
  • ( ⁇ 0 ⁇ 1) indicates the parallax angle in the intersecting direction
  • D indicates the distance between the screen and the installation surface of the camera (human eye) (viewing distance)
  • E indicates the installation interval (eye_baseline) of the camera (human eye)
  • K is the distance to the target.
  • S indicates a parallax value.
  • Equation (1) constitutes a conversion equation for converting the parallax value S to the depth value K.
  • Equation (2) constitutes a conversion formula for converting the depth value K into the parallax value S.
  • the representative depth value of each angle area is the minimum value of the depth values of the blocks in the angle area among the depth values for each block generated by the depth generation unit 105.
  • FIG. 11 shows one angle area ARi set on the projection image.
  • the outer rectangular frame shows the entire projection image, and there is a depth value dv (jk) corresponding to this projection image in units of blocks, and these are combined to form a depth map. .
  • the representative depth value DPi in the angle area ARi is the minimum value among the plurality of depth values dv (jk) included in the angle area ARi, and is represented by the following formula (3).
  • the subtitle (subtitle) generator 107 generates subtitle data to be superimposed on the image.
  • the caption encoder 108 encodes the caption data generated by the caption generation unit 107 to generate a caption stream.
  • the caption encoder 108 refers to the depth value for each block generated by the depth generation unit 105, and controls the depth of the caption when the default view is displayed around the reference point RP (x, y) of the projection image.
  • a usable depth value or a parallax value obtained by converting the depth value is added to the caption data.
  • the container encoder 109 includes a video stream generated by the video encoder 104, a subtitle stream generated by the subtitle encoder 108, and a timed meta having depth meta information for each picture generated by the depth meta information generation unit 106.
  • a container including a data stream here an MP4 stream, is generated as a distribution stream STM.
  • the container encoder 109 inserts rendering metadata (see FIG. 6) into the MP4 stream including the video stream.
  • rendering metadata is inserted into both the video stream layer and the container layer, but it is also conceivable to insert the rendering metadata into only one of them.
  • FIG. 14A shows a structural example (syntax) of a component descriptor
  • FIG. 14B shows contents (semantics) of main information in the structural example.
  • the 4-bit field of “stream_content” indicates the encoding method of the video / audio subtitle.
  • “0x9” is set, which indicates HEVC encoding.
  • the transmitting unit 110 transmits the MP4 distribution stream STM obtained by the container encoder 109 on a broadcast wave or a packet on the network and transmits it to the service receiver 200.
  • each random access period starts from an initialization segment (IS: initialization segment), and further includes “styp”, “sidx (Segment index box)”, and “ssix (Sub-segment index ⁇ ⁇ ⁇ box). ) ”,“ Moof (Movie fragment box) ”, and“ mdat (Media data box) ”boxes.
  • the initialization segment (IS) has a box structure based on ISOBMFF (ISO Base Media Media Format). Rendering metadata and component descriptors are inserted into this initialization segment (IS).
  • ISOBMFF ISO Base Media Media Format
  • Control information is entered in the“ moof ”box.
  • NAL units of “VPS”, “SPS”, “PPS”, “PSEI”, “SSEI”, and “SLICE” are arranged.
  • the encoded image data of each picture in the random access period is included in the “SLICE” NAL unit.
  • each random access period starts from an initialization segment (IS), and “styp”, “sidx”, “six”, “moof”, “mdat” It is the structure that followed.
  • the “mdat” box includes depth meta information of each picture in the random access period.
  • cutout position information is inserted into the SPS NAL unit of the video stream (see FIG. 4). Further, an SEI message (see FIG. 6) having rendering metadata (rendering meta information) is inserted into the “SEIs” portion of the access unit (AU).
  • the caption (subtitle) generation unit 107 generates caption data to be superimposed on the image.
  • This caption data is supplied to the caption encoder 108.
  • the caption encoder 108 encodes the caption data and generates a caption stream.
  • a depth value that can be used for subtitle depth control at the time of default view display centered on the reference point RP (x, y) of the projection image is added to the subtitle data.
  • the MP4 stream obtained by the container encoder 109 is supplied to the transmission unit 110.
  • the MP4 distribution stream STM obtained by the container encoder 109 is transmitted to the service receiver 200 on a broadcast wave or a network packet.
  • FIG. 21 shows a configuration example of the service receiver 200.
  • the service receiver 200 includes a control unit 201, a UI unit 201a, a sensor unit 201b, a reception unit 202, a container decoder 203, a video decoder 204, a caption decoder 205, a graphics generation unit 206, and a renderer 207. And a scaling unit 208 and a display unit 209.
  • the receiving unit 202 receives the MP4 distribution stream STM transmitted from the service transmission system 100 on broadcast waves or net packets.
  • MP4 streams each including a video stream, a caption stream, and a timed metadata stream are obtained as the distribution stream STM.
  • the depth meta information of each picture is inserted into a video stream and sent, there is no MP4 stream including a timed metadata stream.
  • the container decoder 203 extracts a video stream from the MP4 stream including the video stream received by the receiving unit 202, and sends the video stream to the video decoder 204.
  • the container decoder 203 extracts “moov” block information and the like from the MP4 stream including the video stream, and sends the information to the control unit 201.
  • Rendering metadata exists as one piece of information of the “moov” block. Further, as one of the information of the “moov” block, there is a component descriptor (see FIG. 14).
  • the subtitle decoder 205 decodes the subtitle stream extracted by the container decoder 203 to obtain subtitle data, obtains subtitle display data and subtitle superposition position data from the subtitle data, and sends the subtitle display data to the renderer 207.
  • the caption decoder 205 acquires a depth value that can be used for depth control of the caption at the time of default view display added to the caption data, and sends the depth value to the control unit 201.
  • the graphics generation unit 206 generates graphics display data and graphics superimposition position data related to graphics such as OSD (On Screen Display) or application, or EPG (Electronic Program Guide), and sends them to the renderer 207.
  • OSD On Screen Display
  • EPG Electronic Program Guide
  • the scaling unit 208 scales the image data of the left eye and the right eye so as to fit the display size of the display unit 209.
  • the display unit 209 displays a stereoscopic image (stereoscopic image) based on the scaled left eye and right eye image data.
  • the display unit 209 includes, for example, a display panel or an HMD (Head-Mounted Display).
  • the image data generation unit 211R is supplied with the image data VPR of the right-eye projection image from the video decoder 204. Further, display area information is supplied from the control unit 201 to the right eye image data generation unit 211R. The right eye image data generation unit 211R performs rendering processing on the right eye projection image to obtain right eye image data VR corresponding to the display area.
  • Display area information and depth meta information are supplied from the control unit 201 to the depth processing unit 213.
  • the depth processing unit 213 is supplied with caption superimposition position data and graphics superimposition position data.
  • the depth processing unit 213 obtains a subtitle depth value, that is, a depth value for giving parallax to the subtitle display data, based on the subtitle superimposition position data, the display area information, and the depth meta information.
  • the depth processing unit 213 sets the depth value for giving parallax to the caption display data as the minimum value of the representative depth values of a predetermined number of angle areas corresponding to the caption overlay range indicated by the caption overlay position data. Value.
  • FIG. 23 shows an example of a display area for a projection image. Note that there are two left and right eye projection images, but only one is shown here for simplicity of the drawing.
  • this projection image in addition to the reference point RP, six viewpoints VpA to VpF serving as a reference for the angle area are set. The position of each viewpoint is set by an offset from the origin at the upper left of the projection image. Alternatively, the position of each viewpoint is set with an offset from the reference point RP that is set with an offset from the origin at the upper left of the projection image.
  • the display area A and the display area B are at positions including the viewpoint VpD.
  • the display area A and the display area B have different sizes, the display area A is wide, and the display area B is narrow. Variations in the size of the display area appear depending on how much display capability the receiver has.
  • the subtitle is superimposed so as to be displayed in front of the object OB1.
  • the display area B the foreground object OB1 is not included, and therefore, the display area B is superimposed so as to be displayed behind the foreground object OB1, that is, before the object OB2 located far away.
  • Each angle region has a depth representative value, and a solid broken line D indicates the degree of depth according to the representative depth value.
  • the values taken by the actual broken line D are as follows. That is, L0 to L1 are depth representative values of the angle area AR1. L1 and L2 are depth values indicating “far” because the angle area is not defined. L2 to L3 are depth representative values of the angle area AR2. L3 to L4 are depth values indicating “far” because the angle areas are not defined. L4 to L5 are depth representative values of the angle area AR3. L5 to L6 are depth representative values of the angle area AR4. L6 to L7 are depth representative values of the angle area AR5.
  • the depth value (caption depth value) for giving parallax to the caption display data is the representative depth of the angle area AG_2. Deserved. Further, as shown in FIG. 26B, when the display area overlaps both the angle areas AG_2 and AG_3, the caption depth value is set to the minimum value of the representative depth values of the angle areas AG_2 and AG_3.
  • the representative depth values of the angle areas AG_2 and AG_3 are weighted and added in accordance with the ratio of the display area overlapping the respective angle areas. In that case, the subtitle depth value can smoothly transition between the state in which the display area is included in the angle area AG_2 and the state in which the display area is included in the angle area AG_3.
  • the depth value (caption depth value) for giving parallax to the caption display data is the angle area AG_3.
  • the representative depth value is the angle area AG_3.
  • the depth processing unit 213 obtains a depth value distribution in the display area in step ST3 (see the solid line D in FIG. 25).
  • the portion where the angle region exists is the representative depth value
  • the portion where the angle region does not exist is the depth value indicating “far”.
  • the minimum depth value within the subtitle overlapping range is set as the subtitle depth value.
  • the depth process part 213 complete finishes a process in step ST5.
  • step ST4 the depth processing unit 213 does not set the minimum depth value in the caption superimposition range as the caption depth value, but if the display area overlaps a plurality of depth value areas, the depth processing unit 213 depends on the overlapping ratio.
  • the depth / disparity conversion unit 214 converts the caption depth value and the graphics depth value obtained by the depth processing unit 213 into a disparity value, respectively, and obtains a caption disparity value and a graphics disparity value. In this case, conversion is performed according to the above-described equation (2).
  • the superimposing unit 212 superimposes the subtitle display data on the superimposition position indicated by the subtitle superimposition position data of the left eye image data and the right eye image data. In addition, the superimposing unit 212 superimposes the graphics display data on the superimposition position indicated by the graphics superimposition position data of the left eye image data and the right eye image data. Note that when the superimposed position of the caption and graphics partially overlaps, the superimposing unit 212 overwrites the graphics display data on the caption display data for that portion.
  • FIG. 29 shows an example of depth control in the case where the superimposed position of subtitles and graphics partially overlaps.
  • the caption is displayed in front of the image objects in the four angle areas AR8, AR9, AR10, and AR11 corresponding to the caption display position.
  • the graphics are displayed in front of the eight right angle areas AR2, AR3, AR6, AR7, AR10, AR11, AR14, and AR15 and in front of the subtitles.
  • the container decoder 203 extracts a video stream from the MP4 stream including the video stream and sends it to the video decoder 204. Also, the container decoder 203 extracts “moov” block information and the like from the MP4 stream including the video stream, and sends the information to the control unit 201.
  • the container decoder 203 extracts a subtitle stream from the MP4 stream including the subtitle stream and sends it to the subtitle decoder 205.
  • the subtitle decoder 205 decodes the subtitle stream to obtain subtitle data, subtitle display data and subtitle superposition position data are obtained from the subtitle data, and are sent to the renderer 207.
  • the container decoder 203 When the container decoder 203 receives the MP4 stream including the timed metadata stream at the receiving unit 202, the container decoder 203 extracts the timed metadata stream from the MP4 stream and includes the depth metadata included in the timed metadata stream. Information is sent to the control unit 201.
  • the left-eye and right-eye image data for stereoscopic image display obtained by the renderer 207 is supplied to the scaling unit 208.
  • the scaling unit 208 performs scaling so as to fit the display size of the display unit 209.
  • the display unit 209 displays a stereoscopic image (stereoscopic image) whose display area is interactively changed based on the scaled left-eye and right-eye image data.
  • the service transmission system 100 uses a video stream obtained by encoding image data of a wide viewing angle image for each picture of the left eye and right eye, and a wide viewing angle for each picture. Depth meta information including the position information of a predetermined number of angle regions in the image and the representative depth value is transmitted. Therefore, the depth information in the wide viewing angle image can be transmitted efficiently.
  • this technique can also take the following structures.
  • a video stream obtained by encoding image data of a wide viewing angle image for each picture of the left eye and right eye, and position information of a predetermined number of angle regions in the wide viewing angle image for each picture
  • a receiving unit for receiving depth meta information including a representative depth value The left eye and right eye display area image data is extracted from the image data of the wide viewing angle image for each picture of the left eye and right eye obtained by decoding the video stream, and the left eye and right eye display areas
  • a processing unit that superimposes and outputs the superimposition information data on the image data; When the superimposition information data is superimposed on the left eye and right eye display area image data, the processing unit superimposes the left eye and right eye display area image data based on the depth meta information, respectively.
  • a receiving device that adds parallax to superimposition information data (2) The reception device according to (1), wherein the reception unit receives the depth meta information for each picture by a timed metadata stream associated with the video stream. (3) The reception device according to (1), wherein the reception unit receives the depth meta information for each picture in a state of being inserted into the video stream. (4) When the superimposition information data is superimposed on the left-eye and right-eye display area image data, the processing unit includes a representative depth of a predetermined number of angle areas corresponding to the superimposition range included in the depth meta information. The receiving device according to any one of (1) to (3), wherein the parallax is given based on a minimum value among the values.
  • a video stream obtained by encoding image data of a wide viewing angle image for each picture of the left eye and right eye, and positional information of a predetermined number of angle regions in the wide viewing angle image for each picture A procedure for receiving depth meta information including a representative depth value;
  • the left eye and right eye display area image data is extracted from the image data of the wide viewing angle image for each picture of the left eye and right eye obtained by decoding the video stream, and the left eye and right eye display areas It has a procedure to superimpose and output superimposition information data on image data, When the superimposition information data is superimposed on the left eye and right eye display area image data, the superimposition information data superimposed on the left eye and right eye display area image data, respectively, based on the depth meta information.
  • the depth meta information further includes position information indicating which position in the region the representative depth value of the predetermined number of angle regions relates to,
  • position information indicating which position in the region the representative depth value of the predetermined number of angle regions relates to.
  • the depth meta information includes position information of a predetermined number of angle regions in the wide viewing angle image and a representative depth value.
  • the main feature of the present technology is that when superimposing information (caption or graphics) display data is superimposed on left eye and right eye display area image data, position information of a predetermined number of angle areas in the wide viewing angle image and By applying parallax based on the depth meta information including the representative depth value, it is possible to easily realize depth control when superimposing information is superimposed and displayed using depth information transmitted efficiently ( (See FIGS. 21, 22, and 25).
  • DESCRIPTION OF SYMBOLS 10 ... Transmission / reception system 100 ... Service transmission system 101 ... Control part 101a ... User operation part 102L ... Left camera 102R ... Right camera 103L, 103R ... Plane packing part 104 ... Video encoder 105 ... Depth generation unit 106 ... Depth meta information generation unit 107 ... Subtitle generation unit 108 ... Subtitle encoder 109 ... Container decoder 110 ... Transmission unit 111 ... Depth sensor 200 ..Service receiver 201... Control unit 201a... UI unit 201b .. Sensor unit 202... Reception unit 203 .. Container decoder 204... Video decoder 205. ⁇ Graphics generator 207 ... Renderer 208 ... Scaling unit 09 ... display unit 211L ... left-eye image data generating unit 211R ... right-eye image data generation unit 212 ... superimposing unit 213 ... depth processing unit 214 ... depth / parallax converter

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

効率的に伝送されてくる奥行き情報を用いて重畳情報を重畳表示する際の奥行き制御を簡易に実現する。 左眼および右眼のピクチャ毎の広視野角画像の画像データを符号化して得られたビデオストリームと、ピクチャ毎の広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含むデプスメタ情報を受信する。ビデオストリームを復号化して得られた左眼および右眼のピクチャ毎の広視野角画像の画像データから左眼および右眼の表示領域画像データを取り出し、この左眼および右眼の表示領域画像データに重畳情報のデータを重畳して出力する。左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、デプスメタ情報に基づいて、視差を付与する。

Description

受信装置、受信方法、送信装置および送信方法
 本技術は、受信装置、受信方法、送信装置および送信方法に関し、詳しくは、ステレオスコピック画像をVR表示する受信装置等に関する。
 ステレオスコピック画像をVR(Virtual Reality)表示する場合、インタラクティブに表示されるオブジェクトよりも近い位置に字幕やグラフィックスを重畳することが、立体視覚的に重要になる。例えば、特許文献1には、左眼および右眼の画像の画像データと共に画像の画素毎のあるいは均等分割したブロック毎の奥行き情報を送信し、受信側で字幕やグラフィックスを重畳表示する際の奥行き制御に用いる技術が示されている。しかし、広視野角画像の場合には、奥行き情報の送信のために多くの伝送帯域を確保する必要がある。
国際公開第2013/105401号
 本技術の目的は、効率的に伝送されてくる奥行き情報を用いて重畳情報を重畳表示する際の奥行き制御を簡易に実現することにある。
 本技術の概念は、
 左眼および右眼のピクチャ毎の広視野角画像の画像データを符号化して得られたビデオストリームと、上記ピクチャ毎の上記広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含むデプスメタ情報を受信する受信部と、
 上記ビデオストリームを復号化して得られた上記左眼および右眼のピクチャ毎の広視野角画像の画像データから左眼および右眼の表示領域画像データを取り出し、該左眼および右眼の表示領域画像データに重畳情報のデータを重畳して出力する処理部を備え、
 上記処理部は、上記左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、上記デプスメタ情報に基づいて、上記左眼および右眼の表示領域画像データにそれぞれ重畳する上記重畳情報のデータに視差を付与する
 受信装置にある。
 本技術において、受信部により、左眼および右眼のピクチャ毎の広視野角画像の画像データを符号化して得られたビデオストリームと、ピクチャ毎の広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含むデプスメタ情報が受信される。例えば、受信部は、ピクチャ毎のデプスメタ情報を、ビデオストリームに関連づけられたタイムドメタデータストリームにより受信する、ようにされてもよい。また、例えば、受信部は、ピクチャ毎のデプスメタ情報を、ビデオストリームに挿入された状態で受信する、ようにされてもよい。また、例えば、アングル領域の位置情報は、所定のビューポイントの位置を基準としたオフセット情報で与えられる、ようにされてもよい。
 処理部により、ビデオストリームを復号化して得られた左眼および右眼のピクチャ毎の広視野角画像の画像データから左眼および右眼の表示領域画像データが取り出され、この左眼および右眼の表示領域画像データに重畳情報のデータが重畳されて出力される。ここで、左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、デプスメタ情報に基づいて、左眼および右眼の表示領域画像データにそれぞれ重畳する重畳情報の表示データに視差が付与される。例えば、重畳情報は、字幕および/またはグラフィクスである、ようにされてもよい。
 例えば、処理部は、左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、デプスメタ情報に含まれる、重畳範囲に対応した所定数の領域の代表デプス値のうちの最小値に基づいて、視差を付与する、ようにされてもよい。また、例えば、デプスメタ情報は、所定数のアングル領域の代表デプス値が領域内のどの位置に係るものであるかを示す位置情報をさらに含み、処理部は、左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、デプスメタ情報に含まれる、重畳範囲に対応した所定数の領域の代表デプス値と位置情報に基づいて、視差を付与する、ようにされてもよい。また、デプスメタ情報は、スクリーンの深さに相当するデプス値を、デプス値の基準としてさらに含む、ようにされてもよい。
 また、例えば、重畳情報のデータが重畳された左眼および右眼の表示領域画像データに基づいて立体画像を表示する表示部をさらに備える、ようにされてもよい。この場合、例えば、表示部は、ヘッドマウントディスプレイである、ようにされてもよい。
 このように本技術においては、左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含むデプスメタ情報に基づいて、左眼および右眼の表示領域画像データにそれぞれ重畳する重畳情報のデータに視差を付与するものである。そのため、効率的に伝送されてくる奥行き情報を用いて字幕やグラフィックスを重畳表示する際の奥行き制御を簡易に実現し得る。
 また、本技術の他の概念は、
 左眼および右眼のピクチャ毎の広視野角画像の画像データを符号化して得られたビデオストリームと、上記ピクチャ毎のデプスメタ情報を送信する送信部を備え、
 上記デプスメタ情報は、上記広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含む
 送信装置にある。
 本技術において、送信部により、左眼および右眼のピクチャ毎の広視野角画像の画像データを符号化して得られたビデオストリームと、ピクチャ毎のデプスメタ情報が送信される。ここで、デプスメタ情報には、広視野角画像内の所定数のアングル領域の位置情報と代表デプス値が含まれる。
 このように本技術においては、左眼および右眼のピクチャ毎の広視野角画像の画像データを符号化して得られたビデオストリームと、ピクチャ毎の広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含むデプスメタ情報を送信するものである。そのため、広視野角画像内の奥行き情報を効率的に伝送し得る。
 本技術によれば、効率的に伝送されてくる奥行き情報を用いて重畳情報を重畳表示する際の奥行き制御を簡易に実現できる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
実施の形態としての送受信システムの構成例を示すブロック図である。 サービス送信システムの構成例を示すブロック図である。 球面キャプチャ画像からプロジェクション画像を得る平面パッキングを説明するための図である。 HEVCの符号化におけるSPS NALユニットの構造例を示す図である。 切出し位置の中心O(p,q)をプロジェクション画像のリファレンスポイントRP(x,y)と一致させることを説明するための図である。 レンダリングメタデータの構造例を示す図である。 図6の構造例における各情報を説明するための図である。 図6の構造例における各情報を説明するための図である。 視差値によるグラフィクスの奥行き制御の概念を示す図である。 ある一つのビューポイントの影響下にあるアングル領域の設定例を概略的に示す図である。 アングル領域の代表デプス値を説明するための図である。 左眼および右眼のプロジェクション画像にそれぞれ対応した球面画像の一部を示す図である。 アングル領域の定義を示す図である。 コンポーネントデスクリプタの構造例と、その構造例における主要な情報の内容を示す図である。 配信ストリームとしてのMP4ストリームを概略的に示す図である。 デプスメタ情報を含む1ピクチャ分のタイムドメタデータの構造例を示す図である。 図16の構成例における主要な情報の内容を示す図である。 MPDファイルの記述例を示す図である。 PSVP・SEIメッセージの構造例を示す図である。 デプスメタ情報をビデオストリームに挿入して送信する場合におけるMP4ストリームを概略的に示す図である。 サービス受信機の構成例を示すブロック図である。 レンダラの構成例を示すブロック図である。 プロジェクション画像に対する表示領域の一例を示す図である。 表示領域の大きさにより字幕表示データに視差を与えるためのデプス値が異なることを説明するための図である。 表示領域の各移動位置において字幕表示データに視差を与えるためのデプス値の設定方法の一例を示す図である。 プロジェクション画像に設定された複数のアングル領域の間で表示領域が遷移する場合において、各移動位置における字幕表示データに視差を与えるためのデプス値の設定方法の一例を示す図である。 表示部としてHMDを用いる場合のデプス値の設定の一例を示す図である。 デプス処理部における字幕デプス値を得るための手順の一例を示すフローチャートである。 字幕とグラフィクスの重畳位置が一部重なる場合におけるデプス制御例を示す図である。
 以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明は以下の順序で行う。
 1.実施の形態
 2.変形例
 <1.実施の形態>
 [送受信システムの構成例]
 図1は、実施の形態としての送受信システム10の構成例を示している。この送受信システム10は、サービス送信システム100とサービス受信機200により構成されている。
 サービス送信システム100は、DASH/MP4、つまりメタファイルとしてのMPDファイルと、ビデオやオーディオなどのメディアストリームが含まれるMP4(ISOBMFF)を、通信ネットワーク伝送路、またはRF伝送路を通じて、送信する。この実施の形態においては、メディアストリームとして、左眼および右眼のピクチャ毎の広視野角画像の画像データを符号して得られたビデオストリームが含まれる。
 また、サービス送信システム100は、ビデオストリームと共に、ピクチャ毎のデプスメタ情報を送信する。このデプスメタ情報には、広視野角画像内の所定数のアングル領域の位置情報と代表デプス値が含まれるが、この実施の形態においては、さらに、その代表デプス値が領域内のどの位置に係るものであるかを示す位置情報も含まれる。例えば、ピクチャ毎のデプスメタ情報は、ビデオストリームに関連づけられたタイムドメタデータストリームにより送信されるか、あるいはビデオストリームに挿入されて送信される。
 サービス受信機200は、サービス送信システム100から通信ネットワーク伝送路またはRF伝送路を通じて送られてくる上述のMP4(ISOBMFF)を受信する。サービス受信機200は、MPDファイルから、ビデオストリームに関するメタ情報、さらにはタイムドメタデータストリームが存在する場合にはそれに関するメタ情報を取得する。
 また、サービス受信機200は、ビデオストリームを復号化して得られた左眼および右眼のピクチャ毎の広視野角画像の画像データから左眼および右眼の表示領域画像データを取り出し、この左眼および右眼の表示領域画像データに、字幕やグラフィクス等の重畳情報のデータを重畳して出力する。この場合、表示領域は、ユーザの動作あるいは操作に基づき、インタラクティブに変化する。左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、デプスメタ情報に基づいて、左眼および右眼の表示領域画像データにそれぞれ重畳する重畳情報のデータに視差が付与される。
 例えば、デプスメタ情報に含まれる、重畳範囲に対応した所定数の領域の代表デプス値のうちの最小値に基づいて、視差が付与される。また、例えば、デプスメタ情報に代表デプス値が領域内のどの位置に係るものであるかを示す位置情報をさらに含む場合には、デプスメタ情報に含まれる、重畳範囲に対応した所定数の領域の代表デプス値とその位置情報に基づいて、視差が付与される。
 「サービス送信システムの構成例」
 図2は、サービス送信システム100の構成例を示している。このサービス送信システム100は、制御部101と、ユーザ操作部101aと、左側カメラ102Lと、右側カメラ102Rと、平面パッキング部103L,103Rと、ビデオエンコーダ104と、デプス生成部105と、デプスメタ情報生成部106と、字幕発生部107と、字幕エンコーダ108と、コンテナエンコーダ109と、送信部110を有している。
 制御部101は、CPU(Central Processing Unit)を備えて構成され、制御プログラムに基づいて、サービス送信システム100の各部の動作を制御する。ユーザ操作部101aは、ユーザが種々の操作を行うためのユーザインタフェースを構成し、例えばキーボード、マウス、タッチパネル、リモコンなどで構成される。
 左側カメラ102Lおよび右側カメラ102Rは、ステレオカメラを構成している。左側カメラ102Lは、被写体を撮像して、球面キャプチャ画像(360°VR画像)を得る。同様に、右側カメラ102Rは、被写体を撮像して、球面キャプチャ画像(360°VR画像)を得る。例えば、カメラ102L,102Rは、バック・ツー・バック(Back to Back)方式で撮像を行って、球面キャプチャ画像として、それぞれ魚眼レンズを用いて撮像された180°以上の視野角を持つ、超広視野角の前面画像および後面画像を得る(図3(a)参照)。
 平面パッキング部103L,103Rは、それぞれ、カメラ102L,102Rで得られた球面キャプチャ画像の一部または全部を切り取って平面パッキングして長方形のプロジェクション画像(projection picture)を得る(図3(b)参照)。この場合、プロジェクション画像のフォーマットタイプとしては、例えば、エクイレクタングラー(Equirectangular)、クロスキュービック(Cross-cubic)などが選択される。なお、平面パッキング部103L,103Rは、プロジェクション画像に必要に応じて切り出しを行い、またスケーリングを施し、所定の解像度のプロジェクション画像を得る(図3(c)参照)。
 ビデオエンコーダ104は、平面パッキング部103Lからの左眼のプロジェクション画像の画像データおよび平面パッキング部103Rからの右眼のプロジェクション画像の画像データに対して、例えばHEVCなどの符号化を施して符号化画像データを得、この符号化画像データを含むビデオストリームを生成する。例えば、左眼および右眼のプロジェクション画像の画像データがサイドバイサイド方式あるいはトップアンドボトム方式で合成され、その合成画像データに対して符号化が行われて、1つのビデオストリームが生成される。また、例えば、左眼および右眼のプロジェクション画像の画像データのそれぞれに対して符号化が行われて、2つのビデオストリームが生成される。
 ビデオストリームのSPS NALユニットには、切出し位置情報が挿入されている。例えば、HEVCの符号化では「default_display_window」が対応する。
 図4は、HEVCの符号化におけるSPS NALユニットの構造例(Syntax)を示している。「pic_width_in_luma_samples」のフィールドは、プロジェクション画像の水平方向の解像度(画素サイズ)を示している。「pic_height_in_luma_samples」のフィールドは、プロジェクション画像の垂直方向の解像度(画素サイズ)を示している。そして、「default_display_window_flag」が立っているとき、切出し位置情報「default_display_window」が存在する。この切出し位置情報は、デコード画像の左上を基点(0,0)としたオフセット情報とされる。
 「def_disp_win_left_offset」のフィールドは、切出し位置の左端位置を示している。「def_disp_win_right_offset」のフィールドは、切出し位置の右端位置を示している。「def_disp_win_top_offset」のフィールドは、切出し位置の上端位置を示している。「def_disp_win_bottom_offset」のフィールドは、切出し位置の下端位置を示している。
 この実施の形態において、この切出し位置情報で示される切出し位置の中心をプロジェクション画像のリファレンスポイント(基準点)と一致するように設定することができる。ここで、切出し位置の中心をO(p,q)とすると、p,qは、それぞれ、以下の数式で表される。
 p = ( def_disp_win_right_offset - def_disp_win_left_offset ) * 1/2
                         + def_disp_win_left_offset
 q = ( def_disp_win_bottom_offset - def_disp_win_top_offset ) * 1/2
                         + def_disp_win_top_offset
 図5は、切出し位置の中心O(p,q)がプロジェクション画像のリファレンスポイントRP(x,y)と一致することを示している。図示の例において、「projection_pic_size_horizontal」はプロジェクション画像の水平画素サイズを示し、「projection_pic_size_vertical」はプロジェクション画像の垂直画素サイズを示している。なお、VR表示対応受信機ではプロジェクション画像をレンダリングして表示ビュー(表示画像)を得ることが可能とされるが、デフォルトビューはリファレンスポイントRP(x,y)を中心としたものとされる。なお、リファレンスポイントは実際の東西南北の特定の方角と一致させることで物理空間との整合を取ることが可能である。
 また、ビデオエンコーダ104は、アクセスユニット(AU)の“SEIs”の部分に、レンダリングメタデータ(レンダリング用メタ情報)を持つSEIメッセージ(SEI message)を挿入する。図6は、レンダリングメタデータ(Rendering_metadata)の構造例(Syntax)を示している。また、図8は、各構造例における主要な情報の内容(Semantics)を示している。
 「rendering_metadata_id」の16ビットフィールドは、レンダリングメタデータ構造体を識別するIDである。「rendering_metadata_length」の16ビットフィールドは、レンダリングメタデータ構造体バイトサイズを示す。
 「start_offset_sphere_latitude」、「start_offset_sphere_longitude」、「end_offset_sphere_latitude」、「end_offset_sphere_longitude」の各16ビットフィールドは、球面キャプチャ画像を平面パッキングする場合の切り取り範囲の情報を示す(図7(a)参照)。「start_offset_sphere_latitude」のフィールドは、球面からの切り取り開始オフセットの緯度(垂直方向)を示す。「start_offset_sphere_longitude」のフィールドは、球面からの切り取り開始オフセットの経度(水平方向)を示す。「end_offset_sphere_latitude」のフィールドは、球面からの切り取り終了オフセットの緯度(垂直方向)を示す。「end_offset_sphere_longitude」のフィールドは、球面からの切り取り終了オフセットの経度(水平方向)を示す。
 「projection_pic_size_horizontal」、「projection_pic_size_vertical」の各16ビットフィールドは、プロジェクション画像(projection picture)のサイズ情報を示す(図7(b)参照)。「projection_pic_size_horizontal」のフィールドは、プロジェクション画像のサイズでトップ・レフト(top-left)からの水平画素カウントを示す。「projection_pic_size_vertical」のフィールドは、プロジェクション画像のサイズでトップ・レフト(top-left)からの垂直画素カウントを示す。
 「scaling_ratio_horizontal」、「scaling_ratio_vertical」の各16ビットフィールドは、プロジェクション画像の元のサイズからのスケーリング比を示す(図3(b),(c)参照)。「scaling_ratio_horizontal」のフィールドは、プロジェクション画像の元のサイズからの水平スケーリング比を示す。「scaling_ratio_vertical」のフィールドは、プロジェクション画像の元のサイズからの垂直スケーリング比を示す。
 「reference_point_horizontal」、「reference_point_vertical」の各16ビットフィールドは、プロジェクション画像のリファレンスポイントRP(x,y)の位置情報を示す(図7(b)参照)。「reference_point_horizontal」のフィールドは、リファレンスポイントRP(x,y)の水平画素位置“x”を示す。「reference_point_vertical」のフィールドは、リファレンスポイントRP(x,y)の垂直画素位置“y”を示す。
 「format_type」の5ビットフィールドは、プロジェクション画像のフォーマットタイプを示す。例えば、“0”はエクイレクタングラー(Equirectangular)を示し、“1”はクロスキュービック(Cross-cubic)を示し、“2”はパーティションド・クロスキュービック(partitioned cross cubic)を示す。
 「backwardcompatible」の1ビットフィールドは、後方互換性の設定がなされているかどうか、つまりビデオストリームのレイヤに挿入される切出し位置情報で示される切出し位置の中心O(p,q)がプロジェクション画像のリファレンスポイントRP(x,y)と一致するように設定されているか否かを示す。例えば、“0”は後方互換性の設定がなされていないことを示し、“1”は後方互換性の設定がなされていることを示す。
 デプス生成部105は、平面パッキング部103L,103Rからの左眼および右眼のプロジェクション画像を用いて、ブロック毎の奥行き情報であるデプス(Depth)値を求める。この場合、デプス生成部105は、4×4、8×8等の画素ブロック毎に、SAD(Sum of Absolute Difference)を求めて視差(Disparity)値を得、さらにこの視差値を奥行き情報であるデプス値に変換する。
 ここで、視差値からデプス値への変換について説明する。図9は、視差値による例えばグラフィクスの奥行き制御の概念を示している。視差値がマイナス値である場合、スクリーン上において左眼表示用のグラフィクスが右側に、右眼表示用のグラフィクスが左側にずれるように視差が付与される。この場合、グラフィクスの表示位置はスクリーンよりも手前となる。また、視差値がプラス値である場合、スクリーン上において左眼表示用のグラフィクスが左側に、右眼表示用のグラフィクスが右側にずれるように視差が付与される。この場合、グラフィクスの表示位置はスクリーンよりも奥となる。
 図9において、(θ0-θ2)は同側方向の視差角を示し、(θ0-θ1)は交差方向の視差角を示している。また、Dはスクリーンとカメラ(人間の目)の設置面の距離(viewing distance)を示し、Eはカメラ(人間の目)の設置間隔(eye_baseline)を示し、Kは対象までの距離であるデプス値を示し、さらにSは視差値を示すものとする。
 このとき、Kは、SとEの比と、DとKの比により、以下の数式(1)で求められる。この数式を変形して、数式(2)が得られる。数式(1)は、視差値Sをデプス値Kに変換するための変換式を構成する。逆に、数式(2)は、デプス値Kを視差値Sに変換するための変換式を構成する。
   K=D/(1+S/E)  ・・・(1)
   S=(D-K)E/K   ・・・(2)
 図2に戻って、デプスメタ情報生成部106は、デプスメタ情報を生成する。このデプスメタ情報には、プロジェクション画像上に設定された所定数のアングル領域の位置情報と代表デプス値が含まれ、この実施の形態ではさらに、その代表デプス値が領域内のどの位置に係るものであるかを示す位置情報も含まれる。
 ここで、所定数のアングル領域は、ユーザがユーザ操作部101aを操作することで設定される。この場合、所定数のビューポイントが設定され、さらにそれぞれのビューポイントの影響下にある所定数のアングル領域が設定される。それぞれのアングル領域の位置情報は、対応するビューポイントの位置を基準としたオフセット情報で与えられる。
 また、それぞれのアングル領域の代表デプス値は、デプス生成部105で生成されたブロック毎のデプス値のうち、そのアングル領域内にある各ブロックのデプス値のうちの最小値とされる。
 図10は、ある一つのビューポイントの影響下にあるアングル領域の設定例を概略的に示している。図10(a)は、アングル領域ARが等間隔の分割領域で構成される場合の例を示しており、AR1~AR9の9個のアングル領域が設定されている。図10(b)は、アングル領域ARがフレキシブルなサイズの分割領域で構成される場合の例を示しており、AR1~AR6の6個のアングル領域が設定されている。なお、アングル領域同士は必ずしも空間で連続的に配置されていなくてもよい。
 図11は、プロジェクション画像上に設定されたある一つのアングル領域ARiを示している。図において、外側の矩形枠はプロジェクション画像の全体を示しており、このプロジェクション画像に対応してブロック単位でデプス値dv(j.k)が存在し、それらをまとめてデプスマップ(depthmap)が構成される。
 アングル領域ARiにおける代表デプス値DPiは、アングル領域ARiに含まれる複数のデプス値dv(j.k)のうちの最小値であり、以下の数式(3)で表される。
Figure JPOXMLDOC01-appb-M000001
 図12(a),(b)は、平面パッキング部103L,103Rで得られた左眼および右眼のプロジェクション画像にそれぞれ対応した球面画像の一部を示している。“C”は、視聴位置に対応した中心位置を示している。図示の例においては、プロジェクション画像のリファレンスポイントRPの他に、アングル領域の基準となるVpA~VpHの8つのビューポイントが設定されている。
 各ポイントの位置は、アジマス角度φとエレベーション角度θで示される。各アングル領域(図12には図示せず)の位置は、対応するビューポイントからのオフセット角で与えられる。ここで、アジマス角度φとエレベーション角度θは、それぞれ、矢印方向の角度を示し、矢印の基点位置の角度は0度である。例えば、図示の例のように、リファレンスポイント(RP)のアジマス角度φはφr=0°、リファレンスポイント(RP)のエレベーション角度θはθr=90°(π/2)に設定される。
 図13は、アングル領域の定義を示している。図示の例において、外側の矩形枠はプロジェクション画像の全体を示している。また、図示の例においては、ビューポイントVPの影響下にあるアングル領域としてAG_1,AG_2,AG_3の3つが示されている。それぞれのアングル領域は、ビューポイント位置に対する長方形のアングル領域の左上開始点と右下終了点の位置情報であるアングル角AG_tl,AG_brで表される。ここで、AG_tl,AG_brは、それぞれ、表示位置と想定視聴位置との想定距離をDとし、ビューポイントVPを基準とした、水平、垂直の2次元アングル角である。
 なお、上述では、デプスメタ情報生成部106は、デプス生成部105で生成されたブロック毎のデプス値を用いてそれぞれのアングル領域の代表デプス値を求めるように説明したが、図2に破線で示すように、デプスセンサ111で得られた画素毎あるいはブロック毎のデプス値を用いてそれぞれのアングル領域の代表デプス値を求めることも可能である。その場合には、デプス生成部105は不要となる。
 字幕(サブタイトル)発生部107は、画像に重畳する字幕のデータを発生する。字幕エンコーダ108は、字幕発生部107で発生された字幕データを符号化して字幕ストリームを生成する。なお、字幕エンコーダ108は、デプス生成部105で生成されたブロック毎のデプス値を参照して、プロジェクション画像のリファレンスポイントRP(x,y)を中心とするデフォルトビュー表示時における字幕の奥行き制御に使用し得るデプス値、あるいはそれを変換した視差値を、字幕データに付加する。なお、この字幕データに、さらに、上述のデプスメタ情報に設定されている各ビューポイントを中心とするビュー表示時に使用し得るデプス値あるいは視差値を付加することも考えられる。
 図2に戻って、コンテナエンコーダ109は、ビデオエンコーダ104で生成されたビデオストリーム、字幕エンコーダ108で生成された字幕ストリーム、デプスメタ情報生成部106で生成されたピクチャ毎のデプスメタ情報を持つタイムドメタデータストリームを含むコンテナ、ここではMP4ストリームを、配信ストリームSTMとして生成する。この場合、コンテナエンコーダ109は、ビデオストリームを含むMP4ストリームに、レンダリングメタデータ(図6参照)を挿入する。なお、この実施の形態においては、ビデオストリームのレイヤとコンテナのレイヤの双方にレンダリングメタデータを挿入するものであるが、いずれか一方のみに挿入することも考えられる。
 また、コンテナエンコーダ105は、ビデオストリームを含むMP4ストリームに、ビデオストリームに対応付けて、種々の情報を持つデスクリプタを挿入する。このデスクリプタとして、従来周知のコンポーネントデスクリプタ(component_descriptor)が存在する。
 図14(a)は、コンポーネントデスクリプタの構造例(syntax)を示し、図14(b)は、その構造例における主要な情報の内容(semantics)を示している。「stream_content」の4ビットフィールドは、ビデオ・オーディオ・サブタイトルの符号化方式を示す。この実施の形態では、“0x9”とされ、HEVC符号化であることが示される。
 「stream_content_ext」の4ビットフィールドは、上述の「stream_content」との組み合わせで用いることで符号化対象の詳細を示す。「component_type」の8ビットフィールドは、各符号化方式の中のバリエーションを示す。この実施の形態では、「stream_content_ext」を“0x2”とし、「component_type」を“0x5”とすることで“HEVC Main10 Profile UHDの符号化でステレオスコピックVRの配信”であることを示す。
 送信部110は、コンテナエンコーダ109で得られたMP4の配信ストリームSTMを、放送波あるいはネットのパケットに載せて、サービス受信機200に送信する。
 図15は、MP4ストリームを概略的に示している。図には、ビデオストリームを含むMP4ストリーム(ビデオトラック)と、タイムドメタデータトラックストリームを含むMP4ストリーム(タイムドメタデータトラック)が示されている。ここでは、省略するが、その他に、字幕ストリームを含むMP4ストリーム(字幕トラック)なども存在する。
 MP4ストリーム(ビデオトラック)は、各ランダムアクセス期間が、イニシャライゼーション・セグメント(IS:initialization segment)から始まり、それに、“styp”、“sidx(Segment index box)”、“ssix(Sub-segment index box)”、“moof(Movie fragment box)”、“mdat(Media data box)”のボックスが続いた構成となっている。
 イニシャライゼーション・セグメント(IS)は、ISOBMFF(ISO Base Media File Format)に基づくボックス(Box)構造を持つ。このイニシャライゼーション・セグメント(IS)に、レンダリングメタデータやコンポーネントデスクリプタが挿入されている。
 “styp”ボックスにはセグメントタイプ情報が入る。“sidx”ボックスには、各トラック(track)のレンジ情報が入り、“moof”/“mdat”の位置が示され、“mdat”内の各サンプル(ピクチャ)の位置も示される。“ssix”ボックスには、トラック(track)の区分け情報が入り、I/P/Bタイプの区分けがされる。
 “moof”ボックスには制御情報が入る。“mdat”ボックスには、「VPS」、「SPS」、「PPS」、「PSEI」、「SSEI」、「SLICE」のNALユニットが配置されている。「SLICE」のNALユニットに、ランダムアクセス期間の各ピクチャの符号化画像データが含まれている。
 一方、MP4ストリーム(タイムドメタデータトラック)も、各ランダムアクセス期間が、イニシャライゼーション・セグメント(IS)から始まり、それに、“styp”、“sidx”、“ssix”、“moof”、“mdat”のボックスが続いた構成となっている。“mdat”ボックスには、ランダムアクセス期間の各ピクチャのデプスメタ情報が含まれている。
 図16は、デプスメタ情報を含む1ピクチャ分のタイムドメタデータの構造例(Syntacs)を示し、図17は、その構成例における主要な情報の内容(Semantics)を示している。「number_of_viewpoints」の8ビットフィールドは、ビューポイントの数を示している。このビューポイントの数だけ、以下の情報が繰り返し存在する。
 「viewpoint_id」の8ビットフィールドは、ビューポイントの識別番号を示している。「center_azimuth」の16ビットフィールドは、ビュー中心位置、つまりビューポイントの視点位置からのアジマス角を示す。「center_elevation」の16ビットフィールドは、ビュー中心位置、つまりビューポイントの視点位置からのエレベーション角を示す。「center_tilt」の16ビットフィールドは、ビュー中心位置、つまりビューポイントのチルト角を示す。このチルト角はビュー中心に対するアングルの傾きを示している。「number_of_depth_sets」の8ビットフィールドは、デプスセットの数、つまりアングル領域の数を示す。このデプスセットの数だけ、以下の情報が繰り返し存在する。
 「angle_tl_horizontal」の16ビットフィールドは、対象アングル領域の左上コーナを示す水平位置をビューポイントからのオフセット角で示す。「angle_tl_vertical」の16ビットフィールドは、対象アングル領域の左上コーナを示す垂直位置をビューポイントからのオフセット角で示す。「angle_br_horizontal」の16ビットフィールドは、対象アングル領域の右下コーナを示す水平位置をビューポイントからのオフセット角で示す。「angle_br_vertical」の16ビットフィールドは、対象アングル領域の右下コーナを示す垂直位置をビューポイントからのオフセット角で示す。
 「depth_reference」の16ビットフィールドは、デプス値の基準、つまりスクリーン(図9参照)の深さに相当するデプス値を示す。このデプス値では、視差展開の際に左眼画像(レフトビュー)および右眼画像(ライトビュー)の表示オフセットがゼロとなるようにデプス視差変換式(1)、(2)の調整をすることができる。「depth_representative_position_horizontal」の16ビットフィールドは、代表デプス値に対応した位置、つまり代表デプス値が領域内のどの位置に係るものであるかを示す位置の水平位置をビューポイントからのオフセット角で示す。「depth_representative_position_vertical」の16ビットフィールドは、代表デプス値に対応した位置の垂直位置をビューポイントからのオフセット角で示す。「depth_representative」の16ビットフィールドは、代表デプス値を示している。
 ビデオストリームを含むMP4ストリーム(ビデオトラック)と、タイムドメタデータトラックストリームを含むMP4ストリーム(タイムドメタデータトラック)の紐付は、MPDファイルにより行われる。
 図18は、MPDファイルの記述例を示している。ここでは、説明の簡単化のために、ビデオトラックとタイムドメタデータトラックに関する情報のみが記述されている例を示しているが、実際には字幕ストリーム等の他のメディアストリームに関する情報も記述されている。
 一点鎖線の矩形枠で囲む部分は、詳細説明は省略するが、ビデオトラックに関連する情報を示す。また、破線の矩形枠で囲む部分は、タイムドメタデータトラックに関する情報を示す。ビューポイントのメタ情報ストリームで構成されるストリーム“preset-viewpoints.mp4”を含むアダプテーションセット(AdaptationSet)であることを示す。「Representation id」は、"preset-viewpoints"であり、「associationId」は"360-video"、「associationType」が "cdsc"であり、ビデオのトラックとリンクされていることを示す。
 図2に示すサービス送信システム100の動作を簡単に説明する。左側カメラ102Lおよび右側カメラ102Rでは、それぞれ、被写体が撮像されて、球面キャプチャ画像(360°VR画像)が得られる。カメラ102L,102Rで得られた球面キャプチャ画像は、それぞれ平面パッキング部103L,103Rに供給される。平面パッキング部103L,103Rでは、それぞれ、カメラ102L,102Rで得られた球面キャプチャ画像の一部または全部が切り取られて平面パッキングされ、長方形のプロジェクション画像が得られる。
 平面パッキング部103L,103Rで得られたプロジェクション画像の画像データはビデオエンコーダ104に供給される。ビデオエンコーダ104では、平面パッキング部103L,103Rで得られたプロジェクション画像の画像データに対して符号化が施され、符号化画像データを含むビデオストリームが生成される。
 この場合、ビデオストリームのSPS NALユニットには、切出し位置情報が挿入される(図4参照)。また、アクセスユニット(AU)の“SEIs”の部分に、レンダリングメタデータ(レンダリング用メタ情報)を持つSEIメッセージ(図6参照)が挿入される。
 また、平面パッキング部103L,103Rで得られたプロジェクション画像の画像データはビデオエンコーダ104に供給される。デプス生成部105では、平面パッキング部103L,103Rからの左眼および右眼のプロジェクション画像が用いられて、ブロック毎の奥行き情報であるデプス値が求められる。つまり、このデプス生成部105で、ピクチャ毎に、ブロック単位のデプス値dv(j.k)の集まりであるデプスマップ(dpepthmap)が生成される。
 デプス生成部105で生成されたピクチャ毎のデプスマップは、デプスメタ情報生成部106に供給される。デプスメタ情報生成部106では、ピクチャ毎に、デプスメタ情報が生成される。このデプスメタ情報には、プロジェクション画像上に設定された所定数のアングル領域の位置情報と代表デプス値が含まれ、さらにその代表デプス値が領域内のどの位置に係るものであるかを示す位置情報も含まれる。なお、デプスメタ情報生成部106では、デプス生成部105で生成されたピクチャ毎のデプスマップの代わりに、デプスセンサ111で得られた情報により生成されるデプスマップが用いられてもよい。
 また、字幕(サブタイトル)発生部107では、画像に重畳する字幕のデータが発生される。この字幕データは、字幕エンコーダ108に供給される。字幕エンコーダ108では、字幕データが符号化されて字幕ストリームが生成される。この場合、字幕データには、プロジェクション画像のリファレンスポイントRP(x,y)を中心とするデフォルトビュー表示時における字幕の奥行き制御に使用し得るデプス値が付加される。
 ビデオエンコーダ104で生成されたビデオストリーム、字幕エンコーダ108で生成された字幕ストリーム、デプスメタ情報生成部106で生成されたピクチャ毎のデプスメタ情報はコンテナデコーダ109に供給される。コンテナデコーダ109では、ビデオストリーム、字幕ストリーム、ピクチャ毎のデプスメタ情報を持つタイムドメタデータストリームを含むコンテナ、ここではMP4ストリームが、配信ストリームSTMとして生成される。
 この場合、コンテナエンコーダ109では、ビデオストリームを含むMP4ストリームに、レンダリングメタデータ(図6参照)が挿入される。また、コンテナエンコーダ109では、ビデオストリームを含むMP4ストリームに、ビデオストリームに対応付けて、種々の情報を持つデスクリプタ、例えばコンポーネントデスクリプタ(図14参照)等が挿入される。
 コンテナエンコーダ109で得られたMP4ストリームは、送信部110に供給される。この送信部110では、コンテナエンコーダ109で得られたMP4の配信ストリームSTMが、放送波あるいはネットのパケットに載せて、サービス受信機200に送信される。
 なお、上述では、各ピクチャのデプスメタ情報をタイムドメタデータストリームにより送信するように説明した。しかし、各ピクチャのデプスメタ情報をビデオストリームに挿入して送信することも考えられる。この場合、各ピクチャのアクセスユニット(AU)の“SEIs”の部分に、デプスメタ情報を含むPSVP・SEIメッセージ(SEI message)を挿入する。
 図19は、PSVP・SEIメッセージの構造例(Syntax)を示している。このPSVP・SEIメッセージにおける主要な情報は、図16に示すタイムドメタデータにおける主要な情報と同様であるので、その詳細な説明は省略する。図20は、各ピクチャのデプスメタ情報をビデオストリームに挿入して送信する場合におけるMP4ストリームを概略的に示している。図示のように、この場合には、タイムドメタデータトラックストリームを含むMP4ストリーム(タイムドメタデータトラック)は存在しない(図15参照)。
 「サービス受信機」
 図21は、サービス受信機200の構成例を示している。このサービス受信機200は、制御部201と、UI部201aと、センサ部201bと、受信部202と、コンテナデコーダ203と、ビデオデコーダ204と、字幕デコーダ205と、グラフィクス発生部206と、レンダラ207と、スケーリング部208と、表示部209を有している。
 制御部201は、CPU(Central Processing Unit)を備えて構成され、制御プログラムに基づいて、サービス受信機200の各部の動作を制御する。UI部201aは、ユーザインタフェースを行うためものであり、例えば、表示領域の移動をユーザが操作するためのポインティングデバイスや、ユーザが音声で表示領域の移動を指示するために音声入力するためのマイクロホン等もこれに含まれる。センサ部201bは、ユーザ状態や環境の情報を取得するための種々のセンサを備えるものであり、例えば、HMD(Head Mounted Display)に搭載されている姿勢検出センサなどもこれに含まれる。
 受信部202は、サービス送信システム100から放送波あるいはネットのパケットに載せて送られてくるMP4の配信ストリームSTMを受信する。この場合、配信ストリームSTMとして、ビデオストリーム、字幕ストリーム、タイムドメタデータストリームをそれぞれ含むMP4ストリームが得られる。なお、各ピクチャのデプスメタ情報がビデオストリームに挿入されて送られてくる場合には、タイムドメタデータストリームを含むMP4ストリームは存在しない。
 コンテナデコーダ203は、受信部202で受信されたビデオストリームを含むMP4ストリームからビデオストリームを取り出し、ビデオデコーダ204に送る。また、コンテナデコーダ203は、ビデオストリームを含むMP4ストリームから“moov”ブロックの情報などを取り出し、制御部201に送る。“moov”ブロックの情報の一つとしてレンダリングメタデータ(図6参照)が存在する。また、“moov”ブロックの情報の一つとして、コンポーネントデスクリプタ(図14参照)も存在する。
 また、コンテナデコーダ203は、受信部202で受信された字幕ストリームを含むMP4ストリームから字幕ストリームを取り出し、字幕デコーダ205に送る。また、コンテナデコーダ203は、受信部202でタイムドメタデータストリームを含むMP4ストリームが受信されたとき、このMP4ストリームからタイムドメタデータストリームを取り出し、このタイムドメタデータストリームに含まれるデプスメタ情報を抽出して、制御部201に送る。
 ビデオデコーダ204は、コンテナデコーダ203で取り出されたビデオストリームに復号化処理を施して、左眼および右眼のプロジェクション画像の画像データを得る。また、ビデオデコーダ204は、ビデオストリームに挿入されているパラメータセットやSEIメッセージを抽出し、制御部201に送る。この抽出情報には、SPS NALパケットに挿入されている切出し位置「default_display_window」の情報、さらにはレンダリングメタデータ(図6参照)を持つSEIメッセージも含まれる。また、デプスメタ情報がビデオストリームに挿入されて送られてくる場合には、デプスメタ情報を含むSEIメッセージ(図19参照)も含まれる。
 字幕デコーダ205は、コンテナデコーダ203で取り出された字幕ストリームに復号化処理を施して字幕データを得、この字幕データから字幕表示データおよび字幕重畳位置データを得て、レンダラ207に送る。また、また、字幕デコーダ205は、字幕データに付加されているデフォルトビュー表示時における字幕の奥行き制御に使用し得るデプス値を取得し、制御部201に送る。
 グラフィクス発生部206は、OSD(On Screen Display)あるいはアプリケーション、あるいはEPG(Electronic Program Guide)などのグラフィクスに係るグラフィクス表示データおよびグラフィクス重畳位置データを発生し、レンダラ207に送る。
 レンダラ207は、ビデオデコーダ204で得られた左眼および右眼のプロジェクション画像の画像データと、字幕デコーダ205からの字幕表示データおよび字幕重畳位置データと、グラフィクス発生部206からのグラフィクス表示データおよびグラフィクス重畳位置データに基づいて、字幕やグラフィクスが重畳された立体画像(ステレオスコピック画像)表示用の左眼および右眼の画像データを生成する。この場合、制御部201の制御のもと、ユーザの姿勢や操作に応じて、表示領域はインタラクティブに変更される。
 スケーリング部208は、表示部209の表示サイズに合うように左眼および右眼の画像データのスケーリングをする。表示部209は、スケーリング処理された左眼および右眼の画像データに基づいて、立体画像(ステレオスコピック画像)を表示する。表示部209は、例えば、表示パネルやHMD(Head Mounted Display)などで構成される。
 図22は、レンダラ207の構成例を示している。このレンダラ207は、左眼画像データ生成部211Lと、右眼画像データ生成部211Rと、重畳部212と、デプス処理部213と、デプス/視差変換部214を有している。
 左眼画像データ生成部211Lには、ビデオデコーダ204から左眼プロジェクション画像の画像データVPLが供給される。また、この左眼画像データ生成部211Lには、制御部201から、表示領域情報が供給される。左眼画像データ生成部211Lは、左眼プロジェクション画像に対してレンダリング処理を施し、表示領域に対応した左眼画像データVLを得る。
 画像データ生成部211Rには、ビデオデコーダ204から右眼プロジェクション画像の画像データVPRが供給される。また、この右眼画像データ生成部211Rには、制御部201から、表示領域情報が供給される。右眼画像データ生成部211Rは、右眼プロジェクション画像に対してレンダリング処理を施し、表示領域に対応した右眼画像データVRを得る。
 ここで、制御部201は、HMD搭載のジャイロセンサ等で得られる動きの方向と量の情報に基づいて、あるいはユーザ操作によるポインティング情報あるいはユーザの音声UI情報に基づいて、表示領域の移動の方向や速度の情報を得て、インタラクティブに表示領域を変更させるための表示領域情報を発生する。なお、制御部201は、例えば電源オン時等の表示開始時には、プロジェクション画像のリファレンスポイントRP(x,y)(図5参照)を中心とするデフォルトビューに対応した表示領域情報を発生する。
 デプス処理部213には、制御部201から、表示領域情報およびデプスメタ情報が供給される。また、デプス処理部213には、字幕重畳位置データおよびグラフィクス重畳位置データが供給される。デプス処理部213は、字幕重畳位置データ、表示領域情報およびデプスメタ情報に基づき、字幕デプス値、つまり字幕表示データに視差を与えるためのデプス値を得る。
 例えば、デプス処理部213は、字幕表示データに視差を与えるためのデプス値を、字幕重畳位置データで示される字幕重畳範囲に対応した所定数のアングル領域の代表デプス値のうちの最小値のデプス値とする。このように字幕表示データに視差を与えるためのデプス値が決定されることで、字幕を字幕重畳範囲に存在する画像オブジェクトより手前に表示させることができ、画像内の各オブジェクトに対する遠近感の整合性を維持できる。
 図23は、プロジェクション画像に対する表示領域の一例を示している。なお、プロジェクション画像としては左眼および右眼の2つが存在するが、ここでは、図面の簡単化のために1つのみを示している。このプロジェクション画像には、リファレンスポイントRPの他に、アングル領域の基準となるVpA~VpFの6つのビューポイントが設定されている。各ビューポイントの位置は、プロジェクション画像の左上の原点からのオフセットで設定される。あるいは、各ビューポイントの位置は、プロジェクション画像の左上の原点からのオフセットで設定されるリファレンスポイントRPからのオフセットで設定される。
 図示の例において、表示領域Aおよび表示領域Bは、ビューポイントVpDを含む位置にある。この場合、表示領域Aと表示領域Bは領域の大きさが異なり、表示領域Aが広く、表示領域Bは狭くなっている。受信機がどれだけの表示能力を持っているかによって表示領域の大きさのバリエーションが出てくる。
 表示領域Aの場合には、近景のオブジェクトOB1が含まれることから、字幕(Subtitle)はこのオブジェクトOB1よりも手前に表示されるように重畳される。一方、表示領域Bの場合には、近景のオブジェクトOB1が含まれず、そのためこの近景のオブジェクトOB1よりも後方に、即ち、遠くに位置するオブジェクトOB2よりも手前に表示されるように重畳される。
 図24(a)は、表示領域Aにおけるデプス値の分布を示すデプスカーブ(Depth Curve)を示している。この場合、字幕表示データに視差を与えるためのデプス値は、近景のオブジェクトOB1よりも手前が字幕重畳位置となるように、オブジェクトOB1に対応したデプス値よりも小さな値とされる。図24(b)は、表示領域Bにおけるデプス値の分布を示すデプスカーブを示している。この場合、字幕表示データに視差を与えるためのデプス値は、近景のオブジェクトOB1の後ろに位置するオブジェクトOB2よりも手前が字幕重畳位置となるように、オブジェクトOB2に対応したデプス値よりも小さな値とされる。
 図25は、ビューポイントVP1の影響下にある第1の領域とビューポイントVP2の影響下にある第2の領域との間で表示領域が移動する場合において、各移動位置における字幕表示データに視差を与えるためのデプス値の設定方法の一例を示している。図示の例において、ビューポイントVP1の影響下にある第1の領域には、アングル領域AR1,AR2が存在する。また、ビューポイントVP2の影響下にある第2の領域には、アングル領域AR3,AR4,AR5が存在する。
 各アングル領域はデプス代表値をもっており、実折れ線Dは代表デプス値による深さの度合いを示している。実折れ線Dのとる値は、以下のようになる。すなわち、L0~L1はアングル領域AR1のデプス代表値となる。L1~L2はアングル領域が定義されていない部分なので“far”を示すデプス値となる。L2~L3はアングル領域AR2のデプス代表値となる。L3~L4はアングル領域が定義されていない部分なので“far”を示すデプス値となる。L4~L5はアングル領域AR3のデプス代表値となる。L5~L6はアングル領域AR4のデプス代表値となる。そして、L6~L7はアングル領域AR5のデプス代表値となる。
 破線Pは、字幕表示データに視差を与えるためのデプス値(字幕デプス値)を示している。表示領域が移動する際、字幕デプス値は、実折れ線Dをトレースするように遷移する。しかし、L1~L2の部分は字幕の横幅よりも狭いため、字幕デプス値は実折れ線Dをトレースせず、L0~L1のデプス値あるいはL2~L3のデプス値となる。また、字幕が実折れ線Dの複数のデプス値の区間に重なる際には、字幕デプス値は、デプス値の小さな方に添う形となる。なお、S1~S3は、字幕位置の一例とそのときの字幕デプス値を概略的に示している。
 図26は、プロジェクション画像に設定された複数のアングル領域の間で表示領域が遷移する場合において、各移動位置における字幕表示データに視差を与えるためのデプス値の設定方法の一例を示している。図示の例において、プロジェクション画像には、水平方向に隣接して、アングル領域AG_1,AG_2,AG_3が存在する。
 図26(a)に示すように、表示領域がアングル領域AG_2に含まれている場合には、字幕表示データに視差を与えるためのデプス値(字幕デプス値)は、このアングル領域AG_2の代表デプス値される。また、図26(b)に示すように、表示領域がアングル領域AG_2,AG_3の双方に重なる場合には、字幕デプス値は、アングル領域AG_2,AG_3の代表デプス値のうちの最小値とされてもよいが、それぞれのアングル領域に重なる表示領域の割合等に応じてアングル領域AG_2,AG_3の代表デプス値が重み付け加算されたものとすることも考えられる。その場合には、表示領域がアングル領域AG_2に含まれた状態からアングル領域AG_3に含まれた状態となるまでの間で字幕デプス値がスムーズに遷移させることが可能となる。
 なお、このように表示領域がアングル領域AG_2,AG_3の双方に重なる場合には、上述したようにそれぞれのアングル領域に重なる表示領域の割合等に応じてアングル領域AG_2,AG_3の代表デプス値を重み付け加算して字幕デプス値とする他に、例えば、それぞれの代表デプス値が領域内のどの位置に係るものであるかを示す位置情報に基づいて、対象領域でのデプス値の変化を段階的に行うなどが可能である。
 例えば、図26(b)においては表示領域の右端がAG_2からAG_3に移動する際、そのデプス代表値はAG_2の値からAG_3の値へ瞬時に変化させずに表示領域右端がAG_3のデプス代表値の位置に差し掛かるまでに、AG_2のデプス代表値からAG_3のデプス代表値へ徐々に変化させるなどの表示制御が可能となる。
 また、図26(c)に示すように、表示領域がアングル領域AG_3に含まれている場合には、字幕表示データに視差を与えるためのデプス値(字幕デプス値)は、このアングル領域AG_3の代表デプス値される。
 図27は、表示部209としてHMD(Head Mounted Display)を用いる場合の例を示している。この場合、図27(a)に示すように、HMDを装着しているユーザが首をT1→T2→T3のように左から右に回していくことで、視点がビューポイントVPに近づいていき、T3の状態では、視点がビューポイントVPと一致した状態となる。
 図27(b)は、HMDを装着しているユーザが首をT1→T2→T3のように左から右に回していったときの表示領域の移動時の一例を示している。ここでは、表示領域がアングル領域以下である標準表示と表示領域がアングル領域より大きい広角表示を考える。
 T1の状態では、表示領域はアングル領域AG_1に対応したものとなる。標準表示の場合には、表示領域がアングル領域AG_1に含まれるので、字幕デプス値(字幕表示データに視差を与えるためのデプス値)は、このアングル領域AG_1の代表デプス値とされる。一方、広角表示の場合には、表示領域がアングル領域AG_0~AG_2に跨るので、字幕デプス値は、これらのアングル領域AG_0~AG_2の代表デプス値のうちの最小値とされる。
 また、T2の状態では、表示領域はアングル領域AG_2に対応したものとなる。標準表示の場合には、表示領域がアングル領域AG_2に含まれるので、字幕デプス値(字幕表示データに視差を与えるためのデプス値)は、このアングル領域AG_2の代表デプス値とされる。一方、広角表示の場合には、表示領域がアングル領域AG_1~AG_3に跨るので、字幕デプス値は、これらのアングル領域AG_1~AG_3の代表デプス値のうちの最小値とされる。
 また、T3の状態では、表示領域はアングル領域AG_3に対応したものとなる。標準表示の場合には、表示領域がアングル領域AG_3に含まれるので、字幕デプス値(字幕表示データに視差を与えるためのデプス値)は、このアングル領域AG_3の代表デプス値とされる。一方、広角表示の場合には、表示領域がアングル領域AG_2~AG_4に跨るので、字幕デプス値は、これらのアングル領域AG_2~AG_4の代表デプス値のうちの最小値とされる。
 図28のフローチャートは、デプス処理部213における字幕デプス値を得るための手順の一例を示している。このフローチャートは、ピクチャ毎に実行される。デプス処理部213は、ステップST1において、処理を開始する。次に、デプス処理部213は、ステップST2において、字幕重畳位置データ、表示領域情報、さらにはデプスメタ情報を入力する。
 次に、デプス処理部213は、ステップST3において、表示領域内におけるデプス値分布を得る(図25の実折れ線D参照)。この場合、アングル領域が存在する部分はその代表デプス値とされ、アングル領域が存在しない部分は、“far”を示すデプス値とされる。次に、ステップST4において、字幕重畳範囲内での最小のデプス値を字幕デプス値とする。そして、デプス処理部213は、ステップST5において、処理を終了する。
 なお、デプス処理部213は、ステップST4において、字幕重畳範囲内における最小のデプス値を字幕デプス値とするのではなく、表示領域が複数のデプス値の領域に重なる場合、重なりの割合に応じて各デプス値を重み付け加算して字幕デプス値とすることで、字幕デプス値がデジタル的に急に変化することを回避でき、字幕デプス値をスムーズに遷移させることが可能となる。
 図22に戻って、また、デプス処理部213は、グラフィクス重畳位置データ、表示領域情報およびデプスメタ情報に基づき、グラフィクスデプス値(グラフィクス表示データに視差を与えるためのデプス値)を得る。詳細説明は省略するが、デプス処理部213において、グラフィクスデプス値を求める処理は、上述の字幕デプス値を求める処理と同様である。なお、字幕とグラフィクスの重畳位置が一部重なる場合、グラフィクスが字幕の手前に位置するように、グラフィクスデプス値が調整される。
 デプス/視差変換部214は、デプス処理部213で得られた字幕デプス値、グラフィクスデプス値を、それぞれ視差値に変換して、字幕視差値、グラフィクス視差値を得る。この場合、上述した数式(2)により、変換される。
 重畳部212には、左眼画像データ生成部211Lで得られた左眼画像データVLが供給されると共に、右眼画像データ生成部211Rで得られた右眼画像データVRが供給される。また、重畳部212には、字幕表示データおよび字幕重畳位置データと、グラフィクス表示データおよびグラフィクス重畳位置データが供給される。さらに、重畳部212には、デプス/視差変換部214で得られた字幕視差値、グラフィクス視差値が供給される。
 重畳部212は、左眼画像データおよび右眼画像データの字幕重畳位置データで示される重畳位置に字幕表示データを重畳するが、その際に字幕視差値に基づいて視差を付与する。また、重畳部212は、左眼画像データおよび右眼画像データのグラフィクス重畳位置データで示される重畳位置にグラフィクス表示データを重畳するが、その際にグラフィクス視差値に基づいて視差を付与する。なお、重畳部212は、字幕とグラフィクスの重畳位置が一部重なる場合、その部分に関しては、字幕表示データの上にグラフィクス表示データが上書きされる。
 図29は、字幕とグラフィクスの重畳位置が一部重なる場合におけるデプス制御例を示している。図示において、字幕は、字幕表示位置に対応した4つのアングル領域AR8,AR9,AR10,AR11の画像オブジェクトより手前に表示される。また、グラフィクスは、右側の8つのアングル領域AR2,AR3,AR6,AR7,AR10,AR11,AR14,AR15より手前で、字幕よりも手前に表示される。
 重畳部212は、左眼画像データに、左眼用字幕表示データおよび左眼用グラフィクス表示データが重畳された、左眼画像データVLDを出力する。また、重畳部212は、右眼画像データに、右眼用字幕表示データおよび右眼用グラフィクス表示データが重畳された、右眼画像データVRDを出力する。
 なお、上述したように、字幕表示データに視差を与えるための字幕視差値は、デプス処理部213で字幕重畳位置データ、表示領域情報およびデプスメタ情報に基づいて字幕デプス値を得て、その字幕デプスチをデプス/視差変換部214で変換して得ることができる。ただし、デフォルトビューの表示時に関しては、字幕データに付加されて送られてくる字幕デプス値や字幕視差値を用いることもできる。
 図21に示すサービス受信機200の動作を簡単に説明する。受信部202では、サービス送信システム100から放送波あるいはネットのパケットに載せて送られてくるMP4の配信ストリームSTMが受信される。この配信ストリームSTMは、コンテナデコーダ203に供給される。
 コンテナデコーダ203では、ビデオストリームを含むMP4ストリームからビデオストリームが取り出され、ビデオデコーダ204に送られる。また、コンテナデコーダ203では、ビデオストリームを含むMP4ストリームから“moov”ブロックの情報などが取り出され、制御部201に送られる。
 また、コンテナデコーダ203では、字幕ストリームを含むMP4ストリームから字幕ストリームが取り出され、字幕デコーダ205に送られる。字幕デコーダ205では、字幕ストリームに復号化処理が施されて字幕データが得られ、この字幕データから字幕表示データおよび字幕重畳位置データが得られて、レンダラ207に送られる。
 また、コンテナデコーダ203では、受信部202でタイムドメタデータストリームを含むMP4ストリームが受信されたときは、このMP4ストリームからタイムドメタデータストリームが取り出され、このタイムドメタデータストリームに含まれるデプスメタ情報が制御部201に送られる。
 ビデオデコーダ204では、ビデオストリームに復号化処理が施されて、左眼および右眼のプロジェクション画像の画像データが得られ、レンダラ207に供給される。また、ビデオデコーダ204では、ビデオストリームに挿入されているパラメータセットやSEIメッセージが抽出されて、制御部201に送られる。デプスメタ情報がビデオストリームに挿入されて送られてくる場合には、デプスメタ情報を含むSEIメッセージも含まれる。
 グラフィクス発生部206では、OSDあるいはアプリケーション、あるいはEPGなどのグラフィクスに係るグラフィクス表示データおよびグラフィクス重畳位置データが発生されて、レンダラ207に供給される。
 レンダラ207では、左眼および右眼のプロジェクション画像の画像データと、字幕デコーダ205からの字幕表示データおよび字幕重畳位置データと、グラフィクス発生部206からのグラフィクス表示データおよびグラフィクス重畳位置データに基づいて、字幕やグラフィクスが重畳された立体画像(ステレオスコピック画像)表示用の左眼および右眼の画像データが生成される。この場合、制御部201の制御のもと、ユーザの姿勢や操作に応じて、表示領域はインタラクティブに変更される。
 レンダラ207で得られた立体画像表示用の左眼および右眼の画像データは、スケーリング部208に供給される。スケーリング部208では、表示部209の表示サイズに合うようにスケーリングされる。表示部209では、スケーリング処理された左眼および右眼の画像データに基づいて、インタラクティブに表示領域が変更される立体画像(ステレオスコピック画像)が表示される。
 上述したように、図1に示す送受信システム10において、サービス受信機200では、 左眼および右眼の表示領域画像データに重畳情報(字幕やグラフィクス)の表示データを重畳する際に、広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含むデプスメタ情報に基づいて視差付与を制御するものである。そのため、効率的に伝送されてくる奥行き情報を用いて重畳情報を重畳表示する際の奥行き制御を簡易に実現し得る。
 また、図1に示す送受信システム10において、サービス送信システム100では、左眼および右眼のピクチャ毎の広視野角画像の画像データを符号化して得られたビデオストリームと、ピクチャ毎の広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含むデプスメタ情報を送信するものである。そのため、広視野角画像内の奥行き情報を効率的に伝送し得る。
 <2.変形例>
 なお、上述実施の形態においては、コンテナがMP4(ISOBMFF)である例を示した。しかし、本技術は、コンテナがMP4に限定されるものではなく、MPEG-2 TSやMMTなどの他のフォーマットのコンテナであっても同様に適用し得る。
 また、上述実施の形態においては、プロジェクション画像のフォーマットタイプがエクイレクタングラー(Equirectangular)であることを想定した説明となっている(図3、図5参照)。上述したように、プロジェクション画像のフォーマットタイプはエクイレクタングラーに限定されるものではなく、その他のフォーマットであってもよい。
 また、本技術は、以下のような構成を取ることもできる。
 (1)左眼および右眼のピクチャ毎の広視野角画像の画像データを符号化して得られたビデオストリームと、上記ピクチャ毎の上記広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含むデプスメタ情報を受信する受信部と、
 上記ビデオストリームを復号化して得られた上記左眼および右眼のピクチャ毎の広視野角画像の画像データから左眼および右眼の表示領域画像データを取り出し、該左眼および右眼の表示領域画像データに重畳情報のデータを重畳して出力する処理部を備え、
 上記処理部は、上記左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、上記デプスメタ情報に基づいて、上記左眼および右眼の表示領域画像データにそれぞれ重畳する上記重畳情報のデータに視差を付与する
 受信装置。
 (2)上記受信部は、上記ピクチャ毎の上記デプスメタ情報を、上記ビデオストリームに関連づけられたタイムドメタデータストリームにより受信する
 前記(1)に記載の受信装置。
 (3)上記受信部は、上記ピクチャ毎の上記デプスメタ情報を、上記ビデオストリームに挿入された状態で受信する
 前記(1)に記載の受信装置。
 (4)上記処理部は、上記左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、上記デプスメタ情報に含まれる、重畳範囲に対応した所定数のアングル領域の代表デプス値のうちの最小値に基づいて、上記視差を付与する
 前記(1)から(3)のいずれかに記載の受信装置。
 (5)上記デプスメタ情報は、上記所定数のアングル領域の上記代表デプス値が領域内のどの位置に係るものであるかを示す位置情報をさらに含み、
 上記処理部は、上記左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、上記デプスメタ情報に含まれる、重畳範囲に対応した所定数の領域の代表デプス値と上記位置情報に基づいて、上記視差を付与する
 前記(2)から(3)いずれかに記載の受信装置。
 (6)上記アングル領域の位置情報は、所定のビューポイントの位置を基準としたオフセット情報で与えられる
 前記(1)から(5)のいずれかに記載の受信装置。
 (7)上記デプスメタ情報は、スクリーンの深さに相当するデプス値をデプス値の基準としてさらに含む
 前記(1)から(6)のいずれかに記載の受信装置。
 (8)上記重畳情報は、字幕および/またはグラフィクスである
 前記(1)から(7)のいずれかに記載の受信装置。
 (9)上記重畳情報のデータが重畳された左眼および右眼の表示領域画像データに基づいて立体画像を表示する表示部をさらに備える
 前記(1)から(8)のいずれかに記載の受信装置。
 (10)上記表示部は、ヘッドマウントディスプレイである
 前記(9)に記載の受信装置。
 (11)左眼および右眼のピクチャ毎の広視野角画像の画像データを符号化して得られたビデオストリームと、上記ピクチャ毎の上記広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含むデプスメタ情報を受信する手順と、
 上記ビデオストリームを復号化して得られた上記左眼および右眼のピクチャ毎の広視野角画像の画像データから左眼および右眼の表示領域画像データを取り出し、該左眼および右眼の表示領域画像データに重畳情報のデータを重畳して出力する手順を有し、
 上記左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、上記デプスメタ情報に基づいて、上記左眼および右眼の表示領域画像データにそれぞれ重畳する上記重畳情報のデータに視差を付与する
 受信方法。
 (12)上記ピクチャ毎の上記デプスメタ情報を、上記ビデオストリームに関連づけられたタイムドメタデータストリームにより受信する
 前記(11)に記載の受信方法。
 (13)上記ピクチャ毎の上記デプスメタ情報を、上記ビデオストリームに挿入された状態で受信する
 前記(11)に記載の受信方法。
 (14)上記左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、上記デプスメタ情報に含まれる、重畳範囲に対応した所定数のアングル領域の代表デプス値のうちの最小値に基づいて、上記視差を付与する
 前記(11)から(13)のいずれかに記載の受信方法。
 (15)上記デプスメタ情報は、上記所定数のアングル領域の上記代表デプス値が領域内のどの位置に係るものであるかを示す位置情報をさらに含み、
 上記左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、上記デプスメタ情報に含まれる、重畳範囲に対応した所定数の領域の代表デプス値と上記位置情報に基づいて、上記視差を付与する
 前記(11)から(14)のいずれかに記載の受信方法。
 (16)上記アングル領域の位置情報は、所定のビューポイントの位置を基準としたオフセット情報で与えられる
 前記(11)から(15)のいずれかに記載の受信方法。
  (17)上記デプスメタ情報は、スクリーンの深さに相当するデプス値をデプス値の基準としてさらに含む
 請求項11に記載の受信方法。
 (18)上記重畳情報は、字幕および/またはグラフィクスである
 前記(11)から(17)のいずれかに記載の受信方法。
 (19)左眼および右眼のピクチャ毎の広視野角画像の画像データを符号化して得られたビデオストリームと、上記ピクチャ毎のデプスメタ情報を送信する送信部を備え、
 上記デプスメタ情報は、上記広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含む
 送信装置。
 (20)左眼および右眼のピクチャ毎の広視野角画像の画像データを符号化して得られたビデオストリームと、上記ピクチャ毎のデプスメタ情報を送信し、
 上記デプスメタ情報は、上記広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含む
 送信方法。
 本技術の主な特徴は、左眼および右眼の表示領域画像データに重畳情報(字幕やグラフィクス)の表示データを重畳する際に、広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含むデプスメタ情報に基づいて視差付与をすることで、効率的に伝送されてくる奥行き情報を用いて重畳情報を重畳表示する際の奥行き制御を簡易に実現可能としたことである(図21、図22、図25参照)。
 10・・・送受信システム
 100・・・サービス送信システム
 101・・・制御部
 101a・・・ユーザ操作部
 102L・・・左側カメラ
 102R・・・右側カメラ
 103L,103R・・・平面パッキング部
 104・・・ビデオエンコーダ
 105・・・デプス生成部
 106・・・デプスメタ情報生成部
 107・・・字幕発生部
 108・・・字幕エンコーダ
 109・・・コンテナデコーダ
 110・・・送信部
 111・・・デプスセンサ
 200・・・サービス受信機
 201・・・制御部
 201a・・・UI部
 201b・・・センサ部
 202・・・受信部
 203・・・コンテナデコーダ
 204・・・ビデオデコーダ
 205・・・字幕デコーダ
 206・・・グラフィクス発生部
 207・・・レンダラ
 208・・・スケーリング部
 209・・・表示部
 211L・・・左眼画像データ生成部
 211R・・・右眼画像データ生成部
 212・・・重畳部
 213・・・デプス処理部
 214・・・デプス/視差変換部

Claims (20)

  1.  左眼および右眼のピクチャ毎の広視野角画像の画像データを符号化して得られたビデオストリームと、上記ピクチャ毎の上記広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含むデプスメタ情報を受信する受信部と、
     上記ビデオストリームを復号化して得られた上記左眼および右眼のピクチャ毎の広視野角画像の画像データから左眼および右眼の表示領域画像データを取り出し、該左眼および右眼の表示領域画像データに重畳情報のデータを重畳して出力する処理部を備え、
     上記処理部は、上記左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、上記デプスメタ情報に基づいて、上記左眼および右眼の表示領域画像データにそれぞれ重畳する上記重畳情報のデータに視差を付与する
     受信装置。
  2.  上記受信部は、上記ピクチャ毎の上記デプスメタ情報を、上記ビデオストリームに関連づけられたタイムドメタデータストリームにより受信する
     請求項1に記載の受信装置。
  3.  上記受信部は、上記ピクチャ毎の上記デプスメタ情報を、上記ビデオストリームに挿入された状態で受信する
     請求項1に記載の受信装置。
  4.  上記処理部は、上記左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、上記デプスメタ情報に含まれる、重畳範囲に対応した所定数のアングル領域の代表デプス値のうちの最小値に基づいて、上記視差を付与する
     請求項1に記載の受信装置。
  5.  上記デプスメタ情報は、上記所定数のアングル領域の上記代表デプス値が領域内のどの位置に係るものであるかを示す位置情報をさらに含み、
     上記処理部は、上記左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、上記デプスメタ情報に含まれる、重畳範囲に対応した所定数の領域の代表デプス値と上記位置情報に基づいて、上記視差を付与する
     請求項1に記載の受信装置。
  6.  上記アングル領域の位置情報は、所定のビューポイントの位置を基準としたオフセット情報で与えられる
     請求項1に記載の受信装置。
  7.  上記デプスメタ情報は、スクリーンの深さに相当するデプス値をデプス値の基準としてさらに含む
     請求項1に記載の受信装置。
  8.  上記重畳情報は、字幕および/またはグラフィクスである
     請求項1に記載の受信装置。
  9.  上記重畳情報のデータが重畳された左眼および右眼の表示領域画像データに基づいて立体画像を表示する表示部をさらに備える
     請求項1に記載の受信装置。
  10.  上記表示部は、ヘッドマウントディスプレイである
     請求項9に記載の受信装置。
  11.  左眼および右眼のピクチャ毎の広視野角画像の画像データを符号化して得られたビデオストリームと、上記ピクチャ毎の上記広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含むデプスメタ情報を受信する手順と、
     上記ビデオストリームを復号化して得られた上記左眼および右眼のピクチャ毎の広視野角画像の画像データから左眼および右眼の表示領域画像データを取り出し、該左眼および右眼の表示領域画像データに重畳情報のデータを重畳して出力する手順を有し、
     上記左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、上記デプスメタ情報に基づいて、上記左眼および右眼の表示領域画像データにそれぞれ重畳する上記重畳情報のデータに視差を付与する
     受信方法。
  12.  上記ピクチャ毎の上記デプスメタ情報を、上記ビデオストリームに関連づけられたタイムドメタデータストリームにより受信する
     請求項11に記載の受信方法。
  13.  上記ピクチャ毎の上記デプスメタ情報を、上記ビデオストリームに挿入された状態で受信する
     請求項11に記載の受信方法。
  14.  上記左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、上記デプスメタ情報に含まれる、重畳範囲に対応した所定数のアングル領域の代表デプス値のうちの最小値に基づいて、上記視差を付与する
     請求項11に記載の受信方法。
  15.  上記デプスメタ情報は、上記所定数のアングル領域の上記代表デプス値が領域内のどの位置に係るものであるかを示す位置情報をさらに含み、
     上記左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、上記デプスメタ情報に含まれる、重畳範囲に対応した所定数の領域の代表デプス値と上記位置情報に基づいて、上記視差を付与する
     請求項11に記載の受信方法。
  16.  上記アングル領域の位置情報は、所定のビューポイントの位置を基準としたオフセット情報で与えられる
     請求項11に記載の受信方法。
  17.  上記デプスメタ情報は、スクリーンの深さに相当するデプス値をデプス値の基準としてさらに含む
     請求項11に記載の受信方法。
  18.  上記重畳情報は、字幕および/またはグラフィクスである
     請求項11に記載の受信方法。
  19.  左眼および右眼のピクチャ毎の広視野角画像の画像データを符号化して得られたビデオストリームと、上記ピクチャ毎のデプスメタ情報を送信する送信部を備え、
     上記デプスメタ情報は、上記広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含む
     送信装置。
  20.  左眼および右眼のピクチャ毎の広視野角画像の画像データを符号化して得られたビデオストリームと、上記ピクチャ毎のデプスメタ情報を送信し、
     上記デプスメタ情報は、上記広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含む
     送信方法。
PCT/JP2019/016232 2018-04-19 2019-04-15 受信装置、受信方法、送信装置および送信方法 WO2019203207A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201980025347.2A CN111971955A (zh) 2018-04-19 2019-04-15 接收装置、接收方法、发送装置和发送方法
US16/981,051 US20210006769A1 (en) 2018-04-19 2019-04-15 Reception device, reception method, transmission device, and transmission method
EP19789348.0A EP3783887A4 (en) 2018-04-19 2019-04-15 RECEIVING DEVICE, AND RECEIVING METHOD, TRANSMISSION DEVICE, AND TRANSMISSION PROCESS

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018080978 2018-04-19
JP2018-080978 2018-04-19

Publications (1)

Publication Number Publication Date
WO2019203207A1 true WO2019203207A1 (ja) 2019-10-24

Family

ID=68239155

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/016232 WO2019203207A1 (ja) 2018-04-19 2019-04-15 受信装置、受信方法、送信装置および送信方法

Country Status (4)

Country Link
US (1) US20210006769A1 (ja)
EP (1) EP3783887A4 (ja)
CN (1) CN111971955A (ja)
WO (1) WO2019203207A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230237731A1 (en) * 2022-01-27 2023-07-27 Meta Platforms Technologies, Llc Scalable parallax system for rendering distant avatars, environments, and dynamic objects

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0927971A (ja) * 1995-07-10 1997-01-28 Shimadzu Corp 画像表示システム
JP2010158009A (ja) * 2008-12-26 2010-07-15 Samsung Electronics Co Ltd 映像処理方法及びその装置
WO2011001856A1 (ja) * 2009-06-29 2011-01-06 ソニー株式会社 立体画像データ送信装置および立体画像データ送信方法
WO2013105401A1 (ja) 2012-01-13 2013-07-18 ソニー株式会社 送信装置、送信方法、受信装置および受信方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4378118B2 (ja) * 2003-06-27 2009-12-02 学校法人早稲田大学 立体映像呈示装置
CN101453662B (zh) * 2007-12-03 2012-04-04 华为技术有限公司 立体视频通信终端、***及方法
CN102113324B (zh) * 2008-07-31 2013-09-25 三菱电机株式会社 视频编码装置、视频编码方法、视频再现装置、视频再现方法
US8208790B2 (en) * 2009-05-19 2012-06-26 Panasonic Corporation Recording medium, reproducing device, encoding device, integrated circuit, and reproduction output device
JP5369952B2 (ja) * 2009-07-10 2013-12-18 ソニー株式会社 情報処理装置および情報処理方法
JP2011097441A (ja) * 2009-10-30 2011-05-12 Sony Corp 情報処理装置、画像表示方法及びコンピュータプログラム
CN102834849B (zh) * 2011-03-31 2016-08-31 松下知识产权经营株式会社 进行立体视图像的描绘的图像描绘装置、图像描绘方法、图像描绘程序
US20140063187A1 (en) * 2012-01-19 2014-03-06 Sony Corporation Reception device, reception method, and electronic device
JP5837841B2 (ja) * 2012-02-09 2015-12-24 株式会社ジオ技術研究所 3次元地図表示システム
EP2688304B1 (en) * 2012-03-01 2019-09-25 Sony Corporation Transmitter, transmission method and receiver
CN107170345B (zh) * 2017-04-11 2019-07-19 广东工业大学 面向工业机器人的基于机器视觉和陀螺仪的示教方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0927971A (ja) * 1995-07-10 1997-01-28 Shimadzu Corp 画像表示システム
JP2010158009A (ja) * 2008-12-26 2010-07-15 Samsung Electronics Co Ltd 映像処理方法及びその装置
WO2011001856A1 (ja) * 2009-06-29 2011-01-06 ソニー株式会社 立体画像データ送信装置および立体画像データ送信方法
WO2013105401A1 (ja) 2012-01-13 2013-07-18 ソニー株式会社 送信装置、送信方法、受信装置および受信方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3783887A4 *

Also Published As

Publication number Publication date
US20210006769A1 (en) 2021-01-07
EP3783887A4 (en) 2021-05-19
EP3783887A1 (en) 2021-02-24
CN111971955A (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
CN109691094B (zh) 发送全向视频的方法、接收全向视频的方法、发送全向视频的装置和接收全向视频的装置
CN104506839B (zh) 处理三维视频信号的方法和执行该方法的数字广播接收机
KR20190094451A (ko) 360 비디오 시스템에서 오버레이 처리 방법 및 그 장치
JP7047095B2 (ja) カメラレンズ情報を含む360°ビデオを送受信する方法及びその装置
US10893254B2 (en) Method for transmitting 360-degree video, method for receiving 360-degree video, apparatus for transmitting 360-degree video, and apparatus for receiving 360-degree video
EP3632124B1 (en) High-level signalling for fisheye video data
WO2012043352A1 (ja) 立体画像データ送信装置、立体画像データ送信方法、立体画像データ受信装置および立体画像データ受信方法
CA2772927C (en) Cable broadcast receiver and 3d video data processing method thereof
CN113891117B (zh) 沉浸媒体的数据处理方法、装置、设备及可读存储介质
CN114095737B (zh) 媒体文件封装及解封装方法、装置、设备及存储介质
EP3739889A1 (en) Transmission device, transmission method, reception device and reception method
WO2023061131A1 (zh) 媒体文件封装方法、装置、设备及存储介质
WO2020107998A1 (zh) 视频数据的处理方法、装置、相关设备及存储介质
WO2019203207A1 (ja) 受信装置、受信方法、送信装置および送信方法
WO2021109412A1 (en) Volumetric visual media process methods and apparatus
JP2011151773A (ja) 映像処理装置及び制御方法
CN111684823B (zh) 发送装置、发送方法、处理装置以及处理方法
CN114556962A (zh) 多视点视频处理方法和装置
CN115733576B (zh) 点云媒体文件的封装与解封装方法、装置及存储介质
WO2019181493A1 (ja) 受信装置、受信方法、送信装置および送信方法
WO2023024843A1 (zh) 媒体文件封装与解封装方法、设备及存储介质
WO2023024839A1 (zh) 媒体文件封装与解封装方法、装置、设备及存储介质
WO2023153473A1 (ja) メディア処理装置、送信装置及び受信装置
CN116137664A (zh) 点云媒体文件封装方法、装置、设备及存储介质
JP2023117400A (ja) メディア処理装置、送信装置及び受信装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19789348

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2019789348

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2019789348

Country of ref document: EP

Effective date: 20201119

NENP Non-entry into the national phase

Ref country code: JP