WO2016056411A1 - 符号化装置および方法、再生装置および方法、並びにプログラム - Google Patents

符号化装置および方法、再生装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2016056411A1
WO2016056411A1 PCT/JP2015/077243 JP2015077243W WO2016056411A1 WO 2016056411 A1 WO2016056411 A1 WO 2016056411A1 JP 2015077243 W JP2015077243 W JP 2015077243W WO 2016056411 A1 WO2016056411 A1 WO 2016056411A1
Authority
WO
WIPO (PCT)
Prior art keywords
zoom area
information
area information
zoom
data
Prior art date
Application number
PCT/JP2015/077243
Other languages
English (en)
French (fr)
Inventor
辻 実
徹 知念
潤宇 史
西口 正之
優樹 山本
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to CN201580053817.8A priority Critical patent/CN106797499A/zh
Priority to EP15849654.7A priority patent/EP3206408B1/en
Priority to EP20215659.2A priority patent/EP3829185B1/en
Priority to US15/516,537 priority patent/US10631025B2/en
Priority to CN202210679653.1A priority patent/CN115243075A/zh
Priority to CN202210683302.8A priority patent/CN115209186A/zh
Priority to JP2016553047A priority patent/JP6565922B2/ja
Publication of WO2016056411A1 publication Critical patent/WO2016056411A1/ja
Priority to US16/826,675 priority patent/US11330310B2/en
Priority to US17/729,251 priority patent/US11917221B2/en
Priority to US18/407,888 priority patent/US20240146981A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234363Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the spatial resolution, e.g. for clients with a lower screen resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/156Availability of hardware or computational resources, e.g. encoding based on power-saving criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/23614Multiplexing of additional data and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/454Content or additional data filtering, e.g. blocking advertisements
    • H04N21/4545Input to filtering algorithms, e.g. filtering a region of the image
    • H04N21/45455Input to filtering algorithms, e.g. filtering a region of the image applied to a region of the image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream

Definitions

  • the present technology relates to an encoding apparatus and method, a reproduction apparatus and method, and a program, and in particular, an encoding apparatus and method, a reproduction apparatus and method, which can more appropriately reproduce appropriate content in each reproduction device, And the program.
  • video playback devices are diversified, and playback on various screen sizes from large screens to smartphones (multi-function mobile phones) can be considered, but currently the same content expands according to each screen size Or it is being reduced and played.
  • video content such as 4K and 8K is often produced assuming playback on a large screen as described above. For this reason, it has not been appropriate to play back such video content on a playback device having a relatively small screen, such as a tablet PC (Personal Computer) or a smartphone.
  • a playback device having a relatively small screen, such as a tablet PC (Personal Computer) or a smartphone.
  • the present technology has been made in view of such a situation, and makes it possible to more easily reproduce appropriate content on each reproduction device.
  • the playback device includes: a decoding unit that decodes encoded video data or encoded audio data; and a plurality of zoom area information that specifies an area to be zoomed.
  • a zoom area selection unit that selects a plurality of zoom area information, and a trimming process for the video data obtained by decoding based on the selected zoom area information, or an audio conversion process for the audio data obtained by decoding A data processing unit.
  • the plurality of zoom area information may include the zoom area information for designating the area for each type of device to be played.
  • the plurality of zoom area information may include the zoom area information for designating the area for each rotation direction of the reproduction target device.
  • the plurality of zoom area information may include the zoom area information for designating the area for each specific video object.
  • the zoom area selection unit can select the zoom area information in response to a user operation input.
  • the zoom area selection unit can select the zoom area information based on information related to the playback device.
  • the zoom area selection unit may select the zoom area information by using at least one of information indicating a type of the playback device and information indicating a rotation direction of the playback device as information on the playback device. it can.
  • the reproduction method or program according to the first aspect of the present technology decodes encoded video data or encoded audio data, and includes one or a plurality of pieces of information from among a plurality of zoom area information that specifies an area to be zoomed. And a trimming process for the video data obtained by decoding or an audio conversion process for the audio data obtained by decoding based on the selected zoom area information.
  • encoded video data or encoded audio data is decoded, and one or a plurality of zoom area information is selected from a plurality of zoom area information that specifies an area to be zoomed. Is selected, and based on the selected zoom area information, trimming processing is performed on the video data obtained by decoding, or audio conversion processing is performed on the audio data obtained by decoding.
  • the encoding device includes an encoding unit that encodes video data or encodes audio data, the encoded video data, or the encoded audio data
  • a multiplexing unit that multiplexes a plurality of zoom area information designating an area to be zoomed to generate a bitstream.
  • An encoding method or program encodes video data or encodes audio data, and zooms with the encoded video data or the encoded audio data.
  • video data is encoded or audio data is encoded, and the encoded video data or the encoded audio data and an area to be zoomed are specified. Multiple pieces of zoom area information to be multiplexed are generated to generate a bit stream.
  • ⁇ First Embodiment> ⁇ Configuration example of encoding device>
  • This technology makes it possible to more easily play back appropriate content, such as content suitable for those playback devices, on each playback device such as a television receiver or a smartphone with different display screen sizes.
  • the content here may be, for example, content composed of video and audio, or content composed only of either video or audio. In the following, the description will be continued by taking as an example a case where the content is composed of video and audio accompanying the video.
  • FIG. 1 is a diagram illustrating a configuration example of an encoding device to which the present technology is applied.
  • the encoding device 11 encodes the content produced by the content creator, and outputs a bit stream (code string) in which the encoded data obtained as a result is stored.
  • the encoding device 11 includes a video data encoding unit 21, an audio data encoding unit 22, a metadata encoding unit 23, a multiplexing unit 24, and an output unit 25.
  • video data and audio data constituting the content are supplied to the video data encoding unit 21 and the audio data encoding unit 22, respectively, and content metadata is supplied to the metadata encoding unit 23. Is done.
  • the video data encoding unit 21 encodes the video data of the supplied content, and supplies the encoded video data obtained as a result to the multiplexing unit 24.
  • the audio data encoding unit 22 encodes the audio data of the supplied content, and supplies the encoded audio data obtained as a result to the multiplexing unit 24.
  • the metadata encoding unit 23 encodes the metadata of the supplied content, and supplies the encoded metadata obtained as a result to the multiplexing unit 24.
  • the multiplexing unit 24 encodes the encoded video data supplied from the video data encoding unit 21, the encoded audio data supplied from the audio data encoding unit 22, and the encoded metadata supplied from the metadata encoding unit 23. Are multiplexed to generate a bit stream and supplied to the output unit 25.
  • the output unit 25 outputs the bit stream supplied from the multiplexing unit 24 to a playback device or the like.
  • bit stream output from the output unit 25 is also referred to as encoded content data.
  • the content encoded by the encoding device 11 is produced on the assumption that it is trimmed and reproduced as necessary. That is, the content creator creates the content on the assumption that the content is reproduced as it is, or a part of the entire video area constituting the content is trimmed and reproduced.
  • the content creator selects, as a zoom area, a partial area that is trimmed and reproduced, that is, an area that is zoomed and reproduced by trimming, out of the entire area of the video (image) constituting the content.
  • the zoom area may be freely determined by the content creator, for example, for the purpose of reproducing the viewing angle suitable for the assumed playback device. Also, the zoom area may be determined according to the purpose of zooming, such as zooming in on a specific object such as a vocalist or player in the content video.
  • the zoom area is specified as metadata for the bit stream output from the encoding device 11, that is, the encoded content data.
  • the zoom area information may be stored in the encoded content data for each time unit.
  • the zoom area information may be stored in the bitstream for each frame.
  • a header part HD storing header information and the like is arranged at the head of a bit stream, that is, encoded content data. Following the header part HD, encoded video data and encoded audio data are stored. A data section DA to be stored is arranged.
  • header part HD a video information header part PHD in which header information relating to the video constituting the content is stored, an audio information header part AHD in which header information relating to the audio constituting the content is stored, and header information relating to the metadata of the content Is stored in the meta information header part MHD.
  • the meta information header portion MHD is provided with a zoom area information header portion ZHD in which information related to the zoom area information is stored.
  • the zoom area information header portion ZHD stores a zoom area information presence flag indicating whether or not zoom area information is stored in the data portion DA.
  • the data portion DA is provided with a data portion in which encoded content data is stored for each frame of the content.
  • the data part DAF-1 for storing the data of the first frame is provided at the head of the data part DA, and the data of the second frame of the content is stored following the data part DAF-1.
  • Data section DAF-2 is provided.
  • the data portion for the third and subsequent frames is not shown.
  • the data part DAF-1 and the data part DAF-2 of each frame are simply referred to as the data part DAF when it is not necessary to distinguish between them.
  • the data part DAF-1 of the first frame stores a video information data part PD-1 in which encoded video data is stored, an audio information data part AD-1 in which encoded audio data is stored, and encoded metadata.
  • a meta information data part MD-1 is provided.
  • the meta information data part MD-1 includes position information of the video object and the sound source object included in the first frame of the content. Further, in the meta information data part MD-1, there is provided a zoom area information data part ZD-1 in which encoded zoom area information of the encoded metadata is stored. The position information, zoom area information, and the like of these video objects and sound source objects are used as content metadata.
  • the data part DAF-2 also includes a video information data part PD-2 in which encoded video data is stored, an audio information data part AD-2 in which encoded audio data is stored, and a code.
  • a meta information data part MD-2 for storing the generalized metadata.
  • the meta information data part MD-2 is provided with a zoom area information data part ZD-2 in which encoded zoom area information is stored.
  • the video information data part PD-1 and the video information data part PD-2 when it is not necessary to distinguish between the video information data part PD-1 and the video information data part PD-2, they are also simply referred to as the video information data part PD, the audio information data part AD-1 and the audio information data.
  • the voice information data part AD When it is not necessary to distinguish the part AD-2, it is also simply referred to as a voice information data part AD.
  • the meta information data part MD-1 and the meta information data part MD-2 they are also simply referred to as the meta information data part MD
  • the zoom area information data part ZD-1 and the zoom area information data When it is not necessary to distinguish the part ZD-2, it is also simply referred to as a zoom area information data part ZD.
  • each data part DAF is provided with a video information data part PD, an audio information data part AD, and a meta information data part MD
  • the meta information data part MD may be provided in each or one of the video information data part PD and the audio information data part AD.
  • zoom area information is stored in the zoom area information data part ZD of the meta information data part MD provided inside the video information data part PD and the audio information data part AD.
  • the example in which the video information header part PHD, the audio information header part AHD, and the meta information header part MHD are provided in the header part HD has been described, but either or both of the video information header part PHD and the audio information header part AHD are provided.
  • the meta information header part MHD may be provided.
  • the zoom area information when the zoom area information is the same in each frame of the content, the zoom area information may be stored in the header part HD. In this case, it is not necessary to provide the zoom area information data part ZD in each data part DAF.
  • the above-described zoom area information is information for specifying a zoom area that is an area to be zoomed.
  • the zoom area information is information indicating the position of the zoom area.
  • the zoom area can be specified using, for example, the coordinates of the center position of the zoom area, the start point coordinates, the end point coordinates, the vertical width, and the horizontal width as shown in FIG.
  • the entire area of the content video (image) is the original area OR, and one rectangular zoom area ZE is designated in the original area OR.
  • the horizontal (horizontal) width is the horizontal width XW in the zoom area ZE diagram
  • the vertical (vertical) width is the vertical width YW in the zoom area ZE diagram. Yes.
  • a point on the XY coordinate system in which the horizontal direction (horizontal direction) is the X direction and the vertical direction (vertical direction) is the Y direction is represented by coordinates (X, Y).
  • the coordinates of the point P11 which is the center position (center position) of the zoom area ZE
  • the zoom area ZE can be specified. Accordingly, the central coordinates (XC, YC), horizontal width XW, and vertical width YW can be used as zoom area information.
  • the zoom area ZE is a rectangular area, for example, in the figure of the zoom area ZE, the top left vertex P12 is the start point, and in the zoom area ZE, the bottom right vertex P13 is the end point, and the start points (
  • the zoom area ZE can also be specified by the coordinates (X0, Y0) of the vertex P12) and the coordinates (X1, Y1) of the end point (vertex P13). Therefore, the start point coordinates (X0, Y0) and the end point coordinates (X1, Y1) can be used as zoom area information.
  • the zoom area information presence flag shown in FIG. 4 is stored in the above-described zoom area information header portion ZHD, and each zoom area information data portion ZD is set in FIG. 5 according to the value of the zoom area information presence flag.
  • the zoom area information shown in FIG. 4 is stored in the above-described zoom area information header portion ZHD, and each zoom area information data portion ZD is set in FIG. 5 according to the value of the zoom area information presence flag.
  • FIG. 4 shows the syntax of the zoom area information presence flag.
  • “hasZoomAreaInfo” indicates a zoom area information presence flag
  • the value of the zoom area information presence flag hasZoomAreaInfo is either 0 or 1.
  • zoom area information presence flag hasZoomAreaInfo when the value of the zoom area information presence flag hasZoomAreaInfo is 0, it indicates that the encoded content data does not include zoom area information. On the other hand, when the value of the zoom area information presence flag hasZoomAreaInfo is 1, it indicates that the encoded content data includes zoom area information.
  • the zoom area information is stored in the zoom area information data portion ZD of each frame.
  • the zoom area information is stored in the zoom area information data part ZD with the syntax shown in FIG.
  • ZeroAreaX0” and “ZoomAreaY0” indicate X0 and Y0 which are the X coordinate and Y coordinate of the start point of the zoom area ZE, respectively.
  • ZerooomAreaX1” and “ZoomAreaY1” indicate X1 and Y1, which are the X coordinate and the Y coordinate of the end point of the zoom area ZE, respectively.
  • the value of “ZoomAreaX0” and “ZoomAreaX1” is any value from 0 to 7679, and the value of “ZoomAreaY0” and “ZoomAreaY1” is 0 Or any value of 4319.
  • zoom area information presence flag hasZoomAreaInfo shown in FIG. 4 is stored in the zoom area information header section ZHD. Is done.
  • the zoom area information presence flag hasZoomAreaInfo is 1, the zoom area information is stored in the zoom area information data portion ZD of each frame. In this case, the zoom area information is stored in the zoom area information data part ZD with the syntax shown in FIG. 6, for example.
  • ZerooomAreaXC and “ZoomAreaYC” indicate the X coordinate and the Y coordinate XC and YC of the central coordinates (XC, YC) of the zoom area ZE, respectively.
  • ZeroAreaXW and “ZoomAreaYW” indicate the horizontal width XW and vertical width YW of the zoom area ZE, respectively.
  • the value of “ZoomAreaXC” and “ZoomAreaXW” is any value from 0 to 7679
  • “ZoomAreaYC” and “ The value of “ZoomAreaYW” is any value from 0 to 4319.
  • zoom area information ⁇ Specific example 3 of zoom area information> Furthermore, for example, when the zoom area is specified by the central coordinates (XC, YC), the horizontal width XW, and the vertical width YW, and the horizontal width XW and the vertical width YW are fixed values, the central coordinates (XC, YC) Only the difference between them may be stored in the zoom area information data section ZD as zoom area information.
  • the zoom area information shown in FIG. 6 is stored in the zoom area information data portion ZD-1 provided in the data portion DAF-1 of the first frame. Also, zoom area information is stored in the zoom area information data portion ZD provided in the data portion DAF of the second and subsequent frames with the syntax shown in FIG.
  • “nbits”, “ZoomAreaXCshift”, and “ZoomAreaYCshift” are stored as zoom area information. “Nbits” is bit number information indicating how many bits each of “ZoomAreaXCshift” and “ZoomAreaYCshift” is.
  • “ZoomAreaXCshift” indicates a difference from a predetermined reference value of XC, which is the X coordinate of the central coordinates (XC, YC).
  • the reference value of the coordinate XC may be the X coordinate of the central coordinate (XC, YC) in the first frame, or the X coordinate of the central coordinate (XC, YC) in the frame immediately before the current frame. .
  • “ZoomAreaYCshift” indicates the difference from the predetermined reference value of YC, which is the Y coordinate of the central coordinates (XC, YC).
  • the reference value of the coordinate YC may be the Y coordinate of the central coordinate (XC, YC) in the first frame, as in the reference value of the coordinate XC, or the central coordinate (XC, YC) in the frame immediately before the current frame. ) Y coordinate.
  • Zero “ZoomAreaXCshift” and “ZoomAreaYCshift” indicate the amount of movement from the reference value of the central coordinates (XC, YC).
  • the zoom area information header ZHD May store the zoom area information shown in FIG. 7 in the zoom area information data portion ZD of each frame.
  • zoom area information For example, when the zoom area is specified by the center coordinates (XC, YC), the horizontal width XW, and the vertical width YW, and the center coordinates (XC, YC) are fixed values, the horizontal width XW and the vertical width YW Only the difference, that is, the change amount may be stored in the zoom area information data unit ZD as zoom area information.
  • zoom area information shown in FIG. 6 is stored in the zoom area information data portion ZD-1 provided in the data portion DAF-1 of the first frame. Further, zoom area information data portion ZD provided in data portion DAF of the second and subsequent frames stores zoom area information with the syntax shown in FIG.
  • “nbits”, “ZoomAreaXWshift”, and “ZoomAreaYWshift” are stored as zoom area information. “Nbits” is bit number information indicating how many bits each of “ZoomAreaXWshift” and “ZoomAreaYWshift” is.
  • ZerooomAreaXWshift indicates the amount of change from a predetermined reference value of the horizontal width XW.
  • the reference value of the horizontal width XW may be the horizontal width XW in the first frame or the horizontal width XW in the frame immediately before the current frame.
  • “ZoomAreaYWshift” indicates the amount of change from the reference value of the vertical width YW.
  • the reference value of the vertical width YW may be the vertical width YW in the first frame or the vertical width YW in the frame immediately before the current frame, similarly to the reference value of the horizontal width XW.
  • the zoom area information header part ZHD May store the zoom area information shown in FIG. 8 in the zoom area information data portion ZD of each frame.
  • zoom area information ⁇ Specific example 5 of zoom area information> Further, for example, when the zoom area is specified by the center coordinates (XC, YC), the horizontal width XW, and the vertical width YW, the center coordinates (XC, YC), the horizontal width XW, Alternatively, the difference between the vertical width YW may be stored in the zoom area information data unit ZD as zoom area information.
  • the zoom area information shown in FIG. 6 is stored in the zoom area information data portion ZD-1 provided in the data portion DAF-1 of the first frame. Also, zoom area information is stored in the zoom area information data portion ZD provided in the data portion DAF of the second and subsequent frames with the syntax shown in FIG.
  • zoomAreaXCshift In FIG. 9, “nbits”, “ZoomAreaXCshift”, “ZoomAreaYCshift”, “ZoomAreaXWshift”, and “ZoomAreaYWshift” are stored as zoom area information.
  • Nbits is bit number information indicating how many bits each of “ZoomAreaXCshift”, “ZoomAreaYCshift”, “ZoomAreaXWshift”, and “ZoomAreaYWshift” is.
  • ZeroAreaXCshift and “ZoomAreaYCshift” indicate the difference from the reference values of the X and Y coordinates of the central coordinates (XC, YC) as in the case of FIG.
  • ZeroAreaXWshift and “ZoomAreaYWshift” indicate the amount of change from the reference value of the horizontal width XW and the vertical width YW, as in FIG.
  • the reference values for the center coordinates (XC, YC), horizontal width XW, and vertical width YW are the center coordinates (XC, YC), horizontal width XW, and vertical width YW in the first frame or the frame immediately before the current frame. can do.
  • the reference values of the center coordinates (XC, YC), horizontal width XW, and vertical width YW are known on the content playback side, or when the reference values are stored in the zoom area information header ZHD.
  • the zoom area information shown in FIG. 9 may be stored in the zoom area information data portion ZD of each frame.
  • the zoom area information may be stored in each zoom area information data unit ZD, for example, with the syntax shown in FIG.
  • the zoom area information presence flag hasZoomAreaInfo shown in FIG. 4 is stored in the zoom area information header ZHD.
  • the zoom area information is stored in the zoom area information data portion ZD of each frame.
  • the zoom area information is stored in the zoom area information data part ZD with the syntax shown in FIG.
  • FIG. 10 at the head of the zoom area information, which format among the formats shown in FIGS. 6 to 9 is described, and more specifically, information for specifying the position of the zoom area is described.
  • the encoding mode information shown is arranged.
  • “mode” indicates encoding mode information.
  • the value of the encoding mode information mode is any value from 0 to 3.
  • zoomAreaXC indicating the coordinate XC
  • ZoomAreaYC indicating the coordinate YC as in the example of FIG.
  • zoomAreaXW indicating the horizontal width XW and “ZoomAreaYW” indicating the vertical width YW are stored as zoom area information.
  • the difference between “nbits”, which is the bit number information, and the coordinate XC is shown as in the case of FIG. “ZoomAreaXCshift” and “ZoomAreaYCshift” indicating a difference between coordinates YC are stored as zoom area information.
  • zoomAreaXWshift When the value of the encoding mode information mode is 2, as shown in “case 2” and below in the figure, the amount of bit information “nbits” and the amount of change in the horizontal width XW are shown as in the example of FIG. “ZoomAreaXWshift” and “ZoomAreaYWshift” indicating the amount of change in the vertical width YW are stored as zoom area information.
  • zoomAreaXCshift which is the bit number information and the difference between the coordinates XC as in the example of FIG.
  • ZoomAreaYCshift indicating the difference between the coordinates YC
  • ZoomAreaXWshift indicating the change amount of the horizontal width XW
  • ZoomAreaYWshift indicating the change amount of the vertical width YW
  • zoom area information ⁇ Specific example 7 of zoom area information>
  • the coordinate information is stored as the zoom area information.
  • angle information for specifying the zoom area may be stored in each zoom area information data unit ZD as the zoom area information.
  • FIG. 11 a point that is the same height as the center position CP of the original area OR and is a predetermined distance away from the center position CP in FIG.
  • the viewing point WP becomes. Further, the positional relationship between the center position CP and the viewing point WP is always the same regardless of the content frame.
  • parts corresponding to those in FIG. 3 are denoted by the same reference numerals, and description thereof will be omitted as appropriate.
  • a straight line connecting the center position CP and the viewing point WP is defined as a straight line L11.
  • the middle point on the left side is defined as a point P21
  • a straight line connecting the point P21 and the viewing point WP is defined as a straight line L12.
  • an angle formed by the straight line L11 and the straight line L12 is set as a horizontal angle ⁇ left .
  • the midpoint of the right side is defined as a point P22
  • a straight line connecting the point P22 and the viewing point WP is defined as a straight line L13.
  • an angle formed by the straight line L11 and the straight line L13 is a horizontal angle ⁇ right .
  • a position where the center position CP and the Y coordinate are the same on the right side is a point P23, and a straight line connecting the point P23 and the viewing point WP is a straight line L14.
  • the upper right vertex of the point P24, a straight line connecting the viewing point WP and the point P24 with a straight line L15, the angle between the straight line L14 and the line L15 and elevation theta top is a position where the center position CP and the Y coordinate are the same on the right side.
  • the lower right vertex is a point P25
  • a straight line connecting the point P25 and the viewing point WP is a straight line L16
  • an angle formed by the straight line L14 and the straight line L16 is an elevation angle ⁇ bottom .
  • the zoom area ZE can be specified by the horizontal angle ⁇ left , the horizontal angle ⁇ right , the elevation angle ⁇ top , and the elevation angle ⁇ bottom . Therefore, these horizontal angle ⁇ left , horizontal angle ⁇ right , elevation angle ⁇ top , and elevation angle ⁇ bottom may be stored as zoom area information in each zoom area information data section ZD shown in FIG. Further, a change amount of a part or all of these horizontal angle ⁇ left , horizontal angle ⁇ right , elevation angle ⁇ top , and elevation angle ⁇ bottom may be used as zoom area information.
  • a straight line connecting the point P11 that is the center position of the zoom area ZE and the viewing point WP is a straight line L21.
  • a point connecting the point P31 and the viewing point WP is a point where the X coordinate is the same as the point P11 which is the center position of the zoom area ZE and the center position CP and the Y coordinate of the original area OR are the same. Is a straight line L22.
  • the midpoint of the upper side is point P32
  • the straight line connecting the point P32 and the viewing point WP is straight line L23
  • the midpoint of the lower side in the zoom area ZE diagram Is a point P33
  • a straight line connecting the point P33 and the viewing point WP is a straight line L24.
  • an angle formed by the straight line L23 and the straight line L24 is defined as a vertical viewing angle ⁇ W, and an angle formed by the straight line L21 and the straight line L22 is defined as an elevation angle ⁇ C.
  • the horizontal angle ⁇ C and the elevation angle ⁇ C indicate the horizontal angle and the elevation angle from the viewing point WP with respect to the point P11 which is the center position of the zoom area ZE, respectively.
  • the zoom area ZE can be specified by the horizontal viewing angle ⁇ W , the horizontal angle ⁇ C , the vertical viewing angle ⁇ W , and the elevation angle ⁇ C. Accordingly, the horizontal viewing angle ⁇ W , the horizontal angle ⁇ C , the vertical viewing angle ⁇ W , the elevation angle ⁇ C, and the amount of change in these angles are used as zoom area information in each zoom area information data unit ZD shown in FIG. It may be stored.
  • the zoom area information presence flag hasZoomAreaInfo shown in FIG. 4 is stored in the zoom area information header part ZHD.
  • the zoom area information is stored in the zoom area information data portion ZD of each frame.
  • the zoom area information is stored in the zoom area information data part ZD with the syntax shown in FIG.
  • zoom mode information indicating in which format of the plurality of formats, more specifically, information specifying the position of the zoom area is described at the top of the zoom area information. ing.
  • mode indicates encoding mode information
  • the value of the encoding mode information mode is any one of 0 to 3.
  • zoomAreaAZC indicating the horizontal angle ⁇ C
  • ZoomAreaELC indicating the elevation angle ⁇ C
  • horizontal viewing angle ⁇ W as shown below “case 0” in the figure “ZoomAreaAZW” indicating “ZoomAreaAZW” and “ZoomAreaELW” indicating vertical viewing angle ⁇ W are stored as zoom area information.
  • zoomAreaAZCshift indicating the moving angle of the horizontal angle ⁇ C
  • elevation angle ⁇ as shown below “case1” in the figure
  • zoomAreaELCshift indicating the movement angle of C is stored as zoom area information.
  • bit number information nbits is information indicating how many bits each of “ZoomAreaAZCshift” and “ZoomAreaELCshift” is.
  • ZeroAreaAZCshift and “ZoomAreaELCshift” are respectively the horizontal angle ⁇ C and elevation angle ⁇ C of the frame immediately before the current frame, or the predetermined reference horizontal angle ⁇ C and elevation angle ⁇ C and the horizontal angle ⁇ of the current frame. The difference between C and the elevation angle ⁇ C is used.
  • zoomAreaAZWshift indicating the amount of change in the horizontal viewing angle ⁇ W
  • vertical as shown in “case2” and below in the figure
  • zoomAreaELWshift indicating the amount of change in the viewing angle ⁇ W
  • bit number information nbits is information indicating how many bits each of “ZoomAreaAZWshift” and “ZoomAreaELWshift” is.
  • ⁇ ZoomAreaAZWshift '' and ⁇ ZoomAreaELWshift '' are respectively the horizontal viewing angle ⁇ W and vertical viewing angle ⁇ W of the frame immediately before the current frame, or the predetermined standard horizontal viewing angle ⁇ W and vertical viewing angle ⁇ W , The difference between the horizontal viewing angle ⁇ W and the vertical viewing angle ⁇ W of the current frame is used.
  • zoomAreaAZCshift which indicates the moving angle of the horizontal angle ⁇ C
  • elevation angle as shown below “case3” in the figure “ZoomAreaELCshift” indicating the moving angle of ⁇ C
  • ZoomAreaAZWshift indicating the change amount of the horizontal viewing angle ⁇ W
  • ZoomAreaELWshift indicating the change amount of the vertical viewing angle ⁇ W
  • bit number information nbits in this case indicates how many bits each of “ZoomAreaAZCshift”, “ZoomAreaELCshift”, “ZoomAreaAZWshift”, and “ZoomAreaELWshift” is.
  • zoom area information is not limited to the example of FIG. 13 but only “ZoomAreaAZC”, “ZoomAreaELC”, “ZoomAreaAZW”, and “ZoomAreaELW” may be used.
  • both or only one of “ZoomAreaAZCshift” and “ZoomAreaELCshift” and “ZoomAreaAZWshift” and “ZoomAreaELWshift” may be the zoom area information.
  • zoom area information data unit ZD a plurality of zoom area information may be stored in the zoom area information data unit ZD. That is, a plurality of zoom areas may be designated for one content, and the zoom area information may be stored in the zoom area information data unit ZD for each zoom area.
  • each piece of information is stored in the zoom area information header portion ZHD with the syntax shown in FIG. 14, and further, the zoom area information is stored in the zoom area information data portion ZD of each frame with the syntax shown in FIG.
  • “hasZoomAreaInfo” indicates a zoom area information presence flag
  • “numZoomAreas” is subsequent to the zoom area information presence flag hasZoomAreaInfo.
  • numZoomAreas indicates the number of zoom area information described in the zoom area information data portion ZD, that is, the zoom area number information indicating the number of zoom areas determined for the content.
  • the value of the zoom area number information numZoomAreas is any value from 0 to 15.
  • zoom area information more specifically, information for specifying the position of each zoom area is stored in the zoom area information data section ZD by the number obtained by adding 1 to the value of the zoom area number information numZoomAreas. .
  • the zoom area information data section ZD stores information for specifying the position of the zoom area for one zoom area.
  • the zoom area information is stored in the zoom area information data section ZD.
  • the zoom area information is described in the zoom area information data part ZD with the syntax shown in FIG.
  • zoom area information is stored in the number indicated by the zoom area number information numZoomAreas.
  • mode [idx]” indicates encoding mode information for the zoom area specified by the index idx, and the value of the encoding mode information mode [idx] is any one of 0 to 3 Is done.
  • the index idx is 0 to numZoomAreas.
  • the bit number information “nbits” and the coordinate XC “ZoomAreaXCshift [idx] And “ZoomAreaYCshift [idx]” indicating the difference between the coordinates YC are stored as zoom area information of the zoom area specified by the index idx.
  • the bit number information nbits indicates how many bits each of “ZoomAreaXCshift [idx]” and “ZoomAreaYCshift [idx]” is.
  • nbits that is the number of bits information
  • “ZoomAreaXWshift [idx]” that indicates the amount of change in the horizontal width XW as shown below “case2” in the figure
  • “ZoomAreaYWshift [idx]” indicating the amount of change in the vertical width YW is stored as zoom area information of the zoom area specified by the index idx.
  • the bit number information nbits indicates how many bits each of “ZoomAreaXWshift [idx]” and “ZoomAreaYWshift [idx]” is.
  • bit number information nbits indicates how many bits each of “ZoomAreaXCshift [idx]”, “ZoomAreaYCshift [idx]”, “ZoomAreaXWshift [idx]”, and “ZoomAreaYWshift [idx]” is. .
  • the encoding mode information mode [idx] and the zoom area information are stored in the zoom area information data part ZD by the number of zoom areas.
  • the zoom area information is only the coordinates XC and YC, the horizontal angle ⁇ C and the elevation angle ⁇ C , the difference between the coordinates XC and the difference between the coordinates YC, or the difference between the horizontal angle ⁇ C and the difference between the elevation angles ⁇ C. You may make it do.
  • the horizontal width XW and the vertical width YW, the horizontal viewing angle ⁇ W and the vertical viewing angle ⁇ W can be determined on the playback side.
  • the horizontal width XW and the vertical width YW, the horizontal viewing angle ⁇ W and the vertical viewing angle ⁇ W may be automatically determined by the playback-side device or may be specified by the user. .
  • the coordinates XC and the coordinates YC indicating the position of the ball are set as zoom area information, and are fixed on the playback side device or specified by the user.
  • a width XW and a vertical width YW are used.
  • the zoom area information header portion ZHD may include supplementary information such as an ID indicating the reproduction target device and the zoom purpose, and other text information as zoom area auxiliary information.
  • the zoom area information header flag ZHD stores a zoom area information presence flag hasZoomAreaInfo and zoom area auxiliary information, for example, with the syntax shown in FIG.
  • zoom area information presence flag hasZoomAreaInfo when the zoom area information presence flag hasZoomAreaInfo is arranged at the head and the value of this zoom area information presence flag hasZoomAreaInfo is 1, each piece of information such as zoom area auxiliary information is stored thereafter. ing.
  • zoom area number information “numZoomAreas” indicating the number of zoom area information described in the zoom area information data portion ZD is stored.
  • the value of the zoom area number information numZoomAreas is any value from 0 to 15.
  • the zoom area number information numZoomAreas information about the zoom area specified by the index idx is arranged in the number indicated by the zoom area number information numZoomAreas.
  • the index idx is 0 to numZoomAreas.
  • “hasExtZoomAreaInfo [idx]” following the zoom area number information numZoomAreas indicates an auxiliary information flag indicating whether or not zoom area auxiliary information of the zoom area specified by the index idx is stored.
  • the value of the auxiliary information flag hasExtZoomAreaInfo [idx] is either 0 or 1.
  • auxiliary information flag hasExtZoomAreaInfo [idx] When the value of the auxiliary information flag hasExtZoomAreaInfo [idx] is 0, it indicates that the zoom area auxiliary information of the zoom area specified by the index idx is not stored in the zoom area information header part ZHD. In contrast, when the value of the auxiliary information flag hasExtZoomAreaInfo [idx] is 1, it indicates that the zoom area auxiliary information of the zoom area specified by the index idx is stored in the zoom area information header part ZHD. ing.
  • auxiliary information flag hasExtZoomAreaInfo [idx] When the value of the auxiliary information flag hasExtZoomAreaInfo [idx] is 1, the auxiliary information flag hasExtZoomAreaInfo [idx] is followed by “ZoomAreaSpecifiedID [idx]” which is a specification ID indicating the specification of the zoom area specified by the index idx Has been placed.
  • “hasZoomAreaCommentary” indicates a supplementary information flag indicating whether or not there is additional supplementary information other than the specification ID, such as text information such as an explanation of the zoom area, for the zoom area specified by the index idx. .
  • this supplement information flag hasZoomAreaCommentary when the value of this supplement information flag hasZoomAreaCommentary is 0, it indicates that there is no supplement information. On the other hand, when the value of the supplemental information flag hasZoomAreaCommentary is 1, it indicates that supplementary information is present. Following the supplemental information flag hasZoomAreaCommentary, the number of bytes information “nbytes” and supplementary information A certain "ZoomAreaCommentary [idx]" is placed.
  • the byte number information nbytes indicates how many bytes the supplementary information ZoomAreaCommentary [idx] is.
  • the supplementary information ZoomAreaCommentary [idx] is text information that describes the zoom area specified by the index idx.
  • the content is composed of live video and its audio
  • the zoom area specified by the index idx is a zoom area for the purpose of continuing to zoom the vocalist as a video object.
  • text information such as “vocal zoom” is used as supplementary information ZoomAreaCommentary [idx].
  • ZoomAreaCommentary a set of supplementary information ZoomAreaCommentary [idx].
  • zoomAreaSpecifiedID [idx] supplementary information flag hasZoomAreaCommentary, byte count information nbytes, and supplementary information ZoomAreaCommentary [idx] are not stored.
  • the byte number information nbytes and the supplementary information ZoomAreaCommentary [idx] are not stored.
  • the specification ID ZoomAreaSpecifiedID [idx] is information indicating the zoom specification such as the playback target device and the zoom purpose with respect to the zoom area. For example, as shown in FIG. 17, the zoom specification corresponds to each value of ZoomAreaSpecifiedID [idx]. It has been established.
  • ZoomAreaSpecifiedID [idx] when the value of ZoomAreaSpecifiedID [idx] is 1, it indicates that the zoom area of the zoom specification indicated by the specification ID is a zoom area assuming that the playback target device is a projector. .
  • zoomAreaSpecifiedID [idx] 2 to 4
  • the zoom specification zoom area indicated by these specification IDs has screen sizes greater than 50, 30 to 50, and less than 30 This shows that each of the television receivers is a zoom area that assumes a playback target device.
  • the zoom area information whose ZoomAreaSpecifiedID [idx] value is any one of 1 to 4 is information indicating the zoom area determined for each type of playback target device.
  • zoomAreaSpecifiedID [idx] 7
  • the zoom area of the zoom specification indicated by the specification ID assumes that the playback target device is a smartphone and the rotation direction of the smartphone is the vertical direction This indicates that it is a zoom area.
  • the rotation direction of the smartphone is the vertical direction
  • the direction of the smartphone when the user views content on the smartphone is the vertical direction
  • the longitudinal direction of the display screen of the smartphone is the vertical direction as viewed from the user ( Vertical direction).
  • the zoom area is, for example, a vertically long area.
  • the zoom specification zoom area indicated by the specification ID assumes that the playback target device is a smartphone and the rotation direction of the smartphone is the horizontal direction. It is shown that it is a zoom area. In this case, the zoom area is, for example, a horizontally long area.
  • each zoom area information whose ZoomAreaSpecifiedID [idx] value is any one of 5 to 8 is determined with respect to the type of the playback target device and the rotation direction of the playback target device.
  • Information indicating the zoom area is indicated.
  • zoomAreaSpecifiedID [idx] 9
  • the predetermined zoom purpose is to display a specific zoom view, for example, to zoom in on a predetermined video object.
  • zoomAreaSpecifiedID [idx] value “9” indicates a zoom specification intended to continue zooming the vocalist
  • supplemental information ZoomAreaCommentary [idx] of the index idx is a text such as “Vocal Zoom”. Information. The user can know what zoom specification the zoom specification indicated by each specification ID is from the specification ID, information associated with the specification ID, supplementary information about the specification ID, or the like.
  • each zoom area information whose ZoomAreaSpecifiedID [idx] value is any one of 9 to 15 is, for example, a zoom area defined for each specific video object on the content producer side. It is information indicating an arbitrary zoom area that is freely defined.
  • an image Q11 shows a video (image) of a predetermined content.
  • This content is a live video content
  • the image Q11 is a wide-angle image in which the vocalist M11, guitarist M12, and bassist M13 who are live performers are shown, as well as the entire stage and the audience.
  • the content creator sets one or a plurality of zoom areas for the image Q11 constituting such content according to the zoom specifications such as the playback target device and the zoom purpose.
  • the image Q12 can be reproduced as content on the reproduction side.
  • the image Q14 can be played back as content on the playback side.
  • the image Q14 includes a zoom area image Q21 having a slightly narrower angle of view than the image Q11, a zoom area image Q22 in which the vocalist M11 is zoomed up, a zoom area image Q23 in which the guitarist M12 is zoomed in, and a bassist M13. Consists of zoomed-in zoom area image Q24. That is, the image Q14 has a multi-screen configuration. If the content providing side defines a plurality of zoom areas in advance, it is possible to select several zoom areas on the content reproduction side and reproduce the content with a multi-screen configuration like the image Q14.
  • each performer can be displayed in a sufficiently large size even on a playback device whose display screen is not so large.
  • the image Q16 can be played back as content.
  • the image Q17 is reproduced as content on the reproduction side.
  • a smartphone with a rotation direction of the vertical direction that is, a vertically long display screen, and a zoom area that is long in the vertical direction near the center of the image Q11
  • the image Q17 is reproduced as content on the reproduction side. Can do.
  • image Q17 the vocalist M11, one of the performers, is zoomed in and displayed.
  • a vertically long display screen is assumed, so it is more suitable for the playback target device to display one performer zoomed in than to display all performers arranged in the horizontal direction. Since it is a display, such a zoom area is set.
  • the angle of view is slightly narrower than that of the image Q11, that is, including the center of the image Q11, If a wide area is set as a zoom area, the image Q18 can be reproduced as content on the reproduction side.
  • the zoom area on the content providing side by setting the zoom area on the content providing side and generating the encoded content data including the zoom area information indicating the zoom area, the user who is the viewer of the content on the playback side can use the content as it is. It is possible to select whether to reproduce or to perform zoom reproduction, that is, trimming reproduction according to the zoom area information.
  • the user can select which zoom area information out of the plurality of zoom area information is to be used for zoom reproduction.
  • zoom area auxiliary information is stored in the encoded content data, on the playback side, refer to the zoom specifications such as the playback target device, zoom purpose, zoom content, and supplementary information, and the playback device or user's A zoom area suitable for the preference can be selected.
  • the selection of the zoom area may be specified by the user or may be automatically performed by the playback device.
  • the encoding device 11 performs an encoding process and outputs encoded content data when video data and audio data constituting the content and metadata of the content are supplied from the outside.
  • the encoding process performed by the encoding device 11 will be described with reference to the flowchart of FIG.
  • step S11 the video data encoding unit 21 encodes the video data of the supplied content, and supplies the encoded video data obtained as a result to the multiplexing unit 24.
  • step S12 the audio data encoding unit 22 encodes the audio data of the supplied content, and supplies the encoded audio data obtained as a result to the multiplexing unit 24.
  • step S13 the metadata encoding unit 23 encodes the metadata of the supplied content, and supplies the encoded metadata obtained as a result to the multiplexing unit 24.
  • the encoded metadata includes, for example, the zoom area information described above.
  • the zoom area information may be any information other than that described with reference to FIGS. 5 to 10, FIG. 13, FIG.
  • the metadata encoding unit 23 also encodes the zoom area information header flag hasZoomAreaInfo, zoom area number information numZoomAreas, and zoom area information header information such as zoom area auxiliary information, and supplies them to the multiplexing unit 24. To do.
  • step S14 the multiplexing unit 24 receives the encoded video data supplied from the video data encoding unit 21, the encoded audio data supplied from the audio data encoding unit 22, and the metadata encoding unit 23.
  • the encoded metadata is multiplexed to generate a bit stream and supplied to the output unit 25.
  • the multiplexing unit 24 also stores the encoded header information of the zoom area information supplied from the metadata encoding unit 23 in the bit stream.
  • the encoded content data shown in FIG. 2 is obtained as a bit stream.
  • the configuration of the zoom area information header portion ZHD of the encoded content data may be any configuration such as the configurations shown in FIGS. 4, 14, and 16.
  • step S15 the output unit 25 outputs the bit stream supplied from the multiplexing unit 24, and the encoding process ends.
  • the encoding device 11 encodes the metadata including the zoom area information together with the content, and generates a bit stream.
  • the content creator designates the zoom area without preparing the content that is considered optimal for the user's preference, the screen size of the playback device, the rotation direction of the playback device, etc. for each preference or playback device. It becomes possible to provide simply.
  • FIG. 20 is a diagram illustrating a configuration example of an embodiment of a playback device to which the present technology is applied.
  • the playback device 51 includes a display device 52 that displays information when a zoom area is selected, a video output device 53 that outputs content video, and an audio output device 54 that outputs content audio as necessary. It is connected.
  • the display device 52, the video output device 53, and the audio output device 54 may be provided in the playback device 51.
  • the display device 52 and the video output device 53 may be the same device.
  • the playback apparatus 51 includes a content data decoding unit 61, a zoom area selection unit 62, a video data decoding unit 63, a video cutout unit 64, an audio data decoding unit 65, and an audio conversion unit 66.
  • the content data decoding unit 61 receives the bit stream transmitted from the encoding device 11, that is, encoded content data, and separates encoded video data, encoded audio data, and encoded metadata from the encoded content data. .
  • the content data decoding unit 61 supplies the encoded video data to the video data decoding unit 63 and also supplies the encoded audio data to the audio data decoding unit 65.
  • the content data decoding unit 61 decodes the encoded metadata to obtain metadata, and supplies the obtained metadata to each unit of the playback device 51 as necessary.
  • the content data decoding unit 61 supplies the zoom area information to the zoom area selection unit 62.
  • the zoom area auxiliary information is stored in the bitstream, the content data decoding unit 61 reads out the zoom area auxiliary information, decodes it if necessary, and supplies it to the zoom area selection unit 62.
  • the zoom area selection unit 62 selects one zoom area information from one or a plurality of zoom area information supplied from the content data decoding unit 61, and extracts the image using the selected zoom area information as the selected zoom area information. To the unit 64 and the audio conversion unit 66. In other words, the zoom area selection unit 62 selects a zoom area based on the zoom area information supplied from the content data decoding unit 61.
  • the zoom area selecting unit 62 supplies the zoom area auxiliary information to the display device 52 to display it.
  • the display device 52 displays the zoom area auxiliary information as a specification ID indicating the purpose and content of the zoom area, a zoom specification of the playback target device, etc., information based on the specification ID, text information, and the like. Is done.
  • the user confirms the zoom area auxiliary information displayed on the display device 52, operates the input unit (not shown), and selects a desired zoom area.
  • the zoom area selection unit 62 selects a zoom area based on a signal corresponding to a user operation supplied from the input unit, and outputs selected zoom area information indicating the selected zoom area. That is, the zoom area information of the zoom area designated by the user is selected, and the selected zoom area information is output as the selected zoom area information.
  • information indicating the position and size of the zoom area is generated from the zoom area information by the zoom area selection unit 62 and displayed on the display device 52, and the user selects the zoom area based on the display.
  • the selection may be made in any way.
  • the selected zoom area information is information indicating that trimming is not performed.
  • the playback device 51 has previously recorded playback device information indicating what type of device it is, such as a smartphone or a television receiver, the playback device information is used.
  • Zoom area information may be selected.
  • the zoom area selection unit 62 acquires the playback device information, and selects the zoom area information using the acquired playback device information and the zoom area auxiliary information.
  • the zoom area selection unit 62 selects a specification ID indicating that the playback target device is a device of the type indicated by the playback device information from the specification ID as zoom area auxiliary information. Then, the zoom area selection unit 62 sets the zoom area information corresponding to the selected specification ID, that is, the zoom area information whose index idx is the same as that of the selected specification ID, as the selected zoom area information. .
  • the zoom area selection unit 62 acquires direction information indicating the rotation direction of the playback device 51 from a gyro sensor (not shown) and the like.
  • the zoom area information may be selected using the information.
  • the zoom area selection unit 62 has acquired the expected rotation direction of the specification ID as the zoom area auxiliary information and the playback target device is a type of device indicated by the playback device information. A specification ID indicating the direction indicated by the direction information is selected. Then, the zoom area selection unit 62 sets the zoom area information corresponding to the selected specification ID as the selected zoom area information. Accordingly, whether the user is using the playback device 51 in the vertical direction (vertically long screen) or in the horizontal direction (horizontal screen), the zoom area that is optimal for the current state Area information is selected.
  • the zoom area information may be selected by using only one of the playback device information and the direction information, or the zoom area information may be selected by using other information regarding the playback device 51. You may make it do.
  • the video data decoding unit 63 decodes the encoded video data supplied from the content data decoding unit 61, and supplies the video data obtained as a result to the video cutting unit 64.
  • the video cutout unit 64 trims the zoom area indicated by the selected zoom area information supplied from the zoom area selection unit 62 from the video (image) based on the video data supplied from the video data decoding unit 63 (The zoom video data obtained as a result is output to the video output device 53.
  • the video cutout unit 64 does not perform trimming processing on the video data, and the video data is directly used as zoom video data to the video output device 53. Output.
  • the audio data decoding unit 65 decodes the encoded audio data supplied from the content data decoding unit 61, and supplies the audio data obtained as a result to the audio conversion unit 66.
  • the audio conversion unit 66 performs audio conversion processing on the audio data supplied from the audio data decoding unit 65 based on the selected zoom area information supplied from the zoom area selection unit 62, and the zoom audio obtained as a result thereof. Data is supplied to the audio output device 54.
  • the audio conversion process is a conversion that results in audio reproduction adapted to the zoom of the content video.
  • the audio conversion unit 66 selects the position information of the object as metadata supplied from the content data decoding unit 61 via the audio data decoding unit 65. Conversion based on zoom area information. That is, the sound conversion unit 66 moves the position of the object that is the sound source, that is, the distance to the object, based on the selected zoom area information.
  • the sound conversion unit 66 performs rendering processing based on the sound data in which the position of the object has been moved, supplies the zoom sound data obtained as a result to the sound output device 54, and reproduces the sound.
  • the audio conversion unit 66 does not perform audio conversion processing on the audio data, and the audio data is directly transmitted to the audio output device 54 as zoom audio data. Output.
  • the playback device 51 When receiving the encoded content data output from the encoding device 11, the playback device 51 performs a playback process of decoding the received encoded content data and playing back the content.
  • the reproduction processing by the reproduction device 51 will be described with reference to the flowchart of FIG.
  • step S41 the content data decoding unit 61 separates the encoded video data, the encoded audio data, and the encoded metadata from the received encoded content data, and decodes the encoded metadata.
  • the content data decoding unit 61 supplies the encoded video data to the video data decoding unit 63 and also supplies the encoded audio data to the audio data decoding unit 65. Further, the content data decrypting unit 61 supplies the metadata obtained by the decryption to each unit of the playback device 51 as necessary.
  • the content data decoding unit 61 supplies zoom area information obtained as metadata to the zoom area selection unit 62. Furthermore, when the zoom content auxiliary information is stored as the header information of the metadata in the encoded content data, the content data decoding unit 61 reads the zoom area auxiliary information and supplies it to the zoom area selection unit 62.
  • the supplementary information ZoomAreaCommentary [idx], the specification ID ZoomAreaSpecifiedID [idx], etc. are read as the zoom area auxiliary information.
  • step S42 the zoom area selection unit 62 selects one zoom area information from the zoom area information supplied from the content data decoding unit 61, and selects the selected zoom area information according to the selection result as the video cutting unit 64 and This is supplied to the voice conversion unit 66.
  • the zoom area selecting unit 62 supplies the zoom area auxiliary information to the display device 52 for display, and the zoom area information is based on a signal supplied by an operation input of the user who viewed the display. Select.
  • the zoom area information may be selected using not only the zoom area auxiliary information and the user operation input but also the playback device information and the direction information.
  • step S43 the video data decoding unit 63 decodes the encoded video data supplied from the content data decoding unit 61, and supplies the video data obtained as a result to the video cutting unit 64.
  • step S44 the video cutout unit 64 cuts out the zoom area indicated by the selected zoom area information supplied from the zoom area selection unit 62 with respect to the video based on the video data supplied from the video data decoding unit 63 ( Trimming). Thereby, zoom video data for reproducing the video in the zoom area indicated by the selected zoom area information is obtained.
  • the video cutout unit 64 supplies the zoom video data obtained by the cutout to the video output device 53, and plays back the trimmed content video.
  • the video output device 53 reproduces (displays) video based on the zoom video data supplied from the video cutout unit 64.
  • step S45 the audio data decoding unit 65 decodes the encoded audio data supplied from the content data decoding unit 61, and supplies the audio data obtained as a result to the audio conversion unit 66.
  • step S46 the voice conversion unit 66 performs voice conversion processing on the voice data supplied from the voice data decoding unit 65 based on the selected zoom area information supplied from the zoom area selection unit 62.
  • the audio conversion unit 66 supplies zoom audio data obtained by the audio conversion process to the audio output device 54 to output audio.
  • the audio output device 54 reproduces the audio of the content subjected to the audio conversion process based on the zoom audio data supplied from the audio conversion unit 66, and the reproduction process ends.
  • step S43 and step S44 and the processing of step S45 and step S46 are performed in parallel.
  • the playback device 51 selects appropriate zoom area information, performs trimming on video data and audio conversion processing on audio data based on the selected zoom area information corresponding to the selection result, and plays back the content. To do.
  • zoom area information By selecting the zoom area information in this way, it is possible to appropriately trim or audio content such as content that more easily meets the user's preference, content that is suitable for the display screen size of the playback device 51, the rotation direction of the playback device 51, and the like.
  • the converted content can be played back.
  • the user selects a zoom area based on the zoom area auxiliary information presented by the display device 52, the user can easily select a desired zoom area.
  • the user can select zoom area information indicating the area to be zoomed, and change the distance to the sound source object by the audio conversion processing according to the selected zoom area information.
  • Content reproduction suitable for the user's preferences and playback devices can be realized.
  • the playback device 51 is configured as shown in FIG. 22, for example.
  • the same reference numerals are given to portions corresponding to those in FIG. 20, and description thereof will be omitted as appropriate.
  • a content data decoding unit 61 includes a content data decoding unit 61, a zoom area selection unit 62, a video data decoding unit 63, a video clipping unit 64, a video placement unit 91, an audio data decoding unit 65, and an audio conversion unit 66.
  • a content data decoding unit 61 includes a zoom area selection unit 62, a video data decoding unit 63, a video clipping unit 64, a video placement unit 91, an audio data decoding unit 65, and an audio conversion unit 66.
  • the configuration of the playback device 51 shown in FIG. 22 is different from the playback device 51 of FIG. 20 in that a video layout unit 91 is newly provided after the video cutout unit 64, and the playback device of FIG.
  • the configuration is the same as 51.
  • the zoom area selection unit 62 selects one or more pieces of zoom area information, and supplies the zoom area information to the video cutout unit 64 as selected zoom area information.
  • the zoom area selection unit 62 selects one zoom area information and supplies the zoom area information to the audio conversion unit 66 as selected zoom area information.
  • selection of zoom area information in the zoom area selection unit 62 may be performed according to a user input operation, as in the case of the playback device 51 shown in FIG. It may be performed based on information, direction information, and the like.
  • the zoom area information as the selected zoom area information supplied to the audio conversion unit 66 may be selected in accordance with a user input operation, and is arranged at a predetermined position such as the top in the encoded content data. It may be zoom area information. In addition, the zoom area information of a representative zoom area, such as a zoom area having the largest size, may be used.
  • the video cutout unit 64 includes zooms indicated by each of one or a plurality of selected zoom area information supplied from the zoom area selection unit 62 among videos (images) based on the video data supplied from the video data decoding unit 63.
  • the area is trimmed to generate zoom video data for each zoom area.
  • the video cutout unit 64 supplies zoom video data of each zoom area obtained by trimming to the video placement unit 91.
  • the video cutout unit 64 may supply the video data that has not been trimmed to the video placement unit 91 as a single zoom video data.
  • the video layout unit 91 generates multi-screen video data based on one or a plurality of zoom video data supplied from the video cutout unit 64 and plays back the multi-screen video based on the zoom video data.
  • the video reproduced by the multi-screen video data is a video in which videos (images) of the selected zoom area are arranged and arranged, for example, as an image Q14 in FIG.
  • the voice conversion unit 66 performs voice conversion processing on the voice data supplied from the voice data decoding unit 65 based on the selected zoom area information supplied from the zoom area selection unit 62, and the zoom obtained as a result.
  • the audio data is supplied to the audio output device 54 as the audio data of the representative audio of the multi-screen arrangement. Note that the audio conversion unit 66 may supply the audio data supplied from the audio data decoding unit 65 to the audio output device 54 as it is as the audio data (zoom audio data) of the representative audio.
  • step S71 is the same as the process in step S41 in FIG.
  • step S72 the zoom area selection unit 62 selects one or a plurality of zoom area information from the zoom area information supplied from the content data decoding unit 61, and selects the selected zoom area information according to the selection result. Supply to the outlet 64.
  • the zoom area information selection process here is basically the same as the process in step S42 of FIG. 21 except that the number of selected zoom area information is different.
  • the zoom area selection unit 62 selects zoom area information of one representative zoom area from the zoom area information supplied from the content data decoding unit 61, and the selected zoom area information according to the selection result Is supplied to the voice conversion unit 66.
  • the selected zoom area information supplied to the audio converting unit 66 is the same as one of one or more selected zoom area information supplied to the video cutout unit 64.
  • step S73 and step S74 are performed thereafter, the encoded video data is decoded, and the zoom area is trimmed from the video.
  • FIG. Since it is the same as the process of step S43 and step S44, the description is abbreviate
  • step S74 the zoom area indicated by the selected zoom area information is trimmed (cut out) from the video based on the video data for each one or a plurality of selected zoom area information, and the zoom video data of each zoom area is obtained. It is supplied to the video arrangement unit 91.
  • step S75 the video layout unit 91 performs video layout processing based on one or more zoom video data supplied from the video cutout unit 64. That is, the video arrangement unit 91 generates multi-screen video data based on one or a plurality of zoom video data, supplies the multi-screen video data to the video output device 53, and reproduces the video of each zoom area of the content.
  • the video output device 53 reproduces (displays) the multi-screen video based on the multi-screen video data supplied from the video layout unit 91. For example, when a plurality of zoom areas are selected, the content is reproduced with a multi-screen configuration such as an image Q14 in FIG.
  • step S76 and step S77 are performed and the reproduction process ends. These processes are the same as the processes of step S45 and step S46 of FIG. Is omitted.
  • the playback device 51 selects one or a plurality of zoom area information, performs trimming on video data or audio conversion processing on audio data based on the selected zoom area information corresponding to the selection result, and content Play.
  • zoom area information By selecting one or a plurality of zoom area information in this way, it is possible to easily reproduce appropriate content such as content that suits the user's preference, content that is suitable for the display screen size of the playback device 51, and the like. it can.
  • the content video can be reproduced with a multi-screen display that suits the user's preferences and the like.
  • the user when the user selects a zoom area based on the zoom area auxiliary information presented by the display device 52, the user can easily select a desired zoom area.
  • ⁇ Third Embodiment> ⁇ Configuration example of playback device> Furthermore, when the above-described content is distributed via a network, it is possible for the playback-side device to efficiently receive only data necessary for playback of the selected zoom area.
  • the playback device is configured as shown in FIG. In FIG. 24, the same reference numerals are given to the portions corresponding to those in FIG. 20, and description thereof will be omitted as appropriate.
  • a playback apparatus 121 that plays back content receives supply of desired encoded video data and encoded audio data from a content data distribution server 122 that records content and metadata. That is, the content data distribution server 122 records the content and the metadata of the content in an encoded state or an unencoded state, and distributes the content in response to a request from the playback device 121.
  • the playback device 121 includes a communication unit 131, a metadata decoding unit 132, a video / audio data decoding unit 133, a zoom area selection unit 62, a video data decoding unit 63, a video cutout unit 64, an audio data decoding unit 65, And an audio conversion unit 66.
  • the communication unit 131 exchanges various data with the content data distribution server 122 via the network.
  • the communication unit 131 receives encoded metadata from the content data distribution server 122 and supplies the encoded metadata to the metadata decoding unit 132, or receives encoded video data and encoded audio data from the content data distribution server 122 and outputs video. / Supply to the audio data decoding unit 133.
  • the communication unit 131 transmits the selected zoom area information supplied from the zoom area selection unit 62 to the content data distribution server 122.
  • the metadata decoding unit 132 decodes the encoded metadata supplied from the communication unit 131 to obtain metadata, and supplies the obtained metadata to each unit of the playback device 121 as necessary.
  • the metadata decoding unit 132 supplies the zoom area information to the zoom area selection unit 62. Further, when the metadata decoding unit 132 receives zoom area auxiliary information from the content data distribution server 122, the metadata decoding unit 132 supplies the zoom area auxiliary information to the zoom area selecting unit 62.
  • the video / audio data decoding unit 133 supplies the encoded video data to the video data decoding unit 63 and converts the encoded audio data into the audio data. This is supplied to the decryption unit 65.
  • the playback device 121 requests the content data distribution server 122 to transmit the encoded metadata.
  • the playback device 121 performs a playback process to reproduce the content.
  • the reproduction processing by the reproduction device 121 will be described with reference to the flowchart of FIG.
  • step S101 the communication unit 131 receives the encoded metadata transmitted from the content data distribution server 122 and supplies the encoded metadata to the metadata decoding unit 132.
  • the communication unit 131 also receives metadata header information such as zoom area number information and zoom area auxiliary information from the content data distribution server 122 as necessary, and sends it to the metadata decoding unit 132. Supply.
  • step S102 the metadata decoding unit 132 decodes the encoded metadata supplied from the communication unit 131, and supplies the metadata obtained by the decoding to each unit of the playback device 121 as necessary. Further, the metadata decoding unit 132 supplies the zoom area information obtained as metadata to the zoom area selecting unit 62, and when there is zoom area auxiliary information as header information of the metadata, the zoom area auxiliary information is also displayed. This is supplied to the zoom area selector 62.
  • step S103 When the metadata is obtained in this way, the process of step S103 is subsequently performed to select zoom area information.
  • the process of step S103 is the same as the process of step S42 in FIG. Is omitted. However, in step S103, the selected zoom area information obtained by selecting the zoom area information is supplied to the video cutout unit 64, the audio conversion unit 66, and the communication unit 131.
  • step S104 the communication unit 131 transmits the selected zoom area information supplied from the zoom area selection unit 62 to the content data distribution server 122 via the network.
  • the content data distribution server 122 that has received the selected zoom area information trims (cuts out) the zoom area indicated by the selected zoom area information with respect to the video data of the recorded content, and generates zoom video data.
  • the zoom video data obtained in this way is video data for reproducing only the zoom area indicated by the selected zoom area information in the entire video of the original content.
  • the content data distribution server 122 transmits the encoded video data obtained by encoding the zoom video data and the encoded audio data obtained by encoding the audio data constituting the content to the playback device 121.
  • zoom video data of each zoom area may be prepared in advance. Further, in the content data distribution server 122, for the audio data constituting the content, it is common to encode all the audio data and output the encoded audio data regardless of the selected zoom area. Only encoded audio data of some audio data may be output. For example, if the audio data constituting the content is the audio data of each object, only the audio data of the object in the zoom area indicated by the selected zoom area information may be encoded and transmitted to the playback device 121. Good.
  • step S105 the communication unit 131 receives the encoded video data and encoded audio data transmitted from the content data distribution server 122 and supplies them to the video / audio data decoding unit 133.
  • the video / audio data decoding unit 133 supplies the encoded video data supplied from the communication unit 131 to the video data decoding unit 63 and also the encoded audio data supplied from the communication unit 131 to the audio data decoding unit 65. To supply.
  • step S106 to step S109 is performed thereafter, and the reproduction processing ends.
  • These processing is the same as the processing from step S43 to step S46 in FIG. Therefore, the description thereof is omitted.
  • the video cropping unit 64 basically performs the trimming process. I will not.
  • the video cutout unit 64 performs trimming on the zoom video data supplied from the video data decoding unit 63 based on the selected zoom area information supplied from the zoom area selection unit 62 only when further trimming is necessary.
  • the playback device 121 selects appropriate zoom area information, transmits the selected zoom area information corresponding to the selection result to the content data distribution server 122, and transmits the encoded video data and the encoded audio data. Receive.
  • the encoded content data includes zoom area information
  • the content may be trimmed and reproduced according to zoom area information disclosed on a network such as the Internet or zoom area information recorded on a predetermined recording medium.
  • zoom reproduction by acquiring zoom area information created not only by the content creator but also by a third party different from the content creator, that is, by another user.
  • the playback device is configured as shown in FIG. 26, for example.
  • parts corresponding to those in FIG. 20 are denoted by the same reference numerals, and description thereof will be omitted as appropriate.
  • 26 includes a metadata decoding unit 171, a content data decoding unit 172, a zoom area selection unit 62, a video data decoding unit 63, a video clipping unit 64, an audio data decoding unit 65, and an audio conversion unit 66. have.
  • the metadata decoding unit 171 acquires and decodes encoded metadata of metadata including zoom area information from, for example, a device on a network or a recording medium connected to the playback device 161.
  • the metadata decoding unit 171 supplies metadata obtained by decoding the encoded metadata to each unit of the playback device 161 as necessary, and zooms zoom area information included in the metadata. It supplies to the area selection part 62. Further, the metadata decoding unit 171 acquires header information of metadata such as zoom area auxiliary information together with the encoded metadata as necessary, and supplies it to the zoom area selection unit 62.
  • the content data decoding unit 172 acquires the encoded video data and encoded audio data of the content from, for example, a device on the network or a recording medium connected to the playback device 161. Further, the content data decoding unit 172 supplies the acquired encoded video data to the video data decoding unit 63 and supplies the acquired encoded audio data to the audio data decoding unit 65.
  • the encoded video data and encoded audio data, and the encoded metadata are acquired from different devices or recording media.
  • the playback device 161 acquires the encoded metadata and the encoded content and performs a playback process for playing back the content.
  • the reproduction processing by the reproduction device 161 will be described.
  • the metadata decoding unit 171 obtains encoded metadata including zoom area information from, for example, a device on a network or a recording medium connected to the playback device 161. Note that the encoded metadata may be acquired in advance before the start of the reproduction process.
  • step S132 the metadata decoding unit 171 decodes the acquired encoded metadata, and supplies the resulting metadata to each unit of the playback device 161 as necessary.
  • the metadata decoding unit 171 supplies the zoom area information included in the metadata to the zoom area selection unit 62, and also zooms the header information of the metadata such as the zoom area auxiliary information acquired as necessary. It supplies to the area selection part 62.
  • step S133 When metadata is obtained by decryption, the process of step S133 is performed and the zoom area information is selected. However, the process of step S133 is the same as the process of step S42 of FIG.
  • step S134 the content data decoding unit 172 acquires encoded video data and encoded audio data of the content from, for example, a device on the network or a recording medium connected to the playback device 161. Further, the content data decoding unit 172 supplies the acquired encoded video data to the video data decoding unit 63 and supplies the acquired encoded audio data to the audio data decoding unit 65.
  • step S135 to step S138 When the encoded video data and the encoded audio data of the content are acquired in this way, the processing from step S135 to step S138 is performed thereafter, and the reproduction processing ends.
  • processing is performed in step S43 in FIG. Thru
  • the playback device 161 separately acquires encoded video data and encoded audio data of content, and encoded metadata including zoom area information. Then, the playback device 161 selects appropriate zoom area information, performs trimming on the video data and audio conversion processing on the audio data based on the selected zoom area information corresponding to the selection result, and plays back the content.
  • the encoded metadata including the zoom area information separately from the encoded video data and the encoded audio data, various kinds of information such as a zoom area set not only by the content creator but also by other users, etc.
  • the zoom area can be trimmed and played back.
  • the series of processes described above can be executed by hardware or can be executed by software.
  • a program constituting the software is installed in the computer.
  • the computer includes, for example, a general-purpose personal computer capable of executing various functions by installing a computer incorporated in dedicated hardware and various programs.
  • FIG. 28 is a block diagram illustrating a configuration example of hardware of a computer that executes the above-described series of processes by a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 505 is further connected to the bus 504.
  • An input unit 506, an output unit 507, a recording unit 508, a communication unit 509, and a drive 510 are connected to the input / output interface 505.
  • the input unit 506 includes a keyboard, a mouse, a microphone, an image sensor, and the like.
  • the output unit 507 includes a display, a speaker, and the like.
  • the recording unit 508 includes a hard disk, a nonvolatile memory, and the like.
  • the communication unit 509 includes a network interface or the like.
  • the drive 510 drives a removable medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 501 loads the program recorded in the recording unit 508 to the RAM 503 via the input / output interface 505 and the bus 504 and executes the program, for example. Is performed.
  • the program executed by the computer (CPU 501) can be provided by being recorded on the removable medium 511 as a package medium, for example.
  • the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the recording unit 508 via the input / output interface 505 by attaching the removable medium 511 to the drive 510. Further, the program can be received by the communication unit 509 via a wired or wireless transmission medium and installed in the recording unit 508. In addition, the program can be installed in the ROM 502 or the recording unit 508 in advance.
  • the program executed by the computer may be a program that is processed in time series in the order described in this specification, or in parallel or at a necessary timing such as when a call is made. It may be a program for processing.
  • the present technology can take a cloud computing configuration in which one function is shared by a plurality of devices via a network and is jointly processed.
  • each step described in the above flowchart can be executed by one device or can be shared by a plurality of devices.
  • the plurality of processes included in the one step can be executed by being shared by a plurality of apparatuses in addition to being executed by one apparatus.
  • the present technology can be configured as follows.
  • a decoding unit for decoding encoded video data or encoded audio data;
  • a zoom area selection unit for selecting one or more zoom area information from a plurality of zoom area information for designating an area to be zoomed;
  • a data processing unit that performs a trimming process on the video data obtained by decoding or an audio conversion process on the audio data obtained by decoding based on the selected zoom area information.
  • the plurality of zoom area information includes the zoom area information for designating the area for each rotation direction of the playback target device.
  • the playback apparatus according to any one of [1] to [3], wherein the plurality of zoom area information includes the zoom area information for designating the area for each specific video object.
  • the zoom area selection unit selects the zoom area information in accordance with a user operation input.
  • the zoom area selection unit selects the zoom area information based on information related to the playback device.
  • the zoom area selection unit selects the zoom area information using at least one of information indicating a type of the playback device and information indicating a rotation direction of the playback device as information related to the playback device.
  • [8] Decode encoded video data or encoded audio data, Select one or more zoom area information from the multiple zoom area information that specifies the area to zoom, A reproduction method including a step of performing a trimming process on the video data obtained by decoding or an audio conversion process on the audio data obtained by decoding based on the selected zoom area information.
  • a program that causes a computer to execute processing including a step of performing trimming processing on the video data obtained by decoding or audio conversion processing on the audio data obtained by decoding based on the selected zoom area information.
  • An encoding unit that encodes video data or audio data
  • An encoding apparatus comprising: a multiplexing unit that multiplexes the encoded video data or the encoded audio data and a plurality of zoom area information that specifies an area to be zoomed to generate a bitstream.
  • Encode video data or audio data An encoding method including a step of generating a bit stream by multiplexing the encoded video data or the encoded audio data and a plurality of pieces of zoom area information designating an area to be zoomed.
  • Encode video data or audio data A program that causes a computer to execute a process including a step of generating a bitstream by multiplexing the encoded video data or the encoded audio data and a plurality of zoom area information designating an area to be zoomed.
  • 11 encoding device 21 video data encoding unit, 22 audio data encoding unit, 23 metadata encoding unit, 24 multiplexing unit, 25 output unit, 51 playback device, 61 content data decoding unit, 62 zoom area selection unit , 63 video data decoding unit, 64 video cutting unit, 65 audio data decoding unit, 66 audio conversion unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

 本技術は、より簡単に各再生機器において適切なコンテンツを再生することができるようにする符号化装置および方法、再生装置および方法、並びにプログラムに関する。 コンテンツデータ復号部は符号化メタデータを復号し、その結果得られたメタデータに含まれている、ズームするエリアを指定するズームエリア情報を出力する。ズームエリア選択部は、ズームエリア情報のなかから1または複数のズームエリア情報を選択する。映像切出部は、映像データに基づく映像における、選択されたズームエリア情報により示されるズームエリアを切り出して、その結果得られたズーム映像データを出力する。音声変換部は、音声データに対して、選択されたズームエリア情報に応じた音声変換処理を施し、その結果得られたズーム音声データを出力する。本技術は再生装置に適用することができる。

Description

符号化装置および方法、再生装置および方法、並びにプログラム
 本技術は符号化装置および方法、再生装置および方法、並びにプログラムに関し、特に、より簡単に各再生機器において適切なコンテンツを再生することができるようにした符号化装置および方法、再生装置および方法、並びにプログラムに関する。
 近年、4Kや8Kといった高解像度なビデオコンテンツが知られている。このような4Kや8Kのビデオコンテンツは、大きな視野角、すなわち大画面での再生が想定されて制作される場合が多い。
 また、4Kや8Kのビデオコンテンツは高解像度であるため、ビデオコンテンツの画面の一部分を切り出しても、その解像度は十分であることからトリミング再生されることがある(例えば、非特許文献1参照)。
FDR-AX100、[online]、[平成26年9月24日検索]、インターネット<URL: http://www.sony.net/Products/di/en-us/products/j4it/index.html>
 一方で、ビデオ再生機器は多様化しており、大型スクリーンからスマートフォン(多機能型携帯電話機)まで、様々な画面サイズでの再生が考えられるが、現状では同じコンテンツがそれぞれの画面サイズに合わせて拡大または縮小されて再生されている。
 ところが、4Kや8Kといったビデオコンテンツは、上述のように大画面での再生を想定して制作されていることが多い。そのため、タブレット型PC(Personal Computer)やスマートフォンなど、比較的小さい画面を有する再生機器でそれらのビデオコンテンツを再生することは適切とはいえなかった。
 したがって、例えば画面サイズ等の異なる各再生機器に対して、それぞれの画面サイズや画面の形状等に適したコンテンツを提供するには、それぞれの画面サイズや画面の形状等に適したコンテンツを別々に用意する必要があった。
 本技術は、このような状況に鑑みてなされたものであり、より簡単に各再生機器において適切なコンテンツを再生することができるようにするものである。
 本技術の第1の側面の再生装置は、符号化された映像データ、または符号化された音声データを復号する復号部と、ズームするエリアを指定する複数のズームエリア情報のなかから、1または複数のズームエリア情報を選択するズームエリア選択部と、選択された前記ズームエリア情報に基づいて、復号により得られた前記映像データに対するトリミング処理、または復号により得られた前記音声データに対する音声変換処理を行うデータ処理部とを備える。
 前記複数の前記ズームエリア情報には、再生対象機器の種別ごとの前記エリアを指定する前記ズームエリア情報が含まれているようにすることができる。
 前記複数の前記ズームエリア情報には、再生対象機器の回転方向ごとの前記エリアを指定する前記ズームエリア情報が含まれているようにすることができる。
 前記複数の前記ズームエリア情報には、特定の映像オブジェクトごとの前記エリアを指定する前記ズームエリア情報が含まれているようにすることができる。
 前記ズームエリア選択部には、ユーザの操作入力に応じて前記ズームエリア情報を選択させることができる。
 前記ズームエリア選択部には、前記再生装置に関する情報に基づいて前記ズームエリア情報を選択させることができる。
 前記ズームエリア選択部には、前記再生装置の種別を示す情報、および前記再生装置の回転方向を示す情報の少なくとも何れか一つを前記再生装置に関する情報として、前記ズームエリア情報を選択させることができる。
 本技術の第1の側面の再生方法またはプログラムは、符号化された映像データ、または符号化された音声データを復号し、ズームするエリアを指定する複数のズームエリア情報のなかから、1または複数のズームエリア情報を選択し、選択された前記ズームエリア情報に基づいて、復号により得られた前記映像データに対するトリミング処理、または復号により得られた前記音声データに対する音声変換処理を行うステップを含む。
 本技術の第1の側面においては、符号化された映像データ、または符号化された音声データが復号され、ズームするエリアを指定する複数のズームエリア情報のなかから、1または複数のズームエリア情報が選択され、選択された前記ズームエリア情報に基づいて、復号により得られた前記映像データに対するトリミング処理、または復号により得られた前記音声データに対する音声変換処理が行われる。
 本技術の第2の側面の符号化装置は、映像データを符号化するか、または音声データを符号化する符号化部と、符号化された前記映像データ、または符号化された前記音声データと、ズームするエリアを指定する複数のズームエリア情報とを多重化してビットストリームを生成する多重化部とを備える。
 本技術の第2の側面の符号化方法またはプログラムは、映像データを符号化するか、または音声データを符号化し、符号化された前記映像データ、または符号化された前記音声データと、ズームするエリアを指定する複数のズームエリア情報とを多重化してビットストリームを生成するステップを含む。
 本技術の第2の側面においては、映像データが符号化されるか、または音声データが符号化され、符号化された前記映像データ、または符号化された前記音声データと、ズームするエリアを指定する複数のズームエリア情報とが多重化されてビットストリームが生成される。
 本技術の第1の側面および第2の側面によれば、より簡単に各再生機器において適切なコンテンツを再生することができる。
 なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。
符号化装置の構成例を示す図である。 符号化コンテンツデータの構成について説明する図である。 ズームエリア情報について説明する図である。 ズームエリア情報存在フラグのシンタックスを示す図である。 ズームエリア情報のシンタックスを示す図である。 ズームエリア情報のシンタックスを示す図である。 ズームエリア情報のシンタックスを示す図である。 ズームエリア情報のシンタックスを示す図である。 ズームエリア情報のシンタックスを示す図である。 ズームエリア情報のシンタックスを示す図である。 ズームエリア情報について説明する図である。 ズームエリア情報について説明する図である。 ズームエリア情報のシンタックスを示す図である。 ズームエリア情報存在フラグ等のシンタックスを示す図である。 ズームエリア情報のシンタックスを示す図である。 ズームエリア補助情報等のシンタックスを示す図である。 ズーム仕様について説明する図である。 再生されるコンテンツの例について説明する図である。 符号化処理を説明するフローチャートである。 再生装置の構成例を示す図である。 再生処理を説明するフローチャートである。 再生装置の構成例を示す図である。 再生処理を説明するフローチャートである。 再生装置の構成例を示す図である。 再生処理を説明するフローチャートである。 再生装置の構成例を示す図である。 再生処理を説明するフローチャートである。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈符号化装置の構成例〉
 本技術は、テレビジョン受像機やスマートフォンといった表示画面のサイズ等が異なる各再生機器において、それらの再生機器に適したコンテンツなど、適切なコンテンツをより簡単に再生することができるようにするものである。ここでいうコンテンツは、例えば映像と音声からなるコンテンツであってもよいし、映像または音声の何れか一方のみからなるコンテンツであってもよい。以下では、コンテンツが映像と、その映像に付随する音声とからなるものである場合を例として説明を続ける。
 図1は、本技術を適用した符号化装置の構成例を示す図である。
 この符号化装置11は、コンテンツ制作者により制作されたコンテンツを符号化し、その結果得られた符号化データが格納されたビットストリーム(符号列)を出力する。
 符号化装置11は、映像データ符号化部21、音声データ符号化部22、メタデータ符号化部23、多重化部24、および出力部25を有している。
 この例では、コンテンツを構成する映像の映像データおよび音声の音声データが、それぞれ映像データ符号化部21および音声データ符号化部22に供給され、コンテンツのメタデータがメタデータ符号化部23に供給される。
 映像データ符号化部21は、供給されたコンテンツの映像データを符号化し、その結果得られた符号化映像データを多重化部24に供給する。音声データ符号化部22は、供給されたコンテンツの音声データを符号化し、その結果得られた符号化音声データを多重化部24に供給する。
 メタデータ符号化部23は、供給されたコンテンツのメタデータを符号化し、その結果得られた符号化メタデータを多重化部24に供給する。
 多重化部24は映像データ符号化部21から供給された符号化映像データ、音声データ符号化部22から供給された符号化音声データ、およびメタデータ符号化部23から供給された符号化メタデータを多重化してビットストリームを生成し、出力部25に供給する。出力部25は、多重化部24から供給されたビットストリームを再生機器等に出力する。
 なお、以下、出力部25から出力されるビットストリームを符号化コンテンツデータとも称することとする。
〈符号化コンテンツデータについて〉
 ところで、符号化装置11において符号化されるコンテンツは、必要に応じてトリミング再生されることが想定されて制作されている。すなわち、コンテンツ制作者は、コンテンツをそのまま再生したり、コンテンツを構成する映像全体の領域の一部分をトリミングして再生したりすることを想定してコンテンツを制作する。
 例えば、コンテンツ制作者は、コンテンツを構成する映像(画像)全体の領域のうち、トリミング再生される一部分の領域、すなわちトリミングによりズーム再生される領域をズームエリアとして選択する。
 なお、ズームエリアは、例えば想定する再生機器に適した視野角を再現することなどを目的として、コンテンツ制作者により自由に決定されてもよい。また、ズームエリアは、コンテンツの映像内のヴォーカリストや選手等の特定のオブジェクトにズームインして追いかけるなど、ズームの目的に応じて決定されてもよい。
 このようにコンテンツに対して、いくつかのズームエリアが制作者側で指定された場合、符号化装置11から出力されるビットストリーム、つまり符号化コンテンツデータには、メタデータとしてズームエリアを指定するズームエリア情報が格納される。このとき、所定の時間単位ごとにズームエリアを指定したいときには、その時間単位ごとにズームエリア情報が符号化コンテンツデータに格納されるようにしてもよい。
 具体的には、例えば図2に示すようにコンテンツがフレームごとにビットストリームに格納される場合には、ズームエリア情報がフレームごとにビットストリームに格納されるようにしてもよい。
 図2の例では、ビットストリーム、つまり符号化コンテンツデータの先頭にはヘッダ情報等が格納されるヘッダ部HDが配置され、そのヘッダ部HDに続いて、符号化映像データや符号化音声データが格納されるデータ部DAが配置されている。
 ヘッダ部HDには、コンテンツを構成する映像に関するヘッダ情報が格納される映像情報ヘッダ部PHD、コンテンツを構成する音声に関するヘッダ情報が格納される音声情報ヘッダ部AHD、およびコンテンツのメタデータに関するヘッダ情報が格納されるメタ情報ヘッダ部MHDが設けられている。
 そして、メタ情報ヘッダ部MHDには、ズームエリア情報に関する情報が格納されるズームエリア情報ヘッダ部ZHDが設けられている。例えばズームエリア情報ヘッダ部ZHDには、データ部DAにズームエリア情報が格納されているか否かを示すズームエリア情報存在フラグなどが格納される。
 また、データ部DAには、符号化されたコンテンツのデータが、コンテンツのフレームごとに格納されるデータ部が設けられる。この例ではデータ部DAの先頭には、先頭フレームのデータが格納されるデータ部DAF-1が設けられており、そのデータ部DAF-1に続いてコンテンツの2番目のフレームのデータが格納されるデータ部DAF-2が設けられている。なお、ここでは3番目のフレーム以降についてのデータ部は図示が省略されている。以下では、各フレームのデータ部DAF-1やデータ部DAF-2を特に区別する必要のない場合には、単にデータ部DAFと称することとする。
 先頭フレームのデータ部DAF-1には、符号化映像データが格納される映像情報データ部PD-1、符号化音声データが格納される音声情報データ部AD-1、および符号化メタデータが格納されるメタ情報データ部MD-1が設けられている。
 例えばメタ情報データ部MD-1には、コンテンツの先頭フレームに含まれている映像オブジェクトや音源オブジェクトの位置情報などが含まれている。また、メタ情報データ部MD-1内には、符号化メタデータのうちの符号化されたズームエリア情報が格納されるズームエリア情報データ部ZD-1が設けられている。これらの映像オブジェクトや音源オブジェクトの位置情報、ズームエリア情報などがコンテンツのメタデータとされている。
 データ部DAF-1と同様にデータ部DAF-2にも、符号化映像データが格納される映像情報データ部PD-2、符号化音声データが格納される音声情報データ部AD-2、および符号化メタデータが格納されるメタ情報データ部MD-2が設けられている。また、メタ情報データ部MD-2内には、符号化されたズームエリア情報が格納されるズームエリア情報データ部ZD-2が設けられている。
 なお、以下、映像情報データ部PD-1や映像情報データ部PD-2を特に区別する必要のない場合には、単に映像情報データ部PDとも称し、音声情報データ部AD-1や音声情報データ部AD-2を特に区別する必要のない場合には、単に音声情報データ部ADとも称する。また、メタ情報データ部MD-1やメタ情報データ部MD-2を特に区別する必要のない場合には、単にメタ情報データ部MDとも称し、ズームエリア情報データ部ZD-1やズームエリア情報データ部ZD-2を特に区別する必要のない場合には、単にズームエリア情報データ部ZDとも称する。
 さらに、図2では、各データ部DAFには、映像情報データ部PD、音声情報データ部AD、およびメタ情報データ部MDが設けられる例について説明した。しかし、映像情報データ部PDおよび音声情報データ部ADのそれぞれ、またはそれらの一方にメタ情報データ部MDが設けられるようにしてもよい。そのような場合、映像情報データ部PDや音声情報データ部ADの内部に設けられたメタ情報データ部MDのズームエリア情報データ部ZDに、ズームエリア情報が格納される。
 同様にヘッダ部HDに映像情報ヘッダ部PHD、音声情報ヘッダ部AHD、およびメタ情報ヘッダ部MHDが設けられる例について説明したが、映像情報ヘッダ部PHDおよび音声情報ヘッダ部AHDの両方または何れか一方にメタ情報ヘッダ部MHDが設けられるようにしてもよい。
 また、コンテンツの各フレームにおいてズームエリア情報が同じである場合には、ズームエリア情報がヘッダ部HDに格納されるようにしてもよい。この場合、各データ部DAFにズームエリア情報データ部ZDを設ける必要がなくなる。
〈ズームエリア情報の具体例1〉
 続いて、ズームエリア情報のより具体的な例について説明する。
 上述したズームエリア情報は、ズームするエリアであるズームエリアを指定する情報であり、具体的にはズームエリア情報は、ズームエリアの位置を示す情報とされる。ズームエリアは、例えば図3に示すようにズームエリアの中心位置の座標や始点座標、終点座標、垂直幅、水平幅等を用いて特定することができる。
 図3では、コンテンツの映像(画像)全体の領域がオリジナルエリアORとなっており、そのオリジナルエリアOR内に1つの矩形のズームエリアZEが指定されている。この例では、ズームエリアZEの図中、横方向(水平方向)の幅が水平幅XWとなっており、ズームエリアZEの図中、縦方向(垂直方向)の幅が垂直幅YWとなっている。
 ここで、図中、横方向(水平方向)をX方向とし、縦方向(垂直方向)をY方向とするXY座標系上の点を座標(X,Y)で表すとする。
 いま、ズームエリアZEの中央位置(中心位置)である点P11の座標を(XC,YC)とすると、この中央座標(XC,YC)と、ズームエリアZEの水平幅XWおよび垂直幅YWとから、ズームエリアZEを特定することができる。したがって、中央座標(XC,YC)、水平幅XW、および垂直幅YWをズームエリア情報とすることができる。
 また、ズームエリアZEが矩形領域である場合には、例えばズームエリアZEの図中、左上の頂点P12を始点とし、ズームエリアZEの図中、右下の頂点P13を終点として、それらの始点(頂点P12)の座標(X0,Y0)および終点(頂点P13)の座標(X1,Y1)によってもズームエリアZEを特定することができる。したがって、始点座標(X0,Y0)および終点座標(X1,Y1)をズームエリア情報とすることもできる。
 より具体的には、始点座標(X0,Y0)および終点座標(X1,Y1)がズームエリア情報とされるとする。そのような場合、例えば図4に示すズームエリア情報存在フラグを上述したズームエリア情報ヘッダ部ZHDに格納し、そのズームエリア情報存在フラグの値に応じて、各ズームエリア情報データ部ZDに図5に示すズームエリア情報を格納すればよい。
 図4はズームエリア情報存在フラグのシンタックスを示している。この例では、「hasZoomAreaInfo」がズームエリア情報存在フラグを示しており、ズームエリア情報存在フラグhasZoomAreaInfoの値は0または1の何れかとされる。
 ここでズームエリア情報存在フラグhasZoomAreaInfoの値が0である場合には、符号化コンテンツデータには、ズームエリア情報が含まれていないことを示している。これに対してズームエリア情報存在フラグhasZoomAreaInfoの値が1である場合には、符号化コンテンツデータに、ズームエリア情報が含まれていることを示している。
 また、ズームエリア情報存在フラグhasZoomAreaInfoの値が1である場合には、各フレームのズームエリア情報データ部ZDにズームエリア情報が格納される。例えばズームエリア情報は、図5に示すシンタックスでズームエリア情報データ部ZDに格納されている。
 図5では、「ZoomAreaX0」および「ZoomAreaY0」は、それぞれズームエリアZEの始点のX座標およびY座標であるX0およびY0を示している。また、「ZoomAreaX1」および「ZoomAreaY1」は、それぞれズームエリアZEの終点のX座標およびY座標であるX1およびY1を示している。
 例えば、符号化されるコンテンツの映像が8Kの映像である場合、「ZoomAreaX0」および「ZoomAreaX1」の値は0乃至7679までの何れかの値とされ、「ZoomAreaY0」および「ZoomAreaY1」の値は0乃至4319の何れかの値とされる。
〈ズームエリア情報の具体例2〉
 また、例えば中央座標(XC,YC)、水平幅XW、および垂直幅YWがズームエリア情報とされる場合にも、図4に示したズームエリア情報存在フラグhasZoomAreaInfoがズームエリア情報ヘッダ部ZHDに格納される。そして、ズームエリア情報存在フラグhasZoomAreaInfoの値が1であるときに、各フレームのズームエリア情報データ部ZDにズームエリア情報が格納される。この場合、ズームエリア情報は、例えば図6に示すシンタックスでズームエリア情報データ部ZDに格納される。
 図6では、「ZoomAreaXC」および「ZoomAreaYC」は、それぞれズームエリアZEの中央座標(XC,YC)のX座標およびY座標であるXCおよびYCを示している。
 また、「ZoomAreaXW」および「ZoomAreaYW」は、それぞれズームエリアZEの水平幅XWおよび垂直幅YWを示している。
 この例においても、例えば符号化されるコンテンツの映像が8Kの映像である場合には、「ZoomAreaXC」および「ZoomAreaXW」の値は0乃至7679までの何れかの値とされ、「ZoomAreaYC」および「ZoomAreaYW」の値は0乃至4319の何れかの値とされる。
〈ズームエリア情報の具体例3〉
 さらに、例えばズームエリアが中央座標(XC,YC)、水平幅XW、および垂直幅YWにより特定され、水平幅XWおよび垂直幅YWが固定値とされる場合には、中央座標(XC,YC)の差分のみをズームエリア情報としてズームエリア情報データ部ZDに格納してもよい。
 そのような場合、例えば先頭フレームのデータ部DAF-1に設けられたズームエリア情報データ部ZD-1には、図6に示したズームエリア情報が格納される。また、2番目以降のフレームのデータ部DAFに設けられたズームエリア情報データ部ZDには、図7に示すシンタックスでズームエリア情報が格納される。
 図7では「nbits」、「ZoomAreaXCshift」、および「ZoomAreaYCshift」がズームエリア情報として格納されている。「nbits」は「ZoomAreaXCshift」および「ZoomAreaYCshift」のそれぞれが何ビットの情報であるかを示すビット数情報である。
 また、「ZoomAreaXCshift」は、中央座標(XC,YC)のX座標であるXCの所定の基準値からの差分を示している。例えば座標XCの基準値は、先頭フレームにおける中央座標(XC,YC)のX座標であってもよいし、現フレームの直前のフレームにおける中央座標(XC,YC)のX座標であってもよい。
 「ZoomAreaYCshift」は、中央座標(XC,YC)のY座標であるYCの所定の基準値からの差分を示している。例えば座標YCの基準値は、座標XCの基準値と同様に、先頭フレームにおける中央座標(XC,YC)のY座標であってもよいし、現フレームの直前のフレームにおける中央座標(XC,YC)のY座標であってもよい。
 これらの「ZoomAreaXCshift」および「ZoomAreaYCshift」は、中央座標(XC,YC)の基準値からの移動量を示している。
 なお、例えばコンテンツの再生側において中央座標(XC,YC)の基準値が既知である場合や、ズームエリア情報ヘッダ部ZHDに中央座標(XC,YC)の基準値が格納されている場合などにおいては、各フレームのズームエリア情報データ部ZDに、図7に示したズームエリア情報を格納してもよい。
〈ズームエリア情報の具体例4〉
 また、例えばズームエリアが中央座標(XC,YC)、水平幅XW、および垂直幅YWにより特定され、中央座標(XC,YC)が固定値とされる場合には、水平幅XWおよび垂直幅YWの差分、つまり変化量のみをズームエリア情報としてズームエリア情報データ部ZDに格納してもよい。
 そのような場合、例えば先頭フレームのデータ部DAF-1に設けられたズームエリア情報データ部ZD-1には、図6に示したズームエリア情報が格納される。また、2番目以降のフレームのデータ部DAFに設けられたズームエリア情報データ部ZDには、図8に示すシンタックスでズームエリア情報が格納される。
 図8では「nbits」、「ZoomAreaXWshift」、および「ZoomAreaYWshift」がズームエリア情報として格納されている。「nbits」は「ZoomAreaXWshift」および「ZoomAreaYWshift」のそれぞれが何ビットの情報であるかを示すビット数情報である。
 また、「ZoomAreaXWshift」は、水平幅XWの所定の基準値からの変化量を示している。例えば水平幅XWの基準値は、先頭フレームにおける水平幅XWであってもよいし、現フレームの直前のフレームにおける水平幅XWであってもよい。
 「ZoomAreaYWshift」は、垂直幅YWの基準値からの変化量を示している。例えば垂直幅YWの基準値は、水平幅XWの基準値と同様に、先頭フレームにおける垂直幅YWであってもよいし、現フレームの直前のフレームにおける垂直幅YWであってもよい。
 なお、例えばコンテンツの再生側において水平幅XWおよび垂直幅YWの基準値が既知である場合や、ズームエリア情報ヘッダ部ZHDに水平幅XWおよび垂直幅YWの基準値が格納されている場合などにおいては、各フレームのズームエリア情報データ部ZDに、図8に示したズームエリア情報を格納してもよい。
〈ズームエリア情報の具体例5〉
 さらに、例えばズームエリアが中央座標(XC,YC)、水平幅XW、および垂直幅YWにより特定される場合、図7や図8における場合と同様に中央座標(XC,YC)、水平幅XW、および垂直幅YWの差分をズームエリア情報としてズームエリア情報データ部ZDに格納してもよい。
 そのような場合、例えば先頭フレームのデータ部DAF-1に設けられたズームエリア情報データ部ZD-1には、図6に示したズームエリア情報が格納される。また、2番目以降のフレームのデータ部DAFに設けられたズームエリア情報データ部ZDには、図9に示すシンタックスでズームエリア情報が格納される。
 図9では「nbits」、「ZoomAreaXCshift」、「ZoomAreaYCshift」、「ZoomAreaXWshift」、および「ZoomAreaYWshift」がズームエリア情報として格納されている。
 「nbits」は「ZoomAreaXCshift」、「ZoomAreaYCshift」、「ZoomAreaXWshift」、および「ZoomAreaYWshift」のそれぞれが何ビットの情報であるかを示すビット数情報である。
 「ZoomAreaXCshift」および「ZoomAreaYCshift」は、図7における場合と同様に中央座標(XC,YC)のX座標およびY座標の基準値からの差分を示している。
 また、「ZoomAreaXWshift」および「ZoomAreaYWshift」は、図8における場合と同様に、水平幅XWおよび垂直幅YWの基準値からの変化量を示している。
 ここで、中央座標(XC,YC)や水平幅XW、垂直幅YWの基準値は、先頭フレーム、または現フレームの直前のフレームにおける中央座標(XC,YC)や水平幅XW、垂直幅YWとすることができる。また、コンテンツの再生側において中央座標(XC,YC)や水平幅XW、垂直幅YWの基準値が既知である場合や、ズームエリア情報ヘッダ部ZHDに基準値が格納されている場合には、各フレームのズームエリア情報データ部ZDに、図9に示したズームエリア情報を格納してもよい。
〈ズームエリア情報の具体例6〉
 さらに、上述した図6乃至図9に示した各例を組み合わせて、例えば図10に示すシンタックスでズームエリア情報を各ズームエリア情報データ部ZDに格納するようにしてもよい。
 そのような場合、図4に示したズームエリア情報存在フラグhasZoomAreaInfoがズームエリア情報ヘッダ部ZHDに格納される。そして、ズームエリア情報存在フラグhasZoomAreaInfoの値が1であるときに、各フレームのズームエリア情報データ部ZDにズームエリア情報が格納される。例えばズームエリア情報は、図10に示すシンタックスでズームエリア情報データ部ZDに格納される。
 図10では、ズームエリア情報の先頭には、図6乃至図9に示した各形式のうちのどの形式でズームエリア情報、より詳細にはズームエリアの位置を特定する情報が記述されているかを示す符号化モード情報が配置されている。図10では、「mode」が符号化モード情報を示している。
 ここでは、符号化モード情報modeの値は0乃至3の何れかの値とされる。
 例えば、符号化モード情報modeの値が0である場合、図中、「case0」以下に示されるように図6の例と同様にして座標XCを示す「ZoomAreaXC」、座標YCを示す「ZoomAreaYC」、水平幅XWを示す「ZoomAreaXW」、および垂直幅YWを示す「ZoomAreaYW」がズームエリア情報として格納されている。
 また、符号化モード情報modeの値が1である場合、図中、「case1」以下に示されるように図7の例と同様にしてビット数情報である「nbits」、座標XCの差分を示す「ZoomAreaXCshift」、および座標YCの差分を示す「ZoomAreaYCshift」がズームエリア情報として格納されている。
 符号化モード情報modeの値が2である場合、図中、「case2」以下に示されるように図8の例と同様にしてビット数情報である「nbits」、水平幅XWの変化量を示す「ZoomAreaXWshift」、および垂直幅YWの変化量を示す「ZoomAreaYWshift」がズームエリア情報として格納されている。
 さらに符号化モード情報modeの値が3である場合、図中、「case3」以下に示されるように図9の例と同様にしてビット数情報である「nbits」、座標XCの差分を示す「ZoomAreaXCshift」、座標YCの差分を示す「ZoomAreaYCshift」、水平幅XWの変化量を示す「ZoomAreaXWshift」、および垂直幅YWの変化量を示す「ZoomAreaYWshift」がズームエリア情報として格納されている。
〈ズームエリア情報の具体例7〉
 また、以上においてはズームエリア情報として座標情報を格納する例について説明したが、ズームエリアを特定する角度情報をズームエリア情報として各ズームエリア情報データ部ZDに格納するようにしてもよい。
 例えば図11に示すように、オリジナルエリアORの中心位置CPと同じ高さであり、中心位置CPから図11中、手前側に所定距離だけ離れた位置にある点を、コンテンツ視聴時の基準となる視聴点WPとする。また、中心位置CPと視聴点WPの位置関係は、コンテンツのフレームによらず常に同じ位置関係であるものとする。なお、図11において図3における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図11において、中心位置CPと視聴点WPを結ぶ直線を直線L11とする。また、ズームエリアZEの図中、左側の辺の中点を点P21とし、点P21と視聴点WPを結ぶ直線を直線L12とする。さらに、直線L11と直線L12とのなす角度を水平角φleftとする。
 同様に、ズームエリアZEの図中、右側の辺の中点を点P22とし、点P22と視聴点WPを結ぶ直線を直線L13とする。また、直線L11と直線L13とのなす角度を水平角φrightとする。
 さらに、ズームエリアZEの図中、右側の辺上において中心位置CPとY座標が同じである位置を点P23とし、点P23と視聴点WPを結ぶ直線を直線L14とする。また、ズームエリアZEの図中、右上の頂点を点P24とし、点P24と視聴点WPを結ぶ直線を直線L15とするとともに、直線L14と直線L15とのなす角度を仰角θtopとする。
 同様にズームエリアZEの図中、右下の頂点を点P25とし、点P25と視聴点WPを結ぶ直線を直線L16とするとともに、直線L14と直線L16とのなす角度を仰角θbottomとする。
 このとき、水平角φleft、水平角φright、仰角θtop、および仰角θbottomによって、ズームエリアZEを特定することが可能である。したがって、これらの水平角φleft、水平角φright、仰角θtop、および仰角θbottomをズームエリア情報として、図2に示した各ズームエリア情報データ部ZDに格納してもよい。また、これらの水平角φleft、水平角φright、仰角θtop、および仰角θbottomの一部または全部の変化量をズームエリア情報としてもよい。
〈ズームエリア情報の具体例8〉
 さらに、例えば図12に示すように中心位置CP、ズームエリアZEの中心位置である点P11、および視聴点WPの位置関係から定まる角度情報をズームエリア情報としてもよい。なお、図12において、図3または図11における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図12において、ズームエリアZEの中心位置である点P11と視聴点WPを結ぶ直線を直線L21とする。また、ズームエリアZEの中心位置である点P11とX座標が同じであり、かつオリジナルエリアORの中心位置CPとY座標が同じである点を点P31とし、点P31と視聴点WPを結ぶ直線を直線L22とする。
 また、ズームエリアZEの図中、上側の辺の中点を点P32とし、点P32と視聴点WPを結ぶ直線を直線L23とするとともに、ズームエリアZEの図中、下側の辺の中点を点P33とし、点P33と視聴点WPを結ぶ直線を直線L24とする。
 さらに、直線L12と直線L13とのなす角度を水平視野角φWとするとともに、直線L11と直線L22とのなす角度を水平角φCとする。また、直線L23と直線L24とのなす角度を垂直視野角θWとするとともに、直線L21と直線L22とのなす角度を仰角θCとする。
 ここで、水平角φCおよび仰角θCは、それぞれズームエリアZEの中心位置である点P11に対する視聴点WPからの水平角および仰角を示している。
 このとき、水平視野角φW、水平角φC、垂直視野角θW、および仰角θCによって、ズームエリアZEを特定することが可能である。したがって、水平視野角φW、水平角φC、垂直視野角θW、および仰角θCや、それらの角度の変化量をズームエリア情報として、図2に示した各ズームエリア情報データ部ZDに格納してもよい。
 そのような場合、例えば図4に示したズームエリア情報存在フラグhasZoomAreaInfoがズームエリア情報ヘッダ部ZHDに格納される。そして、ズームエリア情報存在フラグhasZoomAreaInfoの値が1であるときに、各フレームのズームエリア情報データ部ZDにズームエリア情報が格納される。例えばズームエリア情報は、図13に示すシンタックスでズームエリア情報データ部ZDに格納される。
 図13では、ズームエリア情報の先頭には複数の形式のうちのどの形式でズームエリア情報、より詳細にはズームエリアの位置を特定する情報が記述されているかを示す符号化モード情報が配置されている。
 図13では、「mode」が符号化モード情報を示しており、符号化モード情報modeの値は0乃至3の何れかの値とされる。
 例えば符号化モード情報modeの値が0である場合、図中、「case0」以下に示されるように水平角φCを示す「ZoomAreaAZC」、仰角θCを示す「ZoomAreaELC」、水平視野角φWを示す「ZoomAreaAZW」、および垂直視野角θWを示す「ZoomAreaELW」がズームエリア情報として格納される。
 符号化モード情報modeの値が1である場合、図中、「case1」以下に示されるようにビット数情報を示す「nbits」、水平角φCの移動角度を示す「ZoomAreaAZCshift」、および仰角θCの移動角度を示す「ZoomAreaELCshift」がズームエリア情報として格納される。
 ここで、ビット数情報nbitsは、「ZoomAreaAZCshift」および「ZoomAreaELCshift」のそれぞれが何ビットの情報であるかを示す情報である。
 また、「ZoomAreaAZCshift」および「ZoomAreaELCshift」は、それぞれ現フレームの直前のフレームの水平角φCおよび仰角θC、または所定の基準となる水平角φCおよび仰角θCと、現フレームの水平角φCおよび仰角θCとの差分などとされる。
 符号化モード情報modeの値が2である場合、図中、「case2」以下に示されるようにビット数情報を示す「nbits」、水平視野角φWの変化量を示す「ZoomAreaAZWshift」、および垂直視野角θWの変化量を示す「ZoomAreaELWshift」がズームエリア情報として格納される。
 ここで、ビット数情報nbitsは、「ZoomAreaAZWshift」および「ZoomAreaELWshift」のそれぞれが何ビットの情報であるかを示す情報である。
 また、「ZoomAreaAZWshift」および「ZoomAreaELWshift」は、それぞれ現フレームの直前のフレームの水平視野角φWおよび垂直視野角θW、または所定の基準となる水平視野角φWおよび垂直視野角θWと、現フレームの水平視野角φWおよび垂直視野角θWとの差分などとされる。
 さらに、符号化モード情報modeの値が3である場合、図中、「case3」以下に示されるようにビット数情報である「nbits」、水平角φCの移動角度を示す「ZoomAreaAZCshift」、仰角θCの移動角度を示す「ZoomAreaELCshift」、水平視野角φWの変化量を示す「ZoomAreaAZWshift」、および垂直視野角θWの変化量を示す「ZoomAreaELWshift」がズームエリア情報として格納される。
 この場合におけるビット数情報nbitsは、「ZoomAreaAZCshift」、「ZoomAreaELCshift」、「ZoomAreaAZWshift」、および「ZoomAreaELWshift」のそれぞれが何ビットの情報であるかを示している。
 なお、図13の例に限らず「ZoomAreaAZC」、「ZoomAreaELC」、「ZoomAreaAZW」、および「ZoomAreaELW」のみがズームエリア情報とされてもよい。また、「ZoomAreaAZCshift」および「ZoomAreaELCshift」と、「ZoomAreaAZWshift」および「ZoomAreaELWshift」との両方または一方のみがズームエリア情報とされてもよい。
〈ズームエリア情報の具体例9〉
 また、以上においてはズームエリア情報が1つである場合について説明したが、ズームエリア情報データ部ZDに複数のズームエリア情報が格納されるようにしてもよい。すなわち、1つのコンテンツに対して複数のズームエリアが指定され、それらのズームエリアごとにズームエリア情報がズームエリア情報データ部ZDに格納されるようにしてもよい。
 そのような場合、例えば図14に示すシンタックスで各情報がズームエリア情報ヘッダ部ZHDに格納され、さらに図15に示すシンタックスでズームエリア情報が各フレームのズームエリア情報データ部ZDに格納される。
 図14に示す例では、「hasZoomAreaInfo」はズームエリア情報存在フラグを示しており、ズームエリア情報存在フラグhasZoomAreaInfoの値が1である場合に、そのズームエリア情報存在フラグhasZoomAreaInfoに続いて「numZoomAreas」が格納される。
 ここで、「numZoomAreas」はズームエリア情報データ部ZD内に記述されているズームエリア情報の個数、すなわちコンテンツに対して定められたズームエリアの個数を示すズームエリア個数情報を示している。この例ではズームエリア個数情報numZoomAreasの値は0乃至15の何れかの値とされる。
 符号化コンテンツデータでは、ズームエリア個数情報numZoomAreasの値に1を加算した数だけ、ズームエリア情報、より詳細には各ズームエリアの位置を特定する情報がズームエリア情報データ部ZDに格納されている。
 したがって、例えばズームエリア個数情報numZoomAreasの値が0であれば、ズームエリア情報データ部ZDには、1つのズームエリアについて、そのズームエリアの位置を特定する情報が格納されていることになる。
 さらに、ズームエリア情報存在フラグhasZoomAreaInfoの値が1である場合、ズームエリア情報データ部ZDにズームエリア情報が格納されている。例えばズームエリア情報は、図15に示すシンタックスでズームエリア情報データ部ZDに記述されている。
 図15の例では、ズームエリア個数情報numZoomAreasにより示される個数だけズームエリア情報が格納されている。
 図15では「mode[idx]」は、インデックスidxにより特定されるズームエリアについての符号化モード情報を示しており、符号化モード情報mode[idx]の値は0乃至3の何れかの値とされる。なお、インデックスidxは0乃至numZoomAreasの各値とされる。
 例えば、符号化モード情報mode[idx]の値が0である場合、図中、「case0」以下に示されるように座標XCを示す「ZoomAreaXC[idx]」、座標YCを示す「ZoomAreaYC[idx]」、水平幅XWを示す「ZoomAreaXW[idx]」、および垂直幅YWを示す「ZoomAreaYW[idx]」が、インデックスidxにより特定されるズームエリアのズームエリア情報として格納されている。
 また、符号化モード情報mode[idx]の値が1である場合、図中、「case1」以下に示されるようにビット数情報である「nbits」、座標XCの差分を示す「ZoomAreaXCshift[idx]」、および座標YCの差分を示す「ZoomAreaYCshift[idx]」が、インデックスidxにより特定されるズームエリアのズームエリア情報として格納されている。ここで、ビット数情報nbitsは「ZoomAreaXCshift[idx]」および「ZoomAreaYCshift[idx]」のそれぞれが何ビットの情報であるかを示している。
 符号化モード情報mode[idx]の値が2である場合、図中、「case2」以下に示されるようにビット数情報である「nbits」、水平幅XWの変化量を示す「ZoomAreaXWshift[idx]」、および垂直幅YWの変化量を示す「ZoomAreaYWshift[idx]」が、インデックスidxにより特定されるズームエリアのズームエリア情報として格納されている。ここで、ビット数情報nbitsは「ZoomAreaXWshift[idx]」および「ZoomAreaYWshift[idx]」のそれぞれが何ビットの情報であるかを示している。
 さらに符号化モード情報mode[idx]の値が3である場合、図中、「case3」以下に示されるようにビット数情報である「nbits」、座標XCの差分を示す「ZoomAreaXCshift[idx]」、および座標YCの差分を示す「ZoomAreaYCshift[idx]」、水平幅XWの変化量を示す「ZoomAreaXWshift[idx]」、および垂直幅YWの変化量を示す「ZoomAreaYWshift[idx]」が、インデックスidxにより特定されるズームエリアのズームエリア情報として格納されている。ここで、ビット数情報nbitsは「ZoomAreaXCshift[idx]」、「ZoomAreaYCshift[idx]」、「ZoomAreaXWshift[idx]」、および「ZoomAreaYWshift[idx]」のそれぞれが何ビットの情報であるかを示している。
 図15に示す例では、ズームエリアの個数分だけ、符号化モード情報mode[idx]とズームエリア情報がズームエリア情報データ部ZD内に格納されている。
 なお、その他、ズームエリア情報は、座標XCおよび座標YC、水平角φCおよび仰角θC、座標XCの差分および座標YCの差分、または水平角φCの差分および仰角θCの差分のみとされるようにしてもよい。
 そのような場合、水平幅XWおよび垂直幅YWや、水平視野角φWおよび垂直視野角θWは再生側において定められるようにすることができる。その際、水平幅XWおよび垂直幅YWや、水平視野角φWおよび垂直視野角θWは、再生側の機器において自動的に定められてもよいし、ユーザにより指定されるようにしてもよい。
 このような例では、例えばコンテンツが球技の映像と音声である場合には、ボールの位置を示す座標XCおよび座標YCがズームエリア情報とされ、再生側の機器において固定またはユーザにより指定された水平幅XWおよび垂直幅YWが用いられる。
〈ズームエリア補助情報について〉
 また、ズームエリア情報ヘッダ部ZHDにズームエリア補助情報として、再生対象機器やズーム目的を示すID、その他のテキスト情報等の補足情報が含まれるようにしてもよい。
 そのような場合、ズームエリア情報ヘッダ部ZHDには、例えば図16に示すシンタックスで、ズームエリア情報存在フラグhasZoomAreaInfoやズームエリア補助情報が格納される。
 図16に示す例では、先頭にズームエリア情報存在フラグhasZoomAreaInfoが配置されており、このズームエリア情報存在フラグhasZoomAreaInfoの値が1である場合、それ以降にズームエリア補助情報等の各情報が格納されている。
 すなわち、この例ではズームエリア情報存在フラグhasZoomAreaInfoに続いて、ズームエリア情報データ部ZD内に記述されているズームエリア情報の個数を示すズームエリア個数情報「numZoomAreas」が格納される。ここでは、ズームエリア個数情報numZoomAreasの値は0乃至15の何れかの値とされる。
 また、ズームエリア個数情報numZoomAreasの後には、インデックスidxにより特定されるズームエリアについての情報が、ズームエリア個数情報numZoomAreasにより示される個数だけ配置されている。ここで、インデックスidxは0乃至numZoomAreasの各値とされる。
 すなわち、ズームエリア個数情報numZoomAreasに続く「hasExtZoomAreaInfo[idx]」は、インデックスidxにより特定されるズームエリアのズームエリア補助情報が格納されているか否かを示す補助情報フラグを示している。ここでは、補助情報フラグhasExtZoomAreaInfo[idx]の値は0または1の何れかとされる。
 補助情報フラグhasExtZoomAreaInfo[idx]の値が0である場合には、ズームエリア情報ヘッダ部ZHDには、インデックスidxにより特定されるズームエリアのズームエリア補助情報が格納されていないことを示している。これに対して、補助情報フラグhasExtZoomAreaInfo[idx]の値が1である場合には、ズームエリア情報ヘッダ部ZHDにインデックスidxにより特定されるズームエリアのズームエリア補助情報が格納されていることを示している。
 補助情報フラグhasExtZoomAreaInfo[idx]の値が1である場合、その補助情報フラグhasExtZoomAreaInfo[idx]の後には、インデックスidxにより特定されるズームエリアの仕様を示す仕様IDである「ZoomAreaSpecifiedID[idx]」が配置されている。
 また、「hasZoomAreaCommentary」は、インデックスidxにより特定されるズームエリアについて、そのズームエリアについての説明等のテキスト情報など、仕様ID以外にさらなる補足情報があるか否かを示す補足情報フラグを示している。
 例えば、この補足情報フラグhasZoomAreaCommentaryの値が0である場合には、補足情報がないことを示している。これに対して、補足情報フラグhasZoomAreaCommentaryの値が1である場合には、補足情報があることを示しており、その補足情報フラグhasZoomAreaCommentaryに続いて、バイト数情報である「nbytes」および補足情報である「ZoomAreaCommentary[idx]」が配置されている。
 ここではバイト数情報nbytesは、補足情報ZoomAreaCommentary[idx]が何バイトの情報であるかを示している。また、補足情報ZoomAreaCommentary[idx]は、インデックスidxにより特定されるズームエリアについて説明するテキスト情報とされる。
 具体的には、例えばコンテンツがライブ映像とその音声からなり、インデックスidxにより特定されるズームエリアが映像オブジェクトとしてのヴォーカリストをズームし続けることを目的としたズームエリアであるとする。そのような場合、例えば「ヴォーカルズーム」などのテキスト情報が補足情報ZoomAreaCommentary[idx]とされる。
 ズームエリア情報ヘッダ部ZHDには、ズームエリア個数情報numZoomAreasにより示される個数だけ、必要に応じて補助情報フラグhasExtZoomAreaInfo[idx]、仕様IDであるZoomAreaSpecifiedID[idx]、補足情報フラグhasZoomAreaCommentary、バイト数情報nbytes、および補足情報ZoomAreaCommentary[idx]のセットが格納されている。但し、補助情報フラグhasExtZoomAreaInfo[idx]の値が0であるズームエリアに関しては、ZoomAreaSpecifiedID[idx]、補足情報フラグhasZoomAreaCommentary、バイト数情報nbytes、および補足情報ZoomAreaCommentary[idx]は格納されていない。同様に、補足情報フラグhasZoomAreaCommentaryの値が0であるズームエリアに関しては、バイト数情報nbytes、および補足情報ZoomAreaCommentary[idx]は格納されていない。
 また、仕様IDであるZoomAreaSpecifiedID[idx]は、ズームエリアに対する再生対象機器やズーム目的といったズーム仕様を示す情報であり、例えば図17に示すようにZoomAreaSpecifiedID[idx]の各値に対してズーム仕様が定められている。
 この例では、例えばZoomAreaSpecifiedID[idx]の値が1である場合、その仕様IDにより示されるズーム仕様のズームエリアは、再生対象機器がプロジェクタであることを想定したズームエリアであることを示している。
 また、ZoomAreaSpecifiedID[idx]の値が2乃至4のそれぞれである場合、それらの仕様IDにより示されるズーム仕様のズームエリアは、画面サイズが50型超、30型乃至50型、および30型未満であるテレビジョン受像機のぞれぞれを再生対象機器として想定したズームエリアであることを示している。
 このように、図17に示す例ではZoomAreaSpecifiedID[idx]の値が1乃至4の何れかであるズームエリア情報は、再生対象機器の種別ごとに定められたズームエリアを示す情報となっている。
 また、例えばZoomAreaSpecifiedID[idx]の値が7である場合、その仕様IDにより示されるズーム仕様のズームエリアは、再生対象機器がスマートフォンであり、かつスマートフォンの回転方向が縦方向であることを想定したズームエリアであることを示している。
 ここで、スマートフォンの回転方向が縦方向であるとは、ユーザがスマートフォンでコンテンツを視聴するときのスマートフォンの方向が縦方向である、つまりスマートフォンの表示画面の長手方向がユーザから見て縦方向(上下方向)であることをいう。したがって、ZoomAreaSpecifiedID[idx]の値が7である場合、ズームエリアは例えば縦長の領域とされる。
 同様に、例えばZoomAreaSpecifiedID[idx]の値が8である場合、その仕様IDにより示されるズーム仕様のズームエリアは、再生対象機器がスマートフォンであり、かつスマートフォンの回転方向が横方向であることを想定したズームエリアであることを示している。この場合、ズームエリアは、例えば横長の領域とされる。
 このように、図17に示す例ではZoomAreaSpecifiedID[idx]の値が5乃至8の何れかである各ズームエリア情報は、再生対象機器の種別と、その再生対象機器の回転方向に対して定められたズームエリアを示す情報となっている。
 さらに、例えばZoomAreaSpecifiedID[idx]の値が9である場合、その仕様IDにより示されるズーム仕様のズームエリアは、コンテンツ制作者により定められた所定のズーム目的のズームエリアであることを示している。ここで、所定のズーム目的とは、例えば所定の映像オブジェクトをズーム表示させるなど、特定のズームビューを表示させることなどとされる。
 したがって、例えばZoomAreaSpecifiedID[idx]の値「9」がヴォーカリストをズームし続けることを目的としたズーム仕様を示すものである場合、そのインデックスidxの補足情報ZoomAreaCommentary[idx]が「ヴォーカルズーム」などのテキスト情報とされる。ユーザは仕様ID、またはその仕様IDに対応付けられた情報や、仕様IDについての補足情報などから、各仕様IDにより示されるズーム仕様が、どのようなズーム仕様であるかを知ることができる。
 このように、図17に示す例ではZoomAreaSpecifiedID[idx]の値が9乃至15の何れかである各ズームエリア情報は、例えば特定の映像オブジェクトごとに定められたズームエリアなど、コンテンツ制作者側で自由に定められた任意のズームエリアを示す情報となっている。
 以上のように1つのコンテンツに対して1または複数のズームエリアを設定することで、例えば図18に示すように、より簡単にユーザの嗜好に合ったコンテンツや、各再生機器に適したコンテンツを提供することができるようになる。
 図18では、画像Q11は所定のコンテンツの映像(画像)を示している。このコンテンツはライブ映像のコンテンツであり、画像Q11はライブの演者であるヴォーカリストM11、ギタリストM12、およびベーシストM13が写っている他、ステージ全体や観客等も写っている広角画像となっている。
 コンテンツ制作者は、このようなコンテンツを構成する画像Q11に対して、再生対象機器やズーム目的等のズーム仕様に応じて、1または複数のズームエリアを設定する。
 例えば映像オブジェクトであるヴォーカリストM11をズームアップしたズームビューを表示させるために、画像Q11上のヴォーカリストM11を中心とする領域をズームエリアとすれば、再生側においてコンテンツとして画像Q12を再生させることができる。
 同様に、例えば映像オブジェクトであるギタリストM12をズームアップしたズームビューを表示させるために、画像Q11上のギタリストM12を中心とする領域をズームエリアとすれば、再生側においてコンテンツとして画像Q13を再生させることができる。
 さらに、例えば再生側において複数のズームエリアを選択し、それらのズームエリアを並べて1つの画面を構成することで、再生側においてコンテンツとして画像Q14を再生させることができる。
 この例では画像Q14は、画像Q11よりもやや画角が狭いズームエリアの画像Q21、ヴォーカリストM11をズームアップしたズームエリアの画像Q22、ギタリストM12をズームアップしたズームエリアの画像Q23、およびベーシストM13をズームアップしたズームエリアの画像Q24から構成されている。すなわち、画像Q14はマルチ画面構成となっている。コンテンツ提供側が予め複数のズームエリア定めておけば、コンテンツ再生側においていくつかのズームエリアを選択し、画像Q14のようなマルチ画面構成でコンテンツを再生させることができる。
 また、例えばタブレット型PC等のあまり表示画面が大きくない再生機器を想定して、画像Q11の半分程度の画角とすれば、つまり画像Q11の中心を含む、画像Q11全体の半分程度の面積の領域をズームエリアとすれば、再生側においてコンテンツとして画像Q15を再生させることができる。この例では、あまり表示画面が大きくない再生機器においても、各演者を十分な大きさで表示させることができる。
 さらに、例えば回転方向が横方向、つまり表示画面が横長の状態のスマートフォンを想定して、画像Q11の中心を含む、画像Q11内の比較的狭い横長の領域をズームエリアとすれば、再生側においてコンテンツとして画像Q16を再生させることができる。
 例えば回転方向が縦方向、つまり表示画面が縦長の状態のスマートフォンを想定して、画像Q11の中心近傍の縦方向に長い領域をズームエリアとすれば、再生側においてコンテンツとして画像Q17を再生させることができる。
 画像Q17では演者の1人であるヴォーカリストM11がズームアップされて表示されている。この例では、縦長の小さい表示画面が想定されているので、横方向に並ぶ全ての演者を表示させるよりも1人の演者をズームアップして表示させた方が、より再生対象機器に適した表示であるため、そのようなズームエリアが設定されている。
 また、例えば大型のテレビジョン受像機等の比較的表示画面が大きい再生機器を想定して、画像Q11よりもやや画角を狭くすれば、つまり画像Q11の中心を含む、画像Q11内の比較的広い領域をズームエリアとすれば、再生側においてコンテンツとして画像Q18を再生させることができる。
 以上のようにコンテンツ提供側においてズームエリアを設定し、そのズームエリアを示すズームエリア情報を含む符号化コンテンツデータを生成することで、再生側において、コンテンツの視聴者であるユーザは、コンテンツをそのまま再生するか、またはズームエリア情報に従ってズーム再生、つまりトリミング再生するかを選択することができる。
 特に、ズームエリア情報が複数ある場合には、ユーザは、それらの複数のズームエリア情報のうちのどのズームエリア情報に従ってズーム再生をするかを選択することができる。
 また、符号化コンテンツデータにズームエリア補助情報が格納されている場合には、再生側において再生対象機器、ズーム目的、ズームの内容等のズーム仕様や、補足情報を参照し、再生機器やユーザの嗜好に適したズームエリアを選択することができる。ズームエリアの選択は、ユーザが指定するようにしてもよいし、再生機器において自動的に行われるようにしてもよい。
〈符号化処理の説明〉
 次に、符号化装置11の具体的な動作について説明する。
 符号化装置11は、外部からコンテンツを構成する映像データおよび音声データと、そのコンテンツのメタデータとが供給されると符号化処理を行い、符号化コンテンツデータを出力する。以下、図19のフローチャートを参照して、符号化装置11による符号化処理について説明する。
 ステップS11において、映像データ符号化部21は、供給されたコンテンツの映像データを符号化し、その結果得られた符号化映像データを多重化部24に供給する。
 ステップS12において、音声データ符号化部22は、供給されたコンテンツの音声データを符号化し、その結果得られた符号化音声データを多重化部24に供給する。
 ステップS13において、メタデータ符号化部23は、供給されたコンテンツのメタデータを符号化し、その結果得られた符号化メタデータを多重化部24に供給する。
 ここで、符号化されるメタデータには、例えば上述したズームエリア情報が含まれている。ズームエリア情報は、例えば図5乃至図10や、図13、図15などを参照して説明したものの他、どのようなものであってもよい。
 また、メタデータ符号化部23は、必要に応じてズームエリア情報存在フラグhasZoomAreaInfoや、ズームエリア個数情報numZoomAreas、ズームエリア補助情報等のズームエリア情報のヘッダ情報も符号化し、多重化部24に供給する。
 ステップS14において、多重化部24は映像データ符号化部21から供給された符号化映像データ、音声データ符号化部22から供給された符号化音声データ、およびメタデータ符号化部23から供給された符号化メタデータを多重化してビットストリームを生成し、出力部25に供給する。このとき、多重化部24は、メタデータ符号化部23から供給された、ズームエリア情報の符号化されたヘッダ情報もビットストリームに格納する。
 これにより、例えば図2に示した符号化コンテンツデータがビットストリームとして得られる。なお、符号化コンテンツデータのズームエリア情報ヘッダ部ZHDの構成は、例えば図4や図14、図16に示した構成など、どのような構成とされてもよい。
 ステップS15において、出力部25は、多重化部24から供給されたビットストリームを出力し、符号化処理は終了する。
 以上のようにして符号化装置11は、コンテンツとともに、ズームエリア情報を含むメタデータを符号化し、ビットストリームを生成する。
 このようにズームエリアを指定するためのズームエリア情報を含むビットストリームを生成することで、再生機器ごと等にコンテンツを用意することなく、より簡単にユーザの嗜好に合ったコンテンツや各再生機器に適したコンテンツを提供することができる。
 すなわち、コンテンツ制作者は、ユーザの嗜好や再生機器の画面サイズ、再生機器の回転方向等に対して最適と考えるコンテンツを、それらの嗜好や再生機器ごとに用意することなく、ズームエリアを指定するだけで簡単に提供することが可能となる。
 また、再生側においては、ズームエリアを選択し、必要に応じてコンテンツをトリミングすることで、ユーザの嗜好や再生機器の画面サイズ、再生機器の回転方向等に対して最適なコンテンツを視聴することができる。
〈再生装置の構成例〉
 次に、符号化装置11から出力されたビットストリーム、すなわち符号化コンテンツデータを受信して、コンテンツを再生する再生装置について説明する。
 図20は、本技術を適用した再生装置の一実施の形態の構成例を示す図である。
 この例では、再生装置51には、必要に応じてズームエリアの選択時に情報を表示する表示装置52、コンテンツの映像を出力する映像出力装置53、およびコンテンツの音声を出力する音声出力装置54が接続されている。
 なお、これらの表示装置52、映像出力装置53、および音声出力装置54は、再生装置51に設けられていてもよい。また、表示装置52と映像出力装置53は、同一の装置であってもよい。
 再生装置51はコンテンツデータ復号部61、ズームエリア選択部62、映像データ復号部63、映像切出部64、音声データ復号部65、および音声変換部66を有している。
 コンテンツデータ復号部61は、符号化装置11から送信されたビットストリーム、すなわち符号化コンテンツデータを受信し、符号化コンテンツデータから符号化映像データ、符号化音声データ、および符号化メタデータを分離させる。
 コンテンツデータ復号部61は、符号化映像データを映像データ復号部63に供給するとともに、符号化音声データを音声データ復号部65に供給する。
 コンテンツデータ復号部61は、符号化メタデータを復号してメタデータを得るとともに、得られたメタデータを必要に応じて再生装置51の各部に供給する。また、コンテンツデータ復号部61は、メタデータにズームエリア情報が含まれている場合には、そのズームエリア情報をズームエリア選択部62に供給する。さらに、コンテンツデータ復号部61は、ビットストリームにズームエリア補助情報が格納されている場合には、そのズームエリア補助情報を読み出すとともに必要に応じて復号し、ズームエリア選択部62に供給する。
 ズームエリア選択部62は、コンテンツデータ復号部61から供給された1または複数のズームエリア情報のなかから1つのズームエリア情報を選択し、選択されたズームエリア情報を選択ズームエリア情報として映像切出部64および音声変換部66に供給する。換言すれば、ズームエリア選択部62では、コンテンツデータ復号部61から供給されたズームエリア情報に基づいてズームエリアが選択される。
 例えば、ズームエリア選択部62は、コンテンツデータ復号部61からズームエリア補助情報が供給された場合には、そのズームエリア補助情報を表示装置52に供給し、表示させる。これにより、例えば表示装置52には、ズームエリアの目的や内容、再生対象機器等のズーム仕様を示す仕様IDや、その仕様IDに基づく情報、テキスト情報等の補足情報がズームエリア補助情報として表示される。
 すると、ユーザは、表示装置52に表示されたズームエリア補助情報を確認し、図示せぬ入力部を操作して、所望のズームエリアを選択する。ズームエリア選択部62は、入力部から供給されたユーザの操作に応じた信号に基づいてズームエリアを選択し、選択されたズームエリアを示す選択ズームエリア情報を出力する。つまり、ユーザにより指定されたズームエリアのズームエリア情報が選択され、選択されたズームエリア情報が選択ズームエリア情報として出力される。
 なお、ズームエリア選択部62によってズームエリア情報からズームエリアの位置および大きさを示す情報が生成されて表示装置52に表示され、その表示に基づいてユーザがズームエリアを選択するなど、ズームエリアの選択はどのようにして行われてもよい。
 なお、ズームエリアの選択がなされなかった場合、すなわち、もとのコンテンツの再生が選択された場合には、選択ズームエリア情報はトリミングをしない旨の情報などとされる。
 また、例えば再生装置51が、スマートフォンやテレビジョン受像機など、自身がどのような種別の機器であるかを示す再生機器情報を予め記録している場合には、その再生機器情報が用いられてズームエリア情報(ズームエリア)が選択されるようにしてもよい。
 そのような場合、例えばズームエリア選択部62は、再生機器情報を取得するとともに、取得した再生機器情報とズームエリア補助情報とを用いてズームエリア情報を選択する。
 具体的には、ズームエリア選択部62は、ズームエリア補助情報としての仕様IDのうち、再生対象機器が再生機器情報により示される種別の機器であることを示す仕様IDを選択する。そして、ズームエリア選択部62は、選択された仕様IDに対応するズームエリア情報、つまりインデックスidxが、選択された仕様IDのものと同じであるズームエリア情報を、選択されたズームエリア情報とする。
 さらに、例えば再生装置51がスマートフォンやタブレット型PC等のポータブル機器である場合、ズームエリア選択部62は、図示せぬジャイロセンサ等から再生装置51の回転方向を示す方向情報を取得し、その方向情報を用いてズームエリア情報を選択してもよい。
 そのような場合、例えばズームエリア選択部62は、ズームエリア補助情報としての仕様IDのうち、再生対象機器が再生機器情報により示される種別の機器であり、かつ想定された回転方向が、取得した方向情報により示される方向であることを示す仕様IDを選択する。そして、ズームエリア選択部62は、選択された仕様IDに対応するズームエリア情報を、選択されたズームエリア情報とする。これにより、ユーザが再生装置51を縦方向(縦長の画面)にして使用している状態でも、横方向(横長の画面)にして使用している状態でも、現状態に最適なズームエリアのズームエリア情報が選択される。
 なお、その他、再生機器情報または方向情報の何れか一方のみが用いられてズームエリア情報が選択されるようにしてもよいし、再生装置51に関する他の情報が用いられてズームエリア情報が選択されるようにしてもよい。
 映像データ復号部63は、コンテンツデータ復号部61から供給された符号化映像データを復号し、その結果得られた映像データを映像切出部64に供給する。
 映像切出部64は、映像データ復号部63から供給された映像データに基づく映像(画像)のうち、ズームエリア選択部62から供給された選択ズームエリア情報により示されるズームエリアをトリミングして(切り出して)、その結果得られたズーム映像データを映像出力装置53に出力する。
 なお、選択ズームエリア情報が、トリミングをしない旨の情報である場合には、映像切出部64は、映像データに対するトリミング処理を行わず、その映像データをそのままズーム映像データとして映像出力装置53に出力する。
 音声データ復号部65は、コンテンツデータ復号部61から供給された符号化音声データを復号し、その結果得られた音声データを音声変換部66に供給する。
 音声変換部66は、ズームエリア選択部62から供給された選択ズームエリア情報に基づいて、音声データ復号部65から供給された音声データに対して音声変換処理を施し、その結果得られたズーム音声データを音声出力装置54に供給する。
 ここで、音声変換処理はコンテンツの映像のズームに適合した音声再生となるような変換とされる。
 例えばズームエリアのトリミング処理、つまり切り出しズーム処理によって、映像内のオブジェクトから基準となる視聴点までの距離が変化する。そこで、音声変換部66は、例えば音声データがオブジェクトベースオーディオである場合には、音声データ復号部65を介してコンテンツデータ復号部61から供給された、メタデータとしてのオブジェクトの位置情報を、選択ズームエリア情報に基づいて変換する。すなわち、音声変換部66は、音源であるオブジェクトの位置、つまりオブジェクトまでの距離を選択ズームエリア情報に基づいて移動させる。
 そして、音声変換部66は、オブジェクトの位置が移動された音声データに基づいてレンダリング処理を行い、その結果得られたズーム音声データを音声出力装置54に供給し、音声を再生させる。
 なお、このような音声変換処理は、例えば国際特許出願番号PCT/JP2014/067508の明細書等に詳細に記載されている。
 また、選択ズームエリア情報が、トリミングをしない旨の情報である場合には、音声変換部66は、音声データに対する音声変換処理を行わず、その音声データをそのままズーム音声データとして音声出力装置54に出力する。
〈再生処理の説明〉
 続いて再生装置51の動作について説明する。
 再生装置51は、符号化装置11から出力された符号化コンテンツデータを受信すると、受信した符号化コンテンツデータを復号してコンテンツを再生する再生処理を行う。以下、図21のフローチャートを参照して、再生装置51による再生処理について説明する。
 ステップS41において、コンテンツデータ復号部61は、受信した符号化コンテンツデータから符号化映像データ、符号化音声データ、および符号化メタデータを分離させるとともに、符号化メタデータを復号する。
 そして、コンテンツデータ復号部61は、符号化映像データを映像データ復号部63に供給するとともに、符号化音声データを音声データ復号部65に供給する。また、コンテンツデータ復号部61は、復号により得られたメタデータを必要に応じて再生装置51の各部に供給する。
 このとき、コンテンツデータ復号部61は、メタデータとして得られたズームエリア情報をズームエリア選択部62に供給する。さらに、コンテンツデータ復号部61は、符号化コンテンツデータにメタデータのヘッダ情報としてズームエリア補助情報が格納されている場合には、そのズームエリア補助情報を読み出してズームエリア選択部62に供給する。例えば、ズームエリア補助情報として、上述した補足情報ZoomAreaCommentary[idx]や、仕様IDであるZoomAreaSpecifiedID[idx]などが読み出される。
 ステップS42において、ズームエリア選択部62は、コンテンツデータ復号部61から供給されたズームエリア情報から1つのズームエリア情報を選択し、その選択結果に応じた選択ズームエリア情報を映像切出部64および音声変換部66に供給する。
 例えば、ズームエリア情報の選択時には、ズームエリア選択部62はズームエリア補助情報を表示装置52に供給して表示させ、その表示を見たユーザの操作入力により供給された信号に基づいてズームエリア情報を選択する。
 また、上述したようにズームエリア補助情報や、ユーザの操作入力だけでなく、再生機器情報や方向情報も利用されてズームエリア情報の選択が行われてもよい。
 ステップS43において、映像データ復号部63は、コンテンツデータ復号部61から供給された符号化映像データを復号し、その結果得られた映像データを映像切出部64に供給する。
 ステップS44において、映像切出部64は、映像データ復号部63から供給された映像データに基づく映像に対して、ズームエリア選択部62から供給された選択ズームエリア情報により示されるズームエリアの切り出し(トリミング)を行う。これにより、選択ズームエリア情報により示されるズームエリアの映像を再生するためのズーム映像データが得られる。
 映像切出部64は、切り出しにより得られたズーム映像データを映像出力装置53に供給し、トリミングされたコンテンツの映像を再生させる。映像出力装置53は、映像切出部64から供給されたズーム映像データに基づいて映像を再生(表示)する。
 ステップS45において、音声データ復号部65は、コンテンツデータ復号部61から供給された符号化音声データを復号し、その結果得られた音声データを音声変換部66に供給する。
 ステップS46において、音声変換部66は、ズームエリア選択部62から供給された選択ズームエリア情報に基づいて、音声データ復号部65から供給された音声データに対して音声変換処理を施す。また、音声変換部66は、音声変換処理により得られたズーム音声データを音声出力装置54に供給して音声を出力させる。音声出力装置54は、音声変換部66から供給されたズーム音声データに基づいて、音声変換処理されたコンテンツの音声を再生し、再生処理は終了する。
 なお、より詳細には、ステップS43およびステップS44の処理と、ステップS45およびステップS46の処理は並行して行われる。
 以上のようにして再生装置51は、適切なズームエリア情報を選択し、その選択結果に応じた選択ズームエリア情報に基づいて、映像データに対するトリミングや音声データに対する音声変換処理を行い、コンテンツを再生する。
 このようにズームエリア情報を選択することで、より簡単にユーザの嗜好に合ったコンテンツや、再生装置51の表示画面サイズ、再生装置51の回転方向等に適したコンテンツなど、適切にトリミングや音声変換されたコンテンツを再生することができる。また、ユーザが表示装置52により提示されたズームエリア補助情報に基づいてズームエリアを選択する場合には、ユーザは簡単に所望のズームエリアを選択することができる。
 なお、図21を参照して説明した再生処理では、選択ズームエリア情報に基づいて、コンテンツを構成する映像のトリミングとコンテンツを構成する音声の音声変換処理の両方が行われる場合について説明したが、何れか一方のみが行われてもよい。
 また、コンテンツが映像のみまたは音声のみから構成される場合でも、それらの映像または音声に対して、トリミングや音声変換処理を施して再生することが可能である。
 例えばコンテンツが音声のみから構成される場合でも、ズームするエリアを示すズームエリア情報を選択し、選択されたズームエリア情報に応じて音源オブジェクトまでの距離等を音声変換処理により変化させることで、ユーザの嗜好や再生機器等に適したコンテンツ再生を実現することができる。
〈第2の実施の形態〉
〈再生装置の構成例〉
 なお、以上においては、映像切出部64において、1つの選択ズームエリア情報に従ってコンテンツの映像からズームエリアをトリミングする例について説明したが、複数のズームエリアが選択されるようにし、それらの複数のズームエリアがマルチ画面配置で出力されてもよい。
 そのような場合、再生装置51は、例えば図22に示すように構成される。なお、図22において図20における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図22に示す再生装置51は、コンテンツデータ復号部61、ズームエリア選択部62、映像データ復号部63、映像切出部64、映像配置部91、音声データ復号部65、および音声変換部66を有している。
 図22に示す再生装置51の構成は、映像切出部64の後段に映像配置部91が新たに設けられている点で図20の再生装置51と異なり、その他の点では図20の再生装置51と同じ構成となっている。
 この例では、ズームエリア選択部62は1または複数のズームエリア情報を選択し、それらのズームエリア情報を選択ズームエリア情報として映像切出部64に供給する。また、ズームエリア選択部62は、1つのズームエリア情報を選択し、そのズームエリア情報を選択ズームエリア情報として音声変換部66に供給する。
 なお、ズームエリア選択部62におけるズームエリア情報の選択は、図20に示した再生装置51における場合と同様に、ユーザの入力操作に応じて行われてもよいし、ズームエリア補助情報や再生機器情報、方向情報などに基づいて行われてもよい。
 また、音声変換部66に供給される選択ズームエリア情報としてのズームエリア情報は、ユーザの入力操作に応じて選択されてもよいし、符号化コンテンツデータにおいて先頭等の所定位置に配置されているズームエリア情報であってもよい。その他、ズームエリアのサイズが最も大きいものなど、代表的なズームエリアのズームエリア情報であればよい。
 映像切出部64は、映像データ復号部63から供給された映像データに基づく映像(画像)のうち、ズームエリア選択部62から供給された1または複数の選択ズームエリア情報のそれぞれにより示されるズームエリアをトリミングして、各ズームエリアのズーム映像データを生成する。また、映像切出部64は、トリミングにより得られた各ズームエリアのズーム映像データを映像配置部91に供給する。
 なお、映像切出部64が、トリミングが行われていない映像データを、そのまま1つのズーム映像データとして映像配置部91に供給してもよい。
 映像配置部91は、映像切出部64から供給された1または複数のズーム映像データに基づいて、それらのズーム映像データに基づく映像がマルチ画面配置されて再生されるマルチ画面映像データを生成し、映像出力装置53に供給する。ここで、マルチ画面映像データにより再生される映像は、例えば図18の画像Q14のように、選択されたズームエリアの映像(画像)が並べられて配置された映像となる。
 また音声変換部66は、ズームエリア選択部62から供給された選択ズームエリア情報に基づいて、音声データ復号部65から供給された音声データに対して音声変換処理を施し、その結果得られたズーム音声データをマルチ画面配置の代表音声の音声データとして音声出力装置54に供給する。なお、音声変換部66が、音声データ復号部65から供給された音声データを、そのまま代表音声の音声データ(ズーム音声データ)として音声出力装置54に供給するようにしてもよい。
〈再生処理の説明〉
 次に、図23のフローチャートを参照して、図22に示した再生装置51による再生処理について説明する。なお、ステップS71の処理は図21のステップS41の処理と同様であるので、その説明は省略する。
 ステップS72において、ズームエリア選択部62は、コンテンツデータ復号部61から供給されたズームエリア情報のなかから1または複数のズームエリア情報を選択し、その選択結果に応じた選択ズームエリア情報を映像切出部64に供給する。
 なお、ここでのズームエリア情報の選択の処理は、選択されるズームエリア情報の個数が異なるだけで、基本的には図21のステップS42の処理と同様の処理が行われる。
 また、ズームエリア選択部62は、コンテンツデータ復号部61から供給されたズームエリア情報のなかから、代表的な1つのズームエリアのズームエリア情報を選択し、その選択結果に応じた選択ズームエリア情報を音声変換部66に供給する。ここで、音声変換部66に供給される選択ズームエリア情報は、映像切出部64に供給される1または複数の選択ズームエリア情報のなかの1つと同じものとされる。
 ズームエリア情報の選択が行われると、その後、ステップS73およびステップS74の処理が行われて符号化映像データの復号、および映像からのズームエリアのトリミングが行われるが、これらの処理は図21のステップS43およびステップS44の処理と同様であるので、その説明は省略する。但し、ステップS74では、1または複数の選択ズームエリア情報ごとに、映像データに基づく映像から、選択ズームエリア情報により示されるズームエリアのトリミング(切り出し)が行われ、各ズームエリアのズーム映像データが映像配置部91に供給される。
 ステップS75において、映像配置部91は、映像切出部64から供給された1または複数のズーム映像データに基づいて映像配置処理を行う。すなわち、映像配置部91は、1または複数のズーム映像データに基づいてマルチ画面映像データを生成し、映像出力装置53に供給して、コンテンツの各ズームエリアの映像を再生させる。映像出力装置53は、映像配置部91から供給されたマルチ画面映像データに基づいてマルチ画面配置された映像を再生(表示)する。例えば複数のズームエリアが選択された場合には、図18の画像Q14のようなマルチ画面構成でコンテンツが再生される。
 映像配置処理が行われると、その後、ステップS76およびステップS77の処理が行われて再生処理は終了するが、これらの処理は図21のステップS45およびステップS46の処理と同様であるので、その説明は省略する。
 以上のようにして再生装置51は、1または複数のズームエリア情報を選択し、その選択結果に応じた選択ズームエリア情報に基づいて、映像データに対するトリミングや音声データに対する音声変換処理を行い、コンテンツを再生する。
 このように1または複数のズームエリア情報を選択することで、より簡単にユーザの嗜好に合ったコンテンツや、再生装置51の表示画面サイズ等に適したコンテンツなど、適切なコンテンツを再生することができる。特に、複数のズームエリア情報が選択された場合には、ユーザの嗜好等に合ったマルチ画面表示でコンテンツ映像を再生することができる。
 さらに、ユーザが表示装置52により提示されたズームエリア補助情報に基づいてズームエリアを選択する場合には、ユーザは簡単に所望のズームエリアを選択することができる。
〈第3の実施の形態〉
〈再生装置の構成例〉
 さらに、上述したコンテンツがネットワークを介して配信される場合には、再生側の機器が、選択されたズームエリアの再生に必要なデータのみを効率よく受信できるようにすることも可能である。そのような場合、例えば再生装置は、図24に示すように構成される。なお、図24において、図20における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図24では、コンテンツを再生する再生装置121は、コンテンツやメタデータを記録しているコンテンツデータ配信サーバ122から、所望の符号化映像データや符号化音声データの供給を受ける。すなわち、コンテンツデータ配信サーバ122は、コンテンツおよびそのコンテンツのメタデータを、符号化された状態または符号化されていない状態で記録しており、再生装置121の要求に応じてコンテンツを配信する。
 この例では再生装置121は、通信部131、メタデータ復号部132、映像/音声データ復号部133、ズームエリア選択部62、映像データ復号部63、映像切出部64、音声データ復号部65、および音声変換部66を有している。
 通信部131は、ネットワークを介してコンテンツデータ配信サーバ122との間で各種のデータの授受を行う。
 例えば通信部131は、符号化メタデータをコンテンツデータ配信サーバ122から受信してメタデータ復号部132に供給したり、符号化映像データおよび符号化音声データをコンテンツデータ配信サーバ122から受信して映像/音声データ復号部133に供給したりする。また、通信部131は、ズームエリア選択部62から供給された選択ズームエリア情報をコンテンツデータ配信サーバ122に送信する。
 メタデータ復号部132は、通信部131から供給された符号化メタデータを復号してメタデータを得るとともに、得られたメタデータを必要に応じて再生装置121の各部に供給する。
 また、メタデータ復号部132は、メタデータにズームエリア情報が含まれている場合には、そのズームエリア情報をズームエリア選択部62に供給する。さらに、メタデータ復号部132は、コンテンツデータ配信サーバ122からズームエリア補助情報を受信した場合には、ズームエリア補助情報をズームエリア選択部62に供給する。
 映像/音声データ復号部133は、通信部131から符号化映像データおよび符号化音声データが供給されると、符号化映像データを映像データ復号部63に供給するとともに、符号化音声データを音声データ復号部65に供給する。
〈再生処理の説明〉
 続いて再生装置121の動作について説明する。
 再生装置121は、コンテンツデータ配信サーバ122に符号化メタデータの送信を要求し、コンテンツデータ配信サーバ122から符号化メタデータが送信されてくると、再生処理を行ってコンテンツを再生する。以下、図25のフローチャートを参照して、再生装置121による再生処理について説明する。
 ステップS101において、通信部131は、コンテンツデータ配信サーバ122から送信されてきた符号化メタデータを受信してメタデータ復号部132に供給する。なお、より詳細には、通信部131は、必要に応じて、ズームエリア個数情報やズームエリア補助情報等のメタデータのヘッダ情報もコンテンツデータ配信サーバ122から受信して、メタデータ復号部132に供給する。
 ステップS102において、メタデータ復号部132は、通信部131から供給された符号化メタデータを復号し、復号により得られたメタデータを必要に応じて再生装置121の各部に供給する。また、メタデータ復号部132は、メタデータとして得られたズームエリア情報をズームエリア選択部62に供給するとともに、メタデータのヘッダ情報としてズームエリア補助情報がある場合には、ズームエリア補助情報もズームエリア選択部62に供給する。
 このようにしてメタデータが得られると、続いてステップS103の処理が行われてズームエリア情報が選択されるが、ステップS103の処理は図21のステップS42の処理と同様であるので、その説明は省略する。但し、ステップS103では、ズームエリア情報の選択により得られた選択ズームエリア情報が、映像切出部64、音声変換部66、および通信部131に供給される。
 ステップS104において、通信部131は、ズームエリア選択部62から供給された選択ズームエリア情報を、ネットワークを介してコンテンツデータ配信サーバ122に送信する。
 選択ズームエリア情報を受信したコンテンツデータ配信サーバ122は、記録しているコンテンツの映像データに対して、選択ズームエリア情報により示されるズームエリアのトリミング(切り出し)を行い、ズーム映像データを生成する。このようにして得られたズーム映像データは、もとのコンテンツの映像全体のなかの選択ズームエリア情報により示されるズームエリアのみを再生する映像データである。
 コンテンツデータ配信サーバ122は、ズーム映像データを符号化して得られた符号化映像データと、コンテンツを構成する音声データを符号化して得られた符号化音声データとを、再生装置121に送信する。
 なお、コンテンツデータ配信サーバ122において、各ズームエリアのズーム映像データが予め用意されているようにしてもよい。また、コンテンツデータ配信サーバ122において、コンテンツを構成する音声データについては、選択されたズームエリアによらず、全ての音声データを符号化して符号化音声データを出力するのが一般的であるが、一部の音声データの符号化音声データのみが出力されるようにしてもよい。例えば、コンテンツを構成する音声データが、各オブジェクトの音声データである場合には、選択ズームエリア情報により示されるズームエリア内のオブジェクトの音声データのみが符号化されて再生装置121に送信されてもよい。
 ステップS105において、通信部131は、コンテンツデータ配信サーバ122から送信されてきた符号化映像データおよび符号化音声データを受信して映像/音声データ復号部133に供給する。また、映像/音声データ復号部133は、通信部131から供給された符号化映像データを映像データ復号部63に供給するとともに、通信部131から供給された符号化音声データを音声データ復号部65に供給する。
 符号化映像データと符号化音声データが得られると、その後、ステップS106乃至ステップS109の処理が行われて再生処理は終了するが、これらの処理は図21のステップS43乃至ステップS46の処理と同様であるので、その説明は省略する。
 但し、映像データ復号部63が符号化映像データを復号して得られる信号は、既にトリミングが行われたズーム映像データとなっているので、基本的には映像切出部64においてトリミング処理は行われない。映像切出部64は、さらにトリミングが必要な場合にのみ、ズームエリア選択部62から供給された選択ズームエリア情報に基づいて、映像データ復号部63から供給されたズーム映像データに対するトリミングを行う。
 このようにズーム映像データとズーム音声データに基づいて、映像出力装置53および音声出力装置54でコンテンツが再生されると、例えば図18に示したように選択されたズームエリアに応じたコンテンツが再生される。
 以上のようにして再生装置121は、適切なズームエリア情報を選択し、その選択結果に応じた選択ズームエリア情報をコンテンツデータ配信サーバ122に送信して、符号化映像データおよび符号化音声データを受信する。
 このように選択ズームエリア情報に応じて符号化映像データおよび符号化音声データを受信することで、より簡単にユーザの嗜好に合ったコンテンツや、再生装置121の表示画面サイズ、再生装置121の回転方向等に適したコンテンツなど、適切なコンテンツを再生することができる。しかも、効率よくコンテンツの再生に必要なデータのみを得ることができる。
〈第4の実施の形態〉
〈再生装置の構成例〉
 また、以上においては、符号化コンテンツデータにズームエリア情報が含まれている例について説明した。しかし、例えばコンテンツとは別に、インターネット等のネットワーク上で公開されているズームエリア情報や、所定の記録媒体に記録されているズームエリア情報に従ってコンテンツをトリミング再生するようにしてもよい。そのような場合、例えばコンテンツ制作者だけでなく、コンテンツ制作者とは異なる第三者、すなわち他のユーザが作成したズームエリア情報を取得してトリミング再生を行うことが可能となる。
 このようにコンテンツと、ズームエリア情報を含むメタデータとを別々に取得する場合、再生装置は、例えば図26に示すように構成される。なお、図26において図20における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図26に示す再生装置161は、メタデータ復号部171、コンテンツデータ復号部172、ズームエリア選択部62、映像データ復号部63、映像切出部64、音声データ復号部65、および音声変換部66を有している。
 メタデータ復号部171は、例えばネットワーク上の装置や、再生装置161に接続された記録媒体などから、ズームエリア情報を含むメタデータの符号化メタデータを取得して復号する。
 また、メタデータ復号部171は、符号化メタデータを復号して得られたメタデータを、必要に応じて再生装置161の各部に供給するとともに、メタデータに含まれているズームエリア情報をズームエリア選択部62に供給する。さらに、メタデータ復号部171は、必要に応じて符号化メタデータとともに、ズームエリア補助情報等のメタデータのヘッダ情報を取得してズームエリア選択部62に供給する。
 コンテンツデータ復号部172は、例えばネットワーク上の装置や、再生装置161に接続された記録媒体などから、コンテンツの符号化映像データと符号化音声データを取得する。また、コンテンツデータ復号部172は、取得した符号化映像データを映像データ復号部63に供給するとともに、取得した符号化音声データを音声データ復号部65に供給する。なお、この例では、符号化映像データおよび符号化音声データと、符号化メタデータとは互いに異なる装置や記録媒体等から取得される。
〈再生処理の説明〉
 続いて再生装置161の動作について説明する。
 再生装置161は、コンテンツの再生が指示されると、符号化メタデータと、符号化されたコンテンツとを取得してコンテンツを再生する再生処理を行う。以下、図27のフローチャートを参照して、再生装置161による再生処理について説明する。
 ステップS131において、メタデータ復号部171は、例えばネットワーク上の装置や、再生装置161に接続された記録媒体などから、ズームエリア情報を含む符号化メタデータを取得する。なお、符号化メタデータは、再生処理の開始前に予め取得されているようにしてもよい。
 ステップS132において、メタデータ復号部171は、取得した符号化メタデータを復号し、その結果得られたメタデータを必要に応じて再生装置161の各部に供給する。また、メタデータ復号部171は、メタデータに含まれているズームエリア情報をズームエリア選択部62に供給するとともに、必要に応じて取得されたズームエリア補助情報等のメタデータのヘッダ情報もズームエリア選択部62に供給する。
 復号によりメタデータが得られると、ステップS133の処理が行われてズームエリア情報が選択されるが、ステップS133の処理は図21のステップS42の処理と同様であるので、その説明は省略する。
 ステップS134において、コンテンツデータ復号部172は、例えばネットワーク上の装置や再生装置161に接続された記録媒体などから、コンテンツの符号化映像データおよび符号化音声データを取得する。また、コンテンツデータ復号部172は、取得した符号化映像データを映像データ復号部63に供給するとともに、取得した符号化音声データを音声データ復号部65に供給する。
 このようにしてコンテンツの符号化映像データと符号化音声データが取得されると、その後、ステップS135乃至ステップS138の処理が行われて再生処理は終了するが、これらの処理は図21のステップS43乃至ステップS46の処理と同様であるため、その説明は省略する。
 以上のようにして再生装置161は、コンテンツの符号化映像データおよび符号化音声データと、ズームエリア情報を含む符号化メタデータとを別々に取得する。そして、再生装置161は、適切なズームエリア情報を選択し、その選択結果に応じた選択ズームエリア情報に基づいて、映像データに対するトリミングや音声データに対する音声変換処理を行い、コンテンツを再生する。
 このようにズームエリア情報を含む符号化メタデータを、符号化映像データおよび符号化音声データとは別に取得することで、コンテンツ制作者だけでなく他のユーザ等が設定したズームエリアなど、様々なズームエリアをトリミング再生することができる。
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図28は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブルメディア511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、本技術は、以下の構成とすることも可能である。
[1]
 符号化された映像データ、または符号化された音声データを復号する復号部と、
 ズームするエリアを指定する複数のズームエリア情報のなかから、1または複数のズームエリア情報を選択するズームエリア選択部と、
 選択された前記ズームエリア情報に基づいて、復号により得られた前記映像データに対するトリミング処理、または復号により得られた前記音声データに対する音声変換処理を行うデータ処理部と
 を備える再生装置。
[2]
 前記複数の前記ズームエリア情報には、再生対象機器の種別ごとの前記エリアを指定する前記ズームエリア情報が含まれている
 [1]に記載の再生装置。
[3]
 前記複数の前記ズームエリア情報には、再生対象機器の回転方向ごとの前記エリアを指定する前記ズームエリア情報が含まれている
 [1]または[2]に記載の再生装置。
[4]
 前記複数の前記ズームエリア情報には、特定の映像オブジェクトごとの前記エリアを指定する前記ズームエリア情報が含まれている
 [1]乃至[3]の何れか一項に記載の再生装置。
[5]
 前記ズームエリア選択部は、ユーザの操作入力に応じて前記ズームエリア情報を選択する
 [1]乃至[4]の何れか一項に記載の再生装置。
[6]
 前記ズームエリア選択部は、前記再生装置に関する情報に基づいて前記ズームエリア情報を選択する
 [1]乃至[4]の何れか一項に記載の再生装置。
[7]
 前記ズームエリア選択部は、前記再生装置の種別を示す情報、および前記再生装置の回転方向を示す情報の少なくとも何れか一つを前記再生装置に関する情報として、前記ズームエリア情報を選択する
 [6]に記載の再生装置。
[8]
 符号化された映像データ、または符号化された音声データを復号し、
 ズームするエリアを指定する複数のズームエリア情報のなかから、1または複数のズームエリア情報を選択し、
 選択された前記ズームエリア情報に基づいて、復号により得られた前記映像データに対するトリミング処理、または復号により得られた前記音声データに対する音声変換処理を行う
 ステップを含む再生方法。
[9]
 符号化された映像データ、または符号化された音声データを復号し、
 ズームするエリアを指定する複数のズームエリア情報のなかから、1または複数のズームエリア情報を選択し、
 選択された前記ズームエリア情報に基づいて、復号により得られた前記映像データに対するトリミング処理、または復号により得られた前記音声データに対する音声変換処理を行う
 ステップを含む処理をコンピュータに実行させるプログラム。
[10]
 映像データを符号化するか、または音声データを符号化する符号化部と、
 符号化された前記映像データ、または符号化された前記音声データと、ズームするエリアを指定する複数のズームエリア情報とを多重化してビットストリームを生成する多重化部と
 を備える符号化装置。
[11]
 映像データを符号化するか、または音声データを符号化し、
 符号化された前記映像データ、または符号化された前記音声データと、ズームするエリアを指定する複数のズームエリア情報とを多重化してビットストリームを生成する
 ステップを含む符号化方法。
[12]
 映像データを符号化するか、または音声データを符号化し、
 符号化された前記映像データ、または符号化された前記音声データと、ズームするエリアを指定する複数のズームエリア情報とを多重化してビットストリームを生成する
 ステップを含む処理をコンピュータに実行させるプログラム。
 11 符号化装置, 21 映像データ符号化部, 22 音声データ符号化部, 23 メタデータ符号化部, 24 多重化部, 25 出力部, 51 再生装置, 61 コンテンツデータ復号部, 62 ズームエリア選択部, 63 映像データ復号部, 64 映像切出部, 65 音声データ復号部, 66 音声変換部

Claims (12)

  1.  符号化された映像データ、または符号化された音声データを復号する復号部と、
     ズームするエリアを指定する複数のズームエリア情報のなかから、1または複数のズームエリア情報を選択するズームエリア選択部と、
     選択された前記ズームエリア情報に基づいて、復号により得られた前記映像データに対するトリミング処理、または復号により得られた前記音声データに対する音声変換処理を行うデータ処理部と
     を備える再生装置。
  2.  前記複数の前記ズームエリア情報には、再生対象機器の種別ごとの前記エリアを指定する前記ズームエリア情報が含まれている
     請求項1に記載の再生装置。
  3.  前記複数の前記ズームエリア情報には、再生対象機器の回転方向ごとの前記エリアを指定する前記ズームエリア情報が含まれている
     請求項1に記載の再生装置。
  4.  前記複数の前記ズームエリア情報には、特定の映像オブジェクトごとの前記エリアを指定する前記ズームエリア情報が含まれている
     請求項1に記載の再生装置。
  5.  前記ズームエリア選択部は、ユーザの操作入力に応じて前記ズームエリア情報を選択する
     請求項1に記載の再生装置。
  6.  前記ズームエリア選択部は、前記再生装置に関する情報に基づいて前記ズームエリア情報を選択する
     請求項1に記載の再生装置。
  7.  前記ズームエリア選択部は、前記再生装置の種別を示す情報、および前記再生装置の回転方向を示す情報の少なくとも何れか一つを前記再生装置に関する情報として、前記ズームエリア情報を選択する
     請求項6に記載の再生装置。
  8.  符号化された映像データ、または符号化された音声データを復号し、
     ズームするエリアを指定する複数のズームエリア情報のなかから、1または複数のズームエリア情報を選択し、
     選択された前記ズームエリア情報に基づいて、復号により得られた前記映像データに対するトリミング処理、または復号により得られた前記音声データに対する音声変換処理を行う
     ステップを含む再生方法。
  9.  符号化された映像データ、または符号化された音声データを復号し、
     ズームするエリアを指定する複数のズームエリア情報のなかから、1または複数のズームエリア情報を選択し、
     選択された前記ズームエリア情報に基づいて、復号により得られた前記映像データに対するトリミング処理、または復号により得られた前記音声データに対する音声変換処理を行う
     ステップを含む処理をコンピュータに実行させるプログラム。
  10.  映像データを符号化するか、または音声データを符号化する符号化部と、
     符号化された前記映像データ、または符号化された前記音声データと、ズームするエリアを指定する複数のズームエリア情報とを多重化してビットストリームを生成する多重化部と
     を備える符号化装置。
  11.  映像データを符号化するか、または音声データを符号化し、
     符号化された前記映像データ、または符号化された前記音声データと、ズームするエリアを指定する複数のズームエリア情報とを多重化してビットストリームを生成する
     ステップを含む符号化方法。
  12.  映像データを符号化するか、または音声データを符号化し、
     符号化された前記映像データ、または符号化された前記音声データと、ズームするエリアを指定する複数のズームエリア情報とを多重化してビットストリームを生成する
     ステップを含む処理をコンピュータに実行させるプログラム。
PCT/JP2015/077243 2014-10-10 2015-09-28 符号化装置および方法、再生装置および方法、並びにプログラム WO2016056411A1 (ja)

Priority Applications (10)

Application Number Priority Date Filing Date Title
CN201580053817.8A CN106797499A (zh) 2014-10-10 2015-09-28 编码装置和方法、再现装置和方法以及程序
EP15849654.7A EP3206408B1 (en) 2014-10-10 2015-09-28 Encoding device and method, playback device and method, and program
EP20215659.2A EP3829185B1 (en) 2014-10-10 2015-09-28 Encoding device and method, reproduction device and method, and program
US15/516,537 US10631025B2 (en) 2014-10-10 2015-09-28 Encoding device and method, reproduction device and method, and program
CN202210679653.1A CN115243075A (zh) 2014-10-10 2015-09-28 再现装置和再现方法
CN202210683302.8A CN115209186A (zh) 2014-10-10 2015-09-28 再现装置和再现方法
JP2016553047A JP6565922B2 (ja) 2014-10-10 2015-09-28 符号化装置および方法、再生装置および方法、並びにプログラム
US16/826,675 US11330310B2 (en) 2014-10-10 2020-03-23 Encoding device and method, reproduction device and method, and program
US17/729,251 US11917221B2 (en) 2014-10-10 2022-04-26 Encoding device and method, reproduction device and method, and program
US18/407,888 US20240146981A1 (en) 2014-10-10 2024-01-09 Encoding device and method, reproduction device and method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014208594 2014-10-10
JP2014-208594 2014-10-10

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US15/516,537 A-371-Of-International US10631025B2 (en) 2014-10-10 2015-09-28 Encoding device and method, reproduction device and method, and program
US16/826,675 Continuation US11330310B2 (en) 2014-10-10 2020-03-23 Encoding device and method, reproduction device and method, and program

Publications (1)

Publication Number Publication Date
WO2016056411A1 true WO2016056411A1 (ja) 2016-04-14

Family

ID=55653028

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/077243 WO2016056411A1 (ja) 2014-10-10 2015-09-28 符号化装置および方法、再生装置および方法、並びにプログラム

Country Status (5)

Country Link
US (4) US10631025B2 (ja)
EP (2) EP3829185B1 (ja)
JP (3) JP6565922B2 (ja)
CN (4) CN106797499A (ja)
WO (1) WO2016056411A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018507580A (ja) * 2014-12-19 2018-03-15 アルカテル−ルーセント 配向化画像符号化、送信、復号および表示
WO2018079389A1 (ja) * 2016-10-26 2018-05-03 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
WO2018079388A1 (ja) * 2016-10-25 2018-05-03 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
EP3468171A4 (en) * 2016-07-11 2019-10-09 Samsung Electronics Co., Ltd. DISPLAY APPARATUS AND RECORDING MEDIUM
CN110537373A (zh) * 2017-04-25 2019-12-03 索尼公司 信号处理装置和方法以及程序

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3829185B1 (en) 2014-10-10 2024-04-10 Sony Group Corporation Encoding device and method, reproduction device and method, and program
US11323757B2 (en) * 2018-03-29 2022-05-03 Sony Group Corporation Information processing apparatus, information processing method, and program
JP7314929B2 (ja) * 2018-03-29 2023-07-26 ソニーグループ株式会社 情報処理装置、情報処理方法、及びプログラム
CN112423021B (zh) 2020-11-18 2022-12-06 北京有竹居网络技术有限公司 视频的处理方法、装置、可读介质和电子设备
US20220212100A1 (en) * 2021-01-04 2022-07-07 Microsoft Technology Licensing, Llc Systems and methods for streaming interactive applications
WO2023234429A1 (ko) * 2022-05-30 2023-12-07 엘지전자 주식회사 인공 지능 기기

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002171529A (ja) * 2000-11-30 2002-06-14 Matsushita Electric Ind Co Ltd 映像符号化装置及び方法、記録媒体、並びに復号化装置
JP2008199370A (ja) * 2007-02-14 2008-08-28 Nippon Hoso Kyokai <Nhk> デジタル放送番組表示装置およびデジタル放送番組表示プログラム
JP2012004835A (ja) * 2010-06-16 2012-01-05 Canon Inc 再生装置及びその制御方法及びプログラム
JP2012060575A (ja) * 2010-09-13 2012-03-22 Canon Inc 映像処理装置およびその制御方法

Family Cites Families (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7168084B1 (en) * 1992-12-09 2007-01-23 Sedna Patent Services, Llc Method and apparatus for targeting virtual objects
JP4515559B2 (ja) * 1999-08-24 2010-08-04 富士フイルム株式会社 画像データ記録装置および方法ならびにズーム画像再生装置および方法
KR100327377B1 (ko) * 2000-03-06 2002-03-06 구자홍 디지털 영상 수신기와 디지털 디스플레이 장치 사이에서디지털 영상 신호를 디스플레이 하는 방법
US7738550B2 (en) * 2000-03-13 2010-06-15 Sony Corporation Method and apparatus for generating compact transcoding hints metadata
US7577333B2 (en) * 2001-08-04 2009-08-18 Samsung Electronics Co., Ltd. Method and apparatus for recording and reproducing video data, and information storage medium in which video data is recorded by the same
US20040117735A1 (en) * 2002-07-15 2004-06-17 Elnar Breen Method and system for preparing and adapting text, images and video for delivery over a network
US7802288B2 (en) * 2003-03-14 2010-09-21 Starz Entertainment, Llc Video aspect ratio manipulation
US7646437B1 (en) * 2003-09-03 2010-01-12 Apple Inc. Look-ahead system and method for pan and zoom detection in video sequences
JP4444623B2 (ja) * 2003-10-29 2010-03-31 富士フイルム株式会社 動画像変換装置および方法、動画像配信装置、メール中継装置並びにプログラム
US20050195205A1 (en) * 2004-03-03 2005-09-08 Microsoft Corporation Method and apparatus to decode a streaming file directly to display drivers
FR2875662A1 (fr) * 2004-09-17 2006-03-24 Thomson Licensing Sa Procede de visualisation de document audiovisuels au niveau d'un recepteur, et recepteur apte a les visualiser
US9329827B2 (en) * 2004-12-29 2016-05-03 Funmobility, Inc. Cropping of images for display on variably sized display devices
US8924256B2 (en) * 2005-03-31 2014-12-30 Google Inc. System and method for obtaining content based on data from an electronic device
EP1897010A1 (en) * 2005-06-30 2008-03-12 Nokia Corporation Camera control means to allow operating of a destined location of the information surface of a presentation and information system
CN101223778B (zh) * 2005-07-18 2012-11-07 汤姆森许可贸易公司 使用元数据来处理多个视频流的方法和设备
JP4940671B2 (ja) * 2006-01-26 2012-05-30 ソニー株式会社 オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム
JP4715633B2 (ja) * 2006-05-19 2011-07-06 ソニー株式会社 記録装置、記録方法および記録プログラム、ならびに、編集装置、編集方法および編集プログラム
KR101446364B1 (ko) * 2006-12-21 2014-10-01 톰슨 라이센싱 디스플레이를 위한 컬러 그레이딩을 제공하는 방법, 장치 및 시스템
US9185268B2 (en) * 2007-04-03 2015-11-10 Thomson Licensing Methods and systems for displays with chromatic correction with differing chromatic ranges
US20090089448A1 (en) * 2007-09-28 2009-04-02 David Sze Mobile browser with zoom operations using progressive image download
US8826145B1 (en) * 2007-11-12 2014-09-02 Google Inc. Unified web and application framework
JP2009192949A (ja) * 2008-02-15 2009-08-27 Sony Corp 画像処理装置と画像処理方法および画像処理システム
US9240056B2 (en) * 2008-04-02 2016-01-19 Microsoft Technology Licensing, Llc Video retargeting
EP2338278B1 (en) * 2008-09-16 2015-02-25 Intel Corporation Method for presenting an interactive video/multimedia application using content-aware metadata
US8416264B2 (en) * 2008-11-03 2013-04-09 Sony Mobile Communications Ab Method and device for optimizing an image displayed on a screen
US8693846B2 (en) * 2009-03-16 2014-04-08 Disney Enterprises, Inc. System and method for dynamic video placement on a display
JP2010232814A (ja) * 2009-03-26 2010-10-14 Nikon Corp 映像編集プログラムおよび映像編集装置
JP5369952B2 (ja) * 2009-07-10 2013-12-18 ソニー株式会社 情報処理装置および情報処理方法
US20110099494A1 (en) * 2009-10-22 2011-04-28 Microsoft Corporation Dynamic graphical user interface layout
WO2011064438A1 (en) * 2009-11-30 2011-06-03 Nokia Corporation Audio zooming process within an audio scene
US9564148B2 (en) * 2010-05-18 2017-02-07 Sprint Communications Company L.P. Isolation and modification of audio streams of a mixed signal in a wireless communication device
US8331760B2 (en) * 2010-06-02 2012-12-11 Microsoft Corporation Adaptive video zoom
US10324605B2 (en) * 2011-02-16 2019-06-18 Apple Inc. Media-editing application with novel editing tools
US20120038675A1 (en) * 2010-08-10 2012-02-16 Jay Wesley Johnson Assisted zoom
US8695054B2 (en) * 2010-09-29 2014-04-08 Verizon Patent And Licensing Inc. Ingesting heterogeneous video content to provide a unified video provisioning service
US20120191876A1 (en) * 2011-01-20 2012-07-26 Openwave Systems Inc. Method and system for policy based transcoding brokering
US9792363B2 (en) * 2011-02-01 2017-10-17 Vdopia, INC. Video display method
US9009760B2 (en) * 2011-06-30 2015-04-14 Verizon Patent And Licensing Inc. Provisioning interactive video content from a video on-demand (VOD) server
US20130097634A1 (en) * 2011-10-13 2013-04-18 Rogers Communications Inc. Systems and methods for real-time advertisement selection and insertion
JP2013130964A (ja) * 2011-12-20 2013-07-04 Ricoh Co Ltd 表示制御装置、表示制御システムおよびプログラム
WO2013100986A1 (en) * 2011-12-28 2013-07-04 Intel Corporation Systems and methods for integrated metadata insertion in a video encoding system
CN102685597B (zh) * 2012-04-28 2015-04-01 广州爱九游信息技术有限公司 内容再现方法及装置、移动终端
US8823667B1 (en) * 2012-05-23 2014-09-02 Amazon Technologies, Inc. Touch target optimization system
US9773072B2 (en) * 2012-06-04 2017-09-26 Adobe Systems Incorporated Systems and methods for developing adaptive layouts for electronic content
EP2680581A1 (en) * 2012-06-28 2014-01-01 Alcatel-Lucent Method and apparatus for dynamic adaptation of video encoder parameters
US9584573B2 (en) * 2012-08-29 2017-02-28 Ericsson Ab Streaming policy management system and method
ES2606678T3 (es) * 2012-08-31 2017-03-27 Dolby Laboratories Licensing Corporation Presentación de sonido reflejado para audio con base de objeto
KR102028696B1 (ko) * 2012-10-04 2019-10-07 삼성전자주식회사 고 해상도 컨텐츠를 처리하는 컨텐츠 처리 장치 및 그 방법
EP3148290B1 (en) * 2012-10-26 2023-08-30 Apple Inc. Multimedia adaptation based on video orientation
WO2014073927A1 (ko) * 2012-11-12 2014-05-15 엘지전자 주식회사 신호 송수신 장치 및 신호 송수신 방법
MX342466B (es) * 2012-11-27 2016-09-30 Lg Electronics Inc Aparato de transmision-recepcion de señal y metodo de transmision-recepcion de señal.
WO2014088917A1 (en) * 2012-11-29 2014-06-12 University Of Georgia Research Foundtion Inc. Music creation systems and methods
TWI517682B (zh) * 2012-12-28 2016-01-11 晨星半導體股份有限公司 多媒體資料流格式、元數據產生器、編碼及解碼方法與系統
KR101967295B1 (ko) * 2013-01-09 2019-04-09 엘지전자 주식회사 복수개의 채널 정보를 처리하는 클라이언트 및 서버의 제어 방법
US9124857B2 (en) * 2013-02-06 2015-09-01 Adobe Systems Incorporated Method and apparatus for context-aware automatic zooming of a video sequence
US20140280698A1 (en) * 2013-03-13 2014-09-18 Qnx Software Systems Limited Processing a Link on a Device
US9165203B2 (en) * 2013-03-15 2015-10-20 Arris Technology, Inc. Legibility enhancement for a logo, text or other region of interest in video
JP6481206B2 (ja) * 2013-04-19 2019-03-13 ソニー株式会社 情報処理装置、コンテンツ要求方法およびコンピュータプログラム
KR101879519B1 (ko) * 2013-07-29 2018-07-17 코닌클리즈케 케이피엔 엔.브이. 타일 비디오 스트림을 클라이언트에게 제공하는 방법
RU2627048C1 (ru) * 2013-07-30 2017-08-03 Долби Лэборетериз Лайсенсинг Корпорейшн Система и способы для формирования сценовых стабилизированных метаданных
WO2015038338A1 (en) * 2013-09-16 2015-03-19 Thomson Licensing Browsing videos by searching multiple user comments and overlaying those into the content
US9977591B2 (en) * 2013-10-01 2018-05-22 Ambient Consulting, LLC Image with audio conversation system and method
US9413830B2 (en) * 2013-11-11 2016-08-09 Amazon Technologies, Inc. Application streaming service
US9508172B1 (en) * 2013-12-05 2016-11-29 Google Inc. Methods and devices for outputting a zoom sequence
US11228764B2 (en) * 2014-01-15 2022-01-18 Avigilon Corporation Streaming multiple encodings encoded using different encoding parameters
US9426500B2 (en) * 2014-01-15 2016-08-23 Verizon and Redbox Digital Entertainment Services, LLC Optimal quality adaptive video delivery
KR102056193B1 (ko) * 2014-01-22 2019-12-16 엘지전자 주식회사 이동 단말기 및 그 제어 방법
US9894422B2 (en) * 2014-02-18 2018-02-13 Lg Electronics Inc. Method and apparatus for transreceiving broadcast signal for panorama service
US9626084B2 (en) * 2014-03-21 2017-04-18 Amazon Technologies, Inc. Object tracking in zoomed video
GB2524726B (en) * 2014-03-25 2018-05-23 Canon Kk Image data encapsulation with tile support
EP2928216A1 (en) * 2014-03-26 2015-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for screen related audio object remapping
EP2925024A1 (en) * 2014-03-26 2015-09-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for audio rendering employing a geometric distance definition
US9766781B2 (en) * 2014-04-28 2017-09-19 Google Inc. Methods, systems, and media for presenting related content in a user interface navigated using directional controls
US9922007B1 (en) * 2014-05-22 2018-03-20 Amazon Technologies, Inc. Split browser architecture capable of determining whether to combine or split content layers based on the encoding of content within each layer
US20150373341A1 (en) * 2014-06-23 2015-12-24 Cisco Technology, Inc. Techniques for Interactive Region-Based Scalability
KR101953679B1 (ko) * 2014-06-27 2019-03-04 코닌클리즈케 케이피엔 엔.브이. Hevc-타일드 비디오 스트림을 기초로 한 관심영역 결정
US9681157B2 (en) * 2014-07-23 2017-06-13 Able Technologies System and method for D-cinema to a selected location
EP3829185B1 (en) 2014-10-10 2024-04-10 Sony Group Corporation Encoding device and method, reproduction device and method, and program
US20160227228A1 (en) * 2015-01-29 2016-08-04 Vixs Systems, Inc. Video camera with layered encoding, video system and methods for use therewith
GB201502205D0 (en) * 2015-02-10 2015-03-25 Canon Kabushiki Kaisha And Telecom Paris Tech Image data encapsulation
EP3086562B1 (en) * 2015-04-23 2017-05-24 Axis AB Method and device for processing a video stream in a video camera
EP3352467A4 (en) * 2015-09-18 2019-05-15 Sharp Kabushiki Kaisha RECEIVING DEVICE, RECEIVING METHOD AND PROGRAM
US9883235B2 (en) * 2015-10-28 2018-01-30 At&T Intellectual Property I, L.P. Video motion augmentation
EP3203437A1 (en) * 2016-02-05 2017-08-09 Thomson Licensing Method and apparatus for locally sharpening a video image using a spatial indication of blurring
US20170257679A1 (en) * 2016-03-01 2017-09-07 Tivo Solutions Inc. Multi-audio annotation
GB2550604A (en) * 2016-05-24 2017-11-29 Canon Kk Method, device, and computer program for encapsulating and parsing timed media data
KR102173635B1 (ko) * 2016-05-26 2020-11-03 브이아이디 스케일, 인크. 뷰포트 적응형 360도 비디오 전달의 방법 및 장치
US20170353704A1 (en) * 2016-06-01 2017-12-07 Apple Inc. Environment-Aware Supervised HDR Tone Mapping
US11503314B2 (en) * 2016-07-08 2022-11-15 Interdigital Madison Patent Holdings, Sas Systems and methods for region-of-interest tone remapping
ES2883151T3 (es) * 2016-10-12 2021-12-07 Koninklijke Kpn Nv Procesamiento de datos de vídeo esféricos sobre la base de una zona de interés
EP3470976A1 (en) * 2017-10-12 2019-04-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for efficient delivery and usage of audio messages for high quality of experience
US10742999B2 (en) * 2017-01-06 2020-08-11 Mediatek Inc. Methods and apparatus for signaling viewports and regions of interest
US20200126582A1 (en) * 2017-04-25 2020-04-23 Sony Corporation Signal processing device and method, and program
WO2019013400A1 (ko) * 2017-07-09 2019-01-17 엘지전자 주식회사 비디오 화면 줌에 연동되는 오디오 출력 방법 및 출력 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002171529A (ja) * 2000-11-30 2002-06-14 Matsushita Electric Ind Co Ltd 映像符号化装置及び方法、記録媒体、並びに復号化装置
JP2008199370A (ja) * 2007-02-14 2008-08-28 Nippon Hoso Kyokai <Nhk> デジタル放送番組表示装置およびデジタル放送番組表示プログラム
JP2012004835A (ja) * 2010-06-16 2012-01-05 Canon Inc 再生装置及びその制御方法及びプログラム
JP2012060575A (ja) * 2010-09-13 2012-03-22 Canon Inc 映像処理装置およびその制御方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3206408A4 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018507580A (ja) * 2014-12-19 2018-03-15 アルカテル−ルーセント 配向化画像符号化、送信、復号および表示
EP3468171A4 (en) * 2016-07-11 2019-10-09 Samsung Electronics Co., Ltd. DISPLAY APPARATUS AND RECORDING MEDIUM
US10939039B2 (en) 2016-07-11 2021-03-02 Samsung Electronics Co., Ltd. Display apparatus and recording medium
WO2018079388A1 (ja) * 2016-10-25 2018-05-03 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
CN109845274A (zh) * 2016-10-25 2019-06-04 索尼公司 发送设备、发送方法、接收设备和接收方法
EP3534611A4 (en) * 2016-10-25 2019-09-04 Sony Corporation TRANSMISSION APPARATUS, TRANSMISSION METHOD, RECEIVING APPARATUS, AND RECEIVING METHOD
WO2018079389A1 (ja) * 2016-10-26 2018-05-03 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
EP3534612A4 (en) * 2016-10-26 2019-09-04 Sony Corporation SENDING DEVICE, TRANSMISSION PROCEDURE, RECEPTION DEVICE AND RECEPTION PROCEDURE
CN110537373A (zh) * 2017-04-25 2019-12-03 索尼公司 信号处理装置和方法以及程序
CN110537373B (zh) * 2017-04-25 2021-09-28 索尼公司 信号处理装置和方法以及存储介质

Also Published As

Publication number Publication date
EP3829185B1 (en) 2024-04-10
JP2021185720A (ja) 2021-12-09
CN112511833A (zh) 2021-03-16
US20240146981A1 (en) 2024-05-02
JP6565922B2 (ja) 2019-08-28
JP6992789B2 (ja) 2022-01-13
EP3206408A1 (en) 2017-08-16
US20180242030A1 (en) 2018-08-23
US10631025B2 (en) 2020-04-21
CN115209186A (zh) 2022-10-18
JPWO2016056411A1 (ja) 2017-07-20
US20200221146A1 (en) 2020-07-09
EP3829185A1 (en) 2021-06-02
CN115243075A (zh) 2022-10-25
EP3206408A4 (en) 2018-04-25
US11330310B2 (en) 2022-05-10
US11917221B2 (en) 2024-02-27
EP3206408B1 (en) 2020-12-30
JP2019186969A (ja) 2019-10-24
US20220256216A1 (en) 2022-08-11
JP7409362B2 (ja) 2024-01-09
CN106797499A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
JP6992789B2 (ja) 再生装置および方法、並びにプログラム
TWI701945B (zh) 用於高品質體驗的音頻信息的有效傳遞和使用的方法和裝置
CN106471574B (zh) 信息处理装置和信息处理方法
JP6860485B2 (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP6809463B2 (ja) 情報処理装置、および情報処理方法、並びにプログラム
US20210132898A1 (en) Method for transmitting and receiving audio data related to transition effect and device therefor
KR20200136393A (ko) 정보 처리 장치, 정보 처리 방법 및 프로그램
CN111903136B (zh) 信息处理装置、信息处理方法和计算机可读存储介质
US20230043591A1 (en) Information processing apparatus and method
VRT et al. First Version of Playout Clients

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15849654

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2016553047

Country of ref document: JP

Kind code of ref document: A

REEP Request for entry into the european phase

Ref document number: 2015849654

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2015849654

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 15516537

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE