WO2015012605A1 - 3차원 콘텐츠의 부호화 방법 및 장치 - Google Patents

3차원 콘텐츠의 부호화 방법 및 장치 Download PDF

Info

Publication number
WO2015012605A1
WO2015012605A1 PCT/KR2014/006728 KR2014006728W WO2015012605A1 WO 2015012605 A1 WO2015012605 A1 WO 2015012605A1 KR 2014006728 W KR2014006728 W KR 2014006728W WO 2015012605 A1 WO2015012605 A1 WO 2015012605A1
Authority
WO
WIPO (PCT)
Prior art keywords
representation
texture
media
information
depth information
Prior art date
Application number
PCT/KR2014/006728
Other languages
English (en)
French (fr)
Inventor
이진영
허남호
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=52488362&utm_source=***_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=WO2015012605(A1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to US14/906,994 priority Critical patent/US9973740B2/en
Priority to EP14828891.3A priority patent/EP3026916A4/en
Publication of WO2015012605A1 publication Critical patent/WO2015012605A1/ko
Priority to US15/977,218 priority patent/US10375373B2/en
Priority to US16/445,999 priority patent/US20200162717A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Definitions

  • the technical field of the present invention relates to a streaming content providing technology, and more particularly, to a technology for providing three-dimensional content.
  • Streaming is one of the methods for transmitting and playing multimedia content such as sound and video.
  • the client can receive the content via streaming and at the same time play the content.
  • the adaptive streaming service means providing a streaming service through a communication scheme consisting of a client request and a server response to the request.
  • the client may request a media sequence suitable for its environment (for example, its transport channel) through an adaptive streaming service, and the server may select a media sequence that matches the client's request among various quality media sequences that it has. Can provide.
  • the adaptive streaming service can be provided based on various protocols.
  • the HTTP adaptive streaming service means an adaptive streaming service provided based on the HTTP protocol.
  • Clients of the HTTP adaptive streaming service can be provided with content from a server using the HTTP protocol, and can send a request related to the streaming service to the server.
  • the MPEG DASH standard To meet the practical requirements of media transport, the MPEG DASH standard has been developed. In addition, in recent years, the development of contents expressing three dimensions is being activated. The MPEG DASH standard also supports formats such as MVC and SVC for the development and transmission of 3D content.
  • MPEG DASH is being developed to support new formats such as HEVC and 3DV, and there is a demand for development of a technology for more efficiently transmitting 3D content in the future.
  • the present disclosure is made in response to the above-described technical development request, and provides a method and apparatus for supporting flexible screen formation of three-dimensional content.
  • An encoding method of 3D content may include setting a dependency between texture information and depth information of the 3D content and generating a bitstream including the dependency. .
  • the encoding method of 3D content may further include setting a relationship between a corresponding view and depth information and a dependency between depth information and texture when the depth information is separated from the texture information.
  • the 3D content encoding method may further include setting one or more representations for texture and depth information of each view.
  • the representation may include texture information, or may include depth information, or may include both texture information and depth information.
  • the encoding method of 3D content may further include setting an identifier parameter indicating information included in the representation.
  • the representation includes texture information of view i, and if the identifier has a format of 'di', the representation includes depth information of view i. If the identifier has a format of 'vi', the representation may include texture information and depth information of view i.
  • the 3D content encoding method may further include setting a dependency parameter indicating a relationship between the view and texture and depth information associated with the current adaptive set.
  • the identifier parameter or the dependency parameter may be added to the multi-view design of the role element of the MPEG DASH standard.
  • the dependency may be set at the representation level or at the adaptation set level.
  • a method of encoding 3D content includes setting a representation including at least one of texture information and depth information, and generating a bitstream corresponding to the representation. can do.
  • a method and apparatus for supporting flexible screen formation of three-dimensional content may be provided.
  • 1 shows a high-level data model of DASH.
  • FIG. 2 is a block diagram of an encoder and a decoder of a 3D format according to an embodiment.
  • FIG. 3 is a conceptual diagram of a representation according to various embodiments of the present disclosure.
  • FIG. 4 is a conceptual diagram of an encoder and a decoder according to an embodiment.
  • the index of a particular element is 1 to N or 0 to N
  • the above element may be one or more.
  • N may represent an integer of 0 or more.
  • Dynamic Adaptive Streaming over HTTP allows 1) the delivery of media content from a standard HTTP server to an HTTP client, and 2) by standard HTTP caches. Formats may be specified that allow caching of content.
  • the format may be an XML format or a binary format.
  • the media content may be one media content period or a contiguous sequence of media content periods.
  • media content, media and content may be used interchangeably with each other.
  • Media content may be a collection of media content components having a common timeline, such as video, audio, and subtitles, for example.
  • media components may have relationships as a program or movie (eg, individually, jointly, or mutually exclusive).
  • the media content may be content on demand or live content.
  • the content may be divided into one or more intervals. That is, content can include one or more intervals.
  • an interval and a period may be used in the same meaning.
  • the term may be a term used in Generation Partnership Project (3GPP) adaptive HTTP streaming.
  • the period may be an interval of media presentation. Consecutive sequences of all periods can constitute a media presentation.
  • One or more intervals may be a basic unit.
  • One or more intervals may be described by signaling metadata. That is, metadata may describe each of one or more intervals.
  • the metadata may be MPD to be described later.
  • the media content component may be a subsequent component of media content with an assigned media component type.
  • Media content components may be encoded into separate media streams.
  • a media component is, for example, audio, video or timed text with specific attributes, such as bandwidth, language or resolution. It may be an encoded version of individual media types.
  • the media stream may be an encoded version of the media content component.
  • the media component type may be a single type of media content such as audio, video or text.
  • the media presentation may be a collection of data that establishes a bounded or unbounded presentation of the media content.
  • the media presentation may be a collection of data accessible to clients of DASH to provide streaming services to the user.
  • Media Presentation Description may be a stylized description of a media presentation for providing a streaming service.
  • the MPD may be a document containing metadata required by a client of DASH to construct a suitable HTTP-URL to access the segment and to provide a streaming service to the user.
  • the media presentation may include possible updates of the MPD and may be described by the MPD.
  • the MPD may be a document that contains metadata required by the DASH client to 1) access segments, and 2) configure HTTP-URLs suitable for providing a streaming service to the user.
  • HTTP-URLs can be absolute or relative.
  • the MPD may be an XML-document.
  • the MPD may define a format for informing resource identifiers for the segment.
  • the MPD may provide a context for the identified resources within the media presentation.
  • Resource identifiers may be HTTP-URL. URLs may be limited by the byte range attribute.
  • the period may be an interval of media presentation.
  • a continuous sequence of all periods may constitute a media presentation. That is, the media presentation can include one or more periods. Or, the media presentation may consist of a sequence of one or more periods.
  • Representation may be a collection and encapsulation of one or more media streams in a delivery format and may be associated with descriptive metadata.
  • the representation may be a structured collection of one or more media content components within one period. That is, the representation may be one of alternative choices of a complete set or subset of media content components that make up the media content for a defined period.
  • Representation may include one or more media streams.
  • Representation may begin at the beginning of a period (ie, a period including itself) and continue to the end of the period.
  • Representation is an alternative to media content or a subset of media content, with different encoding choices, such as bitrate, resolution, language, codec, and the like. alternative) may be one of the choices.
  • the MPD (or MPD element) may provide descriptive information that enables the client to select one or more representations.
  • representation and media representation may be used in the same sense.
  • a segment may be the smallest accessible unit in an MPD with a defined format.
  • segments and media segments may be used in the same sense.
  • Each interval may be divided into segments.
  • segments and fragments may be used in the same sense.
  • Segment may be a term of Generation Partnership Project (3GPP) adaptive HTTP streaming.
  • a segment may be an object (eg, an object in response to an HTTP / 1.1 GET request for an HTTP-URL (or a GET request for a portion indicated by a byte range), as defined in RFC 2616).
  • entity may refer to a body.
  • the terminal can play the media content using the received bytes (ie, the segment).
  • a sub-segment can mean the smallest unit in segments that can be indexed by a segment index at the segment level.
  • the sub-representation may be part of the representation described in the MPD staged over the entire period.
  • Random Access Point is a specific location within a media segment.
  • the RAP is identified as being a location that can continue playback from the location of the RAP using only the information contained within the media segment.
  • Dynamic Adaptive Streaming over HTTP may provide a media-streaming model for the delivery of media content.
  • the client can exclusively control the session of the delivery.
  • the client can request data from a standard web server that does not have DASH-specific functions using the HTTP protocol.
  • the DASH standard can focus on the data format used to provide the DASH media presentation.
  • a collection of encoded and deliverable versions of media content and appropriate descriptions of these versions can form a media presentation.
  • Media content may consist of one or more media content cycles that continue over time.
  • Each media content period may consist of one or more media content components.
  • audio components and video components in various languages may be examples of one or more media content components.
  • Each media content component may be assigned a media content component type.
  • An example of a media content component type may be audio or video.
  • Each media content component may have one or more encoded versions.
  • the encoded version of the media content component may be named a media stream.
  • Each media stream may inherit the properties of media content, media content cycles, or media content used for encoding the media stream.
  • the media stream may be assigned properties of an encoding process, such as, for example, sub-sampling, codec parameters, encoding bitrate, and the like.
  • the metadata may change depending on the static or dynamic choice for media content components and media streams.
  • 1 shows a high-level data model of DASH.
  • DASH may be based on a hierarchical data model such as shown in FIG. 1.
  • DASH media presentation can be described by an MPD document.
  • the MPD may describe a sequence of periods over time.
  • the sequence of periods can make a media presentation.
  • the cycle may generally represent the media content cycle while a consistent set of encoded versions of the media content is available. That is, bitrates, languages, captions and subtitles may not be changed during one period.
  • the period may include one or more adaptation sets.
  • the adaptation set may represent a set of replaceable encoded versions of one or more media content components. For example, there may be one adaptation set for the primary video component, and there may be one separate adaptation set for the primary audio component. For example, if there are other available materials, such as captions and audio descriptions, the other available materials may have separate adaptation sets.
  • the adaptation set may include one or more representations.
  • Representation may describe a deliverable encoded version of one or more media content components.
  • Representation may include one or more media streams. Any single representation in the adaptation set may be sufficient to render the included media content components.
  • a client can switch from one representation to another to adapt to network conditions or other factors within one period. The client may ignore representations that the client itself does not support or rely on for some reason not suitable codec or other rendering techniques.
  • the content can be divided into segments over time. That is, the representation may include one or more segments.
  • a segment may be the basic unit of data, as represented in the MPD.
  • the URL of each segment may be provided. Providing the URL of a segment may mean that the segment is the largest unit of data that can be retrieved by a single HTTP request.
  • the MPD may include a byte range of the URL along with the URL. Thus, a segment may be included within the byte range of another larger resource.
  • MPD may comprise a chain of one or more periods.
  • Each period may comprise one or more adaptation sets. If the adaptation set includes one or more media content components, each media content component can be defined individually.
  • Each adaptation set may include one or more representations.
  • Each representation may include one or more sub-representations.
  • Each representation may include one or more segments.
  • a segment may comprise metadata for accessing, decoding and displaying media data and / or media content comprising the segment.
  • Adaptation sets, representations, and sub-representations may share common attributes and elements.
  • Each segment may comprise one or more subsegments.
  • An MPD document representing an MPD may contain an MPD element.
  • the adaptation set may include one or more media content components. Properties of each media content component may be described by a ContentComponet element, and may be directly described by an AdaptationSet element when there is one media content component in the adaptation set.
  • the ContentComponent element may have the following attributes.
  • the id attribute may specify an identifier of a media component.
  • the id attribute can be unique within the scope of the adaptation set.
  • the lang attribute may declare the language code (s) of the media content component. Syntax and semantics according to IETF RFC 5646 may be used.
  • the contentType attribute may specify the type of the media content component.
  • the value of "type", the highest-level content-type, may be defined in RFC1521.
  • the par attribute may specify the photo length ratio.
  • the par attribute may contain two integers. If the par attribute is present, the width and height attributes of the representations may also be present.
  • the ContentComponent element may have the following element.
  • Accessibility element may have an index of 0 to N and may specify information on an accessibility scheme.
  • the role element may have an index of 0 to N and may specify information on a role annotation scheme.
  • the Rating element may have an index of 0 to N and may specify information about a rating scheme.
  • the Viewpoint element may have an index of 0 to N and may specify information on the viewpoint annotation scheme.
  • 3D content may be described based on AVC-based, MVC-based, and HEVC-based formats.
  • the 3D content may include depth information for the 3D image representation.
  • Each period may include more than one adaptation sets.
  • the adaptation set may be described by the AdaptationSet element included in the Period element.
  • the adaptation set may include alternative encodings of one or more media components. Each alternative encoding may be included in the representation.
  • One or more representations included in one adaptation set may represent the same media content component and may include one or more media streams that are considered perceptually the same.
  • One or more representations may be arranged in an adaptation set according to media content component properties presented within the one or more representations above.
  • the media content component properties are assigned to 1) the language described by the lang attribute, 2) the media content type described by the contentType attribute, 3) the picture aspect ratio described by the par attribute, and 4) the Role element.
  • the AdaptationSet element may include basic values of elements and attributes associated with one or more representations that the adaptation set includes.
  • a list of possible present elements and attributes common to the AdaptationSet element and the Representation element is described below.
  • the Adaptation element may support the description of a range for the bandwidth attribute, width attribute, height attribute, and framerate attribute associated with one or more representations included in the adaptation set.
  • the above description may provide a summary of all values for all of the one or more representations that the adaptation set includes.
  • One or more representations that an adaptation set includes may not have values outside the range defined within the adaptation set.
  • the adaptation set can be classified into groups by using the group attribute.
  • AdaptationSet element may have the following attributes.
  • the xlink: href attribute may specify a reference to an external AdaptationSet element.
  • the xlink: actuate attribute may specify processing instructions.
  • the value of the link: actuate attribute may be "onload” or "onRequest”.
  • the id attribute may specify an identifier of the adaptation set within a range of periods.
  • the id attribute may be an identifier that is unique within the range containing the period.
  • the id attribute may be absent within the remote element.
  • the group attribute may be an identifier for a group that is unique within a range of periods.
  • the lang attribute may declare the language code (s) of the adaptation set. Syntax and semantics according to IETF RFC 5646 may be used.
  • the contentType attribute may specify the media content component type of the adaptation set.
  • the value of "type", the highest-level content-type, may be defined in RFC1521.
  • the par attribute may specify the photo length ratio.
  • the par attribute may contain two integers. If the par attribute is present, the width and height attributes of the representations may also be present.
  • the minBandWidth attribute may specify the minimum bandwidth attribute value of all representations in the adaptation set.
  • the maxBandWidth attribute may specify a maximum bandwidth attribute value of all representations in the adaptation set.
  • the minWidth attribute may specify the minimum width attribute value of all representations in the adaptation set.
  • the maxWidth attribute may specify the maximum width attribute value of all representations in the adaptation set.
  • the minHeight attribute may specify the minimum height attribute value of all representations in the adaptation set.
  • the maxHeight attribute may specify the maximum height attribute value of all representations in the adaptation set.
  • the minFrameRate attribute may specify the minimum frameRate attribute value of all representations in the adaptation set.
  • the maxFrameRate attribute may specify the maximum frameRate attribute value of all representations in the adaptation set.
  • AdaptationSet element may have the following elements.
  • Accessibility element may have an index of 0 to N and may specify information on an accessibility scheme.
  • the role element may have an index of 0 to N and may specify information on a role annotation scheme.
  • the Rating element may have an index of 0 to N and may specify information about a rating scheme.
  • the Viewpoint element may have an index of 0 to N and may specify information on the viewpoint annotation scheme.
  • the ContentComponent element may have an index of 0 to N and may specify properties of a media content component included in the adaptation set.
  • the BaseURL element may have an index of 0 to N and may be used for reference solution and alternative URL selection.
  • the Representation element may have an index of 0 to N and may specify a representation. Within each adaptation set there may be at least one representation element. The Representation element may be part of a remote element.
  • FIG. 2 is a block diagram of an encoder and a decoder of a 3D format according to an embodiment.
  • the encoder 100 may encode 3D content and transmit the 3D content to the decoder 100.
  • the encoder 100 may perform encoding to generate and transmit a bitstream.
  • the decoder 100 may decode the received encoded content. Content decrypted by the decoder 100 may be played.
  • the encoder 100 may set a dependency between a texture and a depth.
  • the dependence between the texture and the depth can be adjusted by the configuration and the layer.
  • the setting may include a 3D high setting or a 3D extended high setting.
  • the layer may include a base view or an enhanced view.
  • the encoder 100 may encode a bitstream of a single view. Alternatively, the encoder 100 may encode a bitstream of a multi view.
  • the encoder 100 may set the dependency between the texture and the depth.
  • the encoder 100 may set a dependency between texture and depth for a single view, or may set a dependency between texture and depth for multiple views.
  • the encoder 100 may support adaptability for the 3DV standard by adjusting the quality of the texture and depth.
  • the encoder 100 may describe the association between the corresponding view and the depth data and the dependency between the stream and the depth data of the texture.
  • the bitstream or representation encoded by the encoder 100 may have the following characteristics.
  • the representation may be a representation having only texture data or a representation having only depth data or a representation having both texture data and depth data.
  • Representations in one adaptation set have the same component. That is, the representations in one adaptation set may be the same in the form of having only texture data, only depth data, or both texture data and depth data.
  • mpeg: dash: stereoid2013 may be added to the multi-view design of the roll element of DASH. Additional variables in Table 1 may be added to existing variables in the multi-view design.
  • the encoder 100 sets at least one of an identifier (id) parameter and a dependency parameter, so that the representation including only the texture information, the representation or texture information and the depth including only the depth information, and the depth information.
  • a representation including all the information can be generated, as shown in FIG. 3, where the first representation includes only texture information, the second representation includes only depth information, and the third representation. May include both texture information and depth information.
  • the first to third representations may be included in one adaptive set.
  • the decoder 150 may determine whether the bitstream is a single view or a multiview, and may decode each of them.
  • the decoder 150 may determine whether the representation includes only texture information, only depth information, or both texture information and depth information. For example, the decoder 150 may check information included in the representation based on the id parameter of the role element.
  • the decoder 150 may perform adaptive decoding according to whether single view / multi view and whether the representation includes only texture information, only depth information, or both texture information and depth information.
  • Decoder 150 may also perform decoding based on dependencies between the text in the bitstream and at least one of depth and view.
  • the decoder 150 may perform the decoding by checking the dependency at the representation level or the adaptation set level.
  • FIG. 4 is a conceptual diagram of an encoder and a decoder according to an embodiment.
  • the encoder 100 may include a texture encoder 110 and a depth encoder 120.
  • the encoder 100 may include a first switch 131 and a second switch 132.
  • the texture encoder 110 may receive texture data and perform encoding
  • the depth encoder 120 may receive depth information and perform encoding.
  • the first switch 131 and the second switch 132 may be controlled to be in an on or off state depending on whether the setting is set to a 3D high setting or a 3D extended high. have. For example, in a 3D high setting, the first switch 131 and the second switch 132 may be turned off. In addition, in a 3D extended high setting, the first switch 131 and the second switch 132 may be turned on.
  • the decoder 150 may include a texture decoder 151 and a depth decoder 152. As described above, the decoder 150 may determine whether the bitstream is a single view or a multiview, and may decode each.
  • the decoder 150 may determine whether the representation includes only texture information, only depth information, or both texture information and depth information. For example, the decoder 150 may check information included in the representation based on the id parameter of the role element.
  • the decoder 150 may perform adaptive decoding according to whether single view / multi view and whether the representation includes only texture information, only depth information, or both texture information and depth information.
  • Decoder 150 may also perform decoding based on dependencies between the text in the bitstream and at least one of depth and view.
  • the decoder 150 may perform the decoding by checking the dependency at the representation level or the adaptation set level.
  • the decoder 150 may drive at least one of the texture decoder 151 and the depth decoder 152 to perform decoding according to the above-described various determination results.
  • the first embodiment is an embodiment in which a single view and depth information is described in each adaptive set.
  • Each media element i. E. Texture and depth, may have two representations.
  • the following is an exemplary technique for the first embodiment.
  • the second embodiment supports two views.
  • the texture tj of the first view depends on (t0) the texture of view 0.
  • the depth information of the view depends on the texture information of the same view.
  • the depth information of each viewpoint is included in two representations. The following is an exemplary technique for the second embodiment.
  • Method according to an embodiment is implemented in the form of program instructions that can be executed by various computer means may be recorded on a computer readable medium.
  • the computer readable medium may include program instructions, data files, data structures, etc. alone or in combination.
  • Program instructions recorded on the media may be those specially designed and constructed for the purposes of the present invention, or they may be of the kind well-known and available to those having skill in the computer software arts.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks.
  • Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.
  • the hardware device described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Transfer Between Computers (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

3차원 콘텐츠의 부호화 방법이 개시된다. 일 실시 예에 의한 3차원 콘텐츠의 부호화 방법은, 상기 3차원 콘텐츠의 텍스처 정보 및 깊이 정보 사이의 의존성(dependency)을 설정하는 단계 및 상기 의존성을 포함하는 비트스트림을 생성하는 단계를 포함할 수 있다.

Description

3차원 콘텐츠의 부호화 방법 및 장치
본 발명의 기술 분야는 스트리밍 콘텐츠 제공 기술에 관한 것으로, 특히, 3차원 콘텐츠의 제공 기술에 관한 것이다.
스트리밍(streaming)은 소리 및 동영상 등의 멀티미디어 콘텐츠를 전송 및 재생하기 위한 방식 중 하나이다. 클라이언트는 스트리밍을 통해 콘텐츠를 수신하는 동시에 상기의 콘텐츠를 재생할 수 있다.
적응적 스트리밍 서비스는, 클라이언트의 요청 및 상기의 요청에 대한 서버의 응답으로 구성되는 통신 방식을 통해 스트리밍 서비스를 제공하는 것을 의미한다.
클라이언트는 적응적 스트리밍 서비스를 통해 자신의 환경(예컨대, 자신의 전송 채널)에 적합한 미디어 시퀀스를 요청할 수 있으며, 서버는 자신이 갖고 있는 다양한 퀄리티의 미디어 시퀀스들 중 클라이언트의 요청에 부합하는 미디어 시퀀스를 제공할 수 있다.
적응적 스트리밍 서비스는 다양한 프로토콜에 기반하여 제공될 수 있다. HTTP 적응적 스트리밍 서비스는 HTTP 프로토콜에 기반하여 제공되는 적응적 스트리밍 서비스를 의미한다. HTTP 적응적 스트리밍 서비스의 클라이언트는 HTTP 프로토콜을 사용하여 서버로부터 콘텐츠를 제공받을 수 있으며, 스트리밍 서비스와 관련된 요청을 서버에게 전송할 수 있다.
미디어 전송의 실질적인 요구 사항을 충족시키고자, MPEG DASH 표준이 개발되었다. 뿐만 아니라, 근자에 들어서는, 3차원을 표현하는 콘텐츠 개발이 활성화되고 있다. MPEG DASH 표준 또한 3차원 콘텐츠의 개발, 전송을 위하여 MVC, SVC와 같은 포맷을 지원하였다.
최근의 MPEG DASH는 HEVC와 3DV 등의 새로운 포맷을 지원하도록 개발 중이며, 향후 3차원 콘텐츠를 보다 효율적으로 전송할 수 있는 기술의 개발이 요청되는 실정이다.
본 개시는 상술한 기술 개발 요청에 응답하여 안출된 것으로, 3차원 콘텐츠의 유연한 화면 형성을 지원하는 방법 및 장치를 제공한다.
일 실시 예에 의한 3차원 콘텐츠의 부호화 방법은, 상기 3차원 콘텐츠의 텍스처 정보 및 깊이 정보 사이의 의존성(dependency)을 설정하는 단계 및 상기 의존성을 포함하는 비트스트림을 생성하는 단계를 포함할 수 있다.
3차원 콘텐츠의 부호화 방법은, 상기 깊이 정보가 상기 텍스처 정보로부터 분리되는 경우, 해당 뷰와 깊이 정보와의 관계 및 깊이 정보와 텍스처와의 의존성을 설정하는 단계를 더 포함할 수 도 있다.
또는 3차원 콘텐츠의 부호화 방법은, 각 뷰의 텍스처와 깊이 정보를 위한 하나 또는 이상의 레프리젠테이션(representation)을 설정하는 단계를 더 포함할 수도 있다.
상기 레프리젠테이션은 텍스처 정보를 포함하거나 또는 깊이 정보를 포함하거나 또는 텍스처 정보 및 깊이 정보 모두를 포함할 수 있다.
이 경우, 3차원 콘텐츠의 부호화 방법은 상기 레프리젠테이션이 포함하는 정보를 지시하는 식별자 파라미터를 설정하는 단계를 더 포함할 수도 있다.
상기 식별자가 'ti'의 형식을 가지는 경우, 상기 레프리젠테이션은 뷰 i의 텍스처 정보를 포함하며, 상기 식별자가 'di'의 형식을 가지는 경우, 상기 레프리젠테이션은 뷰 i의 깊이 정보를 포함하며, 상기 식별자가 'vi'의 형식을 가지는 경우, 상기 레프리젠테이션은 뷰 i의 텍스처 정보 및 깊이 정보를 포함할 수 있다.
또는, 3차원 콘텐츠의 부호화 방법은 현재의 적응형 세트와 연동되는 뷰 및 텍스처 및 깊이 정보 사이의 관계를 지시하는 의존성 파라미터를 설정하는 단계를 더 포함할 수도 있다.
상기 식별자 파라미터 또는 상기 의존성 파라미터는 MPEG DASH 표준의 롤 엘리먼트(role element)의 다시점 설계에 추가될 수 있다.
상기 의존성은 레프리젠테이션 레벨 또는 적응 세트 레벨에서 설정될 수 있다.
다른 실시 예에 의한 3차원 콘텐츠의 부호화 방법은, 텍스처 정보 및 깊이 정보 중 적어도 하나를 포함하는 레프리젠테이션(representation)을 설정하는 단계 및 상기 레프리젠테이션에 대응하는 비트스트림을 생성하는 단계를 포함할 수 있다.
상술한 바에 따라서, 3차원 콘텐츠의 유연한 화면 형성을 지원하는 방법 및 장치가 제공될 수 있다.
특히, 텍스쳐와 깊이 사이의 의존성을 설정함에 따라 보다 유연한 화면 형성을 지원할 수 있다.
아울러, 기존의 MPEG DASH에 부합하는 방법을 제공함에 따라서, 기존의 기술과의 호환성도 보장될 수 있다.
도 1은 DASH의 고-레벨 데이터 모델을 나타낸다.
도 2는 일 실시 예에 따른 3차원 포맷의 부호화기 및 복호화기의 블록도이다.
도 3은 다양한 실시 예에 따른 레프리젠테이션의 개념도이다.
도 4는 일 실시 예에 의한 부호화기 및 복호화기의 개념도이다.
이하에서, 본 발명의 일 실시예를, 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
하기에서, "명세한다"는 "나타낸다" 또는 "의미한다"와 동일한 의미로 사용될 수 있다. 용어 "유일 자원 지시기(Uniform Resource Locator; URL)" 및 "통합 자원 식별자(Uniform Resource Identifier; URI)"는 동일한 의미로 사용되며, 상호 대체될 수 있다.
특정한 요소의 인덱스가 1 내지 N 또는 0 내지 N인 경우, 상기의 요소는 하나 이상일 수 있다. N은 0 이상의 정수를 나타낼 수 있다.
하기에서, 실시예들에서 사용되는 용어의 일 예가 설명된다.
- HTTP 상의 동적 적응적 스트리밍(Dynamic Adaptive Streaming over HTTP; DASH)는 1) 표준(standard) HTTP 서버로부터 HTTP 클라이언트로의 미디어 콘텐츠의 전달을 가능하게 하고, 2) 표준 HTTP 캐쉬(cache)들에 의한 콘텐츠의 캐슁(caching)을 가능하게 하는 포맷(format)들을 명세(specifie)할 수 있다. 상기의 포멧은 XML 포멧 또는 이진(binary) 포멧일 수 있다.
- 미디어 콘텐츠는 하나의 미디어 콘텐츠 주기(period) 또는 미디어 콘텐츠 주기들의 계속되는(contiguous) 시퀀스(sequence)일 수 있다. 하기에서, 미디어 콘텐츠, 미디어 및 콘텐츠는 서로간에 동일한 의미로 사용될 수 있다. 미디어 콘텐츠는, 예컨대 비디오, 오디오 및 자막과 같은, 공통(common) 타임라인(timeline)을 갖는 미디어 콘텐츠 컴포넌트들의 집합일 수 있다. 또한, 미디어 컴포넌트들은 프로그램 또는 영화로서 어떻게(예를 들면, 개별적으로(individually), 결합하여(jointly) 또는 상호 배타적(mutually exclusive)으로 미디어 컴포넌트들이 상연(present)될 지에 대한 관계(relationships)를 가질 수 있다. 미디어 콘텐츠는 요청(demand)에 따른 콘텐츠 또는 라이브(live) 콘텐츠일 수 있다.
콘텐츠는 하나 이상의 인터벌(interval)들로 나뉘어질 수 있다. 즉, 콘텐츠는 하나 이상의 인터벌들을 포함할 수 있다. 이하, 인터벌 및 주기(period)는 동일한 의미로 사용될 수 있다. 특히, 주기는 3GPP(Generation Partnership Project) 적응적 HTTP 스트리밍에서 사용되는 용어일 수 있다. 주기는 미디어 프리젠테이션의 인터벌일 수 있다. 모든 주기들의 연속적인 시퀀스는 미디어 프리젠테이션을 구성할 수 있다.
하나 이상의 인터벌들은 기본적인 유닛일 수 있다. 하나 이상의 인터벌들은 메타데이터를 시그널링함에 의해 설명될 수 있다. 즉, 메타데이터는 하나 이상의 인터벌들 각각을 설명할 수 있다. 상기의 메타데이터는 후술될 MPD일 수 있다.
- 미디어 콘텐츠 컴포넌트는 할당된(assigned) 미디어 컴포넌트 타입(type)을 갖는 미디어 콘텐츠의 계속되는 컴포넌트일 수 있다. 미디어 콘텐츠 컴포넌트는 개별적인 미디어 스트림으로 인코드될 수 있다. 미디어 컴포넌트(media component)는, 예컨대 대역폭(bandwidth), 언어(language) 또는 해상도(resolution)와 같은, 특정한 속성(attribute)들을 갖는 오디오(audio), 비디오(video) 또는 자막(timed text)과 같은 개별(individual) 미디어 타입(type)들의 인코드된(encoded) 버전(version)일 수 있다..
- 미디어 스트림은 미디어 콘텐츠 컴포넌트의 인코드된 버전일 수 있다.
- 미디어 컴포넌트 타입은 오디오(audio), 비디오(video) 또는 텍스트(text)와 같은 미디어 콘텐츠의 단일한 타입일 수 있다.
- 미디어 프리젠테이션은 미디어 콘텐츠의 바운드되거나(bounded) 바운드되지 않은(unbounded) 프리젠테이션을 설립(establish)하는 데이터의 컬렉션일 수 있다. 미디어 프리젠테이선은 사용자에게 스트리밍 서비스를 제공하기 위해 DASH의 클라이언트가 접근 가능한 데이터의 컬렉션일 수 있다.
- 미디어 프리젠테이션 설명(Media Presentation Description; MPD)은 스트리밍 서비스를 제공하기 위한 미디어 프리젠테이션의 양식화된(formalize) 설명일 수 있다. MPD는, 세그먼트에 접근하기 위한 적합한 HTTP-URL을 구성하고, 사용자에게 스트리밍 서비스를 제공하기 위해, DASH의 클라이언트가 요구하는 메타데이터를 포함하는 문서일 수 있다. 미디어 프리젠테이션은, MPD의 가능한 업데이트들(possible updates)을 포함할 있고, MPD에 의해 설명될 수 있다.
MPD는 1) 세그먼트들을 접근하고, 2) 사용자에게 스트리밍 서비스를 제공하기 위해 적합한(appropriate) HTTP-URL들을 구성하기 위해 DASH 클라이언트에게 요구되는 메타데이터를 포함하는 문서일 수 있다. HTTP-URL들은 절대적이거나 상대적일 수 있다. MPD는 XML-문서일 수 있다.
MPD는 세그먼트를 위한 자원 식별자들을 알리기 위한 포맷을 정의할 수 있다. MPD는 미디어 프리젠테이션 내에서의 식별된 자원들에 대한 컨텍스트(context)를 제공할 수 있다. 자원 식별자들은 HTTP-URL일 수 있다. URL들은 바이트 범위(byte range) 속성에 의해 제한될 수 있다.
- 주기(period)는 미디어 프리젠테이션의 인터벌(interval)일 수 있다. 모든 주기들의 계속되는 시퀀스는 미디어 프리젠테이션을 구성할 수 있다. 즉, 미디어 프리젠테이션은 하나 이상의 주기들을 포함할 수 있다. 또는, 미디어 프리젠테이션은 하나 이상의 주기들의 시퀀스로 구성될 수 있다.
- 레프리젠테이션(representation)은 전달 포멧(delivery format)으로 된 하나 이상의 미디어 스트림들 컬렉션 및 캡슐화(encapsulation)일 수 있으며, 설명적인(descriptive) 메타데이터와 연관될 수 있다. 레프리젠테이션은 하나의 주기 내의 하나 이상의 미디어 콘텐츠 컴포넌트들의 구조화된(structured) 컬렉션일 수 있다. 즉, 레프리젠테이션은 정의된 주기 동안의 미디어 콘텐츠를 구성하는 미디어 콘텐츠 컴포넌트들의 완전한 집합 또는 부분 집합의 대안적인 선택사항들(alternative choices) 중 하나일 수 있다. 레프리젠테이션은 하나 이상의 미디어 스트림들을 포함할 수 있다..
레프리젠테이션은 주기(즉, 자신을 포함하는 주기)의 시작점에서 시작할 수 있고, 상기의 주기의 종료점까지 지속할 수 있다.
레프리젠테이션은, 비트레이트(bitrate), 해상도(resolution), 언어(language) 및 코덱(codec) 등과 같은 인코딩(encoding) 선택(choice)이 상이한, 미디어 콘텐츠 또는 미디어 콘텐츠의 부분집합의 대안적인(alternative) 선택(choice)들 중 하나일 수 있다.
MPD(또는, MPD 요소)는 클라이언트가 하나 이상의 레프리젠테이션을 선택하는 것을 가능하게 하는 설명적인 정보를 제공할 수 있다.
하기에서, 레프리젠테이션 및 미디어 레프리젠테이션은 동일한 의미로 사용될 수 있다.
하나의 인터벌에 대응하는 2 개 이상의 세그먼트들의 집합들이 존재할 수 있으며, 상기의 집합이 레프리젠테이션 또는 대안(alternative)으로 명명될 수 있다.
- 세그먼트(segment)는 정의된 포멧을 갖는 MPD 내의 최소 접근가능한 유닛일 수 있다. 하기에서, 세그먼트 및 미디어 세그먼트는 동일한 의미로 사용될 수 있다.
각 인터벌은 세그먼트(segment)들로 나뉘어질 수 있다. 하기에서, 세그먼트 및 프래그먼트(fragment)는 동일한 의미로 사용될 수 있다. 세그먼트는 3GPP(Generation Partnership Project) 적응적 HTTP 스트리밍의 용어일 수 있다.
세그먼트는, 예컨대 RFC 2616에서 정의된, HTTP-URL에 대한 HTTP/1.1 GET 요청(또는, 바이트 범위(range)에 의해 가리켜진(indicated) 일부에 대한 GET 요청)에 대한 응답(response)의 객체(entity) 바디(body)를 의미할 수 있다.
단말은, 수신된 바이트들(즉, 세그먼트)을 사용하여 미디어 콘텐츠를 재생할 수 있다.
- 서브-세그먼트는 세그먼트 레벨에서의 세그먼트 인덱스(index)에 의해 인덱스될 수 있는 세그먼트들 내의 가장 작은(smallest) 유닛(unit)을 의미할 수 있다.
- 서브-레프리젠테이션(sub-representation)은 전체 주기에서 상연된 MPD 내에서 설명된 레프리젠테이션의 일부일 수 있다.
- 임의 접근 포인트(Random Access Point; RAP)는 미디어 세그먼트 내의 특정한 위치이다. RAP는 단지 미디어 세그먼트 내에 포함된 정보만을 사용하여 RAP의 위치로부터 계속하여 재생(playback)을 시작할 수 있는 위치인 것으로 식별된다.
HTTP 상의 동적 적응적 스트리밍(Dynamic Adaptive Streaming over HTTP; DASH)는 미디어 콘텐츠의 전달을 위한 미디어-스트리밍 모델을 제공할 수 있다. 클라이언트는 상기의 전달의 세션을 독점적으로 제어할 수 있다. 클라이언트는 HTTP 프로토콜을 사용하여 DASH-특유의 기능들을 갖지 않는 표준의 웹 서버에게 데이터를 요청할 수 있다. 따라서, DASH 표준은 DASH 미디어 프리젠테이션을 제공하기 위해 사용되는 데이터 포멧에 초점이 맞춰질 수 있다.
미디어 콘텐츠의 인코드되고 전달가능한 버전들의 컬렉션 및 이러한 버전들에 대한 적절한 설명은 미디어 프리젠테이션을 형성할 수 있다. 미디어 콘텐츠는 시간에 따라 계속되는 하나 이상의 미디어 콘텐츠 주기들로 구성될 수 있다. 각 미디어 콘텐츠 주기는 하나 이상의 미디어 콘텐츠 컴포넌트들로 구성될 수 있다. 예컨대, 다양한 언어로 된 오디오 컴포넌트들 및 비디오 컴포넌트가 하나 이상의 미디어 콘텐츠 컴포넌트들의 예가 될 수 있다. 각 미디어 콘텐츠 컴포넌트에게는 미디어 콘텐츠 컴포넌트 타입이 할당될 수 있다. 미디어 콘텐츠 컴포넌트 타입의 예로 오디오 또는 비디오가 있을 수 있다.
각 미디어 콘텐츠 컴포넌트는 하나 이상의 인코드된 버전을 가질 수 있다. 미디어 콘텐츠 컴포넌트의 인코드된 버전은 미디어 스트림으로 명명될 수 있다. 각 미디어 스트림은 미디어 콘텐츠, 미디어 콘텐츠 주기 또는 미디어 스트림의 인코딩을 위해 사용된 미디어 콘텐츠의 속성을 상속받을 수 있다. 또한, 미디어 스트림은, 예컨대 서브-샘플링, 코덱 파라미터(parameter), 인코딩 비트레이트 등과 같은 인코딩 프로세스의 속성을 할당 받을 수 있다. 따라서, 메타데이터는 미디어 콘텐츠 컴포넌트들 및 미디어 스트림들에 대한 정적 또는 동적인 선택에 따라 변경될 수 있다.
도 1은 DASH의 고-레벨 데이터 모델을 나타낸다.
DASH는 도 1에서 도시된 것과 같은 계층적인 데이터 모델에 기반할 수 있다.
DASH 미디어 프리젠테이션은 MPD 문서에 의해 설명될 수 있다. MPD는 시간에 따른 주기들의 시퀀스를 설명할 수 있다. 주기들의 시퀀스는 미디어 프리젠테이션을 만들 수 있다. 주기는 일반적으로 미디어 콘텐츠의 인코드된 버전들의 일관된(consistent) 집합이 가용한 동안의 미디어 콘텐츠 주기를 나타낼 수 있다. 즉, 하나의 주기 동안에는 비트레이트(bitrate)들, 언어(language), 캡션(caption) 및 서브타이틀(subtitle) 등이 변경되지 않을 수 있다.
주기는 하나 이상의 어댑테이션 세트(Adapatation Set)들을 포함할 수 있다. 어댑테이션 세트는 하나 이상의 미디어 콘텐츠 컴포넌트들의 교체가능한 인코드된 버전들의 집합을 나타낼 수 있다. 예컨대, 주 비디오 컴포넌트에 대한 하나의 어댑테이션 세트가 있을 수 있고, 주 오디오 컴포넌트에 대한 분리된 하나의 어댑테이션 세트가 있을 수 있다. 예컨대, 캡션 및 오디오 설명과 같은, 다른 가용한 재료(material)가 있다면, 상기의 다른 가용한 재료는 분리된 어댑테이션 세트를 가질 수 있다.
어댑테이션 세트는 하나 이상의 레프리젠테이션들을 포함할 수 있다. 레프리젠테이션은 하나 이상의 미디어 콘텐츠 컴포넌트들의 전달가능한 인코드된 버전을 설명할 수 있다. 레프리젠테이션은 하나 이상의 미디어 스트림들을 포함할 수 있다. 어댑테이션 세트 내의 임의의 단일한 레프리젠테이션은 포함된 미디어 콘텐츠 컴포넌트들을 렌더(render)하기에 충분할 수 있다. 일반적으로 클라이언트는 하나의 주기 내에서, 네트워크 상태(condition) 또는 다른 팩터(factor)들에 적응(adapt)하기 위해, 하나의 레프리젠테이션으로부터 다른 레프리젠테이션으로 스위치할 수 있다. 클라이언트는 클라이언트 자신이 지원하지 않거나, 다른 이유에 의해 적합하지 않은 코덱(codec) 또는 다른 렌더링(rendering) 기술들에 의존하는 레프리젠테이션을 묵살(ignore)할 수 있다.
레프리젠테이션 내에서, 콘텐츠는 시간에 따라 세그먼트들로 분리될 수 있다. 즉, 레프리젠테이션은 하나 이상의 세그먼트들을 포함할 수 있다. 세그먼트는, MPD에서 나타나는, 데이터의 기본 유닛일 수 있다. 각 세그먼트의 URL이 제공될 수 있다. 세그먼트의 URL이 제공된다는 것은, 세그먼트가 단일한 HTTP 요청에 의해 추출(retrieve)될 수 있는 데이터의 최대 유닛이라는 것을 의미할 수 있다. 한편, MPD는 URL과 함께 상기의 URL의 바이트 범위(byte range)를 포함할 수 있다. 따라서, 세그먼트는 다른 더 큰 자원의 바이트 범위 내에 포함될 수도 있다.
하기에서, 전술된 데이터 모델의 구성 요소들 간의 관계가 설명된다.
- MPD는 하나 이상의 주기들의 연쇄를 포함할 수 있다.
- 각 주기들은 하나 이상의 어댑테이션 세트들을 포함할 수 있다. 어댑테이션 세트가 하나 이상의 미디어 콘텐츠 컴포넌트들을 포함하면, 각 미디어 콘텐츠 컴포넌트는 개별적으로 정의될 수 있다.
- 각 어댑테이션 세트는 하나 이상의 레프리젠테이션들을 포함할 수 있다.
- 각 레프리젠테이션은 하나 이상의 서브-레프리젠테이션들을 포함할 수 있다.
- 각 레프리젠테이션은 하나 이상의 세그먼트들을 포함할 수 있다.
- 세그먼트는 미디어 데이터 및/또는 세그먼트를 포함하는 미디어 콘텐츠를 접근, 디코드 및 상연하기 위한 메타데이터를 포함할 수 있다.
- 어댑테이션 세트, 레프리젠테이션 및 서브-레프리젠테이션은 공통 속성 및 요소를 공유할 수 있다.
- 각 세그먼트는 하나 이상의 서브세그먼트들을 포함할 수 있다.
MPD를 나타내는 MPD 문서는 MPD 요소를 포함할 수 있다.
어댑테이션 세트는 하나 이상의 미디어 콘텐츠 컴포넌트들을 포함할 수 있다. 각 미디어 콘텐츠 컴포넌트의 프로퍼티들은 ContentComponet 요소에 의해 설명될 수 있으며, 어댑테이션 세트 내에 하나의 미디어 콘텐츠 컴포넌트가 존재하면 AdaptationSet 요소에 의해 직접적으로 설명될 수 있다.
하기에서 ContentComponent 요소의 시맨틱이 설명된다.
1) ContentComponent 요소는 하기와 같은 속성을 가질 수 있다.
- id 속성은 미디어 컴포넌트의 식별자를 명세할 수 있다. id 속성은 어댑테이션 세트의 범위 내에서 고유할 수 있다.
- lang 속성은 미디어 콘텐츠 컴포넌트의 언어 코드(들)을 선언할 수 있다. IETF RFC 5646에 따른 신택스 및 시맨틱이 사용될 수 있다.
- contentType 속성은 미디어 콘텐츠 컴포넌트의 타입을 명세할 수 있다. 최고-레벨 콘텐츠-타입인 "type"의 값은 RFC1521에서 정의될 수 있다.
- par 속성은 사진 길이 비율을 명세할 수 있다. par 속성은 2 개의 정수들을 포함할 수 있다. par 속성이 존재할 경우, 레프리젠테이션들의 width 속성 및 height 속성도 존재할 수 있다.
2) ContentComponent 요소는 하기와 같은 요소를 가질 수 있다.
- Accessbility 요소는, 0 내지 N의 인덱스를 가질 수 있으며, 접근성 스킴에 대한 정보를 명세할 수 있다.
- Role 요소는, 0 내지 N의 인덱스를 가질 수 있으며, 롤 주석(annotation) 스킴에 대한 정보를 명세할 수 있다.
- Rating 요소는, 0 내지 N의 인덱스를 가질 수 있으며, 등급(rating) 스킴에 대한 정보를 명세할 수 있다.
- Viewpoint 요소는, 0 내지 N의 인덱스를 가질 수 있으며, 뷰포인트 주석 스킴에 대한 정보를 명세할 수 있다.
한편, 3차원 콘텐츠는 AVC 기반, MVC 기반, HEVC 기반 포맷에 기초하여 기술될 수 있다. 3차원 콘텐츠는 3차원 영상 표현을 위하여 깊이 정보를 포함할 수 있다.
각 주기는 하니 이상의 어댑테이션 세트들을 포함할 수 있다. 어댑테이션 세트는 Period 요소 내에 포함된 AdaptationSet 요소에 의해 설명될 수 있다.
어댑테이션 세트는 하나 이상의 미디어 컴포넌트들의 대안적인 인코딩들을 포함할 수 있다. 각 대안적인 인코딩은 레프리젠테이션 내에 포함될 수 있다. 하나의 어댑테이션 세트 내에 포함된 하나 이상의 레프리젠테이션들은 동일한 미디어 콘텐츠 컴포넌트를 나타낼 수 있으며, 지각적으로(perceptually) 동일한 것으로 간주되는 하나 이상의 미디어 스트림들을 포함할 수 있다.
하나 이상의 레프리젠테이션들은 상기의 하나 이상의 레프리젠테이션 내에서 상연된 미디어 콘텐츠 컴포넌트 프로퍼티(property)들에 따라 어댑테이션 세트 내에서 배열될 수 있다. 미디어 콘텐츠 컴포넌트 프로퍼티는, 1) lang 속성에 의해 설명되는 언어, 2) contentType 속성에 의해 설명되는 미디어 콘텐츠 타입, 3) par 속성에 의해 설명되는 사진 길이 비율(picture aspect ratio), 4) Role 요소에 의해 설명되는 롤(role) 프로퍼티, 5) Accessibility 요소에 의해 설명되는 접근성 프로퍼티, 6) ViewPoint 요소에 의해 설명되는 뷰포인트 프로퍼티 및 7) Rating 요소에 의해 설명되는 등급 속성 등을 포함할 수 있다.
AdaptationSet 요소는 어댑테이션 세트가 포함하는 하나 이상의 레프리젠테이션들에 연관된 요소들 및 속성들의 기본 값들을 포함할 수 있다. AdaptationSet 요소 및 Representation 요소에 공통적으로 가능한 상연(present) 요소들 및 속성들의 목록(list)이 하기에서 설명된다.
Adaptation 요소는 어댑테이션 세트가 포함하는 하나 이상의 레프리젠테이션들에 연관된 bandwidth 속성, width 속성, height 속성 및 framerate 속성에 대한 범위의 설명을 지원할 수 있다. 상기의 설명은 어댑테이션 세트가 포함하는 하나 이상의 레프리젠테이션들 모두에 대한 모든 값들의 요약(summary)을 제공할 수 있다. 어댑테이션 세트가 포함하는 하나 이상의 레프리젠테이션들은 어댑테이션 세트 내에서 정의된 범위 밖의 값을 갖지 못할 수 있다.
어댑테이션 세트는 group 속성을 사용함으로써 그룹들로 분류될 수 있다.
하기에서 AdaptationSet 요소의 시맨틱이 설명된다.
1) AdaptationSet 요소는 하기와 같은 속성을 가질 수 있다.
- xlink:href 속성은 외부의 AdaptationSet 요소로의 참조를 명세할 수 있다.
- xlink:actuate 속성은 프로세싱 명령들을 명세할 수 있다. link:actuate 속성의 값은 "onload" 또는 "onRequest"일 수 있다.
- id 속성은 주기의 범위 내에서 어댑테이션 세트의 식별자를 명세할 수 있다. id 속성은 주기를 포함하는 내의 범위 내에서 고유한 식별자일 수 있다. id 속성은 원격 요소 내에서는 부재일 수 있다.
- group 속성은 주기의 범위 내에서 고유한, 그룹에 대한 식별자일 수 있다.
- lang 속성은 어댑테이션 세트의 언어 코드(들)을 선언할 수 있다. IETF RFC 5646에 따른 신택스 및 시맨틱이 사용될 수 있다.
- contentType 속성은 어댑테이션 세트의 미디어 콘텐츠 컴포넌트 타입을 명세할 수 있다. 최고-레벨 콘텐츠-타입인 "type"의 값은 RFC1521에서 정의될 수 있다.
- par 속성은 사진 길이 비율을 명세할 수 있다. par 속성은 2 개의 정수들을 포함할 수 있다. par 속성이 존재할 경우, 레프리젠테이션들의 width 속성 및 height 속성도 존재할 수 있다.
- minBandWidth 속성은 어댑테이션 세트 내의 모든 레프리젠테이션들의 최소 bandwidth 속성 값을 명세할 수 있다.
- maxBandWidth 속성은 어댑테이션 세트 내의 모든 레프리젠테이션들의 최대 bandwidth 속성 값을 명세할 수 있다.
- minWidth 속성은 어댑테이션 세트 내의 모든 레프리젠테이션들의 최소 width 속성 값을 명세할 수 있다.
- maxWidth 속성은 어댑테이션 세트 내의 모든 레프리젠테이션들의 최대 width 속성 값을 명세할 수 있다.
- minHeight 속성은 어댑테이션 세트 내의 모든 레프리젠테이션들의 최소 height 속성 값을 명세할 수 있다.
- maxHeight 속성은 어댑테이션 세트 내의 모든 레프리젠테이션들의 최대 height 속성 값을 명세할 수 있다.
- minFrameRate 속성은 어댑테이션 세트 내의 모든 레프리젠테이션들의 최소 frameRate 속성 값을 명세할 수 있다.
- maxFrameRate 속성은 어댑테이션 세트 내의 모든 레프리젠테이션들의 최대 frameRate 속성 값을 명세할 수 있다.
2) AdaptationSet 요소는 하기와 같은 요소를 가질 수 있다.
- Accessbility 요소는, 0 내지 N의 인덱스를 가질 수 있으며, 접근성 스킴에 대한 정보를 명세할 수 있다.
- Role 요소는, 0 내지 N의 인덱스를 가질 수 있으며, 롤 주석(annotation) 스킴에 대한 정보를 명세할 수 있다.
- Rating 요소는, 0 내지 N의 인덱스를 가질 수 있으며, 등급(rating) 스킴에 대한 정보를 명세할 수 있다.
- Viewpoint 요소는, 0 내지 N의 인덱스를 가질 수 있으며, 뷰포인트 주석 스킴에 대한 정보를 명세할 수 있다.
- ContentComponent 요소는, 0 내지 N의 인덱스를 가질 수 있으며, 어댑테이션 세트가 포함하는 미디어 콘텐츠 컴포넌트의 프로퍼티들을 명세할 수 있다.
- BaseURL 요소는, 0 내지 N의 인덱스를 가질 수 있으며, 참조 해 및 대안적인 URL 선택을 위해 사용될 수 있다.
- Representation 요소는, 0 내지 N의 인덱스를 가질 수 있으며, 레프리젠테이션을 명세할 수 있다. 각 어댑테이션 세트 내에는 적어도 하나의 레프리젠테이션 요소가 있을 수 있다. Representation 요소는 원격 요소의 일부일 수 있다.
도 2는 일 실시 예에 따른 3차원 포맷의 부호화기 및 복호화기의 블록도이다.
도 2에 도시된 바와 같이, 부호화기(100)는 3차원 콘텐츠를 부호화하여 이를 복호화기(100)로 송신할 수 있다. 부호화기(100)는 부호화를 수행하여 비트스트림(bitstream)을 생성하여 송신할 수 있다.
복호화기(100)는 수신된 부호화된 콘텐츠를 복호화할 수 있다. 복호화기(100)에 의하여 복호화된 콘텐츠는 재생될 수 있다.
일 실시 예에 의한 부호화기(100)는 텍스처(texture) 및 깊이(depth) 사이의 의존성(dependency)를 설정할 수 있다. 여기에서, 텍스처 및 깊이 사이의 의존성은 설정(configuration) 및 계층(layer)에 의하여 조절될 수 있다. 설정은 3차원 하이(3D high) 설정 또는 3차원 익스텐디드 하이(3D extended high) 설정 등을 포함할 수 있다. 계층은 기저 뷰(base view) 또는 인핸스드 뷰(enhanced view) 등을 포함할 수 있다.
부호화기(100)는 싱글 뷰(single view)의 비트스트림을 부호화할 수 있다. 또는 부호화기(100)는 멀티 뷰(multi view)의 비트스트림을 부호화할 수 있다.
한편, 부호화기(100)는 텍스처 및 깊이 사이의 의존성을 설정할 수 있다. 부호화기(100)는 싱글 뷰에 대한 텍스처 및 깊이 사이의 의존성을 설정할 수 있으며, 또는 멀티 뷰에 대한 텍스처 및 깊이 사이의 의존성을 설정할 수도 있다.
부호화기(100)는 텍스처 및 깊이의 품질(quality)을 조정함으로써 3DV 표준을 위한 적응성(adaptivity)을 지원할 수도 있다.
한편, 깊이 정보가 텍스처로부터 분리되는 경우에는, 부호화기(100)는 해당 뷰(given view)와 깊이 데이터의 관계(association) 및 텍스처의 스트림과 깊이 데이터 사이의 의존성을 기술할 수 있다.
깊이 데이터 및 일 시점의 텍스처가 레프리젠테이션 내에서 결합된 경우라도, 이러한 깊이 데이터 및 텍스처 데이터의 다른 뷰(other view)의 데이터와의 의존성을 기술할 것이 요구된다.
부호화기(100)에 의하여 부호화된 비트스트림 또는 레프리젠테이션은 하기와 같은 특징을 가질 수 있다.
- 각각의 뷰의 텍스처 데이터 및 깊이 데이터에 대하여 하나 또는 이상의 레프리젠테이션이 존재할 수 있다.
- 레프리젠테이션은 텍스처 데이터만을 가지는 레프리젠테이션 또는 깊이 데이터만을 가지는 레프리젠테이션 또는 텍스처 데이터 및 깊이 데이터를 모두 가지는 레프리젠테이션일 수 있다.
- 하나의 적응 세트 안의 레프리젠테이션들은 동일한 요소(component)를 가진다. 즉, 하나의 적응 세트 안의 레프리젠테이션들은 텍스처 데이터만을 가지거나 또는 깊이 데이터만을 가지거나 또는 텍스처 데이터 및 깊이 데이터 모두를 가지는 형태로 동일할 수 있다.
- 텍스처, 깊이 및 뷰의 의존성은 레프리젠테이션 레벨 뿐만 아니라 적응 세트 레벨에서도 기술될 수 있다.
특히, "urn:mpeg:dash:stereoid2013"을 DASH의 롤 엘리먼트(role element)의 다시점 설계에 추가될 수 있다. 다시점 설계의 현존하는 변수에 표 1의 추가 변수가 추가될 수 있다.
표 1
파라미터(parameter) 내용(description)
식별자(id)(optional) 1)파라미터가 'ti' 형식을 가지는 경우는 이는 뷰 i의 텍스처를 나타냄.i는 음수가 아닌 십진수 정수임. 이 형식의 파라미터는 뷰와 연동된 텍스처 정보만을 레프리젠테이션에 포함함.2)파라미터가 'di' 형식을 가지는 경우는 이는 뷰 i의 깊이를 나타냄.i는 음수가 아닌 십진수 정수임. 이 형식의 파라미터는 뷰와 연동된 깊이 정보만을 레프리젠테이션에 포함함.3)파라미터가 'vi' 형식을 가지는 경우는 이는 뷰 i의 뷰를 나타냄.i는 음수가 아닌 십진수 정수임. 이 형식의 파라미터는 뷰와 연동된 텍스처 정보 및 깊이 정보를 레프리젠테이션에 포함함.
depend(optional) 이 파라미터는 현재의 적응형 세트와 연동되는 시점 및 텍스처 및/또는 깊이 정보를 ('vk', ;ti' and/or 'dj') 형식으로 띄어쓰기 없이 나열한다. 여기에서 vk,ti,dj는 음수가 아닌 십진수 정수임.
상술한 바와 같이, 부호화기(100)는 식별자(id) 파라미터 및 의존성(depend) 파라미터 중 적어도 하나를 설정함으로써, 텍스처 정보만을 포함하는 레프리젠테이션, 깊이 정보만을 포함하는 레프리젠테이션 또는 텍스처 정보 및 깊이 정보를 모두 포함하는 레프리젠테이션을 생성할 수 있으며, 이는 도 3과 같으며, 제 1 레프리젠테이션은 텍스처 정보만을 포함하며, 제 2 레프리젠테이션은 깊이 정보만을 포함하며, 제 3 레프리젠테이션은 텍스처 정보 및 깊이 정보를 모두 포함할 수 있다. 제 1 내지 제 3 레프리젠테이션은 하나의 적응적 세트에 포함될 수 있다.
복호화기(150)는 비트스트림의 싱글 뷰 또는 멀티 뷰 여부를 판단할 수 있으며, 각각에 대한 복호화를 수행할 수 있다.
복호화기(150)는 레프리젠테이션이 텍스처 정보만을 포함하는지, 깊이 정보만을 포함하는지 또는 텍스처 정보 및 깊이 정보를 모두 포함하는지를 판단할 수 있다. 예를 들어, 복호화기(150)는 롤 엘리먼트의 id 파라미터에 기초하여 레프리젠테이션이 포함하는 정보를 확인할 수 있다.
복호화기(150)는 싱글 뷰/멀티 뷰 여부와 레프리젠테이션이 텍스처 정보만을 포함하는지, 깊이 정보만을 포함하는지 또는 텍스처 정보 및 깊이 정보를 모두 포함하는지 여부에 따라서 적응적인 복호화를 수행할 수 있다.
복호화기(150)는 또한 비트스트림 내의 텍스터와 깊이 및 뷰 중 적어도 하나 사이의 의존성에 기초하여 복호화를 수행할 수도 있다. 이 경우, 복호화기(150)는 레프리젠테이션 레벨 또는 적응 세트 레벨에서 의존성을 확인하여 복호화를 수행할 수 있다.
도 4는 일 실시 예에 의한 부호화기 및 복호화기의 개념도이다.
부호화기(100)는 텍스처 부호화기(110) 및 깊이 부호화기(120)를 포함할 수 있다. 아울러, 부호화기(100)는 제 1 스위치(131) 및 제 2 스위치(132)를 포함할 수 있다.
텍스처 부호화기(110)는 텍스처 데이터를 수신하여 부호화를 수행할 수 있으며, 깊이 부호화기(120)는 깊이 정보를 수신하여 부호화를 수행할 수 있다. 제 1 스위치(131) 및 제 2 스위치(132)는 설정이 3차원 하이(3D high) 설정 또는 3차원 익스텐디드 하이(3D extended high) 등의 설정 여부에 따라 온 또는 오프 상태로 제어될 수 있다. 예를 들어, 3차원 하이(3D high) 설정인 경우에는, 제 1 스위치(131) 및 제 2 스위치(132)가 오프될 수 있다. 아울러, 3차원 익스텐디드 하이(3D extended high) 설정인 경우에는, 제 1 스위치(131) 및 제 2 스위치(132)가 온될 수 있다.
한편, 복호화기(150)는 텍스처 복호화기(151) 및 깊이 복호화기(152)를 포함할 수 있다. 상술한 바와 같이, 복호화기(150)는 비트스트림의 싱글 뷰 또는 멀티 뷰 여부를 판단할 수 있으며, 각각에 대한 복호화를 수행할 수 있다.
복호화기(150)는 레프리젠테이션이 텍스처 정보만을 포함하는지, 깊이 정보만을 포함하는지 또는 텍스처 정보 및 깊이 정보를 모두 포함하는지를 판단할 수 있다. 예를 들어, 복호화기(150)는 롤 엘리먼트의 id 파라미터에 기초하여 레프리젠테이션이 포함하는 정보를 확인할 수 있다.
복호화기(150)는 싱글 뷰/멀티 뷰 여부와 레프리젠테이션이 텍스처 정보만을 포함하는지, 깊이 정보만을 포함하는지 또는 텍스처 정보 및 깊이 정보를 모두 포함하는지 여부에 따라서 적응적인 복호화를 수행할 수 있다.
복호화기(150)는 또한 비트스트림 내의 텍스터와 깊이 및 뷰 중 적어도 하나 사이의 의존성에 기초하여 복호화를 수행할 수도 있다. 이 경우, 복호화기(150)는 레프리젠테이션 레벨 또는 적응 세트 레벨에서 의존성을 확인하여 복호화를 수행할 수 있다. 복호화기(150)는 상술한 다양한 판단 결과에 따라, 텍스처 복호화기(151) 및 깊이 복호화기(152) 중 적어도 하나를 구동하여 복호화를 수행할 수 있다.
하기에서는, 깊이 정보를 포함하는 3DV의 변경된 다양한 실시 예를 설명하도록 한다.
<제 1 실시 예>
제 1 실시 예는 단일 뷰와 깊이 정보를 각각의 적응형 세트에 기술하는 실시 예이다. 각각의 미디어 요소, 즉 텍스처 및 깊이는 두 개의 레프리젠테이션을 가질 수 있다. 하기는 제 1 실시 예에 대한 예시적인 기술이다.
<MPD>
<Period duration="PT1256.00S">
<SegmentList>
<Initialization sourceURL="seg-m-init-2.mp4"/>
</SegmentList>
<!-- Below a single view texture with two representations -->
<AdaptationSet mimeType="video/mp4" codecs="avc1.640828">
<Role schemeIdUri="urn:mpeg:dash:stereoid:2013" id="t0"/>
<Representation id="C2" bandwidth="128000">
<SegmentList duration="10">
<SegmentURL media="seg-m1-C2view-201.mp4"/>
<SegmentURL media="seg-m1-C2view-202.mp4"/>
</SegmentList>
</Representation>
<Representation id="C1" bandwidth="192000">
<SegmentList duration="10">
<SegmentURL media="seg-m1-C1view-201.mp4"/>
<SegmentURL media="seg-m1-C1view-202.mp4"/>
</SegmentList>
</Representation>
</AdaptationSet>
<!-And below is the depth data associated with the above view texture -->
<AdaptationSet mimeType="video/mp4" codecs="avc1.640828">
<Role schemeIdUri="urn:mpeg:dash:stereoid:2013" id="d0"/>
<Representation id="D1" bandwidth="28000">
<SegmentList duration="10">
<SegmentURL media="seg-m1-D1view-201.mp4"/>
<SegmentURL media="seg-m1-D1view-202.mp4"/>
</SegmentList>
</Representation>
<Representation id="D2" bandwidth="58000">
<SegmentList duration="10">
<SegmentURL media="seg-m1-D2view-201.mp4"/>
<SegmentURL media="seg-m1-D2view-202.mp4"/>
</SegmentList>
</Representation>
</MPD>
<제 2 실시 예>
제 2 실시 예는 두 개의 뷰를 지원한다. 제 1 뷰의 텍스처(tj)는 뷰 0의 텍스처에 (t0) 의존한다. 뷰의 깊이 정보는 동일 뷰의 텍스처 정보에 의존한다. 또한 각 시점의 깊이 정보는 두 개의 레프리젠테이션에 포함된다. 하기는 제 2 실시 예에 대한 예시적인 기술이다.
<MPD>
<Period duration="PT1256.00S">
<SegmentList>
<Initialization sourceURL="seg-m-init-2.mp4"/>
</SegmentList>
<!-- Below are two views?texture data -->
<AdaptationSet mimeType="video/mp4" codecs="avc1.640828">
<Role schemeIdUri="urn:mpeg:dash:stereoid:2013" value="r0" id="t0"/>
<Representation id="C2" bandwidth="128000">
<SegmentList duration="10">
<SegmentURL media="seg-m1-C2view-201.mp4"/>
<SegmentURL media="seg-m1-C2view-202.mp4"/>
</SegmentList>
</Representation>
</AdaptationSet>
<AdaptationSet mimeType="video/mp4" codecs=" mvc1.760028">
<Role schemeIdUri="urn:mpeg:dash:stereoid:2013" value="l0" id="t1" depend="t0"/>
<Representation id="C1" bandwidth="192000">
<SegmentList duration="10">
<SegmentURL media="seg-m1-C1view-201.mp4"/>
<SegmentURL media="seg-m1-C1view-202.mp4"/>
</SegmentList>
</Representation>
</AdaptationSet>
<!-And below are the depth data associated with the above view textures -->
<AdaptationSet mimeType="video/mp4" codecs="mvc1.640828">
<Role schemeIdUri="urn:mpeg:dash:stereoid:2013" id="d0" depend="t0"/>
<Representation id="D21" bandwidth="28000">
<SegmentList duration="10">
<SegmentURL media="seg-m1-D21view-201.mp4"/>
<SegmentURL media="seg-m1-D21view-202.mp4"/>
</SegmentList>
</Representation>
<Representation id="D22" bandwidth="58000">
<SegmentList duration="10">
<SegmentURL media="seg-m1-D22view-201.mp4"/>
<SegmentURL media="seg-m1-D22view-202.mp4"/>
</SegmentList>
</Representation>
</AdaptationSet>
<AdaptationSet mimeType="video/mp4" codecs=" mvc1.760028">
<Role schemeIdUri="urn:mpeg:dash:stereoid:2013" id="d1" depend="t1"/>
<Representation id="D11" bandwidth="29000">
<SegmentList duration="10">
<SegmentURL media="seg-m1-D11view-201.mp4"/>
<SegmentURL media="seg-m1-D11view-202.mp4"/>
</SegmentList>
</Representation>
<Representation id="D12" bandwidth="59000">
<SegmentList duration="10">
<SegmentURL media="seg-m1-D12view-201.mp4"/>
<SegmentURL media="seg-m1-D12view-202.mp4"/>
</SegmentList>
</Representation>
</AdaptationSet>
</Period>
</MPD>
일 실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

Claims (10)

  1. 3차원 콘텐츠의 부호화 방법에 있어서,
    상기 3차원 콘텐츠의 텍스처 정보 및 깊이 정보 사이의 의존성(dependency)을 설정하는 단계;
    상기 의존성을 포함하는 비트스트림을 생성하는 단계
    를 포함하는 3차원 콘텐츠의 부호화 방법.
  2. 제 1 항에 있어서,
    상기 깊이 정보가 상기 텍스처 정보로부터 분리되는 경우, 해당 뷰와 깊이 정보와의 관계 및 깊이 정보와 텍스처와의 의존성을 설정하는 단계
    를 더 포함하는 3차원 콘텐츠의 부호화 방법.
  3. 제 1 항에 있어서,
    각 뷰의 텍스처와 깊이 정보를 위한 하나 또는 이상의 레프리젠테이션(representation)을 설정하는 단계
    를 더 포함하는 3차원 콘텐츠의 부호화 방법.
  4. 제 3 항에 있어서,
    상기 레프리젠테이션은 텍스처 정보를 포함하거나 또는 깊이 정보를 포함하거나 또는 텍스처 정보 및 깊이 정보 모두를 포함하는 3차원 콘텐츠의 부호화 방법.
  5. 제 4 항에 있어서,
    상기 레프리젠테이션이 포함하는 정보를 지시하는 식별자 파라미터를 설정하는 단계
    를 더 포함하는 3차원 콘텐츠의 부호화 방법.
  6. 제 5 항에 있어서,
    상기 식별자가 'ti'의 형식을 가지는 경우, 상기 레프리젠테이션은 뷰 i의 텍스처 정보를 포함하며,
    상기 식별자가 'di'의 형식을 가지는 경우, 상기 레프리젠테이션은 뷰 i의 깊이 정보를 포함하며,
    상기 식별자가 'vi'의 형식을 가지는 경우, 상기 레프리젠테이션은 뷰 i의 텍스처 정보 및 깊이 정보를 포함하는 3차원 콘텐츠의 부호화 방법.
  7. 제 4 항에 있어서,
    현재의 적응형 세트와 연동되는 뷰 및 텍스처 및 깊이 정보 사이의 관계를 지시하는 의존성 파라미터를 설정하는 단계
    를 더 포함하는 3차원 콘텐츠의 부호화 방법.
  8. 제 5 항 또는 제 7 항에 있어서,
    상기 식별자 파라미터 또는 상기 의존성 파라미터는 MPEG DASH 표준의 롤 엘리먼트(role element)의 다시점 설계에 추가되는 3차원 콘텐츠의 부호화 방법.
  9. 제 1 항에 있어서,
    상기 의존성은 레프리젠테이션 레벨 또는 적응 세트 레벨에서 설정되는 3차원 콘텐츠의 부호화 방법.
  10. 3차원 콘텐츠의 부호화 방법에 있어서,
    텍스처 정보 및 깊이 정보 중 적어도 하나를 포함하는 레프리젠테이션(representation)을 설정하는 단계;
    상기 레프리젠테이션에 대응하는 비트스트림을 생성하는 단계
    를 포함하는 3차원 콘텐츠의 부호화 방법.
PCT/KR2014/006728 2013-07-24 2014-07-24 3차원 콘텐츠의 부호화 방법 및 장치 WO2015012605A1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US14/906,994 US9973740B2 (en) 2013-07-24 2014-07-24 Method and apparatus for encoding three-dimensional (3D) content
EP14828891.3A EP3026916A4 (en) 2013-07-24 2014-07-24 Method and apparatus for encoding three-dimensional content
US15/977,218 US10375373B2 (en) 2013-07-24 2018-05-11 Method and apparatus for encoding three-dimensional (3D) content
US16/445,999 US20200162717A1 (en) 2013-07-24 2019-06-19 Method and apparatus for encoding three-dimensional (3d) content

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20130087325 2013-07-24
KR10-2013-0087325 2013-07-24
KR1020140092615A KR20150012206A (ko) 2013-07-24 2014-07-22 3차원 콘텐츠의 부호화 방법 및 장치
KR10-2014-0092615 2014-07-22

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US14/906,994 A-371-Of-International US9973740B2 (en) 2013-07-24 2014-07-24 Method and apparatus for encoding three-dimensional (3D) content
US15/977,218 Continuation US10375373B2 (en) 2013-07-24 2018-05-11 Method and apparatus for encoding three-dimensional (3D) content

Publications (1)

Publication Number Publication Date
WO2015012605A1 true WO2015012605A1 (ko) 2015-01-29

Family

ID=52488362

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2014/006728 WO2015012605A1 (ko) 2013-07-24 2014-07-24 3차원 콘텐츠의 부호화 방법 및 장치

Country Status (4)

Country Link
US (3) US9973740B2 (ko)
EP (1) EP3026916A4 (ko)
KR (1) KR20150012206A (ko)
WO (1) WO2015012605A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106454317A (zh) * 2016-11-15 2017-02-22 天津大学 基于模糊控制的立体视频质量自适应算法
WO2017145757A1 (ja) * 2016-02-22 2017-08-31 ソニー株式会社 ファイル生成装置およびファイル生成方法、並びに、再生装置および再生方法
CN109076238A (zh) * 2016-05-24 2018-12-21 高通股份有限公司 通过http在动态自适应流式传输中用信号传送虚拟现实视频

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120034550A (ko) 2010-07-20 2012-04-12 한국전자통신연구원 스트리밍 컨텐츠 제공 장치 및 방법
US9467493B2 (en) * 2010-09-06 2016-10-11 Electronics And Telecommunication Research Institute Apparatus and method for providing streaming content
KR20150012206A (ko) * 2013-07-24 2015-02-03 한국전자통신연구원 3차원 콘텐츠의 부호화 방법 및 장치
US11310094B2 (en) 2015-09-08 2022-04-19 Lg Electronics Inc. Apparatus and method for transmitting or receiving broadcast signal
US10305722B2 (en) * 2015-09-08 2019-05-28 Lg Electronics Inc. Apparatus and method for transmitting or receiving broadcast signal (as amended)
US9780891B2 (en) * 2016-03-03 2017-10-03 Electronics And Telecommunications Research Institute Method and device for calibrating IQ imbalance and DC offset of RF tranceiver
EP3249929A1 (en) * 2016-05-25 2017-11-29 Thomson Licensing Method and network equipment for establishing a manifest
JP2019054417A (ja) 2017-09-15 2019-04-04 ソニー株式会社 画像処理装置およびファイル生成装置
JP7035401B2 (ja) * 2017-09-15 2022-03-15 ソニーグループ株式会社 画像処理装置およびファイル生成装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120229602A1 (en) * 2011-03-10 2012-09-13 Qualcomm Incorporated Coding multiview video plus depth content
KR20120106631A (ko) * 2011-03-16 2012-09-26 한국전자통신연구원 레프리젠테이션을 사용하는 스트리밍 콘텐츠 제공 장치 및 방법
WO2012171477A1 (en) * 2011-06-15 2012-12-20 Mediatek Inc. Method and apparatus of texture image compression in 3d video coding
KR20130018629A (ko) * 2011-08-09 2013-02-25 삼성전자주식회사 다시점 비디오 데이터의 깊이맵 부호화 방법 및 장치, 복호화 방법 및 장치
KR20130050722A (ko) * 2011-11-08 2013-05-16 한국전자통신연구원 컬러 영상 및 깊이 영상을 포함하는 다시점 비디오의 부호화 및 복호화 방법, 그리고 부호화 및 복호화 장치

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101612268B1 (ko) 2010-08-23 2016-04-14 현대모비스 주식회사 전동 브레이크 장치의 드래그 토크 조정 장치 및 방법
WO2013077670A1 (ko) 2011-11-23 2013-05-30 한국전자통신연구원 스케일러빌리티 및 뷰 정보를 제공하는 스트리밍 서비스를 위한 방법 및 장치
US9473752B2 (en) * 2011-11-30 2016-10-18 Qualcomm Incorporated Activation of parameter sets for multiview video coding (MVC) compatible three-dimensional video coding (3DVC)
US9288506B2 (en) * 2012-01-05 2016-03-15 Qualcomm Incorporated Signaling view synthesis prediction support in 3D video coding
US20160050246A1 (en) * 2013-03-29 2016-02-18 Intel IP Corporation Quality-aware rate adaptation techniques for dash streaming
CN105393541B (zh) * 2013-07-19 2018-10-12 华为技术有限公司 使用基于深度的块分割编解码纹理块的方法和装置
KR20150012206A (ko) * 2013-07-24 2015-02-03 한국전자통신연구원 3차원 콘텐츠의 부호화 방법 및 장치
US9948950B2 (en) * 2014-01-03 2018-04-17 Qualcomm Incorporated Disparity vector and/or advanced residual prediction for video coding
CN106233334B (zh) * 2014-03-20 2020-03-10 华为技术有限公司 一种将视频块分割模式和视频编码块关联的装置和方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120229602A1 (en) * 2011-03-10 2012-09-13 Qualcomm Incorporated Coding multiview video plus depth content
KR20120106631A (ko) * 2011-03-16 2012-09-26 한국전자통신연구원 레프리젠테이션을 사용하는 스트리밍 콘텐츠 제공 장치 및 방법
WO2012171477A1 (en) * 2011-06-15 2012-12-20 Mediatek Inc. Method and apparatus of texture image compression in 3d video coding
KR20130018629A (ko) * 2011-08-09 2013-02-25 삼성전자주식회사 다시점 비디오 데이터의 깊이맵 부호화 방법 및 장치, 복호화 방법 및 장치
KR20130050722A (ko) * 2011-11-08 2013-05-16 한국전자통신연구원 컬러 영상 및 깊이 영상을 포함하는 다시점 비디오의 부호화 및 복호화 방법, 그리고 부호화 및 복호화 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3026916A4 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017145757A1 (ja) * 2016-02-22 2017-08-31 ソニー株式会社 ファイル生成装置およびファイル生成方法、並びに、再生装置および再生方法
CN108702534A (zh) * 2016-02-22 2018-10-23 索尼公司 文件生成装置、文件生成方法以及再现装置和再现方法
CN108702534B (zh) * 2016-02-22 2021-09-14 索尼公司 文件生成装置、文件生成方法以及再现装置和再现方法
CN109076238A (zh) * 2016-05-24 2018-12-21 高通股份有限公司 通过http在动态自适应流式传输中用信号传送虚拟现实视频
US11375291B2 (en) 2016-05-24 2022-06-28 Qualcomm Incorporated Virtual reality video signaling in dynamic adaptive streaming over HTTP
CN109076238B (zh) * 2016-05-24 2022-08-05 高通股份有限公司 通过http在动态自适应流式传输中用信号传送虚拟现实视频
CN106454317A (zh) * 2016-11-15 2017-02-22 天津大学 基于模糊控制的立体视频质量自适应算法

Also Published As

Publication number Publication date
US10375373B2 (en) 2019-08-06
US20200162717A1 (en) 2020-05-21
US20160165210A1 (en) 2016-06-09
US9973740B2 (en) 2018-05-15
EP3026916A4 (en) 2017-03-29
EP3026916A1 (en) 2016-06-01
US20180262746A1 (en) 2018-09-13
KR20150012206A (ko) 2015-02-03

Similar Documents

Publication Publication Date Title
WO2015012605A1 (ko) 3차원 콘텐츠의 부호화 방법 및 장치
WO2012011724A2 (ko) 미디어 파일 송수신 방법 및 그를 이용한 송수신 장치
WO2011105811A2 (en) Method and apparatus for transmitting and receiving data
WO2011059291A2 (en) Method and apparatus for transmitting and receiving data
WO2012060581A2 (ko) 미디어 콘텐트 송수신 방법 및 그를 이용한 송수신 장치
WO2011071290A2 (en) Streaming method and apparatus operating by inserting other content into main content
WO2012047028A2 (ko) 스트리밍 컨텐츠 제공 장치 및 방법
WO2011059272A2 (en) Method and apparatus for providing trick play service
WO2012033319A2 (ko) 스트리밍 컨텐츠 제공 장치 및 방법
WO2013089437A1 (ko) 미디어 컨텐트를 수신하는 장치 및 방법
WO2012177041A2 (ko) 미디어 컨텐트 송수신 방법 및 그를 이용한 송수신 장치
WO2013025035A9 (ko) 송신 장치, 수신 장치 및 그 송수신 방법
WO2012125006A2 (ko) 레프리젠테이션을 사용하는 스트리밍 콘텐츠 제공 장치 및 방법
WO2011155776A2 (ko) 프래그먼트 기반의 멀티미디어 스트리밍 서비스 제공 방법과 그 장치, 그리고 프래그먼트 기반의 멀티미디어 스트리밍 서비스 수신 방법과 그 장치
WO2009125961A1 (en) Method of transmitting and receiving broadcasting signal and apparatus for receiving broadcasting signal
WO2013055164A1 (ko) 콘텐츠 디스플레이 방법, 콘텐츠 동기화 방법, 방송 콘텐츠 디스플레이 방법 및 디스플레이 장치
WO2014025239A1 (ko) 3d 영상을 위한 영상 컴포넌트 송수신 처리 방법 및 장치
WO2010123248A2 (ko) P2p 전송 방식에 의한 iptv 스트리밍 서비스를 전송하는 방법 및 p2p 전송 방식에 의한 iptv 스트리밍 서비스를 수신하는 방법.
WO2015126117A1 (ko) 방송 신호 송수신 방법 및 장치
WO2012011722A2 (ko) 미디어 송수신 방법 및 그를 이용한 송수신 장치
WO2011132882A2 (ko) 인터넷 기반 컨텐츠 송수신 방법 및 그를 이용한 송수신 장치
WO2011132880A2 (ko) 인터넷 기반 컨텐츠 송수신 방법 및 그를 이용한 송수신 장치
WO2022131870A1 (ko) Nal 유닛 어레이 정보를 포함하는 미디어 파일 생성/수신 방법, 장치 및 미디어 파일 전송 방법
WO2022139260A1 (ko) 미디어 파일을 생성하고 처리하는 방법 및 장치
WO2022060113A1 (ko) 미디어 파일 처리 방법 및 그 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14828891

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14906994

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2014828891

Country of ref document: EP