CN107454468B - 对沉浸式视频进行格式化的方法、装置和流 - Google Patents

对沉浸式视频进行格式化的方法、装置和流 Download PDF

Info

Publication number
CN107454468B
CN107454468B CN201710367388.2A CN201710367388A CN107454468B CN 107454468 B CN107454468 B CN 107454468B CN 201710367388 A CN201710367388 A CN 201710367388A CN 107454468 B CN107454468 B CN 107454468B
Authority
CN
China
Prior art keywords
mapping
information
immersive
video
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710367388.2A
Other languages
English (en)
Other versions
CN107454468A (zh
Inventor
F.加尔平
S.拉塞尔
P.安德里冯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
InterDigital VC Holdings Inc
Original Assignee
InterDigital VC Holdings Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by InterDigital VC Holdings Inc filed Critical InterDigital VC Holdings Inc
Publication of CN107454468A publication Critical patent/CN107454468A/zh
Application granted granted Critical
Publication of CN107454468B publication Critical patent/CN107454468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/16Spatio-temporal transformations, e.g. video cubism
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234327Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into layers, e.g. base layer and one or more enhancement layers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04815Interaction with a metaphor-based environment or interaction object displayed as three-dimensional, e.g. changing the user viewpoint with respect to the environment or object
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/08Volume rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • G06T17/205Re-meshing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/18Image warping, e.g. rearranging pixels individually
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/395Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability involving distributed video coding [DVC], e.g. Wyner-Ziv video coding or Slepian-Wolf video coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/23439Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements for generating different versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2362Generation or processing of Service Information [SI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/80Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game specially adapted for executing a specific type of game
    • A63F2300/8082Virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/20Indexing scheme for editing of 3D models
    • G06T2219/2004Aligning objects, relative positioning of parts
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H20/00Arrangements for broadcast or for distribution combined with broadcast
    • H04H20/86Arrangements characterised by the broadcast information itself
    • H04H20/95Arrangements characterised by the broadcast information itself characterised by a specific format, e.g. an encoded audio stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本公开涉及用于生成、传送和解码向后兼容的沉浸式视频流的方法、装置或***。流承载表示沉浸式视频的数据、由根据布局而组织的包括根据矩形映射而编码的第一区域、根据从矩形映射到沉浸式映射的映射过渡而编码的第二区域以及根据沉浸式映射而编码的第三区域的帧构成。为了向后兼容,流进一步包括:表示视频帧内的第一区域的尺寸和位置的第一信息,以及至少包括所选择的布局的类型、第一部分的视场、视频帧内的所述第二区域的尺寸和参考方向的第二信息。

Description

对沉浸式视频进行格式化的方法、装置和流
技术领域
本公开涉及以下领域:例如当表示沉浸式视频的向后兼容的流被分发到异质集合的客户端设备——一些客户端设备被配置为显示传统矩形视频并且一些其它客户端设备被配置为显示沉浸式视频时,对此类流进行格式化。
背景技术
视频是至少一个图像的序列。实际上,图像可以被考虑为静止视频。在作为像素的二维阵列(即,色彩信息的元素)的矩形帧上对视频进行编码。按序列的每一图像对一个帧进行编码。根据映射函数对图像进行编码。根据矩形映射对意图要被显示在矩形屏幕上的传统视频进行编码。沉浸式视频意图要被呈现在观看者周围,即,观看者不能看见全部画面,而是不得不旋转他的/她的头部(或移动或使用控制器——例如控制杆或鼠标)以看见他的/她的视场之外的图像的各部分。当沉浸式视频在矩形帧上被编码时,其要求沉浸式映射函数,例如,等距长方(equirectangular)映射、立方体映射或椎体映射。
根据视频意图要被呈现在其上的呈现设备的类型来准备和格式化视频流。传统视频呈现设备不适当地显示沉浸式视频,因为它们被配置为仅仅根据矩形映射对视频帧进行解码。相互地,沉浸式视频呈现设备不适当地显示传统视频,因为它们期望根据沉浸式投影编码的帧。缺乏可以被传统视频呈现设备和沉浸式视频呈现设备两者适当地显示的用于向后兼容的沉浸式视频流的格式。
发明内容
本公开的目的是克服缺乏可以被传统视频呈现设备和沉浸式视频呈现设备两者适当地显示的用于向后兼容的沉浸式视频流的格式。本公开涉及一种从视频流构成用于呈现设备的视频帧的方法,该方法包括:
-从视频流获取源视频帧,
-从视频流获取第一信息,所述第一信息表示所述源视频帧的第一区域的尺寸和位置,
-当呈现设备是传统视频呈现设备时,利用源视频帧的所述第一区域构成所述视频帧;
-当呈现设备是沉浸式视频呈现设备时:
·从视频流获取第二信息,所述第二信息表示布局的类型、所述第一部分的视场、第二区域的尺寸以及参考方向,
·根据所述第一信息和第二信息并且使用所述源视频帧来构建映射的表面,
·利用捕获所述映射的表面的一部分的至少一个虚拟照相机来构成视频帧。
根据特定特性,布局基于属于包括以下的沉浸式映射集合的沉浸式映射:等距长方映射、立方体映射和椎体映射。
根据特定实施例,根据高效视频编码(HEVC)对流进行解码,其中,通过一致性窗口参数来承载第一信息,并且其中,通过补充增强信息(SEI)来承载第二信息。
本公开还涉及一种被配置为从视频流构成用于呈现设备的视频帧的装置,该装置包括:
-用于从视频流获取源视频帧的部件,
-用于从视频流获取第一信息的部件,所述第一信息表示所述源视频帧的第一区域的尺寸和位置,
-当呈现设备是传统视频呈现设备时,被配置为利用源视频帧的所述第一区域构成所述视频帧的处理器;
-当呈现设备是沉浸式视频呈现设备时:
·用于从视频流获取第二信息的部件,所述第二信息表示布局的类型、所述第一部分的视场、第二区域的尺寸以及参考方向,
·被配置为根据所述第一信息和第二信息并且使用所述源视频帧来构建映射的表面的处理器,
·被配置为利用捕获所述映射的表面的一部分的至少一个虚拟照相机来构成视频帧的处理器。
本公开还涉及一种从沉浸式视频生成视频流的方法,该方法包括:
-根据矩形映射对沉浸式视频帧的第一部分进行编码;
-根据从所述矩形映射到沉浸式映射的映射过渡对沉浸式视频帧的第二部分进行编码;
-根据所述沉浸式映射对沉浸式视频帧的第三部分进行编码;
-根据包括所述第一部分作为第一区域、所述第二部分作为第二区域和所述第三部分作为第三区域的布局来构成视频帧;
-生成视频流,该视频流包括所构建的视频帧,关于所述第一区域的尺寸和位置的第一信息,以及至少包含所述布局的类型、所述第一部分的视场、第二区域的尺寸和参考方向的第二信息。
根据特定实施例,布局基于属于包括以下的沉浸式映射集合的沉浸式映射:等距长方映射、立方体映射和椎体映射。
根据特定特性,流基于高效视频编码(HEVC),其中,通过一致性窗口参数来承载第一信息,并且其中,通过补充增强信息(SEI)来承载第二信息。
本公开还涉及一种被配置为从沉浸式视频生成视频流并且包括以下的装置:
-被配置为根据矩形映射对沉浸式视频帧的第一部分进行编码的编码器;
-被配置为根据从所述矩形映射到沉浸式映射的映射过渡对沉浸式视频帧的第二部分进行编码的编码器;
-被配置为根据所述沉浸式映射对沉浸式视频帧的第三部分进行编码的编码器;
-被配置为根据包括所述第一部分作为第一区域、所述第二部分作为第二区域和所述第三部分作为第三区域的布局来构成视频帧的处理器;
-被配置为生成视频流的视频流生成器,该视频流包括所构建的视频帧,关于所述第一区域的尺寸和位置的第一信息,以及至少包含所述布局的类型、所述第一部分的视场、第二区域的尺寸和参考方向的第二信息。
本公开还涉及一种承载表示沉浸式视频的数据并且包括以下的流:
-根据布局而组织的视频帧,其包括根据矩形映射而编码的第一区域、根据从所述矩形映射到沉浸式映射的映射过渡而编码的第二区域以及根据所述沉浸式映射而编码的第三区域,
-表示视频帧内的所述第一区域的尺寸和位置的第一信息,
-至少包括所述布局的类型、第一部分的视场、视频帧内的所述第二区域的尺寸和参考方向的第二信息。
附图说明
在阅读以下描述(该描述引用附图)时,将更好地理解本公开,并且其他特定特征和优点将显露,在附图中:
图1说明根据本发明的原理的特定实施例的、视频帧的矩形映射编码;
图2示出根据本发明的原理的特定实施例的、与图1的矩形映射相比较的等距长方映射函数的示例;
图3说明根据本发明的原理的特定实施例的、相比于图1和2的其他可能的映射的立方体映射函数的示例布局;
图4示出根据本发明的原理的特定实施例的、根据不同的映射(例如图1、2和3的映射)编码的并且通过传统视频呈现设备所呈现的图像的示例;
图5说明根据本发明的原理的特定实施例的、利用图4的等距长方映射为克服感兴趣区的不希望有的失真所准备的向后兼容的帧的示例布局;
图6示出根据本发明的原理的特定实施例的、根据等距长方映射编码的沉浸式帧到利用图5的示例布局编码的向后兼容的帧的变换的示例;
图7说明根据本发明的原理的特定实施例的、承载表示包括如在图5和6上所说明的视频帧的向后兼容的沉浸式视频的数据的流的数据结构的特定实施例;
图8说明根据本发明的原理的特定实施例的、利用图3的立方体映射为克服感兴趣区的不希望有的不连续性所准备的向后兼容的帧的示例布局;
图9示出根据本发明的原理的特定实施例的、被配置为实施关于图10或11描述的方法的装置的硬件实施例;
图10用图解法示出如在图9的处理设备(诸如根据非限制性有利实施例的设备)中实施的生成向后兼容的沉浸式视频流的方法的实施例;
图11用图解法示出如在处理设备(诸如根据非限制性有利实施例的图9的设备)中实施的、用于给定呈现设备的从向后兼容的沉浸式视频流构成视频帧的方法的实施例。
具体实施方式
现在参考附图来描述主题,其中,贯穿本文,相同附图标记用于指相同要素。在下面的描述中,为了解释目的,阐述许多的特定细节以便提供对主题的彻底的理解。应当理解,能够在没有这些特定细节的情况下实践主题实施例。
根据本公开的非限制性实施例,公开了一种对向后兼容的沉浸式视频进行编码的流。还公开了对此类流进行解码的方法和装置。可以通过传统视频呈现设备以及通过沉浸式视频呈现设备来解码和呈现此类流。不管将对此类流进行解码的设备是什么,此类流都例如从网络(例如广播网、VoD网络或因特网)被递送或被存储在介质(例如DVD、蓝光盘或者记忆棒)上。
传统视频呈现设备是能够对以诸如MPEG2、H.264/AVC或H.265/HEVC之类的标准格式编码的传统视频流进行解码的设备。传统视频呈现设备将解码的视频呈现到二维矩形屏幕(例如电视机、视频投影仪、平板机或智能电话)。必需注意,呈现是以图像可由显示设备适当地显示的方式准备图像的操作。被配置为解码视频流的机顶盒和处理器也被认为是视频呈现设备。在一个特定实施例中,向后兼容的视频流使用H.265/HEVC的标准参数并且具有在没有在先修改的情况下可由现有传统视频呈现设备解码的优点。
在本公开中进一步详述用于沉浸式视频呈现设备的方法。沉浸式视频意图要被呈现在观看者周围,即,观看者不能看见全部画面,而是不得不旋转他的/她的头部(或移动)以看见他的/她的视场之外的图像的各部分。“洞穴(cave)”例如是由若干视频投影仪组成的沉浸式视频呈现设备;投影仪在观看者周围在若干方向上显示解码的视频。头戴式显示器设备(HMD)、平板机或智能电话例如可以被配置为沉浸式视频呈现设备,这是因为它们配备有至少跟踪设备在空间中的取向的惯性测量单元。设备的取向确定观看的方向,并且虚拟照相机捕获必须在设备的矩形屏幕上呈现的围绕的沉浸式视频的部分。
还公开了用于从源沉浸式视频生成向后兼容的沉浸式视频流的方法和装置。根据至少一个映射函数对视频帧进行编码。映射函数使映射表面的每个点与来自帧的彩色信息相关联。为了被呈现,将投影函数应用于映射表面以便选择和/或将映射的图像调适到其必需在之上显示的屏幕。映射函数是视频呈现设备的函数。投影函数与显示设备相关联。根据特定实施例,由视频呈现设备向映射表面应用投影函数以便准备如链接到视频呈现设备的特定显示设备所期待的帧。
图1说明矩形映射编码模式。在意图要在矩形表面11上被呈现的矩形帧10中对视频序列的图像进行编码。映射函数12是直接的,这是因为帧10和映射表面11是等同的。屏幕13可能不具有与映射表面11相同的分辨率和/或清晰度。因此,投影函数14可以重新调节尺寸和/或裁剪或在映射表面11的侧边显示黑条。在图1上,帧10和映射表面11具有4:3的长宽比,而屏幕具有16:9的长宽比。在该示例中,投影函数14在图像的中间操作裁剪以产生适合屏幕13的视频。在一种变型中,投影函数14向映射表面11的左侧和右侧添加黑条以获取适合屏幕13的视频。在另一个实施例中,图1的视频是立体的。在此类变型中,帧10包含被映射在两个不同的映射表面11上的两个不同的图像。根据屏幕的类型来组合映射表面以呈现立体效果。
图2示出等距长方映射函数的示例。在意图要被映射在球体映射表面21上的矩形帧20上对图像的序列进行编码。映射函数22在帧20的每个像素和映射表面21上的点之间建立映射(并且反之亦然)。在图2上,映射函数22基于等距长方投影(也被称作等距圆柱投影)。对帧20上的图像进行变形。距离在赤道得以遵守并且在极点得以拉伸。直线不再是直线并且视角变形。在各变型中,映射函数22例如基于等距圆锥投影。如果屏幕23是矩形的,关于头部安装的显示器设备(HMD)或平板机或智能电话,选择映射表面21的一部分。投影函数24包含选择位于球体的中心的照相机所看见的映射表面21的一部分,照相机在视场和分辨率方面被配置以便产生直接地适合屏幕23的图像。所选择的视场取决于显示设备的特性。对于HMD,视场的角度接近于人类立体视野,其大约一百二十度。照相机的瞄准方向对应于用户朝着看的方向,并且沉浸式视频呈现设备的虚拟照相机控制器用于修改照相机的瞄准方向。在一种变型中,图2的视频是立体的。在此类变型中,帧20包含被映射在两个不同的映射表面21上的两个不同的图像。根据屏幕的类型来组合映射表面以呈现立体效应。
图3说明立方体映射函数的示例布局。在意图要被映射在立方体映射表面31上的矩形(或方形)帧30上对图像的序列进行编码。映射函数32建立帧30中的各方形与立方体31的各面之间的对应。反之亦然,映射函数确定如何在帧30的表面内组织立方体31的各面。每个面上的图像没有变形。然而,在帧30的总图像中,线是分段的直线,并且视角被破坏。图像可以包含(利用默认或随机彩色信息——图3的示例上的白色填充的)空的方形。该投影函数如同图2的投影函数那样工作。照相机被放置在立方体31的中心并且捕获适合呈现设备的屏幕的图像。
在各变型中,使用其他映射表面和/或映射函数,例如将视频帧映射在圆柱上或映射在椎体上。
图4示出根据不同的映射函数编码的并且通过传统视频呈现设备呈现的各图像的示例。由于这些图像通过传统视频呈现设备被呈现,所以根据矩形映射对图4的每个图像进行编码。然而,它们根据不同的投影函数被投影。从典型的传统视频(即,用户用于在电视机、在电影院观看的视频)中提取图像40。捕获图像40的照相机使用透视投影函数。利用透视投影,直线是直的,角度和比例对应于真实的角度和比例,并且遵从视角。照相机捕获周围环境的部分。该部分被称作感兴趣区(RoI),这是因为这是制片商已经选择显示的部分。透视矩形图像的水平视场例如是七十度(70°),大致对应于具有色彩的良好区别的接近***的人的视觉的角度。
已经利用广角照相机捕获了图像41。利用此类投影函数,当被平面屏幕呈现时,直线不再是直线,角度和比例不再对应于真实性,并且视角变形。对于图像41,感兴趣区较大。水平视场超过六十度(60°)。
图像42是从根据等距长方映射编码的沉浸式图像中提取的裁剪物。原始的沉浸式图像意图根据透视投影(即,关于直线、角度、比例和视角)被沉浸式视频呈现设备呈现。图像42是利用等距长方映射编码的并且利用矩形映射解码的图像的一部分。因此,对于任何水平视场,显示的感兴趣区变形。根据原始图像中的裁剪物的位置并且根据视场,变形局部地改变。图像43是利用立方体映射编码的并且利用矩形映射解码的图像的一部分。在这里,当感兴趣区与立方体的边缘重叠时,视角保持,但是连续性破坏。
图5说明利用等距长方映射为克服感兴趣区的不希望有的失真所准备的向后兼容的帧的示例布局50。布局50是给定尺寸的矩形帧,例如,720X 576像素(PAL清晰度)、720X480(NTSC清晰度)、1280X 720(HD1清晰度)、1920x 1080像素(HD2清晰度),或4096X 2160(4K)。布局50由三个(3)部分组成。
部分51对应于例如根据透视投影捕获的并且根据矩形映射编码的源沉浸式内容的感兴趣区。该子帧51被准备要在传统视频呈现设备上进行呈现。子帧51的尺寸是给定清晰度,例如,如果帧50是4K帧,则该给定清晰度是1920X 1080像素。子帧51的左上角位于帧50内的位置(x、y),例如x=1088并且y=540。在视频的持续时间内,子帧51的尺寸和位置是不变的。在一种变型中,子帧51的尺寸和/或位置随着时间而改变。
部分52是根据等距长方映射对源沉浸式内容进行编码的矩形帧。从该帧中剪裁掉与部分53相对应的区域。部分53是其中图像从(在其中心侧上的)矩形映射连续地进行到(在其***侧上的)等距长方映射的过渡区域。
图6示出根据等距长方映射编码的沉浸式帧60到利用图5的示例布局编码的向后兼容的帧50的变换的示例。例如由指导者手动地选择或例如基于例如图像的显著图使用图形处理算法来自动地选择感兴趣区。感兴趣区对应于沉浸式内容的视场(其高达360°)的部分。如以上讨论的,如果对于感兴趣区选择了透视投影,视场达到七十度。在一种变型中,大角度被选择作为感兴趣区的投影函数。
在以下示例中,已经选择了子帧51在帧50内的位置(x、y)以便使得子帧51在帧的中间。在该示例的变型中,可以通过转换参考的帧来调适公式。
给定水平视场时,通过以下公式来确定垂直视场:
[公式1]
Figure BDA0001301928680000081
其中w和h分别是子帧51的宽度和高度。对于帧50的点Me(ie,je),根据公式[公式2]来确定子帧51中的坐标Ms
[公式2]
Figure BDA0001301928680000082
其中we和he分别是帧50的宽度和高度。对于子帧51的每个像素Ms(i,j),计算相关联的3D点Mv([公式3])。通过将点的归一化投射在球体上([公式4]),得到帧60中的对应的像素的坐标M。
[公式3]
Figure BDA0001301928680000083
[公式4]
Figure BDA0001301928680000084
函数f是用于从表面的图像空间映射到中间参数空间的函数。例如,对于等距长方映射,函数f可以被定义为:
[公式4a]
Figure BDA0001301928680000091
Figure BDA0001301928680000092
θ=(j-w/2)/w*π
函数
Figure BDA0001301928680000093
是用于从表面的中间参数空间映射到3D空间的函数。对于等距长方映射,3D表面是球体并且delta可以被定义为:
Figure BDA0001301928680000094
Figure BDA0001301928680000095
Figure BDA0001301928680000096
Figure BDA0001301928680000097
如果子帧51的视场小于被子帧51占用的沉浸式帧50、60的视场的部分,则在过渡区域53中将像素进行“压缩”。这是在图6的示例中的情况,其中当被子帧51占用的空间是168.75度(1920X 360/4096)时,子帧51的水平视场是六十度。相反情况,如果子帧51的视场大于被子帧51占用的沉浸式帧50、60的视场的部分,则在过渡区域53中将像素进行“拉伸”。
一种填充过渡区域53的示例方法例如通过根据帧的两个部分51和52之间的距离确定权重来计算从矩形映射子帧51到等距长方映射部分52的平滑插值。
[公式5]
Figure BDA0001301928680000098
其中,mx和my分别是定义在子帧51周围的部分53的界限的宽度和高度。根据权重的函数([公式6])来计算球体上的点的坐标,并且通过公式([公式7])来获取要使用的帧60的像素的坐标。
[公式6]
Figure BDA0001301928680000099
[公式7]M=f-1(M′t)
函数h用于调制两个映射之间的过渡的斜率。给定大于或等于1的正的常数α,函数h例如是以下之一:
h(x)=xα
Figure BDA0001301928680000101
在另一个实施例中,在三维(3D)空间中而非在参数曲面中执行平滑插值,如以上详述。
图7说明承载表示包括如在图5和6上所说明的视频帧的向后兼容的沉浸式视频的数据的流70的数据结构的特定实施例。在流的有效负荷部分71中对图5和6的帧50进行编码。关于内容的全局或通用信息被包括在报头部分72中。改变的信息或重复的信息被存储在每个有效负荷部分71的报头部分73。
帧50包含被调适到传统视频呈现设备的子帧51。这些设备解码子帧51所需要的仅有信息是子帧51在帧60内的位置和尺寸,在本文档中也被称作第一信息。由于第一信息可以随着时间而改变,或因为内容报头可能还没有被客户端设备接收(例如,在广播情况中),所以第一信息被包括在每个有效负荷部分71的报头部分73中。在一种变型中,第一信息被包括在内容报头部分72中。在另一个变型中,仅仅当第一信息改变或重复(例如每5或10个有效负荷部分71一次)时,第一信息被包括在有效负荷部分71的报头73部分中。
在特定实施例中,根据H.265/HEVC编解码器(请参见文档ETSI TS 101154v2.2.1的DVB标准)对帧50进行编码。保留该编解码器的参数“窗口一致性”以用于承载主帧内的子帧的位置和尺寸的信息。当存在于流中时,呈现设备对一致性窗口参数的使用在DVB标准的规范中是强制性的。在没有设备的在先修改的情况下,由传统视频呈现设备照常来管理长宽比调适。
当被沉浸式视频呈现设备(例如平板机、智能电话或HMD)解码时,帧50的反变换被执行以便调取帧60。在图6的示例中,反变换可以基于[公式8]和[公式9]的反函数:
[公式8]
Figure BDA0001301928680000102
Figure BDA0001301928680000103
Figure BDA0001301928680000104
[公式9]
Figure BDA0001301928680000105
x=θ
Figure BDA0001301928680000111
该反变换所需要的参数与变换所需要的参数相同:一方面,第一信息,其包含子帧51的位置和尺寸,并且另一方面,第二信息,其包含:用于准备帧50(在该示例中图5中之一)的映射布局的类型、用于计算子帧51的视场、过渡区域的尺寸和参考方向;过渡区域的位置与映射布局的类型相关。参考方向可能是有用的,以便了解在沉浸式观看中映射表面在呈现时的绝对零位置。第二信息随着时间是不变的,为此,该第二信息被编码在内容的报头部分72中。在另一个实施例中,例如当流被广播时,内容报头72可能被客户端错过;因此,第二信息被反复地编码在流中,例如在有效负荷部分71的报头部分73中。在一种变型中,第二信息的一些数据(例如,过渡区域的尺寸)可以随着时间而改变,并且为此,第二信息被编码在流的有效负荷部分71的报头部分73中。
重构的帧60然后被映射在球体上,并且沉浸式视频呈现设备使用其常规的投影函数来呈现要显示的沉浸式内容的部分。在另一个实施例中,沉浸式视频呈现设备根据所述第一信息和第二信息来构建特定于帧50的映射表面。例如,特定映射表面由(用于子帧51的)平面、(用于过渡部分53的)椭圆形部分和(用于等距长方部分52的)部分球体部分组成。帧50被映射在特定映射表面上,沉浸式视频呈现设备的常规投影函数自动地剪裁掉被调适到与设备相关联的至少一个屏幕的沉浸式内容的部分。
在特定实施例中,在分开的同步的流中对帧50以及第一信息和第二信息进行编码。
图8说明利用立方体映射为克服感兴趣区中的不希望有的不连续性所准备的向后兼容的帧的示例布局80。在该示例中,调适3D表面的每个面的布局、尺寸和比率。出于与图5和6的示例等距长方布局同样的原因,准备子帧81以便可由传统视频呈现设备直接地解码。示例布局80是给定尺寸的矩形帧,例如,720X 576像素(PAL清晰度)、720X 480(NTSC清晰度)、1280X 720(HD1清晰度)、1920x 1080像素(HD2清晰度),或4096X 2160(4K)。立方体的六个面构成布局的三个(3)部分:矩形映射部分81、沉浸式映射部分82和过渡映射区域83。
部分81对应于例如根据透视投影而捕获的并且根据矩形映射而编码的源沉浸式内容的感兴趣区。感兴趣区占据立方体的一个面。子帧51的尺寸是给定清晰度,例如,如果帧80是4K帧,则该给定清晰度是1920X 1080像素。此类标准尺寸具有在没有在先修改的情况下被现有传统视频呈现设备解码和呈现的优点。然而,由于它们是矩形的(并且不是方形的),因此必须调适映射布局中的立方体的其他面的尺寸。在图8的示例上,部分81被看作正面(按照惯例)并且占据帧80的宽度的一半和其高度的一半。顶面、底面和背面保持方形形状。左面和右面例如是小于底面的矩形。在沉浸式立方体映射中,立方体的每个面水平视场(其是360°)接收九十度(90°)以及垂直视场的九十度。在图8的向后兼容的布局的示例中,正面的fov对应于感兴趣区的fov。如果该fov小于90°则左面、右面、顶面和底面在用于左面和右面的较小的区域上对超过90°的fov进行编码。因此,在分布于所述四个面上的过渡区域83中将像素进行“压缩”。帧80的剩余部分用于根据立方体映射对沉浸式帧进行编码。
在用于图5的布局的、在图7中描绘的流中对利用图8的布局准备的向后兼容的沉浸式视频进行编码。在流70的有效负荷部分71中对准备的帧进行编码。在有效负荷部分71的报头部分73中和/或在内容的报头部分72中根据相同的变型对包含子帧81的位置和尺寸的第一信息进行编码。第二信息包含:用于准备帧50(在该示例中图8中之一)的映射布局的类型、用于计算子帧81的视场、过渡区域的尺寸和参考方向;过渡区域的位置与映射布局的类型相关。
图9示出被配置为实施关于图10或11描述的方法的装置70的硬件实施例。在该示例中,设备90包括通过地址和数据的总线91(也传送时钟信号)彼此连接的以下元件:
-微处理器92(或CPU),其例如是DSP(或数字信号处理器);
-ROM(只读存储器)类型的非易失性存储器93;
-随机存取存储器或RAM(94);
-用于从应用接收数据以进行传送的I/O接口95;以及
-可以嵌入随机存取存储器的寄存器的图形卡96;
-电源97。
根据示例,电源97在设备外部。在每一个提及的存储器中,在说明书中使用的词〈〈寄存器〉〉可以对应于小容量的区域(一些比特)或对应于非常大的区域(例如,整体程序或大量接收的或解码数据)。ROM 93至少包括程序和参数。ROM 93可以存储算法和指令来执行根据本发明的原理的技术。当被开启时,CPU 92上载RAM中的程序并且执行对应的指令。
RAM 94在寄存器中包括由CPU 92执行的程序,并且在设备90的开启之后将输入数据上载在寄存器中、将方法的不同状态中的中间数据上载在寄存器中,并且将用于方法的执行的其他变量上载在寄存器中。
可以例如在方法或者处理、装置、软件程序、数据流,或信号中实施在本文描述的实施方式。即使仅仅在单个形式的实施方式的上下文中讨论特征(例如,仅仅作为方法或设备来讨论),也可以以其他形式(例如程序)来实施所讨论的特征的实施方式。可以例如在适当的硬件、软件,和固件中实施装置。可以例如在诸如像处理器的装置中实施方法,该装置通常指的是处理设备,例如包括计算机、微处理器、集成电路,或可编程逻辑设备。处理器也可以包括通信设备,诸如像计算机、蜂窝电话、便携式/个人数字助理(“PDA”)、机顶盒和促进最终用户之间的信息的通信的其他设备。
根据如在图10上所说明的生成向后兼容的沉浸式视频流的示例,从源获取源沉浸式视频和表示源沉浸式视频的感兴趣区的数据。例如,源属于包括以下的集合:
-局部存储器(93、94或96)——例如视频存储器或RAM(或随机存取存储器)、闪速存储器、ROM(或只读存储器)、硬盘;
-存贮接口(95),例如与大容量存储器、RAM、闪速存储器、ROM、光盘或磁性支持的接口;以及
-通信接口(95),例如有线线路接口(例如,总线接口、广域网络接口、局域网接口)或无线接口(诸如IEEE 802.11接口或
Figure BDA0001301928680000131
接口)。
根据一个特定实施例,实施生成向后兼容的沉浸式视频流的方法的步骤并且此后在图10中描述的算法被存储在与实施这些步骤的设备90相关联的图形卡96的存储器GRAM中。根据变型,由CPU(92)指配RAM(94)的一部分以用于存储算法。这些步骤导致生成视频流,该视频流将被发送给属于包括例如视频存储器(94)、RAM(94)、ROM(93)、闪速存储器(93)或者硬盘(93)的局部存储器,例如与大容量存贮器、RAM、ROM、闪速存储器、光盘或者磁性支持的接口的存贮接口(95)的集合的目的地和/或从例如与点到点链路、总线、点到多点链路或者广播网的接口的通信接口(95)被接收。
根据示例,被配置为实施关于图10描述的生成向后兼容的沉浸式视频流的方法的设备90属于包括以下的集合:
-移动设备;
-通信设备;
-游戏设备;
-平板机(或平板式计算机);
-膝上计算机;
-编码芯片;
-静止画面服务器;以及
-视频服务器(例如广播服务器、电视点播服务器或web服务器)。
根据从向后兼容的沉浸式视频流构成视频的示例,从源获取表示向后兼容的沉浸式视频的流。示例性地,从例如视频存储器(94)、RAM(94)、ROM(73)、闪速存储器(93)或硬盘(93)的局部存储器读取流。在一种变型中,从例如与大容量存贮器、RAM、ROM、闪速存储器、光盘或者磁性支持的接口的存贮接口(95)接收到和/或从例如与点到点链路、总线、点到多点链路或者广播网的接口的通信接口(95)接收到流。
根据一个特定实施例,实施用于呈现设备的从向后兼容的沉浸式视频流构成视频的方法的步骤并且此后在图11中描述的算法被存储在与实施这些步骤的设备90相关联的图形卡96的存储器GRAM中。根据变型,由CPU(92)指配RAM(94)的一部分以用于存储算法。这些步骤导致构成视频,该视频将被发送给属于包括以下的集合的目的地:
-移动设备;
-通信设备;
-游戏设备;
-机顶盒;
-电视机;
-平板机(或平板式计算机);
-膝上计算机;
-显示器,和
-解码芯片。
图10用图解法示出如在处理设备(诸如,根据非限制性有利实施例的设备90)中实施的生成向后兼容的沉浸式视频流的方法100的实施例。
在步骤101,从源获取沉浸式视频和表示沉浸式视频的感兴趣区的数据。沉浸式视频包含根据沉浸式映射而编码的帧,所述沉浸式映射例如等距长方映射(如图6的帧60)、立方体映射(如例如图3的帧30)或椎体映射。当生成诸如音轨或元数据之类的向后兼容的沉浸式视频流时,沉浸式视频可以包含在没有修改的情况下使用的其他数据。
在步骤102,选择布局以用于准备向后兼容的帧,例如如图5上的基于等距长方映射的布局,或者如图8之一的基于立方体映射的布局或者基于椎体映射的布局。
步骤103在于构建向后兼容的帧。该步骤包含三个子步骤104、105和106。可以顺序地或并行地执行这三个子步骤。步骤104在于根据矩形映射对帧进行编码。该步骤104对每个布局是共用的,因为其产生向后兼容的帧的部分。根据感兴趣区的描述从沉浸式视频帧确定帧的彩色信息(即,像素)。步骤105和106在于准备在感兴趣区以外的沉浸式视频的部分。布局的沉浸式映射可以不同于沉浸式视频的沉浸式映射。确定过渡区域的尺寸。过渡区域的位置取决于所选择的布局。过渡区域继续向后兼容的帧。在步骤105,确定过渡区域的彩色信息。用于该部分的映射从布局的矩形映射连续地过渡到沉浸式映射。在步骤106,确定沉浸式部分的彩色信息。与沉浸式视频帧的三个部分相对应的三个区域用于根据所选择的布局来构成向后兼容的帧。将对于步骤103的执行所确定的值作为步骤107的输入来传送。这些值是:第一区域的尺寸和位置、布局的类型、第一部分的视场、过渡区域的尺寸,以及映射表面在呈现时的绝对零位置的方向(也被称作参考方向)。
步骤107在于生成向后兼容的沉浸式视频流。流包含向后兼容的视频帧、关于第一区域的尺寸和位置的第一信息,以及包括布局的类型、第一部分的视场、过渡区域的尺寸和参考方向的第二信息。
图11用图解法示出如在处理设备(诸如,根据非限制性有利实施例的设备90)中实施的、用于给定呈现设备的从向后兼容的沉浸式视频流构成视频帧的方法110的实施例。呈现设备是诸如电视机、平板机或智能电话之类的传统视频呈现设备,或诸如被配置为呈现沉浸式视频的洞穴、HMD或者平板机或智能电话之类的沉浸式视频呈现设备。方法的前三个步骤对两种类型的呈现设备是共用的。
在步骤111,从源获取流。由于流是向后兼容的,所以流可以在没有在先修改的情况下通过标准传统视频呈现设备进行解析。在步骤112,获取流的视频帧。根据实施例,在该步骤对帧进行解码。在另一个实施例中,帧的编码数据被访问并且保持编码。这种实施例对于在步骤114将仅仅解码帧的第一区域的传统视频呈现设备是有用的。可以例如通过图块(tile)的使用来实施这种实施例。独立的图块是HEVC的特征,其中专用的补充增强信息(SEI)被保留以用信号通知(signalize)每一块都相对其他块独立地解码的图块的尺寸和位置。在步骤113,从流中解析包括第一区域的尺寸和位置的第一信息。
此时,如果呈现设备是传统视频呈现设备,则与第一区域相对应的帧的部分用于构成要被呈现的帧。由于第一区域是根据矩形映射进行编码的,因此传统视频呈现设备可以在没有在先修改的情况下呈现该第一区域。根据实施例,根据第一信息裁剪帧以便仅仅保留第一区域。根据另一个实施例,通过使用例如图块特征来对仅仅第一区域的部分进行解码。
如果呈现设备是沉浸式视频呈现设备,则在步骤115从流解析第二信息。在步骤116,除第一信息之外,还使用该第二信息来构建映射的表面。根据实施例,选择映射表面,例如球体、立方体或者椎体。该映射表面例如是与纹理坐标相关联的网格。计算这些纹理坐标以便匹配于输入帧。在一种变型中,网格的顶点被移位以便使它们的位置匹配于它们的纹理坐标地址在输入帧中的位置。在另一个变型中,计算中间帧以便使帧与映射表面的纹理坐标相匹配。
步骤117在于从放置在映射的表面的中心的虚拟照相机捕获要被呈现的视频。这是沉浸式视频呈现设备的常规步骤。至少一个虚拟照相机被放置在映射的表面的中心并且捕获意图要被传送到投影设备的帧。对于头戴式设备,投影设备是设备的屏幕。对于洞穴;每一个投光器是投影设备。
当然,本公开不局限于先前描述的实施例。
具体地,本公开不局限于处理沉浸式视频内容的方法,而且也扩展到显示处理的视频帧的任何方法以及扩展到实施该显示方法的任何设备。生成帧和流所必要的计算的实施方式不受限于着色器类型微程序中的实施方式任一,而且也扩展到任何程序类型的实施方式,例如,能够由CPU类型微处理器执行的程序。本公开的方法的使用不局限于现场利用,而且也扩展到任何其他的利用,例如用于录音室中的被称为后期制作处理的处理。
可以例如在方法或者处理、装置、软件程序、数据流,或信号中实施在本文描述的实施方式。即使仅仅在单个形式的实施方式的上下文中讨论特征(例如,仅仅作为方法或设备来讨论),也可以以其他形式(例如程序)来实施所讨论的特征的实施方式。可以例如在适当的硬件、软件,和固件中实施装置。可以例如在诸如像处理器的装置中实施方法,该装置通常指的是处理设备,例如包括计算机、微处理器、集成电路,或可编程逻辑设备。处理器也可以包括通信设备,诸如像智能电话、平板机、计算机、移动式电话、便携式/个人数字助理(“PDA”)和促进最终用户之间的信息的通信的其他设备。
可以在各种不同的装备或应用——具体地,例如与数据编码、数据解码、视图生成、纹理处理相关联的装备或应用以及图像和有关纹理信息和/或深度信息的其他处理中体现在本文描述的各个处理和特征的实施方式。此类装备的示例包括编码器、解码器、处理来自解码器的输出的后处理器、向编码器提供输入的预处理器、视频编码器、视频解码器、视频编解码器、web服务器、机顶盒、膝上计算机、个人计算机、蜂窝电话、PDA、和其他通信设备。应当清楚的是,装备可以是移动的并且甚至被安装在移动的车辆中。
另外地,可以通过由处理器执行的指令来实施方法,并且可以将这样的指令(和/或通过实施方式所产生的数据值)存储在诸如像集成电路、软件载体的处理器可读介质或者诸如像硬盘、压缩盘(“CD”)、光盘(诸如像DVD,往往被称为数字化通用磁盘或者数字视盘)、随机存取存储器(“RAM”),或只读存储器(“ROM”)的其他存贮设备上。指令可以形成有形地体现在处理器可读介质上的应用程序。指令例如可以是位于硬件、固件、软件,或组合中。例如可以在操作***、单独的应用,或两者的组合中找到指令。因此,处理器的特征可以在于例如被配置为执行处理的设备和包括具有用于处理的指令的处理器可读介质(诸如存贮设备)的设备两者。进一步,除指令外或者代替其,处理器可读介质可以存储通过实施方式所产生的数据值。
如将对本领域技术人员明显的是,实施方式可以产生被格式化以承载(例如可以存储或传送)信息的各种信号。信息例如可以包括执行方法的指令,或者通过描述的实施方式之一所产生的数据。例如,可以格式化信号以承载用于写入或读取所描述的实施例的语法的规则作为数据,或者承载通过所描述的实施例写入的实际语法值作为数据。可以例如将这样的信号格式化为电磁波(例如,使用频谱的射频部分)或格式化为基带信号。格式化例如可以包括对数据流进行编码并且利用编码数据流来调制载体。信号承载的信息例如可以是模拟或数字信息。如已知的,可以通过各种不同的有线或无线链路来传送信号。可以将信号存储在处理器可读介质上。
已经描述了许多实施方式。尽管如此,将理解的是,可用进行各种修改。例如,可以将不同的实施方式的要素组合、补充、修改,或者移除以产生其他实施方式。另外地,本领域普通技术人员将理解,其他结构和处理可以用于代替所公开的那些,并且结果得到的实施方式将以至少基本上相同的方式来执行至少基本上相同的功能,以便实现与所公开的实施方式至少基本上相同的结果。因此,通过本申请预计到这些和其他实施方式。

Claims (14)

1.一种从视频流构成(110)用于呈现设备的视频帧的方法,该方法包括:
从视频流获取(113)第一信息,所述第一信息表示从视频流获取的源视频帧中的第一区域的尺寸和位置,所述第一区域是矩形;
-在呈现设备是沉浸式视频呈现设备的情况下:
从视频流获取(115)第二信息,所述第二信息表示映射布局的类型、所述第一区域的视场、第二区域的尺寸以及参考方向;
通过使用第一信息和第二信息根据从矩形映射到沉浸式映射的映射转换来解码第二区域;
通过使用第一信息和第二信息根据所述沉浸式映射来解码源视频帧的第三区域;
利用解码的第一区域、第二区域和第三区域来构成(117)视频帧;
-在其它情况下,利用所述第一区域来构成(114)所述视频帧。
2.根据权利要求1所述的方法,其中,所述映射布局基于沉浸式映射,所述沉浸式映射属于包括以下的一组沉浸式映射:等距长方映射、立方体映射和椎体映射。
3.根据权利要求1或2所述的方法,其中,通过一致性窗口参数来承载第一信息,并且其中,通过补充增强信息(SEI)来承载第二信息。
4.一种被配置为从视频流构成用于呈现设备的视频帧的装置(90),该装置包括:
用于从视频流获取第一信息的部件,所述第一信息表示从视频流获取的源视频帧中的第一区域的尺寸和位置,所述第一区域是矩形;
-在呈现设备是沉浸式视频呈现设备的情况下:
用于从视频流获取第二信息的部件,所述第二信息表示映射布局的类型、所述第一区域的视场、第二区域的尺寸以及参考方向,
被配置为通过使用第一信息和第二信息根据从矩形映射到沉浸式映射的映射转换来解码第二区域,并且通过使用第一信息和第二信息根据所述沉浸式映射来解码源视频帧的第三区域的处理器,
被配置为利用解码的第一区域、第二区域和第三区域构成视频帧的处理器;
-在其它情况下,被配置为利用源视频帧的所述第一区域构成所述视频帧的处理器。
5.根据权利要求4所述的装置,其中,所述映射布局基于沉浸式映射,所述沉浸式映射属于包括以下的一组沉浸式映射:等距长方映射、立方体映射和椎体映射。
6.根据权利要求4或5所述的装置,其中,通过一致性窗口参数来承载第一信息,并且其中,通过补充增强信息(SEI)来承载第二信息。
7.根据权利要求4或5所述的装置,所述装置属于包括以下的一组装置:移动设备、通信设备、游戏设备、平板式计算机、膝上计算机、编码芯片、静止画面服务器、视频服务器、广播服务器、视频点播服务器和web服务器。
8.一种从沉浸式视频生成(100)视频流的方法,该方法包括:
根据矩形映射对沉浸式视频帧的第一部分(104)进行编码;
根据从所述矩形映射到沉浸式映射的映射转换对沉浸式视频帧的第二部分(105)进行编码;
根据所述沉浸式映射对沉浸式视频帧的第三部分(106)进行编码;
根据包括所述第一部分作为第一区域、所述第二部分作为第二区域和所述第三部分作为第三区域的映射布局来构成视频帧(103),所述第一区域是矩形;
生成视频流(107),该视频流(107)包括:所构成的视频帧,包括所述第一区域的尺寸和位置的第一信息,以及至少包含所述映射布局的类型、所述第一部分的视场、第二区域的尺寸和参考方向的第二信息。
9.根据权利要求8所述的方法,其中,所述映射布局基于沉浸式映射,所述沉浸式映射属于包括以下的一组沉浸式映射:等距长方映射、立方体映射和椎体映射。
10.根据权利要求8或9所述的方法,其中,通过一致性窗口参数来承载第一信息,并且其中,通过补充增强信息(SEI)来承载第二信息。
11.一种被配置为从沉浸式视频生成视频流的装置(90),所述装置包括:
被配置为根据矩形映射对沉浸式视频帧的第一部分进行编码的编码器;
被配置为根据从所述矩形映射到沉浸式映射的映射转换对沉浸式视频帧的第二部分进行编码的编码器;
被配置为根据所述沉浸式映射对沉浸式视频帧的第三部分进行编码的编码器;
被配置为根据包括所述第一部分作为第一区域、所述第二部分作为第二区域和所述第三部分作为第三区域的映射布局来构成视频帧的处理器,所述第一区域是矩形;
被配置为生成视频流的视频流生成器,该视频流包括:所构成的视频帧,包括所述第一区域的尺寸和位置的第一信息,以及至少包含所述映射布局的类型、所述第一部分的视场、第二区域的尺寸和参考方向的第二信息。
12.根据权利要求11所述的装置,其中,所述映射布局基于沉浸式映射,所述沉浸式映射属于包括以下的一组沉浸式映射:等距长方映射、立方体映射和椎体映射。
13.根据权利要求11或12所述的装置,其中,通过一致性窗口参数来承载第一信息,并且其中,通过补充增强信息(SEI)来承载第二信息。
14.一种存储有程序指令的处理器可读存储介质,在所述程序指令由处理器执行时,使得所述处理器执行根据权利要求1-3以及8-10任一项所述的方法。
CN201710367388.2A 2016-05-23 2017-05-23 对沉浸式视频进行格式化的方法、装置和流 Active CN107454468B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP16305592.4A EP3249928A1 (en) 2016-05-23 2016-05-23 Method, apparatus and stream of formatting an immersive video for legacy and immersive rendering devices
EP16305592.4 2016-05-23

Publications (2)

Publication Number Publication Date
CN107454468A CN107454468A (zh) 2017-12-08
CN107454468B true CN107454468B (zh) 2021-09-14

Family

ID=56101403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710367388.2A Active CN107454468B (zh) 2016-05-23 2017-05-23 对沉浸式视频进行格式化的方法、装置和流

Country Status (9)

Country Link
US (1) US10523980B2 (zh)
EP (2) EP3249928A1 (zh)
JP (1) JP7017866B2 (zh)
KR (1) KR102307819B1 (zh)
CN (1) CN107454468B (zh)
BR (1) BR102017010791A2 (zh)
CA (1) CA2967418A1 (zh)
MX (1) MX2017006677A (zh)
RU (1) RU2742344C2 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7127539B2 (ja) * 2016-08-05 2022-08-30 ソニーグループ株式会社 画像処理装置および画像処理方法
US10818087B2 (en) 2017-10-02 2020-10-27 At&T Intellectual Property I, L.P. Selective streaming of immersive video based on field-of-view prediction
WO2019194572A1 (en) * 2018-04-03 2019-10-10 Samsung Electronics Co., Ltd. Methods and apparatus for determining adjustment parameter during encoding of spherical multimedia content
CN110516681A (zh) * 2018-05-21 2019-11-29 孙民 影像特征提取方法及其显著物体预测方法
EP3595319A1 (en) * 2018-07-12 2020-01-15 InterDigital VC Holdings, Inc. Methods and apparatus for volumetric video transport
CN110944109B (zh) * 2018-09-21 2022-01-14 华为技术有限公司 一种拍照方法、装置与设备
WO2020097212A1 (en) * 2018-11-06 2020-05-14 Lucasfilm Entertainment Company Ltd. Immersive content production system
CN111198734B (zh) * 2018-11-20 2024-03-15 西安诺瓦星云科技股份有限公司 窗口设置方法和装置、电子设备和非易失性存储介质
HUE062613T2 (hu) * 2019-01-09 2023-11-28 Huawei Tech Co Ltd Az alkép pozíciójára vonatkozó korlátozások a videokódolásban
EP3761647A1 (en) 2019-07-05 2021-01-06 Tiledmedia B.V. Methods and devices for rendering a video on a display
CN116419000A (zh) * 2019-07-08 2023-07-11 华为技术有限公司 用于视频译码中的参考图像重采样的多个图像大小和符合性窗口的处理
EP4018655A4 (en) * 2019-08-19 2022-08-24 Telefonaktiebolaget Lm Ericsson (Publ) MULTIMEDIA DATA FLOW MANAGEMENT METHODS AND DEVICES
CN110910485B (zh) * 2019-12-16 2023-07-25 山东东艺数字科技有限公司 一种沉浸式cave影像制作方法
US11991376B2 (en) * 2020-04-09 2024-05-21 Intel Corporation Switchable scalable and multiple description immersive video codec
CN111729283B (zh) * 2020-06-19 2021-07-06 杭州赛鲁班网络科技有限公司 一种基于混合现实技术的训练***及其方法
US11978154B2 (en) 2021-04-23 2024-05-07 Lucasfilm Entertainment Company Ltd. System and techniques for lighting adjustment for an immersive content production system
US11887251B2 (en) 2021-04-23 2024-01-30 Lucasfilm Entertainment Company Ltd. System and techniques for patch color correction for an immersive content production system
WO2023070387A1 (zh) * 2021-10-27 2023-05-04 深圳市大疆创新科技有限公司 一种图像处理方法、装置、拍摄设备及可移动平台

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945563A (zh) * 2012-09-26 2013-02-27 天津游奕科技有限公司 一种全景视频的展示与交互***及方法
CN103777455A (zh) * 2014-02-25 2014-05-07 浙江大学 基于光场拼接的球形沉浸式三维显示方法及***
CN104685858A (zh) * 2012-09-28 2015-06-03 阿尔卡特朗讯 沉浸式视频会议方法和***
WO2015197818A1 (en) * 2014-06-27 2015-12-30 Koninklijke Kpn N.V. Hevc-tiled video streaming

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6249616B1 (en) * 1997-05-30 2001-06-19 Enroute, Inc Combining digital images based on three-dimensional relationships between source image data sets
AU2001272006A1 (en) 2000-06-09 2001-12-17 Interactive Imaging Systems, Inc. A method and apparatus for mapping images and video to create navigable, immersive video and images
US7308131B2 (en) 2002-12-03 2007-12-11 Ntt Docomo, Inc. Representation and coding of panoramic and omnidirectional images
JP2005347813A (ja) * 2004-05-31 2005-12-15 Olympus Corp 画像変換方法および画像変換装置、並びにマルチプロジェクションシステム
JP2010530086A (ja) * 2006-12-19 2010-09-02 創太 清水 イメージングモデル及び画像処理装置
US8730130B1 (en) * 2008-12-04 2014-05-20 RPA Electronic Solutions, Inc. System and method for automatically aligning immersive displays
JP2010192971A (ja) 2009-02-16 2010-09-02 Nippon Telegr & Teleph Corp <Ntt> 選択領域符号化映像データ配信方法、符号化映像データ復号方法、配信サーバ、再生端末、プログラムおよび記録媒体
US10440329B2 (en) * 2009-05-22 2019-10-08 Immersive Media Company Hybrid media viewing application including a region of interest within a wide field of view
IT1399417B1 (it) 2010-04-12 2013-04-16 Sisvel Technology Srl Metodo per la generazione e ricostruzione di un flusso video stereoscopico compatibile e relativi dispositivi di codifica e decodifica.
US9167289B2 (en) 2010-09-02 2015-10-20 Verizon Patent And Licensing Inc. Perspective display systems and methods
US8908103B2 (en) * 2010-10-01 2014-12-09 Sony Corporation Content supplying apparatus, content supplying method, content reproduction apparatus, content reproduction method, program and content viewing system
US9397338B2 (en) * 2010-12-22 2016-07-19 Enevate Corporation Electrodes, electrochemical cells, and methods of forming electrodes and electrochemical cells
JP5790345B2 (ja) 2011-09-07 2015-10-07 株式会社リコー 画像処理装置、画像処理方法、プログラムおよび画像処理システム
EP2645713A1 (en) 2012-03-30 2013-10-02 Alcatel Lucent Method and apparatus for encoding a selected spatial portion of a video stream
CN104350745B (zh) 2012-07-04 2018-12-11 英特尔公司 基于全景的3d视频译码
FR3004881B1 (fr) * 2013-04-19 2015-04-17 Kolor Procede de generation d'un flux video de sortie a partir d'un flux video large champ
US9908048B2 (en) 2013-06-08 2018-03-06 Sony Interactive Entertainment Inc. Systems and methods for transitioning between transparent mode and non-transparent mode in a head mounted display
CN109862373B (zh) * 2013-07-15 2021-10-15 索尼公司 用于对比特流进行编码的方法和装置
US10764655B2 (en) * 2014-04-03 2020-09-01 Nbcuniversal Media, Llc Main and immersive video coordination system and method
US9641851B2 (en) * 2014-04-18 2017-05-02 Qualcomm Incorporated Conformance window information in multi-layer coding
US10204658B2 (en) * 2014-07-14 2019-02-12 Sony Interactive Entertainment Inc. System and method for use in playing back panorama video content
JP6501904B2 (ja) * 2015-05-27 2019-04-17 グーグル エルエルシー 球面ビデオのストリーミング
US10043237B2 (en) * 2015-08-12 2018-08-07 Gopro, Inc. Equatorial stitching of hemispherical images in a spherical image capture system
US10491711B2 (en) * 2015-09-10 2019-11-26 EEVO, Inc. Adaptive streaming of virtual reality data
CA3013657C (en) * 2016-02-09 2022-09-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for picture/video data streams allowing efficient reducibility or efficient random access
US10334224B2 (en) * 2016-02-19 2019-06-25 Alcacruz Inc. Systems and method for GPU based virtual reality video streaming server
EP3223524A1 (en) * 2016-03-22 2017-09-27 Thomson Licensing Method, apparatus and stream of formatting an immersive video for legacy and immersive rendering devices

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945563A (zh) * 2012-09-26 2013-02-27 天津游奕科技有限公司 一种全景视频的展示与交互***及方法
CN104685858A (zh) * 2012-09-28 2015-06-03 阿尔卡特朗讯 沉浸式视频会议方法和***
CN103777455A (zh) * 2014-02-25 2014-05-07 浙江大学 基于光场拼接的球形沉浸式三维显示方法及***
WO2015197818A1 (en) * 2014-06-27 2015-12-30 Koninklijke Kpn N.V. Hevc-tiled video streaming

Also Published As

Publication number Publication date
EP3249928A1 (en) 2017-11-29
CN107454468A (zh) 2017-12-08
KR20170132098A (ko) 2017-12-01
KR102307819B1 (ko) 2021-10-05
RU2742344C2 (ru) 2021-02-04
MX2017006677A (es) 2018-08-28
US10523980B2 (en) 2019-12-31
JP7017866B2 (ja) 2022-02-09
JP2018033123A (ja) 2018-03-01
US20170339440A1 (en) 2017-11-23
BR102017010791A2 (pt) 2017-12-05
EP3249930A1 (en) 2017-11-29
RU2017115882A3 (zh) 2020-08-26
CA2967418A1 (en) 2017-11-23
RU2017115882A (ru) 2018-11-06
EP3249930B1 (en) 2020-09-09

Similar Documents

Publication Publication Date Title
CN107454468B (zh) 对沉浸式视频进行格式化的方法、装置和流
CN111034201B (zh) 编码和解码体积视频的方法、设备和流
CN111279705B (zh) 用于编码和解码体积视频的方法、设备和流
KR102600011B1 (ko) 3 자유도 및 볼류메트릭 호환 가능한 비디오 스트림을 인코딩 및 디코딩하기 위한 방법들 및 디바이스들
CN110383842B (zh) 一种视频处理方法和装置
KR20200065076A (ko) 볼류메트릭 비디오 포맷을 위한 방법, 장치 및 스트림
CN112189345B (zh) 用于编码或解码表示3d场景的数据的方法、设备或介质
JP7177034B2 (ja) レガシー及び没入型レンダリングデバイスのために没入型ビデオをフォーマットする方法、装置、及びストリーム
CN113906761A (zh) 利用修补补片对3d场景进行编码和渲染的方法和装置
KR20220069086A (ko) 볼류메트릭 비디오를 인코딩, 송신 및 디코딩하기 위한 방법 및 장치
KR20200108882A (ko) 3차원 장면들을 데이터 스트림에 인코딩하고 그로부터 디코딩하기 위한 방법 및 장치
CN114945946A (zh) 具有辅助性分块的体积视频
KR102607709B1 (ko) 3 자유도 및 볼류메트릭 호환 가능한 비디오 스트림을 인코딩 및 디코딩하기 위한 방법들 및 디바이스들
US20220368879A1 (en) A method and apparatus for encoding, transmitting and decoding volumetric video
WO2022073796A1 (en) A method and apparatus for adapting a volumetric video to client devices
WO2020185529A1 (en) A method and apparatus for encoding and decoding volumetric video
US20230224501A1 (en) Different atlas packings for volumetric video
JP2022551064A (ja) 容積ビデオを符号化、送信、及び復号化するための方法及び装置
CN116235497A (zh) 一种用于用信号通知基于多平面图像的体积视频的深度的方法和装置
CN114503554A (zh) 用于传送体积视频内容的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20190924

Address after: Delaware, USA

Applicant after: Interactive Digital VC Holding Company

Address before: Icelemulino, France

Applicant before: Thomson Licensing Company

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant