CN112533005B - 一种vr视频慢直播的交互方法及*** - Google Patents

一种vr视频慢直播的交互方法及*** Download PDF

Info

Publication number
CN112533005B
CN112533005B CN202011012713.1A CN202011012713A CN112533005B CN 112533005 B CN112533005 B CN 112533005B CN 202011012713 A CN202011012713 A CN 202011012713A CN 112533005 B CN112533005 B CN 112533005B
Authority
CN
China
Prior art keywords
video
stream
live
slow
slow live
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011012713.1A
Other languages
English (en)
Other versions
CN112533005A (zh
Inventor
刘睿
李涌泉
胡勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AVIT Ltd
Original Assignee
AVIT Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AVIT Ltd filed Critical AVIT Ltd
Priority to CN202011012713.1A priority Critical patent/CN112533005B/zh
Publication of CN112533005A publication Critical patent/CN112533005A/zh
Application granted granted Critical
Publication of CN112533005B publication Critical patent/CN112533005B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440218Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by transcoding between formats or standards, e.g. from MPEG-2 to MPEG-4
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4858End-user interface for client configuration for modifying screen layout parameters, e.g. fonts, size of the windows
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开一种VR视频慢直播的交互方法及***,该方法包括:获取VR视频慢直播流,预处理后进行视频直播;接收用户在视频直播过程中通过VR交互设备发出的交互请求并应答;该步骤具体包括:用户在视频直播过程中通过VR交互设备发出放大特定区域请求;获取该特定区域的信息并进行融合解码后,基于该特定区域的视角中心进行放大式的渲染显示。针对慢直播这种新的直播形态,本发明通过VR视频的方式,让观众感受到360度全方位的业务场景,并针对长时间观看的兴趣淡化,引入互动手段,观众可选择自己感兴趣的视角区域,进行放大,观看超高清的画面细节,放大倍数可调节,信息量大、交互感强、显示效果优,显著提升用户体验,增进用户观看的使用粘度。

Description

一种VR视频慢直播的交互方法及***
技术领域
本发明属于虚拟现实技术领域,具体涉及一种VR视频慢直播的交互方法及***,观众可基于该方法及***互动式、细节化地体验慢直播的VR视频场景。
背景技术
慢直播为无人值守的全天不间断实景直播,是一个相对于过去直播生态不同的概念。与传统的包含镜头切换剪辑、主持人阐述和受众互动等要素的直播形式相比,慢直播最显著的特点在于其没有任何干扰,观众以第三者的身份观看真实的、客观的事件进程,且具备陪伴性,强烈的代入感和对未知的好奇心,能促使观众对某一事件保持持续的关注。
VR视频是一个包含了360°x180°全方位视角信息的球面视频,允许观众在观看时改变视角,选择感兴趣区域进行观看。以VR视频的媒介方式进行慢直播,一方面可以有效的扩展直播场景的视角范围,做到无死角观看,另一方面更具沉浸感,观众仿佛身临其境,有效加持慢直播业务的观看效果。
由于VR视频覆盖全方位视角,因此需要更高的分辨率(8K及以上)以保证其清晰度和沉浸感。将VR视频划分Tile并结合MPEG-DASH自适应多速率的特点实现自适应流传输,可以有效解决VR视频超高分辨率、超高码率带来的网络传输和终端解码问题。通过动态传输视角区域对应的一组合适Tile流,允许用户以交互方式浏览视频,从而随时选择感兴趣的部分进行观看。
现有的VR慢直播只是给观众呈现一个单调的视频场景,随着长时间的推移,观众必然会觉得乏味,失去兴趣。所以,及时画面互动的加入可以很好的弥补了这一缺憾,使得观众具备强烈的参与感,从而激发观众的长期关注。
发明内容
在下文中给出了关于本发明实施例的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,以下概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本申请针对现有技术中的上述问题,提供了一种VR视频慢直播的交互方法及***,其在VR视频慢直播观看过程中,观众可选择自己感兴趣的视点区域并进行放大,观看该区域的高清细节,由此有效提升用户在慢直播业务场景中的互动性和参与度。
根据本申请的一个方面,提供一种VR视频慢直播的交互方法,包括:
获取VR视频慢直播流,预处理后进行视频直播;
接收用户在视频直播过程中通过VR交互设备发出的交互请求并应答;该步骤具体包括:用户在视频直播过程中通过VR交互设备发出放大特定区域请求;获取该特定区域的信息并进行融合解码后,基于该特定区域的视角中心进行放大式的渲染显示。其中,VR交互设备可以是头显一体机按键,或者遥控等等。
作为一个优选的方案,获取VR视频慢直播流,预处理后进行视频直播,具体包括:获取VR视频慢直播流,并对VR视频慢直播流进行视频缓存和视频下采样,然后对视频缓存和视频下采样后的视频进行视频分块和视频二次分发。
其中,所述视频缓存是预先设定视频缓存的时间进行缓存,并存储为两份VR视频慢直播流;所述视频下采样是将缓存的一份VR视频慢直播流降低分辨率形成基础全视角码流;所述视频分块是将缓存的另一份VR视频慢直播流进行Tile视频块切分,并基于MPEGMCTS约束进行分块编码;所述视频二次分发是:将Tile视频块切分后的VR视频慢直播流以及下采样后的基础全视角码流,基于通用流分发协议再次进行推流传输。
实时获取用户在视频直播过程中通过VR交互设备发出的特定区域的位置信息(兴趣区域的位置及方向信息)以及放大请求(例如放大倍数等放大控制信息);对基础全视角码流进行解码,并将解码后的图像形成全视角纹理对象;对分块后的VR视频慢直播流进行解码,并将解码后的图像作为纹理对象;由OpenGL进行渲染,在顶点着色器阶段确认视窗上的圆形放大区域,在片元着色器阶段,将基础全视角码流解码后的全视角纹理对象贴图到全球面,将分块后的VR视频慢直播流解码后的纹理对象进行坐标变换后,采样贴图到圆形放大区域。
其中,基础全视角码流不做分块处理,高清的VR视频慢直播流按一定的算法进行分块,并基于MPEG MCTS约束进行分块编码,各分块从左到右、从上到下的顺序进行线性编号。分块后的VR视频慢直播流(超高清视频Tile流),和下采样后的基础全视角码流,基于通用流分发协议(如MPEG DASH)再次进行推流传输。因此,本申请采用同时传输基础流+超高清分块传输流的方案,当需要放大特定区域时,选取超高清分块传输流中的相应视频分块进行处理即可,简单易行。
其中,对于视频缓存,因考虑到慢直播对时延不敏感,可设定视频缓存的时间为5到10分钟,缓存介质为内存或SSD,以供后续视频下采样、分块和二次分发所使用。
对于视频下采样是在保持视频所见视野相同的情况下减少数据量;该步骤中,将缓存的VR视频慢直播流(超高清码流(如64K)),降低分辨率形成基础全视角码流(如8K)。
对于视频分块,是将缓存的VR视频慢直播流(超高清码流),进行Tile视频块切分,基于MPEG MCTS约束进行分块编码。为避免频繁重新初始化用户终端设备的解码器,保证码流融合后的图像分辨率保持一个定值,本方法将VR视频慢直播流划分为一系列分辨率相等的Tile视频块。
进一步的,VR视频慢直播流按照1:2的行列比例划分为一系列分辨率相等的正方形Tile视频块,按从左到右、从上到下的顺序进行线性编号。Tile视频块的分辨率越大数据利用率越低,Tile视频块的分辨率过小则会降低编码性能和压缩效率。设定Tile视频块的边长为tileLength,记VR视频慢直播流的水平和垂直分辨率分别为pixelWidth和pixelHeight,则VR视频慢直播流的水平Tile数目为colNum=pixelWidth/tileLength,垂直Tile视频块的数目为rowNum=pixelHeight/tileLength。
对于视频二次分发是:进行Tile视频块的VR视频慢直播流以及下采样后的基础全视角码流,基于通用流分发协议(如MPEG DASH)再次进行推流传输。
用户在视频直播过程中通过VR交互设备发出放大特定区域请求,获取该特定区域的信息并进行融合解码后,基于该特定区域的视角中心进行放大式的渲染显示,具体包括:实时获取用户在视频直播过程中通过VR交互设备圈出的兴趣区域(例如正圆),使作为纹理的渲染子图像成为兴趣区域的外接正方形,由于ERP投影时,视频帧的纹理图像被强制拉伸至2:1比例,因此在渲染时,需人为拉扯回1:1比例。因ERP强制拉伸和人为拉扯这两者比例相抵,原始视频分块优选设定为正方形。
其中,实时获取用户在视频直播过程中通过VR交互设备圈出的兴趣区域具体是:实时获取用户在视频直播过程中通过VR交互设备圈出的兴趣区域的位置及方向信息。VR交互设备可以由VR头显设备实现,VR头显设备工作在三自由度模式,头显位置与球面模型坐标系的原点重合。头显在坐标系中仅有旋转没有平移,朝向由坐标原点到视点的方向向量进行描述。一般的,头显设备会通过接口实时提供一个4x4的齐次矩阵,包含头显的位置信息和朝向信息:
Figure BDA0002698000620000051
左上角3x3矩阵为旋转矩阵R,可依据R计算头显当前朝向ori:
Figure BDA0002698000620000052
视点为坐标原点沿ori方向射线与球面的交点。由于在ERP投影中,球面上的点投影到平面的位置仅与角度有关,可将ori作为视点坐标使用,记为(x,y,z)。
用户在视频直播过程中通过VR交互设备发出放大特定区域请求,获取该特定区域的信息并进行融合解码后,基于该特定区域的视角中心进行放大式的渲染显示,还包括:设定渲染子图像的边长,根据视点坐标和球面模型,计算兴趣区域的子图像中心点坐标,并计算所有跟超高清视频帧重叠的Tile视频块的编号(记为Tile序号),将这些Tile视频块进行分发传输。
其中设定渲染子图像的边长包括:设置圆形放大区域的FOV为α,在放大倍数等于1的情况下,渲染子图像的边长renderLength为:α/360°*pixelWidth,随着放大倍数的增加,渲染子图像的像素可以降低,为统一处理,保持渲染子图像的分辨率不变。
计算兴趣区域的子图像中心点坐标包括:
首先将视点坐标(x,y,z)转为球坐标(r,φ,θ):
Figure BDA0002698000620000061
然后将球坐标(r,φ,θ)转换为纹理坐标(u,v):
Figure BDA0002698000620000062
最后将纹理坐标转换成像素坐标,得到子图像中心的像素坐标(s,t):
Figure BDA0002698000620000063
定义像素坐标原点为图像左上角点,水平向右是s轴方向,垂直向下是t轴方向。
计算所有跟超高清视频帧重叠的视频块编号包括:
设定目前渲染子图像的位置中,正方形子图像的中心坐标为P(sp,tp),边长为renderLength,计算四个角的坐标,以及落在哪个Tile视频块上。
左上角A点坐标等于中心P点坐标分别减去边长的一半:
Figure BDA0002698000620000071
A点所在Tile的行号row、列号col和序号tileOrderA计算公式为:
Figure BDA0002698000620000072
tileOrderA=row*colNum+col
B、C、D三点所在Tile视频块的序号计算为:
Figure BDA0002698000620000073
Figure BDA0002698000620000074
Figure BDA0002698000620000075
计算四个角点所在的Tile视频块之后,可确定所有发生重叠的Tile视频块的编号即Tile序号,这些即为要加载的Tile视频块,第一行取序号为[tileOrderA,tileOrderB]的Tile视频块,往下每行的Tile序号可以简单由第一行加rowNum得到,直到C点和D点所在的行。
获取该特定区域的信息并进行融合解码后,基于该特定区域的视角中心进行放大式的渲染显示,具体包括:码流融合过程、视频解码过程以及纹理贴图过程。
码流融合过程包括:将加载的若干超清码流Tile视频块拼接成正方形,以备解码,这样VR交互设备只需要一个解码器进行超清码流解码,降低对终端设备的性能要求。
由于渲染子图像在超清视频码流的位置映射存在几种情况,为保证后续解码过程中保持分辨率统一(避免频繁重新初始化解码器),拼接时渲染子图像各边的Tile视频块个数按[renderLength/tileLength]+1进行处理,空出部分(单行或单列或行列)约定由第一个Tile视频块进行填充。
另外,码流融合过程遵循MPEG MCTS码流融合的通用方法,即头信息的修改和码流信息的融合。
视频解码过程包括:同时对超高清Tile视频块码流和基础全视角码流进行解码,两者分别用独立的解码器。超高清Tile视频块码流针对融合后的码流进行解码,将解码后的图像建立成纹理对象。基础全视角码流进行单独解码,将解码后的全视角帧作为纹理对象。
纹理贴图过程包括:获取当前待放大的特定区域信息,放大区域纹理坐标变换以及片元着色等过程。
待放大的特定区域信息的信息是通过VR交互设备(如头显一体机按键,或者遥控等等)获取得到。该信息包含两个属性,属性b_Zoom,表示是否进行区域放大,取值0或1。属性f_ZoomLevel,表示放大倍数,取值是一个连续范围,下限为1,上限的计算方法为:
假设VR交互设备的FOV为β,单眼分辨率为widthDevice x heightDevice,水平方向像素个数为numDevice=α/β*widthDevice,对于超高清码流,numDevice个像素对应的水平视场角FOV大小为γ=numDevice/pixelWidth*360°。放大倍数的上限为α/γ(α为圆形放大区域的FOV)。
观众可以通过VR交互设备将b_Zoom的值在0和1之间翻转,并在b_Zoom等于1时,增减f_ZoomLevel的值。
放大区域纹理坐标变换的计算方法如下:
Figure BDA0002698000620000091
将放大区域顶点当前的纹理坐标(u_cur,v_cur)变换成新的纹理坐标(u,v),此即从纹理对象中采样颜色的坐标。u_cur和v_cur是顶点当前纹理坐标,u0和v0是正方形渲染子图像中心在纹理对象中的纹理坐标。u_viewpoint和v_viewpoint是视点在球面顶点模型中的纹理坐标。
参数normalized用于对圆形放大区域进行拉伸,使其在不放大的情况下是正方形子图像的内接圆,其值设定为:
Figure BDA0002698000620000092
其中θ的值为圆形放大区域视场角的一半,即α/2;
参数f_ZoomLevel为放大控制中的放大倍数信息,实现不同大小的缩放效果。
参数factor是一个校正因子,用来减轻顶点密度变化造成的图像畸变,使用三角函数cosθ,θ是顶点的纬度,定义赤道纬度为0°,两个极点纬度为90°。减缓靠近极点时因球面顶点密度变大造成的图像畸变。
片元着色过程包括:对于基础全视角码流,纹理对象按全坐标采样颜色进行着色即可;对于放大区域,则需按上述方法对纹理坐标进行变换,实现放大效果,再根据纹理坐标从高清层Tile生成的纹理对象中采样颜色。
根据本申请的另一方面,提供一种VR视频慢直播的交互***,包括:
视频预处理单元,用于获取VR视频慢直播流,预处理后进行视频直播;
视频交互计算单元,用于接收用户在视频直播过程中通过VR交互设备发出放大特定区域请求;
视频解码与渲染单元,用于获取该特定区域的信息并进行融合解码后,基于该特定区域的视角中心进行放大式的渲染显示。
本发明的有益效果为:针对慢直播这种新的直播形态,通过VR视频的方式,让观众感受到360度全方位的业务场景,并针对长时间观看的兴趣淡化,引入互动手段,观众可选择自己感兴趣的视角区域,进行放大,观看超高清的画面细节,放大倍数可调节,信息量大、交互感强、显示效果优,显著提升用户体验,增进用户观看的使用粘度。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
图1为本发明的流程示意图;
图2为本发明的渲染子图像比例选择示意图;
图3为本发明的超高清码流分块方法示意图;
图4为本发明的视点坐标与子图像计算示意图;
图5为本发明的子图像坐标示意图;
图6a、6b、6c、6d为本发明的子图像位置映射示例图,其中图6a为子图像覆盖6x6个Tile视频块,图6b为子图像覆盖6x5个Tile视频块,图6c为子图像覆盖5x6个Tile视频块,图6d为子图像覆盖5x5个Tile视频块;
图7为本发明的码流融合填充示意图。
具体实施方式
下面将参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。
实施例1
本实施例提供一种VR视频慢直播的交互***,其包括视频预处理单元、视频交互计算单元和视频解码与渲染单元。VR全景超高清摄像机作为超高清直播源,提供VR视频慢直播流(如64K),经缓存和下采样(如8K)后,采取“超高清分块+基础全视角”的传输方式,常规情况下不间断的传输、解码和渲染基础分辨率全视角的直播流,当用户对直播流中的某个区域感兴趣,想进一步体验画面细节时,可通过头显外设(如头显一体机按键,或者遥控等等),放大兴趣区域,此时按需传输该兴趣区域的若干超高分辨率分块,进行融合解码后,基于兴趣区域的视角中心进行放大式的渲染显示。图1为本实施例中的交互***的流程示意图。
其中,视频预处理单元主要完成视频缓存、视频下采样、视频分块和视频二次分发等功能。
视频缓存,因考虑到慢直播对时延不敏感,可设定视频缓存时间为5到10分钟,缓存介质为内存或SSD,以供后续下采样、分块和二次分发所使用。
视频下采样,是将缓存的超高清码流(如64K),降低分辨率形成基础全视角码流(如8K)。
视频分块,是将缓存的超高清码流,进行Tile块切分,基于MPEG MCTS约束进行分块编码。为避免频繁重新初始化用户终端设备的解码器,保证码流融合后的图像分辨率保持一个定值,本方法将超高清码流划分为一系列分辨率相等的Tile视频块。
用户放大的兴趣区域是一个正圆,效率最高的方式是使作为纹理的渲染子图像成为放大区域的外接正方形,由于ERP投影时,视频帧的纹理图像被强制拉伸至2:1比例,因此在渲染时,需人为拉扯回1:1比例。参见图2,因ERP强制拉伸和人为拉扯这两者比例相抵,原始视频分块可直接设定为正方形。
参见图3,超高清码流,可按照1:2的行列比例,将其划分为若干正方形Tile块,按从左到右、从上到下的顺序进行线性编号。Tile分辨率越大数据利用率越低,Tile分辨率过小则会降低编码性能和压缩效率。设定Tile块的边长为tileLength,记超高清码流的水平和垂直分辨率分别为pixelWidth和pixelHeight,则超高清码流的水平Tile数目为colNum=pixelWidth/tileLength,垂直Tile数目为rowNum=pixelHeight/tileLength。
视频二次分发,是指分块后的超高清视频Tile流,和下采样后的基础全视角码流,基于通用流分发协议(如MPEG DASH)再次进行推流传输。
视频交互计算单元,包含视点位置信息采集,分块选择与码流加载等功能。
视频解码与渲染单元,包括码流融合、视频解码与纹理贴图等功能。
码流融合,是将加载的若干超清码流Tile视频块拼接成正方形,以备解码,这样VR交互设备只需要一个解码器进行超清码流解码,降低对终端设备的性能要求。
参见图6a、图6b、图6c和图6d的子图像位置映射示意图,由于渲染子图像在超清视频码流的位置映射存在几种情况,为保证后续解码过程中保持分辨率统一(避免频繁重新初始化解码器),拼接时渲染子图像各边的Tile个数按[renderLength/tileLength]+1进行处理,空出部分(单行或单列或行列)约定由第一个Tile进行填充,参见图7的码流融合填充示意图。
码流融合的方法遵循MPEG MCTS码流融合的通用方法,即头信息的修改和码流信息的融合。
视频解码,是同时对超高清Tile码流和基础全视角码流进行解码,两者分别用独立的解码器。超高清Tile码流针对融合后的码流进行解码,将解码后的图像建立成纹理对象。基础全视角码流进行单独解码,将解码后的全视角帧作为纹理对象。
纹理贴图,包含获取当前放大控制信息,放大区域纹理坐标变换和片元着色等功能。片元着色阶段是对于基础全视角码流,纹理对象按全坐标采样颜色进行着色即可;对于放大区域,则需按上述方法对纹理坐标进行变换,实现放大效果,再根据纹理坐标从高清层Tile生成的纹理对象中采样颜色。
实施例2
本实施例提供一种VR视频慢直播的交互方法,其包括如下过程:
获取VR视频慢直播流,并对VR视频慢直播流进行视频缓存;缓存的VR视频慢直播流拷贝为两份,分别做以下处理:将一份缓存的VR视频慢直播流进行下采样形成基础全视角码流,将另一份缓存的VR视频慢直播流进行视频分块并进行分块编码;同时传输基础全视角码流和分块后的VR视频慢直播流;
用户在视频直播过程中通过VR交互设备发出放大特定区域请求;获取该特定区域的信息并进行融合解码后,基于该特定区域的视角中心进行放大式的渲染显示,具体是,获取用户在视频直播过程中通过VR交互设备发出的特定区域的位置信息以及放大请求(例如放大倍数),分别对基础全视角码流和分块后的VR视频慢直播流进行解码(可采用不同的解码器同时解码),对基础全视角码流进行解码,并将解码后的图像形成全视角纹理对象;对分块后的VR视频慢直播流进行解码,并将解码后的图像作为纹理对象;由OpenGL进行渲染,在顶点着色器阶段确认视窗上的圆形放大区域,在片元着色器阶段,将基础全视角码流解码后的全视角纹理对象贴图到全球面,将分块后的VR视频慢直播流解码后的纹理对象进行坐标变换后,采样贴图到圆形放大区域。
其中,获取VR视频慢直播流,预处理后进行视频直播,简单来说,即是获取VR视频慢直播流,并对VR视频慢直播流进行视频缓存和视频下采样,然后对视频缓存和视频下采样后的视频进行视频分块和视频二次分发。其中,视频缓存是预先设定视频缓存的时间进行缓存,并将其存储为两份VR视频慢直播流;视频下采样是将缓存的一份VR视频慢直播流降低分辨率形成基础全视角码流;视频分块是将缓存的另一份VR视频慢直播流进行Tile视频块切分,并基于MPEG MCTS约束进行分块编码;视频二次分发是:将Tile视频块切分后的VR视频慢直播流以及下采样后的基础全视角码流,基于通用流分发协议再次进行推流传输。
优选的,将缓存的VR视频慢直播流进行Tile视频块切分具体是将VR视频慢直播流划分为一系列分辨率相等的正方形Tile视频块。
实施例3
以一个64K(61440 x 30720)VR视频慢直播源为例,本实施例的具体步骤为:
视频预处理单元缓存10分钟VR超高清码流至内存中。
视频预处理单元将VR超高清码流(64K,61440x30720)进行分辨率下采样,形成8K基础全视角码流。
基础全视角码流不做分块处理,64K的超高清VR码流,按ERP投影方式划分为24行48列,共计1152个相同分辨率(1280x1280)的分块(Tile),基于MPEG MCTS约束进行分块编码。各分块从左到右、从上到下的顺序进行线性编号。
分块后的超高清视频Tile流,和下采样后的基础全视角码流,基于通用流分发协议(如MPEG DASH)再次进行推流传输。
视频交互计算单元获取到当前视点的位置信息,计算出观众当前视点坐标(x,y,z)。
视频交互计算单元设定圆形放大区域的FOV为36°,则渲染子图像的边长renderLength为6144,根据子图像中心点坐标的计算方法计算得出其坐标(s,t)。
按照图5所示,可根据(s,t)计算四个角的坐标及落在哪个Tile上:
左上角A点坐标为:
Figure BDA0002698000620000161
A点所在Tile的行号和列号,及该Tile的序号为:
Figure BDA0002698000620000162
tileOrderA=row*48+col
类似,B、C、D三点所在Tile的序号计算为:
Figure BDA0002698000620000163
Figure BDA0002698000620000164
Figure BDA0002698000620000165
计算四个角点所在的Tile之后,可确定所有发生重叠的Tile的序号,即要加载的Tile,第一行取序号为[tileOrderA,tileOrderB]的Tile,往下每行的Tile序号可以简单由第一行加48得到,直到C点和D点所在的行。
正方形渲染子图像的分辨率为6144x6144,当该子图像落在原图像范围内时,水平方向和垂直方向都至少与5个Tile发生重叠,最多与6个Tile发生重叠。为保证后续解码、渲染的处理一致,需保证融合后码流的分辨率一致。每次融合、解码后的图像分辨率均比子图像的分辨率大,并将子图像包含其中。渲染时只会用到子图像部分。因此,设定Tile重叠区的边长为6。
视频解码与渲染单元进行码流融合,将这些Tile拼接成6x6的形式以备解码。由于发生重叠的Tile不一定为6x6个,需要重复某个Tile以便拼接成6x6的形式。如图7所示,发生重叠的Tile仅有5x5个,此时可重复编号为1的Tile作为最后一行和最后一列。遵循MPEGMCTS码流融合的通用方法,即头信息的修改和码流信息的融合。
同时对超高清Tile码流和基础全视角码流进行解码,两者分别用独立的解码器。超高清Tile码流针对融合后的码流进行解码,将解码后的图像建立成纹理对象。基础全视角码流进行单独解码,将解码后的全视角帧作为纹理对象。
获取当前放大控制信息,b_Zoom=1,表示开启放大功能,假设头显设备的FOV为120°,单眼分辨率为1920x1080,则水平方向像素个数为36/120*1920=576,对于64K高清层视频而言,576个像素对应水平视场角大小为576/61440*360°=3.38°,因此能够支持36°/3.38°=10.65倍无失真放大。
进行放大区域纹理坐标变换:
Figure BDA0002698000620000171
此时:
normalized=6144/7680/2/(θ/360°)
θ=36°/2,f_ZoomLevel=10.65,factor=cosθ。
渲染由OpenGL完成,根据放大控制逻辑,在顶点着色器阶段确认视窗上的圆形放大区域,在片元着色器阶段,将基本层VR视频解码后的全视角纹理对象贴图到全球面,将高清层融合码流解码后的纹理对象进行坐标变换后,采样贴图到圆形放大区域。
本发明结合“基础流+超高清分块传输流”做了VR画面放大的互动功能,且放大互动功能全部流程的算法处理,创新性的解决了超高清VR视频直播的画面互动性问题,属于首创性发明。虽然现有技术包含码流分块、码流融合、球面渲染,只解决了VR视频按需传播和融合渲染的问题,不包含画面区域的可视互动,也尚未有解决VR视频直播的画面放大的方案,更不用说做到本专利中针对视点中心做超高清码流的选择下载、放大算法设定、放大区域渲染等功能。而在超高清的慢直播场景下,如展览、赛事、文旅等,带有画面互动性,有助于直播体验提升,增加直播场景价值。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以用相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应该理解,上述的所有实施例和示例均是示例性的,而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。

Claims (4)

1.一种VR视频慢直播的交互方法,其特征在于:包括:
获取VR视频慢直播流,预处理后进行视频直播;
接收用户在视频直播过程中通过VR交互设备发出的交互请求并应答;接收用户在视频直播过程中通过VR交互设备发出的交互请求并应答具体包括:用户在视频直播过程中通过VR交互设备发出放大特定区域请求;获取该特定区域的信息并进行融合解码后,基于该特定区域的视角中心进行放大式的渲染显示;
获取VR视频慢直播流,预处理后进行视频直播,具体包括:获取VR视频慢直播流,并对VR视频慢直播流进行视频缓存和视频下采样,然后对视频缓存和视频下采样后的视频进行视频分块和视频二次分发;
所述视频缓存是预先设定视频缓存的时间进行缓存,并存储为两份VR视频慢直播流;所述视频下采样是将缓存的一份VR视频慢直播流降低分辨率形成基础全视角码流;所述视频分块是将缓存的另一份VR视频慢直播流进行Tile视频块切分,并基于MPEG MCTS约束进行分块编码;所述视频二次分发是:将Tile视频块切分后的VR视频慢直播流以及下采样后的基础全视角码流,基于通用流分发协议再次进行推流传输;
用户在视频直播过程中通过VR交互设备发出放大特定区域请求,获取该特定区域的信息并进行融合解码后,基于该特定区域的视角中心进行放大式的渲染显示,具体包括:实时获取用户在视频直播过程中通过VR交互设备发出的特定区域的位置信息以及放大请求;对基础全视角码流进行解码,并将解码后的图像形成全视角纹理对象;对分块后的VR视频慢直播流进行解码,并将解码后的图像作为纹理对象;由OpenGL进行渲染,在顶点着色器阶段确认视窗上的圆形放大区域,在片元着色器阶段,将基础全视角码流解码后的全视角纹理对象贴图到全球面,将分块后的VR视频慢直播流解码后的纹理对象进行坐标变换后,采样贴图到圆形放大区域。
2.根据权利要求1所述的VR视频慢直播的交互方法,其特征在于:将缓存的VR视频慢直播流进行Tile视频块切分具体是将VR视频慢直播流划分为一系列分辨率相等的正方形Tile视频块。
3.一种VR视频慢直播的交互***,其特征在于:包括:
视频预处理单元,用于获取VR视频慢直播流,预处理后进行视频直播;
视频交互计算单元,用于接收用户在视频直播过程中通过VR交互设备发出放大特定区域请求;
视频解码与渲染单元,用于获取该特定区域的信息并进行融合解码后,基于该特定区域的视角中心进行放大式的渲染显示;
视频预处理单元用于执行:获取VR视频慢直播流,并对VR视频慢直播流进行视频缓存和视频下采样,然后对视频缓存和视频下采样后的视频进行视频分块和视频二次分发;
所述视频缓存是预先设定视频缓存的时间进行缓存,并存储为两份VR视频慢直播流;所述视频下采样是将缓存的一份VR视频慢直播流降低分辨率形成基础全视角码流;所述视频分块是将缓存的另一份VR视频慢直播流进行Tile视频块切分,并基于MPEG MCTS约束进行分块编码;所述视频二次分发是:将Tile视频块切分后的VR视频慢直播流以及下采样后的基础全视角码流,基于通用流分发协议再次进行推流传输;
视频交互计算单元用于执行:实时获取用户在视频直播过程中通过VR交互设备发出的特定区域的位置信息以及放大请求;视频解码与渲染单元用于执行:对基础全视角码流进行解码,并将解码后的图像形成全视角纹理对象;对分块后的VR视频慢直播流进行解码,并将解码后的图像作为纹理对象;由OpenGL进行渲染,在顶点着色器阶段确认视窗上的圆形放大区域,在片元着色器阶段,将基础全视角码流解码后的全视角纹理对象贴图到全球面,将分块后的VR视频慢直播流解码后的纹理对象进行坐标变换后,采样贴图到圆形放大区域。
4.根据权利要求3所述的VR视频慢直播的交互***,其特征在于:将缓存的VR视频慢直播流进行Tile视频块切分具体是将VR视频慢直播流划分为一系列分辨率相等的正方形Tile视频块。
CN202011012713.1A 2020-09-24 2020-09-24 一种vr视频慢直播的交互方法及*** Active CN112533005B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011012713.1A CN112533005B (zh) 2020-09-24 2020-09-24 一种vr视频慢直播的交互方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011012713.1A CN112533005B (zh) 2020-09-24 2020-09-24 一种vr视频慢直播的交互方法及***

Publications (2)

Publication Number Publication Date
CN112533005A CN112533005A (zh) 2021-03-19
CN112533005B true CN112533005B (zh) 2022-10-04

Family

ID=74980322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011012713.1A Active CN112533005B (zh) 2020-09-24 2020-09-24 一种vr视频慢直播的交互方法及***

Country Status (1)

Country Link
CN (1) CN112533005B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113905256B (zh) * 2021-12-10 2022-04-12 北京拙河科技有限公司 支持交互式观看的视频数据处理方法、设备及***
CN114786037B (zh) * 2022-03-17 2024-04-12 青岛虚拟现实研究院有限公司 一种面向vr投影的自适应编码压缩方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105828090A (zh) * 2016-03-22 2016-08-03 乐视网信息技术(北京)股份有限公司 全景直播方法及装置
US20170118540A1 (en) * 2014-06-27 2017-04-27 Koninklijke Kpn N.V. Determining A Region Of Interest On The Basis Of A HEVC-Tiled Video Stream
CN108696740A (zh) * 2017-02-14 2018-10-23 深圳梦境视觉智能科技有限公司 一种基于增强现实的直播方法及设备
CN111491207A (zh) * 2020-04-17 2020-08-04 北京三体云联科技有限公司 直播中视频数据处理方法、装置和电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170118540A1 (en) * 2014-06-27 2017-04-27 Koninklijke Kpn N.V. Determining A Region Of Interest On The Basis Of A HEVC-Tiled Video Stream
CN105828090A (zh) * 2016-03-22 2016-08-03 乐视网信息技术(北京)股份有限公司 全景直播方法及装置
CN108696740A (zh) * 2017-02-14 2018-10-23 深圳梦境视觉智能科技有限公司 一种基于增强现实的直播方法及设备
CN111491207A (zh) * 2020-04-17 2020-08-04 北京三体云联科技有限公司 直播中视频数据处理方法、装置和电子设备

Also Published As

Publication number Publication date
CN112533005A (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
CN112204993B (zh) 使用重叠的被分区的分段的自适应全景视频流式传输
CN109983757B (zh) 全景视频回放期间的视图相关操作
CN109983500B (zh) 重新投影全景视频图片的平板投影以通过应用进行渲染
JP2021103327A (ja) コンテンツを提供及び表示するための装置及び方法
US11483475B2 (en) Adaptive panoramic video streaming using composite pictures
CN110868625A (zh) 一种视频播放方法、装置、电子设备及存储介质
US20080168512A1 (en) System and Method to Implement Interactive Video Streaming
CN112533005B (zh) 一种vr视频慢直播的交互方法及***
CN104980697A (zh) 一种网络摄像机视频传输方法
CN110663068B (zh) 用于渲染全景场景的坐标映射
CA3018600C (en) Method, apparatus and stream of formatting an immersive video for legacy and immersive rendering devices
US11270413B2 (en) Playback apparatus and method, and generation apparatus and method
CN111667438A (zh) 视频重建方法、***、设备及计算机可读存储介质
CN112437286A (zh) 一种全景原始画面视频分块传输方法
US20190379910A1 (en) Modified Pseudo-Cylindrical Mapping of Spherical Video Using Linear Interpolation of Empty Areas for Compression of Streamed Images
CN112130667A (zh) 一种超高清vr视频的互动方法和***
CN109792490A (zh) 用于流图像压缩的球面视频的改进的伪圆柱映射
CN115866311A (zh) 用于智能眼镜的虚拟屏幕周边氛围渲染方法
CN117456145A (zh) 视频处理方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant