CN112822564B

CN112822564B - 一种基于视点的全景视频自适应流媒体传输方法及***

Info

Publication number: CN112822564B
Application number: CN202110012477.1A
Authority: CN
Inventors: 望育梅; 刘雨; 胡煜翔
Original assignee: Beijing University of Posts and Telecommunications; Peng Cheng Laboratory
Current assignee: Beijing University of Posts and Telecommunications; Peng Cheng Laboratory
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2023-03-24
Anticipated expiration: 2041-01-06
Also published as: CN112822564A

Abstract

本发明公开了一种基于视点的全景视频自适应流媒体传输方法及***，所述方法包括：服务器端将全景视频在空间上划分成不同的瓦片，将多个瓦片视频编码成全景视频流文件，并对全景视频流文件进行封装和切片处理；客户端依据用户观看全景视频的历史视点信息使用线性回归方法对用户未来观看的视野区域进行预测，并播放预测后的全景视频。本发明根据历史预测偏离的程度对视野区域适当扩大，对视野区域中的瓦片选择高码率，对非视野区域中的瓦片选择低码率，根据网络条件变化，给不同瓦片动态选择不同码率，以提高视野区域内视频清晰度，减小卡顿情况的出现，有效提升用户观看质量。

Description

一种基于视点的全景视频自适应流媒体传输方法及***

技术领域

本发明涉及全景视频技术领域，尤其涉及一种基于视点的全景视频自适应流媒体传输方法及***。

背景技术

全景视频是一种用3D摄像机进行全方位360度进行拍摄的视频，用户在观看视频的时候，可以随意调节视频上下左右进行观看。

全景视频的传输需要大量的带宽，但受现实网络条件限制，用户在线观看全景视频时，由于全景视频数据量很大，如果只保障视频播放流畅而降低视频码率，会导致观看视频质量降低；如果只保障观看视频高质量，则容易引起播放卡顿。现有的一种全景视频传输方式是将视频在空间上分成多个瓦片(Tile)，通过对未来视点的预测，得出在未来可能出现在用户FoV(Field of View，视野区域)中的Tile，并对在FoV中的Tile和不在FoV中的Tile进行差别传输，以此来减少传输中网络资源的浪费。但现有方法对视点预测精确度要求很高，在预测不准确或是网络波动出现时，用户QoE(Quality of Experience，视频质量，或者体验质量)会急剧下降。

因此，现有技术还有待于改进和发展。

发明内容

本发明的主要目的在于提供一种基于视点的全景视频自适应流媒体传输方法及***，旨在解决现有技术中已有的全景视频的传输方式对视点预测精确度要求很高，在预测不准确或是网络波动出现时，用户观看质量急剧下降的问题。

为实现上述目的，本发明提供一种基于视点的全景视频自适应流媒体传输方法，所述基于视点的全景视频自适应流媒体传输方法包括如下步骤：

服务器端将全景视频在空间上划分成不同的瓦片，将多个瓦片视频编码成全景视频流文件，并对全景视频流文件进行封装和切片处理；

客户端依据用户观看全景视频的历史视点信息使用线性回归方法对用户未来观看的视野区域进行预测，并播放预测后的全景视频。

所述的基于视点的全景视频自适应流媒体传输方法，其中，所述服务器端将全景视频在空间上划分成不同的瓦片，将多个瓦片视频编码成全景视频流文件，并对全景视频流文件进行封装和切片处理，具体包括：

所述服务器端将原始全景视频进行瓦片分割，得到多个瓦片视频；

所述服务器端采用预设编码方式将所述多个瓦片视频编码成具有多个码率版本的全景视频流文件；

所述服务器端将所述全景视频流文件进行封装和切片处理，生成预设格式的视频文件和记录视频编码配置的MPD文件。

所述的基于视点的全景视频自适应流媒体传输方法，其中，所述服务器端将原始全景视频进行瓦片分割，得到多个瓦片视频，具体包括：

所述服务器端将所述原始全景视频进行瓦片分割，将所述原始全景视频在空间上分割为32个瓦片视频。

所述的基于视点的全景视频自适应流媒体传输方法，其中，所述服务器端采用预设编码方式将所述多个瓦片视频编码成具有多个码率版本的全景视频流文件，具体包括：

所述服务器端通过利用开源编码器采用HEVC-MCTS编码方式将32个瓦片视频编码成具有多个码率版本的全景视频流文件；

所述全景视频流文件的格式包括.h264格式。

所述的基于视点的全景视频自适应流媒体传输方法，其中，所述服务器端将所述全景视频流文件进行封装和切片处理，生成预设格式的视频文件和记录视频编码配置的MPD文件，具体包括：

所述服务器端通过利用GPAC的视频封装工具MP4Box将所述全景视频流文件封装为MP4视频格式，并在时间上按间隔1秒的长度切片为m4s格式的视频文件；

所述服务器端将得到的m4s格式的视频文件和记录视频编码配置的MPD文件进行存储。

所述的基于视点的全景视频自适应流媒体传输方法，其中，所述客户端依据用户观看全景视频的历史视点信息使用线性回归方法对用户未来观看的视野区域进行预测，并播放预测后的全景视频，具体包括：

所述客户端向所述服务器端发送获取记录视频编码配置的MPD文件的请求，以获取所述记录视频编码配置的MPD文件；

所述客户端通过传感器获取表示用户头部姿态的四元数，所述四元数包括三维空间坐标和角度；

所述客户端通过四元数到欧拉角转换公式将四元数转化为俯仰角和偏航角，并以俯仰角和偏航角组成的坐标表示用户观看全景视频时视野的视点；

所述客户端通过线性回归模型对俯仰角和偏航角进行回归预测，得到未来视点所在的预测位置；

所述客户端计算从当前播放时间起前预设时间所预测的视点俯仰角和偏航角的平均绝对误差；

所述客户端计算视野区域范围，视野区域范围以预测的视点为中心的矩形，在下载时仅下载视野区域所涵盖的瓦片；

所述客户端使用过去预设时间的加权平均吞吐量作为下一时刻吞吐量的预测值，其中时间越早权重越小；

所述客户端使用视野区域中瓦片的平均质量等级、视频空间质量差异和视频时间质量差异的加权和作为目标函数，自适应分配每个瓦片传输的比特率，控制目标函数最大化；

所述客户端将下载的瓦片进行拼接，并投射到用户头戴显示器的屏幕上进行播放。

所述的基于视点的全景视频自适应流媒体传输方法，其中，所述客户端通过线性回归模型对俯仰角和偏航角进行回归预测，得到未来视点所在的预测位置，具体包括：

使用当前时间点之前2秒内所得到的俯仰角和偏航角，采用加权线性回归的方式得到俯仰角随时间变化函数和偏航角随时间变化函数，输入下一时刻的时间点得到下一时刻的俯仰角和偏航角。

所述的基于视点的全景视频自适应流媒体传输方法，其中，所述预设时间为3秒；

以MAE作为预测误差大小的数值评价指标；MAE公式如下：

其中，x_i为过去3秒内的某一时刻传感器对视点的测量值，

为传感器测量前对该测量值的预测值，N为前三秒用传感器测量头部姿态的总采样数。

所述的基于视点的全景视频自适应流媒体传输方法，其中，所述矩形的长和宽分别为两个方向的基础值加上2倍的两个方向各自预测的MAE。

此外，为实现上述目的，本发明还提供一种基于视点的全景视频自适应流媒体传输***，其中，所述基于视点的全景视频自适应流媒体传输***包括：

服务器端和客户端，所述客户端通过网络和所述服务器端建立连接；

所述服务器端用于将原始全景视频进行瓦片分割，得到多个瓦片视频；采用预设编码方式将所述多个瓦片视频编码成具有多个码率版本的全景视频流文件；将所述全景视频流文件进行封装和切片处理，生成预设格式的视频文件和记录视频编码配置的MPD文件；

所述客户端用于向所述服务器端发送获取记录视频编码配置的MPD文件的请求，以获取所述记录视频编码配置的MPD文件；通过传感器获取表示用户头部姿态的四元数，所述四元数包括三维空间坐标和角度；通过四元数到欧拉角转换公式将四元数转化为俯仰角和偏航角，并以俯仰角和偏航角组成的坐标表示用户观看全景视频时视野的视点；通过线性回归模型对俯仰角和偏航角进行回归预测，得到未来视点所在的预测位置；计算从当前播放时间起前预设时间所预测的视点俯仰角和偏航角的平均绝对误差；计算视野区域范围，视野区域范围以预测的视点为中心的矩形，在下载时仅下载视野区域所涵盖的瓦片；使用过去预设时间的加权平均吞吐量作为下一时刻吞吐量的预测值，其中时间越早权重越小；使用视野区域中瓦片的平均质量等级、视频空间质量差异和视频时间质量差异的加权和作为目标函数，自适应分配每个瓦片传输的比特率，控制目标函数最大化；将下载的瓦片进行拼接，并投射到用户头戴显示器的屏幕上进行播放。

本发明通过服务器端将全景视频在空间上划分成不同的瓦片，将多个瓦片视频编码成全景视频流文件，并对全景视频流文件进行封装和切片处理；客户端依据用户观看全景视频的历史视点信息使用线性回归方法对用户未来观看的视野区域进行预测，并播放预测后的全景视频。本发明根据历史预测偏离的程度对视野区域适当扩大，对视野区域中的瓦片选择高码率，对非视野区域中的瓦片选择低码率，根据网络条件变化，给不同瓦片动态选择不同码率，以提高视野区域内视频清晰度，减小卡顿情况的出现，能够准确预测用户未来的视野区域，根据用户视野区域和网络条件自适应传输全景视频，能减少带宽资源的浪费，有效提升用户观看质量。

附图说明

图1是本发明基于视点的全景视频自适应流媒体传输方法的较佳实施例的流程图；

图2是本发明基于视点的全景视频自适应流媒体传输方法的较佳实施例中步骤S10的流程图；

图3是本发明基于视点的全景视频自适应流媒体传输方法的较佳实施例中步骤S20的流程图；

图4是本发明基于视点的全景视频自适应流媒体传输***的较佳实施例的原理示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明较佳实施例所述的基于视点的全景视频自适应流媒体传输方法，如图1所示，所述基于视点的全景视频自适应流媒体传输方法包括以下步骤：

步骤S10、服务器端将全景视频在空间上划分成不同的瓦片，将多个瓦片视频编码成全景视频流文件，并对全景视频流文件进行封装和切片处理。

具体的过程请参阅图2，其为本发明提供的台标调整方法中步骤S10的流程图。

如图2所示，所述步骤S10包括：

S101、所述服务器端将原始全景视频进行瓦片分割，得到多个瓦片视频。

具体地，在所述服务器端将原始全景视频进行Tile(瓦片)分割，将原始视频在空间上分割为4*8＝32个Tile(瓦片)。

S102、所述服务器端采用预设编码方式将所述多个瓦片视频编码成具有多个码率版本的全景视频流文件。

具体地，所述服务器端利用开源的编码器Kvazaar(Kvazaar是开源HEVC编码器，它是用C语言从零开始开发的，Kvazaar目标是设计一种模块化，便携式HEVC编码器，以最佳的编码速度和资源获得高编码效率)，采用HEVC-MCTS编码方式将步骤S101中得到的多个Tile(瓦片)的视频编码成具有多个码率版本(如2Mb/s、3Mb/s、6Mb/s)的全景视频流文件(例如.h264格式文件)。

S103、所述服务器端将所述全景视频流文件进行封装和切片处理，生成预设格式的视频文件和记录视频编码配置的MPD文件。

具体地，所述服务器端利用GPAC(GPAC是一个为科研和学术领域开发的多媒体的框架，支持MPEG-4、VRML、X3D、SVG、LASeR等)的视频封装工具MP4Box，服务器端将步骤S102编码后的全景视频流文件封装为MP4视频格式，并在时间上按间隔1秒的长度切片为m4s格式的视频文件，将m4s视频文件和记录视频编码配置的MPD文件(.mpd这一扩展名主要与微软项目数据库文件类型有关，它是一种专有的容器类数据库格式，所有项目文件都以关系数据库的形式保存在一个单独的.mpd文件中)储存在服务器端上。

步骤S20、客户端依据用户观看全景视频的历史视点信息使用线性回归方法对用户未来观看的视野区域进行预测，并播放预测后的全景视频。

具体的过程请参阅图3，其为本发明提供的台标调整方法中步骤S20的流程图。

如图3所示，所述步骤S20包括：

S201、所述客户端向所述服务器端发送获取记录视频编码配置的MPD文件的请求，以获取所述记录视频编码配置的MPD文件。

S202、所述客户端(头戴显示器，可以播放360度视频)通过传感器获取表示用户头部姿态的四元数，所述四元数包括三维空间坐标和角度。

其中，四元数是一个数学概念，包含四个元素的向量，包括xyz三维坐标以及一个角度共四个元素，能够完整的描述三维物体当前的姿态。

S203、所述客户端通过四元数到欧拉角转换公式将四元数转化为俯仰角和偏航角，并以俯仰角和偏航角组成的坐标表示用户观看全景视频时视野的视点(中心点)。

S204、所述客户端通过线性回归模型(变量和自变量之间的关系近似为直线型的，忽略高阶余项)对俯仰角和偏航角进行回归预测，得到未来视点所在的预测位置。

具体实现为使用当前时间点之前2秒内所得到的俯仰角和偏航角的数据，采用加权线性回归的方式作出俯仰角随时间变化函数和偏航角随时间变化函数，输入下一时刻的时间点即可得到下一时刻的俯仰角和偏航角。

S205、所述客户端计算从当前播放时间起前预设时间所预测的视点俯仰角和偏航角的平均绝对误差(MAE)。

具体地，所述预设时间为3秒；以MAE作为预测误差大小的数值评价指标；MAE公式如下：

其中，x_i为过去3秒内的某一时刻传感器对视点的测量值，

S206、所述客户端计算视野区域范围，视野区域范围以预测的视点为中心的矩形，在下载时仅下载视野区域所涵盖的瓦片。

具体地，计算FoV范围，FoV范围是以预测的视点为中心的矩形，矩形的长×宽为110°×90°；考虑视点预测的不准确性且预测误差可能为正也可能为负，所以长和宽分别为两个方向的基础值加上2倍的两个方向各自预测的MAE，在下载时仅仅下载FoV所涵盖的Tile(瓦片)。

S207、所述客户端使用过去预设时间的加权平均吞吐量作为下一时刻吞吐量的预测值，其中时间越早权重越小。

具体地，使用过去3秒的加权平均吞吐量作为下一时刻吞吐量的预测值，其中时间越早权重越小，具体的权重分配为：当前时间点前的第3秒内权重为0.1，第2秒内权重为0.3，1秒内权重为0.6。

S208、所述客户端使用视野区域中瓦片的平均质量等级、视频空间质量差异和视频时间质量差异的加权和作为目标函数，自适应分配每个瓦片传输的比特率，控制目标函数最大化。

具体地，使用FoV中的Tile平均质量等级(视频质量等级高低直接反映了视频码率高低，码率越高视频越清晰)、视频空间质量差异(视频空间质量差异表示一帧视频的不同位置清晰度的差异，空间质量差异越大沉浸感越低)、视频时间质量差异(视频时间质量差异反应了视频码率切换的频率和幅度，码率切换频率和幅度越大沉浸感越低)来作为影响用户QoE的因素，并以这3个指标的加权和作为QoE目标函数(其中平均质量等级权重为1，空间质量差异和时间质量差异权重都是-0.5)；根据S207中所得到的吞吐量预测值，使用穷举的方法自适应分配每个Tile传输的比特率，使得在使用资源不超过预测吞吐量的情况下，QoE目标函数达到最大。

S209、所述客户端将下载的瓦片进行拼接，并投射到用户头戴显示器的屏幕上进行播放。

S210、判断视频是否已经播放完成，如果播放完成则结束，如果没有播放完成，则重复步骤S202-S209。

本发明在视点预测时对FoV进行自适应扩大(对应步骤S204-S206)，能够减少视点预测误差导致的用户QoE下降；使用了QoE驱动的比特率自适应传输方案(S207-S208)，能够使得用户QoE最大化。

本发明在服务器端将全景视频在空间上划分成不同的Tile，并依据动态自适应流媒体传输技术(DASH)在时间上对视频进行切割，并编码为多种比特率版本；在客户端依据用户观看全景视频的历史视点信息使用线性回归方法对该用户未来观看的FoV进行预测，为提高预测的准确度，本发明根据历史预测偏离的程度对FoV适当的扩大；本发明将码率选择问题转换为QoE目标优化问题，对FOV中的Tile选择高码率，对非FOV中的Tile选择低码率，能有效提升用户QoE，减小网络波动对全景视频传输的影响。

进一步地，如图4所示，基于上述基于视点的全景视频自适应流媒体传输方法，本发明还相应提供了一种基于视点的全景视频自适应流媒体传输***，其中，所述基于视点的全景视频自适应流媒体传输***包括：

综上所述，本发明提供一种基于视点的全景视频自适应流媒体传输方法及***，所述方法包括：服务器端将全景视频在空间上划分成不同的瓦片，将多个瓦片视频编码成全景视频流文件，并对全景视频流文件进行封装和切片处理；客户端依据用户观看全景视频的历史视点信息使用线性回归方法对用户未来观看的视野区域进行预测，并播放预测后的全景视频。本发明根据历史预测偏离的程度对视野区域适当扩大，对视野区域中的瓦片选择高码率，对非视野区域中的瓦片选择低码率，根据网络条件变化，给不同瓦片动态选择不同码率，以提高视野区域内视频清晰度，减小卡顿情况的出现，能够准确预测用户未来的视野区域，根据用户视野区域和网络条件自适应传输全景视频，能减少带宽资源的浪费，有效提升用户观看质量。

当然，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件(如处理器，控制器等)来完成，所述的程序可存储于一计算机可读取的存储介质中，所述程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于视点的全景视频自适应流媒体传输方法，其特征在于，所述基于视点的全景视频自适应流媒体传输方法包括：

所述服务器端将全景视频在空间上划分成不同的瓦片，将多个瓦片视频编码成全景视频流文件，并对全景视频流文件进行封装和切片处理，具体包括：

所述服务器端将所述全景视频流文件进行封装和切片处理，生成预设格式的视频文件和记录视频编码配置的MPD文件；

客户端依据用户观看全景视频的历史视点信息使用线性回归方法对用户未来观看的视野区域进行预测，并播放预测后的全景视频；

所述客户端依据用户观看全景视频的历史视点信息使用线性回归方法对用户未来观看的视野区域进行预测，并播放预测后的全景视频，具体包括：

2.根据权利要求1所述的基于视点的全景视频自适应流媒体传输方法，其特征在于，所述服务器端将原始全景视频进行瓦片分割，得到多个瓦片视频，具体包括：

3.根据权利要求2所述的基于视点的全景视频自适应流媒体传输方法，其特征在于，所述服务器端采用预设编码方式将所述多个瓦片视频编码成具有多个码率版本的全景视频流文件，具体包括：

所述全景视频流文件的格式包括.h264格式。

4.根据权利要求3所述的基于视点的全景视频自适应流媒体传输方法，其特征在于，所述服务器端将所述全景视频流文件进行封装和切片处理，生成预设格式的视频文件和记录视频编码配置的MPD文件，具体包括：

5.根据权利要求1所述的基于视点的全景视频自适应流媒体传输方法，其特征在于，所述客户端通过线性回归模型对俯仰角和偏航角进行回归预测，得到未来视点所在的预测位置，具体包括：

6.根据权利要求5所述的基于视点的全景视频自适应流媒体传输方法，其特征在于，所述预设时间为3秒；

以MAE作为预测误差大小的数值评价指标；MAE公式如下：

其中，x_i为过去3秒内的某一时刻传感器对视点的测量值，

7.根据权利要求6所述的基于视点的全景视频自适应流媒体传输方法，其特征在于，所述矩形的长和宽分别为两个方向的基础值加上2倍的两个方向各自预测的MAE。

8.一种基于视点的全景视频自适应流媒体传输***，其特征在于，所述基于视点的全景视频自适应流媒体传输***包括：