CN108810427A

CN108810427A - 基于视点的全景视频内容表示的方法及装置

Info

Publication number: CN108810427A
Application number: CN201710301137.4A
Authority: CN
Inventors: 谢澜; 张行功; 郭宗明
Original assignee: Peking University; Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: Peking University; Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Priority date: 2017-05-02
Filing date: 2017-05-02
Publication date: 2018-11-13
Anticipated expiration: 2037-05-02
Also published as: CN108810427B

Abstract

本发明涉及一种基于视点的全景视频内容表示的方法及装置，通过获取用户的视点信息；获取全景视频，对全景视频中的每个视频帧进行分块处理；根据用户的视点信息，对视频帧中的每个分块进行转换，得到转换后的分块；对转换后的分块进行重采样操作，将重采样后的分块拼接为新的视频帧，并以新的视频帧组合形成基于视点的全景视频内容表示。从而实现对给定的观看朝向，可以将用户视窗范围内的内容和其他区域的内容进行非对等的表示，使得全景视频内容表示是基于用户视点的，从而在向用户传输全景视频时，可以基于用户的视点，将以该视点表示的全景视频传输给用户，从而达到减少全景视频的数据量、降低视频分辨率、压缩视频码率的目的。

Description

基于视点的全景视频内容表示的方法及装置

技术领域

本发明涉及多媒体领域，尤其涉及一种基于视点的全景视频内容表示的方法及装置。

背景技术

随着多媒体技术的发展，虚拟现实技术(VR)受到工业界和学术界的广泛关注。其中，全景视频，如360度视频、全方位视频的应用得到了广泛的使用。

虚拟现实视频的数据量通常非常大，这就使得对于全景视频的压缩码率和网络传输成为最大的挑战。例如，一个分辨率为4Kx2K以ERP方式映射的全景视频在压缩编码后码率可达15Mbps～20Mbps，一个分辨率为8Kx4K以ERP方式映射的全景视频在压缩编码后码率可达70Mbps～100Mbps。全景视频高分辨率、高码率的特性阻碍了其互联网应用的发展。另外，用户在观看全景视频时实际上只看到了视窗内的视频内容，其他区域的内容并没有被用户看到。因此，将全景视频的全部内容(视窗内及视窗外的内容)传输到客户端造成了带宽浪费。

发明内容

本发明提供一种基于视点的全景视频内容表示的方法及装置，通过基于给定的观看朝向，对于视窗范围内的内容和其他区域的内容进行非对等的表示，使得全景视频内容表示是基于用户视点的，从而在向用户传输全景视频时，可以基于用户的视点，将以该视点表示的全景视频传输给用户，从而达到减少全景视频的数据量、降低视频分辨率、压缩视频码率的目的。

本发明提供一种基于视点的全景视频内容表示的方法，包括：

获取配置信息，所述配置信息中包含有：用户的视点信息；

获取全景视频，对所述全景视频中的每个视频帧进行分块处理；

根据所述用户的视点信息，对视频帧中的每个分块进行转换，得到转换后的分块；

对所述转换后的分块进行重采样操作，将重采样后的分块拼接为新的视频帧，并以所述新的视频帧组合形成所述基于视点的全景视频内容表示。

可选的，所述对所述全景视频中的每个视频帧进行分块处理，包括：

将视频帧进行宽N等分、高M等分，得到MxN个大小相同的分块。

可选的，所述根据所述用户的视点信息，对视频帧中的每个分块进行转换，得到转换后的分块，包括：

根据所述用户的视点信息，确定视频帧中每个分块的观看概率；

根据所述每个分块的观看概率，在视频帧内所有转换后的分块的失真满足最小值的情况下，确定转换后的分块的大小。

可选的，所述对所述转换后的分块进行重采样操作，包括：

若转换后的分块的大小与转换前的分块的大小不同，则对该转换后的分块进行下采样操作。

可选的，所述配置信息，还包括：

码率、分辨率；

相应的，所述以所述新的视频帧组合形成所述基于视点的全景视频内容表示，包括：

根据不同的所述视点信息、所述码率、所述分辨率，将新的视频帧组合形成多个媒体片断集合，其中每个集合中的媒体片断具有特定的视点信息、码率和分辨率；

根据用户的视点信息，在不同的媒体片断集合中确定媒体片断，并组合形成所述全景视频内容以发送给用户。

本发明还提供一种基于视点的全景视频内容表示的装置，包括：

获取模块，用于获取配置信息，所述配置信息中包含有：用户的视点信息；还用于获取全景视频；

处理模块，用于对所述全景视频中的每个视频帧进行分块处理；根据所述用户的视点信息，对视频帧中的每个分块进行转换，得到转换后的分块；对所述转换后的分块进行重采样操作，将重采样后的分块拼接为新的视频帧，并以所述新的视频帧组合形成所述基于视点的全景视频内容表示。

可选的，所述处理模块，包括：

分块模块，用于将视频帧进行宽N等分、高M等分，得到MxN个大小相同的分块。

可选的，所述处理模块，还包括：

确定模块，用于根据所述用户的视点信息，确定视频帧中每个分块的观看概率；根据所述每个分块的观看概率，在视频帧内所有转换后的分块的失真满足最小值的情况下，确定转换后的分块的大小。

可选的，所述处理模块，还包括：

采样模块，用于当转换后的分块的大小与转换前的分块的大小不同时，对该转换后的分块进行下采样操作。

可选的，所述配置信息，还包括：

码率、分辨率；

相应的，所述处理模块，包括：

组合模块，用于根据不同的所述视点信息、所述码率、所述分辨率，将新的视频帧组合形成多个媒体片断集合，其中每个集合中的媒体片断具有特定的视点信息、码率和分辨率；

确定模块，用于根据用户的视点信息，在不同的媒体片断集合中确定媒体片断，并组合形成所述全景视频内容以发送给用户。

本发明的基于视点的全景视频内容表示的方法及装置，通过获取配置信息，该配置信息中包含有：用户的视点信息；获取全景视频，对全景视频中的每个视频帧进行分块处理；根据用户的视点信息，对视频帧中的每个分块进行转换，得到转换后的分块；对转换后的分块进行重采样操作，将重采样后的分块拼接为新的视频帧，并以新的视频帧组合形成基于视点的全景视频内容表示。从而实现对给定的观看朝向，可以将用户视窗范围内的内容和其他区域的内容进行非对等的表示，使得全景视频内容表示是基于用户视点的，从而在向用户传输全景视频时，可以基于用户的视点，将以该视点表示的全景视频传输给用户，从而达到减少全景视频的数据量、降低视频分辨率、压缩视频码率的目的。

附图说明

图1为全景视频内容生成的流程示意图；

图2为本发明一示例性实施例示出的基于视点的全景视频内容表示的方法的流程示意图；

图3为本发明另一示例性实施例示出的基于视点的全景视频内容表示的方法的流程示意图；

图4为本发明一示例性实施例示出的基于视点的全景视频内容表示的装置的结构示意图；

图5为本发明另一示例性实施例示出的基于视点的全景视频内容表示的装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先对全景视频内容的生成进行说明，在2016年6月，MPEG提出了全方位媒体应用格式标准草案。在制作全景视频时，通常用若干个摄像头录制真实世界的视觉场景。同一时刻的摄像头输出的视频帧(图像)需要经过拼接、投影、映射后封装成一个二维平面数据帧才能进行视频编码。如图1所示，为全景视频内容生成的流程示意图。其中，拼接指的是将多个摄像头同一时刻采集的图像，通过特征点匹配、融合等技术还原真实世界视觉场。图像经过拼接后将投影到一个三维投影结构上，例如一个球体或者立方体。由于投影结构是三维的，但目前广泛使用的编码器是针对二维平面视频进行编码的，所以需要将投影结构上的图像进一步地映射到一个二维平面，得到一个二维映射后的数据帧后才能进行视频压缩编码。目前常用的映射方法有Equirectangular Projection(ERP)、Cubemap Projection(CMP)等。最后，视频编码器对视频序列进行编码，得到编码压缩的视频流。而本发明方法是针对图1所示的二维映射后所封装的全景视频进行基于视点的全景视频内容表示。之所以要基于视点对全景视频进行内容表示，主要是如在背景技术中介绍的由于全景视频数据量大，压缩码率和网络传输是最大的挑战，同时，现有技术中的全景视频内容表示会导致用户头部微转时，用户视窗内渲染的内容出现模糊、边界效应等问题。为解决上述问题，本发明会在视频编码前会基于视点对全景视频内容进行表示。然后，网络中的客户端根据用户的观看朝向等信息，用HTTP动态自适应流媒体技术(DASH)进行网络传输。具体而言，如图2所示，本实施例示出的基于视点的全景视频内容表示的方法，包括：

步骤201、获取配置信息，配置信息中包含有：用户的视点信息。

步骤202、获取全景视频，对全景视频中的每个视频帧进行分块处理。

步骤203、根据用户的视点信息，对视频帧中的每个分块进行转换，得到转换后的分块。

步骤204、对转换后的分块进行重采样操作，将重采样后的分块拼接为新的视频帧，并以新的视频帧组合形成基于视点的全景视频内容表示。

具体的，用于执行该基于视点的全景视频内容表示的方法的处理器根据配置信息，如配置文件对输入的视频进行处理，该视频可以为ERP格式的视频文件或其他格式的视频文件，本发明对视频文件的格式不作具体的限定。然后，处理器对输入的视频按照配置参数进行处理。也就是根据给定的视点，对原视频帧进行处理得到变换后的视频帧。处理的过程为，首先对原视频帧进行分块处理，再根据用户的视点信息，对分块进行转换，得到基于视点的新的分块，对该新的分块进行采样，再将采样后的新的分块拼接为新的视频帧，从而就得到了基于视点的全景视频的内容表示。

本实施例的基于视点的全景视频内容表示的方法，通过获取配置信息，该配置信息中包含有：用户的视点信息；获取全景视频，对全景视频中的每个视频帧进行分块处理；根据用户的视点信息，对视频帧中的每个分块进行转换，得到转换后的分块；对转换后的分块进行重采样操作，将重采样后的分块拼接为新的视频帧，并以新的视频帧组合形成基于视点的全景视频内容表示。从而实现对给定的观看朝向，可以将用户视窗范围内的内容和其他区域的内容进行非对等的表示，使得全景视频内容表示是基于用户视点的，从而在向用户传输全景视频时，可以基于用户的视点，将以该视点表示的全景视频传输给用户，从而达到减少全景视频的数据量、降低视频分辨率、压缩视频码率的目的。

图3为本发明另一示例性实施例示出的基于视点的全景视频内容表示的方法的流程示意图，如图3所示，进一步的，在上述实施例的基础上，本实施的基于视点的全景视频内容表示的方法，具体包括：处理器首先根据配置文件对输入的ERP格式视频进行处理；然后，处理器对输入的ERP格式视频按照配置参数进行处理；再由发送器将处理后的视频序列发送给视频编码器进行编码。以实现本发明基于视点的全景视频内容表示的优化方法，其详细的实现步骤为：

步骤301、获取配置信息，配置信息中包含有：用户的视点信息。

步骤302、获取全景视频，将视频帧进行宽N等分、高M等分，得到MxN个大小相同的分块。

具体的，对于全景视频的获取可以通过采用若干个摄像头录制真实世界的视觉场景，数据预处理装置对同一时刻的摄像头输出的视频帧(图像)经过拼接、投影、映射后封装成ERP格式的全景视频。对用户的视点位置、传输码率、全景视频设备分辨率等信息可以进行预定义，作为配置信息的配置文件。然后由执行该基于视点的全景视频内容表示的方法的处理器获取到该ERP格式的全景视频和配置文件并进行需要的处理，该处理器对ERP格式的全景视频按照配置文件中的相关参数进行需要的处理。具体而言，对于给定的视点，对原视频帧进行处理得到变换后的视频帧。其中处理的方法涉及的相关概念如下：

1、原始视频帧的宽：定义W为原始视频帧的宽。

2、原始视频帧的高：定义H为原始视频帧的高。

3、视频分块：对每一个原始视频帧进行宽N等分，高M等分后，得到MxN个大小相同的分块。定义第i列、第j行的分块块为B_ij，其中1≤i≤N，1≤j≤M。

4、转换前分块的宽：定义W_b为转换前分块的宽，有W_b＝W/N。

5、转换前分块的高：定义H_b为转换前分块的高，有H_b＝H/M。

步骤303、根据用户的视点信息，确定视频帧中每个分块的观看概率。

6、分块的观看概率：定义p_ij为第i列、第j行分块的观看概率。分块的观看概率由用户关注度概率计算得到。

步骤304、根据每个分块的观看概率，在视频帧内所有转换后的分块的失真满足最小值的情况下，确定转换后的分块的大小。

7、转换后分块的宽：定义w_i为第i列的分块的宽。

8、转换后分块的高：定义h_j为第j列的分块的高。

9、转换后视频的宽：定义W_T为转换后视频的宽。

10、转换后视频的高：定义H_T为转换后视频的高。

11、分块失真大小：若分块的原始宽为W_b、原始高H_b、改变后的宽为w、改变后的高为h，定义分块改变大小后产生的失真值为D(w,h；W_b,H_b)，则有：

通过上述处理器先对待处理视频帧进行分块，然后通过最优化求解每个分块的转换后宽和高。具体而言，对每一个视频帧进行宽N等分，高M等分后。最优化问题的目标是最小化总分块失真，约束条件是分转换后的视频的宽和高。最优化问题的数学形式可表示为：

对上述最优化问题进行求解，并考虑转换后分块的宽、高不大于转换前分块的宽W_b、高H_b，得到转换后分块的宽和高：

根据以上最优化问题计算得到的分块的宽、高考虑了用户在一个视点下观看内容的关注度分布，所以用户在该视点附近进行头部转动时，视窗内视频质量高，解决了在不考虑用户关注度概率的情况下导致的视频渲染时在用户视窗内出现模糊的现象。

步骤305、对转换后的分块进行重采样操作，将重采样后的分块拼接为新的视频帧。

具体的，根据步骤304中计算得到的变换后分块的宽和高，对一个视频帧的每一个分块进行重采样操作，具体而言，如果变换后和变换前分块的大小改变了，则对该分块图像进行下采样操作。由于用户关注度的连续性，分块之间的采样率变化是较连续的，削弱了由于块之间采样率差异大导致的边界效应。

步骤306、配置信息还包括：码率、分辨率，则根据不同的视点信息、码率、分辨率，将新的视频帧组合形成多个媒体片断集合，其中每个集合中的媒体片断具有特定的视点信息、码率和分辨率。

步骤307、根据用户的视点信息，在不同的媒体片断集合中确定媒体片断，并组合形成全景视频内容以发送给用户。

处理器可以根据接收到的用户的视点信息，生成该视点参数下的基于视点的表示。也就是根据上述步骤301至步骤305，得到基于视点的分块的重新组合视频帧。然后处理器对视频中的所有视频帧进行处理，并发送处理好的视频帧给视频编码器进行编码、切片等媒体文件准备工作。具体来说，一个视频序列首先被转码成具有不同码率、分辨率的多个码流，然后每一个码流被进一步切分成具有相同时间长的媒体片段。最终将得到多个媒体片段集合，每个集合作为一特定码率、分辨率的版本。对于其他的用户视点，该视点可以是预定义的视点，也可以是采集得到的用户视点信息，重复之前的基于视点的视频表示方法步骤，最终将得到多个媒体片段集合，每个集合作为一特定视点、码率、分辨率的版本。然后，可以按照HTTP动态自适应流媒体协议的具体要求生成其他文件，也可以按照其他流媒体协议格式生成，本发明对此不作具体限定，所生成的文件例如媒体描述文件(MPD)等，并连同媒体片段存放在媒体服务器中，为媒体服务做准备。

图4为本发明一示例性实施例示出的基于视点的全景视频内容表示的装置的结构示意图，如图4所示，该基于视点的全景视频内容表示的装置包括：获取模块1，用于获取配置信息，配置信息中包含有：用户的视点信息；还用于获取全景视频。处理模块2，用于对全景视频中的每个视频帧进行分块处理；根据用户的视点信息，对视频帧中的每个分块进行转换，得到转换后的分块；对转换后的分块进行重采样操作，将重采样后的分块拼接为新的视频帧，并以新的视频帧组合形成基于视点的全景视频内容表示。

本实施例的装置，可用于执行图2所述基于视点的全景视频内容表示的方法的实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图5为本发明另一示例性实施例示出的基于视点的全景视频内容表示的装置的结构示意图，如图5所示，进一步地，在上述实施例的基础上，处理模块2，包括：分块模块21，用于将视频帧进行宽N等分、高M等分，得到MxN个大小相同的分块。

可选的，处理模块2，还包括：确定模块22，用于根据用户的视点信息，确定视频帧中每个分块的观看概率；根据每个分块的观看概率，在视频帧内所有转换后的分块的失真满足最小值的情况下，确定转换后的分块的大小。

可选的，处理模块2，还包括：采样模块23，用于当转换后的分块的大小与转换前的分块的大小不同时，对该转换后的分块进行下采样操作。

可选的，配置信息，还包括：码率、分辨率；相应的，处理模块2，包括：组合模块24，用于根据不同的视点信息、码率、分辨率，将新的视频帧组合形成多个媒体片断集合，其中每个集合中的媒体片断具有特定的视点信息、码率和分辨率；确定模块25，用于根据用户的视点信息，在不同的媒体片断集合中确定媒体片断，并组合形成全景视频内容以发送给用户。

本实施例的装置，可用于执行图3所示的基于视点的全景视频内容表示的方法的实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于视点的全景视频内容表示的方法，其特征在于，包括：

获取配置信息，所述配置信息中包含有：用户的视点信息；

2.根据权利要求1所述的方法，其特征在于，所述对所述全景视频中的每个视频帧进行分块处理，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述用户的视点信息，对视频帧中的每个分块进行转换，得到转换后的分块，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述转换后的分块进行重采样操作，包括：

5.根据权利要求1～4任一项所述的方法，其特征在于，所述配置信息，还包括：

码率、分辨率；

6.一种基于视点的全景视频内容表示的装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述处理模块，包括：

8.根据权利要求7所述的装置，其特征在于，所述处理模块，还包括：

9.根据权利要求8所述的装置，其特征在于，所述处理模块，还包括：

10.根据权利要求6～9任一项所述的装置，其特征在于，所述配置信息，还包括：

码率、分辨率；

相应的，所述处理模块，还包括：