CN117255233A

CN117255233A - 媒体信息处理方法、媒体信息播放方法、装置及存储介质

Info

Publication number: CN117255233A
Application number: CN202210651448.4A
Authority: CN
Inventors: 江平; 李秋婷
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2023-12-19
Also published as: WO2023236732A1

Abstract

本申请实施例提供了一种媒体信息处理方法、媒体信息播放方法、装置及存储介质，方法包括：获取多个视点的媒体，其中，多个视点包含至少两个真实视点和至少一个虚拟视点，虚拟视点的媒体根据至少两个真实视点的媒体生成；根据多个视点的媒体生成媒体流，媒体流为包含媒体信息的媒体文件；对媒体流进行切片封装，生成媒体的MPD描述文本，MPD描述文本包括对真实视点的描述和对虚拟视点的描述，MPD描述文本用于获取待播放视点的媒体流信息。本申请实施例通过增加虚拟视点，将对真实视点和对虚拟视点的描述记载在MPD描述文本中，使得终端根据描述文本中的帧信息下载帧数据时，能够节约带宽以及降低视角交互的延时，从而保证播放的画质。

Description

媒体信息处理方法、媒体信息播放方法、装置及存储介质

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种媒体信息处理方法、媒体信息播放方法、装置及存储介质。

背景技术

随着计算机技术的发展，用户希望能够通过自由的视点切换，在视频播放、虚拟游戏等场景中获得更强的现场体验感。而自由视点拍摄过程中由于设备空间限制或场馆空间限制等原因，致使相邻视角的视差较大，而通过增加虚拟视点减小相邻视角的视差，能够解决视角切换时画面抖动不平滑的问题。

相关技术中，主要采取拼接和实时合成两种方案实现自由视点视频的处理和播放。拼接的方案传输带宽占用高，并且损失了原有视频帧的画质，实时视角合成的方案播放效果难以保证，并且对设备性能要求较高。因此，如何在节约带宽的同时，保证播放的质量，是当下亟待讨论和解决的问题。

发明内容

本申请实施例提供一种媒体信息处理方法、媒体信息播放方法、装置及存储介质，旨在节约带宽的同时，保证播放质量。

第一方面，本申请实施例提供一种媒体信息处理方法，包括：获取多个视点的媒体，其中，所述多个视点包含至少两个真实视点和至少一个虚拟视点，所述虚拟视点的媒体根据所述至少两个真实视点的媒体生成；根据所述多个视点的媒体生成媒体流，所述媒体流为包含媒体信息的媒体文件；对所述媒体流进行切片封装，生成所述媒体的MPD描述文本，所述MPD描述文本包括对所述真实视点的描述和对所述虚拟视点的描述，所述MPD描述文本用于获取待播放视点的媒体流信息。

第二方面，本申请实施例提供一种媒体信息播放方法，包括：获取MPD描述文本，其中，所述MPD描述文本描述有索引文件信息和媒体分片文件信息；根据所述MPD描述文本中的所述索引文件信息获取对应的索引文件；根据所述索引文件获取待播放媒体帧；根据所述媒体分片文件信息对所述待播放媒体帧进行渲染播放。

第三方面，本申请实施例提供一种媒体信息处理装置，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现第一方面所述的媒体信息处理方法。

第四方面，本申请实施例提供一种媒体信息播放装置，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现第二方面所述的媒体信息播放方法。

第五方面，本申请实施例提供一种计算机可读存储介质，包括：所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于执行如第一方面的媒体信息处理方法或第二方面的媒体信息播放方法。

根据本申请实施例提供的媒体信息处理方法、媒体信息播放方法、装置及存储介质，通过增加虚拟视点，将对真实视点和对虚拟视点的描述记载在MPD描述文本中，使得终端根据描述文本中的帧信息下载帧数据时，能够节约带宽以及降低视角交互的延时，从而保证播放的画质。

附图说明

图1是本申请一实施例提供的自由视角视频拍摄及播放场景示意图；

图2是本申请一实施例提供的媒体信息处理方法的应用场景***架构示意图；

图3是本申请一实施例提供的媒体信息处理方法的流程图；

图4是本申请一实施例提供的MPD描述文本的生成过程的流程图；

图5为本申请一实施例提供的MPD文件的结构示意图；

图6是本申请一实施例提供的媒体服务器进行媒体信息处理的流程示意图；

图7是本申请一实施例提供的媒体信息播放方法的流程图；

图8是本申请一实施例提供的终端进行媒体信息播放的流程示意图；

图9是本申请一实施例提供的直播场景对应的虚拟视角切换的切换帧示意图；

图10是本申请一实施例提供的点播场景对应的虚拟视角切换的切换帧示意图；

图11是本申请一实施例提供的子弹时间场景对应的虚拟视角切换的切换帧示意图；

图12是本申请一实施例提供的屏蔽虚拟视点场景对应的虚拟视角切换的切换帧示意图；

图13是本申请一实施例提供的媒体信息处理装置结构示意图；

图14是本申请一实施例提供的媒体信息播放装置结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本申请实施例中的具体含义。本申请实施例中，“进一步地”、“示例性地”或者“可选地”等词用于表示作为例子、例证或说明，不应被解释为比其它实施例或设计方案更优选或更具有优势。使用“进一步地”、“示例性地”或者“可选地”等词旨在以具体方式呈现相关概念。

本申请实施例可以应用于各种与图像以及视频播放相关的设备，例如：手机、平板电脑、计算机、笔记本电脑、可穿戴设备、车载设备、液晶显示器、阴极射线管显示器、全息成像显示器或投影等其它终端设备等；还可以应用于各种用于处理图像以及视频数据的设备，例如：手机、平板电脑、计算机、笔记本电脑、可穿戴设备、车载设备等其它服务器设备等。本申请实施例并不限定。

沉浸式媒体通过视频、音频等技术，让用户在视觉、听觉等方面体验高度逼真的虚拟空间环境，实现观看视角的自由切换，以满足更真实的沉浸体验。自由视角视频是一种新型的虚拟现实(Virtual Reality，VR)视频技术，该技术一般采用多个摄像头朝向目标场景进行环绕拍摄，并利用虚拟视角合成技术获取虚拟视角的图像。利用自由视角视频技术，可以让用户以任意视角观看该目标场景，获得比全景视频更好的观看体验。

图1是相关技术提供的自由视角视频拍摄及播放场景示意图。如图1所示，自由视角视频通常是面向同一三维场景拍摄的多相机矩阵阵列采集得到的不同视角的视频集合。用户在观看自由视角视频过程中可以自由地进行视角切换，而在真实视点或合成的虚拟视点观看到对应的视频图像，由于存在多个真实视点和虚拟视点，本实施例中示例性地示出了真实视点是由真实机位100的相机拍摄获得，虚拟视点对应于虚拟机位200的合成图像。

在自由视点相关技术中，主要采用两种方法进行自由视点视频图像的合成，一种是拼接方式，这种方式是将同步的多个视角的纹理图和对应视角的深度图进行拼接，将多个帧时刻的拼接图像统一压缩传输到终端进行解码，但是采用拼接方式会导致传输带宽占用高，且采用目前的编码方法会导致拼接图像存在很大的压缩损失，对终端重建的自由视点视频图像的画质产生影响；另一种方式是实时合成的方式，这种方式对实时合成视频图像的设备性能要求很高，且运行时对设备性能消耗很大，且合成后的视角效果难以保证。

基于此，本申请实施例提供了一种媒体信息处理方法、媒体信息播放方法、装置及存储介质，通过将真实视点的描述和对虚拟视点的描述记载在媒体的MPD描述文本中，使终端根据描述文本中的帧信息以帧为单位进行数据下载，不仅能够节约带宽，还能降低视角交互的延时，保证播放的画质。

下面结合附图，对本申请实施例做进一步阐述。

图2是本申请一实施例提供的媒体信息处理方法的应用场景***架构示意图。如图2所示，该***架构包括视频图像采集装置110、120，服务器130以及终端140。

视频图像采集装置110、120(例如相机)采集多个视点的图像信息，形成与多个视点对应的媒体信息，并将多个视点的媒体信息发送到服务器130，服务器130处理并生成包含虚拟视点的自由视点媒体流，同时将媒体流进行切片封装，生成能够描述真实视点与虚拟视点的MPD描述文本，MPD描述文本将在终端140播放视频时被下载解析。终端140在准备播放视频文件时，下载MPD描述文本并解析其中的索引文件信息与媒体分片文件信息，根据索引文件信息获得待播放的媒体帧，并根据媒体分片文件信息对待播放媒体帧进行渲染播放。

本领域技术人员可以理解，基于HTTP的动态自适应流(Dynamic AdaptiveStreaming over HTTP，DASH)是一种自适应比特率流技术，其原理是媒体服务器将媒体文件切割一个个时间长度相等的切片(Segment)，每个切片被编码为不同的码率/分辨率，这样，终端在播放时，通过评估自身的性能和带宽情况，下载相应码率和分辨率的切片。例如，如果带宽好，就下载码率高的切片，如果带宽差，就下载码率低的切片。因为不同质量的切片在时间上是对齐的，所以在不同质量的切片之间切换时，更加顺畅，从而达到无缝切换的效果。而媒体呈现描述文件(Media Presentation Description，MPD)是DASH协议中的媒体描述文件，是一个XML文件，它完整的记载了视频的相关信息，包括视频长度，码率和分辨率等媒体信息。

本申请实施例提供的应用于图2***架构的媒体信息处理方法，就是将对真实视点的描述和对虚拟视点的描述记载于MPD描述文本中，从而使终端在播放视频时可以按需索引，以帧为单位进行下载，节约带宽，播放的时候可以实现视角交互低时延性，并且，视点的切换不影响画面渲染与机位跳变，可以保证画面切换的流畅性，优化了视频播放体验。

图3是本申请一实施例提供的媒体信息处理方法的流程图。如图3所示，该媒体信息处理方法应用于媒体服务器。在图3的实施例中，该媒体信息处理方法可以包括但不限于步骤S1000、步骤S2000以及步骤S3000。

步骤S1000：获取多个视点的媒体，其中，多个视点包含至少两个真实视点和至少一个虚拟视点，虚拟视点的媒体根据至少两个真实视点的媒体生成。

步骤S2000：根据多个视点的媒体生成媒体流，媒体流为包含媒体信息的媒体文件。

在一实施例中，通过设置在不同角度不同位置的相机，对需要拍摄的场景或对象进行图像采集，得到多个真实视点的视频图像，分成多路，输入至媒体服务器的源端。媒体服务器获取多路真实视点对应的原始媒体流后，通过虚拟视点算法，生成虚拟视点，此时，在媒体服务器中，包含有至少两个真实视点和至少一个虚拟视点的媒体信息，这些真实视点和虚拟视点对应的媒体信息用于终端的视频播放。

步骤S3000：对媒体流进行切片封装，生成媒体的MPD描述文本，MPD描述文本包括对真实视点的描述和对虚拟视点的描述，MPD描述文本用于获取待播放视点的媒体流信息。

媒体服务器将真实视点媒体流与虚拟视点媒体流进行切片封装，并生成对应的MPD描述文本，MPD描述文本能够在终端选择待播放视点后帮助终端获取待播放视点的媒体流信息。

图4是本申请一实施例提供的MPD描述文本的生成过程的流程图。在图4对应的实施例中，MPD描述文本的生成步骤包括但不限于步骤S3100、步骤S3200、步骤S3300。

步骤S3100：对所有真实视点媒体流进行切片封装，得到真实视点媒体分片文件，其中，真实视点媒体分片文件包括多个真实视点媒体帧；对所有虚拟视点媒体流进行切片封装，得到虚拟视点媒体分片文件，其中，虚拟视点媒体分片文件包括多个虚拟视点媒体帧。

在一实施例中，为了得到真实视点媒体分片文件，媒体服务器对所有真实视点媒体流进行帧同步，再将经过帧同步的所有真实视点媒体流合并为单路真实视点媒体流，最后对单路真实视点媒体流进行切片封装，得到真实视点媒体分片文件。

在一实施例中，为了得到真实视点媒体分片文件，媒体服务器对所有真实视点媒体流进行帧同步，再将经过帧同步的所有真实视点媒体流合并为单路真实视点媒体流，最后对单路真实视点媒体流进行基于DASH协议的切片封装，得到真实视点媒体分片文件。

在一实施例中，为了得到虚拟视点媒体分片文件，媒体服务器对所有虚拟视点媒体流进行帧同步，再将经过帧同步的所有虚拟视点媒体流合并为单路虚拟视点媒体流，最后对单路虚拟视点媒体流进行切片封装，得到虚拟视点媒体分片文件。

在一实施例中，为了得到虚拟视点媒体分片文件，媒体服务器对所有虚拟视点媒体流进行帧同步，再将经过帧同步的所有虚拟视点媒体流合并为单路虚拟视点媒体流，最后对单路虚拟视点媒体流进行基于DASH协议的切片封装，得到虚拟视点媒体分片文件。

步骤S3200：根据真实视点媒体分片文件生成真实视点媒体索引文件，其中，真实视点媒体索引文件包括真实视点媒体分片文件中各个真实视点媒体帧的帧信息；根据虚拟视点媒体分片文件生成虚拟视点媒体索引文件，其中，虚拟视点媒体索引文件包括虚拟视点媒体分片文件中各个虚拟视点媒体帧的帧信息。

步骤S3300：根据真实视点媒体分片文件、虚拟视点媒体分片文件、真实视点媒体索引文件和虚拟视点媒体索引文件生成MPD描述文本。

为了进一步说明本申请实施例中提供的MPD描述文本，示出了MPD文件的结构示意图。如图5所示，MPD文件的结构由外向内分别是Period(周期)->AdaptationSet(自适应集合)->Representation(媒体表示)->Segment(片段)。一个或者多个Period组成一个MPD文件，每个Period表示一个时间段的媒体，在同一个Period内，可用的媒体内容及其各个可用码率都不会发生变更。自适应集合描述同一Period不同类型的媒体数据，如字幕、音频和视频，一个或多个AdaptationSet组成一个Period，AdaptationSet包含了逻辑一致的媒体呈现的格式。Representation描述同一媒体数据类型的不同质量版本，即每个Representation仅码率、分辨率不同，其它相同。Segment是DASH媒体概念的最小单位，表示一段小的媒体片段，方便终端在播放时能够在不同的Representation之间切换，终端通过访问与Segment对应的URL来获得可播放的媒体数据。

下述实施例提供了MPD描述文本中关于真实视点媒体分片文件的描述。

在一实施例中，MPD描述文本包括AdaptationSet字段，当AdaptationSet字段包括“cameras”字段时，表示AdaptationSet字段用于描述真实视点媒体分片文件的信息，其中，“cameras”字段用于表示真实视点的数量。

在一具体示例中，如cameras＝"15"，则表示总共包含15个真实机位。具体文件描述如下：

...

</AdaptationSet>

下述实施例提供了MPD描述文本中关于真实视点媒体索引文件的描述。

在一实施例中，MPD描述文本包括MultiIdrIndex字段，MultiIdrIndex字段可以是和AdaptationSet同级的字段，MultiIdrIndex字段用于描述真实视点媒体索引文件的信息，即，如果在MPD描述文本中包含MultiIdrIndex字段，则表明该路媒体流为真实视点对应的索引文件媒体流，其中，真实视点媒体索引文件的格式值为MPI类型值。

在一具体示例中，增加索引文件的mimetype类型值“mpi”，其中“i”指代index索引的首字母。具体文件描述如下：

下述实施例提供了MPD描述文本中关于虚拟视点媒体分片文件的描述。

在一实施例中，MPD描述文本包括AdaptationSet字段，当AdaptationSet字段包括“insert”字段，表示AdaptationSet字段用于描述虚拟视点媒体分片文件的信息，其中，“insert”字段的取值表示相邻真实视点之间所增加的虚拟视点的数量。

在一具体示例中，如insert＝"1"，表示相邻机位间增加一个虚拟视点，对应1路虚拟视频。具体文件描述如下：

...

</AdaptationSet>

下述实施例提供了MPD描述文本中关于虚拟视点媒体索引文件的描述。

在一实施例中，MPD描述文本包括MultiIdrIndex字段，MultiIdrIndex字段还包括“insert”字段，在此种情形下，MultiIdrIndex字段用于描述虚拟视点媒体索引文件的信息，其中，“insert”字段的取值表示相邻真实视点之间所增加的虚拟视点的数量，即，如果MultiIdrIndex级包含“insert”字段，表明该路媒体流为虚拟视点对应的索引文件媒体流。

在一具体示例中，在MultiIdrIndex级添加“insert”字段，表明相邻两个机位间增加的虚拟视点机位数，如insert＝"1"，表示相邻机位间增加一个虚拟视点，对应1路虚拟视频。具体文件描述如下：

...

</MultiIdrIndex>

还需要说明的是，媒体索引文件基于mp4格式封装，即，每路视频对应一个“MOOF”数据盒，“MOOF”数据盒中包含每路视频的帧大小，根据每路视频的帧大小，可以得到帧偏移值，终端可以通过帧大小与帧偏移值进行帧下载。

图6是本申请一实施例提供的媒体服务器进行媒体信息处理的流程示意图。如图所示，为了获取自由视点视频图像，在N个机位设置N个物理相机进行视频图像采集，图中示例性地示出了真实机位1、真实机位2、真实机位3和真实机位N，这些真实机位中的物理相机采集的视点信息为真实视点信息，N个机位采集的N路自由视点媒体流输入至媒体服务器620。媒体服务器620在接收到N路真实视点媒体流后，通过虚拟视点生成算法，在每两个相邻的真实机位之间合成了m个虚拟机位，以真实机位2与真实机位3之间为例，生成了虚拟机位2-1、虚拟机位2-2以及虚拟机位2-m，这些虚拟机位对应m路虚拟视点媒体流，然后使用ISO BMFF文件格式对这些真实视点媒体流和虚拟视点媒体流进行封装，得到自由视角媒体文件，其中，自由视角媒体文件包括对媒体对应的真实机位、虚拟机位等信息进行描述，接着，媒体服务器620对所有真实视点媒体流进行切片封装，得到真实视点媒体分片文件，对所有虚拟视点媒体流进行切片封装，得到虚拟视点媒体分片文件，再根据真实视点媒体分片文件生成真实视点媒体索引文件，根据虚拟视点媒体分片文件生成虚拟视点媒体索引文件，最后根据真实视点媒体分片文件、虚拟视点媒体分片文件、真实视点媒体索引文件和虚拟视点媒体索引文件生成MPD描述文本。当终端630有视频播放请求时，基于内容分发网络(Content Delivery Network，CDN)进行分发。

为了便于终端选择所观看的视点对应的媒体流进行下载，在DASH协议中，通过描述子描述视点信息或视点对应的相机信息，这些描述子存在于AdaptationSet层级或Representation层级，并且使用ISO BMFF格式生成媒体文件时，采用这些描述子描述视点信息或视点对应的相机信息，并以数据盒的形式包含于“MOOF”数据盒或“MOOV”数据盒。

下述实施例分别基于视点信息的描述角度和视点对应的相机信息的描述角度，对视点进行了描述。

在一实施例中，通过相机描述子AvsFreeViewCamInfo对物理相机和虚拟相机进行描述，相机描述子可以包括相机指示信息、相机的位置信息、相机的标识信息以及与虚拟相机关联的物理相机的标识信息。可以理解的是，在实际应用中，可以选取上述一个相机描述子进行描述，也可以选取多个甚至是全部相机描述子进行描述。

自由视点相机描述子AvsFreeViewCamInfo为SupplementalProperty元素。相机描述子可存在于AdaptationSet层级或Representation层级。当相机描述子存在于AdaptationSet层级时，相机描述子描述该AdaptationSet层内所有的Representation对应的相机；当相机描述子存在于Representation层级时，相机描述子描述该Representation对应的相机。表1是相机描述子具体属性表，如下表所示：

表1

在另一实施例中，通过自由视点描述子AvsFreeViewInfo对物理相机和虚拟相机进行描述，相机描述子可以包括视点的标识信息、视点所对应的相机标识信息、相机指示信息以及与虚拟相机关联的物理相机的标识信息。可以理解的是，在实际应用中，可以选取上述一个自由视点描述子进行描述，也可以选取多个甚至是全部自由视点描述子进行描述。

自由视点描述子AvsFreeViewInfo为SupplementalProperty元素。自由视点描述子可存在于AdaptationSet层级或Representation层级。当自由视点描述子存在于AdaptationSet层级时，自由视点描述子描述该AdaptationSet层内所有的Representation对应的视点；当自由视点描述子存在于Representation层级时，自由视点描述子描述该Representation对应的视点。表2是自由视点描述子具体属性表，如下表所示：

表2

需要说明的是，在本申请实施例中，基于国际标准化组织基本媒体文件格式(International Organization for Standardization Base Media File Format，ISOBMFF)，将自由视角媒体数据进行封装。需要说明的是，受限方案中，即需要合成虚拟视点时的应用场景中，信息数据盒、轨道引用数据盒、轨道群组数据盒等ISO基本媒体文件格式可参照ISO/IEC JTC1/SC29/WG11运动图像专家组(Moving Picture Experts Group，MPEG)制定的MPEG-4Part12ISO Base Media File Format。

基于ISO基本媒体文件格式，所有数据均封装在数据盒(Box)中，ISO基本媒体文件格式由若干个数据盒组成，每个数据盒都有类型和长度，可以视为一个数据对象，能够容纳其他数据盒的数据盒，称为容器数据盒。

在一实施例中，真实视点媒体帧和虚拟视点媒体帧均封装于ISOBMFF媒体文件，ISOBMFF媒体文件中包括自由视点信息数据盒，自由视点信息数据盒用于描述媒体轨道或轨道片段中的视点信息。视点信息包括视点对应相机的数量或视点指示信息中的至少一个，其中，视点指示信息用于指示视点对应的相机为物理相机或者虚拟相机。

在一实施例中，将描述媒体元数据封装在MOOV数据盒或者MOOF数据盒中，通过MOOV或者MOOF中包含的轨道片段数据盒(track fragment box)或者媒体轨道(track box)描述对应媒体轨道或媒体片段的详细信息。更为具体地，自由视点信息数据盒AvsFreeViewInfoBox来描述媒体轨道或轨道片段中视点的信息，包括该轨道中包含的视点的数据量，该轨道对应的视点是否为虚拟视点。如果是虚拟视点，可包含虚拟视点的图像质量等级等。自由视点信息数据盒指示对应轨道内包含的一个或多个自由视点及其对应的相机元数据信息，具体包括：

数据盒类型(Box Type):'afvi'

包含于(Container):SchemeInformationBox或SampleEntry

强制的(Mandatory):不

数量(Quantity):零个或一个

其中，virtual_flag，指示数据盒所描述的视点对应的相机是否为虚拟相机；

virtual_quality_ranking，指示虚拟相机的画面质量等级；

codec_independency，指示轨道内各个相机对应的纹理图及深度图之间的编解码独立性。

texture_in_track，指示该媒体轨道中是否包含纹理图；值为1时，包含纹理图，值为0时，不包含纹理图；

depth_in_track，指示该媒体轨道中是否包含深度图；值为1时，包含深度图，值为0时，不包含深度图；

camera_count，采集视频的所有相机的个数。

camera_id，每个视角对应的相机标识符。

IntCamera_Info_flag指示是否包含相机的内参信息，为0，不包含；为1，包含。

ExtCamera_Info_flag指示是否包含相机的外参信息，为0，不包含；为1，包含。

IntCameraInfoStruct()指示相机的内参信息；

ExtCameraInfoStruct()指示相机的外参信息。

需要说明的是，虚拟视点和真实视点是存在关联关系，通常，虚拟视点图像是由至少两个真实视点图像合成。通过轨道分组track group方式将关联的虚拟视点和真实视点进行组合，或者通过轨道参考track reference，将虚拟视点关联到真实视点。

在一实施例中，当采用轨道分组track group方式将虚拟视点和真实视点相关联时，采用分组group类型进行识别，具体实现方式如下：

其中，将track_group_type设置为“cvre”来指示该轨道组为虚拟视点和其关联的真实视点。

在另一实施例中，当采用轨道参考track reference方式将虚拟视点和真实视点相关联时，采用参考reference类型进行识别，具体实现方式如下：

aligned(8)class TrackReferenceTypeBox(unsigned int(32)reference_type)extends Box(reference_type){

unsigned int(32)track_IDs[]；

}

其中，将reference_type设置为“cvtr”来指示虚拟视点对应的媒体轨道与真实视点对应的媒体轨道的关联。

图7是本申请一实施例提供的媒体信息播放方法流程图。如图7所示，该媒体信息播放方法应用于终端。在图7的实施例中，该媒体信息播放方法可以包括但不限于步骤S4000、步骤S5000、步骤S6000以及步骤S7000。

步骤S4000：获取MPD描述文本，其中，MPD描述文本描述有索引文件信息和媒体分片文件信息。

需要说明的是，终端获取的MPD描述文本就是在前述实施例中，由媒体服务器生成的MPD描述文本，MPD描述文本中记载有索引文件信息和媒体分片文件信息。

可以理解的是，媒体分片文件信息可以包括视频分片信息、音频分片信息等。

步骤S5000：根据MPD描述文本中的索引文件信息获取对应的索引文件。

终端根据MPD描述文本中的索引文件信息获取对应的索引文件，索引文件能够帮助终端快速找到目标的帧信息。

步骤S6000：根据索引文件获取待播放媒体帧。

待终端确定了具体视角、码率等参数后，终端根据索引文件获取待播放媒体帧。

步骤S7000：根据媒体分片文件信息对待播放媒体帧进行渲染播放。

终端对获取的待播放媒体帧进行读帧、解码、渲染等操作，最终实现媒体信息的播放。

在一实施例中，当终端响应于视角切换操作而具有了新的视角后，终端获取切换视角后的视点信息，并根据视点信息和索引文件获取新的待播放媒体帧，最终根据媒体分片文件信息对新的待播放媒体帧进行渲染播放。

在一实施例中，当媒体播放的应用场景为直播或者点播等时，新的待播放媒体帧为切换视角后的下一媒体帧。

在一实施例中，当媒体播放的应用场景为子弹时间时，新的待播放媒体帧为切换视角后的当前媒体帧。这样能够实现慢镜头甚至时间静止的效果。

需要说明的是，终端获取的切换视角后的视点信息，可以为真实视点的视点信息或虚拟视点的视点信息。在一实施例中，终端被选择仅播放真实视点的媒体信息，则此时视点信息仅包括真实视点的视点信息，虚拟视点的视点信息被屏蔽掉。

图8是本申请一实施例提供的终端进行媒体信息播放的流程示意图。如图8所示，

终端在开始进行媒体信息播放后，会先下载并解析MPD描述文本，能够通过对MPD描述文本的解析获得格式值为MPI类型值的真实视点媒体索引文件与虚拟视点媒体索引文件，并下载上述媒体索引文件并解析帧信息，这里的帧信息为待播放媒体帧信息。结合终端当前被选择执行的机位、码率，终端从媒体服务器下载对应的媒体帧，通过读帧、解码和渲染等操作，实现媒体信息的播放。

终端还将实时检测用户是否有切换视角的操作，如果用户没有切换视角的操作，则保持持续检测的状态，不做响应；如果检测到用户有切换视角的操作，则响应于视角切换操作，获取切换视角后的视点信息，也就是新的视角信息，新的视角信息可能对应于新的机位或新的码率，终端重复之前的步骤，即结合终端最新被选择执行的机位、码率，终端从媒体服务器下载对应的媒体帧，通过读帧、解码和渲染等操作，实现媒体信息的播放。

可以理解的是，切换视角这一操作可以来源于用户，也可以来源于其他程序设置，只要终端检测到视角切换的请求，则会响应于该请求，修改机位值信息，并后续按照修改后的机位值进行帧下载，完成视角切换。

通过将真实视点的描述和对虚拟视点的描述记载在媒体的MPD描述文本中，使终端根据描述文本中的帧信息以帧为单位进行数据下载，不仅能够节约带宽，还能降低视角交互的延时，保证播放的画质。

下面将通过四个应用场景详细说明本申请实施例提供的媒体信息处理方法与媒体信息播放方法的应用过程。

场景一：

场景一对应于直播场景，视频采集装置，例如相机，采集多路真实机位视频流，并将多个真实机位视频流发送到媒体服务器，媒体服务器根据多个真实机位视频流，生成虚拟视点视频流，媒体服务器分别对所有真实视点媒体流与虚拟视点媒体流进行帧同步，将经过帧同步的所有真实视点媒体流合并为单路真实视点媒体流，将经过帧同步的所有虚拟视点媒体流合并为单路虚拟视点媒体流，并分别对单路真实视点媒体流与单路虚拟视点媒体流进行切片封装，得到真实视点媒体分片文件与虚拟视点媒体分片文件，媒体服务器再根据真实视点媒体分片文件生成真实视点媒体索引文件，根据虚拟视点媒体分片文件生成虚拟视点媒体索引文件，真实视点媒体索引文件记载有真实视点媒体分片文件中各个真实视点媒体帧的帧信息，虚拟视点媒体索引文件记载有虚拟视点媒体分片文件中各个虚拟视点媒体帧的帧信息。最终利用真实视点媒体分片文件、虚拟视点媒体分片文件、真实视点媒体索引文件和虚拟视点媒体索引文件生成MPD描述文本。

图9是本申请一实施例提供的直播场景对应的虚拟视角切换的切换帧示意图。如图9所示，终端在直播时，客户端下载MPD描述文本并解析其中的媒体索引文件与媒体分片文件，媒体分片文件包括视频分片、音频分片、字幕分片等，基于当前用户的选择，播放真实机位1的媒体帧，已播放、正在播放或待播放的媒体帧在图中使用阴影表示。从图中可以看出，当用户切换视角时，即从真实机位1切换至虚拟机位1时，终端修改当前机位值，并对媒体帧下载切换后机位的下一帧进行播放，即对应图中虚拟机位1的阴影媒体帧。当后续终端接收到其他视角切换请求后，以此类推，执行类似的操作，均对媒体帧下载切换后机位的下一帧进行播放。基于此种方式的自由视角媒体播放画面平滑不抖动，画质好，且视角交互的延时低，占用带宽相对较小，对终端设备性能要求不高。

场景二：

场景二对应于点播场景，与直播场景的区别主要在于媒体信息是无需视频采集装置实时采集，而是已经采集录制好的，虚拟视点媒体流可以是媒体服务器生成的，也可以是其他服务器生成的。在此应用场景中，媒体服务器只需分别对单路真实视点媒体流与单路虚拟视点媒体流进行切片封装，得到真实视点媒体分片文件与虚拟视点媒体分片文件，媒体服务器再根据真实视点媒体分片文件生成真实视点媒体索引文件，根据虚拟视点媒体分片文件生成虚拟视点媒体索引文件，真实视点媒体索引文件记载有真实视点媒体分片文件中各个真实视点媒体帧的帧信息，虚拟视点媒体索引文件记载有虚拟视点媒体分片文件中各个虚拟视点媒体帧的帧信息。最终利用真实视点媒体分片文件、虚拟视点媒体分片文件、真实视点媒体索引文件和虚拟视点媒体索引文件生成MPD描述文本。

图10是本申请实施例提供的点播场景对应的虚拟视角切换的切换帧示意图。如图10所示，终端在点播时，客户端下载MPD描述文本并解析其中的媒体索引文件与媒体分片文件，媒体分片文件包括视频分片、音频分片、字幕分片等，基于当前用户的选择，播放虚拟机位2的媒体帧，已播放、正在播放或待播放的媒体帧在图中使用阴影表示。从图中可以看出，当用户切换视角时，即从虚拟机位2切换至真实机位2时，终端修改当前机位值，并对媒体帧下载切换后机位的下一帧进行播放，即对应图中真实机位2的阴影媒体帧。当后续终端接收到其他视角切换请求后，以此类推，执行类似的操作，均对媒体帧下载切换后机位的下一帧进行播放。基于此种方式的自由视角媒体播放画面平滑不抖动，画质好，且视角交互的延时低，占用带宽相对较小，对终端设备性能要求不高。

场景三：

场景三对应于子弹时间(Bullet time)场景，子弹时间是一种使用在电影、电视广告或电脑游戏中的摄影技术模拟变速特效，达到强化的慢镜头、时间静止等效果。

子弹时间场景与直播场景的区别主要在于媒体信息是无需视频采集装置实时采集，而是已经采集录制好的，虚拟视点媒体流可以是媒体服务器生成的，也可以是其他服务器生成的；与点播场景的区别主要在于视角切换后，对应播放的媒体帧不同。

在此应用场景中，媒体服务器分别对单路真实视点媒体流与单路虚拟视点媒体流进行切片封装，得到真实视点媒体分片文件与虚拟视点媒体分片文件，媒体服务器再根据真实视点媒体分片文件生成真实视点媒体索引文件，根据虚拟视点媒体分片文件生成虚拟视点媒体索引文件，真实视点媒体索引文件记载有真实视点媒体分片文件中各个真实视点媒体帧的帧信息，虚拟视点媒体索引文件记载有虚拟视点媒体分片文件中各个虚拟视点媒体帧的帧信息。最终利用真实视点媒体分片文件、虚拟视点媒体分片文件、真实视点媒体索引文件和虚拟视点媒体索引文件生成MPD描述文本。

图11是本申请实施例提供的子弹时间场景对应的虚拟视角切换的切换帧示意图。如图11所示，终端在采用子弹时间播放时，客户端下载MPD描述文本并解析其中的媒体索引文件与媒体分片文件，媒体分片文件包括视频分片、音频分片、字幕分片等，基于当前用户的选择，播放真实机位1的媒体帧，已播放、正在播放或待播放的媒体帧在图中使用阴影表示。从图中可以看出，当用户切换视角时，即从真实机位1切换至虚拟机位1时，终端修改当前机位值，并对媒体帧下载切换后机位的同一帧进行播放，即对应图中虚拟机位1的阴影媒体帧。当后续终端接收到其他视角切换请求后，以此类推，执行类似的操作，均对媒体帧下载切换后机位的同一帧进行播放。基于此种方式在实现子弹时间效果的同时，自由视角媒体播放画面平滑不抖动，画质好，且视角交互的延时低，占用带宽相对较小，对终端设备性能要求不高。

场景四：

场景四对应于屏蔽虚拟视点场景，与点播场景的区别主要在于视角切换后，对应播放的机位的媒体帧不同。

图12是本申请一实施例提供的屏蔽虚拟视点场景对应的虚拟视角切换的切换帧示意图。如图12所示，客户端下载MPD描述文本并解析其中的媒体索引文件与媒体分片文件，媒体分片文件包括视频分片、音频分片、字幕分片等。由于此种场景下仅播放真实视点对应的媒体信息，因此基于当前用户的选择，只播放真实机位1至4的媒体帧，，跳过虚拟机位对应视点的媒体帧。从图中可以看出，当用户切换视角时，即从真实机位1切换至真实机位2时，终端修改当前机位值，并对媒体帧下载切换后机位的下一帧进行播放，即对应图中真实机位2的阴影媒体帧。当后续终端接收到其他视角切换请求后，以此类推，执行类似的操作，均对媒体帧下载切换后真实机位的下一帧进行播放。基于此种方式在实现屏蔽虚拟视点的同时，自由视角媒体播放画面平滑不抖动，画质好，且视角交互的延时低，占用带宽相对较小，对终端设备性能要求不高。

图13是本申请一实施例提供的一种媒体信息处理装置结构示意图。如图13所示，该设备包括存储器1100、处理器1200。存储器1100、处理器1200的数量可以是一个或多个，图13中以一个存储器1100和一个处理器1200为例；设备中的存储器1100和处理器1200可以通过总线或其他方式连接，图13中以通过总线连接为例。

存储器1100作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请任一实施例提供的资源确定方法对应的程序指令/模块。处理器1200通过运行存储在存储器1100中的软件程序、指令以及模块实现上述媒体信息处理方法。

存储器1100可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序。此外，存储器1100可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件或其他非易失性固态存储器件。在一些实例中，存储器1100可进一步包括相对于处理器1200远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

图14是本申请一实施例提供的一种媒体信息播放装置结构示意图。如图14所示，在一实施例中，媒体信息播放装置可以包括存储器1300、处理器1400、输入装置1500、输出装置1600。

输入装置1500可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的案件信号输入。输出装置1600可包括显示屏等显示设备。

本申请一实施例还提供了一种计算机可读存储介质，存储有计算机可执行指令，该计算机可执行指令用于执行如本申请任一实施例提供的媒体信息处理方法或者媒体信息播放方法。

本申请实施例描述的***架构以及应用场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着***架构的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、***、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

在本说明书中使用的术语“部件”、“模块”、“***”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件、或执行中的软件。例如，部件可以是但不限于，在处理器上运行的进程、处理器、对象、可执行文件、执行线程、程序或计算机。通过图示，在计算设备上运行的应用和计算设备都可以是部件。一个或多个部件可驻留在进程或执行线程中，部件可位于一个计算机上或分布在2个或更多个计算机之间。此外，这些部件可从在上面存储有各种数据结构的各种计算机可读介质执行。部件可例如根据具有一个或多个数据分组(例如来自于自与本地***、分布式***或网络间的另一部件交互的二个部件的数据，例如通过信号与其它***交互的互联网)的信号通过本地或远程进程来通信。

以上参照附图说明了本申请的一些实施例，并非因此局限本申请的权利范围。本领域技术人员不脱离本申请的范围和实质内所作的任何修改、等同替换和改进，均应在本申请的权利范围之内。

Claims

1.一种媒体信息处理方法，包括：

获取多个视点的媒体，其中，所述多个视点包含至少一个真实视点和至少一个虚拟视点，所述虚拟视点的媒体根据所述至少一个真实视点的媒体生成；

根据所述多个视点的媒体生成媒体流，所述媒体流为包含媒体信息的媒体文件；

对所述媒体流进行切片封装，生成所述媒体的MPD描述文本，所述MPD描述文本包括对所述真实视点的描述和对所述虚拟视点的描述，所述MPD描述文本用于获取待播放视点的媒体流。

2.根据权利要求1所述的媒体信息处理方法，其特征在于，所述媒体流包括多个真实视点媒体流和多个虚拟视点媒体流；

所述对所述媒体流进行切片封装，生成所述媒体的MPD描述文本，包括：

对所有所述真实视点媒体流进行切片封装，得到真实视点媒体分片文件，其中，所述真实视点媒体分片文件包括多个真实视点媒体帧；

对所有所述虚拟视点媒体流进行切片封装，得到虚拟视点媒体分片文件，其中，所述虚拟视点媒体分片文件包括多个虚拟视点媒体帧；

根据所述真实视点媒体分片文件生成真实视点媒体索引文件，其中，所述真实视点媒体索引文件包括所述真实视点媒体分片文件中各个所述真实视点媒体帧的帧信息；

根据所述虚拟视点媒体分片文件生成虚拟视点媒体索引文件，其中，所述虚拟视点媒体索引文件包括所述虚拟视点媒体分片文件中各个所述虚拟视点媒体帧的帧信息；

根据所述真实视点媒体分片文件、所述虚拟视点媒体分片文件、所述真实视点媒体索引文件和所述虚拟视点媒体索引文件生成MPD描述文本。

3.根据权利要求2所述的媒体信息处理方法，其特征在于，所述对所有所述真实视点媒体流进行切片封装，得到真实视点媒体分片文件，包括：

对所有所述真实视点媒体流进行帧同步；

将经过帧同步的所有所述真实视点媒体流合并为单路真实视点媒体流；

对所述单路真实视点媒体流进行切片封装，得到真实视点媒体分片文件。

4.根据权利要求3所述的媒体信息处理方法，其特征在于，所述对所述单路真实视点媒体流进行切片封装，得到真实视点媒体分片文件，包括：

对所述单路真实视点媒体流进行基于DASH协议的切片封装，得到真实视点媒体分片文件。

5.根据权利要求2所述的媒体信息处理方法，其特征在于，所述对所有所述虚拟视点媒体流进行切片封装，得到虚拟视点媒体分片文件，包括：

对所有所述虚拟视点媒体流进行帧同步；

将经过帧同步的所有所述虚拟视点媒体流合并为单路虚拟视点媒体流；

对所述单路虚拟视点媒体流进行切片封装，得到虚拟视点媒体分片文件。

6.根据权利要求5所述的媒体信息处理方法，其特征在于，所述对所述单路虚拟视点媒体流进行切片封装，得到虚拟视点媒体分片文件，包括：

对所述单路虚拟视点媒体流进行基于DASH协议的切片封装，得到虚拟视点媒体分片文件。

7.根据权利要求1所述的媒体信息处理方法，其特征在于，所述MPD描述文本包括MultiIdrIndex字段，所述MultiIdrIndex字段用于描述所述真实视点媒体索引文件的信息，其中，所述真实视点媒体索引文件的格式值为MPI类型值。

8.根据权利要求7所述的媒体信息处理方法，其特征在于，当所述MultiIdrIndex字段包括insert字段，表示所述MultiIdrIndex字段用于描述所述虚拟视点媒体索引文件的信息，其中，所述insert字段的取值表示相邻真实视点之间所增加的虚拟视点的数量。

9.根据权利要求1所述的媒体信息处理方法，其特征在于，所述MPD描述文本包括AdaptationSet字段，当所述AdaptationSet字段包括cameras字段，表示所述AdaptationSet字段用于描述所述真实视点媒体分片文件的信息，其中，所述cameras字段用于表示真实视点的数量。

10.根据权利要求9所述的媒体信息处理方法，其特征在于，当所述AdaptationSet字段包括insert字段，表示所述AdaptationSet字段用于描述所述虚拟视点媒体分片文件的信息，其中，所述insert字段的取值表示相邻真实视点之间所增加的虚拟视点的数量。

11.根据权利要求2所述的媒体信息处理方法，其特征在于，所述真实视点媒体索引文件和所述虚拟视点媒体索引文件均封装于MP4格式，所述真实视点媒体流和所述虚拟视点媒体流分别对应有MOOF数据盒，所述MOOF数据盒包含媒体帧的帧大小。

12.根据权利要求1所述的媒体信息处理方法，其特征在于，所述真实视点对应物理相机，所述虚拟视点对应虚拟相机，所述物理相机和所述虚拟相机均通过相机描述子进行描述，其中，所述相机描述子包括以下至少之一：

相机指示信息；

相机的位置信息；

相机的标识信息；

与所述虚拟相机关联的所述物理相机的标识信息。

13.根据权利要求1所述的媒体信息处理方法，其特征在于，所述真实视点对应物理相机，所述虚拟视点对应虚拟相机，所述真实视点和所述虚拟视点均通过自由视点描述子进行描述，其中，所述自由视点描述子包括以下至少之一：

视点的标识信息；

视点所对应的相机标识信息；

相机指示信息；

与所述虚拟相机关联的所述物理相机的标识信息。

14.根据权利要求2所述的媒体信息处理方法，其特征在于，所述真实视点媒体帧和所述虚拟视点媒体帧均封装于ISO BMFF媒体文件。

15.根据权利要求1所述的媒体信息处理方法，其特征在于，所述媒体文件为ISO BMFF媒体文件，所述ISO BMFF媒体文件中包括自由视点信息数据盒，所述自由视点信息数据盒用于描述媒体轨道或轨道片段中的视点信息。

16.根据权利要求15所述的媒体信息处理方法，其特征在于，所述自由视点信息数据盒用于指示对应轨道内所包含的一个或多个自由视点以及所述自由视点所对应的相机元数据信息。

17.根据权利要求15所述的媒体信息处理方法，其特征在于，所述视点信息包括视点所对应的相机的数量或视点指示信息中的至少一个，其中，所述视点指示信息用于指示视点所对应的相机为物理相机或者虚拟相机。

18.根据权利要求17所述的媒体信息处理方法，其特征在于，当所述视点信息包括视点指示信息，并且所述视点指示信息指示视点所对应的相机为虚拟相机，所述视点信息还包括所述虚拟相机的图像质量等级。

19.根据权利要求14至18任一所述的媒体信息处理方法，其特征在于，所述真实视点和所述虚拟视点存在关联关系，所述真实视点和所述虚拟视点通过轨道组方式或者轨道参考方式相关联。

20.一种媒体信息播放方法，包括：

获取MPD描述文本，其中，所述MPD描述文本描述有索引文件信息和媒体分片文件信息；

根据所述MPD描述文本中的所述索引文件信息获取对应的索引文件；

根据所述索引文件获取待播放媒体帧；

根据所述媒体分片文件信息对所述待播放媒体帧进行渲染播放。

21.根据权利要求20所述的媒体信息播放方法，其特征在于，所述媒体信息播放方法还包括：

响应于视角切换操作，获取切换视角后的视点信息；

根据所述视点信息和所述索引文件获取新的待播放媒体帧；

根据所述媒体分片文件信息对所述新的待播放媒体帧进行渲染播放。

22.根据权利要求21所述的媒体信息播放方法，其特征在于，所述新的待播放媒体帧包括如下之一：

切换视角后的下一媒体帧；

切换视角后的当前媒体帧。

23.根据权利要求21所述的媒体信息播放方法，其特征在于，所述视点信息为真实视点的视点信息或虚拟视点的视点信息。

24.一种媒体信息处理装置，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至19任意一项所述的媒体信息处理方法。

25.一种媒体信息播放装置，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求20至23任意一项所述的媒体信息播放方法。

26.一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1至19任意一项所述的媒体信息处理方法，或者执行权利要求20至23任意一项所述的媒体信息播放方法。