CN106982389B

CN106982389B - 视频类型识别方法及装置

Info

Publication number: CN106982389B
Application number: CN201710160533.XA
Authority: CN
Inventors: 李智
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-03-17
Filing date: 2017-03-17
Publication date: 2022-01-07
Anticipated expiration: 2037-03-17
Also published as: CN106982389A

Abstract

本发明公开了一种视频类型识别方法及装置，属于虚拟现实技术领域。所述方法包括：从虚拟现实VR视频中提取视频帧；从所述视频帧中提取多个取样图像，所述多个取样图像的尺寸相同；计算所述多个取样图像中任两个取样图像之间的相似度，所述相似度用于表示对应的两个取样图像的相似程度；根据所述任两个取样图像之间的相似度以及所述任两个取样图像之间的位置关系，确定所述VR视频的类型。本发明实现了VR视频类型的自动识别，无需采用人工识别的方式，节省了人力成本，提高了识别速度，而且通过多个取样图像进行识别可以保证识别准确率。

Description

视频类型识别方法及装置

技术领域

本发明涉及虚拟现实技术领域，特别涉及一种视频类型识别方法及装置。

背景技术

VR(Virtual Reality，虚拟现实)视频是指可以实现三维展示功能的视频，通常会应用于VR设备中。VR设备可以创建一个虚拟环境，并在该虚拟环境中播放VR视频，为观众提供视觉和听觉的模拟体验，使观众在虚拟环境中观看VR视频的过程中产生身临其境的感受。

VR视频可以包括多种类型，如单一类型、上下类型、左右类型等，不同类型的VR视频在播放时采用的处理方式不同。例如，对于单一类型的VR视频，只需将VR视频在预先建立好的三维模型上进行渲染后播放，即可实现三维展示的效果。而对于上下类型的VR视频，需要先将VR视频由上下类型转换为左右类型后再播放，才能保证处理后的VR视频符合人眼左右观看的模式，用户通过VR设备进行观看时可以实现三维展示的效果。

那么，为了保证VR视频的展示效果，在对任一VR视频进行处理之前需要先识别该VR视频的类型。相关技术中，VR视频的提供商获得VR视频后，会直接播放VR视频，由工作人员人工地观看VR视频，查看VR视频中的图像内容，从而识别出VR视频的类型。但是采用人工的方式会消耗大量的人力成本，而且识别速度很慢。

发明内容

为了解决相关技术的问题，本发明实施例提供了一种视频类型识别方法及装置。所述技术方案如下：

第一方面，提供了一种视频类型识别方法，所述方法包括：

从虚拟现实VR视频中提取视频帧；

从所述视频帧中提取多个取样图像，所述多个取样图像的尺寸相同；

计算所述多个取样图像中任两个取样图像之间的相似度，所述相似度用于表示对应的两个取样图像的相似程度；

根据所述任两个取样图像之间的相似度以及所述任两个取样图像之间的位置关系，确定所述VR视频的类型。

第二方面，提供了一种视频类型识别装置，所述装置包括：

视频帧提取模块，用于从虚拟现实VR视频中提取视频帧；

图像提取模块，用于从所述视频帧中提取多个取样图像，所述多个取样图像的尺寸相同；

计算模块，用于计算所述多个取样图像中任两个取样图像之间的相似度，所述相似度用于表示对应的两个取样图像的相似程度；

确定模块，用于根据所述任两个取样图像之间的相似度以及所述任两个取样图像之间的位置关系，确定所述VR视频的类型。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例提供的方法及装置，通过从VR视频中提取视频帧，从中提取多个取样图像，根据任两个取样图像之间的相似度及位置关系可以确定VR视频的类型，实现了自动识别，无需采用人工识别的方式，节省了人力成本，提高了识别速度，而且通过多个取样图像进行识别可以保证识别准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种单一类型的视频帧的示意图；

图2是本发明实施例提供的一种上下类型的视频帧的示意图；

图3是本发明实施例提供的一种左右类型的视频帧的示意图；

图4是本发明实施例提供的一种视频类型识别方法的流程图；

图5A是本发明实施例提供的一种取样图像的示意图；

图5B是本发明实施例提供的一种取样图像的示意图；

图5C是本发明实施例提供的一种取样图像的示意图；

图5D是本发明实施例提供的一种识别类型的操作流程图；

图6是本发明实施例提供的一种视频类型识别装置的结构示意图；

图7是本发明实施例提供的一种终端的结构示意图；

图8是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在对本发明实施例进行说明之前，首先对一些概念进行如下解释：

1、VR设备：能够采用虚拟现实技术创建虚拟环境的设备，该虚拟环境具备人体的感官特性，包括视觉、听觉、触觉、味觉、嗅觉等，是一种多源信息融合的、交互式的环境，用户沉浸在该虚拟环境中时可以产生身临其境的感受。

VR设备可以为三维扫描仪、头戴式立体显示器、三维鼠标、眼动仪或者其他交互设备等。

2、VR视频：可以实现三维展示功能的视频，通常是对普通视频进行后期处理后形成。VR视频可以在VR设备上播放，VR设备会创建一个虚拟环境，并在该虚拟环境中播放该VR视频，使得用户在虚拟环境中观看VR视频的过程中，产生身临其境的感受。

VR视频包括多种类型，如单一类型、上下类型、左右类型等。其中，参见图1，单一类型是指VR视频中的视频帧为单一的图像。参见图2，上下类型是指VR视频中的视频帧由两张相同的图像按照上下方向排列组成。参见图3，左右类型是指VR视频中的视频帧由两张相同的图像按照左右方向排列组成。

图4是本发明实施例提供的一种视频类型识别方法的流程图，本发明实施例的执行主体为识别装置，该识别装置可以为VR设备、计算机或者服务器等。参见图4，该方法包括：

400、获取待识别的VR视频。

在一种可能的实现方式中，该识别装置可以为计算机或者服务器等具备处理功能的设备，该识别装置可以在播放VR视频之前获取该VR视频，该VR视频可以由该识别装置生成，或者由该识别装置下载得到。待识别出该VR视频的类型之后，该识别装置可以在该VR视频中添加类型标识，该类型标识可以表示该VR视频的类型。后续过程中，当VR设备通过拷贝、下载等方式获取到该VR视频时，即可根据该VR视频的类型标识确定该VR视频的类型，从而根据确定的类型播放该VR视频。

在另一种可能的实现方式中，该识别装置可以为VR设备，当VR设备获取到VR视频，将要播放该VR视频时，可以在播放之前先获取VR视频，识别出VR视频的类型后，再播放该VR视频。

401、从该VR视频中提取视频帧。

其中，VR视频中包括多个按照顺序排列的视频帧，视频帧的图像内容决定了VR视频的类型。为了便于识别VR视频的类型，该识别装置可以从该VR视频中提取一个或多个视频帧，以便确定VR视频的类型。

在一种可能实现方式中，该识别装置可以获取该VR视频的视频标识和待提取的视频帧的帧索引号，基于视频标识和帧索引号调用视频帧读取函数，从而通过该视频帧读取函数，从VR视频中提取与帧索引号对应的视频帧。

实际应用中，该识别装置会按照视频标识存储VR视频，视频标识用于唯一确定该VR视频，可以为视频名称、视频编号或者为VR视频的存储地址等，根据该视频标识可以查找到该VR视频。该帧索引号用于确定待提取的视频帧在VR视频中的顺序，VR视频中的每个视频帧对应于一个帧索引号，基于不同的帧索引号可以从VR视频中提取到不同的视频帧。

例如，该视频帧读取函数可以为aviread函数，将VR视频的视频名称和视频帧的帧索引号输入到aviread函数中，可以根据该视频名称查找到VR视频，并从VR视频中提取到与该帧索引号对应的视频帧。

进一步地，为了提高识别准确率，该识别装置可以从VR视频中提取多个视频帧，根据该多个视频帧识别VR视频的类型。那么，在进行提取时，该识别装置可以确定多个帧索引号，分别基于该多个帧索引号调用该视频帧读取函数，从而提取到多个视频帧。

其中，在确定该多个帧索引号时，可以随机地确定，也可以按照固定的差值确定，使得确定的任两个相邻的帧索引号的差值相等，从而保证提取到平均分布于VR视频中的多个视频帧，当然也可以采用其他的方式确定多个帧索引号。

402、对该视频帧进行灰阶处理，并从处理后的视频帧中提取多个取样图像。

其中，灰阶是指像素点的亮暗程度，对该视频帧进行灰阶处理是指将该视频帧转换为单色图像，单色图像中的每个像素点具有从黑到白的多级灰阶中的一种，而没有颜色的变化。之后，可以从处理后的视频帧中提取多个取样图像，该多个取样图像的尺寸相同，通过对该多个取样图像中的图像内容进行分析以确定视频帧的类型，进而确定VR视频的类型。

在另一实施例中，该步骤402可以由以下步骤代替：从该视频帧中提取多个初始取样图像，并对该多个初始取样图像分别进行灰阶处理，得到处理后的多个取样图像。也即是，先从视频帧中提取取样图像再进行灰阶处理。

上述过程中进行灰阶处理后再识别该视频帧的类型时，可以减小计算量，缩短识别时间。并且，与先进行灰阶处理再提取取样图像相比，先提取取样图像再进行灰阶处理可以减小进行灰阶处理的像素点的数量，减小计算量，进而提高识别速度。

当然，上述进行灰阶处理的步骤为可选步骤，该识别装置也可以不对视频帧进行灰阶处理，直接从视频帧中提取多个取样图像后进行分析处理即可。

关于该多个取样图像，该多个取样图像可以为矩形、正方形、圆形等形状，且该多个取样图像可以位于视频帧中的任意位置。

例如，VR视频为左右类型时，视频帧的左半部分的图像与右半部分的图像内容相同。则从视频帧中提取取样图像时，可以提取第一取样图像和第二取样图像，并保证第二取样图像位于第一取样图像的右方，那么第二取样图像和第一取样图像之间的相似度越大，表示该视频帧越可能是左右类型。

进一步地，考虑到上下类型或者左右类型的视频帧中的两幅图像通常会关于视频帧的中心点对称，则为了准确地进行识别，在提取该多个取样图像时，可以采用该视频帧的中心点作为参考点进行提取，保证所提取的多个取样图像关于该中心点对称。

例如，参见图5A，可以在该中心点的左右两侧分别提取第一取样图像和第二取样图像，且两个取样图像关于该中心点所在的竖直线对称，或者，参见图5B，还可以在该中心点的上下两侧分别提取第一取样图像和第三取样图像，且两个取样图像关于该中心点所在的水平线对称。

或者，参见图5C，还可以提取四个取样图像：第一取样图像、第二取样图像、第三取样图像和第四取样图像。其中，第一取样图像和第二取样图像关于视频帧的中心点所在的竖直线对称，且第二取样图像位于第一取样图像的右方；第一取样图像和第三取样图像关于视频帧的中心点所在的水平线对称，且第三取样图像位于第一取样图像的下方；第四取样图像和第二取样图像关于视频帧的中心点所在的水平线对称，并和第三取样图像关于视频帧的中心点所在的竖直线对称，第四取样图像位于第二取样图像的下方，并位于第三取样图像的右方。

例如，视频帧的宽度为x像素，高度为y像素，以视频帧的任一顶点为原点，该顶点所在的水平线为x轴，该顶点所在的竖直线为y轴，则所提取的四个取样图像的顶点位置、宽度和高度可以为：

第一取样图像：顶点位置(x/8，y/8)，宽度x/4，高度y/4；

第二取样图像：顶点位置(5x/8，y/8)，宽度x/4，高度y/4；

第三取样图像：顶点位置(x/8，5y/8)，宽度x/4，高度y/4；

第四取样图像：顶点位置(5x/8，5y/8)，宽度x/4，高度y/4。

403、计算该多个取样图像中任两个取样图像之间的相似度。

其中，相似度用于表示对应的两个取样图像的相似程度，相似度越大，表示对应的两个取样图像越相似，即这两个取样图像的图像内容越可能相同。为了确定该视频帧的类型，该识别装置可以计算该多个取样图像中任两个取样图像之间的相似度，以确定该多个取样图像的图像内容是否相同。采用计算相似度的方式，可以有效地将视频帧的图像特征转换为一个客观的数值，便于进行数据处理，并且避免了由于处理图像而引起的噪声。

在一种可能实现方式中，以取样图像x和取样图像y为例，采用以下公式，计算任两个取样图像中取样图像x与取样图像y之间的相似度：

其中，F(x,y)表示取样图像x与取样图像y之间的相似度，x_i表示取样图像x中第i个像素点的亮度，y_i表示取样图像y中第i个像素点的亮度，i＝1,2,...,N，N表示每个取样图像中的像素数目，μ_x表示取样图像x的平均亮度，μ_y表示取样图像y的平均亮度，σ_x表示取样图像x的亮度的标准差，σ_y表示取样图像y的亮度的标准差，σ_xy表示取样图像x与取样图像y之间的亮度协方差，C₁＝(K₁L)²，C₂＝(K₂L)²，L＝2ⁿ，n表示像素值的位数，L表示像素值的动态范围，K₁＝0.01，K₂＝0.03。

F(x,y)具有对称性，即F(x,y)＝F(y,x)，还具有有界性，即F(x,y)≤1，并且具有最大值唯一性，即当且仅当x＝y时，F(x,y)取得最大值1。实际上，当F(x,y)为1时，表示取样图像x和取样图像y的图像内容完全相同，F(x,y)为0时，表示取样图像x和取样图像y的图像内容完全不同。

404、根据该任两个取样图像之间的相似度以及该任两个取样图像之间的位置关系，确定该VR视频的类型。

计算出相似度之后，根据同一视频帧中不同位置上的取样图像的图像内容是否相同，即可确定视频帧的类型，进而确定VR视频的类型。具体地，根据取样图像位置的不同，可以采用不同的方式确定视频帧的类型，具体可以包括下述步骤(1)至(4)中的任一项：

(1)参见图5A，如果多个取样图像中包括第一取样图像和第二取样图像，第一取样图像和第二取样图像关于视频帧的中心点所在的竖直线对称，且第二取样图像位于第一取样图像的右方，则当第一取样图像与第二取样图像之间的相似度不小于预设阈值时，确定视频帧的类型为左右类型，则可以确定VR视频的类型为左右类型。

其中，预设阈值用于规定相同图像之间的最小相似度，即两张相同图像之间的相似度的最小值，那么，对于任两张图像来说，这两张图像之间的相似度不小于预设阈值时，表示这两张图像的内容相同，而这两张图像之间的相似度小于该预设阈值时，表示这两张图像的内容不同。该预设阈值可以根据识别精确度确定，例如可以为(0.5，1)范围内的任一数值。

本发明实施例中，第一取样图像与第二取样图像之间的相似度不小于预设阈值，表示该第一取样图像和该第二取样图像的图像内容相同，且由于该第一取样图像和该第二取样图像位于中心点的左右两侧，则可以确定该视频帧的类型为左右类型。

另外，当第一取样图像与第二取样图像之间的相似度小于预设阈值时，可以确定视频帧的类型不是左右类型，有可能是上下类型或者单一类型。

在另一实施例中，所提取的多个取样图像位于视频帧中的任意位置，如果多个取样图像中包括第一取样图像和第二取样图像，该第二取样图像位于该第一取样图像的右方，则该识别装置也可以在第一取样图像与第二取样图像之间的相似度不小于已设定的另一预设阈值时，确定视频帧的类型为左右类型，进而确定VR视频的类型为左右类型。其与上述步骤(1)的区别在于，第一取样图像和第二取样图像不一定是关于视频帧的中心点所在的竖直线对称，即使在视频帧确实为左右类型的情况下，所提取的第一取样图像和第二取样图像的相似度也很小，因此，所采用的预设阈值应当小于上述步骤(1)中的预设阈值，具体的取值可以通过实验确定。

(2)如果多个取样图像中包括第一取样图像和第三取样图像，第一取样图像和第三取样图像关于视频帧的中心点所在的水平线对称，且第三取样图像位于第一取样图像的下方，则当第一取样图像与第三取样图像之间的相似度不小于预设阈值时，确定视频帧的类型为上下类型，则可以确定VR视频的类型为上下类型。

本发明实施例中，第一取样图像与第三取样图像之间的相似度不小于预设阈值，表示第一取样图像与第三取样图像的图像内容相同，且由于该第一取样图像与该第三取样图像位于中心点的上下两侧，则可以确定该视频帧的类型为上下类型。

另外，当第一取样图像与第三取样图像之间的相似度小于预设阈值时，可以确定视频帧的类型不是上下类型，有可能是左右类型或者单一类型。

在另一实施例中，所提取的多个取样图像位于视频帧中的任意位置，如果多个取样图像中包括第一取样图像和第三取样图像，该第三取样图像位于该第一取样图像的下方，则该识别装置也可以在第一取样图像与第三取样图像之间的相似度不小于已设定的另一预设阈值时，确定视频帧的类型为上下类型，进而确定VR视频的类型为上下类型。其与上述步骤(2)的区别在于，第一取样图像和第三取样图像不一定是关于视频帧的中心点所在的水平线对称，即使在视频帧确实为上下类型的情况下，所提取的第一取样图像和第三取样图像的相似度也很小，因此，所采用的预设阈值应当小于上述步骤(2)中的预设阈值，具体的取值可以通过实验确定。

(3)参见图5C，如果多个取样图像中包括第一取样图像、第二取样图像、第三取样图像和第四取样图像；第一取样图像和第二取样图像关于视频帧的中心点所在的竖直线对称，且第二取样图像位于第一取样图像的右方；第一取样图像和第三取样图像关于视频帧的中心点所在的水平线对称，且第三取样图像位于第一取样图像的下方；第四取样图像和第二取样图像关于视频帧的中心点所在的水平线对称，并和第三取样图像关于视频帧的中心点所在的竖直线对称，第四取样图像位于第二取样图像的下方，并位于第三取样图像的右方，

则当第一取样图像与第二取样图像之间的相似度不小于预设阈值，且第三取样图像与第四取样图像之间的相似度不小于预设阈值时，表示该第一取样图像与该第二取样图像的图像内容相同，且该第三取样图像与该第四取样图像的图像内容相同，则可以确定视频帧的类型为左右类型，即VR视频的类型为左右类型；

或者，当第一取样图像与第三取样图像之间的相似度不小于预设阈值，且第二取样图像与第四取样图像之间的相似度不小于预设阈值时，表示该第一取样图像与该第三取样图像的图像内容相同，且该第二取样图像与该第四取样图像的图像内容相同，则可以确定视频帧的类型为上下类型，即VR视频的类型为上下类型。

(4)、在提取到上述四个取样图像时，除上述(3)提供的两种情况之外，其他情况下可以确定VR视频的类型为单一类型。

也即是，当第一取样图像与第二取样图像之间的相似度小于预设阈值，且第一取样图像与第三取样图像之间的相似度小于预设阈值，确定视频帧的类型为单一类型，即VR视频的类型为单一类型；或者，当第二取样图像与第三取样图像之间的相似度小于预设阈值，且第二取样图像与第四取样图像之间的相似度小于预设阈值，确定视频帧的类型为单一类型，即VR视频的类型为单一类型；或者，当第三取样图像与第一取样图像之间的相似度小于预设阈值，且第三取样图像与第四取样图像之间的相似度小于预设阈值，确定视频帧的类型为单一类型，即VR视频的类型为单一类型；或者，当第四取样图像与第二取样图像之间的相似度小于预设阈值，且第四取样图像与第三取样图像之间的相似度小于预设阈值，确定视频帧的类型为单一类型，即VR视频的类型为单一类型。

在另一实施例中，所提取的多个取样图像位于视频帧中的任意位置，如果多个取样图像中包括第一取样图像、第二取样图像、第三取样图像和第四取样图像，该第二取样图像位于该第一取样图像的右方，该第三取样图像位于该第一取样图像的下方，则该识别装置也可以采用与上述步骤(3)和(4)类似的方式确定视频帧的类型，进而确定VR视频的类型。其与上述步骤(3)和(4)的区别在于，所提取的任两个取样图像不一定是关于视频帧的中心点对称，即使在视频帧确实为左右类型或者上下类型的情况下，所提取的取样图像的相似度也很小，因此，所采用的预设阈值应当小于上述步骤(3)和(4)中的预设阈值，具体的取值可以通过实验确定。

需要说明的是，上述实施例仅以一个视频帧为例进行说明，该视频帧的类型即可认为是VR视频的类型。而在实际应用中，仅根据一个视频帧的类型确定VR视频的类型可能会造成识别错误，为了提高识别准确率，可以从VR视频中提取多个视频帧，对于每个视频帧均可采用上述步骤402-404确定该视频帧的类型，从而得到多个视频帧的类型。那么，根据多个视频帧中的每个视频帧的类型，确定出现次数最多的类型，作为VR视频的类型。例如，从VR视频中提取到5个视频帧，识别之后确定其中2个视频帧的类型为上下类型，3个视频帧的类型为左右类型，此时可以确定VR视频为左右类型。

需要说明的另一点是，本发明实施例仅是以单一类型、上下类型和左右类型为例进行说明，实际上VR视频也可以包括其他类型，对于其他类型的VR视频，该识别装置可以采用上述方法进行识别。

识别VR视频的类型之后，VR设备即可根据VR视频的类型确定相应的处理方式，对VR视频进行处理之后进行播放，即可实现三维展示的效果，以保证用户能观看到三维视频。

其中，当VR视频的类型为单一类型时，VR设备可以将VR视频在预先建立好的三维模型上进行渲染后播放，当用户佩戴上VR设备并观看该VR视频时，可以实现观看三维视频的效果。

当VR视频的类型为上下类型时，VR设备可以将VR视频由上下类型转换为左右类型后再播放，使得转换后的VR视频符合人眼左右观看的模式，当用户佩戴上VR设备并观看该转换后的VR视频时，可以实现观看三维视频的效果。

当VR视频的类型为左右类型时，该VR视频符合人眼左右观看的模式，VR设备可以直接播放该VR视频，当用户佩戴上VR设备并观看该转换后的VR视频时，可以实现观看三维视频的效果。

本发明实施例提供的方法，通过从VR视频中提取视频帧，从中提取多个取样图像，根据任两个取样图像之间的相似度及位置关系可以确定VR视频的类型，实现了自动识别，无需采用人工识别的方式，节省了人力成本，提高了识别速度，而且通过多个取样图像进行识别可以保证识别准确率。

在上述实施例的基础上，参见图5D，本发明实施例提供如下示例性的操作流程：

501、识别装置获取VR视频，具体可以由视频提供商的识别装置获取已生成的VR视频，或者视频提供商将VR视频提供给VR设备，由VR设备获取VR视频。

502、从VR视频中提取视频帧。

503、对提取的视频帧进行灰阶处理。

504、从处理后的视频帧中提取取样图像，包括如图5C所示的第一取样图像、第二取样图像、第三取样图像和第四取样图像。

505、计算第一取样图像与第二取样图像之间的相似度、第三取样图像与第四取样图像之间的相似度、第一取样图像与第三取样图像之间的相似度、第二取样图像与第四取样图像之间的相似度。

506、根据第一取样图像与第二取样图像之间的相似度、第三取样图像与第四取样图像之间的相似度，判断视频帧是否为左右类型，如果是左右类型，则识别结束，如果不是左右类型，则执行步骤507。

507、根据第一取样图像与第三取样图像之间的相似度、第二取样图像与第四取样图像之间的相似度，判断视频帧是否为上下类型，如果是上下类型，则识别结束，如果不是上下类型，则确定该视频帧的类型为单一类型。

在另一种可能的实现方式中，也可以先执行步骤507，判断该视频帧的类型是否为上下类型，如果是上下类型，则识别结束，如果不是上下类型，再执行步骤506判断该视频帧的类型是否为左右类型，还是单一类型，从而识别出该视频帧的类型。

图6是本发明实施例提供的一种视频类型识别装置的结构示意图。参见图6，该装置包括：视频帧提取模块601、图像提取模块602、计算模块603、确定模块604。

视频帧提取模块601，用于提取视频帧；

图像提取模块602，用于提取多个取样图像；

计算模块603，用于计算任两个取样图像之间的相似度；

确定模块604，用于确定VR视频的类型。

可选地，视频帧提取模块601包括：

标识获取单元，用于获取VR视频的视频标识和视频帧的帧索引号；

提取单元，用于从VR视频中提取与帧索引号对应的视频帧。

可选地，图像提取模块602，用于对视频帧进行灰阶处理，并提取多个取样图像；或者，提取多个初始取样图像，并对多个初始取样图像分别进行灰阶处理，得到处理后的多个取样图像。

可选地，计算模块603，用于采用以下公式，计算任两个取样图像中取样图像x与取样图像y之间的相似度：

其中，F(x,y)表示取样图像x与取样图像y之间的相似度，x_i表示取样图像x中第i个像素点的亮度，y_i表示取样图像y中第i个像素点的亮度，i＝1,2,...,N，N表示每个取样图像中的像素数目，μ_x表示取样图像x的平均亮度，μ_y表示取样图像y的平均亮度，σ_x表示取样图像x的亮度的标准差，σ_y表示取样图像y的亮度的标准差，σ_xy表示取样图像x与取样图像y之间的亮度协方差，C₁＝(K₁L)²，C₂＝(K₂L)²，L＝2ⁿ，n表示像素值的位数，K₁＝0.01，K₂＝0.03。

可选地，确定模块604，用于如果多个取样图像中包括上述图4所示实施例中的第一取样图像和第二取样图像，则当第一取样图像与第二取样图像之间的相似度不小于预设阈值时，确定VR视频的类型为左右类型。

可选地，确定模块604，用于如果多个取样图像中包括上述图4所示实施例中的第一取样图像和第三取样图像，则当第一取样图像与第三取样图像之间的相似度不小于预设阈值时，确定VR视频的类型为上下类型。

可选地，确定模块604，用于如果多个取样图像中包括上述图4所示实施例中的第一取样图像、第二取样图像、第三取样图像和第四取样图像，则当第一取样图像与第二取样图像之间的相似度不小于预设阈值，且第三取样图像与第四取样图像之间的相似度不小于预设阈值时，确定VR视频的类型为左右类型；或者，当第一取样图像与第三取样图像之间的相似度不小于预设阈值，且第二取样图像与第四取样图像之间的相似度不小于预设阈值时，确定VR视频的类型为上下类型。

可选地，确定模块604，用于当第一取样图像与第二取样图像之间的相似度小于预设阈值，且第一取样图像与第三取样图像之间的相似度小于预设阈值时，确定VR视频的类型为单一类型；或者，

确定模块604，用于当第二取样图像与第三取样图像之间的相似度小于预设阈值，且第二取样图像与第四取样图像之间的相似度小于预设阈值时，确定VR视频的类型为单一类型；或者，

确定模块604，用于当第三取样图像与第一取样图像之间的相似度小于预设阈值，且第三取样图像与第四取样图像之间的相似度小于预设阈值时，确定VR视频的类型为单一类型；或者，

确定模块604，用于当第四取样图像与第二取样图像之间的相似度小于预设阈值，且第四取样图像与第三取样图像之间的相似度小于预设阈值时，确定VR视频的类型为单一类型。

可选地，确定模块604，用于当所述视频帧的数目为多个时，对于多个视频帧中的每个视频帧，根据视频帧中任两个取样图像之间的相似度以及任两个取样图像在视频帧中的位置，确定视频帧的类型；根据多个视频帧中的每个视频帧的类型，确定出现次数最多的类型，作为VR视频的类型。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的视频类型识别装置在识别视频类型时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将识别装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频类型识别装置与视频类型识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图7是本发明实施例提供的一种终端的结构示意图。该终端可以用于实施上述实施例所示出的视频类型识别方法中的识别装置所执行的功能。具体来讲：

终端700可以包括RF(Radio Frequency，射频)电路110、包括有一个或一个以上计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、传输模块170、包括有一个或者一个以上处理核心的处理器180、以及电源190等部件。本领域技术人员可以理解，图7中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器180处理；另外，将涉及上行的数据发送给基站。通常，RF电路110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路110还可以通过无线通信与网络和其他终端通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯***)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(CodeDivision Multiple Access，码分多址)、WCDMA(Wideband Code Division MultipleAccess,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(ShortMessaging Service，短消息服务)等。

存储器120可用于存储软件程序以及模块，如上述示例性实施例所示出的终端所对应的软件程序以及模块，处理器180通过运行存储在存储器120的软件程序以及模块，从而执行各种功能应用以及数据处理，如实现基于视频的交互等。存储器120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端700的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器120还可以包括存储器控制器，以提供处理器180和输入单元130对存储器120的访问。

输入单元130可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元130可包括触敏表面131以及其他输入终端132。触敏表面131，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作)，并根据预先设定的程式驱动相应的链接装置。可选的，触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器180，并能接收处理器180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131，输入单元130还可以包括其他输入终端132。具体地，其他输入终端132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端700的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板141。进一步的，触敏表面131可覆盖显示面板141，当触敏表面131检测到在其上或附近的触摸操作后，传送给处理器180以确定触摸事件的类型，随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图7中，触敏表面131与显示面板141是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面131与显示面板141集成而实现输入和输出功能。

终端700还可包括至少一种传感器150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板141的亮度，接近传感器可在终端700移动到耳边时，关闭显示面板141和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端700还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路160、扬声器161，传声器162可提供用户与终端700之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出；另一方面，传声器162将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出处理器180处理后，经RF电路110以发送给比如另一终端，或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔，以提供外设耳机与终端700的通信。

终端700通过传输模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线或有线的宽带互联网访问。虽然图7示出了传输模块170，但是可以理解的是，其并不属于终端700的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器180是终端700的控制中心，利用各种接口和线路链接整个手机的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行终端700的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器180可包括一个或多个处理核心；优选的，处理器180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器180中。

终端700还包括给各个部件供电的电源190(比如电池)，优选的，电源可以通过电源管理***与处理器180逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端700还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端700的显示单元是触摸屏显示器，终端700还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行上述一个或者一个以上程序包含用于实施上述实施例中识别装置所执行操作的指令。

图8是本发明实施例提供的一种服务器的结构示意图，该服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processingunits，CPU)822(例如，一个或一个以上处理器)和存储器832，一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器822可以设置为与存储介质830通信，在服务器800上执行存储介质830中的一系列指令操作。

服务器800还可以包括一个或一个以上电源826，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口858，一个或一个以上键盘856，和/或，一个或一个以上操作***841，例如Windows Server^TM，Mac OS X^TM，Unix^TM，Linux^TM，FreeBSD^TM等等。

该服务器800可以用于执行上述实施例提供的视频类型识别方法中识别装置所执行的步骤。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频类型识别方法，其特征在于，所述方法包括：

获取VR视频的视频标识和待提取的视频帧的帧索引号，所述帧索引号用于确定所述待提取的视频帧在所述VR视频中的顺序；

基于所述视频标识和所述帧索引号调用视频帧读取函数，从所述VR视频中提取与所述帧索引号对应的平均分布于VR视频中的多个视频帧；

从所述视频帧中提取多个尺寸相同的初始取样图像，并对多个所述初始取样图像分别进行灰阶处理，得到处理后的多个取样图像；

计算所述多个取样图像中任两个取样图像之间的相似度，所述相似度用于表示对应的两个取样图像的相似程度；其中，所述任两个取样图像中取样图像x与取样图像y之间的相似度F(x,y)与取样图像(x,y)的平均亮度(μ_x,μ_y)、亮度标准差(σ_x,σ_y)以及取样图像x与取样图像y之间的亮度协方差σ_xy满足以下关系：

其中，C₁＝(K₁L)²，C₂＝(K₂L)²，L＝2ⁿ，n表示像素值的位数，K₁＝0.01，K₂＝0.03；

根据所述任两个取样图像之间的相似度以及所述任两个取样图像之间的位置关系，确定所述视频帧的类型；

根据所述多个视频帧中的每个视频帧的类型，确定出现次数最多的类型，作为所述VR视频的类型；根据所述VR视频的类型确定相应的处理方式；其中，所述处理方式包括：当VR视频的类型为单一类型时，将VR视频在预先建立好的三维模型上进行渲染后播放；当VR视频的类型为上下类型时，将VR视频由上下类型转换为左右类型后再播放；当VR视频的类型为左右类型时，直接播放该VR视频。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述多个取样图像包括第一取样图像和第二取样图像，所述第一取样图像和所述第二取样图像关于所述视频帧的中心点所在的竖直线对称，且所述第二取样图像位于所述第一取样图像的右方，所述第一取样图像与所述第二取样图像之间的相似度不小于预设阈值时，确定所述视频帧的类型为左右类型。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述多个取样图像中包括第一取样图像和第三取样图像，所述第一取样图像和所述第三取样图像关于所述视频帧的中心点所在的水平线对称，且所述第三取样图像位于所述第一取样图像的下方，所述第一取样图像与所述第三取样图像之间的相似度不小于预设阈值时，确定所述视频帧的类型为上下类型。

4.根据权利要求1所述的方法，其特征在于，所述多个取样图像中包括第一取样图像、第二取样图像、第三取样图像和第四取样图像，所述第一取样图像和所述第二取样图像关于所述视频帧的中心点所在的竖直线对称，所述第二取样图像位于所述第一取样图像的右方，所述第一取样图像和所述第三取样图像关于所述视频帧的中心点所在的水平线对称，所述第三取样图像位于所述第一取样图像的下方，所述第四取样图像和所述第二取样图像关于所述视频帧的中心点所在的水平线对称，所述第四取样图像位于所述第二取样图像的下方；

所述方法还包括：

当所述第一取样图像与所述第三取样图像之间的相似度不小于预设阈值，且所述第二取样图像与所述第四取样图像之间的相似度不小于所述预设阈值时，确定所述视频帧的类型为上下类型。

5.根据权利要求1所述的方法，其特征在于，所述多个取样图像中包括第一取样图像、第二取样图像、第三取样图像和第四取样图像，所述第一取样图像和所述第二取样图像关于所述视频帧的中心点所在的竖直线对称，所述第二取样图像位于所述第一取样图像的右方，所述第一取样图像和所述第三取样图像关于所述视频帧的中心点所在的水平线对称，所述第三取样图像位于所述第一取样图像的下方，所述第四取样图像和所述第二取样图像关于所述视频帧的中心点所在的水平线对称，所述第四取样图像位于所述第二取样图像的下方；

所述方法还包括：

当所述第一取样图像与所述第二取样图像之间的相似度小于预设阈值，且所述第一取样图像与所述第三取样图像之间的相似度小于所述预设阈值时，确定所述视频帧的类型为单一类型；或者，

当所述第二取样图像与所述第三取样图像之间的相似度小于所述预设阈值，且所述第二取样图像与所述第四取样图像之间的相似度小于所述预设阈值时，确定所述视频帧的类型为单一类型；或者，

当所述第三取样图像与所述第一取样图像之间的相似度小于所述预设阈值，且所述第三取样图像与所述第四取样图像之间的相似度小于所述预设阈值时，确定所述视频帧的类型为单一类型；或者，

当所述第四取样图像与所述第二取样图像之间的相似度小于所述预设阈值，且所述第四取样图像与所述第三取样图像之间的相似度小于所述预设阈值时，确定所述视频帧的类型为单一类型。

6.一种视频类型识别装置，其特征在于，所述装置包括：

视频帧提取模块，用于从虚拟现实VR视频中提取视频帧；

图像提取模块，用于：获取VR视频的视频标识和待提取的视频帧的帧索引号，所述帧索引号用于确定所述待提取的视频帧在所述VR视频中的顺序；基于所述视频标识和所述帧索引号调用视频帧读取函数，从所述VR视频中提取与所述帧索引号对应的平均分布于VR视频中的多个视频帧；从所述视频帧中提取多个尺寸相同的初始取样图像，并对多个所述初始取样图像分别进行灰阶处理，得到处理后的多个取样图像；

计算模块，用于计算所述多个取样图像中任两个取样图像之间的相似度，所述相似度用于表示对应的两个取样图像的相似程度；其中，所述任两个取样图像中取样图像x与取样图像y之间的相似度F(x,y)与取样图像(x,y)的平均亮度(μ_x,μ_y)、亮度标准差(σ_x,σ_y)以及取样图像x与取样图像y之间的亮度协方差σ_xy满足以下关系：

确定模块，用于：

根据所述多个视频帧中的每个视频帧的类型，确定出现次数最多的类型，作为所述VR视频的类型；

根据所述VR视频的类型确定相应的处理方式；其中，所述处理方式包括：当VR视频的类型为单一类型时，将VR视频在预先建立好的三维模型上进行渲染后播放；当VR视频的类型为上下类型时，将VR视频由上下类型转换为左右类型后再播放；当VR视频的类型为左右类型时，直接播放该VR视频。

7.根据权利要求6所述的装置，其特征在于，所述确定模块，还用于当所述多个取样图像包括第一取样图像和第二取样图像，所述第一取样图像和所述第二取样图像关于所述视频帧的中心点所在的竖直线对称，所述第二取样图像位于所述第一取样图像的右方，且所述第一取样图像与所述第二取样图像之间的相似度不小于预设阈值时，确定所述视频帧的类型为左右类型。

8.根据权利要求6所述的装置，其特征在于，所述确定模块，还用于当所述多个取样图像中包括第一取样图像和第三取样图像，所述第一取样图像和所述第三取样图像关于所述视频帧的中心点所在的水平线对称，且所述第三取样图像位于所述第一取样图像的下方，所述第一取样图像与所述第三取样图像之间的相似度不小于预设阈值时，确定所述视频帧的类型为上下类型。

9.根据权利要求6所述的装置，其特征在于，所述多个取样图像中包括第一取样图像、第二取样图像、第三取样图像和第四取样图像，所述第一取样图像和所述第二取样图像关于所述视频帧的中心点所在的竖直线对称，所述第二取样图像位于所述第一取样图像的右方，所述第一取样图像和所述第三取样图像关于所述视频帧的中心点所在的水平线对称，所述第三取样图像位于所述第一取样图像的下方，所述第四取样图像和所述第二取样图像关于所述视频帧的中心点所在的水平线对称，所述第四取样图像位于所述第二取样图像的下方；

所述确定模块，还用于当所述第一取样图像与所述第三取样图像之间的相似度不小于预设阈值，且所述第二取样图像与所述第四取样图像之间的相似度不小于所述预设阈值时，确定所述视频帧的类型为上下类型。

10.根据权利要求6所述的装置，其特征在于，所述多个取样图像中包括第一取样图像、第二取样图像、第三取样图像和第四取样图像，所述第一取样图像和所述第二取样图像关于所述视频帧的中心点所在的竖直线对称，所述第二取样图像位于所述第一取样图像的右方，所述第一取样图像和所述第三取样图像关于所述视频帧的中心点所在的水平线对称，所述第三取样图像位于所述第一取样图像的下方，所述第四取样图像和所述第二取样图像关于所述视频帧的中心点所在的水平线对称，所述第四取样图像位于所述第二取样图像的下方；

所述确定模块，还用于当所述第一取样图像与所述第二取样图像之间的相似度小于预设阈值，且所述第一取样图像与所述第三取样图像之间的相似度小于所述预设阈值时，确定所述视频帧的类型为单一类型；或者，

所述确定模块，用于当所述第二取样图像与所述第三取样图像之间的相似度小于所述预设阈值，且所述第二取样图像与所述第四取样图像之间的相似度小于所述预设阈值时，确定所述视频帧的类型为单一类型；或者，

所述确定模块，用于当所述第三取样图像与所述第一取样图像之间的相似度小于所述预设阈值，且所述第三取样图像与所述第四取样图像之间的相似度小于所述预设阈值时，确定所述视频帧的类型为单一类型；或者，

所述确定模块，用于当所述第四取样图像与所述第二取样图像之间的相似度小于所述预设阈值，且所述第四取样图像与所述第三取样图像之间的相似度小于所述预设阈值时，确定所述视频帧的类型为单一类型。

11.一种终端，其特征在于，所述终端包括：

存储器；

一个或一个以上处理器；

所述存储器存储有一个或者一个以上程序，所述一个或者一个以上程序经配置以由所述一个或一个以上处理器执行，所述一个或一个以上程序包含用于执行如权利要求1-5中任一项所述的视频类型识别方法。

12.一种服务器，其特征在于，所述服务器包括：

存储器；

一个或一个以上处理器；

所述存储器存储有程序，所述程序包括指令，所述一个或一个以上处理器被配置为执行所述指令，以执行如权利要求1-5中任一项所述的视频类型识别方法。