CN111193965A

CN111193965A - 一种视频播放方法、视频处理方法及装置

Info

Publication number: CN111193965A
Application number: CN202010044374.9A
Authority: CN
Inventors: 周霆; 王健; 刘小辉; 陈海龙; 庹虎
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2020-05-22
Anticipated expiration: 2040-01-15
Also published as: CN111193965B

Abstract

本发明实施例提供了一种视频播放方法、视频处理方法及装置，属于视频技术领域。所述视频播放方法包括：接收目标信息；显示每一视频帧中的第一目标图像区域内的视频图像，同时显示目标字幕内容。本发明实施例中，在仅用待播放视频的局部图像进行画面渲染之前，先获取与待播放视频对应外挂字幕。由于外挂字幕与待播放视频为两个独立的文件，因此，可以对外挂字幕进行单独控制，使其完整的显示在终端设备的屏幕中，提升播放效果。

Description

一种视频播放方法、视频处理方法及装置

技术领域

本发明涉及视频技术领域，尤其涉及一种视频播放方法、视频处理方法及装置。

背景技术

随着终端设备(如手机、平板电脑)的普及，以及终端设备体积小巧、便于携带的特征，使得越来越多的用户使用终端设备观看视频。

现有技术中存在一种视频播放模式，在该视频播放模式下，仅用待播放视频的局部图像进行画面渲染，即在播放视频时，仅将被播放视频的每一视频帧的一部分图像显示出来。

但在前述播放模式下，由于显示的只是一帧视频图像的局部图像，因此，视频图像对应的字幕也可能只显示局部，影响视频播放效果。

发明内容

本发明提供一种视频播放方法、视频处理方法及装置，以便在一定程度上解决现有技术中在仅用待播放视频的局部图像进行画面渲染时，存在只显示部分字幕的问题。

在本发明实施的第一方面，提供了一种视频播放方法，应用于终端设备，所述视频播放方法包括：

接收目标信息；其中，所述目标信息包括：目标视频以及所述目标视频对应的字幕内容；

显示每一视频帧中的第一目标图像区域内的视频图像，同时显示目标字幕内容；其中，所述视频帧为所述目标视频中的视频帧；所述第一目标图像区域为每一视频帧中的局部图像区域；所述目标字幕内容为与显示的所述视频图像对应的完整字幕内容。

可选地，所述字幕内容为根据所述目标视频中的内嵌字幕得到的外挂字幕。

可选地，在所述显示每一视频帧中的第一目标图像区域内的视频图像之前，所述视频播放方法还包括：

去除第二目标图像区域内的内嵌字幕；

其中，所述第二目标图像区域为目标视频帧中的全部图像区域、所述目标视频帧中的所述第一目标图像区域或所述目标视频帧中除所述第一目标图像区域外的图像区域；所述目标视频帧为所述目标视频中具有内嵌字幕的视频帧。

可选地，所述去除第二目标图像区域内的内嵌字幕，包括：

识别所述第二目标图像区域内的内嵌字幕的轮廓；

根据所述内嵌字幕的轮廓，确定所述内嵌字幕对应的像素点；

将所述内嵌字幕对应的像素点的颜色值用预设颜色值进行替换。

可选地，所述目标信息中还包括：位置信息，所述位置信息为各所述视频帧的同一位置的坐标点信息或每一所述视频帧中的第三目标图像区域的中心坐标点信息，所述第三目标图像区域为每一所述视频帧中的局部图像区域，所述第三目标图像区域在各所述视频帧中的位置动态变化。

根据所述位置信息和所述终端设备的旋转角度，确定每一所述视频帧中的所述第一目标图像区域。

在本发明实施的第二方面，提供了一种视频处理方法，应用于服务器，所述视频处理方法包括：

发送目标信息至终端设备；其中，所述目标信息包括：目标视频以及所述目标视频对应的字幕内容；所述字幕内容为所述服务器预先获取并保存的字幕内容。

可选地，在所述发送目标信息至终端设备之前，所述视频处理方法还包括：

获取所述字幕内容。

可选地，所述获取所述字幕内容，包括：

每隔预设帧数，对所述目标视频中的视频帧进行字幕识别；其中，所述预设帧数大于或等于0；

对于识别出的初始字幕内容按照相似度进行分组；

对每一分组中的初始字幕内容取并集，并以最长公共子序列的长度为度量，对得到的并集集合中的字词进行排序；其中，所述最长公共子序列为所述并集集合中的字词与对应分组中的初始字幕内容之间的最长公共子序列；

将排序后的字词确定为所述字幕内容。

可选地，所述目标信息中还包括：位置信息，所述位置信息为各视频帧的同一位置的坐标点信息或每一所述视频帧中的第三目标图像区域内的中心坐标点信息；其中，所述视频帧为所述目标视频中的视频帧；所述第三目标图像区域为每一所述视频帧中的局部图像区域，所述第三目标图像区域在各所述视频帧中的位置动态变化。

在本发明实施的第三方面，提供了一种视频播放装置，应用于终端设备，所述视频播放装置包括：

接收模块，用于接收目标信息；其中，所述目标信息包括：目标视频以及所述目标视频对应的字幕内容；

显示模块，用于显示每一视频帧中的第一目标图像区域内的视频图像，同时显示目标字幕内容；其中，所述视频帧为所述目标视频中的视频帧；所述第一目标图像区域为每一视频帧中的局部图像区域；所述目标字幕内容为与显示的所述视频图像对应的完整字幕内容。

可选地，所述视频播放装置还包括：

字幕处理模块，用于去除第二目标图像区域内的内嵌字幕；

可选地，所述字幕处理模块包括：

第一识别单元，用于识别所述第二目标图像区域内的内嵌字幕的轮廓；

第一确定单元，用于根据所述内嵌字幕的轮廓，确定所述内嵌字幕对应的像素点；

像素处理单元，用于将所述内嵌字幕对应的像素点的颜色值用预设颜色值进行替换。

可选地，所述视频播放装置还包括：

确定模块，用于根据所述位置信息和所述终端设备的旋转角度，确定每一所述视频帧中的所述第一目标图像区域。

在本发明实施的第四方面，提供了一种视频处理装置，应用于服务器，所述视频处理装置包括：

发送模块，用于发送目标信息至终端设备；其中，所述目标信息包括：目标视频以及所述目标视频对应的字幕内容；所述字幕内容为所述服务器预先获取并保存的字幕内容。

可选地，所述视频处理装置还包括：

获取模块，用于获取所述字幕内容。

可选地，所述获取模块包括：

第二识别单元，用于每隔预设帧数，对所述目标视频中的视频帧进行字幕识别；其中，所述预设帧数大于或等于0；

分组单元，用于对于识别出的初始字幕内容按照相似度进行分组；

排序单元，用于对每一分组中的初始字幕内容取并集，并以最长公共子序列的长度为度量，对得到的并集集合中的字词进行排序；其中，所述最长公共子序列为所述并集集合中的字词与对应分组中的初始字幕内容之间的最长公共子序列；

第二确定单元，用于将排序后的字词确定为所述字幕内容。

在本发明实施的第五方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现如上所述的视频播放方法中的步骤或实现如上所述的视频处理方法中的步骤。

在本发明实施的第六方面，还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的视频播放方法或实现如上所述的视频处理方法。

在本发明实施例的第七方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如上所述的视频播放方法或执行如上所述的视频处理方法。

针对在先技术，本发明具备如下优点：

本发明实施例中，在仅用待播放视频(即目标视频)的局部图像(即第一目标图像区域内的视频图像)进行画面渲染之前，先获取与待播放视频对应外挂字幕(即目标视频对应的字幕内容)。由于外挂字幕与待播放视频为两个独立的文件，因此，可以对外挂字幕进行单独控制，使其完整的显示在终端设备的屏幕中，提升播放效果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的一种视频播放方法的流程示意图；

图2为本发明实施例提供的另一种视频播放方法的流程示意图；

图3为本发明实施例提供的字幕去除过程的示意图；

图4为本发明实施例提供的一种视频处理方法的流程示意图；

图5为本发明实施例提供的另一种视频处理方法的流程示意图；

图6为本发明实施例提供的终端设备与服务器交互的示意图；

图7为本发明实施例提供的一种视频播放装置的框图；

图8为本发明实施例提供的另一种视频播放装置的框图；

图9为本发明实施例提供的一种视频处理装置的框图；

图10为本发明实施例提供的另一种视频处理装置的框图；

图11为本发明实施例提供的电子设备的框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，还可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1是本发明实施例提供的一种视频播放方法的流程示意图。该视频播放方法应用于终端设备。这里所述的终端设备可以包括但不限于：手机、平板电脑、可穿戴设备等具有视频播放功能的电子设备。

如图1所示，该视频播放方法可以包括：

步骤101：接收目标信息。

本步骤中所述的目标信息包括：目标视频以及目标视频对应的字幕内容。目标视频对应的字幕内容为外挂字幕，与目标视频是两个独立的文件。

目标信息可以是服务器发送的，也可以是其他终端设备发送的。例如，目标信息的发送者为服务器时，终端设备为了获取目标信息，可以先发送一请求消息至服务器，该请求消息用于请求以目标播放方式播放目标视频，该目标播放方式是指以目标视频的每一视频帧中的第一目标图像区域内的视频图像进行显示画面渲染的播放模式。服务器接收到该请求消息后，发送目标信息至该终端设备。

目标视频对应的原字幕可以是内嵌字幕，也可以是外挂字幕。

步骤102：显示每一视频帧中的第一目标图像区域内的视频图像，同时显示目标字幕内容。

本步骤中所述的视频帧为目标视频中的视频帧。

本步骤中所述的第一目标图像区域为每一视频帧中的局部图像区域。

本步骤中所述的目标字幕内容为与显示的视频图像对应的完整字幕内容。

一般目标视频对应的目标字幕内容，会按照目标视频的播放时间，与目标视频同步播放。

图2是本发明实施例提供的另一种视频播放方法的流程示意图。该视频播放方法应用于终端设备。这里所述的终端设备可以包括但不限于：手机、平板电脑、可穿戴设备等具有视频播放功能的电子设备。

如图2所示，该视频播放方法可以包括：

步骤201：接收目标信息。

本步骤中所述的目标信息包括：目标视频以及目标视频对应的字幕内容。

本发明实施例中，目标视频中内嵌有内嵌字幕，而目标视频对应的字幕内容为：根据目标视频中的内嵌字幕得到的外挂字幕。外挂字幕与目标视频与目标视频是两个独立的文件。

本发明实施例中，目标信息可以服务器发送的，也可以是其他终端设备发送的。例如，目标信息的发送者为服务器时，终端设备为了获取目标信息，可以先发送一请求消息至服务器，该请求消息用于请求以目标播放方式播放目标视频，该目标播放方式是指以目标视频的每一视频帧中的第一目标图像区域内的视频图像进行显示画面渲染的播放模式。服务器接收到该请求消息后，发送目标信息至该终端设备。

步骤202：去除第二目标图像区域内的内嵌字幕。

本步骤中所述的第二目标图像区域为：目标视频帧中的全部图像区域或目标视频帧中的第一目标图像区域。这里所述目标视频帧为目标视频中具有内嵌字幕的视频帧。

本发明实施例中，在显示第一目标图像区域内的视频图像之前，可以先对视频帧中的内嵌字幕进行处理，将其去除，从而使外挂字幕呈现更自然的显示效果。

可选地，可以对内嵌字幕所在的图像区域进行模糊处理，从而去除内嵌字幕，或采用叠加蒙版(如纯色蒙版)的方式对内嵌字幕进行遮挡，从而去除内嵌字幕。

可选地，内嵌字幕的去除，可以是在目标视频的播放过程中实时进行的，也可以是在目标视频的播放之前进行的。

步骤203：显示每一视频帧中的第一目标图像区域内的视频图像，同时显示目标字幕内容。

本步骤中所述的视频帧为目标视频中的视频帧。

本步骤中所述的目标字幕内容为与显示的所述视频图像对应的完整字幕内容。

本发明实施例中，显示的视频图像为去除内嵌字幕的图像。

本发明实施例中，在仅用待播放视频(即目标视频)的局部图像(即第一目标图像区域内的视频图像)进行画面渲染之前，先获取与待播放视频对应外挂字幕(即目标视频对应的字幕内容)。由于外挂字幕与待播放视频为两个独立的文件，因此，可以对外挂字幕进行单独控制，使其完整的显示在终端设备的屏幕中，提升播放效果。此外，本发明实施例中，还去除了待播放视频中的内嵌字幕，使外挂字幕具有更自然的显示效果，进一步提升了播放效果。

可选地，步骤202：去除第二目标图像区域内的内嵌字幕，可以包括：

识别第二目标图像区域内的内嵌字幕的轮廓；根据内嵌字幕的轮廓，确定内嵌字幕对应的像素点；将内嵌字幕对应的像素点的颜色值用预设颜色值进行替换。

本发明实施例中，可以通过用其他颜色值(即预设颜色值)替换内嵌字幕对应的像素点，从而去除内嵌字幕。可选地，该预设颜色值可以是：内嵌字幕的预设范围内的像素点(即邻域像素)的颜色值的加权平均值。

可选地，本发明实施例中，在根据内嵌字幕的轮廓，确定内嵌字幕对应的像素点时，可以先对内嵌字幕的轮廓进行膨胀处理，去除内嵌字幕的轮廓内的空洞。然后对去除轮廓内空洞的内嵌字幕进行腐蚀处理，去除随机噪点，最后根据去除随机噪点的内嵌字幕，确定内嵌字幕的覆盖范围，进而确定出内嵌字幕对应的像素点。其中，内嵌字幕的覆盖范围内的像素点即为内嵌字幕对应的像素点。

为了更好地理解上述去除字幕内容的过程，下面以一示例加以说明。

假设，该示例中目的在于：去除第一目标图像区域内的内嵌字幕。

如图3所示，301中所示的“铁会烫伤”以及“Iron burns”为第一目标图像区域内的内嵌字幕。

先对第一目标图像区域内的图像，进行水平方向和垂直方向的边缘检测(即sobel)卷积核卷积，识别出内嵌字幕的轮廓，识别结果如图3中的302所示。

接着对识别出的内嵌字幕的轮廓进行膨胀(即Dilation)处理，去除轮廓内的空洞，处理结果如图3中的303所示。

再接着对去除空洞的内嵌字幕进行腐蚀(即Erosion)处理，去除随机噪点，确定出内嵌字幕对应的图像区域，处理结果如图3中的304所示。

之后，通过快速匹配算法(Fast Marching Method，简称FMM)，对内嵌字幕对应的图像区域按照从外到内的顺序，用内嵌字幕对应的图像区域外的像素加权替换掉内嵌字幕对应的图像区域内的像素，处理结果图3中的305所示。

最后，经过前述处理后，在播放目标视频时，与当前视频帧对应的外挂字幕“铁会烫伤精灵的”以及“Iron burns fairies”的显示效果，如图3中的306所示。

可选地，目标信息中还包括：内嵌字幕在其所在的视频帧中的位置信息(这里记为第一位置信息)。通过该位置信息，可以使终端设备在去除内嵌字幕时，快速且准确的确定出所要去除的内嵌字幕在目标视频帧中的位置，并且这样不用对整帧视频图像进行识别，仅对特定的局部图像进行识别即可，运算量低，效率高，有利于降低终端设备的功耗。

可选地，第二目标图像区域还可以是：目标视频帧中除第一目标图像区域外的图像区域。

在以每一视频帧中的第一目标图像区域内的视频图像渲染显示画面后，用户可能具有查看第一目标图像区域外的视频图像的需求。例如，在目标视频为横屏视频时，终端设备正以竖屏模式显示该横屏视频的每一视频帧中的第一目标图像区域内的视频图像。假设，终端设备此时仅是将第一目标图像区域内的内嵌字幕进行了去除处理。由于用户可能具有查看第一目标图像区域右侧或左侧的视频图像的需求，因此，在检测到用于显示第一目标图像区域之外的视频图像的操作时，可以确定待显示的图像区域，然后对该待显示的图像区域中的内嵌字幕进行去除处理操作。再假设，在终端设备的屏幕上的左滑操作，为用于查看第一目标图像区域右侧图像区域内的视频图像的操作。在终端设备的屏幕上的右滑操作，为用于查看第一目标图像区域左侧图像区域内的视频图像的操作。终端设备在检测到左滑操作时，对第一目标图像区域右侧图像区域内的内嵌字幕进行去除处理；终端设备在检测到右滑操作时，对第一目标图像区域左侧图像区域内的内嵌字幕进行去除处理。

需要说明的是，这里所述的“左”和“右”是相对于用户而言的，例如，终端设备的屏幕与用户面对面设置时，第二目标图像区域右侧即用户的右侧，第二目标图像区域左侧即用户的左侧。

可选地，目标信息还包括：位置信息(这里记为第二位置信息)。该位置信息可以是各视频帧的同一位置的坐标信息，如各视频帧的中心点的坐标点信息。该位置信息也可以是每一所述视频帧中的第三目标图像区域的中心坐标点信息(即第三目标图像区域的中心点的坐标信息)。这里所述的第三目标图像区域为每一所述视频帧中的局部图像区域。一般，该第三目标图像区域内的视频图像为用户比较关注的图像内容，因此，第三目标图像区域在各视频帧中的位置是动态变化的。

本发明实施例中，可以根据前述位置信息(即第二位置信息)、终端设备的旋转角度以及终端设备的屏幕尺寸，确定每一视频帧中的第一目标图像区域。

例如，在播放目标视频时，可以先确定终端设备的旋转角度，假设终端设备当前的显示状态为竖直且正立放置，确定此时的旋转角度为0°，待显示图像应为竖直正立播放。当旋转角度大于0°时，待显示图像与终端屏幕之间，也会具有大于0°的夹角，即待显示图像相对用户而言，始终是竖直正立的。然后，根据位置信息和终端设备的屏幕尺寸信息，确定每一视频帧中的第一目标图像区域。例如，将位置信息对应的坐标点确定为第一目标图像区域的中心点；将终端设备的屏幕的宽度值确定为第二目标图像区域的宽度值；将目标横屏视频的高度值确定为第二目标图像区域的高度值，从而确定出第一目标图像区域。这样，一是可以使确定出的第一目标图像区域与终端设备的屏幕尺寸更适配，二是可以更好的满足用户的观看需求。

可选地，该目标信息还可以包括：字幕内容与目标视频的播放时间之间的对应关系。例如，目标视频中具有“天气晴朗”这一内嵌字幕，基于这一字幕内容是在哪一播放时间段内连续出现的，这一字幕内容与相应的播放时间段之间会建立对应关系。可选地，字幕内容与目标视频的播放时间之间的对应关系，也可由字幕内容与视频帧之间的对应关系替代。例如，继续以前述示例为例说明，基于这一字幕内容是在哪些视频帧中连续出现的，这一字幕内容与这些视频帧之间可以建立对应关系。

图4是本发明实施例提供的一种视频处理方法的流程示意图。该视频处理方法应用于服务器(即云端)。

如图4所示，该视频处理方法可以包括：

步骤401：发送目标信息至终端设备。

本步骤中所述的目标信息包括：目标视频以及目标视频对应的字幕内容。目标视频对应的字幕内容为服务器预先获取并保存的字幕内容。目标视频对应的字幕内容为外挂字幕，与目标视频是两个独立的文件。目标视频对应的原字幕可以是内嵌字幕，也可以是外挂字幕。

本发明实施例中，服务器可以预先获取目标视频对应的字幕内容，并在终端设备需要时，将目标信息发送至终端设备，以使终端设备显示目标视频的每一视频帧中的第一目标图像区域内的视频图像的同时，显示目标字幕内容。其中，第一目标图像区域为每一视频帧中的局部图像区域。目标字幕内容为与显示的视频图像对应的完整字幕内容。

例如，终端设备为了获取目标信息，可以先发送一请求消息至服务器，该请求消息用于请求以目标播放方式播放目标视频，该目标播放方式是指以目标视频的每一视频帧中的第一目标图像区域内的视频图像进行显示画面渲染的播放模式。服务器接收到该请求消息后，发送目标信息至该终端设备。

本发明实施例中，服务器发送至终端设备的字幕内容为服务器预先获取的、与目标视频对应的外挂字幕。由于外挂字幕与待播放视频为两个独立的文件，因此，终端设备可以对外挂字幕进行单独控制，使其完整的显示在终端设备的屏幕中，提升播放效果。

图5是本发明实施例提供的另一种视频处理方法的流程示意图。该视频处理方法应用于服务器(即云端)。

如图5所示，该视频处理方法可以包括：

步骤501：获取目标视频对应的字幕内容。

本发明实施例中，目标视频中内嵌有内嵌字幕，而获取的目标视频对应的字幕内容为：根据目标视频中的内嵌字幕得到的外挂字幕。外挂字幕与目标视频与目标视频是两个独立的文件。

可选地，服务器获得字幕内容后，可以将字幕内容和目标视频分别单独存储。

步骤502：发送目标信息至终端设备。

可选地，步骤501：获取所述字幕内容，可以包括：

每隔预设帧数，对目标横屏视频中的视频帧进行字幕识别；对于每一分组中的初始字幕内容取并集，并以最长公共子序列的长度为度量，对得到的并集集合中的字词进行排序；将排序后的字词确定为目标视频对应的字幕内容。

其中，预设帧数大于或等于0。

本发明实施例中，可以通过光学字符识别(Optical Character Recognition，简称OCR)技术，对目标视频中的字幕内容进行识别。而在对目标视频中的字幕进行识别时，可以针对每一视频帧均进行字幕识别，也可以每隔几帧视频帧进行一次字幕识别，以减小数据处理量。可以理解的是，具体情况可根据需求选择。

对于识别出的字幕内容(即初始字幕内容)，可以按照字幕内容的相似度进行分组，即通过相似度确定为同一字幕内容的初始字幕内容。可选地，在进行分组时，可以按照视频帧在目标视频中的先后顺序，依次对相邻两帧视频帧的字幕识别结果(即初始字幕内容)进行相似度比较。若相似度大于或等于预设相似度值，则将这两帧视频帧的字幕识别结果划分为一组。若相似度小于预设相似度值，则将这两帧视频帧视为两个分组的分界视频帧，前一视频帧属于一个分组，后一视频帧属于另一个分组。其中，这里所述的相邻两帧视频帧为被进行字幕识别的视频帧中的相邻两帧视频帧。

在完成分组后，对同一分组中的初始字幕内容取并集，并以最长公共子序列的长度为度量，对并集集合中的字词进行排序；将排序后的字词对应的字幕内容，确定为目标视频对应的字幕内容。其中，这里所述的最长公共子序列为：该并集集合中的字词与对应分组中的初始字幕内容之间的最长公共子序列。这样，可以保证更好的保证字幕内容的准确性。

假设，一个分组中的初始字幕内容分别为：字幕内容A：“什么表现，这次全都反应在卷面上了”和字幕内容B：“么表现，这次全都反应在卷面上了”。在直接对字幕内容A和B取并集时，由于取得的并集中的元素不分先后顺序，因此，对于通过取并集得到的字幕内容，其中的字词顺序与原字幕内容中的字词顺序很可能不一致，导致识别结果不准确。本发明实施例中，为了克服这一问题，可以在取并集后，以最长公共子序列的长度为度量，对并集集合中的字词进行排序，即取得的并集集合中的字词需与字幕内容A、B具有最长公共子序列。在该示例中，并集集合中的字词与字幕内容A、B之间的最长公共子序列为“什么表现，这次全都反应在卷面上了”，这样，以最长公共子序列的长度为度量，对并集集合中的字词进行排序后得到的字幕结果为：“什么表现，这次全都反应在卷面上了”。

可选地，本发明实施例中，在获取字幕内容时，还可以对英文字幕进行语法校正，以仅可能提高字幕内容的准确度。

可选地，目标信息还包括：位置信息(这里记为第二位置信息)。该位置信息可以是各视频帧的同一位置的坐标信息，如各视频帧的中心点的坐标点信息。该位置信息也可以是每一所述视频帧中的第三目标图像区域的中心坐标点信息(即第三目标图像区域的中心点的坐标信息)。这里所述的视频帧为目标视频中的视频帧。这里所述的第三目标图像区域为每一所述视频帧中的局部图像区域。一般，该第三目标图像区域内的视频图像为用户比较关注的图像内容，因此，第三目标图像区域在各视频帧中的位置是动态变化的。

可选地，终端设备可以根据前述位置信息(即第二位置信息)、终端设备的旋转角度以及终端设备的屏幕尺寸，确定每一视频帧中的第一目标图像区域。

例如，在播放目标视频时，可以先确定终端设备的旋转角度，假设终端设备当前的显示状态为竖直且正立放置，确定此时的旋转角度为0°，待显示图像相对于终端设备的屏幕而言，应竖直正立显示。当旋转角度大于0°时，待显示图像与屏幕之间也会具有大于0°的夹角，但待显示图像相对用户而言，始终是竖直正立显示的。然后，根据位置信息和终端设备的屏幕尺寸信息，确定每一视频帧中的第一目标图像区域。例如，将位置信息对应的坐标点确定为第一目标图像区域的中心点；将终端设备的屏幕的宽度值确定为第二目标图像区域的宽度值；将目标横屏视频的高度值确定为第二目标图像区域的高度值，从而确定出第一目标图像区域。这样，一是可以使确定出的第一目标图像区域与终端设备的屏幕尺寸更适配，二是可以更好的满足用户的观看需求。此外，本发明实施例中，终端设备虽然仅显示第一目标图像区域内的视频图像，但实际播放的仍是整个目标视频，在服务器侧并不涉及对视频的重新剪辑或拼接，这样可以充分保证视频节目情节和版权的完整性。同时由于不需要重新编码和分发视频介质，因此在视频生产效率和分发服务质量上更有保证。

可选地，对目标视频中的内嵌字幕的去除，也可以在服务器进行，具体处理过程与终端设备进行内嵌字幕去除处理过程类似。服务器在对内嵌字幕进行处理时，可以对整帧视频图像中的内嵌字幕进行处理。例如：识别目标视频帧内的内嵌字幕的轮廓，对识别出的内嵌字幕的轮廓进行膨胀处理，去除内嵌字幕的轮廓内的空洞；对去除轮廓内空洞的内嵌字幕进行腐蚀处理，去除随机噪点；根据去除随机噪点的内嵌字幕，确定内嵌字幕的覆盖范围，进而确定出内嵌字幕对应的像素点；最后将内嵌字幕对应的像素点的颜色值用预设颜色值进行替换。该预设颜色值可以是：内嵌字幕的预设范围内的像素点(即邻域像素)的颜色值的加权平均值。目标视频帧为目标视频中具有内嵌字幕的视频帧。

在服务器侧进行去除字幕的处理操作，可以使终端设备不用再对目标视频中的内嵌字幕进行处理，因此能够在一定程度上降低终端设备的数据处理量，从而降低终端设备的功耗。

图6是本发明实施例提供的一种服务器与终端设备交互的示意图。通过对该交互示例的描述，以对本发明实施例提供的技术方案进行进一步的解释说明。

假设，在示例中，是以第三目标图像区域的中心坐标点信息，确定第一目标图像区域。

如图6所示，在服务器侧，通过人工智能(Artificial Intelligence，简称AI)技术，确定目标视频的每一视频帧的第三目标图像区域，并获取第三目标图像区域的中心坐标点信息，以及对目标视频的每一视频帧的内嵌字幕进行识别，获取字幕内容(即外挂字幕)。然后将第三目标图像区域的中心坐标点信息以及字幕内容存储于云端播控平台。

终端设备在检测到用户触发的以目标播放模式(前文具有对目标播放模式的解释，此处不再赘述)播放目标视频的请求操作时，从云端播控平台下载目标视频、第三目标图像区域的中心坐标点信息以及字幕内容。终端设备根据第三目标图像区域的中心坐标点信息以及终端设备的旋转角度和屏幕尺寸，确定目标视频的每一视频帧中的第一目标图像区域，并通过播放器显示第一目标图像区域内的视频图像，同时同步显示与当前视频图像对应的完整外挂字幕。此外，终端设备还可以对目标视频中的原字幕内容(即内嵌字幕)进行去除，并利用内嵌字幕周围的像素信息对内嵌字幕对应的像素信息进行修复。

图7是本发明实施例提供的一种视频播放装置的框图，该视频播放装置应用于终端设备。

如图7所示，该视频处理装置700可以包括：

接收模块701，用于接收目标信息。

其中，所述目标信息包括：目标视频以及所述目标视频对应的字幕内容。

显示模块702，用于显示每一视频帧中的第一目标图像区域内的视频图像，同时显示目标字幕内容。

其中，所述视频帧为所述目标视频中的视频帧；所述第一目标图像区域为每一视频帧中的局部图像区域；所述目标字幕内容为与显示的所述视频图像对应的完整字幕内容。

图8是本发明实施例提供的另一种视频播放装置的框图，该视频播放装置应用于终端设备。

如图8所示，该视频处理装置800可以包括：

接收模块801，用于接收目标信息。

显示模块802，用于显示每一视频帧中的第一目标图像区域内的视频图像，同时显示目标字幕内容。

可选地，所述视频播放装置800还包括：

字幕处理模块803，用于去除第二目标图像区域内的内嵌字幕。

可选地，所述字幕处理模块803包括：

第一识别单元8031，用于识别所述第二目标图像区域内的内嵌字幕的轮廓。

第一确定单元8032，用于根据所述内嵌字幕的轮廓，确定所述内嵌字幕对应的像素点。

像素处理单元8033，用于将所述内嵌字幕对应的像素点的颜色值用预设颜色值进行替换。

可选地，所述视频播放装置800还包括：

确定模块804，用于根据所述位置信息和所述终端设备的旋转角度，确定每一所述视频帧中的所述第一目标图像区域。

图9是本发明实施例提供的一种视频处理装置的框图，该视频处理装置应用于服务器。

如图9所示，该视频处理装置900可以包括：

发送模块901，用于发送目标信息至终端设备。

其中，所述目标信息包括：目标视频以及所述目标视频对应的字幕内容；所述字幕内容为所述服务器预先获取并保存的字幕内容。

图10是本发明实施例提供的一种视频处理装置的框图，该视频处理装置应用于服务器。

如图10所示，该视频处理装置1000可以包括：

发送模块1001，用于发送目标信息至终端设备。

可选地，所述视频处理装置1000还包括：

获取模块1002，用于获取所述字幕内容。

可选地，所述获取模块1002包括：

第二识别单元1021，用于每隔预设帧数，对所述目标视频中的视频帧进行字幕识别。

其中，所述预设帧数大于或等于0。

分组单元1022，用于对于识别出的初始字幕内容按照相似度进行分组。

排序单元1023，用于对每一分组中的初始字幕内容取并集，并以最长公共子序列的长度为度量，对得到的并集集合中的字词进行排序。

其中，所述最长公共子序列为所述并集集合中的字词与对应分组中的初始字幕内容之间的最长公共子序列。

第二确定单元1024，用于将排序后的字词确定为所述字幕内容。

对于上述装置实施例而言，由于其与方法实施例基本相似，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种电子设备，如图11所示，包括处理器1101、通信接口1102、存储器1103和通信总线1104，其中，处理器1101，通信接口1102，存储器1103通过通信总线1104完成相互间的通信。

存储器1103，用于存放计算机程序；

在电子设备为终端设备时，处理器1101用于执行存储器1103上所存放的程序时，实现如下步骤：

接收目标信息；显示每一视频帧中的第一目标图像区域内的视频图像，同时显示目标字幕内容。

其中，所述目标信息包括：目标视频以及所述目标视频对应的字幕内容；所述视频帧为所述目标视频中的视频帧；所述第一目标图像区域为每一视频帧中的局部图像区域；所述目标字幕内容为与显示的所述视频图像对应的完整字幕内容。

可选地，在所述全屏显示第二目标图像区域内的视频图像之前，所处理器1101执行存储器1103上所存放的程序时，还实现如下步骤：

去除第二目标图像区域内的内嵌字幕。

可选地，所述去除第二目标图像区域内的内嵌字幕，包括：

识别所述第二目标图像区域内的内嵌字幕的轮廓；

可选地，在所述显示每一视频帧中的第一目标图像区域内的视频图像之前，处理器1101执行存储器1103上所存放的程序时，还实现如下步骤：

在电子设备为服务器时，处理器1101用于执行存储器1103上所存放的程序时，实现如下步骤：

发送目标信息至终端设备。

可选地，在所述发送目标信息至终端设备之前，处理器1101执行存储器1103上所存放的程序时，还实现如下步骤：

获取所述字幕内容。

可选地，所述获取所述字幕内容，包括：

对于识别出的初始字幕内容按照相似度进行分组；

将排序后的字词确定为所述字幕内容。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中所述的应用程序的升级方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中所述的应用程序的升级方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，包含在本发明的保护范围内。

Claims

1.一种视频播放方法，应用于终端设备，其特征在于，所述视频播放方法包括：

2.根据权利要求1所述的视频播放方法，其特征在于，所述字幕内容为根据所述目标视频中的内嵌字幕得到的外挂字幕。

3.根据权利要求1或2所述的视频播放方法，其特征在于，在所述显示每一视频帧中的第一目标图像区域内的视频图像之前，所述视频播放方法还包括：

去除第二目标图像区域内的内嵌字幕；

4.根据权利要求3所述的视频播放方法，其特征在于，所述去除第二目标图像区域内的内嵌字幕，包括：

识别所述第二目标图像区域内的内嵌字幕的轮廓；

5.根据权利要求1所述的视频播放方法，其特征在于，所述目标信息中还包括：位置信息，所述位置信息为各所述视频帧的同一位置的坐标点信息或每一所述视频帧中的第三目标图像区域的中心坐标点信息，所述第三目标图像区域为每一所述视频帧中的局部图像区域，所述第三目标图像区域在各所述视频帧中的位置动态变化。

6.根据权利要求5所述的视频播放方法，其特征在于，在所述显示每一视频帧中的第一目标图像区域内的视频图像之前，所述视频播放方法还包括：

7.一种视频处理方法，应用于服务器，其特征在于，所述视频处理方法包括：

8.根据权利要求7所述的视频处理方法，其特征在于，在所述发送目标信息至终端设备之前，所述视频处理方法还包括：

获取所述字幕内容。

9.根据权利要求8所述的视频处理方法，其特征在于，所述获取所述字幕内容，包括：

对于识别出的初始字幕内容按照相似度进行分组；

将排序后的字词确定为所述字幕内容。

10.根据权利要求7所述的视频处理方法，其特征在于，所述目标信息中还包括：位置信息，所述位置信息为各视频帧的同一位置的坐标点信息或每一所述视频帧中的第三目标图像区域内的中心坐标点信息；其中，所述视频帧为所述目标视频中的视频帧；所述第三目标图像区域为每一所述视频帧中的局部图像区域，所述第三目标图像区域在各所述视频帧中的位置动态变化。

11.一种视频播放装置，应用于终端设备，其特征在于，所述视频播放装置包括：

12.根据权利要求11所述的视频播放装置，其特征在于，所述字幕内容为根据所述目标视频中的内嵌字幕得到的外挂字幕。

13.根据权利要求11或12所述的视频播放装置，其特征在于，所述视频播放装置还包括：

字幕处理模块，用于去除第二目标图像区域内的内嵌字幕；

14.根据权利要求13所述的视频播放装置，其特征在于，所述字幕处理模块包括：

15.根据权利要求11所述的视频播放装置，其特征在于，所述目标信息中还包括：位置信息，所述位置信息为各所述视频帧的同一位置的坐标点信息或每一所述视频帧中的第三目标图像区域的中心坐标点信息，所述第三目标图像区域为每一所述视频帧中的局部图像区域，所述第三目标图像区域在各所述视频帧中的位置动态变化。

16.根据权利要求15所述的视频播放装置，其特征在于，所述视频播放装置还包括：

17.一种视频处理装置，应用于服务器，其特征在于，所述视频处理装置包括：

18.根据权利要求17所述的视频处理装置，其特征在于，所述视频处理装置还包括：

获取模块，用于获取所述字幕内容。

19.根据权利要求18所述的视频处理装置，其特征在于，所述获取模块包括：

第二确定单元，用于将排序后的字词确定为所述字幕内容。

20.根据权利要求17所述的视频处理装置，其特征在于，所述目标信息中还包括：位置信息，所述位置信息为各视频帧的同一位置的坐标点信息或每一所述视频帧中的第三目标图像区域内的中心坐标点信息；其中，所述视频帧为所述目标视频中的视频帧；所述第三目标图像区域为每一所述视频帧中的局部图像区域，所述第三目标图像区域在各所述视频帧中的位置动态变化。

21.一种电子设备，其特征在于，包括：处理器、通信接口、存储器和通信总线；其中，处理器、通信接口以及存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现如权利要求1至6任一项所述的视频播放方法的步骤，或实现如权利要求7至10任一项所述的视频处理方法的步骤。

22.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至6任一项所述的视频播放方法，或实现如权利要求7至10任一项所述的视频处理方法。