CN113365145B

CN113365145B - 视频处理、视频播放方法、装置、计算机设备及存储介质

Info

Publication number: CN113365145B
Application number: CN202110619228.9A
Authority: CN
Inventors: 李琨
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Douyin Vision Co Ltd; Beijing Volcano Engine Technology Co Ltd; Douyin Vision Beijing Co Ltd
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2022-11-08
Anticipated expiration: 2041-06-03
Also published as: CN113365145A

Abstract

本公开提供了一种视频处理、视频播放方法、装置、计算机设备及存储介质，其中，视频处理方法包括：接收用户端发送的针对目标视频的视频获取请求；其中，所述视频获取请求中携带有所述用户端的目标展示比例；在检测到所述目标展示比例为第一展示比例的情况下，获取预先确定的与所述目标展示比例对应的所述目标视频的裁剪信息，以及获取基于所述目标视频的字幕展示区域的色值变化情况确定的字幕信息；其中，所述第一展示比例为无法完全展示所述字幕展示区域的展示比例；基于所述字幕信息和所述裁剪信息对所述目标视频进行处理，并将处理后的所述目标视频发送至所述用户端。

Description

视频处理、视频播放方法、装置、计算机设备及存储介质

技术领域

本公开涉及计算机技术领域，具体而言，涉及一种视频处理、视频播放方法、装置、计算机设备及存储介质。

背景技术

得益于移动设备硬件技术的快速发展，移动设备的种类也越来越多，不同的移动设备的屏幕长宽比往往是不同的，因此不同用户对同一视频的展示比例有着不同的需求，这就导致了在进行视频播放时经常需要改变原视频的展示比例。

相关技术中，为满足不同用户的展示需求，一般会对请求的视频进行裁剪。在对视频进行裁剪时，往往会通过裁剪字幕来避免对视频中关键内容的裁剪，从而导致了视频播放时的字幕丢失情况，影响了用户的视频观看体验。

发明内容

本公开实施例至少提供一种视频处理、视频播放方法、装置、计算机设备及存储介质。

第一方面，本公开实施例提供了一种视频处理方法，包括：

接收用户端发送的针对目标视频的视频获取请求；其中，所述视频获取请求中携带有所述用户端的目标展示比例；

在检测到所述目标展示比例为第一展示比例的情况下，获取预先确定的与所述目标展示比例对应的所述目标视频的裁剪信息，以及获取基于所述目标视频的字幕展示区域的色值变化情况确定的字幕信息；其中，所述第一展示比例为无法完全展示所述字幕展示区域的展示比例；

基于所述字幕信息和所述裁剪信息对所述目标视频进行处理，并将处理后的所述目标视频发送至所述用户端。

一种可能的实施方式中，所述方法还包括，根据以下方法确定所述目标视频中的字幕展示区域：

对所述目标视频进行采样，确定所述目标视频的多个采样视频帧；

识别所述多个采样视频帧中的文字展示区域；

基于所述多个采样视频帧中的文字展示区域，确定所述目标视频中的字幕展示区域。

将所述目标视频输入至预先训练的第一神经网络，所述第一神经网络输出所述目标视频的字幕展示区域。

一种可能的实施方式中，所述裁剪信息包括所述目标视频中每个视频帧对应的裁剪坐标；

针对任一第一展示比例，所述方法还包括，根据以下方法确定所述目标视频在所述任一第一展示比例下的裁剪信息：

将所述目标视频和所述任一第一展示比例输入至预先训练的第二神经网络中，所述第二神经网络输出所述目标视频在所述任一第一展示比例下的裁剪信息。

一种可能的实施方式中，根据以下方法确定所述目标视频的字幕信息：

确定所述目标视频中，字幕展示区域展示的文字与相邻的视频帧不同的变化视频帧；

识别所述变化视频帧中的字幕展示区域展示的字幕信息。

一种可能的实施方式中，所述获取基于所述目标视频的字幕展示区域的色值变化情况确定的字幕信息，包括：

获取所述目标视频的字幕展示区域中色值相同的连续像素点；

基于所述连续像素点与其他像素点之间的色差值，以及所述连续像素点的同一像素位置在预定时间内的变化情况，确定待筛选的连续像素点；

将所述待筛选的连续像素点进行聚合，并将聚合结果与文字库中存储的文字进行匹配，基于匹配结果确定所述目标视频的字幕信息。

一种可能的实施方式中，所述获取基于所述目标视频的字幕展示区域的色值变化情况确定的字幕信息的步骤由第三神经网络执行；

所述第三神经网络根据以下步骤训练获得：

获取带有字幕标注信息的样本视频帧；

将所述样本视频帧输入至待训练的第三神经网络中，得到所述样本视频对应的预测字幕信息；

基于所述预测字幕信息和所述字幕标注信息对所述待训练的第三神经网络进行训练。

一种可能的实施方式中，所述基于所述字幕信息和所述裁剪信息对所述目标视频进行处理，包括：

从所述目标视频中截取出匹配的连续像素点对应的字幕图像；

按照所述裁剪信息对所述目标视频进行裁剪；以及，将所述字幕图像叠加到裁剪后的所述目标视频中。

在基于所述裁剪信息对所述目标视频进行裁剪后，若裁剪后的所述目标视频中包括部分字幕区域，则对所述目标视频中的部分字幕区域中的文字信息进行模糊处理，并将所述字幕信息叠加展示在进行模糊处理后的目标视频中。

第二方面，本公开实施例提供了一种视频播放方法，包括：

响应于对目标视频的播放操作，发送视频获取请求，所述视频获取请求中携带有用户端的目标展示比例；

接收处理后的目标视频并进行播放，所述处理后的目标视频根据所述目标展示比例对应的裁剪信息，以及基于所述目标视频的字幕展示区域的色值变化情况确定的字幕信息确定。

第三方面，本公开实施例还提供一种视频处理装置，包括：

接收模块，用于接收用户端发送的针对目标视频的视频获取请求；其中，所述视频获取请求中携带有所述用户端的目标展示比例；

获取模块，用于在检测到所述目标展示比例为第一展示比例的情况下，获取预先确定的与所述目标展示比例对应的所述目标视频的裁剪信息，以及获取基于所述目标视频的字幕展示区域的色值变化情况确定的字幕信息；其中，所述第一展示比例为无法完全展示所述字幕展示区域的展示比例；

处理模块，用于基于所述字幕信息和所述裁剪信息对所述目标视频进行处理，并将处理后的所述目标视频发送至所述用户端。

一种可能的实施方式中，所述处理模块，还用于根据以下方法确定所述目标视频中的字幕展示区域：

识别所述多个采样视频帧中的文字展示区域；

针对任一第一展示比例，所述处理模块，还用于根据以下方法确定所述目标视频在所述任一第一展示比例下的裁剪信息：

一种可能的实施方式中，所述获取模块，还用于根据以下方法确定所述目标视频的字幕信息：

识别所述变化视频帧中的字幕展示区域展示的字幕信息。

一种可能的实施方式中，所述获取模块，在获取基于所述目标视频的字幕展示区域的色值变化情况确定的字幕信息时，用于：

所述获取模块，还用于根据以下步骤训练所述第三神经网络：

获取带有字幕标注信息的样本视频帧；

一种可能的实施方式中，所述处理模块，在基于所述字幕信息和所述裁剪信息对所述目标视频进行处理时，用于：

第四方面，本公开实施例提供了一种视频播放装置，包括：

发送模块，用于响应于对目标视频的播放操作，发送视频获取请求，所述视频获取请求中携带有用户端的目标展示比例；

播放模块，用于接收处理后的目标视频并进行播放，所述处理后的目标视频根据所述目标展示比例对应的裁剪信息，以及基于所述目标视频的字幕展示区域的色值变化情况确定的字幕信息确定。

第五方面，本公开实施例还提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面或第二方面中任一种可能的实施方式中的步骤。

第六方面，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面或第二方面中任一种可能的实施方式中的步骤。

本公开实施例提供的视频处理、播放方法、装置、计算机设备及存储介质，针对每一个视频，可以预先确定该视频在每个第一展示比例下对应的裁剪信息以及字幕信息，在接收到用户端发送的视频获取请求后，可以在检测到用户端的目标展示比例为第一展示比例的情况下，基于预先确定的与目标展示比例对应的字幕信息和裁剪信息，对目标视频进行处理，然后将处理后的目标视频发送至用户端，这样，可以在满足不同用户端的展示比例的情况下，保证字幕信息的完全展示，提升了用户的观看体验。

另外，由于目标视频的字幕信息是基于所述目标视频的字幕展示区域的色值变化情况确定的，因此确定出的字幕信息较为精准。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种视频处理方法的流程图；

图2示出了本公开实施例所提供的视频处理方法中，将视频内容的展示比例进行调整的示意图；

图3示出了本公开实施例所提供的视频处理方法中，确定所述目标视频中的字幕展示区域的具体方法的流程图；

图4a示出了本公开实施例所提供的视频处理方法中，识别出的所述视频帧中的文字展示区域的示意图；

图4b示出了本公开实施例所提供的视频处理方法中，确定所述目标视频中的字幕展示区域的示意图；

图5示出了本公开实施例所提供的视频处理方法中，确定所述目标视频的字幕信息的具体方法的流程图；

图6示出了本公开实施例所提供的视频处理方法中，训练第三神经网络的具体方法的流程图；

图7示出了本公开实施例所提供的一种视频播放方法的流程图；

图8示出了本公开实施例所提供的一种视频处理装置的架构示意图；

图9示出了本公开实施例所提供的一种视频播放装置的架构示意图；

图10示出了本公开实施例所提供的一种计算机设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

经研究发现，在播放视频时，为满足不同用户的展示需求，一般会对请求的视频进行裁剪。在对视频进行裁剪时，往往会通过裁剪字幕来避免对视频中关键内容的裁剪，从而导致了视频播放时的字幕丢失情况，影响了用户的视频观看体验。

基于上述研究，本公开提供了一种视频处理、播放方法、装置、计算机设备及存储介质，针对每一个视频，可以预先确定该视频在每个第一展示比例下对应的裁剪信息以及字幕信息，在接收到用户端发送的视频获取请求后，可以在检测到用户端的目标展示比例为第一展示比例的情况下，基于预先确定的与目标展示比例对应的字幕信息和裁剪信息，对目标视频进行处理，然后将处理后的目标视频发送至用户端，这样，可以在满足不同用户端的展示比例的情况下，保证字幕信息的完全展示，提升了用户的观看体验。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种视频处理方法进行详细介绍，本公开实施例所提供的视频处理方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备一般为服务器。

参见图1所示，为本公开实施例提供的视频处理方法的流程图，所述方法包括步骤S101～S103，其中：

S101：接收用户端发送的针对目标视频的视频获取请求；其中，所述视频获取请求中携带有所述用户端的目标展示比例。

S102：在检测到所述目标展示比例为第一展示比例的情况下，获取预先确定的与所述目标展示比例对应的所述目标视频的裁剪信息，以及获取基于所述目标视频的字幕展示区域的色值变化情况确定的字幕信息；其中，所述第一展示比例为无法完全展示所述字幕展示区域的展示比例。

S103：基于所述字幕信息和所述裁剪信息对所述目标视频进行处理，并将处理后的所述目标视频发送至所述用户端。

下面将对本公开实施例中各个步骤及对应的实施方法进行详细说明。

针对S101，所述用户端的目标展示比例，可以是所述目标视频在所述用户端所对应的终端设备上需要被展示的比例。其中，所述需要被展示的比例包括进行全屏展示的长宽比，比如，所述用户端对应的终端设备的长宽比为21：9，则需要在该终端设备上进行全屏展示的目标视频的展示比例也同样为21：9；或者，所述需要被展示的比例还可以是用户针对所述目标视频，自行选择的想要观看的比例，比如在用户触发该目标视频进行播放之前，可以设置一个展示比例输入框，用户可以在预设范围内自行输入想要观看该目标视频的比例，该比例例如可以为16：9～22：9之间任一比例，如18.5：9、21：9等。

具体实施中，所述目标视频的视频获取请求，可以是在用户触发了所述目标视频对应的播放按钮之后生成的请求，比如，用户触发了在用户端应用程序中任一目标视频的播放按钮后，生成对应的目标视频的视频获取请求；或者，还可以是用户在所述目标视频已经被播放之后，通过在预设位置处的展示比例输入框输入想要观看该目标视频的比例之后，生成对应的目标视频的视频获取请求。

针对任一视频，该视频在被视频制作者上传至服务器时往往是按照某一展示比例进行上传的，该展示比例一般与拍摄视频的设备有关，而需要播放该视频的用户端的目标展示比例可能有多种，常见的用户端终端设备的展示比例有16：9、18：9、19：9、21：9等，为了能在不同的展示比例下都能使得该视频的关键信息都能进行展示，因此在接收到该视频后，需要按照不同的展示比例对该视频进行适应性调整，所述适应性调整通常为裁剪该视频的部分内容。

如图2所示，为将视频内容的展示比例进行调整的示意图，图2中，视频的初始展示比例为16：9(实线部分)，目标展示比例为21：9，所述调整的过程也即在16：9的视频画面(实线部分)中裁剪出一个完整的展示比例为21：9的视频画面(虚线部分)。

在对视频进行调整的过程中，需要先确定该视频在每一个第二展示比例下的裁剪信息，所述第二展示比例可以包括所有已知设备的展示比例(即已知设备的屏幕长宽比)，以及确定该视频的字幕展示区域，当检测到任一第二展示比例下无法完全展示该字幕展示区域时，则基于该第二展示比例信息对应的裁剪信息和字幕信息对该视频进行处理。

这里，所述第二展示比例包括所述第一展示比例，示例性的，所述第二展示比例可以包括A、B、C、D、E、F六个展示比例，其中，A、B、C、D四个展示比例对应的裁剪信息下，目标视频的字幕展示区域无法完全展示，则A、B、C、D四个展示比例为所述第一展示比例。对于E、F两个展示比例，在接受到用户端发送的携带有E或F展示比例的视频获取请求时，由于字幕展示区域可以被完全展示，因此只根据视频获取请求中携带的目标展示比例对应的裁剪信息对目标视频进行处理。

在确定所述目标视频中的字幕展示区域时，可以通过以下两种方式中的任意一种：

一种可能的实施方式中，如图3所示，可以通过以下步骤确定所述目标视频中的字幕展示区域：

S301：对所述目标视频进行采样，确定所述目标视频的多个采样视频帧。

这里，在对所述目标视频进行采样时，可以按照预设的初始采样频率对所述目标视频进行采样，比如每秒5帧。

S302：识别所述多个采样视频帧中的文字展示区域。

具体的，可以通过光学字符识别(Optical Character Recognition，OCR)等识别技术，识别出所述多个视频帧中展示有文字的文字展示区域，这里，所述识别所述多个采样视频帧中的文字展示区域，可以是指识别在采样视频帧中文字展示区域对应的区域坐标信息。

示例性的，如图4a所示，为识别出的所述视频帧中的文字展示区域的示意图。图4a中确定出了所述文字展示区域的区域坐标信息，比如其四个顶点的像素坐标。

其中，所述文字展示区域包括所述视频帧中，展示字幕的字幕展示区域和非字幕的文本展示区域。

具体的，在所述目标视频进行播放时，视频内容中除了字幕展示区域会展示有文字内容外，时常会在某些位置处，比如人脸周围或者物体周围出现以特效进行展示的文本，例如“哇！”等，上述文本展示区域可以包括字幕展示区域和/或视频画面中的文本展示区域。

S303：基于所述多个采样视频帧中的文字展示区域，确定所述目标视频中的字幕展示区域。

这里，由于字幕在所述目标视频中的展示位置相对固定，通常很稳定的位于视频中下部某一位置处，且字幕位置一般为水平居中进行展示，可以根据上述字幕的展示特点，确定所述文字展示区域中的所述字幕展示区域。

具体的，可以将多个采样视频帧中的文字展示区域进行叠加，找到叠加的区域，而所述叠加的区域的被叠加次数越多，表征在该区域内出现的文字越多，这符合字幕展示区域的特点，而不符合上述以特效进行展示的文本“哇！”的展示特点，因此可以将被叠加次数符合预设条件的区域确定为展示有字幕的叠加位置区域，比如可以确定叠加次数最多的区域为所述叠加位置区域，从而可以根据文字展示区域与所述叠加位置区域的相对位置关系，确定出所述文字展示区域中的字幕展示区域。

示例性的，如图4b所示，为确定所述目标视频中的字幕展示区域的示意图，图4b中，将四个文字展示区域进行了叠加，最长的所述文字展示区域的宽用实线表示，较短的三个文字展示区域的宽用虚线表示以作区分，中间以阴影填充的区域为所述叠加位置区域，所述多个采样视频帧叠加后，可以确定出包含有所述叠加位置区域的文字展示区域为所述字幕展示区域；或者，也可以确定与所述叠加位置区域处于同一行的文字展示区域为所述字幕展示区域；又或者，还可以确定距离所述叠加位置区域小于预设距离的文字展示区域作为所述字幕展示区域。

此外，还可以对所述目标视频的预设时间段内的视频内容进行高频率的采样，比如对视频开头的一分钟或中间的任意一分钟内，进行比所述初始采样频率每秒5帧更高的每秒10帧的采样，得到所述目标视频的关键帧，通过对所述关键帧进行上述文字展示区域的叠加处理，得到字幕所在展示区域的分布情况，并可以根据所述分布情况，确定出该目标视频中字幕的预测展示范围，进而在后续进行字幕展示区域识别时，无需识别视频的全部画面内容，只需要在所述预测展示范围内识别的字幕展示区域即可(例如可以直接将预测展示范围内的文本展示区域作为所述字幕展示区域)，从而可以节约计算资源，而且由于在所述预设时间段内进行了高频率的采样和分析，使得确定的所述预测展示范围更为准确，在加快识别速度的同时，也确保了字幕展示区域识别的准确率。

具体的，在根据字幕所在展示区域的分布情况，确定该目标视频中字幕的预测展示范围时，可以预先将当前视频画面的展示区域划分为多个待筛选区域，当所述字幕所在展示区域均位于某一所述待筛选区域时，即可将该待筛选区域作为所述预测展示范围，比如可以将所述视频画面的展示区域划分为上半展示区域和下半展示区域，当检测到所述字幕展示区域均位于下半展示区域时，即可将下半展示区域确定为所述字幕的预测展示范围。其中，所述待筛选区域的划分数量可以根据实际需要划分成2个或以上，本公开实施例对此不做限定。

进一步的，为了避免所述目标视频的关键帧中的字幕展示区域，因为在预设时间段内恰巧只展示了上述“哇！”，而不是视频的字幕，从而导致错误的识别所述字幕的预测展示范围的情况，在后续进行字幕展示区域识别的同时，可以进行自我验证。

比如，可以统计在字幕的预测展示范围出现文本的频率，如在该预测展示范围内1分钟内不出现文本，则判断所述预测展示范围预测错误，并在所述预设时间段之前或之后的预设时长内，按照上述步骤重新确定所述预测展示范围；或者，可以判断识别出的字幕展示区域是否与所述叠加位置区域重叠，当连续一段时间内识别出的字幕展示区域均不予所述叠加位置区域重叠时，则判断所述预测展示范围预测错误，并在所述预设时间段之前或之后的预设时长内，按照上述步骤重新确定所述预测展示范围。以所述预设时间段为90分钟视频的第45分钟、所述预设时长为1分钟为例，则所述预设时间段之前的预设时长内即为第44分钟，所述预设时间段之后的预设时长即为第46分钟。

另一种可能的实施方式中，在确定所述目标视频中的字幕展示区域时还可以将所述目标视频输入至预先训练的第一神经网络，所述第一神经网络输出所述目标视频的字幕展示区域。

这里，在进行所述第一神经网络训练时，可以使用带有字幕的样本视频和对应的标注信息对待训练的第一神经网络进行训练，然后基于所述第一神经网络的输出结果和所述样本视频对应的标注信息计算本次训练过程中的损失值，当所述损失值小于预设损失值时，即可确定所述第一神经网络训练完成。

一种可能的实施方式中，所述裁剪信息包括所述目标视频中每个视频帧对应的裁剪坐标，针对任一第一展示比例，可以根据以下方法确定所述目标视频在所述任一第一展示比例下的裁剪信息：

这里，所述第二神经网络可以是与所述第一神经网络相同类型的神经网络，也即可以使用与所述第一神经网络相似的训练方法对所述第二神经网络进行训练，因此，所述第二神经网络的训练过程在此不再赘述。

具体的，所述第二神经网络在确定输入的所述目标视频的裁剪信息时，可以识别出所述目标视频的采样视频帧中的关键信息，所述关键信息例如可以包括人脸图像等，可以从针对任一第一展示比例确定的多个待筛选裁剪信息中，确定出所述关键信息保留最多的裁剪信息作为目标裁剪信息，从而避免裁剪所述关键信息导致的视频观感较差。比如，所述视频的初始展示比例为16：9，第一展示比例为21：9，可以针对所述第一展示比例，通过对视频画面进行横向裁剪(如图2从视频画面的上方和或下方进行裁剪)随机生成多个待筛选裁剪坐标，确定出保留关键信息最多的裁剪信息作为所述目标视频的裁剪信息。

一种可能的实施方式中，在确定所述字幕展示区域之后，如图5所示，可以根据以下步骤获取基于所述目标视频的字幕展示区域的色值变化情况确定的字幕信息：

S501：获取所述目标视频的字幕展示区域中色值相同的连续像素点。

S502：基于所述连续像素点与其他像素点之间的色差值，以及所述连续像素点的同一像素位置在预定时间内的变化情况，确定待筛选的连续像素点。

这里，所述色差值指的是各个像素点之间的色值之间的差值，其中，一个颜色对应一个色值，比如常见的网页格式下的以16进制表示的色值#ffffff表示该颜色为白色；或者也可以是(0、255、0)表示的Red(红)、Green(绿)、Blue(蓝)三个颜色通道的强度值分别为0、255、0，其组成的颜色为绿色，由于色值具有多种表示方法，不同的色值表示方法之间可以相互转换，在计算色差值时需转换至同一表示方法下进行计算。

针对字幕中的任一个字，该字所对应的像素点与相邻的像素点之间通常是不存在色差值的，比如在白色字幕中，字幕的颜色一直为白色，而所述字幕展示区域中的背景颜色则是多种多样的，此外，即使字幕展示区域中的背景颜色也为白色，但是由于背景颜色会发生变化，而字幕对应的像素点的颜色是不会发生变化的，因此根据字幕的这些特性，可以获取字幕展示区域中色值相同的连续像素点，并根据所述连续像素点与其他像素点的色差值，以及在同一像素位置处预设时间内的变化情况，确定待筛选的连续像素点。

若某些连续像素点与其他像素点的色差值超过预设色差值，且该连续像素点对应的像素位置处在预设时间内的色值没有发生变化，则将该连续像素点作为待筛选的连续像素点。

S503：将所述待筛选的连续像素点进行聚合，并将聚合结果与文字库中存储的文字进行匹配，基于匹配结果确定所述目标视频的字幕信息。

在一种可能的实施方式中，字幕展示区域内背景对应的像素点的色值也可能在预定时间内不发生变化，比如字幕展示区域内的背景为一颜色均匀的灰色背景板，因此只基于所述色差值以及同一像素位置在预定时间内的变化情况，显然无法直接确定字幕展示区域内的字幕信息。

因此，在确定所述待筛选的连续像素点之后，可以对所述待筛选的连续像素点进行聚合，并将聚合结果与文字库中的文字进行匹配，将与所述文字库中的文字匹配的连续像素点作为所述目标视频的字幕信息，而背景显然是无法与文字库中的文字相匹配的，从而可以有效避免将字幕展示区域中的背景确定为所述字幕信息。

一种可能的实施方式中，所述获取基于所述目标视频的字幕展示区域的色值变化情况确定的字幕信息的步骤可以由第三神经网络执行，如图6所示，可以通过以下步骤训练所述第三神经网络：

S601：获取带有字幕标注信息的样本视频帧。

S602：将所述样本视频帧输入至待训练的第三神经网络中，得到所述样本视频对应的预测字幕信息。

S603：基于所述预测字幕信息和所述字幕标注信息对所述待训练的第三神经网络进行训练。

这里，所述第三神经网络的训练过程可以与所述第一神经网络和第二神经网络类似，可以基于所述预测字幕信息和字幕标注信息计算本次训练的损失值，当所述损失值小于预设损失值时，即可确定所述第三神经网络训练完成。

另一种可能的实施方式中，在确定所述字幕展示区域展示的字幕时，还可以确定所述目标视频中，字幕展示区域展示的文字与相邻的视频帧不同的变化视频帧；识别所述变化视频帧中的字幕展示区域展示的字幕信息。

这里，所述相邻的视频帧可以指的是前一帧视频帧，所述变化视频帧也即是字幕发生改变的视频帧，可以是通过OCR等识别技术识别出的文字发生改变来确定，具体的，可以是通过所述识别技术识别出采样后得到的所述目标视频的各个视频帧中的字幕，通过对比各个视频帧中字幕的文字是否相同，以确定文字发生变化的视频帧为所述变化视频帧；或者，直接将对应的字幕展示区域的展示位置和/或尺寸发生变化的视频帧作为所述变化视频帧。

示例性的，以所述目标视频采样后得到100个视频帧为例，可以得到第2～35帧、第36～70帧、第71～100帧分别展示有相同字幕/字幕展示区域相同，则可以确定第2、36、71帧为所述变化视频帧。

进一步的，可以对确定的所述第2、36、71帧中的字幕展示区域进行识别，确定字幕展示区域展示的字幕信息。示例性的，可以通过OCR等识别技术确定字幕展示区域展示的字幕信息。这里，所述字幕信息包括字幕对应的文字内容。

这里，所述处理后的所述目标视频可以以流数据的传输形式发送至所述用户端，对所述目标视频的处理过程无需用户端对应的终端设备执行。

一种可能的实施方式中，在基于所述字幕信息和所述裁剪信息对所述目标视频进行处理时，可以从所述目标视频中截取出匹配的连续像素点对应的字幕图像；按照所述裁剪信息对所述目标视频进行裁剪，并将所述字幕图像叠加到裁剪后的所述目标视频中。

示例性的，在将所述字幕图像叠加到裁剪后的所述目标视频中时，可以将所述字幕图像叠加到裁剪后的所述目标视频的预设位置处，比如裁剪后的底部的上方三个像素位置处，进行居中展示。

此外，在基于所述字幕信息和所述裁剪信息对所述目标视频进行处理时，还可以是在识别出所述字幕展示区域中展示的所述字幕对应的文本内容后，基于识别出的所述文本内容生成新的字幕，并将所述新的字幕按照预设的展示位置叠加到裁剪后的所述目标视频中进行展示，生成处理后的所述目标视频；或者，还可以是在识别出所述字幕展示区域后，直接将字幕展示区域整个的裁剪出来，也即将字幕背景和字幕同时裁剪出来，从而生成一个同时携带有字幕和字幕背景的小视频，并将所述小视频按照预设的展示位置叠加到裁剪后的所述目标视频中进行展示。其中，将所述字幕信息叠加展示的叠加方式，可以参照上述叠加方式，在此不再赘述。

另一种可能的实施方式中，在基于所述裁剪信息对所述目标视频进行裁剪后，若裁剪后的所述目标视频中包括部分字幕区域，则可以对所述目标视频中的部分字幕区域中的文字信息进行模糊处理，并将所述字幕信息叠加展示在进行模糊处理后的目标视频中。

具体的，所述模糊处理包括高斯(滤波)模糊处理、均值(滤波)模糊处理、中值(滤波)模糊处理、双边(滤波)模糊处理等多种图像模糊处理方式，所述将所述字幕信息叠加展示在进行模糊处理后的目标视频中，包括将所述字幕图像叠加到裁剪后的所述目标视频中。其中，将所述字幕信息叠加展示在进行模糊处理后的目标视频中的叠加方式，可以参照上述叠加方式，在此不再赘述。

本公开实施例提供的视频处理方法，针对每一个视频，可以预先确定该视频在每个第一展示比例下对应的裁剪信息以及字幕信息，在接收到用户端发送的视频获取请求后，可以在检测到用户端的目标展示比例为第一展示比例的情况下，基于预先确定的与目标展示比例对应的字幕信息和裁剪信息，对目标视频进行处理，然后将处理后的目标视频发送至用户端，这样，可以在满足不同用户端的展示比例的情况下，保证字幕信息的完全展示，提升了用户的观看体验。

参见图7所示，为本公开实施例提供的视频播放方法的流程图，所述方法包括步骤S701～S702，其中：

S701：响应于对目标视频的播放操作，发送视频获取请求，所述视频获取请求中携带有用户端的目标展示比例。

S702：接收处理后的目标视频并进行播放，所述处理后的目标视频根据所述目标展示比例对应的裁剪信息，以及基于所述目标视频的字幕展示区域的色值变化情况确定的字幕信息确定。

本公开实施例所提供的视频播放方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：带有显示功能的智能终端设备，例如，可以为智能手机、平板电脑、智能穿戴设备等。

关于所述目标视频的处理过程可以参照上述视频处理方法中的相关内容，在此不再赘述。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与视频处理方法对应的视频处理装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述视频处理方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图8所示，为本公开实施例提供的一种视频处理装置的架构示意图，所述装置包括：接收模块801、获取模块802、处理模块803；其中，

接收模块801，用于接收用户端发送的针对目标视频的视频获取请求；其中，所述视频获取请求中携带有所述用户端的目标展示比例；

获取模块802，用于在检测到所述目标展示比例为第一展示比例的情况下，获取预先确定的与所述目标展示比例对应的所述目标视频的裁剪信息，以及获取基于所述目标视频的字幕展示区域的色值变化情况确定的字幕信息；其中，所述第一展示比例为无法完全展示所述字幕展示区域的展示比例；

处理模块803，用于基于所述字幕信息和所述裁剪信息对所述目标视频进行处理，并将处理后的所述目标视频发送至所述用户端。

一种可能的实施方式中，所述处理模块803，还用于根据以下方法确定所述目标视频中的字幕展示区域：

识别所述多个采样视频帧中的文字展示区域；

针对任一第一展示比例，所述处理模块803，还用于根据以下方法确定所述目标视频在所述任一第一展示比例下的裁剪信息：

一种可能的实施方式中，所述获取模块802，还用于根据以下方法确定所述目标视频的字幕信息：

识别所述变化视频帧中的字幕展示区域展示的字幕信息。

一种可能的实施方式中，所述获取模块802，在获取基于所述目标视频的字幕展示区域的色值变化情况确定的字幕信息时，用于：

获取带有字幕标注信息的样本视频帧；

一种可能的实施方式中，所述处理模块803，在基于所述字幕信息和所述裁剪信息对所述目标视频进行处理时，用于：

本公开实施例提供的视频处理装置，针对每一个视频，可以预先确定该视频在每个第一展示比例下对应的裁剪信息以及字幕信息，在接收到用户端发送的视频获取请求后，可以在检测到用户端的目标展示比例为第一展示比例的情况下，基于预先确定的与目标展示比例对应的字幕信息和裁剪信息，对目标视频进行处理，然后将处理后的目标视频发送至用户端，这样，可以在满足不同用户端的展示比例的情况下，保证字幕信息的完全展示，提升了用户的观看体验。

参照图9所示，为本公开实施例提供的一种视频播放装置的架构示意图，所述装置包括：发送模块901、播放模块902；其中，

发送模块901，用于响应于对目标视频的播放操作，发送视频获取请求，所述视频获取请求中携带有用户端的目标展示比例；

播放模块902，用于接收处理后的目标视频并进行播放，所述处理后的目标视频根据所述目标展示比例对应的裁剪信息，以及基于所述目标视频的字幕展示区域的色值变化情况确定的字幕信息确定。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

基于同一技术构思，本公开实施例还提供了一种计算机设备。参照图10所示，为本公开实施例提供的计算机设备1000的结构示意图，包括处理器1001、存储器1002、和总线1003。其中，存储器1002用于存储执行指令，包括内存10021和外部存储器10022；这里的内存10021也称内存储器，用于暂时存放处理器1001中的运算数据，以及与硬盘等外部存储器10022交换的数据，处理器1001通过内存10021与外部存储器10022进行数据交换，当计算机设备1000运行时，处理器1001与存储器1002之间通过总线1003通信，使得处理器1001在执行以下指令：

一种可能的实施方式中，所述处理器1001的指令中，还包括根据以下方法确定所述目标视频中的字幕展示区域：

识别所述多个采样视频帧中的文字展示区域；

一种可能的实施方式中，所述处理器1001的指令中，所述裁剪信息包括所述目标视频中每个视频帧对应的裁剪坐标；

针对任一第一展示比例，还包括根据以下方法确定所述目标视频在所述任一第一展示比例下的裁剪信息：

一种可能的实施方式中，所述处理器1001的指令中，根据以下方法确定所述目标视频的字幕信息：

识别所述变化视频帧中的字幕展示区域展示的字幕信息。

一种可能的实施方式中，所述处理器1001的指令中，所述获取基于所述目标视频的字幕展示区域的色值变化情况确定的字幕信息，包括：

一种可能的实施方式中，所述处理器1001的指令中，所述获取基于所述目标视频的字幕展示区域的色值变化情况确定的字幕信息的步骤由第三神经网络执行；

所述第三神经网络根据以下步骤训练获得：

获取带有字幕标注信息的样本视频帧；

一种可能的实施方式中，所述处理器1001的指令中，所述基于所述字幕信息和所述裁剪信息对所述目标视频进行处理，包括：

或者，使得所述处理器1001执行如下指令：

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的视频处理方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的视频处理方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合，或者一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种视频处理方法，其特征在于，包括：

基于所述字幕信息和所述裁剪信息对所述目标视频进行处理，并将处理后的所述目标视频发送至所述用户端；

其中，所述获取基于所述目标视频的字幕展示区域的色值变化情况确定的字幕信息，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括，根据以下方法确定所述目标视频中的字幕展示区域：

识别所述多个采样视频帧中的文字展示区域；

3.根据权利要求1所述的方法，其特征在于，所述方法还包括，根据以下方法确定所述目标视频中的字幕展示区域：

4.根据权利要求1所述的方法，其特征在于，所述裁剪信息包括所述目标视频中每个视频帧对应的裁剪坐标；

5.根据权利要求1所述的方法，其特征在于，根据以下方法确定所述目标视频的字幕信息：

识别所述变化视频帧中的字幕展示区域展示的字幕信息。

6.根据权利要求1所述的方法，其特征在于，所述获取基于所述目标视频的字幕展示区域的色值变化情况确定的字幕信息的步骤由第三神经网络执行；

所述第三神经网络根据以下步骤训练获得：

获取带有字幕标注信息的样本视频帧；

7.根据权利要求1所述的方法，其特征在于，所述基于所述字幕信息和所述裁剪信息对所述目标视频进行处理，包括：

8.根据权利要求1～7任一所述的方法，其特征在于，所述基于所述字幕信息和所述裁剪信息对所述目标视频进行处理，包括：

9.一种视频处理装置，其特征在于，包括：

处理模块，用于基于所述字幕信息和所述裁剪信息对所述目标视频进行处理，并将处理后的所述目标视频发送至所述用户端；

其中，所述获取模块，在获取基于所述目标视频的字幕展示区域的色值变化情况确定的字幕信息时，用于：

10.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至8任一所述的视频处理方法的步骤。

11.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至8任一项所述的视频处理方法的步骤。