CN109040779B

CN109040779B - 字幕内容生成方法、装置、计算机设备及存储介质

Info

Publication number: CN109040779B
Application number: CN201810777015.7A
Authority: CN
Inventors: 阮志强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-07-16
Filing date: 2018-07-16
Publication date: 2019-11-26
Anticipated expiration: 2038-07-16
Also published as: CN109040779A

Abstract

本申请涉及一种字幕内容生成方法、装置、计算机设备及存储介质，该方法包括：获取待生成字幕内容的原始视频；将所述原始视频分割成视频片段；并行地将各视频片段推送至处于空闲状态的各字幕处理设备；所述视频片段用于指示相应字幕处理设备生成与所述视频片段相应的第一字幕内容；去除各所述字幕处理设备所反馈的第一字幕内容中冗余的字幕内容，并根据去除冗余字幕内容后剩余的字幕内容，组合生成与所述原始视频对应的第二字幕内容。本申请的方案提高了字幕内容生成效率。

Description

字幕内容生成方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种字幕内容生成方法、装置、计算机设备及存储介质。

背景技术

随着科学技术的飞速发展，视频由于具有直观性，能够用来传达更多、更细节的信息，因此，其在人们的生活和工作中发挥着越来越重要的作用。

为了更加直观有效地传达信息，视频往往会配有字幕内容。传统方法中，在生成一个完整视频的字幕内容时，需要按序地逐个处理各个视频帧，在对所有视频帧处理完毕后，最终才能输出这个完整视频的字幕内容。这样一来，导致生成字幕内容的效率比较低。

发明内容

基于此，有必要针对传统方法中字幕内容生成效率比较低的问题，提供一种字幕内容生成方法、装置、计算机设备及存储介质。

一种字幕内容生成方法，所述方法包括：

获取待生成字幕内容的原始视频；

将所述原始视频分割成视频片段；

并行地将各视频片段推送至处于空闲状态的各字幕处理设备；所述视频片段用于指示相应字幕处理设备生成与所述视频片段相应的第一字幕内容；

去除各所述字幕处理设备所反馈的第一字幕内容中冗余的字幕内容，并根据去除冗余字幕内容后剩余的字幕内容，组合生成与所述原始视频对应的第二字幕内容。

一种字幕内容生成装置，所述装置包括：

分割模块，用于获取待生成字幕内容的原始视频；将所述原始视频分割成视频片段；

推送模块，用于并行地将各视频片段推送至处于空闲状态的各字幕处理设备；所述视频片段用于指示相应字幕处理设备生成与所述视频片段相应的第一字幕内容；

去冗余模块，用于去除各所述字幕处理设备所反馈的第一字幕内容中冗余的字幕内容，并根据去除冗余字幕内容后剩余的字幕内容，组合生成与所述原始视频对应的第二字幕内容。

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

获取待生成字幕内容的原始视频；

将所述原始视频分割成视频片段；

一种存储有计算机程序的存储介质，所述计算机程序被处理器执行时，使得处理器执行如下步骤：

获取待生成字幕内容的原始视频；

将所述原始视频分割成视频片段；

上述字幕内容生成方法、装置、计算机设备及存储介质，通过将原始视频分割成视频片段，并行地将各视频片段推送至处于空闲状态的各字幕处理设备，这样一来，各字幕处理设备就可以并行地处理各视频片段，分别生成与视频片段相应的第一字幕内容。将去除各第一字幕内容中冗余的字幕内容，根据去除冗余字幕内容后剩余的字幕内容，组合生成与原始视频对应的第二字幕内容，本申请的方案通过并行处理生成字幕内容的方式，相较于传统的需要按序逐个处理完所有视频帧后才能生成视频的字幕内容而言，提高了字幕内容生成效率。

附图说明

图1为一个实施例中字幕内容生成方法的应用场景图；

图2为一个实施例中字幕内容生成方法的流程示意图；

图3为另一个实施例中字幕内容生成方法的应用环境图；

图4为一个实施例中生成第一字幕内容的原理示意图；

图5为一个实施例中字幕内容生成方法的原理示意图；

图6为一个实施例中字幕内容生成装置的框图；

图7为另一个实施例中字幕内容生成装置的框图；

图8为又一个实施例中字幕内容生成装置的框图；

图9为一个实施例中计算机设备的内部结构示意图；

图10为另一个实施例中计算机设备的内部结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1为一个实施例中字幕内容生成方法的应用场景图。参照图1，该应用场景中包括通过网络连接的终端110、切片服务器120和包括多个字幕处理设备 130的集群，切片服务器120分别通过网络与终端110和字幕处理设备130建立连接。切片服务器120是具备将视频切片功能的服务器。可以理解，这里并不限定切片服务器120的其他功能，比如，切片服务器120还具备去除冗余字幕内容的功能。字幕处理设备130，是具备字幕内容生成功能的设备。

终端110可以是智能电视机、台式计算机或移动终端，移动终端可以包括手机、平板电脑、笔记本电脑、个人数字助理和穿戴式设备等中的至少一种。切片服务器120可以用独立的服务器或者是多个物理服务器组成的服务器集群来实现。

用户可以通过终端110上传拍摄或剪辑的原始视频至切片服务器120。切片服务器120可以将原始视频分割成视频片段，并行地将各视频片段推送至处于空闲状态的各字幕处理设备130；视频片段用于指示相应字幕处理设备130生成与视频片段相应的第一字幕内容。字幕处理设备130可以将生成的第一字幕内容反馈至切片服务器120。切片服务器120可以去除所反馈的各第一字幕内容中冗余的字幕内容，并根据去除冗余字幕内容后剩余的字幕内容，组合生成与原始视频对应的第二字幕内容。可以理解，切片服务器120可以进一步地将生成的字幕内容发送至终端110，以使终端110在播放原始视频时，能够显示相应的字幕内容。

可以理解，在其他实施例中，并不限定必须由终端110发送原始视频至切片服务器120，切片服务器120也可以直接获取所存储的原始视频。

在一个实施例中，字幕处理设备130包括字幕处理服务器和/或具备字幕内容生成功能的用户终端。具备字幕内容生成功能的用户终端，是指，用户所使用的具备字幕内容生成功能的终端。这里的“用户”，是个泛称，并不限定于上传原始视频的用户。同样地，用户终端，并不限定于上传原始视频的终端。在一个实施例中，用户终端是指安装并使用有视频编辑功能的应用程序，或登录具有视频编辑功能的网页的终端。

可以理解，具备字幕内容生成功能的用户终端可以是智能电视机、台式计算机或移动终端。字幕处理服务器可以用独立的服务器或者是多个物理服务器组成的服务器集群来实现。

需要说明的是，本申请各实施例中的“第一”和“第二”仅用作区分，而并不用于大小、先后、从属等方面的限定。

图2为一个实施例中字幕内容生成方法的流程示意图。本实施例主要以该字幕内容生成方法应用于计算机设备中进行举例说明，该计算机设备可以为图1 中的切片服务器120。参照图2，该方法具体包括如下步骤：

S202，获取待生成字幕内容的原始视频。

可以理解，获取的原始视频中不具备字幕内容。

计算机设备可以接收终端上传的待生成字幕内容的原始视频，也可以获取自身本地存储或数据库中存储的原始视频。

在一个实施例中，计算机设备可以获取终端通过应用程序或网页上传的原始视频。应用程序可以是具有视频编辑功能的应用程序。

S204，将原始视频分割成视频片段。

可以理解，多个视频片段组合在一起的视频内容即为原始视频的完整视频内容。

在一个实施例中，计算机设备可以将视频片段均匀分割成多个均匀的视频片段。在其他实施例中，计算机设备也可以将视频片段随机分割成视频片段，即每个视频片段的大小不要求一致。

S206，并行地将各视频片段推送至处于空闲状态的各字幕处理设备；视频片段用于指示相应字幕处理设备生成与视频片段相应的第一字幕内容。

可以理解，处于空闲状态的字幕处理设备，具备完成字幕处理过程所需的***资源。即当一个字幕处理设备具备完成字幕处理过程所需要的***资源时，则说明该字幕处理设备处于空闲状态。处于空闲状态的字幕处理设备，是指当前处于空闲状态的字幕处理设备。并行，是指多个视频片段可以独立异步地被推送至处于空闲状态的不同的字幕处理设备，各视频片段之间相互不影响。

需要说明的是，字幕处理设备可以包括字幕处理服务器和/或具备字幕内容生成功能的用户终端。

在一个实施例中，集群中的各字幕处理设备可以检测自身的状态，并向计算机设备上报自身的状态信息。当计算机设备根据上报的状态信息确定出处于空闲状态的字幕处理设备时，则可以并行地将各视频片段推送至所确定为处于空闲状态的各字幕处理设备。

在一个实施例中，上报的状态信息中可以包括空闲状态或非空闲状态的。即计算机设备不管是否处于空闲状态，皆向字幕处理设备上报状态信息。在另一个实施例中，上报的状态信息可以仅是处于空闲状态的信息。即计算机设备可以当检测到自身状态处于空闲状态时，再向计算机设备上报状态信息。当检测到自身状态处于非空闲状态时，则可以不向计算机设备上报状态信息。

在其他实施例中，计算机设备也可以主动监测字幕处理设备的状态，当监测到字幕处理设备处于空闲状态时，则并行地将各视频片段推送至处于空闲状态的各字幕处理设备。

可以理解，计算机设备可以从分割得到的视频片段集合中，随机地选取视频片段，将选取的视频片段并行地推送至处于空闲状态的字幕处理设备。计算机设备也可以从分割得到的视频片段集合中，按照视频片段在原始视频中所处位置的先后顺序，按序地选取视频片段，将选取的视频片段并行地推送至处于空闲状态的字幕处理设备。

比如，原始视频依次分割为视频片段1、视频片段2、视频片段3……视频片段N，那么，当字幕处理设备A和字幕处理设备B处于空闲状态时，计算机设备则可以随机地选取视频片段2和视频片段5，然后并行地推送至字幕处理设备 A和字幕处理设备B，以使字幕处理设备A和字幕处理设备B分别处理一个视频片段。计算机设备也可以按照视频片段在原始视频中所处位置的先后顺序，按序地选取视频片段1和视频片段2，并行地推送至字幕处理设备A和字幕处理设备B。

可以理解，集群中处于空闲状态的字幕处理设备可以为一个或多个，当有多个字幕处理设备处于空闲状态时，计算机设备可以并行地将各视频片段分别推送至处于空闲状态的各字幕处理设备，各个字幕处理设备可以对所接收的视频片段进行字幕生成处理，以生成与视频片段相应的第一字幕内容。字幕处理设备可以将生成的第一字幕内容反馈至计算机设备。

在一个实施例中，字幕处理设备可以将视频片段输入神经网络模型中进行字幕生成处理，以生成与视频片段相应的第一字幕内容。其中，神经网络模型，是预先训练的用于生成与视频片段对应的字幕内容的机器学习模型。

第一字幕内容是视频片段中所对应的声音的文本形式。比如，视频片段中人物说话时，就可以将文本的第一字幕内容展示在播放画面上，以便于用户观看，从而传达更多、更准确的信息。

S208，去除各字幕处理设备所反馈的第一字幕内容中冗余的字幕内容，并根据去除冗余字幕内容后剩余的字幕内容，组合生成与原始视频对应的第二字幕内容。

其中，冗余的字幕内容，即多余的重复的字幕内容。

具体地，计算机设备可以接收各个字幕处理设备所反馈的第一字幕内容，并对所接收的所有第一字幕内容进行去冗余处理，以去除掉冗余的字幕内容。计算机设备可以根据去除冗余字幕内容后剩余的字幕内容，组合生成与原始视频对应的第二字幕内容。可以理解，第二字幕内容即为原始视频的最终用于播放显示的字幕内容。

在一个实施例中，计算机设备可以将第一字幕内容按相应视频片段在原始视频所处位置的先后顺序进行排序，将排序后相邻的第一字幕内容中重复多余的字幕内容去除，根据剩余后的字幕内容组合生成与原始视频对应的第二字幕内容。

在一个实施例中，计算机设备可以将相邻的第一字幕内容直接进行内容比对，根据比对结果将重复多余的字幕内容去除。在另一个实施例中，计算机设备也可以将各第一字幕内容输入神经网络模型中，进行去冗余处理，输出得到与原始视频对应的第二字幕内容。

上述字幕内容生成方法，通过将原始视频分割成视频片段，并行地将各视频片段推送至处于空闲状态的各字幕处理设备，这样一来，各字幕处理设备就可以并行地处理各视频片段，分别生成与视频片段相应的第一字幕内容。将去除各第一字幕内容中冗余的字幕内容，根据去除冗余字幕内容后剩余的字幕内容，组合生成与原始视频对应的第二字幕内容，本申请的方案通过并行处理生成字幕内容的方式，相较于传统的需要按序逐个处理完所有视频帧后才能生成视频的字幕内容而言，提高了字幕内容生成效率。

在一个实施例中，并行地将各视频片段推送至处于空闲状态的各字幕处理设备包括：将各视频片段添加至任务队列，每个视频片段与任务队列中的视频任务一一对应；从任务队列中依次选取视频任务，并将选取的视频任务并行地分配至处于空闲状态的各字幕处理设备；视频任务，用于指示各字幕处理设备生成与视频任务所对应的视频片段相应的第一字幕内容。

具体地，计算机设备可以将分割得到的各视频片段添加至任务队列，那么，每个视频片段则对应任务队列中的一个视频任务。可以理解，任务队列中各视频任务按照添加至任务队列的先后顺序进行排序。计算机设备可以从任务队列中依次选取视频任务，将选取的视频任务并行地分配至处于空闲状态的字幕处理设备。字幕处理设备在接收到视频任务后，可以对视频任务所对应的视频片段进行字幕生成处理，以生成相应的第一字幕内容。

比如，任务队列有20个视频任务，当前有4个处于空闲状态的字幕处理设备。计算机设备可以依次选取前4个视频任务，并行地分别分配至这4个处于空闲状态的字幕处理设备。后续若又有2个字幕处理设备处于空闲状态时，计算机设备则可以将第5和第6个视频任务并行地分别分配至这2个处于空闲状态的字幕处理设备。

可以理解，视频任务添加至任务队列的先后顺序，与视频片段在原始视频中所处位置的先后顺序一致。比如，对于处于原始视频中最前的视频片段的来说，其所对应的视频任务就是任务队列中的第一个视频任务，对于由原始视频分割的第二个视频片段来说，其所对应的视频任务就是任务队列中的第二个视频任务。

上述实施例中，将各视频片段添加至任务队列，每个视频片段与任务队列中的视频任务一一对应；从任务队列中依次选取视频任务，并将选取的视频任务并行地分配至处于空闲状态的各字幕处理设备，以生成相应的第一字幕内容。在视频片段并行处理的同时，又能够保持有序处理，提高了处理的准确性和效率。

在一个实施例中，字幕处理设备包括字幕处理服务器，该方法还包括：当不存在处于空闲状态的字幕处理服务器时，则将任务队列中的视频任务并行地分配至处于空闲状态的用户终端；视频任务，用于指示用户终端生成与视频任务所对应的视频片段相应的第一字幕内容。

可以理解，这里的用户终端具备字幕内容生成功能。同样地，处于空闲状态的用户终端，具备完成字幕处理过程所需的***资源。即当一个用户终端具备完成字幕处理过程所需要的***资源时，则说明该用户终端处于空闲状态。

在一个实施例中，用户终端可以检测自身的状态，并向计算机设备上报自身的状态信息。计算机设备根据上报的状态信息确定出处于空闲状态的用户终端。在另一个实施例中，计算机设备也可以主动监测用户终端的状态，以确定出处于空闲状态的用户终端。

具体地，计算机设备可以检测是否存在处于空闲状态的字幕处理服务器，当计算机设备确定不存在处于空闲状态的字幕处理服务器时，则可以将任务队列中的视频任务并行地分配至处于空闲状态的用户终端。用户终端可以对视频任务所对应的视频片段进行字幕生成处理，以生成与视频片段相应的第一字幕内容。

需要说明的是，这里，用户终端进行字幕生成处理的前提，是建立在合法处理的基础上进行的，并不存在隐瞒、盗用用户终端流量和资源的问题。

图3为另一个实施例中字幕内容生成方法的应用环境图。参照图3，该应用环境图中包括终端110、切片服务器120、字幕处理服务器130a和具备字幕内容生成功能的用户终端130b，可以理解，字幕处理服务器130a和具备字幕内容生成功能的用户终端130b可以统称为字幕处理设备130。终端110将原始视频上传至切片服务器120，切片服务器120将原始视频分割为视频片段，并添加至任务队列。当存在处于空闲状态的字幕处理服务器130a时，切片服务器120可以将从任务队列中依次选取视频任务，并行地将视频任务分配至处于空闲状态的字幕处理服务器130a，以通过字幕处理服务器130a生成与视频任务所对应的视频片段相应的第一字幕内容。当不存在处于空闲状态的字幕处理服务器130a，切片服务器120则可以将任务队列中的视频任务并行地分配至处于空闲状态的用户终端130b。可以理解，本申请实施例中的计算机设备可以为图3中的切片服务器120。

在一个实施例中，用户终端可以将视频片段输入神经网络模型中进行字幕生成处理，以生成与视频片段相应的第一字幕内容。其中，神经网络模型，是预先训练的用于生成与视频片段对应的字幕内容的机器学习模型。

在一个实施例中，当检测到超出预设时长未收到字幕处理服务器上报的处于空闲状态的状态信息时，计算机设备则可以判定不存在处于空闲状态的字幕处理服务器。可以理解，超出预设时长，是指从上一次接收到字幕处理服务器上报的处于空闲状态的状态信息起超出预设时长。

在另一个实施例中，该方法还包括：为各视频任务添加时间戳；时间戳用于记录相应视频任务的添加时间；当时间戳记录的添加时间与当前时间的差距大于预设阈值时，则判定不存在处于空闲状态的字幕处理服务器。

具体地，计算机设备在添加视频片段至任务队列时，会为视频片段所对应的视频任务添加时间戳。时间戳用于记录相应视频任务的添加时间，其中，添加时间即为视频任务被添加的起始时间。计算机设备可以将时间戳记录的添加时间与当前时间进行比对，当时间戳记录的添加时间与当前时间的差距大于预设阈值时，则说明字幕处理服务器比较忙，没有及时处理，因此，计算机设备则可以判定不存在处于空闲状态的字幕处理服务器。

上述实施例中，当不存在处于空闲状态的字幕处理服务器时，则将任务队列中的视频任务并行地分配至处于空闲状态的用户终端，以生成相应的第一字幕内容，能够合理利用资源，从而提高字幕内容生成效率。

在一个实施例中，视频片段还用于指示相应字幕处理设备将视频片段分别转换成彩色图像视频帧序列和光流图像视频帧序列，分别从彩色图像视频帧序列的各彩色图像视频帧中提取第一图像特征，以及从光流图像视频帧序列的各光流图像视频帧中提取第二图像特征，根据第一图像特征确定物体形态特征和根据第二图像特征确定物体运动特征；分析物体形态特征和物体运动特征，得到与视频片段相应的第一字幕内容。

其中，彩色图像，是指每个像素由R(Red)、G(Green)、B(Blue)分量构成的图像。RGB即是代表红、绿、蓝三个通道的颜色。彩色图像视频帧，说明每帧视频帧为彩色图像。可以理解，视频片段原理上是包括一系列的视频帧的。所以，将视频片段转换成的彩色图像视频帧序列，包括一系列的彩色图像视频帧。

光流是一种运动模式，这种运动模式指的是一个物体在一个视角下由一个观察者(比如眼睛、摄像头等)和背景之间形成的明显移动。光流图像是指由光流数据构成的图像。光流数据，用于体现图像中物体运动情况。光流图像视频帧，说明每帧视频帧为光流图像。光流图像视频帧序列，包括一系列的光流图像视频帧。物体形态特征，是用于表征物体形态的数据。物体运动特征，是用于表征物体运动行为的数据。

具体地，计算机设备将视频片段发送至字幕处理设备后，字幕处理设备可以将视频片段分别转换为彩色图像视频帧序列和光流图像视频帧序列。

在一个实施例中，字幕处理设备中分别预先训练了第一卷积神经网络模型和第二卷积神经网络模型，其中，第一卷积神经网络模型用于处理彩色图像视频帧序列，第二卷积神经网络模型用于处理光流图像视频帧序列。字幕处理设备可以将彩色图像视频帧序列输入相应的第一卷积神经网络模型中，以输出从彩色图像视频帧序列的各彩色图像视频帧中提取的第一图像特征，字幕处理设备可以将光流图像视频帧序列输入相应的第二卷积神经网络模型中，以输出从光流图像视频帧序列的各光流图像视频帧中提取的第二图像特征。可以理解，第一图像特征是从物体形态方面提取的特征。第二图像特征是从物体运动方面提取的特征。

其中，卷积神经网络(Convolutional Neural Network,CNN)是一种前馈人工神经网络，人工神经元可以响应周围单元，以进行图像处理。前馈神经网络是人工神经网络的一种，在前馈神经网络中，每一层包含若干个神经元，各神经元从输入层开始，接收前一级输入，并输出到下一级，直至输出层，同一层的神经元之间没有互相连接。

字幕处理设备中还预先训练了对应于彩色图像视频帧序列的第一递归神经网络模型，和对应于光流图像视频帧序列的第二递归神经网络模型，字幕处理设备可以将第一图像特征输入第一递归神经网络模型，以通过第一递归神经网络根据第一图像特征输出物体形态特征，字幕处理设备可以将第二图像特征输入第二递归神经网络模型，以通过第二递归神经网络模型根据第二图像特征输出物体运动特征。可以理解，第一递归神经网络模型可以从时间维度上结合多个视频帧的第一图像特征之间的关联性，来确定出更加准确的物体形态特征，第二递归神经网络模型可以从时间维度上结合多个视频帧的第二图像特征之间的关联性，来确定出更加准确的物体运动特征。在一个实施例中，递归神经网络模型可以是LSTM(Long Short-Term Memory)是长短期记忆网络模型。

可以理解，字幕处理设备可以分析各物体形态特征和各物体运动特征，得到与视频片段相应的第一字幕内容。

上述实施例中，通过彩色图像视频帧序列和光流图像视频帧序列各自的图像特征来确定物体形态特征和物体运动特征，从而根据物体形态特征和物体运动特征这两方面的特征来得到与视频片段相应的第一字幕内容，提高了生成第一字幕内容的准确性。

在一个实施例中，视频片段还用于指示相应字幕处理设备将对应于视频片段中同一视频帧的第一图像特征和第二图像特征进行融合，得到融合特征，并根据融合特征确定物体综合运动特征；将物体形态特征、物体运动特征以及物体综合运动特征，分别输入对应的字幕生成网络模型中，输出相应的得分向量；将对应于视频片段中同一视频帧的各得分向量按照相应的投票权重进行加权求和，输出求和结果中最高得分所对应的单词，作为针对同一视频帧所输出的单词；根据针对每一视频帧所输出的单词组合得到与视频片段相应的第一字幕内容。

其中，字幕生成网络模型，是预先训练的用于生成字幕内容的神经网络模型。

具体地，字幕处理设备在通过相应的卷积神经网络提取出各视频帧的第一图像特征和第二图像特征后，可以将对应于视频片段中同一视频帧的第一图像特征和第二图像特征进行融合，得到融合特征。字幕处理设备可以根据融合特征确定物体综合运动特征。在一个实施例中，字幕处理设备中预先训练了第三递归神经网络，字幕处理设备可以将物体综合运动特征输入第三递归神经网络，以通过第三递归神经网络模型根据融合特征输出物体综合运动特征。可以理解，第三递归神经网络模型可以从时间维度上结合多个视频帧的融合特征之间的关联性，来确定出更加准确的物体综合运动特征。

可以理解，彩色图像视频帧序列和光流图像视频帧序列中是对视频片段中的视频帧进行处理得到的，那么，彩色图像视频帧序列中的彩色图像视频帧和光流图像视频帧序列中的光流图像视频帧，皆在视频片段中存在对应的同一视频帧，则从对应于视频片段中同一视频帧的彩色图像视频帧和光流图像视频帧中提取的第一图像特征和第二图像特征，也对应于该同一视频帧。此外，由对应于同一视频帧的第一图像特征和第二图像特征融合得到的融合特征，也对应于该同一视频帧。进而，由对应于视频片段中同一视频帧的第一图像特征、第二图像特征和融合特征确定的物体形态特征、物体运动特征以及物体综合运动特征，亦对应于该同一视频帧。

比如，视频片段中的视频帧A进行转换，分别得到彩色图像视频帧a1，得到光流图像视频帧a2，那么，由彩色图像视频帧a1中提取的第一图像特征所确定出的物体形态特征，和由光流图像视频帧a2中提取的第二图像特征所确定出的物体运动特征，以及由第一图像特征和第二图像特征融合得到的融合特征所确定出的物体综合运动特征，皆对应于视频片段中的视频帧A。

字幕处理设备中预先训练了用于处理物体形态特征的第一字幕生成网络模型、用于处理物体运动特征的第二字幕生成网络模型，以及用于处理物体综合运动特征的第三字幕生成网络模型。字幕处理设备可以将物体形态特征输入相应的第一字幕生成网络模型，将物体运动特征输入相应的第二字幕生成网络模型，将物体综合运动特征输入相应的第三字幕生成网络模型。

计算机设备可以通过第一字幕生成网络模型对每个物体形态特征进行编码，在输出层进行相应解码，得到预设词库中各单词所对应的得分，根据各个单词所对应的得分，即可以生成第一得分向量。计算机设备可以通过第二字幕生成网络模型对每个物体运动特征进行编码，在输出层进行相应解码，得到预设词库中各单词所对应的得分，根据各个单词所对应的得分，即可以生成第二得分向量。计算机设备可以通过第三字幕生成网络模型对每个物体综合运动特征进行编码，在输出层进行相应解码，得到预设词库中各单词所对应的得分，根据各个单词所对应的得分，即可以生成第三得分向量。计算机设备中预先针对不同的字幕生成网络模型设置了相应的投票权重，计算机设备可以将对应于视频片段中同一视频帧的第一得分向量、第二得分向量和第三得分向量，按照相应的投票权重进行加权求和，输出求和结果中最高得分所对应的单词，即为针对视频片段中该同一视频帧所输出的单词。这样一来，在确定针对视频片段中每一视频帧所输出的单词后，可以将针对每一视频帧所输出的单词组合得到与视频片段相应的第一字幕内容。

图4为一个实施例中生成第一字幕内容的原理示意图。参照图4，RGB图像视频帧序列(即彩色图像视频帧序列)经过第一卷积神经网络模型402A的多层卷积处理，提取出第一图像特征，光流图像视频帧序列经过第二卷积神经网络模型402B的多层卷积处理，提取出第二图像特征。计算机设备可以将提取的第一图像特征输入第一递归神经网络，以使第一递归神经网络从时间维度上结合多帧之间的关联性，生成物体形态特征。计算机设备可以将提取的第二图像特征输入第二递归神经网络，以使第一递归神经网络从时间维度上结合多帧之间的关联性，生成物体运动特征。计算机设备可以将对应于视频片段中同一视频帧的第一图像特征和第二图像特征进行融合，得到融合特征，将融合特征输入第三递归神经网络，输出物体综合运动特征。计算机设备可以将物体形态特征、物体运动特征以及物体综合运动特征分别输入第一字幕生成网络模型、第二字幕生成网络模型和第三字幕生成网络模型，以得到第一得分向量、第二得分向量以及第三得分向量。将对应于视频片段中同一视频帧的3个得分向量按照相应投票权重进行加权求和，输出求和结果中最高得分所对应的单词，作为针对该同一视频帧所输出的单词，将各帧输出的单词组合，得到字幕内容。

上述实施例中，通过彩色图像视频帧序列和光流图像视频帧序列各自的图像特征，以及二者的融合特征来加权确定针对同一视频帧所输出的单词，大大提高了所确定的单词的准确性。进而，根据针对每一视频帧所输出的单词组合得到与视频片段相应的第一字幕内容，也就更加的准确。

在一个实施例中，步骤S208包括：获取各字幕处理设备反馈的第一字幕内容；将各第一字幕内容按照相应视频片段在原始视频中所处位置的先后顺序进行拼接；将拼接后的字幕内容中的各词转换为词向量，得到词向量序列；对词向量序列进行去冗余编码得到语义向量；解码语义向量，生成与原始视频对应的第二字幕内容。

在一个实施例中，计算机设备中预先训练了文本简化网络模型。其中，文本简化网络模型，是去除文本中冗余内容的神经网络模型。计算机设备可以将各字幕处理设备反馈的第一字幕内容按照相应视频片段在原始视频中所处位置的先后顺序进行拼接，将拼接后的字幕内容输入文本简化网络模型，文本简化网络模型可以将拼接后的字幕内容中的各词转换为词向量，得到词向量序列。文本简化网络模型可以对词向量序列进行去冗余编码得到语义向量；可以理解，编码后的语义向量已经是去冗余处理后的语义向量，语义向量处于文本简化网络模型的隐藏层。计算机设备可以通过文本简化网络模型对语义向量进行解码，生成与原始视频对应的第二字幕内容。

图5为一个实施例中字幕内容生成方法的原理示意图。参照图5，用户通过应用程序APP上传原始视频至切片服务器，切片服务器对原始视频进行视频分割处理，将分割得到的视频片段添加至任务队列，若字幕处理服务器集群有空闲的字幕处理服务器，则将任务队列中的视频片段并行地分配至字幕处理服务器，若字幕处理服务器集群没有空闲的字幕处理服务器，则进一步判断是否有空闲的用户终端，若有，则通知各空闲的用户终端并行地处理任务队列中的视频片段，将处理生成的所有第一字幕内容进行汇总，将汇总后的第一字幕内容输入文本简化网络模型中进行去冗余处理，将去冗余处理后剩余的字幕内容作为原始视频对应的最终字幕内容，返回至上传原始视频的应用程序。

上述实施例中，将各第一字幕内容按照相应视频片段在原始视频中所处位置的先后顺序进行拼接，对将拼接后的字幕内容进行去冗余编码，能够提高去冗余的准确性，进而解码去冗余后的语义向量，生成与原始视频对应的第二字幕内容，能够提高字幕内容的准确性。

如图6所示，在一个实施例中，提供了一种字幕内容生成装置600，该装置 600包括：分割模块602、推送模块604以及去冗余模块606，其中：

分割模块602，用于获取待生成字幕内容的原始视频；将所述原始视频分割成视频片段。

推送模块604，用于并行地将各视频片段推送至处于空闲状态的各字幕处理设备；所述视频片段用于指示相应字幕处理设备生成与所述视频片段相应的第一字幕内容。

去冗余模块606，用于去除各所述字幕处理设备所反馈的第一字幕内容中冗余的字幕内容，并根据去除冗余字幕内容后剩余的字幕内容，组合生成与所述原始视频对应的第二字幕内容。

如图7所示，在一个实施例中，所述推送模块604包括：

任务添加模块604a，用于将各视频片段添加至任务队列；每个视频片段与所述任务队列中的视频任务一一对应。

任务分配模块604b，用于从所述任务队列中依次选取视频任务，并将选取的视频任务并行地分配至处于空闲状态的各字幕处理设备；所述视频任务，用于指示各字幕处理设备生成与所述视频任务所对应的视频片段相应的第一字幕内容。

在一个实施例中，所述字幕处理设备包括字幕处理服务器；所述任务分配模块604b还用于当不存在处于空闲状态的字幕处理服务器时，则将所述任务队列中的视频任务并行地分配至处于空闲状态的用户终端；所述视频任务，用于指示所述用户终端生成与所述视频任务所对应的视频片段相应的第一字幕内容。

在一个实施例中，所述任务分配模块604b还用于为各视频任务添加时间戳；所述时间戳用于记录相应视频任务的添加时间；当所述时间戳记录的添加时间与当前时间的差距大于预设阈值时，则判定不存在处于空闲状态的字幕处理服务器。

在一个实施例中，所述视频片段还用于指示相应字幕处理设备将所述视频片段分别转换成彩色图像视频帧序列和光流图像视频帧序列，分别从所述彩色图像视频帧序列的各彩色图像视频帧中提取第一图像特征，以及从光流图像视频帧序列的各光流图像视频帧中提取第二图像特征，根据所述第一图像特征确定物体形态特征和根据第二图像特征确定物体运动特征；分析各所述物体形态特征和所述物体运动特征，得到与所述视频片段相应的第一字幕内容。

在一个实施例中，所述视频片段还用于指示相应字幕处理设备将对应于所述视频片段中同一视频帧的第一图像特征和第二图像特征进行融合，得到融合特征，并根据融合特征确定物体综合运动特征；将所述物体形态特征、物体运动特征以及物体综合运动特征，分别输入对应的字幕生成网络模型中，输出相应的得分向量；将对应于视频片段中同一视频帧的各得分向量按照相应的投票权重进行加权求和，输出求和结果中最高得分所对应的单词，作为针对所述同一视频帧所输出的单词；根据针对每一视频帧所输出的单词组合得到与所述视频片段相应的第一字幕内容。

如图8所示，在一个实施例中，所述去冗余模块606包括：

字幕拼接模块606a，用于获取各所述字幕处理设备反馈的第一字幕内容；将各所述第一字幕内容按照相应视频片段在原始视频中所处位置的先后顺序进行拼接；

去冗余编码模块606b，用于将拼接后的字幕内容中的各词转换为词向量，得到词向量序列；对所述词向量序列进行去冗余编码得到语义向量；

解码模块606c，用于解码所述语义向量，生成与所述原始视频对应的第二字幕内容。

图9为一个实施例中计算机设备的内部结构示意图。参照图9，该计算机设备可以是图1中所示的切片服务器120。可以理解，计算机设备也可以是终端。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质可存储操作***和计算机程序。该计算机程序被执行时，可使得处理器执行一种字幕内容生成方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该内存储器中可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行一种字幕内容生成方法。计算机设备的网络接口用于进行网络通信。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的字幕内容生成装置可以实现为一种计算机程序的形式，计算机程序可在如图9所示的计算机设备上运行，计算机设备的非易失性存储介质可存储组成该字幕内容生成装置的各个程序模块，比如，图9 所示的分割模块602、推送模块604以及去冗余模块606。各个程序模块所组成的计算机程序用于使该计算机设备执行本说明书中描述的本申请各个实施例的字幕内容生成方法中的步骤，例如，计算机设备可以通过如图6所示的字幕内容生成装置600中的分割模块602获取待生成字幕内容的原始视频；将所述原始视频分割成视频片段，并通过推送模块604并行地将各视频片段推送至处于空闲状态的各字幕处理设备；所述视频片段用于指示相应字幕处理设备生成与所述视频片段相应的第一字幕内容。计算机设备可以通过去冗余模块606去除各所述字幕处理设备所反馈的第一字幕内容中冗余的字幕内容，并根据去除冗余字幕内容后剩余的字幕内容，组合生成与所述原始视频对应的第二字幕内容。

可以理解，本申请各实施例中所提供的字幕内容生成方法并不限定于应用于服务器，也可以应用于一个能够实现视频分割切片、任务派发以及字幕去冗余处理功能的终端设备。图10为另一个实施例中计算机设备的内部结构示意图。参照图10，该计算机设备即可以是该能够实现视频分割切片、任务派发以及字幕去冗余处理功能的终端设备，该计算机设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质可存储操作***和计算机程序。该计算机程序被执行时，可使得处理器执行一种字幕内容生成方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该内存储器中可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行一种字幕内容生成方法。计算机设备的网络接口用于进行网络通信。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏等。计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是终端外壳上设置的按键、轨迹球或触控板，也可以是外接的键盘、触控板或鼠标等。该计算机设备可以是个人计算机、移动终端或车载设备，移动终端包括手机、平板电脑、个人数字助理或可穿戴设备等中的至少一种。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

同样地，本申请提供的字幕内容生成装置可以实现为一种计算机程序的形式，计算机程序可在如图10所示的计算机设备上运行。

一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，计算机程序被处理器执行时，使得处理器执行如下步骤：获取待生成字幕内容的原始视频；将原始视频分割成视频片段；并行地将各视频片段推送至处于空闲状态的各字幕处理设备；视频片段用于指示相应字幕处理设备生成与视频片段相应的第一字幕内容；去除各字幕处理设备所反馈的第一字幕内容中冗余的字幕内容，并根据去除冗余字幕内容后剩余的字幕内容，组合生成与原始视频对应的第二字幕内容。

在一个实施例中，并行地将各视频片段推送至处于空闲状态的各字幕处理设备包括：将各视频片段添加至任务队列；每个视频片段与任务队列中的视频任务一一对应；从任务队列中依次选取视频任务，并将选取的视频任务并行地分配至处于空闲状态的各字幕处理设备；视频任务，用于指示各字幕处理设备生成与视频任务所对应的视频片段相应的第一字幕内容。

在一个实施例中，字幕处理设备包括字幕处理服务器；计算机程序被处理器执行时，使得处理器执行如下步骤：当不存在处于空闲状态的字幕处理服务器时，则将任务队列中的视频任务并行地分配至处于空闲状态的用户终端；视频任务，用于指示用户终端生成与视频任务所对应的视频片段相应的第一字幕内容。

在一个实施例中，计算机程序被处理器执行时，使得处理器执行如下步骤：为各视频任务添加时间戳；时间戳用于记录相应视频任务的添加时间；当时间戳记录的添加时间与当前时间的差距大于预设阈值时，则判定不存在处于空闲状态的字幕处理服务器。

在一个实施例中，视频片段还用于指示相应字幕处理设备将视频片段分别转换成彩色图像视频帧序列和光流图像视频帧序列，分别从彩色图像视频帧序列的各彩色图像视频帧中提取第一图像特征，以及从光流图像视频帧序列的各光流图像视频帧中提取第二图像特征，根据第一图像特征确定物体形态特征和根据第二图像特征确定物体运动特征；分析各物体形态特征和物体运动特征，得到与视频片段相应的第一字幕内容。

在一个实施例中，去除各字幕处理设备所反馈的第一字幕内容中冗余的字幕内容，并根据去除冗余字幕内容后剩余的字幕内容，组合生成与原始视频对应的第二字幕内容包括：获取各字幕处理设备反馈的第一字幕内容；将各第一字幕内容按照相应视频片段在原始视频中所处位置的先后顺序进行拼接；将拼接后的字幕内容中的各词转换为词向量，得到词向量序列；对词向量序列进行去冗余编码得到语义向量；解码语义向量，生成与原始视频对应的第二字幕内容。

一种存储有计算机程序的存储介质，所述计算机程序被处理器执行时，使得处理器执行如下步骤：获取待生成字幕内容的原始视频；将原始视频分割成视频片段；并行地将各视频片段推送至处于空闲状态的各字幕处理设备；视频片段用于指示相应字幕处理设备生成与视频片段相应的第一字幕内容；去除各字幕处理设备所反馈的第一字幕内容中冗余的字幕内容，并根据去除冗余字幕内容后剩余的字幕内容，组合生成与原始视频对应的第二字幕内容。

应该理解的是，虽然本申请各实施例中的各个步骤并不是必然按照步骤标号指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM (DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种字幕内容生成方法，所述方法包括：

获取待生成字幕内容的原始视频；

将所述原始视频分割成视频片段；

并行地将各视频片段推送至处于空闲状态的各字幕处理设备；所述视频片段用于指示相应字幕处理设备生成与所述视频片段相应的第一字幕内容；所述视频片段还用于指示相应字幕处理设备将所述视频片段分别转换成彩色图像视频帧序列和光流图像视频帧序列，分别从所述彩色图像视频帧序列的各彩色图像视频帧中提取第一图像特征，以及从光流图像视频帧序列的各光流图像视频帧中提取第二图像特征，根据所述第一图像特征确定物体形态特征和根据第二图像特征确定物体运动特征；分析各所述物体形态特征和所述物体运动特征，得到与所述视频片段相应的第一字幕内容；

2.根据权利要求1所述的方法，其特征在于，所述并行地将各视频片段推送至处于空闲状态的各字幕处理设备包括：

将各视频片段添加至任务队列；每个视频片段与所述任务队列中的视频任务一一对应；

从所述任务队列中依次选取视频任务，并将选取的视频任务并行地分配至处于空闲状态的各字幕处理设备；所述视频任务，用于指示各字幕处理设备生成与所述视频任务所对应的视频片段相应的第一字幕内容。

3.根据权利要求2所述的方法，其特征在于，所述字幕处理设备包括字幕处理服务器；

所述方法还包括：

当不存在处于空闲状态的字幕处理服务器时，则

将所述任务队列中的视频任务并行地分配至处于空闲状态的用户终端；所述视频任务，用于指示所述用户终端生成与所述视频任务所对应的视频片段相应的第一字幕内容。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

为各视频任务添加时间戳；所述时间戳用于记录相应视频任务的添加时间；

当所述时间戳记录的添加时间与当前时间的差距大于预设阈值时，则

判定不存在处于空闲状态的字幕处理服务器。

5.根据权利要求1所述的方法，其特征在于，所述视频片段还用于指示相应字幕处理设备将对应于所述视频片段中同一视频帧的第一图像特征和第二图像特征进行融合，得到融合特征，并根据融合特征确定物体综合运动特征；将所述物体形态特征、物体运动特征以及物体综合运动特征，分别输入对应的字幕生成网络模型中，输出相应的得分向量；将对应于视频片段中同一视频帧的各得分向量按照相应的投票权重进行加权求和，输出求和结果中最高得分所对应的单词，作为针对所述同一视频帧所输出的单词；根据针对每一视频帧所输出的单词组合得到与所述视频片段相应的第一字幕内容。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述去除各所述字幕处理设备所反馈的第一字幕内容中冗余的字幕内容，并根据去除冗余字幕内容后剩余的字幕内容，组合生成与所述原始视频对应的第二字幕内容包括：

获取各所述字幕处理设备反馈的第一字幕内容；

将各所述第一字幕内容按照相应视频片段在原始视频中所处位置的先后顺序进行拼接；

将拼接后的字幕内容中的各词转换为词向量，得到词向量序列；

对所述词向量序列进行去冗余编码得到语义向量；

解码所述语义向量，生成与所述原始视频对应的第二字幕内容。

7.一种字幕内容生成装置，其特征在于，所述装置包括：

推送模块，用于并行地将各视频片段推送至处于空闲状态的各字幕处理设备；所述视频片段用于指示相应字幕处理设备生成与所述视频片段相应的第一字幕内容；所述视频片段还用于指示相应字幕处理设备将所述视频片段分别转换成彩色图像视频帧序列和光流图像视频帧序列，分别从所述彩色图像视频帧序列的各彩色图像视频帧中提取第一图像特征，以及从光流图像视频帧序列的各光流图像视频帧中提取第二图像特征，根据所述第一图像特征确定物体形态特征和根据第二图像特征确定物体运动特征；分析各所述物体形态特征和所述物体运动特征，得到与所述视频片段相应的第一字幕内容；

8.根据权利要求7所述的装置，其特征在于，所述推送模块包括：

任务添加模块，用于将各视频片段添加至任务队列；每个视频片段与所述任务队列中的视频任务一一对应；

任务分配模块，用于从所述任务队列中依次选取视频任务，并将选取的视频任务并行地分配至处于空闲状态的各字幕处理设备；所述视频任务，用于指示各字幕处理设备生成与所述视频任务所对应的视频片段相应的第一字幕内容。

9.根据权利要求8所述的装置，其特征在于，所述字幕处理设备包括字幕处理服务器；

所述任务分配模块还用于当不存在处于空闲状态的字幕处理服务器时，则将所述任务队列中的视频任务并行地分配至处于空闲状态的用户终端；所述视频任务，用于指示所述用户终端生成与所述视频任务所对应的视频片段相应的第一字幕内容。

10.根据权利要求9所述的装置，其特征在于，所述任务分配模块还用于为各视频任务添加时间戳；所述时间戳用于记录相应视频任务的添加时间；当所述时间戳记录的添加时间与当前时间的差距大于预设阈值时，则判定不存在处于空闲状态的字幕处理服务器。

11.根据权利要求7至10中任一项所述的装置，其特征在于，所述去冗余模块包括：

字幕拼接模块，用于获取各所述字幕处理设备反馈的第一字幕内容；将各所述第一字幕内容按照相应视频片段在原始视频中所处位置的先后顺序进行拼接；

去冗余编码模块，用于将拼接后的字幕内容中的各词转换为词向量，得到词向量序列；对所述词向量序列进行去冗余编码得到语义向量；

解码模块，用于解码所述语义向量，生成与所述原始视频对应的第二字幕内容。

12.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1至6中任一项所述方法的步骤。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1至6中任一项所述方法的步骤。