CN107707931B

CN107707931B - 根据视频数据生成解释数据、数据合成方法及装置、电子设备

Info

Publication number: CN107707931B
Application number: CN201610644155.8A
Authority: CN
Inventors: 刘垚; 华先胜; 黄健强; 周昌
Original assignee: Alibaba Group Holding Ltd
Current assignee: Zhejiang Tmall Technology Co Ltd
Priority date: 2016-08-08
Filing date: 2016-08-08
Publication date: 2021-09-10
Anticipated expiration: 2036-08-08
Also published as: CN107707931A

Abstract

本申请提供一种根据视频数据生成解释数据的方法和装置以及一种视频与解释数据的合成的方法和装置，以及一种视频与解释数据的合成的电子设备，所述根据视频数据生成解释数据的方法包括以下步骤：获取待处理视频片段；从所述待处理视频片段的待处理视频帧中识别出可识别事件及其属性参数；根据所述可识别事件的属性参数，生成所述可识别事件所对应的解释数据。达到节省节目制作成本的效果。并能够起到使得节目能够更加快速及时地播出的作用。

Description

根据视频数据生成解释数据、数据合成方法及装置、电子设备

技术领域

本申请涉及一种生成解释数据的方法，具体涉及一种根据视频数据生成解释数据的方法和装置。还涉及一种视频与解释数据的合成的方法和装置。还涉及一种视频与解释数据的合成的电子设备。

背景技术

通常情况下，大多数多媒体节目中都已经包含有视频和与视频的内容相对应的语音，这样的节目可以采用预先录制好视频和对应的语音的方式制作。

而对于仅仅包含有视频而不包含语音的节目，为了符合观看者的观看习惯和提升其观看体验，很多时候需要对所述仅仅包含视频的节目进行处理为其增加与其内容相对应的语音或文字解释后再提供给观看者。这无疑需要花费大量的人力根据视频的内容进行相应的解说并录制，甚至还需要人工将语音或文字与其所对应的视频生成为一套多媒体节目。

另外对于现场直播的情况，则只能在采集视频的同时同步地录制相应的语音并同时将视频和语音一起播出。这就要求对于现场直播的情况，必须有相应的解说人员根据现场的情况的不同，同步地提供与当时情况相对应地语音解说。

再例如对于根据已有的视频素材重新剪辑和编辑生成的新的视频，原有的语音或文字等解释不再适用于剪辑和编辑后新的视频，也需要人工为剪辑和编辑后新的视频增加与其内容所对应的语音或文字等解释数据。

与上述几种情况类似的情况都需要花费人工和额外的时间才能提供解释数据。从而导致节目的制作成本增加和不能及时播出的问题。

发明内容

本申请提供一种根据视频数据生成解释数据的方法。本申请同时提供一种根据视频数据生成解释数据的装置。本申请还提供一种为视频生成解释数据的方法和一种为视频生成解释数据的装置。本申请还提供一种为视频生成解释数据的电子设备。

本申请提供的一种根据视频数据生成解释数据的方法，包括以下步骤：

获取待处理视频片段；

从所述待处理视频片段的待处理视频帧中识别出可识别事件及其属性参数；

根据所述可识别事件的属性参数，生成所述可识别事件所对应的解释数据。

优选地，所述从所述待处理视频片段的待处理视频帧中识别出可识别事件及其属性参数包括：

检测所述待处理视频片段的待处理视频帧内是否包含可识别事件；

若包含，则确定所述可识别事件的属性参数。

优选地，所述检测所述待处理视频片段的待处理视频帧内是否包含可识别事件包括：

利用已经标记的视频数据训练得到的计算用计算机神经网络和所述待处理视频片段的待处理视频帧的数据，检测所述待处理视频片段的待处理视频帧内是否包含可识别事件。

优选地，所述计算机神经网络包括三维卷积神经网络或长短期记忆人工神经网络。

优选地，所述确定所述可识别事件的属性参数包括：

利用已经标记的视频数据训练得到的计算用计算机神经网络和所述待处理视频片段的待处理视频帧的数据，确定所述可识别事件的属性参数。

优选地，所述可识别事件的属性参数包括以下至少一项：

所述可识别事件发生的视频帧所对应的时间、所述可识别事件结束的视频帧所对应的时间、所述可识别事件的名称、所述可识别事件的参与者的位置。

优选地，所述计算机神经网络包括：三维卷积神经网络或长短期记忆人工神经网络。

利用已经标记的视频数据训练得到的计算用计算机神经网络和所述待处理视频帧和所述待处理视频片段的视频帧的数据，从所述待处理视频片段的待处理视频帧中识别出可识别事件及其属性参数。

优选地，所述解释数据包括语音数据；

相应地，根据所述可识别事件的属性参数，生成所述可识别事件所对应的解释数据包括：

根据所述可识别事件的属性参数，分别确定其所对应的各个语音片段数据；

将所述各个语音片段数据生成为一条语音数据作为所述可识别事件所对应的语音数据。

优选地，所述解释数据包括文字数据；

根据所述可识别事件的属性参数，分别确定其所对应的各段文本数据；

将所述各段文本数据生成为一条文本数据作为所述可识别事件所对应的文字数据。

优选地，所述从所述待处理视频片段的待处理视频帧中识别出可识别事件及其属性参数的步骤前还包括以下步骤：

按照预先设定的帧率对所述待处理视频片段进行采样解码；

将经过所述采样解码后得到的视频帧作为待处理视频片段的待处理视频帧。

优选地，所述根据所述可识别事件的属性参数，生成所述可识别事件所对应的解释数据的步骤后还包括：

将所述解释数据与所述待处理视频片段进行合成。

优选地，其特征在于用于根据体育节目视频生成解说语音。

本申请提供的一种视频与解释数据的合成的方法，包括以下步骤：

获取流格式的待处理视频；

将所述待处理视频切片，生成预定时长的视频片段，所述待处理视频片段包含一组待处理视频帧；

针对每一组待处理视频帧，判断所述待处理视频帧中是否包含可识别事件；

在包含时，则执行以下步骤：从待处理视频帧中确定可识别事件及其属性参数；根据所述可识别事件的属性参数，生成所述可识别事件所对应的解释数据；将所述解释数据与所述待处理视频片段进行合成，形成包含待处理视频片段与解释数据的已处理视频片段；

按照对所述待处理视频片段的先后顺序，将所述待处理视频中未处理视频片段与已处理视频片段聚合为已处理视频。

本申请提供的一种根据视频数据生成解释数据的装置，包括：

获取单元，用于获取待处理视频片段；

识别单元，用于从所述待处理视频片段的待处理视频帧中识别出可识别事件及其属性参数；

生成单元，用于根据所述可识别事件的属性参数，生成所述可识别事件所对应的解释数据。

优选地，所述识别单元包括：

检测子单元，用于检测所述待处理视频片段的待处理视频帧内是否包含可识别事件；

确定子单元，用于若包含，则确定所述可识别事件的属性参数。

优选地，所述检测子单元，具体用于：

优选地，所述确定子单元具体用于：

若包含，则利用已经标记的视频数据训练得到的计算用计算机神经网络和所述待处理视频片段的待处理视频帧的数据，确定所述可识别事件的属性参数。

优选地，所述识别单元具体用于：

优选地，所述生成单元具体用于根据所述可识别事件的属性参数，生成所述可识别事件所对应的语音数据；

相应地，所述生成单元包括：

语音片段确定子单元，用于根据所述可识别事件的属性参数，分别确定其所对应的各个语音片段数据；

语音生成子单元，用于将所述各个语音片段数据生成为一条语音数据作为所述可识别事件所对应的语音。

优选地，所述生成单元具体用于根据所述可识别事件的属性参数，生成所述可识别事件所对应的文字数据；

相应地，所述生成单元包括：

文本确定子单元，用于根据所述可识别事件的属性参数，分别确定其所对应的各段文本数据；

文字生成子单元，用于将所述各段文本数据生成为一条文本数据作为所述可识别事件所对应的文字数据。

优选地，还包括：

采样单元，用于按照预先设定的帧率对所述待处理视频帧进行采样解码；

待处理单元，用于将经过所述采样解码后得到的视频帧作为待处理视频帧。

优选地，还包括：

合成单元，用于将所述解释数据与所述待处理视频进行合成。

优选地，用于根据体育节目视频生成解说语音。

本申请提供的一种视频与解释数据的合成的装置，包括：

获取单元，用于获取流格式的待处理视频；

切片单元，用于将所述待处理视频切片，生成预定时长的视频片段，所述待处理视频片段包含一组待处理视频帧；

判断单元，用于针对每一组待处理视频帧，判断所述待处理视频帧中是否包含可识别事件；

包含单元，用于在包含时，则执行以下步骤：从待处理视频帧中确定可识别事件及其属性参数；根据所述可识别事件的属性参数，生成所述可识别事件所对应的解释数据；将所述解释数据与所述待处理视频片段进行合成，形成包含待处理视频片段与解释数据的已处理视频片段；

聚合单元，用于按照对所述待处理视频片段的先后顺序，将所述待处理视频中未处理视频片段与已处理视频片段聚合为已处理视频。

本申请提供的一种视频与解释数据的合成的电子设备，包括处理器和存储器，

所述存储器用于存储实现根据视频数据生成解释数据的方法的程序，该设备通电并通过所述处理器运行该实现根据视频数据生成解释数据的方法的程序后，执行下述步骤：

获取待处理视频片段；

与现有技术相比，本申请的根据视频数据生成解释数据的方法具有以下优点：从视频中识别出可识别的事件，根据从视频中识别出的可识别事件的属性参数，生成所述可识别事件所对应的解释数据。不需要人工观看视频即可为视频生成视频中事件所对应的解释数据，达到节省节目制作成本的效果。并能够起到使得节目能够更加快速及时地播出的作用。

附图说明

图1为本申请第一实施例一种根据视频数据生成解释数据的方法的流程示意图；

图2为本申请第二实施例一种视频与解释数据的合成的方法的流程示意图；

图3为本申请第二实施例一种视频与解释数据的合成的方法的体育视频与解说语音合成示意图；

图4为本申请第三实施例一种根据视频数据生成解释数据的装置的结构框图；

图5为本申请第四实施例一种视频与解释数据的合成的装置的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

本申请第一实施例提供一种根据视频数据生成解释数据方法，该方法可以应用于任何需要为视频添加视频中事件相应的解释数据的情况，本实施所述方法的流程示意图如图1所示，该实施例包括以下步骤：

步骤S101，获取预先设定时长的流格式的待处理视频片段的视频帧作为待处理视频帧。

本步骤所述的流格式指流式传输的流格式，对于视频数据来说，流格式的视频即无需完整的包括所述视频的完整时长的数据，仅仅是部分时长的数据即可解码得到所述时长的视频图像的视频。

本方法所述的流格式的待处理视频片段为包含预先设定的时长的流格式视频，所述流格式视频包括监控视频、现场直播节目的视频或体育节目的视频等。所述流格式的待处理视频既可以直接来源于监控设备或直播的设备，也可以是来源于后期生成制作的节目数据，例如，剪辑在一起的体育运动的某种动作的集合或体育比赛中精彩镜头的集合等。

上述流格式视频有的在生成时就不包含其内容所对应的解释数据，有的虽然原来可能包含有解释数据，但对于剪辑后编辑在一起的新的流格式的视频，原有的解释数据与其不相匹配，需要被清除，这就需要新的解释数据与之相配合。

所述视频通常存储于磁盘(包括硬盘)，光盘等存储设备上，可以通过读取设备将存储于存储设备中的所述视频流数据读入缓存进行后续的处理，也可以通过网络接收所述其他设备通过网络发送的所述视频的数据并对其进行后续的处理。

所述预先设定的时长使所述视频片段中足够包含有一个可识别事件且所述视频帧所包含的所述可识别事件能够被后续的步骤识别出来。

步骤S102，从所述待处理视频片段的待处理视频帧中识别出可识别事件及其属性参数。

在进行本步骤，从所述待处理视频中识别出可识别事件及其属性参数之前，优选地可以对所获得视频片段做一些预处理，如对所述视频按照预先设定的帧率进行重新采样。

视频为连续多幅静止的画面组成，每一幅静止的画面为一张静态的照片，被称为一帧。帧率(也被称为画面更新率)是用于测量视频单位时间内显示画面帧数的量度。测量单位为“每秒显示帧数”(Frame per Second)，所以帧率的英文缩写为FPS。

通常，为了保证视频播放时画面的连续性，视频流数据的帧率通常在24以上，即每秒钟包含有24帧以上的静态画面。

本步骤前，可以按照预先设定的帧率，如6-10FPS对所述获取到的视频进行重新采样，使得经过重新采样后的视频每秒钟包含6-10帧静态的画面，即每秒6-10幅照片。具体帧率的选取应该以采样后的视频仍旧能够表现完整的可识别事件为准。

经过降低帧率重新采样处理后再查找可识别事件能够显著减少后续查找可识别事件时需要处理的数据量。

无论对于重新采样后的待处理片段的所有视频帧还是没有经过重新采样的待处理视频片段的所有视频帧，都为所述待处理视频片段的待处理视频帧。本步骤在获取到所述待处理视频帧后，需要对其进行处理以从中识别出所述视频中发生的事件，所述视频片段中能够被识别出的发生的事件被称为可识别事件。

获得了待处理帧数据后，检测所述待处理视频帧内是否包含可识别事件。

本实施例提供的检测所述待处理视频帧内是否包含有可识别事件的方法包括利用已经标记的视频数据训练得到的计算用计算机神经网络和所述待处理视频帧数据，计算检测所述待处理视频帧内是否包含可识别事件。

所述计算用计算机神经网络是通过利用已经标记的视频数据，采用机器学习算法，训练所述计算用计算机神经网络得到的。

采用上述方法能够充分利用已有的，被标记了的，大量真实视频数据得到尽可能准确的，符合实际情况的检测结果。

所述计算机神经网络包括三维卷积(C3D)神经网络或长短期记忆(LSTM)人工神经网络。

其中三维卷积(C3D)神经网络由一个或多个卷积层和顶端的全连通层(对应经典的神经网络)组成，同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他学习结构相比，卷积神经网络在图像和语音识别方面能够给出更优的结果。这一模型也可以使用反向传播算法进行训练。相比较其他、前馈神经网络，卷积神经网络需要估计的参数更少。

所述长短期记忆(LSTM)人工神经网络是一种时间递归神经网络，由于其相比时间递归神经网络(RNN)更为独特的结构，LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。作为非线性模型，LSTM可作为复杂的非线性单元用于构造更大型神经网络。

所述计算机神经网络的输入为视频帧的数据，输出可以设置为是否包含可识别事件，也可以直接设置为可识别事件的属性参数中的事件的名称以及是否包含。这样能够仅需一次计算得到不仅是否包含有可识别事件，还能够同时得到可识别事件的名称。进一步地，甚至可以将所述计算机神经网络的输出设置为不仅包含有可识别事件的名称和是否包含，还可以包含有可识别事件的所有属性参数。这样能够在一次计算中得到所有结果，节省了时间。节约了资源。所述计算机神经网络的具体结构可以根据所采用的计算机神经网络的种类，计算环境的实际条件，时间，成本等情况来确定。

所述机器学习算法使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。机器学习算法的好处是可以用非监督式或监督式的特征学习和分层特征提取的高效算法来替代手工获取特征。

所述已经标记的视频数据是指如下所述的视频数据：所述已经标记的视频帧数据为多组视频帧数据，所述多组视频帧中包含有所有可识别事件，每组视频帧含有一个可识别事件，所述视频帧中包含的可识别事件的属性参数也已经获知。

所述已经标记的视频的帧率与待处理视频的帧率相同，如果待处理视频经过了重新采样，则相应的已经标记的视频数据的帧率与重新采样后的待处理视频数据的帧率相同。

所述已经标记的视频可以通过对已有的视频进行帧率调整和帧截取并添加必要的标记信息来获得。在对已有的视频进行上述处理时，可以仅仅保留包含有可识别事件的那些组视频帧，同时为了从有限的已有视频资源中获得尽可能多种情况的包含可识别事件的视频，可以对包含可识别事件的那些组视频帧进行一些诸如翻转，模糊等处理，并将经过上述处理后得到的那些组视频帧进行相应的添加必要标记的处理后也作为已经标记的视频数据。以使得获得的包含有可识别事件的已经标记的视频数据涵盖尽可能多的情况。

事先将所述已经标记好的视频帧数据作为样本数据与测试数据，训练所述的计算机神经网络，当预先设定的停止训练所述计算机神经网络的条件得到满足时，将计算机神经网络的参数固定下来，作为计算用的计算机神经网络。

训练计算机神经网络的方式有多种，既可以是监督式的也可以是非监督式的，还可以是半监督式的，采用的具体方式可以根据所用到的计算机神经网络的种类以及样本数据和可识别事件的本身的特点来确定。

训练的过程大致如下：算出样本数据的样本均值；将样本数据作为所述计算机神经网络的输入，计算得到结果，根据所述结果与样本均值的偏差，调整所述计算机神经网络的各个参数，将样本数据输入所述计算机神经网络，计算得到结果并计算偏差，当偏差不满足预期时继续调整所述计算机神经网络的各个参数并再次进行计算训练，直到偏差满足预期或其他结束训练的条件被满足，如训练次数达到预期，结束训练。

利用测试数据对所述结束了训练的计算机神经网络进行必要的验证，若验证结果为正面的，则将所述计算机神经网络作为计算用计算机神经网络。若验证结果为负面的，则需要调整所述计算机神经网络并重新训练验证。

本步骤将所述待处理视频帧的数据作为所述固定了参数的计算用计算机神经网络的输入，进行计算，根据该计算机神经网络的输出即可判断所述待处理视频帧中是否包含可识别事件。

若所述待处理视频帧中包含有可识别事件，则确定所述可识别事件的属性参数。

与检测所述待处理视频帧内是否包含可识别事件类似地，利用已经标记的视频数据训练得到的计算用计算机神经网络和所述待处理视频帧数据，计算确定所述可识别事件的属性参数。同样地。这样能够充分利用已有的被标记的大量真实视频数据得到尽可能准确的，符合实际情况的检测结果。

所述可识别事件的属性参数包括以下至少一项：所述可识别事件发生的视频帧所对应的时间、所述可识别事件结束的视频帧所对应的时间、所述可识别事件的名称、所述可识别事件的参与者的位置。确定这些属性参数能够为后续处理提供丰富的信息，也便于生成更符合视频内容的解释数据。

针对不同可识别事件的属性参数，可以根据其特点，选取不同的计算机神经网络，例如，对于可识别事件的时间或可识别事件的名称，上述两种计算机神经网络都能够得到令人满意的结果，而对于可识别事件的参与者的位置，其与时序无关，采用三维卷积(C3D)神经网络，则更便于训练。

所述计算机神经网络的输入可以设置为视频帧的数据，输出可以设置为计算所述可识别事件的属性参数所必须的相关参数。

例如，对于确定可识别事件发生的视频帧所对应的时间的情况，可以设置所述计算机神经网络的输出包含有发生所述可识别事件的帧相对于所述待处理视频片段的第一帧的偏移量，一旦确定了发生所述可识别事件的视频帧后，通过发生所述可识别事件的视频帧的时间戳信息即可确定所述可识别事件发生的视频帧所对应的时间。

类似地，可以设置所述计算机神经网络的输出包含有所述可识别事件结束的帧相对于所述待处理视频片段的最后一帧的偏移量。

对于在检测所述待处理视频帧内是否包含可识别事件时已经确定了所述可识别事件的名称的情况，则仅需要将所述计算机神经网络的输出设置为所述可识别事件的其余的属性参数即可。

对于多于一项的可识别事件的属性参数，既可以将所述计算机神经网络的输出设置为所述可识别事件的多个属性参数，这样训练该计算机神经网络后得到的计算用计算机神经网络可以用于所述可识别事件的不同的属性参数的计算。即同时及可以计算得到所述可识别事件的不同属性参数。

对于多于一项的可识别事件的属性参数，还可以将所述计算机神经网络的输出每次仅设置为所述可识别事件的一个属性参数，即可识别事件的不同的属性参数对应的计算用计算机神经网络也不同，需要有针对性地训练。这样训练所述计算机神经网络比较容易快速得到计算用的计算机神经网络。

计算机神经网络和学习算法的其他方面，如利用已经标记的视频数据训练所述计算机神经网络以及利用所述待处理视频帧数据和所述计算用神经网络计算得到所述可识别事件的属性参数的过程在前文关于检测所述待处理视频帧内是否包含可识别事件部分已有描述，在此不再赘述。

下面以从篮球比赛的视频片段中识别出蓝球运动的动作及发生所述动作视频帧所对应的的时间，以及所述动作的运动员的位置为例，进行说明。

其中篮球比赛视频的片段对应于待处理视频片段，蓝球运动的动作对应于可识别事件，也是可识别事件的名称，所述发生动作的时间，对应于发生可识别事件的视频帧所对应的时间，所述动作的关键运动员的位置对应于可识别事件的参与者的位置。

篮球运动通常2-3秒钟完成一个动作，所述篮球比赛的视频片段市场为4秒，首先对所述篮球比赛的视频进行重新采样，将帧率调整到6FPS，将所述4秒时长，6FPS供24帧视频帧作为待处理视频帧。

事先对计算机神经网络进行训练，得到计算用计算机神经网络。训练用样本数据和测试数据的获得通常为一下方式：对包含有可识别的篮球运动动作的视频进行帧率调整，视频帧截取和标记等工作后，筛选出仅仅包含有可识别的篮球运动动作的那些组视频帧数据。

将已经标记了不同篮球比赛动作及动作的时间和运动员位置的那些组视频帧作为样本数据和测试数据。

构造计算机神经网络，采用三维卷积(C3D)神经网络，确定网络结构，如网络中卷积层层数、池化(pooling)层的层数、全连接(FC)层层数，且定义每层的参数，包括卷积核的大小等。例如：5组卷积层(其中每组中包含一个卷积层、一个激励(ReLU)层、一个池化(Pooling)层)，外加三层全连接(FC)层与最终的输出层。

将样本数据作为所述三维卷积(C3D)神经网络的输入，例如，对于4秒时长的视频帧，如果每秒6帧则所述待处理视频帧或样本数据为24帧，每帧画面大小为160×120像素，每帧画面包含RGB三通道的情况下，所述三维卷积(C3D)神经网络的输入可以设置为3×24×120×160个输入量。

所述三维卷积(C3D)神经网络网络的输出，根据需要得到的结果不同可以分别设置。

如需要仅仅判断所述待处理的篮球比赛视频中是否包含可识别的动作时，可以将所述三维卷积(C3D)神经网络网络的输出设置为一个长度为2的向量，向量的值分别为“包含”或“不包含”的概率，范围为0-1之间，且两个向量值的和为1，当设定第一个向量为“包含”的概率，第二个向量为“不包含”的概率，而输出结果为(0.01，0.99)时表示本次输入的篮球比赛视频帧中不包含可识别的篮球运动的动作的概率为99％，可以判断为本次输入的篮球比赛视频帧中不包含可识别的篮球运动的动作。

对于需要判断所述待处理的篮球比赛视频中是否包含可识别的动作并且需要得到确切的动作内容，也即名称的情况，可以根据可识别动作的数量设置所述三维卷积(C3D)神经网络网络的输出。如当可识别动作的数量为13时，可以设置所述三维卷积(C3D)神经网络网络的输出为一个长度为14的向量，所述14个向量分别对应13种可识别动作的概率和“不包含”可识别动作的情况的概率，所述14个向量值的和为1。

对于仅仅需要确定所述待处理的篮球比赛视频中的动作的内容即名称的情况，可以根据可识别动作的数量设置所述三维卷积(C3D)神经网络网络的输出。如当可识别动作的数量为13时，可以设置所述三维卷积(C3D)神经网络网络的输出为一个长度为13的向量，所述14个向量分别对应13种可识别动作的概率，所述13个向量值的和为1。

训练所述三维卷积(C3D)神经网络时，将每个样本数据即包含有所有篮球运动动作的多组视频帧数据输入所述三维卷积(C3D)神经网络，如果样本数据量过大不便于将所有样本都经过所述三维卷积(C3D)神经网络后再计算偏差，可以采用mini-batch的方式，即每N个样本数据后计算一次偏差，在根据偏差调整所述三维卷积(C3D)神经网络的各个参数，再将N个样本数据输入所述三维卷积(C3D)神经网络网络，直至计算得到的偏差满足预期，结束训练所述三维卷积(C3D)神经网络。

用测试数据对所述偏差满足预期的三维卷积(C3D)神经网络网络进行必要的验证，若验证结果为正面的，则将所述偏差满足预期的三维卷积(C3D)神经网络网络作为计算用计算机神经网络。若验证结果为负面的，则需要调整所述计算机神经网络并重新训练验证。

利用训练得到的计算用三维卷积(C3D)神经网络网络和所述篮球比赛的视频片段的待处理视频帧，检测到所述待处理的篮球比赛视频帧中包含有可识别的篮球运动动作后，继续确定所述篮球动作的其他属性参数，包括动作的起止时间和动作的运动员的位置。

对于确定所述待处理的篮球比赛视频中的动作发生和结束的视频帧所对应的时间的情况，可以将所述三维卷积(C3D)神经网络网络的输出设置为一个长度为2的向量，向量的值可以分别设置为所述动作的开始和结束的视频帧相对于所述三维卷积(C3D)神经网络网络的输入的视频帧的第一帧和最后一帧的偏移量。

所述偏移量可以设置为帧数，对于帧率为6FPS，时长为4秒的待处理视频帧数据来说，作为所述三维卷积(C3D)神经网络网络的输入为24帧，每一帧的编号分别为0至23。若所述三维卷积(C3D)神经网络网络的输出设置为相对于第一帧和最后一帧的偏移的帧数，而输出结果为{3，-5}的情况，表明该动作从所述输入视频帧中的第3帧开始到第18帧结束。对于每一帧都带有时间戳标记的待处理视频帧来说，根据每个视频帧的时间戳，可以计算得到该动作在原始视频帧中发生的起止时间。

对于确定所述待处理的篮球比赛视频中的动作中的运动员的位置的情况，可以根据实际需求对所述确定了动作的名称和时间的待处理视频帧数据采用显著性检测方法进行计算，得到所述动作中的关键运动员的位置，也即所述运动员在视频帧中的区域。所述区域可以采用坐标的形式来表示，也可以直接表达为类似热力图的图片。

除了利用包含可识别的篮球运动动作的视频帧的数据计算得到所述动作的关键运动员的位置外，也可以将所述计算机神经网络的卷积层的输出数据作为显著性检测方法的输入数据，计算得到所述包含可识别的篮球运动动作的视频帧中的动作的关键运动员的位置。

至此，确定了所述视频帧所包含的可识别事件的属性参数，本步骤结束。可以执行下一步骤。

S103，根据所述可识别事件的属性参数，生成所述可识别事件所对应的解释数据。

优选地，首先根据所述可识别事件的属性参数，分别确定其所对应的各个段解释数据。

对于不同的属性参数，其所对应的解释数据段也不相同，可以根据前一步骤中识别出的可识别事件的属性参数，将其作为关键字通过查找解释数据段数据库，确定每个属性参数所对应的解释数据段。

所述解释数据可以是语音数据，也可以是文字数据，还可以是其他任何形式的解释数据。

对于解释数据是语音数据的情况，所述解释数据段数据库为语音片段数据库，该数据库可以通过将带有语音的视频的语音截取下来建立并维护。也可以通过针对不同的可识别事件的属性参数，分别重新录制相应的不同风格的语音片段，建立语音片段数据库，存储所述语音片段。

所述语音片段数据库所存储的每一个语音片段具有索引关键字，所述索引关键字与可识别事件的属性参数相对应以便于查找。

例如，对于前一步骤从篮球比赛的视频片段中识别出可识别篮球运动的动作及其属性参数后，根据所述篮球运动的动作的各个属性参数，从语音片段数据库中查识别出他们所对应的语音片段。如对于识别出的动作为“上篮成功”，发生该上篮成功动作的视频帧所对应的时间为“10分钟时”，所述上篮成功的运动员的位置坐标为画面右侧，则可以确定对应的语音片段分别为“上篮成功”，“比赛进行到10分钟时”和“某某队球员”。其中，根据上篮运动员的位置和时间，以及所述视频所录制的比赛的双方标识，可以确定上篮成功的运动员所属于的球队信息。

当所述可识别事件的属性参数对应于语音片段数据库中不止一个语音片段时，可以按照预先设定的规则选取一个语音片段用于后续的语音生成，如随机选取，或选取人声，风格相同的等等。

选取好各个属性参数所对应的语音片段后，将所述可识别事件的各个属性参数所对应的语音片段数据按照语言规律合并生成为一条语音作为所述可识别事件所对应的语音。

以前文确定的各个语音片段为例，按照中文的语法语言习惯，可以将上述、述各个语音片段合并生成为：“比赛进行到10分钟时，某某队球员上篮成功”。

对于解释数据为文字数据的情况，所述解释数据段数据库为文本段数据库，该数据库可以根据所述可识别事件的属性参数来输入建立，并维护。

与语音片段数据库类似地，所述文本段数据库中存储的文本段也由可识别事件，即篮球运动动作的属性参数索引，所述存储的文本段，既可以是所述篮球动作的相关属性信息，也可以是任何与所述视频或所述动作相关的信息。

从所述文本段数据库选取相应的文本段的方法与从语音片段数据库选取语音片段类似，当有多于一个文本段可以选择时，可以根据上下文进行选择也可以随机选择。

当所述篮球动作的属性参数所对应的各段文本被确定后，将所述各段文本按照语言语法习惯连接起来或者可以根据所述文本的应用场景连接起来以达到预期的效果。如对于为视频生成弹幕信息数据时，甚至可以有意不按照语法组合文本以达到特殊的效果。

所述可识别事件的解释数据除了包括上述形式的信息外，还可以包括统计信息，如对于监控视频(对应于本申请的待处理视频流数据)，当识别出欲分析的事件后(所述欲分析的时间对应于本申请中的可识别事件)，可以根据所述事件的属性参数，如事件类型等调整相应的统计数据，这样就可以无需人工观看所有视频既可以得到欲分析事件的大量的统计数据，节省了时间和成本。方便基于上述统计信息的工作的进行和快速完成。

至此，根据所述可识别时间的属性参数，合并生成了所述可识别事件对应的解释数据。

此后，还可以将所述解释数据与所述待处理视频流数据进合成，包括将所述解释信息添加到所述待处理视频片段的可识别事件相应的视频帧的位置，如将语音数据添加到所述视频帧的相对应地位置，或者将所述文字数据添加到所述视频帧上等等。

不断截取待体育节目视频的视频帧并按照上述步骤中的说明进行相应的处理，就可以为体育节目视频生成解说语音或解说字幕。也可以为节目添加弹幕等其他信息，使得节目更具有趣味性。

除了上述同步解释数据的方式外，甚至还可以将多于一种的解释数据同步到所述待处理视频，如既为待处理视频增加同步的字幕解释信息，同时也添加同步的解说语音数据。这样能够使得所述原来不包含解释信息的视频具备多种解释信息，丰富了视频的表达方式，拓宽了所述视频的使用范围。

以上为本申请的一种根据视频数据生成解释数据的方法的实施例，该方法从视频中识别出的可识别事件的属性参数，生成所述可识别事件所对应的语音。不需要人工观看视频即可为视频生成视频中事件所对应的语音，达到节省节目制作成本的效果。并能够起到使得节目能够更加快速及时地播出的作用。

本申请第二实施例提供一种视频与解释数据的合成的方法，其流程示意图如图2所示。

S201，获取流格式的待处理视频。

所述视频可可以是体育赛事的完整视频或多个精彩动作的集锦。其格式为流传输格式，可以对其部分进行处理而不影响食品的其他部分。

本步骤获取完整的所述视频或获取流式传输的部分视频。如流格式的体育比赛视频。

S202，将所述待处理视频切片，生成预定时长的视频片段，所述待处理视频片段包含一组待处理视频帧。

本步骤按照预定的时长对所获取到的视频进行切片分割，生成预定时长的视频片段，所述预定的时长根据所获得的视频的内容的特点来设置，保证一个可识别事件被包含在所述视频的一个片段中，所述视频片段包含有一组视频帧。

对与获取到的完整视频，可以对其进行切片处理，对于接收流式传输获得的体育比赛视频，同样可以在接收到足够多的数据时，对接收到的部分视频进行切片处理。得到待处理视频片段。

S203，针对每一组待处理视频帧，判断所述待处理视频帧中是否包含可识别事件。

可以采用本申请第一实施例中的判断处理视频帧中是否包含可识别事件的方法判断每一组带处理视频帧中是否包含有可识别事件。

对于完整视频进行切片的情况可以一次性地针对所有视频片段的所有组视频帧进行判断及后续的处理。

而对于接收到部分视频的情况，仅对接收到的切片后的每组视频帧进行处理。如体育比赛的视频，仅对接收到的部分进行切片和相应的判断。

S204，在包含时，则执行以下步骤：从待处理视频帧中确定可识别事件及其属性参数；根据所述可识别事件的属性参数，生成所述可识别事件所对应的解释数据；将所述解释数据与所述待处理视频片段进行合成，形成包含待处理视频片段与解释数据的已处理视频片段。

当应用前一步骤的方法判断出所述待处理视频帧中包含有可识别事件后，对判断出可识别事件的待处理视频，确定其所包含的可识别事件的属性参数，并根据所述属性参数，生成所述可识别事件所对应的解释数据。将所述解释数据与所述待处理视频片段和成为包含有待处理视频片段和解释数据的已处理视频片段。

对于没有检测到可识别事件的视频片段，称其为未处理视频片段。

例如对于流格式的体育比赛的视频，尽管仅仅接收到福分视频，仍然可以对其进行判断，判断出现可识别的动作后，确定所是动作的属性参数，并根据所述属性参数确定其所对应的解释数据，如解说语音数据，将所述解说语音数据与所述体育比赛食品的待处理视频片段合并，形成已处理视频片段。

S205，按照对所述待处理视频片段的先后顺序，将所述待处理视频中未处理视频片段与已处理视频片段聚合为已处理视频。

对于完整视频进行处理得到所有已处理视频的情况，可以将所有已处理视频片段和所有未处理视频片段，按照其原始流格式的顺序，聚合形成为已处理视频。

对于接收到部分流格式的视频进行相应的处理的情况，同样可以将接收到的所有已处理视频片段和所有未处理视频片段，按照其原始流格式的顺序，聚合成为已处理视频。

例如前面步骤中的体育比赛视频，按照流格式的顺序不断将已包含解说语音的已处理视频和不包含语音的为处理视频集合，能够达到为体育比赛添加同步解说语音的效果。

下面以体育视频与解说语音的合成为例简要说明本实施例发提供的方法的应用，如图3所示，

首先对获取到的视频进行必要的预处理，包括编解码，切片等，得到待处理的视频片段。每个视频片段中包含有一组视频帧。

识别所述视频片段中是否包含有可识别的体育事件。并确定所述体育事件的属性参数，包括所述事件的时间，动作以及运动员的位置。

根据上述属性参数确定解说语音。

将所述语音与所述视频片段聚合。

此后对后需获取到的视频数据继续重复上述步骤，达到将体育视频与解说语音合成的效果。

本申请的第三实施例提供一种根据视频数据生成解释数据的装置，其结构框图如图4所示，该装置包括以下单元：U301获取单元，U302识别单元和U303生成单元。

所述获取单元U301，用于获取待处理视频片段。

所述识别单元U302，用于从所述待处理视频片段的待处理视频帧中识别出可识别事件及其属性参数。

所述识别单元U302，具体用于利用已经标记的视频数据训练得到的计算用计算机神经网络和所述待处理视频帧和所述待处理视频片段的视频帧的数据，从所述待处理视频片段的待处理视频帧中识别出可识别事件及其属性参数。

可选地，所述识别单元U302可以包括检测子单元和确定子单元。

所述检测子单元，用于检测所述待处理视频片段的待处理视频帧内是否包含可识别事件。

优选地，所述检测子单元，具体用于利用已经标记的视频数据训练得到的计算用计算机神经网络和所述待处理视频片段的待处理视频帧的数据，检测所述待处理视频片段的待处理视频帧内是否包含可识别事件。

所述确定子单元，用于若包含，则确定所述可识别事件的属性参数。

可选地，所述确定子单元具体用于若包含，则利用已经标记的视频数据训练得到的计算用计算机神经网络和所述待处理视频片段的待处理视频帧的数据，确定所述可识别事件的属性参数。

所述生成单元U303，用于根据所述可识别事件的属性参数，生成所述可识别事件所对应的解释数据。

优选地，所述生成单元U303，具体用于根据所述可识别事件的属性参数，生成所述可识别事件所对应的语音数据。

相应地，

所述生成单元可以包括语音片段确定子单元和语音生成子单元。

所述语音片段确定子单元，用于根据所述可识别事件的属性参数，分别确定其所对应的各个语音片段数据；

所述语音生成子单元，用于将所述各个语音片段数据生成为一条语音作为所述可识别事件所对应的语音。

优选地，所述生成单元U303，也可以具体用于根据所述可识别事件的属性参数，生成所述可识别事件所对应的文字数据。

相应地，

所述生成单元包括文本确定子单元和文字生成子单元。

所述文本确定子单元，用于根据所述可识别事件的属性参数，分别确定其所对应的各段文本数据。

所述文字生成子单元，用于将所述各段文本数据生成为一条文本数据作为所述可识别事件所对应的文字数据。

优选地，所述根据视频数据生成解释数据的装置还可以包括采样单元和待处理单元。

所述采样单元，用于按照预先设定的帧率对所述待处理视频流数据进行采样解码；

所述待处理单元，用于将经过所述采样解码后得到的视频帧作为待处理视频帧。

优选地，所述根据视频数据生成解释数据的装置还包括合成单元，所述合成单元，用于将所述解释数据与所述待处理视频进行合成。

优选地，所述根据视频数据生成解释数据的装置可以用于根据体育节目视频生成解说语音。

本申请第四实施例提供一种视频与解释数据的合成的装置，其结构框图如图5所示，包括：获取单元U401，用于获取流格式的待处理视频；

切片单元U402，用于将所述待处理视频切片，生成预定时长的视频片段，所述待处理视频片段包含一组待处理视频帧；

判断单元U403，用于针对每一组待处理视频帧，判断所述待处理视频帧中是否包含可识别事件；

包含单元U404，用于在包含时，则执行以下步骤：从待处理视频帧中确定可识别事件及其属性参数；根据所述可识别事件的属性参数，生成所述可识别事件所对应的解释数据；将所述解释数据与所述待处理视频片段进行合成，形成包含待处理视频片段与解释数据的已处理视频片段；

聚合单元U405，用于按照对所述待处理视频片段的先后顺序，将所述待处理视频中未处理视频片段与已处理视频片段聚合为已处理视频。

本申请第五实施例提供一种视频与解释数据的合成的电子设备，包括处理器和存储器，

获取待处理视频片段；

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种根据视频数据生成解释数据的方法，特征在于，包括以下步骤：

获取待处理视频片段；

从所述待处理视频片段的待处理视频帧中识别出可识别事件及其属性参数；其中，所述可识别事件是指所述待处理视频片段能够被识别出的发生的事件；所述属性参数包括所述可识别事件发生的视频帧所对应的时间；

根据所述可识别事件的属性参数，生成所述可识别事件所对应的解释数据，包括：根据所述可识别事件的属性参数，分别确定属性参数所对应的各个段解释数据，根据与每个属性参数对应的各个段解释数据进行合并生成可识别事件的解释数据；

将所述解释数据与所述待处理视频片段进行合成；

其中，所述从所述待处理视频片段的待处理视频帧中识别出可识别事件及其属性参数包括：检测所述待处理视频片段的待处理视频帧内是否包含可识别事件；若包含，则确定所述可识别事件的属性参数；

所述确定所述可识别事件的属性参数包括：利用已经标记的视频数据训练得到的计算用计算机神经网络和所述待处理视频片段的待处理视频帧的数据，确定所述可识别事件的属性参数。

2.根据权利要求1所述的根据视频数据生成解释数据的方法，其特征在于，所述检测所述待处理视频片段的待处理视频帧内是否包含可识别事件包括：

3.根据权利要求2所述的根据视频数据生成解释数据的方法，其特征在于，所述计算机神经网络包括三维卷积神经网络或长短期记忆人工神经网络。

4.根据权利要求1所述的根据视频数据生成解释数据的方法，其特征在于，所述可识别事件的属性参数包括以下至少一项：

所述可识别事件结束的视频帧所对应的时间、所述可识别事件的名称、所述可识别事件的参与者的位置。

5.根据权利要求1所述的根据视频数据生成解释数据的方法，其特征在于，所述计算机神经网络包括：三维卷积神经网络或长短期记忆人工神经网络。

6.根据权利要求1所述的根据视频数据生成解释数据的方法，其特征在于，所述从所述待处理视频片段的待处理视频帧中识别出可识别事件及其属性参数包括：

7.根据权利要求1所述的根据视频数据生成解释数据的方法，其特征在于，所述解释数据包括语音数据；

8.根据权利要求1所述的根据视频数据生成解释数据的方法，其特征在于，所述解释数据包括文字数据；

9.根据权利要求1所述的根据视频数据生成解释数据的方法，其特征在于，所述从所述待处理视频片段的待处理视频帧中识别出可识别事件及其属性参数的步骤前还包括以下步骤：

按照预先设定的帧率对所述待处理视频片段进行采样解码；

10.根据权利要求1至9任一权利要求所述的根据视频数据生成解释数据的方法，其特征在于用于根据体育节目视频生成解说语音。

11.一种视频与解释数据的合成的方法，特征在于，包括以下步骤：

获取流格式的待处理视频；

针对每一组待处理视频帧，判断所述待处理视频帧中是否包含可识别事件；其中，所述可识别事件是指所述待处理视频片段能够被识别出的发生的事件；

在包含时，则执行以下步骤：从待处理视频帧中确定可识别事件及其属性参数；根据所述可识别事件的属性参数，生成所述可识别事件所对应的解释数据，包括：根据所述可识别事件的属性参数，分别确定属性参数所对应的各个段解释数据，根据与每个属性参数对应的各个段解释数据进行合并生成可识别事件的解释数据；

将所述解释数据与所述待处理视频片段进行合成，形成包含待处理视频片段与解释数据的已处理视频片段；其中，所述属性参数包括所述可识别事件发生的视频帧所对应的时间；按照对所述待处理视频片段的先后顺序，将所述待处理视频中未处理视频片段与已处理视频片段聚合为已处理视频；

其中，从所述待处理视频片段的待处理视频帧中识别出可识别事件及其属性参数包括：检测所述待处理视频片段的待处理视频帧内是否包含可识别事件；若包含，则确定所述可识别事件的属性参数；

12.一种根据视频数据生成解释数据的装置，包括：

获取单元，用于获取待处理视频片段；

识别单元，用于从所述待处理视频片段的待处理视频帧中识别出可识别事件及其属性参数；其中，所述可识别事件是指所述待处理视频片段能够被识别出的发生的事件；所述属性参数包括所述可识别事件发生的视频帧所对应的时间；

生成单元，用于根据所述可识别事件的属性参数，生成所述可识别事件所对应的解释数据，包括：根据所述可识别事件的属性参数，分别确定属性参数所对应的各个段解释数据，根据与每个属性参数对应的各个段解释数据进行合并生成可识别事件的解释数据；

合成单元，用于将所述解释数据与所述待处理视频进行合成；

所述识别单元包括：检测子单元，用于检测所述待处理视频片段的待处理视频帧内是否包含可识别事件；

确定子单元，用于若包含，则确定所述可识别事件的属性参数；所述确定子单元具体用于：若包含，则利用已经标记的视频数据训练得到的计算用计算机神经网络和所述待处理视频片段的待处理视频帧的数据，确定所述可识别事件的属性参数。

13.根据权利要求12所述的根据视频数据生成解释数据的装置，其特征在于，所述检测子单元，具体用于：

14.根据权利要求12所述的根据视频数据生成解释数据的装置，其特征在于，所述识别单元具体用于：

15.根据权利要求12所述的根据视频数据生成解释数据的装置，其特征在于，所述生成单元具体用于根据所述可识别事件的属性参数，生成所述可识别事件所对应的语音数据；

相应地，所述生成单元包括：

16.根据权利要求12所述的根据视频数据生成解释数据的装置，其特征在于，所述生成单元具体用于根据所述可识别事件的属性参数，生成所述可识别事件所对应的文字数据；

相应地，所述生成单元包括：

17.根据权利要求12所述的根据视频数据生成解释数据的装置，其特征在于，还包括：

18.根据权利要求12至17任一权利要求所述的根据视频数据生成解释数据的装置，其特征在于用于根据体育节目视频生成解说语音。

19.一种视频与解释数据的合成的装置，特征在于，包括：

获取单元，用于获取流格式的待处理视频；

判断单元，用于针对每一组待处理视频帧，判断所述待处理视频帧中是否包含可识别事件；其中，所述可识别事件是指所述待处理视频片段能够被识别出的发生的事件；

包含单元，用于在包含时，则执行以下步骤：从待处理视频帧中确定可识别事件及其属性参数；其中，从所述待处理视频片段的待处理视频帧中识别出可识别事件及其属性参数包括：检测所述待处理视频片段的待处理视频帧内是否包含可识别事件；若包含，则确定所述可识别事件的属性参数；

所述确定所述可识别事件的属性参数包括：利用已经标记的视频数据训练得到的计算用计算机神经网络和所述待处理视频片段的待处理视频帧的数据，确定所述可识别事件的属性参数；

将所述解释数据与所述待处理视频片段进行合成，形成包含待处理视频片段与解释数据的已处理视频片段；其中，所述属性参数包括所述可识别事件发生的视频帧所对应的时间；

20.一种视频与解释数据的合成的电子设备，其特征在于，包括处理器和存储器，

获取待处理视频片段；

从所述待处理视频片段的待处理视频帧中识别出可识别事件及其属性参数；其中，所述可识别事件是指所述待处理视频片段能够被识别出的发生的事件；所述属性参数包括所述可识别事件发生的视频帧所对应的时间；其中，所述从所述待处理视频片段的待处理视频帧中识别出可识别事件及其属性参数包括：检测所述待处理视频片段的待处理视频帧内是否包含可识别事件；若包含，则确定所述可识别事件的属性参数；

将所述解释数据与所述待处理视频片段进行合成。