CN115905584B

CN115905584B - 一种视频拆分方法及装置

Info

Publication number: CN115905584B
Application number: CN202310029942.1A
Authority: CN
Inventors: 赵仪琳; 魏海巍
Original assignee: Gongdao Network Technology Co ltd
Current assignee: Gongdao Network Technology Co ltd
Priority date: 2023-01-09
Filing date: 2023-01-09
Publication date: 2023-08-11
Anticipated expiration: 2043-01-09
Also published as: CN115905584A

Abstract

本申请公开了一种视频拆分方法及装置。该方法包括：获取原始视频，将所述原始视频分割为多个视频片段；提取相应视频片段的音频特征和图像特征，以及对应于所述音频特征的文本特征；分别计算所述音频特征与所述文本特征之间的第一相关性、所述图像特征与所述文本特征之间的第二相关性；将所述音频特征与所述第一相关性的乘积作为音频特征输入向量，将所述图像特征与所述第二相关性的乘积作为图像特征输入向量，并根据所述文本特征、所述音频特征输入向量与所述图像特征输入向量判断相应视频片段是否为所述原始视频的拆分节点；以被判定为拆分节点的视频片段的起始时刻或终止时刻为拆分时刻，将所述原始视频拆分为多个目标视频。

Description

一种视频拆分方法及装置

技术领域

本申请一个或多个实施例涉及视频处理技术领域，尤其涉及一种视频拆分方法及装置。

背景技术

视频是通过媒体给人们呈现的具有一定价值的连续内容，是人们生活、休闲、娱乐、信息和社会生活的重要组成部分，用户可以采用多种方式观看视频，其中，新闻视频便是新闻传播的重要渠道。但在电视上播出的新闻视频是完整的新闻节目，通常会包含多个新闻条目，主流的新闻类节目通常有30分钟及以上的时长，而在当前短视频广泛流行的状态下，人们希望利用有限的时间关注自己感兴趣的内容。因此，将完整的视频根据条目拆分成多个短视频以实现用户的个性化需求是视频处理技术中的重要一环。同时，将视频根据条目拆分开，也能够方便电视台对其进行编目入库，方便查询和管理。

目前，视频网站或者新闻类的应用会将从各个渠道汇聚而来的新闻类素材进行人工打点拆条、上线，供用户对于其中感兴趣的每条新闻进行点击观看。但视频平台每天产出的视频内容极多，且新闻时效性要求高，人力往往无法跟上，由于人为主观性因素的存在与差异，拆分位置的准确性也很难得到保障。因此，本申请提出一种新的视频拆分方法及装置以提高视频拆分的效率和准确率。

发明内容

本申请提供一种用于视频拆分方法和装置，以解决相关技术中的不足。

根据本申请一个或多个实施例的第一方面，提供一种视频拆分方法，该方法包括：

获取原始视频，将所述原始视频分割为多个视频片段；

针对每个视频片段，分别执行下述操作：提取相应视频片段的音频特征和图像特征，以及对应于所述音频特征的文本特征；分别计算所述音频特征与所述文本特征之间的第一相关性、所述图像特征与所述文本特征之间的第二相关性；将所述音频特征与所述第一相关性的乘积作为音频特征输入向量，将所述图像特征与所述第二相关性的乘积作为图像特征输入向量，并根据所述文本特征、所述音频特征输入向量与所述图像特征输入向量判断相应视频片段是否为所述原始视频的拆分节点；

以被判定为拆分节点的视频片段的起始时刻或终止时刻为拆分时刻，将所述原始视频拆分为多个目标视频。

可选地，所述提取相应视频片段的音频特征和图像特征，以及对应于所述音频特征的文本特征，包括：

分别提取相应视频片段的原始音频特征和原始图像特征；

通过Bi-LSTM模型对所述原始音频特征进行特征提取，得到相应视频片段的音频特征；以及，通过Bi-LSTM模型对所述原始图像特征进行特征提取，得到相应视频片段的图像特征；

将所述相应视频片段的音频部分，通过语音识别转换为文本内容；通过textCNN模型对所述文本内容进行特征提取，得到相应视频片段的文本特征。

可选地，所述分别提取相应视频片段的原始音频特征和原始图像特征，包括：

获取所述相应视频片段的音频部分，将所述音频部分转换为音频波形，并采用VGGish模型从所述音频波形中提取所述原始音频特征；

获取所述相应视频片段的图像部分，将所述图像部分转换为视频帧图像集，抽取至少一部分视频帧图像作为代表图像，并采用InceptionV3模型从所述代表图像中提取所述原始图像特征。

可选地，所述分别计算所述音频特征与所述文本特征之间的第一相关性、所述图像特征与所述文本特征之间的第二相关性，包括：

通过注意力机制计算所述音频特征与所述文本特征之间的第一相关性；以及，通过注意力机制计算所述图像特征与所述文本特征之间的第二相关性。

可选地，所述根据所述文本特征、所述音频特征输入向量与所述图像特征输入向量判断相应视频片段是否为所述原始视频的拆分节点，包括：

将所述文本特征、所述音频特征输入向量与所述图像特征输入向量作为入参输入已训练的识别模型，根据所述识别模型的输出结果判断相应视频片段是否为所述原始视频的拆分节点。

可选地，所述识别模型通过下述方式训练得到：

获取由原始样本视频分割得到的多个样本视频片段，所述样本视频片段添加有类型标签，所述类型标签表明相应的样本视频片段是否为所述原始样本视频的拆分节点；

针对每个样本视频片段，分别执行下述操作：提取相应样本视频片段的样本音频特征和样本图像特征，以及对应于所述样本音频特征的样本文本特征；分别计算所述样本音频特征与所述样本文本特征之间的第一样本相关性、所述样本图像特征与所述样本文本特征之间的第二样本相关性；将所述样本音频特征与所述第一样本相关性的乘积作为样本音频特征输入向量，将所述样本图像特征与所述第二样本相关性的乘积作为样本图像特征输入向量，并将所述样本文本特征、所述样本音频特征输入向量与所述样本图像特征输入向量作为相应样本视频片段对应的一组训练样本；

根据所述多个样本视频片段分别对应的训练样本和类型标签，对原始识别模型进行训练，得到所述已训练的识别模型。

可选地，所述方法还包括：

在每个预设更新周期结束时和/或获得的添加有类型标签的样本视频片段的累积数量达到预设更新样本阈值的情况下，对所述已训练的识别模型进行更新训练。

根据本申请一个或多个实施例的第二方面，提供一种视频拆分装置，该装置包括：

预处理单元，用于获取原始视频，将所述原始视频分割为多个视频片段；

判断单元，用于针对每个视频片段，分别执行下述操作：提取相应视频片段的音频特征和图像特征，以及对应于所述音频特征的文本特征；分别计算所述音频特征与所述文本特征之间的第一相关性、所述图像特征与所述文本特征之间的第二相关性；将所述音频特征与所述第一相关性的乘积作为音频特征输入向量，将所述图像特征与所述第二相关性的乘积作为图像特征输入向量，并根据所述文本特征、所述音频特征输入向量与所述图像特征输入向量判断相应视频片段是否为所述原始视频的拆分节点；

拆分单元，用于以被判定为拆分节点的视频片段的起始时刻或终止时刻为拆分时刻，将所述原始视频拆分为多个目标视频。

根据本申请一个或多个实施例的第三方面，提供一种电子设备，包括处理器；用于存储处理器可执行指令的存储器；其中，所述处理器通过运行所述可执行指令以实现一种可选的所述视频拆分的方法。

根据本申请一个或多个实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现一种可选的所述视频拆分的方法。

应用本申请提供的实施例，通过提取相应视频片段的音频特征和图像特征，以及对应于所述音频特征的文本特征，生成文本特征、音频特征输入向量与图像特征输入向量并据此判断相应视频片段是否为所述原始视频的拆分点，并根据拆分点将原始视频拆分为多个目标视频，实现了对视频的自动快速拆分，减少了视频拆分对人工操作的依赖，节约了人力成本，同时也弱化了人为主观因素对视频拆分结果的负面影响，利用计算机智能音视频算法提高了视频拆分的效率和准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本申请一示例性实施例示出的一种视频拆分方法的流程图；

图2是本申请一具体实施例示出的一种识别模型的训练流程图；

图3是本申请一示例性实施例示出的一种视频拆分装置的结构示意图；

图4时本申请一实施例视频拆分装置所在计算机设备的一种硬件结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

下面将对本申请提出的视频拆分方法以及视频拆分装置进行具体说明。

针对某一具体的视频拆分任务，尤其是新闻视频根据条目拆分的业务场景中，新闻节目通常集中在固定的时间段（如中午12点至12点半，下午7点至7点半）播放，时长通常在30分钟及以上，属于长视频（时长超过10分钟的视频），一个完整的新闻视频至少包含两条以上的新闻内容，而用户更关心的通常是某条或某类新闻节目，长视频不利于迅速捕获人们的兴趣点。同时，对于电视剧等长视频内容，用户期待能够便捷跳过某段剧情或某个人物，只观看自己感兴趣的部分，因此如何将视频根据某种特定原因进行自动拆分是客观存在的技术需求。为满足这一需求，本申请提供一种视频拆分的方法，节省进行拆分视频的重复性工作所需的部分人工成本，提高视频拆分的效率和准确率。

本实施例所示的视频拆分的方法可以应用于多种业务场景下的视频拆分任务中，所述原始视频可以为包含多条具体新闻的新闻视频，也可以是短视频集、电视剧、电影等视频内容，可以根据新闻条目进行拆分，也可以根据视频剧情内容、角色人物、环境场景等条件进行拆分，拆分得到的目标视频可以是多条主题相对独立的新闻，也可以是多段剧情内容、角色人物、环境场景等相对独立的视频。图1是根据本申请一示例性实施例示出的一种视频拆分方法的流程图。如图1所示，所述视频拆分方法主要包括如下步骤。

步骤S101：获取原始视频，将所述原始视频分割为多个视频片段。

步骤S102：针对每个视频片段，分别执行下述操作：提取相应视频片段的音频特征和图像特征，以及对应于所述音频特征的文本特征；分别计算所述音频特征与所述文本特征之间的第一相关性、所述图像特征与所述文本特征之间的第二相关性；将所述音频特征与所述第一相关性的乘积作为音频特征输入向量，将所述图像特征与所述第二相关性的乘积作为图像特征输入向量，并根据所述文本特征、所述音频特征输入向量与所述图像特征输入向量判断相应视频片段是否为所述原始视频的拆分节点。

步骤S103：以被判定为拆分节点的视频片段的起始时刻或终止时刻为拆分时刻，将所述原始视频拆分为多个目标视频。

在步骤S101中，原始视频可以为任意时长、任意类型、任意来源的视频，即任何视频均可以作为本申请中的原始视频，可以通过新闻视频网站、软件、电视台等途径获取原始视频，本申请并不对此进行限制。

可以采用多种视频剪辑工具、软件、算法分割原始视频，对于分割得到的视频片段，其时长可以通过保持一致以降低片段之间信息量的差别，为了提高后续操作中多项特征提取与分类的准确率，视频片段的时长可以设置为5秒，也可以根据实际需要，自行调整视频片段的时长以不断优化模型，提高模型准确率。在原始视频时长为30分钟时，可以将原始视频切割为360个时长为5秒的视频片段，也可以将原始视频切割为180个时长为10秒的视频片段。

视频（Video）泛指将一系列静态影像以电信号的方式加以捕捉、记录、处理、储存、传送与重现的各种技术。当每秒有超过24帧画面以上的连续的图像变化时，根据视觉暂留原理，人眼便无法辨别出单幅的静态画面，只能看到平滑连续的视觉效果，这样连续的画面叫做视频。将音频文件也按照时间线，根据画面节奏进行设计，添加进视频，视频便能够有声有色。目前，视频文件由音频与图像组成，为了根据内容信息拆分视频，需要让计算机理解视频的内容，因此需要提取视频的音频特征与图像特征。

在步骤S102中，针对每个视频片段，提取音频特征是通过精简原始的波形采样信号，将音频用一系列的数字表示（采样与量化），再在数字表示的信号上执行各种各样的信号处理操作，识别得到音频的能量特征、时域特征、频域特征、乐音特征、感知特征等的过程，可以采用包括卷积，傅里叶变换，拉普拉斯变换等等方法，通过某些模拟装置对连续模拟信号进行的处理，可以采用神经网络结构如CNN、DNN、Transformer或RNN提取原始音频特征，也可以通过预训练模型如L3-net、基于AudioSet的PANNs提取原始音频特征。

在一具体实施例中，可以通过下述方式提取所述相应视频片段的原始音频特征：获取所述相应视频片段的音频部分，将所述音频部分转换为音频波形，并采用VGGish模型从所述音频波形中提取所述原始音频特征。VGGish模型作为特征提取器能够将音频输入特征转化为具有语义和有意义的128 维high-level的特征向量，进而可以作为下游模型的输入。VGGish模型的输入数据为wav音频文件，在获取所述相应视频片段的音频部分后，将音频重采样为16kHz单声道音频，使用25 ms的Hann时窗，10 ms的帧移对音频进行短时傅里叶变换得到频谱图，通过将频谱图映射到64阶mel滤波器组中计算mel声谱，计算，得到稳定的 mel 声谱，所加的 0.01 的偏置是为了避免对 0 取对数，然后这些特征将以0.96s的时长被组帧，并且没有帧的重叠，每一帧都包含 64 个mel 频带，时长为10ms（即总共 96 帧）。

提取图像特征是通过获取将图像之间区别开，并尽量解释其含义的过程，由于每一秒至少包括24帧图像，而在一秒之内各帧图像之间差异并不大，所以图像特征的提取首先需要进行抽帧处理，选取一定时长范围内的代表帧图像，提取图像的自然特征如亮度、边缘、纹理和色彩等和需要通过变换或处理才能得到的数字特征，如矩、直方图以及主成份等，将某一类对象的多个或多种特性组合在一起，形成一个特征向量来代表该类对象，如果只有单个数值特征，则特征向量为一个一维向量，如果是n个特性的组合，则为一个n维特征向量。可以采用SIFT、HOG、ORB或HAAR等多种算法提取原始图像特征，也可以通过DeepLearning深度学习模型、InceptionV3模型等模型提取原始图像特征。

在一具体实施例中，可以通过下述方式提取所述相应视频片段的原始图像特征：获取所述相应视频片段的图像部分，将所述图像部分转换为视频帧图像集，抽取至少一部分视频帧图像作为代表图像，并采用InceptionV3模型从所述代表图像中提取所述原始图像特征。通过设计CNN的多层叠加网络结构进行预训练，可以先用某个训练集合比如训练集合A或者训练集合B对这个网络进行预先训练，在A任务上或者B任务上训练得到网络参数并保存以备后用。在面对第三个任务C时采取相同的网络结构，在比较浅的几层CNN结构，网络参数初始化的时候可以加载A任务或者B任务学习好的参数，其它CNN高层参数仍然随机初始化。之后我们用C任务的训练数据来训练网络，在C任务训练过程中底层网络参数仍然随着训练的进程不断改变，更好地把参数进行调整使得更适应当前的C任务。

在提取得到相应视频片段的原始音频特征和原始图像特征后，进一步优化音频特征和图像特征可以提高解决问题的能力，减少无关特征和冗余特征的数量，能够在保证识别模型的正确度不会损失太多的基础上，加快模型训练速度，提高学习效率，使得识别模型的输出结果的类别分布尽可能的接近真实的类别分布。可以通过多种模型对原始音频特征、原始图像特征进行提取优化，例如，SuperPoint网络、DCNN深度卷积神经网络、LSTM模型和Bi-LSTM模型等模型方法。

在一具体实施例中，可以通过Bi-LSTM模型对所述原始音频特征进行特征提取，得到相应视频片段的音频特征；以及，通过Bi-LSTM模型对所述原始图像特征进行特征提取，得到相应视频片段的图像特征。Bi-LSTM （Bi-directional Long Short-Term Memory）模型分为 2 个独立的LSTM，输入序列分别以正序和逆序输入至 2 个LSTM 神经网络进行特征提取，将 2个输出向量（即提取后的特征向量）进行拼接后形成的词向量作为该词的最终特征表达。Bi-LSTM 的模型设计理念是使 t 时刻所获得特征数据同时拥有过去和将来之间的信息，以得到保护时序特征的音频特征与图像特征。

提取文本特征是文本挖掘、信息检索的过程，通过将一个无结构的原始文本转化为结构化的计算机可以识别处理的信息，即对文本进行科学的抽象，量化表达，在不损伤文本核心信息的情况下尽量减少要处理的单词数的过程，降低向量空间维数，简化数据计算，从而提高文本处理的速度和效率。对于视频而言，其文本内容需要根据音频部分转换得到，并可以通过基于统计的特征提取方法例如构造评估函数、N-gram算法等得到词频、文档频次、逆文档频率、互信息、期望交叉熵等文本特征，也可以通过基于语义的特征抽取方法例如On-tology模型、VSM向量空间模型等得到最具分类信息的特征。

在一具体实施例中，通过将所述相应视频片段的音频部分，通过语音识别转换为文本内容；通过textCNN模型对所述文本内容进行特征提取，得到相应视频片段的文本特征。因为文本内容作为离散符号化的词并不能将语义信息传递出去，所以需要将词映射到向量空间，这不仅有利于进行相应的计算，在映射的过程中也能使相关的向量蕴涵一定的语义。利用ernie预训练模型对文本内容做特征提取，获得训练好的词向量，再送入textCNN模块，经过三次卷积池化，获得文本特征。

在步骤S102中，经过特征提取后，进一步进行模态融合，获得音频特征、图像特征与文本特征的相关性表达。在尝试通过计算机语言描述视频的过程中，单个模态例如音频特征、图像特征，以及对应于所述音频特征的文本特征通常不能包含产生精确传达含义所需的全部有效信息，多模态融合过程结合了来自两个或多个模态的信息，实现信息补充，拓宽输入数据所包含信息的覆盖范围，提升预测结果的精度，提高模型分类的鲁棒性。模态融合方法包括通过对各模态表示进行相同位置元素的相乘或相加、构建编码器—解码器结构和用 LSTM 神经网络进行信息整合，也包括通过规则来确定不同模型输出结果的结合策略，例如最大值结合、平均值结合、贝叶斯规则结合以及集成学习等结合方法。通过分别计算所述音频特征与所述文本特征之间的第一相关性、所述图像特征与所述文本特征之间的第二相关性将所述音频特征与所述第一相关性的乘积作为音频特征输入向量，将所述图像特征与所述第二相关性的乘积作为图像特征输入向量。所述音频特征输入向量即为音频特征与文本特征模态间的融合特征向量，能够反映所述图像特征输入向量即为图像特征与文本特征模态间的融合特征向量。

在一具体实施例中，通过注意力机制计算所述音频特征与所述文本特征之间的第一相关性；以及，通过注意力机制计算所述图像特征与所述文本特征之间的第二相关性。注意力机制可以用来为这些不同的特征表示分配重要权重，这些特征可以确定最相关的方面，而忽略输入中的噪声和冗余。注意力机制的输入层为文本特征与音频特征的串接时，对输入进来的特征层分别进行全局平均池化（AvgPool）和全局最大池化（MaxPool）（两个池化都针对于输入特征层的高宽），再将平均池化和最大池化的结果利用共享的全连接层（Shared MLP）进行处理，然后将共享的全连接层所得到的结果进行相加再使用Sigmoid激活函数，进而获得通道注意图即获得输入特征层每一个通道的权重（0~1之间）即第一相关性，将权重通过乘法逐通道加权到输入特征层上即可得到音频特征输入向量。将文本特征与图像特征串接作为输入层时，同样上述的操作，即可得到通道注意图即获得输入特征层每一个通道的权重（0~1之间）即第二相关性，将权重通过乘法逐通道加权到输入特征层上即可得到图像特征输入向量。

在步骤S102中，根据所述文本特征、所述音频特征输入向量与所述图像特征输入向量判断相应视频片段是否为所述原始视频的拆分节点。判断方法可以是逻辑回归、朴素贝叶斯、决策树、支持向量机、随机森林、梯度提升树等分类算法模型。将相应视频片段根据所述文本特征、所述音频特征输入向量与所述图像特征输入向量等特征向量分类为两种：是原始视频的拆分节点/不是原始视频的拆分节点。在本申请一具体实施例中，采用识别模型进行分类。具体来说，将所述文本特征、所述音频特征输入向量与所述图像特征输入向量作为入参输入已训练的识别模型，根据所述识别模型的输出结果判断相应视频片段是否为所述原始视频的拆分节点。所述识别模型可以是通过Softmax算法构建得到，不再唯一的确定某一个最大值，而是为每个输出分类的结果都赋予一个概率值，表示相应视频片段是拆分节点或者不是拆分节点的可能性，即将视频片段添加类型标签，所述类型标签可以用来表明相应的视频片段是否为所述原始视频的拆分节点。在所述相应视频片段是拆分节点的可能性超过预设阈值（例如0.9）的情况下，则可以判断认为相应视频片段是原始视频拆分节点。

在步骤S103中，以被判定为拆分节点的视频片段的起始时刻或终止时刻为拆分时刻，将所述原始视频拆分为多个目标视频。

下面通过一个具体的例子，来更为直观地说明本申请的一个较佳实施例的实现过程。图2是根据本申请一示例性实施例示出的一种识别模型的训练流程图。如图2所示，所述识别模型的训练过程主要包括如下步骤。

步骤S201：获取由原始样本视频分割得到的多个样本视频片段，所述样本视频片段添加有类型标签，所述类型标签表明相应的样本视频片段是否为所述原始样本视频的拆分节点。

步骤S202：针对每个样本视频片段，分别执行下述操作：提取相应样本视频片段的样本音频特征和样本图像特征，以及对应于所述样本音频特征的样本文本特征；分别计算所述样本音频特征与所述样本文本特征之间的第一样本相关性、所述样本图像特征与所述样本文本特征之间的第二样本相关性；将所述样本音频特征与所述第一样本相关性的乘积作为样本音频特征输入向量，将所述样本图像特征与所述第二样本相关性的乘积作为样本图像特征输入向量，并将所述样本文本特征、所述样本音频特征输入向量与所述样本图像特征输入向量作为相应样本视频片段对应的一组训练样本。

步骤S203：根据所述多个样本视频片段分别对应的训练样本和类型标签，对原始识别模型进行训练，得到所述已训练的识别模型。

将样本视频片段按照一定的比例（如8:1:1）将样本划分为训练集与验证集、测试集，所述训练集样本可以用于训练识别模型，所述验证集样本可以用于评估识别模型，所述测试集样本用于计算识别模型的误差。当所述已训练的拆分模型在验证集取得的准确度不再增长且损失值稳定衰减到预设值时认为模型收敛，结束迭代训练，得到所述已训练的拆分模型。

在一具体实施例中，在每个预设更新周期结束时和/或获得的添加有类型标签的样本视频片段的累积数量达到预设更新样本阈值的情况下，对所述已训练的识别模型进行更新训练。将上述训练完成的模型部署在软件应用中，给用户提供能够在线或离线给原始视频达标，即确认拆分点的功能，设置一定时间周期和/或设置样本阈值，在个预设更新周期结束时或者添加有类型标签的样本视频片段的累积数量达到预设更新样本阈值的情况下将用户达标的视频样本上传数据库，收集为新的训练集样本，为了防止用户无意义的打标，人工标注随机抽取该数据进行审核与校验。在少量标注下，结合用户数据，通过上述流程提升模型整体效果。

与前述方法的实施例相对应，本申请实施例还提供了一种视频拆分装置，用于支持上述任意一个实施例或其组合所提供的视频拆分方法。

图3是一示例性实施例示出的一种视频拆分装置的结构示意图，装置包括：预处理单元31、判断单元32、拆分单元33。

预处理单元31，用于获取原始视频，将所述原始视频分割为多个视频片段。

判断单元32，用于针对每个视频片段，分别执行下述操作：提取相应视频片段的音频特征和图像特征，以及对应于所述音频特征的文本特征；分别计算所述音频特征与所述文本特征之间的第一相关性、所述图像特征与所述文本特征之间的第二相关性；将所述音频特征与所述第一相关性的乘积作为音频特征输入向量，将所述图像特征与所述第二相关性的乘积作为图像特征输入向量，并根据所述文本特征、所述音频特征输入向量与所述图像特征输入向量判断相应视频片段是否为所述原始视频的拆分节点。

拆分单元33，用于以被判定为拆分节点的视频片段的起始时刻或终止时刻为拆分时刻，将所述原始视频拆分为多个目标视频。

在一示例性实施例中，判断单元32还用于分别提取相应视频片段的原始音频特征和原始图像特征；通过Bi-LSTM模型对所述原始音频特征进行特征提取，得到相应视频片段的音频特征；以及，通过Bi-LSTM模型对所述原始图像特征进行特征提取，得到相应视频片段的图像特征；将所述相应视频片段的音频部分，通过语音识别转换为文本内容；通过textCNN模型对所述文本内容进行特征提取，得到相应视频片段的文本特征。

判断单元32还用于获取所述相应视频片段的音频部分，将所述音频部分转换为音频波形，并采用VGGish模型从所述音频波形中提取所述原始音频特征；获取所述相应视频片段的图像部分，将所述图像部分转换为视频帧图像集，抽取至少一部分视频帧图像作为代表图像，并采用InceptionV3模型从所述代表图像中提取所述原始图像特征。通过注意力机制计算所述音频特征与所述文本特征之间的第一相关性；以及，通过注意力机制计算所述图像特征与所述文本特征之间的第二相关性。

在另一示例性实施例中，判断单元32还用于将所述文本特征、所述音频特征输入向量与所述图像特征输入向量作为入参输入已训练的识别模型，根据所述识别模型的输出结果判断相应视频片段是否为所述原始视频的拆分节点。

另外，本申请实施例的视频拆分装置还包括：训练单元（图3中未示出）。训练单元，用于获取由原始样本视频分割得到的多个样本视频片段，所述样本视频片段添加有类型标签，所述类型标签表明相应的样本视频片段是否为所述原始样本视频的拆分节点；针对每个样本视频片段，分别执行下述操作：提取相应样本视频片段的样本音频特征和样本图像特征，以及对应于所述样本音频特征的样本文本特征；分别计算所述样本音频特征与所述样本文本特征之间的第一样本相关性、所述样本图像特征与所述样本文本特征之间的第二样本相关性；将所述样本音频特征与所述第一样本相关性的乘积作为样本音频特征输入向量，将所述样本图像特征与所述第二样本相关性的乘积作为样本图像特征输入向量，并将所述样本文本特征、所述样本音频特征输入向量与所述样本图像特征输入向量作为相应样本视频片段对应的一组训练样本；根据所述多个样本视频片段分别对应的训练样本和类型标签，对原始识别模型进行训练，得到所述已训练的识别模型。

本申请实施例的视频拆分装置还包括：更新单元（图3中未示出）。更新单元，用于在每个预设更新周期结束时和/或获得的添加有类型标签的样本视频片段的累积数量达到预设更新样本阈值的情况下，对所述已训练的识别模型进行更新训练。

本申请视频拆分装置的实施例可以应用在计算机设备上，例如服务器或终端设备。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在视频拆分的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。通常根据该计算机设备的实际功能，还可以包括其他硬件，对此不再赘述。从硬件层面而言，如图4所示，为本申请实施例视频拆分装置所在计算机设备的一种硬件结构图，除了图4所示的处理器402、内部总线404、网络接口406、内存408、以及非易失性存储器410之外，通常根据该计算机设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种视频拆分方法，其特征在于，包括：

获取原始视频，将所述原始视频分割为多个视频片段；

2.根据权利要求1所述的方法，其特征在于，所述提取相应视频片段的音频特征和图像特征，以及对应于所述音频特征的文本特征，包括：

分别提取相应视频片段的原始音频特征和原始图像特征；

3.根据权利要求2所述的方法，其特征在于，所述分别提取相应视频片段的原始音频特征和原始图像特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述分别计算所述音频特征与所述文本特征之间的第一相关性、所述图像特征与所述文本特征之间的第二相关性，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述文本特征、所述音频特征输入向量与所述图像特征输入向量判断相应视频片段是否为所述原始视频的拆分节点，包括：

6.根据权利要求5所述的方法，其特征在于，所述识别模型通过下述方式训练得到：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.一种视频拆分装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如权利要求1-7中任一项所述视频拆分的方法。

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如权利要求1-7中任一项所述视频拆分方法的步骤。