CN110166828A

CN110166828A - 一种视频处理方法和装置

Info

Publication number: CN110166828A
Application number: CN201910122357.XA
Authority: CN
Inventors: 李志成
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-02-19
Filing date: 2019-02-19
Publication date: 2019-08-23

Abstract

本申请实施例公开了一种视频处理方法和装置，对于需要进行视频拆条的待处理视频，通过确定该待处理视频的内容类型，从神经网络模型中确定出对应该内容类型的神经网络模型，并通过该神经网络模型从待处理视频中确定出包括了该内容类型所对应图像特征的视频帧，并将这类视频帧作为待处理视频的拆条节点帧，根据拆条节点帧对待处理视频进行视频拆条，得到多个视频片段。不仅实现了对视频自动进行视频拆条的功能，并且，对不同内容类型的视频，采用对应的神经网络模型即不同的拆条方式识别拆条节点帧，对不同内容类型的视频均能达到高精度的视频拆条，提高了拆条效率，满足了目前视频时效性的需求。

Description

一种视频处理方法和装置

技术领域

本申请涉及视频处理领域，特别是涉及一种视频处理方法和装置。

背景技术

视频拆条是一种视频处理技术，通过对视频进行二次加工，将一个视频按照某种逻辑或特定需要拆分成多个视频片段，拆分出的视频片段可以用于生成集锦视频等。例如可以因互联网视频和新媒体短视频内容平台的需要，对传统电视媒体节目进行视频拆条，将原来完整的一条节目内容，拆分成多个视频片段。

由于视频的种类繁多，难以设置统一的视频拆条规则，故目前常规的视频拆条方式是人工通过一些视频处理工具对待处理视频进行视频拆条，如何拆分视频片段均依赖于人工经验。

目前的视频拆条处理流程由于人为经验带来的影响，导致效率低，难以满足目前视频时效性的需求。

发明内容

为了解决上述技术问题，本申请提供了一种视频处理方法和装置。

本申请实施例公开了如下技术方案：

第一方面，本申请实施例提供了一种视频处理方法，所述方法包括：

确定待处理视频的内容类型；

通过所述内容类型对应的神经网络模型，确定所述待处理视频中作为拆条节点帧的视频帧；所述拆条节点帧中包括所述内容类型对应的图像特征；

根据所述拆条节点帧对所述待处理视频进行视频拆条，得到多个视频片段。

第二方面，本申请实施例提供了一种视频处理装置，所述装置包括：

第一确定单元，用于确定待处理视频的内容类型；

第二确定单元，用于通过所述内容类型对应的神经网络模型，确定所述待处理视频中作为拆条节点帧的视频帧；所述拆条节点帧中包括所述内容类型对应的图像特征；

视频拆条单元，用于根据所述拆条节点帧对所述待处理视频进行视频拆条，得到多个视频片段。

第三方面，本申请实施例提供了一种视频处理设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行以上第一方面任一项所述的视频处理方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行以上第一方面任一项所述的视频处理方法。

由上述技术方案可以看出，对于需要进行视频拆条的待处理视频，通过确定该待处理视频的内容类型，从神经网络模型中确定出对应该内容类型的神经网络模型，并通过该神经网络模型从待处理视频中确定出包括了该内容类型所对应图像特征的视频帧，并将这类视频帧作为待处理视频的拆条节点帧，根据拆条节点帧对待处理视频进行视频拆条，得到多个视频片段。不仅实现了对视频自动进行视频拆条的功能，并且，对不同内容类型的视频，采用对应的神经网络模型即不同的拆条方式识别拆条节点帧，对不同内容类型的视频均能达到高精度的视频拆条，提高了拆条效率，满足了目前视频时效性的需求。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种示例性场景示意图；

图2为本申请实施例提供的一种视频处理方法的流程示意图；

图3为本申请实施例提供的一种确定待处理视频的内容类型的方法的流程示意图；

图4为本申请实施例提供的一个输出待处理视频的内容类型的场景示意图；

图5为本申请实施例提供的确定视频内容类型的效果的示意图；

图6为本申请实施例提供的一种生成集锦视频的方法的流程示意图；

图7a为本申请实施例提供的一种视频处理装置的结构示意图；

图7b为本申请实施例提供的一种视频处理装置的结构示意图；

图8为本申请实施例提供的一种视频处理设备的结构示意图；

图9为本申请实施例提供的一种视频处理设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如前所述，由于视频的种类繁多，难以设置统一的视频拆条规则，故传统的视频拆条方式是人工通过一些视频处理工具对待处理视频进行视频拆条，如何拆分视频片段均依赖于人工经验。因此，传统的视频拆条处理流程由于人为经验带来的影响，导致效率低，难以满足目前视频时效性的需求。

鉴于此，本申请实施例提供了一种视频处理方法，可以利用与待处理视频的内容类型对应的神经网络模型，从待处理视频中确定出包括了该内容类型所对应图像特征的视频帧，并将所述内容类型所对应图像特征的视频帧确定为待处理视频的拆条节点帧，从而利用所述拆条节点帧对待处理视频进行视频拆条，得到多个视频片段。由此可见，利用本申请实施例提供的视频处理方法，可以自动对待处理视频进行视频拆条，无需人工通过一些视频处理工具对待处理视频进行视频拆条，避免了由于人为经验导致效率低，难以满足目前视频时效性的需求的问题。

以下结合图1所示的场景，对本申请实施例提供的视频处理方法进行简单介绍。

在本申请实施例中，可以自动对图1所示的待处理视频101进行视频拆条。本申请实施例不具体限定所述待处理视频，所述待处理视频例如可以为新闻视频、娱乐节目视频、电视剧视频、电影视频和其它视频中的任意一种。在对待处理视频进行视频拆条时，可以首先确定该待处理视频101中的拆条节点帧，从而根据该拆条节点帧对待处理视频101进行视频拆条。本申请实施例中提及的拆条节点帧，是对待处理视频101进行视频拆条的分割点。在本申请实施例中，所述拆条节点帧可以包括一帧视频帧，也可以包括多帧连续的视频帧，本申请实施例不具体限定。在本申请实施例中，根据拆条节点帧对待处理视频101进行视频拆条，例如可以是将两个相邻拆条节点帧之间的视频帧确定为一个视频片段，又如可以是将某一个拆条节点帧之前的视频帧确定为一个视频片段，或者将某一个拆条节点帧之后的视频帧确定为一个视频片段，再如可以是将某一个拆条节点帧之前的视频帧删除，或者将某一个拆条节点帧之后的视频帧删除，等等。在图1所示的场景中，可以利用神经网络模型102确定待处理视频101中作为拆条节点帧的视频帧103。确定作为拆条节点帧的视频帧103之后，则可以利用所述作为拆条节点帧的视频帧103对待处理视频101进行视频拆条，得到多个视频片段104。

举例说明，待处理视频101的内容类型为电视剧，待处理视频101一共包括100帧视频帧，按照所述视频帧在所述待处理视频101中出现的顺序从先到后进行排序，分别为视频帧1、视频帧2、视频帧3……视频帧100，其中待处理视频中第20帧至第75帧之间为与电视剧无关的广告画面。与电视剧对应的神经网络模型102确定作为拆条节点帧的视频帧为视频帧20和视频帧75，则利用拆条节点帧对待处理视频101进行视频拆条，得到多个视频片段，这多个视频片段分别为包括多个视频帧的视频片段。其中，第一个视频片段为由视频帧1至视频帧19所构成的视频片段，第二个视频片段为由视频帧76至视频帧100所构成的视频片段，而视频帧20至视频帧75所构成的视频片段被删除，实现了将待处理视频101拆分成两个视频片段。在另一是实施例中，上面的待处理视频101经拆条可以得到3个视频片断，第一个视频片段为由视频帧1至视频帧19所构成的视频片段，第二个视频片段为由视频帧76至视频帧100所构成的视频片段，第三个视频片段为由视频帧20至视频帧75所构成的视频片段且不会被删除。

需要说明的是，考虑到不同内容类型的视频，其对应的拆条节点帧对应的视频帧所对应的图像特征不同。因此，本申请实施例中的神经网络模型102，是与所述待处理视频101的内容类型对应的神经网络模型，该神经网络模型102，可以确定出携带该待处理视频的内容类型所对应的图像特征，并将携带所述图像特征对应的视频帧，确定为所述待处理视频101的拆条节点帧。

本申请实施例中提及的待处理视频的内容类型，指的是所述待处理视频的内容所属的类别。本申请实施例不具体限定所述待处理视频的内容类型，作为一种示例，所述待处理视频的内容类型，可以为新闻时政类、娱乐节目类、电视剧电影类、汽车类、动物类、母婴类、体育类以及其它类等等中的任意一个。

需要说明的是，本申请实施例不具体限定所述神经网络模型102，所述神经网络模型102例如可以为卷积神经网络(Convolutional Neural Networks，CNN)模型。

以下通过具体实施例对本申请提供的视频处理方法进行介绍。

参见图2，该图为本申请实施例提供的一种视频处理方法的流程示意图。

本申请实施例提供的视频处理方法，例如可以通过如下步骤S201-S203实现。

S201：确定待处理视频的内容类型。

关于所述待处理视频和待处理视频的内容类型的描述部分，可以参考上文相关内容的描述，此处不再赘述。

可以理解的是，不同内容类型的视频，其所包含的视频帧所携带的图像信息的特点可能不同，特定内容类型的视频所包含的视频帧中可能携带有特定特点的图像信息。因此，在本申请实施例的一种实现方式中，可以对待处理视频所包括的视频帧所携带的图像信息进行分析，以确定所述待处理视频的内容类型。在本申请实施例的又一种实现方式中，可以采用人工确定的方式，通过专职工作人员观看待处理视频并确定待处理视频的内容类型。在本申请实施例的又一种实现方式中，可以通过该待处理视频的标签确定待处理视频的内容类型。其中，待处理视频的标签可以是用户预先标注的。例如，待处理视频为用户上传的视频，用户上传该待处理视频时标注了待处理视频的内容类型。

S202：通过所述内容类型对应的神经网络模型，确定所述待处理视频中作为拆条节点帧的视频帧；所述拆条节点帧中包括所述内容类型对应的图像特征。

在本申请实施例中，可以利用神经网络模型确定待处理视频中作为拆条节点帧的视频帧。考虑到不同内容类型的视频，其对应的拆条节点帧对应的视频帧所对应的图像特征不同，从而难以使用一个神经网络模型确定各种内容类型的视频的拆条节点帧。因此，在本申请实施例中，可以使用对应于所述待处理视频的内容类型的神经网络模型，确定待处理视频中作为拆条节点帧的视频帧。正是因为所述神经网络模型是对应于所述待处理视频的内容类型的，因此，利用该神经网络模型确定的拆条节点帧中包括所述内容类型对应的图像特征。

需要说明的是，本申请实施例不具体限定所述内容类型对应的图像特征，如前文所述，所述待处理视频的内容类型可以为新闻时政类、娱乐节目类、电视剧电影类以及其它类等等中的任意一个。对应的，所述内容类型对应的图像特征，也可以包括新闻时政类对应的图像特征、娱乐节目类对应的图像特征、电视剧电影类对应的图像特征以及其它类对应的图像特征中的任意一个。

可以理解的是，一般而言，新闻时政类视频中大多会出现导播台画面，因此，当所述待处理视频的内容类型为新闻时政类时，所述内容类型对应的图像特征可以为导播台画面。娱乐节目类视频中可能会出现一些广告画面和一些与娱乐节目类型不符的画面，因此，当所述待处理视频的内容类型为娱乐节目类时，所述内容类型对应的图像特征可以为广告画面或者与所述内容类型不符的画面。一般电视剧电影类视频中大多会出现视频片头、片尾画面，因此，当所述待处理视频的内容类型为电视剧电影类时，所述内容类型对应的图像特征可以为视频片头、片尾画面。而对于其他类型的视频例如体育类视频中，一般会存在人脸，因此，当所述待处理视频的内容类型为其它类时，所述内容类型对应的图像特征可以为目标人脸画面。也就是说，在本申请实施例中，所述待处理视频的内容类型对应的图像特征，可以包括导播台画面、广告画面、与所述内容类型不符的画面、视频片头片尾画面以及目标人脸画面中的任意一种。

S203：根据所述拆条节点帧对所述待处理视频进行视频拆条，得到多个视频片段。

确定所述拆条节点帧之后，即可将所述拆条节点帧作为对待处理视频进行视频拆条的分割点，将所述待处理视频进行视频拆条，得到多个视频片段。

例如，对于新闻时政类待处理视频，可以利用新闻时政类对应的神经网络模型识别出导播台，以导播台画面为拆条节点帧，并结合人脸识别算法识别出待处理视频中的主持人，再结合ASR/OCR识别结果，利用TextRank对待处理视频中的语音和文字内容进行处理，得到视频摘要，根据视频摘要自动给视频拆条得到的视频片段生成标题和摘要。其中，ASR是指将人类的语音中的词汇内容转换为文本的技术；OCR是指利用GMM-HMM/DNN技术，将图片、照片上的文字内容进行识别和提取的技术。

又如，对于娱乐节目类待处理视频，可以删除待处理视频中的广告以及其它与娱乐节目类视频的内容不相符内容，具体地，可以结合OCR以及ASR相关关键词删除前述广告以及其它与娱乐节目类视频的内容不相符内容。

再如，对于电视剧电影类待处理视频，可以结合片头片尾以及目标人脸确定拆条节点帧，准确的确定出片头、片尾以及目标人脸出现的时间点，删除片头以及片尾，并生成包含目标人脸的视频片段，可以做到只看或者不看电视剧和电影中目标人脸的视频功能。

再如，对于其它类待处理视频，可根据用户需求，结合人脸识别、OCR、ASR以及目标检测技术等技术做相关处理，得到符合用户需求的视频片段。

通过以上描述可知，利用本申请实施例提供的视频处理方法，对于需要进行视频拆条的待处理视频，通过确定该待处理视频的内容类型，从神经网络模型中确定出对应该内容类型的神经网络模型，并通过该神经网络模型从待处理视频中确定出包括了该内容类型所对应图像特征的视频帧，并将这类视频帧作为待处理视频的拆条节点帧，根据拆条节点帧对待处理视频进行视频拆条，得到多个视频片段。不仅实现了对视频自动进行视频拆条的功能，并且，对不同内容类型的视频，采用对应的神经网络模型即不同的拆条方式识别拆条节点帧，对不同内容类型的视频均能达到高精度的视频拆条，提高了拆条效率，满足了目前视频时效性的需求。

如上文S201中所述，在本申请实施例中，可以对待处理视频所包括的视频帧所携带的图像信息进行分析，以确定所述待处理视频的内容类型。以下结合附图介绍一种确定待处理视频的内容类型的实现方式。

参见图3，该图为本申请实施例提供的一种确定待处理视频的内容类型的方法的流程示意图。

本申请实施例提供的确定待处理视频的内容类型的方法，可以通过如下步骤S301-S302实现。

S301：根据第一图像神经网络模型，确定所述待处理视频中多个视频帧分别对应的特征向量，所述特征向量携带所对应视频帧中包括的图像信息。

S302：根据所述多个视频帧分别对应的特征向量确定所述待处理视频的内容类型。

需要说明的是，本申请实施例中提及的第一图像神经网络模型，可以为卷积神经网络模型。本申请实施例中的第一图像神经网络模型，可以是利用大量视频帧生成的图像作为训练样本训练得到的。该第一图像神经网络模型，可以提取待处理视频中的视频帧对应的特征向量。其中，一个视频帧对应的特征向量，可以携带有该视频帧中所包括的图像信息。也就是说，该第一图像神经网络模型，可以确定待处理视频中的视频帧中包括的图像信息。

在本申请实施例中，可以将所述待处理视频中多个视频帧生成的图片输入所述第一图像神经网络模型，经过所述第一图像神经网络模型的卷积层、过滤层以及池化层的处理，输出所述多个视频帧分别对应的特征向量。

可以理解的是，待处理视频中的视频帧中所包括的图像信息，在一定程度上可以体现所述待处理视频的图像类型，因此，可以利用待处理视频中多个视频帧分别对应的特征向量，确定待处理视频的内容类型。

在本申请实施例中，考虑到待处理视频中的一个视频帧所包括的图像信息，可能不足以体现出所述待处理视频的内容类型，也就是说，待处理视频中一个视频帧对应的特征向量，可能不能确定出待处理视频的内容类型。因此，在本申请实施例中，可以利用所述第一图像神经网络模型，确定待处理视频中多个视频帧分别对应的特征向量，并利用所述多个视频帧分别对应的特征向量确定所述待处理视频的内容类型。换言之，利用所述多个视频帧中所包括的图像信息，确定所述待处理视频的内容类型。

在实际应用中，一般而言，利用待处理视频中全部视频帧中所包括的图像信息，足以确定出所述待处理视频的内容类型，因此，本申请实施例中提及的多个视频帧，可以包括所述待处理视频中的全部视频帧。在实际应用中，利用待处理视频中部分视频帧中所包括的图像信息，可能也足以确定出所述待处理视频的内容类型，因此，本申请实施例中提及的多个视频帧，可以包括所述待处理视频中的部分视频帧。

S302在具体实现时，例如可以对所述多个视频帧分别对应的特征向量进行分析，从而确定所述待处理视频的内容类型。

在本申请实施例中，考虑到在所述待处理视频中，连续多帧视频帧之间的关联性可能比较大，换言之，连续多帧视频帧中所包括的图像内容之间的相关性也可能比较高。因此，在确定待处理视频的内容类型时，若能把连续多帧视频帧之间的相关性考虑进来，则能够更加准确的确定出待处理视频的内容类型。

鉴于此，在本申请实施例的一种可能的实现方式中，S302在具体实现时，可以通过如下步骤A-B实现。

步骤A：根据所述多个视频帧在所述待处理视频中的时序，将所述多个视频帧分别对应的特征向量组成特征向量序列。

步骤B：根据所述特征向量序列，通过第二图像神经网络模型确定所述待处理视频的内容类型。

关于步骤A，需要说明的是，为了使得在确定待处理视频的内容类型时，可以将连续多帧视频帧之间的相关性考虑进来，在本申请实施例中，按照所述多个视频帧在所述待处理视频中的时序，将所述多个视频帧分别对应的特征向量组成特征向量序列，这样一来，即可通过分析所述特征向量序列中连续多个特征向量之间的相关性，将所述连续多帧视频帧之间的相关性考虑进来。

本申请实施例中，所述多个视频帧在所述待处理视频中的时序，指的是所述多个视频帧在所述待处理视频中出现的先后顺序。在本申请实施例中，所特征向量序列中包括多个特征向量，所述多个特征向量与所述多个视频帧一一对应，所述特征向量序列中多个特征向量的顺序，与所述多个特征向量分别对应的视频帧在所述待处理视频中的顺序相同。举例说明，视频帧1至视频帧100分别对应的特征向量1至特征向量100，视频帧1在所述待处理视频中出现的时间最早，视频帧2在所述待处理视频中出现的时间次之，视频帧100出现的时间最晚。则特征向量序列中的100个特征向量的顺序为特征向量1、特征向量2……特征向量100。

在本申请实施例中，得到所述特征向量序列之后，可以通过第二图像神经网络模型确定所述待处理视频的内容类型。

本申请实施例不具体限定搜书第二图像神经网络模型，考虑到循环神经网络(Recurrent Neural Network，RNN)的输入是特征序列，且能够将特征序列中的多个特征进行关联，鉴于此，在本申请实施例中，所述第二图像神经网络模型可以包括循环神经网络模型。

本申请实施例不具体限定第二图像神经网络模型确定所述待处理视频的内容类型的具体实现方式，作为一种示例，所述第二图像神经网络模型可以利用多层感知器(Multi-Layer Perceptron，MLP)对所述特征向量序列进行处理，输出所述待处理视频的内容类型。

在本申请实施例中，所述第二图像神经网络模型输出待处理视频的内容类型，实际上是输出所述待处理视频属于各个内容类型的概率。可参见图4进行理解，图4为本申请实施例提供的一个输出待处理视频的内容类型的场景示意图。通过图4中的402可知，待处理视频401的内容类型为“汽车”的概率为0.99959、为“娱乐时尚”的概率为0.00009、为“动物”的概率为0.00008、为“母婴”的概率为0.00007以及为“体育”的概率为0.00006。

需要说明的是，虽然图4中示出的视频的内容类型包括汽车、娱乐时尚、动物、母婴和体育，但是这只是示意型说明，并不构成对本申请实施例的限定。

通过实际试验数据可知，利用第一图像神经网络模型确定待处理视频的内容类型时，若待处理视频为画面特征比较明显的视频，例如游戏、足球、蓝球、动漫等视频，则对应的准确率在99％以上。利用第一图像神经网络模型和第二图像神经网络模型确定待处理视频的内容类型，当待处理视频为画面特征比较分散的视频，例如电视剧、户外运动、美食、旅游等时，对应的准确率在85％左右。具体地，可以参见图5进行理解，图5为本申请实施例提供的确定视频内容类型的效果的示意图。

图5中，501为利用第一图像神经网络模型和第二图像神经网络模型确定视频的内容类型的准确率的曲线图，502为利用第一图像神经网络模型确定视频的内容类型的准确率的曲线图。图5中的横坐标表示利用迁移学习训练得到所述第一图像神经网络模型对应的训练次数，也表示训练得到由所述第一图像神经网络模型和所述第二图像神经网络模型构成的图像神经网络模型对应的训练次数，纵坐标表示准确率，其中每次迁移学习的训练样本包括若干张图片例如10240张图片。可见，无论是利用第一图像神经网络模型和第二图像神经网络模型确定视频的内容类型，还是利用第一图像神经网络模型确定视频的内容类型，准确率都比较高。

在实际应用中，将一个视频进行视频拆条之后，得到多个视频片段可以用于生成集锦视频。目前，可以采用人工参与的方式将视频片段生成集锦视频。具体地，可以由工作人员观看各个视频片段，判断该视频片段是否属于集锦片段，并将集锦片段合成为集锦视频。但是，这种合成集锦视频方式，一方面集锦片段的判断依赖于工作人员的主观判断影响，集锦片段的判断结果可能不准确。另一方面，需要工作人员将各个视频片段观看一遍之后，才能生成集锦视频，效率比较低。

在本申请实施例中，将所述待处理视频进行视频拆条，得到多个视频片段之后，还可以自动判断视频片段是否属于集锦片段，并生成集锦视频。以下结合附图介绍本申请实施例提供的生成集锦视频的方法。

参见图6，该图为本申请实施例提供的一种生成集锦视频的方法的流程示意图。

本申请实施例提供的生成集锦视频的方法，例如可以通过如下步骤S601-S602实现。

S601：根据概率模型确定所述多个视频片段分别属于集锦片段的权重值。

在本申请实施例中，一个视频片段的权重值，用于表征该视频片段属于集集锦片段的可能性，或者说，用于表征该视频片段属于集集锦片段的概率。

本申请实施例的概率模型，可以确定视频片段属于集锦片段的权重值。本申请实施例不具体限定所述概率模型，所述概率模型的核心算法例如可以为最大似然算法。在本申请实施例中，考虑到不同内容类型的视频，对应的集锦片段所携带的图像语义信息可能不同，从而难以使用一个通用的概率模型确定各种内容类型的视频片段是否属于集锦片段。因此，在本申请实施例的一种可能的实现方式中，所述概率模型可以为对应所述待处理视频的内容类型的概率模型。在本申请实施例中，所述概率模型可以是基于所述内容类型中历史集锦片段训练得到的，因此，该概率模型可以确定出所述多个视频片段属于集锦片段的权重。

需要说明的是，在本申请实施例中，一个视频片段所携带的图像语义信息，指的是所述视频片段中的图像所表达的内容的含义。例如，视频片段为篮球比赛中进三分球的片段，则该视频片段携带的图像语义信息为篮球三分球。

S602：根据所述多个视频片段中权重值满足预设条件的视频片段生成所述待处理视频对应的集锦视频。

如S601中所述，一个视频片段的权重值，用于表征该视频片段属于集集锦片段的可能性。因此，所述多个视频片段中权重值满足预设条件的视频片段，例如可以为所述多个视频片段中权重值大于预设阈值的视频片段，本申请实施例不具体限定所述预设阈值，所述预设阈值可以根据实际情况确定。例如，所述预设阈值可以为0.80。

确定所述多个视频片段中权重值满足预设条件的视频片段之后，即可将所述权重值满足预设条件的视频片段合成为集锦视频。

在本申请实施例中，考虑到同一内容类型的视频对应的集锦片段，其携带的图像语义信息可能是比较相似的，例如，对于体育类视频的集锦片段，可以为篮球三分球，足球进球等片段。因此，在本申请实施例的一种实现方式中，若S601中所述的概率模型为对应所述内容类型的概率模型，且所述概率模型是根据所述内容类型中历史集锦片段训练得到的，则S602在具体实现时，该概率模型可以根据所述多个视频片段所携带图像语义信息与所述历史集锦片段所携带语义信息的相似程度，确定所述多个视频片段分别属于集锦片段的权重值。

具体地，所述概率模型可以提取所述多个视频片段所携带的图像语义信息，并与历史集锦片段所携带的语义信息进行比较，确定所述多个视频片段所携带图像语义信息与所述历史集锦片段所携带语义信息的相似程度。在本申请实施例中，所述视频片段所携带的图像语义信息与历史集锦片段所携带的语义信息的相似程度越高，则该视频片段属于集锦片段的权重值越高，相应的，所述视频片段所携带的图像语义信息与历史集锦片段所携带的语义信息的相似程度越低，则该视频片段属于集锦片段的权重值越低。

由此可见，利用本申请实施例提供的方法，可以利用概率模型自动确定出视频片段是否属于集锦片段，集锦片段的确定结果准确且效率高，相应的生成集锦视频的效率也比较高。解决了传统人工方式生成集锦视频存在的集锦片段的判断结果不准确和效率低的问题。

基于前述实施例提供的一种视频处理方法，本实施例提供一种视频处理装置700，参见图7a，该图为本申请实施例提供的一种视频处理装置的结构示意图。所述装置700包括第一确定单元701、第二确定单元702和视频拆条单元703。

第一确定单元701，用于确定待处理视频的内容类型；

第二确定单元702，用于通过所述内容类型对应的神经网络模型，确定所述待处理视频中作为拆条节点帧的视频帧；所述拆条节点帧中包括所述内容类型对应的图像特征；

视频拆条单元703，用于根据所述拆条节点帧对所述待处理视频进行视频拆条，得到多个视频片段。

可选的，所述第一确定单元701，具体用于：

根据第一图像神经网络模型，确定所述待处理视频中多个视频帧分别对应的特征向量，所述特征向量携带所对应视频帧中包括的图像信息；

根据所述多个视频帧分别对应的特征向量确定所述待处理视频的内容类型。

可选的，所述根据所述多个视频帧分别对应的特征向量确定所述待处理视频的内容类型，包括：

根据所述多个视频帧在所述待处理视频中的时序，将所述多个视频帧分别对应的特征向量组成特征向量序列；

根据所述特征向量序列，通过第二图像神经网络模型确定所述待处理视频的内容类型。

可选的，参见图7b，该图为本申请实施例提供的又一种视频处理装置的结构示意图。所述装置700还包括：第三确定单元704和集锦视频生成单元705。

第三确定单元704，用于根据概率模型确定所述多个视频片段分别属于集锦片段的权重值；

集锦视频生成单元705，用于根据所述多个视频片段中权重值满足预设条件的视频片段生成所述待处理视频对应的集锦视频。

可选的，所述概率模型为对应所述内容类型的概率模型，所述概率模型是根据所述内容类型中历史集锦片段训练得到的，所述第三确定单元704，具体用于：

所述概率模型根据所述多个视频片段所携带图像语义信息与所述历史集锦片段所携带语义信息的相似程度，确定所述多个视频片段分别属于集锦片段的权重值。

可选的，所述内容类型对应的图像特征包括以下任意一种：

导播台画面；

广告画面；

与所述内容类型不符的画面；

视频片头、片尾画面；

目标人脸画面。

通过以上描述可知，利用本申请实施例提供的视频处理装置，对于需要进行视频拆条的待处理视频，通过确定该待处理视频的内容类型，从神经网络模型中确定出对应该内容类型的神经网络模型，并通过该神经网络模型从待处理视频中确定出包括了该内容类型所对应图像特征的视频帧，并将这类视频帧作为待处理视频的拆条节点帧，根据拆条节点帧对待处理视频进行视频拆条，得到多个视频片段。不仅实现了对视频自动进行视频拆条的功能，并且，对不同内容类型的视频，采用对应的神经网络模型即不同的拆条方式识别拆条节点帧，对不同内容类型的视频均能达到高精度的视频拆条，提高了拆条效率，满足了目前视频时效性的需求。

本申请实施例还提供了一种视频处理设备，下面结合附图对视频处理设备进行介绍。请参见图8所示，本申请实施例提供了一种视频处理设备800，该设备800可以是服务器，可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(CentralProcessing Units，简称CPU)822(例如，一个或一个以上处理器)和存储器832，一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器822可以设置为与存储介质830通信，在视频处理800上执行存储介质830中的一系列指令操作。

视频处理设备800还可以包括一个或一个以上电源826，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口858，和/或，一个或一个以上操作***841，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图8所示的服务器结构。

其中，CPU 822用于执行如下步骤：

确定待处理视频的内容类型；

请参见图9所示，本申请实施例提供了一种视频处理设备900，该设备900还可以是终端设备，该终端设备可以为包括手机、平板电脑、个人数字助理(PersonalDigitalAssistant，简称PDA)、销售终端(Point of Sales，简称POS)、车载电脑等任意终端设备，以终端设备为手机为例：

图9示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图9，手机包括：射频(Radio Frequency，简称RF)电路910、存储器920、输入单元930、显示单元940、传感器950、音频电路960、无线保真(wireless fidelity，简称WiFi)模块970、处理器980、以及电源等部件。本领域技术人员可以理解，图9中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图9对手机的各个构成部件进行具体的介绍：

RF电路910可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器980处理；另外，将设计上行的数据发送给基站。通常，RF电路910包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，简称LNA)、双工器等。此外，RF电路910还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(Global System of Mobile communication，简称GSM)、通用分组无线服务(GeneralPacket Radio Service，简称GPRS)、码分多址(Code Division Multiple Access，简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access，简称WCDMA)、长期演进(Long Term Evolution，简称LTE)、电子邮件、短消息服务(Short Messaging Service，简称SMS)等。

存储器920可用于存储软件程序以及模块，处理器980通过运行存储在存储器920的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器920可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元930可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元930可包括触控面板931以及其他输入设备932。触控面板931，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板931上或在触控面板931附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板931可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器980，并能接收处理器980发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板931。除了触控面板931，输入单元930还可以包括其他输入设备932。具体地，其他输入设备932可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元940可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元940可包括显示面板941，可选的，可以采用液晶显示器(Liquid CrystalDisplay，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板941。进一步的，触控面板931可覆盖显示面板941，当触控面板931检测到在其上或附近的触摸操作后，传送给处理器980以确定触摸事件的类型，随后处理器980根据触摸事件的类型在显示面板941上提供相应的视觉输出。虽然在图9中，触控面板931与显示面板941是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板931与显示面板941集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器950，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板941的亮度，接近传感器可在手机移动到耳边时，关闭显示面板941和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路960、扬声器961，传声器962可提供用户与手机之间的音频接口。音频电路960可将接收到的音频数据转换后的电信号，传输到扬声器961，由扬声器961转换为声音信号输出；另一方面，传声器962将收集的声音信号转换为电信号，由音频电路960接收后转换为音频数据，再将音频数据输出处理器980处理后，经RF电路910以发送给比如另一手机，或者将音频数据输出至存储器920以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块970可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图9示出了WiFi模块970，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器980是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器920内的软件程序和/或模块，以及调用存储在存储器920内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器980可包括一个或多个处理单元；优选的，处理器980可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器980中。

手机还包括给各个部件供电的电源990(比如电池)，优选的，电源可以通过电源管理***与处理器980逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，用于存储程序代码，该程序代码用于执行前述各个实施例所述的一种视频处理方法中的任意一种实施方式。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器(英文：read-only memory，缩写：ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及***实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

确定待处理视频的内容类型；

2.根据权利要求1所述的方法，其特征在于，所述确定待处理视频的内容类型，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述多个视频帧分别对应的特征向量确定所述待处理视频的内容类型，包括：

4.根据权利要求1所述的方法，其特征在于，在所述得到多个视频片段之后，所述方法还包括：

根据概率模型确定所述多个视频片段分别属于集锦片段的权重值；

根据所述多个视频片段中权重值满足预设条件的视频片段生成所述待处理视频对应的集锦视频。

5.根据权利要求4所述的方法，其特征在于，所述概率模型为对应所述内容类型的概率模型，所述概率模型是根据所述内容类型中历史集锦片段训练得到的，所述根据概率模型确定所述多个视频片段分别属于集锦片段的权重值，包括：

6.根据权利要求1-5任意一项所述的方法，其特征在于，所述内容类型对应的图像特征包括以下任意一种：

导播台画面；

广告画面；

与所述内容类型不符的画面；

视频片头、片尾画面；

目标人脸画面。

7.一种视频处理装置，其特征在于，所述装置包括：

第一确定单元，用于确定待处理视频的内容类型；

8.根据权利要求7所述的装置，其特征在于，所述第一确定单元，具体用于：

9.根据权利要求8所述的装置，其特征在于，所述根据所述多个视频帧分别对应的特征向量确定所述待处理视频的内容类型，包括：

10.根据权利要求7所述的装置，其特征在于，所述装置还包括：

第三确定单元，用于根据概率模型确定所述多个视频片段分别属于集锦片段的权重值；

集锦视频生成单元，用于根据所述多个视频片段中权重值满足预设条件的视频片段生成所述待处理视频对应的集锦视频。

11.根据权利要求10所述的装置，其特征在于，所述概率模型为对应所述内容类型的概率模型，所述概率模型是根据所述内容类型中历史集锦片段训练得到的，所述第三确定单元，具体用于：

12.根据权利要求7-11任意一项所述的装置，其特征在于，所述内容类型对应的图像特征包括以下任意一种：

导播台画面；

广告画面；

与所述内容类型不符的画面；

视频片头、片尾画面；

目标人脸画面。

13.一种视频处理设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-6任一项所述的视频处理方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-6中任一项所述的视频处理方法。