CN115278300A

CN115278300A - 视频处理方法、装置、电子设备、存储介质和程序产品

Info

Publication number: CN115278300A
Application number: CN202210901862.6A
Authority: CN
Inventors: 郭卉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2022-11-01

Abstract

本申请实施例公开了一种视频处理方法、装置、电子设备、存储介质和程序产品；本申请实施例可以获取视频集合；将目标视频与其他视频进行相似内容分析，得到目标视频与其他视频中的相似片段，以及相似片段在目标视频中的位置；确定在每个位置的相似片段的数量；基于数量，在所有相似片段中确定目标片段；基于目标片段，在目标视频中确定重点帧，以便在目标视频的重点帧的位置处展示预设信息。在本申请实施例中，因目标片段同时出现在除目标视频以外的其他视频中，通过目标片段可以定位到目标视频中的内容转折处，即重点帧，而不需要通过耗费人力在观看视频的过程中确定内容转折处，因此，本申请提升了处理视频的效率。

Description

视频处理方法、装置、电子设备、存储介质和程序产品

技术领域

本申请涉及计算机领域，具体涉及一种视频处理方法、装置、电子设备、存储介质和程序产品。

背景技术

近年来，随着科技的进步和时代的发展，视频获取设备日益普及，视频传播日益广泛，视频这种综合视觉和听觉感官的多媒体技术已经成为人们生活中必不可少的一部分。目前视频在上传到视频播放器前，需要在视频中添加广告。

当前添加广告的方法通常为先人工处理视频，人工处理视频的方法为人为确定位于视频中内容转折处的视频帧，其中，内容转折处为视频中两个不同内容的衔接处，比如，视频为包括片头和主要内容，则内容转折处的视频帧可以是片头的最后一帧，还可以是主要内容在视频中第一帧，再将广告添加在上述视频帧所处的位置，以使广告不会将视频中的同一内容打断，影响用户观感。然而，上述通过人工处理视频的方式效率较低，不利于在视频中添加广告。

发明内容

本申请实施例提供一种视频处理方法、装置、电子设备、存储介质和程序产品，可以提升处理视频的效率。

本申请实施例提供一种视频处理方法，包括：

获取视频集合，视频集合中的多个视频包括一个目标视频和至少一个其他视频；

将目标视频与其他视频进行相似内容分析，得到目标视频与其他视频中的相似片段，以及相似片段在目标视频中的位置；

确定在每个位置的相似片段的数量；

基于数量，在所有相似片段中确定目标片段；

基于目标片段，在目标视频中确定重点帧，以便在目标视频的重点帧的位置处展示预设信息。

本申请实施例还提供一种视频处理装置，包括：

第一获取单元，用于获取视频集合，视频集合中的多个视频包括一个目标视频和至少一个其他视频；

第一分析单元，用于将目标视频与其他视频进行相似内容分析，得到目标视频与其他视频中的相似片段，以及相似片段在目标视频中的位置；

数量确定单元，用于确定在每个位置的相似片段的数量；

片段确定单元，用于基于数量，在所有相似片段中确定目标片段；

第一目标确定单元，用于基于目标片段，在目标视频中确定重点帧，以便在目标视频的重点帧的位置处展示预设信息。

在一些实施例中，目标视频包括目标帧集合，目标帧集合包括多个目标帧以及每个目标帧的帧序号，其他视频包括其他帧集合，其他帧集合包括多个其他帧，将目标视频与其他视频进行相似内容分析，得到目标视频与其他视频中的相似片段，以及相似片段在目标视频中的位置，包括：

计算目标帧与其他帧之间的相似度；

当相似度满足预设条件时，将目标帧作为其他帧的相似帧，并将目标帧的帧序号作为相似帧的帧序号；

从所有相似帧中确定至少一个相似片段，相似片段包括至少两帧相似帧，至少两帧相似帧的帧序号连续；

根据相似片段中每个相似帧的帧序号，确定相似片段在目标视频中的位置。

在一些实施例中，其他帧集合还包括每个其他帧的帧序号，从所有相似帧中确定至少一个相似片段，包括:

确定帧序差值，帧序差值为相似帧的帧序号与对应的其他帧的帧序号之差；

从同一帧序差值对应的所有相似帧中确定至少一个相似片段。

在一些实施例中，相似片段包括第一合并片段，在从同一帧序差值对应的所有相似帧中确定至少一个相似片段之后，还包括：

确定第一差值，第一差值为第一帧序差值和第二帧序差值之间的差值的绝对值，第一帧序差值为多个帧序差值中任意一个，第二帧序差值为除第一帧序差值以外的帧序差值；

当第一差值不大于第一预设阈值时，确定第二差值，第二差值为第一相似片段中第一帧的帧序号和第二相似片段中第二帧的帧序号之差的绝对值，第一相似片段为第一帧序差值对应的相似片段，第二相似片段为第二帧序差值对应的相似片段，第一帧与第二帧相邻；

当第二差值不大于第二预设阈值时，将第一相似片段和第二相似片段合并，得到第一合并片段。

在一些实施例中，相似片段包括第二合并片段，确定在每个位置的相似片段的数量，包括：

根据第三相似片段和第四相似片段在目标视频中的位置，确定第三相似片段与第四相似片段之间的重叠片段，第三相似片段为多个相似片段中的任意一个，第四相似片段为除第三相似片段以外的相似片段，多个相似片段包括目标视频与每个其他视频中的相似片段；

根据重叠片段，将第三相似片段和第四相似片段合并，得到第二合并片段；

确定在每个位置的相似片段的数量，相似片段包括第二合并片段和未合并片段，未合并片段为除第三相似片段和第四相似片段以外的相似片段。

在一些实施例中，基于目标片段，在目标视频中确定重点帧，包括：

从目标视频中确定至少一个过渡帧，过渡帧包括文字和预设背景；

从至少一个过渡帧中确定目标过渡帧，目标过渡帧与目标片段相邻；

将所有中间帧、目标过渡帧以及目标片段合并，得到新目标片段，中间帧为目标过渡帧与目标片段之间的帧；

基于新目标片段，在目标视频中确定重点帧。

在一些实施例中，基于所述数量，在所有所述相似片段中确定目标片段，包括：

获取预设片段在视频中的预设位置，视频集合中的每个视频包括至少部分预设片段；

基于数量，在所有相似片段中确定候选片段；

将候选片段在目标视频中的位置与预设位置进行位置对比，得到候选片段与预设片段之间的距离；

根据距离，在多个候选片段中确定目标片段。

获取目标视频中的预设文字，预设文字与目标视频中的目标帧关联；

从预设文字中确定目标文字，目标文字用于指示目标视频在视频集合中的播放顺序；

根据目标文字，在目标视频中确定重点帧，重点帧为与目标文字关联的目标帧。

本申请实施例还提供一种视频处理方法，包括：

获取视频以及预设信息；

对视频中的相邻两帧进行相似内容分析，得到相邻两帧的相似度；

若相邻两帧的相似度低于第三预设阈值，则在相邻两帧中确定重点帧；

在视频中确定剧情片段，剧情片段包括相邻两个剧情帧之间的所有帧，剧情帧包括视频中的第一帧、所有重点帧和最后一帧；

计算内容相似度，内容相似度为剧情片段与预设信息之间的相似度；

当内容相似度大于第四预设阈值时，将预设信息在剧情片段对应的剧情帧处展示。

本申请实施例还提供一种视频处理装置，包括：

第二获取单元，用于获取视频以及预设信息；

第二分析单元，用于对视频中的相邻两帧进行相似内容分析，得到相邻两帧的相似度；

第二目标确定单元，用于若相邻两帧的相似度低于第三预设阈值，则在相邻两帧中确定重点帧；

剧情确定单元，用于在视频中确定剧情片段，剧情片段包括相邻两个剧情帧之间的所有帧，剧情帧包括视频中的第一帧、所有重点帧和最后一帧；

相似度计算单元，用于计算内容相似度，内容相似度为剧情片段与预设信息之间的相似度；

展示单元，用于当内容相似度大于第四预设阈值时，将预设信息在剧情片段对应的剧情帧处展示。

在一些实施例中，若相邻两帧的相似度低于第三预设阈值，则在相邻两帧中确定重点帧，包括：

获取与视频对应的预设语句；

若相邻两帧的相似度低于第三预设阈值，则对相邻两帧中每个视频帧对应的音频内容进行内容识别处理，得到相邻两帧对应的识别文本；

在预设语句中确定与相邻两帧对应的识别文本相同的目标语句；

根据目标语句，在相邻两帧中确定重点帧。

在一些实施例中，根据目标语句，在相邻两帧中确定重点帧，包括：

当目标语句与预设符号相邻时，将目标语句对应的相邻两帧中的一视频帧作为重点帧。

当目标语句与预设符号不相邻时，对视频中的其他视频帧对应的音频内容进行内容识别处理，得到其他视频帧对应的识别文本，其他视频帧为视频中在相邻两帧之后的视频帧；

在预设语句中确定与其他视频帧对应的识别文本相同的其他语句；

当其他语句与预设符号相邻时，将其他语句对应的其他视频帧作为重点帧。

本申请实施例还提供一种电子设备，包括存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行本发明实施例所提供的任一项所述的视频处理方法中的步骤。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例所提供的任一项所述的视频处理方法中的步骤。

本申请实施例还提供一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时实现本发明实施例所提供的任一项所述的视频处理方法中的步骤。

本申请实施例可以获取视频集合，视频集合中的多个视频包括一个目标视频和至少一个其他视频；将目标视频与其他视频进行相似内容分析，得到目标视频与其他视频中的相似片段，以及相似片段在目标视频中的位置；确定在每个位置的相似片段的数量；基于数量，在所有相似片段中确定目标片段；基于目标片段，在目标视频中确定重点帧，以便在目标视频的重点帧的位置处展示预设信息。

在本申请中，相似片段在不同的目标视频中的位置可能存在差异，通过相似内容分析，可知相似片段共同出现在目标视频和其他视频中，定位该相似片段在目标视频中的位置，将在同一位置多次出现的相似片段作为目标视频中的目标片段，因目标片段重复出现，可知目标片段不会影响目标视频中除目标片段以外的内容，通过目标片段可以确定目标视频中的重点帧，该重点帧为目标视频中的内容转折处，通过在重点帧的位置处展示预设信息可以降低对用户观感的影响。通过本申请的视频处理方法可以快速确定目标视频中的内容转折处，并不需要通过耗费人力在观看视频的过程中确定内容转折处，因此，本申请提升了处理视频的效率。

本申请实施例还可以获取视频以及预设信息；对视频中的相邻两帧进行相似内容分析，得到相邻两帧的相似度；若相邻两帧的相似度低于第三预设阈值，则在相邻两帧中确定重点帧；在视频中确定剧情片段，剧情片段包括相邻两个剧情帧之间的所有帧，剧情帧包括视频中的第一帧、所有重点帧和最后一帧；计算内容相似度，内容相似度为剧情片段与预设信息之间的相似度；当内容相似度大于第四预设阈值时，将预设信息在剧情片段对应的剧情帧处展示。

在本申请中，若相邻两帧的相似度低于第三预设阈值，则在相邻两帧分别对应了视频中的两个不同剧情，视频在相邻两帧的位置处发生了剧情转换，相邻两帧中的任意一帧或者相邻两帧为重点帧，即视频在重点帧的位置处出现了剧情转折，如此，可以通过剧情帧(视频的第一帧、重点帧和视频的最后一帧)对视频进行剧情划分，得到同一剧情在视频中对应的剧情片段，并在剧情片段对应的剧情帧处展示与该剧情片段相似的预设信息，使展示的预设信息相对于剧情片段并不突兀，可以降低对用户观感的影响，本申请的视频处理方法并不需要耗费人力在视频中添加预设信息，因此，本申请可以提升处理视频的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的视频处理方法的场景示意图；

图1b是本申请实施例提供的视频处理方法的场景示意图；

图1c是本申请实施例提供的两者视频处理方法的结果示意图；

图1d是本申请实施例提供的视频处理方法的流程示意图；

图2是本申请实施例提供的视频处理方法的流程示意图；

图3a是本申请实施例提供的模型训练的结构示意图；

图3b是本申请实施例提供的模型结构的示意图；

图3c是本申请实施例提供的模型结构的示意图；

图3d是本申请实施例提供的模型结构的示意图；

图4a是本申请实施例提供的视频处理方法应用在识别视频的片头片尾场景中的结构示意图；

图4b是本申请实施例提供的视频处理方法应用在识别视频的片头片尾场景中的结构示意图；

图4c是本申请实施例提供的视频处理方法中片段合并的场景示意图；

图4d是本申请实施例提供的视频处理方法中片段识别制片方片头的结构示意图；

图4e是本申请实施例提供的视频处理方法应用在识别视频的剧情片段的结构示意图；

图5是本申请实施例提供的视频处理装置的第一种结构示意图；

图6是本申请实施例提供的视频处理装置的第二种结构示意图；

图7是本申请实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种视频处理方法、装置、电子设备、存储介质和程序产品。

其中，该视频处理装置具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者台式电脑、智能电视、智能车载终端等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群或云服务器。

在一些实施例中，该视频处理装置还可以集成在多个电子设备中，比如，视频处理装置可以集成在多个服务器中，由多个服务器来实现本申请的视频处理方法。

在一些实施例中，服务器也可以以终端的形式来实现。

例如，参考图1a，该服务器可以获取视频集合，视频集合中的多个视频包括一个目标视频和至少一个其他视频；将目标视频与其他视频进行相似内容分析，得到目标视频与其他视频中的相似片段，以及相似片段在目标视频中的位置；确定在每个位置的相似片段的数量；基于数量，在所有相似片段中确定目标片段；基于目标片段，在目标视频中确定重点帧，以便在目标视频的重点帧的位置处展示预设信息。从而在终端访问服务器后，可以从服务器中获取在重点帧的位置处添加有预设信息的视频，并显示该视频。

其中，视频集合为一档电视剧，一档电视剧包括多集视频，每集视频包括片头和片尾，电视剧中的部分视频在片头前还包括前情回顾，为了避免在加入前情回顾时使视频的时长过长，或者缩短了视频中除片头和片尾以外的其他内容的时长，因此，将会截取部分片头或者片尾，以使电视剧中的每集时长相差较小，如此，片头和片尾在不同视频中的位置和时长可能不同。

本申请通过相似内容分析，可知同时出现在目标视频和其他视频中的相似片段，并可以定位该相似片段在目标视频中的位置，将在同一位置多次出现的相似片段作为目标视频中的目标片段(即片头或片尾)，因目标片段重复出现，可知目标片段不会影响目标视频中除目标片段以外的内容，通过目标片段可以确定目标视频中的重点帧，该重点帧为目标视频中的内容转折处，通过在重点帧的位置处展示预设信息可以降低对用户观感的影响。通过本申请的视频处理方法可以快速确定目标视频中的内容转折处，并不需要通过耗费人力在观看视频的过程中确定内容转折处，因此，本申请提升了处理视频的效率。

例如，参考图1b，该服务器还可以获取视频以及预设信息；对视频中的相邻两帧进行相似内容分析，得到相邻两帧的相似度；若相邻两帧的相似度低于第三预设阈值，则在相邻两帧中确定重点帧；在视频中确定剧情片段，剧情片段包括相邻两个剧情帧之间的所有帧，剧情帧包括视频中的第一帧、所有重点帧和最后一帧；计算内容相似度，内容相似度为剧情片段与预设信息之间的相似度；当内容相似度大于第四预设阈值时，将预设信息在剧情片段对应的剧情帧处展示。从而在终端访问服务器后，可以从服务器中获取在重点帧的位置处添加有预设信息的视频，并显示该视频。

在本申请中，若相邻两帧的相似度低于第三预设阈值，则在相邻两帧分别对应了视频中的两个不同剧情，视频在相邻两帧的位置处发生了剧情转换，相邻两帧中的任意一帧或者相邻两帧为重点帧，即视频在重点帧的位置处出现了剧情转折(内容转折)，如此，可以通过剧情帧(视频的第一帧、重点帧、视频的最后一帧)对视频进行剧情划分，得到同一剧情在视频中对应的剧情片段，并在剧情片段对应的剧情帧处展示与该剧情片段相似的预设信息，使展示的预设信息相对于剧情片段并不突兀，可以降低对用户观感的影响。本申请的视频处理方法并不需要耗费人力在视频中添加预设信息，因此，本申请可以提升处理视频的效率。

在一些实施例中，参考图1c，在运行图1a中的视频处理方法时，还可以同时运行图1b中的视频处理方法。

以下分别进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。

在本实施例中，提供了一种视频处理方法，如图1d所示，该视频处理方法可以由电子设备执行，视频处理方法的具体流程可以如下：

110、获取视频集合，视频集合中的多个视频包括一个目标视频和至少一个其他视频。

其中，视频集合中的不同视频具有相同的名称，比如，视频集合可以是一档电视剧、一档综艺、一档动漫，等等。

视频集合中的每个视频分别对应一播放顺序，比如，当视频集合为电视剧或动漫时，视频集合包括N集视频，N集视频中的一个视频为第1集，则该视频在N集视频中第1个播放。比如，当视频集合为综艺时，视频集合包括N期视频，N期视频中的一个视频为第1期，则该视频在N期视频中第1个播放。

目标视频为当前进行视频处理的视频。

其他视频为目标视频在视频处理时所参考的视频集合中的视频。比如，视频集合包括第1集视频、第2集视频……第N集视频，目标视频为第1集视频，则其他视频为第2集至第N集视频中的至少一个视频。

在一些实施例中，视频集合的获取方式具有多种，例如，视频集合可以从本地获取、还可以从云服务或者本地服务器获取，等等。

120、将目标视频与其他视频进行相似内容分析，得到目标视频与其他视频中的相似片段，以及相似片段在目标视频中的位置。

其中，相似片段为在目标视频和其他视频中共同存在的片段。比如，相似片段可以是片头、片尾、前情回顾，等等。

位置用于在目标视频中定位相似片段。比如，位置为第26帧-第150帧，则相似片段为目标视频的第26帧至第150帧所对应的片段，位置为第2秒-第7秒，则相似片段为目标视频的第2秒至第7秒所对应的片段。

在一些实施例中，考虑到相似片段包括多帧，通过相似度可知帧与帧之间的相似度，如此，可以计算目标视频中的帧与其他视频中的帧之间的相似度，以得到相似片段中的帧，目标视频包括目标帧集合，目标帧集合包括多个目标帧以及每个目标帧的帧序号，其他视频包括其他帧集合，其他帧集合包括多个其他帧，步骤120，包括步骤121-124(图中未示出)：

121、计算目标帧与其他帧之间的相似度。

122、当相似度满足预设条件时，将目标帧作为其他帧的相似帧，并将目标帧的帧序号作为相似帧的帧序号。

123、从所有相似帧中确定至少一个相似片段，相似片段包括至少两帧相似帧，至少两帧相似帧的帧序号连续。

124、根据相似片段中每个相似帧的帧序号，确定相似片段在目标视频中的位置。

其中，目标帧为目标视频中的任意一帧，每个目标帧需要与其他视频的所有其他帧分别进行相似度计算。比如，目标视频包括12帧目标帧，其他视频包括10帧其他帧，将12帧目标帧中的任意一帧分别与10帧其他帧进行相似度计算。

目标帧的帧序号用于指示目标帧在目标视频中的位置。比如，目标帧的帧序号为10，则可以是指目标帧在目标视频的第10帧的位置处，还可以是指目标帧在目标视频的第10秒的位置处，等等。

其他帧为其他视频中的任意一帧，每个其他帧需要与目标视频的所有目标帧分别进行相似度计算。比如，其他视频包括10帧其他帧，目标视频包括12帧目标帧，将10帧其他帧中的任意一帧分别与12帧目标帧进行相似度计算。

相似度用于指示目标帧与其他帧的相似性。

预设条件为预先设置的用于衡量目标帧与其他帧的相似性。比如，预设条件可以是相似度大于0.9，则目标帧与其他帧相似。其中，预设条件可以根据实际应用场景设定。

相似帧为与其他帧相似的目标帧。比如，可以是目标帧与其他帧的相似度满足预设条件，则目标帧为其他帧的相似帧。其中，一个相似帧可以对应一个其他帧，还可以是一个相似帧对应多个其他帧，等等。

相似帧的帧序号为与其他帧相似的目标帧的帧序号。比如，相似帧的帧序号可以是指相似帧在目标视频中的第i帧，还可以是指相似帧在目标视频中的第i秒，等等。

比如，目标视频包括12帧目标帧，其他视频包括10帧其他帧，预设条件为相似度大于0.9，则目标帧与其他帧相似。

若目标视频中的第1帧目标帧分别与10帧其他帧进行相似度计算，得到的相似度为0.3、0.91、0.8、0.8、0.7、0.5、0.4、0.5、0.5、0.5，则第1帧目标帧与其他视频中的第2帧其他帧相似，即一个相似帧对应一个其他帧。

若目标视频中的第1帧目标帧分别与10帧其他帧进行相似度计算，得到的相似度为0.3、0.91、0.95、0.8、0.7、0.5、0.4、0.5、0.5、0.5，则第1帧目标帧与其他视频中的第2帧其他帧和第3帧其他帧相似，即一个相似帧对应多个其他帧。

在一些实施例中，相似度的计算方式具有多种，例如，可以是杰卡德相似系数、余弦相似度、通过距离计算相似度、皮尔逊相关系数计算得到，等等。

在一些实施例中，为了可以计算目标帧与其他帧之间的相似度，步骤121，包括步骤(1)和步骤(2)(图中未示出)：

(1)、对目标帧和其他帧分别进行特征提取，得到第一嵌入向量和第二嵌入向量，第一嵌入向量表征目标帧中的图像纹理和目标帧中每个物体的布局，第二嵌入向量表征其他帧中的图像纹理和其他帧中每个物体的布局；

(2)、根据第一嵌入向量和第二嵌入向量，计算目标帧与其他帧之间的相似度。

在一些实施例中，考虑到相似帧虽然与其他帧相似，但相似帧的帧序号与其他帧的帧序号可能不相同，如此，存在相似片段难以确定的情况，为了便于得到相似片段，其他帧集合还包括每个其他帧的帧序号，步骤123，包括步骤Ⅰ和步骤Ⅱ(图中未示出):

Ⅰ、确定帧序差值，帧序差值为相似帧的帧序号与对应的其他帧的帧序号之差；

Ⅱ、从同一帧序差值对应的所有相似帧中确定至少一个相似片段。

其中，其他帧的帧序号用于指示其他帧在其他视频中的位置。比如，其他帧的帧序号为10，则可以是指其他帧在其他视频的第10帧的位置处，还可以是指其他帧在其他视频的第10秒的位置处，等等。

帧序差值为相似帧的帧序号与对应的其他帧的帧序号之差。

比如，若帧序号指的是在视频中的第i帧，即相似帧的帧序号为第2帧，与相似帧对应的其他帧的帧序号为第4帧，则帧序差值为2，帧序差值具体指的是相似帧与对应的其他帧之间的帧数差。若帧序号指的是在视频中的第i秒，即相似帧的帧序号为第2秒，与相似帧对应的其他帧的帧序号为第4秒，则帧序差值也为2，此时帧序差值具体指的是相似帧与对应的其他帧之间的时间差。

比如，[x-y]中的x是指相似帧的帧序号，y是指与相似帧x对应的其他帧的帧序号，目标视频中的目标帧与其他视频中的其他帧进行相似度计算后，得到[10-11]、[11-12]、[50-51]、[51-52]、[2-4]、[3-5]、[4-6]、[6-9]、[7-10]。[10-11]和[11-12]对应的帧序差值等于1，[2-4]、[3-5]和[4-6]对应的帧序差值等于2，[6-9]和[7-10]对应的帧序差值等于3。其中，帧序差值等于1所对应的一相似片段由目标视频中帧序号为10和11的目标帧组成，即相似片段为[10,11]，帧序差值等于1所对应的另一相似片段由目标视频中帧序号为50和51的目标帧组成，即另一相似片段为[50,51]。帧序差值等于2所对应的相似片段由目标视频中帧序号为2、3和4的目标帧组成，即相似片段为[2,3,4]。帧序差值等于3所对应的相似片段由目标视频中帧序号为6和7的目标帧组成,即相似片段为[6,7]。

在一些实施例中，为了可以增加相似片段的长度，并且减小相似片段的数量，相似片段包括第一合并片段，在步骤123中的步骤Ⅱ之后，还包括：

确定第一差值，第一差值为第一帧序差值和第二帧序差值之间的差值，第一帧序差值为多个帧序差值中任意一个，第二帧序差值为除第一帧序差值以外的帧序差值；

其中，第一帧序差值为多个帧序差值中任意一个。比如，多个帧序差值包括1、2、3，则第一帧序差值为1、2和3中的任意一个。

第二帧序差值为除第一帧序差值以外的帧序差值。比如，第一帧序差值为1，则第二帧序差值可以是2，还可以是3。

第一差值为第一帧序差值和第二帧序差值之间的差值的绝对值。比如，第一帧序差值为1，第二帧序差值为2，则第一差值等于1，等等。

第一预设阈值用于衡量第一差值，且第一预设阈值根据实际应用场景决定。比如，第一预设阈值可以是1，当第一差值为1，则第一差值不大于第一预设阈值，从而初步确定第一帧序差值对应的相似片段可以与第二帧序差值对应的相似片段合并。

第二差值为第一相似片段中第一帧的帧序号和第二相似片段中第二帧的帧序号之差的绝对值，且第一帧与第二帧相邻。比如，当第一相似片段为[10,11]，第二相似片段为[2,3,4]时，因第一帧与第二帧相邻，则第一帧的帧序号为11，第二帧的帧序号为2，第二差值等于9。当第一相似片段为[2,3,4]，第二相似片段为[6,7]时，因第一帧与第二帧相邻，则第一帧的帧序号为4，第二帧的帧序号为6，第二差值等于2。

第二预设阈值用于衡量第二差值，且第二预设阈值根据实际应用场景决定。比如，第二预设阈值可以是3，当第二差值为9时，则[10,11]和[2,3,4]分别为两个独立的相似片段，当第二差值为2时，则第二差值不大于第二预设阈值，从而可以确定第一帧序差值对应的相似片段可以与第二帧序差值对应的相似片段合并，即将[2,3,4]和[6,7]合并为一个相似片段。

第一合并片段为第一相似片段和第二相似片段合并后得到的相似片段。比如，将[2,3,4]和[6,7]合并为一个相似片段，得到[2,3,4,5,6,7]。

130、确定在每个位置的相似片段的数量。

其中，数量用于指示在目标视频中同一位置的相似片段的数量。

比如，一个目标视频分别与其他视频1、其他视频2、其他视频3进行相似内容分析，得到目标视频与其他视频1中的相似片段1a和相似片段1b、目标视频与其他视频2中的相似片段2、目标视频与其他视频3中的相似片段3，相似片段1a在目标视频中的位置为第26帧-第150帧，相似片段1b在目标视频中的位置为第250帧-第275帧，相似片段2在目标视频中的位置为第26帧-第150帧，相似片段3在目标视频中的位置为第26帧-第150帧，则位置为第26帧-第150帧的相似片段的数量为3，位置为第250帧-第275帧的相似片段的数量为1。

在一些实施例中，考虑到存在目标视频中一目标帧同时与其他视频中的多个其他帧相似，或是目标视频与不同其他视频中的相似片段存在重叠，为了可以减少重复的相似片段，相似片段包括第二合并片段，确定在每个位置的相似片段的数量，包括：

其中，第三相似片段为多个相似片段中的任意一个，且多个相似片段包括目标视频与每个其他视频中的相似片段。比如，多个相似片段包括[2,3,4,5,6,7]、[3,4,5]、[10,11]、[4,5,6,7,8,9]，则第三相似片段为[2,3,4,5,6,7]、[3,4,5]、[10,11]、[4,5,6,7,8,9]中的任意一个。

第四相似片段为除第三相似片段以外的相似片段。比如，第三相似片段为[2,3,4,5,6,7]，则第四相似片段为[3,4,5]、[10,11]、[4,5,6,7,8,9]中的任意一个。

重叠片段为第三相似片段和第四相似片段在位置重叠时所对应的片段。比如，当第三相似片段为[2,3,4,5,6,7]，第四相似片段为[3,4,5]时，则重叠片段为[3,4,5]。当第三相似片段为[2,3,4,5,6,7]，第四相似片段为[4,5,6,7,8,9]时，则重叠片段为[4,5,6,7]。当第三相似片段为[2,3,4,5,6,7]，第四相似片段为[10,11]时，则不存在重叠片段。

第二合并片段为将第三相似片段与第四相似片段中的重叠片段合并后所对应的片段。比如，当第三相似片段为[2,3,4,5,6,7]、第四相似片段为[3,4,5]时，重叠片段为[3,4,5]时，第二合并片段为[2,3,4,5,6,7]。当第三相似片段为[2,3,4,5,6,7]、第四相似片段为[4,5,6,7,8,9]、重叠片段为[4,5,6,7]时，则第二合并片段为[2,3,4,5,6,7,8,9]。

未合并片段为未与其他相似片段出现位置重叠的相似片段。比如，多个相似片段[2,3,4,5,6,7]、[3,4,5]、[10,11]、[4,5,6,7,8,9]中的[10,11]与其他相似片段未出现位置重叠，则[10,11]为未合并片段。

当目标视频中一目标帧同时与其他视频中的多个其他帧相似时，比如，第三相似片段为[2,3,4,5,6,7]，第三相似片段对应的帧序差值为2，第三相似片段中的帧序号为3的相似帧与帧序号为5的其他帧对应，第四相似片段为[3,4,5]，第四相似片段对应的帧序差值为3，第四相似片段中的帧序号为3的相似帧与帧序号为6的其他帧对应，如此，帧序号为3的相似帧在不同帧序差值中与不同的其他帧对应，且相似片段a和相似片段b中存在重复片段[3,4,5]，为了可以减少重复的相似片段，将第一相似片段[2,3,4,5,6,7]和第二相似片段[3,4,5]合并，得到第二合并片段[2,3,4,5,6,7]。

或是目标视频与不同其他视频中的相似片段存在重叠，比如，目标视频与其他视频1中的相似片段包括[2,3,4,5,6,7]和[10,11]，目标视频与其他视频2中的相似片段包括[2,3,4,5,6,7]，目标视频与其他视频3的相似片段包括[2,3,4,5,6,7]，则将目标视频与其他视频1中的相似片段[2,3,4,5,6,7]、目标视频与其他视频2中的相似片段[2,3,4,5,6,7]、目标视频与其他视频3的相似片段[2,3,4,5,6,7]合并，得到第二合并片段[2,3,4,5,6,7]。

在一些实施例中，为了可以对第三相似片段和第四相似片段进行精准合并，根据重叠片段，将第三相似片段和第四相似片段合并，得到第二合并片段，包括：

获取重叠片段的长度和第三相似片段的长度；

确定长度比值，长度比值为重叠片段的长度与第三相似片段的长度之比；

当长度比值大于预设目标阈值时，将第三相似片段和第四相似片段合并，得到第二合并片段。

其中，重叠片段的长度为重叠片段在目标视频中位置所对应的长度。比如，重叠片段为[3,4,5]，则重叠片段的长度为3。

第三相似片段的长度为第三相似片段在目标视频中位置所对应的长度。比如，第三相似片段为[2,3,4,5,6,7]，则重叠片段的长度为5。

长度比值为重叠片段的长度与第三相似片段的长度之比。比如，重叠片段的长度为3，第三相似片段的长度为5，则长度比值为0.6。

预设目标阈值用于衡量长度比值，其中，预设目标阈值可以根据实际应用场景决定。

比如，预设目标阈值为0.5，长度比值为0.6，则长度比值大于预设目标阈值，将第三相似片段和第四相似片段合并。

将第三相似片段和第四相似片段合并的方法包括：

(1)、当第三相似片段包含第四相似片段时，且第四相似片段的长度大于预设目标阈值乘以第三相似片段的长度，则删除第四相似片段，保留第三相似片段。

(2)、当第三相似片段与第四相似片段相交时，重叠片段的长度大于预设目标阈值乘以第三相似片段的长度，且第四相似片段中的相似帧数量大于预设数量，将第三相似片段和第三相似片段合并。

(3)、当第三相似片段与第四相似片段相交时，重叠片段的长度大于预设目标阈值乘以第三相似片段的长度，且第四相似片段中的相似帧数量小于预设数量，则删除第四相似片段，保留第三相似片段。

(4)、当第三相似片段与第四相似片段相交时，重叠片段的长度小于预设目标阈值乘以第三相似片段的长度，删除第四相似片段，保留第三相似片段。

140、基于数量，在所有相似片段中确定目标片段。

其中，目标片段为在同一位置多次出现的相似片段。比如，位置为第26帧-第150帧的相似片段的数量为3，位置为第250帧-第275帧的相似片段的数量为1，则目标片段为位置为第26帧-第150帧的相似片段。

在一些实施例中，考虑到视频中与制片方有关的片头较为固定，为了可以从多个相似片段识别出与制片方有关的片头，步骤140，包括：

基于所述数量，在所有相似片段中确定候选片段；

将目标片段在目标视频中的位置与预设位置进行位置对比，得到候选片段与预设片段之间的距离；

根据距离，在目标视频中确定目标片段。

其中，预设片段为预先设置在多个视频中重复出现的片段，比如，与制片方有关的片段，或者与谢幕有关的片段，等等。

预设位置为在不对预设片段删减的情况下，预设片段在视频中所处于的位置。

候选片段为数量满足预设次数的相似片段。比如，所有相似片段包括相似片段A，且相似片段A出现3次，相似片段B，且相似片段B出现2次，相似片段C，且相似片段C出现1次，候选片段可以是相似片段A，还可以是相似片段A和相似片段B，等等。

距离为候选片段中的第一帧的帧序号和预设片段的第一帧的帧序号之间的差值，还可以是候选片段中的最后一帧的帧序号和预设片段的最后一帧的帧序号之间的差值。

比如，预设片段为[1,2,3,4,5,6,7,8,9]、候选片段A[2,3,4,5,6,7]、候选片段B[7,8,9,10]，预设片段为[1,2,3,4,5,6,7,8,9]与候选片段A[2,3,4,5,6,7]的距离为1，预设片段为[1,2,3,4,5,6,7,8,9]与候选片段B[7,8,9,10]的重叠片段为6，如此，候选片段A距离预设片段相较于候选片段更近，则候选片段A为目标片段。

150、基于目标片段，在目标视频中确定重点帧，以便在目标视频的重点帧的位置处展示预设信息。

其中，重点帧为目标视频中通过目标片段得到的视频帧。比如，重点帧在目标视频中与目标片段相连。

预设信息为预先设置的在重点帧的位置处展示的信息，比如，预设信息可以是广告、进度内容说明、视频的补充说明，等等。进度内容说明用于说明目标片段对应的进度条的内容，比如，进度内容说明可以用于说明目标片段为片头或者片尾。视频的补充说明可以用于解释视频中的某个场景，比如，这个场景是“唐朝街市”，则视频的补充说明用于解释与“唐朝街市”关联的内容。

具体可以是在目标片段对应的进度条的上方或者下方显示进度内容说明。

在一些实施例中，当预设信息为广告或视频的补充说明时，将广告或视频的补充说明添加在目标片段前或者目标片段后，且广告与目标片段相连。

在一些实施例中，当预设信息为进度内容说明时，在目标片段对应的进度条的上方或者下方显示进度内容说明，其中，目标片段对应的进度条在目标片段的第一帧的帧序号和最后一帧的帧序号之间。

在一些实施例中，考虑到视频的片头结束后紧跟报幕，而报幕并不影响视频除片头片尾以外的其他内容，如此，可以将片头以及片头与报幕之间的所有帧合并，以便定位目标帧所处的位置，步骤150，包括：

基于新目标片段，在目标视频中确定重点帧。

其中，过渡帧为视频中包括文字和预设背景的帧，且预设背景可以根据实际应用场景决定。比如，预设背景为黑色，若视频中的帧仅存在黑色背景和文字，则该帧为过渡帧。

目标过渡帧为目标视频中距离目标片段最近的过渡帧，即目标过渡帧与目标片段相邻。比如，目标过渡帧为目标视频中报幕所对应的帧。

中间帧为目标过渡帧与目标片段之间的帧。比如，目标片段在目标视频中的位置为[2,3,4,5,6,7]，目标过渡帧的帧序号为10，则中间帧为目标视频中帧序号为8的帧和帧序号为9的帧。

新目标片段包括所有中间帧、目标过渡帧和目标片段。

比如，在得到新目标片段后，则重点帧可以在新目标片段前或新目标片段后，以将广告添加在新目标片段前或新目标片段后，且广告与新目标片段连接。

在一些实施例中，视频包含完整的预设片段。

在一些实施例中，考虑到为了减少片头对视频时长的影响，即可在视频中保留部分预设片段，视频包括部分预设片段。

在一些实施例中，考虑到视频存在报幕点，即在视频显示时会显示第几集或者第几期，在报幕点之前或者之后添加广告并不影响视频中的主要剧情内容，步骤150，包括：

其中，预设文字为与目标视频关联的文字，且预设文字与目标视频中的目标帧关联。比如，预设文字包括目标视频中的所有台词，或者包括目标视频中的所有字幕，等等。

目标文字用于指示目标视频在视频集合中的播放顺序。比如，目标文字可以是第几集，还可以是第几期，等等。比如，当目标视频中与目标文字关联的目标帧在第10秒，则重点帧为第10秒所对应的帧。

由上可知，本申请实施例可以获取视频集合，视频集合中的多个视频包括一个目标视频和至少一个其他视频；将目标视频与其他视频进行相似内容分析，得到目标视频与其他视频中的相似片段，以及相似片段在目标视频中的位置；确定在每个位置的相似片段的数量；基于数量，在所有相似片段中确定目标片段；基于目标片段，在目标视频中确定重点帧，以便在目标视频的重点帧的位置处展示预设信息。

由此本方案可以将在同一位置多次出现的相似片段作为目标视频中的目标片段，因目标片段重复出现，可知目标片段不会影响目标视频中除目标片段以外的内容，通过目标片段可以确定目标视频中的重点帧，该重点帧为目标视频中的内容转折处，通过在重点帧的位置处展示预设信息可以降低对用户观感的影响。通过本申请的视频处理方法可以快速确定目标视频中的内容转折处，并不需要通过耗费人力在观看视频的过程中确定内容转折处，因此，本申请提升了处理视频的效率。

在本实施例中，提供了一种视频处理方法，如图2所示，该视频处理方法可以由电子设备执行，视频处理方法的具体流程可以如下：

210、获取视频以及预设信息。

其中，视频为视频集合中的任意一个视频。比如，视频可以是电视剧、综艺、电影，等等。

其中，预设信息为预先设置的等待展示的信息，比如，预设信息可以是广告、进度内容说明、视频的补充说明，等等。进度内容说明用于说明目标片段对应的进度条的内容，比如，进度内容说明可以用于说明目标片段为片头或者片尾。视频的补充说明可以用于解释视频中的某个场景，比如，这个场景是“唐朝街市”，则视频的补充说明用于解释与“唐朝街市”关联的内容。

220、对视频中的相邻两帧进行相似内容分析，得到相邻两帧的相似度。

其中，相似度用于指示相邻两帧的相似性。

在一些实施例中，为了可以得到相邻两帧的相似度，步骤220，包括：

对相邻两帧中的每帧分别进行特征提取，得到第三嵌入向量和第四嵌入向量，第三嵌入向量表征相邻两帧的前一帧中每个物体的语义和布局，第四嵌入向量表征相邻两帧的后一帧中每个物体的语义和布局；

根据第三嵌入向量和第四嵌入向量，计算视频中的相邻两帧的相似度。

230、若相邻两帧的相似度低于第三预设阈值，则在相邻两帧中确定重点帧。

其中，第三预设阈值用于衡量相邻两帧的相似度，且第三预设阈值可以根据实际应用场景决定。比如，第三预设阈值可以是0.45、0.4、0.3，等等。

比如，当第三预设阈值为0.5、相邻两帧的相似度为0.35，则可以在相邻两帧中确定重点帧，重点帧可以是相邻两帧中的任意一帧，还可以是相邻两帧。

在一些实施例中，考虑到一句台词可能对应两个不相似的相邻两帧，为了避免在确定重点帧(视频的内容转折处)时将一句台词划分在两个不同的剧情中，若相邻两帧的相似度低于第三预设阈值，则在相邻两帧中确定重点帧，包括：

获取与视频对应的预设语句；

若相邻两帧的相似度低于第三预设阈值，则对相邻两帧对应的音频内容进行内容识别处理，得到相邻两帧对应的识别文本；

根据目标语句，在相邻两帧中确定重点帧。

其中，预设语句可以包含与视频的音频对应的文本，比如，预设语句可以是预先设置的视频的台词脚本，还可以是视频中除片头片尾以外音频关联的字幕，该音频包括视频中每个角色的音频和旁白的音频，等等。

相邻两帧对应的识别文本与相邻两帧对应的音频内容相同，比如，相邻两帧的识别文本可以是视频帧中的字幕，还可以是相邻两帧对应的音频经过音频识别后的文本，等等。

目标语句为预设语句中与相邻两帧对应的识别文本相同的语句。比如，与视频对应的预设语句可以包括第一句台词、第二句台词…第N句台词，而第二句台词与相邻两帧中一视频帧对应的识别文本相同，则第二句台词为目标语句。

比如，当相邻两帧中的一个视频帧包含预设语句中的一整句台词时，将相邻两帧中的一视频帧作为重点帧，或是相邻两帧中的一个视频帧包含一整句台词的最后一句话时，则将相邻两帧中的一视频帧作为重点帧，等等。

在一些实施例中，考虑到为了可以识别视频帧对应的台词在一整句台词的最后一句话，根据目标语句，在相邻两帧中确定重点帧，包括：

其中，预设符号为预先设置的标点符号，该标点符号用于指示预设语句中一语句的结束。比如，预设符号可以是句号、问好、感叹号，等等。

在一些实施例中，预设符号根据实际应用场景决定。

比如，与视频对应的预设语句可以包括第一句台词、第二句台词…第N句台词，第二句台词包括语句1和语句2、第二句台词包括语句3和语句4………第N句台词包括语句n，当目标语句为第二句台词中的语句3时，预设语句中与目标语句相邻的是“，”，即逗号，而逗号不为预设符号，因此相邻两帧中的一视频帧不为重点帧。当目标语句为第二句台词中的语句4时，预设语句中与目标语句相邻的是“。”，即句号，而句号为预设符号，因此该相邻两帧中的一视频帧为重点帧。

在一些实施例中，考虑到相邻两帧对应的台词都在一整句台词中，为了避免重点帧为相邻两帧中的任意一帧时将一整句台词打断，根据目标语句，在相邻两帧中确定重点帧，包括：

其中，其他视频帧为视频中在相邻两帧之后的视频帧，比如，其他视频帧为视频中在相邻两帧之后的第一个视频帧、第二个视频帧……第N个视频帧，等等。

其他视频帧对应的识别文本与其他视频帧对应的音频内容相同，比如，其他视频帧的识别文本可以是其他视频帧中的字幕，还可以是其他视频帧对应的音频经过音频识别后的文本，等等。

其他语句为预设语句中与其他视频帧对应的识别文本相同的语句。比如，与视频对应的预设语句可以包括第一句台词、第二句台词…第N句台词，而第二句台词与其他视频帧对应的识别文本相同，则第二句台词为目标语句。

比如，当其他视频帧包含预设语句中的一整句台词时，将该其他视频帧作为重点帧，或是其他视频帧包含一整句台词的最后一句话时，则将该视频帧作为重点帧，等等。

比如，与视频对应的预设语句可以包括第一句台词、第二句台词…第N句台词，第二句台词包括语句1和语句2、第二句台词包括语句3和语句4………第N句台词包括语句n，当其他语句为第二句台词中的语句3时，预设语句中与其他语句相邻的是“，”，即逗号，而逗号不为预设符号，因此该视频帧不为重点帧。当其他语句为第二句台词中的语句4时，预设语句中与其他语句相邻的是“。”，即句号，而句号为预设符号，因此该视频帧为重点帧。

240、在视频中确定剧情片段，剧情片段包相邻两个剧情帧之间的所有帧，剧情帧包括视频中的第一帧、所有重点帧和最后一帧。

其中，剧情片段中相邻两帧的相似度大于第三预设阈值。

剧情帧包括按照视频帧播放顺序排列的所述视频中的第一帧、所有重点帧和最后一帧，第一帧为视频的第一个视频帧，最后一帧为视频的最后一个视频帧。

比如，一个视频的剧情帧包括{第一帧、第一个重点帧、第二个重点帧、最后一帧}，则该视频的剧情片段包括剧情片段1、剧情片段2、剧情片段3，剧情片段1包括第一帧和第一个重点帧之间的所有帧，剧情片段2包括第一个重点帧和第二个重点帧之间的所有帧，剧情片段3包括第二个重点帧和最后一个剧情片段之间的所有帧。

250、计算内容相似度，内容相似度为剧情片段与预设信息之间的相似度。

其中，内容相似度用于指示预设信息与剧情片段相似性。

在一些实施例中，为了可以计算剧情片段和预设信息之间的相似，步骤250，步骤250包括步骤251-步骤253(图中未示出)：

251、对预设信息进行特征提取，得到第一特征；

252、对剧情片段进行特征提取，得到第二特征；

253、根据第一特征与第二特征，计算内容相似度。

第一特征用于表征预设信息。比如，第一特征可以是表征预设信息的向量、还可以是表征预设信息的矩阵，等等。

第二特征用于表征剧情片段。比如，第一特征可以是表征剧情片段的向量、还可以是表征剧情片段的矩阵，等等。

在一些实施例中，通过第一特征和第二特征计算内容相似度方式具有多种，例如，可以是杰卡德相似系数、余弦相似度、通过距离计算相似度、皮尔逊相关系数计算得到，等等。

260、当内容相似度大于第四预设阈值时，将预设信息在剧情片段对应的剧情帧处展示。

其中，第四预设阈值用于衡量内容相似度，以确定预设片段与剧情片段相似，其中，第四预设阈值根据实际应用场景决定。

比如，预设信息为广告，为了使广告在重点帧所处的位置展示不突兀，通过特征相似度可知广告与视频中的一剧情片段是否相似，当广告与剧情片段相似时，则将广告在剧情片段对应的剧情帧处展示。

比如，该视频的剧情片段包括剧情片段1、剧情片段2、剧情片段3，剧情片段1包括第一帧和第一个重点帧之间的所有帧，剧情片段2包括第一个重点帧和第二个重点帧之间的所有帧，剧情片段3包括第二个重点帧和最后一个剧情片段之间的所有帧。其中，预设信息可以添加在剧情片段1对应的第一个重点帧之后，即预设信息可以在剧情片段1对应的剧情帧处展示。预设信息还可以添加在剧情片段2对应的第一个重点帧之前，或者第二个重点帧之后，如此，预设信息可以在剧情片段2对应的剧情帧处展示。预设信息还可以添加在剧情片段3对应的第二个重点帧之前，如此，预设信息可以在剧情片段3对应的剧情帧处展示。

由上可知，本申请实施例可以获取视频以及预设信息；对视频中的相邻两帧进行相似内容分析，得到相邻两帧的相似度；若相邻两帧的相似度低于第三预设阈值，则在相邻两帧中确定重点帧；在视频中确定剧情片段，剧情片段包括相邻两个剧情帧之间的所有帧，剧情帧包括视频中的第一帧、所有重点帧和最后一帧；计算内容相似度，内容相似度为剧情片段与预设信息之间的相似度；当内容相似度大于第四预设阈值时，将预设信息在第二重点帧处展示。

由此本方案可以通过剧情帧(视频的第一帧、重点帧和视频的最后一帧)对视频进行剧情划分，得到同一剧情在视频中对应的剧情片段，并在剧情片段对应的剧情帧处展示与该剧情片段相似的预设信息，使展示的预设信息相对于剧情片段并不突兀，可以降低对用户观感的影响，本申请的视频处理方法并不需要耗费人力在视频中添加预设信息，因此，本申请可以提升处理视频的效率。为了更好的实施视频处理方法中步骤120的相似内容分析和步骤220的相似内容分析，本申请还提供一种用于相似内容分析的模型。

用于相似内容分析的模型为多任务模型，模型共享第一卷积网络模型(Convolutional Neural Networks，CNN)网络参数用于对输入图像的基础特征(深度特征图)抽取，基础特征接特征嵌入层(embedding层)直接获取到用于片头尾多点定位检索识别的embedding1特征(embedding1特征包括第一嵌入向量和第二嵌入向量)；基础特征接第二卷积网络模型(CNN2)及另一个embedding层可进行进一步特征抽取，获取到更具目标性的embedding2特征(embedding2特征包括第三嵌入向量和第四嵌入向量)，其进行剧情切分。其中由于片头、片尾识别采用跨视频时序匹配获取相同片段的方法，需要借助具备图像全局表征的embedding，故采用具备更多图像底层信息的基础特征接embedding层输出的embedding1；而由于剧情切分需要对视频帧前后场景有区分能力，需要从基础特征中抽象出场景，故需要对CNN输出进一步进行CNN2的深层学习，并借助另一个embedding层获取embedding2。

(一)、模型结构。

首先是CNN图像深层表征，表征1是基于深层CNN表征的embedding1，CNN2是在CNN基础上进一步进行特征选择然后经过表征2得到embedding2。CNN深层表征模块可以复用大规模开源数据集(imagenet)上预训练的残差神经网络参数(resnet101神经网络参数)。resnet101的CNN深层表征模块结构如表1。CNN2复用CNN中的第5个卷积块(conv5)(为第6个卷积块中的第X个卷积层(conv6_x)，也可以采用其他卷积块)，此时CNN2的初始化参数可以复用resnet101中conv5的网络参数。两个embedding层此处都采用全连层结构(fullyconnected layer，fc)，也可以在其前面***多个fc+relu激活函数的结构，relu激活函数为线性整流函数(rectified linear unit，relu)，又称修正线性单元，是一种人工神经网络中常用的激活函数(activation function)，以便学习更多特征内部的非线性关系再输出embedding。

在一些实施例中，resnet101神经网络参数可以根据实际应用场景决定。

表1 resnet101特征模块作为CNN结构表

表2 embedding1学习分支，输入为表1输出

表3 embedding2分支，输入为表1输出

(二)、数据准备

①、基础三元组数据准备：

训练需要三元组数据输入，故标注三元组数据。由锚点(anchor，a)、正样本(positive，p)、负样本(negative，n)组成的三元组中，a和p构成正样本对，a和n构成负样本对，可以对所有图像样本随机抽取构成3张图一组的多个组，标注每组三张图是否组成三元组，且三元组的a、p、n分别对应哪张图(对于三元组中两张相互相似的图像，可随机选一张作为a，另一张则为p)。注意：由于模型用于匹配片头尾段，常规同一个剧集的片头尾都是相互相似的，故两个样本需要极度相似才算相似样本a和p。其中，训练所需的三元组数据共有N个。

②、场景三元组数据准备：

准备1:对上述标注好的三元组数据，把三元组中正负样本(或负样本与锚点样本)都属于同一场景的三元组剔除，如正负场景分别为公园、公园——如公园的两个不同视角或者景点，则剔除这一组三元组，最终从基础三元组中得到场景三元组数据1(共P个三元组，P小于N)，此时可以知道N个基础三元组是否为场景三元组。

准备2:针对应用业务视频抽帧或者一批图像，标注图像的场景标签，如树林里、古装家庭室内、现代家庭室内、会议室等，进行标注。标注完成后，产生场景三元组数据2，产生的过程是：从所有类别中随机抽取两个类别(A和B)，从A中抽取一对图像组成正样本对，从B中抽取一张图像与A的正样本对组成三元组。对每个训练批次都执行上述过程批尺寸(batch size，bs)次，bs是指一次训练所抓取的数据样本数量，共产生bs个场景三元组数据2(共Q个三元组，此方法可以产生远大于N、P数量的三元组)

(三)、训练过程

1)：参数初始化：

在预训练环节，conv1-conv5采用在imagenet(数据集)上预训练的resnet101的参数，conv6采用conv5的预训练值，新添加的embedding层采用方差为0.01、均值为0的高斯分布进行初始化。

2)设置学习参数：分两个阶段学习，第一阶段学习表1、表2和表3中的所有参数，第二阶段学习表3。

3)学习率：

均对采用lr＝0.0005学习率(learning rate，lr)。每经过10轮迭代后lr变为原来的0.1倍。

4)学习过程：分两个阶段学习，如图3a，第一阶段主要训练embedding1(embedding2为辅助)，计算两个损失加权和作为总损失(loss1)，第二阶段仅训练embedding2(不更新embedding1以及CNN)仅计算loss2。

在第一阶段，对N个基础三元组，进行epoch轮迭代，epoch是指一个完整的数据集通过神经网络一次并且返回了一次，这个过程称为epoch。每轮迭代处理一次全量N个三元组，直到某epoch下平均epoch loss不再下降；(在学习embedding1的同时保持embedding2的有限学习，可以使得CNN网络对embedding2的学习任务有一定感知，有限的embedding2加权学习可以在不影响embedding1学习下有利于后续embedding2的学习。

在一些实施例中，第一阶段可以不学习embedding2。

在第二阶段对Q个场景三元组2，进行epoch2轮迭代；每轮迭代处理一次全量Q个三元组，直到某epoch下平均epoch loss不再下降。

5)对每个epoch轮迭代，分批次进行训练，具体操作如下：

(1)把此阶段需要训练的所有三元组(N个基础三元组、或Q个场景三元组2)，假设共有x个三元组(x为N或Q)，每bs个三元组作为一个批次，共x/bs个批次，每次取1个批次(batch)输入到模型更新参数(共更新x/bs次，完成1个epoch迭代)。

(2)1个批次前向计算，训练时神经网络对输入的三元组图像进行前向计算得到embedding1、embedding2，用e1、e2表示，均为1x64向量表示浮点特征，输出得到三元组的浮点特征表示(e1a、e1p、e1n)，(e2a、e2p、e2n)。

(3)loss计算：计算loss1和loss2，在第一阶段计算两个的加权和得到总损失，在第二阶段loss2作为总损失。

(4)模型参数更新：采用随机梯度下降法(Stochastic Gradient Descent，SGD)，把(3)的loss进行梯度后向计算得到参数的更新值，并更新对应阶段的待学习网络参数。完成1个批次模型参数更新。

(5)重复2～4步，完成所有x/bs个批次模型更新。

(四)、损失(loss)

L_total1＝w₁L₁+w₂L₂；

L_total2＝L₂；

其中，w₁为CNN中的权重系数，w₁＝1，w₂为CNN2中的权重系数，w₂＝0.1，L₁和L₂均为三元组损失，其公式如下：

在batch中对三元组样本的embedding特征计算损失函数(triplet loss)，triplet loss的计算如下，其中，triplet loss中的alpha为函数间隔(margin)，设为0.6，其中，alpha为一个超参数，用于阻止网络输出无用的结果，X_a为锚点a的embedding，X_p为与锚点a对应的正样本p的embedding，||X_a-X_p||表示锚点a的embedding与锚点a对应的正样本p的embedding之间的L₂距离。

triplet loss的目的是使得anchor与nagative的距离比距离positive的距离大于0.6，0.6为alpha的取值。

在一些实施例中，alpha的取值根据实际应用场景决定。

l_tri＝max(||X_a-X_p||-||X_a-X_n||+a,0)

X_n与锚点a对应的负样本n的embedding，||X_a-X_n||表示锚点a的embedding与锚点a对应的负样本n的embedding之间的距离，a在此时等于0.6。

针对第一阶段：

L₁：在每个batch中，对该批次的基础三元组输入网络得到的embedding1计算上述式子，然后取该批次的平均三元组损失作为L₁。

L₂：在每个batch中，对该批次的那些为场景三元组的基础三元组输入网络得到的embedding2计算上述式子，然后取该批次的平均三元组损失作为L₂。

L_total1为两者加权，由于主要学习基础embedding1，故w₂很小。

针对第二阶段：

L₂：在每个batch中，对该批次的三元组(从场景三元组数据2产生)输入网络得到的embedding2计算上述式子，然后取该批次的平均三元组损失作为总损失。

(五)、训练完后的模型

1)、如图3b所示，训练完后的模型为一个模型，可以同时包括CNN和CNN2，CNN用于获取embedding1，CNN2用于获取embedding2。

2)、训练完后的模型为两个模型，如图3c所示，一个模型包括CNN，用于获取embedding1，如图3d所示，另一个模型包括CNN2，用于获取embedding2。

根据上述实施例所描述的方法，以下将作进一步详细说明。

在本实施例中，对于输入的某个剧集，获取到该剧集的视频，如对于电视剧A，有46集，则有46个视频。片头片尾挖掘的任务是要挖掘到每个视频的片头片尾。本申请的方法针对每个视频分别挖掘。对每个视频i(即目标事情)，分别从剩余视频中随机抽取10个视频(即其他视频)与视频i组成视频对，从而每个视频都有10个用于挖掘的视频对。挖掘的思路是对这10个视频对分别进行时间段匹配，从而每个视频对产生0个或多个匹配的时间段，当某个时间段被匹配超过两次、且出现在视频起或止位置，则该匹配时间段便是视频i的片头片尾。本申请以上述为例，对本申请实施例的方法进行详述说明。

如图4a和图4b所示，对上述每个视频对(i,r)，其中，i表示待确定片头片尾的目标视频，r表示其他视频(按上一步的视频对组成方式，r的取值是1～10)，对于目标视频i，共需要进行10次时间段匹配的算法，每次处理一对视频。则一种视频处理方法具体流程如下：

(一)、预设embedding的距离阈值T0＝0.5，则当两个embedding的欧式距离小于0.5代表两个embedding来自相似的帧(即为步骤120中步骤122的预设条件)。

(二)、对视频对中的两个视频抽帧并且获取到每一帧的embedding。

在一些实施例中，抽帧的方式具有多种，例如，可以是在视频的每1秒中抽一帧，还可以是在视频的每2秒中抽一帧，还可以是在视频的每10秒中抽一帧，等等。

(三)、帧级别相似度匹配(帧匹配)。对视频i中每帧j(即目标帧)：计算其与视频r中每帧embedding的欧式距离，将帧j作为小于T0的其他帧的相似帧，获取到j作为相似帧对应的其他帧(或有匹配的帧)列表sim-id-list，同时记录对应的相似帧时间偏差diff-time–list，(如对于j＝1帧，sim-id-list为[1，2，3]，表示与r视频的第1、2、3秒相似；帧序差值diff-time-list为[0,1,2]表示sim-id-list中其他帧与j＝1帧所代表的时间的距离(即帧序差值)。这里默认抽帧为每秒抽取1帧，故帧的序号即为秒数)。

在一些实施例中，若抽帧为在视频中每间隔一预设时间段抽一帧，则时间偏差等于帧序差值乘以预设时间段。

(四)、遍历所有帧统计视频i和视频r有匹配的帧数(即步骤三中在r视频有匹配的j的数量)，当有匹配帧数少于1，则i与r视频没有相同的视频段，挖掘不到片头片尾。否则进行下一步。

(五)、dt重排序得到SL列表：对SL中所有匹配帧按diff-time(即dt)从小到大排序，当dt相同时按SL中视频i的目标帧的帧序号从小到大排序，同时按此顺序重组对应的diff-time-list。

例如，帧序差值为0的排在最前面，为1的在其后等，如新的SL列表为[10,11]，[11,12]，[2,4]，[3,5]，[4,6]，[6,9]，[7,10]，在“，”前的数字是指的视频i中的目标帧，在“，”后的数字是指的视频r中的其他帧，“，”前的目标帧为“，”后其他帧的相似帧。

(六)、以相同帧序差值合并帧匹配为段匹配。

以dt重组数据得到match-dt-list：对视频i的所有帧的相似帧列表SL中的列表，以帧序差值为主键重组得到dt从小到大的列表，得到帧序差值为0、1、2……下的相似帧match-dt-list：{0:{count,start-id,match-id-list},…},举例{2:{3,2,[[2,4],[3,5],[4,6]]}，3:{2,6,[[6,9],[7,10]]}}，其中2指为时间差2，如视频i的第2帧和视频r的第4帧相似，则这两帧时间差2；count为该时间偏差下的相似帧数量，上述视频i的第2帧和视频r的第4帧相似，则count加1；start-id指该同一帧序差值下相似帧的最小帧id，如视频i的帧序号为2的目标帧与帧序号为4的其他帧相似，则start-id为2。(七)、第一合并片段。对match-dt-list中前后dt小于3(即对帧序差值在3s以内的匹配对合并)的两个dt列表合并，把dt较大的合入dt较小的中，同时把dt较大的相似帧匹配更新，同时更新步骤五的匹配帧列表SL。

例如，如上述举例中，帧序差值diff-time-list为[1,2,3]，则该列表较大的dt为3，较小的dt为2，即dt为2的[2,4],[3,5],[4,6](即第一相似片段)和dt为3的[6,9],[7,10](即第二相似片段)可以合并，最终得到{2:{5，2，[[2,4],[3,5],[4,6],[6,8],[7,9]]}}(即第一合并片段)，其中count为dt＝2和dt＝3的count之和，start-id从dt＝2和dt＝3的相似帧列表中找到最小的i视频的帧，对于dt＝3的列表，改写与相似帧对应的其他帧的帧序号，如把[6,9]改写成[6,8]合入dt＝2的相似帧列表中。同时把帧序号改写过的相似帧对同步更新到步骤五的SL匹配帧列表中，如更新为：[10,11]，[11,12]，[2,4]，[3,5]，[4,6]，[6,8]，[7,9]。

(八)、由于上述存在合并帧列表可能会打乱dt或者帧id的顺序，故要重新排序，对dt重排序，即对新的SL列表再执行一次步骤五的排序，得到排序后的匹配帧列表。

(九)、以dt重组数据得到match-dt-list：再次执行步骤六。

(十)、计算时间段匹配列表match-duration-list：

A1、预设两匹配段的时间间隔大于T2。

例如，T2为8s，对于每秒1帧，则帧序号相差8。

A2、对match-dt-list中的每个dt(如dt＝2)：

B1、对dt下视频i的每个帧srcT(如上述举例2，3，4，6，7中的2)：

C1、srcT与上一次的srcT相差大于T2，(如2相比上一次是srcT11而言相差9，则大于间隔阈值)，则把上一次的相似帧对合并成一个匹配段，从当前srcT开始新的相似帧对统计，并把相似帧存在临时列表tmplist里。如dt＝2，srcT＝2下，把上一次的临时帧列表中的相似帧作为匹配段存下来，如上一次tmplist＝[[10,11],[11,12]]的相似帧作为匹配段添加到match-duration-list中，如添加这样的匹配段信息：[10,11,11,12,1,2,2]，其中各值代表是[src-startTime,src-endTime,ref-startTime,ref-endTime,dt,duration,count],即匹配段中存两段视频的：视频i的起帧，末帧，匹配视频的起帧、末帧，匹配段的dt，匹配段的时长，匹配到的相似帧数量。本次的相似帧存到临时列表里tmplist＝[[2,4]]。

C2、当srcT与上一次的srcT相差小于T2，本次的相似帧存到临时列表里tmplist，如对dt2，srcT＝3、4、6、7均存到临时列表中，则得到tmplist＝[[2,4],[3,5],[4,6],[6,8],[7,9]]。当前为本dt的最后一个相似帧(如srcT＝7)时，tmplist的累积相似帧组成匹配段添加到match-duration-list，如添加[2,7,4,9,2,6,5]，其中时长为7-2+1，count＝5为相似帧计数，从而match-duration-list＝[[10,11,11,12,1,2,2],[2,7,4,9,2,6,5]]。

(十一)、对上述match-duration-list按count相似帧数倒序排序，如match-duration-list＝[[2,7,4,9,2,6,5]，[10,11,11,12,1,2,2]]。

(十二)、第二合并片段。对match-duration-list有交叠的时间段进行处理。由于相似帧计算是遍历两个视频的所有帧进行距离计算取某阈值范围内相似的操作，容易出现某一帧与多个帧相似，从而会出现match-duration-list中存在两个匹配上的时间段时间有交叠，需要处理这种情况。

A1、设置最小匹配段时长T3(如5，表示最短匹配时长为5s)。

A2、对match-duration-list中的时间段i(指src-startTime，src-endTime构成的时间段)：

B1、对match-duration-list中的时间段j＝i+1，时间段j(即第四相似片段在目标视频i中的位置)是指match-duration-list中与时间段i(即第三相似片段在目标视频i中的位置)相邻的时间段。

C1、如图4c中的1所示，当时间段i包含时间段j，则删除时间段j。

C2、如图4c中的2所示，当时间段i和时间段j有交集，且时间段i的起点为最早的起点时，把时间段j的起点后移到i的终点位置，更新时间段j(即第二合并片段在目标视频i中的位置)，此时当时间段j的长度小于T3，则删除时间段j，否则用新时间段j替代旧的时间段j。

C3、如图4c中的3所示，当时间段i和时间段j有交集，且时间段j的起点为最早的起点时，把时间段j的终点前移到时间段i的起点位置，更新时间段j，此时当更新时间段j的长度小于T3，则删除j，否则用新时间段j替代旧的新时间段j。

(十三)、返回匹配时间段信息，如match-duration-list＝[[2,7,4,9,2,6,5]，[10,11,11,12,1,2,2]]，或仅返回匹配段[[2,7,4,9]，[10,11,11,12]]，其他，匹配段中包括由相似帧组成的相似片段，比如，匹配段[[2,7,4,9]中的相似片段为目标视频i中帧序号2-帧序7所对应的片段。

(十四)、对视频i，从其他视频vid2、其他视频vid3、其他视频vid4中挖掘，则对[I,vid2][I,vid3],[I,vid4]共N＝3对视频对分别进行步骤一至步骤十三的视频段匹配，得到3个匹配信息，如第一对视频的匹配段返回：[[2,7,4,9],[10,11,11,12]]，第二对视频的匹配段返回[[2,7,4,9]]，第三对视频的匹配段返回[[2,7,4,10]]。

(十五)、统计对匹配段的数量，如[2,7,4,9]有2次，[2,7,4,10]有1次，[10,11,11,12]有1次。

(十六)、对匹配段按照计数逆序排序，当计数相同，按src-startTime从小到大排序：得到match-list＝[[2,7,4,9]，[2,7,4,10]，[10,11,11,12]]，count-list＝[2,1,1]。

(十七)、对match-list中有重叠的匹配段进行合并：

A1、设置有效重叠比例T4(如0.5，表示当两段时间段交集时长占目标段时长大于T4，表示两段计数需要合并计算)，有效匹配计数T5(如3，表示当某一段匹配段中相似帧计数大于T5，则该段不可忽略)。

A2、对match-list中的时间段i，时间段i为第三相似片段在目标视频i中的位置)(指src-startTime，src-endTime构成的时间段)：

B1、对match-list中的时间段j＝i+1，时间段j为第四相似片段在目标视频i中的位置，时间段j是指match-list中与时间段i相邻的时间段：

C1、如图4c中的1所示，当时间段i包含时间段j，且j段时长>0.5*i段时长，则删除时间j。

C2、当时间i和时间j有交集，当交集时长>0.5*i段时长，交集时长为第三相似片段与第四相似片段之间的重叠片段在目标视频i中的位置：

D1、如图4c中的2和3所示，当j段中的相似帧的数量大于T5，则合并时间i和时间j段时间为最长起止时间。

D2、当j段的相似帧的数量小于T5，则删除时间j。(即此时不做i和j段的合并，仅保留出现次数最多的i段，但j段的次数体现在新的i段计数中)。

C3.当i和j有交集，当交集时长<0.5*i段时长，舍弃时间段j。

(十八)、得到新的视频匹配段match-list(如[[2,7,4,9]，[10,11,11,12]])，以及计数count-list(如[3,1])，count-list中对匹配段的计数等于相似片段的数量。

(十九)、设置有效复现次数比例阈值T6，表示在N对视频对挖掘中，当某个匹配视频段复现次数x>N*T6，则为有效的重复段(如T6＝0.5)。

(二十)、基于数量，在所有相似片段中确定目标片段。

例如，匹配片段[2,7,4,9]的数量最多，将[2,7,4,9]中的帧序号2-帧序号7在目标视频i中对应的片段作为目标片段。

(二十一)、基于目标片段，在目标视频中确定重点帧。

将所有中间帧、目标过渡帧以及目标片段合并，到新目标片段，中间帧为所述目标过渡帧与所述目标片段之间的帧；

基于新目标片段，在目标视频中确定重点帧。

例如，对视频帧根据分类模型进行黑屏文字识别(需要预先训练黑屏文字二分类模型，可以识别出一张图像是否为黑屏文字类，如下)，如在上述match-list＝[[2,7,4,9]]以外，识别出[11,12,14,15]，[30,31,32]为黑屏文字其他事图像画面。从所有黑屏文字段中，找到距离之前检索出的片头结束时间距离最近的，若该黑屏文字段起始时间距离片头结束时间小于T7(如5，表示片头结束5秒之内出现黑屏文字)，则表示该文字是正片开始前的报幕，则合并到目标片段中。

基于数量，在所有相似片段中确定候选片段；

根据距离，在多个候选片段中确定目标片段。

例如，如图4d所示，由于制片方片头一般比较固定，故本处采用embedding1作为特征的时间段匹配定位该片头位置具体过程，首先收集制片方片段并放入库存中，从库存中获取预设片段，然后对每个候选片段与库存的视频一一组成视频对，进行时间段匹配，找到距离预设片段最近的候选片段作为目标片段。

在一些实施例中，基于所述目标片段，在目标视频中确定重点帧，包括：

在一些实施例中，根据视频的台词文件，查询到“第几集”字样出现的位置(即集数识别)，此时可以查询到正片中第几集的定位点(即重点帧)，另外也可以区分识别黑屏文字找到哪帧是第几集开始出现的时间。进而可以给出一个距离正片更近的可***广告的时间定位。

由上可知，通过借助视频帧检索以及本方案中针对片头片尾定位的多个视频间帧序列匹配的技术，实现时间不对齐、或片头尾不等时长下的片头片尾识别与定位。因目标片段重复出现，可知目标片段不会影响目标视频中除目标片段以外的内容，通过目标片段可以确定目标视频中的重点帧，该重点帧为目标视频中的内容转折处，通过在重点帧的位置处展示预设信息可以降低对用户观感的影响。通过本申请的视频处理方法可以快速确定目标视频中的内容转折处，并不需要通过耗费人力在观看视频的过程中确定内容转折处，因此，本申请提升了处理视频的效率。

在本实施例中，如图4e所示，以对视频的剧情切分为例。本申请以上述为例，对本申请实施例的方法进行详述说明，一种视频处理方法具体流程如下：

(一)、按预设规则对视频抽帧得到帧级别图像，获取各帧的embedding2特征，根据前后帧embedding2的欧式距离是否小于预设阈值1(thr1)，将前后帧相似聚合，初步确定前后帧是否为同一剧情；

(二)、对剧情片段进行合并。从第一个剧情片段开始，若存在跟其足够相似的剧情片段，则合并两剧情片段(及中间的剧情)，从而得到视频的二次剧情切分。对于原始视频剧情，从第二个剧情片段开始到最后一个剧情片段根据下述过程得到所有情节切分的位置：判断其剧情embedding2与上一个剧情embedding2中相似度(两个剧情的两两帧分别计算欧式距离，其中距离小于预设阈值1的帧的数量除以两个剧情帧中数量最小的帧数)；若大于预设阈值2则判断其为同一剧情，若小于则另起一则剧情。

(三)、获取视频台词脚本，对上一剧情切分，对某个切分时间点在一句台词之间的，时间点后移到包含整句台词。

例如，当某个切分时间点前后2秒内有台词，切分点后移到下一句台词之后。

(四)、为了提升匹配效果，可以记录每个情节的embedding2，然后对每个广告视频帧获取embedding2；根据上述剧情合并的方法，对每个剧情片段找到所有广告中与之相似度最高的一个广告，把该广告***到该剧情片段之后。

由上可知，借助剧情度量特征在视频前后帧间进行比对和聚合，实现剧情切分，以得到目标视频中的重点帧，如此，在重点帧的位置处展示预设信息可以降低对用户观感的影响。通过本申请的视频处理方法可以快速确定目标视频中的内容转折处，并不需要通过耗费人力在观看视频的过程中确定内容转折处，因此，本申请提升了处理视频的效率。

为了更好地实施以上方法，本申请实施例还提供一种视频处理装置，该视频处理装置具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。

例如，如图5所示，该视频处理装置可以包括第一获取单元510、第一分析单元520、数量确定单元530、片段确定单元540以及第一目标确定单元550，如下：

(一)、第一获取单元510。

第一获取单元510用于获取视频集合，视频集合中的多个视频包括一个目标视频和至少一个其他视频。

(二)、第一分析单元520。

第一分析单元520用于将目标视频与其他视频进行相似内容分析，得到目标视频与其他视频中的相似片段，以及相似片段在目标视频中的位置。

计算目标帧与其他帧之间的相似度；

(三)、数量确定单元530。

数量确定单元530用于确定在每个位置的相似片段的数量。

确定在每个位置的相似片段的数量，相似片段包括第二合并片段和未合并片段，未合并片段为除第三相似片段和第四相似片段的相似片段。

(四)、片段确定单元540。

片段确定单元540用于基于数量，在所有相似片段中确定目标片段。

基于数量，在所有相似片段中确定候选片段；

根据距离，在多个候选片段中确定目标片段。

(五)、第一目标确定单元550。

第一目标确定单元550用于基于目标片段，在目标视频中确定重点帧，以便在目标视频的重点帧的位置处展示预设信息。

基于新目标片段，在目标视频中确定重点帧。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本实施例的视频处理装置由第一获取单元获取视频集合，视频集合中的多个视频包括一个目标视频和至少一个其他视频；由第一分析单元将目标视频与其他视频进行相似内容分析，得到目标视频与其他视频中的相似片段，以及相似片段在目标视频中的位置；由数量确定单元确定在每个位置的相似片段的数量；由片段确定单元基于数量，在所有相似片段中确定目标片段；由第一目标确定单元基于目标片段，在目标视频中确定重点帧，以便在目标视频的重点帧的位置处展示预设信息。

由此，通过本申请的视频处理方法可以快速确定目标视频中的内容转折处，并不需要通过耗费人力在观看视频的过程中确定内容转折处，因此，本申请提升了处理视频的效率。

例如，如图6所示，该视频处理装置还可以包括第二获取单元610、第二分析单元620、第二目标确定单元630、剧情确定单元640、相似度计算单元650以及展示单元660，如下：

(一)、第二获取单元610。

第二获取单元610，用于获取视频。

(二)、第二分析单元620。

第二分析单元620，用于对视频中的相邻两帧进行相似内容分析，得到相邻两帧的相似度。

(三)、第二目标确定单元630。

第二目标确定单元630，用于若相邻两帧的相似度低于第三预设阈值，则在相邻两帧中确定重点帧。

获取与视频对应的预设语句；

根据目标语句，在相邻两帧中确定重点帧。

(四)、剧情确定单元640。

剧情确定单元640，用于在视频中确定剧情片段，剧情片段包括相邻两个剧情帧之间的所有帧，剧情帧包括视频中的第一帧、所有重点帧和最后一帧。

(五)、相似度计算单元650。

相似度计算单元650，用于计算内容相似度，内容相似度为剧情片段与预设信息之间的相似度。

(六)、展示单元660。

展示单元660，用于当内容相似度大于第四预设阈值时，将预设信息在剧情片段对应的剧情帧处展示。

由上可知，本实施例的视频处理装置由第二获取单元获取视频；由第二分析单元对视频中的相邻两帧进行相似内容分析，得到相邻两帧的相似度；若相邻两帧的相似度低于第三预设阈值，则由第二目标确定单元在相邻两帧中确定重点帧；由剧情确定单元在视频中确定剧情片段，剧情片段包括剧情帧集合中相邻两个剧情帧之间的所有帧，剧情帧集合中的剧情帧包括视频中的第一帧、所有重点帧和最后一帧；由相似度计算单元计算内容相似度，内容相似度为剧情片段与预设信息之间的相似度；当内容相似度大于第四预设阈值时，由展示单元将预设信息在剧情片段对应的剧情帧处展示。

本申请实施例还提供一种电子设备，该电子设备可以为终端、服务器等设备。

在本实施例中，将以本实施例的电子设备是服务器为例进行详细描述，比如，如图7所示，其示出了本申请实施例所涉及的服务器的结构示意图，具体来讲：

该服务器可以包括一个或者一个以上处理核心的处理器710、一个或一个以上计算机可读存储介质的存储器720、电源730、输入模块740以及通信模块750等部件。本领域技术人员可以理解，图7中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器710是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器720内的软件程序和/或模块，以及调用存储在存储器720内的数据，执行服务器的各种功能和处理数据。在一些实施例中，处理器710可包括一个或多个处理核心；在一些实施例中，处理器710可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器710中。

存储器720可用于存储软件程序以及模块，处理器710通过运行存储在存储器720的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器720可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器720还可以包括存储器控制器，以提供处理器710对存储器720的访问。

服务器还包括给各个部件供电的电源730，在一些实施例中，电源730可以通过电源管理***与处理器710逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源730还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入模块740，该输入模块740可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

该服务器还可包括通信模块750，在一些实施例中通信模块750可以包括无线模块，服务器可以通过该通信模块750的无线模块进行短距离无线传输，从而为用户提供了无线的宽带互联网访问。比如，该通信模块750可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。

由上可知，通过本申请的两种视频处理方法可以快速确定目标视频中的内容转折处，并不需要通过耗费人力在观看视频的过程中确定内容转折处，因此，本申请提升了处理视频的效率。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种视频处理方法中的步骤。例如，该指令可以执行如下步骤：

一种视频处理方法，包括：

确定在每个位置的相似片段的数量；

基于数量，在所有相似片段中确定目标片段；

另一种视频处理方法，包括：

获取视频以及预设信息；

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述实施例中提供的视频处理方面的各种可选实现方式中提供的方法。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种视频处理方法中的步骤，因此，可以实现本申请实施例所提供的任一种视频处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种视频处理方法、装置、服务器和计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频处理方法，其特征在于，包括：

获取视频集合，所述视频集合中的多个视频包括一个目标视频和至少一个其他视频；

将所述目标视频与所述其他视频进行相似内容分析，得到所述目标视频与所述其他视频中的相似片段，以及所述相似片段在所述目标视频中的位置；

确定在每个所述位置的所述相似片段的数量；

基于所述数量，在所有所述相似片段中确定目标片段；

基于所述目标片段，在所述目标视频中确定重点帧，以便在所述目标视频的所述重点帧的位置处展示预设信息。

2.如权利要求1所述的视频处理方法，其特征在于，所述目标视频包括目标帧集合，所述目标帧集合包括多个目标帧以及每个所述目标帧的帧序号，所述其他视频包括其他帧集合，所述其他帧集合包括多个其他帧，所述将所述目标视频与所述其他视频进行相似内容分析，得到所述目标视频与所述其他视频中的相似片段，以及所述相似片段在所述目标视频中的位置，包括：

计算所述目标帧与所述其他帧之间的相似度；

当所述相似度满足预设条件时，将所述目标帧作为所述其他帧的相似帧，并将所述目标帧的帧序号作为所述相似帧的帧序号；

从所有所述相似帧中确定至少一个相似片段，所述相似片段包括至少两帧所述相似帧，所述至少两帧所述相似帧的帧序号连续；

根据所述相似片段中每个所述相似帧的帧序号，确定所述相似片段在所述目标视频中的位置。

3.如权利要求2所述的视频处理方法，其特征在于，所述其他帧集合还包括每个所述其他帧的帧序号，所述从所有所述相似帧中确定至少一个相似片段，包括:

确定帧序差值，所述帧序差值为所述相似帧的帧序号与对应的所述其他帧的帧序号之差；

从同一所述帧序差值对应的所有相似帧中确定至少一个相似片段。

4.如权利要求3所述的视频处理方法，其特征在于，所述相似片段包括第一合并片段，在所述从同一所述帧序差值对应的所有相似帧中确定至少一个相似片段之后，还包括：

确定第一差值，所述第一差值为第一帧序差值和第二帧序差值之间的差值的绝对值，所述第一帧序差值为多个所述帧序差值中任意一个，所述第二帧序差值为除所述第一帧序差值以外的帧序差值；

当所述第一差值不大于第一预设阈值时，确定第二差值，所述第二差值为第一相似片段中第一帧的帧序号和第二相似片段中第二帧的帧序号之差的绝对值，所述第一相似片段为所述第一帧序差值对应的所述相似片段，所述第二相似片段为所述第二帧序差值对应的所述相似片段，所述第一帧与所述第二帧相邻；

当所述第二差值不大于第二预设阈值时，将所述第一相似片段和所述第二相似片段合并，得到第一合并片段。

5.如权利要求1所述的视频处理方法，其特征在于，所述相似片段包括第二合并片段，所述确定在每个所述位置的所述相似片段的数量，包括：

根据第三相似片段和第四相似片段在所述目标视频中的所述位置，确定第三相似片段与所述第四相似片段之间的重叠片段，所述第三相似片段为多个所述相似片段中的任意一个，所述第四相似片段为除所述第三相似片段以外的相似片段，多个所述相似片段包括所述目标视频与每个所述其他视频中的相似片段；

根据所述重叠片段，将所述第三相似片段和所述第四相似片段合并，得到第二合并片段；

确定在每个所述位置的所述相似片段的数量，所述相似片段包括第二合并片段和未合并片段，所述未合并片段为除所述第三相似片段和所述第四相似片段以外的相似片段。

6.如权利要求1所述的视频处理方法，其特征在于，所述基于所述目标片段，在所述目标视频中确定重点帧，包括：

从所述目标视频中确定至少一个过渡帧，所述过渡帧包括文字和预设背景；

从所述至少一个过渡帧中确定目标过渡帧，所述目标过渡帧与所述目标片段相邻；

将所有中间帧、所述目标过渡帧以及所述目标片段合并，得到新目标片段，所述中间帧为所述目标过渡帧与所述目标片段之间的帧；

基于所述新目标片段，在所述目标视频中确定重点帧。

7.如权利要求1所述的视频处理方法，其特征在于，所述基于所述数量，在所有所述相似片段中确定目标片段，包括：

获取预设片段在所述视频中的预设位置，所述视频集合中的每个所述视频包括至少部分所述预设片段；

基于所述数量，在所有所述相似片段中确定候选片段；

将所述候选片段在所述目标视频中的位置与所述预设位置进行位置对比，得到所述候选片段与所述预设片段之间的距离；

根据所述距离，在多个所述候选片段中确定目标片段。

8.如权利要求1所述的视频处理方法，其特征在于，所述基于所述目标片段，在所述目标视频中确定重点帧，包括：

获取所述目标视频中的预设文字，所述预设文字与目标视频中的目标帧关联；

从所述预设文字中确定目标文字，所述目标文字用于指示所述目标视频在所述视频集合中的播放顺序；

根据所述目标文字，在所述目标视频中确定重点帧，所述重点帧为与所述目标文字关联的所述目标帧。

9.一种视频处理方法，其特征在于，包括：

获取视频以及预设信息；

对所述视频中的相邻两帧进行相似内容分析，得到所述相邻两帧的相似度；

若所述相邻两帧的相似度低于第三预设阈值，则在所述相邻两帧中确定重点帧；

在所述视频中确定剧情片段，所述剧情片段包括相邻两个剧情帧之间的所有帧，所述剧情帧包括所述视频中的第一帧、所有所述重点帧和最后一帧；

计算内容相似度，所述内容相似度为所述剧情片段与所述预设信息之间的相似度；

当所述内容相似度大于第四预设阈值时，将所述预设信息在所述剧情片段对应的所述剧情帧处展示。

10.如权利要求9所述的视频处理方法，其特征在于，所述若所述相邻两帧的相似度低于第三预设阈值，则在所述相邻两帧中确定重点帧，包括：

获取与所述视频对应的预设语句；

若所述相邻两帧的相似度低于第三预设阈值，则对所述相邻两帧中每个视频帧对应的音频内容进行内容识别处理，得到所述相邻两帧对应的识别文本；

在所述预设语句中确定与所述相邻两帧对应的识别文本相同的目标语句；

根据所述目标语句，在所述相邻两帧中确定重点帧。

11.如权利要求10所述的视频处理方法，其特征在于，所述根据所述目标语句，在所述相邻两帧中确定重点帧，包括：

当所述目标语句与预设符号相邻时，将所述目标语句对应的所述相邻两帧中的一视频帧作为重点帧。

12.如权利要求10所述的视频处理方法，其特征在于，所述根据所述目标语句，在所述相邻两帧中确定重点帧，包括：

当所述目标语句与预设符号不相邻时，对所述视频中的其他视频帧对应的音频内容进行内容识别处理，得到所述其他视频帧对应的识别文本，所述其他视频帧为所述视频中在所述相邻两帧之后的视频帧；

在所述预设语句中确定与所述其他视频帧对应的识别文本相同的其他语句；

当所述其他语句与所述预设符号相邻时，将所述其他语句对应的所述其他视频帧作为重点帧。

13.一种视频处理装置，其特征在于，包括：

第一获取单元，用于获取视频集合，所述视频集合中的多个视频包括一个目标视频和至少一个其他视频；

第一分析单元，用于将所述目标视频与所述其他视频进行相似内容分析，得到所述目标视频与所述其他视频中的相似片段，以及所述相似片段在所述目标视频中的位置；

数量确定单元，用于确定在每个所述位置的所述相似片段的数量；

片段确定单元，用于基于所述数量，在所有所述相似片段中确定目标片段；

第一目标确定单元，用于基于所述目标片段，在所述目标视频中确定重难帧，以便在所述目标视频的所述重点帧的位置处展示预设信息。

14.一种视频处理装置，其特征在于，包括：

第二获取单元，用于获取视频以及预设信息；

第二分析单元，用于对所述视频中的相邻两帧进行相似内容分析，得到所述相邻两帧的相似度；

第二目标确定单元，用于若所述相邻两帧的相似度低于第三预设阈值，则在所述相邻两帧中确定重点帧；

剧情确定单元，用于在所述视频中确定剧情片段，所述剧情片段包括相邻两个剧情帧之间的所有帧，所述剧情帧包括所述视频中的第一帧、所有所述重点帧和最后一帧；

相似度计算单元，用于计算内容相似度，所述内容相似度为所述剧情片段与所述预设信息之间的相似度；

展示单元，用于当所述内容相似度大于第四预设阈值时，将所述预设信息在所述剧情片段对应的所述剧情帧处展示。

15.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行如权利要求1～8任一项所述的视频处理方法中的步骤或如权利要求9～12任一项所述的视频处理方法中的步骤。