CN113705209A

CN113705209A - 一种副标题的生成方法、装置、电子设备和存储介质

Info

Publication number: CN113705209A
Application number: CN202110387022.8A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2021-11-26

Abstract

本申请涉及多媒体技术领域，尤其涉及一种副标题的生成方法、装置、电子设备和存储介质，该方法包括从目标视频包含的各个视频片段中，分别抽取相应的参考帧；基于获得的各个参考帧，分别针对相应的视频片段，从原始视频集合中筛选出与所述相应的视频片段的相似度达到相似度阈值的候选视频集合；分别针对所述各个视频片段各自对应的候选视频集合，进行标题聚类，获得所述各个视频片段各自对应的副标题，进一步生成目标视频的副标题，由于副标题可以充分展示相应视频片段的播放内容，因此，可以提高视频片段的浏览效率以及推荐的准确性，进而节约网络流量。

Description

一种副标题的生成方法、装置、电子设备和存储介质

技术领域

本申请涉及多媒体技术领域，尤其涉及一种副标题的生成方法、装置、电子设备和存储介质。

背景技术

随着移动网络和智能终端的普及，短视频制作成本越来越低，每天上传到各类新媒体平台的短视频可达几十万，甚至上百万，其中，大量的短视频是在原创视频的基础上通过二次创作形成的。视频集锦就是一种典型的二次创作形成的短视频，通过对一些热门的、精彩的、或具有相同主题的原始视频进行剪辑、再拼接形成的。

通常情况下，视频集锦的标题采用的是“概要式”标题，如“家常菜菜谱大全”、“各种搞笑的视频”“球星的精彩瞬间”等等；然而，“概要式”标题仅能反映视频集锦的类型，不能反映视频集锦包含的具体内容，这样，便导致了用户不能基于“概要式”标题迅速准确地获知视频集锦中具体包含哪些视频片段，例如，看到标题“家常菜菜谱大全”，用户仅能获知该视频集锦属于美食类，无法获知该视频集锦中包含哪些家常菜；再例如，看到标题“球星的精彩瞬间”，用户仅能获知该视频集锦属于体育类的，无法获知该视频集锦中包含的球星有哪些。

图1为人工编辑的“概要式”标题的视频集锦显示界面，如图1中的(1)所示，界面11展示了视频号主的信息，比如用户名、视频号主类别、视频号主等级等等，界面12为视频片段的显示界面，界面13展示该视频集锦的标题“家常菜菜谱大全#5种家常菜做法#简单易学#营养美味”以及转发量、评论数、播放时长等信息；从界面13展示的视频集锦的标题中，无法获知该视频集锦中具体包含哪些家常菜的视频片段，需要观看该视频集锦，且当用户在平台搜索“宫保鸡丁”时，即便该视频集锦中包含了“宫保鸡丁”做法的视频片段，但新媒体平台的搜索***也无法根据该视频集锦的标题获知对应的内容，导致该视频集锦无法推送给搜索用户。如图1中的(2)所示，界面21展示了视频号主的信息，界面22为视频片段的显示界面，界面23展示该视频集锦的标题“各类体育节目#有你的偶像吗#奥运#全民运动”以及转发量、评论数、播放时长等信息；从界面23展示的视频集锦的标题中，无法获知该视频集锦中包含哪些体育项目或者包含哪些体育明星。当用户在搜索“篮球”时，即便该视频集锦中包含了篮球比赛的精彩画面，但新媒体平台的搜索***也无法根据该集锦视频的标题获知对应的内容，导致该视频集锦无法推送给搜索用户。

由图1可知，很多视频号主为了操作简单，通常为视频集锦添加一个能反映各视频片段类型的“概要式”标题，信息量较少，用户需要拖拽、快进、加倍观看等一系列操作获知各视频片段的播放内容，并且由于“概要式”标题无法反应相应视频片段的播放内容，导致用户在搜索目标视频时，新媒体平台无法准确的对用户感兴趣的目标视频进行推送。

因此，用户在浏览视频集锦时，往往需要通过拖拽、快进、反复查找不同视频片段等方式，才能确定是否存在有兴趣观看的片段内容，这样，便在很大程度上降低了浏览效率，以及降低了视频推荐准确性，并且，也很容易造成网络流量的浪费。

发明内容

本申请实施例提供一种副标题的生成方法、装置、电子设备和存储介质，用于提高视频片段的浏览效率以及推荐的准确性，进而节约网络流量。

根据本申请实施例的第一方面，提供一种副标题生成方法，所述方法包括：

从目标视频包含的各个视频片段中，分别抽取相应的参考帧；

基于获得的各个参考帧，分别针对相应的视频片段，从原始视频集合中筛选出与所述相应的视频片段的相似度达到相似度阈值的候选视频集合；

分别针对所述各个视频片段各自对应的候选视频集合，进行标题聚类，获得所述各个视频片段各自对应的副标题；

基于所述各个视频片段各自对应的副标题，生成所述目标视频的副标题。

根据本申请实施例的第二方面，提供一种副标题生成方法，所述方法包括：

分别针对所述各个视频片段各自对应的候选视频集合，进行标题聚类，获得所述各个视频片段各自对应的副标题。

根据本申请实施例的第三方面，提供一种副标题生成装置，所述装置包括：

帧抽取模块，用于从目标视频包含的各个视频片段中，分别抽取相应的参考帧；

筛选模块，用于基于获得的各个参考帧，分别针对相应的视频片段，从原始视频集合中筛选出与所述相应的视频片段的相似度达到相似度阈值的候选视频集合；

生成模块，用于分别针对所述各个视频片段各自对应的候选视频集合，进行标题聚类，获得所述各个视频片段各自对应的副标题；以及基于所述各个视频片段各自对应的副标题，生成所述目标视频的副标题。

在一种可选的实施方式中，所述筛选模块，具体用于：

针对所述各个参考帧，分别执行以下操作：

将所述各个参考帧中的一个参考帧，分别与所述原始视频集合包含的各个原始视频进行帧匹配，分别确定所述各个原始视频各自对应的匹配帧数；

基于所述各个原始视频各自对应的匹配帧数，所述各个原始视频各自的总帧数，以及所述一个参考帧对应的视频片段的总帧数，分别确定所述各个原始视频各自与所述一个参考帧对应的视频片段的相似度；

从所述原始视频集合中筛选出，与所述一个参考帧对应的视频片段的相似度达到相似度阈值的候选视频集合。

在一种可选的实施方式中，所述筛选模块，具体用于：

基于预设的第一算子，提取所述一个参考帧的第一特征向量，以及分别提取所述各个原始视频包含的各个原始帧的第二特征向量；

基于获得的第一特征向量和各个第二特征向量，分别确定所述一个参考帧与所述各个原始视频包含的各个原始帧之间的第一帧匹配度；

分别针对所述各个原始视频，将所述第一帧匹配度符合第一预设条件的原始帧的帧数，确定为相应的原始视频对应的匹配帧数。

在一种可选的实施方式中，所述筛选模块，具体用于：

基于所述第一算子和第一设定步长，对所述一个参考帧进行频域变换，得到所述一个参考帧的第一频域值集合，以及分别对所述各个原始视频包含的各个原始帧进行频域变换，分别得到所述各个原始帧各自对应的第二频域值集合；

确定所述第一频域值集合对应的第一频域值均值，以及分别确定各个第二频域值集合各自对应的第二频域值均值；

基于所述第一频域值集合中各个频域值与所述第一频域值均值的比较结果，确定所述一个参考帧的第一特征向量，以及分别基于各个第二频域值集合中各个频域值与相应的第二频域值均值的比较结果，分别确定所述各个原始帧各自对应的第二特征向量。

在一种可选的实施方式中，所述筛选模块，还用于：

基于预设的第二算子，提取所述一个参考帧的第三特征向量，以及分别提取所述各个原始视频包含的各个原始帧的第四特征向量，所述第二算子小于所述第一算子；

基于获得的第三特征向量和各个第四特征向量，分别确定所述一个参考帧与所述各个原始视频包含的各个原始帧之间的第二帧匹配度；

分别在所述各个原始视频中，删除所述第二帧匹配度不符合第二预设条件的原始帧。

在一种可选的实施方式中，所述筛选模块，具体用于：

若所述各个原始视频中的一个原始视频的总帧数小于所述一个参考帧对应的视频片段的总帧数，则所述一个原始视频与所述一个参考帧对应的视频片段的相似度，与所述一个原始视频对应的匹配帧数呈正相关，与所述一个原始视频的总帧数呈负相关；

若所述各个原始视频中的一个原始视频的总帧数不小于所述一个参考帧对应的视频片段的总帧数，则所述一个原始视频与所述一个参考帧对应的视频片段的相似度，与所述一个原始视频对应的匹配帧数呈正相关，与所述一个参考帧对应的视频片段的总帧数呈负相关。

在一种可选的实施方式中，所述生成模块，具体用于：

针对所述各个视频片段，分别执行以下操作：

针对所述各个视频片段中的一个视频片段，获取对应的候选视频集合中各个候选视频的标题；

分别对获得的各个标题进行分词处理，获得所述各个标题各自对应的分词向量集合；

分别将获得的所述各个分词向量集合的词向量均值，作为相应的候选视频的标题向量；

对所述一个视频片段对应的候选视频集合中各个候选视频的标题向量进行标题聚类，获得所述一个视频片段对应的副标题。

在一种可选的实施方式中，所述生成模块，具体用于：

对所述各个候选视频的标题向量进行标题聚类，获得至少一个候选标题类别；

基于所述至少一个候选标题类别中各个候选标题类别各自关联的标题向量数目，从所述至少一个候选标题类别中确定目标标题类别；

基于所述目标标题类别关联的各个标题向量对应的候选视频的播放量，以及所述各个标题向量各自与所述目标视频的标题向量的相似度，确定所述一个视频片段对应的副标题。

在一种可选的实施方式中，所述帧抽取模块，具体用于：

按照设定的目标抽帧间隔，分别从所述目标视频包含的各个视频片段中抽取相应的参考帧，其中，所述目标抽帧间隔是根据所述目标视频包含的各个视频片段的播放时长设定的；或者，

基于所述目标视频的目标播放时长，以及预设的播放时长和视频片段数目之间的映射关系，确定所述目标播放时长对应的目标视频片段数目；基于所述目标视频的目标播放时长以及对应的目标视频片段数目，确定目标抽帧间隔，并基于所述目标抽帧间隔，分别从所述目标视频包含的各个视频片段中抽取相应的参考帧，其中，所述目标抽帧间隔与所述目标播放时长呈正相关，与所述目标播放时长对应的目标视频片段数目呈负相关。

根据本申请实施例的第四方面，一种副标题生成装置，所述装置包括：

生成模块，用于分别针对所述各个视频片段各自对应的候选视频集合，进行标题聚类，获得所述各个视频片段各自对应的副标题。

根据本申请实施例的第五方面，提供一种电子设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器实现本申请实施例中副标题生成方法。

根据本申请实施例的第六方面，提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现本申请实施例中副标题生成方法。

本申请实施例中，从目标视频包含的各个视频片段中分别抽取相应的参考帧，再基于获得的各个参考帧，分别针对相应的视频片段，从原始视频集合中筛选出与相应的视频片段的相似度达到相似度阈值的候选视频集合，以及分别针对各个视频片段各自对应的候选视频集合，进行标题聚类，获得各个视频片段各自对应的副标题，并根据各个视频片段的副标题生成目标视频的副标题。这样，可以针对目标视频包含的各个视频片段的视频内容，自动生成相应视频片段的副标题，进一步生成目标视频的副标题，由于目标视频的副标题可以充分展示该目标视频包含的各个视频片段的播放内容，因此，在用户搜索目标视频时，基于副标题中包含的搜索词进行用户感兴趣的视频片段的精确推荐，提升了视频推荐的准确性，并且向终端推送目标视频后，用户无需执行拖拽、快进、加倍观看等一系列操作，便可以参考目标视频的副标题，精准点击有意向观看的目标视频，从而有效提升了目标视频的浏览效率，进一步地，也节约网络流量的消耗。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为相关技术中视频集锦的界面图；

图2为本申请实施例提供的实施环境示意图；

图3a为本申请实施例提供的副标题生成方法流程图；

图3b为本申请实施例提供的确定视频片段的候选视频集合的方法流程图；

图3c为本申请实施例提供的确定原始视频的匹配帧数的方法流程图；

图3d为本申请实施例提供的另一确定原始视频的匹配帧数的方法流程图；

图3e为本申请实施例提供的确定视频片段副标题的方法流程图；

图3f为本申请实施例提供的确定视频片段副标题的详细方法流程图；

图4a为本申请实施例提供的目标视频的界面图；

图4b为本申请实施例提供的按设定的目标抽帧间隔抽取的参考帧的界面图；

图4c为本申请实施例提供的按确定的目标抽帧间隔抽取的参考帧的界面图；

图4d为本申请实施例提供的帧匹配示意图；

图4e为本申请实施例提供的视频片段对应的候选视频集合的示意图；

图4f为本申请实施例提供的显示视频片段的副标题的界面图；

图5为本申请实施例提供的Word2vec模型原理图；

图6a为本申请实施例提供的显示目标视频的副标题界面图；

图6b为本申请实施例提供的完整的副标题显示过程示意图；

图7a为本申请实施例提供的目标视频的副标题生成装置的功能结构图；

图7b为本申请实施例提供的视频片段的副标题生成装置的功能结构图；

图8为本申请实施例提供的电子设备的结构图；

图9为本申请实施例提供的生成装置的硬件结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

需要说明的是，本申请的文件中涉及的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的内容以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

以下，对本公开实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

(1)本申请实施例中，术语“终端”可以包含智能手机，平板电脑，穿戴设备等。

(2)本申请实施例中，术语“视频集锦”是指通过对一些热门的、精彩的、或具有相同主题的原始视频进行剪辑、再拼接等二次创造形成的短视频，包含在各种新媒体平台上播放的、适合在移动状态和短时休闲状态下观看的、高频推送的视频片段，播放时长几秒到几分钟不等。

视频片段的主题(类型)多种多样，包括但不限于技能分享、幽默搞怪、时尚潮流、社会热点、街头采访、公益教育、广告创意、商业定制。同一视频集锦包含的各个视频片段的主题相同。

(3)本申请实施例中，术语“图像感知算法”是一类算法的总称，包括平均值哈希算法(aHash)、感知哈希算法(pHash)、差异值哈希算法(dHash)。可针对每张图片生成一个"指纹"(fingerprint)字符串，然后比较不同图片之间的指纹相似性。

(4)本申请实施例中，术语“Word2vec”为Word to Vector的简称，Word2vec模型是一群用来产生词向量的相关模型，由Mikolov等人提出，这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在Word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，Word2vec模型可将每个词映射为一个词向量，用来表示词对词之间的关系。

(5)本申请实施例中，术语“聚类算法”是指研究(样品或指标)分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法。

本申请实施例涉及人工智能(Artificial Intelligence,AI)和机器学习技术，基于人工智能中的语音处理技术(Speech Technology)和机器学习(Machine Learning,ML)而设计。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、语音处理技术、以及机器学习/深度学习等几大方向。

下面对本申请实施例的设计思想进行简要介绍：

本申请的实施例中，从目标视频包含的各个视频片段中分别抽取相应的参考帧，再基于获得的各个参考帧，分别针对相应的视频片段，从原始视频集合中筛选出与相应的视频片段的相似度达到相似度阈值的候选视频集合，以及分别针对各个视频片段各自对应的候选视频集合，进行标题聚类，获得各个视频片段各自对应的副标题。由于副标题可以充分展示相应视频片段的播放内容，因此，在用户搜索目标视频时，新媒体平台的服务器基于副标题中包含的搜索词进行用户感兴趣的视频片段的精确推荐，提升了视频推荐的准确性，并且向终端推送目标视频后，用户无需执行拖拽、快进、加倍观看等一系列操作，便可以参考各个副标题，精准点击有意向观看的视频片段，从而有效提升了视频片段的浏览效率，进一步地，也节约网络流量的消耗。

需要说明的是，本申请实施例中的目标视频为视频集锦，包含一个或多个视频片段。

以下结合说明书附图对本申请的实施例进行说明，应当理解，此处所描述的实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

图2为本申请实施例提供的实施环境示意图；参见图2所示，该实施环境至少包括：终端201和服务器202。

终端201可以是智能手机、平板电脑、笔记本电脑、台式计算机等设备，但并不局限于此。可选地，终端201以及服务器202通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。用户通过终端201向新媒体平台服务器202发送视频搜索请求，搜索请求中携带用户感兴趣的目标视频的标识，各新媒体平台的服务器202接收到搜索请求后，基于原始视频集合进行处理后，将目标视频返回给终端201，由终端201展示给用户，展示内容包括目标视频包含的各视频片段的副标题。

终端201泛指多个终端中的一个，本申请实施例仅以终端201来举例说明。本领域技术人员可以知晓，上述终端的数量均可以更多或更少。比如上述终端仅为几个，或者上述终端为几十个或几百个，或者更多数量，本申请实施例对终端的数量和类型均不加以限定。

服务器202是独立的物理服务器，或者，多个物理服务器构成的服务器集群或者分布式***，或者，提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器等。

参见图3a所示，本申请实施例中，副标题生成的具体流程如下：

步骤S301，服务器从目标视频包含的各个视频片段中，分别抽取相应的参考帧。

具体实施中，目标视频包含的各个视频片段的播放时长不低于设定时长且相对平均，相应的，在执行步骤S301时，可以采用但不限于以下两种方式：

方式1：按照设定的目标抽帧间隔，分别从目标视频包含的各个视频片段中抽取相应的参考帧，其中，目标抽帧间隔是根据目标视频包含的各个视频片段的播放时长设定的。

例如，目标视频的界面如图4a所示，目标视频的标题为“各种搞笑集锦，愿你开心！#搞笑视频#搞笑集锦#沙雕视频#幽默风趣”，目标播放时长为01:58秒，包含视频片段1、2、3。其中，视频片段1的播放时长为00:37、秒视频片段2的播放时长为00:40秒、视频片段3的播放时长为00:41秒，各视频片段的播放时长占目标视频的目标播放时长的比例相对平均，则根据实际经验设定目标抽帧间隔为00:37秒，以保证从每个视频片段都能抽取到相应的参考帧。基于设定的目标抽帧间隔，分别从目标视频包含的视频片段1、2、3中抽取相应的参考帧。

其中，从目标视频抽取参考帧时，以目标视频的播放时间00:00秒为起始，按照目标抽帧间隔00:37秒，从视频片段1中抽取的参考帧1，抽取的结果如图4b中的(1)所示，从视频片段2中抽取参考帧2，抽取的结果如图4b中的(2)所示，从视频片段3中抽取参考帧3，抽取的结果如图4b中的(3)所示。

需要说明的是，根据目标视频包含的各个视频片段的播放时长设定目标抽帧间隔时，可根据实际情况进行设定，目标抽帧间隔可以为各个视频片段的播放时长中的最小值、最大值、中位数、平均值等，以保证按照设定的目标抽帧间隔抽帧时，覆盖较多的视频片段。本申请的上述实施例中，目标抽帧间隔为视频片段1、2、3播放时长中的最小值。

方式2：基于目标视频的目标播放时长，以及预设的播放时长和视频片段数目之间的映射关系，确定目标播放时长对应的目标视频片段数目；基于目标视频的目标播放时长以及对应的目标视频片段数目，确定目标抽帧间隔，并基于目标抽帧间隔，分别从目标视频包含的各个视频片段中抽取相应的参考帧，其中，目标抽帧间隔与目标播放时长呈正相关，与目标播放时长对应的目标视频片段数目呈负相关。

具体实施时，可预先对标有“集锦”标识的目标视频进行分析，统计不同播放时长的目标视频包含的视频片段的数目，获得一个播放时长区间内视频片段数目的均值，生成一个词典，该词典的格式可为《播放时长区间，视频片段数目》，其中，字典中视频片段数目可以取均值、中位数等，包含了预设的播放时长和视频片段数目之间的映射关系。可选的，目标抽帧间隔可采用以下公式：

目标抽帧间隔＝目标播放时长/目标视频片段数目

基于确定的目标抽帧间隔，分别从目标视频包含的各个视频片段中抽取相应的参考帧。

例如：播放时长区间[01:00，02:00]关联的视频集锦为第一视频集锦、第二视频集锦、第三视频集锦，分别包含的视频片段数目为2、3、4，则该播放时长区间[01:00，02:00]对应的视频片段数目的均值为(2+3+4)/3＝3。目标播放时长为01:58秒，查询生成的字典，获知目标播放时长属于[01:00，02:00]播放时长区间，目标视频对应的视频片段的数目为3段，目标抽帧间隔为

秒，基于确定目标抽帧间隔，分别从目标视频包含的视频片段1、2、3中抽取相应的参考帧。

其中，从目标视频抽取参考帧时，以目标视频的播放时间00:00秒为起始，按照目标抽帧间隔00:39秒，从视频片段1中抽取的参考帧1，抽取的结果如图4c中的(1)所示，从视频片段2中抽取参考帧2，抽取的结果如图4c中的(2)所示，从视频片段3中抽取参考帧3，抽取的结果如图4c中的(3)所示。

需要说明的是，本申请实施例中，可根据实际需要设定目标播放时长与目标视频片段数目的系数来确定目标抽帧间隔。

步骤S302，服务器基于获得的各个参考帧，分别针对相应的视频片段，从原始视频集合中筛选出与相应的视频片段的相似度达到相似度阈值的候选视频集合。

在步骤S302中，服务器的数据库中存储有各类原始视频，数量丰富，原始视频可作为目标视频中各视频片段的来源，为方便描述，下文统称为原始视频集合。由于目标视频包含的各个视频片段是通过对原始视频进行剪辑、再拼接形成的，从每个视频片段中抽取的相应的参考帧与原始视频中的视频帧的相似度越大，表明该视频片段来自于相应原始视频的概率越大，因此，针对目标视频包含的各个视频片段，基于抽取的各个参考帧，从原始视频集合中筛选出与相应的视频片段的相似度达到相似度阈值的候选视频集合。

具体实施中，在执行步骤S302时，针对各个参考帧，需要分别执行筛选出候选视频集合的操作，下面仅以各个参考帧中的任意一个参考帧(以下称为参考帧i)为例进行说明，参见图3b：

步骤S3021，将各个参考帧中的参考帧i，分别与原始视频集合包含的各个原始视频进行帧匹配，分别确定各个原始视频各自对应的匹配帧数。

例如，针对从目标视频包含的视频片段1中抽取的参考帧1，将其与原始视频集合包含的第一个原始视频、第二个原始视频、…第Z个原始视频分别进行帧匹配，匹配结果如图4d所示，其中，参考帧1与第一个原始视频的匹配帧数为X1帧，与第二个原始视频的匹配帧数为Y1帧，…与第Z个原始视频的匹配帧数为Z1帧。

需要说明的是，上面仅以参考帧i为参考帧1为例，对于其他的参考帧，均采用相同方式确定与原始视频的匹配帧数，在此不再赘述。

在一种可选的实施方式中，在执行步骤S3021时，可采用感知哈希(pHash)算法进行帧匹配。

pHash算法是图像感知算法中的一种，可对每张图片生成一个“指纹”字符串，然后将不同图片的“指纹”进行比较，比较结果越接近，两图片越相似。该算法可用于实现浏览器中以图搜图的功能。与pHash算法类似的图像感知算法还有均值哈希算法(aHash)、差异值哈希算法(dHash)，三种算法的区别如表1所示。

表1、pHash、aHash、dHash三种算法的区别

根据表1可知，pHash算法进行帧匹配的精度最高。

其中，pHash算法的原理如下：

缩小图片尺寸，去除图片的细节，保留图片的结构、明暗等基本信息，摒弃不同尺寸、横纵像素比例引起的图片差异。其中，缩小后的尺寸可根据实际需要进行设置，比如缩小为8*8(像素)、16*16(像素)、32*32(像素)等。本申请实施例中将一个参考帧和一个原始帧缩小为32*32(像素)。

对图片进行灰度化处理，简化图片的色彩。

基于预设的M*M大小的算子，对缩小后的图片进行离散余弦变换(DiscreteFourier Transform，DCT)。本申请的实施例中，M小于32，比如M等于8或16。其中，DCT是一种特殊的傅里叶变换，将图片从像素域变换为频域，并且算子矩阵从左上角到右下角代表越来越高的频域系数，为保留左上角的低频区域，算子矩阵中除左上角的频域系数外，其他系数均为0或与0的差值小于设定阈值。

分别计算DCT变换后各图片各自的DCT均值。针对各个图片，分别执行：从图片的左上角开始，基于预设的算子，以设定步长进行滑动，每滑动一次，得到一个DCT值，基于各个DCT值，确定该图片DCT变换后的DCT均值，DCT变换公式如下：

一维DCT变换：

其中，f(i)表示需要变换的图片，i表示DCT变换的次数，N为图片的像素点数，c(u)为DCT变换的补偿系数，u表示广义频率变量，u＝1,2,3,…N-1，F(u)是DCT变换后的系数。

针对二维的图片，在一维DCT变换基础上，进行二维DCT变换：

其中，v表示广义频率变量，u＝1,2,3,…N-1，在本申请的实施例中，广义频率变量u、v可表示二维图片像素阵列的横纵坐标，c(u)、c(v)分别为DCT变换的横纵像素补偿系数。

将公式3进行转换，得到：

由公式5可知，二维DCT变换是对称的，因此可通过反DCT变换还原图片。

针对各个图片，将每次DCT变换后的DCT值与相应图片的DCT均值进行比较，若DCT值大于等于DCT均值，则记为1，否则记为0，从而得到各个图片各自对应的二进制数组，也称为特征向量。

基于各个图片的特征向量，进行图像匹配。在本申请的实施例中，可基于两图片间的汉明距离确定两图片的匹配度。其中，汉明距离越小，表明两图片的匹配度越高。

需要说明的是，在不影响本申请实质内容的基础上，本申请实施例对帧匹配的算法不做限制性要求，除采用图像感知算法外，比如pHash算法、aHash算法、dHash算法，还可采用图像分类、物体识别技术中基于局部特征的匹配算法，比如尺度不变特征转换(Scale-invariant feature transform，SIFT)算法、加速健壮特征(Speeded-Up RobustFeatures，SURF)算法、词袋(Bag of Words，BOW)算法等。

基于上述原理，针对抽取的各个参考帧，可分别确定原始视频集合中各个原始视频各自对应的与相应的参考帧的匹配帧数。下面以参考帧i与原始视频j为例，描述执行步骤S3021时确定原始视频j对应的匹配帧数的过程，可以采用但不限于以下步骤，参见图3c：

步骤S30211，基于预设的第一算子，提取参考帧i的第一特征向量，以及提取原始视频j包含的各个原始帧的第二特征向量。

在执行步骤S30211时，首先对参考帧i和原始视频j包含的各个原始帧进行预处理，包括缩小图片尺寸、灰度化等操作。其中，本申请实施例缩小后图片的尺寸为32*32(像素)。设定第一算子的大小为16*16，基于第一算子对32*32(像素)的参考帧i进行DCT变换，提取参考帧i的第一特征向量，以及分别对32*32(像素)的各个原始帧进行DCT变换，提取各个原始帧的第二特征向量。由pHash算法原理可知，第一特征向量和各个第二特征向量为二进行数组。

具体实施时，首先，基于第一算子和第一设定步长，对参考帧i进行频域变换，得到参考帧i的第一频域值集合，以及对原始视频j包含的各个原始帧进行频域变换，分别得到各个原始帧各自对应的第二频域值集合；然后，确定第一频域值集合对应的第一频域值均值，以及分别确定各个第二频域值集合各自对应的第二频域值均值；最后，基于第一频域值集合中各个频域值与第一频域值均值的比较结果，确定参考帧i的第一特征向量，以及基于第二频域值集合中各个频域值与相应的第二频域值均值的比较结果，分别确定原始视频j包含的各个原始帧各自对应的第二特征向量。

需要说明的是，基于第一频域值集合，还可确定第一频域值集合的中位数，基于第一频域值集合中各个频域值与第一频域值中位数的比较结果，确定参考帧i的第一特征向量。同理，还可确定第二特征向量。

步骤S30212，基于获得的第一特征向量和各个第二特征向量，确定参考帧i与原始视频j包含的各个原始帧之间的第一帧匹配度。

在执行步骤S30212时，基于获得的第一特征向量和各个第二特征向量进行图像匹配，分别计算第一特征向量与各个第二特征向量的第一汉明距离，基于各个第一汉明距离，确定参考帧i与原始视频j包含的各个原始帧之间的第一帧匹配度。其中，第一汉明距离越小，表示参考帧i与原始帧之间的第一匹配度越高。

步骤S30213，针对原始视频j，将第一帧匹配度符合第一预设条件的原始帧的帧数，确定为原始视频j对应的匹配帧数。

在执行步骤S30213时，将参考帧i与原始视频j包含的各个原始帧之间的第一帧匹配度，分别与第一汉明阈值Q进行比较，若第一匹配度小于第一汉明阈值Q，表明符合第一预设条件，否则表明不符合第一预设条件，统计原始视频j包含的各个原始帧中，与参考帧i的第一匹配度符合第一预设条件的原始帧的帧数，将统计的帧数确定为原始视频j对应的匹配帧数。

在一种可选的实施方式中，为了提高参考帧i与原始视频j包含的各个原始帧的匹配度，可先采用粗颗粒算子(也称为第二算子)提取参考帧i以及各个原始帧的特征向量，基于提取的特征向量进行一次匹配，剔除部分原始帧；然后，采用细颗粒算子(也称为第一算子)提取参考帧i以及剩余各个原始帧的特征向量，基于提取的特征向量再次进行匹配，其中，粗颗粒算子小于细颗粒算子，从而提高参考帧i与各个原始帧的匹配度。因此，在执行步骤S30211之前，还可包括以下步骤，参见图3d：

步骤S30210_1，基于预设的第二算子，提取参考帧i的第三特征向量，以及提取原始视频j包含的各个原始帧的第四特征向量，第二算子小于第一算子。

在执行步骤S30210_1时，首先对参考帧i和原始视频j包含的各个原始帧进行预处理，具体描述可参见S 30211。设定第二算子的大小为8*8，小于第一算子16*16，基于第二算子对缩小后的参考帧i进行DCT变换，提取参考帧i的第三特征向量，以及分别对缩小后的各个原始帧进行DCT变换，提取各个原始帧的第四特征向量。

具体实施时，首先，基于第二算子和第二设定步长，对参考帧i进行频域变换，得到参考帧i的第三频域值集合，以及对原始视频j包含的各个原始帧进行频域变换，分别得到各个原始帧各自对应的第四频域值集合；然后，确定第三频域值集合对应的第三频域值均值，以及分别确定各个第四频域值集合各自对应的第四频域值均值；最后，基于第三频域值集合中各个频域值与第三频域值均值的比较结果，确定参考帧i的第三特征向量，以及基于第四频域值集合中各个频域值与相应的第四频域值均值的比较结果，分别确定原始视频j包含的各个原始帧各自对应的第四特征向量。

步骤S30210_2，基于获得的第三特征向量和各个第四特征向量，分别确定参考帧i与原始视频j包含的各个原始帧之间的第二帧匹配度。

在执行步骤S30210_2时，基于获得的第三特征向量和各个第四特征向量进行图像匹配，分别计算第三特征向量与各个第四特征向量的第二汉明距离，基于各个第二汉明距离，确定参考帧i与原始视频j包含的各个原始帧之间的第二帧匹配度。

步骤S30210_3，在原始视频j中，删除第二帧匹配度不符合第二预设条件的原始帧。

在执行步骤S30210_3时，将参考帧i与原始视频j包含的各个原始帧之间的第二帧匹配度，分别与第二汉明阈值Q’进行比较，若第二匹配度小于第二汉明阈值Q’，表明符合第二预设条件，否则表明不符合第二预设条件，统计原始视频j包含的各个原始帧中，与参考帧i的第二匹配度符合第二预设条件的原始帧的帧数，将统计的帧数确定为原始视频j的匹配帧数。其中，第二汉明阈值Q’大于第一汉明阈值Q，基于第二帧匹配度，可以粗略筛选出部分原始帧。进一步地，基于筛选出的原始帧，执行步骤S30211-S30213，可确定原始视频j中与参考帧i匹配度较高的原始帧，获得原始视频j对应的精确的匹配帧数。

基于上述方法，可确定出各个原始视频对应的匹配帧数。

需要说明的是，执行步骤S 302111-S302113后，已确定参考帧i与各个原始帧的匹配度满足使用需求，也可不执行步骤S 30210_1-S30210_3。

需要说明的是，本申请实施例是以汉名距离衡量帧匹配度，还可以欧氏距离来衡量帧匹配度。在不同的场景中，若以使用距离以外的其他参数来衡量帧匹配度，可能参数值值越大，表明帧匹配度越高，因此，在不同的场景下，第一预设条件可以是参数值大于设定阈值，也可以是参数值小于设定阈值。第二预设条件同理，在此不再赘述。

步骤S3022，基于各个原始视频各自对应的匹配帧数，各个原始视频各自的总帧数，以及参考帧i对应的视频片段的总帧数，分别确定各个原始视频各自与参考帧i对应的视频片段的相似度。

具体实施中，在执行步骤S3022时，以各个原始视频中的任意一个原始视频(以下称为原始视频j，j＝1，2，…Z)为例进行说明：若原始视频j的总帧数小于参考帧i对应的视频片段的总帧数，则原始视频j与参考帧i对应的视频片段的相似度，与原始视频j对应的匹配帧数呈正相关，与原始视频j的总帧数呈负相关；若原始视频j的总帧数不小于参考帧i对应的视频片段的总帧数，则原始视频j与参考帧i对应的视频片段的相似度，与原始视频j对应的匹配帧数呈正相关，与参考帧i对应的视频片段的总帧数呈负相关；可选的，可以采用以下公式：

相似度＝匹配帧数/min(视频片段的总帧数，相应的原始视频的总帧数)

由于在创作目标视频时，原始视频中的一个原始帧可进行多次剪辑、拼接、涂改等操作，因此，一个视频片段的总帧数可能会大于一个原始视频的总帧数，那么，在确定相似度时，需要参考一个视频片段的总帧数和一个原始视频的总帧数中的最小值。

例如，第一个原始视频、第二个原始视频、…第Z个原始视频的总帧数分别为sum1、sum2、…sum3，参考帧1对应的视频片段1的总帧数为SUM1，其中，若sum1小于SUM1，第一个原始视频与视频片段1的相似度为P1＝X1/sum1，若sum2大于SUM1，第二个原始视频与视频片段1的相似度为P2＝Y1/SUM1，若sum3等于SUM1，第Z个原始视频与视频片段1的相似度为P3＝Z1/SUM1；同理，可确定视频片段2与第一个原始视频、第二个原始视频，…第Z个原始视频的相似度分别为P4＝X2/SUM2、P5＝Y2/SUM2、P6＝Z2/sum2；视频片段3与第一个原始视频、第二个原始视频，…第Z个原始视频的相似度分别为P7＝X3/sum3、P8＝Y3/SUM2、P9＝Z3/sum3。

步骤S3023，从原始视频集合中筛选出，与参考帧i对应的视频片段的相似度达到相似度阈值的候选视频集合。

具体实施时，设定相似度阈值为P，当原始视频集合中的各个原始视频各自与参考帧i对应的视频片段的相似度大于P时，表明参考帧i对应的视频片段来源于相应的原始视频，将相应的原始视频作为参考帧i对应的视频片段的候选视频，其中一个视频片段至少对应一个候选视频，从而原始视频集合中筛选出参考帧i对应的视频片段的候选视频集合。

例如，P1>P，则第一个原始视频为视频片段1的一个候选视频；P5>P，则第二个原始视频为视频片段2对应的一个候选视频；P9>P，则第三个原始视频为视频片段2对应的一个候选视频。

以参考帧i为参考帧1为例，参考帧1对应的视频片段1，原始视频集合中有3个原始视频与视频片段1的相似度大于P，因此，视频片段1的候选视频集合中包含候选视频1、2、3，如图4e所示，每个候选视频由不同的视频号主发布，且每个候选视频都有反映相应候选视频内容的标题，在图4e中用粗虚线圈出。

步骤S303，服务器分别针对各个视频片段各自对应的候选视频集合，进行标题聚类，获得各个视频片段各自对应的副标题。

在步骤S303中，各个视频片段来源于各自对应的候选视频集合中的候选视频，每个候选视频有各自的标题，由于候选视频的标题可以反映相应候选视频的内容，那么，基于候选视频集合中各个候选视频的标题，可以生成相应视频片段的副标题，从而用户基于副标题获知相应视频片段的内容，以及新媒体平台基于副标题进行用户感兴趣的视频推荐。

具体实施中，在执行步骤S303时，针对参考帧i，需要执行确定相应视频片段的副标题的操作，下面以各个视频片段中的任意一个视频片段(以下简称视频片段i，视频片段i为参考帧i对应的视频片段)为例进行说明，参见图3e：

步骤S3031，针对视频片段i，获取对应的候选视频集合中各个候选视频的标题。

在步骤S3031中，服务器的数据库中预先存储有各个原始视频的标题。基于视频片段i对应的候选视频集合中各个候选视频的标识，比如候选视频ID号，从数据库中获取相应候选视频的标题。每个候选视频的标题反映相应候选视频的内容，如图4e所示。

以视频片段i为参考帧1对应的视频片段1为例，视频片段1的候选视频集合中候选视频1、2、3的标题如表2所示。

表2、视频片段1的候选视频的标题

候选视频	标题
		1	精彩的滑雪视频#单板滑雪
2	零基础滑雪入门视频#双板滑雪#简单易学
		3	滑雪视频赏析#双板滑雪#技术真的太牛了！！！

步骤S3032，分别对获得的各个标题进行分词处理，获得各个标题各自对应的分词向量集合。

在步骤S3032中，可采用已有的分词器对各个标题进行分词处理，还可采用分词算法对获得的各个标题进行分词处理，算法包括但不限于基于词典分词算法(比如正向最大匹配法、逆向最大匹配法、双向匹配分词法等等)、基于统计的机器学习算法(比如隐尔马夫模型(Hidden Markov Model，HMM)、条件随机场算法(Conditional Random FieldAlgorithm，CRF)等等)。其中，一个标题可分为多个分词，每个分词可映射为一个分词向量，因此，一个标题对应一个分词向量集合。

在一种可选的实施方式中，执行步骤S3032时，可采用Word2vec模型获取各个标题的分词向量集合。分词向量的重要意义在于将自然语言转换成了计算机能够理解的向量，相对于词袋模型、词频-逆文本指数(Term Frequency–Inverse Document Frequency，TF-IDF)模型，分词向量能抓住分词的上下文、语义，衡量词与词的相似性，在文本分类、情感分析等许多自然语言处理领域有重要作用。Word2vec模型介绍如下：

Word2vec模型有三层神经网络，分别为输入层、隐藏层、输出层，如图5所示，在输入层输入“滑雪”一词，该词用一个只含一个1、其他都是0的10000维向量表示；设置用200维特征表示一个分词，则隐藏层包含200个神经元，隐藏层没有激活函数，也就是神经元为线性神经元，隐藏层的权重矩阵大小为10000*300；输出层与输入层的维度相同，输出“精彩”、“视频”、“搞笑”、…“双板”共10000个词，采用Softmax函数进行线性回归，各个输出词的概率的和为1。

需要说明的是，上述实施例模型中的参数值仅是一种示例，可根据实际情况进行调整。

具体实施中，在步骤S3032时，基于上述Word2vec模型，将视频片段i的候选视频集合中各个标题的分词，输入至Word2vec模型中，获得各个分词的200维词向量，从而得到各个标题各自对应的分词向量集合。

步骤S3033，分别将获得的各个分词向量集合的词向量均值，作为相应的候选视频的标题向量。

在步骤S3033中，针对各个标题中的任意一个标题i对应的分词向量集合，按维度确定该分词向量集合中各个分词向量的均值，将确定的均值作为标题i的标题向量。

步骤S3034，对视频片段i对应的候选视频集合中各个候选视频的标题向量进行标题聚类，获得视频片段i对应的副标题。

在步骤S3034中，视频片段i对应的候选视频集合中各个候选视频均有各自的标题，由于不同用户在转发同一视频时可添加不同的标题，因此，对同一个候选视频的视频号主和标题可能不同。基于各个候选视频的标题向量按语义相似度进行标题聚类，从而得到视频片段i对应的副标题。

可选的，聚类算法可使用k均值(k-means)算法。k-means算法是典型的无监督聚类算法，目的是将输入数据聚类成k个簇(cluster)。k-means算法的训练过程如下：

首先，随机选取k个聚类质心(cluster centroids)，记为μ₁，μ₂，…，μ_k，每个类别有一个质心，质心代表属于同一个类别的样本的中心点，其中，μ_k∈Rⁿ，Rⁿ表示n维实数集。

然后，重复下面的过程直至收敛：

针对每一个样本s，确定样本s所属的类别，公式如下：

c^(s)＝argmin_t||x^(s)-μ_t||² 公式6

其中，c^(s)表示样本s与k个类别中距离最近的类别，取值为1,2,…,k，x^(s)表示样本s的特征向量，本申请实施例中指候选视频的标题向量，μ_t表示类别t的质心，argmin_t表示样本s距类别t的质心μ_t的最小距离。

针对每一个类别t，重新计算类别t的质心点，公式如下：

其中，r表示样本的总数。

以星团模型来解释k-means算法训练的过程，本质上就是要将所有的星星聚成k个星团，第一步：随机选取k个宇宙中的点(或者k个星星)作为k个星团的质心；第二步：分别计算每个星星到k个质心的距离，选取距离最近的质心对应的星团作为c^(s)，这样，经过第二步后每个星星都有了所属的星团；第三步：对于每一个星团，确定各自星团中的所有星星的坐标的平均值，重新得到质心μ_t；重复迭代第二步和第三步，直到质心不变或者相邻两次确定的质心的差值小于设定阈值，表明k-means算法达到收敛条件，结束迭代。其中，k值大小可根据实际情况进行设置。

具体实施中，在执行步骤S3034时，针对视频片段i对应的候选视频集合，执行以下操作，参见图3f：

步骤S30341，对各个候选视频的标题向量进行标题聚类，获得至少一个候选标题类别。

在执行步骤S30341时，将各个候选视频的标题向量输入至k-means模型，k-means模型对各个候选视频的标题向量进行聚类，得到k个簇，每个簇表示一个候选标题类别，其中k为大于等于1的整数。

步骤S30342，基于至少一个候选标题类别中各个候选标题类别各自关联的标题向量数目，从至少一个候选标题类别中确定目标标题类别。

在执行步骤S30342时，候选标题类别的数目为k，每个候选标题类别关联的各个标题向量对应的标题语义相似，且每个候选标题类别关联的标题向量的数目不同。具体实施时，可将关联标题向量数目最多的一个候选标题类别确定为视频片段i的目标标题类别。

步骤S30343，基于目标标题类别关联的各个标题向量对应的候选视频的播放量，以及各个标题向量各自与目标视频的标题向量的相似度，确定一个视频片段对应的副标题。

在执行步骤S30343时，从目标标题类别关联的各个标题向量对应的候选视频中，选择播放量大于设定播放阈值，且各个标题向量各自与目标视频的标题向量的相似度在设定相似度区间内的至少一个候选视频。可选的，本申请实施例中相似度区间为[0.4～0.6]，以使候选视频的标题相对于目标视频的标题可以提供更多的互补信息来反映视频片段i的内容。基于选择的至少一个候选视频的标题，分别确定各个选择的标题作为视频片段i的副标题的评分，将评分最高的候选视频的标题确定为视频片段i的副标题，评分公式如下：

其中，使用对数函数log()可对候选视频的播放量进行平滑，对候选视频的标题向量与目标视频的标题向量的余弦相似度取倒数，可表示相似越低，相应候选视频的标题的评分越高，也就越可以提供更多的互补信息来反映视频片段i的内容。

例如，以视频片段i为视频片段1为例，满足上述播放量和相似度条件的候选视频1、2的标题如下：

候选视频1：滑雪#单板滑雪#精彩视频

候选视频2：滑雪#双板滑雪#入门视频#零基础

其中，候选视频2与目标视频的评分最高，则视频片段1的副标题为“滑雪#双板滑雪#入门视频#零基础”，如图4f所示，在播放视频片段1时，将视频片段1的副标题显示在目标视频标题的下方，用粗实线圈出。可选的，若副标题较长，在播放视频片段1时，可流动显示视频片段1的副标题。基于视频片段1的副标题，用户获知视频片段1具体为学***台基于视频片段1的副标题，将视频片段1对应的目标视频推送给终端。

需要说明的是，在执行步骤S30343时，计算评分时，除了考虑候选视频的标题向量和目标视频的标题向量的余弦相似度外，还可以考虑候选视频的标题是否包含了未在目标视频中出现其他的实体信息，比如公开的各类人名、地名、机构名等名词。

步骤S304，服务器基于各个视频片段各自对应的副标题，生成目标视频的副标题。

在步骤S304中，可以根据各个视频片段的播放顺序，对各个视频片段各自的副标题进行排列，得到目标视频的副标题。目标视频的副标题的格式可以为{视频片段1对应的副标题-视频片段2对应的副标题-…}，在播放目标视频时，显示目标视频的副标题。

例如，目标视频包含的视频片段1、视频片段2、视频片段3，视频片段1的副标题为“滑雪#双板滑雪#入门视频#零基础”，视频片段2的副标题为“摔倒瞬间#滑稽”，视频片段3的副标题为“游泳#表情包”，则目标视频的副标题为“滑雪#双板滑雪#入门视频#零基础-摔倒瞬间#滑稽-游泳#表情包”，进行界面显示时，如图6a所示。需要说明的是，为与显示设备的界面尺寸匹配，当目标视频的副标题过长时，可流动显示目标视频的副标题。

在步骤S304中，还可以根据各个视频片段与视频片段的副标题的对应关系，以键值对的形式生成目标视频的副标题，目标视频的副标题的格式可以为{[视频片段1的标识：视频片段1对应的副标题]，[视频片段2的标识：视频片段2对应的副标题]，…}，在播放目标视频时，根据播放的视频片段的标识，显示对应的副标题。

例如，仍以上一例子为例，目标视频的副标题为{[1：滑雪#双板滑雪#入门视频#零基础]，[2：摔倒瞬间#滑稽]，[3：游泳#表情包]}，在显示目标视频时，参见图4f所示，当播放视频片段1时，显示视频片段1对应的副标题“滑雪#双板滑雪#入门视频#零基础”。

基于上述实施，图6b是本申请实施例提供的完整的副标题显示界面；以参考帧1对应的视频片段1为例，如图6b中的(1)所示的目标视频的界面，仅显示了目标视频的标题；如图6b中的(2)所示的目标视频包含的视频片段1的界面；从视频片段1中抽取参考帧1，基于抽取的参考帧1与原始视频集合中的各个原始视频的视频帧进行帧匹配，基于匹配帧数确定视频片段1的候选视频集合，对候选视频集合中的各个标题进行聚类，筛选出满足播放量和相似度条件的候选视频2，如图6b中的(3)所示，界面显示候选视频2的标题，在图6b中的(3)中用粗虚线圈出；基于候选视频2的标题，生成视频片段1的副标题，视频片段1的副标题可以反映视频片段1的详细内容，显示在目标视频的标题的下方，在图6b中的(4)中用粗实线圈出。在用户搜索“滑雪的搞笑视频”时，新媒体平台可基于副标题将视频片段1对应的目标视频推荐给该用户的终端，在终端接收到推荐的目标视频后，该用户不观看视频片段1的情况下，用户可基于视频片段1的副标题获知视频片段1为滑雪教程。

需要说明的是，图6b中的(4)仅是一种视频片段的副标题显示的一种示例，还可显示为图6a所示的界面。

基于相同的发明构思，本申请实施例提供一种副标题生成装置。如图7a所示，其为目标视频的副标题生成装置的结构示意图，可以包括：

帧抽取模块701，用于从目标视频包含的各个视频片段中，分别抽取相应的参考帧；

筛选模块702，用于基于获得的各个参考帧，分别针对相应的视频片段，从原始视频集合中筛选出与相应的视频片段的相似度达到相似度阈值的候选视频集合；

生成模块703，用于分别针对各个视频片段各自对应的候选视频集合，进行标题聚类，获得各个视频片段各自对应的副标题，以及基于各个视频片段各自对应的副标题，生成目标视频的副标题。

可选的，筛选模块702，具体用于：

针对各个参考帧，分别执行以下操作：

将各个参考帧中的一个参考帧，分别与原始视频集合包含的各个原始视频进行帧匹配，分别确定各个原始视频各自对应的匹配帧数；

基于各个原始视频各自对应的匹配帧数，各个原始视频各自的总帧数，以及一个参考帧对应的视频片段的总帧数，分别确定各个原始视频各自与一个参考帧对应的视频片段的相似度；

从原始视频集合中筛选出，与一个参考帧对应的视频片段的相似度达到相似度阈值的候选视频集合。

可选的，筛选模块702，具体用于：

基于预设的第一算子，提取一个参考帧的第一特征向量，以及分别提取各个原始视频包含的各个原始帧的第二特征向量；

基于获得的第一特征向量和各个第二特征向量，分别确定一个参考帧与各个原始视频包含的各个原始帧之间的第一帧匹配度；

分别针对各个原始视频，将第一帧匹配度符合第一预设条件的原始帧的帧数，确定为相应的原始视频对应的匹配帧数。

可选的，筛选模块702，具体用于：

基于第一算子和第一设定步长，对一个参考帧进行频域变换，得到一个参考帧的第一频域值集合，以及分别对各个原始视频包含的各个原始帧进行频域变换，分别得到各个原始帧各自对应的第二频域值集合；

确定第一频域值集合对应的第一频域值均值，以及分别确定各个第二频域值集合各自对应的第二频域值均值；

基于第一频域值集合中各个频域值与第一频域值均值的比较结果，确定一个参考帧的第一特征向量，以及分别基于各个第二频域值集合中各个频域值与相应的第二频域值均值的比较结果，分别确定各个原始帧各自对应的第二特征向量。

可选的，筛选模块702，还用于：

基于预设的第二算子，提取一个参考帧的第三特征向量，以及分别提取各个原始视频包含的各个原始帧的第四特征向量，第二算子小于第一算子；

基于获得的第三特征向量和各个第四特征向量，分别确定一个参考帧与各个原始视频包含的各个原始帧之间的第二帧匹配度；

分别在各个原始视频中，删除第二帧匹配度不符合第二预设条件的原始帧。

可选的，筛选模块702，具体用于：

若各个原始视频中的一个原始视频的总帧数小于一个参考帧对应的视频片段的总帧数，则一个原始视频与一个参考帧对应的视频片段的相似度，与一个原始视频对应的匹配帧数呈正相关，与一个原始视频的总帧数呈负相关；

若各个原始视频中的一个原始视频的总帧数不小于一个参考帧对应的视频片段的总帧数，则一个原始视频与一个参考帧对应的视频片段的相似度，与一个原始视频对应的匹配帧数呈正相关，与一个参考帧对应的视频片段的总帧数呈负相关。

可选的，生成模块703，具体用于：

针对各个视频片段，分别执行以下操作：

针对各个视频片段中的一个视频片段，获取对应的候选视频集合中各个候选视频的标题；

分别对获得的各个标题进行分词处理，获得各个标题各自对应的分词向量集合；

分别将获得的各个分词向量集合的词向量均值，作为相应的候选视频的标题向量；

对一个视频片段对应的候选视频集合中各个候选视频的标题向量进行标题聚类，获得一个视频片段对应的副标题。

可选的，生成模块703，具体用于：

对各个候选视频的标题向量进行标题聚类，获得至少一个候选标题类别；

基于至少一个候选标题类别中各个候选标题类别各自关联的标题向量数目，从至少一个候选标题类别中确定目标标题类别；

基于目标标题类别关联的各个标题向量对应的候选视频的播放量，以及各个标题向量各自与目标视频的标题向量的相似度，确定一个视频片段对应的副标题。

可选的，帧抽取模块701，具体用于：

按照设定的目标抽帧间隔，分别从目标视频包含的各个视频片段中抽取相应的参考帧，其中，目标抽帧间隔是根据目标视频包含的各个视频片段的播放时长设定的；或者，

基于目标视频的目标播放时长，以及预设的播放时长和视频片段数目之间的映射关系，确定目标播放时长对应的目标视频片段数目；基于目标视频的目标播放时长以及对应的目标视频片段数目，确定目标抽帧间隔，并基于目标抽帧间隔，分别从目标视频包含的各个视频片段中抽取相应的参考帧，其中，目标抽帧间隔与目标播放时长呈正相关，与目标播放时长对应的目标视频片段数目呈负相关。

为了描述的方便，以上各部分按照功能划分为各模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件或硬件中实现。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为***、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“***”。

关于上述实施例中的装置，其中各个模块的具体执行方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

基于相同的发明构思，本申请实施例提供一种副标题生成装置。如图7b所示，其为视频片段的副标题生成装置的结构示意图，可以包括：

帧抽取模块704，用于从目标视频包含的各个视频片段中，分别抽取相应的参考帧；

筛选模块705，用于基于获得的各个参考帧，分别针对相应的视频片段，从原始视频集合中筛选出与相应的视频片段的相似度达到相似度阈值的候选视频集合；

生成模块706，用于分别针对各个视频片段各自对应的候选视频集合，进行标题聚类，获得各个视频片段各自对应的副标题。

关于上述实施例中的装置，其中各个模块的具体执行方式参见图7a，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种电子设备800的框图，该电子设备包括：

处理器801；

用于存储处理器801可执行指令的存储器802；

其中，处理器801被配置为执行指令，以实现本申请实施例中的副标题生成方法，例如图3a至图3f中所示的步骤。

在介绍了本申请示例性实施方式的副标题的生成方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的生成装置。

在一些可能的实施方式中，根据本申请的生成装置可以至少包括至少一个处理单元、以及至少一个存储单元。其中，存储单元存储有程序代码，当程序代码被处理单元执行时，使得处理单元执行本申请实施例上述描述的副标题生成方法中的步骤。例如，处理单元可以执行如图3a至图3f中所示的步骤。

下面参照图9来描述根据本申请的这种实施方式的生成装置900。图9显示的生成装置仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图9所示，生成装置以通用计算设备的形式表现。生成装置的组件可以包括但不限于：上述至少一个处理单元901、上述至少一个存储单元902、连接不同***组件(包括存储单元902和处理单元901)的总线903。

总线903表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、***总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储单元902可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)921和/或高速缓存存储器922，还可以进一步包括只读存储器(ROM)923。

存储单元902还可以包括具有一组(至少一个)程序模块924的程序/实用工具925，这样的程序模块924包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

生成装置也可以与一个或多个外部设备904(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与生成装置交互的设备通信，和/或与使得该生成装置能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口905进行。并且，生成装置还可以通过网络适配器906与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器906通过总线903与用于生成装置的其它模块通信。应当理解，尽管图中未示出，可以结合生成装置使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

本申请实施例还提供一种计算机可存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述副标题生成方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种副标题生成方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述基于获得的各个参考帧，分别针对相应的视频片段，从原始视频集合中筛选出与所述相应的视频片段的相似度达到相似度阈值的候选视频集合的过程中，针对所述各个参考帧，分别执行以下操作：

3.如权利要求2所述的方法，其特征在于，将所述各个参考帧中的一个参考帧，分别与所述原始视频集合包含的各个原始视频进行帧匹配，分别确定所述各个原始视频各自对应的匹配帧数，包括：

4.如权利要求3所述的方法，其特征在于，基于预设的第一算子，提取所述一个参考帧的第一特征向量，以及分别提取所述各个原始视频包含的各个原始帧的第二特征向量，包括：

5.如权利要求3所述的方法，其特征在于，基于预设的第一算子，提取所述一个参考帧的第一特征向量，以及分别提取所述各个原始视频包含的各个原始帧的第二特征向量之前，还包括:

6.如权利要求2-5任一项所述的方法，其特征在于，基于所述各个原始视频各自对应的匹配帧数，所述各个原始视频各自的总帧数，以及所述一个参考帧对应的视频片段的总帧数，分别确定所述各个原始视频各自与所述一个参考帧对应的视频片段的相似度，包括：

7.如权利要求1-5任一项所述的方法，其特征在于，所述分别针对所述各个视频片段各自对应的候选视频集合，进行标题聚类，获得所述各个视频片段各自对应的副标题的过程中，针对所述各个视频片段，分别执行以下操作：

8.如权利要求7所述的方法，其特征在于，对所述一个视频片段对应的候选视频集合中各个候选视频的标题向量进行标题聚类，获得所述一个视频片段对应的副标题，包括：

9.如权利要求7所述的方法，其特征在于，从目标视频包含的各个视频片段中，分别抽取相应的参考帧包括：

10.一种副标题生成方法，其特征在于，所述方法包括：

11.一种副标题生成装置，其特征在于，所述装置包括：

12.一种副标题生成装置，其特征在于，所述装置包括：

13.一种电子设备，其特征在于，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，当所述计算机程序被所述处理器执行时，实现权利要求1～10中任一项所述的方法。

14.一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，其特征在于：所述计算机程序被处理器执行时，实现权利要求1～10中任一项所述的方法。