WO2022188563A1

WO2022188563A1 - 动态封面设置方法和***

Info

Publication number: WO2022188563A1
Application number: PCT/CN2022/072819
Authority: WO
Inventors: 时英选
Original assignee: 上海哔哩哔哩科技有限公司
Priority date: 2021-03-10
Filing date: 2022-01-19
Publication date: 2022-09-15
Also published as: CN115086709A

Abstract

本申请实施例提供了一种动态封面设置方法，所述方法包括：从视频文件中确定目标视频片段；及提取所述目标视频片段，并根据所述目标视频片段得到所述视频文件的动态封面图。本申请实施例包括以下优点：第一：由于为动态封面图，其动态显示效果可以使得可视化效果好，视觉上显得丰富多彩，提高视觉观赏体验和趣味性，吸引其他用户的注意力，提升视频文件的点击率。第二：由于目标视频片段来自视频文件本身，因此动态封面图和视频文件本身具有强关联性，从而可以优化用户浏览及选择视频时的体验感，避免用户因与视频内容不符的封面错误地点击并观看不符合用户预期的视频内容，以避免浪费数据流量。

Description

动态封面设置方法和***

本申请申明2021年03月10日递交的申请号为202110258999.X、名称为“动态封面设置方法和***”的中国专利申请的优先权，该中国专利申请的整体内容以参考的方式结合在本申请中。

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种动态封面设置方法、***、计算机设备及计算机可读存储介质。

背景技术

随着多媒体技术的发展，Bilibilli等网络平台逐渐发展出了UGC(User Generated Content，用户原创内容)形式的内容生产模式。UGC在于提倡每个用户将自己原创的内容(如，视频文件)通过互联网平台进行展示给其他用户。UGC使得人人都可以是内容生成者，从而可以快速生产海量视频以丰富人们的精神生活。但是，海量视频也同时导致每个用户的视频文件容易被淹没在这海量视频中。因此，用户在发布其视频文件时，通常会为其发布的视频文件设置一个视频封面，从而使得其他用户能够更直观地获知视频文件中的内容以提高点击量。

发明内容

本申请实施例的目的是提供一种动态封面设置方法、***、计算机设备及计算机可读存储介质，用于解决以下问题：发明人了解到的技术的封面体验不好、点击率低。

本申请实施例的一个方面提供了一种动态封面设置方法，所述方法包括从视频文件中确定目标视频片段；及提取所述目标视频片段，并根据所述目标视频片段得到所述视频文件的动态封面图。

可选的，所述从视频文件中确定目标视频片段，包括：获取所述视频文件的多个弹幕，每个弹幕关联所述视频文件的时间轴上的一个时间点；根据所述每个弹幕关联的时间轴上的时间点，获取所述时间轴上的弹幕密度分布；根据所述弹幕密度分布，筛选出所述视频文件中弹幕密度最高的一个或多个视频片段；及将所述一个或多个视频片段或携带弹幕的所述一个或多个视频片段确定为所述目标视频片段。

可选的，所述获取视频文件的多个弹幕，包括：获取所述视频文件的所有弹幕；及根据所述所有弹幕中的各个弹幕的弹幕内容，从所述所有弹幕中滤除多个无效弹幕以得到所述多个弹幕；其中，所述多个无效弹幕包括：弹幕内容与所述视频文件的视频内容无关的弹幕，和/或弹幕内容与所述视频文件的视频画面无关的弹幕。

可选的，从视频文件中确定目标视频片段，包括：将所述视频文件分为M个视频片段，M为大于1的正整数；对各个视频片段进行质量评分；及根据所述各个视频片段的质量评分，从所述M个视频片段中确定所述目标视频片段。

可选的，所述对各个视频片段进行质量评分，包括：根据所述各个视频片段的弹幕特征信息和/或所述各个视频片段中的各个帧的帧特征信息，对所述各个视频片段进行质量评分；其中，所述弹幕特征信息包括弹幕密度。

可选的，所述对各个视频片段进行质量评分，包括：提取第i个视频片段中各个帧的帧特征信息，1≤i≤M，i为正整数；及根据所述第i个视频片段中的各个帧的帧特征信息，对所述第i个视频片段进行质量评分。

可选的，所述根据所述第i个视频片段中的各个帧的帧特征信息，对所述第i个视频片段进行质量评分，包括：根据图片特征信息和所述各个帧的帧特征信息，对所述第i个视频片段进行质量评分；其中，所述图片特征信息为目标静态图片的特征信息，所述目标静态图片包括所述视频文件的静态封面图片。

可选的，所述根据所述图片特征信息和所述各个帧的帧特征信息，对所述第i个视频片段进行质量评分，包括：根据所述M个帧的时序顺序，将所述各个帧的帧特征信息依次输入到LSTM模型中以通过所述LSTM模型得到M个输出向量，所述M个输出向量与所述M个帧一一对应；对所述M个输出向量形成的向量矩阵进行卷积和池化操作，得到第一特征向量；根据所述图片特征信息，得到第二特征向量；将所述第一特征向量与所述第二特征向量拼接，得到拼接向量；对所述拼接向量进行线性回归操作，以得到对应所述第i个视频片段的质量评分。

本申请实施例的一个方面又提供了一种动态封面设置***，包括：确定模块，用于从视频文件中确定目标视频片段；及设置模块，用于提取所述目标视频片段，并根据所述目标视频片段得到所述视频文件的动态封面图。

本申请实施例的一个方面又提供了一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现以下步骤：

从视频文件中确定目标视频片段；及

提取所述目标视频片段，并根据所述目标视频片段得到所述视频文件的动态封面图。

本申请实施例的一个方面又提供了一种计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现以下步骤：

从视频文件中确定目标视频片段；及

本申请实施例提供的动态封面设置方法、***、设备及计算机可读存储介质，可以提取视频文件的关键或精彩片段(即目标视频片段)，并根据该目标视频片段得到动态封面图，从而有以下优点：

第一：由于为动态封面图，其动态显示效果可以使得可视化效果好，视觉上显得丰富多彩，提高视觉观赏体验和趣味性，吸引其他用户的注意力，提升视频文件的点击率。

第二：由于目标视频片段来自视频文件本身，因此动态封面图和视频文件本身具有强关联性，从而可以优化用户浏览及选择视频时的体验感，避免用户因与视频内容不符的封面错误地点击并观看不符合用户预期的视频内容，以避免浪费数据流量。

附图说明

图1示意性示出了根据本申请实施例的动态封面设置方法的应用环境图；

图2示意性示出了根据本申请实施例一的动态封面设置方法的流程图；

图3为图2中步骤S200的子步骤流程图；

图4为图3中步骤S300的另一子步骤流程图；

图5为实施弹幕筛选的示例图；

图6为图2中步骤S200的另一子步骤流程图；

图7为图6中步骤S602的子步骤流程图；

图8为图6中步骤S602的另一子步骤流程图；

图9为图7中步骤S702的另一子步骤流程图；

图10为图9中步骤S900的子步骤流程图；

图11为通过人工智能识别目标视频片段的示例图；

图12示意性示出了根据本申请实施例二的动态封面设置***的框图；及

图13示意性示出了根据本申请实施例三的适于实现动态封面设置方法的计算机设备的硬件架构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本申请实施例中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

本发明人了解到的技术中，视频封面会存在以下缺陷：

第一：都为静态显示，可视化效果差，视觉上显得单调和枯燥；

第二：视频封面和视频内容不符，该种情况常常出现在封面党、标题党发布的投稿；

上述缺陷浪费观看者时间和降低视频观看体验，可能使得部分视频内容点击率较低。

本申请提供了多个实施例解决上述缺陷，具体参照下文。

在本申请的描述中，需要理解的是，步骤前的数字标号并不标识执行步骤的前后顺序，仅用于方便描述本申请及区别每一步骤，因此不能理解为对本申请的限制。

以下为本申请的术语解释：

LSTM(Long Short-Term Memory，长短期记忆网络)，是递归神经网络(Recurrent Neural Networks)的一种，通过引入门(Gate)机制控制特征的流通和损失，学习长期依赖关系。

密度分布，也叫概率密度分布，概率指事件随机发生的机率。例如，对于均匀分布函数，密度分布等于一段区间(事件的取值范围)的概率除以该段区间的长度。

动态封面图，为包含多个帧的视频片段。

弹幕，是通过网络观看视频时弹出的并沿预定方向移动的字幕。弹幕在英文中还没有固定词汇，其通常称之为：comment、danmaku、barrage、bullet screen、bullet-screen comment等。弹幕允许观看视频者发表评论或感想，但与普通视频分享网站只在播放器下专用点评区显示不同，其会以滑动字幕的方式实时出现在视频画面上，保证所有观看者都能注意到。一些弹幕***利用脚本语言能提供特定的弹幕形式，如弹幕特定位置出现或消失，控制弹幕弹出速度，弹幕位置等。除此之外，在画面底部或顶部固定出现的弹幕也会作为没字幕视频的字幕使用。

例如，每个弹幕可以包括如下信息：

图1示意性示出了根据本申请实施例的环境应用示意图。如图1所示：

提供商网络2可以通过网络4连接多个移动终端6。提供商网络2可以提供内容服务。

内容服务可以包括诸如互联网协议视频流服务之类的内容流服务。内容流服务可以被配置为经由各种传输技术来分发内容。内容服务可以被配置为提供诸如视频，音频，文本数据，其组合等的内容。内容可以包括内容流(例如，视频流，音频流，信息流)，内容文件(例如，视频文件，音频文件，文本文件)和/或其他数据。

提供商网络2可以实现弹幕服务，该弹幕服务被配置为允许用户评论和/或共享与内容相关联的评论，即弹幕。弹幕以与内容一起呈现在同一屏幕上。例如，弹幕可以在内容上方的覆盖图中显示。弹幕在显示时可能会带有动画效果。例如，弹幕可以滚动(例如，从右到左，从左到右，从上到下，从下到上)，这种动画效果可以基于CSS3(cascading style sheets，层叠样式表)的transition属性实现的。

提供商网络2可以位于诸如单个场所之类的数据中心，或者分布在不同的地理位置(例如，在多个场所)中。提供商网络2可以经由一个或多个网络4提供服务。网络4包括各种网络设备，例如路由器，交换机，多路复用器，集线器，调制解调器，网桥，中继器，防火墙，代理设备和/或类似。网络4可以包括物理链路，例如同轴电缆链路，双绞线电缆链路，光纤链路，其组合等。网络4可以包括无线链路，诸如蜂窝链路，卫星链路，Wi-Fi链路等。

提供商网络2可以被配置为接收多个消息。所述多个消息可以包括与内容相关联的多个弹幕。

提供商网络2可以被配置为管理用于各种内容项的消息。用户可以浏览内容并访问不同的内容项以查看针对特定内容的评论，例如其他用户针对该特定内容发布的评论。来自与特定内容项目相关联的用户的评论可以被输出到观看该特定内容项目的其他用户。例如，访问内容项目(例如，视频剪辑)的所有用户可以查看与该内容项目相关联的评论。输入的评论内容可以实时或接近实时地输出。

提供商网络2可以被配置为处理多个消息，例如，消息存储、消息筛选、消息推送等各种处理操作。其中，消息存储用于将多个消息存储在诸如数据库的数据存储中。消息筛选可以包括拒绝或标记与筛选标准匹配的消息。其中，筛选标准可以指定术语和/或短语，例如亵渎，仇恨言论，不雅语言等。筛选标准可以指定字符，例如符号，字体等。筛选标准可以指定语言，计算机可读代码模式等。

提供商网络2可以执行自然语言处理，主题识别，模式识别，人工智能等，以自动确定消息的特征和/或对消息进行分组。作为示例，频繁出现的短语或模式可以被识别为主题。作为另一个示例，可以维护与内容相关联的主题的数据库。主题可以包括流派(例如，动作，戏剧，喜剧)，个性(例如，演员，女演员，导演)，语言等。可以基于客户端设备和/或发送消息的用户的特征对消息进行分组。可以存储人口统计学，兴趣，历史和/或类似物以供多个用户确定消息的潜在分组。在其他实施例中，提供商网络2还可以基于人工智能识别视频文件中的精彩片段、画面等。

提供商网络2可以由一个或多个计算节点实现。一个或多个计算节点可以包括虚拟化的计算实例。虚拟化的计算实例可以包括虚拟机，例如计算机***，操作***，服务器等的仿真。计算节点可以基于虚拟映像和/或定义用于仿真的特定软件(例如，操作***，专用应用程序，服务器)的其他数据，由计算节点加载虚拟机。随着对不同类型的处理服务的需求改变，可以在一个或多个计算节点上加载和/或终止不同的虚拟机。可以实现管理程序来管理同一计算节点上不同虚拟机的使用。

多个移动终端6可以被配置为访问提供商网络2的内容和服务。多个移动终端6可以包括任何类型的电子设备，诸如移动设备、平板设备、膝上型计算机、工作站、虚拟现实设备，游戏设备、机顶盒、数字流媒体设备、车辆终端、智能电视、机顶盒等。

多个移动终端6可以内容(视频等)输出(例如，显示、渲染、呈现)给用户。在其他实施例中，移动终端6还可以基于人工智能识别视频文件中的精彩片段等。

在示例性的实施例中，提供商网络2(或移动终端6)可以提取视频文件的精彩片段，并将该视频文件的精彩片段作为其动态封面图，以提高用户体验，增加视频文件的封面的有趣性，从而吸引其他用户的注意力，提升视频文件的点击率。

在示例性的实施例中，提供商网络2可以从海量视频文件中筛选出优质视频文件，提取该优质视频文件的精彩片段，并将该优质视频文件的精彩片段作为其动态封面图，优化用户浏览及选择视频时的体验感，提升优质视频文件的点击率。

以下将通过多个实施例介绍动态封面图设置方案。该方案可以通过计算机设备1300实施，计算机设备1300可以是提供商网络2或其计算节点，也可以是移动终端6。

实施例一

图2示意性示出了根据本申请实施例一的动态封面设置方法的流程图。

如图2所示，该动态封面设置方法可以包括步骤S200～S202，其中：

步骤S200，从视频文件中确定目标视频片段。

所述视频文件，可以是基于各种视频格式的视频稿件，例如：AVI(Audio Video Interleaved，音频视频交错)格式、H.264/AVC(Advanced Video Coding，高级视频编码)、H.265/HEVC(High Efficiency Video Coding，高效率视频编码)H.265格式等。

所述目标视频片段，可以为所述视频文件中的一个精彩视频片段。

在本实施例中，一个视频片段是否为精彩视频片段，可以通过海量观众的发言踊跃程度判断，通过人工智能(如训练好的神经网络模型)判断，或通过其他方式判断。

步骤S202，提取所述目标视频片段，并根据所述目标视频片段得到所述视频文件的动态封面图。

当确定所述目标视频片段，计算机设备1300可以对所述视频文件进行自动裁剪以得到所述目标视频片段，并将所述目标视频片段作为用于制作所述动态封面图的素材。

其一：可以将目标视频片段直接设置为所述动态封面图。

其二：可以将目标视频片段进行处理，将处理后的视频内容作为所述动态封面图。作为示例，所述处理可以添加视频渲染特效(如二维贴纸)、合成部分精彩的帧等。

其三：当目标视频片段包括不同时间片段的多个子视频片段时，则需要对所述多个子视频片段进行合成，或从所述多个子视频片段中挑选一个或多个子视频片段并对该挑选的一个或多子视频片段进行合成，或从所述多个子视频片段抽取多个关键帧并对所述多个关键帧进行合成，将合成后得到的视频片段作为所述动态封面图。

以上列举了几种得到所述动态封面图的方式，应理解，其并不用于限制本申请保护范围。

本申请实施例提供的动态封面图设置方法，可以提取视频文件的关键或精彩片段(即目标视频片段)，并根据该目标视频片段得到动态封面图，从而有以下优点：

以下提供实施步骤S200的几种方案：

方式一：

基于弹幕搜索所述视频文件中的精彩视频片段(即，所述目标视频片段)。

在示例性的实施例中，如图3所示，所述从视频文件中确定目标视频片段的步骤，可以包括步骤S300～S306，其中：步骤S300，获取所述视频文件的多个弹幕，每个弹幕关联所述视频文件的时间轴上的一个时间点；步骤S302，根据所述每个弹幕关联的时间轴上的时间点，获取所述时间轴上的弹幕密度分布；步骤S304，根据所述弹幕密度分布，筛选出所述视频文件中弹幕密度最高的一个或多个视频片段；及步骤S306，将所述一个或多个视频片段或携带弹幕的所述一个或多个视频片段确定为所述目标视频片段。所述时间轴可以通过进度条表示。本申请人经研究发现，集中发送弹幕的时间区间，一般对应相应视频文件的关键节点，这个关键节点一般对应为相应视频文件的精彩视频片段、关键视频片段或容易引起大量用户关注的视频片段。本实施例通过分析弹幕密度分布，可以准确地找到可以有效吸引关注的所述目标视频片段。另外，当将携带弹幕的视频片段作为所述目标视频片段时，可以进一步提供封面的信息丰富度和用户体验。

在示例性的实施例中，如图4所示，所述步骤S300可以包括步骤S400～S402，其中：步骤S400，获取所述视频文件的所有弹幕；步骤S402，根据所述所有弹幕中的各个弹幕的弹幕内容，从所述所有弹幕中滤除多个无效弹幕以得到所述多个弹幕；其中，所述多个无效弹幕包括：弹幕内容与所述视频文件的视频内容无关的弹幕，和/或弹幕内容与所述视频文件的视频画面无关的弹幕。本实施例可以提高基于弹幕密度分布筛选所述一个或多个视频片段的效率和准确性。

为方便理解，以下结合图5提供一个操作示例：

①获取视频文件A当下时刻的所有弹幕。

②根据各个弹幕的弹幕内容，执行弹幕过滤操作。

比如：恰饭时间代表广告时刻，111或者222代表着与up主(内容提供者)的弹幕互动等。

③分析在时间轴上的弹幕密度分布，根据弹幕密度分布选出弹幕集中最高的若干视频片段。

方式二：

基于质量评分搜索所述视频文件中的精彩视频片段(即，所述目标视频片段)。

在示例性的实施例中，如图6所示，步骤S200中的从视频文件中确定目标视频片段，可以包括步骤S600～S604，其中：步骤S600，将所述视频文件分为M个视频片段，M为大于1的正整数；步骤S602，对各个视频片段进行质量评分；及步骤S604，根据所述各个视频片段的质量评分，从所述M个视频片段中确定所述目标视频片段。其中，各个视频片段的质量评分通过多种方式实现，例如：

(1)非人工智能方式，如基于权重的评估方式：

以下以对视频片段A为例，仅示例性介绍几种对视频片段A进行质量评分的手段：

示例1：根据视频片段A关联的弹幕数量、弹幕形式、弹幕用户类型等评价维度，并为每个评价维度分配设置权重系数，通过加权计算得到视频片段A的质量评分。

例如：获取弹幕发送者的用户类型为高等级用户的数量，根据高等级用户的数量乘以预设高权重***。本示例在于，根据各个弹幕的弹幕id获取每个弹幕发送者是否为高等级用户，高等级用户在所有弹幕发送者的数量占比越高，则质量评分越高。

示例2：获取在视频片段A对应的时间区间的以下信息：进度条拖动事件(如，将进度条拖入到所述时间区间的拖入事件、将进度条从所述时间区间拖出的拖出事件)等；为拖入事件配置正权重系数，为拖出事件配置负权重系数，将拖入事件的数量和拖出事件的数据分别乘以各自权重系数，以得到视频片段A的质量评分。

(2)人工智能方式：

本发明人发现，弹幕的精彩程度或密度，通常与同一个时间区间的精彩视频内容高度相关，也可能与同一个时间区内的内容指令高度相关。因此，计算机设备1300可以在一定程度上根据弹幕或视频片段本身的质量，来确定所述目标视频片段。

在示例性的实施例中，如图7所示，步骤S602还可以通过如下步骤实现：步骤S700，根据所述各个视频片段的弹幕特征信息和/或所述各个视频片段中的各个帧的帧特征信息，对所述各个视频片段进行质量评分；其中，所述弹幕特征信息包括弹幕密度。当然，所述弹幕特征信息也可以包括弹幕内容特征等。在本实施例中，通过各个视频片段中的弹幕信息、各个帧的帧特征信息或二者结合，可以更加精确地搜索所述视频文件中的精彩视频片段(即，所述目标视频片段)。

在示例性的实施例中，为了能够精确地搜索所述视频文件中的精彩视频片段(即，所述目标视频片段)，如图8所示，步骤S602可以通过如下步骤实现：步骤S800，提取第i个视频片段中各个帧的帧特征信息，1≤i≤M，i为正整数；及步骤S802，根据所述第i个视频片段中的各个帧的帧特征信息，对所述第i个视频片段进行质量评分。作为示例，计算机设备1300执行如下操作：通过卷积神经网络等提取所述各个帧的帧特征信息，如特征向量；将各个帧的帧特征信息输入到训练好的质量评分模型中，由质量评估模型输出第i个视频片段的质量评分。所述质量评分模型可以是基于各种算法得到的模型，如基于LSTM算法等。

本发明人发现，up主上传视频文件时，通常会选择一个具有代表性的静态封面图片。因此，计算机设备1300可以在一定程度上参考静态封面图片，来确定所述目标视频片段。

在示例性的实施例中，如图9所示，步骤S702还可以通过如下步骤实现：步骤S900，根据图片特征信息和所述各个帧的帧特征信息，对所述第i个视频片段进行质量评分；其中，所述图片特征信息为目标静态图片的特征信息，所述目标静态图片包括所述视频文件的静态封面图片。在本实施例中，通过引入静态封面片段，可以更加精确地搜索所述视频文件中的精彩视频片段(即，所述目标视频片段)。

步骤S804可以通过各种人工智能模型或人工智能模型组合实现。

在示例性的实施例中，如图10所示，步骤S900可以通过如下步骤实现：步骤S1000，步骤S1000，根据所述M个帧的时序顺序，将所述各个帧的帧特征信息依次输入到LSTM模型中以通过所述LSTM模型得到M个输出向量，所述M个输出向量与所述M个帧一一对应；步骤S1002，对所述M个输出向量形成的向量矩阵进行卷积和池化操作，得到第一特征向量；步骤S1004，根据所述图片特征信息，得到第二特征向量；步骤S1006，将所述第一特征向量与所述第二特征向量拼接，得到拼接向量；步骤S1008，对所述拼接向量进行线性回归操作，以得到对应所述第i个视频片段的质量评分。本实施例通过LSTM模型的捕获长期依赖性，可以学习到各个帧之间的关系，并结合静态封面图像的特征信息，可以提高确定目标视频片段的准确性。

为方便理解，以下结合图11提供一个操作示例：

①通过CNN(Convolutional Neural Networks，卷积神经网络)模型，对第i个视频片段中的各个帧(X ₁、X ₂、...X _M)进行卷积操作，以得到M个特征向量(即，帧特征信息)。

作为示例，所述CNN模型可以包括256个卷积核，以帧X ₁为例，256个卷积核分别对帧X ₁进行卷积操作，从而生成一个对应帧X ₁的特征向量x ₁，该特征向量x ₁为一维向量，其包括256个参数，每个参数为其中一个卷积核对帧X ₁进行卷积操作得到的卷积结果。可知，通过所述CNN模块可以得到M个特征向量，即x ₁、x _t、...x _M。

②根据时序顺序，将各个特征向量x ₁、x _t、...x _M依次输入到LSTM模型中，通过LSTM模型输出M个输出向量h ₁、h ₂、...h _M。

以输入向量x _t为例，介绍LSTM模型的工作原理：

遗忘门：f _t＝σ(W _f[x _t, _t-1]+ _f)

输入门：

i _t＝σ(W _i[x _t, _t-1]+ _i)

q _t＝tanh(W _q[h _t-1+x _t])+b _q)

输入门：

o _t＝σ(W _o[x _t,h _t-1]+b _o)

h _t＝o _t*tanhC _t

其中，f _t决定是否让t-1时刻学到的信息C _t-1通过或部分通过。其中，f _t∈[0,1]，表示t时刻的节点对t-1时刻细胞记忆的选择权重，W _f为遗忘门的权重矩阵，b _f为遗忘门的偏置项，h _t-1表示t-1节点的隐层状态信息，非线性函数σ(x)＝1/(1+e ^-x)；

i _t表示t时刻的节点对当前节点信息的选择权重，用于决定哪些信息该保留。其中，i _t∈[0,1]，b _i为输入门的偏置项，W _i为输入门的权重矩阵，非线性函数σ(x)＝1/(1+e-x；

q _t表示新的候选值向量，用于更新细胞状态。其中，b _q为偏置项，W _q表示待更新信息的权重矩阵，tan为双曲正切激活函数。

o _t表示t时刻其中一个输出向量。b _o为输出门的偏置，W _o为输出门的权重矩阵，[x _t,h _t-1]表示x _t和h _t-1拼接后的向量。

h _t表示t时刻另一个输出向量(隐藏状态向量)。

C _t为更新后的当前细胞状态信息，C _t＝f _t*C _t-1+i _t*q _t，C _t-1为上一个细胞状态信息。f _t*C _t-1表示希望删除的信息，i _t*q _t表示新增的信息。

需要说明的是，本实施例可以使用各种变形的LSTM模型中，上述LSTM模型仅为示例。

③根据所述M个输出向量h ₁、h ₂、...h _M形成一个向量矩阵(M*256的矩阵)，对该向量矩阵依次进行conv1d(一维卷积)和Max Pool(池化，取每个块的最大值)、Conv1d(一维卷积)和AVE Pool(池化，取每个块的平均值)，得到第一特征向量。

④通过另一CNN模型对目标静态图片进行特征提取，以得到对应于目标静态图片的特征图(图片特征信息)，并对所述述图片特征信息通过两个全连接层操作后，得到第二特征向量。

⑤将所述第一特征向量分别与所述第二特征向量拼接，得到拼接向量。

⑥对所述拼接向量通过两个全连接层操作进行线性计算，并经过Sigmoid处理后得到第i个视频片段的质量评分。其中，Sigmoid用于将质量评分限制在0～1之间。

当第i个视频片段的质量评分为0.85以上，则认为该第i个视频片段为精彩视频片段。

实施例二

图12示意性示出了根据本申请实施例二的动态封面设置***的框图，该动态封面设置***可以被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本申请实施例。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机可读指令段，以下描述将具体介绍本申请实施例中各程序模块的功能。

如图12所示，该动态封面设置***1200可以包括确定模块1210和设置模块1220，其中：

确定模块1210，用于从视频文件中确定目标视频片段。

设置模块1220，用于提取所述目标视频片段，并根据所述目标视频片段得到所述视频文件的动态封面图。

可选的，所述确定模块1210还用于：获取所述视频文件的多个弹幕，每个弹幕关联所述视频文件的时间轴上的一个时间点；根据所述每个弹幕关联的时间轴上的时间点，获取所述时间轴上的弹幕密度分布；根据所述弹幕密度分布，筛选出所述视频文件中弹幕密度最高的一个或多个视频片段；及将所述一个或多个视频片段或携带弹幕的所述一个或多个视频片段确定为所述目标视频片段。

可选的，所述确定模块1210还用于：获取所述视频文件的所有弹幕；及根据所述所有弹幕中的各个弹幕的弹幕内容，从所述所有弹幕中滤除多个无效弹幕以得到所述多个弹幕；其中，所述多个无效弹幕包括：弹幕内容与所述视频文件的视频内容无关的弹幕，和/或弹幕内容与所述视频文件的视频画面无关的弹幕。

可选的，所述确定模块1210还用于：将所述视频文件分为M个视频片段，M为大于1的正整数；对各个视频片段进行质量评分；及根据所述各个视频片段的质量评分，从所述M个视频片段中确定所述目标视频片段。

可选的，所述确定模块1210还用于：根据所述各个视频片段的弹幕特征信息和/或所述各个视频片段中的各个帧的帧特征信息，对所述各个视频片段进行质量评分；其中，所述弹幕特征信息包括弹幕密度。

可选的，所述确定模块1210还用于：提取第i个视频片段中各个帧的帧特征信息，1≤i≤M，i为正整数；及根据所述第i个视频片段中的各个帧的帧特征信息，对所述第i个视频片段进行质量评分。

可选的，所述确定模块1210还用于：根据图片特征信息和所述各个帧的帧特征信息，对所述第i个视频片段进行质量评分；其中，所述图片特征信息为目标静态图片的特征信息，所述目标静态图片包括所述视频文件的静态封面图片。

可选的，所述确定模块1210还用于：根据所述M个帧的时序顺序，将所述各个帧的帧特征信息依次输入到LSTM模型中以通过所述LSTM模型得到M个输出向量，所述M个输出向量与所述M个帧一一对应；对所述M个输出向量形成的向量矩阵进行卷积和池化操作，得到第一特征向量；根据所述图片特征信息，得到第二特征向量；将所述第一特征向量与所述第二特征向量拼接，得到拼接向量；对所述拼接向量进行线性回归操作，以得到对应所述第i个视频片段的质量评分。

实施例三

图13示意性示出了根据本申请实施例三的适于实现动态封面设置方法的计算机设备1300的硬件架构示意图。本实施例中，计算机设备1300是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。例如，可以是智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图13所示，计算机设备1300至少包括但不限于：可通过***总线相互通信链接存储器1310、处理器1320、网络接口1330。其中：

存储器1310至少包括一种类型的计算机可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器1310 可以是计算机设备1300的内部存储模块，例如该计算机设备1300的硬盘或内存。在另一些实施例中，存储器1310也可以是计算机设备1300的外部存储设备，例如该计算机设备1300上配备的插接式硬盘，智能存储卡(Smart Media Card，简称为SMC)，安全数字(Secure Digital，简称为SD)卡，闪存卡(Flash Card)等。当然，存储器1310还可以既包括计算机设备1300的内部存储模块也包括其外部存储设备。本实施例中，存储器1310通常用于存储安装于计算机设备1300的操作***和各类应用软件，例如动态封面设置方法的程序代码等。此外，存储器1310还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器1320在一些实施例中可以是中央处理器(Central Processing Unit，简称为CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器1320通常用于控制计算机设备1300的总体操作，例如执行与计算机设备1300进行数据交互或者通信相关的控制和处理等。本实施例中，处理器1320用于运行存储器1310中存储的程序代码或者处理数据。

网络接口1330可包括无线网络接口或有线网络接口，该网络接口1330通常用于在计算机设备1300与其他计算机设备之间建立通信链接。例如，网络接口1330用于通过网络将计算机设备1300与外部终端相连，在计算机设备1300与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯***(Global System of Mobile communication，简称为GSM)、宽带码分多址(Wideband Code Division Multiple Access，简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图13仅示出了具有部件1310-1330的计算机设备，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器1310中的动态封面设置方法还可以被分割为一个或者多个程序模块，并由一个或多个处理器(本实施例为处理器1320)所执行，以完成本申请实施例。

实施例四

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质其上存储有计算机程序计算机可读指令，所述计算机可读指令被处理器执行时实现以下步骤：

从视频文件中确定目标视频片段；及

本实施例中，计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，计算机可读存储介质可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，计算机可读存储介质也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，简称为SMC)，安全数字(Secure Digital，简称为SD)卡，闪存卡(Flash Card)等。当然，计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，计算机可读存储介质通常用于存储安装于计算机设备的操作***和各类应用软件，例如实施例中动态封面设置方法的程序代码等。此外，计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。

显然，本领域的技术人员应该明白，上述的本申请实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请实施例不限制于任何特定的硬件和软件结合。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种动态封面设置方法，所述方法包括：

从视频文件中确定目标视频片段；及

提取所述目标视频片段，并根据所述目标视频片段得到所述视频文件的动态封面图。
根据权利要求1所述的动态封面设置方法，所述从视频文件中确定目标视频片段，包括：

获取所述视频文件的多个弹幕，每个弹幕关联所述视频文件的时间轴上的一个时间点；

根据所述每个弹幕关联的时间轴上的时间点，获取所述时间轴上的弹幕密度分布；

根据所述弹幕密度分布，筛选出所述视频文件中弹幕密度最高的一个或多个视频片段；及

将所述一个或多个视频片段或携带弹幕的所述一个或多个视频片段确定为所述目标视频片段。
根据权利要求2所述的动态封面设置方法，所述获取视频文件的多个弹幕，包括：

获取所述视频文件的所有弹幕；及

根据所述所有弹幕中的各个弹幕的弹幕内容，从所述所有弹幕中滤除多个无效弹幕以得到所述多个弹幕；其中，所述多个无效弹幕包括：弹幕内容与所述视频文件的视频内容无关的弹幕，和/或弹幕内容与所述视频文件的视频画面无关的弹幕。
根据权利要求1至3任意一项所述的动态封面设置方法，从视频文件中确定目标视频片段，包括：

将所述视频文件分为M个视频片段，M为大于1的正整数；

对各个视频片段进行质量评分；及

根据所述各个视频片段的质量评分，从所述M个视频片段中确定所述目标视频片段。
根据权利要求4所述的动态封面设置方法，所述对各个视频片段进行质量评分，包括：

根据所述各个视频片段的弹幕特征信息和/或所述各个视频片段中的各个帧的帧特征信息，对所述各个视频片段进行质量评分；其中，所述弹幕特征信息包括弹幕密度。
根据权利要求4或5所述的动态封面设置方法，所述对各个视频片段进行质量评分，包括：

提取第i个视频片段中各个帧的帧特征信息，1≤i≤M，i为正整数；及

根据所述第i个视频片段中的各个帧的帧特征信息，对所述第i个视频片段进行质量评分。
根据权利要求6所述的动态封面设置方法，所述根据所述第i个视频片段中的各个帧的帧特征信息，对所述第i个视频片段进行质量评分，包括：

根据图片特征信息和所述各个帧的帧特征信息，对所述第i个视频片段进行质量评分；

其中，所述图片特征信息为目标静态图片的特征信息，所述目标静态图片包括所述视频文件的静态封面图片。
根据权利要求7所述的动态封面设置方法，所述根据图片特征信息和所述各个帧的帧特征信息，对所述第i个视频片段进行质量评分，包括：

根据所述M个帧的时序顺序，将所述各个帧的帧特征信息依次输入到LSTM模型中以通过所述LSTM模型得到M个输出向量，所述M个输出向量与所述M个帧一一对应；

对所述M个输出向量形成的向量矩阵进行卷积和池化操作，得到第一特征向量；

根据所述图片特征信息，得到第二特征向量；

将所述第一特征向量与所述第二特征向量拼接，得到拼接向量；

对所述拼接向量进行线性回归操作，以得到对应所述第i个视频片段的质量评分。
一种动态封面设置***，包括：

确定模块，用于从视频文件中确定目标视频片段；及

设置模块，用于提取所述目标视频片段，并根据所述目标视频片段得到所述视频文件的动态封面图。
根据权利要求9所述的动态封面设置***，所述确定模块，还用于：

获取所述视频文件的多个弹幕，每个弹幕关联所述视频文件的时间轴上的一个时间点；

根据所述每个弹幕关联的时间轴上的时间点，获取所述时间轴上的弹幕密度分布；

根据所述弹幕密度分布，筛选出所述视频文件中弹幕密度最高的一个或多个视频片段；及

将所述一个或多个视频片段或携带弹幕的所述一个或多个视频片段确定为所述目标视频片段。
根据权利要求10所述的动态封面设置***，所述确定模块，还用于：

获取所述视频文件的所有弹幕；及

根据所述所有弹幕中的各个弹幕的弹幕内容，从所述所有弹幕中滤除多个无效弹幕以得到所述多个弹幕；其中，所述多个无效弹幕包括：弹幕内容与所述视频文件的视频内容无关的弹幕，和/或弹幕内容与所述视频文件的视频画面无关的弹幕。
一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现以下步骤：

从视频文件中确定目标视频片段；及

提取所述目标视频片段，并根据所述目标视频片段得到所述视频文件的动态封面图。
根据权利要求12所述的计算机设备，所述从视频文件中确定目标视频片段，包括：

获取所述视频文件的多个弹幕，每个弹幕关联所述视频文件的时间轴上的一个时间点；

根据所述每个弹幕关联的时间轴上的时间点，获取所述时间轴上的弹幕密度分布；

根据所述弹幕密度分布，筛选出所述视频文件中弹幕密度最高的一个或多个视频片段；及

将所述一个或多个视频片段或携带弹幕的所述一个或多个视频片段确定为所述目标视频片段。
根据权利要求11所述的计算机设备，所述获取视频文件的多个弹幕，包括：

获取所述视频文件的所有弹幕；及

根据所述所有弹幕中的各个弹幕的弹幕内容，从所述所有弹幕中滤除多个无效弹幕以得到所述多个弹幕；其中，所述多个无效弹幕包括：弹幕内容与所述视频文件的视频内容无关的弹幕，和/或弹幕内容与所述视频文件的视频画面无关的弹幕。
根据权利要求12至14任意一项所述的计算机设备，从视频文件中确定目标视频片段，包括：

将所述视频文件分为M个视频片段，M为大于1的正整数；

对各个视频片段进行质量评分；及

根据所述各个视频片段的质量评分，从所述M个视频片段中确定所述目标视频片段。
根据权利要求15所述的计算机设备，所述对各个视频片段进行质量评分，包括：

根据所述各个视频片段的弹幕特征信息和/或所述各个视频片段中的各个帧的帧特征信息，对所述各个视频片段进行质量评分；其中，所述弹幕特征信息包括弹幕密度。
根据权利要求15或16所述的计算机设备，所述对各个视频片段进行质量评分，包括：

提取第i个视频片段中各个帧的帧特征信息，1≤i≤M，i为正整数；及

根据所述第i个视频片段中的各个帧的帧特征信息，对所述第i个视频片段进行质量评分。
根据权利要求17所述的计算机设备，所述根据所述第i个视频片段中的各个帧的帧特征信息，对所述第i个视频片段进行质量评分，包括：

根据图片特征信息和所述各个帧的帧特征信息，对所述第i个视频片段进行质量评分；

其中，所述图片特征信息为目标静态图片的特征信息，所述目标静态图片包括所述视频文件的静态封面图片。
根据权利要求18所述的计算机设备，所述根据图片特征信息和所述各个帧的帧特征信息，对所述第i个视频片段进行质量评分，包括：

根据所述M个帧的时序顺序，将所述各个帧的帧特征信息依次输入到LSTM模型中以通过所述LSTM模型得到M个输出向量，所述M个输出向量与所述M个帧一一对应；

对所述M个输出向量形成的向量矩阵进行卷积和池化操作，得到第一特征向量；

根据所述图片特征信息，得到第二特征向量；

将所述第一特征向量与所述第二特征向量拼接，得到拼接向量；

对所述拼接向量进行线性回归操作，以得到对应所述第i个视频片段的质量评分。
一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机可读指令，所述计算机可读指令可被至少一个处理器所执行，以使所述至少一个处理器执行权利要求1至8中任意一项所述的动态封面设置方法的步骤。