CN108650524A

CN108650524A - 视频封面生成方法、装置、计算机设备及存储介质

Info

Publication number: CN108650524A
Application number: CN201810504021.5A
Authority: CN
Inventors: 费梦娟; 高永强; 谯睿智; 戴宇荣; 沈小勇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-05-23
Filing date: 2018-05-23
Publication date: 2018-10-12
Anticipated expiration: 2038-05-23
Also published as: CN108650524B

Abstract

本申请公开了一种视频封面生成方法、装置、计算机设备及存储介质，该方法包括：获取视频中的多帧图像；针对每帧该图像，依据所述图像中反映印象深刻度的图像特征，确定该图像的难忘度评分，该难忘度评分用于反映用户对图像的感兴趣程度；基于该多帧图像的难忘度评分，从该多帧图像中选取出至少一帧用于生成视频封面的目标图像；基于至少一帧该目标图像，生成该视频的视频封面。本申请的方案有利于提高视频封面对用户的吸引度。

Description

视频封面生成方法、装置、计算机设备及存储介质

技术领域

本申请涉及技术领域，尤其涉及一种视频封面生成方法、装置、计算机设备及存储介质。

背景技术

随着互联网技术的不断发展，越来越多的用户喜欢将视频发布到网络平台(如，社交平台或者视频发布平台等)中，以将视频分享给网络平台中的其他用户。

网络平台在发布用户上传的视频之前，会先从视频中选取一帧图像作为该视频的视频封面，然后发布具有该视频封面的视频。其中，视频的视频封面(也被称为视频的封面图标)作为展示视频内容的标志，其重要性不言而喻。然而，目前网络平台仅仅是将视频的首帧图像作为视频封面，或者是随机从视频中选取一帧图像作为视频封面，从而很难吸引用户关注，导致视频点击率低。

发明内容

有鉴于此，本申请提供了一种视频封面生成方法、装置、计算机设备及存储介质，以使得生成的视频封面能更好反映出该视频中用户感兴趣的内容，提高视频封面对用户的吸引度，增加视频的点击率。

为实现上述目的，一方面，本申请提供了一种视频封面生成方法，包括：

获取视频中的多帧图像；

针对每帧所述图像，依据所述图像中反映印象深刻度的图像特征，确定所述图像的难忘度评分，所述难忘度评分用于反映用户对图像的感兴趣程度；

基于所述多帧图像的难忘度评分，从所述多帧图像中选取出至少一帧用于生成视频封面的目标图像；

基于至少一帧所述目标图像，生成所述视频的视频封面。

在一种可能的实现方式中，所述确定所述图像的难忘度评分，包括：

利用预先训练得到的图像难忘度模型，计算所述图像的难忘度评分，所述图像难忘度模型为利用标注有难忘度评分的多幅样本图像训练得到的。

在一种可能的实现方式中，所述获取视频中的多帧图像，包括：

获取待生成视频封面的视频；

将所述视频拆分为连续的多个视频段，每个视频段中包括至少一帧图像；

从每个所述视频段中选取出至少一帧图像作为候选封面，得到作为候选封面的多帧图像。

优选的，所述从每个所述视频段中选取出至少一帧图像作为候选封面，包括：

分别计算每个所述视频段中各帧图像的清晰度；

从每个所述视频段中选取出至少一帧清晰度满足预设条件的图像作为候选封面。

又一方面，本申请还提供了一种视频封面生成装置，包括：

视频获取单元，用于获取视频中的多帧图像；

图像评分单元，用于针对每帧所述图像，依据所述图像中反映印象深刻度的图像特征，确定所述图像的难忘度评分，所述难忘度评分用于反映用户对图像的感兴趣程度；

图像筛选单元，用于基于所述多帧图像的难忘度评分，从所述多帧图像中选取出至少一帧用于生成视频封面的目标图像；

封面生成单元，用于基于至少一帧所述目标图像，生成所述视频的视频封面。

又一方面，本申请还提供了一种计算机设备，包括：

处理器和存储器；

其中，所述处理器用于执行所述存储器中存储的程序；

所述存储器用于存储程序，所述程序至少用于：

获取视频中的多帧图像；

基于至少一帧所述目标图像，生成所述视频的视频封面。

又一方面，本申请还提供了一种存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现本申请任意一个实施例的视频封面生成方法。

可见，在本申请实施例中，在获取到视频中作为候选封面的多帧图像之后，会分别确定每幅图像的难忘度评分，而由于图像的难忘度评分可以用于反映用户对该图像的感兴趣程度，因此，基于该多帧图像的难忘度评分，选取用于生成视频封面的目标图像，有利于从视频中选取出更能反映该视频中用户感兴趣内容的图像，使得生成的视频封面对用户的吸引度更高，进而提高视频的点击率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本申请实施例的一种视频封面生成***的组成框架示意图；

图2示出了本申请实施例的一种视频封面生成方法一个实施例的流程示意图；

图3示出了本申请实施例中从视频中选取视频封面的一个示例；

图4示出了不同显著性的图像所对应的难忘度的示意图；

图5示出了表达不同情感的多幅图像对应的难忘度的示意图；

图6示出了本申请实施例中利用多幅样本图像训练图像难忘度模型的一种示意图；

图7示出了本申请实施例中训练图像难忘度模型的一种流程示意图；

图8示出了本申请实施例的一种视频封面生成方法所适用的一种应用场景的示意图；

图9示出了本申请实施例的一种视频封面生成方法的一种流程交互示意图；

图10示出了本申请实施例的一种视频封面生成方法所适用的又一种应用场景的示意图；

图11示出了本申请实施例的一种视频封面生成方法所适用的又一种应用场景示意图；

图12示出了本申请实施例的一种视频封面生成方法又一种流程交互示意图；

图13示出了本申请实施例的一种视频封面生成装置一个实施例的组成结构示意图；

图14示出了本申请实施例的一种计算机设备的组成结构示意图。

具体实施方式

本申请的视频封面生成方法适用于从视频中选取用于生成视频封面的图像，以使得选取出的图像能够更加反映视频中用户感兴趣的内容，提高视频封面对用户的吸引程度。

本申请的发明人经过研究发现：用户对图像的感兴趣程度越大，用户对图像的难忘度越高，因此，可以通过图像的难忘度来分析用户对图像的感兴趣程度。其中，图像的难忘度表示图像让人们印象深刻的程度，它表征用户对该图像感兴趣的程度。基于此研究发现，本申请在从视频中选取用于生成视频封面的图像时，可以结合视频中图像的难忘度，以提高生成的视频封面的难忘度，从而提高用户对视频封面的感兴趣程度。

本申请的视频封面生成方法可以适用于网络平台中的服务器，如，多媒体网络平台中的服务器等，以通过服务器为用户上传的视频自动选取视频封面。本申请的视频封面生成方法也适用于终端，如，手机、平板电脑以及笔记本电脑等，以在用户通过终端向网络平台上传视频的同时，从用户选择上传的视频中选取出适合生成视频封面的图像。

为了便于理解，先对本申请的方案所适用的一种场景进行介绍。如，参见图1，其示出了本申请一种视频封面生成***的一种组成结构示意图。

在图1所示的***中包括：终端10和网络平台中的服务器20，该终端10与服务器20之间通过网络30实现通信连接。

该网络平台可以为社交平台、多媒体平台等。在该网络平台中可以包括一台或多台服务器，在图1中是以网络平台中的一台服务器为例进行说明，但是对于网络平台包含多台服务器的情况，该多台服务器中任意一台所执行的操作均相同。

其中，终端10用于向网络平台中的服务器20上传待发布的视频。

网络平台中的服务器20用于确定终端上传的视频所对应的视频封面，并发布具有该视频封面的视频。

其中，在终端未指定该视频的视频封面的情况下，该网络平台的服务器需要从该待发布的视频中选取出用于生成视频封面的至少一帧图像，并利用选取出的至少一帧图像生成该视频的视频封面。

下面从服务器侧介绍视频封面生成方法，如，参见图2，其示出了本申请一种视频封面生成方法一个实施例的流程示意图，本实施例的方法可以包括：

S201，接收终端上传的视频。

如，终端向服务器请求上传视频，并在服务器同意终端的请求之后，终端向服务器传输待发布的视频。

可以理解的是，该步骤S201并是服务器为视频选取视频封面的一个必须的步骤，其仅仅是为了便于理解本申请的方案，而以待生成视频封面的视频的一种来源情况进行介绍。在实际应用中，服务器中需要生成视频封面的视频也可以是服务器侧的管理人员上传的，或者是其他网络平台传输给该服务器的，在此不加以限制。

S202，获取该视频中的多帧图像。

该视频为待生成视频封面的视频。

在一种可能的实现方式中，该步骤S202可以是确定视频中所具有的多帧图像，以便于多帧图像中选取出用于生成视频封面的图像。在该种情况中，可以认为是将视频中每帧图像均作为可以用于生成视频封面的候选图像。其中，候选封面是指视频中能够用于生成视频封面的图像。

在又一种可能的情况中，为了减少数据处理量，同时又能够较为全面反映视频所涵盖的内容，服务器可以该视频中抽取出部分图像作为候选封面。如，可以随机从视频中抽取出多帧图像作为候选封面。

考虑到随机从视频中抽取图像作为候选封面，很容易导致多帧候选封面在视频中的分布位置较为集中，从而使得选取出的候选封面无法较为全面的反映视频所展示的内容。如，视频包含1000帧图像，但是抽取的候选封面可能仅集中在第10-100帧之间，使得候选封面只能反映出视频中部分内容，很容易遗漏一些精彩内容，这样后续从候选封面中选取的视频封面也可能无法反映出视频中精彩的，用户感兴趣的内容。可选的，为了使得筛选出的候选封面可以更为全面反映该视频所展示的内容，服务器可以先将视频拆分为连续的多个视频段，然后从每个视频段中选取出至少一幅图像作为候选封面。

如，可以将视频均匀拆分为多个视频段，例如，每个视频段中包含的图像帧数相同，或者考虑到视频中多帧图像无法均分的情况，可以是任意两个视频段的视频帧数的差值最大为一；然后，从每个视频段中分别选取出一帧图像作为候选封面，从而得到作为候选封面的多帧图像。

可选的，为了保证视频封面的清晰度，在将视频拆分为多个视频段之后，还可以分别计算每个视频段中各帧图像的清晰度，然后从每个视频段中选取出至少一帧清晰度满足预设条件的图像作为候选封面。其中，该预设条件可以根据需要设定，如，预设条件可以为清晰度超过预设阈值，或者是在视频段中清晰度最高等。其中，计算图像清晰度的方式可以有多种，本申请对采用何种方式评判图像的清晰度不加以限制。

为了便于理解，可以参见图3，其示出了从视频中选取视频的一个示例，在该图3中将视频均匀拆分为多个视频段，每个视频段包括多帧图像。然后对于每个视频段，分别基于该视频段中各帧图像的清晰度，从该视频段中选取出一帧清晰度最高的图像作为候选封面，从而得到多帧候选封面。

可以理解的是，结合图像的清晰度，分别从各个视频段中筛选候选封面，既可以避免由于候选封面集中分布而使得候选封面较为相似，无法全面反映视频中内容的情况，又可以保证筛选出的候选封面的清晰度满足要求，有利于提高后续选取视频封面的清晰度，以及用户感兴趣程度。

S203，针对每帧图像，依据所述图像中反映印象深刻度的图像特征，确定用于反映用户对该图像的感兴趣程度的难忘度评分。

其中，图像的难忘度评分用于反映图像的难忘程度，该难忘度评分也可以是难忘度指数，其可以为一个整数分值，也可以为一个概率值，还可以是一个难忘度等级，当然，还可以是表征难忘程度的其他形式。

可以理解的是，图像的某些特征，常常很容易吸引人，让人印象深刻，因此，通过确定出图像中反映印象深刻度的图像特征，并基于这些图像特征可以得到图像所对应的难忘度评分。比如，图像中是否存在人物或者其他设定的目标对象的特征，图像中人物或者对象的位置特征，图像中表达情感部分的特征等等这些均可以作为反映印刻深刻度的特征。例如，相比于比人物等对象处于边缘或者没有人物等对象的图像，人物等对象处于中间的图像更令人难忘。

在本申请中，发明人经研究发现：图像的难忘度与图像的流行性、图像显著性、图像表达的内容情感等都存在关系。因此，图像的显著性、图像所表达的情感，以及图像的流行性都可以作为图像中具有的反映印象深刻度的图像特征。其中，图像的显著性越高、图像的难忘度越高；图像的流行程度越高，图像的难忘度越高；在表达情感的图像中，表达特定情感的图像比表达其他情感的图像的难忘度高。

其中，图像的显著性代表视觉注意力，其表示图像区域吸引人注意力的程度。而评判图像显著性的算法有很多，本申请对此不加以限制。为了便于理解显著性与图像难忘度之间关系，可以参见图4，其示出了具有不同显著性的多幅图像所对应的图像难忘度。在图4中从左到右的三幅图像中，第一幅图像中人物处于该图像的中心；第二幅图像中人物处于该图像的右侧；而第三幅图像中没有人物。而这三幅图像从左到右的显著性依次降低，其中第一幅图像的显著性最高，相应的，通过大量测试，得到该第一幅图像的难忘度也最高。由图4可以看出，第一幅图像的难忘度为0.751，而第二幅图像的难忘度为0.39，第三幅图像的难忘度为0.241。

又如，表达难过、惊讶、愤怒等较为强烈情感的图像，会比表达满足、敬畏等情感的图像更令人难忘。参见图5，其示出了表达不同情感的多幅图像的难忘度。在图5中从左到右的三幅图像中，第一幅图像中人物表达出愤怒的神情；第二幅图像中人物表达的是难过的神情；而第三幅图像中人物表达的是满足的神情。相应的，经大量测试，第一幅图像的难忘度最高，其难忘度为0.95；而第二幅图像的难忘度为0.88；第三幅图像的难忘度最低，其难忘度为0.79。

又如，图像的流行性可以反映社交网络中图像被用户喜欢、推荐、浏览的次数大小。图像被用户浏览、推荐的次数越高，代表该图像越流行。图像的流行性可以通过对社交网络中用户针对该图像的推荐、浏览等操作行为进行统计等方式确定出，图像的流行性与难忘度的关系与前面几种情况相似，不再赘述。

由以上分析可知，根据图像的显著性或者图像所描述的情感特征等，可以反映出该图像的难忘程度，因此可以通过分析图像的显著性以及图像表达的情感特征等多个维度的图像特征，来确定图像的难忘度评分。如，可以设定需要分析的图像的多种特征维度，如，该多种特征维度可以包括：图像的显著性、图像所表达的情感等，如，图像表达的不同情感对应不同的情感维度的情感评分等，然后，针对不同维度设置不同的权重，将各个维度的评分进行加权求和，来确定图像的难忘度。

可选的，为了能够更加便捷、快速的确定图像的难忘度评分，可以预先训练得到图像难忘度模型，该图像难忘度模型可以是利用多幅具有难忘度评分的样本图像训练得到的。图像难忘度模型可以将图像中表征印象深刻度的图像特征，转换为难忘度评分并输出。相应的，可以利用该预先训练得到的图像难忘度模型，计算出每帧图像各自的难忘度评分。如，将每帧图像输入到该图像难忘度模型中，并分别获取该图像难忘度模型输出的各个图像的难忘度评分。

其中，利用多幅具有难忘度评分的样本图像训练图像难忘度模型的方式可以有多种，如，基于多幅标注有难忘度评分的样本图像，对深度学习网络或者卷积神经网络模型不断训练，并将最终训练得到的网络模型确定为图像难忘度模型。

为了便于理解，如，以通过多幅样本图像训练训练深度学习网络模型为例进行介绍。如，参见图6，其示出了通过多幅样本图像训练深度学习网络的一个示例图，由图可知，将该多幅标注有难忘度评分的样本图像输入到待训练的深度学习网络，然后，将深度学习网络输出的各幅样本图像的难忘度评分，与该各幅样本图像实际被标注的难忘度评分进行比较，并不断调整该深度学习网络，最终便可以得到输出的样本图像的难忘度评分与样本图像实际的难忘度评分相似的深度学习网络，即，得到图像难忘度模型。结合图6的示例，参见图7，其示出了通过多幅样本图像对深度学习网络进行训练的流程示意图，该过程可以包括：

S701，获取多幅样本图像，每幅样本图像标注有一难忘度评分。

其中，样本图像的难忘度评分可以由人工预先标注。如，通过大量用户测试，来得到每幅样本图像的难忘度评分。又如，由人工根据经验为各幅样本图像分别设置难忘度评分。

可以理解的是，由于样本图像的差异，不同样本图像的难忘度评分也会有所不同。

S702，将多幅样本图像输入到待训练的深度学习网络，得到该深度学习网络输出的每幅样本图像的难忘度评分。

该深度学习网络可以有多种可能，如，可以为轻量型神经网络，例如，MobileNet等。

S703，基于该多幅样本图像各自标注的难忘度评分，以及该深度学习网络输出的该多幅图像的难忘度评分，确定该深度学习网络预测图像难忘度评分的准确度。

可以理解的是，深度学习网络可以预估出每幅图像的难忘度评分，为了验证深度学习网络预估出的难忘度评分是否准确，需要将深度学习网络预估出的各幅样本图像的难忘度评分与该样本图像实际被标注的难忘度评分进行比较。而预估出的难忘度评分与实际标注的难忘度评分之间相差的程度就可以反映出该深度学习网络预测图像难忘度评分的准确度。如，可以通过损失函数-交叉熵函数来比较预估出的难忘度评分与实际标注的难忘度评分之间的相差程度。

当然，通过其他方式评判该深度学习网络预测图像难忘度评分的准确度也同样适用于本实施例。

S704，判断该深度学习网络预测图像难忘度评分的准确度是否满足预设要求，如果是，则将当前的深度学习网络确定为图像难忘度模型，结束训练；如果否，调整该深度学习网络中参数的参数值，并返回步骤S702。

例如，预估出样本图像的难忘度评分与样本图像实际标注的难忘度评分之间相差的程度符合预设的偏差程度，则可以确定准确度符合预设要求。

需要说明的是，图6仅仅是训练深度学习网络的一个简单实例，在实际应用中，通过样本图像训练该深度学习网络的过程中，每进行一次训练，还需要通过多幅用于测试的样本图像对深度学习网络进行测试，并最终结合测试结果，从多次训练的深度学习网络中确定出最终所需的模型。

当然，图6和图7仅仅是训练得到图像难忘度模型的一种可能情况，对于利用多幅样本图像通过其他方式对网络模型进行训练，以得到可以评估图像难忘度的网络模型也同样适用于本实施例，在此不加以限制。

S204，基于该多帧图像的难忘度评分，从该多帧图像中选取出至少一帧用于生成视频封面的目标图像。

其中，按照作为候选封面的多帧图像各自的难忘度评分，可以有利于选取出难忘度相对较高的图像作为用于生成视频封面的图像。

如，可以按照该多帧图像的难忘度评分从高到低的排序，从该多帧图像中选取出排序靠前的至少一帧目标图像。

如参见图3，在从每个视频段中选取出一帧图像作为候选封面之后，可以针对每帧候选封面的难忘度评分，从该多帧候选封面中选取出难忘度评分最高的候选封面作为视频封面。

S205，基于选取出的至少一帧目标图像，生成该视频的视频封面。

可以理解的是，视频封面的种类可以分为静态视频封面和动态视频封面两种。为了便于理解，针对这两种视频封面，以生成视频封面的几种情况进行介绍。其中，在所需生成的视频封面为静态视频封面的情况下，可以是从多帧图像中，选取出难忘度评分最高的目标图像，并利用该目标图像生成该视频的静态视频封面。如，将选取出的目标图像确定为静态视频封面，或者是，在选取出的目标图像上进行特定处理，例如，加上特定的标题或者说明等，从而将处理后的目标图像作为视频的静态视频封面。当然，也可以是选取出多张难忘度评分靠前的目标图像，然后利用这多张目标图像合成为一个视频封面。

对于需要生成的视频封面为动态视频封面的情况，在一种可能的方式中，可以是先从多帧作为候选封面的图像中，选取出难忘度评分最高的图像，为了便于区分，在此处将难忘度评分最高的图像称为基准图像；然后，在该基准图像所属的视频段中，选取出包含该基准图像在内的连续多帧图像作为用于生成动态视频封面的目标图像，相应的，可以利用该连续多帧目标生成动画，将该动画作为动态视频封面。例如，从候选封面中选取出难忘度最高的图像之后，可以从该图像所属的视频段中，选取该图像之前最近的10帧图像以及该图像之后最近的11张图像，从而得到11帧图像，并利用这11帧图像生成的动作作为动态视频封面。

对于生成动态视频封面的情况，在又一种可能方式中，可以是从作为候选封面的多帧图像中，选取出多帧用于生成视频封面的目标图像，如，选取出难忘度评分超过预设阈值的多帧目标图像，或者是难忘度评分排序靠前的多帧目标图像；然后，利用该多帧目标图像生成作为动态视频封面的动画。

可以理解的是，在选取出用于生成视频封面的目标图像之后，针对不同种类的视频封面，可以有多种方式来生成视频封面，本申请对此不加以限制。

需要说明的是，在服务器选取出用于生成视频封面的至少一帧目标图像之后，生成该视频封面可以是由该服务器完成，也可以是该服务器通过其他服务器或者设备完成，本申请对于不加以限制。而基于选取出的目标图像生成视频封面的过程即步骤S205，仅仅是为了便于理解整个视频封面的生成过程，而并非是选取视频封面的必须执行的步骤。

可见，在本申请实施例中，服务器获取到待生成视频封面的视频中作为候选封面的多帧图像之后，会分别确定每幅图像的难忘度评分，而由于图像的难忘度评分可以用于反映用户对该图像的感兴趣程度，因此，基于该多帧图像的难忘度评分，选取用于生成视频封面的目标图像，有利于从视频中选取出更能反映该视频中用户感兴趣内容的图像作为视频封面，从而使得生成的视频封面对用户的吸引度更高，进而有利于提高生成的视频封面的点击率。

同时，由于用户对图像的感兴趣程度与图像的精彩程度也存在正相关的关系，因此，通过本申请的方案在从视频中选取出用户感兴趣的图像作为视频封面的同时，实际上也有利于选取视频中更为精彩的图像作为视频的视频封面，从而有利于提高视频封面的吸引度。

可以理解的是，本申请的视频封面生成方法可以应用于实现视频发布的多种应用场景中。为了便于理解，下面以一种应用场景为例，对服务器侧选取并生成视频封面的过程进行介绍。

如，参见图8其示出了本申请的视频封面生成方法所适用的一种应用场景的示例图。由图8可知，在该应用场景中是网络平台为视频发布平台为例。终端10可以向该视频发布平台中服务器上传需要发布的视频A。该终端并未指定该视频A中作为该视频A封面的图像。

相应的，视频发布平台的服务器20在接收到该视频A之后，基于视频A中可作为候选封面的图像各自的难忘度评分，选取出至少一帧用于生成该视频A的视频封面的目标图像，并利用选取出的目标图像生成该视频A的视频封面a；然后，该服务器将该视频A携同该视频A的视频封面a存储到共享存储区。

其中，该视频A的视频封面a可以静态视频封面，也可以是动态视频封面。

该共享存储区可供不同终端访问的存储区，以存储不同用户发布的视频，该共享存储区可以认为是该服务器20的存储区的一部分，也可以是独立于该服务器20之外的其他存储设备中的存储区域。

终端的用户访问该共享存储区，可以看到用户具备访问权限范围的所有用户发布(如，可以为该用户自己发布的，还可以包括其他用户发布)的视频。

结合图8的应用场景，以用户通过终端服务器为该用户分配的个人共享存储空间中发布视频为例进行介绍，参见图9，其示出了本申请一种视频封面生成方法又一个实施例的流程交互示意图。本实施例的方法可以包括：

S901，终端向视频发布平台的服务器发送用户登录请求。

该用户登录请求可以携带有用户的用户标识以及验证码。如，用户标识可以为该用户的用户名，该验证码可以为登录密码。

S902，服务器响应于该用户登录请求，并在验证用户身份通过后，完成用户登录。

如，服务器验证用户的用户名与登录密码一致，则允许该用户登录，以建立服务器与终端的连接，使得用户可以通过终端登录服务器。

如，以终端为即时通讯的客户端为例，用户通过该终端可以登录即时通讯服务器，以访问该即时通讯服务器为该用户分配的个人共享存储空间，如俗称的朋友圈或者个人空间等。

该步骤S901和S902并不属于终端向服务器发布视频所必须的步骤，仅仅是为了便于完成理解方案，而以一种场景为例进行介绍。

S903，终端向服务器发送视频发布请求，该视频发布请求携带有待发布的视频以及该用户的用户标识。

如，该视频发布请求用于请求将视频发布到该用户的个人共享存储空间中，以使得访问该用户的个人共享存储空间的其他用户可以观看到该视频。例如，用户向个人共享存储空间发布小视频，以便于用户将小视频分享给他人观看等。其中，小视频通常是指时长小于特定时长(例如小于三分钟)的视频。

当然，该步骤S903仅仅是以一种视频发布场景为例进行介绍，对于其他视频发布的场景也同样适用于本实施例。

S904，服务器将该视频拆分为连续的多个视频段。

其中，每个视频段中包括至少一帧图像。

可选的，根据不同视频的长度，拆分视频。其中，拆分出的视频段的长度可以相同，也可以不同。如，根据视频的长度，将视频拆分为长度相同或者相似的多个视频段。例如，可以将视频拆分为10个视频段，每个视频段中图像的帧数相同。

S905，服务器分别计算每个视频段中各帧图像的清晰度。

S906，服务器分别从每个视频段中选取出一帧清晰度最高的图像作为候选封面，得到多帧候选封面。

在本实施例中，是以选取出一帧清晰度最高的图像作为候选封面为例说明，但是选取清晰度超过预设阈值的一帧或者多帧，或者基于图像的清晰度，通过其他方式选取候选封面也同样适用于本实施例。

S907，服务器利用预先训练得到的图像难忘度模型，计算每帧候选封面的难忘度评分。

该图像难忘度模型为利用多幅具有难忘度评分的样本图像，对网络模型训练得到的。

S908，服务器从多帧候选封面中，选取出一帧难忘度评分最高的候选封面作为该视频的静态视频封面。

本申请实施例中，是以生成静态视频封面，且以选取难忘度评分最高的候选封面直接作为静态视频封面为例，由于仅仅选取出一帧难忘度评分最高的候选封面，因此可以直接将选取出的候选封面确定为静态视频封面，而无需再进行后续处理。但是可以理解的是，在实际应用中，对于选取多帧候选封面，并通过处理该多帧候选封面生成静态视频封面或者动态视频封面的过程也同样适用于本实施例，在此不加以限制。

可以理解的是，步骤S904到S908的具体实现可以参见前面实施例的相关介绍，在此不再赘述。

S909，服务器根据该用户的用户标识，将该视频存储到共享存储区中该用户对应的个人共享存储空间，并设置显示选出的该视频的静态视频封面。

将该视频存储到该个人共享存储空间，并设置该视频的封面为选取出的该静态视频封面之后，便完成该视频的发布，相应的，该用户以及具备访问该用户的个人共享存储空间的其他用户均可以访问该用户的个人共享存储空间，从而观看到该用户发布的该视频的静态视频封面。

S910，服务器向终端返回用于指示视频发布成功的发布成功提示。

需要说明的是，该步骤S909和步骤S910为可选步骤，其仅仅是服务器选取出用于生成视频封面的图像之后，一种可能的处理方式。在实际应用中，服务器在选取出用于生成视频封面的目标图像之后，还可以将用户生成视频封面的目标图像指示给用户，以由用户从该至少一帧目标图像中指定一幅或者多幅目标图像来生成静态视频封面或者动态视频封面。

如，参见图10，其示出了本申请的视频封面生成方法所适用的又一种应用场景的示例图，在图10的示例中，以服务器从视频中选取出用于生成视频封面的至少一帧目标图像之后，将该至少一帧目标图像推荐给用户，以便由用户最终选取出视频封面。

如图10可知，在步骤S10中，终端向服务器发送待发布的视频；

在步骤S11中，服务器从视频中选取出难忘度评分排序靠前的至少一帧帧目标图像，如，可以选取出多帧目标图像。该服务器选取目标图像的过程可以参见前面图2实施例的相关介绍，或者参见图9实施例中步骤S904到S908的相关介绍，只不过服务器可以选取出一帧或者多帧用于生成视频封面的目标图像。

在该步骤S12中，服务器将选取出的可用于生成视频封面的至少一幅目标图像推荐给终端，以指示终端的用户从推荐的至少一幅目标图像中选取出至少一幅作为视频封面。

在该步骤S13中，终端将用户选择的视频封面通知给服务器。如，服务器推荐给用户三幅目标图像，用户选择了其中的一幅目标图像作为视频封面，则终端将用户选择的作为视频封面的该目标图像的标识发送给服务器。

在该步骤S14中，服务器将用户选择的视频封面作为该视频的视频封面，并将该视频封面与该视频一并发布到共享存储区。

结合本申请以上实施例的方案，本申请的发明人通过对向平台中发布的多个小视频进行了测试，测试的小视频中包括用户自拍、聚会、美食、室内室外、运动等各种生活场景的视频。在这些用户拍摄的小视频中，人物往往是被拍摄的主题对象，但其中会夹杂着其他各种内容。采用本申请的方案以人物为中心对象，基于难忘度评分，从视频中选取图像作为封面。将采用本申请的方案为该多个小视频生成的视频封面，与采用现有的随机抽取等方式确定出的视频封面对比可以明显发现：采用本申请的方案生成的视频封面的精彩度以及清晰度更高，能够取得更好的效果。

可以理解的是，以上实施例的视频封面选择方法中都是以服务器从视频中选取出至少一帧用于生成视频封面的目标图像为例进行介绍。但是可以理解的是，在终端向服务器上传待发布的视频之前，终端也可以从视频中先确定出用于生成视频封面的至少一帧目标图像，然后基于选取的目标图像生成视频封面，或者，将用于生成视频封面的该至少一帧目标图像的信息以及该待发布的视频传输给服务器，以使得服务器发布该视频，并利用该至少一帧目标图像生成该视频的封面。

如，参见图11，其示出了本申请的视频封面生成方法在又一种应用场景中的示例图。由图11可以看出，在该应用场景中，终端10获取到待发布的视频之后，会从视频中选取出视频封面或者用于生成视频封面的至少一帧图像，并将选取出的视频封面或者图像的信息以及该视频传输给服务器20。

结合图11，参见图12，其示出了本申请的视频封面生成方法又一个实施例的流程交互示意图，本实施例的方法可以包括：

S1201，终端确定待发布的视频。

如，终端接收用户选择出的待发布的视频。

S1202，终端将该视频拆分为连续的多个视频段。

S1203，终端分别计算每个视频段中各帧图像的清晰度。

该步骤为可选步骤，在认为视频段中每帧图像的清晰度均满足要求的前提下，或者不考虑清晰度的前提下，也可以不执行该步骤S1203，而直接从每个视频段中随机选取出一帧或多帧图像作为候选封面。

S1204，终端分别从每个视频段中选取出至少一帧清晰度满足预设条件的图像作为候选封面，得到多帧候选封面。

如，从每个视频段中选取出一帧清晰度最高的图像作为候选封面。

终端侧执行该步骤S1202到步骤S1204的具体操作过程可以参见前面服务器侧执行相关操作的过程相似，具体可以参见前面的相关介绍，在此不再赘述。

需要说明的是，该步骤S1202到步骤S1204仅仅是终端获取该视频中作为候选封面的多帧图像的一种实现方式，在实际应用中，终端也可以是视频中的每帧图像都作为候选封面。当然，还可以有其他方式，前面服务器侧获取视频中作为候选封面的多帧图像的具体方式同样适用于终端侧，在此不再赘述。

S1205，终端利用预置的图像难忘度模型，分别计算每帧候选封面的难忘度评分。

该步骤仅仅是计算候选封面的难忘度评分的一种实现方式，对于前面服务器侧确定每帧作为候选封面的图像的难忘度评分的方式也同样适用于终端侧确定每帧候选封面的难忘度评分，具体可以参见前面相关介绍，在此不再赘述。

S1206，终端从该多帧候选封面中，选取出难忘度评分最高的一帧候选封面作为视频封面。

该步骤S1206仅仅是从候选封面中选取视频封面的一种实现方式，在实际应用中，终端基于候选封面的难忘度评分，也可以是选取难忘度评分超过预设阈值的一帧候选封面作为视频封面，当然，还可以有其他方式从候选封面中选取视频封面，在此不加以限制。

该步骤S1206是以终端选取出一帧候选封面作为视频封面为例进行介绍，在该种情况中，终端选取的视频封面实际上就是该视频的静态视频封面。在实际应用中，终端也可以从该多帧候选封面中，选取多帧候选封面作为视频封面。或者是，在终端选取出难忘度评分最高的一帧候选封面之后，还可以从该难忘度评分最高的候选封面所属的视频段中，提取出与该难忘度评分最高的候选封面距离最近的多帧图像作为视频封面。当然，对于前面基于多帧作为候选封面的图像的难忘度评分，选取出至少一帧用于生成视频封面的目标图像的其他实现方式也同样适用于本实施例，在此不再赘述。

可以理解的是，在终端选取出多帧用于生成视频封面的目标图像的情况中，终端也可以将选取出的多帧目标图像推荐给用户，并由用户最终选取出需要作为视频封面的图像。

S1207，终端将该视频封面的标识以及该视频传输给服务器。

如，终端将该视频传输给服务器的同时，指示出作为视频封面的图像在该视频中的帧序列号，以便服务器确定该视频中选取为视频封面的图像。

S1208，服务器发布具有该视频封面的该视频。

其中，在视频的视频封面确定的情况下，服务器发布该视频的方式可以有多种，如，服务器可以将该视频与该视频封面关联存储到共享存储区等。

在该步骤S1208中是以终端直接选取出视频封面为例进行介绍，在实际应用中，终端也可以选取出用于生成视频封面的一帧或者多帧目标图像，然后将该一帧或多帧目标图像指示给服务器，以通过服务器基于该一帧或多帧目标图像生成静态或动态视频封面；或者是，通过利用一帧或多帧目标图像生成静态或动态视频封面后传输给服务器。

对应本申请的一种视频封面生成方法，本申请实施例还提供了一种视频封面生成装置。如，参见图13，其示出了本申请一种视频封面生成装置一个实施例的组成结构示意图，本实施例的装置可以应用于计算机设备，该计算机设备可以为前面提到的服务器，也可以为前面提到的终端。本实施例的装置可以包括：

视频获取单元1301，用于获取视频中的多帧图像；

图像评分单元1302，用于针对每帧所述图像，依据所述图像中反映印象深刻度的图像特征，确定所述图像的难忘度评分，所述难忘度评分用于反映用户对图像的感兴趣程度；

图像筛选单元1303，用于基于所述多帧图像的难忘度评分，从所述多帧图像中选取出至少一帧用于生成视频封面的目标图像；

封面生成单元1304，用于基于至少一帧所述目标图像，生成所述视频的视频封面。

在一种可能的实现方式中，所述图像评分单元，包括：

图像评分子单元，用于针对每帧所述图像，利用预先训练得到的图像难忘度模型，计算所述图像的难忘度评分，所述图像难忘度模型为利用标注有难忘度评分的多幅样本图像训练得到的。

可选的，该装置还可以包括：模型训练单元用于，通过如下方式训练得到所述图像难忘度模型：

获取多幅样本图像，每幅样本图像标注有一难忘度评分；

将多幅样本图像输入到待训练的深度学习网络，得到所述深度学习网络预测出的每幅所述样本图像的难忘度评分；

基于所述多幅样本图像各自标注的难忘度评分，以及所述深度学习网络输出的所述多幅图像的难忘度评分，确定所述深度学习网络预测图像难忘度评分的准确度；

当所述准确度不满足预设要求时，则调整所述深度学习网络中参数的参数值，并返回执行所述将多幅样本图像输入到待训练的深度学习网络的操作，直至所述准确度满足预设要求。

在一种可能的实现方式中，所述视频获取单元，包括：

视频获取子单元，用于获取待生成视频封面的视频；

视频拆分子单元，用于将所述视频拆分为连续的多个视频段，每个视频段中包括至少一帧图像；

图像候选子单元，用于从每个所述视频段中选取出至少一帧图像作为候选封面，得到作为候选封面的多帧图像。

进一步的，所述图像候选子单元，可以包括：

清晰度计算子单元，用于分别计算每个所述视频段中各帧图像的清晰度；

第一候选子单元，用于从每个所述视频段中选取出至少一帧清晰度满足预设条件的图像作为候选封面。

在一种可能的实现方式中，所述图像筛选单元，包括：

第一筛选子单元，用于从所述多帧图像中，选取出难忘度评分最高的目标图像；

所述封面生成单元，包括：

第一生成子单元，用于利用所述目标图像生成所述视频的静态视频封面。

在又一种可能的实现方式中，所述图像筛选单元可以包括：

第二筛选子单元，用于从所述多帧图像中，选取出难忘度评分最高的基准图像；

第三筛选子单元，用于在所述基准图像所属的视频段中，选取出包含所述基准图像在内的连续多帧图像作为用于生成动态视频封面的目标图像。

另一方面，本申请还提供了一种计算机设备，该计算机设备可以为前面提到的服务器，或者，是前面提到的终端。如，参见图14，其示出了本申请一种计算机设备一种组成结构示意图。

由图14可以看出，该计算机设备1400至少包括：处理器1401和存储器1402。

该处理器1401，可以为中央处理器(Central Processing Unit，CPU)，特定应用集成电路，数字信号处理器、现成可编程门阵列或者其他可编程逻辑器件等。

其中，所述处理器用于执行所述存储器中存储的程序；

存储器1402中用于存放一个或者一个以上程序，程序可以包括程序代码，所述程序代码包括计算机操作指令。

在本申请实施例中，该存储器中至少存储有用于实现以下功能的程序：

获取视频中的多帧图像；

基于至少一帧所述目标图像，生成所述视频的视频封面。

在一种可能的实现方式中，该存储器1402可包括存储程序区和存储数据区，其中，存储程序区可存储操作***、以及至少一个功能(比如图像播放功能等)所需的应用程序等；存储数据区可存储根据计算机的使用过程中所创建的数据，比如，评分数据以及模型等。

该存储器1402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。

可选的，该终端还可以包括通信接口1403、输入单元1404和显示器1405和通信总线1406。

处理器1401、存储器1402、通信接口1403、输入单元1404、显示器1405、均通过通信总线1406完成相互间的通信。

当然，图14所示的终端的结构并不构成对本申请实施例中终端的限定，在实际应用中终端可以包括比图14所示的更多或更少的部件，或者组合某些部件。

另一方面，本申请还提供了一种存储介质，该存储介质中存储有计算机程序，所述计算机程序被处理器加载并执行时，实现如上任意一个实施例中所描述的视频封面生成方法。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频封面生成方法，其特征在于，包括：

获取视频中的多帧图像；

基于至少一帧所述目标图像，生成所述视频的视频封面。

2.根据权利要求1所述的视频封面生成方法，其特征在于，所述依据所述图像中反映印象深刻度的图像特征，确定所述图像的难忘度评分，包括：

3.根据权利要求1所述的视频封面生成方法，其特征在于，所述获取视频中的多帧图像，包括：

获取待生成视频封面的视频；

4.根据权利要求3所述的视频封面生成方法，其特征在于，所述从每个所述视频段中选取出至少一帧图像作为候选封面，包括：

分别计算每个所述视频段中各帧图像的清晰度；

5.根据权利要求1至4任一项所述的视频封面生成方法，其特征在于，所述基于所述多帧图像的难忘度评分，从所述多帧图像中选取出至少一帧用于生成视频封面的目标图像，包括：

从所述多帧图像中，选取出难忘度评分最高的目标图像；

所述基于至少一帧所述目标图像，生成所述视频的视频封面，包括：

利用所述目标图像生成所述视频的静态视频封面。

6.根据权利要求1至4任一项所述的视频封面生成方法，其特征在于，基于所述多帧图像的难忘度评分，从所述多帧图像中选取出至少一帧用于生成视频封面的目标图像，包括：

从所述多帧图像中，选取出难忘度评分最高的基准图像；

在所述基准图像所属的视频段中，选取出包含所述基准图像在内的连续多帧图像作为用于生成动态视频封面的目标图像。

7.根据权利要求2所述的视频封面生成方法，其特征在于，所述图像难忘度模型通过如下方式训练得到：

获取多幅样本图像，每幅样本图像标注有一难忘度评分；

8.一种视频封面生成装置，其特征在于，包括：

视频获取单元，用于获取视频中的多帧图像；

9.根据权利要求8所述的视频封面生成装置，其特征在于，所述图像评分单元，包括：

10.根据权利要求8所述的视频封面生成装置，其特征在于，所述视频获取单元，包括：

视频获取子单元，用于获取待生成视频封面的视频；

11.根据权利要求10所述的视频封面生成装置，其特征在于，所述图像候选子单元，包括：

12.一种计算机设备，其特征在于，包括：

处理器和存储器；

其中，所述处理器用于执行所述存储器中存储的程序；

所述存储器用于存储程序，所述程序至少用于：

获取视频中的多帧图像；

基于至少一帧所述目标图像，生成所述视频的视频封面。

13.一种存储介质，其特征在于，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上权利要求1至7任一项所述的视频封面生成方法。