CN110263213B

CN110263213B - 视频推送方法、装置、计算机设备及存储介质

Info

Publication number: CN110263213B
Application number: CN201910430442.2A
Authority: CN
Inventors: 苏舟; 王良栋; 孙振龙; 张博
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2023-07-18
Anticipated expiration: 2039-05-22
Also published as: CN110263213A

Abstract

本申请是关于一种视频推送方法，该方法包括：获取第一视频中的N个候选封面；通过视频封面确定模型获得N个候选封面各自的预测置信度；该视频封面确定模型是根据第二视频中的K个候选封面，以及K个候选封面各自的用户操作数据进行强化学习获得的卷积神经网络模型；根据N个候选封面各自的预测置信度，从N个候选封面中获取第一视频的视频封面；根据第一视频的视频封面向终端推送第一视频。由于视频封面确定模型是根据用户对不同封面的相同视频执行的操作进行强化训练的卷积神经网络模型，综合考虑了用户对视频封面的选择操作，提高了后续通过训练出的模型确定视频封面的准确性。

Description

视频推送方法、装置、计算机设备及存储介质

技术领域

本申请实施例涉及视频应用技术领域，特别涉及一种视频推送方法、装置、计算机设备及存储介质。

背景技术

随着计算机网络应用的不断发展，视频播放类应用程序中的视频资源也越来越多，为了便于用户准确的查找自己想要点播的视频，视频提供商需要为各个视频确定合适的封面。

在相关技术中，视频提供商的服务器可以从视频包含的各个图像帧中选择一个图像帧作为该视频的视频封面。其中，上述封面图像帧可以通过预先为多种指标分别设置对应的权重获得。比如，开发人员预先设计图像质量分类模型，通过预先标注的高质量图片和低质量图片进行模型训练；在模型训练完成后，对于每一个视频，通过图像质量分类模型对该视频中的各图像帧进行处理，获得各图像帧的图像质量，将其中图像质量最高的图像帧作为视频封面。

然而，相关技术所示的方案需要人工标注用于训练的图片的图像质量，训练出的模型的准确性受到标注人员的主观影响，导致通过训练出的模型确定视频封面的准确性较低。

发明内容

本申请实施例提供了一种视频推送方法、装置、计算机设备及存储介质，可以提高用于提高后续通过训练出的模型确定视频封面的准确性，技术方案如下：

一方面，提供了一种视频推送方法，所述方法包括：

获取第一视频中的N个候选封面，N为大于或者等于2的整数；

通过视频封面确定模型分别对所述N个候选封面进行处理，获得所述N个候选封面各自的预测置信度，所述预测置信度用于指示对应的候选封面是视频封面的概率；所述视频封面确定模型是根据第二视频中的K个候选封面，以及所述K个候选封面各自的用户操作数据进行强化学习获得的卷积神经网络模型；所述用户操作数据用于指示所述第二视频接收到的用户操作，以及，所述用户操作对应的候选封面，K为大于或者等于2的整数；

根据所述N个候选封面各自的预测置信度，从所述N个候选封面中获取所述第一视频的视频封面；

根据所述第一视频的视频封面向终端推送所述第一视频。

另一方面，提供了一种用于确定视频封面的模型的训练方法，所述方法包括：

获取第二视频中的K个候选封面，K为大于或者等于2的整数；

通过卷积神经网络模型提取所述K个候选封面各自的图像特征；所述图像特征是所述卷积神经网络中的特征提取组件的输出；

分别以所述K个候选封面作为所述第二视频的视频封面，对所述第二视频进行推送，获得所述K个候选封面各自的用户操作数据；所述用户操作数据用于指示所述第二视频接收到的用户操作，以及，所述用户操作对应的候选封面；

根据所述K个候选封面各自的图像特征，以及所述K个候选封面各自的用户操作数据，对所述卷积神经网络模型中的置信度输出组件的网络参数进行强化学习；所述置信度输出组件用于根据所述特征提取组件提取的图像特征输出预测置信度，所述预测置信度用于指示对应的候选封面是视频封面的概率；

当所述置信度输出组件的输出结果收敛时，将所述卷积神经网络模型获取为用于确定视频封面的视频封面确定模型。

又一方面，提供了一种视频封面展示方法，用于终端中，所述方法包括：

在第一时刻，接收服务器推送的第一视频的第一视频封面，所述第一视频封面是N个候选封面中的任一封面，N为大于或者等于2的整数；

根据所述第一视频封面展示所述第一视频的视频播放入口；

在第二时刻，接收所述服务器推送的所述第一视频的第二视频封面；所述第二视频封面是通过封面确定子模型从所述N个候选封面中确定的；所述封面确定子模型是根据所述N个候选封面，以及所述N个候选封面各自的目标用户操作数据进行强化学习获得的卷积神经网络模型；所述目标用户操作数据用于指示所述第一视频接收到的目标用户操作，以及，所述目标用户操作对应的候选封面；所述目标用户操作是目标用户组中的各个用户对所述第一视频执行的用户操作，所述指定用户组是所述终端对应用户所在的用户组；

根据所述第二视频封面展示所述第一视频的视频播放入口。

一方面，提供了一种视频推送装置，所述装置包括：

候选封面获取模块，用于获取第一视频中的N个候选封面，N为大于或者等于2的整数；

置信度预测模块，用于通过视频封面确定模型分别对所述N个候选封面进行处理，获得所述N个候选封面各自的预测置信度，所述预测置信度用于指示对应的候选封面是视频封面的概率；所述视频封面确定模型是根据第二视频中的K个候选封面，以及所述K个候选封面各自的用户操作数据进行强化学习获得的卷积神经网络模型；所述用户操作数据用于指示所述第二视频接收到的用户操作，以及，所述用户操作对应的候选封面，K为大于或者等于2的整数；

视频封面获取模块，用于根据所述N个候选封面各自的预测置信度，从所述N个候选封面中获取所述第一视频的视频封面；

视频推送模块，用于根据所述第一视频的视频封面向终端推送所述第一视频。

可选的，所述视频封面确定模型包括至少两个封面确定子模型；且所述至少两个封面确定子模型分别对应各自的用户组；

所述置信度预测模块，用于，

查询所述终端对应用户所在的目标用户组；

获取所述目标用户组对应的封面确定子模型，所述目标用户组对应的封面确定子模型是根据第二视频中的K个候选封面，以及所述K个候选封面各自的目标用户操作数据进行强化学习获得的卷积神经网络模型；所述目标用户操作数据用于指示目标用户操作，以及，所述目标用户操作对应的候选封面；所述目标用户操作是所述目标用户组中的各个用户对所述第二视频执行的用户操作；

通过所述目标用户组对应的封面确定子模型分别对所述N个候选封面进行处理，获得所述N个候选封面各自的预测置信度。

可选的，所述候选封面获取模块，用于，

获取所述第一视频中的各个关键图像帧；

对所述各个关键图像帧进行聚类处理，获得至少两个聚类中心，每个所述聚类中心包含对应同一场景类型的至少一个关键图像帧；

从所述至少两个聚类中心中分别提取至少一个关键图像帧，获得所述N个候选封面。

可选的，在从所述至少两个聚类中心中分别提取至少一个关键图像帧，获得所述N个候选封面时，所述候选封面获取模块，用于，

将所述至少两个聚类中心中，包含的关键图像帧的数量小于数量阈值的聚类中心剔除，获得N个聚类中心；

从所述N个聚类中心中分别提取一个关键图像帧，获得所述N个候选封面。

可选的，所述视频封面确定模型包括特征提取组件与置信度输出组件；

所述特征提取组件用于提取输入的候选封面的图像特征；

所述置信度输出组件用于根据所述特征提取组件提取的图像特征输出所述输入的候选封面的预测置信度。

可选的，所述特征提取组件与图像分类模型中的特征提取部分相同；

其中，所述图像分类模型是通过样本图像以及所述样本图像的分类标签训练获得的卷积神经网络模型。

又一方面，提供了一种用于确定视频封面的模型的训练装置，所述装置包括：

候选封面获取模块，用于获取第二视频中的K个候选封面，K为大于或者等于2的整数；

特征提取模块，用于通过卷积神经网络模型提取所述K个候选封面各自的图像特征；所述图像特征是所述卷积神经网络中的特征提取组件的输出；

操作数据获取模块，用于分别以所述K个候选封面作为所述第二视频的视频封面，对所述第二视频进行推送，获得所述K个候选封面各自的用户操作数据；所述用户操作数据用于指示所述第二视频接收到的用户操作，以及，所述用户操作对应的候选封面；

强化学习模块，用于根据所述K个候选封面各自的图像特征，以及所述K 个候选封面各自的用户操作数据，对所述卷积神经网络模型中的置信度输出组件的网络参数进行强化学习；所述置信度输出组件用于根据所述特征提取组件提取的图像特征输出预测置信度，所述预测置信度用于指示对应的候选封面是视频封面的概率；

模型获取模块，用于当所述置信度输出组件的输出结果收敛时，将所述卷积神经网络模型获取为用于确定视频封面的视频封面确定模型。

可选的，所述装置还包括：

预测置信度获取模块，用于在模型获取模块之前，获取所述置信度输出组件输出的，所述K个候选封面各自的预测置信度；

收敛确定模块，用于当所述K个候选封面各自的预测置信度之和收敛时，确定所述置信度输出组件的输出结果收敛。

可选的，所述置信度输出组件包括向量化函数和激活函数，所述预测置信度获取模块，用于，

获取所述K个候选封面各自的向量化结果；所述K个候选封面各自的向量化结果是所述向量化函数分别对应所述K个候选封面的输出结果；

通过所述激活函数对所述K个候选封面各自的向量化结果进行处理，获得所述K个候选封面各自的预测置信度。

可选的，所述强化学习模块，用于，

根据所述K个候选封面各自的用户操作数据，获取所述K个候选封面各自的实际置信度；

根据所述K个候选封面各自的实际置信度获取策略函数，所述策略函数是使得根据所述K个候选封面各自的图像特征获得的置信度之和最大化的函数，所述置信度之和是所述K个候选封面各自的预测置信度之和；所述策略函数中的可变参数的矩阵格式与所述置信度输出组件的网络参数的矩阵格式相同；

将所述策略函数中的可变参数获取为所述向量化组件的网络参数。

可选的，所述操作数据获取模块，用于，

分别以所述K个候选封面作为所述第二视频的视频封面，对所述第二视频进行推送；

获取指定用户组中的至少一个用户对所述第二视频的用户操作记录，所述用户操作记录对应各自的候选封面；

根据所述至少一个用户对所述第二视频的用户操作记录，获取所述指定用户组对应的，所述K个候选封面各自的用户操作数据；

所述当所述置信度输出组件的输出结果收敛时，将所述卷积神经网络模型获取为用于确定视频封面的视频封面确定模型，包括：

当所述置信度输出组件的输出结果收敛时，将所述卷积神经网络模型获取为与所述指定用户组相对应的封面确定子模型。

可选的，所述装置还包括：分组模块，用于在所述操作数据获取模块获取指定用户组中的至少一个用户对所述第二视频的用户操作记录之前，根据各个用户对各个视频的用户操作记录，对所述各个用户进行分组，获得至少一个用户组，所述至少一个用户组中包含所述指定用户组。

可选的，所述装置还包括：

概率获取模块，用于当所述置信度输出组件的输出结果未收敛时，根据所述信度输出组件的输出结果获取所述K个候选封面各自在下一个指定长度时间段内的展示概率；

推送模块，用于根据所述K个候选封面各自在所述下一个指定长度时间段内的展示概率，分别以所述K个候选封面作为所述第二视频的视频封面，向所述各个终端推送所述第二视频；

所述操作数据获取模块，还用于获取所述下一个指定长度时间段内，所述K 个候选封面各自的新的用户操作数据；

所述强化学习模块，还用于根据所述K个候选封面各自的图像特征，以及所述K个候选封面各自的新的用户操作数据，对所述置信度输出组件的网络参数进行强化学习。

又一方面，提供了一种视频封面展示装置，用于终端中，所述装置包括：

第一接收模块，用于在第一时刻，接收服务器推送的第一视频的第一视频封面，所述第一视频封面是N个候选封面中的任一封面，N为大于或者等于2 的整数；

第一展示模块，用于根据所述第一视频封面展示所述第一视频的视频播放入口；

第二接收模块，用于在第二时刻，接收所述服务器推送的所述第一视频的第二视频封面；所述第二视频封面是通过封面确定子模型从所述N个候选封面中确定的；所述封面确定子模型是根据所述N个候选封面，以及所述N个候选封面各自的目标用户操作数据进行强化学习获得的卷积神经网络模型；所述目标用户操作数据用于指示所述第一视频接收到的目标用户操作，以及，所述目标用户操作对应的候选封面；所述目标用户操作是目标用户组中的各个用户对所述第一视频执行的用户操作，所述指定用户组是所述终端对应用户所在的用户组；

第二展示模块，用于根据所述第二视频封面展示所述第一视频的视频播放入口。

又一方面，提供了一种计算机设备，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的视频推送方法、用于确定视频封面的模型的训练方法，或者，视频封面展示方法。

又一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上所述的视频推送方法、用于确定视频封面的模型的训练方法，或者，视频封面展示方法。

本申请提供的技术方案可以包括以下有益效果：

通过视频封面确定模型对第一视频中的各个候选封面进行处理，获取各个候选封面各自对应的预测置信度，并根据预测置信度从候选封面中选择第一视频的视频封面，由于视频封面确定模型是根据用户对不同封面的相同视频执行的操作进行强化训练的卷积神经网络模型，综合考虑了用户对视频封面的选择操作，提高了后续通过训练出的模型确定视频封面的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种模型训练及图像帧确定的框架图；

图2是根据一示例性实施例示出的一种视频推送的流程示意图；

图3是根据一示例性实施例示出的一种用于确定视频封面的模型训练流程示意图；

图4是图3所示实施例涉及的终端记录和上传用户操作记录的流程示意图；

图5是根据一示例性实施例示出的一种用于确定视频封面的模型的训练及视频推送方法的流程图；

图6是图5所示实施例涉及的一种视频封面展示流程示意图；

图7是图5所示实施例涉及的模型训练前后同一视频的视频封面变化示意图；

图8是图5所示实施例涉及的基于强化学习的视频封面自动生成与在线选择方法的整体框架图；

图9是图5所示实施例涉及的一种模型训练流程示意图；

图10是根据一示例性实施例示出的一种视频推送装置的结构方框图；

图11是根据一示例性实施例示出的一种用于确定视频封面的模型的训练装置的结构方框图；

图12是根据一示例性实施例示出的一种视频封面展示装置的结构方框图；

图13是根据一示例性实施例示出的一种计算机设备的结构示意图；

图14是根据一示例性实施例示出的一种计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

本申请提出了一种高效并且高准确率的模型训练及模型应用方案，该方案能够训练获得用于从视频中确定该视频的视频封面的机器学习模型，并基于该机器学习模型确定的视频封面进行视频推送。为了便于理解，下面对本申请实施例涉及的几个名词进行解释。

(1)视频封面：在视频播放类应用程序的应用界面，或者，在网页页面中，对应视频的播放入口展示的图片，即为该视频的视频封面。通常情况下，一个视频的视频封面通常与该视频的内容有关，比如，该视频的视频封面可以是视频中的某一个图像帧。

(2)图像帧的置信度：在本申请中，图像帧的置信度与该图像帧是一个指定视频的视频封面的概率相关，即图像帧是指定视频的视频封面的概率越大，该图像帧的置信度越高。

随着网络视频应用的不断发展，用户或者视频服务商上传至网络的视频也越来越多，相应的，用户可以选择观看的视频资源也越来越丰富。一个视频的封面是否合理，是吸引用户点击播放该视频的重要因素，而网络中很多视频的上传者可能没有为上传的视频设置封面，或者人工设置封面不合理，这就需要视频提供商的服务器能够自动为视频设置合理的封面。

本申请后续各个实施例所示的方案，提供一种新的用于确定视频封面的模型训练及应用方案，使得通过该方案训练出的模型能够准确的从视频中确定适合生成视频封面的图像帧，同时还能够提高模型训练和更新的效率。

本申请后续各个实施例的方案是一种训练机器学习模型的方案。图1是根据一示例性实施例示出的一种模型训练及视频封面确定的框架图。如图1所示，在模型训练阶段，模型训练设备110通过各个用户对同一视频中不同封面的用户操作，训练出机器学习模型，在视频封面确定阶段，封面确定设备120根据训练好的机器学习模型以及输入的视频的各个候选封面，从该各个候选封面中确定出视频封面。

其中，上述模型训练设备110和封面确定设备120可以是具有机器学***板电脑、电子书阅读器或者便携式医疗设备等移动式计算机设备。

可选的，上述模型训练设备110和封面确定设备120可以是同一个设备，或者，模型训练设备110和封面确定设备120也可以是不同的设备。并且，当模型训练设备110和封面确定设备120是不同的设备时，模型训练设备110和封面确定设备120可以是同一类型的设备，比如模型训练设备110和封面确定设备120可以都是服务器；或者，模型训练设备110和封面确定设备120也可以是不同类型的设备，比如模型训练设备110可以是个人电脑，而封面确定设备120可以是服务器等。本申请实施例对于模型训练设备110和封面确定设备 120的具体类型不做限定。

图2是根据一示例性实施例示出的一种视频推送的流程示意图。其中，模型训练设备(比如服务器)可以根据第二视频中的K个候选封面，以及该K个候选封面各自的用户操作数据对卷积神经网络模型进行强化学习，获得视频封面确定模型。上述用户操作数据用于指示第二视频接收到的用户操作，以及，该用户操作对应的候选封面，K为大于或者等于2的整数。

如图2所示，在向各个终端推送第一视频时，服务器可以获取第一视频中的N个候选封面，N为大于或者等于2的整数(S21)；然后通过上述训练好的视频封面确定模型分别对N个候选封面进行处理，获得N个候选封面各自的预测置信度，其中，该预测置信度用于指示对应的候选封面是视频封面的概率 (S22)；之后，根据该N个候选封面各自的预测置信度，从N个候选封面中获取第一视频的视频封面(S23)；再根据第一视频的视频封面向终端推送第一视频(S24)。

综上所述，在本申请实施例中，预先通过同一视频对应的K个图像帧分别作为视频封面时的用户操作数据，按照强化学习的方式训练卷积神经网络，获得视频封面确定模型，模型训练完成后，在对第一视频进行推送时，通过训练好的视频封面确定模型对第一视频的N个候选封面进行处理，获得N个候选封面各自是视频封面的概率，并从N个候选封面中确定出第一视频的视频封面，由于在模型训练过程中，综合考虑了用户对视频封面的选择操作，提高了训练出的模型的准确性，相应的，也提高了后续通过训练出的模型确定视频封面的准确性。

图3是根据一示例性实施例实施例示出的一种用于确定视频封面的模型的训练流程示意图。如图3所示，开发人员首先设置一个初始的卷积神经网络模型，该初始模型包含特征提取组件和置信度输出组件。图3所示模型流程的目的，包括训练该置信度输出组件中的网络参数。以模型训练设备是视频提供商的服务器为例，如图3所示，对于第二视频，该服务器可以获取第二视频中的K 个候选封面(S31)，该K为大于或者等于2的整数；服务器通过卷积神经网络模型提取K个候选封面各自的图像特征；其中，上述图像特征是该卷积神经网络中的特征提取组件的输出(S32)；然后，服务器分别以该K个候选封面作为该第二视频的视频封面，对该第二视频进行推送，获得该K个候选封面各自的用户操作数据；该用户操作数据用于指示该第二视频接收到的用户操作，以及，该用户操作对应的候选封面(S33)；并且，服务器根据该K个候选封面各自的图像特征，以及该K个候选封面各自的用户操作数据，对该卷积神经网络模型中的置信度输出组件的网络参数进行强化学习(S34)；其中，该置信度输出组件用于根据该特征提取组件提取的图像特征输出预测置信度，该预测置信度用于指示对应的候选封面是视频封面的概率。当该置信度输出组件的输出结果收敛时，将该卷积神经网络模型获取为用于确定视频封面的视频封面确定模型 (S35)；若置信度输出组件的输出结果未收敛，则服务器可以返回步骤S33，继续进行视频推送和强化训练，直至置信度输出组件的输出结果收敛。

其中，上述图2所示实施例中的第一视频和图3所示实施例中的第二视频可以是不同的视频，即服务器通过第二视频的推送进行强化训练后，可以将训练好的模型用于确定第二视频之外的其它视频的封面确定。

或者，上述第一视频和第二视频也可以是同一个视频，即服务器通过第一视频的推送进行强化训练后，可以通过训练好的模型确定第一视频的视频封面，后续对第一视频的推送过程中，以模型确定的视频封面进行推送。

在上述训练过程中，需要终端侧具有反馈的用户操作信息的能力。其中，请参考图4，其示出了本申请实施例涉及的终端记录和上传用户操作记录的流程示意图。如图4所示，终端可以接收服务器发送的第二视频的推送消息(S41)，该推送消息中包含的视频封面K个候选封面中的任一封面；终端根据该视频封面展示该第二视频的视频播放入口(S42)；在接收到对该视频播放入口的触发操作后，终端获取用户操作记录(S43)，该用户操作记录用于指示在当前终端中针对该第二视频执行的用户操作；终端向该服务器发送该用户操作记录(S44)，以便该服务器根据各个终端发送的用户操作记录获取K个候选封面各自的用户操作数据。

综上所述，在本申请实施例中，以包含特征提取组件和置信度输出组件的卷积神经网络模型作为初始模型，并以置信度输出组件的网络参数为训练目标，通过同一视频对应的K个候选封面分别作为封面时的用户操作数据，以及特征提取组件对K个候选封面各自处理后的输出结果，训练获得置信度输出组件的网络参数，一方面，由于本申请中通过具有机器学习模型来提取候选封面的特征，不需要开发人员专门设计图像的评价指标，另一方面，结合K个候选封面分别作为视频封面时的用户操作数据来训练模型，综合考虑了用户对视频封面的选择操作，提高了训练出的模型的准确性，从而在保证训练出的模型能够准确的从视频中确定适合生成视频封面的图像帧的同时，还能够提高模型训练和更新的效率。

其中，上述图3所示的方案中，上述置信度输出组件的网络参数的确定过程可以按照不同的时间段迭代执行，并且，后一次网络参数确定过程中推送各个候选封面作为视频封面的概率，可以根据前一次训练的置信度输出组件的输出进行优化。

图5是根据一示例性实施例示出的一种用于确定视频封面的模型的训练及视频推送方法的流程图，该用于确定视频封面的模型的训练及视频推送方法可以用于计算机设备，比如上述图1所示的模型训练设备110和封面确定设备120 中，以训练获得上述图2或图3所示的实施例涉及的视频封面确定模型，并根据确定的模型进行视频推送。以上述模型训练设备110和封面确定设备120是视频提供商的服务器为例，如图5所示，该方法可以包括如下步骤：

步骤501，服务器获取第二视频中的K个候选封面，K为大于或者等于2 的整数。

其中，上述K个候选封面可以是第二视频中具有代表性的至少两个图像帧，比如，该K个候选封面可以是分别代表第二视频中不同场景的图像帧，或者，上述K个候选封面也可以是分别代表第二视频中不同人/物的图像帧。

以K个候选封面是分别代表第二视频中不同场景的图像帧为例，服务器获取第二视频中的K个候选封面的方案可以如下：

S501a，获取第二视频中的各个关键图像帧。

其中，本申请实施例中的各个关键图像帧是分别对应第二视频中的各个场景的图像帧。

在一种可能的示例中，服务器在获取第二视频中的各个关键帧时，可以首先对第二视频进行场景分割，获得若干个场景片段，然后，从若干个场景片段中的每个场景片段中提取至少一个图像帧，作为上述第二视频中的各个关键图像帧。

其中，从若干个场景片段中的每个场景片段中提取至少一个图像帧时，服务器可以首先对于每个场景片段，过滤该场景片段中的纯色图像帧、模糊图像帧以及重复图像帧，然后将该场景片段中剩余的图像帧按照图像质量(比如色彩饱和度、锐度以及图像内容复杂度中至少一种)进行排序，并将排在前列的至少一个图像帧获取为该场景片段对应的关键图像帧。

S501b，对各个关键图像帧进行聚类处理，获得至少两个聚类中心，每个该聚类中心包含对应同一场景类型的至少一个关键图像帧。

在本申请实施例中，服务器可以对各个关键图像帧进行k-means聚类，其中， k-平均算法(英文：k-means clustering)源于信号处理中的一种向量量化方法，目前更多地作为一种聚类分析方法流行于数据挖掘领域。k-平均聚类的目的是：把n个点(可以是样本的一次观察或一个实例)划分到k个聚类中，使得每个点都属于离他最近的均值(此即聚类中心)对应的聚类，以之作为聚类的标准。在本申请实施例中，使用k-means聚类可以将场景相似的关键图像帧聚类。

S501c，从该至少两个聚类中心中分别提取至少一个关键图像帧，获得该K 个候选封面。

在一种可能的示例中，服务器可以从上述聚类得到的各个聚类中心中分别提取一个图像帧，也就是说，上述聚类中心的个数K可以设置为第一视频中作为封面的图像帧数量，这样可以将相似场景的关键图像帧聚合成一类，便于后续步骤选择出差异最大的封面图，并且提高计算效率。比如，对于每个聚类中心中的各个关键帧图片，服务器根据色彩饱和度、锐度、内容复杂度等属性排序，在每个聚类中心选择最优的图片，得到K个图像帧，组成候选封面图集。

或者，服务器也可以从各个聚类中心中分别提取多个图像帧，比如，当上述各个聚类中心的数量较少(比如少于3个)时，服务器可以从每个聚类中心中分别提取两个或者三个图像帧，作为上述K个图像帧。

在本申请实施例中，为了进一步提高后续计算效率，在聚类完成后，服务器还可以对聚类中心进行筛选，以进一步减少K的数值，比如，在本申请实施例中，服务器可以将该至少两个聚类中心中，包含的关键图像帧的数量小于数量阈值的聚类中心剔除，获得K个聚类中心；并从该K个聚类中心中分别提取一个关键图像帧，获得该K个图像帧。

上述数量阈值可以是开发人员预先设置的数值，或者，上述数量阈值也可以是服务器根据第一视频包含的图像帧的数量确定的数值。其中，当上述数量阈值是服务器根据第一视频包含的图像帧的数量确定的数值时，该数量阈值可以与第一视频包含的图像帧的数量成正相关，也就是说，第一视频包含的图像帧的数量越大，数量阈值的数值也越大，反之，第一视频包含的图像帧的数量越小，数量阈值的数值也越小。

其中，当第一视频中某个聚类中心包含的关键图像帧数量较少时，可以认为该第一视频中涉及该聚类中心的场景片段较短，该场景片段中的图像帧不适合代表该第一视频，因此，在获取第一视频中的K个图像帧时，服务器在进行聚类后，首先将各个聚类中心中，包含图像帧的数量较少(比如少于5)的聚类中心排除，并从剩余的聚类中心中分别提取出一个图像帧，作为上述K个图像帧。

除了通过上述关键帧提取和聚类的方式获取K个候选封面之外，服务器还可以通过其它方式获取K个候选封面，比如，服务器可以通过预先训练好的机器学习模型(比如图像分类模型)对第一视频中的部分或者全部图像帧进行处理，并根据处理结果从中选择出K个候选封面。

步骤502，服务器分别以K个候选封面作为第二视频的视频封面，对第二视频进行推送。相应的，终端接收服务器对第二视频的推送消息，该推送消息中包含的视频封面是第二视频中的K个候选封面中的一个。

在一种可能的实现方式中，服务器在某个时刻向一个终端推送第二视频时，可以从K个候选封面中随机选择一个候选封面作为第一视频的视频封面，并根据视频封面向该终端发送第二视频的推送消息。

在一个可能的示例中，服务器可以直接将选择的视频封面作为第二视频的封面图像。

或者，在另一个可能的示例中，服务器也可以对视频封面进行预定处理，获得第二视频的封面图像，比如，服务器可以对视频封面进行裁剪、锐化等处理，以获得第二视频的封面图像。

也就是说，对于同一个终端，在模型训练完成之前，服务器两次向该终端推送该第二视频时，推送消息中携带的视频封面可以是第二视频中不同的候选封面；相应的，对于不同的两个终端，服务器向着两个终端分别推送该第二视频时，推送消息中携带的视频封面也可以是第二视频中不同的候选封面。

其中，终端可以在展示服务器对应的应用程序的界面或者网页页面时，接收服务器发送的第二视频的推送消息。其中，该应用程序可以是视频播放类应用程序(包括短视频应用程序等)，或者其它具有视频播放功能或者网页展示功能的应用程序。

步骤503，终端根据视频封面展示该第二视频的视频播放入口。

终端接收到第二视频的推送消息后，可以根据该推送消息，在应用程序的界面或者网页页面中展示第二视频的视频播放入口，比如，该视频播放入口可以是一个图片链接，或者，该视频播放入口可以是一个图片控件。上述图片链接或者图片控件中的图片是上述推送消息中携带的第二视频的视频封面。

步骤504，终端接收到对该视频播放入口的触发操作后，获取用户操作记录，该用户操作记录用于指示在当前终端中针对该第二视频执行的用户操作。

在本申请实施例中，终端在展示第二视频的视频播放入口后，还记录用户对该第二视频的操作记录，比如，是否点击该第二视频的视频播放入口，播放该第二视频的时长，是否点赞该第二视频，以及，是否转发该第二视频等等。

步骤505，终端向该服务器发送该用户操作记录，服务器接收该用户操作记录。

终端记录该用户操作记录之后，可以将第二视频的用户操作记录定期或者即时上传给服务器。相应的，服务器接收该用户操作记录。

其中，上述每条用户操作记录对应各自的候选封面。

在一种示例性的方案中，上述用户操作记录中可以直接包含对应的候选封面的标识。比如，终端在生成一条用户操作记录时，可以获取用户操作对应的候选封面的标识，并将获取到的候选封面的标识添加到该用户操作记录中。

在另一种示例性的方案中，上述用户操作记录中也可以不直接包含对应的候选封面的标识，服务器接收到终端发送的一条用户操作记录后，可以获取该用户操作记录对应的候选封面的标识，并将获取到的候选封面的标识与该用户操作记录对应存储。比如，终端在生成一条用户操作记录时，可以在该用户操作记录中添加对应的视频的推送消息的标识，服务器接收到该用户操作记录后，在服务器中查询该推送消息的标识对应的候选封面的标识。

步骤506，服务器获取该K个候选封面各自的用户操作数据。

其中，该用户操作数据用于指示第二视频接收到的用户操作，以及，该用户操作对应的候选封面。

在本申请实施例中，服务器可以按照指定长度时间段为周期，统计各个用户终端上传的，对应该第二视频的用户操作记录，以获得在各个指定长度时间段内，K个候选封面分别作为第二视频的封面时，各个用户针对该第二视频的用户操作数据。

其中，在一种可能的示例中，该用户操作数据包括以下数据中的至少一项：

对应的候选封面作为该第二视频的视频封面时，该第二视频的点击率；

对应的候选封面作为该第二视频的视频封面时，该第二视频每次被点击后的播放时长；

对应的候选封面作为该第二视频的视频封面时，该第二视频的被点赞率；

对应的候选封面作为该第二视频的视频封面时，该第二视频的被转发率。

在一种示例性的方案中，服务器获取该K个候选封面各自的用户操作数据时，可以获取各个指定长度时间段内，K个候选封面分别作为第二视频的视频封面时，全部用户针对该第二视频的用户操作数据。

比如，在某个指定长度时间段内，服务器接收到1000个用户分别对第二视频的用户操作记录，服务器可以根据该1000个用户分别对第二视频的用户操作记录，生成K个候选封面分别作为第二视频的封面时，各个用户针对该第二视频的用户操作数据。

在另一种示例性的方案中，服务器还可以根据各个用户对各个视频的用户操作，对各个用户进行分组，获得至少一个用户组，并针对每一个用户组，分别获取该用户组对应的，K个候选封面各自的用户操作数据。比如，服务器可以获取指定用户组中的至少一个用户对第二视频的用户操作记录(该至少一个用户对第二视频的用户操作记录对应各自的候选封面)，并根据该至少一个用户对第二视频的用户操作记录，获取指定用户组对应的，K个候选封面各自的用户操作数据。

比如，服务器预先根据***中各个用户分别对各个视频的用户操作记录，对各个用户进行分组，获得至少一个用户组，在某个指定长度时间段内，服务器接收到1000个用户分别对第二视频的用户操作记录，针对上述至少一个用户组中的指定用户组，服务器可以获取该1000个用户中属于该指定用户组的至少一个(比如100个)用户分别对第二视频的用户操作记录，获取该指定用户组对应的，该K个候选封面各自的用户操作数据。

步骤507，服务器通过卷积神经网络模型提取该K个候选封面各自的图像特征；该图像特征是该卷积神经网络中的特征提取组件的输出。

在本申请实施例中，上述卷积神经网络模型中除了最后一层全连接层的网络参数之外，其它层的网络参数可以为开发人员预先设置的参数。

除了CNN模型之外，本申请实施例也可以使用其他包含至少两个全连接层的神经网络模型进行训练，比如循环神经网络(Recurrent Neural Network，RNN) 或者深度神经网络(Deep Neural Networks，DNN)等。此外，上述模型中的全连接层也可以替换为其它用于实现对图像特征进行向量化的函数。

在一种可能的实现方式中，该卷积神经网络模型中的特征提取组件，与图像分类模型中的特征提取部分相同；其中，该图像分类模型是通过样本图像以及该样本图像的分类标签训练获得的模型。

在本申请实施例中，可以复用已有的图像分类模型中的特征提取部分，作为卷积神经网络模型中的特征提取组件，并通过卷积神经网络模型中的特征提取组件分别提取K个候选封面各自的图像特征，并将特征提取组件的输出结果作为K个候选封面各自的特征数据。

比如，以CNN模型为例，对于K个候选封面中每个候选封面，使用CNN 模型进行候选封面的特征向量提取。其中，CNN模型是一种前馈神经网络模型，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。CNN网络由一个或多个卷积层和顶端的全连接层(对应经典的神经网络)组成，同时也包括关联权重和池化层(poolinglayer)。这一结构使得CNN 模型能够更好的利用输入数据的二维结构。与其他深度学习结构相比，CNN模型在图像和语音识别等方面能够给出更好的结果。目前，主流的用于图片分类的网络结构模型有VggNet模型，ResNet模型等。本申请实施例中，可以使用通过公共数据库预训练的图像分类CNN模型作为上述卷积神经网络模型，并且根据后续的强化学习对卷积神经网络模型的网络参数进行调优，既保留图像帧的高级语义特征，又使得网络特征表示更适合封面选择的任务场景。其中，上述K 个候选封面各自的特征数据，可以是CNN模型对K个候选封面分别进行处理时，CNN模型中的倒数第二层全连接层的输出结果。

其中，上述步骤507可以在步骤501到步骤508之间执行，且与步骤502 至步骤507之间的执行顺序不限。

步骤508，服务器根据K个候选封面各自的图像特征，以及K个候选封面各自的用户操作数据，对卷积神经网络模型中的置信度输出组件的网络参数进行强化学习。

其中，该置信度输出组件用于根据特征提取组件提取的图像特征输出预测置信度，该预测置信度用于指示对应的候选封面是视频封面的概率。

可选的，服务器可以在根据该K个候选封面各自的用户操作数据，获取该 K个候选封面各自的实际置信度(也称为奖励数值)；并根据K个候选封面各自的实际置信度获取策略函数，该策略函数是使得根据K个候选封面各自的图像特征获得的置信度之和最大化的函数，上述置信度之和是K个候选封面各自的预测置信度之和。其中，该策略函数中的可变参数的矩阵格式与该置信度输出组件的网络参数的矩阵格式相同。

比如，在某一指定长度时间段结束后，服务器获取该指定长度时间段内，该K个候选封面各自的用户操作数据，并根据该K个候选封面各自的用户操作数据以及特征数据，获取该指定长度时间段对应该置信度输出组件的网络参数。

在本申请实施例中，以CNN模型为例，对于K个候选封面中的第i个候选封面，设该候选封面的展示概率为P_i，其中，i小于等于K的正整数，则有：

P_i＝σ(Wh_i)；

其中，h_i为CNN网络倒数第二层全连接层的输出结果，W为隐层后全连接层(即最后一层全连接层)的网络参数，σ为sigmoid函数(即激活函数)。

此外，以用户操作数据包括对应的候选封面作为该第二视频的视频封面时，该第二视频的点击率，以及对应的图像帧作为该第二视频的封面时，该第二视频每次被点击后的播放时长为例，服务器统计在上述指定长度时间段内，将K 个候选封面中每个候选封面作为视频封面时，第二视频的点击率和播放时长。

由于视频的点击率可以反映封面对用户的吸引程度，而播放时长可以反映封面对视频的语义匹配程度，设奖励函数表示为：

R＝R_click+R_duration；

其中，R_click是以视频的点击率为输入的函数，R_duration是以视频每次被点击后的播放时长为输入的函数，本申请的任务目标是通过强化学习的方式，寻找一个策略函数P(θ)，使得奖励函数计算得到的K个图像帧各自的置信度之和最大化，其中，P(θ)由CNN网络定义。其中，目标函数可以表示为：

J(θ)＝E_P(θ)[R]；

通过上述强化学习训练过程，可以使得策略函数得到的封面的特征表示可以最大化拟合线上的用户行为。

步骤509，服务器获取置信度输出组件输出的，该K个候选封面各自的预测置信度。

在本申请实施例中，训练出的函数的输出结果，即作为对应候选封面的预测置信度，也作为对应图像真是第二视频的视频封面的概率。

在一种可能的示例中，该置信度输出组件包括向量化函数和激活函数，服务器获取置信度输出组件输出的，该K个候选封面各自的预测置信度的过程可以如下：

服务器获取该K个候选封面各自的向量化结果；该K个候选封面各自的向量化结果是该向量化函数分别对应K个候选封面的输出结果；服务器通过该激活函数对该K个候选封面各自的向量化结果进行处理，获得该K个候选封面各自的预测置信度。

比如，在本申请实施例中，以CNN模型为例，服务器可以将上述训练得到的网络参数作为CNN模型中最后一层全连接层的网络参数w，带入上述公式 P_i＝σ(Wh_i)，获得K个候选封面各自的展示概率，也就是K个候选封面各自的预测置信度，并将K个候选封面各自的预测置信度累加，获得上述指定长度时间段内，K个候选封面各自的预测置信度之和。

步骤510，服务器判断该K个候选封面各自的预测置信度之和是否收敛，若是，进入步骤511，否则，返回步骤502。

其中，服务器可以获取K个候选封面在上述指定长度时间段之前的至少一个指定长度时间段分别对应的预测置信度之和，并根据K个候选封面在上述指定长度时间段内的预测置信度之和，以及K个候选封面在上述指定长度时间段之前的至少一个指定长度时间段内的预测置信度之和，判断该K个候选封面各自的预测置信度之和是否收敛。

比如，当上述指定长度时间段内的预测置信度之和，与上述指定长度时间段之前的一个指定长度时间段内的预测置信度之和之间的差值，小于差值阈值，则可以认为该K个候选封面各自的预测置信度之和收敛。

步骤511，服务器将卷积神经网络模型获取为用于确定视频封面的视频封面确定模型。

在一种示例性的方案中，当上述K个候选封面的各自的用户操作数据是根据所有用户的用户操作记录获得的用户操作数据时，上述视频封面确定模型可以是针对所有用户的模型。

在另一种示例性的方案中，当上述K个候选封面的各自的用户操作数据是根据指定用户组中的至少一个用户的用户操作记录获得的指定用户操作数据时，当上述置信度输出组件的输出结果收敛时，服务器可以将该卷积神经网络模型获取为与指定用户组相对应的封面确定子模型。

在本申请实施例中，当置信度输出组件的输出结果未收敛时，服务器还可以根据信度输出组件的输出结果获取K个候选封面各自在下一个指定长度时间段内的展示概率；根据该K个候选封面各自在该下一个指定长度时间段内的展示概率，分别以该K个候选封面作为该第二视频的封面图像帧，向该各个终端推送该第二视频；获取该下一个指定长度时间段内，该K个候选封面各自的新的用户操作数据；根据该K个候选封面各自的新的用户操作数据，以及该K个候选封面各自的图像特征对置信度输出组件的网络参数进行强化学习。

在本申请实施例中，服务器可以在将K个候选封面分别作为第一视频的视频封面进行推送时，根据用户的操作行为调整推送策略，以减少了对用户操作数据的积累需求，从达到加速模型收敛速度的效果。比如，以CNN模型为例，在一个指定长度时间段后，服务器判断K个候选封面各自的预测置信度之和未达到收敛状态，此时，服务器根据该指定长度时间段对应的训练结果，按照上述公式P_i＝σ(Wh_i)，获得K个候选封面各自的展示概率，并在下一个指定长度时间段内，按照计算出的K个候选封面各自的展示概率进行封面推送，也就是所，对于第i个候选封面，该第i个候选封面的展示概率越高，服务器在下一个指定长度时间内进行第二视频的推送时，该第i个候选封面越有可能被设置为第二视频的视频封面。

步骤512，服务器获取第一视频中的N个候选封面，N为大于或者等于2 的整数。

可选的，服务器可以获取该第一视频中的各个关键图像帧；对该各个关键图像帧进行聚类处理，获得至少两个聚类中心，每个该聚类中心包含对应同一场景类型的至少一个关键图像帧；从该至少两个聚类中心中分别提取至少一个关键图像帧，获得该N个候选封面。

可选的，在从至少两个聚类中心中分别提取至少一个关键图像帧，获得N 个候选封面时，服务器可以将至少两个聚类中心中，包含的关键图像帧的数量小于数量阈值的聚类中心剔除，获得N个聚类中心，并从N个聚类中心中分别提取一个关键图像帧，获得上述N个候选封面。

其中，服务器获取第一视频中的N个候选封面，与获取第二视频中的K个候选封面的步骤类似，此处不再赘述。

步骤513，服务器通过视频封面确定模型分别对该N个候选封面进行处理，获得该N个候选封面各自的预测置信度。

在一种可能的实现方式中，上述视频封面确定模型可以是针对所有用户终端进行视频封面确定的模型。

在另一种可能的实现方式中，该视频封面确定模型包括至少两个封面确定子模型；且该至少两个封面确定子模型分别对应各自的用户组；服务器可以查询该终端对应用户所在的目标用户组；获取该目标用户组对应的封面确定子模型，该目标用户组对应的封面确定子模型是根据第二视频中的K个候选封面，以及该K个候选封面各自的目标用户操作数据进行强化学习获得的卷积神经网络模型；该目标用户操作数据用于指示目标用户操作，以及，该目标用户操作对应的候选封面；该目标用户操作是该目标用户组中的各个用户对该第二视频执行的用户操作；通过该目标用户组对应的封面确定子模型分别对该N个候选封面进行处理，获得该N个候选封面各自的预测置信度。

步骤514，根据该N个候选封面各自的预测置信度，从该N个候选封面中获取该第一视频的视频封面。

在本申请实施例中，服务器可以将N个候选封面中，对应的预测置信度最高的封面作为第一视频的视频封面。

步骤515，根据该第一视频的视频封面向终端推送该第一视频。

在训练获得上述视频封面确定模型之后，服务器即可以根据该视频封面确定模型，对每一个视频分别确定一个视频封面，并根据确定的视频封面进行视频推送。

可选的，在根据该N个候选封面各自的预测置信度，从该N个候选封面中确定该第一视频的视频封面之前，服务器还可以获取该N个候选封面各自的图像分类；确定该N个候选封面中的匹配封面，该匹配封面是图像分类与该第一视频的视频描述信息相匹配的候选封面；在根据该N个候选封面各自的预测置信度，从该N个候选封面中确定该第一视频的封面图像帧时，服务器可以将该匹配封面中对应预测置信度最高的候选封面获取为该第一视频的视频封面。

在一种可能的实现方式中，在确定该第一视频的封面时，服务器还可以结合候选封面与视频的匹配度来选择视频的封面。比如，服务器可以获取第一视频的视频简介信息，并根据N个候选封面各自的图像分类，然后计算图像分类与视频简介之间的匹配度，将N个候选封面中，对应匹配度高于匹配度阈值的候选封面中，置信度最高的一个候选封面获取为第一视频的视频封面。

比如，上述第一视频是某个车评节目视频，该车评节目视频的简介信息为“XX车评人试驾Y车”，服务器计算第一视频的5个候选封面分别与该简介信息的匹配度，其中，2个不包含汽车的候选封面低于匹配度阈值，而其它三个包含汽车的候选封面高于匹配度阈值，则服务器将三个包含汽车的候选封面中，对应预测置信度最高的候选封面获取为该第一视频的视频封面。

在一种可能的示例中，若上述训练获得的视频封面确定模型包括指定用户组对应的封面确定子模型(相应的，其它用户组也具有各自的封面确定子模型)，则服务器在向该指定用户组中的用户的终端推送第一视频时，可以根据封面确定子模型从第一视频的N个候选封面中确定视频封面，并根据确定的视频封面向该指定用户组中的用户的终端推送第一视频。

通过上述方案，对于同一个第一视频，属于同一用户组的各个用户的终端展示的该第一视频的封面是同一个视频封面，而属于不同的用户组的各个用户的终端展示的该第一视频的封面可以是不同的视频封面。且由于各个用户的分组由用户对各个视频的用户操作决定，因此，通过上述方案，可以针对不同喜好的用户，从第一视频中的多个候选封面中，选择用户可能偏好的候选封面作为视频封面。例如，某个用户偏好点击和观看具有男明星的视频封面的视频，服务器可以根据用户偏好将该用户划分入特定的用户组，后续根据该用户组对应的目标模型为该用户推送其它视频的视频封面时，也会更倾向于向该用户推送具有男明星的视频封面。

其中，上述第一视频和第二视频可以是同一个视频，也可以是不同的视频。当上述第一视频和第二视频是同一个视频时，某个终端在目标模型训练完成前后，对第一视频展示的视频播放入口的视频封面可能会发生变化。比如，请参考图6，其示出了本申请实施例涉及的一种视频封面展示流程示意图。如图6所示，终端展示上述第一视频的视频播放入口的步骤可以如下：

S61，在目标模型训练完成之前的第一时刻，终端接收服务器推送的第一视频的第一视频封面，该第一视频封面是N个候选封面中的任一封面(比如随机选择的封面)，N为大于或者等于2的整数。

S62，终端根据该第一视频封面展示该第一视频的视频播放入口；

S63，在后续视频封面确定模型训练完成后的第二时刻，终端可以接收该服务器推送的该第一视频的第二视频封面；该第二视频封面是通过封面确定子模型从该N个候选封面中确定的；该封面确定子模型是根据该N个候选封面，以及该N个候选封面各自的目标用户操作数据进行强化学习获得的卷积神经网络模型；该目标用户操作数据用于指示该目标用户操作，以及，该目标用户操作对应的候选封面；该目标用户操作是目标用户组中的各个用户对第一视频执行的用户操作，该指定用户组是该终端对应用户所在的用户组；

S64，终端根据该第二视频封面展示该第一视频的视频播放入口。

比如，请参考图7，其示出了本申请实施例涉及的模型训练前后同一视频的视频封面变化示意图。如图7所示，在模型训练完成前的第一时刻，终端展示第一视频的视频播放入口71，该视频播放入口71的视频封面为视频封面1，该视频封面1是第一视频的N个候选封面中任一封面；在模型训练完成后的第二时刻，终端展示同样包含第一视频的页面，则服务器根据该终端对应用户所在的用户组，通过该用户组对应的模型从第一视频的N个候选封面中提取指定候选封面，并将指定候选封面做为视频封面2，并将视频封面2推送给终端，如图 7所示，终端在该页面中展示第一视频的视频播放入口71，此时，该视频播放入口71的视频封面变化为视频封面2。

本申请所示的方案提出一种基于强化学习的视频封面自动生成与在线选择方法。强化学习是一种机器学习算法，强调基于当前状态做出选择，以获得最大化的预期收益。本方案可以在视频推荐场景中，对候选封面进行试探，根据当前用户的点击行为计算候选封面的预测置信度，并且根据预测置信度决策接下来的试探行为。

请参考图8，其示出了本申请实施例涉及的一种基于强化学习的视频封面自动生成与在线选择方法的整体框架图，如图8所示，该框架所涉及的技术侧的整体流程包括：

81)离线挖掘视频候选封面，并保存图片索引。

82)对每个候选封面，使用CNN卷积神经网络进行图片的特征向量提取，即对每张候选封面使用CNN模型提取1维特征表示。

83)线上对视频的候选封面进行试探，累计一段时间内，不同候选封面的点击率和播放时长数据。其中，封面试探的概率为P＝{P_i}，其中，i代表封面的序号，并且，

∑_iP_i＝1。

84)基于强化学习在线学习候选封面的预测置信度之和。根据不同候选封面的点击率和播放时长数据，以及奖励函数公式R＝R_click+R_duration，计算实际置信度R，进一步计算候选封面的预测置信度之和。

85)候选封面的置信度得分收敛，选择置信度最高的封面作为最终展示封面。

以初始模型为CNN模型为例，请参考图9，其示出了本申请实施例涉及的一种模型训练流程示意图。如图9所示，该模型训练过程可以如下：

S901，读取视频1的视频数据；

S902，对视频1进行场景分割，提取视频1中每个场景的关键图像帧；

S903，对视频1中每个场景的关键图像帧进行聚类，获得K个聚类中心；

S904，从每个聚类中心提取一幅图像帧，获得K个候选封面；

S905，将K个候选封面分别输入初始模型，获得倒数第二层全连接层输出的，K个候选封面各自的特征数据；

S906，在一个指定长度时间段内，将K个候选封面分别作为视频1的封面，向各个终端推送视频1；

S907，根据各个终端中的用户对视频1的操作记录，生成K个候选封面各自的用户操作数据，用户操作数据包括点击率和播放时长等；

S908，根据K个候选封面各自的特征数据和用户操作数据，通过强化训练获得该指定长度时间段对应的目标函数；该目标函数使得通过用户操作数据计算获得的，K个候选封面的置信度之和最大化；

S909，判断K个候选封面的置信度之和是否收敛；

S910，若K个候选封面的置信度之和收敛，则将初始模型中最后一层全连接层的网络参数设置为目标参数；该目标参数还是目标函数中的参数矩阵。

S911，若K个候选封面的置信度之和未收敛，则根据该目标参数计算K个候选封面各自的展示概率；

S912，返回步骤S906，在下一个指定长度时间段内，根据K个候选封面各自的展示概率，将K个候选封面分别作为视频1的封面，向各个终端推送视频 1。

综上所述，本申请实施例所示的方案，以包含特征提取组件和置信度输出组件的卷积神经网络模型作为初始模型，并以置信度输出组件的网络参数为训练目标，通过同一视频对应的K个候选封面分别作为视频封面时的用户操作数据，以及特征提取组件对K个候选封面各自处理后的输出结果，通过强化学习的方法训练获得视频封面确定模型，一方面，由于本申请中通过具有机器学习模型来提取候选封面的特征，不需要开发人员专门设计图像的评价指标，另一方面，结合K个候选封面分别作为视频封面时的用户操作数据来进行强化学习，综合考虑了用户对视频封面的选择操作，提高了训练出的模型的准确性，从而在保证训练出的模型能够准确的从视频中确定适合生成视频封面的图像帧的同时，还能够提高模型训练和更新的效率。

另外，本申请实施例所示的方案自动生成包含多个图像帧的封面图候选集，便于用户快速定位目标视频，提升视频点击率。

此外，本申请实施例所示的方案基于用户操作行为得到作为封面的多个候选封面的置信度，该置信度可以反映封面对用户的吸引程度以及与视频主题的匹配程度，并且反映同一视频中作为封面的多个候选封面之间的偏序关系。

另外，本申请实施例所示的方案，通过强化学习端到端的学习过程，避免了前期特征设计以及与提取工作，有利于得到更符合用户偏好的封面。

此外，本申请实施例所示的方案，在试探不同封面图展现的同时根据用户实时的点击行为调整试探策略，减少了对用户点击率数据的积累需求，加速了模型收敛速度。

另外，在本申请实施例中，服务器可以在将K个候选封面分别作为视频封面进行推送时，根据用户的操作行为调整推送策略，以减少了对用户操作数据的积累需求，从达到加速模型收敛速度的效果。

本方案基于强化学习，根据视频推荐***中用户的点击播放行为自动选择最吸引用户的封面。该方案的有益效果包括，在视频推荐场景下，可以扩充视频封面展示的候选集，并且无需人工标注数据与特征工程设计，就可以自动选择最适合展示的封面，进而提高视频的点击率和播放时长。

上述各个实施例中，仅以模型训练设备是视频提供商的服务器为例进行说明，在其它示例性的方案中，上述模型训练设备也可以是服务器之外的其它设备，比如，与服务器相连的管理设备，或，独立的个人计算机设备等等，或者，上述模型训练设备也可以是云计算中心等。本申请对于模型训练设备的具体形态不做限定。

通过本申请上述实施例所示的方案，模型的训练和使用方法可以应用在为用户自动确定视频封面的人工智能(Artificial Intelligence，AI)中，以向各个用户推送合适的视频封面，或者，针对不同的用户，分别推送用户可能偏好的视频封面。

图10是根据一示例性实施例示出的一种视频推送装置的结构方框图。该图像识别装置可以用于计算机设备中，以执行图2或图5所示实施例中，由服务器执行的全部或者部分步骤。该视频推送装置可以包括：

候选封面获取模块1001，用于获取第一视频中的N个候选封面，N为大于或者等于2的整数；

置信度预测模块1002，用于通过视频封面确定模型分别对所述N个候选封面进行处理，获得所述N个候选封面各自的预测置信度，所述预测置信度用于指示对应的候选封面是视频封面的概率；所述视频封面确定模型是根据第二视频中的K个候选封面，以及所述K个候选封面各自的用户操作数据进行强化学习获得的卷积神经网络模型；所述用户操作数据用于指示所述第二视频接收到的用户操作，以及，所述用户操作对应的候选封面，K为大于或者等于2的整数；

视频封面获取模块1003，用于根据所述N个候选封面各自的预测置信度，从所述N个候选封面中获取所述第一视频的视频封面；

视频推送模块1004，用于根据所述第一视频的视频封面向终端推送所述第一视频。

所述置信度预测模块1002，用于，

查询所述终端对应用户所在的目标用户组；

可选的，所述候选封面获取模块1001，用于，

获取所述第一视频中的各个关键图像帧；

可选的，在从所述至少两个聚类中心中分别提取至少一个关键图像帧，获得所述N个候选封面时，所述候选封面获取模块1001，用于，

所述特征提取组件用于提取输入的候选封面的图像特征；

图11是根据一示例性实施例示出的一种用于确定视频封面的模型的训练装置的结构方框图。该装置可以用于计算机设备中，以执行图3或图5所示实施例中，由服务器执行的全部或者部分步骤。该装置可以包括：

候选封面获取模块1101，用于获取第二视频中的K个候选封面，K为大于或者等于2的整数；

特征提取模块1102，用于通过卷积神经网络模型提取所述K个候选封面各自的图像特征；所述图像特征是所述卷积神经网络中的特征提取组件的输出；

操作数据获取模块1103，用于分别以所述K个候选封面作为所述第二视频的视频封面，对所述第二视频进行推送，获得所述K个候选封面各自的用户操作数据；所述用户操作数据用于指示所述第二视频接收到的用户操作，以及，所述用户操作对应的候选封面；

强化学习模块1104，用于根据所述K个候选封面各自的图像特征，以及所述K个候选封面各自的用户操作数据，对所述卷积神经网络模型中的置信度输出组件的网络参数进行强化学习；所述置信度输出组件用于根据所述特征提取组件提取的图像特征输出预测置信度，所述预测置信度用于指示对应的候选封面是视频封面的概率；

模型获取模块1105，用于当所述置信度输出组件的输出结果收敛时，将所述卷积神经网络模型获取为用于确定视频封面的视频封面确定模型。

可选的，所述装置还包括：

预测置信度获取模块，用于在模型获取模块1105之前，获取所述置信度输出组件输出的，所述K个候选封面各自的预测置信度；

可选的，所述强化学习模块1104，用于，

可选的，所述操作数据获取模块1103，用于，

可选的，所述装置还包括：分组模块，用于在所述操作数据获取模块1103 获取指定用户组中的至少一个用户对所述第二视频的用户操作记录之前，根据各个用户对各个视频的用户操作记录，对所述各个用户进行分组，获得至少一个用户组，所述至少一个用户组中包含所述指定用户组。

可选的，所述装置还包括：

所述操作数据获取模块1103，还用于获取所述下一个指定长度时间段内，所述K个候选封面各自的新的用户操作数据；

所述强化学习模块1104，还用于根据所述K个候选封面各自的图像特征，以及所述K个候选封面各自的新的用户操作数据，对所述置信度输出组件的网络参数进行强化学习。

图12是根据一示例性实施例示出的一种视频封面展示装置的结构方框图。该视频封面展示装置可以用于计算机设备中，以执行图2、图3或图5所示实施例中，由终端执行的全部或者部分步骤。该视频封面展示装置可以包括：

第一接收模块1201，用于在第一时刻，接收服务器推送的第一视频的第一视频封面，所述第一视频封面是N个候选封面中的任一封面，N为大于或者等于2的整数；

第一展示模块1202，用于根据所述第一视频封面展示所述第一视频的视频播放入口；

第二接收模块1203，用于在第二时刻，接收所述服务器推送的所述第一视频的第二视频封面；所述第二视频封面是通过封面确定子模型从所述N个候选封面中确定的；所述封面确定子模型是根据所述N个候选封面，以及所述N个候选封面各自的目标用户操作数据进行强化学习获得的卷积神经网络模型；所述目标用户操作数据用于指示所述第一视频接收到的目标用户操作，以及，所述目标用户操作对应的候选封面；所述目标用户操作是目标用户组中的各个用户对所述第一视频执行的用户操作，所述指定用户组是所述终端对应用户所在的用户组；

第二展示模块1204，用于根据所述第二视频封面展示所述第一视频的视频播放入口。

图13是根据一示例性实施例示出的一种计算机设备的结构示意图。所述计算机设备1300包括中央处理单元(CPU)1301、包括随机存取存储器(RAM) 1302和只读存储器(ROM)1303的***存储器1304，以及连接***存储器1304 和中央处理单元1301的***总线1305。所述计算机设备1300还包括帮助计算机内的各个器件之间传输信息的基本输入/输出***(I/O***)1306，和用于存储操作***1313、应用程序1314和其他程序模块1315的大容量存储设备1307。

所述基本输入/输出***1306包括有用于显示信息的显示器1308和用于用户输入信息的诸如鼠标、键盘之类的输入设备1309。其中所述显示器1308和输入设备1309都通过连接到***总线1305的输入输出控制器1310连接到中央处理单元1301。所述基本输入/输出***1306还可以包括输入输出控制器1310以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1310还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1307通过连接到***总线1305的大容量存储控制器 (未示出)连接到中央处理单元1301。所述大容量存储设备1307及其相关联的计算机可读介质为计算机设备1300提供非易失性存储。也就是说，所述大容量存储设备1307可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质 (未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的***存储器1304和大容量存储设备1307可以统称为存储器。

计算机设备1300可以通过连接在所述***总线1305上的网络接口单元 1311连接到互联网或者其它网络设备。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理器1301通过执行该一个或一个以上程序来实现图2、图3或图5所示的方法中，由服务器执行的全部或者部分步骤。

图14示出了本申请一个示例性实施例提供的终端1400的结构框图。该终端1400可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio LayerIII，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group AudioLayer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1400还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1400包括有：处理器1401和存储器1402。

处理器1401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1401可以采用DSP(Digital Signal Processing，数字信号处理)、 FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA (Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1401可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器 1401还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1402中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1401所执行以实现上述图2、图3或图5所示的方法实施例中，由终端执行的全部或者部分步骤。

在一些实施例中，终端1400还可选包括有：***设备接口1403和至少一个***设备。处理器1401、存储器1402和***设备接口1403之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口1403相连。具体地，***设备包括：射频电路1404、触摸显示屏1405、摄像头1406、音频电路1407、定位组件1408和电源1409中的至少一种。

***设备接口1403可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器1401和存储器1402。在一些实施例中，处理器1401、存储器1402和***设备接口1403被集成在同一芯片或电路板上；在一些其他实施例中，处理器1401、存储器1402和***设备接口1403中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1404用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1404将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1404包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1404可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真) 网络。在一些实施例中，射频电路1404还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1405用于显示UI(UserInterface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1405是触摸显示屏时，显示屏1405还具有采集在显示屏1405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1401进行处理。此时，显示屏1405还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1405可以为一个，设置终端1400的前面板；在另一些实施例中，显示屏1405可以为至少两个，分别设置在终端1400的不同表面或呈折叠设计；在再一些实施例中，显示屏1405可以是柔性显示屏，设置在终端1400的弯曲表面上或折叠面上。甚至，显示屏1405还可以设置成非矩形的不规则图形，也即异形屏。显示屏1405可以采用LCD(Liquid Crystal Display，液晶显示屏)、 OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1406用于采集图像或视频。可选地，摄像头组件1406包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1406还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1401进行处理，或者输入至射频电路 1404以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1401或射频电路1404的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1407还可以包括耳机插孔。

定位组件1408用于定位终端1400的当前地理位置，以实现导航或LBS (LocationBased Service，基于位置的服务)。定位组件1408可以是基于美国的GPS(GlobalPositioning System，全球定位***)、中国的北斗***或俄罗斯的伽利略***的定位组件。

电源1409用于为终端1400中的各个组件进行供电。电源1409可以是交流电、直流电、一次性电池或可充电电池。当电源1409包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1400还包括有一个或多个传感器1410。该一个或多个传感器1410包括但不限于：加速度传感器1411、陀螺仪传感器1412、压力传感器1413、指纹传感器1414、光学传感器1415以及接近传感器1416。

加速度传感器1411可以检测以终端1400建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1411可以用于检测重力加速度在三个坐标轴上的分量。处理器1401可以根据加速度传感器1411采集的重力加速度信号，控制触摸显示屏1405以横向视图或纵向视图进行用户界面的显示。加速度传感器1411还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1412可以检测终端1400的机体方向及转动角度，陀螺仪传感器1412可以与加速度传感器1411协同采集用户对终端1400的3D动作。处理器1401根据陀螺仪传感器1412采集的数据，可以实现如下功能：动作感应 (比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1413可以设置在终端1400的侧边框和/或触摸显示屏1405的下层。当压力传感器1413设置在终端1400的侧边框时，可以检测用户对终端1400 的握持信号，由处理器1401根据压力传感器1413采集的握持信号进行左右手识别或快捷操作。当压力传感器1413设置在触摸显示屏1405的下层时，由处理器1401根据用户对触摸显示屏1405的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1414用于采集用户的指纹，由处理器1401根据指纹传感器1414 采集到的指纹识别用户的身份，或者，由指纹传感器1414根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1401授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1414可以被设置终端1400的正面、背面或侧面。当终端1400上设置有物理按键或厂商Logo时，指纹传感器1414可以与物理按键或厂商Logo集成在一起。

光学传感器1415用于采集环境光强度。在一个实施例中，处理器1401可以根据光学传感器1415采集的环境光强度，控制触摸显示屏1405的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1405的显示亮度；当环境光强度较低时，调低触摸显示屏1405的显示亮度。在另一个实施例中，处理器1401 还可以根据光学传感器1415采集的环境光强度，动态调整摄像头组件1406的拍摄参数。

接近传感器1416，也称距离传感器，通常设置在终端1400的前面板。接近传感器1416用于采集用户与终端1400的正面之间的距离。在一个实施例中，当接近传感器1416检测到用户与终端1400的正面之间的距离逐渐变小时，由处理器1401控制触摸显示屏1405从亮屏状态切换为息屏状态；当接近传感器 1416检测到用户与终端1400的正面之间的距离逐渐变大时，由处理器1401控制触摸显示屏1405从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图14中示出的结构并不构成对终端1400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括计算机程序(指令)的存储器，上述程序(指令)可由计算机设备的处理器执行以完成本申请各个实施例所示的方法的全部或者部分步骤。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、 CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种视频推送方法，其特征在于，所述方法包括：

获取第一视频中的N个候选封面，N为大于或者等于2的整数；

查询终端对应用户所在的目标用户组；

获取所述目标用户组对应的封面确定子模型，所述封面确定子模型属于视频封面确定模型，所述视频封面确定模型是根据第二视频中的K个候选封面，以及所述K个候选封面各自的用户操作数据进行强化学习获得的卷积神经网络模型；所述用户操作数据用于指示所述第二视频接收到的用户操作，以及，所述用户操作对应的候选封面，K为大于或者等于2的整数；所述视频封面确定模型中包括至少两个封面确定子模型，且所述至少两个封面确定子模型分别对应各自的用户组；所述目标用户组对应的封面确定子模型是根据第二视频中的K个候选封面，以及所述K个候选封面各自的目标用户操作数据进行强化学习获得的卷积神经网络模型；所述目标用户操作数据用于指示目标用户操作，以及，所述目标用户操作对应的候选封面；所述目标用户操作是所述目标用户组中的各个用户对所述第二视频执行的用户操作；

通过所述目标用户组对应的封面确定子模型分别对所述N个候选封面进行处理，获得所述N个候选封面各自的预测置信度，所述预测置信度用于指示对应的候选封面是视频封面的概率；

根据所述第一视频的视频封面向所述终端推送所述第一视频。

2.根据权利要求1所述的方法，其特征在于，所述获取第一视频中的N个候选封面，包括：

获取所述第一视频中的各个关键图像帧；

3.根据权利要求2所述的方法，其特征在于，所述从所述至少两个聚类中心中分别提取至少一个关键图像帧，获得所述N个候选封面，包括：

4.根据权利要求1至3任一所述的方法，其特征在于，所述视频封面确定模型包括特征提取组件与置信度输出组件；

所述特征提取组件用于提取输入的候选封面的图像特征；

5.一种用于确定视频封面的模型的训练方法，其特征在于，所述方法包括：

获取第二视频中的K个候选封面，K为大于或者等于2的整数；

当所述置信度输出组件的输出结果收敛时，将所述卷积神经网络模型获取为用于确定视频封面的视频封面确定模型；

当所述置信度输出组件的输出结果未收敛时，根据所述信度输出组件的输出结果获取所述K个候选封面各自在下一个指定长度时间段内的展示概率；根据所述K个候选封面各自在所述下一个指定长度时间段内的展示概率，分别以所述K个候选封面作为所述第二视频的视频封面，向各个终端推送所述第二视频；获取所述下一个指定长度时间段内，所述K个候选封面各自的新的用户操作数据；根据所述K个候选封面各自的图像特征，以及所述K个候选封面各自的新的用户操作数据，对所述置信度输出组件的网络参数进行强化学习。

6.根据权利要求5所述的方法，其特征在于，所述根据所述K个候选封面各自的图像特征，以及所述K个候选封面各自的用户操作数据，对所述卷积神经网络模型中的置信度输出组件的网络参数进行强化学习，包括：

将所述策略函数中的可变参数获取为所述置信度输出组件的网络参数。

7.根据权利要求5所述的方法，其特征在于，

所述分别以所述K个候选封面作为所述第二视频的视频封面，对所述第二视频进行推送，获得所述K个候选封面各自的用户操作数据，包括：

8.根据权利要求7所述的方法，其特征在于，所述获取指定用户组中的至少一个用户对所述第二视频的用户操作记录之前，所述方法还包括：

根据各个用户对各个视频的用户操作记录，对所述各个用户进行分组，获得至少一个用户组，所述至少一个用户组中包含所述指定用户组。

9.一种视频封面展示方法，其特征在于，用于终端中，所述方法包括：

根据所述第一视频封面展示所述第一视频的视频播放入口；

在第二时刻，接收所述服务器推送的所述第一视频的第二视频封面；所述第二视频封面是根据所述N个候选封面各自的预测置信度从所述N个候选封面中确定的，所述预测置信度用于指示对应的候选封面是视频封面的概率；所述N个候选封面各自的预测置信度是通过目标用户组对应的封面确定子模型分别对所述N个候选封面进行处理获得的；所述目标用户组是所述服务器查询的所述终端对应用户所在的用户组；视频封面确定模型中包括至少两个封面确定子模型，且所述至少两个封面确定子模型分别对应各自的用户组，所述封面确定子模型是根据所述N个候选封面，以及所述N个候选封面各自的目标用户操作数据进行强化学习获得的卷积神经网络模型；所述目标用户操作数据用于指示所述第一视频接收到的目标用户操作，以及，所述目标用户操作对应的候选封面；所述目标用户操作是所述目标用户组中的各个用户对所述第一视频执行的用户操作；

根据所述第二视频封面展示所述第一视频的视频播放入口。

10.一种视频推送装置，其特征在于，所述装置包括：

置信度预测模块，用于查询终端对应用户所在的目标用户组；获取所述目标用户组对应的封面确定子模型，所述封面确定子模型属于视频封面确定模型，所述视频封面确定模型是根据第二视频中的K个候选封面，以及所述K个候选封面各自的用户操作数据进行强化学习获得的卷积神经网络模型；所述用户操作数据用于指示所述第二视频接收到的用户操作，以及，所述用户操作对应的候选封面，K为大于或者等于2的整数；所述视频封面确定模型中包括至少两个封面确定子模型，且所述至少两个封面确定子模型分别对应各自的用户组；所述目标用户组对应的封面确定子模型是根据第二视频中的K个候选封面，以及所述K个候选封面各自的目标用户操作数据进行强化学习获得的卷积神经网络模型；所述目标用户操作数据用于指示目标用户操作，以及，所述目标用户操作对应的候选封面；所述目标用户操作是所述目标用户组中的各个用户对所述第二视频执行的用户操作；通过所述目标用户组对应的封面确定子模型分别对所述N个候选封面进行处理，获得所述N个候选封面各自的预测置信度，所述预测置信度用于指示对应的候选封面是视频封面的概率；

视频推送模块，用于根据所述第一视频的视频封面向所述终端推送所述第一视频。

11.一种视频封面展示装置，其特征在于，用于终端中，所述装置包括：

第一接收模块，用于在第一时刻，接收服务器推送的第一视频的第一视频封面，所述第一视频封面是N个候选封面中的任一封面，N为大于或者等于2的整数；

第二接收模块，用于在第二时刻，接收所述服务器推送的所述第一视频的第二视频封面；所述第二视频封面是根据所述N个候选封面各自的预测置信度从所述N个候选封面中确定的，所述预测置信度用于指示对应的候选封面是视频封面的概率；所述N个候选封面各自的预测置信度是通过目标用户组对应的封面确定子模型分别对所述N个候选封面进行处理获得的；所述目标用户组是所述服务器查询的所述终端对应用户所在的用户组；视频封面确定模型中包括至少两个封面确定子模型，且所述至少两个封面确定子模型分别对应各自的用户组，所述封面确定子模型是根据所述N个候选封面，以及所述N个候选封面各自的目标用户操作数据进行强化学习获得的卷积神经网络模型；所述目标用户操作数据用于指示所述第一视频接收到的目标用户操作，以及，所述目标用户操作对应的候选封面；所述目标用户操作是所述目标用户组中的各个用户对所述第一视频执行的用户操作；

12.一种计算机设备，其特征在于，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一所述的方法。

13.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至9任一所述的方法。