CN115474084A

CN115474084A - 一种视频封面图像的生成方法、装置、设备和存储介质

Info

Publication number: CN115474084A
Application number: CN202210954874.5A
Authority: CN
Inventors: 宁本德
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2022-08-10
Filing date: 2022-08-10
Publication date: 2022-12-13
Anticipated expiration: 2042-08-10
Also published as: CN115474084B

Abstract

本发明实施例提供了一种视频封面图像的生成方法、装置、设备和存储介质，所述方法包括：获取目标视频的各个视频图像，并确定与各个视频图像对应的第一语义图像；获取引导图像和引导图像对应的第二语义图像；分别将各个第一语义图像与第二语义图像进行对比，得到与各个第一语义图像对应的第一对比结果；分别将各个视频图像与引导图像进行对比，得到与各个视频图像对应的第二对比结果；根据第一对比结果和第二对比结果，从视频图像中筛选出目标视频的封面图像。从而将第一语义图像与第二语义图像进行对比，将视频图像与引导图像进行色彩对比，根据对比结果筛选出封面图像，减少了筛选封面图像的时间。

Description

一种视频封面图像的生成方法、装置、设备和存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种视频封面图像的生成方法、装置、电子设备、计算机可读存储介质。

背景技术

随着互联网技术的发展，互联网的应用越来越广发，功能也越来越强大。用户可以通过互联网观看各种视频，通常每个视频都会展示出与视频相对应的封面图，一个较好的封面图能够有效的吸引到用户的点击，因此从视频中提取封面图对于视频网站而言是比较重要的。

传统的方法中通常是直接对视频抽帧，将抽帧后的图像进行各种信息分析得到封面图，其中信息包括了人脸信息、声音、字母等，而通过传统的方法需要调用人脸检测和识别、音频检测和识别、文字检测和识别，势必会增加生成封面图的工程的复杂性和耗时，并且得到的封面图也可能不符合设计师的标准。因此如何快速的从视频中选取到符合设计师标准的封面图正是本技术领域人员要解决的问题。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种视频封面图像的生成方法、一种视频封面图像的生成装置、一种电子设备和一种计算机可读存储介质。

为了解决上述问题，本发明实施例公开了一种视频封面图像的生成方法，所述方法包括：

获取目标视频的各个视频图像，并确定与各个所述视频图像对应的第一语义图像；所述第一语义图像用于表示所述视频图像中目标对象的位置分布；

获取引导图像和所述引导图像对应的第二语义图像；所述第二语义图像用于表示所述引导图像中参照对象的位置分布；

分别将各个所述第一语义图像与所述第二语义图像进行对比，得到与各个所述第一语义图像对应的第一对比结果；

分别将各个所述视频图像与所述引导图像进行对比，得到与各个所述视频图像对应的第二对比结果；

根据与各个所述第一语义图像对应的所述第一对比结果和与各个所述视频图像对应的所述第二对比结果，从所述视频图像中筛选目标图像作为所述目标视频的封面图像。

可选地，所述获取目标视频的各个视频图像，并确定与各个所述视频图像对应的第一语义图像，包括：

获取所述目标视频，并将所述目标视频进行抽帧处理得到各个所述视频图像；

分别将各个所述视频图像输入预设语义生成网络进行处理，得到与各个所述视频图像对应的第一语义图像；所述第一语义图像的像素用于通过不同像素颜色表示所述目标对象在所述第一语义图像的位置分布；所述像素颜色用于所述第一语义图像与所述第二语义图像进行对比。

可选地，所述分别将各个所述第一语义图像与所述第二语义图像进行对比，得到与各个所述第一语义图像对应的第一对比结果，包括：

分别计算各个所述第一语义图像中与所述第二语义图像对应位置的像素差值；

根据所述第一语义图像与所述第二语义图像对应位置的像素差值，分别计算各个所述第一语义图像与所述第二语义图像的语义相似度。

可选地，所述分别将各个所述视频图像与所述引导图像进行对比，得到与各个所述视频图像对应的第二对比结果，包括：

分别计算各个所述视频图像与所述引导图像对应位置的像素差值；

根据所述视频图像与所述引导图像对应位置的像素差值，分别计算各个所述视频图像与所述引导图像的色彩相似度。

可选地，所述根据与各个所述第一语义图像对应的所述第一对比结果和与各个所述视频图像对应的所述第二对比结果，从所述视频图像中筛选目标图像作为所述目标视频的封面图像，包括：

分别根据各个所述视频图像对应第一语义图像与第二语义图像的语义相似度和所述视频图像与所述引导图像的色彩相似度，计算各个所述视频图像的总相似度；

根据各个所述视频图像的总相似度，从所述视频图像中筛选目标图像作为所述目标视频的封面图像。

可选地，所述根据所述第一语义图像与所述第二语义图像对应位置的像素差值，分别计算各个所述第一语义图像与所述第二语义图像的语义相似度，包括：

按照如下公式分别计算各个所述第一语义图像与所述第二语义图像的相似度：

其中，EDs表示所述第一语义图像与所述第二语义图像的语义相似度，Cs表示所述第一语义图像的图像通道，js表示所述第一语义图像中第j个像素，Ms表示同一图像通道中所述第一语义图像的像素数目，Si表示第一语义图像，SG表示第二语义图像。

可选地，所述分别根据所述视频图像与所述引导图像对应位置的像素差值，计算各个所述视频图像与所述引导图像的色彩相似度，包括：

按照如下公式分别计算各个所述视频图像与所述引导图像的色彩相似度：

其中，ED_i表示所述视频图像与所述引导图像的色彩相似度，C_I表示所述视频图像的图像通道，Ii表示所述视频图像，IG表示所述引导图像，

表示Ii像素的平均值，j_i表示所述视频图像中第j个像素，M_i表示同一图像通道中所述视频图像的像素数目，θ表示预设常数。

本发明实施例公开了一种视频封面图像的生成装置，所述装置包括：

确定模块，用于获取目标视频的各个视频图像，并确定与各个所述视频图像对应的第一语义图像；所述第一语义图像用于表示所述视频图像中目标对象的位置分布；

获取模块，用于获取引导图像和所述引导图像对应的第二语义图像；所述第二语义图像用于表示所述引导图像中参照对象的位置分布；

第一对比模块，用于分别将各个所述第一语义图像与所述第二语义图像进行对比，得到与各个所述第一语义图像对应的第一对比结果；

第二对比模块，用于分别将各个所述视频图像与所述引导图像进行对比，得到与各个所述视频图像对应的第二对比结果；

筛选模块，用于根据与各个所述第一语义图像对应的所述第一对比结果和与各个所述视频图像对应的所述第二对比结果，从所述视频图像中筛选目标图像作为所述目标视频的封面图像。

可选地，所述确定模块包括：

抽帧子模块，用于获取所述目标视频，并将所述目标视频进行抽帧处理得到各个所述视频图像；

获取子模块，用于分别将各个所述视频图像输入预设语义生成网络进行处理，得到与各个所述视频图像对应的第一语义图像；所述第一语义图像的像素用于通过不同像素颜色表示所述目标对象在所述第一语义图像的位置分布；所述像素颜色用于所述第一语义图像与所述第二语义图像进行对比。

可选地，所述第一对比模块包括：

第一计算子模块，用于分别计算各个所述第一语义图像与所述第二语义图像对应位置的像素差值；

第二计算子模块，用于根据所述第一语义图像与所述第二语义图像对应位置的像素差值，分别计算各个所述第一语义图像与所述第二语义图像的语义相似度。

可选地，所述第二对比模块包括：

第三计算子模块，用于分别计算各个所述视频图像与所述引导图像对应位置的像素差值；

第四计算子模块，用于根据所述视频图像与所述引导图像对应位置的像素差值，分别计算各个所述视频图像与所述引导图像的色彩相似度。

可选地，所述筛选模块包括：

第五计算子模块，用于分别根据各个所述视频图像对应第一语义图像与第二语义图像的语义相似度和所述视频图像与所述引导图像的色彩相似度，计算各个所述视频图像的总相似度；

筛选子模块，用于根据各个所述视频图像的总相似度，从所述视频图像中筛选目标图像作为所述目标视频的封面图像。

可选地，所述第二计算子模块包括：

第一计算单元，用于按照如下公式分别计算各个所述第一语义图像与所述第二语义图像的图语义相似度：

其中，EDs表示所述第一语义图像与所述第二语义图像的语义相似度，C_s表示所述第一语义图像的图像通道，j_s表示所述第一语义图像中第j个像素，M_s表示同一图像通道中所述第一语义图像的像素数目，Si表示第一语义图像，SG表示第二语义图像。

可选地，所述第四计算子模块包括：

第二计算单元，用于按照如下公式分别计算各个所述视频图像与所述引导图像的色彩相似度：

本发明还公开了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的视频封面图像生成方法的步骤。

本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述的视频封面图像生成方法的步骤。

本发明实施例包括以下优点：

本发明实施例中，通过将各个视频图像对应的第一语义图像与引导图像对应的第二语义图像进行对比，得到第一对比结果，将视频图像与引导图像进行对比，得到第二对比结果；第一语义图像与第二语义图像对比和视频图像与引导图像对比都只是对像素进行对比，并不需要调用人脸检测和识别、音频检测和识别、文字检测和识别等复杂算法；根据第一对比结果和第二对比结果，可以从视频图像中筛选目标图像作为目标视频的封面图像，该方法实现方式简单，数据计算量少，能够减少筛选封面图像的时间。

附图说明

图1是本发明实施例提供的一种视频封面图像的生成方法的步骤流程图；

图2是本发明实施例提供的一种视频图像和第一语义图像的示意图；

图3是本发明实施例提供的一种引导图像和第二语义图像的示意图；

图4是本发明实施例提供的得到第一对比结果的步骤流程图；

图5是本发明实施例提供的得到第二对比结果的步骤流程图；

图6本发明实施例提供的一种视频封面图像的生成装置的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

现有技术中需要调用人脸检测和识别、音频检测和识别、文字检测和识别得到视频的封面图，而该方法会增加生成封面图的过程的繁琐和耗时，且从视频中选取到的封面图也不符合设计师的标准。本发明为了解决上述技术问题，通过一种视频封面图像的生成方法，其核心构思在于，将视频图像对应的第一语义图像与引导图像对应的第二语义图像进行对比，和将视频图像与引导图像进行色彩对比，根据对比的结果从视频图像中确定出封面图。

参照图1，示出了本发明实施例提供的一种视频封面图像的生成方法的步骤流程图，所述方法具体可以包括如下步骤：

步骤101，获取目标视频的各个视频图像，并确定与各个所述视频图像对应的第一语义图像；所述第一语义图像用于表示所述视频图像中目标对象的位置分布。

本发明实施例中目标对象可以为人、动物、物体等对象，在获取目标视频后，对目标视频进行抽帧处理得到视频图像，在对目标视频进行抽帧处理时，可以根据预设时间周期对目标视频进行抽帧处理得到视频图像，还可以根据预设帧数周期对目标视频进行抽帧处理得到视频图像，其中，视频图像包括对目标视频抽帧处理后得到的一帧或多帧的抽帧图。

例如，按照目标视频的视频时长为60分钟，预设时间周期为5秒，那么对目标视频每5秒钟进行一次抽帧处理，可以得到720张视频图像，预设时间周期越短，所得到的视频图像就会越多，视频图像越多可提供与引导图像对比的图像就越多，最后生成得到的目标视频的封面图像也会更加的符合设计师的标准，本申请中的预设时间周期可以根据实际需求进行合理的设置，在此不作具体限制。再例如，目标视频的视频帧率为30帧/秒，目标视频的视频时长为60分钟，预设帧数周期为60帧，那么对目标视频每60帧进行一次抽帧处理，可以得到1800张视频图像，预设帧数周期越小，所得到的视频图像就会越多，视频图像越多可提供与引导图像对比的图像就越多，最后生成得到的目标视频的封面图像也会更加的符合设计师的标准，本申请中的预设帧数周期可以根据实际需求进行合理的设置，在此不作具体限制。

将视频图像输入预设语义生成网络进行处理，得到与各个视频图像对应的第一语义图像。预设语义生成网络可以预先训练为能识别特定的目标对象。通过预设语义生成网络处理可以至少得到与一种目标对象对应的第一语义图像。例如，预设语义生成网络可以预先训练为能够识别人、动物、车辆等对象。当目标对象为人时，通过预设语义生成网络处理后可以得到目标对象为人的第一语义图像，当目标对象为人和狗时，通过预设语义生成网络处理后可以得到目标对象为人和狗的第一语义图像。

第一语义图像的像素可以通过不同像素颜色表示目标对象在第一语义图像的位置分布，还可以用来区分目标对象和非目标对象，从而可以表示视频图像中目标对象的位置分布。例如，第一语义图像中数值为0的像素表示黑色，数值为1的像素表示白色；若以黑色表示目标对象，白色表示非目标对象，则第一语义图像中对应目标对象的像素为0，对应非目标对象的像素为1。再例如，第一语义图像中有三种颜色，分别为黑色、白色、红色，第一语义图像中包括两个目标对象，其中一个目标对象的像素对应黑色，另一个目标对象的像素对应红色，背景的像素对应白色。像素颜色可以用于第一语义图像与第二语义图像进行对比。例如，第一语义图像与第二语义图像中有黑和白两种像素颜色，第一语义图中像素颜色为黑的区域表示目标对象的区域，第二语义图像中像素为黑的区域表示参照对象的区域，将第一语义图像与第二语义图像中像素颜色为黑色的区域进行对比，黑色区域越相似，表示第一语义图像与第二语义图像越相似。

本发明实施例在得到目标视频的视频图像后，将视频图像输入到预设语义生成网络中进行处理，得到与视频图像对应的第一语义图像，其中，语义图像包括与视频图像对应的第一语义图像和与引导图像对应的第二语义图像，预设语义生成网络为预先对多组样本信息通过深度学习神经网络学习得到，深度学习神经网络包括：Mask RCNN、BackgroundMatting等，本发明在此不作限定。

参照2所述，示出了本发明实施例提供的一种视频图像和第一语义图像的例图，目标视频为电视剧A的第一集，图2中21A、22A、23A、24A为电视剧A第一集的视频图像，将视频图像21A、22A、33A、34A分别输入到预设语义生成网络中进行处理后，得到与视频图像21A、22A、23A、24A分别相对应的第一语义图像21B、22B、23B、24B。

步骤102，获取引导图像和所述引导图像对应的第二语义图像；所述第二语义图像用于表示所述引导图像中参照对象的位置分布；

获取引导图像和与引导图像对应的第二语义图像，引导图像为预先从预设影视剧封面图像中筛选出来的图像，预设影视剧可以根据热度的高低或评分的高低进行筛选，若影视剧的热度值大于预设热度阈值或评分值大于预设评分值，则该影视剧为预设影视剧，该影视剧的封面图像为引导图像，而一个影视剧的封面图像一般不会仅有一张，因此引导图像的张数可以为多张经典影视剧的封面图像，也可以从不同的经典影视剧中筛选出多张封面图像作为引导图像，本申请在此不作限定，本申请中引导图像是从预设影视剧封面图像中筛选出来的图像，而筛选出来的图像都是通过专业设计师设计而成，本申请进而根据与引导图像进行对比筛选出来的目标视频的封面图像也符合专业设计师的设计。例如，根据影视剧热度的高低筛选出影视剧B，即影视剧B为预设影视剧，获取影视剧B的封面图像，将影视剧B的封面图像作为引导图像。而每张图像的分辨率有可能存在不同的情况，因此，在获取引导图像后检测引导图像与视频图像的分辨率，若引导图像的分辨率与视频图像的分辨率不同，对引导图像的分辨率进行处理，使引导图像与视频图像的分辨率相同，以便后续将图像进行对比时，使每张图像之间的每个像素能保持相对应。然后将引导图像输入到预设语义生成网络中进行处理，得到与引导图像对应的第二语义图像。第二语义图像可以通过像素的颜色区分参照对象和非参照对象，从而可以表示引导图像中参照对象的位置分布。本申请中的参照对象可以为人、动物、物体等对象。

参照图3所示，示出了本发明实施例提供的一种引导图像和第二语义图像的例图，将电视剧B的封面图像作为引导图像，将引导图像3A输入到预设语义生成网络中进行处理后，得到与引导图像3A相对应的第二语义图3B。

步骤103，分别将各个所述第一语义图像与所述第二语义图像进行对比，得到与各个所述第一语义图像对应的第一对比结果；

本申请中对多个视频图像的第一语义图像，可以分别将各个第一语义图像与第二语义图像进行对比，得到与各个第一语义图像对应的第一对比结果。

例如，将目标视频抽帧处理后得到1000张视频图像，分别将1000张视频图像输入预设语义生成网络进行处理，得到1000张与各个视频图像对应的第一语义图像，引导图像为1张，处理后得到的1张第二语义图像，分别将1000张第一语义图像与第二语义图像进行对比，将每张第一语义图像中的每个像素与第二语义图像中各个像素位置相对应的像素进行对比，根据每个像素对比的结果，得到每张第一语义图像与第二语义图像的第一对比结果，1000张第一语义图像与第二语义图像对比后，得到1000个与第一语义图像对应的第一对比结果。

在将第一语义图像与第二语义图像进行对比的方式可以为：分别将第一语义图像各个位置的像素与第二语义图像中对应位置的像素进行对比，得到各个位置像素的对比结果；根据各个位置像素的对比结果可以得到第一语义图像的第一对比结果。通过第一语义图像与第二语义图像进行对比，可以筛选出与引导图像构图相似度高的视频图像。

参照图4所示，示出了本发明实施例提供的得到第一对比结果的步骤流程图；

步骤S11，分别计算各个所述第一语义图像与所述第二语义图像对应位置的像素差值；

第一语义图像和第二语义图像可以为以多种色彩空间进行表示，色彩空间可以包括RGB、HSV、HLV、YCBCR、LUV等。对于不同的色彩空间，可以根据该色彩空间的色彩属性，计算第一语义图像与第二语义图像对应位置的像素差值。例如，以RGB色彩空间为例，对应的属性即色彩属性为R通道、G通道、B通道，可以分别计算R通道、G通道、B通道中第一语义图像与第二语义图像对应位置的像素差值。本领域技术人员可以基于图像的色彩空间，计算第一语义图像与第二语义图像对应位置的像素差值，在此不作具体限定。

步骤S12，根据所述第一语义图像与第二语义图像对应位置的像素差值，分别计算各个所述第一语义图像与所述第二语义图像的语义相似度。

在一种实施例中，可以根据第一语义图像与第二语义图像中对应位置的像素差值，分别计算各个第一语义图与第二语义图像对应位置像素之间的语义相似度；根据第一语义图像与第二语义图像对应位置像素之间的语义相似度，分别计算第一语义图像与第二像语义图的语义相似度。第一语义图像对应的语义相似度越高反应出视频图像中的目标对象与引导图像中的参照对象的位置分布越相似。

在一种实施例中，可以按照如下公式分别计算第一语义图像与第二语义图的语义相似度：

其中，EDs表示第一语义图像与第二语义图像的语义相似度，C_s表示第一语义图像的图像通道，j_s表示第一语义图像中第j个像素，M_s表示同一图像通道中第一语义图像的像素数目，Si表示第一语义图像，SG表示第二语义图像。若第一语义图像的图像通道只有一个通道，那么上述公式中的Cs＝1。EDs值越大表示第一语义图像与第二语义图的语义相似度越高。

步骤104，分别将各个所述视频图像与所述引导图像进行对比，得到与各个所述视频图像对应的第二对比结果；

本申请中对多个视频图像可以分别将各个视频图像与引导图像进行对比，得到与各个视频图像对应的第二对比结果。

在将视频图像与引导图像进行对比的方式可以为：分别将视频图像各个位置的像素与引导图像中对应位置的像素进行对比，得到各个位置像素的对比结果；根据各个位置像素的对比结果可以得到视频图像的第二对比结果。通过视频图像与引导图像进行对比可以，筛选出与引导图像色彩搭配相似度高的视频图像。

参照图5所示，示出了本发明实施例提供的得到第二对比结果的步骤流程图；

步骤S21，分别计算各个视频图像与引导图像对应位置的像素差值；

视频图像和引导图像可以为以多种色彩空间进行表示，色彩空间可以包括RGB、HSV、HLV、YCBCR、LUV等。对于不同的色彩空间，可以根据该色彩空间的色彩属性，计算视频图像与引导图像对应位置的像素差值。例如，以RGB色彩空间为例，对应的属性即色彩属性为R通道、G通道、B通道，可以分别计算R通道、G通道、B通道中视频图像与引导图像对应位置的像素差值。以LUV色彩空间为例，可以将LUV色彩空间相对应的参数值转换为与RGB色彩空间相对应的参数值，然后分别计算R通道、G通道、B通道中视频图像与引导图像对应位置的像素差值。本领域技术人员可以基于图像的色彩空间，计算第一语义图像与第二语义图像对应位置的像素差值，在此不作具体限定。

步骤S22，根据视频图像与引导图像中对应位置的像素差值，分别计算各个视频图像与引导图像的色彩相似度。

在一中实施例中，可以根据视频图像与引导图像对应位置的像素差值，分别计算视频图像与引导图像对应位置的像素之间的色彩相似度；根据视频图像与引导图像中对应位置的像素之间的色彩相似度，分别计算各个视频图像与引导图像的色彩相似度。色彩相似度越高反应出视频图像与引导图像的色彩搭配越相似。

本发明实施例中按照如下公式分别计算各个视频图像与引导图像的色彩相似度：

其中，ED_i表示视频图像与引导图像的色彩相似度，C_I表示视频图像的图像通道，Ii表示视频图像，IG表示引导图像，

表示视频图像Ii像素的平均值，j_i表示视频图像中第j个像素，M_i表示同一图像通道中视频图像的像素数目，θ表示预设常数，预设常数θ为防止上述公式中的分母为0而加的，根据实际应用中的测试后，预设常数θ的最优值可以设置为10^-5，预设常数θ的具体值可以根据实际应用进行设置，在此不作具体限定。若视频图像的图像通道有三个通道，例如，视频图像与引导图像的色彩空间为RGB时，色彩属性为R通道、G通道、B通道，那么上述公式中的C_I＝3。ED_i值越大表示视频图像与引导图像的色彩相似度越高。

步骤105，根据所述与各个所述第一语义图像对应的第一对比结果和与各个所述视频图像对应的所述第二对比结果，从所述视频图像中筛选目标图像作为所述目标视频的封面图像。

在一种实施例中，第一对比结果为第一语义图像与第二语义图像的语义相似度，第二对比结果为视频图像与引导图像的色彩相似度，则可以根据第一语义图像对应的语义相似度和视频图像对应的色彩相似度，分别计算各个视频图像的总相似度。

本发明实施例中视频图像对应第一语义图像与引导图像对应第二语义图的语义相似度，以及视频图像与引导图像的色彩相似度对于视频图像的总相似度的权重占比不同，因此，可以根据视频图像对应第一语义图像与引导图像对应第二语义图的语义相似度和相对应的第一预设权重系数，以及色彩相似度和相对应的第二预设权重系数，分别计算各个视频图像与引导图像的总相似度。

在一种实施例中，可以按照如下公式分别计算各个视频图像的总相似度：

其中，ED表示视频图像的总相似度，α表示第一预设权重系数，M_s表示同一图像通道中第一语义图像的像素数目，ED_s表示第一语义图像与第二语义图的语义相似度，β表示第二预设权重系数，ED_i表示视频图像与引导图像的色彩相似度。其中第一预设权重系数的值根据实际应用中的测试，第一权重系数的最优值可以设置为0.9，第一预设权重系数的值根据实际应用中的测试，第二权重系数的最优值可以设置为0.1，第一预设权重系数与第二预设权重系数的具体值可以根据实际应用进行设置，在此不作具体限定。

分别计算出各个视频图像与引导图像的总相似度，在总相识度中确定出总相似度最大的值，将总相似度最大的值相对应的视频图像作为目标图像，将目标图像作为目标视频的封面图像。

例如，上述目标视频为电视剧A的第一集，电视剧B的封面图像作为引导图像的例子中，视频图像21A与引导图像3A的总相似度为0.5，视频图像22A与引导图像3A的总相似度为0.55，视频图像23A与引导图像3A的总相似度为0.7，视频图像24A与引导图像3A的总相似度为0.85，那么将视频图像24A作为目标视频电视剧A的第一集的封面图。

本发明实施例中预设语义生成网络还可以根据识别到的目标对象和参照对象的类别，对目标对象和参照对象添加标注，当计算出视频图像与引导图像的总相识度后，可以根据预设选取张数按照总相识度从大到小筛选出视频图像，然后可以从筛选出的视频图像中根据标注将与引导图像对应的标注相同的视频图像作为目标视频的封面图像。例如，预设选取张数为5张，计算出视频图像与引导图像的总相识度从大到小的5张视频图像，引导图像与视频图像A、视频图像B、视频图像C、视频图像D、视频图像E之间的总相似度分别为0.95、0.94、0.92、0.90、0.85，其中视频图像A、视频图像B、视频图像D、视频图像E对应的标注都为动物，视频图像C对应的标注为人，引导图像对应的标注为人，则将标注为人的视频图像C确定为目标视频的封面图。

本发明实施例中只需要将视频图像对应的第一语义图像与引导图像对应的第二语义图像进行对比，和将视频图像与引导图像进行对比，根据对比结果筛选出封面图像，减轻了生成封面图的工程的复杂性和耗时，能够快速高效的从视频中选取到符合设计师标准的封面图像。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图6，示出了本发明实施例提供的一种视频封面图像的生成装置的结构框图，具体包括如下模块：

确定模块601，用于获取目标视频的各个视频图像，并确定与各个所述视频图像对应的第一语义图像；所述第一语义图像用于表示所述视频图像中目标对象的位置分布；

获取模块602，用于获取引导图像和所述引导图像对应的第二语义图像；所述第二语义图像用于表示所述引导图像中参照对象的位置分布；

第一对比模块603，用于分别将各个所述第一语义图像与所述第二语义图像进行对比，得到与各个所述第一语义图像对应的第一对比结果；

第二对比模块604，用于分别将各个所述视频图像与所述引导图像进行对比，得到与各个所述视频图像对应的第二对比结果；

筛选模块605，用于根据与各个所述第一语义图像对应的所述第一对比结果和与各个所述视频图像对应的所述第二对比结果，从所述视频图像中筛选目标图像作为所述目标视频的封面图像。

可选地，所述确定模块601包括：

获取子模块，用于分别将各个所述视频图像输入预设语义生成网络进行处理，得到与各个所述视频图像对应的第一语义图像；所述第一语义图像的像素用于通过不同像素颜色表示所述目标对象在所述第一语义图像的位置；所述像素颜色用于所述第一语义图像与所述第二语义图像进行对比。

可选地，所述第一对比模块603包括：

第一计算子模块，用于分别计算各个所述第一语义图像与所述第二语义图像中对应位置的像素差值；

第二计算子模块，用于根据所述第一语义图像与所述第二语义图像中对应位置的像素差值，分别计算各个所述第一语义图像与所述第二语义图像的语义相似度。

可选地，所述第二对比模块604包括：

第三计算子模块，用于分别计算各个所述视频图像与所述引导图像中对应位置的像素差值；

可选地，所述筛选模块605包括：

可选地，所述第二计算子模块包括：

第一计算单元，用于按照如下公式分别计算各个所述第一语义图像与所述第二语义图像的语义相似度：

可选地，所述第四计算子模块包括：

其中，ED_i表示上述视频图像与所述引导图像的色彩相似度，C_I表示所述视频图像的图像通道，Ii表示所述视频图像，IG表示所述引导图像，

表示视频图像Ii像素的平均值，j_i表示所述视频图像中第j个像素，M_i表示同一图像通道中所述视频图像的像素数目，θ表示预设常数。

本发明公开了一种视频封面图像的生成装置，包括：确定模块，用于获取目标视频的各个视频图像，并确定与各个所述视频图像对应的第一语义图像；获取模块，用于获取引导图像和所述引导图像对应的第二语义图像；所述第二语义图像用于表示所述引导图像中参照对象的位置分布；第一对比模块，用于分别将各个所述第一语义图像与所述第二语义图像进行对比，得到与各个所述第一语义图像对应的第一对比结果；第二对比模块，用于分别将各个所述视频图像与所述引导图像进行对比，得到与各个所述视频图像对应的第二对比结果；筛选模块，用于根据与各个所述第一语义图像对应的所述第一对比结果和与各个所述视频图像对应的所述第二对比结果，从所述视频图像中筛选目标图像作为所述目标视频的封面图像。相对现有技术而言只需要将视频图像对应的第一语义图像与引导图像对应的第二语义图像进行对比，和将视频图像与引导图像进行色彩对比，根据对比结果筛选出封面图像，减轻了生成封面图的工程的复杂性和耗时，能够快速高效的从视频中选取到符合设计师标准的封面图像。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种电子设备，包括：

包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述视频封面图像的生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现上述视频封面图像的生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种视频封面图像的生成方法、装置、电子设备以及计算机可读存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频封面图像的生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取目标视频的各个视频图像，并确定与各个所述视频图像对应的第一语义图像，包括：

3.根据权利要求1所述的方法，其特征在于，所述分别将各个所述第一语义图像与所述第二语义图像进行对比，得到与各个所述第一语义图像对应的第一对比结果，包括：

分别计算各个所述第一语义图像与所述第二语义图像对应位置的像素差值；

4.根据权利要求1所述的方法，其特征在于，所述分别将各个所述视频图像与所述引导图像进行对比，得到与各个所述视频图像对应的第二对比结果，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据与各个所述第一语义图像对应的所述第一对比结果和与各个所述视频图像对应的所述第二对比结果，从所述视频图像中筛选目标图像作为所述目标视频的封面图像，包括：

6.根据权利要求3所述的方法，其特征在于，所述根据所述第一语义图像与所述第二语义图像对应位置的像素差值，分别计算各个所述第一语义图像与所述第二语义图像的语义相似度，包括：

按照如下公式分别计算各个所述第一语义图像与所述第二语义图像的语义相似度：

7.根据权利要求4所述的方法，其特征在于，所述分别根据所述视频图像与所述引导图像对应位置的像素差值，计算各个所述视频图像与所述引导图像的色彩相似度，包括：

8.一种视频封面图像的生成装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7中任一所述的方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现权利要求1至7中任一所述的方法中的步骤。