CN109388721B

CN109388721B - 封面视频帧的确定方法和装置

Info

Publication number: CN109388721B
Application number: CN201811217665.2A
Authority: CN
Inventors: 赵翔; 李鑫; 刘霄; 李旭斌; 孙昊; 文石磊; 丁二锐
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-10-18
Filing date: 2018-10-18
Publication date: 2021-05-28
Anticipated expiration: 2038-10-18
Also published as: CN109388721A

Abstract

本发明提出了一种封面视频帧的确定方法和装置，其中，方法包括：提取文章文本的关键词，获取与各关键词对应的第一向量；提取文章视频中预设时段内每个视频帧的主体词，获取与各主体词对应的第二向量；根据各主体词对应的第二向量和各关键词对应的第一向量，计算每个视频帧与文章文本的相似度；根据每个视频帧与文章文本的相似度确定目标视频帧为封面视频帧。由此，实现了作为封面的视频帧与文章内容的一致的图文相符的效果，实现作为封面的视频帧与文章内容自动适配，提高了封面确定效率以及用户的点击率和浏览体验。

Description

封面视频帧的确定方法和装置

技术领域

本发明涉及多媒体信息技术领域，尤其涉及一种封面视频帧的确定方法和装置。

背景技术

随着移动互联网的蓬勃发展，越来越多的视频出现在文章中，比如，在社交网站的推送文章中，经常为了提高文章趣味性，包含许多搞笑视频片段等，为了让用户更好的了解视频内容，被***文章的视频以视频封面的形式显示。然而，相关技术中，确定视作为视频封面的视频帧为默认的，或者是随机选择的，由此，导致作为封面的视频帧与文章内容不符合，没有有效调动用户的点击兴趣，导致用户对视频的点击率和浏览率不高。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种封面视频帧的确定方法，以实现作为封面的视频帧与文章内容自动适配。

本发明的第二个目的在于提出一种封面视频帧的确定装置。

本发明的第三个目的在于提出一种计算机程序产品。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本发明第一方面实施例提出了一种封面视频帧的确定方法，包括以下步骤：提取文章文本的关键词，获取与各所述关键词对应的第一向量；提取所述文章视频中预设时段内每个视频帧的主体词，获取与各所述主体词对应的第二向量；根据各所述主体词对应的第二向量和所述各所述关键词对应的第一向量，计算所述每个视频帧与所述文章文本的相似度；根据所述每个视频帧与所述文章文本的相似度确定目标视频帧为封面视频帧。

另外，本发明实施例的封面视频帧的确定方法，还具有如下附加的技术特征：

可选地，将所述封面视频帧确定为文章封面帧，和/或，将所述封面视频帧确定为视频封面帧。

可选地，所述提取所述文章视频中预设时段内每个视频帧的主体词，包括：检测所述每个视频帧中是否包含人脸，若获知包含人脸，则提取人脸特征；查询预设的人脸数据库获取与所述人脸特征对应的主体词。

可选地，所述提取所述文章视频中预设时段内每个视频帧的主体词，包括：检测所述每个视频帧中是否包含预设类别的物品，若包含所述物品，则提取物品特征；查询预设的物品数据库获取与所述物品特征对应的主体词。

可选地，所述根据各所述主体词对应的第二向量和所述各所述关键词对应的第一向量，计算所述每个视频帧与所述文章文本的相似度，包括：计算所述每个视频帧中的各主体词对应的第二向量和所述各所述关键词对应的第一向量之间的子距离；将与每个视频帧对应的所有子距离相加获取对应的总距离；计算每个视频帧的总距离的倒数获取相加获取所述每个视频帧与所述文章文本的相似度。

可选地，所述根据所述每个视频帧与所述文章文本的相似度确定目标视频帧为所述封面视频帧，包括：将所述每个视频帧与所述文章文本的相似度进行比较，获取相似度最大值对应的目标视频帧为所述封面视频帧。

可选地，还包括：获取所述每个视频帧的一个或多个图像质量指标；所述根据所述每个视频帧与所述文章文本的相似度确定目标视频帧为所述封面视频帧，包括：获取与各图像质量指标对应的权重，以及与所述相似度对应的权重；根据所述每个视频帧的各所述图像质量指标和对应的权重，以及所述每个视频帧与所述文章文本的相似度和对应的权重，计算所述每个视频帧的得分数据；根据所述每个视频帧的得分数据确定得分数据最大值对应的目标视频帧为所述封面视频帧。

本发明第二方面实施例提出了一种封面视频帧的确定装置，包括：第一获取模块，用于提取文章文本的关键词，获取与各所述关键词对应的第一向量；第二获取模块，用于提取所述文章视频中预设时段内每个视频帧的主体词，获取与各所述主体词对应的第二向量；计算模块，用于根据各所述主体词对应的第二向量和所述各所述关键词对应的第一向量，计算所述每个视频帧与所述文章文本的相似度；封面确定模块，用于根据所述每个视频帧与所述文章文本的相似度确定目标视频帧为封面视频帧。

本发明第三方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时实现如前述方法实施例所述的封面视频帧的确定方法。

本发明第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述方法实施例所述的封面视频帧的确定方法。

本发明实施例提供的技术方案可以包含如下的有益效果：

提取文章文本的关键词，获取与各关键词对应的第一向量，提取文章视频中预设时段内每个视频帧的主体词，获取与各主体词对应的第二向量，根据各主体词对应的第二向量和各关键词对应的第一向量，计算每个视频帧与文章文本的相似度，进而，根据每个视频帧与文章文本的相似度确定目标视频帧为封面视频帧。由此，实现了作为封面的视频帧与文章内容的一致的图文相符的效果，实现作为封面的视频帧与文章内容自动适配，提高了封面确定效率以及用户的点击率和浏览体验。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1-1是根据本发明一个实施例的封面视频帧的确定结果的场景示意图；

图1-2是根据本发明另一个实施例的封面视频帧的确定结果的场景示意图；

图2是根据本发明一个实施例的封面视频帧的确定方法的流程图；

图3是根据本发明另一个实施例的封面视频帧的确定方法的流程图；

图4是根据本发明还一个实施例的封面视频帧的确定方法的流程图；

图5是根据本发明又一个实施例的封面视频帧的确定方法的流程图；

图6是根据本发明又一个实施例的封面视频帧的确定方法的应用场景示意图；

图7是根据本发明一个实施例的封面视频帧的确定装置的结构示意图；以及

图8是根据本发明另一个实施例的封面视频帧的确定装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的封面视频帧的确定方法和装置。基于上述现有技术的描述可以知道，相关技术中，缺乏一种对封面视频帧的选择方法，没有考虑到图文相符所带来的点击率等用户流量的增加，本发明的实施例中，考虑到图文并茂对用户流量增加的有益效果，提供了一种基于文章内容自适应选择作为视频封面的视频帧的方法。使得针对同样的***视频，不同的文章内容中显示不同的视频封面，以适配视频所在的文章，提高用户对视频的点击率以及对文章的阅读体验。

其中，封面视频帧可以应用于***文章的视频中，作为视频封面，其中，文章中***的视频根据文章需要可以***在文章的任意位置，封面视频帧也可以作为文章封面，比如，作为微信公众号推送文章的文章封面，或者，作为朋友圈等社交平台上分享文章链接时的链接缩略图等。

比如，当封面视频帧应用在视频封面中时，针对同样的***视频A，当其***描述明星的文章1时，如图1-1左图所示，显示的视频封面为包含明星的视频帧，当其***描述建筑的文章2时，如图1-1右图所示，显示的视频封面为描述建筑的视频帧，在本示例中，视频***位置为文章的中间部位。

又比如，当封面视频帧作为公众号推送的文章封面时，则如图1-2左图所示，针对同样的***视频A，当其***描述明星的文章1时，显示的文章封面为包含明星的视频帧，如图1-2右图所示，当其***的是描述建筑的文章2时，则显示的文章封面为包含建筑的视频帧。

图2是根据本发明一个实施例的封面视频帧确定方法的流程图，如图2所示，该方法包括：

步骤101，提取文章文本的关键词，获取与各关键词对应的第一向量。

其中，第一向量表示关键词的特征，包括在多个维度的词序列的概率分布情况，生成第一向量的方法包括神经网络，单词共生矩阵的降维，概率模型等。

具体地，在本发明的实施例中，提取文章文本的关键词，该关键词表示文章的主要体现思想，并将关键词处理为第一向量以便于后续对文章的主要思想的相似度比较。

需要说明的是，在不同的应用场景中，提取文章文本的关键词的方式不同，作为一种可能的实现方式，对文章文本进行词性分析并进行分词处理后，统计到每一个分词出现的频率，将出现频率较高的分词作为关键词，作为另一种可能的实现方式，将文章文本输入预设的学习模型，该学习模型的输入为文章文本，输出为文章文本主要思想，在获取学习模型输出的主要思想后，对文章文本进行词性分析并进行分词处理后，计算每一个分析和主要思想的相关度，将相关度大于一定值的分词作为关键词。

步骤102，提取文章视频中预设时段内每个视频帧的主体词，获取与各主体词对应的第二向量。

其中，文章视频指的是上述***文章中的视频。

具体地，为了便于确定与文章关键词一致的视频帧，将视频帧处理为与第一向量同一纬度的第二向量，该第二向量用于表示每一个视频帧的主要体现内容。当然，当***的视频为一个完整视频时，为了提高学效率，选定预设时段内的视频作为分析的视频帧所在视频，作为一种可能的实现方式，考虑到视频的高潮部分也就是最能体现视频内容的部分在视频的中间部分，因而，基于视频的百分之三十到百分之七十部分的视频帧进行第二向量的获取，因而，在本实施例中，预设时段伪高潮部分对应的时段，作为另一种可能的实现方式，用户以前基于视频中对基于视频内容对不同视频段所标注的标签，粗筛选出与***文章可能相关的视频片段所在时段，将该时段作为预设时段。

具体而言，提取文章视频中预设时段内每个视频帧的主体词，其中，该主体词用于表示当前视频帧主要包含的内容，该主体词可以为当前视频帧的弹幕内容体现的主体思想、当前视频帧的字幕内容体现的主体思想，或者，视频帧中包含的人物内容、通用物品内容(比如，建筑物、生活用品、化妆用品、环境代表物)等。

需要说明的是，在不同的应用场景下，提取文章视频中预设时段内每个视频帧的主体词的方式不同，示例如下：

第一种示例：

在本示例中，主体词包括人物内容，比如，包含的明星、学者、动画人物等，如图3所示，提取文章视频中预设时段内每个视频帧的主体词的方式包括：

步骤201，检测每个视频帧中是否包含人脸，若获知包含人脸，则提取人脸特征。

具体地，可以基于每个视频帧中是否包含人物眼睛、鼻子等五官特征，检测每个视频帧中是否包含人脸，如果获知存在人脸，则为了确定该人脸对应的具体人物的，提取人脸特征，比如，五官形状、五官大小等能标识人物的人脸唯一性的特征。

步骤202，查询预设的人脸数据库获取与人脸特征对应的主体词。

可以理解，预先设置包含人脸特征与人物对应的主体词对应关系的人脸数据库，在获取人脸特征后，查询预设的人脸数据库获取与人脸特征对应的主体词。

第二种示例：

在本示例中，主体词包括物品，如图4所示，提取文章视频中预设时段内每个视频帧的主体词的方式包括：

步骤301，检测每个视频帧中是否包含预设类别的物品，若包含物品，则提取物品特征。

具体地，基于每个视频帧中连通域对应的颜色、形状等检测每个视频帧中是否包含预设类别的物品，其中，预设类别的物品可以包含化妆用品、生活用品等通用物品，或者，可以根据文章内容自主选择并设置具体地物品类别，比如，当前文章主要内容为介绍化妆品，则预设的物品的类别可以对应于化妆品类别下更细粒度的物品类别，比如，包括口红、腮红、睫毛膏等。在检测到每个视频帧中包含预设类别的物品后，提取物品的颜色、形状等能体现物品唯一性的特征。

步骤302，查询预设的物品数据库获取与物品特征对应的主体词。

可以理解，预先设置包含物品特征与物品对应的主体词对应关系的物品数据库，在获取物品特征后，查询预设的物品数据库获取与物品特征对应的主体词。

步骤103，根据各主体词对应的第二向量和各关键词对应的第一向量，计算每个视频帧与文章文本的相似度。

步骤104，根据每个视频帧与文章文本的相似度确定目标视频帧为封面视频帧。

具体地，为了确定出与文章文本较为符合的封面视频帧，根据各主体词对应的第二向量和各关键词对应的第一向量，计算每个视频帧与文章文本的相似度。根据相似度确定出较为相似的视频帧作为视频封面，由此，实现了图文相符的效果。

在本发明的一个实施例中，基于向量之间的距离体现上述相似度，在本实施例中，如图5所示，根据各主体词对应的第二向量和各关键词对应的第一向量，计算每个视频帧与文章文本的相似度，包括：

步骤401，计算每个视频帧中的各主体词对应的第二向量和各关键词对应的第一向量之间的子距离。

具体地，计算每个视频帧中的各主体词对应的第二向量和各关键词对应的第一向量之间的子距离，以计算出每一个主体词与每一个文章文本的关键词对应的相似度。

步骤402，将与每个视频帧对应的所有子距离相加获取对应的总距离。

具体地，在本实施例中，将与每个视频帧对应的子距离相加获取对应的总距离，该总距离可以用于体现每个视频帧中的主体词与文章的关键词的总体相似度。

步骤403，计算每个视频帧的总距离的倒数获取相加获取每个视频帧与文章文本的相似度。

不难理解的是，基于向量距离的生成原理，向量距离越大，向量之间的相似度越低，因而，在本实施例中，计算每个视频帧的总距离的倒数获取相加获取每个视频帧与文章文本的相似度，进而，将每个视频帧与文章文本的相似度进行比较，可以将获取相似度最大值对应的目标视频帧为封面视频帧。

其中，在实际执行过程中，正如以上提到的，将封面视频帧可以确定为文章封面，其中，文章封面可以为如图1-2所示的推送文章的封面，也可以为图6所示的推送文章的链接缩略图，当然，也可以将封面视频帧确定为如图1-2所示的***视频的视频封面。

在本发明的一个实施例中，为了进一步提高用户的点击率，还可基于视频帧的视频质量，比如，清晰度和美观度等，来确定作为封面的视频帧。

具体而言，在本实施例中，获取每个视频帧的一个或多个图像质量指标，比如，图像的清晰度和美观度(美观度可以根据预先建立的深度学习模型获取等)等，进而，在确定封面视频帧时，预先基于各图像质量指标和相似度设置对应的权重值，其中，权重值可根据文章的属性设置，比如，当文章属于娱乐类型文章时，则相似度的权重相对各图像质量指标的权重较大，又比如，当文章属于国防等科教类型的文章时，则则相似度的权重相对各图像质量指标的权重较小。

进而，根据每个视频帧的各图像质量指标和对应的权重，以及每个视频帧与文章文本的相似度和对应的权重，计算每个视频帧的得分数据，比如，分别将各图像质量指标进行归一化处理，对归一化处理后的数据与对应的权重作乘积处理，同时，计算相似度和对应权重的乘积值，将两个乘积值之和作为每个视频帧的得分数据，以根据每个视频帧的得分数据确定得分数据最大值对应的目标视频帧为封面，其中，得分数据可以归一化处理为十分制、五分制等，在此不作限制。

综上，本发明实施例的封面视频帧的确定方法，提取文章文本的关键词，获取与各关键词对应的第一向量，提取文章视频中预设时段内每个视频帧的主体词，获取与各主体词对应的第二向量，根据各主体词对应的第二向量和各关键词对应的第一向量，计算每个视频帧与文章文本的相似度，进而，根据每个视频帧与文章文本的相似度确定目标视频帧为封面视频帧。由此，实现了作为封面的视频帧与文章内容的一致的图文相符的效果，实现作为封面的视频帧与文章内容自动适配，提高了封面确定效率以及用户的点击率和浏览体验。

为了实现上述实施例，本发明还提出了一种封面视频帧的确定装置，图7是根据本发明一个实施例的封面视频帧的确定装置的结构示意图，如图7所示，该封面视频帧的确定装置包括：第一获取模块10、第二获取模块20、计算模块30和封面确定模块40。

其中，第一获取模块10，用于提取文章文本的关键词，获取与各关键词对应的第一向量。

第二获取模块20，用于提取文章视频中预设时段内每个视频帧的主体词，获取与各主体词对应的第二向量。

计算模块30，用于根据各主体词对应的第二向量和各关键词对应的第一向量，计算每个视频帧与文章文本的相似度。

封面确定模块40，用于根据每个视频帧与文章文本的相似度确定目标视频帧为封面视频帧。

在本发明的一个实施例中，如图8所示，在如图7所示的基础上，第一获取模块10包括提取单元11和获取单元12，其中，提取单元11，用于检测每个视频帧中是否包含人脸，在获知包含人脸时，提取人脸特征。

获取单元12，用于查询预设的人脸数据库获取与人脸特征对应的主体词。

需要说明的是，前述对封面视频帧的确定方法实施例的解释说明也适用于该实施例的封面视频帧的确定装置，此处不再赘述。

综上，本发明实施例的封面视频帧的确定装置，提取文章文本的关键词，获取与各关键词对应的第一向量，提取文章视频中预设时段内每个视频帧的主体词，获取与各主体词对应的第二向量，根据各主体词对应的第二向量和各关键词对应的第一向量，计算每个视频帧与文章文本的相似度，进而，根据每个视频帧与文章文本的相似度确定目标视频帧为封面视频帧。由此，实现了作为封面的视频帧与文章内容的一致的图文相符的效果，实现作为封面的视频帧与文章内容自动适配，提高了封面确定效率以及用户的点击率和浏览体验。

为了实现上述实施例，本发明还提出一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时实现如前述方法实施例所描述的封面视频帧的确定方法。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述方法实施例所描述的封面视频帧的确定方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种封面视频帧的确定方法，其特征在于，包括以下步骤：

将文章中的文章文本输入预先构建的学习模型，获取所述文本的主题信息；

对所述文章文本进行词性分析，获取多个文本分词；

计算所述多个文本分词中每个文本分词和所述主题信息的相关度，将所述相关度大于预设阈值的文本分词确定为关键词；

获取与各所述关键词对应的第一向量；

提取所述文章中***的视频中预设时段内每个视频帧的主体词，获取与各所述主体词对应的第二向量，其中，所述主体词用于表示每个视频帧的字幕内容体现的主体思想、包含的人物内容、通用物品内容；

根据各所述主体词对应的第二向量和所述各所述关键词对应的第一向量，计算所述每个视频帧与所述文章文本的相似度；

根据所述每个视频帧与所述文章文本的相似度确定目标视频帧为封面视频帧。

2.如权利要求1所述的方法，其特征在于，还包括：

将所述封面视频帧确定为文章封面帧，和/或，将所述封面视频帧确定为视频封面帧。

3.如权利要求1所述的方法，其特征在于，所述提取所述文章视频中预设时段内每个视频帧的主体词，包括：

检测所述每个视频帧中是否包含人脸，若获知包含人脸，则提取人脸特征；

查询预设的人脸数据库获取与所述人脸特征对应的主体词。

4.如权利要求1所述的方法，其特征在于，所述提取所述文章视频中预设时段内每个视频帧的主体词，包括：

检测所述每个视频帧中是否包含预设类别的物品，若包含所述物品，则提取物品特征；

查询预设的物品数据库获取与所述物品特征对应的主体词。

5.如权利要求1所述的方法，其特征在于，所述根据各所述主体词对应的第二向量和所述各所述关键词对应的第一向量，计算所述每个视频帧与所述文章文本的相似度，包括：

计算所述每个视频帧中的各主体词对应的第二向量和所述各所述关键词对应的第一向量之间的子距离；

将与每个视频帧对应的所有子距离相加获取对应的总距离；

计算每个视频帧的总距离的倒数获取相加获取所述每个视频帧与所述文章文本的相似度。

6.如权利要求5所述的方法，其特征在于，所述根据所述每个视频帧与所述文章文本的相似度确定目标视频帧为所述封面视频帧，包括：

将所述每个视频帧与所述文章文本的相似度进行比较，获取相似度最大值对应的目标视频帧为所述封面视频帧。

7.如权利要求1-6任一所述的方法，其特征在于，还包括：

获取所述每个视频帧的一个或多个图像质量指标；

所述根据所述每个视频帧与所述文章文本的相似度确定目标视频帧为所述封面视频帧，包括：

获取与各图像质量指标对应的权重，以及与所述相似度对应的权重；

根据所述每个视频帧的各所述图像质量指标和对应的权重，以及所述每个视频帧与所述文章文本的相似度和对应的权重，计算所述每个视频帧的得分数据；

根据所述每个视频帧的得分数据确定得分数据最大值对应的目标视频帧为所述封面视频帧。

8.一种封面视频帧的确定装置，其特征在于，包括：

第三获取模块，用于将文章中的文章文本输入预先构建的学习模型，获取所述文本的主题信息；

第四获取模块，用于对所述文章文本进行词性分析，获取多个文本分词；

确定模块，用于计算所述多个文本分词中每个文本分词和所述主题信息的相关度，将所述相关度大于预设阈值的文本分词确定为关键词；

第一获取模块，用于提取文章文本的关键词，获取与各所述关键词对应的第一向量；

第二获取模块，用于提取所述文章视频中预设时段内每个视频帧的主体词，获取与各所述主体词对应的第二向量，其中，所述主体词用于表示每个视频帧的字幕内容体现的主体思想、包含的人物内容、通用物品内容；

计算模块，用于根据各所述主体词对应的第二向量和所述各所述关键词对应的第一向量，计算所述每个视频帧与所述文章文本的相似度；

封面确定模块，用于根据所述每个视频帧与所述文章文本的相似度确定目标视频帧为封面视频帧。

9.一种计算机程序产品，其特征在于，当所述计算机程序产品中的指令处理器执行时实现如权利要求1-7中任一所述的封面视频帧的确定方法。

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的封面视频帧的确定方法。