CN114186074A

CN114186074A - 视频搜索词推荐方法、装置、电子设备及存储介质

Info

Publication number: CN114186074A
Application number: CN202111523639.4A
Authority: CN
Inventors: 黄诗磊
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2022-03-15

Abstract

本公开关于一种视频搜索词推荐方法、装置、电子设备及存储介质，所述方法包括：针对目标视频，从预设的知识图谱中抽取与目标视频的视频内容相关联的概念实体，以及各概念实体之间的实体关系，生成目标视频对应的关联知识图谱；将目标视频的视频内容文本和关联知识图谱输入至预训练的搜索词生成模型，得到至少一个候选搜索词；将各候选搜索词和视频内容文本输入至预训练的搜索词评估模型，得到各候选搜索词对应的相关性标签；根据相关性标签满足预设条件的候选搜索词，确定针对目标视频的待推荐搜索词；待推荐搜索词用于引导用户账户在访问目标视频后执行搜索操作。采用本公开可以结合关联知识图谱生成搜索词，提升了搜索词和视频内容的相关性。

Description

视频搜索词推荐方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种视频搜索词推荐方法、装置、电子设备及存储介质。

背景技术

目前，在用户观看视频时，通过生成针对所观看视频的搜索词并推荐给用户，可以引导用户发起搜索，增加相应搜索产品的曝光机会，满足用户的深度消费诉求。但采用传统方法仅仅只能抽取出视频所涉及的品牌名称以生成相应的搜索词，导致了生成搜索词的视频应用范围受限、视频内容关联性较弱、搜索词缺乏多样性。

因此，相关技术中存在针对视频生成的搜索词，与该视频的视频内容的相关程度较低的问题。

发明内容

本公开提供一种视频搜索词推荐方法、装置、电子设备及存储介质，以至少解决相关技术中存在针对视频生成的搜索词，与该视频的视频内容的相关程度较低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频搜索词推荐方法，包括：

针对目标视频，从预设的知识图谱中抽取与所述目标视频的视频内容相关联的概念实体，以及各所述概念实体之间的实体关系，生成所述目标视频对应的关联知识图谱；

将所述目标视频的视频内容文本和所述关联知识图谱输入至预训练的搜索词生成模型，得到至少一个候选搜索词；

将各所述候选搜索词和所述视频内容文本输入至预训练的搜索词评估模型，得到各所述候选搜索词对应的相关性标签；所述相关性标签用于表征所述候选搜索词与所述目标视频的视频内容的相关程度；

根据相关性标签满足预设条件的所述候选搜索词，确定针对所述目标视频的待推荐搜索词；所述待推荐搜索词用于引导用户账户在访问所述目标视频后执行搜索操作。

在一种可能实现方式中，所述根据相关性标签满足预设条件的所述候选搜索词，确定针对所述目标视频的待推荐搜索词，包括：

将相关性标签满足预设条件的所述候选搜索词，作为目标搜索词；

对至少一个所述目标搜索词中的异常搜索词进行过滤，得到所述待推荐搜索词；所述异常搜索词为根据预设的业务需求和/或播放平台规则确定得到的。

在一种可能实现方式中，所述对至少一个所述目标搜索词中的异常搜索词进行过滤，得到所述待推荐搜索词，包括：

若所述目标搜索词中包含有指定词语，则判定所述目标搜索词为所述异常搜索词；所述指定词语为基于预设的业务需求和播放平台规则确定的；

删除所述异常搜索词中的所述指定词语，得到修改后搜索词；

将所述修改后搜索词和非异常搜索词，作为所述待推荐搜索词；所述非异常搜索词为未包含有所述指定词语的目标搜索词。

若所述目标搜索词中包含有预设词语，和/或所述目标搜索词的词语表征概念与预设的异常表征概念相匹配时，则判定所述目标搜索词为所述异常搜索词；所述预设词语和所述预设的异常表征概念均为基于预设的业务需求和播放平台规则确定的；

在至少一个所述目标搜索词中删除所述异常搜索词，得到所述待推荐搜索词。

在一种可能实现方式中，所述预训练的搜索词生成模型具有预训练的编码器和预训练的解码器，所述将所述目标视频的视频内容文本和所述关联知识图谱输入至预训练的搜索词生成模型，得到至少一个候选搜索词，包括：

将所述视频内容文本和所述关联知识图谱输入至所述预训练的编码器，得到编码结果；所述编码结果包括对所述视频内容文本进行编码得到的第一编码结果和对所述关联知识图谱进行编码得到的第二编码结果；

将所述编码结果输入至所述预训练的解码器，得到至少一个所述候选搜索词；所述候选搜索词为通过所述预训练的解码器对第一编码结果和第二编码结果间的融合编码结果进行解码得到的。

在一种可能实现方式中，所述将所述视频内容文本和所述关联知识图谱输入至所述预训练的编码器，得到编码结果，包括：

将预设的搜索词控制码与所述视频内容文本进行拼接，得到拼接后文本；所述搜索词控制码包括词长度控制码和关键词控制码；所述词长度控制码用于控制所述候选搜索词的词长度；所述关键词控制码用于控制所述候选搜索词中是否包含有与所述关键词控制码对应的关键词；

将所述拼接后文本和所述关联知识图谱输入至所述预训练的编码器，得到编码结果。

在一种可能实现方式中，在所述将所述目标视频的视频内容文本和所述关联知识图谱输入至预训练的搜索词生成模型，得到至少一个候选搜索词的步骤之前，还包括：

获取第一训练样本数据；每个第一训练样本数据包括第一样本视频的视频内容文本、第一样本视频的第一样本搜索词，所述第一样本搜索词对应的用户账户点击次数大于预设的点击次数阈值；

针对所述第一样本视频，从预设的知识图谱中抽取与所述第一样本视频的视频内容相关联的概念实体，以及各所述概念实体之间的实体关系，生成所述第一样本视频对应的关联知识图谱；

基于所述第一样本视频的视频内容文本、所述第一样本视频对应的关联知识图谱、所述第一样本搜索词，对待训练的搜索词生成模型进行训练，得到所述预训练的搜索词生成模型。

在一种可能实现方式中，在所述将各所述候选搜索词和所述视频内容文本输入至预训练的搜索词评估模型，得到各所述候选搜索词对应的相关性标签的步骤之前，还包括：

获取第二训练样本数据；每个第二训练样本数据包括第二样本视频的视频内容文本、所述第二样本视频的第二样本搜索词及其对应的相关性标签、随机搜索词及其对应的相关性标签，不同相关性标签对应不同的相关程度；

基于所述第二样本视频的视频内容文本、所述第二样本搜索词及其对应的相关性标签、所述随机搜索词及其对应的相关性标签，对待训练的搜索词评估模型进行训练，得到所述预训练的搜索词评估模型。

根据本公开实施例的第二方面，提供一种视频搜索词推荐装置，包括：

关联知识图谱生成单元，被配置为执行针对目标视频，从预设的知识图谱中抽取与所述目标视频的视频内容相关联的概念实体，以及各所述概念实体之间的实体关系，生成所述目标视频对应的关联知识图谱；

候选搜索词得到单元，被配置为执行将所述目标视频的视频内容文本和所述关联知识图谱输入至预训练的搜索词生成模型，得到至少一个候选搜索词；

相关性标签得到单元，被配置为执行将各所述候选搜索词和所述视频内容文本输入至预训练的搜索词评估模型，得到各所述候选搜索词对应的相关性标签；所述相关性标签用于表征所述候选搜索词与所述目标视频的视频内容的相关程度；

待推荐搜索词确定单元，被配置为执行根据相关性标签满足预设条件的所述候选搜索词，确定针对所述目标视频的待推荐搜索词；所述待推荐搜索词用于引导用户账户在访问所述目标视频后执行搜索操作。

在一种可能实现方式中，所述待推荐搜索词确定单元，具体被配置为执行将相关性标签满足预设条件的所述候选搜索词，作为目标搜索词；对至少一个所述目标搜索词中的异常搜索词进行过滤，得到所述待推荐搜索词；所述异常搜索词为根据预设的业务需求和/或播放平台规则确定得到的。

在一种可能实现方式中，所述待推荐搜索词确定单元，具体还被配置为执行若所述目标搜索词中包含有指定词语，则判定所述目标搜索词为所述异常搜索词；所述指定词语为基于预设的业务需求和播放平台规则确定的；删除所述异常搜索词中的所述指定词语，得到修改后搜索词；将所述修改后搜索词和非异常搜索词，作为所述待推荐搜索词；所述非异常搜索词为未包含有所述指定词语的目标搜索词。

在一种可能实现方式中，所述待推荐搜索词确定单元，具体还被配置为执行若所述目标搜索词中包含有预设词语，和/或所述目标搜索词的词语表征概念与预设的异常表征概念相匹配时，则判定所述目标搜索词为所述异常搜索词；所述预设词语和所述预设的异常表征概念均为基于预设的业务需求和播放平台规则确定的；在至少一个所述目标搜索词中删除所述异常搜索词，得到所述待推荐搜索词。

在一种可能实现方式中，所述预训练的搜索词生成模型具有预训练的编码器和预训练的解码器，所述候选搜索词得到单元，具体被配置为执行将所述视频内容文本和所述关联知识图谱输入至所述预训练的编码器，得到编码结果；所述编码结果包括对所述视频内容文本进行编码得到的第一编码结果和对所述关联知识图谱进行编码得到的第二编码结果；将所述编码结果输入至所述预训练的解码器，得到至少一个所述候选搜索词；所述候选搜索词为通过所述预训练的解码器对第一编码结果和第二编码结果间的融合编码结果进行解码得到的。

在一种可能实现方式中，所述候选搜索词得到单元，具体还被配置为执行将预设的搜索词控制码与所述视频内容文本进行拼接，得到拼接后文本；所述搜索词控制码包括词长度控制码和关键词控制码；所述词长度控制码用于控制所述候选搜索词的词长度；所述关键词控制码用于控制所述候选搜索词中是否包含有与所述关键词控制码对应的关键词；将所述拼接后文本和所述关联知识图谱输入至所述预训练的编码器，得到编码结果。

在一种可能实现方式中，所述视频搜索词推荐装置，还包括：

第一训练样本数据获取单元，具体被配置为执行获取第一训练样本数据；每个第一训练样本数据包括第一样本视频的视频内容文本、第一样本视频的第一样本搜索词，所述第一样本搜索词对应的用户账户点击次数大于预设的点击次数阈值；

第一样本视频对应的关联知识图谱生成单元，具体被配置为执行针对所述第一样本视频，从预设的知识图谱中抽取与所述第一样本视频的视频内容相关联的概念实体，以及各所述概念实体之间的实体关系，生成所述第一样本视频对应的关联知识图谱；

搜索词生成模型训练单元，具体被配置为执行基于所述第一样本视频的视频内容文本、所述第一样本视频对应的关联知识图谱、所述第一样本搜索词，对待训练的搜索词生成模型进行训练，得到所述预训练的搜索词生成模型。

第二训练样本数据获取单元，具体被配置为执行获取第二训练样本数据；每个第二训练样本数据包括第二样本视频的视频内容文本、所述第二样本视频的第二样本搜索词及其对应的相关性标签、随机搜索词及其对应的相关性标签，不同相关性标签对应不同的相关程度；

搜索词评估模型训练单元，具体被配置为执行基于所述第二样本视频的视频内容文本、所述第二样本搜索词及其对应的相关性标签、所述随机搜索词及其对应的相关性标签，对待训练的搜索词评估模型进行训练，得到所述预训练的搜索词评估模型。

根据本公开实施例的第三方面，提供一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如第一方面或第一方面的任一种可能实现方式所述的视频搜索词推荐方法。

根据本公开实施例的第四方面，提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面或第一方面的任一种可能实现方式所述视频搜索词推荐方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行第一方面的任一项实施例中所述的视频搜索词推荐方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开的方案，通过针对目标视频，从预设的知识图谱中抽取与目标视频的视频内容相关联的概念实体，以及各概念实体之间的实体关系，生成目标视频对应的关联知识图谱，将目标视频的视频内容文本和关联知识图谱输入至预训练的搜索词生成模型，得到至少一个候选搜索词，然后将各候选搜索词和视频内容文本输入至预训练的搜索词评估模型，得到各候选搜索词对应的相关性标签，相关性标签用于表征候选搜索词与目标视频的视频内容的相关程度，进而根据相关性标签满足预设条件的候选搜索词，确定针对目标视频的待推荐搜索词，待推荐搜索词用于引导用户账户在访问目标视频后执行搜索操作，如此，可以在视频内容基础上结合从知识图谱中抽取的关联知识图谱，生成搜索词，提升了生成搜索词和视频内容的相关性，且根据相关性标签确定视频的待推荐搜索词，能够在无人工参与情况下保证搜索词的相关性和有效性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频搜索词推荐方法的应用环境图。

图2是根据一示例性实施例示出的一种视频搜索词推荐方法的流程图。

图3a是根据一示例性实施例示出的一种视频搜索词展示界面的示意图。

图3b是根据一示例性实施例示出的一种视频搜索词推荐实例的流程示意图。

图4是根据一示例性实施例示出的另一种视频搜索词推荐方法的流程图。

图5是根据一示例性实施例示出的一种视频搜索词推荐装置的框图。

图6是根据一示例性实施例示出的一种电子设备的内部结构图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。

还需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本公开所提供的视频搜索词推荐方法，可以应用于如图1所示的应用环境中。其中，用户端110通过网络与服务器120进行交互。其中，服务器120可以针对在用户端110中播放的目标视频，确定该目标视频的待推荐搜索词，进而用户端110可以将待推荐搜索词展示在播放的目标视频界面中，以引导用户端110对应的用户账户在访问目标视频后执行搜索操作。在实际应用中，用户端110可以包括但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

图2是根据一示例性实施例示出的一种视频搜索词推荐方法的流程图，如图2所示，该方法可以用于图1的服务器120中，包括以下步骤。

在步骤S210中，针对目标视频，从预设的知识图谱中抽取与目标视频的视频内容相关联的概念实体，以及各概念实体之间的实体关系，生成目标视频对应的关联知识图谱；

其中，目标视频可以为待生成搜索词的视频，如在播放短视频的过程中，可以针对该短视频生成搜索词。

作为一示例，预设的知识图谱可以为基于短视频涉及的相关内容预先建立的语义网络，其可以具有多个结点和结点之间相连的边，每个结点表征一实体(entity)或者一概念(concept)，边表征实体/概念之间的各种语义关系。

在实际应用中，针对待生成搜索词的目标视频，可以从预设的知识图谱中抽取与该目标视频的视频内容相关联的概念实体，以及各概念实体之间的实体关系，进而可以将抽取出的概念实体以及各概念实体之间的实体关系，作为目标视频对应的关联知识图谱，以进一步结合目标视频的视频内容文本生成搜索词。

在一示例中，针对某车型系列名x试驾视频(即目标视频)，根据预设的知识图谱可以抽取出(车型系列名x，品牌，品牌名y)，(车型系列名x，生产厂商，生产厂商z汽车)，(车型系列名x，引擎类型，涡轮增压)，(品牌名y，是一种，汽车品牌)等视频相关的知识，作为该某车型系列名x试驾视频的关联知识图谱，其中，概念实体可以为车型系列名x、品牌名y等，概念实体之间的实体关系，如车型系列名x对应的品牌为品牌名y。

在步骤S220中，将目标视频的视频内容文本和关联知识图谱输入至预训练的搜索词生成模型，得到至少一个候选搜索词；

作为一示例，视频内容文本可以通过文本提取模块对目标视频提取得到，如某视频内容文本可以包括视频语音文本、图片文本、短视频文本元信息，即标题、描述、封面图等，在本实施例中不作具体限制。

在实际应用中，针对待生成搜索词的目标视频，可以将该目标视频的视频内容文本和从预设的知识图谱中抽取出的关联知识图谱，输入至预训练的搜索词生成模型，进而可以得到针对目标视频的至少一个候选搜索词。

具体地，可以将目标视频的视频封面图中包含文字内容、视频标题、视频语音文本、视频图片文本等作为视频内容文本，进而采用预训练的搜索词生成模型，根据视频内容文本和抽取得到的目标视频对应的关联知识图谱，可以生成至少一个候选搜索词，如一批符合短视频内容的搜索词。

在一示例中，预训练的搜索词生成模型架构采用知识图谱增强的文本生成思想，通过在传统生成模型结构中融入知识，可以借助知识图谱中的实体及其实体关系之间丰富的语义信息，进而能够更有利于搜索词生成任务。

在步骤S230中，将各候选搜索词和视频内容文本输入至预训练的搜索词评估模型，得到各候选搜索词对应的相关性标签；相关性标签用于表征候选搜索词与目标视频的视频内容的相关程度；

其中，相关性标签可以包括多个相关程度对应的多个等级标签，不同相关性标签可以表征候选搜索词与目标视频的视频内容的不同相关程度，如相关性标签设置方式可以为强相关标签、弱相关标签、不相关标签，也可以为等级2、等级1、等级0，在本实施例中不作具体限制。

在得到至少一个候选搜索词后，可以将各候选搜索词和视频内容文本输入至预训练的搜索词评估模型，通过对各候选搜索词和视频内容的相关性进行打分，可以得到各候选搜索词对应的相关性标签，进而基于该相关性标签可以确定各候选搜索词与目标视频的视频内容的相关程度。

在步骤S240中，根据相关性标签满足预设条件的候选搜索词，确定针对目标视频的待推荐搜索词；待推荐搜索词用于引导用户账户在访问目标视频后执行搜索操作。

在得到各候选搜索词对应的相关性标签后，可以筛选出满足预设条件的相关性标签对应的候选搜索词，进而通过搜索词过滤处理，可以根据相关性标签满足预设条件的候选搜索词，确定针对目标视频的待推荐搜索词，以基于该待推荐搜索词引导用户账户在访问目标视频后执行搜索操作。

例如，为了保证生成搜索词的相关性，可以将强相关标签对应的候选搜索词、弱相关标签对应的候选搜索词，作为相关性标签满足预设条件的候选搜索词，不相关标签对应的候选搜索词不进入后续搜索词过滤处理流程。

在一个可选实施例中，针对目标视频得到待推荐搜索词后，可以通过播放目标视频的界面中的搜索词推荐区域，向观看目标视频的用户展示待推荐搜索词，进而基于待推荐搜索词可以引导用户在访问目标视频后发起搜索，充分挖掘了用户视频消费的需求，降低了用户的搜索门槛，扩增了视频搜索的流量，为搜索到的相关产品增加了曝光机会。

在一示例中，如图3a所示，在用户使用短视频平台消费视频的场景下，当用户观看当前播放视频时，通过在播放视频界面中挂载搜索PLC(Programmable Logic Controller，可编程逻辑控制器)，即搜索词推荐区域，基于展示的搜索词xxx，可以引导用户在访问视频后发起搜索行为。

相较于传统方法仅通过抽取出视频所涉及的品牌名称以生成相应的搜索词，由于包含品牌名称的视频只占全量视频的小部分，导致大部分视频无法生成其相应的搜索词；而品牌名称只为短视频传递信息中的部分信息，仅抽取品牌名称生成的搜索词缺乏和短视频内容的深度关联，仅将品牌名称作为搜索词未能体现出用户的真实搜索需求；且短视频可能涉及多方面的内容，不同的用户对其中不同方面的内容更感兴趣，仅将品牌名称作为搜索词无法体现视频内容多样性。

采用本实施例的技术方案，通过结合视频内容文本和从知识图谱中抽取的关联知识图谱生成候选搜索词，并根据相关性标签从候选搜索词中确定视频的待推荐搜索词，避免了限定视频范围，能够针对任意类型的短视频生成内容相关的搜索词，提升了搜索词与短视频传递信息的适配性，使得生成的搜索词短视频内容密切相关，且针对每个短视频，可以生产多个相关、反映短视频不同内容角度的搜索词，增强了搜索词多样性。

上述视频搜索词推荐方法中，通过针对目标视频，从预设的知识图谱中抽取与目标视频的视频内容相关联的概念实体，以及各概念实体之间的实体关系，生成目标视频对应的关联知识图谱，将目标视频的视频内容文本和关联知识图谱输入至预训练的搜索词生成模型，得到至少一个候选搜索词，然后将各候选搜索词和视频内容文本输入至预训练的搜索词评估模型，得到各候选搜索词对应的相关性标签，进而根据相关性标签满足预设条件的候选搜索词，确定针对目标视频的待推荐搜索词，如此，可以在视频内容基础上结合从知识图谱中抽取的关联知识图谱，生成搜索词，提升了生成搜索词和视频内容的相关性，且根据相关性标签确定视频的待推荐搜索词，能够在无人工参与情况下保证搜索词的相关性和有效性。

在一示例性实施例中，根据相关性标签满足预设条件的候选搜索词，确定针对目标视频的待推荐搜索词，包括：将相关性标签满足预设条件的候选搜索词，作为目标搜索词；对至少一个目标搜索词中的异常搜索词进行过滤，得到待推荐搜索词；异常搜索词为根据预设的业务需求和/或播放平台规则确定得到的。

在具体实现中，根据各候选搜索词对应的相关性标签，可以筛选出满足预设条件的相关性标签对应的候选搜索词，作为目标搜索词，然后根据预设的业务需求和/或播放平台规则可以确定异常搜索词，进而通过对至少一个目标搜索词中的异常搜索词进行过滤，可以得到待推荐搜索词。

例如，根据业务需求可以自定义配置过滤和改写规则，也可以预置为保证生成的搜索词符合平台统一的规则(即预设的业务需求和/或播放平台规则)，进而针对强相关标签对应的候选搜索词和弱相关标签对应的候选搜索词(即目标搜索词)可以判断出异常搜索词，通过对异常搜索词进行过滤可以得到待推荐搜索词。

本实施例的技术方案，通过将相关性标签满足预设条件的候选搜索词，作为目标搜索词，进而对至少一个目标搜索词中的异常搜索词进行过滤，得到待推荐搜索词，能够在无人工参与的情况下保证搜索词的相关性和安全性，减少搜索词外显的风险。

在一示例性实施例中，对至少一个目标搜索词中的异常搜索词进行过滤，得到待推荐搜索词，包括：若目标搜索词中包含有指定词语，则判定目标搜索词为异常搜索词；指定词语为基于预设的业务需求和播放平台规则确定的；删除异常搜索词中的指定词语，得到修改后搜索词；将修改后搜索词和非异常搜索词，作为待推荐搜索词；非异常搜索词为未包含有指定词语的目标搜索词。

在实际应用中，若检测到某个目标搜索词中包含有指定词语，则可以判定某个目标搜索词为异常搜索词，进而可以对该异常搜索词进行改写处理，通过删除异常搜索词中的指定词语到修改后搜索词，可以将修改后搜索词和非异常搜索词，作为待推荐搜索词。

具体的，根据业务需求可以自定义配置改写规则，基于该改写规则，当检测到某个目标搜索词中包含有地理词(即指定词语)时，可以判定为异常搜索词，进而可以将该异常搜索词中的地理词删除，以对异常搜索词进行改写处理，例如，针对包含“黑龙江”等地理词的异常搜索词，可以删除异常搜索词中的地理词“黑龙江”。

本实施例的技术方案，通过若目标搜索词中包含有指定词语，则判定目标搜索词为异常搜索词，然后删除异常搜索词中的指定词语，得到修改后搜索词，进而将修改后搜索词和非异常搜索词，作为待推荐搜索词，可以基于搜索词改写的后处理逻辑，在无人工参与情况下保证搜索词的相关性和有效性。

在一示例性实施例中，对至少一个目标搜索词中的异常搜索词进行过滤，得到待推荐搜索词，包括：若目标搜索词中包含有预设词语，和/或目标搜索词的词语表征概念与预设的异常表征概念相匹配时，则判定目标搜索词为异常搜索词；预设词语和预设的异常表征概念均为基于预设的业务需求和播放平台规则确定的；在至少一个目标搜索词中删除异常搜索词，得到待推荐搜索词。

在实际应用中，若检测到某个目标搜索词中包含有预设词语，和/或目标搜索词的词语表征概念与预设的异常表征概念相匹配时，则可以判定某个目标搜索词为异常搜索词，进而可以对该异常搜索词进行过滤删除处理，通过删除异常搜索词，可以将删除异常搜索词后的目标搜索词，作为待推荐搜索词。

具体的，根据业务需求可以自定义配置过滤规则，基于该过滤规则，当检测到某个目标搜索词中包含有违禁词(即预设词语)时，可以判定为异常搜索词，进而将该异常搜索词过滤删除，也可以根据为保证生成的搜索词符合平台统一的规则，当检测到某个目标搜索词的词语表征概念与预设的异常表征概念相匹配时，可以判定为异常搜索词，进而将该异常搜索词过滤删除。

例如，针对包含违禁词“广告”的异常搜索词可以直接过滤删除；针对被判定为“色情”、“政治”相关概念(即预设的异常表征概念)的异常搜索词也可以直接过滤删除。

本实施例的技术方案，通过若目标搜索词中包含有预设词语，和/或目标搜索词的词语表征概念与预设的异常表征概念相匹配时，则判定目标搜索词为异常搜索词，进而在至少一个目标搜索词中删除异常搜索词，得到待推荐搜索词，能够基于搜索词过滤的后处理逻辑，在无人工参与情况下保证搜索词的相关性和有效性。

在一示例性实施例中，预训练的搜索词生成模型具有预训练的编码器和预训练的解码器，将目标视频的视频内容文本和关联知识图谱输入至预训练的搜索词生成模型，得到至少一个候选搜索词，包括：将视频内容文本和关联知识图谱输入至预训练的编码器，得到编码结果；编码结果包括对视频内容文本进行编码得到的第一编码结果和对关联知识图谱进行编码得到的第二编码结果；将编码结果输入至预训练的解码器，得到至少一个候选搜索词；候选搜索词为通过预训练的解码器对第一编码结果和第二编码结果间的融合编码结果进行解码得到的。

在具体实现中，预训练的搜索词生成模型可以采用基于transformer(一种基于encoder-decoder，即编码-解码结构的模型)的bert2bert，预训练的搜索词生成模型可以具有预训练的编码器和预训练的解码器，该编码器和解码器的相关参数可以由预训练的bert(一种泛化能力较强的预训练模型)进行初始化。

基于预训练的搜索词生成模型，通过将视频内容文本和关联知识图谱输入至预训练的编码器，对视频内容文本进行编码可以得到第一编码结果，对关联知识图谱进行编码可以得到第二编码结果，进而通过预训练的解码器可以对第一编码结果和第二编码结果间的融合编码结果进行解码，得到至少一个候选搜索词。

在一示例中，在编码过程中可以对视频内容文本进行编码，例如，通过融入多种模态的视频文本信息，包括视频标题、语音文本(ASR)和图像文本(OCR)等，可以增强视频内容理解，还可以进行知识图谱增强，通过融入知识图谱中的先验知识(即关联知识图谱)，可以丰富视频语义信息，例如，从知识图谱中抽取出与视频内容相关联的概念实体，以及各概念实体之间的实体关系作为先验知识，然后将先验知识单独作为一路语义context(上下文)进行编码，以约束解码过程中的搜索词生成，提高搜索词生成质量。

在又一示例中，在解码过程中，可以进行多样性控制，即采用Top-p解码策略的采样方式进行采样，以增加生成结果的多样性；还可以进行重复字符控制，即通过对重复的文本片段进行惩罚，以减轻模型生成重复片段的问题，避免生成“二手二手车市场”类似的搜索词，其可以在每一步解码过程中，直接将可能构成重复片段的字符概率置为0，进而在采样时可以避免采样该字符，如解码器已经生成“二手二”的前缀，则可以将“手”字的概率置为0；还可以进行词长度控制，即通过改变输入词长度控制码中的数字，能够控制生成的搜索词长度以及是否包含特定的关键词；还可以进行相关性控制，即在解码过程中，通过融合知识图谱中的先验知识和视频内容文本，可以对生成的词语进行约束，提高了生成搜索词和视频内容的语义相关性。

本实施例的技术方案，通过将视频内容文本和关联知识图谱输入至预训练的编码器，得到编码结果，进而将编码结果输入至预训练的解码器，得到至少一个候选搜索词，可以基于多样性控制、重复字符控制、词长度控制、相关性控制，改善了生成的搜索词的多样性和可读性，能够自定义词长度以及包含特定的关键词，提升了生成搜索词的相关性。

在一示例性实施例中，将视频内容文本和关联知识图谱输入至预训练的编码器，得到编码结果，包括：将预设的搜索词控制码与视频内容文本进行拼接，得到拼接后文本；搜索词控制码包括词长度控制码和关键词控制码；词长度控制码用于控制候选搜索词的词长度；关键词控制码用于控制候选搜索词中是否包含有与关键词控制码对应的关键词；将拼接后文本和关联知识图谱输入至预训练的编码器，得到编码结果。

在一示例中，针对业务场景中对搜索词长度不能过长的要求，以及产品营销的需求，如搜索词中需要包含特定的关键词(品牌名称)，可以基于预设的搜索词控制码，该搜索词控制码可以包括词长度控制码和关键词控制码，其中，词长度控制码可以用于控制候选搜索词的词长度，关键词控制码可以用于控制候选搜索词中是否包含有与关键词控制码对应的关键词，通过将搜索词控制码与视频内容文本进行拼接，可以得到拼接后文本，进而将拼接后文本和关联知识图谱输入至预训练的编码器，可以得到编码结果。

例如，可以采用如下方式表示拼接后文本：

[起始符]6[间隔符]品牌名称xx[间隔符]1[间隔符]XXXXXXYYYYY

其中，起始符和第一个间隔符之间的数字6可以表示生成的搜索词长度(即候选搜索词的词长度)，第一个间隔符和第二个间隔符之间的品牌名称xx可以为搜索词包含的关键词内容(即与关键词控制码对应的关键词)，第二个间隔符和第三个间隔符之间的数字可以表示是否包含关键词(如1表示是，0表示否)，第三个间隔符后面XXXXXXYYYYY可以为短视频的文本内容(即视频内容文本)。

本实施例的技术方案，通过将预设的搜索词控制码与视频内容文本进行拼接，得到拼接后文本，进而将拼接后文本和关联知识图谱输入至预训练的编码器，得到编码结果，可以精细化控制生成的搜索词的词长度和是否包含指定关键词。

在一示例性实施例中，在将目标视频的视频内容文本和关联知识图谱输入至预训练的搜索词生成模型，得到至少一个候选搜索词的步骤之前，还包括：获取第一训练样本数据；每个第一训练样本数据包括第一样本视频的视频内容文本、第一样本视频的第一样本搜索词，第一样本搜索词对应的用户账户点击次数大于预设的点击次数阈值；针对第一样本视频，从预设的知识图谱中抽取与第一样本视频的视频内容相关联的概念实体，以及各概念实体之间的实体关系，生成第一样本视频对应的关联知识图谱；基于第一样本视频的视频内容文本、第一样本视频对应的关联知识图谱、第一样本搜索词，对待训练的搜索词生成模型进行训练，得到预训练的搜索词生成模型。

在一示例中，第一训练样本数据可以通过线上用户短视频搜索的点击日志进行获取，该点击日志为短视频平台后台记录的用户搜索后点击短视频的行为，基于点击日志，可以得到每个短视频关联的搜索词及其搜索词点击次数，然后针对每个短视频，根据其搜索词点击次数数据，可以选取点击次数较高的搜索词(即第一样本搜索词)，如点击次数大于100(即预设的点击次数阈值)，进而可以将第一样本视频的视频内容文本、第一样本视频的第一样本搜索词，作为预训练的搜索词生成模型的训练样本数据。

例如，待训练的搜索词生成模型的输入数据和输出数据可以如下表：

本实施例的技术方案，通过获取第一训练样本数据，然后针对第一样本视频，从预设的知识图谱中抽取与第一样本视频的视频内容相关联的概念实体，以及各概念实体之间的实体关系，生成第一样本视频对应的关联知识图谱，进而基于第一样本视频的视频内容文本、第一样本视频对应的关联知识图谱、第一样本搜索词，对待训练的搜索词生成模型进行训练，得到预训练的搜索词生成模型，可以基于日志数据，根据点击次数筛选出高质量的搜索词，以构造第一训练样本数据，无需人工标注成本，提升了搜索词生成模型的预训练效率。

在一示例性实施例中，在将各候选搜索词和视频内容文本输入至预训练的搜索词评估模型，得到各候选搜索词对应的相关性标签的步骤之前，还包括：获取第二训练样本数据；每个第二训练样本数据包括第二样本视频的视频内容文本、第二样本视频的第二样本搜索词及其对应的相关性标签、随机搜索词及其对应的相关性标签，不同相关性标签对应不同的相关程度；基于第二样本视频的视频内容文本、第二样本搜索词及其对应的相关性标签、随机搜索词及其对应的相关性标签，对待训练的搜索词评估模型进行训练，得到预训练的搜索词评估模型。

在一示例中，通过筛选出多个同时具有高点击量搜索词和低点击量搜索词的视频(即第二样本视频)，可以将高点击量搜索词的标签设置为“强相关”、“弱相关”(即第二样本搜索词及其对应的相关性标签)，并针对每个视频，可以从搜索词集合中随机采样一条搜索词，将其标签设置为“不相关”(即随机搜索词及其对应的相关性标签)，进而可以将第二样本视频的视频内容文本、第二样本搜索词及其对应的相关性标签、随机搜索词及其对应的相关性标签，作为预训练的搜索词评估模型的训练样本数据。

例如，待训练的搜索词评估模型的相关性标签配置可以如下表：

在又一示例中，搜索词评估模型可以采用预训练的Bert，通过在构造的训练数据上进行微调可以得到待训练的搜索词评估模型(三分类模型)。

本实施例的技术方案，通过获取第二训练样本数据，进而基于第二样本视频的视频内容文本、第二样本搜索词及其对应的相关性标签、随机搜索词及其对应的相关性标签，对待训练的搜索词评估模型进行训练，得到预训练的搜索词评估模型，可以根据点击次数分布差异和随机采样，并自动进行相关性打标，以构造第二训练样本数据，提升了搜索词评估模型的预训练效率。

为了使本领域技术人员能够更好地理解上述步骤，以下通过一个例子对本公开的实施例加以示例性说明，但应当理解的是，本公开的实施例并不限于此。

如图3b所示，在视频搜索词推荐过程中，可以包括三个模块：搜索词生成模块、搜索词评估模块、搜索词过滤模块，在流程S001中，基于搜索词生成模块(即预训练的搜索词生成模型)，可以根据短视频文本内容(即目标视频的视频内容文本)结合关联知识图谱生成搜索词(即至少一个候选搜索词)；在流程S002中，基于搜索词评估模块(即预训练的搜索词评估模型)，可以针对流程S001中得到的各搜索词和短视频相关性进行打分，得到各搜索词对应的相关性标签(即各候选搜索词对应的相关性标签)；在流程S003中和流程S004中，基于搜索词过滤模块，可以针对流程S002中得到的具有强相关性标签的搜索词和弱相关性标签的搜索词(即目标搜索词)，根据预设的业务需求和/或播放平台规则进行搜索词改写/过滤和风控过滤，进而可以得到短视频搜索词(即待推荐搜索词)，以引导用户账户在访问短视频后执行搜索操作。

图4是根据一示例性实施例示出的另一种视频搜索词推荐方法的流程图，如图4所示，该方法可以用于图1的服务器120中，包括以下步骤。

在步骤S410中，获取第一训练样本数据；每个第一训练样本数据包括第一样本视频的视频内容文本、第一样本视频的第一样本搜索词，所述第一样本搜索词对应的用户账户点击次数大于预设的点击次数阈值。在步骤S420中，针对所述第一样本视频，从预设的知识图谱中抽取与所述第一样本视频的视频内容相关联的概念实体，以及各所述概念实体之间的实体关系，生成所述第一样本视频对应的关联知识图谱。在步骤S430中，基于所述第一样本视频的视频内容文本、所述第一样本视频对应的关联知识图谱、所述第一样本搜索词，对待训练的搜索词生成模型进行训练，得到所述预训练的搜索词生成模型。在步骤S440中，获取第二训练样本数据；每个第二训练样本数据包括第二样本视频的视频内容文本、所述第二样本视频的第二样本搜索词及其对应的相关性标签、随机搜索词及其对应的相关性标签，不同相关性标签对应不同的相关程度。在步骤S450中，基于所述第二样本视频的视频内容文本、所述第二样本搜索词及其对应的相关性标签、所述随机搜索词及其对应的相关性标签，对待训练的搜索词评估模型进行训练，得到所述预训练的搜索词评估模型。在步骤S460中，针对目标视频，从预设的知识图谱中抽取与所述目标视频的视频内容相关联的概念实体，以及各所述概念实体之间的实体关系，生成所述目标视频对应的关联知识图谱。在步骤S470中，将所述目标视频的视频内容文本和所述关联知识图谱输入至预训练的搜索词生成模型，得到至少一个候选搜索词。在步骤S480中，将各所述候选搜索词和所述视频内容文本输入至预训练的搜索词评估模型，得到各所述候选搜索词对应的相关性标签；所述相关性标签用于表征所述候选搜索词与所述目标视频的视频内容的相关程度。在步骤S490中，根据相关性标签满足预设条件的所述候选搜索词，确定针对所述目标视频的待推荐搜索词；所述待推荐搜索词用于引导用户账户在访问所述目标视频后执行搜索操作。需要说明的是，上述步骤的具体限定可以参见上文对一种视频搜索词推荐方法的具体限定，在此不再赘述。

应该理解的是，虽然图1、图4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1、图4中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

可以理解的是，本说明书中上述方法的各个实施例之间相同/相似的部分可互相参见，每个实施例重点说明的是与其他实施例的不同之处，相关之处参见其他方法实施例的说明即可。

图5是根据一示例性实施例示出的一种视频搜索词推荐装置框图。参照图5，该装置包括：

关联知识图谱生成单元501，被配置为执行针对目标视频，从预设的知识图谱中抽取与所述目标视频的视频内容相关联的概念实体，以及各所述概念实体之间的实体关系，生成所述目标视频对应的关联知识图谱；

候选搜索词得到单元502，被配置为执行将所述目标视频的视频内容文本和所述关联知识图谱输入至预训练的搜索词生成模型，得到至少一个候选搜索词；

相关性标签得到单元503，被配置为执行将各所述候选搜索词和所述视频内容文本输入至预训练的搜索词评估模型，得到各所述候选搜索词对应的相关性标签；所述相关性标签用于表征所述候选搜索词与所述目标视频的视频内容的相关程度；

待推荐搜索词确定单元504，被配置为执行根据相关性标签满足预设条件的所述候选搜索词，确定针对所述目标视频的待推荐搜索词；所述待推荐搜索词用于引导用户账户在访问所述目标视频后执行搜索操作。

在一种可能实现方式中，所述待推荐搜索词确定单元504，具体被配置为执行将相关性标签满足预设条件的所述候选搜索词，作为目标搜索词；对至少一个所述目标搜索词中的异常搜索词进行过滤，得到所述待推荐搜索词；所述异常搜索词为根据预设的业务需求和/或播放平台规则确定得到的。

在一种可能实现方式中，所述待推荐搜索词确定单元504，具体还被配置为执行若所述目标搜索词中包含有指定词语，则判定所述目标搜索词为所述异常搜索词；所述指定词语为基于预设的业务需求和播放平台规则确定的；删除所述异常搜索词中的所述指定词语，得到修改后搜索词；将所述修改后搜索词和非异常搜索词，作为所述待推荐搜索词；所述非异常搜索词为未包含有所述指定词语的目标搜索词。

在一种可能实现方式中，所述待推荐搜索词确定单元504，具体还被配置为执行若所述目标搜索词中包含有预设词语，和/或所述目标搜索词的词语表征概念与预设的异常表征概念相匹配时，则判定所述目标搜索词为所述异常搜索词；所述预设词语和所述预设的异常表征概念均为基于预设的业务需求和播放平台规则确定的；在至少一个所述目标搜索词中删除所述异常搜索词，得到所述待推荐搜索词。

在一种可能实现方式中，所述预训练的搜索词生成模型具有预训练的编码器和预训练的解码器，所述候选搜索词得到单元502，具体被配置为执行将所述视频内容文本和所述关联知识图谱输入至所述预训练的编码器，得到编码结果；所述编码结果包括对所述视频内容文本进行编码得到的第一编码结果和对所述关联知识图谱进行编码得到的第二编码结果；将所述编码结果输入至所述预训练的解码器，得到至少一个所述候选搜索词；所述候选搜索词为通过所述预训练的解码器对第一编码结果和第二编码结果间的融合编码结果进行解码得到的。

在一种可能实现方式中，所述候选搜索词得到单元502，具体还被配置为执行将预设的搜索词控制码与所述视频内容文本进行拼接，得到拼接后文本；所述搜索词控制码包括词长度控制码和关键词控制码；所述词长度控制码用于控制所述候选搜索词的词长度；所述关键词控制码用于控制所述候选搜索词中是否包含有与所述关键词控制码对应的关键词；将所述拼接后文本和所述关联知识图谱输入至所述预训练的编码器，得到编码结果。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种用于视频搜索词推荐方法的电子设备600的框图。例如，电子设备600可以为服务器。参照图6，电子设备600包括处理组件620，其进一步包括一个或多个处理器，以及由存储器622所代表的存储器资源，用于存储可由处理组件620的执行的指令，例如应用程序。存储器622中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件620被配置为执行指令，以执行上述方法。

电子设备600还可以包括：电源组件624被配置为执行电子设备600的电源管理，有线或无线网络接口626被配置为将电子设备600连接到网络，和输入输出(I/O)接口628。电子设备600可以操作基于存储在存储器622的操作***，例如Windows Server，Mac OS X，Unix，Linux，FreeBSD或类似。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器622，上述指令可由电子设备600的处理器执行以完成上述方法。存储介质可以是计算机可读存储介质，例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，所述计算机程序产品中包括指令，上述指令可由电子设备600的处理器执行以完成上述方法。

需要说明的，上述的装置、电子设备、计算机可读存储介质、计算机程序产品等根据方法实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频搜索词推荐方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据相关性标签满足预设条件的所述候选搜索词，确定针对所述目标视频的待推荐搜索词，包括：

3.根据权利要求1所述的方法，其特征在于，所述预训练的搜索词生成模型具有预训练的编码器和预训练的解码器，所述将所述目标视频的视频内容文本和所述关联知识图谱输入至预训练的搜索词生成模型，得到至少一个候选搜索词，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述视频内容文本和所述关联知识图谱输入至所述预训练的编码器，得到编码结果，包括：

5.根据权利要求1所述的方法，其特征在于，在所述将所述目标视频的视频内容文本和所述关联知识图谱输入至预训练的搜索词生成模型，得到至少一个候选搜索词的步骤之前，还包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，在所述将各所述候选搜索词和所述视频内容文本输入至预训练的搜索词评估模型，得到各所述候选搜索词对应的相关性标签的步骤之前，还包括：

7.一种视频搜索词推荐装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的视频搜索词推荐方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6中任一项所述的视频搜索词推荐方法。

10.一种计算机程序产品，所述计算机程序产品中包括指令，其特征在于，所述指令被电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6任一项所述的视频搜索词推荐方法。