CN113869272A

CN113869272A - 基于特征提取模型的处理方法、装置、电子设备及介质

Info

Publication number: CN113869272A
Application number: CN202111193177.4A
Authority: CN
Inventors: 王珣; 柯冰清; 李宣平
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-10-13
Filing date: 2021-10-13
Publication date: 2021-12-31

Abstract

本公开是关于一种基于特征提取模型的处理方法、装置、电子设备及存储介质，属于计算机技术领域。方法包括：获取样本检索信息的检索特征；基于特征提取模型，获取与样本检索信息关联的第一视频信息中第一文本信息的第一文本特征及第一视频资源的第一资源特征，将第一文本特征与第一资源特征进行融合，得到第一视频特征；基于特征提取模型，获取与样本检索信息不关联的第二视频信息中第二视频资源的第二资源特征，将第一文本特征与第二资源特征进行融合，得到第二视频特征；基于第一视频特征和第二视频特征分别与检索特征之间的匹配关系，对特征提取模型进行训练，提升了特征提取模型的准确性。

Description

基于特征提取模型的处理方法、装置、电子设备及介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种基于特征提取模型的处理方法、装置、电子设备及介质。

背景技术

随着计算机技术的发展，视频资源越来越丰富，用户检索视频资源的需求也日益增多。相关的检索方法中，基于特征提取模型，获取用户输入的检索信息的检索特征及至少一个视频信息的视频特征，基于该检索特征及该视频特征，选取与检索信息关联的视频信息，但该特征提取模型的准确率差。

发明内容

本公开提供了一种基于特征提取模型的处理方法、装置、电子设备及介质，提高了特征提取模型的准确性。

根据本公开实施例的一方面，提供一种基于特征提取模型的处理方法，所述方法包括：

获取样本检索信息的检索特征、与所述样本检索信息关联的第一视频信息及与所述样本检索信息不关联的第二视频信息，所述第一视频信息包括第一文本信息及第一视频资源，所述第一文本信息用于描述所述第一视频资源，所述第二视频信息包括第二视频资源；

基于特征提取模型，获取所述第一视频信息中所述第一文本信息的第一文本特征及所述第一视频资源的第一资源特征，将所述第一文本特征与所述第一资源特征进行融合，得到第一视频特征；

基于所述特征提取模型，获取所述第二视频信息中所述第二视频资源的第二资源特征，将所述第一文本特征与所述第二资源特征进行融合，得到第二视频特征；

基于所述第一视频特征和所述第二视频特征分别与所述检索特征之间的匹配关系，对所述特征提取模型进行训练，所述特征提取模型用于获取任一视频信息的特征。

在一些实施例中，所述基于所述第一视频特征和所述第二视频特征分别与所述检索特征之间的匹配关系，对所述特征提取模型进行训练，包括：

确定所述检索特征与所述第一视频特征之间的第一相似度，以及所述检索特征与所述第二视频特征之间的第二相似度；

基于所述第一相似度及所述第二相似度，对所述特征提取模型进行训练。

在一些实施例中，所述第二视频信息还包括第二文本信息，所述第二文本信息用于描述所述第二视频资源，所述基于所述特征提取模型，获取所述第二视频信息中所述第二视频资源的第二资源特征，将所述第一文本特征与所述第二资源特征进行融合，得到第二视频特征，包括：

基于所述特征提取模型，获取所述第二视频信息中所述第二文本信息的第二文本特征及所述第二视频资源的第二资源特征，将所述第二文本特征与所述第二资源特征进行融合，得到所述第二视频信息的第三视频特征，将所述第一文本特征与所述第二资源特征进行融合，得到第二视频特征；

所述基于所述第一视频特征和所述第二视频特征分别与所述检索特征之间的匹配关系，对所述特征提取模型进行训练，包括：

基于所述第一视频特征、所述第二视频特征和所述第三视频特征分别与所述检索特征之间的匹配关系，对所述特征提取模型进行训练。

在一些实施例中，所述基于所述第一视频特征、所述第二视频特征和所述第三视频特征分别与所述检索特征之间的匹配关系，对所述特征提取模型进行训练，包括：

确定所述检索特征与所述第一视频特征之间的第一相似度、所述检索特征与所述第二视频特征之间的第二相似度以及所述检索特征与所述第三视频特征之间的第三相似度；

基于所述第一相似度、所述第二相似度及所述第三相似度，对所述特征提取模型进行训练。

在一些实施例中，所述第一视频资源包括多个视频帧，所述基于所述特征提取模型，获取所述第一视频资源的第一资源特征的过程，包括：

确定多个所述视频帧中的关键帧，所述关键帧包含所述第一视频资源所描述的主体内容；

基于所述特征提取模型，对所述关键帧进行特征提取，得到所述关键帧的帧特征，基于所述关键帧的帧特征，确定所述第一视频特征。

在一些实施例中，所述基于所述关键帧的帧特征，确定所述第一视频特征，包括：

在确定一个所述关键帧的情况下，将所述关键帧的帧特征确定为所述第一视频特征；

在确定多个所述关键帧的情况下，将多个所述关键帧的帧特征进行融合，得到融合特征，将所述融合特征确定为所述第一视频特征。

在一些实施例中，所述确定多个所述视频帧中的关键帧，包括：

获取每个所述视频帧的帧特征；

对多个所述视频帧的帧特征进行聚类，得到聚类中心；

从多个所述视频帧中，将帧特征与所述聚类中心距离最近的视频帧，确定为所述关键帧。

在一些实施例中，所述基于所述第一视频特征和所述第二视频特征分别与所述检索特征之间的匹配关系，对所述特征提取模型进行训练之后，所述方法还包括：

获取任一检索信息的检索特征及多个视频信息，每个所述视频信息包括文本信息及视频资源；

对于每个所述视频信息，基于所述特征提取模型，获取所述视频信息中文本信息的文本特征及视频资源的资源特征，将所述文本特征与所述资源特征进行融合，得到所述视频信息的视频特征；

基于所述检索特征及每个所述视频信息的视频特征之间的相似度，将所述相似度最大的至少一个视频信息，确定为与所述检索信息关联的视频信息。

根据本公开实施例的另一方面，提供一种基于特征提取模型的处理方法，所述方法包括：

对于每个所述视频信息，基于特征提取模型，获取所述视频信息中文本信息的文本特征及视频资源的资源特征，将所述文本特征与所述资源特征进行融合，得到所述视频信息的视频特征；

基于所述检索特征及每个所述视频信息的视频特征之间的相似度，将所述相似度最大的至少一个视频信息，确定为与所述检索信息关联的视频信息；

其中，所述特征提取模型是基于第一视频特征和第二视频特征分别与样本检索信息的检索特征之间的匹配关系训练得到的，所述第一视频特征对应的第一视频信息与所述样本检索信息关联，且包括第一文本信息及第一视频资源，所述第二视频特征对应的视频信息包括的文本信息与所述样本检索信息关联，但包括的视频资源与所述样本检索信息不关联。

在一些实施例中，所述方法还包括：

获取所述样本检索信息的所述检索特征、与所述样本检索信息关联的所述第一视频信息及与所述样本检索信息不关联的第二视频信息，所述第一文本信息用于描述所述第一视频资源，所述第二视频信息包括第二视频资源；

基于所述特征提取模型，获取所述第一视频信息中所述第一文本信息的第一文本特征及所述第一视频资源的第一资源特征，将所述第一文本特征与所述第一资源特征进行融合，得到所述第一视频特征；

基于所述特征提取模型，获取所述第二视频信息中所述第二视频资源的第二资源特征，将所述第一文本特征与所述第二资源特征进行融合，得到所述第二视频特征；

基于所述第一视频特征和所述第二视频特征分别与所述检索特征之间的匹配关系，对所述特征提取模型进行训练。

基于所述特征提取模型，获取所述第二视频信息中所述第二文本信息的第二文本特征及所述第二视频资源的所述第二资源特征，将所述第二文本特征与所述第二资源特征进行融合，得到所述第二视频信息的第三视频特征，将所述第一文本特征与所述第二资源特征进行融合，得到所述第二视频特征；

根据本公开实施例的再一方面，提供一种基于特征提取模型的处理装置，所述装置包括：

获取单元，被配置为执行获取样本检索信息的检索特征、与所述样本检索信息关联的第一视频信息及与所述样本检索信息不关联的第二视频信息，所述第一视频信息包括第一文本信息及第一视频资源，所述第一文本信息用于描述所述第一视频资源，所述第二视频信息包括第二视频资源；

所述获取单元，还被配置为执行基于特征提取模型，获取所述第一视频信息中所述第一文本信息的第一文本特征及所述第一视频资源的第一资源特征，将所述第一文本特征与所述第一资源特征进行融合，得到第一视频特征；

所述获取单元，还被配置为执行基于所述特征提取模型，获取所述第二视频信息中所述第二视频资源的第二资源特征，将所述第一文本特征与所述第二资源特征进行融合，得到第二视频特征；

训练单元，被配置为执行基于所述第一视频特征和所述第二视频特征分别与所述检索特征之间的匹配关系，对所述特征提取模型进行训练，所述特征提取模型用于获取任一视频信息的特征。

在一些实施例中，所述训练单元，被配置为执行确定所述检索特征与所述第一视频特征之间的第一相似度，以及所述检索特征与所述第二视频特征之间的第二相似度；基于所述第一相似度及所述第二相似度，对所述特征提取模型进行训练。

在一些实施例中，所述第二视频信息还包括第二文本信息，所述第二文本信息用于描述所述第二视频资源，所述获取单元，被配置为执行基于所述特征提取模型，获取所述第二视频信息中所述第二文本信息的第二文本特征及所述第二视频资源的第二资源特征，将所述第二文本特征与所述第二资源特征进行融合，得到所述第二视频信息的第三视频特征，将所述第一文本特征与所述第二资源特征进行融合，得到第二视频特征；

所述训练单元，被配置为执行基于所述第一视频特征、所述第二视频特征和所述第三视频特征分别与所述检索特征之间的匹配关系，对所述特征提取模型进行训练。

在一些实施例中，所述训练单元，被配置为执行确定所述检索特征与所述第一视频特征之间的第一相似度、所述检索特征与所述第二视频特征之间的第二相似度以及所述检索特征与所述第三视频特征之间的第三相似度；基于所述第一相似度、所述第二相似度及所述第三相似度，对所述特征提取模型进行训练。

在一些实施例中，所述第一视频资源包括多个视频帧，所述获取单元，包括：

确定子单元，被配置为执行确定多个所述视频帧中的关键帧，所述关键帧包含所述第一视频资源所描述的主体内容；

所述确定子单元，还被配置为执行基于所述特征提取模型，对所述关键帧进行特征提取，得到所述关键帧的帧特征，基于所述关键帧的帧特征，确定所述第一视频特征。

在一些实施例中，所述确定子单元，被配置为执行在确定一个所述关键帧的情况下，将所述关键帧的帧特征确定为所述第一视频特征；在确定多个所述关键帧的情况下，将多个所述关键帧的帧特征进行融合，得到融合特征，将所述融合特征确定为所述第一视频特征。

在一些实施例中，所述确定子单元，被配置为执行获取每个所述视频帧的帧特征；对多个所述视频帧的帧特征进行聚类，得到聚类中心；从多个所述视频帧中，将帧特征与所述聚类中心距离最近的视频帧，确定为所述关键帧。

在一些实施例中，所述装置还包括：

所述获取单元，还被配置为执行获取任一检索信息的检索特征及多个视频信息，每个所述视频信息包括文本信息及视频资源；

所述获取单元，还被配置为执行对于每个所述视频信息，基于所述特征提取模型，获取所述视频信息中文本信息的文本特征及视频资源的资源特征，将所述文本特征与所述资源特征进行融合，得到所述视频信息的视频特征；

确定单元，还被配置为执行基于所述检索特征及每个所述视频信息的视频特征之间的相似度，将所述相似度最大的至少一个视频信息，确定为与所述检索信息关联的视频信息。

根据本公开实施例的再一方面，提供了一种基于特征提取模型的处理装置，所述装置包括：

获取单元，获取被配置为执行获取任一检索信息的检索特征及多个视频信息，每个所述视频信息包括文本信息及视频资源；

所述获取单元，还被配置为执行对于每个所述视频信息，基于特征提取模型，获取所述视频信息中文本信息的文本特征及视频资源的资源特征，将所述文本特征与所述资源特征进行融合，得到所述视频信息的视频特征；

确定单元，还被配置为执行基于所述检索特征及每个所述视频信息的视频特征之间的相似度，将所述相似度最大的至少一个视频信息，确定为与所述检索信息关联的视频信息；

在一些实施例中，所述装置还包括：

所述获取单元，还被配置为执行获取所述样本检索信息的所述检索特征、与所述样本检索信息关联的所述第一视频信息及与所述样本检索信息不关联的第二视频信息，所述第一文本信息用于描述所述第一视频资源，所述第二视频信息包括第二视频资源；

所述获取单元，还被配置为执行基于所述特征提取模型，获取所述第一视频信息中所述第一文本信息的第一文本特征及所述第一视频资源的第一资源特征，将所述第一文本特征与所述第一资源特征进行融合，得到所述第一视频特征；

所述获取单元，还被配置为执行基于所述特征提取模型，获取所述第二视频信息中所述第二视频资源的第二资源特征，将所述第一文本特征与所述第二资源特征进行融合，得到所述第二视频特征；

训练单元，被配置为执行基于所述第一视频特征和所述第二视频特征分别与所述检索特征之间的匹配关系，对所述特征提取模型进行训练。

在一些实施例中，所述第二视频信息还包括第二文本信息，所述第二文本信息用于描述所述第二视频资源，所述获取单元，被配置为执行基于所述特征提取模型，获取所述第二视频信息中所述第二文本信息的第二文本特征及所述第二视频资源的所述第二资源特征，将所述第二文本特征与所述第二资源特征进行融合，得到所述第二视频信息的第三视频特征，将所述第一文本特征与所述第二资源特征进行融合，得到所述第二视频特征；

在一些实施例中，所述第一视频资源包括多个视频帧，所述获取单元，被配置为执行确定多个所述视频帧中的关键帧，所述关键帧包含所述第一视频资源所描述的主体内容；基于所述特征提取模型，对所述关键帧进行特征提取，得到所述关键帧的帧特征，基于所述关键帧的帧特征，确定所述第一视频特征。

根据本公开实施例的再一方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述方面所述的基于特征提取模型的处理方法。

根据本公开实施例的再一方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述方面所述的基于特征提取模型的处理方法。

根据本公开实施例的再一方面，提供一种计算机程序产品，当所述计算机程序产品中的指令由电子设备的处理器执行时，使得电子设备能够执行上述方面所述的基于特征提取模型的处理方法。

本公开实施例提供的基于特征提取模型的处理方法、装置、电子设备及存储介质，由于第一视频信息中的第一文本信息与样本检索信息关联，第二视频信息中的第二视频资源与样本检索信息不关联，将第一文本信息的第一文本特征与第二视频资源的第二资源特征进行融合，得到第二视频特征，以第一视频信息的第一视频特征为正样本特征，以该第二视频特征为负样本特征，基于该检索特征、正样本特征及该负样本特征对特征提取模型进行训练，丰富了训练特征提取模型的特征，考虑到了包含的文本信息与检索信息关联，且包含的视频资源与检索信息不关联的视频信息，对特征提取模型的影响，以增强特征提取模型对视频信息包含的文本信息及视频资源的识别能力，从而提升了特征提取模型的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种实施环境的示意图。

图2是根据一示例性实施例示出的一种基于特征提取模型的处理方法的流程图。

图3是根据一示例性实施例示出的一种基于特征提取模型的处理方法的流程图。

图4是根据一示例性实施例示出的一种训练特征提取模型的流程图。

图5是根据一示例性实施例示出的一种基于特征提取模型的处理方法的流程图。

图6是根据一示例性实施例示出的一种基于特征提取模型的处理方法的流程图。

图7是根据一示例性实施例示出的一种检索到的视频信息与检索信息之间的相似度的示意图。

图8是根据一示例性实施例示出的一种基于特征提取模型的处理装置的框图。

图9是根据一示例性实施例示出的一种基于特征提取模型的处理装置的框图。

图10是根据一示例性实施例示出的一种基于特征提取模型的处理装置的框图。

图11是根据一示例性实施例示出的一种基于特征提取模型的处理装置的框图。

图12是根据一示例性实施例示出的一种终端的框图。

图13是根据一示例性实施例示出的一种服务器的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图说明中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所使用的术语“至少一个”、“多个”、“每个”、“任一”，至少一个包括一个、两个或两个以上，多个包括两个或两个以上，而每个是指对应的多个中的每一个，任一是指多个中的任意一个。举例来说，多个视频信息包括3个视频信息，而每个是指这3个视频信息中的每一个视频信息，任一是指这3个视频信息中的任意一个视频信息，能够是第一个视频信息，或者，是第二个视频信息，或者，是第三个视频信息。

需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)，均为经用户授权或者经过各方充分授权的信息。

本公开实施例提供的基于特征提取模型的处理由电子设备执行，在一些实施例中，该电子设备为终端，例如，该终端为手机、平板电脑、计算机等多种类型的终端。在一些实施例中，该电子设备为服务器，例如，该服务器为一台服务器，或者，是由若干服务器组成的服务器集群，或者，是一个云计算服务中心。

在一些实施例中，该电子设备提供为服务器。图1是根据一示例性实施例提供的一种实施环境的示意图，该实施环境包括：终端101和服务器102，终端101均与服务器102能够通过网络连接进行交互。

服务器102用于训练特征提取模型，并存储该特征提取模型，或者，基于该服务器102训练完成特征提取模型后，由开发人员将该特征提取模型部署在其他存储位置，供该服务器102后续能够调用存储的特征提取模型。

在一些实施例中，该服务器102还提供信息检索服务。终端101通过与服务器102之间的网络连接，向服务器102发送检索请求，该检索请求携带检索信息，服务器接收该检索请求，基于特征提取模型，确定与该检索请求携带的检索信息关联的视频信息，向终端101发送与该检索信息关联的视频信息，终端101接收该视频信息，显示该视频信息。

在上述实施例的一种可能实现方式中，终端101安装由该服务器102提供服务的视频应用，终端101能够通过该目标应用实现例如视频检索、视频分享等功能。终端101基于账号登录该视频应用，基于该视频应用向服务器102发送检索请求，服务器102接收该检索请求，基于特征提取模型，确定与该检索请求携带的检索信息关联的视频信息，向终端101发送与该检索信息关联的视频信息，终端101接收该视频信息，基于该视频应用，显示该视频信息。

图2是根据一示例性实施例示出的一种基于特征提取模型的处理方法的流程图，参见图2，该方法由电子设备执行，包括以下步骤：

201、电子设备获取样本检索信息的检索特征、与样本检索信息关联的第一视频信息及与样本检索信息不关联的第二视频信息，第一视频信息包括第一文本信息及第一视频资源，第一文本信息用于描述第一视频资源，第二视频信息包括第二视频资源。

其中，该样本检索信息为任意的信息，该检索特征用于表征该样本检索信息。该第一视频资源及该第二视频资源为任意类型的视频，例如，第一视频资源为电影、短视频等，第二视频资源为电影、短视频等。第一视频信息与该样本检索信息关联，第二视频信息与样本检索信息不关联，则第一视频信息中的第一文本信息和第一视频资源均与该样本检索信息关联，第二视频信息中的第二视频资源与样本检索信息不关联。

202、电子设备基于特征提取模型，获取第一视频信息中第一文本信息的第一文本特征及第一视频资源的第一资源特征，将第一文本特征与第一资源特征进行融合，得到第一视频特征。

其中，特征提取模型用于获取任一视频信息的特征，该特征提取模型为待训练的模型。第一文本特征用于表征该第一文本信息，第一资源特征用于表征该第一视频资源。在本公开实施例中，第一视频信息相当于样本检索信息的正样本视频信息，则该第一视频特征相当于样本检索信息对应的正样本视频特征。由于第一视频信息包括第一文本信息及第一视频资源，先分别获取该第一文本信息的第一文本特征及该第一视频资源的第一资源特征，再将该第一文本特征及该第一资源特征进行融合，以使融合到的第一视频特征能够表征该第一视频信息。

203、电子设备基于特征提取模型，获取第二视频信息中第二视频资源的第二资源特征，将第一文本特征与第二资源特征进行融合，得到第二视频特征。

其中，第二资源特征用于表征第二视频资源。

假设一个视频信息中，包含的文本信息与检索信息关联，但包含的视频资源与该检索信息不关联，基于该检索信息进行检索时，如果将该视频信息作为与该检索关联的视频信息，这样会导致检索到的视频资源是不准确的，影响检索结果的准确性。因此，为了提高检索结果的准确性，能够将这类视频信息看做是与检索信息不关联的视频信息。

相应地，在训练特征提取模型的过程中，第一文本信息与样本检索信息关联，第二视频资源与样本检索信息不关联，将第一文本信息的第一文本特征与第二视频资源的第二资源特征进行融合，得到第二视频特征，以该第二视频特征来表征包含的文本信息与样本检索信息关联、但包含的视频资源与样本检索信息不关联的视频信息，并且，以该第二视频特征作为样本检索信息对应的负样本视频特征，以表示该视频信息与该样本检索信息是不关联的。

204、电子设备基于第一视频特征和第二视频特征分别与检索特征之间的匹配关系，对特征提取模型进行训练，特征提取模型用于获取任一视频信息的特征。

第一视频特征相当于样本检索信息对应的正样本视频特征，第二视频特征相当于样本检索信息对应的负样本视频特征，第一视频特征与检索特征之间的匹配关系，以及第二视频特征与检索特征之间的匹配关系，能够反映出特征提取模型的准确性。基于第一视频特征和第二视频特征分别与检索特征之间的匹配关系，对特征提取模型进行训练，以提升特征提取模型的准确性。

本公开实施例提供的方法，由于第一视频信息中的第一文本信息与样本检索信息关联，第二视频信息中的第二视频资源与样本检索信息不关联，将第一文本信息的第一文本特征与第二视频资源的第二资源特征进行融合，得到第二视频特征，以第一视频信息的第一视频特征为正样本特征，以该第二视频特征为负样本特征，基于该检索特征、正样本特征及该负样本特征对特征提取模型进行训练，丰富了训练特征提取模型的特征，考虑到了包含的文本信息与检索信息关联，且包含的视频资源与检索信息不关联的视频信息，对特征提取模型的影响，以增强特征提取模型对视频信息包含的文本信息及视频资源的识别能力，从而提升了特征提取模型的准确性。

在一些实施例中，基于第一视频特征和第二视频特征分别与检索特征之间的匹配关系，对特征提取模型进行训练，包括：

确定检索特征与第一视频特征之间的第一相似度，以及检索特征与第二视频特征之间的第二相似度；

基于第一相似度及第二相似度，对特征提取模型进行训练。

由于第一视频特征相当于样本检索信息的正样本视频特征，第二视频特征相当于样本检索信息的负样本视频特征，因此，基于该第一相似度及第二相似度，对特征提取模型进行训练，以使第一相似度增大，第二相似度减小，从而提升特征提取模型的准确性。

在一些实施例中，第二视频信息还包括第二文本信息，第二文本信息用于描述第二视频资源，基于特征提取模型，获取第二视频信息中第二视频资源的第二资源特征，将第一文本特征与第二资源特征进行融合，得到第二视频特征，包括：

基于特征提取模型，获取第二视频信息中第二文本信息的第二文本特征及第二视频资源的第二资源特征，将第二文本特征与第二资源特征进行融合，得到第二视频信息的第三视频特征，将第一文本特征与第二资源特征进行融合，得到第二视频特征；

基于第一视频特征和第二视频特征分别与检索特征之间的匹配关系，对特征提取模型进行训练，包括：

基于第一视频特征、第二视频特征和第三视频特征分别与检索特征之间的匹配关系，对特征提取模型进行训练。

在本公开实施例中，检索特征为样本检索信息对应的特征，第一视频特征为与样本检索信息关联的正样本特征，第二视频特征与第三视频特征为与检索特征不关联的负样本特征，且第二视频特征是基于第一视频信息及第二视频信息生成的负样本特征，以此丰富了训练特征提取模型的特征，考虑到了多种负样本特征对特征提取模型的影响，基于检索特征、第一视频特征、第二视频特征及第三视频特征，对特征提取模型进行训练，以提升特征提取模型对正样本视频信息和负样本视频信息的识别能力，从而提升特征提取模型的准确性。

在一些实施例中，基于第一视频特征、第二视频特征和第三视频特征分别与检索特征之间的匹配关系，对特征提取模型进行训练，包括：

确定检索特征与第一视频特征之间的第一相似度、检索特征与第二视频特征之间的第二相似度以及检索特征与第三视频特征之间的第三相似度；

基于第一相似度、第二相似度及第三相似度，对特征提取模型进行训练。

由于第一视频特征相当于样本检索信息的正样本视频特征，第二视频特征及第三视频特征相当于样本检索信息的负样本视频特征，因此，基于该第一相似度、第二相似度及第三相似度，对特征提取模型进行训练，以使第一相似度增大，第二相似度及第三相似度减小，从而提升特征提取模型的准确性。

在一些实施例中，第一视频资源包括多个视频帧，基于特征提取模型，获取第一视频资源的第一资源特征的过程，包括：

确定多个视频帧中的关键帧，关键帧包含第一视频资源所描述的主体内容；

基于特征提取模型，对关键帧进行特征提取，得到关键帧的帧特征，基于关键帧的帧特征，确定第一视频特征。

由于第一视频资源包括多个视频帧，通过确定多个视频帧中代表该第一视频资源的关键帧，基于关键帧的帧特征来确定第一视频特征，按照此种方式无需获取第一视频资源中每个视频帧的帧特征，减小的计算量，节省了资源，也能够保证第一视频特征的准确性。

在一些实施例中，基于关键帧的帧特征，确定第一视频特征，包括：

在确定一个关键帧的情况下，将关键帧的帧特征确定为第一视频特征；

在确定多个关键帧的情况下，将多个关键帧的帧特征进行融合，得到融合特征，将融合特征确定为第一视频特征。

由于第一视频资源包含的关键帧可能为一个或多个，基于确定的关键帧为一个或多个的不同情况，以不同的方式来获取第一视频特征，以保证获取到的视频特征的准确性。

在一些实施例中，确定多个视频帧中的关键帧，包括：

获取每个视频帧的帧特征；

对多个视频帧的帧特征进行聚类，得到聚类中心；

从多个视频帧中，将帧特征与聚类中心距离最近的视频帧，确定为关键帧。

由于该聚类中心为多个视频帧的帧特征的中心，该聚类中心能够体现出该多个视频帧所描述的主体内容，帧特征与聚类中心之间的距离，能够体现出对应的视频帧与该第一视频资源对应的主体内容之间的关联性。因此，将帧特征与聚类中心距离最近的视频帧，确定为关键帧，以保证该视频帧能代表该第一视频资源，保证选取的关键帧的准确性。

在一些实施例中，基于第一视频特征和第二视频特征分别与检索特征之间的匹配关系，对特征提取模型进行训练之后，方法还包括：

获取任一检索信息的检索特征及多个视频信息，每个视频信息包括文本信息及视频资源；

对于每个视频信息，基于特征提取模型，获取视频信息中文本信息的文本特征及视频资源的资源特征，将文本特征与资源特征进行融合，得到视频信息的视频特征；

基于检索特征及每个视频信息的视频特征之间的相似度，将相似度最大的至少一个视频信息，确定为与检索信息关联的视频信息。

本公开实施例提供的方法，由于该特征提取模型具有对视频信息中的文本信息及视频资源的识别能力，保证提取到的视频特征的准确性，基于检索信息的检索特征及基于特征提取模型提取到的视频特征，来检索出与检索信息关联的视频信息，避免了仅是包含的文本信息与检索信息关联的视频信息带来的影响，保证检索出的视频信息中的文本信息及视频资源均与该检索信息关联，从而保证了检索出的视频信息的准确性。

基于上述图2所示的实施例，第二视频信息还包括第二文本信息，还基于特征提取模型，获取用于表征第二视频信息的第三视频特征，结合该第三视频特征，对特征提取模型进行训练，训练过程详见下述实施例。

图3是根据一示例性实施例示出的一种基于特征提取模型的处理方法的流程图，参见图3，该方法由电子设备执行，包括以下步骤：

301、电子设备获取样本检索信息、与样本检索信息关联的第一视频信息及与样本检索信息不关联的第二视频信息。

其中，该样本检索信息为任意的信息，在一些实施例中，该样本检索信息为文本信息或图像。例如，该样本检索信息为用户输入的询问语句“滑板是什么”，或者，样本检索信息为用户输入的图像。第一视频信息包括第一文本信息及第一视频资源，第一文本信息用于描述第一视频资源，在一些实施例中，该第一文本信息包括该第一视频资源的视频主题或视频简介信息。例如，第一视频资源为电影，该第一文本信息包括该电影的电影名称及该电影的内容简介。在本公开实施例中，第二视频信息包括第二文本信息及第二视频资源，第二文本信息用于描述第二视频资源，例如，第二文本信息包括该第二视频资源的视频主题或视频简介信息。

在本公开实施例中，第一视频信息与该样本检索信息关联，第二视频信息与该样本检索信息不关联，也即是，该第一视频信息相当于该样本检索信息的正样本视频信息，该第二视频信息为该样本检索信息的负样本视频信息。该第一视频信息中的第一文本信息及第一视频资源均与该样本检索信息关联，第二视频信息中的第二视频资源及第二文本信息均与该样本检索信息均不关联。

在一些实施例中，第一视频信息中的第一文本信息与样本检索信息关联，是指第一文本信息包含该样本检索信息，或者，第一文本信息包含的内容与该样本检索信息相似。例如，样本检索信息为“滑板”，第一视频信息中的第一文本信息为“什么是滑板”。

在一些实施例中，第一视频信息中的第一视频资源与样本检索信息关联，是指第一视频资源包含该样本检索信息，或者，该第一视频资源中包含与该样本检索信息指示的内容。例如，样本检索信息为“滑板”，第一视频资源中显示有“滑板”的字样，或者，第一视频资源是用于介绍“滑板”的视频。

在一些实施例中，第二视频信息中的第二视频资源及第二文本信息均与该样本检索信息均不关联，是指第一文本信息包含的内容与样本检索信息不关联，且第二视频资源包含的内容与样本检索信息不关联。例如，样本检索信息为“滑板”，第二文本信息为“小狗真可爱”，第二视频资源是用于介绍“小狗”的视频，即该第二文本信息与该第二视频资源均与样本检索信息不关联。

302、电子设备基于特征提取模型，获取该样本检索信息的检索特征。

其中，该检索特征能够以任意的形式表示，例如，该检索特征以特征向量的形式表示。

在一些实施例中，302包括：基于该特征提取模型，对该样本检索信息进行特征提取，得到该样本检索信息的检索特征。

在一些实施例中，该样本检索信息包括文本信息，该特征提取模型包括第一提取子模型，该302包括：基于特征提取模型中的第一提取子模型，对该样本检索信息中的文本信息进行特征提取，得到该样本检索信息的检索特征。

其中，第一提取子模型用于提取文本信息的特征，例如，该第一提取子模型为文本编码器。在样本检索信息包括文本信息的情况下，基于第一提取子模型来获取样本检索信息的检索特征，以保证获取到的检索特征与样本检索信息相匹配。

在一些实施例中，该样本检索信息包括图像，该特征提取模型包括第二提取子模型，该302包括：基于特征提取模型中的第二提取子模型，对该样本检索信息中的图像进行特征提取，得到该样本检索信息的检索特征。

其中，第二提取子模型用于获取图像或视频资源的特征，例如，该第二提取子模型包括视觉编码器。在样本检索信息包括图像的情况下，基于第二提取子模型来获取样本检索信息的检索特征，以保证获取到的检索特征与样本检索信息相匹配。

需要说明的是，本公开实施例是基于特征提取模型来获取样本检索信息的检索特征的，而在另一实施例中，还能采取其他方式获取该样本检索信息的检索特征。在一些实施例中，基于其他模型，获取该样本检索信息的检索特征，本公开对此不加以限定。

303、电子设备基于该特征提取模型，获取该第一视频信息中第一文本信息的第一文本特征及第一视频资源的第一资源特征，将该第一文本特征与该第一资源特征进行融合，得到第一视频特征。

其中，第一文本特征、第一资源特征及该第一视频特征均能够以任意的形式表示，例如，第一文本特征、第一资源特征及该第一视频特征均以特征向量的形式表示。

在一些实施例中，该特征提取模型包括第一提取子模型、第二提取子模型及融合子模型，该303包括：基于第一提取子模型，对该第一文本信息进行特征提取，得到该第一文本特征，基于第二提取子模型，对该第一视频资源进行特征提取，得到该第一资源特征，基于融合子模型，将该第一文本特征与该第一资源特征进行融合，得到该第一视频特征。

其中，融合子模型用于将属于同一视频信息的文本信息和视频资源的特征进行融合。

由于第一提取子模型用于获取文本信息的特征，第二提取子模型用于获取图像或视频资源的特征，基于第一提取子模型和第二提取子模型，分别获取第一文本特征及第一资源特征，以保证第一文本特征及第一资源特征的准确性，之后，基于融合子模型将第一文本特征与该第一资源特征，以使融合得到的第一视频特征能够表征该第一资源信息包含的内容，保证了第一视频特征的准确性。

在上述实施例的一种可能实现方式中，基于融合子模型，获取该第一视频特征的过程，包括：基于该融合子模型，对该第一文本特征及该第一资源特征进行加权融合，得到该第一视频特征。

例如，该融合子模型为MSA(Multi-head Self-Attention，多头自注意力)模型，则基于该融合子模型、第一文本特征及该第一资源特征，获取该第一文本特征的权重及该第一资源特征的权重，基于该融合子模型、第一文本特征的权重及该第一资源特征的权重，对该第一文本特征及该第一资源特征进行加权融合，得到该第一视频特征。

再例如，该融合子模型为MLP(Multilayer Perceptron，多层感知机)，在获取到第一文本特征及该第一资源特征后，基于该融合子模型，将第一文本特征及第一资源特征进行融合，得到该第一视频特征。

再例如，融合子模型包括文本特征的第一权重及资源特征的第二权重，该权重由开发人员设置的，则基于该融合子模型、第一权重及第二权重，对该第一文本特征及该第一资源特征进行加权融合，得到该第一视频特征。

在一些实施例中，第一视频资源包括多个视频帧，基于特征提取模型，获取第一视频资源的第一资源特征的过程，包括：确定多个视频帧中的关键帧，基于特征提取模型，对关键帧进行特征提取，得到关键帧的帧特征，基于关键帧的帧特征，确定第一视频特征。

其中，关键帧包含第一视频资源所描述的主体内容，即该关键帧为第一视频资源包括的多个视频帧中，代表该第一视频资源的视频帧。例如，该第一视频资源为介绍“滑板”的视频，该第一视频资源所描述的主体内容即为“滑板”，该第一视频资源中的关键帧即为包含“滑板”的视频帧。关键帧的帧特征用于表征该关键帧，该帧特征能够以任意的形式表示，例如，该帧特征以特征向量的形式表示。

在上述实施例的一种可能实现方式中，确定多个视频帧中的关键帧的过程包括以下两种方式：

第一种方式：获取每个视频帧的帧特征，对多个视频帧的帧特征进行聚类，得到聚类中心，从多个视频帧中，将帧特征与聚类中心距离最近的视频帧，确定为关键帧。

其中，每个视频帧的帧特征用于表征对应的视频帧。该聚类中心为多个视频帧的帧特征的中心，该聚类中心能够体现出该多个视频帧所描述的主体内容，也即是该聚类中心能够体现出该第一视频资源所表达的主体内容。帧特征与聚类中心之间的距离，能够体现出对应的视频帧与该第一视频资源对应的主体内容之间的关联性。视频帧的帧特征与聚类中心之间的距离越小，表示该视频帧所包含的内容与该主体内容越相关，视频帧的帧特征与聚类中心之间的距离越大，表示该视频帧所包含的内容与该主体内容越不相关。因此，帧特征与聚类中心距离最近的视频帧，是多个视频帧中与第一视频资源所描述的主体内容最相关的视频帧，也即是，该视频帧能代表该第一视频资源，因此，将该视频帧确定为关键帧。

在一些实施例中，以聚类的方式确定多个聚类中心，基于该多个聚类中心确定关键帧，也即是，第一种方式包括：对多个视频帧的帧特征进行聚类，得到多个聚类中心，对于每个聚类中心，从多个视频帧中，将帧特征与该聚类中心距离最近的视频帧，确定为关键帧，得到多个关键帧。

在将多个视频帧的帧特征进行聚类时，能够得到多个簇，每个簇包括多个视频帧的帧特征，每个簇具有一个聚类中心，从每个簇包括的多个帧特征中选取一个与聚类中心距离最近的帧特征，将该帧特征对应的视频帧确定为第一个关键帧，即可得到多个关键帧。

由于一个视频资源包含的多个视频帧所描述的内容可能存在差异，因此，以多个聚类中心来进行聚类，得到多个关键帧，以保证该多个关键帧能够代表视频资源所表达的含义，从而保证确定的多个关键帧的准确性，以便后续基于多个关键帧来获取第一视频信息的视频特征，从而保证视频特征的准确性。

在一些实施例中，以一个聚类中心来确定多个关键帧，也即是，第一种方式中，从多个视频帧中确定关键帧的过程包括：从该多个视频帧中，将帧特征与聚类中心距离最近的多个视频帧，确定为关键帧。

由于不同的视频帧包含的内容存在差异，从多个视频帧中选取能代表该第一视频资源的多个关键帧，以便保证后续基于多个关键帧确定的视频特征的准确性。

第二种方式：将第一视频资源的封面视频帧确定为关键帧，或者，将第一视频资源的第一个视频帧确定为关键帧。

在本公开实施例中，第一视频资源的封面视频帧，或者，第一视频资源的第一个视频帧包含第一视频资源所描述的主体内容，因此，将第一视频资源的封面视频帧或第一个视频帧确定为关键帧。

在上述实施例的一种可能实现方式中，该特征提取模型包括第二提取子模型，基于特征提取模型获取关键帧的帧特征的过程，包括：基于该第二提取子模型，对关键帧进行特征提取，得到该关键帧的帧特征。

在确定多个关键帧的情况下，基于该第二提取子模型，分别对每个关键帧进行特征提取，得到每个关键帧的帧特征。

在上述实施例的一种可能实现方式中，基于关键帧的帧特征，确定第一视频特征，包括：在确定一个关键帧的情况下，将该关键帧的帧特征确定为第一视频特征；在确定多个关键帧的情况下，将多个关键帧的帧特征进行融合，得到融合特征，将融合特征确定为第一视频特征。

304、电子设备基于特征提取模型，获取第二视频信息中第二文本信息的第二文本特征及第二视频资源的第二资源特征，将第二文本特征与第二资源特征进行融合，得到第二视频信息的第三视频特征，将第一文本特征与第二资源特征进行融合，得到第二视频特征。

其中，第三视频特征为第二视频信息的视频特征。在本公开实施例中，第二视频信息相当于样本检索信息的负样本视频信息，即第二视频信息的第三视频特征相当于样本检索信息对应的负样本视频特征。

由于视频信息包括的文本信息与视频资源可能存在不匹配的情况，例如，视频信息中的文本信息为“小狗太可爱了”，视频信息中的视频资源为介绍“滑板”的视频，即该视频信息中的文本信息与视频资源不匹配。在以检索信息进行检索时，这种视频信息有可能会被检索到，导致检索到的视频信息中的文本信息与该检索信息关联，但该视频信息中的视频资源与该检索信息不关联，从而导致检索到的视频信息不准确。因此，在训练特征提取模型时，通过生成第二视频特征，以该第二视频特征来表征包含的文本信息与样本检索信息关联，且包含的视频资源与样本检索信息不关联的视频信息，以保证后续特征提取模型在进行特征提取时，避免此种视频信息的影响，以提升特征提取模型的准确性。

在本公开实施例中，基于特征提取模型对文本信息或视频资源进行特征提取后，能够对提取到的特征进行缓存，以便后续直接调用缓存的特征即可，无需再进行特征提取。也即是，基于特征提取模型，对第一文本信息进行特征提取，得到第一文本特征后，对第一文本特征进行缓存，基于特征提取模型获取第二视频信息中第二文本信息的第二文本特征及第二视频资源的第二资源特征后，将第二文本信息及第二资源特征进行融合得到第三视频特征，并将获取到的第二资源特征进行缓存，以便后续将缓存的第一文本特征与第二资源特征进行融合，得到第二视频特征。

在本公开实施例中，基于特征提取模型获取第三视频特征的过程，与上述基于特征提取模型获取第一视频特征的过程同理，在此不再赘述。并且，采用融合的方式，基于第一文本信息及第二资源特征，获取第二视频特征的过程，与上述采用融合的方式，基于第一文本信息及第一资源特征，获取第一视频特征的过程同理，在此不再赘述。

305、电子设备基于第一视频特征、第二视频特征和第三视频特征分别与检索特征之间的匹配关系，对特征提取模型进行训练。

在本公开实施例中，检索特征为样本检索信息对应的特征，第一视频特征为与样本检索信息关联的正样本特征，第二视频特征与第三视频特征为与检索特征不关联的负样本特征，且第二视频特征是基于第一视频信息及第二视频信息生成的负样本特征，以此丰富了训练特征提取模型的特征，考虑到了多种负样本特征对特征提取模型的影响，基于第一视频特征、第二视频特征和第三视频特征分别与检索特征之间的匹配关系，对特征提取模型进行训练，以提升特征提取模型对正样本视频信息和负样本视频信息的识别能力，从而提升特征提取模型的准确性。

在一些实施例中，该步骤305包括：确定检索特征与第一视频特征之间的第一相似度、检索特征与第二视频特征之间的第二相似度以及检索特征与第三视频特征之间的第三相似度；基于第一相似度、第二相似度及第三相似度，对特征提取模型进行训练。

其中，第一相似度表示由特征提取模型提取到的检索特征与第一视频特征之间的相似程度，该第一相似度也能够反映出样本检索信息与第一视频信息之间的关联程度，该第一相似度是基于特征提取模型确定的提取到的检索特征及第一视频特征确定的，由于第一视频信息与样本检索信息是关联的，因此，基于该第一相似度能够反映出特征提取模型的不准确度。同理，第二相似度表示检索特征与第二视频特征之间的相似程度，第三相似度表示检索特征与第三视频特征之间的相似程度。由于第二视频特征及第三视频特征对应的视频信息均与样本检索信息不关联，因此，第二相似度及第三相似度也能够反映出特征提取模型的不准确度。

在上述实施例的一种可能实现方式中，第一相似度、第二相似度及第三相似度均能以特征距离来表示，例如，采用欧氏距离等方式确定。则基于该第一相似度、第二相似度及第三相似度，对特征提取模型进行训练，以缩小检索特征与第一视频特征之间的距离，增大检索特征与第二视频特征和第三视频特征之间的距离，以此来提升特征提取模型的准确性。

在上述实施例的一种可能实现方式中，基于第一相似度、第二相似度及第三相似度，对特征提取模型进行训练的过程，包括：确定第二相似度与第三相似度的和值，基于该和值与该第一相似度之间的比值，确定损失值，基于该损失值，对特征提取模型进行训练。

其中，获取损失值时，能够基于InfoNCE(一种损失函数)获得。基于该损失值对特征提取模型进行训练，以缩小该比值，即增大第一相似度，减小第二相似度和第三相似度，从而提升特征提取模型的准确性。

在上述实施例的一种可能实现方式中，基于第一相似度、第二相似度及第三相似度，对特征提取模型进行训练的过程，包括：确定第二相似度与第三相似度的和值，基于该和值与该第一相似度之间的差值，确定损失值，基于该损失值，对特征提取模型进行训练。

基于该损失值对特征提取模型进行训练，以缩小该差值，即增大第一相似度，减小第二相似度和第三相似度，从而提升特征提取模型的准确性。

需要说明的是，本公开实施例是以第二视频信息包括第二文本信息及第二视频资源为例，基于获取到的第一视频特征、第二视频特征及第三视频特征对特征提取模型进行训练的，而在另一实施例中，第二视频信息仅包括第二视频资源，则无需执行步骤304-305，能够采取其他方式，基于特征提取模型，获取第二视频信息中第二视频资源的第二资源特征，将第一文本特征与第二资源特征进行融合，得到第二视频特征；基于检索特征、第一视频特征及第二视频特征，对特征提取模型进行训练。

在一些实施例中，基于检索特征、第一视频特征及第二视频特征，对特征提取模型进行训练的过程，包括：确定检索特征与第一视频特征之间的第一相似度，以及检索特征与第二视频特征之间的第二相似度；基于第一相似度及第二相似度，对特征提取模型进行训练。

在上述实施例的一种可能实现方式中，基于第一相似度及第二相似度，对特征提取模型进行训练的过程，包括：基于该第二相似度与该第一相似度之间的比值，确定损失值，基于该损失值，对特征提取模型进行训练；或者，基于该第二相似度与该第一相似度之间的差值，确定损失值，基于该损失值，对特征提取模型进行训练。

上述基于第一相似度及第二相似度确定损失值的过程，与上述基于第一相似度、第二相似度及第三相似度确定损失值的过程同理，在此不再赘述。

需要说明的是，本公开实施例是以训练特征提取模型的一次迭代过程来说明的，而在另一实施例中，按照上述步骤301-305，对特征提取模型进行多次迭代，以提升特征提取模型的准确性。在对特征提取模型进行训练的迭代轮次达到轮次阈值的情况下，停止训练特征提取模型；或者，响应于基于第一相似度、第二相似度及第三相似度确定的损失值小于损失阈值，停止训练特征提取模型。其中，轮次阈值为任意数值，例如，目标轮次为10。损失阈值为任意的数值，例如，损失阈值为0.2。

并且，以第一视频特征、第二视频特征及第三视频特征对特征提取模型进行训练，考虑到了视频信息的多种模态，即视频信息中的文本信息与视频资源匹配，或，视频信息中的文本信息与视频资源不匹配，以此来打破模态不平衡的情况，以增强特征提取模型对视频信息包含的文本信息及视频资源的识别能力，从而提升特征提取模型的准确性。

并且，基于检索特征、第一视频特征、第二视频特征及第三视频特征，获取第一相似度、第二相似度及第三相似度，由于相似度能够反映出特征提取模型的不准确度，以获取到的相似度对特征提取模型进行训练，以提升特征提取模型的准确性。

基于上述图3所示的实施例，提供了一种训练特征提取模型的流程，如图4所示，特征提取模型包括第一提取子模型、第二提取子模型及融合子模型，第一视频信息401包括第一视频资源及第一文本信息，第二视频信息402包括第二视频资源及第二文本信息，该流程包括：

基于第一提取子模型，对检索信息进行特征提取，得到检索特征。

基于特征提取模型获取第一视频信息的第一视频特征的过程包括：基于特征提取模型中的第一提取子模型，获取第一视频信息中第一文本信息的第一文本特征，缓存该第一文本特征；基于特征提取模型中的第二提取子模型，获取第一视频信息中第一视频资源的第一资源特征，基于该特征提取模型中的融合子模型，将第一文本特征及第一资源特征进行融合，得到第一视频特征。

基于特征提取模型获取第二视频信息的第三视频特征的过程包括：基于特征提取模型中的第一提取子模型，获取第二视频信息中第二文本信息的第二文本特征；基于特征提取模型中的第二提取子模型，获取第二视频信息中第二视频资源的第二资源特征，缓存该第二资源特征，基于该特征提取模型中的融合子模型，将第二文本特征及第二资源特征进行融合，得到第三视频特征。

基于特征提取模型获取第二视频特征的过程包括：基于特征提取模型中的融合子模型，将缓存的第一文本特征及第二资源特征进行融合，得到第二视频特征。

基于检索特征、第一视频特征、第二视频特征及第三视频特征，对特征提取模型进行训练，以缩短检索特征与第一视频特征之间的距离，增大检索特征与第二视频特征之间的距离以及检索特征与第三视频特征之间的距离，从而提升特征提取模型的准确性。

基于上述图2或图3所示的实施例，在训练特征提取模型之后，基于训练后的特征提取模型，能够实现信息检索，信息检索的过程详见下述实施例。

图5是根据一示例性实施例示出的一种基于特征提取模型的处理方法的流程图，参见图5，该方法由电子设备执行，包括以下步骤：

501、电子设备获取任一检索信息的检索特征及多个视频信息，每个视频信息包括文本信息及视频资源。

其中，该检索信息为待检索的信息，后续需要检索与该检索信息关联的视频信息，该检索特征用于表征该检索信息。该多个视频信息为备选的视频信息，后续从该多个视频信息中检索出与该检索信息关联的视频信息。每个视频信息包括文本信息及视频资源，该文本信息用于描述属于同一视频信息中的视频资源。

502、电子设备对于每个视频信息，基于特征提取模型，获取视频信息中文本信息的文本特征及视频资源的资源特征，将文本特征与资源特征进行融合，得到视频信息的视频特征。

其中，特征提取模型是基于第一视频特征和第二视频特征分别与样本检索信息的检索特征之间的匹配关系训练得到的，第一视频特征对应的第一视频信息与样本检索信息关联，且包括第一文本信息及第一视频资源，第二视频特征对应的视频信息包括的文本信息与样本检索信息关联，但包括的视频资源与样本检索信息不关联。其中，第一视频特征相当于样本检索信息对应的正样本视频特征，第二视频特征相当于样本检索信息对应的负样本视频特征，基于正样本视频特征和负样本视频特征分别与样本检索信息的检索特征之间的匹配关系，对特征提取模型进行训练，以提升特征提取模型对视频信息包含的文本信息及视频资源的识别能力，从而保证特征提取模型的准确性。

获取视频信息的视频特征的过程与上述303同理，在此不再赘述。

503、电子设备基于检索特征及每个视频信息的视频特征之间的相似度，将相似度最大的至少一个视频信息，确定为与检索信息关联的视频信息。

其中，对于任一视频信息，该视频信息的视频特征与检索特征之间的相似度，能够体现出该视频信息与检索信息之间的关联程度，相似度越大，表示该视频信息与该检索信息越关联。因此，从多个视频信息中，选取相似度最大的至少一个视频信息，使选取的视频信息与该检索信息关联，从而保证确定的视频信息的准确性。

本公开实施例提供的方法，由于特征提取模型是基于与样本检索信息关联的视频信息的视频特征和与样本检索信息不关联的视频信息的视频特征，分别与样本检索信息的检索特征之间的匹配关系训练得到，从而提升特征提取模型对视频信息包含的文本信息及视频资源的识别能力。因此，基于该特征提取模型获取视频信息的视频特征，从而保证获取到的视频特征的准确性，基于视频特征及检索特征，来检索出与检索信息关联的视频信息，避免了仅是包含的文本信息与检索信息关联的视频信息带来的影响，保证检索出的视频信息中的文本信息及视频资源均与该检索信息关联，从而保证了检索出的视频信息的准确性。

图6是根据一示例性实施例示出的一种基于特征提取模型的处理方法的流程图，参见图6，该方法由电子设备执行，包括以下步骤：

601、电子设备获取任一检索信息及多个视频信息，每个视频信息包括文本信息及视频资源。

在一些实施例中，电子设备提供为服务器，该601包括：服务器接收终端发送的检索请求，该检索请求携带该检索信息，获取该多个视频信息。

在本公开实施例中，该服务器提供检索服务，终端能够与该服务器进行交互，向该服务器发送检索请求，由该服务器为该终端检索出与该检索信息关联的检索信息，因此，在接收到终端发送的检索请求后，获取备选的多个视频信息，以便后续进行检索。

在上述实施例的一种可能实现方式中，服务器存储有信息库，该信息库用于存储备选的视频信息，该信息库包括该多个视频信息，获取该多个视频信息的过程包括：服务器响应于接收到检索请求，从该信息库中获取该多个视频信息。

602、电子设备基于特征提取模型，获取检索信息的检索特征。

获取检索特征的过程与上述302同理，在此不再赘述。

需要说明的是，本公开实施例是基于特征提取模型来获取检索信息的检索特征的，而在另一实施例中，无需执行步骤602，能够采取其他方式，获取检索信息的检索特征。在一些实施例中，基于其他模型，获取该样本检索信息的检索特征，本公开对此不加以限定。

603、电子设备对于每个视频信息，获取视频信息中文本信息的文本特征及视频资源的资源特征，将文本特征与资源特征进行融合，得到视频信息的视频特征。

604、电子设备基于检索特征及每个视频信息的视频特征之间的相似度，将相似度最大的至少一个视频信息，确定为与检索信息关联的视频信息。

在一些实施例中，电子设备提供为服务器，该检索信息是由终端发送的检索请求携带的，则该309之后，该方法还包括：服务器向终端发送与检索信息关联的视频信息，终端接收该视频信息，显示该视频信息。

例如，用户通过终端输入检索信息，如“滑板”，终端向服务器发送检索请求，该检索请求携带该检索信息，服务器接收到该检索请求后，按照上述601-604，检索与该检索信息关联的视频信息，向终端发送检索到的视频信息，终端接收到服务器发送的视频信息后，显示该视频信息，用户通过该终端能够查看终端显示的视频信息，实现了信息检索。

本公开实施例提供的方法，由于该特征提取模型具有对视频信息中的文本信息及视频资源的识别能力，保证提取到的视频特征的准确性，基于特征提取模型提取到的视频特征及检索特征，来检索出与检索信息关联的视频信息，避免了仅是包含的文本信息与检索信息关联的视频信息带来的影响，保证检索出的视频信息中的文本信息及视频资源均与该检索信息关联，从而保证了检索出的视频信息的准确性。

本公开实施例提供的方法，是基于训练后的特征提取模型来进行信息检索的。以“老虎”及“小龙虾”为检索信息，基于本公开实施例提供的方法及相关技术的信息检索方法，得到的检索结果如图7所示。图7中每个图像上的数值表示该图像与对应的检索信息之间的相似度。通过对比可知，基于本公开实施例提供的信息检索方法得到的相似度更准确。并且，基于多个视频信息对本公开提供的方法进行PNR(positive negative ratio正负样本比)测试，以及基于多个视频信息对相关技术提供的方法进行PNR测试，本公开的PNR为2.387，相关技术的PNR为2.258，通过对比PNR可知，本公开实施例提供的方法检索到的视频信息的准确性更高。

图8是根据一示例性实施例示出的一种基于特征提取模型的处理装置的框图。参见图8，该装置包括：

获取单元801，被配置为执行获取样本检索信息的检索特征、与样本检索信息关联的第一视频信息及与样本检索信息不关联的第二视频信息，第一视频信息包括第一文本信息及第一视频资源，第一文本信息用于描述第一视频资源，第二视频信息包括第二视频资源；

获取单元801，还被配置为执行基于特征提取模型，获取第一视频信息中第一文本信息的第一文本特征及第一视频资源的第一资源特征，将第一文本特征与第一资源特征进行融合，得到第一视频特征；

获取单元801，还被配置为执行基于特征提取模型，获取第二视频信息中第二视频资源的第二资源特征，将第一文本特征与第二资源特征进行融合，得到第二视频特征；

训练单元802，被配置为执行基于第一视频特征和第二视频特征分别与检索特征之间的匹配关系，对特征提取模型进行训练，特征提取模型用于获取任一视频信息的特征。

在一些实施例中，训练单元802，被配置为执行确定检索特征与第一视频特征之间的第一相似度，以及检索特征与第二视频特征之间的第二相似度；基于第一相似度及第二相似度，对特征提取模型进行训练。

在一些实施例中，第二视频信息还包括第二文本信息，第二文本信息用于描述第二视频资源，获取单元801，被配置为执行基于特征提取模型，获取第二视频信息中第二文本信息的第二文本特征及第二视频资源的第二资源特征，将第二文本特征与第二资源特征进行融合，得到第二视频信息的第三视频特征，将第一文本特征与第二资源特征进行融合，得到第二视频特征；

训练单元802，被配置为执行基于第一视频特征、第二视频特征和第三视频特征分别与检索特征之间的匹配关系，对特征提取模型进行训练。

在一些实施例中，训练单元802，被配置为执行确定检索特征与第一视频特征之间的第一相似度、检索特征与第二视频特征之间的第二相似度以及检索特征与第三视频特征之间的第三相似度；基于第一相似度、第二相似度及第三相似度，对特征提取模型进行训练。

在一些实施例中，第一视频资源包括多个视频帧，参见图9，获取单元801，包括：

确定子单元8011，被配置为执行确定多个视频帧中的关键帧，关键帧包含第一视频资源所描述的主体内容；

确定子单元8011，还被配置为执行基于特征提取模型，对关键帧进行特征提取，得到关键帧的帧特征，基于关键帧的帧特征，确定第一视频特征。

在一些实施例中，确定子单元8011，被配置为执行在确定一个关键帧的情况下，将关键帧的帧特征确定为第一视频特征；在确定多个关键帧的情况下，将多个关键帧的帧特征进行融合，得到融合特征，将融合特征确定为第一视频特征。

在一些实施例中，确定子单元8011，被配置为执行获取每个视频帧的帧特征；对多个视频帧的帧特征进行聚类，得到聚类中心；从多个视频帧中，将帧特征与聚类中心距离最近的视频帧，确定为关键帧。

在一些实施例中，参见图9装置还包括：

获取单元801，还被配置为执行获取任一检索信息的检索特征及多个视频信息，每个视频信息包括文本信息及视频资源；

获取单元801，还被配置为执行对于每个视频信息，基于特征提取模型，获取视频信息中文本信息的文本特征及视频资源的资源特征，将文本特征与资源特征进行融合，得到视频信息的视频特征；

确定单元803，还被配置为执行基于检索特征及每个视频信息的视频特征之间的相似度，将相似度最大的至少一个视频信息，确定为与检索信息关联的视频信息。

关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图10是根据一示例性实施例示出的一种基于特征提取模型的处理装置的框图。参见图10，该装置包括：

获取单元1001，获取被配置为执行获取任一检索信息的检索特征及多个视频信息，每个视频信息包括文本信息及视频资源；

获取单元1001，还被配置为执行对于每个视频信息，基于特征提取模型，获取视频信息中文本信息的文本特征及视频资源的资源特征，将文本特征与资源特征进行融合，得到视频信息的视频特征；

确定单元1002，还被配置为执行基于检索特征及每个视频信息的视频特征之间的相似度，将相似度最大的至少一个视频信息，确定为与检索信息关联的视频信息；

其中，特征提取模型是基于第一视频特征和第二视频特征分别与样本检索信息的检索特征之间的匹配关系训练得到的，第一视频特征对应的第一视频信息与样本检索信息关联，且包括第一文本信息及第一视频资源，第二视频特征对应的视频信息包括的文本信息与样本检索信息关联，但包括的视频资源与样本检索信息不关联。

在一些实施例中，如图11所示，装置还包括：

获取单元1001，还被配置为执行获取样本检索信息的检索特征、与样本检索信息关联的第一视频信息及与样本检索信息不关联的第二视频信息，第一文本信息用于描述第一视频资源，第二视频信息包括第二视频资源；

获取单元1001，还被配置为执行基于特征提取模型，获取第一视频信息中第一文本信息的第一文本特征及第一视频资源的第一资源特征，将第一文本特征与第一资源特征进行融合，得到第一视频特征；

获取单元1001，还被配置为执行基于特征提取模型，获取第二视频信息中第二视频资源的第二资源特征，将第一文本特征与第二资源特征进行融合，得到第二视频特征；

训练单元1003，被配置为执行基于第一视频特征和第二视频特征分别与检索特征之间的匹配关系，对特征提取模型进行训练。

在一些实施例中，第二视频信息还包括第二文本信息，第二文本信息用于描述第二视频资源，获取单元1001，被配置为执行基于特征提取模型，获取第二视频信息中第二文本信息的第二文本特征及第二视频资源的第二资源特征，将第二文本特征与第二资源特征进行融合，得到第二视频信息的第三视频特征，将第一文本特征与第二资源特征进行融合，得到第二视频特征；

训练单元1003，被配置为执行基于第一视频特征、第二视频特征和第三视频特征分别与检索特征之间的匹配关系，对特征提取模型进行训练。

在一些实施例中，第一视频资源包括多个视频帧，获取单元1001，被配置为执行确定多个视频帧中的关键帧，关键帧包含第一视频资源所描述的主体内容；基于特征提取模型，对关键帧进行特征提取，得到关键帧的帧特征，基于关键帧的帧特征，确定第一视频特征。

在示例性实施例中，还提供了一种电子设备，电子设备包括：

一个或多个处理器；

用于存储一个或多个处理器可执行指令的易失性或非易失性存储器；

其中，一个或多个处理器被配置为执行上述基于特征提取模型的处理方法中电子设备所执行的步骤。

在一些实施例中，该电子设备提供为终端。图12是根据一示例性实施例示出的一种终端1200的结构框图。该终端1200可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1200还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

终端1200包括有：处理器1201和存储器1202。

处理器1201可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1201可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1201可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1201还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1202可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1202还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1202中的非暂态的计算机可读存储介质用于存储至少一条程序代码，该至少一条程序代码用于被处理器1201所执行以实现本公开中方法实施例提供的基于特征提取模型的处理方法。

在一些实施例中，终端1200还可选包括有：***设备接口1203和至少一个***设备。处理器1201、存储器1202和***设备接口1203之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口1203相连。具体地，***设备包括：射频电路1204、显示屏1205、摄像头组件1206、音频电路1207、定位组件1208和电源1209中的至少一种。

***设备接口1203可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器1201和存储器1202。在一些实施例中，处理器1201、存储器1202和***设备接口1203被集成在同一芯片或电路板上；在一些其他实施例中，处理器1201、存储器1202和***设备接口1203中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1204用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1204通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1204将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1204包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1204可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1204还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏1205用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1205是触摸显示屏时，显示屏1205还具有采集在显示屏1205的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1201进行处理。此时，显示屏1205还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1205可以为一个，设置在终端1200的前面板；在另一些实施例中，显示屏1205可以为至少两个，分别设置在终端1200的不同表面或呈折叠设计；在另一些实施例中，显示屏1205可以是柔性显示屏，设置在终端1200的弯曲表面上或折叠面上。甚至，显示屏1205还可以设置成非矩形的不规则图形，也即异形屏。显示屏1205可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-EmittingDiode,有机发光二极管)等材质制备。

摄像头组件1206用于采集图像或视频。可选地，摄像头组件1206包括前置摄像头和后置摄像头。前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1206还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1207可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1201进行处理，或者输入至射频电路1204以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1200的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1201或射频电路1204的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1207还可以包括耳机插孔。

定位组件1208用于定位终端1200的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1208可以是基于美国的GPS(GlobalPositioning System，全球定位***)、中国的北斗***或俄罗斯的伽利略***的定位组件。

电源1209用于为终端1200中的各个组件进行供电。电源1209可以是交流电、直流电、一次性电池或可充电电池。当电源1209包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1200还包括有一个或多个传感器1210。该一个或多个传感器1210包括但不限于：加速度传感器1211、陀螺仪传感器1212、压力传感器1213、指纹传感器1214、光学传感器1215以及接近传感器1216。

加速度传感器1211可以检测以终端1200建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1211可以用于检测重力加速度在三个坐标轴上的分量。处理器1201可以根据加速度传感器1211采集的重力加速度信号，控制显示屏1205以横向视图或纵向视图进行用户界面的显示。加速度传感器1211还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1212可以检测终端1200的机体方向及转动角度，陀螺仪传感器1212可以与加速度传感器1211协同采集用户对终端1200的3D动作。处理器1201根据陀螺仪传感器1212采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1213可以设置在终端1200的侧边框和/或显示屏1205的下层。当压力传感器1213设置在终端1200的侧边框时，可以检测用户对终端1200的握持信号，由处理器1201根据压力传感器1213采集的握持信号进行左右手识别或快捷操作。当压力传感器1213设置在显示屏1205的下层时，由处理器1201根据用户对显示屏1205的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1214用于采集用户的指纹，由处理器1201根据指纹传感器1214采集到的指纹识别用户的身份，或者，由指纹传感器1214根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1201授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1214可以被设置在终端1200的正面、背面或侧面。当终端1200上设置有物理按键或厂商Logo时，指纹传感器1214可以与物理按键或厂商Logo集成在一起。

光学传感器1215用于采集环境光强度。在一个实施例中，处理器1201可以根据光学传感器1215采集的环境光强度，控制显示屏1205的显示亮度。具体地，当环境光强度较高时，调高显示屏1205的显示亮度；当环境光强度较低时，调低显示屏1205的显示亮度。在另一个实施例中，处理器1201还可以根据光学传感器1215采集的环境光强度，动态调整摄像头组件1206的拍摄参数。

接近传感器1216，也称距离传感器，设置在终端1200的前面板。接近传感器1216用于采集用户与终端1200的正面之间的距离。在一个实施例中，当接近传感器1216检测到用户与终端1200的正面之间的距离逐渐变小时，由处理器1201控制显示屏1205从亮屏状态切换为息屏状态；当接近传感器1216检测到用户与终端1200的正面之间的距离逐渐变大时，由处理器1201控制显示屏1205从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图12中示出的结构并不构成对终端1200的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在一些实施例中，该电子设备提供为终端。图13是根据一示例性实施例示出的一种服务器的结构示意图，该服务器1300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)1301和一个或一个以上的存储器1302，其中，存储器1302中存储有至少一条程序代码，该至少一条程序代码由处理器1301加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种非临时性计算机可读存储介质，当存储介质中的程序代码由电子设备的处理器执行时，使得电子设备能够执行上述基于特征提取模型的处理方法中电子设备所执行的步骤。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种非临时性计算机可读存储介质，当存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述基于特征提取模型的处理方法中电子设备所执行的步骤。

在示例性实施例中，还提供了一种计算机程序产品，当计算机程序产品中的指令由电子设备的处理器执行时，使得电子设备能够执行上述基于特征提取模型的处理方法中终端或服务器所执行的步骤。

本领域技术人员在考虑说明书及实践这里的公开后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种基于特征提取模型的处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一视频特征和所述第二视频特征分别与所述检索特征之间的匹配关系，对所述特征提取模型进行训练，包括：

3.根据权利要求1所述的方法，其特征在于，所述第二视频信息还包括第二文本信息，所述第二文本信息用于描述所述第二视频资源，所述基于所述特征提取模型，获取所述第二视频信息中所述第二视频资源的第二资源特征，将所述第一文本特征与所述第二资源特征进行融合，得到第二视频特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一视频特征、所述第二视频特征和所述第三视频特征分别与所述检索特征之间的匹配关系，对所述特征提取模型进行训练，包括：

5.一种基于特征提取模型的处理方法，其特征在于，所述方法包括：

6.一种基于特征提取模型的处理装置，其特征在于，所述装置包括：

7.一种基于特征提取模型的处理装置，其特征在于，所述装置包括：

8.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至4中任一项所述的基于特征提取模型的处理方法；或者，以实现如权利要求5所述的基于特征提取模型的处理方法。

9.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至权利要求4任一项所述的基于特征提取模型的处理方法；或者，如权利要求5所述的基于特征提取模型的处理方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至权利要求4任一项所述的基于特征提取模型的处理方法；或者，实现如权利要求5所述的基于特征提取模型的处理方法。