CN111639228B

CN111639228B - 视频检索方法、装置、设备及存储介质

Info

Publication number: CN111639228B
Application number: CN202010477313.1A
Authority: CN
Inventors: 王述; 张晓寒; 任可欣; 冯知凡; 柴春光; 朱勇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2023-07-18
Anticipated expiration: 2040-05-29
Also published as: CN111639228A

Abstract

本申请公开了视频检索方法、装置、设备及存储介质，涉及知识图谱、深度学习领域。具体实现方案为：接收视频检索请求，视频检索请求包括检索信息；将检索信息与视频索引信息进行匹配，得到视频检索结果，视频索引信息是根据预设知识图谱对视频进行语义理解得到的，该视频索引信息用于表示视频与检索信息之间的关系；输出视频检索结果。由于该视频索引信息是根据预设知识图谱对视频进行语义理解得到的，且该视频索引信息用于表示视频与检索信息之间的关系，因而，该视频索引信息能够对视频进行更细粒度的表达，从而在视频检索过程中，进行更细粒度的检索，以提高检索精准度。

Description

视频检索方法、装置、设备及存储介质

技术领域

本申请实施例涉及数据处理中的知识图谱、深度学习技术，尤其涉及一种视频检索方法、装置、设备及存储介质。

背景技术

随着短视频的兴起，每天都有大量的短视频被生产并上传到各大视频平台，随着各大视频平台视频量的增长，用户对视频内容的精准检索也越来越困难。

视频检索主要是基于用户输入的检索信息在视频库中进行视频检索的过程。目前的视频搜索，从视频理解层面来看，各视频平台对视频理解业务的处理还存在人工处理的现状，比如视频内容标签标注，人工标注对于封闭的标签集合具有较高的置信度，但对于开放的标签集合就会逊色很多。而从视频搜索业务层面来看，目前各视频平台的搜索业务主要还根据文本搜索。

综上，现有的视频理解和视频搜索方式使得视频检索精准度不高。

发明内容

本申请提供了一种用于提高视频检索精度的视频检索方法、装置、设备及存储介质。

根据本申请的一方面，提供了一种视频检索方法，包括：接收视频检索请求，所述视频检索请求包括检索信息；将所述检索信息与视频索引信息进行匹配，得到视频检索结果，所述视频索引信息是根据预设知识图谱对所述视频进行语义理解得到的，所述视频索引信息用于表示视频与检索信息之间的关系；输出所述视频检索结果。

根据本申请的另一方面，提供了一种视频检索装置，包括：接收模块，用于接收视频检索请求，所述视频检索请求包括检索信息；匹配模块，用于将所述检索信息与视频索引信息进行匹配，得到视频检索结果，所述视频索引信息是根据预设知识图谱对所述视频进行语义理解得到的，所述视频索引信息用于表示视频与检索信息之间的关系；输出模块，用于输出所述视频检索结果。

根据本申请的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述的方法。

根据本申请的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行第一方面所述的方法。

根据本申请的另一方面，提供了一种视频检索方法，包括：获取视频检索信息；根据视频检索信息和预设的视频索引信息进行视频检索，得到视频检索结果，所述预设的视频索引信息是根据预设知识图谱对所述视频构建索引信息得到的；输出所述视频检索结果。

根据本申请的技术提高了视频检索精准度。

根据本申请的另一方面，本申请实施例提供一种计算机程序产品，包括：计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得设备执行第一方面所述的方法。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请实施例提供的应用场景的示意图；

图2是本申请实施例提供的视频检索方法的流程图；

图3是本申请实施例提供的视频索引信息的示意图；

图4是本申请实施例提供的视频检索方法的检索逻辑图；

图5是本申请实施例提供的一种用户界面图；

图6是本申请实施例提供的视频检索装置的结构图；

图7是用来实现本申请实施例的视频检索方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是本申请实施例提供的一种应用场景图。如图1所示，该应用场景包括：终端设备11和视频服务器12；其中，终端设备11可以是电脑、Ipad、智能手机等电子设备。视频服务器12中存储有大量的视频。

用户可以在终端设备11上输入检索信息，终端设备将检索信息形成检索请求，并发送至视频服务器12；视频服务器12根据用户输入的检索信息，在大量的视频中进行检索，得到视频检索结果，并将视频检索结果返回给终端设备11。

目前，视频检索主要是基于用户输入的关键词，和视频的标注信息进行匹配，其中，视频的标注信息是采用文本对视频进行描述得到的。也就是说，视频服务器12中存储的视频的标注信息目前都是文本信息，而目前的检索也都是基于用户输入的关键和文本进行匹配进行的。

在上述视频检索过程中，视频标注信息较为简单，对于视频不能很好地表达，导致在检索过程中，检索结果的精确度较低。

针对上述技术问题，本申请实施例通过对视频进行更细粒度的表达，使得视频的表达信息更为丰富，从而在视频检索的过程中，能够更加精准地检索到用户想要的视频，以提高视频检索准确度。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图2为本申请实施例提供的视频检索方法流程图。本申请实施例针对现有技术的如上技术问题，提供了视频检索方法，如图2所示，该方法具体步骤如下：

步骤201、接收视频检索请求。

其中，视频检索请求包括检索信息。

本实施例的执行主体可以是如图1所示的终端设备，也可以是如图1所示的服务器。

若执行主体为终端设备，则终端设备接收用户输入的检索信息，并根据检索信息生成检索请求。其中，可以是由终端设备的接收模块接收用户输入的检索信息，然后根据检索信息生成检索请求并发送至终端设备的处理器。

若执行主体为服务器，则用户在终端设备11上输入检索信息，终端设备根据检索信息生成视频检索请求，并将该视频检索请求发送至视频服务器12，由服务器12接收视频检索请求。其中，检索信息可以是自然语言形式，其包括但不限于词语、句子和段落。另外，该检索信息可以是文字形式，也可以是语音形式，还可以是图片形式等其它形式，本实施例对此不做具体限定。若检索信息是语音形式，则还需要对语音形式的检索信息进行语音识别，将其转换为文字描述信息；若检索信息是图片形式，则还需要对图片进行图像识别，以提取出能够用于检索的文字信息。

步骤202、将检索信息与视频索引信息进行匹配，得到视频检索结果。

其中，视频索引信息是根据预设知识图谱对视频进行语义理解得到的，该视频索引信息用于表示视频与检索信息之间的关系。视频索引信息可以理解为视频的标注信息，在接收到用户的检索请求后，能够与检索请求中的检索信息进行匹配。

其中，在将检索信息与视频索引信息进行匹配，得到视频检索结果之前，本实施例的方法还包括：对视频检索请求进行解析，得到检索信息。

可选的，可以预先根据预设知识图谱对视频进行语义理解，得到视频索引信息，并将带有视频索引信息的视频存储在视频服务器中。当然，本实施例也可以是在接收到视频检索请求后，再根据预设知识图谱对视频进行语义理解，得到视频索引信息，然后再将所述检索信息与视频索引信息进行匹配，本实施例对此不做具体限定。然而，为了加快检索速度，可以选择预先根据预设知识图谱对视频进行语义理解，得到视频索引信息，并将带有视频索引信息的视频存储在视频服务器中的方式。

其中，预设知识图谱可以包括实体、主题、实体侧面、动作事件、场景等信息；其中，实体是指视频中出现的主要核心实体，如音乐名、演唱者、动漫角色等；主题是指视频的主题类别，如影视、动作电影、港台电影等；视频实体侧面是指实体的某一个侧面信息，或者说是实体的核心描述信息之外的其它信息，如A演员演技、B款手机评测等；动作事件是指视频中所主要表述的具体事件信息，如A国家和B国家冲突、某公司财务造假等；场景是指视频中视频画面的场景信息，如天台对决、飙车枪战等。

可选的，视频检索结果可以包括至少一个视频内容，也可以包括至少一个视频内容的标识信息。

其中，若执行主体为终端设备，则是由终端设备的处理器执行匹配的动作，而此时终端设备得到的是视频的标识信息，还需要将视频的标识信息发送至服务器，从服务器获取相应的视频内容。

若执行主体为服务器，则由服务器执行匹配的动作，直接获取到视频内容，或者先得到视频标识信息，再根据视频标识信息获取相应的视频内容。

步骤203、输出视频检索结果。

其中，终端设备可以将从服务器获取的视频检索结果输出给用户。例如，将视频检索结果中的至少一个视频内容按照倒排索引的方式排序，并在终端设备上显示。

本申请实施例通过在接收到视频检索请求后，将检索请求中包括的检索信息与视频索引信息进行匹配，得到视频检索结果并输出，该视频索引信息是根据预设知识图谱对视频进行语义理解得到的，用于表示视频与检索信息之间的关系的信息。由于该视频索引信息是根据预设知识图谱对视频进行语义理解得到的，且该视频索引信息用于表示视频与检索信息之间的关系，因而，该视频索引信息能够对视频进行更细粒度的表达，从而在视频检索过程中，进行更细粒度的检索，以提高检索精准度。

本实施例中的检索信息可以有多种不同的形式，同样地，视频索引信息也可以有多种不同的形式。用户可以采用自然语言形式输入检索信息，例如词语、句子和段落。如图3所示，视频索引信息可以包括：文本、标签和向量，即采用文本形式对视频进行表达、采用至少一个标签对视频进行表达、采用向量对视频进行表达。

其中，文本是指采用纯文本的形式对视频进行表达，可以是一段文字描述。

标签是根据预设知识图谱对视频进行标签提取得到的，用于对视频进行细粒度表达的信息，标签可以包括实体、主题、实体侧面、动作事件、场景等信息，对于实体、主题、实体侧面、动作事件、场景等信息的具体介绍可以参见前述实施例的介绍，此处不再赘述。

向量可以通过对标签进行向量化表达得到的。可选的，向量化表达方式可以采用已有的word2vec，word embedding方式，采用word2vec，word embedding方式对标签进行向量化表达，可以参见现有技术的介绍，此处不再赘述。

针对以上几种形式的检索信息和视频索引信息，本实施例可以提供如下几种不同的检索方式；

在一种可选的实施方式中，视频索引信息包括：每个视频对应的至少一个标签；则将检索信息与视频索引信息进行匹配，得到视频检索结果，包括：首先根据预设知识图谱从检索信息中提取待检索的标签，之后，再将待检索的标签与每个视频对应的至少一个标签进行匹配，得到视频检索结果。其中，根据预设知识图谱从检索信息中提取待检索的标签，可以理解为将用户输入的检索信息处理为预设知识图谱的形式。例如，若用户输入的检索信息是：A演员、B演员、电影，则会根据预设知识图谱从检索信息中提取出来实体是A演员和B演员，主题是电影，那么就会对其匹配视频索引信息是：实体为A演员和B演员，主题是电影的视频。其中，用户可以通过直接输入标签的形式进行检索，也可以通过输入包括标签的句子或段落的形式进行检索。例如，用户可以直接输入“A演员B演员电影”，也可以输入“A演员和B演员主演的电影”。而无论是哪种形式的用户输入，都需要对用户输入的内容进行理解，得到能够用于检索的标签，也就是从用户输入的检索信息中提取出来实体、主题、实体侧面、动作事件、场景等标签。

在另一种可选的实施方式中，视频索引信息包括：采用文本对视频进行表达的文本信息；则将检索信息与视频索引信息进行匹配，得到视频检索结果，包括：根据预设知识图谱从检索信息中提取待检索的标签；将待检索的标签与文本信息进行匹配，得到视频检索结果。本实施例中，视频索引信息是采用文本表达方式进行表达的，而检索信息中的标签也可以理解为是一种关键词，其与传统的关键词的区别在于，本实施例的标签具有比传统的关键词检索更为丰富的语义信息。若文本中包括待检索的标签，则仍然能够匹配得到相应的视频，得到视频检索结果。

在又一种可选的实施方式中，视频索引信息包括：每个视频对应的向量，其中，向量是将每个视频对应的至少一个标签进行向量化表示得到的；相应的，将所述检索信息与视频索引信息进行匹配，得到视频检索结果，包括：

步骤a1、根据预设知识图谱从检索信息中提取待检索的标签。

对于步骤a1的介绍可以参见前述实施例的介绍，此处不再赘述。

步骤a2、将待检索的标签进行向量化表示，得到向量化标签。

其中，可以采用已有的word2vec，word embedding方式将待检索的标签进行向量化表示，得到向量化标签，采用word2vec，word embedding方式对标签进行向量化表达，可以参见现有技术的介绍，此处不再赘述。

步骤a3、将向量化标签与每个视频对应的向量进行匹配，得到视频检索结果。

其中，步骤a3在将向量化标签与每个视频对应的向量进行匹配，得到所述视频检索结果时，具体包括：

步骤a31、对向量化标签和每个视频对应的向量进行相似度计算，得到每个视频的匹配度。

步骤a32、根据匹配度，确定视频检索结果。

其中，向量化标签为多个；步骤a31在对向量化标签和每个视频对应的向量进行相似度计算，得到每个视频的匹配度时，具体包括：

步骤a311、将每个向量化标签分别与每个视频对应的向量进行相似度计算，得到每个向量化标签与向量的相似度；

步骤a312、根据每个向量化标签与所述向量的相似度，及其与每个相似度对应的权重，确定视频的匹配度。

举例来说，检索信息包括演员A、演员B和电影D3，则该检索信息中实体A的向量为L1，实体B的向量为L2，电影D3的向量为S1，则本实施例根据相似度计算视频与检索信息的匹配度可以表达为如下公式：sim(L1,S1)*权重1+sim(L2,S1)*权重2+sim(D3,S1)*权重3，其中，sim(L1,S1)表示对向量L1和向量S1计算相似度，sim(L2,S1)表示对向量L2和向量S1计算相似度，sim(D3,S1)表示对向量D3和向量S1计算相似度。可选的，权重1、权重2和权重3可以根据各个向量对视频的表达重要度预先设置。

可选的，还可以根据关键词与文本信息进行匹配，得到视频检索结果。

可选的，如图4所示，在一些场景中，可以根据用户输入的检索内容直接获取到标签，而在一些场景中，根据用户输入的检索内容无法直接获取到标签，那么就需要首先对用户输入的检索信息进行意图识别，得到用户的检索意图，再根据预设知识图谱从检索意图中获取待检索的标签。其中，检索意图包括用户期望检索到的视频的标签。也就是说，检索意图中包括视频对应的至少一个标签。

例如，若用户输入的检索信息是“C演员和D演员主演的电影”，这种情况下，是可以直接从这句话中获取到标签的。而若用户输入的检索信息是“A的老公和B的老公主演的电影”，则需要首先对这句话进行意图识别，得到检索意图为“C演员和D演员主演的电影”其中，C演员是A的老公，D演员是B的老公。否则就会导致检索出错，即根据“A和B主演的电影”去检索，或者不进行检索。而C演员、D演员和电影就可以认为是用户期望检索到的视频的标签。

在上述实施例的基础上，检索信息中的标签可以包括如下至少一项：实体标签、分类标签、场景标签、主题标签、实体侧面标签、事件标签，所述实体侧面标签用于表示与所述实体标签相关的信息；所述视频对应的标签包括如下至少一项：实体索引标签、分类索引标签、场景索引标签、主题索引标签、实体侧面索引标签、事件索引标签，所述实体侧面索引标签用于表示与所述实体索引标签相关的信息；相应的，将所述待检索的标签与每个视频对应的至少一个标签进行匹配，得到所述视频检索结果，包括：

步骤b1、将所述实体标签、分类标签、场景标签、主题标签、实体侧面标签、事件标签中至少一项，分别与所述实体索引标签、分类索引标签、场景索引标签、主题索引标签、实体侧面索引标签、事件索引标签中的相应项进行匹配。

其中，可以理解为将实体标签与实体索引标签进行匹配，将分类标签与分类索引标签进行匹配，将场景标签与场景索引标签进行匹配，将主题标签与主题索引标签进行匹配，将实体侧面标签与实体侧面索引标签进行匹配，将事件标签与事件索引标签进行匹配。

步骤b2、将所述实体索引标签、分类索引标签、场景索引标签、主题索引标签、实体侧面索引标签、事件索引标签中至少一项对应的视频作为所述视频检索结果。

其中，若检索信息中的所有标签与视频对应的至少一个标签均匹配成功，或者检索信息中的预设比例的标签与视频对应的至少一个标签匹配成功，则将成功匹配的结果对应的视频作为视频检索结果。举例来说，若检索信息的标签包括实体标签、分类标签、场景标签、主题标签、实体侧面标签、事件标签这6个标签，则这6个标签都匹配成功，或者这6个标签中的大部分，例如4个都匹配成功，则将该4个标签对应的视频作为视频检索结果。

在上述实施例的基础上，可选的，如图5所示，还可以在终端设备上设置对检索方式的选择项，由用户对上述检索方式进行选择。例如，若用户点击搜索框，则显示出上述介绍的几种检索方式，由用户进行选择。将检索信息与视频索引信息进行匹配，得到视频检索结果之前，本实施例的方法还包括：

步骤c1、获取用户对检索方式的选择信息，检索方式包括根据标签进行视频检索、根据关键词进行视频检索、根据向量进行视频检索。

若用户对终端设备上显示的多种检索方式进行了选择，则可以获取用户在终端设备上的选择信息。

其中，根据标签进行视频检索，包括根据待检索的标签与每个视频对应的至少一个标签进行匹配，和根据待检索的标签与文本信息进行匹配。

根据向量进行视频检索，是指根据向量化标签与每个视频对应的向量进行匹配。

根据关键词进行视频检索，是指传统的关键词检索方式。

可选的，在根据标签进行视频检索的实施方式中，还可以进一步在图5中显示出一选项，以供用户选择是根据待检索的标签与每个视频对应的至少一个标签进行匹配，还是根据待检索的标签与文本信息进行匹配。或者将根据待检索的标签与每个视频对应的至少一个标签进行匹配，和，根据待检索的标签与文本信息进行匹配的两种检索方式中的其中一种检索方式设置为默认的检索方式，或者同时根据两种检索方式进行检索。本实施例对此不做具体限定。需要说明的是，若同时根据两种检索方式进行检索，则需要将两种检索方式的结果进行合并并作为最终的视频检索结果输出。

步骤c2、根据选择信息，确定视频检索方式。

当然，本实施例图5所示的用户界面仅为示例性说明，并不限定用户界面的具体显示方法，也不对检索方式的数量进行限定，本领域技术人员可以根据实际需要进行设置，本实施例对此不做具体限定。

在另一种可选的实施方式中，将所述检索信息与视频索引信息进行匹配，得到视频检索结果，包括：

步骤d1、采用至少两种检索方式进行视频检索，所述检索方式包括根据标签进行视频检索、根据关键词进行视频检索、根据向量进行视频检索；

其中，对于检索方式的介绍可以参见前述介绍，此处不再赘述。

步骤d2、将至少两种检索方式得到的视频检索结果进行合并。

示例性地，用户在搜索引擎中输入了“A演员B演员电影”，则可以根据用户输入的检索信息提取出标签“A演员”、“B演员”、“电影”，然后将“A演员”、“B演员”、“电影”这些标签与视频的至少一个标签进行匹配，得到第一视频检索结果，以及将“A演员”、“B演员”、“电影”这些标签与视频的文本信息进行匹配，得到第二视频检索结果，最终将第一视频检索结果和第二视频检索结果进行合并作为最终输出给用户的视频检索结果。

在上述实施例中介绍了视频索引信息，接下来将介绍如何获取得到视频索引信息的具体实施过程：

步骤e1、对视频中的目标对象进行识别，得到目标对象识别结果。

在一个示例中，目标对象可以包括：包括如下至少一项：人物、物体、文本、语音、视频分类。则对视频中的目标对象进行识别，包括以下中至少一项：

(1)对视频中的人物进行人脸识别，得到人脸识别结果。

其中，视频包括多帧视频图像，则可以采用人脸识别技术对视频图像中的人物进行识别，得到人脸识别结果。

(2)对视频中的物体进行识别，得到物体识别结果。

其中，视频包括多帧视频图像，可以采用已有的目标识别算法或者深度学习模型进行物体识别，深度学习模型需要预先根据训练样本数据和标注信息进行训练得到。

(3)对视频中的文字信息进行识别，得到文字识别结果。

其中，视频包括多帧视频图像，可以采用光学字符识别(Optical CharacterRecognition，OCR)方式对视频图像中的文字信息进行识别。文字信息包括字幕信息、视频标识(logo)信息等。

(4)对视频中的音频信息进行语音识别，得到音频识别结果。

其中，可以采用自动语音识别(Automatic Speech Recognition，ASR)技术来识别视频中的音频信息，并转换为文本信息，得到音频识别结果。

(5)对视频内容进行分类，得到视频分类结果。

其中，视频分类结果是用来表示视频主题的信息，例如影视、动作电影、港台电影等。

步骤e2、根据目标对象识别结果，确定每个视频对应的至少一个标签。

其中，以实体索引信息为例，可以从人脸识别结果、物体识别结果、文字识别结果、音频识别结果中的至少一项提取出实体信息，作为实体索引信息。例如，从人脸识别结果中提取出演员、演唱者等实体信息，从文字识别结果中提取出音乐名、影视名等实体信息。以上几种方式仅为示例性说明，本实施例并不限于以上几种确定标签的方式，可以根据人脸识别结果、物体识别结果、文字识别结果、音频识别结果中的任一项，或任几项的组合来提取实体信息，得到实体索引信息。

对于其他的标签信息，与实体索引信息的确定方式类似，具体可以参见实体索引信息的介绍，此处不再赘述。

步骤e3、根据至少一个标签，确定视频索引信息。

例如，最终得到的视频索引信息的形式可以是：分类是电影，实体包括A演员、B演员和影视名等，场景包括电影中的A场景(天台对决)、B场景(飙车枪战)。对于视频索引信息的表示方式可以采用表格形式，也可以采用其他的结构化表达形式，本实施例在此不做具体限定。

可选的，还可以将上述实施例中得到的关于视频的至少一个标签进行向量化表示，得到所述视频索引信息。其中，向量化表达方式可以采用word2vec，word embedding方式对标签进行向量化表达，具体可以参见现有技术的介绍，本实施例在此不再赘述。

可选的，视频中可能会包括一些冗余信息等，因而可以在对视频进行目标识别之前，对视频进行预处理，以减少视频处理量。

在一种可选的实施方式中，预处理可以包括：对原始视频抽取关键帧视频，得到视频，该视频包括至少一帧关键帧，关键帧视频是用于表达视频的事件的关键帧。

在另一种可选的实施方式中，请继续参阅图4，预处理还可以包括：对视频进行场景切分，得到至少一个场景片段；在至少一个场景片段中抽取关键帧视频，得到所述视频，视频包括至少一帧关键帧，关键帧视频是用于表达所述场景片段的事件的关键帧。

通过将由多个场景组成的长视频切分为不同的场景片段，从而对各个场景片段基于预设知识图谱进行语义理解构建视频索引信息，可以实现对视频更细粒度的理解。另外，通过抽取关键帧，由于关键帧能够很好地表达视频的主要信息，因而可以去除掉视频的冗余信息，减少计算量。

图6为本申请实施例提供的视频检索装置的结构示意图。该视频检索装置具体可以是上述实施例中的终端设备，或终端设备的部件(例如芯片或者电路)，也可以是上述实施例中的服务器。本申请实施例提供的视频检索装置可以执行视频检索方法实施例提供的处理流程，如图6所示，视频检索装置60包括：接收模块61、匹配模块62和输出模块63；其中，接收模块61，用于接收视频检索请求，所述视频检索请求包括检索信息；匹配模块62，用于将所述检索信息与视频索引信息进行匹配，得到视频检索结果，所述视频索引信息是根据预设知识图谱对所述视频进行语义理解得到的，所述视频索引信息用于表示视频与检索信息之间的关系；输出模块63，用于输出所述视频检索结果。

可选的，所述视频索引信息包括：每个视频对应的至少一个标签；则匹配模块62包括：提取单元621，用于根据所述预设知识图谱从所述检索信息中提取待检索的标签；匹配单元622，用于将所述待检索的标签与每个视频对应的至少一个标签进行匹配，得到所述视频检索结果。

可选的，所述视频索引信息包括：采用文本对所述视频进行表达的文本信息；则匹配模块62包括：提取单元621，用于根据所述预设知识图谱从所述检索信息中提取待检索的标签；匹配单元622，用于将所述待检索的标签与文本信息进行匹配，得到所述视频检索结果。

可选的，所述视频索引信息包括：每个视频对应的向量，所述向量是将每个视频对应的至少一个标签进行向量化表示得到的；相应的，所述匹配模块62包括：提取单元621，用于根据所述预设知识图谱从所述检索信息中提取待检索的标签；向量化单元623，用于将所述待检索的标签进行向量化表示，得到向量化标签；匹配单元622，用于将所述向量化标签与每个视频对应的向量进行匹配，得到所述视频检索结果。

可选的，匹配单元622将所述向量化标签与每个视频对应的向量进行匹配，得到所述视频检索结果时，具体包括：对所述向量化标签和每个视频对应的向量进行相似度计算，得到所述每个视频的匹配度；根据所述匹配度，确定所述视频检索结果。

可选的，所述向量化标签为多个；匹配单元622对所述向量化标签和每个视频对应的向量进行相似度计算，得到所述每个视频的匹配度时，具体包括：将每个向量化标签分别与每个视频对应的向量进行相似度计算，得到每个向量化标签与所述向量的相似度；根据每个向量化标签与所述向量的相似度，及其与所述相似度对应的权重，确定所述视频的匹配度。

可选的，提取单元621在根据所述预设知识图谱从所述视频检索请求中提取待检索的标签时，具体包括：根据预设知识图谱从所述检索信息中获取待检索的标签。

可选的，提取单元621在根据所述预设知识图谱从所述视频检索请求中提取待检索的标签时，具体包括：对所述检索信息进行意图识别，得到检索意图；根据预设知识图谱从所述检索意图中获取待检索的标签，其中，检索意图包括用户期望检索到的视频的标签。

可选的，所述检索信息中的标签包括如下至少一项：实体标签、分类标签、场景标签、主题标签、实体侧面标签、事件标签，所述实体侧面标签用于表示与所述实体标签相关的信息；所述视频对应的标签包括如下至少一项：实体索引标签、分类索引标签、场景索引标签、主题索引标签、实体侧面索引标签、事件索引标签，所述实体侧面索引标签用于表示与所述实体索引标签相关的信息；所述匹配单元622在将所述待检索的标签与每个视频对应的至少一个标签进行匹配，得到所述视频检索结果时，具体包括：将所述实体标签、分类标签、场景标签、主题标签、实体侧面标签、事件标签中至少一项，分别与所述实体索引标签、分类索引标签、场景索引标签、主题索引标签、实体侧面索引标签、事件索引标签中的相应项进行匹配；将所述实体索引标签、分类索引标签、场景索引标签、主题索引标签、实体侧面索引标签、事件索引标签中至少一项对应的视频作为所述视频检索结果。

可选的，该装置还包括：获取模块64，用于获取用户对检索方式的选择信息，所述检索方式包括根据标签进行视频检索、根据关键词进行视频检索、根据向量进行视频检索；第一确定模块65，用于根据所述选择信息，确定所述视频检索方式。

可选的，所述匹配单元622，还用于采用至少两种检索方式进行视频检索，所述检索方式包括根据标签进行视频检索、根据关键词进行视频检索、根据向量进行视频检索；将所述至少两种检索方式得到的视频检索结果进行合并。

可选的，该装置还包括：识别模块66，用于对所述视频中的目标对象进行识别，得到目标对象识别结果；第二确定模块67，用于根据所述目标对象识别结果，确定每个视频对应的至少一个标签；以及根据所述至少一个标签，确定所述视频索引信息。

可选的，所述第二确定模块67，还用于将所述至少一个标签进行向量化表示，得到所述视频索引信息。

可选的，该装置还包括：预处理模块68，用于获取原始视频，以及对所述原始视频进行预处理，得到所述视频。

可选的，所述预处理模块68包括：抽取模块681，用于对所述原始视频抽取关键帧视频，得到所述视频，所述视频包括至少一帧关键帧，所述关键帧视频是用于表达所述视频的事件的关键帧。

可选的，所述预处理模块68还包括：场景切分模块682，用于对所述视频进行场景切分，得到至少一个场景片段；在所述至少一个场景片段中抽取关键帧视频，得到所述视频，所述视频包括至少一帧关键帧，所述关键帧视频是用于表达所述场景片段的事件的关键帧。

可选的，所述目标对象包括如下至少一项：人物、物体、文本、语音、视频分类。

图6所示实施例的视频检索装置可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

根据本申请的实施例，本申请还提供了一种计算机程序产品，包括：计算机程序，计算机程序存储在可读存储介质中，设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得设备执行前述任一方法实施例的方案。

如图7所示，是根据本申请实施例的视频检索方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图7所示，该电子设备包括：一个或多个处理器701、存储器702，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器***)。图7中以一个处理器701为例。

存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的视频检索方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的视频检索方法。

存储器702作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的视频检索方法对应的程序指令/模块(例如，附图6所示的接收模块61、匹配模块62和输出模块63)。处理器701通过运行存储在存储器702中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的视频检索方法。

存储器702可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据视频检索方法的电子设备的使用所创建的数据等。此外，存储器702可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器702可选包括相对于处理器701远程设置的存储器，这些远程存储器可以通过网络连接至用于实现视频检索方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

视频检索方法的电子设备还可以包括：输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接，图7中以通过总线连接为例。

输入装置703可接收输入的数字或字符信息，以及产生与视频检索方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，在接收到视频检索请求后，将检索请求中包括的检索信息与视频索引信息进行匹配，得到视频检索结果并输出，该视频索引信息是根据预设知识图谱对视频进行语义理解得到的，用于表示视频与检索信息之间的关系的信息。由于该视频索引信息是根据预设知识图谱对视频进行语义理解得到的，且该视频索引信息用于表示视频与检索信息之间的关系，因而，该视频索引信息能够对视频进行更细粒度的表达，从而在视频检索过程中，进行更细粒度的检索，以提高检索精准度。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种视频检索方法，包括：

接收视频检索请求，所述视频检索请求包括检索信息；

根据预设知识图谱从所述检索信息中提取待检索的标签；

将所述待检索的标签与视频索引信息进行匹配，得到视频检索结果，所述视频索引信息是根据所述预设知识图谱对所述视频进行语义理解得到的，所述视频索引信息用于表示视频与检索信息之间的关系；视频索引信息包括以下至少一种：采用文本对所述视频进行表达的文本信息、每个视频对应的至少一个标签和每个视频对应的向量；

输出所述视频检索结果；

其中，所述根据所述预设知识图谱从所述检索信息中提取待检索的标签，包括：

对所述检索信息进行意图识别，得到检索意图，所述检索意图包括用户期望检索到的视频的标签；

根据所述预设知识图谱从所述检索意图中获取待检索的标签。

2.根据权利要求1所述的方法，其中，所述视频索引信息包括：每个视频对应的至少一个标签；

相应的，所述将所述待检索的标签与视频索引信息进行匹配，得到视频检索结果，包括：

将所述待检索的标签与每个视频对应的至少一个标签进行匹配，得到所述视频检索结果。

3.根据权利要求1所述的方法，其中，所述视频索引信息包括：采用文本对所述视频进行表达的文本信息；

将所述待检索的标签与所述文本信息进行匹配，得到所述视频检索结果。

4.根据权利要求1所述的方法，其中，所述视频索引信息包括：每个视频对应的向量，所述向量是将每个视频对应的至少一个标签进行向量化表示得到的；

将所述待检索的标签进行向量化表示，得到向量化标签；

将所述向量化标签与每个视频对应的向量进行匹配，得到所述视频检索结果。

5.根据权利要求4所述的方法，其中，所述将所述向量化标签与每个视频对应的向量进行匹配，得到所述视频检索结果，包括：

对所述向量化标签和每个视频对应的向量进行相似度计算，得到所述每个视频的匹配度；

根据所述匹配度，确定所述视频检索结果。

6.根据权利要求5所述的方法，其中，所述向量化标签为多个；

相应的，所述对所述向量化标签和每个视频对应的向量进行相似度计算，得到所述每个视频的匹配度，包括：

将每个向量化标签分别与每个视频对应的向量进行相似度计算，得到每个向量化标签与所述向量的相似度；

根据每个向量化标签与所述向量的相似度，及其与所述相似度对应的权重，确定所述视频的匹配度。

7.根据权利要求2-6任一项所述的方法，其中，所述检索信息中的标签包括如下至少一项：实体标签、分类标签、场景标签、主题标签、实体侧面标签、事件标签，所述实体侧面标签用于表示与所述实体标签相关的信息；

所述视频对应的标签包括如下至少一项：实体索引标签、分类索引标签、场景索引标签、主题索引标签、实体侧面索引标签、事件索引标签，所述实体侧面索引标签用于表示与所述实体索引标签相关的信息；

所述将所述待检索的标签与每个视频对应的至少一个标签进行匹配，得到所述视频检索结果，包括：

将所述实体标签、分类标签、场景标签、主题标签、实体侧面标签、事件标签中至少一项，分别与所述实体索引标签、分类索引标签、场景索引标签、主题索引标签、实体侧面索引标签、事件索引标签中的相应项进行匹配；

将所述实体索引标签、分类索引标签、场景索引标签、主题索引标签、实体侧面索引标签、事件索引标签中至少一项对应的视频作为所述视频检索结果。

8.根据权利要求1-6任一项所述的方法，所述将所述待检索的标签与视频索引信息进行匹配，得到视频检索结果之前，所述方法还包括：

获取用户对检索方式的选择信息，所述检索方式包括根据标签进行视频检索、根据关键词进行视频检索、根据向量进行视频检索；

根据所述选择信息，确定所述视频检索方式。

9.根据权利要求1-6任一项所述的方法，其中，所述将所述待检索的标签与视频索引信息进行匹配，得到视频检索结果，包括：

采用至少两种检索方式进行视频检索，所述检索方式包括根据标签进行视频检索、根据关键词进行视频检索、根据向量进行视频检索；

将所述至少两种检索方式得到的视频检索结果进行合并，得到所述视频检索结果。

10.根据权利要求1-6任一项所述的方法，所述将所述待检索的标签与视频索引信息进行匹配，得到视频检索结果之前，所述方法还包括：

对所述视频中的目标对象进行识别，得到目标对象识别结果；

根据所述目标对象识别结果，确定每个视频对应的至少一个标签；

根据所述至少一个标签，确定所述视频索引信息。

11.根据权利要求10所述的方法，所述根据所述至少一个标签，确定所述视频索引信息之后，所述方法还包括：

将所述至少一个标签进行向量化表示，得到所述视频索引信息。

12.根据权利要求10所述的方法，所述对所述视频中的目标进行识别，得到目标识别结果之前，所述方法还包括：

获取原始视频；

对所述原始视频进行预处理，得到所述视频。

13.根据权利要求12所述的方法，其中，所述对所述原始视频进行预处理，得到所述视频，包括：

对所述原始视频抽取关键帧视频，得到所述视频，所述视频包括至少一帧关键帧，所述关键帧视频是用于表达所述视频的事件的关键帧。

14.根据权利要求13所述的方法，其中，所述对所述原始视频进行预处理，得到所述视频，包括：

对所述视频进行场景切分，得到至少一个场景片段；

在所述至少一个场景片段中抽取关键帧视频，得到所述视频，所述视频包括至少一帧关键帧，所述关键帧视频是用于表达所述场景片段的事件的关键帧。

15.根据权利要求10所述的方法，其中，所述目标对象包括如下至少一项：人物、物体、文本、语音、视频分类。

16.一种视频检索装置，包括：所述装置包括接收模块、匹配模块和输出模块，所述匹配模块包括提取单元和匹配单元；

所述接收模块，用于接收视频检索请求，所述视频检索请求包括检索信息；

所述提取单元，用于根据预设知识图谱从所述检索信息中提取待检索的标签；

所述匹配单元，用于将所述待检索的标签与视频索引信息进行匹配，得到视频检索结果，所述视频索引信息是根据预设知识图谱对所述视频进行语义理解得到的，所述视频索引信息用于表示视频与检索信息之间的关系；视频索引信息包括以下至少一种：采用文本对所述视频进行表达的文本信息、每个视频对应的至少一个标签和每个视频对应的向量；

所述输出模块，用于输出所述视频检索结果；

其中，所述提取单元，具体用于对所述检索信息进行意图识别，得到检索意图，所述检索意图包括用户期望检索到的视频的标签；根据所述预设知识图谱从所述检索意图中获取待检索的标签。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-15中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-15中任一项所述的方法。

19.一种视频检索方法，包括：

获取视频检索信息；

根据预设知识图谱从所述视频检索信息中提取待检索的标签；

根据所述待检索的标签和预设的视频索引信息进行视频检索，得到视频检索结果，所述预设的视频索引信息是根据预设知识图谱对所述视频构建索引信息得到的；视频索引信息包括以下至少一种：采用文本对所述视频进行表达的文本信息、每个视频对应的至少一个标签和每个视频对应的向量；

输出所述视频检索结果；

其中，所述根据所述预设知识图谱从所述视频检索信息中提取待检索的标签，包括：

对所述视频检索信息进行意图识别，得到检索意图，所述检索意图包括用户期望检索到的视频的标签；