CN111324819A

CN111324819A - 一种媒体内容搜索的方法、装置、计算机设备及存储介质

Info

Publication number: CN111324819A
Application number: CN202010210951.7A
Authority: CN
Inventors: 王子昂; 张永华; 张梦琳
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2020-06-23
Anticipated expiration: 2040-03-24
Also published as: CN111324819B

Abstract

本公开提供了一种媒体内容搜索的方法、装置、计算机设备及存储介质，其中，该方法包括：接收针对目标媒体内容的搜索指令；基于搜索指令，确定与目标媒体内容的场景意图匹配的第一候选媒体内容集合，以及与目标媒体内容的实体意图匹配的第二候选媒体内容集合；基于第一候选媒体内容集合，以及第二候选媒体内容集合，向用户端发送与目标媒体内容对应的搜索结果。采用上述方案，可以直接基于媒体内容进行搜索，不需要用户输入文本信息进行媒体内容搜索，能够一定程度上提升用户的搜索效率及搜索的准确性。

Description

一种媒体内容搜索的方法、装置、计算机设备及存储介质

技术领域

本公开涉及媒体内容处理技术领域，具体而言，涉及一种媒体内容搜索的方法、装置、计算机设备及存储介质。

背景技术

随着互联网的发展，搜索引擎成为人们上网必不可少的工具之一。传统的搜索引擎是基于文本搜索的，也即，通过文字输入进行搜索。此外，即使是有关媒体内容(例如视频)的搜索引擎也是通过媒体内容节目的名称、说明、介绍、标签等文本信息进行搜索。

通常情况下，在进行媒体内容搜索的过程中，可以直接对用户输入的文本信息进行识别，然后对识别出来的结果进行搜索，例如，在用户输入的文本信息与候选媒体内容的媒体内容标签信息一致时，即可以将候选媒体内容的信息反馈至用户。

可见，上述媒体内容搜索方法依赖于用户对意图搜索的媒体内容进行准确的文本描述以及文本的输入操作，这将导致搜索的效率较低，同时，在用户无法准确的进行文本描述时，往往导致媒体内容搜索的准确性较低。

发明内容

本公开实施例提供至少一种媒体内容搜索的方案，从目标媒体内容中的实体和场景两方面进行了相似媒体内容的自动搜索，无需通过文本输入进行媒体内容搜索，可以提升搜索效率及搜索的准确性，并且提高了得到满足用户意图的搜索结果的概率。

主要包括以下几个方面：

第一方面，本公开提供了一种媒体内容搜索的方法，所述方法包括：

接收针对目标媒体内容的搜索指令；

基于所述搜索指令，确定与所述目标媒体内容的场景意图匹配的第一候选媒体内容集合，以及与所述目标媒体内容的实体意图匹配的第二候选媒体内容集合；

基于所述第一候选媒体内容集合，以及所述第二候选媒体内容集合，向用户端发送与所述目标媒体内容对应的搜索结果。

一种可能的实施方式中，所述确定与所述目标媒体内容的场景意图匹配的第一候选媒体内容集合，包括：

基于所述目标媒体内容在多种预设维度下的特征信息，确定所述目标媒体内容对应的目标媒体内容特征向量；

通过将所述目标媒体内容特征向量与场景索引库中的各个候选媒体内容特征向量进行匹配，确定与所述目标媒体内容的场景意图匹配的至少一个第一候选媒体内容，将所述至少一个第一候选媒体内容组成所述第一候选媒体内容集合。

一种可能的实施方式中，所述媒体内容为视频，所述多种预设维度包括以下维度中的多种：

视觉维度、文本信息维度、音乐维度。

一种可能的实施方式中，根据以下步骤生成所述场景索引库：

对各个初选媒体内容进行场景意图识别，确定各个初选媒体内容中具有场景意图的第一候选媒体内容；

提取所述第一候选媒体内容在多种预设维度下的特征信息；

基于所述第一候选媒体内容在多种预设维度下的特征信息，生成所述第一候选媒体内容的候选媒体内容特征向量；

将所述第一候选媒体内容的第一媒体内容标识和该第一候选媒体内容的所述候选媒体内容特征向量对应存储在所述场景索引库中。

一种可能的实施方式中，所述通过将所述目标媒体内容特征向量与场景索引库中的各个候选媒体内容特征向量进行匹配，确定与所述目标媒体内容的场景意图匹配的至少一个第一候选媒体内容，包括：

将所述目标媒体内容的目标媒体内容特征向量与场景索引库中的各个候选媒体内容特征向量进行匹配，确定与所述目标媒体内容特征向量匹配的至少一个候选媒体内容特征向量；

基于所述场景索引库中，与确定的所述候选媒体内容特征向量对应的第一媒体内容标识，确定所述至少一个第一候选媒体内容。

一种可能的实施方式中，所述将所述至少一个第一候选媒体内容组成所述第一候选媒体内容集合，包括：

获取与所述第一媒体内容标识所标识的第一候选媒体内容对应的用户行为信息；

基于所述用户行为信息，从所述第一媒体内容标识所标识的第一候选媒体内容中选取符合预设要求的第一候选媒体内容，组成所述第一候选媒体内容集合。

一种可能的实施方式中，确定与所述目标媒体内容的实体意图匹配的第二候选媒体内容集合，包括：

确定所述目标媒体内容中，与实体意图对应的目标实体的目标实体特征向量；

将所述目标实体的目标实体特征向量与实体索引库中的各个候选实体特征向量进行匹配，确定与所述目标实体匹配的第二候选媒体内容集合；所述第二候选媒体内容集合中包含至少一个第二候选媒体内容。

一种可能的实施方式中，所述确定所述目标媒体内容中，与实体意图对应的目标实体的目标实体特征向量，包括：

检测出所述目标媒体内容中的实体；

对检测出的至少一个实体进行意图识别，确定出至少一个所述目标实体；

针对每个所述目标实体，基于该目标实体在所述目标媒体内容中对应的图像信息，生成该目标实体对应的所述目标实体特征向量。

一种可能的实施方式中，根据以下步骤生成所述实体索引库：

确定各个初选媒体内容中包含的实体；

对所述初选媒体内容中包含的实体进行意图识别，确定候选实体及该候选实体所在的第二候选媒体内容；

基于所述候选实体在对应的第二候选媒体内容中的图像信息，生成该候选实体对应的所述候选实体特征向量；

将所述候选实体所在的第二候选媒体内容的第二媒体内容标识，和该候选实体的候选实体特征向量对应存储在所述实体索引库中。

一种可能的实施方式中，所述将所述目标实体的目标实体特征向量与实体索引库中的各个候选实体特征向量进行匹配，确定与所述目标实体匹配的第二候选媒体内容集合，包括：

将所述目标媒体内容中的目标实体的目标实体特征向量与实体索引库中的各个候选实体特征向量进行匹配，确定与所述目标媒体内容匹配的至少一个候选实体特征向量；

基于所述实体索引库中，与确定的所述候选实体特征向量对应的第二媒体内容标识，确定所述第二候选媒体内容集合。

一种可能的实施方式中，所述基于所述实体索引库中，与确定的所述候选实体特征向量对应的第二媒体内容标识，确定所述第二候选媒体内容集合，包括：

获取与所述第二媒体内容标识所标识的第二候选媒体内容对应的用户行为信息；

基于所述用户行为信息，从所述第二媒体内容标识所标识的第二候选媒体内容中选取符合预设要求的第二候选媒体内容，组成所述第二候选媒体内容集合。

一种可能的实施方式中，所述基于所述第一候选媒体内容集合，以及所述第二候选媒体内容集合，向用户端发送与所述目标媒体内容对应的搜索结果，包括：

生成所述第一候选媒体内容集合对应的第一集合标识信息，以及生成所述第二候选媒体内容集合中至少一个第二候选媒体内容子集分别对应的第二集合标识信息；其中，每个所述第二候选媒体内容子集对应一个与所述实体意图匹配的候选实体；

将所述第一候选媒体内容集合及该第一候选媒体内容集合对应的第一集合标识信息，所述第二候选媒体内容集合中至少一个第二候选媒体内容子集及每个第二候选媒体内容子集分别对应的第二集合标识信息作为所述搜索结果发送给所述用户端。

一种可能的实施方式中，所述第一集合标识信息包括第一缩略图片和/或第一文字描述信息；

所述第二集合标识信息包括第二缩略图片和/或第二文字描述信息。

第二方面，本公开还提供了一种媒体内容搜索的方法，所述方法包括：

向服务器发送针对目标媒体内容的搜索指令；

接收所述服务器反馈的搜索结果；所述搜索结果中包含与所述目标媒体内容的场景意图匹配的第一候选媒体内容集合，和/或与所述目标媒体内容的实体意图匹配的第二候选媒体内容集合；

基于所述搜索结果，显示搜索结果展示页面。

一种可能的实施方式中，所述向服务器发送针对目标媒体内容的搜索指令，包括：

响应针对目标媒体内容画面上的搜索按钮的触发操作，向服务器发送针对所述目标媒体内容的搜索指令；或者，

响应作用在目标媒体内容画面上的框选按钮的触发操作，向服务器发送针对框选的媒体内容的搜索指令。

一种可能的实施方式中，所述搜索结果中还包含与第一候选媒体内容集合对应的第一集合标识信息，以及与所述第二候选媒体内容集合中至少一个第二候选媒体内容子集分别对应的第二集合标识信息；其中，每个所述第二候选媒体内容子集对应一个与所述实体意图匹配的候选实体；

所述基于所述搜索结果，显示搜索结果展示页面，包括：

基于所述搜索结果，显示包含所述第一集合标识信息和所述第二集合标识信息的搜索结果展示页面；

所述显示搜索结果展示页面之后，还包括：

响应针对任一集合标识信息的触发操作，展示与该任一集合标识信息对应的候选媒体内容；其中，所述任一集合标识信息为所述第一集合标识信息或任一所述第二集合标识信息。

一种可能的实施方式中，基于所述搜索结果，显示包含所述第一集合标识信息和至少一个第二集合标识信息的搜索结果展示页面，包括：

基于所述搜索结果，显示包含第一搜索结果展示区域和第二搜索结果展示区域的所述搜索结果展示页面；

其中，所述第一搜索结果展示区域中包含所述第一集合标识信息和所述第二集合标识信息；所述第二搜索结果展示区域中包含媒体内容列表，所述媒体内容列表中包含所述第一候选媒体内容集合和所述第二候选媒体内容集合中的各个媒体内容。

一种可能的实施方式中，所述方法还包括：

在响应针对任一集合标识信息的触发操作，展示与该任一集合标识信息对应的候选媒体内容之后，响应滑动触发操作，切换为展示其它集合标识信息对应的其它候选媒体内容。

第三方面，本公开还提供了一种媒体内容搜索的装置，所述装置包括：

指令接收模块，用于接收针对目标媒体内容的搜索指令；

集合确定模块，用于基于所述搜索指令，确定与所述目标媒体内容的场景意图匹配的第一候选媒体内容集合，以及与所述目标媒体内容的实体意图匹配的第二候选媒体内容集合；

结果搜索模块，用于基于所述第一候选媒体内容集合，以及所述第二候选媒体内容集合，向用户端发送与所述目标媒体内容对应的搜索结果。

第四方面，本公开还提供了一种媒体内容搜索的装置，所述装置包括：

指令发送模块，用于向服务器发送针对目标媒体内容的搜索指令；

结果接收模块，用于接收所述服务器反馈的搜索结果；所述搜索结果中包含与所述目标媒体内容的场景意图匹配的第一候选媒体内容集合，和/或与所述目标媒体内容的实体意图匹配的第二候选媒体内容集合；

页面显示模块，用于基于所述搜索结果，显示搜索结果展示页面。

第五方面，本公开还提供了一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如第一方面及其各种实施方式中任一所述的媒体内容搜索的方法的步骤。

第六方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如第一方面及其各种实施方式中任一所述的媒体内容搜索的方法的步骤。

采用上述媒体内容搜索的方案，其服务器在响应针对目标媒体内容的搜索指令之后，一方面可以确定与目标媒体内容的场景意图匹配的第一候选媒体内容集合，另一方面可以确定与目标媒体内容的实体意图匹配的第二候选媒体内容集合，然后即可以将上述第一候选媒体内容集合和第二候选媒体内容集合作为响应搜索指令的搜索结果，返回至用户端进行查看。

可见，上述方案不仅实现了基于场景意图的相似媒体内容的自动搜索，还实现了基于实体意图的相似媒体内容的自动搜索，由于可以直接基于媒体内容进行搜索，不需要用户输入文本信息进行媒体内容搜索，能够一定程度上提升用户的搜索效率及搜索的准确性，与此同时，上述方案可以基于多重用户意图进行媒体内容搜索，为满足用户的搜索意图提供了保障，例如，在目标媒体内容是有关一只猫与主人的互动媒体内容时，利用上述方案不仅可以搜索出与猫这一目标实体相关的媒体内容集合，还可以搜索出与互动场景相关的媒体内容集合，这涵盖了用户多种可能的搜索意图，提升了搜索结果的全面性。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例一所提供的一种媒体内容搜索的方法流程图；

图2示出了本公开实施例一所提供的媒体内容搜索的方法的搜索应用示意图；

图3示出了本公开实施例一所提供的媒体内容搜索的方法中，确定第一候选媒体内容集合具体方法的流程图；

图4示出了本公开实施例一所提供的媒体内容搜索的方法中，生成场景索引库具体方法的流程图；

图5示出了本公开实施例一所提供的媒体内容搜索的方法中，确定第二候选媒体内容集合具体方法的流程图；

图6示出了本公开实施例一所提供的媒体内容搜索的方法中，生成目标实体特征向量具体方法的流程图；

图7示出了本公开实施例一所提供的媒体内容搜索的方法中，生成实体索引库具体方法的流程图；

图8示出了本公开实施例一所提供的媒体内容搜索的方法的应用示意图；

图9示出了本公开实施例二所提供的一种媒体内容搜索的方法流程图；

图10示出了本公开实施例三所提供的一种媒体内容搜索的装置的示意图；

图11示出了本公开实施例三所提供的另一种媒体内容搜索的装置的示意图；

图12示出了本公开实施例四所提供的一种计算机设备的示意图；

图13示出了本公开实施例四所提供的另一种计算机设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

在进行媒体内容搜索的过程中，一般依赖于用户输入的对媒体内容进行描述的文本信息，这种方法依赖于用户对意图搜索的媒体内容进行准确的文本描述，这将导致搜索的效率较低，同时，在用户无法准确的进行文本描述时，往往导致媒体内容搜索的准确性较低。

基于上述研究，本公开实施例提供了至少一种媒体内容搜索的方案，从目标媒体内容中的实体和场景两方面进行了相似媒体内容的自动搜索，无需通过文本输入进行媒体内容搜索，可以提升搜索效率及搜索的准确性，并且由于考虑了多重搜索意图，提高了得到的搜索结果的全面性。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案，都应该是发明人在本公开过程中对本公开做出的贡献。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本实施例进行理解，首先对本公开实施例所公开的媒体内容搜索的方法进行详细介绍，本公开实施例所提供的媒体内容搜索的方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备可以是：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该媒体内容搜索的方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

下面首先以执行主体为服务器对本公开实施例提供的一种媒体内容搜索的方法加以说明。

实施例一

参见图1所示，为本公开实施例一提供的媒体内容搜索的方法的流程图，方法包括步骤S101～S103，其中：

S101、接收针对目标媒体内容的搜索指令；

S102、基于搜索指令，确定与目标媒体内容的场景意图匹配的第一候选媒体内容集合，以及与目标媒体内容的实体意图匹配的第二候选媒体内容集合；

S103、基于第一候选媒体内容集合，以及第二候选媒体内容集合，向用户端发送与目标媒体内容对应的搜索结果。

为了便于理解本公开实施例提供的媒体内容搜索的方法，首先对该媒体内容搜索的方法的可能的应用场景进行简单介绍。在用户发起针对目标媒体内容的搜索指令后，用户端将针对目标媒体内容的搜索指令发送给服务器，服务器基于上述方法步骤，得到与目标媒体内容的场景意图匹配的候选媒体内容，以及与目标媒体内容对应的实体意图匹配的候选媒体内容，然后在返回给用户端的搜索结果中，可以将上述与目标媒体内容的场景意图匹配的候选媒体内容以及与目标媒体内容对应的实体意图匹配的候选媒体内容发送至用户端。

这样，用户端可以将与场景意图匹配的候选媒体内容和与实体意图匹配的候选媒体内容进行混合排序后展示，也可以将场景意图匹配的候选媒体内容和与实体意图匹配的候选媒体内容分类展示。

其中，上述搜索指令可以是基于用户端上设置的相关搜索按钮的触发所生成的，比如，在用户端的媒体内容播放页面上设置搜索按钮，在该搜索按钮被触发后生成上述搜索指令；也可以是在媒体内容播放的过程中，在媒体内容上执行相应的搜索操作所生成的，例如，在当前播放的媒体内容上利用搜索框框选媒体内容区域来发起上述搜索指令；还可以是在用户端进入某个媒体内容播放页面后默认触发的，也即进入媒体内容播放页面后自动进行媒体内容的搜索。除此之外，上述搜索指令还可以是能够发起媒体内容搜索指令的其它方式所触发的，本公开实施例对此不做具体的限制。

上述目标媒体内容可以是一帧或多帧图片，或者，可以是视频，还可以是当前播放的视频中的某个图片帧，或者是当前播放的视频中的某个图片帧及该图片帧前后的若干图片帧所构成的图片组，还可以是其它媒体内容，本公开实施例对此不做具体的限制。考虑到视频搜索的广泛应用，接下来可以以视频作为目标多媒体内容进行具体示例。

基于搜索指令的响应，服务器可以确定与目标媒体内容的场景意图匹配的第一候选媒体内容集合以及与目标媒体内容的实体意图匹配的第二候选媒体内容集合。

其中，上述第一候选媒体内容集合可以是从预设媒体数据库中筛选出的与目标媒体内容中的场景意图相关的各个第一候选媒体内容的集合，本公开实施例中可以通过比较目标媒体内容对应的目标媒体内容特征向量与预设媒体数据库中各个初选媒体内容对应的媒体内容特征向量之间的比对结果来确定上述第一候选媒体内容。上述第二候选媒体内容集合则可以是从预设媒体数据库中筛选出的与目标媒体内容中的实体意图相关的各个第二候选媒体内容的集合，本公开实施例中可以通过比较目标媒体内容中目标实体的目标实体特征向量与预设媒体数据库中的各个初选媒体内容中候选实体(与目标实体匹配的实体)的候选实体特征向量之间的比较结果来确定上述第二候选媒体内容。

本公开实施例中的场景意图可以对应影视场景、游戏场景、自然场景等分类场景，还可以是上述场景的进一步分类场景，例如是室外的影视场景、家居的影视场景等，还可以是其它具有情感属性的场景，例如是搞笑、严肃、悲伤、欢快等场景风格，本公开实施例可以基于不同的应用需求确定对应的场景意图，本公开实施例对此不做具体的限制。

本公开实施例中，目标媒体内容可以具有单一场景属性，也可以是由多个场景属性组成，为了兼顾各种场景属性，本公开实施例可以将与目标媒体内容的场景意图的各个场景属性相匹配的初选媒体内容均确定为第一候选媒体内容集合的媒体元素。例如，在确定目标媒体内容的场景既搞笑又严肃的情况下，可以基于与搞笑意图匹配度较高的初选媒体内容确定第一候选媒体内容集合，还可以基于与严肃意图匹配度较高的初选媒体内容确定第一候选媒体内容集合。

本公开实施例中的实体意图可以对应目标媒体内容中的目标实体，该目标实体可以为一个，也可以为多个。这里，以人猫互动的一个视频为例，人可以作为一个目标实体，猫也可以作为一个目标实体。

本公开实施例中，在确定第一候选媒体内容集合和第二候选媒体内容集合之后，即可以向用户端发送与目标媒体内容对应的搜索结果。

针对目标媒体内容的场景意图所确定的第一候选媒体内容集合而言，该候选媒体内容集合中的各个第一候选媒体内容所对应的场景意图可以是与目标媒体内容的场景意图中的一个或多个场景属性相关的，因此，本公开实施例中，为了便于兼顾各个场景属性，可以为第一候选媒体内容集合对应一个第一集合标识信息，以便用户端根据上述第一集合标识信息实现与场景意图相关的搜索结果的显示。

其中，本公开实施例中的第一集合标识信息可以包括用于指示场景的第一缩略图片，还可以是用于描述场景的第一文字描述内容。

与此同时，针对目标媒体内容的实体意图所确定的第二候选媒体内容集合而言，该候选媒体内容集合中的各个第二候选媒体内容所对应的实体意图可以是与目标媒体内容中的目标实体相关的，因此，为了便于实现多个目标实体的搜索，本公开实施例中可以为第二候选媒体内容集合中至少一个第二候选媒体内容子集分别对应一个第二集合标识信息，每个第二候选媒体内容子集可以对应一个与实体意图匹配的候选实体，以便用户端根据上述第二集合标识信息实现与实体意图相关的搜索结果的显示。

上述第二集合标识信息可以包括用于指示候选实体的第一缩略图片，还可以是用于描述候选实体的第二文字描述内容。

这里，用户端可以基于接收到的上述搜索结果进行媒体内容展示。下面结合图2(a)～2(c)所示的用户端界面呈现效果图对本公开实施例提供的上述媒体内容搜索的方法进行示例说明。

如图2(a)所示，用户端所呈现的目标媒体内容画面(即人猫互动画面)上包括有搜索按钮(○)。在用户触发该搜索按钮之后，即可以向服务器发出有关目标媒体内容的搜索指令。服务器则可以基于该搜索指令分别确定与目标媒体内容对应的第一候选媒体内容集合(即多个家居视频)及其对应的第一集合标识信息(即场景这一标识)、第二候选媒体内容集合中的一个第二候选媒体内容子集合(即多个猫咪视频)及其对应的一个第二集合标识信息(即猫咪这一标识)、以及第二候选媒体内容集合中的另一个第二候选媒体内容子集合(即多个人物视频)及其对应的一个第二集合标识信息(即人物这一标识)。

其中，上述场景标识、猫咪标识、人物标识可以采用缩略图片的标识方式还可以采用文字描述内容的标识方式，还可以结合上述两种标识方式进行标识展示。

从图2(b)所示的搜索结果展示来看，示例的是场景图、猫咪图、人物图这三个缩略图片标识，可以展示有与场景标识对应的多个家居视频，即展示与相似场景对应的搜索结果。通过切换操作，还展示与猫咪标识对应的多个猫咪视频(未示出)，还可以是与人物标识对应的人物视频(未示出)。从图2(c)所示的搜索结果展示来看，示例的是场景图、猫咪图、人物图这三个缩略图片标识及各个缩略图片标识所对应的文本描述标识，有关具体的搜索展示结果与图2(b)所展示的结果相同，在此不再赘述。

这里，有关多个标识所对应展示的搜索结果可以基于滑动操作进行切换显示，例如，可以通过左右滑动在上述三个标识之间进行切换，从而实现其对应的显示内容的分类展示，在确定搜索全面性的前提下，确保搜索的针对性。

值得说明的是，有关搜索结果的具体展示方式，例如一行展示几个结果、采用纵向展示还是横向展示等均可以基于不同的应用需求来选取，在此不做具体的限制。

为了进一步满足用户的自定义搜索需求，本公开实施例还可以在提供上述搜索结果的同时，提供手动选择按钮(图2(b)和图2(c)右上角所示)，在用户触发这一选择按钮之后，可以跳转至目标媒体内容画面，以便用户进一步进行目标媒体内容的选择，有关基于选择操作触发搜索指令及根据该搜索指令进行相似媒体内容的搜索过程可参见上述描述内容，在此不再赘述。

值得说明的是，本公开实施例不仅可以在展示搜索结果的同时支持用户的手动选择，还可以直接基于用户的手动选择，向服务器发起针对框选的媒体内容的搜索指令，以实现相似媒体内容的搜索，具体过程在此不再赘述。

除此之外，本公开实施例不仅可以支持上述分类展示方式，还可以将第一候选媒体内容集合与第二候选媒体内容集合进行组合，而后进行组合展示，也即，不区分是基于实体意图所搜索到的相似媒体内容还是基于场景意图所搜索到的相似媒体内容，还可以采用其它展示方式，本公开实施例对此不做具体的限制。

本公开实施例中，第一候选媒体内容集合以及第二候选媒体内容集合的确定作为进行相似媒体内容搜索的关键步骤，接下来可以分别进行描述：

针对第一候选媒体内容集合的确定而言，本公开实施例可以根据目标媒体内容对应的目标媒体内容特征向量与场景索引库中的各个候选媒体内容特征向量之间的匹配结果来确定，如图3所示，上述确定第一候选媒体内容集合的方法具体包括如下步骤：

S301、基于目标媒体内容在多种预设维度下的特征信息，确定目标媒体内容对应的目标媒体内容特征向量；

S302、通过将目标媒体内容特征向量与场景索引库中的各个候选媒体内容特征向量进行匹配，确定与目标媒体内容的场景意图匹配的至少一个第一候选媒体内容，将至少一个第一候选媒体内容组成第一候选媒体内容集合。

这里，上述目标媒体内容特征向量可以是针对目标媒体内容的场景意图所提取的特征向量。对于目标媒体内容的场景意图而言，可以是与各种预设维度下的特征信息相关的，以视频作为媒体内容为例，上述预设维度可以是与场景关注度相关的视觉维度，该视觉维度可以表征应用场景的相关信息，例如，是在室外还是家居环境等信息；还可以是与媒体内容描述相关的文本信息维度；还可以是与场景氛围相关的音乐维度，例如是悲伤的音乐还是欢快的音乐等信息；还可以是其它与场景意图相关的预设维度，本公开实施例对此不做具体的限制。

本公开实施例中，可以直接基于目标媒体内容在上述各种预设维度下的特征信息，确定对应的目标媒体内容特征向量，也即，将各种预设维度下的特征信息进行拼接即可以得到目标媒体内容的目标媒体内容特征向量。例如，预设维度为3个，分别为视觉维度、文本信息维度和音乐维度时，一个预设维度可以对应1个特征值，也可以对应一个特征向量，例如文本信息维度可以对应一个特征向量(如将文本转换为文本向量)，而音乐维度可以对应一个特征值(如欢快音乐对应特征值为1，悲伤音乐对应特征值为0)，这里，将各个预设维度所对应的特征信息进行进行拼接，即可得到目标媒体内容特征向量。

在确定目标媒体内容特征向量之后，即可以通过将目标媒体内容特征向量与场景索引库中的各个候选媒体内容特征向量进行匹配，确定与目标媒体内容的场景意图匹配的至少一个第一候选媒体内容，基于各个第一候选媒体内容即可确定第一候选媒体内容集合。

本公开实施例中，如图4所示，可以按照如下步骤生成场景索引库：

S401、对各个初选媒体内容进行场景意图识别，确定各个初选媒体内容中具有场景意图的第一候选媒体内容；

S402、提取第一候选媒体内容在多种预设维度下的特征信息；

S403、基于第一候选媒体内容在多种预设维度下的特征信息，生成第一候选媒体内容的候选媒体内容特征向量；

S404、将第一候选媒体内容的第一媒体内容标识和该第一候选媒体内容的候选媒体内容特征向量对应存储在场景索引库中。

其中，上述场景索引库中的各个候选媒体内容特征向量的确定方式与上述目标媒体内容特征向量的确定方式类似，也即，本公开实施例中，同样需要基于各种预设维度的特征信息确定候选媒体内容特征向量。

不同的是，相对目标媒体内容特征向量可以在线完成，对于候选媒体内容特征向量的确定可以离线完成。本公开实施例中，在进行各种预设维度的特征信息的提取之前，需要先对媒体内容库中的各个媒体内容进行场景意图的识别，以筛选出与场景意图匹配的第一候选媒体内容。这样，即可以对筛选出的媒体内容进行各种预设维度的特征信息的提取以根据提取出的多种预设维度下的特征信息确定第一候选媒体内容的候选媒体内容特征向量。有关候选媒体内容特征向量的确定过程参见上述目标媒体内容特征向量的相关描述，在此不再赘述。

其中，本公开实施例可以基于场景意图模型实现与场景意图匹配的第一候选媒体内容的筛选。这里的场景意图模型可以是预先训练完成的，可以基于媒体内容库中的各个初选媒体内容及其对应的场景意图标注信息进行训练，这样，基于训练到的场景意图模型即可以确定媒体内容库中的各个初选媒体内容是否具有场景意图。

在具体应用中，若以初选视频作为初选媒体内容，首先可以提取初选视频中与场景意图识别相关的信息，然后将提取的与场景意图识别相关的信息作为待训练的场景意图模型的输入特征，将上述场景意图标注信息作为待训练的场景意图模型的输出结果进行场景意图模型的模型参数的训练。

其中，本公开实施例中所选用的与场景意图相关的信息可以包括初选视频所对应的视频用户已授权的行为特征，如视频点击、视频点赞等交互统计指标；还可以提取初选视频所对应的视频文本特征，如视频的标题文本，利用光学字符识别(Optical CharacterRecognition，OCR)，自动语音识别(Automatic Speech Recognition，ASR)技术识别得到的文本类信息；还可以包括视频视觉特征，如视频抽帧后的图片特征信息。上述行为特征一定程度上可以表征视频的热度信息，上述视频文本特征则一定程度上可以提现出场景描述相关的内容信息，上述视觉特征则可以表征视频中的图片的细节信息，上述信息一定程度上可以表征一个用户对当前标注的初选媒体内容的场景意图。

基于上述媒体内容库的场景意图识别操作以及特征向量提取操作，可以确定可属于场景索引库的候选媒体内容特征向量，本公开实施例针对场景索引库不仅可以确定各个候选媒体内容特征向量，还可以确定该候选媒体内容特征向量的媒体内容出处，也即，可以建立有候选媒体内容特征向量与媒体内容标识之间的对应关系，并该将对应关系存储至场景索引库中。这样，在将目标媒体内容特征向量与各个候选媒体内容特征向量进行匹配之后，即可以将向量匹配结果符合预设要求的第一候选媒体内容组成为第一候选媒体内容集合。

本公开实施例中，有关向量匹配结果的确定，一是可以通过计算目标媒体内容的目标媒体内容特征向量与场景索引库中的各个候选媒体内容特征向量之间的余弦相似度来确定，二是基于场景相关性模型来确定。

对于前者，本公开实施例中可以基于余弦相似度确定与目标媒体内容特征向量匹配的至少一个候选媒体内容特征向量，这样，即可以将符合预设要求(如余弦相似度大于0.8)的候选媒体内容特征向量所对应的第一候选媒体内容归入第一候选媒体内容集合。

对于后者，本公开实施例可以将目标媒体内容的目标媒体内容特征向量与场景索引库中的各个候选媒体内容特征向量输入场景相关性模型进行处理，得到与目标媒体内容特征向量匹配的至少一个候选媒体内容特征向量。

其中，上述场景相关性模型可以是基于标记好场景相关性匹配结果的训练样本媒体内容预先训练得到的。在具体应用中，可以基于训练媒体内容库中的任意两个训练样本媒体内容以及对应该两个训练样本媒体内容所设置的有关场景相关性匹配结果进行训练。这里，可以将两个场景相关性比较高的两个媒体内容进行媒体内容特征向量的提取，而后将对应的一组媒体内容特征向量作为一组训练样本进行训练，通过训练过程中模型输出的相关性与标记好的场景相关性匹配结果之间的比对结果进行场景相关性模型的参数调整，同理，还可以将两个场景相关性比较低的两个媒体内容作为一组训练样本进行训练以进行参数调整，从而能够在达到模型训练截止条件时，得到训练好的场景相关性模型。

这样，将目标媒体内容特征向量与场景索引库中的各个候选媒体内容特征向量输入至训练好的场景相关性模型，即可以确定目标媒体内容特征向量与场景索引库中的各个候选媒体内容特征向量之间的匹配度。本公开实施例中，两个媒体内容特征向量的相关性越高，一定程度上也说明匹配度越好，这时，可以从各个候选媒体内容特征向量对应的初选媒体内容中，选取出符合预设匹配度的第一候选媒体内容，例如，可以将匹配度达到0.75以上的候选媒体内容特征向量所对应的初选媒体内容确定为匹配的第一候选媒体内容。

本公开实施例中，不管是基于余弦相似度，还是基于场景相关性模型确定与目标媒体内容特征向量匹配的候选媒体内容特征向量，在确定与匹配的候选媒体内容特征向量对应的第一候选媒体内容时，均可以基于场景索引库中所存储的有关候选媒体内容特征向量与媒体内容标识之间的对应关系，确定与匹配得到的候选媒体内容特征向量对应的第一媒体内容标识，这样，基于第一媒体内容标识即可以从媒体内容库中查找到对应的第一候选媒体内容。

这里，在确定出匹配的第一候选媒体内容之后，可以直接将匹配得到的第一候选媒体内容进行组合以生成第一候选媒体内容集合，还可以先基于用户行为信息进行筛选而后组合成第一候选媒体内容集合。

本公开实施例中，可以基于与第一媒体内容标识所标识的第一候选媒体内容对应的用户行为信息，从至少一个匹配的第一候选媒体内容中选取符合预设要求的第一候选媒体内容以作为第一候选媒体内容集合中的媒体内容元素。

其中，上述用户行为信息可以是有关第一候选媒体内容的点赞量、播放量、转发量等信息，这在一定程度上表明了各个用户对第一候选媒体内容的关注程度，从而能够进一步满足用户的搜索需求，提升媒体内容搜索的流量。

在确定用户行为信息之后，即可以将符合预设要求的第一候选媒体内容确定为第一候选媒体内容集合。例如，在用户行为信息为媒体内容点赞量和媒体内容播放量时，可以将媒体内容点赞量大于预设点赞量(如大于50)、以及媒体内容播放量大于预设播放量(如大于35)的第一候选媒体内容确定第一候选媒体内容集合。

除此之外，本公开实施例还可以是在按照用户行为信息对至少一个匹配的第一候选媒体内容进行排名后，选取预设名次的第一候选媒体内容以作为第一候选媒体内容集合中的媒体内容元素。这里，仍以媒体内容点赞量和媒体内容播放量作为用户行为信息进行说明，可以基于排名在前20的第一候选媒体内容确定第一候选媒体内容集合。这主要是考虑到本公开实施例确定的第一候选媒体内容集合需要在用户端进行展示，因此，这里可以采用排名展示的方式，这样，推送给用户端进行展示时，可以基于上述排名结果进行媒体内容的展示。

针对第二候选媒体内容集合的确定而言，本公开实施例可以根据目标媒体内容对应的目标实体特征向量与实体索引库中的各个候选实体特征向量之间的匹配结果来确定，如图5所示，上述确定第二候选媒体内容集合的方法具体包括如下步骤：

S501、确定目标媒体内容中，与实体意图对应的目标实体的目标实体特征向量；

S502、将目标实体的目标实体特征向量与实体索引库中的各个候选实体特征向量进行匹配，确定与目标实体匹配的第二候选媒体内容集合；第二候选媒体内容集合中包含至少一个第二候选媒体内容。

这里，本公开实施例的目标实体特征向量可以是在对目标媒体内容中的实体进行意图识别之后所确定的目标实体的特征向量，也即，本公开实施例中的目标实体特征向量对应的是与实体意图对应的目标实体，该目标实体可以是目标媒体内容中的部分或全部实体。这主要是考虑到针对目标媒体内容而言，作为一种可以涵盖声音和图像的多媒体元素，其所包含的实体可能各种各样，然而，不符合实体意图的实体对于媒体内容搜索本身不仅会增加计算量，而且会降低搜索结果的观看流量，基于此，本公开实施例中可以对目标媒体内容进行意图识别，然后再确定实体意图对应的目标实体的目标实体特征向量，如图6所示，上述确定目标实体特征向量可以通过如下步骤实现：

S601、检测出目标媒体内容中的实体；

S602、对检测出的至少一个实体进行意图识别，确定出至少一个目标实体；

S603、针对每个目标实体，基于该目标实体在目标媒体内容中对应的图像信息，生成该目标实体对应的目标实体特征向量。

这里，首先可以检测出目标媒体内容中的各个实体，然后可以对检测出的各个实体进行意图识别，以从各个实体中确定出目标实体。最后，针对目标实体可以基于该目标实体在目标媒体内容中对应的图像信息，生成该目标实体对应的目标实体特征向量。

这里，仍以视频作为媒体内容为例，上述目标媒体内容中的实体可以是用户在观看目标视频时，基于搜索指令的触发而选中的当前图片帧中的实体，还可以基于搜索指令的触发而选中的当前图片帧或该图片帧前后若干图片帧中的中的实体，还可以是整个目标视频中各个图片帧中的实体。本公开实施例中的实体可以理解成目标视频的前景目标，这时，可以利用光流法、帧差法和背景差法等进行前景目标的检测，还可以利用机器学习手段实现前景目标的检测，本公开实施例对此不做具体限制。

在检测得到各个实体之后，可以将该实体输入至预先训练好的实体意图模型中，以确定出用户意图对应的目标实体，而后基于该目标实体在目标媒体内容中对应的图像信息，生成对应的目标实体特征向量。

其中，上述与实体意图对应的目标实体可以是直接基于发起搜索指令的框选按钮的触发操作所确定的实体，还可以是基于实体意图模型确定的实体。这里的实体意图模型可以是预先训练完成的，也即，可以基于媒体内容库中的各个初选媒体内容及其对应的实体意图标注信息进行训练，这样，基于训练到的实体意图模型即可以确定媒体内容库中的每个媒体内容是否具有目标实体。

在具体应用中，若以初选视频作为初选媒体内容，首先可以提取初选视频中与实体意图识别相关的信息，然后将提取的与实体意图识别相关的信息作为待训练的实体意图模型的输入特征，将上述实体意图标注信息作为待训练的实体意图模型的输出结果进行实体意图模型的模型参数的训练。

其中，本公开实施例中所选用的与实体意图相关的信息可以包括初选视频所对应的视频用户已授权的行为特征，如视频点击、视频点赞等交互统计指标；还可以提取初选视频所对应的视频文本特征，如视频的标题文本，利用OCR技术，ASR技术识别得到的文本类信息；还可以是初选视频的视觉特征，如视频抽帧后的图片特征信息；还可以包括初选视频中的实体的视觉特征；还可以包括初选视频中的实体与视频的关系特征，如实体占据视频图片帧的面积、实体所在视频图片帧中的位置、实体在视频中的出现频率等信息。上述信息一定上可以表征一个用户对当前标注的初选媒体内容的实体意图。

本公开实施例中，一个目标实体可以对应一个媒体内容对象，这里，以人猫互动的一个目标媒体内容为例，人可以作为一个视频对象，猫也可以作为一个视频对象，这样，在对猫进行实体意图标注之后，皆可确定目标媒体内容中是否存在猫这一目标实体。

有关目标实体在目标媒体内容中对应的图像信息可以是目标实体所处图像位置信息、还可以是基于该目标实体所处的多个图片帧所确定的实体运动信息，还可以是其它能够表征目标实体的图像信息，本公开实施例对此不做具体的限制。本公开实施例中，将上述各种图像信息采用向量形式来表征(例如，输入至训练好的特征提取网络中)，即可得到目标实体对应的所述目标实体特征向量，例如，针对16*16的图片帧，可以利用10111来表征目标实体的重心位于图片帧的第二行第三列，也即，可以将位置信息进行向量化，同理，还可以将其它图像信息进行向量化，本公开实施例在此不做赘述。

值的说明的是，本公开实施例针对目标媒体内容所确定的目标实体可以为一个，也可以为多个，针对每个目标实体，均可以基于上述方法确定其对应的目标实体特征向量。

在确定目标实体特征向量之后，即通过将目标实体的目标实体特征向量与实体索引库中的各个候选实体特征向量进行匹配，确定与目标实体匹配的第二候选媒体内容集合。

本公开实施例中，如图7所示，可以按照如下步骤生成实体索引库：

S701、确定各个初选媒体内容中包含的实体；

S702、对初选媒体内容中包含的实体进行意图识别，确定候选实体及该候选实体所在的第二候选媒体内容；

S703、基于候选实体在对应的第二候选媒体内容中的图像信息，生成该候选实体对应的候选实体特征向量；

S704、将候选实体所在的第二候选媒体内容的第二媒体内容标识，和该候选实体的候选实体特征向量对应存储在实体索引库中。

其中，上述实体索引库中的各个候选实体特征向量的确定方式与上述目标实体特征向量的确定方式类似，也即，本公开实施例中，同样需要先进行实体意图识别，再对实体意图识别所确定的候选实体进行特征向量的提取。

不同的是，相比目标实体特征向量可以在线完成，对于候选实体特征向量的确定可以离线完成。本公开实施例中，在进行实体意图识别之前，可以先对媒体内容库中的各个初选媒体内容进行抽帧处理，对于抽帧图片而言，需要先进行实体识别，再进行实体意图识别以筛选出与实体意图匹配的候选实体及该候选实体所在的第二候选媒体内容。这样，即可以基于候选实体在对应的第二候选媒体内容中的图像信息，确定对应的候选实体特征向量。有关候选实体特征向量的确定过程参见上述目标实体特征向量的相关描述，在此不再赘述。

其中，本公开实施例可以基于实体模型实现与实体意图匹配的第二候选媒体内容的筛选。这里的实体意图模型具体参见上述描述内容，在此不再赘述。

基于上述媒体内容库的实体意图识别操作以及特征向量提取操作，即可以确定可属于实体索引库的候选实体特征向量，本公开实施例针对实体索引库不仅可以确定各个候选实体特征向量，还可以确定该候选实体特征向量的媒体内容出处，也即，可以建立有候选实体的候选实体特征向量与第二媒体内容标识之间的对应关系，并该将对应关系存储至场景索引库中。这样，在将目标实体特征向量与各个候选实体特征向量进行匹配之后，即可以将向量匹配结果符合预设要求的第二候选媒体内容组成为第二候选媒体内容集合。

本公开实施例中，有关向量匹配结果的确定，一是可以通过计算目标实体的目标实体特征向量与实体索引库中的各个候选实体特征向量之间的余弦相似度来确定，二是基于实体相关性模型来确定。

对于前者，本公开实施例中可以基于余弦相似度确定与目标实体的目标实体特征向量匹配的至少一个候选实体特征向量，这样，即可以将符合预设要求(如余弦相似度大于0.8)的候选实体特征向量所对应的第二候选媒体内容归入第二候选媒体内容集合。

对于后者，本公开实施例可以将目标实体的目标实体特征向量与实体索引库中的各个候选实体特征向量输入实体相关性模型进行处理，得到与目标实体特征向量匹配的至少一个候选实体特征向量。

其中，上述实体相关性模型可以是预先训练得到的，可以基于标准好的实体相关性匹配结果的训练样本媒体内容训练得到。在具体应用中，可以基于训练媒体内容库中的任意训练样本媒体内容中的实体以及对应该两个训练样本媒体内容所设置的有关实体相关性匹配结果进行训练。这里，可以将两个实体相关性比较高的两个媒体内容进行实体特征向量的提取，而后将对应的一组实体特征向量作为一组训练样本进行训练，通过训练过程中模型输出的相关性与标注好的实体相关性匹配结果之间的比对结果进行实体相关性模型的参数调整，同理，还可以将两个实体相关性比较低的两个媒体内容作为一组训练样本进行训练以进行参数调整，从而能够在达到模型训练截止条件时，得到训练好的实体相关性模型。

这样，将目标实体特征向量与实体索引库中的各个候选实体特征向量输入至训练好的实体相关性模型，即可以确定目标实体特征向量与实体索引库中的各个候选实体特征向量之间的匹配度。参见上述场景相关性模型的相关描述，这里也可以基于匹配度确定第二候选媒体内容。

本公开实施例中，不管是基于余弦相似度，还是基于实体相关性模型确定与目标实体特征向量匹配的候选实体特征向量，在确定与匹配的候选实体特征向量对应的第二候选媒体内容时，均可以基于实体索引库中所存储的有关候选实体特征向量与媒体内容标识之间的对应关系，确定与匹配得到的候实体特征向量对应的第二媒体内容标识，这样，基于第二媒体内容标识即可以从媒体内容库中查找到对应的第二候选媒体内容。

这里，在确定出匹配的第二候选媒体内容之后，可以直接将匹配得到的第二候选媒体内容进行组合以生成第二候选媒体内容集合，还可以先基于用户授权的用户行为信息进行筛选而后组合成第二候选媒体内容集合。

本公开实施例中，可以基于与第二媒体内容标识所标识的第二候选媒体内容对应的用户行为信息，从至少一个匹配的第二候选媒体内容中选取符合预设要求的第二候选媒体内容以作为第二候选媒体内容集合中的媒体内容元素。

有关第二候选媒体内容对应的用户行为信息与上述第一候选媒体内容对应的用户行为信息的确定方法相同，在此不再赘述。另外，基于用户行为信息确定第二候选媒体内容集合与上述第一候选媒体内容集合的确定方法类似，也即，即可以基于预设要求的判断，也可以基于排名结果进行确定，在此不再赘述。

考虑到本公开实施例确定的第二候选媒体内容集合需要在用户端进行展示，因此，这里可以采用排名展示的方式，这样，推送给用户端进行展示时，也可以基于上述排名结果进行媒体内容的展示。

为了便于进一步理解本公开实施例提供的上述媒体内容搜索的方法，可以结合图8所示的应用示意图对上述媒体内容搜索的方法进行说明。

如图8所示，上述媒体内容搜索的方法可以通过实体离线模块、场景离线模块和在线模块来实现，这里，将视频作为媒体内容进行示例说明。

其中，上述实体离线模块可以基于对视频库中各个视频的抽帧操作实现图片帧的提取，而后可以经过实体检测和实体意图模型确定候选实体，这样，在基于目标实体在各个视频中的图像信息确定候选实体特征向量之后，即将确定的各个候选实体特征向量存储至实体索引库。其中，该实体索引库中可以存储的各候选实体特征向量与各视频标识之间的对应关系，如图8实体索引库中所示的候选实体特征向量1与视频21(即向量1->视频21)、候选实体特征向量2与视频22(即向量2->视频22)、候选实体特征向量3与视频23(即向量3->视频23)之间的对应关系。与此同时，还可以记录各个视频所对应的用户行为信息以为后续的实体排序做准备。

另外，上述场景离线模块可以将视频库中的各个视频输入至场景意图模型，以确定与场景意图匹配的视频，通过视觉特征、文本信息特征、音乐特征这些预设维度下的特征向量的提取，可以确定对应的候选视频特征向量，将确定的各个候选视频特征向量存储至场景索引库。其中，该场景索引库中可以存储的各候选视频特征向量与各视频标识之间的对应关系，如图8场景索引库中所示的候选视频特征向量1与视频11(即向量1->视频11)、候选视频特征向量2与视频12(即向量2->视频12)、候选视频特征向量3与视频13(即向量3->视频13)之间的对应关系。与此同时，还可以记录各个视频所对应的用户行为信息以为后续的场景排序做准备。

针对在线模块而言，可以分成两路进行相关处理，一路是基于场景意图确定第一候选视频集合，另一路是基于实体意图确定第二候选视频集合。

针对第一候选视频集合的确定而言，首先可以提取在视觉特征、文本信息特征、音乐特征这些预设维度下的目标视频特征向量，将拼接后的目标视频特征向量输入至场景相关性模型，即可以将目标视频特征向量与场景索引库中的候选视频特征向量进行匹配，以得到匹配后的第一候选视频。这时，即可以基于场景排序模型以及记录的各个视频所对应的用户行为信息对匹配后的第一候选视频进行排序，筛选出符合预设名次的第一候选视频，作为最终的第一候选视频集合。

针对第二候选视频集合的确定而言，首先可以基于用户所点击的图片帧进行实体检测和实体意图模型下的意图识别，如图8所示，可以识别得到一个目标实体(仅为一个具体的示例)，这里，可以确定对应的目标实体特征向量。基于实体相关性模型，即可以将目标实体特征向量与实体索引库中的候选实体特征向量进行匹配，以得到匹配后的第二候选视频。这时，即可以基于实体排序模型以及记录的各个视频所对应的用户行为信息对匹配后的第二候选视频进行排序，筛选出符合预设名次的第二候选视频，作为最终的第二候选视频集合。

接下来以执行主体为用户端对本公开实施例提供的一种媒体内容搜索的方法加以说明。

实施例二

参见图9所示，为本公开实施例二提供的媒体内容搜索的方法的流程图，方法包括步骤S901～S903，其中：

S901、向服务器发送针对目标媒体内容的搜索指令；

S902、接收服务器反馈的搜索结果；搜索结果中包含与目标媒体内容的场景意图匹配的第一候选媒体内容集合，和/或与目标媒体内容的实体意图匹配的第二候选媒体内容集合；

S903、基于搜索结果，显示搜索结果展示页面。

这里，可以首先向服务器发送针对目标媒体内容的搜索指令，然后接收服务器根据实施例一所示的媒体内容搜索的方法所确定的搜索结果，基于搜索结果中包含与目标媒体内容的场景意图匹配的第一候选媒体内容集合，以及与目标媒体内容的实体意图匹配的第二候选媒体内容集合进行搜索结果展示页面的显示。

其中，上述搜索指令可以是用户端在响应针对目标媒体内容画面上的搜索按钮的触发操作，还可以是响应作用在目标媒体内容画面上的框选按钮的触发操作之后，向服务器发起的，有关搜索指令的具体发起过程以及上述有关搜索按钮和框选按钮的触发操作的相关描述，具体参见图2(a)～2(b)所涉及的应用示意图以及实施例一的相关描述，在此不再赘述。

为了便于兼顾各个场景属性以及实现多个目标实体的搜索，本公开实施例中的搜索结果还可以包括与第一候选媒体内容集合对应的一个第一集合标识信息，以及第二候选媒体内容集合中至少一个第二候选媒体内容子集分别对应一个第二集合标识信息，具体描述可参见实施例一中的相关描述，在此不再赘述。

这里，用户端即可以接收的上述搜索结果，显示包含第一集合标识信息和第二集合标识信息的搜索结果展示页面，这样，在用户触发任一集合标识信息时，均可展示与该任一集合标识信息对应的候选媒体内容。

仍以图2(b)所示的应用示意图为例，在触发场景这一标识时，可以展示与该标识对应的多个家居视频，即展示与相似场景对应的搜索结果。同理，在触发其它标识时，可以切换展示对应的候选媒体内容(未示出)。

本公开实施例中，有关多个标识所对应展示的候选媒体内容可以基于滑动操作进行切换显示，仍以图2(b)，可以通过左右滑动在上述三个标识之间进行切换，从而实现其对应的显示内容的分类展示，在确定搜索全面性的前提下，确保搜索的针对性。

除此之外，本公开实施例不仅可以支持上述分类展示方式，还可以将第一候选媒体内容集合与第二候选媒体内容集合进行组合，而后进行组合展示，在具体展示时，可以基于搜索结果，在搜索结果展示页面上展示包含第一集合标识信息和第二集合标识信息的第一搜索结果展示区域以及包含第一候选媒体内容集合和第二候选媒体内容集合中的各个媒体内容这一媒体内容列表的第二搜索结果展示区域，从而可以不区分是基于实体意图所搜索到的相似媒体内容还是基于场景意图所搜索到的相似媒体内容。

值得说明的是，本公开实施例还可以采用其它展示方式，本公开实施例对此不做具体的限制。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与媒体内容搜索的方法对应的媒体内容搜索的装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述媒体内容搜索的方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

实施例三

参照图10所示，为本公开实施例三提供的一种媒体内容搜索的装置的示意图，装置包括：指令接收模块1001、集合确定模块1002和结果搜索模块1003；其中，

指令接收模块1001，用于接收针对目标媒体内容的搜索指令；

集合确定模块1002，用于基于搜索指令，确定与目标媒体内容的场景意图匹配的第一候选媒体内容集合，以及与目标媒体内容的实体意图匹配的第二候选媒体内容集合；

结果搜索模块1003，用于基于第一候选媒体内容集合，以及第二候选媒体内容集合，向用户端发送与目标媒体内容对应的搜索结果。

本公开实施例从目标媒体内容中的实体和场景两方面进行了相似媒体内容的自动搜索，无需通过文本输入进行媒体内容搜索，可以提升搜索效率及搜索的准确性，并且提高了得到满足用户意图的搜索结果的概率。

一种可能的实施方式中，集合确定模块1002，用于按照以下步骤确定与目标媒体内容的场景意图匹配的第一候选媒体内容集合：

基于目标媒体内容在多种预设维度下的特征信息，确定目标媒体内容对应的目标媒体内容特征向量；

通过将目标媒体内容特征向量与场景索引库中的各个候选媒体内容特征向量进行匹配，确定与目标媒体内容的场景意图匹配的至少一个第一候选媒体内容，将至少一个第一候选媒体内容组成第一候选媒体内容集合。

一种可能的实施方式中，媒体内容为视频，多种预设维度包括以下维度中的多种：

视觉维度、文本信息维度、音乐维度。

一种可能的实施方式中，集合确定模块1002，用于根据以下步骤生成场景索引库：

提取第一候选媒体内容在多种预设维度下的特征信息；

基于第一候选媒体内容在多种预设维度下的特征信息，生成第一候选媒体内容的候选媒体内容特征向量；

将第一候选媒体内容的第一媒体内容标识和该第一候选媒体内容的候选媒体内容特征向量对应存储在场景索引库中。

一种可能的实施方式中，集合确定模块1002，用于按照以下步骤通确定与目标媒体内容的场景意图匹配的至少一个第一候选媒体内容：

将目标媒体内容的目标媒体内容特征向量与场景索引库中的各个候选媒体内容特征向量进行匹配，确定与目标媒体内容特征向量匹配的至少一个候选媒体内容特征向量；

基于场景索引库中，与确定的候选媒体内容特征向量对应的第一媒体内容标识，确定至少一个第一候选媒体内容。

一种可能的实施方式中，集合确定模块1002，用于按照以下步骤将至少一个第一候选媒体内容组成第一候选媒体内容集合：

获取与第一媒体内容标识所标识的第一候选媒体内容对应的用户行为信息；

基于用户行为信息，从第一媒体内容标识所标识的第一候选媒体内容中选取符合预设要求的第一候选媒体内容，组成第一候选媒体内容集合。

一种可能的实施方式中，集合确定模块1002，用于按照以下步骤将目标媒体内容的目标媒体内容特征向量与场景索引库中的各个候选媒体内容特征向量进行匹配：

将目标媒体内容的目标媒体内容特征向量与场景索引库中的各个候选媒体内容特征向量输入场景相关性模型进行处理，得到与目标媒体内容特征向量匹配的至少一个候选媒体内容特征向量；场景相关性模型为基于标记好场景相关性匹配结果的训练样本媒体内容训练得到的；或者，

通过计算目标媒体内容的目标媒体内容特征向量与场景索引库中的各个候选媒体内容特征向量之间的余弦相似度，确定与目标媒体内容特征向量匹配的至少一个候选媒体内容特征向量。

一种可能的实施方式中，集合确定模块1002，用于按照以下步骤确定与目标媒体内容的实体意图匹配的第二候选媒体内容集合：

确定目标媒体内容中，与实体意图对应的目标实体的目标实体特征向量；

将目标实体的目标实体特征向量与实体索引库中的各个候选实体特征向量进行匹配，确定与目标实体匹配的第二候选媒体内容集合；第二候选媒体内容集合中包含至少一个第二候选媒体内容。

一种可能的实施方式中，集合确定模块1002，用于按照以下步骤确定目标媒体内容中，与实体意图对应的目标实体的目标实体特征向量：

检测出目标媒体内容中的实体；

对检测出的至少一个实体进行意图识别，确定出至少一个目标实体；

针对每个目标实体，基于该目标实体在目标媒体内容中对应的图像信息，生成该目标实体对应的目标实体特征向量。

一种可能的实施方式中，集合确定模块1002，用于根据以下步骤生成实体索引库：

确定各个初选媒体内容中包含的实体；

对初选媒体内容中包含的实体进行意图识别，确定与候选实体及该候选实体所在的第二候选媒体内容；

基于候选实体在对应的第二候选媒体内容中的图像信息，生成该候选实体对应的候选实体特征向量；

将候选实体所在的第二候选媒体内容的第二媒体内容标识，和该候选实体的候选实体特征向量对应存储在实体索引库中。

一种可能的实施方式中，集合确定模块1002，用于按照以下步骤确定与目标实体匹配的第二候选媒体内容集合：

将目标媒体内容中的目标实体的目标实体特征向量与实体索引库中的各个候选实体特征向量进行匹配，确定与目标媒体内容匹配的至少一个候选实体特征向量；

基于实体索引库中，与确定的候选实体特征向量对应的第二媒体内容标识，确定第二候选媒体内容集合。

一种可能的实施方式中，集合确定模块1002，用于按照以下步骤确定第二候选媒体内容集合：

获取与第二媒体内容标识所标识的第二候选媒体内容对应的用户行为信息；

基于用户行为信息，从第二媒体内容标识所标识的第二候选媒体内容中选取符合预设要求的第二候选媒体内容，组成第二候选媒体内容集合。

一种可能的实施方式中，集合确定模块1002，用于按照以下步骤将目标实体的目标实体特征向量与实体索引库中的各个候选实体特征向量进行匹配：

将目标实体的目标实体特征向量与实体索引库中的各个候选实体特征向量输入实体相关性模型进行处理，得到与目标实体特征向量匹配的至少一个候选实体特征向量；实体相关性模型为基于标记好实体相关性匹配结果的训练样本媒体内容训练得到的；或者，

通过计算目标实体的目标实体特征向量与实体索引库中的各个候选实体特征向量之间的余弦相似度，确定与目标实体特征向量匹配的至少一个候选实体特征向量。

一种可能的实施方式中，结果搜索模块1003，用于按照以下步骤向用户端发送与目标媒体内容对应的搜索结果：

生成第一候选媒体内容集合对应的第一集合标识信息，以及生成第二候选媒体内容集合中至少一个第二候选媒体内容子集分别对应的第二集合标识信息；其中，每个第二候选媒体内容子集对应一个与实体意图匹配的候选实体；

将第一候选媒体内容集合及该第一候选媒体内容集合对应的第一集合标识信息，第二候选媒体内容集合中至少一个第二候选媒体内容子集及每个第二候选媒体内容子集分别对应的第二集合标识信息作为搜索结果发送给用户端。

一种可能的实施方式中，第一集合标识信息包括第一缩略图片和/或第一文字描述信息；

第二集合标识信息包括第二缩略图片和/或第二文字描述信息。

如图11所示，为本公开实施例三提供的另一种媒体内容搜索的装置的示意图，装置包括：指令发送模块1101、结果接收模块1102、和页面显示模块1103；其中，

指令发送模块1101，用于向服务器发送针对目标媒体内容的搜索指令；

结果接收模块1102，用于接收服务器反馈的搜索结果；搜索结果中包含与目标媒体内容的场景意图匹配的第一候选媒体内容集合，和/或与目标媒体内容的实体意图匹配的第二候选媒体内容集合；

页面显示模块1103，用于基于搜索结果，显示搜索结果展示页面。

在一种可能的实施方式中，指令发送模块1101，用于按照如下步骤向服务器发送针对目标媒体内容的搜索指令：

响应针对目标媒体内容画面上的搜索按钮的触发操作，向服务器发送针对目标媒体内容的搜索指令；或者，

在一种可能的实施方式中，搜索结果中还包含与第一候选媒体内容集合对应的第一集合标识信息，以及与第二候选媒体内容集合中至少一个第二候选媒体内容子集分别对应的第二集合标识信息；其中，每个第二候选媒体内容子集对应一个与实体意图匹配的候选实体；

页面显示模块1103，用于按照以下步骤显示搜索结果展示页面：

基于搜索结果，显示包含第一集合标识信息和第二集合标识信息的搜索结果展示页面；

内容展示模块1104，用于显示搜索结果展示页面之后，响应针对任一集合标识信息的触发操作，展示与该任一集合标识信息对应的候选媒体内容；其中，任一集合标识信息为第一集合标识信息或任一第二集合标识信息。

在一种实施方式中，页面显示模块1103，用于按照以下步骤显示包含第一集合标识信息和至少一个第二集合标识信息的搜索结果展示页面：

基于搜索结果，显示包含第一搜索结果展示区域和第二搜索结果展示区域的搜索结果展示页面；

其中，第一搜索结果展示区域中包含第一集合标识信息和第二集合标识信息；第二搜索结果展示区域中包含媒体内容列表，媒体内容列表中包含第一候选媒体内容集合和第二候选媒体内容集合中的各个媒体内容。

在一种实施方式中，上述装置还包括：

内容切换模块1105，用于在响应针对任一集合标识信息的触发操作，展示与该任一集合标识信息对应的候选媒体内容之后，响应滑动触发操作，切换为展示其它集合标识信息对应的其它候选媒体内容。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

实施例四

本公开实施例还提供了一种计算机设备，该计算机设备可以是服务器，也可以是用户端。在以服务器作为计算机设备时，如图12所示，为本公开实施例提供的计算机设备的结构示意图，包括：处理器1201、存储器1202、和总线1203。存储器1202存储有处理器1201可执行的机器可读指令(如图10所示装置中，指令接收模块1001、集合确定模块1002和结果搜索模块1003所对应执行的指令)，当计算机设备运行时，处理器1201与存储器1202之间通过总线1203通信，机器可读指令被处理器1201执行时执行如下处理：

接收针对目标媒体内容的搜索指令；

基于搜索指令，确定与目标媒体内容的场景意图匹配的第一候选媒体内容集合，以及与目标媒体内容的实体意图匹配的第二候选媒体内容集合；

基于第一候选媒体内容集合，以及第二候选媒体内容集合，向用户端发送与目标媒体内容对应的搜索结果。

一种可能的实施方式中，上述处理器1201执行的指令中，确定与目标媒体内容的场景意图匹配的第一候选媒体内容集合，包括：

视觉维度、文本信息维度、音乐维度。

一种可能的实施方式中，上述处理器1201执行的指令中，根据以下步骤生成场景索引库：

提取第一候选媒体内容在多种预设维度下的特征信息；

一种可能的实施方式中，上述处理器1201执行的指令中，通过将目标媒体内容特征向量与场景索引库中的各个候选媒体内容特征向量进行匹配，确定与目标媒体内容的场景意图匹配的至少一个第一候选媒体内容，包括：

一种可能的实施方式中，上述处理器1201执行的指令中，将至少一个第一候选媒体内容组成第一候选媒体内容集合，包括：

一种可能的实施方式中，上述处理器1201执行的指令中，将目标媒体内容的目标媒体内容特征向量与场景索引库中的各个候选媒体内容特征向量进行匹配，包括：

一种可能的实施方式中，上述处理器1201执行的指令中，确定与目标媒体内容的实体意图匹配的第二候选媒体内容集合，包括：

一种可能的实施方式中，上述处理器1201执行的指令中，确定目标媒体内容中，与实体意图对应的目标实体的目标实体特征向量，包括：

检测出目标媒体内容中的实体；

一种可能的实施方式中，上述处理器1201执行的指令中，根据以下步骤生成实体索引库：

确定各个初选媒体内容中包含的实体；

一种可能的实施方式中，上述处理器1201执行的指令中，将目标实体的目标实体特征向量与实体索引库中的各个候选实体特征向量进行匹配，确定与目标实体匹配的第二候选媒体内容集合，包括：

一种可能的实施方式中，上述处理器1201执行的指令中，基于实体索引库中，与确定的候选实体特征向量对应的第二媒体内容标识，确定第二候选媒体内容集合，包括：

一种可能的实施方式中，上述处理器1201执行的指令中，将目标实体的目标实体特征向量与实体索引库中的各个候选实体特征向量进行匹配，包括：

一种可能的实施方式中，上述处理器1201执行的指令中，基于第一候选媒体内容集合，以及第二候选媒体内容集合，向用户端发送与目标媒体内容对应的搜索结果，包括：

将第一候选媒体内容集合及该第一候选媒体内容集合对应的第一集合标识信息，以及第二候选媒体内容集合中至少一个第二候选媒体内容子集及每个第二候选媒体内容子集分别对应的第二集合标识信息作为搜索结果发送给用户端。

在以用户端作为计算机设备时，如图13所示，为本公开实施例提供的计算机设备的结构示意图，包括：处理器1301、存储器1302、和总线1303。存储器1302存储有处理器1301可执行的机器可读指令(如图11所示装置中，指令发送模块1101、结果接收模块1102、和页面显示模块1103所执行的指令)，当计算机设备运行时，处理器1301与存储器1302之间通过总线1303通信，机器可读指令被处理器1301执行时执行如下处理：

向服务器发送针对目标媒体内容的搜索指令；

接收服务器反馈的搜索结果；搜索结果中包含与目标媒体内容的场景意图匹配的第一候选媒体内容集合，和/或与目标媒体内容的实体意图匹配的第二候选媒体内容集合；

基于搜索结果，显示搜索结果展示页面。

一种可能的实施方式中，上述处理器1301执行的指令中，向服务器发送针对目标媒体内容的搜索指令，包括：

一种可能的实施方式中，搜索结果中还包含与第一候选媒体内容集合对应的第一集合标识信息，以及与第二候选媒体内容集合中至少一个第二候选媒体内容子集分别对应的第二集合标识信息；其中，每个第二候选媒体内容子集对应一个与实体意图匹配的候选实体；

上述处理器1301执行的指令中，基于搜索结果，显示搜索结果展示页面，包括：

显示搜索结果展示页面之后，上述处理器1301执行的指令还包括：

响应针对任一集合标识信息的触发操作，展示与该任一集合标识信息对应的候选媒体内容；其中，任一集合标识信息为第一集合标识信息或任一第二集合标识信息。

一种可能的实施方式中，上述处理器1301执行的指令中，基于搜索结果，显示包含第一集合标识信息和至少一个第二集合标识信息的搜索结果展示页面，包括：

一种可能的实施方式中，上述处理器1301执行的指令还包括：

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例一中的媒体内容搜索的方法的步骤或者执行上述方法实施例二中的媒体内容搜索的方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例所提供的媒体内容搜索的方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行上述方法实施例中的媒体内容搜索的方法的步骤，具体可参见上述方法实施例，在此不再赘述。

本公开实施例还提供一种计算机程序，该计算机程序被处理器执行时实现前述实施例的任意一种方法。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software DevelopmentKit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种媒体内容搜索的方法，其特征在于，所述方法包括：

接收针对目标媒体内容的搜索指令；

2.根据权利要求1所述的方法，其特征在于，所述确定与所述目标媒体内容的场景意图匹配的第一候选媒体内容集合，包括：

3.根据权利要求2所述的方法，其特征在于，所述媒体内容为视频，所述多种预设维度包括以下维度中的多种：

视觉维度、文本信息维度、音乐维度。

4.根据权利要求2所述的方法，其特征在于，根据以下步骤生成所述场景索引库：

提取所述第一候选媒体内容在多种预设维度下的特征信息；

5.根据权利要求4所述的方法，其特征在于，所述通过将所述目标媒体内容特征向量与场景索引库中的各个候选媒体内容特征向量进行匹配，确定与所述目标媒体内容的场景意图匹配的至少一个第一候选媒体内容，包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述至少一个第一候选媒体内容组成所述第一候选媒体内容集合，包括：

7.根据权利要求1所述的方法，其特征在于，确定与所述目标媒体内容的实体意图匹配的第二候选媒体内容集合，包括：

8.根据权利要求7所述的方法，其特征在于，所述确定所述目标媒体内容中，与实体意图对应的目标实体的目标实体特征向量，包括：

检测出所述目标媒体内容中的实体；

9.根据权利要求7所述的方法，其特征在于，根据以下步骤生成所述实体索引库：

确定各个初选媒体内容中包含的实体；

10.根据权利要求9所述的方法，其特征在于，所述将所述目标实体的目标实体特征向量与实体索引库中的各个候选实体特征向量进行匹配，确定与所述目标实体匹配的第二候选媒体内容集合，包括：

11.根据权利要求10所述的方法，其特征在于，所述基于所述实体索引库中，与确定的所述候选实体特征向量对应的第二媒体内容标识，确定所述第二候选媒体内容集合，包括：

12.根据权利要求1所述的方法，其特征在于，所述基于所述第一候选媒体内容集合，以及所述第二候选媒体内容集合，向用户端发送与所述目标媒体内容对应的搜索结果，包括：

13.根据权利要求12所述的方法，其特征在于，所述第一集合标识信息包括第一缩略图片和/或第一文字描述信息；

14.一种媒体内容搜索的方法，其特征在于，所述方法包括：

向服务器发送针对目标媒体内容的搜索指令；

基于所述搜索结果，显示搜索结果展示页面。

15.根据权利要求14所述的方法，其特征在于，所述向服务器发送针对目标媒体内容的搜索指令，包括：

16.根据权利要求14所述的方法，其特征在于，所述搜索结果中还包含与第一候选媒体内容集合对应的第一集合标识信息，以及与所述第二候选媒体内容集合中至少一个第二候选媒体内容子集分别对应的第二集合标识信息；其中，每个所述第二候选媒体内容子集对应一个与所述实体意图匹配的候选实体；

所述基于所述搜索结果，显示搜索结果展示页面，包括：

所述显示搜索结果展示页面之后，还包括：

17.根据权利要求16所述的方法，其特征在于，基于所述搜索结果，显示包含所述第一集合标识信息和至少一个第二集合标识信息的搜索结果展示页面，包括：

18.根据权利要求16所述的方法，其特征在于，所述方法还包括：

19.一种媒体内容搜索的装置，其特征在于，所述装置包括：

指令接收模块，用于接收针对目标媒体内容的搜索指令；

20.一种媒体内容搜索的装置，其特征在于，所述装置包括：

21.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至18任一所述的媒体内容搜索的方法的步骤。

22.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至18任一所述的媒体内容搜索的方法的步骤。