CN110309324A

CN110309324A - 一种搜索方法及相关装置

Info

Publication number: CN110309324A
Application number: CN201810195845.9A
Authority: CN
Inventors: 丁文彪; 孙玉玺; 沈炎军; 常庆丰; 潘达; 周泽南; 苏雪峰; 佟子健
Original assignee: Beijing Sogou Technology Development Co Ltd; Sogou Hangzhou Intelligent Technology Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2018-03-09
Filing date: 2018-03-09
Publication date: 2019-10-08
Anticipated expiration: 2038-03-09
Also published as: CN110309324B

Abstract

本发明提供了一种搜索方法及相关装置，所述搜索方法包括：响应于用户的搜索请求，获取目标文件，所述目标文件包括图片、音频文件和视频文件中的一种或者多种；获取关联网页中所述目标文件对应的描述文本，所述关联网页为与所述目标文件相关联的至少一个网页；根据所述描述文本，确定所述目标文件对应的影音信息。可见，本发明实施例中，不需要从音频文件或者视频文件中提取出大量的影音片段建立索引，而是通过提取和分析网页的描述文本，就能够确定出对应的影音信息，而描述文本相对于图片、音频片段、视频片段等文件，占用的存储资源通常较少，因此减少了对存储量的需求。

Description

一种搜索方法及相关装置

技术领域

本发明涉及互联网技术领域，尤其是涉及一种搜索方法及相关装置。

背景技术

随着互联网技术的迅速发展，搜索技术得到了广泛的应用。用户可以利用搜索技术对感兴趣的信息进行搜索。

目前的搜索技术中，通常仅支持用户对文字等字符进行搜索，然而用户在浏览到图片、音频片段、视频片段等文件时，可能想要搜索该文件对应的影音名称、演员名称、导演名称等影音信息。例如，用户在网页上浏览到影视剧中的一帧画面时，想要搜索该帧画面所属的影视剧。

发明人在实现本发明的过程中发现，相关技术中，如果想要通过图片、音频片段、视频片段等文件搜索对应的影音信息，需要从音频文件或者视频文件中提取出大量的影音片段，建立提取的影音片段与影音信息之间的索引，根据建立的索引进行搜索。例如，想要搜索一帧画面所属的影视剧时，需要从影视剧中提取出大量的关键帧，建立关键帧与影视剧名称之间的索引，根据建立的索引进行搜索。由于图片、音频片段、视频片段等文件往往占用的存储资源较多，导致这种搜索方式对存储量的需求较大。

发明内容

本发明解决的技术问题在于提供一种搜索方法及相关装置，能够搜索图片、音频文件或者视频文件对应的影音信息，同时减少了对存储量的需求。

为此，本发明解决技术问题的技术方案是：

本发明实施例提供了一种搜索方法，包括：

响应于用户的搜索请求，获取目标文件，所述目标文件包括图片、音频文件和视频文件中的一种或者多种；

获取关联网页中所述目标文件对应的描述文本，所述关联网页为与所述目标文件相关联的至少一个网页；

根据所述描述文本，确定所述目标文件对应的影音信息。

可选的，所述获取关联网页中所述目标文件对应的描述文本，包括：

根据预先建立的网页文件和包括所述网页文件的网页之间的对应关系，查询所述目标文件对应的关联网页；所述网页文件包括图片、音频文件和视频文件中的一种或者多种；

从所述关联网页中获取所述目标文件对应的描述文本。

可选的，所述根据预先建立的网页文件和包括所述网页文件的网页之间的对应关系，查询所述目标文件对应的关联网页，包括：

确定所述目标文件在标准文件库中相匹配的标准文件；

根据所述对应关系查询所述标准文件对应的关联网页。

可选的，所述确定所述目标文件在标准文件库中相匹配的标准文件，包括：

获取所述目标文件的特征向量，所述特征向量中包括多个向量元素；

在所述标准文件库中，根据标准文件的向量元素和标准文件的索引关系，获取与所述目标文件的向量元素匹配的标准文件集合；

将所述标准文件集合的交集，作为所述目标文件在所述标准文件库中相匹配的标准文件。

根据预先建立的网页文件和包括所述网页文件的网页中的描述文本的对应关系，查询所述目标文件对应的描述文本；所述网页文件包括图片、音频文件和视频文件中的一种或者多种。

根据所述目标文件确定关联网页；

从所述关联网页中获取所述目标文件对应的描述文本。

可选的，所述根据所述描述文本，确定所述目标文件对应的影音信息，包括：

将所述描述文本输入至预先训练好的影音识别模型；

通过所述影音识别模型得到所述目标文件对应的影音信息。

根据所述描述文本获取影音候选词；

根据所述影音候选词确定所述目标文件对应的第一影音信息。

可选的，所述根据所述描述文本获取影音候选词，包括：

从所述描述文本中提取关键词，将所述关键词与所述影音候选词库进行匹配，获得影音候选词。

可选的，根据所述影音候选词确定所述目标文件对应的第一影音信息，包括：

根据以下至少一种参数：所述影音候选词在所述描述文本中的出现次数、所述影音候选词位于的关联网页的网页属性、以及所述影音候选词位于的关联网页的上下文信息，对所述影音候选词进行筛选。

可选的，还包括：

根据所述第一影音信息获取所述目标文件对应的第二影音信息。

可选的，响应于用户的搜索请求，获取目标文件，包括：

接收用户的搜索请求，获取所述搜索请求中携带的目标文件的地址；

根据所述目标文件的地址，获取所述目标文件。

本发明实施例提供了一种搜索方法，包括：

检测到用户对目标文件的操作，所述目标文件包括图片、音频文件和视频文件中的一种或者多种；

向服务器发送所述用户的搜索请求，所述搜索请求携带所述目标文件的标识；

接收服务器返回的所述目标文件对应的影音信息。

可选的，检测到用户对目标文件的操作，包括：通过浏览器插件检测到用户对目标文件的操作；

向服务器发送所述用户的搜索请求，包括：通过所述浏览器插件向服务器发送用户的搜索请求，所述搜索请求中携带所述目标文件的地址。

可选的，还包括：

显示和/或播放所述影音信息。

本发明实施例提供了一种搜索装置，包括：

第一获取单元，用于响应于用户的搜索请求，获取目标文件，所述目标文件包括图片、音频文件和视频文件中的一种或者多种；

第二获取单元，用于获取关联网页中所述目标文件对应的描述文本，所述关联网页为与所述目标文件相关联的至少一个网页；

确定单元，用于根据所述描述文本，确定所述目标文件对应的影音信息。

可选的，所述第二获取单元包括：

查询单元，用于根据预先建立的网页文件和包括所述网页文件的网页之间的对应关系，查询所述目标文件对应的关联网页；所述网页文件包括图片、音频文件和视频文件中的一种或者多种；

第三获取单元，用于从所述关联网页中获取所述目标文件对应的描述文本。

可选的，所述查询单元包括：

第一确定子单元，用于确定所述目标文件在标准文件库中相匹配的标准文件；

第一查询子单元，用于根据所述对应关系查询所述标准文件对应的关联网页。

可选的，所述第一确定子单元具体用于，获取所述目标文件的特征向量，所述特征向量中包括多个向量元素；

在所述标准文件库中，根据标准文件的向量元素和标准文件的索引关系，获取与所述目标文件的向量元素匹配的标准文件集合；将所述标准文件集合的交集，作为所述目标文件在所述标准文件库中相匹配的标准文件。

可选的，所述第二获取单元包括：

第二查询子单元，用于根据预先建立的网页文件和包括所述网页文件的网页中的描述文本的对应关系，查询所述目标文件对应的描述文本；所述网页文件包括图片、音频文件和视频文件中的一种或者多种。

可选的，所述第二获取单元包括：

第二确定子单元，用于根据所述目标文件确定关联网页；

第一获取子单元，用于从所述关联网页中获取所述目标文件对应的描述文本。

可选的，所述确定单元包括：

输入子单元，用于将所述描述文本输入至预先训练好的影音识别模型；

识别子单元，用于通过所述影音识别模型得到所述目标文件对应的影音信息。

可选的，所述确定单元包括：

第二获取子单元，用于根据所述描述文本获取影音候选词；

第三确定子单元，用于根据所述影音候选词确定所述目标文件对应的第一影音信息。

可选的，所述第二获取子单元具体用于，从所述描述文本中提取关键词，将所述关键词与所述影音候选词库进行匹配，获得影音候选词。

可选的，所述第三确定子单元具体用于，根据以下至少一种参数：所述影音候选词在所述描述文本中的出现次数、所述影音候选词位于的关联网页的网页属性、以及所述影音候选词位于的关联网页的上下文信息，对所述影音候选词进行筛选。

可选的，还包括：第三获取子单元，用于根据所述第一影音信息获取所述目标文件对应的第二影音信息。

可选的，所述第一获取单元具体用于接收用户的搜索请求，获取所述搜索请求中携带的目标文件的地址；根据所述目标文件的地址，获取所述目标文件。

本发明实施例提供了一种搜索装置，包括：

检测单元，用于检测到用户对目标文件的操作，所述目标文件包括图片、音频文件和视频文件中的一种或者多种；

发送单元，用于向服务器发送所述用户的搜索请求，所述搜索请求携带所述目标文件的标识；

接收单元，用于接收服务器返回的所述目标文件对应的影音信息。

可选的，所述检测单元具体用于通过浏览器插件检测到用户对目标文件的操作；所述发送单元具体用于通过所述浏览器插件向服务器发送用户的搜索请求，所述搜索请求中携带所述目标文件的地址。

可选的，还包括：显示单元和/或播放单元，所述显示单元用于显示所述影音信息，所述播放单元用于播放所述影音信息。

本发明实施例提供了一种用于搜索的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

根据所述描述文本，确定所述目标文件对应的影音信息。

接收服务器返回的所述目标文件对应的影音信息。

本发明实施例提供了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如上述任一个或多个所述的搜索方法实施例。

通过上述技术方案可知，本发明实施例为了能够搜索目标文件对应的影音信息，其中目标文件包括图片、音频文件和视频文件中的一种或者多种，响应于用户的搜索请求，获取目标文件，并确定与目标文件相关联的关联网页，根据这些关联网页中目标文件的对应的描述文本，分析出对应的影音信息。可见，本发明实施例中，不需要从音频文件或者视频文件中提取出大量的影音片段建立索引，而是通过提取和分析网页的描述文本，就能够确定出对应的影音信息，而描述文本相对于图片、音频片段、视频片段等文件，占用的存储资源通常较少，因此减少了对存储量的需求。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种应用场景的架构示意图；

图2为本发明实施例提供的搜索方法的一具体实施例的流程示意图；

图3为本发明实施例提供的一种搜索方法的另一具体实施例的流程示意图；

图4为用户触发针对图片的选择操作的示意图；

图5为本发明实施例提供的搜索方法的另一具体实施例的流程示意图；

图6为本申请实施例提供的一种装置实施例的结构示意图；

图7为本申请实施例提供的另一种装置实施例的结构示意图；

图8为根据一示例性实施例示出的一种用于搜索的装置的框图；

图9为本发明实施例中服务器的结构示意图。

具体实施方式

当用户在互联网上浏览到一张与影视剧相关的图片(如影视剧中的一帧画面、或者电影海报等)并对其感兴趣时，想要搜索该图片对应的影视剧，但是用户并不知道该影视剧的相关信息(如该影视剧的名称、主演等信息)，所以无法对该影视剧进行描述，从而用户无法在搜索引擎中搜索到该影视剧或者该影视剧的相关信息。

为了解决上述问题，存在一种基于图片搜索视频的方法，需要预先从视频中提取大量的关键帧，并建立该关键帧与视频的索引，根据建立的索引进行搜索。可见，这种方法需要存储大量的关键帧，对存储量的需求较大。举例来说，建立一部视频与关键帧的索引至少需要586Mb的存储资源。

此外，也可以采用与上述搜索方法类似的方式，实现基于图片、音频片段、视频片段等文件对影音信息进行搜索，具体地，需要建立从音频文件、视频文件中提取的影音片段与影音信息之间的索引，同样存在对存储量的需求较大的技术问题。

为了使得在用户通过图片、音频文件或者视频文件搜索对应的影音名称、演员名称、导演名称、影音资源等影音信息的同时，也能减少对存储量的需求，本发明实施例提供了一种搜索方法，根据占用存储资源较少的网页的描述文本来确定用户选择的目标文件所对应的影音信息；目标文件包括图片、音频文件和视频文件中的一种或者多种。以图1所示的应用场景为例，具体的，当用户101在终端102的网页上浏览到感兴趣的目标文件时，用户101可以在终端102上进行针对于该目标文件的操作；终端102响应该操作，并向服务器103发送用户的搜索请求；服务器103响应于用户的搜索请求，获取用户101执行操作的目标文件，并获取关联网页中目标文件对应的描述文本，该关联网页为与目标文件相关联的至少一个网页，然后根据该描述文本，确定目标文件对应的影音信息。可见，上述过程中在得到用户选择的目标文件对应的影音信息的过程中，不需要建立关键帧与对应视频的索引关系，通过提取和分析占用存储资源较少的网页的描述文本，就可以获得相应的影音信息，从而减少了所需的存储量。举例来说，假设用户选择图片后，通过100个网页的描述文本能够确定出该图片对应的视频信息，而100个网页的描述文本占用的存储资源大约为0.5Mb-5Mb之间，减少了对存储量的需求。

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

请一并参阅图2，图2示出了本发明实施例提供的搜索方法的一种具体实施例的流程示意图，该方法包括：

S201：响应于用户的搜索请求，获取目标文件。

其中，目标文件可以是用户想要搜索的影音信息的资源片段，也可以是与该影音信息相关联的影音资源，具体地，包括图片、音频文件和视频文件中的任一种或者多种。例如，用户选择的目标文件可以是图片，如某首歌曲的唱片封面、某部电影的一帧画面或者图像互换格式(Graphics Interchange Format，GIF)动态图等；也可以是视频文件，如某部电影中的一分钟视频文件、预告片、多帧画面；还可以是音频文件等，如某首歌曲中的三十秒音频文件等。

在本发明实施例中，当用户通过浏览器等浏览到目标文件，并且想要搜索该目标文件对应的影音信息，可以进行针对于该目标文件的操作，例如可以通过鼠标对该目标文件进行单击或者双击操作，或者在触摸屏上选中该目标文件。根据用户的选择操作，可以生成用户的搜索请求，其中，所述搜索请求用于请求搜索该目标文件对应的影音信息。

在本实施例中，用户的搜索请求中可以携带有目标文件的地址，响应于该搜索请求，根据该搜索请求中目标文件的地址，获得该目标文件，例如终端可以将搜索请求发送至服务器，该搜索请求中携带所述地址，服务器根据所述地址，读取所述地址对应存储的目标文件；或者，该搜索请求中也可以不携带地址，而是携带目标文件的特征向量，例如，在终端执行本实施例的搜索方法时，终端响应于搜索请求，直接从搜索请求中获取该请求携带的目标文件的特征向量，根据该特征向量即可确定目标文件，不再需要根据地址查找目标文件。

S202：获取关联网页中目标文件对应的描述文本。

本实施例中，关联网页指的是与用户选择的目标文件相关联的至少一个网页。具体地，关联网页包括显示或者播放有与所述目标文件具有相同内容的影音文件的网页，和/或，显示或者播放有与所述目标文件具有相似内容的影音文件的网页。下面具体说明：

当目标文件为视频文件时，关联网页播放有与该视频文件具有相同内容或者相似内容的视频文件，或者关联网页显示有与所述视频文件中若干帧相同或相似的图片；当目标文件为音频文件时，关联网页播放有与该音频文件具有相同内容或者相似内容的音频文件；当目标文件为图片时，关联网页显示有与该图片具有相同或者相似内容的图片。

在与目标文件相关联的网页上，通常会通过网页的标题、正文、标签文本等文本，对目标文件进行描述，例如说明该目标文件所对应的影音名称等影音信息。因此本实施例在确定与用户选择的目标文件相关联的关联网页后，从关联网页的标题、正文、标签文本等文本中，获取目标文件对应的描述文本。

S203：根据所述描述文本，确定目标文件对应的影音信息。

由于获取的描述文本的内容，通常会对用户选择的目标文件进行描述，则通过对获取的描述文本进行分析，可以确定用户选择的目标文件对应的影音信息。

在本发明实施例中，影音信息可以包括影音名称、影音详情等相关信息，例如视频文件的演员或者导演等信息、音频文件的演唱者、唱片名称等信息，影音信息还可以包括影音文件的影音资源等，举例说明，目标文件为一部电影的视频片段，影音信息可以包括该视频片段所属电影的视频资源。

进一步的，在确定目标文件对应的影音信息之后，还可以显示所述影音信息，和/或播放所述影音信息。例如，影音信息为影音名称或者演员、导演等信息时，可以显示该影音名称或者演员、导演等信息。又例如，影音信息为音频资源或者视频资源时，可以播放该音频资源或者视频资源。

通过上述技术方案可知，本实施例中，响应于用户的搜索请求，获取目标文件，其中，目标文件包括图片、音频文件和视频文件中的任一种或者多种。并确定与该目标文件相关联的关联网页，从这些关联网页中目标文件的对应的描述文本中分析得到对应的影视信息。上述过程可见，在搜索目标文件对应的影音信息的过程中，是通过提取和分析网页的描述文本，来确定影音信息，不需要从音频文件或者视频文件中提取出大量的影音片段建立索引，而网页的描述文本相对于图片、音频片段、视频片段等文件，占用的存储资源通常较少，因此减少了对存储量的需求。

此外，本发明实施例的目标文件可以为影音片段，并且影音信息可以为影音资源，因此，根据本发明实施例的搜索方法，能够搜索到影音片段所属的或者相关联的影音资源。例如，根据影视剧中的一帧画面，搜索到对应的影视剧，或者根据影视剧相关的海报或者预告片等，搜索到对应的影视剧，搜索范围较广。

在本发明实施例的一种实施方式中，可以先获取关联网页，再从关联网页中获取目标文件对应的描述文本，下面对关联网页的具体获取方式进行示例性地说明。本发明实施例中，可以在获取到目标文件后，根据目标文件确定关联网页，例如查询显示有与目标文件具有相同内容或者相似内容的影音文件的网页，和/或播放有与目标文件具有相同内容或者相似内容的影音文件的网页，作为关联网页；本发明实施例中，也可以预先建立网页文件和包括所述网页文件的网页之间的对应关系，根据该对应关系查询目标文件对应的关联网页，下面具体说明。

上述预先建立的对应关系可以具体为网页文件的标识与包括所述网页文件的网页之间的对应关系，其中，网页文件可以包括图片、音频文件和视频文件中的任一种或者多种。例如，从大量的网页上提取多个可用的图片，建立图片的标识与显示图片的网页之间的对应关系。

由于从不同网页上提取的网页文件可能相同，因此可以对具有相同内容的网页文件采用全局统一的标识。例如，在网页A上显示图片a，网页B上显示与图片a内容相同的图片b，可以根据图片a和图片b的特征向量确定出这两张图片是内容相同的图片，因此这两张图片可以对应统一的图片标识。从而得到该图片标识对应多个网页的对应的关系。具体地，建立标准文件库，在标准文件库中存储多个标准文件，每个标准文件具有全局统一的标识，因此在查询关联网页时，可以将目标文件与标准文件库中的标准文件进行匹配，确定所述目标文件在标准文件库中相匹配的标准文件；根据网页文件和包括所述网页文件的网页之间的对应关系，查询所述标准文件对应的关联网页。其中，标准文件可以包括图片、音频文件和视频文件中的任一种或者多种。例如，标准图片库中存储有多个标准图片，每个标准图片对应唯一的图片标识，将用户选择的目标图片与标准图片库进行匹配，确定出目标图片匹配的标准图片，利用该标准图片的标识，在网页图片的标识与显示网页图片的网页之间的对应关系查询，得到关联网页。

其中，在标准文件库中存储多个标准文件时，具体存储的可以是多个标准文件的特征向量，并且在确定匹配的标准文件时，具体是将目标文件的特征向量和标准文件的特征向量进行比对。为了减少比对次数，提高匹配速度，可以提取标准文件的影音特征，按照特定的算法转换为一维或者多维特征向量，以特征向量中的向量元素为单位作为词条，建立标准文件的倒排索引，在标准文件库中存储该倒排索引，下面具体说明。

具体地，标准文件的特征向量包括多个向量元素，建立标准文件的每个向量元素，与标准文件之间的索引关系。其中，具体建立的可以是向量元素和标准文件的标识之间的索引关系，例如，标准文件A的特征向量为(a1，a2，a3)，并且标准文件A的标识为ID01，则建立的倒排式的索引关系包括：特征向量a1与ID01的对应关系，特征向量a2与ID01的索引关系，以及特征向量a3与ID01的索引关系。其中，特征向量可以包括纹理特征向量、颜色特征向量、形状特征向量、空间关系特征向量中的任一种或多种特征向量，本发明实施例对比并不加以限定。

在利用上述倒排式的索引关系，将目标文件和标准文件进行匹配时，具体是获取所述目标文件的特征向量，所述特征向量中包括多个向量元素；在标准文件库中分别查找与所述目标文件的向量元素相同的向量元素，在根据索引关系确定所述相同的向量元素匹配的标准文件集合，将所述标准文件集合的交集，作为所述目标文件在所述标准文件库中相匹配的标准文件。下面以举例说明。

获取到用户选择的目标文件H后，提取目标文件H的特征向量为[m，n]，利用向量元素m在标准文件库中匹配到标准文件的标识的集合X为{ID01，ID02，ID03}，利用向量元素n在标准文件库中匹配到标准文件的标识的集合Y为{ID02，ID04}，对集合X与集合Y求交集，获得交集{ID02}，则该交集中的ID02即为标准文件库中与目标文件H相匹配的标准文件的标识。

在本发明实施例的另一种实施方式中，不需要获取关联网页，而是预先建立网页文件和包括所述网页文件的网页中的描述文本的对应关系，根据该对应关系直接查询所述目标文件对应的描述文本，该查询到的描述文本，实际上即为关联网页中目标文件对应的描述文本。其中，该对应关系可以根据网页文件和包括所述网页文件的网页的对应关系，以及网页和网页中的描述文本的对应关系获得。例如，图片A的标识ID01和包括该图片A的网页的地址a具有对应关系，网页的地址a与网页的描述文本M1具有对应关系，根据上述对应关系，能够获得图片A的标识ID01和描述文本M1的对应关系。可见，在这种实施方式中，由于不需要先获取关联网页，而是直接根据网页文件和描述文本的对应关系查询目标文件对应的描述文本，能够提高描述文本的查询速度，并且进一步节省了存储资源。

在本发明实施例中的S203中，根据所述描述文本，确定所述目标文件对应的影音信息，下面对根据描述文本确定影音信息的具体实现方式进行示例性说明。

在本发明实施例中，可以预先通过深度学习等方式训练出影音识别模型，将所述描述文本输入预先训练好的影音识别模型；通过所述影音识别模型得到所述目标文件对应的影音信息。其中，影音候选词可以包括影音名称、影音详情信息等。例如，将描述文本输入到影音识别模型中，影音识别模型输出一个或多个影音名称。

在确定影音信息时，一种可选的实施方式中，从所述描述文本中获取影音候选词，根据所述影音候选词确定所述目标文件对应的第一影音信息。其中，第一影音信息可以为影音名称、影音详情信息(例如导演、演员名称等信息)，在确定出第一影音信息之后，可以进一步根据该第一影音信息搜索所述目标文件对应的第二影音信息，例如，可以根据影音名称在影音百科、影音信息索引中检索到的相关信息，例如海报、主演、导演、简介、播放链接、歌手名称等信息。

其中，提取影音候选词时，具体可以是从所述描述文本中提取关键词，例如提取出影音名称，将所述关键词与所述影音候选词库进行匹配，获得所述影音候选词。其中，可以通过多种提取方式提取出关键词，例如，可以通过影音识别模型从描述文本中提取出关键词、或者对描述文本进行分词处理、切词处理或者过滤处理，得到提取出的关键词。所述影音候选词库可以包括多个影音候选词，例如包括多个电影名称，将从描述文本中提取的关键词与影音候选词库中的电影名称进行匹配，确定出匹配的电影名称作为最终提取出的电影名称；所述影音候选词库也可以包括影音候选词与影音详情信息的对应关系，例如包括演员名称和电影名称的对应关系，将从描述文本中提取的关键词与该对应关系进行匹配，具体可以是将关键词与影音详情信息进行匹配，根据匹配的影音详情信息从所述对应关系中确定出对应的影音候选词，例如，从描述文本中提取出演员名称：赵薇和苏有朋，并根据演员名称和电影名称的对应关系确定出对应的电影名称：还珠格格。

其中，当提取的影音候选词为多个时，可以对多个影音候选词进行筛选，将筛选后的一个或多个影音候选词作为所述目标文件对应的第一影音信息。在筛选时，可以根据以下至少一种参数：所述影音候选词在所述描述文本中出现的次数、所述影音候选词所位于的关联网页的网页属性、以及所述影音候选词所位于的关联网页的上下文信息。下面分别进行说明。

影音候选词在描述文本中出现的次数越多，说明该影音候选词为对应的影音信息的可能性越高，因此可以根据影音候选词的出现次数，对影音候选词进行筛选，例如将出现次数排在前几位、或者出现次数大于预设阈值的影音候选词，作为筛选出的影音候选词。举例说明，将从描述文本提取的关键词与影音候选词库进行匹配，匹配出影音候选词A、影音候选词B和影音候选词C，假设影音候选词A在描述文本中出现的次数为45次，影音候选词B在描述文本中出现的次数为60次，影音候选词C在描述文本中出现的次数为55次，则可以将出现次数最多的影音候选词B作为筛选出的影音候选词，或者将出现次数大于预设阈值(例如50)的影音候选词B和影音候选词C作为筛选出的影音候选词。

影音候选词所位于的关联网页的网页属性可以包括网页类别、网页被浏览的次数以及网页标签等属性中的任一项或者多项，可以通过网页属性对影音候选词进行筛选。以网页属性包括网页类别为例，关联网页包括小说类的关联网页和影视类的关联网页，将从影视类的关联网页中提取的关键词与影音候选词库进行匹配，获得影音候选词D，将从小说类的关联网页中提取的关键词与影音候选词库进行匹配，获得影音候选词E，根据网页类别，将影音候选词D作为筛选出的影音候选词。

此外，还可以从影音候选词所位于关联网页上的上下文信息对影音候选词进行筛选。举例说明，如果影音候选词所位于关联网页的上下文信息中包括与影音相关的相关词，例如“导演”、“演员”、“剧情简介”、“歌手”等，则将该影音候选词作为筛选后的影音候选词。

上述搜索方法的实施例可以应用于终端或者服务器中。具体的，当应用于终端时，终端可以检测到基于用户对目标文件的操作而生成的用户的搜索请求，并响应于该搜索请求获取目标文件，然后从关联网页中该目标文件对应的描述文本中，确定目标文件对应的影音信息；当应用于服务器端时，服务器可以接收终端发送的用户的搜索请求，并根据该用户的搜索请求获取目标文件，进而从关联网页中该目标文件对应的描述文本中，确定该目标文件对应的影音信息，并将该影音信息返回给终端。

当上述搜索方法的实施例应用于服务器时，终端侧的实施过程可参考图3所示的流程，具体如下：

S301：检测到用户对目标文件的操作。

其中，所述目标文件包括图片、音频文件和视频文件中的一种或者多种。

S302：向服务器发送用户的搜索请求，该搜索请求携带所述目标文件的标识，用于请求服务器搜索该目标文件对应的影音信息。

其中，所述目标文件的标识可以包括所述目标文件的地址，也可以包括目标文件的特征向量等。

S303：接收服务器返回的所述目标文件对应的影音信息。

服务器对影音信息的获取过程可以参加图2对应的实施例，这里不再赘述。

作为一种示例性的实施方式，当用户在终端的网页上浏览到正在显示或者播放的目标文件并对其感兴趣时，用户可以对该目标文件进行选择操作以请求搜索该目标文件对应的影音信息。因此，终端在检测到用户对目标文件的操作时，可以响应用户的选择操作，从网页上获取该目标文件的标识，例如目标文件的特征向量或者该目标文件的地址，并在生成包含目标文件的标识的搜索请求后，将该搜索请求发送给服务器，以便于服务器能够根据用户搜索请求中的目标文件的标识，搜索到该目标文件对应的影音信息。终端可以进一步显示和/或播放所述影音信息。

在一种实施方式中，可以通过在终端上安装浏览器插件，检测并且响应用户对目标文件的操作，使得用户能够快捷、方便地选择感兴趣的目标文件并进行搜索，用户的学习成本和使用成本较低，增加用户体验。例如图4所示，以目标文件为图片为例，用户通过鼠标、触摸屏等方式将光标移动到用户选择的图片的周围后点击右键，并从弹出的菜单框中选择相应项目，例如点击菜单框中的“图搜影擎”，浏览器插件检测到用户的上述操作之后，响应上述操作，向服务器发送搜索请求，该搜索请求中携带用户选择的图片的地址，或者携带用户选择的图片的特征向量。其中，用户也可以通过其他方式实现对图片的操作，例如通过长时间点击左键等等，本发明实施例对此并不加以限定。

进一步地，在本发明实施例中，还可以通过用户对目标文件的操作确定待搜索的影音信息的领域和/或类型，并且将所述领域和/或类型作为筛选信息。在步骤S203中确定影音信息时，具体确定的是与所述目标文件和所述筛选信息同时对应的影音信息。其中，筛选信息可以根据用户的操作确定。

例如，用户选择了一张图片作为目标文件，根据该图片能够确定出影视领域、综艺领域等多个领域的影音信息，若用户选中了影视领域，则可以确定出与该图片对应的电影文件等影视领域的影音信息；若用户选中了综艺领域，则可以确定该图片对应的综艺节目中的一张画面等综艺领域的影音信息。又例如，用户选择了一个音频片段作为目标文件，根据该音频片段能够确定出文本类、视频类、音频类等多种类型的影音信息，若用户选中了文本类，则可以确定与该音频片段对应的唱片名称、歌手等文本类的影音信息，若用户选中了音频类，则可以确定与该音频片段所属的音频文件等音频类的影音信息。

其中，可以响应于用户的搜索操作，向用户提供所有领域和/或所有类型的影音信息，例如，根据用户的右键点击操作，弹出的菜单框，点击菜单框中的“图搜影擎”，弹出子菜单框，向用户提供搜索的领域和/或类型信息，也可以向用户提供预设个数搜索的领域和/或类型信息，根据用户的触发操作进一步提供其他领域和/或类型信息。

下面以一具体场景为例，对影音信息的搜索方法的具体实施例进行介绍。在该具体场景中，用户在浏览器上浏览网页，并对网页上正在显示的“擎天柱”剧照感兴趣，想要通过触发对该“擎天柱”剧照的搜索，获得“擎天柱”剧照对应的电影名称。

请一并参阅图5，图5示出了本发明实施例中搜索方法的另一种实施例的流程示意图。该方法具体包括：

S501：用户通过移动鼠标将光标移动到网页上正在显示的“擎天柱”剧照上，并右键鼠标以使得网页弹出菜单框。

S502：用户在弹出的菜单框中选择相应项目以触发针对于该“擎天柱”剧照对应的电影名称的搜索。

S503：浏览器插件响应用户的选择操作，获取“擎天柱”剧照的地址。

其中，浏览器插件，可以安装在chrome、搜狗浏览器等基于WebKit的浏览器。

S504：浏览器插件生成用户的搜索请求，其中，用户的搜索请求携带“擎天柱”剧照的地址。

S505：浏览器插件将用户的搜索请求发送至服务器。

S506：服务器根据用户的搜索请求中的“擎天柱”剧照的地址，获取该“擎天柱”剧照。

S507：服务器提取该“擎天柱”剧照的特征向量。

S508：服务器根据“擎天柱”剧照的特征向量，从图片库中确定与“擎天柱”剧照相匹配的标准图片。

标准图片，是指标准图片库中存储的图片，每个标准图片具有全局唯一的标识。而匹配的标准图片，则是指标准图片库中与“擎天柱”剧照具有相同或者相似内容的图片。

其中，确定相匹配的标准图片时，可以获取“擎天柱”剧照的特征向量，该特征向量中包括多个向量元素，然后再从图片库中获取每个向量元素分别对应的标准图片的标识的集合，对每个向量元素分别对应的标准图片的标识的集合求交集，并将该交集中的标准图片的标识，作为与用户选择的“擎天柱”剧照相匹配的标准图片的标识。

S509：服务器查询所述标准图片对应的描述文本。

作为一种示例，服务器可以先获取标准图片的标识与网页地址之间的第一对应关系，根据第一对应关系查询到相匹配的标准图片的标识对应的网页地址，并获取网页地址与网页的描述文本的第二对应关系，利用第二对应关系和查询到的网页地址，获得相匹配的标准图片对应的描述文本；另一种示例中，服务器可以获取标准图片的标识与网页的描述文本的对应关系，利用该对应关系查询到相匹配的标准图片的标识对应的描述文本。

S510：服务器对查询到的描述文本进行分析，确定“擎天柱”剧照对应的电影名称。

在一种示例性的实施方式中，在获得描述文本后，可以将描述文本输入到训练好的影音识别模型，得到该模型输出的电影名称。其中，影音识别模型可以从描述文本中提取关键词，将提取的关键词与影音候选词库进行匹配，得到匹配的多个影音候选词，然后对匹配的多个影音候选词进行筛选，得到筛选后的一个影音候选词，作为确定出的电影名称。

S511：服务器根据确定的电影名称，搜索到该电影名称对应电影的相关信息。

S512：服务器将电影的相关信息发送给浏览器插件。

S513：浏览器插件在页面上显示电影的相关信息，和/或，播放电影。

上述实施例可见，一方面，用户在网页上浏览到感兴趣的“擎天柱”剧照时，可以直接对“擎天柱”剧照进行选择操作，以触发对“擎天柱”剧照对应电影的搜索，因此能够方便、快捷地对该目标文件进行选择操作，用户的学习成本和使用成本较低；另一方面，服务器并不需要预先从电影中提取并存储大量的关键帧，而是根据与“擎天柱”剧照相匹配的标准图片对应的描述文本进行分析，从而得到“擎天柱”剧照对应的电影名称，而描述文本相对于图片、音频片段、视频片段等文件，占用的存储资源通常较少，因此减少了对存储量的需求。

对应上述图2所示的方法实施例，本发明实施例还提供了相应的装置实施例，下面具体说明。

请参阅图6，本发明实施例提供了搜索装置的一种装置实施例，包括：第一获取单元601、第二获取单元602和确定单元603。

第一获取单元601，用于响应于用户的搜索请求，获取目标文件，所述目标文件包括图片、音频文件和视频文件中的一种或者多种。

第二获取单元602，用于获取关联网页中所述目标文件对应的描述文本，所述关联网页为与所述目标文件相关联的至少一个网页。

确定单元603，用于根据所述描述文本，确定所述目标文件对应的影音信息。

可选的，所述第二获取单元包括：

可选的，所述查询单元包括：

可选的，所述第二获取单元包括：

第二确定子单元，用于根据所述目标文件确定关联网页；

可选的，所述确定单元包括：

第二获取子单元，用于根据所述描述文本获取影音候选词；

关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在图2对应的方法实施例中进行了详细描述，此处将不做详细阐述说明。

对应上述图3所示的方法实施例，本发明实施例还提供了相应的装置实施例，下面具体说明。

请参阅图7，本发明提供了搜索装置的另一种装置实施例，包括：检测单元701、发送单元702和接收单元703。

检测单元701，用于检测到用户对目标文件的操作，所述目标文件包括图片、音频文件和视频文件中的一种或者多种。

发送单元702，用于向服务器发送所述用户的搜索请求，所述搜索请求携带所述目标文件的标识.

接收单元703，用于接收服务器返回的所述目标文件对应的影音信息。

关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在图3对应的方法实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种用于搜索的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图8，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理部件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理***，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路

(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种搜索方法，所述方法包括：

根据所述描述文本，确定所述目标文件对应的影音信息。

接收服务器返回的所述目标文件对应的影音信息。

图9是本发明实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processing units，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作***1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种搜索方法，其特征在于，包括：

根据所述描述文本，确定所述目标文件对应的影音信息。

2.根据权利要求1所述的搜索方法，其特征在于，所述获取关联网页中所述目标文件对应的描述文本，包括：

从所述关联网页中获取所述目标文件对应的描述文本。

3.根据权利要求2所述的搜索方法，其特征在于，所述根据预先建立的网页文件和包括所述网页文件的网页之间的对应关系，查询所述目标文件对应的关联网页，包括：

确定所述目标文件在标准文件库中相匹配的标准文件；

根据所述对应关系查询所述标准文件对应的关联网页。

4.根据权利要求3所述的搜索方法，其特征在于，所述确定所述目标文件在标准文件库中相匹配的标准文件，包括：

5.根据权利要求1所述的搜索方法，其特征在于，所述获取关联网页中所述目标文件对应的描述文本，包括：

6.根据权利要求1所述的搜索方法，其特征在于，所述获取关联网页中所述目标文件对应的描述文本，包括：

根据所述目标文件确定关联网页；

从所述关联网页中获取所述目标文件对应的描述文本。

7.根据权利要求1所述的搜索方法，其特征在于，所述根据所述描述文本，确定所述目标文件对应的影音信息，包括：

将所述描述文本输入至预先训练好的影音识别模型；

通过所述影音识别模型得到所述目标文件对应的影音信息。

8.根据权利要求1所述的搜索方法，其特征在于，所述根据所述描述文本，确定所述目标文件对应的影音信息，包括：

根据所述描述文本获取影音候选词；

9.根据权利要求8所述的搜索方法，其特征在于，所述根据所述描述文本获取影音候选词，包括：

10.根据权利要求8或9所述的搜索方法，其特征在于，根据所述影音候选词确定所述目标文件对应的第一影音信息，包括：

11.根据权利要求8所述的搜索方法，其特征在于，还包括：

12.根据权利要求1所述的搜索方法，其特征在于，响应于用户的搜索请求，获取目标文件，包括：

根据所述目标文件的地址，获取所述目标文件。

13.一种搜索方法，其特征在于，包括：

接收服务器返回的所述目标文件对应的影音信息。

14.根据权利要求13所述的搜索方法，其特征在于，检测到用户对目标文件的操作，包括：通过浏览器插件检测到用户对目标文件的操作；

15.根据权利要求13所述的搜索方法，其特征在于，还包括：

显示和/或播放所述影音信息。

16.一种搜索装置，其特征在于，包括：

17.一种搜索装置，其特征在于，包括：

18.一种用于搜索的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

根据所述描述文本，确定所述目标文件对应的影音信息。

19.一种用于搜索的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

接收服务器返回的所述目标文件对应的影音信息。

20.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至12中一个或多个所述的搜索方法。

21.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求13至15中一个或多个所述的搜索方法。