CN107220307A

CN107220307A - 网页搜索方法和装置

Info

Publication number: CN107220307A
Application number: CN201710326803.XA
Authority: CN
Inventors: 黄永峰; 刘俊鑫; 吴方照; 刘佳伟; 袁志刚; 吴思行
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-05-10
Filing date: 2017-05-10
Publication date: 2017-09-29
Anticipated expiration: 2037-05-10
Also published as: CN107220307B

Abstract

本发明提出一种网页搜索方法和装置，其中，网页搜索方法包括：根据关键字进行搜索，得到匹配网页及其排序之后，由用户选取匹配网页中的第一网页进行标注，进而根据匹配网页中的第二网页与标注为相关和/或无关的第一网页之间的相关程度，估计第二网页与搜索意图之间的相关程度，并据此对第二网页进行重新排序。这种方法，一方面充分考虑了用户的搜索意图，能帮助用户快速定位到有用的信息，另一方面，用户仅需要根据搜索意图对搜索结果中少量网页进行相关性的标注，便可以提升与搜索意图相关的第二网页的排序，降低了用户获取目标信息的时间，提高了用户的体验度。

Description

网页搜索方法和装置

技术领域

本发明涉及信息检索技术领域，尤其涉及一种网页搜索方法和装置。

背景技术

随着互联网的普及和发展，越来越多人利用网络进行信息的检索。互联网发展至今，网络上的信息量非常庞大，人们利用搜索引擎在互联网上进行信息检索，搜索引擎对搜索结果进行整理和排序，然后将搜索结果反馈给用户。

目前，用户利用搜索引擎进行信息检索时，搜索引擎与用户的交互仅停留在用户输入的搜索关键词中，或者部分利用了用户的浏览日志等信息来优化搜索结果。

现有技术中，搜索引擎呈现给用户的搜索结果，往往存在用户所需的网页排序较为靠后的情况，导致用户不能有效定位到所需的网页，增加了用户获取目标信息的时间，降低了用户的体验度。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种网页搜索方法，以实现通过计算第二网页和用户搜索意图之间的相关性，对搜索结果实现重新排序，以快速定位到用户需求的信息，解决了现有技术中因为没有充分考虑用户的搜索意图，导致用户获取需求信息的时间较长，用户体验度差的技术问题。

本发明的第二个目的在于提出一种网页搜索装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本发明第一方面实施例提出了一种网页搜索方法，包括：

获取搜索的关键字；

根据关键字进行搜索，得到匹配网页，以及匹配网页的排序；

当用户选取匹配网页中的第一网页进行标注之后，获取第一网页的标注；其中，标注，用于指示第一网页与采用关键字搜索的搜索意图之间的相关性；

根据匹配网页中的第二网页与标注为相关的第一网页之间的相关程度，和/或根据第二网页与标注为无关的第一网页之间的相关程度，估计第二网页与搜索意图之间的相关程度；

根据第二网页与搜索意图之间的相关程度，对第二网页进行重新排序。

本发明实施例的一种网页搜索方法，其中，获取搜索的关键字；根据关键字进行搜索，得到匹配网页，以及匹配网页的排序；用户选取匹配网页中的第一网页进行标注；根据匹配网页中的第二网页与标注为相关的第一网页之间的相关程度，和/或根据第二网页与标注为无关的第一网页之间的相关程度，估计第二网页与所述搜索意图之间的相关程度；根据该相关程度，对第二网页进行重新排序。用户根据搜索意图对搜索结果中的匹配网页进行标注，并根据计算得到的相关程度对第二网页进行重新排序，其充分考虑了用户的搜索意图，能帮助用户快速定位到有用的信息，降低了用户获取有用信息的时间，提高了用户的体验度。

为达上述目的，本发明第二方面实施例提出了一种网页搜索装置，包括：

获取模块，用于获取搜索的关键字；

搜索模块，用于根据关键字进行搜索，得到匹配网页，以及匹配网页的排序；

标注模块，用于当用户选取匹配网页中的第一网页进行标注之后，获取第一网页的标注；其中，所述标注，用于指示第一网页与采用关键字搜索的搜索意图之间的相关性；

计算模块，用于根据匹配网页中的第二网页与标注为相关的第一网页之间的相关程度，和/或根据第二网页与标注为无关的第一网页之间的相关程度，估计第二网页与搜索意图之间的相关程度；

重排序模块，用于根据第二网页与搜索意图之间的相关程度，对第二网页进行重新排序。

本发明实施例的一种网页搜索装置，其中，获取模块，用于获取搜索的关键字；搜索模块，用于根据关键字进行搜索，得到匹配网页，以及匹配网页的排序；标注模块，用于当用户选取匹配网页中的第一网页进行标注之后，获取第一网页的标注；其中，所述标注，用于指示第一网页与采用关键字搜索的搜索意图之间的相关性；计算模块，用于根据匹配网页中的第二网页与标注为相关的第一网页之间的相关程度，和/或根据第二网页与标注为无关的第一网页之间的相关程度，估计第二网页与搜索意图之间的相关程度；重排序模块，用于根据第二网页与搜索意图之间的相关程度，对第二网页进行重新排序。用户根据搜索意图对搜索结果中的匹配网页进行标注，并根据计算得到的相关程度对第二网页进行重新排序，其充分考虑了用户的搜索意图，能帮助用户快速定位到有用的信息，降低了用户获取有用信息的时间，提高了用户的体验度。

为达上述目的，本发明第三方面实施例提出了一种计算机设备，包括：存储器，处理器以及存储在存储器中并可在处理器上运行的计算机程序，当处理器执行该计算机程序时，用于执行第一方面所述的网页搜索方法。

为了实现上述目的，本发明第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，用于执行第一方面所述的网页搜索方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种网页搜索方法的流程示意图；

图2为本发明实施例所提供的一种估算网页和搜索意图相关程度的方法的流程示意图；

图3为本实施例提出的一种网页正文文本提取方法的流程示意图；

图4为本实施例提出的一种去除包含大量链接节点的方法的流程示意图；

图5为本发明实施例提供的一种网页搜索装置的结构示意图；

图6为本发明实施例提供的另一种网页搜索装置的结构示意图；以及

图7为本发明实施例所提供的提取单元341的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的网页搜索方法和装置。

图1为本发明实施例所提供的一种网页搜索方法的流程示意图，如图1所示，该方法包括以下步骤：

步骤S1，获取搜索的关键字。

具体地，在搜索引擎的用户输入界面，用户根据需求输入关键字进行信息查询，搜索引擎识别出用户输入的关键字。

步骤S2，根据关键字进行搜索，得到匹配网页，以及匹配网页的排序。

具体地，搜索引擎根据用户输入的关键字，在数据库中利用网络爬虫技术进行信息的查询，查询到和用户输入的关键字匹配的网页后，计算出网页和用户搜素意图之间的相关度，得到匹配网页的排序，记录下得到的每一条匹配网页对应的初始排序，并将匹配网页在用户的展示界面中按照初始排序展现出来。

其中，搜索引擎根据获得的用户输入的关键字，利用网络爬虫技术搜索目标网页，作为一种可能的实现方式，调用搜索引擎时采用查(Get)请求方式，在请求统一资源定位符(Uniform Resoure Locator，URL)后面以问号(？)的形式加上发给服务器的参数，多个参数之间用符号&隔开，搜索引擎会基于URL中提交的参数进行分析，获得对应的搜索结果，如使用百度搜索关键词“清华大学”，则访问：“http://www.***.com/s？q1＝清华大学”即可。其他用于限定网页更新时间等的高级搜索参数，也可在URL后面添加相应的参数来实现，例如，使用百度搜索限定要搜索的网页的时间和每页显示的条数，则访问： http://www.***.com/s？q1＝清华大学&lm＝7&rn＝5，即搜索清华大学，最近一周内的网页，且每页显示的条数是5条。

步骤S3，当用户选取匹配网页中的第一网页进行标注后，获取第一网页的标注。

具体地，用户根据和搜索需求相关度大小的原则，对返回给用户的匹配网页进行标注，并将被标注的网页信息返回给搜索引擎，其中被用户标注的网页被称为第一网页。需要说明的是，被用户标注的第一网页中，有和用户搜索需求相关的网页，也有和用户的搜素需求无关的网页，为了便于区分，将和用户搜索需求相关的匹配网页命名为相关的第一网页，和用户搜索需求无关的匹配网页命名为无关的第一网页。

进一步，用户对匹配网页进行标注，是在搜索引擎***生成并显示的交互页面中完成的，该交互页面显示所有匹配页面的链接，以及用于进行标注的复选框。在复选框中设置有勾选按钮，在每一个匹配页面旁设置“相关”和“无关”的两种勾选按钮，如果该页面是和搜索需求相关的页面，则勾选“相关”按钮，将该页面设置为相关的第一网页；如果该页面是和搜索需求无关的页面，则勾选“无关”按钮，将该页面设置为无关的第一网页。需要说明的是，相关的第一网页和无关的第一网页是用户根据搜索需求由用户勾选确定的，其数量可以为一个或者为多个。

步骤S4，根据匹配网页中的第二网页与标注为相关的第一网页之间的相关程度和/或根据第二网页与标注为无关的第一网页之间的相关程度，估计第二网页与搜索意图之间的相关程度。

具体地，用户输入的关键字即对应用户的搜索意图，而网页中的正文文本信息是和用户搜素意图相对应的，从而，计算网页和用户搜索意图之间的相关程度，需要提取网页的正文文本。

首先，提取第一网页的正文文本，根据第一网页的正文文本、标题和简介，生成第一网页的文档，其中，第一网页的文档包括标注为相关的第一网页的文档，以及标注为无关的第一网页的文档。

其次，提取第二网页的标题和简介，生成第二网页的文档。

最后，根据标注为相关的第一网页的文档与第二网页的文档之间的相关程度，和/或标注为无关的第一网页的文档与第二网页的文档之间的相关程度，估计第二网页与搜索意图之间的相关程度。

需要说明的是，第二网页一般来说，是搜索得到的匹配网页中，除第一网页以外的网页。本领域技术人员可以知晓，具体来说，第二网页可以是匹配网页中除第一网页以外的全部网页，也可是部分网页，本实施例中对此不作限定。

步骤S5，根据第二网页与搜索意图之间的相关程度，对第二网页进行重新排序。

具体地，以第二网页与搜索意图之间的相关程度越大，第二网页进行重新排序后的排序越靠前为原则，对第二网页进行重新排序。

本发明实施例的一种网页搜索方法中，获取搜索的关键字，根据关键字进行搜索，得到匹配网页，以及匹配网页的排序；用户选取匹配网页中的第一网页进行标注；根据匹配网页中的第二网页与标注为相关的第一网页之间的相关程度，和/或根据第二网页与标注为无关的第一网页之间的相关程度，估计第二网页与所述搜索意图之间的相关程度；根据该相关程度，对第二网页进行重新排序。用户根据搜索意图对搜索结果中的匹配网页进行标注，并根据计算得到的相关程度对第二网页进行重新排序，其充分考虑了用户的搜索意图，能帮助用户快速定位到有用的信息，降低了用户获取有用信息的时间，提高了用户的体验度。

为了进一步清楚说明上一实施例中的步骤S4，作为一种可能的实现方式，图2为本发明实施例所提供的一种估算网页和搜索意图相关程度的方法的流程示意图。

如图2所示，步骤S4包括以下步骤：

步骤S41，提取第一网页的正文文本。

具体地，网页中包含有很多文本信息，有和用户搜索需求相关的文本信息，也有和用户搜索需求无关的文本信息，为了便于区别，将和用户需求相关的文本信息称为正文文本，将和用户需求无关，不能反映用户搜索意图的文本信息，如导航栏、外链接和广告等信息，称为噪声文本。为了更加准确的表征用户的搜索意图，需要将无关的噪声文本去除，只保留正文文本。

步骤S42，根据第一网页的正文文本、标题和简介，生成第一网页的文档。

具体地，对于搜索引擎返回的结果页面，分别定义不同的查找方式，将结果页面中的标题，简介信息提取出来，和提取出的第一网页的正本文本，生成第一网页的文档。其中，第一网页的文档包括标注为相关的第一网页的文档，以及标注为无关的第一网页的文档。

步骤S43，提取第二网页的标题和简介，生成第二网页的文档。

具体地，对于搜索引擎返回的结果页面，分别定义不同的查找方式，将结果页面中的标题，简介信息提取出来，生成第二网页的文档。

需要理解的是，对应第二网页，没有提取第二网页的正文文本信息，仅提取第二网页的标题和简介，目的是为了减少网络连接的发起次数，从而降低***后台的处理时间，使得***在保证足够精度的条件下，可以快速响应用户的搜索需求，提高用户的体验度。

步骤S44，根据标注为相关的第一网页的文档与第二网页的文档之间的相关程度，和/ 或标注为无关的第一网页的文档与第二网页的文档之间的相关程度，估计第二网页与搜索意图之间的相关程度。

具体地，计算两个文档之间的相似程度，即相关程度，最常用的方法是将文档映射成向量，再用两个文档对应的向量之间的相似程度来度量两个文档之间的相似度。

作为一种可能的实现方式，利用词袋模型将文档映射成向量，词袋模型，是自然语言处理中常用的一种将文档数据映射成向量的方法。假设词典中共有N个词，所有的文档均由词典中的这N个词构成，利用词袋模型可以将任意一篇文档映射成一个N维的向量，向量的第k维对应词典中第k个词在该文档中的权重。词语的权重可以是该词语在该文档中出现的频率，最常用的权重判断方法是根据该词语在该文档中的词频-逆向文件频率(Termfrequency–inverse document frequency，TF-IDF)值来判断。其中，词频(Termfrequency， TF)，是指某个词在文档中出现的频率，出现的频率越高，说明该词越重要，权重越大， TF的值越大；逆向文件频率(Inverse document frequency，IDF)，是指对于常见的词赋予较小的权重，对于不常见的词赋予较大的权重，即IDF的大小与一个词的常见程度是成反比的。一个词的TF-IDF值即将TF乘以IDF，值越大表示该词在文档中的权重越高。

需要理解的是，计算TF-IDF值之前，需要首先对文档进行分词处理，利用现有的分词工具将文档转换成词语的集合，然后统计每个词语在该文档中出现的次数，计算该词语的 TF-IDF值，从而得到该文档的向量化表示。

需要说明的是，在实际应用中，***中使用的词典大小约为30万词，基本能囊括大部分的中文词语，但是由于网络上不断出现新词，加上分词工具可能存在的分词错误，分词结果中可能出现少量词典中不存在的词，对于这些词，***采用直接舍去的策略。

作为另一种可能的实现方式，利用分布式向量表示模型将文档映射成向量，词的分布式表示，俗称词向量，是指将词典中的每个词语映射成向量空间中的一个实值向量，一般可以通过训练“神经语言”模型得到，向量的维数可以根据需要在训练时进行调整设置。训练得到的“词向量”能很好的表征词语的语义信息，语义信息相近的词在向量空间中“距离”相近。有了词的向量表示后，可以有多种方法扩展到文档的向量表示。作为一种可能的实现方式，***采用将词的向量表示加权平均的方法获得文档的向量表示，首先使用预先采集好的语料训练得到词向量；然后采用分词工具对文档进行分词处理，统计每个词的TF-IDF值；将这些词语的词向量以TF-IDF值为权值加权平均得到文档向量。

进一步，利用词袋模型，可以将标注为相关的第一网页文档向量化表示为V_相关1，将标注为无关的第一网页文档向量化表示为V_无关1，将第二网页文档向量化表示为V_结果1；利用分布式向量表示模型，可以将标注为相关的第一网页文档向量化表示为V_相关2，将标注为无关的第一网页文档向量化表示为V_无关2，将第二网页文档向量化表示为V_结果2。

具体地，将第一网页文档和第二网页文档向量化表示后，即可用文档向量之间的相似度来度量文档之间的相似度，作为一种可能的实现方式，***采用余弦距离来表示向量之间的相似度，从而，可以利用余弦相似度来计算V_相关1与V_结果1之间余弦相似度S_相关1；V_相关2与V_结果2之间余弦相似度S_相关2；V_无关1与V_结果1之间余弦相似度S_无关1；V_无关2与V_结果2之间余弦相似度S_无关2。

更进一步，根据得到的第一网页文档和第二网页文档的余弦相似度，利用公式计算得到所述第二网页与所述搜索意图之间的相关程度Score。

其中，α、β、γ为预设权重，n为所述第二网页在所述匹配网页中的排序。

最后，根据计算得到的第二网页与搜索意图之间的相关程度Score的值，对第二网页进行重新排序，并将重新排序后的网页展现给用户。其中，Score值越大，对应的第二网页进行重排序后排序越靠前。

本发明实施例中，提取第一网页的正文文本；根据第一网页的正文文本、标题和简介，生成第一网页文档；提取第二网页的标题和简介，生成第二网页的文档；根据标注为相关的第一网页的文档与第二网页的文档之间的相关程度，和/或根据标注为无关的第一网页的文档与第二网页的文档之间的相关程度，估计第二网页与搜索意图之间的相关程度。用户根据搜索意图对搜索结果中的匹配网页进行标注，并根据计算得到的相关程度对第二网页进行重新排序，其充分考虑了用户的搜索意图，能帮助用户快速定位到有用的信息，降低了用户获取有用信息的时间，提高了用户的体验度。

在上一实施例中，对网页中包含的文本进行提取时，需要将无用的噪声文本去除，只保留正文文本，但是由于不同的网页样式差别较大，没有统一的文本解析算法，作为一种可能的实现方式，本实施例提出了一种网页正文文本提取方法。

具体地，为了进一步清楚的说明上述实施例中的步骤S41的过程，图3为本实施例提出的一种网页正文文本提取方法的流程示意图，如图3所示，步骤S41包括以下步骤：

步骤S411，获取第一网页的html文件。

具体地，获取用户标注的第一网页的html文件，根据文档对象模型(DocumentObject Model，DOM)，html文件中的每个成分都是一个节点，而所有信息均保存在html文件中的不同节点中。其中，整个文档是一个文档节点；每个html标签是一个元素节点；每个html 属性是一个属性节点；注释是注释节点。

步骤S412，去除html文件中对应控制、显示样式和/或注释的节点。

具体地，提取正文文本时，对应控制、显示样式和/或注释的节点中不包含文本信息，和用户的搜索需求无关，在提取正文文本时，需要将这些不含正文文本信息的节点去除，这些需要去除的节点至少包含以下节点：

去除<script>节点，该节点用于定义客户端脚本；

去除<noscript>节点，该节点用于定义在脚本未被执行时的替代内容(文本)；

去除<style>节点，该节点用于为html文档定义样式信息；

去除<span>节点，该节点用于组合文档中的行内元素；

去除<meta>节点，该节点用于提供有关页面的元信息(meta-information)，比如针对搜索引擎和更新频度的描述和关键词；

去除包含“style＝displaynone”属性的节点，该节点用于在网页中隐藏对象，且不为被隐藏的对象保留物理空间；

去除注释节点，指源代码中***的注释。

步骤S413，根据html文件中的各节点所含的链接的数量，确定包含文本内容的节点。

具体地，考虑到页面的导航栏、广告等部分一般包含较多的链接，而正文文本一般包含较少的链接或不含链接，因此可以根据节点内及节点周围链接节点的数量来判断该节点的文本内容是否属于正文文本，如果该节点内及节点周围包含较多链接，则判断该节点的文本不是正文文本，需要删除，否则，判断该节点的文本是正文文本，需要保留。

步骤S414，根据包含文本内容的节点，生成第一网页的正文文本。

具体地，去除html文件中对应控制、显示样式和/或注释的节点，以及去除包含链接较多的节点后，删除html文件中多余的空格、标签，提取出剩余节点的文本内容即得到页面的正文文本信息。

为进一步清楚的解释步骤S413中去除包含大量链接的节点的过程，作为一种可能的实现方式，图4为本实施例提出的一种去除包含大量链接节点的方法的流程示意图，包括以下步骤：

步骤S4131，找出html文件中所有的<a>节点。

其中，<a>节点是指超链接节点。对于每一个<a>节点，执行如下步骤的操作。

步骤S4132，找出该<a>节点的父节点，记为parent，并初始化变量temp＝null。

具体地，对于每一个<a>节点来讲，均有一个唯一的父节点，temp是指临时变量。

步骤S4133,找出parent下的所有<a>节点，计算parent下所有<a>节点的字符长度总和l_a，并计算parent的字符长度l_p。

具体地，每一个parent父节点下可能有多个子节点<a>，多个子节点<a>之间是同级的关系，通过统计parent父节点下所有子节点<a>的字符长度总和，判断parent节点是否包含较多超链接节点，是否为需要删除的噪声节点。

步骤S4134，判断l_a/l_p是否大于一个预先设定好的阈值t，如果是，则执行步骤S4135，否则执行步骤S4136。

具体地，若l_a/l_p的值大于预设的阈值t，则认为该parent节点是包含大量链接的节点，属于需要删除的噪声节点，将parent赋值给temp，同时将指针指向parent节点的父节点；若l_a/l_p的值小于等于预设的阈值t，则认为该节点属于文本节点，不需要删除。

步骤S4135，将parent赋值给temp，并令parent指向parent节点的父节点，同时返回执行步骤S4133。

步骤S4136，若temp不是null，则删除temp，若temp是null，则保留temp。然后返回步骤S4132。

需要说明的是，无论是否删除temp，均返回执行步骤S4132，处理下一个<a>节点，直到处理完步骤S4131找出的所有<a>节点为止。

在图3和图4对应的实施例中，从获得的html文件中提取正文文本信息，得到相关的第一网页的文档和无关的第一网页的文档。另外，提取第二网页的标题和简介得到第二网页的文档，并根据标注为相关的第一网页的文档与第二网页的文档之间的相关程度，和/或根据标注为无关的第一网页的文档与第二网页的文档之间的相关程度，估计第二网页与搜索意图之间的相关程度，根据计算得到的相关程度对第二网页进行重新排序，其充分考虑了用户的搜索意图，能帮助用户快速定位到有用的信息，降低了用户获取有用信息的时间，提高了用户的体验度。

为了实现上述实施例，本发明还提出一种网页搜索的装置。

图5为本发明实施例提供的一种网页搜索装置的结构示意图。

如图5所示，该网页搜索装置包括：获取模块31、搜索模块32、标注模块33、计算模块34和重排序模块35。

获取模块31，用于获取搜索的关键字。

搜索模块32，用于根据关键字进行搜索，得到匹配网页，以及匹配网页的排序。

标注模块33，用于当用户选取匹配网页中的第一网页进行标注之后，获取第一网页的标注；其中，标注，用于指示第一网页与采用关键字搜索的搜索意图之间的相关性。

计算模块34，用于根据匹配网页中的第二网页与标注为相关的第一网页之间的相关程度，和/或根据第二网页与标注为无关的第一网页之间的相关程度，估计第二网页与搜索意图之间的相关程度。

重排序模块35，用于根据第二网页与搜索意图之间的相关程度，对第二网页进行重新排序。

其中，作为一种可能的实现方式，重排序模块35，具体用于以第二网页与搜索意图之间的相关程度越大，第二网页进行重排序后的排序越靠前为原则，对第二网页进行重新排序。

本发明实施例中，获取模块，用于获取搜索的关键字；搜索模块，用于根据关键字进行搜索，得到匹配网页，以及匹配网页的排序；标注模块，用于当用户选取匹配网页中的第一网页进行标注之后，获取第一网页的标注；其中，所述标注，用于指示第一网页与采用关键字搜索的搜索意图之间的相关性；计算模块，用于根据匹配网页中的第二网页与标注为相关的第一网页之间的相关程度，和/或根据第二网页与标注为无关的第一网页之间的相关程度，估计第二网页与搜索意图之间的相关程度；重排序模块，用于根据第二网页与搜索意图之间的相关程度，对第二网页进行重新排序。用户根据搜索意图对搜索结果中的匹配网页进行标注，并根据计算得到的相关程度对第二网页进行重新排序，其充分考虑了用户的搜索意图，能帮助用户快递定位到有用的信息，降低了用户获取有用信息的时间，提高了用户的体验度。

需要说明的是，前述对方法实施例的解释说明也适用于本实施例的装置，此处不再赘述。

基于上述实施例，本发明实施例还提供了另一种网页搜素装置的可能的实现方式，图 6为本发明实施例提供的另一种网页搜索装置的结构示意图，在上一实施例的基础上，网页搜索装置还包括：交互显示模块36，用于生成并显示交互页面，其中，交互页面显示有匹配页面的链接，以及用于获取标注的复选框。

另外，在上一实施例的基础上，计算模块34包括：提取单元341、生成单元342、提取生成单元343和计算单元344。

提取单元341，用于提取第一网页的正文文本。

生成单元342，用于根据第一网页的正文文本、标题和简介，生成第一网页的文档；其中，第一网页的文档包括标注为相关的第一网页的文档，以及标注为无关的第一网页的文档。

提取生成单元343，用于提取第二网页的标题和简介，生成第二网页的文档。

计算单元344，用于根据标注为相关的第一网页的文档与第二网页的文档之间的相关程度，和/或标注为无关的第一网页的文档与第二网页的文档之间的相关程度，估计第二网页与搜索意图之间的相关程度。

其中，作为一种可能的实现方式，计算单元344，具体用于根据公式计算得到所述第二网页与所述搜索意图之间的相关程度Score。

本发明实施例中，用户根据搜索意图对搜索结果中的匹配网页进行标注，计算得到第二网页与搜索意图之间的相关程度，并根据计算得到的相关程度对第二网页进行重新排序，其充分考虑了用户的搜索意图，能帮助用户快递定位到有用的信息，降低了用户获取有用信息的时间，提高了用户的体验度。

需要说明的是，前述对方法实施例的解释说明也适用于本发明实施例的装置，此处不再赘述。

基于上述实施例，作为一种可能的实现方式，图7为本发明实施例提供的提取单元341 的结构示意图，如7所示，提取单元341包括：获取子单元3411、去除子单元3412、确定子单元3413和生成子单元3414。

获取子单元3411，用于获取第一网页的html文件。

去除子单元3412，用于去除对应控制、显示样式和/或注释的节点。

确定子单元3413，用于根据html文件中的各节点所含的链接数量，确定包含文本内容的节点。

生成子单元3414，用于根据包含文本内容的节点，生成第一网页的正文文本。

其中，作为一种可能的实现方式，确定子单元3412，具体用于将所述html文件中的各节点所含的链接的数量低于预设阈值的节点，确定为包含文本内容的节点。

为了实现上述实施例，本发明还提出一种计算机设备，包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序，当计算机程序被处理器执行时，执行前述实施例中的网页搜索方法。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，当存储介质中的程序由处理器执行时，执行前述实施例中的网页搜索方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种网页搜索方法，其特征在于，包括以下步骤：

获取搜索的关键字；

根据所述关键字进行搜索，得到匹配网页，以及所述匹配网页的排序；

当用户选取所述匹配网页中的第一网页进行标注之后，获取所述第一网页的标注；其中，所述标注，用于指示所述第一网页与采用所述关键字搜索的搜索意图之间的相关性；

根据所述匹配网页中的第二网页与标注为相关的第一网页之间的相关程度，和/或根据所述第二网页与标注为无关的第一网页之间的相关程度，估计所述第二网页与所述搜索意图之间的相关程度；

根据所述第二网页与所述搜索意图之间的相关程度，对所述第二网页进行重新排序。

2.根据权利要求1所述的网页搜索方法，其特征在于，所述根据所述匹配网页中的第二网页与标注为相关的第一网页之间的相关程度，和/或根据所述第二网页与标注为无关的第一网页之间的相关程度，估计所述第二网页与所述搜索意图之间的相关程度包括：

提取所述第一网页的正文文本；

根据所述第一网页的正文文本、标题和简介，生成所述第一网页的文档；其中，所述第一网页的文档包括标注为相关的第一网页的文档，以及标注为无关的第一网页的文档；

提取所述第二网页的标题和简介，生成所述第二网页的文档；

根据所述标注为相关的第一网页的文档与所述第二网页的文档之间的相关程度，和/或所述标注为无关的第一网页的文档与所述第二网页的文档之间的相关程度，估计所述第二网页与所述搜索意图之间的相关程度。

3.根据权利要求2所述的网页搜索方法，其特征在于，所述估计所述第二网页与所述搜索意图之间的相关程度，包括：

根据公式计算得到所述第二网页与所述搜索意图之间的相关程度Score；

其中，α、β、γ为预设权重，n为所述第二网页在所述匹配网页中的排序；

所述标注为相关的第一网页的文档，基于词袋模型向量化表示为V_相关1；所述标注为无关的第一网页的文档，基于词袋模型向量化表示为V_无关1；所述标注为相关的第一网页的文档，基于词的分布式向量表示模型向量化表示为V_相关2；所述标注为无关的第一网页的文档，基于词的分布式向量表示模型向量化表示为V_无关2；

S_相关1为V_相关1与所述第二网页的基于词袋模型向量化表示V_结果1之间余弦相似度；S_相关2为V_相关2与所述第二网页的基于词的分布式向量表示模型向量化表示V_结果2之间余弦相似度；S_无关1为V_无关1与所述第二网页的基于词袋模型向量化表示V_结果1之间余弦相似度；S_无关2为V_无关2与所述第二网页的基于词的分布式向量表示模型向量化表示V_结果2之间余弦相似度。

4.根据权利要求2所述的网页搜索方法，其特征在于，所述提取所述第一网页的正文文本，包括：

获取所述第一网页的html文件；

根据所述html文件中的各节点所含的链接的数量，确定包含文本内容的节点；

根据包含文本内容的节点，生成所述第一网页的正文文本。

5.根据权利要求4所述的网页搜索方法，其特征在于，所述获取所述第一网页的html文件之后，还包括：

去除对应控制、显示样式和/或注释的节点。

6.根据权利要求4所述的网页搜索方法，其特征在于，所述根据所述html文件中的各节点所含的链接的数量，确定包含文本内容的节点，包括：

将所述html文件中的各节点所含的链接的数量低于预设阈值的节点，确定为所述包含文本内容的节点。

7.根据权利要求1-6任一项所述的网页搜索方法，其特征在于，所述根据所述第二网页与所述搜索意图之间的相关程度，对所述第二网页进行重新排序，包括：

以所述第二网页与所述搜索意图之间的相关程度越大，所述第二网页进行重新排序后的排序越靠前为原则，对所述第二网页进行重新排序。

8.根据权利要求1-6任一项所述的网页搜索方法，其特征在于，所述获取所述第一网页的标注之前，还包括：

生成并显示交互页面，其中，所述交互页面显示有所述匹配页面的链接，以及用于获取标注的复选框。

9.一种网页搜索装置，其特征在于，包括：

获取模块，用于获取搜索的关键字；

搜索模块，用于根据所述关键字进行搜索，得到匹配网页，以及所述匹配网页的排序；

标注模块，用于当用户选取所述匹配网页中的第一网页进行标注之后，获取所述第一网页的标注；其中，所述标注，用于指示所述第一网页与采用所述关键字搜索的搜索意图之间的相关性；

计算模块，用于根据所述匹配网页中的第二网页与标注为相关的第一网页之间的相关程度，和/或根据所述第二网页与标注为无关的第一网页之间的相关程度，估计所述第二网页与所述搜索意图之间的相关程度；

重排序模块，用于根据所述第二网页与所述搜索意图之间的相关程度，对所述第二网页进行重新排序。

10.根据权利要求9所述的网页搜索装置，其特征在于，所述计算模块，包括：

提取单元，用于提取所述第一网页的正文文本；

生成单元，用于根据所述第一网页的正文文本、标题和简介，生成所述第一网页的文档；其中，所述第一网页的文档包括标注为相关的第一网页的文档，以及标注为无关的第一网页的文档；

提取生成单元，用于提取所述第二网页的标题和简介，生成所述第二网页的文档；

计算单元，用于根据所述标注为相关的第一网页的文档与所述第二网页的文档之间的相关程度，和/或所述标注为无关的第一网页的文档与所述第二网页的文档之间的相关程度，估计所述第二网页与所述搜索意图之间的相关程度。

11.根据权利要求10所述的网页搜索装置，其特征在于，所述计算单元，具体用于：

12.根据权利要求10所述的网页搜索装置，其特征在于，所述提取单元，包括：

获取子单元，用于获取所述第一网页的html文件；

确定子单元，用于根据所述html文件中的各节点所含的连接数量，确定包含文本内容的节点；

生成子单元，用于根据包含文本内容的节点，生成所述第一网页的正文文本。

13.根据权利要求12所述的网页搜索装置，其特征在于，所述提取单元，还包括：

去除子单元，用于去除对应控制、显示样式和/或注释的节点。

14.根据权利要求12所述的网页搜索装置，其特征在于，所述确定子单元，具体用于：

15.根据权利要求9-14任一项所述的网页搜索装置，其特征在于，所述重排序模块，具体用于：

16.根据权利要求9-14任一项所述的网页搜索装置，其特征在于，所述网页搜索装置，还包括：

交互显示模块，用于生成并显示交互页面，其中，所述交互页面显示有所述匹配页面的链接，以及用于获取标注的复选框。

17.一种计算机设备，其特征在于，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如权利要求1-8中任一所述的网页搜索方法。

18.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时，实现如权利要求1-8中任一所述的网页搜索方法。