WO2015058604A1

WO2015058604A1 - 获取问答对相关联程度、优化搜索排名的装置和方法

Info

Publication number: WO2015058604A1
Application number: PCT/CN2014/086838
Authority: WO
Inventors: 孙林; 陈培军; 秦吉胜
Original assignee: 北京奇虎科技有限公司; 奇智软件（北京）有限公司
Priority date: 2013-10-21
Filing date: 2014-09-18
Publication date: 2015-04-30

Abstract

一种获取问答对的相关联程度的装置和方法，一种优化问答对的搜索排名的装置和方法，以及一种确定网络资源点的抓取频率的装置和方法，其中，获取问答对的相关联程度的方法包括如下步骤：对待分析的问答对的问题内容和答案内容进行词语提取操作，得到至少一个待分析问题词语和至少一个待分析答案词语；根据待分析问题词语和待分析答案词语，从包括多条问答知识记录的问答知识库选择至少一条问答知识记录，根据所选择的问答知识记录计算待分析的问答对的相关联程度。该获取问答对的相关联程度的装置和方法，可以从语义方面评价问答对的质量，评价效果更好，而且容易实现、通用性强。

Description

获取问答对相关联程度、优化搜索排名的装置和方法

技术领域

本发明涉及网络数据通信技术领域，具体涉及一种获取问答对的相关联程度的装置和方法，一种优化问答对的搜索排名的装置和方法，以及一种确定网络资源点的抓取频率的装置和方法。

背景技术

问答社区是一种用户产生内容的网络应用，基本形式是由用户根据自己的需求提出问题，并由其他的用户来给出回答。这种形式为用户在网络上获取信息提供了新的渠道。然而由于任何用户都可以随意地创建内容，导致了问答社区中的信息质量差异非常大，以至于问答社区中出现了大量的低质量问答对。这不但给用户查找信息带来了诸多不便，同时也降低了问答社区的质量。同时，现有技术的判断问答对质量的方法，更多地依赖于问答对的非文本特征来评价问答对质量，会影响其通用性。

另外，使用现有的搜索技术进行问答搜索时，获取的搜索结果中存在部分低质量的问答对而现有技术的对搜索结果进行排序的方法，更多地依赖于问答对所属的网站和问答对的非文本特征来对问答对进行排序，会影响搜索结果的精确性和通用性。

同时地，使用现有的搜索技术进行问答搜索时，难以判断问答社区作为网络资源点的质量而现有技术(例如，爬虫蜘蛛)的对网络资源点设置抓取频率方法，更多地依赖于问答对网站的链接的分析，这样的方法用于问答搜索，不能从语义上分析问答对也不能根据网络资源点的质量调整抓取频率(或，爬取细度、爬取频率)，会影响搜索结果的精确性和通用性。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种获取问答对的相关联程度的装置和方法，一种优化问答对的搜索排名的装置和方法，以及一种确定网络资源点的抓取频率的装置和方法。

依据本发明的一个方面，提供了一种获取问答对的相关联程度的装置，该装置包括：问答知识库，适于存储多条问答知识记录；词语提取单元，适于对待分析的问答对的问题内容和答案内容进行词语提取操作，得到至少一个待分析问题词语和至少一个待分析答案词语；相关联程度计算单元，适于根据待分析问题词语和待分析答案词语，从问答知识库选择至少一条问答知识记录，根据所选择的问答知识记录计算待分析的问答对的相关联程度。

根据本发明的另一方面，提供了一种优化问答对的搜索排名的装置，该装置包括：问答知识库，适于存储多条问答知识记录；搜索单元，适于接收使用者的搜索请求，根据使用者的搜索请求，获取与搜索请求匹配的多个待分析问答对；计算单元，适于根据问答知识库获取每个待分析问答对的相关联程度；搜索排名单元，适于根据所述待分析问答对的相关联程度优化所述待分析问答对的搜索排名。

根据本发明的又一方面，提供了一种确定网络资源点的抓取频率的装置，该装置包括：问答知识库，适于存储多条问答知识记录；资源分析单元，适于由网络资源点抓取多个待分析问答对；计算单元，适于根据问答知识库获取每个待分析问答对的相关联程度；抓取频率确定单元，根据所述待分析问答对的相关联程度确定所述网络资源点的抓取频率。

根据本发明的另一方面，提供了一种获取问答对的相关联程度的方法，该方法包括如下步骤：对待分析的问答对的问题内容和答案内容进行词语提取操作，得到至少一个待分析问题词语和至少一个待分析答案词语；根据待分析问题词语和待分析答案词语，从包括多条问答知识记录的问答知识库选择至少一条问答知识记录，根据所选择的问答知识记录计算待分析的问答对的相关联程度。

根据本发明的又一方面，提供了一种优化问答对的搜索排名的方法，该方法包括如下步骤：接收使用者的搜索请求，根据使用者的搜索请求，获取与搜索请求匹配的多个待分析问答对；根据包括多条问答知识记录的问答知识库，获取每个待分析问答对的相关联程度；根据所述待分析问答对的相关联程度优化所述待分析问答对的搜索排名。

根据本发明的再一方面，提供了一种确定网络资源点的抓取频率的方法，该方法包括如下步骤：由网络资源点抓取多个待分析问答对；根据包括多条问答知识记录的问答知识库，获取每个待分析问答对的相关联程度；根据所述待分析问答对的相关联程度确定所述网络资源点的抓取频率。

根据本发明的技术方案，从含有问答对的网页提取出多个问答对并根据提取的问答对构建包括多条问答知识记录的问答知识库，对待分析的问答对的问题内容和答案内容进行词语提取操作而得到至少一个待分析问题词语和至少一个待分析答案词语，进而根据待分析问题词语和待分析答案词语从问答知识库选择至少一条问答知识记录并根据所选择的问答知识记录计算待分析的问答对的相关联程度，可以从语义方面评价问答对的质量，解决了现有技术仅在词法层面上评价问答对的质量而导致的评价效果不佳的问题，同时，在根据使用者的搜索请求获取的与搜索请求匹配的多个待分析问答对的情况下，根据问答知识库获取每个待分析问答对的相关联程度并根据待分析问答对的相关联程度优化待分析问答对的搜索排名，可以从语义方面评价待分析问答对的质量，解决了现有技术依赖于问答对所属的网页和问答对的非文本特征来对问答对进行排序而导致的排序效果不佳的问题；进一步地，借助由网络资源点抓取多个待分析问答对，根据问答知识库获取每个待分析问答对的相关联程度并根据待分析问答对的相关联程度确定所述网络资源点的抓取频率，可以通过评价网络资源点的质量确定抓取频率，解决了现有技术不能根据网络资源点的质量调整抓取频率而导致的搜索效果不佳的问题。而且本申请的方案容易实现、通用性强。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的获取问答对的相关联程度的方法的流程图；

图2示出了构建问答知识库的详细的流程图；

图3示出了使用如图2所示的步骤而得到的问答知识库的一个解释模型示意图；

图4示出了图1中步骤S200的详细的流程图；以及

图5示出了根据本发明一个实施例的获取问答对的相关联程度的装置的框图；

图6示出了根据本发明一个实施例的优化问答对的搜索排名的方法的流程图；

图7示出了根据本发明一个实施例的优化问答对的搜索排名的装置的框图；

图8示出了根据本发明一个实施例的确定网络资源点的抓取频率的方法的流程图；

图9示出了根据本发明一个实施例的确定网络资源点的抓取频率的装置的框图；

图10示出了用于执行根据本发明的方法的应用服务器的框图；以及

图11示出了用于保持或者携带实现根据本发明的方法的程序代码的存储单元。

附图实施例

现有的获取问答对的相关联程度的方法，是使用文本特征和非文本特征来描述问答对的问题和答案。类似地，现有的获取问答对的搜索排名的方法，是使用文本特征和非文本特征来描述问答对的问题和答案从而对问答对进行排名，或根据问答对所属的网站的排名对问答对进行排名。文本特征主要包括文本视觉特征(例如标点符号密度，平均词长，文本熵等)和文本内容特征(例如文本内容词比例，疑问词密度，相关词覆盖等)，并提取中文自动差错广泛采用的特征(例如单字密度特征等)；非文本特征包含用户的权成度指标，答案问题状态，答案回答时间，用户关系交互特征等。在对问题和答案分别提取出特征后，在训练集上分别学习出一个问题质量预测模型和答案质量预测模型，并使用两个模型的输出结果来评价问答对质量。然而，使用现有的获取问答对的相关联程度的方法对于答案质量进行评价时，仅仅使用了相关词覆盖特征来描述问题和答案问的语义匹配度，这不但仅仅是停留在词法层面上的，而且没有考虑问题和答案问的语义匹配度。然而问题和答案问的语义匹配度恰恰是问答对质量的核心，比如问题为“中国的首都是哪里？”，答案1为“北京”，答案2为“中国的首都是上海”。那么问题经过分词及丢弃停用词处理后，为“中国首都哪里”，答案1分词结果为“北京”，答案2分词结果为“中国首都上海”。现有技术中，语义匹配度可以定义为：问题和答案中共同出现的词语个数除以问题和答案中所有词语的个数。则问题和答案1的语义匹配度为：0/4＝0。问题和答案2的语义匹配度为：2/4＝0.5。使用现有技术，就会认为答案2和问题较为匹配。而我们知道这显然是不当的。

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的获取问答对的相关联程度的方法的流程图。根据本发明的另一方面，提供了一种获取问答对的相关联程度的方法，该方法包括如下步骤S100和步骤S200：

S100、对待分析的问答对的问题内容和答案内容进行词语提取操作，得到至少一个待分析问题词语和至少一个待分析答案词语。

在本发明的一个实施例中，对待分析的问答对的问题内容和答案内容进行词语提取操作具体包括：对待分析的问答对的问题内容和答案内容进行分词、去除停用词、词合并(word join)，和提取实体词(例如名词、动词等)的操作。则由待分析的问答对的问题内容得到至少一个待分析问题词语，由待分析的问答对的答案内容得到至少一个待分析答案词语。

S200、根据待分析问题词语和待分析答案词语，从包括多条问答知识记录的问答知识库选择至少一条问答知识记录，根据所选择的问答知识记录计算待分析的问答对的相关联程度。

本实施例的步骤S200，可以通过利用问答知识库从语义方面对待分析问答对的问题内容和答案内容进行分析以获得待分析问答对的相关联程度，评价效果更好而且容易实现。

进一步地，所述包括多条问答知识记录的问答知识库，是通过预先从含有问答对的网页提取出多个问答对，根据提取的问答对构建而得到的。在本发明的一个实施例中，在从含有问答对的网页提取出多个问答对时，抓取与所述问答对对应的类别。则在根据提取的问答对构建问答知识库时，根据问答对和与所述问答对对应的类别构建问答知识记录。得到的问答知识库之中的每个问答知识记录对应于一个类别，分别包括一个问题词语(QW)、一个答案词语(AW)，以及所述问题词语和所述答案词语之间的语义相关度。

通过利用由网页提取的海量的、高质量的问答对构建包括多条问答知识记录的问答知识库，可以基于对海量信息的学习而获取多条问答知识记录的问题词语和答案词语之间的语义相关度；而且通过利用从网页提取得到的信息构建问答知识库，适用的范围更广，方法的通用性更强。

图2示出了构建问答知识库的详细的流程图。具体包括以下步骤S310、步骤S320和步骤S330：

S310、预先从含有问答对的网页提取出多个问答对，抓取与所述问答对对应的类别。

本实施例中，可以通过使用网络爬虫，从互联网上含有高质量问答对的网页抓取数据并提取出问答对，以保证所提取的问答对的质量；所述含有高质量问答对的网页包括cQA(Customer Quality Assurance客户品质保证)社区、各大专业论坛等，则可以使用楼层识别技术，根据楼主(即针对一个问题首个发出帖子的使用者)提问题，1楼2楼(即依序回复帖子的使用者)等回复的内容为答案的方式，来提取问答对。由于所述含有高质量问答对的网页中包括对应于每个问答对的类别信息，所以可以在抓取问答对的同时一并抓取与所述问答对对应的类别。

S320、对每个问答对，对该问答对的问题内容和答案内容进行词语提取操作，得到问题词语集合和答案词语集合；令问题词语集合中的每个问题词语与答案词语集合中的每个答案词语分别在与该问答对对应的每个类别上形成一条信息记录。

在本发明的一个实施例中，对步骤S310中提取得到的所述问答对中的每一个问答对的问题内容和答案内容进行词语提取操作，具体包括，对问答对的问题内容和答案内容进行分词、去除停用词、词合并，和提取实体词的操作。

则由每一个问答对的问题内容得到至少一个问题词语，由每一个问答对的答案内容得到至少一个答案词语，则可以得到针对该问答对的类别集合<C₁，…，C_k，…，C_p>、问题词语集合<QW₁，…，QW_i，…，QW_m>和答案词语集合<AW₁，…，AW_j，…，AW_n>。

通过令问题词语集合中的每个问题词语(QW_i)与答案词语集合中的每个答案词语(AW_j)分别在与该问答对对应的每个类别(C_k)上形成一条信息记录，例如<QW_i，AW_j，C_k>，则可以形成m*n*p条信息记录。

S330、对每一条信息记录，执行以下操作：计算该答案词语属于该类别的概率，计算在该类别上该答案词语对该问题词语的解释的专一程度，计算在该类别上该问题词语用该答案词语进行解释的强度；将上述概率、专一程度和强度相乘，所得到的乘积是该答案词语和该问题词语的语义相关度；令该问题词语、该答案词语和其语义相关度形成一条对应于该类别的问答知识记录<QW_i，AW_j，weight(QW_i，AW_j)>或<QW_i，AW_j，C_k，weight(QW_i，AW_j)>。本实施例中的步骤S330，可以是在对从网页抓取的海量的问答对进行了如步骤S320所述的词语提取操作而得到海量的信息记录之后基于所述海量的信息记录进行的，则基于海量的信息记录而获取的语义相关度更准确。

较佳地，所述计算该答案词语属于该类别的概率，具体包括：

所述计算在该类别上各个答案词语对该问题词语的解释的专一程度，具体包括：

所述计算在该类别上该问题词语用各个答案词语进行解释的强度，具体包括：

将上述概率、专一程度和强度相乘，具体包括：

weight(QWi，AWj|C＝Ck)＝P(Ck|AWj)*specific(QWi，AWj|C＝Ck)*interpret(QWi，AWj|C＝Ck)；

其中，P(C_k)表示类别C_k出现的概率；P(AW_j)表示答案为AW_j的概率；P(AW_j|C_k)表示C_k类别属于AW_j的概率；

#(QW_i，AW_j)表示问题词语为QW_i且答案词语为AW_j的次数；

#(AW_j)表示答案词语为AW_j的次数。

由步骤S310、步骤S320和步骤S330，可以得到问答知识记录而构建问答知识库。图3示出了使用如图2所示的步骤而得到的问答知识库的一个解释模型示意图。可知，对于每一问题词语QW_i，可以针对类别集合<C₁，…，C_k，…，C_p>中的每一类别，获得n条问答知识记录。当然，本领域技术人员可以了解的是，若计算得到的语义相关度为0，则可以删除相应的问答知识记录；再者，如果问答知识库中问答知识记录的数量过大而使得存储问答知识记录和计算待分析问答对的相关联程度的开销过大，可以预设一个阈值，将语义相关度小于阈值的问答知识记录删除以减小开销。

图4示出了图1中步骤S200的详细的流程图。在通过步骤S100得到至少一个待分析问题词语和至少一个待分析答案词语后，步骤S200具体包括以下步骤S210、步骤S220和步骤S230：

S210、选取其包括的问题词语与待分析问题词语匹配且包括的答案词语与待分析答案词语匹配的问答知识记录。本实施例中，问题词语与待分析问题词语匹配是指待分析问题词语与问题词语相同或待分析问题词语是问题词语的子串；答案词语与待分析答案词语匹配是指待分析答案词语与答案词语相同或待分析答案词语是答案词语的子串，本实施例通过步骤S210，使用字段匹配或字段搜索的方法，从问答知识库中选出部分与待分析的问答对相关的问答知识记录。

S220、根据所述选取的问答知识记录中对应于相同类别的问答知识记录，得到该待分析的问答对分别针对各个类别的相关联程度，具体包括：将选取的问答知识记录中对应于相同类别的问答知识记录的语义相关度加权相加，得到该待分析的问答对分别针对各个类别的相关联程度。

本实施例，将通过步骤S210选出的问答知识记录根据其所对应的类别进行分组，对应于相同类别的问答知识记录为一组；将每一组的问答知识记录的语义相关度加权(例如，权值为1或100)相加，得到该待分析的问答对针对该类别的相关联程度；由此得到至少一个(本实施例中的相关联程度的数目即待分析问答对对应的类别的数目)相关联程度。

S230、选取上述该待分析的问答对针对各个类别的相关联程度的最大值，以该最大值作为待分析的问答对的相关联程度。

图5示出了根据本发明一个实施例的获取问答对的相关联程度的装置的框图。该装置包括问答知识库100、词语提取单元200和相关联程度计算单元300。

问答知识库100，适于存储多条问答知识记录；本实施例的问答知识库100能够通过抓取网页中的海量问答对构建得到。

词语提取单元200，适于对待分析的问答对的问题内容和答案内容进行词语提取操作，得到至少一个待分析问题词语和至少一个待分析答案词语。

在本发明的一个实施例中，词语提取单元200，适于对待分析的问答对的问题内容和答案内容进行分词、去除停用词、词合并(word join)，和提取实体词(例如名词、动词等)的操作，以得到至少一个待分析问题词语和至少一个待分析答案词语。

相关联程度计算单元300，适于根据待分析问题词语和待分析答案词语，从问答知识库选择至少一条问答知识记录，根据所选择的问答知识记录计算待分析的问答对的相关联程度。

在本发明的一个实施例中，相关联程度计算单元300，适于选取其包括的问题词语与待分析问题词语匹配且包括的答案词语与待分析答案词语匹配的问答知识记录。本实施例中，问题词语与待分析问题词语匹配是指待分析问题词语与问题词语相同或待分析问题词语是问题词语的子串；答案词语与待分析答案词语匹配是指待分析答案词语与答案词语相同或待分析答案词语是答案词语的子串；根据所述选取的问答知识记录中对应于相同类别的问答知识记录，得到该待分析的问答对针对各个类别的相关联程度，更具体地，是将选取的问答知识记录中对应于相同类别的问答知识记录的语义相关度加权(例如，权值为1或100)相加而得到该待分析的问答对分别针对各个类别的相关联程度，由此得到至少一个(本实施例中的相关联程度的数目即待分析问答对对应的类别的数目)相关联程度；选取上述该待分析的问答对针对各个类别的相关联程度的最大值，以该最大值作为待分析的问答对的相关联程度。

利用问答知识库100、词语提取单元200和相关联程度计算单元300，通过利用待分析问题词语和待分析答案词语，从问答知识库选择至少一条问答知识记录，以及根据所选择的问答知识记录计算待分析的问答对的相关联程度，可以从语义方面对待分析问答对进行分析，评价效果更好而且容易实现，通过利用从网页提取得到的信息构建问答知识库，适用的范围更广，通用性更强。

在本实施例中，该装置还包括问答知识库构建单元400，问答知识库构建单元400适于预先从含有问答对的网页提取出多个问答对，根据提取的问答对构建包括多条问答知识记录的问答知识库。在图5所示的装置中，问答知识库是已有的，由于实际网络的信息量不断增加，信息内容的变化速度快，问答知识库的内容往往需要更新，通过增设问答知识库构建单元400构建(或者说更新)问答知识库，可以保证问答知识库的内容的即时性和可靠性。

较佳地，在从含有问答对的网页提取出多个问答对时，问答知识库构建单元400抓取与所述问答对对应的类别。本实施例中，可以通过使用网络爬虫，从互联网上含有高质量问答对的网页抓取数据并提取出问答对，以保证所提取的问答对的质量；所述含有高质量问答对的网页包括cQA社区、各大专业论坛等。由于所述含有高质量问答对的网页中包括对应于每个问答对的类别信息，所以问答知识库构建单元400可以在抓取问答对的同时一并抓取与所述问答对对应的类别。

在本实施例中，问答知识库构建单元400，适于对每个问答对执行以下操作：对该问答对的问题内容和答案内容进行词语提取操作，得到问题词语集合和答案词语集合，具体地，问答知识库构建单元400对提取得到的所述问答对中的每一个问答对的问题内容和答案内容进行分词、去除停用词、词合并，和提取实体词的操作而得到问题词语和答案词语；令问题词语集合中的每个问题词语与答案词语集合中的每个答案词语分别在与该问答对对应的每个类别上形成一条信息记录。问答知识库构建单元400，适于对每一条信息记录，执行以下操作：计算该答案词语属于该类别的概率，计算在该类别上该答案词语对该问题词语的解释的专一程度，计算在该类别上该问题词语用该答案词语进行解释的强度；将上述概率、专一程度和强度相乘，所得到的乘积是该答案词语和该问题词语的语义相关度；令该问题词语、该答案词语和其语义相关度形成一条对应于该类别的问答知识记录。

更具体地，问答知识库构建单元400，适于按照如下的方法计算该答案词语属于该类别的概率：

更具体地，问答知识库构建单元400，适于按照如下的方法计算在该类别上各个答案词语对该问题词语的解释的专一程度：

更具体地，问答知识库构建单元400，适于按照如下的方法计算在该类别上该问题词语用各个答案词语进行解释的强度：

更具体地，问答知识库构建单元400，适于按照如下的方法将上述概率、专一程度和强度相乘：

#(QW_i，AW_j)表示问题词语为QW_i且答案词语为AW_j的次数；

#(AW_j)表示答案词语为AW_j的次数。

以下通过一个例子说明使用本发明的实施例所能达到的效果，比如有如下问答对，类别为“医疗健康”：

通过分词技术处理，得到待分析问题词语和待分析答案词语如下：

从分词结果可以看出，问题和答案中没有相关词覆盖，因此如果使用现有技术则容易认为该问答对相关联程度低，质量不高。但是实际上使用人工判断明显可知该问答对是一个高质量的问答对。

若使用本发明的方法和装置处理上述问答对，首先，可以调取已有的问答知识库，或者通过抓取cQA社区、各大专业论坛的问答对，构建问答知识库；

第二步，对上述待分析的问答对，经过词语提取操作得到待分析问题词语集合<孩子，咳嗽，鼻涕>、待分析答案词语集合<症状，药物，治疗，抗病毒，小儿感冒颗粒，说明，剂量，止咳，中药，冲剂，抗生素，阿莫西林，阿莫西林颗粒，颗粒，口服，罗红霉素，疗效>，并且得到待分析的问答对的类别为“医疗健康”；

第三步，根据各个待分析问题词语以及该类别，从问答知识库中选择得到问题词语与待分析问题词语匹配的若干问答知识记录，从而得到如下答案词语及语义相关度(为了方便阅读，下表中的语义相关度的数值是进行了适当的归一化处理后的数值)：

第四步，根据待分析答案词语集合中的待分析答案词语，在第三步所选择得到的问答知识记录的基础上筛选出其包括的答案词语与待分析答案词语匹配的问答知识记录，进而得到所筛选出的问答知识记录的语义相关度。经分析可知，本例中与问答知识记录中的答案词语匹配的待分析答案词语包括：<口服，咳喘，小儿感冒颗粒，检查，止咳，治疗，流感症状，感冒颗粒>。

再计算上述待分析的问答对的相关联程度可以得出，该待分析的问答对的相关联程度达到了0.9(在相关联程度取值范围为0～1的条件下)。

图6示出了根据本发明一个实施例的优化问答对的搜索排名的方法的流程图。该方法包括如下步骤S610、步骤S620和步骤S630：

S610、接收使用者的搜索请求，根据使用者的搜索请求，获取与搜索请求匹配的多个待分析问答对。

在本发明的一个实施例中，可以是使用网络搜索技术，例如使用问答对搜索引擎，根据使用者的搜索请求获取待分析问答对。

S620、根据包括多条问答知识记录的问答知识库，获取每个待分析问答对的相关联程度。

本实施例的步骤S620，可以通过利用问答知识库从语义方面对待分析问答对的问题内容和答案内容进行分析以获得待分析问答对的相关联程度，评价效果更好而且容易实现。

更具体地，本实施例的步骤S620的获得待分析问答对的相关联程度的具体实施方式，与如图1、4所示的获取问答对的相关联程度的方法大致相同，此处不再重复。

进一步地，所述包括多条问答知识记录的问答知识库，是通过预先从含有问答对的网页提取出多个问答对，根据提取的问答对构建而得到的。在本发明的一个实施例中，在从含有问答对的网页提取出多个问答对时，抓取与所述问答对对应的类别。则在根据提取的问答对构建问答知识库时，根据问答对和与所述问答对对应的类别构建问答知识记录。得到的问答知识库之中的每个问答知识记录对应于一个类别，分别包括一个问题词语(QW)、一个答案词语(AW)，以及所述问题词语和所述答案词语之间的语义相关度。通过利用由网页提取的海量的、高质量的问答对构建包括多条问答知识记录的问答知识库，可以基于对海量信息的学习而获取多条问答知识记录的问题词语和答案词语之间的语义相关度；通过利用从网页提取得到的信息构建问答知识库，适用的范围更广，方法的通用性更强。

更具体地，本实施例的方法还包括构建问答知识库的步骤，构建问答知识库的流程与图2所示的流程大致相同；本实施例的问答知识库的解释模型与如图3所示的解释模型大致相同。此处不再重复。

S630、根据所述待分析问答对的相关联程度优化所述待分析问答对的搜索排名。

由于待分析问答对的相关联程度反映了质量，所以可以利用相关联程度优化所述待分析问答对的搜索排名，排名效果更好。

具体的方法，可以是以所述待分析问答对的相关联程度的次序作为所述待分析问答对的搜索排名，即相关联程度高的问答对的搜索排名靠前；也可以是先根据搜索排列技术初步排列所述待分析问答对所属的网站，根据该初步排列的次序号与所述待分析问答对的相关联程度计算所述待分析问答对的搜索排名，例如，可以将所述待分析问答对所属的网站的初步排列的次序号与所述待分析问答对的相关联程度相乘，以相乘运算的结果的次序作为所述待分析问答对的搜索排名；通过将待分析问答对的质量和其所属网站的排名结合，以对待分析问答对进行排序，使用者使用问答对搜索时，能够获得更好的结果排序的质量。

图7示出了根据本发明一个实施例的优化问答对的搜索排名的装置的框图。该装置包括问答知识库710、搜索单元720、计算单元730和搜索排名单元740。

问答知识库710，适于存储多条问答知识记录。本实施例的问答知识库710能够通过抓取网页中的海量问答对构建得到。

搜索单元720，适于接收使用者的搜索请求，根据使用者的搜索请求，获取与搜索请求匹配的多个待分析问答对。

在本发明的一个实施例中，搜索单元720可以是问答对搜索引擎，根据使用者的搜索请求获取待分析问答对；例如搜索单元720是用于问答对搜索的网络搜索引擎，接收使用者通过浏览器输入的搜索请求并获取待分析问答对。

计算单元730，适于根据问答知识库710获取每个待分析问答对的相关联程度。

本发明的计算单元730可以通过利用问答知识库从语义方面对待分析问答对的问题内容和答案内容进行分析以获得待分析问答对的相关联程度，评价效果更好而且容易实现。问答知识库710利用由网页提取的海量的、高质量的问答对构建并且包括多条问答知识记录，可以基于对海量信息的学习而获取多条问答知识记录的问题词语和答案词语之间的语义相关度。

搜索排名单元740，适于根据所述待分析问答对的相关联程度优化所述待分析问答对的搜索排名。

由于待分析问答对的相关联程度反映了质量，所以可以利用相关联程度优化所述待分析问答对的搜索排名，排名效果更好。具体的方法，可以是以所述待分析问答对的相关联程度的次序作为所述待分析问答对的搜索排名，即相关联程度高的问答对的搜索排名靠前；也可以是先根据搜索排列技术初步排列所述待分析问答对所属的网站，根据该初步排列的次序号与所述待分析问答对的相关联程度计算所述待分析问答对的搜索排名，例如，可以将所述待分析问答对所属的网站的初步排列的次序号与所述待分析问答对的相关联程度相乘，以相乘运算的结果的次序作为所述待分析问答对的搜索排名。

在本实施例中，该装置还包括问答知识库构建单元750，问答知识库构建单元750适于预先从含有问答对的网页提取出多个问答对，根据提取的问答对构建包括多条问答知识记录的问答知识库。在图7所示的装置中，问答知识库710是已有的，由于实际网络的信息量不断增加，信息内容的变化速度快，问答知识库710的内容往往需要更新，本实施例通过增设问答知识库构建单元750构建(或者说更新)问答知识库710，可以保证问答知识库710的内容的即时性和可靠性。本实施例的问答知识库构建单元750与如图5所示的问答知识库构建单元400相同，此处不再重复说明。

图7中的计算单元630具体包括词语提取子单元和相关联程度计算子单元(图未示)。

词语提取子单元，适于对待分析的问答对的问题内容和答案内容进行词语提取操作，得到至少一个待分析问题词语和至少一个待分析答案词语。

在本发明的一个实施例中，词语提取子单元，适于对待分析的问答对的问题内容和答案内容进行分词、去除停用词、词合并(word join)，和提取实体词(例如名词、动词等)的操作，以得到至少一个待分析问题词语和至少一个待分析答案词语。

相关联程度计算子单元，适于根据待分析问题词语和待分析答案词语，从问答知识库选择至少一条问答知识记录，根据所选择的问答知识记录计算待分析的问答对的相关联程度。

在本发明的一个实施例中，相关联程度计算子单元，适于选取其包括的问题词语与待分析问题词语匹配且包括的答案词语与待分析答案词语匹配的问答知识记录。本实施例中，问题词语与待分析问题词语匹配是指待分析问题词语与问题词语相同或待分析问题词语是问题词语的子串；答案词语与待分析答案词语匹配是指待分析答案词语与答案词语相同或待分析答案词语是答案词语的子串；根据所述选取的问答知识记录中对应于相同类别的问答知识记录，得到该待分析的问答对针对各个类别的相关联程度，更具体地，是将选取的问答知识记录中对应于相同类别的问答知识记录的语义相关度加权(例如，权值为1或100)相加而得到该待分析的问答对分别针对各个类别的相关联程度，由此得到至少一个(本实施例中的相关联程度的数目即待分析问答对对应的类别的数目)相关联程度；选取上述该待分析的问答对针对各个类别的相关联程度的最大值，以该最大值作为待分析的问答对的相关联程度。

图8示出了根据本发明一个实施例的确定网络资源点的抓取频率的方法的流程图。该方法包括如下步骤S810、步骤S820和步骤S830：

S810、由网络资源点抓取多个待分析问答对。

在本发明的一个实施例中，可以是对于特定的需要确定抓取频率的网络资源点，例如需要确定抓取频率的问答社区，使用楼层识别技术，根据楼主(即针对一个问题首个发出帖子的使用者)提问题，1楼2楼(即依序回复帖子的使用者)等回复的内容为答案的方式，来提取待分析问答对。

S820、根据包括多条问答知识记录的问答知识库，获取每个待分析问答对的相关联程度。

本实施例的步骤S820，可以通过利用问答知识库从语义方面对待分析问答对的问题内容和答案内容进行分析以获得待分析问答对的相关联程度，评价效果更好而且容易实现。

更具体地，本实施例的步骤S820的获得待分析问答对的相关联程度的具体实施方式，与如图1、4所示的获取问答对的相关联程度的方法大致相同，此处不再重复。

更具体地，本实施例的方法还包括构建问答知识库的步骤，其中构建问答知识库的流程与图2所示的流程大致相同；本实施例的问答知识库的解释模型与如图3所示的解释模型大致相同。此处不再重复。

S830、根据所述待分析问答对的相关联程度确定所述网络资源点的抓取频率。

由于待分析问答对的相关联程度反映了质量，所以可以利用多个待分析问答对的相关联程度确定网络资源点的质量，进而确定网络资源点的抓取频率。

具体的方法，可以是以所述待分析问答对的相关联程度的平均值作为所述网络资源点的抓取频率，即相关联程度的平均值大(即质量好)的网络资源点的抓取频率越高(例如，蜘蛛爬虫爬取该网络资源点的频率高)；也可以是使用蜘蛛爬虫获取所述网络资源点的初始抓取频率，计算所述待分析问答对的相关联程度的平均值，使用该平均值调整所述初始抓取频率而确定所述网络资源点的抓取频率，例如，可以使用蜘蛛爬虫获取所述网络资源点的初始抓取频率，使用所述相关联程度的平均值对上述初始抓取频率进行加权(包括相乘、归一化等)而确定所述网络资源点的抓取频率，使得质量高的网络资源点的抓取频率得到提高，从而可以优化搜索质量。

本实施例通过分析由网络资源点抓取待分析问答对的相关联程度，并根据相关联程度确定网络资源点的抓取频率，可以提高抓取结果的准确性。

图9示出了根据本发明一个实施例的确定网络资源点的抓取频率的装置的框图。该装置包括问答知识库91、资源分析单元920、计算单元930和抓取频率获取单元940。

问答知识库910，适于存储多条问答知识记录。本实施例的问答知识库910能够通过抓取网页中的海量问答对构建得到。

资源分析单元920，适于由网络资源点抓取多个待分析问答对。

在本发明的一个实施例中，资源分析单元920可以对于特定的需要确定抓取频率的网络资源点，例如需要确定抓取频率的问答社区，使用楼层识别技术，根据楼主(即针对一个问题首个发出帖子的使用者)提问题，1楼2楼(即依序回复帖子的使用者)等回复的内容为答案的方式，来提取待分析问答对。

计算单元930，适于根据问答知识库获取每个待分析问答对的相关联程度。

本发明的计算单元930可以通过利用问答知识库从语义方面对待分析问答对的问题内容和答案内容进行分析以获得待分析问答对的相关联程度，评价效果更好而且容易实现。问答知识库910利用由网页提取的海量的、高质量的问答对构建并且包括多条问答知识记录，可以基于对海量信息的学习而获取多条问答知识记录的问题词语和答案词语之间的语义相关度。

抓取频率确定单元940，适于根据所述待分析问答对的相关联程度确定所述网络资源点的抓取频率。

由于待分析问答对的相关联程度反映了质量，所以可以利用多个待分析问答对的相关联程度确定网络资源点的质量，进而确定网络资源点的抓取频率。具体的方法，可以是以所述待分析问答对的相关联程度的平均值作为所述网络资源点的抓取频率，即相关联程度的平均值大(即质量好)的网络资源点的抓取频率越高(例如，蜘蛛爬虫爬取该网络资源点的频率高)；也可以是使用蜘蛛爬虫获取所述网络资源点的初始抓取频率，计算所述待分析问答对的相关联程度的平均值，使用该平均值调整所述初始抓取频率而确定所述网络资源点的抓取频率，例如，可以使用蜘蛛爬虫获取所述网络资源点的初始抓取频率，使用所述相关联程度的平均值对上述初始抓取频率进行加权(包括相乘、归一化等)而确定所述网络资源点的抓取频率，使得质量高的网络资源点的抓取频率得到提高，从而可以优化搜索质量。

在本实施例中，该装置还包括问答知识库构建单元950，问答知识库构建单元950适于预先从含有问答对的网页提取出多个问答对，根据提取的问答对构建包括多条问答知识记录的问答知识库。在图9所示的装置中，问答知识库910是已有的，由于实际网络的信息量不断增加，信息内容的变化速度快，问答知识库910的内容往往需要更新，本实施例通过增设问答知识库构建单元950构建(或者说更新)问答知识库，可以保证问答知识库的内容的即时性和可靠性。本实施例的问答知识库构建单元950与如图5所示的问答知识库构建单元400相同，此处不再重复说明。

图9中计算单元930具体包括词语提取子单元和相关联程度计算子单元(图未示)。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的获取问答对的相关联程度的装置，优化问答对的搜索排名的装置，以及确定网络资源点的抓取频率的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图10示出了用于执行根据本发明的获取问答对的相关联程度的方法，优化问答对的搜索排名的方法，以及确定网络资源点的抓取频率的方法的服务器，例如应用服务器的框图。该应用服务器传统上包括处理器1010和以存储器1020形式的计算机程序产品或者计算机可读介质。存储器1020可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器1020具有用于执行上述方法中的任何方法步骤的程序代码1031的存储空间1030。例如，用于程序代码的存储空间1030可以包括分别用于实现上面的方法中的各种步骤的各个程序代码1031。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为如参考图11所述的便携式或者固定存储单元。该存储单元可以具有与图10的应用服务器中的存储器1020类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常，存储单元包括计算机可读代码1131’，即可以由例如诸如处理器1010之类的处理器读取的代码，这些代码当由服务器运行时，导致该服务器执行上面所描述的方法中的各个步骤。

本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着，结合实施例描述的特定特征、结构或者特性包括在本发明的至少一个实施例中。此外，请注意，这里“在一个实施例中”的词语例子不一定全指同一个实施例。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

此外，还应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

一种获取问答对的相关联程度的装置，该装置包括：

问答知识库，适于存储多条问答知识记录；

词语提取单元，适于对待分析的问答对的问题内容和答案内容进行词语提取操作，得到至少一个待分析问题词语和至少一个待分析答案词语；

相关联程度计算单元，适于根据待分析问题词语和待分析答案词语，从问答知识库选择至少一条问答知识记录，根据所选择的问答知识记录计算待分析的问答对的相关联程度。
根据权利要求1所述的装置，其中，该装置进一步包括问答知识库构建单元，

所述问答知识库构建单元，适于预先从含有问答对的网页提取出多个问答对，根据提取的问答对构建包括多条问答知识记录的问答知识库；

所述问答知识库构建单元，进一步适于在从含有问答对的网页提取出多个问答对时，抓取与所述问答对对应的类别；

所述问答知识库构建单元，进一步适于在根据提取的问答对构建问答知识库时，根据问答对和与所述问答对对应的类别构建问答知识记录；每个问答知识记录对应于一个类别，分别包括一个问题词语、一个答案词语，以及所述问题词语和所述答案词语之间的语义相关度。
根据权利要求1或2所述的装置，其中，

所述相关联程度计算单元，适于选取其包括的问题词语与待分析问题词语匹配且包括的答案词语与待分析答案词语匹配的问答知识记录；根据所述选取的问答知识记录中对应于相同类别的问答知识记录，得到该待分析的问答对针对各个类别的相关联程度；选取上述该待分析的问答对针对各个类别的相关联程度的最大值，以该最大值作为待分析的问答对的相关联程度。
根据权利要求2所述的装置，其中，

所述问答知识库构建单元，适于对每个问答对执行以下操作：

对该问答对的问题内容和答案内容进行词语提取操作，得到问题词语集合和答案词语集合；令问题词语集合中的每个问题词语与答案词语集合中的每个答案词语分别在与该问答对对应的每个类别上形成一条信息记录；

所述问答知识库构建单元，适于对每一条信息记录，执行以下操作：

计算该答案词语属于该类别的概率，计算在该类别上该答案词语对该问题词语的解释的专一程度，计算在该类别上该问题词语用该答案词语进行解释的强度；将上述概率、专一程度和强度相乘，所得到的乘积是该答案词语和该问题词语的语义相关度；令该问题词语、该答案词语和其语义相关度形成一条对应于该类别的问答知识记录。
根据权利要求1至4任一权利要求所述的装置，其中，

所述相关联程度计算单元，适于将选取的问答知识记录中对应于相同类别的问答知识记录的语义相关度加权相加，得到该待分析的问答对分别针对各个类别的相关联程度。
根据权利要求1至5任一权利要求所述的装置，其中，

可选地，所述词语提取单元，适于对待分析的问答对的问题内容和答案内容进行分词、去除停用词、词合并，和提取实体词的操作。
根据权利要求1至6任一权利要求所述的装置，其中，

所述问答知识库构建单元，适于按照如下的方法计算该答案词语属于该类别的概率：

所述问答知识库构建单元，适于按照如下的方法计算在该类别上各个答案词语对该问题词语的解释的专一程度：

所述问答知识库构建单元，适于按照如下的方法计算在该类别上该问题词语用各个答案词语进行解释的强度：

所述问答知识库构建单元，适于按照如下的方法将上述概率、专一程度和强度相乘：

weight(QWi，AWj|C＝Ck)＝P(Ck|AWj)*specific(QWi，AWj|C＝Ck)*interpret(QWi，AWj|C＝Ck)；

其中，P(C_k)表示类别C_k出现的概率；P(AW_j)表示答案为AW_j的概率；P(AW_j|C_k)表示C_k类别属于AW_j的概率；

#(QW_i，AW_j)表示问题词语为QW_i且答案词语为AW_j的次数；

#(AW_j)表示答案词语为AW_j的次数。
一种优化问答对的搜索排名的装置，该装置包括：

问答知识库，适于存储多条问答知识记录；

搜索单元，适于接收使用者的搜索请求，根据使用者的搜索请求，获取与搜索请求匹配的多个待分析问答对；

计算单元，适于根据问答知识库获取每个待分析问答对的相关联程度；

搜索排名单元，适于根据所述待分析问答对的相关联程度优化所述待分析问答对的搜索排名。
根据权利要求8所述的装置，其中，所述计算单元包括：

词语提取子单元，适于对待分析的问答对的问题内容和答案内容进行词语提取操作，得到至少一个待分析问题词语和至少一个待分析答案词语；

相关联程度计算子单元，适于根据待分析问题词语和待分析答案词语，从问答知识库选择至少一条问答知识记录，根据所选择的问答知识记录计算待分析的问答对的相关联程度。
根据权利要求8或9所述的装置，其中，

所述搜索排名单元，适于以所述待分析问答对的相关联程度的次序作为所述待分析问答对的搜索排名。
根据权利要求8至10任一项所述的装置，其中，该装置还包括问答知识库构建单元，

所述问答知识库构建单元，适于预先从含有问答对的网页提取出多个问答对，根据提取的问答对构建包括多条问答知识记录的问答知识库；

所述问答知识库构建单元，进一步适于在从含有问答对的网页提取出多个问答对时，抓取与所述问答对对应的类别；

所述问答知识库构建单元，进一步适于在根据提取的问答对构建问答知识库时，根据问答对和与所述问答对对应的类别构建问答知识记录；每个问答知识记录对应于一个类别，分别包括一个问题词语、一个答案词语，以及所述问题词语和所述答案词语之间的语义相关度。
根据权利要求8至11任一项所述的装置，其中，

所述相关联程度计算子单元，适于选取其包括的问题词语与待分析问题词语匹配且包括的答案词语与待分析答案词语匹配的问答知识记录；根据所述选取的问答知识记录中对应于相同类别的问答知识记录，得到该待分析的问答对针对各个类别的相关联程度；选取上述该待分析的问答对针对各个类别的相关联程度的最大值，以该最大值作为待分析的问答对的相关联程度。
根据权利要求8至12任一项所述的装置，其中，

所述相关联程度计算子单元，适于将选取的问答知识记录中对应于相同类别的问答知识记录的语义相关度加权相加，得到该待分析的问答对分别针对各个类别的相关联程度。
根据权利要求8至13任一项所述的装置，其中，

所述词语提取子单元，适于对待分析的问答对的问题内容和答案内容进行分词、去除停用词、词合并，和提取实体词的操作。
根据权利要求8至14任一项所述的装置，其中，

所述问答知识库构建单元，适于对每个问答对执行以下操作：对该问答对的问题内容和答案内容进行词语提取操作，得到问题词语集合和答案词语集合；令问题词语集合中的每个问题词语与答案词语集合中的每个答案词语分别在与该问答对对应的每个类别上形成一条信息记录；

所述问答知识库构建单元，适于对每一条信息记录，执行以下操作：计算该答案词语属于该类别的概率，计算在该类别上该答案词语对该问题词语的解释的专一程度，计算在该类别上该问题词语用该答案词语进行解释的强度；将上述概率、专一程度和强度相乘，所得到的乘积是该答案词语和该问题词语的语义相关度；令该问题词语、该答案词语和其语义相关度形成一条对应于该类别的问答知识记录。
根据权利要求8至15任一项所述的装置，其中，

所述问答知识库构建单元，适于按照如下的方法计算该答案词语属于该类别的概率：

所述问答知识库构建单元，适于按照如下的方法计算在该类别上各个答案词语对该问题词语的解释的专一程度：

所述问答知识库构建单元，适于按照如下的方法计算在该类别上该问题词语用各个答案词语进行解释的强度：

所述问答知识库构建单元，适于按照如下的方法将上述概率、专一程度和强度相乘：

weight(QWi，AWj|C＝Ck)＝P(Ck|AWj)*specific(QWi，AWj|C＝Ck)*interpret(QWi，AWj|C＝Ck)；

其中，P(C_k)表示类别C_k出现的概率；P(AW_j)表示答案为AW_j的概率；P(AW_j|C_k)表示C_k类别属于AW_j的概率；

#(QW_i，AW_j)表示问题词语为QW_i且答案词语为AW_j的次数；

#(AW_j)表示答案词语为AW_j的次数。
一种确定网络资源点的抓取频率的装置，该装置包括：

问答知识库，适于存储多条问答知识记录；

资源分析单元，适于由网络资源点抓取多个待分析问答对；

计算单元，适于根据问答知识库获取每个待分析问答对的相关联程度；

抓取频率确定单元，根据所述待分析问答对的相关联程度确定所述网络资源点的抓取频率。
根据权利要求17所述的装置，其中，所述计算单元包括：

词语提取子单元，适于对待分析的问答对的问题内容和答案内容进行词语提取操作，得到至少一个待分析问题词语和至少一个待分析答案词语；

相关联程度计算子单元，适于根据待分析问题词语和待分析答案词语，从问答知识库选择至少一条问答知识记录，根据所选择的问答知识记录计算待分析的问答对的相关联程度。
根据权利要求17或18所述的装置，其中，

所述抓取频率确定单元，适于以所述待分析问答对的相关联程度的平均值作为所述网络资源点的抓取频率；或，使用蜘蛛爬虫获取所述网络资源点的初始抓取频率，计算所述待分析问答对的相关联程度的平均值，使用该平均值调整所述初始抓取频率而确定所述网络资源点的抓取频率。
根据权利要求17至19任一项所述的装置，其中，该装置还包括问答知识库构建单元，

所述问答知识库构建单元，适于预先从含有问答对的网页提取出多个问答对，根据提取的问答对构建包括多条问答知识记录的问答知识库；

所述问答知识库构建单元，进一步适于在从含有问答对的网页提取出多个问答对时，抓取与所述问答对对应的类别；

所述问答知识库构建单元，进一步适于在根据提取的问答对构建问答知识库时，根据问答对和与所述问答对对应的类别构建问答知识记录；每个问答知识记录对应于一个类别，分别包括一个问题词语、一个答案词语，以及所述问题词语和所述答案词语之间的语义相关度。
根据权利要求17至20任一项所述的装置，其中，

所述相关联程度计算子单元，适于选取其包括的问题词语与待分析问题词语匹配且包括的答案词语与待分析答案词语匹配的问答知识记录；根据所述选取的问答知识记录中对应于相同类别的问答知识记录，得到该待分析的问答对针对各个类别的相关联程度；选取上述该待分析的问答对针对各个类别的相关联程度的最大值，以该最大值作为待分析的问答对的相关联程度。
根据权利要求17至21任一项所述的装置，其中，

所述相关联程度计算子单元，适于将选取的问答知识记录中对应于相同类别的问答知识记录的语义相关度加权相加，得到该待分析的问答对分别针对各个类别的相关联程度。
根据权利要求17至22任一项所述的装置，其中，

所述词语提取子单元，适于对待分析的问答对的问题内容和答案内容进行分词、去除停用词、词合并，和提取实体词的操作。
根据权利要求17至23任一项所述的装置，其中，

所述问答知识库构建单元，适于对每个问答对执行以下操作：对该问答对的问题内容和答案内容进行词语提取操作，得到问题词语集合和答案词语集合；令问题词语集合中的每个问题词语与答案词语集合中的每个答案词语分别在与该问答对对应的每个类别上形成一条信息记录；

所述问答知识库构建单元，适于对每一条信息记录，执行以下操作：计算该答案词语属于该类别的概率，计算在该类别上该答案词语对该问题词语的解释的专一程度，计算在该类别上该问题词语用该答案词语进行解释的强度；将上述概率、专一程度和强度相乘，所得到的乘积是该答案词语和该问题词语的语义相关度；令该问题词语、该答案词语和其语义相关度形成一条对应于该类别的问答知识记录。
根据权利要求17至24任一项所述的装置，其中，

所述问答知识库构建单元，适于按照如下的方法计算该答案词语属于该类别的概率：

所述问答知识库构建单元，适于按照如下的方法计算在该类别上各个答案词语对该问题词语的解释的专一程度：

所述问答知识库构建单元，适于按照如下的方法计算在该类别上该问题词语用各个答案词语进行解释的强度：

所述问答知识库构建单元，适于按照如下的方法将上述概率、专一程度和强度相乘：

weight(QWi，AWj|C＝Ck)＝P(Ck|AWj)*soecific(QWi，AWj|C＝Ck)*interpret(QWi，AWj|C＝Ck)；

其中，P(C_k)表示类别C_k出现的概率；P(AW_j)表示答案为AW_j的概率；P(AW_j|C_k)表示C_k类别属于AW_j的概率；

#(QW_i，AW_j)表示问题词语为QW_i且答案词语为AW_j的次数；

#(AW_j)表示答案词语为AW_j的次数。
一种获取问答对的相关联程度的方法，该方法包括如下步骤：

对待分析的问答对的问题内容和答案内容进行词语提取操作，得到至少一个待分析问题词语和至少一个待分析答案词语；

根据待分析问题词语和待分析答案词语，从包括多条问答知识记录的问答知识库选择至少一条问答知识记录，根据所选择的问答知识记录计算待分析的问答对的相关联程度。
根据权利要求26所述的方法，其中，该方法进一步包括：

预先从含有问答对的网页提取出多个问答对，根据提取的问答对构建包括多条问答知识记录的问答知识库；

在从含有问答对的网页提取出多个问答对时，抓取与所述问答对对应的类别；

在根据提取的问答对构建问答知识库时，根据问答对和与所述问答对对应的类别构建问答知识记录；

每个问答知识记录对应于一个类别，分别包括一个问题词语、一个答案词语，以及所述问题词语和所述答案词语之间的语义相关度。
根据权利要求26或27所述的方法，其中，

所述根据待分析问题词语和待分析答案词语，从问答知识库选择至少一条问答知识记录，根据所选择的问答知识记录计算待分析的问答对的相关联程度，具体包括：

选取其包括的问题词语与待分析问题词语匹配且包括的答案词语与待分析答案词语匹配的问答知识记录；

根据所述选取的问答知识记录中对应于相同类别的问答知识记录，得到该待分析的问答对针对各个类别的相关联程度；

选取上述该待分析的问答对针对各个类别的相关联程度的最大值，以该最大值作为待分析的问答对的相关联程度。
根据权利要求26至28任一权利要求所述的方法所述的方法，其中，

根据所述选取的问答知识记录中对应于相同类别的问答知识记录，得到该待分析的问答对分别针对各个类别的相关联程度，具体包括：

将选取的问答知识记录中对应于相同类别的问答知识记录的语义相关度加权相加，得到该待分析的问答对分别针对各个类别的相关联程度。
根据权利要求26至29任一权利要求所述的方法所述的方法，其中，所述根据问答对和与所述问答对对应的类别构建问答知识库，具体包括：

对每个问答对，对该问答对的问题内容和答案内容进行词语提取操作，得到问题词语集合和答案词语集合；

令问题词语集合中的每个问题词语与答案词语集合中的每个答案词语分别在与该问答对对应的每个类别上形成一条信息记录；

对每一条信息记录，执行以下操作：

计算该答案词语属于该类别的概率，计算在该类别上该答案词语对该问题词语的解释的专一程度，计算在该类别上该问题词语用该答案词语进行解释的强度；

将上述概率、专一程度和强度相乘，所得到的乘积是该答案词语和该问题词语的语义相关度；

令该问题词语、该答案词语和其语义相关度形成一条对应于该类别的问答知识记录。
根据权利要求26至30任一权利要求所述的方法所述的方法，其中，

所述计算该答案词语属于该类别的概率，具体包括：

所述计算在该类别上各个答案词语对该问题词语的解释的专一程度，具体包括：

所述计算在该类别上该问题词语用各个答案词语进行解释的强度，具体包括：

将上述概率、专一程度和强度相乘，具体包括：

weight(QWi，AWj|C＝Ck)＝P(Ck|AWj)*specific(QWi，AWj|C＝Ck)*interpret(QWi，AWj|C＝Ck)；

其中，P(C_k)表示类别C_k出现的概率；P(AW_j)表示答案为AW_j的概率；P(AW_j|C_k)表示C_k类别属于AW_j的概率；

#(QW_i，AW_j)表示问题词语为QW_i且答案词语为AW_j的次数；

#(AW_j)表示答案词语为AW_j的次数。
根据权利要求26至31任一权利要求所述的方法，其中，

所述对所述待分析的问答对的问题内容和答案内容进行词语提取操作，具体包括：对待分析的问答对的问题内容和答案内容进行分词、去除停用词、词合并，和提取实体词的操作。
一种优化问答对的搜索排名的方法，该方法包括如下步骤：

接收使用者的搜索请求，根据使用者的搜索请求，获取与搜索请求匹配的多个待分析问答对；

根据包括多条问答知识记录的问答知识库，获取每个待分析问答对的相关联程度；

根据所述待分析问答对的相关联程度优化所述待分析问答对的搜索排名。
根据权利要求33所述的方法，其中，所述根据包括多条问答知识记录的问答知识库获取每个待分析问答对的相关联程度，包括对每个待分析问答对执行以下操作：

对该待分析的问答对的问题内容和答案内容进行词语提取操作，得到至少一个待分析问题词语和至少一个待分析答案词语；

根据待分析问题词语和待分析答案词语，从问答知识库选择至少一条问答知识记录，根据所选择的问答知识记录计算该待分析的问答对的相关联程度。
根据权利要求33或34所述的方法，其中，所述根据所述待分析问答对的相关联程度调整所述待分析问答对的搜索排名，具体包括：

以所述待分析问答对的相关联程度的次序作为所述待分析问答对的搜索排名。
根据权利要求33至35任一项所述的方法，其中，该方法进一步包括：

预先从含有问答对的网页提取出多个问答对，根据提取的问答对构建包括多条问答知识记录的问答知识库；

在从含有问答对的网页提取出多个问答对时，抓取与所述问答对对应的类别；

在根据提取的问答对构建问答知识库时，根据问答对和与所述问答对对应的类别构建问答知识记录；

每个问答知识记录对应于一个类别，分别包括一个问题词语、一个答案词语，以及所述问题词语和所述答案词语之间的语义相关度。
根据权利要求33至36任一项所述的方法，其中，

所述根据待分析问题词语和待分析答案词语，从问答知识库选择至少一条问答知识记录，根据所选择的问答知识记录计算待分析的问答对的相关联程度，具体包括：

选取其包括的问题词语与待分析问题词语匹配且包括的答案词语与待分析答案词语匹配的问答知识记录；

根据所述选取的问答知识记录中对应于相同类别的问答知识记录，得到该待分析的问答对针对各个类别的相关联程度；

选取上述该待分析的问答对针对各个类别的相关联程度的最大值，以该最大值作为待分析的问答对的相关联程度。
根据权利要求33至37任一项所述的方法，其中，

根据所述选取的问答知识记录中对应于相同类别的问答知识记录，得到该待分析的问答对分别针对各个类别的相关联程度，具体包括：

将选取的问答知识记录中对应于相同类别的问答知识记录的语义相关度加权相加，得到该待分析的问答对分别针对各个类别的相关联程度。
根据权利要求33至38任一项所述的方法，其中，

所述对所述待分析的问答对的问题内容和答案内容进行词语提取操作，具体包括：

对待分析的问答对的问题内容和答案内容进行分词、去除停用词、词合并，和提取实体词的操作。
根据权利要求33至39任一项所述的方法，其中，

所述根据问答对和与所述问答对对应的类别构建问答知识库，具体包括：

对每个问答对，对该问答对的问题内容和答案内容进行词语提取操作，得到问题词语集合和答案词语集合；

令问题词语集合中的每个问题词语与答案词语集合中的每个答案词语分别在与该问答对对应的每个类别上形成一条信息记录；

对每一条信息记录，执行以下操作：

计算该答案词语属于该类别的概率，计算在该类别上该答案词语对该问题词语的解释的专一程度，计算在该类别上该问题词语用该答案词语进行解释的强度；

将上述概率、专一程度和强度相乘，所得到的乘积是该答案词语和该问题词语的语义相关度；

令该问题词语、该答案词语和其语义相关度形成一条对应于该类别的问答知识记录。
根据权利要求33至40任一项所述的方法，其中，

所述计算该答案词语属于该类别的概率，具体包括：

所述计算在该类别上各个答案词语对该问题词语的解释的专一程度，具体包括：

所述计算在该类别上该问题词语用各个答案词语进行解释的强度，具体包括：

将上述概率、专一程度和强度相乘，具体包括：

weight(QWi，AWj|C＝Ck)＝P(Ck|AWj)*specfic(QWi，AWj|C＝Ck)*interpret(QWi，AWj|C＝Ck)；

其中，P(C_k)表示类别C_k出现的概率；P(AW_j)表示答案为AW_j的概率；P(AW_j|C_k)表示C_k类别属于AW_j的概率；

#(QW_i，AW_j)表示问题词语为QW_i且答案词语为AW_j的次数；

#(AW_j)表示答案词语为AW_j的次数。
一种确定网络资源点的抓取频率的方法，该方法包括如下步骤：

由网络资源点抓取多个待分析问答对；

根据包括多条问答知识记录的问答知识库，获取每个待分析问答对的相关联程度；

根据所述待分析问答对的相关联程度确定所述网络资源点的抓取频率。
根据权利要求42所述的方法，其中，所述根据包括多条问答知识记录的问答知识库获取每个待分析问答对的相关联程度，包括对每个待分析问答对执行以下操作：

对该待分析的问答对的问题内容和答案内容进行词语提取操作，得到至少一个待分析问题词语和至少一个待分析答案词语；

根据待分析问题词语和待分析答案词语，从问答知识库选择至少一条问答知识记录，根据所选择的问答知识记录计算该待分析的问答对的相关联程度。
根据权利要求42或43所述的方法，其中，所述根据所述待分析问答对的相关联程度确定所述网络资源点的抓取频率，具体包括：

以所述待分析问答对的相关联程度的平均值作为所述网络资源点的抓取频率；

或，

使用蜘蛛爬虫获取所述网络资源点的初始抓取频率，计算所述待分析问答对的相关联程度的平均值，使用该平均值调整所述初始抓取频率而确定所述网络资源点的抓取频率。
根据权利要求42至44任一项所述的方法，其中，该方法进一步包括：

预先从含有问答对的网页提取出多个问答对，根据提取的问答对构建包括多条问答知识记录的问答知识库；

在从含有问答对的网页提取出多个问答对时，抓取与所述问答对对应的类别；

在根据提取的问答对构建问答知识库时，根据问答对和与所述问答对对应的类别构建问答知识记录；

每个问答知识记录对应于一个类别，分别包括一个问题词语、一个答案词语，以及所述问题词语和所述答案词语之间的语义相关度。
根据权利要求42至45任一项所述的方法，其中，

所述根据待分析问题词语和待分析答案词语，从问答知识库选择至少一条问答知识记录，根据所选择的问答知识记录计算待分析的问答对的相关联程度，具体包括：

选取其包括的问题词语与待分析问题词语匹配且包括的答案词语与待分析答案词语匹配的问答知识记录；

根据所述选取的问答知识记录中对应于相同类别的问答知识记录，得到该待分析的问答对针对各个类别的相关联程度；

选取上述该待分析的问答对针对各个类别的相关联程度的最大值，以该最大值作为待分析的问答对的相关联程度。
根据权利要求42至46任一项所述的方法，其中，

根据所述选取的问答知识记录中对应于相同类别的问答知识记录，得到该待分析的问答对分别针对各个类别的相关联程度，具体包括：

将选取的问答知识记录中对应于相同类别的问答知识记录的语义相关度加权相加，得到该待分析的问答对分别针对各个类别的相关联程度。
根据权利要求42至47任一项所述的方法，其中，

所述对所述待分析的问答对的问题内容和答案内容进行词语提取操作，具体包括：

对待分析的问答对的问题内容和答案内容进行分词、去除停用词、词合并，和提取实体词的操作。
根据权利要求42至48任一项所述的方法，其中，

所述根据问答对和与所述问答对对应的类别构建问答知识库，具体包括：

对每个问答对，对该问答对的问题内容和答案内容进行词语提取操作，得到问题词语集合和答案词语集合；

令问题词语集合中的每个问题词语与答案词语集合中的每个答案词语分别在与该问答对对应的每个类别上形成一条信息记录；

对每一条信息记录，执行以下操作：

计算该答案词语属于该类别的概率，计算在该类别上该答案词语对该问题词语的解释的专一程度，计算在该类别上该问题词语用该答案词语进行解释的强度；

将上述概率、专一程度和强度相乘，所得到的乘积是该答案词语和该问题词语的语义相关度；

令该问题词语、该答案词语和其语义相关度形成一条对应于该类别的问答知识记录。
根据权利要求42至49任一项所述的方法，其中，

所述计算该答案词语属于该类别的概率，具体包括：

所述计算在该类别上各个答案词语对该问题词语的解释的专一程度，具体包括：

所述计算在该类别上该问题词语用各个答案词语进行解释的强度，具体包括：

将上述概率、专一程度和强度相乘，具体包括：

weight(QWi，AWj|C＝Ck)＝P(Ck|AWj)*specific(QWi，AWj|C＝Ck)*interpret(QWi，AWj|C＝Ck)；

其中，P(C_k)表示类别C_k出现的概率；P(AW_j)表示答案为AW_j的概率；P(AW_j|C_k)表示C_k类别属于AW_j的概率；

#(QW_i，AW_j)表示问题词语为QW_i且答案词语为AW_j的次数；

#(AW_j)表示答案词语为AW_j的次数。
一种计算机程序，包括计算机可读代码，当所述计算机可读代码在计算设备上运行时，导致所述计算设备执行根据权利要求26至50中的任一个所述的方法。
一种计算机可读介质，其中存储了如权利要求51所述的计算机程序。