CN103577556A

CN103577556A - 一种获取问答对的相关联程度的装置和方法

Info

Publication number: CN103577556A
Application number: CN201310495641.4A
Authority: CN
Inventors: 孙林; 陈培军; 秦吉胜
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2013-10-21
Filing date: 2013-10-21
Publication date: 2014-02-12
Anticipated expiration: 2033-10-21
Also published as: CN103577556B

Abstract

本发明公开了一种获取问答对的相关联程度的装置和方法，用于获取问答对的相关联程度，该方法包括如下步骤：对待分析的问答对的问题内容和答案内容进行词语提取操作，得到至少一个待分析问题词语和至少一个待分析答案词语；根据待分析问题词语和待分析答案词语，从包括多条问答知识记录的问答知识库选择至少一条问答知识记录，根据所选择的问答知识记录计算待分析的问答对的相关联程度。使用本发明的装置和方法，可以从语义方面评价问答对的质量，评价效果更好，而且容易实现、通用性强。

Description

一种获取问答对的相关联程度的装置和方法

技术领域

本发明涉及网络数据通信领域，具体涉及一种获取问答对的相关联程度的装置和方法。

背景技术

问答社区是一种用户产生内容的网络应用，基本形式是由用户根据自己的需求提出问题，并由其他的用户来给出回答。这种形式为用户在网络上获取信息提供了新的渠道。然而由于任何用户都可以随意地创建内容，导致了问答社区中的信息质量差异非常大，以至于问答社区中出现了大量的低质量问答对。这不但给用户查找信息带来了诸多不便，同时也降低了问答社区的质量。同时，现有技术的方法，更多地依赖于问答对的非文本特征来评价问答对质量，会影响其通用性。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种获取问答对的相关联程度的装置和相应的获取问答对的相关联程度的方法。

依据本发明的一个方面，提供了一种获取问答对的相关联程度的装置，该装置包括：

问答知识库，适于存储多条问答知识记录；

词语提取单元，适于对待分析的问答对的问题内容和答案内容进行词语提取操作，得到至少一个待分析问题词语和至少一个待分析答案词语；

相关联程度计算单元，适于根据待分析问题词语和待分析答案词语，从问答知识库选择至少一条问答知识记录，根据所选择的问答知识记录计算待分析的问答对的相关联程度。

可选地，该装置进一步包括问答知识库构建单元，所述问答知识库构建单元，适于预先从含有问答对的网页提取出多个问答对，根据提取的问答对构建包括多条问答知识记录的问答知识库；所述问答知识库构建单元，进一步适于在从含有问答对的网页提取出多个问答对时，抓取与所述问答对对应的类别；所述问答知识库构建单元，进一步适于在根据提取的问答对构建问答知识库时，根据问答对和与所述问答对对应的类别构建问答知识记录；每个问答知识记录对应于一个类别，分别包括一个问题词语、一个答案词语，以及所述问题词语和所述答案词语之间的语义相关度。

可选地，所述相关联程度计算单元，适于选取其包括的问题词语与待分析问题词语匹配且包括的答案词语与待分析答案词语匹配的问答知识记录；根据所述选取的问答知识记录中对应于相同类别的问答知识记录，得到该待分析的问答对针对各个类别的相关联程度；选取上述该待分析的问答对针对各个类别的相关联程度的最大值，以该最大值作为待分析的问答对的相关联程度。

可选地，所述相关联程度计算单元，适于将选取的问答知识记录中对应于相同类别的问答知识记录的语义相关度加权相加，得到该待分析的问答对分别针对各个类别的相关联程度。

可选地，所述词语提取单元，适于对待分析的问答对的问题内容和答案内容进行分词、去除停用词、词合并，和提取实体词的操作。

可选地，所述问答知识库构建单元，适于对每个问答对执行以下操作：对该问答对的问题内容和答案内容进行词语提取操作，得到问题词语集合和答案词语集合；令问题词语集合中的每个问题词语与答案词语集合中的每个答案词语分别在与该问答对对应的每个类别上形成一条信息记录；所述问答知识库构建单元，适于对每一条信息记录，执行以下操作：计算该答案词语属于该类别的概率，计算在该类别上该答案词语对该问题词语的解释的专一程度，计算在该类别上该问题词语用该答案词语进行解释的强度；将上述概率、专一程度和强度相乘，所得到的乘积是该答案词语和该问题词语的语义相关度；令该问题词语、该答案词语和其语义相关度形成一条对应于该类别的问答知识记录。

可选地，所述问答知识库构建单元，适于按照如下的方法计算该答案词语属于该类别的概率：

P (Ck | AWj) = P (AWj | Ck) * \frac{P (Ck)}{P (AWj)};

所述问答知识库构建单元，适于按照如下的方法计算在该类别上各个答案词语对该问题词语的解释的专一程度：

apecific (QWi, AWi | C = Ck) = P (QWi | AWj, C = Ck) = \frac{# (QWi, AWj)}{# (AWj)} | C = Ck;

所述问答知识库构建单元，适于按照如下的方法计算在该类别上该问题词语用各个答案词语进行解释的强度：

interpret (QWi, AWj | C = Ck) = P (AWj | QWi, C = Ck) = \frac{# (QWi, AWj)}{Σ_{j = 1}^{x} # (QWi, AWj)} | C = Ck;

所述问答知识库构建单元，适于按照如下的方法将上述概率、专一程度和强度相乘：

weight（QWi,AWj|C＝Ck）＝P（Ck|AWj）*specific（QWi,AWj|C＝Ck）*interpret（QWi,AWj|C＝Ck）；

其中，P（Ck）表示类别Ck出现的概率；P（AWj）表示答案为AWj的概率；P（AWj│Ck）表示Ck类别属于AWj的概率；

#（QWi，AWj）表示问题词语为QWi且答案词语为AWj的次数；

#（AWj）表示答案词语为AWj的次数。

根据本发明的另一方面，提供了一种获取问答对的相关联程度的方法，该方法包括如下步骤：

对待分析的问答对的问题内容和答案内容进行词语提取操作，得到至少一个待分析问题词语和至少一个待分析答案词语；

根据待分析问题词语和待分析答案词语，从包括多条问答知识记录的问答知识库选择至少一条问答知识记录，根据所选择的问答知识记录计算待分析的问答对的相关联程度。

可选地，该方法进一步包括：预先从含有问答对的网页提取出多个问答对，根据提取的问答对构建包括多条问答知识记录的问答知识库；在从含有问答对的网页提取出多个问答对时，抓取与所述问答对对应的类别；在根据提取的问答对构建问答知识库时，根据问答对和与所述问答对对应的类别构建问答知识记录；每个问答知识记录对应于一个类别，分别包括一个问题词语、一个答案词语，以及所述问题词语和所述答案词语之间的语义相关度。

可选地，所述根据待分析问题词语和待分析答案词语，从问答知识库选择至少一条问答知识记录，根据所选择的问答知识记录计算待分析的问答对的相关联程度，具体包括：选取其包括的问题词语与待分析问题词语匹配且包括的答案词语与待分析答案词语匹配的问答知识记录；根据所述选取的问答知识记录中对应于相同类别的问答知识记录，得到该待分析的问答对针对各个类别的相关联程度；选取上述该待分析的问答对针对各个类别的相关联程度的最大值，以该最大值作为待分析的问答对的相关联程度。

可选地，根据所述选取的问答知识记录中对应于相同类别的问答知识记录，得到该待分析的问答对分别针对各个类别的相关联程度，具体包括：将选取的问答知识记录中对应于相同类别的问答知识记录的语义相关度加权相加，得到该待分析的问答对分别针对各个类别的相关联程度。

可选地，所述对所述待分析的问答对的问题内容和答案内容进行词语提取操作，具体包括：对待分析的问答对的问题内容和答案内容进行分词、去除停用词、词合并，和提取实体词的操作。

可选地，所述根据问答对和与所述问答对对应的类别构建问答知识库，具体包括：对每个问答对，对该问答对的问题内容和答案内容进行词语提取操作，得到问题词语集合和答案词语集合；令问题词语集合中的每个问题词语与答案词语集合中的每个答案词语分别在与该问答对对应的每个类别上形成一条信息记录；对每一条信息记录，执行以下操作：计算该答案词语属于该类别的概率，计算在该类别上该答案词语对该问题词语的解释的专一程度，计算在该类别上该问题词语用该答案词语进行解释的强度；将上述概率、专一程度和强度相乘，所得到的乘积是该答案词语和该问题词语的语义相关度；令该问题词语、该答案词语和其语义相关度形成一条对应于该类别的问答知识记录。

可选地，所述计算该答案词语属于该类别的概率，具体包括：

P (Ck | AWj) = P (AWj | Ck) * \frac{P (Ck)}{P (AWj)};

所述计算在该类别上各个答案词语对该问题词语的解释的专一程度，具体包括：

apecific (QWi, AWi | C = Ck) = P (QWi | AWj, C = Ck) = \frac{# (QWi, AWj)}{# (AWj)} | C = Ck;

所述计算在该类别上该问题词语用各个答案词语进行解释的强度，具体包括：

interpret (QWi, AWj | C = Ck) = P (AWj | QWi, C = Ck) = \frac{# (QWi, AWj)}{Σ_{j = 1}^{x} # (QWi, AWj)} | C = Ck;

将上述概率、专一程度和强度相乘，具体包括：

#（QWi，AWj）表示问题词语为QWi且答案词语为AWj的次数；

#（AWj）表示答案词语为AWj的次数。

根据本发明的技术方案，从含有问答对的网页提取出多个问答对并根据提取的问答对构建包括多条问答知识记录的问答知识库，对待分析的问答对的问题内容和答案内容进行词语提取操作而得到至少一个待分析问题词语和至少一个待分析答案词语，进而根据待分析问题词语和待分析答案词语从问答知识库选择至少一条问答知识记录并根据所选择的问答知识记录计算待分析的问答对的相关联程度，可以从语义方面评价问答对的质量，解决了现有技术仅在词法层面上评价问答对的质量而导致的评价效果不佳的问题，而且容易实现、通用性强。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的获取问答对的相关联程度的方法的流程图；

图2示出了构建问答知识库的详细的流程图；

图3示出了使用如图2所示的步骤而得到的问答知识库的一个解释模型示意图；

图4示出了图1中步骤S200的详细的流程图；以及

图5示出了根据本发明一个实施例的获取问答对的相关联程度的装置的框图；

图6示出了根据本发明另一个实施例的获取问答对的相关联程度的装置的框图。

具体实施方式

现有的获取问答对的相关联程度的方法，是使用文本特征和非文本特征来描述问答对的问题和答案。文本特征主要包括文本视觉特征（例如标点符号密度，平均词长，文本熵等）和文本内容特征（例如文本内容词比例，疑问词密度，相关词覆盖等），并提取中文自动差错广泛采用的特征（例如单字密度特征等）；非文本特征包含用户的权威度指标，答案问题状态，答案回答时间，用户关系交互特征等。在对问题和答案分别提取出特征后，在训练集上分别学习出一个问题质量预测模型和答案质量预测模型，并使用两个模型的输出结果来评价问答对质量。然而，使用现有的获取问答对的相关联程度的方法对于答案质量进行评价时，仅仅使用了相关词覆盖特征来描述问题和答案间的语义匹配度，这不但仅仅是停留在词法层面上的，而且没有考虑问题和答案间的语义匹配度。然而问题和答案间的语义匹配度恰恰是问答对质量的核心，比如问题为“中国的首都是哪里？”，答案1为“北京”，答案2为“中国的首都是上海”。那么问题经过分词及丢弃停用词处理后，为“中国首都哪里”，答案1分词结果为“北京”，答案2分词结果为“中国首都上海”。现有技术中，语义匹配度可以定义为：问题和答案中共同出现的词语个数除以问题和答案中所有词语的个数。则问题和答案1的语义匹配度为：0/4=0。问题和答案2的语义匹配度为：2/4=0.5。使用现有技术，就会认为答案2和问题较为匹配。而我们知道这显然是不当的。

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的获取问答对的相关联程度的方法的流程图。根据本发明的另一方面，提供了一种获取问答对的相关联程度的方法，该方法包括如下步骤S100和步骤S200：

S100、对待分析的问答对的问题内容和答案内容进行词语提取操作，得到至少一个待分析问题词语和至少一个待分析答案词语。

在本发明的一个实施例中，对待分析的问答对的问题内容和答案内容进行词语提取操作具体包括：对待分析的问答对的问题内容和答案内容进行分词、去除停用词、词合并（word join），和提取实体词（例如名词、动词等）的操作。则由待分析的问答对的问题内容得到至少一个待分析问题词语，由待分析的问答对的答案内容得到至少一个待分析答案词语。

S200、根据待分析问题词语和待分析答案词语，从包括多条问答知识记录的问答知识库选择至少一条问答知识记录，根据所选择的问答知识记录计算待分析的问答对的相关联程度。

本实施例的步骤S200，可以通过利用问答知识库从语义方面对待分析问答对的问题内容和答案内容进行分析以获得待分析问答对的相关联程度，评价效果更好而且容易实现。

进一步地，所述包括多条问答知识记录的问答知识库，是通过预先从含有问答对的网页提取出多个问答对，根据提取的问答对构建而得到的。在本发明的一个实施例中，在从含有问答对的网页提取出多个问答对时，抓取与所述问答对对应的类别。则在根据提取的问答对构建问答知识库时，根据问答对和与所述问答对对应的类别构建问答知识记录。得到的问答知识库之中的每个问答知识记录对应于一个类别，分别包括一个问题词语（QW）、一个答案词语（AW），以及所述问题词语和所述答案词语之间的语义相关度。

通过利用由网页提取的海量的、高质量的问答对构建包括多条问答知识记录的问答知识库，可以基于对海量信息的学习而获取多条问答知识记录的问题词语和答案词语之间的语义相关度；而且通过利用从网页提取得到的信息构建问答知识库，适用的范围更广，方法的通用性更强。

图2示出了构建问答知识库的详细的流程图。具体包括以下步骤S310、步骤S320和步骤S330：

S310、预先从含有问答对的网页提取出多个问答对，抓取与所述问答对对应的类别。

本实施例中，可以通过使用网络爬虫，从互联网上含有高质量问答对的网页抓取数据并提取出问答对，以保证所提取的问答对的质量；所述含有高质量问答对的网页包括cQA社区、各大专业论坛等，则可以使用楼层识别技术，根据楼主提问题，1楼2楼等为答案的方式，来提取问答对。由于所述含有高质量问答对的网页中包括对应于每个问答对的类别信息，所以可以在抓取问答对的同时一并抓取与所述问答对对应的类别。

S320、对每个问答对，对该问答对的问题内容和答案内容进行词语提取操作，得到问题词语集合和答案词语集合；令问题词语集合中的每个问题词语与答案词语集合中的每个答案词语分别在与该问答对对应的每个类别上形成一条信息记录。

在本发明的一个实施例中，对步骤S310中提取得到的所述问答对中的每一个问答对的问题内容和答案内容进行词语提取操作，具体包括，对问答对的问题内容和答案内容进行分词、去除停用词、词合并，和提取实体词的操作。

则由每一个问答对的问题内容得到至少一个问题词语，由每一个问答对的答案内容得到至少一个答案词语，则可以得到针对该问答对的类别集合<C₁，…，C_k，…，C_p>、问题词语集合<QW₁，…，QW_i，…，QW_m>和答案词语集合<AW₁，…，AW_j，…，AW_n>。

通过令问题词语集合中的每个问题词语（QW_i）与答案词语集合中的每个答案词语（AW_j）分别在与该问答对对应的每个类别（C_k）上形成一条信息记录，例如<QW_i，AW_j，C_k>，则可以形成m*n*p条信息记录。

S330、对每一条信息记录，执行以下操作：计算该答案词语属于该类别的概率，计算在该类别上该答案词语对该问题词语的解释的专一程度，计算在该类别上该问题词语用该答案词语进行解释的强度；将上述概率、专一程度和强度相乘，所得到的乘积是该答案词语和该问题词语的语义相关度；令该问题词语、该答案词语和其语义相关度形成一条对应于该类别的问答知识记录<QW_i，AW_j，weight（QW_i，AW_j）>或<QW_i，AW_j，C_k，weight（QW_i，AW_j）>。本实施例中的步骤S330，可以是在对从网页抓取的海量的问答对进行了如步骤S320所述的词语提取操作而得到海量的信息记录之后基于所述海量的信息记录进行的，则基于海量的信息记录而获取的语义相关度更准确。

较佳地，所述计算该答案词语属于该类别的概率，具体包括：

P (Ck | AWj) = P (AWj | Ck) * \frac{P (Ck)}{P (AWj)};

apecific (QWi, AWi | C = Ck) = P (QWi | AWj, C = Ck) = \frac{# (QWi, AWj)}{# (AWj)} | C = Ck;

interpret (QWi, AWj | C = Ck) = P (AWj | QWi, C = Ck) = \frac{# (QWi, AWj)}{Σ_{j = 1}^{x} # (QWi, AWj)} | C = Ck;

将上述概率、专一程度和强度相乘，具体包括：

#（QWi，AWj）表示问题词语为QWi且答案词语为AWj的次数；

#（AWj）表示答案词语为AWj的次数。

由步骤S310、步骤S320和步骤S330，可以得到问答知识记录而构建问答知识库。图3示出了使用如图2所示的步骤而得到的问答知识库的一个解释模型示意图。可知，对于每一问题词语QW_i，可以针对类别集合<C₁，…，C_k，…，C_p>中的每一类别，获得n条问答知识记录。当然，本领域技术人员可以了解的是，若计算得到的语义相关度为0，则可以删除相应的问答知识记录；再者，如果问答知识库中问答知识记录的数量过大而使得存储问答知识记录和计算待分析问答对的相关联程度的开销过大，可以预设一个阈值，将语义相关度小于阈值的问答知识记录删除以减小开销。

图4示出了图1中步骤S200的详细的流程图。在通过步骤S100得到至少一个待分析问题词语和至少一个待分析答案词语后，步骤S200具体包括以下步骤S210、步骤S220和步骤S230：

S210、选取其包括的问题词语与待分析问题词语匹配且包括的答案词语与待分析答案词语匹配的问答知识记录。本实施例中，问题词语与待分析问题词语匹配是指待分析问题词语与问题词语相同或待分析问题词语是问题词语的子串；答案词语与待分析答案词语匹配是指待分析答案词语与答案词语相同或待分析答案词语是答案词语的子串，本实施例通过步骤S210，使用字段匹配或字段搜索的方法，从问答知识库中选出部分与待分析的问答对相关的问答知识记录。

S220、根据所述选取的问答知识记录中对应于相同类别的问答知识记录，得到该待分析的问答对分别针对各个类别的相关联程度，具体包括：将选取的问答知识记录中对应于相同类别的问答知识记录的语义相关度加权相加，得到该待分析的问答对分别针对各个类别的相关联程度。

本实施例，将通过步骤S210选出的问答知识记录根据其所对应的类别进行分组，对应于相同类别的问答知识记录为一组；将每一组的问答知识记录的语义相关度加权（例如，权值为1或100）相加，得到该待分析的问答对针对该类别的相关联程度；由此得到至少一个（本实施例中的相关联程度的数目即待分析问答对对应的类别的数目）相关联程度。

S230、选取上述该待分析的问答对针对各个类别的相关联程度的最大值，以该最大值作为待分析的问答对的相关联程度。

图5示出了根据本发明一个实施例的获取问答对的相关联程度的装置的框图。该装置包括问答知识库100、词语提取单元200和相关联程度计算单元300。

问答知识库100，适于存储多条问答知识记录；本实施例的问答知识库100能够通过抓取网页中的海量问答对构建得到。

词语提取单元200，适于对待分析的问答对的问题内容和答案内容进行词语提取操作，得到至少一个待分析问题词语和至少一个待分析答案词语。

在本发明的一个实施例中，词语提取单元200，适于对待分析的问答对的问题内容和答案内容进行分词、去除停用词、词合并（word join），和提取实体词（例如名词、动词等）的操作，以得到至少一个待分析问题词语和至少一个待分析答案词语。

相关联程度计算单元300，适于根据待分析问题词语和待分析答案词语，从问答知识库选择至少一条问答知识记录，根据所选择的问答知识记录计算待分析的问答对的相关联程度。

在本发明的一个实施例中，相关联程度计算单元300，适于选取其包括的问题词语与待分析问题词语匹配且包括的答案词语与待分析答案词语匹配的问答知识记录。本实施例中，问题词语与待分析问题词语匹配是指待分析问题词语与问题词语相同或待分析问题词语是问题词语的子串；答案词语与待分析答案词语匹配是指待分析答案词语与答案词语相同或待分析答案词语是答案词语的子串；根据所述选取的问答知识记录中对应于相同类别的问答知识记录，得到该待分析的问答对针对各个类别的相关联程度，更具体地，是将选取的问答知识记录中对应于相同类别的问答知识记录的语义相关度加权（例如，权值为1或100）相加而得到该待分析的问答对分别针对各个类别的相关联程度，由此得到至少一个（本实施例中的相关联程度的数目即待分析问答对对应的类别的数目）相关联程度；选取上述该待分析的问答对针对各个类别的相关联程度的最大值，以该最大值作为待分析的问答对的相关联程度。

利用问答知识库100、词语提取单元200和相关联程度计算单元300，通过利用待分析问题词语和待分析答案词语，从问答知识库选择至少一条问答知识记录，以及根据所选择的问答知识记录计算待分析的问答对的相关联程度，可以从语义方面对待分析问答对进行分析，评价效果更好而且容易实现，通过利用从网页提取得到的信息构建问答知识库，适用的范围更广，通用性更强。

图6示出了根据本发明另一个实施例的获取问答对的相关联程度的装置的框图。在本实施例中，该装置还包括问答知识库构建单元400，问答知识库构建单元400适于预先从含有问答对的网页提取出多个问答对，根据提取的问答对构建包括多条问答知识记录的问答知识库。在图5所示的装置中，问答知识库是已有的，由于实际网络的信息量不断增加，信息内容的变化速度快，问答知识库的内容往往需要更新，本实施例通过增设问答知识库构建单元400构建（或者说更新）问答知识库，可以保证问答知识库的内容的即时性和可靠性。

较佳地，在从含有问答对的网页提取出多个问答对时，问答知识库构建单元400抓取与所述问答对对应的类别。本实施例中，可以通过使用网络爬虫，从互联网上含有高质量问答对的网页抓取数据并提取出问答对，以保证所提取的问答对的质量；所述含有高质量问答对的网页包括cQA社区、各大专业论坛等。由于所述含有高质量问答对的网页中包括对应于每个问答对的类别信息，所以问答知识库构建单元400可以在抓取问答对的同时一并抓取与所述问答对对应的类别。

在本实施例中，问答知识库构建单元400，适于对每个问答对执行以下操作：对该问答对的问题内容和答案内容进行词语提取操作，得到问题词语集合和答案词语集合，具体地，问答知识库构建单元400对提取得到的所述问答对中的每一个问答对的问题内容和答案内容进行分词、去除停用词、词合并，和提取实体词的操作而得到问题词语和答案词语；令问题词语集合中的每个问题词语与答案词语集合中的每个答案词语分别在与该问答对对应的每个类别上形成一条信息记录。问答知识库构建单元400，适于对每一条信息记录，执行以下操作：计算该答案词语属于该类别的概率，计算在该类别上该答案词语对该问题词语的解释的专一程度，计算在该类别上该问题词语用该答案词语进行解释的强度；将上述概率、专一程度和强度相乘，所得到的乘积是该答案词语和该问题词语的语义相关度；令该问题词语、该答案词语和其语义相关度形成一条对应于该类别的问答知识记录。

更具体地，问答知识库构建单元400，适于按照如下的方法计算该答案词语属于该类别的概率：

P (Ck | AWj) = P (AWj | Ck) * \frac{P (Ck)}{P (AWj)};

更具体地，问答知识库构建单元400，适于按照如下的方法计算在该类别上各个答案词语对该问题词语的解释的专一程度：

apecific (QWi, AWi | C = Ck) = P (QWi | AWj, C = Ck) = \frac{# (QWi, AWj)}{# (AWj)} | C = Ck;

更具体地，问答知识库构建单元400，适于按照如下的方法计算在该类别上该问题词语用各个答案词语进行解释的强度：

interpret (QWi, AWj | C = Ck) = P (AWj | QWi, C = Ck) = \frac{# (QWi, AWj)}{Σ_{j = 1}^{x} # (QWi, AWj)} | C = Ck;

更具体地，问答知识库构建单元400，适于按照如下的方法将上述概率、专一程度和强度相乘：

#（QWi，AWj）表示问题词语为QWi且答案词语为AWj的次数；

#（AWj）表示答案词语为AWj的次数。

以下通过一个例子说明使用本发明的实施例所能达到的效果，比如有如下问答对，类别为“医疗健康”：

通过分词技术处理，得到待分析问题词语和待分析答案词语如下：

从分词结果可以看出，问题和答案中没有相关词覆盖，因此如果使用现有技术则容易认为该问答对相关联程度低，质量不高。但是实际上使用人工判断明显可知该问答对是一个高质量的问答对。

若使用本发明的方法和装置处理上述问答对，首先，可以调取已有的问答知识库，或者通过抓取cQA社区、各大专业论坛的问答对，构建问答知识库；

第二步，对上述待分析的问答对，经过词语提取操作得到待分析问题词语集合<孩子，咳嗽，鼻涕>、待分析答案词语集合<症状,药物,治疗,抗病毒，小儿感冒颗粒，说明,剂量，止咳，中药，冲剂,抗生素，阿莫西林，阿莫西林颗粒，颗粒,口服，罗红霉素,疗效>，并且得到待分析的问答对的类别为“医疗健康”；

第三步，根据各个待分析问题词语以及该类别，从问答知识库中选择得到问题词语与待分析问题词语匹配的若干问答知识记录，从而得到如下答案词语及语义相关度（为了方便阅读，下表中的语义相关度的数值是进行了适当的归一化处理后的数值）：

第四步，根据待分析答案词语集合中的待分析答案词语，在第三步所选择得到的问答知识记录的基础上筛选出其包括的答案词语与待分析答案词语匹配的问答知识记录，进而得到所筛选出的问答知识记录的语义相关度。经分析可知，本例中与问答知识记录中的答案词语匹配的待分析答案词语包括：<口服，咳喘，小儿感冒颗粒，检查，止咳，治疗，流感症状，感冒颗粒>。

再计算上述待分析的问答对的相关联程度可以得出，该待分析的问答对的相关联程度达到了0.9（在相关联程度取值范围为0～1的条件下）。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述，构造这类***所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书（包括伴随的权利要求、摘要和附图）中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书（包括伴随的权利要求、摘要和附图）中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器（DSP）来实现根据本发明实施例的获取问答对的相关联程度的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序（例如，计算机程序和计算机程序产品）。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种获取问答对的相关联程度的装置，该装置包括：

问答知识库，适于存储多条问答知识记录；

2.根据权利要求1所述的装置，其中，该装置进一步包括问答知识库构建单元，

所述问答知识库构建单元，适于预先从含有问答对的网页提取出多个问答对，根据提取的问答对构建包括多条问答知识记录的问答知识库；

所述问答知识库构建单元，进一步适于在从含有问答对的网页提取出多个问答对时，抓取与所述问答对对应的类别；

所述问答知识库构建单元，进一步适于在根据提取的问答对构建问答知识库时，根据问答对和与所述问答对对应的类别构建问答知识记录；每个问答知识记录对应于一个类别，分别包括一个问题词语、一个答案词语，以及所述问题词语和所述答案词语之间的语义相关度。

3.根据权利要求1或2所述的装置，其中，

所述相关联程度计算单元，适于选取其包括的问题词语与待分析问题词语匹配且包括的答案词语与待分析答案词语匹配的问答知识记录；根据所述选取的问答知识记录中对应于相同类别的问答知识记录，得到该待分析的问答对针对各个类别的相关联程度；选取上述该待分析的问答对针对各个类别的相关联程度的最大值，以该最大值作为待分析的问答对的相关联程度。

4.根据权利要求2所述的装置，其中，

所述问答知识库构建单元，适于对每个问答对执行以下操作：

对该问答对的问题内容和答案内容进行词语提取操作，得到问题词语集合和答案词语集合；令问题词语集合中的每个问题词语与答案词语集合中的每个答案词语分别在与该问答对对应的每个类别上形成一条信息记录；

所述问答知识库构建单元，适于对每一条信息记录，执行以下操作：

计算该答案词语属于该类别的概率，计算在该类别上该答案词语对该问题词语的解释的专一程度，计算在该类别上该问题词语用该答案词语进行解释的强度；将上述概率、专一程度和强度相乘，所得到的乘积是该答案词语和该问题词语的语义相关度；令该问题词语、该答案词语和其语义相关度形成一条对应于该类别的问答知识记录。

5.一种获取问答对的相关联程度的方法，该方法包括如下步骤：

6.根据权利要求5所述的方法，其中，该方法进一步包括：

预先从含有问答对的网页提取出多个问答对，根据提取的问答对构建包括多条问答知识记录的问答知识库；

在从含有问答对的网页提取出多个问答对时，抓取与所述问答对对应的类别；

在根据提取的问答对构建问答知识库时，根据问答对和与所述问答对对应的类别构建问答知识记录；

每个问答知识记录对应于一个类别，分别包括一个问题词语、一个答案词语，以及所述问题词语和所述答案词语之间的语义相关度。

7.根据权利要求5或6所述的方法，其中，

所述根据待分析问题词语和待分析答案词语，从问答知识库选择至少一条问答知识记录，根据所选择的问答知识记录计算待分析的问答对的相关联程度，具体包括：

选取其包括的问题词语与待分析问题词语匹配且包括的答案词语与待分析答案词语匹配的问答知识记录；

根据所述选取的问答知识记录中对应于相同类别的问答知识记录，得到该待分析的问答对针对各个类别的相关联程度；

选取上述该待分析的问答对针对各个类别的相关联程度的最大值，以该最大值作为待分析的问答对的相关联程度。

8.根据权利要求7所述的方法，其中，

根据所述选取的问答知识记录中对应于相同类别的问答知识记录，得到该待分析的问答对分别针对各个类别的相关联程度，具体包括：

将选取的问答知识记录中对应于相同类别的问答知识记录的语义相关度加权相加，得到该待分析的问答对分别针对各个类别的相关联程度。

9.根据权利要求6所述的方法，其中，所述根据问答对和与所述问答对对应的类别构建问答知识库，具体包括：

对每个问答对，对该问答对的问题内容和答案内容进行词语提取操作，得到问题词语集合和答案词语集合；

令问题词语集合中的每个问题词语与答案词语集合中的每个答案词语分别在与该问答对对应的每个类别上形成一条信息记录；

对每一条信息记录，执行以下操作：

计算该答案词语属于该类别的概率，计算在该类别上该答案词语对该问题词语的解释的专一程度，计算在该类别上该问题词语用该答案词语进行解释的强度；

将上述概率、专一程度和强度相乘，所得到的乘积是该答案词语和该问题词语的语义相关度；

令该问题词语、该答案词语和其语义相关度形成一条对应于该类别的问答知识记录。

10.根据权利要求9所述的方法，其中，

所述计算该答案词语属于该类别的概率，具体包括：

P (Ck | AWj) = P (AWj | Ck) * \frac{P (Ck)}{P (AWj)};

apecific (QWi, AWi | C = Ck) = P (QWi | AWj, C = Ck) = \frac{# (QWi, AWj)}{# (AWj)} | C = Ck;

interpret (QWi, AWj | C = Ck) = P (AWj | QWi, C = Ck) = \frac{# (QWi, AWj)}{Σ_{j = 1}^{x} # (QWi, AWj)} | C = Ck;

将上述概率、专一程度和强度相乘，具体包括：

#（QWi，AWj）表示问题词语为QWi且答案词语为AWj的次数；

#（AWj）表示答案词语为AWj的次数。