CN105786794A

CN105786794A - 一种问答对检索方法及社区问答检索***

Info

Publication number: CN105786794A
Application number: CN201610082304.6A
Authority: CN
Inventors: 王金龙; 董日壮
Original assignee: Qindao University Of Technology
Current assignee: Qindao University Of Technology
Priority date: 2016-02-05
Filing date: 2016-02-05
Publication date: 2016-07-20
Anticipated expiration: 2036-02-05
Also published as: CN105786794B

Abstract

本发明公开了一种问答对检索方法，包括：从问句中提取至少一个关键词，并获取每个关键词的扩展词以及每个扩展词与对应关键词的最终相似度；分析问句中具有语法关联的每两个词项之间的依存关系；根据预先为依存关系设定的重要度权重，确定反映问句中每两个词项之间紧密程度的距离权重；根据距离权重确定问句中每两个词项之间的关联度；根据关联度确定问句中每个词项的词项权重，并根据问句中每个词项的词项权重检索与问句相关的问答对；根据扩展词与对应关键词的最终相似度计算扩展词的词项权重，并根据扩展词的词项权重检索与问句相关的问答对；将检索出的所有问答对按照预设规则进行排序显示。本发明还公开了一种社区问答检索***。

Description

一种问答对检索方法及社区问答检索***

技术领域

本发明涉及信息检索技术领域，尤其涉及一种问答对检索方法及社区问答检索***。

背景技术

近年来，社区问答***已逐渐成为一种非常流行而实用的互联网应用，与传统问答***不同的是，在社区问答***中，用户不但可以提问和回答任何领域、任何类型的问题，而且还可以对其他用户的回答做出评价和投票，甚至还可以直接搜索***所积累的历史问题答案库中的相似问题，极大地丰富和满足了用户的信息需求。

当用户想要利用社区问答***检索与自己提出问题相同或相似的问题及其答案时，由于用户输入的是采用自然语言描述的问句，其复杂的结构和冗长的句式，使得从问句中提取重要关键词项会比较困难。因无法准确获取问句中的核心关键词，导致检索结果不够准确。

发明内容

有鉴于此，本发明实施例的主要目的在于提供一种问答对检索方法及社区问答检索***，以实现提高问答对检索结果的准确性的目的。

为实现上述目的，本发明实施例提供了一种问答对检索方法，包括：

从问句中提取至少一个关键词，并获取每个关键词的扩展词以及每个扩展词与对应关键词的最终相似度；

分析所述问句中具有语法关联的每两个词项之间的依存关系；

根据预先为所述依存关系设定的重要度权重，确定反映所述问句中每两个词项之间紧密程度的距离权重；

根据所述距离权重确定所述问句中每两个词项之间的关联度；

根据所述关联度确定所述问句中每个词项的词项权重，并根据所述问句中每个词项的词项权重检索与所述问句相关的问答对；

根据所述扩展词与对应关键词的最终相似度计算所述扩展词的词项权重，并根据所述扩展词的词项权重检索与所述问句相关的问答对；

将检索出的所有问答对按照预设规则进行排序显示。

可选的，所述获取每个关键词的扩展词以及每个扩展词与对应关键词的最终相似度，包括：

利用知网HowNet分别获取每个关键词的至少一个扩展词，并定义每个扩展词与对应关键词的初始相似度均为1；

利用同义词词林分别获取每个关键词的至少一个扩展词，并定义每个扩展词与对应关键词的初始相似度均为1；

利用经训练后的文本深度表示模型word2vec，分别获取每个关键词的至少一个扩展词以及每个扩展词与对应关键词的初始相似度；

合并获取到的相同扩展词，分别计算合并后的每个扩展词与对应关键词的最终相似度S_R，其中，S_R＝S_sum/3，S_sum为所述扩展词对应的所有初始相似度之和。

可选的，所述根据预先为所述依存关系设定的重要度权重，确定反映所述问句中每两个词项之间紧密程度的距离权重，包括：

分别计算第一词项与每个第二词项之间的距离权重D，所述第一词项为所述问句中的任意一个词项，所述第二词项为与所述第一词项存在所述依存关系的词项；

其中，y为预先为所述第一词项与所述第二词项之间的依存关系设置的重要度权重,α为基准值；

分别计算所述第一词项与每个第三词项之间的距离权重Dis，所述第三词项为所述问句中除所述第一词语外的任意一个词项，Dis为所述第一词项与所述第三词项之间存在的至少一种依存关系对应的至少一种距离权重D之和。

可选的，所述根据所述距离权重确定所述问句中每两个词项之间的关联度，包括：

按照下述公式计算所述问句中词项t_i和词项t_j之间的关联度w_rel(i,j)：

w_rel(i,j)＝λDep(t_i,t_j)+(1-λ)Close_pmi(t_i,t_j)；

其中，

{Dep}_{(t_{i}, t_{j})} = \frac{1}{b^{D i s (t_{i}, t_{j})}}, {Close}_{p m i} (t_{i}, t_{j}) = \log \frac{p (t_{i}, t_{j})}{p (t_{i}) p (t_{j})};

t_i表示所述问句中的第i个词项，t_j表示所述问句中的第j个词项,i＝1,2……n，j＝1,2……n，n为所述问句中的词项总数；

λ为调节因子；

b为一个大于1的常数；

Dis(t_i,t_j)为词项t_i和词项t_j之间的距离权重；

为问句集中词项t_i和词项t_j共同出现的概率，N_d(t_i,t_j)为问句集中词项t_i和词项t_j同时出现的问句的个数，N_D为问句集中的问句总数；

和分别表示词项t_i和词项t_j各自在问句集中出现的概率，N_d(t_i)为问句集中包含词项t_i的问句的总数,N_d(t_j)为问句集中包含词项t_j的问句总数，N_D为问句集中的问句总数。

可选的，所述根据所述关联度确定所述问句中每个词项的词项权重，包括：

按照下述公式计算所述问句中各词项最终权重组成的权重矩阵

W_{q}^{*} = (1 - α) {(1 - α E)}^{- 1} W_{q}^{0};

其中，α为给定常数；

E为将关联矩阵M进行正交变换后的随机矩阵，所述关联矩阵M为所述问句中每两个词项之间的关联度形成的对称矩阵；

为所述问句中各词项原始权重组成的权重矩阵。

可选的，所述根据所述扩展词与对应关键词的最终相似度计算所述扩展词的词项权重，包括：

获取所述扩展词对应的关键词的原始权重；

将所述原始权重和所述扩展词与对应关键词的最终相似度的乘积，作为所述扩展词的词项权重。

本发明实施例还提供了一种社区问答检索***，包括：

关键词提取单元，用于从问句中提取至少一个关键词；

关键词扩展单元，用于获取所述关键词提取单元获取的每个关键词的扩展词以及每个扩展词与对应关键词的最终相似度；

关系分析单元，用于分析所述问句中具有语法关联的每两个词项之间的依存关系；

权值确定单元，用于根据预先为所述关系分析单元分析得到的依存关系设定的重要度权重，确定反映所述问句中每两个词项之间紧密程度的距离权重；

关联度确定单元，用于根据所述权值确定单元确定的距离权重确定所述问句中每两个词项之间的关联度；

第一权重确定单元，用于根据所述关联度确定单元确定的关联度确定所述问句中每个词项的词项权重；

第一检索单元，用于根据所述第一权重确定单元确定的问句中每个词项的词项权重检索与所述问句相关的问答对；

第二权重确定单元，用于根据所述关键词扩展单元扩展得到的扩展词与对应关键词的最终相似度计算所述扩展词的词项权重；

第二检索单元，用于根据所述第二权重确定单元确定的扩展词的词项权重检索与所述问句相关的问答对；

检索结果显示单元，用于将所述第一检索单元和所述第二检索单元检索出的所有问答对按照预设规则进行排序显示。

可选的，所述关键词扩展单元，包括：

知网扩展模块，用于利用知网HowNet分别获取每个关键词的至少一个扩展词，并定义每个扩展词与对应关键词的初始相似度均为1；

词林扩展模块，用于利用同义词词林分别获取每个关键词的至少一个扩展词，并定义每个扩展词与对应关键词的初始相似度均为1；

模型扩展模块，用于利用经训练后的文本深度表示模型word2vec，分别获取每个关键词的至少一个扩展词以及每个扩展词与对应关键词的初始相似度；

相似度计算模块，用于合并所述知网扩展模块、所述词林扩展模块和所述模型扩展模块获取到的相同扩展词，分别计算合并后的每个扩展词与对应关键词的最终相似度S_R，其中，S_R＝S_sum/3，S_sum为所述扩展词对应的所有初始相似度之和。

可选的，所述权值确定单元，包括：

第一权重计算模块，用于分别计算第一词项与每个第二词项之间的距离权重D，所述第一词项为所述问句中的任意一个词项，所述第二词项为与所述第一词项存在所述依存关系的词项；

第二权重计算模块，用于分别计算所述第一词项与每个第三词项之间的距离权重Dis，所述第三词项为所述问句中除所述第一词语外的任意一个词项，Dis为所述第一词项与所述第三词项之间存在的至少一种依存关系对应的至少一种所述第一权重计算模块计算得到的距离权重D之和。

可选的，所述关联度确定单元，具体用于按照下述公式计算所述问句中词项t_i和词项t_j之间的关联度w_rel(i,j)：

w_rel(i,j)＝λDep(t_i,t_j)+(1-λ)Close_pmi(t_i,t_j)；

其中，

{Dep}_{(t_{i}, t_{j})} = \frac{1}{b^{D i s (t_{i}, t_{j})}}, {Close}_{p m i} (t_{i}, t_{j}) = l o g \frac{p (t_{i}, t_{j})}{p (t_{i}) p (t_{j})};

λ为调节因子；

b为一个大于1的常数；

Dis(t_i,t_j)为词项t_i和词项t_j之间的距离权重；

可选的，所述第一权重确定单元，具体用于按照下述公式计算所述问句中各词项最终权重组成的权重矩阵

W_{q}^{*} = (1 - α) {(1 - α E)}^{- 1} W_{q}^{0};

其中，α为给定常数；

为所述问句中各词项原始权重组成的权重矩阵。

可选的，所述第二权重确定单元，包括：

原始权重获取模块，用于获取所述扩展词对应的关键词的原始权重；

第二权重确定模块，用于将所述原始权重获取模块获取的原始权重和所述扩展词与对应关键词的最终相似度的乘积，作为所述扩展词的词项权重。

本发明实施例提供的问答对检索方法及社区问答检索***，通过为问句中不同的依存关系设置的重要度权重，可确定问句中词项之间的关联紧密度，根据关联度可进一步确定问句中每个词项的词项权重，通过融合重要度权重得到的词项权重可以发现问句中的重要词项，从而得到了与问句更为相关的问答对检索结果，解决了现有社区问答检索***没有考虑问句结构复杂和句式冗长而无法发现问句重要词项的缺点，进而提高了检索结果准确性的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例问答对检索方法的流程示意图；

图2为本发明实施例扩展词及相似度的获取方法框图；

图3为本发明实施例问句检索过程框图；

图4为本发明实施例依存关系示意图；

图5为本发明实施例社区问答检索***的组成示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

当用户以问句的形式提出的一个问题时，通过将该问句输入到社区问答检索***中，社区问答检索***可以检索出与该问句语义相同或相似的问题，同时检索出与该问句语义相同或相似的问题对应的答案，即检索出问答对，并按照与问句的近似度，将问答对进行排序显示。下面具体介绍问答对的检索方法。

参见图1，为本发明实施例提供的问答对检索方法的流程示意图，该方法包括：

步骤101：从问句中提取至少一个关键词，并获取所述关键词的扩展词以及每个扩展词与所述关键词的最终相似度。

参见图2所示的扩展词及相似度的获取方法框图。

首先，根据词性和停用词表提取该问句中的关键词。具体地，去除该问句中属于停用词表中的停用词，再从去除停用词后的词项中提取属于特定词性的词项，比如预设特定词性分别为名词和形容词(当然也可以是其它类型的词性)，从去除停用词后的各个词项中提取词性为名词的词项以及词性为形容词的词性，将提取出的名词词项和形容词词项作为关键词。提取关键词的目的是，通过限制关键词的数量可以起到防止词项扩展过多而影响检索效率的问题。

然后，对每个关键词进行传统扩展和文本深度表示模型word2vec扩展。其中，所述传统扩展包括：使用知网HowNet对每个关键词进行扩展，以得到一个扩展词项集，以及，使用同义词词林对每个关键词进行扩展，以得到一个扩展词项集；所述word2vec扩展是指，使用经训练后的word2vec模型对每个关键词进行扩展，以得到一个扩展词项集以及扩展词项集中每个扩展词分别与对应关键词的初始相似度。由于传统扩展方法不能得相似度，因此对于采用传统扩展方法得到的扩展词，定义其与之对应关键词的初始相似度为1。

最后，通过融合三种扩展方法得到的扩展词及其初始相似度，得到最终扩展词项和相似度集。具体地，对于一个扩展词，上述三种扩展方法可能均可得到该扩展词，也可能其中两个扩展方法可得到该扩展词，亦或只有其中一个扩展方法可得到该扩展词，此时，将相同的扩展词合并为一个扩展词，对于合并后的该扩展词，将对应的三个或两个或一个初始相似度相加，并将相加之和除以3后的结果作为该扩展词与对应关键词的最终相似度。

综上，步骤101具体按照下述方式获取所述关键词的扩展词以及每个扩展词与所述关键词的最终相似度，包括：

利用知网HowNet分别获取每个关键词的至少一个扩展词，并定义每个扩展词与对应关键词的初始相似度均为1；利用同义词词林分别获取每个关键词的至少一个扩展词，并定义每个扩展词与对应关键词的初始相似度均为1；利用经训练后的文本深度表示模型word2vec，分别获取每个关键词的至少一个扩展词以及每个扩展词与对应关键词的初始相似度；合并获取到的相同扩展词，分别计算合并后的每个扩展词与对应关键词的最终相似度S_R，其中，S_R＝S_sum/3，S_sum为所述扩展词对应的所有初始相似度之和。

为了更方便的理解步骤101的具体实现方法，下面举例说明：

假设从问句中提取的关键词中包括“屏幕”一词。

对于关键词“屏幕”，分别使用HowNet、同义词词林和经过训练的word2vec进行同义词扩展，分别得到各自方法的扩展词项及其相似度。

假设使用HowNet对“屏幕”进行扩展得到的扩展词包括：

扩展词	定义相似度
		屏	1
显示屏	1
		显示器	1

假设使用同义词词林对“屏幕”进行扩展得到的扩展词包括：

扩展词	定义相似度
		屏	1
显示屏	1

假设使用经训练后的word2vec模型对“屏幕”进行扩展得到的扩展词及其相似度包括：

合并扩展词“屏”，其与“屏幕”的最终相似度为(1+1+0.788869)/3；

合并扩展词“显示屏”，其与“屏幕”的最终相似度为(1+1+0.775589)/3；

合并扩展词“显示器”，其与“屏幕”的最终相似度为(1+0.654054)/3；

合并扩展词“触摸屏”，其与“屏幕”的最终相似度为0.649287/3。

对于问句中的其它关键词，同样按照上述方式获取扩展词以及扩展词与对应关键词的最终相似度。

由于现有技术主要是采用HowNet扩展和同义词词林扩展，但采用现有方式得到的扩展词经常与问句中的关键词语义不符，而本发明实施例将word2vec同义词扩展方式融合到现有同义词扩展方法中，解决了扩展词与对应关键词词义不符的问题。

步骤102：分析所述问句中具有语法关联的每两个词项之间的依存关系。

下面结合图3所示的问句检索过程框图，理解步骤102至步骤107。

为便于理解步骤102，现举例说明，假设问句为：“iphone5s如何通过丢失模式等方式找回手机”，对该问句进行语法关系分析的结果为：

参见图4所示的依存关系示意图，上述问句由“iphone5s”、“如何”、“通过”、“丢失”、“模式”、“等”、“方式”、“找回”、“手机”这些词项组成，其中，root指向的词项“找回”为语法分析的起点，词项之间的依存关系分别为：

1、“找回”与“iphone5s”之间的依存关系为名词性主语关系(nsubj)；

2、“找回”与“如何”之间的依存关系为副词性修饰关系(advmod)；

3、“找回”与“丢失”之间的依存关系为前置修饰关系(prep)；

4、“找回”与“手机”之间的依存关系为直接宾语关系(dobj)；

5、“丢失”与“通过”之间的依存关系为事例关系(case)；

6、“丢失”与“模式”之间的依存关系为直接宾语关系(dobj)；

7、“模式”与“等”之间的依存关系为等等关系(etc)；

8、“模式”与“方式”之间的依存关系为直接宾语关系(dobj)。

步骤103：根据预先为所述依存关系设定的重要度权重，确定反映所述问句中每两个词项之间紧密程度的距离权重。

在本发明实施例中，按照下述步骤实现步骤103：

在执行本发明实施例各步骤之前，根据不同依存关系的重要程度，在社区问答检索***中预先为每种依存关系设置了不同的重要度权重，比如可以对“主语关系”和“宾语关系”设置较大的权重，因为此两种关系在句子结构和成分中占据主要部分，例如可以设置“主语关系”的重要度权重为5，“宾语关系”的重要度权重为4，并设置其他依存关系的重要度权重。其中，设置无重要度的依存关系的重要度权重为1。

当通过步骤102对问句进行问句依存句法分析得到问句的依存关系后，接下来，根据为依存关系设置的重要度权重，计算问句中不同依存关系的不同距离权重，所述距离权重反映了词项间依存关系的紧密程度，距离权重越小，则紧密程度越高，反之，距离权重越大，则紧密程度越低。

例如：若主语关系“subj”的重要度权重为“5”，则该关系涉及的两个词项的距离权重为若直接宾语关系“dobj”的重要度权重为“4”，则该关系涉及的两个词项的距离权重为其中，α为基准值，α可以通过参数调节得到。通过此种方式可得到不同依存关系对应的不同距离权重。

接下来，忽略词项之间的依存与被依存的指向关系，便可根据具有依存关系的每两个词项之间的距离权重D构建带权无向图G＝(V，E，W)，通过此种方式，任何两个词项之间均为连通的。

其中，问句中的n个词项v_i，组成顶点集V＝{v_i|i＝1,…,n}；

具体依存关系的任意两个词项(词项v_i和词项v_j)相连接形成的边，组成边集E＝{<v_i,v_j>_i|i≠j,1≤i≤n,1≤j≤n}；

具体依存关系的任意两个词项(词项v_i和词项v_j)对应的距离权重D，组成权值集W＝{<v_i,v_j>|v_i∈V,v_j∈V,<v_i,v_j>∈E}。

基于带权无向图，便可按照下述方式计算问句中每两个词项的距离权重Dis，下面举例说明：

例如：对于问句“iphone5s如何通过丢失模式等方式找回手机”，需要计算每个词项(比如“iphone5s”)与其它8词项的8个距离权重，共64个距离权重。由于基于重要度权重可以得到一个词项(定义为第一词项)和与其具有依存关系的另一个词项(定义第二词项)之间的距离权重D，进而基于距离权重D可进一步计算第一词项与除第一词项以外的每个词项(定义第三词项)之间的距离权重Dis。

例如：对于问句“iphone5s如何通过丢失模式等方式找回手机”，假设所述第一词项为“找回”时，其分别与第二词项“iphone5s”、“如何”、“丢失”、“手机”存在不同的依存关系，根据公式可以计算出“找回”与这四个第二词项的四个距离权重D，比如，当计算“找回”与“iphone5s”的距离权重时，y为“找回”与“iphone5s”所具有的名词性主语关系的重要度权重，其它三个距离权重D同样按此方法计算得出。

基于这四个距离权重D，“找回”与其它8个词项之间的距离权重Dis分别为：

1、“找回”与“iphone5s”、“如何”、“丢失”、“手机”之间的距离权重Dis就是其依存关系的距离权重D；“找回”与“通过”之间的距离权重Dis＝A+B，A为“找回”与“丢失”之间的距离权重D，B为“丢失”与“通过”之间的距离权重D；

2、“找回”与“模式”之间的距离权重Dis＝A+C，A为“找回”与“丢失”之间的距离权重D，C为“丢失”与“模式”之间的距离权重D；

3、“找回”与“等”之间的距离权重Dis＝A+C+E，A为“找回”与“丢失”之间的距离权重D，C为“丢失”与“模式”之间的距离权重D，E为“模式”与“等”之间的距离权重D；

4、“找回”与“方式”之间的距离权重Dis＝A+C+F，A为“找回”与“丢失”之间的距离权重D，C为“丢失”与“模式”之间的距离权重D，F为“模式”与“方式”之间的距离权重D。

当第一词项为其它词项(比如“如何”)时，同样按照上述方法计算第一词项与其它每个词项之间的距离权重Dis，在此不再赘述。

综上，具体按照下述方式所述步骤103：

首先，分别计算第一词项与每个第二词项之间的距离权重D，所述第一词项为所述问句中的任意一个词项，所述第二词项为与所述第一词项存在所述依存关系的词项；其中，y为预先为所述第一词项与所述第二词项之间的依存关系设置的重要度权重,α为基准值；然后，分别计算所述第一词项与每个第三词项之间的距离权重Dis，所述第三词项为所述问句中除所述第一词语外的任意一个词项，Dis为所述第一词项与所述第三词项之间存在的至少一种依存关系对应的至少一种距离权重D之和。

步骤104：根据所述距离权重确定所述问句中每两个词项之间的关联度。

通过步骤103计算出的每两个词项对应的距离权重Dis，可构建一个维度为n×n的关联矩阵M，由于忽略了词项间的依存方向，因此矩阵M为对称矩阵，M中第i行第j列的元素M_ij表示问句中词项t_i和词项t_j的关联度。

w_rel(i,j)＝λDep(t_i,t_j)+(1-λ)Close_pmi(t_i,t_j)；

其中，

{Dep}_{(t_{i}, t_{j})} = \frac{1}{b^{D i s (t_{i}, t_{j})}}, {Close}_{p m i} (t_{i}, t_{j}) = \log \frac{p (t_{i}, t_{j})}{p (t_{i}) p (t_{j})};

λ为调节因子；

b为一个大于1的常数；

Dis(t_i,t_j)为词项t_i和词项t_j之间的距离权重；

步骤105：根据所述关联度确定所述问句中每个词项的词项权重，并根据所述问句中每个词项的词项权重检索与所述问句相关的问答对。

在本发明实施例中，步骤105具体按照下述方式确定问句中每个词项的词项权重，即按照下述公式计算所述问句中各词项最终权重组成的权重矩阵

W_{q}^{*} = (1 - α) {(1 - α E)}^{- 1} W_{q}^{0};

其中，α为给定常数；E为将关联矩阵M进行正交变换后的随机矩阵，所述关联矩阵M为所述问句中每两个词项之间的关联度形成的对称矩阵；为所述问句中各词项原始权重组成的权重矩阵。

其中，原始权重是通过社区问答检索***的检索模型确定的，所述检索模型为：向量空间模型(Vectorspacemodel，VSM)、或概率模型okapiBM25、或语言模型(LanguageModel，LM)、或其它模型。所述检索模型包括但不限于上述模型。

需要说明的是，随机矩阵E是利用正交变换将关联矩阵M变换得到的，以确保该关联矩阵M对应的方程组一定存在解析解，即E＝D^-1M(D^-1为一个正交矩阵)。对于矩阵E中的每一个元素，其值都在[0,1)之间，并且E的每一行元素之和等于1。因此，E必有一个特征值等于1，并且等于1的这个特征值所对应的特征向量即为E对应的方程组的解向量，因而E对应的方程组一定存在解析解。将关联矩阵M阵转换成一个随机矩阵E之后，就可以通过求解该矩阵对应的方程组的解析解来获得待计算的词项权重但是该方式得到的权重与词项的原始值没有关系，而原始权重是通过原始的检索模型得到，如VSM、okapiBM25、LM模型等，利用及关联矩阵M可计算得出更为准确的词项权重

步骤106：根据所述扩展词与对应关键词的最终相似度计算所述扩展词的词项权重，并根据所述扩展词的词项权重检索与所述问句相关的问答对。

在本发明实施例中，对于每一扩展词，首先，通过社区问答检索***的检索模型确定与该扩展词对应关键词的原始权重，然后计算扩展词项权重：扩展词项权重＝关键词项原始权重*扩展词项与关键词项的相似度；然后，检索模型利用扩展词项权重得到检索结果，该检索结果不但可以包括问答对还可以包括对问答对的打分值。

其中，所述检索模型为：向量空间模型(Vectorspacemodel，VSM)、或概率模型okapiBM25、或语言模型(LanguageModel，LM)、或其它模型。所述检索模型包括但不限于上述模型。

综上，步骤106具体按照下述方式计算所述扩展词的词项权重：

获取所述扩展词对应的关键词的原始权重；将所述原始权重和所述扩展词与对应关键词的最终相似度的乘积，作为所述扩展词的词项权重。

步骤107：将步骤105和步骤106检索出的所有问答对按照预设规则进行排序显示。

步骤105和步骤106在得到问答对的同时，还可进一步得到对每一问答对的打分值，本发明实施例可根据打分值对步骤105和步骤106得到的问答对进行排序显示，即打分值高的问答对在前显示，打分值低的问答对在后显示。

需要说明的是，步骤101和步骤106可以在步骤107之前的任意位置执行，步骤101在前步骤106在后即可，比如将步骤106移至步骤101之后执行，或将步骤101移至步骤106之前执行等等，对此本发明不做限制。

本发明实施例提供的问答对检索方法，通过为问句中不同的依存关系设置的重要度权重，可确定问句中词项之间的关联紧密度，根据关联度可进一步确定问句中每个词项的词项权重，通过融合重要度权重得到的词项权重可以发现问句中的重要词项，从而得到了与问句更为相关的问答对检索结果，解决了现有社区问答检索***没有考虑问句结构复杂和句式冗长而无法发现问句重要词项的缺点，进而提高了检索结果准确性的目的。

参见图5，为本发明实施例提供的社区问答检索***的组成示意图，包括：

关键词提取单元501，用于从问句中提取至少一个关键词；

关键词扩展单元502，用于获取所述关键词提取单元501获取的每个关键词的扩展词以及每个扩展词与对应关键词的最终相似度；

关系分析单元503，用于分析所述问句中具有语法关联的每两个词项之间的依存关系；

权值确定单元504，用于根据预先为所述关系分析单元503分析得到的依存关系设定的重要度权重，确定反映所述问句中每两个词项之间紧密程度的距离权重；

关联度确定单元505，用于根据所述权值确定单元504确定的距离权重确定所述问句中每两个词项之间的关联度；

第一权重确定单元506，用于根据所述关联度确定单元505确定的关联度确定所述问句中每个词项的词项权重；

第一检索单元507，用于根据所述第一权重确定单元506确定的问句中每个词项的词项权重检索与所述问句相关的问答对；

第二权重确定单元508，用于根据所述关键词扩展单元501扩展得到的扩展词与对应关键词的最终相似度计算所述扩展词的词项权重；

第二检索单元509，用于根据所述第二权重确定单元508确定的扩展词的词项权重检索与所述问句相关的问答对；

检索结果显示单元510，用于将所述第一检索单元507和所述第二检索单元509检索出的所有问答对按照预设规则进行排序显示。

在本发明实施例中，所述关键词扩展单元502，包括：

在本发明实施例中，所述权值确定单元504，包括：

在本发明实施例中，所述关联度确定单元505，具体用于按照下述公式计算所述问句中词项t_i和词项t_j之间的关联度w_rel(i,j)：

w_rel(i,j)＝λDep(t_i,t_j)+(1-λ)Close_pmi(t_i,t_j)；

其中，

{Dep}_{(t_{i}, t_{j})} = \frac{1}{b^{D i s (t_{i}, t_{j})}}, {Close}_{p m i} (t_{i}, t_{j}) = \log \frac{p (t_{i}, t_{j})}{p (t_{i}) p (t_{j})};

λ为调节因子；

b为一个大于1的常数；

Dis(t_i,t_j)为词项t_i和词项t_j之间的距离权重；

在本发明实施例中，所述第一权重确定单元506，具体用于按照下述公式计算所述问句中各词项最终权重组成的权重矩阵

W_{q}^{*} = (1 - α) {(1 - α E)}^{- 1} W_{q}^{0};

其中，α为给定常数；

为所述问句中各词项原始权重组成的权重矩阵。

在本发明实施例中，所述第二权重确定单元508，包括：

本发明实施例提供的社区问答检索***，通过为问句中不同的依存关系设置的重要度权重，可确定问句中词项之间的关联紧密度，根据关联度可进一步确定问句中每个词项的词项权重，通过融合重要度权重得到的词项权重可以发现问句中的重要词项，从而得到了与问句更为相关的问答对检索结果，解决了现有社区问答检索***没有考虑问句结构复杂和句式冗长而无法发现问句重要词项的缺点，进而提高了检索结果准确性的目的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本发明各个实施例或者实施例的某些部分所述的方法。

需要说明的是，对于实施例公开的***而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种问答对检索方法，其特征在于，包括：

将检索出的所有问答对按照预设规则进行排序显示。

2.根据权利要求1所述的方法，其特征在于，所述获取每个关键词的扩展词以及每个扩展词与对应关键词的最终相似度，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据预先为所述依存关系设定的重要度权重，确定反映所述问句中每两个词项之间紧密程度的距离权重，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述距离权重确定所述问句中每两个词项之间的关联度，包括：

w_rel(i,j)＝λDep(t_i,t_j)+(1-λ)Close_pmi(t_i,t_j)；

其中，

{Dep}_{(t_{i}, t_{j})} = \frac{1}{b^{D i s (t_{i}, t_{j})}}, {Close}_{p m i} (t_{i}, t_{j}) = \log \frac{p (t_{i}, t_{j})}{p (t_{i}) p (t_{j})};

t_i表示所述问句中的第i个词项，t_j表示所述问句中的第j个词项,

i＝1,2……n，j＝1,2……n，n为所述问句中的词项总数；

λ为调节因子；

b为一个大于1的常数；

Dis(t_i,t_j)为词项t_i和词项t_j之间的距离权重；

5.根据权利要求1至4任一项所述的方法，其特征在于，所述根据所述关联度确定所述问句中每个词项的词项权重，包括：

W_{q}^{*} = (1 - α) {(1 - α E)}^{- 1} W_{q}^{0};

其中，α为给定常数；

为所述问句中各词项原始权重组成的权重矩阵。

6.根据权利要求1所述的方法，其特征在于，所述根据所述扩展词与对应关键词的最终相似度计算所述扩展词的词项权重，包括：

获取所述扩展词对应的关键词的原始权重；

7.一种社区问答检索***，其特征在于，包括：

关键词提取单元，用于从问句中提取至少一个关键词；

8.根据权利要求7所述的***，其特征在于，所述关键词扩展单元，包括：

9.根据权利要求7所述的***，其特征在于，所述权值确定单元，包括：

10.根据权利要求9所述的***，其特征在于，所述关联度确定单元，具体用于按照下述公式计算所述问句中词项t_i和词项t_j之间的关联度w_rel(i,j)：

w_rel(i,j)＝λDep(t_i,t_j)+(1-λ)Close_pmi(t_i,t_j)；

其中，

{Dep}_{(t_{i}, t_{j})} = \frac{1}{b^{D i s (t_{i}, t_{j})}}, {Close}_{p m i} (t_{i}, t_{j}) = \log \frac{p (t_{i}, t_{j})}{p (t_{i}) p (t_{j})};

i＝1,2……n，j＝1,2……n，n为所述问句中的词项总数；

λ为调节因子；

b为一个大于1的常数；

Dis(t_i,t_j)为词项t_i和词项t_j之间的距离权重；

11.根据权利要求7至10任一项所述的***，其特征在于，所述第一权重确定单元，具体用于按照下述公式计算所述问句中各词项最终权重组成的权重矩阵

W_{q}^{*} = (1 - α) {(1 - α E)}^{- 1} W_{q}^{0};

其中，α为给定常数；

为所述问句中各词项原始权重组成的权重矩阵。

12.根据权利要求7所述的方法，其特征在于，所述第二权重确定单元，包括：