CN106294656A

CN106294656A - 一种映射查询关键字到相关问题的方法

Info

Publication number: CN106294656A
Application number: CN201610631777.7A
Authority: CN
Inventors: 黄浩; 颜钱; 李宗鹏
Original assignee: Wuhan University WHU
Current assignee: Nanjing Yuanfeng Intelligent Technology Co.,Ltd.
Priority date: 2016-08-04
Filing date: 2016-08-04
Publication date: 2017-01-04
Anticipated expiration: 2036-08-04
Also published as: CN106294656B

Abstract

本发明公开了一种映射查询关键字到相关问题的方法；首先爬取问题信息，然后抽取查询关键字和问题的主题词，选择出候选问题集合CPS _q，对于CPS _q中的每个问题，计算其与查询关键字的相关程度，通过构造相关程度和受欢迎程度计算出该问题的综合得分，并按照得分从高到低的顺序对CPS _q中的问题进行排序得到集合RP，随后通过计算RP中问题之间的余弦相似度来从各类相似问题中选择代表性的问题组成集合FP，最后更新FP中每个问题的综合得分，并按照分数从高到低的顺序对FP中的问题进行排序，返回排序后的问题集合FP作为与查询关键字相关的问题；本发明能够直接获得与用户查询关键字相关的问题和答案，从而更加深入地理解用户需求，获得更好的搜索体验。

Description

一种映射查询关键字到相关问题的方法

技术领域

本发明属于信息检索技术领域，尤其涉及一种映射查询关键字到相关问题的方法。

背景技术

伴随着web2.0的发展，基于社区的问答网站(community based questionanswering sites，简写CQA)变得更加流行，越来越多的人通过在CQA提出问题和回答问题来进行知识分享。相对于通过关键字在搜索引擎中查询所需信息，CQA上的问题能够更加明确的表达用户需求，而且CQA的每一个问题背后由许多的用户来提供答案，并标记出一个最佳答案，从而可以更好的满足用户的信息检索需求。通过CQA这样一个高质量信息平台的存在，将用户提供的查询关键字映射到CQA上的问题，不仅可以为用户提供答案，而且还可以深入理解用户需求并将其作为明确的问题来服务于web搜索结果。

在将用户提供的查询关键字映射到CQA上的问题时，有些查询关键字不可能全部包含于问题中，所以就需要确立一个标准来对查询关键字与问题之间的相关性进行判断。同时，在获得多个与查询关键字相关的问题后，应当给出能够准确的反应用户需求的问题。并且，由于CQA上很多问题具有相似性，为了满足用户多方面的需求，可以将相似的问题归为同一类别，从中选出代表性的问题，而不需要全部都展现出来。

发明内容

为了解决上述技术问题，本发明提供了一种映射查询关键字到相关问题的方法。对于给定的信息需求，人们可以直接提出问题或从问题中选择相关的单词进行查询，称这些单词为主题词。通过对查询关键字和所有问题的主题词进行分析，得到与查询关键字相关的候选问题，然后经过对候选问题进行排序和分类来准确得到用户查询关键字所映射的问题。

本发明所采用的技术方案是：一种映射查询关键字至相关问题的方法，包括以下步骤：

步骤1：在CQA上进行问题爬取，并记录每个问题所属类别，得到由N个问题组成的问题集合PS，记PS＝{P₁,P₂,...,P_N}，对于集合PS中的每个问题P_j，通过一个标准的POStagger程序来抽取其中的名词短语，然后联合其所属类别单词得到对应的主题词集合PTS_j；对于n个单词组成的查询关键字q，记q＝{w₁,w₂,...,w_n}，计算q中每个单词w_i的主题词得分Tgrade(w_i)，并将得分大于阈值θ_t的单词加入q对应的主题词集合；所述的θ_t∈[0,1]；若某个问题的主题词集合包含查询关键字的主题词集合，则将该问题加入查询关键字的候选问题集合CPS_q，否则将该问题视为与查询关键字无关的问题，不予考虑；q中每个单词w_i主题词得分Tgrade(w_i)的计算公式为：

T g r a d e (w_{i}) = \frac{Σ_{j = 1}^{N} T i m e s (w_{i} | {PTS}_{j})}{Σ_{j = 1}^{N} p t i m e s (w_{i} | P_{j})}, (i = 1, 2, ..., n)

其中，n是查询关键字q包含的单词数目；w_i是q中的单词；N是问题集合PS中包含的问题数目；Times(w_i|PTS_j)是单词w_i在集合PS里的每一个问题P_j对应的主题词集合PTS_j中的出现次数；ptimes(w_i|P_j)是单词w_i在集合PS里的每一个问题P_j中的出现次数。

步骤2：对于集合CPS_q中的每一个问题P_c，如果P_c和查询关键字q之间的相关程度越高，越有可能准确反应用户这次的信息检索需求，故而可以将问题与查询关键字的相关程度作为选择最终问题集合的一个重要参考依据，计算集合CPS_q中每一个问题P_c与查询关键字q的相关程度，对应的结果使用Cor(P_c,q)表示，Cor(P_c,q)的具体计算为：

C o r (P_{c}, q) = Π_{i = 1}^{n} (λ \times \frac{c t i m e s (w_{i} | P_{c})}{l e n g t h (P_{c})} + (1 - λ) \frac{Σ_{j = 1}^{N} p t i m e s (w_{i} | P_{j})}{Σ_{k = 1}^{n} Σ_{j = 1}^{N} p t i m e s (w_{k} | P_{j})}), (c = 1, 2, ..., N_{c})

其中，N_c是候选问题集合CPS_q包含的问题数目；n是查询关键字q包含的单词数目；w_i是q中的单词；ctimes(w_i|P_c)是单词w_i在集合CPS_q里的每一个问题P_c中的出现次数；length(P_c)是集合CPS_q中的每一个问题P_c所包含的单词个数；N是问题集合PS中包含的问题数目；ptimes(w_i|P_j)是单词w_i在集合PS里的每一个问题P_j中的出现次数；λ(λ∈(0,1))为给定的抑制因子；所述的λ∈(0,1)。

步骤3：构造一个图G，把集合CPS_q中问题作为节点，并且每一个问题对应于图G的一个节点；初始时图G只包含节点，而且任意两个节点V_m和V_n之间都不存在边；然后对于图G中的任意两个节点V_m和V_n，假设其对应于集合CPS_q中的问题P_m和P_n，计算P_m和P_n的主题词覆盖率Cover(P_m,P_n)，若Cover(P_m,P_n)大于给定阈值θ_c，则存在节点V_m到节点V_n的一条边，否则节点V_m和节点V_n仍不存在边；所述的θ_c∈[0,1]；其中主题词覆盖率Cover(P_m,P_n)的计算公式为：

其中PTS_m为问题P_m的主题词集合；||PTS_m||表示集合PTS_m中的元素个数cos(P_m,P_n)是两个问题的余弦相似度；α为给定的抑制因子；所述的α∈(0,1)。

步骤4：对于集合CPS_q中的每一个问题P_c，如果被访问的次数越多，则表明该问题越受欢迎，越有可能是这次关键字查询所对应的问题，故将问题的受欢迎程度作为选择最终问题集合的一个重要参考依据，使用Wel(P_c)表示集合CPS_q中每一个问题P_c的受欢迎程度，Wel(P_c)的具体计算为：

W e l (P_{c}) = \frac{1}{N_{c}} + d \underset{v &Element; a d j (P_{c})}{Σ} \frac{W e l (v)}{\deg (v)}, (c = 1, 2, ..., N_{c})

其中，N_c是候选问题集合CPS_q包含的问题数目；adj(P_c)代表图G中与每一个问题P_c相连的节点集合；v为集合adj(P_c)中的一个节点；deg(v)为节点v的度；d(d∈(0,1))给定的抑制因子；

步骤5：对于集合CPS_q中的每一个问题P_c，联合其受欢迎程度和与查询关键字的相关程度，计算每个问题的综合得分Grade(P_c)，按照综合性得分从大到小的顺序对CPS_q中的问题进行排序，得到排序后的问题集合RP；综合性得分Grade(P_c)的具体计算为：

Grade(P_c)＝log(Cor(P_c,q))+log(Wel(P_c)),(c＝1,2,...,N_c)

其中N_c是候选问题集合CPS_q包含的问题数目；Cor(P_c,q)是每一个问题P_c和查询关键字q的相关程度；Wel(P_c)为每一个问题P_c的受欢迎程度；

步骤6：初始化一个空集合FP，将RP中的第一个问题加入FP，然后依次选择RP中剩余的每个问题P_r，计算P_r和FP中每个问题的余弦相似度csim，记录最大的余弦相似度maxcsim和对应FP中的问题P_f，将P_r的分数Grade(P_r)加Grade(P_f)到上，同时若maxcsim小于给定阈值θ_s，则将P_r加入FP，若maxcsim大于给定阈值θ_s，所述的θ_s∈[0,1]，则认为问题P_r和P_f相似，并记录与问题P_f相似的问题个数N_fq；

步骤7：更新FP集合中每个问题P_t的综合得分，并按照更新后的分数从大到小的顺序对FP中的问题排序，返回排序后的集合FP。更新得分的公式为：

G r a d e {(P_{t})}_{N e w} = \frac{G r a d e {(P_{t})}_{O l d}}{N_{t q}}

其中Grade(P_t)_Old为FP中每个问题P_t的更新前的分数；N_tq是与每一个问题P_t相似的问题数目；Grade(P_t)_New是FP中每一个问题P_t的更新后的分数。

优选的，在步骤1中，θ_t∈[0.3,0.9]。

优选的，在步骤2中，λ∈(0.2,0.9)。

优选的，在步骤3中，α∈(0.1,1)，θ_c∈[0.3,0.9]。

优选的，在步骤4中，d∈(0.1,1)。

优选的，在步骤6中，θ_s∈[0.2,0.9]。

本发明将用户查询关键字映射为明确的问题，可以将CQA上的高质量信息整合入搜索引擎，并且能够直接获得与用户查询关键字相关的问题和答案，从而更加深入地理解用户需求，获得更好的搜索体验。

附图说明

图1：本发明实施例的流程图。

图2：本发明实施例中RP集合中得分排名前三的问题结果图；

图3：本发明实施例中排序后的FP集合中得分排名前三的问题结果图；

图4：本发明实施例中查询关键字在搜索引擎中查询得到排名前三的结果图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施实例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供了一种映射查询关键字到相关问题的方法。对于给定的查询关键字，映射与其相关的问题。

请见图1，本发明包括以下步骤：

步骤1：在Yahoo！Answers上选择“iPod”类别进行问题爬取，得到问题集合PS，记PS＝{P₁,P₂,...,P_N}。对于集合PS中的每个问题P_j，通过一个标准的POS tagger程序来抽取其中的名词短语，然后结合“iPod”得到对应的主题词集合PTS_j。

给定查询关键字q＝“iPod downloaded videos”，,计算q中每个单词w_i的主题词得分Tgrade(w_i)，并将得分大于阈值θ_t的单词加入q对应的主题词集合；所述的θ_t∈[0,1]；若某个问题的主题词集合包含查询关键字的主题词集合，则将该问题加入查询关键字的候选问题集合CPS_q，否则将该问题视为与查询关键字无关的问题，不予考虑；q中每个单词w_i主题词得分Tgrade(w_i)的计算公式为：

T g r a d e (w_{i}) = \frac{Σ_{j = 1}^{N} T i m e s (w_{i} | {PTS}_{j})}{Σ_{j = 1}^{N} p t i m e s (w_{i} | P_{j})}, (i = 1, 2, ..., n)

C o r (P_{c}, q) = Π_{i = 1}^{n} (λ \times \frac{t i m e s (w_{i} | P_{c})}{l e n g t h (P_{c})} (1 - λ) \frac{Σ_{j = 1}^{N} t i m e s (w_{i} | P_{j})}{Σ_{k = 1}^{n} Σ_{j = 1}^{N} t i m e s (w_{k} | P_{j})}), (c = 1, 2, ..., N_{c})

W e l (P_{c}) = \frac{1}{N_{c}} + d \underset{v &Element; a d j (P_{c})}{Σ} \frac{W e l (v)}{\deg (v)}, (c = 1, 2, ..., N_{c})

步骤5：对于集合CPS_q中的每一个问题P_c，联合其受欢迎程度和与查询关键字的相关程度，计算每个问题的综合得分Grade(P_c)，按照综合性得分从大到小的顺序对CPS_q中的问题进行排序，得到排序后的问题集合RP。RP集合中得分排名前三的问题如图2所示。综合性得分Grade(P_c)的具体计算为

Grade(P_c)＝log(Cor(P_c,q))+log(Wel(P_c)),(c＝1,2,...,N_c)

步骤7：更新FP集合中每个问题P_t的综合得分，并按照更新后的分数从大到小的顺序对FP中的问题排序，排序后的FP集合中综合性得分排名前三的问题如图3所示。查询关键字在搜索引擎中查询得到排名前三的结果如图4所示。返回排序后的集合FP。更新得分的公式为：

G r a d e {(P_{t})}_{N e w} = \frac{G r a d e {(P_{t})}_{O l d}}{N_{t q}}

本发明将用户查询关键字映射为明确的问题，不仅可以为用户提供答案，而且还可以深入理解用户需求并将其作为明确的问题来服务于web搜索结果，从而获得更好的搜索体验。

在步骤1中，θ_t∈[0.3,0.9]。

在步骤2中，λ∈(0.2,0.9)。

在步骤3中，α∈(0.1,1)，θ_c∈[0.3,0.9]。

在步骤4中，d∈(0.1,1)。

在步骤6中，θ_s∈[0.2,0.9]。

应当理解的是，本说明书为详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种映射查询关键字到相关问题的方法，其特征在于，包括以下步骤：

步骤1：在CQA上进行问题爬取，并记录每个问题所属类别，得到问题集合PS，记PS＝{P₁,P₂,...,P_N}，对于集合PS中的每个问题P_i，通过一个标准的POS tagger程序来抽取其中的名词短语，然后联合其所属类别单词得到对应的主题词集合PTS_i；对于n个单词组成的查询关键字q，记q＝{w₁,w₂,...,w_n}，计算q中每个单词w_i的主题词得分Tgrade(w_i)，并将得分大于阈值θ_t(θ_t∈[0,1])的单词加入q对应的主题词集合；若某个问题的主题词集合包含查询关键字的主题词集合，则将该问题加入查询关键字的候选问题集合CPS_q；q中每个单词w_i主题词得分Tgrade(w_i)的计算公式为：

T g r a d e (w_{i}) = \frac{Σ_{j = 1}^{N} T i m e s (w_{i} | {PTS}_{j})}{Σ_{j = 1}^{N} t i m e s (w_{i} | P_{j})}, (i = 1, 2, ..., n)

其中n是q包含的单词数目；w_i是q中的单词；N是PS中包含的问题数目；Times(w_i|PTS_j)是w_i在PTS_j中的出现次数；times(w_i|P_j)是w_i在P_j中的出现次数；

步骤2：对于集合CPS_q中的每一个问题P_c，如果P_c和查询关键字q之间的相关程度越高，越有可能准确反应用户这次的信息检索需求，使用Cor(P_c,q)表示P_c与查询关键字q的相关程度，Cor(P_c,q)的具体计算为：

C o r (P_{c}, q) = Π_{i = 1}^{n} (λ \times \frac{t i m e s (w_{i} | P_{c})}{l e n g t h (P_{c})} + (1 - λ) \frac{Σ_{j = 1}^{N} t i m e s (w_{i} | P_{j})}{Σ_{k = 1}^{n} Σ_{j = 1}^{N} t i m e s (w_{k} | P_{j})}), (c = 1, 2, ..., N_{c})

其中N_c是CPS_q包含的问题数目；n是q包含的单词数目；w_i是q中的单词；times(w_i|P_c)是w_i在P_c中的出现次数；length(P_c)是P_c包含的单词个数；N是PS中包含的问题数目；λ(λ∈(0,1))为给定的抑制因子；

步骤3：构造一个图G，将集合CPS_q中的每一个问题作为图G的一个节点，然后计算集合CPS_q中的任意两个问题P_i和P_j的主题词覆盖率Cover(P_i,P_j)，若Cover(P_i,P_j)大于给定阈值θ_c(θ_c∈[0,1])，则存在P_i到P_j的一条边；其中主题词覆盖率Cover(P_i,P_j)的计算公式为：

其中PTS_i为问题P_i的主题词集合；||PTS_i||表示集合PTS_i中的元素个数cos(P_i,P_j)是两个问题的余弦相似度；α(α∈(0,1))为给定的抑制因子；

步骤4：对于集合CPS_q中的每一个问题P_c，如果被访问的次数越多，则表明该问题越受欢迎，越有可能是这次关键字查询所对应的问题，使用Wel(P_c)表示P_c的受欢迎程度，Wel(P_c)的具体计算为：

W e l (P_{c}) = \frac{1}{N_{c}} + d \underset{v &Element; a d j (P_{c})}{Σ} \frac{W e l (v)}{\deg (v)}, (c = 1, 2, ..., N_{c})

其中N_c是CPS_q包含的问题数目；adj(P_c)为图G中与P_c相连的节点集合；v为集合adj(P_c)中的一个节点；deg(v)为节点v的度；d(d∈(0,1))给定的抑制因子；

步骤5：对于集合CPS_q中的每一个问题P_c，联合其受欢迎程度和与查询关键字的相关程度，计算每个问题的综合得分Grade(P_c)，按照综合性得分从大到小的顺序对CPS_q中的问题进行排序，得到排序后的问题集合RP；综合性得分Grade(P_c)的具体计算为

Grade(P_c)＝log(Cor(P_c|q))+log(Wel(P_c))

其中Cor(P_c|q)为P_c和q的相关程度；Wel(P_c)为P_c的受欢迎程度；

步骤6：初始化一个空集合FP，将RP中的第一个问题加入FP，然后依次选择RP中剩余的每个问题P_r，计算P_r和FP中每个问题的余弦相似度csim，记录最大的余弦相似度maxcsim和对应FP中的问题P_f，将P_r的分数Grade(P_f)加Grade(P_f)到上，同时若maxcsim小于给定阈值θ_s(θ_s∈[0,1])，则将P_r加入FP，否则认为问题P_r和P_f相似，并记录与问题P_f相似的问题个数N_fq；

步骤7：更新FP集合中每个问题的综合得分，并按照更新后的分数从大到小的顺序对FP中的问题排序，返回排序后的集合FP；更新得分的公式为：

G r a d e {(P_{f})}_{N e w} = \frac{G r a d e {(P_{f})}_{O l d}}{N_{f q}}

其中Grade(P_f)_Old为FP中问题P_s的更新前的分数；N_fq是与P_f相似的问题数目；Grade(P_f)_New是FP中问题P_f的更新后的分数。

2.根据权利要求1所述的一种映射查询关键字到相关问题的方法，其特征在于：在步骤1中，θ_t∈[0.3,0.9]。

3.根据权利要求1所述的一种映射查询关键字到相关问题的方法，其特征在于：在步骤2中，λ∈(0.2,0.9)。

4.根据权利要求1所述的一种映射查询关键字到相关问题的方法，其特征在于：在步骤3中，α∈(0.1,1)，θ_c∈[0.3,0.9]。

5.根据权利要求1所述的一种映射查询关键字到相关问题的方法，其特征在于：在步骤4中，d∈(0.1,1)。

6.根据权利要求1所述的一种映射查询关键字到相关问题的方法，其特征在于：在步骤6中，θ_s∈[0.2,0.9]。