CN104899188A - 一种基于问题主题和焦点的问题相似度计算方法 - Google Patents

一种基于问题主题和焦点的问题相似度计算方法 Download PDF

Info

Publication number
CN104899188A
CN104899188A CN201510270876.2A CN201510270876A CN104899188A CN 104899188 A CN104899188 A CN 104899188A CN 201510270876 A CN201510270876 A CN 201510270876A CN 104899188 A CN104899188 A CN 104899188A
Authority
CN
China
Prior art keywords
word
similarity
theme
focus
relevant issues
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510270876.2A
Other languages
English (en)
Inventor
鲁伟明
余瑶
吴江琴
庄越挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201510270876.2A priority Critical patent/CN104899188A/zh
Publication of CN104899188A publication Critical patent/CN104899188A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于问题主题和焦点的问题相似度计算方法。利用分词工具对问题数据进行分词等基本的预处理,在此基础上基于最短描述长度的树裁剪模型将每个问题划分成问题主题和问题焦点;针对两个问题的主题结构和焦点结构分别采用语言模型和基于翻译的语言模型计算相似度得分,并通过加权求和得到联合相似度;采用基于BTM主题模型的方法计算两个问题之间的主题相似度,两个相似度最后通过加权求和得到最终的问题相似度。本发明将问题的结构特征和主题信息引入到问题相似度计算当中,对问题信息利用更加充分,通过将单词统计信息之外的问题主题信息引入到问题相似度计算,提高了问题相似度计算的准确率。

Description

一种基于问题主题和焦点的问题相似度计算方法
技术领域
本发明涉及了一种问题相似度计算方法,尤其涉及了一种基于问题主题和焦点的问题相似度计算方法。
背景技术
随着互联网的迅速发展,人们获取信息和知识的途径越来越多样化,基于常问问题集(FAQ)的问答***便是其中一个有效的方式。问题相似度计算的研究对基于常问问题集问答***具有很重要的意义,而问题相似度计算的准确率对问答***性能也有很重要的作用。那么如何提高问题相似度计算的准确率自然地成为了当前研究的热点。
目前问题相似度的计算主要分为四种方法:基于单词统计信息检索模型的方法;基于语义词典的计算方法;基于大规模文档集的计算方法;基于编辑距离的计算方法。
TF-IDF方法基于单词词频的统计信息计算问题之间的相似度,不需要对语句进行深度的理解。由于问题长度很短,导致特征向量稀疏,因此TF-IDF对于问题相似度计算的效果并不是很好。
基于语义词典的方法将问题文本分成一系列的单词,基于语义词典去计算单词之间的相似度,然后基于单词的相似度去计算问题之间的相似度。对于英文,常用的语义词典有WordNet,对于中文,常用的语义词典是HowNet。基于语义词典的相似度计算方法有使用简单,计算快速等优点。但是也有两个明显的缺点:语义词典不可能包含所有的单词;有的是一词多意,导致不好选择哪个意思去做单词相似度计算。
基于大规模文档集进行统计的方法是近些年研究比较多的计算短文本相似度的方法之一。Deerwester SC提出的latent Semantic Analysis(LSA)就是一种流行的基于文本集的相似度计算方法。通过LSA方法计算问题相似度也有一些问题。例如,用户输入的问题包含了一些不在语义空间的新词,另外由于构造的概念空间是固定的,因此表示问题的向量的维度也是固定的,可能会导致描述问题的向量非常稀疏,影响计算相似度的精度。
编辑距离最初处理的是不考虑语义的字符,它在字符串相似度计算、数据清理、拼写检查等众多领域有着广泛的应用。在计算语句相似度方法,也有一定的应用。例如,Leusch等人利用编辑距离计算语句相似度,而且还用于机器翻译。后来又有人提出了将编辑距离和语义词典相结合的方法。主要内容是:以普通编辑距离算法为基础,采用词作为基本的编辑单元而不是单个的汉字,然后采用语义距离作为单词之间的替换代价并且赋值***、删除和替换三种操作不同的权重。这种方法考虑了词汇的顺序和语义等信息,计算和实现都比较简单,也能得到不错的效果。但是这些方法都是基于文本的统计属性,不能很好的体现文本的语义相似度。
发明内容
本发明是为了克服目前计算问题相似度方法的不足之处,提高问题检索的准确率,提供一种基于问题主题和焦点的问题相似度计算方法,用于问答***中计算用户提出的问题和常问问题集中问题的相似度,对问题回答和常问问题集的更新都有着重要意义和作用。
本发明解决其技术问题采用的技术方案包括以下步骤:
1)预处理常问问题集数据:通过自然语言处理工具将问题集数据分词,去除无效词,记录每个问题所属的类别;
2)划分问题的主题和焦点结构:根据分词结果构建词空间,并计算其中每个单词的specificity得分,根据问题所包含单词的specificity得分大小对单词进行重排序形成问题的topic链;然后基于最短描述长度的树裁剪模型将目标问题和相关问题的topic链进行划分,得到每个问题的主题结构和焦点结构;
3)基于问题主题和焦点计算问题间的联合相似度:针对目标问题和相关问题的主题结构,采用语言模型的方法计算联合相似度;针对目标问题和相关问题的焦点结构,采用基于翻译的语言模型的方法计算联合相似度;最后通过计算上述两个相似度的加权和得到问题主题和焦点的联合相似度;
4)计算问题相似度:基于BTM主题模型计算目标问题和相关问题之间的主题相似度,通过将主题相似度和步骤3)中计算得出的联合相似度进行加权求和得到最终的问题相似度。
所述的步骤2)包括:
2.1)根据步骤1)中的分词结果构建词空间,并根据问题数据所属类别的统计信息采用以下公式计算词空间中每个单词的specificity得分,构建计算单词specificity得分的公式:
S(w)=1/(-∑c∈CP(c|w)logP(c|w)+ε)
P ( c | w ) = count ( c , w ) Σ c ∈ C count ( c , w )
其中,S(w)表示单词w对应的specificity得分,c表示某一问题的类别,C表示问题数据所对应的所有类别集合,P(c|w)为单词w在类别c中出现的概率;count(c,w)表示类别c中单词w出现的次数;ε表示平滑系数。
2.2)对于每个问题,根据其分词后每个单词的specificity得分,对该问题的单词重新排序,得到该问题的topic链;
2.3)将目标问题的topic链及其相关问题的topic链结合在一起,形成一棵问题树,树的root节点为空;利用基于最短描述长度的树裁剪模型对这棵树进行裁剪,对于一个树和一种裁剪方法,构建以下公式的树描述长度L(M,S)进行计算:
L(M,S)=L(Γ)+L(θ|Γ)+L(S|Γ,θ)
M=(Γ,θ)
Γ=(C1,C2,...,Ck)
θ=[P(C1),P(C2),...,P(Ck)]
其中,Γ表示树经过裁剪过后的节点类别,θ表示类别对应的概率分布向量,M表示Γ决定的树裁剪模型,S表示样本集,且k为类别集合的总数,为类别Ci对应的概率;
选择使得树描述长度最短的一个裁剪方式和一个树裁剪模型M作为划分问题主题和焦点的方法,对问题树进行裁剪,对应的树枝也会被划分为二,其中靠近根节点root的部分构成该树枝对应问题的主题结构,剩余部分构成该树枝对应问题的焦点结构。
所述的步骤3)包括:
3.1)对于目标问题T和相关问题Q的主题结构部分,基于语言模型计算主题结构相似度,主题结构相似度采用以下公式计算:
P LM ( T t | Q t ) = Π w ∈ T t P LM ( w | Q t )
P LM ( w | Q t ) = ( 1 - λ ) # ( w , Q t ) | Q t | + λ # ( w , C ) | C |
其中,Tt和Qt分别表示目标问题T和相关问题Q的主题结构,PLM(Tt|Qt)表示目标问题T和相关问题Q的主题结构相似度,PLM(w|Qt)为相关问题Q的主题结构Qt生成单词w的概率,#(w,Qt)表示单词w在相关问题Q的主题结构Qt中出现的次数,#(w,C)为单词w在类别C中出现的次数,λ是Jelinek-Mercer平滑系数;
3.2)对于目标问题T和相关问题Q的焦点结构部分,利用基于翻译的语言模型计算焦点结构相似度,主题结构相似度采用以下公式计算:
P TRLM ( T f | Q f ) = Π w ∈ T f P TRLM ( w | Q f )
P TRLM ( w | Q f ) = ( 1 - λ ) [ α Σ t ∈ Q f P ( w | t ) # ( t , Q f ) | Q f | + ( 1 - α ) # ( w , Q f ) | Q f | + λ # ( w , C ) | C | ]
其中,P(w|t)表示单词t到单词w的翻译概率,PTRLM(Tf|Qf)表示目标问题T和相关问题Q的焦点结构相似度,α表示翻译概率部分所占的权重,PTRLM(w|Qf)为相关问题Q的焦点结构Qf生成单词w的概率,Tf和Qf分别表示目标问题T和相关问题Q的焦点结构,#(t,Qf)表示单词t在相关问题Q的焦点结构Qf中出现的次数;#(w,Qf)表示单词w在相关问题Q的焦点结构Qf中出现的次数;
3.3)在计算了目标问题T和相关问题Q的主题和焦点相似度之后,通过加权求和的方式计算联合相似度,构建计算联合相似度的公式:
DisT&F(T,Q)=τPLM(Tt|Qt)+(1-τ)PTRLM(Tf|Qf)
其中,DisT&F(T,Q)表示目标问题T和相关问题Q的联合相似度;τ表示加权系数。
所述的步骤4)包括:
4.1)基于BTM主题模型对问题的问题集数据进行训练得到相应的主题空间和问题对应的主题向量,利用欧式距离计算得到两个问题之间的主题相似度;
4.2)将通过4.1)计算得到的目标问题T和相关问题Q的主题相似度和通过得到的目标问题T和相关问题Q的联合相似度采用以下公式进行加权求和,最终得到目标问题T和相关问题Q之间的问题相似度:
Dis(T,Q)=μDisT&F(T,Q)+(1-μ)DisTopic(T,Q)
其中,μ表示加权系数,μ=0.9;DisT&F(T,Q)表示问题T和问题Q之间的联合相似度,DisTopic(T,Q)表示问题T和问题Q之间的主题相似度。
所述步骤4.1)中主题相似度的具体计算过程如下:
4.1.1)根据问题数据和词典计算词对集合B,词对是指通过预处理之后出现在同一个文本片段中且无序的两个不同的词,对于问题数据,可以将每个问题看成一个独立的文本片段,为每个词对随机指定主题进行初始化操作;
4.1.2)根据4.1.1)的结果采用以下公式计算词对-主题分布P(z|b):
P ( z | b ) = P ( z ) P ( w i | z ) P ( w j | z ) Σ z P ( z ) P ( w i | z ) P ( w j | z )
其中,z表示主题,b表示词对,wi和wj表示词对b中的两个单词,P(z)表示主题z的概率,P(wi|z)表示主题z下单词wi的概率;
4.1.3)采用以下公式计算问题-词对分布P(b|d):
P ( b | d ) = n d ( b ) Σ b n d ( b )
其中,d表示问题,nd(b)表示问题d中词对b出现的次数;
4.1.4)根据4.1.2)和4.1.3)的结果采用以下公式计算问题-主题分布:
P ( z | d ) = Σ b P ( z | b ) P ( b | d )
通过如上四个步骤就可将问题的词向量空间映射到由BTM主题模型训练得到的主题向量空间,得到每个问题在各个主题上的概率分布,从而得到问题的主题向量,向量的维数等于主题空间中主题的个数;
4.1.5)最后通过欧式距离计算两个问题的主体向量的距离,以这个距离作为两个问题之间的主题相似度。
所述步骤1)中的自然语言处理工具为fudanNLP、哈工大语言云平台LTP、结巴分词等工具。通过这些工具将常问问题集数据分词,去除无效词,构建词向量空间,记录每个问题所属的类别。
本发明方法与现有技术相比具有的有益效果:
1、该方法利用了问题数据本身的结构特点将问题划分为主题和焦点两个部分,对问题信息利用更加充分,从而使得问题相似度计算结果更加准确;
2、该方法针对问题是短文本数据采用了基于BTM主题模型的方法计算了两个问题之间的相似度,通过将单词统计信息之外的问题主题信息引入到问题相似度计算,从而使得问题相似度计算结果更加准确;
3、该方法对于问题主题和焦点部分分别采用不同的方法,并通过将单词之间的转移概率引入到相似度计算中,考虑到了问题之间的语义相似度,从而使得问题相似度计算结果更加准确。
附图说明
图1是本发明的总体流程图;
图2是步骤2)的流程图;
图3是步骤3)的流程图;
图4是步骤4)的流程图;
图5是实施例形成树结果示意图;
图6是实施例剪裁结果示意图;
图7是实施例结果部分展示图。
具体实施方式
如图1所示,本发明方法,包括以下步骤:
1)预处理常问问题集数据:通过自然语言处理工具将问题集数据分词,去除无效词,记录每个问题所属的类别;
所述步骤1)中的自然语言处理工具为fudanNLP、哈工大语言云平台LTP、结巴分词等工具。通过这些工具将常问问题集数据分词,去除无效词,构建词向量空间,记录每个问题所属的类别。
2)划分问题的主题和焦点结构:
如图2所示,根据分词结果构建词空间,并计算其中每个单词的specificity得分,根据问题所包含单词的specificity得分大小对单词进行重排序形成问题的topic链;然后基于最短描述长度的树裁剪模型将目标问题和相关问题的topic链进行划分,得到每个问题的主题结构和焦点结构。
2.1)根据步骤1)中的分词结果构建词空间,并根据问题数据所属类别的统计信息采用以下公式计算词空间中每个单词的specificity得分,构建计算单词specificity得分的公式:
S(w)=1/(-∑c∈CP(c|w)logP(c|w)+ε)
P ( c | w ) = count ( c , w ) Σ c ∈ C count ( c , w )
其中,S(w)表示单词w对应的specificity得分,c表示某一问题的类别,C表示问题数据所对应的所有类别集合,P(c|w)为单词w在类别c中出现的概率;count(c,w)表示类别c中单词w出现的次数;ε表示平滑系数,具体实施中ε=0.001。
2.2)对于每个问题,根据其分词后每个单词的specificity得分,对该问题的单词重新排序,得到该问题的topic链;
例如得到某个问题q的topic链是根据该问题的单词specificity得分排序而得到的单词序列:w1→w2→...→wi→...→wn;其中,单词wi包含在问题q中,且1≤i≤n;满足S(wh)>S(wl),1≤h<l≤n。由此,问题中specificity得分越低的单词越能代表问题的焦点,相反,specificity得分越高的单词越能代表问题的主题。
2.3)将目标问题的topic链及其相关问题的topic链结合在一起,形成一棵问题树,树的root节点为空;
利用基于最短描述长度的树裁剪模型对这棵树进行裁剪,可以采用任何一种裁剪方式进行裁剪,对于每一种裁剪方式都可以计算出该方式下树的描述长度,对于一个树和一种裁剪方法,构建以下公式的树描述长度L(M,S)进行计算:
L(M,S)=L(Γ)+L(θ|Γ)+L(S|Γ,θ)
M=(T,θ)
Γ=(C1,C2,...,Ck)
θ=[P(C1),P(C2),...,P(Ck)]
其中,Γ表示树经过裁剪过后的节点类别,θ表示类别对应的概率分布向量,M表示Γ决定的树裁剪模型,S表示样本集,且k为类别集合的总数,为类别Ci对应的概率;
选择使得树描述长度最短的一个裁剪方式和一个树裁剪模型M作为划分问题主题和焦点的方法,对问题树进行裁剪,对应的树枝也会被划分为二,其中靠近根节点root的部分构成该树枝对应问题的主题结构,剩余部分构成该树枝对应问题的焦点结构。
3)基于问题主题和焦点计算问题间的联合相似度:如图3所示,针对目标问题和相关问题的主题结构,采用语言模型的方法计算联合相似度;针对目标问题和相关问题的焦点结构,采用基于翻译的语言模型的方法计算联合相似度;最后通过计算上述两个相似度的加权和得到问题主题和焦点的联合相似度。
3.1)对于目标问题T和相关问题Q的主题结构部分,基于语言模型计算主题结构相似度,主题结构相似度采用以下公式计算:
P LM ( T t | Q t ) = Π w ∈ T t P LM ( w | Q t )
P LM ( w | Q t ) = ( 1 - λ ) # ( w , Q t ) | Q t | + λ # ( w , C ) | C |
其中,Tt和Qt分别表示目标问题T和相关问题Q的主题结构,PLM(Tt|Qt)表示目标问题T和相关问题Q的主题结构相似度,PLM(w|Qt)为相关问题Q的主题结构Qt生成单词w的概率,#(w,Qt)表示单词w在相关问题Q的主题结构Qt中出现的次数,#(w,C)为单词w在类别C中出现的次数,λ是Jelinek-Mercer平滑系数,具体实施中λ=0.1;
3.2)对于目标问题T和相关问题Q的焦点结构部分,利用基于翻译的语言模型计算焦点结构相似度,主题结构相似度采用以下公式计算:
P TRLM ( T f | Q f ) = Π w ∈ T f P TRLM ( w | Q f )
P TRLM ( w | Q f ) = ( 1 - λ ) [ α Σ t ∈ Q f P ( w | t ) # ( t , Q f ) | Q f | + ( 1 - α ) # ( w , Q f ) | Q f | + λ # ( w , C ) | C | ]
其中,P(w|t)表示单词t到单词w的翻译概率,PTRLM(Tf|Qf)表示目标问题T和相关问题Q的焦点结构相似度,α表示翻译概率部分所占的权重,PTRLM(w|Qf)为相关问题Q的焦点结构Qf生成单词w的概率,Tf和Qf分别表示目标问题T和相关问题Q的焦点结构,#(t,Qf)表示单词t在相关问题Q的焦点结构Qf中出现的次数;#(w,Qf)表示单词w在相关问题Q的焦点结构Qf中出现的次数,#(w,C)为单词w在类别C中出现的次数;
3.3)在计算了目标问题T和相关问题Q的主题和焦点相似度之后,通过加权求和的方式计算联合相似度,构建计算联合相似度的公式:
DisT&F(T,Q)=τPLM(Tt|Qt)+(1-τ)PTRLM(Tf|Qf)
其中,DisT&F(T,Q)表示目标问题T和相关问题Q的联合相似度;τ表示加权系数,具体实施中τ=0.4。
4)计算问题相似度:如图4所示,基于BTM主题模型计算目标问题和相关问题之间的主题相似度,通过将主题相似度和步骤3)中计算得出的联合相似度进行加权求和得到最终的问题相似度。
4.1)基于BTM主题模型对问题的问题集数据进行训练得到相应的主题空间和问题对应的主题向量,利用欧式距离计算得到两个问题之间的主题相似度;
4.1.1)根据问题数据和词典计算词对集合B,词对是指通过预处理之后出现在同一个文本片段中且无序的两个不同的词,对于问题数据,可以将每个问题看成一个独立的文本片段,为每个词对随机指定主题进行初始化操作;然后根据Gibbs抽样的方法计算出BTM主题模型的参数θ和
4.1.2)根据4.1.1)的结果采用以下公式计算词对-主题分布P(z|b):
P ( z | b ) = P ( z ) P ( w i | z ) P ( w j | z ) Σ z P ( z ) P ( w i | z ) P ( w j | z )
其中,z表示主题,b表示词对,wi和wj表示词对b中的两个单词,P(z)表示主题z的概率,P(wi|z)表示主题z下单词wi的概率;
4.1.3)采用以下公式计算问题-词对分布P(b|d):
P ( b | d ) = n d ( b ) Σ b n d ( b )
其中,d表示问题,nd(b)表示问题d中词对b出现的次数;
4.1.4)根据4.1.2)和4.1.3)的结果采用以下公式计算问题-主题分布:
P ( z | d ) = Σ b P ( z | b ) P ( b | d )
通过如上四个步骤就可将问题的词向量空间映射到由BTM主题模型训练得到的主题向量空间,得到每个问题在各个主题上的概率分布,从而得到问题的主题向量,向量的维数等于主题空间中主题的个数;
4.1.5)最后通过欧式距离计算两个问题的主体向量的距离,以这个距离作为两个问题之间的主题相似度。
4.2)将通过4.1)计算得到的目标问题T和相关问题Q的主题相似度和通过得到的目标问题T和相关问题Q的联合相似度采用以下公式进行加权求和,最终得到目标问题T和相关问题Q之间的问题相似度:
Dis(T,Q)=μDisT&F(T,Q)+(1-μ)DisTopic(T,Q)
其中,μ表示加权系数,μ=0.9;DisT&F(T,Q)表示问题T和问题Q之间的联合相似度,DisTopic(T,Q)表示问题T和问题Q之间的主题相似度。
下面结合本发明的方法详细说明本实例实施的具体步骤,如下:
(1)实例采用的数据集均来自数字图书馆中问答类型的图书。本实例一共从图书工程科教类图书资源中抽取了610本问答类图书,共计137888条问题集。问题涉及类别:农业、生物、化工、计算机、电子、机械制造、航空航天、医药、自动化等,共25个大类别。经过步骤1)的预处理得到词表大小为54074的词空间。
(2)根据(1)中信息,计算词空间中每个单词的specificity得分,然后按照问题的分词结果中每个单词的specificity得分从高到低对单词进行重排序,形成了问题的topic链。以问题“电脑总是死机,是什么原因?”为例,它的分词结果为“电脑总是死机什么原因”,通过计算每个电磁的specificity得分并排序得到的topic链为“电脑->死机->总是->原因->什么”。采用上述方式将目标问题的topic链和相关问题的topic链结合形成问题树。以问题“电脑总是死机,是什么原因?”、“电脑的工作原理是怎样的?”、“电脑的主要组成部分有哪些?”这三个问题为例,他们形成的问题树如附图5所示。
(3)基于最短描述长度的树裁剪方法对(2)中得到的问题树进行裁剪,裁剪之后问题树中对应的树枝也会被划分为二,其中靠近根节点root的那部分代表该树枝对应问题的主题结构,另外一部分代表该树枝对应问题的焦点结构。以附图5的树为例,最后的裁剪结果为附图6所示。在分隔线上方的为问题的主题结构,下方的为问题焦点结构。例如,问题“电脑总是死机,是什么原因?”的主题结构为(电脑、死机),焦点结构为(总是、原因、什么)。
(4)基于语言模型对(3)中得到的问题主题结构部分进行相似度计算;采用公开的相似问题对集合作为平行语料库,然后利用翻译模型训练出单词之间转移概率以便在基于翻译的语言模型使用。利用基于翻译的语言模型对(3)中得到的问题焦点结构部分进行相似度计算。最后,将问题主题结构部分相似度和问题焦点结构部分相似度进行加权求和得到联合相似度。
(5)基于BTM语言模型将问题的词向量转换为主题空间中的主题特征向量,基于此向量利用欧式距离计算两个问题之间的主题相似度。
(6)将(4)中计算得到的联合相似度和(5)中计算得到的主题相似度进行加权求和,最终得到两个问题之间的问题相似度,并返回。
本实例的运行结果:通过Pk和NDCGk两种评价指标将本发明所使用的方法和传统的基于向量空间模型(VSM)和语言模型(LM)的问题相似度计算方法进行比较。其中Pk的结果如附图7所示。NDCGk的结果如下表所示:
方法 NDCG1 NDCG3 NDCG5
VSM 79.2% 76.28% 70.8%
LM 80.3% 77.89% 71.45%
本方法 82% 80.9% 77.86%
对比可以看出,本方法在问题相似度计算的准确度上明显目前的问题相似度计算方法的准确度。这种基于问题主题和焦点的问题相似度计算方法有良好的使用价值和应用前景。

Claims (6)

1.一种基于问题主题和焦点的问题相似度计算方法,其特征在于包括以下步骤:
1)预处理常问问题集数据:通过自然语言处理工具将问题集数据分词,去除无效词,记录每个问题所属的类别;
2)划分问题的主题和焦点结构:根据分词结果构建词空间,并计算其中每个单词的specificity得分,根据问题所包含单词的specificity得分大小对单词进行重排序形成问题的topic链;然后基于最短描述长度的树裁剪模型将目标问题和相关问题的topic链进行划分,得到每个问题的主题结构和焦点结构;
3)基于问题主题和焦点计算问题间的联合相似度:针对目标问题和相关问题的主题结构,采用语言模型的方法计算联合相似度;针对目标问题和相关问题的焦点结构,采用基于翻译的语言模型的方法计算联合相似度;最后通过计算上述两个相似度的加权和得到问题主题和焦点的联合相似度;
4)计算问题相似度:基于BTM主题模型计算目标问题和相关问题之间的主题相似度,通过将主题相似度和步骤3)中计算得出的联合相似度进行加权求和得到最终的问题相似度。
2.根据权利要求1中所述的基于问题主题和焦点的问题相似度计算方法,其特征在于所述的步骤2)包括:
2.1)根据步骤1)中的分词结果构建词空间,并根据问题数据所属类别的统计信息采用以下公式计算词空间中每个单词的specificity得分,构建计算单词specificity得分的公式:
S(w)=1/(-∑c∈CP(c|w)logP(c|w)+ε)
P ( c | w ) = count ( c , w ) Σ c ∈ C count ( c , w )
其中,S(w)表示单词w对应的specificity得分,c表示某一问题的类别,C表示问题数据所对应的所有类别集合,P(c|w)为单词w在类别c中出现的概率;count(c,w)表示类别c中单词w出现的次数;ε表示平滑系数。
2.2)对于每个问题,根据其分词后每个单词的specificity得分,对该问题的单词重新排序,得到该问题的topic链;
2.3)将目标问题的topic链及其相关问题的topic链结合在一起,形成一棵问题树,树的root节点为空;利用基于最短描述长度的树裁剪模型对这棵树进行裁剪,对于一个树和一种裁剪方法,构建以下公式的树描述长度L(M,S)进行计算:
L(M,S)=L(Γ)+L(θ|Γ)+L(S|Γ,θ)
M=(Γ,θ)
Γ=(C1,C2,…,Ck)
θ=[P(C1),P(C2),…,P(Ck)]
其中,Γ表示树经过裁剪过后的节点类别,θ表示类别对应的概率分布向量,M表示Γ决定的树裁剪模型,S表示样本集,且k为类别集合的总数,为类别Ci对应的概率;
选择使得树描述长度最短的一个裁剪方式和一个树裁剪模型M作为划分问题主题和焦点的方法,对问题树进行裁剪,对应的树枝也会被划分为二,其中靠近根节点root的部分构成该树枝对应问题的主题结构,剩余部分构成该树枝对应问题的焦点结构。
3.根据权利要求1中所述的基于问题主题和焦点的问题相似度计算方法,其特征在于所述的步骤3)包括:
3.1)对于目标问题T和相关问题Q的主题结构部分,基于语言模型计算主题结构相似度,主题结构相似度采用以下公式计算:
P LM ( T t | Q t ) = Π w ∈ T t P LM ( w | Q t )
P LM ( w | Q t ) = ( 1 - λ ) # ( w , Q t ) | Q t | + λ # ( w , C ) | C |
其中,Tt和Qt分别表示目标问题T和相关问题Q的主题结构,PLM(Tt|Qt)表示目标问题T和相关问题Q的主题结构相似度,PLM(w|Qt)为相关问题Q的主题结构Qt生成单词w的概率,#(w,Qt)表示单词w在相关问题Q的主题结构Qt中出现的次数,#(w,C)为单词w在类别C中出现的次数,λ是Jelinek-Mercer平滑系数;
3.2)对于目标问题T和相关问题Q的焦点结构部分,利用基于翻译的语言模型计算焦点结构相似度,主题结构相似度采用以下公式计算:
P TRLM ( T f | Q f ) = Π w ∈ T f P TRLM ( w | Q f )
P TRLM ( W | Q f ) = ( 1 - λ ) [ α Σ t ∈ Q f P ( w | t ) # ( t , Q f ) | Q f | + ( 1 - α ) # ( w , Q f ) | Q f | ] + λ # ( w , C ) | C |
其中,P(w|t)表示单词t到单词w的翻译概率,PTRLM(Tf|Qf)表示目标问题T和相关问题Q的焦点结构相似度,α表示翻译概率部分所占的权重,PTRLM(w|Qf)为相关问题Q的焦点结构Qf生成单词w的概率,Tf和Qf分别表示目标问题T和相关问题Q的焦点结构,#(t,Qf)表示单词t在相关问题Q的焦点结构Qf中出现的次数;#(w,Qf)表示单词w在相关问题Q的焦点结构Qf中出现的次数;
3.3)在计算了目标问题T和相关问题Q的主题和焦点相似度之后,通过加权求和的方式计算联合相似度,构建计算联合相似度的公式:
DisT&F(T,Q)=τPLM(Tt|Qt)+(1-τ)PTRLM(Tf|Qf)
其中,DisT&F(T,Q)表示目标问题T和相关问题Q的联合相似度;τ表示加权系数。
4.根据权利要求1中所述的基于问题主题和焦点的问题相似度计算方法,其特征在于所述的步骤4)包括:
4.1)基于BTM主题模型对问题的问题集数据进行训练得到相应的主题空间和问题对应的主题向量,利用欧式距离计算得到两个问题之间的主题相似度;
4.2)将通过4.1)计算得到的目标问题T和相关问题Q的主题相似度和通过得到的目标问题T和相关问题Q的联合相似度采用以下公式进行加权求和,最终得到目标问题T和相关问题Q之间的问题相似度:
Dis(T,Q)=μDisT&F(T,Q)+(1-μ)DisTopic(T,Q)
其中,μ表示加权系数,μ=0.9;DisT&F(T,Q)表示问题T和问题Q之间的联合相似度,DisTopic(T,Q)表示问题T和问题Q之间的主题相似度。
5.根据权利要求4中所述的基于问题主题和焦点的问题相似度计算方法,其特征在于:所述步骤4.1)中主题相似度的具体计算过程如下:
4.1.1)根据问题数据和词典计算词对集合B,词对是指通过预处理之后出现在同一个文本片段中且无序的两个不同的词,对于问题数据,可以将每个问题看成一个独立的文本片段,为每个词对随机指定主题进行初始化操作;
4.1.2)根据4.1.1)的结果采用以下公式计算词对-主题分布P(z|b):
P ( z | b ) = P ( z ) P ( w i | z ) P ( w j | z ) Σ z P ( z ) P ( w i | z ) P ( w j | z )
其中,z表示主题,b表示词对,wi和wj表示词对b中的两个单词,P(z)表示主题z的概率,P(wi|z)表示主题z下单词wi的概率;
4.1.3)采用以下公式计算问题-词对分布P(b|d):
P ( b | d ) = n d ( b ) Σ b n d ( b )
其中,d表示问题,nd(b)表示问题d中词对b出现的次数;
4.1.4)根据4.1.2)和4.1.3)的结果采用以下公式计算问题-主题分布:
P ( z | d ) = Σ b P ( z | b ) P ( b | d )
通过如上四个步骤就可将问题的词向量空间映射到由BTM主题模型训练得到的主题向量空间,得到每个问题在各个主题上的概率分布,从而得到问题的主题向量,向量的维数等于主题空间中主题的个数;
4.1.5)最后通过欧式距离计算两个问题的主体向量的距离,以这个距离作为两个问题之间的主题相似度。
6.根据权利要求1中所述的基于问题主题和焦点的问题相似度计算方法,其特征在于:所述步骤1)中的自然语言处理工具为fudanNLP、哈工大语言云平台LTP、结巴分词等工具。通过这些工具将常问问题集数据分词,去除无效词,构建词向量空间,记录每个问题所属的类别。
CN201510270876.2A 2015-03-11 2015-05-25 一种基于问题主题和焦点的问题相似度计算方法 Pending CN104899188A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510270876.2A CN104899188A (zh) 2015-03-11 2015-05-25 一种基于问题主题和焦点的问题相似度计算方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510106393 2015-03-11
CN2015101063939 2015-03-11
CN201510270876.2A CN104899188A (zh) 2015-03-11 2015-05-25 一种基于问题主题和焦点的问题相似度计算方法

Publications (1)

Publication Number Publication Date
CN104899188A true CN104899188A (zh) 2015-09-09

Family

ID=54031857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510270876.2A Pending CN104899188A (zh) 2015-03-11 2015-05-25 一种基于问题主题和焦点的问题相似度计算方法

Country Status (1)

Country Link
CN (1) CN104899188A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105786794A (zh) * 2016-02-05 2016-07-20 青岛理工大学 一种问答对检索方法及社区问答检索***
CN106202574A (zh) * 2016-08-19 2016-12-07 清华大学 面向微博平台话题推荐的评估方法及装置
CN106599196A (zh) * 2016-12-14 2017-04-26 竹间智能科技(上海)有限公司 一种人工智能对话方法及***
CN107273913A (zh) * 2017-05-11 2017-10-20 武汉理工大学 一种基于多特征融合的短文本相似度计算方法
CN107729300A (zh) * 2017-09-18 2018-02-23 百度在线网络技术(北京)有限公司 文本相似度的处理方法、装置、设备和计算机存储介质
CN108536852A (zh) * 2018-04-16 2018-09-14 上海智臻智能网络科技股份有限公司 问答交互方法和装置、计算机设备及计算机可读存储介质
CN108595619A (zh) * 2018-04-23 2018-09-28 海信集团有限公司 一种问答方法及设备
CN108874772A (zh) * 2018-05-25 2018-11-23 太原理工大学 一种多义词词向量消歧方法
CN109522479A (zh) * 2018-11-09 2019-03-26 广东美的制冷设备有限公司 搜索处理方法及装置
CN110895656A (zh) * 2018-09-13 2020-03-20 武汉斗鱼网络科技有限公司 一种文本相似度计算方法、装置、电子设备及存储介质
CN111191034A (zh) * 2019-12-30 2020-05-22 科大讯飞股份有限公司 人机交互方法、相关设备及可读存储介质
CN113821639A (zh) * 2021-09-18 2021-12-21 支付宝(杭州)信息技术有限公司 一种文本焦点分析方法和***
CN113821639B (zh) * 2021-09-18 2024-07-02 支付宝(杭州)信息技术有限公司 一种文本焦点分析方法和***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101566998A (zh) * 2009-05-26 2009-10-28 华中师范大学 一种基于神经网络的中文问答***
CN101694659A (zh) * 2009-10-20 2010-04-14 浙江大学 基于多主题追踪的个性化网络新闻推送方法
CN103823848A (zh) * 2014-02-11 2014-05-28 浙江大学 一种基于lda和vsm的中草药相似文献的推荐方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101566998A (zh) * 2009-05-26 2009-10-28 华中师范大学 一种基于神经网络的中文问答***
CN101694659A (zh) * 2009-10-20 2010-04-14 浙江大学 基于多主题追踪的个性化网络新闻推送方法
CN103823848A (zh) * 2014-02-11 2014-05-28 浙江大学 一种基于lda和vsm的中草药相似文献的推荐方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HUIZHONG DUAN ET AL: "Searching Questions by Identifying Question Topic and Question Focus", 《PROCEEDINGS OF ACL-08:HLT》 *
LI CAI ET AL: "Learning the Latent Topics for Question Retrievel in Community QA", 《INTERNATIONAL JOINT CONFERENCE ON NATURAL LANGUAGE PROCESSING》 *
XIAOHUI YAN ET AL: "A Biterm Topic Model for Short Texts", 《WWW 13:PROCEEDINGS OF THE 22ND INTERNATIONAL CONFERENCE ON WORLD WIDE WEB》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105786794B (zh) * 2016-02-05 2018-09-04 青岛理工大学 一种问答对检索方法及社区问答检索***
CN105786794A (zh) * 2016-02-05 2016-07-20 青岛理工大学 一种问答对检索方法及社区问答检索***
CN106202574A (zh) * 2016-08-19 2016-12-07 清华大学 面向微博平台话题推荐的评估方法及装置
CN106599196A (zh) * 2016-12-14 2017-04-26 竹间智能科技(上海)有限公司 一种人工智能对话方法及***
CN107273913B (zh) * 2017-05-11 2020-04-21 武汉理工大学 一种基于多特征融合的短文本相似度计算方法
CN107273913A (zh) * 2017-05-11 2017-10-20 武汉理工大学 一种基于多特征融合的短文本相似度计算方法
CN107729300A (zh) * 2017-09-18 2018-02-23 百度在线网络技术(北京)有限公司 文本相似度的处理方法、装置、设备和计算机存储介质
CN107729300B (zh) * 2017-09-18 2021-12-24 百度在线网络技术(北京)有限公司 文本相似度的处理方法、装置、设备和计算机存储介质
CN108536852A (zh) * 2018-04-16 2018-09-14 上海智臻智能网络科技股份有限公司 问答交互方法和装置、计算机设备及计算机可读存储介质
CN108595619A (zh) * 2018-04-23 2018-09-28 海信集团有限公司 一种问答方法及设备
CN108874772A (zh) * 2018-05-25 2018-11-23 太原理工大学 一种多义词词向量消歧方法
CN110895656A (zh) * 2018-09-13 2020-03-20 武汉斗鱼网络科技有限公司 一种文本相似度计算方法、装置、电子设备及存储介质
CN110895656B (zh) * 2018-09-13 2023-12-29 北京橙果转话科技有限公司 一种文本相似度计算方法、装置、电子设备及存储介质
CN109522479A (zh) * 2018-11-09 2019-03-26 广东美的制冷设备有限公司 搜索处理方法及装置
CN111191034A (zh) * 2019-12-30 2020-05-22 科大讯飞股份有限公司 人机交互方法、相关设备及可读存储介质
CN111191034B (zh) * 2019-12-30 2023-01-17 科大讯飞股份有限公司 人机交互方法、相关设备及可读存储介质
CN113821639A (zh) * 2021-09-18 2021-12-21 支付宝(杭州)信息技术有限公司 一种文本焦点分析方法和***
CN113821639B (zh) * 2021-09-18 2024-07-02 支付宝(杭州)信息技术有限公司 一种文本焦点分析方法和***

Similar Documents

Publication Publication Date Title
CN104899188A (zh) 一种基于问题主题和焦点的问题相似度计算方法
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和***
CN103207905B (zh) 一种基于目标文本的计算文本相似度的方法
Tulkens et al. Evaluating unsupervised Dutch word embeddings as a linguistic resource
CN102622338B (zh) 一种短文本间语义距离的计算机辅助计算方法
CN108052593A (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN104794169B (zh) 一种基于序列标注模型的学科术语抽取方法及***
CN107239439A (zh) 基于word2vec的舆情倾向性分析方法
CN104391942A (zh) 基于语义图谱的短文本特征扩展方法
CN107305539A (zh) 一种基于Word2Vec网络情感新词发现的文本倾向性分析方法
CN105843897A (zh) 一种面向垂直领域的智能问答***
CN107992542A (zh) 一种基于主题模型的相似文章推荐方法
CN111143672B (zh) 基于知识图谱的专业特长学者推荐方法
CN106372061A (zh) 基于语义的短文本相似度计算方法
CN103049569A (zh) 基于向量空间模型的文本相似性匹配方法
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN103049470A (zh) 基于情感相关度的观点检索方法
CN104008187B (zh) 一种基于最小编辑距离的半结构化文本匹配方法
Sadr et al. Unified topic-based semantic models: a study in computing the semantic relatedness of geographic terms
CN104699797A (zh) 一种网页数据结构化解析方法和装置
Razek et al. Text-based intelligent learning emotion system
CN104881399A (zh) 基于概率软逻辑psl的事件识别方法和***
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN103870565B (zh) 一种基于互动百科知识的语义逻辑引导的搜索方法
CN103324707A (zh) 一种基于半监督聚类的查询扩展方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150909