CN101630312A

CN101630312A - 一种用于问答平台中问句的聚类方法及***

Info

Publication number: CN101630312A
Application number: CN200910090529A
Authority: CN
Inventors: 姜中博; 刘怀军; 方高林
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2009-08-19
Filing date: 2009-08-19
Publication date: 2010-01-20

Abstract

本发明公开了一种用于问答平台中问句的聚类方法及***，技术方案包括：根据所述问句的语义特征对问答平台中的问句进行分析，并获得分析结果；所述语义特征包括所述问句的疑问类型、比较特征以及与所述问句内容相关的同义词；针对经过所述语义特征分析后的所述问句，采用具有评价问句语义相似度的聚类算法，以获得所述问答平台中问句的聚类结果。所述***包括：问句分析模块和聚类算法模块。针对现有技术中不存在用于问答平台中问句的聚类方法和***的问题，本发明的技术方案填补了这一空白，不仅在所述问答平台中实现了快速、准确的聚类方法及***，而且提高了用户体验。

Description

一种用于问答平台中问句的聚类方法及***

技术领域

本发明涉及互联网搜索技术领域，具体的说，涉及一种用于问答平台中问句的聚类方法及***。

背景技术

互联网技术的飞速发展，网络信息量也在不断猛增，现有的问答平台已包含了海量的问句，例如：搜搜问问***已含有高达6千万个已解决问题的问答对，问句则更多。针对这种情况，问答平台在接收到用户的检索请求时，需要具有快速的在这些海量问句及问答对中，找到与所述检索请求对应的信息提供给用户的能力，但现有的问答平台还不能实现，所以快速而准确的聚类方法及***对于现有的问答平台来说非常必要。

由于问答平台包含了大量的问句及问答对，使现有问答平台相对与其它服务***而言，具有一些特殊性：

(1)问句具有文字长度不平衡的特点。一般文本语料长度都是比较适中，但问答平台中问句的长度通常却较短，平均在10个字以下，最多20个字，在去除一些停用词等无关词噪声之后剩余的字数就更少，这使得关键词在问句中的重要性不够突出。当问句含有过多冗余关键词这种极端情况时，应用现有相似度度量方法，会严重影响度量结果。

(2)问句中TF(Term Frequency，词频)等于或略微大于DF(Document Frequency，文档频率)。在基于向量空间模型(Vector Space Model：VSM)的相似度度量过程中，关键词权值是一个必备的元素。TFIDF这种计算关键词权值的通用方法，应用在包含问句或最佳问答对的问答平台来说，不能准确地描述出关键词的重要程度，所以影响了相似性度量的准确性。

(3)问句包括多种语义特征。问答平台中问句的语义特征(Question SemanticFeature，QSF)包含疑问类型、比较特征等。不同问句的疑问类型能表达出提问者针对问题答案的侧重点。例如：北京在哪里？怎么去北京。

含有比较特征的问句相对于不含有比较特征的问句来说，更能清楚的获知问句的最佳答案。例如：问句中含有“最”，“更”，“全部”或“所有”等词语。

如果能够准确的识别出问句的语义特征，就可给用户提供更高的服务质量和用户体验，但目前现有的聚类方法在问答平台中仍不能实现。

在实现本发明的过程中，发明人发现：针对如上所述现有技术存在的问题，一种应用在包含海量问句的问答平台中，能够根据问句特点和语义特征快速、准确的聚类***对现有技术来说是非常重要的。

发明内容

本发明要解决的技术问题是提供一种用于问答平台中问句的聚类方法及***，能够根据问句的特点和语义特征对所述问句进行聚类处理，获得更加准确的聚类结果。

本发明的技术方案如下：

本发明一种用于问答平台中问句的聚类方法，包括：

根据所述问句的语义特征对问答平台中的问句进行分析，并获得分析结果；所述语义特征包括所述问句的疑问类型、比较特征以及与所述问句内容相关的同义词；

针对经过所述语义特征分析后的所述问句，采用具有评估问句语义相似度的聚类算法，以获得所述问答平台中问句的聚类结果。

进一步的，根据所述问句的语义特征对问答平台中的问句进行分析，并获得分析结果；具体过程包括：

对所述问句中抽取的关键词进行数量判断，当所述问句中实际关键词数小于预先设定的参考关键词数时，根据预先生成的语义扩展库对所述问句进行语义扩展；否则，对所述问句中包含的实际关键词根据词性特征和权值大小进行去冗余处理；

对经过关键词数量判断后的所述问句进行语义特征判断，根据所述语义扩展库从所述问句中抽取出对应的疑问类型、比较特征以及与所述问句内容相关的同义词，以获得与所述问句实际对应的分析结果。

进一步的，所述方法还包括：

在对所述问句中抽取的关键词进行数量判断之前，根据词性特征，对从所述问句中抽取出的关键词进行关键词权值计算。

进一步的，所述方法还包括：

从互联网上采集海量问句或问答对，整理出所述海量问句中的同义词和经过相似度计算获得的语义相似词；

针对采集到的海量问句或问答对进行疑问类型分类以及比较特征的提取，以获得所述语义扩展库；所述语义扩展库中包含同义词集合、语义相似词集合、语义特征集合中的一种或多种；所述语义特征库包括疑问类型和比较特征。

进一步的，针对经过所述语义特征分析后的所述问句，采用具有评估问句语义相似度的聚类算法，具体过程包括：

从备选簇集合中抽取出一个簇，对所述簇与经过所述语义特征分析后的问句，进行相似度计算，并获得所述相似度值；

当所述相似度值满足预先设定的阈值要求时，将所述问句添加到所述簇中，否则继续寻找适合所述问句的簇，直到没有任何一个簇满足要求，以所述问句为基础创建新的簇。

本发明还提供了一种用于问答平台中问句的聚类***，包括：

问句分析模块，用于根据所述问句的语义特征对问答平台中的问句进行分析，并获得分析结果；所述语义特征包括所述问句的疑问类型、比较特征以及与所述问句内容相关的同义词；

聚类算法模块，用于针对经过所述问句分析模块分析后的所述问句，采用具有评估问句语义相似度的聚类算法，以获得所述问答平台中问句的聚类结果。

优选的，所述问句分析模块具体包括：

语义扩展判断单元，用于对所述问句中抽取的关键词进行数量判断，当所述问句中实际关键词数小于预先设定的参考关键词数时，根据预先生成的语义扩展库对所述问句进行语义扩展；否则，对所述问句中包含的实际关键词根据词性特征和权值大小进行去冗余处理；

语义特征提取单元，用于对经过所述语义扩展判断单元判断后的所述问句进行语义特征判断，根据所述语义扩展库从所述问句中抽取出对应的疑问类型、比较特征以及与所述问句相关的同义词，以获得与所述问句实际对应的分析结果。

优选的，所述问句分析模块具体还包括：

关键词预处理模块，用于在所述语义扩展判断单元对所述问句中抽取的关键词进行数量判断之前，根据词性特征，对所述问句中抽取出的关键词进行关键词权值计算。

优选的，所述***还包括：

语义扩展库生成模块，用于从互联网上采集海量问句或问答对，整理出所述海量问句中的同义词和经过相似度计算获得的语义相似词；

优选的，聚类算法模块具体包括：

相似度计算单元，用于从备选簇集合中抽取出一个簇，对所述簇与经过所述语义特征分析后的问句，进行相似度计算，并获得所述相似度值；

相似度判断单元，用于通过相似度计算单元获得的所述相似度值满足预先设定的阈值要求时，将所述问句添加到所述簇中，否则继续寻找适合所述问句的簇，直到没有任何一个簇满足要求，以所述问句为基础创建新的簇。

本发明的有益效果：

本发明所述一种用于问答平台中问句的聚类方法及***，是针对问答平台的特点所设计的，充分针对问答平台中问句的特点和语义特征逐步的进行聚类处理，从而快速、准确的获得聚类结果，解决了现有技术中没有针对问答平台而提出的聚类方法及***的问题。

附图说明

图1为本发明实施例一种用于问答平台中问句的聚类方法的流程图；

图2为本发明实施例根据语义特征对问句进行分析的具体应用流程图；

图3为本发明实施例聚类算法的具体应用流程图；

图4为本发明实施例一种用于问答平台中问句的聚类***的结构示意图。

具体实施方式

本发明实施例针对现有技术中没有专门应用在问答平台中的聚类方法及***，提出了一种用于问答平台中问句的聚类方法及***。综合考虑问句具有的特点和语义特征，能够获得快速、准确的聚类结果。

针对现有的相似度度量方法，对于问句这种文字长度不平衡的句型来说，会严重影响度量结果，所以本发明在进行相似度度量之前，对问句中的实际关键词数小于预定的参考关键词数的问句进行语义扩展，相反对于实际关键词数大于预定参考关键词数的问句进行去冗余处理，来保证相似度度量的质量。

针对现有关键词权值计算方法，对于问句这种IF等于或略微大于DF的情况，就会导致通过计算获得的关键词的权值不能准确描述出该关键词的重要程度，所以本发明在关键词权值计算之前综合考虑了问答平台的类别的特征值，从而计算出更贴切的权值。

由于问句通常包含疑问类型和比较特征等具有代表性的特征，本发明通过对问句进行疑问类型的识别、比较特征的提取以及与所述问句内容相关的同义词的提取，可以提高聚类方法及***对问答平台处理的准确性。

为了进一步说明本发明实施例的技术方案，下面结合图1一种用于问答平台中问句的聚类方法进行详细说明，技术方案包括：

步骤100：根据所述问句的语义特征对问答平台中的问句进行分析，并获得分析结果；所述语义特征包括所述问句的疑问类型、比较特征以及与所述问句内容相关的同义词；

步骤200：针对经过所述语义特征分析后的所述问句，采用具有评估问句语义相似度的聚类算法，以获得所述问答平台中问句的聚类结果。

可见，如上所述本发明实施例通过对问句疑问类型和比较特性的分析处理，能够克服在应用现有技术对问答平台中的问句进行处理的不准确性，保证了聚类结果的质量。

在本发明实施例的一个应用场景中，步骤100具体可以通过如图2所示的技术方案实现：

步骤1002：对所述问句中抽取的关键词进行数量判断，当所述问句中实际关键词数小于预先设定的参考关键词数时，根据预先生成的语义扩展库对所述问句进行语义扩展；否则，对所述问句中包含的实际关键词根据词性特征和权值大小进行去冗余处理；

步骤1003：对经过关键词数量判断后的所述问句进行语义特征判断，根据所述语义扩展库从所述问句中抽取出对应的疑问类型、比较特征以及与所述问句内容相关的同义词，以获得与所述问句实际对应的分析结果。

具体的，当问句输入问答平台时，首先要对输入的问句进行中文分词，停用词过滤和词性过滤，以对所述问句进行初步的过滤处理。

在上述对抽取出的关键词进行数量判断过程中，语义扩展主要是针对经过停用词和词性过滤后的问句中，包含的关键词非常少的问句而进行，而对于包含过多冗余关键词的长问句则根据权值大小和词性特征等进行选择的去除冗余关键词。

在上述对所述问句进行语义特征判断时，对所述疑问类型的识别可以有助于在语义上对问句进行理解，可以提高聚类算法的准确度和召回率。

对包含比较特征的问句来说，通过判断比较特征，可以更清楚的获知用户更想知道哪个结果更好，他们之间的差异是什么，能加强对问句语义的理解。

在本发明实施例的一个应用场景中，步骤100的具体过程还可以包括：

步骤1001：在对所述问句中抽取的关键词进行数量判断之前，根据词性特征，对所述问句中的关键词进行关键词权值计算。

具体的，对问句中的关键词进行权值计算，是为每个关键词计算出合理的阈值，综合参考关键词IDF的特征值，词性等方面。关键词w的权值可以具体通过如下公式计算获得，但不仅限于以下本发明实施例列举出的方法，只要综合参考关键词IDF的特征值，词性等方面获得的聚类结果，都属于本发明所保护的范围：

Wght(w)＝Feature(w)×POS(w)×IDF(w)

其中，Feature(w)是卡方统计(X²)和信息熵(Entropy)的综合值，即：

Feature(w)＝log(X²(w))/Entropy(w)

X^{2} (w) = \max_{i = 1}^{m} X^{2} (w, C_{i}),

X^{2} (w, C_{i}) = \frac{N \times {(AD - BC)}^{2}}{(A + B) (A + C) (D + B) (D + C)}

Entropy(w)＝-∑P(C_i|w)log(P(C_i|w))

其中，C_i表示问答平台的类别i，m表示一共m个类别，N表示全部的文档数，A表示类别C_i中包含w的文档数，B表示非C_i的类别中包含w的文档数，C表示类别C_i中不包含w的文档数，D表示非C_i的类别中不包含w的文档数。P(C_i|w)表示包含w的文档出现在类别C_i中的概率。

POS(w)是根据问句中关键词的词性特征来分配权值，一般认为根据包含信息的重要度排序来分配权值，即：命名实体＞一般名词＞形容词＞动词＞其他。

IDF (w) = \log (\frac{N}{N_{w}} + 1),

N为全部文档数，N_w为包含w的文档数。

在本发明实施例的一个应用场景中，由于在对问句进行语义分析过程中，需要根据语义扩展库从所述问句中抽取出对应的疑问类型、比较特征以及与所述问句内容相关的同义词，以获得与所述问句实际对应的分析结果，所以所述方法还可以包括语义扩展库的生成过程，具体可通过如下技术方案实现：

具体的，如上所述的语义扩展库的生成过程就是为了语义扩展做准备的过程。问句的语义特征包括问句疑问类型和比较特征。例如：通过对问问平台上的问句实例分析后获得，本发明实施例可以将问句的疑问类型大概分成七个大类，分别是：人物类型，地点类型，数字类型，时间类型，实体类型，描述类型(其中包括方法，原因，定义等共三个小类)，其他类型。比较特征可以包括“最”，“更”，“全部”，“所有”等具有比较语义的词。

在本发明实施例的一个应用场景中，步骤200具体可以通过如下技术方案来实现：

针对上述步骤200的具体过程，图3示出了在实际应用中步骤200的具体流程图：

步骤101：经过语义特征分析后，待聚类的问句Q输入；

步骤102：从备选簇集合中，取出一个簇C，如果备选簇集合为空，执行步骤105：

步骤103：将簇C与问句Q进行相似度计算，获得相似度值；

步骤104：判断所述相似度是否满足预先设定的阈值范围，当满足时，将问句Q放入簇C中，否则执行步骤102；

步骤105：以问句Q为基础，创建新簇，放入备选集合中。

上述聚类算法可以通过如下的具体过程实现：

采用具有快速聚类特点的single-pass算法，其基本原理是一个对象在寻找簇的过程中，只要找到了一个满足相似度阈值的簇，那么该对象就属于这个簇而不再进行其他的比较。相比较其他的算法来说这个算法的优点是速度快而且聚类效果较好，能够处理千万级的文档数量，适用于包含海量问句的问答平台。

Single-pass算法能够保证聚类的速度，本发明实施例中相似度度量能够保证聚类的准确度，其是一种基于Cosine公式的语义相似度度量方法，具体可以通过如下公司计算：

Similarity (Ques, C) = \{\begin{matrix} 0 & if & QSFs  are  different - - - (1) \\ \frac{Σ_{j = 1}^{j = 0} w_{j}^{2} \cdot CFF (w_{j}, C)}{\sqrt{Σ_{i = 1}^{m} {(x_{i} \cdot CFF (x_{i}, C))}^{2}} \sqrt{Σ_{i = 1}^{n} y_{i}^{2}}} & if & QSF  is  the  same - - - (2) \end{matrix}

其中，公式(2)中的CFF(w_j，C)为w_j在簇C内的出现频率因子，用于强调簇中更加重要的关键词。该语义相似度公式的含义：如果问句和簇的问句语义特征不同的话，那么语义相似度为零，否则采用公式(2)计算。

具体的，在判断计算出的问句与相似度的值后，将问句添加到该簇中，这时因为融入了新的问句，很可能就会带来了一些噪声，所以需要对簇内关键词的噪声进行处理，并且是非常重要的环节。具体可以通过一个快速简单的识别噪声的方法来实现，通过周期性的查看簇内关键词在簇内问句中的出现频率，如果频率低于某个阈值，则认为是噪声，就将其屏蔽。

通过本发明实施例一种用于问答平台中问句的聚类方法，填补了现有技术的空白，并且通过利用问答平台中问句的特点和语义特征，保证了获得的聚类结果快速而准确。

如图4所示，基于上述图1所示的方法实施例，本发明还提供了一种用于问答平台中问句的聚类***，所述***可以包括：

问句分析模块11，用于根据所述问句的语义特征对问答平台中的问句进行分析，并获得分析结果；所述语义特征包括所述问句的疑问类型、比较特征以及与所述问句内容相关的同义词；

聚类算法模块22，用于针对经过所述问句分析模块11分析后的所述问句，采用具有评价问句语义相似度的聚类算法，以获得所述问答平台中问句的聚类结果。

可见，通过如上所述的问句分析模块11和聚类算法模块22，实现了一种适用于现有问答平台中问句的聚类***，解决了应用现有技术对问答平台中问句进行聚类处理的获得的聚类结果不准确的问题。

在本发明实施例的一个应用场景中，问句分析模块11具体可以包括：

语义扩展判断单元112，用于对所述问句中抽取的关键词进行数量判断，当所述问句中实际关键词数小于预先设定的参考关键词数时，根据预先生成的语义扩展库对所述问句进行语义扩展；否则，对所述问句中包含的实际关键词根据词性特征和权值大小进行去冗余处理；

语义特征提取单元113，用于对经过所述语义扩展判断单元112判断后的所述问句进行语义特征判断，根据所述语义扩展库从所述问句中抽取出对应的疑问类型、比较特征以及与所述问句内容相关的同义词，以获得与所述问句实际对应的分析结果。

在本发明实施例的一个应用场景中，所述问句分析模块11具体还可以包括：

关键词预处理单元111，用于在语义扩展判断单元112对所述问句中抽取的关键词进行数量判断之前，根据词性特征，对所述问句中抽取出的关键词进行关键词权值计算。

在本发明实施例的一个应用场景中，所述***还可以包括：

语义扩展库生成模块33，用于从互联网上采集海量问句或问答对，整理出所述海量问句中的同义词和经过相似度计算获得的语义相似词；

具体的说，上述语义扩展库生成模块中涉及的具体技术方案可参见图1所示的方法实施例中语义扩展库的生成过程，

在本发明实施例的一个应用场景中，聚类算法模块22具体包括：

相似度计算单元221，用于从备选簇集合中抽取出一个簇，对所述簇与经过所述语义特征分析后的问句，进行相似度计算，并获得所述相似度值；

相似度判断单元222，用于通过所述相似度计算单元221获得的所述相似度值满足预先设定的阈值要求时，将所述问句添加到所述簇中，否则继续寻找适合所述问句的簇，直到没有任何一个簇满足要求，以所述问句为基础创建新的簇。

具体的说，本发明实施例聚类算法模块在具体应用中涉及的技术方案可参见图1所示的方法实施例中的图3。

鉴于如图4所示的本发明实施例一种用于问答平台中问句的聚类***是基于上述如图1所示的一种用于问答平台中问句的聚类方法实施例获得的，涉及的技术方案与图1所示的方法实施例分别对应，在此不作赘述，具体内容请参见上述图1所述的方法实施例。

本发明实施例针对问答平台而设计，提出了一种适用于问答平台中问句的聚类方法及***的构思，充分针对问答平台的特点对问句进行一一处理，从而达到快速准确的聚类效果。技术方案中关键词权值计算方法，聚类算法和相似度计算方法都可以用其他相似算法来进行功能性的替代，所以通过替代方式来实现本发明的功能的相关技术，均属于本发明的保护范围。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1、一种用于问答平台中问句的聚类方法，其特征在于，包括：

针对经过所述语义特征分析后的所述问句，采用具有评价问句语义相似度的聚类算法，以获得所述问答平台中问句的聚类结果。

2、根据权利要求1所述的方法，其特征在于，根据所述问句的语义特征对问答平台中的问句进行分析，并获得分析结果；具体过程包括：

对所述问句中抽取的关键词进行数量判断，当所述问句中实际关键词数小于预先设定的参考关键词数时，根据预先生成的语义扩展库对所述问句进行语义扩展；否则，对所述问句中包括的实际关键词根据词性特征和权值大小进行去冗余处理；

3、根据权利要求2所述的方法，其特征在于，所述方法还包括：

在对所述问句中抽取的关键词进行数量判断之前，根据词性特征，对所述问句中抽取出的关键词进行关键词权值计算。

4、根据权利要求2所述的方法，其特征在于，所述方法还包括：

针对采集到的海量问句或问答对进行疑问类型分类以及比较特性的提取，以获得所述语义扩展库；所述语义扩展库中包含同义词集合、语义相似词集合、语义特征集合中的一种或多种；所述语义特征库包括疑问类型和比较特性。

5、根据权利要求1所述的方法，其特征在于，针对经过所述语义特征分析后的所述问句，采用具有评价问句语义相似度的聚类算法，具体过程包括：

6、一种用于问答平台中问句的聚类***，其特征在于，包括：

聚类算法模块，用于针对经过所述问句分析模块分析后的所述问句，采用具有评价问句语义相似度的聚类算法，以获得所述问答平台中问句的聚类结果。

7、根据权利要求6所述的***，其特征在于，所述问句分析模块具体包括：

语义特征提取单元，用于对经过所述语义扩展判断单元判断后的所述问句进行语义特征判断，根据所述语义扩展库从所述问句中抽取出对应的疑问类型、比较特征以及与所述问句内容相关的同义词，以获得与所述问句实际对应的分析结果。

8、根据权利要求7所述的***，其特征在于，所述问句分析模块具体还包括：

关键词预处理单元，用于在所述语义扩展判断单元对所述问句中抽取的关键词进行数量判断之前，根据词性特征，对从所述问句中抽取出的关键词进行关键词权值计算。

9、根据权利要求7所述的***，其特征在于，所述***还包括：

10、根据权利要求6所述的***，其特征在于，所述聚类算法模块具体包括：

相似度判断单元，用于当通过相似度计算单元获得的所述相似度值满足预先设定的阈值要求时，将所述问句添加到所述簇中，否则继续寻找适合所述问句的簇，直到没有任何一个簇满足要求，以所述问句为基础创建新的簇。