CN104123279A

CN104123279A - 关键词的聚类方法和装置

Info

Publication number: CN104123279A
Application number: CN201310144019.9A
Authority: CN
Inventors: 张博; 赫南; 姚伶伶
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2013-04-24
Filing date: 2013-04-24
Publication date: 2014-10-29
Anticipated expiration: 2033-04-24
Also published as: CN104123279B

Abstract

本发明涉及一种关键词的聚类方法及实现该方法的装置。所述方法包括：建立关键词集合，该关键词集合中包括多个第一关键词以及多个第二关键词，每个第二关键词与至少一个该第一关键词相关；分别计算每个第一关键词和与其相关的各第二关键词之间的相似度值，根据所述相似度值建立多个第一聚类簇；以及随机选取一个第一聚类簇作为起始聚类簇进行第二聚类处理步骤，该第二聚类处理步骤包括：在其他第一聚类簇中，查找与该起始聚类簇具有等价聚类关系的其他第一聚类簇、并将所查找到的其他第一聚类簇与该起始聚类簇聚合在一起形成第二聚类簇。本发明实施例提出的关键词的聚类方法可以实现更多潜在关系的挖掘，提高搜索效率。

Description

关键词的聚类方法和装置

技术领域

本发明涉及计算机网络技术领域，尤其涉及网络搜索技术中的关键词的聚类方法和装置。

背景技术

在网络搜索技术中，用户一般都是通过检索串(query，搜索引擎中用户提交的搜索关键词)搜索到相应的结果。竞价搜索广告(sponsored searchadvertising)***，是一种基于搜索引擎的广告搜索***，引擎平台使用用户的检索串匹配广告商或代理商提交的关键词(也可称为购买词(bidterm))，将广告推送给目标用户。

在竞价搜索广告***中，为了提高广告的搜索效率，提出了对竞价搜索广告***中由广告商提供的关键词进行聚类的方法。

目前，现有最常用的聚类方法为：针对一广告商提供的关键词，从目前已存在的所有广告商提供的关键词中找到字面上相似度较大的关键词，将该广告商提供的关键词和匹配出的关键词聚类在一起。这样一来，当用户通过检索串检索相应的广告时，将与该检索串匹配的关键词对应的广告，以及与该关键词聚类在一起的关键词对应的广告展示给该用户。

但是，上述方法关键词聚类关系挖掘的不够充分，影响了广告的搜索效率。

发明内容

本发明实施例的目的在于，提供一种能够实现更多潜在关系挖掘，提高搜索效率的关键词的聚类方法和装置。

本发明实施例提供一种关键词的聚类方法，所述方法包括：建立关键词集合步骤，建立关键词集合，该关键词集合中包括多个第一关键词以及多个第二关键词，每个第二关键词与至少一个该第一关键词相关；第一聚类处理步骤，分别计算每个第一关键词和与其相关的各第二关键词之间的相似度值，根据所述相似度值建立多个第一聚类簇，每个该第一关键词分别对应一个该第一聚类簇，每个该第一聚类簇中还包括与该对应的第一关键词之间的相似度值大于或等于第一阈值的第二关键词；以及随机选取一个第一聚类簇作为起始聚类簇进行第二聚类处理步骤，该第二聚类处理步骤包括：在其他第一聚类簇中，查找与该起始聚类簇具有等价聚类关系的其他第一聚类簇、并将所查找到的其他第一聚类簇与该起始聚类簇聚合在一起形成第二聚类簇，该等价聚类关系包括该起始聚类簇中的第二关键词之一与该其他第一聚类簇中的第一关键词相同且该起始聚类簇的第一关键词也为该其他第一聚类簇的第二关键词之一。

相对于现有技术，本发明实施例提出的关键词的聚类方法可以实现更多潜在关系的挖掘，提高搜索效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。

附图说明

图1是本发明第一实施例提供的关键词的聚类方法的流程图。

图2是图1中步骤S12的具体流程图。

图3是本发明第二实施例提供的关键词的聚类方法的流程图。

图4是图3中步骤S233的具体流程图。

图5是图4所示方法的另一种实施方式。

图6是本发明第二实施例中的一个初始拓扑图。

图7a是图6中初始拓扑图的互可达关系示意图。

图7b是图7a经过一次路由后的互可达关系示意图。

图8是开始新一轮路由后的互可达关系示意图。

图9是本发明第三实施例提供的关键词的聚类方法的流程图。

图10是两个节点之间的信息传递示意图。

图11是本发明第三实施例中的一个拓扑结构示意图。

图12是本发明第三实施例中的聚类收敛效果图。

图13是本发明第四实施例提供的关键词的聚类方法的流程图。

图14是本发明第四实施例中的一个拓扑结构示意图。

图15是本发明第四实施例中的一个簇结果图。

图16是本发明第五实施例提供的关键词的聚类方法的流程图。

图17a是本发明第五实施例中的一个增量拓扑结构示意图。

图17b是图17a中的增量节点与原有聚类关系的增补关系示意图。

图18是本发明第六实施例中的关键词的聚类装置的结构示意图。

图19是图18中第一聚类处理模块的结构示意图。

图20是本发明第七实施例中的关键词的聚类装置的结构示意图。

图21是本发明第八实施例中的关键词的聚类装置的结构示意图。

图22是本发明第九实施例中的关键词的聚类装置的结构示意图。

图23是本发明第十实施例中的关键词的聚类装置的结构示意图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的技术方案的具体实施方式、方法、步骤、结构、特征及其功效，详细说明如下。

有关本发明的前述及其他技术内容、特点及功效，在以下配合参考图式的较佳实施例的详细说明中将可清楚呈现。通过具体实施方式的说明，当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解，然而所附图式仅是提供参考与说明之用，并非用来对本发明加以限制。

第一实施例

图1为本发明第一实施例中的关键词的聚类方法的流程示意图。请参照图1，本实施例中的关键词的聚类方法具体可以包括：

S11：建立关键词集合步骤，建立关键词集合，该关键词集合中包括多个第一关键词以及多个第二关键词，每个第二关键词与至少一个该第一关键词相关。

于此步骤中，第一关键词可以为由广告商提供的关键词(bidterm)。第二关键词可以包括：与该第一关键词匹配的关键词，或者以第一关键词为检索串搜索到的关键词。

其中，与该第一关键词匹配的关键词可以为通过对该第一关键词进行简单的字符串变换处理得到的关键词，或者根据实际经验确定出的与该第一关键词经常在一起使用的关键词。比如，第一关键词为咖啡壶，根据经验可以知道咖啡壶与咖啡杯等经常一起使用，基于此，可确定与咖啡壶匹配的关键词可以为咖啡杯等。

其中，以第一关键词为检索串搜索到的关键词，具体可以为借用用户检索串与广告购买词映射整合***(query bidterm mapping，简称QBM)中词到词的映射方式，以第一关键词作为QBM的输入，得到关键词与关键词之间的关系。其中，具体实现时可为：以第一关键词(bidterm)作为输入进行搜索，从搜索到的搜索结果中获取关键词，将该获取的关键词作为与该第一关键词(bidterm)相关的第二关键词(bidterm)。

与第一关键词匹配的关键词或者以第一关键词为检索串搜索到的关键词，都与对应的第一关键词相关，因此，该关键词集合中的每个第二关键词都与至少一个该第一关键词相关。

S12：第一聚类处理步骤，分别计算每个第一关键词和与其相关的各第二关键词之间的相似度值，根据所述相似度值建立多个第一聚类簇，每个该第一关键词分别对应一个该第一聚类簇，每个该第一聚类簇中还包括与该对应的第一关键词之间的相似度值大于或等于第一阈值的第二关键词。

具体的，可以根据第一关键词的文本特征或语义特征分别计算每个第一关键词与其相关的各第二关键词之间的相似度值，将第一关键词和与该第一关键词具有较高相似度值的第二关键词聚类在一起。具体的，请参照图2，S12可以包括以下步骤：

S121，根据每个第一关键词的文本特征或语义特征，分别计算每个第一关键词和与该第一关键词相关的各个第二关键词之间的相似度值。

S122，将与该第一关键词之间的相似度值大于或等于该第一阈值的第二关键词加入至与该第一关键词对应的该第一聚类簇中。

通过S122，能够将第一个关键词和与该第一关键词相关的、且与该第一关键词之间的相似度值大于或等于第一阈值的第二关键词聚类在一起，实现了基本聚类。优选的，S12中的相似度可以按照类似现有的机器学习模型来计算，例如采用SAS(Semantic analysis service，一种使用机器学习模型衡量短文本之间相似度的算法服务)，本发明的具体实施方式并不以此为限。

为了保证更加完整的聚类关系，本发明实施例还提供了潜在聚类关系的挖掘流程，具体包括：

S13：随机选取一个第一聚类簇作为起始聚类簇进行第二聚类处理步骤，该第二聚类处理步骤包括：在其他第一聚类簇中，查找与该起始聚类簇具有等价聚类关系的其他第一聚类簇、并将所查找到的其他第一聚类簇与该起始聚类簇聚合在一起形成第二聚类簇，该等价聚类关系包括该起始聚类簇中的第二关键词之一与该其他第一聚类簇中的第一关键词相同且该起始聚类簇的第一关键词也为该其他第一聚类簇的第二关键词之一。

按照S13，通过遍历所有的第一聚类簇，可以发现与每个第一聚类簇具有等价聚类关系的其他第一聚类簇，并将这些具有等价聚类关系的第一聚类簇聚类在一起形成第二聚类簇，所有的第二聚类簇合并在一起就形成了本发明实施例的全量聚类结果，从而可以实现更多潜在关系的挖掘，提高搜索效率。例如，在竞价搜索广告***的使用过程中，当用户通过检索串检索相应的广告时，***可以将与该检索串匹配的关键词对应的广告，以及与该关键词一起聚类在第二聚类簇中的关键词对应的广告展示给该用户，由于第二聚类簇中的关键词比第一聚类簇中的关键词数量更多，且同样具有较高的相似度，因此，可以提高广告的搜索效率。

第二实施例

图3为本发明第二实施例中的关键词的聚类方法的流程示意图。请参照图3，本实施例中的关键词的聚类方法具体可以包括：

S21：建立关键词集合步骤，建立关键词集合，该关键词集合中包括多个第一关键词以及多个第二关键词，每个第二关键词与至少一个该第一关键词相关。

S22：第一聚类处理步骤，分别计算每个第一关键词和与其相关的各第二关键词之间的相似度值，根据所述相似度值建立多个第一聚类簇，每个该第一关键词分别对应一个该第一聚类簇，每个该第一聚类簇中还包括与该对应的第一关键词之间的相似度值大于或等于第一阈值的第二关键词。

S23：随机选取一个第一聚类簇作为起始聚类簇进行第二聚类处理步骤，该第二聚类处理步骤包括：在其他第一聚类簇中，查找与该起始聚类簇具有等价聚类关系的其他第一聚类簇并将所查找到的其他第一聚类簇与该起始聚类簇聚合在一起形成第二聚类簇，该等价聚类关系包括该起始聚类簇中的第二关键词之一与该其他第一聚类簇中的第一关键词相同且该起始聚类簇的第一关键词也为该其他第一聚类簇的第二关键词之一。

S21至S22可以参考第一实施例中的对应步骤，这里不再赘述。于本实施例中，为了避免不必要的重复，提高聚类方法的效率，引入了第一列表，第一列表用于记录已经被作为起始聚类簇的第一聚类簇，被记录的第一聚类簇将不会再被作为起始聚类簇进行聚类。

具体的，请参照图3，于本实施例中，步骤S23可以包括：

S231：随机选取一个第一聚类簇；

S232：判断所选取的该第一聚类簇是否已被加入至该第一列表中；如果是，则返回步骤S231，重新选取一个第一聚类簇；否则，执行S233：以该第一聚类簇作为起始聚类簇进行第二聚类处理步骤。

也就是说，本实施例将已经完成第二聚类处理步骤的该起始聚类簇加入至第一列表中，在之后选取第一聚类簇作为起始聚类簇时，首先判断被选取的第一聚类簇是否已被加入第一列表中，如果是，则重新选取一个新的第一聚类簇作为起始聚类簇，这样可以避免将同一个第一聚类簇作为起始聚类簇进行不必要的重复。

请参照图4，进一步的，于本实施例中，步骤S233可以包括：

S2330，将该起始聚类簇加入至第一列表中；

S2331，待聚类簇选取步骤，随机选取一个除该起始聚类簇外的第一聚类簇作为待聚类簇；

S2332，聚类步骤，将与该起始聚类簇具有等价聚类关系的待聚类簇与该起始聚类簇聚类在一起；以及

重复S2321和S2322直到所有除该起始聚类簇外的所有第一聚类簇有且仅有一次被作为待聚类簇，S2333：将该起始聚类簇以及所有与该起始聚类簇聚类在一起的第一聚类簇形成该第二聚类簇。

进一步的，于本发明的其他实施方式中，为了获取更多潜在的聚类关系，还可以设置第二列表以及遗忘参数K，第二列表用于记录暂时需要避开的关键词，遗忘参数表示遍历完K次路由后，被归入在第二列表中的关键词将会被重新释放出来，从而可以获得更多的聚类关系。

具体的，请参照图5，在S2331＇或S2332＇中，进一步可以包括将该待聚类簇加入至第二列表中的步骤。在进行S2331＇之前(例如在步骤S2330＇中)，可以设定循环次数A以及遗忘参数K，其中A的初始值可以为0，K可以为自然数(K>=1)，每执行一次S2331＇以及S2332＇，A的次数累加一次，也就是A=A+1，当A=K时，清除第二列表中的所有关键词，也就是将第二列表中的所有关键词重新释放出来。

相应的，S2331＇可以包括：随机选取一个除该起始聚类簇外的第一聚类簇，判断选取的该第一聚类簇是否已被加入至该第二列表中，如果是，则重新选取一个除该起始聚类簇外的第一聚类簇，否则，以该第一聚类簇为待聚类簇。

为使本实施例中的流程更加清楚，下面通过一个具体的例子对本实施例提供的流程进行更形象的说明。

例如第一关键词分别为L1、L2、…Lj，其中，通过执行S21，例如可以得到与L1相关的第二关键词R1、R2、R3、R4、R5、…，与L2相关的第二关键词为R6、R7、R8、R9、R10、…。将上述关键词之间的关系抽象为拓扑图结构表示，一个第一聚类簇可以抽象为一个初始拓扑图。请参照图6，图6为本发明第二实施例中一个具体示例的关键词之间的初始拓扑图结构示意图。为了更简单清楚的进行描述，图6中仅示出了包括第一关键词L1的第一聚类簇I所对应的初始拓扑图I以及包括第一关键词L2的第一聚类簇II所对应的初始拓扑图II，对其他的第一聚类簇对应的初始拓扑图进行了省略。下面将具体介绍图6中两个初始拓扑图的结构。

将每个关键词(包括第一关键词Li及第二关键词Rj)作为节点，节点Li对应第一关键词Li，节点Rj对应第二关键词Rj。节点Li与节点Rj之间由有向边连接在一起，从节点Li至节点Rj的有向边由Li指向Rj，表示由Li可扩展出Rj，也就是说Li的相关关键词为Rj。从图6中可以看出，图6中示出的拓扑图是有向无环图，也就是说第一关键词Li与第二关键词Rj之间并不保证是双向的扩展关系，具体为，从第一关键词Li可以扩展出与Li相关的第二关键词Rj，但是从第二关键词Rj并非一定扩展出第一关键词Li。

基于上述步骤S221，根据L1的文本特征或语义特征计算L1与R1之间的相似度值W_1,1、L1与R2之间的相似度值W_1,2、L1与R3之间的相似度值W_1,3、L1与R4之间的相似度值W_1,4、L1与R5之间的相似度值W_1,5、以及L1与其他与其相关的Rj之间的相似度值W_1,j。根据L2的文本特征或语义特征计算L2与R6之间的相似度值W_2,6、L2与R7之间的相似度值W_2,7、L2与R8之间的相似度值W_2,8、L2与R9之间的相似度值W_2,9、L2与R10之间的相似度值W_2,10、以及L2与其他与其相关的Rj之间的相似度值W_2,j。

基于上述步骤S222，将与第一关键词L1之间的相似度值大于或等于第一阈值Wt的第二关键词加入至与第一关键词L1对应的第一聚类簇I中，将与第一关键词L2之间的相似度值大于或等于第一阈值Wt的第二关键词加入至与第一关键词L2对应的第一聚类簇II中。

假设W_1,1、W_1,2、W_1,3、W_1,4、W_1,5、W_2,6、W_2,7、W_2,8、W_2,9、W_2,10均大于Wt，就可以得到如图6所示的包括第一关键词L1的第一聚类簇I所对应的初始拓扑图I以及包括第一关键词L2的第一聚类簇II所对应的初始拓扑图II。图6中每两个节点之间的有向边上的权重值W_i,j表示的是对应两个节点之间的相似度值。

之后，执行上述步骤S23，执行步骤S23的过程实质上就是基于多个初始拓扑图的拓扑结构、按照一定的路由策略进行路由的过程。基于拓扑结构的路由是指：通过相互连接的节点把信息从源节点传递到目标节点的活动。一般来说，在路由过程中，信息至少会经过一个或多个中间节点。如果从一个节点v到另一个节点w之间有一个有向边，且有向边由节点v指向节点w，则称为节点v到节点w节点可达，节点w到节点v节点不可达。如果节点v到节点w是可达的，节点w到节点v也是可达的，则称为节点v和节点w为互可达节点。在两个拓扑图之间，如果存在至少一对互可达节点，则可以定义这两个拓扑图为互可达图。

于本实施例的一种实施方式中，采用了禁忌路由(Tabu Search，简称TS)策略来避免不必要的重复。禁忌是对于找到的一部分局部最优解，有意识地避开它(但不是完全隔绝)，从而获得更多的相关关键词。具体的，引入了两个禁忌路由列表，也就是上述的第一列表以及第二列表，另外，还引入了遗忘参数K。

图7a为图6中初始拓扑图的互可达关系示意图，如图7所示，于本具体示例中，假设初始拓扑图I对应的第一聚类簇I为按照步骤S231随机选取的一个第一聚类簇，按照步骤S232，首先要判断第一聚类簇I是否已被加入至第一列表中，如果是，则返回步骤S231，重新选取一个第一聚类簇；否则，以第一聚类簇I作为起始聚类簇。于本发明实施例中，第一列表，也可以称为永久禁忌表，用于记录全局最优解，被记录的节点(也可以称为永久禁忌节点)，在之后的路由过程中，将会避开该节点不予路由。

具体的，判断第一聚类簇I是否已被加入至第一列表中，可以通过判断第一聚类簇I中的第一关键词L1所对应的节点L1是否已被记录在第一列表来实现。假设节点L1还没有被记录在第一列表中，那么第一聚类簇I就可以作为起始聚类簇I进行第二聚类处理步骤。相应的，起始聚类簇I对应的初始拓扑图I可以作为起始拓扑图，节点L1可以作为路由的启发节点(启发节点在图7a中用倒三角形来表示)。

之后执行步骤S233，假设第一聚类簇II为随机选取的除第一聚类簇I外的第一聚类簇，首先要判断第一聚类簇II是否已被加入至第二列表中，如果是，则重新选取一个其他第一聚类簇，否则，以第一聚类簇II作为待聚类簇。

于本发明实施例中，第二列表也可以称为遗忘禁忌表，用于记录暂时需要避开不予路由的节点(也可以称为短期记忆节点)，直到A=K时，第一次遍历完成的初始拓扑图中进入到第二列表的节点，将会被释放出来。具体的，判断第一聚类簇II是否已被加入至第二列表中，可以通过判断第一聚类簇II对应的初始拓扑图II中的节点L2、R6、R7、R7、R9、R10是否已被记录在第二列表来实现。

具体的，假设节点L1到节点R3节点可达，节点L2到节点R10节点可达，而节点L1对应的第一关键词与节点R10对应的第二关键词相同，节点L2对应的第一关键词与节点R3对应的第二关键词相同，也就是说节点L1与节点L2为互可达节点，初始拓扑图I与初始拓扑图II为互可达图。按照S2332＇，初始拓扑图I对应的第一聚类簇I与初始拓扑图II对应第二聚类簇II具有等价聚类关系，将被聚类在一起。相应的，L1将被归入第一列表中，L2、R1、R2、R4、R5、R6、R7、R7、R9、R10将被归入到第二列表中(图7a中用涂黑的圆形表示)，需要说明的是，由启发节点L1开始的路由是一种层次遍历，不会只沿着一条路径进行，而是以启发节点L1为中心向外扩散进行层次遍历，所以与启发节点L1连接的所有R1、R2、R4、R5都会被遍历到，放入到第二列表中。

当路由到图边界后，停止路由。假设当前路由到节点Rj，如果没有以节点Rj为起点以Lj为终点的有向边存在，则可以判定节点Rj为图的一个边界点，当一次路由到的节点都为图边界点时，可以认为路由到图边界，结束该次路由。假设于本示例中，K=1，经过一次路由后，释放第二列表中的所有节点(如图7b所示，图7b中用方形表示被释放出来的节点)。接着，遍历初始拓扑图中任意未遍历节点。

进行完上述步骤后，重新选择一个第一聚类簇作为起始聚类簇，如图8所示，假设以S2为重新选择的起始聚类簇对应的初始拓扑图中的启发节点开始新一轮的路由，由于存在互可达节点<S2,T2>、<L3,T1>，故以S2为启发节点的初始拓扑图将路由到包含节点L2的初始拓扑图，并构造成另一个第二聚类簇。以此类推，当所有的第一聚类簇对应的初始拓扑图都被作为起始拓扑图遍历一次后，可以得到多个第二聚类簇。也就是通过路由所有的初始拓扑图，发现两个第一聚类簇对应的初始拓扑图的互可达图关系，进而发现一系列更多的互可达图关系，并将这些互可达图关系合并在一起，作为本发明实施例的全量聚类结果。

相对于现有技术，本发明实施例提供的关键词的聚类方法，可以实现更多潜在关系的挖掘，提高搜索效率。

第三实施例

图9为本发明第三实施例中的关键词的聚类方法的流程示意图。请参照图9，本实施例中的关键词的聚类方法具体可以包括：

S31：建立关键词集合步骤，建立关键词集合，该关键词集合中包括多个第一关键词以及多个第二关键词，每个第二关键词与至少一个该第一关键词相关。

S32：第一聚类处理步骤，分别计算每个第一关键词和与其相关的各第二关键词之间的相似度值，根据所述相似度值建立多个第一聚类簇，每个该第一关键词分别对应一个该第一聚类簇，每个该第一聚类簇中还包括与该对应的第一关键词之间的相似度值大于或等于第一阈值的第二关键词。

S33：随机选取一个第一聚类簇作为起始聚类簇进行第二聚类处理步骤，该第二聚类处理步骤包括：在其他第一聚类簇中，查找与该起始聚类簇具有等价聚类关系的其他第一聚类簇并将所查找到的其他第一聚类簇与该起始聚类簇聚合在一起形成第二聚类簇，该等价聚类关系包括该起始聚类簇中的第二关键词之一与该其他第一聚类簇中的第一关键词相同且该起始聚类簇的第一关键词也为该其他第一聚类簇的第二关键词之一。

于本实施例中，进一步包括：

S34：根据每个第一聚类簇中的第一关键词和与其相关的各第二关键词之间的相似度值计算该第一关键词与各第二关键词之间的语义相似度传递概率；

S35：根据该语义相似度传递概率计算语义相似度由该第一关键词传递至对应第二关键词后剩余的语义相似度；

S36：判断该剩余的语义相似度是否小于剩余相似度阈值，如果是，则停止在其他第一聚类簇中查找与该第二关键词相同的关键词。

其中，步骤S34至S36与步骤S33同时进行，以达到在路由的同时进行收敛的目的，这样可以避免在路由的过程中，语义相似度(信息)无止境的降低。

由第二实施例中的具体示例可以看出，利用禁忌路由策略，可以大量补充潜在的聚类关系，但是，在相似度等计算资源有限的情况下，需要进一步控制规模。因此，在路由新节点关系时，需要一定的收敛策略。本实施例进一步引入模拟退火和马尔科夫链作为收敛策略。

请参照图10，图10为两个节点之间的信息传递示意图。参照热力学公式的原理，拓扑结构中的马尔科夫链的传递概率可以定义为：

W_i,j：表示节点i与节点j的相似度值；

PT_i,j：表示信息由节点i传递至节点j的传递概率；

t_i+1：表示信息由节点i传递至节点i+1的传递能量；

T_i+1：表示信息由节点i传递至节点i+1后的剩余能量。

信息传递公式可以表达为：

{PT}_{i, j} = \frac{W_{i, j}}{Σ_{t = 0}^{t = n} W_{i, t}} - - - (1)

\begin{matrix} t_{i + 1} = T_{i} \times {PT}_{i + 1} & (2) \\ T_{i + 1} = t_{i + 1} + dE \times e^{\frac{dE}{k \times t_{i + 1}}} & (3) \end{matrix}

这里的“信息”代表语义，信息能量代表词语之间的语义相似度，能量高表示语义相似度大，即两个词语义更相似，反之不相似。请参照图11，以图11中的拓扑结构为例，计算信息由节点L1传递到节点R2的传递过程。假设节点L1的初始信息能量t1=1，通过公式(1)可以得到PT_ij＝0.8/(0.8+0.1+0.2+0.5)＝0.5；根据公式(2)，t₂＝t₁*PT₁₂＝0.5；根据公式(3)得到信息由节点L1传递至节点R2后的能量为：

T_{R 2} = t_{2} + dE \times e^{\frac{dE}{k \times t_{2}}} = 0.5 + dE \times e^{\frac{dE}{0.5 k}} .

判断T_R2是否小于预设的剩余相似度阈值，如果是，则停止对节点R2的路由，但是对其他节点的路由并不会因此停止。

请参考图12，图12是增加收敛策略后，聚类收敛效果图(省略了有向边的方向性以及相似度值)，从图12可以看出，随着路由过程的进行，新路由的节点与启发节点（也就是最开始的第一个起始节点）之间的语义相似度势必是会降低的，所以图12中语义相似度的是由启发节点开始递减的，亦或者说是“能量”的降低。经过基于模拟退火和马尔科夫链的收敛策略后，簇收敛于“簇边界节点”。通过引入模拟退火和马尔科夫链可以使局部更快收敛、避免进行无效的聚类、可以更好的平衡禁忌路由的效果，有效控制禁忌路由的规模。

第四实施例

图13为本发明第四实施例中的关键词的聚类方法的流程示意图。请参照图13，本实施例中的关键词的聚类方法具体可以包括：

S41：建立关键词集合步骤，建立关键词集合，该关键词集合中包括多个第一关键词以及多个第二关键词，每个第二关键词与至少一个该第一关键词相关。

S42：第一聚类处理步骤，分别计算每个第一关键词和与其相关的各第二关键词之间的相似度值，根据所述相似度值建立多个第一聚类簇，每个该第一关键词分别对应一个该第一聚类簇，每个该第一聚类簇中还包括与该对应的第一关键词之间的相似度值大于或等于第一阈值的第二关键词。

S43：随机选取一个第一聚类簇作为起始聚类簇进行第二聚类处理步骤，该第二聚类处理步骤包括：在其他第一聚类簇中，查找与该起始聚类簇具有等价聚类关系的其他第一聚类簇并将所查找到的其他第一聚类簇与该起始聚类簇聚合在一起形成第二聚类簇，该等价聚类关系包括该起始聚类簇中的第二关键词之一与该其他第一聚类簇中的第一关键词相同且该起始聚类簇的第一关键词也为该其他第一聚类簇的第二关键词之一。

S41至S42可以参考上述实施例中的对应步骤，这里不再赘述。

于本实施例中，S43可以包括：

S431：随机选取一个第一聚类簇作为起始聚类簇；

S432：在其他第一聚类簇中，查找与该起始聚类簇具有等价聚类关系的其他第一聚类簇；

S433：根据该起始聚类簇中的第一关键词与第二关键词之间的相似度值、该其他第一聚类簇中的第一关键词与第二关键词之间的相似度值、以及该起始聚类簇中的第一关键词与该其他第一聚类簇中的第一关键词之间的相似度值，计算该起始聚类簇中的第一关键词与该其他第一聚类簇中的第一关键词之间的连接度值以及邻近性；

S434：根据该连接度值以及邻近度值，计算该起始聚类簇中的第一关键词与该其他第一聚类簇中的第一关键词之间的区域相似性值；

S435：判断该区域相似性值是否大于或等于预定的区域相似性阈值，如果是，则将该其他第一聚类簇与该起始聚类簇聚类在一起形成第二聚类簇，否则，返回S432直到遍历完所有其他第一聚类簇为止。

S431至S432可以参考上述实施例中的对应步骤，这里不再赘述。

由第二实施例中的具体示例可以看出，利用禁忌路由策略，可以大量补充潜在的聚类区域，于本实施例中，进一步的通过区域聚合(AffinityPropagation，简称AP)策略(S433至S435)来达到对聚类结果的优化和剪枝的目的。

具体的，在区域聚合策略中引用了两个维度来描述两个第一聚类簇之间的紧密程度。一个维度是连接性(connectivity)，另一个维度是邻近性(closeness)。其中，连接性可以从两个第一聚类簇对应的拓扑图的有向边的角度来描述簇之间的紧密程度，而邻近性可以从两个第一聚类簇对应的拓扑图中的节点之间的相似度值的角度来描述簇之间的紧密程度。

首先介绍连接性对应的连接度值的具体计算过程。

假设将拓扑图中的节点i记为C_i，将节点j记为C_j，用EC|c_i,c_j|表示C_i与C_j之间的有向边对应的相似度值之和，用表示与C_i连接的有向边对应的相似度值之和。

假设G（V，E）是一个互可达图，e是G中的一条有向边，如果将e这条有向边去掉，G（V，E）变为一个不连通的图，则可以认为e是G的一条割边，割边的集合称为割边集。割边集即为互可达图中所有互可达节点之间的有向边的集合。C_i对应的初始拓扑图的割边集的对应的相似度值之和可以记为

以图14中的拓扑图结构为例，

EC|L₁,L₂|=WL12+WL21；

| {EC}_{| L_{1} |} | = W 11 + W 12 + W 13 + W 14 + W 21;

|EC_|L2||=W12+W23+W25+W26；

其中，表示起始聚类簇中的第一关键词与该其他第一聚类簇中的第一关键词之间的相似度值，表示起始聚类簇中的第一关键词与第二关键词之间的相似度值，|EC_|L2||表示其他第一聚类簇中的第一关键词与第二关键词之间的相似度值。

连接度值可以定义为：

RI (C_{i}, C_{j}) = \frac{| {EC}_{| c_{i}, c_{j} |} |}{0.5 * (| {EC}_{| C_{i} |} | + | {EC}_{| C_{j} |} |)} - - - (4)

下面介绍邻近性对应的邻近度值的具体计算过程。

邻近度值可以描述节点之间的平均相似性，用表示C_i、C_j对应的所有有向边所对应的相似度值的平均值。用表示C_i对应的所有有向边所对应的相似度值的平均值。用表示C_j对应的所有有向边所对应的相似度值的平均值，也就是割边集的相似度值的平均值。用|C_i|表示节点C_i对应的出度，出度是指从节点C_i出发的有向边的条数。

邻近度值可以定义为：

RC (C_{i}, C_{j}) \frac{(| C_{i} | + | C_{j} |) * S_{{EC}_{| c_{i}, c_{j} |}}}{| C_{i} | * S_{{EC}_{| C_{i} |}} + | C_{j} | * S_{{EC}_{| Cj |}}} - - - (5)

以图14为例：：C_L1＝5,C_L2＝4；

S_{E C_{| L_{1} |}} = (W_{11} + W_{12} + W_{13} + W_{14} + {WL}_{21} + {WL}_{12}) / 6;

S_{E C_{| L 2 |}} = ({WL}_{12} + {WL}_{21} + W_{23} + W_{25} + W_{26}) / 5;

S_{{EC}_{| L_{1}, L 2 |}} = (W_{11} + W_{12} + W_{13} + W_{14} + {WL}_{12} + {WL}_{21} {+ W}_{23} + W_{25} + W_{26}) / 9 .

其中，表示起始聚类簇中的第一关键词与第二关键词以及其他第一聚类簇中的第一关键词之间的相似度值的平均值，表示其他第一聚类簇中的第一关键词与第二关键词以及起始聚类簇中的第一关键词之间的相似度值的平均值，表示起始聚类簇中的第一关键词与第二关键词、其他第一聚类簇中的第一关键词与第二关键词、以及起始聚类簇中的第一关键词与该其他第一聚类簇中的第一关键词之间的相似度值的平均值。采用线性拟合的方式，综合连接度值和领近度值，定义C_i及C_j之间的区域相似性值为：

Sim(c_i,c_j)＝a*RI+(1-a)*RC （6）

其中，a为0至1的实数，用于平衡RI和RC所占的权重。

区域聚合策略在聚类过程中传递上述的邻近性和相似性两种消息,以消息迭代最终实现聚类过程。当两点之间的相似性值Sim大于一定阈值，则形成聚类簇，反之，视为噪声点。

本实施例中提出的AP策略与上述实施例提出的TS策略可以同时使用，称为TRAP算法（Taboo Route and Affinity Propagation ClusteringArithmetic，基于禁忌路由和区域聚合的聚类算法简称）。图15为真实数据经过一次TS路由、AP剪枝后的一个簇结果图，为了更清楚的展示节点，对输出数据做了部分删除。表一是采用TRAP算法获得的一个聚类簇的测试数据。数据来自2012年12月11日一天的全量有线购买词数据，该日数据利用本实施例中的技术方案补充的新关键词为：390,353,074，占比为84%。其中关键词之间的相关性得分分布(满分为1分)如下表：

表一

得分区间	数量	占比
			>=0.6	120025357	25.9%
>=0.28&&<0.6	212820277	45.9%
			<0.28	131267124	28.3%

当日线上购买词关系对数为：31,523,340，本方法增加线上生效关系数6,304,068，占比为20%。

从图15与表一均可以看出，采用本发明实施例中的关键词聚类方法可以实现更多潜在关系的挖掘，提高搜索效率。

第五实施例

图16为本发明第五实施例中的关键词的聚类方法的流程示意图。请参照图16，本实施例中的关键词的聚类方法具体可以包括：

S51：建立关键词集合步骤，建立关键词集合，该关键词集合中包括多个第一关键词以及多个第二关键词，每个第二关键词与至少一个该第一关键词相关。

S52：第一聚类处理步骤，分别计算每个第一关键词和与其相关的各第二关键词之间的相似度值，根据所述相似度值建立多个第一聚类簇，每个该第一关键词分别对应一个该第一聚类簇，每个该第一聚类簇中还包括与该对应的第一关键词之间的相似度值大于或等于第一阈值的第二关键词。

S53：随机选取一个第一聚类簇作为起始聚类簇进行第二聚类处理步骤，该第二聚类处理步骤包括：在其他第一聚类簇中，查找与该起始聚类簇具有等价聚类关系的其他第一聚类簇并将所查找到的其他第一聚类簇与该起始聚类簇聚合在一起形成第二聚类簇，该等价聚类关系包括该起始聚类簇中的第二关键词之一与该其他第一聚类簇中的第一关键词相同且该起始聚类簇的第一关键词也为该其他第一聚类簇的第二关键词之一。

S51至S53可以参考上述实施例中的对应步骤，这里不再赘述。于本实施例中，本发明还可以包括：

S54：监测是否出现新的第一关键词，如果监测到多个新的第一关键词，将该些新的第一关键词加入至新的关键词集合中，确定与该些新的第一关键词分别相关的第二关键词，将与该些新的第一关键词分别相关的第二关键词加入至该新的关键词集合中；

S55：分别计算每个新的第一关键词和与其相关的各第二关键词之间的相似度值，根据所述相似度值建立多个新的第一聚类簇，每个该新的第一关键词分别对应一个该新的第一聚类簇，每个该新的第一聚类簇中还包括与该对应的新的第一关键词之间的相似度值大于或等于第一阈值的第二关键词；

S56：随机选取一个该新的第一聚类簇作为起始聚类簇进行该第二聚类处理步骤，如果在其他新的第一聚类簇中查找到与该起始聚类簇具有等价聚类关系，则将该其他新的第一聚类簇与该新的第一聚类簇聚类在一起形成新的第二聚类簇；

S57：将与该第二聚类簇具有相同关键词的该新的第二聚类簇与该第二聚类簇合并。

在竞价搜索广告***中，随着时间的推移，广告商可能会提交新的第一关键词(也可称为购买词)，这部分第一关键词，相对于之前的聚类过程，是新出现的。对于这部分增量的第一关键词，也需要将其加入至关键词集合中并建立其对应的新的第一聚类簇。通过执行S54至S57可以发现该新的第一聚类簇与其他第一聚类簇中的第一关键词之间的等价聚类关系，并根据他们之间的等价聚类关系进一步发现更多的可以被聚类在一起的第一聚类簇，然后将这些第一聚类簇全部聚类在一起，作为新的第二聚类簇，将这部分结果与之前的数据整合在一起，形成新的聚类关系。

如图17a所述，图17a中的方形节点为增量节点，以增量节点中的第一关键词对应的节点作为启发节点(如L1＇)，首先在增量节点间进行第一及第二聚类处理步骤，假设结果如图17a所示。如果存在以下情况，图17a中的节点n为已聚类结果中的节点，由于节点n的存在，可以将节点{L1＇，L2＇，R1＇，R2＇，R3＇，R4＇，R5＇，R6＇}引入到原有的已聚类结果中，形成图17b中的拓扑关系。这样，由于增量关系的出现，会使得原有聚类关系出现一系列新增聚类关系，如图17b中的<l1,R1＇>，<l1,R2＇>，<l1,R3＇>等等。

也就是说，假设已有已聚类簇(所有已聚类簇的总和称为基础全量聚类数据)，当出现新的增量节点时，首先，以增量节点中第一关键词对应的节点作为TRAP算法的启发节点，进行TRAP算法，得到新的第二聚类簇，新增节点可能会为原有的已聚类簇引入新增关系，触发以下补充逻辑：

a.增量计算TRAP过程，当某节点n加入簇之前，判断n是否为已聚类簇中节点，若是，将n加入补充队列N。

b.是否增量节点遍历完成，若完成，执行步骤c；否则执行步骤a。

c.假设某节点n已经在已聚类簇M中；遍历补充队列N中节点，计算TRAP过程，并判断TRAP聚类到的节点是否在已聚类簇中，若不在，而且该节点点为增量节点，则将该节点加入已聚类簇中。最终的聚类结果是：{基础全量聚类数据}∪{增量更新聚类数据}。支持增量更新计算流程。面对不断增加的业务数据，无需重新计算全量数据，针对增量部分TRAP聚类。

本发明实施例提出的关键词的聚类方法支持增量更新计算流程。面对不断增加的业务数据，无需重新计算全量数据，针对增量部分进行TRAP聚类，实现更多潜在关系的挖掘，提高搜索效率。

第六实施例

图18为本发明第六实施例中的关键词的聚类装置的结构示意图。请参照图18，本实施例中的关键词的聚类装置60可以用于实现第一实施例中所述的方法，具体可以包括：

建立关键词集合模块61，用于建立关键词集合，该关键词集合中包括多个第一关键词以及多个第二关键词，每个第二关键词与至少一个该第一关键词相关；

第一聚类处理模块62，用于分别计算每个第一关键词和与其相关的各第二关键词之间的相似度值，根据所述相似度值建立多个第一聚类簇，每个该第一关键词分别对应一个该第一聚类簇，每个该第一聚类簇中还包括与该对应的第一关键词之间的相似度值大于或等于第一阈值的第二关键词；以及

第二聚类处理模块63，用于随机选取一个第一聚类簇作为起始聚类簇，在其他第一聚类簇中，查找与该起始聚类簇具有等价聚类关系的其他第一聚类簇、并将所查找到的其他第一聚类簇与该起始聚类簇聚合在一起形成第二聚类簇，该等价聚类关系包括该起始聚类簇中的第二关键词之一与该其他第一聚类簇中的第一关键词相同且该起始聚类簇的第一关键词也为该其他第一聚类簇的第二关键词之一。

请参照图19，第一聚类处理模块62可以包括：

相似度值计算单元621，用于根据每个第一关键词的文本特征或语义特征，分别计算每个第一关键词和与该第一关键词相关的各个第二关键词之间的相似度值；以及

第一聚类簇形成单元622，用于将与该第一关键词之间的相似度值大于或等于该第一阈值的第二关键词加入至与该第一关键词对应的该第一聚类簇中。

通过遍历所有的第一聚类簇，可以发现与每个第一聚类簇具有等价聚类关系的其他第一聚类簇，并将这些具有等价聚类关系的第一聚类簇聚类在一起形成第二聚类簇，所有的第二聚类簇合并在一起就形成了本发明实施例的全量聚类结果，从而可以实现更多潜在关系的挖掘，提高搜索效率。例如，在竞价搜索广告***的使用过程中，当用户通过检索串检索相应的广告时，***可以将与该检索串匹配的关键词对应的广告，以及与该关键词一起聚类在第二聚类簇中的关键词对应的广告展示给该用户，由于第二聚类簇中的关键词比第一聚类簇中的关键词数量更多，且同样具有较高的相似度，因此，可以提高广告的搜索效率。

第七实施例

图20为本发明第七实施例中的关键词的聚类装置的结构示意图。请参照图20，本实施例中的关键词的聚类装置70可以用于实现第二实施例中的所述方法，具体可以包括：

建立关键词集合模块71，用于建立关键词集合，该关键词集合中包括多个第一关键词以及多个第二关键词，每个第二关键词与至少一个该第一关键词相关；

第一聚类处理模块72，用于分别计算每个第一关键词和与其相关的各第二关键词之间的相似度值，根据所述相似度值建立多个第一聚类簇，每个该第一关键词分别对应一个该第一聚类簇，每个该第一聚类簇中还包括与该对应的第一关键词之间的相似度值大于或等于第一阈值的第二关键词；以及

第二聚类处理模块73，用于随机选取一个第一聚类簇作为起始聚类簇，在其他第一聚类簇中，查找与该起始聚类簇具有等价聚类关系的其他第一聚类簇、并将所查找到的其他第一聚类簇与该起始聚类簇聚合在一起形成第二聚类簇。

于本实施例中，该第二聚类处理模块73可以包括起始聚类簇选取单元731以及聚类处理单元732，该起始聚类簇选取单元731包括：选取子单元7311，用于随机选取一个第一聚类簇；判断子单元7312，用于判断所选取的该第一聚类簇是否已被加入至第一列表中；如果是，该选取子单元7311重新选取一个第一聚类簇；否则，该聚类处理单元732将该第一聚类簇作为起始聚类簇，在其他第一聚类簇中，查找与该起始聚类簇具有等价聚类关系的其他第一聚类簇、并将所查找到的其他第一聚类簇与该起始聚类簇聚合在一起形成第二聚类簇。

聚类处理单元732还可以包括：记录子单元7321，用于将该起始聚类簇加入至该第一列表中；待聚类簇选取子单元7322，用于随机选取一个除该起始聚类簇外的第一聚类簇作为待聚类簇；以及聚类子单元7323，用于将与该起始聚类簇具有等价聚类关系的待聚类簇与该起始聚类簇聚类在一起，直到所有除该起始聚类簇外的所有第一聚类簇有且仅有一次被作为待聚类簇，将该起始聚类簇以及所有与该起始聚类簇聚类在一起的第一聚类簇形成该第二聚类簇。具体的，待聚类簇选取子单元7322用于随机选取一个除该起始聚类簇外的第一聚类簇，判断选取的该第一聚类簇是否已被加入至第二列表中，如果是，则重新选取一个除该起始聚类簇外的第一聚类簇，否则，以该第一聚类簇为待聚类簇。

进一步的，该聚类处理单元还可以包括：设定子单元7324，用于设定循环次数A以及遗忘参数K，其中A的初始值为0，K为自然数。

进一步的，该聚类子单元7323可以包括：第一子单元7323a，用于将与该起始聚类簇具有等价聚类关系的待聚类簇与该起始聚类簇聚类在一起；第二子单元7323b，用于将该待聚类簇加入至该第二列表中；以及第三子单元7323c，用于将循环次数A累加一次，如果A等于K，则清除该第二列表中的所有关键词。

相对于现有技术，本发明实施例提供的关键词的聚类装置，可以实现更多潜在关系的挖掘，提高搜索效率。

第八实施例

图21为本发明第八实施例中的关键词的聚类装置的结构示意图。请参照图21，本实施例中的关键词的聚类装置80可以用于实现第三实施例中的所述方法，具体可以包括：

建立关键词集合模块81，用于建立关键词集合，该关键词集合中包括多个第一关键词以及多个第二关键词，每个第二关键词与至少一个该第一关键词相关；

第一聚类处理模块82，用于分别计算每个第一关键词和与其相关的各第二关键词之间的相似度值，根据所述相似度值建立多个第一聚类簇，每个该第一关键词分别对应一个该第一聚类簇，每个该第一聚类簇中还包括与该对应的第一关键词之间的相似度值大于或等于第一阈值的第二关键词；以及

第二聚类处理模块83，用于随机选取一个第一聚类簇作为起始聚类簇，在其他第一聚类簇中，查找与该起始聚类簇具有等价聚类关系的其他第一聚类簇、并将所查找到的其他第一聚类簇与该起始聚类簇聚合在一起形成第二聚类簇。

于本实施例中，装置80还包括收敛模块84，所述收敛模块84包括：

传递概率计算单元841，用于根据每个第一聚类簇中的第一关键词和与其相关的各第二关键词之间的相似度值计算该第一关键词与各第二关键词之间的语义相似度传递概率；

剩余相似度计算单元842，用于根据该语义相似度传递概率计算语义相似度由该第一关键词传递至对应第二关键词后剩余的语义相似度；以及

判断处理单元843，用于判断该剩余的语义相似度是否小于剩余相似度阈值，如果是，则停止在其他第一聚类簇中查找与该第二关键词相同的关键词。

本实施例通过引入模拟退火和马尔科夫链可以使局部更快收敛、避免进行无效的聚类、可以更好的平衡禁忌路由的效果，有效控制禁忌路由的规模。

第九实施例

图22为本发明第九实施例中的关键词的聚类装置的结构示意图。请参照图22，本实施例中的关键词的聚类装置90可以用于实现第四实施例中的所述方法，具体可以包括：

建立关键词集合模块91，用于建立关键词集合，该关键词集合中包括多个第一关键词以及多个第二关键词，每个第二关键词与至少一个该第一关键词相关；

第一聚类处理模块92，用于分别计算每个第一关键词和与其相关的各第二关键词之间的相似度值，根据所述相似度值建立多个第一聚类簇，每个该第一关键词分别对应一个该第一聚类簇，每个该第一聚类簇中还包括与该对应的第一关键词之间的相似度值大于或等于第一阈值的第二关键词；以及

第二聚类处理模块93，用于随机选取一个第一聚类簇作为起始聚类簇，在其他第一聚类簇中，查找与该起始聚类簇具有等价聚类关系的其他第一聚类簇、并将所查找到的其他第一聚类簇与该起始聚类簇聚合在一起形成第二聚类簇。

于本实施例中，该第二聚类处理模块93可以包括：

起始聚类簇选取单元931，用于随机选取一个第一聚类簇作为起始聚类簇；

聚类处理单元932，用于在其他第一聚类簇中，查找与该起始聚类簇具有等价聚类关系的其他第一聚类簇；

连接度值以及邻近性计算单元933，用于根据该起始聚类簇中的第一关键词与第二关键词之间的相似度值、该其他第一聚类簇中的第一关键词与第二关键词之间的相似度值、以及该起始聚类簇中的第一关键词与该其他第一聚类簇中的第一关键词之间的相似度值，计算该起始聚类簇中的第一关键词与该其他第一聚类簇中的第一关键词之间的连接度值以及邻近性；

区域相似性值计算单元934，用于根据该连接度值以及邻近度值，计算该起始聚类簇中的第一关键词与该其他第一聚类簇中的第一关键词之间的区域相似性值；以及

判断处理单元935，用于判断该区域相似性值是否大于或等于预定的区域相似性阈值，如果是，则将该其他第一聚类簇与该起始聚类簇聚类在一起形成第二聚类簇，否则，返回所述聚类处理单元，直到遍历完所有其他第一聚类簇。

采用本发明实施例中的关键词聚类装置可以实现更多潜在关系的挖掘，提高搜索效率。

第十实施例

图23为本发明第十实施例中的关键词的聚类装置的结构示意图。请参照图23，本实施例中的关键词的聚类装置100可以用于实现第五实施例中的所述方法，具体可以包括：

建立关键词集合模块101，用于建立关键词集合，该关键词集合中包括多个第一关键词以及多个第二关键词，每个第二关键词与至少一个该第一关键词相关；

第一聚类处理模块102，用于分别计算每个第一关键词和与其相关的各第二关键词之间的相似度值，根据所述相似度值建立多个第一聚类簇，每个该第一关键词分别对应一个该第一聚类簇，每个该第一聚类簇中还包括与该对应的第一关键词之间的相似度值大于或等于第一阈值的第二关键词；以及

第二聚类处理模块103，用于随机选取一个第一聚类簇作为起始聚类簇，在其他第一聚类簇中，查找与该起始聚类簇具有等价聚类关系的其他第一聚类簇、并将所查找到的其他第一聚类簇与该起始聚类簇聚合在一起形成第二聚类簇。

于本实施例中，所述装置100进一步包括：

新增关键词集合建立模块104，用于监测是否出现新的第一关键词，如果监测到多个新的第一关键词，将该些新的第一关键词加入至新的关键词集合中，确定与该些新的第一关键词分别相关的第二关键词，将与该些新的第一关键词分别相关的第二关键词加入至该新的关键词集合中；以及

新增第一聚类处理模块105，用于分别计算每个新的第一关键词和与其相关的各第二关键词之间的相似度值，根据所述相似度值建立多个新的第一聚类簇，每个该新的第一关键词分别对应一个该新的第一聚类簇，每个该新的第一聚类簇中还包括与该对应的新的第一关键词之间的相似度值大于或等于第一阈值的第二关键词；

新增第二聚类处理模块106，用于随机选取一个该新的第一聚类簇作为起始聚类簇进行该第二聚类处理步骤，如果在其他新的第一聚类簇中查找到与该起始聚类簇具有等价聚类关系，则将该其他新的第一聚类簇与该新的第一聚类簇聚类在一起形成新的第二聚类簇；以及

合并模块107，用于将与该第二聚类簇具有相同关键词的该新的第二聚类簇与该第二聚类簇合并。

本发明实施例提出的关键词的聚类装置支持增量更新计算流程。面对不断增加的业务数据，无需重新计算全量数据，针对增量部分进行TRAP聚类，实现更多潜在关系的挖掘，提高搜索效率。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种关键词的聚类方法，其特征在于，所述方法包括：

建立关键词集合步骤，建立关键词集合，该关键词集合中包括多个第一关键词以及多个第二关键词，每个第二关键词与至少一个该第一关键词相关；

第一聚类处理步骤，分别计算每个第一关键词和与其相关的各第二关键词之间的相似度值，根据所述相似度值建立多个第一聚类簇，每个该第一关键词分别对应一个该第一聚类簇，每个该第一聚类簇中还包括与该对应的第一关键词之间的相似度值大于或等于第一阈值的第二关键词；以及

随机选取一个第一聚类簇作为起始聚类簇进行第二聚类处理步骤，该第二聚类处理步骤包括：在其他第一聚类簇中，查找与该起始聚类簇具有等价聚类关系的其他第一聚类簇、并将所查找到的其他第一聚类簇与该起始聚类簇聚合在一起形成第二聚类簇，该等价聚类关系包括该起始聚类簇中的第二关键词之一与该其他第一聚类簇中的第一关键词相同且该起始聚类簇的第一关键词也为该其他第一聚类簇的第二关键词之一。

2.如权利要求1所述的方法，其特征在于，该第一聚类处理步骤，包括：

根据每个第一关键词的文本特征或语义特征，分别计算每个第一关键词和与该第一关键词相关的各个第二关键词之间的相似度值；以及

将与该第一关键词之间的相似度值大于或等于该第一阈值的第二关键词加入至与该第一关键词对应的该第一聚类簇中。

3.如权利要求1所述的方法，其特征在于，该随机选取一个第一聚类簇作为起始聚类簇进行第二聚类处理步骤的步骤，包括：

随机选取一个第一聚类簇；

判断所选取的该第一聚类簇是否已被加入至第一列表中；如果是，则重新选取一个第一聚类簇；

否则，以该第一聚类簇作为起始聚类簇进行第二聚类处理步骤。

4.如权利要求3所述的方法，其特征在于，所述以该第一聚类簇作为起始聚类簇进行第二聚类处理步骤的步骤，包括：

将该起始聚类簇加入至该第一列表中；

待聚类簇选取步骤，随机选取一个除该起始聚类簇外的第一聚类簇作为待聚类簇；

聚类步骤，将与该起始聚类簇具有等价聚类关系的待聚类簇与该起始聚类簇聚类在一起；以及

重复所述待聚类簇选取步骤以及聚类步骤，直到所有除该起始聚类簇外的所有第一聚类簇有且仅有一次被作为待聚类簇，将该起始聚类簇以及所有与该起始聚类簇聚类在一起的第一聚类簇形成该第二聚类簇。

5.如权利要求4所述的方法，其特征在于，于所述待聚类簇选取步骤之前，进一步包括：

设定循环次数A以及遗忘参数K，其中A的初始值为0，K为自然数。

6.如权利要求5所述的方法，其特征在于，该待聚类簇选取步骤包括：

随机选取一个除该起始聚类簇外的第一聚类簇，判断选取的该第一聚类簇是否已被加入至第二列表中，如果是，则重新选取一个除该起始聚类簇外的第一聚类簇，否则，以该第一聚类簇为待聚类簇。

7.如权利要求6所述的方法，其特征在于，该聚类步骤，包括：

将与该起始聚类簇具有等价聚类关系的待聚类簇与该起始聚类簇聚类在一起；

将该待聚类簇加入至该第二列表中；以及

将循环次数A累加一次，如果A等于K，则清除该第二列表中的所有关键词。

8.如权利要求1所述的方法，其特征在于，所述方法进一步包括：

根据每个第一聚类簇中的第一关键词和与其相关的各第二关键词之间的相似度值计算该第一关键词与各第二关键词之间的语义相似度传递概率；

根据该语义相似度传递概率计算语义相似度由该第一关键词传递至对应第二关键词后剩余的语义相似度；以及

判断该剩余的语义相似度是否小于剩余相似度阈值，如果是，则停止在其他第一聚类簇中查找与该第二关键词相同的关键词。

9.如权利要求1所述的方法，其特征在于，该随机选取一个第一聚类簇作为起始聚类簇进行第二聚类处理步骤的步骤，包括：

随机选取一个第一聚类簇作为起始聚类簇；

查找步骤，在其他第一聚类簇中，查找与该起始聚类簇具有等价聚类关系的其他第一聚类簇；

根据该起始聚类簇中的第一关键词与第二关键词之间的相似度值、该其他第一聚类簇中的第一关键词与第二关键词之间的相似度值、以及该起始聚类簇中的第一关键词与该其他第一聚类簇中的第一关键词之间的相似度值，计算该起始聚类簇中的第一关键词与该其他第一聚类簇中的第一关键词之间的连接度值以及邻近性；

根据该连接度值以及邻近度值，计算该起始聚类簇中的第一关键词与该其他第一聚类簇中的第一关键词之间的区域相似性值；以及

判断该区域相似性值是否大于或等于预定的区域相似性阈值，如果是，则将该其他第一聚类簇与该起始聚类簇聚类在一起形成第二聚类簇，否则，返回所述查找步骤，直到遍历完所有其他第一聚类簇。

10.如权利要求1所述的方法，其特征在于，第一聚类处理步骤，包括：

监测是否出现新的第一关键词，如果监测到多个新的第一关键词，将该些新的第一关键词加入至新的关键词集合中，确定与该些新的第一关键词分别相关的第二关键词，将与该些新的第一关键词分别相关的第二关键词加入至该新的关键词集合中；

分别计算每个新的第一关键词和与其相关的各第二关键词之间的相似度值，根据所述相似度值建立多个新的第一聚类簇，每个该新的第一关键词分别对应一个该新的第一聚类簇，每个该新的第一聚类簇中还包括与该对应的新的第一关键词之间的相似度值大于或等于第一阈值的第二关键词；

随机选取一个该新的第一聚类簇作为起始聚类簇进行该第二聚类处理步骤，如果在其他新的第一聚类簇中查找到与该起始聚类簇具有等价聚类关系，则将该其他新的第一聚类簇与该新的第一聚类簇聚类在一起形成新的第二聚类簇；以及

将与该第二聚类簇具有相同关键词的该新的第二聚类簇与该第二聚类簇合并。

11.一种关键词的聚类装置，其特征在于，所述装置包括：

建立关键词集合模块，用于建立关键词集合，该关键词集合中包括多个第一关键词以及多个第二关键词，每个第二关键词与至少一个该第一关键词相关；

第一聚类处理模块，用于分别计算每个第一关键词和与其相关的各第二关键词之间的相似度值，根据所述相似度值建立多个第一聚类簇，每个该第一关键词分别对应一个该第一聚类簇，每个该第一聚类簇中还包括与该对应的第一关键词之间的相似度值大于或等于第一阈值的第二关键词；以及

第二聚类处理模块，用于随机选取一个第一聚类簇作为起始聚类簇，在其他第一聚类簇中，查找与该起始聚类簇具有等价聚类关系的其他第一聚类簇、并将所查找到的其他第一聚类簇与该起始聚类簇聚合在一起形成第二聚类簇，该等价聚类关系包括该起始聚类簇中的第二关键词之一与该其他第一聚类簇中的第一关键词相同且该起始聚类簇的第一关键词也为该其他第一聚类簇的第二关键词之一。

12.如权利要求11所述的装置，其特征在于，该第一聚类处理模块，包括：

相似度值计算单元，用于根据每个第一关键词的文本特征或语义特征，分别计算每个第一关键词和与该第一关键词相关的各个第二关键词之间的相似度值；以及

第一聚类簇形成单元，用于将与该第一关键词之间的相似度值大于或等于该第一阈值的第二关键词加入至与该第一关键词对应的该第一聚类簇中。

13.如权利要求11所述的装置，其特征在于，该第二聚类处理模块包括起始聚类簇选取单元以及聚类处理单元，该起始聚类簇选取单元包括：

选取子单元，用于随机选取一个第一聚类簇；

判断子单元，用于判断所选取的该第一聚类簇是否已被加入至第一列表中；如果是，该选取子单元重新选取一个第一聚类簇；

否则，该聚类处理单元将该第一聚类簇作为起始聚类簇，在其他第一聚类簇中，查找与该起始聚类簇具有等价聚类关系的其他第一聚类簇、并将所查找到的其他第一聚类簇与该起始聚类簇聚合在一起形成第二聚类簇。

14.如权利要求13所述的装置，其特征在于，该聚类处理单元，包括：

记录子单元，用于将该起始聚类簇加入至该第一列表中；

待聚类簇选取子单元，用于随机选取一个除该起始聚类簇外的第一聚类簇作为待聚类簇；以及

聚类子单元，用于将与该起始聚类簇具有等价聚类关系的待聚类簇与该起始聚类簇聚类在一起，直到所有除该起始聚类簇外的所有第一聚类簇有且仅有一次被作为待聚类簇，将该起始聚类簇以及所有与该起始聚类簇聚类在一起的第一聚类簇形成该第二聚类簇。

15.如权利要求14所述的装置，其特征在于，该聚类处理单元进一步包括：

设定子单元，用于设定循环次数A以及遗忘参数K，其中A的初始值为0，K为自然数。

16.如权利要求15所述的装置，其特征在于，该待聚类簇选取子单元用于随机选取一个除该起始聚类簇外的第一聚类簇，判断选取的该第一聚类簇是否已被加入至第二列表中，如果是，则重新选取一个除该起始聚类簇外的第一聚类簇，否则，以该第一聚类簇为待聚类簇。

17.如权利要求16所述的装置，其特征在于，该聚类子单元，包括：

第一子单元，用于将与该起始聚类簇具有等价聚类关系的待聚类簇与该起始聚类簇聚类在一起；

第二子单元，用于将该待聚类簇加入至该第二列表中；以及

第三子单元，用于将循环次数A累加一次，如果A等于K，则清除该第二列表中的所有关键词。

18.如权利要求11所述的装置，其特征在于，所述装置进一步包括：收敛模块，该收敛模块包括：

传递概率计算单元，用于根据每个第一聚类簇中的第一关键词和与其相关的各第二关键词之间的相似度值计算该第一关键词与各第二关键词之间的语义相似度传递概率；

剩余相似度计算单元，用于根据该语义相似度传递概率计算语义相似度由该第一关键词传递至对应第二关键词后剩余的语义相似度；以及

判断处理单元，用于判断该剩余的语义相似度是否小于剩余相似度阈值，如果是，则停止在其他第一聚类簇中查找与该第二关键词相同的关键词。

19.如权利要求11所述的装置，其特征在于，该第二聚类处理模块，包括：

起始聚类簇选取单元，用于随机选取一个第一聚类簇作为起始聚类簇；

聚类处理单元，用于在其他第一聚类簇中，查找与该起始聚类簇具有等价聚类关系的其他第一聚类簇；

连接度值以及邻近性计算单元，用于根据该起始聚类簇中的第一关键词与第二关键词之间的相似度值、该其他第一聚类簇中的第一关键词与第二关键词之间的相似度值、以及该起始聚类簇中的第一关键词与该其他第一聚类簇中的第一关键词之间的相似度值，计算该起始聚类簇中的第一关键词与该其他第一聚类簇中的第一关键词之间的连接度值以及邻近性；

区域相似性值计算单元，用于根据该连接度值以及邻近度值，计算该起始聚类簇中的第一关键词与该其他第一聚类簇中的第一关键词之间的区域相似性值；以及

判断处理单元，用于判断该区域相似性值是否大于或等于预定的区域相似性阈值，如果是，则将该其他第一聚类簇与该起始聚类簇聚类在一起形成第二聚类簇，否则，返回所述聚类处理单元，直到遍历完所有其他第一聚类簇。

20.如权利要求11所述的装置，其特征在于，所述装置进一步包括：

新增关键词集合建立模块，用于监测是否出现新的第一关键词，如果监测到多个新的第一关键词，将该些新的第一关键词加入至新的关键词集合中，确定与该些新的第一关键词分别相关的第二关键词，将与该些新的第一关键词分别相关的第二关键词加入至该新的关键词集合中；以及

新增第一聚类处理模块，用于分别计算每个新的第一关键词和与其相关的各第二关键词之间的相似度值，根据所述相似度值建立多个新的第一聚类簇，每个该新的第一关键词分别对应一个该新的第一聚类簇，每个该新的第一聚类簇中还包括与该对应的新的第一关键词之间的相似度值大于或等于第一阈值的第二关键词；

新增第二聚类处理模块，用于随机选取一个该新的第一聚类簇作为起始聚类簇进行该第二聚类处理步骤，如果在其他新的第一聚类簇中查找到与该起始聚类簇具有等价聚类关系，则将该其他新的第一聚类簇与该新的第一聚类簇聚类在一起形成新的第二聚类簇；以及

合并模块，用于将与该第二聚类簇具有相同关键词的该新的第二聚类簇与该第二聚类簇合并。