CN102063458A

CN102063458A - 用于在计算机网络的网络设备中进行用户聚类的方法和设备

Info

Publication number: CN102063458A
Application number: CN 201010512468
Authority: CN
Inventors: 郑佳谦
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2010-10-12
Filing date: 2010-10-12
Publication date: 2011-05-18
Anticipated expiration: 2030-10-12
Also published as: CN102063458B

Abstract

本发明涉及在计算机网络中用于进行用户聚类的方法和网络设备，本发明通过获取多个待聚类的用户的相关信息，将所述多个待聚类的用户的相关信息分别复制成多份并分发至所述计算机网络中的多个服务器中，及获取所述多个服务器分别对分发至该服务器的所述用户的相关信息进行聚类得到的各个原始用户聚类子群，并对所述各个原始用户聚类子群进行合并，获得合并后的最终的用户聚类子群。与现有技术相比，本发明具有以下优点：本发明提供了分布式处理用户聚类的方案，使得海量的互联网用户聚类成为可能。

Description

用于在计算机网络的网络设备中进行用户聚类的方法和设备

技术领域

本发明涉及计算机互联网领域，尤其涉及一种用于在计算机网络的网络设备中进行用户聚类的方法和设备。

背景技术

在目前的互联网广告服务中，作为服务端的广告投放***由于无法收集到绝大部分用户有商业价值的浏览行为，所以，投放的广告常常不被用户所关注，效果不明显。然而，另一方面，企业却往往又为广告发布付出了高昂的成本。

因此，现有技术通过对互联网用户进行聚类，以在同一用户群中，使用含有商业意图的相似用户行为补足于当前用户，来达到有针对性的对不同类型的用户提供差异化的广告服务的效果。然而，由于互联网用户数量巨大，单个服务器难以承受如此大量的运算。考虑到聚类运算又需要全局遍历，无法简单在分布式环境中进行。

因此，面对海量的互联网用户，如何在分布式环境中对其进行聚类，已经成为本领域技术人员极为关注的问题。

发明内容

本发明的目的是提供一种用于在计算机网络的网络设备中进行用户聚类的方法和设备。

根据本发明的一个方面，提供一种在计算机网络的网络设备中用于进行用户聚类的方法。其中，该方法包括以下步骤：

a获取多个待聚类的用户的相关信息；

b将所述多个待聚类的用户的相关信息分别复制成多份并分发至所述计算机网络中的多个服务器中，其中每个服务器获得至少两个待聚类的用户的相关信息；

c获取所述多个服务器分别对分发至该服务器的所述用户的相关信息进行聚类得到的各个原始用户聚类子群，并对所述各个原始用户聚类子群进行合并，以获得合并后的最终的用户聚类子群。

根据本发明的另一个方面，还提供了一种在计算机网络中用于进行用户聚类的网络设备，其中，该网络设备包括：

第一获取装置，用于获取多个待聚类的用户的相关信息；

分发装置，用于将所述多个待聚类的用户的相关信息分别复制成多份并分发至所述计算机网络中的多个服务器中，其中每个服务器获得至少两个待聚类的用户的相关信息；

第一合并装置，用于获取所述多个服务器分别对分发至该服务器的所述用户的相关信息进行聚类得到的各个原始用户聚类子群，并对所述各个原始用户聚类子群进行合并，获得合并后的最终的用户聚类子群。

与现有技术相比，本发明具有以下优点：本发明提供了分布式处理用户聚类的方案，使得海量的互联网用户聚类成为可能。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的一种计算机网络的***拓扑图；

图2为本发明一个方面的在计算机网络的网络设备中进行用户聚类的方法的流程图；

图3为本发明一个优选实施例的在计算机网络的网络设备中进行用户聚类的方法的流程图；

图4为本发明一个优选实施例的合并各个原始用户聚类子群以获得最终的用户聚类子群方法的流程图；

图5为本发明一个方面的在计算机网络中进行用户聚类的网络设备的结构示意图；

图6为本发明一个优选实施例的在计算机网络中进行用户聚类的网络设备的结构示意图；

图7为本发明一个优选实施例的第二合并装置的结构示意图；

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

本发明中的计算机网络包括但不限于：1)多个网络服务器集；2)分布式网络设备；3)基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云的计算机集合等。其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虑拟计算机。

为了更为清楚的说明所述计算机网络，图1示出了本发明的一种计算机网络的***拓扑图。所述计算机网络包括服务器4至服务器6、以及网络设备。其中，服务器4至服务器6、以及网络设备可以是任何一种具有数据处理能力的电子产品，包括但不限于计算机。单个网络服务器、网络主机等。而且服务器4至服务器6、以及网络设备可以通过通讯网络传送数据，所述通讯网络包括但不限于：1)无线网络；2)有线网络；3)局域网；4)广域网等。在所述计算机网络中，可以设置一台或多台设备作为主控服务器，例如，将所述网络设备作为主控服务器，此外，也可以不设置主控服务器。总之，所述计算机网络中各服务器和网络设备可在主控服务器的统筹下进行数据处理，也可各自相互配合工作。

需要说明的是，上述所示的计算机网络只是为了更好的说明本发明的方案，而非用于限制本发明，事实上，所述计算机网络包含的服务器的数量、以及各服务器和网络设备之间的通讯并非以上为限，还有，所述网络设备也可以仅是某一服务器中的一个处理单元，而非独立的设备，还可以是多个网络服务器集、分布式网络设备或者基于云计算的由大量计算机或网络服务器构成的云的计算机集合等等，甚至，所述网络设备包含在一个服务器中，则该服务器同时完成主控服务器及普通服务器的功能。

图2示出了本发明一个方面的在计算机网络的网络设备中进行用户聚类的方法的流程图。

在步骤S1中，所述网络设备获取多个待聚类的用户的相关信息。其中，所述用户的相关信息包括但不限于：1)用户的个人属性，例如，用户的年龄、性别、职业、教育程度、消费能力等等；2)用户的历史行为，例如，点击广告的记录的行为、浏览记录的行为等；3)表示用户兴趣点的关键词等，例如，用户的历史查询词，及根据所述历史查询词进行过滤、分词、拓展得到的关键词。其中，所述用户的个人属性可通过用户主动提供的信息或根据用户的访问查询行为推测得到。

其中，网络设备可通过多种方式来识别用户，其识别方式包括但不限于：1)通过用户的注册信息来识别用户；2)通过用户进行浏览操作时，在用户cookie中记录的临时ID来识别用户，例如，当用户浏览网页时，在该用户的cookie中赋予该用户一个临时ID，并以该临时ID来识别用户。

所述网络设备将获取的用户的相关信息记录在用户相关信息库中，所述用户相关信息库存储在所述计算机网络的一个或多个设备中。所述网络设备获取用户相关信息的方式有多种，例如，当用户申请成为与所述网络设备具有关联的网站的注册会员时，会填写注册信息，由此，所述网络设备可以从该用户递交的注册信息中获取用户相关信息。再比如，用户在与所述网络设备具有关联的网站购物时，会留下购物信息，所述网络设备由此可以获取购物信息并进行分析以建立或调整该用户的个人属性信息。再比如，用户方位提供网页的服务器时，提供网页的服务器会在cookie中留下临时的用户相关信息。因此，所述网络设备可从cookie中获取用户相关信息。再比如，对于用户兴趣点的关键词，所述网络设备可以通过分析用户在提供搜索服务的搜索栏中输入的问讯信息(query)来得到，比如，用户输入：我要参观世博园，由此，可分析出用户兴趣点的关键词是“世博园”。总之，上述各列示仅是为了更好的说明本发明的方案，而非用于限制本发明。

接着，在步骤S2中，所述网络设备将所获取的多个待聚类的用户的相关信息分别复制成多份并分发至所述计算机网络中的多个服务器中，其中每个服务器获得至少两个待聚类的用户的相关信息。

例如，所述网络设备获得了待聚类的用户A至用户E的用户相关信息，将该些待聚类的用户的相关信息复制N份后分发至服务器4至服务器6中。其中，复制的份数N大于或等于2，具体可以根据服务器的处理能力来确定，较佳的，复制的份数N小于服务器的数量。

所述网络设备在分发过程中可采用随机分发的方式，例如，将所述用户的相关信息随机分发至各个服务器中等，也可采用指定分发的方式，例如，指定一部分用户的相关信息分发至一部分服务器中，另一部分用户的相关信息分发至另一部分服务器中等。

此外，复制的过程和分发的过程包括但不限于：

1)网络设备将所有待聚类的用户的相关信息复制N份后，再分发至各服务器；

以所述网络设备将待聚类的用户A至用户E的相关信息分发至服务器4至服务器6为例，所述网络设备将待聚类的用户A至用户E的相关信息都复制了N份后，再分发至服务器4至服务器6中；

其中，作为一个优选方式，每个用户的N份相关信息分发至不同的服务器中；

2)所述网络设备复制了部分待聚类的用户的相关信息后对已复制的用户的相关信息进行分发，然后再复制，再分发......，如此反复；

例如，以所述网络设备将待聚类的用户A至用户E的相关信息分发至服务器4至服务器6为例，所述网络设备复制了用户A和用户B的相关信息后，先将用户A和用户B的相关信息分发至服务器，随后再复制用户C的相关信息，将用户C的相关信息分发后。再复制用户D和用户E的相关信息，再将用户D和用户E的相关信息分发至各服务器；

3)所述网络设备每将一个用户的相关信息复制为N份，即将该N份用户的相关信息分发至不同的服务器中；

例如，以所述网络设备将待聚类的用户A至用户E的相关信息分发至服务器4至服务器6为例，所述网络设备将用户A的信息复制了N份后，分发至不同的服务器中，然后，所述网络设备将用户A的信息复制了N份后，分发至不同的服务器中，重复上述步骤直至所有用户的相关信息均复制并分发完毕。

其中，无论采用何种分发方式，所述网络设备在分发完成后，要使收到待聚类用户的相关信息的各服务器各自都获得至少两份或两份以上不同待聚类的用户的相关信息，以便各服务器各自进行用户聚类作业，并且，每个用户的相关信息N复制的份数可能不相同，如，对于用户A，N＝2，对于用户B，N＝3等。

需要说明的是，上述举例仅为更好地说明本发明复制及分发用户的相关信息的方案，而非对本发明所做的限制，事实上，待聚类的用户数量相当庞大，上述举例列出五个用户，仅为说明方便起见，服务器的数量也并非以3个为限，事实上，服务器的数量应大于两个，但上不封顶。

接着，在步骤S3中，网络设备获取所述多个服务器分别对分发至该服务器的所述用户的相关信息进行聚类得到的各个原始用户聚类子群，并对所述各个原始用户聚类子群进行合并，以获得合并后的最终的用户聚类子群。

例如，以所述网络设备将待聚类的用户A至用户E的相关信息分发至服务器4至服务器6为例，服务器4获得了待聚类的用户A、用户B和用户C的相关信息，经过聚类后获得的原始用户聚类子群Class1为(A，B)和(C)；服务器5获得了待聚类的用户A，用户D和用户E，经过聚类后获得的原始用户聚类子群Class2为(A，D)和(E)；服务器6获得了待聚类的用户B、用户C、用户D和用户E，经过聚类后获得的原始用户聚类子群Class3为(C，D)和(B，E)。各服务器进行聚类，可以根据各待聚类的用户相关信息的相似度来进行，例如，如果待聚类的用户A和用户B，都是女性，年龄都在40至50岁之间，都对世博园感兴趣，而待聚类的用户C是男性，年龄在40至50岁之间，其对足球感兴趣，如此，服务器4可根据待聚类的用户A、B、和C的相关信息的相似程度，将待聚类的用户A和用户B聚类，从而获得原始用户聚类子群Class1为(A，B)和(C)。本领域的技术人员应该理解，上述所述只是为了更好的说明本发明的技术方案，而非用于限制本发明。

所述网络设备获取服务器4至服务器6各自所得到的各个原始用户聚类子群Class1、Class2及Class3，并对所述各个原始用户聚类子群进行合并，以获得合并后的最终的用户聚类子群。其中，所述合并方式包括但不限于：1)遍历合并；2)分组合并等。后续将以举例的方式对各合并的方式进行具体说明。

图3为本发明一个优选实施例的在计算机网络的网络设备中进行用户聚类的方法的流程图。

本实施例中的步骤S1及步骤S2已在参照图2所述的实施例中予以详述，在此以引用的方式包含，不再赘述。

接着，在步骤S31中，所述网络设备获取各个服务器分别根据分发至该服务器的所述用户的相关信息进行聚类得到的各个原始用户聚类子群；

随后，在步骤S32中，所述网络设备根据所述各个原始用户聚类子群之间各种合并方式的拟合度将所述各个原始用户聚类子群进行合并，以获得所述最终的用户聚类子群。

其中，所述拟合度可以根据参数来得到，所述参数至少包括以下一项：

1)合并后需删除的用户个数，例如，在将原始用户聚类子群Class1和Class2合并时，如果Class1中的(A，B)和Class2中的(A，D)合并，则合并为(A，B，A，D)，显然，需要删除一个待聚类用户A，据此可以得到拟合度为1，而如果Class1中的(C)和Class2中的(A，D)合并，则合并为(A，C，D)，显然没有需要删除用户，故据此可以得到拟合度为0。

2)合并后被归为一类的用户的相似度，例如，所述网络设备在将来自服务器4、服务器5、和服务器6的原始用户聚类子群合并时，如果合并后结果可以是将待聚类的用户A、用户B和用户C归为一类，将待聚类的用户D和用户E归为一类，即归类为(A，B，C)和(D，E)；也可以是将待聚类的用户A、用户B和用户D归为一类，而将待聚类的用户C和用户E归为一类，即归类为(A，B，D)和(C，E)，如此，所述网络设备可以通过比较待聚类的用户A、用户B和用户C三者的相关信息的相似程度、与待聚类的用户A、用户B和用户D三者的相关信息的相似程度，来确定拟合度。比如，待聚类的用户A、用户B和用户C三者都是男性，都对足球感兴趣，而待聚类的用户D是女性，显然，待聚类的用户A、用户B和用户C三者的相似度高于待聚类的用户A、用户B和用户D三者的相似度，也就可以据此来确定待聚类的用户A、用户B和用户C三者的拟合度、和待聚类的用户A、用户B和用户D三者的拟合度。本领域技术人员应该理解，上述列示只是用作对拟合度的解释性说明，而非用于限制本发明，事实上，各待聚类的用户的相关信息并非以上述为限。

优选地，在所述步骤S32中，所述网络设备以遍历的方式来对各原始用户，也就是所述网络设备根据拟合度，遍历合并所述各个原始用户聚类子群，以获得合并后的最终的用户聚类子群。例如，所述网络设备获得的原始用户聚类子群为：Class1、Class2、Class3、......ClassN，合并时，所述网络设备先将原始用户聚类子群Class1和原始用户聚类子群Class2合并，合并后的结果再与原始用户聚类子群Class3合并......如此依序进行，直到完成和原始用户聚类子群ClassN的合并为止。

上述各用户聚类子群之间的合并依据拟合度进行，例如，在原始用户聚类子群Class1和原始用户聚类子群Class2合并时，假设原始用户聚类子群Class1包括子群单元class_1_1＝(A，C)和子群单元class_1_2＝(D，E)，原始用户聚类子群Class2包括子群单元class_2_1＝(A，B)和子群单元class_2_2＝(E)，如果class_1_1和class_2_1合并，class_1_2和class_2_2合并，拟合度用需要删除的用户个数来计算，则在这种合并方式中，class_1_1和class_2_1合并时需要删除一个用户A，而class_1_2和class_2_2合并时需要删除一个用户E，故此种合并方式的拟合度为2；如果class_1_1和class_2_2合并，class_1_2和class_2_1合并，则没有需要被删除的用户，故拟合度为0，所述网络设备根据所述拟合度，得到原始用户聚类子群Class1和原始用户聚类子群Class2合并结果为：class_x_1＝(A，C，B)，class_x_2＝(D，E)。根据上述方法再将所述合并后的结果与下一个原始用户聚类子群合并，如此逐步进行，直到将最后一个原始用户聚类子群合并为止，由此完成遍历合并。此外，拟合度也可根据其他参数来确定，具体可参见前述参数的说明，在此不再赘述。

优选地，在步骤S32中，合并可以分组的方式进行，请参阅图4，步骤S32进一步包括步骤S321、步骤S322及步骤S323。

在步骤S321中，所述网络设备先将所述各个原始用户聚类子群划分成多组原始用户聚类子群，其中各组原始用户聚类子群包含至少两个原始用户聚类子群，例如，所述网络设备将获得的原始用户聚类子群Class1，Class2、Class3、......ClassN两两分组，即原始用户聚类子群Class1和Class2一组、Class3和Class4一组......，而如果原始用户聚类子群的数量为单数，则最后剩余的一个原始用户聚类子群可以并入已有的组中，也可以将其视为一组。本领域技术人员应该理解，分组方式并非以上述所述为限制，事实上，以3个或3个以上的原始用户聚类子群作为一组，或者每组所包含的原始用户聚类子群数量互不相同，都是可以的，具体可以根据所述网络设备的处理能力、或者所述网络设备包含的服务器数量来确定。

接着，在步骤S322中，所述网络设备分别合并每组原始用户聚类子群中包含的原始用户聚类子群，以获得多个过渡用户聚类子群例如，所述网络设备根据拟合度将第一组原始用户聚类子群合并，合并后获得过渡用户聚类子群class_x1，将第二组原始用户聚类子群合并，合并后获得过渡用户聚类子群class_x2......，如此，直到所述网络设备将所有组的原始用户聚类子群都合并。而如果采用两两分组，则可能因为总的原始用户聚类子群数量为单数而导致剩余一个原始用户聚类子群，则也可以在各组合并后，将其中一组的合并结果与该剩余的原始用户聚类子群合并，以便获得相应的过渡用户聚类子群。合并仍然可以根据拟合度来进行，具体可参见前述遍历合并中的说明，在此不再赘述。

最后，在步骤S323中，所述网络设备合并所述多个过渡用户聚类子群，以获得所述最终的用户聚类子群。而所述网络设备在对获得的过渡用户聚类子群合并时，依然可以采用多种合并的方式，例如，采用前述遍历的方式，即先将第一个过渡用户聚类子群和第二个过渡用户聚类子群合并，合并后的结果再和后续的过渡用户聚类子群合并，如此依序进行，直到完成对最后一个过渡用户聚类子群的合并为止。此外，所述网络设备还可以再次采用分组的方式，即先将获得的各过渡用户聚类子群再分组，使各组包括至少两个过渡用户聚类子群，然后所述网络设备再对每一组进行合并，在获得了合并结果后再将各结果合并，如此持续进行，以便获得最终的用户聚类子群。

需要说明的是，以上所述合并仅仅只是列示，而非用于限制本发明，事实上，合并可以仅以遍历的方式进行，也可以仅以分组的方式进行，只是，如果采用两两分组时，如果用户聚类子群为单数，则最后剩余的一用户聚类子群，可以放入已有的某一组中，也可以待某一组的用户聚类子群合并后，将该剩余的一用户聚类子群与之再合并，本领域的技术人员应该理解，对剩余的该组原始用户聚类子群的处理方式并非以上述为限，事实上，其也可等到要进行最终的合并时再来处理。此外，合并的方式还可以组合的方式进行，即可以以遍历和方组相结合的方式进行，例如，先将各原始用户聚类子群分组，然后对每一组合并后获得各过渡用户聚类子群，再以遍历方式将各过渡用户聚类子群合并，以获得最终的用户聚类子群，也可以在获得各过渡用户聚类子群后，再对各过渡用户聚类子群分组，然后再对每一过渡用户聚类子群组合并，对合并后的结果再以遍历方式合并。总之，本领域技术人员应该理解，合并的方式是可以多种多样的，并非以上述所述为限，事实上，可以在分组一次后即采用遍历方式合并，也可以在分组多次后再采用遍历方式合并等。

作为本发明的另一个优选实施例，在步骤S32中，所述网络设备还可以结合拟合度及第一预定规则，将各个用户聚类子群进行合并，以获得最终的用户聚类子群。其中，所述第一预定规则包括但不限于以下至少一项：

1)当拟合度相同，选择合并后用户分布最均匀的合并方案。例如，将第一组的原始用户聚类子群中的子群单元class_1_1＝(A，B)和子群单元class_1_2＝(D)与第二组的原始用户聚类子群中的子群单元class_2_1＝(B，D)和子群单元class_2_2＝(C，E，F)合并，如果class_1_1和class_2_1合并、class_1_2和class_2_2合并，拟合度为1，合并后的结果是：class_x1_1＝(A，B，D)、class_x1_2＝(A，D，E，F)；如果class_1_1和class_2_2合并、class_1_2和class_2_1合并，拟合度也为1，合并后的结果为：class_x2_1＝(A，B，C，E，F)、class_x2_2＝(B，D)，显然，前者合并后的结果用户分布比后者的用户分布均匀，故所述网络设备根据拟合度和所述第一预定规则选择前一合并结果，也就是class_x1_1＝(A，B，D)、class_x1_2＝(C，D，E，F)。

2)当一个用户存在于多个最终的用户聚类子群所包含的子群单元中时，将该用户保留在用户数最少的子群单元中，并在其他子群单元中删除该用户。例如，当所述网络设备获得的最终用户聚类子群包括子群单元(A，B，D)和子群单元(A，C，F，H，I)，可见用户A存在于两个子群单元中，而子群单元(A，B，D)的用户数少于子群单元(A，C，F，H，I)，则所述网络设备根据所述第一预定规则将子群单元(A，C，F，H，I)中的用户A删除。

作为本发明的又一个优选实施例，所述网络设备在合并完成，获得了最终的用户聚类子群后，可以据此建立用户子群库。而如果随后所述网络设备又获取了大量待聚类的用户的相关信息，所述网络设备可以再次在计算机网络中对所有已聚类及未聚类的用户进行重新聚类，并根据再次聚类后的结果对所建立的用户子群库进行更新。

图5示出了本发明一个方面的在计算机网络中进行用户聚类的网络设备的结构示意图。本实施例中，网络设备包括第一获取装置1、分发装置2及第一合并装置3。

第一获取装置1获取多个待聚类的用户的相关信息。其中，所述用户的相关信息包括但不限于：1)用户的个人属性，例如，用户的年龄、性别、职业、教育程度、消费能力等等；2)用户的历史行为，例如，点击广告的记录的行为、浏览记录的行为等；3)表示用户兴趣点的关键词等，例如，用户的历史查询词，及根据所述历史查询词进行过滤、分词、拓展得到的关键词。其中，所述用户的个人属性可通过用户主动提供的信息或根据用户的访问查询行为推测得到。

其中，第一获取装置1可通过多种方式来识别用户，其识别方式包括但不限于：1)通过用户的注册信息来识别用户；2)通过用户进行浏览操作时，在用户cookie中记录的临时ID来识别用户，例如，当用户浏览网页时，在该用户的cookie中赋予该用户一个临时ID，并以该临时ID来识别用户。

第一获取装置1将获取的用户的相关信息记录在用户相关信息库中，所述用户相关信息库存储在所述计算机网络的一个或多个设备中。第一获取装置1获取用户相关信息的方式有多种，例如，当用户申请成为与所述网络设备具有关联的网站的注册会员时，会填写注册信息，由此，第一获取装置1可以从该用户递交的注册信息中获取用户相关信息。再比如，用户在与所述网络设备具有关联的网站购物时，会留下购物信息，第一获取装置1由此可以获取购物信息并进行分析以建立或调整该用户的个人属性信息。再比如，用户方位提供网页的服务器时，提供网页的服务器会在cookie中留下临时的用户相关信息，因此，第一获取装置1可从cookie中获取用户相关信息。再比如，对于用户兴趣点的关键词，第一获取装置1可以通过分析用户在提供搜索服务的搜索栏中输入的问讯信息(query)来得到，比如，用户输入：我要参观世博园，由此，可分析出用户兴趣点的关键词是“世博园”。总之，上述各列示仅是为了更好的说明本发明的方案，而非用于限制本发明。

分发装置2将所获取的多个待聚类的用户的相关信息分别复制成多份并分发至所述计算机网络中的多个服务器中，其中每个服务器获得至少两个待聚类的用户的相关信息。

例如，第一获取装置1获得了待聚类的用户A至用户E的用户相关信息，分发装置2将该些待聚类的用户的相关信息复制N份后分发至服务器4至服务器6中。其中，复制的份数N大于或等于2，具体可以根据服务器的处理能力来确定，较佳的，复制的份数N小于服务器的数量。

分发装置2在分发过程中可采用随机分发的方式，例如，将所述用户的相关信息随机分发至各个服务器中等，也可采用指定分发的方式，例如，指定一部分用户的相关信息分发至一部分服务器中，另一部分用户的相关信息分发至另一部分服务器中等。

此外，复制的过程和分发的过程包括但不限于：

1)分发装置2将所有待聚类的用户的相关信息复制N份后，再分发至各服务器；

以分发装置2将待聚类的用户A至用户E的相关信息分发至服务器4至服务器6为例，分发装置2将待聚类的用户A至用户E的相关信息都复制了N份后，再分发至服务器4至服务器6中；

2)分发装置2复制了部分待聚类的用户的相关信息后对已复制的用户的相关信息进行分发，然后再复制，再分发......，如此反复；

例如，以分发装置2将待聚类的用户A至用户E的相关信息分发至服务器4至服务器6为例，分发装置2复制了用户A和用户B的相关信息后，先将用户A和用户B的相关信息分发至服务器，随后再复制用户C的相关信息，将用户C的相关信息分发后，再复制用户D和用户E的相关信息，再将用户D和用户E的相关信息分发至各服务器；

3)分发装置2每将一个用户的相关信息复制为N份，即将该N份用户的相关信息分发至不同的服务器中；

例如，以所述分发装置2将待聚类的用户A至用户E的相关信息分发至服务器4至服务器6为例，分发装置2将用户A的信息复制了N份后，分发至不同的服务器中，然后，分发装置2将用户A的信息复制了N份后，分发至不同的服务器中，重复上述步骤直至所有用户的相关信息均复制并分发完毕。

第一合并装置3获取所述多个服务器分别对分发至该服务器的所述用户的相关信息进行聚类得到的各个原始用户聚类子群，并对所述各个原始用户聚类子群进行合并，以获得合并后的最终的用户聚类子群。

例如，以分发装置2将待聚类的用户A至用户E的相关信息分发至服务器4至服务器6为例，服务器4获得了待聚类的用户A、用户B和用户C的相关信息，经过聚类后获得的原始用户聚类子群Class1为(A，B)和(C)；服务器5获得了待聚类的用户A、用户D和用户E，经过聚类后获得的原始用户聚类子群Class2为(A，D)和(E)；服务器6获得了待聚类的用户B、用户C、用户D和用户E，经过聚类后获得的原始用户聚类子群Class3为(C，D)和(B，E)。各服务器进行聚类，可以根据各待聚类的用户相关信息的相似度来进行，例如，如果待聚类的用户A和用户B，都是女性，年龄都在40至50岁之间，都对世博园感兴趣，而待聚类的用户C是男性，年龄在40至50岁之间，其对足球感兴趣，如此，服务器4可根据待聚类的用户A、B、和C的相关信息的相似程度，将待聚类的用户A和用户B聚类，从而获得原始用户聚类子群Class1为(A，B)和(C)。本领域的技术人员应该理解，上述所述只是为了更好的说明本发明的技术方案，而非用于限制本发明。

第一合并装置3获取服务器4至服务器6各自所得到的各个原始用户聚类子群Class1、Class2及Class3，并对所述各个原始用户聚类子群进行合并，以获得合并后的最终的用户聚类子群。其中，所述合并方式包括但不限于：1)遍历合并；2)分组合并等。后续将以举例的方式对各合并的方式进行具体说明。

图6示出了本发明一个优选实施例的在计算机网络中进行用户聚类的网络设备的结构示意图。在本实施例中，所述网络设备包括第一获取装置1、分发装置2及第一合并装置3，其中，所述第一合并装置3进一步包括第二获取装置31及第二合并装置32。

本实施例中的第一合并装置3及分发装置2已在参照图5所述的实施例中予以详述，在此以引用的方式包含，不再赘述。

第二获取装置31获取各个服务器分别根据分发至该服务器的所述用户的相关信息进行聚类得到的各个原始用户聚类子群；

第二合并装置32根据所述各个原始用户聚类子群之间各种合并方式的拟合度将所述各个原始用户聚类子群进行合并，以获得所述最终的用户聚类子群。

1)合并后需删除的用户个数，例如，第二合并装置32在将原始用户聚类子群Class1和Class2合并时，如果Class1中的(A，B)和Class2中的(A，D)合并，则合并为(A，B，A，D)，显然，需要删除一个待聚类用户A，据此可以得到拟合度为1，而如果Class1中的(C)和Class2中的(A，D)合并，则合并为(A，C，D)，显然没有需要删除用户，故据此可以得到拟合度为0。

2)合并后被归为一类的用户的相似度，例如，第二合并装置32在将来自服务器4、服务器5、和服务器6的原始用户聚类子群合并时，如果合并后结果可以是将待聚类的用户A、用户B和用户C归为一类，将待聚类的用户D和用户E归为一类，即归类为(A，B，C)和(D，E)；也可以是将待聚类的用户A、用户B和用户D归为一类，而将待聚类的用户C和用户E归为一类，即归类为(A，B，D)和(C，E)，如此，第二合并装置32可以通过比较待聚类的用户A、用户B和用户C三者的相关信息的相似程度、与待聚类的用户A、用户B和用户D三者的相关信息的相似程度，来确定拟合度。比如，待聚类的用户A、用户B和用户C三者都是男性，都对足球感兴趣。而待聚类的用户D是女性，显然，待聚类的用户A、用户B和用户C三者的相似度高于待聚类的用户A、用户B和用户D三者的相似度，也就可以据此来确定待聚类的用户A、用户B和用户C三者的拟合度和待聚类的用户A、用户B和用户D三者的拟合度。本领域技术人员应该理解，上述列示只是用作对拟合度的解释性说明，而非用于限制本发明，事实上，各待聚类的用户的相关信息并非以上述为限。

优选地，所述第二合并装置32还包括第一子合并装置321(图未示)。第一子合并装置321以遍历的方式来对各原始用户，也就是第一子合并装置321根据拟合度，遍历合并所述各个原始用户聚类子群，以获得合并后的最终的用户聚类子群。例如，第二获取装置31获得的原始用户聚类子群为：Class1、Class2、Class3、......Class4、合并时，第一子合并装置321先将原始用户聚类子群Class1和原始用户聚类子群Class2合并，合并后的结果再与原始用户聚类子群Class3合并......如此依序进行，直到完成和原始用户聚类子群ClassN的合并为止。

上述各用户聚类子群之间的合并依据拟合度进行，例如，在原始用户聚类子群Class1和原始用户聚类子群Class2合并时，假设原始用户聚类子群Class1包括子群单元class_1_1＝(A，C)和子群单元class_1_2＝(D，E)，原始用户聚类子群Class2包括子群单元class_2_1＝(A，B)和子群单元class_2_2＝(E)，如果class_1_1和class_2_1合并，class_1_2和class_2_2合并，拟合度用需要删除的用户个数来计算，则在这种合并方式中，class_1_1和class_2_1合并时需要删除一个用户A，而class_1_2和class_2_2合并时需要删除一个用户E，故此种合并方式的拟合度为2；如果class_1_1和class_2_2合并，class_1_2和class_2_1合并，则没有需要被删除的用户，故拟合度为0，第一子合并装置321根据所述拟合度，得到原始用户聚类子群Class1和原始用户聚类子群Class2合并结果为：class_x_1＝(A，C，B)，class_x_2＝(D，E)。根据上述方法再将所述合并后的结果与下一个原始用户聚类子群合并，如此逐步进行，直到将最后一个原始用户聚类子群合并为止，由此完成遍历合并。此外，拟合度也可根据其他参数来确定，具体可参见前述参数的说明，在此不再赘述。

优选地，第二合并装置32可以分组的方式进行合并，请参阅图7，第二合并装置32进一步包括分组装置321、第二子合并装置322及地三子合并装置323。

分组装置321先将所述各个原始用户聚类子群划分成多组原始用户聚类子群，其中各组原始用户聚类子群包含至少两个原始用户聚类子群，例如，分组装置321将获得的原始用户聚类子群Class1，Class2、Class3、......ClassN两两分组，即原始用户聚类子群Class1和Class2一组、Class3和Class4一组......，而如果原始用户聚类子群的数量为单数，则最后剩余的一个原始用户聚类子群可以并入已有的组中，也可以将其视为一组。本领域技术人员应该理解，分组方式并非以上述所述为限制，事实上，以3个或3个以上的原始用户聚类子群作为一组，或者每组所包含的原始用户聚类子群数量互不相同，都是可以的，具体可以根据所述网络设备的处理能力、或者所述网络设备包含的服务器数量来确定。

第二子合并装置322分别合并每组原始用户聚类子群中包含的原始用户聚类子群，以获得多个过渡用户聚类子群。例如，第二子合并装置322根据拟合度将第一组原始用户聚类子群合并，合并后获得过渡用户聚类子群class_x1，将第二组原始用户聚类子群合并，合并后获得过渡用户聚类子群class_x2......，如此，直到第二子合并装置322将所有组的原始用户聚类子群都合并。而如果采用两两分组，则可能因为总的原始用户聚类子群数量为单数而导致剩余一个原始用户聚类子群，则也可以在各组合并后，将其中一组的合并结果与该剩余的原始用户聚类子群合并，以便获得相应的过渡用户聚类子群。合并仍然可以根据拟合度来进行，具体可参见前述遍历合并中的说明，在此不再赘述。

第三子合并装置323合并所述多个过渡用户聚类子群，以获得所述最终的用户聚类子群。而第三子合并装置323在对获得的过渡用户聚类子群合并时，依然可以采用多种合并的方式，例如，采用前述遍历的方式，即先将第一个过渡用户聚类子群和第二个过渡用户聚类子群合并，合并后的结果再和后续的过渡用户聚类子群合并，如此依序进行，直到完成对最后一个过渡用户聚类子群的合并为止。此外，第三子合并装置323还可以再次采用分组的方式，即先将获得的各过渡用户聚类子群再分组，使各组包括至少两个过渡用户聚类子群，然后所述网络设备再对每一组进行合并，在获得了合并结果后再将各结果合并，如此持续进行，以便获得最终的用户聚类子群。

需要说明的是，以上所述合并仅仅只是列示，而非用于限制本发明，事实上，合并可以仅以遍历的方式进行，也可以仅以分组的方式进行，只是，如果采用两两分组时，如果用户聚类子群为单数，则最后剩余的一用户聚类子群，可以放入已有的某一组中，也可以待某一组的用户聚类子群合并后，将该剩余的一用户聚类子群与之再合并，本领域的技术人员应该理解，对剩余的该组原始用户聚类子群的处理方式并非以上述为限，事实上，其也可等到要进行最终的合并时再来处理。此外，合并的方式还可以组合的方式进行，即可以以遍历和分组相结合的方式进行，例如，先将各原始用户聚类子群分组，然后对每一组合并后获得各过渡用户聚类子群，再以遍历方式将各过渡用户聚类子群合并，以获得最终的用户聚类子群，也可以在获得各过渡用户聚类子群后，再对各过渡用户聚类子群分组，然后再对每一过渡用户聚类子群组合并，对合并后的结果再以遍历方式合并。总之，本领域技术人员应该理解，合并的方式是可以多种多样的，并非以上述所述为限，事实上，可以在分组一次后即采用遍历方式合并，也可以在分组多次后再采用遍历方式合并等。

作为本发明的另一个优选实施例，第二合并装置32还可以结合拟合度及第一预定规则，将各个用户聚类子群进行合并，以获得最终的用户聚类子群。其中，所述第一预定规则包括但不限于以下至少一项：

1)当拟合度相同，第二合并装置32选择合并后用户分布最均匀的合并方案。例如，将第一组的原始用户聚类子群中的子群单元class_1_1＝(A，B)和子群单元class_1_2＝(D)与第二组的原始用户聚类子群中的子群单元class_2_1＝(B，D)和子群单元class_2_2＝(C，E，F)合并，如果class_1_1和class_2_1合并、class_1_2和class_2_2合并，拟合度为1，合并后的结果是：class_x1_1＝(A，B，D)、class_x1_2＝(C，D，E，F)；如果class_1_1和class_2_2合并，class_1_2和class_2_1合并，拟合度也为1，合并后的结果为：class_x2_1＝(A，B，C，E，F)、class_x2_2＝(B，D)，显然，前者合并后的结果用户分布比后者的用户分布均匀，故第二合并装置32根据拟合度和所述第一预定规则选择前一合并结果，也就是class_x1_1＝(A，B，D)、class_s1_2＝(C，D，E，F )。

2)当一个用户存在于多个最终的用户聚类子群所包含的子群单元中时，第二合并装置32将该用户保留在用户数最少的子群单元中，并在其他子群单元中删除该用户。例如，当第二合并装置32获得的最终用户聚类子群包括子群单元(A，B，D)和子群单元(A，C，F，H，I)，可见用户A存在于两个子群单元中，而子群单元(A，B，D)的用户数少于子群单元(A，C，F，H，I)，则所述网络设备根据所述第一预定规则将子群单元(A，C，F，H，I)中的用户A删除。

作为本发明的又一个优选实施例，所述网络设备还包括更新装置(图未示)。所述更新在合并完成，获得了最终的用户聚类子群后，可以据此建立用户子群库。而如果随后所述网络设备又获取了大量待聚类的用户的相关信息，所述网络设备可以再次在计算机网络中对所有已聚类及未聚类的用户进行重新聚类，更新装置根据再次聚类后的结果对所建立的用户子群库进行更新。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以共他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种在计算机网络的网络设备中用于进行用户聚类的方法，其中，该方法包括以下步骤：

a获取多个待聚类的用户的相关信息；

2.根据权利要求1所述的方法，其中，所述步骤c还包括以下步骤：

c1获取所述多个服务器分别根据分发至该服务器的所述用户的相关信息进行聚类得到的各个原始用户聚类子群；

c2根据所述各个原始用户聚类子群之间各种合并方式的拟合度将所述各个原始用户聚类子群进行合并，以获得所述最终的用户聚类子群。

3.根据权利要求2所述的方法，其中，所述步骤c2还包括以下步骤：

-根据所述拟合度，遍历合并所述各个原始用户聚类子群，以及得合并后的最终的用户聚类子群。

4.根据权利要求2所述的方法，其中，所述步骤c2还包括以下步骤：

-将所述各个原始用户聚类子群划分成多组原始用户聚类子群、其中每组原始用户聚类子群包含至少两个原始用户聚类子群；

-分别合并每组原始用户聚类子群中包含的原始用户聚类子群，以获得多个过渡用户聚类子群；

-合并所述多个过渡用户聚类子群，以获得所述最终的用户聚类子群。

5.根据权利要求2至4中任一项所述的方法，其中，所述步骤c2还包括以下步骤：

-结合所述拟合度及第一预定规则，将所述各个用户聚类子群进行合并，以获得所述最终的用户聚类子群。

6.根据权利要求5所述的方法，其中，所述第一预定规则包括以下至少一项：

-当所述拟合度相同，选择合并后用户分布最均匀的合并方案；

-当一个用户存在于多个所述最终的用户聚类子群所包含的子群单元中时，将该用户保留在用户数最少的子群单元中，并在其他子群单元中删除该用户。

7.根据权利要求2至6中任一项所述的方法，其中，所述拟合度根据以下至少一项参数得到：

-合并后需删除的用户个数；

-合并后被归为一类的用户的相似度。

8.根据权利要求1至7中任一项所述的方法，其中，该方法可包括以下步骤：

-根据所述最终的用户聚类子群，建立或更新用户子群库。

9.根据权利要求1至8中任一项所述的方法，其中，所述用户的相关信息包括以下至少一项：

-用户的个人属性；

-用户的历史行为；

-表示用户兴趣点的关键词。

10.根据权利要求1至9中任一项所述的方法，其中，所述网络设备包括：多个网络服务器集、分布式网络设备或基于云计算的计算机集合。

11.一种在计算机网络中用于进行用户聚类的网络设备，其中，该网络设备包括：

第一获取装置，用于获取多个待聚类的用户的相关信息；

12.根据权利要求11所述的网络设备，其中，所述第一合并装置还包括：

第二获取装置，用于获取所述多个服务器分别根据分发至该服务器的所述用户的相关信息进行聚类得到的各个原始用户聚类子群，

第二合并装置，用于根据所述各个原始用户聚类子群之间各种合并方式的拟合度将所述各个原始用户聚类子群进行合并，以获得所述最终的用户聚类子群。

13.根据权利要求12所述的网络设备，其中，所述第二合并装置还包括：

第一子合并装置，用于根据所述拟合度，遍历合并所述各个原始用户聚类子群，以获得合并后的最终的用户聚类子群。

14.根据权利要求12所述的网络设备，其中，所述第二合并装置还包括：

分组装置，用于将所述各个原始用户聚类子群划分成多组原始用户聚类子群，其中每组原始用户聚类子群包含至少两个原始用户聚类子群；

第二子合并装置，用于分别合并每组原始用户聚类子群中包含的所述原始用户聚类子群，以获得多个过渡用户聚类子群；

第三子合并装置，用于合并所述多个过渡用户聚类子群，以获得所述最终的用户聚类子群。

15.根据权利要求12至14任一项所述的网络设备，其中，所述第二合并装置还用于：

16.根据权利要求15所述的网络设备，其中，所述第一预定规则包括以下至少一项：

17.根据权利要求12至16任一项所述的网络设备，其中，所述拟合度根据以下至少一项参数得到：

-合并后需删除的用户个数；

-合并后被归为一类的用户的相似度。

18.根据权利要求11至17任一项所述的网络设备，其中，所述网络设备还包括：

更新装置，用于根据所述最终的用户聚类子群，建立或更新用户子群库。

19.根据权利要求11至18任一项所述的网络设备，其中，所述用户的相关信息包括以下至少一项：

-用户的个人属性；

-用户的历史行为；

-表示用户兴趣点的关键词。

20.根据权利要求11至19任一项所述的设备，其中，所述网络设备包含于：多个网络服务器集、分布式网络设备或基于云计算的计算机集合中。