CN107563429B

CN107563429B - 一种网络用户群体的分类方法及装置

Info

Publication number: CN107563429B
Application number: CN201710743140.1A
Authority: CN
Inventors: 孙波; 房婧; 杜雄杰; 姚珊; 张伟; 司成祥; 李应博; 刘成; 姜栋; 王亿芳; 张建松; 董建武; 张文学; 杜晓梦
Original assignee: Beijing Baifendian Information Science & Technology Co ltd; National Computer Network and Information Security Management Center
Current assignee: Beijing Percent Technology Group Co ltd; National Computer Network and Information Security Management Center
Priority date: 2017-07-27
Filing date: 2017-08-25
Publication date: 2020-11-10
Anticipated expiration: 2037-08-25
Also published as: CN107563429A

Abstract

本申请实施例公开了一种网络用户群体的分类方法及装置，该方法包括获取待分类的网络用户进行网络访问的历史数据，所述待分类的网络用户为其历史数据与预定的目标用户特征相匹配的用户；根据预先建立的用户分类模型、所述历史数据和所述目标用户特征，确定所述待分类的网络用户所属的类别信息。利用本申请实施例，通过预定的目标用户特征选取相匹配的历史数据，基于所述历史数据的全部内容确定待分类的网络用户所属的类别信息，从整体上充分挖掘待分类的网络用户的全部历史数据，以此为依据确定待分类的网络用户所属的类别信息，从而使得目标用户符合条件的程度较高，提高了类别信息准确性。

Description

一种网络用户群体的分类方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种网络用户群体的分类方法及装置。

背景技术

随着网络技术的不断发展，网络越来越复杂，网站内容也越来越丰富，这样，向用户推荐信息，以及网络的安全等就变的尤为重要。通常可以通过用户的行为特征和规律来实现信息推荐、网络监测和网站的优化，而在此之前，如何确定目标用户需要解决的重要问题。

通常可以通过确定网络用户所属的类别来确定目标用户，以实现信息推荐、网络监测和网站的优化。具体地，通常在确定网络用户所属的类别信息时，是通过网站或服务提供商的业务经验实现的，例如，某电商品类或品牌的推广活动中，需要向目标用户推荐相应的信息，通常将浏览过此品牌或相似品类的商品的网络用户作为目标用户，从而确定目标用户所属的类别信息；或者，判断某个网络用户是否涉及网络安全时，通过判断该网络用户是否访问了某敏感网站，或者使用了某敏感的应用程序来实现，从而确定目标用户所属的类别信息。

然而，上述通过业务经验确定目标用户所属的类别信息的处理方式，只是利用了用户的所有操作行为数据中的一部分行为数据，例如，某用户仅仅只浏览过一次此品牌或相似品类商品却将其作为目标用户，从而使得得到的目标用户符合条件的程度不同，确定的类别信息准确性差。

发明内容

本申请实施例的目的是提供一种网络用户群体的分类方法及装置，以解决现有技术中利用了用户的所有操作行为数据中的一部分行为数据便确定目标用户所属的类别信息，而使得得到的目标用户符合条件的程度不同，确定的类别信息准确性差的问题。

为解决上述技术问题，本申请实施例是这样实现的：

本申请实施例提供的一种网络用户群体的分类方法，所述方法包括：

获取待分类的网络用户进行网络访问的历史数据，所述待分类的网络用户为其历史数据与预定的目标用户特征相匹配的用户；

根据预先建立的用户分类模型、所述历史数据和所述目标用户特征，确定所述待分类的网络用户所属的类别信息。

可选地，所述获取待分类的网络用户进行网络访问的历史数据，包括：

获取网络用户的行为样本数据；

对所述行为样本数据进行特征提取，将提取的有效特征作为所述目标用户特征，所述有效特征为能够表征相应的网络用户的类别的特征；

从历史网络访问数据库中获取与所述目标用户特征相匹配的历史网络访问数据，将获取的历史网络访问数据所属的网络用户待分类的网络用户，并将获取的历史网络访问数据作为待分类的网络用户进行网络访问的历史数据。

可选地，所述将提取的有效特征作为所述目标用户特征，包括：

基于卡方统计量方法和/或信息增益方法，分别计算提取的每个特征的卡方统计量值和/或信息增益值；

将卡方统计量值和/或信息增益值超过相应预定阈值的特征作为所述目标用户特征，所述卡方统计量方法用于确定提取的特征与类别之间的依赖关系，所述信息增益方法用于表征分类***中增加预定特征前后的信息增量。

可选地，基于信息增益方法，计算所述行为样本数据中每个特征的信息增益值，包括：

从所述行为样本数据中获取预定类别的网络用户的用户数目，以及非预定类别的网络用户的用户数目；

根据所述预定类别的网络用户的用户数目和非预定类别的网络用户的用户数目，确定信息熵；

获取每个特征被指定用户和非指定用户访问的频率，并获取每个特征未被指定用户和非指定用户访问的频率；

根据所述信息熵、每个特征被指定用户和非指定用户访问的频率，以及每个特征未被指定用户和非指定用户访问的频率，确定每个特征的信息增益值。

可选地，基于卡方统计量方法，计算所述行为样本数据中每个特征的卡方统计量值，包括：

获取已访问目标特征且其所在的行为样本数据为指定用户的行为样本数据的第一数目，获取已访问目标特征且其所在的行为样本数据为非指定用户的行为样本数据的第二数目，获取未访问目标特征且其所在的行为样本数据为指定用户的行为样本数据的第三数目，获取未访问目标特征且其所在的行为样本数据为非指定用户的行为样本数据的第四数目；

根据所述第一数目、所述第二数目、所述第三数目和所述第四数目，确定所述目标特征的卡方统计量值；

其中，所述目标特征为所述行为样本数据中包含的任意特征。

可选地，所述方法还包括：

获取包括类别信息的网络用户的行为样本数据；

建立所述用户分类模型，并基于所述类别信息的网络用户的行为样本数据对所述用户分类模型进行训练，得到训练后的所述用户分类模型。

可选地，所述用户分类模型为随机森林模型、GBDT模型或bagging模型。

可选地，所述待分类的网络用户中包括多个网络用户，所述方法还包括：

根据预定的k-means聚类算法对所述待分类的网络用户进行分群处理，得到至少一个网络用户群体，所述网络用户群体中包含的用户数量不超过用户数量阈值。

可选地，所述根据预先建立的用户分类模型、所述历史数据和所述目标用户特征，确定所述待分类的网络用户所属的类别信息，包括：

根据预先建立的用户分类模型、所述历史数据和所述目标用户特征，确定所述待分类的网络用户属于不同类别的预测概率；

根据所述待分类的网络用户属于不同类别的预测概率，确定所述待分类的网络用户所属的类别信息。

本申请实施例提供的一种网络用户群体的分类装置，所述装置包括：

历史数据获取模块，用于获取待分类的网络用户进行网络访问的历史数据，所述待分类的网络用户为其历史数据与预定的目标用户特征相匹配的用户；

类别确定模块，用于根据预先建立的用户分类模型、所述历史数据和所述目标用户特征，确定所述待分类的网络用户所属的类别信息。

可选地，所述历史数据获取模块，包括：

行为样本获取单元，用于获取包括类别信息的网络用户的行为样本数据；

特征提取单元，用于对所述行为样本数据进行特征提取，并从提取的特征中获取满足预定选取条件的特征作为所述目标用户特征；

特征匹配单元，用于从历史网络访问数据库中获取与所述目标用户特征相匹配的历史网络访问数据作为待分类的网络用户进行网络访问的历史数据。

可选地，所述特征提取单元，用于基于卡方统计量装置和/或信息增益装置，分别计算提取的每个特征的卡方统计量值和/或信息增益值；将卡方统计量值和/或信息增益值超过相应预定阈值的特征作为所述目标用户特征，所述卡方统计量装置用于确定提取的特征与类别之间的依赖关系，所述信息增益装置用于表征分类***中增加预定特征前后的信息增量。

由以上本申请实施例提供的技术方案可见，本申请实施例通过获取待分类的网络用户进行网络访问的历史数据，其中，所述待分类的网络用户为其历史数据与预定的目标用户特征相匹配的用户，然后，根据预先建立的用户分类模型、所述历史数据和所述目标用户特征，确定所述待分类的网络用户所属的类别信息，这样，通过预定的目标用户特征选取相匹配的历史数据，基于所述历史数据的全部内容确定待分类的网络用户所属的类别信息，从整体上充分挖掘待分类的网络用户的全部历史数据，依次为依据确定待分类的网络用户所属的类别信息，从而使得得到的目标用户符合条件的程度较高，提高了类别信息准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一种网络用户群体的分类方法实施例；

图2为本申请另一种网络用户群体的分类方法实施例；

图3为本申请一种历史数据的获取方法的示意图；

图4为本申请一种网络用户群体的分类装置实施例；

图5为本申请一种网络用户群体的分类设备实施例。

具体实施方式

本申请实施例提供一种网络用户群体的分类方法及装置。

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

实施例一

如图1所示，本申请实施例提供一种网络用户群体的分类方法，该方法的执行主体可以为服务器或终端设备，其中，该服务器可以是独立的服务器，也可以是由多个服务器组成的服务器集群等，该终端设备可以是任意电子设备，例如，手机或平板电脑等移动终端设备，或者，还可以是个人计算机等终端设备。该方法可以用于确定网络用户群体所属的类别，以及获取指定类别的网络用户群体等处理中。该方法具体可以包括以下步骤：

在步骤S101中，获取待分类的网络用户进行网络访问的历史数据，所述待分类的网络用户为其历史数据与预定的目标用户特征相匹配的用户。

其中，网络用户可以是具体的某一个用户，也可以是由多个网络用户组成的网络用户群体，其中的网络用户可以是任意网站的用户，例如，购物网站的用户、论坛网站的用户、资源网站的用户等。网络用户群体可以是某网站中的所有用户，也可以是其中的部分用户，网络用户群体还可以是某用户划分的分组构成的群体，或者，网络用户群体还可以是属于同一类别的用户群体或具有共同特性的用户群体等。目标用户特征可以是任意特征，可以包括一个特征，也可以包括多个特征，例如，网络用户购买的某商品的信息构成的特征(如雪纺七分裤或绣花翻领衬衫等)或某商家的营销活动中提供的信息构成的特征(如母亲节促销或516品类日促销等)。

在实施中，不同的网络用户的兴趣、爱好和习惯等也往往不同，而针对某一个或多个兴趣爱好或习惯，可以由多个网络用户同时具备，例如，用户A喜欢踢足球和打羽毛球，用户B喜欢踢足球和打乒乓球，则用户A和用户B具有相同的踢足球的兴趣爱好。为了提高用户体验，很多网站或服务提供商会将网络用户划分为多个不同的类别，例如，对于购物网站，可以根据用户喜欢的商品或购买的商品将网络用户划分为电子产品的兴趣用户、服饰的兴趣用户和化妆品的兴趣用户等。这样，后续可以根据网络用户的类别，向相应的网络用户推荐信息，如上述购物网站中的商品信息等。由此可见，对某一个网络用户或网络用户群体(即待分类的网络用户)进行分类是非常必要的。

当需要对某个网络用户或网络用户群体(即待分类的网络用户)进行分类时，可以将该网络用户或网络用户群体中的每个网络用户进行网络访问时产生的数据作为分析数据。而在实际应用中，每个网络用户进行网络访问时产生的数据量往往较大，因此，对网络用户进行分类时，可以针对其中包含的某些隐藏或潜在的特征(即目标用户特征，如与想要达到的目的不存在直接关联关系的特征)的数据进行分析，即可以预先设定一个或多个隐藏或潜在的特征作为目标用户特征，例如，如上述示例所述的某商家的营销活动中提供的信息构成的特征(如母亲节促销或516品类日促销等)等。可以从该网络用户或网络用户群体中的每个网络用户进行网络访问时产生的数据中提取与所述目标用户特征相匹配的数据作为所述待分类的网络用户进行网络访问的历史数据。

此外，在将网络用户进行网络访问时产生的数据与目标用户特征匹配之前，还可以对网络用户进行网络访问时产生的数据进行预处理，即可以将数据中包含的与网络访问无关的数据删除，例如，可以将上述数据中的网络参数数据和***参数数据等删除，还可以将上述数据中包含的杂质数据删除，例如，产生的错误数据和传输过程中掺入的杂质数据等，这样，可以提高后续进行目标用户特征匹配的效率。

在步骤S102中，根据预先建立的用户分类模型、所述历史数据和所述目标用户特征，确定所述待分类的网络用户所属的类别信息。

其中，类别信息可以是网络用户所属的类别的相关信息，例如，类别信息可以为A品牌手机爱好者，也可以是摄像爱好者，还可以为旅游爱好者等。

在实施中，可以根据实际应用中的经验建立用于对网络用户进行分类的用户分类模型，即可以在收集网络用户进行网络访问的历史数据的过程中，统计并总结历史数据中包含的规律和相同的特性，并根据统计和总结的相关内容与网络用户所属的类别进行关联分析，确定两者之间的关联关系，并可以基于得到的上述关联关系建立用户分类模型。在实际应用中，除了可以通过经验来构建用户分类模型外，还可以包括多种方式建立用户分类模型，例如，可以从常用的分类模型中选取适当的分类模型作为初始分类模型，然后，可以针对选取的初始分类模型采集相应的训练数据，可以使用该训练数据对所述初始分类模型进行训练，得到训练后的分类模型。可以使用上述训练数据或测试数据对训练后的分类模型进行准确性验证，如果验证通过，则可以将训练后的分类模型作为所述用户分类模型，如果验证未通过，则继续采集相应的训练数据，对分类模型进行训练，直到验证通过。

由于所述历史数据与所述目标用户特征相匹配，因此，可以将历史数据通过所述目标用户特征的方式表示，例如，如果所述目标用户特征包括n个，其中n≥1，且n为正整数，分别为f1、f2、…fn，所述目标用户特征对应的特征向量可以表示为(f1，f2，…fn)，且待分类的网络用户触发特征f1的次数为3次、触发特征f2的次数为5次，则待分类的网络用户的历史数据对应的特征向量可以表示为(3，5，0，…0)。然后，可以将得到的待分类的网络用户的历史数据对应的特征向量作为输入值，输入到所述用户分类模型中进行计算，得到的计算结果可以用于指示所述待分类的网络用户所属的类别，例如，不同的类别可以设置相应的表示数字，如类别A为1、类别B为2、类别C为3等，通过用户分类模型的计算后，可以得到1、2或3等表示数字，可以在上述对应关系中查找到计算得到的表示数字对应的类别信息，从而得到所述待分类的网络用户所属的类别信息，例如，通过用户分类模型的计算后得到的结果为1，则可以确定所述待分类的网络用户所属的类别信息为类别A。

得到所述待分类的网络用户所属的类别信息后，后续可以根据该类别信息从待推荐信息中选取相应的推荐信息，可以将选取的推荐信息发送给上述网络用户，并且可以根据上述不同类别的网络用户或网络用户群体的历史数据对网络体系的结构进行改进和对网络资源进行优化。

本申请实施例提供一种网络用户群体的分类方法，通过获取待分类的网络用户进行网络访问的历史数据，其中，所述待分类的网络用户为其历史数据与预定的目标用户特征相匹配的用户，然后，根据预先建立的用户分类模型、所述历史数据和所述目标用户特征，确定所述待分类的网络用户所属的类别信息，这样，通过预定的目标用户特征选取相匹配的历史数据，基于所述历史数据的全部内容确定待分类的网络用户所属的类别信息，从整体上充分挖掘待分类的网络用户的全部历史数据，依次为依据确定待分类的网络用户所属的类别信息，从而使得得到的目标用户符合条件的程度较高，提高了类别信息准确性。

实施例二

如图2所示，本申请实施例提供一种网络用户群体的分类方法，该方法的执行主体可以为服务器或终端设备，其中，该服务器可以是独立的服务器，也可以是由多个服务器组成的服务器集群等，该终端设备可以是任意电子设备，例如，手机或平板电脑等移动终端设备，或者，还可以是个人计算机等终端设备。该方法以执行主体为服务器为例进行说明。

本申请实施例提供一种网络用户群体的分类方法可以用于确定网络用户群体所属的类别，以及获取指定类别的网络用户群体等处理中。本申请实施例中的网络用户可以是一个用户，也可以是由多个用户组成的网络用户群体，为了更好的说明网络用户群体的分类方法，以网络用户为由多个用户组成的网络用户群体为例进行详细说明，对于一个用户的情况，可以参见下述相关内容，在此不再赘述。该方法具体可以包括以下步骤：

在步骤S201中，获取包括类别信息的网络用户的行为样本数据。

其中，行为样本数据可以是用户在进行网络访问时，在网站中进行某个或多个操作行为的数据构成的样本数据，其中的操作行为可以是用户能够执行的任意操作，例如点击链接的操作行为、下单操作行为或下载操作行为等。

在实施中，可以在网站或应用程序的后台服务器中设置数据记录机制，当某用户通过其账户登录服务器后，服务器可以记录用户进行的各种操作行为，以及该操作行为产生的数据，可以将记录的操作行为和该操作行为产生的数据与该用户的用户标识(如注册的用户名或编码等)对应存储。服务器中可以设置有数据库(即历史网络访问数据库)，例如mysql数据库等，可以将上述对应存储的数据存储到数据库中。当需要使用上述数据时，可以从数据库中提取一定数据量的数据，可以对提取的数据进行分析，确定相应的网络用户所属的类别，可以将确定的类别与用户标识对应存储到数据库中，或者，也可以在存储用户的操作行为产生的数据时，分析并确定相应的网络用户所属的类别。

当需要使用样本数据提取特征，以及训练模型时，可以从数据库中存储的数据中提取预定数据量的数据(如10GB的数据或10万条报文的数据等)，该数据中可以包括多个用户的相关数据，该相关数据中可以包括用户标识、该用户的操作行为信息、各个操作行为产生的数据和该用户所属的类别信息。可以将提取的预定数据量的数据作为行为样本数据。

在步骤S202中，对所述行为样本数据进行特征提取，将提取的有效特征作为目标用户特征。

其中，所述有效特征为能够表征相应的网络用户的类别的特征，具体可以根据实际情况确定，例如，所述有效特征可以为提取的特征中所包含的特征，且与其想要达到的目的不存在直接关联关系的特征，即达到某一目的的隐藏特征或潜在特征等，此外，在某些情况下，有效特征还可以为提取的特征中与正常情况下网络用户的特征存在差别的特征等。

在实施中，以所述有效特征为达到某一目的的隐藏特征或潜在特征为例。网站或服务提供商在筛选网络用户时，往往具有其想要达到的目的或原因，例如，需要统计爱好篮球运动的网络用户，为此，可以对网络用户的行为样本数据进行特征提取，提取每个网络用户对应的特征，其中，这些特征中可以包括购买过篮球的网络用户的特征、个人信息中记录有其爱好包括篮球的网络用户的特征等与上述目的之间相关联的较明显的特征，而在实际应用中可能会发现爱好篮球运动的网络用户通常购买过护腕，这样，购买过护腕的特征就成为统计爱好篮球运动的网络用户的一个关键特征，而购买护腕与爱好篮球运动并不存在直接关联关系，因此，购买过护腕的网络用户的特征即为为了达到统计爱好篮球运动的网络用户的目的的隐藏特征或潜在特征，也即是有效特征(可作为目标用户特征)。如果从中没有查找到达到某一目的的隐藏特征或潜在特征，则可以继续对下一个网络用户执行上述判定，直到所有的网络用户全部完成上述判定操作为止。

上述步骤S202中的将提取的有效特征作为目标用户特征的处理可以多种多样，以下提供一种可选的处理方式，具体可以包括以下步骤一和步骤二的处理：

步骤一，基于卡方统计量方法和/或信息增益方法，分别计算提取的每个特征的卡方统计量值和/或信息增益值。

其中，所述卡方统计量方法用于确定提取的特征与类别之间的依赖关系，卡方统计量方法最基本的思想就是通过观察实际值与理论值的偏差来确定结论的正确与否。实际应用中，常常先假设两个变量是独立的(即原假设)，然后观察实际值(也可以叫做观察值)与理论值的偏差程度，如果偏差足够小，则可以认为误差是自然的样本误差，即其是由于测量手段不够精确导致或者偶然发生的，此时就接受原假设，认为两者是独立的，如果偏差大到一定程度，使得这样的误差不太可能是偶然产生或者测量不精确所致，则可以认为两者实际上是相关的，即否定原假设。

所述信息增益方法用于表征分类***中增加预定特征前后的信息增量。在信息增益中，其衡量标准是某特征能够为分类***带来的信息的数量，带来的信息越多，该特征越重要。

在实施中，对于卡方统计量方法，可以通过卡方统计量算法，计算上述提取的每个特征与预先设定的任一类别之间的依赖关系，得到相应的卡方统计量值。例如，提取的特征包括特征1、特征2和特征3，类别包括类别A和类别B，可以计算特征1与类别A之间的依赖关系，得到相应的卡方统计量值1，计算特征1与类别B之间的依赖关系，得到相应的卡方统计量值2，计算特征2与类别A之间的依赖关系，得到相应的卡方统计量值3，计算特征2与类别B之间的依赖关系，得到相应的卡方统计量值4，计算特征3与类别A之间的依赖关系，得到相应的卡方统计量值5，计算特征3与类别B之间的依赖关系，得到相应的卡方统计量值6。

上述卡方统计量方法具体可以通过以下步骤1和步骤2的方式执行，具体参见下述内容：

步骤1：获取已访问目标特征且其所在的行为样本数据为指定用户的行为样本数据的第一数目，获取已访问目标特征且其所在的行为样本数据为非指定用户的行为样本数据的第二数目，获取未访问目标特征且其所在的行为样本数据为指定用户的行为样本数据的第三数目，获取未访问目标特征且其所在的行为样本数据为非指定用户的行为样本数据的第四数目。

其中，指定用户可以是任意用户，具体可以根据实际情况确定。所述目标特征为所述行为样本数据中包含的任意特征，例如，可以是某商品的特征等。

在实施中，可以在行为样本数据中选取一个或多个具有代表性或用户身份满足预定条件(如VIP用户等)的网络用户作为指定用户，剩余的网络用户即为非指定用户。可以统计得到的行为样本数据中的以下数据：已访问目标特征且其所在的行为样本数据为指定用户的行为样本数据的第一数目、已访问目标特征且其所在的行为样本数据为非指定用户的行为样本数据的第二数目、未访问目标特征且其所在的行为样本数据为指定用户的行为样本数据的第三数目、未访问目标特征且其所在的行为样本数据为非指定用户的行为样本数据的第四数目。

步骤2：根据所述第一数目、所述第二数目、所述第三数目和所述第四数目，确定所述目标特征的卡方统计量值。

在实施中，为了简化后续的描述，可以将所述第一数目使用A表示，将所述第二数目使用B表示，将所述第三数目使用C表示，将所述第四数目使用D表示，则可以通过以下公式

计算所述目标特征的卡方统计量值。其中，N为行为样本数据的数量，χ²为所述目标特征的卡方统计量值。可以对行为样本数据中的每个网络用户进行上述计算得到相应网络用户对应的卡方统计量值。

需要说明的是，如果某一个网络用户对应的特征与某一个类别之间相互独立，则网络用户对应的卡方的估计值为0。

对于信息增益方法，可以通过信息增益算法，计算上述提取的每个特征加入分类***前后的信息增量，得到相应的信息增益值。例如，提取的特征包括特征1、特征2和特征3，可以计算特征1加入分类***前后的信息增量，得到相应的信息增益值1，计算特征2加入分类***前后的信息增量，得到相应的信息增益值2，计算特征3加入分类***前后的信息增量，得到相应的信息增益值3。

上述信息增益方法具体可以通过以下步骤1～步骤4的方式执行，具体参见下述内容：

步骤1：从所述行为样本数据中获取预定类别的网络用户的用户数目，以及非预定类别的网络用户的用户数目。

在实施中，可以在预先设定的多个类别中选取一个或多个具有代表性或能够反映出网站或服务提供商所要达到的目的的类别作为预定类别，可以从所述行为样本数据中提取类别信息为预定类别的网络用户的用户标识，并统计提取的用户标识的数目，以确定相应的用户数目。同时，从所述行为样本数据中提取类别信息为非预定类别的网络用户的用户标识，并统计提取的用户标识的数目，以确定相应的用户数目。

步骤2：根据所述预定类别的网络用户的用户数目和非预定类别的网络用户的用户数目，确定信息熵。

其中，信息熵可以理解为信息增量。

在实施中，为了简化后续的描述，可以将预定类别的网络用户的用户数目使用N₁表示，将所述非预定类别的网络用户的用户数目使用N₂表示，则可以通过以下公式

计算信息熵。其中，Entropy(S)为信息熵。

步骤3：获取每个特征被指定用户和非指定用户访问的频率，并获取每个特征未被指定用户和非指定用户访问的频率。

在实施中，可以如上述卡方统计量方法所述，可以在行为样本数据中选取一个或多个具有代表性或用户身份满足预定条件的网络用户作为指定用户，剩余的网络用户即为非指定用户。可以统计得到的行为样本数据中的以下数据：每个特征被指定用户和非指定用户访问的频率，以及每个特征未被指定用户和非指定用户访问的频率，例如，可以统计每个商品被指定用户和非指定用户访问的频率，以及每个商品未被指定用户和非指定用户访问的频率。

步骤4：根据所述信息熵、每个特征被指定用户和非指定用户访问的频率，以及每个特征未被指定用户和非指定用户访问的频率，确定每个特征的信息增益值。

在实施中，为了简化后续的描述，可以将每个特征被指定用户访问的频率使用A表示，将每个特征被非指定用户访问的频率使用B表示，将每个特征未被指定用户访问的频率使用C表示，将每个特征未被非指定用户访问的频率使用D表示，则可以通过以下公式

计算每个特征的信息增益值。其中，InfoGain为某特征的信息增益值，Entropy(S)为信息熵。

步骤二，将卡方统计量值和/或信息增益值超过相应预定阈值的特征作为所述目标用户特征。

在实施中，对于卡方统计量方法和信息增益方法，可以分别设置相应的阈值来选取隐藏或潜在的特征(即有效特征)，预定阈值的设置可以根据实际情况确定。例如，对于卡方统计量方法对应的预定阈值可以为M，对于信息增益方法对应的预定阈值可以为N。基于上述示例，对于卡方统计量方法，可以将卡方统计量值1、卡方统计量值2、卡方统计量值3、卡方统计量值4、卡方统计量值5和卡方统计量值6分别与预定阈值M相比，可以将大于预定阈值M的卡方统计量值对应的网络用户的特征作为所述目标用户特征。对于信息增益方法，可以将信息增益值1、信息增益值2和信息增益值3分别与预定阈值N相比，可以将大于预定阈值N的信息增益值对应的网络用户的特征作为所述目标用户特征。

通过上述方得到隐藏或潜在的目标用户特征后，可以基于隐藏或潜在的目标用户特征构建用户分类模型，以便对网络用户进行分类，具体可以参见下述步骤S203的处理。

在步骤S203中，建立所述用户分类模型，并基于所述类别信息的网络用户的行为样本数据对所述用户分类模型进行训练，得到训练后的所述用户分类模型。

其中，所述用户分类模型为随机森林模型、GBDT(Gradient Boosting DecisionTree，梯度提升决策树)模型或bagging模型。对于随机森林模型，在机器学习中，随机森林模型是一个包含多个决策树的分类器模型，并且其输出的类别是由其中的某个或多个决策树输出的类别的众数而确定。对于GBDT模型，GBDT模型是一种监督学习的算法模型，GBDT模型的训练结果是一个决策森林，GBDT模型在进行训练时，需要迭代多次，迭代N次，则决策森林中就会包含N棵树，每棵树都包含若干个叶子，每个叶子对应某个特定的分数。GBDT模型的决策森林的学习的最终结果包括每个叶子对应的分数和每个决策树的结构。对于bagging模型，bagging模型是一种用来提高学习算法准确度的模型，该模型可以通过构造一个预测函数系列，并以指定的方式将上述预测函数系列组合成一个预测函数。

在实施中，以用户分类模型为随机森林模型为例，可以利用上述行为样本数据中的全部数据或部分数据作为训练数据，训练所述随机森林模型，得到训练后的所述随机森林模型。其中，为了使得训练后的所述随机森林模型输出的结果较准确，在选取训练数据时，可以尽可能的选取数据量较大的行为样本数据作为训练数据。

此外，为了使得得到的随机森林模型输出的结果较准确，可以利用五折交叉验证方法，将上述行为样本数据划分为训练数据和测试数据，即将行为样本数据划分为5等份，选取其中的4等份的行为样本数据作为训练数据，剩余的1等份行为样本数据作为测试数据，可以使用训练数据对所述随机森林模型进行训练，得到训练后的所述随机森林模型。然后，可以使用测试数据对训练后的所述随机森林模型进行测试，得到相应的测试值，通过得到的测试值计算所述随机森林模型的平均准确率。可以预先设定准确率阈值，具体可以根据实际情况设定，例如0.8或0.7等，可以将平均准确率与准确率阈值比较，如果平均准确率不低于准确率阈值，则可以认为训练后的所述随机森林模型为可信模型，如果平均准确率低于准确率阈值，则可以重新选择其它模型继续创建模型并训练，如果所有类型的模型训练后的平均准确率都低于准确率阈值，则可以重新确定目标用户特征。

在步骤S204中，从历史网络访问数据库中获取与所述目标用户特征相匹配的历史网络访问数据，将获取的历史网络访问数据所属的网络用户待分类的网络用户，并将获取的历史网络访问数据作为待分类的网络用户进行网络访问的历史数据。

在实施中，通过上述步骤S201和步骤S202的处理得到了有效特征(即目标用户特征)，可以通过得到的目标用户特征到数据库(即历史网络访问数据库)中查找相匹配的历史网络访问数据，从而得到满足条件的网络用户(即待分类的网络用户)，以及待分类的网络用户进行网络访问的历史数据。

例如，如图3所示，目标用户特征可以为一个，也可以为多个，如果目标用户特征为多个，且目标用户特征包括特征A、特征B和特征C，则可以使用特征A与历史网络访问数据库中每个网络用户的历史网络访问数据进行匹配，得到与特征A相匹配的历史网络访问数据1，然后，使用相同的方法，使用特征B与历史网络访问数据库中每个网络用户的历史网络访问数据进行匹配，得到与特征B相匹配的历史网络访问数据2，使用特征C与历史网络访问数据库中每个网络用户的历史网络访问数据进行匹配，得到与特征C相匹配的历史网络访问数据3。可以将历史网络访问数据1、历史网络访问数据2和历史网络访问数据3合并得到历史数据，该历史数据对应的网络用户即为待分类的网络用户。

考虑到通过上述方式得到的历史数据的数据量仍然较大，因此可以从中选择部分历史数据，则上述步骤S204的处理可以通过以下方式实现：从历史网络访问数据库中获取与所述目标用户特征相匹配的历史网络访问数据；从所述相匹配的历史网络访问数据中选取预定数目的历史网络访问数据作为待分类的网络用户进行网络访问的历史数据。

其中，预定数目可以根据实际情况进行设定，本申请实施例对此不做限定。

上述从历史网络访问数据库中获取与所述目标用户特征相匹配的历史网络访问数据的处理，可以参见上述相关内容，在此不再赘述。

在步骤S205中，根据预先建立的用户分类模型、所述历史数据和所述目标用户特征，确定所述待分类的网络用户属于不同类别的预测概率。

在实施中，可以将历史数据通过所述目标用户特征的方式表示，得到每个待分类的网络用户的历史数据对应的特征向量，具体可以参见上述实施例一中步骤S102中的相关内容，在此不再赘述。然后，可以将得到的每个待分类的网络用户的历史数据对应的特征向量作为输入值，输入到所述用户分类模型中进行计算，得到所述待分类的网络用户属于不同类别的预测概率，例如，所有的类别包括类别A、类别B和类别C，则可以计算每个待分类的网络用户分别属于类别A、类别B和类别C对应的预测概率，如待分类的网络用户1属于类别A的预测概率为0.8，待分类的网络用户1属于类别B的预测概率为0.2，待分类的网络用户1属于类别C的预测概率为0.1等。

在步骤S206中，根据所述待分类的网络用户属于不同类别的预测概率，确定所述待分类的网络用户所属的类别信息。

在实施中，针对某一个待分类的网络用户，可以将该待分类的网络用户属于不同类别的预测概率进行比较，可以将预测概率最大值对应的类别作为该待分类的网络用户所属的类别，从而得到该待分类的网络用户所属的类别信息，通过上述方式可以得到所有待分类的网络用户所属的类别信息。例如，基于上述步骤S205的示例，如果待分类的网络用户1属于类别A的预测概率为0.8，待分类的网络用户1属于类别B的预测概率为0.2，待分类的网络用户1属于类别C的预测概率为0.1，则待分类的网络用户1所属的类别信息为类别A。

除了可以通过上述方式外，还可以预先设定预测阈值，其数值的大小具体可以根据实际情况设定。针对某一个待分类的网络用户，可以将该待分类的网络用户属于不同类别的预测概率分别与预测阈值进行比较，可以将预测概率大于预测阈值对应的类别作为该待分类的网络用户所属的类别，从而得到该待分类的网络用户所属的类别信息。其中，如果某待分类的网络用户属于两个或多个不同类别的预测概率均大于预测阈值，则可以从中选择预测概率最大值对应的类别作为该待分类的网络用户所属的类别，或者，也可以将该待分类的网络用户分别划分到上述两个或多个不同类别中。

对于所述待分类的网络用户中包括多个网络用户的情况，还可以对待分类的网络用户划分成多个不同的网络用户群体，具体可以参见下述步骤S207的处理。

在步骤S207中，根据预定的k-means聚类算法对所述待分类的网络用户进行分群处理，得到至少一个网络用户群体，所述网络用户群体中包含的用户数量不超过用户数量阈值。

其中，k-means聚类算法是硬聚类算法，它是典型的基于原型的目标函数进行聚类的代表，k-means聚类算法以数据点到原型的某种距离作为优化的目标函数，利用函数极值的方法得到迭代运算的调整规则。K-means聚类算法以欧式距离作为相似度测度，目的是确定对应某一初始聚类中心向量的最优分类，使得评价指标最小。k-means聚类算法采用误差平方和准则函数作为聚类准则函数。

在实施中，可以根据待分类的网络用户属于不同类别的预测概率对待分类的网络用户进行进一步划分。可以根据跳跃度统计量算法，确定预测概率的跳跃度超过预定跳跃度阈值的预测概率，作为分群处理的依据，根据所述分群处理的依据对所述待分类的网络用户进行分群处理，得到至少一个网络用户群体。其中，跳跃度统计量：定义：设X₍₁₎,X₍₂₎…,X_(n)为来自总体分布F(x,θ)的样本容量为n的次序统计量，

为仅依赖于X₍₁₎,X₍₂₎…,X_(k)的期望μ的点估计，

则称

为μ在点K的跳跃度。其度量方法可以通过下述公式实现：

其中，k≤n。

具体地，可以预先设定跳跃度阈值，具体可以根据实际情况确定。可以根据跳跃度统计量算法，即通过上述相关公式计算预测概率的跳跃度，以将得到的预测概率进行排序，通过排序的结果确定排序后的预测概率中出现明显或较大跳跃的点(或位置)，可以将确定的明显或较大跳跃的点的坐标(或者该点或位置对应的预测概率)作为分群处理的依据，例如0.3和0.9，如果待分类的网络用户属于某一类别的预测概率超过0.9，则可以认为待分类的网络用户距离上述类别对应的目标人群比较接近，如果待分类的网络用户属于某一类别的预测概率低于0.3，则可以认为待分类的网络用户距离上述类别对应的目标人群较远，如果待分类的网络用户属于某一类别的预测概率在0.3和0.9之间则是位于上述二者之间。通过上述方式可以将待分类的网络用户划分成多个群体。

需要说明的是，为了使得划分出的群体中的网络用户的数量不至过多，导致***资源开销过大，数量过少则分群过于粗糙，则可以预先确定分群数量，可以预先设定限值，如1000或1500等，当用户数量/1000得到的结果小于1000时，取用户数量/1000得到的结果作为分群基础，这样，通过上述方式可以覆盖1万-1000万的目标受众。

然后，可以根据预定的k-means聚类算法对所述待分类的网络用户进行聚类计算，在进行聚类计算的过程中，可以通过上述方式得到每个待分类的网络用户的历史数据对应的特征向量，代入k-means聚类算法公式中进行计算，将同一类的待分类的网络用户划分到同一个网络用户群体中，从而得到至少一个网络用户群体。这样，后续可以根据网络用户群体及其类别信息从待推荐信息中选取相应的推荐信息，可以将选取的推荐信息发送给上述网络用户群体，并且可以根据上述不同类别的网络用户群体的历史数据对网络体系的结构进行改进和对网络资源进行优化。

实施例三

本实施例将结合具体的应用场景，对本发明实施例提供的一种网络用户群体的分类方法进行详细的阐述，相应的应用场景为从某电商的网络用户的所有购买信息中提取其包含的隐藏特征或潜在特征，以及确定相应网络用户所属的类别信息。

本申请实施例提供一种网络用户群体的分类方法的执行主体可以为服务器。本申请实施例中的网络用户为由多个用户组成的网络用户群体。该方法具体可以包括以下步骤：

在步骤S401中，获取包括类别信息的网络用户的行为样本数据。

在步骤S402中，获取已访问目标品牌的商品且其所在的行为样本数据为指定用户的行为样本数据的第一数目，获取已访问所述目标品牌的商品且其所在的行为样本数据为非指定用户的行为样本数据的第二数目，获取未访问所述目标品牌的商品且其所在的行为样本数据为指定用户的行为样本数据的第三数目，获取未访问所述目标品牌的商品且其所在的行为样本数据为非指定用户的行为样本数据的第四数目，其中，所述目标品牌为任意品牌。

在步骤S403中，根据所述第一数目、所述第二数目、所述第三数目和所述第四数目，确定所述目标品牌的商品的卡方统计量值。

通过上述处理方式可以得到每个品牌的任意商品的卡方统计量值，基于得到的每个品牌的任意商品的卡方统计量值执行下述步骤S404的处理。

在步骤S404中，获取卡方统计量值超过相应预定阈值的商品。

例如，上述获取的商品可以为上述电商的某高端品牌的某一个商品，或者该高端品牌的多个商品，再或者，上述获取的商品中涉及该电商的多个高端品牌，且每个高端品牌中包括一个或多个商品，则上述获取的商品可以是上述多个商品等。

在步骤S405中，从所述行为样本数据中获取预定类别的网络用户的用户数目，以及非预定类别的网络用户的用户数目。

在步骤S406中，根据所述预定类别的网络用户的用户数目和非预定类别的网络用户的用户数目，确定信息熵。

在步骤S407中，获取每个品牌的商品被指定用户和非指定用户访问的频率，并获取每个品牌的商品未被指定用户和非指定用户访问的频率。

在步骤S408中，根据所述信息熵、每个品牌的商品被指定用户和非指定用户访问的频率，以及每个品牌的商品未被指定用户和非指定用户访问的频率，确定每个品牌的商品的信息增益值。

在步骤S409中，获取信息增益值超过相应预定阈值的商品。

在步骤S410中，将卡方统计量值超过相应预定阈值，且信息增益值超过相应预定阈值的商品作为所述目标用户特征。

这样，通过上述处理过程，可以从每个品牌(或某些高端品牌)中的一些商品，及其它一些相似商品，及其它非相同类别或品类的商品中发现其包含的潜在特征、显著特征或典型特征，然后，可以充分利用相应网络用户的所有数据，从中抽取潜在特征、显著特征或典型特征用以进行后续的模型训练和扩散人群，具体可以参见下述步骤。

在步骤S411中，建立所述用户分类模型，并基于所述类别信息的网络用户的行为样本数据对所述用户分类模型进行训练，得到训练后的所述用户分类模型。

在步骤S412中，从历史网络访问数据库中获取与所述目标用户特征相匹配的历史网络访问数据，将获取的历史网络访问数据所属的网络用户待分类的网络用户，并将获取的历史网络访问数据作为待分类的网络用户进行网络访问的历史数据。

在步骤S413中，根据预先建立的用户分类模型、所述历史数据和所述目标用户特征，确定所述待分类的网络用户属于不同类别的预测概率。

在步骤S414中，根据所述待分类的网络用户属于不同类别的预测概率，确定所述待分类的网络用户所属的类别信息。

在步骤S415中，根据跳跃度统计量算法对所述预测概率进行排序，确定排序后的预测概率中出现数据跳跃的点(或位置)，可以将确定的明显或较大跳跃的点的坐标(或者该点或位置对应的预测概率)作为分群处理的依据。

在步骤S416中，根据预定的k-means聚类算法对所述待分类的网络用户进行分群处理，得到至少一个网络用户群体，所述网络用户群体中包含的用户数量不超过用户数量阈值。

上述步骤S401～步骤S416的处理过程可以参见上述实施例二中的相关内容，在此不再赘述。

这样，后续可以根据网络用户群体及其类别信息从待推荐信息中选取相应的推荐信息，可以将选取的推荐信息发送给上述网络用户群体，并且可以根据上述不同类别的网络用户群体的历史数据对网络体系的结构进行改进和对网络资源进行优化。

实施例四

以上为本申请实施例提供的网络用户群体的分类方法，基于同样的思路，本申请实施例还提供一种网络用户群体的分类装置，如图4所示。

所述网络用户群体的分类装置包括：历史数据获取模块501和类别确定模块502，其中：

历史数据获取模块501，用于获取待分类的网络用户进行网络访问的历史数据，所述待分类的网络用户为其历史数据与预定的目标用户特征相匹配的用户；

类别确定模块502，用于根据预先建立的用户分类模型、所述历史数据和所述目标用户特征，确定所述待分类的网络用户所属的类别信息。

本申请实施例中，所述历史数据获取模块501，包括：

行为样本获取单元，用于获取网络用户的行为样本数据；

特征提取单元，用于对所述行为样本数据进行特征提取，将提取的有效特征作为所述目标用户特征，所述有效特征为能够表征相应的网络用户的类别的特征；

特征匹配单元，用于从历史网络访问数据库中获取与所述目标用户特征相匹配的历史网络访问数据，将获取的历史网络访问数据所属的网络用户待分类的网络用户，并将获取的历史网络访问数据作为待分类的网络用户进行网络访问的历史数据。

本申请实施例中，所述特征提取单元，用于基于卡方统计量装置和/或信息增益装置，分别计算提取的每个特征的卡方统计量值和/或信息增益值；将卡方统计量值和/或信息增益值超过相应预定阈值的特征作为所述目标用户特征，所述卡方统计量装置用于确定提取的特征与类别之间的依赖关系，所述信息增益装置用于表征分类***中增加预定特征前后的信息增量。

本申请实施例中，所述特征匹配单元，用于从历史网络访问数据库中获取与所述目标用户特征相匹配的历史网络访问数据；从所述相匹配的历史网络访问数据中选取预定数目的历史网络访问数据作为待分类的网络用户进行网络访问的历史数据。

本申请实施例中，所述特征提取单元，用于从所述行为样本数据中获取预定类别的网络用户的用户数目，以及非预定类别的网络用户的用户数目；根据所述预定类别的网络用户的用户数目和非预定类别的网络用户的用户数目，确定信息熵；获取每个特征被指定用户和非指定用户访问的频率，并获取每个特征未被指定用户和非指定用户访问的频率；根据所述信息熵、每个特征被指定用户和非指定用户访问的频率，以及每个特征未被指定用户和非指定用户访问的频率，确定每个特征的信息增益值。

本申请实施例中，所述特征提取单元，用于获取已访问目标特征且其所在的行为样本数据为指定用户的行为样本数据的第一数目，获取已访问目标特征且其所在的行为样本数据为非指定用户的行为样本数据的第二数目，获取未访问目标特征且其所在的行为样本数据为指定用户的行为样本数据的第三数目，获取未访问目标特征且其所在的行为样本数据为非指定用户的行为样本数据的第四数目；根据所述第一数目、所述第二数目、所述第三数目和所述第四数目，确定所述目标特征的卡方统计量值；其中，所述目标特征为所述行为样本数据中包含的任意特征。

本申请实施例中，所述装置还包括：

样本数据获取模块，用于获取包括类别信息的网络用户的行为样本数据；

模型建立模块，用于建立所述用户分类模型，并基于所述类别信息的网络用户的行为样本数据对所述用户分类模型进行训练，得到训练后的所述用户分类模型。

本申请实施例中，所述用户分类模型为随机森林模型、GBDT模型或bagging模型。

本申请实施例中，所述待分类的网络用户中包括多个网络用户，所述装置还包括：

分群模块，用于根据预定的k-means聚类算法对所述待分类的网络用户进行分群处理，得到至少一个网络用户群体，所述网络用户群体中包含的用户数量不超过用户数量阈值。

本申请实施例中，所述类别确定模块502，包括：

类别预测单元，用于根据预先建立的用户分类模型、所述历史数据和所述目标用户特征，确定所述待分类的网络用户属于不同类别的预测概率；

类别确定单元，用于根据所述待分类的网络用户属于不同类别的预测概率，确定所述待分类的网络用户所属的类别信息。

本申请实施例提供一种网络用户群体的分类装置，通过获取待分类的网络用户进行网络访问的历史数据，其中，所述待分类的网络用户为其历史数据与预定的目标用户特征相匹配的用户，然后，根据预先建立的用户分类模型、所述历史数据和所述目标用户特征，确定所述待分类的网络用户所属的类别信息，这样，通过预定的目标用户特征选取相匹配的历史数据，基于所述历史数据的全部内容确定待分类的网络用户所属的类别信息，从整体上充分挖掘待分类的网络用户的全部历史数据，依次为依据确定待分类的网络用户所属的类别信息，从而使得得到的目标用户符合条件的程度较高，提高了类别信息准确性。

实施例五

以上为本申请实施例提供的网络用户群体的分类装置，基于同样的思路，本申请实施例还提供一种网络用户群体的分类设备，如图5所示。

该网络用户群体的分类设备可以为上述实施例提供的服务器或终端设备。

网络用户群体的分类设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器601和存储器602，存储器602中可以存储有一个或一个以上存储应用程序或数据。其中，存储器602可以是短暂存储或持久存储。存储在存储器602的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括对网络用户群体的分类设备中的一系列计算机可执行指令。更进一步地，处理器601可以设置为与存储器602通信，在网络用户群体的分类设备上执行存储器602中的一系列计算机可执行指令。网络用户群体的分类设备还可以包括一个或一个以上电源603，一个或一个以上有线或无线网络接口604，一个或一个以上输入输出接口605，一个或一个以上键盘606。

具体在本实施例中，网络用户群体的分类设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对网络用户群体的分类设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：

可选地，所述可执行指令在被执行时，还可以使所述处理器：

获取网络用户的行为样本数据；

从历史网络访问数据库中获取与所述目标用户特征相匹配的历史网络访问数据；

从所述相匹配的历史网络访问数据中选取预定数目的历史网络访问数据作为待分类的网络用户进行网络访问的历史数据。

获取包括类别信息的网络用户的行为样本数据；

所述待分类的网络用户中包括多个网络用户，

本申请实施例提供一种网络用户群体的分类设备，通过获取待分类的网络用户进行网络访问的历史数据，其中，所述待分类的网络用户为其历史数据与预定的目标用户特征相匹配的用户，然后，根据预先建立的用户分类模型、所述历史数据和所述目标用户特征，确定所述待分类的网络用户所属的类别信息，这样，通过预定的目标用户特征选取相匹配的历史数据，基于所述历史数据的全部内容确定待分类的网络用户所属的类别信息，从整体上充分挖掘待分类的网络用户的全部历史数据，依次为依据确定待分类的网络用户所属的类别信息，从而使得得到的目标用户符合条件的程度较高，提高了类别信息准确性。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种网络用户群体的分类方法，其特征在于，所述方法包括：

根据预先建立的用户分类模型、所述历史数据和所述目标用户特征，确定所述待分类的网络用户属于不同类别的预测概率；其中，将历史数据通过所述目标用户特征的方式表示，得到每个待分类的网络用户的历史数据对应的特征向量，然后，将得到的每个待分类的网络用户的历史数据对应的特征向量作为输入值，输入到所述用户分类模型中进行计算，得到所述待分类的网络用户属于不同类别的预测概率；

根据所述待分类的网络用户属于不同类别的预测概率，确定所述待分类的网络用户所属的类别信息；

其中，所述待分类的网络用户中包括多个网络用户，所述方法还包括：

根据预定的k-means聚类算法对所述待分类的网络用户进行分群处理，得到至少一个网络用户群体，所述网络用户群体中包含的用户数量不超过用户数量阈值；

其中，预先设定跳跃度阈值，根据跳跃度统计量算法，确定预测概率的跳跃度超过预定跳跃度阈值的预测概率，作为分群处理的依据，根据所述分群处理的依据对所述待分类的网络用户进行分群处理，得到至少一个网络用户群体；其中，设X₍₁₎，X₍₂₎...，X_(n)为来自总体分布F(x，θ)的样本容量为n的次序统计量，

为仅依赖于X₍₁₎，X₍₂₎...，X_(k)的期望μ的点估计，则称

为μ在点K的跳跃度；其度量方法通过下述公式实现：

其中，k≤n；

然后，根据预定的k-means聚类算法对所述待分类的网络用户进行聚类计算，在进行聚类计算的过程中，通过上述方式得到每个待分类的网络用户的历史数据对应的特征向量，代入k-means聚类算法公式中进行计算，将同一类的待分类的网络用户划分到同一个网络用户群体中，从而得到至少一个网络用户群体。

2.根据权利要求1所述的方法，其特征在于，所述获取待分类的网络用户进行网络访问的历史数据，包括：

获取网络用户的行为样本数据；

3.根据权利要求2所述的方法，其特征在于，所述将提取的有效特征作为所述目标用户特征，包括：

4.根据权利要求3所述的方法，其特征在于，基于信息增益方法，计算所述行为样本数据中每个特征的信息增益值，包括：

获取每个特征被指定用户和非指定用户访问的频率，并获取每个特征没有被指定用户和非指定用户访问的频率；

根据所述信息熵、每个特征被指定用户和非指定用户访问的频率，以及每个特征没有被指定用户和非指定用户访问的频率，确定每个特征的信息增益值；

其中，在行为样本数据中选取一个或多个具有代表性或用户身份满足预定条件的网络用户作为指定用户，剩余的网络用户即为非指定用户。

5.根据权利要求3所述的方法，其特征在于，基于卡方统计量方法，计算所述行为样本数据中每个特征的卡方统计量值，包括：

其中，所述目标特征为所述行为样本数据中包含的任意特征；

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取包括类别信息的网络用户的行为样本数据；

7.根据权利要求1所述的方法，其特征在于，所述用户分类模型为随机森林模型、GBDT模型或bagging模型。

8.一种网络用户群体的分类装置，其特征在于，所述装置包括：

类别确定模块，用于根据预先建立的用户分类模型、所述历史数据和所述目标用户特征，确定所述待分类的网络用户所属的类别信息；

其中，所述类别确定模块，包括：

类别预测单元，用于根据预先建立的用户分类模型、所述历史数据和所述目标用户特征，确定所述待分类的网络用户属于不同类别的预测概率；其中，将历史数据通过所述目标用户特征的方式表示，得到每个待分类的网络用户的历史数据对应的特征向量，然后，将得到的每个待分类的网络用户的历史数据对应的特征向量作为输入值，输入到所述用户分类模型中进行计算，得到所述待分类的网络用户属于不同类别的预测概率；

类别确定单元，用于根据所述待分类的网络用户属于不同类别的预测概率，确定所述待分类的网络用户所属的类别信息；

所述待分类的网络用户中包括多个网络用户，所述装置还包括：

分群模块，用于根据预定的k-means聚类算法对所述待分类的网络用户进行分群处理，得到至少一个网络用户群体，所述网络用户群体中包含的用户数量不超过用户数量阈值；其中，预先设定跳跃度阈值，根据跳跃度统计量算法，确定预测概率的跳跃度超过预定跳跃度阈值的预测概率，作为分群处理的依据，根据所述分群处理的依据对所述待分类的网络用户进行分群处理，得到至少一个网络用户群体；其中，设X₍₁₎，X₍₂₎...，X_(n)为来自总体分布F(x，θ)的样本容量为n的次序统计量，

为μ在点K的跳跃度；其度量方法通过下述公式实现：

其中，k≤n；然后，根据预定的k-means聚类算法对所述待分类的网络用户进行聚类计算，在进行聚类计算的过程中，通过上述方式得到每个待分类的网络用户的历史数据对应的特征向量，代入k-means聚类算法公式中进行计算，将同一类的待分类的网络用户划分到同一个网络用户群体中，从而得到至少一个网络用户群体。

9.根据权利要求8所述的装置，其特征在于，所述历史数据获取模块，包括：

行为样本获取单元，用于获取网络用户的行为样本数据；

10.根据权利要求9所述的装置，其特征在于，所述特征提取单元，用于基于卡方统计量装置和/或信息增益装置，分别计算提取的每个特征的卡方统计量值和/或信息增益值；将卡方统计量值和/或信息增益值超过相应预定阈值的特征作为所述目标用户特征，所述卡方统计量装置用于确定提取的特征与类别之间的依赖关系，所述信息增益装置用于表征分类***中增加预定特征前后的信息增量。