CN108573266A

CN108573266A - 抽取共同特征的方法和装置

Info

Publication number: CN108573266A
Application number: CN201710142514.4A
Authority: CN
Inventors: 张少娜
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Hebei Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Hebei Co Ltd
Priority date: 2017-03-10
Filing date: 2017-03-10
Publication date: 2018-09-25

Abstract

一种抽取共同特征的方法和装置，包括：依据用户的特征量确定类中心，基于所述类中心分配用户至所属类中；根据类中用户的特征量计算类自适应度，调整用户所属类；抽取用户所属类的共同特征。采用本发明实施例后，能够依据用户群体特征的关联性，获知用户群体的共同特征。

Description

抽取共同特征的方法和装置

技术领域

本发明涉及计算机领域，尤其涉及一种抽取共同特征的方法和装置。

背景技术

随着时代的发展与进步，市场经济越来越多元化，人与人之间的各种联系也日趋便利和集中化，社交已成为人们沟通交流和拓宽自己交际圈的有效渠道，人类发展的群体特征愈发明显。曾有著名的六度空间理论：你和任何一个陌生人之间所间隔的人不会超过6个，即最多通过6个人就能认识任何一个陌生人。

传统的挖掘技术分析只是针对用户个体或用户个体特征属性进行聚类判断，聚类数的选取以及聚类初始中心点的确定是首先需要面对的问题，也是影响聚类结果好坏的重要参数。

现有的聚类方法是以设定的k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。该聚类方法依赖于初始中心的设定，聚类结果对初始中心点的选取比较敏感。聚类结果依赖于初始值的选取，当初始中心点的选择不同时，聚类结果可能会发生很大差异，由此导致了不能保证获得最优的聚类结果。

综上，现有技术中用户聚类只是根据用户个体或用户特征属性之间的相似性分类用户，忽略了用户群体特征的关联性。因此，无法获知用户群体的共同特征。

发明内容

本发明实施例提供了一种抽取共同特征的方法，能够依据用户群体特征的关联性，获知用户群体的共同特征。

本发明实施例还提供了一种传输数据的装置，能够依据用户群体特征的关联性，获知用户群体的共同特征。

一种抽取共同特征的方法，包括：

依据用户的特征量确定类中心，基于所述类中心分配用户至所属类中；

根据类中用户的特征量计算类自适应度，调整用户所属类；

抽取用户所属类的共同特征。

可选的，所述基于所述类中心分配用户至所属类中，包括：

基于所述类中心与用户的特征量的距离，将所述用户分配至最小距离对应的类中。

可选的，所述最小距离的数目等于2，所述最小距离是一个类中最大距离；

所述将所述用户分配至最小距离对应的类中，包括：

将所述用户分配至所述最小距离对应的另一个类中。

可选的，所述最小距离的数目等于2，所述最小距离是一个类中最小距离；

所述将所述用户分配至最小距离对应的类中，包括：

将所述用户分配至所述最小距离对应的一个类中。

可选的，所述根据类中用户的特征量计算类自适应度，调整用户所属类，包括：

根据类中用户的特征量与类中心的差的平方和，确定类自适应度；

最小类自适应度与最大类自适应度的比值小于预设自适应度阈值，则基于当前类中心调整用户所属类。

最小类自适应度与最大类自适应度的比值大于等于预设自适应度阈值，用户与所属类中心的用户距离大于等于所属类中最大用户距离的一半，则基于当前类中心调整用户所属类。

可选的，所述预设自适应度阈值小于等于2/5且大于等于1/3。

可选的，所述方法还包括：

由类中两个用户之间的特征量交集与所述交集中用户之间的联系数量的和作为所述两个用户的亲邻度；

抽取类中最大亲邻度对应用户的共同特征。

一种抽取共同特征的装置，包括：

分配模块，用于依据用户的特征量确定类中心，基于所述类中心分配用户至所属类中；

调整模块，用于根据类中用户的特征量计算类自适应度，调整用户所属类；

抽取模块，用于抽取用户所属类的共同特征。

可选的，所述分配模块，还用于基于所述类中心与用户的特征量的距离，将所述用户分配至最小距离对应的类中。

所述分配模块，还用于将所述用户分配至所述最小距离对应的另一个类中。

所述分配模块，还用于将所述用户分配至所述最小距离对应的一个类中。

可选的，所述调整模块，还用于根据类中用户的特征量与类中心的差的平方和，确定类自适应度；

最小类自适应度与最大类自适应度的比值大于等于预设自适应度阈值，用户与所属类中心的用户距离大于等于所属类中最大用户距离的一半，则调整所述用户所述类。

可选的，所述预设自适应度阈值小于等于2/5且大于等于1/3。

可选的，所述装置还包括分析模块，用于由类中两个用户之间的特征量交集与所述交集中用户之间的联系数量的和作为所述两个用户的亲邻度；

所述抽取模块，还用于抽取类中最大亲邻度对应用户的共同特征。

从上述技术方案中可以看出，在本发明实施例中依据用户的特征量确定类中心，基于类中心分配用户至所属类中；根据类中用户的特征量计算类的自适应度，调整用户所属类；抽取用户所属类的共同特征。由于可以根据所有类的自适应度调整用户所属类，在分类准确的基础上以类为单位，抽取每个类的共同特征，从而获知用户群体的共同特征。

附图说明

从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明其中，相同或相似的附图标记表示相同或相似的特征。

图1是本发明实施例中抽取共同特征的方法流程示意图；

图2是本发明实施例中抽取共同特征的具体流程示意图；

图3是本发明实施例中亲邻度示意图；

图4是本发明实施例中抽取共同特征的装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点表达得更加清楚明白，下面结合附图及具体实施例对本发明再作进一步详细的说明。

在本发明实施例中，根据类中用户的特征量计算类自适应度，调整用户所属类，可以对用户准确分类。以类为单位提取共同特征，从而获知用户群体的共同特征。

参见图1是实施例中抽取共同特征的方法流程示意图，具体包括：

S101、依据用户的特征量确定类中心，基于类中心分配用户至所属类中。

物以类聚人以群分，用户处在一个紧密联系群体中，群体内应该存在某些共性特征(社会属性、兴趣偏好等)。为了挖掘群体内部的共同特征，从用户的特征量进行聚类分析。

用户的特征量包括多个维度，可以依据具体的应用场景确定维度。例如，用户的特征量包括5个维度，分别为：客户的年龄、产品包、通话、上网流量和使用业务。

当前没有类中心，即首次确定类中心，将用户的第T维特征量作为第N类中心，N大于等于1。例如：用户的特征量包括5个维度，则T等于5，将用户的第1维特征量即客户的年龄作为第1类中心，依次确定第2类中心、第3类中心、第4类中心和第5类中心。

当前存在类中心，即非首次确定类中心，则依据用户的特征量计算用户与已有类中心的距离。获得用户与每个类中心的距离，其中用户与一个类中心的最小距离小于预设类间阈值，则说明该用户更适合作为该类的类中心。那么，依据用户的特征量更新最小距离对应的类的类中心，即将用户作为最小距离对应的类的类中心。

确定类中心后，就可以基于类中心分配其他用户至所属类中。具体来说，就是基于类中心与用户的距离，将用户分配至计算获得距离中最小距离对应的类中。其中，类中心与用户的距离可以是类中心与用户的欧氏距离。

当存在两个类，第一类和第二类，每个类与用户的距离相同，均等于最小距离。即第一类与用户的距离等于最小距离；第二类与用户的距离也等于最小距离。

一种情况，第一类中的最大距离等于上述最小距离，第一类中的最大距离即第一类中用户与第一类中心的最大距离。那么用户分配至最小距离对应的第二类中。

另外一种情况，第一类中的最小距离即第一类中用户与类中心的最小距离。第一类中的最小距离等于上述最小距离，那么用户分配至最小距离对应的第一类中。

上述两种情况中分配用户至相应的类中，主要是考虑到用户与类中心的距离与类中最大距离或类中最小距离的关系，这样可以提高用户分类准确度。

考虑到每个用户都要经过抽样。由于抽样是随机的，每次抽样的样本也是不一样的，这就导致第一次聚类的初始中心点不一样，进而使得之后由第一次聚类产生的聚类中心的集合不同，由此基于这个该集合经第二次聚类得到的最终的聚类中心就不同。另一方面，聚类结果对初始中心点的选择是敏感的，同一个待聚类的数据集，如果聚类初始中心点不同，那么即使聚类过程中迭代的次数相同，所得到的聚类结果也很可能是不同的。

在本实施例中，对于类中心的确定有两种方式，即首次确定类中心和非首次确定类中心。通过非首次确定类中心可以及时更新类中心，提高类中心的准确性。

S102、根据类中用户的特征量计算类自适应度，调整用户所属类。

每个类中包括至少一个用户，依据类中用户的特征量计算类自适应度f(c_j)。

f(c_s)＝min{f(c_j)} (2)

f(c_l)＝max{f(c_j)} (3)

f(c_s)是最小类自适应度，c_s是最小类自适应度对应的类中心，s≤j；f(c_l)是最大类自适应度，c_l是最大类自适应度对应的类中心，l≤j。

依据类自适应度有以下两个方式调整用户所属类。

方式一：

f(c_s)/f(c_l)＜α，则基于当前类中心调整用户所属类。

方式二：

f(c_s)/f(c_l)≥α，且则基于当前类中心调整用户所属类。d(c_i，m_i)是第i个用户距所属类中心c_i的距离，i＜h，在第i个类中有h个用户。

α是预设自适应度阈值，1/3≤α≤2/5。α的取值范围是依据经验设定的。

通过上述对类成员的调整，可以有效降低类成员过于分散问题。从而把类中距离类中心较远的类成员调整到其他类中。减少由于类中心选择失误带来的影响。

S103、抽取用户所属类的共同特征。

按照已确定好的类，抽取用户所属类的共同特征。还可以在上述技术方案的基础上，由类中两个用户之间的特征量交集与交集中用户之间的联系数量的和作为两个用户的亲邻度。然后抽取类中最大亲邻度对应用户的共同特征。

通过计算亲邻度确定最大亲邻度对应的用户为重要客户，抽取重要客户的共同特征，进而发现群体的共同特征。

合并上述两种方式获得的共同特征，得到最终的共同特征。

在本发明实施例中，首先确定类中心，然后依据类自适应度在确定类中心的基础上调整用户所属类，降低错误分类的影响。最后，在分类准确的基础上以类为单位，抽取每个类的共同特征，从而准确获知用户群体的共同特征。

下面举例说明抽取共同特征的方法，参见图2是本发明实施例中抽取共同特征的具体流程示意图，包括：

S201、初始化并建立参数集。

对于每一个用户的特征量，K为最大类别数，T为预设类间距阈值，当前类别数为0，每一类的频数设为0。频数即用户数目。

S202、初始化聚类中心。

当前没有类中心，则将输入的第一个用户的第N维特征量作为第N类中心，N大于等于1。

用户的特征量包括5个维度，分别为客户的年龄、产品包、通话、上网流量、使用业务情况。将用户的第1维特征量即客户的年龄作为第1类中心；将用户的第2维特征量即产品包作为第2类中心；将用户的第3维特征量即通话作为第3类中心；将用户的第4维特征量即上网流量作为第4类中心；将用户的第5维特征量即使用业务情况作为第5类中心。

S203、用户聚类。

针对用户的特征量，计算当前特征量x_t与第t-1个特征量后已有类别的聚类中心c_i,t-1的距离，令最小距离为D_min。

D_min＝min(|c_i,t-1-x_t|) (4)

t是第t个特征量，i是第i类中心。

其中，使得距离最小的类别为第k类：

k＝min_i(|c_i,t-1-x_t|) (5)

将用户归至最小距离的对应的类中，该类的频数加1。

若最小距离对应两个类，即第一类和第二类每个类与用户的距离相同，均等于最小距离。即第一类与用户的距离等于最小距离；第二类与用户的距离也等于最小距离。

此外，如果D_min<T，更新k类的聚类中心为：

c_k,t＝(1-β)c_k,t-1+βx_t (6)

其中β为学习速率，β大小可以根据具体的情况而定。

如果D_min>T_d，且已有的类别数小于最大类别数K，则增加一新类，将特征量x_t作为新类的类中心，并将该类的频数加1。

如果D_min>T_d，已有的类别数等于最大类别数K，则找出频数最少的类，移除频数最少的类。并将特征量x_t作为新一类的类中心，新类的频数设为1。

所有用户都已完成聚类。基于当前的聚类中心，依据归一化距离，完成对类成员的重新分配。

S204、对于每种类依据类成员计算类自适应度。

对于当前的分类，结合每一个成员计算该类的类自适应度，如式(1)所示。对于c_j对应的类中的任一成员的特征量m_i，f(c_j)的大小反应了该类中成员与类中心的靠近程度。如果f(c_j)过大，说明该类中有的成员距离该类中心过远，这种情况下对应的类中心需要较大调整，以改善类成员过于分散或局部最优的情况。

依据类自适应度有以下两个方式调整用户所属类。

方式一：

f(c_s)/f(c_l)＜α，则基于当前类中心调整用户所属类。

方式二：

S205、计算亲邻度。

针对同一类中，计算两个用户A和B的亲邻度，等于两个用户的交集C的用户数，与C内用户之间的联系数量的和。交集C内的用户数量反应了A与B处于同一群体的可能性，C内用户之间的联系数量反应了该群体联系的密切程度。

下面举例来说明下亲邻度计算，参见附图3：

如AB的亲邻度为A与B的用户交集数{C、D、E}，值为3，加上C、D、E之间的联系数量{CD、DE}，值为2。最终AB的亲邻度＝3+2＝5。

计算类中成员之间的亲邻度，通过亲邻度的高低，可以反应用户在群体中的重要程度。一个类总最高亲邻度对应的客户为重要客户。

S206、抽取共同特征。

按照已确定好的类，抽取用户所属类的共同特征。还可以在上述技术方案的基础上，抽取重要客户的共同特征，进而发现群体的共同特征。

合并上述两种方式获得的共同特征，得到最终的共同特征。

参见附图4是本发明实施例中抽取共同特征的装置结构示意图，抽取共同特征的装置是与抽取共同特征的方法相对应的装置，具体包括：

分配模块401，用于依据用户的特征量确定类中心，基于类中心分配用户至所属类中.

调整模块402，用于根据类中用户的特征量计算类自适应度，调整用户所属类。

抽取模块403，用于抽取用户所属类的共同特征。

其中，分配模块401，还用于基于类中心与用户的特征量的距离，将用户分配至最小距离对应的类中。

一种情况，第一类中的最大距离等于上述最小距离，第一类中的最大距离即第一类中用户与第一类中心的最大距离。那么分配模块401将用户分配至最小距离对应的第二类中。

另外一种情况，第一类中的最小距离即第一类中用户与类中心的最小距离。第一类中的最小距离等于上述最小距离，那么分配模块401将用户分配至最小距离对应的第一类中。

每个类中包括至少一个用户，依据类中用户的特征量计算类自适应度。预设自适应度阈值小于等于2/5且大于等于1/3。

具体的，调整模块402，还用于根据类中用户的特征量与类中心的差的平方和，确定类自适应度；

此外，抽取共同特征的装置还包括分析模块。

分析模块用于由类中两个用户之间的特征量交集与交集中用户之间的联系数量的和作为所述两个用户的亲邻度；

抽取模块403，还用于抽取类中最大亲邻度对应用户的共同特征。

合并上述两种方式获得的共同特征，得到最终的共同特征。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使对应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种抽取共同特征的方法，其特征在于，包括：

根据类中用户的特征量计算类自适应度，调整用户所属类；

抽取用户所属类的共同特征。

2.根据权利要求1所述抽取共同特征的方法，其特征在于，所述基于所述类中心分配用户至所属类中，包括：

3.根据权利要求2所述抽取共同特征的方法，其特征在于，所述最小距离的数目等于2，所述最小距离是一个类中最大距离；

所述将所述用户分配至最小距离对应的类中，包括：

将所述用户分配至所述最小距离对应的另一个类中。

4.根据权利要求2所述抽取共同特征的方法，其特征在于，所述最小距离的数目等于2，所述最小距离是一个类中最小距离；

所述将所述用户分配至最小距离对应的类中，包括：

将所述用户分配至所述最小距离对应的一个类中。

5.根据权利要求1所述抽取共同特征的方法，其特征在于，所述根据类中用户的特征量计算类自适应度，调整用户所属类，包括：

6.根据权利要求1所述抽取共同特征的方法，其特征在于，所述根据类中用户的特征量计算类自适应度，调整用户所属类，包括：

7.根据权利要求5或6所述抽取共同特征的方法，其特征在于，所述预设自适应度阈值小于等于2/5且大于等于1/3。

8.根据权利要求1所述抽取共同特征的方法，其特征在于，所述方法还包括：

抽取类中最大亲邻度对应用户的共同特征。

9.一种抽取共同特征的装置，其特征在于，包括：

抽取模块，用于抽取用户所属类的共同特征。

10.根据权利要求9所述抽取共同特征的装置，其特征在于，所述分配模块，还用于基于所述类中心与用户的特征量的距离，将所述用户分配至最小距离对应的类中。

11.根据权利要求10所述抽取共同特征的装置，其特征在于，所述最小距离的数目等于2，所述最小距离是一个类中最大距离；

12.根据权利要求10所述抽取共同特征的装置，其特征在于，所述最小距离的数目等于2，所述最小距离是一个类中最小距离；

13.根据权利要求9所述抽取共同特征的装置，其特征在于，所述调整模块，还用于根据类中用户的特征量与类中心的差的平方和，确定类自适应度；

14.根据权利要求9所述抽取共同特征的装置，其特征在于，所述调整模块，还用于根据类中用户的特征量与类中心的差的平方和，确定类自适应度；

15.根据权利要求13或14所述抽取共同特征的装置，其特征在于，所述预设自适应度阈值小于等于2/5且大于等于1/3。

16.根据权利要求9所述抽取共同特征的装置，其特征在于，所述装置还包括分析模块，用于由类中两个用户之间的特征量交集与所述交集中用户之间的联系数量的和作为所述两个用户的亲邻度；