CN110598129A

CN110598129A - 基于两级信息熵的跨社交网络用户身份识别方法

Info

Publication number: CN110598129A
Application number: CN201910865901.XA
Authority: CN
Inventors: 邢玲; 邓凯凯; 高建平; 吴红海; 谢萍; 张明川
Original assignee: Henan University of Science and Technology
Current assignee: Henan University of Science and Technology
Priority date: 2019-09-09
Filing date: 2019-09-09
Publication date: 2019-12-20
Anticipated expiration: 2039-09-09
Also published as: CN110598129B

Abstract

本发明公开了一种基于两级信息熵的跨社交网络用户身份识别方法，分别从两个社交网络中爬取各自用户的档案信息和行为信息，从两种社交网络的档案信息属性中筛选出共同属性，从每个用户的档案信息中提取出共同属性对应的数据，然后计算两个社交网络中用户共同属性的相似度，从每个用户的行为信息中提取行为的特征属性，计算两个社交网络中用户行为属性的相似度，基于两级信息熵进行权值分配，对各个属性进行加权得到两个用户的匹配评分，根据匹配评分进行用户匹配，得到用户身份识别结果。本发明基于两级信息熵进行权值分配方法，解决了用户多项属性在权值分配方面的失衡问题，提高用户身份识别性能。

Description

基于两级信息熵的跨社交网络用户身份识别方法

技术领域

本发明属于数据挖掘技术领域，更为具体地讲，涉及一种基于两级信息熵的跨社交网络用户身份识别方法。

背景技术

社交网络为人们提供了丰富的社交服务。根据统计显示，42％的用户同时拥有多个社交网络账号。由于不同的社交网络拥有各自独特的社交方式，并带给用户不同的社交服务，因此，产生了丰富的社交用户信息。然而，各个社交网络账号之间是孤立的，不存在直接的联系，因此，用户账号产生的社交信息分布在多个社交网络上。跨社交网络用户身份识别指的是将不同社交网络中属于同一真实用户的虚拟账号识别出来。这一技术的解决能够为网络推荐，用户建模以及用户行为分析提供全面的用户信息，实现对多源社交网络大数据的充分挖掘。

已有相关研究的核心思想是利用用户档案信息、网络拓扑结构信息以及用户行为信息来计算和分析用户账号匹配对是否是同一用户。跨社交网络用户身份识别主要由三个部分组成：用户数据提取、数据的相似度计算和账号匹配过程。用户数据的提取主要采用比较高效的爬虫技术对数据进行爬取、清洗和存储。其次，利用提取的数据和相似函数来计算用户数据之间的相似度，相似度越大，说明不同的虚拟账号属于同一用户的概率就越大。最后，根据计算的相似度采用相关的匹配策略进行账号匹配。

现有的基于用户档案信息的跨社交网络用户身份识别方法存在用户数据伪造的可能性，并且现在人们越来越注重隐私保护。因此，该类方法的识别效果不是很理想。其次是基于网络拓扑结构的识别方法，虽然用户的好友关系容易获得，但好友关系的连接存在稀疏性。最后是基于用户行为数据的识别方法，该方法利用用户发布的内容进行用户身份识别，相比较于上述两类方法，该方法打破了它们的限制。另外，现有的研究还利用用户档案信息和网络结构结合进行识别，但该方法还是受限于上述的条件以至于不能够实现较好的识别效果。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于两级信息熵的跨社交网络用户身份识别方法，基于两级信息熵进行权值分配方法，解决了用户多项属性在权值分配方面的失衡问题，提高用户身份识别性能。

为实现上述发明目的，本发明基于两级信息熵的跨社交网络用户身份识别方法包括以下步骤：

S1：分别从社交网络A和社交网络B中爬取各自用户的档案信息和行为信息，记两个社交网络中用户数量分别为N_A和N_B；

S2：从两种社交网络的档案信息属性中筛选出共同属性，从每个用户的档案信息中提取出共同属性对应的数据，然后计算社交网络A中各个用户i和社交网络B中各个用户j每个共同属性的相似度i＝1,2,…,N_A，j＝1,2,…,N_B，m＝1,2,…,M，M表示共同属性的数量；

S3：从每个用户的行为信息中提取出预设的N个特征属性的数据，然后计算社交网络A中各个用户i和社交网络B中各个用户j每个特征属性的相似度n＝1,2,…,N；

S4：将从档案信息所提取的所有用户M个共同属性的数据和从行为信息提取的所有用户N个特征属性的数据整合为H个属性的数据，H＝M+N，然后采用熵权法确定H个属性的权值，作为各个属性的一级权值z_h，h＝1,2,…,H；

计算各个属性的贡献概率归一化值P_h：

基于信息熵构造变种权值R_h：

E(P_h)＝-P_hlogP_h

计算基于两级信息熵的属性权值W_h：

S5：采用步骤S4得到的属性权值W_h计算社交网络A中各个用户i和社交网络B中各个用户j的H个属性相似度的加权和，作为社交网络A中各个用户i和社交网络B中各个用户j的匹配评分score_i,j；

S6：根据社交网络A中各个用户i和社交网络B中各个用户j的匹配评分score_i,j对两个社交网络中的用户进行匹配，从而得到用户身份识别结果。

本发明基于两级信息熵的跨社交网络用户身份识别方法，分别从两个社交网络中爬取各自用户的档案信息和行为信息，从两种社交网络的档案信息属性中筛选出共同属性，从每个用户的档案信息中提取出共同属性对应的数据，然后计算两个社交网络中用户共同属性的相似度，从每个用户的行为信息中提取行为的特征属性，计算两个社交网络中用户行为属性的相似度，基于两级信息熵进行权值分配，对各个属性进行加权得到两个用户的匹配评分，根据匹配评分进行用户匹配，得到用户身份识别结果。

本发明融合了用户档案信息和用户行为信息这两类与用户最相关的信息，使计算的相似度更加准确，基于两级信息熵进行权值分配，解决了用户多项属性在权值分配方面的失衡问题，可以提高用户匹配评分的准确度，从而提高用户身份识别性能。

附图说明

图1是本发明基于两级信息熵的跨社交网络用户身份识别方法的具体实施方式流程图；

图2是本实施例中共同属性相似度的计算方法流程图；

图3是本实施例中基于频繁模式挖掘的文本信息特征提取计算方法流程图；

图4是本实施例中本发明权值分配方法和对比方法的精确率对比图；

图5是本实施例中本发明权值分配方法和对比方法的召回率对比图；

图6是本实施例中本发明权值分配方法和对比方法的F1分数对比图；

图7是本实施例中本发明权值分配方法和对比方法的AUC对比图；

图8是本实施例中本发明用户身份识别方法与两种对比方法的四种评价指标对比图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明基于两级信息熵的跨社交网络用户身份识别方法的具体实施方式流程图。如图1所示，本发明基于两级信息熵的跨社交网络用户身份识别方法的具体步骤包括：

S101：获取用户数据：

分别从社交网络A和社交网络B中爬取各自用户的档案信息和行为信息，记两个社交网络中用户数量分别为N_A和N_B。一般来说可令N_A＝N_B。

S102：计算用户档案信息相似度：

从两种社交网络的档案信息属性中筛选出共同属性，从每个用户的档案信息中提取出共同属性对应的数据，然后计算社交网络A中各个用户i和社交网络B中各个用户j每个共同属性的相似度i＝1,2,…,N_A，j＝1,2,…,N_B，m＝1,2,…,M，M表示共同属性的数量。

由于用户档案信息中包含了多个共同属性，例如本实施例中用户档案信息含有17种共同属性，每种共同属性对应的数据形式可能不同，因此需要针对实际情况选择不同方式计算共同属性的相似度。图2是本实施例中共同属性相似度的计算方法流程图。如图2所示，本实施例中共同属性相似度的具体步骤包括：

S201：首先判断第m种共同属性是否为预设的关键属性。关键属性是指其数据必须要一致时才能判定用户相似的属性，例如两个用户的性别信息，必须是同时为“男”或者为“女”才能说明这两个用户相似。如果是关键属性，进入步骤S202，否则进入步骤S203。

S202：基于一致性确定相似度：

判断两个用户的第m种共同属性是否一致，如果一致，则该共同属性的相似度否则

S203：判断是否对第m种共同属性的数据进行向量化，如果是，进入步骤S204，否则进入步骤S205。

S204：基于余弦相似度确定相似度：

对两个用户第m种共同属性的数据进行向量化，然后计算所得到的两个向量之间的余弦相似度，将其作为两个用户的第m种共同属性的相似度余弦相似度的计算公式如下：

其中，A和B表示两个数据形成的向量，A_q、B_q分别表示向量A和B的第q个维度，q＝1,2,…,Q，Q表示向量维度。

S205：基于Dice系数确定相似度：

将两个用户第m种共同属性的数据作为字符串，然后计算两个字符串之间的Dice系数，将其作为两个用户的第m种共同属性的相似度Dice系数的计算公式如下：

其中，a、b分别表示两个字符串，comm(a∩b)表示a、b中相同字符的个数，len()表示求取字符串的长度。

S103：计算用户行为相似度：

从每个用户的行为信息中提取出预设的N个特征属性的数据，然后计算社交网络A中各个用户i和社交网络B中各个用户j每个特征属性的相似度n＝1,2,…,N。

就特征属性而言，可以根据实际需要确定特征属性的类别，本发实施例中采用三种特征属性：文本信息特征、标点符号特征和状态时间戳特征。下面分别说明三种行为特征属性的相似度计算方法。

·文本信息特征：

首先基于频繁模式挖掘来提取每个用户的文本信息特征，得到若干频繁项和每个频繁项对应的支持度计数，然后采用以下公式计算得到两个用户的文本信息特征相似度

其中，F表示频繁项，分别表示社交网络A中用户i和社交网络B中用户j对应的频繁项F的支持度计数，C_F表示频繁项F的项集数。在公式中加上的“1”是避免高频繁项。

图3是本实施例中基于频繁模式挖掘的文本信息特征提取计算方法流程图。如图3所示，本实施例中基于频繁模式挖掘的文本信息特征提取方法的具体步骤包括：

S301：文本分词：

对每个用户所发布的每条文本信息进行分词，将分词所得到的每个单词作为一个事务，则根据该用户所发布的所有文本信息可得到一个事务集T。

S302：获取频繁1项集：

遍历事务集T中所有项并计算其支持度构成1项集C₁，根据预设的1项集最小支持度滤去不满足条件项集得到频繁1项集L₁，在本实施例中对于1项集设置最小支持度为2。令项数参数k＝1。

S303：生成频繁k+1项集：

将频繁k项集L_k与自身连接(里面的项集相互取并集)得到k+1项集C_k+1，根据预设的k+1项集最小支持度滤去不满足条件项集得到频繁k+1项集L_k+1。

S304：判断是否L_k+1为空，如果为空，则说明当前的所有k+1项集C_k+1均不满足最小支持度，项集生成结束，进入步骤S306，否则进入步骤S305。

S305：令k＝k+1，返回步骤S303。

S306：确定文本信息特征：

得到当前用户所发布文本对应的频繁项，并获取各个频繁项对应的支持度计数。

·标点符号特征：

从社交网络A中用户i和社交网络B中用户j所发布的文本信息中统计得到每种标点符号的使用次数占总标点符号数量的比例，形成标点符号向量，计算两个向量之间的相似度即为标点符号相似度。

·时间状态戳特征：

将每天划分为G个时间段，统计得到预设日期内各个用户在每个时间段的平均动态数，采用以下公式计算社交网络A中用户i和社交网络B中用户j的时间状态戳相似度：

其中，V_i ^A(g)、分别表示社交网络A中用户i和社交网络B中用户j在第g个时间段的平均动态数，| |表示求取绝对值。

S104：基于两级信息熵的权值分配：

为了将以上所获得的所有相似度进行融合，需要为每种属性分配权值。为了使得到的权值更加合理，本发明提出了一种基于两级信息熵的权值分配方法，其具体方法为：

将从档案信息所提取的所有用户M个共同属性的数据和从行为信息提取的所有用户N个特征属性的数据整合为H个属性的数据，H＝M+N，然后采用熵权法确定H个属性的权值，作为各个属性的一级权值z_h，h＝1,2,…,H。

熵权法的基本思想是指标的差异程度越大，则权重差别相应就越大。因此可以利用信息熵的概念来解决用户身份识别中权值分配的问题。熵权法的具体方法可以根据需要设置，本实施例中熵权法的具体方法为：首先计算得到每个属性的信息熵E_h，然后获取用户每个属性的后验概率p(y_x|x)，则可计算得到属性对应的一级权值：z_h＝p(y_x|x)×E_h。采用这种方法可以更加准确的获取每个属性对用户身份识别性能的影响。

Softmax的输出表征了不同类别之间的相对概率，因此本发明利用Softmax的思想来对用户的属性进行二级权重分配。获取用户属性的一级权重后，将全部属性的权重值组合成一个数组Z＝(z₁,z₂,…,z_H)作为输入，利用Softmax的思想来获取各个属性的贡献概率归一化值P_h，其计算公式为：

其中，P_h表示第h个属性的贡献概率归一化值，其取值范围为[0,1]，且∑_hP_h＝1，e表示自然常数。

再一次利用信息熵的概念，并构造变种权值R_h，其计算公式为：

E(P_h)＝-P_hlogP_h

最终，获取基于两级信息熵的用户属性权值分配，即属性权值W_h的计算公式为：

经过对用户各个属性项进行权值分配，并计算不同属性权值分配方法之间形成的方差，可以明显看出，本发明的方法更具有区分性。

S105：相似度融合：

采用步骤S4得到的属性权值W_h计算社交网络A中各个用户i和社交网络B中各个用户j的H个属性相似度的加权和，作为社交网络A中各个用户i和社交网络B中各个用户j的匹配评分score_i,j：

其中，W_h表示所有H个属性中第h个属性的权值，表示社交网络A中用户i和社交网络B中用户j所对应的第h个属性的相似度。

匹配评分score_i,j的大小决定两个社交账号背后的实体用户是否具有同一性。

S106：用户匹配：

根据社交网络A中各个用户i和社交网络B中各个用户j的匹配评分score_i,j对两个社交网络中的用户进行匹配，从而得到用户身份识别结果。

本实施例中采用双向稳定婚姻匹配算法进行用户匹配，具体方法为：依次选择社交网络A中的用户i，将其待匹配用户集合λ_i设置为社交网络B中的所有用户集合。从待匹配用户集合λ_i筛选出与用户i匹配评分最高的用户j，如果用户j未与社交网络A中其他用户匹配过，则将用户j与用户i进行匹配。如果用户j已经与社交网络A中其他用户i′匹配过，如果用户i与用户j的匹配评分高于用户i′和用户j的匹配评分，则将用户i与用户j进行匹配，删除用户i′的匹配结果，否则将用户j从待匹配用户集合λ_i删除，从删除后的待匹配用户集合λ_i中重新筛选与用户i匹配评分最高的用户，直到确定用户i在社交网络B中的匹配用户。

为了说明本发明的技术效果，采用一个具体实例对本发明进行实验验证。本次实验验证中选取了Facebook和Twitter两个社交网络上的用户数据进行跨社交网络用户身份识别，采用精确率(precision)、召回率(recall)、F-measure(F1)和AUC(Area UnderCurve)作为评价标准。

AUC是ROC曲线下面积。假阳性率(FPR)定义为X轴，真阳性率(TPR)定义为Y轴。由于本发明的结果分为两类，即同一实体用户和不同的实体用户，AUC也可用于评价识别结果的好坏。

其中，TP表示标记为正，实际也为正的匹配对，TN表示标记为负，实际也为负的匹配对，FP表示标记为正，实际上为负的匹配对，FN表示标记为负，实际为正的匹配对。

为了说明本发明基于两级信息熵的权值分配方法(TIW)的有效性，将本发明与其它两种方法进行了对比分析，对比方法包括基于经验概率的权值分配方法(EW)、基于后验概率的权值分配方法(PW)。图4是本实施例中本发明权值分配方法和对比方法的精确率对比图。图5是本实施例中本发明权值分配方法和对比方法的召回率对比图。图6是本实施例中本发明权值分配方法和对比方法的F1分数对比图。图7是本实施例中本发明权值分配方法和对比方法的AUC对比图。从图4至图7可以看出，本发明各方面的评价指标均优于其他两种对比方法。随着用户数量增加，三种方法的评价指标均存在一定程度的下降，这是因为当用户账号的数量增加时，将会出现账号之间的相似性高但不是同一实体用户的情况。一旦出现上述情况，将对最终匹配结果产生负面影响。但是本发明的下降速率很小，而其它两种对比方法的下降速率相对较快。可见本发明相比较于其他两种对比方法在跨社交网络用户身份识别方面具有更好的性能。

接下来对本发明中结合基于两级信息熵的权值分配和基于双向稳定婚姻匹配算法的用户匹配的用户身份识别方法(TIW-UI)与基于稳定婚姻匹配的随机森林确认算法(RFCA-SMM)和基于排名的交叉匹配方法(RCM)进行对比。图8是本实施例中本发明用户身份识别方法与两种对比方法的四种评价指标对比图。如图8所示，本发明在精确度、召回率、F1分数和AUC方面均优于RFCA-SMM和RCM，这也证明了本发明的有效性。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于两级信息熵的跨社交网络用户身份识别方法，其特征在于，包括以下步骤：

S3：从每个用户的行为信息中提取出预设的N个特征属性的数据，然后计算社交网络A中各个用户i和社交网络B中各个用户j每个特征属性的相似度

计算各个属性的贡献概率归一化值P_h：

基于信息熵构造变种权值R_h：

E(P_h)＝-P_hlogP_h

计算基于两级信息熵的属性权值W_h：

2.根据权利要求1所述的基于两级信息熵的跨社交网络用户身份识别方法，其特征在于，所述共同属性的相似度的计算方法包括以下步骤：

S2.1：首先判断第m种共同属性是否为预设的关键属性，如果是关键属性，进入步骤S2.2，否则进入步骤S2.3；

S2.2：判断两个用户的第m种共同属性是否一致，如果一致，则该共同属性的相似度否则

S2.3：判断是否对第m种共同属性的数据进行向量化，如果是，进入步骤S2.4，否则进入步骤S2.5；

S2.4：对两个用户第m种共同属性的数据进行向量化，然后计算所得到的两个向量之间的余弦相似度，将其作为两个用户的第m种共同属性的相似度

S2.5：将两个用户第m种共同属性的数据作为字符串，然后计算两个字符串之间的Dice系数，将其作为两个用户的第m种共同属性的相似度

3.根据权利要求1所述的基于两级信息熵的跨社交网络用户身份识别方法，其特征在于，所述步骤S3中特征属性包括文本信息特征、标点符号特征和状态时间戳特征，其相似度计算方法分别为：

对于文本信息特征而言，首先基于频繁模式挖掘来提取每个用户的文本信息特征，得到若干频繁项和每个频繁项对应的支持度计数，然后采用以下公式计算得到两个用户的文本信息特征相似度

其中，F表示频繁项，分别表示社交网络A中用户i和社交网络B中用户j对应的频繁项F的支持度计数，C_F表示频繁项F的项集数；

对于标点符号特征而言，从社交网络A中用户i和社交网络B中用户j所发布的文本信息中统计得到每种标点符号的使用次数占总标点符号数量的比例，形成标点符号向量，计算两个向量之间的相似度即为标点符号相似度；

对于时间状态戳特征而言，将每天划分为G个时间段，统计得到预设日期内各个用户在每个时间段的平均动态数，采用以下公式计算社交网络A中用户i和社交网络B中用户j的时间状态戳相似度：

其中，V_i ^A(g)、分别表示社交网络A中用户i和社交网络B中用户j在第g个时间段的平均动态数。

4.根据权利要求1所述的基于两级信息熵的跨社交网络用户身份识别方法，其特征在于，所述步骤S7中用户匹配采用基于双向稳定婚姻匹配算法，具体方法为：依次选择社交网络A中的用户i，将其待匹配用户集合λ_i设置为社交网络B中的所有用户集合。从待匹配用户集合λ_i筛选出与用户i匹配评分最高的用户j，如果用户j未与社交网络A中其他用户匹配过，则将用户j与用户i进行匹配；如果用户j已经与社交网络A中其他用户i′匹配过，如果用户i与用户j的匹配评分高于用户i′和用户j的匹配评分，则将用户i与用户j进行匹配，删除用户i′的匹配结果，否则将用户j从待匹配用户集合λ_i删除，从删除后的待匹配用户集合λ_i中重新筛选与用户i匹配评分最高的用户，直到确定用户i在社交网络B中的匹配用户。