CN104899267B

CN104899267B - 一种社交网站账号相似度的综合数据挖掘方法

Info

Publication number: CN104899267B
Application number: CN201510268991.6A
Authority: CN
Inventors: 徐琳; 王犇; 葛唯益; 刘畅; 徐欣
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2015-05-22
Filing date: 2015-05-22
Publication date: 2017-12-19
Anticipated expiration: 2035-05-22
Also published as: CN104899267A

Abstract

本发明公开了一种社交网站账号相似度的综合数据挖掘方法，该方法能够用于网络舆情监控中，解决识别同一用户的多个社交网站账号的问题。本发明综合考虑了影响社交网站账号综合相似度的三大类因素：个人属性、交互行为和内容，并利用训练样本确定各因素相似度在综合相似度计算中所占的权重。与现有技术相比，本发明的技术优势在于：(1)为识别同一用户的多个社交网站账号提供量化、可靠、全面的参考，并且适用于大数据环境下的计算机自动处理；(2)采用训练样本确定各因素相似度在综合相似度计算中所占的权重，能够保持与人工处理结果的一致性。

Description

一种社交网站账号相似度的综合数据挖掘方法

技术领域

本发明属于计算机互联网数据挖掘技术，用于计算机互联网数据传播控制，特别是一种社交网站账号相似度的综合数据挖掘方法。

背景技术

以微博为代表的社交网站的兴起，极大增加了互联网信息传播的速度和广度。社交网站用户之间通过“互粉”、转发、评论、“@”等操作使得信息能够在极短的时间内在社交网上大规模扩散。这种短时间、大范围的信息传播既给用户获取信息带来了极大的便利，但是也带来了网络谣言泛滥的严重问题。

为了应对网络谣言泛滥的问题，舆情监控是社交网站管理不可缺少的环节。舆情监控包括两方面内容：一是内容的识别，二是传播的控制。为了实现传播控制，管理者可以通过采取禁言、封停社交网站账号等方式来避免谣言的扩散，但是谣言传播者也可以通过注册多个社交网站账号来逃避管理者的监管。同时，谣言传播者也可以通过注册多个社交网站账号的方式进一步加快谣言传播的速度，扩大谣言传播的范围。因此，识别同一用户注册的多个社交网站账号是社交网站舆情监控中必须解决的关键技术问题。

识别同一用户注册的多个社交网站账号实际上是社交网站账号间的相似度分析。现有的社交网站数据挖掘方法无法直接运用于社交网站账号相似度分析，主要有两方面原因：1)由于现有数据挖掘方法主要用于用户关系分析，社交关系的紧密程度并不等同于用户社交网站账号间的相似程度；2)社交网站账号间相似度是一个受多种因素影响的综合性指标，包括：个人属性、发贴内容、转发模式等，目前的数据挖掘方法缺乏对影响关联性多种因素的综合考虑，因此不适用于社交网站账号间关联性分析。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种社交网站账号相似度的综合数据挖掘方法，包括不同社交网站账号综合相似度计算方法。

不同社交网站账号综合相似度计算方法实施步骤如下：

步骤1：计算两个不同社交网站账号的个人属性因素的相似度。个人属性因素包括：用户名、性别、地区、最后发表时间、粉丝数、关注数、文本数、简介、联系方式等。按照个人属性因素的数据类型，将个人属性因素分为字符串型、文本型、布尔型、枚举型、地址型、时间型和整型。对于不同的个人属性因素，需要根据其类型采用相应的相似度计算方法。

步骤2：计算两个不同社交网站账号交互行为的相似度。社交网站账号之间的交互行为包括：关注、转发、评论、“@”等。将社交网站账号之间的交互行为都视为一条有向边，则每种交互行为在社交网站账号之间构成一张有向图。每种交互行为(关注、转发、评论、“@”等)有2种影响社交网站账号相似度的方式：正向认同和反向认同、连通性和距离，需要分别计算每种交互行为的上述两项因素的相似度。

步骤3：计算两个不同社交网站账号的内容的相似度。若两个社交网站账号经常发出内容相同的文本、博客等，则两个社交网站账号的相似度就越高。

步骤4：通过对各因素相似度的加权平均，计算两个社交网站账号的综合相似度。

进一步地，步骤1中，按照个人属性因素的数据类型，将个人属性因素分为字符串型、文本型、布尔型、枚举型、地址型、时间型和整型，对于各种个人属性因素，根据其类型采用相应的相似度计算方法；对于两个不同的用户社交网站账号a和b，表示a和b在因素f_i上的相似度，相似度是一个大小在[0,1]间的数，其中i＝1,2,…,N，N为影响社交网站账号相似度的因素数量，和分别表示社交网站账号a和b在影响因素f_i上的取值，各种数据类型个人属性因素的相似度计算方法如下：

(a)字符串型：

当和为字符串时，相似度计算方法为：

其中，函数edis(A,B)表示求字符串A和B的编辑距离，是指字符串A转换成字符串B所需的最少操作次数，函数strlen(A)表示求字符串A的长度；表示求得和之间的最大值；

(b)文本型：

当和为文本时，相似度计算方法如下：

(b-1)提取文本和中出现的词语，构成一个词语集合；

(b-2)分别统计文本和中各个词语出现的词频，按顺序排列构成词频向量和

(b-3)求向量和的余弦值，计算得到相似度：

其中，符号| |为向量取模运算；

(c)布尔型、枚举型或者地址型：

当和为布尔型、枚举型或者地址型时，相似度计算方法为：

(d)时间型：

当和为时间型时，相似度计算方法为：

其中，thr是相似度门限，即当社交网站账号a和b因素f_i相差超过时间thr时，即认为社交网站账号的因素f_i没有关联，thr取值范围是0～+∞，，例如：取值为24小时，即时间差超过24小时则认为没有相似性；表示求得thr和之间的最小值；

(e)整型：

当和为整型时，相似度计算方法为：

表示求得和1中的最大值。

步骤2中，将社交网站账号之间的交互行为都视为一条有向边，每种交互行为在社交网站账号之间构成一张有向图，每种交互行为有两类影响社交网站账号相似度的方式：正向认同和反向认同、连通性和距离，每种交互行为对社交网站账号综合相似度的每类影响方式，均作为影响社交网站账号综合相似度的因素，两个不同社交网站账号交互行为的相似度的计算方法为：

(1)正向认同和反向认同：

正向认同和反向认同的相似度计算方法为：

其中，对于正向认同关系，F(a)表示从社交网站账号a出发的所有有向边指向的社交网站账号的集合，F(b)表示从社交网站账号b出发的所有有向边指向的社交网站账号的集合；对于反向认同关系，F(a)表示到达社交网站账号a的所有有向边另一端的社交网站账号集合，F(b)表示到达社交网站账号b的所有有向边另一端的社交网站账号集合，num( )表示统计括号内集合的元素的数量；

(2)连通性和距离：

连通性和距离的相似度计算方法为：

其中，a和b相互可达是指：若将一种账号之间发生的交互行为作为一条有向边，则账号a能够通过一条以上有向边到达账号b；账号b也能够通过一条以上有向边到达账号a，可达账号之间的距离d是指账号a和b之间间隔的最小有向边数量。

步骤3中采用如下方法计算两个社交网站账号间的内容相似度：

对于社交网站账号a内容的集合Φ_a和社交网站账号b内容的集合Φ_b，

其中，s_a,j是文本型数据，表示文本的内容，1≤j≤M_a，M_a是社交网站账号a的内容数量，

其中，s_b,k是文本型数据，表示文本的内容，1≤k≤M_b，M_b是社交网站账号b的内容数量，

两个不同社交网站账号的内容相似度的计算步骤为：

(3-1)采用计算文本型个人属性因素相似度的计算方法，两两计算集合Φ_a中每个元素s_a,j与集合Φ_b中每个元素s_b,k的相似度，构成一个集合记为{s_j,k}，

(3-2)令j＝1；m＝0，j为计数器，m是a和b两个账号相同的内容的数量，初始值为0；

(3-3)若max(s_j,k|1≤k≤M_b)≥tr，则将m更新为m+1，其中，tr为用户配置门限，取值在(0,1)间，即两个文本型的内容相似度超过tr时，则判定文本是相同的；

(3-4)将j更新为j+1；

(3-5)若j≤M_a，返回(3-3)，否则进入(3-6)；

(3-6)计算社交网站账号a和b内容相似度，计算表达式为：

M_a和M_b分别是账号a和b拥有的内容数量，是定值，max(M_a,M_b)表示求得M_a和M_b之间的最大值。

步骤4中采用如下方法计算两个社交网站账号间的综合相似度：

其中，w_i是各个影响因素的权重，必须满足

本发明提供的一种社交网站账号相似度的综合数据挖掘方法还包括各个影响因素的权重w_i的计算方法：

一个训练样本是已知综合相似度的两个社交网站账号。通过输入的训练样本来“训练”***，得出影响综合相似度各因素的权重，进而实现待测社交网站账号的综合相似度的自动计算。假设共输入P个训练样本，第l个训练样本综合相似度记为Y_l，因素f_i的相似度记为X_i,l，其中l＝1,2,…,P，i＝1,2…,N。

令

根据训练样本计算因素权重的步骤如下：

步骤4-1：输入P个训练样本；

步骤4-2：利用P个训练样本的综合相似度Y_l构造矩阵

步骤4-3：计算所有P个训练样本各个因素的相似度X_i,l；

步骤4-4：利用X_i,l构造因素相似度矩阵

步骤4-5：利用线性回归公式得到权重矩阵矩阵中的元素即权重w_i的值。

该方法能够用于网络舆情监控中，解决识别同一用户的多个社交网站账号的问题。本发明综合考虑了影响社交网站账号综合相似度的三大类因素：个人属性、交互行为和内容，并利用训练样本确定各因素相似度在综合相似度计算中所占的权重。

有益效果：与现有技术相比，本发明的技术优势在于：为识别同一用户的多个社交网站账号提供量化、可靠、全面的参考，并且适用于大数据环境下的计算机自动处理。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1为综合相似度计算过程。

图2与微博账号“南京正在发生”综合相似度最高10个账号。

具体实施方式

社交网站账号相似度受多种因素影响，在计算综合相似度时，必须综合考虑多种影响因素，并确定每种因素的权重。结合图1，本发明首先根据输入的训练样本确定影响综合相似度的每种因素的权重；然后利用得到的因素权重自动完成待测账号的综合相似度计算。本发明可以分为两部分，第一部分是不同社交网站账号综合相似度计算方法，第二部分基于训练样本的因素权重的计算方法。

不同社交网站账号综合相似度计算的实施步骤如下：

假设a和b分别为两个不同的用户社交网站账号，表示a和b在因素f_i上的相似度，是一个大小在[0,1]间的数。其中i＝1,2,…,N，N为影响社交网站账号相似度的因素数量。不同社交网站账号综合相似度计算方法计算步骤为：

步骤1：计算两个不同社交网站账号的个人属性因素的相似度。

个人属性因素包括：用户名、性别、地区、最后发表时间、粉丝数、关注数、文本数、简介、联系方式等。其中，联系方式可以包括多个，如QQ、MSN、邮箱、手机号等。按照个人属性因素的数据类型，将个人属性因素分为无空格字符串型、文本型、布尔型、枚举型、地址型、时间型和整型。对于不同的个人属性因素，根据其类型采用相应的相似度计算方法。假设和分别表示社交网站账号a和b在影响因素f_i上的取值。

(1)字符串型

不同社交网站账号的字符串型个人属性因素之间的编辑距离越小，则该个人属性因素相似度越大。数据类型为字符串型的个人属性因素如：用户名、昵称等。当和为字符串时，相似度计算方法可以表示为：

其中，和为字符串，函数edis(A,B)表示求字符串A和B的编辑距离，是指字符串A转换成字符串B所需的最少操作次数；函数strlen(A)表示求字符串A的长度。该式子反映编辑距离越大，影响因素的相似度越高。

(2)文本型

不同社交网站账号的有文本型个人属性因素之间的词向量余弦越小，则该个人属性因素相似度越大。数据类型为文本型的个人属性因素如：个人简介、个性签名等。当和为文本时，相似度计算方法如下：

1)提取文本和中出现的词语，构成一个词语集合；

2)分别统计文本和中各个词语出现的词频，按顺序排列构成词向量和

3)求向量和的余弦值，得到相似度，即：

其中，符号| |为向量取模运算。

(3)布尔型、枚举型、地址型

不同社交网站账号的布尔型、枚举型和地址型的个人属性因素只有在完全相同时才能认为其具有关联。布尔型的个人属性因素如：性别；枚举型的个人属性因素如：国家、城市等；地址型的个人属性因素如：QQ、MSN、邮箱、手机号邮编、地址等联系方式。当和为布尔型、枚举型和地址型时，相似度计算方法可以表示为：

(4)时间型

不同社交网站账号的时间型个人因素属性之间的差值越小，则相似度越高。数据类型为时间型的个人属性因素如：最后发帖时间。当和为时间型时，相似度计算方法可以表示为：

其中，thr是相似度门限，即当社交网站账号a和b因素f_i相差超过时间thr时，即认为社交网站账号的因素f_i没有关联。thr是可配置参数，取值范围是0～+∞，一般可以取24小时。

(5)整型

不同社交网站账号的整型个人因素属性之间的差值越小，则相似度越高。数据类型为整型的个人属性因素如：粉丝数、关注数、发帖数等。当和为整型时，相似度计算方法可以表示为：

步骤2：计算两个不同社交网站账号交互行为的相似度。

社交网站账号之间的交互行为包括：关注、转发、评论、“@”等。将每一次交互行为都视为一条有向边，则每种交互行为在社交网站账号之间构成一张有向图。例如：社交网站账号a关注了社交网站账号b，则社交网站账号a到社交网站账号b之间有一条指向社交网站账号b的“有向边”。

每种交互行为(关注、转发、评论、“@”等)有2种影响社交网站账号相似度的方式：正向认同和反向认同、连通性和距离，下面分别阐述：

(1)正向认同和反向认同

一个社交网站账号的有向边指向另一个社交网站账号，则这两个社交网站账号之间是正向认同关系。若两个社交网站账号与同一个社交网站账号发生正向认同关系，则这两个社交网站账号具有一定的相似性。例如：社交网站账号a和社交网站账号b同时关注了社交网站账号c，则社交网站账号a和b之间具有一定的相似性。

一个社交网站账号被另一个社交网站账号的有向边所指，则这两个社交网站账号之间是反向认同关系。若两个社交网站账号与同一个社交网站账号发生反向认同关系，则这两个社交网站账号具有一定的相似性。例如：社交网站账号c同时关注了社交网站账号a和社交网站账号b，则社交网站账号a和b之间具有一定的相似性。

正向认同和反向认同的相似度可以表示为：

其中，对于正向认同关系，F(a)表示从社交网站账号a出发的所有有向边指向的社交网站账号的集合，F(b)表示从社交网站账号b出发的所有有向边指向的社交网站账号的集合；对于反向认同关系，F(a)表示到达社交网站账号a的所有有向边另一端的社交网站账号集合，F(b)表示到达社交网站账号b的所有有向边另一端的社交网站账号集合。num( )表示统计括号内集合的元素的数量。

(2)连通性和距离

每种交互行为在社交网站账号之间构成一张有向图，若两个社交网站账号在有向图中通过若干条有向边是互相可达的，则认为两个社交网站账号是强相关的。例如：社交网站账号a关注了社交网站账号b，社交网站账号b关注了社交网站账号c，社交网站账号c关注了社交网站账号a，则存在两条路径a→b→c和c→a使得社交网站账号a和社交网站账号c是相互可达的。

相互可达的社交网站账号之间的相似度受社交网站账号之间的距离的影响。社交网站账号之间的距离是两个社交网站账号之间的最短路径上的有向边数量，距离越长，相似度越低。

连通性和距离的相似度可以表示为：

其中，d是相互可达社交网站账号之间的距离，指账号a和b之间间隔的最小有向边数量。

步骤3：计算两个不同社交网站账号的内容的相似度。

若两个社交网站账号经常发出内容相同的文本、博客等，则两个社交网站账号的相似度就越高。

假设Φ_a和Φ_b分别是社交网站账号a和社交网站账号b内容的集合

其中，s_a,j是文本型数据，表示文本的内容，如：社交网站账号a的1篇博客或1篇微博等；M_a是社交网站账号a的内容数量，1≤j≤M_a。

类似的，

其中，s_b,k是文本型数据，表示文本的内容，如：社交网站账号b的1篇博客或1篇微博等；M_b是社交网站账号b的内容数量，1≤k≤M_b。

两个不同社交网站账号的内容相似度的计算步骤为：

步骤3-1，两两计算Φ_a中每个元素s_a,j与Φ_b中每个元素s_b,k的相似度，构成一个集合记为{s_j,k}，计算方法与步骤1中文本型个人属性因素相似度的计算方法相同；

步骤3-2，令j＝1；m＝0；

步骤3-3，若max(s_j,k|1≤k≤M_b)≥tr，则m＝m+1；其中，tr为用户配置门限，取值在(0,1)间，即两个文本型的内容相似度超过tr时，则认为文本是相同的；

步骤3-4，将j更新为j+1；

步骤3-5，若j≤M_a，返回步骤3-3，否则进入步骤3-6；

步骤3-6，计算社交网站账号a和b内容相似度，计算表达式为：

步骤4：计算两个社交网站账号的综合相似度：

其中，w_i是各个影响因素的权重，必须满足w_i的取值通过基于训练样本的因素权重的计算方法确定。

基于训练样本的因素权重的计算方法的实施步骤如下：

令

根据训练样本计算因素权重的步骤如下：

步骤4-1：输入P个训练样本；

步骤4-2：利用P个训练样本的综合相似度Y_l构造矩阵

步骤4-3：计算所有P个训练样本各个因素的相似度X_i,l；

步骤4-4：利用X_i,l构造因素相似度矩阵

实施例一：

根据本发明提供的方法构建了新浪微博账号相似度计算***，***选取新浪微博账号的27个影响因素，其中个人属性因素14个，交互行为因素12个，内容因素1个，通过对上述影响因素相似度的计算，确定微博账号的综合相似度。采用上述***对随机选取的超过40万个新浪微博账号进行了综合相似度自动检测。

首先，向***输入500个新浪微博账号训练样本，每个样本包含两个账号的全部信息及该样本两个账号的综合相似度Y_l，其中l＝1,2,…,500。采用如下方法确定影响综合相似度各因素的权重值：

步骤1：输入500个训练样本；

步骤2：利用500个训练样本的综合相似度Y_l构造矩阵其中；

步骤3：计算所有500个训练样本27个影响因素的相似度X_i,l，其中i＝1,2,…,27；

步骤4：利用X_i,l构造因素相似度矩阵

步骤5：利用线性回归公式得到权重矩阵矩阵中的元素即权重w_i的值。

经过计算得到的权重w₁到w₂₇的值为：

w₁＝0.0197；w₂＝0.0160；w₃＝0.0041；w₄＝0.0400；

w₅＝0.0079；w₆＝0.0101；w₇＝0.0136；w₈＝0.0118；

w₉＝0.0140；w₁₀＝0.0259；w₁₁＝0.0181；w₁₂＝0.0119；

w₁₃＝0.0197；w₁₄＝0.0200；w₁₅＝0.0427；w₁₆＝0.0270；

w₁₇＝0.0470；w₁₈＝0.0514；w₁₉＝0.0516；w₂₀＝0.0818；

w₂₁＝0.0609；w₂₂＝0.0479；w₂₃＝0.0666；w₂₄＝0.0614；

w₂₅＝0.0542；w₂₆＝0.0838；w₂₇＝0.0909；

然后，在完成对***的训练后，***对待测的约40万个新浪微博账号两两检测综合相似度，按照综合相似度从高到低，列出与每个新浪微博账号最相似的10个账号。例如：图2中显示了***计算得出的与微博账号“南京正在发生”综合相似度最高10个账号。检测两个账号综合相似度的步骤为：

步骤1：两两计算不同新浪微博账号的个人属性因素的相似度。

纳入统计的新浪微博账号个人属性因素及其类型如表1，分别计算这些个人属性因素的相似度。

表1

步骤2：两两计算不同微博账号交互行为的相似度。

(1)正向认同和反向认同

考虑新浪关注、转发、评论、“@”四种交互行为所构成的正向认同和反向认同关系，分别计算其相似度。计算相似度时，集合F(a)和F(b)的定义如表2：

表2：

(2)连通性和距离

如表3所示，考虑新浪微博关注、转发、评论、“@”四种交互行为构成的有向图的连通性和距离，即关注相互可达、转发相互可达、评论相互可达和“@”相互可达，分别计算其相似度。

表3：

序号i	交互行为	说明
			23	关注	在关注行为构成的有向图中相互可达
24	转发	在转发行为构成的有向图中相互可达
			25	评论	在评论行为构成的有向图中相互可达
26	@	在“@”行为构成的有向图中相互可达

步骤3：两两计算不同新浪微博账号的内容的相似度

每个新浪微博账号发出的每一条微博，作为该账号的一个内容，微博数量即该账号的内容数量。因此，在新浪微博的统计中，s_a,j表示账号a的第j篇微博，j满足0≤j≤M_a，M_a为账号a的微博总数。

序号i	说明
		27	内容的相似度，在计算中tr取值为0.8，即内容80％相似时，两条微博判为相同。

步骤4：两两计算不同新浪微博账号的综合相似度。

计算时权重w_i即采用通过训练样本确定的权重值。

本发明提供了一种社交网站账号相似度的综合数据挖掘方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种社交网站账号相似度的综合数据挖掘方法，其特征在于，包括社交网站账号综合相似度的计算的方法，步骤如下：

步骤1，计算两个不同社交网站账号的个人属性因素的相似度；

步骤2，计算两个不同社交网站账号交互行为的相似度；

步骤3，计算两个不同社交网站账号的内容的相似度；

步骤4，通过对步骤1～3中计算得到的相似度的加权平均，计算两个社交网站账号的综合相似度；

步骤1中，按照个人属性因素的数据类型，将个人属性因素分为字符串型、文本型、布尔型、枚举型、地址型、时间型和整型，对于各种个人属性因素，根据其类型采用相应的相似度计算方法；对于两个不同的用户社交网站账号a和b，表示a和b在因素f_i上的相似度，相似度是一个大小在[0,1]间的数，其中i＝1,2,…,N，N为影响社交网站账号相似度的因素数量，和分别表示社交网站账号a和b在影响因素f_i上的取值，各种数据类型个人属性因素的相似度计算方法如下：

(a)字符串型：

当和为字符串时，相似度计算方法为：

(b)文本型：

当和为文本时，相似度计算方法如下：

(b-1)提取文本和中出现的词语，构成一个词语集合；

(b-3)求向量和的余弦值，计算得到相似度：

<mrow> <msub> <mi>sim</mi> <msub> <mi>f</mi> <mi>i</mi> </msub> </msub> <mrow> <mo>(</mo> <mi>a</mi> <mo>,</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mover> <msub> <mi>L</mi> <mi>a</mi> </msub> <mo>&RightArrow;</mo> </mover> <mo>&CenterDot;</mo> <mover> <msub> <mi>L</mi> <mi>b</mi> </msub> <mo>&RightArrow;</mo> </mover> </mrow> <mrow> <mo>|</mo> <mover> <msub> <mi>L</mi> <mi>a</mi> </msub> <mo>&RightArrow;</mo> </mover> <mo>|</mo> <mo>&CenterDot;</mo> <mo>|</mo> <mover> <msub> <mi>L</mi> <mi>b</mi> </msub> <mo>&RightArrow;</mo> </mover> <mo>|</mo> </mrow> </mfrac> </mrow>

其中，符号||为向量取模运算；

(c)布尔型、枚举型或者地址型：

当和为布尔型、枚举型或者地址型时，相似度计算方法为：

<mrow> <msub> <mi>sim</mi> <msub> <mi>f</mi> <mi>i</mi> </msub> </msub> <mrow> <mo>(</mo> <mi>a</mi> <mo>,</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mrow> <msub> <mi>s</mi> <mrow> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>a</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>s</mi> <mrow> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>b</mi> </mrow> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <msub> <mi>s</mi> <mrow> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>a</mi> </mrow> </msub> <mo>&NotEqual;</mo> <msub> <mi>s</mi> <mrow> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>b</mi> </mrow> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>;</mo> </mrow>

(d)时间型：

当和为时间型时，相似度计算方法为：

其中，thr是相似度门限，即当社交网站账号a和b因素f_i相差超过时间thr时，即认为社交网站账号的因素f_i没有关联，thr取值范围是0～+∞，表示求得thr和之间的最小值；

(e)整型：

当和为整型时，相似度计算方法为：

表示求得和1中的最大值；

(1)正向认同和反向认同：

正向认同和反向认同的相似度计算方法为：

其中，对于正向认同关系，F(a)表示从社交网站账号a出发的所有有向边指向的社交网站账号的集合，F(b)表示从社交网站账号b出发的所有有向边指向的社交网站账号的集合；对于反向认同关系，F(a)表示到达社交网站账号a的所有有向边另一端的社交网站账号集合，F(b)表示到达社交网站账号b的所有有向边另一端的社交网站账号集合，num()表示统计括号内集合的元素的数量；

(2)连通性和距离：

连通性和距离的相似度计算方法为：

其中，a和b相互可达是指：若将一种账号之间发生的交互行为作为一条有向边，则账号a能够通过一条以上有向边到达账号b；账号b也能够通过一条以上有向边到达账号a，可达账号之间的距离d是指账号a和b之间间隔的最小有向边数量；

两个不同社交网站账号的内容相似度的计算步骤为：

(3-4)将j更新为j+1；

(3-5)若j≤M_a，返回(3-3)，否则进入(3-6)；

(3-6)计算社交网站账号a和b内容相似度，计算表达式为：

M_a和M_b分别是账号a和b拥有的内容数量，是定值，max(M_a,M_b)表示求得M_a和M_b之间的最大值；

<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>a</mi> <mo>,</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>w</mi> <mi>i</mi> </msub> <msub> <mi>sim</mi> <msub> <mi>f</mi> <mi>i</mi> </msub> </msub> <mrow> <mo>(</mo> <mi>a</mi> <mo>,</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

其中，w_i是各个影响因素的权重，必须满足

所述各个影响因素的权重w_i的计算的方法如下：

输入P个训练样本，第l个训练样本综合相似度记为Y_l，因素f_i的相似度记为X_i,l，其中l＝1,2,…,P，i＝1,2…,N，根据训练样本计算因素权重的步骤如下：

步骤4-1：输入P个训练样本；

步骤4-2：利用P个训练样本的综合相似度Y_l构造矩阵

步骤4-3：计算所有P个训练样本各个因素的相似度X_i,l；

步骤4-4：利用X_i,l构造因素相似度矩阵

步骤4-5：利用线性回归公式得到权重矩阵矩阵中的各个元素即对应各个影响因素的权重w_i的值。