CN105741175B - 一种对在线社交网络中账户进行关联的方法 - Google Patents
一种对在线社交网络中账户进行关联的方法 Download PDFInfo
- Publication number
- CN105741175B CN105741175B CN201610057577.5A CN201610057577A CN105741175B CN 105741175 B CN105741175 B CN 105741175B CN 201610057577 A CN201610057577 A CN 201610057577A CN 105741175 B CN105741175 B CN 105741175B
- Authority
- CN
- China
- Prior art keywords
- account
- osn
- node
- social networks
- online social
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 239000013598 vector Substances 0.000 claims abstract description 55
- 239000011159 matrix material Substances 0.000 claims abstract description 37
- 230000009466 transformation Effects 0.000 claims abstract description 30
- 238000005295 random walk Methods 0.000 claims abstract description 13
- 238000011478 gradient descent method Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 5
- 238000013508 migration Methods 0.000 claims description 4
- 230000005012 migration Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 abstract description 3
- 230000008569 process Effects 0.000 abstract description 2
- 230000008859 change Effects 0.000 description 5
- 244000097202 Rathbunia alamosensis Species 0.000 description 3
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 3
- 244000046052 Phaseolus vulgaris Species 0.000 description 2
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于节点相似度的对多个在线社交网络(OSN)中账户进行关联的方法,从OSN网站账户中提取好友关系来关联不同OSN平台上属于同一实体用户的多个账户。该专利五个部分:数据预处理部分对OSN的账户节点关系图进行预处理;节点序列提取部分通过随机游走获得账户节点序列集合;账户向量表示部分通过词转向量工具word2vec生成每个账户的向量模型;计算线性变换矩阵部分通过梯度下降法求得从一个OSN到另一个OSN的线性变换矩阵W;获取关联账户部分将其中一个OSN中的账户映射到另一OSN的坐标空间,通过相似度度量和阈值筛选,得到所有账户对应的关联账户或者对应的候选集。本发明避免了因账户不真实的特征信息对账户关联结果带来的误差,故而提高了账户关联的健壮性。
Description
技术领域
本发明属于网络信息技术领域,更为具体地讲,涉及一种对在线社交网络中账户进行关联的方法。
背景技术
账户关联是用来挖掘一个用户在各种在线社交网络中的所有可能账户信息的主要技术手段,可用于追踪进行网络犯罪的恶意用户以阻止恶意事件蔓延、深度挖掘账户信息以优化推荐方法,检测到账户信息被盗后进行危险预警以保护其他网站的账户安全。
传统账户关联方法提取的特征包括账户本身的个人信息如性别、年龄、地理位置,以及用户行为规律如文本写作风格、检索词使用习惯、鼠标停留时间等。然而由于涉及个人隐私,个人信息往往不真实全面;用户行为规律的数据也大多不易获取,且存在误差,故而传统账户关联方法的准确性不高。此外,传统账户关联方法需要账户的信息基本真实,其思路是穷尽账户本身具有的重要特征属性来尽可能全面地表达一个用户,通过特征提取概括建模,而后按模型过滤掉不相关的候选项账户,从而找到一个相似度最高的账户作为关联账户。尽管传统账户关联方法完成了账户关联的任务,但传统账户关联方法所需的数据输入信息较多,且难以避免不真实的账户信息对关联结果造成的偏差,故而账户关联的健壮性不高。
发明内容
本发明的目的在于克服现有技术的不足,提供一种对在线社交网络中账户进行关联的方法,以提高账户关联的健壮性。
为实现上述发明目的,本发明对在线社交网络中账户进行关联的方法,其特征在于,包括以下步骤:
(1)、根据需求确定需要进行账户关联的两个在线社交网络,将两个在线社交网络OSN_X、OSN_Y中各自的账户间存在的好友关系均表示为由代表账户的节点集V和代表账户间好友关系的边集E组成的无向图即账户节点关系图,得到两个在线社交网络OSN_X、OSN_Y各自的账户节点关系图RD_X、RD_Y;
(2)、分别对两个账户节点关系图RD_X、RD_Y中各自的所有节点进行遍历,得到在线社交网络OSN_X、OSN_Y各自的账户节点序列集WalkList_X、WalkList_Y;
对于在线社交网络OSN_X,遍历账户节点关系图RD_X中的所有节点,依次选择一个节点作为开始节点进行随机游走,游走时从开始节点或到达节点的邻居节点中,随机选择一个邻居节点作为下一跳,直到走过的节点形成一个长度L的节点序列;
每次遍历结束可得到以不同节点作为起点的节点序列集,多趟循环遍历账户节点关系图RD_X中的所有节点,得到账户节点序列集WalkList_X,这样,以某个节点开始的节点序列就有多条;
对于在线社交网络OSN_Y,采用相同的方法进行处理,得到账户节点序列集WalkList_Y;
(3)、将两个账户节点序列集WalkList_X、WalkList_Y分别采用词转向量工具Word2Vec进行转换,分别得到账户在S维空间(S一般取值范围在几十到几百之间)的分布式表示的账户向量模型Model_X、Model_Y,具体为:
将OSN_X对应的账户节点序列集WalkList_X中的所有节点序列作为语料输入词转向量工具Word2Vec中,按照设置的窗口(window)以及维度(size)进行转换,得到各个账户xi对应的向量Vec_xi,账户xi及对应的向量Vec_xi作为项所构成在线社交网络OSN_X的账户向量模型Model_X,其中,xi表示在线社交网络OSN_X的第i个账户,i=1,2,...,m,m为在线社交网络OSN_X的账户数;
对账户节点序列集WalkList_Y做同样处理,得到在线社交网络OSN_Y中各账户yj及对应的向量Vec_yj作为项所构成在线社交网络OSN_Y的账户向量模型Model_Y,其中yj表示在线社交网络OSN_Y的第j个账户,j=1,2,...,n,n为在线社交网络OSN_Y的账户数;
(4)、计算两个在线社交网络OSN_X、OSN_Y对应的坐标空间之间的线性变换矩阵W
4.1)、用已知的两个在线社交网络OSN_X、OSN_Y中为同一用户的真实账户关联对<xk,yk>构建训练集RealPairL,其中,xk表示第k个同一用户在在线社交网络OSN_X中的账户,yk表示第k个同一用户在在线社交网络OSN_Y中的账户,共有K个同一用户;在账户向量模型Model_X、账户向量模型Model_Y中分别找到账户xk对应的向量Vec_xk、账户yk对应的向量Vec_yk;
4.2)、采用随机梯度下降法,解如下优化问题:
首先,把W初始化为每个元素均为较小随机值的S×S矩阵,然后,进行H次迭代;对于第h(0<h<=H)次迭代,随机选择一个样本点<Vec_xk、Vec_yk>,计算梯度T=(W(h-1)Vec_xk-Vec_yk)(Vec_xk)',其中W(h-1)为(h-1)次迭代后的线性变换矩阵,(Vec_xk)'为Vec_xk的转置矩阵;接下来,更新线性变换矩阵:Wh=W(h-1)-αT,其中,α为学习率。经过若干次迭代后,上述优化问题中的求和函数值逐渐收敛,此时的迭代次数即为H,此时的变换矩阵则为所求的变换矩阵W。
(5)、账户关联
将在线社交网络OSN_X中的每个账户xi,进行以下计算:
bi=W Vec_xi;
bi即为OSN_X中的节点xi在OSN_Y的坐标空间的向量表示,然后通过余弦相似度函数来计算bi与在线社交网络OSN_Y中的每个账户Vec_yj的相似度,选出相似度最大并且大于设定阈值的账户yjmax作为账户xi的关联账户或者根据用途选择相似度最大的前t(比如t为5)个作为候选集
本发明的目的是这样实现的。
本发明公开了一种基于节点相似度的对多个在线社交网络(OSN)中账户进行关联的方法,从OSN网站账户中提取好友关系来关联不同OSN平台上属于同一实体用户的多个账户。根据账户关联需求,提取两个在线社交网站各自账户间存在的好友关系,将之表示为由代表账户的节点集V和代表账户间好友关系的边集E组成的无向图或称账户节点关系图;然后于图中随机游走获取账户节点序列集合;并据此通过词转向量工具word2vec生成每个账户的向量模型;再以不同OSN上存在的公开的共同账户作为训练集,利用这些账户在不同OSN上对应的表示向量,通过梯度下降法求得从一个OSN到另一个OSN的线性变换矩阵W;将其中一个OSN中的账户映射到另一OSN的坐标空间,通过相似度度量和阈值筛选,得到所有账户对应的关联账户或者对应的候选集。本发明可用于追踪网络犯罪的恶意用户以阻止恶意事件蔓延、深度挖掘账户信息以优化推荐算法,检测到账号被盗后危险预警以保护该用户在其他网站的账户安全。
本发明具有以下有益效果:
(1)、使用较少的数据输入,基于节点相似度的方法,只需要账户(一般可以采用账户号)及其好友关系(或关注关系),无需其他繁琐的信息如账户个人信息,行为特征等,且避免了因账户不真实的特征信息对账户关联结果带来的误差,故而提高了账户关联的健壮性;
(2)、本发明中的坐标变换矩阵,可将不同在线社交网络中的账户放到同一空间去比较,计算方法简单通用,具有一般性,计算一次得到的变换矩阵,普遍适用源在线社交网络内不同的账户。同时,已知从一个在线社交网络到另一个在线社交网络的变换矩阵W,根据对称性,则另一个在线社交网络到到一个在线社交网络的变换矩阵为W的逆,不需要再次计算。
(3)、本发明从OSN网站账户中提取好友关系来关联不同OSN平台上属于同一实体用户的多个账户,是一种账户关联的新思路,此方法仅仅利用了OSN的好友关系。本发明也可结合其它账户关联方法使用,提高关联准确度。
附图说明
图1是本发明节本发明对在线社交网络中账户进行关联的方法一种具体实施方式流程图;
图2是账户节点关系图的一种具体实例示意图;
图3是随机游走获取账户节点序列集一种具体实施方式流程图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
一、基本原理
尽管两个在线社交网络中描述同一实体的关联账户的信息不同,但账户间关系分布却是相同的。比如新浪微博中三个账户分别是1,2,3;他们在人人网中对应的账户分别是a1,a2,a3;1、2、3是好友,a1、a2、a3也是好友。因此,本发明考虑利用账户的好友关系(或关注关系等)这一特征来挖掘关联账户,构建账户节点关系图。然后根据账户节点关系图遍历节点集,依次从中选择一个节点作为开始节点进行随机游走,游走时在开始节点或到达节点的邻接节点中,随机选择一个邻居节点作为下一跳,直到走过的节点形成一个长度L的、记录了账户关系信息的节点序列。每次遍历结束可得到以不同节点作为起点的节点序列集,多趟循环遍历整个节点集,得到账户节点序列集WalkList_X,其中以某个节点开始的节点序列就有多条。只要等待足够的时间和步骤,随机游走的次数足够多,序列集蕴含的账户关系信息便足够丰富。
账户在向量空间上的S(size=S,一般取值范围在几十到几百之间)维实数值表示可以由word2vec获得,而向量间的余弦相似度可以用来衡量账户间关联程度。同一个空间里的两个账户‘1’、‘2’可以通过ModelX.most_similar(‘1’,‘2’)函数比较相似度,但是在不同的两个在线社交网络中的账户、例如X空间的‘1’和Y空间的‘a1’,由于处于不同的向量空间,便不能使用该函数比较相似度。
线性变换是一种数学上的在向量空间X、Y之间映射且保持加法运算和数量乘法运算封闭的方法,关键在于求两个向量空间之间的映射函数y=Wx,其中W即为变换矩阵。基于好友关系在不同社交网络上的相似的分布,可将在不同网站空间中无法比较相似性的账户,通过线性变换运算放在同一个空间里进行比较。
最后通过线性变换矩阵将两个在线社交网络中账户的向量进行比较,找到关联账户或者根据用途选择相似度最大的前t(比如t为5)个作为候选集。
二、账户关联方法
在本实施例中,如图1所示,本发明对在线社交网络中账户进行关联的方法包括五个步骤:数据预处理(步骤S101)、随机游走获取账户节点序列集(步骤S102)、分布式向量表示(步骤S103)、求不同OSN(在线社交网络)间线性变换矩阵(步骤S104)、计算距离获取关联账户(S105)。
1、数据预处理
首先根据需求确定需要关联的在线社交网络(Online Social Networking,简称OSN),如新浪微博、豆瓣、人人,Twitter、Facebook等,这些OSN的账户间存在的好友关系,可以描述为由代表账户节点集V和代表账户间关系的边集E组成的无向图,本发明称之为即账户节点关系图,在本实施例中,如图2所示。
在本实施例中,利用网络爬虫读取每个账户的好友列表,将每个账户对应的好友关系存入文本文档,从而获取目标在线社交网络即两个在线社交网络OSN_X、OSN_Y的账户好友关系。
为了方便,只以在线社交网络OSN_X为例,另一个在线社交网络OSN_Y的处理方式完全相同。
在图2所示的在线社交网络(OSN_X)的账户节点关系图中,获取的对于文本文档为:12、13、18、23、24、35、37、45、47、56、89、810、811、910、912、1011、1013、1112、1113、1114、1314。
读取文本文档中的每条边,将边记录到图边字典dict中,每个账户即节点作为键,节点相连接的所有节点作为值,于是我们可以将某个社交网络账户间的关系图表示为字典类型的变量{账户:(邻接账户)},该变量即为账户节点关系图,用于算法输入。具体为:
2、随机游走获取账户节点序列集
对图边字典表示的账户节点关系图进行随机游走,分别获取两个社交网站的账户节点序列集WalkList_X、WalkList_Y。
如图3所示,内循环遍历所有节点,将其作为开始节点进行随机游走,从开始节点或到达节点的邻居节点中,随机选择一个邻居节点作为下一跳,直到走过的节点形成一个长度L的节点序列。以图2为例,遍历从1到14所有的节点作为开始节点进行随机游走,L为7,可以得到多条序列如{1,8,11,14,13,11,12},{2,4,7,3,5,6,5},{3,5,4,7,3,1,8}等。
循环次数即重复对账户节点关系图RD_X、RD_Y中各自的所有节点进行遍历的次数越大,获得账户关系信息就越丰富,关联的准确率越高。循环结束时,可以获得大量的代表账户的数字(账号)或单词(账户名称)组成的节点序列集WalkList。
具体实现方法包括:
步骤S201:初始化参数,包括循环次数置0、预设循环的次数;
步骤S202:判断循环次数是否达到预设循环次数,如果达到,则转到步骤S206,否则,进行步骤S203;
步骤S203:判断是否遍历完所有节点?如果遍历完,则转到步骤S205,否则,转到步骤S204;
步骤S204:遍历的节点作为开始节点进行随机游走,直到走过的节点形成一个长度L的节点序列,返回步骤S203;
步骤S205:循环次数加1,返回步骤S202;
步骤S206:返回账户节点序列集。
以下为循环次数为2、游走长度为7的账户节点序列集WalkList_X:
3、分布式向量表示
将两个账户节点序列集WalkList_X、WalkList_Y分别采用词转向量工具Word2Vec进行转换,分别得到账户在高维空间的S维分布式表示的向量模型Model_X、Model_Y,具体为:
设置的窗口(window)以及维度(size=S),将账户节点序列集中的所有长度T的节点序列作为语料输入词转向量工具Word2Vec中,进行转换,得到各个账户xi、yj对应的向量Vec_xi、Vec_yj,账户xi及对应的向量Vec_xi作为项所构成在线社交网络OSN_X的账户向量模型Model_X。其中,xi表示在线社交网络OSN_X的第i个账户,i=1,2,...,m,m为在线社交网络OSN_X的账户数。对账户节点序列集WalkList_Y做同样处理,得到在线社交网络OSN_Y中各账户yj及对应的向量Vec_yj作为项所构成在线社交网络OSN_Y的账户向量模型Model_Y,其中yj表示在线社交网络OSN_Y的第j个账户,j=1,2,...,n,n为在线社交网络OSN_Y的账户数。
word2vec是将词(文本)转化为向量的工具,其具体过程属于现有技术,在此不再赘述。
在本实施例中,size(S)=4,window=2,得到的模型Model{账户:(S维向量)}如下:
需要说明的是,在本实施例中,向量用横排编辑(方便排版),但其在本发明中是一个列向量。如果用行向量,则后面的公式需要进行一定的调整即线性变换矩阵需要放在向量的后面进行相乘。
4、求不同OSN(在线社交网络)对应的坐标空间之间的线性变换矩阵
4.1)、用已知的两个在线社交网络OSN_X、OSN_Y中为同一用户的真实账户关联对<xk,yk>构建训练集RealPairL,其中,xk表示第k个同一用户在在线社交网络OSN_X中的账户,yk表示第k个同一用户在在线社交网络OSN_Y中的账户,共有K个同一用户;在账户向量模型Model_X、账户向量模型Model_Y中分别找到账户xk对应的向量Vec_xk、账户yk对应的向量Vec_yk,初始化线性变换矩阵W为单位矩阵,并用矩阵W1表示;
4.2)、解如下优化问题:
采用随机梯度下降法,解如下优化问题:
首先,把W初始化为每个元素均为随机值的S×S矩阵,然后,进行H次迭代;对于第h(0<h<=H)次迭代,随机选择一个样本点<Vec_xk、Vec_yk>,计算梯度T=(W(h-1)Vec_xk-Vec_yk)(Vec_xk)',其中W(h-1)为(h-1)次迭代后的线性变换矩阵,(Vec_xk)'为Vec_xk的转置矩阵;接下来,更新线性变换矩阵:Wh=W(h-1)-αT,其中,α为学习率;经过若干次迭代后,上述优化问题中的求和函数值逐渐收敛,此时的迭代次数即为H,此时的变换矩阵则为所求的变换矩阵W;
在本实施例中,输入已知一个关联文本trainConnect.txt作为训练集,其内容如下:1a1、3a3、4a4、6a6、9a9、12a12、13a13。
然后根据这个训练集的账户关联对,从第3步得到的向量模型Model_X、Model_Y中找到相应的向量。每行是一个向量(4维),最后加个1就变成了5维:比如Model_X[1]=[0.39482608 0.51815981-0.23675969 0.38197696],但是账户1对应的这一行是[0.39482608 0.51815981-0.23675969 0.381976961]。具体而言,在本实施例中,得到的线性变换矩阵W(5*5维度)为:
W=[[-0.01109113 0.37251355-0.43007925-0.05281413 0.]
[0.84859938 0.31506663 0.24449666-0.82006226 0.]
[0.04590003-0.64139036-0.21258527 0.64892452 0.]
[0.23426961-0.07661551-0.21128366 0.71278242 0.]
[-0.32104064-0.27574391 0.1407943 0.2562349 1.]]
5、计算距离获取关联账户
计算不同在线社交网络OSN中同一用户关联的账户时,由于不同空间的账户无法比较相似度,需将账户向量通过线性矩阵运算变换到同一个空间,然后通过在同一空间中比较两个OSN中账户的距离相似度,找到关联账户。
将在线社交网络OSN_X中的每个账户xi,进行以下计算:
bi=WVec_xi;
bi即为OSN_X中的节点xi在OSN_Y的坐标空间的向量表示,然后通过余弦相似度函数来计算bi与在线社交网络OSN_Y中的每个账户Vec_yj的距离,选出距离最小即相似度最大并且大于设定阈值的账户yjmax作为账户xi的关联账户或者根据用途选择相似度最大的前t(比如t为5)个作为候选集。
三、实例验证
本实施例中,很多热门的在线社交网络如新浪微博、豆瓣、人人、Twitter、Facebook等的账户间存在好友关系,这些信息可以描述为由代表账户的节点集V和代表账户间关系的边集E组成的图。本实例用到的数据集来自https://snap.stanford.edu/data/egonets-Facebook.html,以包含1034个节点、53498条边的文本文档作为在线社交网络OSN_X的输入,其中每个节点由数字表示。
对于在线社交网络OSN_Y,我们采用以下方法构建:在线社交网络OSN_X的节点表示的数字前加个‘a’,用以和在线社交网络OSN_X的节点作区分,随机删除所有边中10%的边,再随机删除10%的节点及包含所有该节点的边,之后增加10%的节点数(在线社交网络OSN_X的节点最大数往后加,以免和原节点混淆,每个节点随机增加50条边),除了新增节点,再为原来节点集的每个节点随机生成5条边。将所有没有改变的节点(包括节点和边),例如在线社交网络OSN_X中节点‘1’和在线社交网络OSN_Y中节点‘a1’这样相对应的节点作为账户关联对,构成一个集合,并将其中的70%用于训练集,30%用于测试集。
基于本发明的对在线社交网络中账户进行关联的方法,30%的测试集中的账户都成功进行关联,本发明的方法具有较强的健壮性。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (3)
1.一种对在线社交网络中账户进行关联的方法,其特征在于,包括以下步骤:
(1)、根据需求确定需要进行账户关联的两个在线社交网络,将两个在线社交网络OSN_X、OSN_Y中各自的账户间存在的好友关系表示为由代表账户的节点集V和代表账户间好友关系的边集E组成的无向图即账户节点关系图,得到两个在线社交网络OSN_X、OSN_Y各自的账户节点关系图RD_X、RD_Y;
(2)、分别对两个账户节点关系图RD_X、RD_Y中所有节点进行遍历,得到在线社交网络OSN_X、OSN_Y各自的账户节点序列集WalkList_X、WalkList_Y;
对于在线社交网络OSN_X,遍历账户节点关系图RD_X中的所有节点,依次选择一个节点作为开始节点进行随机游走,游走时从开始节点或到达节点的邻居节点中,随机选择一个邻居节点作为下一跳,直到走过的节点形成一个长度L的节点序列;每次遍历结束可得到以不同节点作为起点的节点序列集,多趟循环遍历账户节点关系图RD_X中的所有节点,得到账户节点序列集WalkList_X,这样,以某个节点开始的节点序列就有多条;
对于在线社交网络OSN_Y,采用相同的方法进行处理,得到账户节点序列集WalkList_X、WalkList_Y;
(3)、将两个账户节点序列集WalkList_X、WalkList_Y分别采用词转向量工具Word2Vec进行转换,分别得到账户在S维空间的分布式表示的账户向量模型Model_X、Model_Y,具体为:
将OSN_X对应的账户节点序列集WalkList_X中的所有节点序列作为语料输入词转向量工具Word2Vec中,按照设置的窗口(window)以及维度(size)进行转换,得到各个账户xi对应的向量Vec_xi,账户xi及对应的向量Vec_xi作为项所构成在线社交网络OSN_X的账户向量模型Model_X,其中,xi表示在线社交网络OSN_X的第i个账户,i=1,2,...,m,m为在线社交网络OSN_X的账户数;
对账户节点序列集WalkList_Y做同样处理,得到在线社交网络OSN_Y中各账户yj及对应的向量Vec_yj作为项所构成在线社交网络OSN_Y的账户向量模型Model_Y,其中yj表示在线社交网络OSN_Y的第j个账户,j=1,2,...,n,n为在线社交网络OSN_Y的账户数;
(4)、计算两个在线社交网络OSN_X、OSN_Y对应的坐标空间之间的线性变换矩阵W
4.1)、用已知的两个在线社交网络OSN_X、OSN_Y中为同一用户的真实账户关联对<xk,yk>构建训练集RealPairL,其中,xk表示第k个同一用户在在线社交网络OSN_X中的账户,yk表示第k个同一用户在在线社交网络OSN_Y中的账户,共有K个同一用户;在账户向量模型Model_X、账户向量模型Model_Y中分别找到账户xk对应的向量Vec_xk、账户yk对应的向量Vec_yk;
4.2)、采用随机梯度下降法,解如下优化问题:
首先,把W初始化为每个元素均为随机值的S×S矩阵,然后,进行H次迭代;对于第h次迭代,随机选择一个样本点<Vec_xk、Vec_yk>,计算梯度T=(W(h-1)Vec_xk-Vec_yk)(Vec_xk)',其中W(h-1)为(h-1)次迭代后的线性变换矩阵,(Vec_xk)'为Vec_xk的转置矩阵;接下来,更新线性变换矩阵:Wh=W(h-1)-αT,其中,α为学习率;经过若干次迭代后,上述优化问题中的求和函数值逐渐收敛,此时的迭代次数即为H,此时的变换矩阵则为所求的变换矩阵W;
(5)、账户关联
将在线社交网络OSN_X中的每个账户xi,进行以下计算:
bi=W Vec_xi;
bi即为OSN_X中的节点xi在OSN_Y的坐标空间的向量表示,然后通过余弦相似度函数来计算bi与在线社交网络OSN_Y中的每个账户Vec_yj的相似度,选出相似度最大并且大于设定阈值的账户yjmax作为账户xi的关联账户或者根据用途选择相似度最大的t个作为候选集。
2.根据权利要求1所述的账户进行关联的方法,其特征在于,所述的账户节点关系图根据以下方法得到:
2.1)、利用网络爬虫读取每个账户的好友列表,将每个账户对应的好友关系存入文本文档,从而获取目标在线社交网络即两个在线社交网络OSN_X、OSN_Y的账户好友关系;
2.2)、读取文本文档并将每条边记录到图边字典dict中,以每个账户即节点作为键,与之相连接的所有节点作为值,于是我们可以将某个社交网络账户间的关系图表示为字典类型的变量{账户:(邻接账户)},该变量即为账户节点关系图。
3.根据权利要求1所述的账户进行关联的方法,其特征在于,所述的账户关联候选集根据以下方法得到:
采用两个OSN中的公开的关联到相同用户实体的账户作为训练集,利用梯度下降法求得的变换矩阵W,然后把其中一个OSN中节点对应的坐标变换到另一个OSN的坐标系中,从而可基于余弦相似度cos(bi,,Vec_yj)比较两账户向量间的距离,得出一个OSN中给定账户在另一个OSN中的关联账户候选集,相似度越大,距离越小,账户Vec_yj和Vec_xi的关联性越高,然后确定相似度最高且相似度大于给定阈值的节点为相关联的账户,用户也可以根据用途选择相似度最大的前t个账户作为关联候选集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610057577.5A CN105741175B (zh) | 2016-01-27 | 2016-01-27 | 一种对在线社交网络中账户进行关联的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610057577.5A CN105741175B (zh) | 2016-01-27 | 2016-01-27 | 一种对在线社交网络中账户进行关联的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105741175A CN105741175A (zh) | 2016-07-06 |
CN105741175B true CN105741175B (zh) | 2019-08-20 |
Family
ID=56246762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610057577.5A Expired - Fee Related CN105741175B (zh) | 2016-01-27 | 2016-01-27 | 一种对在线社交网络中账户进行关联的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105741175B (zh) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108022171B (zh) * | 2016-10-31 | 2021-10-15 | 腾讯科技(深圳)有限公司 | 一种数据处理方法及设备 |
CN108985309B (zh) * | 2017-05-31 | 2022-11-29 | 腾讯科技(深圳)有限公司 | 一种数据处理方法以及装置 |
CN107330020B (zh) * | 2017-06-20 | 2020-03-24 | 电子科技大学 | 一种基于结构和属性相似度的用户实体解析方法 |
CN107392782A (zh) * | 2017-06-29 | 2017-11-24 | 上海斐讯数据通信技术有限公司 | 基于word2Vec的社团构建方法、装置及计算机处理设备 |
CN107741953B (zh) * | 2017-09-14 | 2020-01-21 | 平安科技(深圳)有限公司 | 社交平台用户的现实关系匹配方法、装置及可读存储介质 |
CN110019975B (zh) | 2017-10-10 | 2020-10-16 | 创新先进技术有限公司 | 随机游走、基于集群的随机游走方法、装置以及设备 |
CN109658094B (zh) | 2017-10-10 | 2020-09-18 | 阿里巴巴集团控股有限公司 | 随机游走、基于集群的随机游走方法、装置以及设备 |
CN108021610A (zh) * | 2017-11-02 | 2018-05-11 | 阿里巴巴集团控股有限公司 | 随机游走、基于分布式***的随机游走方法、装置以及设备 |
CN108073687B (zh) | 2017-11-17 | 2020-09-08 | 阿里巴巴集团控股有限公司 | 随机游走、基于集群的随机游走方法、装置以及设备 |
CN110162956B (zh) * | 2018-03-12 | 2024-01-19 | 华东师范大学 | 确定关联账户的方法和装置 |
CN109242515B (zh) * | 2018-08-29 | 2021-07-23 | 创新先进技术有限公司 | 跨平台的异常账号识别方法和装置 |
CN109739938A (zh) * | 2018-12-28 | 2019-05-10 | 广州华多网络科技有限公司 | 一种多账户的关联方法、装置及设备 |
CN110046194A (zh) * | 2019-03-19 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 一种扩展节点关系图的方法、装置和电子设备 |
CN110515986B (zh) * | 2019-08-27 | 2023-01-06 | 腾讯科技(深圳)有限公司 | 一种社交网络图的处理方法、装置及存储介质 |
CN110717388B (zh) * | 2019-09-02 | 2023-06-06 | 平安科技(深圳)有限公司 | 多账户关联注册的方法、装置、计算机设备及存储介质 |
CN112861015A (zh) * | 2019-11-27 | 2021-05-28 | 北京达佳互联信息技术有限公司 | 一种应用程序中账户关联信息获取方法、装置及电子设备 |
CN111143701A (zh) * | 2019-12-13 | 2020-05-12 | 中国电子科技网络信息安全有限公司 | 一种基于多维度的社交网络用户推荐方法及*** |
CN111192154B (zh) * | 2019-12-25 | 2023-05-02 | 西安交通大学 | 一种基于风格迁移的社交网络用户节点匹配方法 |
CN111090814B (zh) * | 2019-12-30 | 2021-02-09 | 四川大学 | 基于度惩罚的迭代式跨社交网络用户账号关联方法 |
CN111177248B (zh) * | 2020-04-10 | 2020-06-26 | 上海飞旗网络技术股份有限公司 | 基于特征识别和格式转换的数据存储方法及装置 |
CN111368013B (zh) * | 2020-06-01 | 2020-09-25 | 深圳市卡牛科技有限公司 | 基于多账户的统一标识方法、***、设备和存储介质 |
CN111915429B (zh) * | 2020-08-11 | 2021-05-14 | 北京开科唯识技术股份有限公司 | 一种对账方法及装置 |
CN112232834B (zh) * | 2020-09-29 | 2024-04-26 | ***股份有限公司 | 资源账户确定方法、装置、设备和介质 |
CN112819056A (zh) * | 2021-01-25 | 2021-05-18 | 百果园技术(新加坡)有限公司 | 群控账号挖掘方法、装置、设备及存储介质 |
CN116090525B (zh) * | 2022-11-15 | 2024-02-13 | 广东工业大学 | 基于层次随机游走采样策略的嵌入向量表示方法及*** |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009088671A1 (en) * | 2008-01-04 | 2009-07-16 | Yahoo! Inc. | Identifying and employing social network relationships |
CN102457501A (zh) * | 2010-10-26 | 2012-05-16 | 腾讯科技(深圳)有限公司 | 一种即时通讯账户的识别方法及*** |
CN103927303A (zh) * | 2013-01-10 | 2014-07-16 | 华为技术有限公司 | 一种查找账户的方法和装置 |
CN104052651A (zh) * | 2014-06-03 | 2014-09-17 | 西安交通大学 | 一种建立社交组的方法和装置 |
CN104573057A (zh) * | 2015-01-22 | 2015-04-29 | 电子科技大学 | 一种用于跨ugc网站平台的帐户关联方法 |
CN104765729A (zh) * | 2014-01-02 | 2015-07-08 | 中国人民大学 | 一种跨平台微博社区账户匹配方法 |
-
2016
- 2016-01-27 CN CN201610057577.5A patent/CN105741175B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009088671A1 (en) * | 2008-01-04 | 2009-07-16 | Yahoo! Inc. | Identifying and employing social network relationships |
CN102457501A (zh) * | 2010-10-26 | 2012-05-16 | 腾讯科技(深圳)有限公司 | 一种即时通讯账户的识别方法及*** |
CN103927303A (zh) * | 2013-01-10 | 2014-07-16 | 华为技术有限公司 | 一种查找账户的方法和装置 |
CN104765729A (zh) * | 2014-01-02 | 2015-07-08 | 中国人民大学 | 一种跨平台微博社区账户匹配方法 |
CN104052651A (zh) * | 2014-06-03 | 2014-09-17 | 西安交通大学 | 一种建立社交组的方法和装置 |
CN104573057A (zh) * | 2015-01-22 | 2015-04-29 | 电子科技大学 | 一种用于跨ugc网站平台的帐户关联方法 |
Non-Patent Citations (1)
Title |
---|
Detecting Multiple Aliases in Social Media;Fredrik Johansson 等;《2013 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining (ASONAM 2013)》;20130829;1004 - 1011 * |
Also Published As
Publication number | Publication date |
---|---|
CN105741175A (zh) | 2016-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105741175B (zh) | 一种对在线社交网络中账户进行关联的方法 | |
CN103795613B (zh) | 一种在线社交网络中朋友关系预测的方法 | |
Ozsoy | From word embeddings to item recommendation | |
CN110837602B (zh) | 基于表示学习和多模态卷积神经网络的用户推荐方法 | |
Günther et al. | Mandatory critical points of 2D uncertain scalar fields | |
CN112528035B (zh) | 基于关系注意力的知识图谱推理方法、装置和计算机设备 | |
CN104462592B (zh) | 基于不确定语义的社交网用户行为关系推演***及方法 | |
WO2018112696A1 (zh) | 一种内容推荐方法及内容推荐*** | |
Li et al. | Location inference for non-geotagged tweets in user timelines | |
CN106909643A (zh) | 基于知识图谱的社交媒体大数据主题发现方法 | |
CN105956093B (zh) | 一种基于多视图锚点图哈希技术的个性化推荐方法 | |
CN107193797A (zh) | 中文微博的热点话题检测及趋势预测方法 | |
KR101977231B1 (ko) | 커뮤니티 검출 방법 및 커뮤니티 검출 프레임워크 장치 | |
Sharma et al. | Improved density based spatial clustering of applications of noise clustering algorithm for knowledge discovery in spatial data | |
Mo et al. | Choosing a heuristic and root node for edge ordering in BDD-based network reliability analysis | |
CN113919440A (zh) | 一种融合双重注意力机制和图卷积社交网络谣言检测*** | |
CN109977131A (zh) | 一种房型匹配*** | |
CN104899283A (zh) | 一种针对单个不确定图的频繁子图挖掘与优化方法 | |
CN113792594A (zh) | 一种基于对比学习的视频中语言片段定位方法及装置 | |
Nourzad et al. | Ensemble methods for binary classifications of airborne LiDAR data | |
JP5903376B2 (ja) | 情報推薦装置、情報推薦方法、及び情報推薦プログラム | |
Cui et al. | Mgnn: Graph neural networks inspired by distance geometry problem | |
CN104200222A (zh) | 一种基于因子图模型的图片中对象识别方法 | |
CN104978729A (zh) | 一种基于数据感知的图像哈希方法 | |
Patra et al. | Motif discovery in biological network using expansion tree |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190820 Termination date: 20220127 |