CN115080871A - 一种跨社交网络社交用户对齐方法 - Google Patents

一种跨社交网络社交用户对齐方法 Download PDF

Info

Publication number
CN115080871A
CN115080871A CN202210847062.0A CN202210847062A CN115080871A CN 115080871 A CN115080871 A CN 115080871A CN 202210847062 A CN202210847062 A CN 202210847062A CN 115080871 A CN115080871 A CN 115080871A
Authority
CN
China
Prior art keywords
user
social
node
alignment
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210847062.0A
Other languages
English (en)
Other versions
CN115080871B (zh
Inventor
佟玲玲
段运强
任博雅
时磊
候炜
段东圣
王海洋
余翠玲
井雅琪
吕东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN202210847062.0A priority Critical patent/CN115080871B/zh
Publication of CN115080871A publication Critical patent/CN115080871A/zh
Application granted granted Critical
Publication of CN115080871B publication Critical patent/CN115080871B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种跨社交网络社交用户对齐方法,涉及社交网络的用户关系挖掘领域。本发明为了解决现有社交用户对齐方法不能跨社交网络、计算精度低、对齐效率低的缺陷,采用如下步骤实现:采集社交网络的用户属性信息,构建用户关系拓扑图;根据边权重和节点的出入度计算节点权重;构建一阶近邻关系模型和二阶近邻关系模型,确定一阶邻居节点和二阶邻居节点,得到用户节点之间的相互关系;构建社交对齐神经网络,通过社交对齐神经网络对用户关系拓扑图中各节点进行邻居节点的信息聚合、拼接与非线性变换,得到跨社交网络的社交用户身份对齐结果。本发明主要用于通过跨社交网络对其社交用户实现用户关系挖掘。

Description

一种跨社交网络社交用户对齐方法
技术领域
本发明涉及社交网络的用户关系挖掘领域,尤其涉及一种跨社交网络社交用户对齐方法。
背景技术
移动互联网时代,在网络上开展社交活动已成为人们学***台应运而生,在满足用户多样化社交目标的同时,也造成用户信息碎片化、难以有效收集与利用。如果能够有效识别来自于不同社交媒体平台的、属于同一社会自然人实体的多个社交虚拟账户,关联与融合同一社会自然人在多个社交媒体平台的用户数据,将有助于构建更为全面、准确的用户画像,为政府监管、企业推广提供有价值的参考。
然而,目前主流的跨社交网络用户对齐方法多面向静态社交网络,将用户属性信息及用户结构信息分离开来,分别构建应用于跨社交网络用户对齐模型,既无法将两类异构数据有效结合以提高用户对齐效率,又无法应对社交网络的动态变化。近期,一小部分研究将图卷积神经网络应用于社交网络用户对齐任务,特别是使用以GraphSAGE(GraphSAmple and aggreGatE,图样本聚合)为代表的“归纳学习式”图卷积神经网络,GraphSage(Graph SAmple and aggreGatE)属于Inductive learning算法,它能够学习一种聚合函数,通过聚合节点邻居的特征信息来学习目标节点本身的embedding(嵌入)表达,算法的核心步骤分别是邻居采样以及特征聚合。不仅可以同时捕获用户节点的属性信息与拓扑结构信息,还可有效应对社交网络的动态更新。然而,此类研究多直接将GraphSAGE等图卷积神经网络“移植”到“无权”跨社交网络用户对齐任务中,选取默认的信息聚合方法并采用无监督学习方式,未结合跨社交网络用户对齐任务的现实需求,做出有针对性的改进与调整。
我国专利申请号:CN202110718740.9,公开日:2021.09.24,公开了基于联合嵌入学习模型的跨社交网络用户身份识别方法,首先利用用户名相似度和网络结构从两个社交网络中选取候选配对用户对;然后以所有的候选配对用户对为节点构建用户对网络图;其次在构建的UPG(用户对网络图)和已标注的用户对数据的基础上,融合标注好的配对用户信息标签、结构信息和属性信息搭建联合嵌入学习模型,并将其设计成1个输入和2个输出的深度神经网络结构;最后利用随机梯度下降算法对联合嵌入模型的损失函数进行最小化学习,学习结束后利用模型的参数对需要预测的用户对进行预测,并判断输出是否为相同用户。
但本申请发明人在实现上述技术方案的过程中,发现上述技术至少存在如下技术问题:现有技术对于跨社交网络用户对齐方法多选取默认的信息聚合方法并采用无监督学习方式,未结合跨社交网络用户对齐任务的现实需求作出有针对性的改进与调整,对齐过程中计算精度不足,导致对齐效率有待提高。
因此,就需要一种能够结合跨社交网络用户对齐任务的现实需求作出有针对性的改进与调整、计算精度高、对齐效率高的跨社交网络社交用户对齐方法。
发明内容
本发明的目的是为了解决现有社交用户对齐方法不能跨社交网络、计算精度低、对齐效率低的缺陷,提供了一种能够结合跨社交网络用户对齐任务的现实需求作出有针对性的改进与调整、计算精度高、对齐效率高的跨社交网络社交用户对齐方法。
本发明所述的一种跨社交网络社交用户对齐方法,包括以下步骤:
S1、构建用户关系拓扑图:采集N个社交网络的用户属性信息,分别以用户为节点,以用户间的关系为边,构建用户关系拓扑图;
S2、进行数据处理:预设边权重,基于所述用户关系拓扑图,对各用户节点的出入度进行统计,确定节点的出度和入度数量,根据所述边权重和所述节点的出入度计算节点权重;
S3、构建模型:为每个用户节点构建近邻关系模型,设立因子;
S4、确定邻居节点:根据节点权重设置起始用户节点,设立游走规则,根据游走规则对起始用户节点的邻居节点进行采样;根据游走规则遍历节点序列,最终得到用户节点之间的相互关系,并确定起始用户节点的邻居节点;
S5、构建社交对齐神经网络:对图卷积神经网络进行优化训练,得到社交对齐神经网络;
S6、获得社交用户身份对齐结果:利用所述用户关系拓扑图中已知的用户对组成三元组样本并构成三元组样本集合,将所述三元组样本集合中对应的用户特征向量作为所述社交对齐神经网络的输入,通过所述社交对齐神经网络对所述用户关系拓扑图中各节点进行K次邻居节点的信息聚合、拼接与非线性变换,得到跨社交网络的社交用户身份对齐结果;
所述N≥2,所述K≥2,且N和K均为自然数。
进一步地:在S4中,所述起始用户节点为节点权重最高的用户节点。
进一步地:在S4中,若N=2,K=2时,所述游走规则如下:
从起始用户节点的邻居中选取游走概率最高的邻居节点作为下一跳,所述游走概率为
Figure BDA0003734138940000021
其中,P(v0,vi)表示从起始用户节点v0游走到用户节点vi的游走概率,p为一阶因子,ω(e0,i)表示起始用户节点v0与用户节点vi之间边的权重,q是二阶因子,dis(v0,vj)表示用户节点vj到起始用户节点v0的邻居节点数,ε是邻居节点数的阈值,e(dis(v0)≤ε)表示到起始用户节点v0的邻居节点数符合阈值的节点,vj是到起始用户节点v0的邻居节点数符合阈值的节点中的任意一个。
进一步地:在S4中,所述邻居节点采样遵循的规则为:
若节点实际邻居数量小于所需的邻居样本量,则采用有放回的采样方式;否则,采用无放回的采样方式。
进一步地:在S5中,所述优化训练方法为:设立多层隐含层,将学习得到的所述社交对齐神经网络与用户的身份特征进行两两拼接,输入所述隐含层中进行学习训练,最终输出结果为输入用户对是同一自然人的概率与输入用户对不是同一自然人的概率,从而判断输入用户对是否为同一社会自然人实体。
进一步地:在S5中,所述优化训练方式使用有监督的训练方式,损失函数选择三元损失函数Triplet Loss。
进一步地:在S6中,采用加权平均的聚合函数,对所述各节点的聚合信息进行拼接与非线性变换。
本发明的有益效果是:
本发明设立游走规则获取用户节点间的结构信息,详细掌握用户节点的一阶邻居和高阶邻居情况,通过聚合用户多层好友的身份特征来获得自己的身份特征,充分考虑了社交网络的实际特点,有效避免了由于网络规模过大而导致的节点的度分辨率不高的问题和排除了对齐效果的冗余性。
通过对GraphSAGE进行优化,构建社交对齐神经网络,提取社交网络用户融合了网络嵌入和用户表征特征Embedding(嵌入层),借鉴Triplet Network(三元组和网络)结构思想,采用Triplet Loss作为损失函数对GraphSAGE网络进行有监督学习,在考虑跨社交网络对齐用户间相似性的同时,兼顾跨社交网络非对齐用户间差异,更符合跨社交网络用户对齐任务需求;提高了用户识别的准确率,在给定相同社交网络数据集条件下,本发明可以比仅考虑局部结构或仅利用配置文件信息的方法识别出更多的不同社交网络上的用户,具有较强的弹性拓展能力。
本发明的技术方案能够有效解决现有的对于跨社交网络用户对齐方法多选取默认的信息聚合方法并采用无监督学习方式,未结合跨社交网络用户对齐任务的现实需求作出有针对性的改进与调整,对齐过程中计算精度不足,导致对齐效率有待提高的问题。并且,上述方法经过了一系列的效果调研,通过验证,最终能够利用社交对齐神经网络提取社交网络用户融合了属性信息及拓扑结构信息的身份特征Embedding,借鉴Triplet Network结构思想,采用Triplet Loss作为损失函数对GraphSAGE网络进行有监督学习,在考虑跨社交网络对齐用户间相似性的同时,兼顾跨社交网络非对齐用户间差异,更符合跨社交网络用户对齐任务需求。
附图说明
图1是一种跨社交网络社交用户对齐方法的流程图;
图2是一种跨社交网络社交用户对齐方法的整体设计图;
图3是图1所述的利用Triplet Loss训练社交对齐神经网络示意图。
具体实施方式
以下仅为本发明较佳的具体实施例,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。以下所述实施例仅用于解释本发明,而不能解释为对本发明的限制,本发明的保护范围应该以权利要求的保护范围为准。下面详细描述本发明的实施例,为了便于描述本发明和简化描述,本发明的说明书中使用的技术术语应当做广义解读,包括但不限于本申请未提及的常规替换方案,同时包括直接实现方式和间接实现方式。
实施例1
结合图1和图2说明本实施例,本实施例公开一种跨社交网络社交用户对齐方法,包括以下步骤:
S1、构建用户关系拓扑图:采集N个社交网络的用户属性信息,分别以用户为节点,以用户间的关系为边,构建用户关系拓扑图;其中,N=2;
提取社交网络S1与社交网络S2共有的用户属性,利用自然语言处理及图像识别算法对各用户的共有属性作向量化处理;用户属性,如用户名、用户头像、性别、手机号等,对于文本类的用户属性中,利用现有的预训练语音模型(如:BERT模型)作向量化处理;图片类用户属性(如:用户头像等),利用现有的图像处理算法(如:VGG16)将图片转为向量;将用户属性特征向量加以拼接,作为最终的用户特征向量;
基于预先采集的社交网络S1与社交网络S2的用户粉丝、关注等(包括关注、被关注、双向关注和不关注)社交关系,分别以用户为节点、用户间的粉丝/关注关系为边,构建社交网络的用户关系拓扑图G1=(V1,E1)、G2=(V2,E2),其中,G1和G2为社交网络S1与社交网络S2所对应的用户关系拓扑图,V1和V2表示用户节点,E1和E2表示用户关系所构成的边;相比于“单向关注/被关注关系”,真实社会生活中存在好友关系的用户间往往倾向于在线上的社交网络中继续维持“双向关注”关系,故按照如下表所示规则,分别为社交网络用户关系拓扑图G1、G2的连接边赋予权重。
表1社交网络用户关系拓扑图边权重
边关系类型 权重
单向关注/被关注 1
双向关注 2
S2、进行数据处理:预设边权重,基于所述用户关系拓扑图,对社交网络S1与社交网络S2中各用户节点的出入度进行统计,确定节点的出度和入度数量,根据所述边权重和所述节点的出入度计算节点权重;
所述节点权重的计算公式为:
Figure BDA0003734138940000051
其中,ω(v)表示用户节点v的权重,N(v)是与节点v有社交关系的其他节点的总数,u是与节点v有社交关系的任意一个节点,ω(v,u)是节点u与节点v之间边的权重。分子部分的含义为:与节点v有社交关系的所有节点与节点v之间边的权重之和,再乘2。
S3、构建模型:为每个用户节点构建一阶近邻关系模型和二阶近邻关系模型,设立一阶因子和二阶因子;一阶近邻关系是两个节点直接连接,二阶近邻关系是两个节点通过第三节点连接;
S4、确定一阶邻居节点和二阶邻居节点:根据节点权重设置起始用户节点,所述起始用户节点v0为节点权重最高的用户节点,
设立游走规则,根据游走规则对起始用户节点的邻居节点进行采样;根据游走规则遍历节点序列,最终得到用户节点之间的相互关系,并确定起始用户节点v0的一阶邻居节点和二阶邻居节点;同理,根据设立游走规则获取用户节点间的结构信息,详细掌握用户节点的一阶邻居、二阶邻居以及高阶邻居情况,通过聚合用户多层好友的身份特征来获得自己的身份特征,充分考虑了社交网络的实际特点,有效避免了由于网络规模过大而导致的节点的度分辨率不高的问题和排除了对齐效果的冗余性。
S5、构建社交对齐神经网络:对GraphSAGE图卷积神经网络进行优化训练,得到社交对齐神经网络;GraphSAGE是一种图神经网络算法,GraphSAGE使用多层聚合函数,每一层聚合函数会将节点及其邻居的信息聚合在一起得到下一层的特征向量,GraphSAGE采用了节点的邻域信息,不依赖于全局的图结构。
S6、获得社交用户身份对齐结果:利用所述用户关系拓扑图中已知的用户对组成三元组样本并构成三元组样本集合,将所述三元组样本集合中对应的用户特征向量作为所述社交对齐神经网络的输入,通过所述社交对齐神经网络对所述用户关系拓扑图中各节点进行K次邻居节点的信息聚合、拼接与非线性变换,得到跨社交网络的社交用户身份对齐结果。
利用社交网络用户关系拓扑图G1、G2中已知的、确切指向同一社会自然人实体的用户对(分别记作
Figure BDA0003734138940000061
Figure BDA0003734138940000062
)及G2中已知的、与
Figure BDA0003734138940000063
确切不匹配的一个用户(记作
Figure BDA0003734138940000064
)组成三元组样本,记作
Figure BDA0003734138940000065
Figure BDA0003734138940000066
由多个上述三元组样本构成三元组样本集合,记作
Figure BDA0003734138940000067
其中,|T|表示样本集合的数量。
实施例2
结合实施例1说明本实施例,本实施例公开一种跨社交网络社交用户对齐方法,在S4中,所述游走规则如下:
从起始用户节点v0的邻居中选取游走概率最高的邻居节点作为下一跳,所述游走概率为
Figure BDA0003734138940000068
其中,P(v0,vi)表示起始用户节点v0游走到用户节点vi的游走概率,p为一阶因子,ω(e0,i)表示起始用户节点v0与用户节点vi之间边的权重,q是二阶因子,dis(v0,vj)表示用户节点vj到起始用户节点v0的邻居节点数,ε是邻居节点数的阈值,e(dis(v0)≤ε)表示到起始用户节点v0的邻居节点数符合阈值的节点,vj是到起始用户节点v0的邻居节点数符合阈值的节点中的任意一个。一阶近邻关系模型中的节点与起始用户节点直接相连,二阶近邻关系模型中的节点与起始用户节点不直接相连,是通过其他节点间接连接,但中间的节点数不超过阈值。
实施例3
结合实施例1说明本实施例,本实施例公开一种跨社交网络社交用户对齐方法,在S4中,所述邻居节点采样遵循的规则为:
若节点实际邻居数量小于所需的邻居样本量,则采用有放回的采样方式;否则,采用无放回的采样方式。
考虑到社交网络具有以极高频率、不断动态变化的特性,选择对GraphSAGE图卷积神经网络进行优化,得到社交对齐神经网络,以应用于动态变化的社交网络;根据优化后的GraphSAGE运行流程,首先需要对社交网络用户关系拓扑图、中各节点进行邻居节点采样。
具体的,分别对社交网络用户关系拓扑图G1、G2中各节点进行固定数量的一阶邻居、二阶邻居采样,采样遵循的规则为:若节点实际邻居数量小于所需的邻居样本量,则采用有放回的采样方式;否则,采用无放回的采样方式。采样结果标记如下:G1网络中节点v的一阶、二阶邻居采样结果分别记作
Figure BDA0003734138940000071
G2网络中节点v的一阶、二阶邻居采样结果分别记作
Figure BDA0003734138940000072
将三元组样本集合T中对应的用户特征向量作为社交对齐神经网络的输入,对社交网络用户关系拓扑图G1、G2中各节点进行K次邻居节点信息聚合、拼接与非线性变换。该过程的伪代码如下:
Figure BDA0003734138940000073
其中,
Figure BDA0003734138940000074
为以用户节点v为中心的初始聚合函数,xv为初始聚合函数的值,Vi表示社交网络用户关系拓扑图G1、G2中的节点集合,AGGREGATEk表示聚合函数公式,
Figure BDA0003734138940000075
表示社交网络用户关系拓扑图G1、G2中节点v的k层邻居采样结果,节点u是节点v的k层邻居中的一个,CONCAT用于连接两个或多个数组,完成节点信息的拼接,
Figure BDA0003734138940000076
为非线性变换后的值,
Figure BDA0003734138940000081
为由聚合函数公式AGGREGATEk得到的聚合函数值,zv表示最终得到的聚合函数结果。
AGGREGATE函数是返回列表或数据库中的合计,AGGREGATE函数可将不同的聚合函数应用于列表或数据库,并提供忽略隐藏行和错误值的选项。CONCAT函数是将多个区域或字符串中的文本组合起来。
实施例4
结合实施例1-3说明本实施例,本实施例公开一种跨社交网络社交用户对齐方法,在S5中,所述优化训练方法为:设立多层隐含层,将学习得到的所述社交对齐神经网络与用户的身份特征进行两两拼接,输入所述隐含层中进行学习训练,最终输出结果为输入用户对为同一自然人的概率与非同一自然人的概率;从而判断是否为同一用户。
设立多层隐含层,将学习得到的社交网络S1与社交网络S2的用户身份特征Embedding进行两两拼接,输入隐含层中进行学习训练,最终输出结果为输入用户对为同一自然人的概率与非同一自然人的概率;从而判断是否为同一用户。将(anchor_userS1,positive_userS2,negative_userS2)三元组样本Embedding表示分别进行拼接,anchor_userS1与positive_userS2拼接结果作为正样本,anchor_userS1与negative_userS2拼接结果作为负样本,使用随机梯度下降法,对模型参数进行多轮学习与训练;直至正确率达到预期的效果为止,从而完成社交对齐神经网络的训练,通过将样本数据输入到社交对齐神经网络中,得到最终的用户身份对齐结果。通过对GraphSAGE进行优化,构建社交对齐神经网络,提取社交网络用户融合了网络嵌入和用户表征特征Embedding,借鉴Triplet Network结构思想,采用Triplet Loss作为损失函数对GraphSAGE网络进行有监督学习,在考虑跨社交网络对齐用户间相似性的同时,兼顾跨社交网络非对齐用户间差异,更符合跨社交网络用户对齐任务需求;提高了用户识别的准确率,在给定相同社交网络数据集条件下,本实施例可以比仅考虑局部结构或仅利用配置文件信息的方法识别出更多的不同社交网络上的用户,具有较强的弹性拓展能力。
实施例5
结合图3和实施例1-4说明本实施例,本实施例公开一种跨社交网络社交用户对齐方法,在S5中,所述优化训练方式使用有监督的训练方式,损失函数选择Triplet Loss。
在现有研究中,多基于“图中临近节点具有更为相似的向量表示,分离节点向量表示尽可能有所区分”思想,以“无监督”方式进行网络参数学习。然而,上述思想只适用于描述“同一网络内”的节点关系,并不符合“多源异构”网络用户对齐任务的现实需求。因此,本实施例提出使用有监督的训练方式,损失函数选择Triplet Loss(如下公式所示)。该损失函数可同时兼顾“多源网络匹配节点特征向量尽可能相似”、“多源网络非匹配节点特征向量尽可能有所区别”的训练目标;具体损失函数公式为:
Figure BDA0003734138940000091
其中,threshold为阈值,i={1,2}。
训练完成后,得到各节点对应的融合了属性信息及网络拓扑结构信息的用户身份特征Embedding。对于社交网络中新增的用户节点,可利用该节点的属性信息及其邻居信息作为输入,利用训练完成的社交对齐神经网络可快速聚合得到新增节点的身份特征Embedding,以适应社交网络的动态变化特性。
实施例6
结合实施例1说明本实施例,本实施例公开一种跨社交网络社交用户对齐方法,在S6中,采用加权平均的聚合函数,对所述各节点的聚合信息进行拼接与非线性变换。
具体的,在聚合函数选择方面,现有的相关研究多选择“平均聚合”方式对节点的采样邻居节点特征向量进行聚合。然而,本实施例所述社交网络用户关系拓扑结构图G1、G2属于加权网络,不同权重的采样邻居节点对目标节点的信息聚合影响程度不同。因此,本实施例采用“加权平均”的聚合函数,即在对采样邻居节点各维度特征向量进行聚合时,同时考虑采样邻居节点与目标节点间的边权重,以及邻近节点的节点权重,聚合函数如下所示:
Figure BDA0003734138940000092
其中,AGGREGATEk表示第k层聚合函数,ω(eu,n)表示邻居节点u与邻居节点n之间边的连接权重,ω(u)表示节点u的节点权重,ω(n)表示节点n的节点权重,
Figure BDA0003734138940000093
表示邻居节点u的k层聚合函数,
Figure BDA0003734138940000094
对于所有的节点u均计算社交网络用户关系拓扑图G1、G2中节点v的k层邻居采样结果。在非线性变换方面,可选择RELU函数(取最大值函数)作为激活函数。激活函数是用来加入非线性因素的,因为线性模型的表达力不够。
对聚合信息进行拼接与非线性变换,迭代公式从1开始遍历到最大网络层数K停止。具体公式如下:
Figure BDA0003734138940000095

Claims (7)

1.一种跨社交网络社交用户对齐方法,其特征在于,包括以下步骤:
S1、构建用户关系拓扑图:采集N个社交网络的用户属性信息,分别以用户为节点,以用户间的关系为边,构建用户关系拓扑图;
S2、进行数据处理:预设边权重,基于所述用户关系拓扑图,对各用户节点的出入度进行统计,确定节点的出度和入度数量,根据所述边权重和所述节点的出入度计算节点权重;
S3、构建模型:为每个用户节点构建近邻关系模型,设立因子;
S4、确定邻居节点:根据节点权重设置起始用户节点,设立游走规则,根据游走规则对起始用户节点的邻居节点进行采样;根据游走规则遍历节点序列,最终得到用户节点之间的相互关系,并确定起始用户节点的邻居节点;
S5、构建社交对齐神经网络:对图卷积神经网络进行优化训练,得到社交对齐神经网络;
S6、获得社交用户身份对齐结果:利用所述用户关系拓扑图中已知的用户对组成三元组样本并构成三元组样本集合,将所述三元组样本集合中对应的用户特征向量作为所述社交对齐神经网络的输入,通过所述社交对齐神经网络对所述用户关系拓扑图中各节点进行K次邻居节点的信息聚合、拼接与非线性变换,得到跨社交网络的社交用户身份对齐结果;
所述N≥2,所述K≥2,且N和K均为自然数。
2.根据权利要求1所述的一种跨社交网络社交用户对齐方法,其特征在于,在S4中,所述起始用户节点为节点权重最高的用户节点。
3.根据权利要求1所述的一种跨社交网络社交用户对齐方法,其特征在于,在S4中,所述游走规则如下:
从起始用户节点的邻居中选取游走概率最高的邻居节点作为下一跳,所述游走概率为
Figure FDA0003734138930000011
其中,P(v0,vi)表示起始用户节点v0游走到用户节点vi的游走概率,p为一阶因子,ω(e0,i)表示起始用户节点v0与用户节点vi之间边的权重,q是二阶因子,dis(v0,vj)表示用户节点vj到起始用户节点v0的邻居节点数,ε是邻居节点数的阈值,e(dis(v0)≤ε)表示到起始用户节点v0的邻居节点数符合阈值的节点,vj是到起始用户节点v0的邻居节点数符合阈值的节点中的任意一个。
4.根据权利要求1所述的一种跨社交网络社交用户对齐方法,其特征在于,在S4中,所述邻居节点采样遵循的规则为:
若节点实际邻居数量小于所需的邻居样本量,则采用有放回的采样方式;否则,采用无放回的采样方式。
5.根据权利要求1-4任一项所述的一种跨社交网络社交用户对齐方法,其特征在于,在S5中,所述优化训练方法为:设立多层隐含层,将学习得到的所述社交对齐神经网络与用户的身份特征进行两两拼接,输入所述隐含层中进行学习训练,最终输出结果为输入用户对是同一自然人的概率与输入用户对不是同一自然人的概率,从而判断输入用户对是否为同一社会自然人实体。
6.根据权利要求1-4任一项所述的一种跨社交网络社交用户对齐方法,其特征在于,在S5中,所述优化训练方式使用有监督的训练方式,损失函数选择Triplet Loss。
7.根据权利要求1-4任一项所述的一种跨社交网络社交用户对齐方法,其特征在于,在S6中,采用加权平均的聚合函数,对所述各节点的聚合信息进行拼接与非线性变换。
CN202210847062.0A 2022-07-07 2022-07-07 一种跨社交网络社交用户对齐方法 Active CN115080871B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210847062.0A CN115080871B (zh) 2022-07-07 2022-07-07 一种跨社交网络社交用户对齐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210847062.0A CN115080871B (zh) 2022-07-07 2022-07-07 一种跨社交网络社交用户对齐方法

Publications (2)

Publication Number Publication Date
CN115080871A true CN115080871A (zh) 2022-09-20
CN115080871B CN115080871B (zh) 2024-05-17

Family

ID=83259352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210847062.0A Active CN115080871B (zh) 2022-07-07 2022-07-07 一种跨社交网络社交用户对齐方法

Country Status (1)

Country Link
CN (1) CN115080871B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116049695A (zh) * 2022-12-20 2023-05-02 中国科学院空天信息创新研究院 跨社交网络的群体感知与立场分析方法、***和电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180341696A1 (en) * 2017-05-27 2018-11-29 Hefei University Of Technology Method and system for detecting overlapping communities based on similarity between nodes in social network
CN111523933A (zh) * 2020-04-21 2020-08-11 北京嘀嘀无限科技发展有限公司 一种下单概率预测方法、装置、电子设备及可读存储介质
CN112507247A (zh) * 2020-12-15 2021-03-16 重庆邮电大学 一种融合用户状态信息的跨社交网络用户对齐方法
CN112836139A (zh) * 2021-02-03 2021-05-25 杭州师范大学钱江学院 融合用户特征和嵌入学习的跨社交网络用户身份关联方法
CN113987119A (zh) * 2021-09-30 2022-01-28 阿里巴巴(中国)有限公司 一种数据检索方法、跨模态数据匹配模型处理方法和装置
CN114298854A (zh) * 2021-12-23 2022-04-08 上海交通大学 一种联合学习表示和对齐的弱监督用户身份链接方法
CN114692785A (zh) * 2022-05-26 2022-07-01 中国平安财产保险股份有限公司 行为分类方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180341696A1 (en) * 2017-05-27 2018-11-29 Hefei University Of Technology Method and system for detecting overlapping communities based on similarity between nodes in social network
CN111523933A (zh) * 2020-04-21 2020-08-11 北京嘀嘀无限科技发展有限公司 一种下单概率预测方法、装置、电子设备及可读存储介质
CN112507247A (zh) * 2020-12-15 2021-03-16 重庆邮电大学 一种融合用户状态信息的跨社交网络用户对齐方法
CN112836139A (zh) * 2021-02-03 2021-05-25 杭州师范大学钱江学院 融合用户特征和嵌入学习的跨社交网络用户身份关联方法
CN113987119A (zh) * 2021-09-30 2022-01-28 阿里巴巴(中国)有限公司 一种数据检索方法、跨模态数据匹配模型处理方法和装置
CN114298854A (zh) * 2021-12-23 2022-04-08 上海交通大学 一种联合学习表示和对齐的弱监督用户身份链接方法
CN114692785A (zh) * 2022-05-26 2022-07-01 中国平安财产保险股份有限公司 行为分类方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐乾;陈鸿昶;吴铮;黄瑞阳;: "基于带权超图的跨网络用户身份识别方法", 计算机应用, no. 12, 10 December 2017 (2017-12-10) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116049695A (zh) * 2022-12-20 2023-05-02 中国科学院空天信息创新研究院 跨社交网络的群体感知与立场分析方法、***和电子设备
CN116049695B (zh) * 2022-12-20 2023-07-04 中国科学院空天信息创新研究院 跨社交网络的群体感知与立场分析方法、***和电子设备

Also Published As

Publication number Publication date
CN115080871B (zh) 2024-05-17

Similar Documents

Publication Publication Date Title
CN107102989B (zh) 一种基于词向量、卷积神经网络的实体消歧方法
CN110837602B (zh) 基于表示学习和多模态卷积神经网络的用户推荐方法
CN112084373B (zh) 一种基于图嵌入的多源异构网络用户对齐方法
CN109597924B (zh) 一种基于人工免疫网络的微博社交圈挖掘方法及***
CN112036445B (zh) 基于神经张量网络的跨社交网络用户身份识别方法
CN113095948B (zh) 一种基于图神经网络的多源异构网络用户对齐方法
CN113807422B (zh) 融合多特征信息的加权图卷积神经网络评分预测模型
CN109063113A (zh) 一种基于不对称深度离散哈希的快速图像检索方法、检索模型及模型构建方法
CN112836139B (zh) 融合用户特征和嵌入学习的跨社交网络用户身份关联方法
CN114268547B (zh) 一种多属性决策的空中应急通信网络关键节点识别方法
CN112417063B (zh) 一种基于异构关系网络的相容功能项推荐方法
CN115270007B (zh) 一种基于混合图神经网络的poi推荐方法及***
CN112311608B (zh) 一种多层异质网络空间节点表征方法
CN109960755B (zh) 一种基于动态迭代快速梯度的用户隐私保护方法
CN109686402A (zh) 基于动态加权相互作用网络中关键蛋白质识别方法
CN115080871A (zh) 一种跨社交网络社交用户对齐方法
CN116383519A (zh) 基于双加权的自注意力的群组推荐方法
CN109919459B (zh) 一种面向社交网络对象间影响力度量的方法
He et al. Evolutionary community detection in social networks
CN114387005A (zh) 一种基于图分类的套利团伙识别方法
CN106911512B (zh) 在可交换图中基于博弈的链接预测方法及***
Yuan et al. User naming conventions mapping learning for social network alignment
CN110543601B (zh) 一种基于中智集的上下文感知兴趣点推荐方法及***
WO2022267816A1 (zh) 人脸识别方法、装置、电子设备和存储介质
CN110430077B (zh) 基于网络结构特征的匿名路由器识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant