CN113127752B - 基于用户命名习惯映射学习的社交网络账号对齐方法及*** - Google Patents

基于用户命名习惯映射学习的社交网络账号对齐方法及*** Download PDF

Info

Publication number
CN113127752B
CN113127752B CN202110291127.3A CN202110291127A CN113127752B CN 113127752 B CN113127752 B CN 113127752B CN 202110291127 A CN202110291127 A CN 202110291127A CN 113127752 B CN113127752 B CN 113127752B
Authority
CN
China
Prior art keywords
user
network
account
mapping
social
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110291127.3A
Other languages
English (en)
Other versions
CN113127752A (zh
Inventor
刘琰
赵媛
魏亮
郭晓宇
朱世杰
孙娴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Engineering University of PLA Strategic Support Force
Original Assignee
Information Engineering University of PLA Strategic Support Force
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Engineering University of PLA Strategic Support Force filed Critical Information Engineering University of PLA Strategic Support Force
Priority to CN202110291127.3A priority Critical patent/CN113127752B/zh
Publication of CN113127752A publication Critical patent/CN113127752A/zh
Application granted granted Critical
Publication of CN113127752B publication Critical patent/CN113127752B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Business, Economics & Management (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Economics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于社交媒体数据处理技术领域,特别涉及一种基于用户命名习惯映射学习的社交网络账号对齐方法及***,从异构社交网络中基于用户名命名习惯提取网络账号特征,并将网络账号特征转化为特征向量;利用特征向量将不同社交网络用户名特征向量进行映射;依据向量之间的距离差判定用户名是否属于同一个人,实现跨社交网络的账号对齐。本发明基于用户命名习惯实现跨社交网络的账号对齐,提升网络社交账号对齐的准确度,并进一步结合BP神经网络模型数据将社交网络用户名分类问题转换为向量之间的映射问题,通过对比基准方法,本案方案中精确度提高4%,并且在较小的训练集比例和训练次数进行实验比基准方法精度高、收敛快,具有较好的应用前景。

Description

基于用户命名习惯映射学习的社交网络账号对齐方法及***
技术领域
本发明属于社交媒体数据处理技术领域,特别涉及一种基于用户命名习惯映射学习的社交网络账号对齐方法及***。
背景技术
现如今,不同的社交网络提供通信、娱乐、学***均拥有8.5个社交媒体账号。然而由于目前单点登录技术应用还不够广泛,同一个用户在不同社交网络上注册的多个账号之间往往是孤立开来的,用户在不同网络中的信息很少形成互通,同时也缺乏一个可以关联各个社交账户的用户身份标识。在缺乏统一用户身份标识的情况下,将多个社交网络中同属一个真实用户的账户关联起来,是实现跨社交网络用户账号对齐的主要目的,该问题也被称作社交网络节点对齐。社交网络节点对齐是指在多个输入的社交网络之间找到对应的用户,这些在不同社交网络中的对应用户对应真实世界中的同一个自然人。跨社交网络账号对齐是许多跨社交网络应用的基础,是跨不同平台进行深度数据挖掘的前提。人们在不同的社交网络中登记着不同的信息,包括个人信息(自我描述、所在地、兴趣爱好等),好友关系,分享的链接,签到地点,最新状态等等。这些信息在一起构成了用户在互联网上的完整形象。对齐同一用户在不同网络下的多个账号就可以实现数据融合,最大限度地收集、整合和完善用户的个人信息,从而能够对用户海量社交元数据进行充分挖掘,在信息检索、跨平台推荐***、网络安全等实际应用中具有十分重要的现实意义。
现有算法针对不用的应用场景,利用用户公开属性信息或者网络结构信息,在一定程度上解决了用户账号对齐问题。基于属性的方法简单,在一定场景中具有较好效果,但是,这类方法中依赖的用户属性信息大部分是用户自报道属性,出于隐私保护的考虑,这部分信息通常缺失、有噪音,不是特别可靠;另外,社交网络上属性差异性较大、共同属性稀少时,此类方法适用范围受限。而基于网络结构的方法没有考虑网络结构的规则性,由此带来对于网络结构噪音、变化等极其敏感,不具有鲁棒性,导致跨网络用户间关系建模不准确等问题。
发明内容
为此,本发明提供一种基于用户命名习惯映射学习的社交网络账号对齐方法及***,基于用户命名习惯实现跨社交网络的账号对齐,提升网络社交账号对齐的准确度。
按照本发明所提供的设计方案,提供一种基于用户命名习惯映射学习的社交网络账号对齐方法,包含如下内容:
从异构社交网络中基于用户名命名习惯提取网络账号特征,并将网络账号特征转化为特征向量;
利用BP神经网络将不同社交网络用户名特征向量进行映射;依据向量之间的距离差判定用户名是否属于同一个人,实现跨社交网络的账号对齐。
作为本发明基于用户命名习惯映射学习的社交网络账号对齐方法,进一步地,采用用户命名模式从人类局限性、个体外在因素和个体内在因素三个方面提取网络账号特征。
作为本发明基于用户命名习惯映射学习的社交网络账号对齐方法,进一步地,人类局限性至少包含:相同用户名、用户名长度及唯一用户名创建可能性;个体外在因素至少包含:键入的字母与前一个字母使用同一个手键入的占比、键入的字母与前一个字母使用同一个手指键入的占比、使用每个手指按手顺序输入的键的百分比及按在每行上的键的百分比;个体内在因素至少包含:字母分布、用户名字母分布信息熵作为随机程度的度量、最长公共子串、用于检测缩写的归一化最长公共子序列长度、将字符串变成另一个字符串的编辑距离及通过集合中不同元素所占元素比例来衡量的样本之间相似度。
作为本发明基于用户命名习惯映射学习的社交网络账号对齐方法,进一步地,利用已训练的BP神经网络将不同社交网络用户名特征向量进行映射,利用损失函数将特征向量分类问题转化为向量之间的映射问题。
作为本发明基于用户命名习惯映射学习的社交网络账号对齐,进一步地,BP神经网络在训练过程中,设定部分对齐的源网络和目标网络两个异构社交网络账号集和已知锚用户对子集,其中,锚用户对是同时参与两个社交网络的同一个用户的两个账号;利用两个异构社交网络账号集和已知锚用户对子集对BP神经网络的映射函数进行学习,最小化源网络映射节点向量与目标网络节点向量之间距离,使两个向量之间的距离小于设定阈值,且对于锚用户对中匹配的账号,使得映射的源网络用户名特征向量与目标网络用户名特征向量之间距离最小。
作为本发明基于用户命名习惯映射学习的社交网络账号对齐,进一步地,损失函数计算中利用余弦相似性来计算向量之间的距离。
作为本发明基于用户命名习惯映射学习的社交网络账号对齐,进一步地,映射学习过程中通过反向传播算法训练BP神经网络参数,利用已知锚用户对作为监督信息,通过梯度下降算法最小化损失函数。
作为本发明基于用户命名习惯映射学习的社交网络账号对齐,进一步地,针对源网络中的非锚用户节点,将其向量输入已训练的BP神经网络获取映射向量,在目标网络中寻找若干与映射向量最相似的节点来构造该非锚用户节点的存在映射关系的用户对。
作为本发明基于用户命名习惯映射学习的社交网络账号对齐,进一步地,选用Precision@k作为是否属于同一个人的评价指标,表示为:
Figure BDA0002982747970000021
其中,n表示样本中锚用户对节点的数量,
Figure BDA0002982747970000022
用于判断目标网络中与源网络中节点vi对应的节点是否出现在top-k中,k≤n。
进一步地,本发明还提供一种基于用户命名习惯映射学习的社交网络账号对齐***,包含:包含:特征提取模块和账号对齐模块,其中,
特征提取模块,用于从异构社交网络中基于用户名命名习惯提取网络账号特征,并将网络账号特征转化为特征向量;
账号对齐模块,用于利用BP神经网络将不同社交网络用户名特征向量进行映射;依据向量之间的距离差判定用户名是否属于同一个人,实现跨社交网络的账号对齐。
本发明的有益效果:
本发明通过从用户名的命名习惯中提取特征,将社交网络用户名转化为特征向量,将分类问题转化为向量之间的映射问题,依据两个向量之间的距离差确认是否这两个用户名属于同一个人,实现跨社交网络的账号对齐;并结合BP神经网络模型数据将社交网络用户名分类问题转换为向量之间的映射问题,在多个社交网络数据集上的实验结果表明,对比基准方法,提出模型的账号对齐的精度比基准方法中较好的结果提高了4%,并且在较小的训练集比例和训练次数进行实验比基准方法精度高、收敛快,具有较好的应用前景。
附图说明:
图1为实施例中基于用户命名习惯映射学习的社交网络账号对齐方法流程示意;
图2为实施例中BSNA模型框架示意;
图3为实施例中BSNA模型工作流程示意;
图4为实施例中特征重要性分析结果示意;
图5为实施例中数据集上实验性能结果示意;
图6为实施例中合成数据集上实验性能结果分析。
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。
利用社交网络用户名实现账号对齐的现有研究主要基于不同的分类器计算用户名之间的相似度来进行账号对齐,但当可用注释的数量、训练次数受到限制和特征提取不全面时,会降低账号对齐的精度。为此,本发明实施例,提供一种基于用户命名习惯映射学习的社交网络账号对齐方法,参见图1所示,包含如下内容:从异构社交网络中基于用户名命名习惯提取网络账号特征,并将网络账号特征转化为特征向量;利用BP神经网络将不同社交网络用户名特征向量进行映射;依据向量之间的距离差判定用户名是否属于同一个人,实现跨社交网络的账号对齐。
针对在一些社交网站中,如QQ、Foursquare。可利用用户名和相似名称中的冗余信息,认为用户名是一组字母,字符或数字。显示名称是一组单词。提取与其相关的特征,分别从每对用户名/显示名中提取了70个特征。在特征提取之后,构造一条训练数据
Figure BDA0002982747970000031
来训练监督分类器。其次,选择n个监督分类器并根据标记数据
Figure BDA0002982747970000032
训练它们。得到n个训练的基本分类器,基于这些基本分类器,对于一对用户帐户
Figure BDA0002982747970000033
可以获得n个分类结果。然后,基于基本分类器的结果,得到一个新的训练数据集并训练融合分。最后,如果在融合分类器的结果上匹配具有最大概率匹配的用户帐户,则在匹配结果中将出现一些1-n或n-n关系。为了避免这种情况的发生,在用户识别中添加一对一约束。但,不管是对于基本分类器还是融合分类器都对标记数据数量、正负实例比例以及训练次数有很大的依赖;在特征提取方面,从每对用户名/显示名称中提取与公共子字符串,公共子序列和编辑距离相关等特征,但是特征提取考虑不够全面,无法全面表征用户的命名习惯。而本案实施例中仅利用用户名来提取较为全面的特征进而实现社交网络账号对齐。
用户是社交网络应用的使用者参与者,是生活在现实世界中的个人实体;账号是用户在使用社交网络应用时用于表示身份的载体。同时参与两个社交网络的用户被定义为锚用户(或者锚节点),而其他用户则是非锚用户(非锚节点)。可设定三元组S={V,N,U}来表示一个社交网络中的用户名,其中V={v1,v2,…,vn}是包含n个用户的用户集。N表示用户名集合,每个用户vi由d维特征向量ui表示,它形成特征矩阵U∈Rd×n。给定两个部分对齐的社交网络账号集S={VS,NS,US},T={VT,NT,UT},和已知锚用户对子集
Figure BDA0002982747970000041
Figure BDA0002982747970000042
存在社交网络账号的映射关系。通过寻找所有其他存在映射关系的身份对
Figure BDA0002982747970000043
Figure BDA0002982747970000044
其中vs和vt属于同一自然人。
本案实施例中,可进一步利用神经网络,将现有研究中的分类问题转换为向量映射,用于社交网络账号对齐的映射功能学习。给定源网络用户名特征向量us,目标网络特征向量为ut和锚用户对
Figure BDA0002982747970000045
映射点定义为:f(u),研究的问题可以理解为函数f的学习,用户账号对齐的目标是学习一个满足以下两个条件的映射函数f:(1)f应该能够最小化源网络映射节点向量f(us)与目标网络节点向量ub之间的距离,使两个向量之间能够尽可能的接近;(2)对于X中匹配的身份对
Figure BDA0002982747970000046
f应该使映射的源网络用户名特征向量
Figure BDA0002982747970000047
与目标网络用户名特征向量
Figure BDA0002982747970000048
之间的距离最小。在训练过程之后,给定源网络用户vs,可以根据目标网络中以匹配用户vt的地面距离d(f(us),ut)选择其候选者。较小的地面距离意味着两个身份成为同一自然人的机会更大。社交网络用户名实现账号对齐的现有研究主要基于不同的分类器计算用户名之间的相似度来进行账号对齐,但当可用注释的数量和训练次数受到限制时,这可能会导致不良表现,特征提取不全面也会降低对齐的精度。因此针对用户命名习惯,参见图2所示,引入BP神经网络映射学习模型实现社交网络账号对齐。
采用Zafarani等分析的用户命名模式,从人类局限性(human limitations)、个体外在因素(exogenous)、个体内在因素(endogenous)三个主要大的方面提取了358维的向量来表征这些模式,将社交网络用户名向量化。具体特征如下所示:
Human limitations(人类局限性):(1)相同用户名,(2)用户名长度,(3)唯一用户名创建可能性
Exogenous(个体外在因素):(4)键入的字母与前一个字母使用同一个手键入的占比,(5)键入的字母与前一个字母使用同一个手指键入的占比,(6)使用每个手指按手顺序输入的键的百分比,(7)按在行上的键的百分比:顶行、主行、底行和数字行
endogenous(个体内在因素):(8)字母分布,(9)计算用户名字母分布的信息熵作为它们随机程度的度量,(10)最长公共子串,(11)归一化的最长公共子序列长度,用于检测缩写(12)编辑距离,看至少需要多少次的处理才能将一个字符串变成另一个字符串。(13)jaccard距离:用两个集合中不同元素所占元素的比例来衡量两个样本之间的相似度。
基于以上的十三类特征,每一类特征通过几维的向量来表征,最终可将社交网络用户名转化为一条358维的模型输入向量。
BP算法的基本思想是:学习过程由信号的正向传播与误差的反向传播两个过程组成。正向传播时,输入样本从输入层传入,经各隐含层处理后,传向输出层,若输出层的实际输出与期望的输出不符合要求,则转入误差的反向传播阶段。误差反向传播是将输出误差以某种形式通过隐含层向输入层逐层反向传播,并将误差分摊给各层的所有单元,从而获得各层单元的误差信号,此误差信号即作为修正各单元的依据。这种信号正向传播与误差反向传播的各层权值调整过程,是周而复始地进行的。权值不断调整的过程,也就是网络的学习训练过程。此过程一直进行到网络输出的误差减少到可接受的程度或进行到预先设定的学习次数为止。其中的误差反向传播算法是迄今最成功的神经网络学习算法,现实任务中使用神经网络时,大多是在使用BP算法进行训练。在解决社交网络账号对齐问题上能够反复调整权重,学习得到本案方案需要的映射函数,在获得每个社交网络的节点向量表示空间后,BSNA使用BP算法通过有监督的方式训练多层感知机,旨在得到两个向量空间之间的非线性映射函数f。
如图3所示,给定任意锚节点对
Figure BDA0002982747970000051
以及它们的向量表示
Figure BDA0002982747970000052
首先通过
Figure BDA0002982747970000053
将节点向量
Figure BDA0002982747970000054
映射到另一个向量空间,通过最小化两个向量
Figure BDA0002982747970000055
Figure BDA0002982747970000056
之间的距离来实现账号对齐。为了计算向量之间的距离,可以采取多种方式,如欧几里得距离、切比雪夫距离和余弦距离等。本案实施例中,可进一步采用余弦距离,将损失函数形式化表示如下:
Figure BDA0002982747970000057
其中cos(·)表示两个向量之间的余弦相似性,范围为[-1,+1],值越大说明两个向量差异性越小。
已知锚用户的集合为X,由锚节点构成的子向量空间分别用
Figure BDA0002982747970000058
Figure BDA0002982747970000059
表示,其中∣X∣为锚节点对的数量,则映射学习过程的目标函数可以形式化表示为:
Figure BDA00029827479700000510
其中W,b分别是通过反向传播算法训练神经网络后得到的权重参数和偏置参数。
模型训练。将已知的锚节点对作为监督信息,通过随机梯度下降算法最小化损失函数,从而学习得到映射函数f,如图3中的①②③④。
构造非锚节点的top-k。针对源网络中的非锚节点vs,首先将其向量表示f(us)输入到已经训练好的BP神经网络模型,得到映射向量f(us);然后在目标网络中找出k个与f(us)最相似的节点,即构成节点vs的top-k,如图3中⑤⑥。
进一步地,基于上述方法,本发明实施例还提供一种基于用户命名习惯映射学习的社交网络账号对齐***,包含:包含:特征提取模块和账号对齐模块,其中,
特征提取模块,用于从异构社交网络中基于用户名命名习惯提取网络账号特征,并将网络账号特征转化为特征向量;
账号对齐模块,用于利用BP神经网络将不同社交网络用户名特征向量进行映射;依据向量之间的距离差判定用户名是否属于同一个人,实现跨社交网络的账号对齐。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
为进一步验证本案方案有效性,下面结合实验数据做进一步解释说明:
数据集制作过程中,用户可以将自己其他的身份(用户账号)列出在不同的网站上。这可以看作是模型学习任务的标记数据,提供了身份之间的映射。例如:利用Instagram访问URL,http://Instagram.com/user/ID以获取其公开个人资料。Instagram为用户提供跨站点链接功能。用户可以将他的Instagram账号连接到Facebook和Twitter。这使得有机会在Instagram/Twitter/Facebook上访问用户的用户名。首先选择一个用户账号,获取该账号的粉丝(Followers)账号和关注(Following)账号;然后对得到的账号进行同样操作,以获取尽可能多的用户账号信息;最后对每个账号的主页信息进行爬取,获得其所有的其他社交网站的关联账号(或其它有效信息)。如表1所示即为获取的社交网络账号。
表1社交网络数据集(X为跨网络的身份对匹配数)
Figure BDA0002982747970000061
为了解决跨社交网络账号对齐问题针对不同的应用场景提出了许多优秀的账号对齐算法。为了衡量不同算法的性能,需要使用统一的评价指标来度量。本案实施例中,可将账号对齐问题转化为相似性推荐问题,选用Precision@k(P@k)作为评价指标。Precision@k(P@k)指标是信息检索领域、推荐***以及排序问题中常用的评价指标。可按照下面的方式进行定义:
Figure BDA0002982747970000062
其中n表示测试集中锚节点的数量,
Figure BDA0002982747970000063
用于判断目标网络中与源网络中节点vi对应的节点是否出现在top-k(k≤n)中,如果出现在top-k中则为1,否则为0。
将模型与以下经典的方法进行比较:MOBIUS(Modeling Behavior forIdentifying Users across Sites)[12],一种基于用户在社交媒体上展示的行为模式,并且植根于社会学和心理学的行为理论,分析社交网络用户命名习惯,进行建模的方法。UISN-UD(User Identification across Social Network based on Username andDisplay name),一种基于用户名和显示名称的社交网络用户识别的方案,训练两阶段分类框架,根据提取的特征解决用户识别问题。对于本案方案中对应算法BSNA,采用四层神经网络(2个隐藏层),应用反向传播算法训练源网络和目标网络之间的非线性映射函数。两个隐藏层的维度分别设置为500和800,输入层维度和输出层维度与节点向量表示的维度保持一致,学习率为0.001,batch size设置为16。
针对不同的特征进行重要性分析,如图4所示,个体内在因素能够更好地提取用户名中的关键信息,在仅基于这些特征在Twitter-Facebook数据集上进行实验,Precision@1仍有95.9%。
了获得最佳实验效果的参数设置,首先评估几个基本参数对实验结果的影响,如用于训练的锚节点比例r、训练迭代次数i。首先选定Twitter-Facebook数据集,每次改变一个参数,保持另一个参数不变。图5(a)(b)展示了实验结果随实验参数变化的情况。对于账号对齐算法,用于训练的锚节点的比例r是一个重要的参数。如图5(a)所示,随着r从5%增加到90%,BSNA算法的性能明显优于其他基准方法。即使用于训练的锚节点比例只有0.1或0.2时,BSNA算法的表现也非常出色。从图5(b)可以看出各个算法性能随迭代次数的变化。与其他两个基准方法相比,BSNA算法不仅更加准确,而且收敛速度更快。
基于性能分析,本案实施例中可将实验参数设置如下:用于训练的锚节点比例r为0.8,训练迭代次数i分别为10万次,用Precision@1来比较算法的性能,如表2所示。
表2BSNA及基准方法实验结果统计
Figure BDA0002982747970000071
通过实验结果可以明显地看出在多个数据集上本案方案表现优于基准方法,对比基准方法中最优的结果都高出了大概四个百分点。但是在Twitter-Google数据集中Precision@1的值较其他数据集而言稍有减小,可能主要是因为Twitter-Google数据集中存在除英文以外的其他语种,因此对实验结果产生了一些影响。
为分析上述数据集精度不同的原因,针对社交网络用户名中的不同构成,分别提取用户名中含有英文以外其他语种和数字的用户对各1000对构成两个数据集:language和number,并在两个数据集上进行实验,如图6所示,可以看到和一般数据集相比,英文以外的其他语种和数字对于实验的精度都会有一定的影响,其中英文外其他语种的影响最大,但是和两种基准方法进行比较时,本案方案在这个两个数据集上仍具有较好的结果。BSNA能有效的解决社交网络账号对齐:在不同社交网络上的用户名通常包含大量信息冗余,这类数据不涉及个人隐私,并且易于访问,因此可以基于尽可能少的属性配置文件,避免获取丰富社交网络用户信息的问题;利用BP神经网络将所研究的问题转化为不同社交网络中的映射问题,最小化用户名特征向量的距离,一定程度上解决了对已标记用户对和训练迭代次数的依赖。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (8)

1.一种基于用户命名习惯映射学习的社交网络账号对齐方法,其特征在于,包含如下内容:
从异构社交网络中基于用户名命名习惯提取网络账号特征,并将网络账号特征转化为特征向量;
利用BP神经网络将不同社交网络用户名特征向量进行映射;依据向量之间的距离差判定用户名是否属于同一个人,实现跨社交网络的账号对齐;
采用用户命名模式从人类局限性、个体外在因素和个体内在因素三个方面提取网络账号特征;
人类局限性至少包含:相同用户名、用户名长度及唯一用户名创建可能性;个体外在因素至少包含:键入的字母与前一个字母使用同一个手键入的占比、键入的字母与前一个字母使用同一个手指键入的占比、使用每个手指按手顺序输入的键的百分比及按在每行上的键的百分比;个体内在因素至少包含:字母分布、用户名字母分布信息熵作为随机程度的度量、最长公共子串、用于检测缩写的归一化最长公共子序列长度、将字符串变成另一个字符串的编辑距离及通过集合中不同元素所占元素比例来衡量的样本之间相似度;
设定三元组S={V,N,U}来表示社交网络中的用户名,其中,V为包含n个用户的用户集,且V={v1,v2,…,vn};N表示用户名集合,每个用户vi由d维特征向量ui表示,d维特征向量ui形成特征矩阵U,且U∈Rd×n,R为n个用户的d维特征向量组成的集合;
对于源网络社交网络账号集S和目标网络社交账号集T及部分对齐已知锚用户对子集X,S={VS,NS,US},T={VT,NT,UT},
Figure FDA0004005035870000011
利用BP神经网络来最小化源网络映射节点特征向量f(us)与目标网络节点特征向量ub之间的距离,使映射的源网络用户名特征向量
Figure FDA0004005035870000012
与目标网络用户名特征向量
Figure FDA0004005035870000013
之间的距离最小,依据给定源网络用户vs与目标网络中用户vt的匹配地面距离d(f(us),ut)来实现源网络和目标网络不同社交网络的用户账号对齐。
2.根据权利要求1所述的基于用户命名习惯映射学习的社交网络账号对齐方法,其特征在于,利用已训练的BP神经网络将不同社交网络用户名特征向量进行映射,利用损失函数将特征向量分类问题转化为向量之间的映射问题。
3.根据权利要求2所述的基于用户命名习惯映射学习的社交网络账号对齐方法,其特征在于,BP神经网络在训练过程中,设定部分对齐的源网络和目标网络两个异构社交网络账号集和已知锚用户对子集,其中,锚用户对是同时参与两个社交网络的同一个用户的两个账号;利用两个异构社交网络账号集和已知锚用户对子集对BP神经网络的映射函数进行学习,最小化源网络映射节点向量与目标网络节点向量之间距离,使两个向量之间的距离小于设定阈值,且对于锚用户对中匹配的账号,使得映射的源网络用户名特征向量与目标网络用户名特征向量之间距离最小。
4.根据权利要求2或3所述的基于用户命名习惯映射学习的社交网络账号对齐方法,其特征在于,损失函数计算中利用余弦相似性来计算向量之间的距离。
5.根据权利要求3所述的基于用户命名习惯映射学习的社交网络账号对齐方法,其特征在于,映射学习过程中通过反向传播算法训练BP神经网络参数,利用已知锚用户对作为监督信息,通过梯度下降算法最小化损失函数。
6.根据权利要求3所述的基于用户命名习惯映射学习的社交网络账号对齐方法,其特征在于,针对源网络中的非锚用户节点,将其向量输入已训练的BP神经网络获取映射向量,在目标网络中寻找若干与映射向量最相似的节点来构造该非锚用户节点的存在映射关系的用户对。
7.根据权利要求6所述的基于用户命名习惯映射学习的社交网络账号对齐方法,其特征在于,选用Precision@k作为是否属于同一个人的评价指标,表示为:
Figure FDA0004005035870000021
其中,n表示样本中锚用户对节点的数量,
Figure FDA0004005035870000022
用于判断目标网络中与源网络中节点vi对应的节点是否出现在top-k中,k≤n。
8.一种基于用户命名习惯映射学习的社交网络账号对齐***,其特征在于,基于权利要求1所述的方法实现,包含:特征提取模块和账号对齐模块,其中,
特征提取模块,用于从异构社交网络中基于用户名命名习惯提取网络账号特征,并将网络账号特征转化为特征向量;
账号对齐模块,用于利用BP神经网络将不同社交网络用户名特征向量进行映射;依据向量之间的距离差判定用户名是否属于同一个人,实现跨社交网络的账号对齐。
CN202110291127.3A 2021-03-18 2021-03-18 基于用户命名习惯映射学习的社交网络账号对齐方法及*** Active CN113127752B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110291127.3A CN113127752B (zh) 2021-03-18 2021-03-18 基于用户命名习惯映射学习的社交网络账号对齐方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110291127.3A CN113127752B (zh) 2021-03-18 2021-03-18 基于用户命名习惯映射学习的社交网络账号对齐方法及***

Publications (2)

Publication Number Publication Date
CN113127752A CN113127752A (zh) 2021-07-16
CN113127752B true CN113127752B (zh) 2023-04-07

Family

ID=76773548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110291127.3A Active CN113127752B (zh) 2021-03-18 2021-03-18 基于用户命名习惯映射学习的社交网络账号对齐方法及***

Country Status (1)

Country Link
CN (1) CN113127752B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036445A (zh) * 2020-08-06 2020-12-04 中国人民解放军战略支援部队信息工程大学 基于神经张量网络的跨社交网络用户身份识别方法
CN112084335A (zh) * 2020-09-09 2020-12-15 电子科技大学 一种基于信息融合的社交媒体用户账号分类方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180144256A1 (en) * 2016-11-22 2018-05-24 Facebook, Inc. Categorizing Accounts on Online Social Networks
US20200073953A1 (en) * 2018-08-30 2020-03-05 Salesforce.Com, Inc. Ranking Entity Based Search Results Using User Clusters
CN110532436B (zh) * 2019-07-17 2021-12-03 中国人民解放军战略支援部队信息工程大学 基于社区结构的跨社交网络用户身份识别方法
CN111931903B (zh) * 2020-07-09 2023-07-07 北京邮电大学 一种基于双层图注意力神经网络的网络对齐方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036445A (zh) * 2020-08-06 2020-12-04 中国人民解放军战略支援部队信息工程大学 基于神经张量网络的跨社交网络用户身份识别方法
CN112084335A (zh) * 2020-09-09 2020-12-15 电子科技大学 一种基于信息融合的社交媒体用户账号分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ABNE: An Attention-Based Network Embedding for User Alignment Across Social Networks;Li Liu etc.;《IEEE Access》;20190217;第23595-23604页 *
Learning to Map Social Network Users by Unified Manifold Alignment on Hypergraph;Wei Zhao etc.;《IEEE Transactions on Neural Networks and Learning Systems》;20180403;第5834-5845页 *
多社交网络用户身份识别算法研究;孟波;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20160315;第I138-117页 *

Also Published As

Publication number Publication date
CN113127752A (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
Heidari et al. Deep contextualized word embedding for text-based online user profiling to detect social bots on twitter
Malhotra et al. Studying user footprints in different online social networks
Chen et al. Ambiguously labeled learning using dictionaries
Zhao et al. A synergistic approach for graph anomaly detection with pattern mining and feature learning
Zhang et al. Your age is no secret: Inferring microbloggers' ages via content and interaction analysis
Li et al. A deep dive into user display names across social networks
CN112084373B (zh) 一种基于图嵌入的多源异构网络用户对齐方法
KR102223382B1 (ko) 다중타입 엔티티에 기반한 지식 보완 방법 및 장치
Shah et al. Comparative analysis of psychometric prediction system
Cao et al. HitFraud: a broad learning approach for collective fraud detection in heterogeneous information networks
CN112559747A (zh) 事件分类处理方法、装置、电子设备和存储介质
Sudhish et al. Adaptive fusion of biometric and biographic information for identity de-duplication
Abdzaid Atiyah et al. KC‐Means: A Fast Fuzzy Clustering
Yuan et al. User naming conventions mapping learning for social network alignment
Ye et al. An End‐to‐End Rumor Detection Model Based on Feature Aggregation
Xing et al. Exploiting Two‐Level Information Entropy across Social Networks for User Identification
Deng et al. A multiuser identification algorithm based on internet of things
Zhang et al. An attention-based word-level interaction model for knowledge base relation detection
Viswam et al. An efficient bitcoin fraud detection in social media networks
CN113127752B (zh) 基于用户命名习惯映射学习的社交网络账号对齐方法及***
Wahid et al. Human micro-expression: A novel social behavioral biometric for person identification
Yang et al. An academic social network friend recommendation algorithm based on decision tree
Xue et al. Towards gene function prediction via multi-networks representation learning
Jarrahi et al. FR-Detect: A multi-modal framework for early fake news detection on social media using publishers features
Chen et al. Community Detection Based on DeepWalk Model in Large‐Scale Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant