CN115965795A - 一种基于网络表示学习的深暗网群体发现方法 - Google Patents

一种基于网络表示学习的深暗网群体发现方法 Download PDF

Info

Publication number
CN115965795A
CN115965795A CN202211626368.XA CN202211626368A CN115965795A CN 115965795 A CN115965795 A CN 115965795A CN 202211626368 A CN202211626368 A CN 202211626368A CN 115965795 A CN115965795 A CN 115965795A
Authority
CN
China
Prior art keywords
user
network
deep
attribute
view
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211626368.XA
Other languages
English (en)
Inventor
柳厅文
张盼盼
王学宾
时金桥
贾亚慧
徐永秀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN202211626368.XA priority Critical patent/CN115965795A/zh
Publication of CN115965795A publication Critical patent/CN115965795A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于网络表示学习的深暗网群体发现方法,包括深暗网异质信息网络构建和基于自编码器的多视图深度嵌入式聚类;所述深暗网异质信息网络构建包含构建属性异质信息网络多种类型的节点和构建属性异质信息网络的多种类型的关系;所述基于自编码器的多视图深度嵌入式聚类,包含基于元路径的用户多视图构建、基于自编码器的用户嵌入表示学习和基于KL散度的自监督聚类;最终联合学习所述基于自编码器的用户嵌入表示学习和所述基于KL散度的自监督聚类,联合优化重建损失与聚类损失。对于一目标深暗网,利用优化后的编码器、基于KL散度的自监督聚类模块,得到目标深暗网每一用户的软标签分布。本发明可获得较好的群体发现结果。

Description

一种基于网络表示学习的深暗网群体发现方法
技术领域
本发明属于计算机网络安全技术领域,具体涉及一种基于网络表示学习的深暗网群体发现方法。
背景技术
深暗网群体发现是指在深暗网隐匿社交网络中,基于采集积累的社交网络数据,从大规模用户中识别出具有相似特性或相似目标的用户集合或社区,具有巨大的理论意义与应用价值。对深暗网隐匿社交网络进行群体发现,不仅可从网络结构、节点属性等角度对其进行全面剖析,为研究人员了解深暗网隐匿社交网络的组织架构提供理论依据,还可辅助人们理解深暗网中非法活动的形成与发展,同时也为执法部门治理深暗网空间提供重要支撑,使其维护好网络环境,保证社会稳定。
现有的网络群体发现方法主要是从单一的角度对网络全体进行分析挖掘,适用于丰富的属性信息或稠密的社交关联等情况的社交网络。然而,在深暗网隐匿社交网络中,出于匿名与隐私保护等策略,用户通常缺少标签信息和属性描述,绝大多数用户仅有用户昵称信息,不存在明网微博用户的地区、性别、职业等可直接用于属性分析的信息特征,同时,用户在深暗网隐匿社交网络中交流直白,且多为短文本内容,所含信息有限,给直接使用现有的基于用户属性特征的群体发现方法带来极大挑战。此外,深暗网用户间无明显的直接社交关联关系,如明网的关注与粉丝等关系,用户间的显式交互通常也较少,如点赞和转发等,这些致使构建的深暗网用户同质网络结构稀疏且节点维度高,无法直接基于网络结构信息有效挖掘用户群体。
基于上述背景,针对深暗网隐匿社交网络用户缺少标签信息和属性描述且社交关联稀疏带来的难以有效划分群体的问题,深暗网群体发现的重难点在于如何充分挖掘并融合深暗网隐匿社交网络的用户属性特征与网络结构特征以辅助准确发现深暗网隐匿社交网络群体。
发明内容
本发明的目的在于有效缓解因深暗网用户社交关联稀疏且无标签信息而导致的难以划分群体问题,而提供一种基于网络表示学习的深暗网群体发现方法,同时考虑群体的属性相似性与结构内聚性分析与划分网络用户,充分利用与挖掘深暗网隐匿社交网络中所有可用信息,可以端到端的方式进行无监督深暗网群体发现。
本发明的技术方案为:
一种基于网络表示学习的深暗网群体发现方法,其步骤包括:
1)获取深暗网中的用户、消息、群组,从每条消息中挖掘出敏感实体,以及基于消息数据利用主题建模模型挖掘出主题实体;然后将所得用户、群组、消息、主题实体和敏感实体分别作为所述深暗网异质信息网络中的节点;然后根据各节点之间的关系在对应节点之间建立边连接,生成深暗网异质信息网络;所述关系包含用户与群组之间的从属关系、用户与消息之间的发布关系、消息与消息之间的转发关系、用户与主题之间的讨论关系和消息与敏感实体之间的包含关系;
2)从所述深暗网异质信息网络中抽取多条元路径;不同元路径从不同的角度描述用户间的复杂关系;基于每一元路径构建一单视图用户属性图,并生成每一单视图用户属性图的属性特征矩阵;所述单视图用户属性图中的节点为用户,边为基于元路径的复杂关系;
3)利用自动编码器的编码器对每一单视图用户属性图的属性特征矩阵、网络结构矩阵进行编码,得到一用户低维向量表示;然后自动编码器的解码器对每一用户低维向量表示进行解码重建对应的网络结构矩阵和属性特征矩阵;
4)选择注意力机制对所得各用户低维向量表示进行融合,生成统一全面的用户表示;
5)对步骤4)所得用户表示输入基于KL散度的自监督聚类模块,得到每一用户的软标签分布;
6)基于目标函数对所述自动编码器、基于KL散度的自监督聚类模块进行优化;其中,γ是平衡系数,m为单视图用户属性图的个数,聚类损失函数Lc=KL(E||H),H是聚类的软标签分布,E是基于H的目标分布;第m个单视图用户属性图Gm对应的属性特征矩阵为X、网络结构矩阵为对应的用户低维向量表示为Zm;基于Zm使用内积方法重建Gm对应的网络结构矩阵基于Zm使用反卷积方法重建Gm对应的属性特征矩阵Gm对应的优化所述自动编码器的损失函数为交叉熵函数均方误差
7)对于一目标深暗网,生成该目标深暗网对应的多个单视图用户属性图;利用优化后的所述自动编码器的编码器对每一单视图用户属性图的属性特征矩阵、网络结构矩阵进行编码,得到一用户低维向量表示并将其输入优化后的所述基于KL散度的自监督聚类模块,得到每一用户的软标签分布。
进一步的,所述单视图用户属性图的网络结构采用邻接矩阵表达,第m个单视图用户属性图Gm的邻接矩阵若单视图用户属性图Gm中用户间有边,则否则设N为单视图用户属性图Gm中的用户数量,则单视图用户属性图Gm的属性特征矩阵为其中是拼接操作,uN是第N个用户的属性特征向量。
进一步的,使用图卷积神经网络GCN来聚合邻居信息以得到低维向量表示 重建的属性特征矩阵其中,IN是单位矩阵,的度矩阵,W表示图卷积神经网络GCN的参数矩阵,Wg为反卷积层中训练的参数矩阵,δ是解码器的激活函数。
进一步的,统一全面的用户表示其中,表示节点i在第k个单视图用户属性图下的嵌入表示,节点i在第k个单视图用户属性图下的注意力权重为 ωk是第k个单视图用户属性图下的注意力向量,是节点i在所有单视图用户属性图下的向量拼接表示。
进一步的,聚类损失其中,hij是Zi与群体中心μj间的相似性,hik是Zi与群体中心μk间的相似性。
进一步的,所述属性特征向量中的信息包括用户群组个数、消息总数、消息平均长度、消息总长度。
进一步的,利用k-means算法得到初始化的聚类群体中心
一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行上述方法中各步骤的指令。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明提出了一个基于网络表示学习的深暗网群体发现方法,所述方法包括深暗网异质信息网络构建和基于自编码器的多视图深度嵌入式聚类,整体框架如图1所示。
所述深暗网异质信息网络构建包含构建属性异质信息网络多种类型的节点和构建属性异质信息网络的多种类型的关系。具体包括以下子步骤:
(a)所述构建属性异质信息网络多种类型的节点,定义5种节点类型,包含用户、群组、消息、主题实体和敏感实体。针对所述用户节点,充分挖掘其可用的属性信息,并将所有的属性特征融合,为每个用户形成一个属性特征向量。
(b)所述构建属性异质信息网络的多种类型的关系,定义5种不同类型的边关系,包含用户与群组之间的从属关系、用户与消息之间的发布关系、消息与消息之间的转发关系、用户与主题之间的讨论关系和消息与敏感实体之间的包含关系。
最终,基于所述的5类节点和5种不同类型的边关系构建出深暗网异质信息网络G,其网络模式如图1上半部分所示。
所述基于自编码器的多视图深度嵌入式聚类,包含基于元路径的用户多视图构建、基于自编码器的用户嵌入表示学习和基于KL(Kullback-Leibler)散度的自监督聚类。具体包括以下子步骤:
(a)所述基于元路径的用户多视图构建,先定义并抽取实体节点之间的多条元路径。不同的元路径从不同的角度描述了用户间的复杂关系。基于所述多条元路径,可构建一个用户多视图网络,由多个单视图用户属性图构成。其中每个单视图用户属性图都是根据用户之间的一条元路径进行构建的,本专利设计了多条不同的元路径,由此得到多个不同视图。通过构建多个不同的单视图用户属性图可以从多个角度建模用户之间复杂关系。每个单视图用户属性图里,节点为用户,边为基于元路径的复杂关系,即如果两个用户节点可通过某元路径相连,则两节点间有边存在。每个单视图用户属性图的网络结构可由其邻接矩阵表达,即若在当前视图Gm中用户间有边,矩阵Am中第i行、第j列元素否则假设N为用户数量,X为属性特征矩阵,则每个单视图用户属性图Gm的属性特征矩阵X可表示为:
其中是拼接操作,ui∈Rd是第i个用户的d维属性特征向量。
(b)所述基于自编码器的用户嵌入表示学习主要是使用自编码器来无监督地学习每个单视角用户属性图中的用户低维向量表示。具体来说,给定第m个视图下的属性特征矩阵X与网络结构矩阵Am,先使用自动编码器的编码器对两者进行编码学习,为充分融合属性特征与网络结构,在编码阶段,我们使用图卷积神经网络GCN来聚合邻居信息以得到潜在空间的低维向量表示Zm;在解码阶段,我们同时考虑网络结构与属性特征的重建,并将两者的重建误差结合在一起,统一优化。
所述编码阶段,在给定m视图下的属性特征矩阵X与结构特征Am,利用GCN作为编码器,可得到潜在的用户表示Zm
其中IN是单位矩阵,的度矩阵,即W表示图卷积神经网络GCN的参数矩阵。
所述解码阶段,不仅使用内积方法重建节点的结构关系,还使用反卷积方法重建节点的属性信息。所述重建节点的结构关系是基于编码器得到的潜在表示Zm,使用内积方法重建节点的结构关系,则重建的邻接矩阵所述重建节点的属性信息主要是通过放大节点与其邻居之间的差异,以锐化邻居特征的方式来计算节点的属性特征,重建后的节点属性特征其中Wg为反卷积层中训练的参数矩阵,δ是解码器的激活函数,可用sigmoid函数或恒等函数。
在得到重建的邻接矩阵与节点属性特征后,我们优化两者与原邻接矩阵与节点属性特征之间的误差,其中结构误差使用交叉熵函数优化,属性误差使用均方误差优化,则统一后的损失函数为:
在利用自编码器学***均融合无法学习到不同元路径对用户表示的影响,因此选择注意力机制来有效融合,通过自动学习不同视图的注意力权重来得到鲁棒的用户表示。
每个节点在不同视图下的注意力权重定义αi,k如下:
其中ωk是需训练学习的视图k下的注意力向量,是节点i所有视图下的向量拼接表示。注意力权重值越大,代表该视图对节点表示影响越大,即该视图下的信息量越高。
给定节点在每个单视图下的潜在向量表示,结合上述的注意力权重,融合全部视图信息的用户节点潜在表示为:
其中表示节点i在视图k下的嵌入表示。
(c)所述基于KL散度的自监督聚类,基于所述融合全部视图信息的用户节点潜在表示,完成网络群体划分。受深度嵌入式聚类的启发,本发明引入基于KL散度的自训练聚类模块,利用“高度自信”的节点作为软标签来监督图聚类,以逐步优化嵌入表示,便于群体发现。具体地,将所述融合全部视图信息的用户节点潜在表示输入到一个深度嵌入聚类模块中,该模块采用以测量两个概率分布间的差异性为目标的KL散度为优化的聚类损失Lc,具体定义为:
其中H是聚类的软标签分布,hij是潜在表示Zi与群体中心μj间的相似性,可通过学生T分布计算得到:
E是基于H的目标分布,eij可利用以下公式计算得到:
需要说明的是,在联合训练前,我们要先单独预训练自动编码器得到一个有意义的潜在嵌入表示,然后利用k-means算法得到初始化的聚类群体中
最终,本发明联合学习所述基于自编码器的用户嵌入表示学习和所述基于KL散度的自监督聚类,联合优化重建损失与聚类损失,最终的目标函数定义为:
其中,γ>0是控制两者间的平衡系数,m是多视图网络的视图个数。本文使用随机梯度下降和反向传播优化目标函数,并更新相关参数。最终,聚类结果可从最后优化的H标签分布中得到,用户节点i的相应预测标签可通过ri=argmaxjhij得到。
对于一目标深暗网,生成该目标深暗网对应的多个单视图用户属性图;利用优化后的所述自动编码器的编码器对每一单视图用户属性图的属性特征矩阵、网络结构矩阵进行编码,得到一用户低维向量表示并将其输入优化后的所述基于KL散度的自监督聚类模块,得到每一用户的软标签分布。
本发明的优点如下:
1.本方法可以端到端的方式进行无监督深暗网群体发现,有效缓解因深暗网用户社交关联稀疏且无标签信息而导致的难以划分群体问题。
2.本方法使用属性异质信息网络对其建模,并利用元路径来捕获用户间的潜在关联关系,可充分挖掘深暗网隐匿社交网络中的用户属性特征与关联关系。
3.本方法提出一种基于自编码器的多视图深度嵌入式聚类模型,同时学习用户的低维向量表示与聚类分配,无需标签指导地进行群体挖掘。
4.本方法所提模型分融合用户属性特征与网络结构特征,并同时考虑聚类目标,可获得较好的群体发现结果。
附图说明
图1是本发明的方法流程图。
具体实施方式
下面结合附图对本发明进行进一步详细描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
本发明提出一种基于网络表示的深暗网群体发现方法可应用于社交网络中的群体发现。本实例以Telegram加密通信真实数据为例,说明本发明的具体应用,完成对深暗网的群体发现。表1给出了相关实体统计,为验证所提方法的有效性,我们对数据集内560个用户进行了手动群体划分。通过人工分析与标注,这些用户根据其社交目标与关联被标注为7类群体,分别为卖家群体、买家群体、闲聊群体、咨询群体、推广群体、私聊群体、其他群体。
针对社交网络群组中的用户,可利用本方法对群组中的用户划分为不同的群体,下面是具体步骤:
1.深暗网异质信息网络构建,具体包括以下子步骤:
(a)构建属性异质信息网络多种类型的节点
采集到的Telegram数据初始包含用户简介信息、群组简介信息以及用户的消息信息三种节点信息。受深暗网匿名机制保护,用户简介信息与群组简介信息仅有用户名与群组名可做属性信息使用。针对用户的消息数据,我们进行数据清洗,对消息内容进行图标转换、标点符号去除等操作。对每个用户抽取与统计其基本属性信息,主要包括用户群组个数、消息总数、消息平均长度、消息总长度等。为丰富用户属性特征,我们拼接用户的所有消息以生成用户的文本属性特征。本发明利用BERT模型将不同长度的用户消息内容转换为固定长度的文本属性特征向量。最后,将所有属性特征融合,为每个用户形成一个属性特征向量。
为丰富深暗网异质信息网络,本发明额外引入主题实体和敏感实体两种节点信息,其中,主题实体是基于用户的所有消息数据利用主题建模模型挖掘出的主题信息,属于面向用户的粗粒度实体信息。敏感信息实体是采用敏感实体识别方法在每条消息中挖掘出的敏感实体,属于面向消息的细粒度实体信息。
(b)构建属性异质信息网络多种类型的关系
在得到用户、消息、群组、主题实体和敏感实体信息后,可定义并抽取他们之间的多种关系。为表述用户与群组之间的关系,我们构建“用户属于群组”矩阵S,其中每个元素si,j∈{0,1}表示用户i是否属于群组j;为表述用户与消息之间的关系,我们构建“用户发布消息”矩阵P,其中每个元素pi,j∈{0,1}表示用户i是否发布消息j;为表述消息与消息之间的关系,我们构建“消息转发自某消息”矩阵F和“消息回复某消息”矩阵R,其中元素fi,j∈{0,1}表示消息i是否转发自消息j,元素ri,j∈{0,1}表示消息i是否回复消息j;为表述用户和主题之间的关系以及消息和敏感实体的关系,构建“用户讨论主题”矩阵D和“消息包含敏感实体”矩阵SE,前者每个元素di,j∈{0,1}表示用i是否讨论主题j,后者每个元素SEi,j∈{0,1}表示消息i是否包含敏感信息j。最终,我们构建出一个包含5类实体节点和5种不同类型边关系的深暗网异质信息网络G,其网络模式如图1上半部分所示。
2.基于自编码器的多视图深度嵌入式聚类,具体包括以下子步骤:
(a)基于元路径的用户多视图网络构建
通过深暗网异质信息网络可看出用户之间并无太多直接关联,因此需借助其他实体与关系构建用户间的高阶语义关系,以丰富用户关联。本文利用元路径来捕获用户间的复杂关系,通过数据观察与分析,我们设计了5条有意义的元路径,如表2所示。
不同的元路径从不同的角度描述了用户间的复杂关系,基于上述5条元路径,我们可构建一个用户多视图网络,由5个单视图用户属性图构成。其中每个单视图用户属性图里,节点为用户,边为基于元路径的复杂关系,即如果两个用户节点可通过某元路径相连,则两节点间有边存在。每个单视图用户属性图的网络结构可由其邻接矩阵表达,即 若在当前视图m中用户间有边,否则假设N为用户数量,X为用户特征向量矩阵,则每个单视图用户属性图Gm的属性特征可表示为:
其中是拼接操作,ui∈Rd是第i个用户的d维属性特征向量。
(b)基于自编码器与注意力机制的用户嵌入表示学习
给定第m个视图下的属性特征矩阵X与网络结构矩阵Am,先使用自动编码器的编码器对两者进行编码学习,为充分融合属性特征与网络结构,在编码阶段,利用GCN作为编码器,可得到潜在的用户表示其中IN是单位矩阵,的度矩阵,即W表示参数矩阵。在解码阶段,使用内积方法重建节点的结构关系,则重建的邻接矩阵使用反卷积方法重建节点的属性信息,重建后的节点属性特征其中Wg为反卷积层中训练的参数矩阵,δ是解码器的激活函数,可用sigmoid函数或恒等函数。最终将两者的重建误差结合在一起,统一后的损失函数为:
在利用自编码器学习到单个视图下的用户表示后,选择注意力机制来有效融合来自多视图网络的用户表示以生成统一全面的用户表示,通过自动学习不同视图的注意力权重来得到鲁棒的用户表示。
每个节点在不同视图下的注意力权重定义αi,k如下:
其中ωk是需训练学习的视图k下的注意力向量,是节点i所有视图下的向量拼接表示。注意力权重值越大,代表该视图对节点表示影响越大,即该视图下的信息量越高。
给定节点在每个单视图下的潜在向量表示,结合上述的注意力权重,融合全部视图信息的用户节点潜在表示为:
其中表示节点i在视图k下的嵌入表示。
(c)基于KL散度的自监督聚类
将融合全部视图信息的用户节点潜在表示输入到一个深度嵌入聚类模块中,该模块采用以测量两个概率分布间的差异性为目标的KL散度为优化的聚类损失Lc,具体定义为:
其中H是聚类的软标签分布,hij是潜在表示Zi与群体中心μj间的相似性,可通过学生T分布计算得到:
E是基于H的目标分布,eij可利用以下公式计算得到:
需要说明的是,在联合训练前,我们要先单独预训练自动编码器得到一个有意义的潜在嵌入表示,然后利用k-means算法得到初始化的聚类群体中心
最终,本发明联合学习基于自编码器的用户嵌入表示学习和基于KL散度的自监督聚类本发明,得到最终的目标函数为:
其中,γ>0是控制两者间的平衡系数,m是多视图网络的视图个数。本文使用随机梯度下降和反向传播优化目标函数,并更新相关参数。最终,聚类结果可从最后优化的H标签分布中得到,用户节点i的相应预测标签可通过ri=argmaxjhij得到。
为了验证本发明所提出的深暗网群体发现方法的有效性,设计了两类对比实验对所提方法的性能进行评价。一类是性能对比实验,评估多个方法在用户群体发现任务上的聚类效果;一类是消融实验,通过去掉模型中的部分模块来反向验证所提模型各个模块的影响。两类对比实验的实验效果均选用标准互信息NMI和模块度Q这两个评价指标进行评估,评价指标具体计算公式如下:
(a)标准互信息NMI是一种基于信息论的社区发现衡量标准,可在已知网络真实社区结构的情况下对社区划分的准确率做出判断。NMI的计算公式定义如下:
其中C和C*表示真实社区集合与预测社区集合,NC表示真实社区的社区个数与预测社区的社区个数,Nij表示子社区Ci的公共节点数,NMI的取值范围为[0,1],值越大说明群体发现的结果越好。
(b)模块度Q是一种被广泛使用的社区划分质量度量方法,可在未知网络标准社区结构的情况下对社区划分结果做出评判。模块度的计算公式定义如下:
其中Aij表示重构网络邻接矩阵A中的元素,m表示网络中的边数,di和dj表示节点i和节点j的度,ci表示节点i所属的社区标签。I(ci,cj)是指示性函数,当节点i和节点j在同一社区内,其值为1,否则其值为0。模块度值越大,说明社区结构性越强,群体发现的结果越好。
在性能对比试验中,选用kmeans方法、Louvain方法、GraphEncoder方法、AGE方法与我们提出的DGDMAGAE方法做对比,并选用标准互信息NMI和模块度Q作为评价指标,具体结果如表3,DGDMAGAE方法的性能有着大幅度的提升,相对于传统的基于属性特征或网络特征的单维度群体发现方法Kmeans和Louvain,DGDMAGAE方法的性能有着大幅度的提升,具体表现在其NMI指标上分别提升了29.1%和42.6%,模块度Q上分别提升了17.7%和25.8%。与同样是基于深度学习的网络表示学习方法GraphEncoder与AGE相比,DGDMAGAE方法的性能也有较大提升。
在消融实验中,我们从整个基于自编码器的多视图深度嵌入式聚类模型和多条关联元路径两个角度出发,分别进行了去掉模型不同子模块和去掉不同元路径的两类对比实验。表4和表5分别给出了在整体模型的去掉不同子模块以及去掉不同元路径的具体实验结果。
首先,通过表4中的实验结果对比可发现:(1)去掉自监督聚类模块的模型性能下降最大,在NMI指标上将近下降10%,这表明了自监督聚类模块在整个模型中扮演着十分重要的角色,且面向聚类目标的用户表示学习与优化是利于用户群体发现的,同时也证明了本文使用自监督聚类模块的必要性。(2)去掉用户多视图构建模块也给模型带来了约9%的NMI指标下降,这证明了基于元路径的用户多视图可挖掘不同视角下的用户潜在性,可为群体发现提供有力支撑,同时也验证了本文利用属性异质信息网络表征深暗网用户的有效性。(3)去掉用户表示融合模块的模型在指标NMI和Q上也都有明显下降,这是因为利用注意力机制可以充分建模不同视图下的用户表示间的交互影响,从而说明本文使用注意力机制的合理性。
其次,对比表5中的实验结果可发现:(1)五条元路径对用户群体发现的影响力不同,其重要程度排序为消息回复元路径>话题关联元路径>敏感实体元路径>群组关联元路径>消息转发元路径。通过分析构建的深暗网异质信息网络发现其主要原因是不同元路径依据的边或节点数量不同,致使挖掘的用户关联关系规模不同,进而对实验结果影响不同。(2)去掉消息回复元路径的模型性能下降显著,这是因为在多视图构建模块中去掉基于消息回复元路径相当于未考虑消息回复下的用户相关性,而交流回复是群组内用户交互的主要方式,具有用户一一对应的强指向性,去除后用户关联变弱,从而影响了群体发现效果。(3)去敏感实体元路径也给模型带来了明显性能下降,这是因为敏感实体作为一种自定义用户标签,可有效增强具有相同敏感实体兴趣的用户的相关性,便于群体发现。同理,这也验证了深暗网敏感实体识别技术的有效性。
表1用户群体数据集概览
表2不同的元路径说明
表3深暗网群体发现结果对比
表4深暗网群体发现模型消融实验
表5不同元路径的消融实验
尽管为说明目的公开了本发明的具体实施例,其目的在于帮助理解本发明的内容并据以实施,本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于最佳实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (9)

1.一种基于网络表示学习的深暗网群体发现方法,其步骤包括:
1)获取深暗网中的用户、消息、群组,从每条消息中挖掘出敏感实体,以及基于消息数据利用主题建模模型挖掘出主题实体;然后将所得用户、群组、消息、主题实体和敏感实体分别作为所述深暗网异质信息网络中的节点;然后根据各节点之间的关系在对应节点之间建立边连接,生成深暗网异质信息网络;所述关系包含用户与群组之间的从属关系、用户与消息之间的发布关系、消息与消息之间的转发关系、用户与主题之间的讨论关系和消息与敏感实体之间的包含关系;
2)从所述深暗网异质信息网络中抽取多条元路径;不同元路径从不同的角度描述用户间的复杂关系;基于每一元路径构建一单视图用户属性图,并生成每一单视图用户属性图的属性特征矩阵;所述单视图用户属性图中的节点为用户,边为基于元路径的复杂关系;
3)利用自动编码器的编码器对每一单视图用户属性图的属性特征矩阵、网络结构矩阵进行编码,得到一用户低维向量表示;然后自动编码器的解码器对每一用户低维向量表示进行解码重建对应的网络结构矩阵和属性特征矩阵;
4)选择注意力机制对所得各用户低维向量表示进行融合,生成统一全面的用户表示;
5)对步骤4)所得用户表示输入基于KL散度的自监督聚类模块,得到每一用户的软标签分布;
6)基于目标函数
Figure FDA0004003564760000011
对所述自动编码器、基于KL散度的自监督聚类模块进行优化;其中,γ是平衡系数,m为单视图用户属性图的个数,聚类损失函数Lc=KL(E||H),H是聚类的软标签分布,E是基于H的目标分布;第m个单视图用户属性图Gm对应的属性特征矩阵为X、网络结构矩阵为Am,对应的用户低维向量表示为Zm;基于Zm使用内积方法重建Gm对应的网络结构矩阵
Figure FDA0004003564760000012
基于Zm
Figure FDA0004003564760000013
使用反卷积方法重建Gm对应的属性特征矩阵
Figure FDA0004003564760000014
Gm对应的优化所述自动编码器的损失函数为
Figure FDA0004003564760000015
交叉熵函数
Figure FDA0004003564760000016
均方误差
Figure FDA0004003564760000017
Figure FDA0004003564760000018
7)对于一目标深暗网,生成该目标深暗网对应的多个单视图用户属性图;利用优化后的所述自动编码器的编码器对每一单视图用户属性图的属性特征矩阵、网络结构矩阵进行编码,得到一用户低维向量表示并将其输入优化后的所述基于KL散度的自监督聚类模块,得到每一用户的软标签分布。
2.根据权利要求1所述的方法,其特征在于,所述单视图用户属性图的网络结构采用邻接矩阵表达,第m个单视图用户属性图Gm的邻接矩阵
Figure FDA0004003564760000021
若单视图用户属性图Gm中用户间有边,则
Figure FDA0004003564760000022
否则
Figure FDA0004003564760000023
设N为单视图用户属性图Gm中的用户数量,则单视图用户属性图Gm的属性特征矩阵为
Figure FDA0004003564760000024
其中
Figure FDA0004003564760000025
是拼接操作,uN是第N个用户的属性特征向量。
3.根据权利要求2所述的方法,其特征在于,使用图卷积神经网络GCN来聚合邻居信息以得到低维向量表示
Figure FDA0004003564760000026
重建的属性特征矩阵
Figure FDA0004003564760000027
其中,
Figure FDA0004003564760000028
IN是单位矩阵,
Figure FDA0004003564760000029
Figure FDA00040035647600000210
的度矩阵,W表示图卷积神经网络GCN的参数矩阵,Wg为反卷积层中训练的参数矩阵,
δ是解码器的激活函数。
4.根据权利要求2所述的方法,其特征在于,统一全面的用户表示
Figure FDA00040035647600000211
其中,
Figure FDA00040035647600000212
表示节点i在第k个单视图用户属性图下的嵌入表示,节点i在第k个单视图用户属性图下的注意力权重为
Figure FDA00040035647600000213
ωk是第k个单视图用户属性图下的注意力向量,
Figure FDA00040035647600000214
是节点i在所有单视图用户属性图下的向量拼接表示。
5.根据权利要求4所述的方法,其特征在于,聚类损失
Figure FDA00040035647600000215
其中,hij是Zi与群体中心μj间的相似性,
Figure FDA00040035647600000216
hik是Zi与群体中心μk间的相似性。
6.根据权利要求2所述的方法,其特征在于,所述属性特征向量中的信息包括用户群组个数、消息总数、消息平均长度、消息总长度。
7.根据权利要求1所述的方法,其特征在于,利用k-means算法得到初始化的聚类群体中心
Figure FDA00040035647600000217
8.一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1至7任一所述方法中各步骤的指令。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一所述方法的步骤。
CN202211626368.XA 2022-12-16 2022-12-16 一种基于网络表示学习的深暗网群体发现方法 Pending CN115965795A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211626368.XA CN115965795A (zh) 2022-12-16 2022-12-16 一种基于网络表示学习的深暗网群体发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211626368.XA CN115965795A (zh) 2022-12-16 2022-12-16 一种基于网络表示学习的深暗网群体发现方法

Publications (1)

Publication Number Publication Date
CN115965795A true CN115965795A (zh) 2023-04-14

Family

ID=87357177

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211626368.XA Pending CN115965795A (zh) 2022-12-16 2022-12-16 一种基于网络表示学习的深暗网群体发现方法

Country Status (1)

Country Link
CN (1) CN115965795A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117094412A (zh) * 2023-08-18 2023-11-21 之江实验室 针对非独立同分布医疗场景下的联邦学习方法和装置
CN117435935A (zh) * 2023-09-13 2024-01-23 广州大学 基于自监督图注意力网络的人员群体预测方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117094412A (zh) * 2023-08-18 2023-11-21 之江实验室 针对非独立同分布医疗场景下的联邦学习方法和装置
CN117435935A (zh) * 2023-09-13 2024-01-23 广州大学 基于自监督图注意力网络的人员群体预测方法及装置

Similar Documents

Publication Publication Date Title
Ma et al. A comprehensive survey on graph anomaly detection with deep learning
CN111598710B (zh) 社交网络事件的检测方法和装置
Ferreira et al. Vector field k‐means: Clustering trajectories by fitting multiple vector fields
Xu et al. Uncovering collusive spammers in Chinese review websites
CN115965795A (zh) 一种基于网络表示学习的深暗网群体发现方法
Olmezogullari et al. Representation of click-stream datasequences for learning user navigational behavior by using embeddings
Ran et al. Traffic speed data imputation method based on tensor completion
CN110990718B (zh) 一种公司形象提升***的社会网络模型构建模块
Gong et al. Novel heuristic density-based method for community detection in networks
Nassar et al. Neighborhood and PageRank methods for pairwise link prediction
CN113407784A (zh) 一种基于社交网络的社团划分方法、***及存储介质
CN115270007B (zh) 一种基于混合图神经网络的poi推荐方法及***
Jin et al. Crime-GAN: A context-based sequence generative network for crime forecasting with adversarial loss
Qi et al. Resilience assessment of an Urban Metro Complex Network: a case study of the Zhengzhou Metro
Holme et al. Networks of climate change: connecting causes and consequences
Rabbi et al. An Approximation For Monitoring The Efficiency Of Cooperative Across Diverse Network Aspects
CN113314188B (zh) 图结构增强的小样本学习方法、***、设备及存储介质
Sharkey et al. Modelling the spatial extent and severity of extreme European windstorms
CN110910235A (zh) 一种基于用户关系网络的贷中异常行为检测方法
CN112529525B (zh) 一种电网突发事件情景要素提取及全域融合方法与***
Cai et al. The mining of urban hotspots based on multi-source location data fusion
Liao et al. Traj2Traj: A road network constrained spatiotemporal interpolation model for traffic trajectory restoration
Miyazawa et al. City-scale human mobility prediction model by integrating GNSS trajectories and SNS data using long short-term memory
CN114757391B (zh) 一种面向服务质量预测的网络数据空间设计与应用方法
Zhang et al. A crowd-AI dynamic neural network hyperparameter optimization approach for image-driven social sensing applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination