CN113807543A - 一种基于方向感知的网络嵌入算法和*** - Google Patents

一种基于方向感知的网络嵌入算法和*** Download PDF

Info

Publication number
CN113807543A
CN113807543A CN202110983059.7A CN202110983059A CN113807543A CN 113807543 A CN113807543 A CN 113807543A CN 202110983059 A CN202110983059 A CN 202110983059A CN 113807543 A CN113807543 A CN 113807543A
Authority
CN
China
Prior art keywords
embedding
network
directed
node
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110983059.7A
Other languages
English (en)
Other versions
CN113807543B (zh
Inventor
周晟
刘劭荣
卜佳俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110983059.7A priority Critical patent/CN113807543B/zh
Publication of CN113807543A publication Critical patent/CN113807543A/zh
Application granted granted Critical
Publication of CN113807543B publication Critical patent/CN113807543B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于方向感知的有向网络嵌入算法,包括:S1,计算非对称临近性,具体包括:为有向网络中的随机游走策略定义单步概率,将随机游走中的单步方向与临近性信息保存在权重中,计算节点之间分数;S2,建立有向网络嵌入,具体包括:计算得到节点之间的非对称临近性后,建立定性有向网络嵌入DNE‑L将节点之间离散的非对称临近性保留在嵌入网络中,计算得到节点之间的非对称临近性后,建立定量有向网络嵌入DNE‑T将节点之间离散的非对称临近性保留在嵌入网络中,优化模型。本发明还包括实施一种基于方向感知的有向网络嵌入算法的***。本发明对真实网络中的实际问题有更好的解释性,将离散的和连续的有向网络嵌入都有效地保留在了嵌入空间中。

Description

一种基于方向感知的网络嵌入算法和***
技术领域
本发明涉及机器学习,特别涉及一种基于方向感知的有向网络嵌入算法和***。
背景技术
网络嵌入算法的目的是将现有网络中的节点嵌入到低维向量空间中,以便更好地理解节点之间的语义关系。现有的网络嵌入算法通过确定性度量或者随机游走来保留相似性,现有的网络嵌入算法主要集中在处理无向网络上。对于有向嵌入网络,通常的解决方案是忽略有向网络中边的方向,将无向网络嵌入算法应用于变换后的网络。然而,这可能导致信息丢失,更有可能学习到错误的嵌入结果。
由于真实网络中的边往往与方向有关,因此有向网络嵌入算法受到了关注。有向边表示了网络中节点之间的非对称临近性,这种潜在的非对称的邻近性是有向网络的关键特征,需要使用网络嵌入算法来保留。虽然现有的一些方法试图保留有向图中的非对称临近性,但是它们所获取的非对称临近性所表达的意义是不明确的。因此,获取非对称临近性并有效地将其保存在嵌入空间中,并使其对真实网络具有实用性意义面临了重大的挑战。
发明内容
本发明要解决的现有技术的上述缺点,提供一种基于方向感知的有向网络嵌入算法及其***。
本发明意图在有向网络中获取非对称临近性并有效地保存在嵌入空间中,并在真实网络的链接预测和节点分类任务中达到更好的效果。
为实现上述目的,本发明采用如下技术方案:一种基于方向感知的有向网络嵌入算法,包括:
S1:计算非对称临近性;
S1a:为有向网络中的随机游走策略定义单步概率,单步概率公式如下:
Figure BDA0003229842410000021
其中,P表示随机游走的单步概率,
Figure BDA0003229842410000022
表示从vi开始的随机游走的第k步,
Figure BDA0003229842410000023
表示节点a的外邻节点的数量,
Figure BDA0003229842410000024
表示节点a的内邻节点的数量,Eab=1表示从a到b存在一条有向边;
S1b:将随机游走中的单步方向与临近性信息保存在权重中,单步权重公式如下:
Figure BDA0003229842410000025
其中,ri,i+1=1表示沿边方向的随机游走,ri,i+1=-1表示沿边的反方向的随机游走,ri,i+1=0表示节点vi和vi+1之间两个方向都存在有向边;
S1c:计算节点之间分数,用来表示节点之间的非对称临近性,公式如下:
Figure BDA0003229842410000026
其中,rj,j+1是步长权重j,1/k用于归一化来自步骤次数的影响。
S2:建立有向网络嵌入;
S21:计算得到节点之间的非对称临近性后,建立定性有向网络嵌入DNE-L将节点之间离散的非对称临近性保留在嵌入网络中:
S21a:定义有向图上下文观察概率,即在非对称临近性为su,v的节点u的有向图上下文中,观察到节点v的概率。根据节点之间的方向性选择不同的概率公式:
Figure BDA0003229842410000027
Figure BDA0003229842410000028
Figure BDA0003229842410000029
其中,hs是源嵌入,ht是目标嵌入。观察分数的概率是节点u的源嵌入与节点v的目标嵌入之间的点乘积。当su,v=0时,节点u和节点v倾向于形成双向边,因此概率是从两个方向产生的嵌入的概率和。
S21b:通过最大限度地提高观察有向图上下文节点的概率,将非对称临近性保留在网络嵌入中:
Figure BDA00032298424100000210
其中,DCu是节点u的有向上下文,su,v是由S1随机游走策略计算的结果,P(v|u,su,v)是在分数为su,v的节点u的有向图上下文中观察到节点v的概率。
S22:计算得到节点之间的非对称临近性后,建立定量有向网络嵌入DNE-T将节点之间离散的非对称临近性保留在嵌入网络中:
S22a:定义权重转换公式,将步骤S1中计算的非对称临近性分数通过加权函数得到新的权重:
Figure BDA0003229842410000031
其中,su,v是上述InfoWalk中计算的分数和,b是一个用来确保权重为正的偏差值。
S22b:定义定量有向网络嵌入模型,通过加权的Skip-Gram优化来学习源嵌入和目标嵌入:
Figure BDA0003229842410000032
其中,hs是源嵌入,ht是目标嵌入,πu,v是定量有向网络中分数到权重的转换。
S23:优化模型:采用负采样和随机梯度下降策略,提高训练效率:
Figure BDA0003229842410000033
Figure BDA0003229842410000034
其中,σ表示激活函数,
Figure BDA0003229842410000035
表示节点u的源嵌入,
Figure BDA0003229842410000036
表示节点v的目标嵌入,πu,v表示节点u和v之间的权重。
优选地,所述S202a中,加权函数需满足以下要求:(1)π0>0;(2)
Figure BDA0003229842410000037
Figure BDA0003229842410000038
πm>πn;(3)
Figure BDA0003229842410000039
其中,
Figure BDA00032298424100000310
代表长度为i并且非对称临近性分数为m通过加权函数计算所得的结果。
进一步,使用随机游走策略InfoWalk来有效地获取有向网络中节点之间的层次结构和非对称临近性,得到一个表示节点间非对称临近性的加权节点序列,用于有向嵌入学习;使用定性有向网络嵌入DNE-L和定量有向网络嵌入DNE-T有效地将嵌入网络保存在嵌入空间中,使其在真实世界的参照数据集上得到优秀的任务结果。
实施本发明的基于方向感知的有向网络嵌入算法的***,包括存储器和处理器以及在储存在存储器上并在处理器上执行的程序,其特征在于:所述的程序包括依次连接的非对称临近性计算模块、有向网络嵌入建立模块。
本发明的优点是:1)提供了一种新的信息随机行走策略,以有效地获取有向网络结构中的非对称临近性,对真实网络中的实际问题有更好的解释性;2)提出了具有定性和定量的有向网络嵌入算法(两种变量的DNE-L和有向网络嵌入方法DNE-T),将离散的和连续的有向网络嵌入都有效地保留在了嵌入空间中。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1a~图1f是本发明实施例提供的一种有向网络上的信息游走策略的示意图,其中图1a是三个节点之间先反向再正向游走的示意图,图1b是三个节点之间先正向再反向游走的示意图,图1c是四个节点之间先反向游走再正向游走两次的示意图,图1d是四个节点之间正反方向间隔游走的示意图,图1e是有向环图中正向游走示意图,图1f是有向环图中反向游走示意图;
图2为本发明实施例提供的一种有向网络嵌入方法的总体框架图;
图3a和图3b是本发明实施例提供的在用户推荐场景的用户分析实验下相比于现有算法的评分结果对比图,其中图3a是使用Micro-F1分数在用户轮廓分析场景下对不同算法评估的对比图,图3b是使用Macro-F1分数在用户轮廓分析场景下对不同算法评估的对比图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明提出了一种基于方向感知的有向网络嵌入算法,该方法能够:(1)使用一种新的信息随机行走策略,以有效地获取有向网络的节点之间的非对称临近性,并可以很好地应用于真实网络中的实际问题;(2)使用了具有定性和定量的有向网络嵌入(两种变量的DNE-L和有向网络嵌入方法DNE-T),来保持潜在嵌入空间中离散的和连续的非对称临近性。
下面对本发明中提出的核心方法作详细阐述。
S1:计算非对称临近性;
本发明提出一个信息随机游走策略InfoWalk,用于计算节点之间的非对称临近性。InfoWalk的基本思想是首先忽略边的方向,并允许随机游走访问来自各个方向的节点。在随机游走的每一步中,方向和非对称临近性被存储在一个精心设计的权重中。在随机游走达到指定长度后,InfoWalk将得到一个表示节点问非对称临近性的步长加权节点序列,可用于有向嵌入学习。
S1a:为有向网络中的随机游走策略定义单步概率:
给定一个有向网络G,从节点vi开始的随机游走可以表示为
Figure BDA0003229842410000051
vi→vj…→vk,这是一个当前被访问过的节点序列,
Figure BDA0003229842410000052
表示在随机游走
Figure BDA0003229842410000053
中第k步中被访问的节点。假设在第k步中,随机游走到达节点va
Figure BDA0003229842410000054
在(k+1)步中,随机游走将均匀地游走到节点va的内邻
Figure BDA0003229842410000055
或外邻
Figure BDA0003229842410000056
Figure BDA0003229842410000057
其中,P表示随机游走的概率,
Figure BDA0003229842410000058
表示从vi开始的随机游走的第k步,
Figure BDA0003229842410000059
表示节点a的外邻节点的数量,
Figure BDA00032298424100000510
表示节点a的内邻节点的数量,Eab=1表示从a到b存在一条有向边。
这种随机游走可以看作是在忽略有向图G中边方向的无方向网络游走。这种游走方法可以达到在有向网络中没有路径的节点,并获取非对称的临近性。
S1b:将随机游走中的单步方向与临近性信息保存在权重中:
为了获取节点之间的方向和临近性,本发明进一步在每个vi,i+1步骤上根据以下规则引入一个方向感知的步权重ri,i+1
Figure BDA00032298424100000511
其中,ri,i+1=1表示沿边方向的随机游走,ri,i+1=-1表示沿边的反方向的随机游走,ri,i+1=0表示节点vi和vi+1之间两个方向都存在有向边。
S1c:计算节点之间分数,用来表示节点之间的非对称临近性:
给定每一步的权重ri,i+1,InfoWalk的结果可以表示为一个加权边的节点序列:
Figure BDA0003229842410000061
Figure BDA0003229842410000062
基于加权边的节点序列,本发明定义一个关于序列中节点vi和vi+1的分数si,i+k作为它们每步之间的指标和,公式如下:
Figure BDA0003229842410000063
其中,rj,j+1是步长权重j,1/k用于归一化来自步骤次数的影响。
图1表示的是本发明实施例提供的一种有向网络上的信息游走策略的示意图,其中实线箭头表示的沿着边方向移动的步骤,虚线箭头表示的是向边的反方向移动的步骤。si,j>0表示节点vi倾向于观察到向vj的有向边,si,j<0表示节点vj倾向于观察到向vi的有向边,si,j=0表示节点vj和vi之间倾向于观察到双向边。
因为InfoWalk忽略了有向网络中边的方向,使内外度越高的节点更容易被频繁地访问,所以InfoWalk可以很容易地获取非对称临近性。因此,这些节点在其他节点窗口中出现的概率也更高。
S2:建立有向网络嵌入;
本发明提出了有向网络嵌入的两个变体:定性有向网络(DNE-L)和定量有向网络(DNE-T)。对于每个变体,都学习两个独立的嵌入来保留非对称的临近性,称为源嵌入和目标嵌入。两个变体的区别在于保留非对称的临近性的方法不同,图2表示了上述两种方法DNE-L和DNE-T的基本结构,其中DNE-L保留了离散的有向网络嵌入,DNE-T保留了连续的有向网络嵌入。DNE将根据分数su,v定义有向图的上下文,再通过每个节点的源嵌入和目标嵌入来保留节点之间的有向关系。
其中,有向图的上下文是有向网络G上的信息随机游走的结果,分为源上下文、目标上下文和不明确上下文。源上下文指的是DNE方法到达的节点,并且可能与之有一条从该节点出发的有向边;目标上下文指的是DNE方法到达的节点,并且可能与之有一条到达该节点的有向边;不明确上下文指的是DNE方法到达的节点,但它们之间没有明确的方向。
S21:计算得到节点之间的非对称临近性后,建立定性有向网络嵌入DNE-L将节点之间离散的非对称临近性保留在嵌入网络中:
S21a:定义有向图上下文观察概率,即在非对称临近性为su,v的节点u的有向图上下文中,观察到节点v的概率。根据节点之间的方向性选择不同的概率公式:
Figure BDA0003229842410000071
Figure BDA0003229842410000072
Figure BDA0003229842410000073
其中,hs是源嵌入,ht是目标嵌入。观察分数的概率是节点u的源嵌入与节点v的目标嵌入之间的点乘积。当su,v=0时,节点u和节点v倾向于形成双向边,因此概率是从两个方向产生的嵌入的概率和。
S21b:通过最大限度地提高观察有向图上下文节点的概率,将非对称临近性保留在网络嵌入中:
Figure BDA0003229842410000074
其中,DCu是节点u的有向上下文,su,v是由S1随机游走策略计算的结果,P(v|u,su,v)是在分数为su,v的节点u的有向图上下文中观察到节点v的概率。
S22:计算得到节点之间的非对称临近性后,建立定量有向网络嵌入DNE-T将节点之间离散的非对称临近性保留在嵌入网络中:
S22a:由于有向图上下文节点被InfoWalk访问的概率与中心节点的不同,因此,根据上下文节点的相对分数来衡量当前节点是合理的。然而,由于1)分数su,v=0的上下文节点的权重不为正权重而为0;2)即使随机游走长度不同,分数su,v=0的上下文节点的权重也依然相同,直接使用分数来衡量节点的重要性的准确率将受到直观地影响。
为了解决上述问题,在定量的有向网络嵌入中,需要根据新的要求重新制定了su,v的加权训练,加权函数要求如下:(1)π0>0;(2)
Figure BDA0003229842410000075
πm>πn;(3)
Figure BDA0003229842410000076
Figure BDA0003229842410000077
定义权重转换公式,将S1中计算的非对称临近性分数通过加权函数得到新的权重:
Figure BDA0003229842410000078
其中,su,v是上述InfoWalk中计算的分数和,b是一个用来确保权重为正的偏差值。这样的转换确保了分数拥有以下属性:(1)分数较高的节点拥有较大的权重;(2)在随机行走中距离较长的节点拥有较小的权重。
S22b:定义定量有向网络嵌入模型,通过加权的Skip-Gram优化来学习源嵌入和目标嵌入:
Figure BDA0003229842410000081
其中,hs是源嵌入,ht是目标嵌入,πu,v是定量有向网络中分数到权重的转换。
S23:优化模型:采用负采样和随机梯度下降策略,提高训练效率,投影公式如下:
Figure BDA0003229842410000082
Figure BDA0003229842410000083
其中,σ表示激活函数,
Figure BDA0003229842410000084
表示节点u的源嵌入,
Figure BDA0003229842410000085
表示节点v的目标嵌入,πu,v表示节点u和v之间的权重。
实施本发明的基于方向感知的有向网络嵌入算法的***,包括存储器和处理器以及在储存在存储器上并在处理器上执行的程序,所述的程序包括依次连接的非对称临近性计算模块、有向网络嵌入建立模块。非对称临近性计算模块的执行内容对应本发明方法的步骤S1的内容,有向网络嵌入建立模块对应本发明方法的步骤S2的内容。
为了更清楚地说明本发明的具体用途,实施例以微博上的用户推荐为例,详细地阐述具体实施过程:
本实施例的具体场景为:为微博用户推荐感兴趣的用户进行关注。
一种为微博用户推荐感兴趣的用户进行关注的方法,包括如下步骤:
步骤一、技术人员需要收集用户与用户之间的关注信息,并建立用户关系有向网络。其中,有向网络的节点代表一个用户个体,有向边代表用户的关注行为,边的出方向表示关注者,边的入方向表示被关注者。
步骤二、建立有向网络之后,技术人员使用步骤S1中提出的随机游走策略获取节点之间的非对称临近性,即用户之间的非对称临近性。
步骤三、技术人员可以选择使用步骤S21中提到的定性有向网络嵌入DNE-L,或者步骤S22中提到的定量有向网络嵌入DNE-T,将用户之间的非对称临近性保留在网络嵌入中。在这一过程中,技术人员需要使用步骤S23中的负采样和随机梯度下降策略来提高训练效率,优化网络模型。
步骤四、在完成有向网络嵌入模型的学习之后,技术人员可以将每一个用户表示为一个表征,用于下游的任务,即用户的匹配任务。技术人员将代表每一个用户的表征进行相似度计算,即可将表征近似的用户划分为一类,进行用户推荐。
本发明实施例提供的上述方案,主要获得如下有益效果:1、在真实的有向网络中有效地获得非对称临近性;2、使用DNE方法保留的离散的或连续的网络嵌入在链接预测和节点分类等任务中效果优于现有的嵌入方法。为了说明本发明实施例上述方案的效果,结合实验进行说明。
一、实验数据。
实验使用了几个真实的社交网络数据集和每个节点都有标签的书目网络进行广泛的实验。其中,带有有向边的社交网络用于评估用户推荐,而书目网络用于用户分析。由于收集具有真实标签的大规模真实社交网络很难,实验采用了具有有向边的书目网络。表1展示了数据集的统计信息。
Dataset #Nodes #Edges #Labels %Dangling Node %Bi-directional Edges
Wiki 7,115 103,689 - 0.141 0.0565
Epinions 75,879 508,837 - 0.204 0.4052
Slashdot 77,360 905,468 - 0.271 0.8783
Twitter 90,908 443,399 - 0.087 0.6066
LastFM 136,409 1,685,524 - 0.439 0.0009
Pubmed 19,717 44,338 3 0.803 0.0001
Cocit 44,034 195,361 15 0.451 0.0001
表1数据集的统计信息
二、实验结论。
1、DNE方法在保留节点之间的临近性在大多数网络数据集中取得更好的效果。
实验中,将本发明中的方法与几种最先进的有向网络嵌入方法和用户推荐方法进行了比较,来评估提出的DNE。在实验中,并没有与基于社交网络的用户推荐方法进行比较,因为本实验专注于评估学习到用户/节点嵌入在有向图中的效果。
在基线方法中,Node2Vec、DeepWalk、APP、NERD都是基于随机游走的方法,为了进行公平的比较,实验将这些方法中的随机游走参数设置为与本发明中的DNE方法相同。具体为:随机游走长度l=10、窗口大小k=4和每个节点的游走数r=10。对于Node2Vec方法,宽度优先采样的概率设为0.25,深度优先采样的概率设为0.5。实验中使用嵌入向量的内积来估计节点之间的临近性。APP、ATP、NERD和HOPE方法通过学习两个独立的源嵌入和目标嵌入来保留非对称的临近性。对于节点分类任务,使用两种嵌入来测试性能,并报告最佳结果。LINE对每个节点学习两个嵌入,即上下文嵌入和节点嵌入。在实验中,使用了PyTorch和Tensorflow实现了本发明中的DNE方法,模型参数使用Xavier随机初始化,并采用Adam优化器进行优化,将学习率设置为0.0005,批量大小设置为512。所有方法的向量位数均为128。
表2在显示了五个真实世界的社交网络数据集中的普通用户推荐结果。NA表示这些方法由于内存限制或运行时间超过一周而无法在硬件上运行的情况,
Figure BDA0003229842410000102
表明在p<0.05时的配对差异检验结果具有显著性。
Figure BDA0003229842410000101
Figure BDA0003229842410000111
表2本发明和现有算法在普通用户推荐上的性能对比
从表2,可以看出:在保留非对称临近性上,提出的DNE方法的两个变体在大多数网络数据集中获得比现有方法更好的效果,这证明了本发明在有向社交网络中获取非对称临近性的有效性。
2、DNE方法在用户推荐场景下保留节点之间的方向方面提高了效果。
实验进一步评估有向感知的用户推荐任务,以模拟现实世界中应该考虑推荐方向的场景。普通的用户推荐任务只预测边是否存在,并不能保证方向能被很好的预测。例如,从vi到vj存在有向边,但从vj到vi没有边,从两个方向预测边的方法会通过正采样而混过指标,并且无法作为负样本进行采样。根据现有方法的实验设置,实验还测试了方向感知的用户推荐任务的效果。其中,30%的链接从原始网络中随机采样作为正链接,负链接包括从原始网络中不存在的边的随机采样和正向边中不存在的反向边。表3说明了在真实数据集上的方向感知用户推荐和经典用户推荐的效果。
Figure BDA0003229842410000112
Figure BDA0003229842410000121
表3本发明和现有算法在方向感知的性能对比
从表3,可以看出:在所有的评估方法中,本发明中的DNE-L和DNE-T在所有数据集上都取得了最好的效果,比现有的方法有显著的改进。对比表2和表3,可以观察到所有方法在方向感知用户推荐方面的效果都有所下降,这说明了考虑边的方向和非对称临近性的必要性。将DNE-L和DNE-T相比,可以观察到这两个任务的改善,在有向感知的用户推荐中,改进后的效果比经典的用户推荐更加显著。这也进一步表明了在预测节点之间的有向链接考虑方向的重要性。
3、在用户轮廓分析方面就有更好的效果。
用户轮廓分析是用户建模的另一项重要任务,特别是在有向社交网络中,用户轮廓分析的目标是查找用户属于的用户组,这与经典的节点分类任务相同。实验中,随机采样标记节点的30%进行训练,其余节点进行测试。学习到的嵌入将被输入到相同的SVM分类器中,使用Micro-F1和Macro-F1分数来评估结果。对于为每个节点学习两个独立嵌入的方法,将嵌入连接起来进行评估,评估结果如图3所示。
从图3中可以看出,基本的观察结果与用户推荐任务相似,DNE方法在两个评价指标中比现有方法有更好的效果。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同手段。

Claims (4)

1.一种基于方向感知的有向网络嵌入算法,包括:
S1:计算非对称临近性;
S1a:为有向网络中的随机游走策略定义单步概率,单步概率公式如下:
Figure FDA0003229842400000011
其中,P表示随机游走的单步概率,
Figure FDA0003229842400000012
表示从vi开始的随机游走的第k步,
Figure FDA0003229842400000013
表示节点a的外邻节点的数量,
Figure FDA0003229842400000014
表示节点a的内邻节点的数量,Eab=1表示从a到b存在一条有向边;
S1b:将随机游走中的单步方向与临近性信息保存在权重中,单步权重公式如下:
Figure FDA0003229842400000015
其中,ri,i+1=1表示沿边方向的随机游走,ri,i+1=-1表示沿边的反方向的随机游走,ri,i+1=0表示节点vi和vi+1之间两个方向都存在有向边;
S1c:计算节点之间分数,用来表示节点之间的非对称临近性,公式如下:
Figure FDA0003229842400000016
其中,rj,j+1是步长权重j,1/k用于归一化来自步骤次数的影响。
S2:建立有向网络嵌入;
S21:计算得到节点之间的非对称临近性后,建立定性有向网络嵌入DNE-L将节点之间离散的非对称临近性保留在嵌入网络中:
S21a:定义有向图上下文观察概率,即在非对称临近性为su,v的节点u的有向图上下文中,观察到节点v的概率。根据节点之间的方向性选择不同的概率公式:
Figure FDA0003229842400000017
Figure FDA0003229842400000018
Figure FDA0003229842400000021
其中,hs是源嵌入,ht是目标嵌入。观察分数的概率是节点u的源嵌入与节点v的目标嵌入之间的点乘积。当su,v=0时,节点u和节点v倾向于形成双向边,因此概率是从两个方向产生的嵌入的概率和。
S21b:通过最大限度地提高观察有向图上下文节点的概率,将非对称临近性保留在网络嵌入中:
Figure FDA0003229842400000022
其中,DCu是节点u的有向上下文,su,v是由S1随机游走策略计算的结果,P(v|u,su,v)是在分数为su,v的节点u的有向图上下文中观察到节点v的概率。
S22:计算得到节点之间的非对称临近性后,建立定量有向网络嵌入DNE-T将节点之间离散的非对称临近性保留在嵌入网络中:
S22a:定义权重转换公式,将步骤S1中计算的非对称临近性分数通过加权函数得到新的权重:
Figure FDA0003229842400000023
其中,su,v是上述InfoWalk中计算的分数和,b是一个用来确保权重为正的偏差值。
S22b:定义定量有向网络嵌入模型,通过加权的Skip-Gram优化来学习源嵌入和目标嵌入:
Figure FDA0003229842400000024
其中,hs是源嵌入,ht是目标嵌入,πu,v是定量有向网络中分数到权重的转换。
S23:优化模型:采用负采样和随机梯度下降策略,提高训练效率:
Figure FDA0003229842400000025
Figure FDA0003229842400000026
其中,σ表示激活函数,
Figure FDA0003229842400000031
表示节点u的源嵌入,
Figure FDA0003229842400000032
表示节点v的目标嵌入,πu,v表示节点u和v之间的权重。
2.如权利要求1所述的一种基于方向感知的有向网络嵌入算法,其特征在于:步骤S202a中,加权函数需满足以下要求:(1)π0>0;(2)
Figure FDA0003229842400000033
(3)
Figure FDA0003229842400000034
其中,
Figure FDA0003229842400000035
代表长度为i并且非对称临近性分数为m通过加权函数计算所得的结果。
3.如权利要求2所述的一种基于方向感知的有向网络嵌入算法,其特征在于:使用随机游走策略InfoWalk来有效地获取有向网络中节点之间的层次结构和非对称临近性,得到一个表示节点间非对称临近性的加权节点序列,用于有向嵌入学习;使用定性有向网络嵌入DNE-L和定量有向网络嵌入DNE-T有效地将嵌入网络保存在嵌入空间中,使其在真实世界的参照数据集上得到优秀的任务结果。
4.实施权利要求1所述的基于方向感知的有向网络嵌入算法的***,包括存储器和处理器以及在储存在存储器上并在处理器上执行的程序,其特征在于:所述的程序包括依次连接的非对称临近性计算模块、有向网络嵌入建立模块。
CN202110983059.7A 2021-08-25 2021-08-25 一种基于方向感知的网络嵌入方法和*** Active CN113807543B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110983059.7A CN113807543B (zh) 2021-08-25 2021-08-25 一种基于方向感知的网络嵌入方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110983059.7A CN113807543B (zh) 2021-08-25 2021-08-25 一种基于方向感知的网络嵌入方法和***

Publications (2)

Publication Number Publication Date
CN113807543A true CN113807543A (zh) 2021-12-17
CN113807543B CN113807543B (zh) 2023-12-08

Family

ID=78894107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110983059.7A Active CN113807543B (zh) 2021-08-25 2021-08-25 一种基于方向感知的网络嵌入方法和***

Country Status (1)

Country Link
CN (1) CN113807543B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100121792A1 (en) * 2007-01-05 2010-05-13 Qiong Yang Directed Graph Embedding
US20180053400A1 (en) * 2016-08-22 2018-02-22 General Electric Company Method and Apparatus For Determination Of Sensor Health
CN111008447A (zh) * 2019-12-21 2020-04-14 杭州师范大学 一种基于图嵌入法的链路预测方法
CN111292197A (zh) * 2020-01-17 2020-06-16 福州大学 基于卷积神经网络和自编码器的社区发现方法
CN111581445A (zh) * 2020-05-08 2020-08-25 杨洋 基于图基元的图嵌入学习方法
CN112633314A (zh) * 2020-10-15 2021-04-09 浙江工业大学 一种基于多层采样的主动学习溯源攻击方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100121792A1 (en) * 2007-01-05 2010-05-13 Qiong Yang Directed Graph Embedding
US20180053400A1 (en) * 2016-08-22 2018-02-22 General Electric Company Method and Apparatus For Determination Of Sensor Health
CN111008447A (zh) * 2019-12-21 2020-04-14 杭州师范大学 一种基于图嵌入法的链路预测方法
CN111292197A (zh) * 2020-01-17 2020-06-16 福州大学 基于卷积神经网络和自编码器的社区发现方法
CN111581445A (zh) * 2020-05-08 2020-08-25 杨洋 基于图基元的图嵌入学习方法
CN112633314A (zh) * 2020-10-15 2021-04-09 浙江工业大学 一种基于多层采样的主动学习溯源攻击方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHANG ZHOU 等: "Scalable Graph Embedding for Asymmetric Proximity", 《PROCEEDINGS OF THE THIRTY-FIRST AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》, pages 2942 - 2948 *
张文涛 等: "图嵌入算法的分布式优化与实现", 《软件学报》, pages 636 - 649 *

Also Published As

Publication number Publication date
CN113807543B (zh) 2023-12-08

Similar Documents

Publication Publication Date Title
CN110532436B (zh) 基于社区结构的跨社交网络用户身份识别方法
CN106649659B (zh) 一种面向社交网络的链接预测***及方法
Bliss et al. An evolutionary algorithm approach to link prediction in dynamic social networks
Chen et al. A rough set approach to feature selection based on ant colony optimization
Ngonmang et al. Churn prediction in a real online social network using local community analysis
CN106021376A (zh) 用于处理用户信息的方法和设备
Li et al. PIANO: Influence maximization meets deep reinforcement learning
Selvarajah et al. Dynamic network link prediction by learning effective subgraphs using CNN-LSTM
Wang et al. Graph active learning for GCN-based zero-shot classification
EP3336719A1 (en) Future scenario generation device and method, and computer program
CN114387005A (zh) 一种基于图分类的套利团伙识别方法
Asim et al. Predicting influential blogger’s by a novel, hybrid and optimized case based reasoning approach with balanced random forest using imbalanced data
CN116992307A (zh) 基于图网络特征快速聚合的社交网络用户匹配方法及装置
Miani et al. Narfo algorithm: Mining non-redundant and generalized association rules based on fuzzy ontologies
CN111126443A (zh) 基于随机游走的网络表示学习方法
Terziev Feature Generation using Ontologies during Induction of Decision Trees on Linked Data.
CN113807543A (zh) 一种基于方向感知的网络嵌入算法和***
CN115063251A (zh) 基于关系强度与反馈机制的社交传播动态网络表示方法
Perez et al. A social network representation for collaborative filtering recommender systems
Hruschka Jr et al. Roles played by Bayesian networks in machine learning: an empirical investigation
Cai et al. A MF-based Trust Prediction Model with Social and Interest Regularization in OSNs
Gu et al. Influence maximization in social networks using role-based embedding.
Zhou New Techniques for Learning Parameters in Bayesian Networks.
Gurchani Crawling political communities in Twitter and extracting political affiliations
Oluigbo et al. Decision-based sampling for node context representation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant