CN116090525A - 基于层次随机游走采样策略的嵌入向量表示方法及*** - Google Patents

基于层次随机游走采样策略的嵌入向量表示方法及*** Download PDF

Info

Publication number
CN116090525A
CN116090525A CN202211423375.XA CN202211423375A CN116090525A CN 116090525 A CN116090525 A CN 116090525A CN 202211423375 A CN202211423375 A CN 202211423375A CN 116090525 A CN116090525 A CN 116090525A
Authority
CN
China
Prior art keywords
node
sequence
walk
layer
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211423375.XA
Other languages
English (en)
Other versions
CN116090525B (zh
Inventor
郭仕钧
徐圣兵
谢锐
王振友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202211423375.XA priority Critical patent/CN116090525B/zh
Publication of CN116090525A publication Critical patent/CN116090525A/zh
Application granted granted Critical
Publication of CN116090525B publication Critical patent/CN116090525B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于层次随机游走采样策略的嵌入向量表示方法及***,该方法包括:设置网络结构节点参数并在网络结构中随机选取节点,得到起始节点;对起始节点进行邻域划分处理,得到节点层;根据节点选取规则,对节点层进行随机游走处理,获取节点游走序列;对所获取的节点游走序列输入至word2vec模型中进行向量化表征训练,得到所有游走节点对应的网络嵌入向量表征。该***包括:选取模块、划分模块、游走模块和训练模块。通过使用本发明,能够充分考虑近邻节点信息进而通过基于层次优先的随机游走采样实现网络嵌入向量表征学习。本发明作为基于层次随机游走采样策略的嵌入向量表示方法及***,可广泛应用于计算机数据挖掘技术领域。

Description

基于层次随机游走采样策略的嵌入向量表示方法及***
技术领域
本发明涉及计算机数据挖掘技术领域,尤其涉及基于层次随机游走采样策略的嵌入向量表示方法及***。
背景技术
在复杂网络分析中常见的任务聚类、链接预测和分类等;在复杂网络中的节点的属性信息获取较为困难,而网络的结构信息比较容易获得;因此,基于网络结构信息的分析受到越来越多的关注,对于这些机器学习问题,首要的任务就是建立一组可以准确表达网络结构信息的特征向量,为节点和边构造一种特征向量表示,即网络嵌入向量表示方法,现阶段常用的网络嵌入向量表示方法是通过手工提取特征,机器学习和降维方法等,图嵌入向量的机器学习方法最早的是deepwalk算法,并在于deepwalk算法进一步产生node2vec算法,即一种用于网络中可拓展特征学习的半监督方法,主要特点是通过控制返回参数p和远行参数q,使得在deepwalk的基础上变为有偏的随机游走方式而非均匀的随机游走方式进行采样,采样得到的游走序列仍然使用word2vec模型生成网络嵌入向量表示,node2vec算法虽然综合考虑了深度优先遍历和广度优先遍历在节点游走上的合适性选择,对于网络的全局结构和局部信息进行了折中考虑,但是并没有考虑实际网络结构中的近邻节点的重要性,因为在现实网络结构中每个节点的重要程度不一样,因此这些节点对于网络的影响也是不同的,即若忽略了节点近邻节点的重要性,则无法充分的表现网络中的节点信息。
发明内容
为了解决上述技术问题,本发明的目的是提供基于层次随机游走采样策略的嵌入向量表示方法及***,能够充分考虑近邻节点信息进而通过基于层次优先的随机游走采样实现网络嵌入向量表征学习。
本发明所采用的第一技术方案是:基于层次随机游走采样策略的嵌入向量表示方法,包括以下步骤:
设置网络结构节点参数并在网络结构中随机选取节点,得到起始节点;
对起始节点进行邻域划分处理,得到节点层;
根据节点选取规则,对节点层进行随机游走处理,获取节点游走序列;
对所获取的节点游走序列输入至word2vec模型中进行向量化表征训练,得到所有游走节点对应的网络嵌入向量表征。
进一步,所述设置网络结构节点参数并在网络结构中随机选取节点,得到起始节点这一步骤,其具体包括:
设置网络结构节点参数,其中所述网络结构节点参数包括起始节点的游走序列的数量长度上限、节点游走序列在一次游走中的总长度、节点游走序列在子节点层中的游走总长度和节点游走序列在孙子节点层中的游走总长度;
根据起始节点选取条件在网络结构中随机选取节点,得到起始节点,所述起始节点选取条件为在当前已经获得的游走序列集合中以该节点为起始节点计算其对应的节点游走序列数量长度且需小于起始节点的游走序列的数量长度上限。
进一步,所述对起始节点进行邻域划分处理,得到节点层这一步骤,其具体包括:
对起始节点进行预处理,得到预处理后的起始节点;
将预处理后的起始节点的直接邻居节点进行连接处理并划分子节点层范围,生成子节点层;
将预处理后的起始节点的间接邻居节点进行连接处理并划分孙子节点层范围,生成孙子节点层;
整合子节点层与孙子节点层,构建节点层。
进一步,所述对起始节点进行预处理,得到预处理后的起始节点这一步骤,其具体包括:
对起始节点的属性进行判断;
判断到所述起始节点存在自环,对其进行去除自环处理;
判断所述起始节点为孤立节点,保留该起始节点;
整合去除自环处理后的起始节点与孤立节点,得到预处理后的起始节点。
进一步,所述根据节点选取规则,对节点层进行随机游走处理,获取节点游走序列这一步骤,其具体包括:
根据节点选取规则,对节点层进行添加权重处理,得到具有权重值的节点层;
所述具有权重值的节点层包括具有权重值的子节点层与具有权重值的孙子节点层;
根据子节点层范围对具有权重值的子节点层进行随机游走处理,得到子节点游走序列;
根据孙子节点层范围对具有权重值的孙子节点层进行随机游走处理,得到孙子节点游走序列;
整合子节点游走序列与孙子节点游走序列,获取节点游走序列。
进一步,所述根据子节点层范围对具有权重值的子节点层进行随机游走处理,得到子节点游走序列这一步骤,其具体包括:
对子节点层进行初始化处理,所述初始化处理过程包括定义初始节点为头节点以及当前节点,初始化一次游走中用于存放游走序列的列表与用于临时存放已经采样过的节点的集合的列表为空;
根据节点的权重值在子节点层范围内选取一个自由子节点,并将当前节点所指向自由子节点的节点序列嵌入至一次游走中用于存放游走序列的列表与用于临时存放已经采样过的节点的集合的列表;
对当前节点所指向自由子节点的节点序列进行判断;
判断到当前节点所指向自由子节点的节点序列存在兄弟节点且该兄弟节点不存在于用于临时存放已经采样过的节点的集合的列表中,将该兄弟节点嵌入至用于临时存放已经采样过的节点的集合的列表,所述兄弟节点为相邻节点之间存在连边;
判断到当前节点所指向自由子节点的节点序列不存在兄弟节点且该兄弟节点不存在于用于临时存放已经采样过的节点的集合的列表中,将当前节点所指向头节点的节点序列嵌入至用于临时存放已经采样过的节点的集合的列表;
直至所述用于临时存放已经采样过的节点的集合的列表的长度等于节点游走序列在一次游走中的总长度与节点游走序列在子节点层中的游走总长度的乘积长度,输出子节点游走序列。
进一步,所述根据孙子节点层范围对具有权重值的孙子节点层进行随机游走处理,得到孙子节点游走序列这一步骤,其具体包括:
获取子节点游走序列并选取该列表中最后一个节点为根节点,若最后一个节点为起始节点则选取该列表中倒数第二个节点为根节点;
将根节点定义为孙子节点层的头节点;
获取当前节点所指向孙子节点层的头节点的节点序列并定义为孙子节点层范围;
根据节点的权重值在孙子节点层范围内选取一个自由孙子节点,且该自由孙子节点不存在于用于临时存放已经采样过的节点的集合的列表中;
获取当前节点所指向自由孙子节点的节点序列并进行判断;
判断到当前节点所指向自由孙子节点的节点序列存在兄弟节点且该兄弟节点不存在于用于临时存放已经采样过的节点的集合的列表中,将该兄弟节点嵌入至用于临时存放已经采样过的节点的集合的列表;
判断到当前节点所指向自由孙子节点的节点序列不存在兄弟节点且该兄弟节点不存在于用于临时存放已经采样过的节点的集合的列表中,将当前节点所指向孙子节点层的头节点的节点序列嵌入至用于临时存放已经采样过的节点的集合的列表;
直至所述用于临时存放已经采样过的节点的集合的列表的长度等于节点游走序列在一次游走中的总长度与节点游走序列在子节点层中的游走总长度的乘积和节点游走序列在一次游走中的总长度与节点游走序列在孙子节点层中的游走总长度的乘积之和,输出孙子节点游走序列。
进一步,所述对所获取的节点游走序列输入至word2vec模型中进行向量化表征训练,得到所有游走节点对应的网络嵌入向量表征这一步骤,其具体包括:
将节点游走序列输入至word2vec模型中进行编码处理并构建参数矩阵,所述参数矩阵包括中心词矩阵与周围词矩阵;
对编码后的节点游走序列与中心词矩阵进行相乘计算处理,得到中心词向量;
对编码后的节点游走序列与周围词矩阵进行相乘计算处理,得到周围词向量;
结合中心词向量与周围词向量并进行归一化处理,得到所有游走节点对应的网络嵌入向量表征。
本发明所采用的第二技术方案是:基于层次随机游走采样策略的嵌入向量表示***,包括:
选取模块,用于设置网络结构节点参数并在网络结构中随机选取节点,得到起始节点;
划分模块,用于对起始节点进行邻域划分处理,得到节点层;
游走模块,用于根据节点选取规则,对节点层进行随机游走处理,获取节点游走序列;
训练模块,用于对所获取的节点游走序列输入至word2vec模型中进行向量化表征训练,得到所有游走节点对应的网络嵌入向量表征。
本发明方法及***的有益效果是:本发明首先输入相关网络结构参数,在网络中按照预设的起始节点选取条件选取当前节点为起始节点后,进行邻域的划分并设置节点选取规则,能够充分考虑近邻节点信息,可以充分的体现网络中每个节点的局部信息,再在子节点层范围和孙子节点层范围内先后进行游走得到游走序列,并在游走过程中考虑节点在网络中的权重关系,最终得到一定数量的以网络中各个节点为起始节点的节点游走序列,实现基于层次优先的随机游走采样进而得到网络嵌入向量表征,可以供下游机器学习任务输入使用,层次优先的方法也体现了对于节点权重的考虑,优先对应表现了节点的重要程度。
附图说明
图1是本发明基于层次随机游走采样策略的嵌入向量表示方法的步骤流程图;
图2是本发明基于层次随机游走采样策略的嵌入向量表示***的结构框图;
图3是本发明实现嵌入向量表示学习方法全过程的概述流程图;
图4是本发明子节点层子节点层进行随机游走处理的具体流程示意图;
图5是本发明孙子节点层子节点层进行随机游走处理的具体流程示意图;
图6是本发明对起始节点进行邻域划分处理的步骤流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
首先,对于算法中出现的符号进行如下说明:
walk_all表示用于存放获得的游走序列的集合列表;node_choice表示节点选取规则;num_walk表示以网络中任一节点为起始节点的游走序列的数量上限;w表示游走序列在一次游走中的总长度;s表示游走序列在子节点层中的游走总长度;g表示游走序列在孙子节点层中的游走总长度;head表示头节点;head2表示孙子节点层游走的起始节点;p表示当前节点;walk表示一次游走中用于存放游走序列的列表;have_walked表示用于临时存放已经采样过的节点的集合的列表;son表示子节点层游走范围;gson表示孙子节点层游走范围。
参照图1,本发明提供了基于层次随机游走采样策略的嵌入向量表示方法,该方法包括以下步骤:
S1、输入参数;
具体地,输入参数包括num_walk,w,s,g;设定每个节点为起始节点生成的游走序列总长度为w,设定在子节点层的游走过程中产生的游走序列长度占预定游走序列总长度的比例为s,在孙子节点层的游走过程中产生的游走序列长度占预定游走序列总长度的比例为g,s和g的和须为1并且任意层的游走长度需大于等于1。
S2、选取节点;
具体地,从网络中随机选取一个节点作为起始节点,该节点满足条件:在当前已经获得的游走序列集合中,以该节点为起始节点的游走序列数量小于num_walk,若不存在满足该条件的节点,则游走过程结束。
S3、节点邻域划分;
具体地,参照图6,对起始节点进行邻域划分,若当前节点存在自环,则将该自环去除,若当前节点为孤立节点,则直接生成一条以该节点为头节点,长度为1的游走序列并返回,无需进行后续处理,其中,所述自环节点的判断依据为一条连接节点和其自身的边,所述孤立节点的判断依据为对于一个节点,不存在任何边与其相连;
以起始节点的直接邻居节点为子节点层,以起始节点的间接邻居节点为孙子节点层,将这两层定义为起始节点的邻域,限制游走的范围,同时,保留这两层内所有节点之间的连边,对于同一层内任意两个节点若具有连边,则称该对节点为兄弟节点;
即在网络结构中,对任一节点,其本身与其临近节点的表现的信息较为重要,充分考虑近邻信息可以充分的体现网络中每个节点的局部信息。
S4、起始节点选取规则;
具体地,node_choice的节点选择规则是,对于得到的子节点层和孙子节点层应用节点权重算法,使得子节点层以及孙子节点层中的所有节点与其在网络中的重要程度相关联,在后续所有取得节点时,考虑节点的权重,每次取得一个节点时,取得该节点的概率与其重要程度成正比,节点权重越大,取得该节点得概率越大;
进一步的,所述节点权重的赋予算法为pagerank算法,其计算过程为:
对网络中所有节点赋予初始值PR,PR=1/N,其中N为网络中节点的总数,通过如下公式对网络中所有节点进行迭代:
上式中,PR(a)表示当前节点a的PR值,PR(Ti)表示其他各个节点(与a有边相连)的PR值,L(Ti)表示其他各个节点(与a有边相连)的边数,i表示当前时刻或迭代次数;
不断迭代直到所有节点的PR值不再变化,将PR值视为节点的权重,PR值越大,则该节点在网络中的权重越大,PR值越小,则该节点在网络中的权重越小。
S5、在子节点层范围son内进行游走并在游走过程考虑节点权重;
具体地,参照图4,将起始节点定义为头节点head以及当前节点p,p指向head,初始化游走序列walk为空,初始化已经取过的节点集合have_walked为空,初始化子节点层游走范围son为子节点层所有节点,在循环过程中,若walk此时不为空且walk中最后一个节点为head,则从walk中将最后一个节点删除。将p所指向节点放入walk,have_walked中;
首先从son中任意选取(node_choice规则)一个have_walked中不存在的节点,将p指向该节点,并将p所指向节点放入游走序列walk和have_walked中;此时,检查p在son中是否存在兄弟节点,若满足存在一个或多个兄弟节点且该兄弟节点不存在于have_walked中,则从兄弟节点中随机选取(node_choice规则)一个节点并将当前节点p指向该节点,将p放入walk和have_walked中;若当前节点不满足存在一个或多个兄弟节点且该兄弟节点不存在于have_walked中,则将当前节点p指向头节点head,将当前节点p放入walk和have_walked中;对p重复上述规则选取下一节点进行游走,且游走序列walk中每放入一个节点,就检查游走序列长度s*w,当游走序列长度等于s*w时,结束子节点层的游走,若当have_walked中已经拥有son中所有的节点且游走序列长度小于s*w,则重复上述操作从初始化have_walked开始,以此类推。
S6、在孙子节点层范围gson内进行游走并在游走过程考虑节点权重;
具体地,参照图5,对游走序列walk,获取该游走序列中的最后一个节点,若walk最后一个结点为起始节点,则取序列中倒数第二个节点,将取得的节点保存为根节点的孙子节点层的头节点head2,p指向head2,初始化head2的邻居节点和孙子节点层的交集作为孙子节点层的游走范围gson,若walk中的最后一个节点不为p,则将p放入walk中,初始化have_walked为空;
从gson中选取(node_choice规则)一个have_walked中不存在的节点,p指向该节点,将p所指向的节点放入walk和have_walked中,检查当前节点是否满足存在gson中的兄弟节点,若满足存在一个或多个兄弟节点且have_walked中不存在这些兄弟节点,则从兄弟节点中选取(node_choice规则)一个have_walked中不存在的节点,并将p指向该节点,将p放入walk和have_walked中;
若当前节点不满足存在一个或多个兄弟节点且have_walked中不存在这些兄弟节点,则将p指向头节点head2,将p所指向的节点放入walk和have_walked中;对p重复上述规则选取下一节点进行游走,且游走序列中每放入一个节点,就检查walk长度是否小于s*w+g*w。当walk长度等于s*w+g*w时,结束孙子节点层的游走,若have_walked中已经拥有gson中所有节点(head2的邻居节点和孙子节点层的交集)且walk长度没有达到停止条件,则将head添加到walk中;此时将当前节点p指向head,进行如下操作:
从子节点层中随机取得一个节点(node_choice规则)定义为head2并放入游走序列,p指向head2,再对head2取其邻居节点和孙子层的交集作为孙子节点层的游走范围gson。重复上述操做(从初始化have_walked开始)若当前操作完成后,walk长度依旧没有达到停止条件,则将head放入游走序列,重复该操作直至达到停止条件。
S7、获取网络嵌入向量。
具体地,按照预先定义的次数将上述方式应用于网络中所有节点后,对每个节点都得到相同数量的随机游走序列(walk_all),将这些游走序列放入word2vec模型中训练,得到网络嵌入向量表示,其中所述word2vec模型训练的使用算法为skip-gram算法,该算法的作用是通过已知词wt的前提来预测其上下文,训练过程为将wt的one-hot编码输入到输入层,构建参数矩阵:中心词矩阵和周围词矩阵,其中中心词矩是V*N维,周围词矩阵是N*V维,V表示为词典大小,N表示词向量的维度,将wt的one-hot编码乘以中心词向量矩阵W,得到一个1*N维的向量,该向量视为wt的中心词向量表示,使用得到的中心词向量乘以周围词向量矩阵U,对得到的最终向量结果即未归一化的输出值向量y=Utanh(Wx+p)+q,其中p,q代表隐藏层和输出层上的偏置向量,对y使用softmax归一化处理,归一化的后的概率越大,表示该词的wt的相关性越大,进行反向传播,更新W和U矩阵,最终实现损失函数最小化,对于word2vec模型,单词与单词之间的上下文就相当于这个节点的邻居,单词与单词之间的相关性则相当于节点间的权重参数,那么根据某个单词推断一句话则相当于在网络中随机游走的一条节点序列。
综上,参照图3,本发明提出一种充分考虑近邻节点信息,基于层次优先的随机游走采样策略实现的嵌入向量表示学习方法,网络中可能存在某些关键节点,该类节点与网络中其他大部分节点有关联,通过层级遍历可以有效的体现出该类节点的存在,同时,层次优先的方法也体现了对于节点权重的考虑,优先对应表现了节点的重要程度,通过对网络中每一个节点为起始节点按照一定规则生成指定数量的游走序列,首先输入相关参数,在网络中按照一定规则选取当前节点后,进行邻域的划分并设置节点选取规则,再在子节点层范围和孙子节点层范围内先后进行游走得到游走序列,并在游走过程中考虑节点在网络中的权重关系,最终得到一定数量的以网络中各个节点为起始节点的游走序列,将得到游走序列放入机器学习模型中进行训练,得到网络嵌入向量表示,供下游机器学习任务输入使用。
参照图2,基于层次随机游走采样策略的嵌入向量表示***,包括:
选取模块,用于设置网络结构节点参数并在网络结构中随机选取节点,得到起始节点;
划分模块,用于对起始节点进行邻域划分处理,得到节点层;
游走模块,用于根据节点选取规则,对节点层进行随机游走处理,获取节点游走序列;
训练模块,用于对所获取的节点游走序列输入至word2vec模型中进行向量化表征训练,得到所有游走节点对应的网络嵌入向量表征。
综上,本发明可以用于对于在网络社交平台,通过将每个用户视为一个节点,将所有的用户构成一个网络,将用户与用户之间的好友关系视为节点与节点间的连边,通过本发明可以预测两个没有两边的节点间是否存在可能存在连边。即对于社交平台上的两个用户,通过他们的共同好友判断这两个用户是否可能为好友,在这个基础可以添加除了好友关系外的其他关系如关注的博主,喜好的运动之类属性加入到网络中,从而达到为用户进行精准推送的效果,本发明并不局限于上述邻域的应用,更多的可以用于供下游机器学习输入使用。
上述方法实施例中的内容均适用于本***实施例中,本***实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (9)

1.基于层次随机游走采样策略的嵌入向量表示方法,其特征在于,包括以下步骤:
设置网络结构节点参数并在网络结构中随机选取节点,得到起始节点;
对起始节点进行邻域划分处理,得到节点层;
根据节点选取规则,对节点层进行随机游走处理,获取节点游走序列;
对所获取的节点游走序列输入至word2vec模型中进行向量化表征训练,得到所有游走节点对应的网络嵌入向量表征。
2.根据权利要求1所述基于层次随机游走采样策略的嵌入向量表示方法,其特征在于,所述设置网络结构节点参数并在网络结构中随机选取节点,得到起始节点这一步骤,其具体包括:
设置网络结构节点参数,其中所述网络结构节点参数包括起始节点的游走序列的数量长度上限、节点游走序列在一次游走中的总长度、节点游走序列在子节点层中的游走总长度和节点游走序列在孙子节点层中的游走总长度;
根据起始节点选取条件在网络结构中随机选取节点,得到起始节点,所述起始节点选取条件为在当前已经获得的游走序列集合中以该节点为起始节点计算其对应的节点游走序列数量长度且需小于起始节点的游走序列的数量长度上限。
3.根据权利要求2所述基于层次随机游走采样策略的嵌入向量表示方法,其特征在于,所述对起始节点进行邻域划分处理,得到节点层这一步骤,其具体包括:
对起始节点进行预处理,得到预处理后的起始节点;
将预处理后的起始节点的直接邻居节点进行连接处理并划分子节点层范围,生成子节点层;
将预处理后的起始节点的间接邻居节点进行连接处理并划分孙子节点层范围,生成孙子节点层;
整合子节点层与孙子节点层,构建节点层。
4.根据权利要求3所述基于层次随机游走采样策略的嵌入向量表示方法,其特征在于,所述对起始节点进行预处理,得到预处理后的起始节点这一步骤,其具体包括:
对起始节点的属性进行判断;
判断到所述起始节点存在自环,对其进行去除自环处理;
判断所述起始节点为孤立节点,保留该起始节点;
整合去除自环处理后的起始节点与孤立节点,得到预处理后的起始节点。
5.根据权利要求4所述基于层次随机游走采样策略的嵌入向量表示方法,其特征在于,所述根据节点选取规则,对节点层进行随机游走处理,获取节点游走序列这一步骤,其具体包括:
根据节点选取规则,对节点层进行添加权重处理,得到具有权重值的节点层;
所述具有权重值的节点层包括具有权重值的子节点层与具有权重值的孙子节点层;
根据子节点层范围对具有权重值的子节点层进行随机游走处理,得到子节点游走序列;
根据孙子节点层范围对具有权重值的孙子节点层进行随机游走处理,得到孙子节点游走序列;
整合子节点游走序列与孙子节点游走序列,获取节点游走序列。
6.根据权利要求5所述基于层次随机游走采样策略的嵌入向量表示方法,其特征在于,所述根据子节点层范围对具有权重值的子节点层进行随机游走处理,得到子节点游走序列这一步骤,其具体包括:
对子节点层进行初始化处理,所述初始化处理过程包括定义初始节点为头节点以及当前节点,初始化一次游走中用于存放游走序列的列表与用于临时存放已经采样过的节点的集合的列表为空;
根据节点的权重值在子节点层范围内选取一个自由子节点,并将当前节点所指向自由子节点的节点序列嵌入至一次游走中用于存放游走序列的列表与用于临时存放已经采样过的节点的集合的列表;
对当前节点所指向自由子节点的节点序列进行判断;
判断到当前节点所指向自由子节点的节点序列存在兄弟节点且该兄弟节点不存在于用于临时存放已经采样过的节点的集合的列表中,将该兄弟节点嵌入至用于临时存放已经采样过的节点的集合的列表,所述兄弟节点为相邻节点之间存在连边;
判断到当前节点所指向自由子节点的节点序列不存在兄弟节点且该兄弟节点不存在于用于临时存放已经采样过的节点的集合的列表中,将当前节点所指向头节点的节点序列嵌入至用于临时存放已经采样过的节点的集合的列表;
直至所述用于临时存放已经采样过的节点的集合的列表的长度等于节点游走序列在一次游走中的总长度与节点游走序列在子节点层中的游走总长度的乘积长度,输出子节点游走序列。
7.根据权利要求6所述基于层次随机游走采样策略的嵌入向量表示方法,其特征在于,所述根据孙子节点层范围对具有权重值的孙子节点层进行随机游走处理,得到孙子节点游走序列这一步骤,其具体包括:
获取子节点游走序列并选取该列表中最后一个节点为根节点,若最后一个节点为起始节点则选取该列表中倒数第二个节点为根节点;
将根节点定义为孙子节点层的头节点;
获取当前节点所指向孙子节点层的头节点的节点序列并定义为孙子节点层范围;
根据节点的权重值在孙子节点层范围内选取一个自由孙子节点,且该自由孙子节点不存在于用于临时存放已经采样过的节点的集合的列表中;
获取当前节点所指向自由孙子节点的节点序列并进行判断;
判断到当前节点所指向自由孙子节点的节点序列存在兄弟节点且该兄弟节点不存在于用于临时存放已经采样过的节点的集合的列表中,将该兄弟节点嵌入至用于临时存放已经采样过的节点的集合的列表;
判断到当前节点所指向自由孙子节点的节点序列不存在兄弟节点且该兄弟节点不存在于用于临时存放已经采样过的节点的集合的列表中,将当前节点所指向孙子节点层的头节点的节点序列嵌入至用于临时存放已经采样过的节点的集合的列表;
直至所述用于临时存放已经采样过的节点的集合的列表的长度等于节点游走序列在一次游走中的总长度与节点游走序列在子节点层中的游走总长度的乘积和节点游走序列在一次游走中的总长度与节点游走序列在孙子节点层中的游走总长度的乘积之和,输出孙子节点游走序列。
8.根据权利要求7所述基于层次随机游走采样策略的嵌入向量表示方法,其特征在于,所述对所获取的节点游走序列输入至word2vec模型中进行向量化表征训练,得到所有游走节点对应的网络嵌入向量表征这一步骤,其具体包括:
将节点游走序列输入至word2vec模型中进行编码处理并构建参数矩阵,所述参数矩阵包括中心词矩阵与周围词矩阵;
对编码后的节点游走序列与中心词矩阵进行相乘计算处理,得到中心词向量;
对编码后的节点游走序列与周围词矩阵进行相乘计算处理,得到周围词向量;
结合中心词向量与周围词向量并进行归一化处理,得到所有游走节点对应的网络嵌入向量表征。
9.基于层次随机游走采样策略的嵌入向量表示***,其特征在于,包括以下模块:
选取模块,用于设置网络结构节点参数并在网络结构中随机选取节点,得到起始节点;
划分模块,用于对起始节点进行邻域划分处理,得到节点层;
游走模块,用于根据节点选取规则,对节点层进行随机游走处理,获取节点游走序列;
训练模块,用于对所获取的节点游走序列输入至word2vec模型中进行向量化表征训练,得到所有游走节点对应的网络嵌入向量表征。
CN202211423375.XA 2022-11-15 2022-11-15 基于层次随机游走采样策略的嵌入向量表示方法及*** Active CN116090525B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211423375.XA CN116090525B (zh) 2022-11-15 2022-11-15 基于层次随机游走采样策略的嵌入向量表示方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211423375.XA CN116090525B (zh) 2022-11-15 2022-11-15 基于层次随机游走采样策略的嵌入向量表示方法及***

Publications (2)

Publication Number Publication Date
CN116090525A true CN116090525A (zh) 2023-05-09
CN116090525B CN116090525B (zh) 2024-02-13

Family

ID=86201382

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211423375.XA Active CN116090525B (zh) 2022-11-15 2022-11-15 基于层次随机游走采样策略的嵌入向量表示方法及***

Country Status (1)

Country Link
CN (1) CN116090525B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105741175A (zh) * 2016-01-27 2016-07-06 电子科技大学 一种对在线社交网络中账户进行关联的方法
CN111222053A (zh) * 2019-11-27 2020-06-02 腾讯音乐娱乐科技(深圳)有限公司 一种对象推荐方法、装置以及相关设备
WO2020261234A1 (en) * 2019-06-28 2020-12-30 Tata Consultancy Services Limited System and method for sequence labeling using hierarchical capsule based neural network
CN114255050A (zh) * 2021-12-21 2022-03-29 上海淇玥信息技术有限公司 一种识别业务异常用户的方法、装置和电子设备
CN114580130A (zh) * 2022-04-28 2022-06-03 北京建筑大学 基于邻接信息熵与随机游走的链路预测方法及装置
CN114707066A (zh) * 2022-04-01 2022-07-05 福州大学 基于社区感知和自适应随机游走的景点推荐方法及***
WO2022179384A1 (zh) * 2021-02-26 2022-09-01 山东英信计算机技术有限公司 一种社交群体的划分方法、划分***及相关装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105741175A (zh) * 2016-01-27 2016-07-06 电子科技大学 一种对在线社交网络中账户进行关联的方法
WO2020261234A1 (en) * 2019-06-28 2020-12-30 Tata Consultancy Services Limited System and method for sequence labeling using hierarchical capsule based neural network
CN111222053A (zh) * 2019-11-27 2020-06-02 腾讯音乐娱乐科技(深圳)有限公司 一种对象推荐方法、装置以及相关设备
WO2022179384A1 (zh) * 2021-02-26 2022-09-01 山东英信计算机技术有限公司 一种社交群体的划分方法、划分***及相关装置
CN114255050A (zh) * 2021-12-21 2022-03-29 上海淇玥信息技术有限公司 一种识别业务异常用户的方法、装置和电子设备
CN114707066A (zh) * 2022-04-01 2022-07-05 福州大学 基于社区感知和自适应随机游走的景点推荐方法及***
CN114580130A (zh) * 2022-04-28 2022-06-03 北京建筑大学 基于邻接信息熵与随机游走的链路预测方法及装置

Also Published As

Publication number Publication date
CN116090525B (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
Keogh et al. Learning the structure of augmented Bayesian classifiers
CN113360915B (zh) 基于源代码图表示学习的智能合约多漏洞检测方法及***
CN112380319B (zh) 一种模型训练的方法及相关装置
CN106570128A (zh) 一种基于关联规则分析的挖掘算法
CN111625276B (zh) 基于语义与语法信息融合的代码摘要生成方法及***
CN112487807A (zh) 一种基于膨胀门卷积神经网络的文本关系抽取方法
CN109447261B (zh) 一种基于多阶邻近相似度的网络表示学习的方法
CN113761893B (zh) 一种基于模式预训练的关系抽取方法
CN112651436A (zh) 一种基于权重不确定的图卷积神经网络的优化方法、装置
CN114063992B (zh) 一种低代码开发平台的建模方法及***
Adenis et al. State splitting and state merging in probabilistic finite state automata
CN114861746A (zh) 基于大数据的反欺诈识别方法、装置及相关设备
CN113705099A (zh) 基于对比学***台谣言检测模型构建方法及检测方法
US20230289618A1 (en) Performing knowledge graph embedding using a prediction model
CN116090525B (zh) 基于层次随机游走采样策略的嵌入向量表示方法及***
CN113076319B (zh) 基于离群值检测技术和位图索引的动态数据库填充方法
CN107766076B (zh) 一种概率选择的软件模块聚类方法
CN117931659A (zh) 一种测试用例生成及模糊测试方法、***及可存储介质
Balafoutis et al. Algorithms for stochastic CSPs
CN117763363A (zh) 基于知识图谱与提示学习的跨网络学术社区资源推荐方法
CN115984025A (zh) 基于深度学习图网络模型的影响力传播估计方法及***
CN114254108B (zh) 一种中文文本对抗样本生成的方法、***及介质
CN114780852A (zh) 一种基于双向编码和状态复用的序列推荐算法
CN116860981A (zh) 潜在客户挖掘方法及装置
CN114528491A (zh) 信息处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant