CN108228728B - 一种参数化的论文网络节点表示学习方法 - Google Patents

一种参数化的论文网络节点表示学习方法 Download PDF

Info

Publication number
CN108228728B
CN108228728B CN201711308050.6A CN201711308050A CN108228728B CN 108228728 B CN108228728 B CN 108228728B CN 201711308050 A CN201711308050 A CN 201711308050A CN 108228728 B CN108228728 B CN 108228728B
Authority
CN
China
Prior art keywords
paper
node
queue
neighbor
thesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201711308050.6A
Other languages
English (en)
Other versions
CN108228728A (zh
Inventor
蒲菊华
陈虞君
刘伟
班崟峰
杜佳鸿
熊璋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Beihang Emerging Industrial Technology Research Institute
Beihang University
Original Assignee
Shenzhen Beihang Emerging Industrial Technology Research Institute
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Beihang Emerging Industrial Technology Research Institute, Beihang University filed Critical Shenzhen Beihang Emerging Industrial Technology Research Institute
Priority to CN201711308050.6A priority Critical patent/CN108228728B/zh
Publication of CN108228728A publication Critical patent/CN108228728A/zh
Application granted granted Critical
Publication of CN108228728B publication Critical patent/CN108228728B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种参数化的论文网络节点表示学习方法,该方法首先构建一个空的论文节点队列,然后采用随机游走方式采样任意一个论文节点的邻居节点、及邻居的邻居节点;并将选取的论文节点作为论文节点队列的第一个元素,随后依据跳转概率得到论文节点队列的其他元素;遍历完成所有的论文节点,则有论文节点队列集合;然后采用正负采样方法生成多层感知机的神经网络训练数据;最后采用神经网络论文概率模型进行处理,得到论文节点语义信息到论文节点向量表示的非线性变换,进而得到论文节点的向量表示。

Description

一种参数化的论文网络节点表示学习方法
技术领域
本发明涉及论文网络的表示学习方法,更特别地说,是指一种参数化的论文网络节点表示学习方法。
背景技术
社交网络属于互联网概念名词。例如Blog、WIKI、Tag、SNS、RSS等的社交网络服务平台。互联网导致一种全新的人类社会组织和生存模式悄然走进本发明,构建了一个超越地球空间之上的、巨大的群体—网络群体,21世纪的人类社会正在逐渐浮现出崭新的形态与特质,网络全球化时代的个人正在聚合为新的社会群体。论文网络是指论文与论文之间的关系网络化,在网上表现为论文之间的相互引用及共享作者等。
目前论文网络的表示学习大都采用的是非参数化模型,如“DeepWalk:OnlineLearning of Social Representations”译文为:深度行走:社交表示的在线学习,BryanPerozzi等,26Mar 2014;该文献中使用word2vec非参数化方法对论文网络的表示进行学习。
网络结构是指网络在物理上的连通性。网络的拓扑结构有很多种,如二维结构有环形、星形、树形、近邻连接网以及搏动流水阵列等,参考《互连网络结构分析》,王鼎兴,陈国良编著,1990年10月,第36-38页内容。随着网络的发展,也出现了如网状结构、蜂窝状结构等。
目前的论文网络的表示学习方法必须要遍历完成所有论文网络中的论文,才能学习论文的表示。当论文网络有新增加论文时将不能进行新增论文的表示学习,无法进一步的完成新增论文的分类、分析工作。
发明内容
为了解决新增论文无法进行表示学习的问题,本发明提出了一种参数化的论文网络节点表示学习方法。在本发明中,首先借助随机游走统计模型对星形论文网络结构进行采样,得到论文节点向量信息;采样完成的论文节点队列由一连串的论文节点所组成,每一次对下一个论文节点的选择都是随机的;。在进行论文网络采样步骤之后,本发明构建了一个基于孪生网络框架的深度神经网络,其中孪生网络的两个完全相同的子网络是由多层感知机(MLP)组成的,本发明将学习到的多层感知机作为非线性映射函数,通过构建从网络节点富文本信息到网络节点表示向量的非线性映射函数得到网络节点表示向量。
本发明提出了一种参数化的论文网络节点表示学习方法,其特征在于包括有下列步骤:
步骤一,基于随机游走方法采样获取任意一个论文节点的邻居—论文节点集、及邻居的邻居—论文节点集;
步骤101:构建一个论文节点空队列,记为V,所述V用来存储论文节点序列;论文节点空队列V的最大队列元素位数为mv,mv的取值为10~20;然后执行步骤102;
步骤102:选取任意一个论文节点papera,然后将所述papera放入论文节点队列V中第1位;然后执行步骤103;
步骤103:获取属于任意一个论文节点papera的全部邻居论文节点集,记为
Figure BDA0001502383970000021
邻居论文节点是指与任意一个论文节点papera之间存在连边的论文节点集合;然后执行步骤104;
步骤104:根据所述邻居论文节点集
Figure BDA0001502383970000022
中邻居节点总数B确定跳转到第一跳转概率
Figure BDA0001502383970000023
c表示跳数;然后执行步骤105;
步骤105:采用别名采样算法(alias sampling),根据当前的
Figure BDA0001502383970000024
在所述
Figure BDA0001502383970000025
中获取下一跳的邻居论文节点
Figure BDA0001502383970000026
同时将
Figure BDA0001502383970000027
放入论文节点队列V的第2位;然后执行步骤106;
步骤106:获取属于邻居论文节点
Figure BDA0001502383970000028
的全部邻居论文节点集,即邻居的邻居—论文节点集
Figure BDA0001502383970000029
然后执行步骤107;
步骤107:计算邻居论文节点
Figure BDA00015023839700000210
与任意一个论文节点papera之间的最短跳数
Figure BDA0001502383970000031
然后执行步骤108;
其中
Figure BDA0001502383970000032
代表的是从任意一个邻居论文节点到前一个论文节点的最少跳数距离;
步骤108:根据所述的
Figure BDA0001502383970000033
来确定
Figure BDA0001502383970000034
跳转到第二跳转概率
Figure BDA0001502383970000035
然后执行步骤109;
所述第二跳转概率
Figure BDA0001502383970000036
c表示跳数;
步骤109:经
Figure BDA0001502383970000037
确定之后,根据
Figure BDA0001502383970000038
和别名采样,选择
Figure BDA0001502383970000039
作为下一跳论文节点,同时将
Figure BDA00015023839700000310
放入论文节点队列V中的第3位;然后执行步骤110;
步骤110:循环执行步骤106和步骤109,直至论文节点队列V中的位数为mv时,本次随机游走停止;然后执行步骤111;
步骤111:对于整个论文网络中的每一个论文节点重复执行步骤101到步骤110,来完成论文节点的邻居节点采样,则有论文节点队列集合记为VF={V1,V2,...,Vf,...,VF};然后执行步骤201;
V1表示第一个论文节点队列;
V2表示第二个论文节点队列;
Vf表示任意一个论文节点队列,f表示论文节点队列的标识号;
VF表示最后一个论文节点队列,F表示论文节点队列集合的总数,f∈F;
步骤二,采用负采样方法生成多层感知机的神经网络训练数据;
步骤201:建立正样本队列Qp和负样本队列Qn,分别存放训练神经网络所需要的正采样数据和负采样数据,然后执行步骤202;
步骤202:设立邻居窗口大小超参数WD,若WD在论文节点队列Vf中,则属于论文节点队列Vf中的各个论文记为
Figure BDA00015023839700000311
然后执行步骤203;
Figure BDA00015023839700000312
表示属于任意一个论文节点队列Vf的第一个论文节点;
Figure BDA00015023839700000313
表示属于任意一个论文节点队列Vf的第二个论文节点;
Figure BDA0001502383970000041
表示属于任意一个论文节点队列Vf的任意一个论文节点,g表示邻居论文节点的标识号;
Figure BDA0001502383970000042
表示属于任意一个论文节点队列Vf的最后一个论文节点,G表示论文节点队列Vf的长度,g∈G;
对于任意一个论文队列中的节点在本发明中,认为在队列中与节点距离小于WD的全部节点为正样本节点;每次,对于任意一个论文节点本发 明先获取属于的2×WD个相邻论文节点集,记为
Figure BDA0001502383970000047
Figure BDA0001502383970000048
表示在相邻论文节点
Figure BDA0001502383970000049
中最小标识号的节点;
Figure BDA00015023839700000410
表示在相邻论文节点
Figure BDA00015023839700000411
中最大标识号的节点;
Figure BDA00015023839700000412
表示在相邻论文节点
Figure BDA00015023839700000413
中除
Figure BDA00015023839700000414
Figure BDA00015023839700000415
以外的队列—相邻论文节点,下角标l表示不是最大也不是最小论文节点的标识号;
步骤203:对于任意一个任意队列—论文节点
Figure BDA00015023839700000416
按照其邻居标识号的顺序,从小到大进行采样,采样过程为对所述
Figure BDA00015023839700000417
中的各个节点与任意队列—论文节点
Figure BDA00015023839700000418
构成一个三元组,然后执行步骤204;
对于所述
Figure BDA00015023839700000419
与任意队列—论文节点
Figure BDA00015023839700000420
构成一个三元组,即(
Figure BDA00015023839700000421
δ),其中δ=+1代表该三元组为正样本,反之δ=-1则表示该三元组为负样本,并将(
Figure BDA00015023839700000422
δ)***正样本队列Qp中;
对于所述
Figure BDA00015023839700000423
与任意队列—论文节点
Figure BDA00015023839700000424
构成一个三元组,即(
Figure BDA00015023839700000425
Figure BDA00015023839700000426
δ),其中δ=+1代表该三元组为正样本,反之δ=-1则表示该三元组为负样本,并将(
Figure BDA00015023839700000427
δ)***正样本队列Qp中;
对于所述
Figure BDA00015023839700000428
与任意队列—论文节点
Figure BDA00015023839700000429
构成一个三元组,即(
Figure BDA00015023839700000430
δ),其中δ=+1代表该三元组为正样本,反之δ=-1则表示该三元组为负样本,并将(
Figure BDA00015023839700000431
δ)***正样本队列Qp中;
步骤204:循环执行步骤202和步骤203,直至论文节点队列集合VF={V1,V2,...,Vf,...,VF}中的所有论文节点队列中的所有论文节点都完成邻居论文节点的采样工作,得到正样本队列Qp,然后执行步骤207;
步骤205:对网络中所有论文节点进行采样,每次从网络中选取任意两个论文节点,即第一任意论文节点papera,第二任意论文节点papero;如果两个论文节点之间存在连边,或者两个随机选取的论文节点相同,则继续本步骤,否则将任意两个论文节点papera、papero组成三元组(papera,papero,-1)存入负样本队列Qn中,然后执行步骤206;
步骤206:循环执行步骤205,设立一个正负样本比例参数μ,假设正样本队列Qp中三元组个数为np,那么当Qn中的三元组数量等于μ×np时停止,然后执行步骤207;
步骤207:将步骤204中得到的正样本队列Qp与步骤206中得到的负样本队列Qn合并在一起,得到一个新的样本队列Q={Q1....,Q(1+μ)×np},,后执行步骤208;
Q1表示新的样本队列Q中的最小标识号的三元组;
Q(1+μ)×np表示新的样本队列Q中的最大标识号的三元组;下标(1+μ)×np代表样本队列Q中包含有(1+μ)×np个三元组;
步骤208:将新的样本队列Q={Q1....,Q(1+μ)×np}中的所有元素打乱顺序,得到乱序的样本队列Q排序={Q1....,Q(1+μ)×np},然后执行步骤301;
步骤三,在基于多层感知机的神经网络论文概率模型中的处理;
步骤301:针对步骤208得到的所述Q排序={Q1....,Q(1+μ)×np},每次选择一个三元组(papera,papero,δ),作为一对论文节点放入神经网络论文概率模型中进行学习,执行步骤302;
步骤302:对于每一个三元组中的两个论文节点papera与papero,采用模型
Figure BDA0001502383970000051
进行映射,得到两个相对应变换后的向量
Figure BDA0001502383970000052
执行步骤303;
Figure BDA0001502383970000053
为属于papera的多层感知机函数;
Figure BDA0001502383970000054
为属于papero的多层感知机函数;
步骤303:计算两个论文节点的欧氏距离,执行步骤304;
欧氏距离为:
Figure BDA0001502383970000055
Figure BDA0001502383970000056
Epos表示欧氏最短距离;Eneg表示欧氏最长距离;c表示跳数;
步骤304:利用δ将正负样本合并放入关于论文分布式表示的欧氏距离的损失函数中,并进行平衡正负样本的损失函数计算,得到整体的损失函数L,执行步骤305;
Figure BDA0001502383970000061
步骤305:采用随机梯度下降算法确定出非线性变换函数fθ,完成任意两个论文节点papera与papero的表示学习。
网络节点表示是用一个向量将网络中的各个节点进行描述。为了处理社交网络中的庞杂的信息和邻居节点关系,本发明提出了一种参数化的网络节点表示学习方法。这种网络节点表示学习方法能够学习到一个非线性的映射函数,使得可以简单的从网络节点的内容信息得到网络节点的向量表示。对于一个节点的向量表示,会先使用随机游走获取其周边节点,再依据孪生网络构建节点与其邻居节点之间的关系,进而学习确定非线性映射函数。为了验证本发明的效果,本发明采用Cora数据集,对论文网络的全部节点进行节点分类的工作,在该仿真实验中,通过本发明方法得到的网络节点表示向量在用相同SVM分类器的情况下,分类结果要显著比其他方法好,可以验证本发明在对论文网络进行网络节点表示方面是有效的。
附图说明
图1是本发明参数化的论文网络节点表示学习的流程图。
图2是在Cora数据集中Micro-F1指标的评价结果。
图3是在Cora数据集中Macro-F1指标的评价结果。
图4是在Wiki数据集中Micro-F1指标的评价结果。
图5是在Wiki数据集中Macro-F1指标的评价结果。
具体实施方式
下面将结合附图和实施例对本发明做进一步的详细说明。
在本发明中,论文记为paper,多篇论文paper构成一个论文集合,记为AP,且AP={paper1,paper2,…,papera,…,papero,…,paperA};所述论文集合AP中的任意一篇论文在星形论文网络结构中称为一个论文节点;
paper1表示第一个论文节点;
paper2表示第二个论文节点;
papera表示第a个论文节点,a表示论文节点的标识号;
paperA表示最后一个论文节点,A表示论文总数,a∈A。
为了方便说明,papera也称为任意一个论文节点,papero是除papera之外的另一个任意论文节点,下文中将papera称为第一任意论文节点,papero称为第二任意论文节点。
将属于任意一个论文节点papera的全部邻居论文节点记为
Figure BDA0001502383970000071
Figure BDA0001502383970000072
也简称为邻居—论文节点集;
Figure BDA0001502383970000073
表示属于任意一个论文节点papera的第一个邻居节点;
Figure BDA0001502383970000074
表示属于任意一个论文节点papera的第二个邻居节点;
Figure BDA0001502383970000075
表示属于任意一个论文节点papera的任意一个邻居节点,b表示邻居节点的标识号;
Figure BDA0001502383970000076
表示属于任意一个论文节点papera的最后一个邻居节点,B表示属于papera的邻居节点总数,B∈A。
将属于任意一个邻居节点
Figure BDA0001502383970000077
的全部邻居论文节点记为
Figure BDA0001502383970000078
Figure BDA0001502383970000079
也简称为邻居的邻居—论文节点集。
Figure BDA00015023839700000710
表示属于任意一个邻居论文节点
Figure BDA00015023839700000711
的第一个邻居节点;
Figure BDA00015023839700000712
表示属于任意一个邻居论文节点
Figure BDA00015023839700000713
的第二个邻居节点;
Figure BDA00015023839700000714
表示属于任意一个邻居论文节点
Figure BDA00015023839700000715
的任意一个邻居节点,e表示属于邻居论文节点
Figure BDA00015023839700000716
的邻居节点的标识号;
Figure BDA00015023839700000717
表示属于任意一个邻居论文节点
Figure BDA00015023839700000718
的最后一个邻居节点,E表示属于
Figure BDA00015023839700000719
的邻居节点总数(简称为邻居的邻居节点总数),E∈A。
在本发明中,采用的星形论文网络结构为《互连网络结构分析》第37页的图1.19(c)的结构。王鼎兴,陈国良编著;1990年10月第一版。
在本发明中,论文节点语义信息指的是将论文的题目、摘要、正文包含的单词通过词化处理进行向量表示。所述的词化处理为根据任意一论文内容中的论文节点语义信息出现与否进行0或1二值化的编码,从而得到所述论文内容对应的0或1表征的向量。“0”表示未出现,“1”表示出现。采用词化处理对属于星形论文网络结构中所有的论文节点进行处理,得到单词数与论文节点数关联的二维矩阵,简称为论文二值矩阵。
采用论文节点语义信息构建多层感知机的神经网络论文概率模型
在本发明中,论文概率模型的构建包括有:(A)设置神经网络论文概率模型表达式
Figure BDA0001502383970000081
(B)从AP={paper1,paper2,…,papera,…,papero,…,paperA}中选取任意两个论文节点papera与papero,并将papera与papero
Figure BDA0001502383970000082
中进行映射,分别得到属于papera的多层感知机函数
Figure BDA0001502383970000083
属于papero的多层感知机函数
Figure BDA0001502383970000084
(C)依据
Figure BDA0001502383970000085
Figure BDA0001502383970000086
计算papera与papero之间的欧氏距离,并进行平衡正负样本的损失函数处理;(D)采用随机梯度下降算法对属于fθ的权重参数WEIGHT和偏置参数BIAS进行处理,得到学习目标的非线性变换函数fθ,遍历所有的三元组,得到对论文节点语义信息的基于多层感知机的神经网络训练。
在本发明中,构建得到的基于多层感知机的神经网络论文概率模型表达式记为其中,fθ为非线性映射函数,为所述papera的论文节点语义信息。 通过对非线性映射函数fθ进行学习确定出非线性映射中的参数θ。基于非线性映射函数fθ可 以得到对于任意一篇论文papera的论文概率模型表达式
Figure BDA0001502383970000089
在本发明中,对于papera均有其对应的富文本信息
Figure BDA00015023839700000810
然后采用多层感知机神经网络得到所述
Figure BDA00015023839700000811
的非线性变换。假设多层感知机总共有H层,基于多层感知机的神经网络有各层的权重参数WEIGHT和偏置参数BIAS。
在本发明中,权重参数WEIGHT={weight1,weight2,...,weighth,...,weightH}。
在本发明中,偏置参数BIAS={bias1,bias2,...,biash,...,biasH}。
weight1表示神经网络中第一层网络的权重参数;
weight2表示神经网络中第二层网络的权重参数;
weighth表示神经网络中任意一层网络的权重参数,h表示感知机的层数标识号;
weightH表示神经网络中最后一层网络的权重参数,H表示感知机的总层数;
bias1表示神经网络中第一层网络的偏置参数;
bias2表示神经网络中第二层网络的偏置参数;
biash表示神经网络中任意一层网络的偏置参数;
biasH表示神经网络中最后一层网络的偏置参数。
对于多层感知机第一层输出记为
Figure BDA0001502383970000091
其中
Figure BDA00015023839700000916
代表多层感知机中第一层的输出,f1表示第一层神经网络的激活函数。
同理,多层感知机第二层输出记为
Figure BDA0001502383970000092
其中
Figure BDA0001502383970000093
代表多层感知机中第二层的输出,f2表示第二层神经网络的激活函数。
对于多层感知机任意一层输出记为
Figure BDA0001502383970000094
Figure BDA0001502383970000095
fh表示任意一层神经网络的激活函数。
对多层感知机最后一层输出记为
Figure BDA0001502383970000096
在本发明中,对于多层感知机的中任意一层的激活函数fh,一般都选择非线性函数,例如sigmoid或者tanh函数等。对于多层感知机的最后一层的输出
Figure BDA0001502383970000097
为多重非线性函数针对输入
Figure BDA0001502383970000098
的变换,因此可以简单刻画为
Figure BDA0001502383970000099
其中θ表示所有参数化函数的总和。将所述
Figure BDA00015023839700000910
作为基于多层感知机的神经网络论文概率模型最终输出,则有
Figure BDA00015023839700000911
在本发明中,为了使得表达空间中相似的点之间的欧氏距离尽可能的短,而不相似的点之间的欧氏距离尽可能的长。其基本形式为:
Figure BDA00015023839700000912
Figure BDA00015023839700000913
Epos表示欧氏最短距离;Eneg表示欧氏最长距离;c表示跳数。
在本发明中,由于三元组(papera,papero,δ)中的δ代表了该三元组是正样本还是负样本的标志,其中正样本可认为是需要在空间中相似的点,而负样本可以认为是需要在空间中距离尽可能远的点。因此,对于本应用而言,本发明可以利用δ将正负样本合并放入关于论文分布式表示的欧氏距离的损失函数中:
Figure BDA00015023839700000914
m表示Q排序中的任意一个三元组的标识号,
Figure BDA00015023839700000915
表示三元组m中的第一任意论文节点,
Figure BDA0001502383970000101
表示三元组m中的第二任意论文节点,δ(m)表示三元组m中正负样本的标志。L代表的是整体的损失函数,该损失函数应该是乱序样本序列Q排序中所有元素损失函数之和。
在本发明中,由于正负样本的比例不同,而且正负样本之间的相似性不一样。比如正样本之间可能因为存在连边,会更相似,而负样本则差异较大,这样正负样本产生的损失函数将不相同,因此对于本应用,本发明需要一个调和参数γ来平衡正负样本的损失函数,因此损失函数将加入γ,成为:
Figure BDA0001502383970000102
在本发明中,训练神经网络的目的在于能够将损失函数的值降低到最少,为了对神经网络进行训练,确定神经网络权重和神经网络偏置的值,本发明采用随机梯度下降算法进行网络参数的学习。
在本发明中,对模型的训练为通过随机梯度下降算法确定非线性变换函数fθ,由于非线性变换函数fθ主要包含权重参数WEIGHT和偏置参数BIAS。对于权重参数WEIGHT和偏置参数BIAS的每次梯度下降的更新值为L相对于权重参数WEIGHT和偏置参数BIAS的偏导,因此,在每次迭代时,根据参数更新值对权重参数WEIGHT和偏置参数BIAS以学习率ε进行更新:
WEIGHT=WEIGHT+ε·ΔWEIGHT
BIAS=BIAS+ε·ΔBIAS
WEIGHT为感知机中上一层的权重参数,WEIGHT为感知机中当前层的权重参数,ΔWEIGHT为每次梯度下降以L相对于权重参数WEIGHT的偏导。
BLAS为感知机中上一层的偏置参数,BLAS为感知机中当前层的偏置参数,ΔBLAS为每次梯度下降以L相对于偏置参数BLAS的偏导。
在使用随机梯度下降的时候,由于训练迭代次数过多,会出现过拟合的现象,因此,本发明采用了early-stop(译文为提前终止)方法,在训练到损失函数L不继续变小时即停止训练,来防止训练时发生的过拟合现象。“提前终止”为《深度学习》第7.8节151页的内容,作者为伊恩·古德费洛,约书亚·本吉奥等,译者为赵申剑,黎彧君;2017年8月1日第一版。
在本发明中,保存感知机中各个层的权重参数WEIGHT和偏置参数BIAS,得到学习目标的非线性变换函数fθ,从而完成基于多层感知机的神经网络训练,最终得到根据学习的目标fθ对所述papera生成其表示向量,即针对论文节点语义信息构建多层感知机的神经网络论文概率模型
Figure BDA0001502383970000111
本发明提出的一种参数化的论文网络节点表示学习方法,具体有如下步骤:
步骤一,基于随机游走方法采样获取任意一个论文节点的邻居—论文节点集、及邻居的邻居—论文节点集;
在本发明中,由论文集合AP={paper1,paper2,…,papera,…,papero,…,paperA} 构成的星形论文网络结构中,对每个论文节点的邻居论文节点采样是以加入前后跳的跳转 概率的随机游走进行的。对于任意一个论文节点papera采用随机游走方法采样获取属于 papera的邻居—论文节点集
Figure BDA0001502383970000112
步骤101:构建一个论文节点空队列,记为V,所述V用来存储论文节点序列;论文节点空队列V的最大队列元素位数为mv,mv的取值为10~20;然后执行步骤102;
步骤102:选取任意一个论文节点papera,然后将所述papera放入论文节点队列V中第1位;然后执行步骤103;
步骤103:获取属于任意一个论文节点papera的全部邻居论文节点集,记为
Figure BDA0001502383970000113
在本发明中,邻居论文节点是指与任意一个论文节点papera之间存在连边的论文节点集合;然后执行步骤104;
步骤104:根据所述邻居论文节点集
Figure BDA0001502383970000114
中邻居节点总数B确定跳转到每一个邻居论文节点的概率
Figure BDA0001502383970000115
(简称为第一跳转概率),
Figure BDA0001502383970000116
c表示跳数;然后执行步骤105;
步骤105:采用别名采样算法(alias sampling),根据当前的跳转概率
Figure BDA0001502383970000117
在所述
Figure BDA0001502383970000118
中获取下一跳的邻居论文节点
Figure BDA0001502383970000119
同时将
Figure BDA00015023839700001110
放入论文节点队列V的第2位;然后执行步骤106;
步骤106:获取属于邻居论文节点
Figure BDA00015023839700001111
的全部邻居论文节点集,即邻居的邻居—论文节点集
Figure BDA0001502383970000121
然后执行步骤107;
步骤107:计算邻居论文节点
Figure BDA0001502383970000122
与任意一个论文节点papera之间的最短跳数
Figure BDA0001502383970000123
然后执行步骤108;
在本发明中,其中
Figure BDA0001502383970000124
代表的是从任意一个邻居论文节点到前一个论文节点的最少跳数距离,例如,如果邻居论文节点
Figure BDA0001502383970000125
到论文节点papera最少需要1跳,则
Figure BDA0001502383970000126
如果邻居论文节点
Figure BDA0001502383970000127
就是论文节点papera,则
Figure BDA0001502383970000128
以此类推。
步骤108:根据所述的
Figure BDA0001502383970000129
来确定
Figure BDA00015023839700001210
跳转到每一个邻居论文节点的概率
Figure BDA00015023839700001211
(简称为第二跳转概率);然后执行步骤109;
所述第二跳转概率
Figure BDA00015023839700001212
c表示跳数。
在本发明中,最短跳数是指两个论文节点之间所需的最少跳。
在本发明中,p为随机游走方法中用于调节不在所述论文节点队列V中的论文节点的第二跳转概率
Figure BDA00015023839700001213
大小的参数(简称跳出参数),q为随机游走方法中用于调节在所述论文节点队列V中的论文节点的第二跳转概率
Figure BDA00015023839700001214
大小的参数(简称跳入参数),p,q控制跳转的概率,如果希望随机游走更多的在局部跳转,那么p需要设置大一些;反之,q需要设置大一些。
步骤109:经
Figure BDA00015023839700001215
确定之后,根据
Figure BDA00015023839700001216
和别名采样,选择
Figure BDA00015023839700001217
作为下一跳论文节点,同时将
Figure BDA00015023839700001218
放入论文节点队列V中的第3位;然后执行步骤110;
步骤110:循环执行步骤106和步骤109,直至论文节点队列V中的位数为mv时,本次随机游走停止;然后执行步骤111;
步骤111:在本发明中,对于整个论文网络中的每一个论文节点重复执行步骤101到步骤110,来完成论文节点的邻居节点采样,则有论文节点队列集合记为VF={V1,V2,...,Vf,...,VF};然后执行步骤201。
V1表示第一个论文节点队列;
V2表示第二个论文节点队列;
Vf表示任意一个论文节点队列,f表示论文节点队列的标识号;
VF表示最后一个论文节点队列,F表示论文节点队列集合的总数,f∈F。
步骤二,采用负采样方法生成多层感知机的神经网络训练数据;
在本发明中,生成神经网络可使用的训练数据为步骤一得到的论文节点队列集合VF={V1,V2,...,Vf,...,VF};除去论文节点队列集合中的训练数据之外,本发明可以借助负采样算法来产生训练模型所需的数据。
步骤201:建立正样本队列Qp和负样本队列Qn,分别存放训练神经网络所需要的正采样数据和负采样数据,然后执行步骤202;
步骤202:设立邻居窗口大小超参数WD,若WD在论文节点队列Vf中,则属于论文节点队列Vf中的各个论文记为
Figure BDA0001502383970000131
然后执行步骤203;
Figure BDA0001502383970000132
表示属于任意一个论文节点队列Vf的第一个论文节点;
Figure BDA0001502383970000133
表示属于任意一个论文节点队列Vf的第二个论文节点;
Figure BDA0001502383970000134
表示属于任意一个论文节点队列Vf的任意一个论文节点(简称为任意队列—论文节点),g表示邻居论文节点的标识号;
Figure BDA0001502383970000135
表示属于任意一个论文节点队列Vf的最后一个论文节点,G表示论文节点队列Vf的长度,g∈G。
对于任意一个论文队列中的节点在本发明中,认为在队列中与节点距离小于WD的全部节点为正样本节点。每次,对于任意一个论文节点本发 明先获取属于的2×WD个相邻论文节点集,记为
Figure BDA00015023839700001310
Figure BDA00015023839700001311
表示在相邻论文节点
Figure BDA00015023839700001312
中最小标识号的节点。
Figure BDA00015023839700001313
表示在相邻论文节点
Figure BDA00015023839700001314
中最大标识号的节点。
Figure BDA00015023839700001315
表示在相邻论文节点
Figure BDA00015023839700001316
中除
Figure BDA00015023839700001317
Figure BDA00015023839700001318
以外的任意一个论文节点,简称队列—相邻论文节点。下角标l表示不是最大也不是最小论文节点的标识号,即除这2个论文节点的其他标识号。
步骤203:对于任意一个任意队列—论文节点
Figure BDA00015023839700001319
按照其邻居标识号的顺序,从小到大进行采样,采样过程为对所述
Figure BDA0001502383970000141
中的各个节点与任意队列—论文节点
Figure BDA0001502383970000142
构成一个三元组,然后执行步骤204;
对于所述
Figure BDA0001502383970000143
与任意队列—论文节点
Figure BDA0001502383970000144
构成一个三元组,即(
Figure BDA0001502383970000145
δ),其中δ=+1代表该三元组为正样本,反之δ=-1则表示该三元组为负样本,并将(
Figure BDA0001502383970000146
δ)***正样本队列Qp中。
对于所述
Figure BDA0001502383970000147
与任意队列—论文节点
Figure BDA0001502383970000148
构成一个三元组,即(
Figure BDA0001502383970000149
Figure BDA00015023839700001410
δ),其中δ=+1代表该三元组为正样本,反之δ=-1则表示该三元组为负样本,并将(
Figure BDA00015023839700001411
δ)***正样本队列Qp中。
对于所述
Figure BDA00015023839700001412
与任意队列—论文节点
Figure BDA00015023839700001413
构成一个三元组,即(
Figure BDA00015023839700001414
δ),其中δ=+1代表该三元组为正样本,反之δ=-1则表示该三元组为负样本,并将(
Figure BDA00015023839700001415
δ)***正样本队列Qp中。
步骤204:循环执行步骤202和步骤203,直至论文节点队列集合VF={V1,V2,...,Vf,...,VF}中的所有论文节点队列中的所有论文节点都完成邻居论文节点的采样工作,得到正样本队列Qp,然后执行步骤207;
步骤205:对网络中所有论文节点进行采样,每次从网络中选取任意两个论文节点(选取的两个论文节点可以是相邻的,也可以是不相邻的),即第一任意论文节点papera,第二任意论文节点papero。如果两个论文节点之间存在连边((papera,papero)∈E),或者两个随机选取的论文节点相同(papera=papero),则继续本步骤,否则将任意两个论文节点papera、papero组成三元组(papera,papero,-1)存入负样本队列Qn中,然后执行步骤206;
步骤206:循环执行步骤205,设立一个正负样本比例参数μ,假设正样本队列Qp中三元组个数为np,那么当Qn中的三元组数量等于μ×np时停止,然后执行步骤207;
步骤207:将步骤204中得到的正样本队列Qp与步骤206中得到的负样本队列Qn合并在一起,得到一个新的样本队列Q={Q1....,Q(1+μ)×np},,后执行步骤208;
Q1表示新的样本队列Q中的最小标识号的三元组。
Q(1+μ)×np表示新的样本队列Q中的最大标识号的三元组。下标(1+μ)×np代表样本队列Q中包含有(1+μ)×np个三元组。
步骤208:将新的样本队列Q={Q1....,Q(1+μ)×np}中的所有元素打乱顺序,得到乱序的样本队列Q排序={Q1....,Q(1+μ)×np},然后执行步骤301。
步骤三,在基于多层感知机的神经网络论文概率模型中的处理;
步骤301:针对步骤208得到的所述Q排序={Q1....,Q(1+μ)×np},每次选择一个三元组(papera,papero,δ),作为一对论文节点放入神经网络论文概率模型中进行学习,执行步骤302;
步骤302:对于每一个三元组中的两个论文节点papera与papero,采用模型
Figure BDA0001502383970000151
进行映射,得到两个相对应变换后的向量
Figure BDA0001502383970000152
执行步骤303;
Figure BDA0001502383970000153
为属于papera的多层感知机函数;
Figure BDA0001502383970000154
为属于papero的多层感知机函数;
步骤303:计算两个论文节点的欧氏距离,执行步骤304;
在本发明中,孪生网络的目的是为了使得表达空间中相似的点之间的欧氏距离尽可能的短,而不相似的点之间的欧氏距离尽可能的长。其基本形式为:
Figure BDA0001502383970000155
Figure BDA0001502383970000156
Epos表示欧氏最短距离;Eneg表示欧氏最长距离;c表示跳数。
步骤304:利用δ将正负样本合并放入关于论文分布式表示的欧氏距离的损失函数中,并进行平衡正负样本的损失函数计算,得到整体的损失函数L,执行步骤305;
Figure BDA0001502383970000157
步骤305:采用随机梯度下降算法确定出非线性变换函数fθ,完成任意两个论文节点papera与papero的表示学习。
实施例1
本实施例采用了Cora论文数据集与Pubmed知识网络数据集进行学习和实验工作。
Cora是一个论文数据集总共含有2708个论文节点,包含2708个节点和5429条边,每一个节点都对应一个长度为1433的论文富文本信息向量,该富文本信息向量由0/1表示单词是否存在。同时,每一个节点都关联一个类别属性,总的类别属性取值数目为7。
Pubmed是一个知识网络数据集总共含有19717个论文节点,包含19717个节点和44338条边,每一个节点都对应一个长度为500的论文富文本信息向量,该富文本信息向量由0/1表示单词是否存在。同时,每一个节点都关联一个类别属性,总的类别属性取值数目为3。
为了验证有效性,本发明主要对比了不同方法在论文节点分类任务中的表现:
DeepWalk:采用了普通随机游走算法对网络进行采样,随后用word2vec算法得到网络中每一个节点的表示。(2014DeepWalk:online learning of socialrepresentations[J].Perozzi B,Alrfou R,Skiena S.KDD:701-710.)
TADW:对DeepWalk中的随机游走进行分解,巧妙地加入了节点的富文本信息,采用矩阵相乘的方式得到网络中每一个节点的表示。(2015,Network representationlearning with rich text information[C]YangC,Zhao D,Zhao D,et al.InternationalConference on Artificial Intelligence.AAAI Press,:2111-2117.)
Node2Vec:是DeepWalk的升级版,采用了二阶随机游走算法对网络进行采样,随后用word2vec算法得到网络中每一个节点的表示。(2016,node2vec:Scalable FeatureLearning for Networks[C]//Grover A,Leskovec J.KDD:855.)
对本发明选用节点预测方法进行向量表示效果的对比。本实验均采用混合验证技术(cross-validation),在不同的分类预测方法选用SVM分类器进行分类。
本发明采用了两个评价指标进行衡量分别是Micro-F1和Macro-F1。
其中Macro-F1的计算方法为:
Figure BDA0001502383970000161
其中Pmacro和Rmacro分别代表宏差准率和宏查全率。
Micro-F1的计算方法为:
Figure BDA0001502383970000171
其中Pmicro和Rmicro分别代表微差准率和微查全率。
在Cora数据集的效果如图2和图3所示,本发明与其他方法在Cora数据集的对比效果,图2代表的是各方法在Micro-F1评价指标下的表现,图3代表的是各方法在Macro-F1评价指标下的表现。两张图的横轴代表了分类器的训练数据占全部数据的百分比。从图中可以看出,本发明方法在Micro-F1和Macro-F1评价指标下都比其他几种网络表示学习方法的效果要好,特别可以看出,相比纯粹借助网络信息,而不采用网络节点语义信息的DeepWalk和Node2vec算法,本发明算法在Micro-F1和Macro-F1评价指标下,对于各个训练数据所占比例均有5%以上的提升,可以展现出本发明在融合网络节点信息与网络拓扑结构之后,得到的网络节点表示向量要显著比单纯利用网络拓扑信息得到的网络节点表示向量要好。同时,对比TADW这个结合了网络节点信息与网络拓扑信息的方法可以看出,本发明提出的方法依然在两个评价指标上都有3%的提升。
在Wiki数据集的效果如图4和图5所示,从图中可以看出,本发明在Micro-F1和Macro-F1评价指标下都比其他几种网络表示学习方法的效果要好。由于Wiki数据集的类别数量要远远多于Cora数据集,可以发现,不采用网络节点语义信息的DeepWalk和Node2vec算法,分类效果较差,远低于使用TADW进行分析的结果。这说明语义在该数据集中占据了主导作用。本发明方法在Micro-F1和Macro-F1评价指标下,对于TADW方法得到的实验结果有2%的提升,可以展现出本发明在融合网络节点信息与网络拓扑结构之后,得到的网络节点表示向量相比直接利用矩阵相乘的到的网络节点表示向量要好。可以说明本发明在网络节点表示在结合网络信息与语义信息中能够进行更好的融合,得到更好的表示向量。
通过图2-图5的分析,这些实验体现了本发明能够自然的融合网络结构与语义信息两者,从而得到更好的网络节点表示向量,因此可以验证本发明的有效性。

Claims (3)

1.一种参数化的论文网络节点表示学习方法,其特征在于包括有下列步骤:
步骤一,基于随机游走方法采样获取任意一个论文节点的邻居论文节点集、及邻居的邻居论文节点集;
步骤101:构建一个论文节点空队列,记为V,所述V用来存储论文节点序列;论文节点空队列V的最大队列元素位数为mv,mv的取值为10~20;然后执行步骤102;
步骤102:选取任意一个论文节点papera,然后将所述papera放入论文节点队列V中第1位;然后执行步骤103;
步骤103:获取属于任意一个论文节点papera的全部邻居论文节点集,记为
Figure FDA0002425374080000011
邻居论文节点集是指与任意一个论文节点papera之间存在连边的邻居论文节点集合;然后执行步骤104;
Figure FDA0002425374080000012
表示属于任意一个论文节点papera的第一个邻居节点,即第一个邻居论文节点;
Figure FDA0002425374080000013
表示属于任意一个论文节点papera的第二个邻居节点,即第二个邻居论文节点;
Figure FDA0002425374080000014
表示属于任意一个论文节点papera的任意一个邻居节点,即任意一个邻居论文节点,b表示邻居节点的标识号;
Figure FDA0002425374080000015
表示属于任意一个论文节点papera的最后一个邻居节点,即最后一个邻居论文节点,B表示属于papera的邻居节点总数,B∈A;
步骤104:根据所述邻居论文节点集
Figure FDA0002425374080000016
中邻居节点总数B确定跳转到第一跳转概率
Figure FDA0002425374080000017
c表示跳数;然后执行步骤105;
步骤105:采用别名采样算法,根据当前的第一跳转概率
Figure FDA0002425374080000018
在所述
Figure FDA0002425374080000019
中获取下一跳的邻居论文节点
Figure FDA00024253740800000110
同时将
Figure FDA00024253740800000111
放入论文节点队列V的第2位;然后执行步骤106;
步骤106:获取属于任意一个邻居论文节点
Figure FDA00024253740800000112
的全部邻居论文节点集,即邻居的邻居论文节点集
Figure FDA00024253740800000113
然后执行步骤107;
Figure FDA0002425374080000021
表示属于任意一个邻居论文节点
Figure FDA0002425374080000022
的第一个邻居节点,即邻居的第一个邻居论文节点;
Figure FDA0002425374080000023
表示属于任意一个邻居论文节点
Figure FDA0002425374080000024
的第二个邻居节点,即邻居的第二个邻居论文节点;
Figure FDA0002425374080000025
表示属于任意一个邻居论文节点
Figure FDA0002425374080000026
的任意一个邻居节点,即邻居的任意一个邻居论文节点,e表示属于邻居论文节点
Figure FDA0002425374080000027
的邻居节点的标识号;
Figure FDA0002425374080000028
表示属于任意一个邻居论文节点
Figure FDA0002425374080000029
的最后一个邻居节点,即邻居的最后一个邻居论文节点,E表示属于
Figure FDA00024253740800000210
的邻居节点总数,E∈A;
步骤107:计算任意一个邻居的邻居论文节点
Figure FDA00024253740800000211
与任意一个论文节点papera之间的最短跳数
Figure FDA00024253740800000212
然后执行步骤108;
其中
Figure FDA00024253740800000213
代表的是从任意一个邻居的邻居论文节点到位于papera之前的一个论文节点的最少跳数距离;
步骤108:根据所述的
Figure FDA00024253740800000214
来确定
Figure FDA00024253740800000215
跳转到每一个邻居论文节点的第二跳转概率
Figure FDA00024253740800000216
然后执行步骤109;
所述第二跳转概率
Figure FDA00024253740800000217
c表示跳数;p为随机游走方法中用于调节不在所述论文节点队列V中的论文节点的第二跳转概率
Figure FDA00024253740800000218
大小的参数,即跳出参数;q为随机游走方法中用于调节在所述论文节点队列V中的论文节点的第二跳转概率
Figure FDA00024253740800000219
大小的参数,即跳入参数;
步骤109:经
Figure FDA00024253740800000220
确定之后,根据
Figure FDA00024253740800000221
和别名采样,选择
Figure FDA00024253740800000222
作为下一跳论文节点,同时将
Figure FDA00024253740800000223
放入论文节点队列V中的第3位;然后执行步骤110;
步骤110:循环执行步骤106和步骤109,直至论文节点队列V中的位数为mv时,本次随机游走停止;然后执行步骤111;
步骤111:对于整个论文网络中的每一个论文节点重复执行步骤101到步骤109,来完成论文节点的邻居节点采样,则有论文节点队列集合记为VF={V1,V2,...,Vf,...,VF};然后执行步骤201;
V1表示第一个论文节点队列;
V2表示第二个论文节点队列;
Vf表示任意一个论文节点队列,f表示论文节点队列的标识号;
VF表示最后一个论文节点队列,F表示论文节点队列集合的总数,f∈F;
步骤二,采用负采样方法生成多层感知机的神经网络训练数据;
步骤201:建立正样本队列Qp和负样本队列Qn,分别存放训练神经网络所需要的正采样数据和负采样数据,然后执行步骤202;
步骤202:设立邻居窗口大小超参数WD,若WD在论文节点队列Vf中,则属于论文节点队列Vf中的各个论文记为
Figure FDA0002425374080000031
然后执行步骤203;
Figure FDA0002425374080000032
表示属于任意一个论文节点队列Vf的第一个论文节点;
Figure FDA0002425374080000033
表示属于任意一个论文节点队列Vf的第二个论文节点;
Figure FDA0002425374080000034
表示属于任意一个论文节点队列Vf的任意一个论文节点,g表示论文节点的标识号;
Figure FDA0002425374080000035
表示属于任意一个论文节点队列Vf的最后一个论文节点,G表示论文节点队列Vf的长度,g∈G;
对于任意一个论文队列中的节点
Figure FDA0002425374080000036
认为在队列中与节点
Figure FDA0002425374080000037
距离小于WD的全部节点为正样本节点;每次,对于任意一个论文节点
Figure FDA0002425374080000038
先获取属于
Figure FDA0002425374080000039
的2×WD个相邻论文节点集,记为
Figure FDA00024253740800000310
Figure FDA00024253740800000311
表示在相邻论文节点
Figure FDA00024253740800000312
中最小标识号的节点;
Figure FDA00024253740800000313
表示在相邻论文节点
Figure FDA00024253740800000314
中最大标识号的节点;
Figure FDA00024253740800000315
表示在相邻论文节点
Figure FDA00024253740800000316
中除
Figure FDA00024253740800000317
Figure FDA00024253740800000318
以外的队列—相邻论文节点,下角标l表示不是最大也不是最小论文节点的标识号;
步骤203:对于任意一个任意队列—论文节点
Figure FDA00024253740800000319
按照其邻居标识号的顺序,从小到大进行采样,采样过程为对所述
Figure FDA0002425374080000041
中的各个节点与任意队列—论文节点
Figure FDA0002425374080000042
构成一个三元组,然后执行步骤204;
对于所述
Figure FDA0002425374080000043
与任意队列—论文节点
Figure FDA0002425374080000044
构成一个三元组,即
Figure FDA0002425374080000045
其中δ=+1代表该三元组为正样本,反之δ=-1则表示该三元组为负样本,并将
Figure FDA0002425374080000046
***正样本队列Qp中;
对于所述
Figure FDA0002425374080000047
与任意队列—论文节点
Figure FDA0002425374080000048
构成一个三元组,即
Figure FDA0002425374080000049
Figure FDA00024253740800000410
其中δ=+1代表该三元组为正样本,反之δ=-1则表示该三元组为负样本,并将
Figure FDA00024253740800000411
***正样本队列Qp中;
对于所述
Figure FDA00024253740800000412
与任意队列—论文节点
Figure FDA00024253740800000413
构成一个三元组,即
Figure FDA00024253740800000414
其中δ=+1代表该三元组为正样本,反之δ=-1则表示该三元组为负样本,并将
Figure FDA00024253740800000415
***正样本队列Qp中;
步骤204:循环执行步骤202和步骤203,直至论文节点队列集合VF={V1,V2,...,Vf,...,VF}中的所有论文节点队列中的所有论文节点都完成邻居论文节点的采样工作,得到正样本队列Qp,然后执行步骤207;
步骤205:对网络中所有论文节点进行采样,每次从网络中选取任意两个论文节点,即第一任意论文节点papera,第二任意论文节点papero;如果两个论文节点之间存在连边,或者两个随机选取的论文节点相同,则继续本步骤,否则将任意两个论文节点papera、papero组成三元组(papera,papero,-1)存入负样本队列Qn中,然后执行步骤206;
步骤206:循环执行步骤205,设立一个正负样本比例参数μ,假设正样本队列Qp中三元组个数为np,那么当Qn中的三元组数量等于μ×np时停止,然后执行步骤207;
步骤207:将步骤204中得到的正样本队列Qp与步骤206中得到的负样本队列Qn合并在一起,得到一个新的样本队列Q={Q1....,Q(1+μ)×np},后执行步骤208;
Q1表示新的样本队列Q中的最小标识号的三元组;
Q(1+μ)×np表示新的样本队列Q中的最大标识号的三元组;下标(1+μ)×np代表样本队列Q中包含有(1+μ)×np个三元组;
步骤208:将新的样本队列Q={Q1....,Q(1+μ)×np}中的所有元素打乱顺序,得到乱序的样本队列Q排序={Q1....,Q(1+μ)×np},然后执行步骤301;
步骤三,在基于多层感知机的神经网络论文概率模型中的处理;
步骤301:针对步骤208得到的所述Q排序={Q1....,Q(1+μ)×np},每次选择一个三元组(papera,papero,δ),作为一对论文节点放入神经网络论文概率模型中进行学习,执行步骤302;
步骤302:对于每一个三元组中的两个论文节点papera与papero,采用模型
Figure FDA0002425374080000051
进行映射,得到两个相对应变换后的向量
Figure FDA0002425374080000052
执行步骤303;
Figure FDA0002425374080000053
为属于papera的多层感知机函数;
Figure FDA0002425374080000054
为属于papero的多层感知机函数;
步骤303:计算两个论文节点的欧氏距离,执行步骤304;
欧氏距离为:
Figure FDA0002425374080000055
Figure FDA0002425374080000056
Epos表示欧氏最短距离;Eneg表示欧氏最长距离;c表示跳数;
步骤304:利用δ将正负样本合并放入关于论文分布式表示的欧氏距离的损失函数中,并进行平衡正负样本的损失函数计算,得到整体的损失函数L,执行步骤305;
Figure FDA0002425374080000057
γ表示调和参数,是用来平衡正负样本的损失函数;
m表示Q排序中的任意一个三元组的标识号;
由于三元组(papera,papero,δ)中的δ代表了该三元组是正样本还是负样本的标志,其中正样本认为是需要在空间中相似的点,而负样本认为是需要在空间中距离尽可能远的点;
步骤305:采用随机梯度下降算法确定出非线性变换函数fθ,完成任意两个论文节点papera与papero的表示学习。
2.根据权利要求1所述的参数化的论文网络节点表示学习方法,其特征在于:步骤103、步骤104和步骤105实现了论文节点队列V中第2位元素的获取。
3.根据权利要求1所述的参数化的论文网络节点表示学习方法,其特征在于:步骤106至步骤110实现了论文节点队列V中继第2位元素之后元素的获取,直至到达论文节点空队列V的最大队列元素位数mv。
CN201711308050.6A 2017-12-11 2017-12-11 一种参数化的论文网络节点表示学习方法 Expired - Fee Related CN108228728B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711308050.6A CN108228728B (zh) 2017-12-11 2017-12-11 一种参数化的论文网络节点表示学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711308050.6A CN108228728B (zh) 2017-12-11 2017-12-11 一种参数化的论文网络节点表示学习方法

Publications (2)

Publication Number Publication Date
CN108228728A CN108228728A (zh) 2018-06-29
CN108228728B true CN108228728B (zh) 2020-07-17

Family

ID=62653503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711308050.6A Expired - Fee Related CN108228728B (zh) 2017-12-11 2017-12-11 一种参数化的论文网络节点表示学习方法

Country Status (1)

Country Link
CN (1) CN108228728B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109213831A (zh) * 2018-08-14 2019-01-15 阿里巴巴集团控股有限公司 事件检测方法和装置、计算设备及存储介质
CN109376864A (zh) * 2018-09-06 2019-02-22 电子科技大学 一种基于堆叠神经网络的知识图谱关系推理算法
CN109558494A (zh) * 2018-10-29 2019-04-02 中国科学院计算机网络信息中心 一种基于异质网络嵌入的学者名字消歧方法
CN110322021B (zh) * 2019-06-14 2021-03-30 清华大学 大规模网络表征学习的超参数优化方法和装置
CN112559734B (zh) * 2019-09-26 2023-10-17 中国科学技术信息研究所 简报生成方法、装置、电子设备及计算机可读存储介质
CN111292062B (zh) * 2020-02-10 2023-04-25 中南大学 基于网络嵌入的众包垃圾工人检测方法、***及存储介质
CN112148876B (zh) * 2020-09-23 2023-10-13 南京大学 一种论文分类和推荐方法
CN117648670B (zh) * 2024-01-24 2024-04-12 润泰救援装备科技河北有限公司 救援数据融合方法、电子设备、存储介质及救援消防车

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250438A (zh) * 2016-07-26 2016-12-21 上海交通大学 基于随机游走模型的零引用文章推荐方法及***
CN106777339A (zh) * 2017-01-13 2017-05-31 深圳市唯特视科技有限公司 一种基于异构网络嵌入模型识别作者的方法
CN107451596A (zh) * 2016-05-30 2017-12-08 清华大学 一种网络节点分类方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8918431B2 (en) * 2011-09-09 2014-12-23 Sri International Adaptive ontology

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451596A (zh) * 2016-05-30 2017-12-08 清华大学 一种网络节点分类方法及装置
CN106250438A (zh) * 2016-07-26 2016-12-21 上海交通大学 基于随机游走模型的零引用文章推荐方法及***
CN106777339A (zh) * 2017-01-13 2017-05-31 深圳市唯特视科技有限公司 一种基于异构网络嵌入模型识别作者的方法

Also Published As

Publication number Publication date
CN108228728A (zh) 2018-06-29

Similar Documents

Publication Publication Date Title
CN108228728B (zh) 一种参数化的论文网络节点表示学习方法
Suthaharan et al. Decision tree learning
Tran et al. On filter size in graph convolutional networks
CN110147911B (zh) 一种基于内容感知的社交影响力预测模型及预测方法
CN112508085A (zh) 基于感知神经网络的社交网络链路预测方法
Liu et al. Fuzzy mutual information-based multilabel feature selection with label dependency and streaming labels
Amin A novel classification model for cotton yarn quality based on trained neural network using genetic algorithm
CN112633481A (zh) 一种多跳图卷积神经网络模型及其训练方法
Nasiri et al. A node representation learning approach for link prediction in social networks using game theory and K-core decomposition
CN104035978B (zh) 社团发现方法及***
Cruickshank Multi-view Clustering of Social-based Data.
US11669727B2 (en) Information processing device, neural network design method, and recording medium
Coscia et al. The node vector distance problem in complex networks
Jenny Li et al. Evaluating deep learning biases based on grey-box testing results
Lokhande et al. Accelerating column generation via flexible dual optimal inequalities with application to entity resolution
Sun et al. Graph embedding with rich information through heterogeneous network
Fu et al. A community detection algorithm using network topologies and rule-based hierarchical arc-merging strategies
CN112507185B (zh) 用户肖像的确定方法和装置
CN113159976B (zh) 一种微博网络重要用户的识别方法
Javaheripi et al. Swann: Small-world architecture for fast convergence of neural networks
Kim et al. Network analysis for active and passive propagation models
CN114842247A (zh) 基于特征累加的图卷积网络半监督节点分类方法
Jayachitra Devi et al. Link prediction model based on geodesic distance measure using various machine learning classification models
Montiel et al. Reducing the size of combinatorial optimization problems using the operator vaccine by fuzzy selector with adaptive heuristics
Ferdaus et al. A genetic algorithm approach using improved fitness function for classification rule mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200717