CN109815335A - 一种适用于文献网络的论文领域分类方法 - Google Patents

一种适用于文献网络的论文领域分类方法 Download PDF

Info

Publication number
CN109815335A
CN109815335A CN201910077857.6A CN201910077857A CN109815335A CN 109815335 A CN109815335 A CN 109815335A CN 201910077857 A CN201910077857 A CN 201910077857A CN 109815335 A CN109815335 A CN 109815335A
Authority
CN
China
Prior art keywords
node
paper
network
meta structure
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910077857.6A
Other languages
English (en)
Other versions
CN109815335B (zh
Inventor
王秀
余春艳
陈璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201910077857.6A priority Critical patent/CN109815335B/zh
Publication of CN109815335A publication Critical patent/CN109815335A/zh
Application granted granted Critical
Publication of CN109815335B publication Critical patent/CN109815335B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种适用于文献网络的论文领域分类方法,选定一个文献网络,首先基于元结构计算论文节点间的相关程度;通过定义一个目标函数使得论文节点间基于元结构的相关程度与其在低维向量空间中的相似度的差距达到最小,将文献网络中的论文节点映射到低维表示空间;在低维空间计算论文节点之间的相似度,进行K‑means聚类,得到论文的领域分类结果。本发明提出的方法利用了异构信息网络中元结构这一重要性特点,使得节点的低维向量表示可以在包含节点网络拓扑结构信息的同时融合网络中丰富的异构信息,更好地对论文所属领域进行分类。

Description

一种适用于文献网络的论文领域分类方法
技术领域
本发明涉及信息检索领域,特别是一种适用于文献网络的论文领域分类方法。
背景技术
随着文献网络在各个学科的普及,催生了用户在使用它们时的各种需求。比如,为一篇论文推荐合适的会议或者期刊;为学者寻找其他可能感兴趣的最新论文等等。当学者需要对一个新的研究领域有所了解时,就可以通过浏览这一类领域的论文入手。因此,对文献网络中的论文进行领域分类就变得很重要。一般来说,网络内的两个论文节点越相似,它们是同一类领域的可能性就越大。文献网络作为一种典型的异构信息网络,它的节点间有丰富的行为等语义信息,比如作者发表了一篇论文、论文发表于某个杂志等等。而且文献网络中一个节点的同类型关系中也有不同的语义,例如一个学者通过论文与多个学者形成合作关系,但是论文课题却不尽相同,显然,相应的合作关系就存在语义差异。这些信息对于文献网络内节点对相似度计算至关重要。当前的研究中,元路径与元结构都蕴含了异构信息网络的语义信息。但元路径的定义决定了它必须以序列的形式存在;而元结构只限制了一个源节点和一个目标节点,中间节点未加约束,在表述语义含义时可以更灵活。
此外,文献网络中数据规模的不断扩大,数据维数的不断增长,给数据分析和处理带来了很多问题。因此需要有一种方法,既可以减少数据的维数,又不会去掉太多的有用信息。近年来,网络表示学习的发展迅速,在网络任务中已有不少成功运用。文献网络表示学习的主要目的是将网络中的节点映射到低维的表示空间中。同时,要求在其映射后的表示空间中,原网络中越相似的节点,在表示空间中的距离越接近。因此,学习到的网络节点在低维空间中的表示向量可以直接用于节点相似度计算,进而用于文献网络的节点分类。
基于此,本发明提出了一种适用于文献网络的论文领域分类方法。在降低计算量的同时,使得学习到的低维向量表示可以在包含节点网络拓扑结构信息的同时融合网络中丰富的异构信息,更好地对论文所属领域进行分类。
发明内容
本发明的目的在于提供一种适用于文献网络的论文领域分类方法,以克服现有技术中存在的缺陷。
为实现上述目的,本发明的技术方案是:一种适用于文献网络的论文领域分类方法,包括如下步骤:
步骤S1、给定一个文献网络G=(V,E),根据网络模式找出文献网络G的元结构S,其中,V是节点集合,E是节点间关系集合;
步骤S2、对于文献网络G中的所有论文节点,基于元结构S,指定一个节点作为源对象os,一个节点作为目标对象ot,从源节点os出发,沿着元结构S的各个层级,根据网络文献G中存在的链接扩展生成元结构S限制下的各个层级layer的子图g,并计算os与ot在第layer层的子图g中的相关度;当扩展到元结构最后一层ds的时候,即可得到元结构实例及实例的两端节点os、ot之间的相关度θ(os,ot);
步骤S3:定义论文节点vi和vj之间的联合概率,具体公式为:
其中,emi是节点vi的低维向量表示;
步骤S4:定义论文节点vi和vj之间的经验联合概率分布,具体公式为:
其中,θ(vi,vj)是节点vi和vj之间基于元结构的相关程度;
步骤S5、定义一个目标函数,将目标函数表示为步骤S3、步骤S4得到的两个概率分布的距离,并使目标函数最小化,得到节点的低维向量表示;
步骤S6、计算所有论文节点之间的低维向量表示的余弦相似度,得到论文节点间的相似程度矩阵;
步骤S7、利用相似程度矩阵对所有论文类型节点进行K-means聚类,得到论文的分类结果;其中,K值定为文献网络中论文所属学科领域的数目。
进一步地,在所述步骤S2中,计算os与ot的相关度,包括如下具体步骤:
步骤S21、将网络G中元结构S限制下的子图g初始化为源节点os,相关度w初始为1,层数layer初始为1;
步骤S22、在layer+1层中求出每一个存在的相应类型的节点,且能与上层节点组成符合元结构S链接关系的实例;
步骤S23、计算步骤S22得到的实例的笛卡尔积σ;
步骤S24、计算得到源节点os与layer+1层节点的相关度w′,更新相关度w=w′;
步骤S25、对步骤S23得到的σ中的每一个元素,将其与layer层的子图g链接,得到layer+1层的新子图g;
步骤S26、layer=layer+1,重复所述步骤S22至所述步骤S25,直至若layer=ds,则返回相关度;其中,ds表示元结构最后一层。
进一步的,在所述步骤S24中,计算得到源节点os与layer+1层节点的相关度w′,具体计算公式为:
w′=w/|σ|α
其中,|σ|表示该层实例的个数,α是一个偏差因子,0≤α≤1。
进一步地,在所述步骤S5中,最小化目标函数的建立,具体包括以下步骤:
步骤S51、将目标函数定义为两个概率分布的距离,距离度量方式为KL散度,采用负采样来减少节点对的计算,对于每一对相关程度θ(vi,vj)≠0的节点对,目标函数具体为:
其中,表示文献网络G中已知边的建模,表示负样本边的建模,K为采样次数,Pn(v)为噪声分布,将其设置为其中,dv是节点v的出度;
步骤S52、使用异步随机梯度下降算法来优化目标函数;具体步骤为:在每一轮的优化过程中,采样得到几对θ(vi,vj)≠0的节点vi和vj,定义节点vi的梯度,用节点vi的梯度来更新采样过的节点的低维向量;节点vi的梯度的具体计算公式为:
相较于现有技术,本发明具有以下有益效果:本发明提出了一种适用于文献网络的论文领域分类方法,该方法利用了异构信息网络中元结构这一重要性特点,使得网络表示学习到的低维向量表示可以在包含节点网络拓扑结构信息的同时融合网络中丰富的异构信息,在降低维数的同时更好地度量文献网络中节点的相似度。
附图说明
图1为本发明一实施例中的流程图。
图2为本发明一实施例中DBLP文献网络的部分实例。
图3为本发明一实施例中文献网络DBLP网络模式上的一个元结构S。
图4为本发明一实施例中图2面向元结构S的层级的扩展过程实例。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明所提出的一种适用于文献网络的论文领域分类方法,如图1所示,包括如下步骤:
步骤S1、给定一个文献网络G=(V,E),根据网络模式找出文献网络G的元结构S,其中,V是节点集合,E是节点间关系集合;
步骤S2、对于文献网络G中的所有论文节点,基于元结构S,指定一个节点作为源对象os,一个节点作为目标对象ot,从源节点os出发,沿着元结构S的各个层级,根据网络文献G中存在的链接扩展生成元结构S限制下的各个层级layer的子图g,并计算os与ot在第layer层的子图g中的相关度;当扩展到元结构最后一层ds的时候,即可得到元结构实例及实例的两端节点os、ot之间的相关度θ(os,ot);
步骤S3:定义论文节点vi和vj之间的联合概率,具体公式为:
其中,emi是节点vi的低维向量表示;
步骤S4:定义论文节点vi和vj之间的经验联合概率分布,具体公式为:
其中,θ(vi,vj)是节点vi和vj之间基于元结构的相关程度;
步骤S5、定义一个目标函数,将目标函数表示为步骤S3、步骤S4得到的两个概率分布的距离,并使目标函数最小化,得到节点的低维向量表示;
步骤S6、计算所有论文节点之间的低维向量表示的余弦相似度,得到论文节点间的相似程度矩阵;
步骤S7、利用相似程度矩阵对所有论文类型节点进行K-means聚类,得到论文的分类结果;其中,K值定为文献网络中论文所属学科领域的数目。
在本实施例中,在所述步骤S2中,元结构层级是指给定一个元结构S=(N,M,ns,nt),根据节点在S中的拓扑结构对其划分层级。其中,N是元结构S的节点集,M是元结构S的边集,ns是元结构S的源节点,nt是元结构S的目标节点,ds表示层级的数量。
如图3中的元结构S,有ds=3,每一层的节点分别为{P1},{A,T},{P2}。
在本实施例中,在所述步骤S2中,扩展生成元结构S限制下的各个层级layer的子图g,并计算os与ot的相关度,包括如下具体步骤:
步骤S21、将网络G中元结构S限制下的子图g初始化为源节点os,相关度w初始为1,层数layer初始为1;
步骤S22、在layer+1层中求出每一个存在的相应类型的节点,且能与上层节点组成符合元结构S链接关系的实例;
步骤S23:计算步骤S22得到的实例的笛卡尔积σ;
步骤S24:计算得到源节点os与layer+1层节点的相关度w′,更新相关度w=w′;
步骤S25:对步骤S23得到的σ中的每一个元素,将其与layer层的子图g链接,得到layer+1层的新子图g;
步骤S26:layer=layer+1,重复所述步骤S22至所述步骤S25,直至若layer=ds,则返回相关度;
在本实施例中,在所述步骤S24中,计算得到源节点os与layer+1层节点的相关度w′,具体计算公式为:
w′=w/|σ|α
其中,|σ|表示该层实例的个数,α是一个偏差因子,0≤α≤1。
在图2中的文献网络中,给定如图3所示的元结构S,以p3作为源节点,即可沿着S的各个层级依次生成如图3所示的层级实例。最后,当扩展到第3层时,得到以p3为源节点的元结构S的实例。
在图4所示的各个实例中,指定源节点p3和一个目标节点p1,以图2中的元结构S的层级为限制条件,在第3层中,只有3(a),3(d)满足条件,则可以计算源节点p3与目标节点p1的关系θ(p3,p1)=2/9,说明从p3出发有2/9的可能性到达p1,这种概率在一定程度上也可以反应节点间的相关程度,其值越大,源节点和目标节点间的相关程度应该更加紧密。
在本实施例中,在所述步骤S5中,最小化目标函数的建立,具体包括以下步骤:
步骤S51、将目标函数定义为两个概率分布的距离,距离度量方式为KL散度,采用负采样来减少节点对的计算,对于每一对相关程度θ(vi,vj)≠0的节点对,目标函数具体为:
其中,表示文献网络G中已知边的建模,表示负样本边的建模,K为采样次数,Pn(v)为噪声分布,将其设置为其中,dv是节点v的出度;
步骤S52、使用异步随机梯度下降算法来优化目标函数;具体步骤为:在每一轮的优化过程中,采样得到几对θ(vi,vj)≠0的节点vi和vj,定义节点vi的梯度,用节点vi的梯度来更新采样过的节点的低维向量;节点vi的梯度的具体计算公式为:
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (2)

1.一种适用于文献网络的论文领域分类方法,其特征在于,包括如下步骤:
步骤S1、给定一个文献网络G=(V,E),根据网络模式找出文献网络G的元结构S,其中,V是节点集合,E是节点间关系集合;
步骤S2、对于文献网络G中的所有论文节点,基于元结构S,指定一个节点作为源对象os,一个节点作为目标对象ot,从源节点os出发,沿着元结构S的各个层级,根据网络文献G中存在的链接扩展生成元结构S限制下的各个层级layer的子图g,并计算os与ot在第layer层的子图g中的相关度;当扩展到元结构最后一层ds的时候,即可得到元结构实例及实例的两端节点os、ot之间的相关度θ(os,ot);
步骤S3:定义论文节点vi和vj之间的联合概率,具体公式为:
其中,emi是节点vi的低维向量表示;
步骤S4:定义论文节点vi和vj之间的经验联合概率分布,具体公式为:
其中,θ(vi,vj)是节点vi和vj之间基于元结构的相关程度;
步骤S5、定义一个目标函数,将目标函数表示为步骤S3、步骤S4得到的两个概率分布的距离,并使目标函数最小化,得到节点的低维向量表示;
步骤S6、计算所有论文节点之间的低维向量表示的余弦相似度,得到论文节点间的相似程度矩阵;
步骤S7、利用相似程度矩阵对所有论文类型节点进行K-means聚类,得到论文的分类结果;其中,K值定为文献网络中论文所属学科领域的数目。
2.根据权利要求1所述的一种适用于文献网络的论文领域分类方法,其特征在于,在所述步骤S5中,最小化目标函数的建立,具体包括以下步骤:
步骤S51、将目标函数定义为两个概率分布的距离,距离度量方式为KL散度,采用负采样来减少节点对的计算,对于每一对相关程度θ(vi,vj)≠0的节点对,目标函数具体为:
其中,表示文献网络G中已知边的建模,表示负样本边的建模,K为采样次数,Pn(v)为噪声分布,将其设置为其中,dv是节点v的出度;
步骤S52、使用异步随机梯度下降算法来优化目标函数;具体步骤为:在每一轮的优化过程中,采样得到几对θ(vi,vj)≠0的节点vi和vj,定义节点vi的梯度,用节点vi的梯度来更新采样过的节点的低维向量;节点vi的梯度的具体计算公式为:
CN201910077857.6A 2019-01-26 2019-01-26 一种适用于文献网络的论文领域分类方法 Expired - Fee Related CN109815335B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910077857.6A CN109815335B (zh) 2019-01-26 2019-01-26 一种适用于文献网络的论文领域分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910077857.6A CN109815335B (zh) 2019-01-26 2019-01-26 一种适用于文献网络的论文领域分类方法

Publications (2)

Publication Number Publication Date
CN109815335A true CN109815335A (zh) 2019-05-28
CN109815335B CN109815335B (zh) 2022-03-04

Family

ID=66605485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910077857.6A Expired - Fee Related CN109815335B (zh) 2019-01-26 2019-01-26 一种适用于文献网络的论文领域分类方法

Country Status (1)

Country Link
CN (1) CN109815335B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111277433A (zh) * 2020-01-15 2020-06-12 同济大学 基于属性网络表征学习的网络服务异常检测方法及装置
CN112989053A (zh) * 2021-04-26 2021-06-18 北京明略软件***有限公司 一种期刊推荐方法及装置
WO2021217930A1 (zh) * 2020-04-30 2021-11-04 深圳壹账通智能科技有限公司 基于分类模型的论文分类方法、装置、电子设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102200969A (zh) * 2010-03-25 2011-09-28 日电(中国)有限公司 基于句子顺序的文本情感极性分类***和方法
US20130035996A1 (en) * 2010-02-25 2013-02-07 Tim Frey Social advertising technology (so-ad-tec) system and method for advertising for and in documents, and other systems and methods for accessing, structuring, and evaluating documents
CN105653706A (zh) * 2015-12-31 2016-06-08 北京理工大学 一种基于文献内容知识图谱的多层引文推荐方法
CN108959236A (zh) * 2017-05-19 2018-12-07 百度在线网络技术(北京)有限公司 医学文献分类模型训练方法、医学文献分类方法及其装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130035996A1 (en) * 2010-02-25 2013-02-07 Tim Frey Social advertising technology (so-ad-tec) system and method for advertising for and in documents, and other systems and methods for accessing, structuring, and evaluating documents
CN102200969A (zh) * 2010-03-25 2011-09-28 日电(中国)有限公司 基于句子顺序的文本情感极性分类***和方法
CN105653706A (zh) * 2015-12-31 2016-06-08 北京理工大学 一种基于文献内容知识图谱的多层引文推荐方法
CN108959236A (zh) * 2017-05-19 2018-12-07 百度在线网络技术(北京)有限公司 医学文献分类模型训练方法、医学文献分类方法及其装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HUANG Z P等: "Meta Structure Computing Relevance in Large Heterogeneous Information Networks", 《PROC OF THE 22ND ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING》 *
ZHIPENG HUANG ET AL.: "Heterogeneous Information Network Embedding for Meta Path based Proximity", 《ARXIV》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111277433A (zh) * 2020-01-15 2020-06-12 同济大学 基于属性网络表征学习的网络服务异常检测方法及装置
CN111277433B (zh) * 2020-01-15 2021-02-12 同济大学 基于属性网络表征学习的网络服务异常检测方法及装置
WO2021217930A1 (zh) * 2020-04-30 2021-11-04 深圳壹账通智能科技有限公司 基于分类模型的论文分类方法、装置、电子设备及介质
CN112989053A (zh) * 2021-04-26 2021-06-18 北京明略软件***有限公司 一种期刊推荐方法及装置

Also Published As

Publication number Publication date
CN109815335B (zh) 2022-03-04

Similar Documents

Publication Publication Date Title
CN104008165B (zh) 一种基于网络拓扑结构和节点属性的社团检测方法
CN109815335A (zh) 一种适用于文献网络的论文领域分类方法
Shi Best-first decision tree learning
CN108776684B (zh) 知识图谱中边权重的优化方法、装置、介质、设备及***
CN104462383B (zh) 一种基于用户多种行为反馈的电影推荐方法
CN105787105B (zh) 一种基于迭代模型的中文百科知识图谱分类体系构建方法
CN107578061A (zh) 基于最小化损失学***衡样本分类方法
CN109461475B (zh) 一种基于人工神经网络的分子属性预测方法
CN106980648B (zh) 一种基于概率矩阵分解结合相似度的个性化推荐方法
CN105512277B (zh) 一种面向图书市场书名的短文本聚类方法
JP2018185771A (ja) 文ペア分類装置、文ペア分類学習装置、方法、及びプログラム
CN107818328A (zh) 结合局部信息的不完整数据相似性刻画方法
CN104598599B (zh) 命名排歧方法及***
CN110930030B (zh) 医生技术水平评级方法
CN108280548A (zh) 基于网络传输的智能处理方法
CN111090781A (zh) 一种动态社交网络中的链路预测方法
JP5175585B2 (ja) 文書処理装置、電子カルテ装置および文書処理プログラム
CN109710812A (zh) 一种网络表征算法稳定性度量方法
CN113392279A (zh) 基于主观逻辑和前馈神经网络的相似有向子图搜索方法及***
JPWO2011070979A1 (ja) 辞書作成装置、単語収集方法、及び、プログラム
CN108182273A (zh) 基于云存储的网络数据处理方法
CN115116545A (zh) 一种相对重要节点挖掘方法及***
CN107679112B (zh) 一种面向设计知识推送的加权特征知识适用概率匹配方法
Sari et al. Combining the active learning algorithm based on the silhouette coefficient with pckmeans algorithm
CN102955796B (zh) 基于频繁子树来导出记录模板的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220304

CF01 Termination of patent right due to non-payment of annual fee