CN109558494A - 一种基于异质网络嵌入的学者名字消歧方法 - Google Patents
一种基于异质网络嵌入的学者名字消歧方法 Download PDFInfo
- Publication number
- CN109558494A CN109558494A CN201811267181.9A CN201811267181A CN109558494A CN 109558494 A CN109558494 A CN 109558494A CN 201811267181 A CN201811267181 A CN 201811267181A CN 109558494 A CN109558494 A CN 109558494A
- Authority
- CN
- China
- Prior art keywords
- paper
- path
- node
- author
- heterogeneous network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000003780 insertion Methods 0.000 title claims abstract description 6
- 230000037431 insertion Effects 0.000 title claims abstract description 6
- 239000013598 vector Substances 0.000 claims abstract description 30
- 238000005295 random walk Methods 0.000 claims abstract description 20
- 238000012512 characterization method Methods 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000013508 migration Methods 0.000 claims description 10
- 230000005012 migration Effects 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于异质网络嵌入的学者名字消歧方法,其步骤为:1)设定多个需要消歧的作者,收集所有与设定需要消歧的作者相关的论文,然后利用所收集论文的作者和论文的语义信息生成论文关系异质网络;2)根据论文关系异质网络,通过基于元路径随机游走策略生成包含论文节点邻居节点文本信息的路径,并将这些路径保存为训练语料库;3)利用Skip‑gram模型对训练语料库进行训练,生成每一论文对应的论文表征向量;4)对于步骤1)中一设定需要消歧的作者,从得到的论文表征向量中获取该作者的论文对应的论文表征向量;5)对步骤4)得到的论文表征向量进行聚类,得到若干簇,实现对该作者名字的消歧。
Description
技术领域
本发明涉及大数据,知识图谱,实体消歧,异质网络嵌入技术领域,具体是一种非监督的基于元路径随机游走异质网络节点表征向量学习的方法进行学者名字消歧的技术。
背景技术
在构建科技文献知识库中,经常会遇到作者名字消歧的问题。例如在知识库海量的文档中,会有大量的同名作者存在,这会降低人名检索、人物关系挖掘、人物相似性关联的准确性。例如在检索一个作者名字时,会出现所有该同名作者所写的论文,为解决这一问题,通常采用聚类的方法将这些检索出来的论文划分给不同的作者实体,而聚类可以使用论文的合著者关系,论文出版的期刊名,论文标题相似性等信息来作为论文的特征,这样通过对论文的划分即可以将同名的不同作者给划分出来。问题就在于如何利用好上述这些论文的特征信息。
已经有许多的研究者针对这一名字消歧问题的提出了自己的解决方法,最常见的思路就是根据论文的特征信息,对每一篇论文构建出其表征向量,通过向量的分布特征,来对论文进行区分;进一步的,可以通过构建论文网络,借助网络的结构信息将论文的特征向量投影到表征能力更强的隐空间中,使得在新的论文向量空间中,相似性更高的论文在空间上的分布更加接近,同时相似度不高或者不相关的论文之间分布的更远。
发明内容
根据现有科技文献知识库中作者名消歧方法的不足之处,本发明提供了一种基于在异质论文网络上通过元路径随机游走的网络嵌入学习的作者姓名命名实体消歧方法,该方法利用论文的作者、发行期刊以及标题、关键词、摘要等文本信息,通过构建异质网络来建立论文之间的结构关系,通过对异质网络的网络嵌入学习得到论文的表征向量,并根据这些向量对论文聚类来达到对学术作者名字消歧的目的。
本发明具体包括以下步骤:
步骤一:收集论文库中所有与需要消歧的作者相关的论文,通过这些论文的作者,所发行的期刊名,论文的语义信息(包括标题、关键词和摘要等信息)构建论文关系异质网络。
步骤二:根据步骤一所述生成的论文关系异质网络,通过基于元路径随机游走策略生成包含论文节点邻居节点文本信息的路径,并将这些路径保存为下一步中skip-gram模型的训练语料库。
步骤三:根据所述步骤二生成随机游走的路径组成的语料库,基于Skip-gram模型学习论文表征向量。
步骤四:对于步骤一中一需要消歧的作者名称,收集其论文对应的表征向量,给定聚团数K,使用凝聚层次聚类方法,对上述表征向量进行聚类。聚类后的不同簇,代表同名但不同作者所写的论文集合,从而实现了对该作者名字的消歧。
相对于以往的相关方法,本发明的基于异质网络嵌入的学者名字消歧方法,其优点和贡献主要在于:
1.提出一个基于异质网络表征学习的方法,通过构建论文关系异质网络,基于元路径随机游走策略生成包含论文节点邻居节点文本信息的路径,并根据这些元路径组成的训练语料库,使用Skip-gram模型为每个论文节点高效的学习到一个低维的隐空间的向量表示,使得共同作者更多的、同一个期刊的、标题相似性更高的论文在空间上的分布更加接近,同时不满足这些条件的论文分布的更远。
2.通过构建论文的异质关系网络,基于元路径的随机游走以及skip-gram模型,保留了论文网络的结构信息和论文的属性的语义信息(论文的标题、摘要、关键词等),相比于以往的算法,增加使用了论文标题、摘要、关键词等文本信息之间的相似性,提高了论文表征向量的代表性。
3.通过在基准数据集上实验表明,这个方法在保持较高的运算速度的同时,相对于大部分的方法聚类的效果提高了20%到40%。
附图说明
图1为本发明方法流程示意图;
图2为异质网络示意图;
图3为元路径示意图;
图4为路径生成示意图。
具体实施方式
下面将结合附图以及实施例对本发明做进一步的阐述说明。
本发明采取一种非监督的基于元路径随机游走异质网络节点表征向量学习的方法进行学者名字消歧。以下实施例中,选取名字消歧论文基准数据库作为论文库,并结合附图,对本发明进一步的阐述。
步骤一:收集论文库中所有与需要消歧的作者相关的论文,通过这些论文的作者,所发行的期刊名,标题、关键词和摘要等信息构建论文关系异质网络。
把每一篇论文作为异质网络中的节点,如果它们之间有共同作者,那么就在它们之间构建一条关系名为CoAuthor的边,同时这条边具有共同作者数目的属性,如果有1个共同作者,这个关系的属性就为1,如果有2个共同作者,那么属性就为2,以此类推。
如果两篇论文来自同一个期刊,那么就在这两个论文之间建立一条关系名为CoVenue的边,由于往往一个论文只能属于一个期刊,所以这个关系的属性值都为1。
如果两篇论文的标题、关键词和摘要中,有相同出现的词,且这个词不是停用词,那么就在它们之间构建一条CoWord的边,这边相应的也有数目的属性,如果有一个共现词,那么属性值为1,如果有两个共现词,那么属性为2,以此类推。
这样就构建出了一个有一种节点类型、三种关系类型且其中两种关系有属性的论文异质网络。网络的示意图如图2所示。
在该步骤中,构建的关系除CoAuthor(共同作者)、CoWord(同关键词)、CoVenue(共同期刊/会议)外,还可根据其它成果信息进行构建,如论文之间的引用关系、共同作者国家、针对全文进行主题分类后的相同主题词等,即首先设置若干关系以及对应的关系属性;如果两论文之间存在某一设置的关系,则在两论文对应的节点之间构建一条边,并根据关系设置该边的名称,以及根据该关系的关系属性设置该边的属性值。
步骤二:根据步骤一所述生成的论文关系异质网络,通过基于元路径随机游走策略生成包含论文节点邻居节点文本信息的路径,并将这些路径保存为下一步中skip-gram模型的训练语料库。
根据步骤一生成的论文异质网络,在该论文异质网络中任意选一节点,以该节点为初始节点,以边为路径进行随机游走。
规定在元路径指导下的随机游走的过程中,元路径中包括多个不同关系名的边并设置这些边的出现顺序,比如按照p1-CoAuthor-p2-CoWord-p3-CoVunue-p4这样的元路径顺序进行随机游走(即随机游走中的随机指的是在走到某个关系的时候,随机选取与当前节点通过该关系相连的节点),每一次游走过程中,按照当前元路径规定的边的类型通过一种随机选取规则,随机选取一个通过该类型边与当前节点相连的节点作为下一个节点,即首先随机选择一个论文节点作为起始路径点,然后通过上述随机选取规则选择与该节点边的类型为CoAuthor的节点作为下一个路径点,再通过上述随机选取规则选择与该路径节点边的类型为CoWord的节点作为下一个路径点,最后通过上述随机选取规则选择与该路径节点边的类型为CoVunue的节点作为下一个路径点,这样就组成了一个元路径的游走序列。再将上述元路径的最后一个节点作为起始节点按照上述步骤生成一个新的元路径,经过N次这样迭代之后,变生成了一条长路径,其中每个路径节点存储的是论文的标识id。然后迭代M次生成这样的长路径,每次生成长路径时,按顺序选择网络中的节点作为长路径的起始节点,并将每个长路径按行存储,每个路径节点id用分隔符(比如空格或者制表符)隔开,生成训练语料库。
元路径示意图如图3所示。
同时,在元路径指导下的随机游走过程中,游走到当前某个节点并朝着元路径规定的某类边随机游走的过程中,会考虑到该关系的属性信息,这个属性相当于边的权值,权值越大,说明两个节点的关系越密切,因此这个边的属性值越大,那么节点沿着这条边跳转的概率就越大,例如,图2中,若p1为当前节点,下一跳的关系是CoAuthor,那么与p1有该关系的两个节点分别是p4和p2,根据它们之间关系的属性值,那么从p1游走到p4的概率是1/3,游走到p2的概率是2/3。
在某些情况下,有些关系对于一些论文来说是缺失的,例如某个论文的标题中所有的词并没有出现在其他任意一个论文的标题中,那么对它来说CoWord这个关系是缺少的,当出现这种情况时,就采用更灵活的策略,即根据元路径中当前缺失关系的下一个关系游走,对于上面说的那篇论文来说,就转而根据它的CoVunue关系进行游走。
生成路径的示意图如图4所示。
同时这样的游走策略并不是固定的,可以通过对元路径重新设计,而设计出新的游走策略,例如对于上述类型的异质网络中,将元路径设计为p1-CoAuthor-p2-CoVunue-p3-CoWord -p4,通过这样的设计可以生成新的随机游走路径,继而形成新的语料库。
这样的异质网络设计也是有多种多样的,例如当论文库中的信息包括有引用信息时,可以在上述的异质网络中构建出一种新的类型的边,这样就构建出一个有一种节点类型,四种关系类型的异质网络,通过设计新的元路径,可以生成该网络的随机游走路径语料库。同理当论文库中的论文缺少某项特征信息时,可以不使用该特征构建关系。
步骤三:根据所述步骤二生成随机游走的路径组成的语料库,基于Skip-gram模型实现论文向量的学习。
根据所述步骤二生成随机游走的路径组成的语料库,使用skip-gram模型进行训练,具体使用python中gensim库的word2vec方法或者Google开源的基于C语言word2vec工具。
skip-gram模型方法将节点的id看作为词,将路径中的节点连接序列看作是词的上下文信息,经过训练最终生成每个节点id对应的向量,相应的,这样就生成了论文的表征向量。
步骤四:对于一个需要消歧的作者名称,收集其在已有数据库中的所有论文由步骤一、二、三学习到的表征向量,给定聚团数K,使用凝聚层次聚类方法,对上述表征向量进行聚类。聚类后的不同聚团,代表不同作者所写的论文集合,从而实现了对该作者名字的消歧。
实验采用论文(Jie Tang,A.C.M.Fong,Bo Wang,and Jing Zhang.A UnifiedProbabilistic Framework for Name Disambiguation in Digital Library.IEEETransaction on Knowledge and Data Engineering,Volume 24,Issue 6,2012,Pages975-987.以及Xuezhi Wang,Jie Tang,Hong Cheng,and Philip S.Yu.ADANA:Active NameDisambiguation.In Proceedings of 2011IEEE International Conference on DataMining.pp.794-803.)中的论文数据集,该数据中有100个需要消歧的作者名,共计7447篇论文,论文名和作者信息是完备的,4%的论文缺少期刊名。
首先将数据集中的所有论文一起构建出一个异构网络,然后使用上述方法对每篇论文学习出了一个嵌入向量,然后对于每个需要消歧的作者,将该作者对应的论文放在一起聚类,并且假设已知类别数K。
使用HAC(凝聚层次聚类)的方法或K-Means聚类方法进行聚类。对聚类结果采用Pairwise Precise、Pairwise Recall、Pairwise F1的评估指标进行评估,并求均值。也可以不预先指定聚团数K,在聚类时,使用如DBSCAN等聚类算法。
目前使用的baseline方法有LINE,DNGR,metapath2vec。以上三种方法都是网络嵌入方法,通过构建论文网络,根据相应的网络嵌入方法,学习到论文的表征向量。其中LINEwith title similarity是指在构建论文同质网络中,如果论文之间的标题有一定的相似性,则增加相应论文连接边的权值,并最终使用LINE的方法来进行网络嵌入学习。下表为不同方法的消歧效果。
方法 | Prec | Rec | F1 |
our approach | 79.68 | 80.14 | 78.85 |
LINE | 61.22 | 49.96 | 53.02 |
LINE with title similarity | 79.29 | 58.69 | 64.98 |
metapath2vec | 64.44 | 67.75 | 64.40 |
DNGR | 44.62 | 70.21 | 51.65 |
由此可见,本发明的方法明显优于其他的方法。由于使用了异构网络嵌入的学习方法,尽可能的保留了论文本身的关系信息,使得学习到的论文向量具有的表征能力更强,因此提高了消歧的效果。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求所述为准。
Claims (10)
1.一种基于异质网络嵌入的学者名字消歧方法,其步骤为:
1)设定多个需要消歧的作者,收集所有与设定需要消歧的作者相关的论文,然后利用所收集论文的作者和语义信息生成论文关系异质网络;
2)根据所述论文关系异质网络,通过基于元路径随机游走策略生成包含论文节点邻居节点文本信息的路径,并将这些路径保存为skip-gram模型的训练语料库;
3)利用Skip-gram模型对所述训练语料库进行训练,生成每一论文对应的论文表征向量;
4)对于步骤1)中一设定需要消歧的作者,从步骤3)得到的论文表征向量中获取该作者的论文对应的论文表征向量;
5)对步骤4)得到的论文表征向量进行聚类,得到若干簇;将不同簇作为与该作者同名但不是同一人所写的论文集合,实现对该作者名字的消歧。
2.如权利要求1所述的方法,其特征在于,生成所述论文关系异质网络的方法为:将每一篇论文作为异质网络中的节点,并设置若干关系以及对应的关系属性;如果两论文之间存在某一设置的关系,则在两论文对应的节点之间构建一条边,并根据关系设置该边的名称,以及根据该关系的关系属性设置该边的属性值。
3.如权利要求2所述的方法,其特征在于,所述关系包括但不限于以下一种或几种关系:含有共同作者、包含相同关键词、属于共同期刊或会议、存在引用关系、共同作者国家。
4.如权利要求1或2所述的方法,其特征在于,生成所述训练语料库的方法为:在该论文关系异质网络中任意选一节点,以该节点为初始节点,在元路径指导下进行游走,生成一长路径;更改初始节点继续生成所述长路径,并将各所述长路径按行存储,每个路径节点id用分隔符隔开,生成训练语料库。
5.如权利要求4所述的方法,其特征在于,在元路径指导下进行游走的方法为:
51)按照元路径规定的边出现顺序进行路径上边的选择,如果当前节点到下一节点有多个符合条件的边,则选取一个符合条件的边确定出当前节点相连的下一个节点;所述元路径中包括多个不同关系名的边并设置这些边的出现顺序;
52)重复步骤51)设定的N次后,得到一所述长路径。
6.如权利要求5所述的方法,其特征在于,所述步骤51)中,根据边的权重选取一个符合条件的边确定出当前节点相连的下一个节点;其中,权重越大的边被选择的概率也越大。
7.如权利要求1所述的方法,其特征在于,所述skip-gram模型将路径中的路径节点的id看作为词,将路径中的节点连接序列看作是词的上下文信息,经过训练最终生成每个节点id对应的向量,即该节点id对应论文的论文表征向量。
8.如权利要求1或7所述的方法,其特征在于,所述skip-gram模型为python中gensim库的word2vec方法或者Google开源的基于C语言word2vec工具。
9.如权利要求1所述的方法,其特征在于,利用所收集论文的作者、期刊名和语义信息生成论文关系异质网络;所述语义信息包括但不限于以下一种或几种信息:作者、标题、关键词和摘要信息。
10.如权利要求1所述的方法,其特征在于,给定聚团数K,使用凝聚层次聚类方法,对步骤4)得到的论文表征向量进行聚类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811267181.9A CN109558494A (zh) | 2018-10-29 | 2018-10-29 | 一种基于异质网络嵌入的学者名字消歧方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811267181.9A CN109558494A (zh) | 2018-10-29 | 2018-10-29 | 一种基于异质网络嵌入的学者名字消歧方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109558494A true CN109558494A (zh) | 2019-04-02 |
Family
ID=65865176
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811267181.9A Pending CN109558494A (zh) | 2018-10-29 | 2018-10-29 | 一种基于异质网络嵌入的学者名字消歧方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109558494A (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020214A (zh) * | 2019-04-08 | 2019-07-16 | 北京航空航天大学 | 一种融合知识的社交网络流式事件检测*** |
CN110502637A (zh) * | 2019-08-27 | 2019-11-26 | 秒针信息技术有限公司 | 一种基于异构信息网络的信息处理方法和信息处理装置 |
CN110516146A (zh) * | 2019-07-15 | 2019-11-29 | 中国科学院计算机网络信息中心 | 一种基于异质图卷积神经网络嵌入的作者名字消歧方法 |
CN110830291A (zh) * | 2019-10-30 | 2020-02-21 | 辽宁工程技术大学 | 一种基于元路径的异质信息网络的节点分类方法 |
CN111008285A (zh) * | 2019-11-29 | 2020-04-14 | 中科院计算技术研究所大数据研究院 | 一种基于论文关键属性网络的作者消歧方法 |
CN111104797A (zh) * | 2019-12-17 | 2020-05-05 | 南开大学 | 一种基于对偶的序列到序列生成的论文网络表示学习方法 |
CN111191466A (zh) * | 2019-12-25 | 2020-05-22 | 中国科学院计算机网络信息中心 | 一种基于网络表征和语义表征的同名作者消歧方法 |
CN111221968A (zh) * | 2019-12-31 | 2020-06-02 | 北京航空航天大学 | 基于学科树聚类的作者消歧方法及装置 |
CN111241283A (zh) * | 2020-01-15 | 2020-06-05 | 电子科技大学 | 一种科研学者画像的快速表征方法 |
CN111581949A (zh) * | 2020-05-12 | 2020-08-25 | 上海市研发公共服务平台管理中心 | 学者人名的消歧方法、装置、存储介质及终端 |
CN111881693A (zh) * | 2020-07-28 | 2020-11-03 | 平安科技(深圳)有限公司 | 论文作者的消歧方法、装置和计算机设备 |
CN111930955A (zh) * | 2020-10-12 | 2020-11-13 | 北京智源人工智能研究院 | 一种作者命名消歧的方法、装置和电子设备 |
CN112148776A (zh) * | 2020-09-29 | 2020-12-29 | 清华大学 | 基于引入语义信息的神经网络的学术关系预测方法和装置 |
CN112417082A (zh) * | 2020-10-14 | 2021-02-26 | 西南科技大学 | 一种科研成果数据消歧归档存储方法 |
CN112463977A (zh) * | 2020-10-22 | 2021-03-09 | 三盟科技股份有限公司 | 基于知识图谱的社区挖掘方法、***、计算机及存储介质 |
CN112487825A (zh) * | 2020-11-30 | 2021-03-12 | 北京航空航天大学 | 一种人才信息数据库消歧*** |
CN112597305A (zh) * | 2020-12-22 | 2021-04-02 | 上海师范大学 | 基于深度学习的科技文献作者名消歧方法及web端消歧装置 |
WO2021077642A1 (zh) * | 2019-10-24 | 2021-04-29 | 中国科学院信息工程研究所 | 一种基于异构图嵌入的网络空间安全威胁检测方法及*** |
CN112836518A (zh) * | 2021-01-29 | 2021-05-25 | 华南师范大学 | 名称歧义消除模型的处理方法、***和存储介质 |
CN112836050A (zh) * | 2021-02-04 | 2021-05-25 | 山东大学 | 针对关系不确定性的引文网络节点分类方法及*** |
CN113051397A (zh) * | 2021-03-10 | 2021-06-29 | 北京工业大学 | 一种基于异质信息网络表示学习和词向量表示的学术论文同名排歧方法 |
CN113111178A (zh) * | 2021-03-04 | 2021-07-13 | 中国科学院计算机网络信息中心 | 无监督的基于表示学习的同名作者消歧方法及装置 |
CN113554175A (zh) * | 2021-09-18 | 2021-10-26 | 平安科技(深圳)有限公司 | 一种知识图谱构建方法、装置、可读存储介质及终端设备 |
CN117556058A (zh) * | 2024-01-11 | 2024-02-13 | 安徽大学 | 知识图谱增强网络嵌入的作者名称消歧方法和装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104111973A (zh) * | 2014-06-17 | 2014-10-22 | 中国科学院计算技术研究所 | 一种学者重名的消歧方法及其*** |
CN104268200A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种基于深度学习的非监督命名实体语义消歧方法 |
US20160335367A1 (en) * | 2015-05-15 | 2016-11-17 | Microsoft Technology Licensing, Llc | Entity disambiguation using multisource learning |
CN107451596A (zh) * | 2016-05-30 | 2017-12-08 | 清华大学 | 一种网络节点分类方法及装置 |
CN107590128A (zh) * | 2017-09-21 | 2018-01-16 | 湖北大学 | 一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法 |
CN107633263A (zh) * | 2017-08-30 | 2018-01-26 | 清华大学 | 基于边的网络图嵌入方法 |
CN107861939A (zh) * | 2017-09-30 | 2018-03-30 | 昆明理工大学 | 一种融合词向量和主题模型的领域实体消歧方法 |
CN108228728A (zh) * | 2017-12-11 | 2018-06-29 | 北京航空航天大学 | 一种参数化的论文网络节点表示学习方法 |
-
2018
- 2018-10-29 CN CN201811267181.9A patent/CN109558494A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268200A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种基于深度学习的非监督命名实体语义消歧方法 |
CN104111973A (zh) * | 2014-06-17 | 2014-10-22 | 中国科学院计算技术研究所 | 一种学者重名的消歧方法及其*** |
US20160335367A1 (en) * | 2015-05-15 | 2016-11-17 | Microsoft Technology Licensing, Llc | Entity disambiguation using multisource learning |
CN107451596A (zh) * | 2016-05-30 | 2017-12-08 | 清华大学 | 一种网络节点分类方法及装置 |
CN107633263A (zh) * | 2017-08-30 | 2018-01-26 | 清华大学 | 基于边的网络图嵌入方法 |
CN107590128A (zh) * | 2017-09-21 | 2018-01-16 | 湖北大学 | 一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法 |
CN107861939A (zh) * | 2017-09-30 | 2018-03-30 | 昆明理工大学 | 一种融合词向量和主题模型的领域实体消歧方法 |
CN108228728A (zh) * | 2017-12-11 | 2018-06-29 | 北京航空航天大学 | 一种参数化的论文网络节点表示学习方法 |
Non-Patent Citations (1)
Title |
---|
YUXIAO DONG等: "metapath2vec:Scalable Representation Learning for Heterogeneous Networks", 《MICROSOFT RESEARCH》 * |
Cited By (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020214A (zh) * | 2019-04-08 | 2019-07-16 | 北京航空航天大学 | 一种融合知识的社交网络流式事件检测*** |
CN110020214B (zh) * | 2019-04-08 | 2021-05-18 | 北京航空航天大学 | 一种融合知识的社交网络流式事件检测*** |
CN110516146A (zh) * | 2019-07-15 | 2019-11-29 | 中国科学院计算机网络信息中心 | 一种基于异质图卷积神经网络嵌入的作者名字消歧方法 |
CN110516146B (zh) * | 2019-07-15 | 2022-08-19 | 中国科学院计算机网络信息中心 | 一种基于异质图卷积神经网络嵌入的作者名字消歧方法 |
CN110502637B (zh) * | 2019-08-27 | 2022-03-01 | 秒针信息技术有限公司 | 一种基于异构信息网络的信息处理方法和信息处理装置 |
CN110502637A (zh) * | 2019-08-27 | 2019-11-26 | 秒针信息技术有限公司 | 一种基于异构信息网络的信息处理方法和信息处理装置 |
WO2021077642A1 (zh) * | 2019-10-24 | 2021-04-29 | 中国科学院信息工程研究所 | 一种基于异构图嵌入的网络空间安全威胁检测方法及*** |
CN110830291B (zh) * | 2019-10-30 | 2023-01-10 | 辽宁工程技术大学 | 一种基于元路径的异质信息网络的节点分类方法 |
CN110830291A (zh) * | 2019-10-30 | 2020-02-21 | 辽宁工程技术大学 | 一种基于元路径的异质信息网络的节点分类方法 |
CN111008285B (zh) * | 2019-11-29 | 2021-04-13 | 中科院计算技术研究所大数据研究院 | 一种基于论文关键属性网络的作者消歧方法 |
CN111008285A (zh) * | 2019-11-29 | 2020-04-14 | 中科院计算技术研究所大数据研究院 | 一种基于论文关键属性网络的作者消歧方法 |
CN111104797A (zh) * | 2019-12-17 | 2020-05-05 | 南开大学 | 一种基于对偶的序列到序列生成的论文网络表示学习方法 |
CN111104797B (zh) * | 2019-12-17 | 2023-05-02 | 南开大学 | 一种基于对偶的序列到序列生成的论文网络表示学习方法 |
US11775594B2 (en) | 2019-12-25 | 2023-10-03 | Computer Network Information Center, Chinese Academy Of Sciences | Method for disambiguating between authors with same name on basis of network representation and semantic representation |
WO2021128158A1 (zh) * | 2019-12-25 | 2021-07-01 | 中国科学院计算机网络信息中心 | 一种基于网络表征和语义表征的同名作者消歧方法 |
CN111191466A (zh) * | 2019-12-25 | 2020-05-22 | 中国科学院计算机网络信息中心 | 一种基于网络表征和语义表征的同名作者消歧方法 |
CN111221968A (zh) * | 2019-12-31 | 2020-06-02 | 北京航空航天大学 | 基于学科树聚类的作者消歧方法及装置 |
CN111221968B (zh) * | 2019-12-31 | 2023-07-21 | 北京航空航天大学 | 基于学科树聚类的作者消歧方法及装置 |
CN111241283A (zh) * | 2020-01-15 | 2020-06-05 | 电子科技大学 | 一种科研学者画像的快速表征方法 |
CN111581949A (zh) * | 2020-05-12 | 2020-08-25 | 上海市研发公共服务平台管理中心 | 学者人名的消歧方法、装置、存储介质及终端 |
CN111881693A (zh) * | 2020-07-28 | 2020-11-03 | 平安科技(深圳)有限公司 | 论文作者的消歧方法、装置和计算机设备 |
WO2021139256A1 (zh) * | 2020-07-28 | 2021-07-15 | 平安科技(深圳)有限公司 | 论文作者的消歧方法、装置和计算机设备 |
CN111881693B (zh) * | 2020-07-28 | 2023-01-13 | 平安科技(深圳)有限公司 | 论文作者的消歧方法、装置和计算机设备 |
CN112148776A (zh) * | 2020-09-29 | 2020-12-29 | 清华大学 | 基于引入语义信息的神经网络的学术关系预测方法和装置 |
CN112148776B (zh) * | 2020-09-29 | 2024-05-03 | 清华大学 | 基于引入语义信息的神经网络的学术关系预测方法和装置 |
CN111930955A (zh) * | 2020-10-12 | 2020-11-13 | 北京智源人工智能研究院 | 一种作者命名消歧的方法、装置和电子设备 |
CN112417082B (zh) * | 2020-10-14 | 2022-06-07 | 西南科技大学 | 一种科研成果数据消歧归档存储方法 |
CN112417082A (zh) * | 2020-10-14 | 2021-02-26 | 西南科技大学 | 一种科研成果数据消歧归档存储方法 |
CN112463977A (zh) * | 2020-10-22 | 2021-03-09 | 三盟科技股份有限公司 | 基于知识图谱的社区挖掘方法、***、计算机及存储介质 |
CN112487825A (zh) * | 2020-11-30 | 2021-03-12 | 北京航空航天大学 | 一种人才信息数据库消歧*** |
CN112597305A (zh) * | 2020-12-22 | 2021-04-02 | 上海师范大学 | 基于深度学习的科技文献作者名消歧方法及web端消歧装置 |
CN112597305B (zh) * | 2020-12-22 | 2023-09-01 | 上海师范大学 | 基于深度学习的科技文献作者名消歧方法及web端消歧装置 |
CN112836518A (zh) * | 2021-01-29 | 2021-05-25 | 华南师范大学 | 名称歧义消除模型的处理方法、***和存储介质 |
CN112836518B (zh) * | 2021-01-29 | 2023-12-26 | 华南师范大学 | 名称歧义消除模型的处理方法、***和存储介质 |
CN112836050B (zh) * | 2021-02-04 | 2022-05-17 | 山东大学 | 针对关系不确定性的引文网络节点分类方法及*** |
CN112836050A (zh) * | 2021-02-04 | 2021-05-25 | 山东大学 | 针对关系不确定性的引文网络节点分类方法及*** |
CN113111178B (zh) * | 2021-03-04 | 2021-12-10 | 中国科学院计算机网络信息中心 | 无监督的基于表示学习的同名作者消歧方法及装置 |
CN113111178A (zh) * | 2021-03-04 | 2021-07-13 | 中国科学院计算机网络信息中心 | 无监督的基于表示学习的同名作者消歧方法及装置 |
CN113051397A (zh) * | 2021-03-10 | 2021-06-29 | 北京工业大学 | 一种基于异质信息网络表示学习和词向量表示的学术论文同名排歧方法 |
CN113554175B (zh) * | 2021-09-18 | 2021-11-26 | 平安科技(深圳)有限公司 | 一种知识图谱构建方法、装置、可读存储介质及终端设备 |
CN113554175A (zh) * | 2021-09-18 | 2021-10-26 | 平安科技(深圳)有限公司 | 一种知识图谱构建方法、装置、可读存储介质及终端设备 |
CN117556058A (zh) * | 2024-01-11 | 2024-02-13 | 安徽大学 | 知识图谱增强网络嵌入的作者名称消歧方法和装置 |
CN117556058B (zh) * | 2024-01-11 | 2024-05-24 | 安徽大学 | 知识图谱增强网络嵌入的作者名称消歧方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109558494A (zh) | 一种基于异质网络嵌入的学者名字消歧方法 | |
CN110516146B (zh) | 一种基于异质图卷积神经网络嵌入的作者名字消歧方法 | |
Ramage et al. | Clustering the tagged web | |
Gupta et al. | Survey on social tagging techniques | |
Yin et al. | Building taxonomy of web search intents for name entity queries | |
Au Yeung et al. | Contextualising tags in collaborative tagging systems | |
Foley et al. | Learning to extract local events from the web | |
Aznag et al. | Leveraging formal concept analysis with topic correlation for service clustering and discovery | |
Ju et al. | Things and strings: improving place name disambiguation from short texts by combining entity co-occurrence with topic modeling | |
Plangprasopchok et al. | Constructing folksonomies from user-specified relations on flickr | |
Bauman et al. | Discovering Contextual Information from User Reviews for Recommendation Purposes. | |
Iezzi | Centrality measures for text clustering | |
Role et al. | Beyond cluster labeling: Semantic interpretation of clusters’ contents using a graph representation | |
Faralli et al. | Automatic acquisition of a taxonomy of microblogs users’ interests | |
Qassimi et al. | The role of collaborative tagging and ontologies in emerging semantic of web resources | |
Panasyuk et al. | Extraction of semantic activities from twitter data. | |
Yuan et al. | Category hierarchy maintenance: a data-driven approach | |
Latha | Experiment and Evaluation in Information Retrieval Models | |
Fernando et al. | Comparing taxonomies for organising collections of documents | |
Bagdouri et al. | Profession-based person search in microblogs: Using seed sets to find journalists | |
Gabriel et al. | Summarizing dynamic social tagging systems | |
Jain et al. | Organizing query completions for web search | |
Ali et al. | Graph-based semantic learning, representation and growth from text: A systematic review | |
Ayyasamy et al. | Mining Wikipedia knowledge to improve document indexing and classification | |
El Ghosh et al. | RelTopic: a graph-based semantic relatedness measure in topic ontologies and its applicability for topic labeling of old press articles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190402 |