CN111008285A - 一种基于论文关键属性网络的作者消歧方法 - Google Patents

一种基于论文关键属性网络的作者消歧方法 Download PDF

Info

Publication number
CN111008285A
CN111008285A CN201911207075.6A CN201911207075A CN111008285A CN 111008285 A CN111008285 A CN 111008285A CN 201911207075 A CN201911207075 A CN 201911207075A CN 111008285 A CN111008285 A CN 111008285A
Authority
CN
China
Prior art keywords
list
author
name
node
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911207075.6A
Other languages
English (en)
Other versions
CN111008285B (zh
Inventor
冯凯
康锐文
王元卓
刘冰冰
彭亮
贾士杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Science And Technology Big Data Research Institute
Original Assignee
Big Data Research Institute Institute Of Computing Technology Chinese Academy Of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Big Data Research Institute Institute Of Computing Technology Chinese Academy Of Sciences filed Critical Big Data Research Institute Institute Of Computing Technology Chinese Academy Of Sciences
Priority to CN201911207075.6A priority Critical patent/CN111008285B/zh
Publication of CN111008285A publication Critical patent/CN111008285A/zh
Application granted granted Critical
Publication of CN111008285B publication Critical patent/CN111008285B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于论文关键属性网络的作者消歧方法,关键属性关系网是通过收集论文中的关键属性并通过他们的相关关系形成的关系网络,分别形成了论文合著者之间的关系网,同一机构的关系网,同一领域的关系网,最终形成论文关键属性的关系网。本发明的方法通过提取论文中论文名称、作者机构、作者领域并围绕作者名称建立关系网络,当对论文作者进行消歧的时候,通过对论文作者的名称的匹配,并结关系网络中的作者机构、作者领域能够有效的解决论文中相同人名但对应不同实际作者的情况。另外通过结合论文名称匹配当前待消歧作者合著者并再次匹配的合著者,能够有效的解决同一实际作者有不同人名写法的这种情况。

Description

一种基于论文关键属性网络的作者消歧方法
技术领域
本发明属于对论文同名作者和不同作者消歧技术领域,具体涉及一种基于论文关键属性网络的作者消歧方法。
背景技术:
近年来,随着互联网的发展,人们生活的方方面面都已经和互联网息息相关,学术活动也是如此。现今学术成果绝大部分都可以通过互联网进行查询。但在海量数据面前,如何能够准确的查询到我们需要的数据就显的尤为重要。目前大部分论文平台都能够通过作者进行检索,检索出查询的作者所发表的论文信息。在这种情况下,作者姓名的准确性就显的尤为重要。但是在现实情况中通常会出现以下两种情况。
其一是同一作者所发表的论文作者姓名可能会以不同的方式进行呈现,如作者真实姓名叫做“张三”,可能在某些外文文献中是“San Zhang”,同时也可能会以缩写的方式进行呈现如“Zhang S.”。
第二是不同的作者重名的情况,如不同机构的两位作者同叫“李四”,或者一位叫做“王五”,另一位叫做“王吴”,在一些外文文献中写的通讯作者的名称结果全为“WuWang”。
以上两种情况都对论文检索造成了很大的困难,在现有***中很多论文搜索引擎都是直接针对字符串匹配进行检索查询的,随着数据量的增大,检索出来的结果很大程度上不能保证其准确性,大多数情况下都需要人工对结果进行甄别。随着对论文作者准确性要求的提高,也出现了很多对论文作者消歧的办法,但是这些传统的办法只是单纯性的从机构、关键词、出版信息等维度进行简单的匹配,随着数据量的增长,这些传统的方法导致筛选出的论文越发的杂乱无章,后期需要研究人员进行长时间的甄别。严重的影响了研究效率。
发明内容
本发明主要基于当前对论文作者消歧的必要性,以及在大数据量情况下传统消歧方法的有效性上提出了一种建立基于论文关键属性网络的作者消歧方法,对同一实际作者有不同人名写法的数据进行合并;对相同人名但对应不同实际作者的数据进行区分。
实现上述目的所采用的技术方案:一种基于论文关键属性网络的作者消歧方法,建立关键属性关系网,是通过收集论文中的关键属性并通过他们的相关关系形成的关系网络,其中关系网络中的实体节点主要有:作者名称、作者机构、作者领域和论文名称;作者之间通过论文名称、机构和领域三个维度进行聚类,分别形成了论文合著者之间的关系网,同一机构的关系网,同一领域的关系网,最终形成论文关键属性的关系网;对基于关键属性关系网的作者消歧方法的实现逻辑包括如下步骤1-步骤7。
步骤1:向关系网中输入单元A1。
步骤2:将单元A1中的领域、机构和论文名称***关系网中,做Merge操作。
步骤3:查询A1中的N1与关系网中的所有N节点是否有相同节点。
步骤4:如果有相同节点则进入流程FLOW1,开始进行判断,主要判断是否是相同人名但对应不同实际作者的这种情况。
进行FLOW1流程,包括如下步骤(1)-(7)。
(1)拿出与N1节点相同的N节点关联的领域(F)与机构(O)的列表,分别记为F-List与O-List。
(2)将与N1相关的F与F-List匹配后计算权重,每匹配成功一次权重为1,计算领域权重和,记为:SumWeightField。
(3)将与N1相关的O与O-List匹配后计算权重,每匹配成功一次权重为2,计算机构权重和,记为:SumWeightOrg。
(4)计算权重和,记为:SumWeight=Weight(F)+Weight(O)。
(5)若SumWeight>2则标记为N1与匹配成功的N节点为同一人。
(6)若SumWeight≤2则标记为N1与匹配成功的N节点为两个人。
(7)输出结果。
步骤5:如果不同则进入流程FLOW2,开始进行判断,主要判断是否存在对同一实际作者有不同人名写法的这种情况。
进行FLOW2流程,包括如下步骤(1)-(8)。
(1)在关系网中分别拿出与A1的论文名称(T)相同的论文名称节点列表Title-List,与 A1的领域(F)相同的领域节点列表Field-List,与A1的机构(O)相同的机构节点列表Org-List。
(2)通过Title-List关联的作者名称节点即N节点,我们将论文作者与其合著者的关系关联起,通过查询N1的合著者,反向再次查询匹配即对可能匹配上的作者进行筛选,这部分N-List即为与A1中的N1合作过的作者再次关联出的合作者,这部分基于一个现实情况是,与N1合作过的作者可能不止一次与N1进行合作,主要步骤如下:
a)通过Title-List查询出与其相关联的作者名称N-List。
b)通过N-List查询N-List所关联的论文名称T-List,即关联论文名称。
c)通过T-List查询其所关联的作者名称,输出为N-Title-List。
(3)查询与Field-List关联的作者名称节点,输出为N-Field-List。
(4)查询与Org-List关联的作者名称几点,输出为N-Org-List。
(5)将N1分别与N-Title-List、N-Field-List、N-Org-List进行相关度匹配,分别记为 Ret-Title-List、Ret-Field-List、Ret-Org-List,其中权重分别为3、2、1。
(6)将Ret-Title-List、Ret-Field-List、Ret-Org-List按值进行聚合,求交集,并分别计算聚合后不同结果集的权重和SumWeight,输出结果集为Ret-List。
(7)取Ret-List中权重和SumWeight最高的一条,若SumWeight>4则为同一作者,如果SumWeight≤4则为不同作者。
(8)如果权重和最高的且大于4的有多条,则再次进行作者名称的相关度匹配,取相关度匹配最高的那一条。
步骤6:将步骤4或步骤5的结果输入到关系网中,如果是新的作者名称节点,则***关系网中,否则更新关系网中作者名称节点,为作者名称节点增加新的别名。
步骤7:依此循环以上6步,在建立关系网的同时达到消歧的目的。
上述的单元:把信息的一次输入称为一个单元,其中一个单元为一篇论文中提取的作者信息列表中的一条,包括:作者名称(N)、领域(F)、机构(O)、论文名称(T)。所述的A1代表一个单元一个具体实例;后边文档说明同此,为方便起见不再赘述。
上述所述步骤1主要是向关系网中输入单元数据,包括如下步骤(1)-(2)。
(1)将作者名称、论文名称、领域、机构字符全部数据转为小写。
(2)去除数据中的特数字符,如“-”,“.”等。
上述步骤2的包括如下步骤(1)-(5).
(1)提取A1中的领域节点,依次***关系网络中,F1为A1中的一个领域节点。
(2)判断关系网中是否存在与F1相同的节点。
(3)如果存在则忽略。
(4)如果不存在则向关系网中***。
(5)其余机构与论文标题同上边1到4步。
本发明的有益效果:本发明的方法通过提取论文中论文名称、作者机构、作者领域并围绕作者名称建立关系网络,当对论文作者进行消歧的时候,通过对论文作者的名称的匹配,并结关系网络中的作者机构、作者领域能够有效的解决论文中相同人名但对应不同实际作者的情况。另外通过结合论文名称匹配当前待消歧作者合著者(Coop Author List)并再次匹配 Coop Author List的合著者,能够有效的解决同一实际作者有不同人名写法的这种情况。
附图说明
图1为关键属性关系网的一个示例图。
图2为消歧方法的总体流程图。
图3为FLOW1的流程图。
图4为FLOW2的流程图。
具体实施方式
本发明主要基于当前对论文作者消歧的必要性,以及在大数据量情况下传统消歧方法的有效性上提出了一种建立基于论文关键属性网络的作者消歧方法。该方法通过提取论文中论文名称、作者机构、作者领域并围绕作者名称建立关系网络,当对论文作者进行消歧的时候,通过对论文作者的名称的匹配,并结关系网络中的作者机构、作者领域能够有效的解决论文中相同人名但对应不同实际作者的情况。另外通过结合论文名称匹配当前待消歧作者合著者并再次匹配的合著者,能够有效的解决同一实际作者有不同人名写法的这种情况。下边先对关系网进行一个概要说明,然后会对方法的实现逻辑进行阐述。
关键属性关系网主要是通过收集论文中的关键属性并通过他们的相关关系形成的关系网络,其中关系网络中的实体节点主要有:作者名称、作者机构、作者领域、论文名称。作者之间通过论文名称、机构、领域三个维度进行聚类,分别形成了论文合著者之间的关系网,同一机构的关系网,同一领域的关系网,最终形成论文关键属性的关系网。
以下先对关系网进行一个概要说明,然后会对方法的实现逻辑进行阐述。
图1为关键属性关系网的一个示例图,其中N代表作者名称、F代表领域、O代表机构、 T代表论文名称,通过节点之间的关系形成关键属性关系网。单元:为了方便表述,这里把信息的一次输入称为一个单元,其中一个单元为一篇论文中提取的作者信息列表中的一条,包括:作者名称(N)、领域(F)、机构(O)、论文名称(T)。A1代表一个单元一个具体实例;后边文档说明同此,为方便起见不再赘述。
下边对基于关键属性关系网的作者消歧方法的实现逻辑进行详细的说明,图2为消歧方法的总体流程图。
对图2中流程说明。
(1)向关系网中输入单元A1;
(2)将单元A1中的领域、机构、论文名称***关系网中,做Merge操作。
(3)查询A1中的N1与关系网中的所有N节点是否有相同节点。
(4)如果有相同节点则进入流程FLOW1,开始进行判断,主要判断是否是相同人名但对应不同实际作者的这种情况。
(5)如果不同则进入流程FLOW2,开始进行判断,主要判断是否存在对同一实际作者有不同人名写法的这种情况。
(6)(4)或(5)步的结果输入到关系网中,如果是新的作者名称节点,则***关系网中,否则更新关系网中作者名称节点,为作者名称节点增加新的别名。
(7)依此循环以上(6)步,在建立关系网的同时达到消歧的目的。
其中所述步骤(1)主要是向关系网中输入单元数据,步骤(1)其主要步骤为:
1.将作者名称、论文名称、领域、机构字符全部数据转为小写;
2.去除数据中的特数字符,如“-”,“.”等。
所述步骤(2)的主要步骤为:
1.提取A1中的领域节点,依次***关系网络中,F1为A1中的一个领域节点。
2.判断关系网中是否存在与F1相同的节点。
3.如果存在则忽略。
4.如果不存在则向关系网中***。
5.其余机构与论文标题同上边1到4步。
所述步骤(4)在判断N1与关系网中N有相同的节点的时候,进行FLOW1流程,图3为FLOW1的流程图,详细说明如下。
1.拿出与N1节点相同的N节点关联的领域(F)与机构(O)的列表,分别记为F-List与O-List;
2.将与N1相关的F与F-List匹配后计算权重,每匹配成功一次权重为1,计算领域权重和,记为:SumWeightFieid;
3.将与N1相关的O与O-List匹配后计算权重,每匹配成功一次权重为2,计算机构权重和,记为:SumWeightOrg;
4.计算权重和,记为:SumWeight=Weight(F)+Weight(O);
5.若SumWeight>2则标记为N1与匹配成功的N节点为同一人;
6.若SumWeight≤2则标记为N1与匹配成功的N节点为两个人;
7.输出结果。
所述步骤(5)在判断N1与关系网中N没有相同的节点的时候,进行FLOW2流程,图4为FLOW2的流程图,详细说明如下。
1.在关系网中分别拿出与A1的论文名称(T)相同的论文名称节点列表Title-List,与A1 的领域(F)相同的领域节点列表Field-List,与A1的机构(O)相同的机构节点列表Org-List;
2.通过Title-List关联的作者名称节点即N节点,我们将论文作者与其合著者的关系关联起,通过查询N1的合著者,反向再次查询匹配即对可能匹配上的作者进行筛选,这部分N-List 即为与A1中的N1合作过的作者再次关联出的合作者,这部分基于一个现实情况是,与N1 合作过的作者可能不止一次与N1进行合作,主要步骤如下:
d)通过Title-List查询出与其相关联的作者名称N-List;
e)通过N-List查询N-List所关联的论文名称T-List,即关联论文名称;
f)通过T-List查询其所关联的作者名称,输出为N-Title-List。
3.查询与Field-List关联的作者名称节点,输出为N-Field-List。
4.查询与Org-List关联的作者名称几点,输出为N-Org-List。
5.将N1分别与N-Title-List、N-Field-List、N-Org-List进行相关度匹配,分别记为Ret-Title-List、 Ret-Field-List、Ret-Org-List,其中权重分别为3、2、1。
6.将Ret-Title-List、Ret-Field-List、Ret-Org-List按值进行聚合,求交集,并分别计算聚合后不同结果集的权重和SumWeigt,输出结果集为Ret-List。
7.取Ret-List中权重和SumWeigt最高的一条,若SumWeigt>4则为同一作者,如果SumWeigt≤4则为不同作者。
8.如果权重和最高的且大于4的有多条,则再次进行作者名称的相关度匹配,取相关度匹配最高的那一条。

Claims (3)

1.一种基于论文关键属性网络的作者消歧方法,其特征在于,建立关键属性关系网,是通过收集论文中的关键属性并通过他们的相关关系形成的关系网络,其中关系网络中的实体节点主要有:作者名称、作者机构、作者领域和论文名称;作者之间通过论文名称、机构和领域三个维度进行聚类,分别形成了论文合著者之间的关系网,同一机构的关系网,同一领域的关系网,最终形成论文关键属性的关系网;对基于关键属性关系网的作者消歧方法的实现逻辑包括如下步骤:
步骤1:向关系网中输入单元A1;
步骤2:将单元A1中的领域、机构和论文名称***关系网中,做Merge操作;
步骤3:查询A1中的N1与关系网中的所有N节点是否有相同节点;
步骤4:如果有相同节点则进入流程FLOW1,开始进行判断,主要判断是否是相同人名但对应不同实际作者的这种情况;进行FLOW1流程,包括如下步骤(1)-(7):
(1)拿出与N1节点相同的N节点关联的领域(F)与机构(O)的列表,分别记为F-List与O-List;
(2)将与N1相关的F与F-List匹配后计算权重,每匹配成功一次权重为1,计算领域权重和,记为:SumWeightField;;
(3)将与N1相关的O与O-List匹配后计算权重,每匹配成功一次权重为2,计算机构权重和,记为:SumWeightOrg;
(4)计算权重和,记为:SumWeight=Weight(F)+Weight(O);
(5)若SumWeight>2则标记为N1与匹配成功的N节点为同一人;
(6)若SumWeight≤2则标记为N1与匹配成功的N节点为两个人;
(7)输出结果;
步骤5:如果不同则进入流程FLOW2,开始进行判断,主要判断是否存在对同一实际作者有不同人名写法的这种情况;进行FLOW2流程,包括如下步骤(1)-(8):
(1)在关系网中分别拿出与A1的论文名称(T)相同的论文名称节点列表Title-List,与A1的领域(F)相同的领域节点列表Field-List,与A1的机构(O)相同的机构节点列表Org-List;
(2)通过Title-List关联的作者名称节点即N节点,我们将论文作者与其合著者的关系关联起,通过查询N1的合著者,反向再次查询匹配即对可能匹配上的作者进行筛选,这部分N-List即为与A1中的N1合作过的作者再次关联出的合作者,这部分基于一个现实情况是,与N1合作过的作者可能不止一次与N1进行合作,主要步骤如下:
a)通过Title-List查询出与其相关联的作者名称N-List;
b)通过N-List查询N-List所关联的论文名称T-List,即关联论文名称;
c)通过T-List查询其所关联的作者名称,输出为N-Title-List;
(3)查询与Field-List关联的作者名称节点,输出为N-Field-List;
(4)查询与Org-List关联的作者名称几点,输出为N-Org-List;
(5)将N1分别与N-Title-List、N-Field-List、N-Org-List进行相关度匹配,分别记为Ret-Title-List、Ret-Field-List、Ret-Org-List,其中权重分别为3、2、1;
(6)将Ret-Title-List、Ret-Field-List、Ret-Org-List按值进行聚合,求交集,并分别计算聚合后不同结果集的权重和SumWeight,输出结果集为Ret-List;
(7)取Ret-List中权重和SumWeight最高的一条,若SumWeight>4则为同一作者,如果SumWeight≤4则为不同作者;
(8)如果权重和最高的且大于4的有多条,则再次进行作者名称的相关度匹配,取相关度匹配最高的那一条;
步骤6:将步骤4或步骤5的结果输入到关系网中,如果是新的作者名称节点,则***关系网中,否则更新关系网中作者名称节点,为作者名称节点增加新的别名;
步骤7:依此循环以上6步,在建立关系网的同时达到消歧的目的;
所述的单元:把信息的一次输入称为一个单元,其中一个单元为一篇论文中提取的作者信息列表中的一条,包括:作者名称(N)、领域(F)、机构(O)、论文名称(T);所述的A1代表一个单元一个具体实例。
2.根据权利要求1所述的基于论文关键属性网络的作者消歧方法,其特征在于,所述步骤1主要是向关系网中输入单元数据,包括如下步骤:
(1)将作者名称、论文名称、领域、机构字符全部数据转为小写;
(2)去除数据中的特数字符,如“-”,“.”等。
3.根据权利要求1所述的基于论文关键属性网络的作者消歧方法,其特征在于,步骤2的包括如下步骤:
(1)提取A1中的领域节点,依次***关系网络中,F1为A1中的一个领域节点;
(2)判断关系网中是否存在与F1相同的节点;
(3)如果存在则忽略;
(4)如果不存在则向关系网中***;
(5)其余机构与论文标题同上边1到4步。
CN201911207075.6A 2019-11-29 2019-11-29 一种基于论文关键属性网络的作者消歧方法 Active CN111008285B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911207075.6A CN111008285B (zh) 2019-11-29 2019-11-29 一种基于论文关键属性网络的作者消歧方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911207075.6A CN111008285B (zh) 2019-11-29 2019-11-29 一种基于论文关键属性网络的作者消歧方法

Publications (2)

Publication Number Publication Date
CN111008285A true CN111008285A (zh) 2020-04-14
CN111008285B CN111008285B (zh) 2021-04-13

Family

ID=70113498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911207075.6A Active CN111008285B (zh) 2019-11-29 2019-11-29 一种基于论文关键属性网络的作者消歧方法

Country Status (1)

Country Link
CN (1) CN111008285B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487825A (zh) * 2020-11-30 2021-03-12 北京航空航天大学 一种人才信息数据库消歧***
CN112528089A (zh) * 2020-12-04 2021-03-19 平安科技(深圳)有限公司 论文作者消歧的方法、装置和计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075942A (zh) * 2007-06-22 2007-11-21 清华大学 基于专家值传播算法的社会网络专家信息处理***及方法
US20080065623A1 (en) * 2006-09-08 2008-03-13 Microsoft Corporation Person disambiguation using name entity extraction-based clustering
CN104182420A (zh) * 2013-05-27 2014-12-03 华东师范大学 一种基于本体的中文人名消歧方法
CN106055539A (zh) * 2016-05-27 2016-10-26 中国科学技术信息研究所 姓名消歧的方法和装置
CN109558494A (zh) * 2018-10-29 2019-04-02 中国科学院计算机网络信息中心 一种基于异质网络嵌入的学者名字消歧方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080065623A1 (en) * 2006-09-08 2008-03-13 Microsoft Corporation Person disambiguation using name entity extraction-based clustering
CN101075942A (zh) * 2007-06-22 2007-11-21 清华大学 基于专家值传播算法的社会网络专家信息处理***及方法
CN104182420A (zh) * 2013-05-27 2014-12-03 华东师范大学 一种基于本体的中文人名消歧方法
CN106055539A (zh) * 2016-05-27 2016-10-26 中国科学技术信息研究所 姓名消歧的方法和装置
CN109558494A (zh) * 2018-10-29 2019-04-02 中国科学院计算机网络信息中心 一种基于异质网络嵌入的学者名字消歧方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HAO WU等: "Scholar search-oriented author disambiguation", 《2012 9TH INTERNATIONAL CONFERENCE ON FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY》 *
张文静: "文献数据库中作者同名消歧研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487825A (zh) * 2020-11-30 2021-03-12 北京航空航天大学 一种人才信息数据库消歧***
CN112528089A (zh) * 2020-12-04 2021-03-19 平安科技(深圳)有限公司 论文作者消歧的方法、装置和计算机设备
CN112528089B (zh) * 2020-12-04 2023-11-14 平安科技(深圳)有限公司 论文作者消歧的方法、装置和计算机设备

Also Published As

Publication number Publication date
CN111008285B (zh) 2021-04-13

Similar Documents

Publication Publication Date Title
CN107862027A (zh) 检索意图识别方法、装置、电子设备及可读存储介质
CN112199608B (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
CN110119473B (zh) 一种目标文件知识图谱的构建方法及装置
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN110297988A (zh) 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
CN105393263A (zh) 计算机-人交互式学习中的特征完成
WO2015043075A1 (zh) 面向微博的情感实体搜索***
CN107239512B (zh) 一种结合评论关系网络图的微博垃圾评论识别方法
CN103729402A (zh) 一种基于图书目录的知识图谱的构建方法
CN104281653A (zh) 一种针对千万级规模微博文本的观点挖掘方法
CN103886020B (zh) 一种房地产信息快速搜索方法
CN105426360A (zh) 一种关键词抽取方法及装置
Ilina et al. Social event detection on twitter
CN113962293B (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和***
CN111460158B (zh) 一种基于情感分析的微博话题公众情感预测方法
CN102945246B (zh) 网络信息数据的处理方法及装置
CN110008309A (zh) 一种短语挖掘方法及装置
CN110888991A (zh) 一种弱标注环境下的分段式语义标注方法
CN111008285B (zh) 一种基于论文关键属性网络的作者消歧方法
CN114077705A (zh) 一种对社交平台上的媒体账号进行画像的方法和***
CN113239111A (zh) 一种基于知识图谱的网络舆情可视化分析方法及***
JP2024524060A (ja) テキストデータの自動ラベル付け
CN111460147A (zh) 一种基于语义增强的标题短文本分类方法
Wang et al. Seeft: Planned social event discovery and attribute extraction by fusing twitter and web content
CN112363996B (zh) 用于建立电网知识图谱的物理模型的方法及***和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 450000 8 / F, creative island building, no.6, Zhongdao East Road, Zhengdong New District, Zhengzhou City, Henan Province

Patentee after: China Science and technology big data Research Institute

Address before: 450000 8 / F, creative island building, no.6, Zhongdao East Road, Zhengdong New District, Zhengzhou City, Henan Province

Patentee before: Big data Research Institute Institute of computing technology Chinese Academy of Sciences

CP01 Change in the name or title of a patent holder
OL01 Intention to license declared
OL01 Intention to license declared