CN110275957B - 姓名消歧方法、装置、电子设备及计算机可读存储介质 - Google Patents
姓名消歧方法、装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110275957B CN110275957B CN201910549768.7A CN201910549768A CN110275957B CN 110275957 B CN110275957 B CN 110275957B CN 201910549768 A CN201910549768 A CN 201910549768A CN 110275957 B CN110275957 B CN 110275957B
- Authority
- CN
- China
- Prior art keywords
- author
- document
- sdr
- language
- categories
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例涉及信息检索技术领域,公开了一种姓名消歧方法、装置、电子设备及计算机可读存储介质,其中,姓名消歧方法包括:根据预先基于训练语料生成的词稀疏分布式表征SDR,确定待进行姓名消歧的至少两种语言种类的至少两篇文献的文献信息,一篇文献对应一种语言种类;接着,基于预先构建的针对至少两种语言种类的文献作者分类模型,根据至少两种语言种类的各篇文献的文献信息,对该各篇文献按照所属文献作者进行分类,得到该各篇文献分别对应的第一作者类别,一种语言种类的文献作者分类模型对应处理相应语言种类的文献;接着,将各个语言种类下的各个第一作者类别进行合并处理,以对各个语言种类的各篇文献的文献作者进行姓名消歧。
Description
技术领域
本申请实施例涉及信息处理技术领域,具体而言,本申请涉及一种姓名消歧方法、装置、电子设备及计算机可读存储介质。
背景技术
近年来,随着计算机技术的发展、互联网的普及和应用,网络上的信息(例如论文文献信息、专利文献信息)也越来越多。信息的快速增长使我们在获得丰富信息内容的同时,也产生了如何快速获取所需要信息的难题。由于用户对于高质量搜索的需求在不断提升,且人物信息搜索也在不断增长。用户希望能够通过搜索获取到其想了解的某个作者的文献信息,但是由于作者同名现象的普遍存在,作者姓名往往具有很强的歧义性,导致目前的搜索结果的质量不尽人意。因此想要获取特定作者的文献信息变得更加困难。而姓名消歧就是研究如何在海量的数据中,将文献信息按照其所属作者进行分类。
目前,文献作者的姓名消歧技术越来越受到国内外学者们的广泛重视,一系列国内外的评测也针对姓名消歧问题展开,并推动了相关技术的发展和进步。然而,现有的姓名消歧基本上都是基于单一语言环境下的文献作者的姓名消歧,还不存在多语言环境下的文献作者的姓名消歧方法。
发明内容
本申请实施例的目的旨在至少能解决上述的技术缺陷之一,特提出以下技术方案:
一方面,提供了一种姓名消歧方法,包括:
根据预先基于训练语料生成的词稀疏分布式表征SDR,确定待进行姓名消歧的至少两种语言种类的至少两篇文献的文献信息,一篇文献对应一种语言种类;
基于预先构建的针对至少两种语言种类的文献作者分类模型,根据至少两种语言种类的各篇文献的文献信息,对该各篇文献按照所属文献作者进行分类,得到该各篇文献分别对应的第一作者类别,一种语言种类的文献作者分类模型对应处理相应语言种类的文献;
将各个语言种类下的各个第一作者类别进行合并处理,以对各个语言种类的各篇文献的文献作者进行姓名消歧。
在一种可能的实现方式中,将各个语言种类下的各个第一作者类别进行合并处理,以对各个语言种类的各篇文献的文献作者进行姓名消歧,包括:
将同一语言种类下的各个第一作者类别进行合并处理,以对同一语言种类的各篇文献的文献作者进行姓名消歧,得到姓名消歧后的各个第二作者类别;
将不同语言种类下的各个第二作者类别进行合并处理,以对不同语言种类的各篇文献的文献作者进行姓名消歧。
在一种可能的实现方式中,文献信息包括文献摘要SDR和/或文献文本SDR,根据预先基于训练语料生成的词SDR,确定待进行姓名消歧的任一语言种类的任一篇文献的文献信息,包括:
根据词SDR,确定任一篇文献的文献摘要中各个词的第一词SDR和/或文献文本中各个词的第二词SDR;
对各个第一词SDR依据对应维度相加,得到文献摘要SDR;
对各个第二词SDR依据对应维度相加,得到文献文本SDR。
在一种可能的实现方式中,对各个第一词SDR依据对应维度相加,得到文献摘要SDR,包括:
将任一维度的各个第一词SDR的总和与第一预定阈值进行比较,并将大于或等于第一预定阈值的该任一维度的各个第一词SDR的总和转换为第一预定数值,将小于第一预定阈值的该任一维度的各个第一词SDR的总和转换为第二预定数值;
依据各个维度的排序,得到包括各个第一预定数值和/或各个第二预定数值的文献摘要SDR;
对各个第二词SDR依据对应维度相加,得到文献文本SDR,包括:
将任一维度的各个第二词SDR的总和分别与第二预定阈值进行比较,并将大于或等于第二预定阈值的该任一维度的各个第二词SDR的总和转换为第三预定数值,将小于第二预定阈值的该任一维度的各个第二词SDR的总和转换为第四预定数值;
依据各个维度的排序,得到包括各个第三预定数值和/或各个第四预定数值的文献文本SDR。
在一种可能的实现方式中,文献信息包括文献摘要SDR和/或文献文本SDR,基于预先构建的针对任一语言种类的文献作者分类模型,根据该任一语言种类的任一篇文献的文献信息,对该任一篇文献按照文献作者进行分类,得到该任一篇文献的第一作者类别,包括:
将任一语言种类的任一篇文献的文献摘要SDR和/或文献文本SDR,输入到预先构建的针对该任一语言种类的文献作者分类模型中,得到该任一篇文献的SDR预测结果;
确定SDR预测结果与各个文献作者SDR之间的第一相似度值,并将最大第一相似度值对应的文献作者SDR的作者类别确定为该任一篇文献的第一作者类别。
在一种可能的实现方式中,将同一语言种类下的各个第一作者类别进行合并处理,以对同一语言种类的各篇文献的文献作者进行姓名消歧,得到姓名消歧后的各个第二作者类别,包括:
基于预先建立的作者信息库,确定同一语言种类下的任两个第一作者类别之间的第一作者姓名对比结果、第一作者联系方式对比结果以及第一作者所属机构对比结果;
确定该任两个第一作者类别的文献作者SDR之间的第二相似度值;
根据第一作者姓名对比结果、第一作者联系方式对比结果、第一作者所属机构对比结果以及第二相似度值,确定是否对该任两个第一作者类别进行合并处理;
若是,则对该任两个第一作者类别进行合并处理,以对同一语言种类的各篇文献的文献作者进行姓名消歧,得到姓名消歧后的各个第二作者类别。
在一种可能的实现方式中,将不同语言种类下的各个第二作者类别进行合并处理,包括:
基于预先建立的作者信息库,确定一种语言种类下的任一第二作者类别与另一种语言种类下的任一第二作者类别之间的第二作者姓名对比结果、第二作者联系方式对比结果以及第二作者所属机构对比结果;
确定该两个第二作者类别的文献作者SDR间的第三相似度值;
根据第二作者姓名对比结果、第二作者联系方式对比结果、第二作者所属机构对比结果以及第三相似度值,确定是否对该任两个第二作者类别进行合并处理;
若是,则对该两个第二作者类别进行合并处理,以对不同语言种类的各篇文献的文献作者进行姓名消歧。
在一种可能的实现方式中,文献作者SDR是通过对该文献作者SDR对应的作者类别中包括的各篇文献的文献摘要SDR和/或文献文本SDR进行合并处理得到的。
在一种可能的实现方式中,在将不同语言种类下的各个第一作者类别进行合并处理之前,还包括:
建立作者信息库;
其中,当语言种类为两种时,建立作者信息库包括:
当任一篇文献的文献作者为第一种语言种类的表述形式时,将该文献作者转换为对应的第二种语言种类的表述形式的文献作者;
根据预先建立的机构名称信息库,建立同一机构名称的第一种语言种类的表述形式与第二种语言种类的表述形式之间的对应关系,并合并同一机构名称的两种不同语言种类的表述形式;
根据预先建立的各篇文献的文献标识、第一种语言种类的表述形式的文献作者、第二种语言种类的表述形式的文献作者、以及经合并处理后的两种不同语言种类的表述形式的机构名称,建立作者信息库。
一方面,提供了一种姓名消歧装置,包括:
确定模块,用于根据预先基于训练语料生成的词稀疏分布式表征SDR,确定待进行姓名消歧的至少两种语言种类的至少两篇文献的文献信息,一篇文献对应一种语言种类;
分类处理模块,用于基于预先构建的针对至少两种语言种类的文献作者分类模型,根据至少两种语言种类的各篇文献的文献信息,对该各篇文献按照所属文献作者进行分类,得到该各篇文献分别对应的第一作者类别,一种语言种类的文献作者分类模型对应处理相应语言种类的文献;
合并处理模块,用于将各个语言种类下的各个第一作者类别进行合并处理,以对各个语言种类的各篇文献的文献作者进行姓名消歧。
在一种可能的实现方式中,合并处理模块包括第一合并子模块与第二合并子模块;
第一合并子模块,用于将同一语言种类下的各个第一作者类别进行合并处理,以对同一语言种类的各篇文献的文献作者进行姓名消歧,得到姓名消歧后的各个第二作者类别;
第二合并子模块,用于将不同语言种类下的各个第二作者类别进行合并处理,以对不同语言种类的各篇文献的文献作者进行姓名消歧。
在一种可能的实现方式中,文献信息包括文献摘要SDR和/或文献文本SDR,确定模块包括信息确定子模块、第一计算子模块与第二计算子模块;
信息确定子模块,用于根据词SDR,确定任一篇文献的文献摘要中各个词的第一词SDR和/或文献文本中各个词的第二词SDR;
第一计算子模块,用于对各个第一词SDR依据对应维度相加,得到文献摘要SDR;
第二计算子模块,用于对各个第二词SDR依据对应维度相加,得到文献文本SDR。
在一种可能的实现方式中,第一计算子模块具体用于将任一维度的各个第一词SDR的总和与第一预定阈值进行比较,并将大于或等于第一预定阈值的该任一维度的各个第一词SDR的总和转换为第一预定数值,将小于第一预定阈值的该任一维度的各个第一词SDR的总和转换为第二预定数值;以及用于依据各个维度的排序,得到包括各个第一预定数值和/或各个第二预定数值的文献摘要SDR;
第二计算子模块具体用于将任一维度的各个第二词SDR的总和分别与第二预定阈值进行比较,并将大于或等于第二预定阈值的该任一维度的各个第二词SDR的总和转换为第三预定数值,将小于第二预定阈值的该任一维度的各个第二词SDR的总和转换为第四预定数值;以及用于依据各个维度的排序,得到包括各个第三预定数值和/或各个第四预定数值的文献文本SDR。
在一种可能的实现方式中,文献信息包括文献摘要SDR和/或文献文本SDR,分类处理模块包括预测子模块与类别确定子模块;
预测子模块,用于将任一语言种类的任一篇文献的文献摘要SDR和/或文献文本SDR,输入到预先构建的针对该任一语言种类的文献作者分类模型中,得到该任一篇文献的SDR预测结果;
类别确定子模块,用于确定SDR预测结果与各个文献作者SDR之间的第一相似度值,并将最大第一相似度值对应的文献作者SDR的作者类别确定为该任一篇文献的第一作者类别。
在一种可能的实现方式中,第一合并子模块具体用于基于预先建立的作者信息库,确定同一语言种类下的任两个第一作者类别之间的第一作者姓名对比结果、第一作者联系方式对比结果以及第一作者所属机构对比结果;以及用于确定该任两个第一作者类别的文献作者SDR之间的第二相似度值;以及用于根据第一作者姓名对比结果、第一作者联系方式对比结果、第一作者所属机构对比结果以及第二相似度值,确定是否对该任两个第一作者类别进行合并处理;以及用于当确定对该任两个第一作者类别进行合并处理时,对该任两个第一作者类别进行合并处理,以对同一语言种类的各篇文献的文献作者进行姓名消歧,得到姓名消歧后的各个第二作者类别。
在一种可能的实现方式中,第二合并子模块具体用于基于预先建立的作者信息库,确定一种语言种类下的任一第二作者类别与另一种语言种类下的任一第二作者类别之间的第二作者姓名对比结果、第二作者联系方式对比结果以及第二作者所属机构对比结果;以及用于确定该两个第二作者类别的文献作者SDR间的第三相似度值;以及用于根据第二作者姓名对比结果、第二作者联系方式对比结果、第二作者所属机构对比结果以及第三相似度值,确定是否对该任两个第二作者类别进行合并处理;以及用于当确定对该任两个第二作者类别进行合并处理时,对该两个第二作者类别进行合并处理,以对不同语言种类的各篇文献的文献作者进行姓名消歧。
在一种可能的实现方式中,文献作者SDR是通过对该文献作者SDR对应的作者类别中包括的各篇文献的文献摘要SDR和/或文献文本SDR进行合并处理得到的。
在一种可能的实现方式中,还包括建立模块:
建立模块用于建立作者信息库;
其中,当语言种类为两种时,建立模块包括第一转换子模块、第二转换子模块与信息库建立子模块;
第一转换子模块,用于当任一篇文献的文献作者为第一种语言种类的表述形式时,将该文献作者转换为对应的第二种语言种类的表述形式的文献作者;
第二转换子模块,用于根据预先建立的机构名称信息库,建立同一机构名称的第一种语言种类的表述形式与第二种语言种类的表述形式之间的对应关系,并合并同一机构名称的两种不同语言种类的表述形式;
信息库建立子模块,用于根据预先建立的各篇文献的文献标识、第一种语言种类的表述形式的文献作者、第二种语言种类的表述形式的文献作者、以及经合并处理后的两种不同语言种类的表述形式的机构名称,建立作者信息库。
一方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述程序时实现上述的姓名消歧方法。
一方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述的姓名消歧方法。
本申请实施例提供的姓名消歧方法,通过根据预生成的词稀疏分布式表征SDR,确定待进行姓名消歧的每种语言种类的各篇文献的文献信息,并根据针对每种语言种类的文献作者分类模型及该每种语言种类的各篇文献的文献信息,确定各篇文献分别对应的第一作者类别,以及将各个语言种类下的各个第一作者类别进行合并处理,来对各个语言种类的各篇文献的文献作者进行姓名消歧,从而提供了一种多语言环境下的文献作者的姓名消歧方法,弥补了目前关于跨语言种类姓名消歧的空白,有效解决跨语言种类的文献作者的姓名消歧问题,不仅可以提高某语言种类文献作者所发表的全部文献的检索结果的准确性,从而有效统计出文献作者所发表文献的整体情况,而且有助于提高基于科技文献进行学术影响力评价、科研成果评估及学术推荐等的科学性,此外还可应用于跨语言种类检索、社交网络分析及人物搜索等方面,具有良好的可扩展性。
本申请实施例附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请实施例上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例的姓名消歧方法的流程示意图;
图2为本申请实施例的构建作者信息库的基本过程示意图;
图3为本申请实施例的确定文献摘要SDR和/或文献文本SDR的过程示意图;
图4为本申请实施例的构建文献作者分类模型及确定文献的作者类别的过程示意图;
图5为本申请实施例的对比英文姓名是否相同的过程示意图;
图6为本申请实施例的对不同语言种类下的文献作者进行姓名消歧的示意图;
图7为本申请实施例的姓名消歧的整体过程示意图;
图8为本申请实施例的姓名消歧装置的基本结构示意图;
图9为本申请实施例的姓名消歧装置的详细结构示意图;
图10为本申请实施例的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请实施例提供的姓名消歧方法、装置、电子设备及计算机可读存储介质,旨在解决现有技术的如上技术问题。
下面以具体地实施例对本申请实施例的技术方案以及本申请实施例的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请一个实施例提供了一种姓名消歧方法,该方法由计算机设备执行,该计算机设备可以是终端或者服务器。终端可以是台式设备或者移动终端。服务器可以是独立的物理服务器、物理服务器集群或者虚拟服务器。如图1所示,该方法包括:
步骤S110,根据预先基于训练语料生成的词稀疏分布式表征SDR,确定待进行姓名消歧的至少两种语言种类的至少两篇文献的文献信息,一篇文献对应一种语言种类。
具体地,词SDR可以是预先基于***这一训练语料生成的,也可以是根据其它训练语料生成的,本申请实施例不对其做限制。在基于训练语料生成词SDR的过程中,首先,通过对训练语料进行文本切片,来获取单词的上下文文本片段,并将获取到的上下文文本片段映射在一个二维矩阵中,以使得主题相似的文本片段在矩阵中的位置较近,主题不同的文本片段在矩阵中的位置较远。接着,将该矩阵展开为一维向量,对于一个单词而言,若该单词出现在相应的文本片段中,则SDR向量对应的位置为1,否则为0。其中,该一维向量是基于上下文表示单词的语义含义的。本申请实施例中设置的一维向量的向量长度为16384,稀疏度为2%(ω≈328)。
具体地,SDR是一个高维、稀疏、且每一个分量代表特定语义的二进制向量,具有存储空间小、容错率高等优点。SDR的长度n一般在1024至65536之间,其中“1”的位数ω在10至40位,即控制稀疏度在0.05%至2%之间。SDR的每一位都有一定的语义意义,如果两个SDR在同一位置均为1,则说明这两个SDR共同拥有该位对应的属性。
本申请实施例中的词SDR是基于数量较大、领域较全的训练语料生成的,不需要在每次使用时都进行训练,极大提高了SDR的生成效率。
具体地,上述的至少两种语言种类可以是汉语(或称作中文)与英语(或称作英文),也可以是中文、英文、法语,还可以是中文、英文、法语与俄语,也可以是其它的两种或两种以上的语言种类,本申请实施例不对其做限制。
需要说明的是,为便于对本申请实施例的方法进行具体介绍,下面将以至少两种语言种类分别为中文与英文为例进行具体说明。
其中,待进行姓名消歧的中文文献可以是1篇、3篇、10篇、50篇等,待进行姓名消歧的英文文献可以是1篇、2篇、15篇、60篇等,本申请实施例不对其做限制。假如待进行姓名消歧的中文文献为10篇,待进行姓名消歧的英文文献为7篇,则:可以根据预先基于训练语料生成的词SDR,确定10篇中文文献各自对应的文献信息,分别记作C1、C2、C3、…、C10,确定7篇英文文献各自对应的文献信息,分别记作E1、E2、…、E7,便于后续根据各篇文献的文献信息确定该各篇文献的作者类别。
步骤S120,基于预先构建的针对至少两种语言种类的文献作者分类模型,根据至少两种语言种类的各篇文献的文献信息,对该各篇文献按照所属文献作者进行分类,得到该各篇文献分别对应的第一作者类别,一种语言种类的文献作者分类模型对应处理相应语言种类的文献。
具体地,可以基于预先构建的针对中文的文献作者分类模型,根据中文的10篇文献的文献信息(即上述的C1、C2、C3、…、C10),对该10篇文献按照所属文献作者进行分类,得到各篇文献分别对应的作者类别(即上述的第一作者类别)。比如,第1篇文献与第2篇文献的作者都是作者N1,则第1篇文献与第2篇文献属于同一作者类别,可以将第1篇文献与第2篇文献的第一作者类别记作类别R1,又比如,第3篇文献至第5篇文献的作者都是作者N2,则第3篇文献至第5篇文献属于同一作者类别,可以将第3篇文献至第5篇文献的第一作者类别记作类别R2,再比如,第6篇文献至第10篇文献的作者都是作者N3,则第6篇文献至第10篇文献属于同一作者类别,可以将第6篇文献至第10篇文献的第一作者类别记作类别R3。
进一步地,可以基于预先构建的针对英文的文献作者分类模型,根据英文的7篇文献的文献信息(即上述的E1、E2、…、E7),对该7篇文献按照所属文献作者进行分类,得到各篇文献分别对应的作者类别(即上述的第一作者类别)。比如,第1篇文献的作者都是作者M1,则第1篇文献为一个作者类别,可以将第1篇文献的第一作者类别记作类别T1,又比如,第2篇文献与第3篇文献的作者都是作者M2,则第2篇文献与第3篇文献属于同一作者类别,可以将第2篇文献与第3篇文献的第一作者类别记作类别T2,再比如,第6篇文献至第10篇文献的作者都是作者N3,则第6篇文献至第10篇文献属于同一作者类别,可以将第6篇文献至第10篇文献的第一作者类别记作类别R3。
步骤S130,将各个语言种类下的各个第一作者类别进行合并处理,以对各个语言种类的各篇文献的文献作者进行姓名消歧。
具体地,对中文与英文下的各个第一作者类别(即上述的类别R1、R2、R3、T1、T2及T3)进行合并处理,从而对中文与英文的各篇文献的文献作者进行姓名消歧。
本申请实施例提供的姓名消歧方法,通过根据预生成的词稀疏分布式表征SDR,确定待进行姓名消歧的每种语言种类的各篇文献的文献信息,并根据针对每种语言种类的文献作者分类模型及该每种语言种类的各篇文献的文献信息,确定各篇文献分别对应的第一作者类别,以及将各个语言种类下的各个第一作者类别进行合并处理,来对各个语言种类的各篇文献的文献作者进行姓名消歧,从而提供了一种多语言环境下的文献作者的姓名消歧方法,弥补了目前关于跨语言种类姓名消歧的空白,有效解决跨语言种类的文献作者的姓名消歧问题,不仅可以提高某语言种类文献作者所发表的全部文献的检索结果的准确性,从而有效统计出文献作者所发表文献的整体情况,而且有助于提高基于科技文献进行学术影响力评价、科研成果评估及学术推荐等的科学性,此外还可应用于跨语言种类检索、社交网络分析及人物搜索等方面,具有良好的可扩展性。
在本申请一个实施例的一种可能的实现方式中,在将不同语言种类下的各个第一作者类别进行合并处理之前,还包括:建立作者信息库。
具体地,当语言种类为两种时,比如中文与英文,建立作者信息库的过程可以为:当任一篇文献的文献作者为第一种语言种类(比如中文)的表述形式时,将该文献作者转换为对应的第二种语言种类(比如英文)的表述形式的文献作者;接着,根据预先建立的机构名称信息库,建立同一机构名称的第一种语言种类(比如中文)的表述形式与第二种语言种类(比如英文)的表述形式之间的对应关系,并合并同一机构名称的两种不同语言种类的表述形式;接着,根据预先建立的各篇文献的文献标识、第一种语言种类的表述形式的文献作者、第二种语言种类的表述形式的文献作者、以及经合并处理后的两种不同语言种类的表述形式的机构名称,建立作者信息库。
假如两种语言种类分别为中文与英文,则在实际应用中,建立作者信息库的过程具体可以为:首先,构建中文姓名的英文生成器,生成中文姓名的英文形式,并对所有英文形式的姓名进行规范化处理,以名在前、姓在后的格式存储,并对中文姓名与相应的英文姓名进行映射。接着,规范化机构名称,借助开放知识库以及中文文献中包含的英文机构名称,完成中英文机构名称之间的映射,同时根据预先建立的机构名称信息库合并同一机构名称的不同表述形式。接着,当文献中包括作者联系方式、且联系方式为电子邮箱时,可以将电子邮箱中的大写字母转换为相应的小写字母,即对电子邮箱进行小写处理。最后,根据预先建立的文献标识(例如ID)、中文表述形式的文献作者、英文表述形式的文献作者、使用小写字母表示的电子邮箱、以及经合并处理后的中文表述形式的机构名称与英文表述形式的机构名称,建立作者信息库。其中,图2给出了构建作者信息库的基本过程。
在本申请一个实施例的一种可能的实现方式中,文献信息包括文献摘要SDR和/或文献文本SDR,即文献信息可以是文献摘要SDR,也可以是文献文本SDR,还可以是文献摘要SDR和文献文本SDR。
具体地,在根据预先基于训练语料生成的词SDR,确定待进行姓名消歧的任一语言种类的任一篇文献的文献信息的过程中,可以先根据词SDR,确定任一篇文献的文献摘要中各个词的第一词SDR和/或文献文本中各个词的第二词SDR;接着对各个第一词SDR依据对应维度相加,得到文献摘要SDR;接着对各个第二词SDR依据对应维度相加,得到文献文本SDR。该过程相当于基于生成的词SDR,设计文本的SDR生成算法,从而生成文献摘要SDR和/或文献文本SDR。
下面以文献摘要SDR为例,对根据预先基于训练语料生成的词SDR,确定待进行姓名消歧的任一篇中文文献的文献信息的过程进行具体介绍:
假如词SDR是1行10列的一维向量W,记作W=[w1,w2,w3,…,w10],待进行姓名消歧的任一篇中文文献的文献摘要为10个词,则可以根据SDR,确定出该任一篇中文文献的文献摘要中各个词的第一词SDR,分别记作W1=[w1_1,w1_2,…,w1_10],W2=[w2_1,w2_2,…,w2_10],依此类推,W10=[w10_1,w10_2,…,w10_10]。在确定出待进行姓名消歧的该任一篇中文文献的文献摘要中各个词的词SDR后,可以对各个第一词SDR依据对应维度相加,得到文献摘要SDR,即将W1、W2、…、W10按照对应列相加,比如将第一列中的w1_1、w2_1、…、w10_1依次相加,将第二列中的w1_2、w2_2、…、w10_2依次相加,依此类推,将第十列中的w1_10、w2_10、…、w10_10依次相加,从而得到待进行姓名消歧的该任一篇中文文献的文献摘要SDR。其中,该任一篇中文文献的文献摘要SDR可以记作W_文献摘要SDR=[w1_1+w2_1+,…,w10_1;w1_2+w2_2+,…,w10_2;…;w1_10+w2_10+,…,w10_10]。可选地,在对各个第一词SDR依据对应维度相加,得到文献摘要SDR的过程中,可以将任一维度的各个第一词SDR的总和与第一预定阈值进行比较,并将大于或等于第一预定阈值的该任一维度的各个第一词SDR的总和转换为第一预定数值,将小于第一预定阈值的该任一维度的各个第一词SDR的总和转换为第二预定数值;接着,依据各个维度的排序,得到包括各个第一预定数值和/或各个第二预定数值的文献摘要SDR。
假如该任一维度的各个第一词SDR的总和为上述的w1_1+w2_1+,…,w10_1,第一预定阈值为6,则:将w1_1+w2_1+,…,w10_1与6进行比较,如果w1_1+w2_1+,…,w10_1大于或等于6,可以将w1_1+w2_1+,…,w10_1转换为第一预定数值(比如1),如果w1_1+w2_1+,…,w10_1小于6,可以将w1_1+w2_1+,…,w10_1转换为第二预定数值(比如0)。对于其它维度的各个第一词SDR的总和也执行上述的比较过程,从而得到该任一篇中文文献的经转换后各个维度的第一预定数据和/或第二预定数据。接着,依据各个维度的排序,比如先第一列、再第二列、再第三列、…、最后第十列的顺序,将转换后的各个维度的第一预定数据和/或第二预定数据依次排列,并将排列后的各个维度的第一预定数据和/或第二预定数据作为该任一篇中文文献的文献摘要SDR,比如该任一篇中文文献的文献摘要SDR为[1,1,1,1,1,0,1,0,0,1],又比如该任一篇中文文献的文献摘要SDR为[1,1,1,1,1,1,1,1,1,1],再比如该任一篇中文文献的文献摘要SDR为[0,0,0,0,0,0,0,0,0,0]。
具体地,对于文献文本SDR来说,也采用类似上述确定文献摘要SDR的方法,得到待进行姓名消歧的该任一篇中文文献的文献文本SDR。其中,在对各个第二词SDR依据对应维度相加,得到文献文本SDR的过程中,可以将任一维度的各个第二词SDR的总和与第二预定阈值进行比较,并将大于或等于第二预定阈值的该任一维度的各个第二词SDR的总和转换为第三预定数值,将小于第二预定阈值的该任一维度的各个第二词SDR的总和转换为第四预定数值;接着,依据各个维度的排序,得到包括各个第三预定数值和/或各个第四预定数值的文献文本SDR。
需要说明的是,上述的第一预定阈值与第二预定阈值可以相同,也可以不相同,第一预定数值与第三预定数值可以相同,也可以不相同,第二预定数值与第四预定数值可以相同,也可以不相同。
此外,图3给出了预先基于训练语料生成词SDR以及根据预先基于训练语料生成的词SDR,确定待进行姓名消歧的任一语言种类的任一篇文献的文献摘要SDR和/或文献文本SDR的过程中。
在本申请一个实施例的一种可能的实现方式中,当文献信息包括文献摘要SDR和/或文献文本SDR时,基于预先构建的针对任一语言种类的文献作者分类模型,根据该任一语言种类的任一篇文献的文献信息,对该任一篇文献按照文献作者进行分类,得到该任一篇文献的第一作者类别的过程,可以为:将任一语言种类的任一篇文献的文献摘要SDR和/或文献文本SDR,输入到预先构建的针对该任一语言种类的文献作者分类模型中,得到该任一篇文献的SDR预测结果;接着,确定SDR预测结果与各个文献作者SDR之间的第一相似度值,并将最大第一相似度值对应的文献作者SDR的作者类别确定为该任一篇文献的第一作者类别。
其中,文献作者SDR是通过对该文献作者SDR对应的作者类别中包括的各篇文献的文献摘要SDR和/或文献文本SDR进行合并处理得到的。
具体地,在实际应用中,可以预先构建针对某种语言种类的文献作者分类模型,比如构建针对中文的文献作者分类模型,又比如构建针对英文的文献作者分类模型,再比如构建针对法语的文献作者分类模型等等。其中,在构建针对某种语言种类的文献作者分类模型的过程中,可以将训练集内文献摘要的SDR按所属文献作者语言种类依次输入对应的HTM(Hierarchical Temporal Memory,层级实时记忆)模型,经过空间池化层激活相应的柱状区域后,得到输入数据的稳定表征,通过对这种稳定表征与周围柱状区域中细胞的连接情况进行学习,完成模型的训练,完成训练后的模型即为述的文献作者分类模型。
其中,HTM模型是一种生物启发的机器智能技术,模仿新皮层的结构和过程,可用于各种类型数据的预测、分类和异常检测等,而且HTM模型要求输入数据的格式是稀疏分布式表征(SDR)。一个HTM网络是由按层级排列的区域所组成的,一个区域由许多细胞组成,细胞以成列的二维平面形式组织在一起,某一列细胞形成HTM区域的柱状结构。HTM模型由一个或多个HTM网络组成,模型采用层级结构由低层级到高层级依次提取不变特征,具有较高的泛化能力,能有效减少训练时间和记忆空间。此外,基于时序记忆的在线学习算法使得HTM模型能够感知不断变化的数据,适应不同的环境。HTM模型能够基于输入的模式序列的学习,对下一个输入数据进行预测。
具体地,在得到针对某种语言种类的文献作者分类模型后,可以将待进行姓名消歧的该某种语言种类的任一篇文献的文献摘要SDR和/或文献文本SDR,输入到该针对某种语言种类的文献作者分类模型中进行预测,从而得到该任一篇文献的SDR预测结果。在得到该任一篇文献的SDR预测结果后,将该任一篇文献的SDR预测结果与预先确定出的若干个文献作者的文献作者SDR分别进行相似度计算,得到相应的多个相似度值(记作第一相似度值),接着将最大的第一相似度值对应的文献作者SDR的作者类别确定为该任一篇文献的第一作者类别,即将与SDR预测结果相似度最高的文献作者SDR所对应的文献作者做为该篇文献的文献作者,同时将该文献作者的作者类别作为该任一篇文献的作者类别(即第一作者类别)。
其中,图4给出了预先构建针对某种语言种类的文献作者分类模型,以及根据预先构建的针对某种语言种类的文献作者分类模型,根据该某种语言种类的任一篇文献的文献信息,确定该任一篇文献的作者类别的基本过程。
在本申请一个实施例的一种可能的实现方式中,在将各个语言种类下的各个第一作者类别进行合并处理,以对各个语言种类的各篇文献的文献作者进行姓名消歧的过程中,可以先将同一语言种类下的各个第一作者类别进行合并处理,以对同一语言种类的各篇文献的文献作者进行姓名消歧,得到姓名消歧后的各个第二作者类别,再将不同语言种类下的各个第二作者类别进行合并处理,以对不同语言种类的各篇文献的文献作者进行姓名消歧。
具体地,在将同一语言种类(比如中文)下的各个第一作者类别进行合并处理,以对同一语言种类的各篇文献的文献作者进行姓名消歧,得到姓名消歧后的各个第二作者类别的过程中,可以基于预先建立的作者信息库,确定同一语言种类下的任两个第一作者类别之间的第一作者姓名对比结果、第一作者联系方式对比结果以及第一作者所属机构对比结果;接着,确定该任两个第一作者类别的文献作者SDR之间的第二相似度值;接着,根据第一作者姓名对比结果、第一作者联系方式对比结果、第一作者所属机构对比结果以及所述第二相似度值,确定是否对该任两个第一作者类别进行合并处理;接着,若确定对该任两个第一作者类别进行合并处理,则执行该任两个第一作者类别的合并处理,以对同一语言种类的各篇文献的文献作者进行姓名消歧,得到姓名消歧后的各个第二作者类别。
具体地,以上述的类别R1与R2为例,对确定是否需要对中文下的第一作者类别进行合并处理的过程进行具体介绍:
首先,(1)若类别R1中的各篇文献所对应的文献作者N1与类别R2中的各篇文献所对应的文献作者N2是同一文献作者,即作者N1与作者N2的姓名相同,则可以得到相应的作者姓名对比结果(即上述的第一作者姓名对比结果)为相同,此时可以将该第一作者姓名对比结果记作1;若作者N1与作者N2的姓名不相同,可以将该第一作者姓名对比结果记作-1。(2)若文献作者N1的作者联系方式与文献作者N2的作者联系方式相同,则可以得到相应的作者联系方式对比结果(即上述的第一作者联系方式对比结果)为相同,此时可以将该第一作者联系方式对比结果记作1;若文献作者N1的作者联系方式与文献作者N2的作者联系方式不相同,可以将该第一作者联系方式对比结果记作-1;若任一文献作者(N1或N2)的作者联系方式缺失,则将该第一作者联系方式对比结果记作0。(3)若文献作者N1的作者所属机构与文献作者N2的作者所属机构相同,则可以得到相应的作者所属机构对比结果(即上述的第一作者所属机构对比结果)为相同,此时可以将该第一作者所属机构对比结果记作1;若文献作者N1的作者所属机构与文献作者N2的作者所属机构不相同,则可以将该第一作者所属机构对比结果记作-1;若任一文献作者(N1或N2)的作者所属机构缺失,则将该第一作者所属机构对比结果记作0。(4)确定类别R1的文献作者SDR与类别R2的文献作者SDR之间的第二相似度值。
其次,若第一作者姓名对比结果为1、第一作者联系方式对比结果为1、第一作者所属机构对比结果为1以及第二相似度值大于或等于预定阈值,则可以确定对类别R1与类别R2进行合并处理,合并为一个作者类别(记作R12),该合并后的类别(即R12)即为姓名消歧后的第二作者类别,从而得到姓名消歧后的第二作者类别。
再次,若第一作者姓名对比结果为0,可以确定不对类别R1与类别R2进行合并处理,若第一作者联系方式对比结果为0,可以确定不对类别R1与类别R2进行合并处理,若第一作者所属机构对比结果为0,可以确定不对类别R1与类别R2进行合并处理,若第二相似度值小于预定阈值,可以确定不对类别R1与类别R2进行合并处理。
在实际应用中,上述过程中可以通过六元组的形式来表示,该六元组记作H(x),表示形式可以为:H(x)=(cID1,cID2,name,email,org,text)。其中,cID1为类别R1的类别号,该类别号用来指代类别R1,cID2为类别R2的类别号,name为第一作者姓名对比结果,email为第一作者联系方式对比结果,org为第一作者所属机构对比结果,text为类别R1的文献作者SDR与类别R2的文献作者SDR之间的第二相似度值。
需要说明的是,上述是以中文为例,对第一作者类别的合并处理过程进行的介绍,当语言种类为英文时,在对类别T1中的各篇文献所对应的文献作者M1与类别T2中的各篇文献所对应的文献作者M2进行对比时,可以采用如图5所示的处理过程:若英文姓名的长度大于或等于3,则认为其为全称,当英文姓名为全称时,若英文姓名相同则第一作者姓名对比结果为1,若英文姓名不同则第一作者姓名对比结果为-1;当英文姓名为非全称时,若姓相同、且名的第一位相同,则第一作者姓名对比结果为0,若姓不同则第一作者姓名对比结果为-1。
具体地,在将不同语言种类(比如中文与英文)下的各个第一作者类别进行合并处理,以对不同语言种类的各篇文献的文献作者进行姓名消歧的过程中,首先,基于预先建立的作者信息库,确定一种语言种类下的任一第二作者类别与另一种语言种类下的任一第二作者类别之间的第二作者姓名对比结果、第二作者联系方式对比结果以及第二作者所属机构对比结果;接着,确定该两个第二作者类别的文献作者SDR间的第三相似度值;接着,根据第二作者姓名对比结果、第二作者联系方式对比结果、第二作者所属机构对比结果以及所述第三相似度值,确定是否对该任两个第二作者类别进行合并处理;接着,当确定对该任两个第二作者类别进行合并处理时,执行该两个第二作者类别的合并处理,以对不同语言种类的各篇文献的文献作者进行姓名消歧。
其中,对不同语言种类(比如中文与英文)下的各个第一作者类别进行合并处理的过程,与上述对同一种语言下的各个第一作者类别进行合并处理的过程类似,下面以中文下的类别R1与英文下的类别T1为例,对其合并处理过程进行具体介绍:
首先,(1)确定类别R1的文献作者N1与类别T1的文献作者M1是否相同,若不相同,则将第二作者姓名对比结果记作-1,可以确定类别R1与类别T1不匹配,不进行合并处理;(2)若类别R1的文献作者N1与类别T1的文献作者M1相同,则将第二作者姓名对比结果记作1,此时需要确定类别R1的文献作者N1的作者联系方式与类别T1的文献作者M1的作者联系方式是否相同,若不相同,则将第二作者联系方式对比结果记作-1,可以确定类别R1与类别T1不匹配,不进行合并处理;(3)若类别R1的文献作者N1的作者联系方式与类别T1的文献作者M1的作者联系方式相同,则将第二作者联系方式对比结果记作1,此时需要确定类别R1的文献作者N1的作者所属机构与类别T1的文献作者M1的作者所属机构是否相同,若不相同,则将第二作者所属机构对比结果记作-1,可以确定类别R1与类别T1不匹配,不进行合并处理;若相同,则将第二作者所属机构对比结果记作1,此时并不能确定类别R1与类别T1是否匹配,仍需要进一步判断;若作者所属机构缺失,则将第二作者所属机构对比结果记作0,需要进一步判断;(4)若第二作者所属机构对比结果为1、且类别R1的文献作者SDR与类别T1的文献作者SDR之间的第三相似度值大于预定阈值θ2,则可以确定类别R1与类别T1匹配,可以进行合并处理;若第二作者所属机构对比结果为0、且类别R1的文献作者SDR与类别T1的文献作者SDR之间的第三相似度值大于预定阈值θ1,则可以确定类别R1与类别T1匹配,可以进行合并处理。
其中,图6给出了对不同语言种类(比如中文与英文)下的各个第一作者类别进行合并处理的过程,该过程相当于构建跨语言的文献作者类别匹配器,对不同语言种类下的各个第二作者类别进行合并处理,以对各个语言种类的各篇文献的文献作者进行姓名消歧。
在本申请一个实施例的另一种可能的实现方式中,在执行本申请实施例的姓名消歧方法之前,还可以预先进行数据预处理,其中,数据预处理具体可以为:
首先,对数据集内的每篇文献赋予唯一识别号,作为文献ID;其次,获取文献作者姓名、机构名称、电子邮件等作者基本信息,对于中文文献同时抽取中英文信息,对包含多级机构的机构名称进行切分,划分为一级机构和二级机构;再次,对于文献摘要缺失的文献,根据其题目及关键词、文献期刊名称(或会议集名称),补充相应的文献摘要;对于缺失英文表述形式的文献摘要的中文文献,通过机器翻译技术翻译其中文表述形式的文献摘要,来获取对应的英文表述形式的文献摘要。
其中,图7给出本申请实施例的姓名消歧的整体过程示意图,步骤701:数据预处理,步骤702:构建文献的作者信息库,步骤703:设计文本的SDR生成算法,并生成文献摘要SDR和/或文献文本SDR,步骤704:构建单语言环境下的文献作者分类模型,并根据该单语言环境下的文献作者分类模型,确定待进行姓名消歧的文献的作者类别,步骤705:构建跨语言的文献作者类别匹配器,对各个语言种类下的各个第一作者类别进行合并处理,以对各个语言种类的各篇文献的文献作者进行姓名消歧。
本申请实施例的方法,具有如下优势:(1)效率高:一方面,采用的词SDR是经过对大规模语料训练得到的,直接调用即可生成文本SDR,较大减少了文本SDR的生成时间;另一方面,基于层级结构训练作者分类模型,能有效减少训练时间;最后,同时将跨语言文本相似度转换为统一表述形式的SDR之间的比较,也提高了文本相似度的计算效率。(2)适用性好,更新代价小:本申请实施例生成的SDR可有效保留文本的语义信息,且编码结果因其较高的位数和较低的稀疏度,具有较高的鲁棒性以及较低的误配率,降低了SDR的存储空间需求;由于HTM模型基于时序记忆进行在线学习,使得本申请实施例的方法能够感知不断变化的数据,从中学习稳定表征,当有新的文献加入时,只需对该文献的输入模式进行学习,即可实现后续预测,无需再基于大规模训练集进行学习。(3)结合文本信息和作者属性信息,提高了消歧性能:本申请实施例的方法在保证单语言环境下文献作者分类结果的性能的前提下,考虑了机构名称、电子邮件等辨识度较高的信息,提高了跨语言消歧性能。
图8为本申请又一实施例提供的一种姓名消歧装置的结构示意图,如图8所示,该装置80可以包括确定模块81、分类处理模块82与合并处理模块83,其中:
确定模块81,用于根据预先基于训练语料生成的词稀疏分布式表征SDR,确定待进行姓名消歧的至少两种语言种类的至少两篇文献的文献信息,一篇文献对应一种语言种类;
分类处理模块82,用于基于预先构建的针对至少两种语言种类的文献作者分类模型,根据至少两种语言种类的各篇文献的文献信息,对该各篇文献按照所属文献作者进行分类,得到该各篇文献分别对应的第一作者类别,一种语言种类的文献作者分类模型对应处理相应语言种类的文献;
合并处理模块83,用于将各个语言种类下的各个第一作者类别进行合并处理,以对各个语言种类的各篇文献的文献作者进行姓名消歧。
在一种可能的实现方式中,合并处理模块83包括第一合并子模块831与第二合并子模块832,如图9所示,其中:
第一合并子模块831,用于将同一语言种类下的各个第一作者类别进行合并处理,以对同一语言种类的各篇文献的文献作者进行姓名消歧,得到姓名消歧后的各个第二作者类别;
第二合并子模块832,用于将不同语言种类下的各个第二作者类别进行合并处理,以对不同语言种类的各篇文献的文献作者进行姓名消歧。
在一种可能的实现方式中,文献信息包括文献摘要SDR和/或文献文本SDR,确定模块81包括信息确定子模块811、第一计算子模块812与第二计算子模块813,其中:
信息确定子模块811,用于根据词SDR,确定任一篇文献的文献摘要中各个词的第一词SDR和/或文献文本中各个词的第二词SDR;
第一计算子模块812,用于对各个第一词SDR依据对应维度相加,得到文献摘要SDR;
第二计算子模块813,用于对各个第二词SDR依据对应维度相加,得到文献文本SDR。
在一种可能的实现方式中,第一计算子模块812具体用于将任一维度的各个第一词SDR的总和与第一预定阈值进行比较,并将大于或等于第一预定阈值的该任一维度的各个第一词SDR的总和转换为第一预定数值,将小于第一预定阈值的该任一维度的各个第一词SDR的总和转换为第二预定数值;以及用于依据各个维度的排序,得到包括各个第一预定数值和/或各个第二预定数值的文献摘要SDR;
第二计算子模块813具体用于将任一维度的各个第二词SDR的总和分别与第二预定阈值进行比较,并将大于或等于第二预定阈值的该任一维度的各个第二词SDR的总和转换为第三预定数值,将小于第二预定阈值的该任一维度的各个第二词SDR的总和转换为第四预定数值;以及用于依据各个维度的排序,得到包括各个第三预定数值和/或各个第四预定数值的文献文本SDR。
在一种可能的实现方式中,文献信息包括文献摘要SDR和/或文献文本SDR,分类处理模块82包括预测子模块821与类别确定子模块822,如图9所示,其中:
预测子模块821,用于将任一语言种类的任一篇文献的文献摘要SDR和/或文献文本SDR,输入到预先构建的针对该任一语言种类的文献作者分类模型中,得到该任一篇文献的SDR预测结果;
类别确定子模块822,用于确定SDR预测结果与各个文献作者SDR之间的第一相似度值,并将最大第一相似度值对应的文献作者SDR的作者类别确定为该任一篇文献的第一作者类别。
在一种可能的实现方式中,第一合并子模块831具体用于基于预先建立的作者信息库,确定同一语言种类下的任两个第一作者类别之间的第一作者姓名对比结果、第一作者联系方式对比结果以及第一作者所属机构对比结果;以及用于确定该任两个第一作者类别的文献作者SDR之间的第二相似度值;以及用于根据第一作者姓名对比结果、第一作者联系方式对比结果、第一作者所属机构对比结果以及第二相似度值,确定是否对该任两个第一作者类别进行合并处理;以及用于当确定对该任两个第一作者类别进行合并处理时,对该任两个第一作者类别进行合并处理,以对同一语言种类的各篇文献的文献作者进行姓名消歧,得到姓名消歧后的各个第二作者类别。
在一种可能的实现方式中,第二合并子模块832具体用于基于预先建立的作者信息库,确定一种语言种类下的任一第二作者类别与另一种语言种类下的任一第二作者类别之间的第二作者姓名对比结果、第二作者联系方式对比结果以及第二作者所属机构对比结果;以及用于确定该两个第二作者类别的文献作者SDR间的第三相似度值;以及用于根据第二作者姓名对比结果、第二作者联系方式对比结果、第二作者所属机构对比结果以及第三相似度值,确定是否对该任两个第二作者类别进行合并处理;以及用于当确定对该任两个第二作者类别进行合并处理时,对该两个第二作者类别进行合并处理,以对不同语言种类的各篇文献的文献作者进行姓名消歧。
在一种可能的实现方式中,文献作者SDR是通过对该文献作者SDR对应的作者类别中包括的各篇文献的文献摘要SDR和/或文献文本SDR进行合并处理得到的。
在一种可能的实现方式中,还包括建立模块84,如图9所示,其中:
建立模块84用于建立作者信息库;
其中,当语言种类为两种时,建立模块84包括第一转换子模块841、第二转换子模块842与信息库建立子模块843,如图9所示,其中:
第一转换子模块841,用于当任一篇文献的文献作者为第一种语言种类的表述形式时,将该文献作者转换为对应的第二种语言种类的表述形式的文献作者;
第二转换子模块842,用于根据预先建立的机构名称信息库,建立同一机构名称的第一种语言种类的表述形式与第二种语言种类的表述形式之间的对应关系,并合并同一机构名称的两种不同语言种类的表述形式;
信息库建立子模块843,用于根据预先建立的各篇文献的文献标识、第一种语言种类的表述形式的文献作者、第二种语言种类的表述形式的文献作者、以及经合并处理后的两种不同语言种类的表述形式的机构名称,建立作者信息库。
本申请实施例提供的装置,通过根据预生成的词稀疏分布式表征SDR,确定待进行姓名消歧的每种语言种类的各篇文献的文献信息,并根据针对每种语言种类的文献作者分类模型及该每种语言种类的各篇文献的文献信息,确定各篇文献分别对应的第一作者类别,以及将各个语言种类下的各个第一作者类别进行合并处理,来对各个语言种类的各篇文献的文献作者进行姓名消歧,从而提供了一种多语言环境下的文献作者的姓名消歧方法,弥补了目前关于跨语言种类姓名消歧的空白,有效解决跨语言种类的文献作者的姓名消歧问题,不仅可以提高某语言种类文献作者所发表的全部文献的检索结果的准确性,从而有效统计出文献作者所发表文献的整体情况,而且有助于提高基于科技文献进行学术影响力评价、科研成果评估及学术推荐等的科学性,此外还可应用于跨语言种类检索、社交网络分析及人物搜索等方面,具有良好的可扩展性。
需要说明的是,本实施例为与上述的方法项实施例相对应的装置项实施例,本实施例可与上述方法项实施例互相配合实施。上述方法项实施例中提到的相关技术细节在本实施例中依然有效,为了减少重复,这里不再赘述。相应地,本实施例中提到的相关技术细节也可应用在上述方法项实施例中。
本申请另一实施例提供了一种电子设备,如图10所示,图10所示的电子设备1000包括:处理器1001和存储器1003。其中,处理器1001和存储器1003相连,如通过总线1002相连。进一步地,电子设备1000还可以包括收发器1004。需要说明的是,实际应用中收发器1004不限于一个,该电子设备1000的结构并不构成对本申请实施例的限定。
其中,处理器1001应用于本申请实施例中,用于实现图8与图9所示的确定模块、分类处理模块与合并处理模块的功能,以及图9所示的建立模块的功能。
处理器1001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器1001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线1002可包括一通路,在上述组件之间传送信息。总线1002可以是PCI总线或EISA总线等。总线1002可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器1003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器1003用于存储执行本申请方案的应用程序代码,并由处理器1001来控制执行。处理器1001用于执行存储器1003中存储的应用程序代码,以实现图8或图9所示实施例提供的姓名消歧装置的动作。
本申请实施例提供的电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时,可实现:通过根据预生成的词稀疏分布式表征SDR,确定待进行姓名消歧的每种语言种类的各篇文献的文献信息,并根据针对每种语言种类的文献作者分类模型及该每种语言种类的各篇文献的文献信息,确定各篇文献分别对应的第一作者类别,以及将各个语言种类下的各个第一作者类别进行合并处理,来对各个语言种类的各篇文献的文献作者进行姓名消歧,从而提供了一种多语言环境下的文献作者的姓名消歧方法,弥补了目前关于跨语言种类姓名消歧的空白,有效解决跨语言种类的文献作者的姓名消歧问题,不仅可以提高某语言种类文献作者所发表的全部文献的检索结果的准确性,从而有效统计出文献作者所发表文献的整体情况,而且有助于提高基于科技文献进行学术影响力评价、科研成果评估及学术推荐等的科学性,此外还可应用于跨语言种类检索、社交网络分析及人物搜索等方面,具有良好的可扩展性。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现实施例一所示的方法。可实现:通过根据预生成的词稀疏分布式表征SDR,确定待进行姓名消歧的每种语言种类的各篇文献的文献信息,并根据针对每种语言种类的文献作者分类模型及该每种语言种类的各篇文献的文献信息,确定各篇文献分别对应的第一作者类别,以及将各个语言种类下的各个第一作者类别进行合并处理,来对各个语言种类的各篇文献的文献作者进行姓名消歧,从而提供了一种多语言环境下的文献作者的姓名消歧方法,弥补了目前关于跨语言种类姓名消歧的空白,有效解决跨语言种类的文献作者的姓名消歧问题,不仅可以提高某语言种类文献作者所发表的全部文献的检索结果的准确性,从而有效统计出文献作者所发表文献的整体情况,而且有助于提高基于科技文献进行学术影响力评价、科研成果评估及学术推荐等的科学性,此外还可应用于跨语言种类检索、社交网络分析及人物搜索等方面,具有良好的可扩展性。
本申请实施例提供的计算机可读存储介质适用于上述方法的任一实施例。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (12)
1.一种姓名消歧方法,其特征在于,包括:
根据预先基于训练语料生成的词稀疏分布式表征SDR,确定待进行姓名消歧的至少两种语言种类的至少两篇文献的文献信息,一篇文献对应一种语言种类;
基于预先构建的针对至少两种语言种类的文献作者分类模型,根据至少两种语言种类的各篇文献的文献信息,对该各篇文献按照所属文献作者进行分类,得到该各篇文献分别对应的第一作者类别,一种语言种类的文献作者分类模型对应处理相应语言种类的文献;
将各个语言种类下的各个第一作者类别进行合并处理,以对各个语言种类的各篇文献的文献作者进行姓名消歧。
2.根据权利要求1所述的方法,其特征在于,所述将各个语言种类下的各个第一作者类别进行合并处理,以对各个语言种类的各篇文献的文献作者进行姓名消歧,包括:
将同一语言种类下的各个第一作者类别进行合并处理,以对同一语言种类的各篇文献的文献作者进行姓名消歧,得到姓名消歧后的各个第二作者类别;
将不同语言种类下的各个第二作者类别进行合并处理,以对不同语言种类的各篇文献的文献作者进行姓名消歧。
3.根据权利要求1所述的方法,其特征在于,文献信息包括文献摘要SDR和/或文献文本SDR,根据预先基于训练语料生成的词SDR,确定待进行姓名消歧的任一语言种类的任一篇文献的文献信息,包括:
根据词SDR,确定所述任一篇文献的文献摘要中各个词的第一词SDR和/或文献文本中各个词的第二词SDR;
对所述各个第一词SDR依据对应维度相加,得到所述文献摘要SDR;
对所述各个第二词SDR依据对应维度相加,得到所述文献文本SDR。
4.根据权利要求3所述的方法,其特征在于,对所述各个第一词SDR依据对应维度相加,得到所述文献摘要SDR,包括:
将任一维度的各个第一词SDR的总和与第一预定阈值进行比较,并将大于或等于第一预定阈值的该任一维度的各个第一词SDR的总和转换为第一预定数值,将小于第一预定阈值的该任一维度的各个第一词SDR的总和转换为第二预定数值;
依据各个维度的排序,得到包括各个第一预定数值和/或各个第二预定数值的所述文献摘要SDR;
对所述各个第二词SDR依据对应维度相加,得到所述文献文本SDR,包括:
将任一维度的各个第二词SDR的总和分别与第二预定阈值进行比较,并将大于或等于第二预定阈值的该任一维度的各个第二词SDR的总和转换为第三预定数值,将小于第二预定阈值的该任一维度的各个第二词SDR的总和转换为第四预定数值;
依据各个维度的排序,得到包括各个第三预定数值和/或各个第四预定数值的所述文献文本SDR。
5.根据权利要求1所述的方法,其特征在于,文献信息包括文献摘要SDR和/或文献文本SDR,基于预先构建的针对任一语言种类的文献作者分类模型,根据该任一语言种类的任一篇文献的文献信息,对该任一篇文献按照文献作者进行分类,得到该任一篇文献的第一作者类别,包括:
将任一语言种类的任一篇文献的文献摘要SDR和/或文献文本SDR,输入到预先构建的针对该任一语言种类的文献作者分类模型中,得到该任一篇文献的SDR预测结果;
确定所述SDR预测结果与各个文献作者SDR之间的第一相似度值,并将最大第一相似度值对应的文献作者SDR的作者类别确定为该任一篇文献的第一作者类别。
6.根据权利要求2所述的方法,其特征在于,将同一语言种类下的各个第一作者类别进行合并处理,以对同一语言种类的各篇文献的文献作者进行姓名消歧,得到姓名消歧后的各个第二作者类别,包括:
基于预先建立的作者信息库,确定同一语言种类下的任两个第一作者类别之间的第一作者姓名对比结果、第一作者联系方式对比结果以及第一作者所属机构对比结果;
确定该任两个第一作者类别的文献作者SDR之间的第二相似度值;
根据第一作者姓名对比结果、第一作者联系方式对比结果、第一作者所属机构对比结果以及所述第二相似度值,确定是否对该任两个第一作者类别进行合并处理;
若是,则对该任两个第一作者类别进行合并处理,以对同一语言种类的各篇文献的文献作者进行姓名消歧,得到姓名消歧后的各个第二作者类别。
7.根据权利要求6所述的方法,其特征在于,将不同语言种类下的各个第二作者类别进行合并处理,包括:
基于预先建立的作者信息库,确定一种语言种类下的任一第二作者类别与另一种语言种类下的任一第二作者类别之间的第二作者姓名对比结果、第二作者联系方式对比结果以及第二作者所属机构对比结果;
确定该两个第二作者类别的文献作者SDR间的第三相似度值;
根据第二作者姓名对比结果、第二作者联系方式对比结果、第二作者所属机构对比结果以及所述第三相似度值,确定是否对该任两个第二作者类别进行合并处理;
若是,则对该两个第二作者类别进行合并处理,以对不同语言种类的各篇文献的文献作者进行姓名消歧。
8.根据权利要求5-7任一项所述的方法,其特征在于,文献作者SDR是通过对该文献作者SDR对应的作者类别中包括的各篇文献的文献摘要SDR和/或文献文本SDR进行合并处理得到的。
9.根据权利要求1-7任一项所述的方法,其特征在于,在所述将各个语言种类下的各个第一作者类别进行合并处理之前,还包括:
建立作者信息库;
其中,当语言种类为两种时,建立作者信息库包括:
当任一篇文献的文献作者为第一种语言种类的表述形式时,将该文献作者转换为对应的第二种语言种类的表述形式的文献作者;
根据预先建立的机构名称信息库,建立同一机构名称的第一种语言种类的表述形式与第二种语言种类的表述形式之间的对应关系,并合并同一机构名称的两种不同语言种类的表述形式;
根据预先建立的各篇文献的文献标识、第一种语言种类的表述形式的文献作者、第二种语言种类的表述形式的文献作者、以及经合并处理后的两种不同语言种类的表述形式的机构名称,建立作者信息库。
10.一种姓名消歧装置,其特征在于,包括:
确定模块,用于根据预先基于训练语料生成的词稀疏分布式表征SDR,确定待进行姓名消歧的至少两种语言种类的至少两篇文献的文献信息,一篇文献对应一种语言种类;
分类处理模块,用于基于预先构建的针对至少两种语言种类的文献作者分类模型,根据至少两种语言种类的各篇文献的文献信息,对该各篇文献按照所属文献作者进行分类,得到该各篇文献分别对应的第一作者类别,一种语言种类的文献作者分类模型对应处理相应语言种类的文献;
合并处理模块,用于将各个语言种类下的各个第一作者类别进行合并处理,以对各个语言种类的各篇文献的文献作者进行姓名消歧。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-9任一项所述的姓名消歧方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现权利要求1-9任一项所述的姓名消歧方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910549768.7A CN110275957B (zh) | 2019-06-24 | 2019-06-24 | 姓名消歧方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910549768.7A CN110275957B (zh) | 2019-06-24 | 2019-06-24 | 姓名消歧方法、装置、电子设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110275957A CN110275957A (zh) | 2019-09-24 |
CN110275957B true CN110275957B (zh) | 2021-06-29 |
Family
ID=67961769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910549768.7A Active CN110275957B (zh) | 2019-06-24 | 2019-06-24 | 姓名消歧方法、装置、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110275957B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113688257B (zh) * | 2021-08-19 | 2024-04-12 | 安徽工大信息技术有限公司 | 一种基于大规模文献数据的作者姓名同一性判断方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104111973A (zh) * | 2014-06-17 | 2014-10-22 | 中国科学院计算技术研究所 | 一种学者重名的消歧方法及其*** |
CN105653590A (zh) * | 2015-12-21 | 2016-06-08 | 青岛智能产业技术研究院 | 一种中文文献作者重名消歧的方法 |
CN106055539A (zh) * | 2016-05-27 | 2016-10-26 | 中国科学技术信息研究所 | 姓名消歧的方法和装置 |
CN106294677A (zh) * | 2016-08-04 | 2017-01-04 | 浙江大学 | 一种面向英文文献中中国作者的姓名消歧方法 |
CN107590128A (zh) * | 2017-09-21 | 2018-01-16 | 湖北大学 | 一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法 |
CN109726280A (zh) * | 2018-12-29 | 2019-05-07 | 北京邮电大学 | 一种针对同名学者的排歧方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7475010B2 (en) * | 2003-09-03 | 2009-01-06 | Lingospot, Inc. | Adaptive and scalable method for resolving natural language ambiguities |
US9779363B1 (en) * | 2014-12-09 | 2017-10-03 | Linkedin Corporation | Disambiguating personal names |
US20160335367A1 (en) * | 2015-05-15 | 2016-11-17 | Microsoft Technology Licensing, Llc | Entity disambiguation using multisource learning |
CN105868347A (zh) * | 2016-03-28 | 2016-08-17 | 南京邮电大学 | 一种基于多步聚类的重名消歧方法 |
-
2019
- 2019-06-24 CN CN201910549768.7A patent/CN110275957B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104111973A (zh) * | 2014-06-17 | 2014-10-22 | 中国科学院计算技术研究所 | 一种学者重名的消歧方法及其*** |
CN105653590A (zh) * | 2015-12-21 | 2016-06-08 | 青岛智能产业技术研究院 | 一种中文文献作者重名消歧的方法 |
CN106055539A (zh) * | 2016-05-27 | 2016-10-26 | 中国科学技术信息研究所 | 姓名消歧的方法和装置 |
CN106294677A (zh) * | 2016-08-04 | 2017-01-04 | 浙江大学 | 一种面向英文文献中中国作者的姓名消歧方法 |
CN107590128A (zh) * | 2017-09-21 | 2018-01-16 | 湖北大学 | 一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法 |
CN109726280A (zh) * | 2018-12-29 | 2019-05-07 | 北京邮电大学 | 一种针对同名学者的排歧方法及装置 |
Non-Patent Citations (2)
Title |
---|
Exploiting semantic similarity for named entity disambiguation in knowledge graphs;GanggaoZhu;《Expert Systems with Applications》;20180909;全文 * |
姓名消歧方法研究进展;付媛,朱礼军,韩红旗;《情报工程》;20160229;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110275957A (zh) | 2019-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mathur et al. | Detecting offensive tweets in hindi-english code-switched language | |
Peng et al. | A review of sentiment analysis research in Chinese language | |
Bandhakavi et al. | Lexicon generation for emotion detection from text | |
Sun et al. | Sentiment analysis for Chinese microblog based on deep neural networks with convolutional extension features | |
Hassan et al. | Sentiment analysis on bangla and romanized bangla text using deep recurrent models | |
Demir et al. | Improving named entity recognition for morphologically rich languages using word embeddings | |
CN110427623A (zh) | 半结构化文档知识抽取方法、装置、电子设备及存储介质 | |
Yi et al. | Topic modeling for short texts via word embedding and document correlation | |
WO2022001333A1 (zh) | 基于双曲空间表示和标签文本互动的细粒度实体识别方法 | |
Nagamanjula et al. | A novel framework based on bi-objective optimization and LAN2FIS for Twitter sentiment analysis | |
Hassan et al. | Sentiment analysis on bangla and romanized bangla text (BRBT) using deep recurrent models | |
Shilpa et al. | Sentiment analysis using deep learning | |
CN107391565B (zh) | 一种基于主题模型的跨语言层次分类体系匹配方法 | |
Zaman et al. | Information extraction from semi and unstructured data sources: A systematic literature review | |
Jiang et al. | An LSTM-CNN attention approach for aspect-level sentiment classification | |
Shreda et al. | Identifying non-functional requirements from unconstrained documents using natural language processing and machine learning approaches | |
Wang et al. | A deep context-wise method for coreference detection in natural language requirements | |
Yang et al. | Improving word representations with document labels | |
Wang et al. | Short text topic learning using heterogeneous information network | |
Köksal et al. | Improving automated Turkish text classification with learning‐based algorithms | |
CN110275957B (zh) | 姓名消歧方法、装置、电子设备及计算机可读存储介质 | |
Cambria et al. | Towards a chinese common and common sense knowledge base for sentiment analysis | |
Sun et al. | Chinese microblog sentiment classification based on deep belief nets with extended multi-modality features | |
Bender et al. | Unsupervised Estimation of Subjective Content Descriptions in an Information System. | |
Xu et al. | Sentiment analysis of Chinese version using SVM & RNN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |