CN111428503B - 同名人物的识别处理方法及处理装置 - Google Patents
同名人物的识别处理方法及处理装置 Download PDFInfo
- Publication number
- CN111428503B CN111428503B CN202010167476.XA CN202010167476A CN111428503B CN 111428503 B CN111428503 B CN 111428503B CN 202010167476 A CN202010167476 A CN 202010167476A CN 111428503 B CN111428503 B CN 111428503B
- Authority
- CN
- China
- Prior art keywords
- person
- similarity
- attribute
- character
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 21
- 238000003672 processing method Methods 0.000 title claims description 19
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000000605 extraction Methods 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 10
- 230000002123 temporal effect Effects 0.000 claims description 9
- 230000001502 supplementing effect Effects 0.000 claims description 2
- 239000008492 tangshen Substances 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 235000021018 plums Nutrition 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 239000000969 carrier Substances 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种同名人物的识别处理方法及处理装置。其中,该方法包括:获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息;从描述信息中提取包含时间上下文的人物属性和事件信息;计算人物集合中任意两个人物的属性相似度和事件信息相似度;至少基于属性相似度和事件信息相似度确定人物集合中任意两个人物是否为同一人物。本发明解决了由于人物属性及关系信息不充分造成的识别同名人物是否指代同一实体不准确的技术问题。
Description
技术领域
本发明涉及人物分类领域,具体而言,涉及一种同名人物的识别处理方法及处理装置。
背景技术
知识图谱又称为科学知识图谱,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系,在各个领域得到了广泛的应用,尤其在同名人物识别领域,往往利用原有的知识图谱进行人物的相似度判断,但这种方法往往忽略了时间变迁导致的人物属性的表更对人物相似度的影响,进而在判断同名人物是够指代同一实体时,存在识别不准确的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种同名人物的识别处理方法及处理装置,以至少解决由于人物属性及关系信息不充分造成的识别同名人物是否指代同一实体不准确的技术问题。
根据本发明实施例的一个方面,提供了一种同名人物的识别处理方法,包括:获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息;从描述信息中提取包含时间上下文的人物属性和事件信息;计算人物集合中任意两个人物的属性相似度和事件信息相似度;至少基于属性相似度和事件信息相似度确定人物集合中任意两个人物是否为同一人物。
可选地,获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息,包括:从知识图谱数据库中提取具有相同姓名的人物集合,以及每个任务集合中获取每一个人物的描述信息。
可选地,至少基于属性相似度和事件信息相似度确定人物集合中任意两个人物是否为同一人物,包括:获取目标人物所在的知识图谱中的目标关系相似度;基于属性相似度、事件信息相似度和目标关系相似度确定人物集合中任意两个人物是否为同一实体。
可选地,目标关系相似度通过以下方式确定:对任意两个人物的亲属关系相似度与社交关系相似度进行加权求和,得到目标关系相似度;其中,亲属关系相似度权重系数人物的社交关系相似度。
可选地,基于属性相似度、事件信息相似度和目标关系相似度确定人物集合中任意两个人物是否为同一实体,包括:对属性相似度、事件信息相似度和目标关系相似度进行加权求和,得到目标相似度;比较目标相似度与设定阈值,若目标相似度大于或等于设定阈值,则确定任意两个人物属于同一实体。
可选地,获取任意两个人物在目标人物所在的知识图谱中的目标关系相似度之前,还包括:获取现有的每个人物的关系列表其中,rsubject表示关系主体,rname表示关系名,robject表示关系客体。
可选地,从描述信息中提取包含时间上下文的人物属性和事件信息,包括:对于人物pi,采用时间正则表达式提取描述信息中的时间序列将人物pi描述信息按时间序列Ti分段,得到分段文本序列W={W1,W2,...Wn},其中分段文本/>bk表示文本、/>表示时间标签,k=1,2,3,…,n。
可选地,采用时间正则表达式提取描述信息中的时间序列将描述信息按时间序列Ti分段,得分段文本序列W={W1,W2,...Wn},方法包括:对分段文本/>依据字典库和依存句法分析提取人物关系集合/>其中/>表示按照分段文本提取的人物关系集合;对人物所有分段文本进行人物关系的提取,得到利用提取的人物关系集合/>补充人物pi的关系集合/>得到人物关系知识图谱/>从人物关系知识图谱/>获取任意两个人物的亲属关系相似度与社交关系相似度。
可选地,采用时间正则表达式提取描述信息中的时间序列将描述信息按时间序列Ti分段,得分段文本序列W={W1,W2,...Wn}之后,方法还包括:
对分段文本依据字典库和依存句法分析算法提取人物属性集合其中a,b,λ表示不同的人物属性,人物属性 表示时间标签和/>表示属性值;提取事件的主体S、客体O以及谓语动词V,得到事件集合Ek={Ek 1,Ek 2,...Ek em},其中,/>即每一个事件Ek l,包含一个事件的主体S、一个客体O、一个谓语动词V,以及事件发生的时间/>其中,l≤l≤em。
可选地,人物属性集合和人物事件序列通过以下方法获取:对人物pi所有分段文本Wk进行提取,得到含时间上下文的人物属性集合其中人物事件序列/> 均小于等于n;
可选地,对指代相同实体的同名人物进行合并,输出新的列表,其中,每个新的列表中的同名人物指代同一实体。
根据本申请的另一方面,还提供了一种同名人物的识别处理方法,包括:获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息;从描述信息中提取包含时间上下文的人物属性和事件信息;计算目标人物与人物集合中指定人物的属性相似度和事件信息相似度,指定人物为人物集合中的任意一个人物;至少基于属性相似度和事件信息相似度确定指定人物与目标人物是否为同一人物。
根据本申请的另一方面,还提供了一种同名人物的识别处理装置,包括:获取模块,获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息;提取模块,从描述信息中提取包含时间上下文的人物属性和事件信息;计算模块,计算人物集合中任意两个人物的属性相似度和事件信息相似度;确定模块,至少基于属性相似度和事件信息相似度确定人物集合中任意两个人物是否为同一人物。
根据本申请的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行任一种的同名人物的识别处理方法。
根据本申请的另一方面,还提供了一种处理器,处理器用于运行存储介质所存储的程序,其中,程序运行时执行任一种同名人物的识别处理方法。
在本发明实施例中,采用构建和比较知识图谱的方式,通过构造随时间序列变化的人物属性值列表对人物属性是否相同进行判断,达到了对同名人物是否指代同一实体进行识别的目的,从而实现了更加准确判断同名人物是否指代同一实体的技术效果,进而解决了由于人物属性及关系信息不充分造成的识别同名人物是否指代同一实体不准确技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本申请实施例的一种同名人物的识别处理方法的流程示意图;
图2是根据本申请实施例的另一种同名人物的识别处理方法的流程示意图;
图3是根据本申请实施例的一种同名人物的识别处理装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的人物,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种同名人物的识别处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的同名人物的识别处理方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤S102,获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息;
步骤S104,从描述信息中提取包含时间上下文的人物属性和事件信息;
步骤S106,计算人物集合中任意两个人物的属性相似度和事件信息相似度;
步骤S108,至少基于属性相似度和事件信息相似度确定人物集合中任意两个人物是否为同一人物。
上述处理方法中,首先,获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息,然后从描述信息中提取包含时间上下文的人物属性和事件信息,其次,计算人物集合中任意两个人物的属性相似度和事件信息相似度,最后,至少基于属性相似度和事件信息相似度确定人物集合中任意两个人物是否为同一人物,从而实现了更加准确判断同名人物是否指代同一实体的技术效果,进而解决了由于人物属性及关系信息不充分造成的识别同名人物是否指代同一实体不准确技术问题。
需要说明的是,这里的实体指代的就是人物,即同一人物就是同一实体。
本申请的一些实施例中,上述步骤S102获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息,可以通过如下一种可选的实施方式来实现:
从知识图谱数据库中提取具有相同姓名的人物集合,以及每个任务集合中获取每一个人物的描述信息。
需要说明的是,知识图谱数据库中的数据可以来自于各种网页或社交网络等,如百度百科、360百科、互动百科等。
具体的步骤:
例如,在本申请的一种可选的实施例中,首先,在华谱***中找人页面,输入唐代诗人“李白”这个姓名,然后,便可以获得若干个姓名同样为“李白”的实体,这些称之为同名人物的集合,这些实体集合中,可能有一部分是同一个实体“李白”,即这个同名人物的集合中,有部分所描述的指代的均是唐代诗人李白,而上述同名人物的集合中,有部分仅仅是同名,所指代不是上述的唐代诗人“李白”;其同名的可能是歌手李白、教师李白、工人李白等,以下通过具体的步骤,进行说明。
步骤1.1利用图数据库工具的***查询语言,从人物知识图谱数据库中查询具有相同姓名的人物集合;P={pi,pj∈P|pi.name=pj.name,1≤i,j≤m}及每个人物的关系列表其中/>包含关系主体rsubject,关系名rname,关系客体robject,即/>以及人物描述信息。在人物知识图谱数据库中输入“李白”,会展现有若干个姓名为“李白”的人物,即就是与李白同名的人物集合,这里的每一个人物,可以认为是一个独立的实体,并且***会展示每个姓名为“李白”的描述信息,包括但不限于姓名、曾用名、国籍、出生年月、性别、以及每一个实体李白的人物关系,需要说明的是人物关系包括但不限于亲属关系、社会关系,其中亲属关系包括但不限于以下关系:父母、子女、配偶、兄弟姐妹等。
本申请的一些实施例中,上述步骤S104从描述信息中提取包含时间上下文的人物属性和事件信息,可以通过如下一种可选的实施方式来实现:
具体的步骤:
步骤2.1对于人物pi,用人工构建的时间正则表达式提取pi描述信息中的时间序列
步骤2.2将pi的描述信息按时间序列Ti分段,得分段文本序列W={W1,W2,…Wn},其中每个分段文本包括文本bk和时间标签即/>
步骤2.3用词法分析工具对分段文本Wk进行分词及词性标注;
步骤2.4利用步骤2.3的分词结果,依据字典库和依存句法分析提取人物关系集合人物属性集合/>其中a,b,λ表示不同的人物属性,每个人物属性/>包含时间标签/>和属性值/>即属性包括但不限于:职业、工作的职务、住址等。
步骤2.5利用步骤2.3的分词及词性标注进行句法分析,得到句法分析树,按一定规则提取事件的主体S、客体O以及谓语动词V,得事件集合其中,每一个事件Ek l(1≤l≤em)包含一个事件的主体S、一个客体O、一个谓语动词V,以及事件发生的时间/>即/>即就是某个时间某个人完成了某件事情,例如公历722年李白写了一首诗歌,这里的主体就是李白,客体就是诗歌。
步骤2.6循环执行步骤2.3至2.5,对人物pi的所有分段文本进行人物关系、人物属性、人物事件的提取,得到人物pi的关系集合属性集合其中/>即就是按照不同的时间段分割,得到每个时间段的任务属性,例如在不同的年份所从事的不同或相同的工作,人物事件序列/> 均小于等于n;
步骤2.7利用提取的人物关系集合补充步骤1查询的人物pi的关系集合/>得人物关系知识图谱/>
步骤2.8循环执行步骤2.1至步骤2.7,对同名人物集合P中的所有人物pi,执行人物关系、人物随时间变化属性的属性值列表、人物事件序列的提取;
本申请的一些实施例中,上述步骤S106计算人物集合中任意两个人物的属性相似度和事件信息相似度;步骤S108至少基于属性相似度和事件信息相似度确定人物集合中任意两个人物是否为同一人物,包括:获取目标人物所在的知识图谱中的目标关系相似度,可以通过如下一种可选的实施方式实现。
具体的步骤:
步骤3.1对于同名人物pi、pj,根据人工构建的亲属关系字典库和社交关系字典库将对应的人物关系知识图谱进行关系分类,分别得到对应的亲属关系集合和社交关系集合/>需要说明的是,亲属关系包括但不限于以下关系:父母、子女、配偶、兄弟姐妹,这里以上述的父母、子女、配偶这三种关系,作为亲属关系的主要来源;社交关系包括但不限于以下关系:同学、同事、朋友等。
步骤3.2计算亲属关系集合之间的相似度,得人物亲属关系相似度具体步骤如下:
步骤3.2.1计算同名人物pi、pj关系知识图谱中具有相同关系主体、关系名λkin的关系客体的相似度
步骤3.2.2利用公式(1)计算人物pi、pj关系知识图谱中亲属关系相似度
其中akin,bkin,λkin,表示不同的亲属关系名称;
步骤3.3计算社交关系集合之间的相似度,得人物社交关系相似度具体步骤如下:
步骤3.3.1计算同名人物pi、pj关系知识图谱中具有相同关系主体、关系名λsoc的关系客体的相似度
步骤3.3.2利用公式(2)计算人物pi、pj关系知识图谱中社交关系相似度
其中asoc,bsoc,λsoc,表示不同的社交关系名称;
步骤3.4利用公式(3)对人物亲属关系相似度与社交关系相似度加权求和,得人物关系相似度,即目标关系相似度
其中α表示权重系数,需要说明的是,通常我们认为亲属关系比社交关系对人物是否指代相同实体更加重要,所以通常我们设置的α>0.5;
步骤3.5对同名人物pi、pj,的随时间变化的相同属性和/>按时间分段顺序进行属性值相似度的对比,其中λ表示属性名,如职业、职务、住址等;例如,将两个同名人物的职业按照时间分段,得到不同时间段所做的职业,然后进行相似度的对比。
步骤3.5.1初始化变量k=1,sc=0,其中变量sc用于计数属性值相同的个数;
步骤3.5.2初始化变量t=1;
步骤3.5.3分别取同名人物pi、pj的属性λ在某一时间分段的属性值和/>判断两个属性值/>是否相同;
步骤3.5.4若相同,则k=k+1,t=t+1,sc=sc+1,执行步骤3.5.5;否则,t=t+1,执行步骤3.5.6;直至
步骤3.5.5若或者/>则执行步骤3.5.7;否则执行步骤3.5.3;
步骤3.5.6若则k=k+1,执行步骤3.5.2,否则执行步骤3.5.3;
步骤3.5.7计算属性λ的相似度
步骤3.5.8循环执行步骤3.5.1至3.5.7,对人物pi、pj所有相同属性的相似度进行计算,按公式(4)计算人物属性相似度
其中变量count为人物pi、pj的相同属性个数;
步骤3.6对于同名人物pi、pj,的事件序列进行相似度比较,得事件相似度
步骤3.7对人物关系目标关系相似度人物属性相似度/>事件相似度按公式(5)加权求和;
其中α,β,γ为相应的权值,需要说明的是权值的大小由对应信息的丰富程度决定,例如获取到的亲属关系和社交关系信息较多时,则可以设定目标关系相似度的权值比较大,比如为0.5,且α+β+γ=1;具体取值方法如步骤3.8;
步骤3.8对于同名人物pi、pj,设可对齐的人物关系、属性、事件个数分别为Rc,Attrc,Ec,则,α=Rc/(Rc+Attrc+Ec),β=Rc/(Rc+Attrc+Ec),γ=Rc/(Rc+Attrc+Ec)。
上述步骤S108至少基于属性相似度和事件信息相似度确定人物集合中任意两个人物是否为同一人物,包括:获取目标人物所在的知识图谱中的目标关系相似度;基于属性相似度、事件信息相似度和目标关系相似度确定人物集合中任意两个人物是否为同一实体,可以通过如下一种可选的实施方式来实现。
具体地:
步骤4.1初始化变量i=1,j=2;
步骤4.2执行步骤3计算同名人物pi、pj的相似度
步骤4.3若大于等于设定阈值,则判断同名人物pi、pj指代相同实体,将人物pi、pj加入列表list[i]中,j=j+1,执行步骤4.4;否则,则执行步骤4.5;
步骤4.4若j>m,则i=i+1,j=i+1,执行步骤4.5;否则,则执行步骤4.2;
步骤4.5若i<m,则执行步骤4.2;否则执行步骤4.6;
步骤4.6对含有相同人物的列表list[i]和list[j]进行合并,输出列表list。
本申请实施例,还提供了一种同名人物的识别处理方法,图2是根据本申请实施例的同名人物的识别处理方法的流程示意图,如图2所示:
步骤S202,获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息;
步骤S204,从描述信息中提取包含时间上下文的人物属性和事件信息;
步骤S206,计算目标人物与人物集合中指定人物的属性相似度和事件信息相似度,指定人物为人物集合中的任意一个人物;
步骤S208,至少基于属性相似度和事件信息相似度确定指定人物与目标人物是否为同一人物。
上述同名人物的识别处理方法中,首先,获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息,然后,从描述信息中提取包含时间上下文的人物属性和事件信息,其次,计算目标人物与人物集合中指定人物的属性相似度和事件信息相似度,指定人物为人物集合中的任意一个人物,最后,至少基于属性相似度和事件信息相似度确定指定人物与目标人物是否为同一人物,从而实现了更加准确判断同名人物是否指代同一实体的技术效果,进而解决了由于人物属性及关系信息不充分造成的识别同名人物是否指代同一实体不准确技术问题。
需要说明的是,这里的实体指代的就是人物,即同一人物就是同一实体。
例如,在本申请的一种可选的实施例中,首先,在华谱***中找人页面,输入唐代诗人“李白”这个姓名,然后,便可以获得若干个姓名同样为“李白”的实体,这些称之为同名人物的集合,这些实体集合中,可能有一部分是同一个实体“李白”,即这个同名人物的集合中,有部分所描述的指代的均是唐代诗人李白,而上述同名人物的集合中,有部分仅仅是同名,所指代不是上述的唐代诗人“李白”;其同名的可能是歌手李白、教师李白、工人李白等,然后对这些同名人物“李白”的描述信息中提取包含时间上下文的人物属性和事件信息,其次,计算目标人物诗人李白与人物集合中指定人物的属性相似度和事件信息相似度,指定人物为人物集合中的任意一个人物,这里假设指定人物为歌手李白,最后,至少基于属性相似度和事件信息相似度确定指定人物与目标人物是否为同一人物,即就是上述的诗人李白与上述歌手李白是否为一个人物。
本申请的一些实施例中,还提供了一种同名人物的识别处理装置,如图3所示,该同名人物的识别处理装置包括:
获取模块30,获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息;
提取模块32,从描述信息中提取包含时间上下文的人物属性和事件信息;
计算模块34,计算人物集合中任意两个人物的属性相似度和事件信息相似度;
确定模块36,至少基于属性相似度和事件信息相似度确定人物集合中任意两个人物是否为同一人物。
上述同名人物的识别处理装置,获取模块,用于获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息;提取模块,用于从描述信息中提取包含时间上下文的人物属性和事件信息;计算模块,用于计算人物集合中任意两个人物的属性相似度和事件信息相似度;确定模块,用于至少基于属性相似度和事件信息相似度确定人物集合中任意两个人物是否为同一人物。上述同名人物的识别处理装置实现了更加准确判断同名人物是否指代同一实体的技术效果,进而解决了由于人物属性及关系信息不充分造成的识别同名人物是否指代同一实体不准确技术问题。
需要说明的是,这里的实体指代的就是人物,即同一人物就是同一实体。
本申请实施例,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行任一种同名人物的识别处理方法。
具体地,上述存储介质用于存储执行以下功能的程序指令,实现以下功能:
获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息;从描述信息中提取包含时间上下文的人物属性和事件信息;计算人物集合中任意两个人物的属性相似度和事件信息相似度;至少基于属性相似度和事件信息相似度确定人物集合中任意两个人物是否为同一人物。
本申请实施例,还提供了一种处理器,处理器用于运行存储介质所存储的程序,其中,程序运行时执行任一种同名人物的识别处理方法。
具体地,上述处理器用于调用存储器中的程序指令,实现以下功能:
获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息;从描述信息中提取包含时间上下文的人物属性和事件信息;计算人物集合中任意两个人物的属性相似度和事件信息相似度;至少基于属性相似度和事件信息相似度确定人物集合中任意两个人物是否为同一人物。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (13)
1.一种同名人物的识别处理方法,其特征在于,包括:
获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息;
从所述描述信息中提取包含时间上下文的人物属性和事件信息;
计算所述人物集合中任意两个人物的属性相似度和事件信息相似度;
至少基于所述属性相似度和事件信息相似度确定所述人物集合中所述任意两个人物是否为同一人物;
其中,从所述描述信息中提取包含时间上下文的人物属性和事件信息,包括:对于人物pi,采用时间正则表达式提取所述描述信息中的时间序列将所述人物pi的描述信息按所述时间序列Ti分段,得到分段文本序列W={W1,W2,…Wn},其中分段文本bk表示文本、/>表示时间标签,k=1,2,3,…,n;对分段文本/>依据字典库和依存句法分析工具或属性提取工具提取人物属性集合/>其中a,b,λ表示不同的人物属性,人物属性/> 表示时间标签和表示属性值;利用事件抽取工具提取事件的主体S、客体O以及谓语动词V,得到事件集合Ek={Ek 1,Ek 2,…Ek em},其中,/>即每一个事件Ek l包含一个事件的主体S、一个客体O、一个谓语动词V,以及事件发生的时间/>其中,1≤l≤em。
2.根据权利要求1所述的识别处理方法,其特征在于,获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息,包括:
从人物知识图谱数据库中提取具有相同姓名的人物集合,以及从每个人物集合中获取所述每一个人物的描述信息。
3.根据权利要求1所述的识别处理方法,其特征在于,至少基于所述属性相似度和事件信息相似度确定所述人物集合中所述任意两个人物是否为同一人物,包括:
获取所述目标人物所在的知识图谱中的目标关系相似度;
基于所述属性相似度、所述事件信息相似度和所述目标关系相似度确定所述人物集合中所述任意两个人物是否为同一实体。
4.根据权利要求3所述的识别处理方法,其特征在于,所述目标关系相似度通过以下方式确定:
对所述任意两个人物的亲属关系相似度与社交关系相似度进行加权求和,得到所述目标关系相似度;
其中,所述亲属关系相似度权重系数大于社交关系相似度。
5.根据权利要求3所述的识别处理方法,其特征在于,基于所述属性相似度、所述事件信息相似度和所述目标关系相似度确定所述人物集合中所述任意两个人物是否为同一实体,包括:
对所述属性相似度、所述事件信息相似度和所述目标关系相似度进行加权求和,得到目标相似度;
比较所述目标相似度与设定阈值,若所述目标相似度大于或等于所述设定阈值,则确定所述任意两个人物属于同一实体。
6.根据权利要求3所述的识别处理方法,其特征在于,获取所述任意两个人物在所述目标人物所在的知识图谱中的目标关系相似度之前,还包括:
获取现有的每个人物的关系列表其中,
rsubject表示关系主体,rname表示关系名,robject表示关系客体。
7.根据权利要求1所述的识别处理方法,其特征在于,采用时间正则表达式提取描述信息中的时间序列将描述信息按所述时间序列Ti分段,得分段文本序列W={W1,W2,…Wn}之后,所述方法包括:
对分段文本依据字典库和依存句法分析工具或关系抽取工具提取人物关系集合/>其中/>表示按照分段文本提取的人物关系集合;
对人物所有分段文本进行人物关系的提取,得到利用提取的人物关系集合/>补充所述人物pi的关系集合/>得到人物关系知识图谱/>
从人物关系知识图谱获取所述任意两个人物的亲属关系相似度与社交关系相似度。
8.根据权利要求1所述的识别处理方法,其特征在于,所述人物属性集合和人物事件序列通过以下方法获取:
对人物pi所有分段文本Wk进行提取,得到含时间上下文的人物属性集合其中/>
人物事件序列 均小于等于n。
9.根据权利要求1至8中任一项所述的识别处理方法,其特征在于,进一步包括:
对指代相同实体的同名人物进行合并,输出新的列表,其中,每个新的列表中的同名人物指代同一实体。
10.一种同名人物的识别处理方法,其特征在于,包括:
获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息;
从所述描述信息中提取包含时间上下文的人物属性和事件信息;
计算所述目标人物与所述人物集合中指定人物的属性相似度和事件信息相似度,所述指定人物为所述人物集合中的任意一个人物;
至少基于所述属性相似度和事件信息相似度确定所述指定人物与所述目标人物是否为同一人物;
其中,从所述描述信息中提取包含时间上下文的人物属性和事件信息,包括:
对于人物pi,采用时间正则表达式提取所述描述信息中的时间序列将所述人物pi的描述信息按所述时间序列Ti分段,得到分段文本序列/> 其中分段文本/>bk表示文本、/>表示时间标签,k=1,2,3,…,n;对分段文本/>依据字典库和依存句法分析工具或属性提取工具提取人物属性集合其中a,b,λ表示不同的人物属性,人物属性 表示时间标签和/>表示属性值;利用事件抽取工具提取事件的主体S、客体O以及谓语动词V,得到事件集合/>其中,即每一个事件Ek l包含一个事件的主体S、一个客体O、一个谓语动词V,以及事件发生的时间/>其中,1≤l≤em。
11.一种同名人物的识别处理装置,其特征在于,包括:
获取模块,获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息;
提取模块,从所述描述信息中提取包含时间上下文的人物属性和事件信息;
计算模块,计算所述人物集合中任意两个人物的属性相似度和事件信息相似度;
确定模块,至少基于所述属性相似度和事件信息相似度确定所述人物集合中所述任意两个人物是否为同一人物;
其中,从所述描述信息中提取包含时间上下文的人物属性和事件信息,包括:对于人物pi,采用时间正则表达式提取所述描述信息中的时间序列将所述人物pi的描述信息按所述时间序列Ti分段,得到分段文本序列W={W1,W2,…Wn},其中分段文本bk表示文本、/>表示时间标签,k=1,2,3,…,n;对分段文本/>依据字典库和依存句法分析工具或属性提取工具提取人物属性集合/>其中a,b,λ表示不同的人物属性,人物属性/> 表示时间标签和value表示属性值;利用事件抽取工具提取事件的主体S、客体O以及谓语动词V,得到事件集合/>其中,/>即每一个事件Ek l包含一个事件的主体S、一个客体O、一个谓语动词V,以及事件发生的时间/>其中,1≤l≤em。
12.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至10中任意一项所述的同名人物的识别处理方法。
13.一种处理器,其特征在于,所述处理器用于运行存储介质所存储的程序,其中,所述程序运行时执行权利要求1至10中任意一项所述的同名人物的识别处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010167476.XA CN111428503B (zh) | 2020-03-11 | 2020-03-11 | 同名人物的识别处理方法及处理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010167476.XA CN111428503B (zh) | 2020-03-11 | 2020-03-11 | 同名人物的识别处理方法及处理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111428503A CN111428503A (zh) | 2020-07-17 |
CN111428503B true CN111428503B (zh) | 2024-05-03 |
Family
ID=71553443
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010167476.XA Active CN111428503B (zh) | 2020-03-11 | 2020-03-11 | 同名人物的识别处理方法及处理装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111428503B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609837A (zh) * | 2021-04-19 | 2021-11-05 | 鼎富智能科技有限公司 | 一种笔录信息的提取方法及装置 |
CN114861787A (zh) * | 2022-04-27 | 2022-08-05 | 北京金堤科技有限公司 | 获取存在重名情况的待查询人员名下公司的方法和装置 |
CN116341531B (zh) * | 2023-02-28 | 2023-10-10 | 人民网股份有限公司 | 基于知识驱动的人物信息抽取和检查方法及装置 |
CN116702899B (zh) * | 2023-08-07 | 2023-11-28 | 上海银行股份有限公司 | 一种适用于公私联动场景的实体融合方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457486A (zh) * | 2019-07-05 | 2019-11-15 | 中国人民解放军战略支援部队信息工程大学 | 基于知识图谱的人物实体对齐方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7672833B2 (en) * | 2005-09-22 | 2010-03-02 | Fair Isaac Corporation | Method and apparatus for automatic entity disambiguation |
JP2013238991A (ja) * | 2012-05-14 | 2013-11-28 | Sony Corp | 情報処理装置、情報処理方法及びプログラム |
-
2020
- 2020-03-11 CN CN202010167476.XA patent/CN111428503B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457486A (zh) * | 2019-07-05 | 2019-11-15 | 中国人民解放军战略支援部队信息工程大学 | 基于知识图谱的人物实体对齐方法及装置 |
Non-Patent Citations (1)
Title |
---|
李红亮 ; 杨燕 ; 尹红风 ; 贾真 ; .基于规则的百科人物属性抽取.集成技术.2013,(03),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111428503A (zh) | 2020-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111428503B (zh) | 同名人物的识别处理方法及处理装置 | |
US20200184152A1 (en) | Automatic Semantic Rating and Abstraction of Literature | |
CN110263248B (zh) | 一种信息推送方法、装置、存储介质和服务器 | |
US20190370274A1 (en) | Analysis Method Using Graph Theory, Analysis Program, and Analysis System | |
CN112084381A (zh) | 一种事件抽取方法、***、存储介质以及设备 | |
CN110297880B (zh) | 语料产品的推荐方法、装置、设备及存储介质 | |
JP4997892B2 (ja) | 検索システム、検索方法及び検索プログラム | |
CN113627797B (zh) | 入职员工画像生成方法、装置、计算机设备及存储介质 | |
CN112948575B (zh) | 文本数据处理方法、装置和计算机可读存储介质 | |
CN111553151A (zh) | 一种基于字段相似度计算的问题推荐方法、装置和服务器 | |
CN111209411A (zh) | 一种文档分析的方法及装置 | |
CN111259160A (zh) | 知识图谱构建方法、装置、设备及存储介质 | |
CN106897437B (zh) | 一种知识***的高阶规则多分类方法及其*** | |
CN112347223A (zh) | 文档检索方法、设备及计算机可读存储介质 | |
CN112035757A (zh) | 医疗瀑布流推送方法、装置、设备及存储介质 | |
CN108228587A (zh) | 群体识别方法及群体识别装置 | |
CN114153995B (zh) | 医学术语的处理方法、装置、计算机设备和存储介质 | |
KR102185733B1 (ko) | 프로필 자동생성서버 및 방법 | |
JP6621514B1 (ja) | 要約作成装置、要約作成方法、及びプログラム | |
CN114528413A (zh) | 众包标注支持的知识图谱更新方法、***和可读存储介质 | |
CN107908749B (zh) | 一种基于搜索引擎的人物检索***及方法 | |
CN116882414B (zh) | 基于大规模语言模型的评语自动生成方法及相关装置 | |
CN117420998A (zh) | 一种客户端ui交互组件生成方法、装置、终端及介质 | |
CN116402166B (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
CN115210705A (zh) | 具有无效值或等效值的关系表的向量嵌入模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |