CN110929038B - 基于知识图谱的实体链接方法、装置、设备和存储介质 - Google Patents
基于知识图谱的实体链接方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN110929038B CN110929038B CN201910992304.3A CN201910992304A CN110929038B CN 110929038 B CN110929038 B CN 110929038B CN 201910992304 A CN201910992304 A CN 201910992304A CN 110929038 B CN110929038 B CN 110929038B
- Authority
- CN
- China
- Prior art keywords
- entity
- word segmentation
- entities
- legal
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000011218 segmentation Effects 0.000 claims abstract description 77
- 238000013507 mapping Methods 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 16
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 5
- 241000220225 Malus Species 0.000 description 60
- 235000013399 edible fruits Nutrition 0.000 description 10
- 238000013461 design Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 235000004789 Rosa xanthina Nutrition 0.000 description 3
- 241000220222 Rosaceae Species 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及大数据技术领域,尤其涉及一种基于知识图谱的实体链接方法、装置、设备和存储介质。该方法包括:对法律文本进行分词,得到分词结果,查找是否存在与分词结果相同的实体指代,若存在,则将实体指代放入实体指代集合中,将实体放入候选实体集合中;分别计算关联分数和相关分数,将关联分数与对应的各相关分数进行相加,得到目标函数;在实体指代集合中,以目标函数值最大的实体指代确定为最终的实体指代,将最终的实体指代链接到法律知识图谱中对应的实体中。本发明通过计算实体指代的关联分数和候选实体间的相关分数,确定最终的实体指代,并将实体指代进行链接,避免法律文本中存在着同义词、一词多义现象。
Description
技术领域
本发明涉及大数据技术领域,尤其涉及一种基于知识图谱的实体链接方法、装置、设备和存储介质。
背景技术
知识图谱将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱给互联网语义搜索带来了活力,同时也在智能问答、大数据分析与决策中显示出强大威力,已经成为互联网基于知识的智能服务的基础设施。知识图谱与大数据和深度学习一起,成为推动人工智能发展的核心驱动力之一。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”,知识图谱是关系的最有效的表示方式。
构建法律知识图谱对整合法律知识、挖掘法律热点、对法律事件预测、构建法律领域专家***等将起到重要作用。由于法律的知识体系非常复杂,是多种逻辑的结合。法律文书中存在这大量的实体,如原告、被告、争议焦点、事实要素、法律发条等,这些实体对于案件信息抽取、法律信息检索等环节非常重要,但中文语言中普遍存在着同义词、一词多义现象,因此如何利用合适的自然语言处理技术将法律文书中的实体找出,并链接到法律知识图谱中正确的实体上变得尤为重要。
发明内容
有鉴于此,有必要针对复杂的法律文书中的实体如何正确的链接到法律知识图谱中的问题,提供一种基于知识图谱的实体链接方法、装置、设备和存储介质。
一种基于知识图谱的实体链接方法,包括:
获取法律文本,对所述法律文本进行分词,得到分词结果,在预设的映射表中查找是否存在与所述分词结果相同的实体指代,若存在,则将与所述分词结果相同的实体指代放入实体指代集合中,将与所述分词结果相同的实体指代对应的实体放入候选实体集合中,所述实体指代是指实体的代称,一个所述实体指代对应有多个实体;
计算所述实体指代集合中各实体指代与对应的候选实体之间的关联分数,计算各实体指代对应的所有候选实体中任意两个候选实体的相关分数,将所述关联分数与对应的各相关分数进行相加,得到多个目标函数;
在所述实体指代集合中,以所述目标函数值最大的实体指代确定为最终的实体指代,将最终的实体指代链接到法律知识图谱中对应的实体中。
一种可能的设计中,所述获取法律文本,对所述法律文本进行分词,得到分词结果,包括:
对获取的所述法律文本进行分词,得到的多个词语为分词结果,在进行分词时最小分词滑窗为预设的最小分词阈值,最大分词滑窗为所述法律文本长度。
一种可能的设计中,所述映射表为预设的法律知识图谱中实体指代与实体之间的映射关系表,包括:
通过预设的爬虫脚本获取预设网站中的法律裁判文书;
对每篇所述法律裁判文书的内容进行解构,得到节点内容,所述节点内容包括但不限于原告、被告、争议焦点和证据;
将所述节点内容构建实体和属性之间的关系,得到法律知识图谱;
将所述法律知识图谱中的各实体与预设的映射关系表中的所述实体指代建立映射关系,得到更新后的映射关系表。
一种可能的设计中,所述计算所述实体指代集合中各实体指代与对应的候选实体之间的关联分数,包括:
所述关联分数由上下文无关分数与上下文相关分数相乘得到;
所述上下文无关分数sim(m,e)采用如下计算公式得到:
其中,m为实体指代,e为实体指代对应的候选实体集合中的其中一个候选实体,|m|和|e|分别表示m和e的字符串长度,ed(m,e)为距离公式,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数,ws是预设的系数;
将所述实体指代的上下文与候选实体的属性进行向量化,通过计算两个向量的距离确定所述上下文相关分数。
一种可能的设计中,所述通过计算两个向量的距离确定所述上下文相关分数,包括:
通过计算两个向量的余弦距离得到所述上下文相关分数,所述余弦距离的计算公式为:
其中,表示两个向量,/>表示向量模长。
一种可能的设计中,所述计算各实体指代对应的所有候选实体中任意两个候选实体的相关分数,包括:
两个所述候选实体之间的相关分数sim(e1,e2)的计算公式为:
其中,e1、e2表示两个所述候选实体,E1表示与e1直接连接的实体集合,E2表示与e2直接连接的实体集合,|E1|表示E1中实体的数量,|E2|表示E2中实体的数量,E1∩E2表示两个集合的交集,|E|表示法律知识图谱中全部实体的数量。
一种可能的设计中,所述将所述关联分数与对应的各相关分数进行相加,得到多个目标函数,包括:
所述目标函数的计算公式为:
其中,φ(mi,ei)为所述关联分数,coh(ei,ej)为两个所述候选实体之间的相关分数。
一种基于知识图谱的实体链接装置,包括:
分词及查找模块,用于获取法律文本,对所述法律文本进行分词,得到分词结果,在预设的映射表中查找是否存在与所述分词结果相同的实体指代,若存在,则将与所述分词结果相同的实体指代放入实体指代集合中,将与所述分词结果相同的实体指代对应的实体放入候选实体集合中,所述实体指代是指实体的代称,一个所述实体指代对应有多个实体;
计算模块,用于计算所述实体指代集合中各实体指代与对应的候选实体之间的关联分数,计算各实体指代对应的所有候选实体中任意两个候选实体的相关分数,将所述关联分数与对应的各相关分数进行相加,得到多个目标函数;
确定及链接模块,用于在所述实体指代集合中,以所述目标函数值最大的实体指代确定为最终的实体指代,将最终的实体指代链接到法律知识图谱中对应的实体中。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述基于知识图谱的实体链接方法的步骤。
一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述基于知识图谱的实体链接方法的步骤。
上述基于知识图谱的实体链接方法、装置、设备和存储介质,包括获取法律文本,对所述法律文本进行分词,得到分词结果,在预设的映射表中查找是否存在与所述分词结果相同的实体指代,若存在,则将与所述分词结果相同的实体指代放入实体指代集合中,将与所述分词结果相同的实体指代对应的实体放入候选实体集合中;计算所述实体指代集合中各实体指代与对应的候选实体之间的关联分数,计算各实体指代对应的所有候选实体中任意两个候选实体的相关分数,将所述关联分数与对应的各相关分数进行相加,得到多个目标函数;在所述实体指代集合中,以所述目标函数值最大的实体指代确定为最终的实体指代,将最终的实体指代链接到法律知识图谱中对应的实体中。本发明通过计算实体指代的关联分数和候选实体间的相关分数,确定最终的实体指代,并将实体指代进行链接,避免法律文本中存在着同义词、一词多义现象。在将实体指代链接至法律知识图谱后,实体链接能够帮助机器真正理解自由文本中法务实体的语义信息,帮助机器有效进行后续类案检索、证据指引和智能问答等任务。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。
图1为本发明一个实施例中的基于知识图谱的实体链接方法的流程图;
图2为本发明一个实施例中步骤S1的流程图;
图3为本发明一个实施例中基于知识图谱的实体链接装置的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
图1为本发明一个实施例中的基于知识图谱的实体链接方法的流程图,如图1所示,一种基于知识图谱的实体链接方法,包括以下步骤:
步骤S1,分词及查找:获取法律文本,对法律文本进行分词,得到分词结果,在预设的映射表中查找是否存在与分词结果相同的实体指代,若存在,则将与分词结果相同的实体指代放入实体指代集合中,将与分词结果相同的实体指代对应的实体放入候选实体集合中,实体指代是指实体的代称,一个实体指代对应有多个实体。
由于日常书面文本当中可能会采用简称或者代称来表示一些特定名词,例如,用“苹果”或“苹果公司”等词来指代“苹果公司”这一特定名词,这些如“苹果”或“苹果公司”等简称或代称即为实体指代,一些特定名词即为实体,根据词语之间的对应关系,实体指代与实体之间得到一张预设的映射表。
本步骤中的法律文本是用户输入的一句话或一段文字,根据输入的法律文本来进行实体指代识别。本步骤在进行实体指代识别时,首先对法律文本进行分词,将一句话或一段文字切分成多个词语,将词语与映射表进行比较,得到实体指代及实体指代对应的实体,并读查找后得到的实体指代及对应的实体进行分类放入实体指代集合和候选实体集合中。
其中,实体指代代集合记作:M={m1,m2,…,mN},m指在映射表中存在分词结果的实体指代。候选实体集合记作:Ei={ei1,ei2,…,eik}(i=1,2,…,N),e指在映射表中实体指代对应的实体。
在一个实施例中,步骤S1中,获取法律文本,对法律文本进行分词,得到分词结果,包括:
对获取的法律文本进行分词,得到的多个词语为分词结果,在进行分词时最小分词滑窗为预设的最小分词阈值,最大分词滑窗为法律文本长度。
例如,输入的法律文本内容为“苹果公司卖的是苹果嘛”,预设的最小分词阈值为2,最大分词滑窗为10,则可以得到:划窗大小为2时的分词结果为“苹果”、“果公”、“公司”、“司卖”、“卖的”、“的是”、“是苹”、“苹果”、“果嘛”,划窗大小为3时得到的分词结果为“苹果公”、“果公司”、“公司卖”、“司卖的”、“卖的是”、“的是苹”、“是苹果”、“苹果嘛”,直至划窗大小为10时得到的分词结果为“苹果公司卖的是苹果嘛”。“苹果”、“果公”、“公司”、“司卖”、“卖的”、“的是”、“是苹”、“苹果”、“果嘛”、“苹果公”、“果公司”、“公司卖”、“司卖的”、“卖的是”、“的是苹”、“是苹果”、“苹果嘛”…“苹果公司卖的是苹果嘛”均为本通过本实施方式得到的分词结果。
将上述分词结果中的每个词语在映射表中进行查询,是否存在相同的实体指代,当映射表中存在“苹果”和“苹果公司”两个实体指代,则实体指代集合为“苹果”和“苹果公司”,在映射表中查找实体指代对应的实体,能够得到“苹果”对应的实体有“苹果(蔷薇科苹果属果实)”、“苹果(苹果产品公司)”、“苹果(韩国2008年康理贯执导电影)”等,这些实体的集合即为候选实体集合。对于实体指代“苹果公司”同样有对应的候选实体集合。此时,M=[“苹果”,“苹果公司”],E1=[“苹果(蔷薇科苹果属果实)”,“苹果(苹果产品公司)”,“苹果(韩国2008年康理贯执导电影)”,…]
本实施例的最小分词阈值取值范围为大于等于2,小于等于法律文本长度。通过上述方式对获取的法律文本进行分词,可以将所有可能的词语都得到划分,避免词语的遗漏。
在一个实施例中,步骤S1中,映射表为预设的法律知识图谱中实体指代与实体之间的映射关系表,如图2所示,包括:
步骤S101,爬取数据:通过预设的爬虫脚本获取预设网站中的法律裁判文书。
本步骤通过爬虫技术对网络中公开的各个网站内关于法律方面的法律裁判文书进行爬取。具体爬取方式如下:
预设网址列表,网址列表中包含多个法律裁判文书内容的网址;调用浏览器内核依次对网址列表中的网址发出网页访问请求,并等待接收网页访问请求的网站发出的反馈信息,反馈信息包括接收访问的反馈信息和拒绝接收访问的反馈信息;当接收到接收访问的反馈信息时,调用预设在数据库中的网络爬虫算法,采集法律裁判文书内容,然后继续调用浏览器内核访问网址列表中的其他网址,直到遍历网址列表中的所有网址;当接收到拒绝接收访问的反馈信息后,继续调用浏览器内核访问网址列表中的其他网址,直到遍历网址列表中的所有网址;汇总网络爬虫算法采集到的法律裁判文书。
步骤S102,解构数据:对每篇法律裁判文书的内容进行解构,得到节点内容,节点内容包括但不限于原告、被告、争议焦点和证据。
由于法律裁判文书的格式基本固定,因此本步骤在解构时,可以采用正则表达式、json表达式或grok表达式等解析方式对法律裁判文书内容进行解构。
其中,实体指代指在解构法律裁判文书内容时同一实体可能有多种表达方式,即一个实体含有多个可能的中文含义,在确定节点内容时,将其中一个节点内容定义为实体,将其他相同含义的其他实体定义为实体指代,将实体指代和实体填入映射表中,得到实体指代与实体之间的映射表。例如得到的节点内容有“苹果”、“苹果公司”等,则用“苹果”或“苹果公司”来指代“苹果公司”这一特定名词,则前者即为实体指代,后者即为实体。
步骤S103,构建图谱:将节点内容构建实体和属性之间的关系,得到法律知识图谱。
实体如原告、被告、争议焦点等,关系如提出、请求成立等。
步骤S104,建立映射关系:将法律知识图谱中的各实体与预设的映射关系表中的实体指代建立映射关系,得到更新后的映射关系表。
在建立法律知识图谱之前,可以预先设置一张实体指代与实体之间的初始映射表,当法律知识图谱构建完成后,将法律知识图谱中的所有实体,都与初始映射表中的实体指代建立映射关系,得到更新后的映射关系表。例如,法律知识图谱中的实体包含“苹果公司”,初始映射表中包含有“苹果”或“苹果公司”等实体指代,则将这些实体指代与法律知识图谱中的实体“苹果公司”建立映射关系,以便于后续根据更新后的映射关系表确定候选实体集合。
本实施例通过网络爬虫技术得到用于构建法律知识图谱的数据,通过解构数据,构建图谱的过程,最终得到法律知识图谱,此法律知识图谱作为实体指代识别的基础,确定出最终的实体指代。
步骤S2,计算目标函数:计算实体指代集合中各实体指代与对应的候选实体之间的关联分数,计算各实体指代对应的所有候选实体中任意两个候选实体的相关分数,将关联分数分别与对应的各相关分数进行相加,得到多个目标函数。
通过步骤1)得到的实体指代和候选实体较多,其中大部分候选实体并不是最终确定的实体,因此本步骤通过对关联分数的计算,来实现候选实体的消歧任务。在候选实体集合中,任一实体指代对应可能有多个候选实体,在多个候选实体中,对任一两个候选实体之间计算相关分数,遍历实体指代对应的所有的候选实体,得到实体指代对应的多个相关分数,对此实体指代得到的关联分数,分别与所有的相关分数进行相加,得到多个目标函数。本步骤通过在目标函数中增加相关分数的计算,利用候选实体之间的相似性进行全局消歧。
在一个实施例中,步骤S2中,关联分数由上下文无关分数与上下文相关分数相乘得到。
1)上下文无关分数优选采用Levenshtein字符串编辑距离公式,即计算实体指代与候选实体文本编辑距离分数作为上下文无关分数。上下文无关分数sim(m,e)采用如下计算公式得到:
其中,m为实体指代,e为实体指代对应的候选实体集合中的其中一个候选实体,|m|和|e|分别表示m和e的字符串长度,ed(m,e)为Levenshtein距离公式,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数,ws是预设的系数。
上述Levenshtein距离公式,例如对于字符串kitten和sitting,第一步,kitten-->sitten将k替换成s;第二步,sitten-->sittin将e替换成i;第三步,sittin-->sitting添加g;每经过一次编辑,也就是变化(***,删除,替换)花费的代价都是1,因此ed(kitten,sitting)=3,上述举例为英文,对于中文采用相同的计算方式。
2)上下文相关分数是将实体指代的上下文与候选实体的属性进行向量化,通过计算两个向量的距离来确定。
其中,候选实体的属性是预设的法律知识图谱中的候选实体的相关属性信息。在向量化时,可以采用NLP自然语言处理***中现有的模型,如word2vec词向量化模型,word2vec是一个NLP工具,它可以将所有的词向量化,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系。本步骤利用word2vec的方法,采用直接调用的方式对实体指代的上下文与候选实体的属性分别进行向量化。
在通过计算两个向量的距离时,优选通过计算两个向量的余弦距离得到上下文相关分数,余弦距离的计算公式为:
其中,表示利用word2vec的方法得到的两个向量,/>表示向量模长。
本实施例通过上述Levenshtein距离公式及余弦距离公式等方式,来快速有效的实现候选实体的消歧任务。
在一个实施例中,步骤S2中,计算各实体指代对应的所有候选实体中任意两个候选实体的相关分数,包括:
两个候选实体之间的相关分数sim(e1,e2)的计算公式为:
其中,e1、e2表示两个候选实体,E1表示与e1直接连接的实体集合,E2表示与e2直接连接的实体集合,|E1|表示E1中实体的数量,|E2|表示E2中实体的数量,E1∩E2表示两个集合的交集,|E|表示法律知识图谱中全部实体的数量。
目标函数的计算公式为:
其中,φ(mi,ei)为关联分数,coh(ei,ej)为两个候选实体之间的相关分数。
本实施例通过上述计算公式,得到两个候选实体的相关分数,考虑到法律文本中可能存在多个实体指代,因此在目标函数中通过增加此相关分数的介入,利用候选实体之间的相似性,进行全局消歧。
步骤S3,确定及链接:在实体指代集合中,以目标函数值最大的实体指代确定为最终的实体指代,将最终的实体指代链接到法律知识图谱中对应的实体中。
在步骤2)计算出所有的目标函数后,最终的目标为目标函数最大化,最终得到为实体指代M={m1,m2,…,mN}集合对应的实体结果,实体结果为实体指代M集合与实体集合/>
例如,步骤1)中输入的法律文本内容为“苹果公司卖的是苹果嘛”,最终在本步骤中得到了实体指代“苹果公司”和“苹果”,实体指代“苹果公司”对应的实体为“苹果公司”,“苹果”对应的实体为“苹果(蔷薇科苹果属果实)”。
在得到最终的实体指代后,还将每个实体指代链接到法律知识图谱中对应的实体中,为后续法律案件检索、证据指引智能问答提供检索依据。
例如,将实体指代“苹果公司”链接到法律知识图谱中实体为“苹果公司”上,将实体指代“苹果”链接到法律知识图谱中实体为“苹果(蔷薇科苹果属果实)”上。
本实施例基于知识图谱的实体链接方法,采用分词计算对法律文本进行分词,可将所有可能的词语都得到划分,避免划分词语的遗漏问题。在得到的分词结果量较大的情况下,将分词结果与预设的映射表进行比较查询,去除无关词语,快速高效的筛选出关键词语并加入实体指代集合和对应的候选实体集合,为后续确定正确的实体指代给出数据支持。本发明还通过关联分数的计算,实现多个候选实体的消歧任务。考虑到输入的法律文本中可能存在多个实体指代,因此在目标函数中增加相关分数的计算,利用候选实体之间的相似性进一步实现全局消歧,最终得到确定的实体指代,并将实体指代进行链接,避免法律文本中存在着同义词、一词多义现象。
在一个实施例中,提出了一种基于知识图谱的实体链接装置,如图3所示,包括:
分词及查找模块,用于获取法律文本,对法律文本进行分词,得到分词结果,在预设的映射表中查找是否存在与分词结果相同的实体指代,若存在,则将与分词结果相同的实体指代放入实体指代集合中,将与分词结果相同的实体指代对应的实体放入候选实体集合中,实体指代是指实体的代称,一个实体指代对应有多个实体;
计算模块,用于对实体指代集合中每个实体指代计算实体指代与对应的候选实体之间的关联分数,计算各实体指代对应的所有候选实体中任意两个候选实体的相关分数,将关联分数分别与对应的各相关分数进行相加,得到多个目标函数;
确定及链接模块,用于在实体指代集合中,以目标函数值最大的实体指代确定为最终的实体指代,将最终的实体指代链接到法律知识图谱中对应的实体中。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行计算机可读指令时实现上述各实施例的基于知识图谱的实体链接方法中的步骤。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述各实施例的基于知识图谱的实体链接方法中的步骤。其中,存储介质可以为非易失性存储介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明一些示例性实施例,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (7)
1.一种基于知识图谱的实体链接方法,其特征在于,包括:
获取法律文本,对所述法律文本进行分词,得到分词结果,在预设的映射表中查找是否存在与所述分词结果相同的实体指代,若存在,则将与所述分词结果相同的实体指代放入实体指代集合中,将与所述分词结果相同的实体指代对应的实体放入候选实体集合中,所述实体指代是指实体的代称,一个所述实体指代对应有多个实体;
计算所述实体指代集合中各实体指代与对应的候选实体之间的关联分数,计算各实体指代对应的所有候选实体中任意两个候选实体的相关分数,将所述关联分数分别与对应的各相关分数进行相加,得到多个目标函数;
在所述实体指代集合中,以所述目标函数值最大的实体指代确定为最终的实体指代,将最终的实体指代链接到法律知识图谱中对应的实体中;
所述计算所述实体指代集合中各实体指代与对应的候选实体之间的关联分数,包括:
所述关联分数由上下文无关分数与上下文相关分数相乘得到;
所述上下文无关分数sim(m,e)采用如下计算公式得到:
其中,m为实体指代,e为实体指代对应的候选实体集合中的其中一个候选实体,|m|和|e|分别表示m和e的字符串长度,ed(m,e)为距离公式,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数,ws是预设的系数;
将所述实体指代的上下文与候选实体的属性进行向量化,通过计算两个向量的距离确定所述上下文相关分数;
所述计算各实体指代对应的所有候选实体中任意两个候选实体的相关分数,包括:
两个所述候选实体之间的相关分数sim(e1,e2)的计算公式为:
其中,e1、e2表示两个所述候选实体,E1表示与e1直接连接的实体集合,E2表示与e2直接连接的实体集合,|E1|表示E1中实体的数量,|E2|表示E2中实体的数量,E1∩E2表示两个集合的交集,|E|表示法律知识图谱中全部实体的数量;
所述将所述关联分数与对应的各相关分数进行相加,得到多个目标函数,包括:
所述目标函数的计算公式为:
其中,φ(mi,ei)为所述关联分数,coh(ei,ej)为两个所述候选实体之间的相关分数。
2.根据权利要求1所述的基于知识图谱的实体链接方法,其特征在于,所述获取法律文本,对所述法律文本进行分词,得到分词结果,包括:
对获取的所述法律文本进行分词,得到的多个词语为分词结果,在进行分词时最小分词滑窗为预设的最小分词阈值,最大分词滑窗为所述法律文本长度。
3.根据权利要求1所述的基于知识图谱的实体链接方法,其特征在于,所述映射表为预设的法律知识图谱中实体指代与实体之间的映射关系表,包括:
通过预设的爬虫脚本获取预设网站中的法律裁判文书;
对每篇所述法律裁判文书的内容进行解构,得到节点内容,所述节点内容包括但不限于原告、被告、争议焦点和证据;
将所述节点内容构建实体和属性之间的关系,得到法律知识图谱;
将所述法律知识图谱中的各实体与预设的映射关系表中的所述实体指代建立映射关系,得到更新后的映射关系表。
4.根据权利要求1所述的基于知识图谱的实体链接方法,其特征在于,所述通过计算两个向量的距离确定所述上下文相关分数,包括:
通过计算两个向量的余弦距离得到所述上下文相关分数,所述余弦距离的计算公式为:
其中,表示两个向量,/>表示向量模长。
5.一种基于知识图谱的实体链接装置,其特征在于,包括:
分词及查找模块,用于获取法律文本,对所述法律文本进行分词,得到分词结果,在预设的映射表中查找是否存在与所述分词结果相同的实体指代,若存在,则将与所述分词结果相同的实体指代放入实体指代集合中,将与所述分词结果相同的实体指代对应的实体放入候选实体集合中,所述实体指代是指实体的代称,一个所述实体指代对应有多个实体;
计算模块,用于计算所述实体指代集合中各实体指代与对应的候选实体之间的关联分数,计算各实体指代对应的所有候选实体中任意两个候选实体的相关分数,将所述关联分数分别与对应的各相关分数进行相加,得到多个目标函数;
确定及链接模块,用于在所述实体指代集合中,以所述目标函数值最大的实体指代确定为最终的实体指代,将最终的实体指代链接到法律知识图谱中对应的实体中;
所述计算模块,具体用于所述关联分数由上下文无关分数与上下文相关分数相乘得到;
所述上下文无关分数sim(m,e)采用如下计算公式得到:
其中,m为实体指代,e为实体指代对应的候选实体集合中的其中一个候选实体,|m|和|e|分别表示m和e的字符串长度,ed(m,e)为距离公式,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数,ws是预设的系数;
将所述实体指代的上下文与候选实体的属性进行向量化,通过计算两个向量的距离确定所述上下文相关分数;
两个所述候选实体之间的相关分数sim(e1,e2)的计算公式为:
其中,e1、e2表示两个所述候选实体,E1表示与e1直接连接的实体集合,E2表示与e2直接连接的实体集合,|E1|表示E1中实体的数量,|E2|表示E2中实体的数量,E1∩E2表示两个集合的交集,|E|表示法律知识图谱中全部实体的数量;
所述目标函数的计算公式为:
其中,φ(mi,ei)为所述关联分数,coh(ei,ej)为两个所述候选实体之间的相关分数。
6.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至4中任一项权利要求所述基于知识图谱的实体链接方法的步骤。
7.一种存储有计算机可读指令的存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至4中任一项权利要求所述基于知识图谱的实体链接方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910992304.3A CN110929038B (zh) | 2019-10-18 | 2019-10-18 | 基于知识图谱的实体链接方法、装置、设备和存储介质 |
PCT/CN2020/111240 WO2021073254A1 (zh) | 2019-10-18 | 2020-08-26 | 基于知识图谱的实体链接方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910992304.3A CN110929038B (zh) | 2019-10-18 | 2019-10-18 | 基于知识图谱的实体链接方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110929038A CN110929038A (zh) | 2020-03-27 |
CN110929038B true CN110929038B (zh) | 2023-07-21 |
Family
ID=69849193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910992304.3A Active CN110929038B (zh) | 2019-10-18 | 2019-10-18 | 基于知识图谱的实体链接方法、装置、设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110929038B (zh) |
WO (1) | WO2021073254A1 (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929038B (zh) * | 2019-10-18 | 2023-07-21 | 平安科技(深圳)有限公司 | 基于知识图谱的实体链接方法、装置、设备和存储介质 |
CN111858903A (zh) * | 2020-06-11 | 2020-10-30 | 创新工场(北京)企业管理股份有限公司 | 一种用于负面新闻预警的方法和装置 |
CN111814477B (zh) * | 2020-07-06 | 2022-06-21 | 重庆邮电大学 | 一种基于争议焦点实体的争议焦点发现方法、装置及终端 |
CN112231575B (zh) * | 2020-10-30 | 2022-05-10 | 衢州量智科技有限公司 | 面向复杂机电产品设计过程的知识推荐方法与*** |
CN112380865A (zh) * | 2020-11-10 | 2021-02-19 | 北京小米松果电子有限公司 | 识别文本中的实体方法、装置及存储介质 |
CN113220835B (zh) * | 2021-05-08 | 2023-09-29 | 北京百度网讯科技有限公司 | 文本信息处理方法、装置、电子设备以及存储介质 |
CN113326697A (zh) * | 2021-05-31 | 2021-08-31 | 云南电网有限责任公司电力科学研究院 | 一种基于知识图谱的电力文本实体语义理解方法 |
CN113360605B (zh) * | 2021-06-23 | 2024-02-23 | 中国科学技术大学 | 基于主题实体语境迭代优化的全局实体链接方法 |
CN115599903B (zh) * | 2021-07-07 | 2024-06-04 | 腾讯科技(深圳)有限公司 | 对象标签获取方法、装置、电子设备及存储介质 |
CN114741627B (zh) * | 2022-04-12 | 2023-03-24 | 中国人民解放军32802部队 | 面向互联网的辅助信息搜索方法 |
CN115269879B (zh) * | 2022-09-05 | 2023-05-05 | 北京百度网讯科技有限公司 | 知识结构数据的生成方法、数据搜索方法和风险告警方法 |
CN115809311A (zh) * | 2022-12-22 | 2023-03-17 | 企查查科技有限公司 | 知识图谱的数据处理方法、装置及计算机设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105224648A (zh) * | 2015-09-29 | 2016-01-06 | 浪潮(北京)电子信息产业有限公司 | 一种实体链接方法与*** |
CN109255031A (zh) * | 2018-09-20 | 2019-01-22 | 苏州友教习亦教育科技有限公司 | 基于知识图谱的数据处理方法 |
CN109635114A (zh) * | 2018-12-17 | 2019-04-16 | 北京百度网讯科技有限公司 | 用于处理信息的方法和装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050198026A1 (en) * | 2004-02-03 | 2005-09-08 | Dehlinger Peter J. | Code, system, and method for generating concepts |
CN103488724B (zh) * | 2013-09-16 | 2016-09-28 | 复旦大学 | 一种面向图书的阅读领域知识图谱构建方法 |
CN106844413B (zh) * | 2016-11-11 | 2020-12-08 | 南京柯基数据科技有限公司 | 实体关系抽取的方法及装置 |
CN106886516A (zh) * | 2017-02-27 | 2017-06-23 | 竹间智能科技(上海)有限公司 | 自动识别语句关系和实体的方法及装置 |
CN110929038B (zh) * | 2019-10-18 | 2023-07-21 | 平安科技(深圳)有限公司 | 基于知识图谱的实体链接方法、装置、设备和存储介质 |
-
2019
- 2019-10-18 CN CN201910992304.3A patent/CN110929038B/zh active Active
-
2020
- 2020-08-26 WO PCT/CN2020/111240 patent/WO2021073254A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105224648A (zh) * | 2015-09-29 | 2016-01-06 | 浪潮(北京)电子信息产业有限公司 | 一种实体链接方法与*** |
CN109255031A (zh) * | 2018-09-20 | 2019-01-22 | 苏州友教习亦教育科技有限公司 | 基于知识图谱的数据处理方法 |
CN109635114A (zh) * | 2018-12-17 | 2019-04-16 | 北京百度网讯科技有限公司 | 用于处理信息的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110929038A (zh) | 2020-03-27 |
WO2021073254A1 (zh) | 2021-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110929038B (zh) | 基于知识图谱的实体链接方法、装置、设备和存储介质 | |
CN113011533B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
US10740678B2 (en) | Concept hierarchies | |
CN105279252B (zh) | 挖掘相关词的方法、搜索方法、搜索*** | |
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
CN106874441B (zh) | 智能问答方法和装置 | |
CN108319627B (zh) | 关键词提取方法以及关键词提取装置 | |
CN101814067B (zh) | 对自然语言内容中的信息含量进行定量估算的***和方法 | |
CN112667794A (zh) | 一种基于孪生网络bert模型的智能问答匹配方法及*** | |
CN111444320A (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
CN111753167B (zh) | 搜索处理方法、装置、计算机设备和介质 | |
CN109325201A (zh) | 实体关系数据的生成方法、装置、设备及存储介质 | |
CN113392651B (zh) | 训练词权重模型及提取核心词的方法、装置、设备和介质 | |
CN111190997A (zh) | 一种使用神经网络和机器学习排序算法的问答***实现方法 | |
CN112559684A (zh) | 一种关键词提取及信息检索方法 | |
KR102059743B1 (ko) | 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템 | |
CN112307182B (zh) | 一种基于问答***的伪相关反馈的扩展查询方法 | |
US11461613B2 (en) | Method and apparatus for multi-document question answering | |
AU2018226420B2 (en) | Voice assisted intelligent searching in mobile documents | |
CN112883182A (zh) | 一种基于机器阅读的问答匹配方法及装置 | |
CN112015907A (zh) | 一种学科知识图谱快速构建方法、装置及存储介质 | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN111274494B (zh) | 结合深度学习和协同过滤技术的复合标签推荐方法 | |
CN117076636A (zh) | 一种智能客服的信息查询方法、***和设备 | |
CN111259180A (zh) | 图像推送方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |