CN116484010A - 知识图谱构建方法、装置、存储介质及电子装置 - Google Patents
知识图谱构建方法、装置、存储介质及电子装置 Download PDFInfo
- Publication number
- CN116484010A CN116484010A CN202310247469.4A CN202310247469A CN116484010A CN 116484010 A CN116484010 A CN 116484010A CN 202310247469 A CN202310247469 A CN 202310247469A CN 116484010 A CN116484010 A CN 116484010A
- Authority
- CN
- China
- Prior art keywords
- referee
- training
- document
- entity
- gist
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 59
- 238000012549 training Methods 0.000 claims abstract description 123
- 239000013598 vector Substances 0.000 claims description 42
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000000034 method Methods 0.000 abstract description 61
- 230000008569 process Effects 0.000 abstract description 27
- 238000000605 extraction Methods 0.000 description 18
- 238000002372 labelling Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 3
- 230000008707 rearrangement Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005498 polishing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Tourism & Hospitality (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种用于生成裁判要旨的知识图谱构建方法、装置、存储介质及电子装置。该方法包括:接收训练裁判文书和目标裁判文书;使用所述训练裁判文书训练获取知识图谱构建模型;将所述目标裁判文书输入所述知识图谱构建模型,以抽取所述目标裁判文书的实体和实体间关系,并基于所述实体和实体间关系构建裁判推理知识图谱。运用司法三段论的结构对法院推理过程图谱化,也就能够对事实认定理由进行约束以有效过滤无用裁判要旨,实现提升裁判要旨的可参考价值。本申请解决了由于未考虑裁判推理过程,也就不能对事实认定理由进行约束以有效过滤无用裁判要旨造成的最终生成的裁判要旨参考价值不高的技术问题。
Description
技术领域
本申请涉及法律文书处理领域,具体而言,涉及一种用于生成裁判要旨的知识图谱构建方法、装置、存储介质及电子装置。
背景技术
截止目前,中国裁判文书网裁判文书的数量超过一亿三千万件,并以每天超过万件的速度飞速增长。同时,由于裁判文书的逻辑复杂性,充分理解一篇裁判文书往往需要花费数十分钟甚至数小时的时间。因此,如何辅助法律从业人员在海量的裁判文书数据中快速获取知识受到了国内外专家学者的广泛关注。其中,裁判要旨作为裁判文书关键信息的简短描述,能够辅助法律从业人员快速了解文书关键信息,成为了开发人员理解程序的重要手段和便捷工具。因此,本发明尝试提出一种基于裁判推理知识图谱的民事判决书裁判要旨生成方法,以降低法律从业人员阅读裁判文书的时间成本。
民事判决书裁判要旨生成方法可以看做是特定领域的文本摘要生成任务,其目标在于保证裁判文书关键信息不丢失的同时,准确简洁的生成裁判要旨。文本摘要相关技术主要可以分为抽取方法和抽象方法。抽取摘要方法从原始文本中识别并连接相关词,而抽象方法尝试以简洁的方式表达主要内容,可能使用原始文本中没有的词语。早期研究探索了各种方法包括手动设计的规则,语法树修剪和统计信息机器翻译技术。
在裁判要旨生成的应用场景下,需要基于某种特定格式对原文进行摘要撰写,这不仅简化了对摘要生成的要求,也能提高生成摘要的质量。目前对基于模板的文本自动摘要主要分为两种:一种是基于硬模板的自动摘要技术,其基于固定的框架,类似填空或编辑方式进行摘要生成,模板作为生成摘要的主体。而基于软模板的自动摘要技术,则从相关知识库中通过检索的方式,选取与输入原文相近的其他原文,并利用该原文对应的摘要作为软模板,以辅助自动摘要生成,在这个过程中,软模板不作为生成文本的主体。相较于硬模板方法而言,软模板方法生成的摘要更为灵活、不局限于模板的限制,同时拥有更高的可读性和更好的关键要点提取功能。
Cao等人最先尝试使用软模板辅助摘要生成,其受传统的基于硬模板的摘要模型启发,尝试将已经存在的摘要作为“软模板”来指导摘要生成。通过检索、重排、重写三个步骤,实现基于软模板的抽象式摘要模型。由于软模板自身便已经能取得一定的评分,使得基于软模板的摘要更具稳定性和可读性。Wang等人在Cao的基础上优化了对模板的使用方法,其首先通过一个快速重排方法,加速选择最佳模板的过程,从而优化整体训练和推断速度。最终通过一个双向的选择层,对模板中关键信息进行提取,以更好的辅助摘要生成。Gao等人认为现有的基于模板的摘要模型均针对短数据集,在长数据集上不适用,同时现有的方法容易从模板中拷贝非模板化的词语,例如与模板具体相关的事实与实体。因此通过分离原型摘要和原型事实,并经过多次抛光精炼,指导最终摘要的形成。
但是,以上的技术并未考虑裁判推理过程,也就不能对事实认定理由进行约束以有效过滤无用裁判要旨,导致最终生成的裁判要旨参考价值不高。
针对相关技术中未考虑裁判推理过程,也就不能对事实认定理由进行约束以有效过滤无用裁判要旨造成的最终生成的裁判要旨参考价值不高的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种用于生成裁判要旨的知识图谱构建方法、装置、存储介质及电子装置,以解决未考虑裁判推理过程,也就不能对事实认定理由进行约束以有效过滤无用裁判要旨造成的最终生成的裁判要旨参考价值不高的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种用于生成裁判要旨的知识图谱构建方法。
根据本申请的用于生成裁判要旨的知识图谱构建方法包括:接收训练裁判文书和目标裁判文书;使用所述训练裁判文书训练获取知识图谱构建模型;将所述目标裁判文书输入所述知识图谱构建模型,以抽取所述目标裁判文书的实体和实体间关系,并基于所述实体和实体间关系构建裁判推理知识图谱。
进一步的,接收训练裁判文书和目标裁判文书之前还包括:
在开放数据库中采集并预处理得到裁判文书;
利用正则表达式的规则解析引擎,将每份裁判文书分为当事人信息、事实描述、法庭观点和判决结果;
筛除事实描述超过预设token阈值的裁判文书;
将筛除后得到的裁判文书分为训练用数据和目标裁判文书;
人工标注训练用数据,得到训练裁判文书。
进一步的,使用所述训练裁判文书训练获取知识图谱构建模型包括:
将训练裁判文书解析为字符序列作为输入,并通过一个字符向量矩阵转换成低维实值向量形式的序列;
使用大规模语言模型进行对序列进行编码,得到语义表示向量;
使用长短时记忆网络和条件随机场作为解码器,将每个字符对应的语义表示向量转化为对应的实体标签;
使用循环神经网络作为解码器,将头尾实体对应的字符转化为关系的概率矩阵。
进一步的,使用所述训练裁判文书训练获取知识图谱构建模型还包括:
采用对比损失函数,基于所述训练裁判文书训练获取知识图谱构建模型;
所述对比损失函数为:
其中,f(x)表示目标字符对应的语义表示向量,f(x+)表示正样本对应的语义表示向量,表示负样本对应的语义表示向量。
进一步的,将所述目标裁判文书输入所述知识图谱构建模型,以抽取所述目标裁判文书的实体和实体间关系,并基于所述实体和实体间关系构建裁判推理知识图谱之后还包括:
使用所述训练裁判文书训练获取裁判要旨生成模型;
将所述裁判推理知识图谱输入裁判要旨生成模型,生成裁判要旨。
进一步的,将所述裁判推理知识图谱输入裁判要旨生成模型,生成裁判要旨包括:
计算所述目标裁判文书和格式模板的文本相似度、语义相似度和结构相似度,并将文本相似度、语义相似度和结构相似度最高的三个格式模板作为候选模板;
对三个候选模板进行真实相似度和预测相似度计算并排序,并根据排序结果挑选一个作为使用的软模板;
根据所述裁判推理知识图谱和软模板,生成裁判要旨。
进一步的,对三个候选模板进行真实相似度和预测相似度计算并排序,并根据排序结果挑选一个作为使用的软模板包括计算真实相似度和预测相似度之间的交叉熵损失:
根据所述裁判推理知识图谱和软模板,生成裁判要旨包括最大化摘要预测概率的负对数似然估计:
为了实现上述目的,根据本申请的另一方面,提供了一种用于生成裁判要旨的知识图谱构建装置。
根据本申请的用于生成裁判要旨的知识图谱构建装置包括:接收模块,用于接收训练裁判文书和目标裁判文书;训练模块,用于使用所述训练裁判文书训练获取知识图谱构建模型;构建模块,用于将所述目标裁判文书输入所述知识图谱构建模型,以抽取所述目标裁判文书的实体和实体间关系,并基于所述实体和实体间关系构建裁判推理知识图谱。
为了实现上述目的,根据本申请的另一方面,提供了一种计算机可读存储介质。
根据本申请的计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述的用于生成裁判要旨的知识图谱构建方法。
为了实现上述目的,根据本申请的另一方面,提供了一种电子装置。
根据本申请的电子装置,包括:存储器和处理器,所述存储器中存储有计算机程序,其中,所述处理器被设置为运行所述计算机程序以执行所述的用于生成裁判要旨的知识图谱构建方法。
在本申请实施例中,采用构建知识图谱的方式,通过接收训练裁判文书和目标裁判文书;使用所述训练裁判文书训练获取知识图谱构建模型;将所述目标裁判文书输入所述知识图谱构建模型,以抽取所述目标裁判文书的实体和实体间关系,并基于所述实体和实体间关系构建裁判推理知识图谱;达到了运用司法三段论的结构对法院推理过程图谱化,也就能够对事实认定理由进行约束以有效过滤无用裁判要旨的目的,从而实现了提升裁判要旨的可参考价值的技术效果,进而解决了由于未考虑裁判推理过程,也就不能对事实认定理由进行约束以有效过滤无用裁判要旨造成的最终生成的裁判要旨参考价值不高的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的用于生成裁判要旨的知识图谱构建方法的流程示意图;
图2是根据本申请实施例的用于生成裁判要旨的知识图谱构建装置的结构示意图;
图3是根据本申请实施例的裁判推力知识图谱的示意图;
图4是根据本申请实施例的使用训练裁判文书训练的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本发明及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本发明中的具体含义。
此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
根据本发明实施例,提供了一种用于生成裁判要旨的知识图谱构建方法,如图1所示,该方法包括如下的步骤S101至步骤S103:
步骤S101、接收训练裁判文书和目标裁判文书;
训练裁判文书为标注过的数据,可用于训练获取知识图谱构建模型;目标裁判文书为未标注过的数据,可用于基于训练的模型构建相应的知识图谱。
根据本发明实施例,优选的,接收训练裁判文书和目标裁判文书之前还包括:
在开放数据库中采集并预处理得到裁判文书;
利用正则表达式的规则解析引擎,将每份裁判文书分为当事人信息、事实描述、法庭观点和判决结果;
筛除事实描述超过预设token阈值的裁判文书;
将筛除后得到的裁判文书分为训练用数据和目标裁判文书;
人工标注训练用数据,得到训练裁判文书。
从法院公开数据中采集海量的民事裁判文书,并对裁判推理知识图谱进行本体建模,然后,将其分为训练数据和目标数据(目标裁判文书),并对训练数据进行人工标注,得到训练用数据。由于下游任务主要是民事判决书,研究者从开放数据源中国裁判文书网(https://wenshu.court.gov.cn/)中使用python作为开发语言,根据需求编写自动化采集程序采集了数千万份民事判决书文件。采集到的数据经过去除无用字符等数据处理后保存到数据库。然后,用基于正则表达式的规则解析引擎将每份文件分为四个部分:当事人信息、事实描述、法庭观点和判决结果。基于研究需要,只保留事实描述超过50个token的文件。
采集完成后,对采集到的民事裁判文书进行分析,获取裁判推理知识图谱本体库。其中,裁判推理知识图谱包含原告、被告、法院、基本事实、事实认定、证据、证据采信以及法律法规八种本体,本体之间包含原告主张、被告辩称、法院认定事实、事实认定结论、事实认定理由、证明事项、证据采信结论、证据采信理由以及法律依据等九种关系,其中原告主张为原告和基本事实之间的关系;被告辩称为被告与基本事实之间的关系;法院认定事实为法院和基本事实之间的关系;事实认定结论为事实认定和基本事实之间的关系;事实认定理由为法院认定事实、证明事项、法律依据、法律法规以及阶段性事实认定与事实认定之间的关系;证明事项为证据和基本事实之间的关系;证据采信结论为证据与证据采信之间的关系,该关系类型为布尔型,可分为采信与不采信;证据采信理由为证据采信与基本事实之间的关系;法律依据为法律法规与基本事实以及法律法规与事实认定之间的关系。通过本体及本体之间的关系,可以有效表示法官的裁判推理过程,帮助模型更好的理解裁判文书。
采集到的裁判文书分为训练数据和目标数据,其中,训练数据用于模型训练,目标数据用于最终裁判要旨的生成。同时,针对训练数据进行人工标注,标注结果包括裁判文书包含的所有实体、关系以及最终的裁判要旨。
步骤S102、使用所述训练裁判文书训练获取知识图谱构建模型;
使用包含实体、关系以及最终的裁判要旨标注的训练裁判文书进行模型训练,最终可以得到一个生成不带标签的裁判文书所对应的知识图谱。能够帮助模型有效理解裁判文书的过于复杂的语义逻辑。
根据本发明实施例,如图4所示,优选的,使用所述训练裁判文书训练获取知识图谱构建模型包括:
将训练裁判文书解析为字符序列作为输入,并通过一个字符向量矩阵转换成低维实值向量形式的序列;
使用大规模语言模型进行对序列进行编码,得到语义表示向量;
使用长短时记忆网络和条件随机场作为解码器,将每个字符对应的语义表示向量转化为对应的实体标签;
使用循环神经网络作为解码器,将头尾实体对应的字符转化为关系的概率矩阵。
本发明利用共享神经网络底层表示的方式来进行实体关系联合抽取,从而获得裁判推理知识图谱所需的关键要素。具体来说,模型主要包含以下模块:
输入层:将裁判文书解析为字符序列作为输入,并通过一个字符向量矩阵转换成低维实值向量形式的序列。
编码层:使用大规模语言模型(如Bert)进行对序列进行编码,得到语义表示向量H,编码后的语义表示向量包含了字符的上下文语义,是实体关系抽取的主要依据。
实体抽取层:实体抽取层使用长短时记忆网络和条件随机场作为解码器,将每个字符对应的语义表示向量转化为对应的实体标签。其中,实体标签共形式为{O,B-实体,I-实体,E-实体},O表示普通文字,B-实体表示实体的开始字符,I-实体表示实体的中间字符,E-实体表示实体的结束字符。
关系抽取层:关系抽取层使用循环神经网络作为解码器,将头尾实体对应的字符转化为关系的概率矩阵,其中,概率最大的关系即为该头尾实体对应的关系。
根据本发明实施例,优选的,使用所述训练裁判文书训练获取知识图谱构建模型还包括:
采用对比损失函数,基于所述训练裁判文书训练获取知识图谱构建模型;
所述对比损失函数为:
其中,f(x)表示目标字符对应的语义表示向量,f(x+)表示正样本对应的语义表示向量,表示负样本对应的语义表示向量。
对比损失层:针对传统实体关系抽取方法存在的实体边界预测错误问题,本发明引入对比学习方法,在训练过程中,添加对比损失以使得模型能够充分学习到不同类型字符之间的差异性,提升实体抽取的性能。
针对裁判推理知识图谱的构建,提出了上述基于对比学习的裁判推理知识图谱构建抽取方法,使得模型能够充分理解案件的裁判推理逻辑。创新的重点是通过对比学习的引入,提升了模型的编码能力,从而提升裁判推理知识图谱的构建质量。
步骤S103、将所述目标裁判文书输入所述知识图谱构建模型,以抽取所述目标裁判文书的实体和实体间关系,并基于所述实体和实体间关系构建裁判推理知识图谱。
最终构建的知识图谱构建模型能够抽取目标裁判文书的实体和实体间关系,且基于实体和实体间关系构建如图3所示的裁判推理知识图谱;生成的裁判推力知识图谱具有以上的实体和实体间关系,具备反应裁判推理过程的能力,以裁判推理知识图谱形式表达法院围绕基本事实进行认定及说理的过程,也就可以对事实认定理由进行约束以有效过滤无用裁判要旨,从而使得最终生成的裁判要旨参考价值高。
从以上的描述中,可以看出,本发明实现了如下技术效果:
在本申请实施例中,采用构建知识图谱的方式,通过接收训练裁判文书和目标裁判文书;使用所述训练裁判文书训练获取知识图谱构建模型;将所述目标裁判文书输入所述知识图谱构建模型,以抽取所述目标裁判文书的实体和实体间关系,并基于所述实体和实体间关系构建裁判推理知识图谱;达到了运用司法三段论的结构对法院推理过程图谱化,也就能够对事实认定理由进行约束以有效过滤无用裁判要旨的目的,从而实现了提升裁判要旨的可参考价值的技术效果,进而解决了由于未考虑裁判推理过程,也就不能对事实认定理由进行约束以有效过滤无用裁判要旨造成的最终生成的裁判要旨参考价值不高的技术问题。
根据本发明实施例,优选的,将所述目标裁判文书输入所述知识图谱构建模型,以抽取所述目标裁判文书的实体和实体间关系,并基于所述实体和实体间关系构建裁判推理知识图谱之后还包括:
使用所述训练裁判文书训练获取裁判要旨生成模型;
将所述裁判推理知识图谱输入裁判要旨生成模型,生成裁判要旨。
训练裁判文书中不仅标注了实体和实体关系,还标注了裁判要旨,如此,可以通过训练裁判文书进行裁判要旨生成模型的训练,训练后的裁判要旨生成模型能够基于输入的裁判推理知识图谱生成裁判要旨。
根据本申请实施例,优选的,将所述裁判推理知识图谱输入裁判要旨生成模型,生成裁判要旨包括:
计算所述目标裁判文书和格式模板的文本相似度、语义相似度和结构相似度,并将文本相似度、语义相似度和结构相似度最高的三个格式模板作为候选模板;
对三个候选模板进行真实相似度和预测相似度计算并排序,并根据排序结果挑选一个作为使用的软模板;
根据所述裁判推理知识图谱和软模板,生成裁判要旨。
在裁判要旨生成的应用场景下,需要基于某种特定格式对原文进行摘要撰写,因此,本发明基于软模板的摘要生成方法。具体来说,该方法主要包含以下模块:
检索模块:从训练语料中选取候选模板。具体来说,本发明总结了裁判要旨常用的多个模板,并将其与训练集中的裁判文书进行对齐;训练与预测过程中,通过相似度寻找与目标裁判文书相似度最高裁判文书,使用其对应的目标作为候选模板。为了提升候选模板的准确率,本文使用文本相似度、语义相似度和结构相似度作为检索的主要依据:
文本相似度:计算训练集里所有裁判文书之间的VSM相似度,每个样本取相似度最高的作为目标搜索结果。
语义相似度:使用Bert对练集里所有裁判文书进行编码,计算目标摘要语义向量与候选裁判文书语义向量之间的距离,选取距离最小的裁判文书作为目标所示结果。
结构相似度:训练集里所有裁判文书转换成对应的裁判推理知识图谱,通过图相似度算法,计算裁判推理知识图谱的相似度,取相似度最高的作为目标搜索结果。
重排模块:对3个候选模板进行评分排序,挑选一个作为使用的软模板。对于检索的候选模板,需要选取一个作为最终的软模板,希望能够尽可能的与真实摘要接近。通过使用ROUGE指标来评估模板和真实摘要之间的相似度,真实相似度,并训练预测模型来评估各候选模板的分数。
重写模块:将裁判推理知识图谱作为输入,根据输入和模板,生成摘要。通过使用到模板的注意力机制,在对原文的摘要生成过程中融入模板的语义信息,并使用结构搜索的结果作为补充模式信息,以进一步提升整体模型的性能。
根据本申请实施例,优选的,对三个候选模板进行真实相似度和预测相似度计算并排序,并根据排序结果挑选一个作为使用的软模板包括计算真实相似度和预测相似度之间的交叉熵损失:
根据所述裁判推理知识图谱和软模板,生成裁判要旨包括最大化摘要预测概率的负对数似然估计:
针对判决书裁判要旨的生成,本发明提出了基于软模板的民事判决书裁判要旨生成方法,使得模型在保证裁判要旨通顺流畅的同时,尽可能的保留了裁判推理相关的关键信息。提出了语义和结构融合的软模板检索方法,提升了候选模板的准确率,从而提升生成裁判要旨的质量。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例,还提供了一种用于实施上述用于生成裁判要旨的知识图谱构建方法的装置,如图2所示,该装置包括:
接收模块10,用于接收训练裁判文书和目标裁判文书;
训练裁判文书为标注过的数据,可用于训练获取知识图谱构建模型;目标裁判文书为未标注过的数据,可用于基于训练的模型构建相应的知识图谱。
根据本发明实施例,优选的,接收训练裁判文书和目标裁判文书之前还包括:
在开放数据库中采集并预处理得到裁判文书;
利用正则表达式的规则解析引擎,将每份裁判文书分为当事人信息、事实描述、法庭观点和判决结果;
筛除事实描述超过预设token阈值的裁判文书;
将筛除后得到的裁判文书分为训练用数据和目标裁判文书;
人工标注训练用数据,得到训练裁判文书。
从法院公开数据中采集海量的民事裁判文书,并对裁判推理知识图谱进行本体建模,然后,将其分为训练数据和目标数据(目标裁判文书),并对训练数据进行人工标注,得到训练用数据。由于下游任务主要是民事判决书,研究者从开放数据源中国裁判文书网(https://wenshu.court.gov.cn/)中使用python作为开发语言,根据需求编写自动化采集程序采集了数千万份民事判决书文件。采集到的数据经过去除无用字符等数据处理后保存到数据库。然后,用基于正则表达式的规则解析引擎将每份文件分为四个部分:当事人信息、事实描述、法庭观点和判决结果。基于研究需要,只保留事实描述超过50个token的文件。
采集完成后,对采集到的民事裁判文书进行分析,获取裁判推理知识图谱本体库。其中,裁判推理知识图谱包含原告、被告、法院、基本事实、事实认定、证据、证据采信以及法律法规八种本体,本体之间包含原告主张、被告辩称、法院认定事实、事实认定结论、事实认定理由、证明事项、证据采信结论、证据采信理由以及法律依据等九种关系,其中原告主张为原告和基本事实之间的关系;被告辩称为被告与基本事实之间的关系;法院认定事实为法院和基本事实之间的关系;事实认定结论为事实认定和基本事实之间的关系;事实认定理由为法院认定事实、证明事项、法律依据、法律法规以及阶段性事实认定与事实认定之间的关系;证明事项为证据和基本事实之间的关系;证据采信结论为证据与证据采信之间的关系,该关系类型为布尔型,可分为采信与不采信;证据采信理由为证据采信与基本事实之间的关系;法律依据为法律法规与基本事实以及法律法规与事实认定之间的关系。通过本体及本体之间的关系,可以有效表示法官的裁判推理过程,帮助模型更好的理解裁判文书。
采集到的裁判文书分为训练数据和目标数据,其中,训练数据用于模型训练,目标数据用于最终裁判要旨的生成。同时,针对训练数据进行人工标注,标注结果包括裁判文书包含的所有实体、关系以及最终的裁判要旨。
训练模块20,用于使用所述训练裁判文书训练获取知识图谱构建模型;
使用包含实体、关系以及最终的裁判要旨标注的训练裁判文书进行模型训练,最终可以得到一个生成不带标签的裁判文书所对应的知识图谱。能够帮助模型有效理解裁判文书的过于复杂的语义逻辑。
根据本发明实施例,如图4所示,优选的,使用所述训练裁判文书训练获取知识图谱构建模型包括:
将训练裁判文书解析为字符序列作为输入,并通过一个字符向量矩阵转换成低维实值向量形式的序列;
使用大规模语言模型进行对序列进行编码,得到语义表示向量;
使用长短时记忆网络和条件随机场作为解码器,将每个字符对应的语义表示向量转化为对应的实体标签;
使用循环神经网络作为解码器,将头尾实体对应的字符转化为关系的概率矩阵。
本发明利用共享神经网络底层表示的方式来进行实体关系联合抽取,从而获得裁判推理知识图谱所需的关键要素。具体来说,模型主要包含以下模块:
输入层:将裁判文书解析为字符序列作为输入,并通过一个字符向量矩阵转换成低维实值向量形式的序列。
编码层:使用大规模语言模型(如Bert)进行对序列进行编码,得到语义表示向量H,编码后的语义表示向量包含了字符的上下文语义,是实体关系抽取的主要依据。
实体抽取层:实体抽取层使用长短时记忆网络和条件随机场作为解码器,将每个字符对应的语义表示向量转化为对应的实体标签。其中,实体标签共形式为{O,B-实体,I-实体,E-实体},O表示普通文字,B-实体表示实体的开始字符,I-实体表示实体的中间字符,E-实体表示实体的结束字符。
关系抽取层:关系抽取层使用循环神经网络作为解码器,将头尾实体对应的字符转化为关系的概率矩阵,其中,概率最大的关系即为该头尾实体对应的关系。
根据本发明实施例,优选的,使用所述训练裁判文书训练获取知识图谱构建模型还包括:
采用对比损失函数,基于所述训练裁判文书训练获取知识图谱构建模型;
所述对比损失函数为:
其中,f(x)表示目标字符对应的语义表示向量,f(x+)表示正样本对应的语义表示向量,表示负样本对应的语义表示向量。
对比损失层:针对传统实体关系抽取方法存在的实体边界预测错误问题,本发明引入对比学习方法,在训练过程中,添加对比损失以使得模型能够充分学习到不同类型字符之间的差异性,提升实体抽取的性能。
针对裁判推理知识图谱的构建,提出了上述基于对比学习的裁判推理知识图谱构建抽取方法,使得模型能够充分理解案件的裁判推理逻辑。创新的重点是通过对比学习的引入,提升了模型的编码能力,从而提升裁判推理知识图谱的构建质量。
构建模块30,用于将所述目标裁判文书输入所述知识图谱构建模型,以抽取所述目标裁判文书的实体和实体间关系,并基于所述实体和实体间关系构建裁判推理知识图谱。
最终构建的知识图谱构建模型能够抽取目标裁判文书的实体和实体间关系,且基于实体和实体间关系构建如图3所示的裁判推理知识图谱;生成的裁判推力知识图谱具有以上的实体和实体间关系,具备反应裁判推理过程的能力,以裁判推理知识图谱形式表达法院围绕基本事实进行认定及说理的过程,也就可以对事实认定理由进行约束以有效过滤无用裁判要旨,从而使得最终生成的裁判要旨参考价值高。
从以上的描述中,可以看出,本发明实现了如下技术效果:
在本申请实施例中,采用构建知识图谱的方式,通过接收训练裁判文书和目标裁判文书;使用所述训练裁判文书训练获取知识图谱构建模型;将所述目标裁判文书输入所述知识图谱构建模型,以抽取所述目标裁判文书的实体和实体间关系,并基于所述实体和实体间关系构建裁判推理知识图谱;达到了运用司法三段论的结构对法院推理过程图谱化,也就能够对事实认定理由进行约束以有效过滤无用裁判要旨的目的,从而实现了提升裁判要旨的可参考价值的技术效果,进而解决了由于未考虑裁判推理过程,也就不能对事实认定理由进行约束以有效过滤无用裁判要旨造成的最终生成的裁判要旨参考价值不高的技术问题。
根据本发明实施例,优选的,将所述目标裁判文书输入所述知识图谱构建模型,以抽取所述目标裁判文书的实体和实体间关系,并基于所述实体和实体间关系构建裁判推理知识图谱之后还包括:
使用所述训练裁判文书训练获取裁判要旨生成模型;
将所述裁判推理知识图谱输入裁判要旨生成模型,生成裁判要旨。
训练裁判文书中不仅标注了实体和实体关系,还标注了裁判要旨,如此,可以通过训练裁判文书进行裁判要旨生成模型的训练,训练后的裁判要旨生成模型能够基于输入的裁判推理知识图谱生成裁判要旨。
根据本申请实施例,优选的,将所述裁判推理知识图谱输入裁判要旨生成模型,生成裁判要旨包括:
计算所述目标裁判文书和格式模板的文本相似度、语义相似度和结构相似度,并将文本相似度、语义相似度和结构相似度最高的三个格式模板作为候选模板;
对三个候选模板进行真实相似度和预测相似度计算并排序,并根据排序结果挑选一个作为使用的软模板;
根据所述裁判推理知识图谱和软模板,生成裁判要旨。
在裁判要旨生成的应用场景下,需要基于某种特定格式对原文进行摘要撰写,因此,本发明基于软模板的摘要生成方法。具体来说,该方法主要包含以下模块:
检索模块:从训练语料中选取候选模板。具体来说,本发明总结了裁判要旨常用的多个模板,并将其与训练集中的裁判文书进行对齐;训练与预测过程中,通过相似度寻找与目标裁判文书相似度最高裁判文书,使用其对应的目标作为候选模板。为了提升候选模板的准确率,本文使用文本相似度、语义相似度和结构相似度作为检索的主要依据:
文本相似度:计算训练集里所有裁判文书之间的VSM相似度,每个样本取相似度最高的作为目标搜索结果。
语义相似度:使用Bert对练集里所有裁判文书进行编码,计算目标摘要语义向量与候选裁判文书语义向量之间的距离,选取距离最小的裁判文书作为目标所示结果。
结构相似度:训练集里所有裁判文书转换成对应的裁判推理知识图谱,通过图相似度算法,计算裁判推理知识图谱的相似度,取相似度最高的作为目标搜索结果。
重排模块:对3个候选模板进行评分排序,挑选一个作为使用的软模板。对于检索的候选模板,需要选取一个作为最终的软模板,希望能够尽可能的与真实摘要接近。通过使用ROUGE指标来评估模板和真实摘要之间的相似度,真实相似度,并训练预测模型来评估各候选模板的分数。
重写模块:将裁判推理知识图谱作为输入,根据输入和模板,生成摘要。通过使用到模板的注意力机制,在对原文的摘要生成过程中融入模板的语义信息,并使用结构搜索的结果作为补充模式信息,以进一步提升整体模型的性能。
根据本申请实施例,优选的,对三个候选模板进行真实相似度和预测相似度计算并排序,并根据排序结果挑选一个作为使用的软模板包括计算真实相似度和预测相似度之间的交叉熵损失:
根据所述裁判推理知识图谱和软模板,生成裁判要旨包括最大化摘要预测概率的负对数似然估计:
针对判决书裁判要旨的生成,本发明提出了基于软模板的民事判决书裁判要旨生成方法,使得模型在保证裁判要旨通顺流畅的同时,尽可能的保留了裁判推理相关的关键信息。提出了语义和结构融合的软模板检索方法,提升了候选模板的准确率,从而提升生成裁判要旨的质量。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种用于生成裁判要旨的知识图谱构建方法,其特征在于,包括:
接收训练裁判文书和目标裁判文书;
使用所述训练裁判文书训练获取知识图谱构建模型;
将所述目标裁判文书输入所述知识图谱构建模型,以抽取所述目标裁判文书的实体和实体间关系,并基于所述实体和实体间关系构建裁判推理知识图谱。
2.根据权利要求1所述的知识图谱构建方法,其特征在于,接收训练裁判文书和目标裁判文书之前还包括:
在开放数据库中采集并预处理得到裁判文书;
利用正则表达式的规则解析引擎,将每份裁判文书分为当事人信息、事实描述、法庭观点和判决结果;
筛除事实描述超过预设token阈值的裁判文书;
将筛除后得到的裁判文书分为训练用数据和目标裁判文书;
人工标注训练用数据,得到训练裁判文书。
3.根据权利要求1所述的知识图谱构建方法,其特征在于,使用所述训练裁判文书训练获取知识图谱构建模型包括:
将训练裁判文书解析为字符序列作为输入,并通过一个字符向量矩阵转换成低维实值向量形式的序列;
使用大规模语言模型进行对序列进行编码,得到语义表示向量;
使用长短时记忆网络和条件随机场作为解码器,将每个字符对应的语义表示向量转化为对应的实体标签;
使用循环神经网络作为解码器,将头尾实体对应的字符转化为关系的概率矩阵。
4.根据权利要求3所述的知识图谱构建方法,其特征在于,使用所述训练裁判文书训练获取知识图谱构建模型还包括:
采用对比损失函数,基于所述训练裁判文书训练获取知识图谱构建模型;
所述对比损失函数为:
其中,f(x)表示目标字符对应的语义表示向量,f(x+)表示正样本对应的语义表示向量,表示负样本对应的语义表示向量。
5.根据权利要求1所述的知识图谱构建方法,其特征在于,将所述目标裁判文书输入所述知识图谱构建模型,以抽取所述目标裁判文书的实体和实体间关系,并基于所述实体和实体间关系构建裁判推理知识图谱之后还包括:
使用所述训练裁判文书训练获取裁判要旨生成模型;
将所述裁判推理知识图谱输入裁判要旨生成模型,生成裁判要旨。
6.根据权利要求5所述的知识图谱构建方法,其特征在于,将所述裁判推理知识图谱输入裁判要旨生成模型,生成裁判要旨包括:
计算所述目标裁判文书和格式模板的文本相似度、语义相似度和结构相似度,并将文本相似度、语义相似度和结构相似度最高的三个格式模板作为候选模板;
对三个候选模板进行真实相似度和预测相似度计算并排序,并根据排序结果挑选一个作为使用的软模板;
根据所述裁判推理知识图谱和软模板,生成裁判要旨。
7.根据权利要求6所述的知识图谱构建方法,其特征在于,对三个候选模板进行真实相似度和预测相似度计算并排序,并根据排序结果挑选一个作为使用的软模板包括计算真实相似度和预测相似度之间的交叉熵损失:
根据所述裁判推理知识图谱和软模板,生成裁判要旨包括最大化摘要预测概率的负对数似然估计:
8.一种用于生成裁判要旨的知识图谱构建装置,其特征在于,包括:
接收模块,用于接收训练裁判文书和目标裁判文书;
训练模块,用于使用所述训练裁判文书训练获取知识图谱构建模型;
构建模块,用于将所述目标裁判文书输入所述知识图谱构建模型,以抽取所述目标裁判文书的实体和实体间关系,并基于所述实体和实体间关系构建裁判推理知识图谱。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7中任一项所述的用于生成裁判要旨的知识图谱构建方法。
10.一种电子装置,包括:存储器和处理器,其特征在于,所述存储器中存储有计算机程序,其中,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7中任一项所述的用于生成裁判要旨的知识图谱构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310247469.4A CN116484010B (zh) | 2023-03-15 | 2023-03-15 | 知识图谱构建方法、装置、存储介质及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310247469.4A CN116484010B (zh) | 2023-03-15 | 2023-03-15 | 知识图谱构建方法、装置、存储介质及电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116484010A true CN116484010A (zh) | 2023-07-25 |
CN116484010B CN116484010B (zh) | 2024-01-16 |
Family
ID=87212826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310247469.4A Active CN116484010B (zh) | 2023-03-15 | 2023-03-15 | 知识图谱构建方法、装置、存储介质及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116484010B (zh) |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190198137A1 (en) * | 2017-12-26 | 2019-06-27 | International Business Machines Corporation | Automatic Summarization of Patient Data Using Medically Relevant Summarization Templates |
CN110633458A (zh) * | 2018-06-25 | 2019-12-31 | 阿里巴巴集团控股有限公司 | 裁判文书的生成方法和生成装置 |
WO2020052184A1 (zh) * | 2018-09-10 | 2020-03-19 | 平安科技(深圳)有限公司 | 裁判文书处理方法、装置、计算机设备和存储介质 |
CN111680504A (zh) * | 2020-08-11 | 2020-09-18 | 四川大学 | 法律信息抽取模型及方法及***及装置及辅助*** |
CN111813923A (zh) * | 2019-11-29 | 2020-10-23 | 北京嘀嘀无限科技发展有限公司 | 文本摘要方法、电子设备及存储介质 |
WO2021072321A1 (en) * | 2019-10-11 | 2021-04-15 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and methods for generating knowledge graphs and text summaries from document databases |
CN113010684A (zh) * | 2020-12-31 | 2021-06-22 | 北京法意科技有限公司 | 民事诉判图谱的构建方法及*** |
CN113239208A (zh) * | 2021-05-06 | 2021-08-10 | 广东博维创远科技有限公司 | 一种基于知识图谱的标注训练模型 |
WO2021164226A1 (zh) * | 2020-02-20 | 2021-08-26 | 平安科技(深圳)有限公司 | 法律案件知识图谱查询方法、装置、设备及存储介质 |
CN113312501A (zh) * | 2021-06-29 | 2021-08-27 | 中新国际联合研究院 | 基于知识图谱的安全知识自助查询***的构建方法及装置 |
US20210312230A1 (en) * | 2020-11-30 | 2021-10-07 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Information Extraction Method, Extraction Model Training Method, Apparatus and Electronic Device |
CN113723108A (zh) * | 2021-08-11 | 2021-11-30 | 北京工业大学 | 一种事件提取方法、装置、电子设备及存储介质 |
TW202201336A (zh) * | 2020-06-16 | 2022-01-01 | 國立政治大學 | 自動產生裁判要旨的方法 |
US20220092252A1 (en) * | 2020-09-21 | 2022-03-24 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method for generating summary, electronic device and storage medium thereof |
US20220164683A1 (en) * | 2020-11-25 | 2022-05-26 | Fmr Llc | Generating a domain-specific knowledge graph from unstructured computer text |
CN115238697A (zh) * | 2022-07-26 | 2022-10-25 | 贵州数联铭品科技有限公司 | 基于自然语言处理的司法命名实体识别方法 |
CN115269857A (zh) * | 2022-04-28 | 2022-11-01 | 东北林业大学 | 一种基于文档关系抽取的知识图谱构建方法和装置 |
CN115374270A (zh) * | 2021-12-21 | 2022-11-22 | 一拓通信集团股份有限公司 | 一种基于图神经网络的法律文本摘要生成方法 |
-
2023
- 2023-03-15 CN CN202310247469.4A patent/CN116484010B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190198137A1 (en) * | 2017-12-26 | 2019-06-27 | International Business Machines Corporation | Automatic Summarization of Patient Data Using Medically Relevant Summarization Templates |
CN110633458A (zh) * | 2018-06-25 | 2019-12-31 | 阿里巴巴集团控股有限公司 | 裁判文书的生成方法和生成装置 |
WO2020052184A1 (zh) * | 2018-09-10 | 2020-03-19 | 平安科技(深圳)有限公司 | 裁判文书处理方法、装置、计算机设备和存储介质 |
WO2021072321A1 (en) * | 2019-10-11 | 2021-04-15 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and methods for generating knowledge graphs and text summaries from document databases |
CN111813923A (zh) * | 2019-11-29 | 2020-10-23 | 北京嘀嘀无限科技发展有限公司 | 文本摘要方法、电子设备及存储介质 |
WO2021164226A1 (zh) * | 2020-02-20 | 2021-08-26 | 平安科技(深圳)有限公司 | 法律案件知识图谱查询方法、装置、设备及存储介质 |
TW202201336A (zh) * | 2020-06-16 | 2022-01-01 | 國立政治大學 | 自動產生裁判要旨的方法 |
CN111680504A (zh) * | 2020-08-11 | 2020-09-18 | 四川大学 | 法律信息抽取模型及方法及***及装置及辅助*** |
US20220092252A1 (en) * | 2020-09-21 | 2022-03-24 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method for generating summary, electronic device and storage medium thereof |
US20220164683A1 (en) * | 2020-11-25 | 2022-05-26 | Fmr Llc | Generating a domain-specific knowledge graph from unstructured computer text |
US20210312230A1 (en) * | 2020-11-30 | 2021-10-07 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Information Extraction Method, Extraction Model Training Method, Apparatus and Electronic Device |
CN113010684A (zh) * | 2020-12-31 | 2021-06-22 | 北京法意科技有限公司 | 民事诉判图谱的构建方法及*** |
CN113239208A (zh) * | 2021-05-06 | 2021-08-10 | 广东博维创远科技有限公司 | 一种基于知识图谱的标注训练模型 |
CN113312501A (zh) * | 2021-06-29 | 2021-08-27 | 中新国际联合研究院 | 基于知识图谱的安全知识自助查询***的构建方法及装置 |
CN113723108A (zh) * | 2021-08-11 | 2021-11-30 | 北京工业大学 | 一种事件提取方法、装置、电子设备及存储介质 |
CN115374270A (zh) * | 2021-12-21 | 2022-11-22 | 一拓通信集团股份有限公司 | 一种基于图神经网络的法律文本摘要生成方法 |
CN115269857A (zh) * | 2022-04-28 | 2022-11-01 | 东北林业大学 | 一种基于文档关系抽取的知识图谱构建方法和装置 |
CN115238697A (zh) * | 2022-07-26 | 2022-10-25 | 贵州数联铭品科技有限公司 | 基于自然语言处理的司法命名实体识别方法 |
Non-Patent Citations (6)
Title |
---|
周华健: "基于自动文摘的新闻聚合关键技术研究", 《信息科技》 * |
徐江南: "面向法律文本的命名实体识别研究", 《信息科技》, no. 09, pages 27 - 34 * |
王刚: "面向法律文书的文本摘要算法研究", 《信息科技》 * |
郑少婉;陆培民;: "基于自然语义处理的裁判文书分割***", 信息技术与网络安全, no. 02 * |
魏鑫炀: "结合法条的司法裁判文书摘要生成方法研究", 《信息科技》 * |
黄煜俊: "基于深度学习的裁判文书知识图谱构建研究", 《社会科学Ⅰ辑》, no. 04, pages 24 - 52 * |
Also Published As
Publication number | Publication date |
---|---|
CN116484010B (zh) | 2024-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Karpathy et al. | Deep visual-semantic alignments for generating image descriptions | |
CN113011533A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN111738004A (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
CN112001177A (zh) | 融合深度学习与规则的电子病历命名实体识别方法及*** | |
CN106095753B (zh) | 一种基于信息熵和术语可信度的金融领域术语识别方法 | |
CN111709242B (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
CN111783394A (zh) | 事件抽取模型的训练方法、事件抽取方法和***及设备 | |
CN113377897B (zh) | 基于深度对抗学习的多语言医疗术语规范标准化***及方法 | |
CN112101027A (zh) | 基于阅读理解的中文命名实体识别方法 | |
Sommerschield et al. | Machine learning for ancient languages: A survey | |
CN113961685A (zh) | 信息抽取方法及装置 | |
CN112860898B (zh) | 一种短文本框聚类方法、***、设备及存储介质 | |
CN112541337A (zh) | 一种基于递归神经网络语言模型的文档模板自动生成方法及*** | |
CN114881043B (zh) | 基于深度学习模型的法律文书语义相似度评估方法及*** | |
CN114780582A (zh) | 基于表格问答的自然答案生成***及其方法 | |
CN114416979A (zh) | 一种文本查询方法、设备和存储介质 | |
CN110941958A (zh) | 一种文本类目标注方法、装置、电子设备及存储介质 | |
CN114048354B (zh) | 基于多元表征和度量学习的试题检索方法、装置及介质 | |
CN113920379A (zh) | 一种基于知识辅助的零样本图像分类方法 | |
CN116821297A (zh) | 一种风格化法律咨询问答方法、***、存储介质和设备 | |
CN116843175A (zh) | 一种合同条款风险检查方法、***、设备和存储介质 | |
CN116484010B (zh) | 知识图谱构建方法、装置、存储介质及电子装置 | |
CN116186241A (zh) | 基于语义学分析与提示学习的事件要素抽取方法、装置、电子设备及存储介质 | |
CN114842982A (zh) | 一种面向医疗信息***的知识表达方法、装置及*** | |
CN112241630A (zh) | 基于自然语言处理的变电可研规范词条分析方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |