CN111783399A - 一种法律裁判文书信息抽取方法 - Google Patents

一种法律裁判文书信息抽取方法 Download PDF

Info

Publication number
CN111783399A
CN111783399A CN202010586120.XA CN202010586120A CN111783399A CN 111783399 A CN111783399 A CN 111783399A CN 202010586120 A CN202010586120 A CN 202010586120A CN 111783399 A CN111783399 A CN 111783399A
Authority
CN
China
Prior art keywords
information
input
neural network
document
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010586120.XA
Other languages
English (en)
Other versions
CN111783399B (zh
Inventor
白雄文
惠欣恒
安娜
康健
陈飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Computer Technology and Applications
Original Assignee
Beijing Institute of Computer Technology and Applications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Computer Technology and Applications filed Critical Beijing Institute of Computer Technology and Applications
Priority to CN202010586120.XA priority Critical patent/CN111783399B/zh
Publication of CN111783399A publication Critical patent/CN111783399A/zh
Application granted granted Critical
Publication of CN111783399B publication Critical patent/CN111783399B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种法律裁判文书信息抽取方法,其中,包括:步骤一:根据不同的案由选择相对应的规则引擎、关键字字典以及模版引擎;步骤二:将裁判文书进行数据清洗;步骤三:将裁判文书的内容按照分段进行分割;步骤四:将分割的裁判文书的内容作为基于注意力机制的序列作为神经网络模型的输入,进行标签信息的提取;步骤五:将神经网络提取的信息进行微调;步骤六:根据提取的标签信息以及对应的模板引擎,生成所需要格式的结构化文档。本发明针对现有规则的解析缺点,利用深度学习技术,构建了基于注意力机制的神经网络模型,可以大大提高法律要素提取的效率与准确度。

Description

一种法律裁判文书信息抽取方法
技术领域
本发明涉及属于自然语言处理技术领域,特别涉及一种针对法院裁判文书的法律标签信息抽取技术。
背景技术
随着信息化水平的不断提高,各类司法文书做为案件的输出结果,各司法机构每天都会输出大量的司法文书。其中,在法院裁判文书中,包含了大量的案件案情信息、案件审理信息以及法院判决信息。对法院裁判文书的分析以及研究对司法审判行为具有非常重要的意义。在我国的各地法院实际工作中,各类判决文书来自半结构化的文本,传统的信息提取工作都是根据手动录入或者人工总结的抽取规则进行信息提取,不仅需要耗费大量人力物力,且准确率不高,同时具有较高的维护成本,抽取规则很难进行复用。
在面对某些文书内容较长,且某些案件的案情复杂的情况时,让法官迅速从文书中抓取关键信息、梳理清楚案情是一项具有极大压力的工作,且费时费力。因此,借助于深度学习的神经网络模型,可以加速文书解析的速度和效率。但是,目前对裁判文书的内容解析仍然采用传统的规则解析的方式来获取。一般是人工通过语义获取司法文书内容的逻辑关联关系,同时依靠经验提取所需的法律要素标签。当面临诸多当事人、鉴定机构多等复杂情况的时候,传统的规则解析方式难以保证较高准确率,同时抽取规则也难以服用,具有较高的维护成本。
发明内容
本发明一种法律裁判文书信息抽取方法,用于解决上述现有技术的问题。
本发明一种法律裁判文书信息抽取方法,其中,包括:步骤一:根据不同的案由选择相对应的规则引擎、关键字字典以及模版引擎;步骤二:将裁判文书进行数据清洗;步骤三:将裁判文书的内容按照分段进行分割;步骤四:将分割的裁判文书的内容作为基于注意力机制的序列作为神经网络模型的输入,进行标签信息的提取;步骤五:将神经网络提取的信息进行微调;步骤六:根据提取的标签信息以及对应的模板引擎,生成所需要格式的结构化文档。
根据本发明的法律裁判文书信息抽取方法的一实施例,其中,还包括:根据不同的案由,将判决文书分解为文书基础信息、当事人信息、诉讼信息、案情信息、判决分析和审判信息6个分段,制定出对应各个案由的模版引擎。
根据本发明的法律裁判文书信息抽取方法的一实施例,其中,将裁判文书中的多余空行以及非法字符去除,完成半角全角符号转换等清洗工作。
根据本发明的法律裁判文书信息抽取方法的一实施例,其中,将裁判文书的内容按照当事人信息段落、诉讼信息段落、案情信息段落、判决分析段落和审判信息段落进行分割;对分割后的模块,根据规则引擎和关键字字典,取得案件文书基本信息、原被告基本信息以及文书中涉及的各公司机构组织的名称、全称和简称对应信息,以及根据规则引擎中包含关键字的关键语句。
根据本发明的法律裁判文书信息抽取方法的一实施例,其中,神经网络提取的信息是文书的内容信息,提取出来后按照文书解析的要求进行数据格式的微调。
根据本发明的法律裁判文书信息抽取方法的一实施例,其中,将具有按照输入顺序的多个输入位置中的每一个输入编码转换为具有顺序输出的多个位置中的每一个输出编码,将输入序列按照网络配置转换为输出序列的神经网络。
根据本发明的法律裁判文书信息抽取方法的一实施例,其中,该神经网络:通过编码序列神经网络层,将输入序列转换为每一个输入位置的编码表示,该编码表示包含每一个输入的神经网络中嵌入的数值表示,每一个位置对应的字向量编码,以及输入所对应的输入序列中的位置编码;通过编码序列自注意力网络层,将输入位置中的每一个输入的编码按照输入顺序,使用注意力机制生成对应每一个输入位置的输出编码。
根据本发明的法律裁判文书信息抽取方法的一实施例,其中,每个编码序列自注意力网络层将神经网络学习得到的查询线性变换应用于对应每个输入位置处的输出,生成对应每个输出位置的查询矩阵;每个编码序列自注意力网络层将神经网络学习得到的键值线性变换应用于对应每个输入位置处的编码表示,生成对应每个输入位置的键值矩阵;每个编码序列自注意力网络层将神经网络学习得到的价值线性变换应用于对应每个输入位置处的编码表示,生成对应每个输入位置的价值矩阵;每个编码序列自注意力网络层根据神经网络学习得到的查询矩阵和键值矩阵,使用比较函数来确定每一个输入位置的输出位置特定权重;每个编码序列自注意力网络层通过由输入位置的特定权重的加权总和来确定输出位置的编码序列自注意力网络层编码输出。
根据本发明的法律裁判文书信息抽取方法的一实施例,其中,通过解码序列神经网络层,将得到的输入编码,按照输出顺序的输出位置,生成相应位置的输出网络编码。
根据本发明的法律裁判文书信息抽取方法的一实施例,其中,在得到编码序列自注意力网络层的输出后,和编码序列神经网络层的输出编码进行组合,进行归一化处理,得到编码序列输入和编码序列自注意力的残差输出,为解码序列神经网络的输入编码;在得到解码序列神经网络的输出编码后,通过连接至前馈神经网络,将解码序列神经网络输出结果投影到最大序列编码长度的空间中,得到最终的所需标签信息。
针对现有规则的解析缺点,利用深度学习技术,构建了基于注意力机制的神经网络模型,可以大大提高法律要素提取的效率与准确度。
附图说明
图1为一种法律裁判文书信息抽取方法的流程图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
图1为一种法律裁判文书信息抽取方法的流程图,如图1所示,一种法律裁判文书信息抽取方法包括:
步骤一:根据不同的案由选择相对应的模版引擎。每个模版引擎包含对应各自案由的关键字字典、规则词包、规则引擎。
法律裁判文书主要包括类结构化的案件基本信息和非结构化的裁判文书。案件基本信息反映了案件发生的主体,是案情事实的基础。非结构化的裁判文书主要包括当事各方的陈述、法院认定事实、法院说理及裁判结果等段落。因此,针对各个案由的关键字、段落结构等信息,制定模版引擎,其中包括关键字字典、规则词包、规则引擎。
步骤二:将裁判文书进行数据清洗
将裁判文书中的多余空行以及非法字符去除,完成半角全角符号转换等清洗工作。
步骤三:将裁判文书的内容按照6大类别段落进行分割,包括:文书基础信息、当事人信息、诉讼信息、案情信息、判决分析和审判信息。
首先使用规则引擎,对裁判文书进行6大类段落的划分,分别包含:文书基础信息、当事人信息、诉讼信息、案情信息、判决分析和审判信息。
由于裁判文书中的案情复杂情况不同,使用规则引擎划分后可能会出现多个相同类型的段落划分,因此,根据规则词包,对段落进行合并及排序。
使用关键字字典,对类结构化的文书基础信息、当事人信息和诉讼信息段落,提取案件基本信息,对非结构化的段落信息,提取包含关键案情信息的关键语句。
步骤四:将步骤三中取得的案件基本信息和关键语句,作为基于注意力机制的序列到序列神经网络的模型输入,依次输入神经网络进行标签信息的提取。
步骤五:将神经网络提取的信息进行微调
神经网络提取的信息是文书的内容信息,提取出来后按照文书解析的要求进行数据格式的微调,比如:金额转换为数值型文本、日期按照标准格式进行转换等。
步骤六:根据提取的信息以及对应的模板引擎,生成所需要格式的结构化文档。如JSON格式或者EXCEL格式均可。
本发明设计了使用双向编码表达的基于自注意力机制的序列到序列深度学习模型,实现了基于裁判文书的关键段落的信息提取,该网络的结构如图:
该神经网络具有将输入语句按照输入顺序位置进行编码转换为具有相同顺序输出编码的神经网络。该神经网络包括:
编码序列神经网络层,负责将输入序列转换为包含输入位置信息的编码表示,该编码包含每一个输入在神经网络中嵌入网络的数值表示,即每一个位置对应的字向量编码,以及该输入所对应的输入序列位置编码,该设计保证了当两个位置出现同一个字向量时,因为所处位置的不同,产生编码表示不会相同,使得神经网络能够识别编码位置,分辨出文书中语句前后关系。
编码序列自注意力网络层,使用注意力机制,将输入位置中的每一个编码按照输入顺序,生成对应位置的输出编码。具体实现如下:
每个编码序列自注意力网络层负责将神经网络学习得到的查询线性变换应用于每个输入位置,生成对应输出位置的查询矩阵;
同时,每个编码序列自注意力网络层将神经网络学习得到的键值线性变换应用于对应每个输入位置,生成对应输入位置的键值矩阵;
同时,每个编码序列自注意力网络层将神经网络学习得到的价值线性变换应用于对应每个输入位置处,生成对应输入位置的价值矩阵;
编码序列自注意力网络层根据神经网络学习得到的查询矩阵和键值矩阵,使用比较函数来确定每一个输出位置的权重;
最后,编码序列自注意力网络层通过由输入位置的权重加权总和来确定输出位置的编码序列自注意力网络层编码输出。
自注意力权重的计算如下式:Q、K、V分别表示编码序列自注意力网络层的查询矩阵、键值矩阵、价值矩阵:
Figure BDA0002553927980000061
本发明的网络结构中,具有多个上述的编码序列自注意力网络层,每一层的自注意力网络均学习到输入序列中不同的编码含义,这种编码含义包含了自然语言处理中的不同语言任务,比如分词、句法分析、实体识别和共指消解等。通过网络模型的不断学习,编码序列自注意力网络层将学习出能够良好表达分词、句法分析、实体识别和共指消解等自然语言处理任务的编码表示,将其作为解码序列神经网络层的输入。
解码序列神经网络的输入是编码序列自注意力网络层的输出,并与编码序列神经网络层的输出进行组合,然后进行归一化处理,得到编码序列输入和编码序列自注意力的残差输出,即为解码序列神经网络的输入编码。
解码序列神经网络层,负责将得到的输入编码,按照输出顺序的输出位置,生成相应位置的输出网络编码。
在得到最后的解码序列神经网络的输出编码后,通过连接至前馈神经网络,将最后的解码序列神经网络输出结果投影到最大序列编码长度的空间中,得到最终的所需标签信息:是否包含标签、标签信息起始下标以及标签信息结束下标。
对神经网络输出结果中起始下标和结束下标进行提取,并对关键语句按照下标位置进行切片,可以获取非结构化的裁判文书中包含法律要素、特殊机构名称和特殊地址等特殊标签信息,该类信息使用关键字、规则引擎等进行抽取需要耗费大量人力物力、准确率不高且难以复用;使用神经网络对特殊标签信息进行抽取,可以借助人工智能算法,加速推理过程,提高准确率以及适合对不同案由中相同类型标签的模型复用。
本发明针对现有规则的解析缺点,利用深度学习技术,构建了基于注意力机制的神经网络模型,可以大大提高法律要素提取的效率与准确度。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种法律裁判文书信息抽取方法,其特征在于,包括:
步骤一:根据不同的案由选择相对应的规则引擎、关键字字典以及模版引擎;
步骤二:将裁判文书进行数据清洗;
步骤三:将裁判文书的内容按照分段进行分割;
步骤四:将分割的裁判文书的内容作为基于注意力机制的序列作为神经网络模型的输入,进行标签信息的提取;
步骤五:将神经网络提取的信息进行微调;
步骤六:根据提取的标签信息以及对应的模板引擎,生成所需要格式的结构化文档。
2.如权利要求1法律裁判文书信息抽取方法,其特征在于,还包括:根据不同的案由,将判决文书分解为文书基础信息、当事人信息、诉讼信息、案情信息、判决分析和审判信息6个分段,制定出对应各个案由的模版引擎。
3.如权利要求1法律裁判文书信息抽取方法,其特征在于,将裁判文书中的多余空行以及非法字符去除,完成半角全角符号转换等清洗工作。
4.如权利要求1法律裁判文书信息抽取方法,其特征在于,将裁判文书的内容按照当事人信息段落、诉讼信息段落、案情信息段落、判决分析段落和审判信息段落进行分割;
对分割后的模块,根据规则引擎和关键字字典,取得案件文书基本信息、原被告基本信息以及文书中涉及的各公司机构组织的名称、全称和简称对应信息,以及根据规则引擎中包含关键字的关键语句。
5.如权利要求1法律裁判文书信息抽取方法,其特征在于,神经网络提取的信息是文书的内容信息,提取出来后按照文书解析的要求进行数据格式的微调。
6.如权利要求1法律裁判文书信息抽取方法,其特征在于,将具有按照输入顺序的多个输入位置中的每一个输入编码转换为具有顺序输出的多个位置中的每一个输出编码,将输入序列按照网络配置转换为输出序列的神经网络。
7.如权利要求6法律裁判文书信息抽取方法,其特征在于,该神经网络:
通过编码序列神经网络层,将输入序列转换为每一个输入位置的编码表示,该编码表示包含每一个输入的神经网络中嵌入的数值表示,每一个位置对应的字向量编码,以及输入所对应的输入序列中的位置编码;
通过编码序列自注意力网络层,将输入位置中的每一个输入的编码按照输入顺序,使用注意力机制生成对应每一个输入位置的输出编码。
8.如权利要求7法律裁判文书信息抽取方法,其特征在于,
每个编码序列自注意力网络层将神经网络学习得到的查询线性变换应用于对应每个输入位置处的输出,生成对应每个输出位置的查询矩阵;
每个编码序列自注意力网络层将神经网络学习得到的键值线性变换应用于对应每个输入位置处的编码表示,生成对应每个输入位置的键值矩阵;
每个编码序列自注意力网络层将神经网络学习得到的价值线性变换应用于对应每个输入位置处的编码表示,生成对应每个输入位置的价值矩阵;
每个编码序列自注意力网络层根据神经网络学习得到的查询矩阵和键值矩阵,使用比较函数来确定每一个输入位置的输出位置特定权重;
每个编码序列自注意力网络层通过由输入位置的特定权重的加权总和来确定输出位置的编码序列自注意力网络层编码输出。
9.如权利要求8法律裁判文书信息抽取方法,其特征在于,通过解码序列神经网络层,将得到的输入编码,按照输出顺序的输出位置,生成相应位置的输出网络编码。
10.如权利要求9法律裁判文书信息抽取方法,其特征在于,
在得到编码序列自注意力网络层的输出后,和编码序列神经网络层的输出编码进行组合,进行归一化处理,得到编码序列输入和编码序列自注意力的残差输出,为解码序列神经网络的输入编码;
在得到解码序列神经网络的输出编码后,通过连接至前馈神经网络,将解码序列神经网络输出结果投影到最大序列编码长度的空间中,得到最终的所需标签信息。
CN202010586120.XA 2020-06-24 2020-06-24 一种法律裁判文书信息抽取方法 Active CN111783399B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010586120.XA CN111783399B (zh) 2020-06-24 2020-06-24 一种法律裁判文书信息抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010586120.XA CN111783399B (zh) 2020-06-24 2020-06-24 一种法律裁判文书信息抽取方法

Publications (2)

Publication Number Publication Date
CN111783399A true CN111783399A (zh) 2020-10-16
CN111783399B CN111783399B (zh) 2023-10-20

Family

ID=72759752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010586120.XA Active CN111783399B (zh) 2020-06-24 2020-06-24 一种法律裁判文书信息抽取方法

Country Status (1)

Country Link
CN (1) CN111783399B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329891A (zh) * 2020-11-27 2021-02-05 浙江大学 双向注意力和判案逻辑结合的辅助判案方法、装置、介质
CN112488886A (zh) * 2020-11-19 2021-03-12 武汉华成知识产权代理服务有限责任公司 一种基于Python的诉讼信息提取***、方法及设备
CN112668316A (zh) * 2020-11-17 2021-04-16 国家计算机网络与信息安全管理中心 word文档关键信息抽取方法
CN112784578A (zh) * 2021-03-16 2021-05-11 北京华宇元典信息服务有限公司 法律要素提取方法、装置和电子设备
CN113553385A (zh) * 2021-07-08 2021-10-26 北京计算机技术及应用研究所 一种司法文书中法律要素的关系抽取方法
CN113609840A (zh) * 2021-08-25 2021-11-05 西华大学 一种汉语法律判决摘要生成方法及***
CN113673255A (zh) * 2021-08-25 2021-11-19 北京市律典通科技有限公司 文本功能区域拆分方法、装置、计算机设备及存储介质
US11256856B2 (en) 2017-10-17 2022-02-22 Handycontract Llc Method, device, and system, for identifying data elements in data structures
CN115017144A (zh) * 2022-05-30 2022-09-06 北京计算机技术及应用研究所 一种基于图神经网络的司法文书案情要素实体识别方法
US11475209B2 (en) 2017-10-17 2022-10-18 Handycontract Llc Device, system, and method for extracting named entities from sectioned documents
CN116029262A (zh) * 2023-02-17 2023-04-28 广东远景信息科技有限公司 法律法规编码生成的方法、数据库构建的方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334500A (zh) * 2018-03-05 2018-07-27 上海思贤信息技术股份有限公司 一种基于机器学习算法的裁判文书标注方法及装置
CN108763483A (zh) * 2018-05-25 2018-11-06 南京大学 一种面向裁判文书的文本信息抽取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334500A (zh) * 2018-03-05 2018-07-27 上海思贤信息技术股份有限公司 一种基于机器学习算法的裁判文书标注方法及装置
CN108763483A (zh) * 2018-05-25 2018-11-06 南京大学 一种面向裁判文书的文本信息抽取方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11256856B2 (en) 2017-10-17 2022-02-22 Handycontract Llc Method, device, and system, for identifying data elements in data structures
US11475209B2 (en) 2017-10-17 2022-10-18 Handycontract Llc Device, system, and method for extracting named entities from sectioned documents
CN112668316A (zh) * 2020-11-17 2021-04-16 国家计算机网络与信息安全管理中心 word文档关键信息抽取方法
CN112488886A (zh) * 2020-11-19 2021-03-12 武汉华成知识产权代理服务有限责任公司 一种基于Python的诉讼信息提取***、方法及设备
CN112329891A (zh) * 2020-11-27 2021-02-05 浙江大学 双向注意力和判案逻辑结合的辅助判案方法、装置、介质
CN112329891B (zh) * 2020-11-27 2022-05-31 浙江大学 双向注意力和判案逻辑结合的辅助判案方法、装置、介质
CN112784578A (zh) * 2021-03-16 2021-05-11 北京华宇元典信息服务有限公司 法律要素提取方法、装置和电子设备
CN113553385A (zh) * 2021-07-08 2021-10-26 北京计算机技术及应用研究所 一种司法文书中法律要素的关系抽取方法
CN113553385B (zh) * 2021-07-08 2023-08-25 北京计算机技术及应用研究所 一种司法文书中法律要素的关系抽取方法
CN113673255A (zh) * 2021-08-25 2021-11-19 北京市律典通科技有限公司 文本功能区域拆分方法、装置、计算机设备及存储介质
CN113609840A (zh) * 2021-08-25 2021-11-05 西华大学 一种汉语法律判决摘要生成方法及***
CN113609840B (zh) * 2021-08-25 2023-06-16 西华大学 一种汉语法律判决摘要生成方法及***
CN113673255B (zh) * 2021-08-25 2023-06-30 北京市律典通科技有限公司 文本功能区域拆分方法、装置、计算机设备及存储介质
CN115017144A (zh) * 2022-05-30 2022-09-06 北京计算机技术及应用研究所 一种基于图神经网络的司法文书案情要素实体识别方法
CN115017144B (zh) * 2022-05-30 2024-03-29 北京计算机技术及应用研究所 一种基于图神经网络的司法文书案情要素实体识别方法
CN116029262A (zh) * 2023-02-17 2023-04-28 广东远景信息科技有限公司 法律法规编码生成的方法、数据库构建的方法及装置

Also Published As

Publication number Publication date
CN111783399B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
CN111783399A (zh) 一种法律裁判文书信息抽取方法
CN110059188B (zh) 一种基于双向时间卷积网络的中文情感分析方法
CN110275936B (zh) 一种基于自编码神经网络的相似法律案例检索方法
CN112101028B (zh) 一种多特征双向门控领域专家实体抽取方法及***
CN109800310B (zh) 一种基于结构化表达的电力运维文本分析方法
CN110688854B (zh) 命名实体识别方法、装置及计算机可读存储介质
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及***
CN112836046A (zh) 一种四险一金领域政策法规文本实体识别方法
Ayishathahira et al. Combination of neural networks and conditional random fields for efficient resume parsing
CN111061882A (zh) 一种知识图谱构建方法
CN113191148A (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN107977353A (zh) 一种基于lstm-cnn的混合语料命名实体识别方法
CN112560486A (zh) 基于多层神经网络的电力实体识别方法、存储介质和设备
CN107797987A (zh) 一种基于Bi‑LSTM‑CNN的混合语料命名实体识别方法
CN114443813B (zh) 一种智能化的在线教学资源知识点概念实体链接方法
CN111858888A (zh) 一种值机场景的多轮对话***
CN115470871A (zh) 基于命名实体识别与关系抽取模型的政策匹配方法及***
CN113065349A (zh) 基于条件随机场的命名实体识别方法
CN113239663A (zh) 一种基于知网的多义词中文实体关系识别方法
CN115687567A (zh) 一种不需要标注数据的短文本搜索相似长文本方法
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN112989830B (zh) 一种基于多元特征和机器学习的命名实体识别方法
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配***及方法
Wu et al. One improved model of named entity recognition by combining BERT and BiLSTM-CNN for domain of Chinese railway construction
CN116822513A (zh) 一种融合实体类型与关键词特征的命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant