CN111563374B - 一种基于司法裁判文书的人员社交关系抽取方法 - Google Patents

一种基于司法裁判文书的人员社交关系抽取方法 Download PDF

Info

Publication number
CN111563374B
CN111563374B CN202010205874.6A CN202010205874A CN111563374B CN 111563374 B CN111563374 B CN 111563374B CN 202010205874 A CN202010205874 A CN 202010205874A CN 111563374 B CN111563374 B CN 111563374B
Authority
CN
China
Prior art keywords
document
entity
sentence
judicial
referee
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010205874.6A
Other languages
English (en)
Other versions
CN111563374A (zh
Inventor
万怀宇
林友芳
武志昊
韩升
王晶
张硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN202010205874.6A priority Critical patent/CN111563374B/zh
Publication of CN111563374A publication Critical patent/CN111563374A/zh
Application granted granted Critical
Publication of CN111563374B publication Critical patent/CN111563374B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Tourism & Hospitality (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Marketing (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Strategic Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于司法裁判文书的人员社交关系抽取方法,用以解决司法裁判文书中人员社交关系数据处理的问题。所述基于司法裁判文书的人员社交关系抽取方法,对裁判文书进行数据清洗、中文分词以及去停用词,构建基于预训练语言模型的词向量学习模型,再分别结合相关实体关联关系和实体属性的抽取裁判文书特征并进行融合,构建关系抽取模型,抽取裁判文书中相关人员的社交关系。本发明充分挖掘裁判文书数据中的实体关联关系以及司法实体的背景信息,支持司法工作人员理清裁判文书中人员之间的社交关系,挖掘涉案人员潜在的社交关系,有助于法务工作者进行案件相关人员的社交关系发现,减少了人工调查的成本。

Description

一种基于司法裁判文书的人员社交关系抽取方法
技术领域
本发明属于司法数据处理领域,具体涉及一种基于司法裁判文书的人员社交关系抽取方法。
背景技术
随着计算机技术的发展,数据处理及信息化已渗透进每一个领域。在司法信息化改革中,如何利用科学信息化技术辅助司法工作人员从海量的司法裁判文书、案件卷宗等文本资料中进行信息抽取和整理,已经成为司法信息化建设中的一个研究热点。司法裁判文书记载了人民法院审理过程和结果,其中包含大量的相关人员以及机构等司法实体。将司法裁判文书中司法实体之间复杂的社交关系抽取出来,有助于司法人员快速了解涉案人员及机构之间的关系;同时依据司法裁判文书中的相关信息以及其他背景信息,挖掘涉案人员潜在的社交关系,有助于司法工作者理清案件事实。现有技术中,尚无专门针对人员社交关系的数据处理。
发明内容
本发明实施例提供了一种基于司法裁判文书的人员社交关系抽取方法,基于预训练语言模型的词向量表示模型,提升模型的泛化性能以及复用性,提高人员社交关系抽取的准确率和召回率,支持司法工作人员快速理清裁判文书中人员之间复杂的社交关系,挖掘涉案人潜在的社交关系,为法院等司法机构减少人工调查的成本,节省人力物力,推动司法信息化的建设。
为了实现上述目的,本发明采用的技术方案如下:
本发明实施例提供了一种基于司法裁判文书的人员社交关系抽取方法,所述抽取方法包括如下步骤:
步骤S1,对所述司法裁判文书中的文本信息进行数据清洗、中文分词,并去掉停用词,得到分词后的裁判文书数据;
步骤S2,基于所述分词后的裁判文书数据,构建基于预训练语言模型的词向量学习模型;
步骤S3,采用所述裁判文书的词向量学习模型,表示司法实体共现网络中的每个实体,结合实体关联关系,抽取第一裁判文书特征;
步骤S4,结合实体属性,抽取第二裁判文书特征;
步骤S5,基于所述第一裁判文书特征和第二裁判文书特征,构建人员社交关系抽取模型;
步骤S6,采用所述人员社交关系抽取模型,对司法裁判文书中的人员社交关系进行抽取。
作为本发明的一个优选实施例,所述步骤S1包括:
步骤S101,对司法裁判文书中的文本信息进行数据清洗与存储;
步骤S102,基于清洗后的司法裁判文书数据构建法律专业词库和停用词表。
作为本发明的一个优选实施例,所述数据清洗,进一步为,删除裁判文书中内容为空或者描述字段过少、重复的文本数据;检测并修正裁判文书中的术语缩写、常见拼写错误;使用空格替换裁判文书中的全部特殊符号。
作为本发明的一个优选实施例,所述步骤S2包括:
步骤S201,对所述分词后的裁判文书进行句段分割,得到裁判文书编号、句子编号以及句子内容的三元组;
步骤S202,对所述三元组中的句子内容进行预处理,得到训练句子语料;
步骤S203,根据所述训练句子语料对预训练语言模型进行参数调整,得到词向量学习模型。
作为本发明的一个优选实施例,所述步骤S201中的句段分割,进一步为,设定总共包含n篇裁判文书,di表示第i篇裁判文书,裁判文书集合表示为:Dn={d1,d2,......,di,......,dn};对每篇裁判文书di,按“/001”进行分割获取裁判文书编号以及裁判文书内容两部分;对裁判文书内容按照句号、感叹号、问号为句子结束标识进行分割;按照是否包含司法实体对分割后的句子进行筛选,包含司法实体则保留句子,不包含司法实体则删除句子;将保留的句子与裁判文书编号进行拼接,得到裁判文书编号、句子编号以及句子内容的三元组。
作为本发明的一个优选实施例,所述步骤S3包括:
步骤S301,基于所述裁判文书的词向量学习模型构建与表示裁判文书共现网络,得到实体对的全局上下文特征;
步骤S302,对所述实体对的全局上下文特征进行特征表示;
步骤S303,基于所述上下文特征表示提取裁判文书中句子级语义特征作为第一裁判文书特征。作为本发明的一个优选实施例,所述步骤S301中裁判文书共现网络的构建与表示,进一步为,从裁判文书的全部句子中抽取出任意两个实体在同一个句子中的共同出现关系,作为所有的实体共现关系,形成一个完整的实体共现网络;将所述司法实体共现网络中的每个实体都使用所述词向量学习模型表示为嵌入向量
Figure BDA0002421066630000021
作为本发明的一个优选实施例,所述步骤S302中对分词后的裁判文书进行上下文特征表示,进一步为,通过引入注意力机制为每个实体计算其各个相邻实体的不同权重,使用相邻实体的加权词向量和来表示该实体在共现网络中的上下文特征fi c;计算公式如下:
Figure BDA0002421066630000022
其中,
Figure BDA0002421066630000023
为实体ei的第j个相邻实体eij的d维向量,gij为该相邻实体对应的关系权重;
通过注意力机制为每个相邻实体eij计算其相对于实体ei的关系重要程度,计算公式如下:
Figure BDA0002421066630000024
其中,
Figure BDA0002421066630000025
为实体ei的d维向量,W1和b1分别为参数矩阵和偏置;
对aij进行归一化,使得任意实体的所有相邻实体的权重和为1,从而得到邻居实体的关系权重如下:
Figure BDA0002421066630000031
为每个实体ei计算语料集特征向量fi c,则句子中的每个实体得到两个语料级特征
Figure BDA0002421066630000032
Figure BDA0002421066630000033
实体对语料级特征表示如下:
Figure BDA0002421066630000034
其中,W1和b1分别为参数矩阵和偏置。
作为本发明的一个优选实施例,所述步骤S4进一步包括:
步骤S401,抽取裁判文书中的实体属性特征;
步骤S402,基于所述实体属性,抽取裁判文书中的实体特征作为第二裁判文书特征。
作为本发明的一个优选实施例,所述步骤S5进一步包括:
步骤S501,融合第一裁判文书特征和第二裁判文书特征,得到分类器的输入数据;
步骤S502,将所述分类器的输入数据输入分类器,对裁判文书中的实体关系进行分类。
本发明具有如下有益效果:
本发明实施例基于司法裁判文书的人员社交关系抽取方法及***,基于预训练语言模型的词向量表示模型,提升了模型的泛化性能以及复用性;结合实体关联关系的裁判文书特征,提高了相关人员关系抽取的召回率;基于实体属性的裁判文书特征,提高了相关人员关系抽取的准确率;结合上述两种裁判文书特征抽取方法构建关系抽取模型,辅助法务工作者进行案件相关人员的社交关系发现,支持司法工作人员理清裁判文书中人员之间社交关系,并挖掘涉案人员潜在的社交关系,减少人工调查的成本。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例基于司法裁判文书的人员社交关系抽取方法流程图。
具体实施方式
下面通过参考示范性实施例,对本发明技术问题、技术方案和优点进行详细阐明。以下所述示范性实施例仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非在这里进行定义,否则不会用理想化或过于正式的含义来解释。
本发明提出了一种基于司法裁判文书的人员社交关系抽取方法,对裁判文书中的文本信息进行数据清洗、中文分词以及去停用词,基于预训练语言模型的词向量学习模型,再基于相关实体关联关系的抽取裁判文书特征,并结合实体属性的抽取裁判文书特征,以上述两种裁判文书特征,构建人员社交关系抽取模型,抽取裁判文书中相关人员的社交关系。本发明充分挖掘裁判文书数据中的实体关联关系以及司法实体的背景信息,以支持司法工作人员快速理清裁判文书中人员之间复杂的社交关系,挖掘涉案人潜在的社交关系,有助于法务工作者进行案件相关人员的社交关系发现,为人民法院等司法机构减少人工调查的成本,节省人力物力,在智慧司法的建设中具有重要意义。
为便于对本发明实施方式的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明技术方案的限定。
实施例
本实施例提供了一种基于司法裁判文书的人员社交关系抽取方法。图1所示为本实施例所述人员社交关系抽取方法流程示意图。
本实施例以以某中级人民法院提供的真实数据集为例,其中包括该法院审理的2018年司法财产保全相关的2,800余桩案件,共涉及7,500余篇司法裁判文书,包含“保全裁定书”,“解除裁定书”,“撤回保全申请”,“审理报告”等多种裁判文书形式。研究目标是从多样化的司法裁判文书中,抽取出相关人员的社交关系,形成案件相关人员的社交网络,为案件的后续智能化案情分析奠定基础。
如图1所示,所述基于司法裁判文书的人员社交关系抽取方法包括如下步骤:
步骤S1,对所述司法裁判文书中的文本信息进行数据清洗、中文分词,并去掉停用词,得到分词后的裁判文书数据。
进一步地,本步骤包括:
步骤S101,对司法裁判文书中的文本信息进行数据清洗与存储。
优选地,本步骤使用Spark分布式计算对所述司法裁判文书中的文本信息进行数据清洗,并采用分布式文件***HDFS存储清洗后的司法裁判文书。所述数据清洗,进一步为,删除裁判文书中内容为空或者描述字段过少、重复的文本数据;检测并修正裁判文书中的术语缩写、常见拼写错误;使用空格替换裁判文书中的全部特殊符号。所述存储,存储格式为裁判文书序号、裁判文书内容两部分以“/001”分割,以RDD的形式存储于HDFS中。
步骤S102,基于清洗后的司法裁判文书数据构建法律专业词库和停用词表。
本步骤首先对通用司法领域词库进行词汇的人工删除、合并、添加以及替换,形成自定义裁判文书专业词库;再对通用停用词表进行停用词的人工删除、添加以及替换,形成自定义停用词表;采用THULAC(THU Lexical Analyzer for Chinese,THULAC)中文分词工具,导入自定义裁判文书专业词库和自定义停用词表,对所述清洗后的司法裁判文书数据进行中文分词并去除停用词,得到分词后的裁判文书数据,并存储到HDFS中。这里的存储,存储格式为裁判文书序号、裁判文书内容两部分以“/001”分割,以RDD的形式存储于HDFS中。
步骤S2,基于所述分词后的裁判文书数据,构建基于预训练语言模型的词向量学习模型。
进一步地,本步骤包括:
步骤S201,对所述分词后的裁判文书进行句段分割,得到裁判文书编号、句子编号以及句子内容的三元组。
本步骤的句段分割,设定总共包含n篇裁判文书,di表示第i篇裁判文书,裁判文书集合表示为:Dn={d1,d2,......,di,......,dn};对每篇裁判文书di,按“/001”进行分割获取裁判文书编号以及裁判文书内容两部分;对裁判文书内容按照句号、感叹号、问号为句子结束标识进行分割;按照是否包含司法实体对分割后的句子进行筛选,包含司法实体则保留句子,不包含司法实体则删除句子;将保留的句子与裁判文书编号进行拼接,得到裁判文书编号、句子编号以及句子内容的三元组,以“/001”分割,以RDD的形式存储于HDFS中。
步骤S202,对所述三元组中的句子内容进行预处理,得到训练句子语料;。
本步骤中,所述预处理,首先使用“#”和“$”标识出句子内容中的头尾实体;在句首添加句子分类标识符“[CLS]”;在句末添加句子结束标识符“[SEP]”。所得到的所述训练句子语料中,包含有目标实体对。
步骤S203,根据所述训练句子语料对预训练语言模型进行参数调整,得到词向量学习模型。
本步骤所述预训练语言模型为BERT模型;所述参数调整,使用关系分类任务作为下游任务,将裁判文书中的经过预处理的句子输入BERT模型,将分类标识“[CLS]”的标识作为整个句子的向量表示输入softmax分类器进行分类,计算分类结果的交叉熵损失反向传播,对BERT模型的部分参数进行微调,直至模型收敛;保存微调参数之后的BERT模型作为裁判文书词向量学习模型。优选地,所述部分参数为模型网络中的参数,至少包括:Transformer中的self-attention中线性变换涉及参数以及全连接层feedforward参数。
步骤S3,采用所述裁判文书的词向量学习模型,表示司法实体共现网络中的每个实体,结合实体关联关系,抽取第一裁判文书特征。
本步骤进一步包括:
步骤S301,基于所述裁判文书的词向量学习模型构建与表示裁判文书共现网络,得到实体对的全局上下文特征。
本步骤中,实体共现网络由实体共现关系构成,所述实体共现关系定义为任意两个实体在同一个句子中的共同出现关系;从整个裁判文书的全部句子中抽取出所有的实体共现关系,形成一个完整的实体共现网络。将所述司法实体共现网络中的每个实体都使用所述词向量学习模型表示为嵌入向量
Figure BDA0002421066630000051
对于网络中任意实体节点ei,设其相应的邻居集合为Ni={ei1,ei2,......,eij}。
步骤S302,对所述实体对的全局上下文特征进行特征表示。
本步骤中,通过引入注意力机制为每个实体计算其各个相邻实体的不同权重,使用相邻实体的加权词向量和来表示该实体在共现网络中的上下文特征fi c。计算公式如下:
Figure BDA0002421066630000061
其中,
Figure BDA0002421066630000062
为实体ei的第j个相邻实体eij的d维向量,gij为该相邻实体对应的关系权重。通过注意力机制为每个相邻实体eij计算其相对于实体ei的关系重要程度,计算公式如下:
Figure BDA0002421066630000063
其中,
Figure BDA0002421066630000064
为实体ei的d维向量,W1和b1分别为参数矩阵和偏置。对aij进行归一化,使得任意实体的所有相邻实体的权重和为1,从而得到邻居实体的关系权重如下:
Figure BDA0002421066630000065
为每个实体ei计算语料集特征向量fi c,则句子中的每个实体将会得到两个语料级特征
Figure BDA0002421066630000066
Figure BDA0002421066630000067
则实体对语料级特征表示如下:
Figure BDA0002421066630000068
其中,W1和b1分别为参数矩阵和偏置。
步骤S303,基于所述上下文特征表示提取裁判文书中句子级语义特征作为第一裁判文书特征。
本步骤使用双向门控循环单元(bi-GRU)对输入语料进行语义信息提取。对句子s={w1,w2,......,wn},用
Figure BDA0002421066630000069
表示一个句子的所有词向量组成的矩阵,将S输入bi-GRU获得:
Figure BDA00024210666300000610
Figure BDA00024210666300000611
则目标实体对的句子特征由bi-GRU输入通过最大池化层得到,如下:
fs=maxPool(h1,h2,......,hn) (7)
其中,
Figure BDA00024210666300000612
maxPool为最大池化操作。
步骤S4,结合实体属性,抽取第二裁判文书特征。
本步骤具体包括:
步骤S401,抽取裁判文书中的实体属性特征。
本步骤利用司法实体的半结构化描述信息来提供背景信息。对句子s中的实体ei,从知识库D中查找实体ei的属性集合Ai={Ai1,Ai2,......,Aim},然后使用S2中所述方法将Ai中的每个属性Aij的属性名Kij和属性值Vij转化为向量;对于实体ei,我们定义其属性向量的集合KVi={KVi1,KVi2,......,KVim},其中第j个属性向量可以表示为KVij=[Kij;Vij];
步骤S402,基于所述实体属性,抽取裁判文书中的实体特征作为第二裁判文书特征。
本步骤中,对于实体ei有属性向量KVij,首先将属性值向量Vij通过最大池化操作捕捉重要特征
Figure BDA0002421066630000071
接着,将属性名向量Kij与S3中的句子向量fs之间通过点乘操作来计算其对该句子中实体关系的重要程度,计算公式如下:
aij=tanh(Kij(W1(fs)T)) (8)
其中W1为参数矩阵;得到属性的权重分数之后对其进行归一化,最终各属性的权重表示gij和实体特征
Figure BDA0002421066630000072
如下:
Figure BDA0002421066630000073
Figure BDA0002421066630000074
步骤S5,基于所述第一裁判文书特征和第二裁判文书特征,构建人员社交关系抽取模型。
进一步地,本步骤包括:
步骤S501,融合第一裁判文书特征和第二裁判文书特征,得到分类器的输入数据。
本步骤中,将句子级语义特征fs与语料级环境特征fc进行拼接后输入全连接层,得到语义融合特征f,计算公式如下:
f=ReLU(W3[fs;fc]+b3) (11)
其中ReLU为激活函数,W3和b3分别为参数矩阵和偏置;本发明使用语义融合特征和实体特征作为最终分类器的输入。
步骤S502,将所述分类器的输入数据输入分类器,对裁判文书中的实体关系进行分类。
本步骤使用softmax分类器为裁判文书中的目标实体对预测关系类型
Figure BDA0002421066630000075
将所述分类器的输入数据输入分类器,计算关系标签概率分布,计算公式如下:
Figure BDA0002421066630000076
Figure BDA0002421066630000077
其中W4和W5为参数矩阵;模型的损失函数定义为交叉熵损失函数:
Figure BDA0002421066630000078
其中m为语料集中句子数目,r为关系标签类别数,tij表示真实标签的one-hot向量矩阵,θ表示模型的所有参数。
步骤S6,采用所述人员社交关系抽取模型,对司法裁判文书中的人员社交关系进行抽取。
由以上技术方案可以看出,本发明实施例所提供的基于司法裁判文书的人员社交关系抽取方法,通过设计并实现基于预训练语言模型的词向量表示模型,提升了模型的泛化性能以及复用性;通过使用结合实体关联关系的裁判文书特征抽取方法,提高了相关人员关系抽取的召回率;通过使用基于实体属性的裁判文书特征抽取方法,提高了相关人员关系抽取的准确率;结合上述两种裁判文书特征抽取方法构建的关系抽取模型,解决了裁判文书中相关人员关系抽取不准确的问题。充分挖掘裁判文书数据中的实体关联关系以及司法实体的背景信息,有助于法务工作者进行案件相关人员的社交关系发现,在智慧司法的建设中具有重要意义。
以上所述是本发明的优选实施方式,应当指出,本发明并不受限于以上所公开的示范性实施例,说明书的实质仅仅是帮助相关领域技术人员综合理解本发明的具体细节。对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,在本发明揭露的技术范围做出的若干改进和润饰、可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种基于司法裁判文书的人员社交关系抽取方法,其特征在于,所述抽取方法包括如下步骤:
步骤S1,对所述司法裁判文书中的文本信息进行数据清洗、中文分词,并去掉停用词,得到分词后的裁判文书数据;
步骤S2,基于所述分词后的裁判文书数据,构建基于预训练语言模型的词向量学习模型;
步骤S3,采用所述裁判文书的词向量学习模型,表示司法实体共现网络中的每个实体,结合实体关联关系,提取裁判文书中的句子级语义特征fs作为第一裁判文书特征;
步骤S4,结合实体属性,抽取第二裁判文书特征;具体包括:
步骤S401,抽取裁判文书中的实体属性特征;对句子s中的实体ei,从知识库D中查找实体ei的属性集合Ai={Ai1,Ai2,......,Aim},然后将Ai中的每个属性Aij的属性名Kij和属性值Vij转化为向量;对于实体ei,定义其属性向量的集合KVi={KVi1,KVi2,......,KVim},其中第j个属性向量表示为KVij=[Kij;Vij];
步骤S402,基于所述实体属性,抽取裁判文书中的实体特征作为第二裁判文书特征;对于实体ei有属性向量KVij,首先将属性值向量Vij通过最大池化操作捕捉重要特征
Figure FDA0003655548920000011
接着,将属性名向量Kij与S3中的句子级语义特征fs之间通过点乘操作来计算其对该句子中实体关系的重要程度,计算公式如下:
aij=tanh(Kij(W1(fs)T)) (8)
其中W1为参数矩阵;得到属性的权重分数之后对其进行归一化,最终各属性的权重表示gij和实体特征
Figure FDA0003655548920000014
如下:
Figure FDA0003655548920000012
Figure FDA0003655548920000013
步骤S5,基于所述第一裁判文书特征和第二裁判文书特征,构建人员社交关系抽取模型;具体包括:
步骤S501,融合第一裁判文书特征和第二裁判文书特征,首先,将句子级语义特征fs与语料级环境特征进行拼接后输入全连接层,得到语义融合特征;使用语义融合特征和实体特征作为最终分类器的输入;
步骤S502,将分类器的输入数据输入分类器,对裁判文书中的实体关系进行分类;
步骤S6,采用所述人员社交关系抽取模型,对司法裁判文书中的人员社交关系进行抽取。
2.根据权利要求1所述的人员社交关系抽取方法,其特征在于,所述步骤S1包括:
步骤S101,对司法裁判文书中的文本信息进行数据清洗与存储;
步骤S102,基于清洗后的司法裁判文书数据构建法律专业词库和停用词表。
3.根据权利要求2所述的人员社交关系抽取方法,其特征在于,所述数据清洗,进一步为,删除裁判文书中内容为空或者描述字段过少、重复的文本数据;检测并修正裁判文书中的术语缩写、常见拼写错误;使用空格替换裁判文书中的全部特殊符号。
4.根据权利要求1所述的人员社交关系抽取方法,其特征在于,所述步骤S2包括:
步骤S201,对所述分词后的裁判文书进行句段分割,得到裁判文书编号、句子编号以及句子内容的三元组;
步骤S202,对所述三元组中的句子内容进行预处理,得到训练句子语料;
步骤S203,根据所述训练句子语料对预训练语言模型进行参数调整,得到词向量学习模型。
5.根据权利要求4所述的人员社交关系抽取方法,其特征在于,所述步骤S201中的句段分割,进一步为,设定总共包含n篇裁判文书,di表示第i篇裁判文书,裁判文书集合表示为:Dn={d1,d2,......,di,......,dn};对每篇裁判文书di,按“/001”进行分割获取裁判文书编号以及裁判文书内容两部分;对裁判文书内容按照句号、感叹号、问号为句子结束标识进行分割;按照是否包含司法实体对分割后的句子进行筛选,包含司法实体则保留句子,不包含司法实体则删除句子;将保留的句子与裁判文书编号进行拼接,得到裁判文书编号、句子编号以及句子内容的三元组。
6.根据权利要求1所述的人员社交关系抽取方法,其特征在于,所述步骤S3包括:
步骤S301,基于所述裁判文书的词向量学习模型构建与表示裁判文书共现网络,得到实体对的全局上下文特征;
步骤S302,对所述实体对的全局上下文特征进行特征表示;
步骤S303,基于所述上下文特征表示提取裁判文书中句子级语义特征作为第一裁判文书特征。
7.根据权利要求6所述的人员社交关系抽取方法,其特征在于,所述步骤S301中裁判文书共现网络的构建与表示,进一步为,从裁判文书的全部句子中抽取出任意两个实体在同一个句子中的共同出现关系,作为所有的实体共现关系,形成一个完整的实体共现网络;将所述司法实体共现网络中的每个实体都使用所述词向量学习模型表示为嵌入向量
Figure FDA0003655548920000021
CN202010205874.6A 2020-03-23 2020-03-23 一种基于司法裁判文书的人员社交关系抽取方法 Active CN111563374B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010205874.6A CN111563374B (zh) 2020-03-23 2020-03-23 一种基于司法裁判文书的人员社交关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010205874.6A CN111563374B (zh) 2020-03-23 2020-03-23 一种基于司法裁判文书的人员社交关系抽取方法

Publications (2)

Publication Number Publication Date
CN111563374A CN111563374A (zh) 2020-08-21
CN111563374B true CN111563374B (zh) 2022-08-19

Family

ID=72074127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010205874.6A Active CN111563374B (zh) 2020-03-23 2020-03-23 一种基于司法裁判文书的人员社交关系抽取方法

Country Status (1)

Country Link
CN (1) CN111563374B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569046B (zh) * 2021-07-19 2022-10-21 北京华宇元典信息服务有限公司 裁判文书人物关系识别方法、装置和电子设备
CN115033528B (zh) * 2022-06-29 2023-04-07 广东国讯信息科技有限公司 一种档案数据管理方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018224028A1 (zh) * 2017-06-09 2018-12-13 北京国双科技有限公司 获取裁判文书焦点的方法和装置
CN110750974A (zh) * 2019-09-20 2020-02-04 成都星云律例科技有限责任公司 一种裁判文书结构化处理方法及***

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8504490B2 (en) * 2010-04-09 2013-08-06 Microsoft Corporation Web-scale entity relationship extraction that extracts pattern(s) based on an extracted tuple
CN108763321B (zh) * 2018-05-02 2021-07-06 深圳智能思创科技有限公司 一种基于大规模相关实体网络的相关实体推荐方法
CN109472033B (zh) * 2018-11-19 2022-12-06 华南师范大学 文本中的实体关系抽取方法及***、存储介质、电子设备
CN109933789B (zh) * 2019-02-27 2021-04-13 中国地质大学(武汉) 一种基于神经网络的司法领域关系抽取方法及***
CN109992629B (zh) * 2019-02-28 2021-08-06 中国科学院计算技术研究所 一种融合实体类型约束的神经网络关系抽取方法及***
CN109947897B (zh) * 2019-03-15 2020-12-15 南京邮电大学 司法案件事件树构建方法
CN110650156B (zh) * 2019-10-23 2021-12-31 北京天融信网络安全技术有限公司 网络实体的关系聚类方法、装置及网络事件的识别方法
CN110837558B (zh) * 2019-11-07 2022-04-15 成都星云律例科技有限责任公司 一种裁判文书实体关系抽取方法及***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018224028A1 (zh) * 2017-06-09 2018-12-13 北京国双科技有限公司 获取裁判文书焦点的方法和装置
CN110750974A (zh) * 2019-09-20 2020-02-04 成都星云律例科技有限责任公司 一种裁判文书结构化处理方法及***

Also Published As

Publication number Publication date
CN111563374A (zh) 2020-08-21

Similar Documents

Publication Publication Date Title
CN110427623B (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN110717047B (zh) 一种基于图卷积神经网络的Web服务分类方法
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
CN107239444B (zh) 一种融合词性与位置信息的词向量训练方法及***
CN105279495B (zh) 一种基于深度学习和文本总结的视频描述方法
CN109670039B (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN110569508A (zh) 融合词性和自注意力机制的情感倾向性分类方法及***
CN109800310B (zh) 一种基于结构化表达的电力运维文本分析方法
US20160350288A1 (en) Multilingual embeddings for natural language processing
CN110807328A (zh) 面向法律文书多策略融合的命名实体识别方法及***
CN110134954B (zh) 一种基于Attention机制的命名实体识别方法
CN113157859B (zh) 一种基于上位概念信息的事件检测方法
Li et al. UD_BBC: Named entity recognition in social network combined BERT-BiLSTM-CRF with active learning
CN111563374B (zh) 一种基于司法裁判文书的人员社交关系抽取方法
CN113468887A (zh) 基于边界与片段分类的学者信息关系抽取方法和***
CN112699685A (zh) 基于标签引导的字词融合的命名实体识别方法
CN111710428A (zh) 一种建模全局和局部上下文交互的生物医学文本表示方法
Van Atteveldt et al. Studying political decision making with automatic text analysis
CN115470871A (zh) 基于命名实体识别与关系抽取模型的政策匹配方法及***
CN110610003A (zh) 用于辅助文本标注的方法和***
CN112989830A (zh) 一种基于多元特征和机器学习的命名实体识别方法
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN115878800A (zh) 一种融合共现图和依赖关系图的双图神经网络及其构建方法
Aouichaty et al. Automated decision classification model for tax appeals commission in Morocco using latent dirichlet allocation
CN114328894A (zh) 文档处理方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant