CN114547257A - 类案匹配方法、装置、计算机设备及存储介质 - Google Patents

类案匹配方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN114547257A
CN114547257A CN202210437396.0A CN202210437396A CN114547257A CN 114547257 A CN114547257 A CN 114547257A CN 202210437396 A CN202210437396 A CN 202210437396A CN 114547257 A CN114547257 A CN 114547257A
Authority
CN
China
Prior art keywords
event
case
target
extraction
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210437396.0A
Other languages
English (en)
Other versions
CN114547257B (zh
Inventor
陈晓红
文泽雄
胡东滨
曹文治
徐雪松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University of Technology
Original Assignee
Hunan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University of Technology filed Critical Hunan University of Technology
Priority to CN202210437396.0A priority Critical patent/CN114547257B/zh
Publication of CN114547257A publication Critical patent/CN114547257A/zh
Application granted granted Critical
Publication of CN114547257B publication Critical patent/CN114547257B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Evolutionary Biology (AREA)
  • Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Technology Law (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种类案匹配方法,应用于司法案件技术领域,用于提高类案匹配的准确性。本申请提供的方法包括:获取目标案件,根据预设的事件抽取规则,对所述目标案件进行要素抽取,得到事件特征信息;通过在线数据库,获取案件样本并构成案件样本库,对所述案件样本进行要素抽取和因果关系抽取,得到所述案件样本的事件连接图;根据所述预设的事件抽取规则,对所述事件连接图中的命名实体进行要素标注,获取事件元素信息并生成事件元素节点构成案件图谱;计算所述事件特征信息与所述案件图谱的向量相似度,得到所述事件特征信息与所述案件图谱的匹配值;基于所述匹配值,从所述案件样本库中筛选出所述目标案件的类似案件。

Description

类案匹配方法、装置、计算机设备及存储介质
技术领域
本申请涉及司法案件技术领域,尤其涉及一种类案匹配方法、装置、计算机设备及存储介质。
背景技术
目前,随着人们法律意识的逐渐增强以及维权意识的提高,司法类案件的数量也越来越多。人们在处理某一案件时,趋向于查找相似案件进行参考,以便进一步了解本身案件所涉及的案点和相关法律。
现有检索方法一般是根据检索引擎查询相似案件,主要是基于句子级别进行匹配,通过将句子的词义、语义、句法结构转化为向量,再使用分类器对时间触发词和事件元素进行分类。但是,相似案件的案件文书往往包含很多信息,仅将句子级事件转化成篇章级事件会丢失关键信息,导致相似案件的检索准确性不高。
发明内容
本申请提供一种类案匹配方法、装置、计算机设备及存储介质,以提高类案匹配的准确性。
一种类案匹配方法,包括:
获取目标案件,根据预设的事件抽取规则,对所述目标案件进行要素抽取,得到事件特征信息,其中,所述事件特征信息包括至少一个目标元素以及对应的目标元素信息,所述预设的事件抽取规则包括命名实体的抽取规则,命名实体类型包括事件类型、事件触发词、事件要素和要素角色;
通过在线数据库,获取案件样本并构成案件样本库,对所述案件样本进行要素抽取和因果关系抽取,得到所述案件样本的事件连接图;
根据所述预设的事件抽取规则,对所述事件连接图中的命名实体进行要素标注,获取事件元素信息并生成事件元素节点构成案件图谱;
计算所述事件特征信息与所述案件图谱的向量相似度,得到所述事件特征信息与所述案件图谱的匹配值;
基于所述匹配值,从所述案件样本库中筛选出所述目标案件的类似案件。
一种类案匹配装置,包括:
特征信息获取模块,用于获取目标案件,根据预设的事件抽取规则,对所述目标案件进行要素抽取,得到事件特征信息,其中,所述事件特征信息包括至少一个目标元素以及对应的目标元素信息,所述预设的事件抽取规则包括命名实体的抽取规则,命名实体类型包括事件类型、事件触发词、事件要素和要素角色;
连接图生成模块,用于通过在线数据库,获取案件样本并构成案件样本库,对所述案件样本进行要素抽取和因果关系抽取,得到所述案件样本的事件连接图;
案件图谱生成模块,用于根据所述预设的事件抽取规则,对所述事件连接图中的命名实体进行要素标注,获取事件元素信息并生成事件元素节点构成案件图谱;
匹配值计算模块,用于计算所述事件特征信息与所述案件图谱的向量相似度,得到所述事件特征信息与所述案件图谱的匹配值;
类案匹配模块,用于基于所述匹配值,从所述案件样本库中筛选出所述目标案件的类似案件。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述类案匹配方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述类案匹配方法的步骤。
本申请提供的类案匹配方法、装置、计算机设备及存储介质,通过抽取目标案件中的事件特征信息,获取案件样本,根据案件样本生成案件图谱,其中,根据命名实体抽取方式,抽取出关键信息形成案件图谱,通过比较时间特征信息中的元素信息与案件图谱的元素信息的相似度,得到目标案件与案件样本的相似度,用以准确匹配到与目标案件相似的类似案件。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例中类案匹配方法的一应用环境示意图;
图2是本申请一实施例中类案匹配方法的一流程图;
图3是本申请一实施例中类案匹配装置的结构示意图;
图4是本申请一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的类案匹配方法,可应用在如图1的应用环境中,其中,计算机设备通过网络与服务器进行通信。其中,计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
***框架100可以包括终端设备、网络和服务器。网络用以在终端设备和服务器之间提供通信链路的介质。网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备通过网络104与服务器交互,以接收或者发送消息等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器( Moving Picture EpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3 )、MP4( Moving PictureEperts Group Audio Layer IV,动态影像专家压缩标准音频层面4 )播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的类案匹配方法由服务器执行,相应地,类案匹配装置设置于服务器中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的,根据实现需要,可以具有任意数目的终端设备、网络和服务器,本申请实施例中的终端设备具体可以对应的是实际生产中的应用***。
在一实施例中,如图2所示,提供一种类案匹配方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤S10至S50。
S10,获取目标案件,根据预设的事件抽取规则,对目标案件进行要素抽取,得到事件特征信息,其中,事件特征信息包括至少一个目标元素以及对应的目标元素信息,预设的事件抽取规则包括命名实体的抽取规则,命名实体类型包括事件类型、事件触发词、事件要素和要素角色。
具体的,目标案件是指进行类案查询的司法案件,可以是当前正在处理的案件。类案指的是目标案件类似的司法案件,与目标案件类似指的是案件类型相似、案件起因相似等。通过查询类似案件,了解对应案件的法律信息以及司法文书。
预设的事件抽取规则定义了案件中的命名实体类型以及对应的命名实体抽取规则,其中,命名实体类型包括事件类型、事件触发词、事件要素和要素角色。
事件类型指的是司法案件的立案方式,例如自首、报案等;事件触发词指的是“自首”、“主动投案”等词语;要素角色指的是案件的相关人物,例如时间、立案单位、被告人、单位等;事件要素指的是要素角色对应的元素信息,例如时间要素角色对应的具体时间、立案单位对应的单位名称。
事件特征信息信息是指目标案件对应的案件信息,根据预设的事件抽取规则,从目标案件中抽取出对应的命名实体和命名实体对应的特征信息,构成事件特征信息。
具体的,根据预设的事件抽取规则获取目标案件的事件特征信息,事件特征信息包括目标案件的事件类型、事件触发词、事件要素以及要素角色等。
S20,通过在线数据库,获取案件样本并构成案件样本库,对案件样本进行要素抽取和因果关系抽取,得到案件样本的事件连接图。
具体的,在线数据库是指包含司法案件的数据库,具体可以是裁判文书网,获取裁判文书网上的案件样本并构成案件样本库。在获取案件样本库的过程中,可根据目标案件的案件类型,获取相同的案件类型的案件样本,以提高构建案件样本库的效率。例如,目标案件为生态环保类,则获取生态环保类的案件样本。
作为一种可选的实施方式,构建案件样本库之后,对案件样本库中的案件文书进行清洗、去除停用词和缺失信息,再对案件样本进行要素抽取和因果关系抽取。
其中,要素抽取是指根据预设的事件抽取规则,抽取出案件样本的要素信息,同时,对案件样本中的文书进行因果关系分析与抽取,得到因果关系,根据要素信息与因果关系构建案件样本的事件连接图。
因果关系用于表征案件样本中各个命名实体之间的关联,具体有四种情况:
(1)因果关系,即事件A会导致事件B,例如:“王某的非法捕捞导致了流域生态环境的破坏”等;
(2)顺承关系,即事件A与事件B具有先后逻辑关系,例如:“王某将树砍到后装到了扯上。”;
(3)并列关系,即事件A与事件B同事发生;
(4)转折关系,即事件A与事件B处于对立面。
需要说明的是,案件样本库包括多件案件样本,对每件案件样本都执行S20的步骤,以得到每个案件样本的事件连接图。
S30,根据预设的事件抽取规则,对事件连接图中的命名实体进行要素标注,获取事件元素信息并生成事件元素节点构成案件图谱。
具体的,在经过S20的要素抽取之后,根据预设的事件抽取规则,对事件连接图中的命名实体进行要素标注,获取事件元素信息,根据命名实体类型和对应的事件元素信息,构成案件图谱。
S40,计算事件特征信息与案件图谱的向量相似度,得到事件特征信息与案件图谱的匹配值。
具体的,计算事件特征信息的目标元素信息与案件图谱的事件元素信息的向量相似度,具体是:计算事件特征信息的目标元素信息的目标特征向量,以及事件元素信息的元素向量,通过余弦相似度的方式计算目标特征向量与事件元素向量的向量相似度,得到相似度结果,得到事件特征信息与案件图谱的匹配值,即将匹配值作为目标案件与该案件图谱对应的案件样本的匹配度。
S50,基于匹配值,从案件样本库中筛选出目标案件的类似案件。
具体的,基于匹配值,将匹配值最大的案件样本作为目标案件的类似案件。
需要说明的是,根据匹配值的大小排序,按照匹配值从大到小筛选出预设数量的案件样本作为目标案件的类似案件。
本申请提供的类案匹配方法,通过获取案件样本构成案件样本库,对案件样本库进行要素抽取和因果抽取,以得到案件样本的事件连接图,并根据事件连接图进行命名实体抽取,得到案件样本的事件元素信息,并生成事件元素节点构成案件图谱。根据预设的事件抽取规则,生成目标案件的事件特征信息,将事件特征信息与案件图谱进行向量相似度计算,得到目标案件与案件样本的匹配值,根据匹配值得到目标案件的类似案件,根据要素匹配的方式,提高为目标案件匹配到类似案件的准确性。
作为一种可选的实施方式,在步骤S10中,获取目标案件,根据预设的事件抽取规则,对目标案件进行要素抽取,得到事件特征信息包括如下步骤S101至S102。
S101,获取目标案件的案件文本,根据预设的事件抽取规则,确定案件文本的目标元素。
S102,对目标元素进行元素抽取,将抽取得到的目标元素信息作为事件特征信息。
具体的,获取目标案件的案件文本,根据预设的事件抽取规则,抽取案件文本中的目标元素,目标元素指的是命名实体,即事件类型、事件触发词、、事件要素和要素角色等。
抽取出案件文本中目标元素对应的目标元素信息,作为事件特征信息信息。
在本实施例中,对目标案件进行命名实体抽取,将目标案件的特征信息通过命名实体识别和要素抽取,生成目标案件的事件特征信息,只需通过事件特征信息为目标案件匹配类似的案件,从而避免对目标案件的案件文本进行分析,提高类案匹配的效率,同时,避免通过句子语义进行信息提取,减少关键信息的丢失。
作为一种可选的实施方式,在步骤S20中,通过在线数据库,获取案件样本并构成案件样本库,对案件样本进行要素抽取和因果关系抽取,得到案件样本的事件连接图包括如下步骤S201至S204。
S201,通过在线数据库,获取案件样本的判决文本,构成案件样本库。
S202,对判决文本进行预处理之后,对判决文本进行依存语法分析,得到分析结果。
S203,基于分析结果,对判决文本进行要素抽取和因果抽取,得到事件元素以及事件元素之间的因果关系。
S204,基于事件元素和因果关系,构成事件三元组,基于事件三元组构成事件连接图。
具体的,通过在线数据库获取案件样本的判决文本,以案件样本为单位,构成案件样本库。
对判决文本进行文本处理,文本处理的方式包括文本清洗、去除停用词、中文分词以及词性标注,得到预处理之后的判决文本。
对预处理之后的判决文本进行依存语法分析,以识别出判决文本中各个句子在逻辑层面上的依存关系,核心是提取句子中的核心动词作为中心成分,以得到判决文本中,句子的句法机构以及句子中的主谓语分布信息,以便后续进一步分析句法结构以及句子的语义含义。
进行依存语法分析之后,得到分析结果。根据分析结果中表示的句子的句法结构,识别出各个句子对应的要素信息以及句子之间的因果关系,并对因果关系进行因果抽取,将识别出的事件元素以及因果关系构成事件三元组,将事件元素作为事件连接图的节点,事件元素之间的关系作为事件连接图的边。
事件三元组表示为:事件元素-因果关系-事件元素。其中,事件元素是指具有主谓语法结构的句子,表示了事件发生的过程,即某人做了某事。
在本实施例中,通过对案件样本进行要素抽取和因果关系,以将抽取出的关键信息形成事件连接图,以形成事件元素之间的因果关系,对案件***版进行依存语法分析,在后续进行要素抽取和因果抽取时,能够进一步理解句子的句法结构以及语义含义,进一步保证准确提取出事件元素的准确性。
作为一种可选的实施方式,在步骤S204中,基于事件元素和因果关系,构成事件三元组,基于事件三元组构成事件连接图包括步骤S241至S242。
S241,将事件三元组的事件元素作为节点,通过textrank算法迭代计算节点的权重,直到权重收敛,得到节点权重。
S242,按照节点权重的大小顺序,对节点进行排序并生成排序列表,选取排序列表的前列预设数量的节点,构成事件连接图。
具体的,将事件三元组中的事件元素作为节点,事件元素之间的关系作为边连接两个具有因果关系的事件元素,构成连接关系。
通过Textrank算法中的迭代公式,计算并调整节点的节点权重,直至节点权重收敛;根据节点权重进行排序,选择预设数量的节点,并保留节点之间的连接关系,构成事件连接图。
其中,Textrank算法的迭代公式表示为:
Figure 966030DEST_PATH_IMAGE001
Figure 617592DEST_PATH_IMAGE002
表示事件元素i的节点权重,
Figure 318700DEST_PATH_IMAGE003
表示事件元素j的节点权重,
Figure 448330DEST_PATH_IMAGE004
表示事件元素j和事件元素i之间的相似度,
Figure 793861DEST_PATH_IMAGE005
表示事件元素j和事件元素k之间的相似度,d表示阻尼系数,取值一般为0.85。
Figure 288427DEST_PATH_IMAGE006
表示事件元素j所在的节点集合,
Figure 289881DEST_PATH_IMAGE007
表示事件元素k。
其中,事件元素之间的相似度,通过计算两个事件元素对应的句子之间的所包含的词语的重复度,具体计算方式如下所示:
Figure 285519DEST_PATH_IMAGE009
Figure 688819DEST_PATH_IMAGE010
表示事件元素i中的句子所包含的句子词语数量,
Figure 603554DEST_PATH_IMAGE011
表示事件元素j中的句子所包含的句子词语数量,
Figure 92304DEST_PATH_IMAGE012
表示同时出现在事件元素j和事件元素i中的词语的数量。
在本实施例中,根据事件三元组,构建事件连接图,并根据textrank算法对事件连接图中的节点权重进行迭代计算,进而更新节点之间的相似度以生成事件连接图,提高事件连接图中每个节点的关联。
作为一种可选的实施方式,在步骤S30中,根据预设的事件抽取规则,对事件连接图中的命名实体进行要素标注,获取事件元素信息并生成事件元素节点构成案件图谱包括步骤S301至S303。
S301,获取事件连接图中每个节点对应的文本,作为待标注文本。
S302,根据预设的事件抽取规则,对待标注文本的命名实体进行要素标注,并获取对应的事件元素信息。
S303,将命名实体类型为事件触发词的节点作为中心节点,其他命名实体类型作为周围节点,中心节点与周围节点构成案件图谱。
具体的,获取事件连接图中的节点对应的文本,作为待标注文本,对待标注文本中的命名实体进行标注,并获取命名实体类型对应的文本信息作为事件元素信息。具体的,待标注文本中的命名实体具体包括事件类型、事件触发词、事件要素以及要素角色。
预设的事件抽取规则指的是命名实体的抽取规则,具体说明已在上文解释,再次不再赘述。
事件元素信息指的是各个命名实体类型对应的元素信息,例如,事件类型指的是案件的报案形式等,则事件类型对应的事件元素信息则是报案、自首等。
将带有事件触发词的节点作为中心节点,其他命名实体类型的节点作为周围节点,由中心节点与周围节点构成案件图谱。
在本实施例中,案件图谱根据预设的事件抽取规则,以命名实体作为案件图谱的构成节点,以图谱形式表示案件样本的案件信息,进而能够根据图谱表示案件的关键信息,并且能够根据对节点权重进行迭代的方式,筛选出更具有关键信息的事件元素信息,加快为目标案件匹配到类似案件的效率。
作为一种可选的实施方式,在步骤S40中,计算事件特征信息与案件图谱的向量相似度,得到事件特征信息与案件图谱的匹配值包括步骤S401至S403。
S401,基于同一命名实体类型,计算目标元素信息的目标特征向量,并计算事件元素节点对应的事件元素信息的事件元素向量。
S402,计算目标特征向量与同一实体命名实体类型的所有事件元素向量的余弦相似度,并基于余弦相似度计算目标元素信息与所有事件元素节点的相似度均值。
S403,将所有命名实体类型的相似度均值求和,得到相似度求和值,将相似度求和值作为事件特征信息与案件图谱的匹配值。
具体的,根据同一命名实体类型,计算目标元素信息的目标特征向量,同时计算事件元素节点对应的事件元素信息的事件元素向量。
计算同一命名实体类型的目标特征向量与事件元素向量的余弦相似度,并计算同一命名实体类型,目标特征向量与事件元素向量的余弦相似度均值,得到相似度均值,具体做法是:分别计算目标特征向量与所有事件元素向量的余弦相似度;对所有的余弦相似度进行求和后再求均值,得到相似度均值。
分别计算每个命名实体类型的相似度均值,在将所有命名实体类型的相似度均值求和,得到相似度求和值,将相似度求和值作为事件特征信息与案件图谱的匹配度,其中,匹配度标识了目标案件与案件样本的相似程度。
需要说明的是,步骤S401至S403以一个案件样本为例,最终得出的匹配值表示该案件样本与目标样本的匹配程度。实际上,本实施例中包括多件案件样本,则应计算所有案件样本的匹配值。
在本实施例中,通过计算事件特征信息与案件图谱的向量相似度,得到事件特征信息与案件图谱的匹配值,将匹配值作为类案屁配的指标,从而不用通过比对目标案件的全文与案件样本,进一步加快了类案匹配的效率。
作为一种可选的实施方式,在步骤S40中还包括步骤S41至S42。
S41,通过textrank算法,计算案件图谱中的事件元素节点的元素权重,根据元素权重的大小,筛选出元素权重最大的预设数量的事件元素节点,作为案件元素节点。
S42,计算案件元素节点的案件元素向量,并计算案件元素向量与目标特征向量的余弦相似度,并得到相似度均值。
具体的,作为一种优选的实施方式,在计算事件特征信息与案件图谱的匹配值之前,通过textrank算法,计算案件图谱中的事件元素节点的元素权重,直到停止迭代之后,按照元素权重的大小,在每个命名实体类型中筛选出预设数量的事件元素节点,作为案件元素节点,并计算案件元素节点与目标特征向量相似度均值,并执行上述步骤S403,得到案件图谱与事件特征信息的匹配值。
在本实施例中,通过textrank算法计算案件图谱中的元素权重,进而少选出权重较大的事件元素节点,后续计算出匹配值能够为目标案件匹配更相似的案件样本,提高类案匹配的效果,保证匹配结果的准确性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
在一实施例中,提供一种类案匹配装置,该类案匹配装置与上述实施例中类案匹配方法一一对应。如图3所示,该类案匹配装置包括特征信息获取模块31、连接图生成模块32、案件图谱生成模块33、匹配值计算模块34和类案匹配模块。
特征信息获取模块31,用于获取目标案件,根据预设的事件抽取规则,对目标案件进行要素抽取,得到事件特征信息,其中,事件特征信息包括至少一个目标元素以及对应的目标元素信息,预设的事件抽取规则包括命名实体的抽取规则,命名实体类型包括事件类型、事件触发词、事件要素和要素角色。
连接图生成模块32,用于通过在线数据库,获取案件样本并构成案件样本库,对案件样本进行要素抽取和因果关系抽取,得到案件样本的事件连接图。
案件图谱生成模块33,用于根据预设的事件抽取规则,对事件连接图中的命名实体进行要素标注,获取事件元素信息并生成事件元素节点构成案件图谱。
匹配值计算模块34,用于计算事件特征信息与案件图谱的向量相似度,得到事件特征信息与案件图谱的匹配值。
类案匹配模块35,用于基于匹配值,从案件样本库中筛选出目标案件的类似案件。
作为一种可选的实施方式,特征信息获取模块31包括如下单元。
目标元素获取单元,用于获取目标案件的案件文本,根据预设的事件抽取规则,确定案件文本的目标元素。
事件特征信息获取单元,用于对目标元素进行元素抽取,将抽取得到的目标元素信息作为事件特征信息。
作为一种可选的实施方式,连接图生成模块32包括如下单元。
样本获取单元,用于通过在线数据库,获取案件样本的判决文本,构成案件样本库。
文本处理单元,用于对判决文本进行预处理之后,对判决文本进行依存语法分析,得到分析结果。
要素抽取单元,用于基于分析结果,对判决文本进行要素抽取和因果抽取,得到事件元素以及事件元素之间的因果关系。
第一连接图构成单元,用于基于事件元素和因果关系,构成事件三元组,基于事件三元组构成事件连接图。
作为一种可选的实施方式,连接图生成模块还包括如下单元。
节点权重生成单元,用于将事件三元组的事件元素作为节点,通过textrank算法迭代计算节点的权重,直到权重收敛,得到节点权重。
第二连接图构成模块,用于按照节点权重的大小顺序,对节点进行排序并生成排序列表,选取排序列表的前列预设数量的节点,构成事件连接图。
作为一种可选的实施方式,案件图谱生成模块33包括如下单元。
待标注文本获取单元,用于获取事件连接图中每个节点对应的文本,作为待标注文本。
事件元素信息获取单元,用于根据预设的事件抽取规则,对待标注文本的命名实体进行要素标注,并获取对应的事件元素信息。
案件图谱生成单元,用于将命名实体类型为事件触发词的节点作为中心节点,其他命名实体类型作为周围节点,中心节点与周围节点构成案件图谱。
作为一种可选的实施方式,匹配值计算模块34包括如下单元。
向量生成单元,用于基于同一命名实体类型,计算目标元素信息的目标特征向量,并计算事件元素节点对应的事件元素信息的事件元素向量。
相似度计算单元,用于计算目标特征向量与同一实体命名实体类型的所有事件元素向量的余弦相似度,并基于余弦相似度计算目标元素信息与所有事件元素节点的相似度均值。
匹配值计算单元,用于将所有命名实体类型的相似度均值求和,得到相似度求和值,将相似度求和值作为事件特征信息与案件图谱的匹配值。
作为一种可选的实施方式,类案匹配装置还包括如下模块。
案件元素节点模块,用于通过textrank算法,计算案件图谱中的事件元素节点的元素权重,根据元素权重的大小,筛选出元素权重最大的预设数量的事件元素节点,作为案件元素节点。
相似度均值计算模块,用于计算案件元素节点的案件元素向量,并计算案件元素向量与目标特征向量的余弦相似度,并得到相似度均值。
其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分,并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式。
关于类案匹配装置的具体限定可以参见上文中对于类案匹配方法的限定,在此不再赘述。上述类案匹配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储类案匹配方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种类案匹配方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中类案匹配方法的步骤,例如图2所示的步骤S10至步骤S50及该方法的其它扩展和相关步骤的延伸。或者,处理器执行计算机程序时实现上述实施例中类案匹配装置的各模块/单元的功能,例如图3所示模块31至模块35的功能。为避免重复,这里不再赘述。
处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。
存储器可以集成在处理器中,也可以与处理器分开设置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中类案匹配方法的步骤,例如图2所示的步骤S10至步骤S50及该方法的其它扩展和相关步骤的延伸。或者,计算机程序被处理器执行时实现上述实施例中类案匹配装置的各模块/单元的功能,例如图3所示模块31至模块35的功能。为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解。其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种类案匹配方法,其特征在于,包括:
获取目标案件,根据预设的事件抽取规则,对所述目标案件进行要素抽取,得到事件特征信息,其中,所述事件特征信息包括至少一个目标元素以及对应的目标元素信息,所述预设的事件抽取规则包括命名实体的抽取规则,命名实体类型包括事件类型、事件触发词、事件要素和要素角色;
通过在线数据库,获取案件样本并构成案件样本库,对所述案件样本进行要素抽取和因果关系抽取,得到所述案件样本的事件连接图;
根据所述预设的事件抽取规则,对所述事件连接图中的命名实体进行要素标注,获取事件元素信息并生成事件元素节点构成案件图谱;
计算所述事件特征信息与所述案件图谱的向量相似度,得到所述事件特征信息与所述案件图谱的匹配值;
基于所述匹配值,从所述案件样本库中筛选出所述目标案件的类似案件。
2.根据权利要求1所述的类案匹配方法,其特征在于,所述获取目标案件,根据预设的事件抽取规则,对所述目标案件进行要素抽取,得到事件特征信息包括:
获取所述目标案件的案件文本,根据预设的事件抽取规则,确定所述案件文本的目标元素;
对所述目标元素进行元素抽取,将抽取得到的目标元素信息作为事件特征信息。
3.根据权利要求1所述的类案匹配方法,其特征在于,所述通过在线数据库,获取案件样本并构成案件样本库,对所述案件样本进行要素抽取和因果关系抽取,得到所述案件样本的事件连接图包括:
通过在线数据库,获取案件样本的判决文本,构成案件样本库;
对所述判决文本进行预处理之后,对所述判决文本进行依存语法分析,得到分析结果;
基于所述分析结果,对所述判决文本进行要素抽取和因果抽取,得到事件元素以及所述事件元素之间的因果关系;
基于所述事件元素和所述因果关系,构成事件三元组,基于所述事件三元组构成事件连接图。
4.根据权利要求3所述的类案匹配方法,其特征在于,所述基于所述事件元素和所述因果关系,构成事件三元组,基于所述事件三元组构成事件连接图包括:
将所述事件三元组的所述事件元素作为节点,通过textrank算法迭代计算所述节点的权重,直到所述权重收敛,得到节点权重;
按照节点权重的大小顺序,对所述节点进行排序并生成排序列表,选取所述排序列表的前列预设数量的节点,构成所述事件连接图。
5.根据权利要求1所述的类案匹配方法,其特征在于,所述根据所述预设的事件抽取规则,对所述事件连接图中的命名实体进行要素标注,获取事件元素信息并生成事件元素节点构成案件图谱包括:
获取所述事件连接图中每个节点对应的文本,作为待标注文本;
根据所述预设的事件抽取规则,对所述待标注文本的命名实体进行要素标注,并获取对应的事件元素信息;
将命名实体类型为事件触发词的节点作为中心节点,其他命名实体类型作为周围节点,所述中心节点与所述周围节点构成案件图谱。
6.根据权利要求1所述的类案匹配方法,其特征在于,所述计算所述事件特征信息与所述案件图谱的向量相似度,得到所述事件特征信息与所述案件图谱的匹配值包括:
基于同一命名实体类型,计算所述目标元素信息的目标特征向量,并计算所述事件元素节点对应的事件元素信息的事件元素向量;
计算所述目标特征向量与同一实体命名实体类型的所有所述事件元素向量的余弦相似度,并基于所述余弦相似度计算目标元素信息与所有事件元素节点的相似度均值;
将所有命名实体类型的相似度均值求和,得到相似度求和值,将所述相似度求和值作为所述事件特征信息与所述案件图谱的匹配值。
7.根据权利要求6所述的类案匹配方法,其特征在于,所述方法还包括:
通过textrank算法,计算所述案件图谱中的事件元素节点的元素权重,根据元素权重的大小,筛选出元素权重最大的预设数量的事件元素节点,作为案件元素节点;
计算所述案件元素节点的案件元素向量,并计算所述案件元素向量与所述特征向量的余弦相似度,并得到所述相似度均值。
8.一种类案匹配装置,其特征在于,包括:
特征信息获取模块,用于获取目标案件,根据预设的事件抽取规则,对所述目标案件进行要素抽取,得到事件特征信息,其中,所述事件特征信息包括至少一个目标元素以及对应的目标元素信息,所述预设的事件抽取规则包括命名实体的抽取规则,命名实体类型包括事件类型、事件触发词、事件要素和要素角色;
连接图生成模块,用于通过在线数据库,获取案件样本并构成案件样本库,对所述案件样本进行要素抽取和因果关系抽取,得到所述案件样本的事件连接图;
案件图谱生成模块,用于根据所述预设的事件抽取规则,对所述事件连接图中的命名实体进行要素标注,获取事件元素信息并生成事件元素节点构成案件图谱;
匹配值计算模块,用于计算所述事件特征信息与所述案件图谱的向量相似度,得到所述事件特征信息与所述案件图谱的匹配值;
类案匹配模块,用于基于所述匹配值,从所述案件样本库中筛选出所述目标案件的类似案件。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述类案匹配方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述类案匹配方法的步骤。
CN202210437396.0A 2022-04-25 2022-04-25 类案匹配方法、装置、计算机设备及存储介质 Active CN114547257B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210437396.0A CN114547257B (zh) 2022-04-25 2022-04-25 类案匹配方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210437396.0A CN114547257B (zh) 2022-04-25 2022-04-25 类案匹配方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN114547257A true CN114547257A (zh) 2022-05-27
CN114547257B CN114547257B (zh) 2022-07-19

Family

ID=81666816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210437396.0A Active CN114547257B (zh) 2022-04-25 2022-04-25 类案匹配方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN114547257B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116070624A (zh) * 2023-04-06 2023-05-05 中南大学 一种基于环保案件要素的类案推送方法
CN117851608A (zh) * 2024-01-06 2024-04-09 杭州威灿科技有限公司 案件图谱生成方法、装置、设备和介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150363509A1 (en) * 2014-06-13 2015-12-17 Yahoo! Inc. Entity Generation Using Queries
US20160224637A1 (en) * 2013-11-25 2016-08-04 Ut Battelle, Llc Processing associations in knowledge graphs
CN107908671A (zh) * 2017-10-25 2018-04-13 南京擎盾信息科技有限公司 基于法律数据的知识图谱构建方法及***
CN108038091A (zh) * 2017-10-30 2018-05-15 上海思贤信息技术股份有限公司 一种基于图的裁判文书案件相似计算与检索方法及***
US20190155940A1 (en) * 2017-11-17 2019-05-23 Accenture Global Solutions Limited Real-time prediction and explanation of sequences of abnormal events
CN110737821A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 相似事件查询的方法、装置、存储介质和终端设备
CN111241241A (zh) * 2020-01-08 2020-06-05 平安科技(深圳)有限公司 基于知识图谱的案件检索方法、装置、设备及存储介质
US20210103256A1 (en) * 2019-09-06 2021-04-08 Intelligent Fusion Technology, Inc. Decision support method and apparatus for machinery control
CN113407729A (zh) * 2021-05-11 2021-09-17 银江股份有限公司 一种面向司法的个性化案例推荐方法及***
CN114092283A (zh) * 2021-10-28 2022-02-25 湘潭大学 一种基于知识图谱匹配的法律案例相似度计算方法及***

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160224637A1 (en) * 2013-11-25 2016-08-04 Ut Battelle, Llc Processing associations in knowledge graphs
US20150363509A1 (en) * 2014-06-13 2015-12-17 Yahoo! Inc. Entity Generation Using Queries
CN107908671A (zh) * 2017-10-25 2018-04-13 南京擎盾信息科技有限公司 基于法律数据的知识图谱构建方法及***
CN108038091A (zh) * 2017-10-30 2018-05-15 上海思贤信息技术股份有限公司 一种基于图的裁判文书案件相似计算与检索方法及***
US20190155940A1 (en) * 2017-11-17 2019-05-23 Accenture Global Solutions Limited Real-time prediction and explanation of sequences of abnormal events
CN110737821A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 相似事件查询的方法、装置、存储介质和终端设备
US20210103256A1 (en) * 2019-09-06 2021-04-08 Intelligent Fusion Technology, Inc. Decision support method and apparatus for machinery control
CN111241241A (zh) * 2020-01-08 2020-06-05 平安科技(深圳)有限公司 基于知识图谱的案件检索方法、装置、设备及存储介质
CN113407729A (zh) * 2021-05-11 2021-09-17 银江股份有限公司 一种面向司法的个性化案例推荐方法及***
CN114092283A (zh) * 2021-10-28 2022-02-25 湘潭大学 一种基于知识图谱匹配的法律案例相似度计算方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YONGJUN WANG;JING GAO: "Case Recommendation Algorithm of Discipline Inspection and Supervision based on Knowledge Graph", 《2021 2ND INTERNATIONAL CONFERENCE ON ELECTRONICS, COMMUNICATIONS AND INFORMATION TECHNOLOGY (CECIT)》 *
李培峰,周国栋,朱巧明: "基于语义的中文事件触发词抽取联合模型", 《北大核心》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116070624A (zh) * 2023-04-06 2023-05-05 中南大学 一种基于环保案件要素的类案推送方法
CN117851608A (zh) * 2024-01-06 2024-04-09 杭州威灿科技有限公司 案件图谱生成方法、装置、设备和介质

Also Published As

Publication number Publication date
CN114547257B (zh) 2022-07-19

Similar Documents

Publication Publication Date Title
US11227118B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
WO2022116537A1 (zh) 一种资讯推荐方法、装置、电子设备和存储介质
CN111666401B (zh) 基于图结构的公文推荐方法、装置、计算机设备及介质
CN109885773B (zh) 一种文章个性化推荐方法、***、介质及设备
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN114547257B (zh) 类案匹配方法、装置、计算机设备及存储介质
CN111539197A (zh) 文本匹配方法和装置以及计算机***和可读存储介质
CN111325030A (zh) 文本标签构建方法、装置、计算机设备和存储介质
CN114780746A (zh) 基于知识图谱的文档检索方法及其相关设备
CN112070550A (zh) 基于搜索平台的关键词确定方法、装置、设备及存储介质
CN112559895A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN114399396A (zh) 保险产品推荐方法、装置、计算机设备及存储介质
CN115795030A (zh) 文本分类方法、装置、计算机设备和存储介质
CN114416998A (zh) 文本标签的识别方法、装置、电子设备及存储介质
CN109086386B (zh) 数据处理方法、装置、计算机设备和存储介质
CN113569118A (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN109918661B (zh) 同义词获取方法及装置
CN113961811B (zh) 基于事件图谱的话术推荐方法、装置、设备及介质
CN113011153B (zh) 文本相关性检测方法、装置、设备及存储介质
CN115408523A (zh) 基于摘要提取和关键字提取的中长文本分类方法和***
CN111985217B (zh) 一种关键词提取方法、计算设备及可读存储介质
CN111783453B (zh) 文本的情感信息处理方法及装置
CN114528378A (zh) 文本分类方法、装置、电子设备及存储介质
CN114048742A (zh) 文本信息的知识实体和关系抽取方法及文本质量评估方法
CN112149389A (zh) 简历信息结构化处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant