CN113361261A - 一种基于enhance matrix的法律案件候选段落的选取方法及装置 - Google Patents

一种基于enhance matrix的法律案件候选段落的选取方法及装置 Download PDF

Info

Publication number
CN113361261A
CN113361261A CN202110543628.6A CN202110543628A CN113361261A CN 113361261 A CN113361261 A CN 113361261A CN 202110543628 A CN202110543628 A CN 202110543628A CN 113361261 A CN113361261 A CN 113361261A
Authority
CN
China
Prior art keywords
paragraph
candidate
paragraphs
matrix
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110543628.6A
Other languages
English (en)
Other versions
CN113361261B (zh
Inventor
胡峰
董磊
邓维斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202110543628.6A priority Critical patent/CN113361261B/zh
Publication of CN113361261A publication Critical patent/CN113361261A/zh
Application granted granted Critical
Publication of CN113361261B publication Critical patent/CN113361261B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Technology Law (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言处理、人工智能等领域,特别涉及一种基于enhancematrix的法律案件候选段落的选取方法及装置,方法包括对带有推理性质的法律阅读理解数据集进行处理,获取具有候选段落标注的法律数据集;将每个样本中的问题与段落分别进行连接,并通过attention操作通过Bert模型输出两个不同模型参数的段落向量矩阵,根据该两个矩阵计算相似度矩阵R;针对每个样本构建EM矩阵,并利用EM矩阵对相似度矩阵R进行增量处理;将处理后的特征输入二分类任务分类器进行训练,通过训练好的模型获取概率最高的n个段落作为候选段落;本发明提高段落选择的准确率,最大程度的减少向下游任务传递的噪音信息。

Description

一种基于enhance matrix的法律案件候选段落的选取方法及 装置
技术领域
本发明涉及自然语言处理、人工智能等领域,特别涉及一种基于enhance matrix的法律案件候选段落的选取方法及装置。
背景技术
随着社会的发展和大数据时代的到来,法院每年都要处理大量的诉讼案件,人民法院需要根据当事人的诉讼请求、答辩意见以及证据交换的情况,归纳争议焦点,这个过程需要法官根据法律规定和审判经验,结合案件具体情况进行综合归纳,这个过程十分耗费人力,随着人工智能的发展,已将有很多自认语言处理领域的技术应用在法律案件争议焦点归纳上面,并取得了不错的成绩;在获得争议焦点之后,还要考虑对“为什么得到这个争议焦点”提供证据,为争议焦点的获取提供可解释性;由于存在案件类型多,争议焦点数目多,答案寻找存在多跳情况等问题,基于规则的方式已经无法当前的需求,分案件、争议焦点的情况下使用多跳机器阅读理解可以更加出色的完成这个任务。
多跳机器阅读理解是当前人工智能的一个重要研究方向,在自动问答***、聊天机器人中具有广泛的应用。阅读理解答案的正误大多能根据背景材料中的少量几个段落来推断,本文将这些关键段落称为候选段落,候选段落抽取有助于对答案直接相关的段落进行准确定位,目前已有工作专门针对散文阅读理解开展基于抽象词语关联的答案获取方法的研究,针对散文选择题开展选项和背景材料的一致性蕴含问题,文献采用了较为简单的词语匹配抽取算法,正确率不高;另外,多数阅读理解***从问题出发将候选段落抽取同答案生成融合为一个问题来提出联合模型,但该方法缺乏可解释性,且最终答题的精确度并未得到显著提高,本发明的主要工作体现在候选段落抽取这一部分,减少向下游任务传递噪声数据。
答案候选句抽取算法大体可以分为3类:基于信息检索的方法、基于概率主题模型的方法和基于深度学习的词嵌入方法,但是这3类方法依然存在以下问题:
1)基于信息检索的方法将候选句抽取任务看成一个检索问题,早期语义相似度计算方法主要基于空间向量模型,利用TF-IDF刻画文档语句相似度,是一种无监督的学习方式,这种方法简单地采用词匹配和重叠的方式,难以捕获句子之间微妙的相关信息;
2)基于概率主题模型方法的基本思路是通过每一篇文档的主题分布和每一个主题中词的分布来确定句子的相关度,一般采用经典的概率主题模型(Latent DirichletAllocation,LDA)或在语义分析方法(Latent Semantic Analysis,LSA)等,将高维的文档降维到潜在语义低维空间来计算语义相关度,这类方法主要从篇章级别对文档进行建模,而对于微阅读模式的句子级建模表现较差。
发明内容
本发明针对现有的候选段落获取技术在处理具有多跳特点的法律领域相关文档时,无法正确选择与问题相关的候选段落、学习到段落之间的推理关系等缺点,提出一种基于enhance matrix的法律案件候选段落的选取方法及装置,所述方法包括以下步骤:
对带有推理性质的法律阅读理解数据集进行处理,将一个样本数据中的候选段落的标签标为1,非候选段落标为0,获取具有候选段落标注的法律数据集;
将每个样本中的问题与段落分别进行连接,并通过attention操作通过Bert模型输出两个不同模型参数的段落向量矩阵,根据该两个矩阵计算相似度矩阵R;
针对每个样本构建EM矩阵,在EM矩阵中EMij表示第i个段落和第j个段落关于词语的增量关系;
对相似度矩阵R和EM矩阵进行相加操作,将相加之后的矩阵通过softmax函数计算得到段落之间的相似权值,使用段落向量和对应权值的乘积相加得到更新后的段落向量表示;
将更新后的段落接二分类任务,使用sigmoid作为激活函数,对法律阅读理解候选段落数据集进行训练,得到训练好的模型;
在训练好的模型中输入未知候选段落的法律文本,输出段落分类的概率,取top n得到最终候选段落结果。
进一步的,第i个段落和第j个段落关于词语的增量关系的计算包括:
判断段落i和段落j与样本问题之间时候存在词语包含关系,存在设置为1;
计算段落i与段落j之间关于词语的词向量相似度并取top k计算值的和;
将计将前两步骤得到的值进行相加,将相加的值作为第i个段落和第j个段落关于词语的增量关系。
进一步的,段落i与段落j之间关于词语的词向量相似度表示为:
Figure BDA0003072671410000031
其中,COS(xiyj)表示段落x的第i个分词与段落y的第j个分词之间的词向量余弦距离;m为段落x的分词个数,n为段落y的分词个数。
进一步的,段落x的第i个分词与段落y的第j个分词之间的词向量余弦距离COS(xiyj)表示为:
Figure BDA0003072671410000032
其中,w为词向量的维度大小,xik为段落x的第i个向量k个维度的向量值;yjk为段落y的第i个向量k个维度的向量值。
进一步的,一个样本数据的问题必须通过至少2个候选段落的推理来得出,即一个样本的至少有两个候选段落,且样本数据至少有一个非候选段落。
进一步的,通过Bert网络得到的段落向量,样本中所有段落向量构成向量矩阵X,X与不同的权重W计算得到矩阵Q、K,则相似度矩阵R表示为:
Figure BDA0003072671410000041
其中,dk为向量矩阵Q、K的维度,KT表示矩阵K的转置矩阵。
本发明还提出一种基于enhance matrix的法律案件候选段落的选取装置,包括候选段落数据处理模块、Bert表征模块、增量处理模块、模型训练模块以及候选段落输出模块,其中:
候选段落数据处理模块,用于执行对获取带有推理性质的阅读理解数据集进行处理,根据数据集要求答案必须通过至少2个候选段落的推理来得出答案的特点来选出候选段落并进行标签标注,获取将是否为候选段落作为标签的数据集;
Bert表征模块,用于执行对候选段落数据集中每个样本中的段落和问题进行表征算法,将问题文本和段落文本合并,截取或补全为512长度的输入,输入到已经过预训练的Bert模型,获得问题和段落向量的表示,提取出段落向量来构造每个样本的段落向量矩阵;
增量处理模块,用于执行对段落向量矩阵执行增量处理算法,即通过attention机制来学习段落向量之间的相似度矩阵R,随后根据两个不同段落与样本问题之间的词语包含关系以及两个不同段落关于词语向量的相似度的计算结果生成enhance matrix矩阵,并使用enhance matrix矩阵进一步对相似度矩阵R进行增量处理;
模型训练模块,用于执行模型的训练任务,通过二分类任务完成模型训练,得到最后的模型;
候选段落输出模块,用于输出未知候选段落的法律文本的候选段落选取结果。
本发明的创新点主要是分析法律专业领域具有推理性质的数据集特点,在Bert的段落输出向量之间加入attention交互机制学习段落相似度关系之后加入enhance matrix对段落之间的相似度关系进一步增强并更新段落的向量表示,取模型预测结果的top n作为样本的候选段落,提高段落选择的准确率,最大程度的减少向下游任务传递的噪音信息。
附图说明
图1是本发明实施例提供的一种基于enhance matrix法律案件候选段落获取方法流程图;
图2是本发明实施例提供的一种基于enhance matrix法律案件候选段落获取方法结构图;
图3是本发明实施例提供的一种法律阅读理解数据集进行候选段落标注过程示意图;
图4是本发明实施例提供的一种法律候选段落数据集示意图;
图5是本发明实施例提供的一种基于enhance matrix法律案件候选段落获取方法网络执行示意图;
图6是本发明实施例提供的一种基于enhance matrix法律案件候选段落获取方法装置结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种基于enhance matrix法律案件候选段落获取方法,如图2,具体包括以下步骤:
对带有推理性质的法律阅读理解数据集进行处理,将一个样本数据中的候选段落的标签标为1,非候选段落标为0,获取具有候选段落标注的法律数据集;
将每个样本中的问题与段落分别进行连接,并通过attention操作通过Bert模型输出两个不同模型参数的段落向量矩阵,根据该两个矩阵计算相似度矩阵R;
针对每个样本构建EM矩阵,在EM矩阵中EMij表示第i个段落和第j个段落关于词语的增量关系;
对相似度矩阵R和EM矩阵进行相加操作,将相加之后的矩阵通过softmax函数计算得到段落之间的相似权值,使用段落向量和对应权值的乘积相加得到更新后的段落向量表示;
将更新后的段落接二分类任务,使用sigmoid作为激活函数,对法律阅读理解候选段落数据集进行训练,得到训练好的模型;
在训练好的模型中输入未知候选段落的法律文本,输出段落分类的概率,取top n得到最终候选段落结果。
实施例1
图1是本发明实施例的一种法律案件候选段落获取架构图,如图1所示,本实例首先获得有推理性质的法律阅读理解数据集并对数据集进行标注,获取法律案件的候选段落数据集,将法律文本输入Bert模型进行表征,对向量加attention计算段落之间的相似度矩阵R,根据段落之间的词语关系和段落与问题之间的词语关系构造enhance matrix矩阵EM,进一步使用enhance matrix对段落相似矩阵R进行增强,并通过更新特征表示得到最后的段落向量,将段落向量特征放入sigmoid分类器中,得到最终的候选段落选取结果。
在本实施例中,对带有推理性质的法律阅读理解数据集进行处理,将一个样本数据中的候选段落的标签标为1,非候选段落标为0,获得候选段落与非候选段落的标签数据集。
法律案件多跳阅读理解数据集具有推理的特点,该数据集要求答案必须通过至2个候选段落的推理来得出,并加入了一些其他段落作为干扰项,挑战模型在噪声存在的情况下找到真正的候选段落的能力;数据集的问答包括两种类型:Bridge Questions(桥接问题)和Comparison Questions(比较问题);回答Bridge类型的问题需要在第一个段落中寻找一个Bridge词语,词语包括实体和名词,拿着词语和问题到第二个合适的段落中去寻找答案;Comparison类型的问题是对Bridge类型问题的一种补充,问题的回答不再依靠于Bridge词语,通过比较同一类别的两个词语产生有趣的多跳问题,回答Comparison类型问题,需要在question中找到两个关键词语a1和a2,在词语a1和a2各自所在的段落寻找关键信息,最后进行比较得出答案。
如图3所示,为本实施例提供的一种具有推理性质的阅读理解法律文本候选段落获取示意图。在获得具有推理性质阅读理解的法律数据集之后,分析样本中问题和段落之间的关联关系,并结合回答一个样本中的问题至少需要两个段落的推理的特点进行标注,多个段落表示为(para1,para2,......,paran),其中n代表每个样本中段落的数量,将候选段落标注为(label1,label2,......,labeln),其中labeli∈(0,1),n代表段落的数量,1代表对应的段落为候选段落,0代表对应的段落为非候选段落;如图4所示,为标注出的法律案件候选段落数据集,包括问题、段落和是否为候选段落的标注。
将样本中的问题和各个段落连接,输入Bert模型进行表征,获取样本中每个段落的向量表示Eb;由于数据集具有多跳推理的特点,在段落向量之间接attention操作,来计算样本中段落之间的相似度矩阵R,使段落的向量表示融合其它段落的语义,如图5所示,一种法律候选段落的Bert网络示意图,将样本中的question和各个paragraph连接,表示为[CLS]question[SEP]paragraph[SEP],由于Bert长度的限制,截取前512个字符,输入到预训练的Bert模型进行表征,获取段落向量的表示,(CLS1,CLS2,......,CLSn),其中n代表段落的个数,CLSi代表第i个段落的向量,将每个paragraph和question组合输入到Bert网络,而不是一次性把所有的paragraph和question合并输入到段落中,可以部分解决Bert限制输入长度512的问题,减少信息的丢失,随后通过Bert网络得到的段落向量,样本中所有段落向量构成向量矩阵X,X与不同的权重W计算得到矩阵Q、K,根据attention相似度计算公式计算相似度矩阵R,表示为:
Figure BDA0003072671410000071
计算出第i个段落向量CLSi与样本中的其他段落向量的相似度,相似度计算采用的是向量点积的计算方式,两个段落向量CLS1=(a1,a2,......,an)和CLS2=(b1,b2,......,bn)的点积结果为(a1·b1+a2·b2+…+an·bn),进一步得到段落响度矩阵R,R中的第i行代表样本中第i个段落向量与其他段落向量的相似度。
拿到处理之后的候选段落数据集,针对每一个样本构造enhance matrix,表示为矩阵EM,其中EMij表示样本中第i和段落和第j个段落的增量关系;具体包括第i和段落和第j个段落与样本问题之间的词语包含关系,存在则设置为1,段落i与段落j之间关于词语的词向量余弦相似度并计算top k之和,词向量通过相应的字向量相加得到;对两步的计算结果进行相加表示为EMij
如表1所示为enhance matrix的构造过程,矩阵的每个单元格EMij代表parai和paraj的关于词语的增强表示,针对数据集中的每个样本{question,(para1,para2,....paran)},使用Spacy工具进行分词,得到question的词集合WQ和parai的词集合WPi,词语包括由人名、地名以及其他所有以名称为标识的命名实体和其它的名词;对样本中的任意两个不同的两个段落parai和paraj进行计算,第一步判断如果parai和paraj的词语集合WPi和WPj中的任意两个词语组合同时出现在question的词语集合WQ中,组合中两个词语分别来自两个段落,并且可以为不同词语,如果存在这种情况,则在EMij位置增强关系(值加1);第二步对parai和paraj的词集合WPi和WPj中任意两个词语的Bert表征向量计算词关联值(词向量由字向量之和计算而来),如下公式所示:
Figure BDA0003072671410000081
Figure BDA0003072671410000082
针对法律数据集的关键信息集中在个别词语的特点,构造以上公式,首先计算词向量之间的相似度值COS(xiyj),计算出的数值分布不均匀,进一步除以所有词向量关联值的方差值并取lg,来提高关键词的关联稳定性;并取top k计算和表示为Sij,在EMij位置增强关系(值加Sij);对样本中的所有段落处理完毕,得到样本的enhance matrix矩阵EM。
表1
Figure BDA0003072671410000091
使用构造的enhance matrix来进一步对R矩阵进行增量更新;得到更新后的段落相似度矩阵M:
M=f(R,enhance_matrix)
通过激活函数softmax计算出权值矩阵,每一行代表每个段落向量与其它段落向量的关系系数,使用段落向量值V乘以权值矩阵得到最后的输出Z。
计算输出Z的公式为:
z=softmax(M)·V
对得到的输出Z接二分类任务,使用sigmoid作为激活函数,交叉熵函数作为损失函数,对法律阅读理解候选段落数据集进行训练,得到训练好的模型,sigmoid函数用于二分类过程中,它将单个神经元的输出,映射到(0,1)区间内,转换为概率,概率值代表对应段落为候选段落的可能性大小,如图5所示,预测结果表示为(PRO1,PRO2,......,PROn),对都有的段落概率值进行排序,取top 2或top 4作为模型的预测结果。
在训练好的模型中输入未知候选段落的法律文本,输出段落分类的概率,取top n得到最终候选段落结果。
实施例2
图6所示是本发明实施例的一种基于enhance matrix的法律案件候选段落的选取装置,包括:
候选段落数据处理模块,用于执行对获取带有推理性质的阅读理解数据集进行处理,根据数据集要求答案必须通过至少2个候选段落的推理来得出答案的特点来选出候选段落并进行标签标注,获取将是否为候选段落作为标签的数据集;
Bert表征模块,用于执行对候选段落数据集中每个样本中的段落和问题进行表征算法,将问题文本和段落文本合并,截取或补全为512长度的输入,输入到已经过预训练的Bert模型,获得问题和段落向量的表示,提取出段落向量来构造每个样本的段落向量矩阵;
增量处理模块,用于执行对段落向量矩阵执行增量处理算法,首先通过attention机制来学习段落向量之间的相似度矩阵R,随后根据两个不同段落与样本问题之间的词语包含关系,两个不同段落关于词语向量的余弦相似度的计算结果生成enhance matrix矩阵EM,并使用矩阵EM进一步对相似度矩阵R进行增量处理;
模型训练模块,用于执行模型的训练任务,通过二分类任务完成模型训练,得到最后的模型;
候选段落输出模块,用于输出未知候选段落的法律文本的候选段落选取结果。
各个模块实现的功能可以根据实施例1方法进行获取,此处不再赘述。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (9)

1.一种基于enhance matrix的法律案件候选段落的选取方法,其特征在于,包括以下步骤:
对带有推理性质的法律阅读理解数据集进行处理,将一个样本数据中的候选段落的标签标为1,非候选段落标为0,获取具有候选段落标注的法律数据集;
将每个样本中的问题与段落分别进行连接,并通过attention操作通过Bert模型输出两个不同模型参数的段落向量矩阵,根据该两个矩阵计算相似度矩阵R;
针对每个样本构建EM矩阵,在EM矩阵中EMij表示第i个段落和第j个段落关于词语的增量关系;
对相似度矩阵R和EM矩阵进行相加操作,将相加之后的矩阵通过softmax函数计算得到段落之间的相似权值,使用段落向量和对应权值的乘积相加得到更新后的段落向量表示;
将更新后的段落接二分类任务,使用sigmoid作为激活函数,对法律阅读理解候选段落数据集进行训练,得到训练好的模型;
在训练好的模型中输入未知候选段落的法律文本,输出段落分类的概率,取top n得到最终候选段落结果。
2.根据权利要求1所述的一种基于enhance matrix的法律案件候选段落的选取方法,其特征在于,第i个段落和第j个段落关于词语的增量关系的计算包括:
判断段落i和段落j与样本问题之间时候存在词语包含关系,存在设置为1;
计算段落i与段落j之间关于词语的词向量相似度并取top k计算值的和;
将计将前两步骤得到的值进行相加,将相加的值作为第i个段落和第j个段落关于词语的增量关系。
3.根据权利要求2所述的一种基于enhance matrix的法律案件候选段落的选取方法,其特征在于,段落i与段落j之间关于词语的词向量相似度表示为:
Figure FDA0003072671400000021
其中,COS(xiyj)表示段落x的第i个分词与段落y的第j个分词之间的词向量余弦距离;m为段落x的分词个数,n为段落y的分词个数。
4.据权利要求3所述的一种基于enhance matrix的法律案件候选段落的选取方法,其特征在于,段落x的第i个分词与段落y的第j个分词之间的词向量余弦距离COS(xiyj)表示为:
Figure FDA0003072671400000022
其中,w为词向量的维度大小,xik为段落x的第i个向量k个维度的向量值;yjk为段落y的第i个向量k个维度的向量值。
5.根据权利要求1所述的一种基于enhance matrix的法律案件候选段落的选取方法,其特征在于,一个样本数据的问题必须通过至少2个候选段落的推理来得出,即一个样本的至少有两个候选段落,且样本数据至少有一个非候选段落。
6.根据权利要求1所述的一种基于enhance matrix的法律案件候选段落的选取方法,其特征在于,通过Bert网络得到的段落向量,样本中所有段落向量构成向量矩阵X,X与两个不同的权重W计算得到两个矩阵Q、K,则相似度矩阵R表示为:
Figure FDA0003072671400000023
其中,dk为向量矩阵的维度,上标表示转置矩阵。
7.一种基于enhance matrix的法律案件候选段落的选取装置,其特征在于,包括候选段落数据处理模块、Bert表征模块、增量处理模块、模型训练模块以及候选段落输出模块,其中:
候选段落数据处理模块,用于执行对获取带有推理性质的阅读理解数据集进行处理,根据数据集要求答案必须通过至少2个候选段落的推理来得出答案的特点来选出候选段落并进行标签标注,获取将是否为候选段落作为标签的数据集;
Bert表征模块,用于执行对候选段落数据集中每个样本中的段落和问题进行表征算法,将问题文本和段落文本合并,截取或补全为512长度的输入,输入到已经过预训练的Bert模型,获得问题和段落向量的表示,提取出段落向量来构造每个样本的段落向量矩阵;
增量处理模块,用于执行对段落向量矩阵执行增量处理算法,即通过attention机制来学习段落向量之间的相似度矩阵R,随后根据两个不同段落与样本问题之间的词语包含关系以及两个不同段落关于词语向量的相似度的计算结果生成enhance matrix矩阵,并使用enhance matrix矩阵进一步对相似度矩阵R进行增量处理;
模型训练模块,用于执行模型的训练任务,通过二分类任务完成模型训练,得到最后的模型;
候选段落输出模块,用于输出未知候选段落的法律文本的候选段落选取结果。
8.根据权利要求7所述的一种基于enhance matrix的法律案件候选段落的选取装置,其特征在于,enhance matrix矩阵中第i个段落和第j个段落关于词语的增量关系的计算过程包括:
判断段落i和段落j与样本问题之间时候存在词语包含关系,存在设置为1;
计算段落i与段落j之间关于词语的词向量相似度并取top k计算值的和;
将计将前两步骤得到的值进行相加,将相加的值作为第i个段落和第j个段落关于词语的增量关系。
9.根据权利要求8所述的一种基于enhance matrix的法律案件候选段落的选取装置,其特征在于,增量处理模块中两个不同段落关于词语向量的相似度表示为:
Figure FDA0003072671400000041
其中,Aij表示段落i与段落j之间关于词语的词向量相似度;COS(xiyj)表示段落x的第i个分词与段落y的第j个分词之间的词向量余弦距离;m为段落x的分词个数,n为段落y的分词个数。
CN202110543628.6A 2021-05-19 2021-05-19 一种基于enhance matrix的法律案件候选段落的选取方法及装置 Active CN113361261B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110543628.6A CN113361261B (zh) 2021-05-19 2021-05-19 一种基于enhance matrix的法律案件候选段落的选取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110543628.6A CN113361261B (zh) 2021-05-19 2021-05-19 一种基于enhance matrix的法律案件候选段落的选取方法及装置

Publications (2)

Publication Number Publication Date
CN113361261A true CN113361261A (zh) 2021-09-07
CN113361261B CN113361261B (zh) 2022-09-09

Family

ID=77526955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110543628.6A Active CN113361261B (zh) 2021-05-19 2021-05-19 一种基于enhance matrix的法律案件候选段落的选取方法及装置

Country Status (1)

Country Link
CN (1) CN113361261B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915448A (zh) * 2015-06-30 2015-09-16 中国科学院自动化研究所 一种基于层次卷积网络的实体与段落链接方法
CN109947912A (zh) * 2019-01-25 2019-06-28 四川大学 一种基于段落内部推理和联合问题答案匹配的模型方法
CN110597947A (zh) * 2019-03-20 2019-12-20 桂林电子科技大学 一种基于全局和局部注意力交互的阅读理解***及方法
CN110781290A (zh) * 2019-10-10 2020-02-11 南京摄星智能科技有限公司 一种长篇章结构化文本摘要提取方法
CN111177326A (zh) * 2020-04-10 2020-05-19 深圳壹账通智能科技有限公司 基于精标注文本的关键信息抽取方法、装置及存储介质
CN111428485A (zh) * 2020-04-22 2020-07-17 深圳市华云中盛科技股份有限公司 司法文书段落分类方法、装置、计算机设备及存储介质
CN111814982A (zh) * 2020-07-15 2020-10-23 四川大学 面向多跳问答的动态推理网络及方法
CN112347229A (zh) * 2020-11-12 2021-02-09 润联软件***(深圳)有限公司 一种答案抽取方法、装置、计算机设备及存储介质
CN112487146A (zh) * 2020-12-02 2021-03-12 重庆邮电大学 一种法律案件争议焦点获取方法、装置以及计算机设备
CN112765345A (zh) * 2021-01-22 2021-05-07 重庆邮电大学 一种融合预训练模型的文本摘要自动生成方法及***

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915448A (zh) * 2015-06-30 2015-09-16 中国科学院自动化研究所 一种基于层次卷积网络的实体与段落链接方法
CN109947912A (zh) * 2019-01-25 2019-06-28 四川大学 一种基于段落内部推理和联合问题答案匹配的模型方法
CN110597947A (zh) * 2019-03-20 2019-12-20 桂林电子科技大学 一种基于全局和局部注意力交互的阅读理解***及方法
CN110781290A (zh) * 2019-10-10 2020-02-11 南京摄星智能科技有限公司 一种长篇章结构化文本摘要提取方法
CN111177326A (zh) * 2020-04-10 2020-05-19 深圳壹账通智能科技有限公司 基于精标注文本的关键信息抽取方法、装置及存储介质
CN111428485A (zh) * 2020-04-22 2020-07-17 深圳市华云中盛科技股份有限公司 司法文书段落分类方法、装置、计算机设备及存储介质
CN111814982A (zh) * 2020-07-15 2020-10-23 四川大学 面向多跳问答的动态推理网络及方法
CN112347229A (zh) * 2020-11-12 2021-02-09 润联软件***(深圳)有限公司 一种答案抽取方法、装置、计算机设备及存储介质
CN112487146A (zh) * 2020-12-02 2021-03-12 重庆邮电大学 一种法律案件争议焦点获取方法、装置以及计算机设备
CN112765345A (zh) * 2021-01-22 2021-05-07 重庆邮电大学 一种融合预训练模型的文本摘要自动生成方法及***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DONGDONG XIE: "Match matrix aggregation enhanced transition-based neural network for sql parsing", 《COMPUTER SCIENCE》 *
YUNQIU SHAO: "BERT-PLI:Modeling Paragraph-Level Interactions for Legal Case Retrieval", 《PROCEEDINGS OF THE TWENTY-NINTH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE》 *
王晓浪 等: "基于序列标注的事件联合抽取方法", 《重庆邮电大学学报(自然科学版)》 *

Also Published As

Publication number Publication date
CN113361261B (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
CN112115238B (zh) 一种基于bert和知识库的问答方法和***
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN111639171A (zh) 一种知识图谱问答方法及装置
CN107967318A (zh) 一种采用lstm神经网络的中文短文本主观题自动评分方法和***
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN111858896B (zh) 一种基于深度学习的知识库问答方法
JP6603828B1 (ja) フレーズ生成モデル学習装置、フレーズ生成装置、方法、及びプログラム
CN113268974A (zh) 多音字发音标注方法、装置、设备及存储介质
CN112559723A (zh) 一种基于深度学习的faq检索式问答构建方法及***
CN112686025A (zh) 一种基于自由文本的中文选择题干扰项生成方法
Suyanto Synonyms-based augmentation to improve fake news detection using bidirectional LSTM
CN114417785A (zh) 知识点标注方法、模型的训练方法、计算机设备及存储介质
Anandika et al. A study on machine learning approaches for named entity recognition
Oliseenko et al. BERT and ELMo in task of classifying social media users posts
Meenakshi et al. Novel Shared Input Based LSTM for Semantic Similarity Prediction
Zhang et al. Multilevel image-enhanced sentence representation net for natural language inference
CN114579706B (zh) 一种基于bert神经网络和多任务学习的主观题自动评阅方法
Divya et al. Automation of Short Answer Grading Techniques: Comparative Study using Deep Learning Techniques
CN113361261B (zh) 一种基于enhance matrix的法律案件候选段落的选取方法及装置
Luo Automatic short answer grading using deep learning
CN110633363B (zh) 一种基于nlp和模糊多准则决策的文本实体推荐方法
CN114595324A (zh) 电网业务数据分域的方法、装置、终端和非暂时性存储介质
Rawat et al. A Systematic Review of Question Classification Techniques Based on Bloom's Taxonomy
Sadhasivam et al. A hybrid approach for deep belief networks and whale optimisation algorithm to perform sentiment analysis for MOOC courses
Suta et al. Matching question and answer using similarity: an experiment with stack overflow

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant