CN111985236A - 基于多维联动的可视化分析方法 - Google Patents

基于多维联动的可视化分析方法 Download PDF

Info

Publication number
CN111985236A
CN111985236A CN202010490310.1A CN202010490310A CN111985236A CN 111985236 A CN111985236 A CN 111985236A CN 202010490310 A CN202010490310 A CN 202010490310A CN 111985236 A CN111985236 A CN 111985236A
Authority
CN
China
Prior art keywords
content
document
triple
text
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010490310.1A
Other languages
English (en)
Inventor
梁鸿翔
高天寒
郭楠
李金辉
刘明瑞
白翠霞
韩林珊
王新迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Second Research Institute Of Casic
Original Assignee
Second Research Institute Of Casic
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Second Research Institute Of Casic filed Critical Second Research Institute Of Casic
Priority to CN202010490310.1A priority Critical patent/CN111985236A/zh
Publication of CN111985236A publication Critical patent/CN111985236A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于多维联动的可视化分析方法,包括:基于匹配规则对文书按文本结构进行分割;文书分割后输入每部分内容,如果长度大于一定值则对内容按标点符号进行分割,调用依存句法分析算法和命名实体识别算法,将句子或内容进行拆分并进行词性分析及句法分析输出每个词性和词之间的关系;通过输入不同的文书去统计词性间的规则并加入正则表达式匹配方法去匹配字符串;根据抽取规则编写相应的三元组生成方法;过滤三元组对三元组中的实体和关系进行内容的替换或者对其内容进行更细的拆分;生成三元组构成的文本文件、三元组格式化后的rdf和json这三种形式的文件;可视化部分通过d3.js和web编程。

Description

基于多维联动的可视化分析方法
技术领域
本发明涉及司法管理***,特别涉及一种基于多维联动的可视化分析方法。
背景技术
裁判文书用于记载人民法院审理过程和结果,它是诉讼活动结果的载体,也是律师进行辩护时的重要依据。裁判文书里主要包括人、案、物这三种实体要素,且可视化分析技术基于多维联动对这三种实体关系进行关联分析,可视化分析中把涉案人员、司法案件、涉案物品这三个维度(简称人案物)定义为多维,其中涉案人员包括:被告人、原审、被害人等,司法案件包括:案号、受理法院、检察院、审级等,涉案物品包括:人证、物证、书证等。一篇完整的裁判文书详细地记载了案件发生的人案物关系及案件过程和评判结果,但案件中涉及到的人案物关系往往繁多且复杂,这给人工阅读带来诸多不便。不难发现,这种方式存在着许多弊端,特别是在一些法律描述复杂的案件当中,律师不仅很难迅速全面地梳理有关法律关系,也容易遗漏一些案件的细节,而这些弊端对于案件诉讼结果的影响往往是巨大的。
目前司法领域的知识体系庞大、数据之间的关系复杂,相关的可视化研究工作较少。已知的可视化方法很难对文本中的信息进行知识挖掘与呈现,且可视化显示效果单一化,也很难以特定的方式对文本中的信息进行关联分析。
发明内容
本发明的目的在于提供一种基于多维联动的可视化分析方法,用于解决文本中有效信息难以挖掘、信息难以呈现以及显示信息维度单一化的问题。
本发明一种基于多维联动的可视化分析方法,其中,包括:步骤 1、基于匹配规则对文书按文本结构进行分割;步骤2、文书分割后输入每部分内容,如果长度大于一定值则对内容按标点符号进行分割,调用依存句法分析算法和命名实体识别算法,将句子或内容进行拆分并进行词性分析及句法分析输出每个词性和词之间的关系;步骤 3、通过输入不同的文书去统计词性间的规则并加入正则表达式匹配方法去匹配字符串,规则模板每行规则构成主要包括文书分割标识、关键词、执行方法以及词性和关系,不同的案由有着对应的抽取规则;步骤4、根据抽取规则编写相应的三元组生成方法,将依存句法分析、命名实体识别以及正则匹配后生成的关键词和字符串与案由抽取模板中的关键词和字符串进行匹配,如果匹配成功则调用三元组生成方法,添加到三元组空缺部分生成完整的三元组;步骤5、过滤三元组对三元组中的实体和关系进行内容的替换或者对其内容进行更细的拆分,对三元组中人名不一致的部分通过调用相似度算法在被告人集合中查找并替换;步骤6、生成三元组构成的文本文件、三元组格式化后的rdf和json这三种形式的文件;步骤7、可视化部分通过d3.js 和web编程,给定执行三元组特征抽取算法后的三元组文本文件并将其输入到可视化***中,对文书每部分内容以力导向图、树图等形式进行可视化并实现滚动效果,对于文书头部、文书尾部、综合评判、证据证实部分采取力导向图实现方式,对于指控内容、辩护意见部分采取树图实现方式。
本发明实现了文本内容显示、文本内容标注、力导向图、树图等内容的可视化,力导向图、树图的显示都附带有动态效果,可以对其进行拖拽、鼠标移动显示节点信息等操作。可视化技术针对知识图谱进行可视化分析,采用多视图整合,将不同的可视化效果合并在一起可以进行任意的多维度分析,其中力导向图可以用鼠标进行拖拽也可以添加鼠标等监听事件,实现了交互联动的效果。对于文书中人、案、物三种要素的抽取以及对辩护意见和指控内容部分的可视化都是从大量的文本信息中进行数据多层钻取,然后将数据输入到可视化***中,最终将文书中的内容以不同的方式进行显示。本发明基于人案物知识图谱,对人、案、物关系数据进行抽取和概念转换,结合可视化布局,对″人—案″、″人—人″、″案—案″、″案—物″、″人—物″等知识图谱的关联关系进行可视化。特别是对于司法实践中涉众案件、民间借贷、电信诈骗等复杂人案物关系,可视化技术为司法人员提供全方位、多视角、精准化、可互动的″人案物″关联分析服务,辅助案情研判和追踪等业务。
附图说明
图1为三元组特征抽取算法流程图;
图2为依存句法分析示例图;
图3为命名实体识别示例图;
图4为MLM的具体结构图;
图5为Next-Sentence Prediction预测模型结构图;
图6为BERT具体结构图;
图7为Tansformer结构图;
图8为BERT整体的训练模型图;
图9力导向图实现流程图;
图10为树图实现流程图;
图11为滚动效果的实现流程图
图12a所示为文本标注算法的第一流程图;
图12b所示为文本标注算法的第二流程图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明基于多维联动的可视化分析方法,该方法基于自然语言处理技术、数据分析技术、d3.js技术以及web前端设计的可视化***,该方法包括:
自然语言处理技术和数据分析技术用于三元组特征抽取,其流程为:首先输入文书(文本文件格式),然后基于正则表达式按文本结构对文书各部分进行分割,再结合依存句法分析、命名实体识别等算法进行三元组的抽取,最终可生成三元组构成的文本文件、三元组格式化后的rdf和json这三种形式的文件,图1为三元组特征抽取算法流程图,如图1所示,三元组特征抽取流程实现步骤如下:
步骤1:首先基于匹配规则对文书按文本结构进行分割,主要分割成文书头部、文书尾部、综合评判、指控内容、证据证实、辩护意见等部分,匹配规则主要为正则表达式,文本结构的五个部分相对独立,且每一部份在其内容的首部和尾部均具有相对规范的触发词,各部分的首尾部分触发词及匹配规则如表1所示:
表1
Figure BDA0002520709910000041
步骤2:文书分割后输入每部分内容,如果长度大于一定值则对内容按标点符号进行分割,然后调用依存句法分析算法和命名实体识别算法,将句子或内容进行拆分并进行词性分析及句法分析输出每个词性和词之间的关系,图2为依存句法分析示例图,图3为命名实体识别示例图,如图2和图3所示,如农民词性为名词、被告人词性为名词、汉族实体类别为区域居民称谓词、被告人与某某(人名)的关系为定中关系。
步骤3:通过输入不同的文书去统计词性间的规则并加入正则表达式匹配方法去匹配字符串,规则模板每行的规则都用@@@去分割,每行规则构成主要包括文书分割标识、关键词、执行方法、词性 /关系等,不同的案由有着对应的抽取规则,相应的抽取规则如表2所示:
表2
Figure BDA0002520709910000051
步骤4:文书格式有时会影响三元组的生成,如″刑期终止时间三元组″,刑期信息的字符数超过1024就会以句子形式进行分割,1024 是算法中设定的阈值,如果字符数超过1024就会很耗费电脑内存,因此在文书分割算法部分加入字符串拼接方法将该内容中的每行进行首尾拼接形成一行,此时通过该内容进行下标索引做第二次字符串拼接使得拼接后的内容包含抽取部分;再如″审判长″,其中有空格也会影响抽取效果,在预处理阶段把文章中的多余空格去掉。
步骤5:根据步骤3的抽取规则编写相应的三元组生成方法,将依存句法分析、命名实体识别以及正则匹配后生成的关键词/字符串与案由抽取模板中的关键词/字符串进行匹配,如果匹配成功则调用三元组生成方法,再将其添加到三元组空缺部分生成完整的三元组。
步骤6:过滤三元组对三元组中的实体/关系进行内容的替换或者对其内容进行更细的拆分,对三元组中人名不一致的部分通过调用相似度算法在被告人集合中查找并替换。如将″冯某″替换为″冯某某″。
步骤7:根据定义好的案由抽取模板中的规则编写Jena代码,在 Jena中定义相应的类、属性、关系等,如定义被告人类,在被告人类中加入″汉族″、″满族″、″蒙古族″等属性和″民族是″关系,具体三元组形式为″王某某民族是汉族″。然后在rdf生成方法中进行调用生成方法用以生成相应的rdf、json、和三元组文本文件。
抽取规则的弊端在于:基于正则表达式的抽取规则准确率接近 100%但召回率较低、模板中的抽取规则有限但文书格式无限,抽取规则无法覆盖所有的情况。因此对于文书分割后如文书头部、文书尾部、综合评判等格式比较固定的部分用规则去抽取准确率和召回率较高,而指控部分和辩护部分等通常用自然语言描述,案件的情节描述形式不固定,用正则表达式的抽取召回率较低,故采取基于机器学习算法的BERT模型。该模型通过人工标注的法律领域数据集进行训练,能够学习到法律领域的知识,具有较高的泛用性能够有效提高召回率。该模型中评价指标采用评估算法有效性的三个指标,分别为精确率(Precision)、召回率(Recall)和F1-measure,具体数学定义如公式(1)-公式(3)所示:
Figure BDA0002520709910000061
Figure BDA0002520709910000062
Figure BDA0002520709910000063
其中Nc表示所有预测正确的样本数,Nic表示所有预测错误的样本数。Nsum表示参与预测的样本总数。
为验证机器学习算法的性能,主要进行了四组对比实验,使用的模型分别为HMM、CRF、Bi-LSTM-CRF、BERT-Bi-LSTM--CRF。其中,HMM(Hidden Markov Model,隐马尔科夫模型),是一个关于时序的概率模型。CRF是一种无向图结构的概率统计模型。HMM和CRF 均是命名实体识别任务中常用的比较模型,结合上述公式进行计算得到数值如表3所示:
表3
Figure BDA0002520709910000071
从表1可以看出,由于HMM在理论上的假设不符合自然语言的序列,模型无法准确抽取实体边界信息,精确率和召回率在四个模型中均为最低;CRF在理论上解决了隐马尔可夫模型假设的缺陷,因此在精确率和召回率两个指标上高出HMM两个百分点以上; Bi-LSTM-CRF模型的评价指标优于CRF则说明了Bi-LSTM-CRF模型在训练的过程中利用Bi-LSTM学***均高了4%以上。这充分证明了BERT经过大规模语料训练得到的模型能够捕捉到更长距离的上下文信息且BERT模型对于指控部分和辩护部分这类难以用正则表达式抽取的部分可以达到较高的准确率和召回率。
BERT模型的具体实现步骤如下:
步骤1:预训练,BERT在实际训练标注数据之前,首先进行预训练任务。通过预训练任务,模型能够理解两子之间的联系,即得到了每个单词的词向量。这些词向量可以直接被应用于各类下游任务以提高模型的整体性能。本文采用基于663万篇刑事案件法律文书训练得到的预训练模型。BERT使用“Masked LM”和“Next-Sentence Prediction”两个无监督预测任务进行预训练。
步骤1.1:在预训练的过程中,随机屏蔽(masking)部分输入token,然后只预测那些被屏蔽的token。这个过程被称为″masked LM”(MLM)。通过这种方式,BERT可以获得双向表示的词向量。具体的遮挡方式如下:
在所有的输入token中,随机遮挡其中15%的字符,损失函数只计算被遮挡的token。具体的遮挡方法如下所示:
1)80%被遮挡的词用”masked token”代替;
2)10%被遮挡的词用词典中的随机一个词进行替换;
3)10%被遮挡的词保持不变。
图4为MLM的具体结构图,如图4所示;
步骤1.2:下一句预测任务,在预训练的过程中,输入A,B两个句子,让模型判断B句子是否是A句子的下一句。通过这种方式,模型能够学到句子间的关系,更近一步的加强模型对自然语言的理解。 Next-Sentence Prediction预测模型结构,图5为Next-SentencePrediction 预测模型结构图,如图5所示:
步骤2:输入表示,BERT通过一组特定规则来代表模型的文本输入,每个输入的表示由三种Embeddings求和而成。图6为BERT具体结构图,如图6所示,具体含义如下:
标记嵌入(Token Embeddings):代表词向量,在中文中每一个字就是一个词向量。每个句子的开头用CLS标记。
片段嵌入(Segment Embeddings):用来区别两种句子。BERT在预训练的过程中会输入成对的句子,根据上一个句子去预测下一个句子。EA表示该词对应的嵌入属于句子A,EB表示该词对应的嵌入属于句子B。在上面的例子中,所有标记为EA的标记都属于句A。
位置嵌入(Position Embeddings):BERT通过位置嵌入来表达词在句子中的位置。
步骤3:设置模型结构,BERT的模型架构基础是Transformer编码器,BERT使用双向Transformer作为特征提取器。图7为Tansformer结构图,如图7所示:
步骤4:训练结束,图8为BERT整体的训练模型图,如图8所示,可视化部分:结合d3.js技术和web编程技术,给定执行三元组特征抽取算法后的三元组文本文件并将其输入到可视化***中,然后对文书每部分内容以力导向图、树图等形式进行可视化并实现滚动效果。对于文书头部、文书尾部、综合评判、证据证实部分采取力导向图实现方式,对于指控内容、辩护意见部分采取树图实现方式。可视化的整体实现效果为鼠标滚动下拉时,左侧显示不同文书部分的内容,右侧显示力导向图、树图等可视化效果。图9力导向图实现流程图,如图9所示,具体实现步骤如下:
步骤1:调用d3.js文件,定义三元组类,将初始的源节点值、关系值、去除重复节点后的源节点值、源节点Id、关系值、目标节点Id、目标节点值以一定方式组合并以对象的方式存入对应列表中,它们都有获取各自变量值的方法。
步骤2:输入三元组文本文件并进行非三元组筛选,将其存入到列表中,以空格为分割条件,对每行三元组进行源节点值、关系值、目标节点值的分割,并以对象方式存入对应列表中,然后从列表中获取案号三元组的Id。
步骤3:定义svg标签,去除重复的源节点值,并将其值存放到Set 集合中,值和Id存放到字典结构中,目标节点同理只是不对其做去重处理,然后将源节点Id、目标节点Id、关系值以{"source":源节点 Id,"target":目标节点Id,"relation":关系值}的形式存入包含连线属性的字典中,将上述值和Id以对象方式全部存入对应列表中,将值和Id建立起联系以便调用,再将所有节点以{"name":值}的方式存入包含节点属性的字典中并初始化所有节点颜色为青蓝色。
步骤4:以关键词区分人和案节点,人和案节点以两种颜色进行区分,通过从存取节点信息和边信息的列表中获取源节点值、源节点 Id、目标节点Id,判断该值是否包含案关键字,如果是则置为红色,其中如果案号Id不为0则加一,为0则不变,然后将所有的源节点与案号节点连接以达到案号节点为中心节点的效果。
步骤5:为矢量图设置宽度和高度,指定节点内容和连线内容,为节点和关系设置属性,调用d3.layout.force()将它们封装,使用 force.start()函数生成力导向图。
图10为树图实现流程图,如图10所示,具体实现步骤如下:
步骤1:通过d3.js中的方法选择页面中已定义的svg标签,并设置其高度、宽度以及边界等相关属性。
步骤2:通过d3.js中的方法请求获取数据文件的内容,并存入数据对象数组中。
步骤3:创建相应布局,用来表达层次关系的数据结构;通过树图的相关函数将数据对象数组转化成绘制树的基本数据:节点对象数组存储树的节点信息,每个节点包括父节点、子节点、节点深度等几方面信息;连线对象数组存储树的连线信息,每一个连线对象包括前端节点、后端节点等信息。
步骤4:绘制连线并添加连线上的概括信息。创建曲线生成器,并将其投影方式由默认的从上至下修改为从左至右;设置连线的起始、终点位置等相关属性后添加树图的连线,并为每条连线增加编号用于后续添加连线上对应的文字;选择绘制好的连线,为每条连线添加数据源中的概括信息,并通过设置关联属性使概括信息与连线编号一一对应。
步骤5:绘制节点、添加节点的文字信息。首先绘制树图的节点,通过判断节点是否具有子节点来设置节点颜色,叶子节点设置为绿色,其余节点设置为红色;之后为节点添加文字,通过为文字设置不同颜色,来标识指控部分和辩护部分的相关性;并以文字的长度属性为判断条件来限制文字显示的长度。
步骤6:添加相应的文字提示框。为节点文字以及连线文字分别添加鼠标事件的***:鼠标放上去、鼠标移动时、鼠标移开时,并定义提示框来显示全部的文字信息。
步骤7:高亮显示。添加节点的鼠标事件,当鼠标放置在节点上时,通过判断其余节点、连线与该节点之间的关系,然后设置与该节点相关的节点、连线、文字的透明度为完全不透明,其余部分的透明度设置为半透明,从而达到高亮显示的效果。
步骤8:通过相应方法封装树图中边和节点绘制的相应信息,调用方法生成完整的树图。
图11为滚动效果的实现流程图,如图11所示,具体实现步骤如下:
步骤1:将文书划分为案头、指控、辩护、综合评审以及案尾五部分,分别设置五个同类分区来对应输出相应的文书文字部分。通过服务器获取执行特征抽取算法后的三元组文本文件,并从中过滤出相对应的五部分文书内容,添加到相应的输出流中,实现左侧文书的显示工作。右侧设置一个固定的vis区域,即将其position属性设置为 fixed,使得在界面滚动时,右侧区域始终固定不动,用于显示力导向图以及树状图;
步骤2:获取各左侧各分区的页面位置,计算并保存各分区的位置同索引号的映射关系,用于后期滚动条件的判断。 getBoundingClientRect()用于获取某个元素相对于视窗的位置集合,该集合包括top,right,bottom,left等属性,本发明采用的是其bottom属性,可以实现在用户向上滚动页面使当前分区内容消失在视区范围内时,切换至下一个分区。利用该函数可以获得第一个分区的下边界相对于视图的位置,加10进行视觉矫正之后作为第一个分区的位置。以第一个分区的位置为基准,以此获得其余各分区相对于第一个分区的位置,并保存其映射关系。
步骤3:d3.timer()函数接受一个自定义函数,并且立即反复调用这一函数,直到该函数返回true为止,因此可以利用d3.timer()函数反复调用position这一函数,以实时获取页面当前的位置。
步骤4:通过d3.bisect(sectionPositions,pos)获取当前所在页面的索引号。d3.bisect函数通过二分法获取某个数在排好序的数组中的***位置(相等的值归入右边),即将当前页面位置借助各分区位置与索引的映射关系获取当前正确的索引号。
步骤5:判断当前的索引号是不是正确的索引号,如果不是则在 vis区域根据当前索引号调用相应的页面。在vis分区中利用iframe标签,实现jsp页面之间的嵌套。当当前索引号并非正确索引号时,调用正确索引号所对应的函数,利用js修改其路径位置,实现分区内多页面的跳转。
步骤6:当d3.timer()的返回值为true时,转至步骤3,否则结束算法。
可视化左侧显示每部分文本内容,给定三元组文本文件,文本标注算法对三元组中出现的字符进行标记,将人和案相关的实体要素用颜色区分,并将其字号变大,这样在观看文本内容时具有导向性。图12a所示为文本标注算法的第一流程图,图12a所示为文本标注算法的第二流程图,如图12所示,文本标注算法实现步骤如下:
步骤1:按行读取文书部分内容,如读取文书头部内容,然后读取三元组内容。
步骤2:将读取的三文本内容按行进行拼接为一个字符串,并对其按标点符号进行分割,分割成每一句话,并以对象方式将句子内容、句子Id、布尔值存储在列表结构中。
步骤3:获取三元组内容和文书内容,对内容进行相应的处理,具体步骤如下:
步骤3.1:读取每个三元组内容,用字符将其分割并存储在String 类型数组中,判断数组长度,数组长度小于3或大于3则过滤掉该三元组。
步骤3.2:如果from中的内容包含字符案则获取to中的内容,否则获取from和to拼接后的内容,因为三元组的格式为from+relation+to的形式,from和to为实体或属性,relation为关系,每个案由抽取的三元组的格式会不同,所以可以根据各自案由的特点去设计获取内容的形式,以便区分人和案部分。
步骤3.3:获取文书每句内容,如果from的内容不包含字符案且句子内容包含from或to中的内容则改变句子Id并设置布尔值以防循环中Id值的错误覆盖,如果from中的内容包含字符案且句子内容包含to 中的内容,同理改变句子Id并设置布尔值,将处理后的三元组内容按字符进行分割,并将其存入列表中,将该结构称之为三元组字符池。
步骤4:获取文书每句内容,并按字符对其进行分割,然后获取拆分后的每个字符,如果三元组字符池包含该字符且所在句子Id为区分人的Id则将字符颜色设置为区分人的颜色,将字号变大并显示,如果三元组字符池包含该字符且所在句子Id为区分案的Id则将字符颜色设置为区分案的颜色,将字号变大并显示,如果不满足上述两个条件则将字符颜色设置为默认颜色,将字号设置为默认大小。
步骤5:文本整体的显示,主要是先逐一显示单个字符,再拼接成句子显示,最后逐句显示在网页中。
综上,本发明采用统计分析的方法,对于每个案由结合依存句法分析、命名实体识别、正则表达式匹配几种方法,写出相应的案由抽取模板,模板中针对文书全文或文书每一部分书写相应的规则用以文本内容和三元组的抽取,最终生成的rdf有可视化的软件如WebVOWL,json文件主要用于前端可视化并且方便与前端进行交互。
本发明对于依存句法分析,该算法可以得到相应的词性和词之间的关系,如性别与某被告人姓名的关系是并列关系,通过词性和关系就可以对抽取规则中三元组空缺的部分进行填充以生成完整的三元组。对于命名实体识别,传统的只能识别、人名、组织机构、日期,分割之后,识别的类别可以达到三到十类,通过命名实体识别可以获取更重要的情节。对于机器学习算法,BERT通过大量的预训练获得具有上下文语义的词向量,实际应用时则只需要在预训练的基础上微调模型即可达到超过传统模型的方法。文本内容标注采取单个文字标注的方式,并将人和案部分用颜色区分,对读取的每个句子,都进行类别标注,然后对其按字符进行分割并与三元组文字池中的文字进行匹配,进行颜色标注和字号设置等。绘制树图需要将原本的数据通过 d3.js中的树图相关方法,将数据转化为绘制树图所需的节点对象数组和连线对象数组,树图的投影方向主要分为从左到右和从上到下,考虑到文本的长度,为了显示的效果比较好,在此将布局方向由默认的从上到下修改为从左到右。力导向图将三元组不同部分进行分割,将实体/属性和关系分割开,以节点和连线连接的方式进行呈现,对于文书每部分可视化的呈现都加入了切换效果,即通过滚动鼠标或下拉滚动条实现可视化效果的切换。
本发明现有的一些可视化技术,本可视化***效果实现较为灵活,对于不同部分的内容有着不同的可视化方式,实现了可视化效果的多元化并且可以对不同部分的可视化效果进行完善和必要的替换。可以很好的解决文本中有效信息难以挖掘、信息难以呈现以及显示信息维度单一化的问题。
本发明基于人案物知识图谱,对人、案、物关系数据进行抽取和概念转换,结合可视化布局,对″人—案″、″人—人″、″案—案″、″案—物″、″人—物″等知识图谱的关联关系进行可视化。特别是对于司法实践中涉众案件、民间借贷、电信诈骗等复杂人案物关系,可视化技术为司法人员提供全方位、多视角、精准化、可互动的″人案物”关联分析服务,辅助案情研判和追踪等业务。知识图谱可以将复杂的知识领域通过一定的技术和方式将知识以实体、属性、关系等图形的形式进行展示。裁判文书结构完整、要素齐全、逻辑严谨,适用于提取案件要素及其关系。因此,本发明基于知识图谱,借助依存句法分析、命名实体识别、正则表达式匹配、机器学习算法等方式从裁判文书中将人案物关联关系从文书文本中提取出来,生成包含文本内容的三元组文本文件,然后以图谱的形式进行可视化显示。
本发明实现了文本内容显示、文本内容标注、力导向图、树图等内容的可视化,力导向图、树图的显示都附带有动态效果,可以对其进行拖拽,鼠标移动显示等操作。可视化技术针对知识图谱进行可视化分析,采用多视图整合,将不同的可视化效果合并在一起可以进行任意的多维度分析,其中力导向图可以用鼠标进行拖拽,也可以添加鼠标等监听事件,实现了交互联动的效果。对于文书中人、案、物三种要素的抽取以及对辩护意见和指控内容部分的可视化都是从大量的文本信息中进行数据多层钻取,然后将数据输入到可视化***中,最终将文书中的内容以不同的方式进行显示。
以上所述仅是本发明的优选实施方式,应当指出,对于本发明领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种基于多维联动的可视化分析方法,其特征在于,包括:
步骤1、基于匹配规则对文书按文本结构进行分割;
步骤2、文书分割后输入每部分内容,如果长度大于一定值则对内容按标点符号进行分割,调用依存句法分析算法和命名实体识别算法,将句子或内容进行拆分并进行词性分析及句法分析输出每个词性和词之间的关系;
步骤3、通过输入不同的文书去统计词性间的规则并加入正则表达式匹配方法去匹配字符串,规则模板每行规则构成主要包括文书分割标识、关键词、执行方法以及词性和关系,不同的案由有着对应的抽取规则;
步骤4、根据抽取规则编写相应的三元组生成方法,将依存句法分析、命名实体识别以及正则匹配后生成的关键词和字符串与案由抽取模板中的关键词和字符串进行匹配,如果匹配成功则调用三元组生成方法,添加到三元组空缺部分生成完整的三元组;
步骤5、过滤三元组对三元组中的实体和关系进行内容的替换或者对其内容进行更细的拆分,对三元组中人名不一致的部分通过调用相似度算法在被告人集合中查找并替换;
步骤6、生成三元组构成的文本文件、三元组格式化后的rdf和json这三种形式的文件;
步骤7、可视化部分通过d3.js和web编程,给定执行三元组特征抽取算法后的三元组文本文件并将其输入到可视化***中,对文书每部分内容以力导向图、树图等形式进行可视化并实现滚动效果,对于文书头部、文书尾部、综合评判、证据证实部分采取力导向图实现方式,对于指控内容、辩护意见部分采取树图实现方式。
2.如权利要求1所述的基于多维联动的可视化分析方法,其特征在于,对于文书指控部分和辩护部分采取基于机器学习算法的BERT模型,BERT模型中评价指标采用评估算法有效性的三个指标,分别为精确率Precision、召回率Recall和测量值F1,数学如公式(1)-公式(3)所示:
Figure FDA0002520709900000021
Figure FDA0002520709900000022
Figure FDA0002520709900000023
其中Nc表示所有预测正确的样本数,Nic表示所有预测错误的样本数,Nsum表示参与预测的样本总数。
3.如权利要求1所述的基于多维联动的可视化分析方法,其特征在于,文书分割成文书头部、文书尾部、综合评判、指控内容、证据证实以及辩护意见。
4.如权利要求1所述的基于多维联动的可视化分析方法,其特征在于,在文书分割算法部分加入字符串拼接方法将内容中的每行进行首尾拼接形成一行,通过该内容进行下标索引做第二次字符串拼接使得拼接后的内容包含抽取部分;在预处理阶段把文章中的多余空格去掉。
5.如权利要求2所述的基于多维联动的可视化分析方法,其特征在于,BERT模型的步骤如下:
步骤a:预训练,BERT在实际训练标注数据之前,首先进行预训练任务,能够理解两子之间的联系,得到了每个单词的词向量;
步骤a1:在预训练的过程中,随机屏蔽部分输入标记token,预测被屏蔽的标记token,BERT获得双向表示的词向量;
在所有的输入token中,随机遮挡其中15%的字符,损失函数只计算被遮挡的token;
步骤a2:下一句预测任务,在预训练的过程中,输入A和B两个句子,让模型判断B句子是否是A句子的下一句;
步骤b:输入表示,BERT通过一组特定规则来代表模型的文本输入,每个输入的表示由标记嵌入向量、片段嵌入向量以及位置嵌入向量求和而成;
步骤c:设置模型结构;
步骤d:训练结束。
6.如权利要求1所述的基于多维联动的可视化分析方法,其特征在于,步骤7中力导向图实现步骤包括:
调用d3.js文件,定义三元组类,将初始的源节点值、关系值、去除重复节点后的源节点值、源节点Id、关系值、目标节点Id、目标节点值以一定方式组合并以对象的方式存入对应列表中,都有获取各自变量值的方法;
输入三元组文本文件并进行非三元组筛选,将其存入到列表中,以空格为分割条件,对每行三元组进行源节点值、关系值、目标节点值的分割,并以对象方式存入对应列表中,然后从列表中获取案号三元组的Id;
定义svg标签,去除重复的源节点值,并将其值存放到Set集合中,值和Id存放到字典结构中,将源节点Id、目标节点Id、关系值以{"source":源节点Id,"target":目标节点Id,"relation":关系值}的形式存入包含连线属性的字典中,将得到的值和Id以对象方式全部存入对应列表中,将值和Id建立起联系以便调用,将所有节点以{"name":值}的方式存入包含节点属性的字典中并初始化所有节点颜色;
以关键词区分人和案节点,人和案节点以两种颜色进行区分,通过从存取节点信息和边信息的列表中获取源节点值、源节点Id以及目标节点Id,判断是否包含案关键字,如果是则置为红色,其中如果案号Id不为0则加一,为0则不变,将所有的源节点与案号节点连接以达到案号节点为中心节点的效果;
步骤5:为矢量图设置宽度和高度,指定节点内容和连线内容,为节点和关系设置属性,封装并生成力导向图。
7.如权利要求1所述的基于多维联动的可视化分析方法,其特征在于,步骤7中树图实现流程包括:
通过d3.js中的方法选择页面中已定义的svg标签,并设置其高度、宽度以及边界等相关属性。
通过d3.js中的方法请求获取数据文件的内容,并存入数据对象数组中;
创建相应布局,用来表达层次关系的数据结构;通过树图的相关函数将数据对象数组转化成绘制树的基本数据;
绘制连线并添加连线上的概括信息;
绘制节点、添加节点的文字信息;
添加相应的文字提示框;
高亮显示;
通过相应方法封装树图中边和节点绘制的相应信息,生成完整的树图。
8.如权利要求1所述的基于多维联动的可视化分析方法,其特征在于,步骤7中滚动效果的实现包括:
将文书划分为案头、指控、辩护、综合评审以及案尾五部分,分别设置五个同类分区来对应输出相应的文书文字部分,通过服务器获取执行特征抽取算法后的三元组文本文件,并从中过滤出相对应的五部分文书内容,添加到相应的输出流中,实现左侧文书的显示工作;
获取各左侧各分区的页面位置,计算并保存各分区的位置同索引号的映射关系,用于后期滚动条件的判断;
实时获取页面当前的位置;
获取当前所在页面的索引号;
判断当前的索引号是不是正确的索引号,如果不是则在可视区域根据当前索引号调用相应的页面。
9.如权利要求1所述的基于多维联动的可视化分析方法,其特征在于,可视化左侧显示每部分文本内容,给定三元组文本文件,通过文本标注算法对三元组中出现的字符进行标记,将人和案相关的实体要素用颜色区分,并将其字号变大,使得文本内容时具有导向性。
10.如权利要求1所述的基于多维联动的可视化分析方法,其特征在于,文本标注算法包括:
按行读取文书部分内容,如读取文书头部内容,然后读取三元组内容;
将读取的三文本内容按行进行拼接为一个字符串,并对其按标点符号进行分割,分割成每一句话,并以对象方式将句子内容、句子Id、布尔值存储在列表结构中;
获取三元组内容和文书内容,对内容进行相应的处理;
获取文书每句内容,并按字符对其进行分割,然后获取拆分后的每个字符,如果三元组字符池包含该字符且所在句子Id为区分人的Id则将字符颜色设置为区分人的颜色,将字号变大并显示,如果三元组字符池包含该字符且所在句子Id为区分案的Id则将字符颜色设置为区分案的颜色,将字号变大并显示,如果不满足上述两个条件则将字符颜色设置为默认颜色,将字号设置为默认大小;
进行文本整体的显示。
CN202010490310.1A 2020-06-02 2020-06-02 基于多维联动的可视化分析方法 Pending CN111985236A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010490310.1A CN111985236A (zh) 2020-06-02 2020-06-02 基于多维联动的可视化分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010490310.1A CN111985236A (zh) 2020-06-02 2020-06-02 基于多维联动的可视化分析方法

Publications (1)

Publication Number Publication Date
CN111985236A true CN111985236A (zh) 2020-11-24

Family

ID=73441963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010490310.1A Pending CN111985236A (zh) 2020-06-02 2020-06-02 基于多维联动的可视化分析方法

Country Status (1)

Country Link
CN (1) CN111985236A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011161A (zh) * 2020-12-29 2021-06-22 中国航天科工集团第二研究院 一种基于深度学习与模式匹配的人案物关联关系抽取方法
CN113128237A (zh) * 2021-04-09 2021-07-16 青岛海大新星软件咨询有限公司 一种服务资源的语义表征模型构建方法
CN113779187A (zh) * 2020-12-29 2021-12-10 中国航天科工集团第二研究院 一种基于径向树结构的可视化分析方法
CN115630698A (zh) * 2022-12-08 2023-01-20 国家电网有限公司客户服务中心 基于力引导图的知识图谱可视化方法、装置及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170060826A1 (en) * 2015-08-26 2017-03-02 Subrata Das Automatic Sentence And Clause Level Topic Extraction And Text Summarization
CN108694178A (zh) * 2017-04-06 2018-10-23 北京国双科技有限公司 一种推荐司法知识的方法及装置
CN110032721A (zh) * 2018-01-11 2019-07-19 北京国双科技有限公司 一种裁判文书推送方法及装置
CN110309303A (zh) * 2019-05-22 2019-10-08 浙江工业大学 一种基于加权tf-idf的司法纠纷数据可视分析方法
CN110597999A (zh) * 2019-08-01 2019-12-20 湖北工业大学 一种依存句法分析关系抽取模型的司法案件知识图谱构建方法
CN110889014A (zh) * 2019-10-21 2020-03-17 浙江工业大学 一种基于d3的企业关联关系图谱的展示方法
CN111145052A (zh) * 2019-12-26 2020-05-12 北京法意科技有限公司 司法文书的结构化分析方法及***
CN111177591A (zh) * 2019-12-10 2020-05-19 浙江工业大学 面向可视化需求的基于知识图谱的Web数据优化方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170060826A1 (en) * 2015-08-26 2017-03-02 Subrata Das Automatic Sentence And Clause Level Topic Extraction And Text Summarization
CN108694178A (zh) * 2017-04-06 2018-10-23 北京国双科技有限公司 一种推荐司法知识的方法及装置
CN110032721A (zh) * 2018-01-11 2019-07-19 北京国双科技有限公司 一种裁判文书推送方法及装置
CN110309303A (zh) * 2019-05-22 2019-10-08 浙江工业大学 一种基于加权tf-idf的司法纠纷数据可视分析方法
CN110597999A (zh) * 2019-08-01 2019-12-20 湖北工业大学 一种依存句法分析关系抽取模型的司法案件知识图谱构建方法
CN110889014A (zh) * 2019-10-21 2020-03-17 浙江工业大学 一种基于d3的企业关联关系图谱的展示方法
CN111177591A (zh) * 2019-12-10 2020-05-19 浙江工业大学 面向可视化需求的基于知识图谱的Web数据优化方法
CN111145052A (zh) * 2019-12-26 2020-05-12 北京法意科技有限公司 司法文书的结构化分析方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
洪文兴 等: "面向司法案件的案情知识图谱自动构建", 《中文信息学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011161A (zh) * 2020-12-29 2021-06-22 中国航天科工集团第二研究院 一种基于深度学习与模式匹配的人案物关联关系抽取方法
CN113779187A (zh) * 2020-12-29 2021-12-10 中国航天科工集团第二研究院 一种基于径向树结构的可视化分析方法
CN113128237A (zh) * 2021-04-09 2021-07-16 青岛海大新星软件咨询有限公司 一种服务资源的语义表征模型构建方法
CN115630698A (zh) * 2022-12-08 2023-01-20 国家电网有限公司客户服务中心 基于力引导图的知识图谱可视化方法、装置及电子设备
CN115630698B (zh) * 2022-12-08 2023-04-11 国家电网有限公司客户服务中心 基于力引导图的知识图谱可视化方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN112001187B (zh) 一种基于中文句法和图卷积神经网络的情感分类***
Feng et al. A small samples training framework for deep Learning-based automatic information extraction: Case study of construction accident news reports analysis
CN111985236A (zh) 基于多维联动的可视化分析方法
US20150081277A1 (en) System and Method for Automatically Classifying Text using Discourse Analysis
CN112487206B (zh) 一种自动构建数据集的实体关系抽取方法
Goyal et al. Design and analysis of a lean interface for sanskrit corpus annotation
CN113196277A (zh) 用于检索自然语言文档的***
CN114547298A (zh) 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质
CN113609838B (zh) 文档信息抽取及图谱化方法和***
Kutter Corpus analysis
CN116595195A (zh) 一种知识图谱构建方法、装置及介质
KR102185733B1 (ko) 프로필 자동생성서버 및 방법
Albuquerque et al. UlyssesNER-Br: a corpus of Brazilian legislative documents for named entity recognition
CN112711666B (zh) 期货标签抽取方法及装置
Thakur et al. Identifying domain elements from textual specifications
KR20220068937A (ko) 기계학습 방법론을 이용한 한국 표준 산업/직업 분류 방법
Choi et al. Syntactic and semantic information extraction from NPP procedures utilizing natural language processing integrated with rules
JP2006309347A (ja) 対象文書からキーワードを抽出する方法、システムおよびプログラム
Vineetha et al. A multinomial naïve Bayes classifier for identifying actors and use cases from software requirement specification documents
Oyama et al. Visual clarity analysis and improvement support for presentation slides
Brath et al. Automated insights on visualizations with natural language generation
CN112347252A (zh) 一种基于cnn文本分类模型的可解释性分析方法
CN115017271B (zh) 用于智能生成rpa流程组件块的方法及***
Pinheiro et al. ChartText: Linking Text with Charts in Documents
CN114677165A (zh) 上下文在线广告投放方法、装置、服务器和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20240112

AD01 Patent right deemed abandoned