CN114818681B - 一种实体识别方法及***、计算机可读存储介质及终端 - Google Patents
一种实体识别方法及***、计算机可读存储介质及终端 Download PDFInfo
- Publication number
- CN114818681B CN114818681B CN202210724088.6A CN202210724088A CN114818681B CN 114818681 B CN114818681 B CN 114818681B CN 202210724088 A CN202210724088 A CN 202210724088A CN 114818681 B CN114818681 B CN 114818681B
- Authority
- CN
- China
- Prior art keywords
- text information
- data
- unit
- entity identification
- identification method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000003860 storage Methods 0.000 title claims abstract description 11
- 239000013598 vector Substances 0.000 claims abstract description 34
- 230000007613 environmental effect Effects 0.000 claims abstract description 30
- 238000005457 optimization Methods 0.000 claims abstract description 28
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims description 67
- 238000013507 mapping Methods 0.000 claims description 29
- 239000011159 matrix material Substances 0.000 claims description 29
- 230000009466 transformation Effects 0.000 claims description 29
- 230000004913 activation Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000000354 decomposition reaction Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 239000002994 raw material Substances 0.000 claims description 2
- 239000010410 layer Substances 0.000 description 20
- 238000013528 artificial neural network Methods 0.000 description 18
- 230000000694 effects Effects 0.000 description 12
- 238000005070 sampling Methods 0.000 description 11
- 238000009826 distribution Methods 0.000 description 9
- 238000010276 construction Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 238000005259 measurement Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000007418 data mining Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000011426 transformation method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000002356 single layer Substances 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000000556 factor analysis Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 239000003344 environmental pollutant Substances 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 150000007524 organic acids Chemical class 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 231100000719 pollutant Toxicity 0.000 description 1
- 230000002285 radioactive effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的一种实体识别方法及***、计算机可读存储介质及终端,其特征在于,包括,获取生态环保类法律案件的文书的文本信息,文本信息包括与案件审判有/无关的文本信息;将文本信息与其对应的标签转换为数值向量,配置标签为与案件审判相关的类别;配置面向知识图谱的算法,将已标注的数据集输入该算法进行训练,得到优化模型,数据集包括生态环保类法律案件的文书的文本信息及与其对应的标签;将训练好的优化模型用于分类器中,使分类器对未审判的生态环保类法律案件的文书的文本信息进行分类,完成未审判的生态环保类法律案件的文书的文本信息的抽取,以达到对未知的环保类法律案件的文书的实体能够提取出与审判相关的文本信息。
Description
技术领域
本发明属于知识图谱构建技术领域,涉及面向生态环保类案件知识图谱的实体识别技术,具体涉及一种实体识别方法及***、计算机可读存储介质及终端。
背景技术
知识图谱通过信息处理技术将现实世界的概念、实体、事件以及它们之间的关系呈现为语义网络图,在其构建过程中涉及众多的技术,包括知识抽取、知识表示、知识推理等。虽然知识图谱在个性化推荐、智慧交通、智能政务等场景中被广泛应用,但是其发展过程中仍面临较多挑战,主要体现在计算效率低、数据稀疏两个方面。
当前的生态环保类案件知识图谱由于捕捉了案件实体之间的异构关联关系而具有巨大的发展潜力。在日常生活中,随着人们对环境的保护意识越来越强烈,污染环境等违法行为更多的被大众注意到。众多的生态环保类的法律案件需要被审判,但是由于法官等工作人数的有限,案件的数量居高不下,对工作人员造成很大的工作压力,为此构造一套生态环保类法律案件的智能审判***是非常迫切的,以期达到将未经审判的生态环保类的法律案件输入智能审判***,该智能审判***可以输出该生态环保案件的审判结果以及对应的审判依据(法律条例)。
构造该智能审判***需要需要构建关于生态环保类的法律案件的知识图谱,但是在生态环保类法律案件的文书中有大量与智能审判不相关的背景信息与知识,这些文本信息有其内在的语义逻辑,并不以智能审判为导向,需要进一步对文本信息的数值空间表示进行变换,以突出与智能审判等任务高度相关的要素信息,然后提取出与智能审判相关的文本信息。从分类的角度来看,文本信息的数值向量变换后的数据应呈现简单的(如:线性可分、同类数据局部聚集)分布状态。
知识图谱表征学习领域的谱聚类算法、卷积图神经网络、序列化神经网络等方法实现了知识图谱的向量化,即实现了非结构数据向结构数据的转变。但事实上知识图谱同时也面临着文书分析中数据来源较为复杂,有效信息提取识别率低、准确率低等问题。
现有技术缺陷:
(1)以使用最广泛的核函数---径向基核函数为例,其运算时函数中的两两数据点的距离度量可能并不合适。与距离度量学习被提出的原因类似,径向基函数的结果很容易受到特征的大小和特征之间相互作用的影响。因此,在进行核变换之前,需要对数据点的距离度量标准进行修正。
(2)标准的Nyström等核变换拟合方法是通过无监督进行学习的,其性能很大程度上依赖于内置核函数的参数设置。但是核函数的最优参数搜索相当耗时,这也在一定程度上削弱了Nyström等核变换方法的速度优势;
(3)距离度量学习和核变换拟合一般来说是两个独立的学习过程,不能保证整体优化。两者都有各自的优化目标,不能保证整体优化。
发明内容
为解决上述现有技术问题,本发明提供一种实体识别方法及***、计算机可读存储介质及终端。
为了实现上述目的,本发明采用的技术方案是:
提供一种实体识别方法,其特征在于,包括
获取生态环保类法律案件的文书的文本信息,文本信息包括与案件审判有/无关的文本信息;
配置为将文本信息与其对应的标签转换为数值向量,配置标签为与案件审判相关的类别;
配置面向知识图谱的算法,配置为将已标注的数据集输入该算法进行训练,得到优化模型,数据集包括生态环保类法律案件的文书的文本信息及与其对应的标签;
配置为将训练好的优化模型用于分类器中,使分类器对未审判的生态环保类法律案件的文书的文本信息进行分类,完成未审判的生态环保类法律案件的文书的文本信息的抽取。
优选的,Nyström映射单元;
Nyström单元;
分类单元;
其中,Nyström映射单元用于将输入数据映射到高维度/隐式的内积空间,配置为使数值向量为Nyström映射单元的输入数据;
其中,Nyström单元用于核变换拟合与最优化核参数的自动学习,配置Nyström映射单元输出的数据为Nyström单元的输入数据;
其中,分类单元用于对Nyström单元的输出数据进行概率计算,分类单元输出带有类别信息的目标向量。
优选的,配置在Nyström映射单元前具有度量学习单元,度量学习单元用于提高面向知识图谱的算法的非线性拟合能力,配置为使数值向量为度量学习单元的输入数据,度量学习单元的输出配置为Nyström映射单元的输入数据。
优选的,度量学习单元具有全连接层和激活函数层;
度量学习单元的输入数据通过多个全连接层和激活函数层进行变换。
其中,数据点配置为带有文本信息与类别信息的数值向量;
优选的,配置在度量学习单元前具有局部敏感哈希方法,用于降低三元组数据的搜索时间;
则公式(3)可化简为,
其中,C为对核矩阵的行/列的一个抽样,T为转置。
优选的,Nyström映射单元中,
其中,输入数据点为度量学习单元的输出数据。
优选的,Nyström单元可配置为具有全连接层和激活函数层;
提供一种实体识别的***,其特征在于,包括,
信息获取模块,用于获取生态环保类法律案件的文书的文本信息与其对应的标签信息,构建训练需要的数据集;
模型训练模块,用于将已标注的生态环保类法律案件的文书的文本信息及与其对应的标签的训练样本进行训练,得到优化模型;
模型应用模块,包括分类器,将优化模型用于分类器中使分类器对未审判的生态环保类法律案件的文书的文本信息进行分类;
实体提取模块,用于根据分类器识别文本信息的类别来提取实体。
提供一种计算机可读存储介质,其特征在于,
用于存储指定计算机程序,所述指定计算机程序的执行实体抽取方法。
提供一种终端,其特征在于,包括:
存储器;
处理器;
其中,所述存储器用于存储可执行程序代码;
其中,所述处理器与所述存储器耦合;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行实体抽取方法。
本发明的有益效果体现在,提供一种实体识别方法及***、计算机可读存储介质及终端。将生态环保类法律案件构建的与审判有关的关键信息提取出来,有助于对知识图谱的节点特征之间的复杂交互关系进行解耦,以更好地呈现由特征所反映的生态环保类案件的法律、法规审判和决策类应用问题,消除知识图谱节点特征的复杂分布模式,解决多准则、多目标的特征重要性评估问题;提出端到端的生态环保类案件大数据知识图谱自动化表征技术,即通过自动化的学习和训练,将知识图谱的结构分布特点与节点特征嵌入到数值型的向量空间,实现生态环保类案件知识图谱数据的非结构化向结构化表示的转变。
附图说明:
图1-图8为本发明实施例,
图1示出了集成度量学习与核变换拟合的神经网络结构与变换流程图;
图2示出了将知识映射到向量空间示意图;
图3示出了三元组的部分存储形式;
图4示出了使用6种知识图谱的数据集;
图5示出了6种知识图谱的数据集及其变换后的效果图
图6示出了本算法与其它距离度量学习方法及非线性变换方法的运行时间对比(秒);
图7示出了本算法与其它距离度量学习方法对距离分类器的AUC提升对比(%);
图8示出了本算法与其它非线性变换方法的AUC 对比 (%)。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-图8所示,本发明提供的具体实施例如下:
实施例1:
一种实体识别方法,其特征在于,包括
获取生态环保类法律案件的文书的文本信息,文本信息包括与案件审判有/无关的文本信息;
配置为将文本信息与其对应的标签转换为数值向量,配置标签为与案件审判相关的类别;
配置面向知识图谱的算法,配置为将已标注的数据集输入该算法进行训练,得到优化模型,数据集包括生态环保类法律案件的文书的文本信息及与其对应的标签;
配置为将训练好的优化模型用于分类器中,使分类器对未审判的生态环保类法律案件的文书的文本信息进行分类,完成未审判的生态环保类法律案件的文书的文本信息的抽取。
知识图谱本质上是结构化的语义知识库,用符号的形式描述现实世界中的概念及其相互关系。其基本组成单位是“实体-关系-属性”三元组,以及实体及其相关属性,实体间通过关系相互连接,构成网状的知识结构,三元组可以更好地描述出实体与实体之间的关系,能够更加多样化地对知识图谱进行搜索。在构造生态环保类法律案件的知识图谱时,训练数据主要来源法院案件文书,将生态环保类法律案件的与智能审判相关的重点信息区分出来,重点信息是通过分析真实审判案件中法官的审判标准及审判关注信息得到的,从而提取出模拟法官审判所需要的重点信息,也就是实体识别。实体提取的准确与否对知识图谱的构建有非常大的影响,在生态环保类法律案件中,如果提取的实体不是审判需要的重点信息,不仅其构建的知识图谱偏离事实,而且还会给使用知识图谱搜索的人一种误解。为此,准确提取出实体是非常有价值的。
在本实施例中,提出一种实体识别方法,获取生态环保类法律案件的文书的文本信息,文本信息包括与案件审判有/无关的文本信息;然后配置为将文本信息与其对应的标签转换为数值向量,配置标签为与案件审判相关的类别;配置面向知识图谱的算法,配置为将已标注的数据集输入该算法进行训练,得到优化模型,数据集包括生态环保类法律案件的文书的文本信息及与其对应的标签;配置为将训练好的优化模型用于分类器中,使分类器对未审判的生态环保类法律案件的文书的文本信息进行分类,完成未审判的生态环保类法律案件的文书的文本信息的抽取。本发明的提取实体的方法可以将生态环保类法律案件的文书中与智能审判高度相关的信息提取出来,而滤掉与智能审判无关的文本信息,为构建生态环保类案件的知识图谱提供更接近审判的实体,为整个智能审判***打好基础。
实施例2:
面向知识图谱的算法包括,
Nyström映射单元;
Nyström单元;
分类单元;
其中,Nyström映射单元用于将输入数据映射到高维度/隐式的内积空间,配置为使数值向量为Nyström映射单元的输入数据;
其中,Nyström单元用于核变换拟合与最优化核参数的自动学习,配置Nyström映射单元输出的数据为Nyström单元的输入数据;
其中,分类单元用于对Nyström单元的输出数据进行概率计算,分类单元输出带有类别信息的目标向量。
配置在Nyström映射单元前具有度量学习单元,度量学习单元用于提高面向知识图谱的算法的非线性拟合能力,配置为使数值向量为度量学习单元的输入数据,度量学习单元的输出配置为Nyström映射单元的输入数据。
Nyström方法可以把对n阶矩阵的特征分解问题,转化为对l阶矩阵的特征分解问题,大大降低了计算复杂度。但是标准的Nyström等核变换拟合性能很大程度上依赖于内置核函数的参数设置,但核函数的最优参数搜索相当耗费时间,这在一定程度上削弱了Nyström等核变换方法的速度优势。
在本实施例中,将距离度量学***衡了分类准确率、非平衡数据上的单侧分类精度,以及在不同参数下分类的鲁棒性。算法提升AUC值,使得分类性能更好,实体识别与实体关系识别的准确性能越好,进而提高知识图谱的构建质量。构建的知识图谱可以更好地提炼生态环保类案件的文本中的碎片化信息、去除噪音(与审判无关的信息)、以及捕捉信息之间的复杂关联关系,建立非结构化文本信息与数理化数据挖掘模型与算法之间的桥梁,以使人工智能技术可以更方便地理解人类语言中的高阶语义信息,并支持知识图谱的下游数据挖掘任务,如智能法律案件审判中的潜在影响因素分析、案情推理、智能专家***等。
实施例3:
度量学习单元具有全连接层和激活函数层;
度量学习单元的输入数据通过多个全连接层和激活函数层进行变换。
原始度量学习的基本思想是:在一定的约束条件下,学习一个线性距离度量矩阵,对原空间进行线性变换,以使相同“标签”的向量对之间的距离最小化,或者使不同“标签”类别的向量对之间的距离最大化。距离度量学习可以解决知识图谱向量空间的标签类别感知问题,但传统的度量学习面临如下局限:(1)多数数学优化模型仅能求解单次线性变换的最优化问题;(2)多数基于数学优化的度量学习为半定规划问题,时间复杂度高且难以求解;(3)相同/相异标签最近邻数据点对(三元组,Triplet)搜索时间复杂度高。
在本实施例中,本发明将传统的度量学习封装为一种多层神经网络的非线性结构,如图1中M1模块所示:通过多层全连接神经网络层和非线性激活单元,使用多层神经网络各层之间的连接表示线性变换矩阵P,激活函数的主要作用是加入非线性因素,解决线性模型的表达、分类能力不足的问题。常见的激活函数包括:Sigmoid、tanh、ReLU、Leaky-ReLU、Maxout等,本发明采用ReLU激活函数作为实施方式之一。本申请的度量学习模块比传统的“线性变换度量学习”具备更强的复杂非线性模式拟合能力,解决了上文提到的局限(1)“多数数学优化模型仅能求解单次线性变换的最优化问题”。
实施例4:
其中,数据点配置为带有文本信息与类别信息的数值向量;
在本实施例中,在优化目标损失函数的构建方面,本发明提出无约束目标损失函数,通过计算“同标签最近邻数据点之间总距离”与“异标签最近邻数据点之间总距离”的比值,避免了减法函数容易导致的空间坍缩问题,并且通过PyTorch神经网络框架实现梯度链的自动跟踪与计算,解决了上文提到的局限(2)“多数基于数学优化的度量学习为半定规划问题,时间复杂度高且难以求解”。
传统的表示学习方法只关注表示学习模型的准确性,而忽略了对于训练时间代价的优化,产生了巨大的时间代价。传统的度量学习的三元组搜索时间复杂度较高,由于用于构建三元组搜索是在单次输入的“小批量(mini-batch)”评论向量数据中进行的,搜索时间复杂度从降低为,其中n为总体样本数,m为“小批量”中的样本数,搜索时间复杂度大大降低。通过本发明所提出的度量学习神经网络模块结构与无约束的目标优化问题,可以使相同“标签”的数据在向量空间中的距离更近,相异“标签”的数据在向量空间中的距离更远,最终实现了知识图谱数据向量空间的标签类别感知效果。
实施例5:
配置在度量学习单元前具有局部敏感哈希方法,用于降低三元组数据的搜索时间;
在本实施例中,如图2所示,将知识映射到低维向量空间中参与计算。如图3所示包含部分三元组的存储形式,使用实体来表示自然界的物体或者抽象的概念,使用关系来建模实体之间的交互,其基本的存储形式是(头实体h,关系r,尾实体t)的三元组。本方案的三元组数据为相同、相异标签最近邻数据对,应用“局部敏感哈希(Localsensitive hashing,LSH)”等技术,三元组搜索时间降低为,其中g为哈希桶数,进一步降低三元组搜索时间。
如图4所示,6个测试数据集来自于不同的法庭的生态环保类案件的数据,其中,D1-D2为6个数据集的名称,D1为“大熊猫法庭”生态环保类案件的数据集,D2为来源于中国政法大学研究院的生态环保类案件的数据集,D3来自于南京的通达海法院***的生态环保类案件的数据集,D4为上海市的部分生态环保类案件的数据集,D5为武汉市的部分生态环保类案件的数据集,D6为重庆的部分生态环保类案件的数据集。其中,实例数为各个数据集中环保案件中的与案件审判有/无关的文本信息的数值向量的个数,每个数据集的文本信息向量化后,属性数为文本信息被压缩到的对应维度,例如,D1数据集对应的属性数为78,即例如D1数据集的文本信息向量化后被压缩到78维。
类针对这6个数据集,本算法与传统模型的运行时间对比如图6所示,其中“\”表示该算法在64G内存的服务器上仍内存崩溃,相较于LMNN(Distance metric learning forlarge margin nearest neighbor classification,大幅度近邻分类的距离度量学习)及DMLMJ(distance metric learning through maximization of the jeffreydivergence,通过jeffrey散度最大化的距离度量学习)这两种涉及半定规划的模型来说,本发明提出的NyströmNet模型由于不涉及过于复杂的数学优化问题,本算法NyströmNet1、NyströmNet2、NyströmNet3运行时间约是传统模型LMNN及DMLMJ运行时间的1/240倍-1/30倍,在速度上有大幅提升。本算法NyströmNet1、NyströmNet2、NyströmNet3运行时间是TripletNet运行时间的1/12倍-2/5倍,而相对于TripletNet这种涉及Triplet三元组搜索的模型来说,NystromNet模型也有部分性能上的优势。解决上文提到的局限(3)“相同/相异标签最近邻数据点对搜索时间复杂度高”。
实施例6:
则公式(3)可化简为,
其中,C为对核矩阵的行/列的一个抽样,T为转置。
Nyström映射单元中,
其中,输入数据点为度量学习单元的输出数据。
Nyström单元可配置为具有全连接层和激活函数层;
由于知识图谱的多源数据与异质性等特点,会导致向量空间的数据分布模式也非常复杂,如果在该种数据中直接应用快速的分类、聚类等数据挖掘方法,对于生态环保类案件的文书,不能很好地识别其中的模式,较大的概率会出现将A识别成B的现象。
核变换(核技巧)通过将原数据点映射到更高维度(或无限维度)的、隐式的内积空间,可以使数据分布更加简单。核变换涉及到了核矩阵的计算,即需要将所有的“两两数据点对”应用于核函数,形成一个n×n的矩阵,例如传统的谱聚类使用核矩阵模拟邻接矩阵、支持向量机(SVM)将该矩阵应用于优化目标的对偶问题求解。核矩阵的计算时间复杂度为,在大规模数据集上其计算规模相当庞大。因此,大量的研究使用Nyström等方法近似拟合核矩阵和核变换问题。但Nyström方法仍面临两个难题:(1)非线性变换中的矩阵是通过抽样数据直接计算出的,易受样本数据影响,无法保证针对特定问题的最优化;(2)基核函数难以选取,函数中的最优参数难以确定。
在本实施例中,本发明设计一种基于核变换拟合的神经网络模块,降低评论空间的分布复杂性。如图1中的M2.Nyström映射模块所示:核变换拟合中的为神经网络输入数据点与“代表性数据点”之间的核函数应用,可以用神经网络连接结构表示。由于核变换拟合中的是一个方阵,可以用一层或者多层的全连接的神经网络表示,即图1中的M3模块。表示为神经网络结构后,Nyström方法中的方阵不再由抽样数据点直接计算,而是由神经网络结构来学习得出,这将大大提高Nyström方法的拟合精度,并解决了上述的难题(1)“非线性变换中的矩阵是通过抽样数据直接计算出的,易受样本数据影响,无法保证针对特定问题的最优化”,与传统的直接使用抽样数据点的Nyström方法的对比如图8所示,本算法具有NyströmNet1、NyströmNet2、NyströmNet3可实行的3中算法,其中NyströmNet1算法采用随机抽样技术对数据集抽取代表性数据点,NyströmNet2算法采用聚类抽样技术对数据集抽取代表性数据点,NyströmNet3采用迭代式抽样技术,具体为先抽样,训练一轮将数值向量变换到新的空间里,对训练之后的数值向量进行再抽样,再训练一轮,再对训练之后的数值向量进行抽样,以重复训练抽样的抽样方式进行抽样。
NyströmNet1、NyströmNet2、NyströmNet的AUC(Area Under Curve,衡量分类器综合性能的指标)比直接使用抽样数据计算的原始Nystrom方法的AUC有大幅度提升,最大增加了43个百分点,由于数据的差异与分类器的性能不同,对于本发明使用的6种知识图谱数据集,AUC有平均提升17个百分点。AUC越高就说明这个模型的综合分类性能高,使得分类性能更好,实体识别与实体关系识别的准确性能越好,进而提高知识图谱的构建质量。并能够更好的支持知识图谱的下游数据挖掘任务,如智能法律案件审判中的潜在影响因素分析、案情推理、智能专家***等。
实施例6:
在本实施例中,针对神经网络的训练阶段的输出层,本研究使用单层线性连接并应用Softmax和交叉熵损失函数,即图1中的M4模块,拟使用的标签类别通常为节点本身的领域知识类别,总体损失函数为包括分类交叉熵损失函数与度量学习模块的损失函数,可以根据不同的目的、数据库调整损失函数的权重。由于该神经网络的输出层是单层线性全连接层,单层线性连接只适用于线性可分的分类问题,因此,神经网络在增量式的训练过程中为了最优化数据分类这个总体目标,将迫使“M1.度量学习模块”与“M3.Nyström模块”不断地进行最优参数调整,最终使知识图谱数据在“M3.Nyström模块”输出时呈现出一种线性可分的简单分布结构,大大有利于后续的聚类、分类等任务。
以6种数据集为例,使用的知识图谱数据集如图4所示,原数据集及变换后的效果图如图5所示,由于高维度的分类效果不能可视化,为此本发明将高维的分类效果降低到可视化的二维平面上,图中的数据点包括深灰色的数据点与浅灰色的数据点表示2种标签类别数据点,例如,放射性污染物与动植物资源,其中,第一列图像表示对应6种原数据集压缩到二维空间的效果图,第二列图像表示对应原数据集经过度量学习模块变换后压缩到二维空间的的效果图,第三列图像表示对应原数据集先后经过度量学习模块、Nyström模块变换后压缩到二维空间的的效果图。从图5中可以看出,从第一列图像可以看出原数据集中不同标签类别的数据互相缠绕在一起,难以分离;经过DML模块变换之后,同类别的数据开始向局部聚集,但总体上仍线性不可分;经过Nyström模块变换之后,数据在总体上已经基本线性可分。
一种实体识别的***,其特征在于,包括,
信息获取模块,用于获取生态环保类法律案件的文书的文本信息与其对应的标签信息,构建训练需要的数据集;
模型训练模块,用于将已标注的生态环保类法律案件的文书的文本信息及与其对应的标签的训练样本进行训练,得到优化模型;
模型应用模块,包括分类器,将优化模型用于分类器中使分类器对未审判的生态环保类法律案件的文书的文本信息进行分类;
实体提取模块,用于根据分类器识别文本信息的类别来提取实体。
一种计算机可读存储介质,其特征在于,
用于存储指定计算机程序,所述指定计算机程序的执行可实现体抽取方法。
一种终端,其特征在于,包括:
存储器;
处理器;
其中,所述存储器用于存储可执行程序代码;
其中,所述处理器与所述存储器耦合;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行实体抽取方法。
在本发明的实施例的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“坚直”、“水平”、“中心”、“顶”、“底”、“顶部”、“底部”、“内”、“外”、“内侧”、“外侧”等指示的方位或位置关系。
在本发明的实施例的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“组装”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的实施例的描述中,具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
在本发明的实施例的描述中,需要理解的是,“-”和“~”表示的是两个数值之同的范围,并且该范围包括端点。例如:“A-B”表示大于或等于A,且小于或等于B的范围。“A~B''表示大于或等于A,且小于或等于B的范围。
在本发明的实施例的描述中,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (12)
1.一种实体识别方法,其特征在于,包括
获取生态环保类法律案件的文书的文本信息,文本信息包括与案件审判有/无关的文本信息;
将文本信息与其对应的标签转换为数值向量,配置标签为与案件审判相关的类别;
配置面向知识图谱的算法,配置为将已标注的数据集输入该算法进行训练,得到优化模型,数据集包括生态环保类法律案件的文书的文本信息及与其对应的标签;
将训练好的优化模型用于分类器中,使分类器对未审判的生态环保类法律案件的文书的文本信息进行分类,完成未审判的生态环保类法律案件的文书的文本信息的抽取;
面向知识图谱的算法包括,
分类单元;
3.根据权利要求2所述的一种实体识别方法,其特征在于,
度量学习单元具有全连接层和激活函数层;
度量学习单元的输入数据通过多个全连接层和激活函数层进行变换。
5.根据权利要求4所述的一种实体识别方法,其特征在于,
配置在度量学习单元前具有局部敏感哈希方法,用于降低三元组数据的搜索时间;
其中,配置所述三元组数据为相同、相异标签最近邻数据对为(xi,xj,xk)。
9.根据权利要求8所述的一种实体识别方法,其特征在于,
分类单元配置为采用交叉熵损失函数,总体损失函数为Loss,
Loss=a*Lossclassify+b*Lossd (7)
其中,a、b表示超参数;
其中,Lossclassify表示分类交叉熵损失函数;
其中,Lossd表示度量学习单元的损失函数。
10.一种实体识别***,其特征在于,包括,
信息获取模块,用于获取生态环保类法律案件的文书的文本信息与其对应的标签信息,构建训练需要的数据集;
模型训练模块,用于将已标注的生态环保类法律案件的文书的文本信息及与其对应的标签的训练样本进行训练,得到优化模型;
模型应用模块,包括分类器,将优化模型用于分类器中使分类器对未审判的生态环保类法律案件的文书的文本信息进行分类;
实体提取模块,用于根据分类器识别文本信息的类别来提取实体。
11.一种计算机可读存储介质,其特征在于,
用于存储指定计算机程序,所述指定计算机程序的执行可实现权利要求1-9之任意一项权利要求所述的实体识别方法。
12.一种终端,其特征在于,包括:
存储器;
处理器;
其中,所述存储器用于存储可执行程序代码;
其中,所述处理器与所述存储器耦合;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-9之任意一项所述的实体识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210724088.6A CN114818681B (zh) | 2022-06-24 | 2022-06-24 | 一种实体识别方法及***、计算机可读存储介质及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210724088.6A CN114818681B (zh) | 2022-06-24 | 2022-06-24 | 一种实体识别方法及***、计算机可读存储介质及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114818681A CN114818681A (zh) | 2022-07-29 |
CN114818681B true CN114818681B (zh) | 2022-10-11 |
Family
ID=82521783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210724088.6A Active CN114818681B (zh) | 2022-06-24 | 2022-06-24 | 一种实体识别方法及***、计算机可读存储介质及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114818681B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116028618B (zh) * | 2022-12-27 | 2023-10-27 | 百度国际科技(深圳)有限公司 | 文本处理、文本检索方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543034A (zh) * | 2018-11-07 | 2019-03-29 | 中山大学 | 基于知识图谱的文本聚类方法、装置及可读存储介质 |
CN109992782A (zh) * | 2019-04-02 | 2019-07-09 | 深圳市华云中盛科技有限公司 | 法律文书命名实体识别方法、装置及计算机设备 |
CN111475613A (zh) * | 2020-03-06 | 2020-07-31 | 深圳壹账通智能科技有限公司 | 案件分类方法、装置、计算机设备及存储介质 |
CN113168544A (zh) * | 2018-12-19 | 2021-07-23 | 西门子股份公司 | 为复杂工业***提供服务的方法和*** |
CN113239208A (zh) * | 2021-05-06 | 2021-08-10 | 广东博维创远科技有限公司 | 一种基于知识图谱的标注训练模型 |
CN113298821A (zh) * | 2021-04-22 | 2021-08-24 | 江苏大学 | 一种基于Nystrom谱聚类的超像素抠图方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105824802B (zh) * | 2016-03-31 | 2018-10-30 | 清华大学 | 一种获取知识图谱向量化表示的方法以及装置 |
CN110807328B (zh) * | 2019-10-25 | 2023-05-05 | 华南师范大学 | 面向法律文书多策略融合的命名实体识别方法及*** |
CN113420126B (zh) * | 2021-06-30 | 2024-05-07 | 北京法意科技有限公司 | 基于法规文本的法律规则图谱构建方法及*** |
-
2022
- 2022-06-24 CN CN202210724088.6A patent/CN114818681B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543034A (zh) * | 2018-11-07 | 2019-03-29 | 中山大学 | 基于知识图谱的文本聚类方法、装置及可读存储介质 |
CN113168544A (zh) * | 2018-12-19 | 2021-07-23 | 西门子股份公司 | 为复杂工业***提供服务的方法和*** |
CN109992782A (zh) * | 2019-04-02 | 2019-07-09 | 深圳市华云中盛科技有限公司 | 法律文书命名实体识别方法、装置及计算机设备 |
CN111475613A (zh) * | 2020-03-06 | 2020-07-31 | 深圳壹账通智能科技有限公司 | 案件分类方法、装置、计算机设备及存储介质 |
CN113298821A (zh) * | 2021-04-22 | 2021-08-24 | 江苏大学 | 一种基于Nystrom谱聚类的超像素抠图方法 |
CN113239208A (zh) * | 2021-05-06 | 2021-08-10 | 广东博维创远科技有限公司 | 一种基于知识图谱的标注训练模型 |
Non-Patent Citations (8)
Title |
---|
"Classifying With Adaptive Hyper-Spheres:An Incremental Classifier Based on Competitive Learning";Tie Li 等;《IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS: SYSTEMS》;20200404;1218-1229 * |
"Deep Metric Learning:A Survey";Mahmut 等;《symmetry》;20190821;1-26 * |
"Deep Networks with Adaptive Nystrom Approximation";Luc Giffon 等;《https://arxiv.org/abs/1911.13036》;20191129;1-9 * |
"西南财经大学交子金融科技创新研究院项目评审会顺利举行";不详;《http://fintech.swufe.edu.cn/info/1119/2448/html》;20210505;1-5 * |
"面向大规模电商评论的情感分析与兴趣挖掘研究";李铁;《中国优秀博士学位论文全文数据库 经济与科学管理学辑》;20180915;J157-2 * |
国家重点研发计划重点专项"生态环保类按键智能审判与态势预警技术研究"项目启动会在我校召开;不详;《https://news.hutb.edu.cn/column/h_26_si/content/1619154125131.shtml》;20210411;1-5 * |
基于司法判决书的知识图谱构建与知识服务应用分析;黄茜茜 等;《情报科学》;20220201;133-139 * |
基于司法案例知识图谱的类案推荐;黄治纲 等;《南京大学学报(自然科学)》;20211130;1053-1062 * |
Also Published As
Publication number | Publication date |
---|---|
CN114818681A (zh) | 2022-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108805200B (zh) | 基于深度孪生残差网络的光学遥感场景分类方法及装置 | |
CN109508360B (zh) | 一种基于元胞自动机的地理多元流数据时空自相关分析方法 | |
CN108520275A (zh) | 一种基于邻接矩阵的连接信息规整***、图特征提取***、图分类***和方法 | |
CN108062551A (zh) | 一种基于邻接矩阵的图特征提取***、图分类***和方法 | |
Wu et al. | Application of image retrieval based on convolutional neural networks and Hu invariant moment algorithm in computer telecommunications | |
CN107766933A (zh) | 一种解释卷积神经网络的可视化方法 | |
CN112270345B (zh) | 基于自监督字典学习的聚类算法 | |
CN112308115B (zh) | 一种多标签图像深度学习分类方法及设备 | |
WO2024087639A1 (zh) | 基于内容理解的遥感影像推荐方法 | |
CN113378913A (zh) | 一种基于自监督学习的半监督节点分类方法 | |
Huang et al. | Research on optimization methods of ELM classification algorithm for hyperspectral remote sensing images | |
WO2023155508A1 (zh) | 一种基于图卷积神经网络和知识库的论文相关性分析方法 | |
CN113947161A (zh) | 一种基于注意力机制的多标签文本分类方法及*** | |
CN116304367B (zh) | 基于图自编码器自监督训练用于获得社区的算法及装置 | |
CN114818681B (zh) | 一种实体识别方法及***、计算机可读存储介质及终端 | |
CN113192647A (zh) | 一种基于多特征分层时空表征的新冠确诊人数预测方法和*** | |
Yu et al. | Convolutional neural network with feature reconstruction for monitoring mismatched photovoltaic systems | |
CN116912550A (zh) | 一种基于地物依赖关系的异构卷积网络遥感影像土地利用并行分类方法 | |
Wang et al. | R2-trans: Fine-grained visual categorization with redundancy reduction | |
Chen et al. | Short-term Wind Speed Forecasting Based on Singular Spectrum Analysis, Fuzzy C-Means Clustering, and Improved POABP | |
CN113159160A (zh) | 一种基于节点注意力的半监督节点分类方法 | |
Zhang et al. | Clustering optimization algorithm for data mining based on artificial intelligence neural network | |
CN115273645B (zh) | 一种室内面要素自动聚类的地图制图方法 | |
CN110378356A (zh) | 基于多目标拉格朗日正则的细粒度图像识别方法 | |
CN111897988B (zh) | 一种高光谱遥感图像分类方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |