CN112800764B - 一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取方法 - Google Patents

一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取方法 Download PDF

Info

Publication number
CN112800764B
CN112800764B CN202011620453.6A CN202011620453A CN112800764B CN 112800764 B CN112800764 B CN 112800764B CN 202011620453 A CN202011620453 A CN 202011620453A CN 112800764 B CN112800764 B CN 112800764B
Authority
CN
China
Prior art keywords
entity
legal field
entities
legal
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011620453.6A
Other languages
English (en)
Other versions
CN112800764A (zh
Inventor
李参宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Netmarch Technologies Co ltd
Original Assignee
Jiangsu Netmarch Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Netmarch Technologies Co ltd filed Critical Jiangsu Netmarch Technologies Co ltd
Priority to CN202011620453.6A priority Critical patent/CN112800764B/zh
Publication of CN112800764A publication Critical patent/CN112800764A/zh
Application granted granted Critical
Publication of CN112800764B publication Critical patent/CN112800764B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Technology Law (AREA)
  • Economics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于Word2Vec‑BiLSTM‑CRF的法律领域的命名实体识别方法,具体包括以下步骤:获取法律领域的原始数据并进行数据的预处理,获得的训练语料数据;将获得的训练语料数据输入Word2Vec算法结合CBOW模型,从而得到针对于法律领域的词向量;将预处理获取的训练语料数据,结合模板匹配和中文语料的顿等模式进行标注,获取标注语料,以Bi‑LSTM作为模型的编码层,将获得的标注语料与获得词向量相结合作为编码层的输入,输出得到文本语义信息特征;将Bi‑LSTM层获取的文本语义信息特征作为CRF的输入,最终输出命名实体的识别结果。识别法律文书中种类丰富的实体,实现法律领域实体的细粒度刻画,法律领域的数据结构化,进一步挖掘法律领域的不同实体之间的关系具有重要意义。

Description

一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取 方法
技术领域
本发明涉及命名实体识别领域,尤其涉及一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取方法。
背景技术
在法律领域,无论是在案件的侦查过程中,或是对于法院的审理诉讼而言,其涉及的命名实体种类众多且复杂。这些实体中最常见的是案情经过的要素,例如人物(犯罪嫌疑人、被害人)、时间、地点、动机、事件等。对于这些不同的案件要素,在不同的刑法罪名语境背景下有着不同的特点和表现形式。
法律领域中的实体种类繁多,这些实体的表示形式又各不相同。用一种统一的方法识别这些表示形式不同的命名实体,实现法律领域实体的细粒度刻画,法律领域的数据结构化,进一步挖掘法律领域的不同实体之间的关系具有重要意义。
2020年02月18日公开的公开号第CN110807084A号中国专利揭露了一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法,其包括以下步骤:步骤1):对专利文本进行预处理,识别出术语特征,同时加入位置信息,并通过改进的TextRank算法获得类别关键词特征,并将其组成向量矩阵;步骤2):将向量矩阵导入Bi-LSTM模型中,采用注意力机制获得文本信息的整体特征;步骤3):利用最大池化层选择每个句子的关键特征作为局部特征;步骤4):将整体特征和局部特征融合;步骤5):使用softmax分类器输出分类结果。本发明以专利术语关系抽取为基础,针对传统深度学习方法中存在的长距离依赖问题,通过各种实验对比,本发明的效果优于已有的方法,可以很好地满足实际应用的需要。
由于专利相对相对法律领域,其命名实体简单、统一,该方法可以实现对专利术语的抽取,但该抽取方法的效果无法应用于命名实体复杂的法律领域,无有效的识别法挖掘法律领域的实体,抽取效果差。
因此,有必要提供一种新的抽取方法解决上述问题。
发明内容
为解决上述背景技术中提出的问题,本发明提供了一种基于Word2Vec-BiLSTM-CRF的法律领域的命名实体识别方法,能够挖掘法律领域的不同实体之间的关系,。
为实现上述目的,本发明提供如下技术方案:一种基于Word2Vec-BiLSTM-CRF的法律领域的命名实体识别方法,具体包括以下步骤:
获取法律领域的原始数据并进行数据的预处理,获得的训练语料数据;将步骤A中获得的训练语料数据,输入Word2Vec算法结合CBOW模型,从而得到针对于法律领域的词向量;将步骤A中预处理获取的训练语料数据,结合模板匹配和中文语料的顿等模式进行标注,获取标注语料,具体的:根据法律领域的包含的特定实体构建标签***,采用BIO标注模式,B标签作为实体的开始,I标签表示实体的非开始部分,O表示非实体部分;构建法律领域的初始实体库;遍历训练语料数据集,获取符合顿等模式的句子集;使用顿等模式匹配初始实体库中实体的同义词、并列词,利用这些实体对实体库进行扩充;根据法律实体库中的实体使用模板匹配对训练语料数据进行实体标注;通过人工筛查的方式对C5获取的标注后的训练预料数据进行核查,纠正、补标实体,并对实体库进行更新,最终获得标注正确的训练语料数据;以Bi-LSTM作为模型的编码层,将步骤C中获得的标注语料与B步骤中获得词向量相结合作为编码层的输入,输出得到文本语义信息特征;将步骤D中Bi-LSTM层获取的文本语义信息特征作为CRF的输入,最终输出命名实体的识别结果。
构建法律领域的特定停用词表,利用jieba、ltp中文分词工具对步骤A中获得的训练语料数据进行分词、去停用词;使用Word2Vec算法结合CBOW模型将词汇包含的语义信息转换为n维词向量,得到法律领域的特定词向量。
与现有技术相比,本发明基于Word2Vec-BiLSTM-CRF的法律领域的实体抽取方法的有益效果是:识别法律文书中种类丰富的实体,实现法律领域实体的细粒度刻画,法律领域的数据结构化,进一步挖掘法律领域的不同实体之间的关系具有重要意义。
附图说明
图1为本发明基于Word2Vec-BiLSTM-CRF的法律领域的实体抽取方法流程示意图。
图2为本发明获取标注语料的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于Word2Vec-BiLSTM-CRF的法律领域的实体抽取方法,具体包括以下步骤:
:获取法律领域的原始数据并进行数据的预处理,获得的训练语料数据,包括如下步骤:
步骤A1:通过爬虫技术结合人工筛选,从互联网中获取法律领域的原始数据,包括法律领域的案情陈述、诉讼报告、裁判文书等;
步骤A2:对获取的半结构化或非结构化的多源数据进行初步清洗和降噪,获取可用的数据信息。
步骤B:训练法律领域的词向量;即将步骤A中获得的训练语料数据,输入Word2Vec算法结合CBOW模型,从而得到针对于法律领域的词向量;其步骤包括:
步骤B1:构建法律领域的停用词表,使用jieba、ltp等中文分词工具对训练语料数据进行分词以及去停用词;
步骤B2:使用Word2Vec算法得到针对于法律领域的字向量;
步骤B3:Word2Vec算法使用CBOW模型将语义信息转化为n维向量。CBOW模型的训练输入是某一个特征词的相关的词对应的字向量,而输出就是这特定的一个词的词向量,能够很好地保存上下文的语义信息。
步骤C:针对步骤A中预处理获取的训练语料数据,构建法律领域的初始实体库,结合模板匹配和中文语料的顿等模式进行标注,顿等模式可以有效地降低人工标注的工作,获取标注语料;其步骤包括:
步骤C1:针对法律领域的命名实体构建标签***,命名实体有法律的种类、组分以及特性组成;采用BIO标注模式,B标签作为实体的开始,I标签表示实体的非开始部分,O表示非实体部分;
步骤C2:人工构建法律领域的初始实体库;
步骤C3:遍历训练语料数据集,获取符合顿等模式的句子集;
在中文语料当中,顿号的用法主要是罗列某一类词的同义词,在语料中出现的实体假设前后有顿号出现,那么并列的常常都是该实体的同类词或同义词,可以作为实体对实体库进行补充,这种模式称为“顿等模式”。
顿等模式不仅限于顿号连接的前后实体,通常还有如下的一些表现形式:
Figure BDA0002876002960000041
步骤C4:使用顿等模式匹配初始实体库中实体的同义词、并列词等,利用这些实体对实体库进行扩充;
步骤C5:根据法律实体库中的实体使用模板匹配对训练语料数据进行实体标注;
步骤C6:通过人工筛查的方式对C5获取的标注后的训练预料数据进行核查,纠正、补标实体,并对实体库进行更新,最终获得标注正确的训练语料数据。
步骤D:将Bi-LSTM模型作为编码层,X=(x1,x2,x3,…,xn)作为编码层的输入,其中xi为步骤C中标注完成的训练语料数据中每个字对应的步骤B训练得到的法律领域的字向量;
ft=σ(Wf·[ht-1,xt]+bf)
it=σ(Wi·[ht-1,xt]+bi)
Figure BDA0002876002960000051
Figure BDA0002876002960000052
ot=σ(Wo·[ht-1,xt]+bo)
ht=ot*tanhCt
{h0,h1,...,hn}={[hL0,hRn],[hL1,hR(n-1)],...,[hLn,hR0]}
Bi-LSTM能够在指定的时间范围内有效地使用过去的特征(通过前向状态)和未来的特征(通过后向的状态),使用通过时间的反向传播来训练双向LSTM网络。
步骤E:将Bi-LSTM层获取的标签向量特征输入CRF层,得到每个字标签的得分;
CRF层能够有效地利用句子级的标签信息,为进一步挖掘法律领域的不同实体之间的关系,设置约束条件确保最终的预测有效,该约束条件能够在训练数据时被CRF层自动学习。具体的,
将需要识别实体的句子表示为下式,xi表示句中的字:
X=(x1,x2,...,xn);
该语句对应的标签为:
Y=(y1,y2,...,yn);
确定从识别实体对应语句对应的打分方法函数表达方式:
Figure BDA0002876002960000053
其中A是转移分数矩阵,Ai,j表示从标签i转移到标签j的分数,其中y0和yn分别是句子的开始和结束标签;所以A的纬度为(k+2)*(k+2)(k为标签数);P是Bi-LSTM网络输出的分数矩阵,纬度为n*k(k为标签数),Pi,j表示句子中第i个词对应第j个标签的分数。
目的是以获得打分函数的最大值。
对于给定句子X,得到标签y的概率是:
Figure BDA0002876002960000061
YX表示句子X对应的所有可能的标签序列,也就是说句子对应的每个标签序列都有一个分值还有一个概率,目的是让句子对应的真实序列大概率最大。
另外,提供一损失函数,获得损失函数中的值最小,变换为下式:
Figure BDA0002876002960000062
以获得出损失函数中的最小值。
用似然公式表示:
Figure BDA0002876002960000063
最终输出识别的案件经过中的人物、动机、事件等命名实体。从而识别法律文书中种类丰富的实体,实现法律领域实体的细粒度刻画,法律领域的数据结构化,进一步挖掘法律领域的不同实体之间的关系。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (3)

1.一种基于Word2Vec-BiLSTM-CRF的法律领域的命名实体识别方法,其特征在于,具体包括以下步骤:
步骤A:获取法律领域的原始数据并进行数据的预处理,获得训练语料数据;
步骤B:将步骤A中获得的训练语料数据输入Word2Vec算法结合CBOW模型,从而得到针对于法律领域的词向量;具体的:
步骤B1:构建法律领域的特定停用词表,利用jieba、ltp中文分词工具对步骤A中获得的训练语料数据进行分词、去停用词;
步骤B2:使用Word2Vec算法结合CBOW模型将词汇包含的语义信息转换为n维词向量,得到法律领域的特定词向量;
步骤C:将步骤A中预处理获取的训练语料数据,结合模板匹配和中文语料的顿等模式进行标注,获取标注语料,具体的:顿等模式为:在中文语料当中,顿号的用法主要是罗列某一类词的同义词,在语料中出现的实体假设前后有顿号出现,那么并列的常常都是该实体的同类词或同义词,可以作为实体对实体库进行补充;其中,
步骤C1:根据法律领域的包含的特定实体构建标签***,采用BIO标注模式,B标签作为实体的开始,I标签表示实体的非开始部分,O表示非实体部分;
步骤C2:构建法律领域的初始实体库;
步骤C3:遍历训练语料数据集,获取符合顿等模式的句子集;
步骤C4:使用顿等模式匹配初始实体库中实体的同义词、并列词,利用这些实体对实体库进行扩充;
步骤C5:根据法律实体库中的实体使用模板匹配对训练语料数据进行实体标注;
步骤C6:通过人工筛查的方式对C5获取的标注后的训练预料数据进行核查,纠正、补标实体,并对实体库进行更新,最终获得标注正确的训练语料数据;
步骤D:以Bi-LSTM作为模型的编码层,将步骤C中获得的标注语料与B步骤中获得词向量相结合作为编码层的输入,输出得到文本语义信息特征;
步骤E:将步骤D中Bi-LSTM层获取的文本语义信息特征作为CRF的输入,最终输出命名实体的识别结果。
2.根据权利要求1所述的一种基于Word2Vec-BiLSTM-CRF的法律领域的命名实体识别方法,其特征在于:所述步骤E中,
将需要识别实体的句子表示为下式,xi表示句中的字:
X=(x1,x2,…,xn);
该语句对应的标签为:
Y=(y1,y2,...,yn);
确定从识别实体对应语句对应的打分方法函数表达方式,以获得打分函数的最大值:
Figure FDA0004258431340000021
其中A是转移分数矩阵,Ai,j表示从标签i转移到标签j的分数,其中y0和yn分别是句子的开始和结束标签;所以A的纬度为(k+2)*(k+2);P是Bi-LSTM网络输出的分数矩阵,纬度为n*k,Pi,j表示句子中第i个词对应第j个标签的分数;
对于给定句子X,以使句子X获得对应的真实序列大概率最大:
Figure FDA0004258431340000022
YX表示句子X对应的所有可能的标签序列。
3.根据权利要求2所述的一种基于Word2Vec-BiLSTM-CRF的法律领域的命名实体识别方法,其特征在于:提供一损失函数,以获得出损失函数中的最小值,变换为下式:
Figure FDA0004258431340000023
CN202011620453.6A 2020-12-31 2020-12-31 一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取方法 Active CN112800764B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011620453.6A CN112800764B (zh) 2020-12-31 2020-12-31 一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011620453.6A CN112800764B (zh) 2020-12-31 2020-12-31 一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取方法

Publications (2)

Publication Number Publication Date
CN112800764A CN112800764A (zh) 2021-05-14
CN112800764B true CN112800764B (zh) 2023-07-04

Family

ID=75804975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011620453.6A Active CN112800764B (zh) 2020-12-31 2020-12-31 一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取方法

Country Status (1)

Country Link
CN (1) CN112800764B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312918B (zh) * 2021-06-10 2022-05-17 临沂大学 融合部首向量的分词和胶囊网络法律命名实体识别方法
CN113377916B (zh) * 2021-06-22 2023-03-24 哈尔滨工业大学 一种面向法律文本的多关系中主要关系的抽取方法
CN114048748B (zh) * 2021-11-17 2024-04-05 上海勃池信息技术有限公司 命名实体识别***、方法、电子设备及介质
CN114330349A (zh) * 2022-01-05 2022-04-12 北京航空航天大学 一种特定领域命名实体识别方法
CN115270780B (zh) * 2022-07-20 2023-04-07 北京新纽科技有限公司 一种术语识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019113122A1 (en) * 2017-12-04 2019-06-13 Conversica, Inc. Systems and methods for improved machine learning for conversations
CN110633409A (zh) * 2018-06-20 2019-12-31 上海财经大学 一种融合规则与深度学习的汽车新闻事件抽取方法
CN110990525A (zh) * 2019-11-15 2020-04-10 华融融通(北京)科技有限公司 一种基于自然语言处理的舆情信息抽取及知识库生成方法
CN111444726A (zh) * 2020-03-27 2020-07-24 河海大学常州校区 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019113122A1 (en) * 2017-12-04 2019-06-13 Conversica, Inc. Systems and methods for improved machine learning for conversations
CN110633409A (zh) * 2018-06-20 2019-12-31 上海财经大学 一种融合规则与深度学习的汽车新闻事件抽取方法
CN110990525A (zh) * 2019-11-15 2020-04-10 华融融通(北京)科技有限公司 一种基于自然语言处理的舆情信息抽取及知识库生成方法
CN111444726A (zh) * 2020-03-27 2020-07-24 河海大学常州校区 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于BILSTM_CRF的知识图谱实体抽取方法;翟社平;《计算机应用与软件》;第第36卷卷(第第5期期);第269-274页 *

Also Published As

Publication number Publication date
CN112800764A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN112800764B (zh) 一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取方法
CN110866401A (zh) 基于注意力机制的中文电子病历命名实体识别方法及***
CN111694924A (zh) 一种事件抽取方法和***
CN113642330A (zh) 基于目录主题分类的轨道交通规范实体识别方法
CN111159336B (zh) 一种半监督司法实体及事件联合提取方法
CN113255294B (zh) 命名实体识别模型训练方法、识别方法及装置
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN112800184B (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN111444704B (zh) 基于深度神经网络的网络安全关键词抽取方法
CN111967267B (zh) 一种基于XLNet的新闻文本地域提取的方法及***
CN111274829A (zh) 一种利用跨语言信息的序列标注方法
CN113934909A (zh) 基于预训练语言结合深度学习模型的金融事件抽取方法
CN112101014A (zh) 一种混合特征融合的中文化工文献分词方法
CN114239574A (zh) 一种基于实体和关系联合学习的矿工违规行为知识抽取方法
CN111428501A (zh) 命名实体的识别方法、识别***及计算机可读存储介质
CN116205211A (zh) 基于大规模预训练生成模型的文档级简历解析方法
CN112989830B (zh) 一种基于多元特征和机器学习的命名实体识别方法
CN113360654B (zh) 文本分类方法、装置、电子设备及可读存储介质
CN117236338B (zh) 一种稠密实体文本的命名实体识别模型及其训练方法
CN114970537B (zh) 基于多层标注策略的跨境民族文化实体关系抽取方法及装置
CN112148879B (zh) 一种自动给代码打数据结构标签的计算机可读存储介质
CN112989839A (zh) 一种基于关键词特征嵌入语言模型的意图识别方法及***
CN116822513A (zh) 一种融合实体类型与关键词特征的命名实体识别方法
CN116306653A (zh) 一种正则化领域知识辅助的命名实体识别方法
CN113901172B (zh) 基于关键词结构编码的涉案微博评价对象抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant