CN112800764B - 一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取方法 - Google Patents
一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取方法 Download PDFInfo
- Publication number
- CN112800764B CN112800764B CN202011620453.6A CN202011620453A CN112800764B CN 112800764 B CN112800764 B CN 112800764B CN 202011620453 A CN202011620453 A CN 202011620453A CN 112800764 B CN112800764 B CN 112800764B
- Authority
- CN
- China
- Prior art keywords
- entity
- legal field
- entities
- legal
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title description 11
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000002372 labelling Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 2
- 238000013077 scoring method Methods 0.000 claims description 2
- 239000013589 supplement Substances 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008450 motivation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Technology Law (AREA)
- Economics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于Word2Vec‑BiLSTM‑CRF的法律领域的命名实体识别方法,具体包括以下步骤:获取法律领域的原始数据并进行数据的预处理,获得的训练语料数据;将获得的训练语料数据输入Word2Vec算法结合CBOW模型,从而得到针对于法律领域的词向量;将预处理获取的训练语料数据,结合模板匹配和中文语料的顿等模式进行标注,获取标注语料,以Bi‑LSTM作为模型的编码层,将获得的标注语料与获得词向量相结合作为编码层的输入,输出得到文本语义信息特征;将Bi‑LSTM层获取的文本语义信息特征作为CRF的输入,最终输出命名实体的识别结果。识别法律文书中种类丰富的实体,实现法律领域实体的细粒度刻画,法律领域的数据结构化,进一步挖掘法律领域的不同实体之间的关系具有重要意义。
Description
技术领域
本发明涉及命名实体识别领域,尤其涉及一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取方法。
背景技术
在法律领域,无论是在案件的侦查过程中,或是对于法院的审理诉讼而言,其涉及的命名实体种类众多且复杂。这些实体中最常见的是案情经过的要素,例如人物(犯罪嫌疑人、被害人)、时间、地点、动机、事件等。对于这些不同的案件要素,在不同的刑法罪名语境背景下有着不同的特点和表现形式。
法律领域中的实体种类繁多,这些实体的表示形式又各不相同。用一种统一的方法识别这些表示形式不同的命名实体,实现法律领域实体的细粒度刻画,法律领域的数据结构化,进一步挖掘法律领域的不同实体之间的关系具有重要意义。
2020年02月18日公开的公开号第CN110807084A号中国专利揭露了一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法,其包括以下步骤:步骤1):对专利文本进行预处理,识别出术语特征,同时加入位置信息,并通过改进的TextRank算法获得类别关键词特征,并将其组成向量矩阵;步骤2):将向量矩阵导入Bi-LSTM模型中,采用注意力机制获得文本信息的整体特征;步骤3):利用最大池化层选择每个句子的关键特征作为局部特征;步骤4):将整体特征和局部特征融合;步骤5):使用softmax分类器输出分类结果。本发明以专利术语关系抽取为基础,针对传统深度学习方法中存在的长距离依赖问题,通过各种实验对比,本发明的效果优于已有的方法,可以很好地满足实际应用的需要。
由于专利相对相对法律领域,其命名实体简单、统一,该方法可以实现对专利术语的抽取,但该抽取方法的效果无法应用于命名实体复杂的法律领域,无有效的识别法挖掘法律领域的实体,抽取效果差。
因此,有必要提供一种新的抽取方法解决上述问题。
发明内容
为解决上述背景技术中提出的问题,本发明提供了一种基于Word2Vec-BiLSTM-CRF的法律领域的命名实体识别方法,能够挖掘法律领域的不同实体之间的关系,。
为实现上述目的,本发明提供如下技术方案:一种基于Word2Vec-BiLSTM-CRF的法律领域的命名实体识别方法,具体包括以下步骤:
获取法律领域的原始数据并进行数据的预处理,获得的训练语料数据;将步骤A中获得的训练语料数据,输入Word2Vec算法结合CBOW模型,从而得到针对于法律领域的词向量;将步骤A中预处理获取的训练语料数据,结合模板匹配和中文语料的顿等模式进行标注,获取标注语料,具体的:根据法律领域的包含的特定实体构建标签***,采用BIO标注模式,B标签作为实体的开始,I标签表示实体的非开始部分,O表示非实体部分;构建法律领域的初始实体库;遍历训练语料数据集,获取符合顿等模式的句子集;使用顿等模式匹配初始实体库中实体的同义词、并列词,利用这些实体对实体库进行扩充;根据法律实体库中的实体使用模板匹配对训练语料数据进行实体标注;通过人工筛查的方式对C5获取的标注后的训练预料数据进行核查,纠正、补标实体,并对实体库进行更新,最终获得标注正确的训练语料数据;以Bi-LSTM作为模型的编码层,将步骤C中获得的标注语料与B步骤中获得词向量相结合作为编码层的输入,输出得到文本语义信息特征;将步骤D中Bi-LSTM层获取的文本语义信息特征作为CRF的输入,最终输出命名实体的识别结果。
构建法律领域的特定停用词表,利用jieba、ltp中文分词工具对步骤A中获得的训练语料数据进行分词、去停用词;使用Word2Vec算法结合CBOW模型将词汇包含的语义信息转换为n维词向量,得到法律领域的特定词向量。
与现有技术相比,本发明基于Word2Vec-BiLSTM-CRF的法律领域的实体抽取方法的有益效果是:识别法律文书中种类丰富的实体,实现法律领域实体的细粒度刻画,法律领域的数据结构化,进一步挖掘法律领域的不同实体之间的关系具有重要意义。
附图说明
图1为本发明基于Word2Vec-BiLSTM-CRF的法律领域的实体抽取方法流程示意图。
图2为本发明获取标注语料的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于Word2Vec-BiLSTM-CRF的法律领域的实体抽取方法,具体包括以下步骤:
:获取法律领域的原始数据并进行数据的预处理,获得的训练语料数据,包括如下步骤:
步骤A1:通过爬虫技术结合人工筛选,从互联网中获取法律领域的原始数据,包括法律领域的案情陈述、诉讼报告、裁判文书等;
步骤A2:对获取的半结构化或非结构化的多源数据进行初步清洗和降噪,获取可用的数据信息。
步骤B:训练法律领域的词向量;即将步骤A中获得的训练语料数据,输入Word2Vec算法结合CBOW模型,从而得到针对于法律领域的词向量;其步骤包括:
步骤B1:构建法律领域的停用词表,使用jieba、ltp等中文分词工具对训练语料数据进行分词以及去停用词;
步骤B2:使用Word2Vec算法得到针对于法律领域的字向量;
步骤B3:Word2Vec算法使用CBOW模型将语义信息转化为n维向量。CBOW模型的训练输入是某一个特征词的相关的词对应的字向量,而输出就是这特定的一个词的词向量,能够很好地保存上下文的语义信息。
步骤C:针对步骤A中预处理获取的训练语料数据,构建法律领域的初始实体库,结合模板匹配和中文语料的顿等模式进行标注,顿等模式可以有效地降低人工标注的工作,获取标注语料;其步骤包括:
步骤C1:针对法律领域的命名实体构建标签***,命名实体有法律的种类、组分以及特性组成;采用BIO标注模式,B标签作为实体的开始,I标签表示实体的非开始部分,O表示非实体部分;
步骤C2:人工构建法律领域的初始实体库;
步骤C3:遍历训练语料数据集,获取符合顿等模式的句子集;
在中文语料当中,顿号的用法主要是罗列某一类词的同义词,在语料中出现的实体假设前后有顿号出现,那么并列的常常都是该实体的同类词或同义词,可以作为实体对实体库进行补充,这种模式称为“顿等模式”。
顿等模式不仅限于顿号连接的前后实体,通常还有如下的一些表现形式:
步骤C4:使用顿等模式匹配初始实体库中实体的同义词、并列词等,利用这些实体对实体库进行扩充;
步骤C5:根据法律实体库中的实体使用模板匹配对训练语料数据进行实体标注;
步骤C6:通过人工筛查的方式对C5获取的标注后的训练预料数据进行核查,纠正、补标实体,并对实体库进行更新,最终获得标注正确的训练语料数据。
步骤D:将Bi-LSTM模型作为编码层,X=(x1,x2,x3,…,xn)作为编码层的输入,其中xi为步骤C中标注完成的训练语料数据中每个字对应的步骤B训练得到的法律领域的字向量;
ft=σ(Wf·[ht-1,xt]+bf)
it=σ(Wi·[ht-1,xt]+bi)
ot=σ(Wo·[ht-1,xt]+bo)
ht=ot*tanhCt
{h0,h1,...,hn}={[hL0,hRn],[hL1,hR(n-1)],...,[hLn,hR0]}
Bi-LSTM能够在指定的时间范围内有效地使用过去的特征(通过前向状态)和未来的特征(通过后向的状态),使用通过时间的反向传播来训练双向LSTM网络。
步骤E:将Bi-LSTM层获取的标签向量特征输入CRF层,得到每个字标签的得分;
CRF层能够有效地利用句子级的标签信息,为进一步挖掘法律领域的不同实体之间的关系,设置约束条件确保最终的预测有效,该约束条件能够在训练数据时被CRF层自动学习。具体的,
将需要识别实体的句子表示为下式,xi表示句中的字:
X=(x1,x2,...,xn);
该语句对应的标签为:
Y=(y1,y2,...,yn);
确定从识别实体对应语句对应的打分方法函数表达方式:
其中A是转移分数矩阵,Ai,j表示从标签i转移到标签j的分数,其中y0和yn分别是句子的开始和结束标签;所以A的纬度为(k+2)*(k+2)(k为标签数);P是Bi-LSTM网络输出的分数矩阵,纬度为n*k(k为标签数),Pi,j表示句子中第i个词对应第j个标签的分数。
目的是以获得打分函数的最大值。
对于给定句子X,得到标签y的概率是:
YX表示句子X对应的所有可能的标签序列,也就是说句子对应的每个标签序列都有一个分值还有一个概率,目的是让句子对应的真实序列大概率最大。
另外,提供一损失函数,获得损失函数中的值最小,变换为下式:
以获得出损失函数中的最小值。
用似然公式表示:
最终输出识别的案件经过中的人物、动机、事件等命名实体。从而识别法律文书中种类丰富的实体,实现法律领域实体的细粒度刻画,法律领域的数据结构化,进一步挖掘法律领域的不同实体之间的关系。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (3)
1.一种基于Word2Vec-BiLSTM-CRF的法律领域的命名实体识别方法,其特征在于,具体包括以下步骤:
步骤A:获取法律领域的原始数据并进行数据的预处理,获得训练语料数据;
步骤B:将步骤A中获得的训练语料数据输入Word2Vec算法结合CBOW模型,从而得到针对于法律领域的词向量;具体的:
步骤B1:构建法律领域的特定停用词表,利用jieba、ltp中文分词工具对步骤A中获得的训练语料数据进行分词、去停用词;
步骤B2:使用Word2Vec算法结合CBOW模型将词汇包含的语义信息转换为n维词向量,得到法律领域的特定词向量;
步骤C:将步骤A中预处理获取的训练语料数据,结合模板匹配和中文语料的顿等模式进行标注,获取标注语料,具体的:顿等模式为:在中文语料当中,顿号的用法主要是罗列某一类词的同义词,在语料中出现的实体假设前后有顿号出现,那么并列的常常都是该实体的同类词或同义词,可以作为实体对实体库进行补充;其中,
步骤C1:根据法律领域的包含的特定实体构建标签***,采用BIO标注模式,B标签作为实体的开始,I标签表示实体的非开始部分,O表示非实体部分;
步骤C2:构建法律领域的初始实体库;
步骤C3:遍历训练语料数据集,获取符合顿等模式的句子集;
步骤C4:使用顿等模式匹配初始实体库中实体的同义词、并列词,利用这些实体对实体库进行扩充;
步骤C5:根据法律实体库中的实体使用模板匹配对训练语料数据进行实体标注;
步骤C6:通过人工筛查的方式对C5获取的标注后的训练预料数据进行核查,纠正、补标实体,并对实体库进行更新,最终获得标注正确的训练语料数据;
步骤D:以Bi-LSTM作为模型的编码层,将步骤C中获得的标注语料与B步骤中获得词向量相结合作为编码层的输入,输出得到文本语义信息特征;
步骤E:将步骤D中Bi-LSTM层获取的文本语义信息特征作为CRF的输入,最终输出命名实体的识别结果。
2.根据权利要求1所述的一种基于Word2Vec-BiLSTM-CRF的法律领域的命名实体识别方法,其特征在于:所述步骤E中,
将需要识别实体的句子表示为下式,xi表示句中的字:
X=(x1,x2,…,xn);
该语句对应的标签为:
Y=(y1,y2,...,yn);
确定从识别实体对应语句对应的打分方法函数表达方式,以获得打分函数的最大值:
其中A是转移分数矩阵,Ai,j表示从标签i转移到标签j的分数,其中y0和yn分别是句子的开始和结束标签;所以A的纬度为(k+2)*(k+2);P是Bi-LSTM网络输出的分数矩阵,纬度为n*k,Pi,j表示句子中第i个词对应第j个标签的分数;
对于给定句子X,以使句子X获得对应的真实序列大概率最大:
YX表示句子X对应的所有可能的标签序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011620453.6A CN112800764B (zh) | 2020-12-31 | 2020-12-31 | 一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011620453.6A CN112800764B (zh) | 2020-12-31 | 2020-12-31 | 一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112800764A CN112800764A (zh) | 2021-05-14 |
CN112800764B true CN112800764B (zh) | 2023-07-04 |
Family
ID=75804975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011620453.6A Active CN112800764B (zh) | 2020-12-31 | 2020-12-31 | 一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112800764B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113312918B (zh) * | 2021-06-10 | 2022-05-17 | 临沂大学 | 融合部首向量的分词和胶囊网络法律命名实体识别方法 |
CN113377916B (zh) * | 2021-06-22 | 2023-03-24 | 哈尔滨工业大学 | 一种面向法律文本的多关系中主要关系的抽取方法 |
CN114048748B (zh) * | 2021-11-17 | 2024-04-05 | 上海勃池信息技术有限公司 | 命名实体识别***、方法、电子设备及介质 |
CN114330349A (zh) * | 2022-01-05 | 2022-04-12 | 北京航空航天大学 | 一种特定领域命名实体识别方法 |
CN115270780B (zh) * | 2022-07-20 | 2023-04-07 | 北京新纽科技有限公司 | 一种术语识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019113122A1 (en) * | 2017-12-04 | 2019-06-13 | Conversica, Inc. | Systems and methods for improved machine learning for conversations |
CN110633409A (zh) * | 2018-06-20 | 2019-12-31 | 上海财经大学 | 一种融合规则与深度学习的汽车新闻事件抽取方法 |
CN110990525A (zh) * | 2019-11-15 | 2020-04-10 | 华融融通(北京)科技有限公司 | 一种基于自然语言处理的舆情信息抽取及知识库生成方法 |
CN111444726A (zh) * | 2020-03-27 | 2020-07-24 | 河海大学常州校区 | 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置 |
-
2020
- 2020-12-31 CN CN202011620453.6A patent/CN112800764B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019113122A1 (en) * | 2017-12-04 | 2019-06-13 | Conversica, Inc. | Systems and methods for improved machine learning for conversations |
CN110633409A (zh) * | 2018-06-20 | 2019-12-31 | 上海财经大学 | 一种融合规则与深度学习的汽车新闻事件抽取方法 |
CN110990525A (zh) * | 2019-11-15 | 2020-04-10 | 华融融通(北京)科技有限公司 | 一种基于自然语言处理的舆情信息抽取及知识库生成方法 |
CN111444726A (zh) * | 2020-03-27 | 2020-07-24 | 河海大学常州校区 | 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置 |
Non-Patent Citations (1)
Title |
---|
基于BILSTM_CRF的知识图谱实体抽取方法;翟社平;《计算机应用与软件》;第第36卷卷(第第5期期);第269-274页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112800764A (zh) | 2021-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112800764B (zh) | 一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取方法 | |
CN110866401A (zh) | 基于注意力机制的中文电子病历命名实体识别方法及*** | |
CN111694924A (zh) | 一种事件抽取方法和*** | |
CN113642330A (zh) | 基于目录主题分类的轨道交通规范实体识别方法 | |
CN111159336B (zh) | 一种半监督司法实体及事件联合提取方法 | |
CN113255294B (zh) | 命名实体识别模型训练方法、识别方法及装置 | |
CN112966525B (zh) | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 | |
CN112800184B (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN111444704B (zh) | 基于深度神经网络的网络安全关键词抽取方法 | |
CN111967267B (zh) | 一种基于XLNet的新闻文本地域提取的方法及*** | |
CN111274829A (zh) | 一种利用跨语言信息的序列标注方法 | |
CN113934909A (zh) | 基于预训练语言结合深度学习模型的金融事件抽取方法 | |
CN112101014A (zh) | 一种混合特征融合的中文化工文献分词方法 | |
CN114239574A (zh) | 一种基于实体和关系联合学习的矿工违规行为知识抽取方法 | |
CN111428501A (zh) | 命名实体的识别方法、识别***及计算机可读存储介质 | |
CN116205211A (zh) | 基于大规模预训练生成模型的文档级简历解析方法 | |
CN112989830B (zh) | 一种基于多元特征和机器学习的命名实体识别方法 | |
CN113360654B (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN117236338B (zh) | 一种稠密实体文本的命名实体识别模型及其训练方法 | |
CN114970537B (zh) | 基于多层标注策略的跨境民族文化实体关系抽取方法及装置 | |
CN112148879B (zh) | 一种自动给代码打数据结构标签的计算机可读存储介质 | |
CN112989839A (zh) | 一种基于关键词特征嵌入语言模型的意图识别方法及*** | |
CN116822513A (zh) | 一种融合实体类型与关键词特征的命名实体识别方法 | |
CN116306653A (zh) | 一种正则化领域知识辅助的命名实体识别方法 | |
CN113901172B (zh) | 基于关键词结构编码的涉案微博评价对象抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |