CN113360582A - 基于bert模型融合多元实体信息的关系分类方法及*** - Google Patents
基于bert模型融合多元实体信息的关系分类方法及*** Download PDFInfo
- Publication number
- CN113360582A CN113360582A CN202110627362.3A CN202110627362A CN113360582A CN 113360582 A CN113360582 A CN 113360582A CN 202110627362 A CN202110627362 A CN 202110627362A CN 113360582 A CN113360582 A CN 113360582A
- Authority
- CN
- China
- Prior art keywords
- entity
- vector
- sentence
- model
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于信息抽取技术领域,特别涉及一种基于BERT模型融合多元实体信息的关系分类方法及***,首先,对目标文本句子进行预处理,获取模型输入句子,其中,所述预处理包含:对文本句子中实体类型进行标注获取第一子句,通过依存分析提取实体最短依存路径来获取第二子句,及将第一子句和第二子句进行拼接;然后,利用BERT模型对获取的模型输入句子进行编码,得到编码后的句子向量、实体向量和依存关系向量;并三者进行拼接形成用于关系分类的特征表示向量;并针对特征表示向量,利用全连接softmax分类器获取最终关系分类结果。本发明能够更精准地捕获对于实体关系分类具有潜在意义的特征信息,提升信息抽取质量和准确度,具有较好应用前景。
Description
技术领域
本发明属于信息抽取技术领域,特别涉及一种基于BERT模型融合多元实体信息的关系分类方法及***。
背景技术
信息抽取技术,旨在从非结构化的自由文本中自动抽取出以结构化形式描述的信息,是自然语言处理各类应用的基础,如知识图谱、自动问答、智能搜索等。信息抽取包括属性、关系、事件等信息的抽取,其中关系抽取是指识别文本中的实体,并判断实体之间的语义关系。在已识别实体的情况下,关系抽取就等同于关系分类,即判断一句话中已标记实体对之间的语义关系类型。举个例子来说,对于句子“[James]e1 married[Margaret ofDenmark]e2 in July 1469.”,“James”和“Margaret of Denmark”是已识别的两个实体,通过对它们的关系进行分类,可以得到它们的关系是“per:spouse”,最终,得到结构化的实体关系三元组(James,spouse,Margaret of Denmark)。
传统的关系分类方法主要依靠人工提取特征或核函数来构造分类模型,由于实体及其之间的关系类型复杂多样,从而导致人工提取特征的方法费时费力,容易出错,且不能充分表达句子中对关系分类有用的特征,使得关系分类模型的效果较差,实用性不高。近年来,由于深度学习的兴起,深度学习技术可以自动提取句子特征,不再需要手工构造特征,大大减轻了人工工作量,关系分类的研究也逐渐从传统方法转到了深度学习上。早期的基于深度学习的关系分类模型主要是基于卷积神经网络、循环神经网络、注意力机制以及它们的各种组合,模型较为简单,特征提取能力有限。近两年,预训练语言模型发展迅速,在海量数据上训练的预训练语言模型提供了很好的特征提取和语义信息表达能力,其中BERT模型应用最为广泛,在许多自然语言处理任务中都取得了当前最佳的效果。目前已有研究者将BERT模型应用于关系分类,这些基于BERT的关系分类模型都取得了较好的效果,但他们只是考虑了实体的位置信息,并未考虑实体的类型信息,而实体之间的关系与实体的类型密切相关,关系分类的效果有待进一步提高。还有PCNN_ATT模型,通过在COAE2016数据集上做实验,结果表明添加实体类型信息的方法,能够将F1值提升8.29%。同时,在这些关系分类模型中,往往使用整个句子作为输入,句子中含有对关系分类没有意义的噪声词汇,导致模型不能更好地关注能够表达关系类型的词汇,对关系分类特征提取不充分,模型F1值不高。在关系分类任务中,最短依存路径(SDP)去除了句子中不必要的修饰成分,往往包含能够反映两个实体关系的关键信息,从而有助于提高关系分类模型的效果。
发明内容
为此,针对现有基于BERT的关系分类模型因未能充分利用实体信息,对关系分类特征提取不足,导致分类效果有待改进等的问题,本发明提供一种基于BERT模型融合多元实体信息的关系分类方法及***,将实体的类型和表征实体关系类型的关键词等更丰富的关系分类特征融入到BERT模型中,从而更精准地刻画实体关系分类的特征,提升关系抽取的质量和效率。
按照本发明所提供的设计方案,一种基于BERT模型融合多元实体信息的关系分类方法,包含如下内容:
对目标文本句子进行预处理,获取模型输入句子,其中,所述预处理包含:对文本句子中实体类型进行标注获取第一子句,通过依存分析来提取实体最短依存路径获取第二子句,及将第一子句和第二子句进行拼接;
利用BERT模型对获取的模型输入句子进行编码,得到编码后的句子向量、实体向量和依存关系向量;并三者进行拼接形成用于关系分类的特征表示向量;
针对特征表示向量,利用全连接softmax分类器获取最终关系分类结果。
作为本发明基于BERT模型融合多元实体信息的关系分类方法,进一步地,实体类型标注中,利用NLP工具获取句子中实体类型,通过对每种实体类型定义不同标记,在每个实体类型前后两端***相应实体标注,获取第一子句。
作为本发明基于BERT模型融合多元实体信息的关系分类方法,进一步地,利用NLP工具对句子进行依存分析,获取实体最短依存路径,并在最短依存关系词前后两端添加相应标记,获取第二子句。
作为本发明基于BERT模型融合多元实体信息的关系分类方法,进一步地,通过BERT模型获取编码后每个单词向量表示;针对单词向量表示,依据标注信息获取句子向量及句子中的实体向量和依存关系向量。
作为本发明基于BERT模型融合多元实体信息的关系分类方法,进一步地,针对两个实体及实体间的依存关系,通过计算其所包含的单词向量平均值来获取相应实体向量及依存关系向量。
作为本发明基于BERT模型融合多元实体信息的关系分类方法,进一步地,将得到的句子向量、实体向量和依存关系向量通过激活层和全连接层进行降维,得到用于拼接的各向量表示;对各向量表示进行拼接获取用于关系分类的实体关系特征表示向量。
作为本发明基于BERT模型融合多元实体信息的关系分类方法,进一步地,利用全连接层和Softmax分类器对特征表示向量进行分类,得到各关系类型的输出概率。
作为本发明基于BERT模型融合多元实体信息的关系分类方法,进一步地,Softmax分类器训练中采用交叉熵损失函数作为目标函数。
作为本发明基于属性值分布的人物实体对齐方法,进一步地,在目标函数中引入L2正则项,并在全连接层使用Dropout,防止模型训练中的过拟合。
进一步地,本发明还提供一种基于BERT模型融合多元实体信息的关系分类***,包含:预处理模块、编码模块和分类模块,其中,
预处理模块,用于对目标文本句子进行预处理,获取模型输入句子,其中,所述预处理包含:对文本句子中实体类型进行标注获取第一子句,通过依存分析来提取实体最短依存路径来获取第二子句,及将第一子句和第二子句进行拼接;
编码模块,用于利用BERT模型对获取的模型输入句子进行编码,得到编码后的句子向量、实体向量和依存关系向量;并三者进行拼接形成用于关系分类的特征表示向量;
分类模块,用于针对特征表示向量,利用全连接softmax分类器获取最终关系分类结果。
本发明的有益效果:
本发明根据实体类型,通过在实体两端添加相应的实体类型标记,使模型能够融入实体的类型特征;并通过提取句子中实体最短依存路径,将此路径信息融合进BERT模型,使模型能够更精准地捕获对于实体关系分类具有潜在意义的特征信息,提升关系抽取质量和准确度。并进一步在KBP37数据集和TACRED数据集上进行实验,通过实验数据验证本案模型F1值达到了68.9%和71.1%,比仅标记实***置的R-BERT模型分别提高了1.1个百分点和1个百分点,具有较好的应用前景。
附图说明:
图1为实施例中基于BERT模型融合多元实体信息的关系分类方法流程示意;
图2为实施例中关系分类原理框架示意。
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。
关系分类是自然语言处理中的一项重要的基础性任务,目的是识别实体对之间的语义关系。目前基于BERT的关系分类模型取得了不错的效果,但是仅考虑了实体的位置特征,未能充分利用实体类型等关系分类的其他重要特征,分类效果有待改进。为此,本发明实施例,参见图1所示,提供一种基于BERT模型融合多元实体信息的关系分类方法,包含如下内容:
S101、对目标文本句子进行预处理,获取模型输入句子,其中,所述预处理包含:对文本句子中实体类型进行标注获取第一子句,通过依存分析来提取实体最短依存路径来获取第二子句,及将第一子句和第二子句进行拼接;
S102、利用BERT模型对获取的模型输入句子进行编码,得到编码后的句子向量、实体向量和依存关系向量;并三者进行拼接形成用于关系分类的特征表示向量;
S103、针对特征表示向量,利用全连接softmax分类器获取最终关系分类结果。
通过实体类型识别与最短依存路径提取等预处理,标记实体类型和关系类型关键词;利用BERT模型对预处理后的句子进行编码,使用编码后的句子向量、实体向量和依存关系向量表征关系分类特征,并通过拼接形成关系分类特征的表示向量,据此进行关系分类。实现在实***置特征的基础上将实体的类型和表征实体关系类型的关键词等更丰富的关系分类特征融入到BERT模型中,能够更精准地刻画实体关系分类的特征,提升关系抽取精度。
作为本发明实施例中基于BERT模型融合多元实体信息的关系分类方法,进一步地,实体类型标注中,利用NLP工具获取句子中实体类型,通过对每种实体类型定义不同标记,在每个实体类型前后两端***相应实体标注,获取第一子句。进一步地,利用NLP工具对句子进行依存分析,获取实体最短依存路径,并在最短依存关系词前后两端添加相应标记,获取第二子句。
对于一个句子S={w1,w2,…,wn},wi表示句子S中的第i个单词,和S中已识别的任意两个实体e1={wi,…,wj},e2={wl,…,wm},其中1≤i≤j,j<l≤m≤n,关系分类的任务就是寻找一个映射f:f(S,e1,e2)→r,r∈R(其中R为预定义的关系集合),识别出在句子S中e1,e2之间的关系类型。参见图2所示,通过数据预处理、特征提取和关系分类三个步骤,首先对句子进行预处理,***实体类型及实体最短依存路径信息;然后,利用BERT模型提取分类特征,对处理后的句子进行编码,获取句子及每个单词的向量表示,并选取BERT编码后的句子向量、实体向量、依存关系向量,先通过全连接层对其进行降维,再将降维后的向量进行拼接,得到待分类的关系特征的向量表示;最后,利用该向量进行全连接Softmax分类,得到最终的关系分类结果。
对于已标注了实体的句子,对其进行两个方面的预处理,获取实体类型和分析实体最短依存路径,并***相关标记,然后将得到的两个子句进行拼接,具体步骤可设计如下:
1)***实体类型标记
实体类型与实体的关系密切相关,对于句子S={w1,…,e1,…,e2,…,wn}中的两个实体e1、e2,利用NLP(Natural Language Processing)工具分别获取他们的实体类型[ET1]、[ET2],并在句中实体的两端***获取的实体类型标记,得到Set:
Set={w1,…,[ET1],e1,[ET1],…,[ET2],e2,[ET2],…,wn}
2)获取实体最短依存路径
对于原句子S={w1,…,e1,…,e2,…,wn},利用NLP工具对其进行依存分析,获取实体的最短依存路径,并在最短依存关系词的两端***标记,得到Ssdp:
Ssdp={e1,$,wsdp,$,e2}
3)句子拼接
将得到的Set和Ssdp两个子句进行拼接,以[SEP]标识符作为分割,并在句首添加[CLS]标识符,经过数据预处理后,得到BERT模型的最终输入S′:
S′={[CLS],w1,…,[ET1],e1,[ET1],…,[ET2],e2,[ET2],…,wn,[SEP],e1,$,wsdp,$,e2,[SEP]}。
数据预处理示例:对于句子“In July 1469,[James]e1 married[Margaret ofDenmark]e2.”实体“James”和“Margaret of Denmark”的实体类型均为“[PER]”,表示人名实体,实体最短依存路径为“James married Margaret of Denmark”,组合后的句子输入为“[CLS]In July 1469,[PER]James[PER]married[PER]Margaret of Denmark[PER].[SEP]James$married$Margaret of Denmark[SEP]”。
作为本发明实施例中基于BERT模型融合多元实体信息的关系分类方法,进一步地,通过BERT模型获取编码后每个单词向量表示;针对单词向量表示,依据标注信息获取句子向量及句子中的实体向量和依存关系向量。进一步地,针对两个实体及实体间的依存关系,通过计算其所包含的单词向量平均值来获取相应实体向量及依存关系向量。进一步地,将得到的句子向量、实体向量和依存关系向量通过激活层和全连接层进行降维,得到用于拼接的各向量表示;对各向量表示进行拼接获取用于关系分类的实体关系特征表示向量。
特征提取部分将预处理后的句子输入BERT模型进行编码,得到句子向量、实体向量和依存关系向量,然后将这些向量分别通过全连接层进行降维,接着将降维后的向量进行拼接,得到待分类的关系特征向量。具体步骤可设计如下:
1)通过bert模型对句子进行编码
BERT模型由多个transformer encoder结构堆叠构成,transformer结构来源于Vaswani等人[23],该结构完全抛弃了CNN和RNN结构,而是采用自注意力(self-attention)机制,解决了RNN的长距离依赖问题,具体做法是将句子中的每个单词都与句子中的所有单词做attention计算,这样就获得了每个单词与当前单词的依赖关系,注意力得分在一定程度上反应了单词之间的联系及单词的重要程度。BERT预训练语言模型采用海量文本语料进行训练,包含了丰富的语义信息,为下游任务提供了很好的基础。
对于经过数据预处理得到的句子S′,将其通过BERT模型进行编码,获取每个单词的向量表示,编码结果为H=[h0,h1,…,hi,…,hj,…,hl,…,hm,…,hp,…,hq…]。其中,[CLS]标识符编码得到的向量h0作为句子向量Hcls。
2)实体向量与依存关系向量生成
对于实体e1={wi,…,wj},包含hi至hj之间的所有向量,取他们的平均值作为实体e1的向量表示He1,对于实体e2和依存关系表示,同样取它们所包含的单词向量的平均值作为其向量表示,得到He2和Hsdp:
3)全连接降维
将得到的句子向量Hcls,实体向量He1、He2,依存关系向量Hsdp,通过激活层和全连接层进行降维,分别得到最终的句子向量表示H′cls,实体e1和实体e2的最终向量表示H′e1、H′e2,依存关系的最终向量表示H′sdp,公式如下:
H′cls=W0[tanh(Hcls)]+b0 (4)
H′e1=W1[tanh(He1)]+b1 (5)
H′e2=W2[tanh(He2)]+b2 (6)
H′sdp=W3[tanh(Hsdp)]+b3 (7)
4)向量拼接
将降维后的句子向量、实体向量和依存关系向量进行拼接,得到待分类的实体关系特征向量r。
r=[H′cls,H′e1,H′e2,H′sdp]
作为本发明实施例中基于BERT模型融合多元实体信息的关系分类方法,进一步地,利用全连接层和Softmax分类器对特征表示向量进行分类,得到各关系类型的输出概率。进一步地,Softmax分类器训练中采用交叉熵损失函数作为目标函数。进一步地,在目标函数中引入L2正则项,并在全连接层使用Dropout,防止模型训练中的过拟合。
通过全连接层和Softmax对r向量进行分类,得到各关系类型的输出概率p。
p(y|x,θ)=softmax(W*r+b) (9)
其中,y为总的关系类型,θ为待学习的参数。
训练时采用交叉熵损失函数L:
其中,k为batch size的大小。为了防止过拟合,可通过加入了L2正则项,并在全连接层中使用Dropout。
进一步地,基于上述的方法,本发明实施例还提供一种基于BERT模型融合多元实体信息的关系分类***,包含:预处理模块、编码模块和分类模块,其中,
预处理模块,用于对目标文本句子进行预处理,获取模型输入句子,其中,所述预处理包含:对文本句子中实体类型进行标注获取第一子句,通过依存分析来提取实体最短依存路径来获取第二子句,及将第一子句和第二子句进行拼接;
编码模块,用于利用BERT模型对获取的模型输入句子进行编码,得到编码后的句子向量、实体向量和依存关系向量;并三者进行拼接形成用于关系分类的特征表示向量;
分类模块,用于针对特征表示向量,利用全连接softmax分类器获取最终关系分类结果。
为验证本案方案有效性,下面结合实验数据对本案方案做进一步解释说明:
使用在关系分类领域广泛使用的KBP37数据集和TACRED数据集来进行实验。其中,KBP37数据集基于MIML-RE标注集构建,包含15917条训练样本和3405条测试样本,18种方向性的关系和一种”no_relation”关系,一共37种关系(18*2+1),每种关系的训练样本都超过100条。该数据集未标注实体类型,可使用斯坦福NLP工具包StanfordNLP来分析数据集中实体的类型和实体的最短依存路径。TACRED数据集是一个大规模关系抽取数据集,包含106264条基于新闻专线和网页文本的样本,其中68124条训练样本,22631条验证样本,15509条测试样本,42种关系类型(包含“no_relation”关系类型),这些样本来源于2009-2014年TAC KBP(TAC Knowledge Base Population)挑战中使用的语料,采用众包的方式人工标注。该数据集已对实体的类型做了标注,可使用斯坦福NLP工具包StanfordNLP来分析数据集中实体的最短依存路径。
采用宏平均F1值作为评价指标,对每一种关系类别分别求其准确率P、召回率R、F1值,再将所有类别的F1值求算术平均值得到宏平均F1值。
TPi表示本身类别为i的样本被正确分类的样本数,FPi表示本身类别不属于i的样本被错误分类到类别i样本数,FNi表示本身类别为i的样本被错误分类到其他类别的样本数。
本案实施例中模型实现可基于HuggingFace’s Transformers库,使用预训练的“bert-large-uncased”模型来对输入的句子进行编码,超参数设置如表1所示。
表1超参数设置
在上述两个数据集上对本案方案中BERT-MEI模型的有效性进行实验,并选取相应数据集上现有的关系分类相关模型进行对比。
在KBP37数据集上,选取加入词语位置特征、实***置特征或实体最短依存路径特征的CNN、RNN和BERT等关系分类模型作为对比方法,如表2所示。其中,CNN+PF和RNN+PF模型加入了单词的位置特征,CNN+PI和RNN+PI模型加入了实体的位置特征,BiLSTM-CNN为混合网络模型,Att-RCNN模型使用了注意力机制,Bi-SDP-Att模型加入了最短依存路径,R-BERT模型基于BERT并加入了实体的位置特征。实验结果如表2所示。
表2 KBP37数据集实验结果
从表中可以看出,本案方案中融合多元实体信息的BERT-MEI模型结果优于其他的模型。BiLSTM-CNN混合网络模型的F1值高于只采用单一网络的模型,说明两种网络能够关注不同方面的特征,多种网络结合有助于提高关系分类的效果。Att-RCNN模型在此基础上加入注意力机制,能够使模型更多地关注对关系分类结果贡献较大的单词。加入最短依存路径的Bi-SDP-Att模型减少了无关单词对模型的影响。与上述模型相比,基于BERT模型的两种方法,R-BERT模型和本案方案中的BERT-MEI模型,在F1值上有大幅提高,充分说明BERT模型的语义特征提取能力远高于CNN和RNN模型。同时,BERT-MEI模型比R-BERT模型的F1值进一步提高了1.1%,充分说明融入了实***置、实体类型和实体最短依存路径等多元实体特征信息,比仅基于单一的实***置特征,能更好地刻画关系分类特征,可以有效提升分类效果。
在TACRED数据集上,选取基于传统机器学习模型的LR,加入词语位置特征的卷积神经网络模型CNN-PE,基于循环神经网络的模型LSTM和PA-LSTM,以及基于BERT的R-BERT模型作为对比。实验结果如表3所示。
表3 TACRED数据集实验结果
从表中可以看出,本案方案中融入多元实体信息的BERT-MEI模型结果优于其他的模型。其中,基于神经网络的各模型,其分类效果都要好于传统的机器学习模型LR。加入位置注意力机制的PA-LSTM模型比单一的LSTM模型提高了3.6%,表明实体的位置信息和注意力机制具有重要作用。与上述模型相比,基于BERT的R-BERT和BERT-MEI模型,其F1值达到了70.1%,大大超过了传统的神经网络模型。并且,本案方案中BERT-MEI模型因在R-BERT模型的基础上添加了实体类型和实体最短依存路径信息,F1值比R-BERT模型进一步提高了1%。
为了验证本案中实体类型和实体最短依存路径在关系分类中的有效性,进行如下的模型消融实验:
使用在实体两端添加了位置指示的R-BERT模型作为测试基准,在此基础上分别将实***置指示替换为实体类型标记、添加实体最短依存路径信息,在两个数据集上对模型的F1值进行测试。实验结果如表4所示。
表4模型消融实验结果
将实***置指示替换为实体类型标记后,F1值平均提高了0.7%,在实***置基础上加入实体最短依存路径信息,F1值平均提高了0.6%,表明实体类型、最短依存路径均与实体之间的关系密切相关。因此,在R-BERT模型基础上,进一步融入实体类型信息和最短依存路径信息的BERT-MEI模型,在两个数据集上F1值都提高了1%以上,分类效果显著提升。
随着预训练语言模型的发展,越来越多的学者使用预训练语言模型进行关系分类,关系分类任务与实体信息密切相关,目前基于预训练语言模型的方法对实体信息利用不够充分。基于此,本案方案中融入多元实体信息的BERT-MEI模型,首先对句子进行预处理,在实体两端***实体类型标记,并将实体最短依存路径作为输入的一部分,通过BERT模型对句子进行编码,使用编码后的句子向量、实体向量和依存关系向量进行关系分类,使抽取的特征更多地融合了实体信息,在KBP37数据集和TACRED数据集上F1值达到了68.9%和71.1%,比仅标记了实***置的R-BERT模型分别提高了1.1个百分点和1个百分点,验证了本案模型方案的有效性。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
基于上述的方法和/或***,本发明实施例还提供一种服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述的方法。
基于上述的方法和/或***,本发明实施例还提供一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现上述的方法。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种基于BERT模型融合多元实体信息的关系分类方法,其特征在于,包含如下内容:
对目标文本句子进行预处理,获取模型输入句子,其中,所述预处理包含:对文本句子中实体类型进行标注获取第一子句,通过依存分析来提取实体最短依存路径来获取第二子句,及将第一子句和第二子句进行拼接;
利用BERT模型对获取的模型输入句子进行编码,得到编码后的句子向量、实体向量和依存关系向量;并将三者进行拼接形成用于关系分类的特征表示向量;
针对特征表示向量,利用全连接softmax分类器获取最终关系分类结果。
2.根据权利要求1所述的基于BERT模型融合多元实体信息的关系分类方法,其特征在于,实体类型标注中,利用NLP工具获取句子中实体类型,通过对每种实体类型定义不同标记,在每个实体类型前后两端***相应实体标注,获取第一子句。
3.根据权利要求1所述的基于BERT模型融合多元实体信息的关系分类方法,其特征在于,利用NLP工具对句子进行依存分析,获取实体最短依存路径,并在最短依存关系词前后两端添加相应标记,获取第二子句。
4.根据权利要求1所述的基于BERT模型融合多元实体信息的关系分类方法,其特征在于,通过BERT模型获取编码后每个单词向量表示;针对单词向量表示,依据标注信息获取句子向量及句子中的实体向量和依存关系向量。
5.根据权利要求4所述的基于BERT模型融合多元实体信息的关系分类方法,其特征在于,针对两个实体及实体间的依存关系,通过计算其所包含的单词向量平均值来获取相应实体向量及依存关系向量。
6.根据权利要求1所述的基于BERT模型融合多元实体信息的关系分类方法,其特征在于,将得到的句子向量、实体向量和依存关系向量通过激活层和全连接层进行降维,得到用于拼接的各向量表示;对各向量表示进行拼接获取用于关系分类的实体关系特征表示向量。
7.根据权利要求1或6所述的基于BERT模型融合多元实体信息的关系分类方法,其特征在于,利用全连接层和Softmax分类器对特征表示向量进行分类,得到各关系类型的输出概率。
8.根据权利要求7所述的基于BERT模型融合多元实体信息的关系分类方法,其特征在于,Softmax分类器训练中采用交叉熵损失函数作为目标函数。
9.根据权利要求8所述的基于BERT模型融合多元实体信息的关系分类方法,其特征在于,在目标函数中引入L2正则项,并在全连接层使用Dropout,防止模型训练中的过拟合。
10.一种基于BERT模型融合多元实体信息的关系分类***,其特征在于,包含:预处理模块、编码模块和分类模块,其中,
预处理模块,用于对目标文本句子进行预处理,获取模型输入句子,其中,所述预处理包含:对文本句子中实体类型进行标注获取第一子句,通过依存分析来提取实体最短依存路径来获取第二子句,及将第一子句和第二子句进行拼接;
编码模块,用于利用BERT模型对获取的模型输入句子进行编码,得到编码后的句子向量、实体向量和依存关系向量;并三者进行拼接形成用于关系分类的特征表示向量;
分类模块,用于针对特征表示向量,利用全连接softmax分类器获取最终关系分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110627362.3A CN113360582B (zh) | 2021-06-04 | 2021-06-04 | 基于bert模型融合多元实体信息的关系分类方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110627362.3A CN113360582B (zh) | 2021-06-04 | 2021-06-04 | 基于bert模型融合多元实体信息的关系分类方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113360582A true CN113360582A (zh) | 2021-09-07 |
CN113360582B CN113360582B (zh) | 2023-04-25 |
Family
ID=77532597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110627362.3A Active CN113360582B (zh) | 2021-06-04 | 2021-06-04 | 基于bert模型融合多元实体信息的关系分类方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113360582B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113987150A (zh) * | 2021-10-29 | 2022-01-28 | 深圳前海环融联易信息科技服务有限公司 | 基于bert的多层注意力机制关系抽取方法 |
CN114372138A (zh) * | 2022-01-11 | 2022-04-19 | 国网江苏省电力有限公司信息通信分公司 | 一种基于最短依存路径和bert的电力领域关系抽取的方法 |
CN116628174A (zh) * | 2023-02-17 | 2023-08-22 | 广东技术师范大学 | 一种融合实体和关系信息的端到端关系抽取方法以及*** |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107180247A (zh) * | 2017-05-19 | 2017-09-19 | 中国人民解放军国防科学技术大学 | 基于选择性注意力卷积神经网络的关系分类器及其方法 |
CN109710932A (zh) * | 2018-12-22 | 2019-05-03 | 北京工业大学 | 一种基于特征融合的医疗实体关系抽取方法 |
CN110059320A (zh) * | 2019-04-23 | 2019-07-26 | 腾讯科技(深圳)有限公司 | 实体关系抽取方法、装置、计算机设备和存储介质 |
CN110188193A (zh) * | 2019-04-19 | 2019-08-30 | 四川大学 | 一种基于最短依存子树的电子病历实体关系抽取方法 |
CN111274394A (zh) * | 2020-01-16 | 2020-06-12 | 重庆邮电大学 | 一种实体关系的抽取方法、装置、设备及存储介质 |
CN111897908A (zh) * | 2020-05-12 | 2020-11-06 | 中国科学院计算技术研究所 | 融合依存信息和预训练语言模型的事件抽取方法及*** |
US20210034988A1 (en) * | 2019-08-02 | 2021-02-04 | Robert Bosch Gmbh | Device and method for machine learning and activating a machine |
CN112347771A (zh) * | 2020-12-03 | 2021-02-09 | 云知声智能科技股份有限公司 | 一种实体关系的抽取方法和设备 |
-
2021
- 2021-06-04 CN CN202110627362.3A patent/CN113360582B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107180247A (zh) * | 2017-05-19 | 2017-09-19 | 中国人民解放军国防科学技术大学 | 基于选择性注意力卷积神经网络的关系分类器及其方法 |
CN109710932A (zh) * | 2018-12-22 | 2019-05-03 | 北京工业大学 | 一种基于特征融合的医疗实体关系抽取方法 |
CN110188193A (zh) * | 2019-04-19 | 2019-08-30 | 四川大学 | 一种基于最短依存子树的电子病历实体关系抽取方法 |
CN110059320A (zh) * | 2019-04-23 | 2019-07-26 | 腾讯科技(深圳)有限公司 | 实体关系抽取方法、装置、计算机设备和存储介质 |
US20210034988A1 (en) * | 2019-08-02 | 2021-02-04 | Robert Bosch Gmbh | Device and method for machine learning and activating a machine |
CN111274394A (zh) * | 2020-01-16 | 2020-06-12 | 重庆邮电大学 | 一种实体关系的抽取方法、装置、设备及存储介质 |
CN111897908A (zh) * | 2020-05-12 | 2020-11-06 | 中国科学院计算技术研究所 | 融合依存信息和预训练语言模型的事件抽取方法及*** |
CN112347771A (zh) * | 2020-12-03 | 2021-02-09 | 云知声智能科技股份有限公司 | 一种实体关系的抽取方法和设备 |
Non-Patent Citations (3)
Title |
---|
SUN ZIYANG等: "Chinese Entity Relation Extraction Method Based on Deep Learning", 《COMPUTER ENGINEERING》 * |
张东东等: "ENT-BERT:结合 BERT 和实体信息的实体关系分类模型", 《小型微型计算机***》 * |
张璐: "面向中文文本的事件提取方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113987150A (zh) * | 2021-10-29 | 2022-01-28 | 深圳前海环融联易信息科技服务有限公司 | 基于bert的多层注意力机制关系抽取方法 |
CN114372138A (zh) * | 2022-01-11 | 2022-04-19 | 国网江苏省电力有限公司信息通信分公司 | 一种基于最短依存路径和bert的电力领域关系抽取的方法 |
CN116628174A (zh) * | 2023-02-17 | 2023-08-22 | 广东技术师范大学 | 一种融合实体和关系信息的端到端关系抽取方法以及*** |
Also Published As
Publication number | Publication date |
---|---|
CN113360582B (zh) | 2023-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109165294B (zh) | 一种基于贝叶斯分类的短文本分类方法 | |
CN113360582B (zh) | 基于bert模型融合多元实体信息的关系分类方法及*** | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
RU2679988C1 (ru) | Извлечение информационных объектов с помощью комбинации классификаторов | |
CN107145514B (zh) | 基于决策树和svm混合模型的中文句型分类方法 | |
CN107451118A (zh) | 基于弱监督深度学习的句子级情感分类方法 | |
CN106126502A (zh) | 一种基于支持向量机的情感分类***及方法 | |
CN115809345A (zh) | 一种基于知识图谱的多源数据差异溯源检索方法 | |
CN110750648A (zh) | 一种基于深度学习和特征融合的文本情感分类方法 | |
CN113360647B (zh) | 一种基于聚类的5g移动业务投诉溯源分析方法 | |
CN114443855A (zh) | 一种基于图表示学习的知识图谱跨语言对齐方法 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN113886562A (zh) | 一种ai简历筛选方法、***、设备和存储介质 | |
CN115759119A (zh) | 一种金融文本情感分析方法、***、介质和设备 | |
CN114881043A (zh) | 基于深度学习模型的法律文书语义相似度评估方法及*** | |
CN113590827B (zh) | 一种基于多角度的科研项目文本分类装置和方法 | |
CN114817454A (zh) | 一种结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法 | |
CN110245234A (zh) | 一种基于本体和语义相似度的多源数据样本关联方法 | |
WO2024078105A1 (zh) | 专利文献中的技术问题抽取方法及相关设备 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN114117069B (zh) | 一种用于知识图谱智能问答的语义理解方法及*** | |
US20200202074A1 (en) | Semsantic parsing | |
CN111859915B (zh) | 一种基于词频显著度水平的英文文本类别识别方法及*** | |
CN113239277A (zh) | 一种基于用户评论的概率矩阵分解推荐方法 | |
Huaijin et al. | Improving text models with latent feature vector representations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |