CN110196978A - 一种关注关联词的实体关系抽取方法 - Google Patents
一种关注关联词的实体关系抽取方法 Download PDFInfo
- Publication number
- CN110196978A CN110196978A CN201910479528.4A CN201910479528A CN110196978A CN 110196978 A CN110196978 A CN 110196978A CN 201910479528 A CN201910479528 A CN 201910479528A CN 110196978 A CN110196978 A CN 110196978A
- Authority
- CN
- China
- Prior art keywords
- sentence
- text
- vector
- word
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 137
- 230000014509 gene expression Effects 0.000 claims abstract description 24
- 238000013507 mapping Methods 0.000 claims abstract description 6
- 230000001537 neural effect Effects 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 44
- 238000012549 training Methods 0.000 claims description 28
- 238000000034 method Methods 0.000 claims description 17
- 230000013016 learning Effects 0.000 claims description 14
- 239000013604 expression vector Substances 0.000 claims description 10
- 238000010801 machine learning Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000003780 insertion Methods 0.000 claims description 6
- 230000037431 insertion Effects 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000033228 biological regulation Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000007423 decrease Effects 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000002585 base Substances 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 239000012458 free base Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种关注关联词的实体关系抽取方法,所述关注关联词的实体关系抽取方法,包括以下步骤:S1,输入已标签文本和待测文本,进行文本分词,获取每个词语映射的对应的实值向量;S2,将所有词语对应的实值向量两两组合,获取二元组合特征向量,计算二元组合特征向量与关系标签的权重向量,获取句子的二元词组特征;S3,将实值向量输入到神经网络层中,获取文本的语义结构和特征向量表示;S4,将步骤2输出的二元词组特征与步骤3输出的语义特征串联作为最终文本句子的表示,然后将最终文本句子的表示输入至句子级别的关注层,获得句子对于不同关系类型的权重,得到最后的关系分类结果输出。
Description
技术领域
本发明涉及深度学习与自然语言处理领域,具体涉及一种关注关联词的实体关系抽取方法。
背景技术
实体关系抽取是信息抽取领域的热点问题,其主要任务是在实体识别的基础上,在无结构的文本中进行实体关系抽取,实现实体关系的结构化存储与利用。该技术打破了人工阅读理解文本语义及获取关系的限制,在面对大量文本信息处理时具有速度优势,可应用于众多自然语言处理应用领域。例如,通过实体关系抽取,可以辅助知识图谱或者本体知识库的构建;也可以为自动问答***提供支持。从研究上看,该技术还可以提供理论支持,对目前语义网络标注,篇章理解,机器翻译方面都有着重要意义。
目前,基于机器学习方法的关系实体抽取技术主要分为有监督的学习方法、无监督的学习方法和半监督学习方法三种。有监督学习方法是最基本的关系抽取方法,他的思想主要是将已标记的训练数据用来训练关系抽取模型,然后就用这个模型实现数据中实体具备的关系类型进行预测。半监督的学习方法主要采用Bootstrapping进行关系抽取和充分利用现有的freebase进行的远程监督关系抽取。无监督的学习方法通过对所有实体对的语义关系进行聚类,并在此基础上实现关系的识别。中文文本语言特点复杂,大多使用关联词来进一步增强语义信息,而关联词更多倾向于使用两个词语来共同表示实体之间存在的语义关联,例如“因为”和“所以”表示因果关系;但现有的实体抽取方法并未关注关联词对实体提取的影响,难以适应于语言特点复杂的中文文本,实体抽取的准确率不高。
例如申请公布号为CN106202044A的发明专利申请公开了一种基于深度神经网络的实体关系抽取方法,该方法通过提取字特征、句子特征和类别特征,使用卷积神经网络分析得到抽取结果,解决了长短句问题,提高了实体关系抽取的性能,但未关注词语之间的联系,对于语言特点复杂的中文关系,仍存在实体抽取准确率不高的问题。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供一种关注关联词的实体关系抽取方法,通过关注关联词,提高多关联词出现时,实体抽取结果的准确性。
为了实现上述发明目的,本发明提供了以下技术方案:
一种关注关联词的实体关系抽取方法,包括以下步骤:
S1:输入已标签文本和待测文本,进行文本分词,获取每个词语映射的对应的实值向量;
S2:将所有词语对应的实值向量两两组合,获取二元组合特征向量,计算二元组合特征向量与关系标签的权重向量,获取句子的二元词组特征;
S3:将实值向量输入到神经网络层中,获取文本的语义结构和特征向量表示;
S4:将步骤2输出的二元词组特征与步骤3输出的语义特征串联作为最终文本句子的表示,然后将最终文本句子的表示输入至句子级别的关注层,获得句子对于不同关系类型的权重,输出最后的关系分类结果。
将可能存在二元关联词组显式表达语义关系的信息融合到词级的关注层中,充分利用了关联词在中文表达中的语义信息。再与语义特征拼接,结合成一个信息含量很大的向量,最后送入至句子级别的关注层,使整个网络层能够自动学习到更多有助于关系分类的特征,使分类的准确率更高。
优选地,所述步骤S1具体包括以下步骤:
S11:输入已标签文本和待测文本,文本分词,获取词向量;
S12:获取词语相对于句中特征实体对的相对位置的表示向量;
S13:拼接词向量和两个相对位置的表示向量,得到句子的实值向量。
获得句子的实值向量,以获取二元组合特征向量。
优选地,所述步骤S2具体包括以下步骤:
S21:两个词语对应的实值向量组合获取二元组合特征向量,通过将所有词语对应的实值向量两两组合,得到一个特征矩阵X,即特征矩阵X维度为(n2,d),Xi为特征矩阵的第i个维度;
S22:训练词级注意力矩阵,并采用训练完成的词级注意力矩阵重点关注可能存在的影响关系分类的二元词组向量,计算二元组合特征向量与关系标签的相关性。
通过步骤S2计算二元组合特征向量与关系标签的相关性。
优选地,所述步骤S22具体包括以下步骤:
S221:定义词级注意力矩阵的维度,计算已标签文本的二元组合特征向量与各个关系标签的权重向量αi,然后通过比较权重向量与文本的真实值,采用机器学习的方式自动通过梯度下降的方式学习调节词级注意力矩阵的参数,得到训练完成的词级注意力矩阵;
S222:通过训练完成的词级注意力矩阵计算待测文本的二元组合特征向量与各个关系标签的权重向量,基于权重向量得到经过词级关注的最终句子表示;
权重向量的具体计算方法如式(1)和式(2)所示,文本的最终句子表示计算方法如式(3)所示:
gi=Xir, (1)
其中,r是本发明需要进行分类的关系标签在词级机器学习网络中的嵌入向量embedding向量,gi表示每个二元词组与关系标签的相关性;αi为权重向量,也为词级注意力矩阵,表示对于一个句子当中的所有二元词组与关系向量相似度的归一化值,即在一句文本中,不同的二元词组,根据与关系标签的相似性而所得到的关注权重不同;y为经过上述词级关注的最终句子表示。
训练词级注意力矩阵,以更好地计算待测文本的二元组合特征向量与各个关系标签的权重向量,得到句子经过词级关注的最终句子表示。
优选地,所述步骤S3采用BGRU网络层获取文本的语义结构和特征向量表示,句子的语义特征记做h,第i个句子的语义特征记为hi,获取文本的语义特征。
优选地,所述步骤S4得到关系分类结果输出的具体过程如下:
第i个句子的向量表示为zi,其中然后再利用句子级别的注意力机制来充分关注具有相同实体对且具有相同实体关系的语义信息,得到最后的结果分类输出;其中,通过句子级别的注意力机制获取分类结果的计算公式如式(4)至式(8)所示:
ei=ziAr, (4)
o=Ws+b, (7)
其中,A为句子级别注意力的对角矩阵,d为本发明需要进行分类的关系标签在句子级学习网络中的嵌入向量embedding向量,ei表示句子与关系标签的相关性;k指的是文本包含的句子总数,βi是表示每个句子与标签相似度的权重;s指经过句子级别关注的文本表示;W表示维度转换网络层内所有关系标签的embedding矩阵,b表示预训练的偏置矩阵bias矩阵;nr表示关系类别数量,ok表示文本与第k个关系标签相关的关系概率值,or表示所有关系概率值里面数值最大的关系概率值。
二元词组特征与语义特征拼接,结合成一个信息含量很大的向量,送入至句子级别的关注层,使整个网络层能够自动学习到更多有助于关系分类的特征,使分类的准确率更高。
与现有技术相比,本发明的有益效果:本算法将可能存在二元关联词组显式表达语义关系的信息融合到词级的关注层中,充分利用了关联词在中文表达中的语义信息。再与从BGRU网络层提取的特征拼接,结合成一个信息含量很大的向量,最后送入至句子级别的关注层,使整个网络层能够自动学习到更多有助于关系分类的特征,使分类的准确率更高。
附图说明:
图1为本发明示例性实施例1的一种关注关联词的实体关系抽取方法的算法流程图;
图2为本发明示例性实施例1的一种关注关联词的实体关系抽取方法的算法详细流程图;
图3为本发明示例性实施例1的文本内容关联抽取方法步骤S2的算法流程图;
图4为本发明示例性实施例1的文本内容关联抽取方法步骤S4的算法流程图。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
实施例1
如图1或图2所示,本实施例提供一种关注关联词的实体关系抽取方法,包括以下步骤:
S1:输入已标签文本和待测文本,进行文本分词,获取每个词语映射的对应的实值向量;
输入已标签文本和待测文本,获取文本句中的每个词语对应的词向量和每个词语相对于句中特殊实体对的相对位置的表示向量,并将三个向量拼接后来表示该词语的实值向量。
S11:输入已标签文本和待测文本,文本分词,获取词向量;
利用自然语言处理工具将文本中的词语映射为词向量。
目前常用的中文分词工具有SnowNLP、结巴分词、THULAC以及LTP等。结巴分词基于前缀词典实现词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG),并采用动态规划查找最大概率路径,找出基于词频的最大切分组合;对于未登录词,采用了基于汉字成词能力的HMM模型,采用Viterbi算法进行计算。本实施例使用结巴分词对文本进行分词操作。
文本分词后需利用自然语言处理工具将文本中的词语映射为词向量。可采取onehot representation、Distributed representation以及基于神经网络DNN模型(CBOW模型或Skip-Gram模型)等现有的词向量获取算法获取词向量。本实施例基于word2vec原理将文本映射为词向量,具体方式为调用gensim库训练完成的word2vec工具将分词的文本生成为词向量输出。
gensim是一个python的自然语言处理库,能够将文档根据TF-IDF、LDA、LSI等模型转化成向量模式,以便进行进一步的处理。此外,gensim还实现了word2vec功能,能够将单词转化为词向量。word2vec是***在2013年推出的一个NLP(Natural LanguageProcessing,自然语言处理)工具,它的特点是将所有的词向量化,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系。word2vec也使用了CBOW与Skip-Gram来训练模型,然后获取词向量,但是word2vec并没有使用传统的DNN模型。word2vec采用霍夫曼树来代替隐藏层和输出层的神经元,霍夫曼树的叶子节点起到输出层神经元的作用,叶子节点的个数即为词汇表的大小,而内部节点则起到隐藏层神经元的作用。
gensim库的word2vec工具使用前,采用已标注的文本训练word2vec工具,生成相应的向量词典。
对于每一个给定的包含n个词语的句子S,利用word2vec将每个词语映射到dw维的词向量中,得到经过词向量映射后的文本表示S∈Rn×dw。
S12:获取词语相对于句中特征实体对的相对位置的表示向量;
所述特征实体对用于表述每个词语的相对位置。所述特征实体对与文本所属技术领域有关。例如我们输入的训练示例是:实体A,实体B,关系r,句子s。其中句子s中出现了实体A和实体B。实体A和实体B为特征实体对。这里获取的是句子中每个词语相对于这样的实体对的位置,目的是为了获取这样的实体对在句子中的位置信息。
计算句子中每个词语相对于特征实体对中第一个实体的相对位置,再计算与特征实体对中第二个实体的相对位置,得到两个相对位置结果,再将这两个相对位置结果分别为映射位置向量,位置向量的维度为dp维,两个位置向量相结合,得到词语相对于句中特征实体对的相对位置的表示向量。最后将句子中的每个词语都映射为一个维度为2×dp的相对位置的表示向量。
例如若特征实体为“小红”、“小明”以及“师生”等词语,输入的句子为“今天小红要求小明下周一交作业。”
在这个例子中,小红出现在句子中的下标为2的位置,而小明出现在句子中下标6的位置。而对于句子中的每个字,它与实体小红的相对位置值为:-2,-1,0,1,2,3,4,5,6,7,8,9,10,11;与实体小明的相对位置值为:-6,-5,-4,-3,-2,-1,0,1,2,3,4,5,6,7。
S13:拼接词向量和相对位置的表示向量,得到句子的实值向量;
把映射的词向量与词语相对于句中特征实体对的相对位置的表示向量拼接,得到的句子的最终实值向量,所述实值向量表示为W={w1,w2,...,wn},其中第i个词语的实值向量记做wi,wi∈Rd×1,d=dw+2dp。
S2:将所有词语对应的实值向量两两组合,获取二元组合特征向量,计算二元组合特征向量与关系标签的权重向量,获取句子的二元词组特征;
由于在中文的语义表达中,两个关联词共同出现能增强实体间存在的关系。如:用私有密钥对数据进行加密,那么只有用对应的公开密钥才能解密。
从这句文本可以很明显看出,关联词“只有……才……”增强表示了私有密钥和公开密钥之间存在的条件关系。但如果“只有”或者“才”单个出现时,尽管仍可以表达这样的关系分类结果,但很明显关联词的同时出现能增强语义的表达。
因此考虑二元关联词共同出现影响分类结果的情况,将句子中的每个词语两两组合,组合的方式是将两个词语映射后的实值向量相加再求均值,并训练一个词级的注意力矩阵去重点关注可能存在的影响关系分类的二元词组向量。
如图3所示,步骤S2包括以下步骤:
S21:两个词语对应的实值向量组合获取二元组合特征向量,通过将所有词语对应的实值向量两两组合,得到一个特征矩阵X,即特征矩阵X维度为(n2,d),Xi为特征矩阵的第i个维度。本实施例实值向量的组合方式为两个词语映射后的实值向量相加再求均值。
S22:训练词级注意力矩阵,并采用训练完成的词级注意力矩阵重点关注可能存在的影响关系分类的二元词组向量,计算二元组合特征向量与关系标签的相关性。
步骤S22具体包括以下步骤:
S221:定义词级注意力矩阵的维度,输入已标签的文本,计算已标签文本的二元组合特征向量与各个关系标签的权重向量αi,然后通过比较权重向量与文本的真实值,采用机器学习的方式自动通过梯度下降的方式学习调节词级注意力矩阵的参数,得到训练完成的词级注意力矩阵。
S222:通过训练完成的词级注意力矩阵计算待测文本的二元组合特征向量与各个关系标签的权重向量,基于权重向量得到经过词级关注的最终句子表示,权重向量的具体计算方法如式(1)和式(2)所示,文本的最终句子表示计算方法如式(3)所示:
gi=Xir, (1)
其中,r是本发明需要进行分类的关系标签在词级机器学习网络中的嵌入向量embedding向量,gi表示每个二元词组与关系标签的相关性;αi为权重向量,也为词级注意力矩阵,表示对于一个句子当中的所有二元词组与关系向量相似度的归一化值,即在一句文本中,不同的二元词组,根据与关系标签的相似性而所得到的关注权重不同;y为经过上述词级关注的最终句子表示,这样可以提高多关联词的出现影响分类结果情况下实体提取的准确性。组合向量送入词级关注的机器学习网络的Attention层,通过与词级注意力矩阵的相关运算,给予与关系分类结果相似度更高的关联词更强的权重,之后得到加权后的句子表示y。
S3:将实值向量输入到神经网络层中,获取文本的语义结构和特征向量表示;
将步骤S1得到的实值向量输入至神经网络层,获取文本的语义结构和特征向量表示。本实施例采用BGRU(Bi-directional Gated Recurrent Unit,双向门控循环单元)网络层,这个网络层会提供给输出层输入序列中每个点的完整的过去和未来的上下文信息。GRU是LSTM(Long-short Memory,长短时记忆)模型的简化版,仅仅包含两个门函数,重置门和更新门。
重置门决定先前的信息如何结合当前的输入,更新门决定保留多少先前的信息。由于GRU模型的参数相对更少,因此训练的速度会稍快。本实施例采用BGRU网络层,即包括一个前向的门控循环单元(Forward GRU)网络层和一个后向的门控循环单元(BackwardGRU)网络层。实值向量经过BGRU层得到的序列是一个学习到了长距离语义信息的上层特征向量,用来表示每一个句子的语义特征h,第i个句子的语义特征记为hi,语义特征的获取方式与现有的实体提取中的语义获取方式类似,本发明的创新点不在此处,在此不做过多赘述。
S4:将步骤S2输出的二元词组特征与步骤S3输出的语义特征直接串联作为最终文本句子的表示,然后再将其输入至训练完成的句子级别的关注层,获得句子对于当前不同关系类型的权重,输出最后的关系分类结果。
如图4所示,我们将上述的两个表示的特征直接拼接,作为一个句子最终的特征向量表示。于是,第i个句子的向量表示为zi,其中然后再利用句子级别的注意力机制来充分关注具有相同实体对且具有相同实体关系的语义信息,得到最后的结果分类输出。其中,通过句子级别的注意力机制获取分类结果的计算公式如式(4)至式(8)所示:
ei=ziAd, (4)
o=Ws+b, (7)
其中,A为句子级别注意力的对角矩阵,d为本发明需要进行分类的关系标签在句子级学习网络中的嵌入向量embedding向量,ei表示句子与关系标签的相关性;k指的是文本包含的句子总数,βi是表示每个句子与标签相似度的权重;s指经过句子级别关注的文本表示;公式(7)用于转换维度,以便于公式(8)的计算,其中W表示维度转换网络层内所有关系标签的embedding矩阵,b表示预训练的偏置矩阵bias矩阵;nr表示关系类别数量,ok表示文本与第k个关系标签相关的关系概率值,or表示所有关系概率值里面数值最大的关系概率值。特征向量zi与每个关系标签的权重βi计算完成之后,利用softmax分类层来归一化成概率,得到最大的那个概率值及该概率值对应的关系标签作为最终关系分类的输出结果。本实施例中的句子级别注意力的对角矩阵A,所有关系标签的embedding矩阵W以及预训练的bias矩阵均为通过已标签的文本训练更新参数后的矩阵,训练过程与步骤S22词级注意力矩阵训练方式类似,采用机器学习的方式自动通过梯度下降的方式学习调节相应矩阵的参数,得到训练完成的矩阵。
例如要分类的关系种类有5种,即nr=5。假如公式7中得到的o如下所示:
[(0,0.3321),(1,0.0012),(2,0.9231),(3,0.1135),(4,0.0011)];
数组(0,0.3321)中,“0”表示关系种类标号为0,“0.3321”为对应的具体的概率值;其他数组的含义类似。
这时or就是0.9231,通过softmax分类层来归一化成概率,输出最终的概率值与关系种类标号“2”。
与现有的实体关系抽取方法相比,本发明主要做了针对处理面向知识元关系抽取存在的关联词影响抽取结果的改进。本算法将可能存在二元关联词组显式表达语义关系的信息融合到词级的关注层中,充分利用了关联词在中文表达中的语义信息。再与从BGRU网络层提取的特征拼接,结合成一个信息含量很大的向量,最后送入至句子级别的关注层,使整个网络层能够自动学习到更多有助于关系分类的特征,使分类的准确率更高。
以上所述,仅为本发明具体实施方式的详细说明,而非对本发明的限制。相关技术领域的技术人员在不脱离本发明的原则和范围的情况下,做出的各种替换、变型以及改进均应包含在本发明的保护范围之内。
Claims (6)
1.一种关注关联词的实体关系抽取方法,其特征在于,包括以下步骤:
S1:输入已标签文本和待测文本,进行文本分词,获取每个词语映射的对应的实值向量;
S2:将所有词语对应的实值向量两两组合,获取二元组合特征向量,计算二元组合特征向量与关系标签的权重向量,获取句子的二元词组特征;
S3:将实值向量输入到神经网络层中,获取文本的语义结构和特征向量表示;
S4:将步骤2输出的二元词组特征与步骤3输出的语义特征串联作为最终文本句子的表示,然后将最终文本句子的表示输入至句子级别的关注层,获得句子对于不同关系类型的权重,输出最后的关系分类结果。
2.根据权利要求1所述的关注关联词的实体关系抽取方法,其特征在于,所述步骤S1具体包括以下步骤:
S11:输入已标签文本和待测文本,文本分词,获取词向量;
S12:获取词语相对于句中特征实体对的相对位置的表示向量;
S13:拼接词向量和两个相对位置的表示向量,得到句子的实值向量。
3.根据权利要求1所述的关注关联词的实体关系抽取方法,其特征在于,所述步骤S2具体包括以下步骤:
S21:两个词语对应的实值向量组合获取二元组合特征向量,通过将所有词语对应的实值向量两两组合,得到一个特征矩阵X,即特征矩阵X维度为(n2,d),Xi为特征矩阵的第i个维度;
S22:训练词级注意力矩阵,并采用训练完成的词级注意力矩阵重点关注可能存在的影响关系分类的二元词组向量,计算二元组合特征向量与关系标签的相关性。
4.根据权利要求3所述的关注关联词的实体关系抽取方法,其特征在于,所述步骤S22具体包括以下步骤:
S221:定义词级注意力矩阵的维度,计算已标签文本的二元组合特征向量与各个关系标签的权重向量αi,然后通过比较权重向量与文本的真实值,采用机器学习的方式自动通过梯度下降的方式学习调节词级注意力矩阵的参数,得到训练完成的词级注意力矩阵;
S222:通过训练完成的词级注意力矩阵计算待测文本的二元组合特征向量与各个关系标签的权重向量,基于权重向量得到经过词级关注的最终句子表示;
权重向量的具体计算方法如式(1)和式(2)所示,文本的最终句子表示计算方法如式(3)所示:
gi=Xir, (1)
其中,r是本发明需要进行分类的关系标签在词级机器学习网络中的嵌入向量embedding向量,gi表示每个二元词组与关系标签的相关性;αi为权重向量,也为词级注意力矩阵,表示对于一个句子当中的所有二元词组与关系向量相似度的归一化值,即在一句文本中,不同的二元词组,根据与关系标签的相似性而所得到的关注权重不同;y为经过上述词级关注的最终句子表示。
5.根据权利要求4所述的关注关联词的实体关系抽取方法,其特征在于,所述步骤S3采用BGRU网络层获取文本的语义结构和特征向量表示,句子的语义特征记做h,第i个句子的语义特征记为hi,
6.根据权利要求5所述的关注关联词的实体关系抽取方法,其特征在于,所述步骤S4得到关系分类结果输出的具体过程如下:
第i个句子的向量表示为zi,其中然后再利用句子级别的注意力机制来充分关注具有相同实体对且具有相同实体关系的语义信息,得到最后的结果分类输出;其中,通过句子级别的注意力机制获取分类结果的计算公式如式(4)至式(8)所示:
ei=ziAr, (4)
o=Ws+b, (7)
其中,A为句子级别注意力的对角矩阵,d为本发明需要进行分类的关系标签在句子级学习网络中的嵌入向量embedding向量,ei表示句子与关系标签的相关性;k指的是文本包含的句子总数,βi是表示每个句子与标签相似度的权重;s指经过句子级别关注的文本表示;W表示维度转换网络层内所有关系标签的embedding矩阵,b表示预训练的偏置矩阵bias矩阵;nr表示关系类别数量,ok表示文本与第k个关系标签相关的关系概率值,or表示所有关系概率值里面数值最大的关系概率值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910479528.4A CN110196978A (zh) | 2019-06-04 | 2019-06-04 | 一种关注关联词的实体关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910479528.4A CN110196978A (zh) | 2019-06-04 | 2019-06-04 | 一种关注关联词的实体关系抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110196978A true CN110196978A (zh) | 2019-09-03 |
Family
ID=67753846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910479528.4A Pending CN110196978A (zh) | 2019-06-04 | 2019-06-04 | 一种关注关联词的实体关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110196978A (zh) |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110619121A (zh) * | 2019-09-18 | 2019-12-27 | 江南大学 | 基于改进深度残差网络和注意力机制的实体关系抽取方法 |
CN110852107A (zh) * | 2019-11-08 | 2020-02-28 | 北京明略软件***有限公司 | 一种关系提取方法、装置、及存储介质 |
CN111027321A (zh) * | 2019-11-30 | 2020-04-17 | 南京森林警察学院 | 一种警务相关智能组题*** |
CN111078885A (zh) * | 2019-12-18 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 一种标签分类的方法、相关装置、设备以及存储介质 |
CN111090724A (zh) * | 2019-11-21 | 2020-05-01 | 新华智云科技有限公司 | 一种基于深度学习的可评判文本内容与实体相关性的实体抽取方法 |
CN111177383A (zh) * | 2019-12-24 | 2020-05-19 | 上海大学 | 一种融合文本语法结构和语义信息的文本实体关系自动分类方法 |
CN111259106A (zh) * | 2019-12-31 | 2020-06-09 | 贵州大学 | 一种结合神经网络和特征演算的关系抽取方法 |
CN111274394A (zh) * | 2020-01-16 | 2020-06-12 | 重庆邮电大学 | 一种实体关系的抽取方法、装置、设备及存储介质 |
CN111368528A (zh) * | 2020-03-09 | 2020-07-03 | 西南交通大学 | 一种面向医学文本的实体关系联合抽取方法 |
CN111368552A (zh) * | 2020-02-26 | 2020-07-03 | 北京市公安局 | 一种面向特定领域的网络用户群组划分方法及装置 |
CN111428505A (zh) * | 2020-01-17 | 2020-07-17 | 北京理工大学 | 一种融合触发词识别特征的实体关系抽取方法 |
CN111488740A (zh) * | 2020-03-27 | 2020-08-04 | 北京百度网讯科技有限公司 | 一种因果关系的判别方法、装置、电子设备及存储介质 |
CN111506725A (zh) * | 2020-04-17 | 2020-08-07 | 北京百度网讯科技有限公司 | 生成摘要的方法和装置 |
CN111581392A (zh) * | 2020-04-28 | 2020-08-25 | 电子科技大学 | 一种基于语句通顺度的自动作文评分计算方法 |
CN111597341A (zh) * | 2020-05-22 | 2020-08-28 | 北京慧闻科技(集团)有限公司 | 一种文档级关系抽取方法、装置、设备及存储介质 |
CN111709518A (zh) * | 2020-06-16 | 2020-09-25 | 重庆大学 | 一种基于社区感知和关系注意力的增强网络表示学习的方法 |
CN112052674A (zh) * | 2020-08-06 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 一种实体定义抽取方法、***及存储介质和服务器 |
CN112131887A (zh) * | 2020-09-22 | 2020-12-25 | 河南合众伟奇云智科技有限公司 | 一种基于语义要素的低资源文本识别算法 |
CN112417878A (zh) * | 2020-11-24 | 2021-02-26 | 北京明略昭辉科技有限公司 | 实体关系抽取方法、***、电子设备及存储介质 |
CN112926332A (zh) * | 2021-03-30 | 2021-06-08 | 善诊(上海)信息技术有限公司 | 一种实体关系联合抽取方法及装置 |
CN113010683A (zh) * | 2020-08-26 | 2021-06-22 | 齐鲁工业大学 | 基于改进图注意力网络的实体关系识别方法及*** |
CN113076744A (zh) * | 2021-04-16 | 2021-07-06 | 重庆中国三峡博物馆 | 一种基于卷积神经网络的文物知识关系抽取方法 |
CN113158667A (zh) * | 2021-04-09 | 2021-07-23 | 杭州电子科技大学 | 基于实体关系级别注意力机制的事件检测方法 |
CN113342929A (zh) * | 2021-05-07 | 2021-09-03 | 上海大学 | 一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法 |
CN113792539A (zh) * | 2021-09-15 | 2021-12-14 | 平安科技(深圳)有限公司 | 基于人工智能的实体关系分类方法、装置、电子设备及介质 |
CN114676701A (zh) * | 2020-12-24 | 2022-06-28 | 腾讯科技(深圳)有限公司 | 文本向量的处理方法、装置、介质以及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106354710A (zh) * | 2016-08-18 | 2017-01-25 | 清华大学 | 一种神经网络关系抽取方法 |
CN106708959A (zh) * | 2016-11-30 | 2017-05-24 | 重庆大学 | 一种基于医学文献数据库的组合药物识别与排序方法 |
CN107578106A (zh) * | 2017-09-18 | 2018-01-12 | 中国科学技术大学 | 一种融合单词语义知识的神经网络自然语言推理方法 |
CN107943998A (zh) * | 2017-12-05 | 2018-04-20 | 竹间智能科技(上海)有限公司 | 一种基于知识图谱的人机对话控制***及方法 |
CN108536754A (zh) * | 2018-03-14 | 2018-09-14 | 四川大学 | 基于blstm和注意力机制的电子病历实体关系抽取方法 |
CN109710932A (zh) * | 2018-12-22 | 2019-05-03 | 北京工业大学 | 一种基于特征融合的医疗实体关系抽取方法 |
CN109783641A (zh) * | 2019-01-08 | 2019-05-21 | 中山大学 | 一种基于双向-gru和改进的注意力机制的实体关系分类方法 |
-
2019
- 2019-06-04 CN CN201910479528.4A patent/CN110196978A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106354710A (zh) * | 2016-08-18 | 2017-01-25 | 清华大学 | 一种神经网络关系抽取方法 |
CN106708959A (zh) * | 2016-11-30 | 2017-05-24 | 重庆大学 | 一种基于医学文献数据库的组合药物识别与排序方法 |
CN107578106A (zh) * | 2017-09-18 | 2018-01-12 | 中国科学技术大学 | 一种融合单词语义知识的神经网络自然语言推理方法 |
CN107943998A (zh) * | 2017-12-05 | 2018-04-20 | 竹间智能科技(上海)有限公司 | 一种基于知识图谱的人机对话控制***及方法 |
CN108536754A (zh) * | 2018-03-14 | 2018-09-14 | 四川大学 | 基于blstm和注意力机制的电子病历实体关系抽取方法 |
CN109710932A (zh) * | 2018-12-22 | 2019-05-03 | 北京工业大学 | 一种基于特征融合的医疗实体关系抽取方法 |
CN109783641A (zh) * | 2019-01-08 | 2019-05-21 | 中山大学 | 一种基于双向-gru和改进的注意力机制的实体关系分类方法 |
Cited By (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110619121A (zh) * | 2019-09-18 | 2019-12-27 | 江南大学 | 基于改进深度残差网络和注意力机制的实体关系抽取方法 |
CN110852107A (zh) * | 2019-11-08 | 2020-02-28 | 北京明略软件***有限公司 | 一种关系提取方法、装置、及存储介质 |
CN110852107B (zh) * | 2019-11-08 | 2023-05-05 | 北京明略软件***有限公司 | 一种关系提取方法、装置、及存储介质 |
CN111090724A (zh) * | 2019-11-21 | 2020-05-01 | 新华智云科技有限公司 | 一种基于深度学习的可评判文本内容与实体相关性的实体抽取方法 |
CN111027321A (zh) * | 2019-11-30 | 2020-04-17 | 南京森林警察学院 | 一种警务相关智能组题*** |
CN111078885B (zh) * | 2019-12-18 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 一种标签分类的方法、相关装置、设备以及存储介质 |
CN111078885A (zh) * | 2019-12-18 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 一种标签分类的方法、相关装置、设备以及存储介质 |
CN111177383A (zh) * | 2019-12-24 | 2020-05-19 | 上海大学 | 一种融合文本语法结构和语义信息的文本实体关系自动分类方法 |
CN111177383B (zh) * | 2019-12-24 | 2024-01-16 | 上海大学 | 一种融合文本语法结构和语义信息的文本实体关系自动分类方法 |
CN111259106A (zh) * | 2019-12-31 | 2020-06-09 | 贵州大学 | 一种结合神经网络和特征演算的关系抽取方法 |
CN111274394A (zh) * | 2020-01-16 | 2020-06-12 | 重庆邮电大学 | 一种实体关系的抽取方法、装置、设备及存储介质 |
CN111428505A (zh) * | 2020-01-17 | 2020-07-17 | 北京理工大学 | 一种融合触发词识别特征的实体关系抽取方法 |
CN111428505B (zh) * | 2020-01-17 | 2021-05-04 | 北京理工大学 | 一种融合触发词识别特征的实体关系抽取方法 |
CN111368552A (zh) * | 2020-02-26 | 2020-07-03 | 北京市公安局 | 一种面向特定领域的网络用户群组划分方法及装置 |
CN111368528A (zh) * | 2020-03-09 | 2020-07-03 | 西南交通大学 | 一种面向医学文本的实体关系联合抽取方法 |
CN111488740A (zh) * | 2020-03-27 | 2020-08-04 | 北京百度网讯科技有限公司 | 一种因果关系的判别方法、装置、电子设备及存储介质 |
CN111488740B (zh) * | 2020-03-27 | 2023-12-22 | 北京百度网讯科技有限公司 | 一种因果关系的判别方法、装置、电子设备及存储介质 |
CN111506725A (zh) * | 2020-04-17 | 2020-08-07 | 北京百度网讯科技有限公司 | 生成摘要的方法和装置 |
CN111581392A (zh) * | 2020-04-28 | 2020-08-25 | 电子科技大学 | 一种基于语句通顺度的自动作文评分计算方法 |
CN111581392B (zh) * | 2020-04-28 | 2022-07-05 | 电子科技大学 | 一种基于语句通顺度的自动作文评分计算方法 |
CN111597341A (zh) * | 2020-05-22 | 2020-08-28 | 北京慧闻科技(集团)有限公司 | 一种文档级关系抽取方法、装置、设备及存储介质 |
CN111597341B (zh) * | 2020-05-22 | 2024-01-26 | 北京慧闻科技(集团)有限公司 | 一种文档级关系抽取方法、装置、设备及存储介质 |
CN111709518A (zh) * | 2020-06-16 | 2020-09-25 | 重庆大学 | 一种基于社区感知和关系注意力的增强网络表示学习的方法 |
CN112052674B (zh) * | 2020-08-06 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 一种实体定义抽取方法、***及存储介质和服务器 |
CN112052674A (zh) * | 2020-08-06 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 一种实体定义抽取方法、***及存储介质和服务器 |
CN113010683A (zh) * | 2020-08-26 | 2021-06-22 | 齐鲁工业大学 | 基于改进图注意力网络的实体关系识别方法及*** |
CN113010683B (zh) * | 2020-08-26 | 2022-11-29 | 齐鲁工业大学 | 基于改进图注意力网络的实体关系识别方法及*** |
CN112131887B (zh) * | 2020-09-22 | 2024-03-08 | 河南合众伟奇云智科技有限公司 | 一种基于语义要素的低资源文本识别算法 |
CN112131887A (zh) * | 2020-09-22 | 2020-12-25 | 河南合众伟奇云智科技有限公司 | 一种基于语义要素的低资源文本识别算法 |
CN112417878A (zh) * | 2020-11-24 | 2021-02-26 | 北京明略昭辉科技有限公司 | 实体关系抽取方法、***、电子设备及存储介质 |
CN114676701A (zh) * | 2020-12-24 | 2022-06-28 | 腾讯科技(深圳)有限公司 | 文本向量的处理方法、装置、介质以及电子设备 |
CN112926332A (zh) * | 2021-03-30 | 2021-06-08 | 善诊(上海)信息技术有限公司 | 一种实体关系联合抽取方法及装置 |
CN113158667A (zh) * | 2021-04-09 | 2021-07-23 | 杭州电子科技大学 | 基于实体关系级别注意力机制的事件检测方法 |
CN113076744A (zh) * | 2021-04-16 | 2021-07-06 | 重庆中国三峡博物馆 | 一种基于卷积神经网络的文物知识关系抽取方法 |
CN113342929A (zh) * | 2021-05-07 | 2021-09-03 | 上海大学 | 一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法 |
CN113792539A (zh) * | 2021-09-15 | 2021-12-14 | 平安科技(深圳)有限公司 | 基于人工智能的实体关系分类方法、装置、电子设备及介质 |
CN113792539B (zh) * | 2021-09-15 | 2024-02-20 | 平安科技(深圳)有限公司 | 基于人工智能的实体关系分类方法、装置、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110196978A (zh) | 一种关注关联词的实体关系抽取方法 | |
Keneshloo et al. | Deep reinforcement learning for sequence-to-sequence models | |
Haidar et al. | Textkd-gan: Text generation using knowledge distillation and generative adversarial networks | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN109062893B (zh) | 一种基于全文注意力机制的商品名称识别方法 | |
CN111046179B (zh) | 一种面向特定领域开放网络问句的文本分类方法 | |
Arshad et al. | Aiding intra-text representations with visual context for multimodal named entity recognition | |
WO2022141878A1 (zh) | 端到端的语言模型预训练方法、***、设备及存储介质 | |
CN110704576B (zh) | 一种基于文本的实体关系抽取方法及装置 | |
CN114565104A (zh) | 语言模型的预训练方法、结果推荐方法及相关装置 | |
CN111222318B (zh) | 基于双通道双向lstm-crf网络的触发词识别方法 | |
Li et al. | UD_BBC: Named entity recognition in social network combined BERT-BiLSTM-CRF with active learning | |
CN114676255A (zh) | 文本处理方法、装置、设备、存储介质及计算机程序产品 | |
US20200342168A1 (en) | System and Method for Domain- and Language-Independent Definition Extraction Using Deep Neural Networks | |
CN114548099B (zh) | 基于多任务框架的方面词和方面类别联合抽取和检测方法 | |
CN106970907A (zh) | 一种语义识别方法 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN117371523A (zh) | 基于人机混合增强的教育知识图谱构建方法与*** | |
Zhang et al. | Chatbot design method using hybrid word vector expression model based on real telemarketing data | |
Su et al. | MICO: A multi-alternative contrastive learning framework for commonsense knowledge representation | |
CN116386895B (zh) | 基于异构图神经网络的流行病舆情实体识别方法与装置 | |
CN116757195A (zh) | 一种基于提示学习的隐性情感识别方法 | |
CN116595189A (zh) | 基于两阶段的零样本关系三元组抽取方法及*** | |
CN116029300A (zh) | 一种强化中文实体语义特征的语言模型训练方法和*** | |
CN113723111B (zh) | 一种小样本意图识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190903 |
|
RJ01 | Rejection of invention patent application after publication |