CN110516239B - 一种基于卷积神经网络的分段池化关系抽取方法 - Google Patents

一种基于卷积神经网络的分段池化关系抽取方法 Download PDF

Info

Publication number
CN110516239B
CN110516239B CN201910788092.7A CN201910788092A CN110516239B CN 110516239 B CN110516239 B CN 110516239B CN 201910788092 A CN201910788092 A CN 201910788092A CN 110516239 B CN110516239 B CN 110516239B
Authority
CN
China
Prior art keywords
entity
neural network
pooling
vector
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910788092.7A
Other languages
English (en)
Other versions
CN110516239A (zh
Inventor
黄瑞章
杨卫哲
王凯
秦永彬
陈艳平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou University
Original Assignee
Guizhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou University filed Critical Guizhou University
Priority to CN201910788092.7A priority Critical patent/CN110516239B/zh
Publication of CN110516239A publication Critical patent/CN110516239A/zh
Application granted granted Critical
Publication of CN110516239B publication Critical patent/CN110516239B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于卷积神经网络的分段池化关系抽取方法,所述方法包括如下步骤:步骤一:基于预训练词向量和随机词向量以及零向量对文本进行向量映射;步骤二:通过神经网络对向量矩阵进行卷积操作提取特征;步骤3:对卷积后的结果分段池化进一步抽象特征;步骤4:全连接、Softmax层预测结果。在充分利用句子文本完整信息的基础上,采用实体分割策略,引入神经网络技术,充分发挥神经网络分层自动提取高维抽象特征的特点,将提取由实体分割的文本各部分池化特征,并且在一定程度上避免传统机器学习方法产生的特征稀疏问题,从而提高关系抽取的性能。

Description

一种基于卷积神经网络的分段池化关系抽取方法
技术领域
本发明涉及一种卷积神经网络,尤其涉及一种基于卷积神经网络的分段池化关系抽取方法,属于自然语言处理技术领域。
背景技术
随着计算机在世界范围内快速普及以及互联网技术的的迅猛发展,使得视频、音频、图片、文本等各种各样的数据激增,大量的信息以电子数字化形式出现在用户面前。为了应对信息***带来的严峻挑战,迫切需要专业的自动化工具从海量的数据中提取真正有价值的信息,信息抽取应运而生。信息抽取技术是自然语言处理领域中应用广泛的信息处理技术,关系抽取是文本信息抽取中的重要组成部分。命名实体指的是文本中表示人名、地名和组织名的专有名词,而关系抽取则是指从标记好实体对的文本中抽取出该文本中实体对之间存在的语义关系。例如在句子“The burst has been caused by water hammerpressure。”中,对于该句子中存在的两个命名实体“burst”和“pressure”,关系抽取***能识别出这两实体之间存在一个Cause-Effect(e2,e1)的关系,其中(e2,e1)指的是在这句话中实体语义关系“因果(Cause-Effect)关系”与实体之间的对应顺序。其第二个实体“pressure”为关系中的“因(Cause)”,第一个实体“burst”为关系中的“果(Effect)”。
信息抽取旨在从大规模非结构或半结构的自然语言文本中抽取结构化信息,主要任务有实体抽取、关系抽取、事件抽取。其中,关系抽取研究的主要内容是从文本内容中挖掘出实体与实体之间的语义关系,作为文本中重要的语义知识载体,关系抽取在信息抽取中扮演重要角色,其作为信息抽取的一个子任务被提出之后,便受到学术界的高度重视,并进行了一系列的广泛研究,其主要目的是对文本中已识别出的实体对判别在该语义中存在的语义关系,进一步地为自动问答、意见挖掘、语义分析等众多自然语言处理任务提供重要的语义支撑。
文本中的命名实体是以连续字符的表现形式存在,在文本中对实体进行识别之后并进行标记然后再利用关系抽取方法对该实体对进行语义关系识别,我们的方法主要可以利用的是通过不同的文字表示方法来消除同一个字在不同的语境中表达的不同含义所带来的歧义问题。因此,文本中实体的标记存在使得原本统一的整体出现了分割,我们可以通过由实体分割后的各部分语义提取其特征然后抽取实体语义关系。由不同的语境中的相同文字往往富含不同的语义信息,为保证原始文本语义的完整性,文本中由实体分割后的各个部分进行分别池化来提取特征是必要的。
从理论层面看,关系抽取的技术研究能为其它自然语言处理技术提供理论支持,是一项值得进行下去的自然语言处理项目。关系抽取在语义角色标注、篇章理解、机器翻译方面具有重要的研究意义。2013年,邵堃等采用模式匹配的方法抽取结构化信息,用动态模式库以提高抽取的准确率,但分词的结构,专业词汇的存在都会影响到识别的效果。目前机器学习方法用于关系抽取的分为有监督方法、半监督方法、无监督方法等。有监督的机器学习方法一般将关系抽取看为一个分类问题,也就是对不同的实体对在不同语句中的关系分类,一般需要提前定义关系的类别。Socher等人在2012年开始使用递归神经网络来解决关系抽取问题,该方法首先对句子进行句法解析,然后为句法树上的每个节点学习向量表示。通过递归神经网络,可以从句法树最低端的词向量开始,按照句子的句法结构迭代合并,最终得到该句子的向量表示,并用于关系分类。该方法能够有效考虑句子的句法结构信息,但是无法考虑两个实体在句子中的位置和语义信息。半监督方法如自举方法减少了训练过程中对标注语料的依赖,降低了人工标注的成本,但存在语义漂移问题。无监督方法则主要使用聚类算法,能够应用于大规模开放性信息领域中,但是难以对关系名称进行准确描述。无监督实体关系抽取方法无需依赖实体关系标注语料,其实现包括关系实例聚类和关系类型词选择两个过程。首先根据实体对出现的上下文将相似度高的实体对聚为一类,然后选择具有代表性的词语来标记这种关系。
发明内容
本发明要解决的技术问题是:提供一种基于卷积神经网络的分段池化关系抽取方法,在充分利用句子文本完整信息的基础上,采用实体分割策略,引入神经网络技术,充分发挥神经网络分层自动提取高维抽象特征的特点,将提取由实体分割的文本各部分池化特征,并且在一定程度上避免传统机器学习方法产生的特征稀疏问题,从而提高关系抽取的性能,有效的解决了上述存在的问题。
本发明的技术方案为:一种基于卷积神经网络的分段池化关系抽取方法,所述方法包括如下步骤:步骤一:基于预训练词向量和随机词向量以及零向量对文本进行向量映射;步骤二:通过神经网络对向量矩阵进行卷积操作提取特征;步骤三:对卷积后的结果分段池化进一步抽象特征;步骤四:全连接、Softmax层预测结果。
所述步骤一中,基于神经网络模型,使用自然语言处理中的词向量特征对文本进行向量映射,识别出实体的位置,并在两个实体的前后共四个位置处填充零向量,便于神经网络卷积操作之后对卷积结果进行分隔,然后在池化层进一步获得五个部分的抽象特征,充分发挥神经网络分层自动抽取特征的特点,有效防止语义信息的损失。
原始语句为S:S=(s1,s2,…,si+1,…,si+k,…,sj+1,…,sj+t,…,sn),其中,si+1,…,si+k和sj+1,…,sj+t表示原始句子中的两个实体,将其用词向量映射为X:X=(x1,x2,…,0,xi+1,…,xi+k,0,…,0,xj+1,…,xj+t,0,…,xn),其中,0就表示在实体边界填充的0向量,用于分隔卷积后的结果。
所述步骤二中,对通过预训练词向量映射之后的向量矩阵X进行卷积操作,卷积结果为C:C=Conv(X),由于步骤一中映射词向量时在实体边界填充了0向量,因此便于此后对卷积结果按照实体将句子分隔为五部分。
所述步骤三中,对卷积后产生的结果进行分段提取特征,其分段的依据是根据实体边界将卷积后的句子进行分隔成五个部分,记为Part-L,Part-E1,Part-M,Part-E2,Part-R,然后再此步骤的池化操作作用于这五部分之上,分别对这五个部分进行池化提取特征的操作,对卷积后的结果进一步抽象特征。由于避免了整体池化造成的特征缺失,该方案对句子中五个部分,包括两个实体的部分进行了分别池化,保证了句子中重要特征的保留和不缺失,进而达到更好的而特征提取,使得整个关系抽取任务性能变好。
步骤四是对整个神经网络中的最终部分,通过其之前的向量化,卷积操作,和该方案的创新点“分段池化”操作以及全连接之后,进行Softmax操作,得出神经网络的输出。
分段池化关系抽取,即将进行关系抽取的句子按照句中两实体分割为五部分:Part-L,Part-E1,Part-M,Part-E2,Part-R,其含义分别为,
Part-L,句子被实体1和实体2切割后的左边部分
Part-E1,实体1
Part-M,句子被实体1和实体2切割后的中间部分
Part-E2,实体2
Part-R,句子被实体1和实体2切割后的右边部分。
本方案在卷积神经网络之后对句子分割后的各部分进行最大池化,能够得到各部分内容的语义信息,进而进行关系抽取,可以达到一个比较好的性能。
本发明的有益效果是:与现有技术相比,采用本发明的技术方案,在充分利用句子文本完整信息的基础上,采用实体分割策略,引入神经网络技术,充分发挥神经网络分层自动提取高维抽象特征的特点,将提取由实体分割的文本各部分池化特征,并且在一定程度上避免传统机器学习方法产生的特征稀疏问题,从而提高关系抽取的性能,将神经网络分层次自动抽取抽象特征的特点和分段最大池化获取各部分语义特征的优点相结合,在关系抽取方面取得了优良的成绩。
附图说明
图1为本发明的抽取技术路线图;
图2为本发明的抽取模型图;
图3为本发明的分段池化方法示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将参照本说明书附图对本发明作进一步的详细描述。
实施例1:如附图1~3所示,一种基于卷积神经网络的分段池化关系抽取方法,所述方法包括如下步骤:步骤一:基于预训练词向量和随机词向量以及零向量对文本进行向量映射;步骤二:通过神经网络对向量矩阵进行卷积操作提取特征;步骤3:对卷积后的结果分段池化进一步抽象特征;步骤4:全连接、Softmax层预测结果。
进一步的,步骤一中,基于神经网络模型,使用自然语言处理中的词向量特征对文本进行向量映射,识别出实体的位置,并在两个实体的前后共四个位置处填充零向量,便于神经网络卷积操作之后对卷积结果进行分隔,然后在池化层进一步获得五个部分的抽象特征,充分发挥神经网络分层自动抽取特征的特点,有效防止语义信息的损失。
原始语句为S:S=(s1,s2,…,si+1,…,si+k,…,sj+1,…,sj+t,…,sn),其中,si+1,…,si+k和sj+1,…,sj+t表示原始句子中的两个实体,将其用词向量映射为X:X=(x1,x2,…,0,xi+1,…,xi+k,0,…,0,xj+1,…,xj+t,0,…,xn),其中,0就表示在实体边界填充的0向量,用于分隔卷积后的结果。
进一步的,步骤二中,对通过预训练词向量映射之后的向量矩阵X进行卷积操作,卷积结果为C:C=Conv(X),由于步骤一中映射词向量时在实体边界填充了0向量,因此便于此后对卷积结果按照实体将句子分隔为五部分。
进一步的,步骤三中,对卷积后产生的结果进行分段提取特征,其分段的依据是根据实体边界将卷积后的句子进行分隔成五个部分,记为Part-L,Part-E1,Part-M,Part-E2,Part-R,然后再此步骤的池化操作作用于这五部分之上,分别对这五个部分进行池化提取特征的操作,对卷积后的结果进一步抽象特征。由于避免了整体池化造成的特征缺失,该方案对句子中五个部分,包括两个实体的部分进行了分别池化,保证了句子中重要特征的保留和不缺失,进而达到更好的而特征提取,使得整个关系抽取任务性能变好。
进一步的,四是对整个神经网络中的最终部分,通过其之前的向量化,卷积操作,和该方案的创新点“分段池化”操作以及全连接之后,进行Softmax操作,得出神经网络的输出。
分段池化关系抽取,即将进行关系抽取的句子按照句中两实体分割为五部分:Part-L,Part-E1,Part-M,Part-E2,Part-R,其含义分别为,
Part-L,句子被实体1和实体2切割后的左边部分
Part-E1,实体1
Part-M,句子被实体1和实体2切割后的中间部分
Part-E2,实体2
Part-R,句子被实体1和实体2切割后的右边部分。
下面结合本实施例对本发明作进一步说明:
实行本发明的方法,首先执行步骤一,使用预训练词向量Google-News对得到的文本句子向量化,注意使用0向量分割句子。然后执行步骤二,对向量化矩阵进行卷积操作。
例如句子"The most common<e1>audits</e1>were about<e2>waste</e2>andrecycling.",由句子中标记好的实体1“audits”和实体2“waste”,便通过查找Google-News预训练词向量将句中所有词汇进行向量化,同时在两个实体的两边填充0向量,以便进行分割。然后执行步骤二,对向量化矩阵进行卷积操作。步骤三是分段池化方法的核心,对卷积后的结果按照0向量分割并分段池化进一步抽象特征;最后使用全连接进行特征融合,通过Softmax层预测结果,便是整个卷积神经网络分段池化关系抽取方法的过程。
综上,本发明提出的基于卷积神经网络的分段池化关系抽取方法具有优良的性能。
本方案在卷积神经网络之后对句子分割后的各部分进行最大池化,能够得到各部分内容的语义信息,进而进行关系抽取,可以达到一个比较好的性能。
本发明未详述之处,均为本技术领域技术人员的公知技术。最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (2)

1.一种基于卷积神经网络的分段池化关系抽取方法,其特征在于,包括如下步骤:
步骤一:基于预训练词向量和随机词向量以及零向量对文本进行向量映射;基于神经网络模型,使用自然语言处理中的词向量特征对文本进行向量映射,识别出实体的位置,并在两个实体的前后共四个位置处填充零向量;
步骤二:通过神经网络对向量矩阵进行卷积操作提取特征;
步骤三:对卷积后的结果分段池化进一步抽象特征;对卷积后产生的结果进行分段提取特征,其分段的依据是根据实体边界将卷积后的句子进行分隔成五个部分,记为Part-L,Part-E1,Part-M,Part-E2,Part-R,其含义分别为:
Part-L,句子被实体1和实体2切割后的左边部分;
Part-E1,实体1;
Part-M,句子被实体1和实体2切割后的中间部分;
Part-E2,实体2;
Part-R,句子被实体1和实体2切割后的右边部分;
然后在此步骤的池化操作作用于这五部分之上,分别对这五个部分进行池化提取特征的操作,对卷积后的结果进一步抽象特征;
步骤四:全连接、Softmax层预测结果。
2.根据权利要求1所述的基于卷积神经网络的分段池化关系抽取方法,其特征在于:所述步骤二中,对通过预训练词向量映射之后的向量矩阵X进行卷积操作,卷积结果为C:C =Conv(X)。
CN201910788092.7A 2019-08-26 2019-08-26 一种基于卷积神经网络的分段池化关系抽取方法 Active CN110516239B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910788092.7A CN110516239B (zh) 2019-08-26 2019-08-26 一种基于卷积神经网络的分段池化关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910788092.7A CN110516239B (zh) 2019-08-26 2019-08-26 一种基于卷积神经网络的分段池化关系抽取方法

Publications (2)

Publication Number Publication Date
CN110516239A CN110516239A (zh) 2019-11-29
CN110516239B true CN110516239B (zh) 2022-12-09

Family

ID=68626794

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910788092.7A Active CN110516239B (zh) 2019-08-26 2019-08-26 一种基于卷积神经网络的分段池化关系抽取方法

Country Status (1)

Country Link
CN (1) CN110516239B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126039B (zh) * 2019-12-25 2022-04-01 贵州大学 一种面向关系抽取的句子结构信息获取方法
CN111062210A (zh) * 2019-12-25 2020-04-24 贵州大学 一种基于神经网络的谓语中心词识别方法
CN111259106A (zh) * 2019-12-31 2020-06-09 贵州大学 一种结合神经网络和特征演算的关系抽取方法
CN111914213B (zh) * 2020-07-31 2023-11-10 中国原子能科学研究院 一种稀疏矩阵向量乘运算时间预测方法及***

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190083629A (ko) * 2019-06-24 2019-07-12 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202044A (zh) * 2016-07-07 2016-12-07 武汉理工大学 一种基于深度神经网络的实体关系抽取方法
CN106570148B (zh) * 2016-10-27 2019-07-23 浙江大学 一种基于卷积神经网络的属性抽取方法
CN106649275A (zh) * 2016-12-28 2017-05-10 成都数联铭品科技有限公司 基于词性信息和卷积神经网络的关系抽取方法
CN107729497B (zh) * 2017-10-20 2020-08-14 同济大学 一种基于知识图谱的词嵌入深度学习方法
CN108681537A (zh) * 2018-05-08 2018-10-19 中国人民解放军国防科技大学 一种基于神经网络及词向量的中文实体链接方法
CN108733792B (zh) * 2018-05-14 2020-12-01 北京大学深圳研究生院 一种实体关系抽取方法
CN108959418A (zh) * 2018-06-06 2018-12-07 中国人民解放军国防科技大学 一种人物关系抽取方法、装置、计算机装置及计算机可读存储介质
CN109783618B (zh) * 2018-12-11 2021-01-19 北京大学 基于注意力机制神经网络的药物实体关系抽取方法及***
CN109815339B (zh) * 2019-01-02 2022-02-08 平安科技(深圳)有限公司 基于TextCNN知识抽取方法、装置、计算机设备及存储介质
CN112487203B (zh) * 2019-01-25 2024-01-16 中译语通科技股份有限公司 一种融入动态词向量的关系抽取***

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190083629A (ko) * 2019-06-24 2019-07-12 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于结构分析和实体识别的信息集成;苏志华等;《计算机研究与发展》;20041016;第41卷(第10期);1823-1828 *

Also Published As

Publication number Publication date
CN110516239A (zh) 2019-11-29

Similar Documents

Publication Publication Date Title
CN110516239B (zh) 一种基于卷积神经网络的分段池化关系抽取方法
CN108121829B (zh) 面向软件缺陷的领域知识图谱自动化构建方法
CN111737496A (zh) 一种电力设备故障知识图谱构建方法
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN110413787B (zh) 文本聚类方法、装置、终端和存储介质
CN111061882A (zh) 一种知识图谱构建方法
CN113505209A (zh) 一种面向汽车领域的智能问答***
CN109062904B (zh) 逻辑谓词提取方法和装置
CN112541337B (zh) 一种基于递归神经网络语言模型的文档模板自动生成方法及***
CN113312922B (zh) 一种改进的篇章级三元组信息抽取方法
CN110188359B (zh) 一种文本实体抽取方法
CN111126039B (zh) 一种面向关系抽取的句子结构信息获取方法
CN112000802A (zh) 基于相似度集成的软件缺陷定位方法
CN111353314A (zh) 一种用于动漫生成的故事文本语义分析方法
CN108763192B (zh) 用于文本处理的实体关系抽取方法及装置
CN114996467A (zh) 基于语义相似度的知识图谱实体属性对齐算法
CN112597285A (zh) 一种基于知识图谱的人机交互方法及***
CN115713072A (zh) 一种基于提示学习和上下文感知的关系类别推断***及方法
CN116244448A (zh) 基于多源数据信息的知识图谱构建方法、设备及***
CN114610846A (zh) 一种启发式仿生知识嫁接策略的知识图谱扩展与补全方法
CN115858750A (zh) 基于自然语言处理的电网技术标准智能问答方法及***
CN113609267B (zh) 基于GCNDT-MacBERT神经网络框架的话语关系识别方法及***
CN111985204A (zh) 一种海关进出口商品税号预测方法
CN112800244A (zh) 一种中医药及民族医药知识图谱的构建方法
CN110705285A (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant