CN113312922B - 一种改进的篇章级三元组信息抽取方法 - Google Patents
一种改进的篇章级三元组信息抽取方法 Download PDFInfo
- Publication number
- CN113312922B CN113312922B CN202110399643.8A CN202110399643A CN113312922B CN 113312922 B CN113312922 B CN 113312922B CN 202110399643 A CN202110399643 A CN 202110399643A CN 113312922 B CN113312922 B CN 113312922B
- Authority
- CN
- China
- Prior art keywords
- entity
- node
- semantic
- verb
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 36
- 238000004458 analytical method Methods 0.000 claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 22
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000013507 mapping Methods 0.000 claims description 25
- 238000006243 chemical reaction Methods 0.000 claims description 17
- 230000008878 coupling Effects 0.000 claims description 17
- 238000010168 coupling process Methods 0.000 claims description 17
- 238000005859 coupling reaction Methods 0.000 claims description 17
- 239000012634 fragment Substances 0.000 claims description 16
- 238000005516 engineering process Methods 0.000 claims description 11
- 238000003058 natural language processing Methods 0.000 claims description 10
- 230000014509 gene expression Effects 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 230000001419 dependent effect Effects 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000029087 digestion Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000011084 recovery Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 3
- 239000003607 modifier Substances 0.000 claims description 2
- 238000004321 preservation Methods 0.000 claims description 2
- 238000005065 mining Methods 0.000 abstract description 5
- 238000013075 data extraction Methods 0.000 abstract 1
- 238000011160 research Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000000407 epitaxy Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种改进的篇章级三元组信息抽取方法,包括:第一步,文本数据预处理;第二步,对文本数据进行篇章级语义分析,包括层次语义分析、实体对齐、依赖动词提取;第三步,采用多轮迭代的方式进行启发式学习,构建事件语义模型;第四步,基于端到端样本的三元组抽取,抽取出基于篇章理解的三元组;第五步,对利用步骤三和步骤四抽取出的三元组知识的一些应用,如智能检索、智能问答、知识挖掘、决策支持等。该方法实现基于小样本建立三元组信息抽取模型,具备篇章级三元组抽取能力,本方法易于推广,具有可拓展性,是大规模文本信息数据抽取、建立知识体系、构建垂直领域知识图谱的重要基础环节。
Description
技术领域
本发明涉及一种改进的篇章级三元组信息抽取方法。
背景技术
自然语言处理的研究从词汇、词典的演技起步,近年来一直把句子作为最核心的研究对象,对篇章的语义分析多事语言学家从理论上进行探索;而篇章级别缺乏形式标记,使得篇章级的语言计算一直没有特别明显的进展。但是,很多语义问题必须在篇章层面上才能够得到根本性的解决,比如共指消解、篇章结构和语义关系识别、事件融合与关系识别等;同时,这些篇章级语义问题的解决对于词汇级和句子级的分析同样具有反哺性的指导意义。另一方面。近年来,中文词汇、句子级自然语言处理技术的发展,特别是词义消歧、句法分析和语义角色标注等研究工作取得的阶段性成果,也为篇章语义分析的研究创造了技术条件。
通常中文句式通常较长,一个句子中经常包括多个实体信息,由此构成的实体对的数量也较多,且实体类型的数量分布不均匀。相对于简单句子的关系探索和关系抽取,长句的句式叫复杂,使得关系探测和关系抽取的任务更加困难;长句中经常包括多个实体信息,而且跨长距离的实体对所在的句子中通常存在多个动词。因此,如何选择能够有效表征实体对之间有无语义关系以及具体关系类型的动词成为关系探索和关系抽取的关键;目前抽取的最大挑战在于训练数据不足,关系实例在各个类别上的分布极不平衡。目前实现实体关系抽取的手段主要有基于模板、基于依存句法分析、基于深度学习等手段。然而,基于模板的实体关系抽取主要存在的问题是准确率、召回率都比较低。基于依存句法的实体关系抽取则面临语义损失的问题。基于深度学习的实体关系抽取在一些领域取得了较好的实验结果,且相互之间没有显著的性能差异,但代价却是需要对预先定义好的关系类别标注大量的训练和测试样例,样例都是相对简单的短句,而且每种关系的样例分布也比较均匀。然而人工精准地标注句子级别的数据代价十分高昂,需要耗费大量的时间和人力。在实际场景中,面向数以千计的关系、数以千万计的实体对、以及数以亿计的句子,依靠人工标注训练数据几乎是不可能完成的任务。同时,在实际情况下,实体间关系和实体对的出现频率往往服从长尾分布,存在大量的样例较少的关系或实体对。神经网络模型的效果需要依赖大规模标注数据来保证,存在“举十反一”的问题。如何提高深度模型的学习能力,实现“举一反三”,是关系抽取需要解决的问题。此外,现有模型主要从单个句子中抽取实体间关系,要求句子必须同时包含两个实体。实际上,大量的实体间关系往往表现在一篇文档的多个句子中,甚至在多个文档中。如何在更复杂的语境下进行关系抽取,也是关系抽取面临的问题。现有任务设定一般假设有预先定义好的封闭关系集合,将任务转换为关系分类问题。这样的话,文本中蕴含的实体间的新型关系无法被有效获取。上述手段在对相对简单的短句,而且每种关系的样例分布也比较均匀的测试集上,达到了一定的效果,但是在实际应用中,特别是在针对篇章级文本的三元组信息抽取中,还存在诸多问题,例如数据规模、学习能力、复杂语境、开放关系等问题。如果能够建立既具有理论深度,又具有现实可行性的篇章语义分析的理论和方法体系,对于自然语言处理学术和应用的发展都将具有重要意义。
处于信息时代,如何从海量文本数据、相关报告中挖掘建立全面准确的知识体系、构建垂直领域知识图谱、以及后续的智能搜索智能问答知识挖掘决策支持等后续应用成为技术难题,篇章级三元组信息抽取方法是一种有效手段,为使从篇章中抽取出的知识信息能够在工业界进行大规模的应用,需要有一套能够基于少量标注样本准抽取高质量的实体关联关系的方法。
发明内容
发明目的:为从海量文本数据、相关报告年报中挖掘建立全面准确的知识体系和知识图谱提供一种篇章级三元组信息抽取的方法,利用自然语言处理技术和机器学习算法,实现基于有限样本情况下的高质量实体关联关系抽取,构建垂直领域知识图谱,有力支撑领域知识体系建立,辅助实现信息关系挖掘与研判。
为了解决上述技术问题,本发明提出了一种改进的篇章级三元组信息抽取方法,包括如下步骤:
步骤1、对文本数据预处理;
步骤2、对文本数据进行篇章级语义分析;
步骤3、采用多轮迭代的方式进行启发式学习,构建事件语义模型;
步骤4、基于端到端样本的三元组抽取。
步骤1包括如下步骤:
步骤1-1、文本数据格式转换,采用现有的自然语言处理技术,将获取到的文本数据格式转化为可直接进行自然语言处理的,如从pdf、doc中提取文本;
步骤1-2、利用自然语言处理技术对格式转换后的文本数据进行预处理清洗;
步骤1-3、文本数据章节结构处理:将一篇长文档以段落、句号拆分为文本块;
步骤1-4、文本数据句块分拆,将文本块进一步分拆为标点符号间隔的物理句块。
步骤1-2包括:对格式转换后的文本数据依次执行如下处理:全角与半角的转化、大写数字转化为小写数字、大写字母转化为小写字母、去除表情符号、去除文本中所有的字符并只保留中文、中文文本分词、繁体简体中文转化、中文文本停用词过滤。
步骤1-4包括:
步骤1-4-1、对于文本块中的括号,如果括号中的内容与其左侧相邻成分是语义关系紧密(在同一个语义片段的语义成分关系紧密,不同语义片段的语义成分关系不紧密。比如:片段1中的主体和客体关系紧密,片段1中的主体和片段2中的客体关系不紧密),则将括号中的内容与左侧括号相邻的文本成分合并为一个语义成分,否则将括号不处理;
步骤1-4-2、对于句块中的引号,如果引号体属于一个命名实体的一部分(命名实体指文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。可以建立一个命名实体库),则将引号体与所述命名实体合并,否则不予处理;
步骤1-4-3、对于句块中的其他符号,如果所述符号是命名实体的一部分,则将句块中的其他符号(如外国人名中的间隔号·,一些著作书籍等会添加书名号《》)与相关上下文合并为一个语义实体,否则将句块中的其他符号作为划分物理句块的标志。
步骤2包括如下步骤:
步骤2-1、利用已知的语言学的语法句法知识,对篇章中的连续文本进行语义分析,为每个连续的文本块分别生成由解析树构成的列表;
步骤2-2、结合文本数据的信息结构、担任特定角色的术语的类别、文本数据的类别,将复杂的语义分解为层次语义结构;
步骤2-3、进行实体对齐;
步骤2-4、实体对最近句法依赖动词提取。
步骤2-2中,所述层次语义结构中每个层次包含N个关于事实或概念的语义块,N取值为自然数;按照后序遍历的顺序,优先对嵌套层的语义块执行查询操作(嵌套层是前述语义块中具有嵌套语义的语义块,经过步骤2-2,将复杂语义分解为层次语义结构,可能会嵌套多个语义),确定嵌套层外延,对嵌套层处理结束后,对其余事实或概念的语义块执行查询操作,确定每个语义块的外延。
步骤2-3包括:
根据实体名称判断事先建立的实体库中是否有同名实体,如果没有,则生成新实体对,添加到实体库中,否则获取到所有同名的实体对,计算目标实体对与获取到各个实体对之间的相似度,根据类别标签、属性标签、非结构化文本关键词分别相似度,对计算得到的结果综合打分候选排序,如果得分小于阈值(这里无法对阈值大小进行量化,需要根据具体情况适时进行调整),则将目标实体添加到实体库中,否则选择得分最高的结果最为目标实体的对齐结果。实体对齐是判断两个或者多个不同信息来源的实体是否为指向真实世界中同一个对象。如果多个实体表征同一个对象,则在这些实体之间构建对齐关系,同时对实体包含的信息进行融合和聚集。目标实体就是从文本中抽取出来的实体,这里的目的是判断文本中的实体与实体库中的实体是否有共指关系。
步骤2-4包括:
步骤2-4-1、设定两个不同的实体分别为ei和ej,采用如下方法分别提取与ei和ej存在并列结构或定中结构的关系的依存关联节点e′i和e′j:设置当前节点为e的父节点,如果父节点的依存关系为并列结构或定中结构关系,继续对所有节点进行遍历,如果满足父节点的依存关系为并列结构或定中结构关系的条件,则继续遍历,否则返回父节点;
步骤2-4-2、采用如下方法提取与第2个实体ej的依存关联节点e′j发生依存关系距离最近的动词Vj:初始化返回值为空值null,设置当前节点为e的父节点;当前节点不为根节点时执行判断:如果为动词节点,则所述动词节点为与实体e依存关系距离最近的动词,结束循环,返回所述动词节点即为要寻找的依存关系距离最近的动词,否则设置当前节点的父节点为当前节点,继续进行上述判断;
步骤2-4-3、采用如下方法获取与第1个实体ei的依存关联节点e′i发生主谓关系或前置宾语关系的距离最近的动词Vi:初始化返回值为空值null,设置当前节点为e的父节点;当前节点不为根节点时执行判断:如果为动词节点,同时所述动词节点与实体具有主谓关系或前置宾语关系,则所述动词节点为与实体e依存关系距离最近的动词,结束循环,返回所述动词节点即为要寻找的依存关系距离最近的动词,否则设置当前节点的父节点为当前节点,继续进行上述判断;
步骤2-4-4、通过判断动词Vi与Vj是否为同一个动词或为并列结构关系,确定该实体对<eiej>的最近依赖动词DV,由此确定一个三元组。
步骤3包括如下步骤:
步骤3-1、对文本数据进行层次语义分析,根据层次语义结构生成映射知识、识别知识和关联知识;
步骤3-2、根据训练语料产生的解析树和参数映射生成抽取知识,具体包括:步骤3-2-1、为每一个有参数映射的语义层次单独构建映射规则;映射规则是指从特定语义层次到目标结构片段的规则;
步骤3-2-2、如果在同一个解析树中存在处于不同层次的参数映射,则根据嵌套点构建包含所述层次的识别规则(优先利用目标结构构造识别规则,当无法利用目标结构时,改为利用语义结构);嵌套点指的是文本的一句话包含有多个语义短语;这里的识别规则是指对于同一个目标结构存在于不同的解析树,有成分缺省、成分指代的解析树可以对照完整的解析树来进行成分的补全;
步骤3-2-3、如果在不同的解析树中存在关于同一个目标结构的参数映射,则根据关联点构建跨句块的识别规则;关联点是指在不同的句块之间,由于缺省、指代关系形成的连接点,即指代中的先行语和照应语,缺省中的先行语和缺省语;
步骤3-2-4、如果端样本中出现了两个以上句块,且所述句块都包含有参数映射,而端样本中又没有提供关于所述句块的关联标注信息,则应主动提示用户补充相应的关联标注;
步骤3-2-5、如果一个层次的被修饰语修饰、限制的中心成分被抽取,而所述层次中其他成分没有发生抽取,则对该层次不予处理。
步骤4包括如下步骤:
步骤4-1、根据输入文本的层次语义结构得到原生一阶逻辑式;
步骤4-2、利用一阶逻辑式(一阶逻辑式是由文本语义分析而来,可以是规则,也可以是事实)进行关联推理,利用上下文之间的缺省、指代、合一关系实现一阶逻辑式的变量合一,得到经过缺省恢复、指代消解、实体合一后的合一化一阶逻辑式;
步骤4-3、利用合一化一阶逻辑式进行映射推理,每个独立的一阶逻辑式都可能产生原生目标结构片段;
步骤4-4、利用合一化一阶逻辑式或原生目标结构片段进行识别推理,得到耦合目标结构片段;
步骤4-5、如果位置相邻或重叠的两个耦合目标结构片段的谓词相同,但文本短语中谓词对应的主体客体完全不同,或相同的参数的值也相同,则将位置相邻或重叠的两个耦合目标结构片段直接合并为一个更大的目标结构作为最终输出;否则执行步骤4-6;
步骤4-6、将位置相邻或重叠的两个耦合目标结构片段视为同一个谓词的不同的目标结构实例,都作为最终输出;
步骤4-7、重复步骤4-5、步骤4-6,直到不再产生新的、更大的耦合目标片段,就得到了所有的目标结构实例,所述目标结构实例就是最终输出。
本发明还包括步骤5、对利用步骤3和步骤4抽取出的三元组知识的一些应用,如智能检索、智能问答、知识挖掘、决策支持等。
本发明与现有技术相比,显著优点是:
(1)本方法采用基于语义模式的层次语义分析技术,并利用层次语义分析技术实现针对端到端样本的启发式学习,可以达到举一反三的学习效果,在篇章级理解的基础上实现三元组信息抽取,确保三元组信息抽取结果完整、可用;
(2)通过启发式学习实现小样本训练。因为事件语义模型中所用到的知识都是基于语义模式的,而语义模式在自然语言表达中是高度复用的,一个端样本就可以贡献高度可复用的抽取知识,因此不需要巨量的样本就可以完成训练,从而有效解决有效样本缺乏的问题。
(3)本方法基于篇章级语义分析,具有可拓展性,不仅可以进行二元关系抽取(三元组抽取),也可以进行多元关系抽取;
(4)本方法具有较高的准确率和召回率,是形成垂直领域高质量的知识图谱、实现领域知识的智能化分析的有效手段。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明的流程框图。
图2是本发明的文本数据预处理流程图。
图3是本发明的实体对齐流程图。
图4是本发明的层次语义结构示例图。
具体实施方式
针对目前三元组抽取存在抽取信息不准不全、训练样本规模大、成本高等三元组信息抽取领域等共性问题,本方法采用基于语义模式的层次语义分析技术,建立事件语义模型,对文本中蕴含的实体关系、信息结构进行有力捕获,采用启发式学习减少所需的样本数量,实现篇章级三元组信息抽取,能够有效解决或改善数据规模、学习能力、复杂语境、开放关系等问题,能够形成高质量的垂直领域知识图谱。本发明提出了一种改进的篇章级三元组信息抽取方法,如图1所示,包括:
步骤1、文本数据预处理;
步骤1-1、文本数据格式转换,从pdf、docx等格式的文档中提取出有效文本内容;
步骤1-2、利用自然语言处理技术对格式转换后的文本数据进行预处理清洗。转换后的文本数据可能包含广告、无实际意义的特殊字符等无用的信息,采用自然语言处理技术进行文本数据预处理,预处理包含:全角与半角的转化、大写数字转化为小写数字、大写字母转化为小写字母、去除表情符号、去除文本中所有的字符(只保留中文)、中文文本分词、繁体简体中文转化、中文文本停用词过滤等,预处理流程图见图2;
步骤1-3、文本数据章节结构处理,将一篇较长的文档拆分为若干个文本块(知识点);
步骤1-4、文本数据句块分拆,将文本块进一步分拆为标点符号间隔的物理句块,具体包括:
步骤1-4-1、对于句块中的括号,如果括号体中的内容与其左侧相邻成分是紧耦合关系,则将两者合并为一个语义成分,否则将括号体另作处理;
步骤1-4-2、对于句块中的引号,如果引号体属于某个命名实体的一部分,则将引号体与该命名实体合并,否则不予处理;
步骤1-4-3、对于句块中的其他符号,如果该符号是命名实体的一部分,则将该标点符号与相关上下文合并为一个语义实体,否则将该标点符号作为划分物理句块的标志;
步骤2、对文本数据进行篇章级语义分析;
步骤2-1、利用已知的语言知识,对篇章中的连续文本进行语义分析,为每个连续的文本块分别生成由解析树构成的列表;
步骤2-2、结合文本数据的信息结构、担任特定角色的术语的类别、文本数据的类别,将复杂的语义分解为层次语义结构,如下步骤2-3、步骤2-4,层次语义结构示例如图4所示(添加下述内容:图中的文本“爱迪生发明了将黑夜照亮的白炽灯”,实际上是由两个基本表达“爱迪生发明了白炽灯”和“白炽灯将黑夜照亮”嵌套而成。具体来说,基本表达1“fact|爱迪生,发明了,将黑夜照亮的白炽灯”构成第一层语义,其中“爱迪生”是施事,“白炽灯”是受事。而“将黑夜照亮的白炽灯”则构成关于“白炽灯”的嵌套子层,也可以说“将黑夜照亮的白炽灯”是一个以“白炽灯”为中心词的短语。故“白炽灯”则作为嵌套点将两层语义耦合起来。);
步骤2-3、得到如前所述的层次语义结构,每个层次包含若干个关于事实或概念的语义块;
步骤2-4、按照后序遍历的顺序,优先对嵌套层的语义块执行查询等操作,确定其外延,以此类推;
步骤2-5、如图3所示,进行实体对齐,首先根据实体名称判断实体库中是否有同名实体,若无则生成新实体对,添加到实体库中,否则获取到所有同名的实体对,计算目标实体对与获取到各个实体对之间的相似度,根据类别标签、属性标签、非结构化文本关键词分别相似度,对计算得到的结果综合打分候选排序,若得分小于阈值,则将目标实体添加到实体库中,否则选择得分最高的结果最为目标实体的对齐结果;
步骤2-6、实体对最近句法依赖动词提取,具体步骤如步骤2-7、步骤2-8、步骤2-9、步骤2-10;
步骤2-7、分别提取与实体ei和ej存在并列结构或定中结构的关系的依存关联节点e′i和e′j,如算法2-1;
步骤2-8、提取与第2个实体ej的依存关联节点e′j发生依存关系距离最近的动词Vj,如算法2-2;
步骤2-9、获取与第1个实体ei的依存关联节点e′i发生主谓关系或前置宾语关系的距离最近的动词Vi,如算法2-3;
步骤2-10、通过判断动词Vi与Vj是否为同一个动词或为并列结构关系,确定该实体对<eiej>的最近依赖动词DV,由此即可确定一个三元组;
算法2-1、提取实体的依存关联节点
算法2-2、提取与第2个实体发生依存关系距离最近的动词
算法2-3、提取与第1个实体发生主谓关系或前置宾语关系距离最近的动词
步骤3、采用多轮迭代的方式进行启发式学习,构建事件语义模型;
步骤3-1、对文本数据进行层次语义分析,根据层次语义结构生成映射知识、识别知识和关联知识;
步骤3-2、根据端样本产生的解析树和参数映射生成抽取知识,具体包括:
步骤3-2-1、为每一个有参数映射的语义层次单独构建映射规则;
步骤3-2-2、如果在同一个解析树中存在处于不同层次的参数映射,则需根据嵌套点构建包含这些层次的识别规则;
步骤3-2-3、如果在不同的解析树中存在关于同一个目标结构的参数映射,则将尝试根据关联点构建跨句块的识别规则;
步骤3-2-4、如果端样本中出现了多个句块(即相应地存在多个解析树),且这些句块都包含有参数映射,而端样本中又没有提供关于这些句块的关联标注信息,则应主动提示用户补充相应的关联标注;
步骤3-2-5、如果某个层次的中心词被抽取,而这个层次中其他成分没有发生抽取,则该层次可被忽略;
步骤4、基于端样本的三元组抽取;
步骤4-1、根据输入文本的层次语义结构得到原生一阶逻辑式;
步骤4-2、利用一阶逻辑式进行关联推理,利用上下文之间的缺省、指代、合一关系实现一阶逻辑式的变量合一。得到经过缺省恢复、指代消解、实体合一后的合一化一阶逻辑式;
步骤4-3、利用合一化一阶逻辑式进行映射推理,每个独立的一阶逻辑式都可能产生若干个原生目标结构片段;
步骤4-4、利用合一化一阶逻辑式或目标结构片段进行识别推理,得到若干个耦合目标结构片段;
步骤4-5、如果位置相邻或重叠的两个耦合目标结构片段的谓词相同,但参数完全不同,或相同的参数的值也相同,则可将两者直接合并为一个更大的目标结构作为最终输出。否则执行步骤4-6;
步骤4-6、将两者视为同一个谓词的不同的目标结构实例,都作为最终输出;
步骤4-7、重复步骤4-5、步骤4-6,直到不再产生新的、更大的耦合目标片段,就得到了所有的目标结构实例,这些目标结构实例就是最终输出。
步骤5、对利用步骤三和步骤四抽取出的三元组知识的一些应用:如智能搜索,百度搜索现任美国总统,显示的结果主要是某总统A,还有关于某总统B的,说明检索技术还需进一步完善;智能问答,可以看做是语义搜索的延伸,应用如聊天机器人,不仅提供情景对话,也能够提供各行各业的知识,它依赖的知识图谱是开放领域的知识图谱,提供的知识非常宽泛,能够为用户提供日常知识,也能进行聊天式的对话;个性化推荐***通过收集用户的兴趣偏好、属性,产品的分类、属性、内容等,分析用户之间的社会关系,用户和产品的关联关系,利用个性化算法,推断出用户的喜好和需求,从而为用户推荐感兴趣的产品或者内容;辅助决策,就是利用知识图谱的知识,对知识进行分析处理,通过一定规则的逻辑推理,得出对于某种结论,为用户决断提供支持。
本发明提供了一种改进的篇章级三元组信息抽取方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (2)
1.一种改进的篇章级三元组信息抽取方法,其特征在于,包括如下步骤:
步骤1、对文本数据预处理;
步骤2、对文本数据进行篇章级语义分析;
步骤3、采用多轮迭代的方式进行启发式学习,构建事件语义模型;
步骤4、基于端到端样本的三元组抽取;
步骤1包括如下步骤:
步骤1-1、文本数据格式转换;
步骤1-2、利用自然语言处理技术对格式转换后的文本数据进行预处理清洗;
步骤1-3、文本数据章节结构处理:将一篇长文档拆分为文本块;
步骤1-4、文本数据句块分拆,将文本块进一步分拆为标点符号间隔的物理句块;
步骤1-4包括:
步骤1-4-1、对于文本块中的括号,如果括号中的内容与其左侧相邻成分是语义关系紧密,则将括号中的内容与左侧括号相邻的文本成分合并为一个语义成分,否则将括号不处理;
步骤1-4-2、对于句块中的引号,如果引号体属于一个命名实体的一部分,则将引号体与所述命名实体合并,否则不予处理;
步骤1-4-3、对于句块中的其他符号,如果所述符号是命名实体的一部分,则将句块中的其他符号与相关上下文合并为一个语义实体,否则将句块中的其他符号作为划分物理句块的标志;
步骤2包括如下步骤:
步骤2-1、利用已知的语言学的语法句法知识,对篇章中的连续文本进行语义分析,为每个连续的文本块分别生成由解析树构成的列表;
步骤2-2、结合文本数据的信息结构、担任特定角色的术语的类别、文本数据的类别,将复杂的语义分解为层次语义结构;
步骤2-3、进行实体对齐;
步骤2-4、实体对最近句法依赖动词提取;
步骤2-2中,所述层次语义结构中每个层次包含N个关于事实或概念的语义块,N取值为自然数;按照后序遍历的顺序,优先对嵌套层的语义块执行查询操作,确定嵌套层外延,对嵌套层处理结束后,对其余事实或概念的语义块执行查询操作,确定每个语义块的外延;
步骤2-3包括:
根据实体名称判断事先建立的实体库中是否有同名实体,如果没有,则生成新实体对,添加到实体库中,否则获取到所有同名的实体对,计算目标实体对与获取到各个实体对之间的相似度,根据类别标签、属性标签、非结构化文本关键词分别相似度,对计算得到的结果综合打分候选排序,如果得分小于阈值,则将目标实体添加到实体库中,否则选择得分最高的结果最为目标实体的对齐结果;
步骤2-4包括:
步骤2-4-1、设定两个不同的实体分别为ei和ej,采用如下方法分别提取与ei和ej存在并列结构或定中结构的关系的依存关联节点ei′和ej′:设置当前节点为e的父节点,如果父节点的依存关系为并列结构或定中结构关系,继续对所有节点进行遍历,如果满足父节点的依存关系为并列结构或定中结构关系的条件,则继续遍历,否则返回父节点;
步骤2-4-2、采用如下方法提取与第2个实体ej的依存关联节点ej′发生依存关系距离最近的动词Vj:初始化返回值为空值null,设置当前节点为e的父节点;当前节点不为根节点时执行判断:如果为动词节点,则所述动词节点为与实体e依存关系距离最近的动词,结束循环,返回所述动词节点即为要寻找的依存关系距离最近的动词,否则设置当前节点的父节点为当前节点,继续进行上述判断;
步骤2-4-3、采用如下方法获取与第1个实体ei的依存关联节点ei′发生主谓关系或前置宾语关系的距离最近的动词Vi:初始化返回值为空值null,设置当前节点为e的父节点;当前节点不为根节点时执行判断:如果为动词节点,同时所述动词节点与实体具有主谓关系或前置宾语关系,则所述动词节点为与实体e依存关系距离最近的动词,结束循环,返回所述动词节点即为要寻找的依存关系距离最近的动词,否则设置当前节点的父节点为当前节点,继续进行上述判断;
步骤2-4-4、通过判断动词Vi与Vj是否为同一个动词或为并列结构关系,确定该实体对<eiej>的最近依赖动词DV,由此确定一个三元组;
步骤3包括如下步骤:
步骤3-1、对文本数据进行层次语义分析,根据层次语义结构生成映射知识、识别知识和关联知识;
步骤3-2、根据训练语料产生的解析树和参数映射生成抽取知识,具体包括:
步骤3-2-1、为每一个有参数映射的语义层次单独构建映射规则;
步骤3-2-2、如果在同一个解析树中存在处于不同层次的参数映射,则根据嵌套点构建包含所述层次的识别规则;
步骤3-2-3、如果在不同的解析树中存在关于同一个目标结构的参数映射,则根据关联点构建跨句块的识别规则;
步骤3-2-4、如果端样本中出现了两个以上句块,且所述句块都包含有参数映射,而端样本中又没有提供关于所述句块的关联标注信息,则应主动提示用户补充相应的关联标注;
步骤3-2-5、如果一个层次的被修饰语修饰、限制的中心成分被抽取,而所述层次中其他成分没有发生抽取,则对该层次不予处理;
步骤4包括如下步骤:
步骤4-1、根据输入文本的层次语义结构得到原生一阶逻辑式;
步骤4-2、利用一阶逻辑式进行关联推理,利用上下文之间的缺省、指代、合一关系实现一阶逻辑式的变量合一,得到经过缺省恢复、指代消解、实体合一后的合一化一阶逻辑式;
步骤4-3、利用合一化一阶逻辑式进行映射推理,每个独立的一阶逻辑式都可能产生原生目标结构片段;
步骤4-4、利用合一化一阶逻辑式或原生目标结构片段进行识别推理,得到耦合目标结构片段;
步骤4-5、如果位置相邻或重叠的两个耦合目标结构片段的谓词相同,但文本短语中谓词对应的主体客体完全不同,或相同的参数的值也相同,则将位置相邻或重叠的两个耦合目标结构片段直接合并为一个更大的目标结构作为最终输出;否则执行步骤4-6;
步骤4-6、将位置相邻或重叠的两个耦合目标结构片段视为同一个谓词的不同的目标结构实例,都作为最终输出;
步骤4-7、重复步骤4-5、步骤4-6,直到不再产生新的、更大的耦合目标片段,就得到了所有的目标结构实例,所述目标结构实例就是最终输出。
2.根据权利要求1所述的方法,其特征在于,步骤1-2包括:对格式转换后的文本数据依次执行如下处理:全角与半角的转化、大写数字转化为小写数字、大写字母转化为小写字母、去除表情符号、去除文本中所有的字符并只保留中文、中文文本分词、繁体简体中文转化、中文文本停用词过滤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110399643.8A CN113312922B (zh) | 2021-04-14 | 2021-04-14 | 一种改进的篇章级三元组信息抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110399643.8A CN113312922B (zh) | 2021-04-14 | 2021-04-14 | 一种改进的篇章级三元组信息抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113312922A CN113312922A (zh) | 2021-08-27 |
CN113312922B true CN113312922B (zh) | 2023-10-24 |
Family
ID=77372136
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110399643.8A Active CN113312922B (zh) | 2021-04-14 | 2021-04-14 | 一种改进的篇章级三元组信息抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113312922B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114707520B (zh) * | 2022-06-06 | 2022-09-13 | 天津大学 | 一种面向会话的语义依存分析方法及装置 |
CN115081437B (zh) * | 2022-07-20 | 2022-12-09 | 中国电子科技集团公司第三十研究所 | 基于语言学特征对比学习的机器生成文本检测方法及*** |
CN117094396B (zh) * | 2023-10-19 | 2024-01-23 | 北京英视睿达科技股份有限公司 | 知识抽取方法、装置、计算机设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015080561A1 (en) * | 2013-11-27 | 2015-06-04 | Mimos Berhad | A method and system for automated relation discovery from texts |
CN109446338A (zh) * | 2018-09-20 | 2019-03-08 | 大连交通大学 | 基于神经网络的药物疾病关系分类方法 |
CA3060811A1 (en) * | 2018-10-31 | 2020-04-30 | Royal Bank Of Canada | System and method for cross-domain transferable neural coherence model |
CN111274790A (zh) * | 2020-02-13 | 2020-06-12 | 东南大学 | 基于句法依存图的篇章级事件嵌入方法及装置 |
CN111597351A (zh) * | 2020-05-14 | 2020-08-28 | 上海德拓信息技术股份有限公司 | 可视化文档图谱构建方法 |
-
2021
- 2021-04-14 CN CN202110399643.8A patent/CN113312922B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015080561A1 (en) * | 2013-11-27 | 2015-06-04 | Mimos Berhad | A method and system for automated relation discovery from texts |
CN109446338A (zh) * | 2018-09-20 | 2019-03-08 | 大连交通大学 | 基于神经网络的药物疾病关系分类方法 |
CA3060811A1 (en) * | 2018-10-31 | 2020-04-30 | Royal Bank Of Canada | System and method for cross-domain transferable neural coherence model |
CN111274790A (zh) * | 2020-02-13 | 2020-06-12 | 东南大学 | 基于句法依存图的篇章级事件嵌入方法及装置 |
CN111597351A (zh) * | 2020-05-14 | 2020-08-28 | 上海德拓信息技术股份有限公司 | 可视化文档图谱构建方法 |
Non-Patent Citations (2)
Title |
---|
篇章级事件表示及相关性计算;刘一仝;《中国优秀硕士学位论文全文数据库 信息科技辑》(第02期);I138-2371 * |
融合对抗训练的端到端知识三元组联合抽取;黄培馨等;《计算机研究与发展》;第56卷(第12期);第2536-2548页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113312922A (zh) | 2021-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
CN109684448B (zh) | 一种智能问答方法 | |
CN111723215B (zh) | 基于文本挖掘的生物技术信息知识图谱构建装置与方法 | |
CN108573411B (zh) | 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法 | |
CN110110054B (zh) | 一种基于深度学习的从非结构化文本中获取问答对的方法 | |
CN109271529B (zh) | 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法 | |
CN108121829B (zh) | 面向软件缺陷的领域知识图谱自动化构建方法 | |
CN113312922B (zh) | 一种改进的篇章级三元组信息抽取方法 | |
CN105095204B (zh) | 同义词的获取方法及装置 | |
CN110502642B (zh) | 一种基于依存句法分析与规则的实体关系抽取方法 | |
CN112100322B (zh) | 一种基于知识图谱的api元素比较结果自动生成方法 | |
CN110609983B (zh) | 一种政策文件结构化分解方法 | |
CN114254653A (zh) | 一种科技项目文本语义抽取与表示分析方法 | |
CN111061882A (zh) | 一种知识图谱构建方法 | |
CN112926345A (zh) | 基于数据增强训练的多特征融合神经机器翻译检错方法 | |
CN112733547A (zh) | 一种利用语义依存分析的中文问句语义理解方法 | |
Bounhas et al. | A hybrid possibilistic approach for Arabic full morphological disambiguation | |
JPH0816620A (ja) | データ分類装置/方法、データ分類木生成装置/方法、派生語抽出装置/方法、シソーラス構築装置/方法、データ処理システム | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN115017335A (zh) | 知识图谱构建方法和*** | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及*** | |
Wang | A cross-domain natural language interface to databases using adversarial text method | |
CN110750632B (zh) | 一种改进的中文alice智能问答方法及*** | |
CN114997398B (zh) | 一种基于关系抽取的知识库融合方法 | |
CN115759037A (zh) | 建筑施工方案智能审核框架及审核方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |