CN115600605A - 一种中文实体关系联合抽取方法、***、设备及存储介质 - Google Patents
一种中文实体关系联合抽取方法、***、设备及存储介质 Download PDFInfo
- Publication number
- CN115600605A CN115600605A CN202211350139.XA CN202211350139A CN115600605A CN 115600605 A CN115600605 A CN 115600605A CN 202211350139 A CN202211350139 A CN 202211350139A CN 115600605 A CN115600605 A CN 115600605A
- Authority
- CN
- China
- Prior art keywords
- entity
- representation
- information
- span
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种中文实体关系联合抽取方法、***、设备及存储介质,方法包括获取旅游网站数据信息并进行预处理,得到数据集;对数据集中的各文本进行文本嵌入表示与实体跨度表示;进行实体识别并建立实体类型矩阵;抽取语法信息;根据实体跨度表示和具有语法信息的实体跨度表示融合获取新的实体跨度表示,将实体跨度表示对中间的非实体部分做池化等操作以获取局部文本信息表示,将新的实体跨度表示、实体类型矩阵、实体宽度表示和局部文本信息表示拼接输入关系分类器,得到关系分类结果。通过实体类型信息和对应输入文本的语法信息对实体信息补充,从而建立针对中文旅游文本数据的实体关系抽取方法,提高实体关系抽取的准确性。
Description
技术领域
本发明属于自然语言处理技术领域,涉及一种中文实体关系联合抽取方法、***、设备及存储介质。
背景技术
大数据时代的到来,人们日常生活中会产生海量的数据,比如新闻报道、博客、论坛、研究文献以及社交媒体评论等,数据的领域交叉现象突出,有价值的信息往往隐藏在大量数据中。信息抽取(Information Extraction,IE)的目的在于快速高效地从大量数据中抽取有价值的信息。实体关系联合抽取作为信息抽取的核心任务,于近年来受到学术界和工业界的广泛关注,实体关系联合抽取通过对文本信息建模,实现自动识别实体、实体类型以及实体之间特定的关系类型,为知识图谱构建、智能问答和语义搜索等下游任务提供基础支持。
根据对人工标注数据的依赖程度,主流的实体关系抽取方法主要分为三种:有监督学习方法、半监督学习方法和无监督学习方法。
无监督的实体关系抽取方法虽然不需要任何标注的数据,极大降低了人工成本,但是聚类出来的关系类别边界不够清晰,模型整体准确率偏低,并且低频关系实例使得模型的召回率较低。
基于半监督学习的实体关系抽取方法可以在一定程度上缓解模型对标注数据的依赖性。目前基于半监督学习方法的实体关系抽取任务中应用最广泛的就是Bootstrapping算法但是该方法存在语义飘逸等问题,还容易受到初始种子的质量影响。
基于有监督的实体关系抽取研究中,首先要获得大量人工标注的数据,然后在此基础上训练模型,并将模型运用在不同的领域中,优点是模型准确率较高,缺点是需要大量的人工进行标注数据。
随着神经网络的发展,大量的研究人员开始使用基于神经网络的方法。神经网络具有优秀的特征学习能力,基于神经网络的实体关系抽取可以从模型结构上分为:管道模型和联合模型。目前针对英文语料的实体关系抽取的研究工作较多,中英文语言特性的差异,使得中文的实体关系抽取模型不能直接沿用在英文领域上的研究模型。所以中文的相关研究还存在很大的研究空间,加之当下旅游领域中,旅游推荐是一个热点问题,研究相关领域的实体关系抽取对解决旅游推荐问题具有重大意义。
发明内容
本发明的目的在于解决现有技术中对于语料的实体关系抽取主要是针对英文语料,由于中英文语言特性的差异,没有建立相应的针对旅游领域的中文语料实体关系抽取模型的问题,提供一种中文实体关系联合抽取方法、***、设备及存储介质。
为达到上述目的,本发明采用以下技术方案予以实现:
一种中文实体关系联合抽取方法,包括以下步骤:
获取旅游网站数据信息;
对数据信息进行预处理,得到数据集;
对数据集中的各文本进行文本嵌入表示与实体跨度表示,获取实体宽度表示和上下文语义信息的实体表示;
根据实体跨度表示、实体宽度表示和上下文语义信息的实体表示进行实体识别和实体类型矩阵构建;
抽取语法信息,对各文本进行语法依存分析,将实体跨度表示作为语法树每个节点特征,计算得到蕴含语法信息的词向量表示,获取具有语法信息的实体跨度表示;
根据实体跨度表示和具有语法信息的实体跨度表示融合获取新的实体跨度表示,将实体跨度表示对中间的非实体部分做池化处理以获取局部文本信息,将新的实体跨度表示、实体类型矩阵、实体宽度表示和局部文本信息表示拼接作为关系分类器的输入,得到关系分类结果。
本发明的进一步改进在于:
所述对数据信息进行预处理,得到数据集,具体包括以下步骤:
对获取的数据信息进行筛选,生成景点文件、地址文件和文本文件;
将景点文件和地址文件作为识别实体的字典文件,定义实体类别与关系类别;
使用自然语言处理工具对文本进行分词并对实体进行初步标注,根据实体类别与关系类别定义关系抽取规则,对实体关系进行初步抽取;
通过人工标注,纠正和补充实体标注结果,完成标注,生成数据集。
所述实体类别包括地点、行政区类别、气候条件、景点、级别、人物、景点类型、景点门票和活动;所述关系类别包括位于、部分和继承。
所述对数据集中的各文本进行文本嵌入表示与实体跨度表示,具体包括以下步骤:
将数据集中的各文本输入中文预训练模型ZEN中,对各文本的开始和末尾分别添加标签;
将各文本中的字符转化为对应的数字标识,获取文本嵌入表示;
获取每个字符的向量表示,计算具有上下文语义关系的字符表示;
通过最大池化方式得到实体跨度表示。
所述实体识别和实体类型矩阵构建具体包括以下步骤:
拼接实体跨度表示、实体宽度表示和上下文语义信息的实体表示,并对拼接后的结果进行降维,得到最后的向量表示;
通过激活函数将最后的向量表示送入到实体分类器中对实体进行识别,得到实体分类结果;
将最后的向量表示与实体跨度表示做注意力运算,生成具有上下文语义信息的实体类型矩阵。
所述抽取语法信息具体包括以下步骤:
使用stanza工具对输入文本进行语法依存分析,生成语法依赖树;
将实体跨度表示作为语法依赖树中对应节点的特征;
将语法依赖树和对应节点的特征输入至GCN网络中,运算后得到具有语法信息的词向量表示;
最后通过最大池化得到具有语法信息的实体跨度表示。
所述得到关系分类结果,具体通过以下步骤:
将实体跨度表示和具有语法信息的实体跨度表示通过融合函数进行融合,得到新的实体跨度表示;
通过关系掩码矩阵和实体跨度表示形成实体对,再根据实体类型矩阵和实体宽度表示获取实体对中每个实体的实体类型表示和实体宽度表示;
对两个实体中间非实体部分的字符表示通过最大池化降维后,与对应的具有语法信息的实体跨度表示融合得到局部文本信息表示;
将新的实体跨度表示、实体类型矩阵、实体宽度表示和局部文本信息表示拼接作为关系分类器的输入,得到关系分类结果。
一种中文实体关系联合抽取***,包括:
数据获取模块,所述数据获取模块用于获取旅游网站数据信息;
数据预处理模块,所述数据预处理模块用于对数据信息进行预处理,得到数据集;
第一数据处理模块,所述第一数据处理模块用于对数据集中的各文本进行文本嵌入表示与实体跨度表示,获取实体宽度表示和上下文语义信息的实体表示;
第二数据处理模块,所述第二数据处理模块用于根据实体跨度表示、实体宽度表示和上下文语义信息的实体表示进行实体识别和实体类型矩阵构建;
语法抽取模块,所述语法抽取模块用于抽取语法信息,对各文本进行语法依存分析,将实体跨度表示作为语法树每个节点特征,计算得到蕴含语法信息的词向量表示,获取具有语法信息的实体跨度表示;
关系抽取模块,所述关系抽取模块用于根据实体跨度表示和具有语法信息的实体跨度表示融合获取新的实体跨度表示,将实体跨度表示对中间的非实体部分做池化处理以获取局部文本信息,将新的实体跨度表示、实体类型矩阵、实体宽度表示和局部文本信息表示拼接作为关系分类器的输入,得到关系分类结果。
一种设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如前项任一项所述方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如前项任一项所述方法的步骤。
与现有技术相比,本发明具有以下有益效果:
本发明提出了一种中文实体关系联合抽取方法,通过将实体分类之前的表示作为实体类型表示,与实体表示计算后,在实体类型中融合实体信息,同时在实体类型维度上对实体信息进行补充,从而建立针对中文旅游文本数据的实体关系抽取方法,提高了实体关系抽取的准确性。
进一步的,通过采用景点文件和地址文件作为字典信息,补充自然语言处理工具,提高了初步实体标注的准确性,减少了后续人工的工作量。
进一步的,通过采用中文预训练模型ZEN来生产词向量表示,相比于传统的bert模型能够更好地表示中文词的潜在信息。
进一步的,通过采用该GCN网络计算文本语法信息,再将语法信息与实体表示融合得到具有语法信息的实体跨度表示,能够在语法维度上补充实体信息,能够丰富实体特征表示,有效的提高实体关系抽取的准确性。
附图说明
为了更清楚的说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明的中文实体关系联合抽取方法流程示意图;
图2为本发明的中文实体关系联合抽取***模块示意图;
图3为本发明的数据信息预处理具体流程图;
图4为本发明中基于预训练模型的中文实体关系联合抽取流程图;
图5为获取具有语法信息的实体跨度表示流程图;
图6为基于预训练模型的中文实体关系联合抽取模型结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明实施例的描述中,需要说明的是,若出现术语“上”、“下”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
此外,若出现术语“水平”,并不表示要求部件绝对水平,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。
在本发明实施例的描述中,还需要说明的是,除非另有明确的规定和限定,若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
下面结合附图对本发明做进一步详细描述:
参见图1,为本发明的中文实体关系联合抽取方法流程图,具体包括以下步骤:
S1,获取旅游网站数据信息。
S2,对数据信息进行预处理,得到数据集。
S2.1,对获取的数据信息进行筛选,生成景点文件、地址文件和文本文件;
S2.2,将景点文件和地址文件作为识别实体的字典文件,定义实体类别与关系类别;
S2.3,使用自然语言处理工具对文本进行分词并对实体进行初步标注,根据实体类别与关系类别定义关系抽取规则,对实体关系进行初步抽取;
S2.4,通过人工标注,纠正和补充实体标注结果,完成标注,生成数据集。
S3,对数据集中的各文本进行文本嵌入表示与实体跨度表示。
S3.1,将数据集中的各文本输入中文预训练模型ZEN中,对各文本的开始和末尾分别添加标签;
S3.2,将各文本中的字符转化为对应的数字标识,获取文本嵌入表示;
S3.3,获取每个字符的向量表示,计算具有上下文语义关系的字符表示;
S3.4,通过最大池化方式得到实体跨度表示。
S4,根据实体跨度表示、实体宽度表示和上下文语义信息的实体表示进行实体识别和实体类型矩阵构建。
S4.1,拼接实体跨度表示、实体宽度表示和上下文语义信息的实体表示,并对拼接后的结果进行降维,得到最后的向量表示;
S4.2,通过激活函数将最后的向量表示送入到实体分类器中对实体进行识别,得到实体分类结果;
S4.3,将最后的向量表示与实体跨度表示做注意力运算,生成具有上下文语义信息的实体类型矩阵。
S5,抽取语法信息,对各文本进行语法依存分析,将实体跨度表示作为语法树每个节点特征,计算得到蕴含语法信息的词向量表示,获取具有语法信息的实体跨度表示。
S5.1,使用stanza工具对输入文本进行语法依存分析,生成语法依赖树;
S5.2,将实体跨度表示作为语法依赖树中对应节点的特征;
S5.3,将语法依赖树和对应节点的特征输入至GCN网络中,运算后得到具有语法信息的词向量表示;
S5.4,最后通过最大池化得到具有语法信息的实体跨度表示。
S6,根据实体跨度表示和具有语法信息的实体跨度表示融合获取新的实体表示,将实体跨度表示对中间的非实体部分做池化处理以获取局部文本信息,将新的实体跨度表示、实体类型矩阵、实体宽度表示和局部文本信息表示拼接作为关系分类器的输入,得到关系分类结果。
S6.1,将实体跨度表示和具有语法信息的实体跨度表示通过融合函数进行融合,得到新的实体跨度表示;
S6.2,通过关系掩码矩阵和实体跨度表示形成实体对,再根据实体类型矩阵和实体宽度表示获取实体对中每个实体的实体类型表示和实体宽度表示;
S6.3,对两个实体中间非实体部分的字符表示通过最大池化降维后,与对应的具有语法信息的实体跨度表示融合得到局部文本信息表示;
S6.4,将新的实体跨度表示、实体类型矩阵、实体宽度表示和局部文本信息表示拼接作为关系分类器的输入,得到关系分类结果。
参见图2,为本发明中一种中文实体关系联合抽取***模块示意图,具体包括以下模块:
数据获取模块,所述数据获取模块用于获取旅游网站数据信息;
数据预处理模块,所述数据预处理模块用于对数据信息进行预处理,得到数据集;
第一数据处理模块,所述第一数据处理模块用于对数据集中的各文本进行文本嵌入表示与实体跨度表示;
第二数据处理模块,所述第二数据处理模块用于根据实体跨度表示、实体宽度表示和上下文语义信息的实体表示进行实体识别和实体类型矩阵构建;
语法抽取模块,所述语法抽取模块用于抽取语法信息,对各文本进行语法依存分析,将实体跨度表示作为语法树每个节点特征,计算得到蕴含语法信息的词向量表示,获取具有语法信息的实体跨度表示;
关系抽取模块,所述关系抽取模块用于根据实体跨度表示和具有语法信息的实体跨度表示融合获取新的实体跨度表示,将实体跨度表示对中间的非实体部分做池化处理以获取局部文本信息,将新的实体跨度表示、实体类型矩阵、实体宽度表示和局部文本信息表示拼接作为关系分类器的输入,得到关系分类结果。
参见图3,为本发明中对数据信息进行预处理的具体流程图,构建旅游数据集的具体步骤如下:
步骤一,编写爬虫脚本,获取相关旅游网站的数据信息,接着对数据整理清洗,生成一个景点名称文件、地址名称文件和文本文件;
步骤二,分析需求,根据清洗后的数据和需求定义需要的识别的实体类型和关系类型,例如对于旅游领域实体类型可以有地点、行政区类别、气候条件、景点、级别、人物、景点类型、景点门票和活动等类型;对于关系有位于(Located_in),部分(part_of),继承(is_a)等类型;
步骤三,景点文件和地址文件作为识别实体的字典文件,使用自然语言处理工具,如stanza等,进行分词同时对实体实现自动初步标注;
步骤四,依据实体类别和关系类别定义关系抽取规则,对关系实现初步抽取;
步骤五,通过人工标注,纠正和补充实体标注结果,完成标注任务。
参加图4,根据处理好的数据设计的基于预训练模型的中文实体关系联合抽取方法。一方面将处理后的数据输入到预训练模型ZEN和BiLSTM层中得到具有上下文语义的词向量表示;另一方面将处理后的数据输入到stanza工具中得到语法依赖树;接着将生成的词向量作为语法树的特征输入到GCN中最后生成具有语法特征的实体向量表示;然后将具有上下文语义的词向量表示通过实体掩码生成具有上下文的实体向量表示,将该向量表示与实体宽度表示和上下文信息表示拼接后降维,一方面送入实体分类器中得到实体分类结果,另一方面与实体表示做注意力运算生成实体类型表示,最后通过实体跨度表示和具有语法信息的实体跨度表示获取新的实体跨度表示,新的实体跨度表示与实体类型矩阵、实体宽度表示和局部文本信息表示拼接作为关系分类器的输入,得到关系分类结果。基于预训练模型的中文实体关系联合抽取的具体步骤如下:
步骤1,文本的嵌入表示与实体表示,完成文本的嵌入表示与实体表示:
步骤1-1,数据的预处理,输入的文本为s=[w1,w2,...,wi,...,wn],其中wi表示第i个字符,添加[cls]和[sep]在s中,即s=[[cls],w1,w2,...,wi,...,wn,[sep]]。
步骤1-2,文本的嵌入表示,将在步骤1得到的s中的字符使用对应的标识符(id)替换,输入到ZEN中(ZEN是基于Bert的模型),得到输出x=[c,x1,x2,...,xn+1],设隐藏层hidden大小为hiddensize,batch大小为batchsize,所以最终x的输出维度为x=[batchsize,n+2,hiddensize],其中x1是整个句子S的表示,即[cls],接着将x输入到BiLSTM层中,得到输出X=[X1,X2,...,Xn+1],最终得到的X的维度为X=[batchsize,n+1,hiddensize*2]。
步骤1-3,实体跨度表示,根据实体掩码entitymask可以得到一个候选的实体跨度表示为span=[Xi,Xi+1,...,Xi+k],令max-pooling为函数f,即f=(Xi,Xi+1,...,Xi+k)得到最终的实体表示E=[e1,e2,...,ei,...,ej],表示有j个实体,所以维度是E=[batchsize,j,hiddensize*2]。
步骤2,实体识别与实体类型构建,在这一步中,完成实体识别和实体类型构建,为关系识别打下基础。
步骤2-1,实体识别,根据实体掩码entitymask得到每个实体的宽度,生成实体宽度嵌入矩阵为W=[w1,w2,...,wi,...,wj],维度与实体表示E的维度相同,首先实体跨度表示E与实体宽度嵌入W拼接,即,
X(e)=f(Xi,Xi+1,...,Xi+k)*wk+1 (1)
运算符*表示拼接运算。
接着,添加整个句子的表示生成,即,
Xs=X(s)*c (2)
其中,c表示上下文语义信息。
最后,送入到全连接层中降维,即,
ys=Relu(Ws·Xs+bs) (3)
WS、bS分别表示S层神经网络中的权重矩阵和偏移量。
将最后的结果送入到实体分类器中,得到实体分类结果,即,
Wq、bq分别表示q层神经网络中的权重矩阵和偏移量。
步骤2-2,实体类型构建,将生成的ys作为Query,实体表示E=[e1,e2,...,ei,...,ej]作为value和key,头的个数设置为8个,通过以下公式计算:
Ts=Attention(Query,key,value)
最后Ts=[t1,t2,...,ti,...,tj],Ts的维度为Ts=[batchsize,j,hiddensize]。
其中,dk为实体e1或e2的维度。
步骤3,如图5所示,生成具有语法信息的实体跨度表示,为了能够利用文本的语法信息,需要先将文本转化为语法依赖树,再利用GCN网络计算每个节点,最终生成具有语法信息的实体表示,具体步骤如下:
步骤3-1,语法依存分析,将处理后的文本s=[w1,w2,...,wi,...,wn]作为stanza的输入,得到语法依存关系nodes=[n1,n2,...,ni,...,nm-1],其中id是当前字符的表示,也是排序的位置,而head是当前ni的父节点的id标识,将每个ni的id与head取出构成一个索引元组,即edge=(head,id),表示为语法依赖树的边,由于GCN生成的依赖树节点标识符号从0开始,而ni的id从1开始,因此统一表示为,在GCN中添加0节点,表示根节点,而实际上的根节点则是以0节点为父节点的节点(有且仅有一个,如图6中最左侧的语法依赖树部分)。同时由于stanza在进行语法依存关系分析的时候,有可能将同一组词分割成不同的token,例如($90,000,会被分割成‘$90’与‘000’),所以为了后续生成具有语法信息的实体表示,根据s=[w1,w2,...,wi,...,wn]中的每个词的开始和结束索引和ni的start_char、end_char标识,在X=[X1,X2,...,Xn+1]中生成每个token的特征表示,即,
ki=f(Xi,Xi+1,...,Xi+k)
设有m个节点,得到的特征k=[c,k1,k2,...,km-1],根节点特征使用整个句子特征表示来代替。
步骤3-2,使用dgl框架定义GCN网络,在本发明中整个GCN网络由两层GCN组成:
第一层:输入维度:hiddensize*2;输出维度:hiddensize;激活函数:ReLU
第二层:输入维度:hiddensize;输出维度:hiddensize;激活函数:无
步骤3-3,将定义好的图和对应的特征输入到GCN中计算得到每个节点的表示g,即,
g=GCN(G,k)
其中G是由nodes和edges形成的语法依赖树。g的维度为g=[batchsize,m,,hiddensize],将g依据s=[w1,w2,...,wi,...,wn]中的每个词的开始和结束索引和ni的start_char、end_char标识堆叠,形成的维度为g=[batchsize,n+1,hiddensize*2],再将g根据实体掩码entitymask生成最终的基于span的具有语法信息的表示Eg=[eg1,eg2,...,egi,...,egj]。
步骤4:关系分类,为了能够得到最后关系的分类结果,需要找到候选实体对,并与实体跨度表示与局部文本嵌入表示相结合,最后再送入到关系分类器中得到分类结果,具体如下:
步骤4-1,将E=[e1,e2,...,ei,...,ej]与Eg=[eg1,eg2,...,egi,...,egj]通过如下公式:
Es=(WnE+WmEg+b) (6)
再从Es=[es1,es2,...,esi,...,esj]中根据关系掩码矩阵relationmask选取两个实体作为代表,如es1,es2,将es1,es2对应的实体类型从Ts获取并融合,即,
可以从接着通过公式(1)得到将es1,es2中间的文本信息通过BiLSTM和max-pooling得到c=(es1,es2),规定如果es1,es2是相邻的两个实体,则c(es1,es2)=0,为了区分关系(es1,es2)和(es2,es1),最终可以得到如下表示:
在本发明的基于预训练模型的中文实体关系联合抽取模型中,融合了实体类型和语法信息从而提高关系抽取的精度。首先,通过爬取有关旅游网站的数据信息,经过清洗和整理之后,使用自动标注与人工标注相结合的方式,生成所需要的数据集。然后通过中文预训练模型ZEN和BiLSTM可以得到具有上下文语义的实体跨度表示,将实体跨度表示、实体宽度表示和句子的向量表示拼接后降维后的结果,一方面与实体跨度表示做注意力运算得到实体类型矩阵,另一方面,送入到实体分类器中得到最后的实体分类结果。接着,通过stanza对输入文本进行语法依存分析,得到语法依赖树,将实体表示作为语法依赖树每个节点的特征,经过GCN网络计算得到具有语法信息的实体跨度表示。最后,将具有上下文语义实体跨度表示与具有语法信息的实体跨度表示融合得到新的实体表示结果,然后使用新的实体表示结果生成实体对,与实体宽度表示和实体对之间的文本信息相结合生成的表示作为关系分类器的输入,最后得到关系分类结果。
本发明一实施例提供一种终端设备。该实施例的终端设备包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述各个中文实体关系联合抽取方法实施例中的步骤。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。
所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。
所述中文实体关系联合抽取装置/终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述中文实体关系联合抽取装置/终端设备可包括,但不仅限于,处理器、存储器。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述中文实体关系联合抽取装置/终端设备的各种功能。
所述中文实体关系联合抽取装置/终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种中文实体关系联合抽取方法,其特征在于,包括以下步骤:
获取旅游网站数据信息;
对数据信息进行预处理,得到数据集;
对数据集中的各文本进行文本嵌入表示与实体跨度表示,获取实体宽度表示和上下文语义信息的实体表示;
根据实体跨度表示、实体宽度表示和上下文语义信息的实体表示进行实体识别和实体类型矩阵构建;
抽取语法信息,对各文本进行语法依存分析,将实体跨度表示作为语法树每个节点特征,计算得到蕴含语法信息的词向量表示,获取具有语法信息的实体跨度表示;
根据实体跨度表示和具有语法信息的实体跨度表示融合获取新的实体跨度表示,将实体跨度表示对中间的非实体部分做池化处理以获取局部文本信息,将新的实体跨度表示、实体类型矩阵、实体宽度表示和局部文本信息表示拼接作为关系分类器的输入,得到关系分类结果。
2.如权利要求1所述的一种中文实体关系联合抽取方法,其特征在于,所述对数据信息进行预处理,得到数据集,具体包括以下步骤:
对获取的数据信息进行筛选,生成景点文件、地址文件和文本文件;
将景点文件和地址文件作为识别实体的字典文件,定义实体类别与关系类别;
使用自然语言处理工具对文本进行分词并对实体进行初步标注,根据实体类别与关系类别定义关系抽取规则,对实体关系进行初步抽取;
通过人工标注,纠正和补充实体标注结果,完成标注,生成数据集。
3.如权利要求2所述的一种中文实体关系联合抽取方法,其特征在于,所述实体类别包括地点、行政区类别、气候条件、景点、级别、人物、景点类型、景点门票和活动;所述关系类别包括位于、部分和继承。
4.如权利要求1所述的一种中文实体关系联合抽取方法,其特征在于,所述对数据集中的各文本进行文本嵌入表示与实体跨度表示,具体包括以下步骤:
将数据集中的各文本输入中文预训练模型ZEN中,对各文本的开始和末尾分别添加标签;
将各文本中的字符转化为对应的数字标识,获取文本嵌入表示;
获取每个字符的向量表示,计算具有上下文语义关系的字符表示;
通过最大池化方式得到实体跨度表示。
5.如权利要求1所述的一种中文实体关系联合抽取方法,其特征在于,所述实体识别和实体类型矩阵构建具体包括以下步骤:
拼接实体跨度表示、实体宽度表示和上下文语义信息的实体表示,并对拼接后的结果进行降维,得到最后的向量表示;
通过激活函数将最后的向量表示送入到实体分类器中对实体进行识别,得到实体分类结果;
将最后的向量表示与实体跨度表示做注意力运算,生成具有上下文语义信息的实体类型矩阵。
6.如权利要求1所述的一种中文实体关系联合抽取方法,其特征在于,所述抽取语法信息具体包括以下步骤:
使用stanza工具对输入文本进行语法依存分析,生成语法依赖树;
将实体跨度表示作为语法依赖树中对应节点的特征;
将语法依赖树和对应节点的特征输入至GCN网络中,运算后得到具有语法信息的词向量表示;
最后通过最大池化得到具有语法信息的实体跨度表示。
7.如权利要求1所述的一种中文实体关系联合抽取方法,其特征在于,所述得到关系分类结果,具体通过以下步骤:
将实体跨度表示和具有语法信息的实体跨度表示通过融合函数进行融合,得到新的实体跨度表示;
通过关系掩码矩阵和实体跨度表示形成实体对,再根据实体类型矩阵和实体宽度表示获取实体对中每个实体的实体类型表示和实体宽度表示;
对两个实体中间非实体部分的字符表示通过最大池化降维后,与对应的具有语法信息的实体跨度表示融合得到局部文本信息表示;
将新的实体跨度表示、实体类型矩阵、实体宽度表示和局部文本信息表示拼接作为关系分类器的输入,得到关系分类结果。
8.一种中文实体关系联合抽取***,其特征在于,包括:
数据获取模块,所述数据获取模块用于获取旅游网站数据信息;
数据预处理模块,所述数据预处理模块用于对数据信息进行预处理,得到数据集;
第一数据处理模块,所述第一数据处理模块用于对数据集中的各文本进行文本嵌入表示与实体跨度表示,获取实体宽度表示和上下文语义信息的实体表示;
第二数据处理模块,所述第二数据处理模块用于根据实体跨度表示、实体宽度表示和上下文语义信息的实体表示进行实体识别和实体类型矩阵构建;
语法抽取模块,所述语法抽取模块用于抽取语法信息,对各文本进行语法依存分析,将实体跨度表示作为语法树每个节点特征,计算得到蕴含语法信息的词向量表示,获取具有语法信息的实体跨度表示;
关系抽取模块,所述关系抽取模块用于根据实体跨度表示和具有语法信息的实体跨度表示融合获取新的实体跨度表示,将实体跨度表示对中间的非实体部分做池化处理以获取局部文本信息,将新的实体跨度表示、实体类型矩阵、实体宽度表示和局部文本信息表示拼接作为关系分类器的输入,得到关系分类结果。
9.一种设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211350139.XA CN115600605A (zh) | 2022-10-31 | 2022-10-31 | 一种中文实体关系联合抽取方法、***、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211350139.XA CN115600605A (zh) | 2022-10-31 | 2022-10-31 | 一种中文实体关系联合抽取方法、***、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115600605A true CN115600605A (zh) | 2023-01-13 |
Family
ID=84849997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211350139.XA Pending CN115600605A (zh) | 2022-10-31 | 2022-10-31 | 一种中文实体关系联合抽取方法、***、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115600605A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116151241A (zh) * | 2023-04-19 | 2023-05-23 | 湖南马栏山视频先进技术研究院有限公司 | 一种实体识别方法及装置 |
CN117540035A (zh) * | 2024-01-09 | 2024-02-09 | 安徽思高智能科技有限公司 | 一种基于实体类型信息融合的rpa知识图谱构建方法 |
-
2022
- 2022-10-31 CN CN202211350139.XA patent/CN115600605A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116151241A (zh) * | 2023-04-19 | 2023-05-23 | 湖南马栏山视频先进技术研究院有限公司 | 一种实体识别方法及装置 |
CN117540035A (zh) * | 2024-01-09 | 2024-02-09 | 安徽思高智能科技有限公司 | 一种基于实体类型信息融合的rpa知识图谱构建方法 |
CN117540035B (zh) * | 2024-01-09 | 2024-05-14 | 安徽思高智能科技有限公司 | 一种基于实体类型信息融合的rpa知识图谱构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Deepak et al. | A novel firefly driven scheme for resume parsing and matching based on entity linking paradigm | |
CN111222305B (zh) | 一种信息结构化方法和装置 | |
CN110427623A (zh) | 半结构化文档知识抽取方法、装置、电子设备及存储介质 | |
CN109960728B (zh) | 一种开放域会议信息命名实体识别方法及*** | |
CN110609983B (zh) | 一种政策文件结构化分解方法 | |
Wahid et al. | Cricket sentiment analysis from Bangla text using recurrent neural network with long short term memory model | |
CN111783394A (zh) | 事件抽取模型的训练方法、事件抽取方法和***及设备 | |
CN115600605A (zh) | 一种中文实体关系联合抽取方法、***、设备及存储介质 | |
CN112364170B (zh) | 数据情感分析方法、装置、电子设备及介质 | |
KR20190080234A (ko) | 컨벌루션 신경망 기반 영문 텍스트 정형화 방법 | |
CN112256866B (zh) | 一种基于深度学习的文本细粒度情感分析算法 | |
CN108108468A (zh) | 一种基于概念和文本情感的短文本情感分析方法和装置 | |
CN113392209A (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
Zhao et al. | Sentiment analysis on the online reviews based on hidden Markov model | |
CN114153978A (zh) | 模型训练方法、信息抽取方法、装置、设备及存储介质 | |
CN116401376A (zh) | 一种面向工艺性检查的知识图谱构建方法及*** | |
CN112528654A (zh) | 自然语言处理方法、装置及电子设备 | |
CN111967267A (zh) | 一种基于XLNet的新闻文本地域提取的方法及*** | |
CN114238653A (zh) | 一种编程教育知识图谱构建、补全与智能问答的方法 | |
CN116737922A (zh) | 一种游客在线评论细粒度情感分析方法和*** | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及*** | |
CN114443846A (zh) | 一种基于多层级文本异构图的分类方法、装置及电子设备 | |
CN113901224A (zh) | 基于知识蒸馏的涉密文本识别模型训练方法、***及装置 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN111951079A (zh) | 一种基于知识图谱的信用评级方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |