CN113468335A - 实体隐含关系抽取方法及设备 - Google Patents
实体隐含关系抽取方法及设备 Download PDFInfo
- Publication number
- CN113468335A CN113468335A CN202010236475.6A CN202010236475A CN113468335A CN 113468335 A CN113468335 A CN 113468335A CN 202010236475 A CN202010236475 A CN 202010236475A CN 113468335 A CN113468335 A CN 113468335A
- Authority
- CN
- China
- Prior art keywords
- sample set
- entity
- model
- text
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000002372 labelling Methods 0.000 claims abstract description 98
- 238000012549 training Methods 0.000 claims abstract description 70
- 238000000605 extraction Methods 0.000 claims abstract description 44
- 238000003062 neural network model Methods 0.000 claims abstract description 28
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 238000012360 testing method Methods 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 11
- 239000000284 extract Substances 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 9
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种实体隐含关系抽取方法及设备,该方法包括:获取待处理文本,并将所述待处理文本输入到序列标注模型中;根据所述序列标注模型的输出结果确定所述待处理文本的实体隐含关系;其中,所述序列标注模型是通过对带有实体隐含关系标注的样本集进行预处理得到训练样本集,并根据所述训练样本集对神经网络模型进行训练得到的。本发明实施例能够准确的抽取实体之间的隐含关系。
Description
技术领域
本发明实施例涉及知识图谱技术领域,尤其涉及一种实体隐含关系抽取方法及设备。
背景技术
随着大数据与人工智能的发展,知识图谱作为人工智能技术的重要组成部分,因其强大的语义处理、互联组织、信息检索以及知识推理能力,已被广泛应用于金融、农业、电商、医疗电子、交通等领域。本质上,知识图谱是一张巨大的语义网络图,通过节点表示实体或者概念、边表示关系来描述真实世界中存在的各种实体或者概念以及其关系。
实体之间还常常存在隐含关系。现有技术中,通常先抽取实体以及实体之间的关系,再通过关系推理得出两实体之间的隐含关系。例如,对于文本“张三在A公司工作”,实体“张三”与实体“A公司”之间的关系为工作关系;对于文本“李四2018年6月入职A公司”,实体“李四”与实体“A公司”之间的关系为工作关系,依据此推理出“张三”与“李四”的隐含关系为同事关系。
然而,发明人发现,由于在抽取实体以及实体之间的关系时存在一定的误差,依据此得到的两实体之间的隐含关系的累计误差较大,导致结果不准确。
发明内容
本发明实施例提供一种实体隐含关系抽取方法及设备,能够准确的抽取实体之间的隐含关系。
第一方面,本发明实施例提供一种实体隐含关系抽取方法,包括:
获取待处理文本,并将所述待处理文本输入到序列标注模型中;
根据所述序列标注模型的输出结果确定所述待处理文本的实体隐含关系;
其中,所述序列标注模型是通过对带有实体隐含关系标注的样本集进行预处理得到训练样本集,并根据所述训练样本集对神经网络模型进行训练得到的。
作为本发明的一个实施例,还包括获取带有实体隐含关系标注的样本集的步骤,如下:
获取文本数据,并对所述文本数据进行预处理,得到待标注样本集;
将所述待标注样本集发送至标注终端,所述待标注样本集用于指示目标人员对所述待标注样本集中具有隐含关系的实体进行隐含关系标注;
接收所述标注终端反馈的隐含关系标注结果,得到带有实体隐含关系标注的样本集。
作为本发明的一个实施例,还包括根据所述训练样本集对神经网络模型进行训练,得到序列标注模型的步骤,如下:
根据预训练语言模型对所述训练样本集进行编码,得到编码向量;
根据所述编码向量对BiLSTM-CRF神经网络模型进行训练,得到序列标注模型。
作为本发明的一个实施例,所述预训练语言模型为BERT语言;
还包括对所述样本集进行预处理的步骤,如下:
对所述样本集中的每个句子的句首添加[CLS]标签,句末添加[SEP]标签,并用[SEP]标签连接句子对;
对添加标签后的句子分别进行词嵌入处理、句子嵌入处理以及位置嵌入处理。
作为本发明的一个实施例,所述根据所述序列标注模型的输出结果确定所述待处理文本的实体隐含关系,包括:
根据所述序列标注模型的输出结果确定具有相同标注标签的目标实体;
根据所述标注标签对应的隐含关系确定所述目标实体之间的隐含关系。
作为本发明的一个实施例,所述根据所述编码向量对BiLSTM-CRF神经网络模型进行训练,得到序列标注模型,包括:
根据所述编码向量对BiLSTM-CRF神经网络模型进行训练,得到目标序列标注模型;
获取测试样本集;
根据所述测试样本集对所述目标序列标注模型进行测试;
若所述目标序列模型的输出结果的准确率大于预设阈值,则将所述目标序列标注模型确定为序列标注模型。
作为本发明的一个实施例,还包括:
根据实体隐含关系抽取结果和图数据库构建知识图谱。
第二方面,本发明实施例提供一种实体隐含关系抽取装置,包括:
输入模块,用于获取待处理文本,并将所述待处理文本输入到序列标注模型中;
确定模块,用于根据所述序列标注模型的输出结果确定所述待处理文本的实体隐含关系;
其中,所述序列标注模型是通过对带有实体隐含关系标注的样本集进行预处理得到训练样本集,并根据所述训练样本集对神经网络模型进行训练得到的。
第三方面,本发明实施例提供一种实体隐含关系抽取设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的实现方式所述的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的实现方式所述的方法。
本实施例提供的实体隐含关系抽取方法及设备,该方法通过将待处理文本输入到序列标注模型中,序列标注模型输出待处理文本的实体隐含关系标注结果,据标注结果即可确定待处理文本的实体隐含关系,其中,序列标注模型是通过对带有实体隐含关系标注的样本集进行预处理得到训练样本集,并根据所述训练样本集对神经网络模型进行训练得到的。本发明实施例能够直接抽取实体之间的隐含关系,从而提高得到的隐含关系的准确性,并且,这种方法简单方便。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的实体隐含关系抽取方法的应用场景示意图;
图2为本发明实施例提供的实体隐含关系抽取方法的实现流程图一;
图3为本发明实施例提供的实体隐含关系抽取方法的实现流程图二;
图4为本发明实施例提供的实体隐含关系抽取方法的实现流程图三;
图5为本发明实施例提供的对样本进行预处理的示意图;
图6为本发明实施例提供的实体隐含关系抽取方法的实现流程图四;
图7为本发明实施例提供的BiLSTM-CRF神经网络模型抽取隐含关系的框架图;
图8为本发明实施例提供的实体隐含关系抽取方法的实现流程图五;
图9为本发明实施例提供的实体隐含关系抽取装置的结构示意图一;
图10为本发明实施例提供的实体隐含关系抽取装置的结构示意图二
图11为本发明实施例提供的实体隐含关系抽取设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在知识图谱中,实体之间常常存在隐含关系,隐含关系是指实体与其不直接关联的实体之间的关系。现有技术中,通常先抽取实体以及实体之间的关系,再通过关系推理得出两实体之间的隐含关系。例如,对于文本“张三在A公司工作”,实体“张三”与实体“A公司”之间的关系为工作关系;对于文本“李四2018年6月入职A公司”,实体“李四”与实体“A公司”之间的关系为工作关系,依据此推理出“张三”与“李四”的隐含关系为同事关系。
然而,由于在抽取实体以及实体之间的关系时存在一定的误差,依据此得到的两实体之间的隐含关系的累计误差较大,导致结果不准确。
本申请提供一种实体隐含关系抽取方法,将待处理文本输入训练后的神经网络模型,直接输出实体隐含关系标注结果,不需要关系推理即可得到实体隐含关系,从而提高得到的实体隐含关系的准确性。
图1为本发明实施例提供的实体隐含关系抽取方法的应用场景示意图。本申请提供的实体关系抽取方法,可以应用于如图1所示的应用环境中。其中,终端101通过网络102与服务器103进行通信。其中,终端101可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器103可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
例如,本发明实施例可以用于公安机关侦查案件。服务器103存储大量多源异构数据,其中大部分为案件信息。终端101向服务器103发送隐含关系抽取请求以及案件信息,服务器103接收隐含关系抽取请求后,从案件信息中抽取实体之间的隐含关系,并将抽取结果返回至终端101。
图2为本发明实施例提供的实体隐含关系抽取方法的实现流程图一,该方法应用于图1中的终端,也可以应用于服务器,以该方法应用于服务器为例进行说明,如图2所示,本实施例的方法包括:
步骤S201,获取待处理文本,并将待处理文本输入到序列标注模型中,其中,序列标注模型是通过对带有实体隐含关系标注的样本集进行预处理得到训练样本集,并根据训练样本集对神经网络模型进行训练得到的。
在本发明实施例中,待处理文本是指需要进行实体隐含关系标注的文本。终端向服务器发送实体隐含关系抽取请求,服务器根据实体隐含关系抽取请求生成对应的隐含关系抽取任务。服务器也可以根据预先配置的信息,生成隐含关系抽取任务。隐含关系抽取任务包括待处理文本属性信息。待处理文本属性信息包括文本名称、文本路径或者文本链接等。服务器根据文本名称或者文本路径获取待处理文本,服务器也可以根据文本链接在网络爬取相应的待处理文本,也可以由终端将待处理文本发送至服务器。获取的待处理文本的格式包括但不限于TXT文本、word文本、PDF文本中的一种或多种格式的数据。
在本发明实施例中,隐含关系是指实体与其不直接关联的实体之间的关系。例如,实体A与实体B存在关系,实体B与实体C存在关系,则实体A与实体C存在隐含关系。再例如,对于文本“张三在A公司工作”,实体“张三”与实体“A公司”为工作关系,对于文本“李四在A公司工作”,实体“李四”与实体“A公司”同样为工作关系,则“张三”与“李四”的隐含关系为同事关系。
序列标注模型能够对待处理文本中存在隐含关系的实体进行标注。通过以下步骤得到序列标注模型:获取带有实体隐含关系标注的样本集,并对样本集进行预处理得到训练样本集,根据训练样本集对神经网络模型进行训练得到序列标注模型。其中,终端将带有实体隐含关系标注的样本集发送至服务器;或者,终端将带有实体隐含关系标注的样本集的样本名称或样本路径发送至服务器,服务器根据样本名称或样本路径从数据库获取对应的样本集。服务器对样本集进行格式转换,转换成神经网络模型需要的数据格式,得到训练样本集。
服务器对待处理文本进行预处理,将待处理文本的格式转换为序列标注模型需要的数据格式,并将预处理后的待处理文本输入到序列标注模型中,序列标注模型输出实体隐含关系标注结果。
步骤S202,根据序列标注模型的输出结果确定待处理文本的实体隐含关系。
在本发明实施例中,序列标注模型输出结果为待处理文本的实体隐含关系标注结果,根据标注结果即可确定待处理文本的实体隐含关系。
本发明实施例通过将待处理文本输入到序列标注模型中,序列标注模型输出待处理文本的实体隐含关系标注结果,根据标注结果即可确定待处理文本的实体隐含关系,本发明实施例能够直接抽取实体之间的隐含关系,从而提高得到的隐含关系的准确性,并且,这种方法简单方便。
图3为本发明实施例提供的实体隐含关系抽取方法的实现流程图二,在上述图2所示实施例的基础上,本发明实施例还包括获取带有实体隐含关系标注的样本集的步骤,如图3所示,本发明实施例的方法包括:
步骤S301,获取文本数据,并对文本数据进行预处理,得到待标注样本集。
在本发明实施例中,终端将文本数据的文本名称、文本路径或者文本链接发送至。服务器可以根据文本名称或文本路径在数据库中获取相应的文本数据。服务器也可以根据文本链接在网络爬取相应的文本数据。获取的文本数据的格式包括但不限于TXT文本、word文本、PDF文本中的一种或多种格式的数据。
服务器对文本数据进行预处理包括:首先去掉无关词语及句子、标点符号,将繁体文字转化为简体文字等,然后对文本数据按照句子进行切分,得到待标注样本集。
步骤S302,将待标注样本集发送至标注终端,待标注样本集用于指示目标人员对待标注样本集中具有隐含关系的实体进行隐含关系标注。
步骤S303,接收终端反馈的隐含关系标注结果,得到带有实体隐含关系标注的样本集。
在本发明实施例中,服务器将待标注样本集发送至标注终端,目标人员通过标注终端对待标注样本集中存在隐含关系的实体手动标注隐含关系。标注完成后,标注终端将带有实体隐含关系标注的样本集反馈至服务器。
可以采用BIO标注方式手动标注隐含关系,其中,B表示实体或关系的开始,I表示实体或关系的非开始部分,O代表不是实体或关系的部分。标注终端可以是以网页形式重新搭建而成的可视化的数据标注终端,也可以采用目前市场中现有的数据标注平台。标注终端可以对TXT、word、PDF等格式的文本进行标注。
下面,以原始文本数据为公安机关案件信息数据举例说明BIO隐含关系标注,案件部分文本信息如下:
张三,男,25岁,在2019年4月15日入住A宾馆,他曾经工作在B公司,在研发部工作两年。
李四,女,32岁,在2016年3月入职B公司,在研发部工作到至今。
张丽,女,34岁,在2017年4月入职C公司,在测试部工作到至今。
对上述实体隐含关系进行BIO标注。从上述案件文本信息中可以明显得到张三与B公司属于工作关系,李四与B公司也属于工作关系,进而得到张三与李四属于同事关系。以命名实体识别的人实体标注为例,现有技术中,通常是对上述文本信息中所有的人名打标签,例如,张B-person三I-person,O男O……。李B-person四I-person,O女O……。张B-person丽I-person,O女O……。
本发明实施例对实体之间的隐含关系进行标注,新的数据标注格式为:张B-colleague三I-colleague,O男O……。李B-colleague四I-colleague,O女O……。张O丽O,O女O……。新的数据标注格式指示张三与李四属于同事关系,张丽与张三和李四不属于同事关系。
本发明实施例通过将文本数据发送至标注终端,由目标人员手动标注实体的隐含关系,由于目标人员对实体之间的关系无论是显性还是隐形都非常清晰,从而提高标注的准确性。
图4为本发明实施例提供的实体隐含关系抽取方法的实现流程图三,在上述图2所示实施例的基础上,本发明实施例还包括根据训练样本集对神经网络模型进行训练,得到序列标注模型的步骤,如图4所示,本发明实施例的方法包括:
步骤S401,根据预训练语言模型对训练样本集进行编码,得到编码向量。
步骤S402,根据编码向量对BiLSTM-CRF神经网络模型进行训练,得到序列标注模型。
在本发明实施例中,预训练语言模型对训练样本集中的每个字符进行编码,生成编码向量。其中,编码向量中包含了上下文的信息。具体的,预训练语言模型可以为BERT(Bidirectional Encoder Representations from Transformers)语言模型。服务器利用BERT语言模型的第一层Transformer对标记后的文本的每个字符进行编码,将第一层的字符编码向量传输至第二层Transformer,由第二层Transformer继续进行编码,直至最后一层Transformer完成编码,得到字符的最终编码向量,也称为字符编码向量。在编码过程中,BERT语言模型可以利用每一层Transformer的模型参数对字符进行编码,充分利用了BERT语言模型的每一层Transformer的模型参数,能够有效提高实体隐含关系抽取的性能,并且能够学习句子级的相关特征。
在本发明实施例中,BERT语言模型对样本集进行编码之前,需要对样本集进行预处理,得到训练样本集。具体的,如图5所示,首先,对样本集中的每个句子的句首添加[CLS]标签,句末添加[SEP]标签,并用[SEP]标签连接句子对,将样本集转换为BERT模型需要的格式。然后对添加标签后的句子分别进行词嵌入(Token Embeddings)处理、句子嵌入(Segment Embeddings)处理以及位置嵌入(Position Embeddings)处理,得到训练样本集。
使用BERT语言模型对训练样本集进行训练,得到编码向量后,将编码向量输入到BiLSTM-CRF神经网络模型中学习其特征,得到序列标注模型。
本发明实施通过预训练语言模型增强字符的语义信息,通过预训练语言模型得到编码向量,将编码向量输入到BiLSTM-CRF神经网络模型进行训练,需要的计算机内存小,训练模型周期短。
图6为本发明实施例提供的实体隐含关系抽取方法的实现流程图四,在上述图2所示实施例的基础上,本发明实施例详细描述步骤S202的一种可能的实现方式,如图6所示,本发明实施例的方法包括:
步骤S601,根据序列标注模型的输出结果确定具有相同标注标签的目标实体。
步骤S602,根据标注标签对应的隐含关系确定目标实体之间的隐含关系。
在本发明实施例中,具有相同标注标签的实体具有与该标签对应的隐含关系。
例如,图7为本发明实施例提供的BiLSTM-CRF神经网络模型抽取隐含关系的框架图,如图7所示,待处理文本包含5个单词w0w1w2w3w4w5,通过BiLSTM-CRF模型对待处理文本进行实体隐含关系抽取,根据抽取结果可以确定[w0,w1]与[w3,w4]的标签均为“college”,因此,可以确定[w0,w1]与[w3,w4]的隐含关系为标签“college”对应的隐含关系,例如,标签“college”对应同事关系,则[w0,w1]与[w3,w4]的隐含关系为同事关系。
图8为本发明实施例提供的实体隐含关系抽取方法的实现流程图五,在上述图4所示实施例的基础上,本发明实施例详细描述步骤S402的实现方式,如图8所示,本发明实施例的方法包括:
步骤S801,根据编码向量对BiLSTM-CRF神经网络模型进行训练,得到目标序列标注模型。
步骤S802,获取测试样本集。
步骤S803,根据测试样本集对目标序列标注模型进行测试。
步骤S804,若目标序列模型的输出结果的准确率大于预设阈值,则将目标序列标注模型确定为序列标注模型。
在本发明实施例中,终端向服务器发送测试样本集的属性信息,测试样本集的属性信息包括测试样本集名称、测试样本集路径或者测试样本集链接等。服务器可以根据测试样本集标识在数据库中获取相应的测试样本集。服务器也可以根据文本链接在网络爬取相应的测试样本集。
服务器获取测试样本集后,服务器将测试样本集输入到目标序列标注模型进行测试,并将目标序列标注模型的输出结果以及测试样本集发送至终端,目标人员根据目标序列标注模型的输出结果以及测试样本集确定目标序列标注模型抽取的实体隐含关系的准确率,只有在准确率大于预设阈值时,才将目标序列标注模型作为序列标注模型。
本发明实施例通过对目标序列标注模型进行测试,提高实体隐含关系抽取的准确性。
作为本发明的一个实施例,在上述图2实施例的基础上,本发明实施例的方法还可以包括:根据实体隐含关系抽取结果和图数据库构建知识图谱。
在本发明实施例中,现有的知识图谱只包括实体以及实体之间的显性关系,本发明实施例对知识图谱进行补全,将实体之间的隐形关系补入知识图谱中,使知识图谱更加全面的反映实体以及实体之间的关系。
图9为本发明实施例提供的实体隐含关系抽取装置的结构示意图一。如图9所示,该实体隐含关系抽取装置900包括:输入模块901和确定模块902。
输入模块901,用于获取待处理文本,并将待处理文本输入到序列标注模型中。其中,序列标注模型是通过对带有实体隐含关系标注的样本集进行预处理得到训练样本集,并根据训练样本集对神经网络模型进行训练得到的。
确定模块902,用于根据序列标注模型的输出结果确定待处理文本的实体隐含关系。
图10为本发明实施例提供的实体隐含关系抽取装置的结构示意图二。如图10所示,该实体隐含关系抽取装置900还包括:模型训练模块903和构建模块904。模型训练模块903包括获取子模块9031、预处理子模块9032、训练子模块9033和测试子模块9034。
作为本发明的一个实施例,获取子模块9031用于获取文本数据,并对文本数据进行预处理,得到待标注样本集;将待标注样本集发送至标注终端,待标注样本集用于指示目标人员对待标注样本集中具有隐含关系的实体进行隐含关系标注;接收标注终端反馈的隐含关系标注结果,得到带有实体隐含关系标注的样本集。
作为本发明的一个实施例,训练子模块9033,用于根据预训练语言模型对训练样本集进行编码,得到编码向量;根据编码向量对BiLSTM-CRF神经网络模型进行训练,得到序列标注模型。
作为本发明的一个实施例,预训练语言模型为BERT语言。预处理子模块9032用于对样本集中的每个句子的句首添加[CLS]标签,句末添加[SEP]标签,并用[SEP]标签连接句子对;对添加标签后的句子分别进行词嵌入处理、句子嵌入处理以及位置嵌入处理。
作为本发明的一个实施例,确定模块902具体用于根据序列标注模型的输出结果确定具有相同标注标签的目标实体;根据所标注标签对应的隐含关系确定目标实体之间的隐含关系。
作为本发明的一个实施例,训练子模块9033用于根据训练样本集对神经网络模型进行训练,得到目标序列标注模型。测试子模块9034用于获取测试样本集;根据测试样本集对目标序列标注模型进行测试;若目标序列模型的输出结果的准确率大于预设阈值,则将目标序列标注模型确定为序列标注模型。
作为本发明的一个实施例,构建模块904用于根据实体隐含关系抽取结果和图数据库构建知识图谱。
本发明实施例提供的实体隐含关系抽取装置,可用于执行上述的方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
图11为本发明实施例提供的实体隐含关系抽取设备的硬件结构示意图。如图11所示,本实施例提供的实体隐含关系抽取设备1100包括:至少一个处理器1101和存储器1102。该实体隐含关系抽取设备1100还包括通信部件1103。其中,处理器1101、存储器1102以及通信部件1103通过总线1104连接。
在具体实现过程中,至少一个处理器1101执行存储器1102存储的计算机执行指令,使得至少一个处理器1101执行如实体隐含关系抽取设备1100所执行的实体隐含关系抽取方法。
处理器1101的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
在上述的图11所示的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
本申请还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现如上实体隐含关系抽取设备执行的实体隐含关系抽取方法。
本申请还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现如实体隐含关系抽取设备执行的实体隐含关系抽取方法。
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种实体隐含关系抽取方法,其特征在于,包括:
获取待处理文本,并将所述待处理文本输入到序列标注模型中;
根据所述序列标注模型的输出结果确定所述待处理文本的实体隐含关系;
其中,所述序列标注模型是通过对带有实体隐含关系标注的样本集进行预处理得到训练样本集,并根据所述训练样本集对神经网络模型进行训练得到的。
2.根据权利要求1所述的方法,其特征在于,还包括获取带有实体隐含关系标注的样本集的步骤,如下:
获取文本数据,并对所述文本数据进行预处理,得到待标注样本集;
将所述待标注样本集发送至标注终端,所述待标注样本集用于指示目标人员对所述待标注样本集中具有隐含关系的实体进行隐含关系标注;
接收所述标注终端反馈的隐含关系标注结果,得到带有实体隐含关系标注的样本集。
3.根据权利要求1所述的方法,其特征在于,还包括根据所述训练样本集对神经网络模型进行训练,得到序列标注模型的步骤,如下:
根据预训练语言模型对所述训练样本集进行编码,得到编码向量;
根据所述编码向量对BiLSTM-CRF神经网络模型进行训练,得到序列标注模型。
4.根据权利要求3所述的方法,其特征在于,
所述预训练语言模型为BERT语言;
还包括对所述样本集进行预处理的步骤,如下:
对所述样本集中的每个句子的句首添加[CLS]标签,句末添加[SEP]标签,并用[SEP]标签连接句子对;
对添加标签后的句子分别进行词嵌入处理、句子嵌入处理以及位置嵌入处理。
5.根据权利要求1所述的方法,其特征在于,所述根据所述序列标注模型的输出结果确定所述待处理文本的实体隐含关系,包括:
根据所述序列标注模型的输出结果确定具有相同标注标签的目标实体;
根据所述标注标签对应的隐含关系确定所述目标实体之间的隐含关系。
6.根据权利要求3所述的方法,其特征在于,所述根据所述编码向量对BiLSTM-CRF神经网络模型进行训练,得到序列标注模型,包括:
根据所述编码向量对BiLSTM-CRF神经网络模型进行训练,得到目标序列标注模型;
获取测试样本集;
根据所述测试样本集对所述目标序列标注模型进行测试;
若所述目标序列模型的输出结果的准确率大于预设阈值,则将所述目标序列标注模型确定为序列标注模型。
7.根据权利要求1至6任一项所述的方法,其特征在于,还包括:
根据实体隐含关系抽取结果和图数据库构建知识图谱。
8.一种实体隐含关系抽取装置,其特征在于,包括:
输入模块,用于获取待处理文本,并将所述待处理文本输入到序列标注模型中;
确定模块,用于根据所述序列标注模型的输出结果确定所述待处理文本的实体隐含关系;
其中,所述序列标注模型是通过对带有实体隐含关系标注的样本集进行预处理得到训练样本集,并根据所述训练样本集对神经网络模型进行训练得到的。
9.一种实体隐含关系抽取设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至7任一项所述的实体隐含关系抽取方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至7任一项所述的实体隐含关系抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010236475.6A CN113468335A (zh) | 2020-03-30 | 2020-03-30 | 实体隐含关系抽取方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010236475.6A CN113468335A (zh) | 2020-03-30 | 2020-03-30 | 实体隐含关系抽取方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113468335A true CN113468335A (zh) | 2021-10-01 |
Family
ID=77864867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010236475.6A Pending CN113468335A (zh) | 2020-03-30 | 2020-03-30 | 实体隐含关系抽取方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113468335A (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291687A (zh) * | 2017-04-27 | 2017-10-24 | 同济大学 | 一种基于依存语义的中文无监督开放式实体关系抽取方法 |
CN108874878A (zh) * | 2018-05-03 | 2018-11-23 | 众安信息技术服务有限公司 | 一种知识图谱的构建***及方法 |
CN108920461A (zh) * | 2018-06-26 | 2018-11-30 | 武大吉奥信息技术有限公司 | 一种多类型且含复杂关系的实体抽取方法及装置 |
KR20190019661A (ko) * | 2017-08-18 | 2019-02-27 | 동아대학교 산학협력단 | 언어 분석기별 정답 레이블 분포를 이용한 자연어 이해 방법 |
CN109446523A (zh) * | 2018-10-23 | 2019-03-08 | 重庆誉存大数据科技有限公司 | 基于BiLSTM和条件随机场的实体属性抽取模型 |
CN109885691A (zh) * | 2019-01-08 | 2019-06-14 | 平安科技(深圳)有限公司 | 知识图谱补全方法、装置、计算机设备及存储介质 |
CN110046252A (zh) * | 2019-03-29 | 2019-07-23 | 北京工业大学 | 一种基于注意力机制神经网络与知识图谱的医疗文本分级方法 |
CN110209836A (zh) * | 2019-05-17 | 2019-09-06 | 北京邮电大学 | 远程监督关系抽取方法及装置 |
CN110570920A (zh) * | 2019-08-20 | 2019-12-13 | 华东理工大学 | 一种基于集中注意力模型的实体、关系联合学习方法 |
CN110598000A (zh) * | 2019-08-01 | 2019-12-20 | 达而观信息科技(上海)有限公司 | 一种基于深度学习模型的关系抽取及知识图谱构建方法 |
CN110910243A (zh) * | 2019-09-26 | 2020-03-24 | 山东佳联电子商务有限公司 | 一种基于可重构大数据知识图谱技术的产权交易方法 |
-
2020
- 2020-03-30 CN CN202010236475.6A patent/CN113468335A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291687A (zh) * | 2017-04-27 | 2017-10-24 | 同济大学 | 一种基于依存语义的中文无监督开放式实体关系抽取方法 |
KR20190019661A (ko) * | 2017-08-18 | 2019-02-27 | 동아대학교 산학협력단 | 언어 분석기별 정답 레이블 분포를 이용한 자연어 이해 방법 |
CN108874878A (zh) * | 2018-05-03 | 2018-11-23 | 众安信息技术服务有限公司 | 一种知识图谱的构建***及方法 |
CN108920461A (zh) * | 2018-06-26 | 2018-11-30 | 武大吉奥信息技术有限公司 | 一种多类型且含复杂关系的实体抽取方法及装置 |
CN109446523A (zh) * | 2018-10-23 | 2019-03-08 | 重庆誉存大数据科技有限公司 | 基于BiLSTM和条件随机场的实体属性抽取模型 |
CN109885691A (zh) * | 2019-01-08 | 2019-06-14 | 平安科技(深圳)有限公司 | 知识图谱补全方法、装置、计算机设备及存储介质 |
CN110046252A (zh) * | 2019-03-29 | 2019-07-23 | 北京工业大学 | 一种基于注意力机制神经网络与知识图谱的医疗文本分级方法 |
CN110209836A (zh) * | 2019-05-17 | 2019-09-06 | 北京邮电大学 | 远程监督关系抽取方法及装置 |
CN110598000A (zh) * | 2019-08-01 | 2019-12-20 | 达而观信息科技(上海)有限公司 | 一种基于深度学习模型的关系抽取及知识图谱构建方法 |
CN110570920A (zh) * | 2019-08-20 | 2019-12-13 | 华东理工大学 | 一种基于集中注意力模型的实体、关系联合学习方法 |
CN110910243A (zh) * | 2019-09-26 | 2020-03-24 | 山东佳联电子商务有限公司 | 一种基于可重构大数据知识图谱技术的产权交易方法 |
Non-Patent Citations (1)
Title |
---|
翟社平等: "基于BILSTM_CRF的知识图谱实体抽取方法", 计算机应用与软件, 31 May 2019 (2019-05-31) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287480B (zh) | 一种命名实体识别方法、装置、存储介质及终端设备 | |
JP2023529939A (ja) | マルチモーダルpoi特徴の抽出方法及び装置 | |
CN112560491A (zh) | 一种基于ai技术的信息抽取方法、装置和存储介质 | |
CN112085091B (zh) | 基于人工智能的短文本匹配方法、装置、设备及存储介质 | |
CN114297394A (zh) | 对文本中的事件论元进行抽取的方法和电子设备 | |
CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
CN113724819B (zh) | 医疗命名实体识别模型的训练方法、装置、设备及介质 | |
CN115952791A (zh) | 基于机器阅读理解的篇章级事件抽取方法、装置、设备及存储介质 | |
CN107766498B (zh) | 用于生成信息的方法和装置 | |
CN116304023A (zh) | 一种基于nlp技术的招投标要素抽取方法、***及存储介质 | |
CN116453125A (zh) | 基于人工智能的数据录入方法、装置、设备及存储介质 | |
CN116912847A (zh) | 一种医学文本识别方法、装置、计算机设备及存储介质 | |
CN114357167A (zh) | 基于Bi-LSTM-GCN的多标签文本分类方法和*** | |
CN113901815A (zh) | 基于大坝运行日志的应急工况事件检测方法 | |
CN110826330B (zh) | 人名识别方法及装置、计算机设备及可读存储介质 | |
CN117038099A (zh) | 医疗类术语标准化方法以及装置 | |
CN116774973A (zh) | 数据渲染方法、装置、计算机设备及存储介质 | |
CN116595023A (zh) | 地址信息的更新方法和装置、电子设备及存储介质 | |
CN113468335A (zh) | 实体隐含关系抽取方法及设备 | |
CN114429106B (zh) | 页面信息处理方法、装置、电子设备和存储介质 | |
CN113743118B (zh) | 基于融合关系信息编码的法律文书中的实体关系抽取方法 | |
CN115828109A (zh) | 基于多模态融合与表示对齐的跨社交网络虚拟身份关联方法及装置 | |
CN113157866B (zh) | 一种数据分析方法、装置、计算机设备及存储介质 | |
CN114282542A (zh) | 网络舆情监控方法及设备 | |
CN114417891A (zh) | 基于粗糙语义的回复语句确定方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |