CN115859989A - 基于远程监督的实体识别方法及*** - Google Patents

基于远程监督的实体识别方法及*** Download PDF

Info

Publication number
CN115859989A
CN115859989A CN202310106608.1A CN202310106608A CN115859989A CN 115859989 A CN115859989 A CN 115859989A CN 202310106608 A CN202310106608 A CN 202310106608A CN 115859989 A CN115859989 A CN 115859989A
Authority
CN
China
Prior art keywords
entity
knowledge graph
data
existing knowledge
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310106608.1A
Other languages
English (en)
Inventor
刘硕
杨雅婷
白焜太
宋佳祥
许娟
史文钊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Health China Technologies Co Ltd
Original Assignee
Digital Health China Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Health China Technologies Co Ltd filed Critical Digital Health China Technologies Co Ltd
Priority to CN202310106608.1A priority Critical patent/CN115859989A/zh
Publication of CN115859989A publication Critical patent/CN115859989A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了基于远程监督的实体识别方法及***,包括以下步骤:S1:对目标语句进行分词处理;S2:将分词处理得到的词语与已有知识图谱中的实体进行匹配,并使用预训练bert模型对分词处理得到的词语与已有知识图谱中的实体是否匹配做二分类判别;S3:将能够与现有知识图谱中的实体匹配的词语作为输入数据,输入到深度学习模型LSTM进行实体抽取;S4:将每个词语从深度学习模型LSTM的输出结果与该词语与已有知识图谱中所对应的实体信息进行拼接,完成实体抽取。本发明提供的基于远程监督的实体识别方法及***,能够在小领域场景中,充分利用现有的知识图谱信息,为实体抽取任务提供额外的特征知识,进而提高在小领域场景中的实体识别准确率。

Description

基于远程监督的实体识别方法及***
技术领域
本发明属于数据处理技术领域,具体涉及基于远程监督的实体识别方法及***。
背景技术
随着机器学习与人工智能的快速发展,自然语言处理被广泛应用于不同的领域之中,例如,机器翻译、数据分析等。而实体识别是自然语言处理NLP任务中极为重要的一环。
目前,实现实体识别的手段主要有基于无监督词典规则方法的实体抽取和基于有监督特征序列标注方法的实体识别。基于无监督词典规则方法的实体抽取,其核心思想为利用词汇、词语模式以及在大语料上计算的统计特性来推断实体的出现;而基于有监督特征序列标注方法的实体识别,则包括由输入层、编码层和解码层三层结构,其中输入层解决字符序列到分布式序列的转换,编码层用于特征建模和语义编码,学习整个句子和实体的语义表示,解码层用于预测实体的边界以及实体的类型。
然而,根据上述两种实体识别手段的特点可知,以上两种手段在在大样本场景中能够有较高的实体识别准确率,同时也依赖大样本的知识库,在小领域场景中应用不佳。
发明内容
本方案利用知识图谱进行远程监督实体抽取,能够充分利用已有的知识图谱信息,在小领域场景中,为实体抽取任务提供额外的特征知识,从而能够解决上述技术问题。
本发明具体的技术方案如下:
第一方面,本发明提供了基于远程监督的实体识别方法,包括以下步骤:
S1:将需要进行实体识别的语句作为目标语句,并对目标语句进行分词处理;
S2:将分词处理得到的词语与已有知识图谱中的实体进行匹配,并使用预训练bert模型对分词处理得到的词语与已有知识图谱中的实体是否匹配做二分类判别;
S3:将能够与现有知识图谱中的实体匹配的词语作为输入数据,输入到深度学习模型LSTM进行实体抽取;
S4:将每个词语从深度学习模型LSTM的输出结果与该词语与已有知识图谱中所对应的实体信息进行拼接,完成实体抽取。
在一些实施例中,所述S1包括:
S11:获取需要进行实体识别的语句,并将获取到的语句作为目标语句;
S12:根据结巴分词,对目标语句进行分词处理,将目标语句切分成由词语组成的形式。
在一些实施例中,所述S2包括:
S21:构建预训练bert模型,包括输入层、embedding层、多头注意力机制层以及前向计算层;
S22:将目标语句和已有知识图谱中的实体以及实体节点作为数据集,输入预训练bert模型;
S23:将从预训练bert模型输出的多维向量表示,输入MLP多层感知机中进行二分类。
在一些实施例中,所述S22包括:
S221:将已获得的目标语句和已有知识图谱中的实体以及实体节点作为数据集,并按照8:2的比例将数据集划分为训练集和测试集,将训练集转化为数字id映射后输入预训练bert模型;
S222:将embedding权重矩阵与输入的训练集数字ID进行矩阵相乘,得到向量维度为768维的embedding词向量特征矩阵;
S223:将embedding词向量特征矩阵分别经过三个线性层做矩阵特征提取,得到每个输入数据融合了注意力信息的768维向量表示;
S224:将S223中输出的每个数据经过两层线性层,并经过激活层激活后,得到每个数据最终的768维向量表示。
在一些实施例中,所述S23包括:
S231:将S224中得到的每个数据最终的768维向量表示输入MLP多层感知机;
S232:利用softmax函数计算目标语句中的词语和知识图谱中的实体所匹配的概率。
第二方面,本发明提供了基于远程监督的实体识别***,包括:
分词模块,用于将需要进行实体识别的语句作为目标语句,并对目标语句进行分词处理;
实体链接模块,用于将分词处理得到的词语与已有知识图谱中的实体进行匹配,并使用预训练bert模型对分词处理得到的词语与已有知识图谱中的实体是否匹配做二分类判别;
实体抽取模块,用于将能够与现有知识图谱中的实体匹配的词语作为输入数据,输入到深度学习模型LSTM进行实体抽取;
特征拼接模块,用于将每个词语从深度学习模型LSTM的输出结果与该词语与已有知识图谱中所对应的实体信息进行拼接,完成实体抽取。
在一些实施例中,所述分词模块包括:
目标语句获取子模块,用于获取需要进行实体识别的语句,并将获取到的语句作为目标语句;
结巴分词子模块,用于根据结巴分词,对目标语句进行分词处理,将目标语句切分成由词语组成的形式。
在一些实施例中,所述实体链接模块包括:
预训练bert模型构建子模块,用于构建预训练bert模型,包括输入层、embedding层、多头注意力机制层以及前向计算层;
数据处理子模块,用于将目标语句和已有知识图谱中的实体以及实体节点作为数据集,输入预训练bert模型;
二分类判别子模块,用于将从预训练bert模型输出的多维向量表示,输入MLP多层感知机中进行二分类。
在一些实施例中,所述数据处理子模块包括:
数字映射单元,用于将已获得的目标语句和已有知识图谱中的实体以及实体节点作为数据集,并按照8:2的比例将数据集划分为训练集和测试集,将训练集转化为数字id映射后输入预训练bert模型;
数据输入单元,用于将embedding权重矩阵与输入的训练集数字ID进行矩阵相乘,得到向量维度为768维的embedding词向量特征矩阵;
注意力融合单元,用于将embedding词向量特征矩阵分别经过三个线性层做矩阵特征提取,得到每个输入数据融合了注意力信息的768维向量表示;
数据输出单元,用于将注意力融合单元中输出的每个数据经过两层线性层,并经过激活层激活后,得到每个数据最终的768维向量表示。
在一些实施例中,所述二分类判别子模块包括:
多层感知输入单元,用于将S224中得到的每个数据最终的768维向量表示输入MLP多层感知机;
概率计算单元,用于利用softmax函数计算目标语句中的词语和知识图谱中的实体所匹配的概率。
本申请的有益效果是:
本申请提供的基于远程监督的实体识别方法及***,能够在小领域场景中,充分利用现有的知识图谱信息,为实体抽取任务提供额外的特征知识,进而提高在小领域场景中的实体识别准确率。
附图说明
图1为本申请基于远程监督的实体识别方法流程图;
图2为本申请步骤S1的子流程图;
图3为本申请步骤S2的子流程图;
图4为本申请步骤S22的子流程图;
图5为本申请步骤S23的子流程图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。基于所描述的本申请的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
图1为本申请基于远程监督的实体识别方法流程图。
基于远程监督的实体识别方法,结合图1,包括以下步骤:
S1:将需要进行实体识别的语句作为目标语句,并对目标语句进行分词处理;
在一些实施例中,结合图2即本申请步骤S1的子流程图,所述步骤S1包括:
S11:获取需要进行实体识别的语句,并将获取到的语句作为目标语句;
S12:根据结巴分词,对目标语句进行分词处理,将目标语句切分成由词语组成的形式。
具体的,在实体识别任务中,首先需要对需要进行实体识别的语句进行分词处理,将其切分成由词语组成的形式。在本方案中,采用了结巴分词器对目标语句进行分词处理,从而得到目标语句的词语组成形式。
S2:将分词处理得到的词语与已有知识图谱中的实体进行匹配,并使用预训练bert模型对分词处理得到的词语与已有知识图谱中的实体是否匹配做二分类判别;
具体的,为了利用现有的知识图谱信息,为实体抽取任务提供额外的特征知识,需要对分词处理得到的词语与已有知识图谱中的实体进行匹配,只有在分词处理得到的词语能够匹配到已有知识图谱中的实体时,才能够为该词语提供知识图谱中的实体特征。本方案利用了预训练bert模型对分词处理得到的词语与已有知识图谱中的实体是否匹配做二分类判别,若能够匹配,则进入步骤S21,若不能匹配,则对下一个词语进行判别。
在一些实施例中,结合图3即本申请步骤S2的子流程图,所述S2包括:
S21:构建预训练bert模型,包括输入层、embedding层、多头注意力机制层以及前向计算层;
S22:将目标语句和已有知识图谱中的实体以及实体节点作为数据集,输入预训练bert模型;
在一些实施例中,结合图4即本申请步骤S22的子流程图,所述S22包括:
S221:将已获得的目标语句和已有知识图谱中的实体以及实体节点作为数据集,并按照8:2的比例将数据集划分为训练集和测试集,将训练集转化为数字id映射后输入预训练bert模型;
具体的,本步骤对应了预训练bert模型中的输入层,将目标语句和已有知识图谱中的实体以及实体节点作为数据集,按照8:2的比例将数据集划分为训练集和测试集,将训练集转化为数字id映射后作为预训练bert模型的输入。
S222:将embedding权重矩阵与输入的训练集数字ID进行矩阵相乘,得到向量维度为768维的embedding词向量特征矩阵;
具体的,本步骤对应了预训练bert模型中的embedding层。通过embedding权重矩阵和输入数据映射的id进行矩阵相乘,得出embedding词向量作为输入数据的embedding矩阵表示,向量维度为768维。
S223:将embedding词向量特征矩阵分别经过三个线性层做矩阵特征提取,得到每个输入数据融合了注意力信息的768维向量表示;
具体的,本步骤对应了预训练bert模型中的多头注意力机制层。通过多头注意力机制层,对embedding层输出的768维特征向量分别经过三个线性层做矩阵特征提取,经过矩阵乘法计算得出每个输入数据融合了注意力信息的768维向量表示。
S224:将S223中输出的每个数据经过两层线性层,并经过激活层激活后,得到每个数据最终的768维向量表示。
具体的,本步骤对应了预训练bert模型中的向前计算层。将多头注意力机制层每个输出经过两层线性层,并经过激活层激活后输出每个数据最终的768维向量表示。
S23:将从预训练bert模型输出的多维向量表示,输入MLP多层感知机中进行二分类。
在一些实施例中,结合图5即本申请步骤S23的子流程图,所述S23包括:
S231:将S224中得到的每个数据最终的768维向量表示输入MLP多层感知机;
S232:利用softmax函数计算目标语句中的词语和知识图谱中的实体所匹配的概率。
具体的,将经过bert模型获得的768维度的向量表示输入MLP多层感知机,经过多层感知机MLP进行二分类,并使用softmax函数计算0和1的概率,得到最终的实体链接结果。若模型结果为1,则目标语句中的词语和知识图谱中对应的实体之间判断为相同;若模型结果为0,则目标语句中的词语和知识图谱中对应的实体之间判断为不同。
S3:将能够与现有知识图谱中的实体匹配的词语作为输入数据,输入到深度学习模型LSTM进行实体抽取。
S4:将每个词语从深度学习模型LSTM的输出结果与该词语与已有知识图谱中所对应的实体信息进行拼接,完成实体抽取。
具体的,此时,已经得到了目标语句中与现有知识图谱存在实体链接的词语,接下来将利用到知识图谱的信息来完成实体识别,本方案中使用深度学习模型LSTM来实现实体抽取,对于和知识图谱中的实体存在匹配关系的词语,将该词语在知识图谱中对应实体的节点信息作为额外特征输入模型得到向量表示,与目标语句中的词语经过深度学习模型LSTM后得到的向量表示进行拼接,从而扩大了词语的额外特征信息,同时也完成了实体抽取任务。
本发明第二方面还提供了基于远程监督的实体识别***,该***包括:
分词模块,用于将需要进行实体识别的语句作为目标语句,并对目标语句进行分词处理;
实体链接模块,用于将分词处理得到的词语与已有知识图谱中的实体进行匹配,并使用预训练bert模型对分词处理得到的词语与已有知识图谱中的实体是否匹配做二分类判别;
实体抽取模块,用于将能够与现有知识图谱中的实体匹配的词语作为输入数据,输入到深度学习模型LSTM进行实体抽取;
特征拼接模块,用于将每个词语从深度学习模型LSTM的输出结果与该词语与已有知识图谱中所对应的实体信息进行拼接,完成实体抽取。
在一些实施例中,所述分词模块包括:
目标语句获取子模块,用于获取需要进行实体识别的语句,并将获取到的语句作为目标语句;
结巴分词子模块,用于根据结巴分词,对目标语句进行分词处理,将目标语句切分成由词语组成的形式。
在一些实施例中,所述实体链接模块包括:
预训练bert模型构建子模块,用于构建预训练bert模型,包括输入层、embedding层、多头注意力机制层以及前向计算层;
数据处理子模块,用于将目标语句和已有知识图谱中的实体以及实体节点作为数据集,输入预训练bert模型;
二分类判别子模块,用于将从预训练bert模型输出的多维向量表示,输入MLP多层感知机中进行二分类。
在一些实施例中,所述数据处理子模块包括:
数字映射单元,用于将已获得的目标语句和已有知识图谱中的实体以及实体节点作为数据集,并按照8:2的比例将数据集划分为训练集和测试集,将训练集转化为数字id映射后输入预训练bert模型;
数据输入单元,用于将embedding权重矩阵与输入的训练集数字ID进行矩阵相乘,得到向量维度为768维的embedding词向量特征矩阵;
注意力融合单元,用于将embedding词向量特征矩阵分别经过三个线性层做矩阵特征提取,得到每个输入数据融合了注意力信息的768维向量表示;
数据输出单元,用于将注意力融合单元中输出的每个数据经过两层线性层,并经过激活层激活后,得到每个数据最终的768维向量表示。
在一些实施例中,所述二分类判别子模块包括:
多层感知输入单元,用于将S224中得到的每个数据最终的768维向量表示输入MLP多层感知机;
概率计算单元,用于利用softmax函数计算目标语句中的词语和知识图谱中的实体所匹配的概率。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。
本领域的技术人员能够理解,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
虽然结合附图描述了本申请的实施方式,但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.基于远程监督的实体识别方法,其特征在于,包括以下步骤:
S1:将需要进行实体识别的语句作为目标语句,并对目标语句进行分词处理;
S2:将分词处理得到的词语与已有知识图谱中的实体进行匹配,并使用预训练bert模型对分词处理得到的词语与已有知识图谱中的实体是否匹配做二分类判别;
S3:将能够与现有知识图谱中的实体匹配的词语作为输入数据,输入到深度学习模型LSTM进行实体抽取;
S4:将每个词语从深度学习模型LSTM的输出结果与该词语与已有知识图谱中所对应的实体信息进行拼接,完成实体抽取。
2.根据权利要求1所述的基于远程监督的实体识别方法,其特征在于,所述S1包括:
S11:获取需要进行实体识别的语句,并将获取到的语句作为目标语句;
S12:根据结巴分词,对目标语句进行分词处理,将目标语句切分成由词语组成的形式。
3.根据权利要求1所述的基于远程监督的实体识别方法,其特征在于,所述S2包括:
S21:构建预训练bert模型,包括输入层、embedding层、多头注意力机制层以及前向计算层;
S22:将目标语句和已有知识图谱中的实体以及实体节点作为数据集,输入预训练bert模型;
S23:将从预训练bert模型输出的多维向量表示,输入MLP多层感知机中进行二分类。
4.根据权利要求3所述的基于远程监督的实体识别方法,其特征在于,所述S22包括:
S221:将已获得的目标语句和已有知识图谱中的实体以及实体节点作为数据集,并按照8:2的比例将数据集划分为训练集和测试集,将训练集转化为数字id映射后输入预训练bert模型;
S222:将embedding权重矩阵与输入的训练集数字ID进行矩阵相乘,得到向量维度为768维的embedding词向量特征矩阵;
S223:将embedding词向量特征矩阵分别经过三个线性层做矩阵特征提取,得到每个输入数据融合了注意力信息的768维向量表示;
S224:将S223中输出的每个数据经过两层线性层,并经过激活层激活后,得到每个数据最终的768维向量表示。
5.根据权利要求4所述的基于远程监督的实体识别方法,其特征在于,所述S23包括:
S231:将S224中得到的每个数据最终的768维向量表示输入MLP多层感知机;
S232:利用softmax函数计算目标语句中的词语和知识图谱中的实体所匹配的概率。
6.基于远程监督的实体识别***,其特征在于,包括:
分词模块,用于将需要进行实体识别的语句作为目标语句,并对目标语句进行分词处理;
实体链接模块,用于将分词处理得到的词语与已有知识图谱中的实体进行匹配,并使用预训练bert模型对分词处理得到的词语与已有知识图谱中的实体是否匹配做二分类判别;
实体抽取模块,用于将能够与现有知识图谱中的实体匹配的词语作为输入数据,输入到深度学习模型LSTM进行实体抽取;
特征拼接模块,用于将每个词语从深度学习模型LSTM的输出结果与该词语与已有知识图谱中所对应的实体信息进行拼接,完成实体抽取。
7.根据权利要求6所述的基于远程监督的实体识别***,其特征在于,所述分词模块包括:
目标语句获取子模块,用于获取需要进行实体识别的语句,并将获取到的语句作为目标语句;
结巴分词子模块,用于根据结巴分词,对目标语句进行分词处理,将目标语句切分成由词语组成的形式。
8.根据权利要求6所述的基于远程监督的实体识别***,其特征在于,所述实体链接模块包括:
预训练bert模型构建子模块,用于构建预训练bert模型,包括输入层、embedding层、多头注意力机制层以及前向计算层;
数据处理子模块,用于将目标语句和已有知识图谱中的实体以及实体节点作为数据集,输入预训练bert模型;
二分类判别子模块,用于将从预训练bert模型输出的多维向量表示,输入MLP多层感知机中进行二分类。
9.根据权利要求8所述的基于远程监督的实体识别***,其特征在于,所述数据处理子模块包括:
数字映射单元,用于将已获得的目标语句和已有知识图谱中的实体以及实体节点作为数据集,并按照8:2的比例将数据集划分为训练集和测试集,将训练集转化为数字id映射后输入预训练bert模型;
数据输入单元,用于将embedding权重矩阵与输入的训练集数字ID进行矩阵相乘,得到向量维度为768维的embedding词向量特征矩阵;
注意力融合单元,用于将embedding词向量特征矩阵分别经过三个线性层做矩阵特征提取,得到每个输入数据融合了注意力信息的768维向量表示;
数据输出单元,用于将注意力融合单元中输出的每个数据经过两层线性层,并经过激活层激活后,得到每个数据最终的768维向量表示。
10.根据权利要求9所述的基于远程监督的实体识别***,其特征在于,所述二分类判别子模块包括:
多层感知输入单元,用于将S224中得到的每个数据最终的768维向量表示输入MLP多层感知机;
概率计算单元,用于利用softmax函数计算目标语句中的词语和知识图谱中的实体所匹配的概率。
CN202310106608.1A 2023-02-13 2023-02-13 基于远程监督的实体识别方法及*** Pending CN115859989A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310106608.1A CN115859989A (zh) 2023-02-13 2023-02-13 基于远程监督的实体识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310106608.1A CN115859989A (zh) 2023-02-13 2023-02-13 基于远程监督的实体识别方法及***

Publications (1)

Publication Number Publication Date
CN115859989A true CN115859989A (zh) 2023-03-28

Family

ID=85657958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310106608.1A Pending CN115859989A (zh) 2023-02-13 2023-02-13 基于远程监督的实体识别方法及***

Country Status (1)

Country Link
CN (1) CN115859989A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116386800A (zh) * 2023-06-06 2023-07-04 神州医疗科技股份有限公司 基于预训练语言模型的医疗病历数据分割方法和***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100351A (zh) * 2020-09-11 2020-12-18 陕西师范大学 一种通过问题生成数据集构建智能问答***的方法及设备
CN114490930A (zh) * 2022-01-09 2022-05-13 西北大学 一种基于知识图谱的文物问答***与问答方法
CN114638227A (zh) * 2020-12-15 2022-06-17 ***通信有限公司研究院 一种命名实体识别方法、装置及存储介质
CN114925212A (zh) * 2022-05-06 2022-08-19 神州医疗科技股份有限公司 一种自动判断并融合知识图谱的关系抽取方法及***
US20230039496A1 (en) * 2020-09-27 2023-02-09 Boe Technology Group Co., Ltd. Question-and-answer processing method, electronic device and computer readable medium

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100351A (zh) * 2020-09-11 2020-12-18 陕西师范大学 一种通过问题生成数据集构建智能问答***的方法及设备
US20230039496A1 (en) * 2020-09-27 2023-02-09 Boe Technology Group Co., Ltd. Question-and-answer processing method, electronic device and computer readable medium
CN114638227A (zh) * 2020-12-15 2022-06-17 ***通信有限公司研究院 一种命名实体识别方法、装置及存储介质
CN114490930A (zh) * 2022-01-09 2022-05-13 西北大学 一种基于知识图谱的文物问答***与问答方法
CN114925212A (zh) * 2022-05-06 2022-08-19 神州医疗科技股份有限公司 一种自动判断并融合知识图谱的关系抽取方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116386800A (zh) * 2023-06-06 2023-07-04 神州医疗科技股份有限公司 基于预训练语言模型的医疗病历数据分割方法和***
CN116386800B (zh) * 2023-06-06 2023-08-18 神州医疗科技股份有限公司 基于预训练语言模型的医疗病历数据分割方法和***

Similar Documents

Publication Publication Date Title
CN111291185B (zh) 信息抽取方法、装置、电子设备及存储介质
CN111897908B (zh) 融合依存信息和预训练语言模型的事件抽取方法及***
CN112966074B (zh) 一种情感分析方法、装置、电子设备以及存储介质
CN109934261B (zh) 一种知识驱动参数传播模型及其少样本学习方法
CN111159407B (zh) 训练实体识别和关系分类模型的方法、装置、设备及介质
CN112183094B (zh) 一种基于多元文本特征的中文语法查错方法及***
CN110263325A (zh) 中文分词***
CN114973062A (zh) 基于Transformer的多模态情感分析方法
CN110599324A (zh) 一种用于回款率预测的方法和装置
CN114548099B (zh) 基于多任务框架的方面词和方面类别联合抽取和检测方法
CN113806554B (zh) 面向海量会议文本的知识图谱构建方法
CN113223509A (zh) 一种应用于多人混杂场景下的模糊语句识别方法及***
CN116484024A (zh) 一种基于知识图谱的多层次知识库构建方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114648031A (zh) 基于双向lstm和多头注意力机制的文本方面级情感识别方法
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
CN115935991A (zh) 多任务模型生成方法、装置、计算机设备和存储介质
CN115796182A (zh) 一种基于实体级跨模态交互的多模态命名实体识别方法
CN115687609A (zh) 一种基于Prompt多模板融合的零样本关系抽取方法
CN116150367A (zh) 一种基于方面的情感分析方法及***
CN117236676A (zh) 一种基于多模态事件抽取的rpa流程挖掘方法和装置
CN115859989A (zh) 基于远程监督的实体识别方法及***
CN113268592B (zh) 基于多层次交互注意力机制的短文本对象情感分类方法
CN114428860A (zh) 院前急救病例文本的识别方法、装置、终端及存储介质
CN112069825A (zh) 面向警情笔录数据的实体关系联合抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20230328

RJ01 Rejection of invention patent application after publication