CN112036181A - 实体关系识别方法、装置及计算机可读存储介质 - Google Patents
实体关系识别方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112036181A CN112036181A CN201910401516.XA CN201910401516A CN112036181A CN 112036181 A CN112036181 A CN 112036181A CN 201910401516 A CN201910401516 A CN 201910401516A CN 112036181 A CN112036181 A CN 112036181A
- Authority
- CN
- China
- Prior art keywords
- preset
- sentence
- neural network
- entity
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 142
- 238000003062 neural network model Methods 0.000 claims abstract description 126
- 230000000306 recurrent effect Effects 0.000 claims abstract description 125
- 230000007246 mechanism Effects 0.000 claims abstract description 57
- 239000013598 vector Substances 0.000 claims description 85
- 238000012360 testing method Methods 0.000 claims description 39
- 238000012545 processing Methods 0.000 claims description 27
- 230000009466 transformation Effects 0.000 claims description 16
- 238000002372 labelling Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000015654 memory Effects 0.000 claims description 4
- NOESYZHRGYRDHS-UHFFFAOYSA-N insulin Chemical compound N1C(=O)C(NC(=O)C(CCC(N)=O)NC(=O)C(CCC(O)=O)NC(=O)C(C(C)C)NC(=O)C(NC(=O)CN)C(C)CC)CSSCC(C(NC(CO)C(=O)NC(CC(C)C)C(=O)NC(CC=2C=CC(O)=CC=2)C(=O)NC(CCC(N)=O)C(=O)NC(CC(C)C)C(=O)NC(CCC(O)=O)C(=O)NC(CC(N)=O)C(=O)NC(CC=2C=CC(O)=CC=2)C(=O)NC(CSSCC(NC(=O)C(C(C)C)NC(=O)C(CC(C)C)NC(=O)C(CC=2C=CC(O)=CC=2)NC(=O)C(CC(C)C)NC(=O)C(C)NC(=O)C(CCC(O)=O)NC(=O)C(C(C)C)NC(=O)C(CC(C)C)NC(=O)C(CC=2NC=NC=2)NC(=O)C(CO)NC(=O)CNC2=O)C(=O)NCC(=O)NC(CCC(O)=O)C(=O)NC(CCCNC(N)=N)C(=O)NCC(=O)NC(CC=3C=CC=CC=3)C(=O)NC(CC=3C=CC=CC=3)C(=O)NC(CC=3C=CC(O)=CC=3)C(=O)NC(C(C)O)C(=O)N3C(CCC3)C(=O)NC(CCCCN)C(=O)NC(C)C(O)=O)C(=O)NC(CC(N)=O)C(O)=O)=O)NC(=O)C(C(C)CC)NC(=O)C(CO)NC(=O)C(C(C)O)NC(=O)C1CSSCC2NC(=O)C(CC(C)C)NC(=O)C(NC(=O)C(CCC(N)=O)NC(=O)C(CC(N)=O)NC(=O)C(NC(=O)C(N)CC=1C=CC=CC=1)C(C)C)CC1=CN=CN1 NOESYZHRGYRDHS-UHFFFAOYSA-N 0.000 description 14
- 241000220225 Malus Species 0.000 description 13
- 102000004877 Insulin Human genes 0.000 description 7
- 108090001061 Insulin Proteins 0.000 description 7
- 229940125396 insulin Drugs 0.000 description 7
- 208000001072 type 2 diabetes mellitus Diseases 0.000 description 7
- 239000008280 blood Substances 0.000 description 5
- 210000004369 blood Anatomy 0.000 description 5
- 235000021016 apples Nutrition 0.000 description 4
- 229940079593 drug Drugs 0.000 description 4
- 239000003814 drug Substances 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- XZWYZXLIPXDOLR-UHFFFAOYSA-N metformin Chemical compound CN(C)C(=N)NC(N)=N XZWYZXLIPXDOLR-UHFFFAOYSA-N 0.000 description 3
- 229960003105 metformin Drugs 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- BOVGTQGAOIONJV-BETUJISGSA-N 1-[(3ar,6as)-3,3a,4,5,6,6a-hexahydro-1h-cyclopenta[c]pyrrol-2-yl]-3-(4-methylphenyl)sulfonylurea Chemical compound C1=CC(C)=CC=C1S(=O)(=O)NC(=O)NN1C[C@H]2CCC[C@H]2C1 BOVGTQGAOIONJV-BETUJISGSA-N 0.000 description 2
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 229960000346 gliclazide Drugs 0.000 description 2
- 239000008103 glucose Substances 0.000 description 2
- 235000000346 sugar Nutrition 0.000 description 2
- 238000002560 therapeutic procedure Methods 0.000 description 2
- 208000007271 Substance Withdrawal Syndrome Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 210000000227 basophil cell of anterior lobe of hypophysis Anatomy 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000003345 hyperglycaemic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007410 oral glucose tolerance test Methods 0.000 description 1
- 208000037821 progressive disease Diseases 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 150000008163 sugars Chemical class 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
一种实体关系识别方法、装置及计算机可读存储介质,所述实体关系识别方法,包括:将待识别文本输入至预设的基于人工特征及注意力机制的循环神经网络模型进行实体关系识别,其中,所述基于人工特征及注意力机制的循环神经网络模型是基于训练样本文本及所述训练样本文本的句子级别的人工特征训练得到的,所述人工特征包括以下至少一种:句子的长度、句子中所包括的实体对之间的语义距离以及句子中所包括的实体的数目;输出所述待识别文本中的预设各实体之间的实体关系的识别结果。采用上述方案,能够兼顾实体关系识别的准确度的同时,提高可解释性。
Description
技术领域
本发明实施例涉及自然语言处理技术领域,尤其涉及一种实体关系识别方法、装置及计算机可读存储介质。
背景技术
信息抽取的主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据(Structuring)。关系抽取是其重要的子任务,主要从文本中识别出实体(Entities),抽取实体之间的语义关系。
目前,常用的关系抽取主要为以下三种:有监督的学习方法、半监督的学习方法和无监督的学习。有监督的学习方法将关系抽取任务当做分类问题,根据训练数据设计有效的特征,从而学习各种分类模型,然后使用训练好的分类器预测关系。半监督的学习方法主要采用Bootstrapping进行关系抽取,对于要抽取的关系,半监督的学习方法首先手工设定若干种子实例,然后迭代地从数据中抽取关系对应的关系模板和更多的实例。无监督的学习方法假设拥有相同语义关系的实体对拥有相似的上下文信息,因此可以利用每个实体对对应上下文信息来代表该实体对的语义关系,并对所有实体对的语义关系进行聚类。
然而,有监督的学习方法需要大量的人工标注训练语料,而语料标注工作通常非常耗时耗力。虽然,有监督的学习方法能够抽取更有效的特征,其准确率和召回率都更高,但特征工程实质上由模型替代,可解释性较差。无监督的学习方法包含有较强的实体关系上下文的假设,很难符合实际文本中实体关系的分布情况。半监督的学习方法所抽取到的实体关系结果包含很多噪音,准确性较低。
发明内容
本发明实施例解决的技术问题是如何兼顾实体关系识别的准确度的同时,提高可解释性。
为解决上述技术问题,本发明实施例提供一种实体关系识别方法,包括:将待识别文本输入至预设的基于人工特征及注意力机制的循环神经网络模型进行实体关系识别,其中,所述基于人工特征及注意力机制的循环神经网络模型是基于训练样本文本及所述训练样本文本的句子级别的人工特征训练得到的,所述人工特征包括以下至少一种:句子的长度、句子中所包括的实体对之间的语义距离以及句子中所包括的实体的数目;输出所述待识别文本中的预设各实体之间的实体关系的识别结果。
可选的,采用如下方式训练得到所述基于人工特征及注意力机制的循环神经网络模型:基于所述训练样本文本进行词向量训练,得到所述训练样本文本对应的词向量及句向量;对所述训练样本文本进行短句变换处理,得到预设长度的短句;根据预设的实体关系标注文件,分别得到正样本和负样本,其中,所述正样本为:包括具有实体关系的实体对所对应的短句;所述负样本为:包括不具有实体关系的实体对所对应的短句;从所述短句中抽取句子级别的人工特征;将所述训练样本文本对应的句向量及各短句对应的人工特征分别输入至循环神经网络模型中进行迭代训练,直至所述循环神经网络模型中的预设参数收敛,得到所述基于人工特征及注意力机制的循环神经网络模型。
可选的,在所述循环神经网络模型中的预设参数收敛之后,还包括:采用测试样本文本对预设参数收敛后的循环神经网络模型进行测试;判断所述预设参数收敛后的循环神经网络模型的测试指标是否达到设定指标;当所述预设参数收敛后的循环神经网络模型的测试指标达到设定指标后,得到所述基于人工特征及注意力机制的循环神经网络模型;当所述预设参数收敛后的循环神经网络模型的测试指标没有达到设定指标时,继续采用所述训练样本文本对所述预设参数收敛后的循环神经网络模型进行迭代训练,直至所述预设参数收敛后的循环神经网络模型的测试指标达到设定指标。
可选的,所述将所述训练样本文本对应的句向量及各短句对应的人工特征分别输入至所述循环神经网络模型中进行迭代训练,包括:将所述各短句对应的人工特征转换成对应的向量;将所述训练样本文本对应的句向量以及所述各短句对应的人工特征转换成对应的向量合并至同一个向量内;将合并得到的向量输入至所述循环神经网络模型中进行迭代训练。
可选的,采用以下至少一种方式对所述训练样本文本中的句子进行短句变换处理,得到预设长度的短句:按照预设的标点符号,对所述训练样本文本进行短句切分;当短句的长度小于预设长度时,按照预定的拼接方式,将长度小于预设长度的短句拼入相邻短句;当短句的长度大于预设长度时,按照预设的截取条件,截取所述短句中不包含实体的部分并丢弃,将剩下的包含实体的部分拼接形成新的短句。
可选的,在对所述训练样本文本进行短句变换处理时,还包括:丢弃不包括实体对的句子。
可选的,所述输出所述待识别文本中的预设各实体之间的实体关系的识别结果,包括:输出所述待识别文本中包括预设实体且所述实体对之间具有实体关系的内容以及实体关系类别。
可选的,所述基于人工特征及注意力机制的循环神经网络模型,包括:输入层、字嵌入层、门控循环单元层、全连接层及输出层,其中:所述待识别文本从所述输入层输入至所述基于人工特征及注意力机制的循环神经网络模型,所述字嵌入层对所述待识别文本进行向量化处理,得到字向量;所述门控循环单元层对所述待识别文本进行人工特征抽取,得到所述待识别文本对应的句子级别的人工特征;所述全连接层根据所述字嵌入层的向量化处理结果,对所述待识别文本进行转换,得到预设长度的向量;所述输出层基于预设长度的响度进行实体识别,得到待识别文本中的预设各实体之间的实体关系的识别结果。
本发明实施例还提供一种实体关系识别装置,包括:输入单元,适于将待识别文本输入至预设的基于人工特征及注意力机制的循环神经网络模型进行实体关系识别,其中,所述基于人工特征及注意力机制的循环神经网络模型是基于训练样本文本及所述训练样本文本的句子级别的人工特征训练得到的,所述人工特征包括以下至少一种:句子的长度、句子中所包括的实体对之间的语义距离以及句子中所包括的实体的数目;输出单元,适于输出所述待识别文本中的预设各实体之间的实体关系的识别结果。
可选的,所述实体关系识别装置还包括:模型构建单元,适于采用如下方式训练得到所述基于人工特征及注意力机制的循环神经网络模型:基于所述训练样本文本进行词向量训练,得到所述训练样本文本对应的词向量及句向量;对所述训练样本文本进行短句变换处理,得到预设长度的短句;根据预设的实体关系标注文件,分别得到正样本和负样本,其中,所述正样本为:包括具有实体关系的实体对所对应的短句;所述负样本为:包括不具有实体关系的实体对所对应的短句;从所述短句中抽取句子级别的人工特征;将所述训练样本文本对应的句向量及各短句对应的人工特征分别输入至循环神经网络模型中进行迭代训练,直至所述循环神经网络模型中的预设参数收敛,得到所述基于人工特征及注意力机制的循环神经网络模型。
可选的,所述模型构建单元,还适于在所述循环神经网络模型中的预设参数收敛之后,采用测试样本文本对预设参数收敛后的循环神经网络模型进行测试;判断所述预设参数收敛后的循环神经网络模型的测试指标是否达到设定指标;当所述预设参数收敛后的循环神经网络模型的测试指标达到设定指标后,得到所述基于人工特征及注意力机制的循环神经网络模型;当所述预设参数收敛后的循环神经网络模型的测试指标没有达到设定指标时,继续采用所述训练样本文本对所述预设参数收敛后的循环神经网络模型进行迭代训练,直至所述预设参数收敛后的循环神经网络模型的测试指标达到设定指标。
可选的,所述模型构建单元,适于将所述各短句对应的人工特征转换成对应的向量;将所述训练样本文本对应的句向量以及所述各短句对应的人工特征转换成对应的向量合并至同一个向量内;将合并得到的向量输入至所述循环神经网络模型中进行迭代训练。
可选的,所述模型构建单元,适于采用以下至少一种方式对所述训练样本文本中的句子进行短句变换处理,得到预设长度的短句:按照预设的标点符号,对所述训练样本文本进行短句切分;当短句的长度小于预设长度时,按照预定的拼接方式,将长度小于预设长度的短句拼入相邻短句;当短句的长度大于预设长度时,按照预设的截取条件,截取所述短句中不包含实体的部分并丢弃,将剩下的包含实体的部分拼接形成新的短句。
可选的,所述模型构建单元,还适于丢弃不包括实体对的句子。
可选的,所述输出单元,适于输出所述待识别文本中包括预设实体且所述实体对之间具有实体关系的内容以及实体关系类别。
可选的,所述基于人工特征及注意力机制的循环神经网络模型,包括:输入层、字嵌入层、门控循环单元层、全连接层及输出层,其中:所述输入层,适于输入所述待识别文本;所述字嵌入层,适于对所述待识别文本进行向量化处理,得到字向量;所述门控循环单元层,适于对所述待识别文本进行人工特征抽取,得到所述待识别文本对应的句子级别的人工特征;所述全连接层,适于根据所述字嵌入层的向量化处理结果,对所述待识别文本进行转换,得到预设长度的向量;所述输出层,适于基于预设长度的响度进行实体识别,得到待识别文本中的预设各实体之间的实体关系的识别结果。
本发明实施例还提供一种实体关系识别装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述任一种实体关系识别方法的步骤。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质为非易失性存储介质或非瞬态存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述任一种实体关系识别方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
采用基于人工特征及注意力机制的循环神经网络模型,对待识别文本进行实体关系识别,由于在基于人工特征及注意力机制的循环神经网络模型是基于训练样本文本及从所述训练样本文本中抽取的句子级别的人工特征抽取训练得到的,从而可以提高基于人工特征及注意力机制的循环神经网络模型输出的待识别文本的实体关系的识别结果的可解释性,并兼顾实体关系的识别结果的准确度。
附图说明
图1是本发明实施例中一种实体关系识别方法的流程图;
图2是本发明实施例中一种基于人工特征及注意力机制的循环神经网络模型的训练流程图;
图3是本发明实施例中一种实体关系识别装置的结构示意图。
具体实施方式
如上所述,在对实体关系识别时,有监督的学习方法需要大量的人工标注训练语料,而语料标注工作通常非常耗时耗力。虽然,有监督的学习方法能够抽取更有效的特征,其准确率和召回率都更高,但特征工程实质上由模型替代,可解释性较差。无监督的学习方法包含有较强的实体关系上下文的假设,很难符合实际文本中实体关系的分布情况。半监督的学习方法所抽取到的实体关系结果包含很多噪音,准确性较低。
本发明实施例中,采用基于人工特征及注意力机制的循环神经网络模型,对待识别文本进行实体关系识别,由于在基于人工特征及注意力机制的循环神经网络模型是基于训练样本文本及从所述训练样本文本中抽取的句子级别的人工特征抽取训练得到的,从而可以提高基于人工特征及注意力机制的循环神经网络模型输出的待识别文本的实体关系的识别结果的可解释性,并兼顾实体关系的识别结果的准确度。
为使本发明实施例的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
参照图1,给出了本发明实施例中一种实体关系识别方法的流程图,所述实体关系识别方法可以包括如下步骤:
步骤11,将待识别文本输入至预设的基于人工特征和注意力机制的循环神经网络模型进行实体关系识别。
在具体实施中,从训练样本文件中抽取句子级别的人工特征。所述人工特征可以包括:句子的长度、句子中所包括的实体对之间的语义距离以及句子中所包括的实体的数目。所抽取到的人工特征随同训练样本文本用于所述基于人工特征和注意力机制的循环神经网络模型的训练。也即所述基于人工特征和注意力机制的循环神经网络模型是基于所述训练样本文本及所述训练样本文本对应的句子级别的人工特征训练得到的。
在具体实施中,可以采用如下方式训练得到所述基于人工特征和注意力机制的循环神经网络模型。参照图2,给出了本发明实施例中一种基于人工特征和注意力机制的循环神经网络模型的训练流程图。
步骤21,基于所述训练样本文本进行词向量训练,得到所述训练样本文本对应的词向量及句向量。
在具体实施中,可以采用Word2vec模型对所述训练样本文本进行词向量训练,得到所述训练样本文本对应的词向量。根据所述训练样本文本对应的词向量得到所述训练样本文本对应的句向量。
步骤22,对所述训练样本文本进行短句变换处理,得到预设长度的短句。
在具体实施中,可以对所述训练样本文本进行短句变换处理,得到预设长度的短句,所述预设长度为(Slmin,Slmax)。在实际应用中,预设长度具体取值可以根据实际应用场景、精度要求等进行设定。
在具体实施中,可以采用以下至少一种方式对所述训练样本文本中的句子进行短句变换处理:按照预设的标点符号,对所述训练样本文本进行短句切分。例如,所述标点符号可以包括逗号、句号、分号或者感叹号等。
在具体实施中,当短句的长度小于预设长度时,可以按照预定的拼接方式,将长度小于预设长度的短句拼入相邻短句,以使得拼接后的短句长度满足预设长度。当短句长度大于预设长度时,可以按照预设的截取条件,截取所述短句中不包含实体的部分并丢弃,将剩下的包含实体的部分拼接成新的短句。拼接所形成的新的短句的长度满足预设长度[Slmin,Slmax],拼接所形成的新的短句的长度的具体取值,可以根据实际需要进行设定。
例如,短句M的长度为100字,预设长度的字数为[20,60],实体A之前有10个字,实体B之后有15个字,实体A与实体B之间有70个字,实体A为2个字,实体B为3个字。取实体A前10个字,实体A后18个字,加实体A共30个字作为片段1;取实体B后10个字,实体B前17个字,及实体B共30个字作为片段2,短句M中除片段1及片段2之外的其他字组成片段3。截取片段3并丢弃,将片段1及片段2拼成新的短句N,短句N的长度为60个字。在实际应用中,短句N的长度也可以为20和60之间的其他取值,具体可以根据实际应用场景进行设定。
为了提高处理效率,对所述训练样本文本中的句子进行短句变换处理时,可以将不包括实体对的句子丢弃。例如,短句G:今天,小明吃了2颗苹果。短句G中包括实体苹果,但是根据预设的实体关系标注文件,实体苹果是手机品牌,而短句G中的苹果是水果,故在短句G中不包含实体对,从而将短句G丢弃。
步骤23,根据预设的实体关系标注文件,分别得到正样本和负样本。
在具体实施中,所述正样本为:包括具有实体关系的实体对的短句;所述负样本为:包括不具有实体关系的实体对所对应的短句。例如,预设的实体关系标注文件中,一个实体为乔布斯,另一个实体为苹果,实体对乔布斯和苹果的实体关系为创始人和手机品牌。一个短句E:乔布斯于1976年创建了苹果公司,并于2007年推出自有设计的苹果手机。短句E中包括实体对乔布斯和苹果,且具有实体关系,因此,将短句E标记为正样本。另一短句F:乔布斯曾经使用过这张桌子。根据预设的实体关系标注文件,实体乔布斯和实体桌子之间不具有实体关系,因此,将短句F标记为负样本。
步骤24,从所述短句中抽取句子级别的人工特征。
例如,以上述短句E为例:乔布斯于1976年创建了苹果公司,并于2007年推出自有设计的苹果手机。短句E的句子级别的人工特征为:句子的长度30个字、句子中所包括的实体对乔布斯与苹果之间的语义距离为22个字、句子中所包括的实体的数为2个,分别为乔布斯和苹果。
步骤25,将所述训练样本文本对应的句向量及各短句对应的人工特征分别输入至循环神经网络模型中进行迭代训练,直至所述循环神经网络模型中的预设参数收敛。
在具体实施中,将得到的训练样本文本对应的句向量,以及各短句对应的人工特征分别输入至循环神经网络模型中进行迭代训练,并观察循环神经网络模型中的预设参数的收敛情况,当循环神经网络模型中的预设参数收敛之后,得到所述基于人工特征及注意力机制的循环神经网络模型,其中,预设参数可以包括在训练样本文本上的平均预测准确率、循环神经网络模型的softmax输出层的L2范数偏差(L2Loss)等。
在具体实施中,输入至所述循环神经网络模型中的文件为一预设的格式。例如,可以将所述训练样本文本对应的句向量及各短句对应的人工特征以表格的形式输入至所述循环神经网络模型中。在所述表格中每一行均有如下字段、训练样本文本短句、文本短句的字编码、短句中已知实体的位置、短句中实体的类别、短句对应的句子级别的人工特征或者短句中存在的实体对关系类别(训练标签)等。
在本发明实施例中,可以将所述各短句对应的人工特征转换成对应的向量;将所述训练样本文本对应的句向量以及所述各短句对应的人工特征转换成对应的向量合并至同一个向量内;将合并得到的向量输入至所述循环神经网络模型中进行迭代训练。
为了提高所述基于人工特征及注意力机制的循环神经网络模型的训练精度,可以采用测试样本文本对预设参数收敛后的循环神经网络模型进行测试,并判断测试指标是否达到设定指标,其中,测试指标可以包括在训练样本文本上的平均预测准确率、循环神经网络模型的softmax输出层的L2范数偏差(L2Loss)等。当所述预设参数收敛后的循环神经网络模型的测试指标没有达到设定指标时,继续采用所述训练样本文本对所述预设参数收敛后的循环神经网络模型进行迭代训练,直至所述预设参数收敛后的循环神经网络模型的测试指标达到设定指标。
在具体实施中,可以采用步骤21至步骤24中对训练样本文本的处理流程对所述测试样本文本进行相同的处理。采用通过步骤21至步骤24处理之后的测试样本文本对预设参数收敛后的循环神经网络模型进行迭代训练。
所述循环神经网络模型可以包括:输入层、字嵌入层、GRU层、全连接层以及softmax输出层,不同层所对应的预设参数不同。相应地,训练得到的所述基于人工特征及注意力机制的循环神经网络模型,包括:输入层、字嵌入层、门控循环单元层、全连接层及输出层,其中:所述待识别文本从所述输入层输入至所述基于人工特征及注意力机制的循环神经网络模型,所述字嵌入层对所述待识别文本进行向量化处理,得到字向量;所述门控循环单元(GRU)层对所述待识别文本进行人工特征抽取,得到所述待识别文本对应的句子级别的人工特征;所述全连接层根据所述字嵌入层的向量化处理结果,对所述待识别文本进行转换,得到预设长度的向量;所述输出层基于预设长度的响度进行实体识别,得到待识别文本中的预设各实体之间的实体关系的识别结果。
此外,在训练得到基于人工特征和注意力机制的循环神经网络模型时,除了考虑训练样本的句子级别的人工特征之外,还引入注意力机制模型,以提高所述循环神经网络模型在训练过程中的注意力焦点和对实体的关注度,提高所得到的基于人工特征和注意力机制的循环神经网络模型对实体关系识别的精确度。
步骤12,输出所述待识别文本中的预设各实体之间的实体关系的识别结果。
在具体实施中,所输出的所述待识别文本中包括预设实体且所述实体对之间具有实体关系的内容以及实体关系类别。
由上述方案可知,采用基于人工特征及注意力机制的循环神经网络模型,对待识别文本进行实体关系识别,由于在基于人工特征及注意力机制的循环神经网络模型是基于训练样本文本及从所述训练样本文本中抽取的句子级别的人工特征抽取训练得到的。所抽取的句子级别的人工特征的可解释性较好,通过将训练样本文本的句子级别的人工特征输入至循环神经网络模型进行训练,从而可以提高基于人工特征及注意力机制的循环神经网络模型输出的待识别文本的实体关系的识别结果的可解释性,并兼顾实体关系的识别结果的准确度。
下面通过具体实施例对实体关系识别方法进行说明:对于文章标题为《2型糖尿病治疗中的新话题》长文本“[提要]2型糖尿病是一种慢性进展性疾病,但有研究显示对高血糖患者给予适当治疗后……”,对文章进行按标点符号“。”、“!”、“!”、“?”、“?”、“;”、“;”、“,”、“,”等进行句子划分;然后根据句子长度的阈值对相邻短句进行合并,对长句进行截取。
例如,一个截取后的句子如下:“停药2日后复查口服葡萄糖耐量试验####胰岛素)/(30min血糖-基线血糖)][10]。”,其中截取标识符号为“####”,“####”用于表示丢弃的部分。根据已知实体知识库中实体类型及实体名字对照表,如表1所示:
表1实体类型及实体名字对照表
Disease | 2型糖尿病 |
Drug | 格列齐特 |
Drug | 胰岛素 |
Drug | 二甲双胍 |
Test | 空腹血糖 |
Anatomy | β细胞 |
从所有符合长度要求的句子中,找出包含实体对的句子。例如,句子“让人们感到乐观的是能诱导2型糖尿病的蜜月期的能力并非胰岛素独有。”,包含实体对“2型糖尿病”和“胰岛素”,且根据样本集标注,存在实体关系“Drug_Disease”,因此该句为正样本。例如句子“非肥胖65例和肥胖69例患者经胰岛素泵强化治疗####联用格列齐特及二甲双胍)进行强化血糖控制治疗,”包含实体对“肥胖”和“二甲双胍”,但根据标注信息,不存在实体关系,因此该句为负样本。不包含实体对的句子直接丢弃,不放入样本集。
在确定了句子的正负样本之后,进一步对句子抽取人工特征。人工特征为:
1)实体A与实体B之间的真实距离;
2)文章中包含实体A与实体B组成的实体对的句子的数量;
3)实体A与实体B之间包含相同类型的实体的数量;
4)句子的真实长度;
5)实体A在句子中的位置idx;
6)实体B句子中的位置idx。
例如,句子“让人们感到乐观的是能诱导2型糖尿病的蜜月期的能力并非胰岛素独有。”,该句子对应的人工特征向量为V1=[16;5;50;34;13;28]。
另外由word2vec得到的字向量字典为:
……
糖[3.6743786;-0.82322466;……;-6.430479];
血[-13.011441;-8.47672;……;8.968685];
……
句子“让人们感到乐观的是能诱导2型糖尿病的蜜月期的能力并非胰岛素独有。”,可通过字向量拼接得到句子级别的人工特征向量V2=[1.3566198;-0.13941878;……;-0.35503578;5.332218;8.385963;……;10.479887;……-1.4991436;-0.81694573;……;0.91558063]。
将V1通过循环神经网络(RNN)的双向长短期记忆网络(Long Short Term Memory,LSTM)编码单元层得到的自动特征V3与人工特征V1拼接得到最终的句子向量,并送入基于人工特征及注意力机制的循环神经网络模型的softmax输出层进行分类,得到概率正样本(句子存在实体关系)概率为p,当p>0.5时,预测为正样本,反之为负样本。若p=0.78,则为正样本。
为了便于本领域技术人员更好的理解和实现本发明实施例,本发明实施例还提供一种实体关系识别装置。
参照图3,给出了本发明实施例中一种实体关系识别装置的结构示意图。所述实体关系识别装置30可以包括:输入单元31及输出单元32,其中:
所述输入元31,适于将待识别文本输入至预设的基于人工特征及注意力机制的循环神经网络模型进行实体关系识别,其中,所述基于人工特征及注意力机制的循环神经网络模型是基于训练样本文本及所述训练样本文本的句子级别的人工特征训练得到的,所述人工特征包括以下至少一种:句子的长度、句子中所包括的实体对之间的语义距离以及句子中所包括的实体的数目;
所述输出单元32,适于输出所述待识别文本中的预设各实体之间的实体关系的识别结果。
在具体实施中,所述实体关系识别装置30还可以包括:模型构建单元(图3未示出),适于采用如下方式训练得到所述基于人工特征及注意力机制的循环神经网络模型:基于所述训练样本文本进行词向量训练,得到所述训练样本文本对应的词向量及句向量;对所述训练样本文本进行短句变换处理,得到预设长度的短句;根据预设的实体关系标注文件,分别得到正样本和负样本,其中,所述正样本为:包括具有实体关系的实体对所对应的短句;所述负样本为:包括不具有实体关系的实体对所对应的短句;从所述短句中抽取句子级别的人工特征;将所述训练样本文本对应的句向量及各短句对应的人工特征分别输入至循环神经网络模型中进行迭代训练,直至所述循环神经网络模型中的预设参数收敛,得到所述基于人工特征及注意力机制的循环神经网络模型。
在具体实施中,所述模型构建单元,还可以适于在所述循环神经网络模型中的预设参数收敛之后,采用测试样本文本对预设参数收敛后的循环神经网络模型进行测试;判断所述预设参数收敛后的循环神经网络模型的测试指标是否达到设定指标;当所述预设参数收敛后的循环神经网络模型的测试指标达到设定指标后,得到所述基于人工特征及注意力机制的循环神经网络模型;当所述预设参数收敛后的循环神经网络模型的测试指标没有达到设定指标时,继续采用所述训练样本文本对所述预设参数收敛后的循环神经网络模型进行迭代训练,直至所述预设参数收敛后的循环神经网络模型的测试指标达到设定指标。
在具体实施中,所述模型构建单元,适于将所述各短句对应的人工特征转换成对应的向量;将所述训练样本文本对应的句向量以及所述各短句对应的人工特征转换成对应的向量合并至同一个向量内;将合并得到的向量输入至所述循环神经网络模型中进行迭代训练。
在具体实施中,所述模型构建单元,适于采用以下至少一种方式对所述训练样本文本中的句子进行短句变换处理,得到预设长度的短句:按照预设的标点符号,对所述训练样本文本进行短句切分;当短句的长度小于预设长度时,按照预定的拼接方式,将长度小于预设长度的短句拼入相邻短句;当短句的长度大于预设长度时,按照预设的截取条件,截取所述短句中不包含实体的部分并丢弃,将剩下的包含实体的部分拼接形成新的短句。
在具体实施中,所述模型构建单元,还适于丢弃不包括实体对的句子。
在具体实施中,所述输出单元32,适于输出所述待识别文本中包括预设实体且所述实体对之间具有实体关系的内容以及实体关系类别。
在具体实施中,所述基于人工特征及注意力机制的循环神经网络模型,包括:输入层、字嵌入层、门控循环单元层、全连接层及输出层,其中:所述输入层,适于输入所述待识别文本;所述字嵌入层,适于对所述待识别文本进行向量化处理,得到字向量;所述门控循环单元层,适于对所述待识别文本进行人工特征抽取,得到所述待识别文本对应的句子级别的人工特征;所述全连接层,适于根据所述字嵌入层的向量化处理结果,对所述待识别文本进行转换,得到预设长度的向量;所述输出层,适于基于预设长度的响度进行实体识别,得到待识别文本中的预设各实体之间的实体关系的识别结果。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于任一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (18)
1.一种实体关系识别方法,其特征在于,包括:
将待识别文本输入至预设的基于人工特征及注意力机制的循环神经网络模型进行实体关系识别,其中,所述基于人工特征及注意力机制的循环神经网络模型是基于训练样本文本及所述训练样本文本的句子级别的人工特征训练得到的,所述人工特征包括以下至少一种:句子的长度、句子中所包括的实体对之间的语义距离以及句子中所包括的实体的数目;
输出所述待识别文本中的预设各实体之间的实体关系的识别结果。
2.根据权利要求1所述的实体关系识别方法,其特征在于,采用如下方式训练得到所述基于人工特征及注意力机制的循环神经网络模型:
基于所述训练样本文本进行词向量训练,得到所述训练样本文本对应的词向量及句向量;
对所述训练样本文本进行短句变换处理,得到预设长度的短句;
根据预设的实体关系标注文件,分别得到正样本和负样本,其中,所述正样本为:包括具有实体关系的实体对所对应的短句;所述负样本为:包括不具有实体关系的实体对所对应的短句;
从所述短句中抽取句子级别的人工特征;
将所述训练样本文本对应的句向量及各短句对应的人工特征分别输入至循环神经网络模型中进行迭代训练,直至所述循环神经网络模型中的预设参数收敛,得到所述基于人工特征及注意力机制的循环神经网络模型。
3.根据权利要求2所述的实体关系识别方法,其特征在于,在所述循环神经网络模型中的预设参数收敛之后,还包括:
采用测试样本文本对预设参数收敛后的循环神经网络模型进行测试;
判断所述预设参数收敛后的循环神经网络模型的测试指标是否达到设定指标;
当所述预设参数收敛后的循环神经网络模型的测试指标达到设定指标后,得到所述基于人工特征及注意力机制的循环神经网络模型;
当所述预设参数收敛后的循环神经网络模型的测试指标没有达到设定指标时,继续采用所述训练样本文本对所述预设参数收敛后的循环神经网络模型进行迭代训练,直至所述预设参数收敛后的循环神经网络模型的测试指标达到设定指标。
4.根据权利要求2所述的实体关系识别方法,其特征在于,所述将所述训练样本文本对应的句向量及各短句对应的人工特征分别输入至所述循环神经网络模型中进行迭代训练,包括:
将所述各短句对应的人工特征转换成对应的向量;
将所述训练样本文本对应的句向量以及所述各短句对应的人工特征转换成对应的向量合并至同一个向量内;
将合并得到的向量输入至所述循环神经网络模型中进行迭代训练。
5.根据权利要求2或3所述的实体关系识别方法,其特征在于,采用以下至少一种方式对所述训练样本文本中的句子进行短句变换处理,得到预设长度的短句:
按照预设的标点符号,对所述训练样本文本进行短句切分;
当短句的长度小于预设长度时,按照预定的拼接方式,将长度小于预设长度的短句拼入相邻短句;
当短句的长度大于预设长度时,按照预设的截取条件,截取所述短句中不包含实体的部分并丢弃,将剩下的包含实体的部分拼接形成新的短句。
6.根据权利要求2或3所述的实体关系识别方法,其特征在于,在对所述训练样本文本进行短句变换处理时,还包括:
丢弃不包括实体对的句子。
7.根据权利要求1所述的实体关系识别方法,其特征在于,所述输出所述待识别文本中的预设各实体之间的实体关系的识别结果,包括:
输出所述待识别文本中包括预设实体且所述实体对之间具有实体关系的内容以及实体关系类别。
8.根据权利要求1所述的实体关系识别方法,其特征在于,所述基于人工特征及注意力机制的循环神经网络模型,包括:输入层、字嵌入层、门控循环单元层、全连接层及输出层,其中:
所述待识别文本从所述输入层输入至所述基于人工特征及注意力机制的循环神经网络模型,所述字嵌入层对所述待识别文本进行向量化处理,得到字向量;所述门控循环单元层对所述待识别文本进行人工特征抽取,得到所述待识别文本对应的句子级别的人工特征;所述全连接层根据所述字嵌入层的向量化处理结果,对所述待识别文本进行转换,得到预设长度的向量;所述输出层基于预设长度的响度进行实体识别,得到待识别文本中的预设各实体之间的实体关系的识别结果。
9.一种实体关系识别装置,其特征在于,包括:
输入单元,适于将待识别文本输入至预设的基于人工特征及注意力机制的循环神经网络模型进行实体关系识别,其中,所述基于人工特征及注意力机制的循环神经网络模型是基于训练样本文本及所述训练样本文本的句子级别的人工特征训练得到的,所述人工特征包括以下至少一种:句子的长度、句子中所包括的实体对之间的语义距离以及句子中所包括的实体的数目;
输出单元,适于输出所述待识别文本中的预设各实体之间的实体关系的识别结果。
10.根据权利要求9所述的实体关系识别装置,其特征在于,还包括:模型构建单元,适于采用如下方式训练得到所述基于人工特征及注意力机制的循环神经网络模型:基于所述训练样本文本进行词向量训练,得到所述训练样本文本对应的词向量及句向量;对所述训练样本文本进行短句变换处理,得到预设长度的短句;根据预设的实体关系标注文件,分别得到正样本和负样本,其中,所述正样本为:包括具有实体关系的实体对所对应的短句;所述负样本为:包括不具有实体关系的实体对所对应的短句;从所述短句中抽取句子级别的人工特征;将所述训练样本文本对应的句向量及各短句对应的人工特征分别输入至循环神经网络模型中进行迭代训练,直至所述循环神经网络模型中的预设参数收敛,得到所述基于人工特征及注意力机制的循环神经网络模型。
11.根据权利要求10所述的实体关系识别装置,其特征在于,所述模型构建单元,还适于在所述循环神经网络模型中的预设参数收敛之后,采用测试样本文本对预设参数收敛后的循环神经网络模型进行测试;判断所述预设参数收敛后的循环神经网络模型的测试指标是否达到设定指标;当所述预设参数收敛后的循环神经网络模型的测试指标达到设定指标后,得到所述基于人工特征及注意力机制的循环神经网络模型;当所述预设参数收敛后的循环神经网络模型的测试指标没有达到设定指标时,继续采用所述训练样本文本对所述预设参数收敛后的循环神经网络模型进行迭代训练,直至所述预设参数收敛后的循环神经网络模型的测试指标达到设定指标。
12.根据权利要求10所述的实体关系识别装置,其特征在于,所述模型构建单元,适于将所述各短句对应的人工特征转换成对应的向量;将所述训练样本文本对应的句向量以及所述各短句对应的人工特征转换成对应的向量合并至同一个向量内;将合并得到的向量输入至所述循环神经网络模型中进行迭代训练。
13.根据权利要求10或11所述的实体关系识别装置,其特征在于,所述模型构建单元,适于采用以下至少一种方式对所述训练样本文本中的句子进行短句变换处理,得到预设长度的短句:按照预设的标点符号,对所述训练样本文本进行短句切分;当短句的长度小于预设长度时,按照预定的拼接方式,将长度小于预设长度的短句拼入相邻短句;当短句的长度大于预设长度时,按照预设的截取条件,截取所述短句中不包含实体的部分并丢弃,将剩下的包含实体的部分拼接形成新的短句。
14.根据权利要求10或11所述的实体关系识别装置,其特征在于,所述模型构建单元,还适于丢弃不包括实体对的句子。
15.根据权利要求9所述的实体关系识别装置,其特征在于,所述输出单元,适于输出所述待识别文本中包括预设实体且所述实体对之间具有实体关系的内容以及实体关系类别。
16.根据权利要求9所述的实体关系识别装置,其特征在于,所述基于人工特征及注意力机制的循环神经网络模型,包括:输入层、字嵌入层、门控循环单元层、全连接层及输出层,其中:
所述输入层,适于输入所述待识别文本;
所述字嵌入层,适于对所述待识别文本进行向量化处理,得到字向量;
所述门控循环单元层,适于对所述待识别文本进行人工特征抽取,得到所述待识别文本对应的句子级别的人工特征;
所述全连接层,适于根据所述字嵌入层的向量化处理结果,对所述待识别文本进行转换,得到预设长度的向量;
所述输出层,适于基于预设长度的响度进行实体识别,得到待识别文本中的预设各实体之间的实体关系的识别结果。
17.一种实体关系识别装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求1至8任一项所述的实体关系识别方法的步骤。
18.一种计算机可读存储介质,计算机可读存储介质为非易失性存储介质或非瞬态存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至8任一项所述的实体关系识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910401516.XA CN112036181A (zh) | 2019-05-14 | 2019-05-14 | 实体关系识别方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910401516.XA CN112036181A (zh) | 2019-05-14 | 2019-05-14 | 实体关系识别方法、装置及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112036181A true CN112036181A (zh) | 2020-12-04 |
Family
ID=73575748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910401516.XA Withdrawn CN112036181A (zh) | 2019-05-14 | 2019-05-14 | 实体关系识别方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112036181A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113987090A (zh) * | 2021-12-28 | 2022-01-28 | 北京泷汇信息技术有限公司 | 句中实体关系模型训练方法及句中实体关系识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055675A (zh) * | 2016-06-06 | 2016-10-26 | 杭州量知数据科技有限公司 | 一种基于卷积神经网络和距离监督的关系抽取方法 |
CN107943847A (zh) * | 2017-11-02 | 2018-04-20 | 平安科技(深圳)有限公司 | 企业关系提取方法、装置及存储介质 |
CN108875809A (zh) * | 2018-06-01 | 2018-11-23 | 大连理工大学 | 联合attention机制与神经网络的生物医学实体关系分类方法 |
-
2019
- 2019-05-14 CN CN201910401516.XA patent/CN112036181A/zh not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055675A (zh) * | 2016-06-06 | 2016-10-26 | 杭州量知数据科技有限公司 | 一种基于卷积神经网络和距离监督的关系抽取方法 |
CN107943847A (zh) * | 2017-11-02 | 2018-04-20 | 平安科技(深圳)有限公司 | 企业关系提取方法、装置及存储介质 |
CN108875809A (zh) * | 2018-06-01 | 2018-11-23 | 大连理工大学 | 联合attention机制与神经网络的生物医学实体关系分类方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113987090A (zh) * | 2021-12-28 | 2022-01-28 | 北京泷汇信息技术有限公司 | 句中实体关系模型训练方法及句中实体关系识别方法 |
CN113987090B (zh) * | 2021-12-28 | 2022-03-25 | 北京泷汇信息技术有限公司 | 句中实体关系模型训练方法及句中实体关系识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021139424A1 (zh) | 文本内涵质量的评估方法、装置、设备及存储介质 | |
CN111738004A (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
CN109753660B (zh) | 一种基于lstm的中标网页命名实体抽取方法 | |
CN111709242B (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
US20180329894A1 (en) | Language conversion method and device based on artificial intelligence and terminal | |
CN111834014A (zh) | 一种医疗领域命名实体识别方法及*** | |
KR20200127020A (ko) | 의미 텍스트 데이터를 태그와 매칭시키는 방법, 장치 및 명령을 저장하는 컴퓨터 판독 가능한 기억 매체 | |
CN106844351B (zh) | 一种面向多数据源的医疗机构组织类实体识别方法及装置 | |
CN108920461B (zh) | 一种多类型且含复杂关系的实体抽取方法及装置 | |
CN110276069A (zh) | 一种中国盲文错误自动检测方法、***及存储介质 | |
CN113268576B (zh) | 一种基于深度学习的部门语义信息抽取的方法及装置 | |
CN104679735A (zh) | 语用机器翻译方法 | |
CN114662476A (zh) | 一种融合词典与字符特征的字符序列识别方法 | |
CN107451116B (zh) | 一种移动应用内生大数据统计分析方法 | |
CN110969005B (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
CN113362815A (zh) | 语音交互方法、***、电子设备及存储介质 | |
CN107783958B (zh) | 一种目标语句识别方法及装置 | |
CN113160917A (zh) | 一种电子病历实体关系抽取方法 | |
CN112036181A (zh) | 实体关系识别方法、装置及计算机可读存储介质 | |
CN111046663B (zh) | 一种中文表单的智能校正方法 | |
CN114637852B (zh) | 医学文本的实体关系抽取方法、装置、设备及存储介质 | |
CN113886521A (zh) | 一种基于相似词汇表的文本关系自动标注方法 | |
CN115600595A (zh) | 一种实体关系抽取方法、***、设备及可读存储介质 | |
CN114861628A (zh) | 训练机器翻译模型的***、方法、电子设备及存储介质 | |
CN110888976B (zh) | 一种文本摘要生成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201204 |