CN114496115B - 实体关系的标注自动生成方法和*** - Google Patents

实体关系的标注自动生成方法和*** Download PDF

Info

Publication number
CN114496115B
CN114496115B CN202210401925.1A CN202210401925A CN114496115B CN 114496115 B CN114496115 B CN 114496115B CN 202210401925 A CN202210401925 A CN 202210401925A CN 114496115 B CN114496115 B CN 114496115B
Authority
CN
China
Prior art keywords
data
training model
entity
entity relationship
vector group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210401925.1A
Other languages
English (en)
Other versions
CN114496115A (zh
Inventor
王苏宏
陈子东
肖志峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baixinghua Technology Co ltd
Original Assignee
Beijing Baixinghua Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baixinghua Technology Co ltd filed Critical Beijing Baixinghua Technology Co ltd
Priority to CN202210401925.1A priority Critical patent/CN114496115B/zh
Publication of CN114496115A publication Critical patent/CN114496115A/zh
Application granted granted Critical
Publication of CN114496115B publication Critical patent/CN114496115B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种实体关系的标注自动生成的方法、***、存储介质和处理器。将未标注数据输入第一训练模型得到第一向量组;将未标注数据输入第二训练模型得到第二向量组;根据第一向量组和第二向量组计算得分来判断未标注数据中任意两个实体之间最可能存在的实体关系作为初步标注数据;将初步标注数据作为增量学习数据重新对第二训练模型进行训练得到第三训练模型;根据比较结果更新第二训练模型并确定初步标注数据中需要标注的真正实体关系和实体。通过本发明解决了现有技术无法自动对大量实体关系自动生成标注的问题,能够快速准确的自动标注出大量数据中两两实体之间真正的实体关系。

Description

实体关系的标注自动生成方法和***
技术领域
本发明涉及自动标注领域,具体而言,涉及一种实体关系的标注自动生成的方法、***、存储介质和处理器。
背景技术
近年来大量研究从分子生物学角度论证中药的功效,将知识图谱运用于药物研究,由于药物研究过程中,存在大量复杂的药物实体关系,而目前现有的主动学习方法直接将不包含标签的特征输入至网络当中,从而发掘有价值的未标注数据,依然交给人工来进行标注,现有技术只能对已存在的主动学习模型发掘未标注数据的价值,而无法对在药物研发过程中出现的大量实体关系进行自动标注。
针对现有技术无法自动对大量实体关系自动生成标注的问题,目前尚未提出有效地解决方案。
发明内容
本发明提供了一种实体关系的标注自动生成的方法、***、存储介质和处理器,以解决无法自动对大量实体关系自动生成标注的问题。
根据本发明实施例的一个方面,提供了一种实体关系的标注自动生成的方法,包括:将未标注数据输入第一训练模型得到第一向量组,其中,所述第一向量组是用于记录未标注数据和已标注数据的区别信息,所述未标注数据包括实体和实体关系;将所述未标注数据输入第二训练模型得到第二向量组,其中,所述第二向量组是用于记录未标注数据存在与已标注数据中相同的实体关系;根据所述第一向量组和所述第二向量组计算得分来判断未标注数据中任意两个实体之间最可能存在的实体关系;将所述最可能存在的实体关系以及对应的实体作为初步标注数据;将所述初步标注数据作为增量学习数据重新对所述第二训练模型进行训练得到第三训练模型;通过测试集测试比较所述第二训练模型和所述第三训练模型得到比较结果;根据所述比较结果选择用所述第三训练模型更新所述第二训练模型,或者保持所述第二训练模型;根据所述比较结果确定所述初步标注数据中需要标注的真正实体关系和实体。
进一步地,将所述未标注数据输入所述第一训练模型得到所述第一向量组之前包括:将所述未标注数据以标注范围赋予一组预设标签,其中,所述标注范围是所述实体之间预设的实体关系,所述一组预设标签中有多个预设标签,每个所述预设标签对应标注一种实体关系。
进一步地,将所述未标注数据输入第一训练模型得到第一向量组包括:将所述未标注数据通过判别器把所述实体关系映射到向量空间得到第一向量组,其中,所述判别器是通过已标注数据训练得到的,所述已标注数据包括初始人工标注数据和自动标注数据,所述自动标注数据是标注的真正实体关系和实体。
进一步地,将所述未标注数据输入所述第二训练模型得到所述第二向量组包括:将所述未标注数据输入分类器得到第二向量组,其中,初始时所述分类器是由人工标注数据训练而成,标注过程时所述分类器是根据所述未标注数据、所述第一向量组和所述第二向量组训练得到的。
进一步地,根据所述第一向量组和所述第二向量组计算得分来判断未标注数据中任意两个实体之间最可能存在的实体关系包括:将所述第一向量组和所述第二向量组相加后除以二计算得到平均向量,其中,所述平均向量中的每个实体关系均有对应的平均分值;根据所述平均向量来为所述未标注数据中任意两个实体之间的实体关系进行打分得到每个实体关系的权重分数。
进一步地,根据所述平均向量来为所述未标注数据中任意两个实体之间的实体关系进行打分之后包括:将所述未标注数据中任意两个实体之间的实体关系分别输入相同的第二训练模型训练得到多个实体关系第二训练模型,其中,所述实体关系的数量与所述第二训练模型的数量相同;将多个实体关系第二训练模型分别乘以每个实体关系的权重分数,汇总所有实体关系第二训练模型得到新的第二训练模型。
进一步地,根据所述第一向量组和所述第二向量组计算得分来判断所述未标注数据中任意两个实体之间最可能存在的实体关系包括:将所述第一向量组和所述第二向量组相加后除以二计算得到平均向量,其中,所述平均向量中的每个实体关系均有对应的平均分值;判断所述平均向量中的所述平均分值最高的位置;将所述平均分值最高的位置处所对应的所述实体关系作为所述未标注数据中任意两个实体之间最可能存在的实体关系。
进一步地,通过测试集测试比较所述第二训练模型和所述第三训练模型得到比较结果包括:将所述测试集输入所述第一训练模型和所述第二训练模型分别计算得到测试结果,其中,所述测试结果包括所述第一训练模型的第一测试结果和所述第二训练模型的第二测试结果,计算比较所述测试结果的均方根误差和相关系数确定比较结果。
进一步地,根据所述比较结果选择用所述第三训练模型更新所述第二训练模型,或者保持所述第二训练模型之后包括:继续将在所述未标注数据中所述最可能存在的实体关系以及对应的实体作为初步标注的数据,直至所有的所述未标注数据中真正的实体关系被完全标注的情况下,将所述第二训练模型作为最终的第二训练模型;通过所述最终的第二训练模型对药物对应的实体关系进行识别。
根据本发明实施例的另一个方面,还提供了一种实体关系的标注自动生成***,包括:第一计算单元,用于将未标注数据输入第一训练模型得到第一向量组,其中,所述第一向量组是用于记录未标注数据和已标注数据的区别信息,所述未标注数据包括实体和实体关系;第二计算单元,用于将所述未标注数据输入第二训练模型得到第二向量组,其中,所述第二向量组是用于记录未标注数据存在与已标注数据中相同的实体关系;第三计算单元,用于根据所述第一向量组和所述第二向量组计算得分来判断未标注数据中任意两个实体之间最可能存在的实体关系;初步标注单元,用于将所述最可能存在的实体关系以及对应的实体作为初步标注数据;增量学习单元,用于将所述初步标注数据作为增量学习数据重新对所述第二训练模型进行训练得到第三训练模型;测试单元,用于通过测试集测试比较所述第二训练模型和所述第三训练模型得到比较结果;更新单元,用于根据所述比较结果选择用所述第三训练模型更新所述第二训练模型,或者保持所述第二训练模型;比较单元,用于根据所述比较结果确定所述初步标注数据中需要标注的真正实体关系和实体。
优选地,所述***包括:预处理单元,用于将所述未标注数据以标注范围赋予一组预设标签,其中,所述标注范围是所述实体之间预设的实体关系,所述一组预设标签中有多个预设标签,每个所述预设标签对应标注一种实体关系。
优选地,所述第一计算单元包括:判别器模块,用于将所述未标注数据通过判别器把所述实体关系映射到向量空间得到第一向量组,其中,所述判别器是通过已标注数据训练得到的,所述已标注数据包括初始人工标注数据和自动标注数据,所述自动标注数据是标注的真正实体关系和实体。
优选地,所述第二计算单元包括:分类器模块,用于将所述未标注数据输入分类器得到第二向量组,其中,初始时所述分类器是由人工标注数据训练而成,标注过程时所述分类器是根据所述未标注数据、所述第一向量组和所述第二向量组训练得到的。
优选地,所述第三计算单元包括:第三计算模块,用于将所述第一向量组和所述第二向量组相加后除以二计算得到平均向量,其中,所述平均向量中的每个实体关系均有对应的平均分值;第四计算模块,根据所述平均向量来为所述未标注数据中任意两个实体之间的实体关系进行打分得到每个实体关系的权重分数。
优选地,所述第三计算单元还包括:第五计算模块,用于将所述未标注数据中任意两个实体之间的实体关系分别输入相同的第二训练模型训练得到多个实体关系第二训练模型,其中,所述实体关系的数量与所述第二训练模型的数量相同;第六计算模块,用于将多个实体关系第二训练模型分别乘以每个实体关系的权重分数,汇总所有实体关系第二训练模型得到新的第二训练模型。
优选地,所述第三计算单元包括:第一计算模块,用于将所述第一向量组和所述第二向量组相加后除以二计算得到平均向量,其中,所述平均向量中的每个实体关系均有对应的平均分值;判断模块,用于判断所述平均向量中的所述平均分值最高的位置;确定模块,用于将所述平均分值最高的位置处所对应的所述实体关系作为所述未标注数据中任意两个实体之间最可能存在的实体关系。
优选地,所述测试单元包括:第二计算模块,用于将所述测试集输入所述第一训练模型和所述第二训练模型分别计算得到测试结果,其中,所述测试结果包括所述第一训练模型的第一测试结果和所述第二训练模型的第二测试结果,计算比较所述测试结果的均方根误差和相关系数确定比较结果。
优选地,所述***还包括:更新单元,用于继续将在所述未标注数据中所述最可能存在的实体关系以及对应的实体作为初步标注的数据,直至所有的所述未标注数据中真正的实体关系被完全标注的情况下,将所述第二训练模型作为最终的第二训练模型;识别单元,用于通过所述最终的第二训练模型对药物对应的实体关系进行识别。
根据本发明实施例的另一个方面,还提供给了一种存储介质,所述存储介质上保存有程序,所述程序被运行时执行上所述的方法。
根据本发明实施例的另一个方面,还提供给了一种处理器,包括存储介质,所述存储介质上保存有程序,所述程序被运行时执行上述的方法。
根据本发明实施例中,采用将未标注数据输入第一训练模型得到第一向量组,其中,所述第一向量组是用于记录未标注数据和已标注数据的区别信息,所述未标注数据包括实体和实体关系;将所述未标注数据输入第二训练模型得到第二向量组,其中,所述第二向量组是用于记录未标注数据存在与已标注数据中相同的实体关系;根据所述第一向量组和所述第二向量组计算得分来判断未标注数据中任意两个实体之间最可能存在的实体关系;将所述最可能存在的实体关系以及对应的实体作为初步标注数据;将所述初步标注数据作为增量学习数据重新对所述第二训练模型进行训练得到第三训练模型;通过测试集测试比较所述第二训练模型和所述第三训练模型得到比较结果;根据所述比较结果选择用所述第三训练模型更新所述第二训练模型,或者保持所述第二训练模型;根据所述比较结果确定所述初步标注数据中需要标注的真正实体关系和实体。通过本发明解决了现有技术无法自动对大量实体关系自动生成标注的问题,能够快速准确的自动标注出大量数据中两两实体之间真正的实体关系。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种用于实体关系的标注自动生成方法的流程图;
图2是根据本发明实施例的一种判别器示意图;
图3是根据本发明实施例的另一种可选的实体关系的标注自动生成方法的流程图;
图4是根据本发明实施例的另一种可选的实体关系的标注自动生成方法的详细流程图;
图5是根据本发明实施例的另一种可选的实体关系的标注自动生成方法的详细流程图;
图6是根据本发明实施例的另一种可选的实体关系的标注自动生成质量分析的流程图;
图7是根据本发明实施例的另一种可选的分类器模型生成原理示意图;
图8是根据本发明实施例的另一种可选的实体关系的示意图;
图9是根据本发明实施例的一种判别器工作流程示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供了一种实体关系的标注自动生成方法。图1是根据本发明实施例的一种用实体关系的标注自动生成方法的流程图。如图1所示,该方法包括如下步骤:
步骤S1002, 将未标注数据输入第一训练模型得到第一向量组,其中,所述第一向量组是用于记录未标注数据和已标注数据的区别信息,所述未标注数据包括实体和实体关系;
步骤S1004,将所述未标注数据输入第二训练模型得到第二向量组,其中,所述第二向量组是用于记录未标注数据存在与已标注数据中相同的实体关系;
步骤S1006,根据所述第一向量组和所述第二向量组计算得分来判断未标注数据中任意两个实体之间最可能存在的实体关系;
步骤S1008,将所述最可能存在的实体关系以及对应的实体作为初步标注数据;
步骤S1010,将所述初步标注数据作为增量学习数据重新对所述第二训练模型进行训练得到第三训练模型;
步骤S1012,通过测试集测试比较所述第二训练模型和所述第三训练模型得到比较结果;
步骤S1014,根据所述比较结果选择用所述第三训练模型更新所述第二训练模型,或者保持所述第二训练模型;
步骤S1016,根据所述比较结果确定所述初步标注数据中需要标注的真正实体关系和实体。
上述步骤将所有的未标注数据的每一条数据通过两个训练好的模型计算出两个向量组,再通过两个向量组计算的得分初步找到可能需要标注的实体关系,将该实体关系自动加入到初步标注的候选实体关系标注池中, 每一条未标注的数据均包含至少两个实体以及这两个实体之间预设的实体关系。用候选实体关系标注池中的初步标注数据反过来再次训练第二训练模型,初步标注的数据就是通过第二训练模型和另外的第一训练模型得到的,所以其实就是将两个模型的结构进行了融合,与现有技术中单纯使用一种模型然后最后进行手工或者专家标注不同,本实施例改变主动学习模型结构的同时,还通过测试集计算优化第二训练模型,将优化后的第二训练模型继续与第一训练模型结合,对未标注数据进行自动标注,直至所有的未标注数据自动标注完毕,或者未标注数据中的脏数据被排除干净。本实施例解决了现有技术中无法自动对大量数据的实体关系生成标注的问题,能够快速准确的自动标注出大量数据中两两实体之间真正的实体关系。
未标注数据中包含很多的实体和实体关系,需要对未标注数据进行预处理,在一种可选的实施方式中,将所述未标注数据输入所述第一训练模型得到所述第一向量组之前可以将所述未标注数据以标注范围赋予一组预设标签,其中,所述标注范围是所述实体之间预设的实体关系,所述一组预设标签中有多个预设标签,每个所述预设标签对应标注一种实体关系。例如,如图8所示的实体关系。一个二元关系由一对实体构成:《头实体,尾实体》,每个抽取的关系从属于一种预定义的关系类型。知识图谱可以考虑四种实体类型和五种关系类型。
如下表所示,对每种关系类型列举了一个例子
Figure 393965DEST_PATH_IMAGE001
上述步骤S1002中第一训练模型可以是CGAN判别器,在一种可选的实施方式中,
将所述未标注数据通过CGAN判别器把所述实体关系映射到向量空间得到第一向量组,其中,所述CGAN判别器是通过已标注数据训练得到的,所述已标注数据包括初始人工标注数据和自动标注数据,所述自动标注数据是标注的真正实体关系和实体。
如图2和图3所示,本主动学习框架当中的判别器部分使用了CGAN的判别器,即将标签映射到向量空间,结合特征一起输入至神经网络当中。判别器分别接收到数据实体与数据对应的标签(实体关系),将标签映射(通过一层全连接神经网络)至向量空间后与主干网络结合(拼接),然后交给后续DNN来判别是否为已标注数据。判别器经过不断学习后,在未被标注的数据集当中找出部分值得学习的数据,并比较该数据的所有标签组合(可能的实体关系)作为图3中的向量组
Figure 635591DEST_PATH_IMAGE002
CGAN判别器的训练过程如图9所示,通过已标注数据训练得到的。判别器分别接收到数据与数据对应的标签,将标签embedding后与主干网络结合(concat),然后交给后续DNN来判别是否为已标注数据。判别器经过不断学习后,在未被标注的数据集当中找出部分值得学习的数据,并比较该数据的所有标签组合设为向量组
Figure 348199DEST_PATH_IMAGE002
上述步骤S1004中的第二训练模型是一种分类器模型,可以是BioBERT分类器,且不限于BioBERT分类器,在一种可选的实施方式中,将所述未标注数据输入所述第二训练模型得到所述第二向量组包括:将所述未标注数据输入BioBERT分类器得到第二向量组,其中,初始时所述BioBERT分类器是由人工标注数据训练而成,标注过程时所述BioBERT分类器是根据所述未标注数据、所述第一向量组和所述第二向量组训练得到的。未标注数据集中的某条数据经过BioBert模型来预测取出结果为图3中向量组
Figure 194932DEST_PATH_IMAGE003
(第二向量组)。
下面结合图3作为一个可选的实施方式对上述过程进行详细说明:
预处理过程:待处理的数据集分为人工标注的数据和未被标注的数据。先将未被标注的数据以标签范围赋予一组标签,并和人工标注的数据集共同于判别器当中训练判别器作为第一训练模型;同时,划分人工标注数据集为训练集和测试集,比例为8:2,使分类器模型(BioBERT模型)在训练集中进行训练得到第二训练模型。
自动标注过程:将未标注数据集中的一部分数据使用训练后的判别器(第二训练模型)判断该条数据是否为已标注数据。将第一训练模型和第二训练模型相结合,图3中取每个向量中最高数值的位置,这个位置就对应了实体关系(实体关系的位置和分数的位置是一一对应的),如图3所示自动给某些未标注的数据对着的某个实体关系进行主动标注;
标注质量检验与模型优化过程:把标注的数据对应的实体关系作为增量学习的数据,输入到第二训练模型(分类器模型,可以是biobert模型)中,进行增量学习,把增量学习后的模型和原来的分类器模型(biobert模型)进行比较,方式就是用测试集测试,分别输入到两个模型中,然后比较输出结果的R^2和 RMS,最后根据这个判断的结果来确定是不是用增量学习后的模型更新分类器模型得到最优的第二训练模型。更新完分类器模型后,重复自动标注步骤,直到标注完成或剔除所有脏数据,则停止标注(无价值的数据)。
在一种可选的实施方式中,根据所述第一向量组和所述第二向量组计算得分来判断所述未标注数据中任意两个实体之间最可能存在的实体关系包括:将所述第一向量组和所述第二向量组相加后除以二计算得到平均向量,其中,所述平均向量中的每个实体关系均有对应的平均分值;判断所述平均向量中的所述平均分值最高的位置;将所述平均分值最高的位置处所对应的所述实体关系作为所述未标注数据中任意两个实体之间最可能存在的实体关系。
下面结合图4对自动标注详细流程进行说明:
图4表示将未标注数据集中的某一条未标注数据(包括X1和X2分别表述某一条数据中的两个实体),进行预处理得到X1和X2两个实体之间可能的五种实体关系,比如,X1X23,表示某一条未标注的数据对应的第3种实体关系,将五种实体关系分别输入判别器(第一训练模型)中,得到第一向量组
Figure 530099DEST_PATH_IMAGE002
,向量组
Figure 445971DEST_PATH_IMAGE002
是已标记数据(包括人工已标记,和模型训练每次迭代中自动标记)与未标记数据的区别;将某一条未标注数据的实体输入第二训练模型得到第二向量组
Figure 462468DEST_PATH_IMAGE003
,第一向量组
Figure 960446DEST_PATH_IMAGE002
中,紧随X1和X2后的数字指代了实体关系,如,1:0.3,代表未标注数据对应的第一个实体关系的分数是0.3。,向量组β是指在已标注数据中挖掘未标注数据可能的实体关系。向量组
Figure 420508DEST_PATH_IMAGE002
和向量组
Figure 43251DEST_PATH_IMAGE003
都是通过模型算出来的,以理解为概率学当中的估计量,是一种间接的对应关系。 计算
Figure 925756DEST_PATH_IMAGE004
来找出每组向量中最大的数,且将分数最大的标签(实体关系)和数据组合作为临时的自动标注数据(初步标注数据)。
图4中数据集的五个实体关系可以如下:
Chemical Effect Gene 化合物影响基因
erb has Compound Chemical 中草药包含化合物
Herb Treat Disease 中草药治疗疾病
Chemical Act On Disease 化合物对疾病起的作用
Gene Influence Disease 基因影响疾病
在一种可选的实施方式中,根据所述第一向量组和所述第二向量组计算得分来判断未标注数据中任意两个实体之间最可能存在的实体关系包括:将所述第一向量组和所述第二向量组相加后除以二计算得到平均向量,其中,所述平均向量中的每个实体关系均有对应的平均分值;根据所述平均向量来为所述未标注数据中任意两个实体之间的实体关系进行打分得到每个实体关系的权重分数。
下面结合图5一个可选的实施例对上述过程进行说明:
计算
Figure 730770DEST_PATH_IMAGE004
来找出每组向量中最大的数之后,图5赋予任意两个实体之间的实体关系一个权重分数,该权重分数表明意两个实体之间的某种实体关系的可能性大小,然后使用这些实体关系的权重大小去计算更新分类器模型(如图7所示,参考接下来图7的具体实施例过程),在不断的优化过程中最终筛选出自动标注的数据。
通过该方法进一步优化图4中的过程,使模型学***均向量来为所述未标注数据中任意两个实体之间的实体关系进行打分之后,在一种可选的实施方式中,包括:将所述未标注数据中任意两个实体之间的实体关系分别输入相同的第二训练模型训练得到多个实体关系第二训练模型,其中,所述实体关系的数量与所述第二训练模型的数量相同;将多个实体关系第二训练模型分别乘以每个实体关系的权重分数,汇总所有实体关系第二训练模型得到新的第二训练模型。
下面结合图7以一个可选的实施方式对上述过程进行说明:
X1和X2分别表述某一条数据中的两个实体,X1和X2两个实体之间可能的五种实体关系,比如,X1X2 3,表示某一条未标注的数据对应的第3种实体关系,X1X2的五种实体关系经过图5过程的计算后分别获得了某一条未标注的数据中每种可能实体关系对应的权重分数(标签权重),比如,图7中0.1就是X1、X2第一种实体关系对应的权重分数,然后将某一条未标注的数据每种实体关系均输入到相同的分类器模型中(图7中的BioBERT α1-α5)训练模型,将训练好的五个分类器模型(模型权重分布∑1到∑5)分别乘以各自输入实体关系所对应的标签权重分数,汇总求和得到最终的分类器模型(Final BioBERT),如果自动标注没有结束,则将Final BioBERT 模型作为新的分类器模型,继续如图7中所示过程,复制五份成为BioBERT α1-α5个模型,继续使用未标注数据中的每种实体关系同时对相同的五个分类器模型进行训练,得到五个不同的分类器模型后,继续乘以新的各自输入实体关系所对应的权重分数,最后汇总相加五个分类器模型,得到最终的分类器模型,直至自动标注过程结束,该最终分类器模型,同时也会更新图6中的分类器模型,直至自动标注结束。
通过上述方法,可以学习到更多的软特征,使模型对特征的计算将更为细致,使用普通的分类器模型直接对实体关系进行训练,可能导致自动标注的结果状态是离散的,而图7这样的学习方法可以使模型学习到更佳细致的特征,对模型不断微调,最终自动标注状态是连续形式的(0-1空间内连续),自动标注的结果也更加真实准确。
在一种可选的实施方式中,通过测试集测试比较所述第二训练模型和所述第三训练模型得到比较结果包括:将所述测试集输入所述第一训练模型和所述第二训练模型分别计算得到测试结果,其中,所述测试结果包括所述第一训练模型的第一测试结果和所述第二训练模型的第二测试结果,计算比较所述测试结果的均方根误差和相关系数确定比较结果。
下面结合图6一个可选的实施例对上述过程进行说明:
通过第一训练模型和第二训练模型计算
Figure 611001DEST_PATH_IMAGE004
来找出每组向量中最大的数,且将分数最大的标签和数据组合作为临时的自动标注数据(初步标注数据)。然后用初步标注的数据(自动标注数据)和人工标注数据集当中的训练集在主模型(第二训练模型)上做增量学习(仅对自动标注数据做增量),把测试数据分别放入到增量学习样本训练后的模型以及最开始的分类器(可以是biobert模型)模型中计算比较,看R^2是上升或RMSE下降,也就是用图3或图4中每自动标注一部分数据,就用这一部分数据对分类器模型训练,得到增量学习的模型,比较模型,当增量学习后的模型与基础分类器模型相比有了更好的分数(R^2上升或RMSE下降),即认为标注有效,划为有益数据(有价值的数据,即为真正的实体关系)并更新基础分类器与最新的评价指标;倘若增量学习后的模型与基础分类器模型相比得到更差的分数(R^2下降或RMSE上升),即认为标注无效,不更新第二训练模型。
通过上述图4的过程要找到与最高分数对应的实体关系,这个关系才是自动标注最后确定标注的实体关系,图5找到每种可能实体关系对应的标签权重分数,最终通过标签权重分数更新训练分类器模型后,再确定自动标注的实体关系。而图6的步骤是为了检验标签的质量,剔除会对模型造成负面影响的垃圾数据,且实时更新最优模型,使得标注更加快速准确。
根据所述比较结果选择用所述第三训练模型更新所述第二训练模型,或者保持所述第二训练模型之后,在一种可选的实施方式中,包括:继续将在所述未标注数据中所述最可能存在的实体关系以及对应的实体作为初步标注的数据,直至所有的所述未标注数据中真正的实体关系被完全标注的情况下,将所述第二训练模型作为最终的第二训练模型;通过所述最终的第二训练模型对药物对应的实体关系进行识别。下面结合一个可选的实施方式举例对上述所有步骤进行说明:
现有针对传统中药的知识图谱研究大多关注药方、疾病、症状三者的关系,而非从分子和基因角度关注中药成分的生物化学功效。近年来大量研究从分子生物学角度论证中药的功效,为本项技术的发明提供了大量训练数据。本发明构建了已知的第一个分子级别的中药知识图谱,并据此开发一种中药再利用的智能***。图谱可以定义四种实体类型,包括中药、化合物、基因和疾病,同时定义了实体类型间的相互关系。图谱***的构建包括实体识别和关系抽取两大核心模块,能够精确而高效的从非结构化文献中提取信息。
实体识别过程:图谱***中的实体识别模块是实用的已有***pubtator,对于每篇文献,先使用pubtator进行实体识别,然后人工标注实体间的关系。选用BioBERT,并在中药文献文本上进行进一步的预训练得到第二训练模型,使其充分学习本领域知识。
关系抽取过程:
1)数据预处理步骤:在各种文献当中收集草药数据、分割实体以及人工标注。构造分类器模型(BioBERT模型)并在BioBERT模型上对已人工标注好的草药数据进行训练,找寻其实体关系。
2)对实体关系进行自动标注步骤:将未标注数据使用BioBERT分类器训练,构造主动学习模型,并增加CGAN判别器以修改主动学习模型结构,使主动学习模型能够结合药物实体以及药物实体关系来找寻更有价值的未标注数据。CGAN判别器结合BioBERT模型对主动学习当中找到的高价值药物实体数据进行主动标注。
3)模型与标注结果优化:使用自动标注的数据对分类器模型(BioBERT模型)进行增量学习得到新的BioBERT模型,基于测试集来判断自动标注的质量并决定是否保留该标注结果以及是否更新BioBERT模型。
4)实体关系识别步骤:基于最优化的分类器模型(BioBERT模型)对中药物实体关系进行识别。
上述过程中,对BioBERT在自动标注数据集上进行训练后,将最后训练好的模型应用在爬取的超过50万中药相关的pubmed文献摘要中,提取了超过5万个关系,可以用于填充知识图谱。知识图谱可以支持丰富的下游应用,比如,可以为理解中药的分子机理提供论据,也可以为老药新用提供训练和推理数据。
药物重新定位或再利用旨在发现现有药物在其原始用途范围之外的新的医学适应症。在本发明的图谱上,药物重新定位可以转化为一个链接预测问题,该问题预测一种化学物质和一种疾病之间的潜在关联,而这些关联以前并未知晓。以下为具体步骤。首先,选择一种疾病,例如帕金森病,并在图谱中定位该疾病以及相关联的中药、化合物以及基因。其次,根据找到的基因作为起点,在图谱中寻找与疾病不直接相关的化学物质,而这些化学物质可被视为候选药物。
本发明实施例还提供了一种实体关系的标注自动生成***,该***可以通过计算单元、初步标注单元、增量学习单元、测试单元和比较单元实现其功能。需要说明的是,本发明实施例的一种实体关系的标注自动生成***可以用于执行本发明实施例所提供的一种实体关系的标注自动生成方法,本发明实施例的一种实体关系的标注自动生成方法也可以通过本发明实施例所提供的一种实体关系的标注自动生成***来执行。一种实体关系的标注自动生成***包括:
第一计算单元,用于将未标注数据输入第一训练模型得到第一向量组,其中,所述第一向量组是用于记录未标注数据和已标注数据的区别信息,所述未标注数据包括实体和实体关系;
第二计算单元,用于将所述未标注数据输入第二训练模型得到第二向量组,其中,所述第二向量组是用于记录未标注数据存在与已标注数据中相同的实体关系;
第三计算单元,用于根据所述第一向量组和所述第二向量组计算得分来判断未标注数据中任意两个实体之间最可能存在的实体关系;
初步标注单元,用于将所述最可能存在的实体关系以及对应的实体作为初步标注数据;
增量学习单元,用于将所述初步标注数据作为增量学习数据重新对所述第二训练模型进行训练得到第三训练模型;
测试单元,用于通过测试集测试比较所述第二训练模型和所述第三训练模型得到比较结果;
更新单元,用于根据所述比较结果选择用所述第三训练模型更新所述第二训练模型,或者保持所述第二训练模型;
比较单元,用于根据所述比较结果确定所述初步标注数据中需要标注的真正实体关系和实体。
在一种可选的实施例中,所述***包括:预处理单元,用于将所述未标注数据以标注范围赋予一组预设标签,其中,所述标注范围是所述实体之间预设的实体关系,所述一组预设标签中有多个预设标签,每个所述预设标签对应标注一种实体关系。
在一种可选的实施例中,所述第一计算单元包括: CGAN判别器模块,用于将所述未标注数据通过CGAN判别器把所述实体关系映射到向量空间得到第一向量组,其中,所述CGAN判别器是通过已标注数据训练得到的,所述已标注数据包括初始人工标注数据和自动标注数据,所述自动标注数据是标注的真正实体关系和实体。
在一种可选的实施例中,所述第二计算单元包括:BioBERT分类器模块,用于将所述未标注数据输入BioBERT分类器得到第二向量组,其中,初始时所述BioBERT分类器是由人工标注数据训练而成,标注过程时所述BioBERT分类器是根据所述未标注数据、所述第一向量组和所述第二向量组训练得到的。
在一种可选的实施例中,第三计算单元包括:第三计算模块,用于将所述第一向量组和所述第二向量组相加后除以二计算得到平均向量,其中,所述平均向量中的每个实体关系均有对应的平均分值;第四计算模块,根据所述平均向量来为所述未标注数据中任意两个实体之间的实体关系进行打分得到每个实体关系的权重分数。
在一种可选的实施例中,第三计算单元还包括:第五计算模块,用于将所述未标注数据中任意两个实体之间的实体关系分别输入相同的第二训练模型训练得到多个实体关系第二训练模型,其中,所述实体关系的数量与所述第二训练模型的数量相同;第六计算模块,用于将多个实体关系第二训练模型分别乘以每个实体关系的权重分数,汇总所有实体关系第二训练模型得到新的第二训练模型。
在一种可选的实施例中,所述第三计算单元包括:第一计算模块,用于将所述第一向量组和所述第二向量组相加后除以二计算得到平均向量,其中,所述平均向量中的每个实体关系均有对应的平均分值;判断模块,用于判断所述平均向量中的所述平均分值最高的位置;确定模块,用于将所述平均分值最高的位置处所对应的所述实体关系作为所述未标注数据中任意两个实体之间最可能存在的实体关系。
在一种可选的实施例中,所述测试单元包括:第二计算模块,用于将所述测试集输入所述第一训练模型和所述第二训练模型分别计算得到测试结果,其中,所述测试结果包括所述第一训练模型的第一测试结果和所述第二训练模型的第二测试结果,计算比较所述测试结果的均方根误差和相关系数确定比较结果。
在一种可选的实施例中,所述***还包括:更新单元,用于继续将在所述未标注数据中所述最可能存在的实体关系以及对应的实体作为初步标注的数据,直至所有的所述未标注数据中真正的实体关系被完全标注的情况下,将所述第二训练模型作为最终的第二训练模型;识别单元,用于通过所述最终的第二训练模型对药物对应的实体关系进行识别。
上述一种实体关系的标注自动生成***实施例是与一种实体关系的标注自动生成方法相对应的,所以对于有益效果不再赘述。
本发明实施例提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述方法。
本发明实施例提供了一种处理器,处理器包括处理的程序,其中,在程序运行时控制处理器所在设备执行上述方法。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、移动终端、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种实体关系的标注自动生成方法,其特征在于,包括:
将未标注数据输入第一训练模型把实体关系映射到向量空间得到第一向量组,其中,所述第一训练模型为判别器,所述判别器是通过已标注数据训练得到的,所述已标注数据包括初始人工标注数据和自动标注数据,所述自动标注数据是标注的真正实体关系和实体,所述第一向量组是用于记录未标注数据是否是已标注数据的区别信息,所述第一向量组是由判别器经过不断学习后,在未标注的数据集当中找到部分值得学习的数据,并比较该数据的所有标签的组合,所述未标注数据包括实体和实体关系;
将所述未标注数据输入第二训练模型得到第二向量组,其中,所述第二训练模型为分类器,所述第二向量组是用于记录未标注数据存在与已标注数据中相同的实体关系;
根据所述第一向量组和所述第二向量组计算得到得分向量,选取所述得分向量中得分最高的位置处所对应的实体关系作为未标注数据中任意两个实体之间最可能存在的实体关系;
将所述最可能存在的实体关系以及对应的实体作为初步标注数据;
将所述初步标注数据作为增量学习数据重新对所述第二训练模型进行训练得到第三训练模型;
通过测试集测试比较所述第二训练模型和所述第三训练模型得到比较结果;
根据所述比较结果选择用所述第三训练模型更新所述第二训练模型,或者保持所述第二训练模型;
根据所述比较结果确定所述初步标注数据中需要标注的真正实体关系和实体。
2.根据权利要求1所述的方法,其特征在于,将所述未标注数据输入所述第一训练模型得到所述第一向量组之前包括:
将所述未标注数据以标注范围赋予一组预设标签,其中,所述标注范围是所述实体之间预设的实体关系,所述一组预设标签中有多个预设标签,每个所述预设标签对应标注一种实体关系。
3.根据权利要求2所述的方法,其特征在于,将所述未标注数据输入第一训练模型得到第一向量组包括:
将所述未标注数据通过判别器把所述实体关系映射到向量空间得到第一向量组,其中,所述判别器是通过已标注数据训练得到的,所述已标注数据包括初始人工标注数据和自动标注数据,所述自动标注数据是标注的真正实体关系和实体。
4.根据权利要求1所述的方法,其特征在于,将所述未标注数据输入所述第二训练模型得到所述第二向量组包括:
将所述未标注数据输入分类器得到第二向量组,其中,初始时所述分类器是由人工标注数据训练而成,标注过程时所述分类器是根据所述未标注数据、所述第一向量组和所述第二向量组训练得到的。
5.根据权利要求1所述的方法,其特征在于,根据所述第一向量组和所述第二向量组计算得分来判断未标注数据中任意两个实体之间最可能存在的实体关系包括:
将所述第一向量组和所述第二向量组相加后除以二计算得到平均向量,其中,所述平均向量中的每个实体关系均有对应的平均分值;
根据所述平均向量来为所述未标注数据中任意两个实体之间的实体关系进行打分得到每个实体关系的权重分数。
6.根据权利要求5所述的方法,其特征在于,根据所述平均向量来为所述未标注数据中任意两个实体之间的实体关系进行打分之后包括:
将所述未标注数据中任意两个实体之间的实体关系分别输入相同的第二训练模型训练得到多个实体关系第二训练模型,其中,所述实体关系的数量与所述第二训练模型的数量相同;
将多个实体关系第二训练模型分别乘以每个实体关系的权重分数,汇总所有实体关系第二训练模型得到新的第二训练模型。
7.根据权利要求1所述的方法,其特征在于,根据所述第一向量组和所述第二向量组计算得分来判断所述未标注数据中任意两个实体之间最可能存在的实体关系包括:
将所述第一向量组和所述第二向量组相加后除以二计算得到平均向量,其中,所述平均向量中的每个实体关系均有对应的平均分值;
判断所述平均向量中的所述平均分值最高的位置;
将所述平均分值最高的位置处所对应的所述实体关系作为所述未标注数据中任意两个实体之间最可能存在的实体关系。
8.根据权利要求1所述的方法,其特征在于,通过测试集测试比较所述第二训练模型和所述第三训练模型得到比较结果包括:
将所述测试集输入所述第一训练模型和所述第二训练模型分别计算得到测试结果,其中,所述测试结果包括所述第一训练模型的第一测试结果和所述第二训练模型的第二测试结果,计算比较所述测试结果的均方根误差和相关系数确定比较结果。
9.根据权利要求1所述的方法,其特征在于,根据所述比较结果选择用所述第三训练模型更新所述第二训练模型,或者保持所述第二训练模型之后包括:
继续将在所述未标注数据中所述最可能存在的实体关系以及对应的实体作为初步标注的数据,直至所有的所述未标注数据中真正的实体关系被完全标注的情况下,将所述第二训练模型作为最终的第二训练模型;
通过所述最终的第二训练模型对药物对应的实体关系进行识别。
10.一种实体关系的标注自动生成***,其特征在于,包括:
第一计算单元,用于将未标注数据输入第一训练模型得到第一向量组,其中,所述第一训练模型为判别器,所述判别器是通过已标注数据训练得到的,所述已标注数据包括初始人工标注数据和自动标注数据,所述自动标注数据是标注的真正实体关系和实体,所述第一向量组是用于记录未标注数据是否是已标注数据的区别信息,所述第一向量组是由判别器经过不断学习后,在未标注的数据集当中找到部分值得学习的数据,并比较该数据的所有标签的组合,所述未标注数据包括实体和实体关系;
第二计算单元,用于将所述未标注数据输入第二训练模型得到第二向量组,其中,所述第二训练模型为分类器,所述第二向量组是用于记录未标注数据存在与已标注数据中相同的实体关系;
第三计算单元,用于根据所述第一向量组和所述第二向量组计算得到得分向量,选取所述得分向量中得分最高的位置处所对应的实体关系作为未标注数据中任意两个实体之间最可能存在的实体关系;
初步标注单元,用于将所述最可能存在的实体关系以及对应的实体作为初步标注数据;
增量学习单元,用于将所述初步标注数据作为增量学习数据重新对所述第二训练模型进行训练得到第三训练模型;
测试单元,用于通过测试集测试比较所述第二训练模型和所述第三训练模型得到比较结果;
更新单元,用于根据所述比较结果选择用所述第三训练模型更新所述第二训练模型,或者保持所述第二训练模型;
比较单元,用于根据所述比较结果确定所述初步标注数据中需要标注的真正实体关系和实体。
11.一种存储介质,其特征在于,所述存储介质上保存有程序,所述程序被运行时执行权利要求1至9中任一项所述的方法。
12.一种处理器,其特征在于,包括存储介质,所述存储介质上保存有程序,所述程序被运行时执行权利要求1至9中任一项所述的方法。
CN202210401925.1A 2022-04-18 2022-04-18 实体关系的标注自动生成方法和*** Active CN114496115B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210401925.1A CN114496115B (zh) 2022-04-18 2022-04-18 实体关系的标注自动生成方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210401925.1A CN114496115B (zh) 2022-04-18 2022-04-18 实体关系的标注自动生成方法和***

Publications (2)

Publication Number Publication Date
CN114496115A CN114496115A (zh) 2022-05-13
CN114496115B true CN114496115B (zh) 2022-08-23

Family

ID=81489498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210401925.1A Active CN114496115B (zh) 2022-04-18 2022-04-18 实体关系的标注自动生成方法和***

Country Status (1)

Country Link
CN (1) CN114496115B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021212749A1 (zh) * 2020-04-24 2021-10-28 平安科技(深圳)有限公司 命名实体标注方法、装置、计算机设备和存储介质
WO2022022045A1 (zh) * 2020-07-27 2022-02-03 平安科技(深圳)有限公司 基于知识图谱的文本比对方法、装置、设备及存储介质
WO2022048210A1 (zh) * 2020-09-03 2022-03-10 平安科技(深圳)有限公司 命名实体识别方法、装置、电子设备及可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959474B (zh) * 2018-06-20 2021-12-28 上海交通大学 实体关系提取方法
CN111985239B (zh) * 2020-07-31 2024-04-26 杭州远传新业科技股份有限公司 实体识别方法、装置、电子设备及存储介质
CN114091458A (zh) * 2021-11-12 2022-02-25 北京明略软件***有限公司 基于模型融合的实体识别方法和***
CN113901825B (zh) * 2021-11-22 2024-05-03 东北大学 一种基于主动深度学习的实体关系联合抽取方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021212749A1 (zh) * 2020-04-24 2021-10-28 平安科技(深圳)有限公司 命名实体标注方法、装置、计算机设备和存储介质
WO2022022045A1 (zh) * 2020-07-27 2022-02-03 平安科技(深圳)有限公司 基于知识图谱的文本比对方法、装置、设备及存储介质
WO2022048210A1 (zh) * 2020-09-03 2022-03-10 平安科技(深圳)有限公司 命名实体识别方法、装置、电子设备及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于联合模型的中文社交媒体命名实体识别;易黎等;《计算机与数字工程》;20171220(第12期);第82-86+113页 *

Also Published As

Publication number Publication date
CN114496115A (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
Swathi et al. An optimal deep learning-based LSTM for stock price prediction using twitter sentiment analysis
CN106156003B (zh) 一种问答***中的问句理解方法
CN112214610B (zh) 一种基于跨度和知识增强的实体关系联合抽取方法
CN112256828B (zh) 医学实体关系抽取方法、装置、计算机设备及可读存储介质
Brockmeier et al. Improving reference prioritisation with PICO recognition
Pang et al. A novel protein subcellular localization method with CNN-XGBoost model for Alzheimer's disease
CN107977361A (zh) 基于深度语义信息表示的中文临床医疗实体识别方法
CN110619044B (zh) 一种情感分析方法、***、存储介质及设备
CN108875809A (zh) 联合attention机制与神经网络的生物医学实体关系分类方法
CN109299271A (zh) 训练样本生成、文本数据、舆情事件分类方法及相关设备
Ling et al. Integrating extra knowledge into word embedding models for biomedical NLP tasks
CN110046943B (zh) 一种网络消费者细分的优化方法及优化***
CN112420191A (zh) 一种中医辅助决策***及方法
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN115472221A (zh) 一种基于深度学习的蛋白质适应度预测方法
CN115526246A (zh) 一种基于深度学习模型的自监督分子分类方法
CN107305565A (zh) 信息处理装置、信息处理方法以及信息处理设备
Lin et al. Robust educational dialogue act classifiers with low-resource and imbalanced datasets
CN114496115B (zh) 实体关系的标注自动生成方法和***
CN114999566B (zh) 基于词向量表征和注意力机制的药物重定位方法及***
CN116431746A (zh) 基于编码库的地址映射方法、装置、电子设备及存储介质
CN114692615A (zh) 一种针对小语种的小样本意图识别方法
CN108764537B (zh) 一种基于A-TrAdaboost算法的多源社区标签发展趋势预测方法
Yang et al. [Retracted] A Classification Technique for English Teaching Resources and Merging Using Swarm Intelligence Algorithm
Ibaid et al. Using Deep Learning to Classify Eight Tea Leaf Diseases

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant