CN116245097A - 训练实体识别模型的方法、实体识别方法及对应装置 - Google Patents

训练实体识别模型的方法、实体识别方法及对应装置 Download PDF

Info

Publication number
CN116245097A
CN116245097A CN202211651982.1A CN202211651982A CN116245097A CN 116245097 A CN116245097 A CN 116245097A CN 202211651982 A CN202211651982 A CN 202211651982A CN 116245097 A CN116245097 A CN 116245097A
Authority
CN
China
Prior art keywords
text
entity
training
sample
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211651982.1A
Other languages
English (en)
Inventor
董保华
崔恒斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202211651982.1A priority Critical patent/CN116245097A/zh
Publication of CN116245097A publication Critical patent/CN116245097A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)

Abstract

本申请实施例公开了一种训练实体识别模型的方法、实体识别方法及对应装置。其中方法包括:获取至少两个训练样本集,其中不同训练样本集所基于的实体类型标签集合不同;利用至少两个训练样本集训练实体识别模型;训练包括:将至少两个训练样本集中的文本样本作为实体识别模型的输入,由实体识别模型输出该文本样本中各元素的第一向量;依据该文本样本所基于的实体类型标签集合,分别对各元素的第一向量中的部分实体类型标签对应的概率信息进行掩膜处理,得到第二向量;训练目标为:最小化依据第二向量确定的实体类型与该文本样本被标注的标签之间的差异。本申请能够低成本地得到实体识别模型,且保证识别效果。

Description

训练实体识别模型的方法、实体识别方法及对应装置
技术领域
本申请涉及深度学习技术领域,特别是涉及一种训练实体识别模型的方法、实体识别方法及对应装置。
背景技术
实体识别是自然语言处理的热点研究方向之一,目的是识别文本中的实体并将其归纳到相应的实体类型中,是信息提取、问答***、句法分析、机器翻译等众多应用的基础工具。
在实际的自然语言处理任务中,经常会遇到增量实体类型的识别问题。例如刚开始定义了20个实体类型,并基于这20个实体类型在样本集上标注了标签。随着业务的发展,发现刚开始定义的20个实体类型不够,需要增加10个新的实体类型。针对这种情况,如何低成本地得到实体识别模型,且具有好的实体识别效果成为亟待解决的问题。
发明内容
有鉴于此,本申请提供了一种训练实体识别模型的方法、实体识别方法及对应装置,用以低成本地得到实体识别模型,且保证识别效果。
本申请提供了如下方案:
第一方面,提供了一种训练实体识别模型的方法,所述方法包括:
获取至少两个训练样本集,各训练样本集包括文本样本以及基于实体类型标签集合对文本样本标注的标签,其中不同训练样本集所基于的实体类型标签集合不同;
利用所述至少两个训练样本集训练实体识别模型;
所述训练包括:将所述至少两个训练样本集中的文本样本作为所述实体识别模型的输入,由所述实体识别模型输出该文本样本中各Token(元素)的第一向量,所述第一向量包括该Token在目标标签集合上的概率分布信息,所述目标标签集合为所述至少两个训练样本集所基于的实体类型标签集合的并集;依据该文本样本所基于的实体类型标签集合,分别对所述各Token的第一向量中的部分实体类型标签对应的概率信息进行掩膜处理,得到第二向量,所述部分实体类型标签为不属于该文本样本所基于的实体类型标签集合的标签;所述训练目标为:最小化依据所述第二向量确定的实体类型与该文本样本被标注的标签之间的差异。
根据本申请实施例中一可实现的方式,所述获取至少两个训练样本集包括:
获取历史样本集以及构造新增样本集,所述历史样本集包括训练上一实体识别模型所使用的文本样本及其被标注的标签,所述新增样本集包括文本样本以及基于新增的实体类型标签集合对文本样本标注的标签;
合并所述历史样本集以及新增样本集用以执行所述训练实体识别模型的步骤。
根据本申请实施例中一可实现的方式,所述获取至少两个训练样本集还包括:
对所述历史样本集中的标签进行编辑处理,所述编辑处理包括将被删除实体类型对应的标签修改为非实体类型;
合并所述历史样本集以及新增样本集包括:合并所述编辑处理后的历史样本集以及所述新增样本集。
根据本申请实施例中一可实现的方式,所述依据该文本样本所基于的实体类型标签集合,分别对所述各Token的第一向量中的部分实体类型标签对应的概率信息进行掩膜处理,得到第二向量包括:
将文本样本中各Token的第一向量分别乘以该文本样本的掩膜变量,得到各Token的第二向量;其中所述掩膜变量包括N位,所述N为所述目标标签集合包含的标签数量,该文本样本所基于的实体类型标签集合对应的各位取值置1,其他位取值置0;
所述训练还包括:依据各Token的第二向量和各Token被标注的标签计算损失函数的取值,利用损失函数的取值更新所述实体识别模型的模型参数,直至满足预设的训练结束条件。
根据本申请实施例中一可实现的方式,所述实体识别模型包括:
基于预训练语言模型的特征提取网络,用以对输入的文本样本中的各Token进行特征提取,得到各Token的特征表示;
映射网络,用以将所述各Token的特征表示映射至目标标签集合,得到各Token的第一向量,所述第一向量包括Token在目标标签集合所包含各实体类型标签上的概率信息。
第二方面,提供了一种实体识别的方法,所述方法包括:
获取待识别文本;
将所述待识别文本输入实体识别模型,获取所述实体识别模型输出的所述待识别文本中各Token的第一向量,所述第一向量包括该Token在目标标签集合上的概率分布信息;
依据所述待识别文本中各Token的第一向量,确定各Token对应的实体类型信息;
其中所述实体识别模型采用如上述第一方面中任一项所述的方法预先训练得到。
根据本申请实施例中一可实现的方式,将预设文本集中的各文本分别作为所述待识别文本,利用针对所述待识别文本中确定的实体类型信息从所述待识别文本中抽取实体词,用以构建知识图谱;或者,
将用户在智能客服***输入的文本作为所述待识别文本,利用针对所述待识别文本中确定的实体类型信息从所述待识别文本中抽取实体词,将抽取的实体词与预设的关键词表进行匹配,将匹配到的关键词对应的属性信息或服务项目返回给所述用户。
第三方面,提供了一种训练实体识别模型的装置,所述装置包括:
样本获取单元,被配置为获取至少两个训练样本集,各训练样本集包括文本样本以及基于实体类型标签集合对文本样本标注的标签,其中不同训练样本集所基于的实体类型标签集合不同;
模型训练单元,被配置为利用所述至少两个训练样本集训练实体识别模型;所述训练包括:将所述至少两个训练样本集中的文本样本作为所述实体识别模型的输入,由所述实体识别模型输出该文本样本中各元素Token的第一向量,所述第一向量包括该Token在目标标签集合上的概率分布信息,所述目标标签集合为所述至少两个训练样本集所基于的实体类型标签集合的并集;依据该文本样本所基于的实体类型标签集合,分别对所述各Token的第一向量中的部分实体类型标签对应的概率信息进行掩膜处理,得到第二向量,所述部分实体类型标签为不属于该文本样本所基于的实体类型标签集合的标签;所述训练目标为:最小化依据所述第二向量确定的实体类型与该文本样本被标注的标签之间的差异。
第四方面,提供了一种实体识别的装置,其特征在于,所述装置包括:
文本获取单元,被配置为获取待识别文本;
实体识别单元,被配置为将所述待识别文本输入实体识别模型,获取所述实体识别模型输出的所述待识别文本中各Token的第一向量,所述第一向量包括该Token在目标标签集合上的概率分布信息;依据所述待识别文本中各Token的第一向量,确定各Token对应的实体类型信息;
其中所述实体识别模型采用如上第三方面所述的装置预先训练得到。
根据第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一、二方面中任一项所述的方法的步骤。
根据第六方面,提供了一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行上述第一、二方面中任一项所述的方法的步骤。
根据本申请提供的具体实施例,本申请公开了以下技术效果:
1)本申请所采用的实体识别模型的训练方式保持了各训练样本集所基于的实体类型标签,无需对所有训练样本集重新标注,大大降低了人工成本。并且在训练过程中通过对部署于文本样本所基于的实体类型标签集合的标签对应的概率信息进行掩膜处理,消除了不同训练样本集之间因为未标注实体类型标签而带来的负影响,保证了实体识别模型的识别效果。
2)对于新增实体类型的情况,本申请仅需要基于新增的实体类型标签集合进行文本样本的标注产生新增样本集,将新增样本集与历史样本集合并来训练实体识别模型,无需对历史样本集进行重新标注,显然降低了数据标注的成本。
3)对于修改实体类型的情况,可以看做是删除实体类型和新增实体类型两个处理,因此可以对历史样本集中的标签进行简单的编辑处理,即将被删除实体类型对应的标签修改为非实体类型,然后按照本申请中的方式执行新增实体类型的方法流程即可实现修改实体类型对应的实体识别模型的训练。整个过程也无需在全量样本(包括历史样本集和新增样本集)上基于修改后的实体类型进行重新标注,数据标注成本低。
4)本申请在训练过程中,仅需要增加各文本样本的掩膜变量,将各Token的第一向量乘以文本样本的掩膜变量来得到第二向量,基于第二向量计算损失函数以更新模型参数,模型计算简单。
5)本申请实施例所采用方式仍保证了实体识别模型的模型框架不变,仅需要在通用的实体识别模型的基础上稍加改造以适应目标标签集合,在简单模型结构的基础上保证了实体识别模型的效果。
当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为可以应用本申请实施例的示例性***架构图;
图2为本申请实施例提供的训练实体识别模型的方法流程图;
图3为本申请实施例提供的训练实体识别模型的结构原理图;
图4为本申请实施例提供的训练实体识别模型的装置的示意性框图;
图5为本申请实施例提供的实体识别装置的示意性框图;
图6为本申请实施例提供的电子设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
针对新增实体类型的情况,目前已有的处理方式主要包括以下三种:
第一种方式:让标注人员基于新增实体类型后得到的所有实体类型重新对样本进行标注,然后重新训练实体识别模型。这种方式是对全量数据重新标注,如果因业务需要在不同阶段需要多次新增实体类型,那么标注成本会线性增加。并且深度学习本身需要大量样本,标注样本可能是万级、甚至百万、千万级,那么对于标注人员而言工作量是非常可怕的,人工成本太高。
第二种方式:标注人员基于新增实体类型对新样本集进行标注,然后将新样本集与历史样本集进行合并重新训练实体识别模型。但这种方式中,由于历史样本集并没有基于新增实体类型进行标注,对于新增样本集而言成为新增实体类型的负样本,从而造成训练得到的实体识别模型效果很差。
第三种方式:通过蒸馏学习的方式,将已经训练的实体识别模型作为老师模型,指导学生模型学习新增的实体类型并保留先前学习的知识。但这种方式的模型设计非常复杂,并且蒸馏学习得到的实体识别模型的效果也不佳。
有鉴于此,本申请提供了一种全新的思路,将增量实体识别问题转换为融合基于不同实体类型标签集合的数据集训练实体识别模型的问题。为了方便对本申请的理解,首先对本申请所适用的***架构进行简单描述。图1示出了可以应用本申请实施例的示例性***架构,该***架构包括采用离线方式训练实体识别模型的模型训练装置,以及在线对待识别文本进行实体识别的实体识别装置。
其中,模型训练装置可以在每次新增实体类型时,采用本申请实施例提供的方法进行模型训练,得到实体识别模型。
实体识别装置利用已经建立的实体识别模型,对待识别文本进行实体识别得到识别结果。即从待识别文本中识别出实体的词并识别出该词的实体类型。
模型训练装置和实体识别装置可以分别设置为独立的服务器,也可以设置于同一个服务器或服务器群组,还可以设置于独立的或者同一云服务器。云服务器又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(VPs,VirtualPrivateServer)服务中存在的管理难度大,服务扩展性弱的缺陷。模型训练装置和实体识别装置还可以设置于具有较强计算能力的计算机终端。
需要说明的是,上述实体识别装置除了在线上进行实体识别之外,也可以采用离线的方式进行实体识别,例如针对批量的待识别文本分别进行实体识别。
应该理解,图1中的模型训练装置、实体识别装置以及实体识别模型的数目仅仅是示意性的。根据实现需要,可以具有任意数目的模型训练装置、实体识别装置以及实体识别模型。
图2为本申请实施例提供的训练实体识别模型的方法流程图,该方法流程可以由图1所示***中的模型训练装置执行。如图2中所示,该方法可以包括以下步骤:
步骤202:获取至少两个训练样本集,各训练样本集包括文本样本以及基于实体类型标签集合对文本样本标注的标签,其中不同训练样本集所基于的实体类型标签集合不同。
步骤204:利用上述至少两个训练样本集训练实体识别模型;其中训练包括:将至少两个训练样本集中的文本样本作为实体识别模型的输入,由实体识别模型输出该文本样本中各Token(元素)的第一向量,第一向量包括该Token在目标标签集合上的概率分布信息,目标标签集合为至少两个训练样本集所基于的实体类型标签集合的并集;依据该文本样本所基于的实体类型标签集合,分别对各Token的第一向量中的部分实体类型标签对应的概率信息进行掩膜处理,得到第二向量,部分实体类型标签为不属于该文本样本所基于的实体类型标签集合的标签;训练目标为:最小化依据第二向量确定的实体类型与该文本样本被标注的标签之间的差异。
由上述流程可以看出,本申请所采用的实体识别模型的训练方式保持了各训练样本集所基于的实体类型标签,无需对所有训练样本集重新标注,大大降低了人工成本。并且在训练过程中通过对部署于文本样本所基于的实体类型标签集合的标签对应的概率信息进行掩膜处理,消除了不同训练样本集之间因为未标注实体类型标签而带来的负影响,保证了实体识别模型的识别效果。
下面对上述流程中的各步骤进行详细描述。
首先结合实施例对上述步骤202即“获取至少两个训练样本集”进行详细描述。
本申请实施例在面临增量实体类型的问题时,可以保留历史样本集不变,即上一实体识别模型的训练过程中所使用的历史样本集,该历史样本集是基于原有实体类型标签集合的基础上标注得到的。新增样本集包括文本样本以及基于新增的实体类型标签集合对文本样本标注的标签。
举个例子,最初定义了三个实体类型标签:label1、label2和label3,这三个实体类型标签得到第一实体类型标签集合{label1,label2,label3,O},其中O表示非实体类型标签。基于第一实体类型标签集合对样本集1中的文本样本进行标注,得到一个训练样本集A。利用训练样本集A训练得到了实体识别模型1。
经过一段时间的业务发展后,新增了两个新的实体类型标签:label4和label5,这两个实体类型标签得到第二实体类型标签集合{label4,label5,O}。基于第二实体类型标签集合对样本集2中的文本样本进行标注,得到一个训练样本集B。由于新增了实体类型标签,需要训练新的实体识别模型,在本阶段中,历史样本集为训练样本集A,新增样本集为训练样本集B。采用本申请实施例中的方式,利用训练样本集A和训练样本集B训练得到实体识别模型2。
再经过一段时间的业务发展后,又新增了两个新的实体类型标签:label6和label7,这两个实体类型标签得到第三实体类型标签集合{label6,label7,O}。基于第三实体类型标签集合对样本集3中的文本样本进行标注,得到一个训练样本集C。由于又新增了实体类型标签,需要训练新的实体识别模型,在本阶段中,历史样本集为训练样本集A和B,新增样本集为训练样本集C。采用本申请实施例中的方式,利用训练样本集A、训练样本集B和训练样本集C来训练得到实体识别模型3。
需要说明的是,上述样本集1、样本集2和样本集3可以包含部分相同的文本样本,也可以包含完全不同的文本样本,也可以是包含完全相同的文本样本。但在对每个样本集进行标签标注时,基于的实体类型标签集合是不同的。
上述第一实体标签集合、第二实体标签集合和第三实体标签集合可以是完全不同的实体标签集合,也可以是部分标签相同的实体标签集合。
每一次实体识别模型的训练所采用的目标标签集合为:已有的实体类型标签集合和新增实体类型标签集合的并集。以上面第三个阶段为例,训练实体识别模型3时采用的目标标签集合为{label1、label2、label3、label4、label5、label6、label7和O}。对于新增样本集,仅需要对文本样本进行新增实体类型标签的标注即可,无需标注已有的实体类型标签。例如,在上面第三个阶段中,对于样本集3仅需要标注出label6、label7和O的Token(元素)。当然,如果基于目标标签集合中的所有标签对样本集3进行标注也可,但优选前者。
从上例中可以看出,本步骤中获取的不同训练样本集所基于的实体类型标签集合是不同的。
需要说明的是,本公开中涉及的“第一”、“第二”等限定并不具备大小、顺序和数量等方面的限制,仅仅用以在名称上加以区分,例如“第一实体类型标签集合”、“第二实体类型标签集合”和“第三实体类型标签集合”用以区分三个实体类型标签集合。
本申请实施例中涉及的实体类型可以包括但不限于诸如人名、地名、时间、日期、机构名、货币、影视名、书名等等。
下面结合实施例对上述步骤204即“利用上述至少两个训练样本集训练实体识别模型”进行详细描述。
将步骤202中获取的训练样本集进行合并,利用合并得到的样本集来训练实体识别模型。为了方便理解,首先对实体识别模型的结构进行简单描述。如图3中所示,实体识别模型主要包括两部分:特征提取网络和映射网络。
其中特征提取网络用以对输入的文本样本中的各Token进行特征提取,得到各Token的特征表示。特征提取网络可以基于预训练语言模型实现,也可以基于LSTM(Long-Short TermMemory,长短时记忆网络)等来实现。
其中预训练语言模型可以采用诸如BERT(BidirectionalEncoderRepresentationfrom Transformers,基于转换的双向编码表示)、XLNet、GPT(GenerativePre-Training,生成式预训练)模型等预训练语言模型作为初始的特征提取模型,在此基础上进行进一步训练。
输入的文本样本中,通常以起始符(通常用“[CLS]”表示)开始,之后的各Token通常包括字符(有些语言可能采用词)和分隔符(通常用“[SEP]”表示)。例如图3中所示,假设文本样本中包含M个Token,上述特征提取网络可以首先对各Token进行Embedding(嵌入)处理,然后利用预训练语言模型中的各Transformer层对各Token的Embedding进行编码,得到各Token的特征表示。
其中,对各Token进行的Embedding处理至少包括:词Embedding和位置Embedding。词Embedding,即将各Token进行词向量编码,得到词向量表示。位置Embedding,即将各Token在文本样本中的位置进行编码,得到位置的表示。例如依据各Token在文本样本中的位置依次编号为0、1、2、3、4、5和6。
映射网络,用以将各Token的特征表示映射至目标标签集合,得到各Token的第一向量,图3中分别表示为T1,T2,…,TM,第一向量包括Token在目标标签集合所包含各实体类型标签上的概率信息。
映射网络可以采用CRF(conditionalrandomfield,条件随机场),也可以采用诸如Softmax网络等。
映射网络针对每个Token都输出一个第一向量,第一向量的长度与目标标签集合中的标签数量N一致。以上面实例中第三个阶段为例,目标标签集合为{label1、label2、label3、label4、label5、label6、label7和O},因此,第一向量的长度为8。第一向量中的每一位的取值是该Token在每个实体类型上的概率信息。
在本申请中为了消除不同来源文本标签之间的相互影响,即基于不同实体类型标签集合的文本样本的标签之间的相互影响,在模型训练时,分别对各Token的第一向量中的部分实体类型标签对应的概率信息进行掩膜处理以得到第二向量,图3中分别表示为L1,L2,…,LM。其中部分实体类型标签为不属于该文本样本所基于的实体类型标签集合的标签。
作为其中一种可实现的方式,可以将文本样本中各Token的第一向量分别乘以该文本样本的掩膜变量,得到各Token的第二向量;其中掩膜变量包括N位,N为目标标签集合包含的标签数量,该文本样本所基于的实体类型标签集合对应的各位取值置1,其他位取值置0。
仍以上面实例中的第三个阶段为例,训练样本集A中各文本样本均基于第一实体类型标签集合,这些文本样本的掩膜变量为[1,1,1,0,0,0,0,1]。训练样本集B中各文本样本均基于第二实体类型标签集合,这些文本样本的掩膜变量为[0,0,0,1,1,0,0,1]。训练样本集C中各文本样本均基于第三实体类型标签集合,这些文本样本的掩膜变量为[0,0,0,0,0,1,1,1]。
文本样本中Token的第一向量乘以掩膜变量,相当于将该文本样本没有使用的实体类型标签上的概率信息掩膜掉,从而消除没有使用的实体类型标签上概率信息的影响。
以训练样本集A为例,文本样本中各Token的第一向量乘以该文本样本的掩膜变量,相当于消除了label4、label5、label6和label7这些标签的未标注实体的影响,所以对于label4、label5、label6和label7这些标签,训练样本集A不会成为这些标签对应实体的负样本。训练样本集B的文本样本中各Token的第一向量乘以该文本样本的掩膜变量,相当于消除了label1、label2、label3、label6和label7这些标签的未标注实体的影响,所以对于label1、label2、label3、label6和label7这些标签,训练样本集B不会成为这些标签对应实体的负样本。同样道理,其他训练样本集上未基于的标签类型对应的实体也不会产生互相影响。
实体识别模型的训练目标为:最小化依据第二向量确定的实体类型与该文本样本被标注的标签之间的差异。可以依据该训练目标设计损失函数,例如采用交叉熵损失函数。即在每一轮迭代中,利用第二向量和每个Token被标注的标签来计算损失函数的取值,利用损失函数的取值,采用诸如梯度下降等方式更新模型参数,直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值,迭代次数达到预设的次数阈值等。
在实际业务场景下,多数会面临新增实体类型的情况。但也可能面临删除实体类型和修改实体类型的情况。
对于删除实体类型的情况,仅需要对历史训练样本集中的标签进行编辑处理,该编辑处理包括:将历史训练样本集中被删除的实体类型标签均替换为“O”(即非实体类型)。然后用替换后的训练样本集训练实体识别模型。
对于修改实体类型的情况,可以看做是先删除被修改的实体类型,然后新增修改后的实体类型。即对历史样本集中的标签先进行编辑处理,该编辑处理包括将被删除实体类型对应的标签修改为“O”;然后合并编辑处理后的历史样本集以及新增样本集,该新增样本集为利用修改后的实体类型对新的训练样本进行标注后得到的;然后利用历史样本集和新增样本集按照上述步骤204中的方式训练实体识别模型,该实体识别模型的目标类型标签集合为修改实体类型后的标签类型集合。
训练结束后,在利用训练得到的实体识别模型进行实体识别时,将待识别文本输入实体识别模型,获取实体识别模型输出的待识别文本中各Token的第一向量。具体地,特征提取网络对待识别文本进行特征提取,得到待识别文本中各Token的特征表示。映射网络将各Token的特征表示映射至目标标签集合,得到各Token的第一向量,第一向量包括各Token在目标标签集合所包含各实体类型标签上的概率信息。
然后依据待识别文本中各Token的第一向量,确定各Token对应的实体类型信息。例如,选择Token在各实体类型标签上的概率值最大的实体类型作为Toke所属的实体类型。
本申请实施例训练得到的实体识别模型可以应用于多种应用场景,在此仅列举其中两个:
应用场景1:构建知识图谱。
知识图谱主要是用来描述真实世界中存在的各种实体以及他们之间的关系。其中实体可以是从大量文本中挖掘出来的。在构建知识图谱的过程中也会面临到新增事物,对应新增的实体类型。对于这种情况,可以不对历史训练样本集重新进行全量标注,而是仅在新的文本样本上基于新增实体类型标签进行标注,然后采用本申请实施例提供的方式训练实体识别模型,标注成本低,且能够保证实体识别模型的识别效果。
然后利用实体识别模型对预设文本集中的文本进行识别,从中识别出实体作为知识图谱中的节点。关于知识图谱中的边体现的是实体之间的关系
应用场景2:客户服务。
现在越来越多的客户在遇到服务问题时,使用线上客服进行沟通。目前的线上客服很多采用了智能客服***,将用户在智能客服***输入的文本作为待识别文本,利用针对待识别文本中确定的实体类型信息从待识别文本中抽取实体词,将抽取的实体词与预设的关键词表进行匹配,将匹配到的关键词对应的属性信息或服务项目返回给用户。其中关键词大多是实体词,随着服务的多样化和逐渐深入,也会面临新增的实体类型。对于这种情况,同样可以不对历史训练样本集重新进行全量标注,而是仅在新的文本样本上基于新增实体类型标签进行标注,然后采用本申请实施例提供的方式训练实体识别模型,标注成本低,且能够保证实体识别模型的识别效果。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
根据另一方面的实施例,提供了一种训练实体识别模型的装置。图4示出根据一个实施例的训练实体识别模型的装置的示意性框图。如图4所示,该装置400包括:样本获取单元401和模型训练单元402,其中各组成单元的主要功能如下:
样本获取单元401,被配置为获取至少两个训练样本集,各训练样本集包括文本样本以及基于实体类型标签集合对文本样本标注的标签,其中不同训练样本集所基于的实体类型标签集合不同。
模型训练单元402,被配置为利用至少两个训练样本集训练实体识别模型;训练包括:将至少两个训练样本集中的文本样本作为实体识别模型的输入,由实体识别模型输出该文本样本中各元素Token的第一向量,第一向量包括该Token在目标标签集合上的概率分布信息,目标标签集合为至少两个训练样本集所基于的实体类型标签集合的并集;依据该文本样本所基于的实体类型标签集合,分别对各Token的第一向量中的部分实体类型标签对应的概率信息进行掩膜处理,得到第二向量,部分实体类型标签为不属于该文本样本所基于的实体类型标签集合的标签;训练目标为:最小化依据第二向量确定的实体类型与该文本样本被标注的标签之间的差异。
作为其中一种可实现的方式,样本获取单元401可以具体配置为:获取历史样本集以及构造新增样本集,历史样本集包括训练上一实体识别模型所使用的文本样本及其被标注的标签,新增样本集包括文本样本以及基于新增的实体类型标签集合对文本样本标注的标签。
相应地,模型训练单元402合并历史样本集以及新增样本集用以执行上述训练实体识别模型的处理。
作为其中一种可实现的方式,若面临修改实体类型的情况呢,则样本获取单元401可以对历史样本集中的标签进行编辑处理,编辑处理包括将被删除实体类型对应的标签修改为非实体类型。
相应地,模型训练单元402合并编辑处理后的历史样本集以及新增样本集。
作为其中一种可实现的方式,模型训练单元402可以具体被配置为:将文本样本中各Token的第一向量分别乘以该文本样本的掩膜变量,得到各Token的第二向量;其中掩膜变量包括N位,N为目标标签集合包含的标签数量,该文本样本所基于的实体类型标签集合对应的各位取值置1,其他位取值置0。
相应地,模型训练单元402被配置为依据各Token的第二向量和各Token被标注的标签计算损失函数的取值,利用损失函数的取值更新所述实体识别模型的模型参数,直至满足预设的训练结束条件。
其中,实体识别模型的原理和构成可以参见图3,包括特征提取网络和映射网络。
特征提取网络,用以对输入的文本样本中的各Token进行特征提取,得到各Token的特征表示。
映射网络,用以将各Token的特征表示映射至目标标签集合,得到各Token的第一向量,第一向量包括Token在目标标签集合所包含各实体类型标签上的概率信息。
特征提取网络可以基于预训练语言模型实现,也可以基于LSTM等来实现。映射网络可以采用CRF网络,也可以采用诸如Softmax网络等。
图5示出根据一个实施例的实体识别装置的示意性框图。如图5所示,该装置500包括:文本获取单元501和实体识别单元502,其中各组成单元的主要功能如下:
文本获取单元501,被配置为获取待识别文本。
依据不同的应用场景,可以通过不同的方式来获取待识别文本。例如,在客户服务场景,待识别文本可以是用户输入的文本。再例如,在知识图谱构建场景,待识别文本可以是从特定网站爬取的文本,等等。
实体识别单元502,被配置为将待识别文本输入实体识别模型,获取实体识别模型输出的待识别文本中各Token的第一向量,第一向量包括该Token在目标标签集合上的概率分布信息;依据待识别文本中各Token的第一向量,确定各Token对应的实体类型信息。其中实体识别模型采用如图4中所示的装置预先训练得到。
例如,选择Token在各实体类型标签上的概率值最大的实体类型作为Toke所属的实体类型。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
另外,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
以及一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行前述方法实施例中任一项所述的方法的步骤。
本申请还提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
其中,图6示例性的展示出了电子设备的架构,具体可以包括处理器610,视频显示适配器611,磁盘驱动器612,输入/输出接口613,网络接口614,以及存储器620。上述处理器610、视频显示适配器611、磁盘驱动器612、输入/输出接口613、网络接口614,与存储器620之间可以通过通信总线630进行通信连接。
其中,处理器610可以采用通用的CPU、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。
存储器620可以采用ROM(ReadOnlyMemory,只读存储器)、RAM(RandomAccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器620可以存储用于控制电子设备600运行的操作***621,用于控制电子设备600的低级别操作的基本输入输出***(BIOS)622。另外,还可以存储网页浏览器623,数据存储管理***624,以及模型训练装置/实体识别装置625等等。上述模型训练装置/实体识别装置625就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器620中,并由处理器610来调用执行。
输入/输出接口613用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口614用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线630包括一通路,在设备的各个组件(例如处理器610、视频显示适配器611、磁盘驱动器612、输入/输出接口613、网络接口614,与存储器620)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器610、视频显示适配器611、磁盘驱动器612、输入/输出接口613、网络接口614,存储器620,总线630等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序产品的形式体现出来,该计算机程序产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***或***实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的***及***实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本申请所提供的技术方案进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。

Claims (11)

1.一种训练实体识别模型的方法,其特征在于,所述方法包括:
获取至少两个训练样本集,各训练样本集包括文本样本以及基于实体类型标签集合对文本样本标注的标签,其中不同训练样本集所基于的实体类型标签集合不同;
利用所述至少两个训练样本集训练实体识别模型;
所述训练包括:将所述至少两个训练样本集中的文本样本作为所述实体识别模型的输入,由所述实体识别模型输出该文本样本中各元素的第一向量,所述第一向量包括该元素在目标标签集合上的概率分布信息,所述目标标签集合为所述至少两个训练样本集所基于的实体类型标签集合的并集;依据该文本样本所基于的实体类型标签集合,分别对所述各元素的第一向量中的部分实体类型标签对应的概率信息进行掩膜处理,得到第二向量,所述部分实体类型标签为不属于该文本样本所基于的实体类型标签集合的标签;所述训练目标为:最小化依据所述第二向量确定的实体类型与该文本样本被标注的标签之间的差异。
2.根据权利要求1所述的方法,其特征在于,所述获取至少两个训练样本集包括:
获取历史样本集以及构造新增样本集,所述历史样本集包括训练上一实体识别模型所使用的文本样本及其被标注的标签,所述新增样本集包括文本样本以及基于新增的实体类型标签集合对文本样本标注的标签;
合并所述历史样本集以及新增样本集用以执行所述训练实体识别模型的步骤。
3.根据权利要求2所述的方法,其特征在于,所述获取至少两个训练样本集还包括:
对所述历史样本集中的标签进行编辑处理,所述编辑处理包括将被删除实体类型对应的标签修改为非实体类型;
合并所述历史样本集以及新增样本集包括:合并所述编辑处理后的历史样本集以及所述新增样本集。
4.根据权利要求1所述的方法,其特征在于,所述依据该文本样本所基于的实体类型标签集合,分别对所述各元素的第一向量中的部分实体类型标签对应的概率信息进行掩膜处理,得到第二向量包括:
将文本样本中各元素的第一向量分别乘以该文本样本的掩膜变量,得到各元素的第二向量;其中所述掩膜变量包括N位,所述N为所述目标标签集合包含的标签数量,该文本样本所基于的实体类型标签集合对应的各位取值置1,其他位取值置0;
所述训练还包括:依据各元素的第二向量和各元素被标注的标签计算损失函数的取值,利用损失函数的取值更新所述实体识别模型的模型参数,直至满足预设的训练结束条件。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述实体识别模型包括:
基于预训练语言模型的特征提取网络,用以对输入的文本样本中的各元素进行特征提取,得到各元素的特征表示;
映射网络,用以将所述各元素的特征表示映射至目标标签集合,得到各元素的第一向量,所述第一向量包括元素在目标标签集合所包含各实体类型标签上的概率信息。
6.一种实体识别的方法,其特征在于,所述方法包括:
获取待识别文本;
将所述待识别文本输入实体识别模型,获取所述实体识别模型输出的所述待识别文本中各元素的第一向量,所述第一向量包括该元素在目标标签集合上的概率分布信息;
依据所述待识别文本中各元素的第一向量,确定各元素对应的实体类型信息;
其中所述实体识别模型采用如权利要求1至5中任一项所述的方法预先训练得到。
7.根据权利要求6所述的方法,其特征在于,将预设文本集中的各文本分别作为所述待识别文本,利用针对所述待识别文本中确定的实体类型信息从所述待识别文本中抽取实体词,用以构建知识图谱;或者,
将用户在智能客服***输入的文本作为所述待识别文本,利用针对所述待识别文本中确定的实体类型信息从所述待识别文本中抽取实体词,将抽取的实体词与预设的关键词表进行匹配,将匹配到的关键词对应的属性信息或服务项目返回给所述用户。
8.一种训练实体识别模型的装置,其特征在于,所述装置包括:
样本获取单元,被配置为获取至少两个训练样本集,各训练样本集包括文本样本以及基于实体类型标签集合对文本样本标注的标签,其中不同训练样本集所基于的实体类型标签集合不同;
模型训练单元,被配置为利用所述至少两个训练样本集训练实体识别模型;所述训练包括:将所述至少两个训练样本集中的文本样本作为所述实体识别模型的输入,由所述实体识别模型输出该文本样本中各元素的第一向量,所述第一向量包括该元素在目标标签集合上的概率分布信息,所述目标标签集合为所述至少两个训练样本集所基于的实体类型标签集合的并集;依据该文本样本所基于的实体类型标签集合,分别对所述各元素的第一向量中的部分实体类型标签对应的概率信息进行掩膜处理,得到第二向量,所述部分实体类型标签为不属于该文本样本所基于的实体类型标签集合的标签;所述训练目标为:最小化依据所述第二向量确定的实体类型与该文本样本被标注的标签之间的差异。
9.一种实体识别的装置,其特征在于,所述装置包括:
文本获取单元,被配置为获取待识别文本;
实体识别单元,被配置为将所述待识别文本输入实体识别模型,获取所述实体识别模型输出的所述待识别文本中各元素的第一向量,所述第一向量包括该元素在目标标签集合上的概率分布信息;依据所述待识别文本中各元素的第一向量,确定各元素对应的实体类型信息;
其中所述实体识别模型采用如权利要求8所述的装置预先训练得到。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7任一项所述的方法的步骤。
11.一种电子设备,其特征在于,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行权利要求1至7任一项所述的方法的步骤。
CN202211651982.1A 2022-12-21 2022-12-21 训练实体识别模型的方法、实体识别方法及对应装置 Pending CN116245097A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211651982.1A CN116245097A (zh) 2022-12-21 2022-12-21 训练实体识别模型的方法、实体识别方法及对应装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211651982.1A CN116245097A (zh) 2022-12-21 2022-12-21 训练实体识别模型的方法、实体识别方法及对应装置

Publications (1)

Publication Number Publication Date
CN116245097A true CN116245097A (zh) 2023-06-09

Family

ID=86625072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211651982.1A Pending CN116245097A (zh) 2022-12-21 2022-12-21 训练实体识别模型的方法、实体识别方法及对应装置

Country Status (1)

Country Link
CN (1) CN116245097A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116881464A (zh) * 2023-09-06 2023-10-13 北京睿企信息科技有限公司 一种基于新增标签进行模型训练的方法及存储介质
CN117251650A (zh) * 2023-11-20 2023-12-19 之江实验室 地理热点中心识别方法、装置、计算机设备和存储介质
CN117475038A (zh) * 2023-12-28 2024-01-30 浪潮电子信息产业股份有限公司 一种图像生成方法、装置、设备及计算机可读存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116881464A (zh) * 2023-09-06 2023-10-13 北京睿企信息科技有限公司 一种基于新增标签进行模型训练的方法及存储介质
CN116881464B (zh) * 2023-09-06 2023-11-24 北京睿企信息科技有限公司 一种基于新增标签进行模型训练的方法及存储介质
CN117251650A (zh) * 2023-11-20 2023-12-19 之江实验室 地理热点中心识别方法、装置、计算机设备和存储介质
CN117251650B (zh) * 2023-11-20 2024-02-06 之江实验室 地理热点中心识别方法、装置、计算机设备和存储介质
CN117475038A (zh) * 2023-12-28 2024-01-30 浪潮电子信息产业股份有限公司 一种图像生成方法、装置、设备及计算机可读存储介质
CN117475038B (zh) * 2023-12-28 2024-04-19 浪潮电子信息产业股份有限公司 一种图像生成方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN110162749B (zh) 信息提取方法、装置、计算机设备及计算机可读存储介质
CN110287480B (zh) 一种命名实体识别方法、装置、存储介质及终端设备
CN111985229B (zh) 一种序列标注方法、装置及计算机设备
CN116245097A (zh) 训练实体识别模型的方法、实体识别方法及对应装置
CN111461301B (zh) 序列化数据处理方法和装置、文本处理方法和装置
CN112100332A (zh) 词嵌入表示学习方法及装置、文本召回方法及装置
CN113868519B (zh) 信息搜索方法、装置、电子设备和存储介质
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN111666766A (zh) 数据处理方法、装置和设备
CN112651324A (zh) 视频帧语义信息的提取方法、装置及计算机设备
CN115952791A (zh) 基于机器阅读理解的篇章级事件抽取方法、装置、设备及存储介质
CN112182167A (zh) 一种文本匹配方法、装置、终端设备和存储介质
CN113360654B (zh) 文本分类方法、装置、电子设备及可读存储介质
CN111597816A (zh) 一种自注意力命名实体识别方法、装置、设备及存储介质
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN114120166A (zh) 视频问答方法、装置、电子设备及存储介质
CN113705207A (zh) 语法错误识别方法及装置
CN115510188A (zh) 文本关键词关联方法、装置、设备及存储介质
CN116662495A (zh) 问答处理方法、训练问答处理模型的方法及装置
CN111339760A (zh) 词法分析模型的训练方法、装置、电子设备、存储介质
CN113627197B (zh) 文本的意图识别方法、装置、设备及存储介质
CN116304014A (zh) 训练实体类型识别模型的方法、实体类型识别方法及装置
CN112528674B (zh) 文本处理方法、模型的训练方法、装置、设备及存储介质
CN115346095A (zh) 视觉问答方法、装置、设备及存储介质
CN110457436B (zh) 信息标注方法、装置、计算机可读存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination