CN115129862A - 语句实体处理方法、装置、计算机设备及存储介质 - Google Patents

语句实体处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN115129862A
CN115129862A CN202210374003.6A CN202210374003A CN115129862A CN 115129862 A CN115129862 A CN 115129862A CN 202210374003 A CN202210374003 A CN 202210374003A CN 115129862 A CN115129862 A CN 115129862A
Authority
CN
China
Prior art keywords
training sample
entity
training
samples
classification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210374003.6A
Other languages
English (en)
Inventor
刘知远
郑孙聪
周博通
孙茂松
韩旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tsinghua University
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Tencent Technology Shenzhen Co Ltd filed Critical Tsinghua University
Priority to CN202210374003.6A priority Critical patent/CN115129862A/zh
Publication of CN115129862A publication Critical patent/CN115129862A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了语句实体处理方法、装置、计算机设备及存储介质,可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景,该方法包括:识别目标语句中包括的实体;确定目标语句对应的第一待处理数据,该第一待处理数据包括目标语句以及该实体的位置标记信息;调用实体分类模型对第一待处理数据进行处理,得到该实体的实体类型信息,该实体分类模型是基于训练样本集中的正例、负例以及实体类型标签进行对比学习得到的,该训练样本集包括原始训练样本以及该原始训练样本对应的翻译训练样本。通过本申请,能够在多语言低资源场景下实现实体分类,提高实体分类的准确性。

Description

语句实体处理方法、装置、计算机设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及语句实体处理方法、语句实体处理装置、计算机设备及计算机可读存储介质。
背景技术
实体分类(Entity Typing)是一个重要的自然语言处理任务,旨在对大规模原始文本中的实体提及(Entity Mention)表明其对应的类型信息,以供问答***、对话***、推荐***、搜索引擎等使用。目前,实体分类的核心在于利用丰富的上下文来判别实体类型,现有的神经网络实体分类模型需要立足于丰富的具有实体类型标注的高质量数据来学习语义理解以及实体类型特征。
然而,在实际场景中,句子的实体类型标注数据十分匮乏,在低资源场景下实体分类任务往往不能取得理想的效果。此外,目前也缺少多语言的实体类型标注数据,这意味着对多语言文本进行实体分类的数据匮乏问题也更加凸显。因此,面向多语言低资源场景,如何实现实体分类是一个亟需解决的问题。
发明内容
本申请实施例提供了语句实体处理方法、装置、计算机设备及存储介质,能够在多语言低资源场景下实现实体分类,提高实体分类的准确性。
一方面,本申请实施例提供了一种语句实体处理方法,该方法包括:
识别目标语句中包括的实体;
确定目标语句对应的第一待处理数据,该第一待处理数据包括目标语句以及该实体的位置标记信息;
调用实体分类模型对第一待处理数据进行处理,得到该实体的实体类型信息,该实体分类模型是基于训练样本集中的正例、负例以及实体类型标签进行对比学习得到的,该训练样本集包括原始训练样本以及该原始训练样本对应的翻译训练样本。
一方面,本申请实施例提供一种语句实体处理装置,该装置包括:
获取单元,用于识别目标语句中包括的实体;
确定单元,用于确定目标语句对应的第一待处理数据,该第一待处理数据包括目标语句以及该实体的位置标记信息;
处理单元,用于调用实体分类模型对第一待处理数据进行处理,得到该实体的实体类型信息,该实体分类模型是基于训练样本集中的正例、负例以及实体类型标签进行对比学习得到的,该训练样本集包括原始训练样本以及该原始训练样本对应的翻译训练样本。
一方面,本申请实施例提供一种计算机设备,该计算机设备包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述的语句实体处理方法。
一方面,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被计算机设备的处理器读取并执行时,使得计算机设备执行上述的语句实体处理方法。
一方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的语句实体处理方法。
本申请实施例,首先识别目标语句中包括的实体;然后确定目标语句对应的第一待处理数据;最后调用实体分类模型对第一待处理数据进行处理,从而得到实体的实体类型信息,其中,该实体分类模型是基于训练样本集中的正例、负例以及实体类型标签进行对比学习得到的,此处的训练样本集包括原始训练样本以及原始训练样本对应的翻译训练样本。面向多语言低资源场景,充分利用训练样本集中的原始训练样本以及原始训练样本对应的翻译训练样本,通过多语言样本的对比学习,使得模型在强化实体分类能力的同时,将原始训练样本的实体分类能力迁移到其他语言上,从而具备多语言样本的实体分类能力,提高实体分类的准确性。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种语句实体处理***的结构示意图;
图2是本申请实施例提供的一种语句实体处理方法的流程示意图;
图3是本申请实施例提供的另一种语句实体处理方法的流程示意图;
图4是本申请实施例提供的一种实体分类模型的结构示意图;
图5是本申请实施例提供的一种语句实体处理装置的结构示意图;
图6是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中所涉及到的“第一”、“第二”等描述仅用于描述目的,而不能理解为指示或者暗示其相对重要性或者隐含指明所指示的技术特征的数量。因此,限定有“第一”、“第二”的技术特征可以明示或者隐含的包括至少一个该特征。
在本申请实施例中,涉及人工智能(Artificial Intelligence,AI)技术;所谓的AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。具体的,AI技术涉及领域广泛,既有硬件层面的技术也有软件层面的技术;在硬件层面,AI技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术;在软件层面,AI技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。随着AI技术的研究和进步,AI技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,AI技术将在更多的领域得到应用,并发挥越来越重要的价值。
其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习/深度学习通常包括人工神经网络、自监督学习、对比学习等技术。其中,自监督学习属于无监督学习范式的一种,特点是不需要人工标注的类别标签信息,直接利用数据本身作为监督信息,来学习样本数据的特征表达,并用于下游任务。对比学习技术则是完成自监督学习的一种方法,具体是通过将数据分别与正例样本和负例样本在特征空间进行对比,来学习样本的特征表示,其核心是在特征空间拉近正例样本之间的距离,拉远负例样本之间的距离。
基于上述所提及的机器学习/深度学习中的对比学习技术,本申请实施例提出了一种语句实体处理方法,以在多语言低资源场景下实现实体分类,提高实体分类的准确性。具体的,该语句实体处理方法的大致原理如下:首先,识别目标语句中包括的实体;然后确定目标语句对应的第一待处理数据,此处的第一待处理数据包括目标语句以及实体的位置标记信息;最后调用实体分类模型对第一待处理数据进行处理,从而得到实体的实体类型信息,其中,该实体分类模型是基于训练样本集中的正例、负例以及实体类型标签进行对比学习得到的,此处的训练样本集包括原始训练样本以及原始训练样本对应的翻译训练样本。
在具体实现中,上述所提及的语句实体处理方法可以由计算机设备执行的,该计算机设备可以是终端设备或服务器。其中,终端设备可以例如是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、飞行器等,但并不局限于此;服务器可以例如是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发服务器(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
或者,上述所提及的语句实体处理方法可以由终端设备和服务器共同执行。例如,参见图1所示:可以先由终端设备101识别目标语句中包括的实体,然后确定目标语句对应的第一待处理数据,并将该第一待处理数据发送给服务器102。相应的,服务器102调用实体分类模型对第一待处理数据进行处理,得到实体的实体类型信息等步骤。当然,服务器102还可以将实体的实体类型信息发送给终端设备101。
本申请实施例,面向多语言低资源场景,充分利用训练样本集中的原始训练样本以及原始训练样本对应的翻译训练样本,通过多语言样本的对比学习,使得模型在强化实体分类能力的同时,将原始训练样本的实体分类能力迁移到其他语言上,从而具备多语言样本的实体分类能力,提高实体分类的准确性。
可以理解的是,本申请实施例描述的***架构示意图是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着***架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
基于上述阐述,下面结合图2所示的流程图,对本申请实施例所提出的语句实体处理方法作进一步阐述。在本申请实施例中,主要以上述所提及的计算机设备执行该语句实体处理方法为例进行说明。请参见图2,该语句实体处理方法具体可以包括步骤S201~S203:
S201、识别目标语句中包括的实体。
在本申请实施例中,目标语句可以是指文本数据,也可以是指图像中包括的文本数据,在此不作限定。当目标语句为图像中包括的文本数据时,需要先提取图像中的文本数据,再识别该文本数据包括的实体。其中,实体也可以称之为实体提及(Entity Mention),具体是一个句子中的子串,并指向一个确切的实体。例如,句子1为“A市是B国的中心”,那么“A市”即为句子1中的一个实体。当然,目标语句包括的实体可以是一个或多个,在此不作限定。计算机设备识别目标语句中包括的实体的方式可以采用实体抽取技术,如基于深度学习的实体抽取方法、基于统计的实体抽取方法等,在此不作限定。
需要说明的是,当该目标语句属于用户时,本申请实施例所涉及到目标语句、目标语句包括的实体等相关的数据,均是经过用户授权后所获取到的。并且,当本申请实施例运用到具体产品或技术中时,所涉及使用到的数据需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
S202、确定目标语句对应的第一待处理数据。
在本申请实施例中,该第一待处理数据包括目标语句以及实体的位置标记信息。计算机设备可以在实体的位置加入特殊标记,从而得到目标语句对应的第一待处理数据。基于该方式,能够确定出实体的具***置,也便于后续能够快速且精准地确定出实体表示向量,从而提高实体分类的准确性。
在一种可能的实现方式中,计算机设备确定目标语句对应的第一待处理数据,具体的实现方式可以是:确定目标语句包括的实体的位置;在该实体的位置向目标语句添加实***置标记;将添加实***置标记的目标语句确定为第一待处理数据。
示例性的,假设目标语句为句子1,句子1为“A市是B国的中心”,实***置标记为“<ent>”。计算机设备获取到句子1包括的一个实体“A市”后,在句子1中找到相应的位置,在该实体的位置向句子1添加实***置标记,即“<ent>A市<ent>是B国的中心”,那么句子1对应的第一待处理数据便是“<ent>A市<ent>是B国的中心”。
S203、调用实体分类模型对第一待处理数据进行处理,得到实体的实体类型信息。
在本申请实施例中,该实体分类模型是基于训练样本集中的正例、负例以及实体类型标签进行对比学习得到的,该训练样本集包括原始训练样本以及原始训练样本对应的翻译训练样本。其中,实体类型信息用于表示实体所属的类型,例如,实体“A市”的实体类型信息为城市。当然,实体所属的类型也可以是多种,例如,实体“番茄”的实体类型信息为水果和蔬菜。计算机设备利用本方案训练出的实体分类模型对第一待处理数据进行处理,能够在多语言低资源场景下实现实体分类,并且提高实体分类的准确性。需要说明的是,针对实体分类模型,计算机设备首先需要确定出训练样本集中的正例、负例,利用正例、负例对初始神经网络模型进行对比学习,得到初始分类模型;然后利用训练样本集以及实体类型标签对初始分类模型进行微调,从而得到实体分类模型。此处的初始神经网络模型可以是多语言BERT模型(Multilingual-Bidirectional Encoder Representations fromTransformers,M-BERT),也可以采用其他模型,在此不作限定。其中,M-BERT模型是BERT模型的一个多语言版本,由于使用了多种语言进行预训练,能够使得M-BERT具有一定的跨语言性能。
综上所述,在本申请实施例中,首先识别目标语句中包括的实体;然后确定目标语句对应的第一待处理数据;最后调用实体分类模型对第一待处理数据进行处理,从而得到实体的实体类型信息,其中,该实体分类模型是基于训练样本集中的正例、负例以及实体类型标签进行对比学习得到的,此处的训练样本集包括原始训练样本以及原始训练样本对应的翻译训练样本。面向多语言低资源场景,充分利用训练样本集中的原始训练样本以及原始训练样本对应的翻译训练样本,通过多语言样本的对比学习,使得模型在强化实体分类能力的同时,将原始训练样本的实体分类能力迁移到其他语言上,从而具备多语言样本的实体分类能力,提高实体分类的准确性。
基于上述阐述,下面结合图3所示的流程图,对本申请实施例所提出的语句实体处理方法作进一步阐述。在本申请实施例中,主要以上述所提及的计算机设备执行该语句实体处理方法为例进行说明。请参见图3,该语句实体处理方法具体可以包括步骤S301~S307:
S301、获取训练样本集以及对应的实体类型标签。
在本申请实施例中,该训练样本集包括原始训练样本以及原始训练样本对应的翻译训练样本。计算机设备可以从自带的数据库中获取到训练样本集以及对应的实体类型标签,也可以从其他设备获取训练样本集以及对应的实体类型标签,在此不作限定。需要说明的是,在训练样本集中引入了原始训练样本以及原始训练样本对应的翻译训练样本,使得模型在强化实体分类能力的同时,具备多语言样本的实体分类能力。
其中,针对原始训练样本对应的翻译训练样本,可以用一个翻译标签进行标记,从而能够方便地找到原始训练样本经过机器翻译之后对应的翻译训练样本。示例性的,翻译标签可以是translate#i,其中i表示原始训练样本的编号。例如,第1个原始训练样本对应的翻译训练样本,可以标记为:translate#1。
在一种可能的实现方式中,计算机设备获取训练样本集以及对应的实体类型标签,具体的实现方式可以是:获取原始训练样本;对原始训练样本进行翻译处理,得到原始训练样本对应的翻译训练样本;获取原始训练样本的实体类型标签;基于原始训练样本的实体类型标签确定该翻译训练样本的实体类型标签。需要说明的是,针对原始训练样本对应的翻译训练样本,可以认为原始训练样本中实体的实体类型与翻译训练样本中对应的实体的实体类型是相同的。
示例性的,原始训练样本M是一个英文句子,其中包括实体1“A市”。该原始训练样本M对应的翻译训练样本m是利用机器翻译将该英文句子翻译成的中文句子,进一步获取到该原始训练样本M中实体1的实体类型标签,即为“城市”。然后在翻译训练样本m中定位到实体1翻译之后的位置,将翻译训练样本m中实体1的实体类型标签认为和原始训练样本M中实体1的实体类型标签相同,即也为“城市”。
在一种可能的实现方式中,计算机设备获取原始训练样本,具体的实现方式可以是:获取样本语句包括的实体;基于样本语句以及样本语句包括的实体构建原始训练样本,每个原始训练样本包括样本语句以及样本语句中的一个实体,每个原始训练样本对应一个或多个实体标签。例如,原始训练样本为“A市是B国的中心,A市”,该原始训练样本对应的实体标签为“A市&B国”;又例如,原始训练样本为“A市是B国的中心,B国”,该原始训练样本对应的实体标签为“B国&A市”;又例如,原始训练样本为“‘C公司位于A市,是B国的中心’,A市”,该原始训练样本对应两个实体标签,分别为“A市&B国”和“A市&C公司”。
需要说明的是,假设样本语句为句子S,该句子包括有n个实体,分别是e1,e2,...,en。那么可以根据该句子构建出n个原始训练样本,其中,第i个原始训练样本包含句子S以及第i个实体ei,并且具有(n-1)个实体标签:
Figure BDA0003590057870000091
其中,“&”用于分割两个实体标签。
示例性的,假设样本语句是句子1,即“A市是B国的中心”,提取到该句子1包括的实体有:“A市”和“B国”。因此,根据句子1包括的实体可以构建两个原始训练样本:原始训练样本1是“A市是B国的中心,A市”;原始训练样本2是“A市是B国的中心,B国”。其中,原始训练样本1对应的实体标签为“A市&B国”,原始训练样本2对应的实体标签也为“B国&A市”。
S302、基于训练样本集中各个训练样本的实体标签,确定训练样本集中的正例和负例。
在本申请实施例中,计算机设备获取到训练样本集以及对应的实体类型标签后,从训练样本集中确定出正例和负例,便于后续利用正例、负例对初始神经网络模型进行对比学习。
在一种可能的实现方式中,计算机设备基于训练样本集中各个训练样本的实体标签,确定训练样本集中的正例和负例,具体的实现方式可以是:将第二训练样本作为第一训练样本的正例,第一训练样本为训练样本集中的任意一个训练样本;第二训练样本的实体标签与第一训练样本的实体标签中至少存在一个相同的实体标签,或者,第二训练样本为第一训练样本的翻译训练样本,或者,第二训练样本为第一训练样本的原始训练样本;将除第一训练样本和第二训练样本之外的其他训练样本作为第一训练样本的负例。在这样确定正例和负例的方式中,能够使得原始训练样本之间进行对比学习,有利于提高模型的实体分类能力;同时能够使得原始训练样本与原始训练样本对应的翻译训练样本进行对比学习,从而让模型具备多语言的实体分类能力。
示例性的,假设训练样本集中包括原始训练样本A以及对应的翻译训练样本a、原始训练样本B以及对应的翻译训练样本b、原始训练样本C以及对应的翻译训练样本c。针对原始训练样本A,原始训练样本A的实体标签与原始训练样本B的实体标签相同,因此可以将原始训练样本B作为原始训练样本A的正例,将翻译训练样本a、翻译训练样本b、原始训练样本C以及对应的翻译训练样本c作为原始训练样本A的负例。
又示例性的,假设训练样本集中包括原始训练样本A以及对应的翻译训练样本a、原始训练样本B以及对应的翻译训练样本b、原始训练样本C以及对应的翻译训练样本c。针对原始训练样本A,可以将原始训练样本A对应的翻译训练样本a作为原始训练样本A的正例,将原始训练样本B以及对应的翻译训练样本b、原始训练样本C以及对应的翻译训练样本c作为原始训练样本A的负例。
又示例性的,假设训练样本集中包括原始训练样本A以及对应的翻译训练样本a、原始训练样本B以及对应的翻译训练样本b、原始训练样本C以及对应的翻译训练样本c。针对翻译训练样本a,可以将原始训练样本A作为翻译训练样本a的正例,将原始训练样本B以及对应的翻译训练样本b、原始训练样本C以及对应的翻译训练样本c作为翻译训练样本a的负例。
S303、基于正例、负例对初始神经网络模型进行对比学习,得到初始分类模型。
在本申请实施例中,计算机设备利用正例、负例对初始神经网络模型进行对比学习,提高正例之间的相似度,同时抑制负例之间的相似度,从而实现对初始神经网络模型的预训练,得到初始分类模型。
在一种可能的实现方式中,计算机设备基于正例、负例对初始神经网络模型进行对比学习,得到初始分类模型,具体的实现方式可以是:确定训练样本集中各个训练样本之间的关系值,该关系值用于指示各个训练样本之间为正例或者负例;确定训练样本集中各个训练样本之间的相似度;基于各个训练样本之间的关系值以及相似度,确定初始神经网络模型的第一损失值;基于该第一损失值更新初始神经网络模型的模型参数,得到初始分类模型。
需要说明的是,两个训练样本之间的关系(正例或负例)不同,两个训练样本之间的关系值也就不同。第一损失值可以通过对比学习的损失函数确定,具体可以采用公式(1)计算得到,公式(1)如下所示:
Figure BDA0003590057870000101
其中,m表示一共选取了m个训练样本,i表示第i个训练样本,j表示第j个训练样本,xi表示第i个训练样本的第一实体表示向量,xj表示第j个训练样本的第一实体表示向量,f(xi,xj)表示第i个训练样本和第j个训练样本之间的相似度,g(i,j)表示第i个训练样本和第j个训练样本之间的关系值,Lcontrastive表示第一损失值。
在一种可能的实现方式中,计算机设备确定训练样本集中各个训练样本之间的关系值,具体的实现方式可以是:若第一训练样本与第二训练样本之间为正例,则第一训练样本与第二训练样本之间的关系值为第一数值,该第一训练样本和该第二训练样本为训练样本集中的任意两个训练样本;若第一训练样本与第二训练样本之间为负例,则第一训练样本与第二训练样本之间的关系值为第二数值。需要说明的是,为了能够提高正例之间的相似度,同时抑制负例之间的相似度,第一数值需要大于第二数值。对于第一数值和第二数值可以是自行设定的固定值,也可以是动态变化的数值,在此不作限定。
示例性的,根据公式(1)以及上述阐述,若第i个训练样本和第j个训练样本之间的为正例,则g(i,j)为1;若第i个训练样本和第j个训练样本之间的为负例,则g(i,j)为0。
在一种可能的实现方式中,计算机设备确定训练样本集中各个训练样本之间的相似度,具体的实现方式可以是:确定训练样本集中每个训练样本对应的第二待处理数据,该第二待处理数据包括每个训练样本以及每个训练样本中实体的位置标记信息;调用初始神经网络模型的编码器对每个训练样本对应的第二待处理数据进行编码处理,得到每个训练样本对应的第一实体表示向量;基于每个训练样本对应的第一实体表示向量确定训练样本集中各个训练样本之间的相似度。
需要说明的是,确定训练样本集中各个训练样本之间的相似度需要利用每个训练样本对应的第一实体表示向量,每个训练样本对应的第一实体表示向量是调用初始神经网络模型的编码器对每个训练样本对应的第二待处理数据进行编码处理得到的。其中,这里的第一实体表示向量可以是第一个<ent>对应的词向量。后续进行实体分类的分类器是一个线性层,可以选取两个向量表示的余弦距离作为各个训练样本之间的相似度。如果余弦距离越大,则表明选取的两个训练样本的第一实体表示向量很相近;反之,余弦距离越小,则表明两个训练样本的第一实体表示向量表示不相近。通过对比学习,也使得正例之间越来越相近,负例之间越来越疏远。另外,因为余弦的值域为[-1,1]较为窄,还需要乘一个系数来放大以便于模型区分。
具体的,各个训练样本之间的相似度可以采用公式(2)计算得到,公式(2)如下所示:
Figure BDA0003590057870000121
其中,i表示第i个训练样本,j表示第j个训练样本,xi表示第i个训练样本的第一实体表示向量,xj表示第j个训练样本的第一实体表示向量,f(xi,xj)表示第i个训练样本和第j个训练样本之间的相似度,τ表示温度,温度越低则模型越容易区分不同的实体类型,通常τ可以取0.5。
在一种可能的实现方式中,计算机设备在调用初始神经网络模型的编码器对每个训练样本对应的第二待处理数据进行编码处理,得到每个训练样本对应的第一实体表示向量之前,还需要对每个训练样本对应的第二待处理数据进行实体遮蔽处理。需要说明的是,为了提高初始神经网络模型利用上下文信息的能力,在训练模型的过程中可以应用实体遮蔽方法。例如,句子“A市是B国的中心”,其中包括实体“A市”。在模型训练的时候,会有一个预设概率将实体“A市”用一个表示遮蔽的符号代替,如[Mask]。这样可以使得初始神经网络模型在训练的时候学习如何利用上下文信息,而不会仅仅关注于实体名称。其中,预设概率可以是随机设定的,也可以是根据大量实验数据确定的,在此不作限定。
S304、基于训练样本集以及实体类型标签对初始分类模型进行微调,得到实体分类模型。
在本申请实施例中,计算机设备在得到初始分类模型之后,进一步对该初始分类模型进行微调(Fine-tuning),以提高模型的实体分类能力。
在一种可能的实现方式中,计算机设备基于训练样本集以及实体类型标签对初始分类模型进行微调,得到实体分类模型,具体的实现方式可以是:调用初始分类模型的编码器对训练样本集中每个训练样本对应的第二待处理数据进行编码处理,得到每个训练样本对应的第二实体表示向量,该第二待处理数据包括每个训练样本以及每个训练样本中实体的位置标记信息;调用初始分类模型的线性层对每个训练样本对应的第二实体表示向量进行分类处理,得到每个训练样本对应的实体类型信息;基于每个训练样本对应的实体类型信息、每个训练样本的实体类型标签,确定初始分类模型的第二损失值;基于第二损失值更新初始分类模型的模型参数,得到实体分类模型。其中,该线性层可以作为分类器,如softmax分类器等,通过分类器将第二实体表示向量映射到一个维数为实体类型标签个数的向量,从而进行实体分类。
需要说明的是,计算机设备通过训练得到初始分类模型后,进一步调用该初始分类模型得到每个训练样本对应的实体类型信息,需要根据每个训练样本对应的实体类型信息、每个训练样本的实体类型标签,确定出初始分类模型的第二损失值,实现对初始分类模型的微调,从而得到实体分类模型。具体的,初始分类模型的第二损失值可以采用公式(3)计算得到,公式(3)如下所示:
Figure BDA0003590057870000131
其中,i表示第i个训练样本,j表示第j个实体类型,l表示一共有l个实体类型,zi(j)表示针对第j个实体类型,第i个训练样本对应的实体类型信息;yi(j)针对第j个实体类型,第i个训练样本的实体类型标签(可以是第i个训练样本的第j个实体类型的one-hot向量,若有多个实体类型则为多个实体类型的one-hot向量之和);σ为sigmoid函数,一种激活函数;Lfine-tuning为初始分类模型的第二损失值。
下面以初始神经网络模型为M-BERT模型为例,对本申请提出的语句实体处理方法进行说明:
请参见图4,图4是本申请实施例提供的一种实体分类模型的结构示意图。如图4所示,计算机设备在训练初始神经网络模型之前,需要获取训练样本集以及对应的实体类型标签,该训练样本集包括原始训练样本以及原始训练样本对应的翻译训练样本。每个原始训练样本包括样本语句以及样本语句中的一个实体,每个原始训练样本对应一个或多个实体标签。
假设训练样本集中包括原始训练样本A以及对应的翻译训练样本a、原始训练样本B以及对应的翻译训练样本b、原始训练样本C以及对应的翻译训练样本c。其中,原始训练样本A对应的实体为x,实体标签为R&T,实体类型标签为H;相应地,翻译训练样本a对应的实体为x,实体标签为R&T,实体类型标签为H。原始训练样本B对应的实体为y,实体标签为R&T,实体类型标签为K;相应地,翻译训练样本b对应的实体为y,实体标签为R&T,实体类型标签为K。原始训练样本C对应的实体为z,实体标签为M,实体类型标签为N;相应地,翻译训练样本c对应的实体为z,实体标签为M,实体类型标签为N。
针对每次训练,根据各个训练样本的实体标签,确定出训练样本集中的正例和负例。并且,对每个训练样本对应的实***置进行标记,实***置标记可以为“<ent>”,从而得到每个训练样本对应的第二待处理数据。例如,在一次训练中,针对原始训练样本A,可以将原始训练样本B作为原始训练样本A的正例,将翻译训练样本a、翻译训练样本b、原始训练样本C以及对应的翻译训练样本c作为原始训练样本A的负例。
进一步,可以通过查询字向量表的方式获取每个训练样本对应的第二待处理数据的词向量;根据上下文关系确定每个训练样本对应的第二待处理数据的段向量;根据每个训练样本对应的第二待处理数据中每个字的位置关系确定每个训练样本对应的第二待处理数据的位置向量。将这些向量一起输入到M-BERT模型中,调用M-BERT模型的编码器进行编码处理,得到每个训练样本对应的第一实体表示向量,这里的第一实体表示向量可以是第一个<ent>对应的词向量。在训练模型的过程中可以应用实体遮蔽方法,以提高模型利用上下文信息的能力。
进一步,各个训练样本之间进行对比学习,根据各个训练样本之间的关系值以及相似度,利用公式(1)计算对比学习的第一损失值。然后按照减少第一损失值的方向,更新M-BERT模型的模型参数,从而得到初始分类模型。
进一步,利用初始分类模型的编码器对每个训练样本对应的第二待处理数据进行编码处理,得到每个训练样本对应的第二实体表示向量;然后用初始分类模型的线性层对每个训练样本对应的第二实体表示向量进行分类处理,得到每个训练样本对应的实体类型信息。然后利用公式(3)计算第二损失值,按照减少第二损失值的方向,更新初始分类模型的模型参数,通过不断训练,得到实体分类模型。在应用该实体分类模型的过程中,首先是识别目标语句中包括的实体,并确定出目标语句对应的第一待处理数据,然后将第一待处理数据输入到该实体分类模型中进行处理,便可得到该目标语句包括的实体的实体类型信息。
请参见表1,表1是本申请实施例提供的一种实体分类模型应用测试指标统计表格。其中,精确率(Precision,P)指标用于表示正确预测的测试样本占全部测试样本的比例;召回率(Recall,R)指标用于表示能够将实体类型信息预测出来的测试样本占全部测试样本的比例;F1值(H-mean值)指标用于表示精确率和召回率的调和平均数,相当于精确率和召回率的综合评价指标。将本方案训练出的实体分类模型应用在公开评测数据(OpenEntity及Few-NERD)上测试模型的效果:Fine-tuning表示微调后的基础模型,Mono(E)表示仅使用英文数据的单语言文本进行对比学习得到的模型,Mono(E+Z)表示使用了中文和英文的单语言文本进行对比学习得到的模型,Cross(E+Z)表示使用了中文和英文及其翻译文本进行对比学习得到的模型,即本方案提出的实体分类模型。从表1可知,在每种类型的样本数不同时,本方案提出的实体分类模型对应的F1值相比其他模型对应的F1值,都有比较好的实体分类效果,因此能够在多语言低资源场景下实现实体分类,并且提高实体分类的准确性。
表1
Figure BDA0003590057870000151
请参见表2,表2是本申请实施例提供的另一种实体分类模型应用测试指标统计表格。为了测试本方案提出的实体分类模型的跨语言迁移学***均数,相当于精确率和召回率的综合评价指标。将本方案训练出的实体分类模型应用在公开评测数据(Open Entity及Few-NERD)上测试模型的效果:Fine-tuning表示微调后的基础模型,Mono(E)表示仅使用英文数据的单语言文本进行对比学习得到的模型,Mono(E+Z)表示使用了中文和英文的单语言文本进行对比学习得到的模型,Cross(E+Z)表示使用了中文和英文及其翻译文本进行对比学习得到的模型,即本方案提出的实体分类模型。从表2可知,在每种类型的样本数不同时,本方案提出的实体分类模型对应的F1值相比其他模型对应的F1值,都有比较好的实体分类效果,表明该实体分类模型具有跨语言迁移学习的能力,因此能够在多语言低资源场景下实现实体分类,并且提高实体分类的准确性。
表2
Figure BDA0003590057870000161
S305、识别目标语句中包括的实体。
S306、确定目标语句对应的第一待处理数据。
S307、调用实体分类模型对第一待处理数据进行处理,得到实体的实体类型信息。
其中,步骤S305~S307的具体实现方式可以参考上述步骤S201~S203的具体实现方式,在此不作赘述。
综上所述,在本申请实施例中,首先是获取训练样本集以及对应的实体类型标签,并基于训练样本集中各个训练样本的实体标签,确定训练样本集中的正例和负例;然后基于正例、负例对初始神经网络模型进行对比学习,得到初始分类模型;基于训练样本集以及实体类型标签对初始分类模型进行微调,得到实体分类模型。在应用该实体分类模型时,先识别目标语句中包括的实体;然后确定目标语句对应的第一待处理数据;最后调用实体分类模型对第一待处理数据进行处理,从而得到实体的实体类型信息。面向多语言低资源场景,充分利用训练样本集中的原始训练样本以及原始训练样本对应的翻译训练样本,通过多语言样本的对比学习,使得模型在强化实体分类能力的同时,将原始训练样本的实体分类能力迁移到其他语言上,从而具备多语言样本的实体分类能力,提高实体分类的准确性。
基于上述的语句实体处理方法,本申请实施例提供了一种语句实体处理装置。请参见图5,是本申请实施例提供的一种语句实体处理装置的结构示意图,该语句实体处理装置500可以运行如下单元:
获取单元501,用于识别目标语句中包括的实体;
确定单元502,用于确定目标语句对应的第一待处理数据,该第一待处理数据包括目标语句以及该实体的位置标记信息;
处理单元503,用于调用实体分类模型对第一待处理数据进行处理,得到该实体的实体类型信息,该实体分类模型是基于训练样本集中的正例、负例以及实体类型标签进行对比学习得到的,该训练样本集包括原始训练样本以及该原始训练样本对应的翻译训练样本。
在一种实施方式中,处理单元503,还用于:获取训练样本集以及对应的实体类型标签,该训练样本集包括原始训练样本以及该原始训练样本对应的翻译训练样本;基于训练样本集中各个训练样本的实体标签,确定训练样本集中的正例和负例;基于正例、负例对初始神经网络模型进行对比学习,得到初始分类模型;基于训练样本集以及实体类型标签对初始分类模型进行微调,得到实体分类模型。
另一种实施方式中,处理单元503,在基于正例、负例对初始神经网络模型进行对比学习,得到初始分类模型时,可具体用于:确定训练样本集中各个训练样本之间的关系值,该关系值用于指示各个训练样本之间为正例或者负例;确定训练样本集中各个训练样本之间的相似度;基于各个训练样本之间的关系值以及相似度,确定初始神经网络模型的第一损失值;基于该第一损失值更新初始神经网络模型的模型参数,得到初始分类模型。
另一种实施方式中,处理单元503,在确定训练样本集中各个训练样本之间的关系值时,可具体用于:若第一训练样本与第二训练样本之间为正例,则第一训练样本与第二训练样本之间的关系值为第一数值,第一训练样本和第二训练样本为训练样本集中的任意两个训练样本;若第一训练样本与第二训练样本之间为负例,则第一训练样本与第二训练样本之间的关系值为第二数值。
另一种实施方式中,处理单元503,在确定该训练样本集中各个训练样本之间的相似度时,可具体用于:确定训练样本集中每个训练样本对应的第二待处理数据,该第二待处理数据包括每个训练样本以及每个训练样本中实体的位置标记信息;调用初始神经网络模型的编码器对每个训练样本对应的第二待处理数据进行编码处理,得到每个训练样本对应的第一实体表示向量;基于每个训练样本对应的第一实体表示向量确定训练样本集中各个训练样本之间的相似度。
另一种实施方式中,处理单元503,在基于训练样本集以及实体类型标签对初始分类模型进行微调,得到实体分类模型时,可具体用于:调用初始分类模型的编码器对训练样本集中每个训练样本对应的第二待处理数据进行编码处理,得到每个训练样本对应的第二实体表示向量,该第二待处理数据包括每个训练样本以及每个训练样本中实体的位置标记信息;调用初始分类模型的线性层对每个训练样本对应的第二实体表示向量进行分类处理,得到每个训练样本对应的实体类型信息;基于每个训练样本对应的实体类型信息、每个训练样本的实体类型标签,确定初始分类模型的第二损失值;基于该第二损失值更新初始分类模型的模型参数,得到实体分类模型。
另一种实施方式中,处理单元503,在获取训练样本集以及对应的实体类型标签时,可具体用于:获取原始训练样本;对该原始训练样本进行翻译处理,得到该原始训练样本对应的翻译训练样本;获取该原始训练样本的实体类型标签;基于该原始训练样本的实体类型标签确定该翻译训练样本的实体类型标签。
另一种实施方式中,处理单元503,在获取原始训练样本时,可具体用于:获取样本语句包括的实体;基于该样本语句以及该样本语句包括的实体构建原始训练样本,每个原始训练样本包括该样本语句以及该样本语句中的一个实体,每个原始训练样本对应一个或多个实体标签。
另一种实施方式中,处理单元503,在基于训练样本集中各个训练样本的实体标签,确定训练样本集中的正例和负例时,可具体用于:将第二训练样本作为第一训练样本的正例,该第一训练样本为训练样本集中的任意一个训练样本;第二训练样本的实体标签与第一训练样本的实体标签中至少存在一个相同的实体标签,或者,第二训练样本为第一训练样本的翻译训练样本,或者,第二训练样本为第一训练样本的原始训练样本;将除第一训练样本和第二训练样本之外的其他训练样本作为第一训练样本的负例。
根据本申请的另一个实施例,图5所示的语句实体处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,语句实体处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2或图3中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图5中所示的语句实体处理装置,以及来实现本申请实施例的语句实体处理方法。所述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
在本申请实施例中,首先识别目标语句中包括的实体;然后确定目标语句对应的第一待处理数据;最后调用实体分类模型对第一待处理数据进行处理,从而得到实体的实体类型信息,其中,该实体分类模型是基于训练样本集中的正例、负例以及实体类型标签进行对比学习得到的,此处的训练样本集包括原始训练样本以及原始训练样本对应的翻译训练样本。面向多语言低资源场景,充分利用训练样本集中的原始训练样本以及原始训练样本对应的翻译训练样本,通过多语言样本的对比学习,使得模型在强化实体分类能力的同时,将原始训练样本的实体分类能力迁移到其他语言上,从而具备多语言样本的实体分类能力,提高实体分类的准确性。
基于上述方法实施例以及装置实施例的描述,本申请实施例还提供一种计算机设备。请参见图6,该计算机设备600至少包括处理器601、通信接口602以及计算机存储介质603。其中,处理器601、通信接口602以及计算机存储介质603可通过总线或其他方式连接。计算机存储介质603可以存储在计算机设备600的存储器604中,所述计算机存储介质603用于存储计算机程序,所述计算机程序包括程序指令,所述处理器601用于执行所述计算机存储介质603存储的程序指令。处理器601(或称CPU(Central Processing Unit,中央处理器))是计算机设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。
在一个实施例中,本申请实施例所述的处理器601可以用于进行一系列的处理,具体包括:识别目标语句中包括的实体;确定目标语句对应的第一待处理数据,该第一待处理数据包括目标语句以及该实体的位置标记信息;调用实体分类模型对第一待处理数据进行处理,得到该实体的实体类型信息,该实体分类模型是基于训练样本集中的正例、负例以及实体类型标签进行对比学习得到的,该训练样本集包括原始训练样本以及该原始训练样本对应的翻译训练样本,等等。
本申请实施例还提供了一种计算机存储介质(Memory),所述计算机存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了计算机设备的操作***。并且,在该存储空间中还存放了适于被处理器601加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的,还可以是至少一个位于远离前述处理器的计算机存储介质。
在一个实施例中,可由处理器加载并执行计算机存储介质中存放的一条或多条指令,以实现上述有关图2或图3所示的语句实体处理方法实施例中的方法的相应步骤;具体实现中,计算机存储介质中的一条或多条指令由处理器601加载并执行如下步骤:
识别目标语句中包括的实体;
确定目标语句对应的第一待处理数据,该第一待处理数据包括目标语句以及该实体的位置标记信息;
调用实体分类模型对第一待处理数据进行处理,得到该实体的实体类型信息,该实体分类模型是基于训练样本集中的正例、负例以及实体类型标签进行对比学习得到的,该训练样本集包括原始训练样本以及该原始训练样本对应的翻译训练样本。
在一种实施方式中,该一条或多条指令可由处理器加载并还执行:获取训练样本集以及对应的实体类型标签,该训练样本集包括原始训练样本以及该原始训练样本对应的翻译训练样本;基于训练样本集中各个训练样本的实体标签,确定训练样本集中的正例和负例;基于正例、负例对初始神经网络模型进行对比学习,得到初始分类模型;基于训练样本集以及实体类型标签对初始分类模型进行微调,得到实体分类模型。
另一种实施方式中,在基于正例、负例对初始神经网络模型进行对比学习,得到初始分类模型时,该一条或多条指令可由处理器加载并执行:确定训练样本集中各个训练样本之间的关系值,该关系值用于指示各个训练样本之间为正例或者负例;确定训练样本集中各个训练样本之间的相似度;基于各个训练样本之间的关系值以及相似度,确定初始神经网络模型的第一损失值;基于该第一损失值更新初始神经网络模型的模型参数,得到初始分类模型。
另一种实施方式中,在确定训练样本集中各个训练样本之间的关系值时,该一条或多条指令可由处理器加载并执行:若第一训练样本与第二训练样本之间为正例,则第一训练样本与第二训练样本之间的关系值为第一数值,第一训练样本和第二训练样本为训练样本集中的任意两个训练样本;若第一训练样本与第二训练样本之间为负例,则第一训练样本与第二训练样本之间的关系值为第二数值。
另一种实施方式中,在确定该训练样本集中各个训练样本之间的相似度时,该一条或多条指令可由处理器加载并执行:确定训练样本集中每个训练样本对应的第二待处理数据,该第二待处理数据包括每个训练样本以及每个训练样本中实体的位置标记信息;调用初始神经网络模型的编码器对每个训练样本对应的第二待处理数据进行编码处理,得到每个训练样本对应的第一实体表示向量;基于每个训练样本对应的第一实体表示向量确定训练样本集中各个训练样本之间的相似度。
另一种实施方式中,在基于训练样本集以及实体类型标签对初始分类模型进行微调,得到实体分类模型时,该一条或多条指令可由处理器加载并执行:调用初始分类模型的编码器对训练样本集中每个训练样本对应的第二待处理数据进行编码处理,得到每个训练样本对应的第二实体表示向量,该第二待处理数据包括每个训练样本以及每个训练样本中实体的位置标记信息;调用初始分类模型的线性层对每个训练样本对应的第二实体表示向量进行分类处理,得到每个训练样本对应的实体类型信息;基于每个训练样本对应的实体类型信息、每个训练样本的实体类型标签,确定初始分类模型的第二损失值;基于该第二损失值更新初始分类模型的模型参数,得到实体分类模型。
另一种实施方式中,在获取训练样本集以及对应的实体类型标签时,该一条或多条指令可由处理器加载并执行:获取原始训练样本;对该原始训练样本进行翻译处理,得到该原始训练样本对应的翻译训练样本;获取该原始训练样本的实体类型标签;基于该原始训练样本的实体类型标签确定该翻译训练样本的实体类型标签。
另一种实施方式中,在获取原始训练样本时,该一条或多条指令可由处理器加载并执行:获取样本语句包括的实体;基于该样本语句以及该样本语句包括的实体构建原始训练样本,每个原始训练样本包括该样本语句以及该样本语句中的一个实体,每个原始训练样本对应一个或多个实体标签。
另一种实施方式中,在基于训练样本集中各个训练样本的实体标签,确定训练样本集中的正例和负例时,该一条或多条指令可由处理器加载并执行:将第二训练样本作为第一训练样本的正例,该第一训练样本为训练样本集中的任意一个训练样本;第二训练样本的实体标签与第一训练样本的实体标签中至少存在一个相同的实体标签,或者,第二训练样本为第一训练样本的翻译训练样本,或者,第二训练样本为第一训练样本的原始训练样本;将除第一训练样本和第二训练样本之外的其他训练样本作为第一训练样本的负例。
在本申请实施例中,首先识别目标语句中包括的实体;然后确定目标语句对应的第一待处理数据;最后调用实体分类模型对第一待处理数据进行处理,从而得到实体的实体类型信息,其中,该实体分类模型是基于训练样本集中的正例、负例以及实体类型标签进行对比学习得到的,此处的训练样本集包括原始训练样本以及原始训练样本对应的翻译训练样本。面向多语言低资源场景,充分利用训练样本集中的原始训练样本以及原始训练样本对应的翻译训练样本,通过多语言样本的对比学习,使得模型在强化实体分类能力的同时,将原始训练样本的实体分类能力迁移到其他语言上,从而具备多语言样本的实体分类能力,提高实体分类的准确性。
需要说明的是,根据本申请的一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述图2或图3所示的语句实体处理方法实施例方面的各种可选方式中提供的方法。并且,应理解的是,以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (13)

1.一种语句实体处理方法,其特征在于,包括:
识别目标语句中包括的实体;
确定所述目标语句对应的第一待处理数据,所述第一待处理数据包括所述目标语句以及所述实体的位置标记信息;
调用实体分类模型对所述第一待处理数据进行处理,得到所述实体的实体类型信息,所述实体分类模型是基于训练样本集中的正例、负例以及实体类型标签进行对比学习得到的,所述训练样本集包括原始训练样本以及所述原始训练样本对应的翻译训练样本。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取训练样本集以及对应的实体类型标签,所述训练样本集包括原始训练样本以及所述原始训练样本对应的翻译训练样本;
基于所述训练样本集中各个训练样本的实体标签,确定所述训练样本集中的正例和负例;
基于所述正例、所述负例对初始神经网络模型进行对比学习,得到初始分类模型;
基于所述训练样本集以及所述实体类型标签对所述初始分类模型进行微调,得到所述实体分类模型。
3.根据权利要求2所述的方法,其特征在于,所述基于所述正例、所述负例对初始神经网络模型进行对比学习,得到初始分类模型,包括:
确定所述训练样本集中各个训练样本之间的关系值,所述关系值用于指示所述各个训练样本之间为正例或者负例;
确定所述训练样本集中各个训练样本之间的相似度;
基于所述各个训练样本之间的关系值以及相似度,确定所述初始神经网络模型的第一损失值;
基于所述第一损失值更新所述初始神经网络模型的模型参数,得到初始分类模型。
4.根据权利要求3所述的方法,其特征在于,所述确定所述训练样本集中各个训练样本之间的关系值,包括:
若第一训练样本与第二训练样本之间为正例,则所述第一训练样本与所述第二训练样本之间的关系值为第一数值,所述第一训练样本和所述第二训练样本为所述训练样本集中的任意两个训练样本;
若所述第一训练样本与所述第二训练样本之间为负例,则所述第一训练样本与所述第二训练样本之间的关系值为第二数值。
5.根据权利要求3或4所述的方法,其特征在于,所述确定所述训练样本集中各个训练样本之间的相似度,包括:
确定所述训练样本集中每个训练样本对应的第二待处理数据,所述第二待处理数据包括所述每个训练样本以及所述每个训练样本中实体的位置标记信息;
调用初始神经网络模型的编码器对所述每个训练样本对应的第二待处理数据进行编码处理,得到所述每个训练样本对应的第一实体表示向量;
基于所述每个训练样本对应的第一实体表示向量确定所述训练样本集中各个训练样本之间的相似度。
6.根据权利要求2~4中任一项所述的方法,其特征在于,所述基于所述训练样本集以及所述实体类型标签对所述初始分类模型进行微调,得到所述实体分类模型,包括:
调用所述初始分类模型的编码器对所述训练样本集中每个训练样本对应的第二待处理数据进行编码处理,得到所述每个训练样本对应的第二实体表示向量,所述第二待处理数据包括所述每个训练样本以及所述每个训练样本中实体的位置标记信息;
调用所述初始分类模型的线性层对所述每个训练样本对应的第二实体表示向量进行分类处理,得到所述每个训练样本对应的实体类型信息;
基于所述每个训练样本对应的实体类型信息、所述每个训练样本的实体类型标签,确定所述初始分类模型的第二损失值;
基于所述第二损失值更新所述初始分类模型的模型参数,得到所述实体分类模型。
7.根据权利要求2~4中任一项所述的方法,其特征在于,获取训练样本集以及对应的实体类型标签,包括:
获取原始训练样本;
对所述原始训练样本进行翻译处理,得到所述原始训练样本对应的翻译训练样本;
获取所述原始训练样本的实体类型标签;
基于所述原始训练样本的实体类型标签确定所述翻译训练样本的实体类型标签。
8.根据权利要求7所述的方法,其特征在于,所述获取原始训练样本,包括:
获取样本语句包括的实体;
基于所述样本语句以及所述样本语句包括的实体构建原始训练样本,每个原始训练样本包括所述样本语句以及所述样本语句中的一个实体,所述每个原始训练样本对应一个或多个实体标签。
9.根据权利要求2~4中任一项所述的方法,其特征在于,所述基于所述训练样本集中各个训练样本的实体标签,确定所述训练样本集中的正例和负例,包括:
将第二训练样本作为第一训练样本的正例,所述第一训练样本为所述训练样本集中的任意一个训练样本;所述第二训练样本的实体标签与所述第一训练样本的实体标签中至少存在一个相同的实体标签,或者,所述第二训练样本为所述第一训练样本的翻译训练样本,或者,所述第二训练样本为所述第一训练样本的原始训练样本;
将除所述第一训练样本和所述第二训练样本之外的其他训练样本作为所述第一训练样本的负例。
10.一种语句实体处理装置,其特征在于,所述装置包括:
获取单元,用于识别目标语句中包括的实体;
确定单元,用于确定所述目标语句对应的第一待处理数据,所述第一待处理数据包括所述目标语句以及所述实体的位置标记信息;
处理单元,用于调用实体分类模型对所述第一待处理数据进行处理,得到所述实体的实体类型信息,所述实体分类模型是基于训练样本集中的正例、负例以及实体类型标签进行对比学习得到的,所述训练样本集包括原始训练样本以及所述原始训练样本对应的翻译训练样本。
11.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1~9任一项所述的语句实体处理方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由处理器加载并执行如权利要求1~9任一项所述的语句实体处理方法。
13.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序适于由处理器加载并执行如权利要求1~9任一项所述的语句实体处理方法。
CN202210374003.6A 2022-04-11 2022-04-11 语句实体处理方法、装置、计算机设备及存储介质 Pending CN115129862A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210374003.6A CN115129862A (zh) 2022-04-11 2022-04-11 语句实体处理方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210374003.6A CN115129862A (zh) 2022-04-11 2022-04-11 语句实体处理方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN115129862A true CN115129862A (zh) 2022-09-30

Family

ID=83376444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210374003.6A Pending CN115129862A (zh) 2022-04-11 2022-04-11 语句实体处理方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN115129862A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115618891A (zh) * 2022-12-19 2023-01-17 湖南大学 一种基于对比学习的多模态机器翻译方法和***
CN117273003A (zh) * 2023-11-14 2023-12-22 腾讯科技(深圳)有限公司 文本数据处理方法、模型训练方法以及命名实体识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115618891A (zh) * 2022-12-19 2023-01-17 湖南大学 一种基于对比学习的多模态机器翻译方法和***
CN117273003A (zh) * 2023-11-14 2023-12-22 腾讯科技(深圳)有限公司 文本数据处理方法、模型训练方法以及命名实体识别方法
CN117273003B (zh) * 2023-11-14 2024-03-12 腾讯科技(深圳)有限公司 文本数据处理方法、模型训练方法以及命名实体识别方法

Similar Documents

Publication Publication Date Title
US20230016365A1 (en) Method and apparatus for training text classification model
CN113627447B (zh) 标签识别方法、装置、计算机设备、存储介质及程序产品
CN112131883B (zh) 语言模型训练方法、装置、计算机设备和存储介质
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN112988979A (zh) 实体识别方法、装置、计算机可读介质及电子设备
CN115129862A (zh) 语句实体处理方法、装置、计算机设备及存储介质
CN113705315B (zh) 视频处理方法、装置、设备及存储介质
CN111858898A (zh) 基于人工智能的文本处理方法、装置及电子设备
CN113761868B (zh) 文本处理方法、装置、电子设备及可读存储介质
CN112052424B (zh) 一种内容审核方法及装置
CN112860871B (zh) 自然语言理解模型训练方法、自然语言理解方法及装置
CN115146068B (zh) 关系三元组的抽取方法、装置、设备及存储介质
CN114398899A (zh) 预训练语言模型的训练方法、装置、计算机设备和介质
CN114444476B (zh) 信息处理方法、装置和计算机可读存储介质
CN115374259A (zh) 一种问答数据挖掘方法、装置及电子设备
CN112667803A (zh) 一种文本情感分类方法及装置
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及***
CN115878752A (zh) 文本情感的分析方法、装置、设备、介质及程序产品
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN116662522B (zh) 问题答案推荐方法、存储介质和电子设备
CN113609873A (zh) 翻译模型训练方法、装置及介质
CN114398903B (zh) 意图识别方法、装置、电子设备及存储介质
CN116976341A (zh) 实体识别方法、装置、电子设备、存储介质及程序产品
CN114662496A (zh) 信息识别方法、装置、设备、存储介质及产品
CN113657092A (zh) 识别标签的方法、装置、设备以及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination