CN113408284A - 文本处理模型的训练方法、装置、电子设备及存储介质 - Google Patents

文本处理模型的训练方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113408284A
CN113408284A CN202110037861.7A CN202110037861A CN113408284A CN 113408284 A CN113408284 A CN 113408284A CN 202110037861 A CN202110037861 A CN 202110037861A CN 113408284 A CN113408284 A CN 113408284A
Authority
CN
China
Prior art keywords
model
text
text processing
training
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110037861.7A
Other languages
English (en)
Inventor
刘志强
刘源
邓浩辉
张金超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110037861.7A priority Critical patent/CN113408284A/zh
Publication of CN113408284A publication Critical patent/CN113408284A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供了一种文本处理模型的训练方法、装置、电子设备及存储介质,涉及云技术及人工智能技术领域。该文本处理模型的训练方法包括:构建包括第一文本处理模型和第二文本处理模型的初始神经网络模型,采用第一训练数据集、与第一训练数据集不同领域的第二训练数据集,对第一文本处理模型和第二文本处理模型进行联合训练,直至满足预设的训练结束条件,从而得到满足要求的文本处理模型。通过联合训练可以实现对第一文本处理模型的辅助训练,而且,采用不同领域的训练数据集,有助于文本处理模型的领域扩展,提高模型处理不同领域数据的准确率。

Description

文本处理模型的训练方法、装置、电子设备及存储介质
技术领域
本申请涉及云技术及人工智能技术领域,具体而言,本申请涉及一种文本处理模型的训练方法、装置、电子设备及存储介质。
背景技术
文本处理技术是目前工业界在自然语言处理中普遍使用的技术,通过文本处理模型,根据应用场景以及实际处理任务的不同,对文本数据进行相应的处理。其中,文本处理可以包括文本匹配、文本分类、文本生成等。现有技术中,对于训练好的文本处理模型,该模型的处理性能主要限于该模型的训练数据所属的领域,在对扩展领域的文本进行处理时,文本处理的效果通常不够理想。
发明内容
本申请实施例提供了一种文本处理模型的训练方法、装置、电子设备及存储介质,基于该方案,能够有效提高文本匹配模型在扩展领域的文本匹配效果。
为实现上述目的,本申请实施例提供的具体技术方案如下:
一方面,本申请实施例提供了一种文本处理模型的训练方法,该方法包括:
构建初始神经网络模型,初始神经网络模型包括第一文本处理模型和第二文本处理模型,其中,第一文本处理模型包括级联的文本特征提取模块和结果预测模块,第二文本处理模型与文本特征提取模块的输出相连接,第二文本处理模型包括掩码语言模型或命名实体识别模型中的至少一项;
获取对应于第一文本处理模型的第一训练数据集、以及对应于第二文本处理模型的第二训练数据集,其中,第一训练数据集与第二训练数据集属于不同领域;
基于第一训练数据集和第二训练数据集,对初始神经网络模型进行训练,直至满足预设的训练结束条件,将训练结束时的第一文本处理模型作为最终的文本处理模型。
另一方面,本发明实施例还提供了一种文本处理方法,该方法包括:
获取待处理文本;
将待处理文本输入至文本处理模型,得到处理结果;
基于处理结果,进行相应的处理;
其中,文本处理模型是基于第一方面的任一种实现方式的方法训练得到的。
本发明实施例还提供了一种文本处理模型的训练装置,该装置包括:
模型构建模块,用于构建初始神经网络模型,初始神经网络模型包括第一文本处理模型和第二文本处理模型,其中,第一文本处理模型包括级联的文本特征提取模块和结果预测模块,第二文本处理模型与文本特征提取模块的输出相连接,第二文本处理模型包括掩码语言模型或命名实体识别模型中的至少一项;
数据获取模块,用于获取对应于第一文本处理模型的第一训练数据集、以及对应于第二文本处理模型的第二训练数据集,其中,第一训练数据集是与第二训练数据集属于不同领域;
模型训练模块,用于基于第一训练数据集和第二训练数据集,对初始神经网络模型进行训练,直至满足预设的训练结束条件,将训练结束时的第一文本处理模型作为最终的文本处理模型。
本发明实施例还提供了一种文本处理装置,该装置包括:
文本获取模块,用于获取待处理文本;
模型处理模块,用于将待处理文本输入至文本处理模型,得到处理结果;
结果处理模块,用于基于处理结果,进行相应的处理;
其中,文本处理模型是基于第一方面的任一种实现方式的方法训练得到的。
本发明实施例还提供了一种电子设备,该电子设备包括一个或多个处理器;存储器;一个或多个计算机程序,其中一个或多个计算机程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个计算机程序被配置用于执行如本申请的第一方面或第二方面所示的方法。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质用于存储计算机程序,当计算机程序在处理器上运行时,使得处理器可以执行如本申请的第一方面或第二方面所示的方法。
本发明实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述文本处理模型的训练方法或文本处理方法的各种可选实现方式中提供的方法。
本申请提供的技术方案带来的有益效果是:
本申请提供了一种文本处理模型的训练方法、装置、电子设备及存储介质,该文本处理模型的训练方法包括:采用不同领域的第一训练数据集和第二训练数据集,对第一文本处理模型和第二文本处理模型进行联合训练,直至满足预设的训练结束条件,从而得到满足要求的文本处理模型。通过联合训练可以实现对第一文本处理模型的辅助训练,有助于提高训练完成的文本处理模型处理不同领域数据的准确率。而且,由于第二文本处理模型为掩码语言模型或命名实体识别模型中的至少一种,则训练样本不需要扩展领域的句子对及相应的标签,不会增加模型的训练成本,可以实现无增加成本的领域扩展,从而解决了模型处理扩展领域的数据时领域迁移难,数据处理准确率低的问题,提升文本处理模型在扩展领域的使用效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种文本处理模型的训练方法的流程示意图;
图2为本申请实施例提供的第二文本处理模型的训练过程的示意图;
图3为本申请实施例提供的第一文本处理模型和第二文本处理模型进行联合交替训练的示意图;
图4为本申请实施例提供的文本处理方法的流程示意图;
图5为本申请实施例提供的公积金查询的界面示意图;
图6为本申请实施例提供的问答模型的数据处理的示意图;
图7为本申请实施例提供的问答模型的界面示意图;
图8为本申请实施例提供的文本处理模型的训练装置的结构示意图;
图9为本申请实施例提供的文本处理装置的结构示意图;
图10为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本申请实施例是针对现有技术中的文本处理模型限于训练数据集的领域,在处理扩展领域的文本数据时,领域迁移难,处理效果不好的问题。本申请实施例提供的文本处理模型的训练方法,采用不同领域的第一训练数据集和第二训练数据集,对第一文本处理模型和第二文本处理模型进行联合训练,直至满足预设的训练结束条件,从而得到满足要求的文本处理模型。通过联合训练可以实现对第一文本处理模型的辅助训练,有助于提高训练完成的文本处理模型处理不同领域数据的准确率。而且,由于第二文本处理模型为掩码语言模型或命名实体识别模型,则训练样本不需要扩展领域的句子对及相应的标签,不会增加模型的训练成本,可以实现无增加成本的领域扩展,从而解决了模型处理扩展领域的数据时领域迁移难,数据处理准确率低的问题,提升文本处理模型在扩展领域的使用效果。
本申请还提供了一种通过本申请实施例提供的文本处理模型的训练方法得到的文本处理方法,基于该方法,可以实现对模型扩展领域的待处理文本进行相应的处理,数据处理准确率较高。
本申请各可选实施例提供的方案涉及计算机技术中的人工智能、云技术、大数据等领域。
本申请实施例中所涉及的模型训练方法以及文本处理方法可以通过人工智能技术中的机器学习来实现。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。本申请实施例涉及的人工智能技术主要包括自然语言处理技术、机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例中所涉及的数据处理可以通过云技术来实现,其中所涉及的数据计算可以通过云技术中的云计算实现。
云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用***能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作***)、存储设备、网络设备。
按照逻辑功能划分,在IaaS(Infrastructure as a Service,基础设施即服务)层上可以部署PaaS(Platform as a Service,平台即服务)层,PaaS层之上再部署SaaS(Software as a Service,软件即服务)层,也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台,如数据库、web容器等。SaaS为各式各样的业务软件,如web门户网站、***器等。一般来说,SaaS和PaaS相对于IaaS是上层。
云计算(cloud computing)指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(DistributedComputing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network StorageTechnologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。
随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。
本申请实施例中所涉及的模型训练所需要的训练数据可以为从互联网中获取到的大数据。
大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临,大数据也吸引了越来越多的关注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件***、分布式数据库、云计算平台、互联网和可扩展的存储***。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请技术方案的执行主体为计算机设备,包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。计算机设备包括用户设备与网络设备。其中,用户设备包括但不限于电脑、智能手机、PAD等;网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或于云计算的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,计算机设备可单独运行来实现本申请,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本申请。其中,计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
本申请实施例提供了一种文本处理模型的训练方法,该方法的执行主体可以为任一电子设备,如图1所示,该方法可以包括:
步骤S101,构建初始神经网络模型;
其中,初始神经网络模型包括第一文本处理模型和第二文本处理模型,第一文本处理模型包括级联的文本特征提取模块和结果预测模块,第二文本处理模型与文本特征提取模块的输出相连接,第二文本处理模型包括掩码语言模型或命名实体识别模型中的至少一项。
其中,文本特征提取模块用于对输入的文本进行特征提取,可以为具有文本特征提取功能的任意神经网络模型,例如,基于变换器的双向编码器表征(BidirectionalEncoder Representations from Transformers,BERT)模型等。结果预测模块用于基于文本特征提取模块输出的文本特征进行结果预测,可以是具有结果预测功能的任意神经网络模型,以文本相似度预测为例,结果预测模块可以是孪生网络(siamese network)等。掩码语言模型(Masked Language Model)用于对部分遮蔽的文本数据的遮蔽部分进行预测,得到遮蔽部分的预测值。命名实体识别(Named Entity Recognition,NER)模型用于对输入的文本中的命名实体进行识别,得到命名实体的预测值。其中,命名实体可包括但不限于人名、机构名、地名以及其他所有以名称为标识的实体,还包括数字、日期、货币、地址等。
本申请实施例中,通过与文本特征提取模块的输出相连接的第二文本处理模型,辅助文本特征提取模块的训练,可以提升最终训练完成的文本处理模型的编码建模能力。
步骤S102,获取对应于第一文本处理模型的第一训练数据集、以及对应于第二文本处理模型的第二训练数据集;
其中,第一训练数据集与第二训练数据集属于不同领域。第一训练数据集是对应于第一文本处理模型的训练数据集,用于训练文本特征提取模块和结果预测模块。第二训练数据集是对应于第二文本处理模型的训练数据集,用于训练掩码语言模型或命名实体识别模型中的至少一项。可选的,第一训练数据集可以是原有的预设领域的数据,第二训练数据集可以是扩展领域的数据。
采用与第一训练数据集不同领域的第二训练数据集对掩码语言模型或命名实体识别模型进行训练,有助于提升最终训练完成的文本处理模型对扩展领域的文本的编码建模能力,从而提升文本处理模型对扩展领域的文本处理效果。而且,由于第二文本处理模型为掩码语言模型或命名实体识别模型中的至少一种,则训练样本不需要扩展领域的句子对及相应的标签,不会增加模型的训练成本,可以实现无增加成本的领域扩展,从而解决了模型处理扩展领域的数据时领域迁移难,数据处理准确率低的问题,提升文本处理模型在扩展领域的使用效果。
步骤S103,基于第一训练数据集和第二训练数据集,对初始神经网络模型进行训练,直至满足预设的训练结束条件,将训练结束时的第一文本处理模型作为最终的文本处理模型。
本申请实施例通过构建包括第一文本处理模型和第二文本处理模型的初始神经网络模型,采用第一训练数据集、与第一训练数据集不同领域的无标注数据构成的第二训练数据集,对第一文本处理模型和第二文本处理模型进行联合训练,从而得到满足要求的文本处理模型。通过联合训练可以实现对第一文本处理模型的辅助训练,有助于提高训练完成的文本处理模型处理不同领域数据的准确率,而且,由于采用的是不同领域的无标注数据,不会增加模型的训练成本,可以实现无增加成本的领域扩展,提升文本处理模型在扩展领域的使用效果。
本申请实施例中最终得到的文本处理模型,可以应用于文本匹配、文本分类、文本生成等场景中,相应的,文本处理模型是文本匹配模型、文本分类模型、文本生成模型中的任一种,基于文本处理模型的具体类型得到相应的输出结果,进行文本匹配、文本分类、文本生成等相应的处理。
在实际应用中,文本匹配模型是处理文本匹配任务的模型。文本匹配即计算两个文本之间的语义相似度,通过语义相似度的计算来对文本对进行相似或者不相似的匹配判断。文本匹配可以应用于大量的自然语言处理任务中,例如信息检索、问答***、复述问题、对话***等。这些自然语言处理任务在很大程度上都可以抽象成文本匹配问题,比如信息检索可以归结为搜索词和文档资源的匹配,问答***可以归结为问题和候选答案的匹配,复述问题可以归结为两个同义句的匹配,对话***可以归结为前一句对话和回复的匹配。
文本分类模型是处理文本分类任务的模型。文本分类即用计算机对文本数据集按照一定的分类体系或标准进行自动分类标记。文本分类模型为根据一个已经被标注的训练文本数据集合,确定文档特征和文本类别之间的关系的模型,可以利用文本分类模型对未标记的文本进行类别判断。
文本生成模型是基于输入文本数据,生成新的文本数据的模型。文本生成模型可以基于文本统计,根据大量文本学习出不同文本之间的组合规律,进而根据输入推测出可能的组合方式作为输出。
另外,文本匹配模型、文本分类模型以及文本生成模型的具体结构可以根据具体需要进行构建,可以是能够实现相应功能的任意神经网络模型,本申请对此不做限定。
在一种可能的实现方式中,第二文本处理模型包括分别与文本特征提取模块的输出连接的掩码语言模型和命名实体识别模型,第二训练数据集包括对应于掩码语言模型的第三训练数据集以及对应于命名实体识别模型的第四训练数据集。
在实际应用中,第二文本处理模型可以包括掩码语言模型和命名实体识别模型两种模型,相应的,第二训练数据集包括掩码语言模型和命名实体识别模型各自对应的第三训练数据集以及第四训练数据集,在进行模型训练时,采用各自对应的训练数据集分别对两个模型进行训练。本申请实施例中,通过掩码语言模型和命名实体识别模型,辅助文本特征提取模块的训练,可以从遮蔽文本识别和命名实体识别两个方面提升最终训练完成的文本处理模型的编码建模能力,进而提升文本处理模型的数据处理效果。
在一种可能的实现方式中,基于第一训练数据集和第二训练数据集,对初始神经网络模型进行训练,直至满足预设的训练结束条件,包括:
基于第一训练数据集和第二训练数据集,对第一文本处理模型和第二文本处理模型进行联合交替训练,直至第一文本处理模型对应的损失函数收敛,训练结束条件包括第一文本处理模型对应的损失函数收敛;
其中,对于每一次训练,基于该次训练的模型分支所对应的训练数据集和通过模型分支得到的训练数据集的文本处理结果,确定模型分支对应的损失函数的值,基于模型分支对应的损失函数的值对模型分支的模型参数进行调整,模型分支为第一文本处理模型或第二文本处理模型。
在实际应用中,在对第一文本处理模型和第二文本处理模型进行联合交替训练时,由于第二文本处理模型与文本特征提取模块的输出相连接,辅助文本特征提取模块的训练,联合交替训练的顺序可以是:基于第一训练数据集对第一文本处理模型进行一次训练,基于第一训练数据集和通过第一文本处理模型得到的第一训练数据集的文本处理结果,确定第一损失函数的值,若第一损失函数不收敛,则对第一文本处理模型的模型参数进行调整;基于第二训练数据集对第二文本处理模型进行一次训练,基于第二训练数据集和通过第二文本处理模型得到的第二训练数据集的文本处理结果,确定第二损失函数的值;若第二损失函数不收敛,则对第二文本处理模型的模型参数进行调整,重复执行上述训练步骤,直到第一损失函数收敛,此时,即使第二损失函数没有收敛,也可以不再继续训练,模型训练结束。其中,第一损失函数可以是交叉熵损失函数。另外,如果第二损失函数先收敛,第一损失函数没有收敛,可以继续执行上述联合交替训练过程,直到第一损失函数收敛,模型训练完成。
本申请实施例中,第一训练数据集是与第二训练数据集属于不同领域,通过第一文本处理模型和第二文本处理模型的联合交替训练,第二文本处理模型辅助第一文本处理模型中的文本特征提取模块进行训练,可以提升最终训练完成的文本处理模型在第二训练数据集所属的领域的编码建模能力,从而实现模型应用领域的扩展。
在一种可能的实现方式中,第二文本处理模型包括分别与文本特征提取模块的输出连接的掩码语言模型和命名实体识别模型,第二训练数据集包括对应于掩码语言模型的第三训练数据集以及对应于命名实体识别模型的第四训练数据集;
基于第一训练数据集和第二训练数据集,对第一文本处理模型和第二文本处理模型进行联合交替训练,直至第一文本处理模型对应的损失函数收敛,包括:
基于第一训练数据集、第三训练数据集和第四训练数据集,对第一文本处理模型、掩码语言模型和命名实体识别模型进行联合交替训练,直至第一文本处理模型对应的损失函数收敛。
在实际应用中,若第二文本处理模型包括掩码语言模型和命名实体识别模型,则模型分支为第一文本处理模型、掩码语言模型或命名实体识别模型中的任一种。可以通过以下过程对第一文本处理模型、掩码语言模型和命名实体识别模型进行联合交替训练:基于第一训练数据集对第一文本处理模型进行一次训练,确定第一损失函数的值;基于第三训练数据集对掩码语言模型进行一次训练,确定第三损失函数的值;基于第四训练数据集对命名实体识别模型进行一次训练,确定第四损失函数的值;经过多次训练,直到第一损失函数收敛,此时,即使第三损失函数、第四损失函数没有收敛,也可以不再继续训练,模型训练结束。另外,如果第三损失函数、第四损失函数先收敛,第一损失函数没有收敛,可以继续执行上述联合交替训练过程,直到第一损失函数收敛,模型训练完成。
在一种可能的实现方式中,对于掩码语言模型或命名实体识别模型,对于每一次训练,基于该次训练的模型分支所对应的训练数据集和通过模型分支得到的训练数据集的文本处理结果,确定模型分支对应的损失函数的值,包括:
将模型分支对应的训练数据集的各训练样本输入至文本特征提取模块,得到各样本的文本特征;
将各样本的文本特征输入至模型分支,得到各样本的文本处理结果;
基于各样本的样本标签和各样本的文本处理结果,确定模型分支对应的损失函数的值。
在实际应用中,对于模型分支进行训练时,对于掩码语言模型或命名实体识别模型,对应的训练数据集分别包括各模型分支对应的各训练样本和各样本的样本标签。掩码语言模型和命名实体识别模型分别与文本特征提取模块的输出相连接,将模型分支对应的各训练样本输入至文本特征提取模块,得到各样本的文本特征;将各样本的文本特征输入至模型分支,得到各样本的文本处理结果;基于各样本的样本标签和各样本的文本处理结果,可以计算出模型分支对应的损失函数的值,也就是掩码语言模型对应的第三损失函数的值,以及命名实体识别模型对应的第四损失函数的值。
在一种可能的实现方式中,第二文本处理模型包括掩码语言模型,获取对应于第二文本处理模型的第二训练数据集,包括:
获取属于第一领域的各第一文本;
对于每个第一文本,对第一文本中的至少一个字符进行遮蔽,得到第二文本;
将每个第一文本以及第一文本对应的第二文本作为第二训练数据集中对应于掩码语言模型的一个训练样本。
在实际应用中,第一领域可以是训练完成的文本处理模型待处理文本的领域,也就是模型的扩展领域,是与第一训练数据集不同的领域,通过在该领域获取训练数据集,可以增强训练完成的文本处理模型在该领域的编码建模能力。每个训练样本可以是第一文本、以及对第一文本中的字符进行遮蔽得到的第二文本。其中,第一文本可以是第一领域中的一个句子。
在一示例中,第一文本为句子A1,对句子A1中的15%的字符进行遮蔽,将遮蔽后的句子A1作为第二文本,将无遮蔽的对句子A1和遮蔽后的句子A1作为掩码语言模型的一个训练样本。
在一种可能的实现方式中,第二文本处理模型包括命名实体识别模型,获取对应于第二文本处理模型的第二训练数据集,包括:
获取属于第二领域的第三文本;
对于每个第三文本,对第三文本中的至少一个实体进行标注,得到第四文本;
将每个第三文本以及第三文本对应的第四文本作为第二训练数据集的一个训练样本。
在实际应用中,为了增强训练完成的文本处理模型对扩展领域的文本的命名实体的编码建模能力,可以在扩展领域获取命名实体模型的训练样本,具体的,获取第三文本,第三文本可以是与第一领域不同的第二领域中的文本,也可以是第一领域的文本,第三文本具体可以是一个句子,将该句子中的实体进行标注得到标注句子作为第四文本,将第三文本和第四文本作为命名实体识别模型的一个训练样本。可选的,在对第三文本进行实体标注时,可以对句子中的实体进行标注,标注的实体可以包括句子中的名词、第一领域的专有名词及其他三个类别。
下面通过一个具体的实施例对本申请技术方案中的第二文本处理模型的训练过程进行详细说明。本实施例只是本申请技术方案的一个实施例,并不代表本申请技术方案的全部实现方式。
如图2所示,在本实施例中,第二文本处理模型包括掩码语言模型或命名实体识别模型,文本特征提取模块为BERT模型,下面对第二文本处理模块的输入样本并进行训练的过程进行介绍:
BERT模型包括输入层、编码层和输出层,第二文本处理模型的训练样本输入BERT模型的输入层,该训练样本可以是文本处理模型扩展领域的文本。本实施例以训练掩码语言模型为例,其中,每个训练样本为一个句子,如图中所示的“展示的一个例子”,其中CLS和SEP为句子中的标志位,用于分割各句子,对句子中的“个”被遮蔽,MASK标志位表示句子中遮蔽的文字的位置。输入层对输入的训练样本进行初始化特征提取,具体的,文本的初始化特征通过输入层中的词特征嵌入(token embedding)层、片段特征嵌入(segmentembedding)层、位置特征嵌入(position embedding)层分别获取词特征、片段特征、位置特征,并将这三个维度的特征进行拼接,得到初始化特征向量,将初始化特征向量输入BERT模型的编码层(如图中所示的BERT),得到编码之后的样本特征,将编码在之后的样本特征输出到掩码语言模型进行处理,并计算掩码语言模型对应的损失函数,通过语言模型对BERT模型进行辅助训练,可以提升文本处理模型在扩展领域的编码建模能力,进而提升文本处理模型在扩展领域的数据处理效果。
下面通过一个具体的实施例对本申请技术方案中的第一文本处理模型和第二文本处理模型进行联合交替训练的过程详细说明。本实施例只是本申请技术方案的一个实施例,并不代表本申请技术方案的全部实现方式。
如图3所示,在本实施例中,第二文本处理模型包括掩码语言模型和命名实体识别模型,文本特征提取模块为BERT模型,结果预测模块为相似度预测模块(如图中所示的cosine sim),为了便于进行说明,当训练掩码语言模型时,图中所示的“句子A”作为掩码语言模型的训练集中的一个样本,包括句子A、以及对句子A中的字符进行遮蔽后得到的遮蔽句子A;当训练命名实体识别模型时,图中所示的“句子A”作为命名实体识别模型的训练集中的一个样本,包括句子A、以及对句子A中的命名实体进行标注后得到的标注句子A。在对第一文本处理模型进行训练时,句子A、句子B以及句子A、句子B的相似度标签作为训练样本。第一文本处理模型和第二文本处理模型进行联合交替训练的具体过程如下:
首先通过掩码语言模型对应的训练样本对掩码语言模型进行一次训练,根据句子A和掩码语言模型输出的遮蔽句子A对应的预测结果,确定掩码损失函数;然后通过命名实体识别模型对应的训练样本对命名实体识别模型进行一次训练,根据句子A和命名实体识别模型输出的句子A的命名实体的预测结果,确定命名实体损失函数;最后再基于第一文本处理模型对应的训练样本对BERT模型和相似度预测模块进行一次训练,将训练样本句子A、句子B分别输入BERT模型进行特征提取,对句子A进行处理,得到句子A对应的多个维度的特征,将多个维度的特征进行池化处理,得到句子A对应的特征向量U,同样处理方式,对句子B进行处理,得到句子B对应的多个维度的特征,将多个维度的特征进行池化处理,得到句子B对应的特征向量V,通过相似度预测模块预测向量U、V的相似度,根据句子A、句子B的相似度标签和预测的相似度,计算相似度损失函数,重复执行上述训练过程,联合交替训练掩码语言模型、命名实体识别模型、BERT模型和相似度预测模块,直到相似度损失函数收敛,文本处理模型训练完成。
在一个可选的实施例中,本申请实施例提供的文本处理模型的训练方法的软硬件环境的相关参数如表1所示:
操作*** 内存 语言环境
Linux >16G Python/c++
表1
执行本申请实施例提供的文本处理模型的训练方法的电子设备,可以为服务器,其软硬件环境相关参数如表1所示,操作***可以是Linux***,内存>16G,语言环境可以是Python/c++。
本申请实施例中,通过第一文本处理模型和第二文本处理模型的联合交替训练,第二文本处理模型辅助第一文本处理模型中的文本特征提取模块进行训练,可以提升最终训练完成的文本处理模型在扩展领域的编码建模能力,从而实现模型应用领域的扩展。
本申请实施例提供的文本处理模型的训练方法,采用不同领域的第一训练数据集和第二训练数据集,对第一文本处理模型和第二文本处理模型进行联合训练,直至满足预设的训练结束条件,从而得到满足要求的文本处理模型。通过联合训练可以实现对第一文本处理模型的辅助训练,有助于提高训练完成的文本处理模型处理不同领域数据的准确率。而且,由于第二文本处理模型为掩码语言模型或命名实体识别模型中的至少一种,则训练样本不需要扩展领域的句子对及相应的标签,不会增加模型的训练成本,可以实现无增加成本的领域扩展,从而解决了模型处理扩展领域的数据时领域迁移难,数据处理准确率低的问题,提升文本处理模型在扩展领域的使用效果。
本申请实施例提供了一种文本处理方法,该方法的执行主体可以为任一电子设备,例如,该方法可以由服务器执行,如图4所示,该方法可以包括:
步骤S201,获取待处理文本;
其中,待处理文本的来源本申请实施例不做限定,如可以是数据库中预先存储的各个文本中的任意文本,也可以是从各个用户设备接收到的多个文本中的任意文本。
可以理解的是,对于不同的应用场景,上述待处理文本可以不同。
在一种可能的实现方式中,待处理文本包括第二训练数据集所属的领域的文本。
在实际应用中,第二训练数据集所属的领域可以为文本处理模型的扩展领域,待处理文本可以是模型扩展领域的文本,可以理解的是,待处理文本也可以是模型原处理领域的文本,也就是第一训练数据集所属的领域。文本处理模型在进行训练时,对第一文本处理模型和第二文本处理模型采用的不同领域的训练样本进行训练,有利于提高文本处理模型对扩展领域的编码建模能力。
步骤S202,将待处理文本输入至文本处理模型,得到处理结果;
具体的,文本处理模型为本申请实施例中提供的训练结束时的第一文本处理模型,包括文本特征提取模块和结果预测模块,待处理文本输入至文本处理模型,经过文本处理模型进行文本特征提取,以及结果预测,得到文本处理模型输出的处理结果。
步骤S203,基于处理结果,进行相应的处理;
文本处理模型可以是文本匹配模型、文本分类模型、文本生成模型中的任一种,基于文本处理模型的具体类型得到相应的输出结果,进行文本匹配、文本分类、文本生成等相应的处理。
在一种可能的实现方式中,文本处理模型为文本匹配模型,待处理文本包括请求方的查询文本和查询文本所对应的若干个候选查询结果;
将待处理文本输入至文本处理模型,包括:
将查询文本以及各候选查询结果输入至文本匹配模型中,得到查询文本与各候选查询结果的第一匹配度,处理结果包括第一匹配度;
基于处理结果,进行相应的处理,包括:
基于各第一匹配度,从各候选查询结果中确定出目标查询结果,并将目标查询结果提供给请求方。
在实际应用中,文本处理模型可以为文本匹配模型,待处理文本包括请求方的查询文本和查询文本所对应的若干个候选查询结果,可以基于文本匹配模型,计算查询文本查询与若干个候选查询结果的匹配度,确定目标查询结果。可选的,可以将匹配度在预设范围内的候选查询结果作为目标查询结果,也可以将匹配度最高的一个查询结果作为目标查询结果提供给请求方。
在一示例中,如图5所示,在公积金查询的应用场景中,用户终端接收用户通过公积金查询界面中的搜索框中输入的查询文本“公积金”,在公积金查询数据库中获取查询文本“公积金”对应的若干个候选查询结果,将查询文本“公积金”和对应的若干个候选查询结果输入文本匹配模型,通过文本匹配模型确定“公积金”和对应的若干个候选查询结果的匹配度,根据各匹配度,从各候选查询结果中确定出目标查询结果,并将目标查询结果提供给请求方。如图中所示,最终得到的目标查询结果为“公积金查询”、“公积金服务”、“公积金-文章”各类别对应的文本,通过用户终端的显示界面提供给请求方。
在一种可能的实现方式中,文本处理模型包括问答模型,待处理文本包括提问方的提问文本以及提问文本对应的若干个候选答案;
将待处理文本输入至文本处理模型,包括:
将提问文本以及各候选答案输入至问答模型中,得到提问文本与各候选答案的第二匹配度,处理结果包括第二匹配度;
基于处理结果,进行相应的处理,包括:
基于各第二匹配度,从各候选答案中确定出目标答案,并将目标***给提问方。
在实际应用中,文本处理模型可以为问答模型,待处理文本包括提问方的提问文本以及提问文本对应的若干个候选答案,可以基于问答模型,计算提问文本与若干个候选答案的匹配度,确定目标答案。可选的,可以将匹配度在预设范围内的候选答案作为目标答案,也可以将匹配度最高的一个候选答案作为目标***给提问方。
在一示例中,如图6所示,接收用户通过用户终端输入的提问文本,在检索库中检索提问文本对应的若干个候选答案,输入问答模型,计算提问文本和各候选答案之间的匹配度(如图中所示的文本匹配计算),按照各匹配度将候选答案进行排序(如图中所示的匹配结果排序),将排在前预设位置的候选***给提问方。可选的,目标答案可以是问题形式的文本,根据用户针对该文本输入的选择指令,确定相对应的答案。可选的,目标答案也可以是提问文本对应的答案形式的文本,也就是说,直接向用户提供问题的答案。
在又一示例中,如图7所示,接收用户通过用户终端输入的提问文本,提问文本的内容为“为什么我不火”,在检索库中检索“为什么我不火”对应的若干个候选答案,输入问答模型,计算提问文本和各候选答案之间的匹配度,按照各匹配度将候选答案进行排序,将排在前5位的候选答案作为目标答案,目标答案如图中所示的“为何好友看不见我同步到朋友圈的30秒短视频?”“如何取消关注?”“微视账号是否能注销?”“如何关闭水印?”“为何我播放失败?”,接收用户给针对上述各目标答案的选择指令,确定选择指令对应的问题的答案,提供给提问方。其中,图中所示的“请问你是想了解以下问题么?”“以上都不是”为问答模型中预先配置的默认文本,可以不参与相似度的计算,直接提供给用户。
本申请实施例提供的文本处理方法,文本处理模型是通过采用不同领域的第一训练数据集和第二训练数据集,对第一文本处理模型和第二文本处理模型进行联合训练得到的。通过联合训练可以实现对第一文本处理模型的辅助训练,有助于提高训练完成的文本处理模型处理不同领域数据的准确率。而且,由于第二文本处理模型为掩码语言模型或命名实体识别模型中的至少一种,则训练样本不需要扩展领域的句子对及相应的标签,不会增加模型的训练成本,可以实现无增加成本的领域扩展,从而解决了模型处理扩展领域的数据时领域迁移难,数据处理准确率低的问题,提升文本处理模型在扩展领域的使用效果。
与图1中所示方法相同的原理,本公开的实施例中还提供了一种文本处理模型的训练装置30,如图8所示,该文本处理模型的训练装置30包括:
模型构建模块31,用于构建初始神经网络模型,初始神经网络模型包括第一文本处理模型和第二文本处理模型,其中,第一文本处理模型包括级联的文本特征提取模块和结果预测模块,第二文本处理模型与文本特征提取模块的输出相连接,第二文本处理模型包括掩码语言模型或命名实体识别模型中的至少一项;
数据获取模块32,用于获取对应于第一文本处理模型的第一训练数据集、以及对应于第二文本处理模型的第二训练数据集,其中,第一训练数据集是与第二训练数据集属于不同领域;
模型训练模块33,用于基于第一训练数据集和第二训练数据集,对初始神经网络模型进行训练,直至满足预设的训练结束条件,将训练结束时的第一文本处理模型作为最终的文本处理模型。
在一种可能的实现方式中,第二文本处理模型包括分别与文本特征提取模块的输出连接的掩码语言模型和命名实体识别模型,第二训练数据集包括对应于掩码语言模型的第三训练数据集以及对应于命名实体识别模型的第四训练数据集。
在一种可能的实现方式中,模型训练模块33,具体用于:
基于第一训练数据集和第二训练数据集,对第一文本处理模型和第二文本处理模型进行联合交替训练,直至第一文本处理模型对应的损失函数收敛,训练结束条件包括第一文本处理模型对应的损失函数收敛;
其中,对于每一次训练,基于该次训练的模型分支所对应的训练数据集和通过模型分支得到的训练数据集的文本处理结果,确定模型分支对应的损失函数的值,基于模型分支对应的损失函数的值对模型分支的模型参数进行调整,所述模型分支为第一文本处理模型或第二文本处理模型。
在一种可能的实现方式中,第二文本处理模型包括分别与文本特征提取模块的输出连接的掩码语言模型和命名实体识别模型,第二训练数据集包括对应于掩码语言模型的第三训练数据集以及对应于命名实体识别模型的第四训练数据集;
模型训练模块33在基于第一训练数据集和第二训练数据集,对第一文本处理模型和第二文本处理模型进行联合交替训练,直至第一文本处理模型对应的损失函数收敛时,用于:
基于第一训练数据集、第三训练数据集和第四训练数据集,对第一文本处理模型、掩码语言模型和命名实体识别模型进行联合交替训练,直至第一文本处理模型对应的损失函数收敛;
其中,模型分支为第一文本处理模型、掩码语言模型或命名实体识别模型中的任一种。
在一种可能的实现方式中,对于掩码语言模型或命名实体识别模型,对于每一次训练,模型训练模块33在基于该次训练的模型分支所对应的训练数据集和通过模型分支得到的训练数据集的文本处理结果,确定模型分支对应的损失函数的值时,用于:
将模型分支对应的训练数据集的各训练样本输入至文本特征提取模块,得到各样本的文本特征;
将各样本的文本特征输入至模型分支,得到各样本的文本处理结果;
基于各样本的样本标签和各样本的文本处理结果,确定模型分支对应的损失函数的值。
在一种可能的实现方式中,第二文本处理模型包括掩码语言模型,数据获取模块32在获取对应于第二文本处理模型的第二训练数据集时,用于:
获取属于第一领域的各第一文本;
对于每个第一文本,对第一文本中的至少一个字符进行遮蔽,得到第二文本;
将每个第一文本以及第一文本对应的第二文本作为第二训练数据集中对应于掩码语言模型的一个训练样本。
在一种可能的实现方式中,第二文本处理模型包括命名实体识别模型,数据获取模块32在获取对应于第二文本处理模型的第二训练数据集时,用于:
获取属于第二领域的第三文本;
对于每个第三文本,对第三文本中的至少一个实体进行标注,得到第四文本;
将每个第三文本以及第三文本对应的第四文本作为第二训练数据集的一个训练样本。
本公开实施例的文本处理模型的训练装置可执行本公开的实施例所提供的与图1对应的文本处理模型的训练方法,其实现原理相类似,本公开实施例中的文本处理模型的训练装置中的各模块所执行的动作是与本公开实施例中的文本处理模型的训练方法中的步骤相对应的,对于文本处理模型的训练装置的各模块的详细功能描述具体可以参见前文中所示的对应的文本处理模型的训练方法中的描述,此处不再赘述。
本申请提供了一种文本处理模型的训练装置,采用不同领域的第一训练数据集和第二训练数据集,对第一文本处理模型和第二文本处理模型进行联合训练,直至满足预设的训练结束条件,从而得到满足要求的文本处理模型。通过联合训练可以实现对第一文本处理模型的辅助训练,有助于提高训练完成的文本处理模型处理不同领域数据的准确率。而且,由于第二文本处理模型为掩码语言模型或命名实体识别模型中的至少一种,则训练样本不需要扩展领域的句子对及相应的标签,不会增加模型的训练成本,可以实现无增加成本的领域扩展,从而解决了模型处理扩展领域的数据时领域迁移难,数据处理准确率低的问题,提升文本处理模型在扩展领域的使用效果。
与图4中所示方法相同的原理,本公开的实施例中还提供了一种文本处理装置40,如图9所示,该文本处理装置40包括:
文本获取模块41,用于获取待处理文本;
模型处理模块42,用于将待处理文本输入至文本处理模型,得到处理结果;
结果处理模块43,用于基于处理结果,进行相应的处理;
其中,文本处理模型是基于本申请图1对应的实施例中的方法训练得到的。
在一种可能的实现方式中,待处理文本包括第二训练数据集所属的领域的文本。
在一种可能的实现方式中,文本处理模型为文本匹配模型,待处理文本包括请求方的查询文本和查询文本所对应的若干个候选查询结果;
模型处理模块42,具体用于:
将查询文本以及各候选查询结果输入至文本匹配模型中,得到查询文本与各候选查询结果的第一匹配度,处理结果包括第一匹配度;
结果处理模块43,具体用于:
基于各第一匹配度,从各候选查询结果中确定出目标查询结果,并将目标查询结果提供给请求方。
在一种可能的实现方式中,文本处理模型包括问答模型,待处理文本包括提问方的提问文本以及提问文本对应的若干个候选答案;
模型处理模块42,具体用于:
将提问文本以及各候选答案输入至问答模型中,得到提问文本与各候选答案的第二匹配度,处理结果包括第二匹配度;
结果处理模块43,具体用于:
基于各第二匹配度,从各候选答案中确定出目标答案,并将目标***给提问方。
本公开实施例的文本处理装置可执行本公开的实施例所提供的与图1对应的文本处理方法,其实现原理相类似,本公开实施例中的文本处理装置中的各模块所执行的动作是与本公开实施例中的文本处理方法中的步骤相对应的,对于文本处理装置的各模块的详细功能描述具体可以参见前文中所示的对应的文本处理方法中的描述,此处不再赘述。
本申请实施例提供的文本处理装置,文本处理模型是通过采用不同领域的第一训练数据集和第二训练数据集,对第一文本处理模型和第二文本处理模型进行联合训练得到的。通过联合训练可以实现对第一文本处理模型的辅助训练,有助于提高训练完成的文本处理模型处理不同领域数据的准确率。而且,由于第二文本处理模型为掩码语言模型或命名实体识别模型中的至少一种,则训练样本不需要扩展领域的句子对及相应的标签,不会增加模型的训练成本,可以实现无增加成本的领域扩展,从而解决了模型处理扩展领域的数据时领域迁移难,数据处理准确率低的问题,提升文本处理模型在扩展领域的使用效果。
其中,所述文本处理模型的训练装置或者文本处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如文本处理模型的训练装置或者文本处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的文本处理模型的训练方法或者文本处理方法中的相应步骤。
在一些实施例中,本发明实施例提供的文本处理模型的训练装置或者文本处理装置装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的文本处理模型的训练装置或者文本处理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的文本处理模型的训练方法或者文本处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
在另一些实施例中,本发明实施例提供的文本处理模型的训练装置或者文本处理装置可以采用软件方式实现,图8、图9分别示出了存储在存储器中的文本处理模型的训练装置、文本处理装置,其可以是程序和插件等形式的软件,并包括一系列的模块,文本处理模型的训练装置30包括模型构建模块31、数据获取模块32、模型训练模块33,用于实现本发明实施例提供的文本处理模型的训练方法。文本处理装置40包括文本获取模块41、模型处理模块42、结果处理模块43,用于实现本发明实施例提供的文本处理方法。
上述实施例从虚拟模块的角度介绍了文本模型的训练装置以及文本处理装置,下述从实体模块的角度介绍一种电子设备,具体如下所示:
本申请实施例提供了一种电子设备,如图10所示,图10所示的电子设备8000包括:处理器8001和存储器8003。其中,处理器8001和存储器8003相连,如通过总线8002相连。可选地,电子设备8000还可以包括收发器8004。需要说明的是,实际应用中收发器8004不限于一个,该电子设备8000的结构并不构成对本申请实施例的限定。
处理器8001可以是CPU,通用处理器,GPU,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器8001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线8002可包括一通路,在上述组件之间传送信息。总线8002可以是PCI总线或EISA总线等。总线8002可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器8003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器8003用于存储执行本申请方案的应用程序代码,并由处理器8001来控制执行。处理器8001用于执行存储器8003中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
本申请实施例提供了一种电子设备,本申请实施例中的电子设备包括:一个或多个处理器;存储器;一个或多个计算机程序,其中一个或多个计算机程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序被处理器执行时,构建初始神经网络模型,初始神经网络模型包括第一文本处理模型和第二文本处理模型,其中,第一文本处理模型包括级联的文本特征提取模块和结果预测模块,第二文本处理模型与文本特征提取模块的输出相连接,第二文本处理模型包括掩码语言模型或命名实体识别模型中的至少一项;获取对应于第一文本处理模型的第一训练数据集、以及对应于第二文本处理模型的第二训练数据集,其中,第一训练数据集与第二训练数据集属于不同领域;基于第一训练数据集和第二训练数据集,对初始神经网络模型进行训练,直至满足预设的训练结束条件,将训练结束时的第一文本处理模型作为最终的文本处理模型。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当计算机程序在处理器上运行时,使得处理器可以执行前述方法实施例中相应内容。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述文本图像的识别方法的各种可选实现方式中提供的方法。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种文本处理模型的训练方法,其特征在于,所述方法包括:
构建初始神经网络模型,所述初始神经网络模型包括第一文本处理模型和第二文本处理模型,其中,所述第一文本处理模型包括级联的文本特征提取模块和结果预测模块,所述第二文本处理模型与所述文本特征提取模块的输出相连接,所述第二文本处理模型包括掩码语言模型或命名实体识别模型中的至少一项;
获取对应于所述第一文本处理模型的第一训练数据集、以及对应于所述第二文本处理模型的第二训练数据集,其中,所述第一训练数据集与所述第二训练数据集属于不同领域;
基于所述第一训练数据集和所述第二训练数据集,对所述初始神经网络模型进行训练,直至满足预设的训练结束条件,将训练结束时的第一文本处理模型作为最终的文本处理模型。
2.根据权利要求1所述的方法,其特征在于,所述第二文本处理模型包括分别与所述文本特征提取模块的输出连接的掩码语言模型和命名实体识别模型,所述第二训练数据集包括对应于所述掩码语言模型的第三训练数据集以及对应于所述命名实体识别模型的第四训练数据集。
3.根据权利要求1或2所述的方法,其特征在于,所述基于所述第一训练数据集和所述第二训练数据集,对所述初始神经网络模型进行训练,直至满足预设的训练结束条件,包括:
基于所述第一训练数据集和所述第二训练数据集,对所述第一文本处理模型和所述第二文本处理模型进行联合交替训练,直至所述第一文本处理模型对应的损失函数收敛,所述训练结束条件包括所述第一文本处理模型对应的损失函数收敛;
其中,对于每一次训练,基于该次训练的模型分支所对应的训练数据集和通过所述模型分支得到的训练数据集的文本处理结果,确定所述模型分支对应的损失函数的值,基于所述模型分支对应的损失函数的值对所述模型分支的模型参数进行调整,所述模型分支为第一文本处理模型或第二文本处理模型。
4.根据权利要求3所述的方法,其特征在于,所述第二文本处理模型包括分别与所述文本特征提取模块的输出连接的掩码语言模型和命名实体识别模型,所述第二训练数据集包括对应于所述掩码语言模型的第三训练数据集以及对应于所述命名实体识别模型的第四训练数据集;
所述基于所述第一训练数据集和所述第二训练数据集,对所述第一文本处理模型和所述第二文本处理模型进行联合交替训练,直至所述第一文本处理模型对应的损失函数收敛,包括:
基于所述第一训练数据集、第三训练数据集和第四训练数据集,对所述第一文本处理模型、掩码语言模型和命名实体识别模型进行联合交替训练,直至所述第一文本处理模型对应的损失函数收敛;
其中,所述模型分支为第一文本处理模型、掩码语言模型或命名实体识别模型中的任一种。
5.根据权利要求4所述的方法,其特征在于,对于掩码语言模型或命名实体识别模型,所述对于每一次训练,基于该次训练的模型分支所对应的训练数据集和通过所述模型分支得到的训练数据集的文本处理结果,确定所述模型分支对应的损失函数的值,包括:
将所述模型分支对应的训练数据集的各训练样本输入至所述文本特征提取模块,得到各样本的文本特征;
将各样本的文本特征输入至所述模型分支,得到各样本的文本处理结果;
基于各样本的样本标签和各样本的文本处理结果,确定所述模型分支对应的损失函数的值。
6.根据权利要求1所述的方法,其特征在于,所述第二文本处理模型包括掩码语言模型,获取对应于所述第二文本处理模型的第二训练数据集,包括:
获取属于第一领域的各第一文本;
对于每个所述第一文本,对所述第一文本中的至少一个字符进行遮蔽,得到第二文本;
将每个所述第一文本以及所述第一文本对应的第二文本作为所述第二训练数据集中对应于所述掩码语言模型的一个训练样本。
7.根据权利要求1所述的方法,其特征在于,所述第二文本处理模型包括命名实体识别模型,获取对应于所述第二文本处理模型的第二训练数据集,包括:
获取属于第二领域的第三文本;
对于每个所述第三文本,对所述第三文本中的至少一个实体进行标注,得到第四文本;
将每个所述第三文本以及所述第三文本对应的第四文本作为所述第二训练数据集的一个训练样本。
8.一种文本处理模型的训练装置,其特征在于,所述装置包括:
模型构建模块,用于构建初始神经网络模型,所述初始神经网络模型包括第一文本处理模型和第二文本处理模型,其中,所述第一文本处理模型包括级联的文本特征提取模块和结果预测模块,所述第二文本处理模型与所述文本特征提取模块的输出相连接,所述第二文本处理模型包括掩码语言模型或命名实体识别模型中的至少一项;
数据获取模块,用于获取对应于所述第一文本处理模型的第一训练数据集、以及对应于所述第二文本处理模型的第二训练数据集,其中,所述第一训练数据集是与所述第二训练数据集属于不同领域;
模型训练模块,用于基于所述第一训练数据集和所述第二训练数据集,对所述初始神经网络模型进行训练,直至满足预设的训练结束条件,将训练结束时的第一文本处理模型作为最终的文本处理模型。
9.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储器;
一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个计算机程序被配置用于执行根据权利要求1~7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,当所述计算机程序在处理器上运行时,使得所述处理器可以执行权利要求1~7任一项所述的方法。
CN202110037861.7A 2021-01-12 2021-01-12 文本处理模型的训练方法、装置、电子设备及存储介质 Pending CN113408284A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110037861.7A CN113408284A (zh) 2021-01-12 2021-01-12 文本处理模型的训练方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110037861.7A CN113408284A (zh) 2021-01-12 2021-01-12 文本处理模型的训练方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113408284A true CN113408284A (zh) 2021-09-17

Family

ID=77675859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110037861.7A Pending CN113408284A (zh) 2021-01-12 2021-01-12 文本处理模型的训练方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113408284A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114330512A (zh) * 2021-12-13 2022-04-12 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN115114433A (zh) * 2022-05-19 2022-09-27 腾讯科技(深圳)有限公司 语言模型的训练方法、装置、设备及存储介质
CN115859121A (zh) * 2023-01-29 2023-03-28 有米科技股份有限公司 文本处理模型训练方法及装置
CN116205221A (zh) * 2023-05-05 2023-06-02 北京睿企信息科技有限公司 实体识别和文本分类的方法、存储介质和计算机设备
CN116756579A (zh) * 2023-08-22 2023-09-15 腾讯科技(深圳)有限公司 大语言模型的训练方法及基于大语言模型的文本处理方法
CN117313892A (zh) * 2023-09-26 2023-12-29 上海悦普网络科技有限公司 文本处理模型的训练装置和方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114330512A (zh) * 2021-12-13 2022-04-12 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN114330512B (zh) * 2021-12-13 2024-04-26 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN115114433A (zh) * 2022-05-19 2022-09-27 腾讯科技(深圳)有限公司 语言模型的训练方法、装置、设备及存储介质
CN115114433B (zh) * 2022-05-19 2024-04-02 腾讯科技(深圳)有限公司 语言模型的训练方法、装置、设备及存储介质
CN115859121A (zh) * 2023-01-29 2023-03-28 有米科技股份有限公司 文本处理模型训练方法及装置
CN116205221A (zh) * 2023-05-05 2023-06-02 北京睿企信息科技有限公司 实体识别和文本分类的方法、存储介质和计算机设备
CN116756579A (zh) * 2023-08-22 2023-09-15 腾讯科技(深圳)有限公司 大语言模型的训练方法及基于大语言模型的文本处理方法
CN116756579B (zh) * 2023-08-22 2023-12-12 腾讯科技(深圳)有限公司 大语言模型的训练方法及基于大语言模型的文本处理方法
CN117313892A (zh) * 2023-09-26 2023-12-29 上海悦普网络科技有限公司 文本处理模型的训练装置和方法

Similar Documents

Publication Publication Date Title
CN113408284A (zh) 文本处理模型的训练方法、装置、电子设备及存储介质
CN112131366B (zh) 训练文本分类模型及文本分类的方法、装置及存储介质
CN109325040B (zh) 一种faq问答库泛化方法、装置及设备
CN110472002B (zh) 一种文本相似度获取方法和装置
CN110678882A (zh) 使用机器学习从电子文档选择回答跨距
CN113761868B (zh) 文本处理方法、装置、电子设备及可读存储介质
CN113761220A (zh) 信息获取方法、装置、设备及存储介质
CN112749556B (zh) 多语言模型的训练方法和装置、存储介质和电子设备
CN113961679A (zh) 智能问答的处理方法、***、电子设备及存储介质
CN116956116A (zh) 文本的处理方法和装置、存储介质及电子设备
CN113486659B (zh) 文本匹配方法、装置、计算机设备及存储介质
CN112748953A (zh) 基于神经网络模型的数据处理方法、装置及电子设备
CN116910201A (zh) 一种对话数据生成方法及其相关设备
CN116186219A (zh) 一种人机对话交互方法方法、***及存储介质
CN114398903B (zh) 意图识别方法、装置、电子设备及存储介质
CN116957128A (zh) 业务指标预测方法、装置、设备和存储介质
CN113392190B (zh) 一种文本识别方法、相关设备及装置
CN113741759B (zh) 评论信息的展示方法、装置、计算机设备和存储介质
CN115203388A (zh) 机器阅读理解方法、装置、计算机设备和存储介质
CN112052680B (zh) 问题生成方法、装置、设备及存储介质
CN113421551A (zh) 语音识别方法、装置、计算机可读介质及电子设备
CN114330512B (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN117649117B (zh) 处置方案的确定方法、装置以及计算机设备
CN113822034B (zh) 一种复述文本的方法、装置、计算机设备及存储介质
CN117711001B (zh) 图像处理方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40052258

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination