CN115062718A

CN115062718A - 语言模型训练方法、装置、电子设备及存储介质

Info

Publication number: CN115062718A
Application number: CN202210752657.8A
Authority: CN
Inventors: 田鑫; 陈泽裕; 熊昊一; 王雅晴
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-09-16

Abstract

本公开提供了一种语言模型训练方法、装置、电子设备及存储介质，涉及人工智能技术领域，具体涉及自然语言处理和深度学习等领域。具体实施方案为：获取原始训练文本以及标签集合；基于原始训练文本和标签集合，生成第一训练文本和第二训练文本；对待训练的语言模型进行训练，以获取目标损失值；根据目标损失值对语言模型的模型参数进行调整，继续使用下一个原始训练文本进行训练，直至训练结束生成目标语言模型。通过将原始训练文生成第一训练文本和第二训练文本，对语言模型进行训练，相较于传统的只包含第一训练文本或者第二训练文本的方法，训练样本更丰富，同时降低差异性较大的问题，使目标语言模型鲁棒性更强，预测结果更加准确。

Description

语言模型训练方法、装置、电子设备及存储介质

技术领域

本公开涉及人工智能技术领域，具体涉及自然语言处理和深度学习等领域，尤其涉及一种语言模型训练方法、装置和电子设备及存储介质。

背景技术

目前，随着人工智能技术的不断发展，语言模型在文本分类等领域得到了广泛应用，具有自动化程度高、人工成本低等优点。比如，可将文本输入语言模型中，由语言模型输出文本的类别。然而，针对小样本的模型训练往往效果较差。

发明内容

本公开提供了一种用于语言模型训练方法、装置、电子设备及存储介质。

根据本公开的第一方面，提供了一种语言模型训练方法，包括：获取原始训练文本以及原始训练文本对应的标签集合；基于原始训练文本和标签集合，生成第一训练文本和第二训练文本，其中，第一训练文本为完型填空类文本，第二训练文本为蕴含分类任务的文本；根据第一训练文本和第二训练文本，对待训练的语言模型进行训练，以获取目标损失值；根据目标损失值对语言模型的模型参数进行调整，并继续使用下一个原始训练文本对调整后的语言模型进行训练，直至训练结束生成目标语言模型。

根据本公开的第二方面，提供了一种语言模型训练装置，包括：获取模块，用于获取原始训练文本以及原始训练文本对应的标签集合；生成模块，用于基于原始训练文本和标签集合，生成第一训练文本和第二训练文本，其中，第一训练文本为完型填空类文本，第二训练文本为蕴含分类任务的文本；训练模块，用于根据第一训练文本和第二训练文本，对待训练的语言模型进行训练，以获取目标损失值；调整模块，用于根据目标损失值对语言模型的模型参数进行调整，并继续使用下一个原始训练文本对调整后的语言模型进行训练，直至训练结束生成目标语言模型。

根据本公开的第三方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述一方面实施例所述的语言模型训练方法。

根据本公开第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其上存储有计算机程序/指令，所述计算机指令用于使所述计算机执行上述一方面实施例所述的语言模型训练方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现上述一方面实施例所述的语言模型训练方法的步骤。

通过将原始训练文本生成包含完型填空类文本的第一训练文本和包含蕴含分类任务的第二训练文本对语言模型进行训练生成目标语言模型，相较于传统的包含完型填空类文本的第一训练文本或者包含蕴含分类任务的第二训练文本，可以丰富训练样本，同时降低由于蕴含任务或者完成填空对于不同的初始训练文本差异性较大的问题，生成的目标语言模型鲁棒性更强，预测结果更加准确。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例提供的一语言模型训练方法的流程示意图；

图2为本公开实施例提供的另一语言模型训练方法的流程示意图；

图3为本公开实施例提供的一语言模型训练方法的整体流程图；

图4为本公开实施例提供的一语言模型训练装置的结构示意图；

图5为根据本公开实施例的语言模型训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面参考附图描述本公开实施例的语言模型训练方法、装置和电子设备。

人工智能(Artificial Intelligence，简称AI)，是研究使计算机来模拟人生的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术，也有软件层面的技术。人工智能硬件技术一般包括计算机视觉技术、语音识别技术、自然语言处理技术以及及其学习/深度学习、大数据处理技术、知识图谱技术等几大方面。

自然语言处理(Natural Language Processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别等方面。

深度学习(Deep Learning，简称DL)，是机器学习(Machine Learning，简称ML)领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能。深度学习是学习样本数据的内在律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

图1为本公开实施例提供的一种语言模型训练方法的流程示意图。

如图1所示，该语言模型训练方法，可包括：

S101，获取原始训练文本以及原始训练文本对应的标签集合。

需要说明的是，本公开实施例的语言模型训练方法的执行主体可为具有数据信息处理能力的硬件设备和/或驱动该硬件设备工作所需必要的软件。可选地，执行主体可包括工作站、服务器，计算机、用户终端及其他智能设备。其中，用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。

在本公开实施例中，原始训练文本可为多个，也可为单个，此处不作任何限定，具体需要根据实际情况进行限定。原始训练文本为自然语言构成的文本，也可包含数字特殊字符等，此处不作任何限定。自然语言包括但不限于中文、英文、日文等。可选地，原始训练文本可为单句，也可为句子对，此处不作任何限定，具体需要根据实际的输入进行确定。句子对可为关联的两个句子，也可为毫无关系的两个句子，此处不作任何限定，在本公开实施例中，如果输入为句子对，则输出的目的一般为判断句子对之间是否存在逻辑关系。举例来说，以自然语言为中文为例，单句可以为“我打球得了38分”，句子对可以为“我打球得了38分，我很开心”，模型再对“我打球得了38分，我很开心”进行处理时，主要是判断“我打球得了38分”和“我很开心”之间是否存在关联。

获取原始训练文本的方法可为多种，举例来说，可为人工输入的，也可为在原始训练文本库中调取的，此处不作任何限定。

需要说明的是，标签集合包含多个标签，该标签可与原始训练文本存在一定的逻辑联系，例如判定关系，也可为相关领域的标签，此处不作任何限定。举例来说，“我打球得了38分”的标签可为“体育”，同时也可为与体育相关的词例如“财经”、“政治”等，也可为相关领域的标签比如说“中锋”、“后卫”或者“前锋”等。

该标签集合可为人工建立的，也可通过其他方法建立，举例来说，可通过启发式法、伪标记法等。但是相较于其他方法，人工建立的标签集合关联性更高。

S102，基于原始训练文本和标签集合，生成第一训练文本和第二训练文本，其中，第一训练文本为完型填空类文本，第二训练文本为蕴含分类任务的文本。

需要说明的是，分类任务可以是二分类任务、三分类任务或者其他类型的分类任务，此处不作任何下定。

在本公开实施例中，可通过在原始训练文本上添加模板，将原始训练文本转换为一个蕴含任务和完成填空的任务，然后进行训练和预测。具体地，可通过在原始训练文本上添加包含完型填空类文本模板可以生成第一训练模板。通过在原始训练文本上添加包含蕴含分类任务模板可以生成第二训练模板。然后将标签集合中的标签与第一训练模板结合，可以生成第一训练文本，将标签集合中的标签与第二训练模板结合，可以生成第二训练文本。

需要说明的是，第一训练文本和第二训练文本针对不同的语境和意义，训练的效果不同，举例来说，针对一些逻辑性不强的初始输入文本第二训练文本对模型的训练效果更好，但是增加了训练的复杂度，且对负样本的数量要求较高。

含完型填空类文本模板和包含蕴含分类任务可为人工构建的，即通过经验和认知人工定义模板，也可通过其他方法进行构建。

可选地，还可通过启发式法进行构建，即根据给定的任务训练数据生成合适的模板。

可选地，还可通过词向量微调的方法偶见，即通过显式定义离散字符的模板。

可选地，还可通过不显式定义离散的模板，而是将模板作为可训练的参数。

本公开中的语言模型训练方法主要针对小样本的模型训练，小样本学习(Few-shot Learning)：小样本学习是机器学习的一种范式，目的是在极小训练样本的情况下，仅仅对预训练模型进行少量调优，得到精度较高的模型。由于小样本学习仅需求较少的样本，因此业内对小样本学习的需求越来越大。

当前技术中，采用传统小样本的训练方法主要包括微调模型(Fine-tuning)方法和模板调整模型(Prompt-tuning)方法。在小样本上采用传统的fine-tuning方法，由于训练样本变少，效果显著变差。采用Prompt-tuning方法，在原有语句的基础之上，增加一个人工编写或自动编写的模版，将任务转换成一个蕴含任务或者完形填空任务，然后进行训练和预测。相较于传统的将原始训练文本转换为一个蕴含任务或者完成填空的任务，本公开中通过将原始训练文本分别转换为一个蕴含任务和完成填空的任务的方式，可以丰富训练样本，同时降低由于蕴含任务或者完成填空对于不同的初始训练文本差异性较大的问题。

S103，根据第一训练文本和第二训练文本，对待训练的语言模型进行训练，以获取目标损失值。

在本公开实施例中，可通过基于第一训练文本和第二训练文本输入至待训练的语言模型中的输出结果确定目标损失值。

可选地，可分别计算第一训练文本和第二训练文本的损失值，然后基于二者的损失值计算模型输出的目标损失值。需要说明的是，第一训练样本的损失值和第二训练样本的损失值可为不同，还可基于原始训练文本的样本特征，对第一训练样本的损失值和第二训练样本的损失值进行加权计算。

可选地，还可基于第一训练文本和第二训练文本输入至待训练的语言模型中的输出结果直接计算整体的损失值。

本公开实施例中的损失函数为提前设定好的，并可根据实际需要进行设定。例如，该损失函数可为铰链损失函数、交叉熵损失函数和指数损失函数等，具体可根据实际需要进行选定，此处不做任何限制。

S104，根据目标损失值对语言模型的模型参数进行调整，并继续使用下一个原始训练文本对调整后的语言模型进行训练，直至训练结束生成目标语言模型。

在获取到第一训练文本和第二训练文本后，可将第一训练文本和第二训练文本后输入至模型中，并根据模型输出的结果，判断当前的语言模型是否符合预期。

在本公开实施例中，将第一训练文本和第二训练文本输入构建的语言模型后，可生成对应标签的预测概率，然后将对应标签的预测概率与标签信息通过语言模型的损失函数进行计算，生成损失值，再通过损失值对语言模型进行调整。将调整后的语言模型再按照上述步骤进行训练，直至训练结束，生成目标语言模型。可选地，当损失值到达损失阈值后，训练完成，生成目标语言模型，该损失阈值可根据实际情况进行设定。

可选地，还可设定一定的训练次数，当模型训练达到训练次数时，则停止训练，输出目标语言模型。

可选地，还可基于目标损失值的变化，当目标损失值的变化逐渐收敛时，此时可认为语言模型训练完成，输出目标语言模型。

在本公开实施例中，首先获取原始训练文本以及原始训练文本对应的标签集合，然后基于原始训练文本和标签集合，生成第一训练文本和第二训练文本，其中，第一训练文本为完型填空类文本，第二训练文本为蕴含分类任务的文本，而后根据第一训练文本和第二训练文本，对待训练的语言模型进行训练，以获取目标损失值，最后根据目标损失值对语言模型的模型参数进行调整，并继续使用下一个原始训练文本对调整后的语言模型进行训练，直至训练结束生成目标语言模型。通过将原始训练文本生成包含完型填空类文本的第一训练文本和包含蕴含分类任务的第二训练文本对语言模型进行训练生成目标语言模型，相较于传统的包含完型填空类文本的第一训练文本或者包含蕴含分类任务的第二训练文本，可以丰富训练样本，同时降低由于蕴含任务或者完成填空对于不同的初始训练文本差异性较大的问题，生成的目标语言模型鲁棒性更强，预测结果更加准确。

上述实施例中，第一训练文本的生成过程，可包括根据原始训练文本，确定用于生成完型填空类文本的第一模板，其中，第一模板包括至少一个第一掩码，对第一模板和原始训练文本进行组合，生成第一模板文本，最后将标签集合中的每个标签分别输入至第一模板文本中第一掩码位置，以生成每个标签对应的第一训练文本。举例来说，以原始训练文本为单句为例，原始训练文本可为“我打球得了38分”，第一模板可为“这是一条[MASK][MASK]新闻”，生成的第一模板文本可为“我打球得了38分，这是一条[MASK][MASK]新闻”，其中[MASK]为第一掩码，用于将标签集合中填写标签集合中的标签，举例来说，标签集合中可包含“体育”、“财经”和“社会”，则生成的第一训练文本分别为“我打球得了38分，这是一条体育新闻”、“我打球得了38分，这是一条财经新闻”和“我打球得了38分，这是一条社会新闻”；以原始训练文本为句子对为例，原始训练文本可为“我打球的了38分，我很开心”，为了判断对子对的相关性，可选择第一模板可为“我打球的了38分，我很开心，这两个句子[MASK]相关”，其中[MASK]为第一掩码，用于将标签集合中填写标签集合中的标签，举例来说，标签集合中可包含“非常”、“不”等，则生成的第一训练文本分别为“我打球的了38分，我很开心，这两个句子非常相关”、“我打球的了38分，我很开心，这两个句子不相关”。

需要说明的是，第一模板可为提前生成的，生成的方法可为多种，具体可参加上述实施例中的生成方法，此处不作任何限定。

上述实施例中，第二训练文本的生成过程，以二分类任务为例，包括根据原始训练文本，确定用于生成蕴含分类任务的文本的第二模板，其中，第二模板包括分类选项和至少一个第二掩码，对第二模板和原始训练文本进行组合，生成第二模板文本，最后将标签集合中的每个标签分别输入至第二模板文本中第二掩码位置，以生成每个标签对应的第二训练文本。举例来说，以原始训练文本为单句为例，原始训练文本可为“我打球得了38分”，第二模板可为“这是一条[MASK][MASK]新闻”，再通过加入分类选项生成的第二模板文本可为“我打球得了38分，这是一条[MASK][MASK]新闻，正确/错误”，其中[MASK]为第二掩码，用于将标签集合中填写标签集合中的标签，举例来说，标签集合中可包含“体育”、“财经”和“社会”，则生成的第一训练文本分别为“我打球得了38分，这是一条体育新闻，正确”、“我打球得了38分，这是一条体育新闻，错误”、“我打球得了38分，这是一条财经新闻，正确”、“我打球得了38分，这是一条财经新闻，错误”、“我打球得了38分，这是一条社会新闻，正确”和“我打球得了38分，这是一条社会新闻，错误”；以原始训练文本为句子对为例，原始训练文本可为“我打球的了38分，我很开心”，为了判断对子对的相关性，再通过加入分类选项生成的第二模板文本可为“我打球的了38分，我很开心，这两个句子[MASK]相关，正确/错误”，其中[MASK]为第二掩码，用于将标签集合中填写标签集合中的标签，举例来说，标签集合中可包含“非常”、“不”等，则生成的第一训练文本分别为“我打球的了38分，我很开心，这两个句子非常相关，正确”、“我打球的了38分，我很开心，这两个句子非常相关，错误”、“我打球的了38分，我很开心，这两个句子不相关，正确”和“我打球的了38分，我很开心，这两个句子不相关，错误”。

需要说明的是，第二模板可为提前生成的，生成的方法可为多种，具体可参加上述实施例中的生成方法，此处不作任何限定。

由此，通过在第一模板和第二模板中设置掩码，可以实现与标签库中的标签进行自动组合，从而为自动生成训练样本提供基础，提升模型训练的效率。

在本公开实施例中，第一训练文本和第二训练文本的生成，还可通过确定原始训练文本的分类任务类型，基于分类任务类型，从第一模板候选集合中确定第一模板，或者基于分类任务类型从第二模板候选集合中确定第二模板。分类任务类型可为多种，举例来说，分类任务类型可为判断句子的相关性、判别句子的所述类别等，此处不作任何限定。

进一步地，单句和对子对的第一模板集合和第二模板集合也可为不同，当原始训练文本为单句时，可先确定分类任务类型，然后基于分类任务类型从第一模板集合或者第二模板集合中的单句模板集合中选取适配的模板。

需要说明的是，第一模板候选集合和第二模板候选集合可为提前生成好的，并存储在电子设备的存储空间中，以方便在需要时调取使用。可选地，第一模板候选集合和第二模板候选集合还可为历史训练过程中生成的模板。

由此，通过确定原始训练文本的分类任务类型来确定模板的方法，可以实现自动生成训练文本，提升训练的效率和正确率。

上述实施例中，根据第一训练文本和第二训练文本，对待训练的语言模型进行训练，还可通过图2进一步解释，该方法包括：

S201，基于第一训练文本输入语言模型中输出的预测标签结果确定第一损失值。

在本公开实施例中的训练过程，是通过将标签集合中的标签对应的第一训练文本和第二训练文本依次输入至带训练的语言模型中，然后基于训练结果不断地对语言模型进行优化。

举例来说，标签集合中可包含“体育”、“财经”和“社会”，可随机选取其中一个标签，例如“体育”作为目标标签，然后将“体育”对应的第一训练文本和第二训练文本输入至语言模型中进行处理。

在本公开实施例中，可通获取每个标签对应的第一训练文本输入待训练的语言模型输出的第一概率，然后基于第一概率与标签对应的第一真实概率求取第一个体损失值，最后将所有标签的第一个体损失值求取平均值作为第一损失值。由此，通过对每个标签的损失值进行计算，获取训练样本的基于完形填空文本的损失值，可以更加准确的表征模型对的完形填空文本的处理能力，为后续模型的调整提供基础。

需要说明的是，第一真实概率为标签在第一训练文本中的实际概率，用以代表标签是否正确，举例来说，第一训练文本为“我打球得了38分，这是一条体育新闻”、“我打球得了38分，这是一条财经新闻”和“我打球得了38分，这是一条社会新闻”对应的真实概率分别为1、0、0。

本公开中使用待训练的语言模型可为LM模型(IS-LM Model)，基于此模型，第一训练文本的正确概率可通过以下公式进行计算：

其中，h_PET为代表第一训练文本对应的输入向量，w_M(y)为分类层输出的向量。在获取到第一训练文本的正确概率后，可通交叉熵损失函数第一训练文本的损失值。S202，获取第二训练文本输入语言模型中输出的分类选项结果确定第二损失值。

在本公开实施例中，可通过获取每个标签对应的第二训练文本输入待训练的语言模型输出的第二概率，基于第二概率与标签对应的第二真实概率求取第二个体损失值，最后将所有标签的第二个体损失值求取平均值作为第二损失值。由此，通过对每个标签的损失值进行计算，获取训练样本的基于蕴含分类任务文本的损失值，可以更加准确的表征模型对的蕴含分类任务文本的处理能力，为后续模型的调整提供基础。

需要说明的是，第二真实概率为分类选项在第二训练文本中的实际概率，用以代表分类选项是否正确，举例来说，第二训练文本为“我打球得了38分，这是一条体育新闻，正确”、“我打球得了38分，这是一条体育新闻，错误”、“我打球得了38分，这是一条财经新闻，正确”、“我打球得了38分，这是一条财经新闻，错误”、“我打球得了38分，这是一条社会新闻，正确”和“我打球得了38分，这是一条社会新闻，错误”对应的第二真实概率分别问1、0、0、1、0、1。

第二训练文本的正确概率可通过以下公式进行计算：

其中，h_EFL代表第二训练文本对应的输入向量，w_cls为分类层输出的向量。在获取到第二训练文本的正确概率后，可通交叉熵损失函数第二训练文本的损失值。需要说明的是，w_cls是基于分类选项输出的概率。

在本公开实施例中，第二损失值可为正样本或者负样本的损失值，也可为正样本和负样本的损失值的平均值，具体需要根据实际需要进行设定，此处不作任何限定。

S203，基于第一损失值和第二损失值确定目标损失值。

在本公开实施例中，可通过分别获取第一损失值和第二损失值的权重值来确定目标损失值，可通过以下公式进行计算：

loss＝loss_EFL+k*loss_PET

其中，loss_EFL为第二损失值，loss_PET为第一损失值，k为权重值，可以理解的是，由于完型填空类文本和蕴含分类任务对不同任务的训练效果不同，因此，k可根据不同的原始训练文本进行变化。可基于人工设置k的取值，也可通过其他算法进行确定，此处不作任何限定。

在本公开实施例中，首先基于第一训练文本输入语言模型中输出的预测标签结果确定第一损失值，获取第二训练文本输入语言模型中输出的分类选项结果确定第二损失值，最后基于第一损失值和第二损失值确定目标损失值。由此，通过分别生成第一训练文本和第二训练文本的损失值，以确定模型的目标损失值，可以准确的分析出模型是否能够达到处理要求，从而可以生成更加准确的目标语言模型。

在获取到目标损失值后，需要对模型的参数进行调整，然后进行下一轮的训练，直至损失值符合预期。

可选地，可将目标损失值与损失阈值进行比较，然后响应于目标损失值大于损失阈值，基于目标损失值对语言模型进行调整，并将标签集合中下一标签作为新的目标标签，重新获取目标损失值，响应于目标损失值小于或者等于损失阈值，确定语言模型为目标语言模型。需要说明的是，损失阈值为提前设定好的，并可根据实际需要进行设定。由此，通过控制损失阈值的取值，可以调整最终生成的模型的精度，针对不同的训练要求或者训练样本，可以生成更加适配的目标语言模型。

图3为本公开实施例的整体流程示意图，如图3所示，首先获取原始训练文本以及原始训练文本对应的标签集合，然后确定用于生成完型填空类文本的第一模板，其中，第一模板包括至少一个第一掩码，对第一模板和原始训练文本进行组合，生成第一模板文本，将标签集合中的每个标签分别输入至第一模板文本中第一掩码位置，以生成每个标签对应的第一训练文本，同时根据原始训练文本，确定用于生成蕴含分类任务的文本的第二模板，其中，第二模板包括分类选项和至少一个第二掩码，对第二模板和原始训练文本进行组合，生成第二模板文本，将标签集合中的每个标签分别输入至第二模板文本中第二掩码位置，以生成每个标签对应的第二训练文本，将生成的第一训练文本和第二训练文本输入之带训练的语言模型中，分别计算第一损失值和第二损失值，然后基于第一损失值和第二损失值生成目标损失值，基于目标损失值判断是否训练完成，如果训练完成，输出目标语言模型，如果训练未完成，则重新获取原始训练文本进行训练。

与上述几种实施例提供的语言模型训练方法相对应，本公开的一个实施例还提供了一种语言模型训练装置，由于本公开实施例提供的语言模型训练装置与上述几种实施例提供的语言模型训练方法相对应，因此上述语言模型训练方法的实施方式也适用于本公开实施例提供的语言模型训练装置，在下述实施例中不再详细描述。

图4为本公开实施例提供的一种语言模型训练装置的结构示意图。如图4所示，该语言模型训练装置400包括：获取模块410、生成模块420、训练模块430和调整模块440。

其中，获取模块410，用于获取原始训练文本以及原始训练文本对应的标签集合。

生成模块420，用于基于原始训练文本和标签集合，生成第一训练文本和第二训练文本，其中，第一训练文本为完型填空类文本，第二训练文本为蕴含分类任务的文本。

训练模块430，用于根据第一训练文本和第二训练文本，对待训练的语言模型进行训练，以获取目标损失值。

调整模块440，用于根据目标损失值对语言模型的模型参数进行调整，并继续使用下一个原始训练文本对调整后的语言模型进行训练，直至训练结束生成目标语言模型。

在本公开一个实施例中，生成模块420，还用于：根据原始训练文本，确定用于生成完型填空类文本的第一模板，其中，第一模板包括至少一个第一掩码；对第一模板和原始训练文本进行组合，生成第一模板文本；将标签集合中的每个标签分别输入至第一模板文本中第一掩码位置，以生成每个标签对应的第一训练文本。

在本公开一个实施例中，生成模块420，还用于：根据原始训练文本，确定用于生成蕴含分类任务的文本的第二模板，其中，第二模板包括分类选项和至少一个第二掩码；对第二模板和原始训练文本进行组合，生成第二模板文本；将标签集合中的每个标签分别输入至第二模板文本中第二掩码位置，以生成每个标签对应的第二训练文本。

在本公开一个实施例中，生成模块420，还用于：确定原始训练文本的分类任务类型；基于分类任务类型，从第一模板候选集合中确定第一模板；或者，基于分类任务类型，从第二模板候选集合中确定第二模板。

在本公开一个实施例中，训练模块430，还用于：基于第一训练文本输入语言模型中输出的预测标签结果确定第一损失值；获取第二训练文本输入语言模型中输出的分类选项结果确定第二损失值；基于第一损失值和第二损失值确定目标损失值。

在本公开一个实施例中，训练模块430，还用于：获取每个标签对应的第一训练文本输入待训练的语言模型输出的第一概率；基于第一概率与标签对应的第一真实概率求取第一个体损失值；将所有标签的第一个体损失值求取平均值作为第一损失值。

在本公开一个实施例中，训练模块430，还用于：获取每个标签对应的第二训练文本输入待训练的语言模型输出的第二概率；基于第二概率与标签对应的第二真实概率求取第二个体损失值；将所有标签的第二个体损失值求取平均值作为第二损失值。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序/指令或者从存储单元506载到随机访问存储器(RAM)503中的计算机程序/指令，来执行各种适当的动作和处理。在RAM 503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如语言模型训练方法。例如，在一些实施例中，语言模型训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元506些实施例中，计算机程序/指令的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序/指令加载到RAM 503并由计算单元501执行时，可以执行上文描述的语言模型训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语言模型训练方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序/指令中，该一个或者多个计算机程序/指令可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序/指令来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种语言模型训练方法，包括：

获取原始训练文本以及所述原始训练文本对应的标签集合；

基于所述原始训练文本和所述标签集合，生成第一训练文本和第二训练文本，其中，所述第一训练文本为完型填空类文本，所述第二训练文本为蕴含分类任务的文本；

根据所述第一训练文本和所述第二训练文本，对待训练的语言模型进行训练，以获取目标损失值；

根据所述目标损失值对所述语言模型的模型参数进行调整，并继续使用下一个原始训练文本对调整后的所述语言模型进行训练，直至训练结束生成目标语言模型。

2.根据权利要求1所述的方法，其中，所述第一训练文本的生成过程，包括：

根据所述原始训练文本，确定用于生成所述完型填空类文本的第一模板，其中，所述第一模板包括至少一个第一掩码；

对所述第一模板和所述原始训练文本进行组合，生成第一模板文本；

将所述标签集合中的每个标签分别输入至所述第一模板文本中所述第一掩码位置，以生成每个标签对应的所述第一训练文本。

3.根据权利要求1所述的方法，其中，所述第二训练文本的生成过程，包括：

根据所述原始训练文本，确定用于生成所述蕴含分类任务的文本的第二模板，其中，所述第二模板包括分类选项和至少一个第二掩码；

对所述第二模板和所述原始训练文本进行组合，生成第二模板文本；

将所述标签集合中的每个所述标签分别输入至所述第二模板文本中所述第二掩码位置，以生成每个所述标签对应的所述第二训练文本。

4.根据权利要求2或3所述的方法，其中，所述方法还包括：

确定所述原始训练文本的分类任务类型；

基于所述分类任务类型，从第一模板候选集合中确定所述第一模板；或者，

基于所述分类任务类型，从第二模板候选集合中确定所述第二模板。

5.根据权利要求1所述的方法，其中，所述目标损失值的确定过程，包括：

基于所述第一训练文本输入所述语言模型中输出的预测标签结果确定第一损失值；

获取所述第二训练文本输入所述语言模型中输出的分类选项结果确定第二损失值；

基于所述第一损失值和所述第二损失值确定所述目标损失值。

6.根据权利要求5所述的方法，其中，所述第一损失值的获取方法，包括：

获取每个所述标签对应的所述第一训练文本输入待训练的所述语言模型输出的第一概率；

基于所述第一概率与所述标签对应的第一真实概率求取第一个体损失值；

将所有所述标签的所述第一个体损失值求取平均值作为所述第一损失值。

7.根据权利要求5所述的方法，其中，所述第二损失值的获取方法，包括：

获取每个所述标签对应的所述第二训练文本输入待训练的所述语言模型输出的第二概率；

基于所述第二概率与所述标签对应的第二真实概率求取第二个体损失值；

将所有所述标签的所述第二个体损失值求取平均值作为所述第二损失值。

8.一种语言模型训练装置，包括：

获取模块，用于获取原始训练文本以及所述原始训练文本对应的标签集合；

生成模块，用于基于所述原始训练文本和所述标签集合，生成第一训练文本和第二训练文本，其中，所述第一训练文本为完型填空类文本，所述第二训练文本为蕴含分类任务的文本；

训练模块，用于根据所述第一训练文本和所述第二训练文本，对待训练的语言模型进行训练，以获取目标损失值；

调整模块，用于根据所述目标损失值对所述语言模型的模型参数进行调整，并继续使用下一个原始训练文本对调整后的所述语言模型进行训练，直至训练结束生成目标语言模型。

9.根据权利要求8所述的装置，其中，所述生成模块，还用于：

10.根据权利要求8所述的装置，其中，所述生成模块，还用于：

11.根据权利要求9或10所述的装置，其中，所述生成模块，还用于：

确定所述原始训练文本的分类任务类型；

12.根据权利要求7所述的装置，其中，所述训练模块，还用于：

13.根据权利要求12所述的装置，其中，所述训练模块，还用于：

14.根据权利要求12所述的装置，其中，所述训练模块，还用于：

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的语义模型训练方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的语言模型训练方法。

17.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1-7中任一项所述的语言模型训练方法的步骤。