CN111709234B

CN111709234B - 文本处理模型的训练方法、装置及电子设备

Info

Publication number: CN111709234B
Application number: CN202010465386.9A
Authority: CN
Inventors: 陈亮宇; 刘家辰; 肖欣延
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2023-07-25
Anticipated expiration: 2040-05-28
Also published as: CN111709234A

Abstract

本申请公开了一种文本处理模型的训练方法、装置及电子设备，涉及自然语言处理技术领域。具体实现方案为：获取原语句集，其中，原语句集中包括多个原语句；对每个原语句进行分词处理，以确定每个原语句中包含的各个词条；将每个原语句包含的各个词条中的至少一个词条替换为同义词，以生成与多个原语句分别对应的多个替换语句；利用多个原语句及对应的多个替换语句，对初始文本处理模型进行训练。由此，通过这种文本处理模型的训练方法，使得训练得到的文本处理模型可以直接对输入文本进行润色，无需依赖词典，不仅计算量小，而且提升了文本处理模型的文本润色效果。

Description

文本处理模型的训练方法、装置及电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及自然语言技术领域，提出一种文本处理模型的训练方法、装置及电子设备。

背景技术

文本润色是辅助写作中的重要技术，可以帮助作者写出更好的文字。

相关技术中，通常通过建立词典和语言模型结合的方式，实现文本润色。但是，这种文本润色方法，计算量大，且十分依赖词典质量，导致润色质量差。

发明内容

本申请提供了一种用于文本处理模型训练的方法、装置、电子设备、存储介质以及计算机程序产品。

根据本申请的一方面，提供了一种文本处理模型的训练方法，包括：获取原语句集，其中，所述原语句集中包括多个原语句；对每个所述原语句进行分词处理，以确定每个所述原语句中包含的各个词条；将每个所述原语句包含的各个词条中的至少一个词条替换为同义词，以生成与所述多个原语句分别对应的多个替换语句；利用所述多个原语句及对应的所述多个替换语句，对初始文本处理模型进行训练。

根据本申请的另一方面，提供了一种文本处理模型的训练装置，包括：第一获取模块，用于获取原语句集，其中，所述原语句集中包括多个原语句；确定模块，用于对每个所述原语句进行分词处理，以确定每个所述原语句中包含的各个词条；替换模块，用于将每个所述原语句包含的各个词条中的至少一个词条替换为同义词，以生成与所述多个原语句分别对应的多个替换语句；以及训练模块，用于利用所述多个原语句及对应的所述多个替换语句，对初始文本处理模型进行训练。

根据本申请的再一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如前所述的文本处理模型的训练方法。

根据本申请的再一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如前所述的文本处理模型的训练方法。

根据本申请的又一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如前所述的文本处理模型的训练方法。

根据本申请的技术方案，解决了通过词典和语言模型结合的方式，实现文本润色的方法，计算量大，且十分依赖词典质量，导致润色质量差的问题。通过对原语句集中的每个原语句中的部分词条，进行同义词替换，分别生成与每个原语句对应的多个替换语句，并利用初始文本处理模型根据多个替换语句生成与各替换语句对应的原语句，以对初始文本处理模型进行训练。由此，通过利用初始文本处理模型根据低质量的替换语句，生成高质量的与替换语句对应的原语句，实现对初始文本处理模型的训练，从而使得训练得到的文本处理模型可以直接对输入文本进行润色，无需依赖词典，不仅计算量小，而且提升了文本处理模型的文本润色效果。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请实施例所提供的一种文本处理模型的训练方法的流程示意图；

图2为本申请实施例所提供的另一种文本处理模型的训练方法的流程示意图；

图3为本申请实施例所提供的再一种文本处理模型的训练方法的流程示意图；

图4为本申请实施例提供的一种文本处理模型的训练装置的结构示意图；

图5为用来实现本申请实施例的文本处理模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本申请实施例针对相关技术中，通过词典和语言模型结合的方式，实现文本润色的方法，计算量大，且十分依赖词典质量，导致润色质量差的问题，提出一种文本处理模型的训练方法。

下面参考附图对本申请提供的文本处理模型的训练方法、装置、电子设备、存储介质及计算机程序产品进行详细描述。

图1为本申请实施例所提供的一种文本处理模型的训练方法的流程示意图。

如图1所示，该文本处理模型的训练方法，包括以下步骤：

步骤101，获取原语句集，其中，原语句集中包括多个原语句。

其中，原语句，可以是从网络、文献等途径获取的优质语料数据。

在本申请实施例中，可以从资讯文章、百科数据、优秀的写作作品等资料中，获取优质语料数据作为原语句，并利用获取的大量原语句构成原语句集。

步骤102，对每个原语句进行分词处理，以确定每个原语句中包含的各个词条。

在本申请实施例中，可以对每个原语句中的部分词条进行替换，以生成与原语句同义但表达方式不同的替换语句，以作为训练文本处理模型的语料。因此，可以首先对原语句集中的每个原语句分别进行分词处理，与确定每个原语句中包括的各个词条。

步骤103，将每个原语句包含的各个词条中的至少一个词条替换为同义词，以生成与多个原语句分别对应的多个替换语句。

在本申请实施例中，确定出每个原语句包含的词条之后，可以利用预先建立的同义词库，确定每个原语句中部分词条的同义词，进而利用同义词替换每个原语句中的部分词条，以生成分别与多个原语句对应的多个替换语句。其中，一个原语句可以对应一个替换语句，也可以对应多个替换语句。

作为一种可能的实现方式，可以采用随机的方式，从每个原语句中选取预设数量的待替换词条，并从预设的同义词库中获取每个待替换词条对应的同义词，进而利用每个待替换词条对应的同义词分别对每个原语句中的待替换词条进行替换，以生成每个原语句对应的替换语句。

需要说明的是，实际使用时，生成原语句的替换语句时，可以根据实际需要及具体的应用场景，确定每个原语句中替换的词条数量，本申请实施例对此不做限定。比如，每个原语句中替换的词条数量可以为1-2个。

步骤104，利用多个原语句及对应的多个替换语句，对初始文本处理模型进行训练。

在本申请实施例中，确定出每个原语句对应的替换语句之后，可以利用初始文本处理模型分别对每个替换语句进行处理，以生成每个替换语句对应的原语句，并根据初始文本处理模型生成的原语句与原语句集中的相应原语句的差异，对初始文本处理模型的参数进行更新，直至更新后的文本处理模型的性能符合要求，则完成对文本处理模型的训练过程。

根据本申请的技术方案，通过对原语句集中的每个原语句中的部分词条，进行同义词替换，分别生成与每个原语句对应的多个替换语句，并利用初始文本处理模型根据多个替换语句生成与各替换语句对应的原语句，以对初始文本处理模型进行训练。由此，通过利用初始文本处理模型根据低质量的替换语句，生成高质量的与替换语句对应的原语句，实现对初始文本处理模型的训练，从而使得训练得到的文本处理模型可以直接对输入文本进行润色，无需依赖词典，不仅计算量小，而且提升了文本处理模型的文本润色效果。

在本申请一种可能的实现形式中，可以根据原语句中包含的各词条词性、包含的词条数量及待替换词条对应的同义词数量等参数，确定对原语句的替换方式，以提升替换语句的丰富度，从而进一步提升文本处理模型的训练效果。

下面结合图2，对本申请实施例提供的文本处理模型的训练方法进行进一步说明。

图2为本申请实施例所提供的另一种文本处理模型的训练方法的流程示意图。

如图2所示，该文本处理模型的训练方法，包括以下步骤：

步骤201，获取原语句集，其中，原语句集中包括多个原语句。

步骤202，对每个原语句进行分词处理，以确定每个原语句中包含的各个词条。

上述步骤201-202的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

步骤203，获取每个原语句中每个词条的词性。

作为一种可能的实现方式，可以根据原语句中包含的各词条的词性，对原语句中的部分词条进行替换，以生成原语句对应的替换语句。因此，在对每个原语句进行分词处理之后，可以利用任意的词性识别工具对原语句中的每个词条进行词性识别，以确定每个原语句中每个词条的词性。

步骤204，根据每个词条的词性确定每个原语句包含的多个候选词条。

其中，候选词条，是指原语句中包含的词性符合预设条件的词条。比如，预设条件为“词性为动词和形容词”，则可以确定原语句包含的候选词条为原语句中包含的所有动词和形容词。

作为一种可能的实现方式，由于对文本进行润色时，通常对动词、形容词等词性的进行润色的频率较高，而对于名词、代词等词性的词语通常不需要进行润色，或者需要润色的频率较低，从而在生成替换语句时，可以对原语句中的需要润色的频率较高的词语进行替换，以使训练得到的文本处理模型对高频率润色的词性更加关注，以进一步提升文本处理模型的文本润色效果。

具体的，可以预先设置待替换词性，进而根据每个原语句中的每个词性的词性，将每个原语句中包含的为待替换词性的词条，确定为每个原语句包含的候选词条。

举例来说，预先设置的待替换词性为动词和形容词，则可以将每个原语句中包含的动词和形容词，确定为每个原语句包含的候选词条。

需要说明的是，实际使用时，可以根据实际需要及具体的应用场景，预先设置候选词条的词性，本申请实施例对此不做限定。

步骤205，将每个原语句中包含的多个候选词条中的至少一个词条替换为同义词，以生成与多个原语句对应的多个替换语句。

作为一种可能的实现方式，可以根据预设的同义词库，确定每个原语句中包含的多个候选词条分别对应的同义词，进而利用每个候选词条对应的同义词，对所有候选词条进行替换，以生成每个原语句分别对应的替换语句。

作为另一种可能的实现方式，还可以通过随机方式从每个原语句包含的多个候选词条中选取预设数量的候选词条，并根据预设的同义词库，选取的预设数量的候选词条对应的同义词，进而利用选取的预设数量的候选词条对应的同义词，分别对各选取的候选词条进行替换，以生成每个原语句对应的替换语句。

进一步的，对于不同长度的原语句，可以对其包含的不同数量的词条进行替换。即在本申请实施例一种可能的实现形式中，上述方法，还可以包括：

根据每个原语句包含的词条数量，确定每个原语句对应的待替换词条的数量N，其中，N为正整数；

将每个原语句中的N个词条分别替换为对应的同义词，以生成与多个原语句对应的多个第一替换语句。

作为一种可能的实现方式，原语句对应的待替换词条的数量N，可以与原语句包含的词条数量呈正相关，即原语句包含的词条数量越多，其对应的待替换词条的数量N越大。

可选地，在本申请实施例一种可能的实现形式中，可以预设词条数量范围与待替换词条数量N的映射关系，从而可以根据每个原语句包含的词条数量所属的范围，确定每个原语句对应的待替换词条的数量N。之后，通过随机方式，或者上述根据词性的选择方式从每个原语句中先去待替换词条，进而根据预设的同义词库，确定每个原语句中的待替换词条对应的同义词，以根据每个待替换词条对应的同义词，分别对每个原语句对应待替换词条进行替换，以生成每个原语句分别对应的第一替换语句。

举例来说，预设的词条数量范围与待替换词条数量N的映射关系为“词条数量小于等于10时，待替换词条数量N为1；词条数量大于10且小于等于20时，待替换词条数量N为2；词条数量大于20且小于等于30时，待替换词条数量N为3，等等”，原语句A的词条数量为15，从而可以确定原语句A对应的待替换词条的数量N为2，从而可以从原语句A中选取2个词条，作为待替换词条，并利用待替换词条的同义词对待替换词条进行替换，以使生成原语句A对应的第一替换语句。

进一步的，对于长度较长的原语句，还可以采用多种方式对原语句进行替换，以生成原语句对应的多个替换语句。即在本申请实施例一种可能的实现形式中，上述方法，还可以包括：

获取每个原语句中的词条数量M，其中，M为正整数；

如果原语句集中的任一原语句包含的词条数量M大于阈值，则分别将任一原语句中的i个词条分别替换为同义词，以生成与任一原语句对应的第二替换语句，并将任一原语句中的j个词条分别替换为同义词，以生成与任一原语句对应的第三替换语句，其中，i个词条与j个词条不同。

在本申请实施例中，对于包含的词条数量M大于阈值的原语句，可以根据上述方式确定出原语句中包含的待替换的词条数量N，进而根据待替换的词条数量N采用多种方式对原语句的部分词条进行替换，以生成原语句对应的多个替换语句。

可选地，可以每次从原语句的N个待替换词条中选取i个词条进行替换，以生成原语句对应的一个替换语句，直至将N个词条全部替换完毕。其中，i为小于或等于N的正整数。

举例来说，N为3，则i＝1时，可以每次替换原语句中3个待替换词条中的一个，以生成原语句对应的三个第二替换语句；在i＝2时，可以每次替换原语句中的2个待替换词条，以生成原语句对应的三个第二替换语句；在i＝3时，将原语句中的3个待替换词条全部替换，以生成原语句对应的一个第二替换语句。

可选地，在原语句包含的词条数量M大于阈值时，可能确定的待替换词条的数量N也较大，而替换的词条数量过多，容易导致替换语句的语义信息不完整或者与原语句差异较大，从而容易导致文本处理模型的训练效果不理想。因此，还可以预设待替换词条的数量阈值j，从而，可以每次从原语句的N个待替换词条中选取j个词条进行替换，以生成原语句对应的多个第三替换语句，直至将原语句中的N个待替换词条全部替换完毕。

举例来说，N为4，待替换词条的数量阈值为3，则可以每次替换原语句中的3个待替换词条，以生成原语句对应的4个第三替换语句。

进一步的，对于一个具有多个同义词的待替换词条，可以分别采用不同的同义词对该待替换词条进行替换，以生成多个不同的替换语句。即在本申请实施例一种可能的实现形式中，上述方法，还可以包括：

将任一原语句中的任一待替换词条分别替换为Y个同义词中的一个，以生成与任一原语句对应的Y个第四替换语句。

在本申请实施例中，若原语句中包含具有多个同义词的待替换词条，则可以采用该待替换词条对应的每个同义词，替换该待替换词条，以生成该原语句对应的多个第四替换语句。

举例来说，原语句A中的一个待替换词条B具有4个同义词，则可以采用4个同义词分别替换待替换词条B，以生成原语句A对应的4个第四替换语句。

步骤206，利用多个原语句及对应的多个替换语句，对初始文本处理模型进行训练。

上述步骤206的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

根据本申请实施例的技术方案，通过根据原语句中包含的各词条词性、包含的词条数量及待替换词条对应的同义词数量等参数，确定生成原语句对应的替换语句的方式，以提升替换语句的丰富度，并利用初始文本处理模型根据多个替换语句生成与各替换语句对应的原语句，以对初始文本处理模型进行训练。由此，通过多种方式生成与高质量的原语句对应的低质量的替换语句，从而丰富了对初始文本处理模型进行训练的语料库，从而不仅使得训练得到的文本处理模型可以直接对输入文本进行润色，无需依赖词典，计算量小，而且进一步提升了文本处理模型的训练效果，进一步提升了文本处理模型的文本润色效果。

在本申请一种可能的实现形式中，初始文本处理模型在对替换语句进行处理时，可以对每个替换语句中的替换位置及替换位置对应的替换词进行预测，以对替换语句进行润色处理，从而可以从替换位置预测准确度和替换词预测准确度两个方面，对初始文本处理模型进行训练，以提升文本处理模型的文本润色效果。

下面结合图3，对本申请实施例提供的文本处理模型的训练方法进行进一步说明。

图3为本申请实施例所提供的再一种文本处理模型的训练方法的流程示意图。

如图3所示，该文本处理模型的训练方法，包括以下步骤：

步骤301，获取原语句集，其中，原语句集中包括多个原语句；

步骤302，对每个原语句进行分词处理，以确定每个原语句中包含的各个词条。

步骤303，将每个原语句包含的各个词条中的至少一个词条替换为同义词，以生成与多个原语句分别对应的多个替换语句。

上述步骤301-303的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

步骤304，利用初始文本处理模型对每个替换语句进行处理，以生成每个替换语句中每个分词的预测类别标签及预测替换词。

其中，分词的预测类别标签，是指用于指示该分词是否需要替换的参数。比如，预测类别标签可以包括0和1两种取值，当分词的预测类别标签为0时，表示该分词不需要替换；当分词的预测类别标签为1时，表示该分词需要替换。以下以此为例进行具体说明。

其中，分词的预测替换词，是指初始分类模型在确定该分词需要替换时，预测的替换该分词的替换词。

在本申请实施例中，将替换语句输入初始文本处理模型之后，初始文本处理模型可以首先对替换语句进行分词处理，进而判断替换语句中的每个分词是否需要替换，并根据判断结果身生成每个分词的预测类别标签。初始分类模型在确定分词的预测类别标签为1时，即确定分词需要进行替换时，可以从预设的词表中选取该分词的预测替换词。

步骤305，根据每个原语句与对应的替换语句的差异、及对应的替换语句中每个分词的预测类别标签及预测替换词，确定初始文本处理模型的损失值。

作为一种可能的实现方式，可以根据每个替换语句对应的原语句，对初始文本处理模型的预测结果的准确度进行校验，并生成初始文本处理模型的损失值，以对初始文本处理模型进行训练。即在本申请实施例一种可能的实现形式中，上述步骤305，可以包括：

根据每个原语句与对应的替换语句的差异，确定对应的替换语句中每个分词的实际类别标签及目标替换词；

根据每个分词的实际类别标签与预测类别标签的差异，确定第一损失值；

根据目标替换词与预测替换词的差异，确定第二损失值；

根据第一损失值及第二损失值，确定初始文本处理模型的损失值。

其中，分词的实际类别标签，是指用于指示该分词是否为生成替换语句时被替换的词的参数。比如，实际类别标签可以包括0和1两种取值，当分词的实际类别标签为0时，表示该分词不是生成替换语句是被替换的词；当分词的实际类别标签为1时，表示该分词为生成替换语句时被替换的词。以下以此为例进行具体说明。

其中，分词的目标替换词，是指在利用该分词对原语句进行替换之前，原语句中相应位置的分词。比如，原语句为“这朵花真漂亮”，替换语句为“这朵花真美丽”，则可以确定分词“美丽”的目标替换词为“漂亮”。

在本申请实施例中，可以根据原语句与对应的替换语句的差异，判断替换语句中的每个分词是否为生成替换语句的过程中被替换的词，若是，则可以确定该分词的实际类别标签为1；若否，则可以确定该分词的实际类别标签为0。在确定替换语句中一个分词的实际类别标签为1时，则还可以进一步将替换语句对应的原语句中相应位置的分词，确定为该分词的目标替换词。

在本申请实施例中，由于初始文本处理模型对分词的类别标签的预测准确度，以及对分词的替换词的预测准确度，可以从不同方面反映初始文本处理模型的性能，因此，可以从初始文本处理模型对分词的标签预测准确度与替换词预测准确度两个方面，衡量初始文本处理模型的性能，并对初始文本处理模型进行训练。

作为一种可能的实现方式，可以根据替换语句中每个分词的预测类别标签与实际类别标签的差异，确定替换语句的标签置信度。比如，可以将替换语句中预测类别标签与实际类别标签相同的分词数量与替换语句中包含的所有分词数量的比值，确定为替换语句的标签置信度，本申请实施例对此不做限定。进而，将每个替换语句的标签置信度代入预设的损失函数(如交叉熵损失函数)，确定初始文本处理模型的第一损失值。

举例来说，替换语句A中包括10个分词，且替换语句A各分词的预测类别标签与实际类别标签均相同，则可以确定替换语句A的标签置信度为1；若替换语句A中的8个分词的预测类别标签与实际类别标签相同，则可以确定替换语句A的标签置信度为0.8。

作为一种可能的实现方式，可以利用目标替换词与预测替换词之间的语义相似度，确定两者之间的差异；而分词之间的语义相似度，可以通过分词的词向量之间的距离、余弦相似度等参数衡量。因此，在本申请实施例中，可以将根据替换语句中每个分词对应的目标替换词的词向量与预测替换词的词向量之间的距离或余弦相似度，确定替换语句的替换词置信度。比如，可以将替换语句中每个分词的目标替换词的词向量与预测替换词的词向量之间余弦相似度的均值，确定为替换语句的替换词置信度，本申请实施例对此不做限定。进而，将每个替换语句的替换词置信度代入预设的损失函数(如交叉熵损失函数)，确定初始文本处理模型的第二损失值。

举例来说，替换语句A中包括两个预测类别标签为1的分词B和分词C，分词B的目标替换词与预测替换词的余弦相似度为0.8，分词C的目标替换词与预测替换词的余弦相似度为0.6，则可以确定替换语句A的替换词置信度为0.7。

作为一种可能的实现方式，在确定出初始文本处理模型的第一损失值与第二损失值之后，可以将第一损失值与第二损失值进行融合，以生成初始文本处理模型的损失值。比如，可以将第一损失值与第二损失值之和，确定为初始文本处理模型的损失值；也可以将第一损失值与第二损失值的均值，确定为初始文本处理模型的损失值，本申请实施例对此不做限定。

步骤306，根据损失值，对初始文本处理模型进行修正。

作为一种可能的实现方式，在确定出初始文本处理模型的损失值之后，可以判断损失值是否处于预设范围，若是，则可以确定初始文本处理模型的性能符合要求，则可以完成对文本处理模型的训练过程；若损失值未处于预设范围，则可以确定初始文本处理模型的性能不符合要求，则可以将损失值进行方向传播，以对初始文本处理模型的参数进行修正，以生成修正后的文本处理模型。之后利用修正后的文本处理模型继续重复对各替换语句的处理过程，直至损失值处于预设范围，则完成对文本处理模型的训练过程。

需要说明的是，实际使用时，可以根据实际需要及具体的应用场景，确定根据损失值对文本处理模型进行修正的方式，本申请实施例对此不做限定。比如，可以采用梯度下降法对文本处理模型进行修正。

作为另一种可能的实现方式，初始文本处理模型，可以包括分别与特征处理层连接的标签预测层及替换词预测层，从而可以根据第一损失值与第二损失值对标签预测层及替换词预测层进行交替训练，以对初始文本处理模型进行修正。即在本申请实施例一种可能的实现形式中，上述步骤306，可以包括：

根据第一损失值，对初始文本处理模型的标签预测层及特征处理层进行修正；

根据第二损失值，对初始文本处理模型的替换词预测层及特征处理层进行修正。

其中，特征处理层，是指对输入初始文本处理模型的替换语句进行特征表示的层。比如，特征处理层可以是将替换语句进行向量映射，以生成替换语句对应的向量表示的层。

其中，标签预测层，是指根据特征处理层输出的替换语句的特征表示，对替换语句中的每个分词的预测类别标签进行预测的层。

其中，替换词预测层，是指根据特征处理层输出的替换语句的特征表示，对替换语句中的预测类别标签为1的分词的预测替换词进行预测的层。

在本申请实施例中，由于第一损失值可以反映初始文本处理模型对分词的预测类别标签进行预测的准确度，从而可以利用第一损失值对初始文本处理模型的标签预测层及特征处理层进行修正；而第二损失值可以反映初始文本处理模型对分词的预测替换词进行预测的准确度，从而可以利用第二损失值对初始文本处理模型的替换词预测层及特征处理层进行修正，直至修正后的文本处理模型的第一损失值及第二损失值的均处于预设范围，则完成对文本处理模型的训练过程。

根据本申请实施例的技术方案，通过对原语句集中的每个原语句中的部分词条，进行同义词替换，分别生成与每个原语句对应的多个替换语句，并利用初始文本处理模型对替换语句中每个分词对应的预测类别标签和预测替换词进行预测，并根据原语句对初始文本处理模型的标签预测准确度和替换词预测准确度进行校验，以分别生成初始文本处理模型的第一损失值与第二损失值，进而根据第一损失值与第二损失值分别对初始文本处理模型的标签预测层和替换词预测层进行修正。由此，通过从标签预测和替换词预测两个方面对文本处理模型进行训练，从而进一步提升了文本处理模型的训练效果，进一步提升了文本处理模型的文本润色效果。

为了实现上述实施例，本申请还提出一种文本处理模型的训练装置。

图4为本申请实施例提供的一种文本处理模型的训练装置的结构示意图。

如图4所示，该文本处理模型的训练装置40，包括：

第一获取模块41，用于获取原语句集，其中，原语句集中包括多个原语句；

确定模块42，用于对每个原语句进行分词处理，以确定每个原语句中包含的各个词条；

替换模块43，用于将每个原语句包含的各个词条中的至少一个词条替换为同义词，以生成与多个原语句分别对应的多个替换语句；以及

训练模块44，用于利用多个原语句及对应的多个替换语句，对初始文本处理模型进行训练。

在实际使用时，本申请实施例提供的文本处理模型的训练装置，可以被配置在任意电子设备中，以执行前述文本处理模型的训练方法。

根据本申请实施例的技术方案，通过对原语句集中的每个原语句中的部分词条，进行同义词替换，分别生成与每个原语句对应的多个替换语句，并利用初始文本处理模型根据多个替换语句生成与各替换语句对应的原语句，以对初始文本处理模型进行训练。由此，通过利用初始文本处理模型根据低质量的替换语句，生成高质量的与替换语句对应的原语句，实现对初始文本处理模型的训练，从而使得训练得到的文本处理模型可以直接对输入文本进行润色，无需依赖词典，不仅计算量小，而且提升了文本处理模型的文本润色效果。

在本申请一种可能的实现形式中，上述替换模块43，包括：

第一获取单元，用于获取每个原语句中每个词条的词性；

第一确定单元，用于根据每个词条的词性确定每个原语句包含的多个候选词条；

第一替换单元，用于将每个原语句中包含的多个候选词条中的至少一个词条替换为同义词，以生成与多个原语句对应的多个替换语句。

进一步的，在本申请另一种可能的实现形式中，上述替换模块43，包括：

第二确定单元，用于根据每个原语句包含的词条数量，确定每个原语句对应的待替换词条的数量N，其中，N为正整数；

第二替换单元，用于将每个原语句中的N个词条分别替换为对应的同义词，以生成与多个原语句对应的多个第一替换语句。

进一步的，在本申请再一种可能的实现形式中，上述替换模块43，包括：

第二获取单元，用于获取每个原语句中的词条数量M，其中，M为正整数；

第三替换单元，在原语句集中的任一原语句包含的词条数量M大于阈值时，分别将任一原语句中的i个词条分别替换为同义词，以生成与任一原语句对应的第二替换语句，并将任一原语句中的j个词条分别替换为同义词，以生成与任一原语句对应的第三替换语句，其中，i个词条与j个词条不同。

进一步的，在本申请又一种可能的实现形式中，如果上述原语句集中任一原语句的任一待替换词条包括Y个同义词，则上述替换模块43，包括：

第四替换单元，用于将任一原语句中的任一待替换词条分别替换为Y个同义词中的一个，以生成与任一原语句对应的Y个第四替换语句。

进一步的，在本申请又一种可能的实现形式中，上述训练模块44，包括：

生成单元，用于利用初始文本处理模型对每个替换语句进行处理，以生成每个替换语句中每个分词的预测类别标签及预测替换词；

第三确定单元，用于根据每个原语句与对应的替换语句的差异、及对应的替换语句中每个分词的预测类别标签及预测替换词，确定初始文本处理模型的损失值；以及

修正单元，用于根据损失值，对初始文本处理模型进行修正。

进一步的，在本申请另一种可能的实现形式中，上述第三确定单元，包括：

第一确定子单元，用于根据每个原语句与对应的替换语句的差异，确定对应的替换语句中每个分词的实际类别标签及目标替换词；

第二确定子单元，用于根据每个分词的实际类别标签与预测类别标签的差异，确定第一损失值；

第三确定子单元，用于根据目标替换词与预测替换词的差异，确定第二损失值；

第四确定子单元，用于根据第一损失值及第二损失值，确定初始文本处理模型的损失值。

进一步的，在本申请再一种可能的实现形式中，上述初始文本处理模型，包括分别与特征处理层连接的标签预测层及替换词预测层；相应的，上述修正单元，包括：

第一修正子单元，用于根据第一损失值，对初始文本处理模型的标签预测层及特征处理层进行修正；

第二修正子单元，用于根据第二损失值，对初始文本处理模型的替换词预测层及特征处理层进行修正。

需要说明的是，前述对图1、图2、图3所示的文本处理模型的训练方法实施例的解释说明也适用于该实施例的文本处理模型的训练装置40，此处不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

如图5所示，是根据本申请实施例的文本处理模型的训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示，该电子设备包括：一个或多个处理器501、存储器502，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个电子设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器***)。图5中以一个处理器501为例。

存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的文本处理模型的训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的文本处理模型的训练方法。

存储器502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的文本处理模型的训练方法对应的程序指令/模块(例如，附图4所示的第一获取模块41、确定模块42、替换模块43及训练模块44)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的文本处理模型的训练方法。

存储器502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据文本处理模型的训练方法的电子设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器502可选包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至文本处理模型的训练方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

文本处理模型的训练方法的电子设备还可以包括：输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接，图5中以通过总线连接为例。

输入装置503可接收输入的数字或字符信息，以及产生与文本处理模型的训练方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS(VirtualPrivate Server，虚拟专用服务器)服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种文本处理模型的训练方法，包括：

获取原语句集，其中，所述原语句集中包括多个原语句；

对每个所述原语句进行分词处理，以确定每个所述原语句中包含的各个词条；

将每个所述原语句包含的各个词条中的至少一个词条替换为同义词，以生成与所述多个原语句分别对应的多个替换语句；以及

利用所述多个原语句及对应的所述多个替换语句，对初始文本处理模型进行训练；

其中，所述利用所述多个原语句及对应的所述多个替换语句，对初始文本处理模型进行训练，包括：

利用所述初始文本处理模型对每个所述替换语句进行处理，以生成每个所述替换语句中每个分词的预测类别标签及预测替换词；

根据每个所述原语句与对应的替换语句的差异、及所述对应的替换语句中每个分词的预测类别标签及预测替换词，确定所述初始文本处理模型的损失值；以及

根据所述损失值，对所述初始文本处理模型进行修正。

2.如权利要求1所述的方法，其中，所述将每个所述原语句包含的各个词条中的至少一个词条替换为同义词，以生成与所述多个原语句对应的多个替换语句，包括：

获取每个所述原语句中每个所述词条的词性；

根据每个所述词条的词性确定每个所述原语句包含的多个候选词条；

将每个所述原语句中包含的所述多个候选词条中的至少一个词条替换为同义词，以生成与所述多个原语句对应的多个替换语句。

3.如权利要求1所述的方法，其中，所述将每个所述原语句包含的各个词条中的至少一个词条替换为同义词，包括：

根据每个所述原语句包含的词条数量，确定每个所述原语句对应的待替换词条的数量N，其中，N为正整数；

将每个所述原语句中的N个词条分别替换为对应的同义词，以生成与所述多个原语句对应的多个第一替换语句。

4.如权利要求1所述的方法，其中，所述将每个所述原语句包含的各个词条中的至少一个词条替换为同义词，包括：

获取每个所述原语句中的词条数量M，其中，M为正整数；

如果所述原语句集中的任一原语句包含的词条数量M大于阈值，则分别将所述任一原语句中的i个词条分别替换为同义词，以生成与所述任一原语句对应的第二替换语句，并将所述任一原语句中的j个词条分别替换为同义词，以生成与所述任一原语句对应的第三替换语句，其中，所述i个词条与所述j个词条不同。

5.如权利要求1所述的方法，其中，如果所述原语句集中任一原语句的任一待替换词条包括Y个同义词，则所述将每个所述原语句包含的各个词条中的至少一个词条替换为同义词，以生成与所述多个原语句分别对应的多个替换语句，包括：

将所述任一原语句中的所述任一待替换词条分别替换为所述Y个同义词中的一个，以生成与所述任一原语句对应的Y个第四替换语句。

6.如权利要求1-5任一所述的方法，其中，所述根据每个所述原语句与对应的替换语句的差异、及所述对应的替换语句中每个分词的预测类别标签及预测替换词，确定所述初始文本处理模型的损失值，包括：

根据每个所述原语句与对应的替换语句的差异，确定所述对应的替换语句中每个分词的实际类别标签及目标替换词；

根据所述每个分词的实际类别标签与所述预测类别标签的差异，确定第一损失值；

根据所述目标替换词与所述预测替换词的差异，确定第二损失值；

根据所述第一损失值及所述第二损失值，确定所述初始文本处理模型的损失值。

7.如权利要求6所述的方法，其中，所述初始文本处理模型，包括分别与特征处理层连接的标签预测层及替换词预测层，所述根据所述损失值，对所述初始文本处理模型进行修正，包括：

根据所述第一损失值，对所述初始文本处理模型的标签预测层及所述特征处理层进行修正；

根据所述第二损失值，对所述初始文本处理模型的替换词预测层及所述特征处理层进行修正。

8.一种文本处理模型的训练装置，包括：

第一获取模块，用于获取原语句集，其中，所述原语句集中包括多个原语句；

确定模块，用于对每个所述原语句进行分词处理，以确定每个所述原语句中包含的各个词条；

替换模块，用于将每个所述原语句包含的各个词条中的至少一个词条替换为同义词，以生成与所述多个原语句分别对应的多个替换语句；以及

训练模块，用于利用所述多个原语句及对应的所述多个替换语句，对初始文本处理模型进行训练；

其中，训练模块，包括：

生成单元，用于利用所述初始文本处理模型对每个所述替换语句进行处理，以生成每个所述替换语句中每个分词的预测类别标签及预测替换词；

第三确定单元，用于根据每个所述原语句与对应的替换语句的差异、及所述对应的替换语句中每个分词的预测类别标签及预测替换词，确定所述初始文本处理模型的损失值；以及

修正单元，用于根据所述损失值，对所述初始文本处理模型进行修正。

9.如权利要求8所述的装置，其中，所述替换模块，包括：

第一获取单元，用于获取每个所述原语句中每个所述词条的词性；

第一确定单元，用于根据每个所述词条的词性确定每个所述原语句包含的多个候选词条；

第一替换单元，用于将每个所述原语句中包含的所述多个候选词条中的至少一个词条替换为同义词，以生成与所述多个原语句对应的多个替换语句。

10.如权利要求8所述的装置，其中，所述替换模块，包括：

第二确定单元，用于根据每个所述原语句包含的词条数量，确定每个所述原语句对应的待替换词条的数量N，其中，N为正整数；

第二替换单元，用于将每个所述原语句中的N个词条分别替换为对应的同义词，以生成与所述多个原语句对应的多个第一替换语句。

11.如权利要求8所述的装置，其中，所述替换模块，包括：

第二获取单元，用于获取每个所述原语句中的词条数量M，其中，M为正整数；

第三替换单元，在所述原语句集中的任一原语句包含的词条数量M大于阈值时，分别将所述任一原语句中的i个词条分别替换为同义词，以生成与所述任一原语句对应的第二替换语句，并将所述任一原语句中的j个词条分别替换为同义词，以生成与所述任一原语句对应的第三替换语句，其中，所述i个词条与所述j个词条不同。

12.如权利要求8所述的装置，其中，如果所述原语句集中任一原语句的任一待替换词条包括Y个同义词，则所述替换模块，包括：

第四替换单元，用于将所述任一原语句中的所述任一待替换词条分别替换为所述Y个同义词中的一个，以生成与所述任一原语句对应的Y个第四替换语句。

13.如权利要求8-12任一所述的装置，其中，所述第三确定单元，包括：

第一确定子单元，用于根据每个所述原语句与对应的替换语句的差异，确定所述对应的替换语句中每个分词的实际类别标签及目标替换词；

第二确定子单元，用于根据所述每个分词的实际类别标签与所述预测类别标签的差异，确定第一损失值；

第三确定子单元，用于根据所述目标替换词与所述预测替换词的差异，确定第二损失值；

第四确定子单元，用于根据所述第一损失值及所述第二损失值，确定所述初始文本处理模型的损失值。

14.如权利要求13所述的装置，其中，所述初始文本处理模型，包括分别与特征处理层连接的标签预测层及替换词预测层，所述修正单元，包括：

第一修正子单元，用于根据所述第一损失值，对所述初始文本处理模型的标签预测层及所述特征处理层进行修正；

第二修正子单元，用于根据所述第二损失值，对所述初始文本处理模型的替换词预测层及所述特征处理层进行修正。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。