CN117609781A

CN117609781A - 文本评估模型的训练方法、文本评估方法及装置

Info

Publication number: CN117609781A
Application number: CN202311552722.3A
Authority: CN
Inventors: 崔明飞; 于皓; 罗华刚; 车成富
Original assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Current assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Priority date: 2023-11-20
Filing date: 2023-11-20
Publication date: 2024-02-27
Anticipated expiration: 2043-11-20
Also published as: CN117609781B

Abstract

本发明实施例提供了一种文本评估模型的训练方法、文本评估方法及装置，涉及自然语言处理领域。该方法包括：获取多个目标数据；目标数据包括生成提示词、生成文本和参考文本；对多个目标数据进行特征提取，得到多个特征指标；基于多个目标数据中的生成文本和参考文本，生成标签集；基于多个目标数据、多个特征指标以及标签集，生成训练集；基于训练集，对预设神经网络模型进行训练，得到文本评估模型。通过本发明实施例，能够针对生成文本进行较为准确的自动化评估，进一步提升了文本评估的准确性。

Description

文本评估模型的训练方法、文本评估方法及装置

技术领域

本发明涉及自然语言处理领域，尤其涉及文本评估模型的训练方法、文本评估方法及装置。

背景技术

自然语言生成(Natural Language Generation，NLG)评估指标的重要性在自然语言处理领域日益凸显。随着技术的快速发展，自然语言生成的应用愈加广泛，其应用的领域如智能助手、自动文摘、数据报告生成等。然而，如何确保生成的文本质量和适用性是实际应用中的关键问题之一，自然语言生成的评估指标和评估方法也扮演着不可或缺的角色。评估指标能够客观、***地衡量生成文本的质量、流畅性和信息准确性等，不仅可以用于自动化测试和质量控制，还可以用于与人工评估的结果进行比较，从而提高生成文本的可靠性。

目前，NLG的评估指标大致分为四类：词汇重叠指标、Embedding-based指标、LLM评估以及其他评估指标。尽管计算词汇重叠指标，可以获取生成文本与参考文本之间的重叠比例，但是在生成文本与参考文本的重叠词汇很多但语义完全不同的情况下，通过该项指标对生成文本进行评估是十分不准确的。基于Embedding的词向量语义相似度很大程度上取决于所使用的Embeddi ng模型质量，不同的Embedding模型对相同的两句话的语义相似度计算可能会产生很大的误差。基于LLM的指标实用性也取决于LLM能力，目前阅读理解、推理能力最强的GPT-4不仅使用成本高昂，评估效果也只有人工评估的大约75％。其它指标更多地是针对特定的场景，适用范围比较有限。

发明内容

本发明实施例的目的是提供一种文本评估模型的训练方法、文本评估方法及装置，以解决相关技术中无法准确的对生成文本进行评估的问题。

为了解决上述技术问题，本发明实施例是这样实现的：

第一方面，本发明实施例提供了一种文本评估模型的训练方法，包括：

获取多个目标数据；所述目标数据包括生成提示词、生成文本和参考文本；

对所述多个目标数据进行特征提取，得到多个特征指标；

基于所述多个目标数据中的所述生成文本和所述参考文本，生成标签集；

基于所述多个目标数据、所述多个特征指标以及所述标签集，生成训练集；

基于所述训练集，对预设神经网络模型进行训练，得到文本评估模型。

可选地，上述基于所述多个目标数据中的所述生成文本和所述参考文本，生成标签集，包括：

基于所述多个目标数据中的所述生成文本和所述参考文本，针对各目标数据中的所述生成文本和所述参考文本，分别计算所述生成文本与所述参考文本之间的语义相似度；

基于所述多个目标数据的生成文本与参考文本之间的语义相似度，得到各所述生成文本在预设得分区间内各个分值的得分概率；

基于各所述生成文本在预设得分区间内取得各个分值的概率以及评估依据，生成所述标签数据集。

可选地，上述还包括：

基于所述多个目标数据、所述多个特征指标以及所述标签集，生成测试集；

将所述测试集输入到文本评估模型中，得到所述生成文本在所述预设得分区间内取得各个分值的概率；

基于所述生成文本在所述预设得分区间内取得各个分值的概率，得到所述生成文本的评估得分。

可选地，上述基于所述生成文本在所述预设得分区间内取得各个分值的概率，得到所述生成文本的评估得分，包括：

基于所述生成文本在所述预设得分区间内取得各个分值的概率，确定所述生成文本在预设得分区间内取得各个分值的概率所对应的权重；

基于所述生成文本在所述预设得分区间内取得各个分值的概率以及各个概率所对应的权重，得到所述生成文本的评估得分。

可选地，上述还包括：

将所述生成文本的评估得分与预设评估得分进行对此，判断所述生成文本的评估得分是否低于预设评估得分；

若低于，则判断所述生成文本的评估得分与预设评估得分之间的差值是否高于预设阈值；

若所述差值高于所述预设阈值，则对所述文本评估模型进行迭代训练，直至所述生成文本的评估得分与预设评估得分之间的差值低于所述预设阈值。

可选地，上述预设神经网络模型为LMM大语言模型。

第二方面，本发明实施例提供了一种文本评估方法，包括：

获取目标生成文本和对应的参考文本；

将所述目标生成文本和对应的参考文本分别输入到根据权利要求1-6任一所述的方法得到的文本评估模型中，得到所述目标生成文本在预设得分区间内取得各个分值的概率；

基于所述目标生成文本在预设得分区间内取得各个分值的概率以及各个概率所对应的权重，得到所述目标生成文本的评估得分。

第三方面，本发明实施例提供了一种文本评估模型的训练装置，包括：

第一获取模块，用于获取多个目标数据；所述目标数据包括生成提示词、生成文本和参考文本；

特征提取模块，用于对所述多个目标数据进行特征提取，得到多个特征指标；

第一生成模块，用于基于所述多个目标数据中的所述生成文本和所述参考文本，生成标签集；

第二生成模块，用于基于所述多个目标数据、所述多个特征指标以及所述标签集，生成训练集；

模型训练模块，用于基于所述训练集，对预设神经网络模型进行训练，得到文本评估模型。

可选地，上述第一生成模块，具体用于基于所述多个目标数据中的所述生成文本和所述参考文本，针对各目标数据中的所述生成文本和所述参考文本，分别计算所述生成文本与所述参考文本之间的语义相似度；

可选地，上述装置还包括：

模型测试模块，用于基于所述多个目标数据、所述多个特征指标以及所述标签集，生成测试集；

可选地，上述模型测试模块，还包括：

第一评估模块，具体用于基于所述生成文本在所述预设得分区间内取得各个分值的概率，确定所述生成文本在预设得分区间内取得各个分值的概率所对应的权重；

第一判断模块，具体用于将所述生成文本的评估得分与预设评估得分进行对此，判断所述生成文本的评估得分是否低于预设评估得分；

可选地，上述预设神经网络模型为LMM大语言模型。

第四方面，本发明实施例提供了一种文本评估装置，包括：

第二获取模块，用于获取目标生成文本和对应的参考文本；

文本评估模块，用于将所述目标生成文本和对应的参考文本分别输入到根据第一方面所述的方法得到的文本评估模型中，得到所述目标生成文本在预设得分区间内取得各个分值的概率；

评估结果生成模块，用于基于所述目标生成文本在预设得分区间内取得各个分值的概率以及各个概率所对应的权重，得到所述目标生成文本的评估得分。

第五方面，本发明实施例提供了一种电子设备，包括：包括处理器、通信接口、存储器和通信总线；其中，所述处理器、所述通信接口以及所述存储器通过总线完成相互间的通信；所述存储器，用于存放计算机程序；所述处理器，用于执行所述存储器上所存放的程序，实现如第一方面和第二方面所述的方法步骤。

本发明实施例中的文本评估模型的训练方法、文本评估方法及装置，获取多个目标数据；对多个目标数据进行特征提取，得到多个特征指标；基于多个目标数据中的生成文本和参考文本，生成标签集；基于多个目标数据、多个特征指标以及标签集，生成训练集；基于训练集，对预设神经网络模型进行训练，得到文本评估模型。将目标生成文本和对应的参考文本分别输入到根据文本评估模型的训练方法得到的文本评估模型中，得到目标生成文本在预设得分区间内取得各个分值的概率；基于目标生成文本在预设得分区间内取得各个分值的概率以及各个概率所对应的权重，得到目标生成文本的评估得分。这样能够针对生成文本进行较为准确的自动化评估，进一步提升了文本评估的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的文本评估的流程示意图；

图2为本发明实施例提供的文本评估模型的训练方法的流程图；

图3为本发明实施例提供的文本评估方法的流程图；

图4为本发明实施例提供的文本评估模型的训练装置的模块组成示意图；

图5为本发明实施例提供的文本评估装置的模块组成示意图；

图6为本发明实施例提供的电子设备的结构示意图。

具体实施方式

本发明实施例提供了一种文本评估模型的训练方法、文本评估方法及装置。

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

图1为本发明实施例提供的文本评估的流程示意图，如图1所示，本发明首先获取模型训练的数据。数据包括生成文本和参考文本以及生成文本的生成prompt，即生成提示词。然后，基于获取的数据集中的生成文本、参考文本以及生成提示词，对生成文本、参考文本以及生成提示词分别进行特征提取，得到多个特征指标，特征指标包括：ROUGE-L，ROUGE_2，BLEU-4等。并且，基于获取的多个目标数据，分别计算每一个数据中的生成文本和参考文本之间的语义相似度。然后，由技术人员基于生成文本和参考文本之间的语义相似度对生成文本进行评估。在对生成文本进行评估时，可以预先设定一个得分区间，基于每个数据中的生成文本和参考文本之间的语义相似度，评估得到各个生成文本在预设得分区间内取得每个分值的概率。同时，由技术人员对目标数据中的生成文本进行评估时，还需要引入评估的依据、解释，对生成文本在预设得分区间内取得每个分值的概率做出合理的解释。得到的标签集中包括预设的得分区间、生成文本在预设得分区间内取得每个分值的概率以及技术人员对生成文本和参考文本进行评估时的评估依据、解释。此时，可以基于多个目标数据、多个目标数据的多个特征指标以及标签集构造模型训练的训练集，利用训练集对LLM大语言模型进行训练。

在对LLM大语言模型训练之后，还需要基于多个目标数据、多个目标数据的多个特征指标以及标签集，构造测试集，基于构造的训测试集对训练后的LLM大语言模型进行测试，以此来判断训练后的模型的输出结果是否与标签集中的人工评估结果接近。

将根据训练后的LLM大语言模型输出的生成文本在预设得分区间内取得各个分值的概率得到的评估得分和由技术人员对生成文本评估得到的评估得分进行对比，判断根据训练后的LLM大语言模型输出的生成文本在预设得分区间内取得各个分值的概率得到的评估得分是否低于由技术人员对生成文本评估得到的评估得分。如果低于，还需要判断二者之间的差值是否高于预设阈值。如果二者之间的差值高于预设阈值，说明训练后的LLM大语言模型的文本评估的准确度较低，需要对模型进行进一步的迭代训练。

通过不断的对LLM大语言模型进行测试、训练以及将评估结果与人工评估结果进行对比，使得模型输出的评估结果逐渐接近人工评估结果，不断提高LLM大语言模型的评估准确度，以生成最终的文本评估模型。

图2为本发明实施例提供的文本评估模型的训练方法的流程图，如图2所示，本发明实施例提供了一种文本评估模型的训练方法，该方法的执行主体可以为服务器，其中，该服务器可以是独立的服务器，也可以是由多个服务器组成的服务器集群，而且，该服务器可以是能够进行网络操作处理的服务器。该方法通过对LLM大语言模型进行训练，使得可以对生成文本进行自动评估，并在一定程度上提高了文本的评估的准确率。该方法具体可以包括以下步骤：

在S201中，获取多个目标数据；目标数据包括生成提示词、生成文本和参考文本。

具体的，在对预设神经网络模型进行训练时，首先，需要获取模型训练的数据集。本申请中的文本评估模型用于对生成文本进行评估，因此，数据集中的数据包括生成文本和参考文本以及生成文本的生成prompt，即生成提示词。然后，就可以基于获取的数据集中的生成文本、参考文本以及生成提示词，构造模型训练的训练集和测试集，基于构造的训练集和测试集对预设神经网络模型进行训练，以此得到最终的文本评估模型。

需要说明的是，生成文本可以是利用预先训练的文本生成模型得到的，还可以是通过其他方式得到的，本申请在此不作限制。

在S202中，对多个目标数据进行特征提取，得到多个特征指标。

具体的，目标数据中的生成文本、参考文本以及生成提示词，都是以文字的形式的存在，并不能直接作为神经网络模型模型的输入，此时，需要分别对目标数据中的生成文本、参考文本以及生成提示词进行特征提取，得到对应的特征指标。通过对目标数据中的生成文本、参考文本以及生成提示词进行特征提取，得到多个特征指标，得到的特征指标包括ROUGE-L，ROUGE_2，BLE U-4等。

在S203中，基于多个目标数据中的生成文本和参考文本，生成标签集。

为了提高神经网络模型对文本评估的准确度，需要构造模型训练的标签集。该标签集是基于生成文本和参考文本的人工评估结果，可以理解的，人工评估可以得到非常准确的评估结果，利用人工评估结果作为标签集，可以更好的提高文本评估模型的评估准确度。

在一些实施方式中，基于多个目标数据中的生成文本和参考文本，生成标签集，包括：基于多个目标数据中的生成文本和参考文本，针对各目标数据中的生成文本和参考文本，分别计算生成文本与参考文本之间的语义相似度；基于多个目标数据的生成文本与参考文本之间的语义相似度，得到各生成文本在预设得分区间内各个分值的得分概率；基于各生成文本在预设得分区间内取得各个分值的概率以及评估依据，生成标签集。

具体的，首先，基于获取的多个目标数据，分别计算每一个数据中的生成文本和参考文本之间的语义相似度。在计算生成文本与参考文本之间的语义相似度时，可以利用OpenAI-Embedding和余弦距离来进行计算。OpenAI的Em beddings接口主要用于将自然语言文本转换为向量表示，以便计算机可以对文本进行处理和分析。在机器学习领域中，通常将特征表示为向量的形式，所以在分析两个特征向量之间的相似性时，常用余弦相似度表示。例如将两个文本向量化，余弦距离可以避免因为文本的长度不同而导致距离偏大，余弦距离只考虑两个文本生成的向量的夹角。

然后，由技术人员基于生成文本和参考文本之间的语义相似度对生成文本进行评估。在对生成文本进行评估时，可以预先设定一个得分区间，基于每个数据中的生成文本和参考文本之间的语义相似度，评估得到各个生成文本在预设得分区间内取得每个分值的概率。预设的得分区间例如为[0-10]分，评估得到的生成文本在预设得分区间内取得每个分值的概率例如为：[0:0％，1:0％，2:0％，3:10％，4:15％，5:40％，6:60％，7:80％，8:75％，9:30％，10:10％]。同时，在人为地对目标数据中的生成文本进行评估时，还需要引入评估的依据、解释，即为是根据怎样的标准获取到生成文本在预设得分区间内取得每个分值的概率的，对生成文本在预设得分区间内取得每个分值的概率做出合理的解释。

此时，基于目标数据中的生成文本和参考文本得到的标签集中包括预设的得分区间、生成文本在预设得分区间内取得每个分值的概率以及技术人员对生成文本和参考文本进行评估时的评估依据、解释。

在S204中，基于多个目标数据、多个特征指标以及标签集，生成训练集。

在得到多个目标数据、多个目标数据的多个特征指标以及标签集后，就可以构造训练集。在训练集中，多个目标数据以及多个目标数据的多个特征指标作为样本集，上述步骤S203中得到的标签集作为训练集中的标签集。其中，训练集形式如下例所示：

在一些实施方式中，预设神经网络模型为LLM大语言模型。

可知的是，LLM大语言模型算法的核心思想是利用预训练的语言模型，结合特定的任务和数据集，进行微调，以用于实现特定任务。

在得到训练集后，可以基于该训练集对LLM大语言模型进行训练，即模型微调，使得微调后的LLM大语言模型可以应用于文本评估的任务。

在S205中，基于训练集，对预设神经网络模型进行训练，得到文本评估模型。

基于在步骤S204中得到的训练集，将训练集中的多个目标数据、多个特征指标以及标签集输入到LLM大语言模型中，对LLM大语言模型进行训练，得到文本评估模型。

在对LLM大语言模型进行训练得到文本评估模型后，还需要对文本评估模型进行测试，以判断训练后得到的文本评估模型是否能准确的对生成文本进行评估。

在一些实施方式中，还包括：基于多个目标数据、多个特征指标以及标签集，生成测试集；将测试集输入到文本评估模型中，得到生成文本在预设得分区间内取得各个分值的概率；基于生成文本在预设得分区间内取得各个分值的概率，得到生成文本的评估得分。

具体的，在对LLM大语言模型进行训练之后，还需要对训练后的LLM大语言模型进行测试。在进行模型测试之前，还需要先构造测试集，然后，基于测试集对训练后的LLM模型进行测试。模型测试所需的测试集与模型训练所需的训练集是同样的数据组成，包括多个目标数据、多个目标数据的多个特征指标以及标签集。在构造得到测试集之后，将该测试集输入到训练后的LLM大语言模型中，此时，训练后的LLM大语言模型会输出生成文本在预设得分区间内取得各个分值的概率。此时，仅仅得到生成文本在预设得分区间内取得各个分值的概率并不能对生成文本进行评估，还需要根据所得的分数，确定出一个确切的分值以对生成文本进行准确的评估。

在一些实施方式中，基于生成文本在预设得分区间内取得各个分值的概率，得到生成文本的评估得分，包括：基于生成文本在预设得分区间内取得各个分值的概率，确定生成文本在预设得分区间内取得各个分值的概率所对应的权重；基于生成文本在预设得分区间内取得各个分值的概率以及各个概率所对应的权重，得到生成文本的评估得分。

可以理解的，目前LLM大语言模型精确度有限，对相邻分数的区分比较模糊，哪怕设定小数也效果不佳，而评估指标又需要一个确切的、可量化的分值，因此，可以采用概率权重加权来获得最终的评估得分。

具体的，在训练后的LLM模型输出生成文本在预设得分区间内取得各个分值的概率后，此时，可以确定出各个概率所对应的权重值，采用概率权重加权获得生成文本的最终的评估得分。评估得分计算公式为：

其中，s_i为生成文本在预设得分区间内取得第i个分值的概率，p_i为生成文本在预设得分区间内取得第i个分值的概率所对应的权重。通过上述计算，得到该生成文本的最终的评估得分。

在得到该生成的最终的评估得分之后，还需要将该评估得分与由技术人员对生成文本进行评估得到的评估结果进行比对，以此来判断训练后的LLM模型的评估准确度。

在一些实施方式中，还包括：将生成文本的评估得分与预设评估得分进行对此，判断生成文本的评估得分是否低于预设评估得分；若低于，则判断生成文本的评估得分与预设评估得分之间的差值是否高于预设阈值；若差值高于预设阈值，则对文本评估模型进行迭代训练，直至生成文本的评估得分与预设评估得分之间的差值低于预设阈值。

具体的，将根据训练后的LLM大语言模型输出的生成文本在预设得分区间内取得各个分值的概率得到的评估得分和由技术人员对生成文本评估得到的评估得分进行对比，判断根据训练后的LLM大语言模型输出的生成文本在预设得分区间内取得各个分值的概率得到的评估得分是否低于由技术人员对生成文本评估得到的评估得分，由技术人员对文本进行评估得到的文本评估得分采用相同的概率加权计算方式。如果低于，还需要判断二者之间的差值是否高于预设阈值。如果二者之间的差值高于预设阈值，说明训练后的LLM大语言模型的文本评估的准确度较低，此时，还需要对模型进行进一步的迭代训练。

由以上本发明实施例提供的技术方案可见，本发明实施例通过获取多个目标数据；对多个目标数据进行特征提取，得到多个特征指标；基于多个目标数据中的生成文本和参考文本，生成标签集；基于多个目标数据、多个特征指标以及标签集，生成训练集；基于训练集，对预设神经网络模型进行训练，得到文本评估模型。这样能够针对生成文本进行较为准确的自动化评估，进一步提升了文本评估的准确性。

图3为本发明实施例提供的文本评估方法的流程图，如图3所示，本发明实施例提供了一种文本评估方法，该方法具体可以包括以下步骤：

在S301中，获取目标生成文本和对应的参考文本。

具体的，通过对LLM大语言模型进行训练，得到文本评估模型，使其可以应用于文本评估任务。此时，可以获取生成文本和对应的参考文本，将生成文本和参考文本作为文本评估模型的输入，利用文本评估模型来对生成文本进行评估。

在S302中，将目标生成文本和对应的参考文本分别输入到根据上述步骤S201-步骤S205得到的文本评估模型中，得到目标生成文本在预设得分区间内取得各个分值的概率。

具体的，将获取的生成文本和生成文本对应的参考文本输入到文本评估模型中，得到文本评估模型输出的生成文本在预设得分区间内取得各个分值的概率。

在S303中，基于目标生成文本在预设得分区间内取得各个分值的概率以及各个概率所对应的权重，得到目标生成文本的评估得分。

文本评估模型输出生成文本在预设得分区间内取得各个分值的概率，此时，确定出每个概率所对应的权重值，根据生成文本在预设得分区间内取得各个分值的概率以及各个概率所对应的权重值，得到生成文本的最终的评估得分。

具体实现方法可参考上述步骤S205，在此不作赘述。

通过将生成文本和参考文本输入到文本评估模型中，利用文本评估模型对生成文本进行评估，实现了生成文本的自动化评估，节省了大量的人力物力。

对应上述实施例提供的文本评估模型的训练方法，基于相同的技术构思，本发明实施例还提供了一种文本评估模型的训练装置，图4为本发明实施例提供的文本评估模型的训练装置的模块组成示意图，该文本评估模型的训练装置用于执行图2描述的文本评估模型的训练方法，如图4所示，该文本评估模型的训练装置包括：

第一获取模块401，用于获取多个目标数据；目标数据包括生成提示词、生成文本和参考文本；

特征提取模块402，用于对多个目标数据进行特征提取，得到多个特征指标；

第一生成模块403，用于基于多个目标数据中的生成文本和参考文本，生成标签集；

第二生成模块404，用于基于多个目标数据、多个特征指标以及标签集，生成训练集；

模型训练模块405，用于基于训练集，对预设神经网络模型进行训练，得到文本评估模型。

可选地，上述第一生成模块403，具体用于基于多个目标数据中的生成文本和参考文本，针对各目标数据中的生成文本和参考文本，分别计算生成文本与参考文本之间的语义相似度；

基于多个目标数据的生成文本与参考文本之间的语义相似度，得到各生成文本在预设得分区间内各个分值的得分概率；

基于各生成文本在预设得分区间内取得各个分值的概率以及评估依据，生成标签数据集。

可选地，上述装置还包括：

可选地，上述模型测试模块，还包括：

可选地，上述预设神经网络模型为LMM大语言模型。

由以上本发明实施例提供的技术方案可见，本发明实施例通过获取多个目标数据；对多个目标数据进行特征提取，得到多个特征指标；基于多个目标数据中的生成文本和参考文本，生成标签集；基于多个目标数据、多个特征指标以及标签集，生成训练集；基于训练集，对预设神经网络模型进行训练，得到文本评估模型。将目标生成文本和对应的参考文本分别输入到根据文本评估模型的训练方法得到的文本评估模型中，得到目标生成文本在预设得分区间内取得各个分值的概率；基于目标生成文本在预设得分区间内取得各个分值的概率以及各个概率所对应的权重，得到目标生成文本的评估得分。这样能够针对生成文本进行较为准确的自动化评估，进一步提升了文本评估的准确性。

本发明实施例提供的文本评估模型的训练装置能够实现上述文本评估模型的训练方法对应的实施例中的各个过程，为避免重复，这里不再赘述。

需要说明的是，本发明实施例提供的文本评估模型的训练装置与本发明实施例提供的文本评估模型的训练方法基于同一发明构思，因此该实施例的具体实施可以参见前述文本评估模型的训练方法的实施，重复之处不再赘述。

对应上述实施例提供的文本评估的方法，基于相同的技术构思，本发明实施例还提供了一种文本评估的装置，图5为本发明实施例提供的文本评估装置的模块组成示意图，该文本评估的装置用于执行图3描述的文本评估的方法，如图5所示，该文本评估的装置包括：

第二获取模块501，用于获取目标生成文本和对应的参考文本；

文本评估模块502，用于将目标生成文本和对应的参考文本分别输入到根据文本评估模型的训练方法得到的文本评估模型中，得到目标生成文本在预设得分区间内取得各个分值的概率；

评估结果生成模块503，用于基于目标生成文本在预设得分区间内取得各个分值的概率以及各个概率所对应的权重，得到目标生成文本的评估得分。

本发明实施例提供的文本评估装置能够实现上述文本评估方法对应的实施例中的各个过程，为避免重复，这里不再赘述。

需要说明的是，本发明实施例提供的文本评估装置与本发明实施例提供的文本评估方法基于同一发明构思，因此该实施例的具体实施可以参见前述文本评估方法的实施，重复之处不再赘述。

对应上述实施例提供的文本评估模型的训练方法和文本评估方法，基于相同的技术构思，本发明实施例还提供了一种电子设备，该设备用于执行上述的文本评估模型的训练方法和文本评估方法，图6为实现本发明各个实施例的一种电子设备的结构示意图，如图6所示，电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器601和存储器602，存储器602中可以存储有一个或一个以上存储应用程序或数据。其中，存储器602可以是短暂存储或持久存储。存储在存储器602的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括对电子设备中的一系列计算机可执行指令。更进一步地，处理器601可以设置为与存储器602通信，在电子设备上执行存储器602中的一系列计算机可执行指令。电子设备还可以包括一个或一个以上电源603，一个或一个以上有线或无线网络接口604，一个或一个以上输入输出接口605，一个或一个以上键盘606。

具体在本实施例中，电子设备包括有处理器、通信接口、存储器和通信总线；其中，所述处理器、所述通信接口以及所述存储器通过总线完成相互间的通信；所述存储器，用于存放计算机程序；所述处理器，用于执行所述存储器上所存放的程序，实现以下方法步骤：

获取多个目标数据；

对多个目标数据进行特征提取，得到多个特征指标；

基于多个目标数据中的生成文本和参考文本，生成标签集；

基于多个目标数据、多个特征指标以及标签集，生成训练集；

基于训练集，对预设神经网络模型进行训练，得到文本评估模型。

还用于实现以下方法步骤：

获取目标生成文本和对应的参考文本；

将目标生成文本和对应的参考文本分别输入到根据文本评估模型的训练方法得到的文本评估模型中，得到目标生成文本在预设得分区间内取得各个分值的概率；

基于目标生成文本在预设得分区间内取得各个分值的概率以及各个概率所对应的权重，得到目标生成文本的评估得分。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，电子设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、装置或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种文本评估模型的训练方法，其特征在于，所述方法包括：

对所述多个目标数据进行特征提取，得到多个特征指标；

2.根据权利要求1所述的方法，其特征在于，所述基于所述多个目标数据中的所述生成文本和所述参考文本，生成标签集，包括：

基于各所述生成文本在预设得分区间内取得各个分值的概率以及评估依据，生成所述标签集。

3.根据权利要求1所述的方法，其特征在于，还包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述生成文本在所述预设得分区间内取得各个分值的概率，得到所述生成文本的评估得分，包括：

5.根据权利要求3所述的方法，其特征在于，还包括：

6.根据权利要求1所述的方法，其特征在于，

所述预设神经网络模型为LMM大语言模型。

7.一种文本评估方法，其特征在于，所述方法包括：

获取目标生成文本和对应的参考文本；

8.一种文本评估模型的训练装置，其特征在于，所述装置包括：

9.一种文本评估装置，其特征在于，所述装置包括：

第二获取模块，用于获取目标生成文本和对应的参考文本；

文本评估模块，用于将所述目标生成文本和对应的参考文本分别输入到根据权利要求1-6任一所述的方法得到的文本评估模型中，得到所述目标生成文本在预设得分区间内取得各个分值的概率；

10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线；其中，所述处理器、所述通信接口以及所述存储器通过总线完成相互间的通信；所述存储器，用于存放计算机程序；所述处理器，用于执行所述存储器上所存放的程序，实现如权利要求1-7任一项所述的方法步骤。