CN116776868A

CN116776868A - 一种模型生成文本的评估方法及计算机设备

Info

Publication number: CN116776868A
Application number: CN202311075044.6A
Authority: CN
Inventors: 冯好国; 徐青伟; 严长春; 裴非; 范娥媚
Original assignee: Zhiguagua Tianjin Big Data Technology Co ltd; Beijing Zhiguagua Technology Co ltd
Current assignee: Beijing Xinghe Zhiyuan Technology Co ltd; Zhiguagua Tianjin Big Data Technology Co ltd
Priority date: 2023-08-25
Filing date: 2023-08-25
Publication date: 2023-09-19
Anticipated expiration: 2043-08-25
Also published as: CN116776868B

Abstract

本申请公开了一种模型生成文本的评估方法及计算机设备，不依赖于标签，适用于生产环境。该评估方法分别通过基因、可读性和指纹三个指标分别评估后，再进行综合评估；其中，基因指标用于衡量模型生成文本与输入文本的语义相关性和同源情况，可读性指标用于从标点切分出的句子长度均值和文本重复退化情况来衡量模型生成文本能被人读懂的程度，指纹指标用于衡量模型生成文本与训练集标签的语义特征分布一致程度；具体预先基于三元孪生网络训练指纹提取网络模型，同时生成指纹库，然后通过将模型生成文本输入所述指纹提取网络模型得到指纹，再与所述指纹库进行距离度量，确定指纹指标的值。

Description

一种模型生成文本的评估方法及计算机设备

技术领域

本申请属于文献数据深加工技术领域，特别是涉及一种模型生成文本的评估方法及计算机设备。

背景技术

专利深加工是针对专利文献特点利用文本生成技术获取高附加值的专利改写技术。目前，专利深加工主要包括名称深加工、摘要深加工、关键词标引、IPC分类等，专利摘要深加工即专利摘要改写，将长文本输入训练好的模型，生成摘要文本（模型生成文本）。因此，有必要执行合适的评估，为模型生成文本提供一个客观、统一、量化的衡量标准。

早期的模型生成文本评估采用信息检索的指标，如召回率、精度和F值，将模型生成文本与人工撰写的文本进行比较，并测量它们之间的共同内容。这种传统的评估方法存在的主要问题是，将模型生成文本与单个人工编写的文本进行比较过于主观。

目前，开发摘要***所依赖的标准度量通常是ROUGE和BLEU。BLEU（英文全称：bilingual evaluation understudy，中文术语：双语评估候补）主要任务是将模型译文的n元语法单元与参考译文（即人工撰写译文）的n元语法单元进行比较，并计算匹配的次数，这些匹配是位置无关的，匹配越多，模型译文越好。ROUGE（英文全称：Recall-OrientedUnderstudy for Gisting Evaluation，中文术语：面向召回的突出重点的评估替补）将模型生成文本与标签，即人工撰写文本，进行比较,计算模型生成的要评估的文本和人类撰写的理想文本之间重叠单元的数量，如n-gram、单词序列和单词对。

Giannakopoulos等人提出的AutoSummENG，基于n-grams图，并考虑了在一个窗口内单词n元语法或字符n元语法的共现性。在AutoSummENG方法中，总是将一个词的所有不同形式转换为它的词元。

ROUGE和BLEU，尽管它们在整体***排名中很有效，但本质上仍然是词汇性的，并且依赖于标签，不适用于缺少标签的生产环境。AutoSummENG基于n-grams图，并考虑了在一个窗口内单词n元语法或字符n元语法的共现性，与ROUGE相比，与人类判断的相关性更高。

发明内容

基于此，针对上述技术问题，提供一种新的模型生成文本的评估方法及计算机设备，可以不依赖于标签，适用于生产环境。

本申请提供的一种模型生成文本的评估方法，包括：

对于待评估的模型生成文本，分别计算其基因指标、可读性指标以及指纹指标；

所述基因指标用于衡量模型生成文本与输入文本的语义相关性和同源情况，包括文本长度、相关度和互信息等三个因素；其中，相关度基于词频和皮尔逊相关系数设计实现，互信息表征模型生成文本与输入文本之间的依赖程度；

所述可读性指标用于从标点切分出的句子长度均值和文本重复退化情况来衡量模型生成文本能被人读懂的程度；

所述指纹指标用于衡量模型生成文本与训练集标签的语义特征分布一致程度；具体预先基于三元孪生网络训练指纹提取网络模型，同时生成指纹库，然后通过将模型生成文本输入所述指纹提取网络模型得到指纹，再与所述指纹库进行距离度量，确定指纹指标的值；

基于计算得到的基因指标、可读性指标和指纹指标的值，进行综合评估，得到最终的评估结果。

可选地，所述基因指标的公式如下：

式中：V_gene表示基因指标值；len_candidate表示模型生成文本的字符个数；corr表示模型生成文本与输入文本的相关度；mi表示模型生成文本与输入文本的互信息。

可选地，所述可读性指标的公式如下：

式中：V_read为可读性指标的值；Total_sent表示模型生成文本的句子数，句子指利用标点分割获取的字符串；Total_char表示模型生成文本的字符数，标点除外；Total_dup表示出现重复的次数；len_generate表示文本的长度。

可选地，所述基于三元孪生网络训练指纹提取网络模型，同时生成指纹库，具体包括：

首先，对数据集进行预处理，构建原始标签、副本标签和无关标签三个数据集；

其次，构建三个共享权重参数的网络，分别输入所述原始标签、副本标签和无关标签三个数据集；

再次，根据三元组损失和分类损失更新网络参数，并获得训练集标签指纹库。

进一步地，三元组损失函数L_tr为：

式中：N表示三元文本组的总数；max( , )表示取大值；D( , )表示计算欧几里得距离；x_f、和/>分别表示/>、/>和/>经过网络映射得到的特征；margin表示三元组损失函数的间隔，用于控制正负样本的距离。

进一步地，所述分类损失采用交叉熵损失函数L_ce表示，具体为：

式中：N表示三元文本组的总数；M表示标签类别总数，取值2；p表示真实分类概率；q表示预测分类概率，x_ij表示第i个三元文本组中的原始文本x属于（适用于真实分类概率p计算的表述）或预测（适用于预测分类q的表述）为标签j类别的概率。

进一步地，将三元组损失和交叉熵损失结合，优化后的指纹提取网络模型损失函数L为：

式中：表示可变权重参数；L_tr表示三元组损失函数；L_ce表示交叉熵损失函数。

可选地，所述距离度量采用汉明距离H，定义如下：

式中：L表示指纹长度；b_q表示待评估文本的指纹；B表示训练集标签指纹库；n表示指纹的第几位；表示异或运算；

基于最小汉明距离确定指纹指标函数V_fingerprint，定义如下：

。

可选地，所述进行综合评估，得到最终的评估结果，是选择以下综合评估方法之一执行：

第一种综合评估方法定义公式如下：

式中：V_eval表示文本评估值；V_gene为基因指标的值，V_read为可读性指标的值，V_fingerprint为指纹指标的值；n等于根号内因子个数；

第二种综合评估方法定义公式如下：

式中：W_gene表示基因指标的权重，V_gene表示基因指标的值；W_read表示可读性指标的权重，V_read表示可读性指标的值；W_fingerprint表示指纹指标的权重，V_fingerprint表示指纹指标的值，且满足：；

若基因指标、可读性指标和指纹指标不需要通过分别设置权重或无法计算权重，则选用第一种综合评估方法；若需要分别设置权重或可以给出权重，则选用第二种综合评估方法。

本申请提供的一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特殊之处在于，所述处理器执行所述计算机程序时实现上述模型生成文本的评估方法的步骤。

本申请至少具有以下有益效果：

本申请提出的模型生成文本的评估方法，不依赖于标签，适用于生产环境，从与原始专利文献的同源相关程度、被人读懂程度和训练集标签的语义特征分布一致性等三个方面分别通过基因、可读性和指纹等三个指标分别评估后再进行灵活可选的综合评估。

基因指标中的相关度基于词频和皮尔逊相关系数设计实现，权重设计实现简单，排序快，可利用返回P值结合设定显著水平进行检验，得到统计理论支持。基因指标中的互信息体现了模型生成文本与输入文本之间的依赖程度，如果互信息远大于0，表明模型生成文本与输入文本高度相关；如果互信息等于0，表明模型生成文本与输入文本相互独立。

可读性指标用于衡量模型生成文本能被人读懂的程度，从标点切分出的句子长度均值和文本重复退化情况两方面定义，设计实现简单。

指纹指标基于三元孪生网络训练指纹提取网络模型，同时生成指纹库。模型生成文本输入指纹提取网络模型得到指纹，然后计算指纹与指纹库中指纹最近汉明距离，再计算指纹指标值，衡量模型生成文本与训练集标签的语义特征分布一致性。

附图说明

图1为本申请一个实施例提供的一种模型生成文本的评估方法原理示意图；

图2为本申请一个实施例中三元孪生网络文本指纹提取框图；

图3为本申请一个实施例中三元组网络结构示意图；

图4为本申请一个实施例中综合评估的三个视角。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种模型生成文本的评估方法，包括：对于待评估的模型生成文本，分别计算其基因指标、可读性指标以及指纹指标；基于计算得到的基因指标、可读性指标和指纹指标的值，进行综合评估，得到最终的评估结果。

1）基因指标

基因指标用于衡量模型生成文本与输入文本的语义相关性和同源情况，包括文本长度、相关度和互信息等三个因素。所述文本长度指生成文本字符个数；所述相关度指模型生成文本与输入文本的相关程度，基于词频和皮尔逊相关系数设计相关度corr的计算公式：

（1）

式中：n表示输入文本和所有生成文本分词后构建的词典的大小，即词汇数；x表示输入文本的词频列表，以词典顺序；y表示待计算相关度的生成文本的词频列表，以词典顺序。考虑到性能提升，给出以下等效且性能较优的相关度计算公式：

（2）

式中：x表示输入文本的词频列表，以词典顺序；m_x表示输入文本的词频均值；y表示待计算相关度的模型生成文本的词频列表，以词典顺序；m_y表示待计算相关度的模型生成文本的词频均值。scipy.stats.pearsonr包基于公式（2）实现，且返回用于检验的P值，所以本申请直接调用scipy.stats.pearsonr计算相关度。

所述互信息指模型生成文本与输入文本的平均互信息，即在模型生成文本与输入文本的联合概率空间中的统计平均值。平均互信息具有非负性、互易性（对称性）、极值性等性质。非负性说明给定生成文本后，一般来说总能消除一部分关于输入文本的不确定性。互易性（对称性）表示从模型生成文本中获得关于输入文本的信息量等于从输入文本中获得关于模型生成文本的信息量。极值性说明从一个事件获得的关于另一个事件的信息量至多只能是另一个事件的平均自信息量，不会超过另一事件本身所含的信息量。本申请计算互信息体现了模型生成文本与输入文本之间的依赖程度，如果互信息远大于0，表明模型生成文本与输入文本高度相关；如果互信息等于0，表明模型生成文本与输入文本相互独立。本申请所述互信息的计算公式定义为：

（3）

式中：mi表示模型生成文本与输入文本的互信息；表示取括号内逗号间隔的多个值中最大值，确保计算结果非负值；x表示输入文本词列表；y表示模型生成文本词列表；/>：表示输入文本与模型生成文本的联合概率分布；p(x)：表示输入文本的概率分布；p(y)：表示模型生成文本的概率分布。

计算输入文本的概率分布时用到的平滑值计算公式：

（4）

式中：：表示输入文本词频累加和；/>：表示模型生成文本中出现但未在输入文本中出现的词汇数。

计算生成文本的概率分布时用到的平滑值计算公式：

（5）

式中：：表示模型生成文本词频累加和；/>：表示输入文本中出现但未在模型生成文本中出现的词汇数。

基于所述长度、相关度、互信息等因素设计基因指标，定义公式如下：

（6）

式中：V_gene表示基因指标值，越大越好；len_candidate表示模型生成文本的字符个数；corr表示模型生成文本与输入文本的相关度，参见公式（1）（2）；mi表示模型生成文本与输入文本的互信息，参见公式（3）。

2）可读性指标

可读性指标用于衡量模型生成文本能被人读懂的程度，从标点切分出的句子长度均值和文本重复退化情况两方面定义可读性指标V_read如下：

（7）

式中：Total_sent表示模型生成文本的句子数，所述句子指利用标点分割获取的字符串；Total_char表示模型生成文本的字符数，标点除外；Total_dup表示出现重复的次数，建议取值不小于3；len_generate表示文本的长度。式中建模文本标点分割的句子的长度对可读性的影响，越长可读性越差；/>建模重复次数对可读性影响，重复次数越多可读性越差；/>建模重复字符串平均长度对可读性影响，重复字符串平均长度越短可读性越差；/>建模的就是文本重复退化现象对可读性的影响。

3）指纹指标

所述指纹指标用于衡量模型生成文本与训练集标签的语义特征分布一致程度。在三元组孪生网络训练阶段，首先，对数据集进行预处理，构建原始标签、副本标签和无关标签3个数据集；其次，构建3个共享权重参数的网络，分别输入原始标签、副本标签和无关标签3个数据集；再次，根据三元组损失和分类损失更新网络参数，并获得训练集标签指纹库。在模型应用阶段，通过应用训练好的指纹提取网络获得待评估文本的指纹，计算其与训练集标签指纹库中指纹的汉明距离，根据最小汉明距离计算指纹指标值。三元组孪生网络文本指纹提取框架如图2所示。

（1）卷积核

由于文本字符序列是一维，字符向量化表示后，文本转换为二维数值矩阵。卷积核尺寸dim×win，dim表示字符向量维度大小，win表示窗口大小。

（2）三元组网络结构

三元组网络以一组三元样本作为输入，可以同时学习原始样本与正负样本的距离关系，并利用三元组损失函数约束它们之间的距离，使得原始文本与它的副本文本的特征更接近，并拉大与其他无关文本的特征距离。因此，采用共享权重参数的三元组网络构建整体框架，如图3所示，三个分支的网络权重参数W共享，输入分别为原始文本x，副本文本x⁺，无关文本x⁻，通过网络提取文本特征，其中的副本文本x⁺是通过对原始文本x进行同义词替换得到，采用三元组损失函数度量特征距离，对网络参数进行优化。三元组损失函数L_tr表示为：

（8）

通过最小化三元组损失使得原始文本与副本文本的特征距离变小，原始文本与无关文本的特征距离变大。为了增强指纹对样本特征整体分布信息的敏感程度，增强指纹的独特性，本申请采用交叉熵损失函数作为分类损失补充，交叉熵损失函数L_ce定义如下：

（9）

式中：N表示三元文本组的总数；M表示标签类别总数，由于此处分类用于判别是否为原始文本或副本文本的同类，故M取值2；p表示真实分类概率；q表示预测分类概率，x_ij表示第i个三元文本组中的原始文本x属于（适用于真实分类概率p计算的表述）或预测（适用于预测分类q的表述）为标签j类别的概率。

将三元组损失和交叉熵损失结合，优化网络模型损失函数L，定义如下：

（10）

（3）训练阶段

使用共享权重参数的三元组孪生网络训练，主干网络包含5个2D卷积层、1个池化层和2个全连接层。最后一个全连接层的激活函数设为双曲正切函数tanh，其余全连接层激活函数设为修正线性单元ReLU，激活函数tanh使每个输入在经过整个网络结构后对应的输出处于连续的实数值。通过哈希函数量化为0或1，减少文本指纹占用的存储空间，提供汉明距离的计算效率。模型训练与指纹提取可形式化表示为：

（11）

式中：给定一个文本xⁱ，令为经过2D网络后学习合适的参数w，再通过函数sign将特征量化为二值文本指纹bⁱ，指纹长度设为16~80bits，本申请取64bits。

（4）应用阶段

将训练好的一个分支的2D模型作为指纹提取网络，首先，对所有训练集标签提取指纹得到指纹库；然后，对每一个待评估文本经训练好的指纹提取网络提取指纹；接下来，与指纹库进行距离度量和指纹指标值计算。指纹度量使用汉明距离H，定义如下：

（12）

基于最小汉明距离设计指纹指标V_fingerprint，定义如下：

（13）

基于基因指标、可读性指标和指纹指标进行综合评估，体现了如图4所示的三个评估视角。本实施例给出两种综合评估方法：

第一种综合评估方法定义公式如下：

（14）

式中：V_eval表示文本评估值；V_gene为基因指标的值，V_read为可读性指标的值，V_fingerprint为指纹指标的值；n表示开n次方，等于根号内因子个数。

第二种综合评估方法定义公式如下：

（15）

式中：W_gene表示基因指标的权重，V_gene表示基因指标的值；W_read表示可读性指标的权重，V_read表示可读性指标的值；W_fingerprint表示指纹指标的权重，V_fingerprint表示指纹指标的值，且满足：。

如果基因指标、可读性指标和指纹指标不需要通过分别设置权重或无法计算权重，建议选用第一种评估方法；如果需要分别设置权重或可以给出权重，则建议选用第二种评估方法。

在一个实施例中，还提供了一种计算机设备，该计算机设备可以是服务器，也可以是客户端设备，通过运行程序实现上述实施例方法中的全部或部分流程。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种模型生成文本的评估方法，其特征在于，包括：

2.根据权利要求1所述的模型生成文本的评估方法，其特征在于，所述基因指标的公式如下：

;

3.根据权利要求1所述的模型生成文本的评估方法，其特征在于，所述可读性指标的公式如下：

;

4.根据权利要求1所述的模型生成文本的评估方法，其特征在于，所述基于三元孪生网络训练指纹提取网络模型，同时生成指纹库，具体包括：

5.根据权利要求4所述的模型生成文本的评估方法，其特征在于，三元组损失函数L_tr为：

;

6.根据权利要求5所述的模型生成文本的评估方法，其特征在于，所述分类损失采用交叉熵损失函数L_ce表示，具体为：

;

式中：N表示三元文本组的总数；M表示标签类别总数，取值2；p表示真实分类概率；q表示预测分类概率，x_ij表示第i个三元文本组中的原始文本x属于或预测为标签j类别的概率。

7.根据权利要求6所述的模型生成文本的评估方法，其特征在于，将三元组损失和交叉熵损失结合，优化后的指纹提取网络模型损失函数L为：

;

8.根据权利要求4所述的模型生成文本的评估方法，其特征在于，所述距离度量采用汉明距离H，定义如下：

;

基于最小汉明距离确定指纹指标函数V_fingerprint，定义如下：

。

9.根据权利要求1所述的模型生成文本的评估方法，其特征在于，所述进行综合评估，得到最终的评估结果，是选择以下综合评估方法之一执行：

第一种综合评估方法定义公式如下：

;

第二种综合评估方法定义公式如下：

;

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。