CN117494727B

CN117494727B - 用于大语言模型的去偏倚方法

Info

Publication number: CN117494727B
Application number: CN202311854611.8A
Authority: CN
Inventors: 赵策; 王亚; 屠静; 苏岳; 万晶晶; 李伟伟; 颉彬; 周勤民; 张玥; 雷媛媛; 孙岩; 潘亮亮; 刘岩
Original assignee: Zhuoshi Future Beijing technology Co ltd
Current assignee: Zhuoshi Future Beijing technology Co ltd
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-03-29
Anticipated expiration: 2043-12-29
Also published as: CN117494727A

Abstract

本发明涉及文本处理技术领域，具体涉及用于大语言模型的去偏倚方法。该方法包括：获取数据集；将数据集分为若干句子，每个句子获取一个词性标注序列；获取句子中每个词的情感得分，根据每个形容词周围的词的编号、情感得分以及词性获取每个形容词的情感强度加权系数；根据每个形容词的位置、情感得分以及情感强度加权系数获取每个形容词的位置加权情感指数；根据所有形容词的位置加权情感指数获取每个句子的文本偏倚度；根据每个句子的文本偏倚度对大语言模型进行去偏倚。本发明可以更加精确的调整大模型训练时的细节，从而降低大语言模型输出文本的偏倚情况。

Description

用于大语言模型的去偏倚方法

技术领域

本发明涉及文本处理技术领域，具体涉及用于大语言模型的去偏倚方法。

背景技术

近年来，随着深度神经网络的发展，大语言模型的性能得到不断提升，如BERT、GPT等模型通过在海量的数据上进行训练，已经可以胜任许多自然语言文本处理、问答等任务。然而大模型也面临着一些问题，其中之一就是偏倚问题。通常大语言模型在训练时，由于训练数据的种类不均衡问题，或者在训练数据中存在着一些社会的偏见性文本，导致模型最终学***或有偏见的回答，对用户带来一些负面的影响。

为了解决这些问题，通常可以在训练之前对数据采集时获取更具多样性的数据以减少因为数据不均衡而引起的偏倚问题，而对于数据本身的一些偏激的、不公正、带有个人情感的表述，则需要通过对数据进行偏倚检测，分析那些特征导致了这些偏倚的出现。但是后者对于文本中固有的观念时，由于偏倚是多维度、交叉且复杂的，因此很难完全理解和消除所有的偏倚，而且在消除偏倚的同时还要注意数据的准确性，二者之间通常存在冲突，需要更精细的度量。

发明内容

为了解决消除偏倚是保持数据准确的技术问题，本发明提供了用于大语言模型的去偏倚方法，所采用的技术方案具体如下：

本发明提出了用于大语言模型的去偏倚方法，该方法包括以下步骤：

获取训练大语言模型的数据集；

将数据集分为若干句子，对于每个句子获取一个词性标注序列；获取句子中每个词的情感得分；获取词性标注序列的邻域窗口，根据词性标注序列获取每个词的位置和副词标签，根据形容词的邻域窗口中每个词的情感得分、副词标签以及词的位置获取形容词的情感强度加权系数；

根据每个形容词的位置、情感得分以及情感强度加权系数获取每个形容词的位置加权情感指数；

根据每个形容词的位置加权情感指数将形容词分类，预设不同类别形容词的情感偏倚补偿系数，根据不同类别形容词的位置加权指数使用不同的补偿系数获取句子的文本偏倚度；

根据每个句子的文本偏倚度对大语言模型进行去偏倚。

优选的，所述将数据集分为若干句子，对于每个句子获取一个词性标注序列的方法为：

将数据集中的“句号”、“感叹号”、“问号”作为每个句子的结尾使用分句算法将数据集分为若干句子；之后使用LSTM-CRF词性标注模型对于每个句子进行词性标注，得到句子中每个词的词性；将句子中每个词的词性按照句子的顺序排序组成一个序列记为词性标注序列。

优选的，所述获取句子中每个词的情感得分的方法为：

使用SentiWordNet工具获取句子中每个单词的情感得分，所获取的情感得分的取值范围为[-1,1]。

优选的，所述获取词性标注序列的邻域窗口，根据词性标注序列获取每个词的位置和副词标签的方法为：

按照词性标注序列中词的顺序将每个词从1开始进行编号，所述编号为每个词的位置；

对于词性标注序列，以每个形容词为中心构建一个预设大小的邻域窗口；

将句子中为副词的词标记为1，不为副词的词标记为0，标记值作为词的副词标签。

优选的，所述根据形容词的邻域窗口中每个词的情感得分、副词标签以及词的位置获取形容词的情感强度加权系数的方法为：

式中，/>表示第i个形容词的邻域窗口内第j个词的情感得分，/>表示第i个形容词的邻域窗口内第j个词的副词标签，/>表示第i个形容词的位置，/>表示第i个形容词的邻域窗口内第j个词的位置，/>表示邻域窗口的大小，/>表示第i个形容词的情感强度加权系数。

优选的，所述根据每个形容词的位置、情感得分以及情感强度加权系数获取每个形容词的位置加权情感指数的方法为：

式中，/>表示第i个形容词的位置，/>表示句子长度，/>表示最小值函数，/>表示第i个形容词的位置加权系数，/>表示第i个形容词的情感得分，/>表示第i个形容词的情感强度加权系数，/>表示线性归一化函数，/>表示第i个形容词的位置加权情感指数。

优选的，所述根据每个形容词的位置加权情感指数将形容词分类，预设不同类别形容词的情感偏倚补偿系数的方法为：

将位置加权情感指数小于0的形容词记为一类形容词，将位置加权情感指数大于等于0的形容词记为二类形容词，令一类形容词的情感偏倚补偿系数小于二类形容词的情感偏倚补偿系数。

优选的，所述根据不同类别形容词的位置加权指数使用不同的补偿系数获取句子的文本偏倚度的方法为：

式中，/>表示第i1个第一类形容词的位置加权情感指数，/>表示第i2个第二类形容词的位置加权情感指数，/>表示第一类形容词的数量，/>表示第二类形容词的数量，/>和/>表示情感偏倚补偿系数，/>表示句子的文本偏倚度。

优选的，所述根据每个句子的文本偏倚度对大语言模型进行去偏倚的方法为：

式中，/>表示经过文本偏倚度调整之后的损失函数；/>表示当前句子的文本偏倚度，/>表示在输入序列为X的情况下预测的下一个词为Y的概率；

将损失函数最小值对应的概率的词语作为大语言模型的输出。

优选的，所述训练大语言模型的数据集的获取方法为：

使用已公开的方式在不同论坛、新闻报道、不同社交媒体获取大量的文本数据，将文本数据进行数据清洗和预处理获取训练大语言模型的数据集。

本发明具有如下有益效果：本发明通过为大语言模型的训练样本中每个句子计算其文本偏倚度，以此为基础进行调整模型训练时的权重，最终达到降低大语言模型输出文本偏倚度的目的。具体为，通过计算每个句子中情感词的情感加权系数，并根据情感词邻域内其他词的词性分布位置以及情感强度得到每个情感词的位置加权情感指数，接着，计算出训练数据中每个句子的文本偏倚度，最终，通过文本偏倚度去调整大语言模型训练时损失函数的权重进而平衡训练集中偏移数据的影响。通过上述方式，本发明从词性等细微的角度对句子进行分析，可以更加精确的调整大模型训练时的细节，从而降低大语言模型输出文本的偏倚情况。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的用于大语言模型的去偏倚方法流程图；

图2为本发明一个实施例所提供的用于大语言模型的去偏倚方法实施流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的用于大语言模型的去偏倚方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

用于大语言模型的去偏倚方法实施例：

下面结合附图具体的说明本发明所提供的用于大语言模型的去偏倚方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的用于大语言模型的去偏倚方法流程图，该方法包括以下步骤：

步骤S001，获取训练大语言模型的数据集。

由于训练大语言模型的数据集通常是较为庞大的数据集，因此在不同渠道使用公开的方式获取相应的数据集，所述渠道为各种论坛、新闻报道、不同社交媒体的帖子等，将爬取的数据进行数据清洗和预处理，得到训练大语言模型的数据集。

至此，获取了训练大语言模型的数据集。

步骤S002，将数据集分为若干句子，对于每个句子获取一个词性标注序列；获取句子中每个词的情感得分；获取词性标注序列的邻域窗口，根据词性标注序列获取每个词的位置和副词标签，根据形容词的邻域窗口中每个词的情感得分、副词标签以及词的位置获取形容词的情感强度加权系数。

大语言模型在训练过程中使用了大量庞大且复杂的数据集，这导致其中不可避免地存在各种社会偏见或刻板印象。这些偏见可能源自于数据本身的特点，如互联网上公开可用的文本资源中存在的人类偏见和主观观点。例如：GPT，GPT-2，GPT-3，BERT等大语言模型，这些模型在训练时受到数据集的影响，若如果训练数据中包含大量负面情绪的文本，比如悲伤、愤怒或恐惧等，模型可能会更倾向于生成类似情绪的回答或内容。

在许多观点或评价中，由于人们通常采用形容词和副词用来描述人、事、物的属性或状态，这能够直接表达情感、观点和评价。因此在情感分析中，情感词多数属于形容词和副词的词性。其中，形容词通常用于描述名词的特征，可以表达出积极情感或消极情感。而副词通常作为动词、形容词或其他副词的修饰词，能够表达情感的强弱程度。

对于所获取的数据集，根据数据集中的符号将数据集分为若干个句子，其中“句号”、“感叹号”、“问号”为分句的结尾。使用分句算法将数据集分为若干个句子。之后使用LSTM-CRF词性标注模型对于每个句子进行词性标注，得到句子中每个词的词性。将每个句子的所有词性按照句子的顺序组成一个序列记为词性标注序列。

在对文本进行情感分析时，不同的情感词所表达的情感方向和情感程度是不一样的，这里采用SentiWordNet工具获取每个词的情感得分。SentiWordNet是一个基于WordNet的词语情感分析词典，它为WordNet中的每个单词分配了情感得分，其中“-1”表示极度负向，“+1”表示极度正向，其取值范围为[-1,1]。这些得分表示了单词在情感极性（如积极、消极）方面的强度和程度。

由于动词通常是行为性质的表现，名词可以揭示对象的属性，副词可以修饰情感强度，而形容词通常用于描述名词的性质或状态能够决定情感的方向，因此将形容词作为主要情感词进行分析。

获取每个句子中形容词的个数和句子中所有词的数量，在一个句子中，令形容词的数量与句子所有词的数量的比值作为句子中形容词的分布占比。

对于每个句子，在其词性标注序列中设定一个邻域窗口，在本实施例中令邻域窗口大小为5，其中每个词的邻域窗口以该词为中心，在词性标注序列中对每个词进行编号，所述编号即为每个词的位置。例如：词性标注序列中共有10个词，那么编号分别为1到10，词性标注序列的长度为10。对于每个句子，对于句子中的副词施加标签，若词为副词，那么副词标签为1，若词不为副词，那么副词标签为0。

根据每个形容词的位置以及以形容词为中心的邻域窗口内的词的特征获取形容词的情感强度加权系数，公式如下：

其中形容词的邻域内，若有副词进行修饰则可以在一定程度上改变情感的深度，且通常副词越多、距离形容词越近，则表明该修饰强度越大，从而使得该形容词最终的情感加强系数越大。从上述公式可知，当形容词周围没有副词时，则该形容词的情感加强系数为1。

至此，获取了每个形容词的情感强度加权系数。

步骤S003，根据每个形容词的位置、情感得分以及情感强度加权系数获取每个形容词的位置加权情感指数。

由于相同的形容词在句子中所处的位置不同，所表达的情感度也有所不同，其中分布在句首和句尾的形容词往往情感色彩更加浓烈，因此要根据形容词在句子中不同的位置赋予不同的位置加权情感指数。

根据形容词距离句首或句尾的距离以及形容词的情感强度加权系数和情感得分获取每个形容词的位置加权情感指数，公式如下：

式中，/>表示第i个形容词的位置，/>表示句子长度，/>表示最小值函数，/>表示第i个形容词的位置加权系数，/>表示第i个形容词的情感得分，/>表示第i个形容词的情感强度加权系数，/>表示线性归一化函数，/>表示第i个形容词的位置加权情感指数。其中归一化将数据规整到[-1,1]之间，越接近“-1”表示消极情感越强，越接近“1”表示积极情感越强；当形容词所在位置距离句子两端越近时，表明该形容词的情感强度越大，即该形容词的位置加权情感指数也越大；反之，表明该形容词的情感强度越小，则该形容词的位置加权情感指数也越小；当该形容词的情感得分越大、情感强度加权系数越大时，其位置加权情感指数也越大。

至此，获取了每个形容词的位置加权情感指数。

步骤S004，根据每个形容词的位置加权情感指数将形容词分类，预设不同类别形容词的情感偏倚补偿系数，根据不同类别形容词的位置加权指数使用不同的补偿系数获取句子的文本偏倚度。

在计算文本偏倚度时，表述客观的中性词语具有较低的偏倚度，而对于积极的情感描述和消极的情感描述对应的词语具有较高的偏倚度，而消极负面的情感描述对应的词语在网络中往往占有更多的情感描述，因此给予其偏倚度更高的权重。在本实施例中对语言模型的偏倚度进行纠正，其中消极负面情绪对应的词语需要修正的权重更高。

根据形容词的位置加权情感指数将每个句子的所有形容词进行分类，将位置加权情感指数小于0的形容词记为一类形容词，将位置加权情感指数大于等于0的形容词记为二类形容词，根据一类形容词和二类形容词的位置加权情感指数获取句子的文本偏倚度，公式如下：

式中，/>表示第i1个第一类形容词的位置加权情感指数，/>表示第i2个第二类形容词的位置加权情感指数，/>表示第一类形容词的数量，/>表示第二类形容词的数量，/>和/>表示情感偏倚补偿系数，在本实施例中分别取0.2和0.5，/>表示句子的文本偏倚度。

其中，当位置加权情感指数值接近“0”时，则认为不存在偏倚，当位置加权情感指数小于零时，表示当前词语表示为负面情绪，认为越小的值代表其负面情感越强烈，则其对应的文本偏倚度越高；反之，认为其负面情感越弱，则其对应的文本偏倚度越低。同样的，当位置加权情感指数大于零时，表示当前词语表示为正面情绪，认为越大的值代表其正面情感越强烈，则其对应的文本偏倚度越高；反之，认为其正面情感越弱，则其对应的文本偏倚度越低。

至此，获取了大语言模型的数据集中每个句子的文本偏倚度。

步骤S005，根据每个句子的文本偏倚度对大语言模型进行去偏倚。

当大语言模型在训练时，由于训练数据中固有的偏倚信息，会导致模型在生成文本时存在偏倚信息，为了降低大语言模型在生成文本时产生的偏倚信息，通过上述步骤获取句子的文本偏倚度，调整大语言模型在训练时损失函数的权重。

当句子的偏倚度较大时，所预测出的下一个词语与理想词语的偏差较大，此时要让损失函数更小才不会被选中，则应该相应的调小损失函数的权重，反之，当句子的偏倚度较小时，所预测出的下一个词语与理想词语的偏差较小，此时要让损失函数更小，损失函数采用更大的权重，从而平衡模型的训练效果。

通常大语言模型的损失函数是基于最大似然估计来定义的，所述大语言模型，在训练过程中，模型的目标是最大化生成下一个词语的概率。给定一个输入序列，模型通过条件概率来预测下一个词语。损失函数表示如下：

其中，/>为输入的序列，/>为预测的词语，/>为预测出/>的概率，/>即为优化目标。

将每个句子的文本偏倚度融入后表示为：

式中，/>表示经过文本偏倚度调整之后的优化目标；/>表示当前句子的文本偏倚度，/>表示在输入序列为X的情况下预测的下一个词为Y的概率。

将损失函数最小值对应词语的优化目标作为大语言模型的输出，至此完成了对大语言模型的去偏倚，图2为去偏倚的实施流程图。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

Claims

1.用于大语言模型的去偏倚方法，其特征在于，该方法包括以下步骤：

获取训练大语言模型的数据集；

根据每个句子的文本偏倚度对大语言模型进行去偏倚；

所述根据形容词的邻域窗口中每个词的情感得分、副词标签以及词的位置获取形容词的情感强度加权系数的方法为：

式中，/>表示第i个形容词的邻域窗口内第j个词的情感得分，/>表示第i个形容词的邻域窗口内第j个词的副词标签，/>表示第i个形容词的位置，/>表示第i个形容词的邻域窗口内第j个词的位置，/>表示邻域窗口的大小，/>表示第i个形容词的情感强度加权系数；

所述根据每个形容词的位置、情感得分以及情感强度加权系数获取每个形容词的位置加权情感指数的方法为：

式中，/>表示第i个形容词的位置，/>表示句子长度，/>表示最小值函数，/>表示第i个形容词的位置加权系数，/>表示第i个形容词的情感得分，/>表示第i个形容词的情感强度加权系数，/>表示线性归一化函数，表示第i个形容词的位置加权情感指数；

所述根据每个形容词的位置加权情感指数将形容词分类，预设不同类别形容词的情感偏倚补偿系数的方法为：

将位置加权情感指数小于0的形容词记为一类形容词，将位置加权情感指数大于等于0的形容词记为二类形容词，令一类形容词的情感偏倚补偿系数小于二类形容词的情感偏倚补偿系数；

所述根据不同类别形容词的位置加权指数使用不同的补偿系数获取句子的文本偏倚度的方法为：

式中，/>表示第i1个第一类形容词的位置加权情感指数，/>表示第i2个第二类形容词的位置加权情感指数，/>表示第一类形容词的数量，/>表示第二类形容词的数量，/>和/>表示情感偏倚补偿系数，/>表示句子的文本偏倚度；

所述根据每个句子的文本偏倚度对大语言模型进行去偏倚的方法为：

2.如权利要求1所述的用于大语言模型的去偏倚方法，其特征在于，所述将数据集分为若干句子，对于每个句子获取一个词性标注序列的方法为：

3.如权利要求1所述的用于大语言模型的去偏倚方法，其特征在于，所述获取句子中每个词的情感得分的方法为：

4.如权利要求1所述的用于大语言模型的去偏倚方法，其特征在于，所述获取词性标注序列的邻域窗口，根据词性标注序列获取每个词的位置和副词标签的方法为：

5.如权利要求1所述的用于大语言模型的去偏倚方法，其特征在于，所述训练大语言模型的数据集的获取方法为：