CN117494727B - 用于大语言模型的去偏倚方法 - Google Patents
用于大语言模型的去偏倚方法 Download PDFInfo
- Publication number
- CN117494727B CN117494727B CN202311854611.8A CN202311854611A CN117494727B CN 117494727 B CN117494727 B CN 117494727B CN 202311854611 A CN202311854611 A CN 202311854611A CN 117494727 B CN117494727 B CN 117494727B
- Authority
- CN
- China
- Prior art keywords
- adjective
- emotion
- representing
- sentence
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000008451 emotion Effects 0.000 claims abstract description 132
- 238000012549 training Methods 0.000 claims abstract description 26
- 230000006870 function Effects 0.000 claims description 19
- 230000002996 emotional effect Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 description 1
- 101710096000 Alanine aminotransferase 2 Proteins 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及文本处理技术领域,具体涉及用于大语言模型的去偏倚方法。该方法包括:获取数据集;将数据集分为若干句子,每个句子获取一个词性标注序列;获取句子中每个词的情感得分,根据每个形容词周围的词的编号、情感得分以及词性获取每个形容词的情感强度加权系数;根据每个形容词的位置、情感得分以及情感强度加权系数获取每个形容词的位置加权情感指数;根据所有形容词的位置加权情感指数获取每个句子的文本偏倚度;根据每个句子的文本偏倚度对大语言模型进行去偏倚。本发明可以更加精确的调整大模型训练时的细节,从而降低大语言模型输出文本的偏倚情况。
Description
技术领域
本发明涉及文本处理技术领域,具体涉及用于大语言模型的去偏倚方法。
背景技术
近年来,随着深度神经网络的发展,大语言模型的性能得到不断提升,如BERT、GPT等模型通过在海量的数据上进行训练,已经可以胜任许多自然语言文本处理、问答等任务。然而大模型也面临着一些问题,其中之一就是偏倚问题。通常大语言模型在训练时,由于训练数据的种类不均衡问题,或者在训练数据中存在着一些社会的偏见性文本,导致模型最终学***或有偏见的回答,对用户带来一些负面的影响。
为了解决这些问题,通常可以在训练之前对数据采集时获取更具多样性的数据以减少因为数据不均衡而引起的偏倚问题,而对于数据本身的一些偏激的、不公正、带有个人情感的表述,则需要通过对数据进行偏倚检测,分析那些特征导致了这些偏倚的出现。但是后者对于文本中固有的观念时,由于偏倚是多维度、交叉且复杂的,因此很难完全理解和消除所有的偏倚,而且在消除偏倚的同时还要注意数据的准确性,二者之间通常存在冲突,需要更精细的度量。
发明内容
为了解决消除偏倚是保持数据准确的技术问题,本发明提供了用于大语言模型的去偏倚方法,所采用的技术方案具体如下:
本发明提出了用于大语言模型的去偏倚方法,该方法包括以下步骤:
获取训练大语言模型的数据集;
将数据集分为若干句子,对于每个句子获取一个词性标注序列;获取句子中每个词的情感得分;获取词性标注序列的邻域窗口,根据词性标注序列获取每个词的位置和副词标签,根据形容词的邻域窗口中每个词的情感得分、副词标签以及词的位置获取形容词的情感强度加权系数;
根据每个形容词的位置、情感得分以及情感强度加权系数获取每个形容词的位置加权情感指数;
根据每个形容词的位置加权情感指数将形容词分类,预设不同类别形容词的情感偏倚补偿系数,根据不同类别形容词的位置加权指数使用不同的补偿系数获取句子的文本偏倚度;
根据每个句子的文本偏倚度对大语言模型进行去偏倚。
优选的,所述将数据集分为若干句子,对于每个句子获取一个词性标注序列的方法为:
将数据集中的“句号”、“感叹号”、“问号”作为每个句子的结尾使用分句算法将数据集分为若干句子;之后使用LSTM-CRF词性标注模型对于每个句子进行词性标注,得到句子中每个词的词性;将句子中每个词的词性按照句子的顺序排序组成一个序列记为词性标注序列。
优选的,所述获取句子中每个词的情感得分的方法为:
使用SentiWordNet工具获取句子中每个单词的情感得分,所获取的情感得分的取值范围为[-1,1]。
优选的,所述获取词性标注序列的邻域窗口,根据词性标注序列获取每个词的位置和副词标签的方法为:
按照词性标注序列中词的顺序将每个词从1开始进行编号,所述编号为每个词的位置;
对于词性标注序列,以每个形容词为中心构建一个预设大小的邻域窗口;
将句子中为副词的词标记为1,不为副词的词标记为0,标记值作为词的副词标签。
优选的,所述根据形容词的邻域窗口中每个词的情感得分、副词标签以及词的位置获取形容词的情感强度加权系数的方法为:
式中,/>表示第i个形容词的邻域窗口内第j个词的情感得分,/>表示第i个形容词的邻域窗口内第j个词的副词标签,/>表示第i个形容词的位置,/>表示第i个形容词的邻域窗口内第j个词的位置,/>表示邻域窗口的大小,/>表示第i个形容词的情感强度加权系数。
优选的,所述根据每个形容词的位置、情感得分以及情感强度加权系数获取每个形容词的位置加权情感指数的方法为:
式中,/>表示第i个形容词的位置,/>表示句子长度,/>表示最小值函数,/>表示第i个形容词的位置加权系数,/>表示第i个形容词的情感得分,/>表示第i个形容词的情感强度加权系数,/>表示线性归一化函数,/>表示第i个形容词的位置加权情感指数。
优选的,所述根据每个形容词的位置加权情感指数将形容词分类,预设不同类别形容词的情感偏倚补偿系数的方法为:
将位置加权情感指数小于0的形容词记为一类形容词,将位置加权情感指数大于等于0的形容词记为二类形容词,令一类形容词的情感偏倚补偿系数小于二类形容词的情感偏倚补偿系数。
优选的,所述根据不同类别形容词的位置加权指数使用不同的补偿系数获取句子的文本偏倚度的方法为:
式中,/>表示第i1个第一类形容词的位置加权情感指数,/>表示第i2个第二类形容词的位置加权情感指数,/>表示第一类形容词的数量,/>表示第二类形容词的数量,/>和/>表示情感偏倚补偿系数,/>表示句子的文本偏倚度。
优选的,所述根据每个句子的文本偏倚度对大语言模型进行去偏倚的方法为:
式中,/>表示经过文本偏倚度调整之后的损失函数;/>表示当前句子的文本偏倚度,/>表示在输入序列为X的情况下预测的下一个词为Y的概率;
将损失函数最小值对应的概率的词语作为大语言模型的输出。
优选的,所述训练大语言模型的数据集的获取方法为:
使用已公开的方式在不同论坛、新闻报道、不同社交媒体获取大量的文本数据,将文本数据进行数据清洗和预处理获取训练大语言模型的数据集。
本发明具有如下有益效果:本发明通过为大语言模型的训练样本中每个句子计算其文本偏倚度,以此为基础进行调整模型训练时的权重,最终达到降低大语言模型输出文本偏倚度的目的。具体为,通过计算每个句子中情感词的情感加权系数,并根据情感词邻域内其他词的词性分布位置以及情感强度得到每个情感词的位置加权情感指数,接着,计算出训练数据中每个句子的文本偏倚度,最终,通过文本偏倚度去调整大语言模型训练时损失函数的权重进而平衡训练集中偏移数据的影响。通过上述方式,本发明从词性等细微的角度对句子进行分析,可以更加精确的调整大模型训练时的细节,从而降低大语言模型输出文本的偏倚情况。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的用于大语言模型的去偏倚方法流程图;
图2为本发明一个实施例所提供的用于大语言模型的去偏倚方法实施流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的用于大语言模型的去偏倚方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
用于大语言模型的去偏倚方法实施例:
下面结合附图具体的说明本发明所提供的用于大语言模型的去偏倚方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的用于大语言模型的去偏倚方法流程图,该方法包括以下步骤:
步骤S001,获取训练大语言模型的数据集。
由于训练大语言模型的数据集通常是较为庞大的数据集,因此在不同渠道使用公开的方式获取相应的数据集,所述渠道为各种论坛、新闻报道、不同社交媒体的帖子等,将爬取的数据进行数据清洗和预处理,得到训练大语言模型的数据集。
至此,获取了训练大语言模型的数据集。
步骤S002,将数据集分为若干句子,对于每个句子获取一个词性标注序列;获取句子中每个词的情感得分;获取词性标注序列的邻域窗口,根据词性标注序列获取每个词的位置和副词标签,根据形容词的邻域窗口中每个词的情感得分、副词标签以及词的位置获取形容词的情感强度加权系数。
大语言模型在训练过程中使用了大量庞大且复杂的数据集,这导致其中不可避免地存在各种社会偏见或刻板印象。这些偏见可能源自于数据本身的特点,如互联网上公开可用的文本资源中存在的人类偏见和主观观点。例如:GPT,GPT-2,GPT-3,BERT等大语言模型,这些模型在训练时受到数据集的影响,若如果训练数据中包含大量负面情绪的文本,比如悲伤、愤怒或恐惧等,模型可能会更倾向于生成类似情绪的回答或内容。
在许多观点或评价中,由于人们通常采用形容词和副词用来描述人、事、物的属性或状态,这能够直接表达情感、观点和评价。因此在情感分析中,情感词多数属于形容词和副词的词性。其中,形容词通常用于描述名词的特征,可以表达出积极情感或消极情感。而副词通常作为动词、形容词或其他副词的修饰词,能够表达情感的强弱程度。
对于所获取的数据集,根据数据集中的符号将数据集分为若干个句子,其中“句号”、“感叹号”、“问号”为分句的结尾。使用分句算法将数据集分为若干个句子。之后使用LSTM-CRF词性标注模型对于每个句子进行词性标注,得到句子中每个词的词性。将每个句子的所有词性按照句子的顺序组成一个序列记为词性标注序列。
在对文本进行情感分析时,不同的情感词所表达的情感方向和情感程度是不一样的,这里采用SentiWordNet工具获取每个词的情感得分。SentiWordNet是一个基于WordNet的词语情感分析词典,它为WordNet中的每个单词分配了情感得分,其中“-1”表示极度负向,“+1”表示极度正向,其取值范围为[-1,1]。这些得分表示了单词在情感极性(如积极、消极)方面的强度和程度。
由于动词通常是行为性质的表现,名词可以揭示对象的属性,副词可以修饰情感强度,而形容词通常用于描述名词的性质或状态能够决定情感的方向,因此将形容词作为主要情感词进行分析。
获取每个句子中形容词的个数和句子中所有词的数量,在一个句子中,令形容词的数量与句子所有词的数量的比值作为句子中形容词的分布占比。
对于每个句子,在其词性标注序列中设定一个邻域窗口,在本实施例中令邻域窗口大小为5,其中每个词的邻域窗口以该词为中心,在词性标注序列中对每个词进行编号,所述编号即为每个词的位置。例如:词性标注序列中共有10个词,那么编号分别为1到10,词性标注序列的长度为10。对于每个句子,对于句子中的副词施加标签,若词为副词,那么副词标签为1,若词不为副词,那么副词标签为0。
根据每个形容词的位置以及以形容词为中心的邻域窗口内的词的特征获取形容词的情感强度加权系数,公式如下:
式中,/>表示第i个形容词的邻域窗口内第j个词的情感得分,/>表示第i个形容词的邻域窗口内第j个词的副词标签,/>表示第i个形容词的位置,/>表示第i个形容词的邻域窗口内第j个词的位置,/>表示邻域窗口的大小,/>表示第i个形容词的情感强度加权系数。
其中形容词的邻域内,若有副词进行修饰则可以在一定程度上改变情感的深度,且通常副词越多、距离形容词越近,则表明该修饰强度越大,从而使得该形容词最终的情感加强系数越大。从上述公式可知,当形容词周围没有副词时,则该形容词的情感加强系数为1。
至此,获取了每个形容词的情感强度加权系数。
步骤S003,根据每个形容词的位置、情感得分以及情感强度加权系数获取每个形容词的位置加权情感指数。
由于相同的形容词在句子中所处的位置不同,所表达的情感度也有所不同,其中分布在句首和句尾的形容词往往情感色彩更加浓烈,因此要根据形容词在句子中不同的位置赋予不同的位置加权情感指数。
根据形容词距离句首或句尾的距离以及形容词的情感强度加权系数和情感得分获取每个形容词的位置加权情感指数,公式如下:
式中,/>表示第i个形容词的位置,/>表示句子长度,/>表示最小值函数,/>表示第i个形容词的位置加权系数,/>表示第i个形容词的情感得分,/>表示第i个形容词的情感强度加权系数,/>表示线性归一化函数,/>表示第i个形容词的位置加权情感指数。其中归一化将数据规整到[-1,1]之间,越接近“-1”表示消极情感越强,越接近“1”表示积极情感越强;当形容词所在位置距离句子两端越近时,表明该形容词的情感强度越大,即该形容词的位置加权情感指数也越大;反之,表明该形容词的情感强度越小,则该形容词的位置加权情感指数也越小;当该形容词的情感得分越大、情感强度加权系数越大时,其位置加权情感指数也越大。
至此,获取了每个形容词的位置加权情感指数。
步骤S004,根据每个形容词的位置加权情感指数将形容词分类,预设不同类别形容词的情感偏倚补偿系数,根据不同类别形容词的位置加权指数使用不同的补偿系数获取句子的文本偏倚度。
在计算文本偏倚度时,表述客观的中性词语具有较低的偏倚度,而对于积极的情感描述和消极的情感描述对应的词语具有较高的偏倚度,而消极负面的情感描述对应的词语在网络中往往占有更多的情感描述,因此给予其偏倚度更高的权重。在本实施例中对语言模型的偏倚度进行纠正,其中消极负面情绪对应的词语需要修正的权重更高。
根据形容词的位置加权情感指数将每个句子的所有形容词进行分类,将位置加权情感指数小于0的形容词记为一类形容词,将位置加权情感指数大于等于0的形容词记为二类形容词,根据一类形容词和二类形容词的位置加权情感指数获取句子的文本偏倚度,公式如下:
式中,/>表示第i1个第一类形容词的位置加权情感指数,/>表示第i2个第二类形容词的位置加权情感指数,/>表示第一类形容词的数量,/>表示第二类形容词的数量,/>和/>表示情感偏倚补偿系数,在本实施例中分别取0.2和0.5,/>表示句子的文本偏倚度。
其中,当位置加权情感指数值接近“0”时,则认为不存在偏倚,当位置加权情感指数小于零时,表示当前词语表示为负面情绪,认为越小的值代表其负面情感越强烈,则其对应的文本偏倚度越高;反之,认为其负面情感越弱,则其对应的文本偏倚度越低。同样的,当位置加权情感指数大于零时,表示当前词语表示为正面情绪,认为越大的值代表其正面情感越强烈,则其对应的文本偏倚度越高;反之,认为其正面情感越弱,则其对应的文本偏倚度越低。
至此,获取了大语言模型的数据集中每个句子的文本偏倚度。
步骤S005,根据每个句子的文本偏倚度对大语言模型进行去偏倚。
当大语言模型在训练时,由于训练数据中固有的偏倚信息,会导致模型在生成文本时存在偏倚信息,为了降低大语言模型在生成文本时产生的偏倚信息,通过上述步骤获取句子的文本偏倚度,调整大语言模型在训练时损失函数的权重。
当句子的偏倚度较大时,所预测出的下一个词语与理想词语的偏差较大,此时要让损失函数更小才不会被选中,则应该相应的调小损失函数的权重,反之,当句子的偏倚度较小时,所预测出的下一个词语与理想词语的偏差较小,此时要让损失函数更小,损失函数采用更大的权重,从而平衡模型的训练效果。
通常大语言模型的损失函数是基于最大似然估计来定义的,所述大语言模型,在训练过程中,模型的目标是最大化生成下一个词语的概率。给定一个输入序列,模型通过条件概率来预测下一个词语。损失函数表示如下:
其中,/>为输入的序列,/>为预测的词语,/>为预测出/>的概率,/>即为优化目标。
将每个句子的文本偏倚度融入后表示为:
式中,/>表示经过文本偏倚度调整之后的优化目标;/>表示当前句子的文本偏倚度,/>表示在输入序列为X的情况下预测的下一个词为Y的概率。
将损失函数最小值对应词语的优化目标作为大语言模型的输出,至此完成了对大语言模型的去偏倚,图2为去偏倚的实施流程图。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
Claims (5)
1.用于大语言模型的去偏倚方法,其特征在于,该方法包括以下步骤:
获取训练大语言模型的数据集;
将数据集分为若干句子,对于每个句子获取一个词性标注序列;获取句子中每个词的情感得分;获取词性标注序列的邻域窗口,根据词性标注序列获取每个词的位置和副词标签,根据形容词的邻域窗口中每个词的情感得分、副词标签以及词的位置获取形容词的情感强度加权系数;
根据每个形容词的位置、情感得分以及情感强度加权系数获取每个形容词的位置加权情感指数;
根据每个形容词的位置加权情感指数将形容词分类,预设不同类别形容词的情感偏倚补偿系数,根据不同类别形容词的位置加权指数使用不同的补偿系数获取句子的文本偏倚度;
根据每个句子的文本偏倚度对大语言模型进行去偏倚;
所述根据形容词的邻域窗口中每个词的情感得分、副词标签以及词的位置获取形容词的情感强度加权系数的方法为:
式中,/>表示第i个形容词的邻域窗口内第j个词的情感得分,/>表示第i个形容词的邻域窗口内第j个词的副词标签,/>表示第i个形容词的位置,/>表示第i个形容词的邻域窗口内第j个词的位置,/>表示邻域窗口的大小,/>表示第i个形容词的情感强度加权系数;
所述根据每个形容词的位置、情感得分以及情感强度加权系数获取每个形容词的位置加权情感指数的方法为:
式中,/>表示第i个形容词的位置,/>表示句子长度,/>表示最小值函数,/>表示第i个形容词的位置加权系数,/>表示第i个形容词的情感得分,/>表示第i个形容词的情感强度加权系数,/>表示线性归一化函数,表示第i个形容词的位置加权情感指数;
所述根据每个形容词的位置加权情感指数将形容词分类,预设不同类别形容词的情感偏倚补偿系数的方法为:
将位置加权情感指数小于0的形容词记为一类形容词,将位置加权情感指数大于等于0的形容词记为二类形容词,令一类形容词的情感偏倚补偿系数小于二类形容词的情感偏倚补偿系数;
所述根据不同类别形容词的位置加权指数使用不同的补偿系数获取句子的文本偏倚度的方法为:
式中,/>表示第i1个第一类形容词的位置加权情感指数,/>表示第i2个第二类形容词的位置加权情感指数,/>表示第一类形容词的数量,/>表示第二类形容词的数量,/>和/>表示情感偏倚补偿系数,/>表示句子的文本偏倚度;
所述根据每个句子的文本偏倚度对大语言模型进行去偏倚的方法为:
式中,/>表示经过文本偏倚度调整之后的损失函数;/>表示当前句子的文本偏倚度,/>表示在输入序列为X的情况下预测的下一个词为Y的概率;
将损失函数最小值对应的概率的词语作为大语言模型的输出。
2.如权利要求1所述的用于大语言模型的去偏倚方法,其特征在于,所述将数据集分为若干句子,对于每个句子获取一个词性标注序列的方法为:
将数据集中的“句号”、“感叹号”、“问号”作为每个句子的结尾使用分句算法将数据集分为若干句子;之后使用LSTM-CRF词性标注模型对于每个句子进行词性标注,得到句子中每个词的词性;将句子中每个词的词性按照句子的顺序排序组成一个序列记为词性标注序列。
3.如权利要求1所述的用于大语言模型的去偏倚方法,其特征在于,所述获取句子中每个词的情感得分的方法为:
使用SentiWordNet工具获取句子中每个单词的情感得分,所获取的情感得分的取值范围为[-1,1]。
4.如权利要求1所述的用于大语言模型的去偏倚方法,其特征在于,所述获取词性标注序列的邻域窗口,根据词性标注序列获取每个词的位置和副词标签的方法为:
按照词性标注序列中词的顺序将每个词从1开始进行编号,所述编号为每个词的位置;
对于词性标注序列,以每个形容词为中心构建一个预设大小的邻域窗口;
将句子中为副词的词标记为1,不为副词的词标记为0,标记值作为词的副词标签。
5.如权利要求1所述的用于大语言模型的去偏倚方法,其特征在于,所述训练大语言模型的数据集的获取方法为:
使用已公开的方式在不同论坛、新闻报道、不同社交媒体获取大量的文本数据,将文本数据进行数据清洗和预处理获取训练大语言模型的数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311854611.8A CN117494727B (zh) | 2023-12-29 | 2023-12-29 | 用于大语言模型的去偏倚方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311854611.8A CN117494727B (zh) | 2023-12-29 | 2023-12-29 | 用于大语言模型的去偏倚方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117494727A CN117494727A (zh) | 2024-02-02 |
CN117494727B true CN117494727B (zh) | 2024-03-29 |
Family
ID=89685376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311854611.8A Active CN117494727B (zh) | 2023-12-29 | 2023-12-29 | 用于大语言模型的去偏倚方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117494727B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118069852B (zh) * | 2024-04-22 | 2024-07-12 | 数据空间研究院 | 一种多模型融合的数据分类预测方法与*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120001053A (ko) * | 2010-06-29 | 2012-01-04 | (주)워드워즈 | 문서 감성 분석 시스템 및 그 방법 |
CN103034626A (zh) * | 2012-12-26 | 2013-04-10 | 上海交通大学 | 情感分析***及方法 |
CN106776581A (zh) * | 2017-02-21 | 2017-05-31 | 浙江工商大学 | 基于深度学习的主观性文本情感分析方法 |
CN115048936A (zh) * | 2022-06-07 | 2022-09-13 | 昆明理工大学 | 融合词性信息的方面级情感三元组抽取方法 |
-
2023
- 2023-12-29 CN CN202311854611.8A patent/CN117494727B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120001053A (ko) * | 2010-06-29 | 2012-01-04 | (주)워드워즈 | 문서 감성 분석 시스템 및 그 방법 |
CN103034626A (zh) * | 2012-12-26 | 2013-04-10 | 上海交通大学 | 情感分析***及方法 |
CN106776581A (zh) * | 2017-02-21 | 2017-05-31 | 浙江工商大学 | 基于深度学习的主观性文本情感分析方法 |
CN115048936A (zh) * | 2022-06-07 | 2022-09-13 | 昆明理工大学 | 融合词性信息的方面级情感三元组抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117494727A (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111767741B (zh) | 一种基于深度学习和tfidf算法的文本情感分析方法 | |
CN109614471B (zh) | 一种基于生成式对抗网络的开放式问题自动生成方法 | |
CN108549658B (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及*** | |
CN109359294B (zh) | 一种基于神经机器翻译的古汉语翻译方法 | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN112001186A (zh) | 一种利用图卷积神经网络和中文句法的情感分类方法 | |
CN117494727B (zh) | 用于大语言模型的去偏倚方法 | |
CN113326374B (zh) | 基于特征增强的短文本情感分类方法及*** | |
CN113435211B (zh) | 一种结合外部知识的文本隐式情感分析方法 | |
CN110750648A (zh) | 一种基于深度学习和特征融合的文本情感分类方法 | |
CN111353040A (zh) | 基于gru的属性级别情感分析方法 | |
CN111339772B (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
CN115510226A (zh) | 一种基于图神经网络的情感分类方法 | |
CN117808011B (zh) | 一种带有模拟情绪的聊天机器人的方法、介质及*** | |
Wang et al. | Information-enhanced hierarchical self-attention network for multiturn dialog generation | |
Wang | [Retracted] Research on Open Oral English Scoring System Based on Neural Network | |
CN116757195B (zh) | 一种基于提示学习的隐性情感识别方法 | |
CN109325243A (zh) | 字符级基于序列模型的蒙古文切词方法及其切词*** | |
CN115796187A (zh) | 一种基于对话结构图约束的开放域对话方法 | |
CN114461758A (zh) | 一种基于在线社交网络的用户人格识别方法 | |
CN114239565A (zh) | 一种基于深度学习的情绪原因识别方法及*** | |
Miao et al. | Multi-turn dialogue model based on the improved hierarchical recurrent attention network | |
YIN | A compression-based BiLSTM for treating teenagers’ depression chatbot | |
CN113191135A (zh) | 一种融合颜文字的多类别情感提取方法 | |
CN116991982B (zh) | 基于人工智能的交互式对话方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |