CN116304063A - 一种简单的情感知识增强提示调优的方面级情感分类方法 - Google Patents
一种简单的情感知识增强提示调优的方面级情感分类方法 Download PDFInfo
- Publication number
- CN116304063A CN116304063A CN202310564657.XA CN202310564657A CN116304063A CN 116304063 A CN116304063 A CN 116304063A CN 202310564657 A CN202310564657 A CN 202310564657A CN 116304063 A CN116304063 A CN 116304063A
- Authority
- CN
- China
- Prior art keywords
- emotion
- words
- tag words
- knowledge
- tuning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 247
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000013507 mapping Methods 0.000 claims abstract description 38
- 238000005457 optimization Methods 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 25
- 239000013598 vector Substances 0.000 claims description 26
- 230000007935 neutral effect Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 9
- 238000013139 quantization Methods 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 16
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 101100149325 Escherichia coli (strain K12) setC gene Proteins 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种简单的情感知识增强提示调优的方面级情感分类方法,属于人工智能的自然语言处理领域,包括以下步骤:构建提示模板,将所述提示模板和待分类文本输入到预训练语言模型中进行预测,获得待分类文本对应的若干个词的预测概率;构建情感知识映射表达器,并对所述情感知识映射表达器中的若干个情感标签词进行优化,获得优化后的情感标签词;基于所述若干个词的预测概率,获得优化后的情感标签词的预测概率;通过所述情感知识映射表达器将所述优化后的情感标签词的预测概率映射到类别标签,获得类别标签的最终预测概率。本发明通过引入外部情感词库来提高情感标签词的语义表达能力,同时减少了由单个情感标签词引起的偏差。
Description
技术领域
本发明属于人工智能的自然语言处理领域,特别是涉及一种简单的情感知识增强提示调优的方面级情感分类方法。
背景技术
方面级情感分类是目前最细粒度的分类方法,可以针对文本中各个方面对象,确定每个方面词所表达的情感信息,通常将情感分为三类,积极、消极和中性。方面级情感分类在消费者口碑分析,社交媒体,事件走向预测,舆情监控,以及用户兴趣挖掘领域有着广泛的应用。
一般来说,大多数方面级情感分类的解决方案可以分为基于神经网络和预训练语言模型的方法。基于神经网络的方法试图构建各种复杂的特征提取器来提取数据本身的语义特征(例如,卷积神经网络、递归神经网络和图形卷积网络)。基于图卷积网络的模型除了提取语义特征外,还结合句子依赖树提取了语法特征(句子结构信息)。尽管这些方法很有效,但它们利用的是数据集本身的特征,并且需要更多的监督数据来进行训练。与之不同的是,基于预训练语言模型的方法可以充分利用大规模数据集丰富的知识。这类方法通过让预训练语言模型在目标数据集上进行微调的方式取得不错的效果,但预训练目标和下游任务之间存在一定差距,需要大量的监督数据微调,成本很高。而在许多实际情况下,准确的标记数据是稀缺的,需要密集的人力劳动。最近,提示调优受到了很多的关注,并在低数据场景中显示出了巨大的优势。
对于分类任务来说,应用提示调优方法的最关键步骤是为类别标签和特定类别的词(标签词)之间的映射关系定义一个映射表达器。
一些现有的工作试图通过构建手动或自动映射表达器来提高提示调优性能。手动映射表达器是使用人工筛选的合适的词(单个标签词或多个标签词)来表示类别标签。而自动映射表达器是通过离散搜索或梯度下降的方式来学习标签词。在样本稀缺的情况下,自动构建映射表达器需要训练样本不断学习,手动映射表达器仍然占主导地位。其中,将外部情感知识整合到映射表达器中增加标签词覆盖范围的方法取得了卓越的效果。然而,目前可用的情感词只包含积极和消极的情绪,导致只能分两级,对于方面级别三极情感分类任务来说,缺乏中性情感词。此外,也缺乏与下游任务相关的领域内情感词来提升预测性能。
综上所述,现存的技术问题是:目前基于提示调优的方面级情感分类方法缺乏一个全面的适合三极分类的情感词库来扩展提示调优中情感标签词的覆盖范围,从而使得预测存在偏差。因此,亟需提出一种简单的情感知识增强提示调优的方面级情感分类方法。
发明内容
本发明的目的是提供一种简单的情感知识增强提示调优的方面级情感分类方法,将情感知识融入映射表达器增强提示调优的框架,以解决上述现有技术存在的问题。
为实现上述目的,本发明提供了一种简单的情感知识增强提示调优的方面级情感分类方法,包括以下步骤:
构建提示模板,将所述提示模板和待分类文本输入到预训练语言模型中进行预测,获得待分类文本对应的若干个词的预测概率;
构建情感知识映射表达器,并对所述情感知识映射表达器中的若干个情感标签词进行优化,获得优化后的情感标签词;
基于所述若干个词的预测概率,获得优化后的情感标签词的预测概率;
通过所述情感知识映射表达器将所述优化后的情感标签词的预测概率映射到类别标签,获得类别标签的最终预测概率。
可选地,构建情感知识映射表达器的过程包括:从用于三元组情感分类任务的数据集中提取积极情感、中性情感和消极情感的情感标签词,并分别获取所述情感标签词的词频并排序,基于词频排序结果,为不同的情感标签词设置对应的阈值,获得领域内的情感标签词;之后从二元情感词典中继续提取积极情感和消极情感的情感标签词,以及基于关键词搜索获得中性情感的情感标签词,进而获得域外的情感标签词,完成情感知识映射表达器的构建。
可选地,对所述情感知识映射表达器中的若干个情感标签词进行优化的过程包括:对所述情感标签词进行情感倾向性优化、学习向量量化优化、可学习的权值优化和小样本先验优化。
可选地,对所述情感标签词进行情感倾向性优化的过程包括:对所述情感标签词进行去重处理后,基于社交媒体情感分析工具获取情感标签词的类别,并基于词性识别工具处理无情感倾向的情感标签词。
可选地,对所述情感标签词进行学习向量量化优化的过程包括:基于学习向量量化构造情感标签词不同类别的原型向量,对属于相同类别的情感标签词进行聚类。
可选地,对所述情感标签词进行可学习的权值优化的过程包括:为每一个情感标签词分配一个可学习的权值,将所有可学习的权值构成一个向量并进行归一化处理,优化每一个情感标签词所占的权重。
可选地,对所述情感标签词进行小样本先验优化的过程包括:预设抽取比例,基于所述抽取比例从训练集中获取若干个例子并去除标签,获得测试集,基于所述测试集,获得每一个情感标签词的先验概率并进行排序,去除不符合预设概率的情感标签词。
可选地,获得类别标签的最终预测概率的过程包括:当在零样本场景中,假设所述优化后的情感标签词对于相应的类别预测的贡献相同,将优化后的情感标签词的平均值作为类别标签的最终预测概率;当在小样本场景中,将优化后的情感标签词的加权平均值作为类别标签的最终预测概率。
本发明的技术效果为:
本发明提出了情感知识增强提示调优用于方面级情感分类的方法,通过引入外部知识来提高情感标签词的语义表达能力,同时减少了由单个标签词引起的偏差。
本发明构建了一个完整的情感词库适合方面级别的三极分类任务,包含领域内外的积极、消极和中性的情感词。
本发明提出了处理含噪声情感知识的通用优化方法,使用规则组合就可以达到优化分类的目的。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例中的简单的情感知识增强提示调优的方面级情感分类方法流程图;
图2为本发明实施例中的用于情感分类的整体模型示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一
目前基于提示调优的方面级情感分类方法缺乏一个全面的适合三极分类任务的情感词库来扩展提示调优中情感标签词的覆盖范围,从而使得预测存在偏差。要想提升情感标签词的语义表达,需要构建一个全面的包含三类情感的词库,而目前的工作没有关于中性情感词的总结,因此中性词的界定以及中性情感词库的构建是困难的。除此之外,构建好的情感词库,其中的情感标签词可能包含噪声会影响预测结果,因此需要一个合适的优化方法来处理噪声词。优化后的情感标签词的预测概率需要映射到所属类别,计算每个类别的最终得分。对于不同场景下的映射的计算方法会影响最终的预测,因此需要合适的映射方法。
因此,如图1所示,本实施例中提供一种简单的情感知识增强提示调优的方面级情感分类方法,包括以下步骤:
第一步,构建模板及待分类文本预处理。由于提示调优是在句子中添加提示模板,因此本实施例首先要构造适合方面级情感分类任务的模板,再将其添加到输入的句子中,由预训练语言模型来预测结果。
第二步,预训练语言模型准备。本实施例对比了两种不同规模的预训练语言模型,分别为:BERT,BERT-X(X:Lap、Res,是指分别经过电脑和餐厅的评论文本)(Amazon评论数据中针对电子类别的评论、Yelp开放数据集中与餐厅相关的评论)。预训练语言模型需要下载预训练好的参数,并在使用时加载。
第三步,构建情感知识映射表达器。即构建一个包含积极、消极、中性的域内和域外情感标签词的外部词库。
第四步,优化情感知识映射表达器。本实施例提出了情感知识的优化方法,来处理噪声词,保留更高质量的词,提高情感标签词的语义表达能力。
第五步,使用情感知识映射表达器。将情感标签词的预测映射到类别标签,获得类别标签的最终预测概率。
第一步,首先构造适合方面级情感分类任务的提示模板,如下所示:
P1(s) = I felt the {aspect} was [MASK]. s
P2(s) = The {aspect} made me feel [MASK]. s
P3(s) = The {aspect} is [MASK]. s
P4(s) = It was a {MASK} {aspect}. s
其中{aspect}代表句子中的方面词的占位符,[MASK]是预测结果的位置,s是输入的句子。
本实施例定义情感知识映射表达器是将情感标签词的概率映射到类别标签={积极,消极,中性}的概率。这些情感标签词组成的集合/>是/>的子集。集合/>和集合/>形成一种映射关系ƒ:/>→/>,类别标签的预测概率可以被表示为:
其中,表示类别标签,/>表示映射到特定类别标签/>的集合/>,/>表示将情感标签词/>的概率转换为类别标签/>的概率的函数,/>表示类别标签/>的预测概率。具体地,多个情感标签词的预测概率对一个类别标签的贡献的概率可以表示为:
需要注意的是,外部的情感词库并不是完全与预训练语言模型中的词汇表相匹配,有一些情感标签词可能不在预训练语言模型的词汇表中,分词器会把它们分成多个词。这些情感标签词的预测概率是取其平均值。
第二步,将分词器与处理好的文本序列输入加载参数后的预训练语言模型,并执行语言模型的前向传播。
第三步,为了更好地将提示调优与掩码语言模型相结合,除了设计模板外,还需要适当的情感标签词。然而,通过上下文来预测[MASK]并没有一个确定的答案,而且单一的情感标签词可能缺乏全面的信息而导致偏差。因此,情感标签词需要具有广泛的覆盖范围和较少的主观偏差,引入外部情感词库可以很好地满足这些需求。
三极情感分类任务旨在将不同类别情感的范围扩展到更细粒度和多样化的方面。然而,现有的研究并没有总结中性情绪词的描述,也缺乏该领域内的情感词。因此,本实施例的研究重点是扩展中性情感词,并加入域内情感词。特别的,本实施例从适合三元组情感分类任务的数据集(SemEval 2016 Task 5:其中的餐厅和笔记本电脑两个领域数据)中提取了积极、消极和中性的情感意见词,然后计算这些词的词频,收集到的词数量是非常多的(如表2括号所示)。但是太多的词反而会引入噪声,并且许多词出现的频率不高,这可能对预测标签没有太大贡献。因此,本实施例依据词频排序,并考虑到让每类词的数量尽量均衡,为不同极性情感词设置了不同的阈值,具体的阈值如表1所示。
表1
为了克服域的约束,本实施例使用了之前研究者总结的情感词典,包括积极和消极的情绪词汇。此外本实施例还基于关键词搜索“英语中的中性情感词”,从网页上其他人总结的一些文档(如百度、豆丁等)中收集了更多客观的中性情感词,如表2所示。
表2
表3列出了来自不同来源的词的数量:
表3
第四步,虽然本实施例已经构建了一个初步的情感知识映射表达器,但是情感知识的来源是多样的,收集到的情感标签词可能包含噪声,并不完全适合预训练语言模型。本实施例需要处理包含噪声的词,保留更高质量的词,以提高情感知识的表达能力。本实施例提出了一种处理含噪声情感词的通用优化方法,包括四个优化规则。
优化规则1:情感倾向性优化
由于情感标签词的构造是完全无监督的,一个单词可能重复地出现在同一类或多个类中。对于第一个问题,本实施例对收集的每一类词进行去重处理。对于第二个问题,本实施例使用了一个社交媒体情感分析工具——Vader,可以根据输入词的复合得分进行判断其所属类别。Vader的复合情绪得分标准如表4所示。
表4
通过对数据的观察,本实施例还发现情感词库中的一些名词和动词没有明显的情绪倾向,这与本实施例构造的模板不一致。因此,本实施例使用了一个词性识别的工具Textblob,来处理情感词库中没有明确的情感倾向的非形容词。
优化规则2:学习向量量化优化
尽管本实施例最初从情感词所表达的情感倾向方面对情感标签词进行了优化,但本实施例无法直观地衡量不同类的差异和同一类的相似度。为了给情感标签词创造一个更具差异性的映射空间,本实施例使用学习向量量化(LVQ)来构造不同类别的原型向量,以刻画情感词的聚类结构,即让属于相同类别的词距离更近,不同类别的词距离更远。由于LVQ能够使用样本的真实类别辅助聚类算法,这非常适合本实施例的筛选需求。
确定好原型向量后,本实施例保留那些距离本类原型向量更近的情感词进行后面的步骤。
优化规则3:可学习的权值优化
在小样本场景下,每个词所占权重可以在训练过程中不断地学习优化。在训练过程中,本实施例期望对结果贡献大的情感标签词占有较大的权重,而有噪声的情感标签词所占有较小的权重。每个情感标签词都被分配一个可学习的权值,这些权值形成一个向量/>,均被初始化零向量,权值在每个/>中归一化:
值得注意的是,这个优化规则不适用于没有训练数据的情况。
优化规则4:小样本先验优化
另一个问题是情感标签词的先验概率有很大的可变性。一些作品已经表明,有一些词将永远不会被预测。本实施例使用没有标签的小样本数据作为训练集,去除使预测概率较低的情感标签词,即小样本先验优化。本实施例使用方面级情感分类任务的模型框架本身来优化情感知识映射表达器。具体来说,句子s在语料库中的分布用D表示,该分布中的所有句子和模板都被包装为一个新的句子。每个/>被放入/>的[MASK]中,以计算预测的概率。然后将语料库中整个句子分布的期望作为该情感标签词的先验概率。本实施例按比例从训练数据集中随机抽取200个例子,并去除标签,形成一个测试集C。每个词/>的先验概率可以近似为:
然后本实施例根据排序的方法过滤掉了预测概率的下半部分。由于在小样本情况下,参数是通过可学习的权值优化来训练的,因此该规则仅用于零样本环境下。
第五步,本实施例对情感知识语言表达器中的情感标签词进行了一系列的优化,但是,仍然需要将优化后的情感标签词概率映射到类别标签概率。
本实施例提出的进行情感分类的模型的整体框架如图2所示,图中展示了模型对句子中方面词的情感极性预测的完整过程。将输入的句子(来源于SemEval 2014 Task 4Subtask 2 其中的餐厅领域数据)包装在模板里,然后输入到预训练语言模型BERT中,获得填入MASK位置的每个词的预测概率,之后情感知识映射表达器将情感标签词的预测概率映射到类别标签,获得每一类别最终的预测概率。其中详细展示了情感知识映射表达器的构建、优化和映射的过程。
在零样本和小样本场景下,本实施例在两个常用的公共数据集(SemEval 2014Task 4 Subtask 2:其中的餐厅和笔记本电脑两个领域数据)上验证了本发明提出的方法的有效性,如表5和表6所示:
在零样本场景下,本实施例模型的实验结果超过了其他基线模型。具体来说,与基线模型的最佳结果相比,使用BERT作为预训练语言模型的两个数据集,预测准确率(Acc)的值分别增加了6.42%、4.29%,宏平均(MF1)的值分别增加了12.01%、9.99%。同时,使用BERT-X作为预训练语言模型,Acc值分别增加1.78%、4.32%,宏平均(MF1)的值分别增加了10.81%、7.88%。准确率和宏平均的值都有明显的提升,其中宏平均的值增加地更为显著,减少了预测的方差,使模型产生了更稳定的性能。这意味着额外的情感词拓宽了类别标签的语义,导致模型初始状态下的预测更加稳定和准确。因此,扩展情感标签词对提高模型的性能是有效的。
在小样本场景下,提示调优的表现在大部分情况下优于微调。特别是基于提示调优的BERT模型也能优于基于微调的并且经过域内知识学***均的值分别增加了2.91%、5.48%;当训练样本的个数为1024时,在两个数据集上准确率分别增加了1.48%、0.39%,宏平均的值分别增加了1.57%、1.13%。我们的模型优于其他基于提示调优的模型,证明了纳入外部情感标签词提高方面级情感分类的有效性。然而,随着训练样本数量的增加,改进的趋势会减慢,这表明本实施例的方法在只有少量样本的情况下更具竞争力。
表5
表6
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (8)
1.一种简单的情感知识增强提示调优的方面级情感分类方法,其特征在于,包括以下步骤:
构建提示模板,将所述提示模板和待分类文本输入到预训练语言模型中进行预测,获得待分类文本对应的若干个词的预测概率;
构建情感知识映射表达器,并对所述情感知识映射表达器中的若干个情感标签词进行优化,获得优化后的情感标签词;
基于所述若干个词的预测概率,获得优化后的情感标签词的预测概率;
通过所述情感知识映射表达器将所述优化后的情感标签词的预测概率映射到类别标签,获得类别标签的最终预测概率。
2.根据权利要求1所述的简单的情感知识增强提示调优的方面级情感分类方法,其特征在于,
构建情感知识映射表达器的过程包括:从用于三元组情感分类任务的数据集中提取积极情感、中性情感和消极情感的情感标签词,并分别获取所述情感标签词的词频并排序,基于词频排序结果,为不同的情感标签词设置对应的阈值,获得领域内的情感标签词;之后从二元情感词典中继续提取积极情感和消极情感的情感标签词,以及基于关键词搜索获得中性情感的情感标签词,进而获得域外的情感标签词,完成情感知识映射表达器的构建。
3.根据权利要求1所述的简单的情感知识增强提示调优的方面级情感分类方法,其特征在于,
对所述情感知识映射表达器中的若干个情感标签词进行优化的过程包括:对所述情感标签词进行情感倾向性优化、学习向量量化优化、可学习的权值优化和小样本先验优化。
4.根据权利要求3所述的简单的情感知识增强提示调优的方面级情感分类方法,其特征在于,
对所述情感标签词进行情感倾向性优化的过程包括:对所述情感标签词进行去重处理后,基于社交媒体情感分析工具获取情感标签词的类别,并基于词性识别工具处理无情感倾向的情感标签词。
5.根据权利要求3所述的简单的情感知识增强提示调优的方面级情感分类方法,其特征在于,
对所述情感标签词进行学习向量量化优化的过程包括:基于学习向量量化构造情感标签词不同类别的原型向量,对属于相同类别的情感标签词进行聚类。
6.根据权利要求3所述的简单的情感知识增强提示调优的方面级情感分类方法,其特征在于,
对所述情感标签词进行可学习的权值优化的过程包括:为每一个情感标签词分配一个可学习的权值,将所有可学习的权值构成一个向量并进行归一化处理,优化每一个情感标签词所占的权重。
7.根据权利要求3所述的简单的情感知识增强提示调优的方面级情感分类方法,其特征在于,
对所述情感标签词进行小样本先验优化的过程包括:预设抽取比例,基于所述抽取比例从训练集中获取若干个例子并去除标签,获得测试集,基于所述测试集,获得每一个情感标签词的先验概率并进行排序,去除不符合预设概率的情感标签词。
8.根据权利要求1所述的简单的情感知识增强提示调优的方面级情感分类方法,其特征在于,
获得类别标签的最终预测概率的过程包括:当在零样本场景中,假设所述优化后的情感标签词对于相应的类别预测的贡献相同,将优化后的情感标签词的平均值作为类别标签的最终预测概率;当在小样本场景中,将优化后的情感标签词的加权平均值作为类别标签的最终预测概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310564657.XA CN116304063B (zh) | 2023-05-19 | 2023-05-19 | 一种简单的情感知识增强提示调优的方面级情感分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310564657.XA CN116304063B (zh) | 2023-05-19 | 2023-05-19 | 一种简单的情感知识增强提示调优的方面级情感分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116304063A true CN116304063A (zh) | 2023-06-23 |
CN116304063B CN116304063B (zh) | 2023-07-21 |
Family
ID=86794511
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310564657.XA Active CN116304063B (zh) | 2023-05-19 | 2023-05-19 | 一种简单的情感知识增强提示调优的方面级情感分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116304063B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116932853A (zh) * | 2023-07-25 | 2023-10-24 | 重庆邮电大学 | 一种基于app评论数据的用户需求获取方法 |
CN117407527A (zh) * | 2023-10-19 | 2024-01-16 | 重庆邮电大学 | 一种教育领域舆情大数据分类方法 |
CN116932853B (zh) * | 2023-07-25 | 2024-07-05 | 南京人生果信息科技有限公司 | 一种基于app评论数据的用户需求获取方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657123A (zh) * | 2021-07-14 | 2021-11-16 | 内蒙古工业大学 | 基于目标模板指导和关系头编码的蒙语方面级情感分析方法 |
US20220092267A1 (en) * | 2020-09-23 | 2022-03-24 | Jingdong Digits Technology Holding Co., Ltd. | Method and system for aspect-level sentiment classification by graph diffusion transformer |
CN115526171A (zh) * | 2022-09-28 | 2022-12-27 | 上海销氪信息科技有限公司 | 一种意图识别方法、装置、设备及计算机可读存储介质 |
CN115630156A (zh) * | 2022-09-21 | 2023-01-20 | 内蒙古工业大学 | 一种融合Prompt和SRU的蒙古语情感分析方法与*** |
-
2023
- 2023-05-19 CN CN202310564657.XA patent/CN116304063B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220092267A1 (en) * | 2020-09-23 | 2022-03-24 | Jingdong Digits Technology Holding Co., Ltd. | Method and system for aspect-level sentiment classification by graph diffusion transformer |
CN113657123A (zh) * | 2021-07-14 | 2021-11-16 | 内蒙古工业大学 | 基于目标模板指导和关系头编码的蒙语方面级情感分析方法 |
CN115630156A (zh) * | 2022-09-21 | 2023-01-20 | 内蒙古工业大学 | 一种融合Prompt和SRU的蒙古语情感分析方法与*** |
CN115526171A (zh) * | 2022-09-28 | 2022-12-27 | 上海销氪信息科技有限公司 | 一种意图识别方法、装置、设备及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
FEI WANG, LONG CHEN, FEI XIE,ET AL: "Few-Shot Text Classification via Semi-Supervised Contrastive Learning", 《2022 4TH INTERNATIONAL CONFERENCE ON NATURAL LANGUAGE PROCESSING (ICNLP)》 * |
李佳洲: "面向文本的方面级情感分类研究及***实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116932853A (zh) * | 2023-07-25 | 2023-10-24 | 重庆邮电大学 | 一种基于app评论数据的用户需求获取方法 |
CN116932853B (zh) * | 2023-07-25 | 2024-07-05 | 南京人生果信息科技有限公司 | 一种基于app评论数据的用户需求获取方法 |
CN117407527A (zh) * | 2023-10-19 | 2024-01-16 | 重庆邮电大学 | 一种教育领域舆情大数据分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116304063B (zh) | 2023-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107066553B (zh) | 一种基于卷积神经网络与随机森林的短文本分类方法 | |
Shivaprasad et al. | Sentiment analysis of product reviews: A review | |
US20190294925A1 (en) | Systems and methods for intelligently curating machine learning training data and improving machine learning model performance | |
CN108717408B (zh) | 一种敏感词实时监控方法、电子设备、存储介质及*** | |
Quispe et al. | Using virtual edges to improve the discriminability of co-occurrence text networks | |
CN117453921B (zh) | 一种大语言模型的数据信息标签处理方法 | |
KR20200007713A (ko) | 감성 분석에 의한 토픽 결정 방법 및 장치 | |
CN110543564A (zh) | 基于主题模型的领域标签获取方法 | |
CN113255340B (zh) | 面向科技需求的主题提取方法、装置和存储介质 | |
CN108038106B (zh) | 一种基于上下文语义的细粒度领域术语自学习方法 | |
CN116304063B (zh) | 一种简单的情感知识增强提示调优的方面级情感分类方法 | |
CN110688479A (zh) | 一种用于生成式摘要的评估方法及排序网络 | |
CN111581364B (zh) | 一种面向医疗领域的中文智能问答短文本相似度计算方法 | |
CN116757195B (zh) | 一种基于提示学习的隐性情感识别方法 | |
CN113486670A (zh) | 基于目标语义的文本分类方法、装置、设备及存储介质 | |
Sheng et al. | A paper quality and comment consistency detection model based on feature dimensionality reduction | |
KR20070118154A (ko) | 정보 처리 장치 및 방법, 및 프로그램 기록 매체 | |
CN113761123A (zh) | 关键词获取的方法、装置、计算设备和存储介质 | |
CN114662488A (zh) | 词向量生成方法和设备、计算设备及计算机可读存储介质 | |
Wang et al. | Content-based weibo user interest recognition | |
Paukkeri et al. | Learning taxonomic relations from a set of text documents | |
Rabby et al. | Establishing a formal benchmarking process for sentiment analysis for the bangla language | |
El Idrissi et al. | HCHIRSIMEX: An extended method for domain ontology learning based on conditional mutual information | |
Yang et al. | Supervised fine tuning for word embedding with integrated knowledge | |
Ferraria et al. | An investigation into different text representations to train an artificial immune network for clustering texts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |