CN117390141B - 一种农业社会化服务质量用户评价数据分析方法 - Google Patents
一种农业社会化服务质量用户评价数据分析方法 Download PDFInfo
- Publication number
- CN117390141B CN117390141B CN202311690636.9A CN202311690636A CN117390141B CN 117390141 B CN117390141 B CN 117390141B CN 202311690636 A CN202311690636 A CN 202311690636A CN 117390141 B CN117390141 B CN 117390141B
- Authority
- CN
- China
- Prior art keywords
- learner
- layer
- user evaluation
- data
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 112
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000007405 data analysis Methods 0.000 title claims abstract description 11
- 230000008451 emotion Effects 0.000 claims abstract description 159
- 238000004458 analytical method Methods 0.000 claims abstract description 84
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000012360 testing method Methods 0.000 claims abstract description 17
- 238000013441 quality evaluation Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 40
- 230000008569 process Effects 0.000 claims description 24
- 238000012512 characterization method Methods 0.000 claims description 23
- 230000011218 segmentation Effects 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000005070 sampling Methods 0.000 claims description 17
- 230000007246 mechanism Effects 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 230000002457 bidirectional effect Effects 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 claims description 4
- 230000009193 crawling Effects 0.000 claims description 3
- 230000002779 inactivation Effects 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 238000012804 iterative process Methods 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 230000002996 emotional effect Effects 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000007935 neutral effect Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 241000135164 Timea Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013209 evaluation strategy Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于自然语言处理情感分析领域,具体涉及一种农业社会化服务质量用户评价数据分析方法,该方法将用户评价数据进行统一标签处理后,分为训练集和测试集;设置情感分析层‑强学***或负向学习器组合中,输出情感倾向预测,再与权重决策列表进行对比,判断在各个情感对象维度上用户对农业产品的服务质量评价特征。本发明通过集成学习将粗细粒度情感分析进行结合,从细粒度多个情感对象方面精准预测评价情感倾向,提高了情感分析的泛化能力。
Description
技术领域
本发明属于自然语言处理情感分析领域,具体涉及一种农业社会化服务质量用户评价数据分析方法。
背景技术
情感分析技术是自然语言处理的一个重要分支,主要用于识别和提取文本中的情感倾向、态度和情绪。情感分析通常涉及到两种分析方式,具体包括文本极性分类和目标级情感分析,其中第一种主要过程通过给定一段文本,直接判断其所表达的情感是积极的还是消极的;第二种是基于文本极性分类的一种改进,不仅对整段文本分析,还可以对文本中特定对象进行情感分析,通过实体命名识别划分文本中的情感对象维度,再使用相关模型判别各个对象的情感倾向,两者通俗被称为粗粒度和细粒度情感分析。在传统的粗粒度情感分类会造成文本内容与情感倾向预测不符的情况下,细粒度情感分类的提出在一定程度上处理了这种“错误标签”的问题,但是在观察和分析以往细粒度情感分析的实验结果后,仍然会存在模型学***衡、预测效果未达到理想值等问题。
发明内容
为解决单一细粒度情感分析未能彻底处理文本情感倾向不对应问题,本发明提出一种农业社会化服务质量用户评价数据分析方法,通过粗细粒度相结合的情感分析方法处理用户评价文本,融合深度学习提取文本中丰富多样的情感特征,并且结合Bagging集成学习算法,将粗粒度和细粒度融合成一个整体强学习器进行分析,对应多个学习器组生成决策权重列表,把测试集传入模型训练后结合权重列表,最终基于细粒度特征精准确定情感对象倾向。
本发明通过下述技术方案实现。
一种农业社会化服务质量用户评价数据分析方法,步骤如下:
步骤一:通过爬虫技术爬取相关网站农业产品的用户评价数据;
步骤二:对用户评价数据进行数据预处理操作;
步骤三:对用户评价数据进行统一标签处理,得到处理好的用户评价数据集,并分为训练集和测试集;
步骤四:设置情感分析层-强学习器,包括粗粒度情感分析层和细粒度情感分析层,粗粒度情感分析层设置多个不同的学习器组成的组件学习器集成,分为正面和负面两个情感倾向;细粒度情感分析层设置多个相同学习器组成的基学习器集成;
步骤五:获取情感分析层中各学***学习器,权重决策层建立基学习器的决策权重列表;
步骤六:细粒度特征选择层接收测试集在粗粒度情感分析层判断为正向或负向的数据,分别传入水平学习器组合和对应正向或负向学习器组合中,输出对农业产品基于细粒度特征划分的各个属性对象的情感倾向预测,再通过对各个属性中的情感倾向预测值根据基学习器的权重决策列表进行对比,判断在各个情感对象维度上用户对农业产品的服务质量评价特征,输出服务质量评价结果。
进一步优选,所述组件学习器由双向编码表征模型(BERT)和长短期记忆模型(LSTM)组成,所述细粒度情感分析层包括多个双向编码表征模型;所述基学习器由一对双向编码表征模型组成。
进一步优选,粗粒度情感分析层采用L个组件学习器集成,从训练集选取到L个采样集,将各个采样集输入到组件学习器中进行训练;其中组件学习器中的双向编码表征模型切分采样集中的用户评价文本,获取各条用户评价文本的分词数据对应字典形式的索引序列编码,并且在每条句子的开头和结尾自动添加分类字符[CLS]和终止字符[SEP];然后在多句子的标准化处理中,会将不同长度的用户评价文本统一为同一长度;添加提示掩码告诉双向编码表征模型返回的有效数字编码;并且当某一条评价文本存在多个句子时,通过添加分词所属句子位置编码,表明返回的索引序列编码中所属的句子位置;将最终获取到的用户评价文本分词编码传入三层嵌入层中,第一层为词嵌入层,将输入的各用户评价文本分词乘以一个嵌入矩阵提升维度;第二层为判断句子之间顺序关系层,其中以“A”表示第一句话,以“B”表示第二句话;第三层是位置嵌入层,根据获取到的每一条用户评价文本分词的编码位置值,初始化一个嵌入矩阵进行矩阵相乘;将这三层嵌入层获取到的三个向量相加获得到最终输出词向量;最终输出词向量传入全连接层中进行二分类处理,返回经由Softmax()激活函数处理过的输出预测值。
进一步优选,所述组件学习器中所使用的长短期记忆模型通过设置词嵌入层、长短期记忆层和全连接层对用户评价文本进行情感分类表述;首先将用户评价文本分词传入词嵌入模型中进行数据预处理操作获取到词向量,将词向量传入长短期记忆层获取到时间序列,在权重迭代过程中添加随机失活层,并且在训练过程中使用焦点损失函数。
进一步优选,细粒度情感分析层采用L个基学习器集成,基学习器基于情感三元组进行抽取,包括属性、观点、属性-观点对三者进行预测。
进一步优选,基学习器内部模型整体由四部分组成,包括预训练语言模型、属性与观点序列标注层、注意力机制层和分类层;双向编码表征模型作为预训练语言模型编码器,调用分词处理器将用户评价文本切割,生成的用户评价文本分词,通过添加[CLS]和[SEP]特殊字符作为句向量的开头和结尾,其中经过提示掩码(attetion_mask)处理每条用户评价文本,识别变为同一定长n的句向量中作为填充长度字符的位置,经过双向编码表征模型内部编码层(Encoder层)获取到用户评价文本在不同属性上的上下文语义表征R;属性与观点序列标注层对用户评价文本进行属性序列和观点序列特征的提取,获取到得到属性-观点对;将属性-观点对传入注意力机制层,注意力机制层处理后,得到加权表征;分类层通过Softmax分类器得到每个属性对应的情感倾向预测值。
进一步优选,注意力机制层中权重向量的计算过程如下:
;
;
其中,表示注意力机制层的第i个权重向量,表示上下文语义表征R的第i个元
素, 为每一次迭代更新的第i个线性层权重,表示第i条评价文本语义编码,对用户评
价文本中不同重要程度的属性词分配不同的权重;对用户评价文本中的第i个属性使用
tanh函数进行池化处理后,获取到的加权表征。
进一步优选,分类层通过Softmax分类器得到每个属性对应的情感倾向预测值的具体过程如下:
;
其中,表示用户评价文本中第i个属性的情感倾向预测值,表示迭代过程中得
到的第i个偏置值。
进一步优选,将情感分析层中的L个组件学习器和L个基学习器都训练完毕后,通过for循环方法筛选出除采样集之外的袋外数据,并且通过监督式学习的标签划分为正面数据和负面数据,将正面数据和负面数据传入到训练好的情感分析层-强学习器中,粗粒度情感分析层中的每个组件学习器会分别产生一对正向和负向的F1值,将每一对F1值传入权重决策层,利用F1值计算在各个组件学习器和基学习器上不同情感倾向的可靠度权重。
进一步优选,在获取到各个基学***学***,无侧重的情感倾向,为水平学习器。
本发明使用集成学习Bagging算法理念,将粗细粒度情感分析根据改进后的加权权重策略进行结合分析,提高模型训练的鲁棒性和泛化能力,从而建立程度更加精准的面向细粒度特征选择的评价属性情感对象倾向分析模型,对所提供农业产品的服务质量评价进行更加准确的分析和预测。
附图说明
图1是一种农业社会化服务质量用户评价数据分析方法的模型结构示意图。
图2是粗粒度BERT+长短期记忆模型训练过程示意图。
图3是细粒度BERT+注意力机制+分类模型训练过程示意图。
具体实施方式
下面结合附图和实施例进一步详细说明本发明。
参照图1,一种农业社会化服务质量用户评价数据分析方法,步骤如下:
步骤一:通过爬虫技术爬取相关网站农业产品的用户评价数据。分别爬取各个农业产品详情页的每一条评价用户名、评价内容和评价分数,并存储至用户评价数据csv文件中;
步骤二:对用户评价数据进行数据预处理操作。数据预处理操作包括去除重复评价内容数据;使用正则表达式去除文本内容中的标点、数字、表情符号和换行符“\n”等无效内容;
步骤三:对用户评价数据进行统一标签处理,得到处理好的用户评价数据集,并按照8:2的比例分为训练集和测试集。已知爬取的用户评价数据中共包括1-5分五个等级的标签数据,将用户评分为4-5分的用户评价数据标注为正面情感标签1分,由于用户评价数据中存在正面情感标签过多不均衡的问题,故将3分用户评价数据也划分至负面标签中,把1-3分的用户评价数据标注为负面情感标签0分,其中用户评价数据样本情况如表1表示:
表1
步骤四:设置情感分析层-强学习器,包括粗粒度情感分析层和细粒度情感分析层,粗粒度情感分析层设置多个不同的学习器组成的组件学习器,细粒度情感分析层设置多个相同学习器组成的基学习器,并进行训练。在基于Bagging基础算法框架思想下,根据粗粒度和细粒度的情感分析特征设计了两部分学习器组合,分别构成粗粒度情感分析层和细粒度情感分析层,二者合为一个强学习器,形成整体情感分析层,具体如图1所示。其中在Bagging集成学习算法中,内部模型设置相同的学习器称为基学习器,设置不同的学习器称为组件学习器,本发明在粗粒度情感分析层中设置了5个双向编码表征模型(BERT)和5个长短期记忆模型(LSTM),在细粒度情感分析层中设置了10个双向编码表征模型,粗粒度情感分析层和细粒度情感分析层均通过接收由随机采样获取的L个采样集(采样集1,采样集2,…,采样集L)训练,再获取袋外数据(OOB1,OOB2,…,OOBL)测试每个学习器的训练效果,根据情感标签(0,1)区分袋外数据为正向袋外数据(OOB-POS)和负向袋外数据数据(OOB-NEG),传入整体情感分析层中获取对应各个学习器的决策权重。
粗粒度情感分析层主要采用L个组件学习器(双向编码表征模型和长短期记忆模型)集成,具体训练流程如图2所示。首先将训练集传入numpy库中的choice()方法中,选取到L个采样集(L为组件学习器的个数),将各个采样集输入到组件学习器中进行训练。其中组件学习器中的双向编码表征模型训练过程首先使用BertTokenizer方法,切分采样集中的用户评价文本,获取各条用户评价文本的分词数据对应字典形式的索引序列编码,并且在每条句子的开头和结尾自动添加分类字符[CLS]和终止字符[SEP]标志;然后在多句子的标准化处理中,会将不同长度的用户评价文本统一为同一长度,为了避免填充造成的无意义问题,还需要添加提示掩码告诉双向编码表征模型返回的有效数字编码;并且当某一条评价文本存在多个句子时,需要通过添加分词所属句子位置编码,表明返回的索引序列编码中所属的句子位置。将最终获取到的用户评价文本分词编码传入三层嵌入层中,第一层为词嵌入层,将输入的各用户评价文本分词乘以一个嵌入矩阵提升维度;第二层为判断句子之间顺序关系层,其中以“A”表示第一句话,以“B”表示第二句话;第三层是位置嵌入层,根据获取到的每一条用户评价文本分词的编码位置值,初始化一个嵌入矩阵进行矩阵相乘。将这三层嵌入层获取到的三个向量相加获得到最终输出词向量H,词向量处理过程由公式(1)所示,词向量的组成方式由公式(2)所示:
(1);
(2);
其中,Wq,Wk,Wv分别表示词嵌入层的嵌入矩阵、顺序关系层的嵌入矩阵和位置嵌入层的嵌入矩阵,[x1,x2,…xn]表示某条输入的用户评价文本分词编码向量,x1,x2,…xn分别表示第1,2,…,n个用户评价文本分词编码,[q1,q2,…qn]表示处理后分词嵌入矩阵,q1,q2,…qn分别表示第1,2,…,n个分词,[k1,k2,…,kn]表示处理后的句子顺承关系矩阵,k1,k2,…,kn分别表示第1,2,…,n个句子顺承关系,[v1,v2,…,vn]表示处理后的位置编码矩阵,v1,v2,…,vn分别表示第1,2,…,n个位置编码,H[h1,h2,…hn]表示获取到输出的词向量矩阵,h1,h2,…hn分别表示获取到输出的第1,2,…,n个词向量,Q表示加入[CLS]句首和[SEP]句尾的分词矩阵,K表示句子顺承关系矩阵,V表示位置编码矩阵,n表示词向量的维度。
将最终输出词向量H传入全连接层中进行二分类处理,返回经由Softmax()激活函数处理过的输出预测值,激活函数处理过程如公式(3)所示:
(3);
其中,表示被激活函数处理的双向编码表征模型预测标签值,表示未被激活
函数处理的双向编码表征模型预测标签值,表示传入词向量中的第i个元素,表示一条
用户评价文本中的总体词向量个数。在训练过程中由于存在样本不均衡问题,在此还引入
交叉熵进行平衡处理。
组件学***衡问题。在选取单个组件学习器的模型的过程中,分别选取了多个模型进行实验,并且还采用开源的酒店数据集进行了模型测试,具体结果如表2所示:
表2
根据表2的数据,最终选取BERT和长短期记忆模型作为粗粒度情感分析层的组件学习器进行模型集成。
细粒度情感分析层主要采用L个基学习器集成,具体采取BERT多分类模型进行分析,总体框架为图3所示,基学习器主要是基于情感三元组进行抽取,包括属性、观点、属性-观点对三者进行预测,训练完毕基学习器后接收袋外数据(OOB),分为正面袋外数据和负面袋外数据进行训练。
基学习器内部模型整体由四部分组成,包括预训练语言模型、属性与观点序列标
注层、注意力机制层和分类层。首先双向编码表征模型作为预训练语言模型编码器,调用分
词处理器将用户评价文本切割,生成的用户评价文本分词为,通过添加分
类字符[CLS]和终止字符[SEP]特殊字符作为句向量的开头和结尾,其中经过提示掩码
attetion_mask处理每条用户评价文本,变为同一定长n的句向量,分别为句向量的第1,2,…,n个元素,经过双向编码表征模型内部编码层
(Encoder层)获取到用户评价文本在不同属性上的上下文语义表征R,具体过程如公式(4)
所示:
(4);
其中,经由J个编码层(Transformer)组件计算得出,是用户评价文
本的句向量进入BERT语义编码层(Encoder)编码后所取得的向量,表示
用户评价文本的长度,分别为上下文语义表征R的第1,2,…,n个元素。
属性与观点序列标注层对用户评价文本进行属性序列和观点序列特征的提取,获
取到得到属性-观点对,分别为第1,2,…,m个属性-观点预测
对,其中的预测值可能为{[A-B]、[A-I]、[A-E]、[O-B]、[O-I]、[O-E]},A表示属性,O表示
属性对应的观点,B、I、E含义为具***置,其中B为开头,I为中间,E为结尾。将获取到的属
性-观点对传入到后续层中,包括注意力机制层和分类层,注意力机制层减少文本评价中其
他无关属性信息的干扰,通过给句子中不同重要程度的属性词分配权重,更加精准地找到
每条评价数据中与指定属性最相关的句子和片段,提升对属性的情感倾向的正确判断率。
注意力机制层中权重向量的计算过程由公式(5)和公式(6)所示:
(5);
(6);
其中,表示注意力机制层的第i个权重向量,表示上下文语义表征R的第i个元
素, 为每一次迭代更新的第i个线性层权重,表示第i条评价文本语义编码,对用户评
价文本中不同重要程度的属性词分配不同的权重。对用户评价文本中的第i个属性使用
tanh函数进行池化处理后,获取到的加权表征。
获取到加权表征后,分类层通过Softmax分类器得到每个属性对应的情感倾向预测值,具体过程如公式(7)所示:
(7);
其中,表示用户评价文本中第i个属性的情感倾向预测值,表示迭代过程中得
到的第i个偏置值。具体结果分为四个标签指标(-2未提及,-1负向,0中性,1正向)。
步骤五:获取情感分析层中各学***学习器,权重决策层建立基学习器的决策权重列表。
将情感分析层中的L个组件学习器和L个基学习器都训练完毕后,通过for循环方法筛选出除采样集之外的袋外数据(OOB),并且通过监督式学习的标签划分为正面数据(OOB-POS)和负面数据(OOB-NEG),将这些数据传入到训练好的情感分析层-强学习器中,粗粒度情感分析层中的每个组件学习器会分别产生一对正向和负向的F1值,将每一对F1值传入权重决策层,利用F1值计算在各个组件学习器和基学习器上不同情感倾向的可靠度权重,计算方式如公式(8)所示:
(8);
其中,表示每一个学习器中正向预测值和负向预测值的权重大小,表示学习
器的个数,表示袋外数据的类别是为正向(1)还是负向(0),表示第个学习器的k
类数据预测F1值,并且,以便确保各学习器之间的可靠度权重差异不过于悬殊。在
细粒度情感分析层的基学习器权重融合方法也采取上述过程,此处与粗粒度情感分析层不
同的地方在于,在获取到各个基学习器的正向和负向F1值时,根据对比同一个基学习器中
的正向和负向的权重来划分水平学习器、正向学习器和负向学习器,当正向类别的权重w正向
>负向类别的权重w负向时,该基学习器为正向学习器;当正向类别的权重w正向<负向类别的w负向
时,该基学习器为负向学习器;当正向类别的权重w正向=负向类别的权重w负向时,表示该基学
***,无侧重的情感倾向,故将其命名为
水平学习器,在进行细粒度特征选择层的加权策略算法时,判别为正向或负向的样本数据
均会被传入该学习器中进行属性级情感倾向预测。在权重决策层分别建立好情感分析层组
件学习器和基学习器的决策权重列表后,使用改进的加权评价策略对评价文本的情感倾向
进行预测。
步骤六:细粒度特征选择层接收测试集在粗粒度情感分析层判断为正向或负向的数据,分别传入水平学习器组合和对应正向或负向学习器组合中,输出对农业产品基于细粒度特征划分的各个属性对象的情感倾向预测,再通过对各个属性中的情感倾向预测值根据基学习器的权重决策列表进行对比,判断在各个情感对象维度上用户对农业产品的服务质量评价特征,输出服务质量评价结果。
具体过程如图1所示。首先将步骤三中获取到的测试集数据输入情感分析层,进入粗粒度情感分析层后初步获取测试集数据的情感倾向,接着输入权重决策层,与权重列表结合判断测试数据样本的最终情感倾向是为正向还是负向。在细粒度特征选择层接收测试集在粗粒度模型预测结果判断为正向或负向的数据,分别传入水平学习器组合和对应正向或负向学习器组合中,输出对农业产品基于细粒度特征划分的各个属性对象的情感倾向预测,再通过对各个属性中的情感倾向预测值与基学习器的权重列表进行加权策略计算,输出最终情感倾向,判断在各个维度上用户对农业产品的服务质量评价特征。具体针对粗细粒度强学习器接收测试集数据的过程如下,首先抽取一条样本数据d-“包装比较简单,也就不说了。关键是这是没开刃的,非常钝,土质比较硬比较粘的,不建议使用,费劲!价格倒是挺便宜,东西也很厚实,质量应该挺好的。”,输入粗粒度情感分析层中,获取到该样本数据d的整体情感倾向,然后在权重决策层中结合权重列表进行分析,具体抽取其中6个组件学习器权重数值进行预测,具体过程如表3所示:
表3
该条样本数据d在组件学***学习器、正向学习器和负向学习器,选取其中6个基学习器构成部分权重列表,具体如表4所示:
表4
将该条在粗粒度情感分析层判断为负向的样本数据d输入到细粒度特征选择层
中,进入到水平学***学习器组由
表4中标号为1学习器组成,将其权重设置为;负向学习器组由表4中标号为4,6学习器组
成,将它们的权重分别设置为和,其中情感倾向预测最终结果包括4个分数,分别为
0,-1,1,-2,其中0表示中性,-1表示负向,1表示正向,-2表示未提及。当学习器组对同一个
属性对象的预测值相同时,预测值作为最终预测结果输出;当预测值不同时,将所选取出的
学习器组的权重值和情感倾向预测四个分数均进行归一化处理,处理公式如公式(9)所示:
(9);
其中当取0时,表示为学习器组,此时表示选取学习器组的第i个学习器的权
重值;当取1时,表示为情感倾向预测四个分数,此时表示情感倾向预测第i个分数的权
重值,为的归一化值。具体数值如表5所示:
表5
选取学习器预测值不相同时,将学习器组的权重与所预测出的情感倾向分数进行分别相乘,并将结果相加,具体计算公式如公式(10)所示:
(10);
其中M表示经过学习器组权重与情感倾向预测分数进行归一化融合后,所获取的
决策值;、、分别表示选取学习器组的第1、4、6个学习器的权重值;表示情感倾
向预测第i个分数的权重值,已知归一化后的情感倾向预测分数范围为,当时,最终情感倾向为未提及-2;当时,最终情感倾向为负向-1;
当时,最终情感倾向为中性0;当时,最终情感倾向为正向1,具体结
果如表6所示:
表6
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.一种农业社会化服务质量用户评价数据分析方法,其特征在于,步骤如下:
步骤一:通过爬虫技术爬取相关网站农业产品的用户评价数据;
步骤二:对用户评价数据进行数据预处理操作;
步骤三:对用户评价数据进行统一标签处理,得到处理好的用户评价数据集,并分为训练集和测试集;
步骤四:设置情感分析层-强学习器,包括粗粒度情感分析层和细粒度情感分析层,粗粒度情感分析层设置多个不同的学习器组成的组件学习器集成,分为正面和负面两个情感倾向;细粒度情感分析层设置多个相同学习器组成的基学习器集成;所述组件学习器由双向编码表征模型和长短期记忆模型组成,所述细粒度情感分析层包括多个双向编码表征模型;所述基学习器由一对双向编码表征模型组成;
步骤五:获取情感分析层中各学***学习器,权重决策层建立基学习器的决策权重列表;
步骤六:细粒度特征选择层接收测试集在粗粒度情感分析层判断为正向或负向的数据,分别传入水平学习器组合和对应正向或负向学习器组合中,输出对农业产品基于细粒度特征划分的各个属性对象的情感倾向预测,再通过对各个属性中的情感倾向预测值根据基学习器的权重决策列表进行对比,判断在各个情感对象维度上用户对农业产品的服务质量评价特征,输出服务质量评价结果。
2.根据权利要求1所述的农业社会化服务质量用户评价数据分析方法,其特征在于,粗粒度情感分析层采用L个组件学习器集成,从训练集选取到L个采样集,将各个采样集输入到组件学习器中进行训练;其中组件学习器中的双向编码表征模型切分采样集中的用户评价文本,获取各条用户评价文本的分词数据对应字典形式的索引序列编码,并且在每条句子的开头和结尾自动添加分类字符和终止字符;然后在多句子的标准化处理中,会将不同长度的用户评价文本统一为同一长度;添加提示掩码告诉双向编码表征模型返回的有效数字编码;并且当某一条评价文本存在多个句子时,通过添加分词所属句子位置编码,表明返回的索引序列编码中所属的句子位置;将最终获取到的用户评价文本分词编码传入三层嵌入层中,第一层为词嵌入层,将输入的各用户评价文本分词乘以一个嵌入矩阵提升维度;第二层为判断句子之间顺序关系层,其中以“A”表示第一句话,以“B”表示第二句话;第三层是位置嵌入层,根据获取到的每一条用户评价文本分词的编码位置值,初始化一个嵌入矩阵进行矩阵相乘;将这三层嵌入层获取到的三个向量相加获得到最终输出词向量;最终输出词向量传入全连接层中进行二分类处理,返回经由Softmax()激活函数处理过的输出预测值。
3.根据权利要求2所述的农业社会化服务质量用户评价数据分析方法,其特征在于,组件学习器中所使用的长短期记忆模型通过设置词嵌入层、长短期记忆层和全连接层对用户评价文本进行情感分类表述;首先将用户评价文本分词传入词嵌入模型中进行数据预处理操作获取到词向量,将词向量传入长短期记忆层获取到时间序列,在权重迭代过程中添加随机失活层,并且在训练过程中使用焦点损失函数。
4.根据权利要求1所述的农业社会化服务质量用户评价数据分析方法,其特征在于,细粒度情感分析层采用L个基学习器集成,基学习器基于情感三元组进行抽取,包括属性、观点、属性-观点对三者进行预测。
5.根据权利要求4所述的农业社会化服务质量用户评价数据分析方法,其特征在于,基学习器内部模型整体由四部分组成,包括预训练语言模型、属性与观点序列标注层、注意力机制层和分类层;双向编码表征模型作为预训练语言模型编码器,调用分词处理器将用户评价文本切割,生成的用户评价文本分词,通过添加分类字符和终止字符作为句向量的开头和结尾,其中经过提示掩码处理每条用户评价文本,识别变为同一定长n的句向量中作为填充长度字符的位置,经过双向编码表征模型内部编码层获取到用户评价文本在不同属性上的上下文语义表征R;属性与观点序列标注层对用户评价文本进行属性序列和观点序列特征的提取,获取到得到属性-观点对;将属性-观点对传入注意力机制层,注意力机制层处理后,得到加权表征;分类层通过Softmax分类器得到每个属性对应的情感倾向预测值。
6.根据权利要求5所述的农业社会化服务质量用户评价数据分析方法,其特征在于,注意力机制层中权重向量的计算过程如下:
;
;
其中,表示注意力机制层的第i个权重向量,/>表示上下文语义表征R的第i个元素,/>为每一次迭代更新的第i个线性层权重,/>表示第i条评价文本语义编码,对用户评价文本中不同重要程度的属性词分配不同的权重;/>对用户评价文本中的第i个属性使用tanh函数进行池化处理后,获取到的加权表征。
7.根据权利要求6所述的农业社会化服务质量用户评价数据分析方法,其特征在于,分类层通过Softmax分类器得到每个属性对应的情感倾向预测值的具体过程如下:
;
其中,表示用户评价文本中第i个属性的情感倾向预测值,/>表示迭代过程中得到的第i个偏置值。
8.根据权利要求1所述的农业社会化服务质量用户评价数据分析方法,其特征在于,将情感分析层中的L个组件学习器和L个基学习器都训练完毕后,通过for循环方法筛选出除采样集之外的袋外数据,并且通过监督式学习的标签划分为正面数据和负面数据,将正面数据和负面数据传入到训练好的情感分析层-强学习器中,粗粒度情感分析层中的每个组件学习器会分别产生一对正向和负向的F1值,将每一对F1值传入权重决策层,利用F1值计算在各个组件学习器和基学习器上不同情感倾向的可靠度权重。
9.根据权利要求8所述的农业社会化服务质量用户评价数据分析方法,其特征在于,在获取到各个基学***,无侧重的情感倾向,为水平学习器。
10.根据权利要求1所述的农业社会化服务质量用户评价数据分析方法,其特征在于,所述步骤一,分别爬取各个农业产品详情页的每一条评价用户名、评价内容和评价分数,并存储至用户评价数据csv文件中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311690636.9A CN117390141B (zh) | 2023-12-11 | 2023-12-11 | 一种农业社会化服务质量用户评价数据分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311690636.9A CN117390141B (zh) | 2023-12-11 | 2023-12-11 | 一种农业社会化服务质量用户评价数据分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117390141A CN117390141A (zh) | 2024-01-12 |
CN117390141B true CN117390141B (zh) | 2024-03-08 |
Family
ID=89472464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311690636.9A Active CN117390141B (zh) | 2023-12-11 | 2023-12-11 | 一种农业社会化服务质量用户评价数据分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117390141B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118136219A (zh) * | 2024-05-06 | 2024-06-04 | 吉林大学 | 医疗机构院感管理质量评估***及方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740154A (zh) * | 2018-12-26 | 2019-05-10 | 西安电子科技大学 | 一种基于多任务学习的在线评论细粒度情感分析方法 |
CN110457480A (zh) * | 2019-08-16 | 2019-11-15 | 国网天津市电力公司 | 基于交互式注意力机制的细粒度情感分类模型的构建方法 |
CN110532379A (zh) * | 2019-07-08 | 2019-12-03 | 广东工业大学 | 一种基于lstm的用户评论情感分析的电子资讯推荐方法 |
CN112667818A (zh) * | 2021-01-04 | 2021-04-16 | 福州大学 | 融合gcn与多粒度注意力的用户评论情感分析方法及*** |
CN113094502A (zh) * | 2021-03-22 | 2021-07-09 | 北京工业大学 | 一种多粒度外卖用户评论情感分析方法 |
WO2021164199A1 (zh) * | 2020-02-20 | 2021-08-26 | 齐鲁工业大学 | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 |
CN113688634A (zh) * | 2021-08-17 | 2021-11-23 | 中国矿业大学(北京) | 一种细粒度情感分析方法 |
KR20220071059A (ko) * | 2020-11-23 | 2022-05-31 | 주식회사 셀바스에이아이 | 감정 분석 모델에 기초한 감정 평가 방법 및 이를 이용한 디바이스 |
CN114722797A (zh) * | 2022-04-05 | 2022-07-08 | 东南大学 | 一种基于语法导向网络的多模态评价对象情感分类方法 |
WO2023065619A1 (zh) * | 2021-10-21 | 2023-04-27 | 北京邮电大学 | 多维度细粒度动态情感分析方法及*** |
CN116362620A (zh) * | 2023-04-14 | 2023-06-30 | 广东梦鸢影业有限公司 | 一种电子商务在线客户服务评价方法 |
CN116737922A (zh) * | 2023-03-10 | 2023-09-12 | 云南大学 | 一种游客在线评论细粒度情感分析方法和*** |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10861064B2 (en) * | 2018-06-12 | 2020-12-08 | Exxonmobil Upstream Research Company | Method and system for generating contradiction scores for petroleum geoscience entities within text using associative topic sentiment analysis |
US20220237386A1 (en) * | 2021-01-22 | 2022-07-28 | Nec Laboratories America, Inc. | Aspect-aware sentiment analysis of user reviews |
-
2023
- 2023-12-11 CN CN202311690636.9A patent/CN117390141B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740154A (zh) * | 2018-12-26 | 2019-05-10 | 西安电子科技大学 | 一种基于多任务学习的在线评论细粒度情感分析方法 |
CN110532379A (zh) * | 2019-07-08 | 2019-12-03 | 广东工业大学 | 一种基于lstm的用户评论情感分析的电子资讯推荐方法 |
CN110457480A (zh) * | 2019-08-16 | 2019-11-15 | 国网天津市电力公司 | 基于交互式注意力机制的细粒度情感分类模型的构建方法 |
WO2021164199A1 (zh) * | 2020-02-20 | 2021-08-26 | 齐鲁工业大学 | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 |
KR20220071059A (ko) * | 2020-11-23 | 2022-05-31 | 주식회사 셀바스에이아이 | 감정 분석 모델에 기초한 감정 평가 방법 및 이를 이용한 디바이스 |
CN112667818A (zh) * | 2021-01-04 | 2021-04-16 | 福州大学 | 融合gcn与多粒度注意力的用户评论情感分析方法及*** |
CN113094502A (zh) * | 2021-03-22 | 2021-07-09 | 北京工业大学 | 一种多粒度外卖用户评论情感分析方法 |
CN113688634A (zh) * | 2021-08-17 | 2021-11-23 | 中国矿业大学(北京) | 一种细粒度情感分析方法 |
WO2023065619A1 (zh) * | 2021-10-21 | 2023-04-27 | 北京邮电大学 | 多维度细粒度动态情感分析方法及*** |
CN114722797A (zh) * | 2022-04-05 | 2022-07-08 | 东南大学 | 一种基于语法导向网络的多模态评价对象情感分类方法 |
CN116737922A (zh) * | 2023-03-10 | 2023-09-12 | 云南大学 | 一种游客在线评论细粒度情感分析方法和*** |
CN116362620A (zh) * | 2023-04-14 | 2023-06-30 | 广东梦鸢影业有限公司 | 一种电子商务在线客户服务评价方法 |
Non-Patent Citations (7)
Title |
---|
Ensemble Learning for Assessing Degree of Humor;Chen, Jianfan 等;2022 INTERNATIONAL CONFERENCE ON BIG DATA, INFORMATION AND COMPUTER NETWORK (BDICN 2022);20220420;第492-498页 * |
SentiStory: multi-grained sentiment analysis and event summarization with crowdsourced social media data;Ouyang, Yi 等;PERSONAL AND UBIQUITOUS COMPUTING;20170228;第97-111页 * |
一种结合深度学习和集成学习的情感分析模型;金志刚;韩;朱琦;;哈尔滨工业大学学报;20180504(11);第32-39页 * |
基于BERT的文本情感分析方法的研究;方英兰;孙吉祥;韩兵;;信息技术与信息化;20200228(02);第108-111页 * |
基于产品特征树和LSTM模型的产品评论情感分析;颜端武;杨雄飞;李铁军;;情报理论与实践;20190816(12);第134-138页 * |
多语言文本情绪分析模型MF-CSEL;徐源音;柴玉梅;王黎明;刘箴;;小型微型计算机***;20190514(05);第1026-1033页 * |
集成学习在短文本分类中的应用研究;王国薇;黄浩;周刚;胡英;;现代电子技术;20191215(24);第140-145页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117390141A (zh) | 2024-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111198995B (zh) | 一种恶意网页识别方法 | |
CN104408153B (zh) | 一种基于多粒度主题模型的短文本哈希学习方法 | |
CN110119765A (zh) | 一种基于Seq2seq框架的关键词提取方法 | |
CN111143550A (zh) | 一种基于层次注意力神经网络模型的争议焦点自动识别方法 | |
CN111046670B (zh) | 基于毒品案件法律文书的实体及关系联合抽取方法 | |
CN111985239A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN112183064B (zh) | 基于多任务联合学习的文本情绪原因识别*** | |
CN108614855A (zh) | 一种谣言识别方法 | |
CN111563166A (zh) | 一种针对数学问题分类的预训练模型方法 | |
CN117390141B (zh) | 一种农业社会化服务质量用户评价数据分析方法 | |
CN112749274B (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN112905739B (zh) | 虚假评论检测模型训练方法、检测方法及电子设备 | |
CN109325125B (zh) | 一种基于cnn优化的社交网络谣言检测方法 | |
CN111538841B (zh) | 基于知识互蒸馏的评论情感分析方法、装置及*** | |
CN113360659A (zh) | 一种基于半监督学习的跨领域情感分类方法及*** | |
CN116245110A (zh) | 基于图注意力网络的多维度信息融合用户立场检测方法 | |
CN115391520A (zh) | 一种文本情感分类方法、***、装置及计算机介质 | |
CN115017879A (zh) | 文本对比方法、计算机设备及计算机存储介质 | |
CN111259115A (zh) | 内容真实性检测模型的训练方法、装置和计算设备 | |
CN112015760B (zh) | 基于候选答案集重排序的自动问答方法、装置和存储介质 | |
CN117725211A (zh) | 一种基于自构建提示模板的文本分类方法和*** | |
CN117094835A (zh) | 面向社交媒体内容的多目标群体分类方法 | |
CN114757183B (zh) | 一种基于对比对齐网络的跨领域情感分类方法 | |
CN116562291A (zh) | 一种基于边界检测的中文嵌套命名实体识别方法 | |
CN113051607B (zh) | 一种隐私政策信息提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |