CN116680363A

CN116680363A - 一种基于多模态评论数据的情感分析方法

Info

Publication number: CN116680363A
Application number: CN202310711727.XA
Authority: CN
Inventors: 陈碧云; 周国泉
Original assignee: Yancheng Teachers University
Current assignee: Yancheng Teachers University
Priority date: 2023-06-15
Filing date: 2023-06-15
Publication date: 2023-09-01

Abstract

本发明公开了一种基于多模态评论数据的情感分析方法，涉及多模态情感分析技术领域，该方法包括：通过多模态情感分析推荐利用多模态融合技术，对评论中出现的不同模态特征进行提取并分析内在的情感信息，对情感信息进行重新分类后，引入时序预测方法综合分析商品未来的情感走势，最后，提取出值得推荐的商品关键词，以及未来情绪下降的商品关键词，给卖家提供改进商品以及推荐词条的帮助；本发明通过量化了用户的多模态评论中所蕴含的情感信息，减少了原始评分和真实偏好的差异，通过的更新后的评分信息进行预测，有效提升推荐质量并精确输出商品特征。

Description

一种基于多模态评论数据的情感分析方法

技术领域

本发明属于多模态情感分析技术领域，具体涉及一种基于多模态评论数据的情感分析方法。

背景技术

现如今，网站和社交网络上的在线评论被认为是隐性信息的丰富来源，人们处在多领域交互的复杂环境下，越来越多的人通过社交媒体表达观点，所产生的多模态数据中富有复杂的情感信息，如图片、文本、评分等信息。如何挖掘多模态信息之间存在的潜在关系，并进行融合分析人们的情感并进行应用已然成为当下的热点话题。

目前，推荐算法层出不穷。Deng等利用K-medoids聚类方法解决了传统协同过滤推荐算法中出现的数据稀疏问题，但没有考虑用户和商品之间的潜在特征；Huang联系用户和商品的上下文关系，但是分析问题方式仍旧单一；而预测推荐模型在电子商务、社交网络、在线广告等领域近年来得到了广泛关注。主要用于预测用户对物品的评分或者点击率，从而实现对用户偏好的挖掘，进而为用户提供个性化的推荐服务。其中深度学习、时序模型、知识图谱和语义技术在预测推荐模型上广泛应用。Zhang基于深度学习构建了推荐模型，但没有结合时序的潜在特征；Xu添加了时序序列，增强了预测的可靠性；Zhang利用知识图谱和语义技术，使用在线评论的语义网络构建推荐模型，大大提高了推荐的准确性。

多模态技术同样为推荐算法提供了新思路。Liu提出一种混合深度推荐***，提高了跨领域商品推荐的准确性；Farahnakian等提出多模态框架，融合多个传感器信息，用于海上船舶检测；李稳安等探究了多模态推荐算法和一般算法相比，算法精度更高，推荐更加有效；针对用户评论信息，韩滕跃提出一种基于对比学习技术的多模态序列推荐算法，对商品特征进行提炼，对用户评论进行情感分析，使得推荐算法更加优越，但没有考虑到用户评论信息中可能存在的图片信息，如何通过挖掘用户纷繁芜杂的评论信息，寻找用户潜在的兴趣和偏好信息，获得对商品最真实的情感信息，成为当下研究的热点。

发明内容

针对现有技术中如何通过挖掘用户纷繁芜杂的评论信息，寻找用户潜在的兴趣和偏好信息，获得对商品最真实的情感信息的问题，本发明提供了一种基于多模态评论数据的情感分析方法，通过多模态情感分析推荐利用多模态融合技术，对评论中出现的不同模态特征进行提取并分析内在的情感信息，对情感信息进行重新分类后，引入时序预测方法综合分析商品未来的情感走势，从而解决现有技术中不清楚如何通过挖掘用户纷繁芜杂的评论信息，寻找用户潜在的兴趣和偏好信息，获得对商品最真实的情感信息的问题。

一种基于多模态评论数据的情感分析方法，包括以下步骤：

获取商品的评论数据；所述评论数据包括图片模态数据和文本模态数据；

将图片模态数据输入Swin TensorFlow模型中提取出图片模态的Embedding特征矩阵；

使用TextBlob对文本模态数据的情感做初步分类得到文本矩阵；

将文本矩阵输入至Bert模型中提取出文本模态的Embedding特征矩阵；

将图片模态的Embedding特征矩阵和文本模态的Embedding特征矩阵输入至Transformer模型中进行情感分析，获得评论数据的情感指标；

基于K-Shape对情感指标进行聚类分析，获取商品评论数据的情感特征；

使用Prophet模型对商品评论数据的情感特征进行时序预测，根据预测结果分析商品未来的情感趋势。

进一步地，所述图片模态数据的Embedding特征矩阵，其提取步骤包括：

对图片模态数据中的特征进行提取；

将提取到的图片特征输入SwinTransformer模型进行计算；

根据计算结果获得图片的特征向量。

进一步地，所述将提取到的图片特征输入Swin Transformer模型进行计算，其计算过程包括：

对输入的图片进行Patch Embedding，将图片分割成多个小块，并将每个小块转换成一个向量；

将每个小块输入至Transformer的Encoder中对每个小块计算一个权重，对每个小块的特征向量加权；

使用全连接神经网络对得到的加权向量进行变换和特征提取后，使用矩阵乘法将其映射回原始维度，将每个小块的特征向量转换为一个新的向量，得到图片特征向量。

进一步地，所述文本模态数据的Embedding特征矩阵，其提取步骤包括：

对评论数据进行情感分析；

对评论数据中的文本模态数据进行初步情感分类；

利用Text Blob构造新文本特征矩阵T；

对新文本特征矩阵T进行归一化处理；

将处理后的新文本特征矩阵T输入至Bert模型内进行特征提取，获得Embedding特征矩阵。

进一步地，所述对评论数据中的文本模态数据进行初步情感分类采用深度学习的方法，所述采用深度学习的方法用于减少文本数据特征的冗余性。

进一步地，采用预训练表征模型Bert对所述评论数据进行情感分析，其分析过程包括：

使用基于词典的分析方法对文本模态数据进行情感标注；

根据文本模态数据中标注出来的词性、否定词、程度副词、标点符号和情感符号，计算出文本模态数据的情感值，其计算公式为：

S_{i_ad}＝MAX(-1,MIN(S_i*S_ad,1))

其中，polarity得分代表了评论文本的情感值，K表示评论文本中的情感词数，S_i表示当前情感词的值；S_{i_ad}表示带有程度副词的感伤词的情感值；n表示与感伤词相关的否定词数；S_punc表示标点符号的情感值；S_em表示情感符号的情感值，MAX表示保持最大值，MIN表示保持最小值。

进一步地，所述获得评论数据的情感指标，其步骤包括：

将矩阵X分别传递到多个不同的Self-Attention中，计算得到多个输出矩阵；

使用Multi-Head Attention将得到的多个输出矩阵拼接在一起，然后传入一个Linear层，得到Multi-Head Attention最终的输出结果；其中所述Multi-Head Attention包含多个Self-Attention层；

输出结果通过残差连接后，使用Softmax函数输出情感值。

进一步地，所述输出矩阵的计算过程，包括以下步骤：

将图片模态和文本模态的Embedding特征矩阵X输入到Self-Attention，得矩矩阵Q，K，V；

依据矩阵Q，K，V计算出Self-Attention的输出，其计算公式为：

其中d_k是Q，K矩阵的列数，即向量维度。

进一步地，所述基于K-Shape对评论数据进行聚类分析，其步骤包括：

获取不同数据相同时间点内出现的多条数据；

通过归一化互相关NCC确定多条数据等长序列的相似性，得到所有序列的平移情况

根据所有序列的平移情况计算得到互相关系数/>进而计算KShape算法中距离度量SBD，其计算公式为：

其中，表示利用R₀来计算x和y在每一步的相似度，在对应的位置计算点积，R₀是有效区域的点积之和；

计算类内所有的时间序列的最佳偏移量；

将聚类中心作为参考并将所有的序列与这个参考的序列对齐；

依据SBD距离度量和形状提取方法来生成时间序列的聚类；

通过分析同一天内的数据聚类情况，从而获得当天评论集合的综合情感数据。

进一步地，所述Prophet模型表示为：

y(t)＝g(t)+s(t)+h(t)+ε(t)

其中，g(t)代表时间序列在非周期方面的变化趋势，s(t)代表周期项或季节性项，通常在以周或年为单位的周期内使用，h(t)代表节假日项，ε(t)为误差项，表示模型未预测到的波动，且ε(t)服从高斯分布；通过分段线性函数预测未来情感趋势，其表达式为：

g(t)＝(k+α(t)^Tδ·t+(m+α(t)^Tγ))

其中，k代表增长率，δ表示增长率的变化量，范围在δ_j～Laplace(0，0.05)之间；因此，当γ趋近于零的时候，δ_j也是趋向于零的，此时的增长函数将变成全段的逻辑回归函数或者线性函数；m表示偏移量，当增长率k调整后，每个changepoint点对应的偏移量m被适当调整，从而连接每个分段的最后一个时间点，表达式如下：

获得对应的增长率的变化量为δ_j～Laplace(0，γ)，进而拟合出未来商品的情感趋势。

本发明提供了一种基于多模态评论数据的情感分析方法，具备以下有益效果：

本发明通过多模态融合技术，对评论中出现的图片模态数据和文本模态数据特征进行提取并分析内在的情感信息，对情感信息进行重新分类后，引入时序预测方法综合分析商品未来的情感走势，最后，提取出值得推荐的商品关键词，以及未来情感值下降的商品关键词，给卖家提供改进商品以及推荐词条的帮助；本发明通过量化了用户的多模态评论中所蕴含的情感信息，减少了原始评分和真实偏好的差异，通过更新后的评分信息进行预测，有效提升推荐质量并精确输出商品特征；同时提取用户评论中的偏好信息，帮助商品厂商针对用户的兴趣和偏好从而改进商品、修改广告词以实现营收。

附图说明

图1为本发明实施例中多模态情感分析流程图；

图2为本发明实施例中文本特征提取过程示意图；

图3为本发明实施例中图片特征提取过程示意图；

图4为本发明实施例中多模态融合过程示意图；

图5为本发明实施例中Self-Attention结构示意图；

图6为本发明实施例中线性变换过程示意图；

图7为本发明实施例中Multi-HeadAttention结构示意图；

图8为本发明实施例中支持人数的分布曲线图；

图9为本发明实施例中时序聚类预测情感分类图；

图10为本发明实施例中时序聚类分析结果曲线图；

图11为本发明实施例中“1780674880”书籍情感分布图；

图12为本发明实施例中“1780674880”时序情感预测结果分布图；

图13为本发明实施例中“1780674880”情感趋势曲线图；

图14为本发明实施例中“1635615372”商品情感预测曲线图；

图15为本发明实施例中“1635615372”情感趋势曲线图；

图16为本发明实施例中“B017WJ5PR4”与“B001C4VLZQ”情感趋势对比曲线图；

图17为本发明实施例中“B017WJ5PR4”词频柱形图；

图18为本发明实施例中“B017WJ5PR4”词云分布图；

图19为本发明实施例中“B001C4VLZQ”词频柱形图；

图20为本发明实施例中“B001C4VLZQ”词云分布图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

随着互联网的飞速发展，人们处于一个信息不断膨胀的时代，用户需要处理的信息量远大于用户信息接受能力，从而影响最终决策，推荐***应运而生，它有效缓解了繁杂的数据带来的信息过载问题。个性化推荐***作为人工智能的一个重要分支，在电子商务领域，能够方便、快捷的从繁杂的信息中寻找出更适合用户喜好的商品进行推荐。Zahra综合用户地理位置和人口统计，提出GHRS算法，有效解决了冷启动问题；通过情感分析音乐本身情绪，Polignano的一致性情绪感知算法使得推荐的准确度又上了一个新台阶。

而预测推荐模型在电子商务、社交网络、在线广告等领域近年来得到了广泛关注。主要用于预测用户对物品的评分或者点击率，从而实现对用户偏好的挖掘，进而为用户提供个性化的推荐服务。其中深度学习、时序模型、知识图谱和语义技术在预测推荐模型上广泛应用。Zhang基于深度学习构建了推荐模型，但没有结合时序的潜在特征；Xu添加了时序序列，增强了预测的可靠性；Zhang利用知识图谱和语义技术，使用在线评论的语义网络构建推荐模型，大大提高了推荐的准确性。

目前，多模态融合技术多用于计算机视觉、NLP和语音识别等领域，并在这些领域取得显著成果。视觉信息和文本特征相结合，进行了情感识别，在文本分析中捕捉情感或态度的信息。通过多模态方法也可以提高计算机对现实世界的理解和感知能力，从而设计出新颖的虚拟/增强现实应用。多模态技术同样为推荐算法提供了新思路。

但是基于多模态的推荐算法仍然面临着以下挑战：

1、用户评论大量虚假导致模型可信度偏低；

2、采用何种融合方式提高推荐算法的精准性；

3、如何挖掘融合分析中不同数据之间的相关性；

4、融合分析中数据的异质性匹配问题；

5、海量评论信息中存在的潜在特征如何处理。

根据图1所示，本发明提供一种基于多模态评论数据的情感分析方法，多模态情感分析推荐利用多模态融合技术，对评论中出现的不同模态特征进行提取并分析内在的情感信息；对情感信息进行重新分类后，引入时序预测方法综合分析商品未来的情感走势；最后，提取出值得推荐的商品关键词，以及未来情绪下降的商品关键词，给卖家提供改进商品以及推荐词条的帮助。其方法包括如下步骤：

(1)图片特征提取；对于上传的图片模态数据，输入Swin TensorFlow模型提取Embedding特征矩阵。如图3所示。

由于书本评论图片具有复杂的特征和背景，以及对于明信片、卡片等有很强的相似性，所以图片处理采用基于滑动窗口机制，具有层级设计(下采样层)的SwinTransformer，其模型具有以下优点：具有全局建模的能力；有效提取各个尺度的特征信息；有效处理更大分辨率的图片。Swin Transformer拥有了像卷积神经网络一样分层的结构，能够提取出多尺度的特征，所以很容易使用到下游任务里。Swin Transformer的优势在于，在ViT的基础上将hierarchy(层次性)、locality(局部性)、translation invariance(平移不变性)等先验引入Transformer网络结构设计从而能在视觉任务中取得更好的性能。在判断评论图片是否为书本中能够有效分析出图片特征。

用户评论信息中包含多张图片，这些图片反映了用户评论的真实性，其隐含的情感特征能够反映用户对商品综合评价。

首先需要将多张图片中的特征进行提取，使用包含滑动窗口层级设计的SwinTransformer，能够有效提取评论中所包含的图片信息。

Swin Transformer模型是一个基于Transformer的图像分类模型，它使用自注意力机制来处理图像特征。在这种模型中，将图像特征看作是输入序列，并使用Transformer的结构来提取特征。将图像输入Swin Transformer模型时，首先对图像进行PatchEmbedding；这个过程将图像分割成许多小块(patch)，并将每个小块转换为一个向量；这个向量表示了小块的信息，可以作为后续处理的输入；对于每个小块，将其输入到Transformer的Encoder(前反馈层)中进行处理。

Encoder的第一层是Self-Attention Layer(自注意力层)。这一层的主要作用是为每个小块计算一个权重，以捕捉小块之间的关系。具体来说，对于每个小块，我们计算它与其他小块的相似度，并将相似度归一化为概率值。这些概率值用于加权小块的特征向量，得到一个表示与其他小块之间关系的向量。

将这些加权向量传递到前馈层中进行处理。使用全连接神经网络来对向量进行变换和特征提取。再次使用矩阵乘法来将其映射回原始维度。这个过程将每个小块的特征向量转换成一个新的向量，其中包含了与其他小块之间的关系和不同的特征，最终得到了图片特征向量。

(2)文本特征处理；对于文本模态数据，先使用TextBlob对情感做初步分类(TextBlob是一个python中库，其中的情感分析功能可以完成对文本情感的标注)，构建新特征，输入Bert提取Embedding特征矩阵用于融合分类；如图2所示。

评论数据中出现的文本数据，需要进行情感分析从而构建评论信息所表达的真实情感，保持对商品偏好喜爱的准确性。一般来说，文本分类主要有三种方法：基于规则特征匹配的方法、传统的机器学习方法和提供深度学习的方法，与传统的文本分类模型相比，深度学习方法可以通过多层次语义操作获得更高层次、更抽象的语义表示，并将特征提取集成到模型构建过程中，以减少手工设计的特征的不完全性和冗余性。

本发明数据量较为庞大，特征较多，所以采用深度学习的方法减少特征的冗余性，在对情感进行量化之前需要对评论数据进行情感分析，通过TextBlob文本处理库对评论数据进行语义分析，给出每个单词的情感值后，对评论数据进行初步分类。进行分类后进行深度学习进行进一步的特征提取。

使用预训练表征模型Bert，挖掘文本评论深层次的特征，能够融合左右上下文信息进行深层双向语言表征，让评论数据更加客观化，情感分析更加精准。

由于评论信息中没有评论用户的情感倾向，需要对文本信息的训练集进行初步标注，但是Wajdi Aljedaani提出手动标注耗时且主观性过强，使用基于词典的分析方法对文本模态进行情感标注。

TextBlob在计算情感值时综合考虑词性、否定词、程度副词、标点符号和情感符号。在每一个文本信息中，′sentiment′(指对文本进行情感分析得出的情感极性值)属性返回一个命名元组，形式为“Sentiment(polarity，subjectivity)”。polarity得分代表了评论文本的情感值，反映了评论文本的正面或负面程度。

S_{i_ad}＝MAX(-1，MIN(S_i*S_ad，1)) (2)

其中K表示评论文本中的情感词数，S_i表示当前情感词的值；S_{i_ad}表示带有程度副词的感伤词的情感值；n表示与感伤词相关的否定词数；S_punc表示标点符号的情感值；S_em表示情感符号的情感值。MAX表示保持最大值，MIN表示保持最小值。

情感值在[-1.0，1.0]范围内变化，其中-1.0是非常负的，而1.0是非常积极的。主观性在范围[0.01.0]内变化，其中0.0是非常客观的，1.0是非常主观的。情感分析是一种主观性分析，所以只取不为0的作为训练集特征输入。

在进行特征融合之前需要将文本特征进行提取，本发明采用Berts中的WordPiece进行特征提取，WordPiece算法，主要的实现方式叫做BPE(Byte-Pair Encoding)双字节编码。BPE的过程把一个单词再拆分，这样可以把词的本身的意思和时态分开，有效的减少了词表的数量。之后将数据输入作为每一个token对应的表征，表征是由三部分组成的，分别是对应的token，分割和位置embeddings。

为了分开不同的句子tokens，在序列tokens中***了分割token([SEP])。随后，为了区分每个token所属的句子，每个token表征添加了一个可学习的分割embedding。

将文本看作是一个序列，每个单词都是该序列中的一个元素。文本序列首先被嵌入到高维空间中，嵌入后的向量将被送到多层Transformer编码器中。使用一个注意力机制来计算每个词与其他词之间的相对权重，并且对对应的加权向量进行累加，从而计算该层的输出。在前馈子层中，我们使用一个全连接的神经网络来处理该层的输出，进一步提取文本的特征。BERT将每个单词向量作为输入，并计算单词之间的注意力分布，以表示单词之间的上下文关系，从而提取文本的特征，最终得到文本特征向量。

(3)多模态融合；将步骤1和步骤2中的文本模态和图片模态的Embedding特征矩阵输入Transformer进行情感分析，输出情感指标；如图4所示。

由于评论数据常常具备图片和文本两种形式，本发明采取多模态融合技术分析用户评论的情感信息，增强准确度。由于数据集较大，出现的特征值较多，采取先融合的方式使用Transformer进行情感分析。2014年，Bengio团队提出了Transformer模型，该模型利用了注意力机制来提高深度学习模型在各个领域中的训练速度，并在近年来被广泛应用。由于Swin Transformer和Bert都是基于Transformer衍生出的深度学习框架，仅需要通过他们提取图片和文本的Embedding值输入到Transformer，就得出能够很好的情感分析结果。通过Encoder-Decoder从未标记特征中预训练出一个深度双向表示模型，最终通过SoftMax输出用户的情感指标。

在进行情感分析之前，需要确保数据的一致性，弥补不同模态的异质性差异，提高情感识别的准确性。评论数据中大多是由图片和文本构成的多模态数据，需要对图片模态提取特征单独编码，对于文本模态需要先进行情感预分类。通过多模态融合技术，使用深度学习分析评论情感。通过图4的多模态架构，能够融合图片和文本的多模态特征，以增强情感分析的准确性。

将获得的文本模态和图片模态的Embedding向量输入到Self-Attention(自注意力机制)；图5是Self-Attention的结构，在计算的时候需要用到矩阵Q(查询),K(键值),V(值)。在实际中，Self-Attention接收的是输入(单词的表示向量x组成的矩阵X)或者上一个Encoder block的输出。而Q,K,V正是通过Self-Attention的输入进行线性变换得到的。

Self-Attention的输入用矩阵X进行表示，则可以使用线性变阵矩阵WQ,WK,WV计算得到Q,K,V。计算如图6所示，注意X,Q,K,V的每一行都表示一组特征。

得到矩阵Q,K,V之后就可以计算出Self-Attention的输出，计算的公式如下：

其中d_k是Q,K矩阵的列数，即向量维度。

从图7可以看到Multi-Head Attention包含多个Self-Attention层，首先将输入X分别传递到h个不同的Self-Attention中，计算得到h个输出矩阵Z。Multi-Head Attention将它们拼接在一起(Concat)，然后传入一个Linear层，得到Multi-Head Attention最终的输出Z。通过残差连接后，使用Softmax输出情感值。

(4)基于时序聚类分析；对步骤3中处理好的情感数据进行时序聚类，并综合一天内出现的多条评论数据。

通过融合后得出的综合情感信息，使用时序聚类能够准确分析出评论数据中隐藏的潜在价值信息。时序聚类分为三种方法：全时间序列聚类、子序列聚类、时间点聚类。

本发明使用全时间序列的聚类方法，对一组时间序列内对多个序列数据进行聚类，分析其潜在的情感特征。K-Shape作为一种独立于领域、高精度、高效率的时间序列聚类方法，相较于传统的聚类方法，时序聚类效果更好。本发明基于K-Shape对评论情感数据进行聚类分析，寻找商品评论间的潜在信息以及商品评论随时间的情感波动。通过聚类发现潜在的情感特征后，通过一天内出现的多个评论情感分析出这一天内对商品的总体评价。

对于一天内出现的多条评论数据，经过情感分析后会出现多条指标，此时需要进行时序聚类分析这天内的综合情感指标，发现潜在的规律。对于不同数据相同时间点内出现的多条数据，需要对多个时间序列进行聚类，

KShape原理和Kmeans相似，不同在于它改进了距离计算方法，并优化了质心计算方法。一方面支持振幅缩放和平移不变性，另一方面计算效率也比较高，并且不用手动设置参数，便于扩展到更多领域。该算法具有对缩放和移动不变性的距离度量SBD。

通过归一化互相关NCC(Normalized cross-correlation)确定等长序列的相似性。及知道了所有的序列平移情况后可以计算互相关系数/>有了互相关系数，就可以给出SBD的定义：

其中，表示利用R₀来计算x和y在每一步的相似度，在对应(在x和y中都存在)的位置计算点积，R₀是有效区域的点积之和(对每个对上的小块的乘积加和)，R₀越大两个序列越相似。

之后需要对类内所有的时间序列计算一个最佳的偏移量，首先将每个时间序列分配给最近的质心簇来更新簇成员关系，接着在更新质心时，更新每个簇质心以反映前一步骤中簇成员的变化。这两个步骤将重复进行，直到集群成员身份没有变化或达到允许的最大迭代次数；把前一次计算得到的聚类中心作为参考并把所有的序列与这个参考的序列对齐，依赖于SBD距离度量和形状提取方法来高效地生成时间序列的聚类。之后通过分析同一天内的数据聚类情况，从而获得当天评论集合的综合情感数据。

(5)时间序列预测推荐；对步骤4中处理好的时序序列进行预测，分析出商品未来的情感走势，推荐更加优越的商品；并给出评论特征，为卖家提供改进推荐词条和商品功能。

根据K-Shape时间聚类处理好的情感数据进行时序预测，可以得出未来商品的情感趋势，从而更加准确的推荐优质商品。由于本发明的评论数据集的时序不是连续的，而是一段接着一段的时序聚类，由于从众心理，评论的情感数据会出现大量的周期性特征，使用Prophet进行时序预测可以很好的处理部分缺失值的情形，且能够在较短时间内获得想要的预测结果。Prophet不需要特征工程就可以得到趋势，但无法利用更多信息，通过多模态融合技术分析情感数据，可以让Prophet专注于预测就可以达到很好的拟合结果。

在同一天内存在大量评论，通过K-Shape聚类分析后的数据进行整合，仍然存在评论数据时序不连续的情况。

Prophet是基于非线性趋势与年度、每周和每日季节性以及假日效应的附加模型预测时间序列数据的过程。Prophet的设计和实现着重于规避传统时间序列模型(如ARIMA)中存在的若干缺点，例如对异常数据的处理不足、难以对趋势和季节性的变化进行建模等问题。

Prophet是时序加模型，Prophet算法就是通过拟合，累加得到时序预测值。

y(t)＝g(t)+s(t)+h(t)+ε(t) (5)

在这个模型中，g(t)代表时间序列在非周期方面的变化趋势；而s(t)代表周期项或季节性项，通常在以周或年为单位的周期内使用；h(t)代表节假日项，这表示潜在的、非固定周期的节假日对预测值造成的影响；ε(t)即误差项或者称为剩余项，表示模型未预测到的波动，ε(t)服从高斯分布；通过分段线性函数可以预测未来情感趋势。

g(t)＝(k+α(t)^Tδ·t+(m+α(t)^Tγ)) (6)

其中，k代表增长率，趋势走线在某一特定时期或某一潜在的周期曲线会发生变化，模型定义了增长率k发生变化时对应的点，将其称作changepoints。δ表示增长率的变化量，而变化点的增长率是满足Laplace分布，范围在δ_j～Laplace(0，0.05)之间；因此，当γ趋近于零的时候，δ_j也是趋向于零的，此时的增长函数将变成全段的逻辑回归函数或者线性函数。m表示偏移量，当增长率k调整后，每个changepoint点对应的偏移量m被适当调整，从而连接每个分段的最后一个时间点，表达式如下：

从历史上长度为T的数据中，可以选择出s个变点，它们所对应的增长率的变化量是δ_j～Laplace(0，γ)。从而拟合出未来商品的情感走势，并进行推荐。

(6)实验证明。

1.实验环境：硬件和软件平台是一个使用Inter核心I7-980×3.33GHz的PC，GPU使用GTX 3090和32G内存。实验环境大致如表1所示。

表1实验软硬件环境

2.评价指标：本发明选择了传统的评价指标：精密度、召回率、准确性和评分。F1 PN T F(阳性)和(阴性)表示模型的判断结果，True和False表示模型的判断结果是否正确。计算结果如下：

其中，TP为正确分类为阳性的样本数，FP为错误分配给主动的样本数，FN为原本属于负类别但被分配到另一个类别的样本数。

为了进一步描述模型的精度，我们还选择了均方误差(MSE)和平均绝对误差(MAE)。在MSE和MAE中，当预测值与实值完全一致时，它等于0，即完美模型。误差越大，其值就越大。其中为样本的预测值，为第i个样本的真实值。

3.数据集介绍：作为推荐***的经典数据集Amazon Review Dataset，该数据集记录了用户对亚马逊网站商品的评价。数据集根据商品类别分为Books，Electronics，Moviesand TV，CDs andVinyl等子数据集，这些子数据集包含两类信息，一类是商品信息，另一类是用户评分记录信息。

本发明使用的数据是Books数据，从中包含4w张图片和2.7kw评论数据，包含字段，涵盖了从1990至2018年期间的所有评分信息。表2列出来了数据集中的相关属性。

表2亚马逊数据集标签

4.数据预处理：由于从Amazon Review Data下载的数据为JSON数据，需要将JSON文件读取并转为CSV文件。从中分析出图片是以URL形式标注，使用爬虫技术读取商品图片信息。从中清除重复值，转换后的缺失值使用NAN值所替代。当关键信息，如图片、文本、时间等如果在一行中缺失的值过多，则直接删除它们，以提高算法的鲁棒性和预测的准确性。对于噪声数据，数值不合理情况，作为异常值移除。

由于原始特征上的评论文本数据由一个或几千个单词构成，数据特征较为冗余，使用其映射的低维数据Summary构建初步分类，减少计算的复杂性。

由于数据中可能包含虚假评论，通过观察评论前1w条评论支持人数的分布，如图8，可以确定当支持人数大于5个时，评论信息可认为是有效信息，由于评论数据集拥有2.7kw数据，使用随机采样的方式，采取2w个含有图片和文本的数据进行训练。

5.实验结果与分析。

文本特征提取实验：将评论数据集中的文本模态进行初步情感分类，利用TextBlob构造新特征T，将新特征进行归一化处理。将T的范围控制在[0,1]内，当T越靠近0时，则情感越消极，越靠近1则情感越积极。然后将T文本矩阵输入Bert内进行特征提取，获得Embedding特征矩阵。

图片特征提取实验：利用SwinTransformer提取图片特征，评论数据集中一条评论可能对应多张图片，所以需要构建多张图片的Embedding特征矩阵，并调整图片模态和文本模态之间特征的权重比例，让数据特征进行对齐。

多模态融合特征实验：将获得的文本和图片Embedding特征矩阵，输入到Transformer内进行Encoder和Decoder，最终通过SoftMax输出最终的情感分值e-score，其中e-score处于[0,1]之间，越接近于0，则越消极，越接近于1，则越积极。

情感的时序聚类：将实验中得到的最终情感分值e-score，通过时序聚类，从而分析出情绪评分可以分为6类，按照如下图9所示的区间划分情感为6大类。

接下来使用距离函数SBD进行降维处理，从而确定当天的综合情感指标。通过图10看出，当score大于0时，则情感为积极，小于0时，则情感为消极，如第21天的评论数据最消极，属于第6类。

情感时序预测推荐，包括：

时序预测算法的确定：通过之前的实验，我们可以得到每天的情感评分score，选取一种书籍为例，这里我们选取编号为“1780674880”进行试验，可以得到该书1998年到2018年的情感评分时间序列，如图11所示。为了更好的进行时间序列预测，我们采用了Prophet、ARIMA、SARIMA以及LSTM这四中不同的算法进行建模分析，对编号1780674880进行预测分析，其结果如下表3所示。

表3时序预测精度

从表3中发现Prophet预测精度最高，其MAE和MSE两个指标的精度都是最优，所以我们选择Prophet时序预测模型。

不同书籍时序分析：采用Prophet算法对编号“1780674880”和“1635615372”两种不同的书籍进行预测分析，得到未来一年内的两种书籍的情感数据以及情感趋势。从图12和图13中，分析未来一年内的情感数据以及情感变化趋势，不难看出，书籍类别“1780674880”的购买情绪呈增长趋势，进一步反映出该书籍越来越受大众喜爱。

同时，对“1635615372”书籍商品拟合并预测，如图14所示，预测出一年购买情绪逐步递减，通过分析趋势，如图15，发现购买者情绪呈现下降趋势，说明该书籍可能不受大众喜欢，店铺需要更改销售策略。

时序预测推荐：随机挑选5种不同的书籍，做推荐实验，预测消费者对他们的喜爱程度；通过分析五种不同书籍的情感趋势，如图16所示，不难发现“B017WJ5PR4”书籍呈现不断增长的趋势，未来更受大众喜好；而“B001C4VLZQ”书籍刚出现时，情感指标比其他四种书籍刚出现时更高，但是随着时间推移，情感呈现陡降，未来将不会被认可。

为了进一步分析消费者偏好，本发明选取情感趋势上升最大的编号“B017WJ5PR4”和下降趋势最明显的“B001C4VLZQ”进行研究，分别其上升和下降趋势的具体原因。如图17、图18、图19和图20，通过统计两种书籍的评论词频，提取评论数据中的词语，分析得出“B017WJ5PR4”是哈利波特系列，此类书籍面向中小学、大学生，推崇程度高；而对于“B001C4VLZQ”书籍，是关于谈吐习惯的书籍，主要面向商务人士，对于商户可以更新相关广告词以吸引更多客户。

消融试验：基于多模态的情感分析准确率高达94％，为了确保多模态情感分析的有效性，本发明做了消融试验。试验结果如下表4：

表4消融试验结果

	Precision	Accuracy	Recall	F1	MAE	MSE
							多模态	0.9411	0.9406	0.9396	0.9398	0.05944	0.5944
FastText	0.6044	0.6065	0.597	0.5685	0.3935	0.3935
							Bert	0.25	0.4999	0.5	0.3316	0.5001	0.5001
Convnext	0.5392	0.944	0.5117	0.5249	0.05031	0.03025
							Restnet50	0.6054	0.9182	0.5657	0.5837	0.0753	0.0753

本发明对文本模态进行单独的情感分析，试验表明FastText精确度和准确度只有60％。Bert深度学习情感分类效果更差，精确度和准确度分别只有25％和49％。

对图片数据进行单独的识别，使用Convnext的精确度只有53％准确度有94％，由于特征较多导致识别不够精确，精确度上远比不上多模态融合算法；使用RestNet50对图片进行识别，其精确度和准确度分别有60％和91％，相较于Convnext，精确度有所提升但是其余指标不如Convnext。

通过消融试验表明，多模态融合技术对评论的情感识别更加准确，确保了后期预测推荐模型的准确性。

本发明对文本模态进行单独的情感分析，试验表明FastText精确度和准确度只有60％。Bert深度学习情感分类效果更差，精确度和准确度分别只有25％和49％。对图片数据进行单独的识别，使用Convnext的精确度只有53％准确度有94％，由于特征较多导致识别不够精确，精确度上远比不上多模态融合算法；使用RestNet50对图片进行识别，其精确度和准确度分别有60％和91％，相较于Convnext，精确度有所提升但是其余指标不如Convnext。通过消融试验表明，多模态融合技术对评论的情感识别更加准确，确保了后期预测推荐模型的准确性。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于多模态评论数据的情感分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多模态评论数据的情感分析方法，其特征在于，所述图片模态数据的Embedding特征矩阵，其提取步骤包括：

对图片模态数据中的特征进行提取；

将提取到的图片特征输入SwinTransformer模型进行计算；

根据计算结果获得图片的特征向量。

3.根据权利要求2所述的一种基于多模态评论数据的情感分析方法，其特征在于，所述将提取到的图片特征输入Swin Transformer模型进行计算，其计算过程包括：

4.根据权利要求1所述的一种基于多模态评论数据的情感分析方法，其特征在于，所述文本模态数据的Embedding特征矩阵，其提取步骤包括：

对评论数据进行情感分析；

对评论数据中的文本模态数据进行初步情感分类；

利用Text Blob构造新文本特征矩阵T；

对新文本特征矩阵T进行归一化处理；

5.根据权利要求4所述的一种基于多模态评论数据的情感分析方法，其特征在于，所述对评论数据中的文本模态数据进行初步情感分类采用深度学习的方法，所述采用深度学习的方法用于减少文本数据特征的冗余性。

6.根据权利要求4所述的一种基于多模态评论数据的情感分析方法，其特征在于，采用预训练表征模型Bert对所述评论数据进行情感分析，其分析过程包括：

使用基于词典的分析方法对文本模态数据进行情感标注；

S_{i_ad}＝MAX(-1,MIN(S_i*S_ad,1))

7.根据权利要求1所述的一种基于多模态评论数据的情感分析方法，其特征在于，所述获得评论数据的情感指标，其步骤包括：

输出结果通过残差连接后，使用Softmax函数输出情感值。

8.根据权利要求7所述的一种基于多模态评论数据的情感分析方法，其特征在于，所述输出矩阵的计算过程，包括以下步骤：

将图片模态和文本模态的Embedding特征矩阵X输入到Self-Attention，得到矩阵Q,K,V；

依据矩阵Q,K,V计算出Self-Attention的输出，其计算公式为：

其中d_k是Q，K矩阵的列数，即向量维度。

9.根据权利要求8所述的一种基于多模态评论数据的情感分析方法，其特征在于，所述基于K-Shape对评论数据进行聚类分析，其步骤包括：

获取不同数据相同时间点内出现的多条数据；

其中，表示利用R₀来计算x和y在每一步的相似度,在对应的位置计算点积，R₀是有效区域的点积之和；

计算类内所有的时间序列的最佳偏移量；

依据SBD距离度量和形状提取方法来生成时间序列的聚类；

10.根据权利要求1所述的一种基于多模态评论数据的情感分析方法，其特征在于，所述Prophet模型表示为：

y(t)＝g(t)+s(t)+h(t)+ε(t)

g(t)＝(k+α(t)^Tδ·t+(m+α(t)^Tγ))

其中，k代表增长率，δ表示增长率的变化量，范围在δ_j～Laplace(0,0.05)之间；因此，当γ趋近于零的时候，δ_j也是趋向于零的，此时的增长函数将变成全段的逻辑回归函数或者线性函数；m表示偏移量，当增长率k调整后，每个changepoint点对应的偏移量m被适当调整，从而连接每个分段的最后一个时间点，表达式如下：

获得对应的增长率的变化量为δ_j～Laplace(0,γ)，进而拟合出未来商品的情感趋势。