CN110532379B - 一种基于lstm的用户评论情感分析的电子资讯推荐方法 - Google Patents

一种基于lstm的用户评论情感分析的电子资讯推荐方法 Download PDF

Info

Publication number
CN110532379B
CN110532379B CN201910610182.7A CN201910610182A CN110532379B CN 110532379 B CN110532379 B CN 110532379B CN 201910610182 A CN201910610182 A CN 201910610182A CN 110532379 B CN110532379 B CN 110532379B
Authority
CN
China
Prior art keywords
electronic information
user
data
information
comment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910610182.7A
Other languages
English (en)
Other versions
CN110532379A (zh
Inventor
黄海深
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201910610182.7A priority Critical patent/CN110532379B/zh
Publication of CN110532379A publication Critical patent/CN110532379A/zh
Application granted granted Critical
Publication of CN110532379B publication Critical patent/CN110532379B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于LSTM的用户评论情感分析的电子资讯推荐方法,包括获取用户的电子资讯评论信息与电子资讯属性信息;电子资讯及其评论信息清洗以及预处理;设置维度参数并构建词向量矩阵;通过深度学习方法进行电子资讯特征的情感分析;基于情感分析数据建立用户兴趣模型;计算用户对电子资讯兴趣度并进行电子资讯推荐。本发明结合了深度学习的方法,利用基于LSTM的深度学习方法训练经过处理后获取的数据,基于已进行情感分析后的数据建立兴趣模型并进行推荐。本方案还考虑了新用户和未评论过的用户的电子资讯推荐方式,利用K‑means聚类算法,对用户属性进行聚类,从而根据深度学习训练的结果,更加准确地推荐电子资讯的内容。

Description

一种基于LSTM的用户评论情感分析的电子资讯推荐方法
技术领域
本发明涉及数据挖掘以及深度学习技术领域,具体涉及一种基于LSTM的用户数据情感分析的推荐方法。
背景技术
互联网技术、设备和网络资源的逐步发展和日趋丰富使人们的日常生活与Internet的关系愈来愈密不可分,各种互联网应用逐渐渗透到大众日常生活娱乐等各个方面。同时人们的经济与生活水平逐渐提高,在学习和娱乐等方面,人们不再局限于纸质版的读物,越来越多人选择电子资讯来获取目前的各类信息并参与在线评论。但是由于电子资讯内容太过丰富,如何从过量的电子资讯中找到自己感兴趣的成为了一个焦点。这使得电子资讯的分类成为目前一个重要问题,并且电子资讯推荐***也成为了解决上面难题的有效手段
在目前的推荐领域中,主流的推荐算法有:基于协同过滤的推荐***,包含基于用户的协同过滤算法与基于物品的协同过滤算法;另外有基于内容的推荐***,还有混合推荐***。
协同过滤算法主要是通过构建用户兴趣模型基于用户行为数据进行推荐,通过对用户数据的分析,来发现拥有偏好相似度较高的用户和电子资讯。但这个算法存在一些问题,如***可能向用户推荐其并不感兴趣但其相似用户却喜欢的电子资讯,另外,协同过滤算法还存在冷启动状况,即对新用户、电子资讯评价数目较少的目标用户推荐具有困难,反而会对热门电子资讯推荐较多。虽然这些问题对推荐***整体的准确率的误差作用有限,但是这说明此推荐方法仍然存在缺陷。
基于内容的推荐,是通过对电子资讯内容,类型等特征进行数值上的提取与分解,通过对特征值的回归或者分类运算,得出用户对电子资讯的评分信息,然后基于评分来针对目标用户进行推荐。其缺点在于对电子资讯的数据结构有较高的要求,数据需具有较完整的内容信息与容易提取的条件,同时对于稀疏数据的推荐效果较差。
混合方法的建模成本较高,需综合多个推荐算法,并且很多情况下混合算法针对单一具体的实际改进效果并不理想。
但是在上述现有技术中,基于内容过滤能考虑到电子资讯的相似而不能考虑到电子资讯的时效性,所以推荐效果不理想;基于协同过滤,必须是鉴于访问用户而进行的推荐,对时效性要求较高的电子资讯推荐而言只推荐被访问过的人们电子资讯,故在协同过滤中,就会生成一些过期的电子资讯。同时,上述技术在为用户推荐电子资讯时没有考虑用户的情感问题,不能够推荐符合用户心情、积极正向引导用户情感的电子资讯。
发明内容
为了弥补现有推荐方法在考虑情感分析方面空缺,并且将深度学习的知识结合情感分析和推荐***结合起来,本发明公开了一种基于LSTM的用户评论情感分析的电子资讯推荐方法。
为了实现上述任务,本发明采用以下技术方案:
一种基于LSTM的用户评论情感分析的电子资讯推荐方法,包括以下步骤:
步骤1,获取用户的电子资讯评论信息与电子资讯属性信息;
步骤2,电子资讯及其评论信息清洗以及预处理;
步骤3,设置维度参数并构建词向量矩阵;
步骤4,通过深度学习方法进行电子资讯特征的情感分析;
步骤5,基于情感分析数据建立用户兴趣模型;
步骤6,计算用户对电子资讯兴趣度并进行电子资讯推荐。
进一步地,所述的用户的电子资讯评论信息与电子资讯属性信息,包括电子资讯评论信息、属性信息包括电子资讯名称ID、属性类别、用户ID、评论时间、资讯收藏数、评论内容与赞同数;获取数据的方式为利用在线评论网络爬虫。
进一步地,所述的电子资讯及其评论信息清洗以及预处理,包括:
数据的清洗操作,首先是对缺失项的处理,剔除属性类别项目缺失以及评价字符数小于预设字符数的数据项;
经过数据清洗获取到数据集之后,对电子资讯的评论信息进行预处理,包括分词操作和词性标注操作。
进一步地,所述的设置维度参数并构建词向量矩阵,包括:
将评论信息预处理后的词转为对应的词向量,然后构建文本的词向量矩阵;该矩阵的行数为每个文本的词数,列数为每个词对应向量所指定的维数。
进一步地,所述的通过深度学习方法进行电子资讯特征的情感分析,包括:
所采取的深度学习网络模型为双向长短期记忆网络,利用双向长短期记忆网络作为基学习器,通过构建并结合多个基学习器来完成学习任务,在此基础上,采用Bagging算法进行基学习器的集成;通过采样数据来对双向长短期记忆网络进行学习,利用包外数据对训练形成的基学习器进行赋权,最后根据各基学习器的预测结果及投票策略进行情感预测。
进一步地,所述的根据各基学习器的预测结果及投票策略进行情感预测,包括:
1)从词向量矩阵中对数据进行情感标签的标注以构建数据集,并划分训练集和测试集;
2)对训练集利用Bootstrap进行随机采样,将训练集分为n个采样集与n个包外数据集;
3)利用采样集数据传入基学习器进行训练,并且利用包外数据集传入基学习器中进行验证与权值修正;
4)重复步骤3),直到完成全部n个基学习器的预测结果输出;
5)基于加权投票策略,对样本进行情感分类。
进一步地,所述的情感分类的具体过程为:
1)将采样集中每个词前后的信息所对应的词向量序列在基学习器中以正序和反序的形式输入,提取对应的正反序列特征;基学习器的输出序列分别为正向特征向量序列和反向特征向量序列,分别对两个序列进行序列合并,得相应的词特征向量;
2)将词向量特征在序列合并的同时采用平均池化,即对词邻域内特征向量求平均,得到句特征向量;
3)将句特征向量序列化,对该序列信息进行神经网络全连接,之后将信息传入softmax层进行函数概率运算,最终得到情感状态分类结果。
进一步地,所述的采样数据的采样方法为:
对于m个样本的原始训练集,有放回地随机采集m次,最终得到一个包含m个样本的采样集;对于每个基学习器由自助采样法获得的训练集,原始训练集中没有被选中的数据称为包外数据。
进一步地,所述的基于情感分析数据建立用户兴趣模型,包括:
首先统计模型数据信息,若情感状态为积极,则视为好评;统计用户在整个评论数据集中,对于电子资讯信息集合的每一个特征的平均好评率,以及整个用户集对每个特征的平均好评率;
分析电子资讯信息集合中的特征fi对用户x评论的权重占比,具体公式如下:
Figure BDA0002121986140000041
其中W(fi,x)表示电子资讯信息特息集合中的征fi对用户x评论的权重占比,T(fi,x)表示特征fi在用x的评论集中出现的频率,N表示用户x的评论集的评论个数,
Figure BDA0002121986140000042
表示出现特征fi的评论个数,F表示PMI算法提取的电子资讯信息特征集合;
最后,分析用户x对电子资讯信息特征fi的偏好度,具体公式如下:
Figure BDA0002121986140000043
其中Pf(fi,x)表示用户x对电子资讯信息集合中的特征fi的偏好度,Gi(x)表示用户x对电子资讯信息特征fi的平均好评率,Hi表示总体用户对电子资讯信息特征fi的平均好评率。
进一步地,所述的计算用户对电子资讯兴趣度并进行电子资讯推荐,包括:
计算用户x对电子资讯信息特征fi兴趣度,具体公式如下:
Interest(fi,x)=Pf(fi,x)×W(fi,x)
其中Interest(fi,x)表示用户x对电子资讯信息特征fi兴趣度。
依据此兴趣度将此信息特征的电子资讯推荐给用户。
进一步地,所述的方法还包括:
步骤7,通过用户聚类实现对新用户的电子资讯的内容推荐,具体步骤包括:
步骤7.1,新用户身份属性数据预处理;
步骤7.2,采用改进K-means聚类算法实现用户身份属性聚类,包括:
(1)计算点密度,然后在备选点集合D中添加点密度较大的M个数据点;
(2)在D中根据密度值大小排序,挑选出前两个密度最大的点当作算法的初始聚类中心,并且把它们从D中删除;
(3)从D中选出和步骤(2)初始聚类中心距离最远的点当作新的聚类中心,并且把该点从D中删除;
(4)利用迭代算法对N个数据点进行以上操作,计算类间最大相似度均值AMS值;
(5)当计算出的当下AMS值比前一次的AMS值小时,继续执行算法,并转到步骤(6);
当计算出的当AMS值比前一次的AMS值大时,把该最小AMS值相对应的聚类中心看作K均值聚类算法的初始聚类中心,并转到步骤(7);
(6)更新聚类中心,然后在集合D中挑选出一个数据点,使它和新的聚类中心间的最小距离有最大值,并把它看作下一个聚类中心,且从D中将其删除,转到步骤(4);
(7)执行K均值聚类算法;
步骤7.3,对用户属性数据聚类处理后,对未评论或者新用户推荐同一类的用户的感兴趣内容。
本发明具有以下技术特点:
1.本发明相对与传统协同过滤等算法来说,主要是结合了深度学习的方法,利用基于LSTM的深度学习方法训练经过处理后获取的数据,基于已进行情感分析后的数据建立兴趣模型并进行推荐;本方案还考虑了新用户和未评论过的用户的电子资讯推荐方式,利用K-means聚类算法,对用户属性进行聚类,从而根据深度学习训练的结果,更加准确地推荐电子资讯的内容。
2.通过本发明的方法可有效地解决信息过载问题,通过深度学习技术分析和结合多数用户的评分与评论信息进行处理,对评论中的情感信息进行提取并进行分类,挖掘文本信息中用户表达的情感极性,构建出有效的用户兴趣模型,提高了推荐***的精度,进而优化电子资讯推荐的质量;不仅可以对评论过的用户进行推荐,还可以根据用户的属性信息对新用户或者未评论过的用户进行较为准确的推荐电子资讯的内容实现。
附图说明
图1为本发明方法的流程示意图;
图2为本发明中深度学习网络模型的结构示意图;
图3为改进K-means聚类算法的流程示意图。
具体实施方式
本发明公开了一种基于LSTM的用户评论情感分析的电子资讯推荐方法,如图1至图3所示,包括以下步骤:
步骤1,获取用户的电子资讯评论信息与电子资讯属性信息。
在该实施例中,步骤1获取电子资讯评论信息、属性信息包括电子资讯名称ID、属性类别、用户ID、评论时间、资讯收藏数、评论内容与赞同数;获取数据的方式为利用在线评论网络爬虫。
步骤2,电子资讯及其评论信息清洗以及预处理
数据的清洗操作,首先是对缺失项的处理,这里缺失项主要是电子资讯的属性类别和评论内容,而用户的评论内容有时候仅仅只是一些符号或者几个字,这里我们采取剔除属性类别项目缺失以及评价字符数小于预设字符数的数据项;每个数据项包含一条评论信息以及对应的电子资讯属性信息。
经过数据清洗获取到数据集之后,对电子资讯的评论信息进行预处理,包括分词操作和词性标注操作。
其中,分词操作基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG),采用了动态规划查找最大概率路径,找出基于词频的最大切分组合;对于未登录词,采用基于汉字成词能力的HMM模型,使用Viterbi算法,并且利用点互信息算法进行相关名词电子资讯特征的提取,建立特征集。
而词性标注操作设置为六词位标注,从而提取词性序列。
步骤3,设置维度参数并构建词向量矩阵
其中,构建词向量矩阵采用基于向量空间模型思想与RNN网络的Word2Vec工具,该工具将评论信息预处理后的词转为对应的词向量,然后构建文本的词向量矩阵;该矩阵的行数为每个文本的词数,列数为每个词对应向量所指定的维数。
步骤4,通过深度学习方法进行电子资讯特征的情感分析。
所采取的深度学习网络模型为双向长短期记忆网络(Bi-directional LSTM),利用LSTM作为基学习器,在此基础上,采用Bagging算法进行基学习器的集成,最终输出对应评论的情感状态信息。
其中,Bagging算法属于集成学***均方法对新示例进行判别。
算法思想:
1)从词向量矩阵中用Bootstrap采样选出n个样本;
2)对这n个样本建立分类器
3)重复1-2步,建立m个分类器
4)将Bootstrap采样选出n个样本(m个新的样本数据集),在m个分类器上进行分类
5)把m个分类器分类的结果进行投票,得到最多的为最终的类别。
算法中的随机采样一般采用的是自助采样法,即对于m个样本的原始训练集,有放回地随机采集m次,最终得到一个包含m个样本的采样集。对于每个基学习器由自助采样法获得的训练集,理论上有40%左右的原始数据不会被选中,这些被忽略的数据称为包外数据,该算法有助于训练复杂模型,提高学习***的泛化能力。
由于是分析用户的情感,所以应该考虑用户的情感时间变化,因此在算法中加入双向长短期记忆网络,其作为深度学习网络结构之一,拥有两个不同方向得并行层,前向层与反向层的运行方式和前馈神经网络的运行方式相同。这两个层分别从文本开始的前端和末端开始运行,因此能存储来自两个方向的文本的信息,使得学习***能够同时考虑到现在与未来的上下文信息,从而使其在情感分类中拥有更好的表现。
Bagging算法与双向长短期记忆网络的情感倾向分析模型结合深度学习的模型与集成学习的思想,在Bagging算法的框架下,将双向长短期记忆网络作为情感倾向分析的基学习器,通过采样数据来对双向长短期记忆网络进行学习,利用包外数据对训练形成的基学习器进行赋权,最后根据各基学习器的预测结果及投票策略进行情感预测,如图2所示,具体实现流程如下:
1)从词向量矩阵中对数据进行情感标签的标注以构建数据集,并划分训练集和测试集。
2)对训练集利用Bootstrap进行随机采样,将训练集分为n个采样集与n个包外数据集。
3)利用采样集数据传入基学习器进行训练,并且利用包外数据集传入基学习器中进行验证与权值修正。
4)重复步骤3),直到完成全部n个基学习器的预测结果输出。
5)基于加权投票策略,对样本进行情感分类。
其中,情感分类的具体过程为:
1)将采样集中每个词前后的信息所对应的词向量序列在双向LSTM网络中以正序和反序的形式输入,提取对应的正反序列特征;双向LSTM网络的输出序列分别为正向特征向量序列y_f(0)至y_f(n)和反向特征向量序列y_r(n)至y_r(0),分别对两个序列进行序列合并,得相应的词特征向量;
2)将词向量特征在序列合并的同时采用平均池化,即对词邻域内特征向量求平均,得到句特征向量。
3)将句特征向量序列化,对该序列信息进行神经网络全连接,之后将信息传入softmax层进行函数概率运算,最终得到情感状态分类结果。
步骤5,基于情感分析数据建立用户兴趣模型
首先统计模型数据信息。若情感状态为积极,则视为好评。统计用户在整个评论数据集中,对于电子资讯信息集合的每一个特征的平均好评率,以及整个用户集对每个特征的平均好评率。
接下来分析电子资讯信息集合中的特征fi对用户x评论的权重占比,具体公式如下:
Figure BDA0002121986140000081
其中W(fi,x)表示电子资讯信息特息集合中的征fi对用户x评论的权重占比,T(fi,x)表示特征fi在用x的评论集中出现的频率,N表示用户x的评论集的评论个数,
Figure BDA0002121986140000091
表示出现特征fi的评论个数,F表示PMI算法提取的电子资讯信息特征集合。
最后,分析用户x对电子资讯信息特征fi的偏好度,具体公式如下:
Figure BDA0002121986140000092
其中Pf(fi,x)表示用户x对电子资讯信息集合中的特征fi的偏好度,Gi(x)表示用户x对电子资讯信息特征fi的平均好评率,Hi表示总体用户对电子资讯信息特征fi的平均好评率。
步骤6,计算用户对电子资讯兴趣度并进行电子资讯推荐。
计算用户x对电子资讯信息特征fi兴趣度,具体公式如下:
Interest(fi,x)=Pf(fi,x)×W(fi,x)
其中Interest(fi,x)表示用户x对电子资讯信息特征fi兴趣度。
依据此兴趣度将此信息特征的电子资讯推荐给用户。
步骤7,通过用户聚类实现对新用户的电子资讯的内容推荐。
步骤7.1,新用户身份属性数据预处理。
新用户身份属性数据主要包括年龄、性别、职业、专业等。年龄定义为数值数据性别定义为二元数据,即输入性别数据时,可以根据实际内容对应转化为二元数据0和1(输入性别:男或1)。职业、专业等数据定义为标称型数据,使用数值标号的形式进行标准化。通过以上方式完成新用户身份属性数据的预处理工作,用户属性表达形式为User=(35,1,12,6),表示用户是年龄为35左右从事数学专业的男教师。
步骤7.2,采用改进K-means聚类算法实现用户身份属性聚类,主要实现流程如图3所示。
改进算法提供了一种确定最佳聚类数的方法,并找到最佳聚类中心。首先,算法在高密度的数据点中选出一个和聚类中心的距离最远的点,并把它看作一个新的聚类中心,放置到聚类中心的集合中。对某个数据集来说,当最佳聚类数确定时,根据改进算法求出的聚类中心也是确定的,这样,算法的稳定性就会大大提高。
点密度:处在点xi的r邻域内的点的数量。
Density(xi)={p∈c|dist(xi,p)≤r}
式中,xi表示聚类中心,r表示邻域半径,p表示邻域内一点。
类内距离:所有处于类中的点和聚类中心间欧氏距离的平均值。
Figure BDA0002121986140000101
式中,ci表示处于类中的点。
类间距离:各个类的聚类中心间的欧氏距离值。
di,j=||ci-cj||
类间最大相似度均值AMS:各个类间的最大相似度的平均值。
Figure BDA0002121986140000102
当AMS的取值最小时,表明算法的聚类效果最好,这时最佳聚类数就是K。
改进的K均值聚类算法的具体过程如下:
(1)计算点密度,然后在备选点集合D中添加点密度较大的M个数据点。
(2)在D中根据密度值大小排序,挑选出前两个密度最大的点当作算法的初始聚类中心,并且把它们从D中删除。
(3)从D中选出和步骤(2)初始聚类中心距离最远的点当作新的聚类中心,并且把该点从D中删除。
(4)利用迭代算法对N个数据点进行以上操作,计算类间最大相似度均值AMS值。
(5)当计算出的当下AMS值比前一次的AMS值小时,继续执行算法,并转到步骤(6)。
当计算出的当AMS值比前一次的AMS值大时,把该最小AMS值相对应的聚类中心看作K均值聚类算法的初始聚类中心,并转到步骤(7)。
(6)更新聚类中心,然后在集合D中挑选出一个数据点,使它和新的聚类中心间的最小距离有最大值,并把它看作下一个聚类中心,且从D中将其删除,转到步骤(4)。
(7)执行K均值聚类算法。
步骤7.3,对用户属性数据聚类处理后,、对未评论或者新用户推荐同一类的用户的感兴趣内容。

Claims (7)

1.一种基于LSTM的用户评论情感分析的电子资讯推荐方法,其特征在于,包括以下步骤:
步骤1,获取用户的电子资讯评论信息与电子资讯属性信息;
步骤2,电子资讯及其评论信息清洗以及预处理;
步骤3,设置维度参数并构建词向量矩阵;
步骤4,通过深度学习方法进行电子资讯特征的情感分析;
步骤5,基于情感分析数据建立用户兴趣模型,包括:
首先统计模型数据信息,若情感状态为积极,则视为好评;统计用户在整个评论数据集中,对于电子资讯信息集合的每一个特征的平均好评率,以及整个用户集对每个特征的平均好评率;
分析电子资讯信息集合中的特征fi对用户x评论的权重占比,具体公式如下:
Figure FDA0003874774480000011
其中W(fi,x)表示电子资讯信息特息集合中的征fi对用户x评论的权重占比,T(fi,x)表示特征fi在用x的评论集中出现的频率,N表示用户x的评论集的评论个数,
Figure FDA0003874774480000013
表示出现特征fi的评论个数,F表示PMI算法提取的电子资讯信息特征集合;
最后,分析用户x对电子资讯信息特征fi的偏好度,具体公式如下:
Figure FDA0003874774480000012
其中Pf(fi,x)表示用户x对电子资讯信息集合中的特征fi的偏好度,Gi(x)表示用户x对电子资讯信息特征fi的平均好评率,Hi表示总体用户对电子资讯信息特征fi的平均好评率;
步骤6,计算用户对电子资讯兴趣度并进行电子资讯推荐,包括:
计算用户x对电子资讯信息特征fi兴趣度,具体公式如下:
Interest(fi,x)=Pf(fi,x)×W(fi,x)
其中Interest(fi,x)表示用户x对电子资讯信息特征fi兴趣度;
依据此兴趣度将此信息特征的电子资讯推荐给用户;
步骤7,通过用户聚类实现对新用户的电子资讯的内容推荐,具体步骤包括:
步骤7.1,新用户身份属性数据预处理;
步骤7.2,采用改进K-means聚类算法实现用户身份属性聚类,包括:
(1)计算点密度,然后在备选点集合D中添加点密度较大的M个数据点;
(2)在D中根据密度值大小排序,挑选出前两个密度最大的点当作算法的初始聚类中心,并且把它们从D中删除;
(3)从D中选出和步骤(2)初始聚类中心距离最远的点当作新的聚类中心,并且把该点从D中删除;
(4)利用迭代算法对N个数据点进行步骤(2)和步骤(3)的操作,计算类间最大相似度均值AMS值;
(5)当计算出的当下AMS值比前一次的AMS值小时,继续执行算法,并转到步骤(6);
当计算出的当AMS值比前一次的AMS值大时,把最小AMS值相对应的聚类中心看作K均值聚类算法的初始聚类中心,并转到步骤(7);
(6)更新聚类中心,然后在集合D中挑选出一个数据点,使它和新的聚类中心间的最小距离有最大值,并把它看作下一个聚类中心,且从D中将其删除,转到步骤(4);
(7)执行K均值聚类算法;
步骤7.3,对用户属性数据聚类处理后,对未评论或者新用户推荐同一类的用户的感兴趣内容。
2.如权利要求1所述的基于LSTM的用户评论情感分析的电子资讯推荐方法,其特征在于,所述的电子资讯及其评论信息清洗以及预处理,包括:
数据的清洗操作,首先是对缺失项的处理,剔除属性类别项目缺失以及评价字符数小于预设字符数的数据项;
经过数据清洗获取到数据集之后,对电子资讯的评论信息进行预处理,包括分词操作和词性标注操作。
3.如权利要求1所述的基于LSTM的用户评论情感分析的电子资讯推荐方法,其特征在于,所述的设置维度参数并构建词向量矩阵,包括:
将评论信息预处理后的词转为对应的词向量,然后构建文本的词向量矩阵;该矩阵的行数为每个文本的词数,列数为每个词对应向量所指定的维数。
4.如权利要求1所述的基于LSTM的用户评论情感分析的电子资讯推荐方法,其特征在于,所述的通过深度学习方法进行电子资讯特征的情感分析,包括:
所采取的深度学习网络模型为双向长短期记忆网络,利用双向长短期记忆网络作为基学习器,通过构建并结合多个基学习器来完成学习任务,在此基础上,采用Bagging算法进行基学习器的集成;通过采样数据来对双向长短期记忆网络进行学习,利用包外数据对训练形成的基学习器进行赋权,最后根据各基学习器的预测结果及投票策略进行情感预测。
5.如权利要求4所述的基于LSTM的用户评论情感分析的电子资讯推荐方法,其特征在于,所述的采样数据的采样方法为:
对于m个样本的原始训练集,有放回地随机采集m次,最终得到一个包含m个样本的采样集;对于每个基学习器由自助采样法获得的训练集,原始训练集中没有被选中的数据称为包外数据。
6.如权利要求4所述的基于LSTM的用户评论情感分析的电子资讯推荐方法,其特征在于,所述的根据各基学习器的预测结果及投票策略进行情感预测,包括:
1)从词向量矩阵中对数据进行情感标签的标注以构建数据集,并划分训练集和测试集;
2)对训练集利用Bootstrap进行随机采样,将训练集分为n个采样集与n个包外数据集;
3)利用采样集数据传入基学习器进行训练,并且利用包外数据集传入基学习器中进行验证与权值修正;
4)重复步骤3),直到完成全部n个基学习器的预测结果输出;
5)基于加权投票策略,对样本进行情感分类。
7.如权利要求6所述的基于LSTM的用户评论情感分析的电子资讯推荐方法,其特征在于,所述的情感分类的具体过程为:
1)将采样集中每个词前后的信息所对应的词向量序列在基学习器中以正序和反序的形式输入,提取对应的正反序列特征;基学习器的输出序列分别为正向特征向量序列和反向特征向量序列,分别对两个序列进行序列合并,得相应的词特征向量;
2)将词向量特征在序列合并的同时采用平均池化,即对词邻域内特征向量求平均,得到句特征向量;
3)将句特征向量序列化,对序列信息进行神经网络全连接,之后将信息传入softmax层进行函数概率运算,最终得到情感状态分类结果。
CN201910610182.7A 2019-07-08 2019-07-08 一种基于lstm的用户评论情感分析的电子资讯推荐方法 Expired - Fee Related CN110532379B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910610182.7A CN110532379B (zh) 2019-07-08 2019-07-08 一种基于lstm的用户评论情感分析的电子资讯推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910610182.7A CN110532379B (zh) 2019-07-08 2019-07-08 一种基于lstm的用户评论情感分析的电子资讯推荐方法

Publications (2)

Publication Number Publication Date
CN110532379A CN110532379A (zh) 2019-12-03
CN110532379B true CN110532379B (zh) 2023-01-20

Family

ID=68659566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910610182.7A Expired - Fee Related CN110532379B (zh) 2019-07-08 2019-07-08 一种基于lstm的用户评论情感分析的电子资讯推荐方法

Country Status (1)

Country Link
CN (1) CN110532379B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110910904A (zh) * 2019-12-25 2020-03-24 浙江百应科技有限公司 一种建立语音情感识别模型的方法及语音情感识别方法
CN111143562B (zh) * 2019-12-27 2024-02-23 中国银行股份有限公司 一种资讯信息情感分析方法、装置及存储介质
CN111222332B (zh) * 2020-01-06 2021-09-21 华南理工大学 一种结合注意力网络和用户情感的商品推荐方法
CN111400591B (zh) * 2020-03-11 2023-04-07 深圳市雅阅科技有限公司 资讯信息推荐方法、装置、电子设备及存储介质
CN111581386A (zh) * 2020-05-08 2020-08-25 深圳市第五空间网络科技有限公司 多输出文本分类模型的构建方法、装置、设备及介质
CN113282704A (zh) * 2021-05-07 2021-08-20 天津科技大学 一种对评论有用性进行判断和筛选的方法与装置
CN113313294A (zh) * 2021-05-19 2021-08-27 国网山东省电力公司淄博供电公司 一种电力***重要节点、重要输电线路预测算法
CN115544226B (zh) * 2022-08-31 2023-06-09 华南师范大学 一种基于多模态情感分析的相似识别方法
CN117390141B (zh) * 2023-12-11 2024-03-08 江西农业大学 一种农业社会化服务质量用户评价数据分析方法
CN118154281A (zh) * 2024-05-08 2024-06-07 山东理工职业学院 一种基于人工智能的电子商务评论分析方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018014717A1 (zh) * 2016-07-22 2018-01-25 北京市商汤科技开发有限公司 聚类方法、装置及电子设备
CN109408562A (zh) * 2018-11-07 2019-03-01 广东工业大学 一种基于客户特征的分组推荐方法及其装置
US10268749B1 (en) * 2016-01-07 2019-04-23 Amazon Technologies, Inc. Clustering sparse high dimensional data using sketches

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108710680A (zh) * 2018-05-18 2018-10-26 哈尔滨理工大学 一种利用深度学习进行基于情感分析的电影推荐方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10268749B1 (en) * 2016-01-07 2019-04-23 Amazon Technologies, Inc. Clustering sparse high dimensional data using sketches
WO2018014717A1 (zh) * 2016-07-22 2018-01-25 北京市商汤科技开发有限公司 聚类方法、装置及电子设备
CN109408562A (zh) * 2018-11-07 2019-03-01 广东工业大学 一种基于客户特征的分组推荐方法及其装置

Also Published As

Publication number Publication date
CN110532379A (zh) 2019-12-03

Similar Documents

Publication Publication Date Title
CN110532379B (zh) 一种基于lstm的用户评论情感分析的电子资讯推荐方法
CN110750656B (zh) 一种基于知识图谱的多媒体检测方法
CN105893609B (zh) 一种基于加权混合的移动app推荐方法
CN109241255A (zh) 一种基于深度学习的意图识别方法
Pong-Inwong et al. Improved sentiment analysis for teaching evaluation using feature selection and voting ensemble learning integration
CN111309936A (zh) 一种电影用户画像的构建方法
CN111523055B (zh) 一种基于农产品特征属性评论倾向的协同推荐方法及***
CN107577782B (zh) 一种基于异质数据的人物相似度刻画方法
CN106951471A (zh) 一种基于svm的标签发展趋势预测模型的构建方法
KR101224312B1 (ko) 소셜 네트워킹 서비스 사용자를 위한 친구 추천 방법, 이를 위한 기록 매체 및 이를 이용하는 소셜 네트워킹 서비스 및 서버
CN109492105B (zh) 一种基于多特征集成学习的文本情感分类方法
CN111666496B (zh) 一种基于评论文本的组推荐方法
CN110990670B (zh) 一种成长激励型图书推荐方法及推荐***
CN112132633B (zh) 一种基于消费事理图谱的消费意图识别和预测方法
de Ves et al. A novel dynamic multi-model relevance feedback procedure for content-based image retrieval
CN111949885A (zh) 一种面向旅游景点的个性化推荐方法
CN104572915A (zh) 一种基于内容环境增强的用户事件相关度计算方法
CN110781300A (zh) 基于百度百科知识图谱的旅游资源文化特色评分算法
CN112148994B (zh) 信息推送效果评估方法、装置、电子设备及存储介质
CN111259223B (zh) 基于情感分析模型的新闻推荐和文本分类方法
CN113535949A (zh) 基于图片和句子的多模态联合事件检测方法
CN110569495A (zh) 一种基于用户评论的情感倾向分类方法、装置及存储介质
CN111583363A (zh) 一种图文新闻的视觉自动生成方法及***
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
Aurnhammer et al. Manual Annotation of Unsupervised Models: Close and Distant Reading of Politics on Reddit.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20230120