CN113722487A - 用户情感分析方法、装置、设备及存储介质 - Google Patents
用户情感分析方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113722487A CN113722487A CN202111015068.3A CN202111015068A CN113722487A CN 113722487 A CN113722487 A CN 113722487A CN 202111015068 A CN202111015068 A CN 202111015068A CN 113722487 A CN113722487 A CN 113722487A
- Authority
- CN
- China
- Prior art keywords
- user
- data
- emotion
- user data
- commodity attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Entrepreneurship & Innovation (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能的自然语言技术领域,具体公开了一种用户情感分析方法、装置、设备及存储介质,该用户情感分析方法包括:采用网络爬虫方式获取用户数据;从用户数据中提取用户类型,基于分类器根据用户类型对用户数据进行分类处理,获取同一用户类型的所有用户数据,对同一用户类型的所有用户数据进行一一拼接处理,获得待分析用户数据;将待分析用户数据输入预训练好的用户情感分析模型中,基于自注意力机制从待分析用户数据中提取商品属性特征,对商品属性特征进行上下文语义学习以获得每个商品属性特征的用户评论,根据商品属性特征和用户评论预测用户情感类别。通过上述方式,本发明能够准确获取用户的情感意向,帮助用户实现精准营销。
Description
技术领域
本发明涉及人工智能的自然语言技术领域,特别是涉及一种用户情感分析方法、装置、设备及存储介质。
背景技术
随着电子商务的快速发展,人们在网上购物的需求变得越来越高,让各种电商平台得到了很大的发展机遇,但同时各平台之间的竞争也越来越剧烈,除了优惠策略和质量管控之外,电子商务企业如何识别客户的消费偏好,开展精准营销,降低竞争成本,是每个企业的必备功课。
在现有的顾客情感分析中,企业通常针对顾客评论数据来分析顾客的消费偏好,顾客评论数据往往带有很强的情感倾向,已成为企业获取客户的消费偏好、开展精准营销的重要信息来源。但是,针对特殊的应用场景,例如金融电商场景,只选用单一的顾客评论数据来分析顾客情感,过于片面,不能全面获得顾客信息,导致营销策略不够精准,销售业绩下降。
发明内容
本发明提供一种用户情感分析方法、装置、设备及存储介质,能够准确获取用户的情感意向,帮助用户实现精准营销。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种用户情感分析方法,包括:
采用网络爬虫方式获取用户数据,所述用户数据的类型包括用户购买区评论数据、商城论坛区发帖数据以及商城讨论区言论数据中的至少两种;
从所述用户数据中提取用户类型,基于分类器根据所述用户类型对所述用户数据进行分类处理,获取同一用户类型的所有用户数据,对同一用户类型的所有用户数据进行一一拼接处理,获得待分析用户数据;
将所述待分析用户数据输入预训练好的用户情感分析模型中,基于自注意力机制从所述待分析用户数据中提取商品属性特征,对所述商品属性特征进行上下文语义学习以获得每个所述商品属性特征的用户评论,根据所述商品属性特征和所述用户评论预测用户情感类别。
根据本发明的一个实施例,采用网络爬虫方式获取用户数据,所述用户数据的类型包括用户购买区评论数据、商城论坛区发帖数据以及商城讨论区言论数据中的至少两种的步骤还包括:
采用网络爬虫方式在用户购买区、商城论坛区以及商城讨论区中抓取URL,采用布隆过滤器对URL进行去重处理,将去重处理后的URL形成URL队列;
爬取与所述URL队列对应的网页,将所述网页存储于数据库中;
对所述网页进行预处理,提取文本数据,利用正则表达式对所述文本数据进行清洗处理,获得用户数据。
根据本发明的一个实施例,从所述用户数据中提取用户类型,基于分类器根据所述用户类型对所述用户数据进行分类处理,获取同一用户类型的所有用户数据,对同一用户类型的所有用户数据进行一一拼接处理,获得待分析用户数据的步骤还包括:
对拼接处理结果进行分词处理,得到第一词汇集合;
对所述第一词汇集合进行词性标注处理,去除停用词,获得第二词汇集合;
对所述第二词汇集合中词汇进行词频统计,将词频统计结果大于预设阈值的词汇进行去重处理,获得所述待分析用户数据。
根据本发明的一个实施例,根据所述商品属性特征和所述用户评论预测用户情感类别的步骤还包括:
将每个所述商品属性特征对应的所述用户评论进行比对,根据比对结果获得每个所述商品属性特征对应的偏好值;
将所述偏好值与对应的商品属性权重进行乘积计算,获得每个商品属性的情感值;
将所有商品属性的情感值进行加和计算获得用户情感值;
根据用户情感值预测用户情感类别。
根据本发明的一个实施例,根据所述商品属性特征和所述用户评论预测用户情感类别的步骤还包括:
基于朴素贝叶斯分类算法根据所述商品属性特征和所述用户评论计算用户情感类别预测概率;
将最大的用户情感类别预测概率对应的分类作为用户情感类别。
根据本发明的一个实施例,将所述待分析用户数据输入预训练好的用户情感分析模型中的步骤之前,还包括:
获取历史用户数据并形成数据集,将所述数据集划分为训练集和测试集;
构建用户情感分析模型并采用所述训练集对所述用户情感分析模型进行训练,得到训练好的用户情感分析模型;
采用所述测试集对训练好的用户情感分析模型的预测结果进行验证。
根据本发明的一个实施例,根据所述商品属性特征和所述用户评论预测用户情感类别的步骤之后,还包括:
对用户情感类别预测结果进行可视化显示,对比多个商品下的用户情感类别预测结果,通过汇总统计得到每个商品下的用户情感趋势分布;
根据所述用户情感趋势分布制定相应的营销策略。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种用户情感分析装置,包括:
第一获取模块,用于采用网络爬虫方式获取用户数据,所述用户数据的类型包括用户购买区评论数据、商城论坛区发帖数据以及商城讨论区言论数据中的至少两种;
第二获取模块,用于从所述用户数据中提取用户类型,基于分类器根据所述用户类型对所述用户数据进行分类处理,获取同一用户类型的所有用户数据,对同一用户类型的所有用户数据进行一一拼接处理,获得待分析用户数据;
情感分析模块,用于将所述待分析用户数据输入预训练好的用户情感分析模型中,基于自注意力机制从所述待分析用户数据中提取商品属性特征,对所述商品属性特征进行上下文语义学习以获得每个所述商品属性特征的用户评论,根据所述商品属性特征和所述用户评论预测用户情感类别。
为解决上述技术问题,本发明采用的再一个技术方案是:提供一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的用户情感分析方法。
为解决上述技术问题,本发明采用的再一个技术方案是:提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述用户情感分析方法。
本发明的有益效果是:通过综合考虑用户购买区评论数据、商城论坛区发帖数据以及商城讨论区言论数据,基于用户情感分析模型对用户情感进行全面分析,能够准确获取用户对每个商品的情感意向,深入了解消费者心声,从而帮助企业制定更为有效的营销策略,开展精准营销,降低竞争成本。
附图说明
图1是本发明第一实施例的用户情感分析方法的流程示意图;
图2是本发明实施例的用户情感分析方法中步骤S101的流程示意图;
图3是本发明实施例的用户情感分析方法中步骤S102的流程示意图;
图4是本发明第二实施例的用户情感分析方法的流程示意图;
图5是本发明第三实施例的用户情感分析方法的流程示意图;
图6是本发明实施例的用户情感分析装置的结构示意图;
图7是本发明实施例的计算机设备的结构示意图;
图8是本发明实施例的计算机存储介质的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
图1是本发明第一实施例的用户情感分析方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括步骤:
步骤S101:采用网络爬虫方式获取用户数据,用户数据的类型包括用户购买区评论数据、商城论坛区发帖数据以及商城讨论区言论数据中的至少两种。
在步骤S101中,网络爬虫是指从网站提取数据的技术,网络爬虫可以将非结构化数据转换为结构化数据。本实施例的结构化数据为json,xml等,非结构化数据为html。网络爬虫方式包括但不限于Crawler4j、crapy、Python、BaseSpider、sitemap等。本实施例的应用场景为金融商城,用户可以购买区、商城论坛区以及商城讨论区中的一处或多处进行留言,本实施例主要考虑用户在购买区、商城论坛区以及商城讨论区中的至少两处进行留言,从而产生用户数据。传统的用户情感分析只基于用户购买评论数据,数据来源单一,不能够完全反映用户情感,本实施例综合考虑户购买评论数据、商城论坛区发帖数据以及商城讨论区言论数据中的至少两种,能够准确分析用户情感,深入了解消费者的心声,从而制定有效的营销策略。
用户数据中记录了商品属性以及对上述商品属性的用户评论,商品属性包括产品单价、是否定期、回报率、是否加息、风险,用户评论反应用户对商品的购买欲望。
进一步地,请参见图2,步骤S101还包括以下步骤:
步骤S201:采用网络爬虫方式在用户购买区、商城论坛区以及商城讨论区中抓取URL,采用布隆过滤器对URL进行去重处理,将去重处理后的URL形成URL队列。
在步骤S201中,首先选取一部分的种子URL,将种子URL放入待抓取URL队列;取出待抓取URL,解析DNS得到主机的IP,并将待抓取URL对应的网页下载下来,存储进已下载网页库中,同时将对应的URL放进已抓取URL队列。分析已抓取URL队列中的URL,获取URL中的子URL,并将子URL放入待抓取URL队列,从而进入下一个循环。在其他实施例中,还可以使用selectors接口处理不完整的html代码,定制化相关目标的购物评论进行爬取。
布隆过滤器采用bloom算法判断一个URL是否被访问过,本实施例的URL队列采用哈希表(hash table)来存储,URL队列新增一个URL时,通过将新增的URL与哈希表内的元素进行直接比较,若哈希表不存在新增的URL,则将新增的URL添加入URL队列中,若哈希表存在新增的URL,则表示URL重复,删除该URL。
步骤S202:爬取与URL队列对应的网页,将网页存储于数据库中。
步骤S203:对网页进行预处理,提取文本数据,利用正则表达式对文本数据进行清洗处理,获得用户数据。
在步骤S203中,预处理包括以下操作:提取文本文字、中文分词、消除噪音(比如版权声明文字、导航条、广告等……)、索引处理、链接关系计算、特殊文件处理,除了html文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如PDF、Word、WPS、XLS、PPT、TXT文件等。本实施例的正则表达式能够从文本数据中筛选出有规律性的用户数据,使获得的用户数据更为干净,去除多余干扰因素,保证用户数据的准确性、可靠性,便于后续准确分析用户情感。
步骤S102:从用户数据中提取用户类型,基于分类器根据用户类型对用户数据进行分类处理,获取同一用户类型的所有用户数据,对同一用户类型的所有用户数据进行一一拼接处理,获得待分析用户数据。
在步骤S102中,将用户类型与对应的用户数据进行关联处理,采用关联处理后数据作为训练数据训练分类器,将用户类型作为分类器的输入,将与用户类型相关联的用户数据作为分类器的输出。本实施例的同一用户可在不同区域进行留言,同一用户在不同区域的留言可相同或不同。
用户数据如表1所示,表1为用户数据中的商品属性以及相关用户评论。
然而,同一用户在不同的评论区域可能评论的商品属性种类可能不完全一致,例如,用户A在用户购买区对产品单价、是否定期、回报率进行了评论,在商城论坛对是否定期、回报率、是否加息、风险进行了评论,在商城讨论区对回报率、是否加息、风险进行了评论。因此,用户A在不同评论区域中的评论是有部分重复的,本实施例对于同一用户在不同区域的评论需要做合并拼接处理,才能得到完整的用户数据,在后续处理中需要对同一商品属性进行去重处理。本实施例在一条评论的开头***[CLS]字符,在末尾***[SEP]字符。例如,用户A在用户购买区的评论:定期6个月,回报率10%,同行算挺高的了,建议购买。用户A在商城讨论区的评论:定期6个月,回报率10%,中低风险,可以考虑入手。则用户A的用户数据拼接结果为[CLS]定期6个月,回报率10%,同行算挺高的了,建议购买[SEP]定期6个月,回报率10%,中低风险,可以考虑入手[SEP]。
进一步地,请参见图3,步骤S102还包括以下步骤:
步骤S301:对拼接处理结果进行分词处理,得到第一词汇集合。
在步骤S301中,采用TF-IDF方法、TextRank方法或Word2Vec词聚类方法等自然语音处理(NLP)对拼接处理结果进行分词处理,得到第一词汇集合。
步骤S302:对第一词汇集合进行词性标注处理,去除停用词,获得第二词汇集合。
步骤S303:对第二词汇集合中词汇进行词频统计,将词频统计结果大于预设阈值的词汇进行去重处理,获得待分析用户数据。
在步骤S303中,假设用户A在用户购买区对产品单价、是否定期、回报率进行了评论,在商城论坛对是否定期、回报率、是否加息、风险进行了评论,在商城讨论区对回报率、是否加息进行了评论。因此,用户A对是否定期、回报率、是否加息进行重复评论,本实施例默认用户A在不同区域对于同一类型的商品属性的评论是不冲突的,则需将是否定期、回报率、是否加息对应词汇进行去重处理,最后得到的待分析用户数据包括:产品单价、是否定期、回报率、是否加息、风险。
步骤S103:将待分析用户数据输入预训练好的用户情感分析模型中,基于自注意力机制从待分析用户数据中提取商品属性特征,对商品属性特征进行上下文语义学习以获得每个商品属性特征的用户评论,根据商品属性特征和用户评论预测用户情感类别。
在步骤S103中,本实施例基于人工智能技术对待分析用户数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本实施例的用户情感分析模型为人工智能模型,涉及自然语言处理技术。
进一步地,本实施例的商品属性包括产品单价、是否定期、回报率、是否加息、风险等;用户评论包括用户针对上述商品属性进行评价,具体包括:产品单价(高/低),是否定期(是/否)、回报率(高/低)、是否加息(是/否)、风险(高/低)。本实施例的用户情感类别包括“买”和“不买”。
一实施例中,将每个商品属性特征对应的用户评论进行比对,根据比对结果获得每个商品属性特征对应的偏好值;将偏好值与对应的商品属性权重进行乘积计算,获得每个商品属性的情感值;将所有商品属性的情感值进行加和计算获得用户情感值;根据用户情感值预测用户情感类别。本实施例的用户情感值越高,表示用户情感类别越倾向于购买,用户情感分析模型输出结果“1”,用户情感值越低,表示用户情感类别越倾向于不买,用户情感分析模型输出结果“0”。
另一实施例中,基于朴素贝叶斯分类算法根据商品属性特征和用户评论计算用户情感类别预测概率;将最大的用户情感类别预测概率对应的分类作为用户情感类别。本实施例的用户情感类别概率在[0,1]区间上,预测用户情感类别概率越接近1,说明用户的购买欲望越强,将用户情感类别预测结果为“买”,用户情感分析模型输出结果“1”,预测用户情感类别概率越接近0,说明用户的购买欲望越低,将用户情感类别预测结果为“不买”,用户情感分析模型输出结果“0”。
进一步地,朴素贝叶斯分类算法按照如下公式进行:
例如,请参见表1,基于朴素贝叶斯分类算法计算用户在各个情况下买/不买的概率如下:
p(买|(产品单价高低、是否定期、回报率高低、是否加息、风险高低))与p(不买|(产品单价高低、是否定期、回报率高低、是否加息、风险高低)),选择最大概率对应的的用户情感类别作为待分析用户数据的用户情感分析结果。
本发明第一实施例的用户情感分析方法通过综合考虑用户购买区评论数据、商城论坛区发帖数据以及商城讨论区言论数据,并对所获取的数据进行综合处理,以获得能够充分体现用户情感的待分析用户数据,基于用户情感分析模型对待分析用户数据的用户情感进行全面分析,能够准确获取用户对每个商品的情感意向,深入了解消费者心声,从而帮助企业制定更为有效的营销策略,开展精准营销,降低竞争成本。
图4是本发明第二实施例的用户情感分析方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图4所示的流程顺序为限。如图4所示,该方法包括步骤:
步骤S401:采用网络爬虫方式获取用户数据,用户数据的类型包括用户购买区评论数据、商城论坛区发帖数据以及商城讨论区言论数据中的至少两种。
在本实施例中,图4中的步骤S401和图1中的步骤S101类似,为简约起见,在此不再赘述。
步骤S402:从用户数据中提取用户类型,基于分类器根据用户类型对用户数据进行分类处理,获取同一用户类型的所有用户数据,对同一用户类型的所有用户数据进行一一拼接处理,获得待分析用户数据。
在本实施例中,图4中的步骤S402和图1中的步骤S102类似,为简约起见,在此不再赘述。
步骤S403:获取历史用户数据并形成数据集,将数据集划分为训练集和测试集。
在步骤S403中,采用网络爬虫方式获取历史用户数据,从历史用户数据中确定商品属性,对每个商品属性打上对应的评论标签,对每个历史用户数据按照实际购买情况打上用户情感类别标签,根据用户情感类别标签将训练集分为正样本和负样本,用户情感类别为“购买”的样本为正样本,用户情感类别为“不买”的样本为负样本,正、负样本的数量为1:1。
步骤S404:构建用户情感分析模型并采用训练集用户情感分析模型进行训练,得到训练好的用户情感分析模型。
在步骤S404中,基于朴素贝叶斯分类算法的用户情感分析模型采用训练集、classify函数和train函数进行训练,其中,train函数用于训练一个分类预测层中的分类部分,classify函数用于对分类结果进行预测。
进一步地,采用测试集对训练好的用户情感分析模型的预测结果进行验证。当预测结果与测试集的实际情感类别一致时,保存训练好的用户情感分析模型;当预测结果与测试集的实际情感类别不一致时,将测试集增加到训练集中,更新训练集,采用更新后的训练集对用户情感分析模型进行优化。
例如,本实施例以基于朴素贝叶斯分类算法的用户情感分析模型为例,采用以下测试集检验用户情感分析模型的准确性,其中,Q1、Q2以及Q3为测试集的样本。
Q1=[CLS]定期6个月,回报率10%,同行算挺高的了,建议购买[SEP]定期6个月,回报率10%,中低风险,可以考虑入手[SEP]
q.sentiments
0.999786745764231
Output:1
Q2=[CLS]回报率不高,定期时间有点长[SEP]回报率比较低,个人不太喜欢[SEP]
q.sentiments
0.314159278698761
Output:0预测结果准确
Q3=[CLS]产品价格偏高,风险较高,不建议购买[SEP]回报率比较低,个人不太喜欢[SEP]
q.sentiments
0.8743937414987555
Output:1
从测试结果看,对于Q1和Q2的预测结果是正确的,说明用户情感分析模型准确,无需调整模型,对于Q3的预测结果是错误的,说明用户情感分析模型存在误差,需进行模型调整。
步骤S405:将待分析用户数据输入预训练好的用户情感分析模型中,基于自注意力机制从待分析用户数据中提取商品属性特征,对商品属性特征进行上下文语义学习以获得每个商品属性特征的用户评论,根据商品属性特征和用户评论预测用户情感类别。
在本实施例中,图4中的步骤S405和图1中的步骤S103类似,为简约起见,在此不再赘述。
本发明第二实施例的用户情感分析方法基于历史用户数据对用户情感分析模型进行训练,同时经过循环验证用户情感分析模型的预测结果,有效提高了用户情感分析模型的准确性,准确分析用户情感。
图5是本发明第三实施例的用户情感分析方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图5所示的流程顺序为限。如图5所示,该方法包括步骤:
步骤S501:采用网络爬虫方式获取用户数据,用户数据的类型包括用户购买区评论数据、商城论坛区发帖数据以及商城讨论区言论数据中的至少两种。
在本实施例中,图5中的步骤S501和图1中的步骤S101类似,为简约起见,在此不再赘述。
步骤S502:从用户数据中提取用户类型,基于分类器根据用户类型对用户数据进行分类处理,获取同一用户类型的所有用户数据,对同一用户类型的所有用户数据进行一一拼接处理,获得待分析用户数据。
在本实施例中,图5中的步骤S502和图1中的步骤S102类似,为简约起见,在此不再赘述。
步骤S503:将待分析用户数据输入预训练好的用户情感分析模型中,基于自注意力机制从待分析用户数据中提取商品属性特征,对商品属性特征进行上下文语义学习以获得每个商品属性特征的用户评论,根据商品属性特征和用户评论预测用户情感类别。
在本实施例中,图5中的步骤S503和图1中的步骤S103类似,为简约起见,在此不再赘述。
步骤S504:对用户情感类别预测结果进行可视化显示,对比多个商品下的用户情感类别预测结果,通过汇总统计得到每个商品下的用户情感趋势分布。
在步骤S504中,针对同一用户分析其对各个商品的消费意向,针对同一商品分析各个客户对该商品的消费意向。
步骤S505:根据用户情感趋势分布制定相应的营销策略。
在步骤S505中,根据用户情感趋势分布选择用户偏好的商品向用户精准营销,另外,针对大多数用户不喜欢的商品进行改善,提高商品品质。
本发明第三实施例的用户情感分析方法在第一实施例的基础上,通过用户的情感分析结果一方面针对同一用户分析其对各个商品的消费意向,能够深入了解用户的消费偏好,另一方面能够综合多个用户对同一商品的情感分析结果,侧面反映商品本身或营销策略存在的问题,进而能够帮助企业主动改善商品质量以及营销策略,开展精准营销,进一步降低竞争成本。
图6是本发明实施例的用户情感分析装置的结构示意图。如图6所示,该装置60包括第一获取模块61、第二获取模块62和情感分析模块63。
第一获取模块61用于采用网络爬虫方式获取用户数据,用户数据的类型包括用户购买区评论数据、商城论坛区发帖数据以及商城讨论区言论数据中的至少两种。
第二获取模块62用于从用户数据中提取用户类型,基于分类器根据用户类型对用户数据进行分类处理,获取同一用户类型的所有用户数据,对同一用户类型的所有用户数据进行一一拼接处理,获得待分析用户数据。
情感分析模块63用于将待分析用户数据输入预训练好的用户情感分析模型中,基于自注意力机制从待分析用户数据中提取商品属性特征,对商品属性特征进行上下文语义学习以获得每个商品属性特征的用户评论,根据商品属性特征和用户评论预测用户情感类别。
请参阅图7,图7为本发明实施例的计算机设备的结构示意图。如图7所示,该计算机设备70包括处理器71及和处理器71耦接的存储器72。
存储器72存储有用于实现上述任一实施例所述的用户情感分析方法的程序指令。
处理器71用于执行存储器72存储的程序指令以分析用户情感。
其中,处理器71还可以称为CPU(Central Processing Unit,中央处理单元)。处理器71可能是一种集成电路芯片,具有信号的处理能力。处理器71还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
参阅图8,图8为本发明实施例的计算机存储介质的结构示意图。本发明实施例的计算机存储介质存储有能够实现上述所有方法的程序文件81,其中,该程序文件81可以以软件产品的形式存储在上述计算机存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的计算机存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
在本发明所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种用户情感分析方法,其特征在于,包括:
采用网络爬虫方式获取用户数据,所述用户数据的类型包括用户购买区评论数据、商城论坛区发帖数据以及商城讨论区言论数据中的至少两种;
从所述用户数据中提取用户类型,基于分类器根据所述用户类型对所述用户数据进行分类处理,获取同一用户类型的所有用户数据,对同一用户类型的所有用户数据进行一一拼接处理,获得待分析用户数据;
将所述待分析用户数据输入预训练好的用户情感分析模型中,基于自注意力机制从所述待分析用户数据中提取商品属性特征,对所述商品属性特征进行上下文语义学习以获得每个所述商品属性特征的用户评论,根据所述商品属性特征和所述用户评论预测用户情感类别。
2.根据权利要求1所述的用户情感分析方法,其特征在于,采用网络爬虫方式获取用户数据,所述用户数据的类型包括用户购买区评论数据、商城论坛区发帖数据以及商城讨论区言论数据中的至少两种的步骤还包括:
采用网络爬虫方式在用户购买区、商城论坛区以及商城讨论区中抓取URL,采用布隆过滤器对URL进行去重处理,将去重处理后的URL形成URL队列;
爬取与所述URL队列对应的网页,将所述网页存储于数据库中;
对所述网页进行预处理,提取文本数据,利用正则表达式对所述文本数据进行清洗处理,获得用户数据。
3.根据权利要求1所述的用户情感分析方法,其特征在于,从所述用户数据中提取用户类型,基于分类器根据所述用户类型对所述用户数据进行分类处理,获取同一用户类型的所有用户数据,对同一用户类型的所有用户数据进行一一拼接处理,获得待分析用户数据的步骤还包括:
对拼接处理结果进行分词处理,得到第一词汇集合;
对所述第一词汇集合进行词性标注处理,去除停用词,获得第二词汇集合;
对所述第二词汇集合中词汇进行词频统计,将词频统计结果大于预设阈值的词汇进行去重处理,获得所述待分析用户数据。
4.根据权利要求1所述的用户情感分析方法,其特征在于,根据所述商品属性特征和所述用户评论预测用户情感类别的步骤还包括:
将每个所述商品属性特征对应的所述用户评论进行比对,根据比对结果获得每个所述商品属性特征对应的偏好值;
将所述偏好值与对应的商品属性权重进行乘积计算,获得每个商品属性的情感值;
将所有商品属性的情感值进行加和计算获得用户情感值;
根据用户情感值预测用户情感类别。
5.根据权利要求1所述的用户情感分析方法,其特征在于,根据所述商品属性特征和所述用户评论预测用户情感类别的步骤还包括:
基于朴素贝叶斯分类算法根据所述商品属性特征和所述用户评论计算用户情感类别预测概率;
将最大的用户情感类别预测概率对应的分类作为用户情感类别。
6.根据权利要求1所述的用户情感分析方法,其特征在于,将所述待分析用户数据输入预训练好的用户情感分析模型中的步骤之前,还包括:
获取历史用户数据并形成数据集,将所述数据集划分为训练集和测试集;
构建用户情感分析模型并采用所述训练集对所述用户情感分析模型进行训练,得到训练好的用户情感分析模型;
采用所述测试集对训练好的用户情感分析模型的预测结果进行验证。
7.根据权利要求1所述的用户情感分析方法,其特征在于,根据所述商品属性特征和所述用户评论预测用户情感类别的步骤之后,还包括:
对用户情感类别预测结果进行可视化显示,对比多个商品下的用户情感类别预测结果,通过汇总统计得到每个商品下的用户情感趋势分布;
根据所述用户情感趋势分布制定相应的营销策略。
8.一种用户情感分析装置,其特征在于,包括:
第一获取模块,用于采用网络爬虫方式获取用户数据,所述用户数据的类型包括用户购买区评论数据、商城论坛区发帖数据以及商城讨论区言论数据中的至少两种;
第二获取模块,用于从所述用户数据中提取用户类型,基于分类器根据所述用户类型对所述用户数据进行分类处理,获取同一用户类型的所有用户数据,对同一用户类型的所有用户数据进行一一拼接处理,获得待分析用户数据;
情感分析模块,用于将所述待分析用户数据输入预训练好的用户情感分析模型中,基于自注意力机制从所述待分析用户数据中提取商品属性特征,对所述商品属性特征进行上下文语义学习以获得每个所述商品属性特征的用户评论,根据所述商品属性特征和所述用户评论预测用户情感类别。
9.一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的用户情感分析方法。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的用户情感分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111015068.3A CN113722487A (zh) | 2021-08-31 | 2021-08-31 | 用户情感分析方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111015068.3A CN113722487A (zh) | 2021-08-31 | 2021-08-31 | 用户情感分析方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113722487A true CN113722487A (zh) | 2021-11-30 |
Family
ID=78680105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111015068.3A Pending CN113722487A (zh) | 2021-08-31 | 2021-08-31 | 用户情感分析方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113722487A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GR1010537B (el) * | 2022-11-10 | 2023-09-05 | Παναγιωτης Τσαντιλας | Αναλυση συναισθηματος περιεχομενου ιστοσελιδας |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102945268A (zh) * | 2012-10-25 | 2013-02-27 | 北京腾逸科技发展有限公司 | 产品特征评论挖掘方法及*** |
US8949263B1 (en) * | 2012-05-14 | 2015-02-03 | NetBase Solutions, Inc. | Methods and apparatus for sentiment analysis |
CN106504099A (zh) * | 2015-09-07 | 2017-03-15 | 国家计算机网络与信息安全管理中心 | 一种构建用户画像的*** |
CN107862343A (zh) * | 2017-11-28 | 2018-03-30 | 南京理工大学 | 基于规则和神经网络的商品评论属性级情感分类方法 |
CN108038725A (zh) * | 2017-12-04 | 2018-05-15 | 中国计量大学 | 一种基于机器学习的电商产品客户满意度分析方法 |
CN110413780A (zh) * | 2019-07-16 | 2019-11-05 | 合肥工业大学 | 文本情感分析方法、装置、存储介质及电子设备 |
CN110517121A (zh) * | 2019-09-23 | 2019-11-29 | 重庆邮电大学 | 基于评论文本情感分析的商品推荐方法及商品推荐装置 |
CN111859130A (zh) * | 2020-07-21 | 2020-10-30 | 宝鸡文理学院 | 一种基于大数据分析的旅游景点推荐方法及装置 |
CN111966888A (zh) * | 2019-05-20 | 2020-11-20 | 南京大学 | 融合外部数据的基于方面类别的可解释性推荐方法及*** |
CN112329474A (zh) * | 2020-11-02 | 2021-02-05 | 山东师范大学 | 融合注意力的方面级用户评论文本情感分析方法及*** |
CN112966526A (zh) * | 2021-04-20 | 2021-06-15 | 吉林大学 | 一种基于情感词向量的汽车在线评论情感分析方法 |
-
2021
- 2021-08-31 CN CN202111015068.3A patent/CN113722487A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8949263B1 (en) * | 2012-05-14 | 2015-02-03 | NetBase Solutions, Inc. | Methods and apparatus for sentiment analysis |
CN102945268A (zh) * | 2012-10-25 | 2013-02-27 | 北京腾逸科技发展有限公司 | 产品特征评论挖掘方法及*** |
CN106504099A (zh) * | 2015-09-07 | 2017-03-15 | 国家计算机网络与信息安全管理中心 | 一种构建用户画像的*** |
CN107862343A (zh) * | 2017-11-28 | 2018-03-30 | 南京理工大学 | 基于规则和神经网络的商品评论属性级情感分类方法 |
CN108038725A (zh) * | 2017-12-04 | 2018-05-15 | 中国计量大学 | 一种基于机器学习的电商产品客户满意度分析方法 |
CN111966888A (zh) * | 2019-05-20 | 2020-11-20 | 南京大学 | 融合外部数据的基于方面类别的可解释性推荐方法及*** |
CN110413780A (zh) * | 2019-07-16 | 2019-11-05 | 合肥工业大学 | 文本情感分析方法、装置、存储介质及电子设备 |
CN110517121A (zh) * | 2019-09-23 | 2019-11-29 | 重庆邮电大学 | 基于评论文本情感分析的商品推荐方法及商品推荐装置 |
CN111859130A (zh) * | 2020-07-21 | 2020-10-30 | 宝鸡文理学院 | 一种基于大数据分析的旅游景点推荐方法及装置 |
CN112329474A (zh) * | 2020-11-02 | 2021-02-05 | 山东师范大学 | 融合注意力的方面级用户评论文本情感分析方法及*** |
CN112966526A (zh) * | 2021-04-20 | 2021-06-15 | 吉林大学 | 一种基于情感词向量的汽车在线评论情感分析方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GR1010537B (el) * | 2022-11-10 | 2023-09-05 | Παναγιωτης Τσαντιλας | Αναλυση συναισθηματος περιεχομενου ιστοσελιδας |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10748164B2 (en) | Analyzing sentiment in product reviews | |
CN108536852B (zh) | 问答交互方法和装置、计算机设备及计算机可读存储介质 | |
CN108304526B (zh) | 一种数据处理方法、装置及服务器 | |
US20170249389A1 (en) | Sentiment rating system and method | |
WO2017190610A1 (zh) | 目标用户定向方法、装置和计算机存储介质 | |
CN110955750A (zh) | 评论区域和情感极性的联合识别方法、装置、电子设备 | |
CN109582788A (zh) | 垃圾评论训练、识别方法、装置、设备及可读存储介质 | |
CN111666757A (zh) | 商品评论情感倾向分析方法、装置、设备和可读存储介质 | |
Radovanović et al. | Review spam detection using machine learning | |
CN114238573A (zh) | 基于文本对抗样例的信息推送方法及装置 | |
CN110781669A (zh) | 文本关键信息提取方法与装置、电子设备、存储介质 | |
CN110781428A (zh) | 评论展示方法、装置、计算机设备及存储介质 | |
CN115147130A (zh) | 问题预测方法、设备、存储介质及程序产品 | |
CN111104590A (zh) | 信息推荐方法、装置、介质及电子设备 | |
CN113722487A (zh) | 用户情感分析方法、装置、设备及存储介质 | |
CN111079084B (zh) | 一种基于长短时记忆网络的信息转发概率预测方法及*** | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识*** | |
CN116127367A (zh) | 服务评价的审核方法、装置以及计算机可读存储介质 | |
CN113971581A (zh) | 一种机器人的控制方法、装置、终端设备及存储介质 | |
Hoiriyah et al. | Lexicon-Based and Naive Bayes Sentiment Analysis for Recommending the Best Marketplace Selection as a Marketing Strategy for MSMEs | |
JP2018067215A (ja) | データ分析システム、その制御方法、プログラム、及び、記録媒体 | |
Liu et al. | Stratify Mobile App Reviews: E-LDA Model Based on Hot" Entity" Discovery | |
Patidar et al. | Design & Implementation of Product Recommendation Solution using Sentiment Analysis | |
CN110929123A (zh) | 一种电商产品竞争分析方法及*** | |
Kamalesh et al. | Sentiment Analysis on Amazon Product Review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |