CN108170841A - 一种基于信息价值的手机舆情分析决策方法 - Google Patents
一种基于信息价值的手机舆情分析决策方法 Download PDFInfo
- Publication number
- CN108170841A CN108170841A CN201810039223.7A CN201810039223A CN108170841A CN 108170841 A CN108170841 A CN 108170841A CN 201810039223 A CN201810039223 A CN 201810039223A CN 108170841 A CN108170841 A CN 108170841A
- Authority
- CN
- China
- Prior art keywords
- mobile phone
- comment
- evaluation
- user
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于信息价值的手机舆情决策方法,包括如下步骤:S1、收集不同地域的手机评价信息;S2、对收集的收集评价信息进行过滤,去除噪音、去除重复、去除水军,留下真正有价值的用户评价反馈信息;S3、根据收集的评价信息的来源不同,而标注上不同的来源标签;S4、对用户的评价信息进行分析,使得用户的声音能够有行业属性标签;S5、对用户的评价信息进行情感识别,判断出是好评还是差评;S6、将这些用户评价原始声音、来源标签、行业属性标签、情感标签都全部落地到数据库中;S7、分析所述数据库中的评价数据;S8、通过各种各样的维度分析比较,形成分析报告。本发明对手机评价信息进行量化,从而为决策者提供合理性的依据。
Description
技术领域
本发明涉及大数据分析技术领域,尤其涉及一种基于信息价值的手机舆情分析决策方法。
背景技术
当前生活,手机作为人们生活不可或缺的一部分。手机制造商在生产研发过程中面临着各种决策,怎样的手机才能更加被大众所接受,怎样的手机才能更加吸引用户的眼球,怎样的手机才能在未来的市场抢占更多的市场。并且不同的地区不同的国家,对手机的诉求也是不一样的。决策者需要争对各种不同的情况去考虑,在日益激烈的手机市场,缺失了任何一个先机,对该品牌都是致命的打击。
发明内容
针对现有技术中存在的缺陷或不足,本发明的目的是提供一种基于信息价值的手机舆情决策方法,对手机评价信息量化,用于比较各个品牌各个型号在不同的地域、人群中的评价,也可以通过这些评价做分析,从而为决策者提供合理性的依据。
为了实现上述目的,本发明采取以下技术方案:
一种基于信息价值的手机舆情分析决策方法包括如下步骤:
S1、收集不同地域的手机评价信息;
S2、对收集的收集评价信息进行过滤,去除噪音、去除重复、去除水军,留下真正有价值的用户评价反馈信息;
S3、根据收集的评价信息的来源不同,而标注上不同的来源标签;
S4、对用户的评价信息进行分析,使得用户的声音能够有行业属性标签;
S5、对用户的评价信息进行情感识别,判断出是好评还是差评;
S6、将这些用户评价原始声音、来源标签、行业属性标签、情感标签都全部落地到数据库中;
S7、分析所述数据库中的评价数据;
S8、通过各种各样的维度分析比较,形成分析报告。
作为本发明的进一步改进,所述步骤S1中从不同的手机评价信息较多的较真实的互联网网站收集,重点是电商网站,手机论坛、手机社区网站。
作为本发明的进一步改进,所述步骤S1中通过爬虫爬取或者购买上述互联网站的手机相关的评论信息。
作为本发明的进一步改进,所述步骤S2中去除重复的具体操作为:将获取到的评论信息按照各个网站的数据属性,合成主键规则,如果主键是一样的,则认为是重复数据,需要清除掉。
作为本发明的进一步改进,所述步骤S2中去除噪音的具体操作为:定义规则,过滤评论数据,符合以下规则的将其删除:不是手机类的评论,评论的内容只有表情没有文字,评论的内容涉黄,评论的内容是广告,评论的内容字符太短无法识别。
作为本发明的进一步改进,所述步骤S2中去除水军的具体操作为:同样的文字描述大批量的在各个网站中重复出现。就可以把这部分数据列为水军发布的信息,应该将其作为噪声,直接删除。建一个水军数据库,将水军的这些内容放到数据库中,然后用这些水军数据库的数据去匹配手机评论,符合匹配规则的则被视为是水军发文,直接删除。
作为本发明的进一步改进,所述行业属性标签包括产品型号标签、评价类型标签。
作为本发明的进一步改进,所述方法还包括抽取一部分手机评价数据,由专业的分析人员打上标签;选择一种机器学习的算法,用于文本分析的工具;利用这部分打上标签的评论数据去训练机器学习的算法,提高机器学习的准确性,将训练后的模型作为文本分析的程序;将去重去噪后的评论数据经过所述文本分析程序,给这些评论数据打上标签,并且保存到数据库中。
作为本发明的进一步改进,根据用户的需求制定分析维度。
附图说明
图1是本发明的方法流程图;
图2是本发明的一个具体实施例的方法流程图。
具体实施方式
下面结合附图说明及具体实施方式对本发明进一步说明。
如图1所示,本发明的基于信息价值的手机舆情分析决策方法包括如下步骤:
[数据采集]
收集不同国家不同地域的手机评价信息,需要从不同的互联网网站收集,重点是电商网站,手机论坛、手机社区等手机评价信息较多的较真实的网站。
[数据清洗]
对收集的收集评价信息进行过滤,去除噪音、去除重复、去除水军,留下真正有价值的用户评价反馈信息。
[文本分析]
根据收集的评价信息的来源不同,而标注上不同的来源标签。比如:美国-facebook,中国-微博,等等;对用户的评价信息进行分析,打标签,使得用户的声音能够有行业属性。比如打上产品标签(例如苹果6S、华为荣耀8等等)、评价标签(电池不耐用、屏幕大、外观好看,等等);对用户的评价信息进行情感识别,判断出是好评还是差评;将这些用户评价原始声音、来源标签、行业标签、情感等各种标签都全部落地到数据库中,最终是以这份有效的数据进行分析。
[分析报表]
通过网页报表去分析评价数据。比如按照国家维度分析哪个手机卖的最好,然后再统计分析卖的好的手机评价是怎样的,用户喜欢这款手机的哪些功能;比如按照同价位维度对比分析哪个手机卖的好,进一步可以分析为什么卖的好;比如按照配置维度对比手机销售评价情况。
[分析报告]
通过各种各样的维度分析比较,彻底分析用户对各款手机的评价,分析用户对各款手机的满意点和吐槽点,分析不同的区域不同的用户群体对手机的不同诉求点,分析友商的产品优点,分析自身产品的优缺点,挖掘用户的期望功能点,等等。通过这些分析报告,可以给决策者各种有依据有理由的分析报告,从而帮助决策者指明方向,研发出更能让用户接受喜欢的产品。
下面采用一个具体实施例来详细说明本发明。
如图2所示,本发明的基于信息价值的手机舆情分析决策方法,包括以下步骤:
1、对现有的手机电商网站、手机论坛网站、手机新闻网站等互联网网站统计分析,看看哪些网站上是用户吐槽手机相关信息较多较真实的,汇总这些网站信息。
2、通过爬虫爬取或者购买这些互联网站的手机相关的评论信息。
3、将获取到的这些互联网信息按照各个网站的数据属性,合成主键规则,用于对这些评论数据去重。比如电商网站就按照商品名称+发帖时间+发帖人+发帖内容形成主键规则,在以后进来的新数据,如果按照这4个属性组成的主键是一样的,则认为是重复数据,需要清除掉。
4、对评论数据进行去除噪声操作。比如说的不是手机类的评论,评论的内容只有表情没有文字,评论的内容涉黄,评论的内容是一堆广告,评论的内容字符太短无法识别,这些都会被作为噪音去除;定义规则,过滤评论数据,符合这些规则的将其删除。
5、对评论数据中的水军评论信息去除。比如某产品会聘请水军去各个互联网站上去给该产品打广告或者是攻击友商的产品。同样的文字描述大批量的在各个网站中重复出现。就可以把这部分数据列为水军发布的信息,应该将其作为噪声,直接删除。建一个水军数据库,将水军的这些内容放到数据库中,然后用这些水军数据库的数据去匹配手机评论,符合匹配规则的则被视为是水军发文,直接删除。
6、从互联网或者公司的数据库中,获取自身产品以及友商产品的产品参数,建立产品树。每个产品的参数包括产品官方名、产品别名、产品网络用名、产品的配置参数、产品的价格、产品的上市时间、产品所对应的竞品。
7、请专业的手机分析专家,建立手机分类体系。可以从手机的功能、外观、配件、价格、售后、服务,这些方面去建议手机的分类体系。通过手机的分类体系是能够全面的去评价描述手机。
8、抽取一部分手机评价数据,给专业的分析人员打上产品、分类、情感标签。
9、选择一种机器学习的算法,用于文本分析的工具,此类算法是开源的,可以直接从网络上获取。
10、用这部分打上标签的评论数据去训练机器学习的算法,提高机器学习的准确性,将训练后的模型作为文本解析的程序。
11、将去重去噪后的评论数据经过文本解析程序,给这些评论数据打上产品、声音分类、情感标签,并且都保存到业务数据库中。
12、将最终的业务数据同时存放到Elasticsearch和MongoDB中.Elasticsearch中只存放业务的属性数据,源声内容描述、标签属性、情感、来源,主要用途时用于数据过滤和模糊查找。MongoDB存放的是最完全的业务数据。首先在Elasticsearch过滤条件获取数据对应的主键,再根据这些主键去MongoDB中查询最全的业务数据,并在前端展现。
13、根据用户的诉求,可以制定各式各样的报表去分析业务数据。比如:查询条件是国家、手机品牌、手机型号,就可以查询这些国家内的被查询手机的用户反馈情况,可以查看哪些手机卖的好,可以查看用户喜欢这些手机的哪些特性,可以查看用户评论声音,从而获取最原始的用户反馈。
14、通过各式各样的分析报表,可以输出各种手机的分析报告,从而给决策者提供决策的依据。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。其中的数据来源、分类体系、规则模型的开发,都是可以根据实际的业务场景而变化的。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (9)
1.一种基于信息价值的手机舆情分析决策方法,其特征在于:所述方法包括如下步骤:
S1、收集不同地域的手机评价信息;
S2、对收集的收集评价信息进行过滤,去除噪音、去除重复、去除水军,留下真正有价值的用户评价反馈信息;
S3、根据收集的评价信息的来源不同,而标注上不同的来源标签;
S4、对用户的评价信息进行分析,使得用户的声音能够有行业属性标签;
S5、对用户的评价信息进行情感识别,判断出是好评还是差评;
S6、将这些用户评价原始声音、来源标签、行业属性标签、情感标签都全部落地到数据库中;
S7、分析所述数据库中的评价数据;
S8、通过各种各样的维度分析比较,形成分析报告。
2.根据权利要求1所述的方法,其特征在于:所述步骤S1中从不同的手机评价信息较多的较真实的互联网网站收集,重点是电商网站,手机论坛、手机社区网站。
3.根据权利要求2所述的方法,其特征在于:所述步骤S1中通过爬虫爬取或者购买上述互联网站的手机相关的评论信息。
4.根据权利要求1所述的方法,其特征在于:所述步骤S2中去除重复的具体操作为:将获取到的评论信息按照各个网站的数据属性,合成主键规则,如果主键是一样的,则认为是重复数据,需要清除掉。
5.根据权利要求1所述的方法,其特征在于:所述步骤S2中去除噪音的具体操作为:定义规则,过滤评论数据,符合以下规则的将其删除:不是手机类的评论,评论的内容只有表情没有文字,评论的内容涉黄,评论的内容是广告,评论的内容字符太短无法识别。
6.根据权利要求1所述的方法,其特征在于:所述步骤S2中去除水军的具体操作为:同样的文字描述大批量的在各个网站中重复出现,就可以把这部分数据列为水军发布的信息,应该将其作为噪声,直接删除,建一个水军数据库,将水军的这些内容放到数据库中,然后用这些水军数据库的数据去匹配手机评论,符合匹配规则的则被视为是水军发文,直接删除。
7.根据权利要求1所述的方法,其特征在于:所述行业属性标签包括产品型号标签、评价类型标签。
8.根据权利要求1所述的方法,其特征在于:所述方法还包括抽取一部分手机评价数据,由专业的分析人员打上标签;选择一种机器学习的算法,用于文本分析的工具;利用这部分打上标签的评论数据去训练机器学习的算法,提高机器学习的准确性,将训练后的模型作为文本分析的程序;将去重去噪后的评论数据经过所述文本分析程序,给这些评论数据打上标签,并且保存到数据库中。
9.根据权利要求1所述的方法,其特征在于:根据用户的需求制定分析维度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810039223.7A CN108170841A (zh) | 2018-01-16 | 2018-01-16 | 一种基于信息价值的手机舆情分析决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810039223.7A CN108170841A (zh) | 2018-01-16 | 2018-01-16 | 一种基于信息价值的手机舆情分析决策方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108170841A true CN108170841A (zh) | 2018-06-15 |
Family
ID=62514810
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810039223.7A Pending CN108170841A (zh) | 2018-01-16 | 2018-01-16 | 一种基于信息价值的手机舆情分析决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108170841A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112199583A (zh) * | 2020-09-22 | 2021-01-08 | 黑龙江省网络空间研究中心 | 基于多规则关联分析的网络舆情信息智能处理方法及*** |
CN112214661A (zh) * | 2020-10-12 | 2021-01-12 | 西华大学 | 一种面向视频常规评论的情感不稳定用户检测方法 |
CN112328591A (zh) * | 2019-08-05 | 2021-02-05 | 安徽智数汽车科技有限公司 | 一种基于汽车研发的大数据应用***运行方法及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103399916A (zh) * | 2013-07-31 | 2013-11-20 | 清华大学 | 基于产品特征的互联网评论观点挖掘方法及*** |
WO2013185601A1 (zh) * | 2012-06-11 | 2013-12-19 | 腾讯科技(深圳)有限公司 | 一种获取产品信息的方法、装置及计算机存储介质 |
CN106127507A (zh) * | 2016-06-13 | 2016-11-16 | 四川长虹电器股份有限公司 | 一种基于用户评价信息的商品舆情分析方法及*** |
-
2018
- 2018-01-16 CN CN201810039223.7A patent/CN108170841A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013185601A1 (zh) * | 2012-06-11 | 2013-12-19 | 腾讯科技(深圳)有限公司 | 一种获取产品信息的方法、装置及计算机存储介质 |
CN103488635A (zh) * | 2012-06-11 | 2014-01-01 | 腾讯科技(深圳)有限公司 | 一种获取产品信息的方法及装置 |
CN103399916A (zh) * | 2013-07-31 | 2013-11-20 | 清华大学 | 基于产品特征的互联网评论观点挖掘方法及*** |
CN106127507A (zh) * | 2016-06-13 | 2016-11-16 | 四川长虹电器股份有限公司 | 一种基于用户评价信息的商品舆情分析方法及*** |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112328591A (zh) * | 2019-08-05 | 2021-02-05 | 安徽智数汽车科技有限公司 | 一种基于汽车研发的大数据应用***运行方法及存储介质 |
CN112199583A (zh) * | 2020-09-22 | 2021-01-08 | 黑龙江省网络空间研究中心 | 基于多规则关联分析的网络舆情信息智能处理方法及*** |
CN112199583B (zh) * | 2020-09-22 | 2021-11-23 | 黑龙江省网络空间研究中心 | 基于多规则关联分析的网络舆情信息智能处理方法及*** |
CN112214661A (zh) * | 2020-10-12 | 2021-01-12 | 西华大学 | 一种面向视频常规评论的情感不稳定用户检测方法 |
CN112214661B (zh) * | 2020-10-12 | 2022-04-08 | 西华大学 | 一种面向视频常规评论的情感不稳定用户检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110245213A (zh) | 调查问卷生成方法、装置、设备和存储介质 | |
CN111612549B (zh) | 一种平台运营服务***的构建方法 | |
CN108363821A (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
CN110135504B (zh) | 一种基于人工智能的大学生兼职精确匹配方法 | |
CN108304848A (zh) | 户型特征的自动提取方法、***、电子设备和存储介质 | |
CN106067094A (zh) | 一种动态评估方法及*** | |
CN106055617A (zh) | 一种数据推送方法及装置 | |
CN105912670A (zh) | 网络热点挖掘方法及装置 | |
CN106372072A (zh) | 一种基于位置的移动社会网络用户关系的识别方法 | |
CN108170841A (zh) | 一种基于信息价值的手机舆情分析决策方法 | |
CN109783639A (zh) | 一种基于特征提取的调解案件智能分派方法及*** | |
CN109446305A (zh) | 智能旅游客服***的构建方法以及*** | |
CN111274338B (zh) | 一种基于移动大数据的预出境用户识别方法 | |
Liao et al. | Applying crowdsourcing techniques in urban planning: A bibliometric analysis of research and practice prospects | |
CN107273295B (zh) | 一种基于文本混乱度的软件问题报告分类方法 | |
CN105354305A (zh) | 一种网络谣言的识别方法及装置 | |
CN112598438A (zh) | 一种基于大规模用户画像的户外广告推荐***及方法 | |
CN106021551A (zh) | 基于截图信息识别的消费辅助决策方法 | |
CN107563677A (zh) | 一种业务数据分析***及其分析方法 | |
CN106897359A (zh) | 互联网信息收集及关联方法 | |
CN111882403A (zh) | 一种基于用户数据的金融服务平台智能推荐方法 | |
CN107943514A (zh) | 一种软件文档中核心代码元素的挖掘方法及*** | |
CN113592197A (zh) | 一种家政服务推荐***及方法 | |
CN106709824B (zh) | 一种基于网络文本语义分析的建筑评价方法 | |
CN109658296A (zh) | 一种智能留学服务平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180615 |