CN109669968B - 一种基于计量经济学的移动应用评论分析与挖掘方法 - Google Patents
一种基于计量经济学的移动应用评论分析与挖掘方法 Download PDFInfo
- Publication number
- CN109669968B CN109669968B CN201811536003.1A CN201811536003A CN109669968B CN 109669968 B CN109669968 B CN 109669968B CN 201811536003 A CN201811536003 A CN 201811536003A CN 109669968 B CN109669968 B CN 109669968B
- Authority
- CN
- China
- Prior art keywords
- mobile application
- metrology
- comment
- method based
- economics
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于计量经济学的移动应用评论分析与挖掘方法,涉及融合不同类型用户生成数据并进行分析与挖掘,具体地说,基于用户在移动应用市场上传的海量评论建立计量经济学模型,以此生成有指导意义的用户反馈。该方法不仅能够通过特征提取深入分析用户的实际需求,同时利用计量经济学模型刻画不同因素对于移动应用下载量的影响,能够同时满足不同的用户需求。
Description
技术领域
本发明属于数据挖掘领域,具体涉及一种基于计量经济学的移动应用评论分析与挖掘方法。
背景技术
近年来,随着移动互联网的快速发展,智能手机正成为“人-机-物”三元世界互相沟通和融合的门户。与此同时,移动应用的数量也迅速增长,融入了衣食住行各个领域。对于移动应用开发者来说,同类型的产品数量增多,竞争日趋激烈,而应对这一挑战的关键在于推出更加贴近用户关注和需求的产品。面对日益增长的用户评论,非常需要一种高效的分析与挖掘方法来处理海量信息,从而为移动应用开发者提供指导。专利CN106227720A提出了一种APP软件用户评论模式识别方法,该专利基于自然语言处理技术对评论数据进行分析,选择词性组合模板,最终确定软件用户的评论模式。专利CN101667194A提出了一种基于用户评论文本特征的自动摘要方法及其自动摘要***,该专利基于特征识别和评论分类的结果,计算关键词权重并生成文本评论摘要。然而根据调研发现,各大移动应用市场均公开了下载量信息。上述专利的不足之处在于没有融合其他可用的数据源,比如下载量,简单地基于文本挖掘技术,实现方法过于简单,不能充分地挖掘文本评论中包含的丰富信息,难以满足实际需求。
发明内容
为了克服现有方法不能有效挖掘移动应用评论的不足,本发明提供一种基于计量经济学的移动应用评论分析与挖掘方法。该方法不仅能够通过特征提取深入分析用户的实际需求,同时利用计量经济学模型刻画不同因素对于移动应用下载量的影响,能够同时满足不同的用户需求。
为了实现上述目的,本发明采取的技术方案为:一种基于计量经济学的移动应用评论分析与挖掘方法,包括如下步骤:
S1、将网上下载的数据整理融合并写入数据库;
S2、数据初处理:将数据处理成符合条件的格式;
S3、生成候选特征集合T:根据S2的结果,人工选择若干种子特征,通过自助采样模型BootStrapping自动提取具有高置信度的移动应用特征,生成候选特征集合T;
S4、获取用户反馈集合F:根据S3得到的候选特征集合T,筛选生成候选评论集R;利用NLP模型判断每一条候选评论的情感倾向,若情感倾向计算结果为中性或者负面,将其添加到用户反馈集合F;
S5、基于候选特征集合T和用户反馈集合F构建计量经济学模型,分析不同因素对于下载量的影响,挖掘具有显著影响效力的因素;
S6、融合S3与S4的结果,计算单条评论的影响指数,基于用户反馈集合F生成用户反馈。
进一步的,一种基于计量经济学的移动应用评论分析和挖掘方法,所述S1中的数据包括用户评论、各版本发布时间、下载量信息。
进一步的,一种基于计量经济学的移动应用评论分析和挖掘方法,所述S2数据初处理步骤具体包括以下步骤:
S21:根据文本评论的长度筛选原始评论,降低无意义内容引入的噪声;
S22:同时根据是否包含非法字符过滤异常数据;
S23:利用标点符号或空格符将原始文本评论分割为短句,将结果保存。
进一步的,一种基于计量经济学的移动应用评论分析和挖掘方法,所述步骤S3的置信度定义为:
其中,conf(asp)代表移动应用特征asp的置信度,conf(pati)代表第i种文本模式pat的置信度(在预处理阶段直接计算得出),n表示相应文本模式的数量;匹配文本模式数量越多的应用特征,其置信度越高;通过计算置信度,得到有效的种子特征集合以便进一步的迭代。
进一步的,一种基于计量经济学的移动应用评论分析和挖掘方法,所述步骤S5的计量经济学模型为,
其中,log(downloads)t代表在t时刻对移动应用下载量取对数的结果,βi代表第i个移动应用特征的系数,α代表移动应用相关的人工调节参数,εt代表在t时刻的误差项。
进一步的,一种基于计量经济学的移动应用评论分析和挖掘方法,所述S5中下载量指标需要归一化处理。
本发明具有以下有益效果为,基于移动应用市场公开的多源异构数据,以移动应用的演化作为背景,引入计量经济学模型,弥补了传统文本挖掘方法的不足,有助于移动应用开发者更好地了解用户反馈,进而提高用户满意度。
附图说明
图1为本发明基于计量经济学的移动应用评论分析与挖掘总结流程图。
具体实施方式
下面结合附图来进一步描述本发明的技术方案。
S1、将网上下载的数据整理融合并写入数据库;以视频类移动应用“优酷”为例。编写网络爬虫程序,从移动应用商店抓取用户评论、各版本发布时间、下载量信息,整理融合并写入数据库。
S2、数据初处理:将数据处理成符合条件的格式;
S21:根据文本评论的长度筛选原始评论,降低无意义内容引入的噪声:利用分词工具对文本评论进行分词并过滤停用词。根据文本评论的长度筛选原始用户评论,阈值长度设定为5,降低无意义评论引入的噪声。
S22:同时根据是否包含非法字符过滤异常数据:然后过滤包含非中文字符的异常评论数据,
S23:最后利用标点符号或空格符将原始文本评论分割为短句,将结果保存。
S3、生成候选特征集合T:根据S2的结果,人工选择若干种子特征,通过自助采样模型BootStrapping自动提取具有高置信度的移动应用特征,生成候选特征集合T;
置信度定义为:
其中,conf(asp)代表移动应用特征asp的置信度,conf(pati)代表第i种文本模式pat的置信度(在预处理阶段直接计算得出),n表示相应文本模式的数量;匹配文本模式数量越多的应用特征,其置信度越高;通过计算置信度,得到有效的种子特征集合以便进一步的迭代。
根据步骤2的结果,借助半监督学习的思路,首先人工选择若干种子特征,初始化3个特征:下载,界面,广告。在迭代过程中,利用自助采样模型BootStrapping计算每一个特征的置信度,将高置信度的特征加入候选特征集合T。其中,候选特征集合T的元素个数的上限设定为10。
S4、获取用户反馈集合F:根据S3得到的候选特征集合T,筛选生成候选评论集R;利用NLP模型判断每一条候选评论的情感倾向,若情感倾向计算结果为中性或者负面,将其添加到用户反馈集合F;
基于S3得到的候选特征集合T,根据是否包含至少一个特征来生成候选评论集R。对于候选评论集R中的每一条评论,利用NLP模型计算其情感倾向,输出-1代表负面,0代表中性,1代表正面,若情感倾向计算结果为0或者-1,则将其添加到用户反馈集合F。其中,用户反馈集合F的元素个数没有上限。
S5、基于候选特征集合T和用户反馈集合F构建计量经济学模型,分析不同因素对于下载量的影响,挖掘具有显著影响效力的因素;其中下载量指标需要归一化处理。计量经济学模型为,
其中,log(downloads)t代表在t时刻对移动应用下载量取对数的结果,βt代表第i个移动应用特征的系数,α代表移动应用相关的人工调节参数,εt代表在t时刻的误差项。
对于视频类移动应用“优酷”,首先对其下载量指标进行均值归一化处理。然后基于已经得到的候选特征集合T和用户反馈集合F构建计量经济学模型,分析不同因素对于“优酷”应用下载量的影响。在模型中具体表现为差异化的权重,进而挖掘具有显著影响效力的因素。
S6、融合S3与S4的结果,计算单条评论的影响指数,基于用户反馈集合F生成用户反馈。
Claims (7)
1.一种基于计量经济学的移动应用评论分析与挖掘方法,其特征在于:包括如下步骤:
S1、将网上下载的数据整理融合并写入数据库;
S2、数据初处理:将数据处理成符合条件的格式;
S3、生成候选特征集合T:根据S2的结果,人工选择若干种子特征,通过自助采样模型BootStrapping自动提取具有高置信度的移动应用特征,生成候选特征集合T;
S4、获取用户反馈集合F:根据S3得到的候选特征集合T,筛选生成候选评论集R;利用NLP模型判断每一条候选评论的情感倾向,若情感倾向计算结果为中性或者负面,将其添加到用户反馈集合F;
S5、基于候选特征集合T和用户反馈集合F构建计量经济学模型,分析不同因素对于下载量的影响,挖掘具有显著影响效力的因素;
S6、融合S3与S4的结果,计算单条评论的影响指数,基于用户反馈集合F生成用户反馈。
2.根据权利要求1所述的一种基于计量经济学的移动应用评论分析和挖掘方法,其特征在于:所述S1中的数据包括用户评论、各版本发布时间、下载量信息。
3.根据权利要求1所述的一种基于计量经济学的移动应用评论分析和挖掘方法,其特征在于:所述S2数据初处理步骤具体包括以下步骤:
S21:根据文本评论的长度筛选原始评论,降低无意义内容引入的噪声;
S22:同时根据是否包含非法字符过滤异常数据;
S23:利用标点符号或空格符将原始文本评论分割为短句,将结果保存。
5.根据权利要求1所述的一种基于计量经济学的移动应用评论分析和挖掘方法,其特征在于:所述NLP模型输出-1代表负面,0代表中性,1代表正面,若情感倾向计算结果为0或者-1。
7.根据权利要求1所述的一种基于计量经济学的移动应用评论分析和挖掘方法,其特征在于:所述S5中所述下载量指标需要归一化处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811536003.1A CN109669968B (zh) | 2018-12-14 | 2018-12-14 | 一种基于计量经济学的移动应用评论分析与挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811536003.1A CN109669968B (zh) | 2018-12-14 | 2018-12-14 | 一种基于计量经济学的移动应用评论分析与挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109669968A CN109669968A (zh) | 2019-04-23 |
CN109669968B true CN109669968B (zh) | 2022-09-23 |
Family
ID=66143830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811536003.1A Active CN109669968B (zh) | 2018-12-14 | 2018-12-14 | 一种基于计量经济学的移动应用评论分析与挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109669968B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550269A (zh) * | 2015-12-10 | 2016-05-04 | 复旦大学 | 一种有监督学习的产品评论分析方法及*** |
WO2017051425A1 (en) * | 2015-09-23 | 2017-03-30 | Devanathan Giridhari | A computer-implemented method and system for analyzing and evaluating user reviews |
CN108573411A (zh) * | 2018-04-17 | 2018-09-25 | 重庆理工大学 | 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法 |
-
2018
- 2018-12-14 CN CN201811536003.1A patent/CN109669968B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017051425A1 (en) * | 2015-09-23 | 2017-03-30 | Devanathan Giridhari | A computer-implemented method and system for analyzing and evaluating user reviews |
CN105550269A (zh) * | 2015-12-10 | 2016-05-04 | 复旦大学 | 一种有监督学习的产品评论分析方法及*** |
CN108573411A (zh) * | 2018-04-17 | 2018-09-25 | 重庆理工大学 | 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法 |
Non-Patent Citations (2)
Title |
---|
基于在线评论的用户需求挖掘模型研究;涂海丽等;《情报学报》;20151024(第10期);全文 * |
基于情感分析的评论数据用户满意度影响因素研究;刘甲学等;《现代情报》;20170715(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109669968A (zh) | 2019-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107102993B (zh) | 一种用户诉求分析方法和装置 | |
CN112270379A (zh) | 分类模型的训练方法、样本分类方法、装置和设备 | |
CN109522011B (zh) | 一种基于编程现场上下文深度感知的代码行推荐方法 | |
CN111651198B (zh) | 代码摘要自动化生成方法及装置 | |
CN103853834B (zh) | 基于文本结构分析的Web文档摘要的生成方法 | |
CN106021410A (zh) | 一种基于机器学习的源代码注释质量评估方法 | |
CN107885793A (zh) | 一种微博热点话题分析预测方法及*** | |
CN110704890A (zh) | 一种融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法 | |
CN108287911A (zh) | 一种基于约束化远程监督的关系抽取方法 | |
CN103324700A (zh) | 一种基于Web信息的本体概念属性学习方法 | |
CN108536868A (zh) | 社交网络上短文本数据的数据处理方法及应用 | |
CN110851176A (zh) | 一种自动构造并利用伪克隆语料的克隆代码检测方法 | |
CN113051932A (zh) | 语义和知识扩展主题模型的网络媒体事件的类别检测方法 | |
CN106815253B (zh) | 一种基于混合数据类型数据的挖掘方法 | |
CN107526721A (zh) | 一种对电商产品评论词汇的歧义消除方法及装置 | |
CN113934909A (zh) | 基于预训练语言结合深度学习模型的金融事件抽取方法 | |
CN104750484B (zh) | 一种基于最大熵模型的代码摘要生成方法 | |
CN114297440A (zh) | 视频自动生成方法、装置、计算机设备及存储介质 | |
CN107436931B (zh) | 网页正文抽取方法及装置 | |
CN107451116B (zh) | 一种移动应用内生大数据统计分析方法 | |
CN106021413B (zh) | 基于主题模型的自展式特征选择方法及*** | |
CN109669968B (zh) | 一种基于计量经济学的移动应用评论分析与挖掘方法 | |
CN116166789A (zh) | 一种方法命名精准推荐和审查方法 | |
CN116306672A (zh) | 一种数据处理方法及其装置 | |
CN116305257A (zh) | 隐私信息监测装置和隐私信息监测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |