CN109669968A - 一种基于计量经济学的移动应用评论分析与挖掘方法 - Google Patents
一种基于计量经济学的移动应用评论分析与挖掘方法 Download PDFInfo
- Publication number
- CN109669968A CN109669968A CN201811536003.1A CN201811536003A CN109669968A CN 109669968 A CN109669968 A CN 109669968A CN 201811536003 A CN201811536003 A CN 201811536003A CN 109669968 A CN109669968 A CN 109669968A
- Authority
- CN
- China
- Prior art keywords
- comment
- mobile application
- econometrics
- analysis
- confidence level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于计量经济学的移动应用评论分析与挖掘方法,涉及融合不同类型用户生成数据并进行分析与挖掘,具体地说,基于用户在移动应用市场上传的海量评论建立计量经济学模型,以此生成有指导意义的用户反馈。该方法不仅能够通过特征提取深入分析用户的实际需求,同时利用计量经济学模型刻画不同因素对于移动应用下载量的影响,能够同时满足不同的用户需求。
Description
技术领域
本发明属于数据挖掘领域,具体涉及一种基于计量经济学的移动应用评论分析与挖掘方法。
背景技术
近年来,随着移动互联网的快速发展,智能手机正成为“人-机-物”三元世界互相沟通和融合的门户。与此同时,移动应用的数量也迅速增长,融入了衣食住行各个领域。对于移动应用开发者来说,同类型的产品数量增多,竞争日趋激烈,而应对这一挑战的关键在于推出更加贴近用户关注和需求的产品。面对日益增长的用户评论,非常需要一种高效的分析与挖掘方法来处理海量信息,从而为移动应用开发者提供指导。专利CN106227720A提出了一种APP软件用户评论模式识别方法,该专利基于自然语言处理技术对评论数据进行分析,选择词性组合模板,最终确定软件用户的评论模式。专利CN101667194A提出了一种基于用户评论文本特征的自动摘要方法及其自动摘要***,该专利基于特征识别和评论分类的结果,计算关键词权重并生成文本评论摘要。然而根据调研发现,各大移动应用市场均公开了下载量信息。上述专利的不足之处在于没有融合其他可用的数据源,比如下载量,简单地基于文本挖掘技术,实现方法过于简单,不能充分地挖掘文本评论中包含的丰富信息,难以满足实际需求。
发明内容
为了克服现有方法不能有效挖掘移动应用评论的不足,本发明提供一种基于计量经济学的移动应用评论分析与挖掘方法。该方法不仅能够通过特征提取深入分析用户的实际需求,同时利用计量经济学模型刻画不同因素对于移动应用下载量的影响,能够同时满足不同的用户需求。
为了实现上述目的,本发明采取的技术方案为:一种基于计量经济学的移动应用评论分析与挖掘方法,包括如下步骤:
S1、将网上下载的数据整理融合并写入数据库;
S2、数据初处理:将数据处理成符合条件的格式;
S3、生成候选特征集合T:根据S2的结果,人工选择若干种子特征,通过自助采样模型BootStrapping自动提取具有高置信度的移动应用特征,生成候选特征集合T;
S4、获取用户反馈集合F:根据S3得到的候选特征集合T,筛选生成候选评论集R;利用NLP模型判断每一条候选评论的情感倾向,若情感倾向计算结果为中性或者负面,将其添加到用户反馈集合F;
S5、基于候选特征集合T和用户反馈集合F构建计量经济学模型,分析不同因素对于下载量的影响,挖掘具有显著影响效力的因素;
S6、融合S3与S4的结果,计算单条评论的影响指数,基于用户反馈集合F生成用户反馈。
进一步的,一种基于计量经济学的移动应用评论分析和挖掘方法,所述S1中的数据包括用户评论、各版本发布时间、下载量信息。
进一步的,一种基于计量经济学的移动应用评论分析和挖掘方法,所述S2数据初处理步骤具体包括以下步骤:
S21:根据文本评论的长度筛选原始评论,降低无意义内容引入的噪声;
S22:同时根据是否包含非法字符过滤异常数据;
S23:利用标点符号或空格符将原始文本评论分割为短句,将结果保存。
进一步的,一种基于计量经济学的移动应用评论分析和挖掘方法,所述步骤S3的置信度定义为:
其中,conf(asp)代表移动应用特征asp的置信度,conf(pati)代表第i种文本模式pat的置信度(在预处理阶段直接计算得出),n表示相应文本模式的数量;匹配文本模式数量越多的应用特征,其置信度越高;通过计算置信度,得到有效的种子特征集合以便进一步的迭代。
进一步的,一种基于计量经济学的移动应用评论分析和挖掘方法,所述步骤S5的计量经济学模型为,
其中,log(downloads)t代表在t时刻对移动应用下载量取对数的结果,βi代表第i个移动应用特征的系数,α代表移动应用相关的人工调节参数,εt代表在t时刻的误差项。
进一步的,一种基于计量经济学的移动应用评论分析和挖掘方法,所述S5中下载量指标需要归一化处理。
本发明具有以下有益效果为,基于移动应用市场公开的多源异构数据,以移动应用的演化作为背景,引入计量经济学模型,弥补了传统文本挖掘方法的不足,有助于移动应用开发者更好地了解用户反馈,进而提高用户满意度。
附图说明
图1为本发明基于计量经济学的移动应用评论分析与挖掘总结流程图。
具体实施方式
下面结合附图来进一步描述本发明的技术方案。
S1、将网上下载的数据整理融合并写入数据库;以视频类移动应用“优酷”为例。编写网络爬虫程序,从移动应用商店抓取用户评论、各版本发布时间、下载量信息,整理融合并写入数据库。
S2、数据初处理:将数据处理成符合条件的格式;
S21:根据文本评论的长度筛选原始评论,降低无意义内容引入的噪声:利用分词工具对文本评论进行分词并过滤停用词。根据文本评论的长度筛选原始用户评论,阈值长度设定为5,降低无意义评论引入的噪声。
S22:同时根据是否包含非法字符过滤异常数据:然后过滤包含非中文字符的异常评论数据,
S23:最后利用标点符号或空格符将原始文本评论分割为短句,将结果保存。
S3、生成候选特征集合T:根据S2的结果,人工选择若干种子特征,通过自助采样模型BootStrapping自动提取具有高置信度的移动应用特征,生成候选特征集合T;
置信度定义为:
其中,conf(asp)代表移动应用特征asp的置信度,conf(pati)代表第i种文本模式pat的置信度(在预处理阶段直接计算得出),n表示相应文本模式的数量;匹配文本模式数量越多的应用特征,其置信度越高;通过计算置信度,得到有效的种子特征集合以便进一步的迭代。
根据步骤2的结果,借助半监督学习的思路,首先人工选择若干种子特征,初始化3个特征:下载,界面,广告。在迭代过程中,利用自助采样模型BootStrapping计算每一个特征的置信度,将高置信度的特征加入候选特征集合T。其中,候选特征集合T的元素个数的上限设定为10。
S4、获取用户反馈集合F:根据S3得到的候选特征集合T,筛选生成候选评论集R;利用NLP模型判断每一条候选评论的情感倾向,若情感倾向计算结果为中性或者负面,将其添加到用户反馈集合F;
基于S3得到的候选特征集合T,根据是否包含至少一个特征来生成候选评论集R。对于候选评论集R中的每一条评论,利用NLP模型计算其情感倾向,输出-1代表负面,0代表中性,1代表正面,若情感倾向计算结果为0或者-1,则将其添加到用户反馈集合F。其中,用户反馈集合F的元素个数没有上限。
S5、基于候选特征集合T和用户反馈集合F构建计量经济学模型,分析不同因素对于下载量的影响,挖掘具有显著影响效力的因素;其中下载量指标需要归一化处理。计量经济学模型为,
其中,log(downloads)t代表在t时刻对移动应用下载量取对数的结果,βt代表第i个移动应用特征的系数,α代表移动应用相关的人工调节参数,εt代表在t时刻的误差项。
对于视频类移动应用“优酷”,首先对其下载量指标进行均值归一化处理。然后基于已经得到的候选特征集合T和用户反馈集合F构建计量经济学模型,分析不同因素对于“优酷”应用下载量的影响。在模型中具体表现为差异化的权重,进而挖掘具有显著影响效力的因素。
S6、融合S3与S4的结果,计算单条评论的影响指数,基于用户反馈集合F生成用户反馈。
Claims (7)
1.一种基于计量经济学的移动应用评论分析与挖掘方法,其特征在于:包括如下步骤:
S1、将网上下载的数据整理融合并写入数据库;
S2、数据初处理:将数据处理成符合条件的格式;
S3、生成候选特征集合T:根据S2的结果,人工选择若干种子特征,通过自助采样模型BootStrapping自动提取具有高置信度的移动应用特征,生成候选特征集合T;
S4、获取用户反馈集合F:根据S3得到的候选特征集合T,筛选生成候选评论集R;利用NLP模型判断每一条候选评论的情感倾向,若情感倾向计算结果为中性或者负面,将其添加到用户反馈集合F;
S5、基于候选特征集合T和用户反馈集合F构建计量经济学模型,分析不同因素对于下载量的影响,挖掘具有显著影响效力的因素;
S6、融合S3与S4的结果,计算单条评论的影响指数,基于用户反馈集合F生成用户反馈。
2.根据权利要求1所述的一种基于计量经济学的移动应用评论分析和挖掘方法,其特征在于:所述S1中的数据包括用户评论、各版本发布时间、下载量信息。
3.根据权利要求1所述的一种基于计量经济学的移动应用评论分析和挖掘方法,其特征在于:所述S2数据初处理步骤具体包括以下步骤:
S21:根据文本评论的长度筛选原始评论,降低无意义内容引入的噪声;
S22:同时根据是否包含非法字符过滤异常数据;
S23:利用标点符号或空格符将原始文本评论分割为短句,将结果保存。
4.根据权利要求1所述的一种基于计量经济学的移动应用评论分析和挖掘方法,其特征在于:所述步骤S3的置信度定义为:
其中,conf(asp)代表移动应用特征asp的置信度,conf(pati)代表第i种文本模式pat的置信度(在预处理阶段直接计算得出),n表示相应文本模式的数量;匹配文本模式数量越多的应用特征,其置信度越高;通过计算置信度,得到有效的种子特征集合以便进一步的迭代。
5.根据权利要求1所述的一种基于计量经济学的移动应用评论分析和挖掘方法,其特征在于:所述NLP模型输出-1代表负面,0代表中性,1代表正面,若情感倾向计算结果为0或者-1。
6.根据权利要求1所述的一种基于计量经济学的移动应用评论分析和挖掘方法,其特征在于:所述步骤S5的计量经济学模型为,
其中,log(downloads)t代表在t时刻对移动应用下载量取对数的结果,βi代表第i个移动应用特征的系数,α代表移动应用相关的人工调节参数,εt代表在t时刻的误差项。
7.根据权利要求1所述的一种基于计量经济学的移动应用评论分析和挖掘方法,其特征在于:所述S5中所述下载量指标需要归一化处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811536003.1A CN109669968B (zh) | 2018-12-14 | 2018-12-14 | 一种基于计量经济学的移动应用评论分析与挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811536003.1A CN109669968B (zh) | 2018-12-14 | 2018-12-14 | 一种基于计量经济学的移动应用评论分析与挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109669968A true CN109669968A (zh) | 2019-04-23 |
CN109669968B CN109669968B (zh) | 2022-09-23 |
Family
ID=66143830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811536003.1A Active CN109669968B (zh) | 2018-12-14 | 2018-12-14 | 一种基于计量经济学的移动应用评论分析与挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109669968B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550269A (zh) * | 2015-12-10 | 2016-05-04 | 复旦大学 | 一种有监督学习的产品评论分析方法及*** |
WO2017051425A1 (en) * | 2015-09-23 | 2017-03-30 | Devanathan Giridhari | A computer-implemented method and system for analyzing and evaluating user reviews |
CN108573411A (zh) * | 2018-04-17 | 2018-09-25 | 重庆理工大学 | 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法 |
-
2018
- 2018-12-14 CN CN201811536003.1A patent/CN109669968B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017051425A1 (en) * | 2015-09-23 | 2017-03-30 | Devanathan Giridhari | A computer-implemented method and system for analyzing and evaluating user reviews |
CN105550269A (zh) * | 2015-12-10 | 2016-05-04 | 复旦大学 | 一种有监督学习的产品评论分析方法及*** |
CN108573411A (zh) * | 2018-04-17 | 2018-09-25 | 重庆理工大学 | 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法 |
Non-Patent Citations (2)
Title |
---|
刘甲学等: "基于情感分析的评论数据用户满意度影响因素研究", 《现代情报》 * |
涂海丽等: "基于在线评论的用户需求挖掘模型研究", 《情报学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN109669968B (zh) | 2022-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Correa et al. | Chaff from the wheat: Characterization and modeling of deleted questions on stack overflow | |
CN106156286B (zh) | 面向专业文献知识实体的类型抽取***及方法 | |
CN110533097A (zh) | 一种图像清晰度识别方法、装置、电子设备及存储介质 | |
CN104268197B (zh) | 一种行业评论数据细粒度情感分析方法 | |
CN107992531A (zh) | 基于深度学习的新闻个性化智能推荐方法与*** | |
CN108388544A (zh) | 一种基于深度学习的图文融合微博情感分析方法 | |
CN106970898A (zh) | 用于生成文章的方法和装置 | |
CN110196945A (zh) | 一种基于LSTM与LeNet融合的微博用户年龄预测方法 | |
CN101799802B (zh) | 利用结构信息进行实体关系提取的方法和*** | |
CN114565826B (zh) | 一种农业病虫害识别诊断方法、***及装置 | |
CN108038205A (zh) | 针对中文微博的观点分析原型*** | |
CN110008309A (zh) | 一种短语挖掘方法及装置 | |
CN112102813B (zh) | 基于用户评论中上下文的语音识别测试数据生成方法 | |
CN108132887A (zh) | 用户界面校验方法、装置、软件测试***、终端及介质 | |
CN108287911A (zh) | 一种基于约束化远程监督的关系抽取方法 | |
CN107993636B (zh) | 基于递归神经网络的乐谱建模与生成方法 | |
CN109828997A (zh) | 一种大学生行为数据分析及学业预警方法 | |
CN109710930A (zh) | 一种基于深度神经网络的中文简历解析方法 | |
CN109271546A (zh) | 图像检索特征提取模型建立、数据库建立及检索方法 | |
CN110110137A (zh) | 一种确定音乐特征的方法、装置、电子设备及存储介质 | |
CN116523402B (zh) | 一种基于多模态数据的网络学习资源质量评估方法及*** | |
Li et al. | Hierarchical embedding for code search in software Q&A sites | |
CN109669968A (zh) | 一种基于计量经济学的移动应用评论分析与挖掘方法 | |
CN110264311A (zh) | 一种基于深度学习的商业推广信息精准推荐方法及*** | |
CN110427519A (zh) | 视频的处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |