CN113792118A - 基于景区评价的满意度提升***和方法 - Google Patents
基于景区评价的满意度提升***和方法 Download PDFInfo
- Publication number
- CN113792118A CN113792118A CN202111048348.4A CN202111048348A CN113792118A CN 113792118 A CN113792118 A CN 113792118A CN 202111048348 A CN202111048348 A CN 202111048348A CN 113792118 A CN113792118 A CN 113792118A
- Authority
- CN
- China
- Prior art keywords
- scenic spot
- data
- text
- emotion
- satisfaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000011156 evaluation Methods 0.000 title claims abstract description 39
- 230000002996 emotional effect Effects 0.000 claims abstract description 32
- 238000004458 analytical method Methods 0.000 claims abstract description 27
- 230000008451 emotion Effects 0.000 claims description 65
- 230000011218 segmentation Effects 0.000 claims description 28
- 238000004140 cleaning Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 6
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 230000006872 improvement Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 2
- 238000004141 dimensional analysis Methods 0.000 abstract description 3
- 241000258920 Chilopoda Species 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 239000003086 colorant Substances 0.000 description 4
- 238000012552 review Methods 0.000 description 4
- 230000007935 neutral effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 101100444584 Mus musculus Efnb2 gene Proteins 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 235000014102 seafood Nutrition 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0282—Rating or review of business operators or products
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/14—Travel agencies
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Databases & Information Systems (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Computational Linguistics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Analysis (AREA)
- Mathematical Physics (AREA)
- Mathematical Optimization (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Software Systems (AREA)
- Primary Health Care (AREA)
- Computational Mathematics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Evolutionary Computation (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及旅游大数据技术领域,具体涉及一种基于景区评价的满意度提升***和方法,本发明通过获取OTA平台的评论,计算每个景区评论文本的情感总值,判断评论文本的情感倾向,包括正向、负向及中性,利用LDA主题聚类方法分析正负向评论的主题,结合时间变量,挖掘游客满意度的影响因素以及游客关注焦点变化。本发明通过建立各维度下的景区满意度关键特征,在各评论的情感层面进行赋值,再与景区的游客评价文字进行关联匹配,得到不同维度下的游客评价倾向,用以衡量景区在整体体验、景区基础条件、景区旅游消费、景区旅游资源、景区便利程度等特定维度的满意度情况,实现游客评论的多维度分析,针对性的对景区进行分析,提升管理水平。
Description
技术领域
本发明涉及旅游大数据技术领域,具体涉及一种基于景区评价的满意度提升***和方法。
背景技术
对于景区满意度的调查最常见的方式就是问卷调查方法,而在线上旅游平台评价景区时,往往只有一个总体评分,很少会有对景区全方面、全维度的评价。
从景区管理者的角度来看,景区的总体评价比较轻易的获取,但无法明确了解游客实际的抱怨点,但该方法费时费力且准确度难以把握,无法精准定位问题所在,不利于总结经验,改善景区管理。
发明内容
针对现有技术的不足,本发明公开了一种基于景区评价的满意度提升***和方法,用于解决动态监控景区满意度的变化趋势无法确定的问题,并基于改善因子帮助旅游管理部门、景区管理人员提升管理水平。
本发明通过以下技术方案予以实现:
第一方面,本发明提供了一种基于景区评价的满意度提升方法,包括以下步骤:
S1选择待评价景区,并通过爬虫获取游客在OTA网站对该景区发布的评论数据信息;
S2对获取的评论数据信息进行数据清洗,根据数据清洗规则筛除无效和冗余的数据;
S3通过文本情感分析对评论数据信息中蕴含的情感总值进行量化,并通过句子求和计算景区该条评论的文本情感值;
S4最终通过主题聚类分析正负向评论的主题,研究景区评价中对景区满意或者不满意的主要原因,并以此为改进提升满意度。
更进一步的,所述方法中,对数据清洗时规则包括:去除重复数据,去除缺失无效数据,短句删除,英文、数字、字符的删除,去除停用词及中文分词。
更进一步的,所述重复数据包括容重复数据和***默认评论数据;
所述无效数据包括内容缺失数据,数据集中多次出现空白评论,空值数据以及HTML超文本标签数据;
所述短句删除是删除与评论内容较短的数据;
所述中文分词是将数据切分处理转变成结构化数据。
更进一步的,所述方法中,通过文本情感分析进行情感值计算时,步骤如下:
T1对评论数据信息进行句子切分得到子句;
T2对切分后的子句进行分词处理和停用词处理;
T3对情感词进行定位和赋值;
T4对子句进行加权调整;
T5对子句进行求和得到文本情感值。
更进一步的,所述步骤T2中,利用jieba分词对每个子句进行中文分词以及去除停用词,先对子句进行分词且分处理,然后进行停用词处理,将分词文本与本文构造的停用词词典进行匹配,删除匹配成功的停用词,未匹配成功的则保留。
更进一步的,所述步骤T5中,对子句进行求和时,假设一条景区在线评论文本被划分为n个子句,每个子句的情感值分别为senti1,senti2,....sentin,那么整条景区在线评论的情感倾向值为:
更进一步的,所述方法中,所述主题聚类在整体体验、景区基础条件、景区旅游消费、景区旅游资源和景区便利程度方面利用主题聚类方法分析正负向评论的主题。
更进一步的,所述主题聚类,使用LDA主题聚类模型,其为三层贝叶斯模型,通过对文本数据通过训练优化,计算将文档归为一个主题的可能性,以及将一个主题归为一个词语的可能性,最终形成文档-主题-词语的三层贝叶斯模型;其中
P(词语|文档)=P(主题|文档)×P(词语|主题)
应用LDA主题聚类模型时,设定三个参数:主题数量,超参数α和β,主题数量需要根据文本实际情况进行设定,对于超参数α和β,α越大,整个文档越接近一个主题,β越大,每个主题下的特殊词汇的重要性越大。
第二方面,本发明公开了一种基于景区评价的满意度提升***,所述***用于实现第一方面所述的基于景区评价的满意度提升方法,其特征在于,包括
源数据获取模块,用于获取游客发布OTA网站公开数据的评论数据信息;
数据清洗模块,用于根据数据清洗规则筛除无效和冗余的数据;
文本情感分析模块,用于分析得到文本情感值;
主题聚类模块,用于研究景区评价中对景区满意或者不满意的主要原因。
更进一步的,所述文本情感分析包括:
文本情感分析部分,通过评论中的标点符号对句子进行切分,对整条文本评论进行句子分割形成子句;
分句分词切分及去除停用词部分,利用jieba分词对每个子句进行分词切分,再利用文本中构造的停用词词表删除每个分句中存在的停用词;
定位情感词以及情感赋值部分,将每个子句中的所有情感词与构造的情感词典进行匹配,对匹配成功的情词进行情感赋值;
加权求和部分,将子句中情感词前的程度副词以及否定词与本文中构造的情感词典中的程度副词词典以及否定副词词典相匹配,并赋予相应其权重,最终计算整个子句的情感倾向值;
计算整条文本的情感倾向值部分,将整句单条文本中所有子句的倾向值求和,最终得到整条文本情感倾向值。
本发明的有益效果为:
本发明通过建立各维度下的景区满意度关键特征,在各评论的情感层面进行赋值,再与景区的游客评价文字进行关联匹配,得到不同维度下的游客评价倾向,用以衡量景区在整体体验、景区基础条件、景区旅游消费、景区旅游资源、景区便利程度等特定维度的满意度情况,帮助旅游管理部门、景区管理人员实现游客评论的多维度分析,能够有针对性的对景区进行分析,助力提升管理水平。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是一种基于景区评价的满意度提升方法的流程图;
图2是本发明实施例文本情感分析模块的流程图;
图3是本发明实施例LDA主题分析流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本实施例公开一种基于景区评价的满意度提升方法,包括以下步骤:
1、源数据获取,选择待评价景区,通过爬虫获取游客发布OTA网站公开数据的评论数据信息;
2、数据清洗,对采集到的数据信息进行简单的筛选,筛除一些无用垃圾数据信息;
3、文本情感分析,利用文本情感分析的方法对评论中蕴含的情感总值分析并量化,通过句子求和计算景区该条评论的文本情感值;
4、主题聚类,在整体体验、景区基础条件、景区旅游消费、景区旅游资源、景区便利程度五个方面利用主题聚类方法分析正负向评论的主题,研究景区评价中对景区满意或者不满意的主要原因。
本实施例通过获取OTA平台的评论,计算每个景区评论文本的情感总值,判断评论文本的情感倾向,包括正向、负向及中性,其次利用LDA主题聚类方法分析正负向评论的主题,结合时间变量,挖掘游客满意度的影响因素以及游客关注焦点变。
实施例2
本实施例以海南蜈支洲岛为例,因此选择爬取携程平台的景点评论,选取2015年至2020年数据集中携程网关于蜈支洲景区的在线评论共28000条,每条评论并不是只讨论景区的一个方面,往往包含景区的多个特征,因此并不能简单的对一整条评论进行主题提取和情感分析,需要对单条评论先进行切割划分后再进行后续的分析。
本实施例进行数据清洗时,包括以下步骤:
第一步是去除重复数据,因评论集数量较多,内容难免存在重复,比如很多用户在旅游网站购买旅游产品后一般会忘记对旅游产品进行评论,评论期限一过,***就会自动默认为默认好评,这类数据并不能代表用户的本身情感态度,应当予以去除。主要包括内容重复数据,以及***默认评论数据。
第二步是去除缺失无效数据,去除无效数据主要包括去除内容缺失数据,数据集中多次出现空白评论,删除这些空值数据,以及去除HTML超文本标签数据,例如超文本标签“<htkl></html>、<ul/>、<ul/>”等无效数据。
第三步是短句删除,对于一些评论内容较短的数据,比如“可以”,“好”,“一般”,这种词汇量较短的评论文本虽然表达了用户对景区的情感态度,但是并没有详细说明情感态度的具体对象
第四步是英文、数字、字符的删除。对于文本数据中出现的英文,数字“1”,“2”,“3”以及特殊字符串“@”,“#”等并不具备分析价值,因此需要在数据预处理阶段删除。
第五步是去除停用词,文章中很多数据是无用的,以免影响后续情感处理的准确性,需要剔除这部分无用数据。这部分数据主要表现为大量存在且没有实际用处,例如文本中出现的“我们”,“的”,“大家”,“这样”等经常使用的词,以及“呢”,“呀”等大量出现无实际用处的词就是停用词,为了使文本分析结果更加精准,最好的方式就是剔除这些停用词。
第六步是中文分词,因计算机不能直接处理非结构化数据,比如汉字,为了便于分析景区文本,需要将数据切分处理转变成结构化数据。
本实施例进行本实施例进行文本情感分析时,以景区评论文本中“风景真的很美,各色风景让人目不暇接,温度很舒服,没有失望,很值得一游”为例,阐述具体的整句,情感值计算步骤,过程如下:
句子切分,将“风景真的很美,各色风景让人目不暇接,温度很舒服,没有失望,很值得一游”输入软件中,利用标点符号对文本进行初步切分,形成五个小分句,后续每个分句中的情感倾向态度,切分好的子句如下所示:
子句1:“风景真的很美”
子句2:“各色风景让人目不暇接”
子句3:“温度很舒服”
子句4:“没有失望”。
中文分词及去停用词,利用jieba分词对每个子句进行中文分词以及去除停用词,先对子句进行分词且分处理,具体结果如下所示:
分词后1:“风景”,“真的”,“很”,“美”
分词后2:“各色”,“风景”,“让”,“人”,“目不暇接”
分词后3:“温度”,“很”,“舒服”
分词后4:“没有”,“失望”
分词后5:“很”,“值得”,“一游”
子句分词处理后进行停用词处理,将分词文本与本文构造的停用词词典进行匹配,删除匹配成功的停用词,未匹配成功的则保留下来,具体结果如下:
去停用词后1:“风景”,“很”,“美”
去停用词后2:“各色”,“风景”,“目不暇接”
去停用词后3:“温度”,“很”,“舒服”
去停用词后4:“没有”,“失望”
去停用词后5:“很”,“值得”,“一游”
情感词的定位与赋值,判定词语为正面情感词,则为该词赋值为1,若判词语为负面情感词,则为该情感词赋值为-1。最后摘取,出分句中所有的情感词及其赋值,处理后为:
子句1:senti1=1,“美”,子句2:senti2=1,“目不暇接”,子句3:senti3=1,“舒服”,子句4:senti4=-1,“失望”,子句5:senti5=1,“值得”。
加权调整,寻找修饰基准情感词的程度副词以及否定副词计算整个子分句的情感倾向值。根据构造的相应的程度副词情感词典,将文本信息与程度副词词典相匹配,若匹配成功则赋予其相应的情感权重,若匹配不成功,则不作任何处理。最终经过程度副词情感权重赋值后得到结果如下:子句1:senti1'=“很”,“美”子句2:senti2'=1,“目不暇接”子句3:senti3'=1,“舒服”子句4:senti4'=-1,“失望”子句5:senti5'=1*1.25,“很”,“值得”。
子句求和,整条文本中的所有子句的情感倾向值都已经确定,所有分句构成整个单条评论文本,因而单条文本的情感倾向值就是所有子分句的情感倾向值的求和结果。假设一条景区在线评论文本被划分为n个子句,每个子句的情感值分别为senti1,senti2,....sentin,那么整条景区在线评论的情感倾向值就是:
景区评论文本“风景真的很美,各色风景让人目不暇接,温度很舒服,没有失望,很值得一游”经过定位赋值等一列处理后,得到整条景区评论文本的情感值为:1.25+1+1+1+1.25=5.5。
因此根据最终所有单条评论文本的情感倾向值,划分为正面态度、负面态度还是保持中立三方面,将情感倾向值结果大于0的评论定义为正面评论,赋值为1;将情感倾向值结果小于0的评论定义为负面评论,赋值为-1。对于将情感倾向值结果等于0的评论定义为中性评论,赋值为0。
本实施例进行LDA主题模型分析时,将正面负面的评论数据集被分为5个主题,整体体验、景区基础条件、景区旅游消费、景区旅游资源、景区便利程度五方面进行分析,因此在经过LDA主题模型分析后,以及高频词汇展示综合汇集出游客对蜈支洲景区的满意度的综合评价具有以下几个方面:蜈支洲景区的优点在于景区的设施设备景区景点安排,导游以及工作人员所提供的服务,当地美食的美食特色,景区美景自然风光以及对在线预订平台的满意。而对景区不满意的地方主要体现在部分游客认为景区景点安排以及工作人员的服务仍然存在改进的地方,景区内以及购物商场存在不合理消费的地方,以及部分游客对景区团购住食方面存在不满意现象。
这里以一年为划分间距,将数据切割成6段,分析了每条文本数据的情感倾向,选取每段时间的正向评论,计算每段时间的正向评论强度即正向评论所占当年所有评论的百分比数,以游客正向评论强度的变化趋势来反映游客满意度的变化趋势。分析景区满意度下降的原因,以时间为划分依据,分别对2015到2020年负向评论进行聚类分析,研究负面评论游客对景区的关注热点分别为:
2015年高频关键词为“收费”、“物价”,“风景”,“不好”,“路线”
2016年高频关键词为“排队”、“接送”,“不值”,“人多”,“花钱”
2017年高频关键词为“门票”、“排队”,“人多”,“挺贵”,“强制”
2018年高频关键词为“服务态度”、“不值”,“太贵”,“消费”,“海鲜”
2019年高频关键词为“物价”、“排队”,“遗憾”,“失望”,“太坑”
2020年高频关键词为“排队”、“服务”,“太贵”,“商业化”,“消费”。
实施例3
本实施例公开一种基于景区评价的满意度提升***,包括
源数据获取模块,用于获取游客发布OTA网站公开数据的评论数据信息;
数据清洗模块,用于根据数据清洗规则筛除无效和冗余的数据;
文本情感分析模块,用于分析得到文本情感值;
主题聚类模块,用于研究景区评价中对景区满意或者不满意的主要原因。
本实施例通过情感分析景区网上评论的情感倾向,得到了游客在不同维度的游客评价倾向和满意度分析,经过主题聚类,聚焦游客最满意和最不满意的焦点。
实施例4
本实施例公开文本情感分析模块,参阅图2所示,其计算情感倾向值时包括以下步骤:
1、文本情感分析,通过评论中的标点符号对句子进行切分,对整条文本评论进行句子分割形成子句。
2、分句分词切分及去除停用词,利用jieba分词对每个子句进行分词切分,再利用文本中构造的停用词词表删除每个分句中存在的停用词。
3、定位情感词以及情感赋值。通过步骤2中的分词切分以及去除停用词后,将每个子句中的所有情感词与构造的情感词典进行匹配,对匹配成功的情词进行情感赋值。
4、加权求和,将子句中情感词前的程度副词以及否定词与本文中构造的情感词典中的程度副词词典以及否定副词词典相匹配,并赋予相应其权重,最终计算整个子句的情感倾向值。
5、计算整条文本的情感倾向值。将整句单条文本中所有子句的倾向值求和,最终得到整条文本情感倾向值。
本实施例至此就计算出了整条文本的情感倾向值,根据文本情感值赋予文本不同的情感态度,即情感倾向值为正,则评论为正面评论;情感倾向值为负判定为负面评论,而情感值为零的判定为中性评论。
实施例5
本实施例公开一种LDA主题聚类模型,可以看成一个三层贝叶斯模型,参照图3所示,通过对文本数据通过训练优化,计算将文档归为一个主题的可能性,以及将一个主题归为一个词语的可能性,最终形成文档-主题-词语的三层贝叶斯模型。
P(词语|文档)P(主题|文档)P(词语|主题)
本实施例应用LDA过程中需要设定三个参数:主题数量,超参数和,主题数量需要根据文本实际情况进行设定,超参数和一般设定为0.01,也可以自行设定,越大,整个文档越接近一个主题,越大,每个主题下的特殊词汇的重要性越大。
主题分别为整体体验、景区基础条件、景区旅游消费、景区旅游资源、景区便利程度,根据每个主题下出现的特色高频词,从正面评论的主题聚类中可以看出游客对景区满意的关键特征,从负面评论的主题聚类中可以看出游客对景区不满意的关键特征。
综上,本发明通过建立各维度下的景区满意度关键特征,在各评论的情感层面进行赋值,再与景区的游客评价文字进行关联匹配,得到不同维度下的游客评价倾向,用以衡量景区在整体体验、景区基础条件、景区旅游消费、景区旅游资源、景区便利程度等特定维度的满意度情况,帮助旅游管理部门、景区管理人员实现游客评论的多维度分析,能够有针对性的对景区进行分析,助力提升管理水平。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于景区评价的满意度提升方法,其特征在于,所述方法包括以下步骤:
S1选择待评价景区,并通过爬虫获取游客在OTA网站对该景区发布的评论数据信息;
S2对获取的评论数据信息进行数据清洗,根据数据清洗规则筛除无效和冗余的数据;
S3通过文本情感分析对评论数据信息中蕴含的情感总值进行量化,并通过句子求和计算景区该条评论的文本情感值;
S4最终通过主题聚类分析正负向评论的主题,研究景区评价中对景区满意或者不满意的主要原因,并以此为改进提升满意度。
2.根据权利要求1所述的基于景区评价的满意度提升方法,其特征在于,所述方法中,对数据清洗时规则包括:去除重复数据,去除缺失无效数据,短句删除,英文、数字、字符的删除,去除停用词及中文分词。
3.根据权利要求2所述的基于景区评价的满意度提升方法,其特征在于,所述重复数据包括容重复数据和***默认评论数据;
所述无效数据包括内容缺失数据,数据集中多次出现空白评论,空值数据以及HTML超文本标签数据;
所述短句删除是删除与评论内容较短的数据;
所述中文分词是将数据切分处理转变成结构化数据。
4.根据权利要求1所述的基于景区评价的满意度提升方法,其特征在于,所述方法中,通过文本情感分析进行情感值计算时,步骤如下:
T1对评论数据信息进行句子切分得到子句;
T2对切分后的子句进行分词处理和停用词处理;
T3对情感词进行定位和赋值;
T4对子句进行加权调整;
T5对子句进行求和得到文本情感值。
5.根据权利要求4所述的基于景区评价的满意度提升方法,其特征在于,所述步骤T2中,利用jieba分词对每个子句进行中文分词以及去除停用词,先对子句进行分词且分处理,然后进行停用词处理,将分词文本与本文构造的停用词词典进行匹配,删除匹配成功的停用词,未匹配成功的则保留。
7.根据权利要求1所述的基于景区评价的满意度提升方法,其特征在于,所述方法中,所述主题聚类在整体体验、景区基础条件、景区旅游消费、景区旅游资源和景区便利程度方面利用主题聚类方法分析正负向评论的主题。
8.根据权利要求7所述的基于景区评价的满意度提升方法,其特征在于,所述主题聚类,使用LDA主题聚类模型,其为三层贝叶斯模型,通过对文本数据通过训练优化,计算将文档归为一个主题的可能性,以及将一个主题归为一个词语的可能性,最终形成文档-主题-词语的三层贝叶斯模型;其中
P(词语|文档)=P(主题|文档)×P(词语|主题)
应用LDA主题聚类模型时,设定三个参数:主题数量,超参数α和β,主题数量需要根据文本实际情况进行设定,对于超参数α和β,α越大,整个文档越接近一个主题,β越大,每个主题下的特殊词汇的重要性越大。
9.一种基于景区评价的满意度提升***,所述***用于实现如权利要求1-8任一项所述的基于景区评价的满意度提升方法,其特征在于,包括
源数据获取模块,用于获取游客发布OTA网站公开数据的评论数据信息;
数据清洗模块,用于根据数据清洗规则筛除无效和冗余的数据;
文本情感分析模块,用于分析得到文本情感值;
主题聚类模块,用于研究景区评价中对景区满意或者不满意的主要原因。
10.根据权利要求9所述的基于景区评价的满意度提升***,其特征在于,所述文本情感分析包括:
文本情分析部分,通过评论中的标点符号对句子进行切分,对整条文本评论进行句子分割形成子句;
分句分词切分及去除停用词部分,利用jieba分词对每个子句进行分词切分,再利用文本中构造的停用词词表删除每个分句中存在的停用词;
定位情感词以及情感赋值部分,将每个子句中的所有情感词与构造的情感词典进行匹配,对匹配成功的情词进行情感赋值;
加权求和部分,将子句中情感词前的程度副词以及否定词与本文中构造的情感词典中的程度副词词典以及否定副词词典相匹配,并赋予相应其权重,最终计算整个子句的情感倾向值;
计算整条文本的情感倾向值部分,将整句单条文本中所有子句的倾向值求和,最终得到整条文本情感倾向值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111048348.4A CN113792118A (zh) | 2021-09-08 | 2021-09-08 | 基于景区评价的满意度提升***和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111048348.4A CN113792118A (zh) | 2021-09-08 | 2021-09-08 | 基于景区评价的满意度提升***和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113792118A true CN113792118A (zh) | 2021-12-14 |
Family
ID=79182933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111048348.4A Pending CN113792118A (zh) | 2021-09-08 | 2021-09-08 | 基于景区评价的满意度提升***和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113792118A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455562A (zh) * | 2013-08-13 | 2013-12-18 | 西安建筑科技大学 | 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器 |
CN104268197A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种行业评论数据细粒度情感分析方法 |
CN108536801A (zh) * | 2018-04-03 | 2018-09-14 | 中国民航大学 | 一种基于深度学习的民航微博安保舆情情感分析方法 |
CN111310466A (zh) * | 2020-02-26 | 2020-06-19 | 山东爱城市网信息技术有限公司 | 一种基于关键词库的特定维度景区满意度衡量方法及*** |
CN112507248A (zh) * | 2020-09-18 | 2021-03-16 | 西北大学 | 一种基于用户评论数据和信任关系的旅游景点推荐方法 |
-
2021
- 2021-09-08 CN CN202111048348.4A patent/CN113792118A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455562A (zh) * | 2013-08-13 | 2013-12-18 | 西安建筑科技大学 | 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器 |
CN104268197A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种行业评论数据细粒度情感分析方法 |
CN108536801A (zh) * | 2018-04-03 | 2018-09-14 | 中国民航大学 | 一种基于深度学习的民航微博安保舆情情感分析方法 |
CN111310466A (zh) * | 2020-02-26 | 2020-06-19 | 山东爱城市网信息技术有限公司 | 一种基于关键词库的特定维度景区满意度衡量方法及*** |
CN112507248A (zh) * | 2020-09-18 | 2021-03-16 | 西北大学 | 一种基于用户评论数据和信任关系的旅游景点推荐方法 |
Non-Patent Citations (1)
Title |
---|
王晓: "基于网络口碑的景区游客满意度研究——以海南蜈支洲景区为例", 《中国优秀硕士学位论文全文数据库 经济与管理科学辑》, pages 153 - 46 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10748164B2 (en) | Analyzing sentiment in product reviews | |
CN112184525B (zh) | 通过自然语义分析实现智能匹配推荐的***及方法 | |
CN109543178B (zh) | 一种司法文本标签体系构建方法及*** | |
US10298531B2 (en) | Analyzing email threads | |
CN110276054B (zh) | 一种保险文本结构化实现方法 | |
CN110674312B (zh) | 构建知识图谱方法、装置、介质及电子设备 | |
Wang et al. | Customer-driven product design selection using web based user-generated content | |
CN106294330B (zh) | 一种科技文本挑选方法及装置 | |
CN111767725A (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN111353044B (zh) | 一种基于评论的情感分析方法及*** | |
CN112508600A (zh) | 一种基于互联网公开数据的车辆价值评估方法 | |
CN112926308A (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
CN113051380A (zh) | 信息生成方法、装置、电子设备和存储介质 | |
CN112862569B (zh) | 基于图像和文本多模态数据的产品外观风格评价方法和*** | |
CN111191413B (zh) | 一种基于图排序模型的事件核心内容自动标记方法、装置及*** | |
CN113220964A (zh) | 一种基于网信领域短文本的观点挖掘方法 | |
Silva et al. | Developing and Assessing a Human-Understandable Metric for Evaluating Local Interpretable Model-Agnostic Explanations. | |
CN117235253A (zh) | 一种基于自然语言处理技术的卡车用户隐性需求挖掘方法 | |
CN113792118A (zh) | 基于景区评价的满意度提升***和方法 | |
CN113806538B (zh) | 标签提取模型训练方法、装置、设备与存储介质 | |
Dziczkowski et al. | An autonomous system designed for automatic detection and rating of film reviews | |
CN114595693A (zh) | 一种基于深度学习的文本情感分析方法 | |
Agarshana et al. | Naive bayes algorithm for sentiment analysis on twitter | |
Faria et al. | Tweet and news sentiment indicators and the behavior of the brazilian stock market | |
Parameswara et al. | Big Five Personality Prediction Based on Indonesian Tweets and Personality Test |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |