CN113792118A

CN113792118A - 基于景区评价的满意度提升***和方法

Info

Publication number: CN113792118A
Application number: CN202111048348.4A
Authority: CN
Inventors: 付萍; 陈海江
Original assignee: Zhejiang Lishi Technology Co Ltd
Current assignee: Zhejiang Lishi Technology Co Ltd
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2021-12-14

Abstract

本发明涉及旅游大数据技术领域，具体涉及一种基于景区评价的满意度提升***和方法，本发明通过获取OTA平台的评论，计算每个景区评论文本的情感总值，判断评论文本的情感倾向，包括正向、负向及中性，利用LDA主题聚类方法分析正负向评论的主题，结合时间变量，挖掘游客满意度的影响因素以及游客关注焦点变化。本发明通过建立各维度下的景区满意度关键特征，在各评论的情感层面进行赋值，再与景区的游客评价文字进行关联匹配，得到不同维度下的游客评价倾向，用以衡量景区在整体体验、景区基础条件、景区旅游消费、景区旅游资源、景区便利程度等特定维度的满意度情况，实现游客评论的多维度分析，针对性的对景区进行分析，提升管理水平。

Description

基于景区评价的满意度提升***和方法

技术领域

本发明涉及旅游大数据技术领域，具体涉及一种基于景区评价的满意度提升***和方法。

背景技术

对于景区满意度的调查最常见的方式就是问卷调查方法，而在线上旅游平台评价景区时，往往只有一个总体评分，很少会有对景区全方面、全维度的评价。

从景区管理者的角度来看，景区的总体评价比较轻易的获取，但无法明确了解游客实际的抱怨点，但该方法费时费力且准确度难以把握，无法精准定位问题所在，不利于总结经验，改善景区管理。

发明内容

针对现有技术的不足，本发明公开了一种基于景区评价的满意度提升***和方法，用于解决动态监控景区满意度的变化趋势无法确定的问题，并基于改善因子帮助旅游管理部门、景区管理人员提升管理水平。

本发明通过以下技术方案予以实现：

第一方面，本发明提供了一种基于景区评价的满意度提升方法，包括以下步骤：

S1选择待评价景区，并通过爬虫获取游客在OTA网站对该景区发布的评论数据信息；

S2对获取的评论数据信息进行数据清洗，根据数据清洗规则筛除无效和冗余的数据；

S3通过文本情感分析对评论数据信息中蕴含的情感总值进行量化，并通过句子求和计算景区该条评论的文本情感值；

S4最终通过主题聚类分析正负向评论的主题，研究景区评价中对景区满意或者不满意的主要原因，并以此为改进提升满意度。

更进一步的，所述方法中，对数据清洗时规则包括：去除重复数据，去除缺失无效数据，短句删除，英文、数字、字符的删除，去除停用词及中文分词。

更进一步的，所述重复数据包括容重复数据和***默认评论数据；

所述无效数据包括内容缺失数据，数据集中多次出现空白评论，空值数据以及HTML超文本标签数据；

所述短句删除是删除与评论内容较短的数据；

所述中文分词是将数据切分处理转变成结构化数据。

更进一步的，所述方法中，通过文本情感分析进行情感值计算时，步骤如下：

T1对评论数据信息进行句子切分得到子句；

T2对切分后的子句进行分词处理和停用词处理；

T3对情感词进行定位和赋值；

T4对子句进行加权调整；

T5对子句进行求和得到文本情感值。

更进一步的，所述步骤T2中，利用jieba分词对每个子句进行中文分词以及去除停用词，先对子句进行分词且分处理，然后进行停用词处理，将分词文本与本文构造的停用词词典进行匹配，删除匹配成功的停用词，未匹配成功的则保留。

更进一步的，所述步骤T5中，对子句进行求和时，假设一条景区在线评论文本被划分为n个子句，每个子句的情感值分别为senti₁,senti₂,....senti_n，那么整条景区在线评论的情感倾向值为：

更进一步的，所述方法中，所述主题聚类在整体体验、景区基础条件、景区旅游消费、景区旅游资源和景区便利程度方面利用主题聚类方法分析正负向评论的主题。

更进一步的，所述主题聚类，使用LDA主题聚类模型，其为三层贝叶斯模型，通过对文本数据通过训练优化，计算将文档归为一个主题的可能性，以及将一个主题归为一个词语的可能性，最终形成文档-主题-词语的三层贝叶斯模型；其中

P(词语|文档)＝P(主题|文档)×P(词语|主题)

应用LDA主题聚类模型时，设定三个参数：主题数量，超参数α和β，主题数量需要根据文本实际情况进行设定，对于超参数α和β，α越大，整个文档越接近一个主题，β越大，每个主题下的特殊词汇的重要性越大。

第二方面，本发明公开了一种基于景区评价的满意度提升***，所述***用于实现第一方面所述的基于景区评价的满意度提升方法，其特征在于，包括

源数据获取模块，用于获取游客发布OTA网站公开数据的评论数据信息；

数据清洗模块，用于根据数据清洗规则筛除无效和冗余的数据；

文本情感分析模块，用于分析得到文本情感值；

主题聚类模块，用于研究景区评价中对景区满意或者不满意的主要原因。

更进一步的，所述文本情感分析包括：

文本情感分析部分，通过评论中的标点符号对句子进行切分，对整条文本评论进行句子分割形成子句；

分句分词切分及去除停用词部分，利用jieba分词对每个子句进行分词切分，再利用文本中构造的停用词词表删除每个分句中存在的停用词；

定位情感词以及情感赋值部分，将每个子句中的所有情感词与构造的情感词典进行匹配，对匹配成功的情词进行情感赋值；

加权求和部分，将子句中情感词前的程度副词以及否定词与本文中构造的情感词典中的程度副词词典以及否定副词词典相匹配，并赋予相应其权重，最终计算整个子句的情感倾向值；

计算整条文本的情感倾向值部分，将整句单条文本中所有子句的倾向值求和，最终得到整条文本情感倾向值。

本发明的有益效果为：

本发明通过建立各维度下的景区满意度关键特征，在各评论的情感层面进行赋值，再与景区的游客评价文字进行关联匹配，得到不同维度下的游客评价倾向，用以衡量景区在整体体验、景区基础条件、景区旅游消费、景区旅游资源、景区便利程度等特定维度的满意度情况，帮助旅游管理部门、景区管理人员实现游客评论的多维度分析，能够有针对性的对景区进行分析，助力提升管理水平。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是一种基于景区评价的满意度提升方法的流程图；

图2是本发明实施例文本情感分析模块的流程图；

图3是本发明实施例LDA主题分析流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本实施例公开一种基于景区评价的满意度提升方法，包括以下步骤：

1、源数据获取，选择待评价景区，通过爬虫获取游客发布OTA网站公开数据的评论数据信息；

2、数据清洗，对采集到的数据信息进行简单的筛选，筛除一些无用垃圾数据信息；

3、文本情感分析，利用文本情感分析的方法对评论中蕴含的情感总值分析并量化，通过句子求和计算景区该条评论的文本情感值；

4、主题聚类，在整体体验、景区基础条件、景区旅游消费、景区旅游资源、景区便利程度五个方面利用主题聚类方法分析正负向评论的主题，研究景区评价中对景区满意或者不满意的主要原因。

本实施例通过获取OTA平台的评论，计算每个景区评论文本的情感总值，判断评论文本的情感倾向，包括正向、负向及中性，其次利用LDA主题聚类方法分析正负向评论的主题，结合时间变量，挖掘游客满意度的影响因素以及游客关注焦点变。

实施例2

本实施例以海南蜈支洲岛为例，因此选择爬取携程平台的景点评论，选取2015年至2020年数据集中携程网关于蜈支洲景区的在线评论共28000条，每条评论并不是只讨论景区的一个方面，往往包含景区的多个特征，因此并不能简单的对一整条评论进行主题提取和情感分析，需要对单条评论先进行切割划分后再进行后续的分析。

本实施例进行数据清洗时，包括以下步骤：

第一步是去除重复数据，因评论集数量较多，内容难免存在重复，比如很多用户在旅游网站购买旅游产品后一般会忘记对旅游产品进行评论，评论期限一过，***就会自动默认为默认好评，这类数据并不能代表用户的本身情感态度，应当予以去除。主要包括内容重复数据，以及***默认评论数据。

第二步是去除缺失无效数据，去除无效数据主要包括去除内容缺失数据，数据集中多次出现空白评论，删除这些空值数据，以及去除HTML超文本标签数据,例如超文本标签“<htkl></html>、<ul/>、<ul/>”等无效数据。

第三步是短句删除，对于一些评论内容较短的数据，比如“可以”，“好”，“一般”，这种词汇量较短的评论文本虽然表达了用户对景区的情感态度，但是并没有详细说明情感态度的具体对象

第四步是英文、数字、字符的删除。对于文本数据中出现的英文，数字“1”，“2”，“3”以及特殊字符串“@”，“#”等并不具备分析价值，因此需要在数据预处理阶段删除。

第五步是去除停用词，文章中很多数据是无用的，以免影响后续情感处理的准确性，需要剔除这部分无用数据。这部分数据主要表现为大量存在且没有实际用处，例如文本中出现的“我们”，“的”，“大家”，“这样”等经常使用的词，以及“呢”，“呀”等大量出现无实际用处的词就是停用词，为了使文本分析结果更加精准，最好的方式就是剔除这些停用词。

第六步是中文分词，因计算机不能直接处理非结构化数据，比如汉字，为了便于分析景区文本，需要将数据切分处理转变成结构化数据。

本实施例进行本实施例进行文本情感分析时，以景区评论文本中“风景真的很美，各色风景让人目不暇接，温度很舒服，没有失望，很值得一游”为例，阐述具体的整句，情感值计算步骤，过程如下：

句子切分，将“风景真的很美，各色风景让人目不暇接，温度很舒服，没有失望，很值得一游”输入软件中，利用标点符号对文本进行初步切分，形成五个小分句，后续每个分句中的情感倾向态度，切分好的子句如下所示：

子句1：“风景真的很美”

子句2：“各色风景让人目不暇接”

子句3：“温度很舒服”

子句4：“没有失望”。

中文分词及去停用词，利用jieba分词对每个子句进行中文分词以及去除停用词，先对子句进行分词且分处理，具体结果如下所示：

分词后1：“风景”，“真的”，“很”，“美”

分词后2：“各色”，“风景”，“让”，“人”，“目不暇接”

分词后3：“温度”，“很”，“舒服”

分词后4：“没有”，“失望”

分词后5：“很”，“值得”，“一游”

子句分词处理后进行停用词处理，将分词文本与本文构造的停用词词典进行匹配，删除匹配成功的停用词，未匹配成功的则保留下来，具体结果如下：

去停用词后1：“风景”，“很”，“美”

去停用词后2：“各色”，“风景”，“目不暇接”

去停用词后3：“温度”，“很”，“舒服”

去停用词后4：“没有”，“失望”

去停用词后5：“很”，“值得”，“一游”

情感词的定位与赋值，判定词语为正面情感词，则为该词赋值为1，若判词语为负面情感词，则为该情感词赋值为-1。最后摘取，出分句中所有的情感词及其赋值，处理后为：

子句1：senti₁＝1，“美”，子句2：senti₂＝1,“目不暇接”，子句3：senti₃＝1，“舒服”，子句4：senti₄＝-1，“失望”，子句5：senti₅＝1，“值得”。

加权调整，寻找修饰基准情感词的程度副词以及否定副词计算整个子分句的情感倾向值。根据构造的相应的程度副词情感词典，将文本信息与程度副词词典相匹配，若匹配成功则赋予其相应的情感权重，若匹配不成功，则不作任何处理。最终经过程度副词情感权重赋值后得到结果如下：子句1：senti1'＝“很”，“美”子句2：senti2'＝1，“目不暇接”子句3：senti3'＝1，“舒服”子句4：senti4'＝-1，“失望”子句5：senti5'＝1*1.25，“很”，“值得”。

子句求和，整条文本中的所有子句的情感倾向值都已经确定，所有分句构成整个单条评论文本，因而单条文本的情感倾向值就是所有子分句的情感倾向值的求和结果。假设一条景区在线评论文本被划分为n个子句，每个子句的情感值分别为senti₁,senti₂,....senti_n，那么整条景区在线评论的情感倾向值就是：

景区评论文本“风景真的很美，各色风景让人目不暇接，温度很舒服，没有失望，很值得一游”经过定位赋值等一列处理后，得到整条景区评论文本的情感值为：1.25+1+1+1+1.25＝5.5。

因此根据最终所有单条评论文本的情感倾向值，划分为正面态度、负面态度还是保持中立三方面，将情感倾向值结果大于0的评论定义为正面评论，赋值为1；将情感倾向值结果小于0的评论定义为负面评论，赋值为-1。对于将情感倾向值结果等于0的评论定义为中性评论，赋值为0。

本实施例进行LDA主题模型分析时，将正面负面的评论数据集被分为5个主题，整体体验、景区基础条件、景区旅游消费、景区旅游资源、景区便利程度五方面进行分析，因此在经过LDA主题模型分析后，以及高频词汇展示综合汇集出游客对蜈支洲景区的满意度的综合评价具有以下几个方面：蜈支洲景区的优点在于景区的设施设备景区景点安排，导游以及工作人员所提供的服务，当地美食的美食特色，景区美景自然风光以及对在线预订平台的满意。而对景区不满意的地方主要体现在部分游客认为景区景点安排以及工作人员的服务仍然存在改进的地方，景区内以及购物商场存在不合理消费的地方，以及部分游客对景区团购住食方面存在不满意现象。

这里以一年为划分间距，将数据切割成6段，分析了每条文本数据的情感倾向，选取每段时间的正向评论，计算每段时间的正向评论强度即正向评论所占当年所有评论的百分比数，以游客正向评论强度的变化趋势来反映游客满意度的变化趋势。分析景区满意度下降的原因，以时间为划分依据，分别对2015到2020年负向评论进行聚类分析，研究负面评论游客对景区的关注热点分别为：

2015年高频关键词为“收费”、“物价”，“风景”，“不好”，“路线”

2016年高频关键词为“排队”、“接送”，“不值”，“人多”，“花钱”

2017年高频关键词为“门票”、“排队”，“人多”，“挺贵”，“强制”

2018年高频关键词为“服务态度”、“不值”，“太贵”，“消费”，“海鲜”

2019年高频关键词为“物价”、“排队”，“遗憾”，“失望”，“太坑”

2020年高频关键词为“排队”、“服务”，“太贵”，“商业化”，“消费”。

实施例3

本实施例公开一种基于景区评价的满意度提升***，包括

文本情感分析模块，用于分析得到文本情感值；

本实施例通过情感分析景区网上评论的情感倾向，得到了游客在不同维度的游客评价倾向和满意度分析，经过主题聚类，聚焦游客最满意和最不满意的焦点。

实施例4

本实施例公开文本情感分析模块，参阅图2所示，其计算情感倾向值时包括以下步骤：

1、文本情感分析，通过评论中的标点符号对句子进行切分，对整条文本评论进行句子分割形成子句。

2、分句分词切分及去除停用词，利用jieba分词对每个子句进行分词切分，再利用文本中构造的停用词词表删除每个分句中存在的停用词。

3、定位情感词以及情感赋值。通过步骤2中的分词切分以及去除停用词后，将每个子句中的所有情感词与构造的情感词典进行匹配，对匹配成功的情词进行情感赋值。

4、加权求和，将子句中情感词前的程度副词以及否定词与本文中构造的情感词典中的程度副词词典以及否定副词词典相匹配，并赋予相应其权重，最终计算整个子句的情感倾向值。

5、计算整条文本的情感倾向值。将整句单条文本中所有子句的倾向值求和，最终得到整条文本情感倾向值。

本实施例至此就计算出了整条文本的情感倾向值，根据文本情感值赋予文本不同的情感态度，即情感倾向值为正，则评论为正面评论；情感倾向值为负判定为负面评论，而情感值为零的判定为中性评论。

实施例5

本实施例公开一种LDA主题聚类模型，可以看成一个三层贝叶斯模型，参照图3所示，通过对文本数据通过训练优化，计算将文档归为一个主题的可能性，以及将一个主题归为一个词语的可能性，最终形成文档-主题-词语的三层贝叶斯模型。

P(词语|文档)P(主题|文档)P(词语|主题)

本实施例应用LDA过程中需要设定三个参数：主题数量，超参数和，主题数量需要根据文本实际情况进行设定，超参数和一般设定为0.01，也可以自行设定，越大，整个文档越接近一个主题，越大，每个主题下的特殊词汇的重要性越大。

主题分别为整体体验、景区基础条件、景区旅游消费、景区旅游资源、景区便利程度，根据每个主题下出现的特色高频词，从正面评论的主题聚类中可以看出游客对景区满意的关键特征，从负面评论的主题聚类中可以看出游客对景区不满意的关键特征。

综上，本发明通过建立各维度下的景区满意度关键特征，在各评论的情感层面进行赋值，再与景区的游客评价文字进行关联匹配，得到不同维度下的游客评价倾向，用以衡量景区在整体体验、景区基础条件、景区旅游消费、景区旅游资源、景区便利程度等特定维度的满意度情况，帮助旅游管理部门、景区管理人员实现游客评论的多维度分析，能够有针对性的对景区进行分析，助力提升管理水平。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于景区评价的满意度提升方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的基于景区评价的满意度提升方法，其特征在于，所述方法中，对数据清洗时规则包括：去除重复数据，去除缺失无效数据，短句删除，英文、数字、字符的删除，去除停用词及中文分词。

3.根据权利要求2所述的基于景区评价的满意度提升方法，其特征在于，所述重复数据包括容重复数据和***默认评论数据；

所述短句删除是删除与评论内容较短的数据；

所述中文分词是将数据切分处理转变成结构化数据。

4.根据权利要求1所述的基于景区评价的满意度提升方法，其特征在于，所述方法中，通过文本情感分析进行情感值计算时，步骤如下：

T1对评论数据信息进行句子切分得到子句；

T2对切分后的子句进行分词处理和停用词处理；

T3对情感词进行定位和赋值；

T4对子句进行加权调整；

T5对子句进行求和得到文本情感值。

5.根据权利要求4所述的基于景区评价的满意度提升方法，其特征在于，所述步骤T2中，利用jieba分词对每个子句进行中文分词以及去除停用词，先对子句进行分词且分处理，然后进行停用词处理，将分词文本与本文构造的停用词词典进行匹配，删除匹配成功的停用词，未匹配成功的则保留。

6.根据权利要求4所述的基于景区评价的满意度提升方法，其特征在于，所述步骤T5中，对子句进行求和时，假设一条景区在线评论文本被划分为n个子句，每个子句的情感值分别为senti₁,senti₂,....senti_n，那么整条景区在线评论的情感倾向值为：

7.根据权利要求1所述的基于景区评价的满意度提升方法，其特征在于，所述方法中，所述主题聚类在整体体验、景区基础条件、景区旅游消费、景区旅游资源和景区便利程度方面利用主题聚类方法分析正负向评论的主题。

8.根据权利要求7所述的基于景区评价的满意度提升方法，其特征在于，所述主题聚类，使用LDA主题聚类模型，其为三层贝叶斯模型，通过对文本数据通过训练优化，计算将文档归为一个主题的可能性，以及将一个主题归为一个词语的可能性，最终形成文档-主题-词语的三层贝叶斯模型；其中

P(词语|文档)＝P(主题|文档)×P(词语|主题)

9.一种基于景区评价的满意度提升***，所述***用于实现如权利要求1-8任一项所述的基于景区评价的满意度提升方法，其特征在于，包括

文本情感分析模块，用于分析得到文本情感值；

10.根据权利要求9所述的基于景区评价的满意度提升***，其特征在于，所述文本情感分析包括：

文本情分析部分，通过评论中的标点符号对句子进行切分，对整条文本评论进行句子分割形成子句；