CN108090048B

CN108090048B - 一种基于多元数据分析的高校评价***

Info

Publication number: CN108090048B
Application number: CN201810029406.0A
Authority: CN
Inventors: 钱付兰; 乔嘉琪; 赵姝
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2018-01-12
Filing date: 2018-01-12
Publication date: 2021-05-25
Anticipated expiration: 2038-01-12
Also published as: CN108090048A

Abstract

本发明公开了一种基于多元数据分析的高校评价***，包括：训练模型构建模块，数据获取模块，话题主题分类模块，评论情感分类模块，标签生成模块，数据管理模块，数据可视化模块，如此，充分考虑高校话题信息特点，构建了一个高效的、稳定的热点高校话题发现展示***，为学生、家长和教师等用户群体提供便捷的服务，从话题分类、关键词抽取的思想，采用中文分词技术，关键词提取技术，并利用空间向量模型将文本信息以向量化形式表示，通过最大化差异结合TF‑IDF算法将各高校的关键词提出出来作为标签，利用类别贡献度模型生成话题特征模型进行分类，并通对话题下的评论信息进行情感分类，通过算法改进提高了文本挖掘准确性和效率，易于推广。

Description

一种基于多元数据分析的高校评价***

技术领域

本发明涉及自然语言处理和计算机技术领域，尤其涉及一种基于多元数据分析的高校评价***。

背景技术

随着信息技术的飞速发展,人们获取信息的方式逐渐从传统媒体发展到互联网再到社交媒体。社交媒体上传播的信息已成为人们浏览互联网的重要内容。具体到高校的相关信息，学生和家长大多通过网络对高校进行了解和选择。然而，互联网上高校的信息，来源繁多，内容笼统，多数是高校排名，录取分数高低的间接评价。

相比官方公告和第三方的间接评价，人们更愿意从有过高校生活学习经验的人(大学生，研究生等)中得到对高校客观真实的直接评价，尤其是当两所高校排名相近的时候，周边的环境、学习氛围、伙食好坏等软硬件设施的评价是人们更感兴趣的，而这些在间接评价中是无法获取的。大学及其以上高学历者，多属于我国社会中间阶层，这一部分人具有明显特征，往往热衷于一些小众的社交媒体，如知乎，豆瓣，贴吧，果壳，人人等。对高校评价的数据信息由他们发出，呈现出典型的多源特性。如何实施的采集高校相关话题数据，如何针对特点问题对高校的数据进行挖掘，直观、有代表性的将高校的相关信息呈现给用户是本发明的主要目的。

发明内容

基于背景技术存在的技术问题，本发明提出了一种基于多元数据分析的高校评价***；

本发明提出的一种基于多元数据分析的高校评价***，包括：

训练模型构建模块，用于通过人工标注的高校话题主题类别和评论情感倾向类别对预设话题数据和预设话题评论数据进行训练，得到训练模型；

数据获取模块，用于通过网络爬虫获取高校话题数据和该高校话题评论数据；

话题主题分类模块，用于通过训练模型对高校话题数据进行话题主题识别，得到高校话题数据的话题主题类别；

评论情感分类模块，用于通过训练模型对高校话题评论数据进行评论情感识别，得到高校话题评论的情感类别；

标签生成模块，用于通过训练模型对高校话题数据进行标签识别，得到高校话题标签；

数据管理模块，用于对高校话题数据、高校话题评论数据、高校话题数据的话题主题类别、高校话题评论的情感类别、高校话题标签进行管理；

数据可视化模块，用于向用户展示高校话题数据的话题主题类别、高校话题评论的情感类别、高校话题标签。

优选地，所述训练模型构建模块，具体用于：

在通过人工标注的高校话题主题类别和评论情感倾向类别对预设话题数据进行训练之前，对预设话题数据和预设话题评论数据进行分词、去停用词和去噪，得到待处理话题数据和待处理话题评论数据；

人工标注高校话题主题类别、人工标注高校话题对应评论情感倾向类别，作为训练集。

优选地，所述训练模型构建模块，具体用于：所述训练模型包括话题主题训练模型、评论情感训练模型和标签训练模型。

优选地，所述话题主题训练模型，具体包括：

计算预设话题数据中的词在不同高校话题主题类别下的文档频率；

以高校话题主题类别作为特征向量的各维特征，该词在各高校话题主题类别下的文档频率值作为各维特征的权重值，构造词类别贡献度特征向量；

将预设话题数据的特征词和对应的词类别贡献度特征向量进行累加归一化，得到话题类别贡献度特征向量，所述话题类别贡献度特征向量为话题主题训练模型；

优选地，所述构造词类别贡献度特征向量，包括：

其中，m为高校话题主题类别，

为词t_j的类别贡献度特征向量，

为词t_j在m下的权重,其中

为m中包含t_j的文本数，n_m为该高校话题主题类别下的文本总数；

优选地，所述预设话题数据的特征词，包括：

计算预设话题数据中各词的TF-IDF值；

计算预设话题数据中各词的最大化差异值；

将最大化差异值和TF-IDF值相乘计算各词的权值，将各词的权值降序排序，选择降序排序后前N个词作为预设话题数据的特征词，公式为：

w_j其中，w_j词的权值，MD_j为词t_j的最大化差异值，其中a、b为m个高校话题主题类别中的任意2个类别，Z_asj为高校话题主题类别b中词j出现s次的文本数据和该高校话题主题类别中包含词j的比例，tf_j为文档频率，idf_j为逆文档频率。

优选地，所述话题主题分类模块，具体用于：

通过话题主题训练模型识别高校话题数据的最大维特征，得到高校话题数据的话题主题类别。

优选地，所述评论情感训练模型，具体包括：

基于最大化差异值计算预设话题评论数据中各词权重，选择最优子集作为预设话题评论数据的特征词w_j，

其中，MD_j为词t_j的最大化差异值,其中a、b为M个评论情感倾向类别中的任意2个类别，Z_asj为评论情感倾向类别b中词j出现s次的文档和该评论情感倾向类别中包含词j的文档总数的比例，tf_j为文档频率，idf_j为逆文档频率；

以所述特征词作为特征，构造预设话题评论数据的特征向量，其中每个特征词对应一个维度，各词的TF-IDF值为对应权重；

利用朴素贝叶斯算法对预设话题评论数据进行情感分类。

优选地，所述评论情感分类模块，具体用于：

通过评论情感训练模型对高校话题评论数据进行评论情感识别，得到高校话题评论的情感类别。

优选地，所述标签训练模型，具体包括：

计算预设话题数据中各词的TF-IDF值；

计算预设话题数据中各词的最大化差异值；

将最大化差异值和TF-IDF值相乘，将得出权值降序排序，选择降序排序后前N个词作为话题标签。

优选地，所述标签训练模型，具体用于：将最大化差异值和TF-IDF值相乘，

其中，MD_j为词t_j的最大化差异值,其中a、b为m个高校话题主题类别中的任意2个类别，Z_asj为高校话题主题类别b中词j出现s次的文档和该高校话题主题类别中包含词j的文档总数的比例，tf_j为文档频率，idf_j为逆文档频率。

优选地，所述标签生成模块，具体用于：通过标签训练模型对高校话题数据进行标签识别，得到高校话题标签。

本发明充分考虑高校话题信息特点，构建了一个高效的、稳定的热点高校话题发现展示***，为学生、家长和教师等用户群体提供便捷的服务，从话题分类、关键词抽取的思想，采用中文分词技术，关键词提取技术，并利用空间向量模型将文本信息以向量化形式表示，通过最大化差异结合TF-IDF算法将各高校的关键词提出出来作为标签，利用类别贡献度模型生成话题特征模型进行分类，并通对话题下的评论信息进行情感分类，通过算法改进提高了文本挖掘准确性和效率，易于推广。

附图说明

图1为本发明提出的一种基于多元数据分析的高校评价***的模块示意图；

图2为本发明中话题主题训练模型处理流程示意图；

图3为本发明中评论情感训练模型处理流程示意图；

图4为本发明中标签训练模型处理流程示意图。

具体实施方式

参照图1，本发明提出的一种基于多元数据分析的高校评价***，包括：

训练模型构建模块，用于对预设话题数据和预设话题评论数据进行分词、去停用词和去噪，得到待处理话题数据和待处理话题评论数据；人工标注高校话题主题类别、人工标注高校话题对应评论情感倾向类别，作为训练集，通过人工标注的高校话题主题类别和评论情感倾向类别对预设话题数据和预设话题评论数据进行训练，得到训练模型，所述训练模型包括话题主题训练模型、评论情感训练模型和标签训练模型。

所述话题主题训练模型，具体包括：

以高校话题主题类别作为特征向量的各维特征，该词在各高校话题主题类别下的文档频率值作为各维特征的权重值，构造词类别贡献度特征向量，所述构造词类别贡献度特征向量，包括：

其中，m为高校话题主题类别，

为词t_j的类别贡献度特征向量，

为词t_j在m下的权重,其中

为m中包含t_j的文本数，n_m为该高校话题主题类别下的文本总数。

将预设话题数据的特征词和对应的词类别贡献度特征向量进行累加归一化，得到话题类别贡献度特征向量，所述话题类别贡献度特征向量为话题主题训练模型，所述预设话题数据的特征词，包括：

计算预设话题数据中各词的TF-IDF值；

计算预设话题数据中各词的最大化差异值；

评论情感训练模型，具体包括：

利用朴素贝叶斯算法对预设话题评论数据进行情感分类。

标签训练模型，具体包括：

计算预设话题数据中各词的TF-IDF值；

计算预设话题数据中各词的最大化差异值；

将最大化差异值和TF-IDF值相乘，

其中，MD_j为词t_j的最大化差异值,其中a、b为m个高校话题主题类别中的任意2个类别，Z_asj为高校话题主题类别b中词j出现s次的文档和该高校话题主题类别中包含词j的文档总数的比例，tf_j为文档频率，idf_j为逆文档频率；

将得出权值降序排序，选择降序排序后前N个词作为话题标签。

数据获取模块，用于通过网络爬虫获取高校话题数据和该高校话题评论数据。

在具体方案中，进行高校话题信息数据的爬取，主要由Python提供的Scrapy爬虫框架实现，网络爬虫是一个自动提取网页的程序，根据一定的网页分析算法选择与高校相关的话题链接，并将网页信息保存。

话题主题分类模块，用于通过训练模型对高校话题数据进行话题主题识别，得到高校话题数据的话题主题类别，具体用于：

在具体方案中，第一步计算话题中的词在不同主题下的文档频率；第二步以主题作为特征向量的各维特征，该词在各主题下的DF值作为各维特征的权重值，构造词类别贡献度特征向量；第三步将待预测预话题中的特征词对应的词类别贡献度特征向量进行累加归一化，得出的结果为话题的类别贡献度特征向量。第四步根据词特征向量的特点，该话题的特征向量的各个维也分别对应语料库中的各类别，在进行分类时，只需要根据特征向量的最大维特征所对应的类别即可判断话题的主题类别。

评论情感分类模块，用于通过训练模型对高校话题评论数据进行评论情感识别，得到高校话题评论的情感类别，具体包括：

在具体方案中，人工标注的高校话题对应评论情感倾向类别分为正面/负面/中立三个类别。

第一步，基于最大化差异值的方法计算权重，选择最优子集作为特征词；

第二步，以选择的特征词作为特征，构造评论信息的特征向量，其中每个特征词对应一个维度，评论中各词的TF-IDF值为对应权重；

第三步，利用朴素贝叶斯算法进行分类，得到高校话题评论的情感类别。

标签生成模块，用于通过训练模型对高校话题数据进行标签识别，得到高校话题标签，具体用于：通过标签训练模型对高校话题数据进行标签识别，得到高校话题标签。

在具体方案中，通过TF-IDF算法计算出特征词在高校评论中的权重；通过计算各词项的最大化差异值表示类别代表性；通过将最大化差异值和TF-IDF值相乘，将得出权值降序排序，选择TOP-N个词作为文本特征词，即高校的标签。

数据管理模块，用于对高校话题数据、高校话题评论数据、高校话题数据的话题主题类别、高校话题评论的情感类别、高校话题标签进行管理。

在具体方案中，数据管理模块为***管理员提供接口，实现对高校相关的数据信息进行人工管理。

在具体方案中，数据可视化模块为用户提供数据展示功能，将高校相关数据信息以页面的形式展示给用户。

本实施方式充分考虑高校话题信息特点，构建了一个高效的、稳定的热点高校话题发现展示***，为学生、家长和教师等用户群体提供便捷的服务，从话题分类、关键词抽取的思想，采用中文分词技术，关键词提取技术，并利用空间向量模型将文本信息以向量化形式表示，通过最大化差异结合TF-IDF算法将各高校的关键词提出出来作为标签，利用类别贡献度模型生成话题特征模型进行分类，并通对话题下的评论信息进行情感分类，通过算法改进提高了文本挖掘准确性和效率，易于推广。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于多元数据分析的高校评价***，其特征在于，包括：

数据获取模块，用于通过网络爬虫获取高校话题数据和高校话题评论数据；

数据可视化模块，用于向用户展示高校话题数据的话题主题类别、高校话题评论的情感类别、高校话题标签；

所述训练模型包括话题主题训练模型、评论情感训练模型和标签训练模型；

所述话题主题训练模型，具体包括：

所述构造词类别贡献度特征向量，包括：

其中，m为高校话题主题类别，

为词t_j的类别贡献度特征向量，

为词t_j在m下的权重,其中

所述预设话题数据的特征词，包括：

计算预设话题数据中各词的TF-IDF值；

计算预设话题数据中各词的最大化差异值；

w_j为j词的权值，mD_j为词t_j的最大化差异值，其中a、b为m个高校话题主题类别中的任意2个类别，Z_asj为高校话题主题类别a中词j出现s次的文本数据和该高校话题主题类别中包含词j的比例，Z_bsj代表高校话题主题类别b中词j出现s次的文本数据和该高校话题主题类别中包含词j的比例；tf_j为文档频率，idf_j为逆文档频率。

2.根据权利要求1所述的基于多元数据分析的高校评价***，其特征在于，所述训练模型构建模块，具体用于：

3.根据权利要求1所述的基于多元数据分析的高校评价***，其特征在于，所述话题主题分类模块，具体用于：

4.根据权利要求1所述的基于多元数据分析的高校评价***，其特征在于，所述评论情感训练模型，具体包括：

利用朴素贝叶斯算法对预设话题评论数据进行情感分类。

5.根据权利要求4所述的基于多元数据分析的高校评价***，其特征在于，所述评论情感分类模块，具体包括：

6.根据权利要求1所述的基于多元数据分析的高校评价***，其特征在于，所述标签训练模型，具体包括：

计算预设话题数据中各词的TF-IDF值；

计算预设话题数据中各词的最大化差异值；

7.根据权利要求6所述的基于多元数据分析的高校评价***，其特征在于，所述标签训练模型，具体用于：将最大化差异值和TF-IDF值相乘，

8.根据权利要求7所述的基于多元数据分析的高校评价***，其特征在于，所述标签生成模块，具体用于：通过标签训练模型对高校话题数据进行标签识别，得到高校话题标签。