CN114611491A

CN114611491A - 基于文本挖掘技术的智慧政务舆情分析研究方法

Info

Publication number: CN114611491A
Application number: CN202210247676.5A
Authority: CN
Inventors: 宋涛; 方博平; 唐矛宁; 韦艳芳
Original assignee: Huzhou University
Current assignee: Huzhou University
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2022-06-10

Abstract

本发明涉及一种基于文本挖掘技术的智慧政务舆情分析研究方法，包括以下步骤：步骤S1：基于python，通过中文分词模块jieba对智慧政务文本中的留言详情进行预处理，采用动态规划查找最大概率路径，找出基于词频的最大切分组合；步骤S2：建立留言分类模型并且挖掘热点问题，利用K‑means文本聚类算法，将留言加入对应的话题簇，对热点问题进行分类。本发明利用了收集自互联网公开来源的群众问政留言记录，及相关部门对部分群众留言的答复意见，采用FastText原理对留言详情信息进行分类，用TF‑IDF算法计算权重，提取文本关键词，结合K‑means算法提取热点话题，计算余弦相似度筛选高质量答复建议，构建答复意见质量评价指标体系。

Description

基于文本挖掘技术的智慧政务舆情分析研究方法

技术领域

本申请涉及数据处理技术领域，具体涉及一种基于文本挖掘技术的智慧政务舆情分析研究方法。

背景技术

在互联网的快速发展和渗透下，网络问政平台为收集海量文本数据提供方便，如何快速处理大量留言文本数据并进行有效处理成为亟待解决的问题，现有技术中，对舆情进行分析时，通常都是工作人员直接阅读整篇文本，并在阅读完整篇文本后，对文本进行评价，得到舆情分析内容。然而，仅靠人工进行分析，分析速度慢，效率低，且工作量大，人工成本较高，不利于舆情分析工作的进行。

发明内容

针对上述问题，本发明提出了一种基于文本挖掘技术的智慧政务舆情分析研究方法，该方法包括以下步骤：

步骤S1：基于python，通过中文分词模块jieba对智慧政务文本中的留言详情进行预处理，采用动态规划查找最大概率路径，找出基于词频的最大切分组合；

步骤S2：建立留言分类模型并且挖掘热点问题，利用K-means文本聚类算法，将留言加入对应的话题簇，对热点问题进行分类；

步骤S3：从反馈的问题意见中提取相关性、可解释性和信息量特征，构建答复意见质量评价指标体系与模型，通过提取的指标特征构建广义线性回归模型对相关部门的答复意见质量进行分析，对文本模型的目标值进行标准化，使对答复意见质量的评价更为准确。

优选地，所述步骤S1用于对对智慧政务文本中的留言详情进行处理，其具体方法步骤如下：

1)数据清洗，对群众留言进行分词，去除文本标注的无效信息；

2)建立停用词字典，根据CSDN网站的停用词表，在分词以后去停用词；

3)特征提取，通过n-gram将文本内容按照字节顺序进行大小为N的滑动窗口操作，最终形成长度为N的字节片段序列，获得2-gram最适用，并构建二元模型为：

优选地，所述步骤S2还包括用于通过h-Softmax函数计算文本向量相似度，建立留言分类模型，根据标签和频率建立霍夫曼树，label出现的频率越高，霍夫曼树的路径越短，霍夫曼树中每一叶子结点代表一个label，通过FastText文本分类算法，对数据选取以及对模型参数的调节并加以训练，得到文本分类的最佳模型，并使用F-Score对分类模型进行评价，F-Score评价公式为：

式中，Pi为第i类的查准率，Ri为第i类的查全率。

优选地，所述步骤S2还包括用于对热点问题进行挖掘，在对留言详情信息分词后，把这些词语转换为向量，采用TF-IDF算法，把留言信息转换为权重向量，TF-IDF算法的具体步骤如下，其具体方法步骤如下：

A)计算词频TF，词频TF为某个词在文本中出现的次数；

B)计算逆文档频率IDF权重，建立一个语料库模拟语言的使用环境，逆文档频率IDF的计算方法如下：

逆文档频率IDF＝log(语料库的文本总数/包含该词的文本数+1)；

C)计算TF-IDF值，TF-IDF值的计算方法如下：

TF-IDF＝词频TF×逆文档频率IDF。

优选地，所述TF-IDF权重向量生成的具体方法步骤如下：

Ⅰ)使用TF-IDF算法，找出每个留言描述的前5个关键词；

Ⅱ)对每个留言描述提取的5个关键词，合并成一个集合，计算每个留言描述对于这个集合中的关键词的词频；

Ⅲ)生成各个留言描述的TF-IDF权重向量，TF-IDF权重向量的计算方法如下：

TF-IDF权重向量＝词频TF×逆文档频率IDF。

优选地，所述步骤S2通过K-means文本聚类算法构建话题表示模型，采用层次进行初步聚类输出k个簇，以簇的中心点作为K-means的中心点的输入，K值的选择方法如下：

然后计算点到中心点的欧氏距离，欧几里得距离的计算方法如下：

式中，x_i为文件单词的TD-IDF值，y_i为聚类中心的TD-IDF值。

优选地，所述步骤S3用于从反馈的问题意见中提取相关性、可解释性和信息量特征，其具体方法步骤如下：

a)相关性指标提取，通过计算文档之间的距离计算文档相似度，通过余弦相似度计算方法来计算留言主题与相关工作部门的答复意见之间的相似度，余弦相似度计算方法如下：

b)可解释性指标提取，利用自动化可读性指数ARI表示可解释性特征，ARI的具体计算方法为：API＝4.71*(总字符数/总字数)+0.5*(总字数/总句数)-21.43；

c)信息量指标提取，使用分数表示文本信息量。

优选地，对所述信息量、可解释性、相关性三个主成分评价指标进行权重计算，权重具体计算过程如下：

一)将主成分分析中得出的成分矩阵及特征根输入，计算线性组合中的系数，计算公式为：

式中，bj表示的是第i主成分第j变量的线性组合系数，aij表示的是第i主成分的第j变量的载荷数，ci表示的是第i主成分的特征根；

二)计算综合得分模型中的系数，计算公式为：

其中,di表示的第i主成分的方差，ej表示的是得分模型中第j变量的系数；

三)将所有指标数据进行归一化，使其权重综合为1，计算公式为:

式中,Index_j表示指标权重。

优选地，通过回归算法建立研究模型，对答复意见的质量进行预测，建立回归模型如下:

式中，ε表示常数项，

表示各个评价指标对应的权值，最终经过模型训练得到结果。

有益效果：

(1)对获得的留言数据利用基于Python的FastText原理，实现了对留言数据的分类，很大程度的降低了模型训练时间，提升了可建模度，增加了模型的准确性。

(2)利用K-means文本聚类算法，更好的将留言加入对应的话题簇，从而对热点问题进行更好的分类。

(3)在构建答复意见质量评价指标与模型中，通过提取的指标特征构建广义线性回归模型对相关部门的答复意见质量进行分析，为平衡模型，对文本模型的目标值进行标准化，使对答复意见质量的评价更为准确。

附图说明

图1是本发明提供的一种基于文本挖掘技术的智慧政务舆情分析研究方法的流程图；

图2是本发明提供的一种基于文本挖掘技术的智慧政务舆情分析研究方法中去停用词的部分结果的示意图；

图3是本发明提供的一种基于文本挖掘技术的智慧政务舆情分析研究方法中留言文本部分词频的示意图；

图4是本发明提供的一种基于文本挖掘技术的智慧政务舆情分析研究方法中h-Softmax的示意图；

图5是本发明提供的一种基于文本挖掘技术的智慧政务舆情分析研究方法中FastText的架构示意图；

图6是本发明提供的一种基于文本挖掘技术的智慧政务舆情分析研究方法中FastText的结构示意图；

图7是本发明提供的一种基于文本挖掘技术的智慧政务舆情分析研究方法中关键词的示意图；

图8是本发明提供的一种基于文本挖掘技术的智慧政务舆情分析研究方法中热点话题及其相关内容的示意图。

具体实施方式

为了让本领域技术人员更好的理解本发明，下面结合实施例和附图对本发明展开描述，参见图1。

为了实现本发明所述内容，本发明设计了一种基于文本挖掘技术的智慧政务舆情分析研究方法，包括以下步骤：

步骤S1：基于python，通过中文分词模块jieba对智慧政务文本中的“留言详情”进行预处理，采用动态规划查找最大概率路径，找出基于词频的最大切分组合；

该步骤的目的是对智慧政务文本中的“留言详情”进行预处理。

基于python，预处理选择中文分词模块jieba。jieba采用了高效词图扫描方法，生成句子中汉字所有可能的成词情况所构成的有向无环图(DAG)并结合TrieTree模型，同时采用了动态规划查找最大概率路径，找出基于词频的最大切分组合；对于未登录词，采用了基于汉字成词能力的HMM模型，使用Viterbi算法，能更好的实现中文分词。

1)数据清洗：对群众留言进行分词，jieba分词的三种模式分别为精确模式、全模式和搜索引擎模式，在这里选择使用了精确模式，用于去除文本标注的无效信息，为后续进一步处理作准备。

2)建立停用词字典：选择了CSDN网站的停用词表，其中包含1893个停用词。在分词以后去停用词。最终对留言文本分词后去停用词的部分结果如图2所示。

3)特征提取：使用n-gram，基本思想是将文本内容按照字节顺序进行大小为N的滑动窗口操作，最终形成长度为N的字节片段序列。在多次测试后，得出2-gram最适用，由此构建二元模型为：

经过以上的分词和特征提取步骤，最终得到的留言文本部分词频如图3所示。

在得到文本向量以后，由于智慧政务上的留言文本的词汇-文本矩阵是一个巨大矩阵，不易计算，因此不选择比较两向量夹脚的余弦并计算相似度的方法，而是借助了Softmax函数来实现。

Softmax即归一化指数函数，能将一个含任意实数的K维向量z“压缩”到另一个K维实向量σ(z)中，使得每一个元素的范围都在(0,1)之间，并且所有元素的和为1。该函数多于多分类问题中。

Softmax函数的公式为：

其中，

表示第L层第j个神经元的输出，

表示第L层(通常是最后一层)第j个神经元的输入，e表示自然常数，

表示了第L层所有神经元的输入之和。

Softmax的求导结果分为两种情况，如下所示：

if j＝i

if j≠i

计算Softmax概率非常耗时，从而提出了分层Softmax，即根据类别的频率构造霍夫曼树来代替标准Softmax，通过分层Softmax可以将复杂度从N降低到logN。

基本原理为根据标签(label)和频率建立霍夫曼树，且label出现的频率越高，Huffman树的路径越短，而Huffman树中每一叶子结点代表一个label，h-Softmax示例如图4所示。

由于想要模型训练速度快且不需要预训练好的词向量，在这里选择FastText文本分类算法。可以认为，FastText＝(word2vec中)CBOW+h-softmax，其中CBOW预测中间词，其架构如图5所示。

FastText的结构为：输入-隐层-h-softmax，如下图6所示。

原理是将输入层中的词和词组构成特征向量，再将特征向量通过线性变换映射到隐藏层，隐藏层通过求解最大似然函数，然后根据每个类别的权重和模型参数构建Huffman树，将Huffman树作为输出。

经过对数据选取以及对模型参数的不断调节并加以训练，最终得到文本分类的最佳模型，并使用F-Score对分类模型进行评价，最终评价值约为：0.92982。

其中，F-Score评价公式为：

公式中，Pi为第i类的查准率，Ri为第i类的查全率。

在对留言详情信息分词后，把这些词语转换为向量，以供挖掘分析使用。

采用TF-IDF算法，把留言信息转换为权重向量。TF-IDF算法的具体原理如下：

第一步，计算词频,即TF权重(Term Frequency)。

词频(TF)＝某个词在文本中出现的次数

考虑文本有长短之分，为了便于不同文本的比较，进行“词频”标准化，除以文本的总词数或者除以该文本中出现次数最多的词出现次数即：

词频(TF)＝某个词在文本中出现的次数/文本的总词数

或：

词频(TF)＝某个词在文本中出现的次数/改文本出现次数最多的词的出现次数

第二步，计算IDF权重，即逆文档频率(inverse Document Frequency),建立一个语料库(corpus)模拟语言的使用环境。IDF越大，此特征性在文本中的分布越集中，则该分词在区分该文本内容属性能力越强。

逆文档频率(IDF)＝log(语料库的文本总数/包含该词的文本数+1)。

第三步，计算TF-IDF值(Term Frequency Document Frequency)

TF-IDF＝词频(TF)×逆文档频率(IDF)

实际分析得出TF-IDF值与一个词在留言信息表中文本出现的次数成正比，某个词文本的重要性越高，TF-IDF值越大。计算文本中每个词的TF-IDF值并进行排序，次数最多的即为要提取的留言信息表中文本的关键词。

生成TF-IDF向量的具体步骤如下：

Ⅰ)使用TF-IDF算法，找出每个留言描述的前5个关键词；

Ⅱ)对每个留言描述提取的5个关键词，合并成一个集合，计算每个留言描述对于这个集合中词的词频，如果没有则记为0；

Ⅲ)生成各个留言描述的TF-IDF权重向量，计算公式如下：

TF-IDF＝词频(TF)×逆文档频率(IDF)。

K-means聚类算法是无监督的机械学习方法，将数据集划分为不同的类簇。将每个簇看成是一个话题，运用K-means聚类方法将距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，把得到紧凑且独立的簇作为最终目标。其中，k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

假设有一个包含n个d维数据点的数据集X＝{x1,x2,...,xi,...,xn},其中xi∈R^d,K-means聚类将数据集X组织为K个划分C＝{C_k,i＝1,2.......,K}。每个划分代表一个类C_k，每个类C_k有一个类别中心μ_i。选取欧氏距离作为相似性和距离判断准则，计算该类内每个点到聚类中心μ_i的距离平方和：

聚类目标是使各类总的距离平方和

最小，

其中，

根据最小二乘法和拉格朗日原理，聚类中心μk应该取为类别Ck类各数据点的平均值。

K-means聚类算法过程为：

1.从X中随机取K个元素，作为K个簇的各自的中心；

2.分别计算剩下的元素到K个簇中心的相异度，将这些元素分别划归到相异度最低的簇；

3.根据聚类结果，重新计算K个簇各自的中心，取簇中所有元素各自维度的算数平均数；

4.将X中全部元素按照新的中心重新聚类；

5.重复第四步，直到聚类结果不再改变；

6.输出结果。

为保证聚类模型的效果，应选择合适的中心点。现采用以下方法来确定k-means中心点：

选择彼此距离尽可能远的那些点作为中心点，对于sklearn中：

Km＝KMeans(init＝‘K-means++’)

1.采用层次进行初步聚类输出k个簇，以簇的中心点作为K-means的中心点的输入。Km＝KMeans(init＝’random’)

2.多次随机选择中心点训练K-means，选择效果最好的聚类效果。

K值的选择方法为：

其中，Ci为第i个簇，p为Ci中个的样本点，mi为Ci的质心(Ci中所有样本的均值)，SSE为所有样本的聚类误差，代表聚类效果的好坏。

计算点到中心点的欧氏距离

欧几里得距离定义如下：

其中xi，yi为文件单词的TD-IDF值和聚类中心的TD-IDF值，计算与k个聚类中心的距离。对W[i][j]的每一行，分别计算它们最近的一个聚类中心的n(i)＝ki，判断W[i][j]的每一行所代表的样本是否属于聚类。

根据聚类得到的话题类别，结合留言文本数据的内容，现提取得到排名前五的热点话题及其相关内容如图8所示。

步骤S3：从反馈的问题意见中提取相关性、可解释性和信息量特征，构建答复意见质量评价指标体系与模型，通过提取的指标特征构建广义线性回归模型对相关部门的答复意见质量进行分析，对文本模型的目标值进行标准化，使对答复意见质量的评价更为准确；

根据留言的内容，从反馈的问题意见中提取特征。现对于答复意见文本信息中提取的主要特征指标有相关性、可解释性、信息量等。对于以上特征指标我们通过以下不同的方式获得：

答复意见通常使用向量的形式来表达，因此可以通过计算文档之间的距离来计算文档相似度。本文运用余弦相似度计算方法来计算留言主题与相关工作部门的答复意见之间的相似度，公式为：

当余弦值接近1，夹角趋于0度时，说明两个向量越相似。当余弦值接近于0，夹角区域90度时，表明两个向量越不相似，以此来判断相似度。答复意见与留言主题相关度越高，则该答复建议对主题的价值越大，其质量越高。本文选取一个阈值，进而筛选出每个主题相关度大于该阈值的评论作为该主题下质量较高的答复建议。

对于答复建议而言，可解释性即可读性，相关工作部门答复意见的可读性可以用自动化可读性指数ARI(Automated Readability Index)来表示。ARI的计算公式为：

API＝4.71*(总字符数/总字数)+0.5*(总字数/总句数)-21.43

信息量指从N个相等可能事件中选出一个事件所需要的信息度量或含量，也就是在辩识N个事件中特定的一个事件的过程中所需要提问"是或否"的最少次数，现表示答复意见内容的长度。通常认为，答复意见内容越多所包含有效信息越多，参考价值越大，在一定程度上会增加民众对部门工作能力的信服力。现使用分数表示文本信息量，少于10个字为0.1分。11至20个字为0.2分，以此类推，大于90及以上为1分。

关于工作部门答复意见质量评价模型的研究，不同的指标权重将会得到不同的结果。基于以上评价指标，现应用基于主成分分析权值的方法算计算模型中各个评价指标的权重。

1.将相关工作部门答复意见中数据对应的各个评价指标的数据进行标准化，以降低各个不同评价指标中的差异度。

2.对各个评价指标进行主成分分析以及权值的计算。

3.对评价指标进行主成分分析。

对信息量、可解释性、相关性3个主成分评价指标进行权重计算，权重确定具体计算过程如下：

将主成分分析中得出的“成分矩阵”及特征根输入，计算线性组合中的系数，计算公式为：

其中，bj表示的是第i主成分第j变量的线性组合系数，aij表示的是第i主成分的第j变量的载荷数，ci表示的是第i主成分的特征根。

计算综合得分模型中的系数，计算公式为：

其中，di表示的第i主成分的方差，ej表示的是得分模型中第j变量的系数。

将所有指标数据进行归一化，使其权重综合为1，计算公式为：

现用回归算法建立研究模型，对答复意见的质量进行预测。

引入符号：

Q:答复意见质量

Words:信息量

Relevancy:相关性

Credibility:可解释性

建立回归模型如下：

计算得出各个评价指标的权重为

0.26，0.28。

其中，ε表示常数项，

表示各个评价指标对应的权值。

最终经过模型训练得到结果：

Q＝0.28Words+0.26Relevancy+0.28Credibility+0.01。

现进一步对“智慧政务“中的文本数据即民众的留言数、民众关心的热点问题以及相关工作部门的答复方案数据进行内在信息的挖掘与分析。整个过程包括数据预处理、数据筛选与特征提取处理。通过聚类分析，构建评价指标与建模，模型的验证分析等，得出结论，本发明提出的模型具有良好的性能。

综上所述，本发明利用基于Python的FastText原理进行数据预处理实现文本数据的分类。用TF-IDF算法将留言信息转换为权重向量，再计算TF-IDF值提取留言表中文本关键词，结合K-means聚类算法建立文本聚类模型，实现留言高频热点问题的挖掘和排序。采用自然语言处理技术构建相关的自动回复文本模型，对留言答复进行主成分分析，计算文本余弦相似度，以信息量、可解释性、相关性3个主成分为评价指标进行权重计算，构建答复意见质量评价指标体系。

根据留言数据，建立关于留言内容的一级标签分类模型，并对所建立的分类模型进行评价。将各留言进行归类，并定义合理的热度评价指标，给出排名前5的热点问题和相应问题下的留言信息。根据相关部门对留言的答复意见，对答复意见从答复的相关性、完整性、可解释性、时效性和信息量等角度给出一套质量评价方案，对答复意见进行评价。

利用了收集自互联网公开来源的群众问政留言记录，及相关部门对部分群众留言的答复意见，采用FastText原理对留言详情信息进行分类，用TF-IDF算法计算权重，提取文本关键词，结合K-means算法提取热点话题，计算余弦相似度筛选高质量答复建议，构建答复意见质量评价指标体系。

Claims

1.一种基于文本挖掘技术的智慧政务舆情分析研究方法，其特征在于，包括以下步骤；

步骤S3：从反馈的问题意见中提取相关性、可解释性和信息量特征，构建答复意见质量评价指标体系与模型，通过提取的指标特征构建广义线性回归模型对相关部门的答复意见质量进行分析，对文本模型的目标值进行标准化。

2.根据权利要求1所述的基于文本挖掘技术的智慧政务舆情分析研究方法，其特征在于，所述步骤S1用于对对智慧政务文本中的留言详情进行处理，其具体方法步骤如下：

3.根据权利要求2所述的基于文本挖掘技术的智慧政务舆情分析研究方法，其特征在于，所述步骤S2还包括用于通过h-Softmax函数计算文本向量相似度，建立留言分类模型，根据标签和频率建立霍夫曼树，label出现的频率越高，霍夫曼树的路径越短，霍夫曼树中每一叶子结点代表一个label，通过FastText文本分类算法，对数据选取以及对模型参数的调节并加以训练，得到文本分类的最佳模型，并使用F-Score对分类模型进行评价，F-Score评价公式为：