CN113569008A

CN113569008A - 一种基于社区治理数据的大数据分析方法及***

Info

Publication number: CN113569008A
Application number: CN202110816825.0A
Authority: CN
Inventors: 崔俊; 赵凯
Original assignee: Nanjing Qixia District Civil Affairs Service Center
Current assignee: Nanjing Qixia District Civil Affairs Service Center
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2021-10-29

Abstract

本发明提出了一种基于社区治理数据的大数据分析方法及***，收集社区群聊天记录，提取聊天内容主体用作语料集；根据用户的停词表和jieba分词表对语料集进行分词操作，利用word2vec神经网络算法生成分词的词向量，利用K‑means算法对词向量进行聚类分析，构建舆情分类表；对语料集进行正负面情感倾向标注，基于BiLSTM算法训练情感分析模型；接收实时的社区群聊天记录，提取聊天内容主体进行分词和向量化操作，一方面获取相似词集，对比相似词集与舆情分类表确定综合舆情分类结果，另一方面将目标句子的词向量输入情感分析模型确定情感倾向标签。本发明能够很好分析社区居民的集中关注话题和事件，促进更好的社区治理。

Description

一种基于社区治理数据的大数据分析方法及***

技术领域

本发明涉及自然语言分析领域，特别涉及一种基于社区治理数据的大数据分析方法及***。

背景技术

在新时代的背景下，我们对社区治理也应该与时俱进，通过社区群来实时的获取居民的聊天动态，通过大数据自然语言处理技术，分析社区群聊天记录内容的正负面情感倾向可以有效及时的反映居民的需求。例如，获取一个目标聊天记录语句后，我们可以实时的分析情感倾向，比如句子“24栋旁边路灯坏了，需要维修。”情感倾向为负面标签，我们获取到负面句子时就能迅速做出反应，安排维修员进行修理。以此进行社区治理将会达到非常好的效果。

发明内容

本发明的目的在于提出一种基于社区治理数据的大数据分析方法及***。

实现本发明目的的技术解决方案为：一种基于社区治理数据的大数据分析方法，包括如下步骤：

步骤1，收集社区群聊天记录，提取聊天内容主体用作语料集，存入数据库；

步骤2，根据用户的停词表和jieba分词表对语料集进行分词操作，利用 word2vec神经网络算法生成分词的词向量；

步骤3，利用K-means算法对步骤2的词向量进行聚类分析，确定聚类主题和主题关键词，构建舆情分类表；

步骤4，对语料集进行正负面情感倾向标注，训练情感分析模型，所述情感分析模型的训练过程为：先利用BiLSTM算法对步骤2的词向量序列进行处理，然后利用双曲正切函数对处理结果进行映射，通过softmax将映射值最大的情感类别作为预测的情感倾向标签，最后根据预测的情感倾向标签和真实的正负面情感倾向标签计算损失函数，并且根据损失函数调整正负面情感倾向分析模型参数，完成训练；

步骤5，接收实时的社区群聊天记录，提取聊天内容主体进行分词和向量化操作，与步骤2得到的词向量进行相似度计算获取相似词集，对比相似词集与舆情分类表主题关键词确定目标句子综合舆情分类结果，同时将目标句子的分词向量输入训练完成的情感分析模型中，得到目标句子的情感倾向标签。

进一步的，步骤1和步骤5中，对社区群聊天记录提取聊天内容主体的具体方法为：

对聊天记录进行预处理，将聊天记录集中的广告、天气、***提示语、表情、空行、昵称去除，即得到聊天内容主体。

进一步的，步骤3中，利用K-means算法对步骤2的词向量进行聚类分析，确定聚类主题和主题关键词，构建舆情分类表，其中：

聚类主题为大类，包括维修维护、环境卫生、医疗教育、社区自治、停车管理、治安巡逻、便民生活、菜场治理、邻里文明生活、矛盾调解；主题关键词为离聚类中心点小于设定阈值词向量对应的分词。

进一步的，步骤4中，对语料集进行正负面情感倾向标注，训练情感分析模型，其中BiLSTM算法对步骤2的词向量序列进行处理的具体方法为：

将词向量序列输入到BiLSTM编码端进行编码，获取词上下文语义特征，再通过向量拼接获取句子语义特征，并将语义特征输入到BiLSTM解码端解码；所述BiLSTM编码端的输入维度由语料集中语句长度占比和句子长度分布决定。

进一步的，步骤4中还包括如下步骤：

将语料集按照1：10数据量切割训练集和验证集合，用于训练情感分析模型。

进一步的，步骤5中，对比相似词集与舆情分类表主题关键词确定目标句子综合舆情分类结果的具体方法为：

将相似词集和舆情分类表主题关键词对比，如果相似词集中存在不止一个主题关键词，则判定目标句子综合舆情分类结果为对应主题关键词出现次数最多的聚类主题，如果相似词集中仅存在一个主题关键词，则判定目标句子综合舆情分类结果为对应主题关键词所在的聚类主题，如果相似词集中没有一个主题关键词，则判定目标句子综合舆情分类结果为其他，最后得出目标句子综合舆情分类结果。

进一步的，步骤5中还包括如下步骤：

将目标句子和目标句子正负面情感倾向分类标签存入数据库，以扩充语料集。

一种基于社区治理数据的大数据分析***，基于所述的大数据分析方法，实现基于社区治理数据的大数据分析。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，基于所述的大数据分析方法，实现基于社区治理数据的大数据分析。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，基于所述的大数据分析方法，实现基于社区治理数据的大数据分析。

本发明与现有技术相比，其显著优点为：1)经过对社区群聊天记录的预处理将语句中的无关信息去除，保留文本主体，能够准确的体现词特征在上下文语境中的语义，提高了上下文语义特征序列可信度。2)对实时社区群聊天记录进行话题分类和正负面情感倾向标签分类，能够很好分析社区居民的集中关注话题和事件，促进更好的社区治理。

附图说明

图1是本发明基于社区治理数据的大数据分析方法的流程图；

图2是本发明社群聊天记录语句分析的示例图，其中(a)为句子每种长度占比图，(b)为句子长度43的占比长度图；

图3是本发明情感分析模型训练的原理图；

图4是本发明正负面情感倾向预测的原理图；

图5是本发明词向量模型生成的原理图；

图6是本发明构建舆情分类表的示例图；

图7是本发明舆情分类的原理图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

一种基于社区治理数据的大数据分析方法，包括如下步骤：

步骤1，收集社区群聊天记录，提取聊天内容主体用作语料集，存入数据库；其中对社区群聊天记录提取聊天内容主体的具体方法为：

对聊天记录进行预处理，将聊天记录集中的广告、天气、***提示语、表情、空行、昵称去除，即得到聊天内容主体，用作语料集。

步骤3，利用K-means算法对步骤2的词向量进行聚类分析，确定聚类主题和主题关键词，构建舆情分类表；其中：

可将语料集按照1：10数据量切割训练集和验证集合，用于训练情感分析模型。所述情感分析模型中，BiLSTM算法对词向量序列进行处理的具体方法为：

步骤5，接收实时的社区群聊天记录，提取聊天内容主体进行分词和向量化操作，与步骤2得到的词向量进行相似度计算获取相似词集，对比相似词集与舆情分类表主题关键词确定目标句子综合舆情分类结果，同时将目标句子的分词向量输入训练完成的情感分析模型中，得到目标句子的情感倾向标签；

在得到目标句子正负面情感倾向分类标签后，可将目标句子和目标句子正负面情感倾向分类标签存入数据库，用于以扩充语料集。所述综合舆情分类中，对比相似词集与舆情分类表主题关键词确定目标句子综合舆情分类结果的具体方法为：

将相似词集和舆情分类表主题关键词对比，如果相似词集中存在不止一个主题关键词，则判定目标句子综合舆情分类结果为对应主题关键词出现次数最多的聚类主题，如果相似词集中仅存在一个主题关键词，则判定目标句子综合舆情分类结果为对应主题关键词所在的聚类主题，如果相似词集中没有一个主题关键词，则判定目标句子综合舆情分类结果为其他，最后得出目标句子综合舆情分类。

本发明还提出一种基于社区治理数据的大数据分析***，基于所述的大数据分析方法，实现基于社区治理数据的大数据分析。

本发明采用大数据思路来解决社区群中的聊天记录的正负面情感倾向分析问题，可以存储海量数据，也使得在海量数据的分析下社区群聊天记录正负面情感倾向分析的准确性提升，以及大量数据舆情分析能够准确的了解社区居民集中关注的问题和事件应用于社区治理。

实施例

为了验证本发明方案的有效性，进行如下仿真实验。

本实施例中采集社区群聊天记录(280万条)，由于聊天记录中存在大量无用信息，所以首先进行数据处理，利用字符匹配原则，句子中包含：‘复制’和‘支付宝’或‘扫码领红包’去除支付宝红包消息；句子中包含‘【’和‘】’或者‘<msg>’ 去除广告消息；句子中包含‘[天气]’或者‘气温’和‘℃’去除天气消息；去除消息中无用字符，如空行字符：‘<br>’、‘</br>’、‘<br/>’，表情字符：‘\[{1}(.+)]’，循环去除‘@昵称’，最后留下聊天内容主体，作为训练集。

将训练集按照10:1的比例分成训练集和验证集，对训练集和验证集进行正负面标签分类标注，创建字典：‘1’为正面，‘0’为负面。对训练集进行步骤五中语句长度占比和句子长度分布分析，如图2(a)为句子每种长度占比图，如图2 (b)为句子长度43占比长度为0.91，则将BiLSTM输入宽度为batch_size为43。

将处理的社区群聊天记录根据用户的停词表和jieba分词表进行分词操作，然后利用word2vec中的Skip-gram模型训练词向量模型，词向量模型可用作单词相似度计算和舆情分类表的构建。图5展示词向量模型生成原理和过程，分词词数为V，Skip-gram参数skip_window为c/2表示滑动窗口大小，参数num_skips 为c表示对于一个中心词的滑动窗口随机选取c个词，每个词语进行one-hot映射为V*1的矩阵，设定最终获得的词向量维度为300，初始输入层和隐藏层之间的权重矩阵w维度为300*V。前向传播中：输入中心词的one-hot(V*1)和权重矩阵W(300*V)相乘作为隐藏层向量，表示为：

其中x为输入中心词的one-hot，初始化隐藏层和输出层之间的权重记为w′，维度为300*V，隐藏层向量h和w′相乘c次得到c*V个输出节点，每个节点的净输入表示为：

其中u_c,j表示输出层中第c个上下文位置，第j个单词的净输入，v'_wj是w'的第j列向量，由于每个输入节点共享w'，所以u_cj＝u_j。为了方便概率表示，将向量u_cj经过softmax，得到c个V*1的向量，每个V*1向量的每一维代表语料中的一个单词。第c个V*1向量中概率最大的位置所代表的单词，就是由中心词预测出的第c个上下文位置的词。Skip-Gram在输出层不是输出一个多项分布，而是输出c个多项分布，输出第c个上下文位置上，第j个单词的输出表示为：

其中w_c,j表示为输出层的第c个上下文位置的第j个单词；w_o,c表示实际的第 c个上下文位置上的单词，wI表示输入的中心词；y_c,j表示输出层的第c个上下文位置的第j个单词的输出；p(w_c,j＝w_o,c|wI)表示给定输入词语作为中心词时，输出的第c个上下文位置上的词就是实际的第c个上下文位置词的概率；后向传播、随机梯度下降更新权重：定义损失函数E表示为：

其中

是实际第c个上下位置的词的索引，损失函数E对w′取导数，获取隐藏层到输出层的梯度表示为：

根据随机梯度下降，得到隐藏层和输出层之间的权重更新方程表示为：

其中η为学习率，损失函数E对w取导数，获得输入层到隐藏层的权重的梯度表示为：

根据随机梯度下降，得到输入层和隐藏层之间的权重更新方程表示为：

本实施例中，将预处理过的训练集分词，利用上面训练word2vec300维词向量模型获得词向量序列表示为S＝[v₁,v₂,...,v_n]，S为词向量序列v为词向量，作为BiLSTM的输入数据，由正向的LSTM获取词的上文语义信息并输出状态向量，正向上文向量表示为：

反向的LSTM获取词的下文语义信息并输出状态向量，反向下文向量表示为：

结合BiLSTM的双向输出状态量作为词的上下文语义，即上下文语义表示为

并且生成目标句子上文语义特征序列S₁＝[h₁,h₂,...,h_n]，S₁为上下文语义序列；S₁作为LSTM网络的输入，生成在情感分类空间上的映射具体计算过程如下：

)

S_j＝o_j*tanh(C_j)

LSTM模型是由j时刻的输入词h_j，细胞状态C_j，临时细胞状态

隐层状态S_j，遗忘门f_j，记忆门i_j，输出门o_j组成。LSTM的计算过程可以概括为，通过对细胞状态中信息遗忘和记忆新的信息使得对后续时刻计算有用的信息得以传递，而无用的信息被丢弃，并在每个时间步都会输出隐层状态S_j，其中遗忘，记忆与输出由通过上个时刻的隐层状态S_j-1和当前输入h_j计算出来的遗忘门f_j，记忆门i_j，输出门o_j来控制，最终得到和目标句子分词数量相同的序列S_j。利用softmax函数计算映射S_j属于情感分类空间中不同标签的概率，计算公式为：

其中，p(l_j,t)是预测社区群聊天记录预测句子l_j正负面标签是类别t的概率； w_m为时间分布式全连接层网络中权值矩阵第m行；S_j为LSTM网络解码端输出；最终选择最大概率的正负面情感倾向分类标签作为最终的输出标签，则为目标语句的预测标签值。根据所有验证集真实正负面分类标签和预测标签值利用交叉熵计算损失函数，计算公式为：

其中loss为计算得出的损失值；

是社区群聊天记录数据m是否属于类别 t的布尔值，如果布尔值为true则为1为正面，反之则为0为负面。

是社区群聊天记录样本数据m属于类别t的概率。由于损失函数是落在[0,1]之间，损失值越大则正确值越小，循环对比损失值大小对比留下损失值小的模型，迭代中选出最优模型。图3展示了训练产生最优正负面情感倾向分析模型的生成方法和原理图。

此外，利用k-means算法对上面训练的word2vec300维词向量进行聚类分析，用聚类主题作为大类，用离中心点最近的几个词作为主题关键词，可得到舆情分类表。图6展示了聚类结果，按照话题热度排名，可分为：维修维护、环境卫生、医疗教育、社区自治、停车管理、治安巡逻、便民生活、菜场治理、邻里文明生活、矛盾调解等大类。

本实施例中，使用flask框架构建一个接受实时的社区群聊天记录的接口，接收到实时目标句子后，首先进行文本的预处理，将文本中的广告、天气、*** 提示语、表情、空行、昵称去除，根据用户的停词表和jieba分词表对语料进行分词，获取词向量序列，然后通过向量拼接获取句子级别特征序列输入模型得出正负面情感倾向得分，从而获取句子所属正负面情感倾向标签类别，将句子和结果存入数据库用作扩充语料库；同时将句子的每个分词的词向量与词向量模型进行相似度对比，获取前5个最相似词语，将最相似词语和舆情表的主题关键词全匹配，确定句子的大分类，生成舆情分析结果。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于社区治理数据的大数据分析方法，其特征在于，包括如下步骤：

步骤2，根据用户的停词表和jieba分词表对语料集进行分词操作，利用word2vec神经网络算法生成分词的词向量；

2.根据权利要求1所述的基于社区治理数据的大数据分析方法，其特征在于，步骤1和步骤5中，对社区群聊天记录提取聊天内容主体的具体方法为：

3.根据权利要求1所述的基于社区治理数据的大数据分析方法，其特征在于，步骤3中，利用K-means算法对步骤2的词向量进行聚类分析，确定聚类主题和主题关键词，构建舆情分类表，其中：

4.根据权利要求1所述的基于社区治理数据的大数据分析方法，其特征在于，步骤4中，对语料集进行正负面情感倾向标注，训练情感分析模型，其中BiLSTM算法对步骤2的词向量序列进行处理的具体方法为：

5.根据权利要求1所述的基于社区治理数据的大数据分析方法，其特征在于，步骤4中还包括如下步骤：

6.根据权利要求1所述的基于社区治理数据的大数据分析方法，其特征在于，步骤5中，对比相似词集与舆情分类表主题关键词确定目标句子综合舆情分类结果的具体方法为：

7.根据权利要求1所述的基于社区治理数据的大数据分析方法，其特征在于，步骤5中还包括如下步骤：

8.一种基于社区治理数据的大数据分析***，其特征在于，基于权利要求1-7任一项所述的大数据分析方法，实现基于社区治理数据的大数据分析。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，基于权利要求1-7任一项所述的大数据分析方法，实现基于社区治理数据的大数据分析。

10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，基于权利要求1-7任一项所述的大数据分析方法，实现基于社区治理数据的大数据分析。