CN113569008A - 一种基于社区治理数据的大数据分析方法及*** - Google Patents

一种基于社区治理数据的大数据分析方法及*** Download PDF

Info

Publication number
CN113569008A
CN113569008A CN202110816825.0A CN202110816825A CN113569008A CN 113569008 A CN113569008 A CN 113569008A CN 202110816825 A CN202110816825 A CN 202110816825A CN 113569008 A CN113569008 A CN 113569008A
Authority
CN
China
Prior art keywords
word
community
big data
data analysis
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110816825.0A
Other languages
English (en)
Inventor
崔俊
赵凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Qixia District Civil Affairs Service Center
Original Assignee
Nanjing Qixia District Civil Affairs Service Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Qixia District Civil Affairs Service Center filed Critical Nanjing Qixia District Civil Affairs Service Center
Priority to CN202110816825.0A priority Critical patent/CN113569008A/zh
Publication of CN113569008A publication Critical patent/CN113569008A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于社区治理数据的大数据分析方法及***,收集社区群聊天记录,提取聊天内容主体用作语料集;根据用户的停词表和jieba分词表对语料集进行分词操作,利用word2vec神经网络算法生成分词的词向量,利用K‑means算法对词向量进行聚类分析,构建舆情分类表;对语料集进行正负面情感倾向标注,基于BiLSTM算法训练情感分析模型;接收实时的社区群聊天记录,提取聊天内容主体进行分词和向量化操作,一方面获取相似词集,对比相似词集与舆情分类表确定综合舆情分类结果,另一方面将目标句子的词向量输入情感分析模型确定情感倾向标签。本发明能够很好分析社区居民的集中关注话题和事件,促进更好的社区治理。

Description

一种基于社区治理数据的大数据分析方法及***
技术领域
本发明涉及自然语言分析领域,特别涉及一种基于社区治理数据的大数据分 析方法及***。
背景技术
在新时代的背景下,我们对社区治理也应该与时俱进,通过社区群来实时的 获取居民的聊天动态,通过大数据自然语言处理技术,分析社区群聊天记录内容 的正负面情感倾向可以有效及时的反映居民的需求。例如,获取一个目标聊天记 录语句后,我们可以实时的分析情感倾向,比如句子“24栋旁边路灯坏了,需要 维修。”情感倾向为负面标签,我们获取到负面句子时就能迅速做出反应,安排 维修员进行修理。以此进行社区治理将会达到非常好的效果。
发明内容
本发明的目的在于提出一种基于社区治理数据的大数据分析方法及***。
实现本发明目的的技术解决方案为:一种基于社区治理数据的大数据分析方 法,包括如下步骤:
步骤1,收集社区群聊天记录,提取聊天内容主体用作语料集,存入数据库;
步骤2,根据用户的停词表和jieba分词表对语料集进行分词操作,利用 word2vec神经网络算法生成分词的词向量;
步骤3,利用K-means算法对步骤2的词向量进行聚类分析,确定聚类主题 和主题关键词,构建舆情分类表;
步骤4,对语料集进行正负面情感倾向标注,训练情感分析模型,所述情感 分析模型的训练过程为:先利用BiLSTM算法对步骤2的词向量序列进行处理, 然后利用双曲正切函数对处理结果进行映射,通过softmax将映射值最大的情感 类别作为预测的情感倾向标签,最后根据预测的情感倾向标签和真实的正负面情 感倾向标签计算损失函数,并且根据损失函数调整正负面情感倾向分析模型参 数,完成训练;
步骤5,接收实时的社区群聊天记录,提取聊天内容主体进行分词和向量化 操作,与步骤2得到的词向量进行相似度计算获取相似词集,对比相似词集与舆 情分类表主题关键词确定目标句子综合舆情分类结果,同时将目标句子的分词向 量输入训练完成的情感分析模型中,得到目标句子的情感倾向标签。
进一步的,步骤1和步骤5中,对社区群聊天记录提取聊天内容主体的具体 方法为:
对聊天记录进行预处理,将聊天记录集中的广告、天气、***提示语、表情、 空行、昵称去除,即得到聊天内容主体。
进一步的,步骤3中,利用K-means算法对步骤2的词向量进行聚类分析, 确定聚类主题和主题关键词,构建舆情分类表,其中:
聚类主题为大类,包括维修维护、环境卫生、医疗教育、社区自治、停车管 理、治安巡逻、便民生活、菜场治理、邻里文明生活、矛盾调解;主题关键词为 离聚类中心点小于设定阈值词向量对应的分词。
进一步的,步骤4中,对语料集进行正负面情感倾向标注,训练情感分析模 型,其中BiLSTM算法对步骤2的词向量序列进行处理的具体方法为:
将词向量序列输入到BiLSTM编码端进行编码,获取词上下文语义特征, 再通过向量拼接获取句子语义特征,并将语义特征输入到BiLSTM解码端解码; 所述BiLSTM编码端的输入维度由语料集中语句长度占比和句子长度分布决定。
进一步的,步骤4中还包括如下步骤:
将语料集按照1:10数据量切割训练集和验证集合,用于训练情感分析模型。
进一步的,步骤5中,对比相似词集与舆情分类表主题关键词确定目标句子 综合舆情分类结果的具体方法为:
将相似词集和舆情分类表主题关键词对比,如果相似词集中存在不止一个主 题关键词,则判定目标句子综合舆情分类结果为对应主题关键词出现次数最多的 聚类主题,如果相似词集中仅存在一个主题关键词,则判定目标句子综合舆情分 类结果为对应主题关键词所在的聚类主题,如果相似词集中没有一个主题关键 词,则判定目标句子综合舆情分类结果为其他,最后得出目标句子综合舆情分类 结果。
进一步的,步骤5中还包括如下步骤:
将目标句子和目标句子正负面情感倾向分类标签存入数据库,以扩充语料 集。
一种基于社区治理数据的大数据分析***,基于所述的大数据分析方法,实 现基于社区治理数据的大数据分析。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运 行的计算机程序,所述处理器执行所述计算机程序时,基于所述的大数据分析方 法,实现基于社区治理数据的大数据分析。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理 器执行时,基于所述的大数据分析方法,实现基于社区治理数据的大数据分析。
本发明与现有技术相比,其显著优点为:1)经过对社区群聊天记录的预处 理将语句中的无关信息去除,保留文本主体,能够准确的体现词特征在上下文语 境中的语义,提高了上下文语义特征序列可信度。2)对实时社区群聊天记录进 行话题分类和正负面情感倾向标签分类,能够很好分析社区居民的集中关注话题 和事件,促进更好的社区治理。
附图说明
图1是本发明基于社区治理数据的大数据分析方法的流程图;
图2是本发明社群聊天记录语句分析的示例图,其中(a)为句子每种长度 占比图,(b)为句子长度43的占比长度图;
图3是本发明情感分析模型训练的原理图;
图4是本发明正负面情感倾向预测的原理图;
图5是本发明词向量模型生成的原理图;
图6是本发明构建舆情分类表的示例图;
图7是本发明舆情分类的原理图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施 例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以 解释本申请,并不用于限定本申请。
一种基于社区治理数据的大数据分析方法,包括如下步骤:
步骤1,收集社区群聊天记录,提取聊天内容主体用作语料集,存入数据库; 其中对社区群聊天记录提取聊天内容主体的具体方法为:
对聊天记录进行预处理,将聊天记录集中的广告、天气、***提示语、表情、 空行、昵称去除,即得到聊天内容主体,用作语料集。
步骤2,根据用户的停词表和jieba分词表对语料集进行分词操作,利用 word2vec神经网络算法生成分词的词向量;
步骤3,利用K-means算法对步骤2的词向量进行聚类分析,确定聚类主题 和主题关键词,构建舆情分类表;其中:
聚类主题为大类,包括维修维护、环境卫生、医疗教育、社区自治、停车管 理、治安巡逻、便民生活、菜场治理、邻里文明生活、矛盾调解;主题关键词为 离聚类中心点小于设定阈值词向量对应的分词。
步骤4,对语料集进行正负面情感倾向标注,训练情感分析模型,所述情感 分析模型的训练过程为:先利用BiLSTM算法对步骤2的词向量序列进行处理, 然后利用双曲正切函数对处理结果进行映射,通过softmax将映射值最大的情感 类别作为预测的情感倾向标签,最后根据预测的情感倾向标签和真实的正负面情 感倾向标签计算损失函数,并且根据损失函数调整正负面情感倾向分析模型参 数,完成训练;
可将语料集按照1:10数据量切割训练集和验证集合,用于训练情感分析模 型。所述情感分析模型中,BiLSTM算法对词向量序列进行处理的具体方法为:
将词向量序列输入到BiLSTM编码端进行编码,获取词上下文语义特征, 再通过向量拼接获取句子语义特征,并将语义特征输入到BiLSTM解码端解码; 所述BiLSTM编码端的输入维度由语料集中语句长度占比和句子长度分布决定。
步骤5,接收实时的社区群聊天记录,提取聊天内容主体进行分词和向量化 操作,与步骤2得到的词向量进行相似度计算获取相似词集,对比相似词集与舆 情分类表主题关键词确定目标句子综合舆情分类结果,同时将目标句子的分词向 量输入训练完成的情感分析模型中,得到目标句子的情感倾向标签;
在得到目标句子正负面情感倾向分类标签后,可将目标句子和目标句子正负 面情感倾向分类标签存入数据库,用于以扩充语料集。所述综合舆情分类中,对 比相似词集与舆情分类表主题关键词确定目标句子综合舆情分类结果的具体方 法为:
将相似词集和舆情分类表主题关键词对比,如果相似词集中存在不止一个主 题关键词,则判定目标句子综合舆情分类结果为对应主题关键词出现次数最多的 聚类主题,如果相似词集中仅存在一个主题关键词,则判定目标句子综合舆情分 类结果为对应主题关键词所在的聚类主题,如果相似词集中没有一个主题关键 词,则判定目标句子综合舆情分类结果为其他,最后得出目标句子综合舆情分类。
本发明还提出一种基于社区治理数据的大数据分析***,基于所述的大数据 分析方法,实现基于社区治理数据的大数据分析。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运 行的计算机程序,所述处理器执行所述计算机程序时,基于所述的大数据分析方 法,实现基于社区治理数据的大数据分析。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理 器执行时,基于所述的大数据分析方法,实现基于社区治理数据的大数据分析。
本发明采用大数据思路来解决社区群中的聊天记录的正负面情感倾向分析 问题,可以存储海量数据,也使得在海量数据的分析下社区群聊天记录正负面情 感倾向分析的准确性提升,以及大量数据舆情分析能够准确的了解社区居民集中 关注的问题和事件应用于社区治理。
实施例
为了验证本发明方案的有效性,进行如下仿真实验。
本实施例中采集社区群聊天记录(280万条),由于聊天记录中存在大量无 用信息,所以首先进行数据处理,利用字符匹配原则,句子中包含:‘复制’和‘支 付宝’或‘扫码领红包’去除支付宝红包消息;句子中包含‘【’和‘】’或者‘<msg>’ 去除广告消息;句子中包含‘[天气]’或者‘气温’和‘℃’去除天气消息;去除消息中 无用字符,如空行字符:‘<br>’、‘</br>’、‘<br/>’,表情字符:‘\[{1}(.+)]’,循环 去除‘@昵称’,最后留下聊天内容主体,作为训练集。
将训练集按照10:1的比例分成训练集和验证集,对训练集和验证集进行正 负面标签分类标注,创建字典:‘1’为正面,‘0’为负面。对训练集进行步骤五中 语句长度占比和句子长度分布分析,如图2(a)为句子每种长度占比图,如图2 (b)为句子长度43占比长度为0.91,则将BiLSTM输入宽度为batch_size为43。
将处理的社区群聊天记录根据用户的停词表和jieba分词表进行分词操作, 然后利用word2vec中的Skip-gram模型训练词向量模型,词向量模型可用作单 词相似度计算和舆情分类表的构建。图5展示词向量模型生成原理和过程,分词 词数为V,Skip-gram参数skip_window为c/2表示滑动窗口大小,参数num_skips 为c表示对于一个中心词的滑动窗口随机选取c个词,每个词语进行one-hot映射 为V*1的矩阵,设定最终获得的词向量维度为300,初始输入层和隐藏层之间的 权重矩阵w维度为300*V。前向传播中:输入中心词的one-hot(V*1)和权重矩 阵W(300*V)相乘作为隐藏层向量,表示为:
Figure BDA0003170434050000061
其中x为输入中 心词的one-hot,初始化隐藏层和输出层之间的权重记为w′,维度为300*V,隐 藏层向量h和w′相乘c次得到c*V个输出节点,每个节点的净输入表示为:
Figure BDA0003170434050000062
其中uc,j表示输出层中第c个上下文位置,第j个单词的净输 入,v'wj是w'的第j列向量,由于每个输入节点共享w',所以ucj=uj。为了方便 概率表示,将向量ucj经过softmax,得到c个V*1的向量,每个V*1向量的每一 维代表语料中的一个单词。第c个V*1向量中概率最大的位置所代表的单词,就 是由中心词预测出的第c个上下文位置的词。Skip-Gram在输出层不是输出一个 多项分布,而是输出c个多项分布,输出第c个上下文位置上,第j个单词的输 出表示为:
Figure BDA0003170434050000063
其中wc,j表示为输出层的第c个上下文位置的第j个单词;wo,c表示实际的第 c个上下文位置上的单词,wI表示输入的中心词;yc,j表示输出层的第c个上下 文位置的第j个单词的输出;p(wc,j=wo,c|wI)表示给定输入词语作为中心词时, 输出的第c个上下文位置上的词就是实际的第c个上下文位置词的概率;后向传 播、随机梯度下降更新权重:定义损失函数E表示为:
Figure BDA0003170434050000064
其中
Figure BDA0003170434050000065
是实际第c个上下位置的词的索引,损失函数E对w′取导数,获取 隐藏层到输出层的梯度表示为:
Figure BDA0003170434050000066
根据随机梯度下降,得到隐藏层和输出层之间的权重更新方程表示为:
Figure BDA0003170434050000067
其中η为学习率,损失函数E对w取导数,获得输入层到隐藏层的权重的梯 度表示为:
Figure BDA0003170434050000071
根据随机梯度下降,得到输入层和隐藏层之间的权重更新方程表示为:
Figure BDA0003170434050000072
本实施例中,将预处理过的训练集分词,利用上面训练word2vec300维词向 量模型获得词向量序列表示为S=[v1,v2,...,vn],S为词向量序列v为词向量,作 为BiLSTM的输入数据,由正向的LSTM获取词的上文语义信息并输出状态向 量,正向上文向量表示为:
Figure BDA0003170434050000073
反向的LSTM获取词的下文 语义信息并输出状态向量,反向下文向量表示为:
Figure BDA0003170434050000074
结 合BiLSTM的双向输出状态量作为词的上下文语义,即上下文语义表示为
Figure BDA0003170434050000075
并且生成目标句子上文语义特征序列S1=[h1,h2,...,hn],S1为上下文 语义序列;S1作为LSTM网络的输入,生成在情感分类空间上的映射具体计算 过程如下:
Figure BDA0003170434050000079
Figure BDA00031704340500000710
Figure BDA0003170434050000076
Figure BDA0003170434050000077
Figure BDA00031704340500000711
)
Sj=oj*tanh(Cj)
LSTM模型是由j时刻的输入词hj,细胞状态Cj,临时细胞状态
Figure BDA0003170434050000078
隐层 状态Sj,遗忘门fj,记忆门ij,输出门oj组成。LSTM的计算过程可以概括为, 通过对细胞状态中信息遗忘和记忆新的信息使得对后续时刻计算有用的信息得 以传递,而无用的信息被丢弃,并在每个时间步都会输出隐层状态Sj,其中遗 忘,记忆与输出由通过上个时刻的隐层状态Sj-1和当前输入hj计算出来的遗忘门fj,记忆门ij,输出门oj来控制,最终得到和目标句子分词数量相同的序列Sj。 利用softmax函数计算映射Sj属于情感分类空间中不同标签的概率,计算公式 为:
Figure BDA0003170434050000081
其中,p(lj,t)是预测社区群聊天记录预测句子lj正负面标签是类别t的概率; wm为时间分布式全连接层网络中权值矩阵第m行;Sj为LSTM网络解码端输出; 最终选择最大概率的正负面情感倾向分类标签作为最终的输出标签,则为目标语 句的预测标签值。根据所有验证集真实正负面分类标签和预测标签值利用交叉熵 计算损失函数,计算公式为:
Figure BDA0003170434050000082
其中loss为计算得出的损失值;
Figure BDA0003170434050000083
是社区群聊天记录数据m是否属于类别 t的布尔值,如果布尔值为true则为1为正面,反之则为0为负面。
Figure BDA0003170434050000084
是社区群 聊天记录样本数据m属于类别t的概率。由于损失函数是落在[0,1]之间,损失值 越大则正确值越小,循环对比损失值大小对比留下损失值小的模型,迭代中选出 最优模型。图3展示了训练产生最优正负面情感倾向分析模型的生成方法和原理 图。
此外,利用k-means算法对上面训练的word2vec300维词向量进行聚类分析, 用聚类主题作为大类,用离中心点最近的几个词作为主题关键词,可得到舆情分 类表。图6展示了聚类结果,按照话题热度排名,可分为:维修维护、环境卫生、 医疗教育、社区自治、停车管理、治安巡逻、便民生活、菜场治理、邻里文明生 活、矛盾调解等大类。
本实施例中,使用flask框架构建一个接受实时的社区群聊天记录的接口, 接收到实时目标句子后,首先进行文本的预处理,将文本中的广告、天气、*** 提示语、表情、空行、昵称去除,根据用户的停词表和jieba分词表对语料进行 分词,获取词向量序列,然后通过向量拼接获取句子级别特征序列输入模型得出 正负面情感倾向得分,从而获取句子所属正负面情感倾向标签类别,将句子和结 果存入数据库用作扩充语料库;同时将句子的每个分词的词向量与词向量模型进 行相似度对比,获取前5个最相似词语,将最相似词语和舆情表的主题关键词全 匹配,确定句子的大分类,生成舆情分析结果。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实 施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的 组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细, 但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普 通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进, 这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求 为准。

Claims (10)

1.一种基于社区治理数据的大数据分析方法,其特征在于,包括如下步骤:
步骤1,收集社区群聊天记录,提取聊天内容主体用作语料集,存入数据库;
步骤2,根据用户的停词表和jieba分词表对语料集进行分词操作,利用word2vec神经网络算法生成分词的词向量;
步骤3,利用K-means算法对步骤2的词向量进行聚类分析,确定聚类主题和主题关键词,构建舆情分类表;
步骤4,对语料集进行正负面情感倾向标注,训练情感分析模型,所述情感分析模型的训练过程为:先利用BiLSTM算法对步骤2的词向量序列进行处理,然后利用双曲正切函数对处理结果进行映射,通过softmax将映射值最大的情感类别作为预测的情感倾向标签,最后根据预测的情感倾向标签和真实的正负面情感倾向标签计算损失函数,并且根据损失函数调整正负面情感倾向分析模型参数,完成训练;
步骤5,接收实时的社区群聊天记录,提取聊天内容主体进行分词和向量化操作,与步骤2得到的词向量进行相似度计算获取相似词集,对比相似词集与舆情分类表主题关键词确定目标句子综合舆情分类结果,同时将目标句子的分词向量输入训练完成的情感分析模型中,得到目标句子的情感倾向标签。
2.根据权利要求1所述的基于社区治理数据的大数据分析方法,其特征在于,步骤1和步骤5中,对社区群聊天记录提取聊天内容主体的具体方法为:
对聊天记录进行预处理,将聊天记录集中的广告、天气、***提示语、表情、空行、昵称去除,即得到聊天内容主体。
3.根据权利要求1所述的基于社区治理数据的大数据分析方法,其特征在于,步骤3中,利用K-means算法对步骤2的词向量进行聚类分析,确定聚类主题和主题关键词,构建舆情分类表,其中:
聚类主题为大类,包括维修维护、环境卫生、医疗教育、社区自治、停车管理、治安巡逻、便民生活、菜场治理、邻里文明生活、矛盾调解;主题关键词为离聚类中心点小于设定阈值词向量对应的分词。
4.根据权利要求1所述的基于社区治理数据的大数据分析方法,其特征在于,步骤4中,对语料集进行正负面情感倾向标注,训练情感分析模型,其中BiLSTM算法对步骤2的词向量序列进行处理的具体方法为:
将词向量序列输入到BiLSTM编码端进行编码,获取词上下文语义特征,再通过向量拼接获取句子语义特征,并将语义特征输入到BiLSTM解码端解码;所述BiLSTM编码端的输入维度由语料集中语句长度占比和句子长度分布决定。
5.根据权利要求1所述的基于社区治理数据的大数据分析方法,其特征在于,步骤4中还包括如下步骤:
将语料集按照1:10数据量切割训练集和验证集合,用于训练情感分析模型。
6.根据权利要求1所述的基于社区治理数据的大数据分析方法,其特征在于,步骤5中,对比相似词集与舆情分类表主题关键词确定目标句子综合舆情分类结果的具体方法为:
将相似词集和舆情分类表主题关键词对比,如果相似词集中存在不止一个主题关键词,则判定目标句子综合舆情分类结果为对应主题关键词出现次数最多的聚类主题,如果相似词集中仅存在一个主题关键词,则判定目标句子综合舆情分类结果为对应主题关键词所在的聚类主题,如果相似词集中没有一个主题关键词,则判定目标句子综合舆情分类结果为其他,最后得出目标句子综合舆情分类结果。
7.根据权利要求1所述的基于社区治理数据的大数据分析方法,其特征在于,步骤5中还包括如下步骤:
将目标句子和目标句子正负面情感倾向分类标签存入数据库,以扩充语料集。
8.一种基于社区治理数据的大数据分析***,其特征在于,基于权利要求1-7任一项所述的大数据分析方法,实现基于社区治理数据的大数据分析。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,基于权利要求1-7任一项所述的大数据分析方法,实现基于社区治理数据的大数据分析。
10.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,基于权利要求1-7任一项所述的大数据分析方法,实现基于社区治理数据的大数据分析。
CN202110816825.0A 2021-07-20 2021-07-20 一种基于社区治理数据的大数据分析方法及*** Pending CN113569008A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110816825.0A CN113569008A (zh) 2021-07-20 2021-07-20 一种基于社区治理数据的大数据分析方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110816825.0A CN113569008A (zh) 2021-07-20 2021-07-20 一种基于社区治理数据的大数据分析方法及***

Publications (1)

Publication Number Publication Date
CN113569008A true CN113569008A (zh) 2021-10-29

Family

ID=78165565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110816825.0A Pending CN113569008A (zh) 2021-07-20 2021-07-20 一种基于社区治理数据的大数据分析方法及***

Country Status (1)

Country Link
CN (1) CN113569008A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114548321A (zh) * 2022-03-05 2022-05-27 昆明理工大学 基于对比学习的自监督舆情评论观点对象分类方法
CN117370678A (zh) * 2023-10-31 2024-01-09 深圳市叁柒无限网络科技有限公司 基于大数据的社区舆情监测方法及相关装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710761A (zh) * 2018-12-21 2019-05-03 中国标准化研究院 基于注意力增强的双向lstm模型的情感分析方法
CN109800310A (zh) * 2018-12-03 2019-05-24 国网浙江省电力有限公司杭州供电公司 一种基于结构化表达的电力运维文本分析方法
CN110232109A (zh) * 2019-05-17 2019-09-13 深圳市兴海物联科技有限公司 一种网络舆情分析方法以及***
CN110263154A (zh) * 2019-05-17 2019-09-20 广州艾媒数聚信息咨询股份有限公司 一种网络舆情情感态势量化方法、***及存储介质
CN111523319A (zh) * 2020-04-10 2020-08-11 广东海洋大学 基于情景lstm结构网络的微博情感分析方法
CN111950273A (zh) * 2020-07-31 2020-11-17 南京莱斯网信技术研究院有限公司 基于情感信息抽取分析的网络舆情突发事件自动识别方法
CN111985214A (zh) * 2020-08-19 2020-11-24 四川长虹电器股份有限公司 基于bilstm及attention的人机交互负面情感分析方法
CN112434164A (zh) * 2020-12-03 2021-03-02 西安交通大学 一种兼顾话题发现和情感分析的网络舆情分析方法及***
CN112581006A (zh) * 2020-12-25 2021-03-30 杭州衡泰软件有限公司 筛选舆情信息及监测企业主体风险等级的舆情引擎及方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800310A (zh) * 2018-12-03 2019-05-24 国网浙江省电力有限公司杭州供电公司 一种基于结构化表达的电力运维文本分析方法
CN109710761A (zh) * 2018-12-21 2019-05-03 中国标准化研究院 基于注意力增强的双向lstm模型的情感分析方法
CN110232109A (zh) * 2019-05-17 2019-09-13 深圳市兴海物联科技有限公司 一种网络舆情分析方法以及***
CN110263154A (zh) * 2019-05-17 2019-09-20 广州艾媒数聚信息咨询股份有限公司 一种网络舆情情感态势量化方法、***及存储介质
CN111523319A (zh) * 2020-04-10 2020-08-11 广东海洋大学 基于情景lstm结构网络的微博情感分析方法
CN111950273A (zh) * 2020-07-31 2020-11-17 南京莱斯网信技术研究院有限公司 基于情感信息抽取分析的网络舆情突发事件自动识别方法
CN111985214A (zh) * 2020-08-19 2020-11-24 四川长虹电器股份有限公司 基于bilstm及attention的人机交互负面情感分析方法
CN112434164A (zh) * 2020-12-03 2021-03-02 西安交通大学 一种兼顾话题发现和情感分析的网络舆情分析方法及***
CN112581006A (zh) * 2020-12-25 2021-03-30 杭州衡泰软件有限公司 筛选舆情信息及监测企业主体风险等级的舆情引擎及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李苑;李智星;滕磊;王化明;王国胤;: "基于注意力机制的评论情感分析及情感词检测", 计算机科学, no. 01, 15 January 2020 (2020-01-15) *
蒋彭: "基于深度学习的情感分类及其在舆情分析中的应用", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 01 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114548321A (zh) * 2022-03-05 2022-05-27 昆明理工大学 基于对比学习的自监督舆情评论观点对象分类方法
CN117370678A (zh) * 2023-10-31 2024-01-09 深圳市叁柒无限网络科技有限公司 基于大数据的社区舆情监测方法及相关装置

Similar Documents

Publication Publication Date Title
CN108897857B (zh) 面向领域的中文文本主题句生成方法
CN109697232B (zh) 一种基于深度学习的中文文本情感分析方法
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN109800310B (zh) 一种基于结构化表达的电力运维文本分析方法
CN111382575A (zh) 一种基于联合标注和实体语义信息的事件抽取方法
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN111401061A (zh) 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法
CN112883738A (zh) 基于神经网络和自注意力机制的医学实体关系抽取方法
CN111985247B (zh) 一种基于多粒度文本特征表示的微博用户兴趣识别方法和***
CN110413768B (zh) 一种文章题目自动生成方法
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN108874896B (zh) 一种基于神经网络和幽默特征的幽默识别方法
CN110415071B (zh) 一种基于观点挖掘分析的汽车竞品对比方法
CN108959305A (zh) 一种基于互联网大数据的事件抽取方法及***
CN111078833A (zh) 一种基于神经网络的文本分类方法
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及***
CN113569008A (zh) 一种基于社区治理数据的大数据分析方法及***
CN116756347B (zh) 一种基于大数据的语义信息检索方法
CN112100212A (zh) 一种基于机器学习和规则匹配的案件情节抽取方法
CN113988075A (zh) 基于多任务学习的网络安全领域文本数据实体关系抽取法
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
CN112417155B (zh) 基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination