CN107562854B

CN107562854B - 一种定量分析党建数据的建模方法

Info

Publication number: CN107562854B
Application number: CN201710751678.7A
Authority: CN
Inventors: 李维华; 王兵益; 郭延哺; 王顺芳; 何敏
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2017-08-28
Filing date: 2017-08-28
Publication date: 2020-09-22
Anticipated expiration: 2037-08-28
Also published as: CN107562854A

Abstract

本发明公开一种定量分析党建数据的建模方法。本发明首先提取党建工作文本中的党建工作关键词，对两两党建工作关键词之间的相关关系给出定量度量，然后将党建工作关键词抽象为polytree模型的节点，根据两两党建工作关键词之间的相关关系确定模型的有向边，再确定模型的条件概率参数。本发明给出党建工作关键词之间相关关系的定量度量方法，并用polytree模型为所有党建工作关键词之间的相关关系提供直观的建模，为进一步分析党建大数据提供支持。

Description

一种定量分析党建数据的建模方法

技术领域

本发明属于数据挖掘技术领域，涉及一种定量分析党建数据的建模方法。

背景技术

党建工作是抓好党员队伍的根本保障，也是做好一切工作的根本保障，提高党建工作科学化水平是目前党建工作的一项重要任务。在党建工作开展的过程中，产生海量的党建数据，包括思想建设数据、组织建设数据、作风建设数据和制度建设数据等等，对党建大数据进行智能化管理和有效分析成为一个迫切需求。对党建大数据进行定量建模以及关联分析，并研究有效的分析挖掘方法，是有效分析党建大数据的关键，也是提高党建科学化水平的基础。polytree模型是一种简单的不确定性知识表示和推理的概率图模型，不仅可以捕捉数据间定量的不确定性关系，同时还为党建工作的定量分析提供高效的推理机制。本发明用polytree模型对党建工作进行定量建模，通过定量度量党建工作关键词之间的相关关系，提供一种挖掘全局相关关系的建模手段，为党建文本分析和党建工作分析提供支持，也为提高党建科学化水平提供技术支持。

发明内容

针对党建工作中产生的海量数据，本发明为挖掘党建数据全局相关关系提供一种有效的建模方法，为党建工作大数据分析提供支持。该方法主要包括以下步骤：

第一步，对每个党建工作文本进行量化，具体为：

1.1、对n个党建工作文本集合

提取m个党建工作关键词集

1.2、定义文档频度函数f(x)，其中x表示文档中出现的和不出现的关键字组合序列，对党建工作关键词

表示关键词

出现在文档中，

表示关键词

不出现在文档中；例如

表示

出现且

不出现的关键字组合，

表示关键词

出现但

不出现的文档频度；

第二步，对

中任意党建工作关键词

定义

用卡方检验(chi-square test)进行判定

和

是否相互独立；用相关度

定量度量

和

之间的直接相关关系，如果

和

相互独立，则

0，否则

第三步，建立m个节点的最大权生成树T

3.1、将

中的每一个党建工作关键词抽象为T中的一个节点；

3.2、从大到小考察两两词间相关度

如果不产生环路则在T中加一条无向边

否则放弃该

直到T中有

条边或者

为止；

第四步，对T中子图

计算

用卡方检验(chi-square test)进行判定

和

是否关于

条件独立；如果

和

关于

不条件独立，且

那么将子图

置为汇聚结构

直到不再有满足条件的子图并得到一个图G′；

第五步，在不产生新的汇聚结构的条件下，将G′中所有无向边置为有向边，得到polytree的图结构G；

第六步，计算G中每个节点v在其父节点pa(v)条件下的条件概率

并得到条件概率集合P，最终得到完整的党建大数据polytree模型(G,P)。

附图说明

图1. 构建党建数据polytree模型的过程；

具体实施方式

以下结合附图1，对依据本发明提供的具体实施方式，详细说明如下。

第一步，对每个党建工作文本进行量化，具体为：

1.1、对n个党建工作文本集合

提取m个党建工作关键词集

表示关键词

出现在文档中，

表示关键词

不出现在文档中；例如

表示

出现且

不出现的关键字组合，

表示关键词

出现但

不出现的文档频度；

假设n=100时，统计到的某两个词

和

的文档频度为

第二步，对

中任意党建工作关键词

定义

用卡方检验(chi-square test)进行判定

和

是否相互独立；用相关度

定量度量

和

之间的直接相关关系，如果

和

相互独立，则

0，否则

例如，如果两个词α和β的文档频度分别是第一步中计算的结果，那么

第三步，建立m个节点的最大权生成树T，具体为

3.1、将

中的每一个党建工作关键词抽象为T中的一个节点；

3.2、从大到小考察两两词间相关度

如果不产生环路则在T中加一条无向边

否则放弃该

直到T中有

条边或者

图1（左）所示为一个最大权生成树T；

第四步，对T中子图

如果

则不能确定有向边；检查子图

如果

和

关于

不条件独立且

则将

置为汇聚结构

同理检查其它满足条件的子图；图1(中)所示的图G′就是一个可能的结构；

第五步，在不产生新的汇聚结构的条件下，将G′中所有无向边置为有向边，例如置

同样置

然而不能置

为这样将产生新的汇聚结构

按照这样的原则，最后可以得到polytree的图结构G；

第六步，计算G中每个节点v在其父节点pa(v)条件下的条件概率

并得到条件概率集合P，最后得到完整polyree模型(G,P)，如图1(右)所示。

最大权生成树T 部分有向图G′ 完整polyree模型(G,P)

图1. 构建党建数据polytree模型的过程