CN107562854A - 一种定量分析党建数据的建模方法 - Google Patents

一种定量分析党建数据的建模方法 Download PDF

Info

Publication number
CN107562854A
CN107562854A CN201710751678.7A CN201710751678A CN107562854A CN 107562854 A CN107562854 A CN 107562854A CN 201710751678 A CN201710751678 A CN 201710751678A CN 107562854 A CN107562854 A CN 107562854A
Authority
CN
China
Prior art keywords
party
developing
work
keyword
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710751678.7A
Other languages
English (en)
Other versions
CN107562854B (zh
Inventor
李维华
王兵益
郭延哺
王顺芳
何敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan University YNU
Original Assignee
Yunnan University YNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan University YNU filed Critical Yunnan University YNU
Priority to CN201710751678.7A priority Critical patent/CN107562854B/zh
Publication of CN107562854A publication Critical patent/CN107562854A/zh
Application granted granted Critical
Publication of CN107562854B publication Critical patent/CN107562854B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种定量分析党建数据的建模方法。本发明首先提取党建工作文本中的党建工作关键词,对两两党建工作关键词之间的相关关系给出定量度量,然后将党建工作关键词抽象为polytree模型的节点,根据两两党建工作关键词之间的相关关系确定模型的有向边,再确定模型的条件概率参数。本发明给出党建工作关键词之间相关关系的定量度量方法,并用polytree模型为所有党建工作关键词之间的相关关系提供直观的建模,为进一步分析党建大数据提供支持。

Description

一种定量分析党建数据的建模方法
技术领域
本发明属于数据挖掘技术领域,涉及一种定量分析党建数据的建模方法。
背景技术
党建工作是抓好党员队伍的根本保障,也是做好一切工作的根本保障,提高党建工作科学化水平是目前党建工作的一项重要任务。在党建工作开展的过程中,产生海量的党建数据,包括思想建设数据、组织建设数据、作风建设数据和制度建设数据等等,对党建大数据进行智能化管理和有效分析成为一个迫切需求。对党建大数据进行定量建模以及关联分析,并研究有效的分析挖掘方法,是有效分析党建大数据的关键,也是提高党建科学化水平的基础。polytree模型是一种简单的不确定性知识表示和推理的概率图模型,不仅可以捕捉数据间定量的不确定性关系,同时还为党建工作的定量分析提供高效的推理机制。本发明用polytree模型对党建工作进行定量建模,通过定量度量党建工作关键词之间的相关关系,提供一种挖掘全局相关关系的建模手段,为党建文本分析和党建工作分析提供支持,也为提高党建科学化水平提供技术支持。
发明内容
针对党建工作中产生的海量数据,本发明为挖掘党建数据全局相关关系提供一种有效的建模方法,为党建工作大数据分析提供支持。该方法主要包括以下步骤:
第一步,对每个党建工作文本进行量化,具体为:
1.1、对n个党建工作文本集合D={d 1,d 2,…,d n },提取m个党建工作关键词集W={w 1,w 2,…,w m };
1.2、定义文档频度函数f(x),其中x表示文档中出现的和不出现的关键字组合序列,对党建工作关键词αWα 1表示关键词α出现在文档中,α 0表示关键词α不出现在文档中;例如表示α出现且β不出现的关键字组合,f(α 1,β 0)表示关键词α出现但β不出现的文档频度;
第二步,对W中任意党建工作关键词αβγ,定义,用卡方检验(chi-square test)进行判定αβ是否相互独立;用相关度定量度量αβ之间的直接相关关系,如果αβ相互独立,则,否则
第三步,建立m个节点的最大权生成树T
3.1、将W={w 1,w 2,…,w m }中的每一个党建工作关键词抽象为T中的一个节点;
3.2、从大到小考察两两词间相关度,如果不产生环路则在T中加一条无向边αβ,否则放弃该,直到T中有m-1条边或者为止;
第四步,对T中子图αγβ,计算,用卡方检验(chi-square test)进行判定αβ是否关于γ条件独立;如果αβ关于γ不条件独立,且,那么将子图αγβ置为汇聚结构αγβ,直到不再有满足条件的子图并得到一个图G′;
第五步,在不产生新的汇聚结构的条件下,将G′中所有无向边置为有向边,得到polytree的图结构G
第六步,计算G中每个节点v在其父节点pa(v)条件下的条件概率,并得到条件概率集合P,最终得到完整的党建大数据polytree模型(G,P)。
附图说明
图1. 构建党建数据polytree模型的过程;
具体实施方式
以下结合附图1,对依据本发明提供的具体实施方式,详细说明如下。
第一步,对每个党建工作文本进行量化,具体为:
1.1、对n个党建工作文本集合D={d 1,d 2,…,d n },提取m个党建工作关键词集W={w 1,w 2,…,w m };
1.2、定义文档频度函数f(x),其中x表示文档中出现的和不出现的关键字组合序列,对党建工作关键词αWα 1表示关键词α出现在文档中,α 0表示关键词α不出现在文档中;例如表示α出现且β不出现的关键字组合,f(α 1,β 0)表示关键词α出现但β不出现的文档频度;
假设n=100时,统计到的某两个词αβ的文档频度为f(α 1,β 1)=20,f(α 1,β 0)=20,f(α 0,β 1)=10,f(α 0,β 0)=50,f(α 1)=40,f(α 0)=60,f(β 1)=30,f(β 0)=70。
第二步,对W中任意党建工作关键词αβγ,定义,用卡方检验(chi-square test)进行判定αβ是否相互独立;用相关度定量度量αβ之间的直接相关关系,如果αβ相互独立,则,否则
例如,如果两个词αβ的文档频度分别是第一步中计算的结果,那么
=0.063;
第三步,建立m个节点的最大权生成树T,具体为
3.1、将W={w 1,w 2,…,w m }中的每一个党建工作关键词抽象为T中的一个节点;
3.2、从大到小考察两两词间相关度,如果不产生环路则在T中加一条无向边αβ,否则放弃该,直到T中有m-1条边或者;图1(左)所示为一个最大权生成树T
第四步,对T中子图w 1w 2w 4,如果,则不能确定有向边;检查子图w 3w 4w 2,如果w 2w 3关于w 4不条件独立且,则将w 3w 4w 2置为汇聚结构w 3w 4w 2;同理检查其它满足条件的子图;图1(中)所示的图G′就是一个可能的结构;
第五步,在不产生新的汇聚结构的条件下,将G′中所有无向边置为有向边,例如置w 1w 2,或w 1w 2;同样置w 4w 6;然而不能置w 4w 6,因为这样将产生新的汇聚结构w 2w 4w 6;按照这样的原则,最后可以得到polytree的图结构G
第六步,计算G中每个节点v在其父节点pa(v)条件下的条件概率,并得到条件概率集合P,最后得到完整polyree模型(G,P),如图1(右)所示。

Claims (1)

1.一种定量分析党建数据的建模方法,该方法的特征在于包括以下步骤:
步骤一:量化每个党建工作文本
1.1、对n个党建工作文本集合D={d 1,d 2,…,d n },提取m个党建工作关键词集W={w 1,w 2,…,w m };
1.2、定义文档频度函数f(x),其中x表示文档中出现的和不出现的关键字组合序列,对党建工作关键词αWα 1表示关键词α出现在文档中,α 0表示关键词α不出现在文档中;
步骤二:对W中任意党建工作关键词αβγ,定义,用卡方检验(chi-square test)进行判定αβ是否相互独立;用相关度定量度量αβ之间的直接相关关系,如果αβ相互独立,则,否则
步骤三:建立m个节点的最大权生成树T
3.1、将W={w 1,w 2,…,w m }中的每一个党建工作关键词抽象为T中的一个节点;
3.2、从大到小考察相关度,如果不产生环路则在T中加一条无向边αβ,否则放弃该,直到T中有m-1条边或者
步骤四:对T中子图αγβ,计算,用卡方检验(chi-square test)进行判定αβ是否关于γ条件独立;如果αβ关于γ不条件独立,且,那么将子图αγβ置为汇聚结构αγβ,直到不再有满足条件的子图并得到一个图G′;
步骤五:在不产生新的汇聚结构的条件下,将G′中所有无向边置为有向边,得到polytree的图结构G
步骤六:计算G中每个节点v在其父节点pa(v)条件下的条件概率,并得到条件概率集合P,最终得到完整的党建数据polytree模型(G,P)。
CN201710751678.7A 2017-08-28 2017-08-28 一种定量分析党建数据的建模方法 Active CN107562854B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710751678.7A CN107562854B (zh) 2017-08-28 2017-08-28 一种定量分析党建数据的建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710751678.7A CN107562854B (zh) 2017-08-28 2017-08-28 一种定量分析党建数据的建模方法

Publications (2)

Publication Number Publication Date
CN107562854A true CN107562854A (zh) 2018-01-09
CN107562854B CN107562854B (zh) 2020-09-22

Family

ID=60977304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710751678.7A Active CN107562854B (zh) 2017-08-28 2017-08-28 一种定量分析党建数据的建模方法

Country Status (1)

Country Link
CN (1) CN107562854B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049569A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 基于向量空间模型的文本相似性匹配方法
US20160224564A1 (en) * 2013-09-29 2016-08-04 Peking University Founder Group Co., Ltd. Method and system for key knowledge point recommendation
CN106598999A (zh) * 2015-10-19 2017-04-26 北京国双科技有限公司 一种计算文本主题归属度的方法及装置
CN106844328A (zh) * 2016-08-23 2017-06-13 华南师范大学 一种新型大规模文档主题语义分析方法及***
CN106874695A (zh) * 2017-03-22 2017-06-20 北京大数医达科技有限公司 医疗知识图谱的构建方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049569A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 基于向量空间模型的文本相似性匹配方法
US20160224564A1 (en) * 2013-09-29 2016-08-04 Peking University Founder Group Co., Ltd. Method and system for key knowledge point recommendation
CN106598999A (zh) * 2015-10-19 2017-04-26 北京国双科技有限公司 一种计算文本主题归属度的方法及装置
CN106844328A (zh) * 2016-08-23 2017-06-13 华南师范大学 一种新型大规模文档主题语义分析方法及***
CN106874695A (zh) * 2017-03-22 2017-06-20 北京大数医达科技有限公司 医疗知识图谱的构建方法和装置

Also Published As

Publication number Publication date
CN107562854B (zh) 2020-09-22

Similar Documents

Publication Publication Date Title
Akbar et al. Real-time probabilistic data fusion for large-scale IoT applications
Yang et al. A system architecture for manufacturing process analysis based on big data and process mining techniques
Liu et al. Weighted graph clustering for community detection of large social networks
Campbell et al. Social network analysis with content and graphs
CN106940679A (zh) 数据处理方法及装置
Xu et al. Modeling and representation for earthquake emergency response knowledge: perspective for working with geo-ontology
CN103116574B (zh) 从自然语言文本挖掘领域过程本体的方法
Farasat et al. Social network analysis with data fusion
Bae et al. Scalable flow-based community detection for large-scale network analysis
Zheng et al. Application of data mining technology in alarm analysis of communication network
CN105574541A (zh) 一种基于紧密度排序的网络社区发现方法
CN104750499A (zh) 基于约束求解和描述逻辑的Web服务组合方法
CN104182489A (zh) 一种文本大数据的查询处理方法
Mouronte-López Modeling the public transport networks: A study of their efficiency
CN103577899A (zh) 一种基于可靠性预测与QoS相结合的服务组合方法
CN110352417A (zh) 本体构建辅助装置
CN107562854A (zh) 一种定量分析党建数据的建模方法
da F. Vieira et al. Modularity based hierarchical community detection in networks
Kim et al. Construction of disaster knowledge graphs to enhance disaster resilience
CN105608160A (zh) 一种分布式大数据分析方法
Trovati et al. An analytical tool to map big data to networks with reduced topologies
CN104660697B (zh) 基于Kepler科学工作流传感网服务组合方法
Kim et al. Social network visualization method using inherence relationship of user based on cloud
CN105022798A (zh) 一种基于预测关系的离散贝叶斯网络分类数据挖掘方法
Cheng et al. Smart Home Service Experience Strategic Foresight Using the Social Network Analysis and Future Triangle

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant