CN107562854A - 一种定量分析党建数据的建模方法 - Google Patents
一种定量分析党建数据的建模方法 Download PDFInfo
- Publication number
- CN107562854A CN107562854A CN201710751678.7A CN201710751678A CN107562854A CN 107562854 A CN107562854 A CN 107562854A CN 201710751678 A CN201710751678 A CN 201710751678A CN 107562854 A CN107562854 A CN 107562854A
- Authority
- CN
- China
- Prior art keywords
- party
- developing
- work
- keyword
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种定量分析党建数据的建模方法。本发明首先提取党建工作文本中的党建工作关键词,对两两党建工作关键词之间的相关关系给出定量度量,然后将党建工作关键词抽象为polytree模型的节点,根据两两党建工作关键词之间的相关关系确定模型的有向边,再确定模型的条件概率参数。本发明给出党建工作关键词之间相关关系的定量度量方法,并用polytree模型为所有党建工作关键词之间的相关关系提供直观的建模,为进一步分析党建大数据提供支持。
Description
技术领域
本发明属于数据挖掘技术领域,涉及一种定量分析党建数据的建模方法。
背景技术
党建工作是抓好党员队伍的根本保障,也是做好一切工作的根本保障,提高党建工作科学化水平是目前党建工作的一项重要任务。在党建工作开展的过程中,产生海量的党建数据,包括思想建设数据、组织建设数据、作风建设数据和制度建设数据等等,对党建大数据进行智能化管理和有效分析成为一个迫切需求。对党建大数据进行定量建模以及关联分析,并研究有效的分析挖掘方法,是有效分析党建大数据的关键,也是提高党建科学化水平的基础。polytree模型是一种简单的不确定性知识表示和推理的概率图模型,不仅可以捕捉数据间定量的不确定性关系,同时还为党建工作的定量分析提供高效的推理机制。本发明用polytree模型对党建工作进行定量建模,通过定量度量党建工作关键词之间的相关关系,提供一种挖掘全局相关关系的建模手段,为党建文本分析和党建工作分析提供支持,也为提高党建科学化水平提供技术支持。
发明内容
针对党建工作中产生的海量数据,本发明为挖掘党建数据全局相关关系提供一种有效的建模方法,为党建工作大数据分析提供支持。该方法主要包括以下步骤:
第一步,对每个党建工作文本进行量化,具体为:
1.1、对n个党建工作文本集合D={d 1,d 2,…,d n },提取m个党建工作关键词集W={w 1,w 2,…,w m };
1.2、定义文档频度函数f(x),其中x表示文档中出现的和不出现的关键字组合序列,对党建工作关键词α∈W,α 1表示关键词α出现在文档中,α 0表示关键词α不出现在文档中;例如表示α出现且β不出现的关键字组合,f(α 1,β 0)表示关键词α出现但β不出现的文档频度;
第二步,对W中任意党建工作关键词α、β和γ,定义,用卡方检验(chi-square test)进行判定α和β是否相互独立;用相关度定量度量α和β之间的直接相关关系,如果α和β相互独立,则,否则;
第三步,建立m个节点的最大权生成树T
3.1、将W={w 1,w 2,…,w m }中的每一个党建工作关键词抽象为T中的一个节点;
3.2、从大到小考察两两词间相关度,如果不产生环路则在T中加一条无向边α―β,否则放弃该,直到T中有m-1条边或者为止;
第四步,对T中子图α―γ―β,计算,用卡方检验(chi-square test)进行判定α和β是否关于γ条件独立;如果α和β关于γ不条件独立,且,那么将子图α―γ―β置为汇聚结构α→γ←β,直到不再有满足条件的子图并得到一个图G′;
第五步,在不产生新的汇聚结构的条件下,将G′中所有无向边置为有向边,得到polytree的图结构G;
第六步,计算G中每个节点v在其父节点pa(v)条件下的条件概率,并得到条件概率集合P,最终得到完整的党建大数据polytree模型(G,P)。
附图说明
图1. 构建党建数据polytree模型的过程;
具体实施方式
以下结合附图1,对依据本发明提供的具体实施方式,详细说明如下。
第一步,对每个党建工作文本进行量化,具体为:
1.1、对n个党建工作文本集合D={d 1,d 2,…,d n },提取m个党建工作关键词集W={w 1,w 2,…,w m };
1.2、定义文档频度函数f(x),其中x表示文档中出现的和不出现的关键字组合序列,对党建工作关键词α∈W,α 1表示关键词α出现在文档中,α 0表示关键词α不出现在文档中;例如表示α出现且β不出现的关键字组合,f(α 1,β 0)表示关键词α出现但β不出现的文档频度;
假设n=100时,统计到的某两个词α和β的文档频度为f(α 1,β 1)=20,f(α 1,β 0)=20,f(α 0,β 1)=10,f(α 0,β 0)=50,f(α 1)=40,f(α 0)=60,f(β 1)=30,f(β 0)=70。
第二步,对W中任意党建工作关键词α、β和γ,定义,用卡方检验(chi-square test)进行判定α和β是否相互独立;用相关度定量度量α和β之间的直接相关关系,如果α和β相互独立,则,否则;
例如,如果两个词α和β的文档频度分别是第一步中计算的结果,那么
=0.063;
第三步,建立m个节点的最大权生成树T,具体为
3.1、将W={w 1,w 2,…,w m }中的每一个党建工作关键词抽象为T中的一个节点;
3.2、从大到小考察两两词间相关度,如果不产生环路则在T中加一条无向边α―β,否则放弃该,直到T中有m-1条边或者;图1(左)所示为一个最大权生成树T;
第四步,对T中子图w 1―w 2―w 4,如果,则不能确定有向边;检查子图w 3―w 4―w 2,如果w 2和w 3关于w 4不条件独立且,则将w 3―w 4―w 2置为汇聚结构w 3→w 4←w 2;同理检查其它满足条件的子图;图1(中)所示的图G′就是一个可能的结构;
第五步,在不产生新的汇聚结构的条件下,将G′中所有无向边置为有向边,例如置w 1→w 2,或w 1→w 2;同样置w 4→w 6;然而不能置w 4←w 6,因为这样将产生新的汇聚结构w 2→w 4←w 6;按照这样的原则,最后可以得到polytree的图结构G;
第六步,计算G中每个节点v在其父节点pa(v)条件下的条件概率,并得到条件概率集合P,最后得到完整polyree模型(G,P),如图1(右)所示。
Claims (1)
1.一种定量分析党建数据的建模方法,该方法的特征在于包括以下步骤:
步骤一:量化每个党建工作文本
1.1、对n个党建工作文本集合D={d 1,d 2,…,d n },提取m个党建工作关键词集W={w 1,w 2,…,w m };
1.2、定义文档频度函数f(x),其中x表示文档中出现的和不出现的关键字组合序列,对党建工作关键词α∈W,α 1表示关键词α出现在文档中,α 0表示关键词α不出现在文档中;
步骤二:对W中任意党建工作关键词α、β和γ,定义,用卡方检验(chi-square test)进行判定α和β是否相互独立;用相关度定量度量α和β之间的直接相关关系,如果α和β相互独立,则,否则;
步骤三:建立m个节点的最大权生成树T
3.1、将W={w 1,w 2,…,w m }中的每一个党建工作关键词抽象为T中的一个节点;
3.2、从大到小考察相关度,如果不产生环路则在T中加一条无向边α―β,否则放弃该,直到T中有m-1条边或者;
步骤四:对T中子图α―γ―β,计算,用卡方检验(chi-square test)进行判定α和β是否关于γ条件独立;如果α和β关于γ不条件独立,且,那么将子图α―γ―β置为汇聚结构α→γ←β,直到不再有满足条件的子图并得到一个图G′;
步骤五:在不产生新的汇聚结构的条件下,将G′中所有无向边置为有向边,得到polytree的图结构G;
步骤六:计算G中每个节点v在其父节点pa(v)条件下的条件概率,并得到条件概率集合P,最终得到完整的党建数据polytree模型(G,P)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710751678.7A CN107562854B (zh) | 2017-08-28 | 2017-08-28 | 一种定量分析党建数据的建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710751678.7A CN107562854B (zh) | 2017-08-28 | 2017-08-28 | 一种定量分析党建数据的建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107562854A true CN107562854A (zh) | 2018-01-09 |
CN107562854B CN107562854B (zh) | 2020-09-22 |
Family
ID=60977304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710751678.7A Active CN107562854B (zh) | 2017-08-28 | 2017-08-28 | 一种定量分析党建数据的建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107562854B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049569A (zh) * | 2012-12-31 | 2013-04-17 | 武汉传神信息技术有限公司 | 基于向量空间模型的文本相似性匹配方法 |
US20160224564A1 (en) * | 2013-09-29 | 2016-08-04 | Peking University Founder Group Co., Ltd. | Method and system for key knowledge point recommendation |
CN106598999A (zh) * | 2015-10-19 | 2017-04-26 | 北京国双科技有限公司 | 一种计算文本主题归属度的方法及装置 |
CN106844328A (zh) * | 2016-08-23 | 2017-06-13 | 华南师范大学 | 一种新型大规模文档主题语义分析方法及*** |
CN106874695A (zh) * | 2017-03-22 | 2017-06-20 | 北京大数医达科技有限公司 | 医疗知识图谱的构建方法和装置 |
-
2017
- 2017-08-28 CN CN201710751678.7A patent/CN107562854B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049569A (zh) * | 2012-12-31 | 2013-04-17 | 武汉传神信息技术有限公司 | 基于向量空间模型的文本相似性匹配方法 |
US20160224564A1 (en) * | 2013-09-29 | 2016-08-04 | Peking University Founder Group Co., Ltd. | Method and system for key knowledge point recommendation |
CN106598999A (zh) * | 2015-10-19 | 2017-04-26 | 北京国双科技有限公司 | 一种计算文本主题归属度的方法及装置 |
CN106844328A (zh) * | 2016-08-23 | 2017-06-13 | 华南师范大学 | 一种新型大规模文档主题语义分析方法及*** |
CN106874695A (zh) * | 2017-03-22 | 2017-06-20 | 北京大数医达科技有限公司 | 医疗知识图谱的构建方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107562854B (zh) | 2020-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Akbar et al. | Real-time probabilistic data fusion for large-scale IoT applications | |
Yang et al. | A system architecture for manufacturing process analysis based on big data and process mining techniques | |
Liu et al. | Weighted graph clustering for community detection of large social networks | |
Campbell et al. | Social network analysis with content and graphs | |
CN106940679A (zh) | 数据处理方法及装置 | |
Xu et al. | Modeling and representation for earthquake emergency response knowledge: perspective for working with geo-ontology | |
CN103116574B (zh) | 从自然语言文本挖掘领域过程本体的方法 | |
Farasat et al. | Social network analysis with data fusion | |
Bae et al. | Scalable flow-based community detection for large-scale network analysis | |
Zheng et al. | Application of data mining technology in alarm analysis of communication network | |
CN105574541A (zh) | 一种基于紧密度排序的网络社区发现方法 | |
CN104750499A (zh) | 基于约束求解和描述逻辑的Web服务组合方法 | |
CN104182489A (zh) | 一种文本大数据的查询处理方法 | |
Mouronte-López | Modeling the public transport networks: A study of their efficiency | |
CN103577899A (zh) | 一种基于可靠性预测与QoS相结合的服务组合方法 | |
CN110352417A (zh) | 本体构建辅助装置 | |
CN107562854A (zh) | 一种定量分析党建数据的建模方法 | |
da F. Vieira et al. | Modularity based hierarchical community detection in networks | |
Kim et al. | Construction of disaster knowledge graphs to enhance disaster resilience | |
CN105608160A (zh) | 一种分布式大数据分析方法 | |
Trovati et al. | An analytical tool to map big data to networks with reduced topologies | |
CN104660697B (zh) | 基于Kepler科学工作流传感网服务组合方法 | |
Kim et al. | Social network visualization method using inherence relationship of user based on cloud | |
CN105022798A (zh) | 一种基于预测关系的离散贝叶斯网络分类数据挖掘方法 | |
Cheng et al. | Smart Home Service Experience Strategic Foresight Using the Social Network Analysis and Future Triangle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |