CN107562854B - 一种定量分析党建数据的建模方法 - Google Patents

一种定量分析党建数据的建模方法 Download PDF

Info

Publication number
CN107562854B
CN107562854B CN201710751678.7A CN201710751678A CN107562854B CN 107562854 B CN107562854 B CN 107562854B CN 201710751678 A CN201710751678 A CN 201710751678A CN 107562854 B CN107562854 B CN 107562854B
Authority
CN
China
Prior art keywords
party building
party
work
keywords
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710751678.7A
Other languages
English (en)
Other versions
CN107562854A (zh
Inventor
李维华
王兵益
郭延哺
王顺芳
何敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan University YNU
Original Assignee
Yunnan University YNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan University YNU filed Critical Yunnan University YNU
Priority to CN201710751678.7A priority Critical patent/CN107562854B/zh
Publication of CN107562854A publication Critical patent/CN107562854A/zh
Application granted granted Critical
Publication of CN107562854B publication Critical patent/CN107562854B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种定量分析党建数据的建模方法。本发明首先提取党建工作文本中的党建工作关键词,对两两党建工作关键词之间的相关关系给出定量度量,然后将党建工作关键词抽象为polytree模型的节点,根据两两党建工作关键词之间的相关关系确定模型的有向边,再确定模型的条件概率参数。本发明给出党建工作关键词之间相关关系的定量度量方法,并用polytree模型为所有党建工作关键词之间的相关关系提供直观的建模,为进一步分析党建大数据提供支持。

Description

一种定量分析党建数据的建模方法
技术领域
本发明属于数据挖掘技术领域,涉及一种定量分析党建数据的建模方法。
背景技术
党建工作是抓好党员队伍的根本保障,也是做好一切工作的根本保障,提高党建工作科学化水平是目前党建工作的一项重要任务。在党建工作开展的过程中,产生海量的党建数据,包括思想建设数据、组织建设数据、作风建设数据和制度建设数据等等,对党建大数据进行智能化管理和有效分析成为一个迫切需求。对党建大数据进行定量建模以及关联分析,并研究有效的分析挖掘方法,是有效分析党建大数据的关键,也是提高党建科学化水平的基础。polytree模型是一种简单的不确定性知识表示和推理的概率图模型,不仅可以捕捉数据间定量的不确定性关系,同时还为党建工作的定量分析提供高效的推理机制。本发明用polytree模型对党建工作进行定量建模,通过定量度量党建工作关键词之间的相关关系,提供一种挖掘全局相关关系的建模手段,为党建文本分析和党建工作分析提供支持,也为提高党建科学化水平提供技术支持。
发明内容
针对党建工作中产生的海量数据,本发明为挖掘党建数据全局相关关系提供一种有效的建模方法,为党建工作大数据分析提供支持。该方法主要包括以下步骤:
第一步,对每个党建工作文本进行量化,具体为:
1.1、对n个党建工作文本集合
Figure 789526DEST_PATH_IMAGE001
提取m个党建工作关键词集
Figure 54285DEST_PATH_IMAGE002
1.2、定义文档频度函数f(x),其中x表示文档中出现的和不出现的关键字组合序列,对党建工作关键词
Figure 338636DEST_PATH_IMAGE003
表示关键词
Figure 688846DEST_PATH_IMAGE004
出现在文档中,
Figure 388949DEST_PATH_IMAGE005
表示关键词
Figure 6750DEST_PATH_IMAGE004
不出现在文档中;例如
Figure 399685DEST_PATH_IMAGE006
表示
Figure 237191DEST_PATH_IMAGE004
出现且
Figure 740984DEST_PATH_IMAGE007
不出现的关键字组合,
Figure 216222DEST_PATH_IMAGE008
表示关键词
Figure 780058DEST_PATH_IMAGE004
出现但
Figure 104860DEST_PATH_IMAGE007
不出现的文档频度;
第二步,对
Figure 772864DEST_PATH_IMAGE009
中任意党建工作关键词
Figure 866722DEST_PATH_IMAGE010
定义
Figure 601460DEST_PATH_IMAGE011
Figure 646514DEST_PATH_IMAGE012
用卡方检验(chi-square test)进行判定
Figure 757689DEST_PATH_IMAGE013
Figure 706054DEST_PATH_IMAGE014
是否相互独立;用相关度
Figure 611693DEST_PATH_IMAGE015
定量度量
Figure 146973DEST_PATH_IMAGE013
Figure 530681DEST_PATH_IMAGE014
之间的直接相关关系,如果
Figure 599131DEST_PATH_IMAGE013
Figure 675671DEST_PATH_IMAGE014
相互独立,则
Figure 695318DEST_PATH_IMAGE016
0,否则
Figure 882717DEST_PATH_IMAGE017
第三步,建立m个节点的最大权生成树T
3.1、将
Figure 805673DEST_PATH_IMAGE018
中的每一个党建工作关键词抽象为T中的一个节点;
3.2、从大到小考察两两词间相关度
Figure 53115DEST_PATH_IMAGE019
如果不产生环路则在T中加一条无向边
Figure 551268DEST_PATH_IMAGE020
否则放弃该
Figure 542358DEST_PATH_IMAGE021
直到T中有
Figure 319821DEST_PATH_IMAGE022
条边或者
Figure 738164DEST_PATH_IMAGE023
为止;
第四步,对T中子图
Figure 466824DEST_PATH_IMAGE024
计算
Figure 261604DEST_PATH_IMAGE025
用卡方检验(chi-square test)进行判定
Figure 893574DEST_PATH_IMAGE013
Figure 482818DEST_PATH_IMAGE014
是否关于
Figure 528135DEST_PATH_IMAGE026
条件独立;如果
Figure 362492DEST_PATH_IMAGE013
Figure 848968DEST_PATH_IMAGE014
关于
Figure 874693DEST_PATH_IMAGE026
不条件独立,且
Figure 79409DEST_PATH_IMAGE027
那么将子图
Figure 448948DEST_PATH_IMAGE028
置为汇聚结构
Figure 55510DEST_PATH_IMAGE029
直到不再有满足条件的子图并得到一个图G′;
第五步,在不产生新的汇聚结构的条件下,将G′中所有无向边置为有向边,得到polytree的图结构G
第六步,计算G中每个节点v在其父节点pa(v)条件下的条件概率
Figure 252136DEST_PATH_IMAGE030
并得到条件概率集合P,最终得到完整的党建大数据polytree模型(G,P)。
附图说明
图1. 构建党建数据polytree模型的过程;
具体实施方式
以下结合附图1,对依据本发明提供的具体实施方式,详细说明如下。
第一步,对每个党建工作文本进行量化,具体为:
1.1、对n个党建工作文本集合
Figure 678570DEST_PATH_IMAGE031
提取m个党建工作关键词集
Figure 120309DEST_PATH_IMAGE032
1.2、定义文档频度函数f(x),其中x表示文档中出现的和不出现的关键字组合序列,对党建工作关键词
Figure 581377DEST_PATH_IMAGE033
表示关键词
Figure 683325DEST_PATH_IMAGE013
出现在文档中,
Figure 862634DEST_PATH_IMAGE034
表示关键词
Figure 839555DEST_PATH_IMAGE013
不出现在文档中;例如
Figure 155130DEST_PATH_IMAGE035
表示
Figure 693558DEST_PATH_IMAGE013
出现且
Figure 94584DEST_PATH_IMAGE036
不出现的关键字组合,
Figure 878125DEST_PATH_IMAGE037
表示关键词
Figure 376103DEST_PATH_IMAGE038
出现但
Figure 819854DEST_PATH_IMAGE036
不出现的文档频度;
假设n=100时,统计到的某两个词
Figure 973754DEST_PATH_IMAGE038
Figure 793943DEST_PATH_IMAGE036
的文档频度为
Figure 582645DEST_PATH_IMAGE039
Figure 197297DEST_PATH_IMAGE040
第二步,对
Figure 572915DEST_PATH_IMAGE041
中任意党建工作关键词
Figure 196794DEST_PATH_IMAGE042
定义
Figure 854651DEST_PATH_IMAGE043
Figure 781150DEST_PATH_IMAGE044
用卡方检验(chi-square test)进行判定
Figure 142599DEST_PATH_IMAGE038
Figure 304590DEST_PATH_IMAGE036
是否相互独立;用相关度
Figure 507033DEST_PATH_IMAGE045
定量度量
Figure 230531DEST_PATH_IMAGE038
Figure 315162DEST_PATH_IMAGE036
之间的直接相关关系,如果
Figure 218527DEST_PATH_IMAGE038
Figure 836328DEST_PATH_IMAGE036
相互独立,则
Figure 229263DEST_PATH_IMAGE046
0,否则
Figure 4452DEST_PATH_IMAGE047
例如,如果两个词α和β的文档频度分别是第一步中计算的结果,那么
Figure 9711DEST_PATH_IMAGE048
第三步,建立m个节点的最大权生成树T,具体为
3.1、将
Figure 983483DEST_PATH_IMAGE049
中的每一个党建工作关键词抽象为T中的一个节点;
3.2、从大到小考察两两词间相关度
Figure 547320DEST_PATH_IMAGE050
如果不产生环路则在T中加一条无向边
Figure 606542DEST_PATH_IMAGE051
否则放弃该
Figure 976344DEST_PATH_IMAGE052
直到T中有
Figure 568737DEST_PATH_IMAGE053
条边或者
Figure 303475DEST_PATH_IMAGE054
图1(左)所示为一个最大权生成树T;
第四步,对T中子图
Figure 849994DEST_PATH_IMAGE055
如果
Figure 695590DEST_PATH_IMAGE056
则不能确定有向边;检查子图
Figure 145419DEST_PATH_IMAGE057
如果
Figure 51058DEST_PATH_IMAGE058
Figure 84873DEST_PATH_IMAGE059
关于
Figure 734161DEST_PATH_IMAGE060
不条件独立且
Figure 301146DEST_PATH_IMAGE061
Figure 377686DEST_PATH_IMAGE062
则将
Figure 633218DEST_PATH_IMAGE063
置为汇聚结构
Figure 513626DEST_PATH_IMAGE064
同理检查其它满足条件的子图;图1(中)所示的图G′就是一个可能的结构;
第五步,在不产生新的汇聚结构的条件下,将G′中所有无向边置为有向边,例如置
Figure 498899DEST_PATH_IMAGE065
Figure 746341DEST_PATH_IMAGE066
同样置
Figure 489169DEST_PATH_IMAGE067
然而不能置
Figure 480259DEST_PATH_IMAGE068
为这样将产生新的汇聚结构
Figure 756257DEST_PATH_IMAGE069
Figure 174600DEST_PATH_IMAGE070
按照这样的原则,最后可以得到polytree的图结构G;
第六步,计算G中每个节点v在其父节点pa(v)条件下的条件概率
Figure 670303DEST_PATH_IMAGE071
并得到条件概率集合P,最后得到完整polyree模型(G,P),如图1(右)所示。
Figure 199505DEST_PATH_IMAGE073
最大权生成树T 部分有向图G′ 完整polyree模型(G,P)
图1. 构建党建数据polytree模型的过程

Claims (1)

1.一种定量分析党建数据的建模方法,该方法的特征在于包括以下步骤:
步骤一:量化每个党建工作文本
1.1、对n个党建工作文本集合
Figure DEST_PATH_IMAGE001
提取m个党建工作关键词集
Figure 370142DEST_PATH_IMAGE002
1.2、定义文档频度函数f(x),表示满足关键词条件x的党建工作文本数量;其中x由文本中出现的关键词条件和不出现的关键词条件组合而成,对党建工作关键词
Figure DEST_PATH_IMAGE003
Figure 378416DEST_PATH_IMAGE004
表示关键词
Figure DEST_PATH_IMAGE005
出现在党建工作文本中,用
Figure 620042DEST_PATH_IMAGE006
表示关键词
Figure 957482DEST_PATH_IMAGE005
不出现在党建工作文本中;
步骤二:对
Figure DEST_PATH_IMAGE007
中任意党建工作关键词
Figure 725587DEST_PATH_IMAGE008
定义
Figure DEST_PATH_IMAGE009
Figure 60753DEST_PATH_IMAGE010
用卡方检验(chi-square test)进行判定
Figure 789675DEST_PATH_IMAGE005
Figure DEST_PATH_IMAGE011
是否相互独立;用相关度
Figure 868490DEST_PATH_IMAGE012
定量度量
Figure 930249DEST_PATH_IMAGE005
Figure 701896DEST_PATH_IMAGE011
之间的直接相关关系,如果
Figure 714851DEST_PATH_IMAGE005
Figure 597356DEST_PATH_IMAGE011
相互独立,
Figure DEST_PATH_IMAGE013
Figure 12157DEST_PATH_IMAGE014
否则
Figure DEST_PATH_IMAGE015
步骤三:建立m个节点的最大权生成树T
3.1、将
Figure 954705DEST_PATH_IMAGE016
中的每一个党建工作关键词抽象为T中的一个节点;
3.2、 从大到小考察相关度
Figure DEST_PATH_IMAGE017
如果不产生环路则在T中加一条无向边
Figure 454957DEST_PATH_IMAGE018
Figure 875574DEST_PATH_IMAGE011
,否则放弃该
Figure DEST_PATH_IMAGE019
直到T中有
Figure 908996DEST_PATH_IMAGE020
条边或者
Figure DEST_PATH_IMAGE021
步骤四:对T中子图
Figure 84762DEST_PATH_IMAGE022
计算
Figure DEST_PATH_IMAGE023
用卡方检验(chi-square test)进行判定
Figure 72310DEST_PATH_IMAGE005
Figure 296618DEST_PATH_IMAGE011
是否关于
Figure 420431DEST_PATH_IMAGE024
条件独立;如果
Figure 704782DEST_PATH_IMAGE005
Figure 117309DEST_PATH_IMAGE011
关于
Figure 709090DEST_PATH_IMAGE024
不条件独立,且
Figure DEST_PATH_IMAGE025
那么将子图
Figure 890672DEST_PATH_IMAGE026
置为汇聚结构
Figure DEST_PATH_IMAGE027
直到不再有满足条件的子图并得到一个图G′;
步骤五: 在不产生新的汇聚结构的条件下,将G′中所有无向边置为有向边,得到polytree的图结构G
步骤六: 计算G中每个节点v在其父节点pa(v)条件下的条件概率
Figure 142662DEST_PATH_IMAGE028
并得到条件概率集合P,最终得到完整的党建数据polytree模型(G,P)。
CN201710751678.7A 2017-08-28 2017-08-28 一种定量分析党建数据的建模方法 Active CN107562854B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710751678.7A CN107562854B (zh) 2017-08-28 2017-08-28 一种定量分析党建数据的建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710751678.7A CN107562854B (zh) 2017-08-28 2017-08-28 一种定量分析党建数据的建模方法

Publications (2)

Publication Number Publication Date
CN107562854A CN107562854A (zh) 2018-01-09
CN107562854B true CN107562854B (zh) 2020-09-22

Family

ID=60977304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710751678.7A Active CN107562854B (zh) 2017-08-28 2017-08-28 一种定量分析党建数据的建模方法

Country Status (1)

Country Link
CN (1) CN107562854B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049569A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 基于向量空间模型的文本相似性匹配方法
CN106598999A (zh) * 2015-10-19 2017-04-26 北京国双科技有限公司 一种计算文本主题归属度的方法及装置
CN106844328A (zh) * 2016-08-23 2017-06-13 华南师范大学 一种新型大规模文档主题语义分析方法及***
CN106874695A (zh) * 2017-03-22 2017-06-20 北京大数医达科技有限公司 医疗知识图谱的构建方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516904B (zh) * 2013-09-29 2018-04-03 北大方正集团有限公司 一种关键知识点推荐方法及其***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049569A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 基于向量空间模型的文本相似性匹配方法
CN106598999A (zh) * 2015-10-19 2017-04-26 北京国双科技有限公司 一种计算文本主题归属度的方法及装置
CN106844328A (zh) * 2016-08-23 2017-06-13 华南师范大学 一种新型大规模文档主题语义分析方法及***
CN106874695A (zh) * 2017-03-22 2017-06-20 北京大数医达科技有限公司 医疗知识图谱的构建方法和装置

Also Published As

Publication number Publication date
CN107562854A (zh) 2018-01-09

Similar Documents

Publication Publication Date Title
Rauber et al. Foolbox native: Fast adversarial attacks to benchmark the robustness of machine learning models in pytorch, tensorflow, and jax
Dai et al. Attribute selection based on a new conditional entropy for incomplete decision systems
Ahmed et al. Network sampling: From static to streaming graphs
Krajca et al. Distributed algorithm for computing formal concepts using map-reduce framework
JP7103496B2 (ja) 関連スコア算出システム、方法およびプログラム
Laclavík et al. Emails as graph: relation discovery in email archive
Zhang et al. I/O efficient: Computing SCCs in massive graphs
CN107220902A (zh) 在线社会网络的级联规模预测方法
Dobra et al. Loglinear model selection and human mobility
Rani et al. A survey of tools for social network analysis
CN103440308B (zh) 一种基于形式概念分析的数字论文检索方法
CN106202552A (zh) 基于云计算的数据搜索方法
Lu et al. Predicting viral news events in online media
Sepehr et al. Inferring the structure of polytree networks of dynamic systems with hidden nodes
CN107562854B (zh) 一种定量分析党建数据的建模方法
Molik et al. Combining natural language processing and metabarcoding to reveal pathogen-environment associations
Okubo et al. Structural change pattern mining based on constrained maximal k-plex search
Xie et al. A forensic analysis solution of the email network based on email contents
Tuchowski et al. OBCAS-An Ontology-Based Cluster Analysis System
Ozgul et al. Comparing two models for terrorist group detection: Gdm or ogdm?
Li et al. Special section on big data and service computing
Ishikawa et al. A data model for integrating data management and data mining in social big data
Meng et al. Generalizing design of support measures for counting frequent patterns in graphs
Sreedevi et al. Frequent subgraph mining on bigdata
Hejazy et al. An approach for deriving semantically related category hierarchies from Wikipedia category graphs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant