CN102147893A - 用于it***应用考评拓展平台的数据分层抽样方法 - Google Patents

用于it***应用考评拓展平台的数据分层抽样方法 Download PDF

Info

Publication number
CN102147893A
CN102147893A CN2011100997030A CN201110099703A CN102147893A CN 102147893 A CN102147893 A CN 102147893A CN 2011100997030 A CN2011100997030 A CN 2011100997030A CN 201110099703 A CN201110099703 A CN 201110099703A CN 102147893 A CN102147893 A CN 102147893A
Authority
CN
China
Prior art keywords
record
class
records
record number
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100997030A
Other languages
English (en)
Inventor
胡思国
李永红
李军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
QINAN POWER SUPPLY BUREAU OF CHONGQING ELECTRIC POWER CORP
Original Assignee
QINAN POWER SUPPLY BUREAU OF CHONGQING ELECTRIC POWER CORP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by QINAN POWER SUPPLY BUREAU OF CHONGQING ELECTRIC POWER CORP filed Critical QINAN POWER SUPPLY BUREAU OF CHONGQING ELECTRIC POWER CORP
Priority to CN2011100997030A priority Critical patent/CN102147893A/zh
Publication of CN102147893A publication Critical patent/CN102147893A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于IT***应用考评拓展平台的数据分层抽样方法,包括分层步骤和抽样步骤,能够快速有效地对现有的数据表中的记录进行分层,便于进一步抽样,其分层和抽样性算法体现出每类记录在抽样记录中的作用与它在原数据表中的作用相当,满足了对各类记录进行评价的覆盖性要求。

Description

用于IT***应用考评拓展平台的数据分层抽样方法
技术领域
本发明涉及数据处理领域,特别涉及一种用于IT***应用考评拓展平台的数据分层抽样方法。
背景技术
为了贯彻《国家电网公司“十一五”信息发展规划》,落实国家电网公司SG186信息化工程,实现生产精细化管理的目标,国家电网公司于2006年确定组织开发生产管理***(以下简称IT***)。该项目由国网电力科学研究院负责开发实施。綦南供电局在市公司统一安排和部署下,2009年5月开始启动IT***的推广建设工作,经过上线运行,IT***运行稳定、功能完善,规范、高效地促进了安全生产工作开展,应用效果良好。
在IT***全面推广建设的基础上,公司启动了***实用化深化应用工作,计划在使用范围、使用规模以及业务数据维护、业务应用方面深化建设。但是由于生产各部门的信息化意识、人员IT技能、组织监管等方面的问题,IT在各个部门问的应用情况存在很大的区别。有些部门能很规范的使用IT的各个功能模块,进行设备台账维护,运行检修管理等。而有的部门仍然习惯于原来的工作习惯,没有有效发挥IT***的作用,数据的完整性、合理性,流程处理的规范性,与真实生产环境的匹配性方面存在着各种问题。
因此,有必要建设一个IT***应用考评拓展平台,建立一套规范合理的评估体系,对IT各项指标进行合理的分析,根据分析结果,制定相应的管理办法,采取相应的技术措施,采用对比评估,量化考虑等手段来提高应用***的实用化程度,更好的发挥应用***的作用。而在这个过程中,对于一张数据表,其记录可能有成千上万条,要人工对其处理或考评,显然不太现实。故对数据表进行分层处理就显得非常重要,故急需一种能够实现数据表分层抽样的方法。
发明内容
有鉴于此,本发明的目的是提供一种分层迅速、抽样合理、便于下一步处理的用于IT***应用考评拓展平台的数据分层抽样万法。
该用于IT***应用考评拓展平台的数据分层抽样方法,包括分层步骤和抽样步骤,所述分层步骤包括:
1)从数据库中读取数据表;
2)以某个字段为依据,通过对比,对记录进行分层或分类:
设某个字段属性值分别为:t1,t2,Λ,ts,数据表中记录总数为m,每条记录(1-m)对应该字段的属性值分别为:k1,k2,Λ,km,则可以建立函数
f:{k1,k2,Λ,km}α{t1,t2,Λ,ts};
于是,当f(ki)=t1(i=1,2,Λm),取出该字段的属性值ki所对应的所有记录,若记录数不为零,则得到第一个类p1,记录数为m1
在剩余的记录中,当f(ki)=t2(i=1,2,Λm-m1),取出该字段的属性值ki所对应的所有记录,若记录数不为零,则得到第二个类p2,记录数为m2;依此类推,可以得到最终的分类结果;
3)设最终分类结果为:p1,p2,Λ,pn,共n类,且每类对应的记录数分别为:m1,m2,Λ,mn,因此总记录数为m=m1+m2+Λ+mn,于是得到每类占总记录数的百分比,即权值:
w 1 = m 1 m , w 2 = m 2 m , Δ w n = m n m ;
4)以两个字段为依据,通过对比,对记录进行分层或分类:设这两个字段属性值分别为:t1,t2,Λ,知q1,q2,Λ,数据表中记录总数为m,每条记录(1-m)对应这两个字段的属性值可表示向量形式为:(ki1,ki2);
其中i=1,2,Λ,m,且
Figure BDA0000056427790000024
Figure BDA0000056427790000031
则可以得到所有记录对于这两个字段属性值的矩阵:
K = k 11 , k 12 k 21 , k 22 K K k m 1 , k m 2 , = k 1 k 2 K k m
其中ki=(ki1,ki2),i=1,2,Λ,m;
于是,当ki=(ki1,ki2)=(t1,q1),i=1,2,Λ,m,取出ki所对应的所有记录,若记录数不为零,则得到第一个类p1,记录数为m1
在剩余的记录中,当ki=(ki1,ki2)=(t1,q2),i=1,2,Λ,m-m1
取出ki所对应的所有记录,若记录数不为零,则得到第二个类p2,记录数为m2;依此类推,可以得到最终的分类结果;
5)设最终分类结果为:p1,p2,Λ,pn共n类,且每类对应的记录数分别为:m1,m2,Λ,mn,因此总记录数m=m1+m2+Λ+mn,于是得到每类占总记录数的百分比(权值):
w 1 = m 1 n , w 2 = m 2 m , Λ w n = m n m ;
所述抽样步骤包括:
设需从总记录中随机抽取P条记录,pi既表示类,也表示该类的数目,按四舍五入取整,则:
p1类中抽取记录数: p 1 = w 1 p = m 1 p m
p2类中抽取记录数: p 2 = w 2 p = m 2 p m
ΛΛΛΛΛΛΛΛΛΛΛΛΛΛΛΛ
pn类中抽取记录数: p n = w n p = m n p m
最终得到的抽样条数P=p1+p2+p3+..........+pn
本发明的有益效果是:
本发明能够快速有效地对现有的数据表中的记录进行分层,便于进一步抽样,其分层和抽样性算法体现出每类记录在抽样记录中的作用与它在原数据表中的作用相当,满足了对各类记录进行评价的覆盖性要求。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和权利要求书来实现和获得。
具体实施方式
以下将参照附图,对本发明的优选实施例进行详细的描述。应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
在IT***中,一张数据表包含的记录可能有成千上万条,要人工对其处理或考评,显然不太现实,因此本发明提出了一种如下的分层抽样方法来对数据表的记录进行处理。
该用于IT***应用考评拓展平台的数据分层抽样方法,包括分层步骤和抽样步骤,所述分层步骤包括:
1)从数据库中读取数据表;
2)以字段X为依据,通过对比,对记录进行分层或分类:
设字段X的属性值分别为:t1,t2,Λ,ts,数据表中记录总数为m,每条记录(1-m)对应该字段的属性值分别为:k1,k2,Λ,km,则可以建立函数
f:{k1,k2,Λ,km}α{t1,t2,Λ,ts};
于是,当f(ki)=t1(i=1,2,Λ m),取出该字段的属性值ki所对应的所有记录,若记录数不为零,则得到第一个类p1,记录数为m1
在剩余的记录中,当f(ki)=t2(i=1,2,Λm-m1),取出该字段的属性值ki所对应的所有记录,若记录数不为零,则得到第二个类p2,记录数为m2;依此类推,可以得到最终的分类结果;
3)设最终分类结果为:p1,p2,Λ,pn,共n类,且每类对应的记录数分别为:m1,m2,Λ,mn,因此总记录数为m=m1+m2+Λ+mn,于是得到每类占总记录数的百分比,即权值:
w 1 = m 1 n , w 2 = m 2 m , Λ w n = m n m ;
4)以两个字段为依据,通过对比,对记录进行分层或分类:设这两个字段属性值分别为:t1,t2,Λ,和q1,q2,Λ,
Figure BDA0000056427790000053
数据表中记录总数为m,每条记录(1-m)对应这两个字段的属性值可表示向量形式为:(ki1,ki2);
其中i=1,2,Λ,m,且
Figure BDA0000056427790000054
Figure BDA0000056427790000055
则可以得到所有记录对于这两个字段属性值的矩阵:
K = k 11 , k 12 k 21 , k 22 K K k m 1 , k m 2 , = k 1 k 2 K k m
其中ki=(ki1,ki2),i=1,2,Λ,m;
于是,当ki=(ki1,ki2)=(t1,q1),i=1,2,Λ,m,取出ki所对应的所有记录,若记录数不为零,则得到第一个类p1,记录数为m1
在剩余的记录中,当ki=(ki1,ki2)=(t1,q2),i=1,2,Λ,m-m1
取出ki所对应的所有记录,若记录数不为零,则得到第二个类p2,记录数为m2;依此类推,可以得到最终的分类结果;
5)设最终分类结果为:p1,p2,Λ,pn共n类,且每类对应的记录数分别为:m1,m2,Λ,mn,因此总记录数m=m1+m2+Λ+mn,于是得到每类占总记录数的百分比(权值):
w 1 = m 1 n , w 2 = m 2 m , Λ w n = m n m ;
所述抽样步骤包括:
设需从总记录中随机抽取P条记录,pi既表示类,也表示该类的数目,按四舍五入取整,则:
p1类中抽取记录数: p 1 = w 1 p = m 1 p m
p2类中抽取记录数: p 2 = w 2 p = m 2 p m
ΛΛΛΛΛΛΛΛΛΛΛΛΛΛΛΛ
pn类中抽取记录数: p n = w n p = m n p m
最终得到的抽样条数P=p1+p2+p3+..........+pn
若要求为R个专家抽取不同的数据,应将进行R次抽样,每次抽样将上次抽样的数据减去再进行抽样。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (1)

1.用于IT***应用考评拓展平台的数据分层抽样万法,其特征在于:包括分层步骤和抽样步骤,所述分层步骤包括:
1)从数据库中读取数据表;
2)以其中一个字段为依据,通过对比,对数据表中的记录进行分层或分类:
设该字段属性值分别为:t1,t2,Λ,ts,数据表中记录总数为m,每条记录(1-m)对应该字段的属性值分别为:k1,k2,Λ,km,则可以建立函数
f:{k1,k2,Λ,km}α{t1,t2,Λ,ts};
于是,当f(ki)=t1(i=1,2,Λ m),取出该字段的属性值ki所对应的所有记录,若记录数不为零,则得到第一个类p1,记录数为m1
在剩余的记录中,当f(ki)=t2(i=1,2,Λm-m1),取出该字段的属性值ki所对应的所有记录,若记录数不为零,则得到第二个类p2,记录数为m2;依此类推,可以得到最终的分类结果;
3)设最终分类结果为:p1,p2,Λ,pn,共n类,且每类对应的记录数分别为:m1,m2,Λ,mn,因此总记录数为m=m1+m2+Λ+mn,于是得到每类占总记录数的百分比,即权值:
w 1 = m 1 m , w 2 = m 2 m , Λ w n = m n m ;
4)以两个字段为依据,通过对比,对记录进行分层或分类:设这两个字段属性值分别为:t1,t2,Λ,
Figure FDA0000056427780000012
知q1,q2,Λ,
Figure FDA0000056427780000013
数据表中记录总数为m,每条记录(1-m)对应这两个字段的属性值可表示向量形式为:(ki1,ki2);
其中i=1,2,Λ,m,且
Figure FDA0000056427780000021
Figure FDA0000056427780000022
则可以得到所有记录对于这两个字段属性值的矩阵:
K = k 11 , k 22 k 21 , k 22 K K k m 1 , k m 2 , = k 1 k 2 K k m
其中ki=(ki1,ki2),i=1,2,Λ,m;
于是,当ki=(ki1,ki2)=(t1,q1),i=1,2,Λ,m,取出ki所对应的所有记录,若记录数不为零,则得到第一个类p1,记录数为m1
在剩余的记录中,当ki=(ki1,ki2)=(t1,q2),i=1,2,Λ,m-m1
取出ki所对应的所有记录,若记录数不为零,则得到第二个类p2,记录数为m2;依此类推,可以得到最终的分类结果;
5)设最终分类结果为:p1,p2,Λ,pn共n类,且每类对应的记录数分别为:m1,m2,Λ,mn,因此总记录数m=m1+m2+Λ+mn,于是得到每类占总记录数的百分比(权值):
w 1 = m 1 m , w 2 = m 2 m , Λ w n = m n m ;
所述抽样步骤包括:
设需从总记录中随机抽取P条记录,pi既表示类,也表示该类的数目,按四舍五入取整,则:
p1类中抽取记录数: p 1 = w 1 p = m 1 p m
p2类中抽取记录数: p 2 = w 2 p = m 2 p m
ΛΛΛΛΛΛΛΛΛΛΛΛΛΛΛΛ
pn类中抽取记录数: p n = w n p = m n p m
最最终的抽样条数P=p1+p2+p3+..........+pn
CN2011100997030A 2011-04-20 2011-04-20 用于it***应用考评拓展平台的数据分层抽样方法 Pending CN102147893A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100997030A CN102147893A (zh) 2011-04-20 2011-04-20 用于it***应用考评拓展平台的数据分层抽样方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100997030A CN102147893A (zh) 2011-04-20 2011-04-20 用于it***应用考评拓展平台的数据分层抽样方法

Publications (1)

Publication Number Publication Date
CN102147893A true CN102147893A (zh) 2011-08-10

Family

ID=44422148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100997030A Pending CN102147893A (zh) 2011-04-20 2011-04-20 用于it***应用考评拓展平台的数据分层抽样方法

Country Status (1)

Country Link
CN (1) CN102147893A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460161A (zh) * 2018-03-30 2018-08-28 腾讯科技(深圳)有限公司 分层抽样方法、装置和计算机设备
CN108596436A (zh) * 2018-03-28 2018-09-28 郑州铁路职业技术学院 基于计算机的经济指标实时监控分析方法
CN108734617A (zh) * 2018-04-25 2018-11-02 黄冈职业技术学院 一种智能市政工程造价资料存储***

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596436A (zh) * 2018-03-28 2018-09-28 郑州铁路职业技术学院 基于计算机的经济指标实时监控分析方法
CN108460161A (zh) * 2018-03-30 2018-08-28 腾讯科技(深圳)有限公司 分层抽样方法、装置和计算机设备
CN108734617A (zh) * 2018-04-25 2018-11-02 黄冈职业技术学院 一种智能市政工程造价资料存储***

Similar Documents

Publication Publication Date Title
Song et al. Environmental performance evaluation with big data: Theories and methods
Calabrese et al. Full counting statistics in the gapped XXZ spin chain
CN110264015A (zh) 反窃电稽查监控方法及平台
CN103034926B (zh) 一种事故应急信息化管理方法及***
CN103455855B (zh) 一种基于用电信息数据分析的反间歇性窃电检测方法
CN104573906B (zh) 用于分析电力传输***中的振荡稳定性的***和方法
CN110111110A (zh) 基于知识图谱检测欺诈的方法和装置、存储介质
CN112688431A (zh) 一种基于大数据的配电网负荷过载可视化方法及***
CN103823840B (zh) 一种数据处理方法及装置
CN106019087A (zh) 一种间歇性窃电监测***
CN102147893A (zh) 用于it***应用考评拓展平台的数据分层抽样方法
CN105897774A (zh) 一种基于机器学习的网络用户安全状态评估方法
CN102184466A (zh) 基于it***应用的考评方法
Lu et al. Correlation between fire attendance time and burned area based on fire statistical data of Japan and China
CN107093018A (zh) 基于健康模型的电信工程项目信息可视化方法及装置
Si et al. An empirical study on the performance evaluation of scientific data sharing platforms in China
Brown et al. The value of stable, comparable and standardised measurement: enabling confidence in decision making for societal challenges
Lee et al. A Study on Data Governance Maturity Model and Total Process for the Personal Data Use and Protection
Czechowski et al. Data mining system for air quality monitoring networks
Wang Extracting energy and structure properties of glass-forming liquids from structural relaxation time
CN103412814B (zh) 移动终端***安全测试与智能修复***及方法
Balahadia et al. Application of spatiotemporal analysis and knowledge discovery for databases in the bureau of fire protection as incident report system: tool for improving fire services
CN107656901B (zh) 一种配电网严格安全边界和非严格安全边界的求解方法
CN112507290A (zh) 配电设备故障概率预判方法、装置及存储介质
CN106779265B (zh) 一种基于电力智能移动终端在线状态安全性检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110810