CN106126741A - 一种基于大数据的电网信息安全可信工作*** - Google Patents

一种基于大数据的电网信息安全可信工作*** Download PDF

Info

Publication number
CN106126741A
CN106126741A CN201610524803.6A CN201610524803A CN106126741A CN 106126741 A CN106126741 A CN 106126741A CN 201610524803 A CN201610524803 A CN 201610524803A CN 106126741 A CN106126741 A CN 106126741A
Authority
CN
China
Prior art keywords
data
submodule
attribute
quality
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610524803.6A
Other languages
English (en)
Other versions
CN106126741B (zh
Inventor
陈祖斌
谢铭
胡继军
翁小云
袁勇
邓戈锋
莫英红
谢菁
张鹏
唐玲丽
黄连月
曾明霏
杭聪
贺冠博
王海
黎新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Boao Zongheng Network Technology Co ltd
NANJING KEERTE ELECTRIC POWER TECHNOLOGY CO.,LTD.
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201610524803.6A priority Critical patent/CN106126741B/zh
Publication of CN106126741A publication Critical patent/CN106126741A/zh
Application granted granted Critical
Publication of CN106126741B publication Critical patent/CN106126741B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/70Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer
    • G06F21/78Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer to assure secure storage of data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Computational Linguistics (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于大数据的电网信息安全可信工作***,该***架构是在具有保护性功能、认证和完整性度量等特征基础上构建一种可信度评估机制和可信关系传递机制,包括数据质量管理模块、有用数据挖掘模块、身份验证模块和可信评估模块,其中质量管理模块包括数据描述子模块、数据质量评价子模块和数据质量分级管理子模块,有用数据挖掘模块包括数据预处理子模块、有用数据构建子模块、有用数据修正子模块和有用数据分层挖掘子模块,身份验证模块包括指纹识别子模块和报警子模块。

Description

一种基于大数据的电网信息安全可信工作***
技术领域
本发明涉及大数据领域,具体涉及一种基于大数据的电网信息安全可信工作***。
背景技术
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合,大数据的研究和应用已经成为现代信息一个不可或缺的研究领域。
在现在使用的数据信息中,有很大一部分的数据是由管理者来进行发布,并且根据用户的建议或者管理者自身的需求由管理者来进行修改的,对于这部分的海量信息,如何能够更好地进行质量管理和挖掘,快速有效地从中找到有用的信息,是一个亟需解决的问题。
可信计算是在计算和通信***中广泛使用基于硬件安全模块支持下的可信计算平台,以提高***整体的安全性。信息安全具有四个侧面:设备安全、数据安全、内容安全与行为安全。行为安全包括:行为的机密性、行为的完整性、行为的真实性等特征。可信计算为行为安全而生。
电网信息一方面有必要向社会公开并接受监督,另一方面,如果不进行身份验证就对信息进行访问,会对电网的正常工作造成冲击,造成安全隐患,如何在充分***息的前提下保证电网信息安全未能有效解决。
发明内容
针对上述问题,本发明提供一种基于大数据的电网信息安全可信工作***。
本发明的目的采用以下技术方案来实现:
一种基于大数据的电网信息安全可信工作***,其特征是,包括数据质量管理模块、有用数据挖掘模块、身份验证模块和可信评估模块,其中质量管理模块包括数据描述子模块、数据质量评价子模块和数据质量分级管理子模块,有用数据挖掘模块包括数据预处理子模块、有用数据构建子模块、有用数据修正子模块和有用数据分层挖掘子模块,身份验证模块包括指纹识别子模块和报警子模块;
(1)数据描述子模块
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
K ‾ = mσ 1 + lσ 2 + n ( δ 1 × σ 3 + δ 2 × σ 4 ) m + l + n × 1 - ( m - l m ) 3
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁;
(2)数据质量评价子模块
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R ( X , Y ) = Σ i = 1 N | x i - y i x i | 2 + Σ i = 1 N | x i - y i y i | 2
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级;
(3)数据质量分级管理子模块
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理;
(4)指纹识别子模块
访问电网信息数据需要输入指纹,与指纹库中的指纹进行匹配,只有通过指纹识别的人才能对电网信息数据进行访问;
(5)报警子模块
若未通过指纹识别,无法对电网信息进行访问,***发出警报。
优选地,其特征在于,
(1)数据预处理子模块
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K;
(2)有用数据构建子模块
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
P = Z s Z - ρ 1 - ρ
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数;
(3)有用数据修正子模块
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据;取C=T/5;
(4)有用数据分层挖掘子模块
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集;
有用数据修正子模块中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
优选地,可信评估模块包括以下子模块:
子模块1:定义用于评估模块的各项可信属性,可信属性是分类的,可信属性可以向下分解为子属性;
子模块2:对于每项可信属性或子属性,提炼出对它的评价指标,可以用这些评价指标从不同的侧面对可信属性或子属性进行评价;
子模块3:对于每项可信属性或子属性,定义出对它的评价标准,评价标准分为四级:优、良、中、差,评价标准是基于评价指标的,即根据每个评价指标的取值组合来决定可信属性或子属性达到了哪一级评价标准;
子模块4:确定模块可信分级的标准,可信分级标准分为五级,是根据每项可信属性的评价结论而得出的;
子模块5:在开展可信评估活动之前,根据评估重点的不同,形成不同可信评估模板,并基于此模板开展可信评估活动,从而使得可信评估更有针对性,评估的结果更精确。
本发明的有益效果为:引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强;设置身份验证模块,电网信息安全得到有效保证;保护了指定的数据存储区,防止敌手实施特定类型的物理访问;赋予了所有在计算平台上执行的代码以证明它在一个未被篡改环境中运行的能力,从广义的角度,可信计算平台为网络用户提供了一个更为宽广的安全环境,它从安全体系的角度来描述安全问题,确保用户的安全执行环境,突破被动防御打补丁方式。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1是基于大数据的电网信息安全工作***结构框图。
附图标记:质量管理模块-1;有用数据挖掘模块-2;身份验证模块-3;可信评估模块-4;数据描述子模块-11;数据质量评价子模块-12;数据质量分级管理子模块-13;数据预处理子模块-21;有用数据构建子模块-22;有用数据修正子模块-23;有用数据分层挖掘子模块-24;指纹识别子模块-31;报警子模块-32。
具体实施方式
结合以下实施例对本发明作进一步描述。
实施例1:
如图1所示的一种基于大数据的电网信息安全可信工作***,包括数据质量管理模块1、有用数据挖掘模块2、身份验证模块3和可信评估模块4,其中质量管理模块1包括数据描述子模块11、数据质量评价子模块12和数据质量分级管理子模块13,有用数据挖掘模块2包括数据预处理子模块21、有用数据构建子模块22、有用数据修正子模块23和有用数据分层挖掘子模块24,身份验证模块3包括指纹识别子模块31和报警子模块32。
(1)数据描述子模块11:
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
K ‾ = mσ 1 + lσ 2 + n ( δ 1 × σ 3 + δ 2 × σ 4 ) m + l + n × 1 - ( m - l m ) 3
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁。
(2)数据质量评价子模块12:
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R ( X , Y ) = Σ i = 1 N | x i - y i x i | 2 + Σ i = 1 N | x i - y i y i | 2
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级。
(3)数据质量分级管理子模块13:
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。
(4)指纹识别子模块31:
访问电网信息数据需要输入指纹,与指纹库中的指纹进行匹配,只有通过指纹识别的人才能对电网信息数据进行访问。
(5)报警子模块32:
若未通过指纹识别,无法对电网信息进行访问,***发出警报。
优选地,其特征在于,
(1)数据预处理子模块21:
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K。
(2)有用数据构建子模块22:
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
P = Z s Z - ρ 1 - ρ
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数。
(3)有用数据修正子模块23:
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据。取C=T/5,提示数据范围增加5%,但是计算量增加了3.7%。
(4)有用数据分层挖掘子模块24:
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。
有用数据修正子模块23中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
优选地,可信评估模块4包括以下子模块:
子模块1:定义用于评估模块的各项可信属性,可信属性是分类的,可信属性可以向下分解为子属性;
子模块2:对于每项可信属性或子属性,提炼出对它的评价指标,可以用这些评价指标从不同的侧面对可信属性或子属性进行评价;
子模块3:对于每项可信属性或子属性,定义出对它的评价标准,评价标准分为四级:优、良、中、差,评价标准是基于评价指标的,即根据每个评价指标的取值组合来决定可信属性或子属性达到了哪一级评价标准;
子模块4:确定模块可信分级的标准,可信分级标准分为五级,是根据每项可信属性的评价结论而得出的;
子模块5:在开展可信评估活动之前,根据评估重点的不同,形成不同可信评估模板,并基于此模板开展可信评估活动,从而使得可信评估更有针对性,评估的结果更精确。
本实施例的发明中,引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响,取C=T/5,提示数据范围增加5%,但是计算量增加了3.7%;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强;设置身份验证模块,电网信息安全得到有效保证;赋予了所有在计算平台上执行的代码以证明它在一个未被篡改环境中运行的能力,从广义的角度,可信计算平台为网络用户提供了一个更为宽广的安全环境,它从安全体系的角度来描述安全问题,确保用户的安全执行环境,突破被动防御打补丁方式。
实施例2:
如图1所示的一种基于大数据的电网信息安全可信工作***,包括数据质量管理模块1、有用数据挖掘模块2、身份验证模块3和可信评估模块4,其中质量管理模块1包括数据描述子模块11、数据质量评价子模块12和数据质量分级管理子模块13,有用数据挖掘模块2包括数据预处理子模块21、有用数据构建子模块22、有用数据修正子模块23和有用数据分层挖掘子模块24,身份验证模块3包括指纹识别子模块31和报警子模块32。
(1)数据描述子模块11:
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
K ‾ = mσ 1 + lσ 2 + n ( δ 1 × σ 3 + δ 2 × σ 4 ) m + l + n × 1 - ( m - l m ) 3
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁。
(2)数据质量评价子模块12:
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R ( X , Y ) = Σ i = 1 N | x i - y i x i | 2 + Σ i = 1 N | x i - y i y i | 2
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级。
(3)数据质量分级管理子模块13:
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。
(4)指纹识别子模块31:
访问电网信息数据需要输入指纹,与指纹库中的指纹进行匹配,只有通过指纹识别的人才能对电网信息数据进行访问。
(5)报警子模块32:
若未通过指纹识别,无法对电网信息进行访问,***发出警报。
优选地,其特征在于,
(1)数据预处理子模块21:
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K。
(2)有用数据构建子模块22:
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
P = Z s Z - ρ 1 - ρ
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数。
(3)有用数据修正子模块23:
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据。取C=T/5,提示数据范围增加5%,但是计算量增加了3.7%。
(4)有用数据分层挖掘子模块24:
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。
有用数据修正子模块23中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
优选地,可信评估模块4包括以下子模块:
子模块1:定义用于评估模块的各项可信属性,可信属性是分类的,可信属性可以向下分解为子属性;
子模块2:对于每项可信属性或子属性,提炼出对它的评价指标,可以用这些评价指标从不同的侧面对可信属性或子属性进行评价;
子模块3:对于每项可信属性或子属性,定义出对它的评价标准,评价标准分为四级:优、良、中、差,评价标准是基于评价指标的,即根据每个评价指标的取值组合来决定可信属性或子属性达到了哪一级评价标准;
子模块4:确定模块可信分级的标准,可信分级标准分为五级,是根据每项可信属性的评价结论而得出的;
子模块5:在开展可信评估活动之前,根据评估重点的不同,形成不同可信评估模板,并基于此模板开展可信评估活动,从而使得可信评估更有针对性,评估的结果更精确。
本实施例的发明中,引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响,取C=T/6,提示数据范围增加4%,但是计算量增加了3.3%;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强;设置身份验证模块,电网信息安全得到有效保证;赋予了所有在计算平台上执行的代码以证明它在一个未被篡改环境中运行的能力,从广义的角度,可信计算平台为网络用户提供了一个更为宽广的安全环境,它从安全体系的角度来描述安全问题,确保用户的安全执行环境,突破被动防御打补丁方式。
实施例3:
如图1所示的一种基于大数据的电网信息安全可信工作***,包括数据质量管理模块1、有用数据挖掘模块2、身份验证模块3和可信评估模块4,其中质量管理模块1包括数据描述子模块11、数据质量评价子模块12和数据质量分级管理子模块13,有用数据挖掘模块2包括数据预处理子模块21、有用数据构建子模块22、有用数据修正子模块23和有用数据分层挖掘子模块24,身份验证模块3包括指纹识别子模块31和报警子模块32。
(1)数据描述子模块11:
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
K ‾ = mσ 1 + lσ 2 + n ( δ 1 × σ 3 + δ 2 × σ 4 ) m + l + n × 1 - ( m - l m ) 3
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁。
(2)数据质量评价子模块12:
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R ( X , Y ) = Σ i = 1 N | x i - y i x i | 2 + Σ i = 1 N | x i - y i y i | 2
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级。
(3)数据质量分级管理子模块13:
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。
(4)指纹识别子模块31:
访问电网信息数据需要输入指纹,与指纹库中的指纹进行匹配,只有通过指纹识别的人才能对电网信息数据进行访问。
(5)报警子模块32:
若未通过指纹识别,无法对电网信息进行访问,***发出警报。
优选地,其特征在于,
(1)数据预处理子模块21:
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K。
(2)有用数据构建子模块22:
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
P = Z s Z - ρ 1 - ρ
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数。
(3)有用数据修正子模块23:
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据。取C=T/5,提示数据范围增加5%,但是计算量增加了3.7%。
(4)有用数据分层挖掘子模块24:
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。
有用数据修正子模块23中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
优选地,可信评估模块4包括以下子模块:
子模块1:定义用于评估模块的各项可信属性,可信属性是分类的,可信属性可以向下分解为子属性;
子模块2:对于每项可信属性或子属性,提炼出对它的评价指标,可以用这些评价指标从不同的侧面对可信属性或子属性进行评价;
子模块3:对于每项可信属性或子属性,定义出对它的评价标准,评价标准分为四级:优、良、中、差,评价标准是基于评价指标的,即根据每个评价指标的取值组合来决定可信属性或子属性达到了哪一级评价标准;
子模块4:确定模块可信分级的标准,可信分级标准分为五级,是根据每项可信属性的评价结论而得出的;
子模块5:在开展可信评估活动之前,根据评估重点的不同,形成不同可信评估模板,并基于此模板开展可信评估活动,从而使得可信评估更有针对性,评估的结果更精确。
本实施例的发明中,引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响,取C=T/7,提示数据范围增加3.5%,但是计算量增加了3%;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强;设置身份验证模块,电网信息安全得到有效保证;赋予了所有在计算平台上执行的代码以证明它在一个未被篡改环境中运行的能力,从广义的角度,可信计算平台为网络用户提供了一个更为宽广的安全环境,它从安全体系的角度来描述安全问题,确保用户的安全执行环境,突破被动防御打补丁方式。
实施例4:
如图1所示的一种基于大数据的电网信息安全可信工作***,包括数据质量管理模块1、有用数据挖掘模块2、身份验证模块3和可信评估模块4,其中质量管理模块1包括数据描述子模块11、数据质量评价子模块12和数据质量分级管理子模块13,有用数据挖掘模块2包括数据预处理子模块21、有用数据构建子模块22、有用数据修正子模块23和有用数据分层挖掘子模块24,身份验证模块3包括指纹识别子模块31和报警子模块32。
(1)数据描述子模块11:
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
K ‾ = mσ 1 + lσ 2 + n ( δ 1 × σ 3 + δ 2 × σ 4 ) m + l + n × 1 - ( m - l m ) 3
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁。
(2)数据质量评价子模块12:
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R ( X , Y ) = Σ i = 1 N | x i - y i x i | 2 + Σ i = 1 N | x i - y i y i | 2
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级。
(3)数据质量分级管理子模块13:
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。
(4)指纹识别子模块31:
访问电网信息数据需要输入指纹,与指纹库中的指纹进行匹配,只有通过指纹识别的人才能对电网信息数据进行访问。
(5)报警子模块32:
若未通过指纹识别,无法对电网信息进行访问,***发出警报。
优选地,其特征在于,
(1)数据预处理子模块21:
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K。
(2)有用数据构建子模块22:
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
P = Z s Z - ρ 1 - ρ
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数。
(3)有用数据修正子模块23:
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据。取C=T/5,提示数据范围增加5%,但是计算量增加了3.7%。
(4)有用数据分层挖掘子模块24:
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。
有用数据修正子模块23中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
优选地,可信评估模块4包括以下子模块:
子模块1:定义用于评估模块的各项可信属性,可信属性是分类的,可信属性可以向下分解为子属性;
子模块2:对于每项可信属性或子属性,提炼出对它的评价指标,可以用这些评价指标从不同的侧面对可信属性或子属性进行评价;
子模块3:对于每项可信属性或子属性,定义出对它的评价标准,评价标准分为四级:优、良、中、差,评价标准是基于评价指标的,即根据每个评价指标的取值组合来决定可信属性或子属性达到了哪一级评价标准;
子模块4:确定模块可信分级的标准,可信分级标准分为五级,是根据每项可信属性的评价结论而得出的;
子模块5:在开展可信评估活动之前,根据评估重点的不同,形成不同可信评估模板,并基于此模板开展可信评估活动,从而使得可信评估更有针对性,评估的结果更精确。
本实施例的发明中,引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响,取C=T/8,提示数据范围增加3%,但是计算量增加了2.7%;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强;设置身份验证模块,电网信息安全得到有效保证;赋予了所有在计算平台上执行的代码以证明它在一个未被篡改环境中运行的能力,从广义的角度,可信计算平台为网络用户提供了一个更为宽广的安全环境,它从安全体系的角度来描述安全问题,确保用户的安全执行环境,突破被动防御打补丁方式。
实施例5:
如图1所示的一种基于大数据的电网信息安全可信工作***,包括数据质量管理模块1、有用数据挖掘模块2、身份验证模块3和可信评估模块4,其中质量管理模块1包括数据描述子模块11、数据质量评价子模块12和数据质量分级管理子模块13,有用数据挖掘模块2包括数据预处理子模块21、有用数据构建子模块22、有用数据修正子模块23和有用数据分层挖掘子模块24,身份验证模块3包括指纹识别子模块31和报警子模块32。
(1)数据描述子模块11:
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
K ‾ = mσ 1 + lσ 2 + n ( δ 1 × σ 3 + δ 2 × σ 4 ) m + l + n × 1 - ( m - l m ) 3
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁。
(2)数据质量评价子模块12:
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R ( X , Y ) = Σ i = 1 N | x i - y i x i | 2 + Σ i = 1 N | x i - y i y i | 2
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级。
(3)数据质量分级管理子模块13:
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。
(4)指纹识别子模块31:
访问电网信息数据需要输入指纹,与指纹库中的指纹进行匹配,只有通过指纹识别的人才能对电网信息数据进行访问。
(5)报警子模块32:
若未通过指纹识别,无法对电网信息进行访问,***发出警报。
优选地,其特征在于,
(1)数据预处理子模块21:
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K。
(2)有用数据构建子模块22:
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
P = Z s Z - ρ 1 - ρ
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数。
(3)有用数据修正子模块23:
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据。取C=T/5,提示数据范围增加5%,但是计算量增加了3.7%。
(4)有用数据分层挖掘子模块24:
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。
有用数据修正子模块23中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
优选地,可信评估模块4包括以下子模块:
子模块1:定义用于评估模块的各项可信属性,可信属性是分类的,可信属性可以向下分解为子属性;
子模块2:对于每项可信属性或子属性,提炼出对它的评价指标,可以用这些评价指标从不同的侧面对可信属性或子属性进行评价;
子模块3:对于每项可信属性或子属性,定义出对它的评价标准,评价标准分为四级:优、良、中、差,评价标准是基于评价指标的,即根据每个评价指标的取值组合来决定可信属性或子属性达到了哪一级评价标准;
子模块4:确定模块可信分级的标准,可信分级标准分为五级,是根据每项可信属性的评价结论而得出的;
子模块5:在开展可信评估活动之前,根据评估重点的不同,形成不同可信评估模板,并基于此模板开展可信评估活动,从而使得可信评估更有针对性,评估的结果更精确。
本实施例的发明中,引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响,取C=T/9,提示数据范围增加2.7%,但是计算量增加了2.5%;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强;设置身份验证模块,电网信息安全得到有效保证;赋予了所有在计算平台上执行的代码以证明它在一个未被篡改环境中运行的能力,从广义的角度,可信计算平台为网络用户提供了一个更为宽广的安全环境,它从安全体系的角度来描述安全问题,确保用户的安全执行环境,突破被动防御打补丁方式。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。

Claims (3)

1.一种基于大数据的电网信息安全可信工作***,该***架构是在具有保护性功能、认证和完整性度量等特征基础上构建一种可信度评估机制和可信关系传递机制,其特征是,包括数据质量管理模块、有用数据挖掘模块、身份验证模块和可信评估模块,其中质量管理模块包括数据描述子模块、数据质量评价子模块和数据质量分级管理子模块,有用数据挖掘模块包括数据预处理子模块、有用数据构建子模块、有用数据修正子模块和有用数据分层挖掘子模块,身份验证模块包括指纹识别子模块和报警子模块;
(1)数据描述子模块
通过引入可信数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
K ‾ = mσ 1 + lσ 2 + n ( δ 1 × σ 3 + δ 2 × σ 4 ) m + l + n × 1 - ( m - l m ) 3
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁;
(2)数据质量评价子模块
采用“三级评价模型”对可信数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R ( X , Y ) = Σ i = 1 N | x i - y i x i | 2 + Σ i = 1 N | x i - y i y i | 2
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级;
(3)数据质量分级管理子模块
可信数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理;
(4)指纹识别子模块
访问电网信息数据需要输入指纹,与指纹库中的指纹进行匹配,只有通过指纹识别的人才能对电网信息数据进行访问;
(5)报警子模块
若未通过指纹识别,无法对电网信息进行访问,***发出警报。
2.根据权利要求1所述的一种基于大数据的电网信息安全可信工作***,其特征是在于,
(1)数据预处理子模块
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K;
(2)有用数据构建子模块
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
P = Z s Z - ρ 1 - ρ
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数;
(3)有用数据修正子模块
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据;取C=T/5;
(4)有用数据分层挖掘子模块
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集;
有用数据修正子模块中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例,
从可信数据描述开始,数据质量评价和有用数据挖掘建立在可信数据以及可信的评估体系上,其最终行为符合预期设计。
3.根据权利要求1所述的一种基于大数据的电网信息安全可信工作***,其特征是在于,可信评估模块包括以下子模块:
子模块1:定义用于评估模块的各项可信属性,可信属性是分类的,可信属性可以向下分解为子属性;
子模块2:对于每项可信属性或子属性,提炼出对它的评价指标,可以用这些评价指标从不同的侧面对可信属性或子属性进行评价;
子模块3:对于每项可信属性或子属性,定义出对它的评价标准,评价标准分为四级:优、良、中、差,评价标准是基于评价指标的,即根据每个评价指标的取值组合来决定可信属性或子属性达到了哪一级评价标准;
子模块4:确定模块可信分级的标准,可信分级标准分为五级,是根据每项可信属性的评价结论而得出的;
子模块5:在开展可信评估活动之前,根据评估重点的不同,形成不同可信评估模板,并基于此模板开展可信评估活动,从而使得可信评估更有针对性,评估的结果更精确。
CN201610524803.6A 2016-07-01 2016-07-01 一种基于大数据的电网信息安全可信工作*** Active CN106126741B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610524803.6A CN106126741B (zh) 2016-07-01 2016-07-01 一种基于大数据的电网信息安全可信工作***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610524803.6A CN106126741B (zh) 2016-07-01 2016-07-01 一种基于大数据的电网信息安全可信工作***

Publications (2)

Publication Number Publication Date
CN106126741A true CN106126741A (zh) 2016-11-16
CN106126741B CN106126741B (zh) 2017-05-31

Family

ID=57468733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610524803.6A Active CN106126741B (zh) 2016-07-01 2016-07-01 一种基于大数据的电网信息安全可信工作***

Country Status (1)

Country Link
CN (1) CN106126741B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188085A (zh) * 2019-04-18 2019-08-30 红云红河烟草(集团)有限责任公司 一种烟草卷包车间质量数据模型建立方法
CN111784356A (zh) * 2020-07-22 2020-10-16 支付宝(杭州)信息技术有限公司 支付验证方法、装置、设备及存储介质
CN112866278A (zh) * 2021-02-04 2021-05-28 许昌学院 一种基于大数据的计算机网络信息安全防护***
CN112948837A (zh) * 2021-02-23 2021-06-11 国网山东省电力公司电力科学研究院 一种基于物联网的电网信息安全可信工作***
CN113129481A (zh) * 2019-12-31 2021-07-16 广州海英智慧家居科技有限公司 一种指纹锁控制方法
CN113129480A (zh) * 2019-12-31 2021-07-16 广州海英智慧家居科技有限公司 一种用于物联网的指纹锁控制方法
CN113129482A (zh) * 2019-12-31 2021-07-16 广州海英智慧家居科技有限公司 一种指纹锁识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN201699728U (zh) * 2010-06-17 2011-01-05 宁波电业局 用于电力实时***的可信网络管理***
CN103684793A (zh) * 2013-12-25 2014-03-26 国家电网公司 一种基于可信计算增强配电网络通信安全的方法
CN104809244A (zh) * 2015-05-15 2015-07-29 成都睿峰科技有限公司 一种大数据环境下的数据挖掘方法和装置
CN104918239A (zh) * 2015-06-04 2015-09-16 西安交通大学 基于非可信认知用户协作干扰的安全传输方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN201699728U (zh) * 2010-06-17 2011-01-05 宁波电业局 用于电力实时***的可信网络管理***
CN103684793A (zh) * 2013-12-25 2014-03-26 国家电网公司 一种基于可信计算增强配电网络通信安全的方法
CN104809244A (zh) * 2015-05-15 2015-07-29 成都睿峰科技有限公司 一种大数据环境下的数据挖掘方法和装置
CN104918239A (zh) * 2015-06-04 2015-09-16 西安交通大学 基于非可信认知用户协作干扰的安全传输方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188085A (zh) * 2019-04-18 2019-08-30 红云红河烟草(集团)有限责任公司 一种烟草卷包车间质量数据模型建立方法
CN113129481A (zh) * 2019-12-31 2021-07-16 广州海英智慧家居科技有限公司 一种指纹锁控制方法
CN113129480A (zh) * 2019-12-31 2021-07-16 广州海英智慧家居科技有限公司 一种用于物联网的指纹锁控制方法
CN113129482A (zh) * 2019-12-31 2021-07-16 广州海英智慧家居科技有限公司 一种指纹锁识别方法
CN111784356A (zh) * 2020-07-22 2020-10-16 支付宝(杭州)信息技术有限公司 支付验证方法、装置、设备及存储介质
CN111784356B (zh) * 2020-07-22 2023-11-28 支付宝(杭州)信息技术有限公司 支付验证方法、装置、设备及存储介质
CN112866278A (zh) * 2021-02-04 2021-05-28 许昌学院 一种基于大数据的计算机网络信息安全防护***
CN112866278B (zh) * 2021-02-04 2023-04-07 许昌学院 一种基于大数据的计算机网络信息安全防护***
CN112948837A (zh) * 2021-02-23 2021-06-11 国网山东省电力公司电力科学研究院 一种基于物联网的电网信息安全可信工作***
CN112948837B (zh) * 2021-02-23 2023-04-25 国网山东省电力公司电力科学研究院 一种基于物联网的电网信息安全可信工作***

Also Published As

Publication number Publication date
CN106126741B (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
CN106126741A (zh) 一种基于大数据的电网信息安全可信工作***
Wu et al. Modified data-driven framework for housing market segmentation
CN105930723A (zh) 一种基于特征选择的入侵检测方法
Rahman et al. Assessing cyber resilience of additive manufacturing supply chain leveraging data fusion technique: A model to generate cyber resilience index of a supply chain
CN106067088A (zh) 电子银行访问行为的检测方法和装置
CN105894372A (zh) 预测群体信用的方法和装置
Jeong et al. Quantitative risk evaluation of fatal incidents in construction based on frequency and probability analysis
Husin et al. Implementing fuzzy TOPSIS on project risk variable ranking
CN109992576A (zh) 一种基于大数据技术的政务数据质量评估和异常数据修复技术
Shin Application of stochastic gradient boosting approach to early prediction of safety accidents at construction site
CN114499956A (zh) 一种网络信息安全风险评估***及其方法
CN111798162A (zh) 基于神经网络的风险监测方法及装置
CN110162975A (zh) 一种基于近邻传播聚类算法的多步异常点检测方法
CN115329338A (zh) 基于云计算服务的信息安全风险分析方法及分析***
Chen et al. Application of a fuzzy AHP method to risk assessment of international construction projects
CN103970651A (zh) 基于组件安全属性的软件体系结构安全性评估方法
CN107360047A (zh) 基于cia属性的网络安全评估方法
CN105975640A (zh) 一种大数据质量管理与有用数据挖掘装置
Chen et al. A new evaluation method for slope stability based on TOPSIS and MCS
CN113487241A (zh) 企业环保信用等级的分类方法、装置、设备及存储介质
CN110457009B (zh) 基于数据分析的软件安全需求推荐模型的实现方法
CN114139840A (zh) 数据中心准入合规验证方法及***
Zhang et al. Clustering with implicit constraints: A novel approach to housing market segmentation
Rastogi et al. Comparison of different spatial interpolation techniques to thematic mapping of socio-economic causes of crime against women
CN106202347A (zh) 一种用于数据质量管理与有用数据挖掘的装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
CB03 Change of inventor or designer information

Inventor after: Chen Zubin

Inventor after: Tang Lingli

Inventor after: Huang Lianyue

Inventor after: Zeng Mingfei

Inventor after: Hang Cong

Inventor after: He Guanbo

Inventor after: Wang Hai

Inventor after: Li Xin

Inventor after: He Zhongzhu

Inventor after: Xie Ming

Inventor after: Hu Jijun

Inventor after: Weng Xiaoyun

Inventor after: Yuan Yong

Inventor after: Deng Gefeng

Inventor after: Mo Yinghong

Inventor after: Xie Jing

Inventor after: Zhang Peng

Inventor before: Chen Zubin

Inventor before: Tang Lingli

Inventor before: Huang Lianyue

Inventor before: Zeng Mingfei

Inventor before: Hang Cong

Inventor before: He Guanbo

Inventor before: Wang Hai

Inventor before: Li Xin

Inventor before: Xie Ming

Inventor before: Hu Jijun

Inventor before: Weng Xiaoyun

Inventor before: Yuan Yong

Inventor before: Deng Gefeng

Inventor before: Mo Yinghong

Inventor before: Xie Jing

Inventor before: Zhang Peng

COR Change of bibliographic data
TA01 Transfer of patent application right

Effective date of registration: 20170213

Address after: 530000 Xingning, Nanning District, democratic road, No. 6,

Applicant after: GUANGXI POWER GRID Co.,Ltd.

Address before: 530000 Xingning, Nanning District, democratic road, No. 6,

Applicant before: He Zhongzhu

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180214

Address after: 510000 Guangdong Province, Guangzhou high tech Industrial Development Zone, No. 233 science road 231 floor B1B2 building one layer, two layer, three layer, four layer

Patentee after: BOAO ZONGHENG NETWORK TECHNOLOGY Co.,Ltd.

Address before: 530000 Xingning, Nanning District, democratic road, No. 6,

Patentee before: GUANGXI POWER GRID Co.,Ltd.

Effective date of registration: 20180214

Address after: Jiangning District of Nanjing City, Jiangsu province 211111 streets moling Jiangjun Road No. 6

Patentee after: NANJING KEERTE ELECTRIC POWER TECHNOLOGY CO.,LTD.

Address before: 510000 Guangdong Province, Guangzhou high tech Industrial Development Zone, No. 233 science road 231 floor B1B2 building one layer, two layer, three layer, four layer

Patentee before: BOAO ZONGHENG NETWORK TECHNOLOGY Co.,Ltd.

CP03 Change of name, title or address

Address after: 211100 No.6 Jiangjun Road, moling street, Jiangning District, Nanjing City, Jiangsu Province

Patentee after: Jiangsu kerert Information Technology Co.,Ltd.

Address before: 211111 No.6 Jiangjun Road, moling street, Jiangning District, Nanjing City, Jiangsu Province

Patentee before: NANJING KEERTE ELECTRIC POWER TECHNOLOGY Co.,Ltd.

CP03 Change of name, title or address
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A trusted work system of power grid information security based on big data

Effective date of registration: 20210113

Granted publication date: 20170531

Pledgee: Bank of Jiangsu Limited by Share Ltd. Nanjing Jiangning branch

Pledgor: Jiangsu kerert Information Technology Co.,Ltd.

Registration number: Y2021980000353

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20220411

Granted publication date: 20170531

Pledgee: Bank of Jiangsu Limited by Share Ltd. Nanjing Jiangning branch

Pledgor: Jiangsu kerert Information Technology Co.,Ltd.

Registration number: Y2021980000353

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A power grid information security and credibility work system based on big data

Effective date of registration: 20230112

Granted publication date: 20170531

Pledgee: Nanjing Branch of Jiangsu Bank Co.,Ltd.

Pledgor: Jiangsu kerert Information Technology Co.,Ltd.

Registration number: Y2023980031060

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Granted publication date: 20170531

Pledgee: Nanjing Branch of Jiangsu Bank Co.,Ltd.

Pledgor: Jiangsu kerert Information Technology Co.,Ltd.

Registration number: Y2023980031060

PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Trustworthy Work System for Power Grid Information Security Based on Big Data

Granted publication date: 20170531

Pledgee: Bank of Nanjing Co.,Ltd. Nanjing Chengnan sub branch

Pledgor: Jiangsu kerert Information Technology Co.,Ltd.

Registration number: Y2024980020643