CN115203191A - 一种计算机数据处理方法 - Google Patents

一种计算机数据处理方法 Download PDF

Info

Publication number
CN115203191A
CN115203191A CN202211113067.7A CN202211113067A CN115203191A CN 115203191 A CN115203191 A CN 115203191A CN 202211113067 A CN202211113067 A CN 202211113067A CN 115203191 A CN115203191 A CN 115203191A
Authority
CN
China
Prior art keywords
data
computer
module
computer data
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211113067.7A
Other languages
English (en)
Inventor
李鸿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Chengwang Chuangshuo Technology Co ltd
Original Assignee
Shenzhen Chengwang Chuangshuo Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Chengwang Chuangshuo Technology Co ltd filed Critical Shenzhen Chengwang Chuangshuo Technology Co ltd
Priority to CN202211113067.7A priority Critical patent/CN115203191A/zh
Publication of CN115203191A publication Critical patent/CN115203191A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16YINFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
    • G16Y10/00Economic sectors
    • G16Y10/35Utilities, e.g. electricity, gas or water
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16YINFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
    • G16Y20/00Information sensed or collected by the things
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16YINFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
    • G16Y40/00IoT characterised by the purpose of the information processing
    • G16Y40/10Detection; Monitoring
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16YINFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
    • G16Y40/00IoT characterised by the purpose of the information processing
    • G16Y40/20Analytics; Diagnosis
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J13/00Circuit arrangements for providing remote indication of network conditions, e.g. an instantaneous record of the open or closed condition of each circuitbreaker in the network; Circuit arrangements for providing remote control of switching means in a power distribution network, e.g. switching in and out of current consumers by using a pulse code signal carried by the network
    • H02J13/00001Circuit arrangements for providing remote indication of network conditions, e.g. an instantaneous record of the open or closed condition of each circuitbreaker in the network; Circuit arrangements for providing remote control of switching means in a power distribution network, e.g. switching in and out of current consumers by using a pulse code signal carried by the network characterised by the display of information or by user interaction, e.g. supervisory control and data acquisition systems [SCADA] or graphical user interfaces [GUI]
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J13/00Circuit arrangements for providing remote indication of network conditions, e.g. an instantaneous record of the open or closed condition of each circuitbreaker in the network; Circuit arrangements for providing remote control of switching means in a power distribution network, e.g. switching in and out of current consumers by using a pulse code signal carried by the network
    • H02J13/00002Circuit arrangements for providing remote indication of network conditions, e.g. an instantaneous record of the open or closed condition of each circuitbreaker in the network; Circuit arrangements for providing remote control of switching means in a power distribution network, e.g. switching in and out of current consumers by using a pulse code signal carried by the network characterised by monitoring
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J13/00Circuit arrangements for providing remote indication of network conditions, e.g. an instantaneous record of the open or closed condition of each circuitbreaker in the network; Circuit arrangements for providing remote control of switching means in a power distribution network, e.g. switching in and out of current consumers by using a pulse code signal carried by the network
    • H02J13/00006Circuit arrangements for providing remote indication of network conditions, e.g. an instantaneous record of the open or closed condition of each circuitbreaker in the network; Circuit arrangements for providing remote control of switching means in a power distribution network, e.g. switching in and out of current consumers by using a pulse code signal carried by the network characterised by information or instructions transport means between the monitoring, controlling or managing units and monitored, controlled or operated power network element or electrical equipment
    • H02J13/00022Circuit arrangements for providing remote indication of network conditions, e.g. an instantaneous record of the open or closed condition of each circuitbreaker in the network; Circuit arrangements for providing remote control of switching means in a power distribution network, e.g. switching in and out of current consumers by using a pulse code signal carried by the network characterised by information or instructions transport means between the monitoring, controlling or managing units and monitored, controlled or operated power network element or electrical equipment using wireless data transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/38Services specially adapted for particular environments, situations or purposes for collecting sensor information

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Power Engineering (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开一种计算机数据处理方法,涉及数据处理技术领域,解决的技术问题是无法对大量的计算机数据进行高效的采集分析。采用的方法是:数据采集单元通过传感器采集计算机数据并发送到主计算机,主计算机的数据处理单元接收到采集的计算机数据后,先采用一种改进型基于密度含噪二次聚类算法对计算机数据进行修补,然后采用一种基于类簇规模不均衡的数据聚类算法对修补过的计算机数据处理分析,对经过处理后的计算机数据输出到调度中心以及直接展示在显示屏上。本发明能够快速采集计算机数据,并对缺失的计算机数据进行修补,合理的对修补后的计算机数据进行处理分析,有效提高了数据处理的正确率和速度。

Description

一种计算机数据处理方法
技术领域
本发明涉及数据处理技术领域,且更具体地涉及一种计算机数据处理方法。
背景技术
随着***采集数据和自动化数据全量接入,给数据中心的存储能力、访问性能和吞吐量要求带来巨大挑战,数据中心需要完成对实时数据的统一访问和管理,分析计算机数据信息需要对大量跨业务的历史数据进行实时分析,这需要高性能的计算能力。
现有的计算机数据处理方法主要采用神经网络法、卡尔曼滤波法、贝叶斯推理法、聚类分析法等传统算法模型;使用现有的***直接处理分析大量的计算机数据,将会占用***的大量资源,并且所采集的计算机数据来源广阔,依靠这些传统的算法无法做到实时有效的处理分析,例如***采用的神经网络算法存在收敛速度慢、网络结构不稳定的缺点;***中的数据受到多种因素影响,存在诸多的缺陷,如果使用的算法无法及时处理***产生的多源数据,极有可能使得***出现瘫痪现象,导致***故障。
发明内容
针对上述技术的不足,本发明公开一种计算机数据处理方法,能够高效的采集数据并对数据进行有效的处理分析。
为了实现上述技术效果,本发明采用以下技术方案:
一种计算机数据处理方法,包括以下步骤:
步骤一:数据采集单元通过传感器采集计算机数据并发送到主计算机;
步骤二:主计算机的数据处理单元接收到采集的计算机数据后,先采用一种改进型基于密度含噪二次聚类算法对计算机数据进行修补,然后采用一种基于边界模糊粗糙的不均衡类簇规模数据聚类算法对修补过的计算机数据处理分析;
步骤三:对经过处理后的计算机数据直接展示在可视化屏幕上。
在本发明进一步的技术方案中,所述数据采集单元通过搭建传感器网络采集传输计算机数据,所述传感器网络主要由数据采集模块、微处理器模块、无线通信模块和电源模块组成;所述数据采集模块用于***中计算机数据的采集,所述无线通信模块用于将数据采集模块采集到的计算机数据发送到主计算机进行下一步处理分析以及接收主计算机的控制命令,所述微处理器模块用于控制数据采集模块和无线通信模块工作以及对采集的计算机数据进行存储,所述电源模块用于为数据采集模块、无线通信模块和微处理器提供充足电源正常运行;所述电源模块分别与数据采集模块、无线通信模块和微处理器模块相连接,所述数据采集模块与微处理器模块相连接,所述微处理器模块与无线通信模块连接。
在本发明进一步的技术方案中,所述数据采集模块由传感器和模数转换器组成,传感器用于采集计算机所需要处理的模拟数据,模数转换器负责把传感器采集到的模拟数据转换成数字信号,便于数据后续的传输和处理。
在本发明进一步的技术方案中,所述传感器至少应该包括以下之一:霍尔传感器、磁阻传感器、磁通门传感器、罗氏线圈传感器。
在本发明进一步的技术方案中,所述无线通信模块由声表谐振器、数据调制电路和发射电路组成;其中所述声表谐振器的输出端与数据调制电路的输入端连接,所述数据调制电路的输出端与发射电路的输入端连接;当声表谐振器在环境温度-25°C~+85°C之间变化时,频率漂移为3ppm/°C;数据调制电路采用幅移键控调制,工作电压为3~12V;发射电路工作频率为315MHz,发射电路设置有数据调制三极管Q1和扩展集成电路。
在本发明进一步的技术方案中,所述数据处理单元包括数据接收模块、中央处理器和数据存储模块;所述数据接收模块用于接收无线通信模块传输过来的计算机数据,所述中央处理器按照设定好的程序修补处理计算机数据,所述数据存储模块对经过处理后的计算机数据进行存储;所述中央处理器分别与数据接收模块和数据存储模块相连接。
在本发明进一步的技术方案中,所述中央处理器采用一种改进型基于密度含噪二次聚类算法对采集到的计算机数据进行修补;采用一种改进型基于密度含噪二次聚类算法对缺失的计算机数据进行修补的步骤如下:
a1.把采集到的完整数据归类于数据集B中,把采集到的不完整数据归类于数据集C中;
a2.提取数据集B中的每一个数据的长时间周期特性值,譬如最大值、最小值和平均值,归类于新的数据集D中;
a3.设定聚类半径R和样本个数阈值T,对数据集D进行基于密度的含噪一次聚类,根据聚类半径和样本个数阈值的设定将数据集D划分为K个数据子集,记为D1,D2,···,Dk
a4.对K个数据子集,保留数据所属类别,恢复所属类别中每个数据的全部信息,得到K个数据子集;
a5.对数据子集设定聚类半径R/和样本个数阈值T/,对数据子集D/ k(k∈K)进行基于密度的含噪二次聚类,得到Ek个数据分类,全部数据子集聚类结束后,得到累计E个数据分类:
Figure 69346DEST_PATH_IMAGE001
(1)
将得到的E个数据分类记为D1,D2,···,DE
a6.遍历数据集C中的数据,逐一比较不完整数据与这E个数据类别的数据综合相似度,取相似度最大的那个分类标记为不完整数据所属类别;
a7.得到不完整数据所属的分类类别后,计算与该分类中其他完整数据中对应于不完整属性的平均值,然后使用该属性平均值来修补不完整的数据;
通过步骤a6和步骤a7,将数据集C中的每一个不完整数据修补完毕,填充修补后的数据集记为C/,数据集C/和数据集B就构成了完整数据集B/,从而得到修补后的完整计算机数据。
在本发明进一步的技术方案中,所述中央处理器采用一种基于边界模糊粗糙的不均衡类簇规模数据聚类算法对修补后的计算机数据进行处理分析;基于边界模糊粗糙的不均衡类簇规模数据聚类算法运行流程如下:
s1.输入数据集H,H={Yz|z=1,…,J},把数据集H分为L个聚类;
s2.确定聚类数L、初始聚类中心Oi、距离判断阈值Q和模糊参数m1、m2;
s3.计算数据Yz到聚类中心Oi的欧式距离dij,选择p={j|djz=min{diz}},其中p表示 Yz到聚类中心Oi的欧式距离dij的集合,且i=1,…,L,如果p/={j/|dj/z/djz≤Q,j/≠j},则
Figure 409192DEST_PATH_IMAGE002
Figure 609229DEST_PATH_IMAGE003
,否则
Figure 802925DEST_PATH_IMAGE004
;对于所有聚类,
Figure 698200DEST_PATH_IMAGE005
,Cj表示交叉类 簇的多数类类簇近似集的数量;其中j/表示计算数据的数据信息集合,p/表示聚类中心数 据信息集合数据值;
s4.计算各个聚类上相似区域
Figure 966370DEST_PATH_IMAGE006
的个数|Cj|,计算边界区域类簇中心的权重系数 f,更新聚类中心;
s5.当聚类数据不再改变时,算法执行结束,否则回到s2重新计算。
通过本方法对不均衡数据进行边界模糊粗糙聚类,能够清晰了解到当前计算机数据状态。
本发明有益的积极效果在于:本发明采用一种改进型基于密度含噪二次聚类算法对采集到的计算机数据进行修补,能够有效对缺失的数据进行还原,有利于后续处理分析,采用一种基于边界模糊粗糙的不均衡类簇规模数据聚类算法对修补后的计算机数据进行处理分析,能够让少数集群的聚类中心停留在最理想的位置,最大程度的保留住少数集群的样本特征,并且保持整体聚类精度在最高位置。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图,其中:
图1为本发明中一种计算机数据处理方法流程示意图;
图2为本发明中传感器网络***示意图;
图3为本发明中数据采集单元结构示意图;
图4为本发明中无线通信模块电路图;
图5为本发明中基于密度的含噪二次聚类算法流程图;
图6为本发明配电网数据不同算法聚类精度折线图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的实施例仅用于说明和解释本发明,并不用于限定本发明。
如图1所示,一种计算机数据处理方法,包括以下步骤:
步骤一:数据采集单元通过传感器采集计算机数据并发送到主计算机;
在具体实施例中,配电网改造力度持续加大,规模也不断扩大,随着配电网中部署的大量电力设备也产生了大量的冗余数据,关键数据信息淹没在低价值的运行数据中而难以挖掘实际告警信息,本发明采用传感器采集配电网数据进行传输;传感器节点具有端节点和路由的功能,一方面实现配电网数据的采集和处理,另一方面实现配电网数据的融合和路由,对本身采集到的配电网数据和收到的其他传感器节点发送的数据进行综合,转发路由到网关节点。
步骤二:主计算机的数据处理单元接收到采集的计算机数据后,先采用一种改进型基于密度含噪二次聚类算法对计算机数据进行修补,然后采用一种基于边界模糊粗糙的不均衡类簇规模数据聚类算法对修补过的计算机数据处理分析;
在具体实施例中,配电网数据的采集、传输及存储过程中常常会出现数据缺失和数据异常等质量问题,这些异常数据会使配电网的运行、调度、分析等工作受到影响,本发明首先在传统的基于密度的含噪聚类算法上进行了改进,能够对缺失的数据进行修补还原,保持配电网数据的完整性,有利于后续的处理分析,然后对不均衡数据聚类算法进行改进,减少了被多数类簇占领的边界区域对聚类中心更新的影响,从而能够让少数集群的聚类中心停留在理想的位置,本算法将粗糙集中上下近似集引入,将不易划分的模糊数据归至对应类簇的边界区域,这些边界数据也将实时显现在运维管理人员监控***的告警日志中,异变提高配电网不均衡数据的聚类准确度和运行状态评估精度。
步骤三:对经过处理后的计算机数据直接展示在可视化屏幕上。
在具体实施例中,将处理后的配电网数据显示在可视化屏幕上,方便监测人员更清晰的了解配电网运行状态,对配电网数据变化有更直观的了解,及时发现异常数据,得到告警预示,以防配电网发生不可逆转的损害。
如图2所示,在本发明进一步的技术方案中,所述数据采集单元通过搭建传感器网络采集传输计算机数据,所述传感器网络主要由数据采集模块、微处理器模块、无线通信模块和电源模块组成;所述数据采集模块用于***中计算机数据的采集,所述无线通信模块用于将数据采集模块采集到的计算机数据发送到主计算机进行下一步处理分析以及接收主计算机的控制命令,所述微处理器模块用于控制数据采集模块和无线通信模块工作以及对采集的计算机数据进行存储,所述电源模块用于为数据采集模块、无线通信模块和微处理器提供充足电源正常运行;所述电源模块分别与数据采集模块、无线通信模块和微处理器模块相连接,所述数据采集模块与微处理器模块相连接,所述微处理器模块与无线通信模块连接。
在具体实施例中,如图3所示,传感器网络是指由大量随机分布的集成了传感器单元、数据处理单元、通信单元和电源单元的微小节点并通过自由组织方式构成的分布式网络,其目的是借助于微小节点内置的各种传感器来远程监测所感兴趣的目标或对象,以进行任务感知、数据采集和处理;传感器网络主要由传感器、移动通信网络和用户组成,传感器通过移动通信网络相连接,移动通信网络对传感器锚节点的数据信息进行收集,然后把从传感器收集到的数据信息传送到用户,用户对接收到的信息数据进一步处理分析;微处理器模块负责整个传感器的数据处理和操作,存储本传感器的采集数据和其他传感器发来的数据;无线通信模块用来将经过转换处理后的采集数据传输到用户;电源模块可以保证整个数据采集网络的稳定运行。
在本发明进一步的技术方案中,所述数据采集模块由传感器和模数转换器组成,传感器用于采集计算机所需要处理的模拟数据,模数转换器负责把传感器采集到的模拟数据转换成数字信号,便于数据后续的传输和处理。
在具体实施例中,传感器模块用来采集配电网区域内的各种数据,模数转换器对采集的各种数据进行模数转换,然后交给微处理器进行下一步处理。
在本发明进一步的技术方案中,所述传感器至少应该包括以下之一:霍尔传感器、磁阻传感器、磁通门传感器、罗氏线圈传感器。
在本发明进一步的技术方案中,所述无线通信模块由声表谐振器、数据调制电路和发射电路组成;其中所述声表谐振器的输出端与数据调制电路的输入端连接,所述数据调制电路的输出端与发射电路的输入端连接;当声表谐振器在环境温度-25°C~+85°C之间变化时,频率漂移为3ppm/°C;数据调制电路采用幅移键控调制,工作电压为3~12V;发射电路工作频率为315MHz,发射电路设置有数据调制三极管Q1和扩展集成电路。
在具体实施例中,无线通信模块用于将分析处理后的所述数字信号编码成数字数据并传输到用户,无线通信模块基于通用分组无线服务(General packet radio service,GPRS)无线网络,提高标准串口,支持数据透明传输,实时在线/激活在线,远程复位,内嵌传输控制协议(Transmission Control Protocol,TCP)/网际互联协议(Internet Protocol,IP)协议,无线通信模块的工作频率为315MHz,采用声表谐振器稳频,频率稳定性极高,当环境温度在-25°C~+85°C之间变化时,频率漂移仅为3ppm/°C,适合多发一收无线遥控及数据传输***;发射电路未设置编码集成电路,而增加了一只数据调制三极管Q1,这种结构使得它方便和其他固定编码电路、滚动码电路及单片机接口,而不必考虑编码的工作电压和输出幅度信号值的大小;数据调制电路具有较宽的工作电压3~12V,当电压变化时发射频率基本不变,和发射电路配套的接收模块无需任何调整就能稳定地接收;数据调制电路采用ASK方式调试,以降低功耗,当数据信号停止时发射电流降为零,数据信号与发射电路输入端可以用电阻或者直接连接而不能用电容耦合,否则发射电路将不能正常工作;数据电平应接近数据调制电路的实际工作电压,以获得较高的调制效果;发射电路最好垂直安装在主板的边缘应离开周围器件5mm以上,以免分布参数影响;无线通信模块的传输距离与调制信号频率及幅度,发射电压及电池容量,发射天线,接收机的灵敏度,收发环境有关;图4为无线通信模块原理图。
在本发明进一步的技术方案中,所述数据处理单元包括数据接收模块、中央处理器和数据存储模块;所述数据接收模块用于接收无线通信模块传输过来的计算机数据,所述中央处理器按照设定好的程序修补处理计算机数据,所述数据存储模块对经过处理后的计算机数据进行存储;所述中央处理器分别与数据接收模块和数据存储模块相连接。
在本发明进一步的技术方案中,所述中央处理器采用一种改进型基于密度含噪二次聚类算法对采集到的计算机数据进行修补;
在具体实施例中,传统的基于密度的含噪聚类算法对数据集的分布步敏感,抗噪性好,且对于数据集的识别能力较强,但该算法在处理大量庞杂数据时的计算速度还需要进一步提高,本方法基于配电网数据的特性,提出一种改进型基于密度含噪二次聚类算法对采集到的配电网缺失的数据进行修补,首先依据数据长周期特征的关键指标,提取每一个数据的关键信息,针对缩减的数据集进行初步聚类,然后在初步聚类的基础上针对完整数据再次进行聚类完成二次聚类,以利于缩短由于庞大数据集而延长的聚类时间,并且可以通过数据的数值属性相似度和记录纸相似度比较,以相似度最大为原则、以同类数据属性相同为原则修复缺失的数据,从而得到完善的配电网数据。
采用一种改进型基于密度含噪二次聚类算法对缺失的计算机数据进行修补的步骤如下:
a1.把采集到的完整数据归类于数据集B中,把采集到的不完整数据归类于数据集C中;
a2.提取数据集B中的每一个数据的长时间周期特性值,譬如最大值、最小值和平均值,归类于新的数据集D中;
a3.设定聚类半径R和样本个数阈值T,对数据集D进行基于密度的含噪一次聚类,根据聚类半径和样本个数阈值的设定将数据集D划分为K个数据子集,记为D1,D2,···,Dk
a4.对K个数据子集,保留数据所属类别,恢复所属类别中每个数据的全部信息,得到K个数据子集;
a5.对数据子集设定聚类半径R/和样本个数阈值T/,对数据子集D/ k(k∈K)进行基于密度的含噪二次聚类,得到Ek个数据分类,全部数据子集聚类结束后,得到累计E个数据分类:
Figure 896280DEST_PATH_IMAGE001
(1)
将得到的E个数据分类记为D1,D2,···,DE
a6.遍历数据集C中的数据,逐一比较不完整数据与这E个数据类别的数据综合相似度,取相似度最大的那个分类标记为不完整数据所属类别;
a7.得到不完整数据所属的分类类别后,计算与该分类中其他完整数据中对应于不完整属性的平均值,然后使用该属性平均值来修补不完整的数据;
通过步骤a6和步骤a7,将数据集C中的每一个不完整数据修补完毕,填充修补后的数据集记为C/,数据集C/和数据集B就构成了完整数据集B/,从而得到修补后的完整计算机数据。
在具体实施例中,如图5所示,本发明提出的改进型基于密度含噪二次聚类算法基本假设是类别可以通过样本数据分布的紧密程度决定,即同一类别的样本数据之间一定是紧密相连的,将紧密相连的样本数据划为一类,这样就得到了一个聚类类别,通过某些参数将各类样本数据再次划分为各个不同的类别,也就得到了最终的聚类结果;本发明中的核心参数为聚类半径和样本个数阈值,聚类半径描述了某个样本的邻域距离阈值,而样本个数阈值描述了某个样本的距离为聚类半径绝对值的邻域中样本个数的阈值,通过聚类半径和样本个数阈值可以反映出邻域的样本分布紧密程度;算法根据预设的聚类半径和样本个数阈值将等待聚类的数据分为核心点、边界点和噪声点三类,其中在聚类半径圆内并且至少包含样本个数阈值个样本数据的点称为核心点,在聚类半径圆内样本数量少于所设样本个数阈值并且落在核心点邻域内的点被称为边界点,而既不是边界点也不是核心点的则被称为噪声点;第一次聚类能够较快地将特征相似的数据聚类,故而在此过程中重点考察数据的关键特征,如表征数据水平的平均值、表征数据波动的最大值和最小值等少数特征,通过第一次聚类可以将数据波动范围相同的数据聚为一类,在第一次聚类的基础上,第二次聚类考察数据曲线线性、时变特征等角度进行二次聚类,此时以数据综合相似度最大为原则,任选不完整数据集中的一条数据逐一与这若干分类进行相似度比较,找到相似度最大的那个分类后,标记不完整数据为此分类中的一条数据,则该不完整数据归入数据综合相似度最大的那个类别,如此反复操作直到所有不完整数据均归类于某分类类别,然后按照此分类的数据属性值推算相应的缺失值,通过本方法得到的缺失值具有较高的正确率,可以更好的还原配电网中运行的数据。
在本发明进一步的技术方案中,所述中央处理器采用一种基于边界模糊粗糙的不均衡类簇规模数据聚类算法对修补后的计算机数据进行处理分析;
在具体实施例中,传统配电网运行状态评估仅对监测故障设备所收集的数据进行聚合分析,而没有对配电网***产生的不均衡数据进行全面分析,当下应该立即建立新的不均衡数据聚合法则,发现即时变化的运行状态和潜在的危险,制定更合理的维修计划,确保电力***的稳定运行;随着中国电力***建设的加快,物联网技术在供电***中得到了广泛的应用,末端传感设备每天产生大量不均衡的监控数据,其中大部分是正常运行状态数据,小部分是异常运行数据,两种运行状态的数据共同组成了配电网不均衡数据,因此,本发明提出一种可以直接在聚合算法层面上分析大规模不均衡运行数据集的算法,从而提高配电网运行状态评估准确性。
基于边界模糊粗糙的不均衡类簇规模数据聚类算法运行流程如下:
s1.输入数据集H,H={Yz|z=1,…,J},把数据集H分为L个聚类;
s2.确定聚类数L、初始聚类中心Oi、距离判断阈值Q和模糊参数m1、m2;
s3.计算数据Yz到聚类中心Oi的欧式距离dij,选择p={j|djz=min{diz}},其中p表示 Yz到聚类中心Oi的欧式距离dij的集合,且i=1,…,L,如果p/={j/|dj/z/djz≤Q,j/≠j},则
Figure 529387DEST_PATH_IMAGE007
Figure 36592DEST_PATH_IMAGE003
,否则
Figure 514977DEST_PATH_IMAGE004
;对于所有聚类,
Figure 299394DEST_PATH_IMAGE008
,Cj表示交叉类 簇的多数类类簇近似集的数量;其中j/表示计算数据的数据信息集合,p/表示聚类中心数 据信息集合数据值;
s4.计算各个聚类上相似区域
Figure 837823DEST_PATH_IMAGE009
的个数|Cj|,计算边界区域类簇中心的权重系数 f,更新聚类中心;
s5.当聚类数据不再改变时,算法执行结束,否则回到s2重新计算。
通过本方法对不均衡数据进行边界模糊粗糙聚类,能够清晰了解到当前计算机数据状态。
在具体实施例中,当面对集群规模不均衡的数据问题时,少数类集群中的样本通常会更加被关注,比如,如果将电网的异常运行情况视为正常情况,则可能会导致故障的传播甚至导致电力事故,所以,使少数异常数据样本固定在初始状态,降低少数集群数据特征丢失成为判定一个聚类算法质量的关键指标,在考虑边界区域局部模糊度量的基础上优化聚类中心更新公式,能够减少被多数集群占领得边界区域对少数集群聚类效果的不利影响,从而使小规模类簇的聚类中心一直维持在一个比较理想的位置,本算法还可以抑制原来属于多数集群的数据被误分至少数集群的现象,从而能够更好的保留少数集群的数据特征,本方法不仅能判断配电网是否处于告警状态,还能预估评测异常运行的配电室将会出现的告警,提高了配电网数据聚合的速度与精度,很大程度上降低了算法的计算成本。
本发明对于计算机数据处理方法的验证,通过在某配电网区域内进行搭建,并分别采用IT2FKM算法、RIT2FKM算法和本方法对采集的相同配电网数据进行处理分析,得到计算机数据处理结果如表1所示:
表1计算机数据处理能力
Figure 238848DEST_PATH_IMAGE010
表1中,OK表示属于集群下近似集而且聚类准确的配电网数据个数,Err+表示多数集群中的数据被误分到少数进群下近似区域的个数,Err-表示少数集群中的数据被错分到多数集群下近似区域的个数,Bd表示边界区域中所有数据的个数,Bd-表示边界区域中属于少数集群的数据个数;采用IT2FKM算法处理得到属于集群下近似集而且聚类准确的配电网数据个数是89个,多数集群中的数据被误分到少数进群下近似区域的个数是23个,少数集群中的数据被错分到多数集群下近似区域的个数是2个,边界区域中所有数据的个数是27个,边界区域中属于少数集群的数据个数是3个;采用RIT2FKM算法处理得到属于集群下近似集而且聚类准确的配电网数据个数是97个,多数集群中的数据被误分到少数进群下近似区域的个数是12个,少数集群中的数据被错分到多数集群下近似区域的个数是1个,边界区域中所有数据的个数是34个,边界区域中属于少数集群的数据个数是2个;采用本方法处理得到属于集群下近似集而且聚类准确的配电网数据个数是113个,多数集群中的数据被误分到少数进群下近似区域的个数为0,少数集群中的数据被错分到多数集群下近似区域的个数是1个,边界区域中所有数据的个数是25个,边界区域中属于少数集群的数据个数是6个;通过数据可以得到采用本方法对配电网数据进行分析处理得到的正确的数据个数更多,出现误分和错分的次数更少,验证了本方法对配电网数据处理的正确率远远高于另外两种算法。
为了更直接地显示IT2FKM算法、RIT2FKM算法和本方法的聚类准确性和聚类结果中少数集群样本的存有情况,绘制折线图如图6所示,从图6中可以看出,本发明提出的算法减少了被多数类簇占领的边界区域对聚类中心更新的影响,从而能够让少数集群的聚类中心停留在理想的位置,相较于另外两种算法,本方法的聚类结果中少数集群的数据特征综合错误率最低,能最大程度的保留少数配电网数据的样本特征,并且保持整体聚类精度在最高位置。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些具体实施方式仅是举例说明,本领域的技术人员在不脱离本发明的原理和实质的情况下,可以对上述方法和细节进行各种省略、替换和改变。例如,合并上述方法步骤,从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因此,本发明的范围仅由所附权利要求书限定。

Claims (8)

1.一种计算机数据处理方法,其特征在于,包括以下步骤:
步骤一:数据采集单元通过传感器采集计算机数据并发送到主计算机;
步骤二:主计算机的数据处理单元接收到采集的计算机数据后,先采用改进型基于密度含噪二次聚类算法对计算机数据进行修补,然后采用基于边界模糊粗糙的不均衡类簇规模数据聚类算法对修补过的计算机数据处理分析;
步骤三:对经过处理后的计算机数据直接展示在可视化屏幕上。
2.根据权利要求1所述的一种计算机数据处理方法,其特征在于:
所述数据采集单元通过搭建传感器网络采集传输计算机数据,所述传感器网络主要包含数据采集模块、微处理器模块、无线通信模块和电源模块;所述数据采集模块用于***中计算机数据的采集,所述无线通信模块用于将数据采集模块采集到的计算机数据发送到主计算机进行下一步处理分析以及接收主计算机的控制命令,所述微处理器模块用于控制数据采集模块和无线通信模块工作以及对采集的计算机数据进行存储,所述电源模块用于为数据采集模块、无线通信模块和微处理器提供充足电源正常运行;所述电源模块分别与数据采集模块、无线通信模块和微处理器模块相连接,所述数据采集模块与微处理器模块相连接,所述微处理器模块与无线通信模块连接。
3.根据权利要求2所述的一种计算机数据处理方法,其特征在于:
所述数据采集模块由传感器和模数转换器组成,传感器用于采集计算机所需要处理的模拟数据,模数转换器负责把传感器采集到的模拟数据转换成数字信号,便于数据后续的传输和处理。
4.根据权利要求3所述的一种计算机数据处理方法,其特征在于:
所述传感器至少应该包括以下之一:霍尔传感器、磁阻传感器、磁通门传感器、罗氏线圈传感器。
5.根据权利要求2所述的一种计算机数据处理方法,其特征在于:
所述无线通信模块由声表谐振器、数据调制电路和发射电路组成;其中所述声表谐振器的输出端与数据调制电路的输入端连接,所述数据调制电路的输出端与发射电路的输入端连接;当声表谐振器在环境温度-25°C~+85°C之间变化时,频率漂移为3ppm/°C;数据调制电路采用幅移键控调制,工作电压为3~12V;发射电路工作频率为315MHz,发射电路设置有数据调制三极管Q1和扩展集成电路。
6.根据权利要求2所述的一种计算机数据处理方法,其特征在于:
所述数据处理单元包括数据接收模块、中央处理器和数据存储模块;所述数据接收模块用于接收无线通信模块传输过来的计算机数据,所述中央处理器按照设定好的程序修补处理计算机数据,所述数据存储模块对经过处理后的计算机数据进行存储;所述中央处理器分别与数据接收模块和数据存储模块相连接。
7.根据权利要求6所述的一种计算机数据处理方法,其特征在于:
所述中央处理器采用改进型密度含噪二次聚类算法对采集到的计算机数据进行修补;修补的步骤如下:
a1.把采集到的完整数据归类于数据集B中,把采集到的不完整数据归类于数据集C中;
a2.提取数据集B中的每一个数据的长时间周期特性值,譬如最大值、最小值和平均值,归类于新的数据集D中;
a3.设定聚类半径R和样本个数阈值T,对数据集D进行基于密度的含噪一次聚类,根据聚类半径和样本个数阈值的设定将数据集D划分为K个数据子集,记为D1,D2,···,Dk
a4.对K个数据子集,保留数据所属类别,恢复所属类别中每个数据的全部信息,得到K个数据子集;
a5.对数据子集设定聚类半径R/和样本个数阈值T/,对数据子集D/ k(k∈K)进行基于密度的含噪二次聚类,得到Ek个数据分类,全部数据子集聚类结束后,得到累计E个数据分类:
Figure 840710DEST_PATH_IMAGE001
(1)
将得到的E个数据分类记为D1,D2,···,DE
a6.遍历数据集C中的数据,逐一比较不完整数据与这E个数据类别的数据综合相似度,取相似度最大的那个分类标记为不完整数据所属类别;
a7.得到不完整数据所属的分类类别后,计算与该分类中其他完整数据中对应于不完整属性的平均值,然后使用该属性平均值来修补不完整的数据;
通过步骤a6和步骤a7,将数据集C中的每一个不完整数据修补完毕,填充修补后的数据集记为C/,数据集C/和数据集B就构成了完整数据集B/,从而得到修补后的完整计算机数据。
8.根据权利要求6所述的一种计算机数据处理方法,其特征在于:
所述中央处理器采用一种基于边界模糊粗糙的不均衡类簇规模数据聚类算法对修补后的计算机数据进行处理分析;基于边界模糊粗糙的不均衡类簇规模数据聚类算法运行流程如下:
s1.输入数据集H,H={Yz|z=1,…,J},把数据集H分为L个聚类;
s2.确定聚类数L、初始聚类中心Oi、距离判断阈值Q和模糊参数m1、m2;
s3.计算数据Yz到聚类中心Oi的欧式距离dij,选择p={j|djz=min{diz}},其中p表示Yz到 聚类中心Oi的欧式距离dij的集合,且i=1,…,L,如果p/={j/|dj/z/djz≤Q,j/≠j},则
Figure 686744DEST_PATH_IMAGE002
Figure 404165DEST_PATH_IMAGE003
,否则
Figure 737057DEST_PATH_IMAGE004
;对于所有聚类,
Figure 754692DEST_PATH_IMAGE005
,Cj表示交 叉类簇的多数类类簇近似集的数量;其中j/表示计算数据的数据信息集合,p/表示聚类中 心数据信息集合数据值;
s4.计算各个聚类上相似区域
Figure 249258DEST_PATH_IMAGE006
的个数|Cj|,计算边界区域类簇中心的权重系数f,更 新聚类中心;
s5.当聚类数据不再改变时,算法执行结束,否则回到s2重新计算。
CN202211113067.7A 2022-09-14 2022-09-14 一种计算机数据处理方法 Pending CN115203191A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211113067.7A CN115203191A (zh) 2022-09-14 2022-09-14 一种计算机数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211113067.7A CN115203191A (zh) 2022-09-14 2022-09-14 一种计算机数据处理方法

Publications (1)

Publication Number Publication Date
CN115203191A true CN115203191A (zh) 2022-10-18

Family

ID=83571747

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211113067.7A Pending CN115203191A (zh) 2022-09-14 2022-09-14 一种计算机数据处理方法

Country Status (1)

Country Link
CN (1) CN115203191A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190220471A1 (en) * 2018-01-18 2019-07-18 Samsung Electronics Company, Ltd. Methods and Systems for Interacting with Mobile Device
CN110232420A (zh) * 2019-06-21 2019-09-13 安阳工学院 一种数据的聚类方法
US20200285983A1 (en) * 2019-03-04 2020-09-10 Iocurrents, Inc. Data compression and communication using machine learning
CN114066073A (zh) * 2021-11-22 2022-02-18 国网河北省电力有限公司营销服务中心 电网负荷预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190220471A1 (en) * 2018-01-18 2019-07-18 Samsung Electronics Company, Ltd. Methods and Systems for Interacting with Mobile Device
US20200285983A1 (en) * 2019-03-04 2020-09-10 Iocurrents, Inc. Data compression and communication using machine learning
CN110232420A (zh) * 2019-06-21 2019-09-13 安阳工学院 一种数据的聚类方法
CN114066073A (zh) * 2021-11-22 2022-02-18 国网河北省电力有限公司营销服务中心 电网负荷预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
中公教育国有企业招聘考试研究中心: "《中公教育 国家电网公司招聘考试辅导用书 通信类专业知识 2019版》", 31 August 2018 *
刘波文等: "《51单片机C语言应用开发三位一体实战精讲》", 30 June 2011 *
张腾飞等: ""基于类簇规模不均衡度量的粗糙模糊K-means聚类算法"", 《信息与控制》 *
蔡文斌等: ""基于DBSCAN二次聚类的配电网负荷缺失数据修补"", 《电气技术》 *

Similar Documents

Publication Publication Date Title
CN113344134B (zh) 一种低压配电监控终端数据采集异常检测方法及***
CN112284440B (zh) 一种传感器数据偏差自适应修正方法
CN101718634A (zh) 基于多元概率模型的设备状态综合动态报警方法
CN116614177B (zh) 一种光纤状态多维度参量监测***
CN117390403B (zh) 一种新能源灯塔发电站的电网故障检测方法及***
CN114282689A (zh) 一种普适焊接起弧实时智能检测方法及***
CN111551888A (zh) 一种改进型AdaBoost算法的电能表计量数据故障分析方法
CN117406026A (zh) 一种适用于分布式电源的配电网故障检测方法
CN116032003A (zh) 一种基于电力专网数据处理的电网巡检方法及***
WO2024066720A1 (zh) 指标阈值的确定方法、装置、存储介质及电子装置
CN115203191A (zh) 一种计算机数据处理方法
CN116679653A (zh) 一种用于工业设备数据的智能采集***
CN117154716A (zh) 一种分布式电源接入配电网的规划方法及***
CN116880555A (zh) 一种基于边缘计算的无人机机群调度***
CN114779098B (zh) 一种锂离子电池的状态评估方法及***
CN112884352B (zh) 一种架空输电线路雷击故障风险评估方法
Zhao et al. Application of data fusion based on clustering-neural network for ETC gantry flow capacity correction
CN117726959B (zh) 基于智能图像识别的无人机电力线路安全巡检***及方法
CN117424791B (zh) 一种大型电力通信网络故障诊断***
CN117113157B (zh) 一种基于人工智能的台区用电故障检测***
CN116193574B (zh) 一种基于5g网络的观测信息融合定位关键技术方法与***
CN115223104B (zh) 一种基于场景识别的违章作业行为检测方法及***
CN118129819A (zh) 一种智能化仪器仪表的检测***及检测方法
CN114861745A (zh) 异常数据的检测方法及***
CN118182256A (zh) 车辆能耗管理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20221018

RJ01 Rejection of invention patent application after publication