CN115563193A - 一种用于数字信息的大数据分析处理方法 - Google Patents

一种用于数字信息的大数据分析处理方法 Download PDF

Info

Publication number
CN115563193A
CN115563193A CN202211568255.9A CN202211568255A CN115563193A CN 115563193 A CN115563193 A CN 115563193A CN 202211568255 A CN202211568255 A CN 202211568255A CN 115563193 A CN115563193 A CN 115563193A
Authority
CN
China
Prior art keywords
big data
current
electricity consumption
consumption big
current electricity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211568255.9A
Other languages
English (en)
Other versions
CN115563193B (zh
Inventor
李华
胡曼宇
姜永飞
蔡恒栋
冯燚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Telecommunications And Designing Institute Co ltd
Original Assignee
Shaanxi Telecommunications And Designing Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Telecommunications And Designing Institute Co ltd filed Critical Shaanxi Telecommunications And Designing Institute Co ltd
Priority to CN202211568255.9A priority Critical patent/CN115563193B/zh
Publication of CN115563193A publication Critical patent/CN115563193A/zh
Application granted granted Critical
Publication of CN115563193B publication Critical patent/CN115563193B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1744Redundancy elimination performed by the file system using compression, e.g. sparse files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及电数字数据处理技术领域,具体涉及一种用于数字信息的大数据分析处理方法,该方法包括:获取当前用电大数据集合和每个当前用电大数据对应的历史用电大数据序列;对当前用电大数据集合中的每个当前用电大数据进行重复性分析处理;对当前用电大数据集合中的每个当前用电大数据进行异常性分析处理;对当前用电大数据集合中的当前用电大数据进行聚类;对当前用电大数据类别集合中的当前用电大数据进行分类存储处理。本发明利用相对重复性与异常性对不同的区域的用电大数据进行聚类压缩存储处理,解决了后续对用电大数据异常程度分析的效率低下的技术问题,提高了后续对用电大数据异常程度分析的效率,应用于对用电大数据的数据存储。

Description

一种用于数字信息的大数据分析处理方法
技术领域
本发明涉及电数字数据处理技术领域,具体涉及一种用于数字信息的大数据分析处理方法。
背景技术
随着科技的发展,许许多多的行业进行了数字化的转型,并在数字化转型之后,形成与调用所涉猎领域的对象资源,而数字化的过程往往是基于大量的信息支撑的过程。例如智能电网的数字化转型,往往需要大量的电力相关的大数据(如,用电大数据)进行支撑,而大数据在分析处理的过程中往往需要对其进行存储。
对于用电大数据进行存储时,常规的方法是基于时序用电大数据的重复性的存储。基于时序用电大数据的重复性的存储常见的方法为:利用GZIP压缩算法对用电大数据进行压缩存储,该方法对数据进行存储时,往往未考虑到数据的属性聚类,如数据的异常程度的聚类,致使后续进行用电大数据异常程度分析时,往往需要调动大量的数据,往往会损耗大量的计算资源对用电大数据进行基于异常程度的分析,往往导致对用电大数据异常程度分析的效率低下,其中,后续常常需要对存储的数据进行异常分析。
发明内容
本发明的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本发明的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
为了解决对用电大数据异常程度分析的效率低下的技术问题,本发明提出了一种用于数字信息的大数据分析处理方法。
本发明提供了一种用于数字信息的大数据分析处理方法,该方法包括:
获取当前用电大数据集合和所述当前用电大数据集合中的每个当前用电大数据对应的历史用电大数据序列,其中,当前用电大数据集合中的当前用电大数据是当前时间段下的用电大数据,历史用电大数据序列中的历史用电大数据是历史时间段下的用电大数据,当前时间段的开始时间是历史时间段的结束时间;
根据所述当前用电大数据集合,对所述当前用电大数据集合中的每个当前用电大数据进行重复性分析处理,得到每个当前用电大数据对应的相对重复性;
根据所述当前用电大数据集合和所述当前用电大数据集合中的各个当前用电大数据对应的历史用电大数据序列,对所述当前用电大数据集合中的每个当前用电大数据进行异常性分析处理,得到每个当前用电大数据对应的相对异常度;
根据所述当前用电大数据集合中的各个当前用电大数据对应的相对重复性和相对异常度,对所述当前用电大数据集合中的当前用电大数据进行聚类,得到当前用电大数据类别集合;
对所述当前用电大数据类别集合中的当前用电大数据进行分类存储处理。
进一步的,所述根据所述当前用电大数据集合,对所述当前用电大数据集合中的每个当前用电大数据进行重复性分析处理,得到每个当前用电大数据对应的相对重复性,包括:
对所述当前用电大数据集合中的每个当前用电大数据进行重复字符提取,生成每个当前用电大数据对应的重复性字符空间;
根据所述当前用电大数据集合中的各个当前用电大数据对应的重复性字符空间,确定每个当前用电大数据对应的基础重复性集合;
根据每个当前用电大数据对应的基础重复性集合,确定每个当前用电大数据对应的相对重复性。
进一步的,所述根据所述当前用电大数据集合中的各个当前用电大数据对应的重复性字符空间,确定每个当前用电大数据对应的基础重复性集合,包括:
对当前用电大数据对应的重复性字符空间和当前用电大数据对应的其他当前用电大数据对应的重复性字符空间进行重复字符提取,生成其他重复性字符空间,得到当前用电大数据对应的其他重复性字符空间集合,其中,当前用电大数据对应的其他当前用电大数据是所述当前用电大数据集合中除了该当前用电大数据之外的当前用电大数据;
根据所述当前用电大数据集合、每个当前用电大数据对应的其他重复性字符空间集合中的每个其他重复性字符空间,确定基础重复性,得到每个当前用电大数据对应的基础重复性集合。
进一步的,所述当前用电大数据集合中的当前用电大数据包括:当前平均用电量和当前单位平均电量序列,历史用电大数据序列中的历史用电大数据包括:历史单位平均电量序列;
所述根据所述当前用电大数据集合和所述当前用电大数据集合中的各个当前用电大数据对应的历史用电大数据序列,对所述当前用电大数据集合中的每个当前用电大数据进行异常性分析处理,得到每个当前用电大数据对应的相对异常度,包括:
根据所述当前用电大数据集合中的各个当前用电大数据包括的当前平均用电量和当前单位平均电量序列,确定每个当前用电大数据对应的当前第一异常性;
根据所述当前用电大数据集合中的每个当前用电大数据对应的历史用电大数据序列中的历史用电大数据包括的历史单位平均电量序列、每个当前用电大数据包括的当前单位平均电量序列,确定每个当前用电大数据对应的当前第二异常性;
根据所述当前用电大数据集合中的每个当前用电大数据对应的当前第一异常性和当前第二异常性,确定每个当前用电大数据对应的相对异常度。
进一步的,所述根据所述当前用电大数据集合中的各个当前用电大数据包括的当前平均用电量和当前单位平均电量序列,确定每个当前用电大数据对应的当前第一异常性,包括:
根据所述当前用电大数据集合中的各个当前用电大数据包括的当前平均用电量、所述当前用电大数据集合中的当前用电大数据包括的当前平均用电量的均值、所述当前用电大数据集合中当前用电大数据的数量,确定所述当前时间段对应的当前用电波动参数;
根据所述当前用电大数据集合中的各个当前用电大数据包括的当前单位平均电量序列中的每个当前单位平均电量、所述当前用电大数据集合中当前用电大数据的数量,确定所述当前时间段包括的每个当前单位时间段对应的当前单位电波动参数;
根据所述当前用电大数据集合中的各个当前用电大数据包括的当前单位平均电量序列、所述当前用电波动参数、所述当前时间段包括的各个当前单位时间段对应的当前单位电波动参数、所述当前用电大数据集合中当前用电大数据的数量,确定每个当前用电大数据对应的当前第一异常性。
进一步的,所述根据所述当前用电大数据集合中的每个当前用电大数据对应的历史用电大数据序列中的历史用电大数据包括的历史单位平均电量序列、每个当前用电大数据包括的当前单位平均电量序列,确定每个当前用电大数据对应的当前第二异常性,包括:
将当前用电大数据对应的历史用电大数据序列中的历史用电大数据包括的历史单位平均电量序列中的历史单位平均电量的均值,确定为当前用电大数据对应的当前总电量均值;
根据所述当前用电大数据集合中的每个当前用电大数据对应的当前总电量均值、每个当前用电大数据对应的历史用电大数据序列中的历史用电大数据包括的历史单位平均电量序列、每个当前用电大数据包括的当前单位平均电量序列、当前时间段和历史时间段,确定每个当前用电大数据对应的当前第二异常性。
进一步的,所述根据所述当前用电大数据集合中的各个当前用电大数据对应的相对重复性和相对异常度,对所述当前用电大数据集合中的当前用电大数据进行聚类,得到当前用电大数据类别集合,包括:
将所述当前用电大数据集合中的每个当前用电大数据对应的相对重复性,确定为所述当前用电大数据对应的横坐标;
将所述当前用电大数据集合中的每个当前用电大数据对应的相对异常度,确定为所述当前用电大数据对应的纵坐标;
将所述当前用电大数据集合中的每个当前用电大数据对应的横坐标和纵坐标,组合为所述当前用电大数据对应的当前坐标;
根据所述当前用电大数据集合中的各个当前用电大数据对应的当前坐标,确定所述当前用电大数据集合中各个当前用电大数据之间的欧式距离;
根据所述当前用电大数据集合中各个当前用电大数据之间的欧式距离,对所述当前用电大数据集合中的当前用电大数据进行聚类,得到当前用电大数据类别集合。
进一步的,所述对所述当前用电大数据类别集合中的当前用电大数据进行分类存储处理,包括:
对所述当前用电大数据类别集合中的每个当前用电大数据类别中各个当前用电大数据进行压缩,得到所述当前用电大数据类别对应的压缩文件;
对所述当前用电大数据类别集合中的各个当前用电大数据类别对应的压缩文件进行分类存储。
本发明具有如下有益效果:
本发明的一种用于数字信息的大数据分析处理方法,利用相对重复性与异常性对不同的区域的用电大数据进行聚类压缩存储处理,解决了后续对用电大数据异常程度分析的效率低下的技术问题,提高了后续对用电大数据异常程度分析的效率。首先,获取当前用电大数据集合和上述当前用电大数据集合中的每个当前用电大数据对应的历史用电大数据序列。实际情况中,获取当前用电大数据集合,可以便于后续比较当前用电大数据集合中当前用电大数据之间的重复性。其次,获取当前用电大数据对应的历史用电大数据序列,可以便于后续根据历史用电大数据序列可以判断当前用电大数据的异常性。接着,根据上述当前用电大数据集合,对上述当前用电大数据集合中的每个当前用电大数据进行重复性分析处理,得到每个当前用电大数据对应的相对重复性。实际情况中,通过当前用电大数据集合,对当前用电大数据进行重复性分析处理,可以提高当前用电大数据对应的相对重复性确定的准确度。并且,可以便于后续基于当前用电大数据对应的相对重复性,对当前用电大数据进行压缩,可以提高对当前用电大数据进行压缩的效率。然后,根据上述当前用电大数据集合和上述当前用电大数据集合中的各个当前用电大数据对应的历史用电大数据序列,对上述当前用电大数据集合中的每个当前用电大数据进行异常性分析处理,得到每个当前用电大数据对应的相对异常度。实际情况中,综合考虑当前用电大数据集合和各个当前用电大数据对应的历史用电大数据序列,可以提高当前用电大数据对应的相对异常度确定的准确度。并且,可以便于后续对不同异常程度的大数据进行分类处理,可以减少智能电网的数字化转型对数据进行二次异常性分析的算力浪费。之后,根据上述当前用电大数据集合中的各个当前用电大数据对应的相对重复性和相对异常度,对上述当前用电大数据集合中的当前用电大数据进行聚类,得到当前用电大数据类别集合。最后,对上述当前用电大数据类别集合中的当前用电大数据进行分类存储处理。因此,本发明利用相对重复性与异常性对不同的区域的用电大数据进行聚类压缩存储处理,在进行压缩或者存储的时候不仅能满足压缩所需要的数据的重复性,也能对不同异常程度的大数据进行分类处理,减少了智能电网的数字化转型对数据进行二次异常性分析的算力浪费,解决了后续对用电大数据异常程度分析的效率低下的技术问题,提高了后续对用电大数据异常程度分析的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为根据本发明的一种用于数字信息的大数据分析处理方法的流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的技术方案的具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一个实施例。此外,一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
本发明提供了一种用于数字信息的大数据分析处理方法,该方法包括以下步骤:
获取当前用电大数据集合和当前用电大数据集合中的每个当前用电大数据对应的历史用电大数据序列;
根据当前用电大数据集合,对当前用电大数据集合中的每个当前用电大数据进行重复性分析处理,得到每个当前用电大数据对应的相对重复性;
根据当前用电大数据集合和当前用电大数据集合中的各个当前用电大数据对应的历史用电大数据序列,对当前用电大数据集合中的每个当前用电大数据进行异常性分析处理,得到每个当前用电大数据对应的相对异常度;
根据当前用电大数据集合中的各个当前用电大数据对应的相对重复性和相对异常度,对当前用电大数据集合中的当前用电大数据进行聚类,得到当前用电大数据类别集合;
对当前用电大数据类别集合中的当前用电大数据进行分类存储处理。
下面对上述各个步骤进行详细展开:
参考图1,示出了根据本发明的一种用于数字信息的大数据分析处理方法的一些实施例的流程。该用于数字信息的大数据分析处理方法,包括以下步骤:
步骤S1,获取当前用电大数据集合和当前用电大数据集合中的每个当前用电大数据对应的历史用电大数据序列。
在一些实施例中,可以获取当前用电大数据集合和上述当前用电大数据集合中的每个当前用电大数据对应的历史用电大数据序列。
其中,当前用电大数据集合中的当前用电大数据可以是当前时间段下的用电大数据。用电大数据可以是包括与电力相关数据的大数据。历史用电大数据序列中的历史用电大数据可以是历史时间段下的用电大数据。当前时间段的开始时间可以是历史时间段的结束时间。当前时间段对应的时长可以等于1天。比如,当前时间段的开始时间可以为2022年11月05日00时00分00秒。当前时间段的结束时间可以为2022年11月05日24时00分00秒。历史时间段对应的时长可以等于7天。比如,历史时间段的开始时间可以为2022年10月29日00时00分00秒。历史时间段的结束时间可以为2022年11月05日00时00分00秒。历史用电大数据序列中的每个历史用电大数据对应的时长可以等于当前用电大数据对应的时长。历史用电大数据序列中的各个历史用电大数据对应的时长的和等于历史时间段对应的时长。
例如,用电大数据可以是某个区域的居民用电大数据。居民用电大数据可以表征某个区域的居民的用电情况。比如,居民用电大数据可以是居民用电日志数据。居民用电大数据可以包括但不限于:居住在某个区域的各个居民的姓名、详细住址和用电量。当前用电大数据集合可以表征某个地区(如,某个居民小区)的居民的用电情况。当前用电大数据集合中的当前用电大数据可以表征该地区包括的区域(如,该居民小区包括的居民楼)的居民的用电情况。其中,各个区域的居民规模可以相同。
当前用电大数据对应的历史用电大数据序列对应的区域可以与该当前用电大数据对应的区域相同。比如,当前用电大数据可以是在2022年11月05日全天,某个居民小区包括的5号居民楼的居民用电大数据。当历史用电大数据序列中历史用电大数据的数量为2时,该当前用电大数据对应的历史用电大数据序列可以包括:在2022年11月04日全天该居民小区包括的5号居民楼的居民用电大数据,在2022年11月03日全天该居民小区包括的5号居民楼的居民用电大数据。
步骤S2,根据当前用电大数据集合,对当前用电大数据集合中的每个当前用电大数据进行重复性分析处理,得到每个当前用电大数据对应的相对重复性。
在一些实施例中,可以根据上述当前用电大数据集合,对上述当前用电大数据集合中的每个当前用电大数据进行重复性分析处理,得到每个当前用电大数据对应的相对重复性。
作为示例,本步骤可以包括以下步骤:
第一步,对上述当前用电大数据集合中的每个当前用电大数据进行重复字符提取,生成每个当前用电大数据对应的重复性字符空间。
例如,可以通过STC(Suffix Tree Clustering,去重)算法,对每个当前用电大数据进行重复字符提取,生成每个当前用电大数据对应的重复性字符空间。
当前用电大数据对应的重复性字符空间可以如下所示:
Figure DEST_PATH_IMAGE001
其中,
Figure 218640DEST_PATH_IMAGE002
是当前用电大数据集合中第n个当前用电大数据对应的重复性字符空 间。
Figure 571998DEST_PATH_IMAGE003
是当前用电大数据集合中第n个当前用电大数据中第1个重复的字符的重复次数。 重复的字符可以是至少出现两次的字符。
Figure 289419DEST_PATH_IMAGE004
是当前用电大数据集合中第n个当前用电大 数据中第1个重复的字符。
Figure 887890DEST_PATH_IMAGE005
是当前用电大数据集合中第n个当前用电大数据中第2个重 复的字符的重复次数。
Figure 639945DEST_PATH_IMAGE006
是当前用电大数据集合中第n个当前用电大数据中第2个重复的 字符。
Figure 107748DEST_PATH_IMAGE007
是当前用电大数据集合中第n个当前用电大数据中第h个重复的字符的重复次 数。
Figure 312464DEST_PATH_IMAGE008
是当前用电大数据集合中第n个当前用电大数据中第h个重复的字符。
Figure 714627DEST_PATH_IMAGE009
是当前 用电大数据集合中第n个当前用电大数据中第H个重复的字符的重复次数。
Figure 22986DEST_PATH_IMAGE010
是当前用电 大数据集合中第n个当前用电大数据中第H个重复的字符。H是所有重复字符的数量。
第二步,根据上述当前用电大数据集合中的各个当前用电大数据对应的重复性字符空间,确定每个当前用电大数据对应的基础重复性集合。
其中,当前用电大数据对应的基础重复性集合中的基础重复性可以是该当前用电大数据与当前用电大数据集合中除了该当前用电大数据之外的当前用电大数据之间的基础重复性。
例如,本步骤可以包括以下子步骤:
第一子步骤,对当前用电大数据对应的重复性字符空间和当前用电大数据对应的其他当前用电大数据对应的重复性字符空间进行重复字符提取,生成其他重复性字符空间,得到当前用电大数据对应的其他重复性字符空间集合。
其中,当前用电大数据对应的其他当前用电大数据是上述当前用电大数据集合中除了该当前用电大数据之外的当前用电大数据。其他重复性字符空间可以是当前用电大数据和当前用电大数据集合中除了该当前用电大数据之外的当前用电大数据对应的重复性字符空间,这两个重复性字符空间之间的重复性字符空间。
比如,可以通过STC算法,对当前用电大数据对应的重复性字符空间和当前用电大数据对应的其他当前用电大数据对应的重复性字符空间,这两个重复性字符空间中的重复字符进行提取,生成其他重复性字符空间。
第二子步骤,根据上述当前用电大数据集合、每个当前用电大数据对应的其他重复性字符空间集合中的每个其他重复性字符空间,确定基础重复性,得到每个当前用电大数据对应的基础重复性集合。
比如,确定基础重复性对应的公式可以为:
Figure 954033DEST_PATH_IMAGE011
其中,
Figure 646046DEST_PATH_IMAGE012
是当前用电大数据集合中第n个当前用电大数据与第
Figure 586320DEST_PATH_IMAGE013
个当前用电大 数据之间的基础重复性。
Figure 545923DEST_PATH_IMAGE014
是当前用电大数据集合中第n个当前用电大数据包括的所有字 符的总长度。
Figure 116713DEST_PATH_IMAGE015
是当前用电大数据集合中第
Figure 296022DEST_PATH_IMAGE013
个当前用电大数据包括的所有字符的总长 度。
Figure 774407DEST_PATH_IMAGE016
Figure 57359DEST_PATH_IMAGE017
,并且
Figure 330208DEST_PATH_IMAGE018
N是当前用电大数据集合中当前用电大数据的数 量。n
Figure 262392DEST_PATH_IMAGE013
是当前用电大数据集合中的当前用电大数据的序号。
Figure 795003DEST_PATH_IMAGE019
是当前用电大数据集合 中第n个当前用电大数据与第
Figure 433926DEST_PATH_IMAGE013
个当前用电大数据对应的重复性字符空间,这两个重复性 字符空间之间的重复性字符空间中第
Figure 143256DEST_PATH_IMAGE020
个重复的字符的重复次数。
Figure 297157DEST_PATH_IMAGE021
是当前用电大数 据集合中第n个当前用电大数据与第
Figure 819143DEST_PATH_IMAGE013
个当前用电大数据对应的重复性字符空间,这两个 重复性字符空间之间的重复性字符空间中第
Figure 374889DEST_PATH_IMAGE020
个重复的字符的重复长度。
Figure 255120DEST_PATH_IMAGE022
是当前用电大 数据集合中第n个当前用电大数据与第
Figure 129273DEST_PATH_IMAGE013
个当前用电大数据对应的重复性字符空间,这两 个重复性字符空间中重复字符的总个数。
Figure 690836DEST_PATH_IMAGE023
Figure 101088DEST_PATH_IMAGE020
是当前用电大数据集合中第n个当 前用电大数据与第
Figure 417800DEST_PATH_IMAGE013
个当前用电大数据对应的重复性字符空间,这两个重复性字符空间中 重复字符的序号。
实际情况中,若第n个当前用电大数据为第n个区域的居民用电大数据,记为
Figure 982512DEST_PATH_IMAGE024
。第
Figure 410082DEST_PATH_IMAGE013
个当前用电大数据为第
Figure 409262DEST_PATH_IMAGE013
个区域的居民用电大数据,记为
Figure 135690DEST_PATH_IMAGE025
。则
Figure 689163DEST_PATH_IMAGE012
可以表征第
Figure 654845DEST_PATH_IMAGE026
个 区域和第
Figure 774110DEST_PATH_IMAGE013
个区域对应的居民用电大数据
Figure 400001DEST_PATH_IMAGE024
Figure 503087DEST_PATH_IMAGE025
中的重复字符的数据量与
Figure 6880DEST_PATH_IMAGE024
Figure 948029DEST_PATH_IMAGE025
总体 数据量的比值,数据量的量化方式为通过字符的长度进行量化,
Figure 246287DEST_PATH_IMAGE012
越大,往往说明
Figure 836668DEST_PATH_IMAGE024
Figure 144152DEST_PATH_IMAGE025
重复的数据越多,后续对
Figure 470966DEST_PATH_IMAGE024
Figure 408966DEST_PATH_IMAGE025
进行压缩的时候,对其进行同时压缩时往往具有较高 的压缩率,反之则相反。而建立重复性字符空间的目的是在每个当前用电大数据与第
Figure 955485DEST_PATH_IMAGE026
个 当前用电大数据进行重复性字符检测的时候更加的方便,并且过滤一小部分重复性较低的 重复字符,可以减少计算量,可以减少计算资源的占用。
第三步,根据每个当前用电大数据对应的基础重复性集合,确定每个当前用电大数据对应的相对重复性。
例如,确定每个当前用电大数据对应的相对重复性对应的公式可以为:
Figure 66661DEST_PATH_IMAGE027
其中,
Figure 773280DEST_PATH_IMAGE028
是当前用电大数据集合中第n个当前用电大数据对应的相对重复性。N是 当前用电大数据集合中当前用电大数据的数量。n
Figure 678919DEST_PATH_IMAGE013
是当前用电大数据集合中的当前用 电大数据的序号。
Figure 915997DEST_PATH_IMAGE012
是当前用电大数据集合中第n个当前用电大数据与第
Figure 63819DEST_PATH_IMAGE013
个当前用电 大数据之间的基础重复性。
实际情况中,若第n个当前用电大数据为第n个区域的居民用电大数据,记为
Figure 866690DEST_PATH_IMAGE024
。则 第
Figure 208810DEST_PATH_IMAGE026
个区域第
Figure DEST_PATH_IMAGE029
天的居民用电大数据
Figure 369402DEST_PATH_IMAGE024
的相对重复性
Figure 556800DEST_PATH_IMAGE028
是利用
Figure 479757DEST_PATH_IMAGE024
与其他所有
Figure 992778DEST_PATH_IMAGE030
个区域 的基础重复性的平均值,该值越大,说明
Figure 499720DEST_PATH_IMAGE024
与其他区域的居民用电大数据中重复的数据越 多,反之则相反。实现了根据不同区域的相同时间节点内的用电大数据进行不同区域之间 的用电大数据相对重复性特征的量化。并且,当前用电大数据之间的相对重复性越高,在进 行压缩时的压缩率往往就越高。
步骤S3,根据当前用电大数据集合和当前用电大数据集合中的各个当前用电大数据对应的历史用电大数据序列,对当前用电大数据集合中的每个当前用电大数据进行异常性分析处理,得到每个当前用电大数据对应的相对异常度。
在一些实施例中,可以根据上述当前用电大数据集合和上述当前用电大数据集合中的各个当前用电大数据对应的历史用电大数据序列,对上述当前用电大数据集合中的每个当前用电大数据进行异常性分析处理,得到每个当前用电大数据对应的相对异常度。
其中,上述当前用电大数据集合中的当前用电大数据可以包括:当前平均用电量和当前单位平均电量序列。历史用电大数据序列中的历史用电大数据可以包括:历史单位平均电量序列。当前平均用电量可以是当前时间段内的平均用电量。当前单位平均电量序列中的当前单位平均电量可以是当前时间段包括的单位时间段内的平均用电量。单位时间段对应的时长可以是1小时。历史单位平均电量序列中的历史单位平均电量可以是历史用电大数据对应的时间段包括的单位时间段内的平均用电量。例如,平均用电量可以是居民平均用电量。
例如,历史用电大数据对应的时间段可以是2022年11月04日全天。单位时间段对应的时长可以为1小时。则历史单位平均电量序列可以包括:2022年11月04日包括的24个小时包括的各个小时内的平均用电量。
作为示例,本步骤可以包括以下步骤:
第一步,根据上述当前用电大数据集合中的各个当前用电大数据包括的当前平均用电量和当前单位平均电量序列,确定每个当前用电大数据对应的当前第一异常性。
例如,本步骤可以包括以下子步骤:
第一子步骤,根据上述当前用电大数据集合中的各个当前用电大数据包括的当前平均用电量、上述当前用电大数据集合中的当前用电大数据包括的当前平均用电量的均值、上述当前用电大数据集合中当前用电大数据的数量,确定上述当前时间段对应的当前用电波动参数。
比如,确定上述当前时间段对应的当前用电波动参数对应的公式可以为:
Figure 694072DEST_PATH_IMAGE031
其中,
Figure 471536DEST_PATH_IMAGE032
是当前时间段对应的当前用电波动参数。
Figure 394273DEST_PATH_IMAGE033
是以自然常数为底的指数 函数。N是当前用电大数据集合中当前用电大数据的数量。n是当前用电大数据集合中的当 前用电大数据的序号。
Figure 889977DEST_PATH_IMAGE016
Figure 684757DEST_PATH_IMAGE034
是当前时间段内,当前用电大数据集合中的第n个当 前用电大数据包括的当前平均用电量。
Figure 519989DEST_PATH_IMAGE035
是当前用电大数据集合中的当前用电大数据包括 的当前平均用电量的均值。
又如,若当前时间段用第t天表示,第n个当前用电大数据为第n个区域的居民用电 大数据,当前用电大数据集合中当前用电大数据的数量N等于所有区域的总数,则当前时间 段内,当前用电大数据集合中的第n个当前用电大数据包括的当前平均用电量
Figure 607769DEST_PATH_IMAGE034
是第t天 第n个区域的居民的平均用电量。当前用电大数据集合中的当前用电大数据包括的当前平 均用电量的均值
Figure 590768DEST_PATH_IMAGE035
是第t天所有N个区域的居民的平均用电量的平均值。当前时间段对应的 当前用电波动参数
Figure 189240DEST_PATH_IMAGE032
是第t天的用电波动参数。
实际情况中,
Figure 675716DEST_PATH_IMAGE032
可以为第
Figure 199976DEST_PATH_IMAGE029
天的用电波动参数,其计算过程为对第
Figure 404692DEST_PATH_IMAGE029
天所有
Figure 541276DEST_PATH_IMAGE036
个区 域的居民的平均用电量方差的衰减取反,在第
Figure 882258DEST_PATH_IMAGE029
天所有的居民平均用电量波动情况越大的 时候(方差越大),
Figure 780682DEST_PATH_IMAGE032
值则越小,在第
Figure 472694DEST_PATH_IMAGE029
天所有的居民平均用电量波动情况越小的时候(方差 越小),
Figure 147389DEST_PATH_IMAGE032
值则越大。物理逻辑为当第
Figure 390150DEST_PATH_IMAGE029
天所有的
Figure 757677DEST_PATH_IMAGE036
个区域的居民用的平均用电量差异比较 大的时候,进行第
Figure 671407DEST_PATH_IMAGE026
个区域的第一异常性的时候容易产生异常放大的情况(如,每个区域的 居民平均用电量都有着显著的差异,即不同区域在相同的时间内用电趋势量化不明显),所 以利用该参数对其进行约束,反之则相反。
第二子步骤,根据上述当前用电大数据集合中的各个当前用电大数据包括的当前单位平均电量序列中的每个当前单位平均电量、上述当前用电大数据集合中当前用电大数据的数量,确定上述当前时间段包括的每个当前单位时间段对应的当前单位电波动参数。
比如,确定当前时间段包括的每个当前单位时间段对应的当前单位电波动参数对应的公式可以为:
Figure 353055DEST_PATH_IMAGE037
其中,
Figure 432744DEST_PATH_IMAGE038
是当前时间段包括的第i个当前单位时间段对应的当前单位电波动参 数。
Figure 971173DEST_PATH_IMAGE033
是以自然常数为底的指数函数。
Figure 637778DEST_PATH_IMAGE039
是当前用电大数据集合中的第
Figure 654275DEST_PATH_IMAGE013
个当前用电 大数据包括的当前单位平均电量序列中第i个当前单位平均电量,其中,第i个当前单位平 均电量可以是第i个当前单位时间段内的平均用电量。i可以是当前时间段包括的当前单位 时间段的序号。i还可以是当前单位平均电量的序号。N是当前用电大数据集合中当前用电 大数据的数量。n
Figure 791733DEST_PATH_IMAGE013
是当前用电大数据集合中的当前用电大数据的序号。
Figure 235484DEST_PATH_IMAGE040
是当前用电 大数据集合中的第n个当前用电大数据包括的当前单位平均电量序列中第i个当前单位平 均电量。
Figure 389385DEST_PATH_IMAGE016
Figure 708108DEST_PATH_IMAGE017
Figure 998275DEST_PATH_IMAGE018
又如,若当前时间段用第t天表示,第i个当前单位时间段用第i小时表示,第n个当 前用电大数据为第n个区域的居民用电大数据,
Figure 878507DEST_PATH_IMAGE013
个当前用电大数据为为第
Figure 254124DEST_PATH_IMAGE013
个区域的居 民用电大数据,当前用电大数据集合中当前用电大数据的数量N等于所有区域的总数,则当 前用电大数据集合中的第
Figure 382398DEST_PATH_IMAGE013
个当前用电大数据包括的当前单位平均电量序列中第i个当前 单位平均电量
Figure 792651DEST_PATH_IMAGE039
是第t天的第i个小时中的第
Figure 578205DEST_PATH_IMAGE013
个区域的居民的平均用电量。当前用电大 数据集合中的第n个当前用电大数据包括的当前单位平均电量序列中第i个当前单位平均 电量
Figure 644381DEST_PATH_IMAGE040
是第t天的第i个小时中的第n个区域的居民的平均用电量。当前时间段包括的第i 个当前单位时间段对应的当前单位电波动参数
Figure 977011DEST_PATH_IMAGE038
是第t天的第i个小时的用电波动参数。
实际情况中,
Figure 241770DEST_PATH_IMAGE038
可以为第
Figure 165601DEST_PATH_IMAGE029
天的第
Figure DEST_PATH_IMAGE041
个小时用电波动参数,其每个区域不同,对应 的
Figure 453494DEST_PATH_IMAGE038
值大小不同,计算方式为利用当前区域的居民的平均用电量与整体所有区域的平均 用电量做差,而后进行取反衰减,物理意义以第
Figure 419176DEST_PATH_IMAGE042
个区域为例,当第
Figure 36977DEST_PATH_IMAGE013
个区域与其他所有的 区域在第
Figure 633175DEST_PATH_IMAGE041
个小时居民平均用电量差异较大的时候,利用第
Figure 470681DEST_PATH_IMAGE013
个区域的第
Figure 467150DEST_PATH_IMAGE041
个小时的居民的 平均用电量对第
Figure 440922DEST_PATH_IMAGE026
个区域的居民平均用电量进行度量的时候,容易引发度量不准确的情 况。在正常的情况下,假设第
Figure 4759DEST_PATH_IMAGE013
个区域的居民平均用电量是异常的,其往往不符合第
Figure 595140DEST_PATH_IMAGE041
个小 时整体所有区域的居民用电量的趋势,那么用其对第
Figure 135581DEST_PATH_IMAGE026
个区域的第
Figure 432701DEST_PATH_IMAGE041
小时的居民平均用电 量异常与否度量往往是不准确的,在这个时候
Figure 167439DEST_PATH_IMAGE038
的值就特别小,而后在整体的求和计算中 对其进行一定程度上的忽略,使得该异常数据不会对第
Figure 713958DEST_PATH_IMAGE026
个区域的第
Figure 323668DEST_PATH_IMAGE041
小时的居民平均用 电量异常造成较大的影响。
第三子步骤,根据上述当前用电大数据集合中的各个当前用电大数据包括的当前单位平均电量序列、上述当前用电波动参数、上述当前时间段包括的各个当前单位时间段对应的当前单位电波动参数、上述当前用电大数据集合中当前用电大数据的数量,确定每个当前用电大数据对应的当前第一异常性。
比如,确定每个当前用电大数据对应的当前第一异常性对应的公式可以为:
Figure 537612DEST_PATH_IMAGE043
其中,
Figure 443251DEST_PATH_IMAGE044
是当前用电大数据集合中第n个当前用电大数据对应的当前第一异常 性。
Figure 477066DEST_PATH_IMAGE032
是当前时间段对应的当前用电波动参数。N是当前用电大数据集合中当前用电大数据 的数量。n
Figure 359309DEST_PATH_IMAGE013
是当前用电大数据集合中的当前用电大数据的序号。
Figure 631022DEST_PATH_IMAGE038
是当前时间段包括 的第i个当前单位时间段对应的当前单位电波动参数。
Figure 707562DEST_PATH_IMAGE039
是当前用电大数据集合中的第
Figure 733068DEST_PATH_IMAGE013
个当前用电大数据包括的当前单位平均电量序列中第i个当前单位平均电量,其中,第i 个当前单位平均电量可以是第i个当前单位时间段内的平均用电量。i可以是当前时间段包 括的当前单位时间段的序号。i还可以是当前单位平均电量的序号。
Figure 186046DEST_PATH_IMAGE040
是当前用电大数据 集合中的第n个当前用电大数据包括的当前单位平均电量序列中第i个当前单位平均电量。
Figure 109003DEST_PATH_IMAGE045
是当前时间段包括的当前单位时间段的数量。如,若当前时间段对应的时长为1天,当前 单位时间段对应的时长为1小时,则
Figure 356444DEST_PATH_IMAGE046
又如,若当前时间段用第t天表示,第i个当前单位时间段用第i小时表示,第n个当 前用电大数据为第n个区域的居民用电大数据,
Figure 863387DEST_PATH_IMAGE013
个当前用电大数据为为第
Figure 854477DEST_PATH_IMAGE013
个区域的居 民用电大数据,当前用电大数据集合中当前用电大数据的数量N等于所有区域的总数,则
Figure 631940DEST_PATH_IMAGE039
是第t天的第i个小时中的第
Figure 253545DEST_PATH_IMAGE013
个区域的居民的平均用电量。
Figure 982204DEST_PATH_IMAGE040
是第t天的第i个小时 中的第n个区域的居民的平均用电量。
Figure 776985DEST_PATH_IMAGE038
是第t天的第i个小时的用电波动参数。
Figure 674534DEST_PATH_IMAGE032
是第t天 的用电波动参数。
Figure 263778DEST_PATH_IMAGE046
。可以量化第n个区域的用电量与其余N-1个区域的用电量在第t 天内的第一异常性。
实际情况中,通过每个区域(非第
Figure 745313DEST_PATH_IMAGE026
个区域)每个小时与第
Figure 281468DEST_PATH_IMAGE026
个区域每个小时的居 民平均用电量在
Figure 767944DEST_PATH_IMAGE038
的影响下计算的差异值,而后以
Figure 309782DEST_PATH_IMAGE032
对整体进行约束求取平均值。以其余 的
Figure 514498DEST_PATH_IMAGE030
个非第
Figure 385502DEST_PATH_IMAGE026
个区域的每个小时的居民的平均用电量的趋势在
Figure 257643DEST_PATH_IMAGE038
的影响下与
Figure 952805DEST_PATH_IMAGE032
的约束 下进行第
Figure 582500DEST_PATH_IMAGE026
个区域的第
Figure 522774DEST_PATH_IMAGE029
天的居民的平均用电量的异常计算,
Figure 983843DEST_PATH_IMAGE044
越大,说明第
Figure 584326DEST_PATH_IMAGE026
个地区的 第
Figure 763635DEST_PATH_IMAGE029
天的居民的平均用电量趋势与其余地区的用电趋势相悖越大,即该地区该时间段内的 用电越异常,反之则相反。
第二步,根据上述当前用电大数据集合中的每个当前用电大数据对应的历史用电大数据序列中的历史用电大数据包括的历史单位平均电量序列、每个当前用电大数据包括的当前单位平均电量序列,确定每个当前用电大数据对应的当前第二异常性。
例如,本步骤可以包括以下子步骤:
第一子步骤,将当前用电大数据对应的历史用电大数据序列中的历史用电大数据包括的历史单位平均电量序列中的历史单位平均电量的均值,确定为当前用电大数据对应的当前总电量均值。
第二子步骤,根据上述当前用电大数据集合中的每个当前用电大数据对应的当前总电量均值、每个当前用电大数据对应的历史用电大数据序列中的历史用电大数据包括的历史单位平均电量序列、每个当前用电大数据包括的当前单位平均电量序列、当前时间段和历史时间段,确定每个当前用电大数据对应的当前第二异常性。
比如,确定每个当前用电大数据对应的当前第二异常性对应的公式可以为:
Figure 242021DEST_PATH_IMAGE047
其中,
Figure 823175DEST_PATH_IMAGE048
是当前用电大数据集合中第n个当前用电大数据对应的当前第二异常 性。n是当前用电大数据集合中的当前用电大数据的序号。
Figure 860139DEST_PATH_IMAGE045
是当前时间段包括的当前单位 时间段的数量。i可以是当前时间段包括的当前单位时间段的序号。如,若当前时间段对应 的时长为1天,当前单位时间段对应的时长为1小时,则
Figure 464426DEST_PATH_IMAGE046
Figure 746503DEST_PATH_IMAGE049
是当前用电大数据集合 中的第n个当前用电大数据包括的当前单位平均电量序列中第i个当前单位平均电量。i还 可以是当前单位平均电量的序号。
Figure 952137DEST_PATH_IMAGE050
是当前用电大数据集合中第n个当前用电大数据对 应的当前总电量均值。
Figure 395888DEST_PATH_IMAGE051
是历史用电大数据序列中历史用电大数据的数量。历史用电大数 据序列中历史用电大数据的数量可以等于历史时间段对应的时长与当前时间段对应的时 长的比值。
Figure 549789DEST_PATH_IMAGE052
。如,若当前时间段对应的时长为1天,历史时间段对应的时长为7天,则
Figure 369977DEST_PATH_IMAGE053
Figure 361942DEST_PATH_IMAGE054
是当前用电大数据集合中第n个当前用电大数据对应的历史用电大数据序列 中第
Figure 242173DEST_PATH_IMAGE055
个历史用电大数据包括的历史单位平均电量序列中第i个历史单位平均电量。
Figure 617791DEST_PATH_IMAGE056
是当前用电大数据集合中第n个当前用电大数据对应的历史用电大数据序列中第
Figure 241670DEST_PATH_IMAGE057
个 历史用电大数据包括的历史单位平均电量序列中第i个历史单位平均电量。
Figure 88141DEST_PATH_IMAGE058
又如,若当前时间段用第t天表示,第i个当前单位时间段用第i小时表示,第n个当 前用电大数据为第n个区域的居民用电大数据,
Figure 139274DEST_PATH_IMAGE013
个当前用电大数据为为第
Figure 2188DEST_PATH_IMAGE013
个区域的居 民用电大数据,当前用电大数据集合中当前用电大数据的数量N等于所有区域的总数,第
Figure 662714DEST_PATH_IMAGE055
个历史用电大数据为第t天的第前
Figure 193052DEST_PATH_IMAGE055
天的居民用电大数据,第
Figure 415086DEST_PATH_IMAGE057
个历史用电大数据为第t天的第前
Figure 499717DEST_PATH_IMAGE057
天的居民用电大数据,则
Figure 958075DEST_PATH_IMAGE046
Figure 77341DEST_PATH_IMAGE049
表示第n个区域第t天的第i小时的居 民平均用电量。
Figure 470276DEST_PATH_IMAGE054
表示第n个区域第t天的第前
Figure 511044DEST_PATH_IMAGE055
天第i小时的居民平均用电量。
Figure 513373DEST_PATH_IMAGE056
表 示第n个区域第t天的第前
Figure 487145DEST_PATH_IMAGE057
天第i小时的居民平均用电量。
Figure 316561DEST_PATH_IMAGE050
表示第n个区域第t天 的前
Figure 110205DEST_PATH_IMAGE051
天所有的第i小时的居民平均用电量的平均值。可以量化第
Figure 181803DEST_PATH_IMAGE029
天的第
Figure 275661DEST_PATH_IMAGE026
个区域的用电 量与历史数据中的
Figure 213662DEST_PATH_IMAGE051
天的第
Figure 524295DEST_PATH_IMAGE026
个区域的用电量的第二异常性。
实际情况中,在对第二异常性的分析过程中,是考虑到第
Figure 573153DEST_PATH_IMAGE026
个区域的居民平均用电 量在不同的时间内发生自身波动的可能(如,工作日内用电时间较为集中,所以工作日内的 用电趋势往往更为明显,周末的时候居民用电比较零散,周末的用电趋势往往不太明显。), 所以利用
Figure 787097DEST_PATH_IMAGE051
天内的相同小时的用电量的平均值
Figure 692736DEST_PATH_IMAGE050
加上
Figure 230946DEST_PATH_IMAGE051
时间内每个相同小时内不同天 的居民平均用电量的差异值的平均值来对
Figure 880233DEST_PATH_IMAGE051
天内的相同小时的用电趋势进行表征,而后利 用第
Figure 151946DEST_PATH_IMAGE029
天的第
Figure 727021DEST_PATH_IMAGE041
个小时的居民的平均用电量与前
Figure 982553DEST_PATH_IMAGE051
天内的相同小时的用电趋势的差异值来 表示
Figure 435531DEST_PATH_IMAGE029
天的第
Figure 624067DEST_PATH_IMAGE041
个小时的居民的平均用电量的离群程度,即异常程度。
Figure 370044DEST_PATH_IMAGE048
越大,说明第
Figure 316134DEST_PATH_IMAGE026
个 区域第
Figure 307224DEST_PATH_IMAGE029
天的居民平均用电相较于前
Figure 84687DEST_PATH_IMAGE051
天而言异常程度越大,反之则相反。
第三步,根据上述当前用电大数据集合中的每个当前用电大数据对应的当前第一异常性和当前第二异常性,确定每个当前用电大数据对应的相对异常度。
例如,确定每个当前用电大数据对应的相对异常度对应的公式可以为:
Figure 1565DEST_PATH_IMAGE059
其中,
Figure 762848DEST_PATH_IMAGE060
是当前用电大数据集合中第n个当前用电大数据对应的相对异常度。
Figure 292049DEST_PATH_IMAGE044
是当前用电大数据集合中第n个当前用电大数据对应的当前第一异常性。
Figure 189598DEST_PATH_IMAGE048
是当前用 电大数据集合中第n个当前用电大数据对应的当前第二异常性。
实际情况中,以第
Figure 310718DEST_PATH_IMAGE026
个区域对应的居民用电大数据
Figure 28138DEST_PATH_IMAGE024
为例,就第
Figure 361031DEST_PATH_IMAGE026
个区域而言,在 不同的时间下,该区域的用电量往往是不一样的(此处的不同时间可以指不同天数),而在 相同的时间(如,同一天)内第
Figure 611621DEST_PATH_IMAGE026
个区域与其余的
Figure 637346DEST_PATH_IMAGE030
个区域的用电量往往应该是相似的, 所以对不同的时间的第
Figure 842063DEST_PATH_IMAGE026
个区域的用电量的变化趋势、相同时间内的第
Figure 978646DEST_PATH_IMAGE026
个区域的用电量 和不同区域的用电量的变化趋势分别进行差异性的分析,量化得到第一异常性与第二异常 性,而后根据量化的结果对第
Figure 287005DEST_PATH_IMAGE026
个区域内的用电量数据异常程度进行分析。第一异常性
Figure 218052DEST_PATH_IMAGE044
是通过用来描述第
Figure 910065DEST_PATH_IMAGE026
个地区第
Figure 115918DEST_PATH_IMAGE029
天的的居民的平均用电与其余
Figure 75521DEST_PATH_IMAGE030
个区域而言的异常程 度,第二异常性
Figure 177470DEST_PATH_IMAGE048
是通过用来描述第
Figure 356778DEST_PATH_IMAGE026
个地区第
Figure 542821DEST_PATH_IMAGE029
天的的居民的平均用电与自身前
Figure 858396DEST_PATH_IMAGE051
天而 言的异常程度。以这两个数据的乘积对第
Figure 662404DEST_PATH_IMAGE026
个区域的第
Figure 63429DEST_PATH_IMAGE029
天的居民平均用电量的异常程度 进行描述,
Figure 844041DEST_PATH_IMAGE060
越大说明第
Figure 14122DEST_PATH_IMAGE029
天的第
Figure 926715DEST_PATH_IMAGE026
个地区的居民的平均用电量的异常程度越大,而居民 的平均用电量是通过第
Figure 815036DEST_PATH_IMAGE026
个区域的第
Figure 133760DEST_PATH_IMAGE029
天的即对应的第
Figure 689506DEST_PATH_IMAGE029
天区域的居民用电大数据
Figure 569738DEST_PATH_IMAGE024
获取 而来,所以第
Figure 945355DEST_PATH_IMAGE026
个区域的居民用电大数据
Figure 67770DEST_PATH_IMAGE024
的异常程度也就越大;相反的,第
Figure 415706DEST_PATH_IMAGE026
个区域的居 民用电大数据
Figure 466838DEST_PATH_IMAGE024
的异常程度也就越小。实现了根据不同区域的同一时间的用电大数据趋势 与相同区域的不同时间的用电大数据的趋势进行每个区域的用电大数据的异常程度特征 量化。并且,当前用电大数据对应的相对异常度越相似,后续进行分类分区存储之后,对于 用电大数据的异常进行分析调取数据往往更为方便,更加节省计算资源,并且对于不同异 常程度的同类当前用电大数据进行不同压缩程度的存储时往往更为方便。
步骤S4,根据当前用电大数据集合中的各个当前用电大数据对应的相对重复性和相对异常度,对当前用电大数据集合中的当前用电大数据进行聚类,得到当前用电大数据类别集合。
在一些实施例中,可以根据上述当前用电大数据集合中的各个当前用电大数据对应的相对重复性和相对异常度,对上述当前用电大数据集合中的当前用电大数据进行聚类,得到当前用电大数据类别集合。
作为示例,本步骤可以包括以下步骤:
第一步,将上述当前用电大数据集合中的每个当前用电大数据对应的相对重复性,确定为上述当前用电大数据对应的横坐标。
第二步,将上述当前用电大数据集合中的每个当前用电大数据对应的相对异常度,确定为上述当前用电大数据对应的纵坐标。
第三步,将上述当前用电大数据集合中的每个当前用电大数据对应的横坐标和纵坐标,组合为上述当前用电大数据对应的当前坐标。
第四步,根据上述当前用电大数据集合中的各个当前用电大数据对应的当前坐标,确定上述当前用电大数据集合中各个当前用电大数据之间的欧式距离。
第五步,根据上述当前用电大数据集合中各个当前用电大数据之间的欧式距离,对上述当前用电大数据集合中的当前用电大数据进行聚类,得到当前用电大数据类别集合。
例如,可以根据上述当前用电大数据集合中各个当前用电大数据之间的欧式距离,利用现有的距离聚类算法,对上述当前用电大数据集合中的当前用电大数据进行聚类,得到当前用电大数据类别集合。利用不同区域的用电大数据的相对重复性特征与异常程度特征进行综合聚类,可以便于后续对数据进行分类别存储。
实际情况中,利用各个当前用电大数据对应的相对重复性和相对异常度进行聚类,可以使得具有相对重复性相似的,相对异常度相似的当前用电大数据被聚为一类,可以便于后续的处理。
步骤S5,对当前用电大数据类别集合中的当前用电大数据进行分类存储处理。
在一些实施例中,可以对上述当前用电大数据类别集合中的当前用电大数据进行分类存储处理。
作为示例,本步骤可以包括以下步骤:
第一步,对上述当前用电大数据类别集合中的每个当前用电大数据类别中各个当前用电大数据进行压缩,得到上述当前用电大数据类别对应的压缩文件。
例如,可以利用现有的压缩技术,对当前用电大数据类别中各个当前用电大数据进行压缩,得到该当前用电大数据类别对应的压缩文件。
第二步,对上述当前用电大数据类别集合中的各个当前用电大数据类别对应的压缩文件进行分类存储。
例如,可以对上述当前用电大数据类别集合中的各个当前用电大数据类别对应的压缩文件进行分区存储。即可以根据当前用电大数据所在的当前用电大数据类别,实现对当前用电大数据的分区存储,可以便于后续进行用电大数据异常程度分析,往往可以精确调用数据,可以减少计算量,可以减少计算资源的占用,并且还可以满足压缩所需要的数据的重复性,可以提高后续对用电大数据异常程度分析的效率。
本发明的一种用于数字信息的大数据分析处理方法,利用相对重复性与异常性对不同的区域的用电大数据进行聚类压缩存储处理,解决了后续对用电大数据异常程度分析的效率低下的技术问题,提高了后续对用电大数据异常程度分析的效率。首先,获取当前用电大数据集合和上述当前用电大数据集合中的每个当前用电大数据对应的历史用电大数据序列。实际情况中,获取当前用电大数据集合,可以便于后续比较当前用电大数据集合中当前用电大数据之间的重复性。其次,获取当前用电大数据对应的历史用电大数据序列,可以便于后续根据历史用电大数据序列可以判断当前用电大数据的异常性。接着,根据上述当前用电大数据集合,对上述当前用电大数据集合中的每个当前用电大数据进行重复性分析处理,得到每个当前用电大数据对应的相对重复性。实际情况中,通过当前用电大数据集合,对当前用电大数据进行重复性分析处理,可以提高当前用电大数据对应的相对重复性确定的准确度。并且,可以便于后续基于当前用电大数据对应的相对重复性,对当前用电大数据进行压缩,可以提高对当前用电大数据进行压缩的效率。然后,根据上述当前用电大数据集合和上述当前用电大数据集合中的各个当前用电大数据对应的历史用电大数据序列,对上述当前用电大数据集合中的每个当前用电大数据进行异常性分析处理,得到每个当前用电大数据对应的相对异常度。实际情况中,综合考虑当前用电大数据集合和各个当前用电大数据对应的历史用电大数据序列,可以提高当前用电大数据对应的相对异常度确定的准确度。并且,可以便于后续对不同异常程度的大数据进行分类处理,可以减少智能电网的数字化转型对数据进行二次异常性分析的算力浪费。之后,根据上述当前用电大数据集合中的各个当前用电大数据对应的相对重复性和相对异常度,对上述当前用电大数据集合中的当前用电大数据进行聚类,得到当前用电大数据类别集合。最后,对上述当前用电大数据类别集合中的当前用电大数据进行分类存储处理。因此,本发明利用相对重复性与异常性对不同的区域的用电大数据进行聚类压缩存储处理,在进行压缩或者存储的时候不仅能满足压缩所需要的数据的重复性,也能对不同异常程度的大数据进行分类处理,减少了智能电网的数字化转型对数据进行二次异常性分析的算力浪费,解决了后续对用电大数据异常程度分析的效率低下的技术问题,提高了后续对用电大数据异常程度分析的效率。
以上上述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,均应包含在本申请的保护范围之内。

Claims (8)

1.一种用于数字信息的大数据分析处理方法,其特征在于,包括以下步骤:
获取当前用电大数据集合和所述当前用电大数据集合中的每个当前用电大数据对应的历史用电大数据序列,其中,当前用电大数据集合中的当前用电大数据是当前时间段下的用电大数据,历史用电大数据序列中的历史用电大数据是历史时间段下的用电大数据,当前时间段的开始时间是历史时间段的结束时间;
根据所述当前用电大数据集合,对所述当前用电大数据集合中的每个当前用电大数据进行重复性分析处理,得到每个当前用电大数据对应的相对重复性;
根据所述当前用电大数据集合和所述当前用电大数据集合中的各个当前用电大数据对应的历史用电大数据序列,对所述当前用电大数据集合中的每个当前用电大数据进行异常性分析处理,得到每个当前用电大数据对应的相对异常度;
根据所述当前用电大数据集合中的各个当前用电大数据对应的相对重复性和相对异常度,对所述当前用电大数据集合中的当前用电大数据进行聚类,得到当前用电大数据类别集合;
对所述当前用电大数据类别集合中的当前用电大数据进行分类存储处理。
2.根据权利要求1所述的一种用于数字信息的大数据分析处理方法,其特征在于,所述根据所述当前用电大数据集合,对所述当前用电大数据集合中的每个当前用电大数据进行重复性分析处理,得到每个当前用电大数据对应的相对重复性,包括:
对所述当前用电大数据集合中的每个当前用电大数据进行重复字符提取,生成每个当前用电大数据对应的重复性字符空间;
根据所述当前用电大数据集合中的各个当前用电大数据对应的重复性字符空间,确定每个当前用电大数据对应的基础重复性集合;
根据每个当前用电大数据对应的基础重复性集合,确定每个当前用电大数据对应的相对重复性。
3.根据权利要求2所述的一种用于数字信息的大数据分析处理方法,其特征在于,所述根据所述当前用电大数据集合中的各个当前用电大数据对应的重复性字符空间,确定每个当前用电大数据对应的基础重复性集合,包括:
对当前用电大数据对应的重复性字符空间和当前用电大数据对应的其他当前用电大数据对应的重复性字符空间进行重复字符提取,生成其他重复性字符空间,得到当前用电大数据对应的其他重复性字符空间集合,其中,当前用电大数据对应的其他当前用电大数据是所述当前用电大数据集合中除了该当前用电大数据之外的当前用电大数据;
根据所述当前用电大数据集合、每个当前用电大数据对应的其他重复性字符空间集合中的每个其他重复性字符空间,确定基础重复性,得到每个当前用电大数据对应的基础重复性集合。
4.根据权利要求1所述的一种用于数字信息的大数据分析处理方法,其特征在于,所述当前用电大数据集合中的当前用电大数据包括:当前平均用电量和当前单位平均电量序列,历史用电大数据序列中的历史用电大数据包括:历史单位平均电量序列;
所述根据所述当前用电大数据集合和所述当前用电大数据集合中的各个当前用电大数据对应的历史用电大数据序列,对所述当前用电大数据集合中的每个当前用电大数据进行异常性分析处理,得到每个当前用电大数据对应的相对异常度,包括:
根据所述当前用电大数据集合中的各个当前用电大数据包括的当前平均用电量和当前单位平均电量序列,确定每个当前用电大数据对应的当前第一异常性;
根据所述当前用电大数据集合中的每个当前用电大数据对应的历史用电大数据序列中的历史用电大数据包括的历史单位平均电量序列、每个当前用电大数据包括的当前单位平均电量序列,确定每个当前用电大数据对应的当前第二异常性;
根据所述当前用电大数据集合中的每个当前用电大数据对应的当前第一异常性和当前第二异常性,确定每个当前用电大数据对应的相对异常度。
5.根据权利要求4所述的一种用于数字信息的大数据分析处理方法,其特征在于,所述根据所述当前用电大数据集合中的各个当前用电大数据包括的当前平均用电量和当前单位平均电量序列,确定每个当前用电大数据对应的当前第一异常性,包括:
根据所述当前用电大数据集合中的各个当前用电大数据包括的当前平均用电量、所述当前用电大数据集合中的当前用电大数据包括的当前平均用电量的均值、所述当前用电大数据集合中当前用电大数据的数量,确定所述当前时间段对应的当前用电波动参数;
根据所述当前用电大数据集合中的各个当前用电大数据包括的当前单位平均电量序列中的每个当前单位平均电量、所述当前用电大数据集合中当前用电大数据的数量,确定所述当前时间段包括的每个当前单位时间段对应的当前单位电波动参数;
根据所述当前用电大数据集合中的各个当前用电大数据包括的当前单位平均电量序列、所述当前用电波动参数、所述当前时间段包括的各个当前单位时间段对应的当前单位电波动参数、所述当前用电大数据集合中当前用电大数据的数量,确定每个当前用电大数据对应的当前第一异常性。
6.根据权利要求4所述的一种用于数字信息的大数据分析处理方法,其特征在于,所述根据所述当前用电大数据集合中的每个当前用电大数据对应的历史用电大数据序列中的历史用电大数据包括的历史单位平均电量序列、每个当前用电大数据包括的当前单位平均电量序列,确定每个当前用电大数据对应的当前第二异常性,包括:
将当前用电大数据对应的历史用电大数据序列中的历史用电大数据包括的历史单位平均电量序列中的历史单位平均电量的均值,确定为当前用电大数据对应的当前总电量均值;
根据所述当前用电大数据集合中的每个当前用电大数据对应的当前总电量均值、每个当前用电大数据对应的历史用电大数据序列中的历史用电大数据包括的历史单位平均电量序列、每个当前用电大数据包括的当前单位平均电量序列、当前时间段和历史时间段,确定每个当前用电大数据对应的当前第二异常性。
7.根据权利要求1所述的一种用于数字信息的大数据分析处理方法,其特征在于,所述根据所述当前用电大数据集合中的各个当前用电大数据对应的相对重复性和相对异常度,对所述当前用电大数据集合中的当前用电大数据进行聚类,得到当前用电大数据类别集合,包括:
将所述当前用电大数据集合中的每个当前用电大数据对应的相对重复性,确定为所述当前用电大数据对应的横坐标;
将所述当前用电大数据集合中的每个当前用电大数据对应的相对异常度,确定为所述当前用电大数据对应的纵坐标;
将所述当前用电大数据集合中的每个当前用电大数据对应的横坐标和纵坐标,组合为所述当前用电大数据对应的当前坐标;
根据所述当前用电大数据集合中的各个当前用电大数据对应的当前坐标,确定所述当前用电大数据集合中各个当前用电大数据之间的欧式距离;
根据所述当前用电大数据集合中各个当前用电大数据之间的欧式距离,对所述当前用电大数据集合中的当前用电大数据进行聚类,得到当前用电大数据类别集合。
8.根据权利要求1所述的一种用于数字信息的大数据分析处理方法,其特征在于,所述对所述当前用电大数据类别集合中的当前用电大数据进行分类存储处理,包括:
对所述当前用电大数据类别集合中的每个当前用电大数据类别中各个当前用电大数据进行压缩,得到所述当前用电大数据类别对应的压缩文件;
对所述当前用电大数据类别集合中的各个当前用电大数据类别对应的压缩文件进行分类存储。
CN202211568255.9A 2022-12-08 2022-12-08 一种用于数字信息的大数据分析处理方法 Active CN115563193B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211568255.9A CN115563193B (zh) 2022-12-08 2022-12-08 一种用于数字信息的大数据分析处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211568255.9A CN115563193B (zh) 2022-12-08 2022-12-08 一种用于数字信息的大数据分析处理方法

Publications (2)

Publication Number Publication Date
CN115563193A true CN115563193A (zh) 2023-01-03
CN115563193B CN115563193B (zh) 2023-03-10

Family

ID=84770203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211568255.9A Active CN115563193B (zh) 2022-12-08 2022-12-08 一种用于数字信息的大数据分析处理方法

Country Status (1)

Country Link
CN (1) CN115563193B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005147766A (ja) * 2003-11-12 2005-06-09 Toshiba Corp 電力料金の課金システム及びその電力量計
CN105630885A (zh) * 2015-12-18 2016-06-01 国网福建省电力有限公司泉州供电公司 一种用电异常检测方法及***
CN106447534A (zh) * 2016-09-22 2017-02-22 国网上海市电力公司 一种基于灰色关联度分析的用电模式稳定性判别方法
CN112925827A (zh) * 2021-03-04 2021-06-08 南京怡晟安全技术研究院有限公司 一种基于电力采集物联数据的用户性质异常分析方法
CN113032454A (zh) * 2021-03-01 2021-06-25 南京谱隘网络科技有限公司 基于云计算的交互式用户用电异常监测预警管理云平台
CN114004296A (zh) * 2021-11-01 2022-02-01 江苏瑞中数据股份有限公司 一种基于电力负荷特征反向提取监测点的方法及***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005147766A (ja) * 2003-11-12 2005-06-09 Toshiba Corp 電力料金の課金システム及びその電力量計
CN105630885A (zh) * 2015-12-18 2016-06-01 国网福建省电力有限公司泉州供电公司 一种用电异常检测方法及***
CN106447534A (zh) * 2016-09-22 2017-02-22 国网上海市电力公司 一种基于灰色关联度分析的用电模式稳定性判别方法
CN113032454A (zh) * 2021-03-01 2021-06-25 南京谱隘网络科技有限公司 基于云计算的交互式用户用电异常监测预警管理云平台
CN112925827A (zh) * 2021-03-04 2021-06-08 南京怡晟安全技术研究院有限公司 一种基于电力采集物联数据的用户性质异常分析方法
CN114004296A (zh) * 2021-11-01 2022-02-01 江苏瑞中数据股份有限公司 一种基于电力负荷特征反向提取监测点的方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHIGUANG CHEN: "Analysis of PLC Transmission Data Based on Clustering", 《2017 9TH INTERNATIONAL CONFERENCE ON INTELLIGENT HUMAN-MACHINE SYSTEMS AND CYBERNETICS (IHMSC)》 *
蒋菱等: "基于分布式计算的海量用电数据分析技术研究", 《计算机技术与发展》 *

Also Published As

Publication number Publication date
CN115563193B (zh) 2023-03-10

Similar Documents

Publication Publication Date Title
CN110796173B (zh) 一种基于改进kmeans的负荷曲线形态聚类算法
CN110781332A (zh) 基于复合聚类算法的电力居民用户日负荷曲线聚类方法
CN108345908A (zh) 电网数据的分类方法、分类设备及存储介质
CN111815060A (zh) 一种用电地区短期负荷预测方法及装置
CN114254838A (zh) 一种短期电力负荷预测影响因子的确定方法
CN114997321A (zh) 一种台区户变关系识别方法、装置、电子设备及存储介质
CN114611738A (zh) 一种基于用户用电行为分析的负荷预测方法
CN112330153A (zh) 基于非线性正交回归的行业规模预测模型建模方法及装置
CN114118624A (zh) 一种电力需求响应潜力评估方法、装置、设备及存储介质
CN112257964B (zh) 一种负荷密集型城市智慧园区需求聚合建模方法
CN115563193B (zh) 一种用于数字信息的大数据分析处理方法
CN110781959A (zh) 基于birch算法和随机森林算法的电力客户分群方法
CN113837486B (zh) 一种基于rnn-rbm的配网馈线长期负荷预测方法
CN111797924B (zh) 一种基于聚类算法的三维度园区画像方法及***
CN112614005B (zh) 企业复工状态的处理方法和装置
CN114139964A (zh) 一种电气综合能源***可靠性评估方法及装置
CN108599140B (zh) 用电负荷特征分析方法和装置、存储介质
CN110807599A (zh) 电化学储能方案的决策方法、装置、服务器和存储介质
CN110322063A (zh) 一种耗电功率仿真预测方法及存储介质
CN116883059B (zh) 一种配电终端管理方法及***
Al-Mashhadi et al. Big data aggregation, visualization and clustering for Smart Grid in Smart City using machine learning
CN118228069A (zh) 用电负荷预测方法、装置、设备、介质和程序产品
CN113919449B (zh) 基于精准模糊聚类算法的居民电力数据聚类方法及装置
CN113361960B (zh) 一种大规模需求响应能力量化方法、介质、装置及设备
CN117973899A (zh) 基于大数据的土地开发与经营信息智能管理***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant