CN112464165A - 一种测点统计效率的提升方法、存储介质及计算设备 - Google Patents

一种测点统计效率的提升方法、存储介质及计算设备 Download PDF

Info

Publication number
CN112464165A
CN112464165A CN202011345499.1A CN202011345499A CN112464165A CN 112464165 A CN112464165 A CN 112464165A CN 202011345499 A CN202011345499 A CN 202011345499A CN 112464165 A CN112464165 A CN 112464165A
Authority
CN
China
Prior art keywords
sample
measuring point
period
data
statistical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011345499.1A
Other languages
English (en)
Other versions
CN112464165B (zh
Inventor
庞武华
王毅
李郁
何清
王智微
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian TPRI Power Station Information Technology Co Ltd
Original Assignee
Xian TPRI Power Station Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian TPRI Power Station Information Technology Co Ltd filed Critical Xian TPRI Power Station Information Technology Co Ltd
Priority to CN202011345499.1A priority Critical patent/CN112464165B/zh
Publication of CN112464165A publication Critical patent/CN112464165A/zh
Application granted granted Critical
Publication of CN112464165B publication Critical patent/CN112464165B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种测点统计效率的提升方法、存储介质及计算设备,定义测点数据累计样本分布密度;根据累计样本分布密度计算最优分段周期;构建测点样本计数器并初始化赋值;构建测点读取历史样本操作***;构建最优分段遍历器查询索引目录;构建测点统计算法衔接合并器;综合归纳设计测点算法器,建立测点算法统计的总接口,在测点使用过程中,遍历历史样本,分段收集算法特征数据,构建遍历器并存储,同步更新查询索引目录,使统计样本对象由测点的原始数据转换为测点的算法特征数据,提升测点统计效率。本发明解决了场景问题和应用需求,为电厂用户数据应用、数据服务和数据决策等方面创造了业务价值。

Description

一种测点统计效率的提升方法、存储介质及计算设备
技术领域
本发明属于测点数据统计技术领域,具体涉及一种基于测点数据样本分布密度提升测点统计效率的方法、存储介质及计算设备。
背景技术
测点是发电企业实时数据资源的最主要形态;测点数据直接源自设备***和工艺性能,是一种时序结构数据,数据量属于海量规模,是发电企业生产运行过程监测、评估和决策管理的数据基础。利用测点数据,除常见的快照和瞬时插值外,时常要统计一段时间的算法值,比如小时累积值、日最大、周最小、月平均、季度累计、年度累计等,而且算法值相对更具有生产运行指导意义。
当前,发电企业对测点数据的加工统计,主要手段包括:
第一,利用实时数据库API直接统计。实时数据库的主要职责是收集和存储,因此大多数实时数据库设计上侧重于实时数据的压缩存储,仅提供少量统计算法API用于数据库管理分析调用。对测点数据进行统计加工时,会消耗实时数据库服务器***资源,由其是CPU计算资源。统计请求密集、计算周期长比如周、月、季度、年时,直接统计可能会造成实时数据库服务器崩溃。因此,为确保实时数据库的稳定可靠运行,实际业务场景中一般不推荐利用实时数据库API直接统计;
第二,利用预处理数据加工统计。根据固定周期比如1小时,预先加工处理产生基础数据,存储在关系型数据库中。统计日、周、月、季度和年度等时间层次数据时,直接从关系数据库总读取小时数据汇总加工统计成所需数据。这种方式统计效率比较高,但由于采用二次处理数据,因此统计结果准确度不够,可能会与实时库直接统计结果有差异。预先处理定期执行,使得统计结果不能紧随实时生产过程,时效性较差。
随着电厂数字化智能化的发展,测点数据作为发电企业实时数据资源主要形态,在算法加工上迫切需要提升统计效率,支持高并发运行环境,能够高性能地满足现场生产管理对数据的应用需求。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于测点数据样本分布密度提升测点统计效率的方法、存储介质及计算设备,能够通过测点数据样本分布密度,及时、准确、有效地提升测点统计效率,满足电厂生产运行的测点数据加工统计需求。
本发明采用以下技术方案:
一种测点统计效率的提升方法,定义测点数据累计样本分布密度Dn;根据累计样本分布密度Dn计算最优分段周期Pt;构建测点样本计数器并初始化赋值;构建测点读取历史样本操作***;构建最优分段遍历器查询索引目录;构建测点统计算法衔接合并器;
根据测点数据累计样本分布密度、最优分段周期Pt、测点样本计数器、测点读取历史样本操作***、最优分段遍历器查询索引目录和测点统计算法衔接合并器综合归纳设计测点算法器,建立测点算法统计的总接口,在测点使用过程中,遍历历史样本,分段收集算法特征数据,构建遍历器并存储,同步更新查询索引目录,使统计样本对象由测点的原始数据转换为测点的算法特征数据,提升测点统计效率。
具体的,测点数据累计样本分布密度Dn具体为:
Figure BDA0002799788150000031
其中,D为测点样本密度,N为测点数据样本容量,T为读取周期时长,n为累计采样次数,i为采样序号。
具体的,最优分段周期Pt计算规则如下:
若Dn>=20,则Pt=8;若Dn>=10&&Dn<20,则Pt=24;若Dn>=5&&Dn<10,则Pt=3*24;若Dn>=1&&Dn<5,则Pt=10*24;若Dn<1,则Pt=31*24。
具体的,构建测点样本计数器并初始化赋值具体为:
启用测点时,初始化构建测点的样本计数器,然后异步启动初始化赋值,随机选择一个月为总周期;按8小时为周期,切分总周期,形成分段周期集;循环读取每个分段周期的历史样本数据;若返回样本无数据,视为无效,跳过处理;测点样本计数器监听读取历史样本操作,累积初始化内部参数;直至循环结束,退出异步线程;测点样本计数器初始化后,内部累积参数得以赋值,能够支持累计样本分布密度Dn、最优分段周期Pt和最优分段周期耗时Co的初步计算获取。
具体的,构建测点读取历史样本操作***具体为:
拦截测点读取历史样本动作,将本次读取样本的样本容量、周期秒数、耗时数据传递给样本计数器,测点样本计数器拦截监听读取历史样本操作;根据读取测点名称找到对应的测点样本计数器;计数本次操作的样本容量、周期秒数、耗时数据;增量累积总数处理,动态完善测点样本计数器。
具体的,构建最优分段遍历器查询索引目录具体为:
读取周期内的测点历史样本数据集;遍历测点历史样本数据集,记录测点名称、开始时刻、结束时刻、首值、末值,汇总记录最大、最小、矩形面积、算术累加值、有效时间秒数;遍历完毕后,将遍历器实例序列化;存储遍历器序列化结果到关系型数据库或对象数据库;根据测点名称、开始时刻和结束时刻为键,更新查询索引目录;在测点使用过程中,不断积累测点的最优分段样本遍历器,逐步建立连续完备的索引目录。
具体的,构建测点统计算法衔接合并器具体为:
统计测点算法值时,首先根据最优分段周期Pt对统计周期切割分段,如果统计周期时长小于最优分段周期时长,最优分段周期内的统计周期,读取历史样本和统计加工效率都很高,因此,不用分段和衔接合并,直接统计,返回计算结果;
如果统计周期时长大于等于最优分段周期时长,进行切割分段、并行计算和衔接合并处理,然后统计,返回计算结果。
进一步的,统计周期大于最优分段周期时长时,切割分段具体为:
根据测点名称获取测点样本计数器;从测点样本计数器中获取最优分段周期Pt;从统计周期开始时刻Ts开始,以统计周期结束时刻Te为结束,循环获取分段;若不足一段时,标记为非最优分段;最终形成P[x]={P1(Ts,Ts+Pt),P1(T1=(Ts+Pt),T1+Pt),...,Px-1}分段数组;基于P[x],衔接合并形成最终结果;
假设P[x]中每段都已遍历完毕;衔接合并具体为为:
根据统计算法,选取不同的算法衔接合并器;输入分段遍历器结果集,逐个衔接;每段衔接成一段后,合并统计;销毁过期分段遍历器,输出最终结果;
算法衔接合并器包括最大/最小、累加/算术平均、积分累计/积分平均算法衔接合并器;
最大/最小算法衔接合并器工作具体为:
设置合并最大值Max/Min变量,遍历P[x]对应的样本遍历器;取出样本遍历器的最大值,若Max/Min无赋值,将其赋值给Max/Min变量;若Max/Min已赋值,根据算法类型进行比较,交换赋值;直至遍历完所有样本遍历器;返回Max/Min,衔接合并完毕;
累加/算术平均衔接合并器工作具体为:
设置合并结果Sum,Count变量,遍历P[x]对应的样本遍历器;取出样本遍历器的累加值和有效数据量,分别增量累加到Sum,Count变量;直至遍历完所有样本遍历器;若需累加值,直接返回Sum;若需算术平均值,判断Count,若Count>0,返回Sum/Count,反之返回0;至此衔接合并完毕;
积分累计/积分平均衔接合并器工作具体为:
设置合并结果矩形面积累加值Area变量、有效时间累加值T变量,遍历P[x]对应的样本遍历器;取出样本遍历器的矩形面积和有效时间量,分别累加到矩形面积累加值Area变量、有效时间累加值T变量;衔接前后相连两段,前段末值和后段首值,若时间上不连续,将这两个值之间的面积和有效时间,计算并累加到矩形面积累加值Area变量、有效时间累加值T变量;若需积分累计,采用公式Area/3600计算求解;若需积分平均,采用公式Area/T/3600计算求解;至此衔接合并完毕。
本发明的另一个技术方案是,一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行所述的方法中的任一方法。
本发明的另一个技术方案是,一种计算设备,包括:
一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。
与现有技术相比,本发明至少具有以下有益效果:
本发明一种测点统计效率的提升方法,能够通过对测点数据累计样本分布密度的自动采样累计求解,确定测点的稳定最优分段周期,建立最优分段遍历器查询目录索引,引入衔接合并分段遍历器机制,从而实现大幅提升测点数据的统计效率,满足电厂生产管理对测点数据的统计加工需求和数据时效性要求。利用实时数据库API直接统计,会对数据库服务器造成不可控风险,不能满足高并发应用需求。采用固定周期预处理加工统计,汇总结果不够准确、时效性差,同时存在盲目增大***开销风险,为***运行带来不确定性风险。本发明克服现有技术的不足之处,为发电企业测点应用类***提供一种优化测点统计效率的提升方法,能够有效提升测点应用类***的稳定性、性能和易用性。
进一步的,发电企业的生产过程是一种稳定有序的生产活动,测点数据源自生产过程,随着时间推移,测点数据同样趋向于稳定有序。通过不断地随机采样,剔除异常采集,累计求解样本分布密度,会发现测点的样本分布密度趋向于某个数据。这个数据就是测点数据累计样本分布密度,是一种稳定存在,是优化测点统计效率的关键基础设计。
进一步的,读取测点数据,受传输数据量限制须要分段分批,每次读取多长时间,分多少次去读取,是优化控制网络IO开销的关键。根据测点数据累计样本分布密度获得的最优分段周期,是单次读取数据量和分段次数的最优平衡,可以作为测点统计周期切割分段的依据。
进一步的,测点样本计数器负责记录测点的使用次数、读取数据量、读取时长、读取耗时等过程信息,提供累计样本分布密度和最优分段周期等优化指标。初始化赋值测点样本计数器能够及时提高累计样本分布密度和最优分段周期等指标的准确度,促使优化指标趋向稳定。
进一步的,在使用测点中,监听测点读取历史样本操作,动态收集动作信息和结果信息,异步通知测点样本计数器,积累测点使用习惯数据,一方面能够实时促进优化指标的完善,另一方面为区分建立不同的利用空闲主动优化机制提供依据。
进一步的,最优分段遍历器是遍历测点数据,收集算法特征数据,封装序列化存储的结果。根据最优分段遍历器的测点、时段等信息,构建最优分段遍历器查询索引目录,能够有效提升分段遍历结果的查询效率,进一步优化提升统计效率。
进一步的,分段统计或获取每一段的算法特征数据,测点统计算法衔接合并器负责将这些分段算法特征数据有序衔接,依据统计算法合并特征数据,记录过程明细,汇总形成统计结果。
进一步的,对于常见的日、周、月、季度、年度等周期统计,一般都属于统计周期大于最优分段周期的场景,基于本发明的设计和运行机制,能够有效提升此类场景统计效率。
综上所述,本发明解决了场景问题和应用需求,为电厂用户数据应用、数据服务和数据决策等方面创造了业务价值。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明技术方案示意图;
图2为测点统计服务功能模块图;
图3为测点统计服务启动流程图;
图4为测点统计服务应用场景处理流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
请参阅图1,本发明一种基于测点数据样本分布密度提升测点统计效率的方法,包括以下步骤:
S1、定义测点数据累计样本分布密度;
假设某次i读取测点数据样本容量为N个,读取周期时长为Tmin(分钟),本次样本分布密度(个数/min)计算公式为:
f(i)=Ni/Ti其中Ni>0&&Ti>0
读取n次,累计样本分布密度计算公式为:
Figure BDA0002799788150000091
累计过程中,若单次样本分布密度有效合法,再分别累加到累积样本数和累积时间上。电厂生产运行时设备大体上是处于一种稳定有序的状态,因此,随着读取次数的持续增加,累计样本分布密度会趋向稳定于某个数据Dn;
S2、根据累计样本分布密度Dn计算最优分段周期Pt;
测点拥有海量数据,从实时库读取数据必须分段分批读取,采用最优分段周期能够最大程度上降低***开销,提升统计效率。累计样本分布密度Dn越大,最优分段周期Pt越小。最优分段周期采用小时为单位,取整数。
最优分段周期Pt计算规则如下所示:
若Dn>=20,则Pt=8;
若Dn>=10&&Dn<20,则Pt=24;
若Dn>=5&&Dn<10,则Pt=3*24;
若Dn>=1&&Dn<5,则Pt=10*24;
若Dn<1,则Pt=31*24;
根据累计样本分布密度Dn所在范围区间,获取不同的最优分段周期。最优分段周期是提升测点统计效率的关键设计;
S3、构建测点样本计数器并初始化赋值;
启用测点时,初始化构建测点的样本计数器,然后异步启动初始化赋值流程。
样本计数器异步初始化流程:
S301、随机选择一个月为总周期;
S302、按8小时为周期,切分总周期,形成分段周期集;
S303、循环读取每个分段周期的历史样本数据;
S304、若返回样本无数据,视为无效,跳过处理;
S305、测点样本计数器监听读取历史样本操作,累积初始化内部参数;
S306、直至循环结束,退出异步线程;
测点样本计数器初始化后,内部累积参数得以赋值,能够支持累计样本分布密度Dn、最优分段周期Pt和最优分段周期耗时Co的初步计算获取;
S4、构建测点读取历史样本操作***;
拦截测点读取历史样本动作,将本次读取样本的样本容量、周期秒数、耗时等数据,传递给“样本计数器”,动态完善测点样本计数器。
动态完善测点样本计数器流程:
S401、拦截监听读取历史样本操作;
S402、根据读取测点名称找到对应的测点样本计数器;
S403、计数本次操作的样本容量、周期秒数、耗时等数据;
S404、增量累积总数处理;
在使用测点过程中,主动完善测点样本计数器,有助于促进累计样本分布密度Dn趋于稳定,才能获取稳定的最优分段周期Pt。
S5、构建最优分段遍历器查询索引目录;
最优分段遍历器是在测点使用过程中对本次周期内历史样本的遍历总结。根据测点的最优分段周期Pt切割分段统计周期,读取历史样本,遍历记录历史样本的特征数据和衔接数据,形成最优分段周期实例,将其序列化后存储到关系数据库或对象数据库,以备复用。只要统计周期内测点历史样本维持不变,最优分段遍历器是一种稳定存在,具备很强的复用性,是优化提升测点统计效率的数据基础。
构建最优分段遍历器流程:
S501、读取周期内的测点历史样本数据集;
S502、遍历测点历史样本数据集,记录测点名称、开始时刻、结束时刻、首值、末值等,汇总记录最大、最小、矩形面积、算术累加值、有效时间秒数等;
S503、遍历完毕后,将遍历器实例序列化;
S504、存储遍历器序列化结果到关系型数据库或对象数据库;
S505、根据测点名称、开始时刻和结束时刻为键,更新查询索引目录;
在测点使用过程中,不断积累测点的最优分段样本遍历器,逐步建立连续完备的索引目录,方便快速查找统计周期内的最优分段样本遍历器。
S6、构建测点统计算法衔接合并器;
统计测点算法值时,首先根据最优分段周期Pt对统计周期切割分段,存在两种情况:
a、统计周期时长小于最优分段周期时长
最优分段周期内的统计周期,读取历史样本和统计加工效率都很高,因此,不用分段和衔接合并,直接统计,返回计算结果即可。
b、统计周期时长大于等于最优分段周期时长
此种情况比较常见,某测点最优分段周期Pt=24小时,统计周、月度、季度、年度等时,就属于这种情况。这种情况下就需要切割分段、并行计算和衔接合并。
统计周期大于最优分段周期时长时切割分段流程:
S601、根据测点名称获取测点样本计数器;
S602、从测点样本计数器中获取最优分段周期Pt;
S602、从统计周期开始时刻Ts开始,以统计周期结束时刻Te为结束,循环获取分段;
S603、若不足一段时,标记为非最优分段;
S605、最终形成P[x]={P1(Ts,Ts+Pt),P1(T1=(Ts+Pt),T1+Pt),...,Px-1}分段数组,一般最后一段都是不足一段,非最优分段,但周期时长在最优分段周期时长内;
基于P[x],衔接合并形成最终结果;假设P[x]中每段都已遍历完毕;统计周期大于最优分段周期时长衔接合并流程:
S611、根据统计算法,选取不同的算法衔接合并器;
S612、输入分段遍历器结果集,逐个衔接
S612、每段衔接成一段后,合并统计;
S613、销毁过期分段遍历器,输出最终结果;
不同的算法设计不同的算法衔接合并器,包括最大/最小、累加/算术平均、积分累计/积分平均等算法衔接合并器。
最大/最小算法衔接合并器工作流程:
S621、设置合并最大值Max/Min变量,遍历P[x]对应的样本遍历器;
S622、取出样本遍历器的最大值,若Max/Min无赋值,将其赋值给Max/Min变量;
S622、若Max/Min已赋值,根据算法类型进行比较,交换赋值;
S623、直至遍历完所有样本遍历器;
S625、返回Max/Min,衔接合并完毕;
累加/算术平均衔接合并器工作流程:
S631、设置合并结果Sum,Count变量,遍历P[x]对应的样本遍历器;
S632、取出样本遍历器的累加值和有效数据量,分别增量累加到Sum,Count变量;
S632、直至遍历完所有样本遍历器;
S633、若需累加值,直接返回Sum;
S635、若需算术平均值,判断Count,若Count>0,返回Sum/Count,反之返回0;
S636、至此衔接合并完毕;
对于模拟量测点,经常会用到积分累计和积分平均的统计。积分累计/积分平均衔接合并器工作流程:
S641、设置合并结果矩形面积累加值Area变量、有效时间累加值T变量,遍历P[x]对应的样本遍历器;
S642、取出样本遍历器的矩形面积和有效时间量,分别累加到矩形面积累加值Area变量、有效时间累加值T变量;
S643、衔接前后相连两段,前段末值和后段首值,若时间上不连续,将这两个值之间的面积和有效时间,计算并累加到矩形面积累加值Area变量、有效时间累加值T变量;
S644、若需积分累计,采用公式Area/3600计算求解;
S645、若需积分平均,采用公式Area/T/3600计算求解;
S646、至此衔接合并完毕;
算法衔接合并器是针对测点算法设计的公用处理方法。因为算法值之间存在转换关系,因此根据算法转换关系合并设计开发最好。
S7、构建测点算法器。
将步骤S1至步骤S6综合归纳设计测点算法器,建立测点算法统计的总接口。
测点算法器提供应用调用接口:
1)提供测点名称、单个统计周期、算法标识、附加参数等,返回算法结果集;
2)提供测点名称、多个统计周期、算法标识、附加参数等,返回多段算法结果集;
算法标识枚举列表如下所示:
序号 算法 标识
1 积分均值 AVG1
2 算术均值 AVG2
3 累加值 SUM
4 积分累计 Total1
5 最大值 Max
6 最小值 Min
算法结果集是测点数据的统计结果,包括算法结果和过程明细。统计多段周期时,得到的是算法结果集的数组形式。
本发明在测点使用过程中,遍历历史样本,分段收集算法特征数据,构建遍历器并存储,同步更新查询索引目录,使得统计样本对象由测点的原始数据转换为测点的算法特征数据。根据算法特征数据衔接合并方式统计测点数据,一方面能够显著降低统计样本规模,举例说明:假设某测点平均每3秒一条样本,一个月大概有864000条左右,而算法特征数据以8小时为最优分段周期,也仅有90条分段算法特征数据。统计样本规模大幅缩减,统计效率必然显著提升;另一方面每段算法特征数据均已预先处理并建立索引,使得查询获取、衔接合并等动作均可快速高效完成。统计周期越长,本方法对统计效率的提升越明显。
请参阅图2,本发明再一个实施例中,一种基于测点数据样本分布密度提升测点统计效率的软件实现,采用微服务架构理念设计为独立测点统计服务,包括相互协作,联动工作的模块如下:
服务调用接口模块:定义测点数据和统计的调用接口,供其他客户端调用,实现功能服务输出;
测点样本计数器模块
提供主动初始化和动态监听功能,积累采样数据,完善测点数据累计样本分布密度、最优分段周期和最优分段周期平均耗时等优化基础参数;
最优分段遍历器查询索引目录模块
测点最优分段遍历器的构建、查找和存储,建立总体遍历器索引目录,依据变化更新索引目录,维持测点分段遍历器的连续性;
测点统计算法衔接合并器模块
根据统计周期覆盖的分段遍历器,选择相应的算法衔接合并器,按时间顺序链接,合并形成最终结果;
实时数据库链接管理模块
链接实时数据库,建立链接池,提供测点数据各种读取接口方法;
测点算法器模块
为应用程序提供统一的测点统计算法接口,总结应用场景共性,设计能够覆盖多个场景的方法;
测点统计服务是依据本发明设计思想实现的一种软件微服务,提供测点统计算法API服务供其他应用程序开发使用,以下简称“测点统计服务”。
测点统计服务可以采用多种计算机编程语言开发,本次目前采用Java语言开发,基于Springboot技术框架实现,为应用客户端提供基于JSON方式交换数据的RestFul风格接口服务。
本发明再一个实施例中,提供了一种终端设备,该终端设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于提升测点统计效率的操作,包括:定义测点数据累计样本分布密度Dn;根据累计样本分布密度Dn计算最优分段周期Pt;构建测点样本计数器并初始化赋值;构建测点读取历史样本操作***;构建最优分段遍历器查询索引目录;构建测点统计算法衔接合并器;根据测点数据累计样本分布密度、最优分段周期Pt、测点样本计数器、测点读取历史样本操作***、最优分段遍历器查询索引目录和测点统计算法衔接合并器综合归纳设计测点算法器,建立测点算法统计的总接口,算法结果集是测点数据的统计结果,包括算法结果和过程明细。
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是终端设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括终端设备中的内置存储介质,当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作***。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
请参阅图3,可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关电网中长期检修计划的校核方法的相应步骤;计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤:
步骤1、服务安装部署,配置实时数据库服务器地址、端口、登录用户、登录密码等信息。启动服务,初始化链接实时数据库,建立实时数据库***池,加载测点总表;
步骤2、初始化样本计数器管理器
构建样本计数器管理器,建立测点名称与其样本计数器的映射。从测点总表获取使用情况,有序初始化测点样本计数器,纳入样本计数器管理器中,准备就绪;
步骤3、初始化样本遍历器查询索引目录
构建样本遍历器查询索引目录,以测点为单元构建其索引分区,分区内采用最优分段周期开始时刻排序,保持连续,对于近期比如当月、当季、当年等等,主动补充完善,形成连续完整的最优分段遍历器分区,使得测点当期绝大部分统计周期历史样本都能覆盖;
步骤4、加载测点统计服务功能接口,准备就绪,为客户端提供服务功能接口。
请参阅图2,服务功能接口调用场景如下:
对于测点首次使用场景。服务接口将调用请求参数传递给测点算法器。测点算法器根据测点名称,构建测点样本计数器,异步启动测点样本计数器的初始化工作,将测点样本计数器纳入动态监听队列,实时监听服务容器内所有该测点的读取样本操作,在使用中完善测点样本计数器。测点算法器通过构建的测点样本计数器,获取不甚稳定的累计样本分布密度和最优分段周期,切割分段,并行计算每一段,然后衔接合并,返回统计结果集。首次调用过程,涉及一系列内部模块实例的初始化过程,统计效率提升不甚明显,但随着使用增加,内部优化机制逐步成型,终将大幅提升测点的统计效率;
请参阅图4,对于测点经常使用场景。在服务运行容器中,测点样本计数器已经稳定,可以提供稳定的累计样本分布密度和最优分段周期。根据最优分段周期已经建立完整连续的遍历器索引目录。此种状况下,调用统计功能API时,能够获取最大的效率提升收益,理想情况下,日、周、月、季度和年度等时间层次统计请求,耗时接近,大概都在毫秒级。服务内部运行优化机制,决定了测点越用越快。因为统计周期内大部分样本都已预处理完毕,直接读取实时库操作会越来越少,减少IO操作,降低***开销,有助于提升整个应用体系的稳定性。
本发明作为TPRI实时数据治理框架中基础数据处理技术之一,已经安装部署到数家电厂,在生产环境下证明可以明显提升小时、班值、日、周、月、季度、年度等时间层次各类测点应用的数据统计效率。
分布稠密的测点,统计月度数据,由之前平均3000~6000毫秒左右,能够优化到200毫秒左右,最理想情况下,甚至能到50~100毫秒左右。在TPRI实时数据治理框架中,基于本发明实现的实时治理器,因本发明带来的统计效率提升,显著提升了实时治理器的并发处理量和稳定性。
综上所述,本发明一种测点统计效率的提升方法、存储介质及计算设备,在测点应用中总结测点分布规律,提炼累计样本分布密度和最优分段周期等优化指标,构思设计测点样本计数机制、最优遍历器存储和索引机制以及统计算法衔接合并机制等,基于此设计开发成为一种优化提升测点统计效率的存储介质及计算设备,为发电企业的生产运行过程提供测点类应用数据服务,有助于提升生产效率和决策水平。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (10)

1.一种测点统计效率的提升方法,其特征在于,定义测点数据累计样本分布密度Dn;根据累计样本分布密度Dn计算最优分段周期Pt;构建测点样本计数器并初始化赋值;构建测点读取历史样本操作***;构建最优分段遍历器查询索引目录;构建测点统计算法衔接合并器;
根据测点数据累计样本分布密度、最优分段周期Pt、测点样本计数器、测点读取历史样本操作***、最优分段遍历器查询索引目录和测点统计算法衔接合并器综合归纳设计测点算法器,建立测点算法统计的总接口,在测点使用过程中,遍历历史样本,分段收集算法特征数据,构建遍历器并存储,同步更新查询索引目录,使统计样本对象由测点的原始数据转换为测点的算法特征数据,提升测点统计效率。
2.根据权利要求1所述的方法,其特征在于,测点数据累计样本分布密度Dn具体为:
Figure FDA0002799788140000011
其中,D为测点样本密度,N为测点数据样本容量,T为读取周期时长,n为累计采样次数,i为采样序号。
3.根据权利要求1所述的方法,其特征在于,最优分段周期Pt计算规则如下:
若Dn>=20,则Pt=8;若Dn>=10&&Dn<20,则Pt=24;若Dn>=5&&Dn<10,则Pt=3*24;若Dn>=1&&Dn<5,则Pt=10*24;若Dn<1,则Pt=31*24。
4.根据权利要求1所述的方法,其特征在于,构建测点样本计数器并初始化赋值具体为:
启用测点时,初始化构建测点的样本计数器,然后异步启动初始化赋值,随机选择一个月为总周期;按8小时为周期,切分总周期,形成分段周期集;循环读取每个分段周期的历史样本数据;若返回样本无数据,视为无效,跳过处理;测点样本计数器监听读取历史样本操作,累积初始化内部参数;直至循环结束,退出异步线程;测点样本计数器初始化后,内部累积参数得以赋值,能够支持累计样本分布密度Dn、最优分段周期Pt和最优分段周期耗时Co的初步计算获取。
5.根据权利要求1所述的方法,其特征在于,构建测点读取历史样本操作***具体为:
拦截测点读取历史样本动作,将本次读取样本的样本容量、周期秒数、耗时数据传递给样本计数器,测点样本计数器拦截监听读取历史样本操作;根据读取测点名称找到对应的测点样本计数器;计数本次操作的样本容量、周期秒数、耗时数据;增量累积总数处理,动态完善测点样本计数器。
6.根据权利要求1所述的方法,其特征在于,构建最优分段遍历器查询索引目录具体为:
读取周期内的测点历史样本数据集;遍历测点历史样本数据集,记录测点名称、开始时刻、结束时刻、首值、末值,汇总记录最大、最小、矩形面积、算术累加值、有效时间秒数;遍历完毕后,将遍历器实例序列化;存储遍历器序列化结果到关系型数据库或对象数据库;根据测点名称、开始时刻和结束时刻为键,更新查询索引目录;在测点使用过程中,不断积累测点的最优分段样本遍历器,逐步建立连续完备的索引目录。
7.根据权利要求1所述的方法,其特征在于,构建测点统计算法衔接合并器具体为:
统计测点算法值时,首先根据最优分段周期Pt对统计周期切割分段,如果统计周期时长小于最优分段周期时长,最优分段周期内的统计周期,读取历史样本和统计加工效率都很高,因此,不用分段和衔接合并,直接统计,返回计算结果;
如果统计周期时长大于等于最优分段周期时长,进行切割分段、并行计算和衔接合并处理,然后统计,返回计算结果。
8.根据权利要求7所述的方法,其特征在于,统计周期大于最优分段周期时长时,切割分段具体为:
根据测点名称获取测点样本计数器;从测点样本计数器中获取最优分段周期Pt;从统计周期开始时刻Ts开始,以统计周期结束时刻Te为结束,循环获取分段;若不足一段时,标记为非最优分段;最终形成P[x]={P1(Ts,Ts+Pt),P1(T1=(Ts+Pt),T1+Pt),...,Px-1}分段数组;基于P[x],衔接合并形成最终结果;
假设P[x]中每段都已遍历完毕;衔接合并具体为为:
根据统计算法,选取不同的算法衔接合并器;输入分段遍历器结果集,逐个衔接;每段衔接成一段后,合并统计;销毁过期分段遍历器,输出最终结果;
算法衔接合并器包括最大/最小、累加/算术平均、积分累计/积分平均算法衔接合并器;
最大/最小算法衔接合并器工作具体为:
设置合并最大值Max/Min变量,遍历P[x]对应的样本遍历器;取出样本遍历器的最大值,若Max/Min无赋值,将其赋值给Max/Min变量;若Max/Min已赋值,根据算法类型进行比较,交换赋值;直至遍历完所有样本遍历器;返回Max/Min,衔接合并完毕;
累加/算术平均衔接合并器工作具体为:
设置合并结果Sum,Count变量,遍历P[x]对应的样本遍历器;取出样本遍历器的累加值和有效数据量,分别增量累加到Sum,Count变量;直至遍历完所有样本遍历器;若需累加值,直接返回Sum;若需算术平均值,判断Count,若Count>0,返回Sum/Count,反之返回0;至此衔接合并完毕;
积分累计/积分平均衔接合并器工作具体为:
设置合并结果矩形面积累加值Area变量、有效时间累加值T变量,遍历P[x]对应的样本遍历器;取出样本遍历器的矩形面积和有效时间量,分别累加到矩形面积累加值Area变量、有效时间累加值T变量;衔接前后相连两段,前段末值和后段首值,若时间上不连续,将这两个值之间的面积和有效时间,计算并累加到矩形面积累加值Area变量、有效时间累加值T变量;若需积分累计,采用公式Area/3600计算求解;若需积分平均,采用公式Area/T/3600计算求解;至此衔接合并完毕。
9.一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1至8所述的方法中的任一方法。
10.一种计算设备,其特征在于,包括:
一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1至8所述的方法中的任一方法的指令。
CN202011345499.1A 2020-11-25 2020-11-25 一种测点统计效率的提升方法、存储介质及计算设备 Active CN112464165B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011345499.1A CN112464165B (zh) 2020-11-25 2020-11-25 一种测点统计效率的提升方法、存储介质及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011345499.1A CN112464165B (zh) 2020-11-25 2020-11-25 一种测点统计效率的提升方法、存储介质及计算设备

Publications (2)

Publication Number Publication Date
CN112464165A true CN112464165A (zh) 2021-03-09
CN112464165B CN112464165B (zh) 2023-10-20

Family

ID=74807931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011345499.1A Active CN112464165B (zh) 2020-11-25 2020-11-25 一种测点统计效率的提升方法、存储介质及计算设备

Country Status (1)

Country Link
CN (1) CN112464165B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113282065A (zh) * 2021-05-18 2021-08-20 西安热工研究院有限公司 一种基于图形组态的聚类极值实时计算方法
CN114189490A (zh) * 2021-11-26 2022-03-15 广州市百果园信息技术有限公司 一种用户列表处理方法、***、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1637959A2 (en) * 2000-11-20 2006-03-22 ECD Systems, Inc. Systems and methods for preventing unauthorized use of digital content
US20080177756A1 (en) * 2007-01-18 2008-07-24 Nicolai Kosche Method and Apparatus for Synthesizing Hardware Counters from Performance Sampling
US20090182534A1 (en) * 2008-01-11 2009-07-16 Microsoft Corporation Accurate measurement and monitoring of computer systems
WO2014168981A1 (en) * 2013-04-11 2014-10-16 Oracle International Corporation Seasonal trending, forecasting, anomaly detection, and endpoint prediction of java heap usage
CN109063366A (zh) * 2018-08-22 2018-12-21 深圳市建筑科学研究院股份有限公司 一种基于时间和空间加权的建筑性能数据在线预处理方法
CN110515952A (zh) * 2019-08-28 2019-11-29 广州高谱技术有限公司 一种电力数据的存储方法
US20200280863A1 (en) * 2019-02-28 2020-09-03 Assia Spe, Llc Ergodic spectrum management systems and methods

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1637959A2 (en) * 2000-11-20 2006-03-22 ECD Systems, Inc. Systems and methods for preventing unauthorized use of digital content
US20080177756A1 (en) * 2007-01-18 2008-07-24 Nicolai Kosche Method and Apparatus for Synthesizing Hardware Counters from Performance Sampling
US20090182534A1 (en) * 2008-01-11 2009-07-16 Microsoft Corporation Accurate measurement and monitoring of computer systems
WO2014168981A1 (en) * 2013-04-11 2014-10-16 Oracle International Corporation Seasonal trending, forecasting, anomaly detection, and endpoint prediction of java heap usage
CN109063366A (zh) * 2018-08-22 2018-12-21 深圳市建筑科学研究院股份有限公司 一种基于时间和空间加权的建筑性能数据在线预处理方法
US20200280863A1 (en) * 2019-02-28 2020-09-03 Assia Spe, Llc Ergodic spectrum management systems and methods
CN110515952A (zh) * 2019-08-28 2019-11-29 广州高谱技术有限公司 一种电力数据的存储方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113282065A (zh) * 2021-05-18 2021-08-20 西安热工研究院有限公司 一种基于图形组态的聚类极值实时计算方法
CN114189490A (zh) * 2021-11-26 2022-03-15 广州市百果园信息技术有限公司 一种用户列表处理方法、***、电子设备及存储介质
CN114189490B (zh) * 2021-11-26 2023-03-31 广州市百果园信息技术有限公司 一种用户列表处理方法、***、电子设备及存储介质

Also Published As

Publication number Publication date
CN112464165B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
CN110166282B (zh) 资源分配方法、装置、计算机设备和存储介质
CN110047014A (zh) 一种基于负荷曲线和历史电量的用户电量数据修复方法
CN112433919B (zh) 一种信息告警方法、设备及存储介质
CN112464165A (zh) 一种测点统计效率的提升方法、存储介质及计算设备
CN111222089B (zh) 数据处理方法、装置、计算机设备和存储介质
CN106777093A (zh) 基于空间时序数据流应用的Skyline查询***
CN110297746A (zh) 一种数据处理方法及***
CN110704675B (zh) 对象管理方法、装置、计算机设备和存储介质
CN112488745A (zh) 一种智能费控管理方法、装置、设备和存储介质
Panagos et al. Predictive Workflow Management.
CN106649687A (zh) 大数据联机分析处理方法及装置
CN111813871B (zh) 一种数据实时处理***及方法
CN110390563A (zh) 用户价值的量化方法、装置、计算机设备和存储介质
CN115017159A (zh) 数据处理方法及装置、存储介质及电子设备
US20040117408A1 (en) Systems, methods and articles of manufacture for determining available space in a database
CN111723004B (zh) 敏捷软件开发的度量方法,度量数据输出方法以及装置
Zhou et al. AHPA: adaptive horizontal pod autoscaling systems on alibaba cloud container service for kubernetes
CN109299089A (zh) 一种画像标签数据的计算及存储方法和计算及存储***
US8285752B1 (en) System and method for maintaining a plurality of summary levels in a single table
CN112163948A (zh) 一种分润计算方法、***、设备及存储介质
CN110362387B (zh) 分布式任务的处理方法、装置、***和存储介质
CN113094406A (zh) 一种电力营销数据治理方法以及***
CN114579280B (zh) 一种准实时调度方法及***
CN113656370B (zh) 电力量测***数据处理方法、装置和计算机设备
Ehrenstein Scalability benchmarking of kafka streams applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant