CN108416022B - 一种流式数据实时保真曲线绘制模型实现***及方法 - Google Patents
一种流式数据实时保真曲线绘制模型实现***及方法 Download PDFInfo
- Publication number
- CN108416022B CN108416022B CN201810184335.1A CN201810184335A CN108416022B CN 108416022 B CN108416022 B CN 108416022B CN 201810184335 A CN201810184335 A CN 201810184335A CN 108416022 B CN108416022 B CN 108416022B
- Authority
- CN
- China
- Prior art keywords
- data
- curve
- subdata
- time
- component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24568—Data stream processing; Continuous queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Complex Calculations (AREA)
Abstract
本发明提供了一种流式数据实时保真曲线绘制模型实现***及方法,对于曲线绘制所需要的曲线数据集,先把对来源于实时数据解析组件的实时数据和历史数据提取组件的历史数据进行整合为总数据集;再从所述总数据集中提取一定量的特征数据;然后把提取的特征数据进行数据处理为特征数据集作为曲线界面控制组件的曲线绘制所需要的曲线数据集。与现有技术相比,针对流式数据,实现了能够应对数据量时大时小的流式数据的情况下,绘制高保真曲线构建模型。
Description
技术领域
本发明涉及网络监控、传感器网络、航空航天、气象测控等各种有流式数据生成并有实时曲线绘制需求的领域。
背景技术
流式数据,是指在***应用中随时间变化而改变的数据,和***切换的时间有直接关系。它是常常变化,直接反映事务过程的数据。
流式数据可被视为一个随时间延续而无限增长的数据集合;严格意义上讲,由若干个数据源持续生成的数据,通常也同时以数据记录的形式发送,数据规模时时变化的数据形式。
流式数据的特点包括:
1)具有数据传输实时性;
2)具有数据传输顺序独立性,不受外部因素所控制;
3)具有数据规模不确定性,不能预知其最大值或者最小值。
由于流式数据自身的特点,在基于流式数据的基础上进行高保真特征曲线绘制方面存在以下问题:
1)曲线响应速度慢;
2)曲线失真。
发明内容
本发明提供一种高效的流式数据实时保真曲线绘制模型实现***及方法,具有能够应对数据量时大时小的流式数据的情况下,绘制高保真曲线构建模型的特点。
本发明采用的技术方案如下:
一种流式数据实时保真曲线绘制模型实现***,包括实时数据接收组件、实时数据解析组件、数据存储组件、历史数据提取组件、曲线数据支撑组件和曲线界面控制组件;所述曲线数据支撑组件包括数据整合模块,对来源于实时数据解析组件的实时数据和历史数据提取组件的历史数据进行整合为总数据集;其特征在于:所述曲线数据支撑组件还包括,
特征数据提取模块,从所述总数据集中提取一定量的特征数据;
特征数据处理模块,把提取的特征数据进行数据处理为特征数据集并作为曲线界面控制组件的曲线绘制数据。
所述曲线数据支撑组件还包括数据缓冲清理模块,对曲线界面连续执行两个指令动作的时间大于设置时间阈值,且当前曲线数据集的数据量范围大于曲线范围M倍范围外的数据进行移除,释放多余的内存空间;所述M为大于零的有理数。
特征数据提取的具体方法包括:
根据总数据集,计算出需要的子数据集数量:A/B*N;其中,A为总数据集数据量,B为用户指定数据量,N为大于0的有理数;
根据得出的子数据集数量,得出需要划分的子数据的数据量,然后对总数据进行数据集拆分;在进行数据集拆分过程中,如果最后一个子数据集无法满足拆分条件,则用零填充或者直接作为一个子数据集;
对每个子数据集,计算出其中数据的平均数,子数据集中的每个数据与所述平均数做差并取绝对值;找出绝对值最大和最小的两个差值,提取出这两个差值对应的数据作为子数据集的特征数据。
特征数据处理的具体方法包括:把所有子数据集的所有提取出来的特征数据按照时间先后顺序进行整合,形成最终的特征数据集。
一种流式数据实时保真曲线绘制模型实现方法,其特征在于,对于曲线绘制所需要的曲线数据集,先把对来源于实时数据解析组件的实时数据和历史数据提取组件的历史数据进行整合为总数据集;再从所述总数据集中提取一定量的特征数据;然后把提取的特征数据进行数据处理为特征数据集作为曲线界面控制组件的曲线绘制所需要的曲线数据集。
所述实现方法还包括,判断曲线界面连续执行两个指令动作的时间是否大于设置时间阈值,如果是,则继续判断当前曲线数据集的数据量范围是否大于曲线范围的M倍范围,如果是,则把超出M倍范围外的数据进行移除,释放多余的内存空间;所述M为大于零的有理数。
特征数据提取的具体方法包括:
根据总数据集,计算出需要的子数据集数量:A/B*N;其中,A为总数据集数据量,B为用户指定数据量,N为大于0的有理数;
根据得出的子数据集数量,得出需要划分的子数据的数据量,然后对总数据进行数据集拆分;在进行数据集拆分过程中,如果最后一个子数据集无法满足拆分条件,则用零填充或者直接作为一个子数据集;
对每个子数据集,计算出其中数据的平均数,子数据集中的每个数据与所述平均数做差并取绝对值;找出绝对值最大和最小的两个差值,提取出这两个差值对应的数据作为子数据集的特征数据。
特征数据处理的具体方法包括:把所有子数据集的所有提取出来的特征数据按照时间先后顺序进行整合,形成最终的特征数据集。
与现有技术相比,本发明的有益效果是:针对流式数据,实现了能够应对数据量时大时小的流式数据的情况下,绘制高保真曲线构建模型。
附图说明
图1为流式数据实时保真曲线绘制模型实现***结构示意图。
图2为本发明一个实施例运用测试数据图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本说明书(包括摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或者具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
如图1所示,一种流式数据实时保真曲线绘制模型实现***,包括实时数据接收组件、实时数据解析组件、数据存储组件、历史数据提取组件、曲线数据支撑组件和曲线界面控制组件;所述曲线数据支撑组件包括数据整合模块,对来源于实时数据解析组件的实时数据和历史数据提取组件的历史数据进行整合为总数据集;所述曲线数据支撑组件还包括,
特征数据提取模块,从所述总数据集中提取一定量的特征数据;
特征数据处理模块,把提取的特征数据进行数据处理为特征数据集并作为曲线界面控制组件的曲线绘制数据。
由于软硬件环境的限制,在进行海量数据的曲线绘制,前端界面无法做到一次性把所有数据点都绘制出来,为了保证曲线绘制速率以及曲线不失真,本发明方案从海量数据中提取出一定量的特征数据,再运用提取的特征数据进行曲线绘制。
在本发明方案中,对现有技术中的实时数据接收组件、实时数据解析组件、数据存储组件、历史数据提取组件和曲线界面控制组件并没有做出改变,其中:
实时数据接收组件, 完成实时数据的接收,对不同来源的元数据进行整合后形成数据集,并将所述数据集发送给实时数据解析组件;
实时数据解析组件,根据用户预先制定的解析规则,对接收的数据集进行解析,同时对数据进行正确性和完整性验证,筛选错误数据和不符合解析规则的数据,把处理后的数据进行发送给数据存储组件和曲线数据支撑组件;
数据存储组件,完成结构化数据的存储入库,同时提供数据提取得到接口给历史数据提取组件;
历史数据提取组件,根据曲线绘制对数据的要求,从历史数据中提取数据,并发送给曲线数据支撑组件;
曲线界面控制组件,根据用户的需求,对来源于曲线数据支撑组件的数据集进行解析并完成最终曲线的绘制呈现。同时支持曲线的横轴缩放、纵轴缩放、选择区域放大、横轴和纵轴测距、最近点选取以及图例显示等功能。
所述曲线数据支撑组件还包括数据缓冲清理模块,对曲线界面连续执行两个指令动作的时间大于设置时间阈值,且当前曲线数据集的数据量范围大于曲线范围M倍范围外的数据进行移除,释放多余的内存空间;所述M为大于零的有理数。
在本发明方案中,为每一条曲线提供一个曲线数据集实例,为了保障曲线界面缩放控制的快速响应,数据集实例保存有该曲线在当前呈现范围M倍的数据量(若数据量超过了用户指定的特征数据量,则运用特征数据提取算法进行数据整理)。
特征数据提取的具体方法包括:
根据总数据集,计算出需要的子数据集数量:A/B*N;其中,A为总数据集数据量,B为用户指定数据量,N为大于0的有理数;
根据得出的子数据集数量,得出需要划分的子数据的数据量,然后对总数据进行数据集拆分;在进行数据集拆分过程中,如果最后一个子数据集无法满足拆分条件,则用零填充或者直接作为一个子数据集;
对每个子数据集,计算出其中数据的平均数,子数据集中的每个数据与所述平均数做差并取绝对值;找出绝对值最大和最小的两个差值,提取出这两个差值对应的数据作为子数据集的特征数据。
在本发明方案中,曲线数据支撑组件提供了曲线实时保真支撑功能,并使用了新的特征数据提取算法(平均数、绝对值双重校验法)。
平均数、绝对值双重校验法:平均数是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数,它反映数据集中趋势的一项指标。平均数非常明显的优点之一是,它能够利用所有的特征。在平均数的基础上,运用绝对值使误差平方和达到最小的统计量,也就是说利用平均数代表数据,可以使二次损失最小。
通过对不同类型曲线的测试,本发明方案提取的特征数据达到了曲线高保真的指标,具体测试数据如图2表中所示。
特征数据处理的具体方法包括:把所有子数据集的所有提取出来的特征数据按照时间先后顺序进行整合,形成最终的特征数据集。
一种流式数据实时保真曲线绘制模型实现方法,对于曲线绘制所需要的曲线数据集,先把对来源于实时数据解析组件的实时数据和历史数据提取组件的历史数据进行整合为总数据集;再从所述总数据集中提取一定量的特征数据;然后把提取的特征数据进行数据处理为特征数据集作为曲线界面控制组件的曲线绘制所需要的曲线数据集。
所述实现方法还包括,判断曲线界面连续执行两个指令动作的时间是否大于设置时间阈值,如果是,则继续判断当前曲线数据集的数据量范围是否大于曲线范围的M倍范围,如果是,则把超出M倍范围外的数据进行移除,释放多余的内存空间;所述M为大于零的有理数。
特征数据提取的具体方法包括:
根据总数据集,计算出需要的子数据集数量:A/B*N;其中,A为总数据集数据量,B为用户指定数据量,N为大于0的有理数;
根据得出的子数据集数量,得出需要划分的子数据的数据量,然后对总数据进行数据集拆分;在进行数据集拆分过程中,如果最后一个子数据集无法满足拆分条件,则用零填充或者直接作为一个子数据集;
对每个子数据集,计算出其中数据的平均数,子数据集中的每个数据与所述平均数做差并取绝对值;找出绝对值最大和最小的两个差值,提取出这两个差值对应的数据作为子数据集的特征数据。
特征数据处理的具体方法包括:把所有子数据集的所有提取出来的特征数据按照时间先后顺序进行整合,形成最终的特征数据集。
Claims (6)
1.一种流式数据实时保真曲线绘制模型实现***,包括实时数据接收组件、实时数据解析组件、数据存储组件、历史数据提取组件、曲线数据支撑组件和曲线界面控制组件;所述曲线数据支撑组件包括数据整合模块,对来源于实时数据解析组件的实时数据和历史数据提取组件的历史数据进行整合为总数据集;其特征在于:所述曲线数据支撑组件还包括,
特征数据提取模块,从所述总数据集中提取一定量的特征数据;
特征数据处理模块,把提取的特征数据进行数据处理为特征数据集并作为曲线界面控制组件的曲线绘制数据;
特征数据提取的具体方法包括:
根据总数据集,计算出需要的子数据集数量:A/B*N;其中,A为总数据集数据量,B为用户指定数据量,N为大于0的有理数;
根据得出的子数据集数量,得出需要划分的子数据的数据量,然后对总数据进行数据集拆分;在进行数据集拆分过程中,如果最后一个子数据集无法满足拆分条件,则用零填充或者直接作为一个子数据集;
对每个子数据集,计算出其中数据的平均数,子数据集中的每个数据与所述平均数做差并取绝对值;找出绝对值最大和最小的两个差值,提取出这两个差值对应的数据作为子数据集的特征数据。
2.根据权利要求1所述的***,其特征在于:所述曲线数据支撑组件还包括数据缓冲清理模块,对曲线界面连续执行两个指令动作的时间大于设置时间阈值,且当前曲线数据集的数据量范围大于曲线范围M倍范围外的数据进行移除,释放多余的内存空间;所述M为大于零的有理数。
3.根据权利要求1到2之一所述的***,其特征在于:特征数据处理的具体方法包括:把所有子数据集的所有提取出来的特征数据按照时间先后顺序进行整合,形成最终的特征数据集。
4.一种流式数据实时保真曲线绘制模型实现方法,其特征在于,对于曲线绘制所需要的曲线数据集,先把对来源于实时数据解析组件的实时数据和历史数据提取组件的历史数据进行整合为总数据集;再从所述总数据集中提取一定量的特征数据;然后把提取的特征数据进行数据处理为特征数据集作为曲线界面控制组件的曲线绘制所需要的曲线数据集;
特征数据提取的具体方法包括:
根据总数据集,计算出需要的子数据集数量:A/B*N;其中,A为总数据集数据量,B为用户指定数据量,N为大于0的有理数;
根据得出的子数据集数量,得出需要划分的子数据的数据量,然后对总数据进行数据集拆分;在进行数据集拆分过程中,如果最后一个子数据集无法满足拆分条件,则用零填充或者直接作为一个子数据集;
对每个子数据集,计算出其中数据的平均数,子数据集中的每个数据与所述平均数做差并取绝对值;找出绝对值最大和最小的两个差值,提取出这两个差值对应的数据作为子数据集的特征数据。
5.根据权利要求4所述的方法,其特征在于:所述实现方法还包括,判断曲线界面连续执行两个指令动作的时间是否大于设置时间阈值,如果是,则继续判断当前曲线数据集的数据量范围是否大于曲线范围的M倍范围,如果是,则把超出M倍范围外的数据进行移除,释放多余的内存空间;所述M为大于零的有理数。
6.根据权利要求4到5之一所述的方法,其特征在于:特征数据处理的具体方法包括:把所有子数据集的所有提取出来的特征数据按照时间先后顺序进行整合,形成最终的特征数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810184335.1A CN108416022B (zh) | 2018-03-07 | 2018-03-07 | 一种流式数据实时保真曲线绘制模型实现***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810184335.1A CN108416022B (zh) | 2018-03-07 | 2018-03-07 | 一种流式数据实时保真曲线绘制模型实现***及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108416022A CN108416022A (zh) | 2018-08-17 |
CN108416022B true CN108416022B (zh) | 2020-06-09 |
Family
ID=63130066
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810184335.1A Active CN108416022B (zh) | 2018-03-07 | 2018-03-07 | 一种流式数据实时保真曲线绘制模型实现***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108416022B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101982820B (zh) * | 2010-11-22 | 2011-12-07 | 北京航空航天大学 | 一种大数据量的曲线显示查询方法 |
CN102360287A (zh) * | 2011-09-28 | 2012-02-22 | 中国航天科工集团第四研究院第四总体设计部 | 一种用于高速实时仿真的曲线绘制方法 |
CN103646085A (zh) * | 2013-12-13 | 2014-03-19 | 北京本果信息技术有限公司 | 一种用于大数据数据库的数据曲线显示方法和设备 |
CN103955192A (zh) * | 2014-04-29 | 2014-07-30 | 安徽中科大国祯信息科技有限责任公司 | 一种用于污水处理厂的曲线报表数据采样方法 |
CN104091070A (zh) * | 2014-07-07 | 2014-10-08 | 北京泰乐德信息技术有限公司 | 一种基于时间序列分析的轨道交通故障诊断方法和*** |
CN106202378A (zh) * | 2016-07-08 | 2016-12-07 | 中国地质大学(武汉) | 一种流式气象数据的快速处理方法及*** |
CN107145532A (zh) * | 2017-04-18 | 2017-09-08 | 北京思特奇信息技术股份有限公司 | 一种流数据的实时分析处理方法及*** |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102008008470A1 (de) * | 2008-02-08 | 2009-08-27 | Mtu Aero Engines Gmbh | Verfahren zur Bestimmung der Bearbeitungsgüte von Bauteilen insbesondere bei spanender Bearbeitung durch NC Maschinen |
CN101871448B (zh) * | 2010-05-14 | 2013-01-02 | 同济大学 | 一种泵站水泵特性曲线确定方法及*** |
CN105740399B (zh) * | 2016-01-28 | 2019-05-07 | 北京航空航天大学 | 时序数据曲线处理方法和装置 |
CN106649050B (zh) * | 2016-09-09 | 2019-03-12 | 西安交通大学 | 时序***多参数运行态势图形表示方法 |
-
2018
- 2018-03-07 CN CN201810184335.1A patent/CN108416022B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101982820B (zh) * | 2010-11-22 | 2011-12-07 | 北京航空航天大学 | 一种大数据量的曲线显示查询方法 |
CN102360287A (zh) * | 2011-09-28 | 2012-02-22 | 中国航天科工集团第四研究院第四总体设计部 | 一种用于高速实时仿真的曲线绘制方法 |
CN103646085A (zh) * | 2013-12-13 | 2014-03-19 | 北京本果信息技术有限公司 | 一种用于大数据数据库的数据曲线显示方法和设备 |
CN103955192A (zh) * | 2014-04-29 | 2014-07-30 | 安徽中科大国祯信息科技有限责任公司 | 一种用于污水处理厂的曲线报表数据采样方法 |
CN104091070A (zh) * | 2014-07-07 | 2014-10-08 | 北京泰乐德信息技术有限公司 | 一种基于时间序列分析的轨道交通故障诊断方法和*** |
CN106202378A (zh) * | 2016-07-08 | 2016-12-07 | 中国地质大学(武汉) | 一种流式气象数据的快速处理方法及*** |
CN107145532A (zh) * | 2017-04-18 | 2017-09-08 | 北京思特奇信息技术股份有限公司 | 一种流数据的实时分析处理方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN108416022A (zh) | 2018-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200175397A1 (en) | Method and device for training a topic classifier, and computer-readable storage medium | |
CN106708016B (zh) | 故障监控方法和装置 | |
EP4099170B1 (en) | Method and apparatus of auditing log, electronic device, and medium | |
CN111078755A (zh) | 时序数据的存储查询方法、装置、服务器及存储介质 | |
CN107944005B (zh) | 一种数据展示方法及装置 | |
GB2478066A (en) | Identifying errors in a computer system using the relationships between the sources of log messages | |
CN104933175B (zh) | 一种性能数据相关性的分析方法及性能监控*** | |
CN110191109B (zh) | 一种报文采样方法及装置 | |
CN113032157B (zh) | 一种服务器自动智能扩缩容方法及*** | |
CN112052134A (zh) | 一种业务数据的监控方法及装置 | |
CN102737093A (zh) | 数据存储装置和数据存储方法 | |
CN112417141B (zh) | 一种国产工控***曲线数据查询处理方法 | |
CN115249043A (zh) | 数据分析方法、装置、电子设备及存储介质 | |
CN105743721A (zh) | 数据上报方法、对上报数据进行处理的方法和装置 | |
CN108416022B (zh) | 一种流式数据实时保真曲线绘制模型实现***及方法 | |
CN113282464A (zh) | 日志监控方法及*** | |
CN112163618B (zh) | 一种设备故障的检测方法及检测*** | |
CN113312321A (zh) | 一种业务量的异常监测方法及相关设备 | |
US20170098010A1 (en) | Data integration apparatus and data integration method | |
CN112784102A (zh) | 视频检索方法、装置和电子设备 | |
CN111882179A (zh) | 一种基于数据流处理的网络安全态势感知***平台 | |
CN111211939A (zh) | 一种基于网络处理器实现流表高效计数的装置和方法 | |
CN105446707B (zh) | 一种数据转换方法 | |
WO2022068348A1 (zh) | 关系图谱构建方法、装置、电子设备及存储介质 | |
CN107037262B (zh) | 一种大数据频谱分析***及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |