CN112214533A - 时序数据聚合方法及装置 - Google Patents
时序数据聚合方法及装置 Download PDFInfo
- Publication number
- CN112214533A CN112214533A CN202011128219.1A CN202011128219A CN112214533A CN 112214533 A CN112214533 A CN 112214533A CN 202011128219 A CN202011128219 A CN 202011128219A CN 112214533 A CN112214533 A CN 112214533A
- Authority
- CN
- China
- Prior art keywords
- data
- time
- time sequence
- sequence data
- time window
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002776 aggregation Effects 0.000 title claims abstract description 95
- 238000004220 aggregation Methods 0.000 title claims abstract description 95
- 238000000034 method Methods 0.000 title claims abstract description 79
- 230000011218 segmentation Effects 0.000 claims abstract description 37
- 230000004931 aggregating effect Effects 0.000 claims abstract description 20
- 230000006399 behavior Effects 0.000 claims description 37
- 238000011156 evaluation Methods 0.000 claims description 37
- 238000004590 computer program Methods 0.000 claims description 6
- 230000010365 information processing Effects 0.000 abstract description 2
- 230000008859 change Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000003860 storage Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000006073 displacement reaction Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000007906 compression Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000006116 polymerization reaction Methods 0.000 description 4
- 206010063385 Intellectualisation Diseases 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000446 fuel Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Complex Calculations (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明提供了一种时序数据聚合方法及装置,涉及信息处理的技术领域,包括:先获取时序数据集,并按照第一时间窗口对时序数据集进行分段,得到多个第一时序数据子集:然后将数据类型为变化型数据段的第一时序数据子集按照第二时间窗口进行分段,得到多个第二时序数据子集;再对数据类型为变化型数据段的第二时序数据子集重复执行分段步骤,直至第N时间窗口内保留预设数量的时序数据;最后将所有第N时间窗口内保留的预设数量的时序数据聚合,得到聚合之后的目标行为数据。本发明可以自适应调节变化型数据段的时间窗口,通过缩小时间窗口的方式保留更多的时序数据,以此确保聚合后的目标行为数据仍能反映智能船舶的行为,提高聚合效率和聚合精度。
Description
技术领域
本发明涉及信息处理技术领域,尤其是涉及一种时序数据聚合方法及装置。
背景技术
在工业大数据领域,尤其是在智能船舶领域内,时序数据是常见的一种数据形式。通常情况下,一段时间内保持稳定的时序数据表明工程对象处于稳定工作状态,此时只需要利用其中一条数据来记录其状态。而一段时间内连续变化的时序数据通常表明工程对象处于状态变化过程中,此时需要利用数据序列(多条数据)来描述其行为。与互联网大数据不同,在工业大数据领域,将数据变化的过程与工程对象的行为进行对比分析,是工业大数据重要的应用方式之一。因而提出特殊的数据聚合需求:只压缩稳定的数据段,保留变化数据段。
针对上述数据聚合需求,现有的时序数据聚合方法主要从大数据角度出发,目的在于提供一种软件工具包,通过软件工具包来实现对时序数据的分组。但是在分组时,需要通过人工干预的方式来调整时间时间窗口的大小,该方式并不能满足智能船舶对时序数据实时处理、实时传输的需求。另一方面,该方式耗时太久,消耗巨大的人力成本,聚合效率低,也不符合大数据和智能化发展趋势。
综上所述,现有的时序数据聚合方法存在人工干预、聚合效率低的技术问题。
发明内容
本发明的目的在于提供一种时序数据聚合方法及装置,以缓解了现有时序数据聚合方法存在的人工干预、聚合效率低的技术问题。
第一方面,本发明提供的一种时序数据聚合方法,其中,包括:获取时序数据集,并按照预设的第一时间窗口对所述时序数据集进行分段,得到多个第一时序数据子集:其中,所述时序数据集为智能船舶的指标按时间顺序记录的时序数据的集合;将数据类型为变化型数据段的第一时序数据子集按照第二时间窗口进行分段,得到多个第二时序数据子集;其中,所述第二时间窗口小于所述第一时间窗口;对数据类型为变化型数据段的第二时序数据子集重复执行分段步骤,直至第N时间窗口内保留预设数量的时序数据;将所有第N时间窗口内保留的预设数量的时序数据聚合,得到聚合之后的目标行为数据。
进一步的,在所述将数据类型为变化型数据段的第一时序数据子集按照第二时间窗口进行分段之前,所述方法还包括:对所述第一时序数据子集进行评估,得到评估结果;根据所述评估结果确定所述第一时序数据子集的数据类型。
进一步的,所述第一时序数据子集包含多个所述时序数据;所述对所述第一时序数据子集进行评估,得到评估结果,包括:计算所述第一时序数据子集的均值和标准差;计算所述第一时序数据子集中每个所述时序数据与所述均值的差值;统计所述差值大于第一预设阈值的时序数据数目;基于所述时序数据数目和所述标准差,确定所述评估结果。
进一步的,所述数据类型包括稳定型数据段和变化型数据段,所述根据所述评估结果确定所述第一时序数据子集的数据类型,包括:若所述评估结果为所述时序数据数目小于等于预设数目和所述标准差小于等于第二预设阈值,则确定所述第一时序数据子集的数据类型为稳定型数据段;若所述评估结果为所述时序数据数目大于预设数目或所述标准差大于第二预设阈值,则确定所述第一时序数据子集的数据类型为变化型数据段。
进一步的,所述时序数据聚合方法还包括:对数据类型为稳定型数据段的第一时序数据子集进行聚合,得到聚合后的第一目标状态数据。
进一步的,在所述将数据类型为变化型数据段的第一时序数据子集按照第二时间窗口进行分段之前,方法还包括:确定预设分割公式;基于所述第一时间窗口和所述预设分割公式,确定所述第二时间窗口。
进一步的,所述时序数据聚合方法还包括:对数据类型为稳定型数据段的第二时序数据子集进行聚合,得到聚合后的第二目标状态数据。
第二方面,本发明提供的一种时序数据聚合装置,其中,包括:获取分段单元,用于获取时序数据集,并按照预设的第一时间窗口对所述时序数据集进行分段,得到多个第一时序数据子集:其中,所述时序数据集为智能船舶的指标按时间顺序记录的时序数据的集合;第一分段单元,用于将数据类型为变化型数据段的第一时序数据子集按照第二时间窗口进行分段,得到多个第二时序数据子集;其中,所述第二时间窗口小于所述第一时间窗口;第二分段单元,用于对数据类型为变化型数据段的第二时序数据子集重复执行分段步骤,直至第N时间窗口内保留预设数量的时序数据;第一聚合单元,用于将所有第N时间窗口内保留的预设数量的时序数据聚合,得到聚合之后的目标行为数据。
第三方面,本发明还提供一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现的所述的时序数据聚合方法的步骤。
第四方面,本发明还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,其中,所述程序代码使所述处理器执行所述的时序数据聚合方法。
本发明提供的一种时序数据聚合方法及装置,包括:先获取时序数据集,并按照预设的第一时间窗口对时序数据集进行分段,得到多个第一时序数据子集:其中,时序数据集为智能船舶的指标按时间顺序记录的时序数据的集合;然后将数据类型为变化型数据段的第一时序数据子集按照第二时间窗口进行分段,得到多个第二时序数据子集;其中,第二时间窗口小于第一时间窗口;再对数据类型为变化型数据段的第二时序数据子集重复执行分段步骤,直至第N时间窗口内保留预设数量的时序数据;最后将所有第N时间窗口内保留的预设数量的时序数据聚合,得到聚合之后的目标行为数据。
本发明仅对第一时间窗口内数据类型为变化型数据段的第一时序数据子集按照比第一时间窗口小的第二时间窗口继续分段,可以实现自适应调节变化型数据段的时间窗口,并且通过缩小时间窗口的方式可以保留更多的时序数据,以此来确保聚合后的目标行为数据仍能反映智能船舶的行为,提高了聚合效率和聚合精度。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种时序数据聚合方法的流程图;
图2为本发明实施例提供的另一种时序数据聚合方法的流程图;
图3为图2中步骤S102的流程图;
图4为图2中步骤S103的流程图;
图5为本发明实施例提供的再一种时序数据聚合方法的流程图;
图6为本发明实施例提供的一种时序数据聚合装置的结构示意图。
图标:
11-获取分段单元;12-第一分段单元;13-第二分段单元;14-第一聚合单元。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前船舶智能化已经成为全球航运业的大势所趋,通过智能船舶的总体设计,搭载相关的智能应用,如智能航行、智能船体、智能机舱、智能能效等,可以实现船舶的辅助决策、远程遥控、无人自主等功能。而上述各个智能应用的正常运行均需船舶相应的运营数据。通过梳理船舶各智能应用对于数据采集、存储、分发、船岸传输等场景的功能需求,开发数据管理平台,对数据流进行常规的清洗、分发、存储、船岸回传,减少了各个智能应用对于数据处理的需求,使其能够专注于自身业务。
在工业大数据领域,特别是智能船领域,时序数据(指标数据项Y随时间T演化)是一种常见的数据形式。通常情况下,一段时间内保持稳定的数据通常表明工程对象处于稳定工作状态,此时只需要一条数据记录其状态。而一段时间内连续变化的数据通常表明工程对象处于状态变化过程中,此时需要用数据序列来描述其行为。与互联网大数据不同,在工业大数据领域,将数据变化过程与工程对象的行为进行对比分析,是工业大数据重要应用方式之一。因而提出特殊的数据聚合需求:只压缩稳定数据段,保留变化数据段。
在大数据领域,分组和聚合是常规的数据处理方法。数据分组是根据数据分析需求,将数据分成不同的组;数据聚合是针对一组数据做转换计算,比如,数据统计(求均值、众数、样本数、标准差等)、求满足某条件的样本占比等。通过上述分组和聚合运算,可以降低数据量,提高***效率;同时,分组和聚合运算可以提炼数据隐含的工程意义,是数据分析的关键步骤。
现有的时序数据聚合方法主要从大数据角度出发,其主要目的在于提供软件工具包,并非提出适用于工程需求的深度算法。另外,现有聚合方法的主要问题在于:应用分组和聚合工具时,需要人工调试超参数(比如:时间窗的大小,聚合函数的选取和组合方式等)。一方面,人工干预的方式不能满足智能船舶实时处理、实时传输的需求。另一方面,人工调试的方式耗时太久,消耗巨大的人力成本,也不符合大数据和智能化发展趋势。基于此,本发明的目的在于提供一种时序数据聚合方法及装置,可以通过自适应调整时间窗大小的方式来避免人工干预,提高了聚合效率和聚合精度,可以满足智能船舶实时处理、实时传输的需求,也符合大数据和智能化发展趋势。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种时序数据聚合方法进行详细描述。
实施例1:
根据本发明实施例,提供了一种时序数据聚合方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1为本发明实施例提供的一种时序数据聚合方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,获取时序数据集,并按照预设的第一时间窗口对时序数据集进行分段,得到多个第一时序数据子集。
在本发明实施例中,时序数据集为智能船舶的指标按时间顺序记录的时序数据的集合,上述指标包括但不限于:油耗、航速、风速、排水量、等。第一时间窗口的大小可以根据指标进行预定义设置。分段之后得到的每个第一时序数据子集均对应一个第一时间窗口,并且每个第一时间窗口与相邻的第一时间窗口具有连续性。不同的第一时间窗口的大小可以相同,也可以不同,因此本发明实施例对此不作具体限定。本申请以所有第一时间窗口的大小相同为例进行下述介绍。
步骤S104,将数据类型为变化型数据段的第一时序数据子集按照第二时间窗口进行分段,得到多个第二时序数据子集。
在本发明实施例中,数据类型包括:稳定型数据段和变化型数据段。第二时间窗口小于第一时间窗口。上述第二时间窗口的大小可以根据第一时间窗口自适应调节。本实施例进行自适应调节的原理为:将数据类型为变化型数据段的第一时序数据子集所在的第一时间窗口进行缩小,即将第一时间窗口划分为多个第二时间窗口,对应的,对第一时序数据子集进行分段,得到多个第二时序数据子集,第二时序数据子集的数量与第二时间窗口的数量相同。该步骤S104通过按照第二时间窗口对数据类型为变化型数据段的第一时序数据子集进行分段的方式,可以保留更多的变化数据,以准确反映智能船舶的行为。
步骤S105,对数据类型为变化型数据段的第二时序数据子集重复执行分段步骤,直至第N时间窗口内保留预设数量的时序数据。
在本发明实施例中,第二时序数据子集的数据类型决定其所在时间窗口的调整方式。当第二时序数据子集的数据类型为变化型数据段时,可以采用通过切割方式对其所在的时间窗口进行调整,得到多个第三时间窗口,一方面,可以挑出数据类型为稳定型数据段的第三时序数据子集,以此来保证第二时序数据子集内变化数据的纯度;另一方面,可以利用更小时间窗口内的时序数据实现对智能船舶行为的精确表示。需要注意的是,预设数量是可调超参数,可以是一个,也可以是两个或三个,因此本发明实施例对预设数量的定义不作具体限定,预设数量的数值可以由本领域专家设置。
步骤S106,将所有第N时间窗口内保留的预设数量的时序数据聚合,得到聚合之后的目标行为数据。
在本发明实施例中,一个第N时间窗口内保留的预设数量的时序数据无法实现对智能船舶行为的分析,因此可以将所有连续的第N时间窗口内保留的预设数量的时序数据进行聚合,得到目标行为数据,该目标行为数据可以反映智能船舶的行为。
一方面,由于船舶信息化起步晚,技术积累不足,因此目前还未形成针对船舶运营数据的高效聚合方法。另一方面,受海事规范限制,船用计算设备和存储设备性能有限,并且智能船舶数据的传输需要依赖无线和卫星通讯,数据传输效率较低,因而迫切需要建立一套完善的、专业的数据聚合方法,用以压缩数据,降低硬件需求。
本发明实施例提供的一种时序数据聚合方法,包括:先获取时序数据集,并按照预设的第一时间窗口对时序数据集进行分段,得到多个第一时序数据子集:其中,时序数据集为智能船舶的指标按时间顺序记录的时序数据的集合;然后将数据类型为变化型数据段的第一时序数据子集按照第二时间窗口进行分段,得到多个第二时序数据子集;其中,第二时间窗口小于第一时间窗口;再对数据类型为变化型数据段的第二时序数据子集重复执行分段步骤,直至第N时间窗口内保留预设数量的时序数据;最后将所有第N时间窗口内保留的预设数量的时序数据聚合,得到聚合之后的目标行为数据。本发明实施例仅对数据类型为变化型数据段的第一时序数据子集按照比第一时间窗口小的第二时间窗口继续分段,可以实现自适应调节变化型数据段的时间窗口,并且通过缩小时间窗口的方式可以保留更多的时序数据,以此来确保聚合后的目标行为数据仍能反映智能船舶的行为,提高聚合效率和聚合精度。
在一个可选的实施例中,如图2所示,在步骤S103,将数据类型为变化型数据段的第一时序数据子集按照第二时间窗口进行分段之前,方法还包括:
步骤S102,对第一时序数据子集进行评估,得到评估结果;
步骤S103,根据评估结果确定第一时序数据子集的数据类型。
在本发明实施例中,评估第一时序数据子集所用的评估标准可以自定义设置。步骤S102的具体步骤在下述步骤S301~步骤S304中进行详细描述,而步骤S103的具体步骤在下述步骤S401~步骤S402中进行详细描述。上述步骤S102~步骤S103主要是用于确定第一时序数据子集的数据类型。以第一时序数据子集为例进行如下分析,本申请中的第一时序数据子集可以只包含稳定数据段,也可以只包含变化数据段,也可以同时包含稳定数据段和变化数据段。一般情况下,只包含变化数据段的第一时序数据子集和同时包含稳定数据段和变化数据段的第一时序数据子集一般均可以通过评估的方式预先被确定为变化型数据段。
在一个可选的实施例中,第一时序数据子集包含多个时序数据,如图3所示,步骤S102,对第一时序数据子集进行评估,得到评估结果,包括以下步骤:
步骤S301,计算第一时序数据子集的均值和标准差;
步骤S302,计算第一时序数据子集中每个时序数据与均值的差值;
步骤S303,统计差值大于第一预设阈值的时序数据数目;
步骤S304,基于时序数据数目和标准差,确定评估结果。
本发明实施例可以评估出第一时序数据子集的评估结果,并且后续对更小时间窗口内时序数据子集的评估也采用上述步骤S301~步骤S304描述的评估方式。本发明实施例通过时间窗口内时序数据子集的标准差来判断该时序数据子集是否为变化型数据段,并且可以对变化型数据段进一步分为小段,通过不断的评估、分段的技术手段可以实现时间窗口的自适应调整,其目的是能够自适应地区分变化数据段和稳定数据段。
时序数据集为智能船舶的指标按时间顺序记录的时序数据的集合,即一个时间点采集一条数据,因此在确定时间窗口的大小之后,可以确定时间窗口内存在的若干条数据。本发明实施例对一个时间窗口内的时序数据求统计,例如:求平均值和标准差。当本发明实施例利用均值来表示该时间窗口内时序数据的整体状态时,具有以下前提:该时间窗口内的时序数据变化不大(即,标准差比较小),则平均值可以准确表示该时间窗口内的整体状态。反之,若该时间窗口内的时序数据变化较大(即,标准差比较大),说明该时间段内的时序数据发生明显变化,此时将该时间段内的时序数据替换为一条数据是不合适的,所以对于变化型数据段,可以利用更小的时间窗口将上一时间窗口内的时序数据分为小段,直至时间窗口内只包含一条数据。
在一个可选的实施例中,数据类型包括稳定型数据段和变化型数据段,如图4所示,步骤S103,根据评估结果确定第一时序数据子集的数据类型,包括:
步骤S401,若评估结果为时序数据数目小于等于预设数目和标准差小于等于第二预设阈值,则确定第一时序数据子集的数据类型为稳定型数据段;
步骤S402,若评估结果为时序数据数目大于预设数目或标准差大于第二预设阈值,则确定第一时序数据子集的数据类型为变化型数据段。
在本发明实施例中,评估结果为上述两种结果,一种是:时序数据数目小于等于预设数目和标准差小于等于第二预设阈值,另一种是:时序数据数目大于预设数目或标准差大于第二预设阈值。不同的评估结果对应第一时序数据子集的不同数据类型。类似的,不同的评估结果也对应第N时序数据子集的不同数据类型。
在一个可选的实施例中,如图2所示,时序数据聚合方法还包括以下步骤:
步骤S107,对数据类型为稳定型数据段的第一时序数据子集进行聚合,得到聚合后的第一目标状态数据。
在本发明实施例中,如果一个时间窗口内的数据无变化,那么取时间平均的第一目标状态数据和取时间窗口内任意一条数据没有差异。但是,在实际情况下,采集到的时序数据都包含噪声,因此单独取一条数据无法实现对噪声的处理。由于噪声满足正态分布,因此本发明实施例聚合时通过求时间平均的方式可以降低噪声的影响。
在一个可选的实施例中,如图2所示,在步骤S104,将数据类型为变化型数据段的第一时序数据子集按照第二时间窗口进行分段之前,方法还包括以下步骤:
步骤S108,确定预设分割公式;
步骤S109,基于第一时间窗口和预设分割公式,确定第二时间窗口。
在本发明实施例中,预设分割公式为w=w0/K,初始时,w为第二时间窗口,w0为第一时间窗口,K为常数。重复执行分段步骤时,当w0为第二时间窗口时,w为第三时间窗口。通过该公式,可以自适应确定下一时间窗口的大小,可以实现时间窗口的自适应调整。
在一个可选的实施例中,如图2所示,时序数据聚合方法还包括以下步骤:步骤S110,对数据类型为稳定型数据段的第二时序数据子集进行聚合,得到聚合后的第二目标状态数据。
在本发明实施例中,与上述步骤S107类似,本发明实施例的目的是利用第二目标状态数据表征智能船舶的稳定状态。
在物理上可以将速度不变称为状态,将速度变化称为行为。为了便于对状态和行为的理解,本实施例对状态和行为进行举例说明:例如指标为航速,时间窗口为60分钟,那么一个时间窗口内航速基本保持不变(标准差小),说明船处于稳定航行状态,智能船舶维持一定速度向前行驶,物理上可以称为定速状态。如果一个时间窗口内,航速由6节变化到12节(标准差较大),说明该段时间内,智能船舶在做加速运动,船员在控制船舶进行加速,这是船员的操控行为,也是船的加速行为。再比如,若指标为排水量,时间窗口为30分钟,若一个时间窗口内的排水量基本不变,则说明智能船舶维持排水量不变,维持这一状态。如果一个时间窗口内,排水量从1万吨增加至2万吨,那么说明船员在增加载重,这是船员的行为,船的载荷发生了显著变化,那么这也是船的行为。
对于上述状态,由于时序数据保持基本不变,因此可以利用平均值即可表示目标状态数据。对于上述行为,由于时序数据在不断变化,且不确定时序数据变得快还是慢,也不确定是前半段时间变得快还是后半段时间变得快。所以对于变化数据段不能直接聚合,而是利用更小的时间窗口,去查看在更小的时间段内,时序数据是否还在明显变化。因而本发明实施例可以利用更小的时间窗来保留更多的变化数据。
综上所述,本发明实施例提供的时序数据聚合方法是一种时间窗口自适应调整方法,具有以下优势:(1)该时序数据聚合方法满足工业大数据对数据聚合的特殊需求:对稳定数据段进行聚合压缩,聚合压缩时采用较大的时间窗口将该段时序数据聚合为一条数据,用以表征工程对象的稳定状态,同时减少数据量,降低数据噪声;(2)采用较小的时间窗对数据进行聚合压缩,确保压缩后的数据仍能反映工程对象的行为。因此本发明实施例可以确保目标状态数据/目标行为数据准确反映工程对象(本实施例以工程对象是智能船舶为例)的状态/行为。
实施例2:
图5为本发明实施例提供的再一种时序数据聚合方法的流程图。如图5所示,步骤1,对时序数据集[T,Y],根据预定义的连续时间窗口(即上述的第一时间窗口),将数据分为若干段。其中,T表示时间序列,Y表示与时间序列对应的采样数据(即上述指标),可以是油耗、航速、风速等。
步骤2,针对每段的时序数据子集,计算T的均值Tm;计算Y的均值Ym、标准差Ystd以及各样本与Ym之差Δy(i)=|yi-Ym|(i),i=1,2,...,n;统计所述差值高于第一预设阈值Δymax的样本数目YN;然后根据YN和Ystd来确定该段时序数据子集的聚合方式:若YN不大于预设数目YN_max,且Ystd不大于第二预设阈值Ystd_max,则认为该段的时序数据在时间窗内保持稳定,进而可以将其聚合为一个样本,以(Tm,Ym)表示。若YN大于预设数目YN_max或Ystd大于第二预设阈值Ystd_max,则认为该段的时序数据在时间窗内发生了较大变化。需要注意的是,上述Δymax、YN_max、Ystd_max以及K为超参数,这些超参数与船舶工程密切相关,应当由领域专家来确定。
在上述步骤2中,时序数据集如下所示:
Y为一列数据,[T,Y]是多行两列,第一列为时间T,第二列为油耗Y。其中,每一行表示不同时间点对油耗的记录。然后对上述时序数据集进行分段,比如取100行为一段,若Y总共为1000行,那么分段结果为10段时序数据子集,对每一段数据子集可以调用步骤2和步骤3,即可实现对时序数据的聚合。在本发明实施例中,Y还可以表示航速等其他指标。
步骤3,针对在时间窗口内发生较大变化的时序数据,本实施例采用更小的时间窗口(例如,取原窗口大小的1/2或1/3等)将该段时序数据进一步分割,对分割后的一小段时序数据重复上述计算过程,直至第N时间窗口内只保留一个样本为止。
在上述步骤3中,可以根据工程和航海经验确定初始时间窗口(即第一时间窗口)的大小,并以w0进行表示。如果w0取值太小,那么数据压缩效果不理想;如果w0取值太大,那么压缩后的数据连续性不足,因此w0的取值应当由经验丰富的船舶工程设计人员或者航海领域专家来确定。比如,若采样数据为航速,考虑到船舶加减速过程通常耗时10至60分钟,那么w0取值60分钟比较合适;若采样数据为舵角,考虑到舵角的变化比较频繁,那么w0可以取值10秒或20秒。
步骤4,针对在时间窗口内保持稳定的时序数据,本实施例将该时间窗口内的所有时序数据聚合为一个样本。
步骤5,仍以各个时间窗口为操作单元,对一个时间窗口内的数据完成聚合运算之后,可以将压缩后的聚合结果存入到船基数据库,再通过船岸通讯模块发送至岸端数据库。
在本实施例中,该时序数据聚合方法结合数据分析方法和船舶工程领域知识,可以满足工业大数据对数据聚合的特殊需求:只对稳定数据段进行聚合压缩,保留变化数据段,在减少数据量,降低数据噪声的同时,还可以确保数据准确地反映工程对象的状态和行为。该数据聚合方法应用于本实施例下述软硬件支持平台。
本实施例还设计软硬件支持平台,用以实现上述数据聚合方法,包括:数据采集设备、缓存、处理器、数据聚合模块、船基数据库、船岸通讯模块、岸基数据库、终端和人机交互模块,其中:
数据采集设备和缓存,分别用于采集和临时存放一个时间窗口内的数据;处理器,用于配置上述步骤2计算所用的公式,以实现计算;数据聚合模块,用于对每个时间窗口内的时序数据,通过聚合运算压缩稳定数据段,并以更小的时间窗压缩变化数据段。船基数据库和岸基数据库分别用于储存聚合之后的数据,船岸通讯模块负责将船基数据库存储的数据同步回传至岸基数据库。终端和人机交互模块共同作用,用以配置算法中涉及到的超参数,包括w0,Δymax、YN_max、Ystd_max和K。综上所述,该软硬件支持平台,用于实现数据的采集、聚合和存储。
实施例3:
本发明实施例提供了一种时序数据聚合装置,该时序数据聚合装置主要用于执行实施例1上述内容所提供的时序数据聚合方法,以下对本发明实施例提供的时序数据聚合装置做具体介绍。
图6为本发明实施例提供的一种时序数据聚合装置的结构示意图。如图6所示,该时序数据聚合装置,主要包括:获取分段单元11,第一分段单元12,第二分段单元13,第一聚合单元14,其中:
获取分段单元11,用于获取时序数据集,并按照预设的第一时间窗口对时序数据集进行分段,得到多个第一时序数据子集:其中,时序数据集为智能船舶的指标按时间顺序记录的时序数据的集合;
第一分段单元12,用于将数据类型为变化型数据段的第一时序数据子集按照第二时间窗口进行分段,得到多个第二时序数据子集;其中,第二时间窗口小于第一时间窗口;
第二分段单元13,用于对数据类型为变化型数据段的第二时序数据子集重复执行分段步骤,直至第N时间窗口内保留预设数量的时序数据;
第一聚合单元14,用于将所有第N时间窗口内保留的预设数量的时序数据聚合,得到聚合之后的目标行为数据。
本发明实施例提供的一种时序数据聚合装置,包括:先利用获取分段单元11获取时序数据集,并按照预设的第一时间窗口对时序数据集进行分段,得到多个第一时序数据子集:其中,时序数据集为智能船舶的指标按时间顺序记录的时序数据的集合;然后利用第一分段单元12将数据类型为变化型数据段的第一时序数据子集按照第二时间窗口进行分段,得到多个第二时序数据子集;其中,第二时间窗口小于第一时间窗口;再利用第二分段单元13对数据类型为变化型数据段的第二时序数据子集重复执行分段步骤,直至第N时间窗口内保留预设数量的时序数据;最后利用第一聚合单元14将所有第N时间窗口内保留的预设数量的时序数据聚合,得到聚合之后的目标行为数据。本发明实施例仅对数据类型为变化型数据段的第一时序数据子集按照比第一时间窗口小的第二时间窗口继续分段,可以实现自适应调节变化型数据段的时间窗口,并且通过缩小时间窗口的方式可以保留更多的时序数据,以此来确保聚合后的目标行为数据仍能反映智能船舶的行为,提高聚合效率和聚合精度。
可选地,所述装置还包括评估单元和第一确定单元,其中:
评估单元,用于对第一时序数据子集进行评估,得到评估结果;
第一确定单元,用于根据评估结果确定第一时序数据子集的数据类型。
可选地,第一时序数据子集包含多个时序数据;评估单元包括第一计算模块、第二计算模块、统计模块和第一确定模块,其中:
第一计算模块,用于计算第一时序数据子集的均值和标准差;
第二计算模块,用于计算第一时序数据子集中每个时序数据与均值的差值;
统计模块,用于统计差值大于第一预设阈值的时序数据数目;
第一确定模块,用于基于时序数据数目和标准差,确定评估结果。
可选地,数据类型包括稳定型数据段和变化型数据段,确定单元,包括第二确定模块和第三确定模块,其中:
第二确定模块,用于若评估结果为时序数据数目小于等于预设数目和标准差小于等于第二预设阈值,则确定第一时序数据子集的数据类型为稳定型数据段;
第三确定模块,用于若评估结果为时序数据数目大于预设数目或标准差大于第二预设阈值,则确定第一时序数据子集的数据类型为变化型数据段。
可选地,所述装置还包括第二聚合单元;
第二聚合单元,用于对数据类型为稳定型数据段的第一时序数据子集进行聚合,得到聚合后的第一目标状态数据。
可选地,所述装置还包括第二确定单元和第三确定单元,其中:
第二确定单元,用于确定预设分割公式;
第三确定单元,用于基于第一时间窗口和预设分割公式,确定第二时间窗口。
可选地,时序数据聚合装置还包括第三聚合单元,其中:
第三聚合单元,用于对数据类型为稳定型数据段的第二时序数据子集进行聚合,得到聚合后的第二目标状态数据。
在一个可选的实施例中,本实施例还提供一种电子设备,包括存储器、处理器,存储器中存储有可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述方法实施例方法的步骤。
在一个可选的实施例中,本实施例还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,其中,所述程序代码使所述处理器执行上述方法实施例方法。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本实施例的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本实施例的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本实施例所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种时序数据聚合方法,其特征在于,包括:
获取时序数据集,并按照预设的第一时间窗口对所述时序数据集进行分段,得到多个第一时序数据子集:其中,所述时序数据集为智能船舶的指标按时间顺序记录的时序数据的集合;
将数据类型为变化型数据段的第一时序数据子集按照第二时间窗口进行分段,得到多个第二时序数据子集;其中,所述第二时间窗口小于所述第一时间窗口;
对数据类型为变化型数据段的第二时序数据子集重复执行分段步骤,直至第N时间窗口内保留预设数量的时序数据;
将所有第N时间窗口内保留的预设数量的时序数据聚合,得到聚合之后的目标行为数据。
2.根据权利要求1所述的时序数据聚合方法,其特征在于,在所述将数据类型为变化型数据段的第一时序数据子集按照第二时间窗口进行分段之前,所述方法还包括:
对所述第一时序数据子集进行评估,得到评估结果;
根据所述评估结果确定所述第一时序数据子集的数据类型。
3.根据权利要求2所述的时序数据聚合方法,其特征在于,所述第一时序数据子集包含多个所述时序数据;
所述对所述第一时序数据子集进行评估,得到评估结果,包括:
计算所述第一时序数据子集的均值和标准差;
计算所述第一时序数据子集中每个所述时序数据与所述均值的差值;
统计所述差值大于第一预设阈值的时序数据数目;
基于所述时序数据数目和所述标准差,确定所述评估结果。
4.根据权利要求3所述的时序数据聚合方法,其特征在于,所述数据类型包括稳定型数据段和变化型数据段,所述根据所述评估结果确定所述第一时序数据子集的数据类型,包括:
若所述评估结果为所述时序数据数目小于等于预设数目和所述标准差小于等于第二预设阈值,则确定所述第一时序数据子集的数据类型为稳定型数据段;
若所述评估结果为所述时序数据数目大于预设数目或所述标准差大于第二预设阈值,则确定所述第一时序数据子集的数据类型为变化型数据段。
5.根据权利要求4所述的时序数据聚合方法,其特征在于,还包括:
对数据类型为稳定型数据段的第一时序数据子集进行聚合,得到聚合后的第一目标状态数据。
6.根据权利要求1所述的时序数据聚合方法,其特征在于,在所述将数据类型为变化型数据段的第一时序数据子集按照第二时间窗口进行分段之前,方法还包括:
确定预设分割公式;
基于所述第一时间窗口和所述预设分割公式,确定所述第二时间窗口。
7.根据权利要求1所述的时序数据聚合方法,其特征在于,还包括:
对数据类型为稳定型数据段的第二时序数据子集进行聚合,得到聚合后的第二目标状态数据。
8.一种时序数据聚合装置,其特征在于,包括:
获取分段单元,用于获取时序数据集,并按照预设的第一时间窗口对所述时序数据集进行分段,得到多个第一时序数据子集:其中,所述时序数据集为智能船舶的指标按时间顺序记录的时序数据的集合;
第一分段单元,用于将数据类型为变化型数据段的第一时序数据子集按照第二时间窗口进行分段,得到多个第二时序数据子集;其中,所述第二时间窗口小于所述第一时间窗口;
第二分段单元,用于对数据类型为变化型数据段的第二时序数据子集重复执行分段步骤,直至第N时间窗口内保留预设数量的时序数据;
第一聚合单元,用于将所有第N时间窗口内保留的预设数量的时序数据聚合,得到聚合之后的目标行为数据。
9.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,处理器执行计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011128219.1A CN112214533B (zh) | 2020-10-20 | 2020-10-20 | 时序数据聚合方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011128219.1A CN112214533B (zh) | 2020-10-20 | 2020-10-20 | 时序数据聚合方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112214533A true CN112214533A (zh) | 2021-01-12 |
CN112214533B CN112214533B (zh) | 2024-06-14 |
Family
ID=74056098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011128219.1A Active CN112214533B (zh) | 2020-10-20 | 2020-10-20 | 时序数据聚合方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112214533B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115935208A (zh) * | 2022-12-09 | 2023-04-07 | 国网湖北省电力有限公司信息通信公司 | 一种数据中心设备多元时间序列运行数据在线分割方法、设备及介质 |
CN117874315A (zh) * | 2024-03-13 | 2024-04-12 | 普益智慧云科技(成都)有限公司 | 用户需求分析展示方法、***、计算机设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180032758A1 (en) * | 2016-08-01 | 2018-02-01 | Mitsubishi Electric Research Laboratories, Inc | Method and Systems using Privacy-Preserving Analytics for Aggregate Data |
CN108664603A (zh) * | 2018-05-09 | 2018-10-16 | 北京奇艺世纪科技有限公司 | 一种修复时序数据的异常聚合值的方法及装置 |
CN111291824A (zh) * | 2020-02-24 | 2020-06-16 | 网易(杭州)网络有限公司 | 时间序列的处理方法、装置、电子设备和计算机可读介质 |
-
2020
- 2020-10-20 CN CN202011128219.1A patent/CN112214533B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180032758A1 (en) * | 2016-08-01 | 2018-02-01 | Mitsubishi Electric Research Laboratories, Inc | Method and Systems using Privacy-Preserving Analytics for Aggregate Data |
CN108664603A (zh) * | 2018-05-09 | 2018-10-16 | 北京奇艺世纪科技有限公司 | 一种修复时序数据的异常聚合值的方法及装置 |
CN111291824A (zh) * | 2020-02-24 | 2020-06-16 | 网易(杭州)网络有限公司 | 时间序列的处理方法、装置、电子设备和计算机可读介质 |
Non-Patent Citations (1)
Title |
---|
谭宏强;牛强;: "基于滑动窗口及局部特征的时间序列符号化方法", 计算机应用研究, no. 03 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115935208A (zh) * | 2022-12-09 | 2023-04-07 | 国网湖北省电力有限公司信息通信公司 | 一种数据中心设备多元时间序列运行数据在线分割方法、设备及介质 |
CN115935208B (zh) * | 2022-12-09 | 2024-02-02 | 国网湖北省电力有限公司信息通信公司 | 一种数据中心设备多元时间序列运行数据在线分割方法、设备及介质 |
CN117874315A (zh) * | 2024-03-13 | 2024-04-12 | 普益智慧云科技(成都)有限公司 | 用户需求分析展示方法、***、计算机设备和存储介质 |
CN117874315B (zh) * | 2024-03-13 | 2024-05-14 | 普益智慧云科技(成都)有限公司 | 用户需求分析展示方法、***、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112214533B (zh) | 2024-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109840589B (zh) | 一种在fpga上运行卷积神经网络的方法和装置 | |
CN112631415B (zh) | Cpu频率调整方法、装置、电子设备及存储介质 | |
CN112214533A (zh) | 时序数据聚合方法及装置 | |
US20150019464A1 (en) | method and apparatus for supplying interpolation point data for a data-based function model calculation unit | |
CN111488985A (zh) | 深度神经网络模型压缩训练方法、装置、设备、介质 | |
Turaga et al. | Locally time-invariant models of human activities using trajectories on the grassmannian | |
CN117459418B (zh) | 一种实时数据采集存储方法及*** | |
CN113360656A (zh) | 异常数据检测方法、装置、设备及存储介质 | |
CN116272363A (zh) | 船舶废气混合式脱硫***及其方法 | |
EP4170561A1 (en) | Method and device for improving performance of data processing model, storage medium and electronic device | |
CN116821646A (zh) | 数据处理链构建方法、数据缩减方法、装置、设备及介质 | |
CN117152554A (zh) | 基于ViT模型的病理切片数据识别方法及*** | |
CN114494327A (zh) | 一种目标对象的航迹处理方法、装置及设备 | |
US11922018B2 (en) | Storage system and storage control method including dimension setting information representing attribute for each of data dimensions of multidimensional dataset | |
CN113642710A (zh) | 一种网络模型的量化方法、装置、设备和存储介质 | |
CN112580645B (zh) | 基于卷积稀疏编码的Unet语义分割方法 | |
CN111858108B (zh) | 一种硬盘故障预测方法、装置、电子设备和存储介质 | |
CN110298868B (zh) | 一种高实时性的多尺度目标跟踪方法 | |
CN112288910A (zh) | 一种船舶航行性能分析方法及*** | |
CN115843366A (zh) | 使用可压缩决定来预测数据的压缩比 | |
WO2019187741A1 (ja) | 状態分析装置および状態分析方法 | |
CN116088333A (zh) | 工业设备控制方法、装置、计算机设备、存储介质和产品 | |
CN116204518A (zh) | 一种基于tsh压缩和dbscan聚类的船舶轨迹分析方法 | |
EP3866021A1 (en) | Method for performance optimization of object grouping schema in a network key-value storage device using adaptive regression, and non-transitory computer readable medium and system using the same | |
CN109978038B (zh) | 一种集群异常判定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |