CN116226231A - 数据分割方法及相关装置 - Google Patents

数据分割方法及相关装置 Download PDF

Info

Publication number
CN116226231A
CN116226231A CN202310156942.8A CN202310156942A CN116226231A CN 116226231 A CN116226231 A CN 116226231A CN 202310156942 A CN202310156942 A CN 202310156942A CN 116226231 A CN116226231 A CN 116226231A
Authority
CN
China
Prior art keywords
data
segmentation
period
target
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310156942.8A
Other languages
English (en)
Other versions
CN116226231B (zh
Inventor
肖红彬
牛晓东
赵彦军
袁志宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Maglev Co ltd
Original Assignee
Beijing Thinking Shichuang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Thinking Shichuang Technology Co ltd filed Critical Beijing Thinking Shichuang Technology Co ltd
Priority to CN202310156942.8A priority Critical patent/CN116226231B/zh
Publication of CN116226231A publication Critical patent/CN116226231A/zh
Application granted granted Critical
Publication of CN116226231B publication Critical patent/CN116226231B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据分割方法及相关装置,其方法包括:本申请通过获取预设分割条件和目标数据;在判定所述目标数据满足预设分割条件对应的限制条件时,根据周期性特点获取本体周期集合;根据预设分割条件在本体周期集合中确定目标本体周期;在所述目标数据中对所述目标本体周期进行数据分割来获取数据分割结果。通过获取本体周期集合并结合预设分割条件对本体周期集合进行分割实现了时序数据的周期性自动分割的技术效果。

Description

数据分割方法及相关装置
技术领域
本申请涉及数据处理领域,尤其是涉及一种数据分割方法及相关装置。
背景技术
时间序列数据是物联网领域的应用研究热点。在众多物联网应用中,传感器或边缘端设备的采集频率不同,其中城市轨道交通领域中的综合监控***(ISCS)和电力监控***(PSCADA)的采样频率都是毫秒级,而且对数据传输可靠性和实时性的要求非常高。如何进行这类高频时序数据进行实时的特征提取,为ISCS和PSCADA应用提供技术支撑,一直都是城市轨道交通领域的应用研究重点。
从时间维度上来看,ISCS和PSCADA对应的应用场景都具有明显的周期性特点,比如行车间隔、开关站时间等,在进行ISCS和PSCADA高频时序数据特征提取时必须充分考虑真实场景的这一显著应用特点。因此,在进行PSCADA和ISCS高频时序数据特征提取的过程中,必须提供自动进行周期性特征提取的方法确定时序数据的本体周期。
发明内容
为了实现了时序数据的周期性自动分割的效果,本申请提供一种数据分割方法及相关装置。
第一方面,本申请提供的一种数据分割方法采用如下的技术方案:
一种数据分割方法,包括:
获取预设分割条件和目标数据;
判断所述目标数据是否满足预设分割条件对应的限制条件;
若是,则在所述目标数据中根据周期性特点获取本体周期集合;
根据所述预设分割条件在所述本体周期集合中确定目标本体周期;
在所述目标数据中对所述目标本体周期进行数据分割以获取数据分割结果。
可选的,所述判断所述目标数据是否满足预设分割条件对应的限制条件的步骤,包括:
获取所述分割条件中周期条件区间,根据所述周期条件区间确定判断区间;
在所述目标数据中获取尾端数据与首端数据对应的时限信息;
根据所述尾端数据的时限信息和所述首端数据的时限信息判断所述目标数据是否满足预设分割条件对应的限制条件;
若所述尾端数据的时限信息结合所述首端数据的时限信息不在同一判断区间内,则判定所述目标数据满足预设分割条件对应的限制条件。
可选的,所述在所述目标数据中根据周期性特点获取本体周期集合的步骤,包括:
在所述目标数据中根据周期性特点确定周期划分策略;
根据所述周期划分策略在所述目标数据中确定周期划分信息;
根据所述周期划分信息确定最小公共周期作为本体周期。
可选的,所述根据所述周期划分策略在所述目标数据中确定周期划分信息的步骤,包括:
获取所述周期划分策略中的划分条件;
根据所述划分条件在所述目标数据中确定数据节点信息;
根据所述数据节点信息确定周期划分信息。
可选的,所述根据所述预设分割条件在所述本体周期集合中确定目标本体周期的步骤,包括:
获取所述预设分割条件中的分割指针;
根据所述分割指针获取分割时间段信息;
根据所述分割时间段信息在所述本体周期集合中确定目标本体周期。
可选的,所述根据所述分割时间段信息在所述本体周期集合中确定目标本体周期的步骤,包括:根据所述分割时间段信息确定采样频率;
在所述本体周期集合中根据所述采样频率进行遍历以获取遍历结果;
在所述遍历结果中的周期数量大于1时,将遍历到的周期作为待处理周期并生成待处理周期集合;
在所述待处理周期集合中通过最优数据稳定性条件进行筛选以获取目标本体周期。
可选的,所述在所述目标数据中对所述目标本体周期进行数据分割以获取数据分割结果的步骤之后,还包括:
对所述数据分割结果进行有效性验证;
若所述数据分割结果通过所述有效性验证,则将所述数据分割结果存入历史分割记录中;
在接收到新的数据分割请求时,在所述数据分割请求中获取分割对象信息;
在所述历史分割记录中根据所述分割对象信息进行遍历并获取遍历结果;
在所述遍历结果满足快速分割条件时,根据所述遍历结果生成快速分割策略。
第二方面,本申请提供一种数据分割装置,所述数据分割装置包括:
信息获取模块,用于获取预设分割条件和目标数据;
限制条件判断模块,用于判断所述目标数据是否满足预设分割条件对应的限制条件;
本体周期集合模块,用于若是,则在所述目标数据中根据周期性特点获取本体周期集合;
目标本体周期获取模块,用于根据所述预设分割条件在所述本体周期集合中确定目标本体周期;
结果获取模块,用于在所述目标数据中对所述目标本体周期进行数据分割以获取数据分割结果。
第三方面,本申请提供一种计算机设备,所述设备包括:存储器、处理器,所述处理器在运行所述存储器存储的计算机指令时,执行如上文中任一项所述的方法。
第四方面,本申请提供一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机执行如上文所述的方法。
综上描述,本申请包括以下有益技术效果:
本申请通过获取预设分割条件和目标数据;在判定所述目标数据满足预设分割条件对应的限制条件时,根据周期性特点获取本体周期集合;根据预设分割条件在本体周期集合中确定目标本体周期;在所述目标数据中对所述目标本体周期进行数据分割来获取数据分割结果。通过获取本体周期集合并结合预设分割条件对本体周期集合进行分割实现了时序数据的周期性自动分割的技术效果。
附图说明
图1是本申请实施例方案涉及的硬件运行环境的计算机设备结构示意图;
图2是本申请数据分割方法第一实施例的流程示意图;
图3是本申请数据分割方法第二实施例的流程示意图;
图4是本申请数据分割装置第一实施例的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下通过附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的计算机设备结构示意图。
如图1所示,计算机设备可以包括:处理器1001,例如中央处理器(CentralProcessing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM),也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及数据分割程序。
在图1所示的计算机设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明计算机设备中的处理器1001、存储器1005可以设置计算机设备中,所述计算机设备通过处理器1001调用存储器1005中存储的数据分割程序,并执行本发明实施例提供的数据分割方法。
本发明实施例提供了一种数据分割方法,参照图2,图2为本发明数据分割方法第一实施例的流程示意图。
本实施例中,所述数据分割方法包括以下步骤:
步骤S10:获取预设分割条件和目标数据。
需要说明的是,时序数据是指时间序列数据。时间序列数据是同一统一指标按时间顺序记录的数据列。在同一数据列中的各个数据必须是同口径的,要求具有可比性。时序数据可以是时期数,也可以时点数。时间序列分析的目的是通过找出样本内时间序列的统计特性和发展规律性,构建时间序列模型,进行样本外预测。
可以理解的是,在本实施例中的预设分割条件即根据实际使用需求由管理员预先设定的分割条件。例如:预设分割条件可以设定为在最小周期为单位的两个连续周期进行切割。
在具体实施中,获取预设分割条件的方式可以是通过预设接口进行预设分割条件的获取,可以是接收手动输入指令的方式获取预设分割条件。
可以理解的是,目标数据在本实施例中是城市轨道交通领域中的综合监控***(ISCS)和电力监控***(PSCADA)产生的数据。其中两者产生的采样频率都是毫秒级,并且对数据传输可靠性和实时性的要求极高。
需要说明的是,城市轨道交通中的ISCS和PSCADA数据具有明显的周期性特点,因此在本实施例中将基于数据的固有特点从海量数据的统计规律和数字信号处理分析的角度出发,实现准确提取时序数据周期,并进一步实现时序数据分割及应用。
步骤S20:判断目标数据是否满足预设分割条件对应的限制条件。
需要说明的是,在预设分割条件中判断目标数据是否满足预设分割条件是判断目标数据的数据类型、数据有效性以及数据大小判断是否满足限制条件,例如:在数据类型为无效数据类型的情况下时,该目标数据不满足限制条件。
需要说明的是,若判定目标数据不满足预设分割条件对应的限制条件时,将根据判定结果得出解决措施,若所述目标数据的数据类型不满足限制条件时,将直接反馈判定结果;若所述目标数据的数据因为数据量过大导致不满足限制条件时,将启动数据清洗功能,对多余数据进行数据清洗以实现能够将目标数据满足限制条件。
可以理解的是,数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。数据清洗(Data cleaning)– 对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务***中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。数据清洗是与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成
进一步的,为了提升对于限制条件判断的精确度,所述判断目标数据是否满足预设分割条件对应的限制条件的步骤,包括:获取分割条件中周期条件区间,根据周期条件区间确定判断区间;在目标数据中获取尾端数据与首端数据对应的时限信息;根据尾端数据的时限信息和首端数据的时限信息判断目标数据是否满足预设分割条件对应的限制条件;若尾端数据的时限信息结合首端数据的时限信息不在同一判断区间内,则判定目标数据满足预设分割条件对应的限制条件。
步骤S30:若是,则在目标数据中根据周期性特点获取本体周期集合。
需要说明的是,本实施例提供的基于无监督学习方法实现城轨高频时序数据周期特征提取的应用框架,建立了一种逐步求精迭代式方法,该方法适于动态实时在线的周期性时序数据提取,无需与应用数据相关的其他先验知识,且可集成常用的各种无监督学习算法;本实施例提出的基于逐步求精的城轨高频时序数据自适应分割方法,建立了一种具有多分辨率块分割特性的方法,属于无监督学习类算法的一种类型,根据城轨ISCS和PSCADA数据的周期性特点,通过数据的统计相关性和信号分析手段,对不同采样频率的数据进行逐步优化的层次聚类,寻求最小公共周期,实现了同一场景下不同采样频率数据的周期特征自动提取,避免了因为采样频率不同步而无法提取数据公共周期的影响,将高频时序数据周期特征与自适应数据分割方法与现有城轨应用***进行紧密集合,可实现本方法的OEM级应用和推广,具有较强的应用扩展特性。
需要说明的是,周期性特点在本实施例中是指在数据中根据数据周期起始的位置定义数据周期性。数据在不断变化的过程中因为导入对象的缘故具有周期性变化的特点,因此通过相似性比对以确定数据的变化周期。
步骤S40:根据预设分割条件在本体周期集合中确定目标本体周期。
在具体实施中,根据预设分割条件中的分割对象、分割要求以及周期内容在本体周期集合中确定目标本体周期。
进一步的,为了实现确定目标本体周期,所述根据预设分割条件在本体周期集合中确定目标本体周期的步骤,包括:获取预设分割条件中的分割指针;根据分割指针获取分割时间段信息;根据分割时间段信息在本体周期集合中确定目标本体周期。
需要说明的是,所述根据所述分割时间段信息在所述本体周期集合中确定目标本体周期的步骤,包括:根据所述分割时间段信息确定采样频率;在所述本体周期集合中根据所述采样频率进行遍历以获取遍历结果;在所述遍历结果中的周期数量大于1时,将遍历到的周期作为待处理周期并生成待处理周期集合;在所述待处理周期集合中通过最优数据稳定性条件进行筛选以获取目标本体周期。
步骤S50:在目标数据中对目标本体周期进行数据分割以获取数据分割结果。
进一步的,为了提升后续分割的速度以及效率,所述在所述目标数据中对所述目标本体周期进行数据分割以获取数据分割结果的步骤之后,还包括:对所述数据分割结果进行有效性验证;若所述数据分割结果通过所述有效性验证,则将所述数据分割结果存入历史分割记录中;在接收到新的数据分割请求时,在所述数据分割请求中获取分割对象信息;在所述历史分割记录中根据所述分割对象信息进行遍历并获取遍历结果;在所述遍历结果满足快速分割条件时,根据所述遍历结果生成快速分割策略。
需要说明的是,快速分割策略即在历史分割记录中存在有过切割历史的目标数据时可以产生的策略。通过快速分割策略可以直接匹配到分割数据时所需要的分割策略或者分割方式。从而实现利用快速分割策略对请求分割的数据进行快速切割,无需进行多余的数据验证或者数据分析实现提升数据切割效率的技术效果。
本实施例本申请通过获取预设分割条件和目标数据;在判定所述目标数据满足预设分割条件对应的限制条件时,根据周期性特点获取本体周期集合;根据预设分割条件在本体周期集合中确定目标本体周期;在所述目标数据中对所述目标本体周期进行数据分割来获取数据分割结果。通过获取本体周期集合并结合预设分割条件对本体周期集合进行分割实现了时序数据的周期性自动分割的技术效果。
参考图3,图3为本发明数据分割方法第二实施例的流程示意图。
基于上述第一实施例,本实施例数据分割方法的所述步骤S30之前,还包括:
步骤S301:在目标数据中根据周期性特点确定周期划分策略。
需要说明的是,周期划分策略是指对数据切割过程中限定的切割对象、切割点位、切割模式以及切割内容。
步骤S302:根据周期划分策略在目标数据中确定周期划分信息。
需要说明的是,周期划分信息在本实施例中是指对于目标切割位置表示的信息状态,通过周期划分信息可以将切割位置的节点标识特点进行获取,以实现更加精确地对待切割位置进行切割。
进一步的,为了提示周期划分信息确定的精确性,所述根据所述周期划分策略在所述目标数据中确定周期划分信息的步骤,包括:获取所述周期划分策略中的划分条件;根据所述划分条件在所述目标数据中确定数据节点信息;根据所述数据节点信息确定周期划分信息。
步骤S303:根据周期划分信息确定最小公共周期作为本体周期。
需要说明的是,在本实施例中最小公共周期是指目标数据周期性变化过程中的其中一个最小周期,因为数据变化的不确定性,在前一实施例中已通过数据筛查的方式将变化周期不足一个整数周期的数据进行剔除,因此在本实施例中的数据都具备最少一个最小公共周期,通过对最小公共周期的切割可以获取本体周期。
本实施例通过在目标数据中根据周期性特点确定周期划分策略;根据周期划分策略在目标数据中确定周期划分信息;根据周期划分信息确定最小公共周期作为本体周期。实现了根据不同周期划分策略确定本体周期的技术效果。
此外,本发明实施例还提出一种计算机可读存储介质,所述存储介质上存储有数据分割的程序,所述数据分割的程序被处理器执行时实现如上文所述的数据分割的方法的步骤。
参照图4,图4为本发明数据分割装置第一实施例的结构框图。
如图4所示,本发明实施例提出的数据分割装置包括:
信息获取模块10,用于获取预设分割条件和目标数据;
限制条件判断模块20,用于判断所述目标数据是否满足预设分割条件对应的限制条件;
本体周期集合模块30,用于若是,则在所述目标数据中根据周期性特点获取本体周期集合;
目标本体周期获取模块40,用于根据所述预设分割条件在所述本体周期集合中确定目标本体周期;
结果获取模块50,用于在所述目标数据中对所述目标本体周期进行数据分割以获取数据分割结果。
应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。
本实施例本申请通过获取预设分割条件和目标数据;在判定所述目标数据满足预设分割条件对应的限制条件时,根据周期性特点获取本体周期集合;根据预设分割条件在本体周期集合中确定目标本体周期;在所述目标数据中对所述目标本体周期进行数据分割来获取数据分割结果。通过获取本体周期集合并结合预设分割条件对本体周期集合进行分割实现了时序数据的周期性自动分割的技术效果。
在一实施例中,所述限制条件判断模块20,还用于获取所述分割条件中周期条件区间,根据所述周期条件区间确定判断区间;在所述目标数据中获取尾端数据与首端数据对应的时限信息;根据所述尾端数据的时限信息和所述首端数据的时限信息判断所述目标数据是否满足预设分割条件对应的限制条件;若所述尾端数据的时限信息结合所述首端数据的时限信息不在同一判断区间内,则判定所述目标数据满足预设分割条件对应的限制条件。
在一实施例中,所述本体周期集合模块30,还用于在所述目标数据中根据周期性特点确定周期划分策略;根据所述周期划分策略在所述目标数据中确定周期划分信息;根据所述周期划分信息确定最小公共周期作为本体周期。
在一实施例中,所述本体周期集合模块30,还用于获取所述周期划分策略中的划分条件;根据所述划分条件在所述目标数据中确定数据节点信息;根据所述数据节点信息确定周期划分信息。
在一实施例中,所述目标本体周期获取模块40,还用于获取所述预设分割条件中的分割指针;根据所述分割指针获取分割时间段信息;根据所述分割时间段信息在所述本体周期集合中确定目标本体周期。
在一实施例中,所述目标本体周期获取模块40,还用于根据所述分割时间段信息确定采样频率;在所述本体周期集合中根据所述采样频率进行遍历以获取遍历结果;在所述遍历结果中的周期数量大于1时,将遍历到的周期作为待处理周期并生成待处理周期集合;在所述待处理周期集合中通过最优数据稳定性条件进行筛选以获取目标本体周期。
在一实施例中,所述结果获取模块50,还用于对所述数据分割结果进行有效性验证;若所述数据分割结果通过所述有效性验证,则将所述数据分割结果存入历史分割记录中;在接收到新的数据分割请求时,在所述数据分割请求中获取分割对象信息;在所述历史分割记录中根据所述分割对象信息进行遍历并获取遍历结果;在所述遍历结果满足快速分割条件时,根据所述遍历结果生成快速分割策略。
需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的数据分割的方法,此处不再赘述。
此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory,ROM)/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种数据分割方法,其特征在于,包括:
获取预设分割条件和目标数据;
判断所述目标数据是否满足预设分割条件对应的限制条件;
若是,则在所述目标数据中根据周期性特点获取本体周期集合;
根据所述预设分割条件在所述本体周期集合中确定目标本体周期;
在所述目标数据中对所述目标本体周期进行数据分割以获取数据分割结果。
2.根据权利要求1所述的数据分割方法,其特征在于,所述判断所述目标数据是否满足预设分割条件对应的限制条件的步骤,包括:
获取所述分割条件中周期条件区间,根据所述周期条件区间确定判断区间;
在所述目标数据中获取尾端数据与首端数据对应的时限信息;
根据所述尾端数据的时限信息和所述首端数据的时限信息判断所述目标数据是否满足预设分割条件对应的限制条件;
若所述尾端数据的时限信息结合所述首端数据的时限信息不在同一判断区间内,则判定所述目标数据满足预设分割条件对应的限制条件。
3.根据权利要求1所述的数据分割方法,其特征在于,所述在所述目标数据中根据周期性特点获取本体周期集合的步骤,包括:
在所述目标数据中根据周期性特点确定周期划分策略;
根据所述周期划分策略在所述目标数据中确定周期划分信息;
根据所述周期划分信息确定最小公共周期作为本体周期。
4.根据权利要求3所述的数据分割方法,其特征在于,所述根据所述周期划分策略在所述目标数据中确定周期划分信息的步骤,包括:
获取所述周期划分策略中的划分条件;
根据所述划分条件在所述目标数据中确定数据节点信息;
根据所述数据节点信息确定周期划分信息。
5.根据权利要求1所述的数据分割方法,其特征在于,所述根据所述预设分割条件在所述本体周期集合中确定目标本体周期的步骤,包括:
获取所述预设分割条件中的分割指针;
根据所述分割指针获取分割时间段信息;
根据所述分割时间段信息在所述本体周期集合中确定目标本体周期。
6.根据权利要求5所述的数据分割方法,其特征在于,所述根据所述分割时间段信息在所述本体周期集合中确定目标本体周期的步骤,包括:根据所述分割时间段信息确定采样频率;
在所述本体周期集合中根据所述采样频率进行遍历以获取遍历结果;
在所述遍历结果中的周期数量大于1时,将遍历到的周期作为待处理周期并生成待处理周期集合;
在所述待处理周期集合中通过最优数据稳定性条件进行筛选以获取目标本体周期。
7.根据权利要求1所述的数据分割方法,其特征在于,所述在所述目标数据中对所述目标本体周期进行数据分割以获取数据分割结果的步骤之后,还包括:
对所述数据分割结果进行有效性验证;
若所述数据分割结果通过所述有效性验证,则将所述数据分割结果存入历史分割记录中;
在接收到新的数据分割请求时,在所述数据分割请求中获取分割对象信息;
在所述历史分割记录中根据所述分割对象信息进行遍历并获取遍历结果;
在所述遍历结果满足快速分割条件时,根据所述遍历结果生成快速分割策略。
8.一种数据分割装置,其特征在于,所述数据分割装置包括:
信息获取模块,用于获取预设分割条件和目标数据;
限制条件判断模块,用于判断所述目标数据是否满足预设分割条件对应的限制条件;
本体周期集合模块,用于若是,则在所述目标数据中根据周期性特点获取本体周期集合;
目标本体周期获取模块,用于根据所述预设分割条件在所述本体周期集合中确定目标本体周期;
结果获取模块,用于在所述目标数据中对所述目标本体周期进行数据分割以获取数据分割结果。
9.一种计算机设备,其特征在于,所述设备包括:存储器、处理器,所述处理器在运行所述存储器存储的计算机指令时,执行如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,包括指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至7中任一项所述的方法。
CN202310156942.8A 2023-02-23 2023-02-23 数据分割方法及相关装置 Active CN116226231B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310156942.8A CN116226231B (zh) 2023-02-23 2023-02-23 数据分割方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310156942.8A CN116226231B (zh) 2023-02-23 2023-02-23 数据分割方法及相关装置

Publications (2)

Publication Number Publication Date
CN116226231A true CN116226231A (zh) 2023-06-06
CN116226231B CN116226231B (zh) 2023-10-27

Family

ID=86585358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310156942.8A Active CN116226231B (zh) 2023-02-23 2023-02-23 数据分割方法及相关装置

Country Status (1)

Country Link
CN (1) CN116226231B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127037A (zh) * 2006-08-15 2008-02-20 临安微创网格信息工程有限公司 基于时序向量差异序列法聚类的周期关联规则发现算法
US20170228661A1 (en) * 2014-04-17 2017-08-10 Sas Institute Inc. Systems and methods for machine learning using classifying, clustering, and grouping time series data
CN111708739A (zh) * 2020-05-21 2020-09-25 北京奇艺世纪科技有限公司 时序数据的异常检测方法、装置、电子设备及存储介质
CN111768287A (zh) * 2020-05-22 2020-10-13 支付宝(杭州)信息技术有限公司 周期识别方法、装置、服务器及可读存储介质
CN114579554A (zh) * 2022-03-08 2022-06-03 京东科技信息技术有限公司 运维时间序列数据处理方法及装置、存储介质及电子设备
CN115414026A (zh) * 2022-08-31 2022-12-02 首都医科大学附属北京天坛医院 一种基于流速波形的呼吸自动切分方法及其***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127037A (zh) * 2006-08-15 2008-02-20 临安微创网格信息工程有限公司 基于时序向量差异序列法聚类的周期关联规则发现算法
US20170228661A1 (en) * 2014-04-17 2017-08-10 Sas Institute Inc. Systems and methods for machine learning using classifying, clustering, and grouping time series data
CN111708739A (zh) * 2020-05-21 2020-09-25 北京奇艺世纪科技有限公司 时序数据的异常检测方法、装置、电子设备及存储介质
CN111768287A (zh) * 2020-05-22 2020-10-13 支付宝(杭州)信息技术有限公司 周期识别方法、装置、服务器及可读存储介质
CN114579554A (zh) * 2022-03-08 2022-06-03 京东科技信息技术有限公司 运维时间序列数据处理方法及装置、存储介质及电子设备
CN115414026A (zh) * 2022-08-31 2022-12-02 首都医科大学附属北京天坛医院 一种基于流速波形的呼吸自动切分方法及其***

Also Published As

Publication number Publication date
CN116226231B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN107229662B (zh) 数据清洗方法和装置
EP2081326B1 (en) Statistical processing apparatus capable of reducing storage space for storing statistical occurence frequency data and a processing method therefor
CN111159184B (zh) 元数据追溯方法、装置及服务器
US11762879B2 (en) Information traceability method and system based on blockchain
CN111680085A (zh) 数据处理任务分析方法、装置、电子设备和可读存储介质
CN113992340A (zh) 用户异常行为识别方法、装置、设备、存储介质和程序
CN110674413B (zh) 用户关系挖掘方法、装置、设备和存储介质
CN114970475A (zh) excel表格解析方法、***、设备及存储介质
CN108334532B (zh) 一种基于Spark的Eclat并行化方法、***及装置
CN116226231B (zh) 数据分割方法及相关装置
CN107291743B (zh) 数据的调用方法和装置
CN112882907B (zh) 一种基于日志数据的用户状态确定方法及装置
CN110413750A (zh) 根据用户问句召回标准问句的方法和装置
CN113946717A (zh) 一种子图指标特征获得方法、装置、设备及存储介质
CN112287663B (zh) 一种文本解析方法、设备、终端及存储介质
CN113220992A (zh) 一种信息流内容推荐方法、***及介质
CN112882854B (zh) 一种请求异常的处理方法及装置
CN112435151A (zh) 一种基于关联分析的政务信息数据处理方法及***
CN116010728B (zh) 数控***的工艺流程呈现形式确定方法及相关设备
CN112465075B (zh) 元数据管理方法及***
CN114756401B (zh) 基于日志的异常节点检测方法、装置、设备及介质
Ali et al. A Simple Approach for Data Cleansing on Hadoop Framework using File Merging Technique
CN114826655A (zh) 滑动时间窗口的管控方法、装置、设备和存储介质
CN116662759A (zh) 多维数据的归因分析方法、装置、设备、存储介质及产品
CN116841726A (zh) 一种数据中台异常根因分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240110

Address after: Room 1227-1, 12th floor, Haitai building, No. 229, Middle North Fourth Ring Road, Haidian District, Beijing 100089

Patentee after: Beijing maglev Co.,Ltd.

Address before: Room 408, 1-14, 4 / F, Hengxiang building, No.15 Tuanjie hunanli, Chaoyang District, Beijing 100020

Patentee before: Beijing thinking Shichuang Technology Co.,Ltd.

TR01 Transfer of patent right