CN116383190A - 一种海量大数据智能清洗方法及*** - Google Patents

一种海量大数据智能清洗方法及*** Download PDF

Info

Publication number
CN116383190A
CN116383190A CN202310537830.7A CN202310537830A CN116383190A CN 116383190 A CN116383190 A CN 116383190A CN 202310537830 A CN202310537830 A CN 202310537830A CN 116383190 A CN116383190 A CN 116383190A
Authority
CN
China
Prior art keywords
time sequence
data
subsequences
subsequence
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310537830.7A
Other languages
English (en)
Other versions
CN116383190B (zh
Inventor
贾庆佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Off Site Market Clearing Center Co ltd
Original Assignee
Qingdao Off Site Market Clearing Center Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Off Site Market Clearing Center Co ltd filed Critical Qingdao Off Site Market Clearing Center Co ltd
Priority to CN202310537830.7A priority Critical patent/CN116383190B/zh
Publication of CN116383190A publication Critical patent/CN116383190A/zh
Application granted granted Critical
Publication of CN116383190B publication Critical patent/CN116383190B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Preliminary Treatment Of Fibers (AREA)

Abstract

本发明涉及数据处理技术领域,具体涉及一种海量大数据智能清洗方法及***,该方法包括:获取海量大数据对应的时序子序列;根据任意两个时序子序列中数据之间的差异得到任意两个时序子序列之间的形态相似性度量指标;根据任意两个时序子序列之间的长度差异得到任意两个时序子序列对应的重要程度指标;根据时序子序列中数据的异常情况得到时序子序列的状态因子;根据时序子序列之间的距离、形态相似性度量指标、重要程度指标以及状态因子,得到时序子序列之间的差异指标;根据差异指标对时序子序列进行分类,根据分类结果对海量大数据进行数据清洗。本发明能够获得较为准确的时序数据的数据清洗结果。

Description

一种海量大数据智能清洗方法及***
技术领域
本发明涉及数据处理技术领域,具体涉及一种海量大数据智能清洗方法及***。
背景技术
数据清洗是数据处理中的重要步骤,它可以提高数据的质量和准确性,确保数据的可靠性和有效性,有助于清算中心的决策和业务应用。在数据清洗的过程中,需要对海量大数据进行异常值检测,由于数据量较大,为了提高数据处理效率,需要将采集到的数据进行数据分片,并采用并行计算的方式对每一个数据块进行异常值检测,获取到每一个数据块的异常值。最后通过异常值聚合,将分散在不同数据块中的异常值进行汇总和统计,得到全局的异常值检测结果。
在对采集到的数据进行数据分片时,现有的分类算法仅是考虑不同时间序列之间的数据差异,并未考虑不同长度的时间序列之间的差异变化,使得数据分类结果较不准确,进而导致对分类得到的每一个数据块进行数据清洗结果的准确性较低。
发明内容
为了解决对分类得到的每一个数据块进行数据清洗结果的准确性较低的技术问题,本发明的目的在于提供一种海量大数据智能清洗方法及***,所采用的技术方案具体如下:
获取海量大数据对应的时序子序列;
根据任意两个时序子序列中数据之间的差异得到任意两个时序子序列之间的形态相似性度量指标;根据任意两个时序子序列之间的长度差异得到任意两个时序子序列对应的重要程度指标;
根据时序子序列中数据的异常情况得到时序子序列的状态因子;根据时序子序列之间的距离、形态相似性度量指标、重要程度指标以及状态因子,得到时序子序列之间的差异指标;根据差异指标对时序子序列进行分类,根据分类结果对海量大数据进行数据清洗。
优选地,所述根据任意两个时序子序列中数据之间的差异得到任意两个时序子序列之间的形态相似性度量指标具体为:
对于任意两个时序子序列,根据时序子序列中每相邻两个数据之间差异得到数据对应的变化率;以两个时序子序列对应的所有变化率均值之间的差值绝对值作为任意两个时序子序列之间的形态相似性度量指标。
优选地,所述根据任意两个时序子序列之间的长度差异得到任意两个时序子序列对应的重要程度指标具体为:
获取每两个时序子序列之间的长度的差值绝对值记为时序子序列的长度差异;
对于任意两个时序子序列,以两个时序子序列对应的长度差异与所有长度差异中的最大值之间的比值,作为任意两个时序子序列对应的重要程度指标。
优选地,所述根据时序子序列中数据的异常情况得到时序子序列的状态因子具体为:
利用COF离群因子检测算法获取时序子序列中数据对应的平均链接距离,以时序子序列中所有数据的平均链接距离的均值的归一化值作为时序子序列的状态因子。
优选地,所述根据时序子序列之间的距离、形态相似性度量指标、重要程度指标以及状态因子,得到时序子序列之间的差异指标,具体包括:
获取任意两个时序子序列之间的DTW距离,并获取两个时序子序列对应的状态因子之间的差异,根据所述DTW距离、状态因子之间的差异、形态相似性度量指标以及重要程度指标,得到时序子序列之间的差异指标。
优选地,所述差异指标的计算方法具体为:
Figure SMS_2
Figure SMS_6
其中,
Figure SMS_8
表示时序子序列u和时序子序列v之间的差异指标,/>
Figure SMS_1
表示时序子序列u和时序子序列v对应的重要程度指标,/>
Figure SMS_5
表示时序子序列u和时序子序列v之间的DTW距离,/>
Figure SMS_7
表示求时序子序列u和时序子序列v之间的DTW距离,/>
Figure SMS_9
表示时序子序列u与时序子序列v之间的形态相似性度量指标,/>
Figure SMS_3
表示时序子序列u对应的状态因子,/>
Figure SMS_4
表示时序子序列v对应的状态因子。
优选地,所述获取海量大数据对应的时序子序列具体为:对海量大数据构成的时序序列进行分割得到时序子序列。
优选地,所述对海量大数据构成的时序序列进行分割得到时序子序列具体为:
利用Floss算法获取时序序列对应的初始分割点;在初始分割点的邻域内,将邻域内任意一个数据点记为目标数据点,分别获取位于目标数据点左侧和右侧且属于目标数据的邻域内的数据点的数量;将目标数据点左侧对应的数据点的数量和右侧对应的数据点的数量中的较大值作为分子,将目标数据点的邻域内包含的数据点的总数量作为分母,以所述分子和分母的比值的归一化值作为目标数据点的邻域方向单一度;将初始分割点的邻域内邻域方向单一度最大值对应的数据点记为最终分割点,利用最终分割点对时序序列进行分割得到时序子序列。
优选地,所述根据分类结果对海量大数据进行数据清洗具体为:
将分类结果中每个类别内的数据点的局部离群因子作为数据点的异常程度,将异常程度大于预设的程度阈值对应的数据点进行剔除。
本发明还提供了一种海量大数据智能清洗***,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被处理器执行时实现一种海量大数据智能清洗方法的步骤。
本发明实施例至少具有如下有益效果:
本发明首先根据海量大数据对应的时序子序列之间的数据差异获取时序子序列之间的形态相似性度量指标,利用形态相似性度量指标反映两个时序子序列之间的数据差异情况的形态相似性;同时,在后续计算差异指标时考虑了两个时序子序列存在长度差异的情况,即根据长度差异得到两个时序子序列对应的重要程度指标;进一步的,考虑到时序子序列之间的整体形态相似,但是时序子序列之间也会出现离群状态的差异,进而根据时序子序列中数据的异常情况得到时序子序列的状态因子,利用状态因子反映时序子序列中所有数据整体的离群状态;最终结合时序子序列之间的度量距离、时序子序列之间的数据差异情况的形态相似性、时序子序列之间的长度差异以及时序子序列之间的离群状态,获得差异指标,即时序子序列之间的差异指标,根据差异指标对时序子序列进行分类,能够获得较为准确的时序数据的分类结果。根据较为准确的分类结果对海量大数据进行数据清洗,能够得到较为准确的数据清洗结果,并且提高了数据清洗的效率。最后,本发明在提高时序数据分类结果的准确性的同时能够提高数据清洗的效率以及准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明的一种海量大数据智能清洗方法的方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种海量大数据智能清洗方法及***,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种海量大数据智能清洗方法及***的具体方案。
本发明的主要目的是:通过Floss算法获得时序子序列,并对时序子序列进行分类,将分类得到的簇类作为并行计算的数据块传入计算节点进行局部离群因子的计算,进而完成对数据进行数据清洗。在此过程中,为了避免并行计算节点的算力浪费,为了保证计算节点之间进行数据传输时并行计算达到最优的计算效率以及对局部离群因子计算的准确性,需要保证数据块的数据量相似。
本发明所针对的具体场景为:在对海量大数据进行数据清洗的过程中,由于数据量过大,为了保证数据清洗效率需要将海量大数据进行数据块的划分,并且通过并行计算节点进行高效处理。
实施例1:
请参阅图1,其示出了本发明一个实施例提供的一种海量大数据智能清洗方法的方法流程图,该方法包括以下步骤:
步骤一,获取海量大数据对应的时序子序列。
为了确保交易和结算的准确性和可靠性,以及为客户提供更高质量的服务。清算机构需要对金融市场中的交易数据进行风险预警、交易验证、结算处理等数据分析与处理。对于机构所服务客户的金融资产,需要通过金融市场的实时数据,如,证券、期货、外汇、债券等交易数据进行分析处理。
在本实施例中,以金融交易时的海量大数据为例进行说明,即通过清算数据中心与金融交易数据源建立数据接口,采集清算中心客户所对应的金融交易数据,将数据根据交易数据的时间戳形成时序数据,并记为时序序列。
在获取用于并行计算的数据块之前,首先需要对海量大数据构成的时序序列进行分割得到时序子序列。对于时间序列数据的分割,现有的分割方法Floss(Fast Low-costOnline Semantic Segmentation)算法因为其通用性与高效性而常用于时序数据分割。其中,在发明名称为一种基于LAC-FLOSS算法和IER算法的时间序列分割方法,公开号为CN113780295A的专利文献中,公开了利用Floss算法对时序数据进行分割的方法步骤。
在通过Floss算法进行时间序列分割时,获取到纠正弧跨越(Corrected ArcCrossings,CAC)序列之后,现有的方式是通过设定阈值进行分割点的选取。在对于海量大数据进行数据分割并将这些数据块传入并行计算节点进行异常值检测的场景中,因为需要让并行计算节点的计算效率最大化,并且对于异常值的检测效果最优化,所以需要使得数据块的时序长度较为相似,并且保证在并行计算节点进行异常值检测时,不会因为数据块的分割使得分割点附近的数据点的异常值检测由于进行数据划分出现误差,同时减少并行计算节点之间的数据传输,以保证最高效率。
需要说明的是,后续通过聚类获得的数据块在并行节点进行局部离群因子计算的过程中,由于数据块中的时序数据计算局部离群因子时需要获取邻域的数据点,若时序数据划分的较不准确,可能会使得在当前并行节点进行计算的数据需要获取其他并行节点中的数据,这样就需要进行并行节点之间的数据传输,对海量大数据来说就需要更多的并行节点之间的数据传输,同时也降低了数据处理的效率。
基于此,根据Floss算法在长时序数据中获取初始分割点,通过初始分割点局部范围内数据点的K距离邻域的单向性确定最终准确的分割点,进行分割得到子序列。在本发明实施例中,对于Floss算法中的相关参数,将分割点数量设置为numRegimes=N/50,其中,N表示海量大数据构成的时序序列中包含的数据点的总数量,numRegimes表示分割点数量,将禁区范围L设置为20,实施者可根据具体实施场景进行设置。
在通过传统的Floss算法获取到全部初始分割点之后,由于在时序序列中,数据点o的K距离邻域是通过距离数据点o最近的K个数据点进行确定的,故对于最终准确的分割点,为了保证数据点在并行计算中计算局部离群因子的过程中需要更少的数据传输,即表示数据点进行并行计算局部离群因子时,其K距离邻域数据较多的存在同一个子序列中,并且子序列的分割还能够遵循Floss算法的基本原理,因此,需要在初始分割点的K距离邻域内选择一个K距离邻域单向性最高的一个数据点作为最终分割点。
需要说明的是,数据点的K距离邻域内位于同一个方向的数据点数量表征了数据点的K距离邻域的单向性。在本实施例中,K距离邻域是指与数据点之间的数据差异最小的K个数据点构成的邻域范围。其中,数据点之间的数据差异可以是数据值的差值绝对值,在本实施例中,邻域范围内数据点数量K的取值为20,实施者可根据具体实施场景进行设置。
基于此,在初始分割点的邻域内,将邻域内任意一个数据点记为目标数据点,分别获取位于目标数据点左侧和右侧且属于目标数据的邻域内的数据点的数量;将目标数据点左侧对应的数据点的数量和右侧对应的数据点的数量中的较大值作为分子,将目标数据点的邻域内包含的数据点的总数量作为分母,以所述分子和分母的比值的归一化值作为目标数据点的邻域方向单一度。
在本实施例中,以初始分割点a的K距离邻域内的数据点i作为目标数据点进行说明,用公式表示为:
Figure SMS_10
其中,/>
Figure SMS_11
表示初始分割点a的K距离邻域内的数据点i的邻域方向单一度,即目标数据点的邻域方向单一度,/>
Figure SMS_12
表示位于数据点i右侧且属于数据点i的K距离邻域内的数据点的数量,/>
Figure SMS_13
表示位于数据点i左侧且属于数据点i的K距离邻域内的数据点的数量,K表示数据点i的邻域内包含的数据点的总数量,max( )表示求最大值的函数,Norm( )表示归一化函数。/>
Figure SMS_14
表示了数据点i邻域范围内位于同一侧的数据点数量较多的占比,该占比取值越大,数据点i邻域范围内位于同一侧的数据点的数量越多,对应的邻域方向单一度越大,说明数据点i在K距离邻域内的单向性越大。
数据点的邻域方向单一度表征了数据点在K距离邻域内的方向单向性程度大小,邻域方向单一度取值越大,说明数据点邻域范围内位于同一侧的数据点数量越多,进而说明数据点在K距离邻域内方向的单向性程度越大。邻域方向单一度取值越小,说明数据点邻域范围内位于同一侧的数据点数量越少,进而说明数据点在K距离邻域内方向的单向性程度越小。
按照上述方法,获取每个初始分割点在K距离邻域范围内数据点对应的邻域方向单一度,根据邻域方向单一度对邻域内各数据点进行筛选,将初始分割点的邻域内邻域方向单一度最大值对应的数据点记为最终分割点,利用最终分割点对时序序列进行分割得到时序子序列。
通过每个分割点的K距离邻域中的数据点在其邻域范围内的单向性程度进行最终分割点的选取,相较于传统的Floss算法中的分割点进行长时序数据的分割,可以减少在并行计算的过程中并行节点数据之间的数据传输,提高了数据处理的效率。
步骤二,根据任意两个时序子序列中数据之间的差异得到任意两个时序子序列之间的形态相似性度量指标;根据任意两个时序子序列之间的长度差异得到任意两个时序子序列对应的重要程度指标。
在获取到需要进行数据清洗的金融交易大数据对应的全部时序子序列之后,在本发明实施例中利用最终分割点对海量大数据构成的时序序列进行分割时,虽然考虑了划分得到的时序子序列可以让并行节点在计算的过程中进行更少的节点间数据传输,但是也可能存在时序子序列之间的长度差异较大的情况,进而在对时序子序列进行聚类的过程中需要对时序子序列之间的距离进行优化。
在时序子序列的聚类过程中,需要将长度不同的时序子序列进行距离度量,由于时序子序列的长度不同,因此会存在长短序列之间进行距离计算。而在计算DTW距离的过程中,时序子序列之间的距离会由于长度不同而存在距离度量差异。因此,需要在聚类过程中对子序列的距离度量进行优化,并对聚类过程中类别中时序子序列的平均长度进行限制,从而使得聚类得到的类别中数据量相似,保证每个并行节点的计算量较为相似。
在传统的K-means聚类中,距离的计算是通过数据点之间的欧氏距离进行度量,在对时间序列进行聚类时,则需要通过时间序列之间的DTW距离了进行距离的度量。在聚类过程中对于时间序列之间的距离度量需要考虑序列的长度差异,两个序列之间的长度差异越大,对于这两个序列则需要更大程度的数据分布相似度的衡量。因此,对于聚类过程中时序子序列之间的距离,则需要通过两个方面进行考虑,分别为数据分布相似性和DTW距离,这两者之间的比重则可通过长度差异进行衡量。
基于此,根据任意两个时序子序列中对应数据之间的差异得到任意两个时序子序列之间的形态相似性度量指标,具体地,对于任意两个时序子序列,根据时序子序列中每相邻两个数据之间差异得到数据对应的变化率;以两个时序子序列对应的所有变化率均值之间的差值绝对值作为任意两个时序子序列之间的形态相似性度量指标,用公式表示为:
Figure SMS_15
其中,/>
Figure SMS_16
表示时序子序列u与时序子序列v之间的形态相似性度量指标,/>
Figure SMS_17
表示时序子序列u中第m个数据对应的变化率,/>
Figure SMS_18
表示时序子序列u的长度,即时序子序列u中包含的数据总数量,/>
Figure SMS_19
表示时序子序列v中第n个数据对应的变化率,/>
Figure SMS_20
表示时序子序列v的长度,即时序子序列v中包含的数据总数量。
在本实施例中,时序子序列u中第m个数据对应的变化率的获取方法可以为,计算第m个数据与第m-1个数据之间的差值,以所述差值与第m-1个数据之间的比值作为第m个数据对应的变化率,需要说明的是,计算第一个数据对应的变化率时,将其上一个数据的数值默认取值为0。
在其他实施例中,时序子序列u中第m个数据对应的变化率的获取方法还可以为,由于时序子序列为时间序列,故时序子序列中相邻两个数据之间存在时间间隔,即时序子序列u中第m个数据与第m-1个数据之间存在时间间隔。基于此,获取时序子序列中第m个数据与第m-1个数据之间的时间间隔,计算第m个数据与第m-1个数据之间的差值,以差值与时间间隔的比值作为第m个数据对应的变化率。
需要说明的是,时序子序列中数据对应的变化率的获取方法与时序子序列u中第m个数据对应的变化率的获取方法相同。
Figure SMS_21
表示时序子序列u与时序子序列v的数据变化情况之间的差异,该差异越大,说明两个时序子序列之间的数据分布情况越不相似,即形态越不相似,对应的形态相似性度量指标的取值越大。该差异越小,说明两个时序子序列之间的数据分布情况越相似,即形态越相似,对应的形态度量指标的取值越小。
当时序子序列之间存在长度差异时,计算DTW距离的过程中,较短的时序子序列最后的数据点会对应多个较长的时序子序列中的数据点,该现象是由于时序子序列之间存在长度差异导致的。当两个时序子序列之间的数据分布情况越相似,说明两个时序子序列之间度量距离需要进行缩小,以保证在聚类过程中可以将分布情况相似但是长度差异大的时序子序列聚为一类。
在获取时序子序列之间的度量距离时,通过将所有子序列长度利用最大值进行归一化,获得形态相似性对应的重要程度,用来衡量DTW距离与形态相似性的度量情况。进而可以说明当时序子序列之间的长度差异越大时,两个时序子序列之间的形态相似性的度量就越重要。
基于此,根据任意两个时序子序列之间的长度差异得到任意两个时序子序列对应的重要程度指标,具体地,获取每两个时序子序列之间的长度的差值绝对值记为时序子序列的长度差异;对于任意两个时序子序列,以两个时序子序列对应的长度差异与所有长度差异中的最大值之间的比值,作为任意两个时序子序列对应的重要程度指标,用公式表示为:
Figure SMS_22
其中,/>
Figure SMS_23
表示时序子序列u和时序子序列v对应的重要程度指标,/>
Figure SMS_24
表示时序子序列u的长度,/>
Figure SMS_25
表示时序子序列v的长度,max( )表示求最大值的函数,/>
Figure SMS_26
表示长度差异,/>
Figure SMS_27
表示所有任意两个时序子序列对应的长度差异的最大值。/>
Figure SMS_28
表示时序子序列u和时序子序列v对应的长度差异,该长度差异越大,说明时序子序列u和时序子序列v之间的长度差别较大,对应的重要程度指标的取值越大,说明越需要关注时序子序列u与时序子序列v之间的数据分布情况的相似程度,即两个时序子序列之间的形态相似性的度量就越重要。
重要程度指标表征了时序子序列之间的数据分布情况的相似程度的度量重要程度,重要程度指标取值越大,越需要关注时序子序列之间的数据分布情况,即时序子序列之间的形态相似性。重要程度指标的取值小,则越不需要关注时序子序列之间的数据分布情况,即时序子序列之间的形态相似度,在获取度量距离时直接计算DTW距离即可。
步骤三,根据时序子序列中数据的异常情况得到时序子序列的状态因子;根据时序子序列之间的距离、形态相似性度量指标、重要程度指标以及状态因子,得到时序子序列之间的差异指标;根据差异指标对时序子序列进行分类,根据分类结果对海量大数据进行数据清洗。
需要说明的是,形态相似性度量指标是对时序子序列之间整体变化状态的衡量,虽然时序子序列之间的整体形态相似,但是时序子序列之间也会出现离群状态的差异。可以理解的是,虽然时序子序列之间整理距离差异较小,但是在时序子序列中的数据对应的异常值之间可能存在差异,进而存在异常值较大的时序子序列中局部离群因子的数值整体较高,异常值较小的时序子序列中局部离群因子的数值整体较低,在对这两个异常值存在差异的时序子序列进行异常数据点评估时,就可能会忽略数值较低的局部离群因子,使得局部离群因子的数值整体较低的时序子序列中的异常数据点不能够被检测出来,进而使得数据清洗结果较不准确。
基于此,根据时序子序列中数据的异常情况得到时序子序列的状态因子,具体地,在本实施例中,利用COF离群因子检测算法获取时序子序列中数据对应的平均链接距离,以时序子序列中所有数据的平均链接距离的均值的归一化值作为时序子序列的状态因子。
其中,利用COF离群因子检测算法获取时序子序列中数据对应的平均链接距离为公知技术,具体获取方法在本实施例中不再过多介绍。数据对应的平均链接距离反映了数据的异常情况,并且能够反映数据的离群状态,即数据对应的平均链接距离越大,说明该数据越可能是异常数据点,进而时序子序列的状态因子表征了时序子序列中所有数据整体的离群状态程度,状态因子的取值越大,说明时序子序列中所有数据整体的离群状态程度较大,计算该时序子序列中数据的局部离群因子的整体数值较高。状态因子的取值越小,说明时序子序列中所有数据整体的离群状态程度较小,计算该时序子序列中数据的局部离群因子的整体数据较低。
进一步的,两个时序子序列的状态因子越接近,说明这两个时序子序列中的数据在计算局部离群状态因子的过程中会处于较为接近的范围。两个时序子序列的状态因子之间的差异越大,说明这两个时序子序列中的数据在计算局部离群状态因子的过程中出现较大的差异,这样就会忽略掉状态因子较小的时序子序列中的异常数据,导致数据清洗过程中存在一定的数据误差。
基于此,在考虑时序子序列之间的数据分布情况的相似性的前提下,进一步的通过时序子序列对应的状态因子对时序子序列中所有数据整体的离群状态进行衡量,避免在对异常值存在差异的时序子序列进行异常数据点评估时,忽略数值较低的时序子序列中的异常数据的情况出现,从而保证数据清洗过程中可以更加准确的检测出异常数据。
进一步的,根据时序子序列之间的距离、形态相似性度量指标、重要程度指标以及状态因子,得到时序子序列之间的差异指标,具体地,获取任意两个时序子序列之间的DTW距离,并获取两个时序子序列对应的状态因子之间的差异,根据所述DTW距离、状态因子之间的差异、形态相似性度量指标以及重要程度指标,得到时序子序列之间的差异指标,用公式表示为:
Figure SMS_30
Figure SMS_34
其中,/>
Figure SMS_36
表示时序子序列u和时序子序列v之间的差异指标,/>
Figure SMS_31
表示时序子序列u和时序子序列v对应的重要程度指标,/>
Figure SMS_33
表示时序子序列u和时序子序列v之间的DTW距离,
Figure SMS_35
表示求时序子序列u和时序子序列v之间的DTW距离,/>
Figure SMS_37
表示时序子序列u与时序子序列v之间的形态相似性度量指标,/>
Figure SMS_29
表示时序子序列u对应的状态因子,/>
Figure SMS_32
表示时序子序列v对应的状态因子。
将时序子序列u和时序子序列v对应的重要程度指标
Figure SMS_38
作为时序子序列之间的相似性度量指标的权重,即重要程度指标取值越大,越需要关注时序子序列之间的数据分布情况,即时序子序列之间的形态相似性。重要程度指标的取值小,DTW距离对应的权重越大,则越不需要关注时序子序列之间的数据分布情况,即时序子序列之间的形态相似度,在获取度量距离时直接计算DTW距离即可。/>
Figure SMS_39
表示时序子序列u和时序子序列v之间的状态因子的差异,状态因子的差异越大,说明这两个时序子序列中的数据在计算局部离群状态因子的过程中出现较大的差异,对应的DTW距离也越大,最终计算的度量距离也就越大,即两个时序子序列之间的差异指标也就越大。
通过时序子序列之间的长度差异对时序子序列之间的DTW距离进行限制,并通过时序子序列的形态相似性度量指标与DTW距离共同获取聚类过程中的度量距离,进一步的考虑了时序子序列中所有数据整体离群状态之间的差异,最终获得较为准确的表征时序子序列之间的度量距离指标,即时序子序列之间的差异指标。
然后,按照上述方法获取所有任意两个时序子序列之间的差异指标,并根据差异指标对时序子序列进行分类,得到多个类别,将每个类别中的时序子序列组成一个数据块,用于并行计算。在本实施例中,利用K-means聚类算法根据差异指标对时序子序列进行分类,用差异指标作为衡量时序子序列之间相似度的指标,相似度与差异指标成反比,相似度越大,差异指标越小,在本实施例中,K-means聚类算法中的簇类数的取值需实施者根据并行计算节点的数量进行选择,例如,将簇类数设置为与并行计算节点的数量相同的数值,或者将簇类数设置为并行计算节点的数量的整数倍。同时,实施者可根据具体实施场景选择其他合适的聚类算法进行分类。
需要说明的是,并行计算是指,一次可执行多个指令的操作,目的是提高计算速度,即将所有数据块传入并行计算节点,在每个计算节点中并行计算相关数据,以提高数据清洗的效率。
根据分类结果对海量大数据进行数据清洗,具体地,将分类结果中每个类别内的数据点的局部离群因子作为数据点的异常程度,将异常程度大于预设的程度阈值对应的数据点进行剔除。
对分类结果中每个类别中所有时序子序列构成的数据块中的每个数据点进行分析,获取每个数据点对应的局部离群因子作为数据点的异常程度,在本实施例中,利用COF离群因子检测算法获取每个数据点对应的局部离群因子,该算法为公知技术,在此不再过多介绍。
数据点对应的局部离群因子取值越大,说明该数据越可能为异常数据,对应的异常程度越大,越需要被剔除。数据点对应的局部离群因子取值越小,说明该数据越可能是正常数据,对应的异常程度越小。
因此,当数据点的异常程度取值大于程度阈值时,说明该数据点越可能为异常数据,故需将该数据点进行剔除,并且可以通过时序子序列中邻近数据点的均值作为该数据点的拟合值,邻近数据点的数量实施者可以根据具体实施场景进行设置。其中,在本实施例中程度阈值的取值为0.7,实施者可以根据具体实施场景对程度阈值的取值进行设置。
综上所述,通过本发明实施例中计算得到的差异指标对时序子序列进行聚类,将数据分布变化较为相似的时序子序列划分为同一个类别形成数据块,相较于不对时序子序列进行分类构成的数据块,可以保证每个并行计算节点中的数据块内的数据分布处于较为接近的波动范围,从而避免在并行计算节点中计算数据的局部离群因子的过程中出现偏差,从而提高数据清洗过程中的准确性。
在本发明实施例的时序子序列的分割方法中,通过对初始分割点的K距离邻域内进行并行计算时并行计算节点之间的数据传输量进行评估,获取每个分割点的K距离邻域中的数据点在其邻域范围内的单向性程度,并进行最终分割点的选取,可以减少在并行计算的过程中并行节点数据之间的数据传输,提高了数据处理的效率。
进一步的,在获取时序子序列之间的分类度量距离时,通过时序子序列之间的形态相似性与形态相似性的重要程度的衡量进行分类度量距离的优化,相较于传统的DTW距离,可以使得计算长度差异较大的时序子序列之间的分类度量距离时,利用时序子序列之间的形态相似性将分类度量距离降低,从而使得聚类过程中长度差异较大的时序子序列可以根据形态相似性被划分到一个类别中。
最终,通过时序子序列中所有数据整体的离群状态对通过形态相似性优化后的分类度量距离进行进一步的优化,可以使得时序子序列之间的形态相似性较大时,通过时序子序列中所有数据整体的离群状态进行分类度量距离的进一步优化,使得并行计算节点在对数据进行异常程度衡量时,避免同一数据块中不同时序子序列之间存在离群状态差异导致的异常数据错误检测的情况出现。
实施例2:
本实施例提供了一种海量大数据智能清洗***,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被处理器执行时实现一种海量大数据智能清洗方法的步骤。由于实施例1已经对一种海量大数据智能清洗方法进行了详细的阐述,此处不再过多介绍。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种海量大数据智能清洗方法,其特征在于,该方法包括以下步骤:
获取海量大数据对应的时序子序列;
根据任意两个时序子序列中数据之间的差异得到任意两个时序子序列之间的形态相似性度量指标;根据任意两个时序子序列之间的长度差异得到任意两个时序子序列对应的重要程度指标;
根据时序子序列中数据的异常情况得到时序子序列的状态因子;根据时序子序列之间的距离、形态相似性度量指标、重要程度指标以及状态因子,得到时序子序列之间的差异指标;根据差异指标对时序子序列进行分类,根据分类结果对海量大数据进行数据清洗。
2.根据权利要求1所述的一种海量大数据智能清洗方法,其特征在于,所述根据任意两个时序子序列中数据之间的差异得到任意两个时序子序列之间的形态相似性度量指标具体为:
对于任意两个时序子序列,根据时序子序列中每相邻两个数据之间差异得到数据对应的变化率;以两个时序子序列对应的所有变化率均值之间的差值绝对值作为任意两个时序子序列之间的形态相似性度量指标。
3.根据权利要求1所述的一种海量大数据智能清洗方法,其特征在于,所述根据任意两个时序子序列之间的长度差异得到任意两个时序子序列对应的重要程度指标具体为:
获取每两个时序子序列之间的长度的差值绝对值记为时序子序列的长度差异;
对于任意两个时序子序列,以两个时序子序列对应的长度差异与所有长度差异中的最大值之间的比值,作为任意两个时序子序列对应的重要程度指标。
4.根据权利要求1所述的一种海量大数据智能清洗方法,其特征在于,所述根据时序子序列中数据的异常情况得到时序子序列的状态因子具体为:
利用COF离群因子检测算法获取时序子序列中数据对应的平均链接距离,以时序子序列中所有数据的平均链接距离的均值的归一化值作为时序子序列的状态因子。
5.根据权利要求1所述的一种海量大数据智能清洗方法,其特征在于,所述根据时序子序列之间的距离、形态相似性度量指标、重要程度指标以及状态因子,得到时序子序列之间的差异指标,具体包括:
获取任意两个时序子序列之间的DTW距离,并获取两个时序子序列对应的状态因子之间的差异,根据所述DTW距离、状态因子之间的差异、形态相似性度量指标以及重要程度指标,得到时序子序列之间的差异指标。
6.根据权利要求5所述的一种海量大数据智能清洗方法,其特征在于,所述差异指标的计算方法具体为:
Figure QLYQS_2
Figure QLYQS_5
其中,/>
Figure QLYQS_7
表示时序子序列u和时序子序列v之间的差异指标,/>
Figure QLYQS_3
表示时序子序列u和时序子序列v对应的重要程度指标,/>
Figure QLYQS_6
表示时序子序列u和时序子序列v之间的DTW距离,/>
Figure QLYQS_8
表示求时序子序列u和时序子序列v之间的DTW距离,/>
Figure QLYQS_9
表示时序子序列u与时序子序列v之间的形态相似性度量指标,/>
Figure QLYQS_1
表示时序子序列u对应的状态因子,/>
Figure QLYQS_4
表示时序子序列v对应的状态因子。
7.根据权利要求1所述的一种海量大数据智能清洗方法,其特征在于,所述获取海量大数据对应的时序子序列具体为:对海量大数据构成的时序序列进行分割得到时序子序列。
8.根据权利要求7所述的一种海量大数据智能清洗方法,其特征在于,所述对海量大数据构成的时序序列进行分割得到时序子序列具体为:
利用Floss算法获取时序序列对应的初始分割点;
在初始分割点的邻域内,将邻域内任意一个数据点记为目标数据点,分别获取位于目标数据点左侧和右侧且属于目标数据的邻域内的数据点的数量;
将目标数据点左侧对应的数据点的数量和右侧对应的数据点的数量中的较大值作为分子,将目标数据点的邻域内包含的数据点的总数量作为分母,以所述分子和分母的比值的归一化值作为目标数据点的邻域方向单一度;
将初始分割点的邻域内邻域方向单一度最大值对应的数据点记为最终分割点,利用最终分割点对时序序列进行分割得到时序子序列。
9.根据权利要求1所述的一种海量大数据智能清洗方法,其特征在于,所述根据分类结果对海量大数据进行数据清洗具体为:
将分类结果中每个类别内的数据点的局部离群因子作为数据点的异常程度,将异常程度大于预设的程度阈值对应的数据点进行剔除。
10.一种海量大数据智能清洗***,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-9任一项所述的一种海量大数据智能清洗方法的步骤。
CN202310537830.7A 2023-05-15 2023-05-15 一种海量金融交易大数据智能清洗方法及*** Active CN116383190B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310537830.7A CN116383190B (zh) 2023-05-15 2023-05-15 一种海量金融交易大数据智能清洗方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310537830.7A CN116383190B (zh) 2023-05-15 2023-05-15 一种海量金融交易大数据智能清洗方法及***

Publications (2)

Publication Number Publication Date
CN116383190A true CN116383190A (zh) 2023-07-04
CN116383190B CN116383190B (zh) 2023-08-25

Family

ID=86964207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310537830.7A Active CN116383190B (zh) 2023-05-15 2023-05-15 一种海量金融交易大数据智能清洗方法及***

Country Status (1)

Country Link
CN (1) CN116383190B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116612641A (zh) * 2023-07-19 2023-08-18 天津中德应用技术大学 基于智能网联的车辆队列控制数据处理方法
CN116703485A (zh) * 2023-08-04 2023-09-05 山东创亿智慧信息科技发展有限责任公司 基于大数据的广告精准营销方法及***
CN117422345A (zh) * 2023-12-18 2024-01-19 泰安金冠宏食品科技有限公司 一种油渣分离质量评估方法及***
CN117556108A (zh) * 2024-01-12 2024-02-13 泰安金冠宏食品科技有限公司 一种基于数据分析的油渣分离效率异常检测方法
CN117725451A (zh) * 2023-12-15 2024-03-19 北京微保科技有限责任公司 一种多维度交易数据自动对账方法及***
CN117909770A (zh) * 2024-03-20 2024-04-19 山东德源电力科技股份有限公司 一种用于单相费控电能表的结算数据智能存储方法
CN118070195A (zh) * 2024-04-16 2024-05-24 山东艾克索仑电气有限公司 一种矿用交流变频器异常数据状态监测***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966017A (zh) * 2021-03-01 2021-06-15 北京青萌数海科技有限公司 一种时间序列中不定长的异常子序列检测方法
US20210216386A1 (en) * 2018-07-23 2021-07-15 Mitsubishi Electric Corporation Time-sequential data diagnosis device, additional learning method, and recording medium
CN113705726A (zh) * 2021-09-15 2021-11-26 北京沃东天骏信息技术有限公司 流量的分类方法、装置、电子设备及计算机可读介质
WO2021238455A1 (zh) * 2020-05-29 2021-12-02 中兴通讯股份有限公司 数据处理方法、设备及计算机可读存储介质
CN115982611A (zh) * 2023-03-14 2023-04-18 北京易能中网技术有限公司 基于聚类算法的电力用户用能特点分析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210216386A1 (en) * 2018-07-23 2021-07-15 Mitsubishi Electric Corporation Time-sequential data diagnosis device, additional learning method, and recording medium
WO2021238455A1 (zh) * 2020-05-29 2021-12-02 中兴通讯股份有限公司 数据处理方法、设备及计算机可读存储介质
CN112966017A (zh) * 2021-03-01 2021-06-15 北京青萌数海科技有限公司 一种时间序列中不定长的异常子序列检测方法
CN113705726A (zh) * 2021-09-15 2021-11-26 北京沃东天骏信息技术有限公司 流量的分类方法、装置、电子设备及计算机可读介质
CN115982611A (zh) * 2023-03-14 2023-04-18 北京易能中网技术有限公司 基于聚类算法的电力用户用能特点分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIN WANG等: "Detecting anomalies in symbolic sequence dataset", 《IEEE》, pages 443 - 447 *
展鹏: "基于时间序列挖掘的异常检测关键技术研究", 《中国博士学位论文全文数据库 基础科学辑》, no. 04, pages 002 - 65 *
曹洋洋等: "基于形态距离及自适应权重的相似性度量", 《计算机应用研究》, vol. 35, no. 09, pages 2638 - 2642 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116612641A (zh) * 2023-07-19 2023-08-18 天津中德应用技术大学 基于智能网联的车辆队列控制数据处理方法
CN116612641B (zh) * 2023-07-19 2023-09-22 天津中德应用技术大学 基于智能网联的车辆队列控制数据处理方法
CN116703485A (zh) * 2023-08-04 2023-09-05 山东创亿智慧信息科技发展有限责任公司 基于大数据的广告精准营销方法及***
CN116703485B (zh) * 2023-08-04 2023-10-20 山东创亿智慧信息科技发展有限责任公司 基于大数据的广告精准营销方法及***
CN117725451A (zh) * 2023-12-15 2024-03-19 北京微保科技有限责任公司 一种多维度交易数据自动对账方法及***
CN117422345A (zh) * 2023-12-18 2024-01-19 泰安金冠宏食品科技有限公司 一种油渣分离质量评估方法及***
CN117422345B (zh) * 2023-12-18 2024-03-12 泰安金冠宏食品科技有限公司 一种油渣分离质量评估方法及***
CN117556108A (zh) * 2024-01-12 2024-02-13 泰安金冠宏食品科技有限公司 一种基于数据分析的油渣分离效率异常检测方法
CN117556108B (zh) * 2024-01-12 2024-03-26 泰安金冠宏食品科技有限公司 一种基于数据分析的油渣分离效率异常检测方法
CN117909770A (zh) * 2024-03-20 2024-04-19 山东德源电力科技股份有限公司 一种用于单相费控电能表的结算数据智能存储方法
CN117909770B (zh) * 2024-03-20 2024-05-24 山东德源电力科技股份有限公司 一种用于单相费控电能表的结算数据智能存储方法
CN118070195A (zh) * 2024-04-16 2024-05-24 山东艾克索仑电气有限公司 一种矿用交流变频器异常数据状态监测***

Also Published As

Publication number Publication date
CN116383190B (zh) 2023-08-25

Similar Documents

Publication Publication Date Title
CN116383190B (zh) 一种海量金融交易大数据智能清洗方法及***
US9454902B2 (en) Performing-time-series based predictions with projection thresholds using secondary time-series-based information stream
CN115577275A (zh) 一种基于lof和孤立森林的时序数据异常监测***及方法
CN107742127A (zh) 一种改进的防窃电智能预警***及方法
US20090222243A1 (en) Adaptive Analytics
CN109934301B (zh) 一种电力负荷聚类分析方法、装置和设备
CN115359807B (zh) 一种用于城市噪声污染的噪声在线监测***
CN116011894A (zh) 一种铝合金棒生产数据管理***
CN116739645A (zh) 基于企业管理的订单异常监督***
CN111191720A (zh) 一种业务场景的识别方法、装置及电子设备
CN117608499B (zh) 一种基于物联网的智慧交通数据优化存储方法
CN111625578A (zh) 适用于文化科技融合领域时间序列数据的特征提取方法
CN117196446B (zh) 一种基于大数据的产品风险实时监测平台
CN116258864B (zh) 一种村庄规划建设大数据管理***
CN117591860A (zh) 一种数据异常检测方法及装置
CN117170979A (zh) 一种大规模设备的能耗数据处理方法、***、设备及介质
CN116681497A (zh) 基于图神经网络的资金风险识别方法、计算机装置及计算机可读存储介质
CN116719714A (zh) 一种测试用例的筛选模型的训练方法及相应的装置
CN116295506A (zh) 一种车辆剩余里程的预测方法、装置、设备及介质
KR20220123845A (ko) 시계열 데이터 간의 유사도 측정 방법 및 장치
CN117235651B (zh) 基于物联网的企业信息数据优化管理***
CN117953252B (zh) 高速公路资产数据自动化采集方法及***
CN117196831B (zh) 一种面向金融服务的风险预测方法及***
CN116070150B (zh) 基于呼吸机运行参数的异常监测方法
CN118012718B (zh) 一种分布式存储***的实时监控方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant