CN114528276B - 一种基于人工智能的大数据采集存储管理***及方法 - Google Patents
一种基于人工智能的大数据采集存储管理***及方法 Download PDFInfo
- Publication number
- CN114528276B CN114528276B CN202210159146.5A CN202210159146A CN114528276B CN 114528276 B CN114528276 B CN 114528276B CN 202210159146 A CN202210159146 A CN 202210159146A CN 114528276 B CN114528276 B CN 114528276B
- Authority
- CN
- China
- Prior art keywords
- data
- fusion
- value
- abnormal
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 21
- 230000004927 fusion Effects 0.000 claims abstract description 222
- 230000002159 abnormal effect Effects 0.000 claims abstract description 177
- 238000012545 processing Methods 0.000 claims abstract description 26
- 238000007726 management method Methods 0.000 claims abstract description 17
- 238000013500 data storage Methods 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims description 36
- 230000035755 proliferation Effects 0.000 claims description 14
- 238000012216 screening Methods 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 12
- 230000009191 jumping Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 2
- 238000013523 data management Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于人工智能的大数据采集存储管理***及方法,包括:数据采集模块,所述数据采集模块用于对数据信息进行采集;数据智能处理模块,所述数据智能处理模块包括数据相似性判定模块、数据融合模块及数据拆分处理模块,所述数据相似性判定模块用于判断采集数据之间的相似性;所述数据融合模块将相似信息进行数据融合,得到融合数据及相应的融合值;所述数据拆分处理模块获取数据采集模块中采集数据中的异常数据,并结合历史数据对融合数据进行拆分,得到相应的拆分数据;数据存储模块,所述数据存储模块获取处理后的采集数据,并将其保存到数据库中。
Description
技术领域
本发明涉及大数据技术领域,具体为一种基于人工智能的大数据采集存储管理***及方法。
背景技术
随着计算机技术的快速发展,人工智能技术得到广泛运用,企业中,人们人们可以采用人工智能的方式实现对大数据的快速处理,不仅处理速度更快,且效率更高,为企业进一步研究数据变化趋势提供了参考依据。
现如今的人工智能数据采集存储管理***中,分为两类:
①只是简单的实现对数据的采集与存储,不对采集的数据进行筛选;
②对采集的数据只是简单的筛选,仅仅通过获取的数据与阈值进行比较,判断数据是否异常,删除异常数据,而不是对其进行校准;
因此,现有的人工智能数据采集存储管理***存在较大的缺陷,无法准确锁定采集的数据中的异常数据,且直接删除异常数据会导致数据缺失,进而对后续的数据分析造成影响。
针对上述情况,我们需要一种基于人工智能的大数据采集存储管理***及方法。
发明内容
本发明的目的在于提供一种基于人工智能的大数据采集存储管理***及方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:一种基于人工智能的大数据采集存储管理***及方法,包括:
数据采集模块,所述数据采集模块用于对数据信息进行采集;
数据智能处理模块,所述数据智能处理模块包括数据相似性判定模块、数据融合模块及数据拆分处理模块,
所述数据相似性判定模块用于判断采集数据之间的相似性;
所述数据融合模块将相似信息进行数据融合,得到融合数据及相应的融合值;
所述数据拆分处理模块获取数据采集模块中采集数据中的异常数据,并结合历史数据对融合数据进行拆分,得到相应的拆分数据;
数据存储模块,所述数据存储模块获取处理后的采集数据,并将其保存到数据库中。
本发明通过各个模块的协同合作,共同实现了对大数据的采集、筛选及存储,并通过计算相似性及融合值的方式实现对数据的筛选及清洗,通过拆分数据及拆分增殖的方式实现对异常数据的替换,相当于对异常数据的校准,进而确保采集的数据的准确性及采集数据的个数的完整及统一。
进一步的,所述数据采集模块每隔第一单位时间对数据信息进行一次采集,每次采集的数据个数为2n+1个,n为正整数,将每次采集的第2n+1个数据进行标注,作为第一标注点,
将第一单位时间中第i个数据对应的值记为Ai;
获取与第一标注点时间间隔小于等于第二单位时间内的所有数据,将第二单位时间内获取的数据中第i1个数据对应的值记为Bi1,将第二单位时间内的数据个数记为n1;
计算第一单位时间内各个数据与相应平均值之间的平均差异值,记为第一差异值,所述第一差异值为其中,A1等于第一单位时间内各个数据的平均值,
计算第二单位时间内各个数据与相应平均值之间的平均差异值,记为第二差异值,所述第二差异值为其中,A2等于第二单位时间内各个数据的平均值,
所述数据采集模块根据第一差异值及第二差异值,得到区间差异数C,
所述
本发明数据采集模块设置第一标准点,是因为数据采集方式每个第一单位时间获取一次的,因此,本发明是将第一单位时间内采集的2n+1个数据作为一个整体的,进而获取第二单位时间内的数据时,首先需要获取一个参照点,而第2n+1个数据位于第一单位时间采集数据中的最后位置,具有较强的代表性;获取第一差异值,是为了获取第一单位时间内各个数据与平均值之间的差异值的平均值;获取第一差异值的过程中,采用绝对值的方式,是因为不同数据与平均值之间的差异值的符号可能是不相同的,设置绝对值是为了对各个差异值的符号进行统一,避免不同符合的差异值相互之间进行抵消,进而对第一差异值造成影响,进而使得获取的结果偏小;获取区间差异数C时,用第二差异值减去第一差异值,是为了确定分析不同区间之间的数据对应平均差异值的差异情况,在后续计算拆分数据相对于异常数据位置集合中的第j个元素对应数据的归一值的过程中,异常参照量集合中对应的元素集合内的数据的获取周期也是第二单位时间,与C的获取是相对应的,均是参照第二单位时间进行数据分析的。
进一步的,所述数据相似性判定模块判断采集数据之间的相似性的方法包括以下步骤:
S1.1、获取数据采集模块最近一次采集的第一单位时间内的各个数据,并按获取的先后顺序分别为获取的数据进行编号;
S1.2、将不同数据编号进行排列组合,得到不同的数据编号对,记为[d1,d2],其中,d1表示第一数据编号,d2表示第二数据编号,第一数据编号与第二数据编号不同;
S1.3、计算d1对应的数据与d2对应的数据之间的相似值Ed1d2,
所述其中,Hd1表示d1对应的数据,Hd2表示对应的数据,Hd1>0,
当Hd1≤0时,则判定d1对应的数据异常。
本发明数据相似性判定模块在获取数据之间相似性的过程中,也在对获取数据中的异常情况进行判断,进而快速锁定获取数据中的异常数据(Hd1≤0时,d1对应的数据);在获取d1对应的数据与d2对应的数据之间的相似值Ed1d2的过程中,表示d2对应的数据相对于d1对应的数据的偏差值,用1减去d2对应的数据相对于d1对应的数据的偏差值,进而得到d2对应的数据与d1对应的数据两者之间的相似值。
进一步的,所述数据融合模块得到融合数据的方法包括以下步骤:
S2.1、获取数据采集模块最近一次采集的第一单位时间内的各个数据及相应的编号;
S2.2、获取编号为d3的数据,判断编号为d3的数据是否异常,
当Hd3≤0时,则判定编号为d3的数据异常,不获取其相应的融合数据,
当Hd3>0时,获取数据相似性判定模块中第一数据编号等于d3的数据编号对及相应数据编号对对应的相似值;
S2.3、按第二数据编号从小到大的顺序,逐个将第一数据编号等于d3的数据编号对对应的相似值与第一阈值进行比较,
当相似值小于第一阈值时,则判定该相似值对应数据编号对中的第一数据编号对应的数据与第二数据编号对应的数据不相似,两者无法进行融合,
当相似值大于等于第一阈值时,则判定该相似值对应的数据编号对中第一数据编号对应的数据与第二数据编号对应的数据能够进行融合;
S2.4、得到d3为不同值时,编号为d3的数据相应的融合数据H1d3,
所述H1d3={Hd3:Kd3},其中,Kd3为一个集合,Hd3与Kd3构成键值对,Hd3为键对象,Kd3为值对象,
所述Kd3中的每个元素与一个数据编号对相关联,且所述数据编号对中的第一数据编号对应的数据为Hd3,且第一数据编号对应的数据与第二数据编号对应的数据能够进行融合,
所述Kd3中的第n2个元素对应的值记为
其中,d4表示Kd3中的第n2个元素对应数据编号对中第二数据编号,
的底数Hd4表示编号为d4的数据对应的值,
的上标Ed3d4表示编号为d3的数据与编号为d4的数据之间的相似值,
每个融合数据对应一个融合值,
Kd3中各个值中底数的均值与各个值中上标的均值的乘积,所得乘积与键对象的平均值为H1d3对应的融合值。
本发明数据融合模块得到融合数据的过程中,S2.2是为了筛选出获取数据中的异常数据,进而锁定获取融合数据的范围;S2.3是为了哪些数据相互之间能够进行融合,即得到融合数据相应的融合条件;S2.4描述的是融合数据的记录形式及相应融合值的计算方式;融合数据采用键值对的形式进行记录是因为两者能够较好的体现出对应关系,且键值对的值对象采用集合的方式,既能够保证融合数据的形式统一,且又不对值对象的长短及大小进行限制;获取H1d3对应的融合值的过程中,Kd3中各个值中底数的均值表示能够与d3对应的数据进行融合的各个数据的均值,Kd3中各个值中上标的均值表示能够与d3对应的数据进行融合的各个数据分别与Hd3的相似值之间的平均值;获取Kd3中各个值中底数的均值与各个值中上标的均值的乘积,即得到能够与d3对应的数据进行融合的各个数据之间的融合数,计算的是能够与d3对应的数据进行融合的各个数据之间对应的融合结果,而计算所得乘积与键对象的平均值,是为了得到融合数据与Hd3之间的融合结果,即融合值。
进一步的,所述数据融合模块中,Kd3中的第n2个元素对应的值记为并不对Hd4对应的融合数据产生影响,
数据采集模块最近一次采集的第一单位时间内的各个数据经过数据融合模块处理后,可以包含多个融合数据,
所述数据融合模块选取值对象为空集的融合数据,将该融合数据中键对象对应的数据与第二阈值区间进行比较,
当融合数据中键对象对应的数据在第二阈值区间内时,则判定该融合数据为独立融合数据,
当融合数据中键对象对应的数据不在第二阈值区间内时,则判定该融合数据中键对象对应的数据为异常数据。
本发明融合数据模块进一步对融合数据进行分析,进而对数据采集模块中的数据的异常情况进行二次判断;独立融合数据对应的融合值等于键对象对应的数据本身。
进一步的,所述数据拆分处理模块包括异常位置确认模块及融合数据拆分模块,
所述异常位置确认模块获取数据采集模块最近一次采集的第一单位时间内的各个数据,判断各个数据是否为异常数据,将各个异常数据对应的编号逐个添加到一个空白集合中,得到异常数据位置集合;
所述融合数据拆分模块以第二单位时间为周期,获取异常数据位置集合中每个元素对应编号在历史数据中,前n4个周期中分别对应的n4个数据,将获取的n4个数据作为异常数据位置集合中相应元素对应编号的元素集合,按元素对应的编号从小到大的顺序将异常数据位置集合中各个元素分别对应的元素集合进行汇总,得到异常参照量集合,
所述异常参照量集合中的每个元素对应一个元素集合,
所述融合数据拆分模块获取各个融合数据中键对象对应的编号,对融合数据进行拆分,并结合异常参照量数据集合筛选拆分后的数据,并替换相应的异常数据。
本发明数据拆分处理模块中异常位置确认模块得到异常数据位置集合,一方面是为了确定融合数据拆分模块是否需要对融合数据进行拆分,另一方面是为了锁定融合数据拆分模块对融合数据进行拆分的程度(是否需要进行拆分增殖),及判断拆分数据之间的替换优先级;容忍数据拆分模块获取异常参照量集合是为了获取拆分数据之间的替换优先级;获取异常参照量集合的过程中,设置第二单位时间为周期,是为了与上述获取区间差异量C过程中的相对时间进行统一,进而能够在异常数据替换过程中,对拆分数据进行校准。
进一步的,所述融合数据拆分模块对融合数据进行拆分的方法包括以下步骤:
S3.1、获取异常数据位置集合中的元素个数m2,
若m2=0,则不对融合数据进行拆分,
若m2>0,则对融合数据进行拆分;
S3.2、获取数据采集模块最近一次采集的第一单位时间内的各个数据经过数据融合模块处理后,且除独立融合数据之外的各个融合数据及相应融合数据中键对象对应的编号;
S3.3、获取S3.2中得到的键对象对应编号为j1的融合数据H1j1={Hj1:Kj1},获取该融合数据中值对象相应集合中各个元素的值;
S3.4、获取Kj1对应集合中元素的个数m,获取Kj1中m-m1个元素构成的组合情况,将每个组合情况中的包含的元素分别对应的值构成一个组合对,0≤m1<m;
S3.5、每个组合对对应一个拆分数据,所述拆分数据等于相应组合对中各个值中底数的均值与各个值中上标的均值的乘积;
S3.6、统计S3.2中得到的所有融合数据相应拆分数据的总和m3,将m3与m2进行比较,
当m3>m2时,判定融合数据拆分结束,
当m3≤m2时,则进一步对S3.2中得到的所有融合数据进行拆分增殖,将m1对应的值加1,并跳转到S3.3,将增殖的拆分数据个数记为m4,
将m3与m4的和与m2进行比较,
当m3+m4>m2时,判定融合数据拆分结束,
当m3+m4≤m2时,则进一步对S3.2中得到的所有融合数据进行拆分增殖,将m1对应的值加1,并跳转到S3.3;
所述拆分增殖过程中,若m-m1<0时,则停止对该m对应的融合数据进行拆分增殖,跳转到下一个融合数据正常执行拆分增殖。
本发明融合数据拆分模块对融合数据进行拆分的过程中,S3.1描述的是对融合数据进行拆分的条件;S3.4描述的是对融合数据进行拆分的方式;S3.5描述的是对融合数据中拆分数据的计算方式;S3.6描述的是拆分增殖的判定条件及执行方式;将m3及m3+m4与m2进行比较,是为了确保拆分数据的个数超过异常数据的个数,进而保证拆分数据的样本数足够大,进而使得替换的异常数据的拆分数据精确度更高。
进一步的,所述数据融合拆分模块结合异常参照量数据集合筛选拆分后的数据的方法包括以下步骤:
S4.1、获取异常位置确认模块得到的异常数据位置集合,并选取异常数据位置集合中的第j个元素对应的编号及相应编号的数据在异常参照量集合中对应的元素集合;
S4.2、获取融合数据中各个组合对相应的拆分数据,并计算各个拆分数据相对于异常数据位置集合中的第j个元素对应数据的归一值,
若某拆分数据的值记为Hc,该拆分数据对应融合数据中键对象相应编号记为dp,则该拆分数据相对于异常数据位置集合中的第j个元素对应数据的归一值等于
其中,Wj表示异常数据位置集合中的第j个元素对应的编号的数据在异常参照量集合中对应元素集合中的元素个数,Dj表示异常数据位置集合中的第j个元素对应的编号,表示编号为Dj的数据在异常参照量集合中对应的元素集合内的第g个元素的值,R为常数,R+|dp-Dj|>0;
S4.3、比较各个拆分数据相对于异常数据位置集合中的第j个元素对应数据的归一值,并按从大到小的顺序对各个归一值进行排序,获取各个拆分数据相对于异常数据位置集合中的第j个元素对应数据的替换优先级,
所述每个拆分数据相对于异常数据位置集合中的第j个元素对应数据的替换优先级,与该拆分数据相对于异常数据位置集合中的第j个元素对应数据的归一值的排序序号相等;
S4.4、计算相对于异常数据位置集合中的第j个元素对应数据的最高替换优先级的拆分数据的值与C的和,将所得和与0进行比较,判断所得和是否异常,
若所得和大于0,则判定所得和正常,并用所得和替换采集模块最近一次采集的第一单位时间内的各个数据中,且与异常数据位置集合中的第j个元素相对应的数据,
若所得和小于等于0,则判定所得和异常,按替换优先级从高到低的顺序逐个将各拆分数据的值与C的和与0进行比较,直至得到相应的和大于0的情况,并将该相应的和替换采集模块最近一次采集的第一单位时间内的各个数据中,且与异常数据位置集合中的第j个元素相对应的数据,
如果按替换优先级从高到低的顺序逐个将各拆分数据的值与C的和与0进行比较,且得到相应的和均小于等于0时,则采集模块最近一次采集的第一单位时间内的各个数据中,且与异常数据位置集合中的第j个元素相对应的数据不变。
本发明数据融合拆分模块结合异常参照量数据集合筛选拆分后的数据的过程中,计算拆分数据相对于异常数据位置集合中的第j个元素对应数据的归一值,是为了后续获取各个拆分数据相对于异常数据位置集合中的第j个元素对应数据的替换优先级,进而实现对拆分数据的有效筛选;S4.4中描述的是对替换优先级较高的拆分数据的有效性进行确定,并对替换优先级较高且无效的拆分数据进行处理;获取拆分数据相对于异常数据位置集合中的第j个元素对应数据的归一值的过程中,计算Hc+C的和,是为了对拆分数据Hc进行校准;计算是为了对校准后的拆分数据与参照量集合中的第g个参照量之间的偏差值;计算/>是为了获取校准后的拆分数据与参照量集合中的各个参照量之间偏差值的标准差/>表示拆分数据位置相对异常数据位置集合中的第j个元素对应编号位置之间的位置偏差系数;R代表的常数对位置偏差系数起到调节作用。
一种基于人工智能的大数据采集存储管理方法,所述方法包括以下步骤:
S1、数据采集模块用于对数据信息进行采集;
S2、数据相似性判定模块用于判断采集数据之间的相似性;
S3、数据融合模块将相似信息进行数据融合,得到融合数据及相应的融合值;
S4、数据拆分处理模块获取数据采集模块中采集数据中的异常数据,并结合历史数据对融合数据进行拆分,得到相应的拆分数据;
S5、数据存储模块获取处理后的采集数据,并将其保存到数据库中。
与现有技术相比,本发明所达到的有益效果是:本发明通过计算相似性及融合值的方式实现对大数据的筛选及清洗,通过拆分数据及拆分增殖的方式实现对异常数据的替换,相当于对异常数据进行校准,进而确保采集的数据的准确性及采集数据的个数的完整及统一。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明一种基于人工智能的大数据采集存储管理***的结构示意图;
图2是本发明一种基于人工智能的大数据采集存储管理***中数据融合模块得到融合数据的方法的流程示意图;
图3是本发明一种基于人工智能的大数据采集存储管理***中融合数据拆分模块对融合数据进行拆分的方法的流程示意图;
图4是本发明一种基于人工智能的大数据采集存储管理方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-图4,本发明提供技术方案:一种基于人工智能的大数据采集存储管理***及方法,包括:
数据采集模块,所述数据采集模块用于对数据信息进行采集;
数据智能处理模块,所述数据智能处理模块包括数据相似性判定模块、数据融合模块及数据拆分处理模块,
所述数据相似性判定模块用于判断采集数据之间的相似性;
所述数据融合模块将相似信息进行数据融合,得到融合数据及相应的融合值;
所述数据拆分处理模块获取数据采集模块中采集数据中的异常数据,并结合历史数据对融合数据进行拆分,得到相应的拆分数据;
数据存储模块,所述数据存储模块获取处理后的采集数据,并将其保存到数据库中。
本发明通过各个模块的协同合作,共同实现了对大数据的采集、筛选及存储,并通过计算相似性及融合值的方式实现对数据的筛选及清洗,通过拆分数据及拆分增殖的方式实现对异常数据的替换,相当于对异常数据的校准,进而确保采集的数据的准确性及采集数据的个数的完整及统一。
所述数据采集模块每隔第一单位时间对数据信息进行一次采集,每次采集的数据个数为2n+1个,n为正整数,将每次采集的第2n+1个数据进行标注,作为第一标注点,
将第一单位时间中第i个数据对应的值记为Ai;
获取与第一标注点时间间隔小于等于第二单位时间内的所有数据,将第二单位时间内获取的数据中第i1个数据对应的值记为Bi1,将第二单位时间内的数据个数记为n1;
计算第一单位时间内各个数据与相应平均值之间的平均差异值,记为第一差异值,所述第一差异值为其中,A1等于第一单位时间内各个数据的平均值,
计算第二单位时间内各个数据与相应平均值之间的平均差异值,记为第二差异值,所述第二差异值为其中,A2等于第二单位时间内各个数据的平均值,
所述数据采集模块根据第一差异值及第二差异值,得到区间差异数C,
所述
本实施例中若最近一次的第一单位时间内获取的数据分别为28,30,29,则第一标注点为30,若与30对应时间间隔小于等于第二单位时间内的所有数据分别为27,31,29,28,29,30;
则第一差异值为
则第二差异值为
则
本发明数据采集模块设置第一标准点,是因为数据采集方式每个第一单位时间获取一次的,因此,本发明是将第一单位时间内采集的2n+1个数据作为一个整体的,进而获取第二单位时间内的数据时,首先需要获取一个参照点,而第2n+1个数据位于第一单位时间采集数据中的最后位置,具有较强的代表性;获取第一差异值,是为了获取第一单位时间内各个数据与平均值之间的差异值的平均值;获取第一差异值的过程中,采用绝对值的方式,是因为不同数据与平均值之间的差异值的符号可能是不相同的,设置绝对值是为了对各个差异值的符号进行统一,避免不同符合的差异值相互之间进行抵消,进而对第一差异值造成影响,进而使得获取的结果偏小;获取区间差异数C时,用第二差异值减去第一差异值,是为了确定分析不同区间之间的数据对应平均差异值的差异情况,在后续计算拆分数据相对于异常数据位置集合中的第j个元素对应数据的归一值的过程中,异常参照量集合中对应的元素集合内的数据的获取周期也是第二单位时间,与C的获取是相对应的,均是参照第二单位时间进行数据分析的。
所述数据相似性判定模块判断采集数据之间的相似性的方法包括以下步骤:
S1.1、获取数据采集模块最近一次采集的第一单位时间内的各个数据,并按获取的先后顺序分别为获取的数据进行编号;
S1.2、将不同数据编号进行排列组合,得到不同的数据编号对,记为[d1,d2],其中,d1表示第一数据编号,d2表示第二数据编号,第一数据编号与第二数据编号不同;
S1.3、计算d1对应的数据与d2对应的数据之间的相似值Ed1d2,
所述其中,Hd1表示d1对应的数据,Hd2表示对应的数据,Hd1>0,
当Hd1≤0时,则判定d1对应的数据异常。
本发明数据相似性判定模块在获取数据之间相似性的过程中,也在对获取数据中的异常情况进行判断,进而快速锁定获取数据中的异常数据(Hd1≤0时,d1对应的数据);在获取d1对应的数据与d2对应的数据之间的相似值Ed1d2的过程中,表示d2对应的数据相对于d1对应的数据的偏差值,用1减去d2对应的数据相对于d1对应的数据的偏差值,进而得到d2对应的数据与d1对应的数据两者之间的相似值。
所述数据融合模块得到融合数据的方法包括以下步骤:
S2.1、获取数据采集模块最近一次采集的第一单位时间内的各个数据及相应的编号;
S2.2、获取编号为d3的数据,判断编号为d3的数据是否异常,
当Hd3≤0时,则判定编号为d3的数据异常,不获取其相应的融合数据,
当Hd3>0时,获取数据相似性判定模块中第一数据编号等于d3的数据编号对及相应数据编号对对应的相似值;
S2.3、按第二数据编号从小到大的顺序,逐个将第一数据编号等于d3的数据编号对对应的相似值与第一阈值进行比较,
当相似值小于第一阈值时,则判定该相似值对应数据编号对中的第一数据编号对应的数据与第二数据编号对应的数据不相似,两者无法进行融合,
当相似值大于等于第一阈值时,则判定该相似值对应的数据编号对中第一数据编号对应的数据与第二数据编号对应的数据能够进行融合;
S2.4、得到d3为不同值时,编号为d3的数据相应的融合数据H1d3,
所述H1d3={Hd3:Kd3},其中,Kd3为一个集合,Hd3与Kd3构成键值对,Hd3为键对象,Kd3为值对象,
所述Kd3中的每个元素与一个数据编号对相关联,且所述数据编号对中的第一数据编号对应的数据为Hd3,且第一数据编号对应的数据与第二数据编号对应的数据能够进行融合,
所述Kd3中的第n2个元素对应的值记为
其中,d4表示Kd3中的第n2个元素对应数据编号对中第二数据编号,
的底数Hd4表示编号为d4的数据对应的值,
的上标Ed3d4表示编号为d3的数据与编号为d4的数据之间的相似值,
每个融合数据对应一个融合值,
Kd3中各个值中底数的均值与各个值中上标的均值的乘积,所得乘积与键对象的平均值为H1d3对应的融合值。
本实施例中若最近一次的第一单位时间内获取的数据分别为28,30,29,第一阈值为获取28对应的融合数据时,
28与30的相似值等于
28与29的相似值等于
因为
则29与28能够进行融合,得到融合数据
进而得到的融合值为
本发明数据融合模块得到融合数据的过程中,S2.2是为了筛选出获取数据中的异常数据,进而锁定获取融合数据的范围;S2.3是为了哪些数据相互之间能够进行融合,即得到融合数据相应的融合条件;S2.4描述的是融合数据的记录形式及相应融合值的计算方式;融合数据采用键值对的形式进行记录是因为两者能够较好的体现出对应关系,且键值对的值对象采用集合的方式,既能够保证融合数据的形式统一,且又不对值对象的长短及大小进行限制;获取H1d3对应的融合值的过程中,Kd3中各个值中底数的均值表示能够与d3对应的数据进行融合的各个数据的均值,Kd3中各个值中上标的均值表示能够与d3对应的数据进行融合的各个数据分别与Hd3的相似值之间的平均值;获取Kd3中各个值中底数的均值与各个值中上标的均值的乘积,即得到能够与d3对应的数据进行融合的各个数据之间的融合数,计算的是能够与d3对应的数据进行融合的各个数据之间对应的融合结果,而计算所得乘积与键对象的平均值,是为了得到融合数据与Hd3之间的融合结果,即融合值。
所述数据融合模块中,Kd3中的第n2个元素对应的值记为并不对Hd4对应的融合数据产生影响,
数据采集模块最近一次采集的第一单位时间内的各个数据经过数据融合模块处理后,可以包含多个融合数据,
所述数据融合模块选取值对象为空集的融合数据,将该融合数据中键对象对应的数据与第二阈值区间进行比较,
当融合数据中键对象对应的数据在第二阈值区间内时,则判定该融合数据为独立融合数据,
当融合数据中键对象对应的数据不在第二阈值区间内时,则判定该融合数据中键对象对应的数据为异常数据。
本发明融合数据模块进一步对融合数据进行分析,进而对数据采集模块中的数据的异常情况进行二次判断;独立融合数据对应的融合值等于键对象对应的数据本身。
所述数据拆分处理模块包括异常位置确认模块及融合数据拆分模块,
所述异常位置确认模块获取数据采集模块最近一次采集的第一单位时间内的各个数据,判断各个数据是否为异常数据,将各个异常数据对应的编号逐个添加到一个空白集合中,得到异常数据位置集合;
所述融合数据拆分模块以第二单位时间为周期,获取异常数据位置集合中每个元素对应编号在历史数据中,前n4个周期中分别对应的n4个数据,将获取的n4个数据作为异常数据位置集合中相应元素对应编号的元素集合,按元素对应的编号从小到大的顺序将异常数据位置集合中各个元素分别对应的元素集合进行汇总,得到异常参照量集合,
所述异常参照量集合中的每个元素对应一个元素集合,
所述融合数据拆分模块获取各个融合数据中键对象对应的编号,对融合数据进行拆分,并结合异常参照量数据集合筛选拆分后的数据,并替换相应的异常数据。
本发明数据拆分处理模块中异常位置确认模块得到异常数据位置集合,一方面是为了确定融合数据拆分模块是否需要对融合数据进行拆分,另一方面是为了锁定融合数据拆分模块对融合数据进行拆分的程度(是否需要进行拆分增殖),及判断拆分数据之间的替换优先级;容忍数据拆分模块获取异常参照量集合是为了获取拆分数据之间的替换优先级;获取异常参照量集合的过程中,设置第二单位时间为周期,是为了与上述获取区间差异量C过程中的相对时间进行统一,进而能够在异常数据替换过程中,对拆分数据进行校准。
所述融合数据拆分模块对融合数据进行拆分的方法包括以下步骤:
S3.1、获取异常数据位置集合中的元素个数m2,
若m2=0,则不对融合数据进行拆分,
若m2>0,则对融合数据进行拆分;
S3.2、获取数据采集模块最近一次采集的第一单位时间内的各个数据经过数据融合模块处理后,且除独立融合数据之外的各个融合数据及相应融合数据中键对象对应的编号;
S3.3、获取S3.2中得到的键对象对应编号为j1的融合数据H1j1={Hj1:Kj1},获取该融合数据中值对象相应集合中各个元素的值;
S3.4、获取Kj1对应集合中元素的个数m,获取Kj1中m-m1个元素构成的组合情况,将每个组合情况中的包含的元素分别对应的值构成一个组合对,0≤m1<m;
S3.5、每个组合对对应一个拆分数据,所述拆分数据等于相应组合对中各个值中底数的均值与各个值中上标的均值的乘积;
S3.6、统计S3.2中得到的所有融合数据相应拆分数据的总和m3,将m3与m2进行比较,
当m3>m2时,判定融合数据拆分结束,
当m3≤m2时,则进一步对S3.2中得到的所有融合数据进行拆分增殖,将m1对应的值加1,并跳转到S3.3,将增殖的拆分数据个数记为m4,
将m3与m4的和与m2进行比较,
当m3+m4>m2时,判定融合数据拆分结束,
当m3+m4≤m2时,则进一步对S3.2中得到的所有融合数据进行拆分增殖,将m1对应的值加1,并跳转到S3.3;
所述拆分增殖过程中,若m-m1<0时,则停止对该m对应的融合数据进行拆分增殖,跳转到下一个融合数据正常执行拆分增殖。
本发明融合数据拆分模块对融合数据进行拆分的过程中,S3.1描述的是对融合数据进行拆分的条件;S3.4描述的是对融合数据进行拆分的方式;S3.5描述的是对融合数据中拆分数据的计算方式;S3.6描述的是拆分增殖的判定条件及执行方式;将m3及m3+m4与m2进行比较,是为了确保拆分数据的个数超过异常数据的个数,进而保证拆分数据的样本数足够大,进而使得替换的异常数据的拆分数据精确度更高。
所述数据融合拆分模块结合异常参照量数据集合筛选拆分后的数据的方法包括以下步骤:
S4.1、获取异常位置确认模块得到的异常数据位置集合,并选取异常数据位置集合中的第j个元素对应的编号及相应编号的数据在异常参照量集合中对应的元素集合;
S4.2、获取融合数据中各个组合对相应的拆分数据,并计算各个拆分数据相对于异常数据位置集合中的第j个元素对应数据的归一值,
若某拆分数据的值记为Hc,该拆分数据对应融合数据中键对象相应编号记为dp,则该拆分数据相对于异常数据位置集合中的第j个元素对应数据的归一值等于
其中,Wj表示异常数据位置集合中的第j个元素对应的编号的数据在异常参照量集合中对应元素集合中的元素个数,Dj表示异常数据位置集合中的第j个元素对应的编号,表示编号为Dj的数据在异常参照量集合中对应的元素集合内的第g个元素的值,R为常数,R+|dp-Dj|>0;
S4.3、比较各个拆分数据相对于异常数据位置集合中的第j个元素对应数据的归一值,并按从大到小的顺序对各个归一值进行排序,获取各个拆分数据相对于异常数据位置集合中的第j个元素对应数据的替换优先级,
所述每个拆分数据相对于异常数据位置集合中的第j个元素对应数据的替换优先级,与该拆分数据相对于异常数据位置集合中的第j个元素对应数据的归一值的排序序号相等;
S4.4、计算相对于异常数据位置集合中的第j个元素对应数据的最高替换优先级的拆分数据的值与C的和,将所得和与0进行比较,判断所得和是否异常,
若所得和大于0,则判定所得和正常,并用所得和替换采集模块最近一次采集的第一单位时间内的各个数据中,且与异常数据位置集合中的第j个元素相对应的数据,
若所得和小于等于0,则判定所得和异常,按替换优先级从高到低的顺序逐个将各拆分数据的值与C的和与0进行比较,直至得到相应的和大于0的情况,并将该相应的和替换采集模块最近一次采集的第一单位时间内的各个数据中,且与异常数据位置集合中的第j个元素相对应的数据,
如果按替换优先级从高到低的顺序逐个将各拆分数据的值与C的和与0进行比较,且得到相应的和均小于等于0时,则采集模块最近一次采集的第一单位时间内的各个数据中,且与异常数据位置集合中的第j个元素相对应的数据不变。
本发明数据融合拆分模块结合异常参照量数据集合筛选拆分后的数据的过程中,计算拆分数据相对于异常数据位置集合中的第j个元素对应数据的归一值,是为了后续获取各个拆分数据相对于异常数据位置集合中的第j个元素对应数据的替换优先级,进而实现对拆分数据的有效筛选;S4.4中描述的是对替换优先级较高的拆分数据的有效性进行确定,并对替换优先级较高且无效的拆分数据进行处理;获取拆分数据相对于异常数据位置集合中的第j个元素对应数据的归一值的过程中,计算Hc+C的和,是为了对拆分数据Hc进行校准;计算是为了对校准后的拆分数据与参照量集合中的第g个参照量之间的偏差值;计算/>是为了获取校准后的拆分数据与参照量集合中的各个参照量之间偏差值的标准差/>表示拆分数据位置相对异常数据位置集合中的第j个元素对应编号位置之间的位置偏差系数,设置位置偏差系数是为了后续求取拆分数据对应的替换优先级,在拆分数据对应的值相同的情况下,拆分数据相对异常数据的位置不同,也会使得对应的归一值不同,进而使得拆分数据对应的替换优先级不同,在归一值相同的情况下,拆分数据对应值较大的拆分数据对应的替换优先级较高;R代表的常数对位置偏差系数起到调节作用,同时还会对相应的归一值产生影响,进而影响拆分数据对应的替换优先级,
例如:β1、β2两个拆分数据,β1对应的标准差为0.6,β2对应的标准差为1,
β1对应的位置编号与异常数据α对应的编号之间差值的绝对值为1,
B2对应的位置编号与异常数据α对应的编号之间差值的绝对值为3,
当R=3时,
β1对应的位置偏差系数等于
β1相对于异常数据α的归一值等于
B2对应的位置偏差系数等于
B2相对于异常数据α的归一值等于
此时,即β2对应的替换优先级高于β1对应的替换优先级;
当R=1时,
β1对应的位置偏差系数等于
β1相对于异常数据α的归一值等于
B2对应的位置偏差系数等于
B2相对于异常数据α的归一值等于
此时,0.3>0.25,即β1对应的替换优先级高于β2对应的替换优先级。
一种基于人工智能的大数据采集存储管理方法,所述方法包括以下步骤:
S1、数据采集模块用于对数据信息进行采集;
S2、数据相似性判定模块用于判断采集数据之间的相似性;
S3、数据融合模块将相似信息进行数据融合,得到融合数据及相应的融合值;
S4、数据拆分处理模块获取数据采集模块中采集数据中的异常数据,并结合历史数据对融合数据进行拆分,得到相应的拆分数据;
S5、数据存储模块获取处理后的采集数据,并将其保存到数据库中。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于人工智能的大数据采集存储管理***,其特征在于,包括:
数据采集模块,所述数据采集模块用于对数据信息进行采集;
数据智能处理模块,所述数据智能处理模块包括数据相似性判定模块、数据融合模块及数据拆分处理模块,
所述数据相似性判定模块用于判断采集数据之间的相似性;
所述数据融合模块将相似信息进行数据融合,得到融合数据及相应的融合值;
所述数据拆分处理模块获取数据采集模块中采集数据中的异常数据,并结合历史数据对融合数据进行拆分,得到相应的拆分数据;
数据存储模块,所述数据存储模块获取处理后的采集数据,并将其保存到数据库中;
所述数据采集模块每隔第一单位时间对数据信息进行一次采集,每次采集的数据个数为2n+1个,n为正整数,将每次采集的第2n+1个数据进行标注,作为第一标注点,
将第一单位时间中第i个数据对应的值记为Ai;
获取与第一标注点时间间隔小于等于第二单位时间内的所有数据,将第二单位时间内获取的数据中第i1个数据对应的值记为Bi1,将第二单位时间内的数据个数记为n1;
计算第一单位时间内各个数据与相应平均值之间的平均差异值,记为第一差异值,所述第一差异值为其中,A1等于第一单位时间内各个数据的平均值,
计算第二单位时间内各个数据与相应平均值之间的平均差异值,记为第二差异值,所述第二差异值为其中,A2等于第二单位时间内各个数据的平均值,
所述数据采集模块根据第一差异值及第二差异值,得到区间差异数C,
所述
所述数据相似性判定模块判断采集数据之间的相似性的方法包括以下步骤:
S1.1、获取数据采集模块最近一次采集的第一单位时间内的各个数据,并按获取的先后顺序分别为获取的数据进行编号;
S1.2、将不同数据编号进行排列组合,得到不同的数据编号对,记为[d1,d2],其中,d1表示第一数据编号,d2表示第二数据编号,第一数据编号与第二数据编号不同;
S1.3、计算d1对应的数据与d2对应的数据之间的相似值Ed1d2,
所述其中,Hd1表示d1对应的数据,Hd2表示对应的数据,Hd1>0,
当Hd1≤0时,则判定d1对应的数据异常;
所述数据融合模块得到融合数据的方法包括以下步骤:
S2.1、获取数据采集模块最近一次采集的第一单位时间内的各个数据及相应的编号;
S2.2、获取编号为d3的数据,判断编号为d3的数据是否异常,
当Hd3≤0时,则判定编号为d3的数据异常,不获取其相应的融合数据,
当Hd3>0时,获取数据相似性判定模块中第一数据编号等于d3的数据编号对及相应数据编号对对应的相似值;
S2.3、按第二数据编号从小到大的顺序,逐个将第一数据编号等于d3的数据编号对对应的相似值与第一阈值进行比较,
当相似值小于第一阈值时,则判定该相似值对应数据编号对中的第一数据编号对应的数据与第二数据编号对应的数据不相似,两者无法进行融合,
当相似值大于等于第一阈值时,则判定该相似值对应的数据编号对中第一数据编号对应的数据与第二数据编号对应的数据能够进行融合;
S2.4、得到d3为不同值时,编号为d3的数据相应的融合数据H1d3,
所述H1d3={Hd3:Kd3},其中,Kd3为一个集合,Hd3与Kd3构成键值对,Hd3为键对象,Kd3为值对象,
所述Kd3中的每个元素与一个数据编号对相关联,且所述数据编号对中的第一数据编号对应的数据为Hd3,且第一数据编号对应的数据与第二数据编号对应的数据能够进行融合,
所述Kd3中的第n2个元素对应的值记为
其中,d4表示Kd3中的第n2个元素对应数据编号对中第二数据编号,
的底数Hd4表示编号为d4的数据对应的值,
的上标Ed3d4表示编号为d3的数据与编号为d4的数据之间的相似值,
每个融合数据对应一个融合值,
Kd3中各个值中底数的均值与各个值中上标的均值的乘积,所得乘积与键对象的平均值为H1d3对应的融合值;
所述数据融合模块中,Kd3中的第n2个元素对应的值记为并不对Hd4对应的融合数据产生影响,
数据采集模块最近一次采集的第一单位时间内的各个数据经过数据融合模块处理后,可以包含多个融合数据,
所述数据融合模块选取值对象为空集的融合数据,将该融合数据中键对象对应的数据与第二阈值区间进行比较,
当融合数据中键对象对应的数据在第二阈值区间内时,则判定该融合数据为独立融合数据,
当融合数据中键对象对应的数据不在第二阈值区间内时,则判定该融合数据中键对象对应的数据为异常数据;
所述数据拆分处理模块包括异常位置确认模块及融合数据拆分模块,
所述异常位置确认模块获取数据采集模块最近一次采集的第一单位时间内的各个数据,判断各个数据是否为异常数据,将各个异常数据对应的编号逐个添加到一个空白集合中,得到异常数据位置集合;
所述融合数据拆分模块以第二单位时间为周期,获取异常数据位置集合中每个元素对应编号在历史数据中,前n4个周期中分别对应的n4个数据,将获取的n4个数据作为异常数据位置集合中相应元素对应编号的元素集合,按元素对应的编号从小到大的顺序将异常数据位置集合中各个元素分别对应的元素集合进行汇总,得到异常参照量集合,
所述异常参照量集合中的每个元素对应一个元素集合,
所述融合数据拆分模块获取各个融合数据中键对象对应的编号,对融合数据进行拆分,并结合异常参照量数据集合筛选拆分后的数据,并替换相应的异常数据;
所述融合数据拆分模块对融合数据进行拆分的方法包括以下步骤:
S3.1、获取异常数据位置集合中的元素个数m2,
若m2=0,则不对融合数据进行拆分,
若m2>0,则对融合数据进行拆分;
S3.2、获取数据采集模块最近一次采集的第一单位时间内的各个数据经过数据融合模块处理后,且除独立融合数据之外的各个融合数据及相应融合数据中键对象对应的编号;
S3.3、获取S3.2中得到的键对象对应编号为j1的融合数据H1j1={Hj1:Kj1},获取该融合数据中值对象相应集合中各个元素的值;
S3.4、获取Kj1对应集合中元素的个数m,获取Kj1中m-m1个元素构成的组合情况,将每个组合情况中的包含的元素分别对应的值构成一个组合对,0≤m1<m;
S3.5、每个组合对对应一个拆分数据,所述拆分数据等于相应组合对中各个值中底数的均值与各个值中上标的均值的乘积;
S3.6、统计S3.2中得到的所有融合数据相应拆分数据的总和m3,将m3与m2进行比较,
当m3>m2时,判定融合数据拆分结束,
当m3≤m2时,则进一步对S3.2中得到的所有融合数据进行拆分增殖,将m1对应的值加1,并跳转到S3.3,将增殖的拆分数据个数记为m4,
将m3与m4的和与m2进行比较,
当m3+m4>m2时,判定融合数据拆分结束,
当m3+m4≤m2时,则进一步对S3.2中得到的所有融合数据进行拆分增殖,将m1对应的值加1,并跳转到S3.3;
所述拆分增殖过程中,若m-m1<0时,则停止对该m对应的融合数据进行拆分增殖,跳转到下一个融合数据正常执行拆分增殖。
2.根据权利要求1所述的一种基于人工智能的大数据采集存储管理***,其特征在于:所述数据融合拆分模块结合异常参照量数据集合筛选拆分后的数据的方法包括以下步骤:
S4.1、获取异常位置确认模块得到的异常数据位置集合,并选取异常数据位置集合中的第j个元素对应的编号及相应编号的数据在异常参照量集合中对应的元素集合;
S4.2、获取融合数据中各个组合对相应的拆分数据,并计算各个拆分数据相对于异常数据位置集合中的第j个元素对应数据的归一值,
若某拆分数据的值记为Hc,该拆分数据对应融合数据中键对象相应编号记为dp,
则该拆分数据相对于异常数据位置集合中的第j个元素对应数据的归一值等于
其中,Wj表示异常数据位置集合中的第j个元素对应的编号的数据在异常参照量集合中对应元素集合中的元素个数,Dj表示异常数据位置集合中的第j个元素对应的编号,表示编号为Dj的数据在异常参照量集合中对应的元素集合内的第g个元素的值,R为常数,R+|dp-Dj|>0;
S4.3、比较各个拆分数据相对于异常数据位置集合中的第j个元素对应数据的归一值,并按从大到小的顺序对各个归一值进行排序,获取各个拆分数据相对于异常数据位置集合中的第j个元素对应数据的替换优先级,
所述每个拆分数据相对于异常数据位置集合中的第j个元素对应数据的替换优先级,与该拆分数据相对于异常数据位置集合中的第j个元素对应数据的归一值的排序序号相等;
S4.4、计算相对于异常数据位置集合中的第j个元素对应数据的最高替换优先级的拆分数据的值与C的和,将所得和与0进行比较,判断所得和是否异常,
若所得和大于0,则判定所得和正常,并用所得和替换采集模块最近一次采集的第一单位时间内的各个数据中,且与异常数据位置集合中的第j个元素相对应的数据,
若所得和小于等于0,则判定所得和异常,按替换优先级从高到低的顺序逐个将各拆分数据的值与C的和与0进行比较,直至得到相应的和大于0的情况,并将该相应的和替换采集模块最近一次采集的第一单位时间内的各个数据中,且与异常数据位置集合中的第j个元素相对应的数据,
如果按替换优先级从高到低的顺序逐个将各拆分数据的值与C的和与0进行比较,且得到相应的和均小于等于0时,则采集模块最近一次采集的第一单位时间内的各个数据中,且与异常数据位置集合中的第j个元素相对应的数据不变。
3.应用权利要求1-2任意一项所述的一种基于人工智能的大数据采集存储管理***的基于人工智能的大数据采集存储管理方法,其特征在于:所述方法包括以下步骤:
S1、数据采集模块用于对数据信息进行采集;
S2、数据相似性判定模块用于判断采集数据之间的相似性;
S3、数据融合模块将相似信息进行数据融合,得到融合数据及相应的融合值;
S4、数据拆分处理模块获取数据采集模块中采集数据中的异常数据,并结合历史数据对融合数据进行拆分,得到相应的拆分数据;
S5、数据存储模块获取处理后的采集数据,并将其保存到数据库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210159146.5A CN114528276B (zh) | 2022-02-21 | 2022-02-21 | 一种基于人工智能的大数据采集存储管理***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210159146.5A CN114528276B (zh) | 2022-02-21 | 2022-02-21 | 一种基于人工智能的大数据采集存储管理***及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114528276A CN114528276A (zh) | 2022-05-24 |
CN114528276B true CN114528276B (zh) | 2024-01-19 |
Family
ID=81625362
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210159146.5A Active CN114528276B (zh) | 2022-02-21 | 2022-02-21 | 一种基于人工智能的大数据采集存储管理***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114528276B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109766958A (zh) * | 2019-04-12 | 2019-05-17 | 江苏量动信息科技有限公司 | 一种用于数据融合的数据预处理方法及装置 |
CN110515921A (zh) * | 2019-09-02 | 2019-11-29 | 江苏建筑职业技术学院 | 一种计算机人工智能信息筛选装置 |
CN112257453A (zh) * | 2020-09-23 | 2021-01-22 | 昆明理工大学 | 融合关键词和语义特征的汉越文本相似度计算方法 |
CN113178024A (zh) * | 2021-05-11 | 2021-07-27 | 南京信易达计算技术有限公司 | 基于人工智能的融合型车载智能存储***及方法 |
CN113726911A (zh) * | 2021-11-01 | 2021-11-30 | 南京绛门信息科技股份有限公司 | 一种基于物联网技术的工厂数据采集处理*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102048240B1 (ko) * | 2017-09-06 | 2019-11-25 | 주식회사 씨티아이랩 | 데이터 이미지화를 이용한 딥러닝 기반 시스템 이상행위 분석 기술 |
-
2022
- 2022-02-21 CN CN202210159146.5A patent/CN114528276B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109766958A (zh) * | 2019-04-12 | 2019-05-17 | 江苏量动信息科技有限公司 | 一种用于数据融合的数据预处理方法及装置 |
CN110515921A (zh) * | 2019-09-02 | 2019-11-29 | 江苏建筑职业技术学院 | 一种计算机人工智能信息筛选装置 |
CN112257453A (zh) * | 2020-09-23 | 2021-01-22 | 昆明理工大学 | 融合关键词和语义特征的汉越文本相似度计算方法 |
CN113178024A (zh) * | 2021-05-11 | 2021-07-27 | 南京信易达计算技术有限公司 | 基于人工智能的融合型车载智能存储***及方法 |
CN113726911A (zh) * | 2021-11-01 | 2021-11-30 | 南京绛门信息科技股份有限公司 | 一种基于物联网技术的工厂数据采集处理*** |
Non-Patent Citations (1)
Title |
---|
人工智能大数据和云计算的融合;朱彦百;《电子技术与软件工程》(第3期);第224-225页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114528276A (zh) | 2022-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111475804B (zh) | 一种告警预测方法及*** | |
CN113010506B (zh) | 一种多源异构水环境大数据管理*** | |
WO2013051101A1 (ja) | 時系列データ管理システム,および方法 | |
CN106462858A (zh) | 通过数据库所有者针对错误认定和/或未覆盖补偿印象数据的方法和装置 | |
EP2377058A1 (en) | Automated assertion reuse for improved record linkage in distributed&autonomous healthcare environments with heterogeneous trust models | |
CN111209274B (zh) | 一种数据质量检核方法、***、设备及可读存储介质 | |
CN116932523B (zh) | 一种整合和监管第三方环境检测机构的平台 | |
CN108268901A (zh) | 一种基于动态时间弯曲距离发现环境监测异常数据的算法 | |
CN117538503A (zh) | 一种实时智能的土壤污染监测***及方法 | |
CN114625901B (zh) | 一种多算法整合方法及装置 | |
CN114528276B (zh) | 一种基于人工智能的大数据采集存储管理***及方法 | |
CN111652259B (zh) | 一种清洗数据的方法及*** | |
CN116522156A (zh) | 一种基于能源管理平台的设备状态数据分析***及方法 | |
Ariannezhad et al. | Large-scale loop detector troubleshooting using clustering and association rule mining | |
WO2014157750A1 (ko) | 하수처리장 유출수질의 상태에 대한 원인인자 제공장치 및 방법 | |
CN116261779A (zh) | 数据处理方法、***和计算机可读存储介质 | |
CN114429256A (zh) | 数据监测方法、装置、电子设备及存储介质 | |
TW202004535A (zh) | 異常行車軌跡分析系統及方法 | |
CN116303402A (zh) | 一种基于数据仓库的数据清洗方法 | |
CN113535422A (zh) | 一种面向工业大数据的数据清洗和事件处理的云平台*** | |
CN110619572A (zh) | 一种监控企业公开数据高容错性增长的方法 | |
CN116068378A (zh) | 一种基于物联网的光芯片生产检测***及方法 | |
US10606823B2 (en) | Method and systems for monitoring changes for a server system | |
CN112732773B (zh) | 一种继电保护缺陷数据的唯一性校核方法及*** | |
CN106681791A (zh) | 一种基于对称邻居关系的增量式虚拟机异常检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231226 Address after: Room 2228, 22nd Floor, No. 477 Xuanwu Lake Road, Urumqi Economic and Technological Development Zone (Toutunhe District), Xinjiang Uygur Autonomous Region, 830022 Applicant after: Xinjiang Energy Soaring Nebula Technology Co.,Ltd. Address before: No. 687, Zhujiang Road, Xuanwu District, Nanjing, Jiangsu, 210000 Applicant before: Nanjing dingao Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |