CN113111116A - 海洋综合数据库的海洋水体环境数据整合方法 - Google Patents

海洋综合数据库的海洋水体环境数据整合方法 Download PDF

Info

Publication number
CN113111116A
CN113111116A CN202110516191.7A CN202110516191A CN113111116A CN 113111116 A CN113111116 A CN 113111116A CN 202110516191 A CN202110516191 A CN 202110516191A CN 113111116 A CN113111116 A CN 113111116A
Authority
CN
China
Prior art keywords
data
file
marine
integration
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110516191.7A
Other languages
English (en)
Other versions
CN113111116B (zh
Inventor
杨锦坤
宋晓
韩璐遥
刘玉龙
苗庆生
徐珊珊
董明媚
宁鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NATIONAL MARINE DATA AND INFORMATION SERVICE
Original Assignee
NATIONAL MARINE DATA AND INFORMATION SERVICE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NATIONAL MARINE DATA AND INFORMATION SERVICE filed Critical NATIONAL MARINE DATA AND INFORMATION SERVICE
Priority to CN202110516191.7A priority Critical patent/CN113111116B/zh
Publication of CN113111116A publication Critical patent/CN113111116A/zh
Application granted granted Critical
Publication of CN113111116B publication Critical patent/CN113111116B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种海洋综合数据库的海洋水体环境数据整合方法,包括如下步骤:S1,加载海洋水体环境数据文件进行排序,并对排序后的数据文件进行智能排重;S2,对排重后的数据文件进行质量范围的验证,并保存验证结果;S3,解析验证后的数据文件得到数据,存入数据库。本发明海洋水体环境数据整合方法,减少人工作业量、减少操作误差、提升了整合效率,实现海洋水体环境资源的精细化、平台化整合能力。

Description

海洋综合数据库的海洋水体环境数据整合方法
技术领域
本发明属于数据整合技术领域,尤其是涉及一种海洋综合数据库的海洋水体环境数据整合方法。
背景技术
实现高效、精准的海洋环境数据整合处理,达到海洋环境数据的高效利用,是海洋环境数据整合的重点研究方向。
目前对于各类海洋环境信息数据的汇集、处理方法普遍存在数据质量不高、维度不全面、数据量缺失、可靠性存在偏差等问题。且传统数据的整合方式,均是依据多类需整合资料的原始状态,进行整合方法与规则人工匹配,形成一对一或一对多的数据整合策略,依据ETL等数据整合处理工具进行数据整合流程规则配置,形成数据整合流程,以达到数据整合的目标。因此常常面临人员工作量较大,且面临规则设置有误,经常需要测试调优等窘迫局面。
而针对复杂多类的海洋水体环境资料的高效处理、有序整合的技术目标,本发明从现有处理方案的问题处着手,结合海洋环境的特殊应用场景进行数据整合方法的探索,从人工配置整合规则向装置化处理器方法转换整合技术思路,以减少人工作业量、减少操作误差、提升整合效率为目标,提出了一种海洋综合数据库的海洋水体环境数据整合方法,从而实现海洋水体环境资源的精细化、平台化整合能力。
发明内容
有鉴于此,本发明旨在提出一种海洋综合数据库的海洋水体环境数据整合方法,以规避了人工处理误差,提升了水体环境数据的整合效率。
为达到上述目的,本发明的技术方案是这样实现的:
海洋综合数据库的海洋水体环境数据整合方法,包括如下步骤:
S1,加载海洋水体环境数据文件进行排序,并对排序后的数据文件进行智能排重;
S2,对排重后的数据文件进行质量范围的验证,并保存验证结果;
S3,解析验证后的数据文件得到数据,存入数据库。
进一步的,步骤S1中具体包括:
S11,加载已解析的海洋水体环境数据文件,形成标准格式文件;
S12,对标准格式文件中的数据,依据不同的维度进行排序,排序结果作为智能排重依据;
S13,对排序后的数据文件,根据数据特性的不同采用不同的聚类算法对数据进行分类,对分类数据进行标记,进行智能排重。
进一步的,步骤S2中具体包括:
S21,对智能排重后的每一个数据文件,按数据特性匹配对应的检测方法进行数据的质量检测;
S22,按照质量检测结果对数据进行质量标记。
进一步的,在步骤S3中,将步骤2验证后的数据文件,根据解析配置文件进行格式转换后存入数据库。
相对于现有技术,本发明所述的方法具有以下优势:
本发明海洋水体环境数据整合方法,减少人工作业量、减少操作误差、提升了整合效率,实现海洋水体环境资源的精细化、平台化整合能力。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例所述的整合装置平台的部署示意图;
图2为本发明实施例所述的聚类计算模块的数据处理流程图;
图3为本发明实施例所述的质量计算模块具体的处理流程图;
图4为本发明实施例所述的输出至水体综合库的流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面将参考附图并结合实施例来详细说明本发明。
海洋综合数据库的海洋水体环境数据整合方法,包括如下步骤:
步骤1,加载已解析的海洋水体环境数据文件,形成标准格式文件;
步骤2,对标准格式文件中的数据,依据不同的维度进行排序;
步骤3,对排序后的数据文件,根据数据特性的不同采用不同的聚类算法对数据进行分类,对分类数据进行标记,依据标记进行数据的智能排重。
步骤4,对智能排重后的每一个数据文件,按数据特性匹配对应的检测方法进行数据的质量检测;
步骤5,按照质量检测结果对数据进行质量标记。
步骤6,将步骤5验证后的数据文件,根据解析配置文件进行格式转换后存入数据库。
与上述方法对应的虚拟的装置方案如下,本发明是一种海洋综合数据库的海洋水体环境数据整合方法,采用“整合装置平台”实现多源海洋水体环境资料自动输出成海洋水体整合库的方法。规避了人工处理误差,提升了水体环境数据的整合效率。该方法通过构建整合装置,完成数据资料到数据库的数据智能整合能力,完成复杂、多源资料数据的处理、整合并形成水体数据库。
整合装置是本发明的处理中心,是针对海洋水体环境资料实现整合处理,形成海洋水体综合数据库的智能处理部分。整合装置包含聚类计算模块、质量计算模块、输出水体综合库模块三部分内容。通过服务器硬件与软件处理模块在特定应用场景的平台化构建,形成海洋综合数据库的海洋水体环境数据整合方法。
如图1所示,整合装置平台部署于数据加载服务器,将加载的水体相关数据资源通过整合装置进行平台化整合处理,形成水体综合库,最终落地到数据库服务器。
1、聚类计算模块
聚类计算模块是整合装置平台的数据整合功能部分,通过内置排重技术对加载的各来源海洋水体环境资料,依据时间、经度、纬度、深度等多维度数据自动进行排序,并依据排序结果进行智能排重。如图2所示,为聚类计算模块的数据处理流程图。
1)自动排序是聚类计算模块内依据历史数据演练,自动形成对不同来源数据的排序方法,因此平台会通过与加载服务器的通信,形成判断依据,为聚类模型的排序与排重提供基本判断信息。
按海洋水体综合库的数据需求对水体数据按水温、盐度、水位、海流、波浪、水色、透明度、海发光、海冰九大学科进行划分。依据各学科的特性内置排序方法。
2)聚类模型对每一种类水体环境数据依据时间、经度、纬度、深度等维度进行聚类分析,对范围内判断为重复的数据进行标记,依据排序进行多余数据的标识与删除,形成标准数据集。
水体环境数据依据其数据特性不同,采用不同的聚类算法进行匹配,以寻求更加精准的排重结果,例如其中对温盐观测资料采用DBSCAN聚类方式,经过历史数据的训练,进行半径确定,对大于或等于的数据进行标记,对其他进行另行标记,作为智能排重依据。
3)智能排重是依据排序结果,以及聚类分析结果,对多来源数据进行时间、经度、纬度、深度等多维度比对,按排序标记生成nc文件。
2、质量计算模块
质量计算模块将通过海洋业务特性进行专业质量把控,依据要素数据的业务标准规范,对数据进行质量范围的验证,并将验证结果更新到数据记录的相关质量字段中,对整合的水体环境数据形成高质量输出能力。
质量计算模块对聚类整合后的每一个nc文件逐个按学科特性匹配检测方法,逐一文件、逐一剖面、逐一方法进行检测,发现坏数据将对应的质量符修改为4(bad flag),并保存到nc文件中。质量计算模块具体的处理流程图如图3所示。包括如下步骤:
步骤51,获取需要处理的基础库数据表;
步骤52,获取日志表中最后的数据抽取截止时间和当前***时间;
步骤53,从质量符配置表中获取当前数据表需要处理的要素字段名和对应质量符字段名;
步骤54,更新日志表状态:开始计算此表的质量符;
步骤55,判断是否存在需要处理的要素字段,若是,则跳转到S56,若否则跳转到步骤63;
步骤56,从要素规范表中获取需要处理的要素字段的有效值范围;
步骤57,生成判定更新质量符字段SQL语句;
步骤58,生成汇总统计临时表SQL语句:汇总所有增量数据对应的统计逻辑主键下的统计结果,并***临时表;
步骤59,生成删除质量符统计中间表SQL语句:依据统计逻辑主键删除中间表中所有在临时表中存在的逻辑主要记录;
步骤60,生成***质量符统计中间表SQL语句:依据统计逻辑主键汇总临时表中的数据,并***统计中间表;
步骤61,生成删除临时表SQL语句;
步骤62,按顺序执行生成的SQL语句;
步骤63,更新日志表状态:执行结束。
3、输出至水体综合库模块
在聚类计算与质量计算模型数据整合下,将直接将nc文件输出至水体综合库。
输出水体综合库,通过构建解析配置文件,解析加载程序根据配置文件,将生成的nc标准文件内容转换为对应JAVA对象,将解析出的内容分批写入水体综合库。
本发明通过海洋水体环境“温盐数据”的整合方法进行具体实例说明:
温盐数据主要包括时间、经度、纬度、深度、水温、盐度、密度、声速观测信息,再加上观测仪器、导航设备、专项、任务等辅助信息,构造完整且复杂的温盐数据结构。
步骤1,加载各来源的温盐数据文件
聚类计算模块对接加载已解析的各来源海洋水体温盐相关环境资料形成的标准csv、nc等文件。
步骤2,对加载的文件实现多维度的自动排序
聚合计算模块通过内置排重技术对各来源解析生成的标准温盐csv、nc等格式文件,依据时间、经度、纬度、深度等海洋水体剖面维度进行自动排序。
结合DBSCAN聚类方法,进行半径确定,对大于或等于的数据进行标记,以此作为优先级调整的标记,结合排序形成最终的排序结果,作为智能排重删除重复项的依据。
步骤3,对排序后的数据文件进行智能排重。
依据步骤2的排序结果,对同一剖面数据进行智能排重处理,本实施例采用的智能排重是聚类计算模块内置的排重功能,内置排重规则与聚类模型,依据规则自动执行排重处理。
排重规则是排重操作的主要处理依据,依据各学科要求进行精确配置。示例如下:
void on_comboBox_lat_lon_currentTextChanged(const QString&arg1);
经纬度的精度规则,比如0.01,则经纬度会精确到小数点后2位,则在比较数据时,精确到小数点后2位数据相同就算相同。
void on_comboBox_psal_currentTextChanged(const QString&arg1);
盐度数据的精度规则。
def removeDulpicate(self,df,same_dup):
对于完全一模一样的剖面,直接删除一个重复的。
步骤4,对排重后的数据文件进行检测,并进行质量符标记
质量计算模块负责对聚类整合后的每一个文件逐个按学科特性匹配检测方法,逐一文件、逐一剖面、逐一方法进行质量检测,若发现坏数据将对应的质量符修改为4(badflag),并保存到nc文件中,本实施例以nc文件为例。
(1)从nc文件读取剖面数据
self.profiles=argo.profile_from_nc(filePath,nc)
prof_count=len(self.profiles)
(2)从配置文件读取质控参数
cfg_filePath="./argo.json"
file=open(cfg_filePath,'r')
cfg=json.load(file)
(2)从配置文件读取质控参数
pqc=ProfileQC(prof,cfg=cfg,csv=greylist,metafile=metafile)
(3)采用检测方法进行质量检测
质量计算模块融合了各学科各类型数据的质量检验测试方法,例如其中利用“tukey53H_norm检测方法”对水体温盐文件进行质量检验,其方法示意如下:
tukey53H_norm检测方法利用中值的稳健性来创建一个更平滑的数据序列,然后与观察值进行比较。在去除大尺度变异性后,用观测数据序列的标准差对这种差异进行归一化处理。
对于一个单独的测量xi,其中i是观察的位置,其评估如下:
x(1)是从xi-2到xi+2的五个点的中值;
x(2)是从
Figure BDA0003062274190000091
Figure BDA0003062274190000092
三个点的中值;
x(3)是由hanning平滑滤波器定义的:
Figure BDA0003062274190000093
如果
Figure BDA0003062274190000094
则xi是峰值,其中σ是低通滤波数据的标准偏差。
(4)并按质量测试结果进行1-4的质量符标记
本***的默认行为是,如果测试生成的值大于k=1.5,则标记为4;如果该值低于k=1.5,则标记为1。
步骤6,输出温盐文件写入水体综合库
在聚类计算与质量计算模型数据整合处理后的温盐水体nc文件,通过“解析加载程序”直接输出至水体综合库。
解析加载程序根据构建的解析配置文件,将生成的nc标准文件内容转换为对应JAVA对象,将解析出的内容分批写入水体综合库。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.海洋综合数据库的海洋水体环境数据整合方法,其特征在于,包括如下步骤:
S1,加载海洋水体环境数据文件进行排序,并对排序后的数据文件进行智能排重;
S2,对排重后的数据文件进行质量范围的验证,并保存验证结果;
S3,解析验证后的数据文件得到数据,存入数据库。
2.根据权利要求1所述的方法,其特征在于:步骤S1中具体包括:
S11,加载已解析的海洋水体环境数据文件,形成标准格式文件;
S12,对标准格式文件中的数据,依据不同的维度进行排序,排序结果作为智能排重依据;
S13,对排序后的数据文件,根据数据特性的不同采用不同的聚类算法对数据进行分类,对分类数据进行标记,进行智能排重。
3.根据权利要求1所述的方法,其特征在于:步骤S2中具体包括:
S21,对智能排重后的每一个数据文件,按数据特性匹配对应的检测方法进行数据的质量检测;
S22,按照质量检测结果对数据进行质量标记。
4.根据权利要求1所述的方法,其特征在于:在步骤S3中,将步骤2验证后的数据文件,根据解析配置文件进行格式转换后存入数据库。
CN202110516191.7A 2021-05-12 2021-05-12 海洋综合数据库的海洋水体环境数据整合方法 Active CN113111116B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110516191.7A CN113111116B (zh) 2021-05-12 2021-05-12 海洋综合数据库的海洋水体环境数据整合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110516191.7A CN113111116B (zh) 2021-05-12 2021-05-12 海洋综合数据库的海洋水体环境数据整合方法

Publications (2)

Publication Number Publication Date
CN113111116A true CN113111116A (zh) 2021-07-13
CN113111116B CN113111116B (zh) 2022-10-18

Family

ID=76722395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110516191.7A Active CN113111116B (zh) 2021-05-12 2021-05-12 海洋综合数据库的海洋水体环境数据整合方法

Country Status (1)

Country Link
CN (1) CN113111116B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101197876A (zh) * 2006-12-06 2008-06-11 中兴通讯股份有限公司 一种对消息类业务数据进行多维分析的方法和***
CN103678423A (zh) * 2012-09-26 2014-03-26 深圳市世纪光速信息技术有限公司 数据文件导入***、装置及方法
CN104199907A (zh) * 2014-08-28 2014-12-10 广州华多网络科技有限公司 ***数据的方法及装置
CN110716897A (zh) * 2019-10-15 2020-01-21 北部湾大学 一种基于云计算的海洋档案数据库并行化构建方法和装置
CN110941593A (zh) * 2019-12-03 2020-03-31 浪潮卓数大数据产业发展有限公司 一种文件入库***及方法
CN110991940A (zh) * 2019-12-24 2020-04-10 国家卫星海洋应用中心 海洋观测数据产品质量在线检验方法、装置及服务器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101197876A (zh) * 2006-12-06 2008-06-11 中兴通讯股份有限公司 一种对消息类业务数据进行多维分析的方法和***
CN103678423A (zh) * 2012-09-26 2014-03-26 深圳市世纪光速信息技术有限公司 数据文件导入***、装置及方法
CN104199907A (zh) * 2014-08-28 2014-12-10 广州华多网络科技有限公司 ***数据的方法及装置
CN110716897A (zh) * 2019-10-15 2020-01-21 北部湾大学 一种基于云计算的海洋档案数据库并行化构建方法和装置
CN110941593A (zh) * 2019-12-03 2020-03-31 浪潮卓数大数据产业发展有限公司 一种文件入库***及方法
CN110991940A (zh) * 2019-12-24 2020-04-10 国家卫星海洋应用中心 海洋观测数据产品质量在线检验方法、装置及服务器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨锦坤: ""非信息化海洋环境历史资料抢救流程设计与关键技术研究"", 《海洋信息》 *
耿姗姗: ""基于数字海洋框架的海洋资料整合与共享服务管理模式浅析———以海洋公益性行业科研专项经费项目为例"", 《海洋开发与管理》 *

Also Published As

Publication number Publication date
CN113111116B (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
KR102178295B1 (ko) 결정 모델 구성 방법 및 장치, 컴퓨터 장치 및 저장 매체
US7657408B2 (en) Structural analysis apparatus, structural analysis method, and structural analysis program
CN108959395B (zh) 一种面向多源异构大数据的层次约减联合清洗方法
CN102693266A (zh) 搜索数据库的方法、生成索引结构的导航设备和方法
CN110688452B (zh) 一种文本语义相似度评估方法、***、介质和设备
CN105989001A (zh) 图像搜索方法及装置、图像搜索***
CN110991065B (zh) 一种建筑信息模型中设计变更自动识别方法
CN111709775A (zh) 一种房产价格评估方法、装置、电子设备及存储介质
CN112148819A (zh) 结合rpa和ai的地址识别方法和装置
US8301584B2 (en) System and method for adaptive pruning
CN113313344B (zh) 一种融合多模式的标签体系构建方法和***
CN111105041B (zh) 一种用于智慧数据碰撞的机器学习方法及装置
CN113111116B (zh) 海洋综合数据库的海洋水体环境数据整合方法
CN114049016A (zh) 指标相似性判断方法、***、终端设备及计算机存储介质
CN106959960B (zh) 数据获取方法及装置
CN115952150A (zh) 一种多源异构的数据融合方法及装置
CN114021716A (zh) 一种模型训练的方法、***及电子设备
JP2014206382A (ja) 目標類識別装置
CN114185785A (zh) 面向深度神经网络的自然语言处理模型测试用例约简方法
CN114218383A (zh) 重复事件的判定方法、装置及应用
US20190317733A1 (en) Method and tool for system development
CN111667552B (zh) 一种s57电子海图深度范围快速判定填充方法及设备
CN116882396A (zh) 功能点分析方法、装置、计算机设备、存储介质和产品
CN117034016A (zh) 通信辐射源数据模型的构建方法、***、电子设备及介质
CN116451882B (zh) 碳排放量的预测方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant