CN114880385B - 一种通过自动组合流程接入地质灾害数据的方法及装置 - Google Patents

一种通过自动组合流程接入地质灾害数据的方法及装置 Download PDF

Info

Publication number
CN114880385B
CN114880385B CN202110848943.XA CN202110848943A CN114880385B CN 114880385 B CN114880385 B CN 114880385B CN 202110848943 A CN202110848943 A CN 202110848943A CN 114880385 B CN114880385 B CN 114880385B
Authority
CN
China
Prior art keywords
data
sub
modules
algorithm sub
input object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110848943.XA
Other languages
English (en)
Other versions
CN114880385A (zh
Inventor
杨迎冬
黄成�
晏祥省
魏蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan Institute Of Geological Environment Monitoring Yunnan Institute Of Environmental Geology
Original Assignee
Yunnan Institute Of Geological Environment Monitoring Yunnan Institute Of Environmental Geology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan Institute Of Geological Environment Monitoring Yunnan Institute Of Environmental Geology filed Critical Yunnan Institute Of Geological Environment Monitoring Yunnan Institute Of Environmental Geology
Priority to CN202110848943.XA priority Critical patent/CN114880385B/zh
Publication of CN114880385A publication Critical patent/CN114880385A/zh
Application granted granted Critical
Publication of CN114880385B publication Critical patent/CN114880385B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及网络技术领域,提供了一种通过自动组合流程接入地质灾害数据的方法及装置,方法包括:获取原始数据和最终数据,作为输入对象和理论输出对象,导入到自动组合流程***中;自动组合流程***分析所述输入对象和所述理论输出对象,确定所述输入对象和所述理论输出对象之间的逻辑关系;根据所述逻辑关系筛选出相应的算法子模块,对相应的算法子模块进行排列组合后作为待确认ETL流程反馈给操作终端;本发明提出了一种通过自动组合流程接入地质灾害数据的方法,在传统的ETL工具手动搭建数据接入流程的方式上进行改进,通过分析输入对象和理论输出对象之间的逻辑关系,自动进行相应算法子模块的筛选,节省了大多数复杂逻辑流程的搭配方式。

Description

一种通过自动组合流程接入地质灾害数据的方法及装置
技术领域
本发明涉及网络技术领域,尤其涉及一种通过自动组合流程接入地质灾害数据的方法及装置。
背景技术
数据仓库技术(Extract-Transform-Load,简称ETL),用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程;ETL可以用于对地质灾害数据抽取、清洗转换之后加载到数据仓库,目的是将地质灾害数据中的分散、零乱、标准不统一的数据整合到一起,为灾害预警提供分析依据。
目前市场上提供的各种ETL工具大都是一种具备数据抽取(Extract)、清洗转换(Transform)和装载(Load)功能的通用的数据处理平台,有的还集成了数据同步、数据交换、数据整合功能,能够为基于数据集成的应用和日常的数据清洗转换工作提供了完整的支持。内建对各种数据库、消息服务器、文本文件、XML、Excel文件、WebService、LDAP等各种常见数据源的支持,并提供可视化的支持拖拽的流程设计器,可以大幅度提高工作效率,但是往往在设计复杂流程用于接入地质灾害数据的过程中也需要消耗过多的精力以及时间。
鉴于此,克服该现有技术所存在的缺陷是本技术领域亟待解决的问题。
发明内容
本发明要解决的技术问题是:现有的接入地质灾害数据的方法往往流程过于复杂,需要搭建设计流程的操作步骤过多,需要消耗过多的精力和时间,降低了工作效率。
为实现上述目的,本发明采用如下技术方案:
第一方面,本发明提供了一种通过自动组合流程接入地质灾害数据的方法,包括:
获取操作终端发送的用户所期望的目标ETL流程所要实现导入的原始数据和ETL流程处理之后的最终数据,分别将所述原始数据和最终数据作为输入对象和理论输出对象,导入到自动组合流程***中;
自动组合流程***分析所述输入对象和所述理论输出对象,确定所述输入对象和所述理论输出对象之间的逻辑关系;
其中,所述逻辑关系包括:拆分所述理论输出对象得到的组成要素在所述输入对象中的关联位置的关系、相应的组成要素在输入对象中隐含有的归属于同种类型属性的关联数据的关系或相应的组成要素在输入对象中未能直接找到关联位置的关系中的一种或者多种;
根据所述逻辑关系筛选出相应的算法子模块,对相应的算法子模块进行排列组合后作为待确认ETL流程反馈给操作终端。
优选的,在排列组合的过程中,对于所述待确认ETL流程的每一个环节,若存在两个或者至少两个可供选择的算法子模块,则将相应的可供选择的算法子模块以选择切换的方式或者以列表清单的方式呈现,具体包括:
以选择切换方式呈现时,在选择切换到其中一个算法子模块时,呈现相应算法子模块工作时的性能属性;
以列表清单方式呈现时,在列表清单中完整呈现可供选择的所有算法子模块以及各个算法子模块工作时的性能属性;
所述性能属性包括相应的算法子模块所需的计算资源和计算单位数据量所需的时间的对应关系。
优选的,所述计算资源包括:物理服务器的数量、虚拟机的数量、物理服务器所要求的配置参数和虚拟机所拥有的配置参数中的一项或多项。
优选的,生成所述待确认ETL流程的过程包括:
拆分所述理论输出对象得到组成要素,将在输入对象中未能找到关联位置的第一部分组成要素抽离出来,根据在输入对象中能够找到关联位置的第二部分组成要素和所述输入对象的逻辑关系筛选出相应的算法子模块,按照所述第二部分组成要素在理论输出对象中的位置关系,对相应的算法子模块进行排列组合得到初始排列组合;
将所述第一部分组成要素和所述原始数据反馈给操作终端,触发用户补充所述第一部分组成要素和原始数据之间的进阶逻辑关系;所述自动组合流程***根据所述进阶逻辑关系进一步筛选出相应的算法子模块,按照所述第一组成要素在理论输出对象中的位置关系,将筛选出的算法子模块安插到所述初始排列组合中,生成所述待确认ETL流程。
优选的,所述进阶逻辑关系包括:
原始数据中指定位置的对象之间通过指定加密算法运算得到所述第一部分组成要素的关系,和/或,原始数据中指定位置的对象之间通过指定运算规则计算得到所述第一部分组成要素的关系。
优选的,所述拆分所述理论输出对象得到组成要素,具体包括:
对所述理论输出对象进行语义分析和/或带有数据库特性的key-value拆分得到组成要素,将所述组成要素在所述输入对象中进行匹配;
若匹配成功,则将相应的组成要素归入第二部分组成要素;
若匹配失败,则将相应的组成要素进一步拆分得到最小构成要素,若拆分为单字节的最小构成要素仍匹配失败,则将相应的最小构成要素归入第一部分组成要素;其中,经过一次或者至少两次进一步拆分得到的最小构成要素若匹配成功,则将相应的最小构成要素归入第二部分组成要素。
优选的,所述将在输入对象中未能找到关联位置的第一部分组成要素抽离出来,具体包括:
将分析得到的相应的组成要素在输入对象中隐含有的归属于同种类型属性的关联数据补充到输入对象中,将在补充后的输入对象中未能找到关联位置的第一部分组成要素抽离出来。
优选的,筛选过程包括:
将指定的组成要素和相匹配的输入对象中关联上下文内容分别作为理论输出子对象和输入子对象,输入子对象经各种算法子模块处理后得到相应边的各种实际输出子对象,若其中一种算法子模块运行出的实际输出子对象与理论输出子对象一致,则相应的算法子模块被选中;否则,相应算法子模块被筛除。
优选的,若所述自动组合流程***中已存储有ETL流程案例,则将所述原始数据导入所述自动组合流程***,遍历已存储的ETL流程案例,得到对应各个案例的案例输出;将所述最终数据与各个案例输出逐一进行匹配;
若匹配度高于预设比例值,则最终数据中匹配成功的组成要素沿用相应的流程案例中的匹配成功的算法子模块,移除相应的流程案例中的未匹配上的算法子模块;将最终数据中未匹配上的组成要素作为理论输出对象进一步拆分后,进行相应的算法子模块的筛选,将筛选得到的相应的算法子模块添加到相应的流程案例中的适配位置,得到调整后的待确认ETL流程;
其中,所述适配位置根据所述未匹配上的组成要素在所述最终数据中所处的上下游位置进行确定。
第二方面,本发明提供了一种通过自动组合流程接入地质灾害数据的装置,用于实现第一方面所述的通过自动组合流程接入地质灾害数据的方法,通过自动组合流程接入地质灾害数据的装置包括:
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述处理器执行,用于执行第一方面所述的通过自动组合流程接入地质灾害数据的方法。
与现有技术相比,本发明的有益效果是:
为了充分简化地质灾害数据接入的功能,本发明提出了一种通过自动组合流程接入地质灾害数据的方法,在传统的ETL工具手动搭建地质灾害数据接入流程的方式上进行改进,通过分析输入对象和理论输出对象之间的逻辑关系,自动进行相应算法子模块的筛选,节省了大多数复杂逻辑流程的搭配方式。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种通过自动组合流程接入地质灾害数据的方法的流程示意图;
图2是本发明实施例提供的一种通过自动组合流程接入地质灾害数据的方法的以选择切换方式呈现的示意图;
图3是本发明实施例提供的一种通过自动组合流程接入地质灾害数据的方法的以列表清单方式呈现的示意图;
图4是本发明实施例提供的一种通过自动组合流程接入地质灾害数据的方法的生成待确认ETL流程的示意图;
图5是本发明实施例提供的一种通过自动组合流程接入地质灾害数据的装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明的描述中,术语“内”、“外”、“纵向”、“横向”、“上”、“下”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明而不是要求本发明必须以特定的方位构造和操作,因此不应当理解为对本发明的限制。
此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
实施例1:
本发明实施例提供了一种通过自动组合流程接入地质灾害数据的方法,如图1所示,包括:
在步骤201中,获取操作终端发送的用户所期望的目标ETL流程所要实现导入的原始数据和ETL流程处理之后的最终数据,分别将所述原始数据和最终数据作为输入对象和理论输出对象,导入到自动组合流程***中。
其中,将所述原始数据和所述最终数据作为输入对象和理论输出对象导入到自动组合流程***中,是为了获取相应的ETL流程,即所述原始数据经相应的ETL流程处理后得到所述最终数据;所述ETL流程为一个算法子模块或多个算法子模块的组合。
在步骤202中,自动组合流程***分析所述输入对象和所述理论输出对象,确定所述输入对象和所述理论输出对象之间的逻辑关系。
其中,所述逻辑关系包括:拆分所述理论输出对象得到的组成要素在所述输入对象中的关联位置的关系、相应的组成要素在输入对象中隐含有的归属于同种类型属性的关联数据的关系或相应的组成要素在输入对象中未能直接找到关联位置的关系中的一种或者多种。
其中,所述归属于同种类型属性的关联数据可以进行如下理解:假设所述输入对象为地质灾害数据表格,同种类型属性为不同的监测设备的编号,则总的监测设备数即为归属于同种类型属性的关联数据,这个关联数据不会直接体现在输入对象中,但可以通过分析得到。
所述相应的组成要素在输入对象中未能直接找到关联位置的关系是在对相应的组成要素与所述关联数据进行分析后在输入对象中仍未能找到关联位置后才确定的;对于这种不明确的逻辑关系,需要用户通过操作终端补充相应的组成要素和输入对象之间的中间关系,所述中间关系为引入加密算法或指定运算规则后得到的逻辑关系。
在步骤203中,根据所述逻辑关系筛选出相应的算法子模块,对相应的算法子模块进行排列组合后作为待确认ETL流程反馈给操作终端,具体包括:找到与指定组成要素相匹配的所述输入对象中关联上下文内容,将与指定组成要素相匹配的所述输入对象中关联上下文内容作为输入子对象,经不同的算法子模块处理后,得到相应的实际输出子对象,找到与指定组成要素完全匹配的实际输出子对象,对应于与指定组成要素完全匹配的实际输出子对象的算法子模块即为筛选得到的对应于指定组成要素的算法子模块;继续筛选对应于其他组成要素的算法子模块,将筛选得到的各个算法子模块按照相应的组成要素在最终数据中的位置进行排列组合后得到待确认ETL流程反馈给操作终端。
在本发明实施例中,在排列组合的过程中,对于所述待确认ETL流程的每一个环节,若存在两个或者至少两个可供选择的算法子模块,则将相应的可供选择的算法子模块以选择切换的方式或者以列表清单的方式呈现,具体包括:
如图2所示,以选择切换方式呈现时,在选择切换到其中一个算法子模块时,呈现相应算法子模块工作时的性能属性。
如图3所示,以列表清单方式呈现时,在列表清单中完整呈现可供选择的所有算法子模块以及各个算法子模块工作时的性能属性。
所述性能属性包括相应的算法子模块所需的计算资源和计算单位数据量所需的时间的对应关系。
其中,相应的可供选择的算法子模块以选择切换的方式或者以列表清单的方式呈现均为半自动呈现,所述半自动呈现表现为所述自动组合流程***将可供选择的所有算法子模块以及相应的性能属性全部呈现给用户,由用户根据现有的计算资源、待处理的数据总量和期望计算时间在所述自动组合流程***所呈现的ETL流程的各个环节中选择合适的算法子模块,得到最终的ETL流程。
所述环节与所述算法子模块的对应关系可以是一个算法子模块覆盖多个环节,即一个算法子模块完成所有过程,例如,ETL至少有三个环节,一个算法可以覆盖三个环节;也可以是一个环节对应有多个算法子模块可供选择,例如,ETL中的E环节可能对应有四个可供选择的算法子模块,T环节对应有两个可供选择的算法子模块,T环节对应有三个可供选择的算法子模块。
为了进一步简化操作,可由半自动化呈现升级为全自动呈现,具体包括:用户输入相关参数,由所述自动组合流程***根据识别到的信息和/或用户输入的参数自动完成ETL流程的选择;所述相关参数包括:期望计算时间、对自身设备的评估和待处理的数据总量中的一项或多项。
在本发明实施例中,所述计算资源包括:物理服务器的数量、虚拟机的数量、物理服务器所要求的配置参数和虚拟机所拥有的配置参数中的一项或多项;其中,所述配置参数包括CPU和/或内存。
在本发明实施例中,如图4所示,生成所述待确认ETL流程的过程包括:
在步骤301中,拆分所述理论输出对象得到组成要素,所述组成要素包括第一部分组成要素和第二部分组成要素;所述第一部分组成要素在输入对象中未能找到关联位置,所述第二部分组成要素在输入对象中能够直接或者间接的找到关联位置;其中,能够直接找到关联位置是指所述理论输出对象第一次拆分后得到的组成要素能够在所述输入对象中找到关联位置;能够间接找到关联位置是指所述理论输出对象至少两次拆分后得到的组成要素能够在所述输入对象中找到关联位置。
在步骤302中,将在输入对象中未能找到关联位置的第一部分组成要素抽离出来。
在步骤303中,根据在输入对象中能够找到关联位置的第二部分组成要素和所述输入对象的逻辑关系筛选出相应的算法子模块,按照所述第二部分组成要素在理论输出对象中的位置关系,对相应的算法子模块进行排列组合得到初始排列组合。
在步骤304中,将所述第一部分组成要素和所述原始数据反馈给操作终端,触发用户补充所述第一部分组成要素和原始数据之间的进阶逻辑关系。
在步骤305中,所述自动组合流程***根据所述进阶逻辑关系进一步筛选出相应的算法子模块,按照所述第一组成要素在理论输出对象中的位置关系,将筛选出的算法子模块安插到所述初始排列组合中,生成所述待确认ETL流程。
在本发明实施例中,所述进阶逻辑关系包括:
原始数据中指定位置的对象之间通过指定加密算法运算得到所述第一部分组成要素的关系,和/或,原始数据中指定位置的对象之间通过指定运算规则计算得到所述第一部分组成要素的关系。
其中,所述进阶逻辑关系为用户对所述第一部分组成要素的引入途径进行认定时给出的,如果所述第一部分组成要素通过加密算法引入,则通过脚本语言的填充,衔接起不同的算法子模块;如果所述第一部分组成要素通过指定运算规则引入,则通过逻辑式和/或函数建立所述第一部分组成要素和所述原始数据之间的进阶逻辑关系。
在本发明实施例中,所述拆分所述理论输出对象得到组成要素,具体包括:
对所述理论输出对象进行语义分析和/或带有数据库特性的key-value拆分得到组成要素,将所述组成要素在所述输入对象中进行匹配。
所述对所述理论输出对象进行语义分析和/或带有数据库特性的key-value拆分,下面用一个例子进行说明,例如,假设理论输出对象是“地震”,先用“地震”在输入对象中进行匹配,若未能匹配上,则将“地震”拆分成“地”、“震”,此处的“地”和“震”均为理论输出对象“地震”的组成要素,用“地xxx震”(并配合在原始数据中做模糊匹配)、“地or震”或“地and震”在输入对象中进行匹配。
若匹配成功,则将相应的组成要素归入第二部分组成要素。
若匹配失败,则将相应的组成要素进一步拆分得到最小构成要素,若拆分为单字节的最小构成要素仍匹配失败,则将相应的最小构成要素归入第一部分组成要素;其中,经过一次或者至少两次进一步拆分得到的最小构成要素若匹配成功,则将相应的最小构成要素归入第二部分组成要素。
其中,所述最小构成要素可以结合以下例子进行说明,例如,假设理论输出对象是“水位要上升”,拆分出的组成要素就是“水位”、“要”和“上升”,其中,由“水位”拆分出的最小构成要素是“水”和“位”,由“上升”拆分出的最小构成要素是“上”和“升”,而“要”已经是单字节了,无法再进一步拆分。
在本发明实施例中,所述将在输入对象中未能找到关联位置的第一部分组成要素抽离出来,具体包括:
将分析得到的相应的组成要素在输入对象中隐含有的归属于同种类型属性的关联数据补充到输入对象中,将在补充后的输入对象中未能找到关联位置的第一部分组成要素抽离出来。
其中,所述归属于同种类型属性的关联数据可以进行如下理解:假设所述输入对象为表格,同种类型属性为班级号,则总班级数即为归属于同种类型属性的关联数据,这个关联数据不会直接体现在输入对象中,但可以通过分析得到。
在本发明实施例中,筛选过程包括:
将指定的组成要素和相匹配的输入对象中关联上下文内容分别作为理论输出子对象和输入子对象,输入子对象经各种算法子模块处理后得到相应的各种实际输出子对象,若其中一种算法子模块运行出的实际输出子对象与理论输出子对象一致,则相应的算法子模块被选中;否则,相应算法子模块被筛除。
在本发明实施例中,若所述自动组合流程***中已存储有ETL流程案例,则将所述原始数据导入所述自动组合流程***,遍历已存储的ETL流程案例,得到对应各个案例的案例输出;将所述最终数据与各个案例输出逐一进行匹配。
若匹配度高于预设比例值,则最终数据中匹配成功的组成要素沿用相应的流程案例中的匹配成功的算法子模块,移除相应的流程案例中的未匹配上的算法子模块;将最终数据中未匹配上的组成要素作为理论输出对象进一步拆分后,进行相应的算法子模块的筛选,将筛选得到的相应的算法子模块添加到相应的流程案例中的适配位置,得到调整后的待确认ETL流程。
其中,所述适配位置根据所述未匹配上的组成要素在所述最终数据中所处的上下游位置进行确定。
若匹配度低于或等于预设比例值,则将所述最终数据作为理论输出对象,确定所述原始数据和所述理论输出对象之间的逻辑关系,根据所述逻辑关系筛选出相应的算法子模块,对相应的算法子模块进行排列组合后作为待确认ETL流程反馈给操作终端。
所述ETL流程案例为所述自动组合流程***历史上根据输入对象和理论输出对象的逻辑关系筛选出来的ETL流程,所述自动组合流程***中存储的每一个ETL流程为一个ETL流程案例,即所述ETL流程案例为一个算法子模块或或多个算法子模块的组合。
实施例2:
本发明实施例提供了一种通过自动组合流程接入地质灾害数据的装置,如图5所示,包括一个或多个处理器21以及存储器22。其中,图5中以一个处理器21为例。
处理器21和存储器22可以通过总线或者其他方式连接,图5中以通过总线连接为例。
存储器22作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序和非易失性计算机可执行程序,如实施例1中的通过自动组合流程接入地质灾害数据的方法的实现方法。处理器21通过运行存储在存储器22中的非易失性软件程序和指令,从而执行通过自动组合流程接入地质灾害数据的方法。
存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器22可选包括相对于处理器21远程设置的存储器,这些远程存储器可以通过网络连接至处理器21。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述程序指令/模块存储在所述存储器22中,当被所述一个或者多个处理器21执行时,执行上述实施例1中的通过自动组合流程接入地质灾害数据的方法,例如,执行以上描述的图1和图4所示的各个步骤。
值得说明的是,上述装置和***内的模块、单元之间的信息交互、执行过程等内容,由于与本发明的处理方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁盘或光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种通过自动组合流程接入地质灾害数据的方法,其特征在于,包括:
获取操作终端发送的用户所期望的目标ETL流程所要实现导入的原始数据和ETL流程处理之后的最终数据,分别将所述原始数据和最终数据作为输入对象和理论输出对象,导入到自动组合流程***中;
自动组合流程***分析所述输入对象和所述理论输出对象,确定所述输入对象和所述理论输出对象之间的逻辑关系;
其中,所述逻辑关系包括:拆分所述理论输出对象得到的组成要素在所述输入对象中的关联位置的关系、相应的组成要素在输入对象中隐含有的归属于同种类型属性的关联数据的关系或相应的组成要素在输入对象中未能直接找到关联位置的关系中的一种或者多种;
根据所述逻辑关系筛选出相应的算法子模块,对相应的算法子模块进行排列组合后作为待确认ETL流程反馈给操作终端;
其中,筛选过程包括:
将指定的组成要素和相匹配的输入对象中关联上下文内容分别作为理论输出子对象和输入子对象,输入子对象经各种算法子模块处理后得到相应的各种实际输出子对象,若其中一种算法子模块运行出的实际输出子对象与理论输出子对象一致,则相应的算法子模块被选中;否则,相应算法子模块被筛除。
2.根据权利要求1所述的通过自动组合流程接入地质灾害数据的方法,其特征在于,在排列组合的过程中,对于所述待确认ETL流程的每一个环节,若存在两个或者至少两个可供选择的算法子模块,则将相应的可供选择的算法子模块以选择切换的方式或者以列表清单的方式呈现,具体包括:
以选择切换方式呈现时,在选择切换到其中一个算法子模块时,呈现相应算法子模块工作时的性能属性;
以列表清单方式呈现时,在列表清单中完整呈现可供选择的所有算法子模块以及各个算法子模块工作时的性能属性;
所述性能属性包括相应的算法子模块所需的计算资源和计算单位数据量所需的时间的对应关系。
3.根据权利要求2所述的通过自动组合流程接入地质灾害数据的方法,其特征在于,所述计算资源包括:物理服务器的数量、虚拟机的数量、物理服务器所要求的配置参数和虚拟机所拥有的配置参数中的一项或多项。
4.根据权利要求1所述的通过自动组合流程接入地质灾害数据的方法,其特征在于,生成所述待确认ETL流程的过程包括:
拆分所述理论输出对象得到组成要素,将在输入对象中未能找到关联位置的第一部分组成要素抽离出来,根据在输入对象中能够找到关联位置的第二部分组成要素和所述输入对象的逻辑关系筛选出相应的算法子模块,按照所述第二部分组成要素在理论输出对象中的位置关系,对相应的算法子模块进行排列组合得到初始排列组合;
将所述第一部分组成要素和所述原始数据反馈给操作终端,触发用户补充所述第一部分组成要素和原始数据之间的进阶逻辑关系;所述自动组合流程***根据所述进阶逻辑关系进一步筛选出相应的算法子模块,按照所述第一部分组成要素在理论输出对象中的位置关系,将筛选出的算法子模块安插到所述初始排列组合中,生成所述待确认ETL流程。
5.根据权利要求4所述的通过自动组合流程接入地质灾害数据的方法,其特征在于,所述进阶逻辑关系包括:
原始数据中指定位置的对象之间通过指定加密算法运算得到所述第一部分组成要素的关系,和/或,原始数据中指定位置的对象之间通过指定运算规则计算得到所述第一部分组成要素的关系。
6.根据权利要求4所述的通过自动组合流程接入地质灾害数据的方法,其特征在于,所述拆分所述理论输出对象得到组成要素,具体包括:
对所述理论输出对象进行语义分析和/或带有数据库特性的key-value拆分得到组成要素,将所述组成要素在所述输入对象中进行匹配;
若匹配成功,则将相应的组成要素归入第二部分组成要素;
若匹配失败,则将相应的组成要素进一步拆分得到最小构成要素,若拆分为单字节的最小构成要素仍匹配失败,则将相应的最小构成要素归入第一部分组成要素;其中,经过一次或者至少两次进一步拆分得到的最小构成要素若匹配成功,则将相应的最小构成要素归入第二部分组成要素。
7.根据权利要求4所述的通过自动组合流程接入地质灾害数据的方法,其特征在于,所述将在输入对象中未能找到关联位置的第一部分组成要素抽离出来,具体包括:
将分析得到的相应的组成要素在输入对象中隐含有的归属于同种类型属性的关联数据补充到输入对象中,将在补充后的输入对象中未能找到关联位置的第一部分组成要素抽离出来。
8.根据权利要求1所述的通过自动组合流程接入地质灾害数据的方法,其特征在于,若所述自动组合流程***中已存储有ETL流程案例,则将所述原始数据导入所述自动组合流程***,遍历已存储的ETL流程案例,得到对应各个案例的案例输出;将所述最终数据与各个案例输出逐一进行匹配;
若匹配度高于预设比例值,则最终数据中匹配成功的组成要素沿用相应的流程案例中的匹配成功的算法子模块,移除相应的流程案例中的未匹配上的算法子模块;将最终数据中未匹配上的组成要素作为理论输出对象进一步拆分后,进行相应的算法子模块的筛选,将筛选得到的相应的算法子模块添加到相应的流程案例中的适配位置,得到调整后的待确认ETL流程;
其中,所述适配位置根据所述未匹配上的组成要素在所述最终数据中所处的上下游位置进行确定。
9.一种通过自动组合流程接入地质灾害数据的装置,其特征在于,包括:
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述处理器执行,用于执行权利要求1-8任一所述的通过自动组合流程接入地质灾害数据的方法。
CN202110848943.XA 2021-07-27 2021-07-27 一种通过自动组合流程接入地质灾害数据的方法及装置 Active CN114880385B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110848943.XA CN114880385B (zh) 2021-07-27 2021-07-27 一种通过自动组合流程接入地质灾害数据的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110848943.XA CN114880385B (zh) 2021-07-27 2021-07-27 一种通过自动组合流程接入地质灾害数据的方法及装置

Publications (2)

Publication Number Publication Date
CN114880385A CN114880385A (zh) 2022-08-09
CN114880385B true CN114880385B (zh) 2022-11-22

Family

ID=82667331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110848943.XA Active CN114880385B (zh) 2021-07-27 2021-07-27 一种通过自动组合流程接入地质灾害数据的方法及装置

Country Status (1)

Country Link
CN (1) CN114880385B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115936633B (zh) * 2023-01-09 2023-11-03 广东远景信息科技有限公司 应急流程衔接方法、电子设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388844A (zh) * 2008-11-07 2009-03-18 东软集团股份有限公司 一种数据流程的处理方法和***
CN102033748A (zh) * 2010-12-03 2011-04-27 中国科学院软件研究所 一种数据处理流程代码的生成方法
CN103309904A (zh) * 2012-03-16 2013-09-18 阿里巴巴集团控股有限公司 一种生成数据仓库etl 代码的方法及装置
CN104778236A (zh) * 2015-04-02 2015-07-15 上海烟草集团有限责任公司 一种基于元数据的etl实现方法及***
CN106874016A (zh) * 2017-03-07 2017-06-20 长江大学 一种新型可定制的大数据平台架构方法
CN109492059A (zh) * 2019-01-03 2019-03-19 北京理工大学 一种多源异构数据融合与模型修正过程管控方法
CN110765196A (zh) * 2019-10-25 2020-02-07 四川东方网力科技有限公司 生成并执行etl任务的方法及设备
CN111324647A (zh) * 2020-01-21 2020-06-23 北京东方金信科技有限公司 一种生成etl代码的方法及装置
CN111930357A (zh) * 2020-09-17 2020-11-13 国网浙江省电力有限公司营销服务中心 一种可视化建模作业流调度引擎的构建方法
CN112115192A (zh) * 2020-10-09 2020-12-22 北京东方通软件有限公司 一种etl***的高效流程编排方法和***
CN113111106A (zh) * 2021-04-06 2021-07-13 创意信息技术股份有限公司 一种基于Web的ETL设计数据接入方法及数据接入模块
CN113111107A (zh) * 2021-04-06 2021-07-13 创意信息技术股份有限公司 一种数据综合接入***及方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120296862A1 (en) * 2011-05-19 2012-11-22 Compact Solutions, Llc Method and apparatus for analyzing and migrating data integration applications
US10042903B2 (en) * 2015-09-02 2018-08-07 International Business Machines Corporation Automating extract, transform, and load job testing
CN109947746B (zh) * 2017-10-26 2023-12-26 亿阳信通股份有限公司 一种基于etl流程的数据质量管控方法和***

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388844A (zh) * 2008-11-07 2009-03-18 东软集团股份有限公司 一种数据流程的处理方法和***
CN102033748A (zh) * 2010-12-03 2011-04-27 中国科学院软件研究所 一种数据处理流程代码的生成方法
CN103309904A (zh) * 2012-03-16 2013-09-18 阿里巴巴集团控股有限公司 一种生成数据仓库etl 代码的方法及装置
CN104778236A (zh) * 2015-04-02 2015-07-15 上海烟草集团有限责任公司 一种基于元数据的etl实现方法及***
CN106874016A (zh) * 2017-03-07 2017-06-20 长江大学 一种新型可定制的大数据平台架构方法
CN109492059A (zh) * 2019-01-03 2019-03-19 北京理工大学 一种多源异构数据融合与模型修正过程管控方法
CN110765196A (zh) * 2019-10-25 2020-02-07 四川东方网力科技有限公司 生成并执行etl任务的方法及设备
CN111324647A (zh) * 2020-01-21 2020-06-23 北京东方金信科技有限公司 一种生成etl代码的方法及装置
CN111930357A (zh) * 2020-09-17 2020-11-13 国网浙江省电力有限公司营销服务中心 一种可视化建模作业流调度引擎的构建方法
CN112115192A (zh) * 2020-10-09 2020-12-22 北京东方通软件有限公司 一种etl***的高效流程编排方法和***
CN113111106A (zh) * 2021-04-06 2021-07-13 创意信息技术股份有限公司 一种基于Web的ETL设计数据接入方法及数据接入模块
CN113111107A (zh) * 2021-04-06 2021-07-13 创意信息技术股份有限公司 一种数据综合接入***及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
The Research and Application of an ETL Model Based on Task;Xiaoliang Li 等;《2009 First International Conference on Information Science and Engineering》;20100426;1006-1009 *
基于商务智能的景区决策支持***研究;楚静;《中国优秀硕士学位论文全文数据库信息科技辑》;20131215(第S1期);I138-501 *

Also Published As

Publication number Publication date
CN114880385A (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
US11068439B2 (en) Unsupervised method for enriching RDF data sources from denormalized data
CN106897322B (zh) 一种数据库和文件***的访问方法和装置
US10102039B2 (en) Converting a hybrid flow
EP3274875B1 (en) System and method for querying data sources
CN105786808B (zh) 一种用于分布式执行关系型计算指令的方法与设备
CN106570022B (zh) 一种跨数据源查询方法、装置及***
CN104933095A (zh) 异构信息通用性关联分析***及其分析方法
US10360002B2 (en) Method, apparatus, and computer-readable medium for generating an alternative implementation of a program on one or more engines
US11461333B2 (en) Vertical union of feature-based datasets
CN109977175B (zh) 数据配置查询方法和装置
CN108108466A (zh) 一种分布式***日志查询分析方法及装置
Bala et al. P-ETL: Parallel-ETL based on the MapReduce paradigm
EP3384385A1 (en) Methods and systems for mapping object oriented/functional languages to database languages
CN114880385B (zh) 一种通过自动组合流程接入地质灾害数据的方法及装置
CN111125199B (zh) 一种数据库访问方法、装置及电子设备
CN111723087A (zh) 数据血缘关系的挖掘方法、装置、存储介质和电子设备
CN109117426B (zh) 分布式数据库查询方法、装置、设备及存储介质
CN111475511A (zh) 基于树状结构的数据存储方法、访问方法、装置及设备
CN106776644B (zh) 一种报表***配置方法和装置
CN111221888A (zh) 大数据分析***及方法
CN108089871A (zh) 软件自动更新方法、装置、设备及存储介质
CN103324640B (zh) 一种确定搜索结果文档的方法、装置和设备
CN111159213A (zh) 一种数据查询方法、装置、***和存储介质
CN114254005A (zh) 分区表的分组聚集查询方法、装置、计算机设备和介质
CN104778253B (zh) 一种提供数据的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant