CN112527880B - 大数据集群元数据信息的采集方法、装置、设备及介质 - Google Patents

大数据集群元数据信息的采集方法、装置、设备及介质 Download PDF

Info

Publication number
CN112527880B
CN112527880B CN202011483745.XA CN202011483745A CN112527880B CN 112527880 B CN112527880 B CN 112527880B CN 202011483745 A CN202011483745 A CN 202011483745A CN 112527880 B CN112527880 B CN 112527880B
Authority
CN
China
Prior art keywords
execution plan
metadata information
big data
data cluster
execution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011483745.XA
Other languages
English (en)
Other versions
CN112527880A (zh
Inventor
陆魏
胡凭智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An E Wallet Electronic Commerce Co Ltd
Original Assignee
Ping An E Wallet Electronic Commerce Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An E Wallet Electronic Commerce Co Ltd filed Critical Ping An E Wallet Electronic Commerce Co Ltd
Priority to CN202011483745.XA priority Critical patent/CN112527880B/zh
Publication of CN112527880A publication Critical patent/CN112527880A/zh
Application granted granted Critical
Publication of CN112527880B publication Critical patent/CN112527880B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及数据采集技术领域,揭露一种大数据集群元数据信息的采集方法、装置、设备及介质,其中方法包括:接收用户向大数据集群提交的任务,并解析任务,得到任务对应的执行计划;通过执行计划,对大数据集群的节点进行计算操作,当监听到计算操作执行完成时,接收大数据集群对应接口返回的执行计划;对执行计划进行解析,获取执行计划对应的元数据信息,并将元数据信息存储于关系型数据库中;按照Sqoop数据导入的方式,将存储于关系型数据库中的元数据信息导入到大数据仓库中。本申请还涉及区块链技术,元数据信息存储于区块链中。本申请通过对执行计划进行解析,实现了对元数据信息的完整收集,提高了对元数据信息收集的效率。

Description

大数据集群元数据信息的采集方法、装置、设备及介质
技术领域
本申请涉及数据采集技术领域,尤其涉及一种大数据集群元数据信息的采集方法、装置、设备及介质。
背景技术
元数据信息是大数据领域的一项重要概念,它反应了当前大数据集群存储的真实数据信息,例如元数据信息A,一般会包含对应的真实数据存放位置,数据大小,数据存储方式等等,是大数据集群管理存储数据的基本单位。但是,随着大数据时代的到来,用户数据量呈现***式的增长,数据量与日俱增,导致集群数据过度冗余,这给大数据集群的存储带来了很大的挑战。与此同时,这些数据需要相应的元数据信息进行管理,这也造成集群元数据信息维护开销以及集群性能的下降,因此有必要对集群中使用的元数据信息进行采集。
现有的元数据信息的采集方法是,在用户向大数据集群进行任务提交阶段,进行元数据信息的解析和采集。但是由于用户向集群提交任务方式渠道很多,且数据量较大,采用这种方式进行收集元数据信息,容易导致无法对元数据信息准确完整的收集,进而导致元数据信息缺漏,使得元数据信息收集效率低下,不利于大数据集群管理。现亟需一种能够提高大数据集群元数据信息的采集效率的方法。
发明内容
本申请实施例的目的在于提出一种大数据集群元数据信息的采集方法、装置、设备及介质,以提高大数据集群元数据信息的采集效率。
为了解决上述技术问题,本申请实施例提供一种大数据集群元数据信息的采集方法,包括:
接收用户向大数据集群提交的任务,并解析所述任务,得到所述任务对应的执行计划;
通过所述执行计划,对大数据集群的节点进行计算操作,并对所述计算操作进行监听;
当监听到所述计算操作执行完成时,接收所述大数据集群对应接口返回的所述执行计划;
对所述执行计划进行解析,获取所述执行计划对应的元数据信息,并将所述元数据信息存储于关系型数据库中;
按照Sqoop数据导入的方式,将存储于关系型数据库中的元数据信息导入到大数据仓库中。
为了解决上述技术问题,本申请实施例提供一种大数据集群元数据信息的采集装置,包括:
执行计划生成模块,用于接收用户向大数据集群提交的任务,并解析所述任务,得到所述任务对应的执行计划;
执行计划执行模块,用于通过所述执行计划,对大数据集群的节点进行计算操作,并对所述计算操作进行监听;
执行计划接收模块,用于当监听到所述计算操作执行完成时,接收所述大数据集群对应接口返回的所述执行计划;
执行计划解析模块,用于对所述执行计划进行解析,获取所述执行计划对应的元数据信息,并将所述元数据信息存储于关系型数据库中;
元数据信息导入模块,用于按照Sqoop数据导入的方式,将存储于关系型数据库中的元数据信息导入到大数据仓库中。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种计算机设备,包括,一个或多个处理器;存储器,用于存储一个或多个程序,使得一个或多个处理器实现上述任意一项所述的大数据集群元数据信息的采集方法。
为解决上述技术问题,本发明采用的一个技术方案是:一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的大数据集群元数据信息的采集方法。
本发明实施例提供了一种大数据集群元数据信息的采集方法、装置、设备及介质。其中,所述方法包括:接收用户向大数据集群提交的任务,并解析任务,得到任务对应的执行计划;通过执行计划,对大数据集群的节点进行计算操作,并对计算操作进行监听;当监听到计算操作执行完成时,接收大数据集群对应接口返回的执行计划;对执行计划进行解析,获取执行计划对应的元数据信息,并将元数据信息存储于关系型数据库中;按照Sqoop数据导入的方式,将存储于关系型数据库中的元数据信息导入到大数据仓库中。本发明实施例通过对执行计划进行解析,从而实现了针对各种渠道的用户提交的任务,对其元数据信息的进行完整收集,进而提高对元数据信息收集的效率。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的大数据集群元数据信息的采集方法的应用环境示意图;
图2根据本申请实施例提供的大数据集群元数据信息的采集方法的一实现流程图;
图3是本申请实施例提供的大数据集群元数据信息的采集方法中子流程的一实现流程图;
图4是本申请实施例提供的大数据集群元数据信息的采集方法中子流程的又一实现流程图;
图5是本申请实施例提供的大数据集群元数据信息的采集方法中子流程的又一实现流程图;
图6是本申请实施例提供的大数据集群元数据信息的采集方法中子流程的又一实现流程图;
图7是本申请实施例提供的大数据集群元数据信息的采集方法中子流程的又一实现流程图;
图8是本申请实施例提供的大数据集群元数据信息的采集方法中子流程的又一实现流程图;
图9是本申请实施例提供的大数据集群元数据信息的采集装置示意图;
图10是本申请实施例提供的计算机设备的示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
下面结合附图和实施方式对本发明进行详细说明。
请参阅图1,***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、搜索类应用、即时通信工具等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的大数据集群元数据信息的采集方法一般由服务器执行,相应地,大数据集群元数据信息的采集装置一般配置于服务器中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
请参阅图2,图2示出了大数据集群元数据信息的采集方法的一种具体实施方式。
需注意的是,若有实质上相同的结果,本发明的方法并不以图2所示的流程顺序为限,该方法包括如下步骤:
S1:接收用户向大数据集群提交的任务,并解析任务,得到任务对应的执行计划。
具体的,在大数据集群里的不同用户通过不同渠道,向大数据集群发送任务指令,服务器在接收到该任务时,会对该任务进行解析,获取任务内容并获取该任务对应的执行计划,通过该执行计划,可以对大数据集群框架进行执行对应的内容的任务。
其中,大数据集群是指为行业大数据提供处理能力的数据分析挖掘平台,通常采用大数据处理技术和模式,构建与具体业务松耦合的中间性的大数据统计、分析和挖掘平台。Spark是专为大规模数据处理而设计的快速通用的计算引擎。本发明实施例中的大数据平台以Spark为基础架构,实现对大数据集群任务的管理。
其中,任务是根据用户请求,进行特定的处理大数据的方法,包括上传文件、传递文件、计算特定数据的统计数据等等。该任务是根据用户发送的启动任务请求而执行的。任务包括依赖数据表、执行结果数据表和逻辑代码等等。其中,执行计划是根据对应任务而生成的详细方案,描述该任务将要做什么样的转化与计算操作,包括了完成该任务需要将要访问或生成大数据集群中的输入数据表、输出数据表信息等,该执行计划包括逻辑执行计划和物理执行计划。
S2:通过执行计划,对大数据集群的节点进行计算操作,并对计算操作进行监听。
具体的,由于要对用户提交的任务进行执行,所以需要根据执行计划,将该执行计划分发到相应的大数据集群的节点上,在不同节点上,进行执行计划所描述的计算操作。并且在该计算过程中,通过在对应接口上,设置有相应的***,通过该***实时监听该计算操作过程,若是***接收到计算操作反馈回来的信息,则可以判断出计算操作是否完成,也即执行计划是否执行完毕。
S3:当监听到计算操作执行完成时,接收大数据集群对应接口返回的执行计划。
具体的,由于本申请是基于Spark框架内的大数据集群处理,需要执行计划执行完毕后,大数据集群对应的接口才能够返回该执行计划,才能够进一步对该执行计划进行解析。若是在没有完成执行计划的计算操作之前,则无法进行本申请对执行计划的解析方法。故此,需要对执行计划的计算操作进行跟踪监听,当监听到计算操作执行完毕时,也即执行计划执行完毕,则接收大数据集群对应接口返回的执行计划,以便对其进行解析,从而获取元数据信息。
S4:对执行计划进行解析,获取执行计划对应的元数据信息,并将元数据信息存储于关系型数据库中。
具体的,本申请的目的是收集大数据集群中的元数据信息,而用户向大数据集群提交的任务最终都会转化成执行计划,该执行计划包括了完成该任务需要将要访问或生成大数据集群中的输入数据表、输出数据表信息等。所以对执行计划进行解析后,能够获取到大数据集群内哪一些数据被访问、被调用等等,能够获取其输入数据表、输出数据表信息等,进而能够获取到对应的元数据信息,再将这些获取到的元数据存储在外部的关系型数据库中,方便后续对元数据信息进行调用。
其中,元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(dataabout data),主要是描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据是一种电子式目录,为了达到编制目录的目的,在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。在本申请实施例中,元数据信息是指反应了大数据集群存储的真实数据信息,包括对应的真实数据存放位置,数据大小,数据存储方式等等,是大数据集群管理存储数据的基本单位。
S5:按照Sqoop数据导入的方式,将存储于关系型数据库中的元数据信息导入到大数据仓库中。
具体的,元数据信息若是大量存储在关系型数据库中,容易导致关系型数据库负载过重,不方便对元数据信息的调用,所以会将存储于关系型数据库中的元数据信息导入到大数据仓库中,方便后续对元数据的处理。
其中,Sqoop是一个分布式的数据迁移工具,可以将一个关系型数据库中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。在本申请中,是通过Sqoop数据导入的方式,将存储于关系型数据库中的元数据信息导入到大数据仓库中。进一步的,本申请所指的大数据仓库是指数据仓库工具hive。
本实施例中,通过接收用户向大数据集群提交的任务,并解析任务,得到任务对应的执行计划;通过执行计划,对大数据集群的节点进行计算操作,并对计算操作进行监听;当监听到计算操作执行完成时,接收大数据集群对应接口返回的执行计划;对执行计划进行解析,获取执行计划对应的元数据信息,并将元数据信息存储于关系型数据库中;按照Sqoop数据导入的方式,将存储于关系型数据库中的元数据信息导入到大数据仓库中,实现了针对各种渠道的用户提交的任务,对其元数据信息的进行完整收集,进而提高对元数据信息收集的效率。
请参阅图3,图3示出了步骤S4的一种具体实施方式,步骤S4中对执行计划进行解析,获取执行计划对应的元数据信息,并将元数据信息存储于关系型数据库中的具体实现过程,详叙如下:
S41:对执行计划进行解析,获取执行计划所涉及的对应内容。
具体的,由于执行计划包括了完成用户提交的任务所需要将要访问或生成大数据集群中的输入数据表、输出数据表信息等。所以对执行计划进行解析后,能够获取到大数据集群内哪一些数据被访问、被调用等等,能够获取其输入数据表、输出数据表信息等,也即获取到执行计划所涉及的对应内容。
其中,对应内容是指针对用户提交的任务,对应执行计划所涉及的内容。其中包括哪些数据表或者数据表中的数据被访问、被调用等等信息。
S42:获取执行计划中的输入输出标识符,并根据输入输出标识,区分对应内容的源信息属性,得到目标内容,其中,源信息属性包括输入源信息和输出源信息。
具体的,要对大数据集群中元数据信息收集,包括对数据存放位置,数据大小,数据存储方式,且还包括该数据是作为输入时所被访问的参数,还是作为输出时所被访问的参数,并将这些能够被服务器作为输入输出访问的属性,作为源信息属性,所以源信息属性包括输入源信息和输出源信息。
其中,输入源信息是指数据的属性是作为输入大数据集群中的数据属性;输出源信息是指数据的属性是作为输出大数据集群中的数据属性。目标内容是指对应内容中的数据已经区分好了源信息属性,也即区分了哪些数据是属于输入源信息和哪些数据是属于输出源信息。另外,在构建执行计划时,会对用户提交的任务解析,得到了各种标志符,其中就包括了输入输出标识符,该输入输出符用来区分对应内容的源信息属性。
S43:提取目标内容中的元数据信息,并将元数据信息存储于关系型数据库中。
具体的,由于上述步骤已经获取到了目标内容,只要对目标内容中的数据进行信息提取,实现获取其中的元数据信息,再将元数据信息存储于关系型数据库中。
在本实施中,通过对执行计划进行解析,获取执行计划所涉及的对应内容,并获取执行计划中的输入输出标识符,并根据输入输出标识,区分对应内容的源信息属性,得到目标内容,最后提取目标内容中的元数据信息,并将元数据信息存储于关系型数据库中,实现对元数据信息进行提取,有利于提高大数据集群元数据信息的收集效率。
请参阅图4,图4示出了步骤S1的一种具体实施方式,步骤S1中接收用户向大数据集群提交的任务,并解析任务,得到任务对应的执行计划的具体实现过程,详叙如下:
S11:接收用户向大数据集群提交的任务,通过SQL解析方式,将任务解析成SQL语句文件。
具体的,SQL解析方式是通过SQL的解析引擎对用户提交的任务进行解析,形成对应的SQL语句文件。进一步的,SQL的解析引擎包括Hive SQL解析引擎、Spark SQL解析引擎等工具。该SQL语句文件是用户提交的任务被解析后,形成以相应SQL语句的文件,并能够被后续语法解析工具进行读取。
S12:通过对SQL语句文件进行语法分析,构建语法树。
具体的,通过开源语法分析器Antlr对SQL语句文件进行语法分析,并根据语法分析,构建其语法树。
其中,开源语法分析器Antlr是指可以根据输入SQL语句文件自动生成语法树并可视化的显示出来的开源语法分析器。开源语法分析器Antlr为包括各种语言,提供了一个通过语法描述来自动构造自定义语言的识别器,编译器和解释器的框架。在本申请实施例中,开源语法分析器Antlr对SQL语句文件进行语法分析,并根据语法分析,构建其语法树。
其中,语法分析是指通过开源语法分析器Antlr对输入的SQL语句文件进行读取并解析出相关的关键词和标识符,并根据这些相关的关键词和标识符进行语法搭建,最终形成语法树。
S13:通过编译器对语法树进行编译解析,得到执行计划。
具体的,上述步骤已经构建了语法树,只需要再对该语法树进行编译解析,即可得到用户提交的任务对应的执行计划。在本申请实施例中,编译器采用的是AstBuilder,该AstBuilder是一种开源的代码语法分析器。通过AstBuilder对语法树进行编译解析,最终得到执行计划。
本实施例中,通过接收用户向大数据集群提交的任务,通过SQL解析方式,将任务解析成SQL语句文件,通过对SQL语句文件进行语法分析,构建语法树,最后通过编译器对语法树进行编译解析,得到执行计划,实现执行计划的获取,为后续监听执行计划执行过程提供基础。
请参阅图5,图5示出了步骤S12的一种具体实施方式,步骤S12中通过对SQL语句文件进行语法分析,构建语法树的具体实现过程,详叙如下:
S121:通过词法分析器对SQL语句文件进行解析,得到SQL语句文件中的关键词和标识符。
其中,词法分析器又称为Scanner,Lexical analyser和Tokenizer。由于SQL语句文件是由关键字和严格定义的语法结构组成,所以词法分析器的工作是分析量化那些本来毫无意义的字符流,将其翻译成离散的字符组(也就是一个一个的Token),包括关键字,标识符等等。这些解析出来的关键字和标识符提供给后续步骤的语法分析器,最终形成语法树。
S122:通过语法分析器对关键词和标识符进行语法搭建,生成语法树。
具体的语法分析器在分析字符流的时候,词法分析器不关心所生成的单个字符组的语法意义及其与上下文之间的关系,而这就是语法分析器的工作。语法分析器将收到的字符组组织起来,并转换成为目标语言语法定义所允许的序列。
其中,语法分析器在分析字符流的时候,将词法分析器不关心所生成的单个字符组的语法意义及其与上下文之间的关系,进行组织起来,并转换成为目标语言语法定义所允许的序列。在本申请实施例中,语法分析器将词法分析器生成的关键字,标识符等字符组进行组织搭建,并转化成语法树。
其中,语法搭建是指通过语法分析器将将词法分析器生成的关键字,标识符等字符组,按照字符组本身的语法意义及其上下文之间的关系,进行组织搭建,最终形成语法树。
本实施例中,通过词法分析器对SQL语句文件进行解析,得到SQL语句文件中的关键词和标识符,然后通过语法分析器对关键词和标识符进行语法搭建,生成语法树,实现语法树的搭建,为后续生成执行计划提供基础。
请参阅图6,图6示出了步骤S2的一种具体实施方式,步骤S2中通过执行计划,对大数据集群的节点进行计算操作,并对计算操作进行监听的具体实现过程,详叙如下:
S21:将执行计划中的逻辑执行计划并行执行后,翻译成物理执行计划。
具体的,由于执行计划包括逻辑执行计划和物理执行计划,而逻辑执行计划仅仅是一种数据结构,不包含任何数据信息,导致无法获取数据源、数据类型,也无法获知不同的列来自于哪张表等。故而需要将逻辑执行计划转化成物理执行计划,该物理执行计划主要用于各种函数资源信息和元数据信息(包括:数据库、数据表、数据视图、数据分区与函数等)的统一管理,所以该物理执行计划可以完成用户所提交的任务。将逻辑执行计划并行执行后,再进行翻译形成物理执行计划。
其中,并行执行是允许多个程序集在同一服务器上共存和同时执行;在本申请实施例中,将逻辑执行计划在多个程序集上同时执行,执行完毕后,再对逻辑执行计划进行翻译转化,形成物理执行计划。
S22:基于物理执行计划,将物理执行计划分布到大数据集群的计算节点上。
具体的,由于物理执行计划中包含用户提交的任务,所对应将要做什么样的转化和计算操作,所以按照物理执行计划内容,将物理执行计划分布到大数据集群的计算节点上,便于后续进行相应的计算操作。
S23:在计算节点上,执行任务对应的计算操作,并对计算操作过程进行监听。
具体的,计算操作是指完成用户提交的任务所需要的操作,在本申请实施例中,不需要了解其计算操作的内容,只需要对该计算操作过程进行监听,获取其计算操作过程执行完毕,这一信息即可。这是因为只有当计算操作执行完毕,也就物理执行计划执行完毕后,服务器才能进一步对物理执行计划进行解析,获取其中的元数据信息,所以本申请会通过对计算操作过程进行监听,判断计算操作过程是否执行完毕。
本实施例中,通过将执行计划中的逻辑执行计划并行执行后,翻译成物理执行计划,基于物理执行计划,将物理执行计划分布到大数据集群的计算节点上,在计算节点上,执行任务对应的计算操作,并对计算操作过程进行监听,实现将执行计划进行执行,并对其过程进行监听,为后续对执行计划进行解析提供基础,从而有利于提高大数据集群元数据信息的收集效率。
请参阅图7,图7示出了步骤S3的一种具体实施方式,步骤S3中当监听到计算操作执行完成时,接收大数据集群对应接口返回的执行计划的具体实现过程,详叙如下:
S31:当接收到大数据集群的节点返回的反馈信息,则判定计算操作执行完成。
具体的,由于上述步骤通过***对执行计划在节点上的计算操作进行实时监控,当接收到大数据集群的节点返回的反馈信息后,对该反馈信息进行解析,判断判定计算操作执行完成,也即执行计划执行完毕。
S32:通过大数据集群对应接口,接收计算操作完成后返回的执行计划。
具体的,当执行计划执行完毕时,会通过大数据集群对应接口,将执行计划进行返回到***,所以服务器通过接受返回的执行计划,便于后续对其进行解析,获取其中的元数据信息。
本实施例中,当接收到大数据集群的节点返回的反馈信息后,则判定计算操作执行完成,通过大数据集群对应接口,接收计算操作完成后返回的执行计划,实现对执行计划的获取,便于后续步骤对执行计划的解析,从而获取元数据信息。
请参阅图8,图8示出了步骤S5之后的一种具体实施方式,该实施例包括:
S51:识别元数据信息与大数据仓库中的历史数据相同的数据信息,作为重复数据信息。
具体的,由于收集来的元数据信息可能与大数据仓库中的历史数据存在相同的数据信息,为了减少数据的冗余,从而减轻大数据集群的负载,所以识别元数据信息与大数据仓库中的历史数据相同的数据信息,作为重复数据信息。
S52:在大数据仓库中,删除元数据信息中的重复数据信息,得到新增的元数据信息。
具体的,删除元数据信息中的重复数据信息,剩下的元数据信息将区别与大数据仓库中历史数据,故此将剩下的元数据信息作为新增的元数据信息。
本实施例中,通过识别元数据信息与大数据仓库中的历史数据相同的数据信息,作为重复数据信息,并在大数据仓库中,删除元数据信息中的重复数据信息,得到新增的元数据信息,减少数据冗余,减轻大数据集群的负载,从而提高大数据集群元数据信息的收集效率。
需要强调的是,为进一步保证元数据信息的私密和安全性,上述元数据信息还可以存储于一区块链的节点中。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
请参考图9,作为对上述图2所示方法的实现,本申请提供了一种大数据集群元数据信息的采集装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图9所示,本实施例的大数据集群元数据信息的采集装置包括:执行计划生成模块61、执行计划执行模块62、执行计划接收模块63、执行计划解析模块64及元数据信息导入模块65,其中:
执行计划生成模块61,用于接收用户向大数据集群提交的任务,并解析任务,得到任务对应的执行计划;
执行计划执行模块62,用于通过执行计划,对大数据集群的节点进行计算操作,并对计算操作进行监听;
执行计划接收模块63,用于当监听到计算操作执行完成时,接收大数据集群对应接口返回的执行计划;
执行计划解析模块64,用于对执行计划进行解析,获取执行计划对应的元数据信息,并将元数据信息存储于关系型数据库中;
元数据信息导入模块65,用于按照Sqoop数据导入的方式,将存储于关系型数据库中的元数据信息导入到大数据仓库中。
进一步的,执行计划解析模块64包括:
对应内容获取单元,用于对执行计划进行解析,获取执行计划所涉及的对应内容;
目标内容获取单元,用于获取执行计划中的输入输出标识符,并根据输入输出标识,区分对应内容的源信息属性,得到目标内容,其中,源信息属性包括输入源信息和输出源信息;
元数据信息提取单元,用于提取目标内容中的元数据信息,并将元数据信息存储于关系型数据库中。
进一步的,执行计划生成模块61包括:
任务解析单元,用于接收用户向大数据集群提交的任务,通过SQL解析方式,将任务解析成SQL语句文件;
语法树构建单元,用于通过对SQL语句文件进行语法分析,构建语法树;
语法树编译单元,用于通过编译器对语法树进行编译解析,得到执行计划。
进一步的,语法树构建单元包括:
语句文件解析子单元,用于通过词法分析器对SQL语句文件进行解析,得到SQL语句文件中的关键词和标识符;
语法搭建子单元,用于通过语法分析器对关键词和标识符进行语法搭建,生成语法树。
进一步的,执行计划执行模块62包括:
物理执行计划获取单元,用于将执行计划中的逻辑执行计划并行执行后,翻译成物理执行计划;
物理执行计划分布单元,用于基于物理执行计划,将物理执行计划分布到大数据集群的计算节点上;
计算操作监听单元,用于在计算节点上,执行任务对应的计算操作,并对计算操作过程进行监听。
进一步的,执行计划接收模块63包括:
反馈信息接收单元,用于当接收到大数据集群的节点返回的反馈信息,则判定计算操作执行完成;
执行计划获取单元,用于通过大数据集群对应接口,接收计算操作完成后返回的执行计划。
进一步的,在元数据信息导入模块65之后,该大数据集群元数据信息的采集装置还包括:
重复数据信息识别模块,用于识别元数据信息与大数据仓库中的历史数据相同的数据信息,作为重复数据信息;
元数据信息删除模块,用于在大数据仓库中,删除元数据信息中的重复数据信息,得到新增的元数据信息。
需要强调的是,为进一步保证上述元数据信息的私密和安全性,上述元数据信息还可以存储于一区块链的节点中。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图10,图10为本实施例计算机设备基本结构框图。
计算机设备7包括通过***总线相互通信连接存储器71、处理器72、网络接口73。需要指出的是,图中仅示出了具有三种组件存储器71、处理器72、网络接口73的计算机设备7,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field -Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
存储器71至少包括一种类型的可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器71可以是计算机设备7的内部存储单元,例如该计算机设备7的硬盘或内存。在另一些实施例中,存储器71也可以是计算机设备7的外部存储设备,例如该计算机设备7上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器71还可以既包括计算机设备7的内部存储单元也包括其外部存储设备。本实施例中,存储器71通常用于存储安装于计算机设备7的操作***和各类应用软件,例如大数据集群元数据信息的采集方法的程序代码等。此外,存储器71还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器72在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器72通常用于控制计算机设备7的总体操作。本实施例中,处理器72用于运行存储器71中存储的程序代码或者处理数据,例如运行一种大数据集群元数据信息的采集方法的程序代码。
网络接口73可包括无线网络接口或有线网络接口,该网络接口73通常用于在计算机设备7与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序可被至少一个处理器执行,以使至少一个处理器执行如上述的一种大数据集群元数据信息的采集方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例的方法。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (8)

1.一种大数据集群元数据信息的采集方法,其特征在于,包括:
接收用户向大数据集群提交的任务,并解析所述任务,得到所述任务对应的执行计划;
将所述执行计划中的逻辑执行计划并行执行后,翻译成物理执行计划;
基于所述物理执行计划,将所述物理执行计划分布到所述大数据集群的计算节点上;
在所述计算节点上,执行所述任务对应的计算操作,并对所述计算操作过程进行监听;
当监听到所述计算操作执行完成时,接收所述大数据集群对应接口返回的所述执行计划;
对所述执行计划进行解析,获取所述执行计划所涉及的对应内容;
获取执行计划中的输入输出标识符,并根据所述输入输出标识,区分所述对应内容的源信息属性,得到目标内容,其中,所述源信息属性包括输入源信息和输出源信息;
提取所述目标内容中的元数据信息,并将所述元数据信息存储于关系型数据库中;
按照Sqoop数据导入的方式,将存储于关系型数据库中的元数据信息导入到大数据仓库中。
2.根据权利要求1所述的大数据集群元数据信息的采集方法,其特征在于,所述接收用户向大数据集群提交的任务,并解析所述任务,得到所述任务对应的执行计划,包括:
接收用户向大数据集群提交的任务,通过SQL解析方式,将所述任务解析成SQL语句文件;
通过对所述SQL语句文件进行语法分析,构建语法树;
通过编译器对所述语法树进行编译解析,得到所述执行计划。
3.根据权利要求2所述的大数据集群元数据信息的采集方法,其特征在于,所述通过对所述SQL语句文件进行语法分析,构建语法树,包括:
通过词法分析器对所述SQL语句文件进行解析,得到所述SQL语句文件中的关键词和标识符;
通过语法分析器对所述关键词和标识符进行语法搭建,生成所述语法树。
4.根据权利要求1所述的大数据集群元数据信息的采集方法,其特征在于,所述当监听到所述计算操作执行完成时,接收所述大数据集群对应接口返回的所述执行计划,包括:
当接收到所述大数据集群的节点返回的反馈信息,则判定所述计算操作执行完成;
通过所述大数据集群对应接口,接收计算操作完成后返回的执行计划。
5.根据权利要求1至4任一项所述的大数据集群元数据信息的采集方法,其特征在于,在所述按照Sqoop数据导入的方式,将存储于关系型数据库中的元数据信息导入到大数据仓库中之后,所述方法还包括:
识别所述元数据信息与所述大数据仓库中的历史数据相同的数据信息,作为重复数据信息;
在所述大数据仓库中,删除所述元数据信息中的重复数据信息,得到新增的元数据信息。
6.一种大数据集群元数据信息的采集装置,其特征在于,包括:
执行计划生成模块,用于接收用户向大数据集群提交的任务,并解析所述任务,得到所述任务对应的执行计划;
物理执行计划获取单元,用于将所述执行计划中的逻辑执行计划并行执行后,翻译成物理执行计划;
物理执行计划分布单元,用于基于所述物理执行计划,将所述物理执行计划分布到所述大数据集群的计算节点上;
计算操作监听单元,用于在所述计算节点上,执行所述任务对应的计算操作,并对所述计算操作过程进行监听;
执行计划接收模块,用于当监听到所述计算操作执行完成时,接收所述大数据集群对应接口返回的所述执行计划;
对应内容获取单元,用于对所述执行计划进行解析,获取所述执行计划所涉及的对应内容;
目标内容获取单元,用于获取执行计划中的输入输出标识符,并根据所述输入输出标识,区分所述对应内容的源信息属性,得到目标内容,其中,所述源信息属性包括输入源信息和输出源信息;
元数据信息提取单元,用于提取所述目标内容中的元数据信息,并将所述元数据信息存储于关系型数据库中;
元数据信息导入模块,用于按照Sqoop数据导入的方式,将存储于关系型数据库中的元数据信息导入到大数据仓库中。
7.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的大数据集群元数据信息的采集方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的大数据集群元数据信息的采集方法。
CN202011483745.XA 2020-12-16 2020-12-16 大数据集群元数据信息的采集方法、装置、设备及介质 Active CN112527880B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011483745.XA CN112527880B (zh) 2020-12-16 2020-12-16 大数据集群元数据信息的采集方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011483745.XA CN112527880B (zh) 2020-12-16 2020-12-16 大数据集群元数据信息的采集方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN112527880A CN112527880A (zh) 2021-03-19
CN112527880B true CN112527880B (zh) 2023-08-08

Family

ID=75000556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011483745.XA Active CN112527880B (zh) 2020-12-16 2020-12-16 大数据集群元数据信息的采集方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN112527880B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279568A (zh) * 2013-06-18 2013-09-04 无锡紫光存储***有限公司 一种元数据管理***及方法
CN104063486A (zh) * 2014-07-03 2014-09-24 四川中亚联邦科技有限公司 一种大数据分布式存储方法和***
CN106202378A (zh) * 2016-07-08 2016-12-07 中国地质大学(武汉) 一种流式气象数据的快速处理方法及***
CN106651633A (zh) * 2016-10-09 2017-05-10 国网浙江省电力公司信息通信分公司 一种基于大数据技术的用电信息采集***及其采集方法
CN110704417A (zh) * 2019-10-10 2020-01-17 南方电网数字电网研究院有限公司 一种元数据管理方法、设备及存储介质
CN110968592A (zh) * 2019-12-06 2020-04-07 深圳前海环融联易信息科技服务有限公司 元数据采集方法、装置、计算机设备及计算机可读存储介质
CN111104548A (zh) * 2019-12-18 2020-05-05 腾讯科技(深圳)有限公司 一种数据反馈方法、***及存储介质
CN111651315A (zh) * 2020-04-15 2020-09-11 北京皮尔布莱尼软件有限公司 一种页面的数据采集方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10725833B2 (en) * 2016-10-28 2020-07-28 Nicira, Inc. Monitoring and optimizing interhost network traffic

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279568A (zh) * 2013-06-18 2013-09-04 无锡紫光存储***有限公司 一种元数据管理***及方法
CN104063486A (zh) * 2014-07-03 2014-09-24 四川中亚联邦科技有限公司 一种大数据分布式存储方法和***
CN106202378A (zh) * 2016-07-08 2016-12-07 中国地质大学(武汉) 一种流式气象数据的快速处理方法及***
CN106651633A (zh) * 2016-10-09 2017-05-10 国网浙江省电力公司信息通信分公司 一种基于大数据技术的用电信息采集***及其采集方法
CN110704417A (zh) * 2019-10-10 2020-01-17 南方电网数字电网研究院有限公司 一种元数据管理方法、设备及存储介质
CN110968592A (zh) * 2019-12-06 2020-04-07 深圳前海环融联易信息科技服务有限公司 元数据采集方法、装置、计算机设备及计算机可读存储介质
CN111104548A (zh) * 2019-12-18 2020-05-05 腾讯科技(深圳)有限公司 一种数据反馈方法、***及存储介质
CN111651315A (zh) * 2020-04-15 2020-09-11 北京皮尔布莱尼软件有限公司 一种页面的数据采集方法

Also Published As

Publication number Publication date
CN112527880A (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
CN112860727B (zh) 基于大数据查询引擎的数据查询方法、装置、设备及介质
EP4099170B1 (en) Method and apparatus of auditing log, electronic device, and medium
CN109522341B (zh) 实现基于sql的流式数据处理引擎的方法、装置、设备
CN112491602B (zh) 行为数据的监控方法、装置、计算机设备及介质
CN107506256B (zh) 一种崩溃数据监控的方法和装置
CN108694221B (zh) 数据实时分析方法、模块、设备和装置
CN111309760A (zh) 数据检索方法、***、设备及存储介质
CN111709527A (zh) 运维知识图谱库的建立方法、装置、设备及存储介质
CN111859969B (zh) 数据分析方法及装置、电子设备、存储介质
CN112394908A (zh) 埋点页面自动生成的方法、装置、计算机设备及存储介质
CN113962597A (zh) 一种数据分析方法、装置、电子设备及存储介质
CN113010542B (zh) 业务数据处理方法、装置、计算机设备及存储介质
CN111797297B (zh) 页面数据处理方法、装置、计算机设备及存储介质
CN113326261A (zh) 数据血缘关系提取方法、装置及电子设备
CN113609008A (zh) 测试结果分析方法、装置和电子设备
CN116450723A (zh) 数据提取方法、装置、计算机设备及存储介质
CN112527880B (zh) 大数据集群元数据信息的采集方法、装置、设备及介质
CN110737707A (zh) 多***的日志搜索方法、装置及计算机可读存储介质
CN113836235B (zh) 基于数据中台的数据处理方法及其相关设备
CN113138767B (zh) 代码语言转换方法、装置、电子设备及存储介质
CN113792138B (zh) 报表生成方法、装置、电子设备及存储介质
CN114968725A (zh) 任务依赖关系校正方法、装置、计算机设备及存储介质
CN111159213A (zh) 一种数据查询方法、装置、***和存储介质
CN114610769A (zh) 数据分析方法、装置、设备及存储介质
CN114169318A (zh) 进程识别方法、装置、设备、介质和程序

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant