CN112084009B

CN112084009B - PK体系下基于容器化技术构建和监控Hadoop集群与告警的方法

Info

Publication number: CN112084009B
Application number: CN202010978399.6A
Authority: CN
Inventors: 高晓飞; 杜变霞; 曹科宁; 聂芳华; 张航
Original assignee: Hunan Great Wall Science And Technology Information Co ltd
Current assignee: Hunan Great Wall Science And Technology Information Co ltd
Priority date: 2020-09-17
Filing date: 2020-09-17
Publication date: 2024-06-11
Anticipated expiration: 2040-09-17
Also published as: CN112084009A

Abstract

本发明公开了PK体系下基于容器化技术构建和监控Hadoop集群与告警的方法，包括：S1，在基于PK体系的节点服务器上搭建k8s并部署应用的镜像仓库服务；S2，在k8s上部署Prometheus，包括创建Prometheus的自定义对象Alertmanager、PrometheusRule、Prometheus、PodMonitor和ServiceMonitor及其他Prometheus组件，并配置Grafana进行图形化界面显示；S3，在k8s上搭建Hadoop集群，包括部署Hadoop集群的HDFS集群和YARN集群；S4，在节点服务器上部署Hadoop_exporter并采集Hadoop集群的监控数据按照容器监控平台规定的格式提供数据接口，容器监控平台调用Hadoop_exporter数据接口获取采集的监控数据；S5，通过PrometheusRule对象创建告警规则，Alertmanager接收Prometheus的告警信息并通知用户。本发明整个部署可一键部署，快速简洁，满足数据分析人员、测试人员、运维人员在软件开发、应用和管理工作中的需求。

Description

PK体系下基于容器化技术构建和监控Hadoop集群与告警的方法

技术领域

本发明属于Hadoop集群管理的技术领域，具体涉及一种PK体系下基于容器化技术构建和监控Hadoop集群与告警的方法。

背景技术

PK，P指飞腾（Phytium）处理器，是中国电子自主设计兼容ARM V8指令集的处理器芯片，K指麒麟（Kylin）操作***，它支持云计算、虚拟化、大数据等应用并与飞腾处理器深度适配。PK体系是一个基础开放的架构组合，是国家级网络安全核心体系，对标Windows和英特尔。Hadoop（分布式***基础架构）集群是一个能够对大量数据进行分布式处理的软件框架，以一种可靠、高效、可伸缩的方式进行数据处理，是大数据领域的主流技术，Hadoop2.0是由两套完整的集群所组成，一个是基本的HDFS（Hadoop Distributed FileSystem，分布式文件***）文件***集群，负责海量数据的存储；一个是YARN（Yet AnotherResource Negotiator，分布式资源管理器）资源调度集群。

软件研发人员在工作过程中，往往需要进行多节点Hadoop集群的开发调试，经常遇到的一个问题是研发环境中的服务器数量不够用。与此类似，测试人员和运维人员在对Hadoop集群功能进行验证时，经常需要快速搭建一套多节点的Hadoop集群环境，也会遇到服务器数量不够用和部署环境配置繁琐导致时效性不高的情况。另外，对于数据分析人员，也经常需要快速部署Hadoop集群进行数据分析应用的需求。

发明内容

为解决上述技术问题中的至少之一，本发明提出PK体系下基于容器化技术构建和监控Hadoop集群与告警的方法。

本发明的目的通过以下技术方案实现：

本发明提供了PK体系下基于容器化技术构建和监控Hadoop集群与告警的方法，包括如下步骤：

S1，在基于PK体系的节点服务器上搭建k8s并部署应用的镜像仓库服务；

S2，在k8s上部署Prometheus，包括创建Prometheus的自定义对象Alertmanager、PrometheusRule、Prometheus、PodMonitor和ServiceMonitor及其他Prometheus组件，并配置Grafana图形化界面以可视化显示Prometheus的监控数据；

S3，在k8s上搭建Hadoop集群，包括部署Hadoop集群中的HDFS集群和YARN集群；

S4，在节点服务器上部署Hadoop_exporter，利用Hadoop_exporter采集Hadoop集群的监控数据并按照Prometheus规定的格式对外提供数据接口，Prometheus调用Hadoop_exporter提供的数据接口获取采集的监控数据；

S5，通过PrometheusRule对象创建告警规则，Alertmanager接收Prometheus的告警信息并通知用户。

作为进一步的改进，所述步骤S1中，在节点服务器上搭建k8s包括步骤如下：

S11.在节点服务器上选取节点作为管理节点、计算节点和存储节点，选取的节点是多管理节点时，则需要在节点服务器上配置代理节点，并从管理节点中选取部署节点；

S12.编写自动化脚本，并将选取的节点信息、镜像信息和磁盘设备名等信息配置在自动化脚本的hosts文件中；

S13.在节点服务器上执行自动化脚本，一键安装k8s。

作为进一步的改进，所述步骤S1中，k8s的网络采用Flannel服务，Flannel服务选用DaemonSet方式部署在k8s中，部署包括如下步骤：

S111.创建Flannel的相关目录；

S112.配置Flannel服务的DaemonSet的yaml文件；

S113.下载Flannel服务的网络插件；

S114.运行Flannel网络；

S115.在k8s上轮询等待Flannel运行。

作为进一步的改进，所述步骤S1中，所述镜像仓库服务中的镜像是通过Docker制作的与PK体系适配的镜像和通过Docker从镜像仓库服务中拉取得到的。

作为进一步的改进，通过Docker制作与PK体系适配的镜像包括如下步骤：

S1111.在PK体系的节点服务器下安装Docker环境；

S1112.获取Kylin操作***镜像并上传到镜像仓库服务中；

S1113.获取Kylin操作***下的应用到目标文件；

S1114.创建镜像；

S1115.上传创建的镜像到私有镜像仓库。

作为进一步的改进，所述步骤S2中，使用Ansible自动化部署Prometheus，包括如下步骤：

S21.在节点服务器上拉取Prometheus框架；

S22.创建Prometheus组件模板文件和自定义对象模板文件；

S23.将相关镜像替换为PK下适配的镜像写在文件中；

S24.执行部署Prometheus，包括创建Prometheus的自定义对象Alertmanager、PrometheusRule、Prometheus、PodMonitor和ServiceMonitor及其他Prometheus组件。

作为进一步的改进，所述步骤S3中，使用Ansible自动化部署Hadoop集群，部署Hadoop集群中的HDFS集群包括步骤如下：

S31.构建Hadoop镜像；

S32.将Hadoop 配置文件和启动脚本放置于ConfigMap中；

S33.编写HDFS 集群中的NameNode角色的NameNode.yaml文件；

S34.部署NameNode角色；

S35.编写HDFS 集群中的DataNode角色的DataNode.yaml文件；

S36.部署DataNode角色。

作为进一步的改进，所述步骤S3中，使用Ansible自动化部署Hadoop集群，部署Hadoop集群中的YARN集群包括步骤如下：

S331.构建Hadoop镜像；

S332.将Hadoop 配置文件和启动脚本放置于ConfigMap中；

S333.编写YARN 集群中的ResourceManager角色的ResourceManager.yaml文件；

S334部署ResourceManager角色；

S335.编写YARN 集群中的NodeManager角色的NodeManager.yaml文件；

S336.部署NodeManager角色。

本发明提供的PK体系下基于容器化技术构建和监控Hadoop集群与告警的方法，包括步骤：S1，在基于PK体系的节点服务器上搭建k8s并部署应用的镜像仓库服务；S2，在k8s上部署Prometheus，包括创建Prometheus自定义对象Alertmanager、PrometheusRule、Prometheus、PodMonitor和ServiceMonitor及其他Prometheus组件，并配置Grafana图形化界面以可视化显示Prometheus的监控数据；S3，在k8s上搭建Hadoop集群，包括部署Hadoop集群中的HDFS集群和YARN集群；S4，在节点服务器上部署Hadoop_exporter，利用Hadoop_exporter采集Hadoop集群的监控数据并按照Prometheus规定的格式对外提供数据接口，Prometheus调用Hadoop_exporter提供的数据接口获取采集的监控数据；S5，通过PrometheusRule对象创建告警规则，Alertmanager接收Prometheus的告警信息并通知用户。本发明基于k8s部署Prometheus，在Prometheus中对Hadoop集群进行监控，并结合告警插件对监控结果进行告警，整个部署过程支持一键部署，快速简洁，满足数据分析人员、测试人员、运维人员在软件开发、应用和管理工作中的需求。

相比传统部署Hadoop集群来说，容器化技术构建和监控Hadoop有以下好处：

1）可以提高节点服务器的资源利用率；

2）可以持续对Hadoop集群部署和测试，消除线上线下环境差异，保证环境一致性标准化；

3）可对整个运行环境实现版本控制，一旦出现故障可快速回滚；

4）对于相同的底层体系架构，方便实现跨平台迁移；

5）用prometheus监控Hadoop集群，prometheus可以集成在k8s中，不仅部署方便，还有灵活的数据模型便于扩展、强大的查询能力、健全的生态以及良好的性能。

附图说明

利用附图对本发明作进一步说明，但附图中的实施例不构成对本发明的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图。

图1为本发明的流程图。

图2为本发明的整体架构图。

图3为本发明HDFS集群的架构图。

图4为本发明YARN集群的架构图。

具体实施方式

为了使本领域的技术人员更好地理解本发明的技术方案，下面结合附图和具体实施例对本发明作进一步详细的描述，需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

结合图1和图2所示，本发明实施例提供PK体系下基于容器化技术构建和监控Hadoop集群与告警的方法，包括如下步骤：

S1，在基于PK体系的节点服务器上搭建k8s(Kubernetes,容器编排***)并部署应用的镜像仓库服务。搭建一个k8s的步骤如下：

S11.在节点服务器上选取节点作为管理节点、计算节点和存储节点，如果选取的节点是多管理节点时，需要在节点服务器上配置代理节点，并从管理节点中选取部署节点；

S12.编写自动化脚本，并将选取的节点信息、镜像信息和磁盘设备名信息配置在自动化脚本的hosts文件中；本实施例中，编写自动化脚本主要包含如下步骤：

a）设置ssh（安全外壳协议）免密登录其他节点；

b）k8s服务器环境设置，包含删除操作***默认安装、关闭selinux（扩展强制访问控制安全模块）和设置***参数，其中，***参数包含：加载br_netfilter模块(开机自动方法)并对其开机自启动、用sysctl命令启用路由转发和允许服务绑定一个本机不存在的IP(网际协议)地址、关闭网络IP、Arp（地址解析协议）转发规则、调整文件句柄打开最大数量和为不同节点设置不同主机名等；

c）安装并启动Docker（应用容器引擎）服务，包括下载Docker二进制文件和配置Docker国内镜像加速以及使用systemd（简体中文）管理配置Docker并启动Docker；

d）设置节点服务器通用配置如环境变量配置、下载kubectl（命令行）工具等，生成并分发集群所需相关证书，安装kubeconfig配置文件；

e）部署Harbor（企业级私有镜像仓库），安装并启动Harbor服务，此步骤为可选择性的部署私有镜像仓库；

f）如果k8s设置了集群高可用，准备代理节点所需要的相关安装文件，包括keepalived（高可用集群）和haproxy（负载均衡集群），对其进行配置；

g）准备管理节点所需要的相关安装文件以及相关的证书，如果etcd（高可用的键/值存储***）和aggregator-proxy证书没创建时进行创建；

h）安装并启动kubelet服务,节点服务器上有代理节点的，先启动代理节点，再启动管理节点，最后启动计算节点和存储节点；

i）准备Flannel服务所需的相关安装文件；

j）安装存储服务，如nfs(网络文件***)\gfs（可扩展的分布式文件***）等；

k）部署k8s所有插件服务，包括：Flannel（覆盖网络工具）、kube-proxy、coredns、dns-horizontal-autoscaler、node-problem-detector、metrics-server、kubernetes-dashboard、traefik-ingress、local-storage和kube-state-metrics等。

S13.在节点服务器上执行自动化脚本，一键安装k8s，需要说明的是，本步骤可单独执行部署k8s的自动化脚本，也可以在Hadoop集群文件准备好后，执行整体自动化脚本，一键安装部署Hadoop集群。

如需在节点服务器上卸载k8s，则执行自动化脚本，一键清理k8s。其中，自动化脚本中包含停止k8s节点、清理Docker容器、停止Docker服务、清理Iptables、清理网络、清理相关目录和文件以及清理存储节点数据等。

k8s的网络采用Flannel服务。Flannel服务为k8s提供基础网络服务，让k8s中的不同节点创建的容器都具有全集群唯一的虚拟IP地址，在k8s组件之一的Docker配置中，可能存在不同节点上容器可能获得相同的内外IP地址，Flannel服务为k8s下集群中的所有节点重新规划IP地址的使用规则，使不同节点上的容器能够获得同属一个内网且不重复的IP地址，并让k8s内属于不同节点上的容器能够直接通过内网IP通信。

Flannel服务选用DaemonSet（部署守护进程）方式部署在k8s中。本实施例中，使用Ansible（自动化运维工具）脚本自动安装Flannel，部署步骤包括如下：

S111.创建Flannel相关目录；

S112.配置Flannel服务的DaemonSet的yaml文件；

S113.下载Flannel服务的网络插件，包括bridge、Flannel、host-local、loopback、portmap；

S114.运行Flannel网络；

S115.在k8s上轮询等待Flannel运行。

基于PK体系的节点服务器提供应用运行的环境和镜像打包环境，搭建的k8s可以在节点服务器上实现容器集群的自动化部署、自动扩缩容、维护等功能，所需的镜像均与PK体系适配，且存于镜像仓库中。如经常需要使用的Java的软件开发工具包jdk，本实施例中，通过Docker制作镜像如下：

S1111.在PK体系的节点服务器下安装Docker环境；

S1112.获取Kylin操作***镜像并上传到镜像仓库服务中；

S1113.获取Kylin操作***下的应用openjdk 到目标文件；

建立Dockerfile文件jdk.dockerfile，例如，Docker工作目录在/usr/local/jdk,Dockerfile的内容为：

FROM kylin:kylin(麒麟镜像名)

MAINTAINER xxx

RUN mkdir /usr/local/jdk

WORKDIR /usr/local/jdk

ADD jdk.tar.gz /usr/local/jdk

ENV JAVA_HOME /usr/local/jdk/jdk

ENV JRE_HOME /usr/local/jdk/jdk/jre

ENV PATH $JAVA_HOME/bin:$PATH

S1114.创建镜像，使用命令：Docker build -f jdk.dockerfile -t $镜像地址/jdk；

S1115.上传创建的镜像到私有镜像仓库，使用命令：Docker push XXX/jdk。

S2，在k8s上部署Prometheus（监控报警***），包括创建Prometheus自定义对象Alertmanager、PrometheusRule、Prometheus、PodMonitor和ServiceMonitor及其他Prometheus组件，并配置Grafana（可视化工具）图形化界面以可视化显示Prometheus的监控数据。部署过程通过使用Ansible(自动化批量部置工具)一键部署。本实施例中，部署步骤如下：

S21.拉取Prometheus框架；

S22.创建Prometheus组件模板文件和自定义对象模板文件；

S23.将相关镜像替换为PK下适配的镜像写在文件中，便于模板文件变量填充；

S24.执行部署Prometheus，包含创建Prometheus自定义对象Alertmanager、PrometheusRule、Prometheus、PodMonitor、ServiceMonitor等的CRD（自定义对象定义）及其对象和其他Prometheus组件等。

S3，在k8s上搭建Hadoop集群，包括搭建Hadoop集群中的HDFS集群和YARN集群；

结合图3所示，HDFS文件***集群，负责海量数据的存储，集群中的角色主要有NameNode（管理节点）和DataNode（工作节点），Namenode为文件***集群主控节点，管理文件***集群的元数据,客户端程序(Client)以及DataNode节点会访问NameNode，而DataNode为文件***集群数据节点，存储文件***集群的实际数据。

本实施例中，使用Ansible自动化部署Hadoop集群，部署Hadoop集群中的HDFS集群的具体步骤为：

S31.构建Hadoop镜像，镜像中包含jdk、net-tools、vim、wget、hadoop、ssh免密及开机启动、时钟与宿主机同步以及关闭防火墙等；设置环境变量包含Java_home、Hadoop_home以及将其加入Path(环境变量配置)变量中，该镜像会存到私有镜像仓库中；

S32.将Hadoop 配置文件Core-site.xml、Hdfs-site.xml、Mapred-site.xml、Yarn-site.xml和启动脚本Bootstrap.sh放置于ConfigMap中，在Pod(容器组)启动并执行Bootstrap.sh脚本时，可以覆盖原始配置文件，并根据节点类型和网络地址等修改配置文件内容，节点类型通过环境变量设置，包含NameNode、DataNode、ResourceManager（资源管理器）和NodeManager（节点管理器），Bootstrap.sh脚本根据不同节点类型启动不同进程，当类型为NameNode时通过文件判断是否需要Format(格式化)；Hdfs-site.xml中设置取消DataNode节点主机名和IP地址检查机制；

S33.编写NameNode角色的NameNode.yaml文件，NameNode.yaml文件中包含创建NameNode的Service和 NameNode的Deployment，Deployment副本数设置为1，Service Type(服务类型)设置为NodePort,开放9000和50070用于内部IPC（进程间通信）和HTTP（超文本传输协议）服务，Container（容器）将环境变量类型设置为NameNode；

S34.执行Kubectl apply–f namenode.yaml部署NameNode；

S35.编写DataNode角色的DataNode.yaml文件，DataNode以Daemonset方式部署,在k8s每个节点上部署一个DataNode Pod，Container(容器)将环境变量类型设置为DataNode，DataNode持久化存储类型采用Hostpath；

S36.执行Kubectl apply –f datanode.yaml部署DataNode角色。

结合图4所示，YARN，YARN集群同时支持内存和处理器两种模式的资源调度，YARN集群中的角色主要有ResourceManager和NodeManager，ResourceManager负责协调和管理所有NodeManager的资源；NodeManager管理资源调度集群中的每一个节点，如监视节点服务器CPU、内存、硬盘和网络使用情况等。

YARN集群的架构与HDFS集群很相似，但YARN集群无法沿用HDFS的建模方式，因为YARN集群中的ResourceManager要对NodeManger进行严格验证，NodeManger的节点所在主机DNS（域名***）与对应IP地址需要严格匹配，即NodeManger建立TCP(传输控制协议)连接时所用的IP地址，必须是该节点DNS对应的IP地址。因此需要采用了k8s里较为特殊的一种Service即Headless Service来解决这个问题，为每个NodeManger建模一个HeadlessService及其与NodeManger对应的Pod。

本实施例中，使用Ansible自动化部署Hadoop集群，部署Hadoop集群中的YARN集群的具体步骤为：

S331.编写ResourceManager.yaml文件，文件包含ResourceManager 的Service和 ResourceManager的Deployment，Deployment副本数设置为1，Service Type设置为NodePort；

S332.执行Kubectl apply –f ResourceManager.yaml部署ResourceManager角色；

S333.编写NodeManager.yaml文件,文件中包含Service和Stafulset,Service设置为Headless Service，即ClusertIP设置为None；

S334执行Kubectl apply –f NodeManager.yaml部署NodeManager角色。

S4，在节点服务器上部署Hadoop_exporter，用于采集Hadoop的数据，负责从目标处搜集数据，并将其转化为Prometheus支持的格式，利用Hadoop_exporter采集Hadoop集群的监控数据并按照Prometheus规定的格式对外提供数据的组件接口，Prometheus调用Hadoop_exporter提供的数据接口获取采集的监控数据。

在节点服务器上部置Hadoop_exporter包括配置Hadoop_exporter的配置文件，编写Hadoop_exporter的yaml文件，创建Hadoop_exporter的Pod和Service以及将Prometheus自定义对象ServiceMonitor绑定Hadoop_exporter Service，让Prometheus可以监控Hadoop集群。

S5，通过PrometheusRule对象创建告警规则、配置alertmanager.yml文件和设置告警接收人等信息，其中，告警规则可以通过创建的PrometheusRule对象进行增删改查。由Alertmanager接收Prometheus的告警信息并通知用户。

上面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，不能理解为对本发明保护范围的限制。

总之，本发明虽然列举了上述优选实施方式，但是应该说明，虽然本领域的技术人员可以进行各种变化和改型，除非这样的变化和改型偏离了本发明范围，否则都应该包括在本发明的保护范围内。

Claims

1.PK体系下基于容器化技术构建和监控Hadoop集群与告警的方法，其特征在于，包括如下步骤：

所述步骤S1中，在节点服务器上搭建k8s包括步骤如下：

S12.编写自动化脚本，并将选取的节点信息、镜像信息和磁盘设备名信息配置在自动化脚本的hosts文件中；

编写自动化脚本包含如下步骤：

a）设置ssh免密登录其他节点；

b）k8s服务器环境设置，包含删除操作***默认安装、关闭selinux和设置***参数；

c）安装并启动Docker服务；

d）设置节点服务器通用配置，生成并分发集群所需相关证书，安装kubeconfig配置文件，通用配置包括环境变量配置、下载kubectl工具；

e）部署Harbor，安装并启动Harbor服务，此步骤为可选择性的部署私有镜像仓库；

f）如果k8s设置了集群高可用，准备代理节点所需要的相关安装文件，包括keepalived和haproxy，对其进行配置；

g）准备管理节点所需要的相关安装文件以及相关的证书，如果etcd和aggregator-proxy证书没创建时进行创建；

i）准备Flannel服务所需的相关安装文件；

j）安装存储服务；

k）部署k8s所有插件服务；

S13.在节点服务器上执行自动化脚本，一键安装k8s；

2.如权利要求1所述的PK体系下基于容器化技术构建和监控Hadoop集群与告警的方法，其特征在于，所述步骤S1中，k8s的网络采用Flannel服务，Flannel服务选用DaemonSet方式部署在k8s中，部署包括如下步骤：

S111.创建Flannel的相关目录；

S112.配置Flannel服务的DaemonSet的yaml文件；

S113.下载Flannel服务的网络插件；

S114.运行Flannel网络；

S115.在k8s上轮询等待Flannel运行。

3.如权利要求2所述的PK体系下基于容器化技术构建和监控Hadoop集群与告警的方法，其特征在于，所述步骤S1中，所述镜像仓库服务中的镜像是通过Docker制作的与PK体系适配的镜像和通过Docker从镜像仓库服务中拉取得到的。

4.如权利要求3所述的PK体系下基于容器化技术构建和监控Hadoop集群与告警的方法，其特征在于，通过Docker制作与PK体系适配的镜像包括如下步骤：

S1111.在PK体系的节点服务器下安装Docker环境；

S1112.获取Kylin操作***镜像并上传到镜像仓库服务中；

S1113.获取Kylin操作***下的应用到目标文件；

S1114.创建镜像；

S1115.上传创建的镜像到私有镜像仓库。

5.如权利要求4所述的PK体系下基于容器化技术构建和监控Hadoop集群与告警的方法，其特征在于，所述步骤S2中，使用Ansible自动化部署Prometheus，包括如下步骤：

S21.在节点服务器上拉取Prometheus框架；

S22.创建Prometheus组件模板文件和自定义对象模板文件；

S23.将相关镜像替换为PK适配下的镜像写在文件中；

6.如权利要求5所述的PK体系下基于容器化技术构建和监控Hadoop集群与告警的方法，其特征在于，所述步骤S3中，使用Ansible自动化部署Hadoop集群，部署Hadoop集群中的HDFS集群包括步骤如下：

S31.构建Hadoop镜像；

S32.将Hadoop 配置文件和启动脚本放置于ConfigMap中；

S33.编写HDFS 集群中的NameNode角色的NameNode.yaml文件；

S34.部署NameNode角色；

S35.编写HDFS 集群中的DataNode角色的DataNode.yaml文件；

S36.部署DataNode角色。

7.如权利要求6所述的PK体系下基于容器化技术构建和监控Hadoop集群与告警的方法，其特征在于，所述步骤S3中，使用Ansible自动化部署Hadoop集群，部署Hadoop集群中的YARN集群包括步骤如下：

S331.构建Hadoop镜像；

S332.将Hadoop 配置文件和启动脚本放置于ConfigMap中；

S334部署ResourceManager角色；

S335.编写YARN 集群中的NodeManager角色的NodeManager.yaml文件；

S336.部署NodeManager角色。