CN110069349A

CN110069349A - 一种基于大数据平台的资源消耗核算***

Info

Publication number: CN110069349A
Application number: CN201910367998.1A
Authority: CN
Inventors: 陈政; 蔡灿; 张翼飞
Original assignee: Chongqing Tianpeng Network Co Ltd
Current assignee: Chongqing Tianpeng Network Co Ltd
Priority date: 2019-05-05
Filing date: 2019-05-05
Publication date: 2019-07-30

Abstract

本发明提供了一种基于大数据平台的资源消耗核算***，属于计算机领域。本发明侧重于企业自建大数据平台的资源消耗核算，与公有云厂商面向所有用户的核算规则相比，更切合企业内部实际需要。同时核算规则简单易懂通用性高，统计指标按照实际使用量计算，规避了不必要的计费资源消耗负担。

Description

一种基于大数据平台的资源消耗核算***

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种基于大数据平台的资源消耗核算***。

背景技术

随着科学技术和商品经济的发展，资源消耗结构逐渐发生变化，资源消耗核算对于企业能够立足于日益激烈的市场竞争环境之中起着关键作用。然而现有的资源消耗核算不能反映各生产环节中的资源利用情况，不利于提高经济效益，也不利于改善环境绩效。

企业的各个部门是相互独立的，资源消耗数据信息不能相互共享，形成信息孤岛。从产品的设计环节开始，到产品最后的售后环节，每个环节都产生大量的数据信息，如果不能及时准确的将这些信息整合应用，那么企业的资源消耗控制和管理就会受到很大的限制,且企业各部门分工精细，使用软件各不相同，造成部门与部门间信息无法共享，数据信息搜集依赖于人工统计。

随着移动互联网技术的发展，当前诸多公司在内部自建大数据平台，但大数据平台的建设与运营资源消耗高昂，需要通过科学的方式核算资源消耗，并分摊到实际消耗了平台资源的业务部门。当前业界大多以资源隔离的方式，按照一次性划分给业务方的服务器内存、CPU数量等计算固定资源消耗，此种方式的弊端在于不够灵活，对于业务方而言划分的资源经常处于闲置状态并未使用，导致资源消耗过高不符合实际情况。另外有部分公有云厂商提供大数据平台服务，部分有采用动态计费的方式，按照用户单次实际使用的资源计费，但其计费单价固定不透明，对用户而言单价规则不明确存在偏高的情况，不满足用户对内部费用核算的实际需求。

因此，在长期的研发当中，发明人对如何实现按照用户实际使用的资源进行费用核算以及结合公司内部核算场景采用更符合内部需要的单价核算方法进行了大量的研究，提出了一种基于动态资源消耗计费的大数据平台资源消耗核算方法，以解决上述技术问题之一。

发明内容

本发明的目的在于提供一种基于大数据平台的资源消耗核算***，能够解决上述提到的至少一个技术问题。具体方案如下：

一种基于大数据平台的资源消耗核算***，该资源消耗核算***包括用户终端以及hadoop大数据平台服务器,其特征在于：

所述用户终端与所述hadoop大数据平台服务器通过有线或者无线网络建立通信连接，并交互数据信息；

所述用户终端包括测算单元、消耗数据获取单元以及消耗核算单元；

资源消耗所述测算单元从所述hadoop大数据平台服务器中获取企业内部实际支出数据，并结合预设的硬件设备使用情况，计算出以小时为单位的硬件设备使用的元数据，其中所述预设的硬件设备使用情况包括物理服务器的CPU、内存、磁盘空间的容量；

所述消耗数据获取单元从所述hadoop大数据平台服务器中获取任务运行日志，从所述任务运行日志中解析并获取实际的硬件设备使用情况，并将解析获得的所述实际的硬件设备使用情况发送给所述消耗核算单元，其中所述实际的硬件设备使用情况包括，物理服务器的CPU、内存、磁盘空间消耗指标；

所述消耗核算单元接收所述实际的硬件设备使用情况，并向所述测算单元发送获取请求，以从所述测算单元获取硬件设备使用的元数据，所述消耗核算单元根据所述硬件设备使用的元数据、所述实际的硬件设备使用情况来资源消耗进行资源消耗核算。

进一步的，所述企业内部实际支出数据包括服务器采购数据、机房托管数据、网络带宽数据，服务器采购数据以次为核算单位，机房托管数据和网络带宽数据是以年为核算单位；

所述结合预设的硬件设备使用情况，计算出以小时为单位的硬件设备使用的元数据，具体包括：

预设CPU、内存、磁盘空间三者的资源消耗比例为1:2:100，每个月CPU资源消耗为F_CPU_M，每个月内存资源消耗为F_MEM_M，每个月磁盘资源消耗为F_DISK_M；

CPU资源消耗的元数据为PF_CPU＝F_CPU_M/A/30/24；

内存资源消耗的元数据为PF_MEM＝F_MEM_M/B/30/24；

磁盘资源消耗的元数据为PF_DISK＝F_DISK_M/C/30/24。

其中，A为实际CPU总数量、B为实际内存总数量、C为磁盘总数量。

进一步的，所述消耗核算单元根据所述硬件设备使用的元数据、所述实际的硬件设备使用情况来进行资源消耗核算具体包括：

将所述服务器采购数据按照预设的第一使用期限进行拆分，得到拆分后的服务器采购数据F_P_M；

其中，所述预设的第一使用期限为5年资源消耗。

进一步的，所述消耗核算单元根据所述硬件设备使用的元数据、所述实际的硬件设备使用情况来进行资源消耗核算具体包括：将机房托管数据和网络带宽数据分别按照第二使用期限进行拆分，得到拆分后的每个月的机房托管数据F_S_M和网络带宽数据F_N_M资源消耗。

进一步的，所述企业内部实际支出数据通过如下公式计算：

F_M＝F_P_M+F_S_M+F_N_M

其中，F_M为所述企业内部实际支出数据，F_P_M为所述拆分后的服务器采购数据，F_S_M为拆分后的机房托管数据，F_N_M为拆分后的网络带宽数据

进一步的，在所述消耗数据获取单元从所述hadoop大数据平台服务器中获取任务运行日志之前，具体包括：

基于yarn技术动态分配计算资源，在每一项任务执行之后，将执行过程中消耗的资源数据记录在所述任务运行日志中。

进一步的，从所述任务运行日志中解析并获取实际的硬件设备使用情况，具体包括：

基于yarn技术动态分配计算资源是依据计算任务执行时生成的唯一标识application_id，调取服务器的历史任务API接口得到日志记录数据，从所述得到日志记录数据中提取vCore-second指标，并将提取到的所述vCore-second指标作为任务在运行时间内的消耗CPU核心数量，从所述得到日志记录数据中提取Mb-second指标作为任务在运行时间内消耗的内存数量。

进一步的，将核算任务往目标表写入数据，并将目标表占用的磁盘存储空间纳入资源消耗核算资源消耗。

进一步的，所述将目标表占用的磁盘存储空间纳入资源消耗核算，具体包括：

从所述hadoop大数据平台服务器获取Hive数据表，调取所述Hive数据表中元数据库的信息，得到所述目标表占用的磁盘存储空间的资源消耗为S_T；

按照预设的第三使用期限进行核算，并使用如下公式来计算单个计算任务的资源消耗：

F_C＝PF_CPU*USE_CPU+PF_MEM*USE_MEM

其中，所述第三使用期限以天为计算单位，F_C为所述单个计算任务的资源消耗，PF_CPU为CPU资源消耗的元数据，USE_CPU为CPU资源消耗数量，PF_MEM为内存资源消耗的元数据，USE_MEM为内存资源消耗数量；

使用如下公式来计算单个数据表存储的资源消耗：

F_S＝PF_DISK*S_T

其中，F_S为单个数据表存储的资源消耗，S_T为磁盘存储空间的资源消耗，PF_DISK为磁盘资源消耗的元数据。

进一步的，所述消耗核算单元根据所述硬件设备使用的元数据、所述实际的硬件设备使用情况来进行资源消耗核算，具体包括：

累加每天所有计算任务的资源消耗F_C、数据表存储的资源消耗，并按照计算任务和数据表存储的归属用户、归属部门进行分类统计，以获得业务对象的资源消耗。

本发明实施例的上述方案与现有技术相比，至少具有以下有益效果：

基于本发明可测算基于hadoop的大数据平台的资源消耗，便于企业内部做好资源消耗管控，降低资源浪费。本发明侧重于企业自建大数据平台的资源消耗核算，与公有云厂商面向所有用户的核算规则相比，更切合企业内部实际需要。同时核算规则简单易懂通用性高，统计指标按照实际使用量计算，规避了不必要的计费资源消耗负担。

附图说明

此处的附图被并入说明书中的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了本发明的资源消耗核算***的结构框图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述……，但这些……不应限于这些术语。这些术语仅用来将……区分开。例如，在不脱离本发明实施例范围的情况下，第一……也可以被称为第二……，类似地，第二……也可以被称为第一……。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者装置中还存在另外的相同要素。

下面结合附图详细说明本发明的可选实施例。

由于大数据平台主要消耗在于内存、CPU、磁盘空间的物理资源，基于每个月实际总资源消耗折算内存、CPU、磁盘空间的消耗的元数据；

CPU资源消耗的元数据为PF_CPU＝F_CPU_M/A/30/24；

内存资源消耗的元数据为PF_MEM＝F_MEM_M/B/30/24；

磁盘资源消耗的元数据为PF_DISK＝F_DISK_M/C/30/24。

其中，所述预设的第一使用期限为5年资源消耗。

进一步的，所述企业内部实际支出数据通过如下公式计算：

F_M＝F_P_M+F_S_M+F_N_M

F_C＝PF_CPU*USE_CPU+PF_MEM*USE_MEM

使用如下公式来计算单个数据表存储的资源消耗：

F_S＝PF_DISK*S_T

在上述原理的中，本申请所述的基于大数据平台的资源消耗核算***可以通过现有的编程语言及编程手段，以封装或者非封装的形式存储于计算机可读介质上，并且根据如图1中所记载的逻辑结构或者原件构成图，来实现通过执行设备包括但不限于电子设备的执行与运算。简单来讲，本申请所述的总体方案主要包括用户终端以及hadoop大数据平台服务器,所述用户终端与所述hadoop大数据平台服务器通过有线或者无线网络建立通信连接，并交互数据信息,所述用户终端包括测算单元、消耗数据获取单元以及消耗核算单元。并且具体来讲，在资源消耗的元数据核算下，其通过获取数据平台建设实际总支出，然后获取数据平台建设单月支出，在再上述数据基础的条件下获取数据平台CPU、内存、磁盘的总容量的基础上，得到数据平台CPU、内存、磁盘的资源消耗的元数据。

在获取计算任务实际资源消耗的情况下，基于大数据平台的资源消耗资源消耗核算***执行的步骤可以被归纳成如下的内容：1)获取计算任务产生的唯一识别编号；2)根据任务编号获得具体日志获取接口；3)获取任务运行之后的日志记录文件；4)获取日志记录文件中的CPU、内存消耗数据；5)按小时为单位折算任务消耗的CPU和内存；6)获取计算任务写入的目标hive数据表；7)从hive元数据库中获取数据表的存储空间；8)获取任务实际CPU、内存、磁盘的资源消耗总量。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现，相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

需要说明的是，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于大数据平台的资源消耗核算***，该资源消耗核算***包括用户终端以及hadoop大数据平台服务器,其特征在于：

2.根据权利要求1所述的基于大数据平台的资源消耗核算***，其特征在于，所述企业内部实际支出数据包括服务器采购数据、机房托管数据、网络带宽数据，服务器采购数据以次为核算单位，机房托管数据和网络带宽数据是以年为核算单位；

CPU资源消耗的元数据为PF_CPU＝F_CPU_M/A/30/24；

内存资源消耗的元数据为PF_MEM＝F_MEM_M/B/30/24；

磁盘资源消耗的元数据为PF_DISK＝F_DISK_M/C/30/24；

3.根据权利要求2所述的基于大数据平台的资源消耗核算***，其特征在于，所述消耗核算单元根据所述硬件设备使用的元数据、所述实际的硬件设备使用情况来进行资源消耗核算具体包括：

其中，所述预设的第一使用期限为5年资源消耗。

4.根据权利要求2或3之一所述的基于大数据平台的资源消耗核算***，其特征在于，所述消耗核算单元根据所述硬件设备使用的元数据、所述实际的硬件设备使用情况来进行资源消耗核算具体包括：将机房托管数据和网络带宽数据分别按照第二使用期限进行拆分，得到拆分后的每个月的机房托管数据F_S_M和网络带宽数据F_N_M资源消耗。

5.根据权利要求4所述的基于大数据平台的资源消耗核算***，其特征在于，所述企业内部实际支出数据通过如下公式计算：

F_M＝F_P_M+F_S_M+F_N_M

其中，F_M为所述企业内部实际支出数据，F_P_M为所述拆分后的服务器采购数据，F_S_M为拆分后的机房托管数据，F_N_M为拆分后的网络带宽数据。

6.根据权利要求1所述的基于大数据平台的资源消耗核算***，其特征在于，在所述消耗数据获取单元从所述hadoop大数据平台服务器中获取任务运行日志之前，具体包括：

7.根据权利要求1或6之一所述的基于大数据平台的资源消耗核算***，其特征在于，从所述任务运行日志中解析并获取实际的硬件设备使用情况，具体包括：

8.根据权利要求7所述的基于大数据平台的资源消耗核算***，其特征在于，将核算任务往目标表写入数据，并将目标表占用的磁盘存储空间纳入资源消耗核算资源消耗。

9.根据权利要求8所述的基于大数据平台的资源消耗核算***，其特征在于，所述将目标表占用的磁盘存储空间纳入资源消耗核算，具体包括：

F_C＝PF_CPU*USE_CPU+PF_MEM*USE_MEM

使用如下公式来计算单个数据表存储的资源消耗：

F_S＝PF_DISK*S_T

10.根据权利要求9所述的基于大数据平台的资源消耗核算***，其特征在于，所述消耗核算单元根据所述硬件设备使用的元数据、所述实际的硬件设备使用情况来进行资源消耗核算，具体包括：