CN107346321A

CN107346321A - 数据仓库管理方法及装置

Info

Publication number: CN107346321A
Application number: CN201610299462.7A
Authority: CN
Inventors: 刘志成
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2016-05-06
Filing date: 2016-05-06
Publication date: 2017-11-14

Abstract

本申请提供了一种数据仓库管理方法及装置，其中的方法包括：根据数据仓库的元数据确定指标的引用热度；根据指标的引用热度、指标在生命周期中的当前状态以及生命周期的状态跳转规则确定所述指标在生命周期中需要跳转的状态；将所述需要跳转的状态作为所述指标在生命周期中的当前状态；其中，所述指标在生命周期中的当前状态被作为数据仓库管理参数。本申请提供的上述技术方案提高了数据仓库的数据维护自动化程度以及管理效率，并提高了数据仓库的管理精度，丰富了数据仓库的建设评价方式。

Description

数据仓库管理方法及装置

技术领域

本申请涉及计算机技术，尤其涉及一种数据仓库管理方法以及数据仓库管理装置。

背景技术

数据仓库(Data Warehouse，可简写为DW或DWH)是一种结构化数据环境。数据仓库可以为数据分析、数据报表以及数据挖掘等应用提供数据支持。

数据仓库管理是数据仓库运维的一个核心内容，且数据仓库管理通常包括数据维护以及数据仓库的建设评价等。现有的数据仓库的数据维护方法通常为：数据仓库管理员定期/不定期地分析数据仓库的元数据，并根据分析结果整理出失效的数据表清单，数据仓库管理员将失效的数据表清单提供给相应的技术负责人，由技术负责人对失效的数据表清单中的各个表分别进行失效确认，并对失效确认后的各个表进行相应的处理，如删除相应的表等。而现有的数据仓库的建设评价通常为：根据数据仓库中的表的被访问次数来评价数据仓库的建设质量等级。

发明人在实现本申请过程中发现，现有的数据仓库的数据维护方法还停留在人工管理阶段，数据仓库管理工作量大，管理效率低；另外，现有的数据仓库的数据维护方法是以表为管理粒度，管理粒度较粗，从而影响了数据仓库的管理精度；还有，现有的数据仓库的建设评价方式较单一，有待于进一步丰富。

发明内容

本申请的目的是提供一种数据仓库管理方法及装置。

根据本申请的一个方面，提供了一种数据仓库管理方法，且该方法主要包括以下步骤：根据数据仓库的元数据确定指标的引用热度；根据指标的引用热度、指标在生命周期中的当前状态以及生命周期的状态跳转规则确定所述指标在生命周期中需要跳转的状态；将所述需要跳转的状态作为所述指标在生命周期中的当前状态；其中，所述指标在生命周期中的当前状态被作为数据仓库管理参数。

根据本申请的另一个方面，还提供了一种数据仓库管理装置，且该装置主要包括：确定引用热度模块，用于根据数据仓库的元数据确定指标的引用热度；确定状态模块，用于根据指标的引用热度、指标在生命周期中的当前状态以及生命周期的状态跳转规则确定所述指标在生命周期中需要跳转的状态；更新状态模块，用于将所述需要跳转的状态作为所述指标在生命周期中的当前状态；其中，所述指标在生命周期中的当前状态被作为数据仓库管理参数。

与现有技术相比，本申请具有以下优点：本申请通过利用数据仓库的元数据(如技术元数据)可以获得用于表征指标的被引用情况的引用热度；通过针对指标设置包括多个状态的生命周期以及生命周期的状态跳转规则，可以根据指标的引用热度使指标在生命周期的状态间跳转；由于指标在生命周期中的当前状态可以充分反应出指标的使用情况，因此，本申请的指标在生命周期中的当前状态可以作为数据仓库管理参数；从而本申请在不需要对数据仓库进行人工管理的同时，可以在指标这一粒度的基础上，对数据仓库进行数据维护以及数据仓库建设质量评价等数据仓库管理操作；由此可知，本申请提高了数据仓库的数据维护自动化程度以及管理效率，并提高了数据仓库的管理精度，丰富了数据仓库的建设评价方式。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本申请实施例一的数据仓库管理方法流程图；

图2为本申请实施例一的根据数据仓库的元数据确定指标的引用热度的一个具体例子的流程图；

图3为本申请实施例一的根据数据仓库的元数据确定指标的引用热度的另一个具体例子的流程图；

图4为本申请实施例一的根据指标的业务属性信息将满足预定业务属性相似度要求的指标设置于同一个指标组中的一个具体例子的流程图；

图5为本申请实施例一的确定指标在生命周期中需要跳转的状态的示意图；

图6为本申请实施例二的数据仓库管理装置的一结构示意图；

图7为本申请实施例二的数据仓库管理装置的另一结构示意图；

图8为本申请实施例二的确定引用热度模块的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请的实施例作详细描述。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然本申请的流程图将各项操作描述成顺序的处理，但是，其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

本实施例中的服务器包括但不限于单个网络服务器、多个网络服务器组成的服务器组或者基于云计算(Cloud Computing)的由大量计算机或者网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中，所述服务器可以接入网络并与网络中的其他设备进行信息交互操作。其中，所述服务器所能够接入的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。

需要说明的是，所述服务器以及网络等仅为举例，其他现有的或今后可能出现的服务器或者网络如可适用于本申请，也应包含在本申请保护范围以内，并以引用方式包含于此。

后面描述所讨论的方法(其中一些通过流程图示出)实施例可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合的形式来实施。当用软件、固件、中间件或者微代码来实施时，用以实施必要任务的程序代码或者代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。

这里所公开的具体结构和功能细节仅仅是代表性的，并且是用于描述本申请的示例性实施例的目的，但是，本申请可以通过许多替换形式来具体实现，并且不应当被解释成仅仅受限于这里所阐述的实施例。

应当理解的是，虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元，但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说，在不背离示例性实施例的范围的情况下，第一单元可以被称为第二单元，并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。

应当理解的是，当一个单元被称为“连接”或者“耦合”到另一个单元时，其可以直接连接或者耦合到所述另一个单元，也可以存在中间单元。与此相对的，当一个单元被称为“直接连接”或者“直接耦合”到另一个单元时，则不存在中间单元。应当按照类似的方式来解释被用于描述单元之间的关系的其他词语(例如，“处于...之间”相比于“直接处于...之间”，“与...邻近”相比于“与...直接邻近”等等)。

这里所使用的术语仅仅是为了描述具体实施例，而不是意图限制示例性实施例。除非上下文中明确地另有所指，否则，这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是，这里所使用的术语“包括”和/或“包含”规定了所陈述的特征、整数、步骤、操作、单元和/或组件的存在，而不排除存在或者添加一个或更多的其他特征、整数、步骤、操作、单元、组件和/或其组合。

还应当提到的是，在一些替换的实现方式中，所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说，取决于所涉及的功能/动作，相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。

技术术语说明：

指标，通常包括基于一个维度或者多个维度对数据进行聚合统计而获得的计算结果；

数据仓库，主要用于提供数据支持，如针对分析性报告以及决策等提供数据支持；

数据仓库的元数据，是指描述数据仓库中的数据的数据，元数据可以包括：技术元数据、业务元数据以及管理元数据等；

技术元数据，是元数据的一种，如对数据结构以及数据处理等方面的特征进行描述的数据；

指标的引用热度，用于表征指标当前或者预期被引用的情况，如指标当前或者预期被引用的次数越多则指标的引用热度越高；

生命周期，包括多个状态，且生命周期中的各状态可以反应出指标的生存情况，如生命周期可以包括新生代、第一存活代、第二存活代、老年代以及休眠代这五种状态；

指标组，是指由一个指标或者多个指标组成的指标集合。

下面结合附图对本申请的技术方案作进一步详细描述。

实施例一、数据仓库管理方法。

图1为本实施例的数据仓库管理方法流程图。在图1中，本实施例的方法主要包括：步骤S100、步骤S110以及步骤S120。本实施例的方法通常运行于能够对数据仓库执行管理操作的设备中，如该方法运行于能够访问数据仓库的服务器中。本实施例不限制运行数据仓库管理方法的具体硬件环境。

下面对本实施例的方法所包含的各步骤分别进行说明。

S100、根据数据仓库的元数据确定指标的引用热度。

作为示例，本实施例中的指标的引用热度主要用于描述指标被引用的情况，如一指标在其他指标计算过程中被引用的情况等。本实施例中的指标的引用热度可以具体为一指标在其他指标计算过程中被引用的次数(下述简称为引用次数)或者被引用的频率等。

作为示例，本实施例根据数据仓库的元数据(如技术元数据)确定指标的引用热度的一个具体例子如图2所示。

图2中，S200、根据数据仓库的技术元数据中的字段级血缘关系确定指标的引用次数，如根据数据仓库的技术元数据中的字段级血缘关系对指标的直接下游节点的数量进行统计，从而获得指标的引用次数。

S210、根据指标的引用次数来确定该指标的引用热度；如将指标的引用次数作为该指标的引用热度，再如预先为各引用热度设置相应的引用次数范围，这样，本实施例可以根据指标的引用次数所属的引用次数范围来确定该指标的引用热度。

作为示例，本实施例根据数据仓库的元数据(如技术元数据)确定指标的引用热度的一个具体例子如图3所示。

图3中，S300、根据数据仓库的技术元数据中的字段级血缘关系确定指标组中各指标的引用次数；如根据数据仓库的技术元数据中的字段级血缘关系对指标组中各指标的直接下游节点的数量分别进行统计，从而获得指标组中各指标的引用次数。

S310、根据指标组中各指标的引用次数确定指标组的引用热度；如计算指标组中所有指标的引用次数之和，并利用所有指标的引用次数之和计算指标组中各指标的引用次数的平均值(即指标组中指标的平均引用次数，也即计算出的和与指标组中指标数量的商)，并将该平均引用次数作为指标组的引用热度；再如计算指标组中所有指标的引用次数之和，并利用所有指标的引用次数之和计算指标组中指标的平均引用次数(即上述计算出的和与指标组中指标数量的商)，本实施例预先为各引用热度设置有相应的引用次数范围，这样，本实施例可以根据上述平均引用次数所属的引用次数范围来确定该指标组的引用热度。

S320、将指标组的引用热度作为该指标组中各指标的引用热度。本实施例通过将指标组的引用热度作为该指标组中各指标的引用热度，避免了由于单个指标的孤立性而导致的确定出的指标的引用热度存在片面性的问题。

本实施例中的指标组中设置有至少一个指标，在一个指标组中设置有多个指标的情况下，该指标组中的所有指标之间应满足预定业务属性相似度要求，即一个指标组中的所有指标之间应具有一定的业务属性相似性。

作为示例，本实施例可以根据指标的业务属性信息将满足预定业务属性相似度要求的指标设置于同一个指标组中。本实施例中的指标的业务属性信息可以包括：业务名称、指标粒度、时间窗口、统计主体及统计类型等；其中的指标粒度主要用于表征指标所属的主题，其中的时间窗口主要用于表征指标的统计周期，其中的统计主体主要用于表征指标的被统计对象，其中的统计类型主要用于表征指标的统计单位。也就是说，本实施例中的指标是利用业务名称、指标粒度、时间窗口、统计主体以及统计类型这五部分来描述的，即每一个指标都被拆解为业务名称、指标粒度、时间窗口、统计主体以及统计类型这五部分，且通过这五部分可以唯一界定出一个指标。一个具体的例子，设定需要为“品牌A的Vip客户近30天Pos机消费次数”设置一指标，则该指标的业务名称为：Pos机消费，该指标的指标粒度为：品牌A的Vip客户，该指标的时间窗口为：到当前时间为止30天，该指标的统计主体为：消费行为，该指标的统计类型为：次数。

作为示例，在指标的业务属性信息包括：业务名称、指标粒度、时间窗口、统计主体以及统计类型的情况下，本实施例的预定业务属性相似度要求可以具体为：指标的业务名称不同，但是指标的指标粒度、时间窗口、统计主体以及统计类型相同。即本实施例可以根据各指标的业务属性信息将具有不同业务名称，且具有相同的指标粒度、时间窗口、统计主体以及统计类型的不同指标设置于同一个指标组中。一个具体的例子，针对“品牌A的Vip客户近30天Pos机消费次数”这一指标以及“品牌A的Vip客户近30天现金消费次数”这一指标而言，这两个指标的指标粒度均为：品牌A的Vip客户，这两个指标的时间窗口均为：到当前时间为止30天，这两个指标的统计主体均为：消费行为，这两个指标的统计类型均为：次数；然而，这两个指标的业务名称并不相同，其中一个指标的业务名称为：Pos机消费，而另一个指标的业务名称为：现金消费，因此，本实施例可以将这两个指标设置于同一个指标组中。

作为示例，本实施例中的每一个指标组均设置有组标识，且指标组的组标识可以包括：指标粒度、时间窗口、统计主体以及统计类型等信息，即本实施例可以根据指标粒度、时间窗口、统计主体以及统计类型为指标组设置组标识，如由指标粒度、时间窗口、统计主体以及统计类型组成指标组的组标识。

作为示例，在指标组的组标识由指标粒度、时间窗口、统计主体以及统计类型组成的情况下，本实施例的根据指标的业务属性信息将满足预定业务属性相似度要求的指标设置于同一个指标组中的一个具体例子如图4所示。

图4中，S400、针对一个待分组指标而言，从预先存储的该待分组指标的业务属性信息中获取该待分组指标的指标粒度、时间窗口、统计主体以及统计类型。

S410、按照预定排列顺序使上述获取的指标粒度、时间窗口、统计主体以及统计类型形成一个字符串，即该待分组指标所属指标组的组标识。

S420、在已有的各指标组的组标识中进行查找，以判断已有的各指标组的组标识中是否已经存在与上述字符串相匹配的组标识；如果存在相匹配的组标识，则到步骤S430，否则，到步骤S440。

S430、将该待分组指标设置于相匹配的组标识所对应的指标组中。

S440、为该待分组指标设置新的指标组，并将该新的指标组的组标识设置为上述字符串。

本实施例可以利用图4所示的流程，将数据仓库中所有的指标分别设置于相应的指标组中。

S110、根据指标的引用热度、指标在生命周期中的当前状态以及生命周期的状态跳转规则确定指标在生命周期中需要跳转的状态。

作为示例，本实施例的生命周期是指：指标在其存续期间有可能经过的生命历程，本实施例的生命周期包括多个状态，然而，一个指标在其存续期间未必会经历生命周期所包含的所有状态。一个具体的例子，生命周期包括五个状态，即新生代、第一存活代、第二存活代、老年代以及休眠代；其中的新生代用于接纳新产生的指标，第一存活代用于接纳新生代和休眠代中引用热度上升的指标以及第二存活代和老年代中引用热度下降的指标，第二存活代用于接纳第一存活代中引用热度上升的指标，老年代用于接纳第二存活代中引用热度上升的指标，休眠代用于接纳新生代和第一存活代中引用热度不超过预定值(如零)的指标。

作为示例，在生命周期包括这五种状态的情况下，生命周期的状态跳转规则可以包括下述任意一个状态跳转规则或者任意多个状态跳转规则：

状态跳转规则一、新增加的指标进入新生代；

状态跳转规则二、新生代中引用热度为零的指标进入休眠代，引用热度不为零的指标进入第一存活代；

状态跳转规则三、第一存活代中引用热度上升的指标进入第二存活代，引用热度为零的指标进入休眠代，引用热度下降但不为零的指标仍保留在第一存活代中；

状态跳转规则四、第二存活代中引用热度下降的指标进入第一存活代，引用热度连续上升N次的指标进入老年代，且N大于0，引用热度没有变化的指标仍保留在第二存活代中；

状态跳转规则五、老年代中引用热度下降但不为零的指标以及引用热度上升的指标仍保留在老年代中，而引用热度为零的指标进入第一存活代；

状态跳转规则六、休眠代中引用热度上升的指标进入第一存活代，否则仍保留在休眠代中。

通常情况下，本实施例的方法会被反复执行，如根据预定时间间隔周期性的定时执行本实施例的方法；在该情况下，上述引用热度连续上升N次是指，在连续N次执行本实施例的方法的过程中，第二存活代中的指标的引用热度均上升。本实施例可以在指标由第一存活代态跳转至第二存活代后，记录该指标的引用热度连续上升的次数(即记录指标连续位于第二存活代的次数)，以便于判断该指标是否应由第二存活代进入老年代。

本实施例的根据指标的引用热度、指标在生命周期中的当前状态以及生命周期的状态跳转规则确定指标在生命周期中需要跳转的状态的一个例子如图5所示。

图5中，对于一个新定义的指标，可以认为该指标的引用热度为初始值(如引用热度为零)，且该指标在生命周期中的当前状态为初始值(如当前状态为空)，此时，根据上述状态跳转规则一可以确定出该指标在生命周期中需要跳转的状态为新生代。对于位于新生代的指标(即指标在生命周期中的当前状态为新生代)，如果其引用热度大于零，则根据上述状态跳转规则二可以确定出该指标在生命周期中需要跳转的状态为第一存活代，而如果其引用热度为零，则根据上述状态跳转规则二可以确定出该指标在生命周期中需要跳转的状态为休眠代。对于位于第一存活代的指标(即指标在生命周期中的当前状态为第一存活代)，如果其引用热度上升，则根据上述状态跳转规则三可以确定出该指标在生命周期中需要跳转的状态为第二存活代，如果其引用热度为零，则根据上述状态跳转规则三可以确定出该指标在生命周期中需要跳转的状态为休眠代，如果其引用热度下降但是不为零，则根据上述状态跳转规则三可以确定出该指标在生命周期中需要跳转的状态为第一存活代(即仍需要继续保留在第一存活代中)。对于位于第二存活代的指标(即指标在生命周期中的当前状态为第二存活代)，如果其引用热度连续上升了N次，则根据上述状态跳转规则四可以确定出该指标在生命周期中需要跳转的状态为老年代，如果其引用热度下降，则根据上述状态跳转规则四可以确定出该指标在生命周期中需要跳转的状态为第一存活代。对于位于老年代的指标(即指标在生命周期中的当前状态为老年代)，无论其引用热度上升还是下降，只要其引用热度不为零，则根据上述状态跳转规则五可以确定出该指标在生命周期中需要跳转的状态为老年代(即仍需要继续保留在老年代中)，而如果其引用热度下降为零，则根据上述状态跳转规则五可以确定出该指标在生命周期中需要跳转的状态为第一存活代。对于位于休眠代的指标(即指标在生命周期中的当前状态为休眠代)，如果其引用热度上升，则根据上述状态跳转规则六可以确定出该指标在生命周期中需要跳转的状态为第一存活代，如果其引用热度没有上升，则根据上述状态跳转规则六可以确定出该指标在生命周期中需要跳转的状态为休眠代(即仍需要继续保留在休眠代中)。

本实施例中的新生代、第一存活代、第二存活代、老年代以及休眠代仅仅为指标的生命周期的不同状态的一种称谓而已，本实施例并不限制生命周期中的五种状态的具体名称，如生命周期中的五种状态可以称为第一代、第二代、第三代、***以及第五代等。另外，上述状态跳转规则仅为一种具体的实现方式，状态跳转规则可以根据实际需求进行设定，如可以为上述状态跳转规则中的引用热度上升以及引用热度下降设置相应的阈值，从而在指标的引用热度上升或者下降达到阈值的情况下，才进行状态的跳转等。本实施例不限制状态跳转规则的具体表现形式。

S120、将需要跳转的状态作为指标在生命周期中的当前状态。

作为示例，本实施例的数据仓库中记录有各指标在生命周期中的当前状态，本实施例可以利用上述确定出的指标需要跳转的状态来更新数据仓库中存储的相应指标的在生命周期中的当前状态；且本实施例的方法在每次执行过程中，通常都会对数据仓库中的所有指标在生命周期中的当前状态进行刷新。

由于本实施例中的指标在生命周期中的当前状态可以充分反映出指标在实际应用中的使用情况，因此，本申请的指标在生命周期中的当前状态可以作为数据仓库管理参数，即在数据仓库的数据维护以及数据仓库的建设评价等数据仓库管理过程中，基于指标在生命周期中的当前状态来执行相应的管理操作；下面以数据仓库的数据维护以及数据仓库的建设评价为例，对基于指标在生命周期中的当前状态来实现数据仓库管理进行说明。

作为示例，在对数据仓库进行数据维护的过程中，本实施例可以根据指标在生命周期中的当前状态确定出需要删除的指标，如对数据仓库中的各指标的当前状态分别进行识别，在识别出指标的当前状态为休眠代，且该指标的当前状态已经连续M(M大于1)次均为休眠代(即指标连续M次均位于休眠代)，则将该指标确定为需要删除的指标；由此本实施例可以仅从数据仓库中删除几乎丧失使用价值的指标，而保留了数据仓库中的其他数据(如基础数据等)。

作为示例，在对数据仓库的建设质量进行评价的过程中，本实施例可以根据指标在生命周期中的当前状态确定性能优良的指标数量，如通过统计获得数据仓库中的当前状态为老年代的指标数量(即统计数据仓库中位于老年代的指标数量)，然后，根据统计出的指标数量以及数据仓库中的指标总数量确定数据仓库的建设质量等级，如计算数据仓库中位于老年代的指标数量占指标总数量的百分比，该百分比越高则说明数据仓库的建设质量等级越高(即数据仓库的建设质量越好)。当然，本实施例还可以分别统计数据仓库中位于新生代、第一存活代、第二存活代以及休眠代中的指标数量，并针对统计出的位于不同代的指标数量以及数据仓库中的指标总数量进行综合考量，以确定数据仓库的建设质量等级。

实施例二、数据仓库管理装置。

本实施例的装置通常设置于能够对数据仓库执行管理操作的设备中，如该装置设置于能够访问数据仓库的服务器中。本实施例不限制设置有数据仓库管理装置的设备的具体表现形式。

图6为本实施例的数据仓库管理装置示意图。在图6中，本实施例的装置主要包括：确定引用热度模块600、确定状态模块610以及更新状态模块620。在一个具体应用场景中，本实施例的数据仓库管理装置还可以可选的包括设置指标组模块630、数据维护模块640以及数据仓库评价模块650中的任意一个模块或者多个模块(如图7所示)。

确定引用热度模块600主要用于根据数据仓库的元数据确定指标的引用热度；且确定引用热度模块600主要包括：第一子模块601、第二子模块602以及第三子模块603(如图8所示)；其中的第一子模块601主要用于根据数据仓库的技术元数据确定指标组中各指标的引用次数；其中的第二子模块602主要用于根据指标组中各指标的引用次数确定指标组的引用热度；其中的第三子模块603主要用于将指标组的引用热度作为该指标组中各指标的引用热度。

作为示例，确定引用热度模块600根据数据仓库的元数据(如技术元数据)确定指标的引用热度的一个具体例子为：确定引用热度模块600根据数据仓库的技术元数据中的字段级血缘关系确定指标的引用次数，如确定引用热度模块600根据数据仓库的技术元数据中的字段级血缘关系对指标的直接下游节点的数量进行统计，从而获得指标的引用次数；确定引用热度模块600根据指标的引用次数来确定该指标的引用热度；如确定引用热度模块600将指标的引用次数作为该指标的引用热度，再如确定引用热度模块600中预先存储有各引用热度对应的引用次数范围，这样，确定引用热度模块600可以根据指标的引用次数所属的引用次数范围来确定该指标的引用热度。

作为示例，确定引用热度模块600根据数据仓库的元数据(如技术元数据)确定指标的引用热度的一个具体例子为：确定引用热度模块600(如第一子模块601)根据数据仓库的技术元数据中的字段级血缘关系确定指标组中各指标的引用次数；如确定引用热度模块600(如第一子模块601)根据数据仓库的技术元数据中的字段级血缘关系对指标组中各指标的直接下游节点的数量分别进行统计，从而获得指标组中各指标的引用次数；确定引用热度模块600(如第二子模块602)根据指标组中各指标的引用次数确定指标组的引用热度；如确定引用热度模块600(如第二子模块602)计算指标组中所有指标的引用次数之和，并利用所有指标的引用次数之和计算指标组中各指标的引用次数的平均值(即指标组中指标的平均引用次数，也即计算出的和与指标组中指标数量的商)，并将该平均引用次数作为指标组的引用热度；再如确定引用热度模块600(如第二子模块602)计算指标组中所有指标的引用次数之和，并利用所有指标的引用次数之和计算指标组中指标的平均引用次数(即上述计算出的和与指标组中指标数量的商)，确定引用热度模块600(如第二子模块602)中预先存储有各引用热度对应的引用次数范围，这样，确定引用热度模块600(如第二子模块602)可以根据上述平均引用次数所属的引用次数范围来确定该指标组的引用热度。确定引用热度模块600(如第三子模块603)将指标组的引用热度作为该指标组中各指标的引用热度。确定引用热度模块600通过将指标组的引用热度作为该指标组中各指标的引用热度，避免了由于单个指标的孤立性而导致的确定出的指标的引用热度存在片面性的问题。

作为示例，本实施例的装置中的设置指标组模块630可以根据指标的业务属性信息将满足预定业务属性相似度要求的指标设置于同一个指标组中。

作为示例，本实施例中的指标的业务属性信息可以包括：业务名称、指标粒度、时间窗口、统计主体及统计类型等；其中的指标粒度主要用于表征指标所属的主题，其中的时间窗口主要用于表征指标的统计周期，其中的统计主体主要用于表征指标的被统计对象，其中的统计类型主要用于表征指标的统计单位。也就是说，本实施例中的指标是利用业务名称、指标粒度、时间窗口、统计主体以及统计类型这五部分来描述的，即每一个指标都被拆解为业务名称、指标粒度、时间窗口、统计主体以及统计类型这五部分，且通过这五部分可以唯一界定出一个指标。一个具体的例子，设定需要为“品牌A的Vip客户近30天Pos机消费次数”设置一指标，则该指标的业务名称为：Pos机消费，该指标的指标粒度为：品牌A的Vip客户，该指标的时间窗口为：到当前时间为止30天，该指标的统计主体为：消费行为，该指标的统计类型为：次数。

作为示例，在指标的业务属性信息包括：业务名称、指标粒度、时间窗口、统计主体以及统计类型的情况下，设置指标组模块630所使用的预定业务属性相似度要求可以具体为：指标的业务名称不同，但是指标的指标粒度、时间窗口、统计主体以及统计类型相同。即设置指标组模块630可以根据各指标的业务属性信息将具有不同业务名称，且具有相同的指标粒度、时间窗口、统计主体以及统计类型的不同指标设置于同一个指标组中。一个具体的例子，针对“品牌A的Vip客户近30天Pos机消费次数”这一指标以及“品牌A的Vip客户近30天现金消费次数”这一指标而言，这两个指标的指标粒度均为：品牌A的Vip客户，这两个指标的时间窗口均为：到当前时间为止30天，这两个指标的统计主体均为：消费行为，这两个指标的统计类型均为：次数；然而，这两个指标的业务名称并不相同，其中一个指标的业务名称为：Pos机消费，而另一个指标的业务名称为：现金消费，因此，设置指标组模块630可以将这两个指标设置于同一个指标组中。

作为示例，设置指标组模块630可以为每一个指标组均设置组标识，且设置指标组模块630为指标组所设置的组标识可以包括：指标粒度、时间窗口、统计主体以及统计类型等信息，即设置指标组模块630可以根据指标粒度、时间窗口、统计主体以及统计类型为指标组设置组标识，如由指标粒度、时间窗口、统计主体以及统计类型组成指标组的组标识。

作为示例，在指标组的组标识由指标粒度、时间窗口、统计主体以及统计类型组成的情况下，设置指标组模块630根据指标的业务属性信息将满足预定业务属性相似度要求的指标设置于同一个指标组中的一个具体例子为：

针对一个待分组指标而言，设置指标组模块630从预先存储的该待分组指标的业务属性信息中获取该待分组指标的指标粒度、时间窗口、统计主体以及统计类型；设置指标组模块630按照预定排列顺序使上述获取的指标粒度、时间窗口、统计主体以及统计类型形成一个字符串，即该待分组指标所属指标组的组标识；设置指标组模块630在已有的各指标组的组标识中进行查找，以判断已有的各指标组的组标识中是否已经存在与上述字符串相匹配的组标识；如果存在相匹配的组标识，则设置指标组模块630将该待分组指标设置于相匹配的组标识所对应的指标组中，否则，设置指标组模块630为该待分组指标设置新的指标组，并将该新的指标组的组标识设置为上述字符串。

确定状态模块610主要用于根据指标的引用热度、指标在生命周期中的当前状态以及生命周期的状态跳转规则确定所述指标在生命周期中需要跳转的状态。

作为示例，本实施例的装置所涉及的生命周期是指：指标在其存续期间有可能经过的生命历程，且本实施例的装置所涉及的生命周期包括有多个状态，然而，一个指标在其存续期间未必会经历该生命周期所包含的所有状态。

一个具体的例子，本实施例的装置所涉及的生命周期包括五个状态，即新生代、第一存活代、第二存活代、老年代以及休眠代；其中的新生代用于接纳新产生的指标，第一存活代用于接纳新生代和休眠代中引用热度上升的指标以及第二存活代和老年代中引用热度下降的指标，第二存活代用于接纳第一存活代中引用热度上升的指标，老年代用于接纳第二存活代中引用热度上升的指标，休眠代用于接纳新生代和第一存活代中引用热度不超过预定值(如零)的指标。

作为示例，在本实施例的装置所涉及的生命周期包括上述五种状态的情况下，确定状态模块610中存储的生命周期的状态跳转规则可以包括下述任意一个状态跳转规则或者任意多个状态跳转规则：

状态跳转规则一、新增加的指标进入新生代；

通常情况下，本实施例的装置会被反复调用执行，如根据预定时间间隔周期性的定时调用本实施例的装置，使装置中的各模型执行相应的操作；在该情况下，确定状态模块610中存储的状态跳转规则中的引用热度连续上升N次是指，在连续N次本实施例的装置被调用的过程中，第二存活代中的指标的引用热度均上升。确定状态模块610可以在指标由第一存活代态跳转至第二存活代后，记录该指标的引用热度连续上升的次数(即记录指标连续位于第二存活代的次数)，以便于确定状态模块610判断该指标是否应由第二存活代进入老年代。

确定状态模块610根据指标的引用热度、指标在生命周期中的当前状态以及生命周期的状态跳转规则确定指标在生命周期中需要跳转的状态的一个例子为：对于一个新定义的指标，确定状态模块610可以认为该指标的引用热度为初始值(如引用热度为零)，且该指标在生命周期中的当前状态为初始值(如当前状态为空)，此时，确定状态模块610根据上述状态跳转规则一可以确定出该指标在生命周期中需要跳转的状态为新生代。对于位于新生代的指标(即指标在生命周期中的当前状态为新生代)，如果其引用热度大于零，则确定状态模块610根据上述状态跳转规则二可以确定出该指标在生命周期中需要跳转的状态为第一存活代，而如果其引用热度为零，则确定状态模块610根据上述状态跳转规则二可以确定出该指标在生命周期中需要跳转的状态为休眠代。对于位于第一存活代的指标(即指标在生命周期中的当前状态为第一存活代)，如果其引用热度上升，则确定状态模块610根据上述状态跳转规则三可以确定出该指标在生命周期中需要跳转的状态为第二存活代，如果其引用热度为零，则确定状态模块610根据上述状态跳转规则三可以确定出该指标在生命周期中需要跳转的状态为休眠代，如果其引用热度下降但是不为零，则确定状态模块610根据上述状态跳转规则三可以确定出该指标在生命周期中需要跳转的状态为第一存活代(即仍需要继续保留在第一存活代中)。对于位于第二存活代的指标(即指标在生命周期中的当前状态为第二存活代)，如果其引用热度连续上升了N次，则确定状态模块610根据上述状态跳转规则四可以确定出该指标在生命周期中需要跳转的状态为老年代，如果其引用热度下降，则确定状态模块610根据上述状态跳转规则四可以确定出该指标在生命周期中需要跳转的状态为第一存活代。对于位于老年代的指标(即指标在生命周期中的当前状态为老年代)，无论其引用热度上升还是下降，只要其引用热度不为零，则确定状态模块610根据上述状态跳转规则五可以确定出该指标在生命周期中需要跳转的状态为老年代(即仍需要继续保留在老年代中)，而如果其引用热度下降为零，则确定状态模块610根据上述状态跳转规则五可以确定出该指标在生命周期中需要跳转的状态为第一存活代。对于位于休眠代的指标(即指标在生命周期中的当前状态为休眠代)，如果其引用热度上升，则确定状态模块610根据上述状态跳转规则六可以确定出该指标在生命周期中需要跳转的状态为第一存活代，如果其引用热度没有上升，则确定状态模块610根据上述状态跳转规则六可以确定出该指标在生命周期中需要跳转的状态为休眠代(即仍需要继续保留在休眠代中)。

本实施例中的新生代、第一存活代、第二存活代、老年代以及休眠代仅仅为指标的生命周期的不同状态的一种称谓而已，本实施例并不限制生命周期中的五种状态的具体名称，如生命周期中的五种状态可以称为第一代、第二代、第三代、***以及第五代等。另外，确定状态模块610中存储的上述状态跳转规则仅为一种具体的实现方式，确定状态模块610中存储的状态跳转规则可以根据实际需求进行设定，如确定状态模块610可以为上述状态跳转规则中的引用热度上升以及引用热度下降设置相应的阈值，从而在指标的引用热度上升或者下降达到阈值的情况下，才进行状态的跳转等。本实施例不限制确定状态模块610中所存储的状态跳转规则的具体表现形式。

更新状态模块620主要用于将需要跳转的状态作为指标在生命周期中的当前状态。

作为示例，本实施例的数据仓库中记录有各指标在生命周期中的当前状态，更新状态模块620可以利用确定状态模块610确定出的指标需要跳转的状态来更新数据仓库中存储的相应指标的在生命周期中的当前状态；且本实施例的装置在每次被调用的过程中，通常更新状态模块620都会对数据仓库中的所有指标在生命周期中的当前状态进行刷新。

由于本实施例中的指标在生命周期中的当前状态可以充分反映出指标在实际应用中的使用情况，因此，本申请中的指标在生命周期中的当前状态可以作为数据仓库管理参数，即在本实施例的装置对数据仓库进行数据维护以及数据仓库的建设评价等数据仓库管理过程中，基于指标在生命周期中的当前状态来执行相应的管理操作；下面以数据仓库的数据维护以及数据仓库的建设评价为例，对本实施例的装置基于指标在生命周期中的当前状态来实现数据仓库管理进行说明。

作为示例，在对数据仓库进行数据维护的过程中，数据维护模块640可以根据指标在生命周期中的当前状态确定出需要删除的指标，如数据维护模块640对数据仓库中的各指标的当前状态分别进行识别，在识别出指标的当前状态为休眠代，且该指标的当前状态已经连续M(M大于1)次均为休眠代(即指标连续M次均位于休眠代)，则数据维护模块640将该指标确定为需要删除的指标；由此本实施例的装置可以仅从数据仓库中删除几乎丧失使用价值的指标，而保留了数据仓库中的其他数据(如基础数据等)。

作为示例，在对数据仓库的建设质量进行评价的过程中，数据仓库评价模块650可根据指标在生命周期中的当前状态确定性能优良的指标数量，如数据仓库评价模块650通过统计获得数据仓库中的当前状态为老年代的指标数量(即统计数据仓库中位于老年代的指标数量)，然后，数据仓库评价模块650根据统计出的指标数量以及数据仓库中的指标总数量确定数据仓库的建设质量等级，如数据仓库评价模块650计算数据仓库中位于老年代的指标数量占指标总数量的百分比，该百分比越高则说明数据仓库的建设质量等级越高(即数据仓库的建设质量越好)。当然，数据仓库评价模块650还可以分别统计数据仓库中位于新生代、第一存活代、第二存活代以及休眠代中的指标数量，并针对统计出的位于不同代的指标数量以及数据仓库中的指标总数量进行综合考量，以确定数据仓库的建设质量等级。

需要注意的是，本申请的一部分可以被应用为计算机程序产品，例如计算机程序指令，当其被智能电子设备(如计算机或者服务器等)执行时，通过该智能电子设备的操作可以调用或者提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或者其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的智能电子设备的工作存储器中。在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请并不局限于上述示范性实施例的细节，而且在不背离本申请的精神或者基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将本申请的实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或者装置或者模块也可以由一个单元或者装置或者模块通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种数据仓库管理方法，包括：

根据数据仓库的元数据确定指标的引用热度；

根据指标的引用热度、指标在生命周期中的当前状态以及生命周期的状态跳转规则确定所述指标在生命周期中需要跳转的状态；

将所述需要跳转的状态作为所述指标在生命周期中的当前状态；

其中，所述指标在生命周期中的当前状态被作为数据仓库管理参数。

2.根据权利要求1所述的方法，其中，所述根据数据仓库的元数据确定指标的引用热度的步骤包括：

根据数据仓库的技术元数据确定指标组中各指标的引用次数；

根据所述指标组中各指标的引用次数确定所述指标组的引用热度；

将所述指标组的引用热度作为该指标组中各指标的引用热度。

3.根据权利要求2所述的方法，其中，所述根据所述指标组中各指标的引用次数计算所述指标组的引用热度的步骤包括：

计算指标组中各指标的引用次数的平均值，并将所述平均值作为所述指标组的引用热度。

4.根据权利要求2所述的方法，其中，所述方法还包括：

根据指标的业务属性信息将满足预定业务属性相似度要求的指标设置于同一个指标组中。

5.根据权利要求4所述的方法，其中，所述业务属性信息包括：业务名称、用于表征指标所属主题的指标粒度、用于表征指标的统计周期的时间窗口、用于表征指标的被统计对象的统计主体以及用于表征指标的统计单位的统计类型；

且所述根据指标的业务属性信息将满足预定业务属性相似度要求的指标设置于同一个指标组中的步骤包括：

根据指标的业务属性信息将具有不同业务名称，且具有相同的指标粒度、时间窗口、统计主体以及统计类型的不同指标设置于同一个指标组中。

6.根据权利要求5所述的方法，其中，所述指标组的组标识包括：指标粒度、时间窗口、统计主体以及统计类型；

在各指标组的组标识中查找与待分组指标的指标粒度、时间窗口、统计主体以及统计类型相匹配的组标识，如果存在相匹配的组标识，则将所述待分组指标设置于该相匹配的指标组中，否则，为所述待分组指标设置新的指标组，并根据所述待分组指标的指标粒度、时间窗口、统计主体以及统计类型为该新的指标组设置组标识。

7.根据权利要求1至6中任一权利要求所述的方法，其中，所述生命周期包括：新生代、第一存活代、第二存活代、老年代以及休眠代；

所述新生代用于接纳新产生的指标；

所述第一存活代用于接纳新生代和休眠代中引用热度上升的指标以及第二存活代和老年代中引用热度下降的指标；

所述第二存活代用于接纳第一存活代中引用热度上升的指标；

所述老年代用于接纳第二存活代中引用热度上升的指标；

所述休眠代用于接纳新生代和第一存活代中引用热度不超过预定值的指标。

8.根据权利要求7所述的方法，其中，所述生命周期的状态跳转规则包括下述至少一个：

新增加的指标进入新生代；

新生代中引用热度为零的指标进入休眠代，不为零的指标进入第一存活代；

第一存活代中引用热度上升的指标进入第二存活代，引用热度为零的指标进入休眠代，引用热度下降但不为零的指标仍保留在第一存活代中；

第二存活代中引用热度下降的指标进入第一存活代，引用热度连续上升N次的指标进入老年代，所述N大于0；

老年代中引用热度为零的指标进入第一存活代，而引用热度不为零的指标仍保留在老年代中。

9.根据权利要求7所述的方法，其中，所述方法还包括：

识别出数据仓库中的当前状态连续M次均为休眠代的指标，并从数据仓库中删除所述识别出的指标。

10.根据权利要求7所述的方法，其中，所述方法还包括：

统计数据仓库中的当前状态为老年代的指标数量，并根据所述统计出的指标数量以及数据仓库中的指标总数量确定数据仓库的建设质量等级。

11.一种数据仓库管理装置，其中，所述装置包括：

确定引用热度模块，用于根据数据仓库的元数据确定指标的引用热度；

确定状态模块，用于根据指标的引用热度、指标在生命周期中的当前状态以及生命周期的状态跳转规则确定所述指标在生命周期中需要跳转的状态；

更新状态模块，用于将所述需要跳转的状态作为所述指标在生命周期中的当前状态；

12.根据权利要求11所述的装置，其中，所述确定引用热度模块包括：

第一子模块，用于根据数据仓库的技术元数据确定指标组中各指标的引用次数；

第二子模块，用于根据所述指标组中各指标的引用次数确定所述指标组的引用热度；

第三子模块，用于将所述指标组的引用热度作为该指标组中各指标的引用热度。

13.根据权利要求12所述的装置，其中，所述第二子模块具体用于：

14.根据权利要求12所述的装置，其中，所述装置还包括：

设置指标组模块，用于根据指标的业务属性信息将满足预定业务属性相似度要求的指标设置于同一个指标组中。

15.根据权利要求14所述的装置，其中，所述业务属性信息包括：业务名称、用于表征指标所属主题的指标粒度、用于表征指标的统计周期的时间窗口、用于表征指标的被统计对象的统计主体以及用于表征指标的统计单位的统计类型；

且所述设置指标组模块具体用于：根据指标的业务属性信息将具有不同业务名称，且具有相同的指标粒度、时间窗口、统计主体以及统计类型的不同指标设置于同一个指标组中。

16.根据权利要求15所述的装置，其中，所述指标组的组标识包括：指标粒度、时间窗口、统计主体以及统计类型；

且所述设置指标组模块具体用于：在各指标组的组标识中查找与待分组指标的指标粒度、时间窗口、统计主体以及统计类型相匹配的组标识，如果存在相匹配的组标识，则将所述待分组指标设置于该相匹配的指标组中，否则，为所述待分组指标设置新的指标组，并根据所述待分组指标的指标粒度、时间窗口、统计主体以及统计类型为该新的指标组设置组标识。

17.根据权利要求11至16中任一权利要求所述的装置，其中，所述生命周期包括：新生代、第一存活代、第二存活代、老年代以及休眠代；

所述新生代用于接纳新产生的指标；

所述老年代用于接纳第二存活代中引用热度上升的指标；

18.根据权利要求17所述的装置，其中，所述生命周期的状态跳转规则包括下述至少一个：

新增加的指标进入新生代；

19.根据权利要求17所述的装置，其中，所述装置还包括：

数据维护模块，用于识别出数据仓库中的当前状态连续M次均为休眠代的指标，并从数据仓库中删除所述识别出的指标。

20.根据权利要求17所述的装置，其中，所述装置还包括：

数据仓库评价模块，用于统计数据仓库中的当前状态为老年代的指标数量，并根据所述统计出的指标数量以及数据仓库中的指标总数量确定数据仓库的建设质量等级。