CN114357056A

CN114357056A - 数据集之间的关联的检测

Info

Publication number: CN114357056A
Application number: CN202111185894.2A
Authority: CN
Inventors: M.A.比德; P.K.洛希亚
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-10-13
Filing date: 2021-10-12
Publication date: 2022-04-15
Also published as: DE102021123132A1; US20220114459A1; GB202113647D0; JP2022064315A; GB2600551A

Abstract

一种计算机设备识别(i)数据集、(ii)由计算机决策算法针对数据集的数据条目做出的输出类别确定集以及(iii)由数据集的第一属性的第一值产生的输出类别确定与由第一属性的第二值产生的输出类别确定之间的不期望的差异。该计算设备通过以下操作来确定数据集的第二属性的值正在促成该不期望的差异：向关联规则挖掘模型提供(i)具有第一属性的第一值的第一数据条目组以及(ii)具有第一属性的第二值第二数据条目组，以及至少部分地基于提升计算从由关联规则挖掘模型产生的一组候选属性值中选择第二属性的值。

Description

数据集之间的关联的检测

技术领域

本发明总体上涉及分析大数据集的领域，尤其涉及检测数据集中的属性之间的关联。

背景技术

通常，对于大数据集，计算机决策算法可能倾向于例行地选择特定的数据条目组而不是其他数据条目组。数据条目的不成比例的选择可能导致不同影响，并且也可以被视为依赖于其他参数。

发明内容

本发明的实施例提供了一种方法、***和程序产品。

第一实施例包括一种方法。一个或多个处理器识别(i)数据集、(ii)由计算机决策算法针对数据集的数据条目做出的输出类别确定集以及(iii)由数据集的第一属性的第一值产生的输出类别确定与由第一属性的第二值产生的输出类别确定之间的不期望的差异。该一个或多个处理器通过以下操作来确定数据集的第二属性的值正在促成该不期望的差异：向关联规则挖掘模型提供：(i)具有第一属性的第一值的第一数据条目组和(ii)具有第一属性的第二值的第二数据条目组，以及至少部分基于提升计算(liftcalculation)从由该关联规则挖掘模型产生的一组候选属性和值中选择第二属性的值。

第二实施例包括一种计算机程序产品。该计算机程序产品包括一个或多个计算机可读存储介质和存储在该一个或多个计算机可读存储介质上的程序指令。该程序指令包括用于识别(i)数据集、(ii)由计算机决策算法针对该数据集的数据条目做出的输出类别确定集以及(iii)由数据集的第一属性的第一值产生的输出类别确定与由第一属性的第二值产生的输出类别确定之间的不期望的差异的程序指令。该程序指令包括用于通过以下操作来确定数据集的第二属性的值正在促成该不期望的差异的程序指令：向关联规则挖掘模型提供：(i)具有第一属性的第一值的第一数据条目组和(ii)具有第一属性的第二值的第二数据条目组，以及至少部分基于提升计算从由该关联规则挖掘模型产生的一组候选属性和值中选择第二属性的值。

第三实施例包括一种计算机***。该计算机***包括一个或多个计算机处理器、一个或多个计算机可读存储介质、以及存储在计算机可读存储介质上以供一个或多个处理器中的至少一个处理器执行的程序指令。该程序指令包括用于识别(i)数据集、(ii)由计算机决策算法针对数据集的数据条目做出的输出类别确定集以及(iii)由数据集的第一属性的第一值产生的输出类别确定与由第一属性的第二值产生的输出类别确定之间的不期望的差异的程序指令。该程序指令包括用于通过以下操作来确定数据集的第二属性的值正在促成该不期望的差异的程序指令：向关联规则挖掘模型提供(i)具有第一属性的第一值的第一数据条目组和(ii)具有第一属性的第二值的第二数据条目组，以及至少部分基于提升计算从由该关联规则挖掘模型产生的一组候选属性和值中选择第二属性的值。

附图说明

图1是示出根据本发明的示例性实施例的计算环境的功能框图，其中计算设备确定数据条目之间的关联。

图2示出了根据本发明的示例性实施例的在图1的环境中的计算设备上执行用于确定大数据集中的关联值的***的操作过程。

图3描绘了根据本发明的至少一个实施例的云计算环境。

图4描绘了根据本发明的至少一个实施例的抽象模型层。

图5描绘了根据本发明的示例性实施例的图1所描绘的计算环境内的一个或多个计算设备的组件的框图。

具体实施方式

本文参考附图公开了本发明的详细实施例。应当理解，所公开的实施例仅仅是本发明的潜在实施例的说明，并且可以采取各种形式。另外，结合各种实施例给出的每个示例旨在是说明性的，而非限制性的。此外，附图不一定按比例绘制，一些特征可能被放大以示出特定组件的细节。因此，本文公开的具体结构和功能细节不应被解释为限制性的，而仅作为用于教导本领域技术人员以各种方式使用本发明的代表性基础。

说明书中对“一个实施例”、“实施例”、“示例实施例”等的引用指示所描述的实施例可以包括特定特征、结构或特性，但是每个实施例可以不一定包括该特定特征、结构或特性。此外，这些短语不一定是指相同的实施例。此外，当结合实施例描述特定特征、结构或特性时，认为结合其它实施例来影响这种特征、结构或特性是在本领域技术人员的知识范围内的，而不管是否明确描述。

本发明的实施例认识到计算机决策算法可以分析大数据集，并基于各种因素或属性确定该数据的输出类别。在一些情况下，出于各种原因中的任何一种原因，这种算法的用户和/或开发者可能更喜欢避免对特定属性的特定值的不同输出类别确定。然而，在许多情况下，单个属性的单个值可能不足以完全表征不同的输出类别确定，并且附加的相关属性的值可以证明与单个属性的单个值相关联，但可能对用户不是立即显而易见的。本发明的实施例利用机器逻辑来识别大数据集中的这种相关联的属性和值。然后，所得到的识别可以用于提高计算机决策算法的效率和公平性，以便在将来使用那些大的数据集来进行决策。

本发明的实施例以若干有意义的方式提供了对已知计算机决策和/或关联检测***的技术改进。例如，本发明的各种实施例通过提供更有用的结果来改进现有***，即，更接近地基于期望属性的决策以及比已知***更精确的关联属性的标识对终端用户更有用，并且因此是对现有***的改进。但是，进一步地，本发明的各种实施例还提供了对产生这些结果的底层***的技术操作的重要改进。例如，在大的数据集(或“大数据”环境)中检测相关联的属性可以是处理器和存储器非常密集的操作，并且本发明的实施例通过提供更有效的属性检测，与传统***相比减少了所需的处理器和存储器资源的量。此外，通过使用本发明实施例的属性检测特征来改进计算机决策算法，本发明的各种实施例减少了由这种算法生成的不可接受的决策的数量，从而减少了需要丢弃的决策量，这进而导致计算资源的更有效消耗。

现在将参照附图详细描述本发明。

图1是示出根据本发明的一个实施例的计算环境的功能框图，该计算环境通常指代为100。计算环境100包括计算机***120、客户端设备130和通过网络110连接的存储区域网络(storage area network，SAN)140。计算机系统包括关联检测程序122和计算机接口124。客户端设备130包括客户端应用132和客户端接口134。存储区域网络(SAN)140包括服务器应用142和数据库144。

在本发明的各种实施例中，计算机***120是计算设备，其可以是独立设备、服务器、膝上型计算机、平板计算机、上网本计算机、个人计算机(PC)、个人数字助理(PDA)、桌上型计算机、或能够接收、发送和处理数据的任何可编程电子设备。通常，计算机***120表示能够执行机器可读程序指令并与各种其它计算机***(未示出)通信的任何可编程电子设备或可编程电子设备的组合。在另一个实施例中，计算机***120表示利用集群的计算机和组件充当单个无缝资源池的计算***。通常，计算机***120可以是任何计算设备或能够访问各种其他计算***(未示出)的设备的组合，并且能够执行关联检测程序122和计算机接口124。计算机***120可以包括内部和外部硬件组件，如参考图5进一步详细描述的。

在该示例性实施例中，关联检测程序122和计算机接口124存储在计算机***120上。然而，在其他实施例中，关联检测程序122和计算机接口124 被外部地存储并且通过诸如网络110的通信网络来访问。网络110可以是例如局域网(LAN)、诸如因特网的广域网(WAN)、或这两者的组合，并且可以包括有线、无线、光纤或本领域已知的任何其它连接。通常，根据本发明的期望实施例，网络110可以是支持计算机***120、客户端设备130和SAN140以及各种其他计算机***(未示出)之间的通信的连接和协议的任何组合。

在图1中所描绘的实施例中，关联检测程序122至少部分地具有对客户端应用132的访问，并且可以将存储在计算机***120上的数据传送到客户端设备130、SAN 140和各种其他计算机***(未示出)。更具体地，关联检测程序122定义了计算机***120的用户，其可以访问存储在客户端设备130 和/或数据库144上的数据。

为了说明的简单，在图1中描绘了关联检测程序122。在本发明的各种实施例中，关联检测程序122表示在计算机***120上执行的逻辑操作，其中计算机接口124管理查看根据关联检测程序122管理和执行的这些逻辑操作的能力。在一些实施例中，关联检测程序122表示处理和分析数据以检测不同属性的值之间的关联的***。

计算机***120包括计算机接口124。计算机接口124提供计算机***120、客户端设备130和SAN 140之间的接口。在一些实施例中，计算机接口 124可以是图形用户接口(GUI)或web用户接口(WUI)，并且可以显示文本、文档、web浏览器、窗口、用户选项、应用接口和操作指令，并且包括程序呈现给用户的信息(例如，图形、文本和声音)以及用户用来控制程序的控制序列。在一些实施例中，计算机***120经由在计算机***120上运行的基于客户端的应用访问从客户端设备130和/或SAN 140传送的数据。例如，计算机***120包括移动应用软件，其提供计算机***120、客户端设备130 和SAN 140之间的接口。在各种实施例中，计算机***120将GUI或WUI 传送到客户端设备130，以便由客户端装置130的用户指示和使用。

在各种实施例中，客户端设备130是计算设备，其可以是独立设备、服务器、膝上型计算机、平板计算机、上网本计算机、个人计算机(PC)、个人数字助理(PDA)、桌上型计算机、或能够接收、发送和处理数据的任何可编程电子设备。通常，计算机***120表示能够执行机器可读程序指令并与各种其它计算机***(未示出)通信的任何可编程电子设备或可编程电子设备的组合。在另一个实施例中，计算机***120表示利用集群的计算机和组件充当单个无缝资源池的计算***。通常，计算机***120可以是任何计算设备或能够访问各种其他计算***(未示出)的设备的组合，并且能够执行客户端应用132和客户端接口134。客户端设备130可以包括内部和外部硬件组件，如参考图5进一步详细描述的。

为了说明的简单，在图1中描绘了客户端应用132。在本发明的各种实施例中，客户端应用132表示在客户端设备130上执行的逻辑操作，其中客户端接口134管理查看这些各种实施例的能力，并且客户端应用132定义能够访问存储在计算机***120和/或数据库144上的数据的客户端设备130的用户。

存储区域网络(SAN)140是包括服务器应用142和数据库144的存储 ***。SAN 140可以包括但不限于，一个或多个计算设备、服务器、服务器群集、web服务器、数据库和存储设备。SAN 140操作以通过诸如网络110的网络与计算机***120、客户端设备130和各种其他计算设备(未示出)通信。例如，SAN 140与关联检测程序122通信以在计算机***120、客户端设备130和未连接到网络110的各种其他计算设备(未示出)之间传输数据。 SAN 140可以包括如参照图5所述的内部和外部硬件组件。本发明的实施例认识到图1可以包括任何数量的计算设备、服务器、数据库和/或存储设备，并且本发明不仅限于图1中所描绘的内容。这样，在一些实施例中，计算机 ***120的一些特征被包括作为SAN 140和/或另一计算设备的一部分。

另外，在一些实施例中，SAN 140和计算机***120表示云计算平台或者是云计算平台的一部分。云计算是一种模型或服务交付，用于实现对可配置计算资源(例如，网络、网络带宽、服务器、处理、内存、存储、应用程序、虚拟机和服务)的共享池的便捷、按需网络访问，这些资源可以通过最少的管理工作或与服务提供商的交互来快速调配和发布。云模型可以包括诸如按需自助服务、广泛网络访问、资源池、快速弹性和测量服务之类的特性，可以由包括平台即服务(PaaS)模型、基础设施即服务(IaaS)模型和软件即服务 (SaaS)模型的服务模型表示，并且可以被实现为各种部署模型，如私有云、社区云、公共云和混合云。在各种实施例中，SAN 140表示包括但不限于与天气模式相关联的数据库或网站。

为了说明的简单，在图1中描绘了SAN 140和计算机***120。然而，应当理解，在各种实施例中，SAN 140和计算机***120可以包括根据关联检测程序122和服务器应用142的功能性来管理的任何数量的数据库。通常，数据库144表示数据，而服务器应用142表示提供使用和修改数据的能力的代码。在一个备选实施例中，关联检测程序122还可以表示前述特征的任何组合，其中服务器应用142可以访问数据库144。为了说明本发明的各个方面，呈现了服务器应用142的示例，其中关联检测程序122表示属性之间的关联的确定中的一个或多个，但不限于此。

在一些实施例中，服务器应用142和数据库144存储在SAN 140上。然而，在各种实施例中，服务器应用142和数据库144可以被外部地存储并且通过诸如网络110的通信网络来访问，如上所述。

本发明的实施例包括一种计算机决策***，该***根据数据条目的各个属性的值将数据条目分配给输出类别。在各种实施例中，计算机***120识别关于特定属性的值有偏差或偏倚的输出类别确定。例如，在各种实施例中，关联检测程序122基于数据条目组对于特定属性具有不同值的事实来识别两个或更多个数据条目组是否正在接收不同的分类结果(例如，输出类别)。例如，在各种实施例中，如果具有特定属性的第一值的第一数据条目组的有利结果的比率除以具有特定属性的第二值的第二数据条目组的有利结果的比率，或反之亦然，小于0.8，则关联检测程序122确定已经发生了不同影响。

本发明的实施例提供了在一些情况下，属性可以包括受保护类(或受保护类别)，包括但不限于年龄、性别、种族、国籍、宗教等，并且***可以识别受保护类中正在接收不同分类的组。例如，在一个实施方案中，在年龄-受保护类别-是“特定属性”的情况下，如果提供给年龄为二十五(25)岁以下的个体的家庭贷款与提供给年龄大于或等于二十五(25)岁的个体的家庭贷款的比率低于0.8，那么25岁以下的个体受到不同影响。

在本发明的各种实施例中，关联检测程序122确定接收不同分类决策的组是否包括除已知值/属性组合之外的促成不同分类决策的其他相关联的属性值。在这些实施例中，已知促成不同分类决策(诸如年龄在25岁以下)的属性值可以由用户提供，并且关联检测程序122然后确定可以与所提供的属性值相关联的附加属性和值，并且以所确定的附加属性和值的识别来响应用户。

在各种实施例中，关联检测程序122接收包含具有特定属性和相应值的多个数据条目的大数据集。在各种实施例中，关联检测程序122还从用户接收输入数据，该输入数据包括但不限于(i)对其来说不期望偏倚/不同分类决策的特定属性(例如，年龄)、(ii)具有特定属性的第一值(或值的组)(例如，小于25)的第一数据条目组、(iii)具有特定属性的第二值(或值的组) (例如，等于或大于25)的第二数据条目组、以及(iv)哪些分类(即，输出类别)被认为是有利的(例如，对家庭贷款的批准)的标识。

在各种实施例中，关联检测程序122分析用户输入以识别一个或多个附加属性是否关于不利分类决策的接收与特定属性相关联。换句话说，关联检测程序122确定一个或多个附加属性在与特定属性组合时是否导致接收不利分类决策的更高可能性。

在各种实施例中，关联检测程序122利用关联规则学习来识别与输出类别有关系的、特定属性和第二属性的值之间的关联。在各种实施例中，关联规则学习包括基于规则的机器学习模型，以识别大数据集中的此类关联属性与值之间的关系。在各种实施例中，关联检测程序122分析大数据集，并且识别数据条目中的特定属性的值和附加属性的值，以及针对特定属性和附加属性的每个值确定输出类别。在各种实施例中，关联检测程序122生成各种属性和它们的值的关联频率映射。在各种实施例中，例如，关联检测程序122利用提升值来确定特定属性(“第一属性”)的第一值是否具有与第二属性的第三值的关联。在各种实施例中，通过以下等式(1)计算提升值。本发明的实施方式提供了高提升值指示第一属性的第一值与第二属性的第三值之间的高关联性。

方程式(1)：

在各种实施例中，关联检测程序122计算提升值并分析该提升值以确定在第一属性(“指定属性”)的第一值与第二属性的第三值之间是否存在高关联或低关联。在各种实施例中，关联检测程序122还计算第一属性的第一值与多个其他附加属性的值之间的提升值。在各种实施例中，关联检测程序122 识别阈值提升值，并选择具有超过阈值的提升值的关联属性以用于进一步处理。在各种实施例中，对于第一属性的第二值发生相同的过程，导致选择关于第一属性的第二值具有超过阈值的高提升值的相关属性。

在各种实施例中，关联检测程序122然后对以下各项执行偏倚度分析： (i)第一属性的第一值和其相应选择的关联属性的所识别的值中的每一个， (ii)第一属性的第二值和其相应选择的关联属性的所识别的值中的每一个。在各种实施例中，这些偏倚度分析使用用于确定第一属性的值中的偏倚度的相同度量。这些分析的结果识别关联属性是否也正在接收关于输出类别的偏倚确定。

在各种实施例中，关联检测程序122识别接收偏倚确定的关联属性，并且通过向客户端设备130的用户提供概要来响应用户请求。在各种实施例中，该概要指示用户进一步分析数据，并对可能正面影响所识别的偏倚确定的各种参数作出明智的决策。本发明的实施例提供了用户的指导，以允许用户对被确定为与第一属性的第一值和第二值相关联的属性值的输出类别做出无偏倚确定。

图2是描绘根据本发明的说明性实施例的计算环境100中的关联检测程序122的操作的流程图200。图2还表示关联检测程序122和客户端应用132 之间的某些交互。在一些实施例中，图2中描绘的操作包括在计算机***120 上执行的关联检测程序122的某些逻辑操作的输出。应当理解，图2提供了一种实现的图示，并且不暗示对其中可实现不同实施例的环境的任何限制。可以对所描绘的环境进行许多修改。在一个实施例中，图2中的一系列操作可以以任何顺序执行。在另一实施例中，图2中所描绘的一系列操作可以在任何操作处终止。除了先前提到的特征之外，图2中描绘的任何操作可以在任何时间恢复。

在操作202中，关联检测程序122接收关于对数据集所做的确定的用户请求。在各种实施例中，关联检测程序122从客户端设备130的用户接收请求以识别数据集的第一属性的值与数据集的其他属性的值之间是否存在关联，其中第一属性的值已经被确定为接收偏倚输出类别确定，并且其中用户希望识别任何其他属性值是否促成偏倚输出类别确定。在各种实施例中，用户提供输入数据，包括(i)被认为是有利的输出类别、(ii)第一属性、(iii)不成比例地导致不利的输出类别确定的第一属性的第一值以及(iv)不成比例地导致有利的输出类别确定的第一属性的第二值。

在操作204中，关联检测程序122分析输入数据。在各种实施例中，关联检测程序122使用已知的偏倚分析的度量对输入数据执行偏倚分析。例如，在一个不同影响度量的情况下，当第一属性的第一值和第二值的有利输出类别确定的比率小于0.8时，确定不同影响。偏倚度分析度量的其他示例包括但不限于统计奇偶差度量、相等机会度量和平均赔率度量。

在各种实施例中，关联检测程序122将数据集过滤成两个子集(i)数据条目的第一子集，其具有第一属性的第一值并且已经接收到关于输出类别的不利确定，以及(ii)数据条目的第二子集，其具有第一属性的第二值并且已经接收到关于输出类别的有利确定。在各种实施例中，关联检测程序122利用数据条目的第一子集和第二子集来识别在第一属性的识别值和一个或多个关联属性(即，第二属性)之间是否关于偏倚输出类别确定存在关联。本发明的实施例提供了数据集的过滤不限于上面讨论的内容，并且数据集可以包括基于它们各自的属性值和/或输出类别确定的数据条目的任何组合。

在操作206中，关联检测程序122对数据条目的第一子集和数据条目的第二子集执行关联规则挖掘模型。在各种实施例中，关联检测程序122通过使用已知数据集和它们各自的关联作为训练数据来训练关联规则挖掘。例如，在各种实施例中，训练数据包括：(i)模式，其识别数据集的列和这些列中的每一列的相应约束，以及(ii)这些列之间的已知关联的列表。

在各种实施例中，关联检测程序122将数据条目的第一子集和数据条目的第二子集提供给在计算机***120上执行的经训练的关联规则挖掘模型，以识别第一属性的值与一个或多个附加属性的值之间的关联。在各种实施例中，经训练的关联规则挖掘模型分析子集，并且至少确定与第一子集和第二子集中的第一属性的值相关联的第二属性。例如，在一个实施例中，第二属性的第三值与第一属性的第一值相关联，并且第二属性的第四值与第一属性的第二值相关联。在许多情况下，经训练的关联规则挖掘模型确定与第一属性的值具有关联的包括第二属性的多个附加属性。

在操作208中，关联检测程序122计算由关联规则模型确定的每个附加属性的提升值。在各种实施例中，关联检测程序122利用上面讨论的等式(1) 计算提升值。在各种实施例中，关联检测程序122计算第一子集和第二子集中的每一个的关联属性的提升值的阈值提升值，其中具有高于阈值提升值的属性被选择用于进一步处理。

在各种实施例中，关联检测程序122识别第一属性的第一值和第二值中的每一个的关联属性。例如，基于附加属性的相应提升值，关联检测程序122 识别与第一属性的第一值相关联的第二属性的第三值，以及与第一属性的第二值相关联的第三属性的第四值。在各种实施例中，关联检测程序122然后确定当第一属性的第一值和第二值与它们各自关联的属性值结合时是否存在偏倚。在各种实施例中，在该操作中的偏倚的确定使用在操作204中使用的相同度量(例如，不同影响度量、统计奇偶差度量、相等机会度量、或者平均赔率度量)，如上所述。例如，在各种实施例中，通过取第一属性的第一值和第二属性的第三值的组合的有利确定与第一属性的第二值和第三属性的第四值的组合的有利确定的比率来确定不同影响。在各种实施例中，如果该比率小于0.8，则存在不同影响，并且存在确定输出类别的偏倚。

在各种实施例中，关联检测程序122将不同影响的确定传送给客户端设备130的用户。在各种实施例中，如果存在不同影响，则关联检测程序122 将包括例如第一子集和第二子集的数据的概要与程序指令一起传送给客户端设备130的用户，所述程序指令指示客户端设备130指导用户进一步分析数据并对可能正面影响所识别的偏倚确定的各种参数做出明智的决策。本发明的实施例提供了用户的指导，以允许用户关于第一属性的第一值和第二值以及它们各自关联的属性值做出输出类别的无偏倚的确定。

在一个示例性实施例中，计算机决策算法为公司的各个雇员选择工作任务。在该示例中，雇员被分成两个工作组。在该示例中，管理者相信两个工作组之一的雇员正在接收不成比例数量的有利工作任务，并且希望使用关联检测程序来识别是否有任何其它属性正在促成不成比例的任务。

在本示例实施例中，关联检测程序122从管理器接收用户请求，以基于工作任务的数据集识别“工作组”属性的两个值-工作组1和工作组2是否与任何其它属性的值相关联。用户请求还识别哪些工作任务被认为是有利的。

在本示例性实施例中，关联检测程序122分析输入数据，即“工作组” 属性、其相应值(工作组1和工作组2)以及有利任务的标识，以首先确定工作组之一的雇员是否正在接收统计上不成比例的有利任务的份额。在这个示例中，关联检测程序122基于工作组1的有利任务与工作组2的有利任务之间的比小于0.8，确定工作组1正被不同地影响。结果，关联检测程序122创建工作任务数据集的两个子集：(i)第一子集，包含对工作组1中的雇员的不利工作任务，以及(ii)第二子集，包含对工作组2中的雇员的不利工作任务。

在本示例实施例中，关联检测程序122对第一子集和第二子集执行关联规则挖掘模型。关联规则挖掘模型分析子集，并至少确定与第一属性的值相关联的第二属性-“经验水平”属性。关联检测程序122识别“经验水平”属性的不同值与“工作组”属性的不同值相关联。具体地，在该示例中，“经验水平”属性的“经验不足”值与“工作组”属性的“工作组1”值相关联，并且“经验水平”属性的“经验不足”值与“工作组”属性的“工作组2”值相关联。

在本示例中，关联检测程序122计算以下提升值：(i)“经验水平”属性的“经验不足”值和“工作组”属性的“工作组1”值，以及(ii)“经验水平” 属性的“经验不足”值和“工作组”属性的“工作组2”值。在该示例中，关联检测程序122利用等式(1)计算提升值，如上所述。在该示例中，(i)“经验水平”属性的“经验不足”值和“工作组”属性的“工作组1”值的提升值在提升值阈值以上，但是(ii)“经验水平”属性的“经验不足”值和“工作组”属性的“工作组2”值的提升值在提升值阈值以下。因此，结果，关联检测程序122选择“经验水平”属性的“经验不足”值和“工作组”属性的“工作组1”值，以进行偏倚分析。

在本示例性实施例中，关联检测程序122对“经验水平”属性的“经验不足”值和“工作组”属性的“工作组1”值的组合执行偏倚分析，以确定工作组1的经验不足的雇员是否正在接收统计上不成比例的有利任务的份额。关联检测程序122使用上面应用的不同影响量度来确定工作组1的无经验雇员与公司的其他雇员之间的有利工作任务的比率小于0.8，从而导致不同影响。关联检测程序122将该数据与指令一起传送给管理器，该指令指示管理器进一步分析该数据并对可能正面影响向前移动的工作任务确定的各种参数做出明智的决策。

预先理解，尽管本公开包括关于云计算的详细描述，但是本文中记载的教导的实现不限于云计算环境。相反，本发明的实施例能够结合现在已知或以后开发的任何其它类型的计算环境来实现。

云计算是一种服务递送模型，用于实现对可配置计算资源(例如，网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池的方便的按需网络访问，所述可配置计算资源可以以最小的管理努力或与服务的提供者的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。

特征如下：

按需自助：云消费者可以单方面地自动地根据需要提供计算能力，诸如服务器时间和网络存储，而不需要与服务的提供者进行人工交互。

广域网接入：能力在网络上可用，并且通过促进由异构的薄或厚客户端平台(例如，移动电话、膝上型计算机和PDA)使用的标准机制来访问。

资源池化：供应商的计算资源被集中以使用多租户模型来服务多个消费者，其中不同的物理和虚拟资源根据需求被动态地分配和重新分配。存在位置无关的意义，因为消费者通常不控制或不知道所提供的资源的确切位置，但是能够在较高抽象级别(例如国家、州或数据中心)指定位置。

快速弹性：在一些情况下，可以快速且弹性地提供快速向外扩展的能力和快速向内扩展的能力。对于消费者，可用于提供的能力通常看起来不受限制，并且可以在任何时间以任何数量购买。

测量服务：云***通过利用在适合于服务类型(例如，存储、处理、带宽和活动用户账户)的某一抽象级别的计量能力来自动地控制和优化资源使用。可以监视、控制和报告资源使用，从而为所利用服务的提供者和消费者两者提供透明度。

服务模型如下：

软件即服务(SaaS)：提供给消费者的能力是使用在云基础设施上运行的提供者的应用。应用程序可通过诸如web浏览器(例如，基于web的电子邮件)等瘦客户机界面从各种客户机设备访问。消费者不管理或控制包括网络、服务器、操作***、存储、或甚至个别应用能力的底层云基础结构，可能的例外是有限的用户专用应用配置设置。

平台即服务(PaaS)：提供给消费者的能力是将消费者创建或获取的应用部署到云基础设施上，该消费者创建或获取的应用是使用由提供商支持的编程语言和工具创建的。消费者不管理或控制包括网络、服务器、操作***或存储的底层云基础设施，但具有对部署的应用和可能的应用托管环境配置的控制。

基础设施即服务(IaaS)：提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其它基本计算资源，所述软件可以包括操作***和应用。消费者不管理或控制底层云基础设施，但具有对操作***、存储、部署的应用的控制，以及可能对选择的联网组件(例如，主机防火墙) 的有限控制。

部署模型如下：

私有云：云基础设施仅为组织操作。它可以由组织或第三方管理，并且可以存在于建筑物内或建筑物外。

社区云：云基础设施由若干组织共享，并且支持具有共享关注(例如，任务、安全要求、策略和合规性考虑)的特定社区。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

公有云：云基础设施可用于一般公众或大型工业群体，并且由销售云服务的组织拥有。

混合云：云基础设施是两个或更多云(私有、共同体或公共)的组合，所述云保持唯一实体，但是通过使数据和应用能够移植的标准化或私有技术(例如，用于云之间的负载平衡的云突发)绑定在一起。

云计算环境是面向服务的，其焦点在于无状态、低耦合、模块性和语义互操作性。在云计算的核心是包括互连节点的网络的基础设施。

现在参考图3，描绘了说明性云计算环境50。如图所示，云计算环境50 包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点10，所述本地计算设备例如个人数字助理(PDA)或蜂窝电话54A、台式计算机 54B、膝上型计算机54C和/或汽车计算机***54N。节点10可以彼此通信。它们可以被物理地或虚拟地分组(未示出)在一个或多个网络中，诸如如上文描述的私有云、社区云、公共云或混合云或其组合。这允许云计算环境50 提供基础设施、平台和/或软件作为服务，云消费者不需要为其维护本地计算设备上的资源。应当理解，图4中所示的计算设备54A-N的类型仅旨在说明，并且计算节点10和云计算环境50可以在任何类型的网络和/或网络可寻址连接上(例如，使用web浏览器)与任何类型的计算设备通信。

现在参考图4，示出了由云计算环境50(图3)提供的一组功能抽象层。应当预先理解，图5中所示的组件、层和功能仅旨在说明，并且本发明的实施例不限于此。如所描绘的，提供了以下层和相应的功能：

硬件和软件层60包括硬件和软件组件。硬件组件的示例包括：主机61；基于RISC(精简指令集计算机)架构的服务器62；服务器63；刀片服务器 64；存储装置65；以及网络和网络组件66。在一些实施例中，软件组件包括网络应用服务器软件67和数据库软件68。

虚拟化层70提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器71；虚拟存储器72；虚拟网络73，包括虚拟专用网络；虚拟应用和操作***74；以及虚拟客户机75。

在一个示例中，管理层80可以提供以下描述的功能。资源供应81提供用于在云计算环境内执行任务的计算资源和其它资源的动态采购。计量和定价82提供了在云计算环境中利用资源时的成本跟踪，以及用于消耗这些资源的开帐单或***。在一个示例中，这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证，以及为数据和其他资源提供保护。用户门户83为消费者和***管理员提供对云计算环境的访问。服务级别管理84 提供云计算资源分配和管理，使得满足所需的服务级别。服务水平协议(SLA) 规划和履行85提供对云计算资源的预安排和采购，其中根据SLA预期未来需求。

工作负载层90提供了可以利用云计算环境的功能的示例。可以从该层提供的工作负载和功能的示例包括：绘图和导航91；软件开发和生命周期管理 92；虚拟教室教育传送93；数据分析处理94；交易处理95；以及提供缓和的输出96。

图5描述了根据本发明的说明性实施例的计算机***120、客户端设备 130、SAN140的组件的框图500。应当理解，图5仅提供了一种实现的说明，而不暗示对其中可实现不同实施例的环境的任何限制。可以对所描述的环境进行许多修改。

计算机***120包括通信结构502，其提供(一个或多个)计算机处理器 504、存储器506、永久性存储装置508、通信单元510和(一个或多个)输入/输出(I/O)接口512之间的通信。通信结构502可以用被设计用于在处理器(诸如微处理器、通信和网络处理器等)、***存储器、***设备和***内的任何其它硬件组件之间传递数据和/或控制信息的任何体系结构来实现。例如，通信结构502可以用一个或多个总线来实现。

存储器506和永久性存储装置508是计算机可读存储介质。在该实施例中，存储器506包括随机存取存储器(RAM)514和高速缓冲存储器516。通常，存储器506可以包括任何合适的易失性或非易失性计算机可读存储介质。

关联检测程序122、计算机接口124、客户端应用132、客户端接口134、服务器应用142和数据库144被存储在永久性存储装置508中，以便由相应计算机处理器504中的一个或多个经由存储器506的一个或多个存储器执行和/或访问。在该实施例中，永久性存储装置508包括磁硬盘驱动器。作为磁硬盘驱动器的替代或补充，永久性存储装置508可包括固态硬盘驱动器、半导体存储设备、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、闪存或能够存储程序指令或数字信息的任何其它计算机可读存储介质。

永久性存储装置508所使用的介质也可以是可移动的。例如，可移动硬盘驱动器可以用于永久性存储装置508。其它示例包括光盘和磁盘、拇指驱动器和智能卡，它们被***到驱动器中以便传送到也是持久存储508的一部分的另一计算机可读存储介质上。

在这些示例中，通信单元510提供与包括网络110的资源的其它数据处理***或设备的通信。在这些示例中，通信单元510包括一个或多个网络接口卡。通信单元510可以通过使用物理和无线通信链路中的一种或两种来提供通信。关联检测程序122、计算机接口124、客户端应用132、客户端接口 134、服务器应用142和数据库144可以通过通信单元510下载到永久性存储装置508。

(一个或多个)I/O接口512允许与可以连接到计算机***120、客户端设备130和SAN 140的其它设备输入和输出数据。例如，I/O接口512可以提供到外部设备518的连接，所述外部设备诸如键盘、小键盘、触摸屏和/或一些其它合适的输入设备。外部设备518还可以包括便携式计算机可读存储介质，诸如拇指驱动器、便携式光盘或磁盘、以及存储卡。用于实践本发明的实施例的软件和数据(例如，关联检测程序122、计算机接口124、客户端应用132、客户端接口134、服务器应用142和数据库144)可以存储在这样的便携式计算机可读存储介质上，并且可以经由(一个或多个)I/O接口512加载到永久性存储装置508上。(一个或多个)I/O接口512还连接到显示器520。

显示器520提供向用户显示数据的机制，并且可以是例如计算机监视器或电视屏幕。

本发明可以是***、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或多个介质)，所述计算机可读程序指令用于使处理器执行本发明的各方面。

计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、诸如上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码装置，以及上述的任何适当组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光纤线缆的光脉冲)、或通过导线传输的电信号。

本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备，或者经由网络，例如因特网、局域网、广域网和/或无线网络，下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器相关指令、微代码、固件指令、状态设置数据，或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言(例如Smalltalk、C++等)以及常规的过程式编程语言(例如“C”编程语言或类似的编程语言)。计算机可读程序指令可以完全在用户的计算机上执行，部分在用户的计算机上执行，作为独立的软件包执行，部分在用户的计算机上并且部分在远程计算机上执行，或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络连接到用户的计算机，包括局域网(LAN)或广域网(WAN)，或者可以连接到外部计算机(例如，使用因特网服务提供商通过因特网)。在一些实施例中，为了执行本发明的各方面，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化。

在此参考根据本发明实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。

这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中，其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作，使得其中存储有指令的计算机可读存储介质包括制品，该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。

计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上，以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。

附图中的流程图和框图示出了根据本发明的各种实施例的***、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上，流程图或框图中的每个框可以表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中，框中所提及的功能可不按图中所提及的次序发生。例如，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行，这取决于所涉及的功能。还将注意，框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的***来实现。

这里描述的程序是基于在本发明的特定实施例中实现它们的应用来标识的。然而，应当理解，这里的任何特定程序术语仅是为了方便而使用，因此本发明不应当限于仅在由这样的术语标识和/或暗示的任何特定应用中使用。

应当注意，诸如“Smalltalk”等术语可能受全世界各种管辖范围内的商标权利的支配，并且在此仅参考由标记适当命名的产品或服务来使用，以至于这样的商标权利可能存在。

Claims

1.一种计算机实现的方法，包括：

由一个或多个处理器识别(i)数据集、(ii)由计算机决策算法针对所述数据集的数据条目做出的输出类别确定集以及(iii)由所述数据集的第一属性的第一值产生的输出类别确定与由所述第一属性的第二值产生的输出类别确定之间的不期望的差异；

由一个或多个处理器通过以下操作来确定所述数据集的第二属性的值正在促成所述不期望的差异：

向关联规则挖掘模型提供：(i)具有所述第一属性的所述第一值的第一数据条目组，以及(ii)具有所述第一属性的所述第二值的第二所述数据条目组，以及

至少部分基于提升计算从由所述关联规则挖掘模型产生的一组候选属性和值中选择所述第二属性的所述值。

2.根据权利要求1所述的计算机实现的方法，所述方法还包括：

由一个或多个处理器从用户接收请求以识别除所述第一属性之外的正在促成所述不期望的差异的一个或多个属性的值；以及

由一个或多个处理器通过向所述用户通知所述第二属性的所述值正在促成所述不期望的差异的所述确定来响应所述请求。

3.根据权利要求1所述的计算机实现的方法，其中，确定所述第二属性的所述值正在促成所述不期望的差异包括由一个或多个处理器确定所述第二属性的所述值与所述第一属性的所述第一值相关联。

4.根据权利要求3所述的计算机实现的方法，还包括通过一个或多个处理器确定所述第二属性的第二值也正在促成所述不期望的差异，其中，所述第二属性的所述第二值被确定为与所述第一属性的所述第二值相关联。

5.根据权利要求3所述的计算机实现的方法，还包括由一个或多个处理器确定第三属性的值也正在促成所述不期望的差异，其中，所述第三属性的所述值被确定为与所述第一属性的所述第二值相关联。

6.根据权利要求1所述的计算机实现的方法，所述方法还包括：

由一个或多个处理器使用训练数据来训练所述关联规则挖掘模型，所述训练数据包括：(i)模式，其识别训练数据集的列以及所述列中的每一列的相应约束，以及(ii)所述列之间的已知关联的列表。

7.如权利要求1所述的计算机实现的方法，其中，所述提升计算包括将其中所述第一属性的所述第一值和所述第二属性的所述值共同出现的数据条目的数量除以其中所述第一属性的所述第一值出现的数据条目的数量与其中所述第二属性的所述值出现的数据条目的数量的乘积。

8.一种计算机程序产品，所述计算机程序产品包括：

一个或多个计算机可读介质和存储在所述一个或多个计算机可读存储介质上的程序指令，所存储的程序指令包括：

用于执行根据权利要求1至7中任一项所述的方法的程序指令。

9.一种计算机***，所述计算机***包括：

一个或多个处理器；

一个或多个计算机可读存储介质；以及

存储在所述计算机可读存储介质上以供所述一个或多个处理器中的至少一个处理器执行的程序指令，所存储的程序指令包括：