CN104081383A

CN104081383A - 对冗余消费者交易规则进行过滤

Info

Publication number: CN104081383A
Application number: CN201380007660.6A
Authority: CN
Inventors: P.P.高希; N.库马; H.博基尔
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2012-02-03
Filing date: 2013-01-28
Publication date: 2014-10-01
Also published as: KR20140121832A; WO2013116123A1; US20130204657A1; JP2015508918A; EP2810184A1; EP2810184A4

Abstract

可以通过各种技术来实现对消费者交易规则的冗余过滤。在冗余分析的过程中可以使用支持带来群集规则。可以使用位向量来识别冗余规则。可以有效地利用其它特征，例如任意化（anyfication）。可以使用不同的基准来证明改进的性能。

Description

对冗余消费者交易规则进行过滤

背景技术

随着移动计算的广泛应用，消费者参与到数量日益增长的交易中，例如试用和购买新的应用。但是，在移动计算世界中，消费者的绝对数量以及数量众多的待售物使得销售成为一项挑战性任务。

已经实现了各种工具，例如搜索技术来帮助消费者找到应用。但是，对如何帮助应用开发者找到消费者所给予的关心较少。举例来说，可以向开发者提供与应用购买数量相关的信息。虽然简单的数字可以在一定程度上表明销售努力是否成功，但是仍然还有改进余地。

发明内容

本发明内容以简化形式介绍了一系列概念，在下面的具体实施方式中对这些概念进行进一步描述。本发明内容不旨在识别所要求保护的主题的关键特征或必要特征，也旨在被用来对所要求保护的主题的范围进行限制。

消费者交易规则能够反映参与各种应用商店交易的消费者的特征。可以对冗余的消费者交易规则进行过滤，以去除多余信息。关于消费者特征的有意义的信息能够呈现于有限的空间中。

可以使用多种技术，如确定支持评级足够接近来对冗余进行识别。例如，可以利用阈值ε将规则群聚到支持带（band）中，以进行冗余过滤。

其它的技术包括通过各种方式，例如通过本文中所描述的位向量技术来识别包含关系。

可以有效地利用各种其它特征，例如规则条目任意化。

冗余过滤会产生较少的规则，这些较少的规则传递相同或更多信息，这在描绘消费者交易规则的用户界面中以及其它场景中特别有用。

如本文中所描述，可以根据需要将多种其它特征和优点融入到技术中。

附图说明

图1为示例性***的框图，该***实施冗余消费者交易规则过滤。

图2为示例性方法的流程图，该方法对冗余消费者交易规则进行过滤。

图3为框图，显示了基本的冗余消费者交易规则过滤过程。

图4为框图，显示了消费者交易规则条目的示例性集合。

图5为示例性开发挖掘者工具用户界面的屏幕截图，该用户界面包括消费者交易规则，这些消费者交易规则被过滤以去除冗余。

图6为示例性***的框图，该***利用支持带工具实施冗余消费者交易规则过滤。

图7为示例性方法的流程图，该方法通过支持带实施冗余消费者交易规则过滤。

图8为示例性***的框图，该***利用位向量工具实施冗余消费者交易规则过滤。

图9为示例性方法的流程图，该方法通过位向量实施冗余消费者交易规则过滤。

图10为表格，显示了示例性的消费者交易规则。

图11为表格，显示了应用了任意化后的示例性消费者交易规则。

图12为表格，显示了通过位向量实现冗余过滤。

图13为另一个表格，显示了通过位向量实现冗余过滤。

图14为框图，显示了冗余过滤的性能度量。

图15为框图，显示了通过应用最近邻技术来实现冗余过滤。

图16为示例性架构的框图，该架构用于实现冗余过滤。

图17，18,19和20为图表，显示了数据集性能。

图21为示例性计算***的图解，在该计算***中可以实施某些所描述的实施例。

图22显示了示例性移动设备，其能够用于在应用商店中参与消费者交易。

图23为示例性的支持云的环境，其能够与本文中所描述的技术一起使用。

具体实施方式

实例1-示例性概述

本文中所描述的技术可用于多种冗余过滤情景。采用这些技术能够提供用于对冗余规则进行过滤的有效技术。

这些技术能够帮助到那些希望对参与应用商店交易的消费者的特征进行监控的人。受益人包括应用开发者，他们希望确定当前消费者和潜在消费者的特征。消费者也可以间接地从这些技术中获益，因为他们被正确地识别为可能对特定应用感兴趣的可能性更大了。

实例2-实施冗余交易规则过滤的示例性***

图1为示例性***100的框图，该***实施本文中所描述的冗余消费者交易规则过滤。

为了语境目的，该图显示了应用商店120，消费者110访问应用商店120以参与到涉及各种应用的消费者交易中。消费者交易的各个方面可以存储为消费者交易数据130。消费者交易规则生成器140可以使用任意数量的技术，以基于消费者交易数据130来生成候选消费者交易规则条目150。例如，可以使用关联规则（AR）生成技术。

根据本文中所描述的技术，消费者交易规则冗余过滤器160可以使用任何本文中所描述的技术来对候选消费者交易规则条目150进行过滤，以生成过滤的交易规则条目170。

实际上，本文中显示的***，如***100可以更加复杂，具有附加功能，更加复杂的输入等。

***100以及任何本文中所描述的其它***可以与任何本文中所描述的硬件组件一起应用，例如下面描述的计算***（例如，处理单元，存储器等）。在本文的任何示例中，输入，输出以及工具可以存储在一个或多个计算机可读的存储媒介或计算机可读的存储设备中。本文中所描述的技术对于特定操作***或硬件可以是通用的，并且可以应用于多种环境，以利用本文中所描述的特征。

实例3-实施冗余交易规则过滤的示例性方法

图2为示例性方法200的流程图，该方法对冗余消费者交易规则进行过滤，并且-举例来说-可以在图1所示的***中实施。

在210，候选交易规则条目被接收。如本文中所描述，候选消费者交易规则条目可以包括指示出现相似消费者特征值的各个支持评级的规则，该相似消费者特征值与应用商店消费者交易相关。

在220，冗余规则条目被识别。如本文中所描述，将规则条目识别为冗余可以包括确定两个候选消费者交易规则条目的支持评级足够接近。识别过程还可以包括（例如，如本文所述，直接或间接地）识别两个候选消费者交易规则条目之间的包含关系。

在230，候选交易规则条目被过滤（例如，冗余的规则条目被去除）。

方法200和任何本文中所描述的其它方法可以通过计算机可执行指令（例如，使计算***执行方法的指令）而被执行，计算机可执行指令存储在一个或多个计算机可读媒介（例如，存储器或其它有形媒介）中，或者存储于一个或多个计算机可读存储设备中。

实例4-示例性冗余消费者交易规则过滤

图3为框图，显示了基本的冗余消费者交易规则过滤过程。

实际上，交易310不必是可以直接访问的，或是冗余过滤***的一部分。但是，在这里为了语境目的还是将它们显示出来。

候选规则350可以由规则条目360A，360B，360C表示，这些规则条目指示出现相似消费者特征值的各个支持评级，相似消费者特征值与应用商店消费者交易320A-F相关。

举例来说，在实例中，四个交易320C-F具有相似（例如，相同）的消费者特征值：国家=“美国”，州=“华盛顿州”，年龄=“22-40”，因为参与交易的消费者具有这些特征。由此，规则生成器（例如，利用关联规则生成技术的规则生成器）可以生成交易320C-F所支持的各种规则360A-C。在示例中，生成了三个规则360A-C。规则的支持值是相同的，因为它们基于相同的规则。实际上，规则350不必严格地基于所观察到的交易，而是可以利用诸如采样这样的统计技术来构建规则350，以可靠地对实际交易310进行表示。

对规则360A-C的评价揭示了它们具有包含关系。规则360B和360C相对于规则360A是冗余的，因为它们传递更少的信息（例如，它们的支持评级相同，并且仅仅指示360A的属性-值断言的子集）。

本文中所描述的冗余过滤可以去除两个规则360B-C，产生过滤的规则370，其仅具有规则360A。实际上，可以存在额外的规则（例如，由交易320A，320B支持的规则等）。

实例5-示例性冗余消费者交易规则

在本文的任何实例中，冗余消费者交易规则可以是相对于另一个规则提供多余信息的规则。实际上，冗余规则比另一个规则提供的信息少，因此可以被过滤掉而不会导致在最终剩下的规则中出现重大信息损失。可以通过确定规则之间存在的包含关系以及它们的支持评级是否足够接近来识别冗余规则。

例如，在图3的实例中，具有六个消费者应用商店交易，四个不同消费者进行的四笔交易的属性-值可以为“国家=美国”，“州=华盛顿州”和“年龄=22-40”。在这种情况下，消费者交易规则可以指示“国家=美国”，“州=华盛顿州”，“年龄=22-40”，支持评级为0.67。另一个规则可以指示“国家=美国”，“州=华盛顿州”，支持评级为0.67。还有另一个规则可以指示“国家=美国”，支持评级为0.67。第一个规则是最具体的。后面两个规则可视为是冗余的，因为它们没有第一个规则详细（例如，它们提供的信息较少，因为具有的属性-值对较少），并且不能比第一个规则提供更多的关于交易的额外信息。在示例中，它们具有相同的支持。但是，在本文的某些其它实施例中，支持可以足够接近而不相同。

实际上，对冗余规则进行过滤可以呈现较少的规则而不出现重大信息损失，这在向用户呈现规则供其考虑时是有帮助的。

实例6-示例性消费者交易规则支持

在任何示例中，规则可以具有支持评级（或简称“支持”），该支持评级指示特征满足该规则的消费者所完成的交易的数量。能够以多种格式来表示支持评级，例如绝对数（如，143笔交易），比例（如，143笔与规则匹配的交易/总共1394笔交易），百分比（如，10.3%）等。举例来说，对于模式P，支持评级（P）=Freq(P)/总数。

实例7-示例性包含关系

在本文的任何实施例中，对冗余进行确定可以包括确定两个规则是否具有包含关系（例如，满足一个规则的消费者交易最终包含在另一个规则中）。取决于本文中所描述的支持，可以将逻辑上包含（或者，简单地包含）另一个规则的完整交易的规则（例如，该规则在另一个规则指定特定值的地方指定“任意”（any）值）作为冗余规则清除。

第一个更笼统的规则被称为包含第二个更具体的规则（例如，第一个规则在第二个规则指定特定值的地方指定“任意”值）。取决于支持，可以将更笼统的规则作为冗余规则去除。

自身的交易群体具有集-子集关系的规则被称为具有“包含”关系（例如，另一个规则的交易必定包含于另一个更具体的规则中）。即使满足两个规则的交易是相同的，也可以存在逻辑集-子集关系。如本文中所描述，可以使用位向量来确定是否存在包含关系。

实例8-示例性的足够接近的支持评级

在本文的任何实例中，当支持评级相同时，可以表示支持评级足够接近。但是，不同的支持评级也可以足够接近。

本文中所描述的实例包括使用支持评级阈值ε，扩展的支持带，根据支持评级进行群集等。

实例9-示例性消费者交易

在本文的任何实例中，消费者交易的形式可以是涉及特定应用（例如，可下载的程序）的消费者交易。举例来说，这种交易可以包括试用应用，下载应用，购买应用，卸载应用，升级应用等。若需要，交易可以包括同应用的交互，例如使用应用的特定功能。

实际上，应用消费者可以通过应用商店，并与从应用商店获得的应用进行交互而参与这种交易。应用商店可以提供丰富的环境，消费者通过它可以找到，试用并下载应用。

实例10-示例性消费者交易类型

消费者交易可以与特定类型相关联，以表明涉及到什么类型的交易。例如，示例***易类型包括“购买”，“试用”，“下载”，“浏览”，“卸载”等。

本文中所描述的规则过滤技术可以应用于特定类型的交易，或者不同类型的交易的组合等。

实例11-示例性消费者特征

在本文的任何实例中，消费者交易可以与消费者的特征（例如，属性）相关联。

消费者可以注册应用商店，注册过程可以包括从消费者处收集各种消费者特征（例如，人口统计信息）和与用户的设备有关的各种信息。通过对用户的身份提供足够的保护（例如，在对交易进行分析时不存储能够对消费者进行具体或个体识别的信息），可以解决隐私问题。

实例12-示例性消费者交易规则

在本文的任何实例中，交易规则的形式可以是属性-值对集合，这些属性-值对指示特定的属性-值断言集合，这些属性-值断言被观察到与（例如，通过应用商店）参与消费者交易的消费者相关。举例来说，参与消费者交易的消费者的特征可以被用于形成消费者交易规则。满足规则的交易被称为支持该规则。通常，有用的规则是那些支持评级更高的规则（例如，大量的消费者具有满足该规则的特征）。但是有时候，支持评级较少的规则是有用的。

实际上，规则可以被用于指定消费者交易人口学模式（例如，以消费者交易数据中的频率出现的消费者特征的集合）。

如本文中所描述，规则可以存储为具有属性-值对（例如，属性-值断言或“AVA”）集合的规则条目，属性-值对指示由规则表示的人口统计特征（例如，规则条目的属性-值对可以为“属性 ₁ =值 ₁”，“属性 ₂ =值 ₂”等）。实际上，属性-值对可以存储为XML，结构化数据，数据库中的字段等。

图4为框图，显示了消费者交易规则条目450的示例性集合。实际上，可以通过对交易进行分析来生成数百，数千或更多个规则。本文中所描述的过滤可以使规则对于寻求对客户了解更多的开发者而言更加易懂。

实例13-示例性内部表示

实际上，值，属性，规则等可以各种方式在内部表示。例如，特定值（例如，国家“美国”）可以由代码（例如，数字等）而非文字值或字串来表示。但是，当呈现给用户以供考虑时，可以显示人类可理解的值。

实例14-示例性特定领域启发法

在本文的任何实例中，可以基于特定领域启发法对消费者交易规则条目进行完善。例如，就消费者特征而言，如果知道一个值暗示另一个值，则可以在完善的过程中提供这个值。

特定领域启发法的一个例子是检测到提供了州而未提供国家。

如果已知该州是一个国家的地理部分，则响应于检测到州出现在规则中，可以将该国家添加到规则中。例如，如果华盛顿州在（“WA”）出现在规则中，但是缺失国家，则可以将国家-美国（“USA”）添加到规则中（例如，国家=“美国”）。

实例15-呈现过滤后规则的示例性用户界面

在本文的任何实例中，对候选交易规则条目进行过滤可以生成过滤的规则条目。过滤的规则条目接下来显示在用户界面中。

图5为示例性开发挖掘者工具用户界面510的屏幕截图，用户界面包括消费者交易规则，这些消费者交易规则被过滤以去除冗余。通过应用本文中所描述的过滤技术，用户界面可以在显示消费者交易规则的同时改进对用户体验的优化。

在实例中，工具510包括下载数据窗格520（例如，应用的下载次数）。

用户界面还可以包括“谁正在下载“窗格540（例如，显示根据支持评级排名的前λ个过滤的消费者交易规则），以及分类趋势窗格550（例如，显示根据支持评级排名的，与应用相同分类的其它应用的前n个过滤的消费者交易规则）。

窗格540可以显示前n个过滤的应用商店消费者交易规则。应用商店消费者交易规则可以指示与应用商店消费者交易相关的消费者特征值，应用商店消费者交易与应用商店消费者交易规则相关。可以根据本文中所描述的支持评级阈值ε和包含关系对应用商店消费者交易规则进行过滤。过滤的应用商店消费者交易规则可以按支持评级进行排序（例如，按降序，从最高到最低）。

实际上，任意数量的其它配置都是可能的。本文中所描述的冗余过滤技术能够用于多个场景中，在这些场景中，屏幕实际使用空间被限制为显示更多的与应用商店消费者有关的有意义的信息。

实例16-通过支持带实现过滤的示例性***

图6为示例性***600的框图，该***利用支持接近工具665实施冗余消费者交易规则过滤。

在实例中，候选消费者交易规则条目650以及过滤的交易规则条目670的形式可以是本文中别的地方描述的规则条目。

冗余过滤器660包括支持接近工具665，支持接近工具665可以使用任何本文中所描述的技术来确定两个规则的支持评级是否足够接近到被认为是冗余的（例如，如果它们还具有包含关系）。例如，可以使用阈值ε将支持带扩展为超出简单的相同支持。本文中描述了各种其它的技术。

因为候选消费者交易规则条目650可以从大量交易中导出，并可能依赖于统计技术，所以存在这样的可能性：规则条目的支持评级会含有噪声。因此，在两个规则不具有相同支持的情况下使用冗余过滤，十分有利于去除多余的规则条目。

实例17-通过支持带实现过滤的示例性方法

图7为示例性方法700的流程图，该方法通过支持带实施冗余消费者交易规则过滤。

在710，如本文中所描述的那样，候选交易规则条目被接收。

对冗余规则条目进行识别可以包括720和730。在720，基于支持阈值ε，根据规则的支持评级而将规则群集（cluster）到多个范围中。可以使用各种群集技术（例如，最近邻技术等）。群集可以将一个规则条目同另一个具有不同（例如，不完全相同）支持评级的规则条目群集在一起。

在730，接下来在支持带中识别冗余规则。例如，支持带中的规则可以被认为是足够接近的，以实现冗余目的。如本文中所描述，规则可以分配到集群中，相同集群中的规则可以被认为是足够接近的，以实现冗余目的。

如本文中所描述，可以检查一个带中的规则条目的包含关系。带中的具有此包含关系（例如，包含另一个规则的规则条目）的规则条目可以被识别为是冗余的。

如本文中所描述，可以根据包含关系将规则分组，可以（例如，基于支持阈值ε）检查各个组中的支持评级，以查明它们是否足够接近。在这种情况下，在识别包含关系之后再确定支持评级足够接近。这种配置通常会更好地去除冗余。

在740，如本文中所描述的那样（例如，通过去除冗余规则条目）对候选规则条目进行过滤。

实例18-通过位向量实现过滤的示例性***

图8为示例性***800的框图，该***利用位向量工具865实施冗余消费者交易规则过滤。

在实例中，候选消费者交易规则条目850以及过滤的交易规则条目870的形式可以是本文中别的地方描述的规则条目。

冗余过滤器860包括位向量工具865，并能够与位向量工具865交互，位向量工具865可以使用任何本文中所描述的位向量技术来确定两个规则条目是否具有包含关系。例如，对于一对规则条目，可以分配各自的位向量并对各自的位向量进行评价以生成一个结果，该结果表明是否存在包含关系。如本文中所描述，工具865可以把缺失值看做具有任意值。

尽管在图8中未示出，但是任何本文中所描述的***都可以包括用户界面，该用户界面显示过滤的规则条目（例如，根据支持评级排名）的列表。

实例19-通过位向量实现过滤的示例性方法

图9为示例性方法900的流程图，该方法通过位向量实施冗余消费者交易规则过滤。

在910，如本文中所描述的那样，候选交易规则条目被接收。

通过位向量识别冗余规则条目可以包括920和930。在920，为规则对生成位向量。基于对候选消费者交易规则条目对中的各个消费者特征值进行比较，可以为各对候选消费者交易规则条目生成位向量对。

在930，对位向量进行评价以确定规则条目是否表现出包含关系。如果一个规则条目表现出这种包含关系（例如，包含另一个规则条目），则可以对其进一步分析，以确定两个规则之间的支持评级是否足够接近。如果足够接近，则规则条目可以被识别为是冗余的。

如本文中所描述，可以在（例如，利用位向量）识别包含关系之前根据规则条目的支持评级对它们进行群集。在这种情况下，在识别包含关系之前执行确定支持评级足够接近。

在940，如本文中所描述的那样（例如，通过去除冗余规则条目）对候选规则条目进行过滤。

实例20-示例性位向量分配

在本文的任何实例中，可以对位向量进行分配，当将如下所示两个规则条目规则（R_i）和另一个规则（R_j）相比较时，每个消费者特征分配一位。

R_i	R_j	R_j的位
			任意	任意	0
值	任意	1
			任意	值	0
值	值	1
			值	不同值	独立

如果对于消费者特征而言位向量R_i和R_j具有不同的非任意值，则不需要检查包含关系，因为规则条目是独立的。对于这种独立的规则，可以跳过位向量处理。

如果对于所有的消费者特征而言R_i和R_j具有相同的值，则它们相同，并可以如上所述那样进行处理（例如，一个位向量被去除仿佛其包含于另一个位向量中）。

实例21-示例性位向量评价

在本文的的任何实例中，两个规则条目的位向量（例如，一对位向量）可以通过对向量对执行逻辑“与”运算而被评价，产生最终位向量。最终位向量接下来可以同每个规则的位向量（例如，同向量对中的位向量）进行比较。如果最终位向量与两个规则中的任何一个的位向量匹配，则具有匹配位向量的规则具有包含关系（例如，包含另一个规则），并且在规则之间的支持评级足够接近的情况下可以作为冗余规则被去除。

实例22-示例性开发者

在本文的任何实例中，开发者可以是开发应用和/或将应用上传到应用商店以供应用商店消费者访问的任何一方或实体。如本文中所描述，这些开发者可以极大地从所描述的技术中获益。

实例23-示例性组合

在本文的任何实例中，可以将任何支持接近技术与任何本文中所描述的位向量技术一起使用。

实例24-示例性消费者交易规则

图10为表格1000，显示了示例性的消费者交易规则。在实例中，很明显，规则表明100%（支持评级为1）的交易涉及男性消费者。

另一个规则表明63%的交易涉及年龄段（age bucket）为22-40岁的消费者。与另一个表明63%的交易涉及年龄段为22-40岁的男性的规则相比，这样的规则是冗余的。还显示了其它的一些冗余规则。

实例25-示例性的消费者交易规则任意化

图11为表格1100，显示了应用了任意化后的示例性消费者交易规则。在本文的任何实例中，当缺失值被视为具有“任意”值时，有利于进行规则条目分析。这种被称作“任意化”的技术可以应用到本文的任何实例中。实际上，“任意”值能够以多种方式表示，包括特殊代码或指针。

任意化可以为一个或多个不存在于第一个候选消费者交易规则条目中，而存在于另一个候选消费者交易规则条目中的消费者特征值指示一个任意值。

多个值中的一个被修正为“美国”，因为特定领域知识确保了“华盛顿”州必定意味着国家的值是“美国”。

实例26-示例性位向量评价

图12为表格1200，显示了通过位向量实现冗余过滤。在实例中，对R₁和R₂进行评价以确定是否存在包含关系。根据本文描述的位向量分配技术来构建位向量（R₁为1101，R₂为1001）。

当执行逻辑“与“运算时（例如，如图中示为^），最终位向量（1001）与R₂匹配，因此R₂包含于R₁中。因此，如果两个规则的支持评级足够接近的话，则R₂是冗余的。

图13为另一个表格1300，显示了通过位向量实现冗余过滤。在实例中，根据本文描述的位向量分配技术来构建位向量（R₁为1101，R₂为0010）。

当执行逻辑“与“运算时，最终位向量（0000）既不与R₁匹配也不与R₂匹配，因此两个规则都不具有包含关系。因此，规则被保留并被视为是独立的。

实例27-示例性的性能度量

图14为框图，显示了冗余过滤的性能度量。

在实例中，在前N（top N）窗口中有M个规则。这种设置是对场景进行分析的有效方式，在这些场景中，前N个规则被传达给用户以供用户考虑。尽管N可以是多个值中的任意一个，在一个实施方式中N=5。

可以根据100*((L/N)-1)计算覆盖增益百分比，其中L确定从（例如，基于支持评级排序的）第一条规则开始必须被扫描的规则的数量（例如，该数量通常超过N），以在能够对前N个规则的数量（N）进行挑选之前避免冗余规则。也就是说，覆盖增益衡量通过去除冗余规则而获得的对规则的额外数量的覆盖深度，该额外数量的覆盖深度超出当在未去除冗余规则的情况下局限于包括N个规则的窗口时原本可能的覆盖深度。

通过确定第N个规则条目在初始规则集合（例如，候选消费者交易规则条目）中的排名L（例如，按支持评级值的降序），可以为包括前N个按支持评级排名的过滤后规则条目的窗口计算覆盖增益度量，对覆盖增益度量的计算包括计算(L/N)-1。可以根据100*((L/N)-1)来计算百分比覆盖增益度量。

可以在不考虑N或前N场景的情况下获得冗余清除百分比度量。可以对发现的规则（例如，候选规则，不管是否冗余）的整个集合进行扫描（例如，根据最小支持值决定是否合格）。接下来可以发现在所有发现的规则中百分之多少的规则是冗余的。

通过用被识别为冗余的候选消费者交易规则条目除以候选消费者交易规则条目的总数量，可以计算得到该冗余清除度量。通过乘以100，可以计算得到百分比冗余清除度量。

借助本文中所描述的技术，人们可以发现候选规则中的前N个规则中有多少（例如，R）个规则作为冗余规则被去除。去除百分比可以根据100*(R/N)来计算。

对于候选消费者交易规则条目的前N窗口，通过确定多个（即，R个）过滤的为冗余的候选交易规则条目，可以计算得到上述去除度量。计算去除度量包括用R除以N。通过乘以100，可以确定百分比去除度量。

这些度量特别有利于展示本文中所描述的技术的优势，例如，如本文中所述的当在有限的窗口中显示规则时规则冗余去除技术的效率。

实例28-示例性最近邻技术

图15为框图，显示了通过应用最近邻技术来实现冗余过滤。尽管在本文中可以应用任意数量的群集技术来根据支持评级实现对规则条目的群集，但是在这里还是显示了最近邻技术作为例子。

在1500A，分析从第一规则1510A开始，并且确定另一个规则1520A的支持评级落入第一规则1510A的阈值ε中。接下来分析进行至规则1520A。

在1500B继续进行分析，确定规则1530B的支持评级落入被分析的规则1520B的阈值ε中。相应地，接下来分析进行至规则1530B。

在1500C，发现规则1510C不落入1530C的阈值中。因此，1510C被标示为不与1520C和1530C属于相同的集群（例如，1510C不是1530C的最近邻居）。

类似地，可以对组中的其它规则继续进行分析。

实例29-示例性整体架构

图16为示例性架构的框图，该架构用于实现冗余过滤。在实例中，规则被表示为XML，但是也可以使用本文中所述描述的其它表示。

使用最小支持评级阈值μ，借助SQL关联规则算法来生成规则。这种规则被称为是“未优化的”（例如，候选规则），因为还没有对它们进行冗余过滤。

规则被存储在XML规则中并通过XML解析器被解析，生成排序规则列表。

可以应用本文中所描述的特定领域完善，并且规则可以被置入扩展表示（例如，任意化等）中。

可以生成基于包含关系的规则的列表。举例来说，可以将规则放到其它规则的列表中，所述规则与其它规则具有包含关系。如本文中所描述，这些列表可以是基于包含关系排序。这种排名可以是从最笼统到最具体，反之亦然（例如，从包含者到被包含者，反之亦然）。

对于规则列表，可以对被包含的规则列表进行ε延伸的支持群集。

接下来可以根据包含关系和支持评级来清除冗余。接下来可以确定重要性（例如，排名更高，特征更多等），产生优化的规则（例如，经过冗余过滤，根据支持评级排名，并位于前N窗口中的规则）。

实例30-示例性进一步的信息

应用商店可以给消费者提供一个平台，借助这个平台，消费者可以方便地发现，试用并购买所选择的新应用。开发者挖掘者（DM）组件可以为通过应用商店向发行应用（“app”）的开发者提供（数据驱动的）业务指导。开发者挖掘者的一个功能是从记录的应用的（下载）交易（‘L3’采用页面）中挖掘业务模式（亦即业务规则），将业务模式同聚集的应用的（子）类的（下载）趋势（新业务机会，即NBO页面）相比较。这可以帮助开发者基于其应用的真实消费情况来对她的业务策略进行重新调整。

可以使用SQL服务器分析服务关联规则（AR）技术来从消费者交易中提取业务规则。不幸的是，AR会生成高度冗余的规则。假定规则表示为一系列的属性值断言（AVA），例如，{国家="美国"，州="华盛顿"，年龄=[0-13]，性别="男"}可以表示DM从消费者的（下载）交易中发现的业务规则中的其中一个。在上面的实例中，极有可能存在具有（大致）相同频率的冗余规则，例如，{国家="美国"，州="华盛顿"，年龄=[0-13]}，{国家="美国"，州="华盛顿"}，{国家="美国"}。这会使有限的不动产（显示器）上充满冗余的规则，导致糟糕的用户体验。

因此，期望的是（1）自动识别非冗余业务规则以进行清除，（2）对规则进行排名，以在顶部显示最重要的规则以使用户体验最大化，以及（3）提供度量，以对这些算法的性能进行评价。

如本文中所描述，用于解决问题的技术可以在应用商店开发者分析中实施。通过借助独特的规则表示方案的包含关系，这些技术正确识别冗余规则。定义了新的度量（%冗余，%覆盖增益，%去除），这些度量有助于对此空间中的算法进行基准测试。通过使用真实世界应用商店数据，平均而言可以得到去除百分比为40%以上，冗余百分比为30%，覆盖增益百分比为58%以上。这就意味着，对于前5（考虑到规则的“支持”）方案而言，平均有两个规则将被更有意义的规则取代。此外，与仅从前5个规则中选择相比，算法扫描多于前5个（也就是说，58%的覆盖增益意味着要扫描前8个规则）规则以寻找非冗余规则。

实例31-示例性进一步的信息

本文中所描述的技术减少了所生成的具有给定属性集合的业务模式（规则）的冗余。规则可以表示为一系列的AVA（属性值断言）。

可以利用这样一个事实：如果一个属性在规则中缺失，则该属性等同于具有“任意”值的属性。换句话说，规则不知道该属性的值。这样就将冗余识别问题简化为检测AVA序列的给定集合（更笼统的规则）的子集（更具体的规则）的问题。可以将位向量与生成的可以操作的规则关联起来，以检测规则之间的包含关系。基于规则的最小支持，根据为向量操作的与其它规则的包含关系，以及特定领域冗余识别的共同结果来做出修剪决策。

特定技术速度较快，并可以根据关于现实世界数据的前5个规则替代40%或更多。此外，其规则将在前5窗口中显示的模型中的80%以上实现了冗余消除，证明了它能够有效改进用户体验。

实例32-示例性表示

可以对基于消费者交易生成的消费者交易规则进行优化（例如，过滤冗余），以在应用商店监视应用中显示给开发者看。可以对利用决策树（DT）技术生成的规则应用相同的方法以对规则进行优化。

尽管不是必须的，但是在***中规则可以存储为XML格式。

用Ω来表示挖掘***中的属性的总集合。通过关联规则技术发现的规则是一系列的属性-值断言，即，R_i:{(A_k=v_k,j)，k∈[1,N_i]，j∈[1,V_k]，A_k∈Ω}，其中：

v_k,j是第k个属性A_k的第j个值，

V_k是A_k的可能值的数量，

V_k,j∈val(A_k)，即A_k的值集，并且

N_i是第i个规则，即R_i中包含的属性的数量。

合格规则的集合γ是支持大于最小阈值（μ）的规则。

对于应用商店，举例来说，

Ω={国家(=A₁)，州(=A₂)，年龄段(=A₃)，性别(=A₄)}

‘val(A₁)’可以假定诸如{美国，英国，印度...}这样的值，同样，其它变量也具有自己的值集。

典型的规则R可以具有如下形式：{国家=‘美国’，州=‘华盛顿’，年龄段=‘15-30’，性别=‘男’}。

实例33-示例性任意化规则表示

可以使用根据消费者交易生成的规则的扩展表示。规则‘R’的属性-值断言不一定包含Ω中的所有属性。在R中可能会缺失一些属性(MA_i)。

这些缺失的属性-值断言（AVA）可以补足为{(MA_i=‘任意’)}，其表明规则不知道{MA_i}可能会假定的值。因此，规则R：{国家=‘美国’，性别=‘男’}的扩展表示等于{国家=‘美国’，州=‘任意’，年龄=‘任意’，性别=‘男’}。请注意在扩展表示模式中缺失属性{州，年龄段}是如何被‘任意’值填充的。

在扩展表示中，***中的规则可以包含缺失的Ω中的属性（例如，其它规则的属性，例如任何其它规则中出现的属性）。

实例34-示例性冗余规则及独立规则

本文中所描述的技术可以发现两个规则是独立的，还是一个规则对于另一个规则而言是冗余的。可以使用下面的定义来帮助识别冗余规则和独立规则。

具有扩展表示的两个规则R_i和R_j具有集-子集关系，如果出现以下情况，则它们中的一个是冗余的：

它们的支持相同（或者就像本文所描述的相近），并且

如果出现以下情况，则在规则的扩展表示中，规则中的一个，例如(R_i)比另一个规则(R_j)更加笼统：

[R_i和R_j的AVA_k正好匹配]

或者[R_i的A_k必须是‘任意’，并且R_j的A_k必须不是‘任意’]。

如果两个规则R_i和R_j不冗余，则它们是独立的。

实例35-示例性确定冗余规则及独立规则

基于以上内容，可以对确定冗余规则和独立规则的技术进行如下描述。

规则（Ri和Rj）的（相对）位向量可以定义为彼此具有相同（例如，或者足够接近）的支持，如下所述：

[对于每个k=1，|Ω|]

1. 对于具有相同支持的R_i和R_j中的包含第k个属性A_k的属性-值断言来说，

A．如果val(R_i:A_k)，即R_i中的属性A_k的值等于val(R_j:A_k)，则对于R_i和R_j中的每一个而言，在R_i和R_j中的每一个的最终位向量的第k个位位置上设置“1”。这样就在两个规则中专门保留A_k的每个非‘任意’值。

B．如果在R_i和R_j的任何一个中，A_k的值等于‘任意’并且另一个假定为非‘任意’，则在相应规则的位向量表示中设置‘0’，而在另一个规则中设置‘1’。

C．如果R_i和R_j中的A_k的值都等于‘任意’，则在两个规则的位向量表示的第k个位置处设置‘0’。

2. 举例来说，如果R_i={国家=‘美国’，年龄段=‘15-30’}并且R_j={年龄段=‘15-30’}，则进行以下步骤来获得它们的相对位向量：

A．[通过扩展表示]

R_i={国家=‘美国’，州=‘任意’，年龄段=‘15-30’，性别=‘任意’}，并且

R_j={国家=‘任意’，州=‘任意’，年龄段=‘15-30’，性别=‘任意’}，

B．[位向量表示]

R_i相对于R_j的位向量=位向量R_j(R_i)=1010

R_j相对于R_i的位向量=位向量R_i(R_j)=0010

3. [冗余和独立测试]，为测试涉及R_i和R_j的冗余，进行以下步骤：

A．计算：F=位向量R_j(R_i)Λ位向量R_i(R_j)[按位“与”（AND）运算]

[情况 F==R_j]R_j是R_i的超集（即，更加笼统）。如果这样的话，宣布R_j为冗余，并且在显示中仅包括R_i。

[情况 F==R_i]R_i为冗余，并且将R_i从显示中去除。

[情况 F≠R_i 或 R_j中任一个]R_i和R_j是独立的，在显示中保留它们。

实例36-对用于独立和冗余工作的以上技术进行示例性证明

使用两个规则{R_A，R_B}，它们中的每一个为一系列的AVA。关注第i个AVA和第j个AVA。这些AVA的形式可以为{R_A： Ai=^Av_i, RB: A_i=^Bv_i}和{R_A: A_j=^Av_j, R_B: A_j=^Bv_j}。这是因为采用了任意化策略或扩展规则表示策略来确保在每个规则中呈现每个属性。在不损失任何普遍性（因为对‘i’和‘j’的选择没有限制）的情况下，可以假定除{A_i, A_j}之外的属性是相同的。部分发展的位向量是相同的，比如说“Y”。这是因为人们总是能够通过每次添加一个AVA来从头开始建立规则。考虑以下情况：

情况-I：{^Av_i=^Bv_i}R_A和R_B中的每一个的生成的位向量是“Y1”，因此保持相同。如果对于所有的属性来说继续如此，则这两个规则的生成的位向量完全相同。它们的与（AND）运算会使任何一个规则的位向量相同，并且算法会清除规则中的一个（副本）。这也会处理清除“任意=任意”的案例。

情况-II：{^Av_i≠^Bv_i}R_A和R_B中的每一个的生成的位向量现在取决于A_i的值。

在它们中的一个（比如说^Av_i）为‘任意’并且另一个（^Bv_i）不为‘任意’的情况下，R_A的位向量将为“Y0”而R_B的位向量将为“Y1”。两个位向量的与运算现在变为“Y0”，等于R_A的位向量，R_A比R_B更加笼统。在这种情况下算法能够正确工作。

在两个值都不同于“任意”并且不相等的情况下，技术会正确地将它们识别成是独立的（参见上面的“示例性确定冗余规则及独立规则”）。

情况-III：{^Av_i≠^Bv_i, ^Av_j≠^Bv_j, i<j}这种情况下可以安全地假定两者之间的所有其它属性(A_k: i≤k≤j)的值一致，否则会落入情况-I或情况-II。{^Av_i=‘任意’≠^Bv_i, ^Bv_j=‘任意’≠^Av_j}明显表示一种冲突情形，在这种情况下，正确的决定是宣布这些规则是独立的。

R_A的位向量会进化为“Y0A1”，而R_B的位向量会变为“Y1A0”。再次对该序列进行与运算会产生与R_A或R_B都不同的位向量“Y0A0”。算法会正确地将R_A和R_B识别成是独立的。

证明完毕。

实例37-冗余规则和独立规则支持的定义的示例性ε-扩展

可以放松对两个规则的限制，这两个规则具有相同的支持，将被考虑是独立的还是冗余的。在本文的任何实例中，可以将概念扩展为包括支持的ε-扩展。如果两个规则（例如，R_i和R_j）的支持之间的差异最多为ε，即|Sup(R_i)-Sup(R_j)|<ε，则它们具有将被考虑用于独立或冗余测试的资格。可以将这称为R_i和R_j具有相同的ε-扩展的支持。

技术改进以处理ε-扩展：对技术（例如，参考实例35）进行修改以包括‘ε-扩展’，如下所示：

将γ划分为ε-扩展的支持带（例如，参考实例38和/或41）。

重复技术的步骤（例如，参考实例35）。注意：只要将规则与它们的支持进行比较，对于每个规则就用“集群ID”来替换“支持”。进行上述的划分之后，每个规则的唯一度量就是它的“集群ID”而非支持。举例来说，只有属于相同集群ID（之前使用‘支持’）的规则才会被拾取以确定它们的冗余情况。

实例38-示例性将规则集合划分为ε-扩展的支持带

可以使用多种群集技术中的任意一种，例如ε-邻近群集技术来将规则集合γ划分为ε-扩展的支持带。可以使用最近邻群集技术。

实例39-示例性性能度量

以下度量对技术的性能进行量化。在下面的所有度量中，可以假定γ为合格AR规则的集合，其中每个规则的支持≧μ，并且规则根据它们的支持评级降序排列。还可以假定开发者最终会看见***中的仅前λ个规则。

%冗余消除（% RE）：它采集全部（|γ|）规则中被算法标记为冗余的规则的百分比（%）。

(%)覆盖增益（%CG）:如果在清除冗余后被加入前λ窗口中的最后一个规则在初始规则集合‘γ’中的排名为‘δ’，则。

(%)去除（% KO）：该度量表示将要显示的最多‘N’个规则中的前（λ）个规则中作为冗余规则被算法去除的规则的百分比（%）。

上述度量特别有助于确定这些算法是否成功。图14显示了进一步的细节。

实例40-示例性规则排名技术

框架可以开始对规则进行自动排名，以使非冗余规则最大程度上进入到前λ窗口中。

输入：

AR生成的规则的集合：γ。这个规则集合根据其组成规则的支持的降序进行排序。确保所有规则的支持>μ。已知‘μ’（例如，0.01）是规则的最小支持。

‘λ’ (<<|γ|)在包含对于开发者是可见的前λ个规则的前λ窗口中。

输出：

修改的非冗余规则的集合(γ_nr)。从这个列表中拾取前λ个规则来填充前λ窗口。

假定

规则具有详细实施方式所需的相关数据结构。在下面的步骤中，规则具有‘状态’（status）作为它的一个字段，该字段的值位于{In, Out}中。这表示规则是独立的（‘In’）还是冗余的（‘Out’）。

动作：

1. 开始

2. 限定γ_nr并初始化γ_nr←Φ（空集）

3. 对于每个规则r∈γ

a．通过为每个缺失属性***‘任意’值，将‘r’转换为其扩展的表示（例如，参考实例33），A∈Ω并且A?r

b．r．状态←‘In’

4. 对于每个( r_i∈γ, i∈[1, |γ| )

a．如果(r_i.状态== ‘Out’)，则跳过剩余步骤并开始下一个迭代[i-循环]；

b．对于每一个( r_j∈γ, j=i+1 & j<|γ| )

i．如果(r_i.状态== `Out`)，则跳过剩余步骤并开始下一个迭代[j-循环]；

ii.检查(r_i, r_j)是否为：

独立的（例如，实例35）

如果是，则γ_nr←γ_nr U {r_i, r_j}。

r_i.状态←‘In’;

r_j.状态←‘In’;

冗余的（例如，实例35）

如果(r_i是冗余的)，则{r_i.状态←‘Out’; r_j.状态←‘In’; γ_nr←γ_nrU{r_j}}

否则，{ r_j.状态←‘Out’; r_i.状态←‘In’; γ_nr←γ_nrU{r_i}}

c．结束(j-循环)

5. 结束(i-循环)

6. ‘γ_nr’包含按规则的支持降序排列的独立规则。或者，γ包含所填充的‘状态’被标示为‘In’或‘Out’的规则，并同‘γ_nr’一样有用。

7. 结束。

实例41-用于创建ε-扩展的支持带的示例性群集技术

可以使用群集技术（例如，最近邻技术）来解决该问题。

输入：

AR生成的规则的集合：γ。这个规则集合根据其组成规则的支持的降序进行排序。

‘ε’，即支持带，在该支持带中，规则将被视为具有相同的“扩展的支持”值（例如，足够接近）。

输出：

规则的集合γ，其中每个规则被分配一个唯一的集群ID。

所发现的多个独特集群C

假定

规则根据其具体实施方式具有相关数据结构-具体来说，规则具有以下字段：

‘支持’，其表明项集（AR术语）的出现频率。

‘状态’，其表明规则是冗余的(‘Out’)还是独立的(‘In’)。

“集群ID”，其表明规则属于哪个集群。

动作：

1. {

2. 定义两个整数数组，即sortedIndex[|γ|]，clusterIDs[|γ|]

3. 定义双数组value[|γ|]，其存储每个规则的支持，r∈γ

4. 用按值的降序排列的value[ ]数组中的索引来初始化sortedIndex[ ]数组

5. 将clusterIDs[ ]条目初始化为“-1”

6. Lastgrp←0; clusterIDs[sortedIndex[0]]←lastgrp; indmaxlastgr←0; alreadyentered=false;

7. 对于(cnt=1; cnt<|γ|; cnt++)，执行以下动作

8. {

9. val1 = value[sortedIndex[indmaxlastgrp]] - value[sortedIndex[cnt]];

10. 如果(val1 ≤ ε)

a. clusterIDs [sortedindex[cnt]] = clusterIDs [sortedindex[cnt - 1]]; /* 属于相同的集群 */

11. 否则

a. {

i. clusterIDs [sortedindex[cnt]] = clusterIDs [sortedindex[cnt - 1]] + 1;

ii. alreadyentered = false;

iii. /*如果适用的话，将先前的成员重新调整到新的集群中*/

iv. 对于(j= indmaxlastgrp+1; j<cnt; j++)

v. {

vi. val2 = value[sortedIndex[j]] - value[sortedIndex[cnt]];

vii. 如果(val2 < ε)

viii. {

if (!alreadyentered) { indmaxlastgrp =j; alreadyentered= true;}

clusterIDs [sortedindex[j]] = clusterIDs [sortedindex[cnt]];

ix. }

x. } /*结束内循环*/

xi. If (!alreadyentered) indmaxlastgrp=cnt;

b. }

12. } /*结束循环*/

13. /*重新计算创建了多少个独特的集群*/

14. C = clusterIDs [sortedindex[|γ|]] +1;

15. } /*结束群集*/。

实例42-示例性对技术进行修改以包括ε-扩展的支持带

为考虑ε-扩展的支持（例如，在实例41中），可以进行以下动作：

将规则[γ]群集到ε-带中并给每个规则分配一个集群ID（例如，在实例41中）。原则上，在这里可以使用任何群集算法。

对技术（例如，实例35）进行修改以仅仅对相关规则的集群ID而非原始支持进行比较（例如，将子句‘具有相同支持’替换为‘具有相同集群ID’）。

通过上面的修改，最终的技术作用如下（下面突出了与未做ε-扩展的技术的不同）：

输入：

AR（关联规则技术）生成的规则的集合：γ。这个规则集合根据其组成规则的支持的降序进行排序。

‘ε’，即支持带，在该支持带中，规则将被视为具有相同的‘扩展的支持’值（例如，足够接近的支持）。

输出：

动作：

1. 开始

2. 定义γ_nr并初始化γ_nr←Φ（空集）

3. 给定ε基于群集技术（例如，实例41）对γ进行群集。

4. 对于每个规则r∈γ

a．通过为每个缺失属性***‘任意’值，将‘r’转换为其扩展的表示（例如，实例33），A∈Ω并且Ar

b．r．状态←‘In’

5. 对于每个( r_i∈γ, i∈[1, |γ| )

a．如果(r_i.状态== ‘Out’)，跳过剩余步骤并开始下一个迭代[i-循环]；

b．对于每一个( r_j∈γ, j=i+1 & j<|γ| )

i．如果(r_i.状态== ‘Out’)，则跳过剩余步骤并开始下一个迭代[j-循环]；

ii．检查(r_i, r_j)是否为：

独立的（例如，实例34和35）。

如果是，则γ_nr←γ_nrU{r_i, r_j}。

r_i.状态←‘In’;

r_j.状态←‘In’;

冗余的（例如，实例34和35）。

否则，{ r_j.状态←‘Out’; r_i.状态←‘In’; γ_nr←γ_nrU{r_i}}

c．结束(j-循环)

6. 结束(i-循环)

7. ‘γ_nr’包含按规则的支持降序排列的独立规则。或者，γ包含所填充的状态被标示为‘In’或‘Out’的规则，并同‘γ_nr’一样有用。

8. 结束。

实例43-对ε-扩展技术的示例性特定领域改变

可以通过特定领域知识来进一步完善规则。在应用商店中，举例来说，可以检查规则中是否只存在“州”属性而不存在“国家”。在这种情况下，从存储的查找表中在给定州信息的情况下来检索国家信息。在对规则进行冗余清除之前可以进行很多这样的完善。

实例44-对上述技术的示例性改进

在上述的ε-扩展的算法中，可以应用群集技术，不管规则之间是否存在集-子集关系。考虑这样的规则集合，即γ={R₁, R₂, R₃, R₄}，其中{R₁,R₂}是依赖的，其余的不是依赖的。假定规则就它们的支持而言是等距的，并且它们的支持之间的差异是（ε-δ），其中δ<<ε。当对γ进行最近邻群集时，技术所生产的集群的集合将会是[{R₁}, {R₂}, {R₃,R₄}]。由于{R₃,R₄}假定为独立的，规则的减少的集合(γ_nr)将与γ相同。

但是，可以首先减少{R₁,R₂}，因为它们一定位于ε-距离之内。因此，所提算法的精度明显受这种极端情况的损害。

为改善极端情况下的精度，可以进行以下操作：

A．对规则集合γ运行集-子集识别算法。这会产生规则集合的列表={γ₁, . . . , γ_k}。

γ_i (第i个规则列表, i=1 . . . k)包含通过包含关系而相关的规则。

γ_i中的规则根据它们的支持进行降序排列，从更加笼统到非常具体。

B．对于每个γ_i (第i个规则列表, i=1 . . . k)，在给定ε和γ_i的情况下应用实现ε-扩展的支持带的技术。为提高速度，可以跳过集-子集确定步骤，因为已知γ_i中的规则具有集-子集关系。在这里，冗余规则同前面一样被标示为‘out’。

C．现在通过包括γ中所有状态标示为“in”的规则，生成非冗余规则集合γ_nr。

D．停止

为解决上述例外情况，接着上面修改的算法后面，步骤a将γ分为=({R₁}, {R₂}, {R₃,R₄})，并对每一个列表应用步骤b。假定{R₃,R₄}位于ε-邻近区域中，这个列表将被减少。所识别的非冗余规则的集合现在将会更加详尽。

实例45-示例性的对ε进行选择

在上述的ε-扩展的算法中，群集会受参数‘ε’的选择的影响。

很明显，对于AR算法，（通过集-子集相关的）模式的支持互相接近，直到它超过模式的阈值长度急剧下降。这意味着冗余规则被非常接近地群集在一起，在这之后分离急剧增加。因此，较小的‘ε’值都可以满足群集的目的。

ε可以是整个规则集合γ的交易的总数（N）的函数，即ε(N)。因此，可以创建如下所示的表格，举例来说，该表格采集所观察的‘ε’和N之间的关系。

N	ε
		[0 - 99]	.02
[100 - 999]	.0175
		[1000- 9999]	.015
[10000 -99999]	.01
		[100000及以上]	.005

可以选择ε=0.01，即1%一致，或者可以从上表中选择。或者，参数可以由用户进行配置。

实例46-示例性性能

对各种数据（所发现的规则）集进行各种试验，以测量所述度量的性能（参见本文中所描述的性能度量）。对于组分可挖掘元素，例如‘应用’，‘类’，‘子类’等中的每一个，A数据集具有各种AR模型。使用了两个现实世界数据集来对冗余清除技术的性能进行基准测试，两个现实世界数据集中包括一个来自应用商店的集合和两个合成数据集。

下面的表对于<μ=0.03, ε=0.01, N=5>采集了前面所述度量的性能数据。横跨在其组成模型上的各种数据集，模型中的87.8%得以改进。如果仅仅关注现实世界数据，所考虑模型中的95%产生了冗余清除，这清楚地表明了技术的效果。

在下面的实例中，μ<0.03，ε=0.02并且N=5。首先进行Epsilon过滤，接下来应用应用的包含关系。可替换地，可以先创建被包含规则的列表，接下来进行ε支持群集，产生更高的冗余去除度量。

数据集	代码（数据集）	#模型	%KO 平均	%CG 平均	%RE 平均	最小支持（μ）	%具有KO的模型（>0%）
								合成数据：没有属性是单一值	A	23	26.08	26.08	12.37	.03	100
合成数据：性别属性是单一值	B	25	15.2	20.00	22.71	.03	60
								现实世界：应用商店内部环境（国家是单一值）	C	52	40.38	57.3	28.28	.03	100
现实世界：另一个数据集（性别是单一值）	D	7	44.57	36.64	43.37	.03	57.14
								整体		107					87.8

上述数据集中的每一个的详细性能数据通过变化的最小支持(μ)，Epsilon (ε)来绘制。

基于模型所包含的规则的数量将模型分为以下六个范围[范围1: 1-10, 范围2: 11-20, 范围3: 21-30, 范围4: 31-40, 范围5: 41-50, 范围6: >50]。

对于每个数据集，详细性能表以多合一的形式排列为%KO，%RE，%CG。数据集A（合成）的详细表，数据集C（真实世界）的性能表在附图中可见。图17，18，19和20是显示数据集性能的图表。

实例47-示例性计算***

图21示出了合适计算***2100的概括性实例，在计算***2100中可以实现所描述的多项创新。计算***2100并不旨在表明对使用范围或功能的任何限制，因为创新可以在多种通用或专用计算***中实现。

参考图21，计算***2100包括一个或多个处理单元2110，2115和存储器2120，2125。在图21中，该基础配置2130包含于虚线中。处理单元2110，2115执行计算机可执行指令。处理单元可以是通用中央处理单元（CPU），专用集成电路（ASIC）中的处理器或任何其它类型的处理器。在多处理***中，多个处理单元执行计算机可执行指令以增强处理能力。例如，图21显示了中央处理单元2110及图形处理单元或协处理单元2115。有形存储器2120，2125可以是能够被（多个）处理单元访问的易失性存储器（例如，寄存器，缓存，RAM），非易失性存储器（例如，ROM，EEPROM，闪存等），或二者的某些组合。存储器2120，2125以适于由（多个）处理单元执行的计算机可执行指令的形式对软件2180进行存储，软件2180实现消费者交易冗余过滤的一个或多个创新。

计算***可以具有附加特征。例如，计算***2100包括存储2140，一个或多个输入设备2150，一个或多个输出设备2160，及一个或多个通信连接2170。诸如总线，控制器或网络这样的互联机制（未示出）将计算***2100的组件互相连接在一起。通常，操作***软件（未示出）为计算***2100中运行的其它软件提供运行环境，并协调计算***2100的组件的活动。

有形存储2140可以为可移除或不可移除的，并包括磁盘，磁带或盒式磁带，CD-ROM，DVD，或任何其它能够以非暂时性方式对信息进行存储并能够在计算***2100内被访问的介质。存储2140存储软件2180的指令，软件2180实现消费者交易规则冗余过滤的一个或多个创新。

（多个）输入设备2150可以是触摸式输入设备（如键盘，鼠标，笔，或轨迹球），声音输入设备，扫描设备，或其它能够为计算***2100提供输入的设备。就视频编码而言，（多个）输入设备2150可以是摄像机，视频卡，电视调谐卡，或类似的接受模拟或数字视频输入的设备，或将视频样本读入到计算***2100中的CD-ROM或CD-RW。（多个）输出设备2160可以是显示器，打印机，扬声器，刻录机，或者其它从计算***2100提供输出的设备。

（多个）通信连接2170通过通信介质实现与另一个计算实体的通信。通信介质传递信息，例如计算机可执行指令，音频或视频输入或输出，或调制数据信号中的其它数据。调制数据信号是这样一种信号：它的一个或多个特征被设置或改变为将信息编码在信号中。作为示例而非限制，通信媒介可以使用电力载波，光学载波，RF载波或其它载波。

创新可以在计算机可读媒介的一般上下文中描述。计算机可读媒介为任何可用的能够在计算环境内访问的有形媒介。作为示例而非限制，对于计算***2100，计算机可读媒介包括存储器2120，2125，存储2140，或它们任意的组合。

创新可以在计算机可执行指令的一般上下文中描述，例如包括在程序模块中的那些指令，指令能够在计算***中的目标真实或虚拟处理器上被执行。一般而言，程序模块包括执行特定任务或实施特定抽象数据类型的例程、程序，库、对象、类、组件、数据结构等。在各种实施例中，在程序模块之间，程序模块的功能可以根据需要组合起来或分开。程序模块的计算机可执行指令可以在本地或分布式计算***中执行。

在本文中使用的术语“***”和“设备”可以互换。除非上下文中明确指出，两个术语都不暗含对计算***或计算设备的类型具有任何限制。一般而言，计算***或计算设备可以是本地的或分布式的，并可以包括具有实现本文中所描述功能的软件的专用硬件和/或通用硬件的任意组合。

为了演示起见，详细描述使用了像“确定”和“使用”这样的术语来描述计算***中的计算机运算。这些术语是对计算机执行的运算的高级抽象，不应同人类执行的动作相混淆。对应于这些术语的实际计算机运算根据实施方式而不同。

实例48-示例性移动设备

图22为***图，显示了示例性移动设备2200，其包括一般显示为2202的多种可选的硬件和软件组件。尽管为了方便显示而并未示出所有的连接，但是移动设备中的任何组件2202可以与任何其它组件通信。移动设备可以是多种计算设备（例如，手机，智能电话，手持计算机，个人数字助理（PDA）等）中的任意一种，并能够与一个或多个移动通信网络2204，如蜂窝网络，卫星网络或其它网络进行无线双向通信。

所显示的移动设备2200可以包括用于执行任务（例如，信号编码，数据处理，输入/输出处理，功率控制，和/或其它功能）的控制器或处理器2210（例如，信号处理器，微处理器，ASIC，或其它控制处理逻辑电路）。操作***2212可以对组件2202的分配和使用进行控制，并支持一个或多个应用程序2214。应用程序可以包括普通移动计算应用（例如，电子邮件应用，日历，联系人管理器，网页浏览器，消息传递应用）或任何其它计算应用。用于访问应用商店的功能2213还可以用于获取和更新应用2214。

所显示的移动设备2200可以包括存储器2220。存储器2220可以包括不可移除存储器2222和/或可移除存储器2224。不可移除存储器2222可以包括RAM，ROM，闪存，硬盘，或其它众所周知的存储器存储技术。可移除存储器2224可以包括闪存或GSM通信***中公知的用户识别模块（SIM）卡，或其它广为人知的存储器存储技术，例如“智能卡”。存储器2220可用于存储运行操作***2212和应用2214所用的数据和/或代码。数据的例子可以包括网页，文本，图像，声音文件，视频数据，或其它的通过一个或多个有线或无线网络发送至一个或多个网络服务器或其它设备和/或从一个或多个网络服务器或其它设备接收的数据集。存储器2220可以用于存储用户标识符，例如国际移动用户识别码（IMSI）和设备标识符，例如国际移动设备号（IMEI）。这种标识符可以发送给网络服务器以对用户和设备进行识别。

移动设备2200可以支持一个或多个输入设备2230，例如触摸屏2232，麦克风2234，相机2236，物理键盘2238和/或轨迹球2240和一个或多个输出设备2250，例如扬声器2252和显示器2254。其它可能的输出设备（未示出）可以包括压电输出设备或其它触觉输出设备。某些设备可以提供不止一种输入/输出功能。例如，触摸屏2232和显示器2254可以组合成单个输入/输出设备。

无线调制解调器2260可以耦合至天线（未示出）并支持处理器2210和外部设备之间的双向通信，这在本领域中是公知的。调制解调器2260被大致示出，并可以包括与移动通信网络2204和/或其它基于无线电的调制解调器（例如，蓝牙或Wi-Fi）进行通信的蜂窝调制解调器。无线调制解调器2260通常配置为与一个或多个蜂窝网络通信，例如，在单个蜂窝网络中，在蜂窝网络之间，或在移动设备和公共交换电话网（PSTN）之间进行数据和语音通信的GSM网络。

移动设备还可以包括至少一个输入/输出端口2280，电源2282，卫星导航***接收器2284（如全球定位***（GPS）接收器），加速度计2286，和/或物理连接器2290，物理连接器2290可以是USB端口,IEEE 1394（火线）端口，和/或RS-232端口。可以不需要所显示的组件2202，或者它包括一切，因为可以删除任何组件并添加其他组件。

实例49-示例性支持云的环境

在示例环境2300中，云2310为连接的设备2330，2340，2350提供服务，设备2330，2340，2350具有各种屏幕能力。连接的设备2330代表具有计算机屏幕2335（例如，中等尺寸屏幕）的设备。举例来说，连接的设备2330可以是个人计算机，如台式机，膝上电脑，笔记本，上网本等。连接的设备2340代表具有移动设备屏幕2345（例如，小尺寸屏幕）的设备。举例来说，连接的设备2340可以是移动电话，智能手机，个人数字助理，平板电脑等。连接的设备2350代表具有大备屏幕2355的设备。举例来说，连接的设备2350可以是电视屏幕（例如，智能电视）或连接至电视的另一个设备（例如，机顶盒或游戏机）等。连接的设备2330，2340，2350中的一个或多个可以包括触摸屏能力。触摸屏能够以不同方式接受输入。例如，当物体（例如，指尖或触笔）扰乱或打断流经表面的电流时，电容触摸屏检测触摸输入。另举一例，触摸屏可以使用光学传感器来在来自光学传感器的光束被中断时检测触摸输入。同屏幕表面的物理接触不一定是为了实现被某些触摸屏检测到的输入。没有屏幕能力的设备也可以在示例性环境2300中使用。例如，云2310可以为一个或多个不具有显示器的计算机（例如，服务器计算机）提供服务。

云2310可以通过服务提供商2320或通过其他在线服务提供商（未示出）来提供服务。例如，可以根据特定的连接设备（例如，连接的设备2330，2340，2350）的屏幕尺寸，显示能力，和/或触摸屏能力来定制云服务。

在示例性环境2300中，云2310至少部分使用服务提供商2320来向各种连接的设备2330，2340，2350提供本文中所描述的技术和解决方案。例如，服务提供商2320可以为各种基于云的服务提供集中式解决方案。服务提供商2320可以管理用户和/或设备（例如，连接的设备2330，2340，2350和/或它们各自的用户）的服务订阅。

实例50-示例性实施方式

尽管为了方便表示而以特定顺序来对一些所公开的方法的操作进行描述，但是应该理解的是，这种描述方式包括对这些操作进行重新排列，除非通过具体文字要求进行特定排列。举例来说，在某些情况下，按顺序描述的操作可以被重新排列或并发执行。此外，为简单起见，附图可能不会显示所公开的方法与其它方法一起使用的各种方式。

任何所公开的方法可以实现为存储在一个或多个计算机可读存储媒介（例如，非暂时性计算机可读媒介，如一个或多个光盘），易失性存储器组件（例如DRAM或SRAM），或非易失性存储器组件（例如，硬盘）上，并在计算机（例如，任何可商购的计算机，包括智能电话或其它包括计算硬件的移动设备）上执行的计算机可执行指令。任何用于实现所公开技术的计算机可执行指令，以及任何在实施所公开实施例的过程中产生和使用的数据可以存储在一个或多个计算机可读媒介（例如，非暂时性计算机可读媒介）上。举例来说，计算机可执行指令可以是专用软件应用，或通过网页浏览器或其它软件应用（例如，远程计算应用）访问或下载的软件应用的一部分。举例来说，这种软件可以在单个本地计算机（例如，任何合适的可商购计算机）上执行，或利用一个或多个网络计算机在网络环境（例如，通过互联网，广域网，局域网，客户端-服务器网络（例如，云计算网络），或其它这种网络）中执行。

为清楚起见，仅描述了基于软件的实施方式的某些选定方面。本领域公知的其它细节在此略过。例如，可以理解，所公开的技术不限于任何特定计算机语言或程序。例如，所公开的技术可以通过以C++，Java，Perl，JavaScript，Adobe Flash或任何其它合适的编程语言写成的软件来实现。同样，所公开的技术不限于任何特定计算机或硬件类型。合适计算机和硬件的某些细节已经公知，在本公开中无需详述。

此外，任何基于软件的实施例（例如，其包括计算机可执行指令，用于使计算机执行任何所公开的方法）都可以通过合适的通信手段被上传，下载或远程访问。举例来说，合适的通信手段包括因特网，万维网，内联网，软件应用，线缆（包括光缆），磁通信，电磁通信（包括射频，微波以及红外通信），电子通信，或其它这样的通信手段。

所公开的方法，装置和***不应理解为以任何方式进行限制。相反，本公开内容针对所公开的不同实施例的所有新颖且非显而易见的特征和方面，这些实施例单独考虑，互相形成各种组合和次组合。所公开的方法，装置和***不局限于任何特定方面或特征，或其组合，所公开的实施例也不要求具有任何一个或多个特定优点，或解决任何一个或多个特定问题。

非暂时性计算机可读媒介

本文中的任何计算机可读媒介可以是非暂时性的（例如，存储器，磁性存储，光学存储等）。

在计算机可读媒介中进行存储

本文中所描述的任何存储动作可以通过在一个或多个计算机可读媒介（例如，计算机可读存储媒介或其它有形媒介）中进行存储而实现。

任何描述为被存储物的事物可以存储于一个或多个计算机可读媒介（例如，计算机可读存储媒介或其它有形媒介）中。

计算机可读媒介中的方法

本文中所描述的任何方法可以通过存在于（例如，编码于）一个或多个计算机可读媒介（例如，计算机可读存储媒介或其它有形媒介）中的计算机可执行指令来实施。这些指令可以使计算机执行方法。本文中描述的技术可以通过多种编程语言实现。

计算机可读存储设备中的方法

本文中所描述的任何方法都可由存储于一个或多个计算机可读存储设备（例如，存储器，磁性存储，光学存储等）中的计算机可执行指令实施。这些指令可以使计算机执行方法。

替代方案

任何实例中的技术可以同任何一个或多个其它实例中描述的技术组合在一起。鉴于许多可以应用所公开技术的原理的可能的实施例，应该认识到所阐述的实施例为所公开技术的例子，不应该理解为限制所公开技术的范围。相反，所公开技术的范围包括以下权利要求所覆盖的范围。因此，我们声明，我们的发明存在于权利要求的范围和精神之内。

Claims

1. 一种至少部分由计算机实施的方法，该方法包括：

接收多个候选消费者交易规则条目，其中所述候选消费者交易规则条目包括对出现相似消费者特征值的各个支持评级进行指示的规则，所述相似消费者特征值与应用商店消费者交易相关；

将所述候选消费者交易规则条目中的至少一个识别为冗余，其中所述识别包括确定所述候选消费者交易规则条目中的两个的支持评级足够接近，并且识别所述候选消费者交易规则条目中的两个之间的包含关系；以及

过滤所述候选消费者交易规则条目，其中所述过滤包括去除所述冗余候选消费者交易规则条目中的至少一个。

2. 如权利要求1所述的方法，其中过滤所述候选消费者交易规则条目生产过滤的规则条目，所述方法进一步包括：在用户界面中显示过滤的规则条目。

3. 如权利要求2所述的方法，还包括：

根据支持评级对所述过滤的规则条目进行排名；

其中所述显示显示根据支持评级排名的前λ个规则条目。

4. 如权利要求1所述的方法，其中：

在识别包含关系之后确定所述支持评级足够接近。

5. 如权利要求1所述的方法，其中：

确定所述候选消费者交易规则条目中的两个的支持评级足够接近包括根据支持阈值ε将所述候选消费者交易规则条目群集到支持带中。

6. 如权利要求1所述的方法，该方法还包括：

基于特定领域启发法对所述候选消费者交易规则条目进行完善。

7. 如权利要求1所述的方法，该方法还包括：

为一个或多个不存在于第一个候选消费者交易规则条目中，而存在于另一个候选消费者交易规则条目中的消费者特征值指示任意值。

8. 一种***，该***包括：

一个或多个处理器；

存储器；

存储于一个或多个计算机可读存储媒介中的多个候选消费者交易规则条目，其中所述候选消费者交易规则条目包括规则，所述规则包括参与应用商店消费者交易的消费者的消费者特征值以及支持评级；

位向量工具，该位向量工具可用于接受一对消费者交易规则条目，并基于所述一对消费者交易规则条目中的各个消费者特征值生成一对表示各个消费者交易规则条目的位向量，其中所述位向量工具将缺失值视作具有任意值；

消费者交易规则冗余过滤器，该消费者交易规则冗余过滤器与所述位向量工具交互并可用于基于对一对规则的一对位向量的评价来对冗余规则条目进行过滤；以及

用户界面，该用户界面显示根据支持评级排名的过滤的规则条目的列表。

9. 如权利要求8所述的***，其中：对所述一对位向量的评价包括：

对所述位向量执行逻辑与运算以产生结果；以及

将所述结果与所述一对位向量中的位向量进行比较。

10. 如权利要求8所述的***，其中：

所述消费者交易规则冗余过滤器还可用于基于各自的支持评级对候选消费者交易规则条目进行群集。