WO2018054352A1

WO2018054352A1 - 项集确定方法、装置、处理设备及存储介质

Info

Publication number: WO2018054352A1
Application number: PCT/CN2017/102908
Authority: WO
Inventors: 林浚玮; 甘文生; 肖磊; 陈伟
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2016-09-23
Filing date: 2017-09-22
Publication date: 2018-03-29
Also published as: CN107870913B; CN107870913A; US20180322125A1

Abstract

一种项集确定方法、装置及处理设备，该方法包括：确定待处理项集所对应的至少一个目标事务；确定所述待处理项集在不确定数据库中的时间有效值；确定所述待处理项集的期望支持度；将所述待处理项集的期望支持度，和所述待处理项集的项集权重值相乘，确定所述待处理项集的期望权重支持度；如果所述待处理项集在不确定数据库中的时间有效值不小于，预定义的最低时间有效阈值，且所述待处理项集的期望权重支持度，不小于，预定义的最低期望权重阈值和不确定数据库中事务总数的乘积，则确定所述待处理项集为有效时间的高期望权重项集（S240）。实现了不确定数据库中有效时间的高期望权重项集的确定。

Description

项集确定方法、装置、处理设备及存储介质

本申请要求于2016年9月23日提交中国专利局、申请号201610847309.3，发明名称为“有效时间的高期望权重项集挖掘方法、装置及处理设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及数据处理技术领域，具体涉及一种项集确定方法、装置、处理设备及存储介质。

背景技术

目前在对用户感兴趣的内容(如网页、新闻、商品等)进行推荐，对频繁搜索的热点高频词进行挖掘时，往往需要从数据库中挖掘出有效时间的高期望权重项集；有效时间的高期望权重项集指的是，数据库中具有高时效性且期望频繁的项集，表示的是数据库中近期有效的高期望权重项集。需要说明的是，数据库通常记录有至少一条交易、新闻等事务，每条事务中包括至少一个数据项，而为表征数据库中数据项间的关联规则，至少一个数据项又会集合形成一个项集。

目前一般是基于权重因素的挖掘算法，从数据库中挖掘出有效时间的高期望权重项集，这些算法一般是简单的基于权重因素进行项集的挖掘，只能对存储有精确数据的数据库进行项集的挖掘；然而，在实际挖掘过程中，数据的型态各异，数据库中的数据往往蕴含着不确定性(即数据库中往往存储有不确定数据)；当从存储有不确定数据的数据库(简称不确定数据库)挖掘有效时间的高期望权重项集时，目前的这些基于权重因素的挖掘算法并不适用；比如，某数据库中储存了过去三年的交易记录，里面的数据项为不同的商品，其中，笔记本对应的权重值为0.4，面包对应的权重值为0.001，电风扇对应的权重值则为0.05，可见，数据项间对应的权重值是不同的，如果需要挖掘出六个月里的高期望权重项集，则根据目前的基于权重因素的挖掘算法是无法对不确定数据库进行挖掘的，会导致挖掘不出有效时间的高期望权重项集的情况出现，而基于目前的挖掘算法确定的项目进行信息推送，将造成信息推送的准确性和时效性不强。

发明内容

有鉴于此，本发明实施例提供一种项集确定方法、装置、处理设备及存储介质，以从不确定数据库中确定出有效时间的高期望权重项集。

一种有效时间的高期望权重项集确定方法，包括：

处理器确定待处理项集所对应的至少一个目标事务；所述待处理项集所对应的目标事务为，不确定数据库中包含所述待处理项集所有数据项的事务；

所述处理器根据预定义的时间衰减因子，确定所述待处理项集在各目标事务中的时间有效值；将所述待处理项集在各目标事务中的时间有效值相加，确定所述待处理项集在不确定数据库中的时间有效值；

所述处理器确定所述待处理项集在各目标事务中的项集概率；将所述待处理项集在各目标事务中的项集概率相加，确定所述待处理项集的期望支持度；

所述处理器将所述待处理项集的期望支持度，和所述待处理项集的项集权重值相乘，确定所述待处理项集的期望权重支持度；其中，所述待处理项集的项集权重值根据预定义的所述待处理项集中各个数据项的权重值确定；

如果所述待处理项集在不确定数据库中的时间有效值不小于，预定义的最低时间有效阈值，且所述待处理项集的期望权重支持度，不小于，预定义的最低期望权重阈值和不确定数据库中事务总数的乘积，则所述处理器确定所述待处理项集为有效时间的高期望权重项集。

本发明实施例还提供一种有效时间的高期望权重项集确定装置，包括处理器和存储器，其中，存储器存储有以下处理器可执行的指令模块：

目标事务确定模块，用于确定待处理项集所对应的至少一个目标事务；所述待处理项集所对应的目标事务为，不确定数据库中包含所述待处理项集所有数据项的事务；

项集在事务中的时间有效值确定模块，用于根据预定义的时间衰减因子，确定所述待处理项集在各目标事务中的时间有效值；

项集的时间有效值确定模块，用于将所述待处理项集在各目标事务中的时间有效值相加，确定所述待处理项集在不确定数据库中的时间有效值；

项集概率确定模块，用于确定所述待处理项集在各目标事务中的项集概率；

期望支持度确定模块，用于将所述待处理项集在各目标事务中的项集概率相加，确定所述待处理项集的期望支持度；

期望权重支持度确定模块，用于将所述待处理项集的期望支持度，和所述待处理项集的项集权重值相乘，确定所述待处理项集的期望权重支持度；其中，所述待处理项集的项集权重值根据预定义的所述待处理项集中各个数据项的权重值确定；

高期望权重项集确定模块，用于如果所述待处理项集在不确定数据库中的时间有效值不小于，预定义的最低时间有效阈值，且所述待处理项集的期望权重支持度，不小于，预定义的最低期望权重阈值和不确定数据库中事务总数的乘积，则确定所述待处理项集为有效时间的高期望权重项集。

本发明实施例还提供一种处理设备，包括上述所述的有效时间的高期望权重项集确定装置。

本发明实施例还提供一种非易失性存储介质，其中存储有处理器可读指令。当所述指令被执行时，使得处理器执行上述的有效时间的高期望权重项集确定方法。

基于上述技术方案，本发明实施例通过预定义时间衰减因子、最低权重支持度阈值和最低近期有效阈值，各个数据项的权重值，并计算待处理项集在不确定数据库中的时间有效值，及待处理项集的期望权重支持度；从而在判断待处理项集在不确定数据库中的时间有效值不小于，预定义的最低时间有效阈值，且所述待处理项集的期望权重支持度，不小于，预定义的最低期望权重阈值和不确定数据库中事务总数的乘积时，确定待处理项集为有效时间的高期望权重项集，实现高期望权重项集的确定。本发明实施例提供的有效时间的高期望权重项集确定方法，通过考虑数据内在的不确定性会导致确定出的结果不准确、时效性差等问题，从而根据时间衰减因子、最低近期有效阀值、最低期望权重支持度等多重衡量标准，实现了不确定数据库中有效时间的高期望权重项集的确定，不仅使得有效时间的高期望权重项集的确定能够适用于不确定数据库的情况，还提高了确定结果的准确性、时效性，和确定效率。从有效时间的高期望权重项集中选取项目推荐给用户终端，使得信息的推送更加具有准确性和时效性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本申请实施例提供的一种项集确定方法应用***的结构示意图；

图2为本申请提供的项集确定方法的流程图；

图3为本申请提供的项集确定装置的结构框图；

图4为本申请提供的项集在事务中的时间有效值确定模块的结构框图；

图5为本申请提供的处理设备的硬件结构框图。

具体实施方式

为便于理解本发明实施例提供的技术方案，下面先对一些定义概念进行介绍。

1、事务(transaction)：不确定数据库中的一条记录；比如，交易类型的不确定数据库中记录的是商品的交易记录，每一条事务可以对应一条商品的交易记录；

2、数据项(item)：事务中记录的信息项目，一条事务包含至少一个数据项；一条事务中可以记录有至少一个数据项，及各数据项的发生概率(probability)；比如，交易类型的不确定数据库中，每一条事务可以包含交易的商品的数据项，及各商品的交易概率(发生概率的一种形式)等；

如下表1所示，交易类型的不确定数据库中包含10条事务，每条事务指示一条交易记录，每条事务中包含至少一个商品名称的数据项，及各商品的交易概率；同时，每条事务记录可通过事务编号(TID)进行区分，且每条事务对应记录有事务的发生时间(Transaction Time)；

TID	Transaction Time	Transaction(item,probability)
T1	2015/1/08,09:10	a:0.3,b:0.8,c:1.0
T2	2015/1/09,11:20	d:1.0,f:0.5
T3	2015/1/11,08:20	b:0.6,c:0.7,d:0.9,e:1.0,f:0.7
T4	2015/1/12,09:15	a:0.5,c:0.45,f:1.0
T5	2015/1/12,15:20	c:0.9,d:1.0,e:0.7
T6	2015/1/14,08:30	b:0.7,d:0.3
T7	2015/1/14,15:25	a:0.8,b:0.4,c:0.9,d:1.0,e:0.85
T8	2015/1/15,09:10	c:0.9,d:0.5,f:1.0
T9	2015/1/16,08:30	a:0.5,e:0.4
T10	2015/1/18,09:00	b:1.0,c:0.9,d:0.7,e:1.0,f:1.0

表1

如表1，事务T1的发生时间是2015年1月8日9点10分，在事务T1中，商品a的交易概率是0.3，商品b的交易概率是0.8，商品c的交易概率是1。

3、项集(itemset)：至少一个数据项构成的集合，用于表征不确定数据库内在的一种关联规则；事务与项集的不同点在于，事务通常是由实际发生的事件所触发生成的在不确定数据库中的记录；而项集通常是从不确定数据库中挖掘得出。

4、k-项集(k-itemset)：包含有k个数据项的集合；比如，1-项集可以是包含一个数据项的项集，如仅包含数据项A的项集A；2-项集可以是包含两个数据项的项集，如仅包含数据项A和B的项集AB，以此类推。

5、不确定数据库：指事务中的数据项存在一定发生概率的数据库；一种示意性的不确定数据库的结构如表一所示，比如，不确定数据库中记录的是未来天气情况，则数据库中每一种天气情况对应一个发生概率，即不确定数据库中的每个事物中的每个数据项对应一个发生概率。

6、数据项在不确定数据库中的权重：不确定数据库中的各个数据项对应的权重值；数据项的权重值可以是用户根据先验知识或应用背景为每个数据项定义的权重阀值；权重值的范围为0至1，可以指代数据项的重要性程度、风险大小、利润比重、新鲜度等；

如表1示出的不确定数据库包含a、b、c、d、e、f这6个数据项，用户自定义设置这6个数据项的权重值，则可得到权重表，下表2示出了权重表的可选示意，可参照；

数据项	a	b	c	d	e	f
权重值	0.3	0.4	1.0	0.55	0.8	0.7

表2

7、项集权重值(itemset weight in Database)：项集权重值表示的项集在不确定数据库中的权重值，可以反映项集在不确定数据库中的重要程度；一个项集的项集权重值可以是，项集中各个数据项的权重总值除以该项集的数据项个数；具体计算公式可以是：

其中X表示某一项集，|X|是指项集X的数据项个数，i是项集X中的数据项，j是计数词，i_j是指项集X中的第j个数据项；

指代项集X中各数据项的权重值的加和；

可选的，项集在对应的目标事务中的权重值，可以等于该项集的项集权重(即项集在不确定数据库中的权重值)；某一项集对应的目标事务为，包含该项集所有数据项的事务。

8、事务的时间有效值：事务的时间有效值表示的是事务的近期有效值(Recency of a transaction)，用于表示事务的时间有效性；在本发明实施例中，事务的时间有效值可以基于预定义的时间衰减因子计算得到，即通过预定义的时间衰减因子计算得出某一事务与时间有关的有效值；具体计算公式可以是：

其中δ∈(0，1)为预定义的时间衰减因子，R(T_q)为事务T_q的时间有效值，t_current表示当前时间，t_q表示事务T_q的发生时间。

9、项集在事务中的时间有效值：项集在某一事务中的时间有效值表示的是，项集在该事务中的近期有效值(Recency of an itemset in a transaction)，可以等于该事务的时间有效值。

10、项集在不确定数据库中的时间有效值：项集在不确定数据库中的有效时间值表示的是，项集在不确定数据库中的近期有效值(Recency of an itemset in a database)，可以等于该项集在所对应的各目标事务中的时间有效值的加和；

如对于项集a，以表1所示，项集a所对应的目标事务为T1，T4，T7和T9(即事务T1，T4，T7和T9均包含有项集a的所有数据项)，则项集a在不确定数据库中的时间有效值为：项集a在事务T1中的时间有效值+项集a在事务T4中的时间有效值+项集a在事务T7中的时间有效值+项集a在事务T9中的时间有效值。

11、项集在事务中的项集概率(itemset probability in a transaction)：项集在所对应的某一目标事务中的项集概率为，项集的各个数据项在该目标事务中的发生概率的乘积；如以表1所示，项集ab在目标事务T1中的项集概率为，项集ab的数据项a和数据项b在事务T1中的发生概率的乘积，即0.3×0.8＝0.24。

12、项集的期望支持度(expSup，即Expected support)：项集的期望支持度为，项集在所对应的各个目标事务中的项集概率之和；如对于项集a，以表1所示，项集a所对应的目标事务为T1，T4，T7和T9，则项集a的期望支持度为，项集a在T1，T4，T7和T9中的项集概率之和，即0.3(项集a在T1中的项集概率)+0.5(项集a在T4中的项集概率)+0.8(项集a在T7中的项集概率)+0.5(项集a在T9中的项集概率)＝2.1。

13、项集的期望权重支持度(expWSup，即Expected weighted support)：某一项集的期望权重支持度为，该项集的期望支持度，与该项集的项集权重值的乘积。

14、高期望权重项集(High Expected Weighted Itemset，HEWI)：若某一项集的期望权重支持度，不小于，预定义的最低期望权重阈值和不确定数据库中事务总数的乘积，则该项集为高期望权重项集。

15、有效时间的高期望权重项集：有效时间的高期望权重项集表示的是近期有效的高期望权重项集(Recent High Expected Weighted Itemset，RHEWI)；若某一项集在不确定数据库中的时间有效值，不小于，预定义的最低时间有效阈值，且该项集的期望权重支持度，不小于，预定义的最低期望权重阈值和不确定数据库中事务总数的乘积，则该项集为有效时间的高期望权重项集。

16、事务权重上限(Transaction upper bound weight，tubw):某一事务的事务权重上限可以等于，该事务中各个数据项的权重值中的最大值；如结合表1和表2所示，表1中的事务T1的事务权重上限为，事务T1中的权重值最大的数据项所对应的权重值，即为数据项c的权重值1。

17、事务概率上限(Transaction upper bound probability，tubp)：某一事务的事务概率上限可以等于，该事务中各个数据项的发生概率中的最大值；如结合表1所示，表1中的事务T2的事务概率上限为，事务T2中发生概率最大的数据项所对应的发生概率，即为数据项d的发生概率1。

18、事务加权概率上限(Transaction upper bound weighted probability，tubwp)：某一事务的事务加权概率上限可以等于，该事务的事务权重上限与事务概率上限的乘积。

19、项集的事务累积加权概率上限(Transaction accumulation upper bound weighted probability，taubwp)：某一项集的事务累积加权概率上限可以等于，该项集所对应的各目标事务的事务加权概率上限的加和。

20、有效时间的高期望权重上限项集：有效时间的高期望权重上限项集表示的是，近期有效的高期望权重上限项集(Recent high upper bound expected weighted itemset，RHUBEWI)；若某一项集在不确定数据库中的时间有效值，不小于，预定义的最低时间有效阈值，且该项集的事务累积加权概率上限，不小于，预定义的最低期望权重阈值和不确定数据库中事务总数的乘积，则该项集为有效时间的高期望权重上限项集。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本申请实施例提供的一种项集确定方法应用***的结构示意图，如图1所述，其示出了本申请实施例所涉及的实施环境的结构示意图，该***包括：服务器101和至少一个终端102。

终端102通过无线或者有线网络和服务器101连接，终端102可以为电脑，智能手机、平板电脑等电子设备，包括处理器和显示装置。

服务器101可以为互联网应用服务器，该互联网应用服务器，可以为互联网应用提供后台服务。互联网应用作为一个为智能终端提供语音、视频、图片、文字等信息交互服务的应用程序，具有可跨通信运营商、跨操作***平台发送语音、视频、图片和文字等优点。

互联网应用服务器可以被配置为一个通过互联网提供服务的服务器，该互联网应用服务器可以为社交应用服务器，例如，即时通信服务器、论坛或微博等社交网站对应的服务器，还可以为通过互联网能够实现支付等业务的服务器，本申请实施例对互联网应用服务器的类型不进行具体限定。

当然，该服务器101也可以为其他服务器，如多媒体资源共享服务器等，本申请实施例对该服务器的类型不作具体限定。

图2为本发明实施例提供的项集确定方法的流程图，该方法可应用于具有数据处理能力的处理设备，如应用于网络侧的数据处理服务器，本发明实施例中采用数据挖掘的方式来进行项集的确定。可选的，根据数据挖掘场景的不同，有效时间的高期望权重项集的挖掘也可能是在用户侧的计算机等设备上进行的；参照图1，本发明实施例提供的项集确定方法可以包括：

步骤S200、确定待处理项集所对应的至少一个目标事务；所述待处理项集所对应的目标事务为，不确定数据库中包含所述待处理项集所有数据项的事务；

可选的，对于各个待处理项集，本发明实施例可确定待处理项集所对应的目标事务，一个项集所对应的目标事务为不确定数据库中包含该项集所有数据项的事务；待处理项集可以为从不确定数据库中挖掘出的任一项集，一个项集包括至少一个数据项；

如表1所示，如果待处理项集为ab，则项集ab所对应的目标事务为事务T1和事务T7，即表1所示的不确定数据库中，只有事务T1和T7包含了项集ab的所有数据项a和b；

可选的，本发明实施例可先确定数据库中包含一个数据项的1-项集，从1-项集中挖掘出有效时间的高期望权重的1-项集，再基于各个有效时间的高期望权重的1-项集，挖掘出从属于各个1-项集的有效时间的高期望权重项集。

步骤S210、根据预定义的时间衰减因子，确定所述待处理项集在各目标事务中的时间有效值；将所述待处理项集在各目标事务中的时间有效值相加，确定所述待处理项集在不确定数据库中的时间有效值；

可选的，待处理项集在一个目标事务中的时间有效值，可以等于该目标事务的时间有效值；一个事务的时间有效值，可根据预定义的时间衰减因子，当前时间，该事务的发生时间确定；

在得到待处理项集在各个目标事务中的时间有效值后，可将待处理项集在各个目标事务中的时间有效值进行相加处理，将相加的结果作为待处理项集在不确定数据库中的时间有效值。

步骤S220、确定所述待处理项集在各目标事务中的项集概率；将所述待处理项集在各目标事务中的项集概率相加，确定所述待处理项集的期望支持度；

可选的，一个事务可以记录有至少一个数据项，及各数据项的发生概率；本发明实施例在确定待处理项集对应的目标事务后，针对各个目标事务，可将待处理项集的各个数据项在目标事务中的发生概率的乘积，作为待处理项集在该目标事务中的项集概率；针对各个目标事务均作此处理，则可得到待处理项集在各目标事务中的项集概率；

从而将待处理项集在各目标事务中的项集概率相加，将相加结果作为待处理项集的期望支持度。

步骤S230、将所述待处理项集的期望支持度，和所述待处理项集的项集权重值相乘，确定所述待处理项集的期望权重支持度；其中，所述待处理项集的项集权重值根据预定义的所述待处理项集中各个数据项的权重值确定；

可选的，本发明实施例可预定义权重表，权重表中记录有不确定数据库中各数据项对应的权重值；从而在确定待处理项集的项集权重值时，可从权重表中确定待处理项集的各个数据项的权重值，从而确定待处理项集的各个数据项的权重总值，进而将待处理项集的各个数据项的权重总值，除以所述待处理项集的数据项个数，得到所述待处理项集的项集权重值。

步骤S240、如果所述待处理项集在不确定数据库中的时间有效值不小于，预定义的最低时间有效阈值，且所述待处理项集的期望权重支持度，不小于，预定义的最低期望权重阈值和不确定数据库中事务总数的乘积，则确定所述待处理项集为有效时间的高期望权重项集。

在得到待处理项集在不确定数据库中的时间有效值，及待处理项集的期望权重支持度后，判断待处理项集是否为有效时间的高期望权重项集的条件有如下两条，同时满足该两条条件，才能确定待处理项集为有效时间的高期望权重项集，如果任一条件不满足，则不能确定待处理项集为有效时间的高期望权重项集：

条件1，待处理项集在不确定数据库中的时间有效值不小于，预定义的最低时间有效阈值，

条件2，待处理项集的期望权重支持度，不小于，预定义的最低期望权重阈值和不确定数据库中事务总数的乘积。

本发明实施例通过预定义时间衰减因子、最低权重支持度阈值和最低近期有效阈值，各个数据项的权重值，并计算待处理项集在不确定数据库中的时间有效值，及待处理项集的期望权重支持度；从而在判断待处理项集在不确定数据库中的时间有效值不小于，预定义的最低时间有效阈值，且所述待处理项集的期望权重支持度，不小于，预定义的最低期望权重阈值和不确定数据库中事务总数的乘积时，确定待处理项集为有效时间的高期望权重项集，实现高期望权重项集的挖掘。本发明实施例提供的项集确定方法，通过考虑数据内在的不确定性会导致确定出的结果不准确、时效性差等问题，从而根据时间衰减因子、最低近期有效阀值、最低期望权重支持度等多重衡量标准，实现了不确定数据库中有效时间的高期望权重项集的确定，不仅使得有效时间的高期望权重项集的确定能够适用于不确定数据库的情况，还提高了项集确定结果的准确性、时效性，和项集确定效率。

如果设定时间衰减因子为0.15，最低期望权重阈值为15％，最低时间有效阈值为20，则结合表1和表2，挖掘出的有效时间的高期望权重项集可以如下表3所示；显然，此处参数的具体数值仅是举例说明的可选数值；

表3

可选的，待处理项集在一个目标事务中的时间有效值，可以等于该目标事务的时间有效值；本发明实施例可根据预定义的时间衰减因子，当前时间，各个目标事务的发生时间，分别确定各个目标事务的时间有效值；从而将所确定的各个目标事务的时间有效值，确定为待处理项集在各目标事务中的时间有效值；

可选的，根据预定义的时间衰减因子，确定所述待处理项集在各目标事务中的时间有效值的过程可以通过如下公式实现：

对于各目标事务，根据公式

确定目标事务T_q的时间有效值，其中δ∈(0，1)为预定义的时间衰减因子，R(T_q)为目标事务T_q的时间有效值，t_current表示当前时间，t_q表示目标事务T_q的发生时间；

从而将各目标事务的时间有效值，确定为待处理项集在各目标事务中的时间有效值。

可选的，本发明实施例可先确定数据库中包含一个数据项的项集，从包含一个数据项的项集中，挖掘出包含一个数据项的有效时间的高期望权重项集(即包含一个数据项的近期有效的高期望权重项集)，得到有效时间的高期望权重1-项集(简称RHEWI¹)，和有效时间的高期望权重上限1-项集RHEWUBI¹；从而基于伪投影(projection)技术逐一的对各个有效时间的高期望权重上限1-项集RHEWUBI¹进行处理，挖掘出以各个数据项(即各个有效时间的高期望权重上限1-项集)为前缀的所有扩展项集，将挖掘出的扩展项集按照挖掘时间依次的确定为待处理项集，计算各待处理项集的期望权重支持度和时间有效值，从而进行各个有效时间的高期望权重项集的挖掘；

基于此，本发明实施例提供了两种基于伪投影(projection)技术的挖掘模型，该两种挖掘模型均是基于projection技术，第一个模型为RHEWI-P，第二个为基于排序的RHEWI-PS。

RHEWI-P模型的算法伪代码如下述算法1和算法2所示，下述算法中的最低期望权重支持度阈值表示的是预定义的最低期望权重阈值，以参数α表示；最低近期有效阈值表示的是预定义的最低时间有效阈值，以参数β表示；参数δ表示的是预定义的时间衰减因子；下文中跟在代码后面的文字，可以视为是对代码的文字解释说明。

在算法1中，第1-4项表示的是，第一次扫描数据库进行各个1-项集的相关信息的计算，包括各个1-项集的目标事务的时间有效值R(T_q)的计算，各个1-项集的目标事务的事务权重上限tubw(T_q)的计算，各个1-项集的目标事务的事务概率上限tubp(T_q)的计算，各个1-项集的目标事务的事务加权概率上限taubwp(T_q)的计算等；

然后计算出近期有效值R(i_j)和事务累积加权概率上限taubwp(i_j)，找出近期有效的高期望权重上限1-项集RHEWUBI¹和近期有效的高期望权重1-项集RHEWI¹(第5-10项)；

在实施中，本发明实施例可以确定数据库中各对象的排列顺序，可以是随机对数据库中的各对象进行排序，也可以计算后对数据库中的各对象进行排序；具体地，在RHEWI-P模型中，如第11项所示，挖掘出的包含一个数据项的有效时间的高期望权重上限项集，采用的是字典顺序lexicographical order，即按照集合RHEWUBI¹中的各个项集的字典顺序值进行排序；之后，RHEWI-P模型迭代地调用函数Mining-RHEWI(i_j,db|i_j,k)，不断地基于projection技术挖掘出以各个包含一个数据项的项集(即各个数据项)为前缀的所有扩展项集。

Mining-RHEWI(i_j,db|i_j,k)的具体操作如算法2所示。

RHEWI-PS模型和RHEWI-P模型基本相近，二者的区别在于：

1、在算法1中的第11项中，RHEWI-PS模型采用的是各个项的权重的降序作为排序顺序。在本示例数据库中，计算得到的各个1-项集的权重值为{w(a):0.3,w(b):0.4,w(c):1.0,w(d):0.55,w(e):0.8,w(f):0.7},所以本发明的RHEWI-PS中的排序顺序为c＜e＜f＜d＜b＜a(c＜e表示数据项c排序中e之前)，即挖掘出的包含一个数据项的有效时间的高期望权重上限项集按照权重值从小到大排序；此后的投影是数据库操作，均是先对各事务中的各个item进行上述排序，然后再进行投影操作。

2、Mining-RHEWI(i_j,db|i_j,k)中的具体操作不同，可以提前运用上界值进行过滤没前途的项集操作，而不必对这些没前途的项集及其扩展项集进行后续的投影数据库和挖掘做。Mining-RHEWI(ij,db|ij,k)’的具体操作如算法3所示。

在实施中，RHEWI-PS模型运用了一种称为基于排序的上界向下封闭性(Sorted upper-bound downward closure property,SUBDC property)进行提前过滤操作；从而避免了大量的子数据库投影和挖掘操作，大大提高了挖掘的性能，同时又保证了挖掘结果的完整性和准确性。该SUBDC property主要依据下列三个理论，其细节如下所述。

定理1、假定X^k为k-项集，(k-1)-项集X^k-1为X^k的子集，即一个项集的子集中的数据项被该项集所包含。同时假定的包含一个数据项的有效时间的高期望权重上限1-项集采用排序方式为按照权重值从大到小排序，即依据各个1-项集的权重值从大到小进行排序，如w(i1)≥w(i2)≥…≥w(ik)>0；则w(X^k)≤ w(X^k-1)成立；即一个项集的项集权重值小于或等于该项集的子集的项集权重值；

举例来说，在示例数据库中，以所有1-项集的权重值从大到小排序结果是，则项集(cd)的权重值总是不小于它的任何一个子集(cdb),(cda)and(cdba)的权重值；它们的权重值分别为w(cd)＝(1.0+0.55)/2＝0.775,w(cdb)＝(1.0+0.55+0.4)/3＝0.650,w(cda)＝(1.0+0.5+0.3)/3＝0.600,和w(cdba)＝(1.0+0.55+0.4+0.3)/4＝0.5625；因此，任何一个子集(cdb),(cda)and(cdba)的权重值都小于或等于项集(cd)的权重值。

定理2、项集的期望支持度expSup总是存在反单调性；

即假定X^k-1为(k-1)-项集，项集X^k为X^k-1的任何一个超集，则expSup(X^k-1)≥expSup(X^k)成立；项集的超集是指包含该项集所有数据项的集合，即一个项集的超集可以包含该项集的所有数据项，及其他的数据项；即一个项集的期望支持度，不小于该项集的超集的期望支持度；

定理3、假定所有的1-项集采用排序方式为按照权重值从大到小排序，即依据各个1-项集的权重值从大到小进行排序，如w(i1)≥w(i2)≥…≥w(ik)>0，则某k-项集X的期望权重支持度总是不小于它的任何一个超集的期望权重支持度值；

即假定X^k-1为(k-1)-项集，项集X^k为X^k-1的任何一个超集；根据定理1和定理2，则w(X^k)≤w(X^k-1)成立；expSup(X^k-1)≥expSup(X^k)成立。因此，w(X^k-1)×expSup(X^k-1)≥w(X^k)×expSup(X^k)，即expWSup(X^k-1)≥expWSup(X^k)；即一个项集的期望权重支持度，不小于，该项集的任何一个超集的期望权重支持度。

根据定理3，可以得到如下核心剪枝策略：即基于排序的上界向下封闭特性(Sorted upper-bound downward closure property)。在进行基于投影projection技术的挖掘操作过程中，当存在某项集的期望权重支持度小于预定义的最低期望权重阈值，或者，时间有效值小于预定义的最低时间有效阈值时，该项集及其扩展集合均不可能为有效时间的高期望权重项集(即近期有效的高期望权重项集)，该项集及其扩展集合可以安全地被过滤掉。

可选的，在确定有效时间的高期望权重项集后，在对用户作内容推荐时，可推荐有效时间的高期望权重项集。

可选的，在确定有效时间的高期望权重项集后，将有效时间的高期望权重项集中的项目，例如，网页、新闻、商品等推送给登入社交应用软件用户账号的终端。

本发明实施例提供的项集确定方法，通过考虑数据内在的不确定性会导致确定出的结果不准确、时效性差等问题，从而根据时间衰减因子、最低近期有效阀值、最低期望权重支持度等多重衡量标准，实现了不确定数据库中有效时间的高期望权重项集的确定，不仅使得有效时间的高期望权重项集的确定能够适用于不确定数据库的情况，还提高了项集确定结果的准确性、时效性，和确定效率。从有效时间的高期望权重项集中选取项目推荐给用户终端，使得信息的推送更加具有准确性和时效性。

下面对本发明实施例提供的项集确定装置进行介绍，下文描述的项集确定装置可与上文描述的有效时间的高期望权重项集确定方法相互对应参照。

图3为本发明实施例提供的项集确定装置的结构框图，参照图3，该装置可以包括：

目标事务确定模块100，用于确定待处理项集所对应的至少一个目标事务；所述待处理项集所对应的目标事务为，不确定数据库中包含所述待处理项集所有数据项的事务；

项集在事务中的时间有效值确定模块200，用于根据预定义的时间衰减因子，确定所述待处理项集在各目标事务中的时间有效值；

项集的时间有效值确定模块300，用于将所述待处理项集在各目标事务中的时间有效值相加，确定所述待处理项集在不确定数据库中的时间有效值；

项集概率确定模块400，用于确定所述待处理项集在各目标事务中的项集概率；

期望支持度确定模块500，用于将所述待处理项集在各目标事务中的项集概率相加，确定所述待处理项集的期望支持度；

期望权重支持度确定模块600，用于将所述待处理项集的期望支持度，和所述待处理项集的项集权重值相乘，确定所述待处理项集的期望权重支持度；其中，所述待处理项集的项集权重值根据预定义的所述待处理项集中各个数据项的权重值确定；

高期望权重项集确定模块700，用于如果所述待处理项集在不确定数据库中的时间有效值不小于，预定义的最低时间有效阈值，且所述待处理项集的期望权重支持度，不小于，预定义的最低期望权重阈值和不确定数据库中事务总数的乘积，则确定所述待处理项集为有效时间的高期望权重项集。

可选的，所述待处理项集在一个目标事务中的时间有效值，可以等于该目标事务的时间有效值；相应的，图4示出了项集在事务中的时间有效值确定模块200的可选结构，参照图4，项集在事务中的时间有效值确定模块200可以包括：

事务的时间有效值确定单元210，用于根据预定义的时间衰减因子，当前时间，各个目标事务的发生时间，分别确定各个目标事务的时间有效值；

作为单元220，用于将所确定的各个目标事务的时间有效值，确定为待处理项集在各目标事务中的时间有效值。

可选的，事务的时间有效值确定单元210具体可用于，根据公式

确定目标事务T_q的时间有效值，其中δ∈(0，1)为预定义的时间衰减因子，R(T_q)为目标事务T_q的时间有效值，t_current表示当前时间，t_q表示目标事务T_q的发生时间。

可选的，一个事务记录有至少一个数据项，及各数据项的发生概率；项集概率确定模块400，具体可用于，对于每一个目标事务，将待处理项集的各个数据项在目标事务中的发生概率的乘积，作为所述待处理项集在该目标事务中的项集概率，以确定所述待处理项集在各目标事务中的项集概率。

可选的，项集确定装置在确定待处理项集的项集权重值时，具体可用于，从预定义的权重表中确定待处理项集的各个数据项的权重值，所述权重表记录有不确定数据库中各数据项对应的权重值；确定所述待处理项集的各个数据项的权重总值；将所述待处理项集的各个数据项的权重总值，除以所述待处理项集的数据项个数，得到所述待处理项集的项集权重值。

可选的，项集确定装置还可以用于，在从数据库中包含一个数据项的各项集中，挖掘出包含一个数据项的有效时间的高期望权重上限项集RHEWUBI¹后，基于伪投影技术逐一的对各个包含一个数据项的有效时间的高期望权重上限项集进行处理，挖掘出以各个数据项为前缀的所有扩展项集，并将挖掘出的扩展项集按照挖掘时间依次的确定为待处理项集。

可选的，所述挖掘出的包含一个数据项的有效时间的高期望权重上限项集，可以按照字典顺序值进行排序，或，可以按照权重值从大到小的顺序排序。

相应的，项集确定装置可确定一个项集的项集权重值不大于该项集的子集的项集权重值；一个项集的子集中的数据项被该项集所包含；

和/或，可确定一个项集的期望支持度，不小于该项集的超集的期望支持度；一个项集的超集是指包含该项集的所有数据项的集合；

和/或，可确定一个项集的期望权重支持度，不小于，该项集的超集的期望权重支持度。

可选的，项集确定装置还可在一个项集的期望权重支持度小于预定义的最低期望权重阈值，或者，时间有效值小于预定义的最低时间有效阈值时，确定该项集及其扩展集合均不为有效时间的高期望权重项集；并对该项集及其扩展集合进行过滤。

本发明实施例实现了不确定数据库中有效时间的高期望权重项集的确定，不仅使得有效时间的高期望权重项集的确定能够适用于不确定数据库的情况，还提高了确定结果的准确性、时效性，和挖掘效率。

本发明实施例还提供一种处理设备，该处理设备可以包括上述所述的项集确定装置。

可选的，图5示出了处理设备的硬件结构框图，参照图5，该处理设备可以包括：处理器1，通信接口2，存储器3和通信总线4；

其中处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

可选的，通信接口2可以为通信模块的接口，如GSM模块的接口；

处理器1，用于执行程序；

存储器3，用于存放程序；

程序可以包括程序代码，所述程序代码包括计算机操作指令。

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

其中，程序可具体用于：

确定待处理项集所对应的至少一个目标事务；所述待处理项集所对应的目标事务为，不确定数据库中包含所述待处理项集所有数据项的事务；

根据预定义的时间衰减因子，确定所述待处理项集在各目标事务中的时间有效值；将所述待处理项集在各目标事务中的时间有效值相加，确定所述待处理项集在不确定数据库中的时间有效值；

确定所述待处理项集在各目标事务中的项集概率；将所述待处理项集在各目标事务中的项集概率相加，确定所述待处理项集的期望支持度；

将所述待处理项集的期望支持度，和所述待处理项集的项集权重值相乘，确定所述待处理项集的期望权重支持度；其中，所述待处理项集的项集权重值根据预定义的所述待处理项集中各个数据项的权重值确定；

如果所述待处理项集在不确定数据库中的时间有效值不小于，预定义的最低时间有效阈值，且所述待处理项集的期望权重支持度，不小于，预定义的最低期望权重阈值和不确定数据库中事务总数的乘积，则确定所述待处理项集为有效时间的高期望权重项集。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本领域普通技术人员可以理解上述公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域普通技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的普通技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

一种项集确定方法，由处理器执行，其特征在于，包括：

确定待处理项集所对应的至少一个目标事务；所述待处理项集所对应的目标事务为，不确定数据库中包含所述待处理项集所有数据项的事务，所述不确定数据库中的每条事务包含至少一个数据项，及该数据项的发生概率；

根据预定义的时间衰减因子，确定所述待处理项集在各目标事务中的时间有效值；将所述待处理项集在各目标事务中的时间有效值相加，确定所述待处理项集在不确定数据库中的时间有效值；

确定所述待处理项集在各目标事务中的项集概率；将所述待处理项集在各目标事务中的项集概率相加，确定所述待处理项集的期望支持度；

将所述待处理项集的期望支持度，和所述待处理项集的项集权重值相乘，确定所述待处理项集的期望权重支持度；其中，所述待处理项集的项集权重值根据预定义的所述待处理项集中各个数据项的权重值确定；以及

如果所述待处理项集在不确定数据库中的时间有效值不小于预定义的最低时间有效阈值，且所述待处理项集的期望权重支持度不小于预定义的最低期望权重阈值和不确定数据库中事务总数的乘积，则确定所述待处理项集为有效时间的高期望权重项集。
根据权利要求1所述的项集确定方法，其特征在于，所述待处理项集在一个目标事务中的时间有效值，等于该目标事务的时间有效值；所述根据预定义的时间衰减因子，确定所述待处理项集在各目标事务中的时间有效值包括：

根据预定义的时间衰减因子，当前时间，各个目标事务的发生时间，分别确定各个目标事务的时间有效值；以及

将所确定的各个目标事务的时间有效值，确定为待处理项集在各目标事务中的时间有效值。
根据权利要求2所述的项集确定方法，其特征在于，所述根据预定义的时间衰减因子，当前时间，各个目标事务的发生时间，分别确定各个目标事务的时间有效值包括：

根据公式
确定目标事务T_q的时间有效值，其中δ∈(0，1)为预定义的时间衰减因子，R(T_q)为目标事务T_q的时间有效值，t_current表示当前时间，t_q表示目标事务T_q的发生时间。
根据权利要求1所述的项集确定方法，其特征在于，；所述确定所述待处理项集在各目标事务中的项集概率包括：

对于每一个目标事务，将待处理项集的各个数据项在目标事务中的发生概率的乘积，作为所述待处理项集在该目标事务中的项集概率，以确定所述待处理项集在各目标事务中的项集概率。
根据权利要求1所述的项集确定方法，其特征在于，所述待处理项集的项集权重值的确定过程包括：

从预定义的权重表中确定待处理项集的各个数据项的权重值，所述权重表记录有不确定数据库中各数据项对应的权重值；

确定所述待处理项集的各个数据项的权重总值；以及

将所述待处理项集的各个数据项的权重总值，除以所述待处理项集的数据项个数，得到所述待处理项集的项集权重值。
根据权利要求1-5任一项所述的项集确定方法，其特征在于，所述方法还包括：

在从数据库中包含一个数据项的各项集中，确定出包含一个数据项的有效时间的高期望权重上限项集后，基于伪投影技术逐一的对各个包含一个数据项的有效时间的高期望权重上限项集进行处理，确定出以各个数据项为前缀的所有扩展项集，并将确定出的扩展项集按照确定时间依次的确定为待处理项集，所述不确定数据库中的每条事务包含至少一个数据项，及该数据项的发生概率；

其中，若某一项集在不确定数据库中的时间有效值不小于预定义的最低时间有效阈值，且该项集的事务累积加权概率上限不小于预定义的最低期望权重阈值和不确定数据库中事务总数的乘积，则该项集为有效时间的高期望权重上限项集。
根据权利要求6所述的项集确定方法，其特征在于，所述确定出的包含一个数据项的有效时间的高期望权重上限项集，按照字典顺序值进行排序。
根据权利要求6所述的项集确定方法，其特征在于，所述确定出的包含一个数据项的有效时间的高期望权重上限项集，按照权重值从大到小的顺序排序。
根据权利要求8所述的项集确定方法，其特征在于，

一个项集的项集权重值不大于该项集的子集的项集权重值，一个项集的子集中的数据项被该项集所包含。
根据权利要求8所述的项集确定方法，其特征在于，一个项集的期望支持度不小于该项集的超集的期望支持度，一个项集的超集是指包含该项集的所有数据项的集合。
根据权利要求8所述的项集确定方法，其特征在于，一个项集的期望权重支持度不小于该项集的超集的期望权重支持度。
根据权利要求9所述的项集确定方法，其特征在于，所述方法还包括：

当一个项集的期望权重支持度小于预定义的最低期望权重阈值，或者，时间有效值小于预定义的最低时间有效阈值时，确定该项集及其扩展集合均不为有效时间的高期望权重项集；以及

对该项集及其扩展集合进行过滤。
根据权利要求1所述的项集确定方法，其特征在于，所述方法还包括：在确定有效时间的高期望权重项集后，将有效时间的高期望权重项集中的项目推送给登入应用软件用户账号的终端。
一种项集确定装置，其特征在于，包括处理器和存储器，其中，存储器存储有以下处理器可执行的指令模块：

目标事务确定模块，用于确定待处理项集所对应的至少一个目标事务；所述待处理项集所对应的目标事务为，不确定数据库中包含所述待处理项集所有数据项的事务；

项集在事务中的时间有效值确定模块，用于根据预定义的时间衰减因子，确定所述待处理项集在各目标事务中的时间有效值；

项集的时间有效值确定模块，用于将所述待处理项集在各目标事务中的时间有效值相加，确定所述待处理项集在不确定数据库中的时间有效值；

项集概率确定模块，用于确定所述待处理项集在各目标事务中的项集概率；

期望支持度确定模块，用于将所述待处理项集在各目标事务中的项集概率相加，确定所述待处理项集的期望支持度；

期望权重支持度确定模块，用于将所述待处理项集的期望支持度，和所述待处理项集的项集权重值相乘，确定所述待处理项集的期望权重支持度；其中，所述待处理项集的项集权重值根据预定义的所述待处理项集中各个数据项的权重值确定；以及

高期望权重项集确定模块，用于如果所述待处理项集在不确定数据库中的时间有效值不小于预定义的最低时间有效阈值，且所述待处理项集的期望权重支持度不小于预定义的最低期望权重阈值和不确定数据库中事务总数的乘积，则确定所述待处理项集为有效时间的高期望权重项集。
根据权利要求14所述的项集确定装置，其特征在于，所述项集在事务中的时间有效值确定模块包括：

事务的时间有效值确定单元，用于根据预定义的时间衰减因子，当前时间，各个目标事务的发生时间，分别确定各个目标事务的时间有效值；以及

作为单元，用于将所确定的各个目标事务的时间有效值，确定为待处理项集在各目标事务中的时间有效值。
一种处理设备，其特征在于，包括权利要求14-15任一项所述的项集确定装置。
一种非易失性存储介质，用于存储一个或多个计算机程序，其中，所述计算机程序包括一个或多个处理器可运行的指令，所述指令被处理器执行时，使得所述处理器执行以下操作：

确定待处理项集所对应的至少一个目标事务；所述待处理项集所对应的目标事务为，不确定数据库中包含所述待处理项集所有数据项的事务，所述不确定数据库中的每条事务包含至少一个数据项，及该数据项的发生概率；

根据预定义的时间衰减因子，确定所述待处理项集在各目标事务中的时间有效值；将所述待处理项集在各目标事务中的时间有效值相加，确定所述待处理项集在不确定数据库中的时间有效值；

确定所述待处理项集在各目标事务中的项集概率；将所述待处理项集在各目标事务中的项集概率相加，确定所述待处理项集的期望支持度；

将所述待处理项集的期望支持度，和所述待处理项集的项集权重值相乘，确定所述待处理项集的期望权重支持度；其中，所述待处理项集的项集权重值根据预定义的所述待处理项集中各个数据项的权重值确定；以及

如果所述待处理项集在不确定数据库中的时间有效值不小于预定义的最低时间有效阈值，且所述待处理项集的期望权重支持度不小于预定义的最低期望权重阈值和不确定数据库中事务总数的乘积，则确定所述待处理项集为有效时间的高期望权重项集。