CN112434031A

CN112434031A - 一种基于信息熵的不确定高效用模式挖掘方法

Info

Publication number: CN112434031A
Application number: CN202011281070.0A
Authority: CN
Inventors: 唐辉军; 吴一涛; 林佳辉
Original assignee: Ningbo Institute of Finance and Economics
Current assignee: Ningbo Institute of Finance and Economics
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2021-03-02

Abstract

本发明公开一种基于信息熵的不确定高效用模式挖掘方法，包括如下步骤：S1：获取事务数据集，利用信息熵确定事务数据集内各项集的权值；S2：根据确定的权值获取各项集的事务效用值；S3：将各项集的事务效用值分别与最小效用值进行对比，根据对比结果构建全局头表和全局树；S4：根据全局头表和全局树，采用模式迭代的方法挖掘得到全部的不确定高效用模式。本发明在现有算法的基础上，提出基于事务数据的信息熵值设置数据权值，并通过构建有效模式挖掘树得到结果的方法，本方法得到的模型种类更多，计算性能更优。

Description

一种基于信息熵的不确定高效用模式挖掘方法

技术领域

本发明涉及数据挖掘技术领域，尤其涉及一种基于信息熵的不确定高效用模式挖掘方法。

背景技术

高效用模式挖掘算法考虑了事务项集的利润和数量特性，这与传统的频繁模式挖掘方法有较大的不同，成为数据挖掘领域的热点问题。基于Apriori算法，Yao等人提出了挖掘高效用项集的数学模型，它将所有项进行组合候选，挖掘过程非常耗时。Liu等人提出了挖掘高效用项集的两阶段算法，在第一阶段查找所有候选项目集，在第二阶段，算法通过额外的数据集扫描从候选项集中发现实际的高实用项集。后来，Yao等人提出了两种挖掘高效用项目集的新算法:UMining和UMining_H算法。该算法基于启发式的方法利用效用上界性质进行剪枝。这两种算法可能会删除一些高效用项集，同时也会导致候选项过多。算法的性能更优，然而，该算法在第一阶段仍然生成了太多的候选数据，需要对数据集进行多次扫描。

为了克服两阶段算法第一阶段候选项过多的问题，Li等人提出了一种孤立项丢弃策略(IIDS)来减少候选项的数量，并将该策略应用于已有的两种算法中，得到了两种新的算法，分别重命名为FUM和DCG+。这两种新算法的性能都优于原算法。尽管IIDS有效地减少了候选项，但它仍然多次扫描数据集并为高实用项集生成候选项集。此后，HUP-Growth算法将树用于挖掘高效用项集，它创建HUP-Tree，将事务集映射到树中的节点。根据现有的路径，生成所有可能的项目组合并计算效用值，该算法的缺点是会产生大量的项目组合，而且HUP-Tree需要更多的空间来存储项目集和效用值。与HUP-Growth不同，IHUP算法使用IHUP树中当前项上所有节点的效用之和作为高估效用来确定候选集。与HUP-Growth算法相比，该算法减少了候选对象的数量，提高了效率。Tseng提出的基于链和树结构的高效用模式挖掘方法对IHUP进行了改进，重新构建了具有重要叶节点的树结构，与上述算法相比，减少了候选树的数量。

基于事务效用闭包属性，基于树结构之上开展挖掘时空效率改进，是目前该领域算法的主要实施过程。项集的效用是根据内部数量和利润的乘积来计算的。但是这些算法都将数据库中每个项目的重要性看作是相同的，而在现实世界的许多应用中都出现了不确定数据集，数据项具有不同的权重，这引出了不确定数据的模式挖掘问题。对数据集进行频繁项加权挖掘一直是数据挖掘领域的一个研究课题.然而，这些权重是预先确定的，如何确定这些权重，权重往往被设置为一个随机值。信息熵是测量不确定度的平均信息量，已经成功应用于数据挖掘领域，因此描述信息的内部权重是可行的。

不确定高效用模式挖掘方法仍然是该领域的热点问题，众多算法的提出，有效解决了确定性事务数据集的高效用模式挖掘方法。但当事务数据集是不确定状态下时，相关算法未必能取得较好的挖掘结果。概率权重值选择是解决这一问题的关键所在，本文在现有算法的基础上，提出一种基于信息熵的高效用模式挖掘算法，基于事务数据的信息熵值设置数据权值，并通过构建有效模式挖掘树得到结果。最后通过静态和动态时间相关数据集的实验验证，证明了基于信息熵的高效用模式挖掘算法的有效性。

发明内容

不确定高效用模式挖掘同时考虑数据项内部效用值和外部概率权重值来揭示商品特性。目前基于项或项集的出现概率来设置外部权重值是常见的一种方法。但随机概率的产生过程可能丢失那些内部效用较高的数据项，其对挖掘结果影响较大。基于信息熵的信息量内涵特性，本文提出了一种基于信息熵的高效用挖掘算法。单项和项集的权值由信息熵决定，并根据事务项的信息熵效用值构建一种信息熵高效用模式树，能在一定的时空效率下挖掘到相关高效用模式结果。

为了达到上述目的，本发明的技术方案如下：

一种基于信息熵的不确定高效用模式挖掘方法，包括如下步骤：

S1：获取事务数据集，利用信息熵确定事务数据集内各项集的权值；

S2：根据确定的权值获取各项集的事务效用值；

S3：将各项集的事务效用值分别与最小效用值进行对比，根据对比结果构建全局头表和全局树；

S4：根据全局头表和全局树，采用模式迭代的方法挖掘得到全部的不确定高效用模式。

优选地，所述最小效用值的计算公式:

minUti＝Threshold*swu(D)，

式中，最小效用阈值Threshold是用户定义的一个大小在0～1之间的值，swu(D)是事务数据集D的总的效用值。

优选地，所述信息熵H(x)的定义如下所示：

式中，项x在事务t中的内部效用值为q(x,t)，p(x,t)表示了项x在事务t中的中概率，H(x)表示了该项在总数据集中的信息熵，i_r表示事务t_i中的各个项，n表示了事务的总个数，i表示了事务的顺序号。

优选地，所述全局树中每一个节点包括两个数值列表，前一个数值列表表示路径上各个节点的内部效用值；后一个数值列表表示头表中按照信息熵的值从大到小位置排列的节点下标。

优选地，所述根据对比结果构建全局头表和全局树，具体包括如下步骤：

S3.1：若对比项集的事务效用值小于最小效用值，则删除该项集从全局头表中删除；

S3.2：若对比项集的事务效用值不小于最小效用值，则将该项集保存，并按照该项集的信息熵在所有不小于最小效用值的项集中排行顺序添加至全局树中。

优选地，步骤S4，具体包括如下步骤：

S4.1：从头表中的最后一项Q1开始依次循环执行步骤S4.2～步骤S4.13；

S4.2：利用头表找到项Q1对应在全局树中的所有节点对应的数值列表，计算Q1的事务效用值swu(Q1)；

S4.3：若swu(Q1)不小于minUti，则执行步骤S4.4～步骤S4.12；否则执行步骤S4.13；

S4.4：生成一个数据模式X＝X∪{Q1}；

S4.5：计算项集X的事务效用值，若u(X)不小于minUti，则将项集X添加到不确定高效用模式中；

S4.6：为项集X创建子树sT和子头表sH，从子头表的最后一项Q2开始依次循环执行步骤S4.7～步骤S4.12；

S4.7：利用头表找到项Q2对应在全局树中的所有节点对应的数值列表，计算Q2的事务效用值swu(Q2)；

S4.8：若swu(Q2)不小于minUti，则执行步骤S4.9～步骤S4.11；否则执行步骤S4.12；

S4.9：生成一个数据模式Y＝Y∪{Q2}；

S4.10：计算项集Y的事务效用值，若u(Y)不小于minUti，则将项集Y添加到不确定高效用模式中；

S4.11：为Y分别创建子树yT和子头表yH，转步骤S4.7；

S4.12：将项Q2对应在yT上的叶子结点的效用信息传递给其对应的父节点，直到父节点为根节点结束当前循环，进入下一项循环，直至循环结束；

S4.13：将项Q1对应在全局树上的结点效用信息传递给其对应的父结点，直到父节点为根节点结束当前循环，进入下一项循环，循环结束。

基于上述技术方案，本发明的有益效果是：

1.目前在数据挖掘过程中，对于不确定数据的挖掘主要基于概率而设计挖掘算法，但概率有时候并不是直接给定的，这里我们采用信息熵的概念来对数据进行概率设定；

2.不确定高效用数据挖掘方法中，全局计算可能导致计算复杂度高，我们采用信息熵树模型来对计算数据进行模式增长挖掘，以达到计算量的减少；

3.本发明不确定高效用数据挖掘方法中，保存了已经发现的序列模式，同时保存这些序列模式在原始数据上的索引、期望支持数等信息。在处理K层节点时，拟利用第一层节点对应的子树进行连接，这样处理一个节点的时候，不会只处理一个模式，而是和子树中模式个数相关，因此该方法可能会大幅度提高算法的挖掘效率。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明。

图1：本发明一种基于信息熵的不确定高效用模式挖掘方法中数据头表H和模式挖掘树T示意图；

图2：本发明一种基于信息熵的不确定高效用模式挖掘方法中项{B}的子头表和子树示意图；

图3：本发明一种基于信息熵的不确定高效用模式挖掘方法中项集{B、A}子树和子头表示意图；

图4：本发明一种基于信息熵的不确定高效用模式挖掘方法中Entropy-Mining和Random-Mining的运行时间对比。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

实施例一

相关定义

设D＝{t₁,t₂,…,t_n}为一个事务数据库，t_j为构成该数据库的各个事务，I＝{i₁,i₂,…,i_m}为构成该数据库的所有项的集合。在每一个事务t_j中，设置{(x_j1:c_j1),(x_j2:c_j2),…,(x_jv:c_jv)}为该事务的具体项和内部效应表示。x_jk(k＝1,2,…,v)∈I为具体的项，c_jk(k＝1,2,…,v)＝q(x_jk,t_j)为其相应的效用值。表1为某一数据库的内部效用表实例。

表1高效用数据集

由于I中的各项的外部效用值是不确定出现的，它们通常是以随机概率或专家打分的方式存在，这可能丢失掉部分权重值较大的高效用项集，设p(x)为事务中该项相应的不确定概率值。

定义1.项x在事务t中的效用值，记为u(x,t)，其定义如下：

u(x,t)＝p(x)q(x,t) (1)

这里设定在事务中出现多个相同项集情况下，取较大值为该项的效用值。

定义2.项集X在事务t中的效用值，记为u(X,t)，其定义如下：

同样，这里设定在事务中出现多个项集中，按较大值作为该项集在事务中的效用值。

定义3.序列项集X在数据集D中的效用值，设为u(X)。

定义4.事务t的效用值设为stu(t)，其包含了所在事务中的项效用值的和，定义公式如下：

定义5.在数据集D的事务效用值为swu(D)，其定义如下：

定义6.基于数据集D,一个项集X的事务效用集不小于最小效用值，则该项集为候选项集，否则，则为非候选项集。

定义7.最小效用值minUti＝Threshold*swu(D)，基于数据集D，一个项集的效用值u(X)大于或等于minUti，则该项集为高效用项集，否则为非高效用集。

性质1.序列项集的事务效用值满足闭包属性：任一个候选项集的非空子集也是一个候选项集，任一个非候选项集的超集也是一个非候选项集。

证明:假设项集M的事务效用值大于最小效用值，由于M的效用值小于其事务效用值，故M可能是个候选项集。反之，如果其事务效用值小于最小效用值，则M肯定不是高效用项集。设M是项集N的一个子集，也即N是M的一个超集。因为M是N的一个子集，因此数据集D中包含N的事务项集一定也包含M，而包含M的事务项集不一定包含N，因此，N的事务效用值肯定小于M的事务效用值，即如果N是候选项集，则X肯定是候选项集。反之也可证明若M不是一个候选项集，则N一定也不是一个候选项集。

性质1符合闭包属性，因此可以利用该性质候选项集剪枝，提高挖掘算法的时间和空间效率。

p(x_jk)的构造成为解决该问题的关键所在，由于信息熵包含了项集的基本信息含量，这里考虑基于信息熵值设定项的不确定值。

定义8.项x在事务t中的内部效用值为q(x,t)，则其信息熵H(x)定义如下：

二、构建信息熵模式挖掘树

基于项的信息熵值，建立一个模式挖掘树。具体算法如下：

基于表1数据，首先扫描一次数据集，基于公式(7)计算各项的信息熵，计算结果见表2所示。设定最小效用值minUti＝30，再根据公式(5)计算各个项的事务效用值，由于swu(E)和swu(F)的事务效用值分别为20.44和26.53，则将项E、F从全局头表数据项中删除。

表2信息熵

将剩余数据项构建数据项头表，将其数据项按照信息熵的值从大到小排序。形成数据头表H，如表3所示，H由表2中D、C、A、B元素组成。

表3头表H

D	2.18
		C	1.83
A	1.74
		B	1.45

然后将事务数据按照D-C-A-B的顺序依次将各个事务添加到一颗树中，如果在同一事务中出现了多个项的模式，例如第二个事务中存在两个B项，按照前述高效用模式计算过程，这里选择内部效用较高的项作用连接节点。这样经过添加6个事务集后，模式挖掘树结果如图1所示。

所有的高效用模式不需要生成候选集，都可以在该树中挖掘得到。树中各个节点构建过程中带有两个列表，以第一事务中的B(1,3,4,3)(1,2,3,4)节点为例，前一列表表示了路径上各个节点的内部效用值，后一列表表示了其头表中按照从大到小位置排列的节点下标。

三、挖掘不确定高效用模式

在得到相应的全局挖掘树后，采用模式迭代的方法挖掘得到全部不确定高效用模式。过程见算法1。

算法1.Ming(T,H,X,minUti)。

输入:全局树T,头表H,初始值为空的项集X,最小效用值minUti.

输出:不确定序列模式集UHUPs.

按照B-A-C-D的顺序依次计算各个项的高效用值(这可由树上各个节点按照指针的累加和求得)，然后再从各个子树中挖掘到相关高效用值。这里以项B为例，由于u(B)<30，故生成其子树和子头表，见图2所示。

在图2中，首先生成{B,A}模式，计算u(B,A)<30,故继续以{B,A}作为基础项再生成子树，如图3中所示，得到u{B,A,D}>30，得到第一个高效用模式，以此类推，可挖掘得到全部高效用模式。

四、实验

以Entropy-Mining表示本发明所提算法，所有实验都在Intel(R)Core(TM)i5-2450M CPU，4G内存和python环境中进行实验分析，验证了算法的有效性。具体实验数据集包括chess数据集、Mushroom数据集、T10.I4.D100K数据集和Retail数据集，对上述数据集进行挖掘实验，数据详情见表4所示，其中I表示了不同数据项个数，AS表示了事务平均长度，T表示了数据集事务个数。

表4数据集描述

数据集	I	AS	T
				Chess	76	37	3,196
Mushroom	119	23	8,124
				T10.I4.D100K	1,000	10	100,000
Retail	16,470	10.3	88,162

首先跟基于随机的不确定高效用模式挖掘算法进行比较，第一个Random-Ming算法为基于不确定高效用挖掘的随机算法，由zhang等人提出，是目前较好的的不确定高效用挖掘算法，首先比较两个算法所挖掘得到的高效用项结果，在基于一定的最小效用值的条件下，挖掘得到的效用项结果见表5所示，其中Random-Mining的个数为3次实验的平均数。

表5数据挖掘项

从表5中可以看出，Entropy-Mining在chess数据集、T10.I4.D100K数据集上都取得了较好的结果，在Mushroom数据集上，当最小效用值为14％，算法比Random-Mining挖掘得到的少，但相差不大，其他情况下，Entropy-Mining都取得了较好的表现。在Retail数据集下，Random-Mining还出现了内存溢出，无法挖掘的状态。

如图4所示，从运行时间上来看，由于随机概率特性，Random-Mining的运行时间不是太固定。图4表示了不同阈值下的3次平均运行时间，可以看出两个算法的运算时间相差不多。运行时间相差不多，不存在哪个算法有较大优势的结论在其他数据集上也可以得到验证，这里不再展开分析。

表6和表7表示了算法的模式长度K分布和最大内存消耗性能在稠密数据集T10.I4.D100K和Retail上的表现。表6表示了两类算法在T10.I4.D100K上所挖掘得到的模式个数及其内存消耗量(MB)，表7则表示了在Retail数据集下的运行结果。

表6 T10.I4.D100K上模式长度和内存消耗

表7 Retail上模式长度和内存消耗

从表6中可以看出，Entropy-Mining在不同最小效用下能得到最大挖掘长度至少为3的模式，而Random-Mining挖掘得到的最大长度很快就到1，相同的状况也Retail数据集下也可得到。另外，从内存消耗来看，两者的区别不是太大。从表6和表7中可以发现，在稠密数据集下，在相同的最小阈值情况下，Entropy-Mining挖掘到的频繁模式种类更多，并且内存消耗并不明显比Random-Mining大，Entropy-Mining表现出良好的计算性能。

以上所述仅为本发明所公开的一种基于信息熵的不确定高效用模式挖掘方法的优选实施方式，并非用于限定本说明书实施例的保护范围。凡在本说明书实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书实施例的保护范围之内。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书实施例中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种基于信息熵的不确定高效用模式挖掘方法，其特征在于，包括如下步骤：

S2：根据确定的权值获取各项集的事务效用值；

2.根据权利要求1所述的一种基于信息熵的不确定高效用模式挖掘方法，其特征在于，所述最小效用值的计算公式:

minUti＝Threshold*swu(D)

式中，最小效用阈值Threshold是用户定义的一个大小在0～1之间的值，swu(D)是事务数据集D的总的效用值，minUti表示了用户的期望最小效用值。

3.根据权利要求1所述的一种基于信息熵的不确定高效用模式挖掘方法，其特征在于，所述信息熵H(x)的定义如下所示：

4.根据权利要求1所述的一种基于信息熵的不确定高效用模式挖掘方法，其特征在于，所述全局树中每一个节点包括两个数值列表，前一个数值列表表示路径上各个节点的内部效用值；后一个数值列表表示头表中按照信息熵的值从大到小位置排列的节点下标。

5.根据权利要求1所述的一种基于信息熵的不确定高效用模式挖掘方法，其特征在于，所述根据对比结果构建全局头表和全局树，具体包括如下步骤：

6.根据权利要求1所述的一种基于信息熵的不确定高效用模式挖掘方法，其特征在于，步骤S4，具体包括如下步骤：

S4.4：生成一个数据模式X＝X∪{Q1}；

S4.9：生成一个数据模式Y＝Y∪{Q2}；

S4.11：为Y分别创建子树yT和子头表yH，转步骤S4.7；