CN104504159A - 多支持度的正负序列模式在客户购买行为分析中的应用 - Google Patents
多支持度的正负序列模式在客户购买行为分析中的应用 Download PDFInfo
- Publication number
- CN104504159A CN104504159A CN201510026256.4A CN201510026256A CN104504159A CN 104504159 A CN104504159 A CN 104504159A CN 201510026256 A CN201510026256 A CN 201510026256A CN 104504159 A CN104504159 A CN 104504159A
- Authority
- CN
- China
- Prior art keywords
- sequence
- negative
- positive
- support
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种多支持度的正负序列模式在客户购买行为分析中的应用。本发明中提出一个名为E-msNSP的高效算法来挖掘基于多支持度的负序列模式,所述算法的主要思想是首先通过改进MS-GSP算法挖掘得到基于多支持度的正序列模式,然后用和e-NSP相同的方法通过公式来计算负序列侯选模式的支持度,无需再次扫描数据库。所述E-msNSP是第一个没有约束限制的基于多支持度的负序列模式挖掘算法。本发明筛选出某一段时间内,每一类产品中用户购买量比较大的商品,这样客户在购买产品时,利用本发明可以向他推荐一些其它客户购买频率比较大的类似相关产品,从而增加客户的交易机会,将网站浏览者转变为购买者,提高交叉销售能力,提高客户的忠诚度,以及提高网站的经济效益。
Description
技术领域
本发明涉及多支持度的正负序列模式在客户购买行为分析中的应用,属于多支持度的正负序列模式的应用技术领域。
背景技术
随着计算机和互联网的普及,网络购物时下已经成为一种非常流行的购物方式。网络购物现在不仅仅是一种时尚,俨然成为了生活中不可或缺的一部分,特别是年轻一族更热衷于网上购物这种新型的购物方式。近年来,网络购物呈爆发式增长,每年都以几何数级增长,与此同时很多大型的电子商务网站,如Amazon、阿里巴巴旗下的淘宝和天猫商城、京东等都积累了大量的客户交易数据。如何充分利用这些数据对客户购买行为进行有效的分析、组织利用,如何了解到客户尽可能多的爱好和价值取向,以优化网站设计,为客户提供个性化服务,成为电子商务发展迫切要解决的问题。
与传统的经营方式相比,电子商务的商家不能直观的去了解客户,获取的相关的数据有限(比如用户的注册信息,购买记录等)。通过对大量的客户购买记录进行分析和挖掘,发现客户的频繁访问序列模式,针对不同的客户属性和网上购物步骤,采用不同的商品推荐形式,适时的向客户推荐恰当的商品,并优化电子商务网站商品的摆放位置,可以有效的增加客户的交易机会,将网站浏览者转变为购买者,提高交叉销售能力,提高客户的忠诚度,以及提高网站的服务质量和经济效益。
目前大多数人都是用关联规则分析进行个性化商品推荐,很少有人用序列模式分析来解决这一问题。关联规则分析所要解决的问题是发现哪些商品是客户喜欢一起购买的,客户在一次交易中购买某些商品后还会购买哪些商品,它是发现交易的内部规律的过程,从而使得分析人员能够按照客户的购买兴趣来安排商品的摆放,以增加交易量。而序列模式分析所要解决的问题是客户在完成一次交易之后,在以后的特定时间内,还会购买什么商品,是发现交易之间关系规律的过程,使得售货方能够根据当前的商品买卖情况来预测以后的商品买卖情况,从而能够更好的安排商品的摆放。它的主要目的是研究商品购买的先后关系,找出其中的规律,即不仅需要知道商品是否被购买,而且需要确定该商品与其它商品购买的先后顺序,例如,在线定购过商品A的客户,40%的人会在2个月内定购商品B。序列模式能够发现数据库中某一段时间内的一个频繁序列,即在这个时间段内哪些商品会被客户购买的比较多,多或少的标准是由最小支持度来决定的。每个序列是按照交易的时间排列的一组集合,可以设置最小支持度来挖掘满足不同频繁程度的序列。但在应用序列模式分析客户购买行为,解决个性化商品推荐问题时,他们仅考虑了已发生的事件,也称为正序列模式(Positive SequentialPattern,PSP)挖掘。
与传统的正序列模式(Positive Sequential Pattern,PSP)相比,负序列模式(Negative Sequential Pattern,NSP)挖掘还考虑了未发生事件,为数据分析提供了新的角度,能够更深入地分析和理解数据中的潜在含义。例如:a代表面包,b代表咖啡,c代表茶,d代表糖,<>表示一个客户购买序列模式,该模式说明在某一段时间内,该客户在购买了商品a、b后,在没有购买商品c的情况下,购买了商品d。人们越来越认识到像这种负序列模式在深入理解和处理许多商业应用方面,如客户行为分析、治疗服务和疾病之间的关联方面,它更有一种不可替代的作用。
目前用于负序列模式挖掘的算法较少,如,PNSP,NegGSP,e-NSP等等。但是这些算法,用的仅仅是单最小支持度,单最小支持度意味着所有的项在数据库中拥有相同的发生频率,即所有的产品都拥有相同的购买频率,可是在现实生活中这个假设显然是不能成立的,恰恰相反,一些产品购买得非常频繁,而有些产品购买的却非常稀疏。如家用电器和生活用品这两类产品,肯定是购买家用电器的频率不如生活用品多,如果我们用单一的最小支持度,家用电器很可能会全被筛选掉,但实际上家用电器也有很多品牌卖的很畅销,所以单一支持度不符合实际应用。而现有的挖掘方法多使用单一的最小支持度,这样存在一个问题:如果挖掘的最小支持度定得较高,那么覆盖较少数据但却使有意义的知识将不能被发现;如果最小支持度定得过低,那么大量的无实际意义的数据将充斥在挖掘过程中,这将大大降低挖掘的效率。因此,有人提出了一些基于多持度频繁项集挖掘算法,如MS-Apriori,2L-XMMS和MLMS算法。多支持度允许用户根据挖掘数据各属性的实际发生概率为数据库中的每个项都定义一个支持度,即为每一款商品设置它自己的最小支持度,不同的项集根据所包含的数据项情况需要满足不同的最小支持度。但是这些方法中能用于序列模式的却很少,而且它们只考虑了基于多支持度的正序列模式挖掘,如MS-GSP和MS-PS算法。这是因为基于多支持度的序列模式挖掘比基于多支持度的频繁项集挖掘要困难的多。我们所能找到的基于多支持度的负序列模式挖掘的方法只有CPNFSP。但是CPNFSP方法只识别和负关联规则相似的形式,如CPNFSP要求这对于关联规则挖掘是很重要的,但是对于序列模式挖掘而言,它有一定的约束性。这是因为在序列中,项/项集是有顺序的,每个项可以在一个序列的不同元素中发生。一个客户一次购买的商品构成一个元素,商品为元素中的项,一段时间内购买的商品构成一个序列,该客户可能在不同的时间段购买同一件产品。所以大多数情况下
以电子商务平台中的网站用户购买订单数据为挖掘的数据源。
以5个客户在2个月内的交易为例,如表1是由客户ID和交易时间为关键字所排序的事务数据库。一个事务数据库,一个事务代表一笔交易,一个单项代表交易的商品,单项属性中的字母记录的是商品ID。
表1 事务数据库
进行数据预处理,将表1的事务数据库整理成表2的序列数据库。
表2 序列数据库
客户ID | 客户购买序列 |
1 | <{c}{i}> |
2 | <{a,b}{c}{a,d,f,g}> |
3 | <{c,e,g,h}> |
4 | <{c}{c,d,g,h}{i}> |
5 | <{i}> |
一个客户在某个时间段内所有的交易记录构成一个有序的序列,序列用<>表示。在序列中,项/项集是有顺序的,每个项都代表交易的一种商品,而元素则是指该客户在某一个具体的时间点一次性购买的所有商品,用{}或()表示,该客户可能在不同的时间段购买同一件产品,即一个项可能在一个序列的不同元素中发生。如表2中ID为2的客户购买序列为<{a,b}{c}{a,d,f,g}>,该客户分别在第一次和第三次购物时购买了商品a,其中{a,b},{c},{a,d,f,g}这三个项目集可称为序列的元素,a,b,c,d,f,g则称为项,如果一个元素中只有一个项,则括号可以省略,如该序列中的元素{c}可直接写c。
发明内容
发明概述
针对现有技术的不足,本发明提供一种多支持度的正负序列模式在客户购买行为分析中的应用。本发明中提出一个名为E-msNSP的高效算法来挖掘基于多支持度的负序列模式,所述算法的主要思想是首先通过改进MS-GSP算法挖掘得到基于多支持度的正序列模式,然后用和e-NSP相同的方法通过公式来计算负序列侯选模式的支持度,无需再次扫描数据库。所述E-msNSP是第一个没有约束限制的基于多支持度的负序列模式挖掘算法。通过该算法挖掘得到序列模式,再用适当的筛选方法将能用于决策的序列模式筛选出来,利用这些筛选后的序列模式来分析客户的购买行为,使得售货方能够根据当前的商品买卖情况来预测以后的商品买卖情况,从而能够更好的安排商品的摆放,提高商品销售量。
发明详述
本发明的技术方案如下:
一种多支持度的正负序列模式在客户购买行为分析中的应用,包括步骤如下:
(1)定义基于多支持度的负序列的最小支持度
MIS(i)表示项i的最小项支持度,i是正项或负项;正元素,即已购买的商品,它的最小支持度是元素中项i的最小支持度值,对于负元素,即未购买的商品,则用相关的正元素的信息来计算它的最小支持度:
对于负元素(ab),其中a,b代表某种商品,该负元素的最小支持度是:
基于多支持度的负序列S的最小支持度是序列中元素的最小支持度值,其中S中元素集包含:e1,e2...er,其中S的最小支持度minsup(S)是:
minsup(S)=min[MIS(e1),MIS(e2),...,MIS(er)];
例如,假设负序列它的最小支持度可表示为 其中
对于一个购买序列S和它的最小支持度minsup(S),如果S只包含正元素,s(S)≥minsup(S),那么S被称为正序列模式;如果S包含负元素,s(S)≥minsup(S),那么S被称为负序列模式;
(2)利用E-msNSP算法的步骤如下:
首先,用基于多最小支持度的MS-GSP算法来挖掘得到所有的正序列模式,即在某一段时间内,客户购买量大的商品;
然后,基于所述正序列模式生成相应的负侯选序列(negative sequentialcandidates,NSC),该负候选序列用于判断在某一段时间内,哪些商品客户购买的多,哪些商品客户没有购买;
其次,利用相关的正序列模式的支持度来计算所述负侯选序列的支持度;
再从所述负侯选序列里筛选出符合最小支持度要求的负序列模式,再用适当的筛选方法将能用于决策的序列模式筛选出来,利用这些筛选后的序列模式对客户的购买行为进行分析;商家根据分析结果针对客户提供个性化服务,根据客户购买习惯安排商品的推荐顺序和频率;
(3)E-msNSP负侯选序列的生成
为了基于正序列模式生成无冗余的负侯选序列,我们用一种高效的方法来生成负侯选序列,其基本思想是改变正序列模式中任意不相邻元素为负元素;
对于大小为k的正序列模式,其负侯选序列是通过改变正序列模式中任意m个不相邻元素为负元素得到的:其中为大于k/2的最小整数;
例:基于<(ab)cd>的负侯选序列,其中a、b、c、d是指某种产品,包括:
(4)计算负侯选序列的支持度
定义一个负侯选序列
MPS(ns):负序列ns的最大正子序列,即包含负序列中所有的正元素;
1-negMSns:负序列ns的子序列,并且该子序列是由MPS(ns)以及一个负元素组成;
1-negMSSns:包含负序列ns的所有1-negMSns子序列的集合;
p(1-negMS):序列1-negMS中的正元素不变,将负元素转换为相应的正元素;如:
大小为m并且含有n个负元素的序列ns,对于(只含有一个负元素的序列)∈1-negMSSns(含有一个负元素的序列的集合)(1≤i≤n),在序列数据库D中ns的支持度sup(ns)是:
如果ns只包含一个负元素,那么序列ns的支持度是:
sup(ns)=sup(MPS(ns))-sup(p(ns)) (ii)
特别地,对于负序列
假设,序列<ac>的支持度是10,支持序列<abc>的sid(包含序列<abc>的客户ID)的集合是{10,20,30},支持序列<acd>的sid的集合是{20,30,40},则
(5)算法伪代码
为了高效的计算并集,设计一个数据结构来存储e-msNSP相关数据,所述数据结构存储正侯选序列(Positive Sequential Candidates,PSC)以及它的支持度和{sid},包含相应的正侯选序列的sid集合;
所述e-msNSP算法是基于正序列模式来挖掘负序列模式,算法E-msNSP包括步骤如下:
其中,输入:D:客户购买序列数据库;MIS(i):每款产品的最小项支持度;输出:NSP:用于分析客户购买行为的序列模式的集合;
所述步骤(1)是用基于多最小支持度的MS-GSP算法从序列数据库中挖掘出所有的正序列模式;所有的正侯选序列以及它的支持度和sid的集合都被存储到哈希表PSCHash,其中,所述步骤(2)是负侯选序列的哈希码作为关键码;
所述步骤(4)是对于每一个正序列模式,通过刚才所说的“负侯选序列的生成”方法来生成负侯选序列NSC;
步骤(5)至步骤(20),通过公式(i)-(iii)计算出NSC中的每一个nsc的支持度;步骤(21)至步骤(23)然后判断出哪些是负序列模式NSP;
步骤(6)至步骤(10),通过公式(ii)和公式(iii)计算出只含有一个负元素的nsc的支持度,对于包含多于一个负元素的nsc的支持度,通过公式(i)计算出如步骤(9)至步骤(11);对于后者,最关键的一步就是如何计算
将包含p(1-negMSi)的sid集合存储到{p(1-negMSi)}集合中,然后计算{p(1-negMSi)}的并集,再计算出集合中含有的sid的个数;步骤(21)行计算出nsc的最小支持度,它是序列中所有元素的MIS值中最小的一个;
如果nsc.support>=minsup(nsc)那么nsc被加入到NSP中,如步骤(22)至步骤(23);
返回结果,如步骤(26),再用适当的筛选方法将能用于决策的序列模式筛选出来,利用这些筛选后的序列模式来分析客户的购买行为。
本发明的优势
目前用于负序列模式挖掘的算法较少,但是这些算法,用的仅仅是单最小支持度,即所有的产品都拥有相同的购买频率,可是在现实生活中这个假设显然是不能成立的,恰恰相反,一些产品购买得非常频繁,而有些产品购买的却非常稀疏。而现有的挖掘方法多使用单一的最小支持度,就存在这样一个问题:如果挖掘的最小支持度定得较高,那么覆盖较少数据但却使有意义的知识将不能被发现;如果最小支持度定得过低,那么大量的无实际意义的数据将充斥在挖掘过程中,这将大大降低挖掘的效率。本发明应用在进行客户购买行为分析过程中,利用多支持度为数据库中的每个项都定义了一个支持度,即为每一种产品设置它自己的最小支持度。本发明提出了多支持度的正负序列模式挖掘,多支持度允许用户根据挖掘数据各属性的实际发生概率为数据库中的每个项都定义一个支持度,即为每一款商品设置它自己的最小支持度,不同的项集根据所包含的数据项情况需要满足不同的最小支持度。通过多支持度,本发明可以筛选出某一段时间内,每一类产品中用户购买量比较大的商品,这样客户在购买产品时,利用本发明可以向他推荐一些其它客户购买频率比较大的类似相关产品,从而增加客户的交易机会,将网站浏览者转变为购买者,提高交叉销售能力,提高客户的忠诚度,以及提高网站的经济效益。
具体实施方式
下面结合实施例对本发明做详细的说明,但不限于此。
实施例、
一种多支持度的正负序列模式在客户购买行为分析中的应用,包括步骤如下:
(1)定义基于多支持度的负序列的最小支持度
MIS(i)表示项i的最小项支持度,i是正项或负项;正元素,即已购买的商品,它的最小支持度是元素中项i的最小支持度值,对于负元素,即未购买的商品,则用相关的正元素的信息来计算它的最小支持度:
对于负元素其中a,b代表某种商品,该负元素的最小支持度是:
基于多支持度的负序列S的最小支持度是序列中元素的最小支持度值,其中S中元素集包含:e1,e2...er,其中S的最小支持度minsup(S)是:
minsup(S)=min[MIS(e1),MIS(e2),...,MIS(er)];
例如,假设负序列它的最小支持度可表示为 其中
对于一个购买序列S和它的最小支持度minsup(S),如果S只包含正元素,s(S)≥minsup(S),那么S被称为正序列模式;如果S包含负元素,s(S)≥minsup(S),那么S被称为负序列模式;
(2)利用E-msNSP算法的步骤如下:
首先,用基于多最小支持度的MS-GSP算法来挖掘得到所有的正序列模式,即在某一段时间内,客户购买量大的商品;
然后,基于所述正序列模式生成相应的负侯选序列(negative sequentialcandidates,NSC),该负候选序列用于判断在某一段时间内,哪些商品客户购买的多,哪些商品客户没有购买;
其次,利用相关的正序列模式的支持度来计算所述负侯选序列的支持度;
再从所述负侯选序列里筛选出符合最小支持度要求的负序列模式,再用适当的筛选方法将能用于决策的序列模式筛选出来,利用这些筛选后的序列模式对客户的购买行为进行分析;商家根据分析结果针对客户提供个性化服务,根据客户购买习惯安排商品的推荐顺序和频率;
(3)E-msNSP负侯选序列的生成
为了基于正序列模式生成无冗余的负侯选序列,我们用一种高效的方法来生成负侯选序列,其基本思想是改变正序列模式中任意不相邻元素为负元素;
对于大小为k的正序列模式,其负侯选序列是通过改变正序列模式中任意m个不相邻元素为负元素得到的:其中为大于k/2的最小整数;
例:基于<(ab)cd>的负侯选序列,其中a、b、c、d是指某种产品,包括:
(4)计算负侯选序列的支持度
定义一个负侯选序列
MPS(ns):负序列ns的最大正子序列,即包含负序列中所有的正元素;
1-negMSns:负序列ns的子序列,并且该子序列是由MPS(ns)以及一个负元素组成;
1-negMSSns:包含负序列ns的所有1-negMSns子序列的集合;
p(1-negMS):序列1-negMS中的正元素不变,将负元素转换为相应的正元素;如:
大小为m并且含有n个负元素的序列ns,对于(只含有一个负元素的序列)∈1-negMSSns(含有一个负元素的序列的集合)(1≤i≤n),在序列数据库D中ns的支持度sup(ns)是:
如果ns只包含一个负元素,那么序列ns的支持度是:
sup(ns)=sup(MPS(ns))-sup(p(ns)) (ii)
特别地,对于负序列
假设,序列<ac>的支持度是10,支持序列<abc>的sid(包含序列<abc>的客户ID)的集合是{10,20,30},支持序列<acd>的sid的集合是{20,30,40},则
(5)算法伪代码
为了高效的计算并集,设计一个数据结构来存储e-msNSP相关数据,所述数据结构存储正侯选序列(Positive Sequential Candidates,PSC)以及它的支持度和{sid},包含相应的正侯选序列的sid集合;
所述e-msNSP算法是基于正序列模式来挖掘负序列模式,算法E-msNSP包括步骤如下:
其中,输入:D:客户购买序列数据库;MIS(i):每款产品的最小项支持度;输出:NSP:用于分析客户购买行为的序列模式的集合;
所述步骤(1)是用基于多最小支持度的MS-GSP算法从序列数据库中挖掘出所有的正序列模式;所有的正侯选序列以及它的支持度和sid的集合都被存储到哈希表PSCHash,其中,所述步骤(2)是负侯选序列的哈希码作为关键码;
所述步骤(4)是对于每一个正序列模式,通过刚才所说的“负侯选序列的生成”方法来生成负侯选序列NSC;
步骤(5)至步骤(20),通过公式(i)-(iii)计算出NSC中的每一个nsc的支持度;步骤(21)至步骤(23)然后判断出哪些是负序列模式NSP;
步骤(6)至步骤(10),通过公式(ii)和公式(iii)计算出只含有一个负元素的nsc的支持度,对于包含多于一个负元素的nsc的支持度,通过公式(i)计算出如步骤(9)至步骤(11);对于后者,最关键的一步就是如何计算
将包含p(1-negMSi)的sid集合存储到{p(1-negMSi)}集合中,然后计算{p(1-negMSi)}的并集,再计算出集合中含有的sid的个数;步骤(21)行计算出nsc的最小支持度,它是序列中所有元素的MIS值中最小的一个;
如果nsc.support>=minsup(nsc)那么nsc被加入到NSP中,如步骤(22)至步骤(23);
返回结果,如步骤(26),再用适当的筛选方法将能用于决策的序列模式筛选出来,利用这些筛选后的序列模式来分析客户的购买行为。
其中所述客户购买行为分析,其中序列模式分析的侧重点在于分析数据间的前后或因果关系。就是在时间有序的事务集中,找到那些“一些项跟随另一些项”的内部事务模式。例如:9个月以前购买奔腾Pc的客户很可能在一个月内订购新的CPU芯片。再例如,购买了PC的客户,可能接着买内存芯片,再买CD—ROM。
通过从客户购买记录中挖掘出很多客户在一段时间内都会购买的商品,来便于电子商务的组织者预测客户的行为对客户提供个性化服务,发现什么商品会在另外一些商品购买后购买,从而可以向客户提出推荐,把这些商品可以放到最显眼的位置。例如,当客户在线购买一台个人电脑时,***可能根据以前挖掘出来的序列模式建议他考虑同时购买其他的一些东西,比如“购买这种个人电脑的人在三个月之内很可能要再买某种特殊的打印机或CD-ROM”,可以送给用户一个短期优惠券,从而促进产品销售。而负序列模式中的负项,即客户不购买的商品,我们则不需要向客户推荐,例如,<智能手机,游戏机,内存卡>该序列模式,当客户购买智能手机时,***会向客户推荐购买内存卡而不推荐游戏机,因为购买智能手机的人,很可能在三个月内再购买内存卡,而不购买游戏机。
通过对客户购买行为进行分析,发现交易之间的关系规律,不仅可以根据当前的商品买卖情况来预测以后的商品买卖情况,还可以更好的调整商品的推荐顺序和频率,从而提高商品销售量。
Claims (1)
1.一种多支持度的正负序列模式在客户购买行为分析中的应用,其特征在于,包括步骤如下:
(1)定义基于多支持度的负序列的最小支持度
MIS(i)表示项i的最小项支持度,i是正项或负项;正元素,即已购买的商品,它的最小支持度是元素中项i的最小支持度值,对于负元素,即未购买的商品,则用相关的正元素的信息来计算它的最小支持度:
对于负元素(ab),其中a,b代表某种商品,该负元素的最小支持度是:
基于多支持度的负序列S的最小支持度是序列中元素的最小支持度值,其中S中元素集包含:e1,e2...er,其中S的最小支持度minsup(S)是:
minsup(S)=min[MIS(e1),MIS(e2),...,MIS(er)];
对于一个购买序列S和它的最小支持度minsup(S),如果S只包含正元素,s(S)≥minsup(S),那么S被称为正序列模式;如果S包含负元素,s(S)≥minsup(S),那么S被称为负序列模式;
(2)利用E-msNSP算法的步骤如下:
首先,用基于多最小支持度的MS-GSP算法来挖掘得到所有的正序列模式,即在某一段时间内,客户购买量大的商品;
然后,基于所述正序列模式生成相应的负侯选序列;
其次,利用相关的正序列模式的支持度来计算所述负侯选序列的支持度;
再从所述负侯选序列里筛选出符合最小支持度要求的负序列模式,再用适当的筛选方法将能用于决策的序列模式筛选出来,利用这些筛选后的序列模式对客户的购买行为进行分析;
(3)E-msNSP负侯选序列的生成
对于大小为k的正序列模式,其负侯选序列是通过改变正序列模式中任意m个不相邻元素为负元素得到的:m=1,2,…,其中为大于k/2的最小整数;
(4)计算负侯选序列的支持度
定义一个负侯选序列
MPS(ns):负序列ns的最大正子序列,即包含负序列中所有的正元素;
1-negMSns:负序列ns的子序列,并且该子序列是由MPS(ns)以及一个负元素组成;
1-negMSSns:包含负序列ns的所有1-negMSns子序列的集合;
p(1-negMS):序列1-negMS中的正元素不变,将负元素转换为相应的正元素;如:
大小为m并且含有n个负元素的序列ns,对于(只含有一个负元素的序列)∈1-negMSSns(含有一个负元素的序列的集合)(1≤i≤n),在序列数据库D中ns的支持度sup(ns)是:
如果ns只包含一个负元素,那么序列ns的支持度是:
sup(ns)=sup(MPS(ns))-sup(p(ns)) (ii)
特别地,对于负序列
(5)算法伪代码
设计一个数据结构来存储e-msNSP相关数据,所述数据结构存储正侯选序列以及它的支持度和{sid},包含相应的正侯选序列的sid集合;
所述e-msNSP算法是基于正序列模式来挖掘负序列模式,算法E-msNSP包括步骤如下:
其中,输入:D:客户购买序列数据库;MIS(i):每款产品的最小项支持度;输出:NSP:用于分析客户购买行为的序列模式的集合;
所述步骤(1)是用基于多最小支持度的MS-GSP算法从序列数据库中挖掘出所有的正序列模式;所有的正侯选序列以及它的支持度和sid的集合都被存储到哈希表PSCHash,其中,所述步骤(2)是负侯选序列的哈希码作为关键码;
所述步骤(4)是对于每一个正序列模式,通过刚才所说的“负侯选序列的生成”方法来生成负侯选序列NSC;
步骤(5)至步骤(20),通过公式(i)-(iii)计算出NSC中的每一个nsc的支持度;步骤(21)至步骤(23)然后判断出哪些是负序列模式NSP;
步骤(6)至步骤(10),通过公式(ii)和公式(iii)计算出只含有一个负元素的nsc的支持度,对于包含多于一个负元素的nsc的支持度,通过公式(i)计算出如步骤(9)至步骤(11);对于后者,最关键的一步就是如何计算
将包含p(1-negMSi)的sid集合存储到{p(1-negMSi)}集合中,然后计算{p(1-negMSi)}的并集,再计算出集合中含有的sid的个数;步骤(21)行计算出nsc的最小支持度,它是序列中所有元素的MIS值中最小的一个;
如果nsc.support>=minsup(nsc)那么nsc被加入到NSP中,如步骤(22)至步骤(23);
返回结果,如步骤(26),再用适当的筛选方法将能用于决策的序列模式筛选出来,利用这些筛选后的序列模式来分析客户的购买行为。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510026256.4A CN104504159B (zh) | 2015-01-19 | 2015-01-19 | 多支持度的正负序列模式在客户购买行为分析中的应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510026256.4A CN104504159B (zh) | 2015-01-19 | 2015-01-19 | 多支持度的正负序列模式在客户购买行为分析中的应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104504159A true CN104504159A (zh) | 2015-04-08 |
CN104504159B CN104504159B (zh) | 2018-10-02 |
Family
ID=52945556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510026256.4A Active CN104504159B (zh) | 2015-01-19 | 2015-01-19 | 多支持度的正负序列模式在客户购买行为分析中的应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104504159B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184618A (zh) * | 2015-10-20 | 2015-12-23 | 广州唯品会信息科技有限公司 | 新用户的商品个性化推荐方法及*** |
CN105354728A (zh) * | 2015-12-11 | 2016-02-24 | 北京京东尚科信息技术有限公司 | 优惠券推送方法和装置 |
CN105868314A (zh) * | 2016-03-25 | 2016-08-17 | 齐鲁工业大学 | 一种多支持度下的加权负序列模式数据挖掘方法 |
CN106384253A (zh) * | 2016-09-30 | 2017-02-08 | ***股份有限公司 | 一种银行卡交易中消费行为分析方法及装置 |
CN107515942A (zh) * | 2017-08-31 | 2017-12-26 | 齐鲁工业大学 | 非频繁序列中挖掘可决策负序列模式的购买行为分析方法 |
CN108429865A (zh) * | 2017-02-13 | 2018-08-21 | ***通信集团广东有限公司 | 一种产品推荐处理方法及装置 |
CN109146542A (zh) * | 2018-07-10 | 2019-01-04 | 齐鲁工业大学 | 一种挖掘正负序列规则的方法 |
CN109741140A (zh) * | 2018-12-30 | 2019-05-10 | 武汉市幸运坐标信息技术有限公司 | 一种电子商务*** |
CN110349678A (zh) * | 2019-07-19 | 2019-10-18 | 齐鲁工业大学 | 一种基于高效用正负序列规则挖掘的中药销售***及其工作方法 |
CN111291107A (zh) * | 2020-01-16 | 2020-06-16 | 华南理工大学 | 一种基于虚拟现实技术的渐进沉浸式视觉数据分析方法 |
WO2020258483A1 (zh) * | 2019-06-27 | 2020-12-30 | 齐鲁工业大学 | 一种基于高效的负序列挖掘模式的临床用药行为分析***及其工作方法 |
CN112307350A (zh) * | 2020-11-16 | 2021-02-02 | 哈尔滨工业大学 | 一种用户需求不明确情况下的服务推荐方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853282A (zh) * | 2010-05-20 | 2010-10-06 | 清华大学 | 用户跨网站购物模式信息的抽取***和方法 |
CN103700005A (zh) * | 2013-12-17 | 2014-04-02 | 南京信息工程大学 | 一种基于自适应多最小支持度的关联规则推荐方法 |
CN104063429A (zh) * | 2014-06-11 | 2014-09-24 | 深圳德协保税电子商务有限公司 | 电子商务中用户行为的预测方法 |
-
2015
- 2015-01-19 CN CN201510026256.4A patent/CN104504159B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853282A (zh) * | 2010-05-20 | 2010-10-06 | 清华大学 | 用户跨网站购物模式信息的抽取***和方法 |
CN103700005A (zh) * | 2013-12-17 | 2014-04-02 | 南京信息工程大学 | 一种基于自适应多最小支持度的关联规则推荐方法 |
CN104063429A (zh) * | 2014-06-11 | 2014-09-24 | 深圳德协保税电子商务有限公司 | 电子商务中用户行为的预测方法 |
Non-Patent Citations (4)
Title |
---|
常浩等: "多最小支持度关联规则挖掘研究", 《微计算机信息》 * |
张玉芳等: "含正负项目的基于位串频繁项集挖掘算法研究", 《控制与决策》 * |
董祥军等: "负关联规则的研究", 《北京理工大学学报》 * |
袁本刚等: "挖掘数据库中的负频繁模式", 《计算机工程与应用》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184618A (zh) * | 2015-10-20 | 2015-12-23 | 广州唯品会信息科技有限公司 | 新用户的商品个性化推荐方法及*** |
CN105354728A (zh) * | 2015-12-11 | 2016-02-24 | 北京京东尚科信息技术有限公司 | 优惠券推送方法和装置 |
CN105868314A (zh) * | 2016-03-25 | 2016-08-17 | 齐鲁工业大学 | 一种多支持度下的加权负序列模式数据挖掘方法 |
CN106384253A (zh) * | 2016-09-30 | 2017-02-08 | ***股份有限公司 | 一种银行卡交易中消费行为分析方法及装置 |
CN108429865B (zh) * | 2017-02-13 | 2020-10-16 | ***通信集团广东有限公司 | 一种产品推荐处理方法及装置 |
CN108429865A (zh) * | 2017-02-13 | 2018-08-21 | ***通信集团广东有限公司 | 一种产品推荐处理方法及装置 |
CN107515942A (zh) * | 2017-08-31 | 2017-12-26 | 齐鲁工业大学 | 非频繁序列中挖掘可决策负序列模式的购买行为分析方法 |
CN109146542A (zh) * | 2018-07-10 | 2019-01-04 | 齐鲁工业大学 | 一种挖掘正负序列规则的方法 |
CN109741140A (zh) * | 2018-12-30 | 2019-05-10 | 武汉市幸运坐标信息技术有限公司 | 一种电子商务*** |
WO2020258483A1 (zh) * | 2019-06-27 | 2020-12-30 | 齐鲁工业大学 | 一种基于高效的负序列挖掘模式的临床用药行为分析***及其工作方法 |
CN110349678A (zh) * | 2019-07-19 | 2019-10-18 | 齐鲁工业大学 | 一种基于高效用正负序列规则挖掘的中药销售***及其工作方法 |
WO2021012346A1 (zh) * | 2019-07-19 | 2021-01-28 | 齐鲁工业大学 | 一种基于高效用正负序列规则挖掘的中药销售***及其工作方法 |
CN111291107A (zh) * | 2020-01-16 | 2020-06-16 | 华南理工大学 | 一种基于虚拟现实技术的渐进沉浸式视觉数据分析方法 |
CN111291107B (zh) * | 2020-01-16 | 2023-06-16 | 华南理工大学 | 一种基于虚拟现实技术的渐进沉浸式视觉数据分析方法 |
CN112307350A (zh) * | 2020-11-16 | 2021-02-02 | 哈尔滨工业大学 | 一种用户需求不明确情况下的服务推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104504159B (zh) | 2018-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104504159A (zh) | 多支持度的正负序列模式在客户购买行为分析中的应用 | |
Emir et al. | Factors influencing online hotel booking intention: A conceptual framework from stimulus-organism-response perspective | |
CN102629360B (zh) | 一种有效的动态商品推荐方法及商品推荐*** | |
CN104574153A (zh) | 快速的负序列挖掘模式在客户购买行为分析中的应用 | |
CN104732419B (zh) | 正负序列模式筛选方法在客户购买行为分析中的应用 | |
CN104537553A (zh) | 重复负序列模式在客户购买行为分析中的应用 | |
CN111062768A (zh) | 一种网上商城的商品推荐方法及商品推荐*** | |
CN106469392A (zh) | 选择及推荐展示对象的方法及装置 | |
CN107563857B (zh) | 基于逻辑推理负关联规则修剪技术的客户购买行为分析方法 | |
JP6976207B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
Lin et al. | A consumer review-driven recommender service for web e-commerce | |
Mandić et al. | Restaurant online reputation and destination competitiveness: Insight into TripAdvisor data | |
CN107515942A (zh) | 非频繁序列中挖掘可决策负序列模式的购买行为分析方法 | |
Alatrista-Salas et al. | Impact of natural disasters on consumer behavior: Case of the 2017 El Niño phenomenon in Peru | |
Kim et al. | Recommender systems using SVD with social network information | |
US9542497B2 (en) | Information processing apparatus, information processing method, and information processing program | |
Kamaruddin | Comparative Study on Sentiment Analysis Approach for Online Shopping Review | |
Chen et al. | Boosting recommendation in unexplored categories by user price preference | |
Liao et al. | A rough set-based association rule approach implemented on a brand trust evaluation model | |
Türk | Factors affecting online shopping decision: customers in Turkey | |
Werke et al. | A systematic review of social media marketing during and after Covid-19 pandemic | |
Kumar et al. | Market Basket Analysis for Retail Sales Optimization | |
Liao et al. | Mining customer knowledge for channel and product segmentation | |
KR101983704B1 (ko) | 개인화 알고리즘을 이용한 사이트 추천 방법 및 개인화 알고리즘 서버 | |
Hu et al. | Utilizing users' tipping points in E-commerce Recommender systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20201030 Address after: 250101 3 / F, block B, Yinhe building, 2008 Xinluo street, hi tech Zone, Jinan City, Shandong Province Patentee after: SHANDONG ECLOUD INFORMATION TECHNOLOGY Co.,Ltd. Address before: 250353, 3501, University Road, Science Park, West Metro University, Ji'nan, Shandong, Changqing Patentee before: Qilu University of Technology |
|
TR01 | Transfer of patent right |