CN106251178A - 数据挖掘方法以及装置 - Google Patents
数据挖掘方法以及装置 Download PDFInfo
- Publication number
- CN106251178A CN106251178A CN201610642568.2A CN201610642568A CN106251178A CN 106251178 A CN106251178 A CN 106251178A CN 201610642568 A CN201610642568 A CN 201610642568A CN 106251178 A CN106251178 A CN 106251178A
- Authority
- CN
- China
- Prior art keywords
- commodity
- user
- purchase
- seed
- confidence level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0203—Market surveys; Market polls
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Marketing (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Game Theory and Decision Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种数据挖掘方法以及装置,涉及互联网数据挖掘技术领域。本发明的方法包括:根据商品的购买数据,选取商品的置信度满足第一预设值的种子商品,并添加至商品集合;根据购买种子商品的用户的置信度,选取用户的置信度满足第二预设值的种子用户;基于种子用户购买过的其他商品扩充商品集合;确定商品集合中各个种子商品的平均购买周期。本发明通过商品的置信度选取种子商品,并通过购买过种子商品的用户所购买的其他商品,来扩充商品集合,结合商品置信度和用户的置信度两个维度的参考条件以及协同处理,最终从海量的商品数据中,选出商品,并确定其购买周期。
Description
技术领域
本发明涉及互联网数据挖掘技术领域,特别涉及一种数据挖掘方法以及装置。
背景技术
消费活动中,很多商品都有固定的消费周期,有效识别商品购买周期对于企业组织生产、进行商品营销等具有重要促进作用。
现有技术中,通常人为选择一种或多种商品,根据购物频次和间隔进行平均值计算,从而确定出该商品的购物周期。
但是,随着互联网技术的发展,商品销售者,尤其是电商销售平台,拥有品类繁多的海量商品和数以亿计的庞大用户群,针对每一种商品计算购买周期,既并不现实也没有必要。因此,计算哪些商品的购买周期,是业界非常关心和必须面对的问题。
发明内容
本发明所要解决的一个技术问题是:从海量的商品数据中,如何选取商品,并计算其购买周期。
根据本发明的一个方面,提供的一种数据挖掘方法,包括:根据商品的购买数据,选取商品的置信度满足第一预设值的种子商品,并添加至商品集合;根据购买种子商品的用户的置信度,选取用户的置信度满足第二预设值的种子用户;基于种子用户购买过的其他商品扩充商品集合;确定商品集合中各个商品的平均购买周期。
在一个实施例中,商品的置信度根据商品的购买数量信息和购买周期信息确定。
在一个实施例中,商品的置信度采用以下方法确定:确定商品的购买总量信息;确定商品的购买周期的离散程度信息;根据商品的购买总量信息和购买周期的离散程度信息确定商品的置信度。
在一个实施例中,用户的置信度根据用户购买种子商品的数量信息和购买种子商品的周期信息确定。
在一个实施例中,用户的置信度采用以下方法确定:确定用户购买种子商品的购买总量信息;确定用户购买种子商品的购买周期的离散程度信息;根据购买总量信息和购买周期的离散程度信息确定用户的置信度。
在一个实施例中,基于种子用户购买过的其他商品扩充商品集合包括:从种子用户购买过的其他商品中选取商品的置信度高于第三预设值的商品,并添加至商品集合。
在一个实施例中,统计同一商品购买数量相同的用户的人数;计算人数占购买该商品的用户总数的频率占比;对频率占比按照购买数量由少到多的顺序进行累积得到累积占比;删除频率占比和累积占比符合预设条件的用户的商品购买数据,预设条件包括频率占比低于第一预设比例且累计比例达到第二预设比例。
在一个实施例中,商品的购买数据包括至少一项购买特征;该方法还包括:判断每项购买特征或购买特征的组合是否符合预设阈值,将不符合预设阈值的商品的购买数据删除。
在一个实施例中,商品的购买数据中包括归一化的购买数量,归一化的购买数量是根据商品的规格对购买数量进行归一化处理得到的。
在一个实施例中,归一化处理的方法包括:利用商品的规格乘以该规格的商品购买数量得到归一化的购买数量。
根据本发明的第二个方面,提供的一种数据挖掘装置,包括:种子商品选取模块,用于根据商品的购买数据,选取商品的置信度满足第一预设值的种子商品,并添加至商品集合;种子用户选取模块,用于根据购买种子商品的用户的置信度,选取用户的置信度满足第二预设值的种子用户;商品扩充模块,用于基于种子用户购买过的其他商品扩充商品集合;商品周期确定模块,用于确定商品集合中各个商品的平均购买周期。
在一个实施例中,商品置信度确定模块,用于根据商品的购买数量信息和购买周期信息确定商品的置信度。
在一个实施例中,商品置信度确定模块包括:购买总量确定单元,用于确定商品的购买总量信息;周期离散程度确定单元,用于确定商品的购买周期的离散程度信息;商品置信度确定单元,用于根据商品的购买总量信息和购买周期的离散程度信息确定商品的置信度。
在一个实施例中,用户置信度确定模块,用于根据用户购买种子商品的数量信息和购买种子商品的周期信息确定。
在一个实施例中,用户置信度确定模块包括:购买总量确定单元,用于确定用户购买种子商品的购买总量信息;周期离散程度确定单元,用于确定用户购买种子商品的购买周期的离散程度信息;用户置信度确定单元,用于根据购买总量信息和购买周期的离散程度信息确定用户的置信度。
在一个实施例中,商品扩充模块,用于从种子用户购买过的其他商品中选取商品的置信度高于第三预设值的商品,并添加至商品集合。
在一个实施例中,样本长尾截断模块,用于统计同一商品购买数量相同的用户的人数;计算人数占购买该商品的用户总数的频率占比;对频率占比按照购买数量由少到多的顺序进行累积得到累积占比;删除频率占比和累积占比符合预设条件的用户的商品购买数据,预设条件包括频率占比低于第一预设比例且累计比例达到第二预设比例。
在一个实施例中,商品的购买数据包括至少一项购买特征;该装置还包括:特征强度阈值筛选模块,用于判断每项购买特征或购买特征的组合是否符合预设阈值,将不符合预设阈值的商品的购买数据删除。
在一个实施例中,商品的购买数据中包括归一化的购买数量,归一化的购买数量是根据商品的规格对购买数量进行归一化处理得到的。
在一个实施例中,商品数量归一化模块,用于利用商品的规格乘以该规格的商品购买数量得到归一化的购买数量。
根据本发明的第三个方面,提供的一种数据挖掘装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器设备中的指令,执行前述人一个实施例中的数据挖掘方法。
本发明通过商品的置信度选取种子商品,并通过购买过种子商品的用户所购买的其他商品,来扩充商品集合,结合商品置信度和用户的置信度两个维度的参考条件以及协同处理,最终从海量的商品数据中,选出商品,并确定其购买周期。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本发明的一个实施例的数据挖掘装置的结构示意图。
图2示出本发明的另一个实施例的数据挖掘装置的结构示意图。
图3示出本发明的一个实施例的数据挖掘方法的流程示意图。
图4示出本发明的另一个实施例的数据挖掘方法的流程示意图。
图5示出本发明的又一个实施例的数据挖掘方法的流程示意图。
图6示出本发明的再一个实施例的数据挖掘方法的流程示意图。
图7示出本发明购买不同数量的商品的用户的频率占比和累积占比统计曲线。
图8示出本发明的又一个实施例的数据挖掘方法的流程示意图。
图9示出本发明的又一个实施例的数据挖掘装置的结构示意图。
图10示出本发明的再一个实施例的数据挖掘装置的结构示意图。
图11示出本发明的又一个实施例的数据挖掘装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对如何选取合适的商品,来统计这些商品的周期,用于营销活动的参考,提出本方案。
本发明的实施例中的数据挖掘装置可各由各种计算设备或计算机***来实现,下面结合图1以及图2进行描述。
图1为本发明数据挖掘装置的一个实施例的结构图。如图1所示,该实施例的装置10包括:存储器110以及耦接至该存储器110的处理器120,处理器120被配置为基于存储在存储器110中的指令,执行本发明中任意一个实施例中的数据挖掘方法。
其中,存储器110例如可以包括***存储器、固定非易失性存储介质等。***存储器例如存储有操作***、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。
图2为本发明数据挖掘装置的另一个实施例的结构图。如图2所示,该实施例的装置10包括:存储器110以及处理器120,还可以包括输入输出接口230、网络接口240、存储接口250等。这些接口230,240,750以及存储器110和处理器120之间例如可以通过总线260连接。其中,输入输出接口230为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口240为各种联网设备提供连接接口,例如可以连接到数据库服务器或者云端存储服务器等。存储接口250为SD卡、U盘等外置存储设备提供连接接口。
以下参考图3至图8描述本发明的数据挖掘方法。
图3为本发明数据挖掘方法一个实施例的流程图。如图3所示,该实施例的方法包括:
步骤S310,根据商品的购买数据,选取商品的置信度满足第一预设值的种子商品,并添加至商品集合。
其中,商品的购买数据例如为购买记录,包括:商品名称、购买数量、用户、购买时间、商品规格等。第一预设值可以是对商品的置信度设置的阈值,选取置信度满足该阈值的商品作为种子商品,也可以是预先设置要选取的种子商品的数量,按照商品置信度由高到低选取商品达到要选取的数量为止。例如要选取100个种子商品,则按照置信度由高到低,选取置信度高的前100个商品作为种子商品。
步骤S320,根据购买种子商品的用户的置信度,选取用户的置信度满足第二预设值的种子用户。
其中,根据商品的购买数据统计出购买过各个种子商品的用户,从购买每个种子商品的用户中选取置信度满足第二预设值的用户作为种子用户。第二预设值可以是对用户的置信度设置的阈值,也可以是预先设置要选取的种子用户的数量。
步骤S330,基于种子用户购买过的其他商品扩充商品集合。
其中,根据商品的购买数据统计出每个种子用户除了种子商品还购买过的其他商品,基于这些其他商品扩充商品集合。作为一种示例,从种子用户购买过的其他商品中选取商品的置信度高于第三预设值的商品,并添加至商品集合。第三预设值可以是对商品的置信度设置的阈值,也可以是预先设置要选取的商品的数量。
步骤S340,确定商品集合中各个种子商品的平均购买周期。
其中,商品的平均购买周期例如采用以下方法计算:针对每个用户计算其购买该商品的平均周期,将所有用户购买该商品的平均周期再计算均值得到商品的平均购买周期。例如,某种食用油,用户1平均每个月购买一桶,用户2平均每2个月购买一桶,则该商品的平均购买周期为1.5月/桶,作为一种示例,计算周期时可以利用事先有先后顺序的索引直接计算,例如,如果有递增的主键作为唯一编号如订单号、处置单号或客服工单号等,可以直接利用递增主键的差值确定购买先后顺序,并且按时间间隔计算周期。
本发明通过商品的置信度选取种子商品,并通过购买过种子商品的用户所购买的其他商品,来扩充商品集合,结合商品置信度和用户的置信度两个维度的参考条件以及协同处理,最终从海量的商品数据中,选出商品,并确定其购买周期。此外,由于这部分商品的选择既考虑了商品本身的销售特点,又考虑了用户的购买特点,因此,最终确定的这部分商品的周期对于销售方更具备参考意义,可以根据这些商品的购买周期更有效地开展商品的推广等营销活动。
对于商品集合中的商品数量可以预先设定阈值,并且可以通过高置信度的商品和高置信度的用户两个维度的信息循环扩充商品集合,直至集合中的商品数量达到阈值。下面结合图4进行描述。
图4为本发明数据挖掘方法另一个实施例的流程图。如图4所示,在步骤S330之后还可以包括:
步骤S331,判断商品集合中的数量是否达到阈值,如果是,则执行步骤S340,否则,执行步骤S332。
步骤S332,将商品集合中的商品作为种子商品,从步骤S320开始执行。
本发明还提供如何计算商品的置信度和用户的置信度的方法。
商品的置信度根据商品的购买数量信息和购买周期信息确定。具体的,商品的置信度采用以下方法确定:确定商品的购买总量信息;确定商品的购买周期的离散程度信息;根据商品的购买总量信息和购买周期的离散程度信息确定商品的置信度。
其中,商品的购买总量越大商品的置信度越高,发明人发现商品的购买量随时间变化并不呈线性增长,而是类似逻辑斯蒂(logistic)曲线,因此,对商品的购买总量取其对数值,更能反映商品的置信度。购买周期的离散程度越低则商品的置信度越高。商品的购买周期的离散程度信息例如通过变异系数来表示,变异系数为商品的平均购买周期除以购买周期的标准差,购买周期的标准差通过以下公式计算:其中,N表示购买该商品的用户的总数,为正整数,i为正整数,且1≤i≤N,Ti为用户i的购买周期,T为商品的平均购买周期。由于变异系数越大表示商品的购买周期离散性越大,意味着用户购买该商品的周期差异很大,商品的置信度就越低,因此,变异系数相对于商品的置信度为逆向指标,需要进行正向化处理,例如,采用公式xnew=max(x)-x,x表示该商品的变异系数,max(x)表示所有商品的最大的变异系数,xnew则为正向化后的变异系数。商品的置信度例如可以是将取对数值后的商品购买总量和正向化后的周期变异系数的加权。
用户的置信度根据用户购买种子商品的数量信息和购买种子商品的周期信息确定。具体的,用户的置信度采用以下方法确定:确定用户购买种子商品的购买总量信息;确定用户购买种子商品的购买周期的离散程度信息;根据购买总量信息和购买周期的离散程度信息确定用户的置信度。
其中,针对每一种种子商品计算用户的置信度。用户购买某种种子商品的总量越大,则用户的针对该商品的置信度越高,用户的购买总量同样取对数值。用户购买某种种子商品的购买周期的离散程度越低,则用户的针对该商品的置信度越高。用户的购买周期的离散程度例如通过变异系数来表示,变异系数为用户该买该种子商品的平均购买周期除以购买周期的标准差,购买周期的标准差通过以下公式计算:其中,N表示用户的购买该种子商品的总次数,为正整数,j为正整数,且1≤j≤N,Tj为用户第j次的购买该种子商品和第j-1次购买该种子商品的时间间隔,T为商品的平均购买周期。对变异系数进行正向化处理,例如,采用公式xnew=max(x)-x,x表示该用户的周期变异系数,max(x)表示购买该种子商品所有用户的最大的变异系数,xnew则为正向化后的变异系数。用户针对该种子商品的置信度例如是将取对数值后的购买总量和正向化后的周期变异系数的加权。
本发明在执行前述实施例的方法之前还可以根据需求对商品的购买数据进行预处理,下面结合图5至图8进行描述。
图5为本发明数据挖掘方法又一个实施例的流程图。如图5所示,在步骤S310之前还包括:
步骤S502,可选的,根据商品的规格对商品购买数量进行归一化处理。
作为一种示例,归一化处理的方法为利用商品的规格乘以该规格的商品购买数量得到归一化的购买数量。其中,商品的规格例如为大小、重量等。例如,某食用油包括1升、5升和10升3个规格,购买10个1升的该食用油、2个5升的该食用油或者1个10升的该食用油的归一化的购买数量是相同的:1×10=5×2=10×1。同理,在计算商品的购买周期时,根据归一化的购买数量对购买周期进行归一化,例如,购买1个5升的该食用油的时间间隔为15天或者购买1个10升的该食用油的时间间隔均为30天,则归一化的购买周期为:
上述实施例根据商品的规格对购买数量进行归一化,可以有效解决由于商品规格不统一造成的商品的购买周期计算不准确的问题,提高商品购买周期的计算精度,选出更为合适的商品。
图6为本发明数据挖掘方法再一个实施例的流程图。如图6所示,在步骤S502之后,步骤S310之前还包括:
步骤S604,可选的,根据用户购买商品的数量对商品购买数据进行长尾截断。具体包括:统计同一商品购买数量相同的用户的人数。计算该人数占购买该商品的用户总数的频率占比。对频率占比按照购买数量由少到多的顺序进行累积得到累积占比。删除频率占比和累积占比符合预设条件的用户的商品购买数据,预设条件包括频率占比低于第一预设比例且累计比例达到第二预设比例。
下面结合表1和图7描述步骤S604的一个应用例。
如表1所示为某种商品的用户购买数量的统计情况,图7为对应的购买不同数量的商品的用户的频率占比和累积占比统计曲线。如图7中所示,带方形标记的曲线为购买不同数量的商品的用户的频率占比曲线,带圆点标记的曲线为购买不同数量的商品的用户的累积占比曲线。如表1和图7中所示,对一段时间内的该商品的购买数据进行统计,按照购买数量从小到大对用户的人数、频率占比和累积占比进行统计,发现购买数量为2500的用户的累计占比达到94.25%,而对应的频率占比仅为1.33%,购买数量在2500以上的用户的累计占比更高,而对应的频率占比更低。此时,可以将购买数量大于2500的用户的购买数据删除。这部分购买数量很大的用户占总体用户很小的一部分,可能会是一些特殊的需求导致(比如批发商囤货),不符合一般用户的行为,在统计意义上讲,普通用户和批发商来自两个不同的用户总体,其行为模式和购买周期差异会很大。如果用所有用户的购买数据计算商品购买周期,会造成很大的误差,因此将这部分用户的购买数据删除。其中,频率占比的第一预设比例和累计比例达的第二预设比例可以根据经验值进行预先设置。购买数量可以是归一化的购买数量。
上述实施例将商品的购买数据中不符合普通用户购买行为的购买数据进行了删除,进一步提高了商品的购买周期的计算精度。
图8为本发明数据挖掘方法再一个实施例的流程图。如图6所示,在步骤S604之后,步骤S310之前还包括:
步骤S806,可选的,判断商品的购买数据中每项购买特征或购买特征的组合是否符合预设阈值,将不符合预设阈值的商品的购买数据删除。
其中,商品的购买数据例如包括:商品名称、归一化的购买数量、用户、购买时间等。可以从商品名称和用户两个不同的纬度判断其他购买特征或购买特征的组合是否符合预设阈值。例如,根据商品名称统计商品的购买人数,如果某种商品购买人数过少,则可能是小众商品,或者新品上市,或者偶然的随机性购买,显然针对这种商品统计其购买周期并没有什么意义,则对该商品的所有购买数据进行删除。再例如,根据用户统计其购买某种商品的总量,如果购买总量过少,则用户可能为新用户或者偶然购买该商品的用户,显然该用户的购买数据对于统计该商品的购买周期具有不利的影响,则对该用户的所有购买数据进行删除。还可以根据不同的需求对不同的购买特征设定阈值,也可以组合多种购买特征判断是否符合阈值,并对商品数据进行处理,其中,阈值的设定可以根据经验设定也可以通过离线训练得到。
上述实施例,通过对购买数据中的每个特征设置阈值,从商品和用户两个维度针对不同的特征对商品的购买数据进行处理,将对于计算商品周期具有不利影响的商品数据进行删除,进一步提高了商品周期的计算精度。
本发明中还可以根据不同的需求,输出商品集合中各个商品的平均购买周期或者输出特定类型的用户对特定商品的购买周期。
例如,针对某种食用油置信度较高的用户对于该食用油的购买周期。也按照需求可以针对某一用户输出其对某一种商品的购买周期。本领域技术人员能够理解,根据商品的购买数据获得商品的购买周期或者用户的购买周期都是可以实现的。
以下参考图9至图11描述本发明的数据挖掘装置。
图9为本发明数据挖掘装置一个实施例的结构示意图。如图9所示,该装置90包括:
种子商品选取模块910,用于根据商品的购买数据,选取商品的置信度满足第一预设值的种子商品,并添加至商品集合。
种子用户选取模块920,用于根据购买种子商品的用户的置信度,选取用户的置信度满足第二预设值的种子用户.
商品扩充模块930,用于基于种子用户购买过的其他商品扩充商品集合。
其中,商品扩充模块930,用于从种子用户购买过的其他商品中选取商品的置信度高于第三预设值的商品,并添加至商品集合。
商品周期确定模块940,用于确定商品集合中各个商品的平均购买周期。
本发明的数据挖掘装置还能够计算商品置信度和用户置信度下面结合图10描述相应的装置。
图10为本发明数据挖掘装置另一个实施例的结构示意图。如图10所示,该装置90还包括:商品置信度确定模块1050和用户置信度确定模块1060。
商品置信度确定模块1050,用于根据商品的购买数量信息和购买周期信息确定商品的置信度,并将商品的置信度输入种子商品选取模块910。
具体的,商品置信度确定模块1050包括:购买总量确定单元,用于确定商品的购买总量信息;周期离散程度确定单元,用于确定商品的购买周期的离散程度信息;商品置信度确定单元,用于根据商品的购买总量信息和购买周期的离散程度信息确定商品的置信度。其中,商品的购买总量越大、购买周期的离散程度越低则商品的置信度越高。
用户置信度确定模块1060,用于根据用户购买种子商品的数量信息和购买种子商品的周期信息确定,并将用户的置信度输入用户商品选取模块920。
具体的,用户置信度确定模块1060包括:购买总量确定单元,用于确定用户购买种子商品的购买总量信息;周期离散程度确定单元,用于确定用户购买种子商品的购买周期的离散程度信息;用户置信度确定单元,用于根据购买总量信息和购买周期的离散程度信息确定用户的置信度。
本发明的数据挖掘装置还能够根据需求对商品的购买数据进行预处理,下面结合图11进行描述。
图11为本发明数据挖掘装置另一个实施例的结构示意图。如图11所示,可选的,该装置90还包括:商品数量归一化模块1170、样本长尾截断模块1180、特征强度阈值筛选模块1190中的一个或多个。
商品数量归一化模块1170,用于根据商品的规格对商品购买数量进行归一化处理。
本发明实施例中用到的商品的购买数量包括归一化的购买数量,具体的,商品数量归一化模块1170,用于利用商品的规格乘以该规格的商品购买数量得到归一化的购买数量。
样本长尾截断模块1180,用于统计同一商品购买数量相同的用户的人数;计算人数占购买该商品的用户总数的频率占比;对频率占比按照购买数量由少到多的顺序进行累积得到累积占比;删除频率占比和累积占比符合预设条件的用户的商品购买数据,预设条件包括频率占比低于第一预设比例且累计比例达到第二预设比例。
特征强度阈值筛选模块1190,用于判断每项购买特征或购买特征的组合是否符合预设阈值,将不符合预设阈值的商品的购买数据删除。
其中,商品的购买数据包括至少一项购买特征。
对于商品集合中的商品数量可以预先设定阈值,并且可以通过高置信度的商品和高置信度的用户两个维度的信息循环扩充商品集合,直至集合中的商品数量达到阈值。
该装置90还可以包括:商品数量判断模块1103,用于判断商品集合中的商品数量是否达到阈值,如果没有,则将商品集合中的商品作为种子商品输入种子用户选取模块920。。
该装置90还可以包括:输入模块1101和输出模块1102。
输入模块1101,用于输入商品的购买数据。
输出模块1102,用于输出商品集合中各个商品的平均购买周期或者输出特定类型的用户对特定商品的购买周期。
例如,针对某种食用油置信度较高的用户对于该食用油的购买周期。也按照需求可以针对某一用户输出其对某一种商品的购买周期。本领域技术人员能够理解,根据商品的购买数据获得商品的购买周期或者用户的购买周期都是可以实现的。
本领域内的技术人员应当明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (21)
1.一种数据挖掘方法,其特征在于,包括:
根据商品的购买数据,选取商品的置信度满足第一预设值的种子商品,并添加至商品集合;
根据购买所述种子商品的用户的置信度,选取用户的置信度满足第二预设值的种子用户;
基于种子用户购买过的其他商品扩充所述商品集合;
确定所述商品集合中各个种子商品的平均购买周期。
2.根据权利要求1所述的方法,其特征在于,
商品的置信度根据商品的购买数量信息和购买周期信息确定。
3.根据权利要求2所述的方法,其特征在于,
所述商品的置信度采用以下方法确定:
确定商品的购买总量信息;
确定商品的购买周期的离散程度信息;
根据商品的购买总量信息和购买周期的离散程度信息确定商品的置信度。
4.根据权利要求1所述的方法,其特征在于,
用户的置信度根据用户购买种子商品的数量信息和购买种子商品的周期信息确定。
5.根据权利要求4所述的方法,其特征在于,
所述用户的置信度采用以下方法确定:
确定用户购买种子商品的购买总量信息;
确定用户购买种子商品的购买周期的离散程度信息;
根据所述购买总量信息和购买周期的离散程度信息确定用户的置信度。
6.根据权利要求1所述的方法,其特征在于,
所述基于种子用户购买过的其他商品扩充所述商品集合包括:
从种子用户购买过的其他商品中选取商品的置信度高于第三预设值的商品,并添加至所述商品集合。
7.根据权利要求1所述的方法,其特征在于,还包括:
统计同一商品购买数量相同的用户的人数;
计算所述人数占购买该商品的用户总数的频率占比;
对所述频率占比按照购买数量由少到多的顺序进行累积得到累积占比;
删除所述频率占比和累积占比符合预设条件的用户的商品购买数据,所述预设条件包括频率占比低于第一预设比例且累计比例达到第二预设比例。
8.根据权利要求1所述的方法,其特征在于,
商品的购买数据包括至少一项购买特征;
所述方法还包括:
判断每项购买特征或购买特征的组合是否符合预设阈值,将不符合预设阈值的商品的购买数据删除。
9.根据权利要求1-8任一项所述的方法,其特征在于,
商品的购买数据中包括归一化的购买数量,所述归一化的购买数量是根据商品的规格对购买数量进行归一化处理得到的。
10.根据权利要求9所述的方法,其特征在于,
归一化处理的方法包括:
利用商品的规格乘以该规格的商品购买数量得到归一化的购买数量。
11.一种数据挖掘装置,其特征在于,包括:
种子商品选取模块,用于根据商品的购买数据,选取商品的置信度满足第一预设值的种子商品,并添加至商品集合;
种子用户选取模块,用于根据购买所述种子商品的用户的置信度,选取用户的置信度满足第二预设值的种子用户;
商品扩充模块,用于基于种子用户购买过的其他商品扩充所述商品集合;
商品周期确定模块,用于确定所述商品集合中各个商品的平均购买周期。
12.根据权利要求11所述的装置,其特征在于,还包括:
商品置信度确定模块,用于根据商品的购买数量信息和购买周期信息确定商品的置信度。
13.根据权利要求12所述的装置,其特征在于,所述商品置信度确定模块包括:
购买总量确定单元,用于确定商品的购买总量信息;
周期离散程度确定单元,用于确定商品的购买周期的离散程度信息;
商品置信度确定单元,用于根据商品的购买总量信息和购买周期的离散程度信息确定商品的置信度。
14.根据权利要求11所述的装置,其特征在于,还包括:
用户置信度确定模块,用于根据用户购买种子商品的数量信息和购买种子商品的周期信息确定。
15.根据权利要求14所述的装置,其特征在于,所述用户置信度确定模块包括:
购买总量确定单元,用于确定用户购买种子商品的购买总量信息;
周期离散程度确定单元,用于确定用户购买种子商品的购买周期的离散程度信息;
用户置信度确定单元,用于根据所述购买总量信息和购买周期的离散程度信息确定用户的置信度。
16.根据权利要求11所述的装置,其特征在于,
所述商品扩充模块,用于从种子用户购买过的其他商品中选取商品的置信度高于第三预设值的商品,并添加至所述商品集合。
17.根据权利要求11所述的装置,其特征在于,还包括:
样本长尾截断模块,用于统计同一商品购买数量相同的用户的人数;计算所述人数占购买该商品的用户总数的频率占比;对所述频率占比按照购买数量由少到多的顺序进行累积得到累积占比;删除所述频率占比和累积占比符合预设条件的用户的商品购买数据,所述预设条件包括频率占比低于第一预设比例且累计比例达到第二预设比例。
18.根据权利要求11所述的装置,其特征在于,
商品的购买数据包括至少一项购买特征;
所述装置还包括:
特征强度阈值筛选模块,用于判断每项购买特征或购买特征的组合是否符合预设阈值,将不符合预设阈值的商品的购买数据删除。
19.根据权利要求11-18任一项所述的装置,其特征在于,
商品的购买数据中包括归一化的购买数量,所述归一化的购买数量是根据商品的规格对购买数量进行归一化处理得到的。
20.根据权利要求19所述的装置,其特征在于,还包括:
商品数量归一化模块,用于利用商品的规格乘以该规格的商品购买数量得到归一化的购买数量。
21.一种数据挖掘装置,其特征在于,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器设备中的指令,执行如权利要求1-10任一项所述的数据挖掘方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610642568.2A CN106251178A (zh) | 2016-08-08 | 2016-08-08 | 数据挖掘方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610642568.2A CN106251178A (zh) | 2016-08-08 | 2016-08-08 | 数据挖掘方法以及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106251178A true CN106251178A (zh) | 2016-12-21 |
Family
ID=58078338
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610642568.2A Pending CN106251178A (zh) | 2016-08-08 | 2016-08-08 | 数据挖掘方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106251178A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107679896A (zh) * | 2017-09-22 | 2018-02-09 | 北京京东尚科信息技术有限公司 | 基于时序‑截面模型的评估方法和评估*** |
CN108345620A (zh) * | 2017-01-24 | 2018-07-31 | 北京京东尚科信息技术有限公司 | 品牌信息处理方法、装置、存储介质及电子设备 |
CN108492142A (zh) * | 2018-03-28 | 2018-09-04 | 联想(北京)有限公司 | 一种计算订货规律的方法、装置和服务器组 |
CN108898425A (zh) * | 2018-06-14 | 2018-11-27 | 口碑(上海)信息技术有限公司 | 店铺质量的评价方法及装置 |
CN111080411A (zh) * | 2019-12-17 | 2020-04-28 | 深圳市梦网百科信息技术有限公司 | 一种基于网络中心度的商品推送方法、***及终端设备 |
CN113760997A (zh) * | 2021-09-10 | 2021-12-07 | 成都知道创宇信息技术有限公司 | 数据置信度计算方法及装置、计算机设备和可读存储介质 |
-
2016
- 2016-08-08 CN CN201610642568.2A patent/CN106251178A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108345620A (zh) * | 2017-01-24 | 2018-07-31 | 北京京东尚科信息技术有限公司 | 品牌信息处理方法、装置、存储介质及电子设备 |
CN108345620B (zh) * | 2017-01-24 | 2021-05-25 | 北京京东尚科信息技术有限公司 | 品牌信息处理方法、装置、存储介质及电子设备 |
CN107679896A (zh) * | 2017-09-22 | 2018-02-09 | 北京京东尚科信息技术有限公司 | 基于时序‑截面模型的评估方法和评估*** |
CN107679896B (zh) * | 2017-09-22 | 2021-06-29 | 北京京东尚科信息技术有限公司 | 基于时序-截面模型的评估方法和评估*** |
CN108492142A (zh) * | 2018-03-28 | 2018-09-04 | 联想(北京)有限公司 | 一种计算订货规律的方法、装置和服务器组 |
CN108898425A (zh) * | 2018-06-14 | 2018-11-27 | 口碑(上海)信息技术有限公司 | 店铺质量的评价方法及装置 |
CN111080411A (zh) * | 2019-12-17 | 2020-04-28 | 深圳市梦网百科信息技术有限公司 | 一种基于网络中心度的商品推送方法、***及终端设备 |
CN111080411B (zh) * | 2019-12-17 | 2023-09-15 | 深圳市梦网视讯有限公司 | 一种基于网络中心度的商品推送方法、***及终端设备 |
CN113760997A (zh) * | 2021-09-10 | 2021-12-07 | 成都知道创宇信息技术有限公司 | 数据置信度计算方法及装置、计算机设备和可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106251178A (zh) | 数据挖掘方法以及装置 | |
EP3528142A1 (en) | Method for accurately searching within website | |
CN108205768A (zh) | 数据库建立方法和数据推荐方法及装置、设备和存储介质 | |
CN104239338A (zh) | 信息推荐方法及装置 | |
CN105184600A (zh) | 一种基于规则和操作的电商平台价格引擎实现方法 | |
CN104715409A (zh) | 一种电子商务用户购买力分类方法及*** | |
CN103778553A (zh) | 一种商品属性推荐方法及*** | |
CN110489481B (zh) | 行业数据的数据分析方法、装置及数据分析服务器 | |
CN104615721B (zh) | 用于基于退货关联信息推荐商品的方法和*** | |
CN109711931A (zh) | 基于用户画像的商品推荐方法、装置、设备及存储介质 | |
CN110852818A (zh) | 商品排序方法、装置和计算机可读存储介质 | |
JP2019525280A (ja) | 商品レコメンドの方法・装置・設備及びコンピュータ可読記憶媒体 | |
CN104809637A (zh) | 计算机实现的商品推荐方法及*** | |
CN108875048B (zh) | 报表生成方法、装置、电子设备及可读存储介质 | |
CN112036631B (zh) | 采购量确定方法、装置、设备及存储介质 | |
CN102222285B (zh) | 多维度数据联动计算装置和多维度数据联动计算方法 | |
CN111695979A (zh) | 一种原材料与成品的关系分析方法、装置及设备 | |
CN102592237A (zh) | 基于电子商务网络平台的商品质押价格评估方法及*** | |
CN110688433B (zh) | 一种基于路径的特征生成方法及装置 | |
CN113065882A (zh) | 一种商品处理方法、装置及电子设备 | |
CN105303447A (zh) | 利用网络信息进行信用评级的方法和*** | |
CN115797005A (zh) | 预测模型的训练、商品推荐方法、装置、电子设备及介质 | |
CN109840788A (zh) | 用于分析用户行为数据的方法及装置 | |
CN114331594A (zh) | 一种商品推荐方法 | |
CN105808625A (zh) | 单据数据的处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161221 |
|
RJ01 | Rejection of invention patent application after publication |