CN106846082A - 基于硬件信息的旅游冷启动用户产品推荐***及方法 - Google Patents
基于硬件信息的旅游冷启动用户产品推荐***及方法 Download PDFInfo
- Publication number
- CN106846082A CN106846082A CN201611134210.5A CN201611134210A CN106846082A CN 106846082 A CN106846082 A CN 106846082A CN 201611134210 A CN201611134210 A CN 201611134210A CN 106846082 A CN106846082 A CN 106846082A
- Authority
- CN
- China
- Prior art keywords
- data
- cold
- arithmetic elements
- tourism
- cold start
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 239000013598 vector Substances 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 239000000284 extract Substances 0.000 claims abstract description 7
- 238000005457 optimization Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 26
- 238000005070 sampling Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 3
- 230000006978 adaptation Effects 0.000 abstract description 2
- 230000003542 behavioural effect Effects 0.000 abstract description 2
- 230000004927 fusion Effects 0.000 abstract description 2
- 230000006872 improvement Effects 0.000 description 13
- 230000006399 behavior Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0255—Targeted advertisements based on user history
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0269—Targeted advertisements based on user profile or attribute
- G06Q30/0271—Personalized advertisement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/14—Travel agencies
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Tourism & Hospitality (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于硬件信息的旅游冷启动用户产品推荐***及相应的推荐方法,***包括数据预处理模块、算法模块和预测模块,数据预处理模块包括数据提取单元,数据向量化单元和数据序列化单元,所述运算模块包括Canopy运算单元、Kmeans运算单元、和RF运算单元,本发明利用用户的行为信息,采用多算法融合的方式,以硬件为样本,以产品的行为为特征提取并建模,对硬件的组合给予推荐,无需产品信息就可以为新用户给予个性化推荐,提升用户体验。由于用每日最新的用户偏好数据得到各单元最新的输出,定期对算法模块各算法超参数取值进行更新,不断的自我优化,自适应不同的数据,保证了***推荐的准确性和可靠度,更为高效。
Description
技术领域
本发明属于计算机数据处理技术领域,具体涉及一种针对冷启动用户的基于硬件信息的产品推荐***及推荐方法。
背景技术
目前,个性化推荐在各***平台中的应用越来越普遍。已有的推荐方式主要为根据用户的历史操作行为记录分析用户的兴趣爱好,根据用户的兴趣爱好,将与用户兴趣爱好对应的产品推荐给用户。这种方式不仅能够提升产品销售率,也能够提升用户好感度,一举两得。但是针对冷启动用户——即新用户,由于缺乏这些用户的历史操作行为记录,无法根据用户的历史数据进行个性化推荐。因此,目前针对冷启动用户多采用以下方式进行推荐:
1、使用热门推荐,对所有用户给出相同的推荐结果。显然,这种推荐方式完全无法满足用户的个性化需求,而且热门推荐产品的曝光率极低,难以提升全站的成交量以及新产品的曝光量。
2、邀请业务人员或产品经理,人工对新用户分组,并对每个分组制定推荐结果。但这种方式需要人工定期更新分组和推荐结果,不仅需要耗费大量的人力成本,而且不能应对海量数据,不能及时处理新特征用户,效率低下,推荐的产品也较为单一、规模较小。
3、根据用户的注册信息或提示问题给予推荐。这种推荐方式由于信息收集不全,推荐产品的个性化特征也不明显。
发明内容
为解决上述问题,本发明公开了一种更灵活可靠的用于新用户推荐的***及推荐方法,通过先聚类后分类的方法实现对新用户的分类,并推荐对应类别的热门商品。
为了达到上述目的,本发明提供如下技术方案:
一种基于硬件信息的旅游冷启动用户产品推荐***,包括数据预处理模块、算法模块和预测模块,
所述数据预处理模块包括数据提取单元,数据向量化单元和数据序列化单元,
所述数据提取单元用于基于时间维度选定有历史行为的用户数据,提取对应的冷启信息组合,对应浏览的产品及PV数,得到用户偏好数据表;所述数据向量化单元用于通过数据矩阵化方法,以用户偏好数据表作为基础,利用冷启信息组合作为分析对象,将线路编号做为该冷启信息组合的特征,得到冷启信息组合和所有产品列表的对应关系;所述数据序列化单元用于对数据向量化单元处理后的冷启信息组合和产品列表对应关系表进行序列化;
所述运算模块包括Canopy运算单元、Kmeans运算单元、和RF运算单元,
所述Canopy运算单元用于对冷启动数据序列化矩阵数据进行运算后得到中心点文件,Kmeans运算单元对Canopy运算单元得到的中心点进行进一步优化得到更准确的中心点,RF运算单元用于根据Kmeans运算单元得到的中心点聚类结果,通过随机抽样得到RF模型训练数据,利用交差验证的方法,得到最佳RF预测模型;
所述Kmeans运算单元用于根据Canopy得到的中心点文件计算类中心,Kmeans运算单元还包括ClustrClassifier子单元,ClustrClassifier子单元用于根据数据预处理模块得到的物品被浏览的矩阵化数据和Kmeans得到的中心点文件进行计算,遍历计算矩阵中每一条矢量与各中点距离,用最小值作为判断矢量所属类别的标志,并将类别标号赋值给对应的冷启信息组合,对冷启信息进行聚类,同时计算每个类别下最热门的物品;
所述预测模块用于将在线数据输入RF预测模型,得到返回的预测类别,并调取热门物品列表。
作为本发明的进一步改进,在Canopy运算单元中,预先设定合适的clusterFilter去除聚类结果中包含样本个数较少的中心点。
作为本发明的进一步改进,在ClusterClassifier子单元进行聚类输出结果后,还通过调整Canopy的参数增大类间距离与类内距离的比值。
作为本发明的进一步改进,预测模块根据具体设置的过滤条件从推荐列表中筛选出特定属性的物品。
一种基于硬件信息的旅游冷启动用户产品推荐方法,包括如下步骤:
步骤1:基于时间维度选定有历史行为的用户数据,提取对应的冷启信息组合,对应浏览的产品及PV数,得到用户偏好数据表;
步骤2:通过数据矩阵化方法,以用户偏好数据表作为基础,利用冷启信息组合作为分析对象,将冷启信息组合的线路编号做为该冷启信息组合的特征,得到冷启信息组合和所有产品列表的对应关系作为矩阵数据;
步骤3:对步骤2中的矩阵数据进行序列化;
步骤4: 通过Canopy算法得到初始聚类中心点文件,包括聚类数量和类中心的位置。作为该步骤的改进,应预先设定合适的clusterFilter,去除聚类结果中的孤立中心点;
步骤5:将步骤3得到的物品被浏览的序列化数据和步骤4得到的中心点文件,通过Mahout平台得到Kmeans计算后的中心点数据;
步骤6:获得步骤2得到的物品被浏览的矩阵化数据和步骤5得到的中心点文件,遍历计算矩阵中每一条矢量与各中点距离,用最小值作为判断矢量所属类别的标志,将类别标号赋值给对应的冷启信息组合,实现对冷启信息的聚类,并生成每个类别中热门的物品;
步骤7:获得步骤6得到的冷启动组合信息及其所属分类,通过随机抽样得到RF模型训练数据,利用交差验证的方法,验证RF模型的输出结果的准确性,结合平台资源的限制调整RF模型中树的数目和树的深度,并且使准确性在可接受范围内,最终得到RF模型并储存下来;
步骤8:接收在线冷启数据并通过接口将数据转发到RF模型,在得到返回的预测类别后,向存储各类别热门物品模块发出请求,调取热门物品列表。
作为本发明的进一步改进,所述步骤4中预先设定合适的clusterFilter去除聚类结果中包含样本个数较少的中心点。
作为本发明的改进,所述步骤6中还通过调整参数增大比较类间距离与类内距离的比值。
作为本发明的改进,所述步骤8中还根据具体设置的过滤条件从推荐列表中筛选出特定属性的物品。
与现有技术相比,本发明具有如下优点和有益效果:
本发明利用用户的行为信息,采用多算法融合的方式,以硬件为样本,以产品的行为为特征提取并建模,对硬件的组合给予推荐,无需产品信息就可以为新用户给予个性化推荐,提升用户体验,进而提升购买的转化率。由于用每日最新的用户偏好数据得到各运算模块单元最新的输出,定期对算法模块各算法超参数取值进行更新,不断的自我优化,自适应不同的数据,保证了***推荐的准确性和可靠度,更为高效。同时,使用人员可以自行选择用户冷启的信息维度,可以自行选择样本数据的大小以及样本数据的时间范围,满足***配置化需求。
附图说明
图1为本发明提供的基于硬件信息的旅游冷启动用户产品推荐***架构图。
图2为数据提取单元得到的用户偏好数据表。
图3为数据向量化单元冷启信息组合和所有产品列表的对应关系矩阵。
图4为Canopy运算单元得到的初始聚类中心点。
图5为Kmeans运算单元得到的类中心。
图6为ClusterClassifier子单元得到的聚类结果。
图7为本发明提供的基于硬件信息的旅游冷启动用户产品推荐方法流程图。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
一种基于硬件信息的旅游冷启动用户产品推荐***,如图1所示,包括数据预处理模块、运算模块和预测模块。数据预处理模块用于对有历史行为的用户数据进行提取和预处理,得到序列化的用户偏好数据矩阵,该矩阵中包括冷启动信息;运算模块用于对数据预处理模块得到的数据矩阵进行聚类运算,从而对冷启动信息进行分类并获得各类别中热门的物品,并且得到对新用户进行分类的预测模型;预测模块用于获取在线冷启动数据,通过调用运算模块得到的预测模型获得预测类别,并进一步调取热门物品列表。
数据预处理模块包括数据提取单元,数据向量化单元和数据序列化单元。数据提取单元基于时间维度选定有历史行为的用户数据,提取对应的冷启信息组合(如终端硬件信息,App版本号,所在城市等等),对应浏览的产品及PV数(流量数),得到用户偏好数据表。用户偏好数据表结构如图2所示,其中hwinfo代表冷启信息组合信息、dest_id代表产品(主线路)编号、num代表使用该硬件的用户对该产品的流量数。数据向量化单元用于预处理数据,通过数据矩阵化方法,以图2中的用户偏好数据表作为基础,利用冷启信息组合作为分析对象,将图2中冷启信息组合的线路编号做为该冷启信息组合的特征,得到冷启信息组合和所有产品列表的对应关系如图3所示,图3中各线路编号特征下的数值即为各冷启信息组合针对该线路的流量数。数据序列化单元对数据向量化单元处理后的冷启信息组合和产品列表对应关系表进行序列化,通过Mahout序列化函数实现,具体采用Mahout自定义的向量的序列化-org.apache.mahout.math.SequentialAccessSparseVector,将内存中的对象数据保存到磁盘中,省去了每次读取原始数据(磁盘)转化为java对象(到内存)的大规模消耗,从而能够提高大数据高纬度下运算的效率。
运算模块包括Canopy运算单元、Kmeans运算单元、和RF运算单元,其中Canopy运算单元用于对冷启动数据序列化矩阵数据进行运算后得到中心点文件,Kmeans运算单元对Canopy运算单元得到的中心点进行进一步优化得到更准确的中心点,RF运算单元用于根据Kmeans运算单元得到的中心点聚类结果,得到RF模型。
Canopy运算单元将预处理模块得到的物品被浏览的数据序列化矩阵(图3)为输入,通过计算矩阵中一般相似项的距离得到T2初始值,以此为基础得到Canopy模型T1,T2,clusterFilter参数的初始设置。具体的说,Canopy运算单元通过计算所有点之间的距离并作出三维散点图分析所有点(一个点代表矩阵中的一行数据)的分布状态,然后根据经验选择合适的T1和T2,T1一般不超过两点间的最大距离,T2初始选择所有点的平均距离的1/2然后根据实验的结果进行微调,以使得聚类数量和每个类的大小都能接受。最终,通过Canopy运算单元得到初始聚类中心点文件,如图4所示,从而明确Kmeans算法中需要的聚类数量和类中心的位置。作为Canopy运算单元的改进,优选在Canopy运算单元中,预先设定合适的clusterFilter(根据经验设定,本例中我们认为低于50个点的类对于我们的推荐没有太大帮助的,因此应被过滤),这样能够去除聚类结果中包含样本个数较少的中心点,以避免后续Kmeans聚类时出现某一类别是空值的情况,提高聚类结果的可靠性。
Kmeans运算单元中,与通常的用Kmeans为每个点聚类用Kmeans算法计算类中心不同,本发明将物品被浏览的序列化数据(图3)和Canopy得到的中心点文件(图4)作为Kmeans运算单元的输入,用Kmeans运算单元根据Canopy得到的中心点文件(图4)计算类中心,得到的类中心如图5所示,并被存储下来。Kmeans运算单元中的ClusterClassifier子单元根据物品被浏览的矩阵化数据(图3)和Kmeans得到的中心点文件(图5)进行计算,遍历计算矩阵中每一条矢量与各中点距离,用最小值作为判断矢量所属类别的标志,并将类别标号赋值给对应的冷启信息组合,同时计算每个类别下最热门的物品,其中最热门的判断标准为用户流量和购买量。通过ClusterClassifier子单元能够实现对冷启信息的聚类,并生成每个类别中热门的物品,聚类结果和各类别中的热门物品被存储下来,聚类结果如图6(图中一个原始点对应图3中一行数据)所示。这样采用分布式的ClusterClassifier方法并行的为大量的中心点进行分类,能够提高效率并可应用到实时的场景中。作为本发明的进一步改进,在ClusterClassifier子单元进行聚类输出结果后,通过计算类间距离与类内距离的比值判断聚类效果。随后,通过调整Canopy的参数(可调整的参数以T1,T2为主,奇异点阈值作为辅助)不断增大比值,使得类与类之间更分离,而同一类内样本更凝聚。通过判断距离比值,我们使得RF自测的准确率从70%提升到90%以上。
RF运算单元获得ClusterClassifier得到的冷启动组合信息及其所属分类后,通过随机抽样得到RF模型训练数据,利用交差验证的方法,验证RF模型的输出结果准确性。结合平台资源的限制和模型的准确率要求,调整RF模型中树的数目和树的深度。RF模型通过Mahout实现,主要有3个阶段:产生数据说明文档,RF建模,数据交差验证。过程中增加数据预处理(把数据变为RF算法要求的输入格式)和模型数据自测试过程,加强模型的可靠性。首先随机抽取70%的ClusterClassifier的输出结果作为模型训练数据,剩下数据作为交差验证数据使用。通过调用mahout得到数据说明文件,该文件是RF建模输入的一部分。RF建模过程对物理内存大小有一定要求,内存溢出是在开发过程中经常遇到的情况。本试验中通过调整参数nbtrees确定树的个数,用ms调整节点处分支数间接调整树的深度,并用建模数据进行自测试,快速得到多组可接受的参数组合。最终通过交差验证的方法得到最佳建模参数,从而得到最佳RF预测模型并进行存储。由于将ClusterClassifier子单元得到的聚类结果作为分类过程的输入,使得训练数据和测试数据更容易获得,适合实时线上处理,并对于部分信息缺失用户,具有较好的泛化能力。
预测模块通过接口将在线数据输入RF预测模型,在得到返回的预测类别后,向存储各类别热门物品模块发出请求,调取热门物品列表。同时预测模块可以根据具体设置的过滤条件从推荐列表中筛选出特定属性的物品。
基于上述基于硬件信息的旅游冷启动用户产品推荐***,本发明还提供了基于硬件信息的旅游冷启动用户产品推荐方法,如图7所示,包括如下步骤:
步骤1:基于时间维度选定有历史行为的用户数据,提取对应的冷启信息组合(如终端硬件信息,App版本号,所在城市等等),对应浏览的产品及PV数(流量数),得到用户偏好数据表。
步骤2:通过数据矩阵化方法,以用户偏好数据表作为基础,利用冷启信息组合作为分析对象,将冷启信息组合的线路编号做为该冷启信息组合的特征,得到冷启信息组合和所有产品列表的对应关系作为矩阵数据。
步骤3:对步骤2中的矩阵数据进行序列化。
步骤4: 通过Canopy算法得到初始聚类中心点文件,包括聚类数量和类中心的位置。作为该步骤的改进,应预先设定合适的clusterFilter,去除聚类结果中的孤立中心点。
步骤5:将步骤3得到的物品被浏览的序列化数据和步骤4得到的中心点文件,通过Mahout平台得到Kmeans计算后的中心点数据,并存储中心点数据。
步骤6:获得步骤2得到的物品被浏览的矩阵化数据和步骤5得到的中心点文件,遍历计算矩阵中每一条矢量与各中点距离,用最小值作为判断矢量所属类别的标志,将类别标号赋值给对应的冷启信息组合,实现对冷启信息的聚类,并生成每个类别中热门的物品,聚类结果和各类别中的热门物品被存储下来。作为本步骤的改进,还可以通过计算比较类间距离与类内距离的比值,通过比值判断最终聚类结果并保存下来,同时汇总每个类别下的热门物品并保存下来。
步骤7:获得步骤6得到的冷启动组合信息及其所属分类,通过随机抽样得到RF模型训练数据,利用交差验证的方法,验证RF模型的输出结果的准确性,结合平台资源的限制调整RF模型中树的数目和树的深度,并且使准确性在可接受范围内,最终得到RF模型并储存下来。
步骤8:接收在线冷启数据并通过接口将数据转发到RF模型,在得到返回的预测类别后,向存储各类别热门物品模块发出请求,调取热门物品列表。作为本步骤的改进,还可以根据具体设置的过滤条件从推荐列表中筛选出特定属性的物品推到用户前台接口。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (8)
1.一种基于硬件信息的旅游冷启动用户产品推荐***,其特征在于:包括数据预处理模块、算法模块和预测模块,
所述数据预处理模块包括数据提取单元,数据向量化单元和数据序列化单元,
所述数据提取单元用于基于时间维度选定有历史行为的用户数据,提取对应的冷启信息组合,对应浏览的产品及PV数,得到用户偏好数据表;所述数据向量化单元用于通过数据矩阵化方法,以用户偏好数据表作为基础,利用冷启信息组合作为分析对象,将线路编号做为该冷启信息组合的特征,得到冷启信息组合和所有产品列表的对应关系;所述数据序列化单元用于对数据向量化单元处理后的冷启信息组合和产品列表对应关系表进行序列化;
所述运算模块包括Canopy运算单元、Kmeans运算单元、和RF运算单元,
所述Canopy运算单元用于对冷启动数据序列化矩阵数据进行运算后得到中心点文件,Kmeans运算单元对Canopy运算单元得到的中心点进行进一步优化得到更准确的中心点,RF运算单元用于根据Kmeans运算单元得到的中心点聚类结果,通过随机抽样得到RF模型训练数据,利用交差验证的方法,得到最佳RF预测模型;
所述Kmeans运算单元用于根据Canopy得到的中心点文件计算类中心,Kmeans运算单元还包括ClustrClassifier子单元,ClustrClassifier子单元用于根据数据预处理模块得到的物品被浏览的矩阵化数据和Kmeans得到的中心点文件进行计算,遍历计算矩阵中每一条矢量与各中点距离,用最小值作为判断矢量所属类别的标志,并将类别标号赋值给对应的冷启信息组合,对冷启信息进行聚类,同时计算每个类别下最热门的物品;
所述预测模块用于将在线数据输入RF预测模型,得到返回的预测类别,并调取热门物品列表。
2.根据权利要求1所述的基于硬件信息的旅游冷启动用户产品推荐***,其特征在于:在Canopy运算单元中,预先设定合适的clusterFilter去除聚类结果中包含样本个数较少的中心点。
3.根据权利要求1所述的基于硬件信息的旅游冷启动用户产品推荐***,其特征在于:在ClusterClassifier子单元进行聚类输出结果后,还通过调整Canopy的参数增大类间距离与类内距离的比值。
4.根据权利要求1所述的基于硬件信息的旅游冷启动用户产品推荐***,其特征在于:预测模块根据具体设置的过滤条件从推荐列表中筛选出特定属性的物品。
5.一种基于硬件信息的旅游冷启动用户产品推荐方法,其特征在于:包括如下步骤:
步骤1:基于时间维度选定有历史行为的用户数据,提取对应的冷启信息组合,对应浏览的产品及PV数,得到用户偏好数据表;
步骤2:通过数据矩阵化方法,以用户偏好数据表作为基础,利用冷启信息组合作为分析对象,将冷启信息组合的线路编号做为该冷启信息组合的特征,得到冷启信息组合和所有产品列表的对应关系作为矩阵数据;
步骤3:对步骤2中的矩阵数据进行序列化;
步骤4: 通过Canopy算法得到初始聚类中心点文件,包括聚类数量和类中心的位置;
步骤5:将步骤3得到的物品被浏览的序列化数据和步骤4得到的中心点文件,通过Mahout平台得到Kmeans计算后的中心点数据;
步骤6:获得步骤2得到的物品被浏览的矩阵化数据和步骤5得到的中心点文件,遍历计算矩阵中每一条矢量与各中点距离,用最小值作为判断矢量所属类别的标志,将类别标号赋值给对应的冷启信息组合,实现对冷启信息的聚类,并生成每个类别中热门的物品;
步骤7:获得步骤6得到的冷启动组合信息及其所属分类,通过随机抽样得到RF模型训练数据,利用交差验证的方法,验证RF模型的输出结果的准确性,结合平台资源的限制调整RF模型中树的数目和树的深度,并且使准确性在可接受范围内,最终得到RF模型并储存下来;
步骤8:接收在线冷启数据并通过接口将数据转发到RF模型,在得到返回的预测类别后,向存储各类别热门物品模块发出请求,调取热门物品列表。
6.根据权利要求5所述的基于硬件信息的旅游冷启动用户产品推荐方法,其特征在于:所述步骤4中预先设定合适的clusterFilter去除聚类结果中包含样本个数较少的中心点。
7.根据权利要求5所述的基于硬件信息的旅游冷启动用户产品推荐方法,其特征在于:所述步骤6中还通过调整参数增大比较类间距离与类内距离的比值。
8.根据权利要求5所述的基于硬件信息的旅游冷启动用户产品推荐方法,其特征在于:所述步骤8中还根据具体设置的过滤条件从推荐列表中筛选出特定属性的物品。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611134210.5A CN106846082B (zh) | 2016-12-10 | 2016-12-10 | 基于硬件信息的旅游冷启动用户产品推荐***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611134210.5A CN106846082B (zh) | 2016-12-10 | 2016-12-10 | 基于硬件信息的旅游冷启动用户产品推荐***及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106846082A true CN106846082A (zh) | 2017-06-13 |
CN106846082B CN106846082B (zh) | 2021-07-30 |
Family
ID=59140727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611134210.5A Active CN106846082B (zh) | 2016-12-10 | 2016-12-10 | 基于硬件信息的旅游冷启动用户产品推荐***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106846082B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009877A (zh) * | 2017-11-24 | 2018-05-08 | 阿里巴巴集团控股有限公司 | 信息挖掘方法及装置 |
CN108629665A (zh) * | 2018-05-08 | 2018-10-09 | 北京邮电大学 | 一种个性化商品推荐方法和*** |
CN109102903A (zh) * | 2018-07-09 | 2018-12-28 | 康美药业股份有限公司 | 一种用于健康咨询平台的话题预测方法和*** |
CN112508512A (zh) * | 2020-11-26 | 2021-03-16 | 国网河北省电力有限公司经济技术研究院 | 电网工程造价数据管理方法、装置及终端设备 |
CN113538110A (zh) * | 2021-08-13 | 2021-10-22 | 苏州工业职业技术学院 | 一种基于浏览序列的相似物品推荐方法 |
CN113744021A (zh) * | 2021-02-08 | 2021-12-03 | 北京沃东天骏信息技术有限公司 | 一种推荐方法、装置、计算机存储介质及*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010013009A1 (en) * | 1997-05-20 | 2001-08-09 | Daniel R. Greening | System and method for computer-based marketing |
CN103455555A (zh) * | 2013-08-06 | 2013-12-18 | 北京大学深圳研究生院 | 基于移动终端相似度的推荐方法及推荐装置 |
CN103559252A (zh) * | 2013-11-01 | 2014-02-05 | 桂林电子科技大学 | 给游客推荐其很可能会浏览的景点的方法 |
CN104616221A (zh) * | 2014-07-30 | 2015-05-13 | 江苏物泰信息科技有限公司 | 一种智慧旅游推荐*** |
CN106033589A (zh) * | 2015-03-10 | 2016-10-19 | 上海昕鼎网络科技有限公司 | 一种旅游路线个性化服务方法及*** |
-
2016
- 2016-12-10 CN CN201611134210.5A patent/CN106846082B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010013009A1 (en) * | 1997-05-20 | 2001-08-09 | Daniel R. Greening | System and method for computer-based marketing |
CN103455555A (zh) * | 2013-08-06 | 2013-12-18 | 北京大学深圳研究生院 | 基于移动终端相似度的推荐方法及推荐装置 |
CN103559252A (zh) * | 2013-11-01 | 2014-02-05 | 桂林电子科技大学 | 给游客推荐其很可能会浏览的景点的方法 |
CN104616221A (zh) * | 2014-07-30 | 2015-05-13 | 江苏物泰信息科技有限公司 | 一种智慧旅游推荐*** |
CN106033589A (zh) * | 2015-03-10 | 2016-10-19 | 上海昕鼎网络科技有限公司 | 一种旅游路线个性化服务方法及*** |
Non-Patent Citations (7)
Title |
---|
HAMID PARVIN等: "Nearest Cluster Classifier", 《HYBRID ARTIFICIAL INTELLIGENT SYSTEMS》 * |
冯跃飞等: "《形势与政策》", 31 August 2016 * |
吴喜之: "《统计学:从数据到结论》", 31 March 2013 * |
张影等: "《预测与评价》", 31 May 2015 * |
朱蔷蔷等: "基于Hadoop平台上面向电影数据集Kmeans算法的改进", 《哈尔滨师范大学自然科学学报》 * |
郑丹等: "基于weighted_slope_one用户聚类的林产品推荐算法", 《森林工程》 * |
郑非等: "《体育统计学》", 31 July 2010 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009877A (zh) * | 2017-11-24 | 2018-05-08 | 阿里巴巴集团控股有限公司 | 信息挖掘方法及装置 |
CN108009877B (zh) * | 2017-11-24 | 2021-10-15 | 创新先进技术有限公司 | 信息挖掘方法及装置 |
CN108629665A (zh) * | 2018-05-08 | 2018-10-09 | 北京邮电大学 | 一种个性化商品推荐方法和*** |
CN108629665B (zh) * | 2018-05-08 | 2021-07-16 | 北京邮电大学 | 一种个性化商品推荐方法和*** |
CN109102903A (zh) * | 2018-07-09 | 2018-12-28 | 康美药业股份有限公司 | 一种用于健康咨询平台的话题预测方法和*** |
CN112508512A (zh) * | 2020-11-26 | 2021-03-16 | 国网河北省电力有限公司经济技术研究院 | 电网工程造价数据管理方法、装置及终端设备 |
CN112508512B (zh) * | 2020-11-26 | 2022-09-09 | 国网河北省电力有限公司经济技术研究院 | 电网工程造价数据管理方法、装置及终端设备 |
CN113744021A (zh) * | 2021-02-08 | 2021-12-03 | 北京沃东天骏信息技术有限公司 | 一种推荐方法、装置、计算机存储介质及*** |
CN113538110A (zh) * | 2021-08-13 | 2021-10-22 | 苏州工业职业技术学院 | 一种基于浏览序列的相似物品推荐方法 |
CN113538110B (zh) * | 2021-08-13 | 2023-08-11 | 苏州工业职业技术学院 | 一种基于浏览序列的相似物品推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106846082B (zh) | 2021-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106846082A (zh) | 基于硬件信息的旅游冷启动用户产品推荐***及方法 | |
CN107844915B (zh) | 一种基于话务预测的呼叫中心的自动排班方法 | |
CN106897420B (zh) | 一种基于手机信令数据的用户出行驻留行为识别方法 | |
CN106779087A (zh) | 一种通用机器学***台 | |
CN110503531A (zh) | 时序感知的动态社交场景推荐方法 | |
CN111967910A (zh) | 一种用户客群分类方法和装置 | |
CN104750674B (zh) | 一种人机会话满意度预测方法及*** | |
CN104866831B (zh) | 特征加权的人脸识别算法 | |
CN110674993A (zh) | 一种用户负荷短期预测方法和装置 | |
CN108052505A (zh) | 文本情感分析方法及装置、存储介质、终端 | |
CN107563343A (zh) | 基于人脸识别技术的FaceID数据库的自我完善方法和*** | |
CN106776928A (zh) | 基于内存计算框架、融合社交环境及时空数据的位置推荐方法 | |
CN113706151A (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN110147389A (zh) | 帐号处理方法和装置、存储介质及电子装置 | |
CN110163250A (zh) | 基于分布式调度的图像脱敏处理***、方法以及装置 | |
CN110110915A (zh) | 一种基于cnn-svr模型的负荷集成预测方法 | |
CN109978215A (zh) | 巡防管理方法和装置 | |
CN102591872A (zh) | 一种客户特征库生成方法和装置 | |
CN109754122A (zh) | 一种基于随机森林特征提取的bp神经网络的数值预测方法 | |
CN117436679A (zh) | 一种元宇宙资源匹配方法及其*** | |
CN112288172A (zh) | 台区线损率的预测方法、装置 | |
CN114978602A (zh) | 一种基于大数据的云安全账户管理方法及安全平台 | |
CN110222892A (zh) | 乘客的下车站点预测方法及装置 | |
CN114239924A (zh) | 基于天气参数的影响指数确定方法及装置 | |
CN110334185A (zh) | 一种平台中数据的处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |