CN106919997B

CN106919997B - 一种基于lda的电子商务的用户消费预测方法

Info

Publication number: CN106919997B
Application number: CN201511001324.8A
Authority: CN
Inventors: 孙科武
Original assignee: Aisino Corp
Current assignee: Aisino Corp
Priority date: 2015-12-28
Filing date: 2015-12-28
Publication date: 2020-12-22
Anticipated expiration: 2035-12-28
Also published as: CN106919997A

Abstract

本发明提供了一种基于LDA的电子商务的用户消费预测方法，挖掘当前消费行为与历史消费行为相关性，用户的浏览商品的轨迹，用户的消费信息，商家对用户的评论信息，用户的个人信息等用户与商品的双重信息，使用狄利克雷分布关系，利用LDA话题模型对用户的消费行为与产品进行建模，构造商品、用户以及二者之间的概率模型，根据得到的概率分布模型对新的消费行为进行分析，从而实现电子商务平台的消费预测。

Description

一种基于LDA的电子商务的用户消费预测方法

技术领域

本发明涉及计算机及互联网技术，具体来说，涉及一种基于LDA模型的电子商务的用户消费预测方法。

背景技术

电子商务时代，线上推广支付线下消费反馈的消费模式逐渐占据人们的日常生活，在此过程中产生了大量的数据，包括商品的推广数据，用户的消费数据，反馈数据，此外还有一些潜在的隐形数据，包括终端的位置、用户的社交数据、用户的历史消费之间的相关性等等。随着电子商务平台的增加，电商的数据也达到爆发式增长，依靠人力对海量数据进行分析是不可行的，如何对大数据进行有效的自动挖掘，获得有价值的潜在数据是当前的研究热点。

通过用户的购买记录和浏览路径数据进行抽取，依赖获取的知识对其当前的消费行为预测是当前的普遍策略，这种方法简单直观，但忽略了用户潜在数据对其消费行为的影响。

发明专利申请CN201510121622.4对社会化网络中的英文交互信息数据进行处理，首先从社会化网络中爬取所需的用户交互信息数据，对这些数据进行数据处理，其中主要包括单词改错、停止词删除和词干提取，而后获得交互活动文档的数据集，然后采用LDA算法对交互活动文档集进行集群，接着对每个集群和集群中的交互活动文档与预先设定的活动领域进行相关度计算，确定各个集群所属的活动领域，并进一步确定各个交互活动文档所属的活动领域。而本发明专利以电子商务平台为研究对象，在一些技术方法上与该专利的词处理上相近，而应用场景不同，采用的概率模型方法不同。

发明内容

本发明专利主要研究利用LDA话题模型对用户的消费行为与产品进行建模，构造商品、用户以及二者之间的概率模型，由于商品具有描述性的属性、用户对其进行的评论等描述信息，且电子商务平台上由经验对各商品进行的属性分类，这使得商品在电子商务平台的分类***中符合狄利克雷分布；挖掘当前消费行为与历史消费行为相关性，用户的浏览商品的轨迹的相关性可以得到用户的消费信息，商家对用户的评论信息，用户的个人信息，用户对商品的浏览记录也构成了用户的语义信息，使得用户在电子商务平台上也满足狄利克雷分布，将用户和商品视为同一对象时，可以得到统一的概率分布，根据得到的概率分布模型对新的消费行为进行分析，从而实现电子商务平台的消费预测。

为解决上述技术问题，本发明所采用的技术方案是：

一种基于LDA的电子商务的用户消费预测方法：其特征在于：

训练步骤：

步骤101：获取商品的文本信息，获取用户的文本信息，对所述商品和用户的文本信息进行处理，所述处理包括语义信息抽取，去除无用词以及分词操作；

步骤102：利用步骤101中的词语分别构建成商品词集和用户词集，并利用上述词集分别构建商品文档和用户文档；

步骤103：利用电子商务平台上的商品分类及关键词数据构建主题库；

步骤104：利用所述商品文档、用户文档、主题库、词集构建文档-主题分布和主题-词分布，上述分布满足狄利克雷分布条件；

步骤105：通过所述商品文档、用户文档、主题库、词集训练得到LDA模型，其中，利用文档-主题分布和主题-词分布计算LDA分类过程需要的分布系数，从而得到基于LDA分类的概率模型；

预测步骤：

步骤201：对当前消费者的个人信息、浏览记录、社交网络、历史消费进行信息处理，采用去除停用词，分词等自然语言处理等方法得到用户文档d；

步骤202：抽取用户文档的词，利用LDA概率模型计算词与主题的联合概率；

步骤203：对LDA概率模型进行调整，即对用户文档进行分类，预测此次消费。所述方法中，所述商品的文本信息包括属性、描述信息、评论反馈和交易信息，所述用户的文本信息包括位置、个人信息、历史消费信息、浏览路径信息、和评论信息。

所述方法中，所述步骤201中得到用户文档d的过程如下：

步骤2011：随机从主题-词分布中得到k个主题与词分布的变量Z＝{z1,z2,..,zk}；步骤2012：在生成一个文档d前，先从文档-主题分布中随机获得一个文档主题分布变量，重复进行步骤2013操作；

步骤2013：随机生成一个主题t，根据该主题t在2011步骤中得到的k个分布中找到其对应关系进行随机生成词操作；

步骤2014：重复步骤2013操作直到用户文档生成。

所述方法中，步骤105中，使用训练文档、已分类主题和词进行训练，得到分布系数，完成概率公式。

所述方法中，LDA概率模型的训练过程如下：

先从文档-主题分布中随机得到一个主题-文档分布

然后得到第m篇文档的第n个主题z_m,n；

对训练集中的K个主题分布中，得到主题为z_m,n的主题，根据主题-词分布得到词w_m,n；

对应dirichlet分布，其物理含义是潜在主题的随机混合分布，

是其先验概率参数，

对应于multinomial分布，其物理含义是一个潜在主题的多项式分布，整体是一个dirichlet-multinomial共轭结构；

得到主题的条件概率计算公式：

其中

表示第m篇文档中词的个数向量；

符合dirichlet分布，其物理含义是词随机混合分布，

是其先验概率参数，而

符合multinomial分布，其物理含义是词的多项式分布。

因此得到词的条件概率公式：

其中，

表示第k个主题生成的词个数向量；

基于以上两个分布，得到文档中的词在主题的联合概率分布计算公式

首先计算

得到主题词的联合概率分布后，通过MCMC算法及吉布斯采样过程进行训练，得到变量

和

的值，完成LDA概率模型。

本发明的技术关键点在于：提出基于电子商务平台的用户文档和商品文档结构及抽取方法；提出基于电子商务平台的用户、商品与购买行为的分布关系；提出基于LDA方法对消费行为进行预测。利用本发明提供的一种基于LDA的电子商务的用户消费预测模型，具有如下优点：与现有的消费行为预测模型相比，本专利提出基于电子商务平台的大数据特征应用LDA构建消费行为预测模型，抽取电子商务平台中两大实体用户和商品的显示隐藏信息，构造用户和商品的文档；利用电子商务平台的分类特性抽取其主题信息，构造主题；再利用商品和分类的分布关系，用户浏览和分类的分布关系，通过已有数据进行训练，得到了用户分类分布，商品-分类分布，分类-词分布，并得到了用户/商品-词的分布，从而对新的消费行为进行抽取，依据得到的分布公式进行消费行为预测。与已有方法相比，此模型不但对显示信息进行处理，对隐式信息也进行处理，并利用LDA模型的优点得到了隐藏的分布对应关系，优化了预测模型。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简要地介绍，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为用户文档、商品文档与主题、词的结构关系；

图2为LDA概率模型；

图3为实施流程图；

具体实施方式

对于一个商品有许多属性，如材质、用途、造型、大小等等，因其属性的多样性可以归属到多个类别中，每个类别称之为主题；而商品的描述语义信息，历史交易的评论信息及其他相关信息构成了该商品的文本信息，消费者所具有的历史消费数据，浏览路径数据，消费者的个人信息构成了关于消费者描述信息，称二者为文档；对文档信息进行处理，抽取出词。基于LDA模型，构造用户与商品的概率模型，使用该概率模型，对已有历史消费数据进行分类，对用户行为进行分类，可以预测新用户的消费轨迹。本发明提出基于LDA的电子商务用户消费预测模型。

构造用户和商品文档的过程是语义信息收集的过程，用户信息包括个人信息、历史消费信息、浏览路径信息、评论信息及移动终端的位置信息，对这些信息进行语义信息抽取，并进行预处理去除stopwords等无用词，对其进行二相邻分词。商品文档的构造过程类似，收集商品的描述信息，针对商品的用户评论信息，对上述信息使用分词技术进行分词。

为了方便说明，对本专利涉及的文档，词，主题进行解释定义：

文档：文档是一些相关性词的集合，是对象的一些语义信息的说明，本专利中包括用户文档和商品文档，用户文档是由用户的位置信息，用户的个人信息，历史消费数据，评论信息构成的，这些数据经过去除停用词，二相邻分词后形成一些无序的词集合，称之为用户文档；商品文档由商品对象的属性，商品的语义描述信息，用户评论的反馈信息；结构化的交易数据构成，同样对这些数据进行预处理，从而得到商品文档。

主题：在电子商务平台上，对商品的分类及关键词描述尤为重要，因此本专利的主题是指电子商务平台的分类数据，每个类对应了类名和与该类相关的词；

词：词是构成文档的基本元素，同时一个主题也包含了若干词。

基于以上定义，本发明的文档，主题，词三者的结构关系如图1所示。

从图1可以看出，电子商务平台的用户，商品，类别之间的关系满足LDA模型，即在图1中存在两个分布：文档-主题分布和主题-词分布。一个文档允许存在多个主题，例如一个商品文档从属性、功能上可以归属到多个类别中，因此主题在文档中存在一个分布，符合狄利克雷分布；一个主题对应了多个词，一个词可以归属到多个文档，因此主题和词也存在一个狄利克雷分布；

因此，通过已有的电子商务平台数据训练得到LDA模型利用这两个分布计算LDA分类过程需要的系数，从而得到基于LDA分类的训练模型，应用该模型对LDA进行用户消费行为分析时，首先应生成用户文档，由于新用户可能不具备图1所列的全部数据信息，因此进行利用两个分布，用户文档的生成过程如下：

随机从主题-词分布中得到k个主题与词分布的变量Z＝{z1,z2,..,zk}；

在生成一个文档d前，先从文档-主题分布中随机获得一个文档主题分布变量，重复进行3)操作；

随机生成一个主题t，根据该主题t在k个分布中找到其对应关系进行随机生成词操作；

重复3)操作直到用户文档生成。

在以上生成过程中，需要计算两个分布的分布系数，因此对训练文档、已分类主题和词进行训练，得到分布系数，完成概率公式。该方法目前较为成熟。利用以上两个分布得到基于LDA的概率模型，如图2所示。图2的中涉及到的两个过程如下：

过程1：

指这个过程表示在生成第m篇文档的时候，先从文档-主题分布中随机得到一个主题-文档分布

然后得到第m篇文档的第n个主题z_m,n。

过程2：

是指对训练集中的K个主题分布中，得到主题为z_m,n的主题，根据主题-词分布得到词w_m,n。

在过程1中我们知道

表示生成第m篇文档中所有词对应的主题，显然

对应dirichlet分布，

对应于multinomial分布，所以整体是一个dirichlet-multinomial共轭结构。

因此可以得到主题的条件概率计算公式：

其中

表示第m篇文档中词的个数向量。

在过程2中，

该过程是由主题生成词的过程，显然

符合dirichlet分布，而

符合multinomial分布，因此过程2也是一个dirichlet-multinomial共轭结构。

因此得到词的条件概率公式：

其中，

表示第k个主题生成的词个数向量。

基于以上两个分布，可以得到文档中的词在主题的联合概率分布计算公式

首先计算

有了主题词的联合概率分布后，通过MCMC算法及吉布斯采样过程进行训练，得到变量

和

的值，完成LDA概率模型。

利用先验概率参数

和

的值得到词-文档分布，即抽取该文档的关键词概率方法。

其中T是文档d的主题个数。

得到概率计算公式后，对于当前消费行为的预测分类如下：

对当前消费者的个人信息、浏览记录、社交网络、历史消费进行信息处理，采用去除停用词，分词等自然语言处理等方法得到用户文档d；

利用文档-主题分布得到用户文档的主题分类概率；

利用文档-词分布得到用户文档的关键词概率；

从两个概率可以得到用户的消费预判。

对LDA概率模型进行调整，预测此次消费。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。