CN110196904A

CN110196904A - 一种获取推荐信息的方法、装置及计算机可读存储介质

Info

Publication number: CN110196904A
Application number: CN201810162256.0A
Authority: CN
Inventors: 陈必东; 杜放
Original assignee: Foshan Shunde Midea Electrical Heating Appliances Manufacturing Co Ltd
Current assignee: Foshan Shunde Midea Electrical Heating Appliances Manufacturing Co Ltd
Priority date: 2018-02-26
Filing date: 2018-02-26
Publication date: 2019-09-03
Anticipated expiration: 2038-02-26
Also published as: CN110196904B

Abstract

本发明实施例公开了一种获取推荐信息的方法，该方法包括：获取N个用户针对终端的历史操作数据，得出N个用户中每个用户的特征模型数据，其包括：N个用户的词袋模型、N个用户中每个用户的词袋模型与N个用户中其他用户的词袋模型的相似度；对N个用户的词袋模型进行数据挖掘，得到N个用户中每个用户的频繁项集和初始关联规则；当i取1至N时，根据N个用户中第i个用户的特征模型数据对初始关联规则进行筛选，得到N个用户中第i个用户的筛选后的关联规则；根据N个用户中第i个用户的筛选后的关联规则，得到推荐信息；该方法根据用户的特征模型数据得到关联规则，将其作为获取推荐信息的依据，得到的推荐信息更加全面和符合该用户的个性特征。

Description

一种获取推荐信息的方法、装置及计算机可读存储介质

技术领域

本发明涉及信息处理技术领域/人工智能领域，尤其涉及一种获取推荐信息的方法、装置及计算机可读存储介质。

背景技术

随着云时代的来临，大数据也吸引了越来越多的关注，大数据的特色就在于对海量数据进行分布式数据挖掘，其依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术，使这些原本看起来很难收集和使用的海量数据开始容易被利用起来了，通过各行各业的不断创新，大数据正在逐步为人类创造更多的价值。

目前用户对移动终端的使用已经十分的普遍，用户的很多日常活动都在移动终端上完成，例如购买商品、餐饮消费、发表评论、浏览感兴趣的信息等等，这些庞大的数据信息现在很容易被采集和掌握，而对这些含有意义的数据进行专业化处理，是那些为消费者提供产品或服务的企业利用大数据进行精准营销的关键所在。在这种需求的牵引下，数据挖掘技术因此而诞生并成为新的技术热点，数据挖掘可以被描述为：按企业既定业务目标，对大量的企业数据进行探索和分析，揭示隐藏的、未知的或验证已知的规律性，并进一步将其模型化的先进有效的方法。数据挖掘的一种主要形式就是规则挖掘，即如果一个事务中含有X，则该事务中很可能含有Y，具体形式为X→Y，这就是关联规则，具体挖掘关联规则的过程描述如下：

设：I＝{i1，i2，…，im}是所有项目的集合，D是所有事务的集合(即数据库)，每个事务T是一些项目的集合，T包含在I中，每个事务可以用唯一的标识符TID来标识；设X为某些项目的集合，如果X包含在T中，则称事务T包含X，关联规则则表示为如下形式：(X包含在T)→(Y包含在T)的蕴涵式，其中，X、Y均为I的子集，且X与Y的交集为空；其意义在于一个事务中某些项目的出现，可推导出另一些项目在同一事务中也出现，简单的表示为：X→Y，其中，‘→’称为‘关联’操作，X称为关联规则的先导，Y称为关联规则的后继。

数据库D中的关联规则X→Y是由支持度s(support)和置信度c(confidence)约束，置信度表示规则的强度，支持度表示规则出现的频度。数据项集X的支持度s(X)是D中包含X的事务数量与D的总事务数量之比，为了便于计算，将数据项集X的支持度用数据库D中包含X的事务数量来表示，那么这条关联规则的支持度s和置信度c分别表示为：支持度s＝支持度(X∪Y)＝事务数量(X∪Y)、置信度c＝支持度(X∪Y)/支持度(X)。最小支持度阈值(minsupport)表示数据项集在统计意义上的最低主要性，最小置信度阈值(minconfidence)表示规则的最低可靠性，如果数据项集X的支持度大于最小支持度，则称X为频繁项集，如果关联规则的置信度和支持度分别大于最小支持度阈值和最小置信度阈值，则称该关联规则为强关联规则。

关联规则的挖掘主要分为两个步骤：(1)通过递归的方法，找出事务数据库D中所有大于等于最小支持度阈值的频繁项集；(2)利用频繁项集生成所需要的关联规则，例如，频繁项集A的非空子集a也是频繁项集，如果比率support(A)/support(a)≥minconfidence，就生成关联规则a→(A-a)，比率support(A)/support(a)为该关联规则的置信度。现有技术中通常读取数据库中所有用户的终端数据，采用Apriori算法得到频繁项集，然后由频繁项集得到关联规则，根据关联规则向每个用户推荐符合其个人喜好特征的信息。

但是现有技术中获得频繁项集和关联规则后，当需要获取任一个用户的推荐信息时，选择先导为所述任一个用户的终端数据的关联规则，该关联规则的置信度大于或等于最小置信度阈值，将该关联规则的后继作为推荐信息向所述任一个用户进行推荐，这样得到的推荐信息不够全面，因为该关联规则是根据用户个人的终端数据选择的，而用户个人的终端数据是基于用户个人已知信息对相关的内容进行评价、搜索等操作得到的，所以得到的推荐信息会受到用户个人已知信息量的影响，不能获得更加全面和准确的符合用户个性特征的推荐信息。

发明内容

本发明的主要目的在于提出一种获取推荐信息的方法、装置和计算机可读存储介质，旨在解决目前对用户针对终端的操作数据进行数据挖掘，根据得到的关联规则和任一个用户针对终端的操作数据，获得的任一个用户的推荐信息不够全面和准确的问题。

为达到上述目的，本发明的技术方案是这样实现的：

本发明实施例提供一种获取推荐信息的方法，其特征在于，所述方法包括：

获取N个用户针对终端的历史操作数据，得出所述N个用户中每个用户的特征模型数据，所述N个用户中每个用户的特征模型数据包括：N个用户的词袋模型、N个用户中每个用户的词袋模型与N个用户中其他用户的词袋模型的相似度；N为大于1的整数；

对所述N个用户的词袋模型进行数据挖掘，得到N个用户中每个用户的频繁项集和初始关联规则；

当i取1至N时，根据所述N个用户中第i个用户的特征模型数据对所述初始关联规则进行筛选，得到N个用户中第i个用户的筛选后的关联规则；

根据所述N个用户中第i个用户的筛选后的关联规则，得到推荐信息。

上述方案中，所述根据所述N个用户中第i个用户的筛选后的关联规则，得到推荐信息包括：

在所述N个用户中第i个用户的筛选后的关联规则中，选择置信度大于或等于预设的置信度变化值的关联规则，根据所选择的关联规则，得到推荐信息。

上述方案中，在得到推荐信息之后，所述方法还包括：

根据所述N个用户中每个用户的特征模型数据和初始关联规则，通过深度学习机制对所述预设的置信度变化值进行更新，得到更新后的置信度变化值。

上述方案中，所述根据所述N个用户中第i个用户的特征模型数据对所述初始关联规则进行筛选，包括：

根据以下至少一种词袋模型对所述初始关联规则进行筛选：

所述N个用户中第i个用户的词袋模型；

所述N个用户中其他用户的词袋模型中，与所述N个用户中第i个用户的词袋模型的相似度大于预设的相似度阈值的其他用户的词袋模型。

上述方案中，所述获取N个用户针对终端的历史操作数据，包括：

当满足预设的推荐信息更新条件时，获取N个用户针对终端的历史操作数据，其中，所述推荐信息更新条件包括以下至少一项：

获取到N个用户针对终端的新的操作数据；

当前时刻到上一次推荐信息的更新时刻的时间间隔大于或等于预设的时间阈值。

可选的，每个用户针对终端的历史操作数据包括以下至少一项：用户输入的产品评论、用户选择的产品评价的关键词、用户的搜索记录、用户对产品的点赞记录。

将所述N个用户中第i个用户的筛选后的关联规则的后继作为所述推荐信息。

本发明实施例还提供一种获取推荐信息的装置，其特征在于，所述装置包括：存储器和处理器，其中，

所述存储器，用于存储计算机程序；

所述处理器，用于在运行所述计算机程序时，执行以下步骤：

上述方案中，所述处理器具体用于运行所述计算机程序时，执行以下步骤：

在得到推荐信息之后，根据所述N个用户中每个用户的特征模型数据和初始关联规则，通过深度学习机制对所述预设的置信度变化值进行更新，得到更新后的置信度变化值。

根据以下至少一种词袋模型对所述初始关联规则进行筛选：

所述N个用户中第i个用户的词袋模型；

本发明实施例还提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，

当所述计算机程序被至少一个处理器执行时，导致所述至少一个处理器执行权利要求1至7任一项所述的方法的步骤。

本发明实施例提供了一种获取推荐信息的方法、装置和计算机可读存储介质，获取N个用户针对终端的历史操作数据，得出所述N个用户中每个用户的特征模型数据，所述N个用户中每个用户的特征模型数据包括：N个用户的词袋模型、N个用户中每个用户的词袋模型与N个用户中其他用户的词袋模型的相似度；N为大于1的整数；对所述N个用户的词袋模型进行数据挖掘，得到N个用户中每个用户的频繁项集和初始关联规则；当i取1至N时，根据所述N个用户中第i个用户的特征模型数据对所述初始关联规则进行筛选，得到N个用户中第i个用户的筛选后的关联规则；根据所述N个用户中第i个用户的筛选后的关联规则，得到推荐信息。如此，本发明实施例根据用户个人的词袋模型和与其他用户的词袋模型的相似度，对得到的关联规则进行筛选，将筛选后的关联规则作为获得用户个人推荐信息的依据，相较于仅根据用户个人的终端数据获取推荐信息，这样获得的推荐信息在符合用户个人的喜好特征的前提下，更加全面和准确。

附图说明

图1为本发明实施例提供的获取推荐信息***架构图；

图2为本发明实施例提供的获取推荐信息的方法流程图一；

图3为本发明实施例提供的获取推荐信息的方法流程图二；

图4为本发明实施例提供的获取用户的特征模型数据的方法流程图；

图5为本发明实施例提供的装置的组成结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

如图1所示为本发明实施例提供的一种获取推荐信息***架构图，本发明实施例提供的获取推荐信息方法是基于该获取推荐信息***的架构上实现的。本发明实施例中的获取推荐信息***包括：终端10和云服务器12，其中，所述终端10通过通信网络11与所述云服务器12进行数据交互，由云服务器12来执行本发明实施例提供的获取推荐信息方法。

下面的实施例可以基于图1的***架构实现。

实施例一

本发明实施例提供一种获取推荐信息的方法，如图2所示，该方法包括：

S201：获取N个用户针对终端的历史操作数据，得出所述N个用户中每个用户的特征模型数据，所述N个用户中每个用户的特征模型数据包括：N个用户的词袋模型、N个用户中每个用户的词袋模型与N个用户中其他用户的词袋模型的相似度；N为大于1的整数。

在实际实施时，云服务器12与终端10进行实时通信，获取N个用户在终端交互页面上的历史操作数据，该终端交互页面可以是一些展示家电信息的应用程序，例如，包含了至少一个家电产品信息的应用商城；获取的历史操作数据可以包括以下至少一项：用户输入的产品评论、用户选择的产品评价的关键词、用户的搜索记录、用户对产品的点赞记录。

具体的，对获取的N个用户的历史操作数据进行整理筛选，筛选出与食谱菜谱、电器功能等相关的数据，得到筛选后的N个用户中每个用户的数据集合，该数据集合以词袋模型的形式进行表示；其中，词袋模型是指假定对于一个文本，忽略其词序和语法，将其仅仅看做是一个词语集合，在该词语集合中每一个词语都有对应的索引，每一个词语都可以出现多次并记录其出现次数，那么这个词语集合就被称作词袋模型，可以用数组来表示词袋模型；再获取N个用户中每个用户的词袋模型与N个用户中其他用户的词袋模型的相似度。

S202：对所述N个用户的词袋模型进行数据挖掘，得到N个用户中每个用户的频繁项集和初始关联规则。

在实际实施时，对所述N个用户的词袋模型进行数据挖掘，数据挖掘的过程可以包括：遍历N个用户的词袋模型，统计N个用户的词袋模型中所有的词语的出现次数，过滤掉出现次数小于预设的最小支持度阈值的词语，得到过滤后的词语，即频繁单项集；对过滤后的词语两两组合，得到包含两个词语的词语组合，遍历N个用户的词袋模型，统计每个词语组合的出现次数，过滤掉出现次数小于预设的最小支持度阈值的词语组合，得到过滤后的词语组合，即频繁2项集；重复上述过程，直到包含M+1个词语的组合为空集时，结束遍历过程，得到频繁单项集、频繁2项集至频繁M项集，统称为频繁项集，M为大于1的整数；

对所有的频繁项集进行筛选，选择有子集且所述子集也属于所述频繁项集的频繁项集，称所述子集为频繁子集；对每一个所选择的频繁项集，生成以频繁子集为先导、以频繁项集除去频繁子集的内容为后继的关联规则，每个关联规则的置信度等于频繁项集的支持度除以频繁子集的支持度，筛选得到置信度大于或等于预设的最小置信度阈值的关联规则，作为所述N个用户中每个用户的初始关联规则。

S203：当i取1至N时，根据所述N个用户中第i个用户的特征模型数据对所述初始关联规则进行筛选，得到N个用户中第i个用户的筛选后的关联规则。

在实际实施时，可以根据以下至少一种词袋模型对所述初始关联规则进行筛选：所述N个用户中第i个用户的词袋模型；所述N个用户中其他用户的词袋模型中，与所述N个用户中第i个用户的词袋模型的相似度大于预设的相似度阈值的其他用户的词袋模型；

对先导与上述至少一种词袋模型一样的所述初始关联规则进行保留，得到N个用户中第i个用户的筛选后的关联规则。

S204：根据所述N个用户中第i个用户的筛选后的关联规则，得到推荐信息。

在实际实施时，可以将所述N个用户中第i个用户的筛选后的关联规则的后继的内容作为所述推荐信息。

步骤S201至步骤S204可以由云服务器中的处理器实现。

由此可见，本发明实施例中，首先根据所有用户的历史操作数据，得到每个用户的特征模型数据，每个用户的特征模型数据包括了用户个人的词袋模型，以及用户个人的词袋模型与其他用户的词袋模型的相似度，再根据所有用户的词袋模型得到频繁项集和初始关联规则，通过用户个人的词袋模型和与用户个人的词袋模型相似度大的其他用户的词袋模型，对初始关联规则进行筛选，将筛选后的关联规则作为获得用户个人推荐信息的依据，这样获得的推荐信息在符合用户个人的喜好特征的前提下，更加全面和准确。

实施例二

为了能够更加体现本发明的目的，在上述实施例的基础上，进行进一步的举例说明。

本发明实施例提供一种获取推荐信息的方法，如图3所示，该方法包括：

S301：当满足预设的推荐信息更新条件时，获取N个用户针对终端的历史操作数据，得出所述N个用户中每个用户的特征模型数据；N为大于1的整数。

在实际实施时，可以预设推荐信息更新条件，所述推荐信息更新条件包括以下至少一项：获取到N个用户针对终端的新的操作数据；当前时刻到上一次推荐信息的更新时刻的时间间隔大于或等于预设的时间阈值。

可选的，所述推荐信息更新条件为：获取到N个用户针对终端的新的操作数据，以及当前时刻到上一次N个用户的推荐信息的更新时刻的时间间隔大于或等于预设的时间阈值；或者，i取1到N时，获取到N个用户中第i个用户针对终端的新的操作数据，以及所述N个用户中第i个用户的上一次推荐信息的更新时刻与当前时刻的时间间隔大于或等于预设的时间阈值；

当满足所述推荐信息更新条件时，对所述N个用户中每个用户的推荐信息进行更新，获取N个用户针对终端的历史操作数据，得出N个用户中每个用户的特征模型数据；所述N个用户中每个用户的特征模型数据具体包括：N个用户的用户ID、N个用户的词袋模型、N个用户中每个用户的词袋模型与N个用户中其他用户的词袋模型的相似度，每个用户的用户ID与词袋模型一一对应。

示例性的，假设N取值为9，9个用户的词袋模型分别用数组表示为：用户1[6]＝{1,2,0,0,0,0}、用户2[6]＝{1,1,0,0,0,1}、用户3[6]＝{2,1,0,0,0,2}、用户4[6]＝{1,1,0,0,0,2}、用户5[6]＝{0,2,1,0,0,0}、用户6[6]＝{0,1,1,1,0,0}、用户7[6]＝{0,1,2,1,0,0}、用户8[6]＝{0,1,1,3,0,0}、用户9[6]＝{0,0,0,1,2,0}，其中，索引为{0,1,2,3,4,5}，对应的表示词语A、B、C、D、E、F，数组中的元素表示每个词语的出现次数；

计算9个用户中每个用户的词袋模型与其他8个用户的词袋模型的相似度，例如，将9个用户的词袋模型转换为向量，通过余弦相似度计算用户1的向量与其他8个用户的向量的相似度sim，假设向量X＝(x₁,x₂,…,x_n)、向量Y＝(y₁,y₂,…,y_n)，余弦相似度计算公式为：可以得到用户1和其他8个用户的向量相似度分别是： sim(1,5)＝4/5、 sim(1,9)＝0，其中，相似度sim值越趋近于1，代表两个向量的方向越接近。

S302：对所述N个用户的词袋模型进行数据挖掘，得到N个用户中每个用户的频繁项集和初始关联规则。

在实际实施时，可以根据预设的最小支持度阈值和最小置信度阈值，对所述N个用户的词袋模型进行数据挖掘，获取到支持度大于最小支持度阈值的频繁项集，再根据所述频繁项集得到置信度大于最小置信度阈值的初始关联规则。

示例性的，采用Apriori算法进行数据挖掘，得到频繁项集和初始关联规则，包括以下步骤：

预设最小支持度阈值minsupport等于3，统计6个词语的支持度s：s(A)＝5、s(B)＝10、s(C)＝5、s(D)＝6、s(E)＝2、s(F)＝5，获得支持度s大于或等于最小支持度阈值minsupport的频繁单项集有：A、B、C、D、F；

统计由上述频繁单项集两两组合的集合的支持度s：s(AB)＝4、s(AC)＝0、s(AD)＝0、s(AF)＝4、s(BC)＝4、s(BD)＝3、s(BF)＝3、s(CD)＝3、s(CF)＝0、s(DF)＝0，获得支持度s大于或等于最小支持度阈值minsupport的频繁2项集有：AB、AF、BC、BD、BF、CD；

统计由上述频繁2项集两两组合的集合的支持度s：s(ABF)＝3、s(BCD)＝3，获得支持度s大于或等于最小支持度阈值minsupport的频繁3项集有：ABF、BCD；

由上述频繁3项集两两组合的包含4个词语的集合为空集，结束遍历过程；

预设最小置信度阈值minconfidence等于0.65，从上述频繁项集中选择有频繁子集的频繁项集，生成以频繁子集为先导、以频繁项集除去频繁子集的内容为后继的关联规则，并计算每一个生成的关联规则的置信度，例如，c(AB→F)＝s(ABF)/s(AB)＝0.75；

筛选出置信度c大于或等于最小置信度阈值minconfidence的关联规则，得到每个用户的初始关联规则包括：A→B、A→F、F→A、C→B、AB→F、AF→B、BF→A、BC→D、BD→C、CD→B。

S303：当i取1至N时，根据所述N个用户中第i个用户的特征模型数据对所述初始关联规则进行筛选，得到N个用户中第i个用户的筛选后的关联规则。

示例性的，当i取1时，根据用户1的特征模型数据对上述得到的初始关联规则进行筛选，其中，用户1的特征模型数据包括：用户1的词袋模型中包含的词语A和B、以及用户1与其他8个用户的词袋模型的相似度，由于通过余弦相似度计算得到的相似度sim值越接近1，表示两个向量的方向越接近，因此，可以通过在0至1范围内取值作为预设的相似度阈值，得到与用户1的相似度大于或等于预设的相似度阈值的其他用户，或者，可以通过在其他8个用户中选择与用户1的相似度值最大的用户；这里，选择与用户1的相似度值最大的用户5，用户5的词袋模型中包含词语B和C，将用户5和用户1的词袋模型一起作为初始关联规则的筛选条件，对先导分别和用户1、5的词袋模型中的词语一样的所述关联规则进行保留，得到用户1的筛选后的关联规则包括：AB→F、BC→D；

S304：在所述N个用户中第i个用户的筛选后的关联规则中，判断是否存在置信度大于或等于预设的置信度变化值的关联规则，当存在时，执行步骤S305；当不存在时，执行步骤S306。

在实际实施时，筛选后的关联规则满足置信度大于或等于最小置信度阈值，只有最小置信度阈值这一个条件对关联规则进行判断时，最小置信度阈值的取值对关联规则的选择影响很大，但是最小置信度阈值是根据经验值进行取值，不能保证其准确性，因此可以通过设置置信度变化值再对筛选后的关联规则进行判断，从而得到更准确的关联规则作为获取推荐信息的依据。

示例性的，预设置信度变化值等于0.7，用户1的关联规则AB→F、BC→D的置信度分别为c(AB→F)＝s(ABF)/s(AB)＝0.75、c(BC→D)＝s(BCD)/s(BC)＝0.75，用户1的筛选后的关联规则都大于置信度变化值，执行步骤S305。

S305：选择置信度大于或等于预设的置信度变化值的关联规则，根据所选择的关联规则，得到推荐信息，执行步骤S307。

示例性的，用户1的筛选后的关联规则的置信度都大于预设的置信度变化值，都作为用户1所选的关联规则，将用户1所选的关联规则的后继的内容作为推荐信息，可以得到用户1的推荐信息为词语F和D。

S306：没有获取到推荐信息，执行步骤S307。

S307：根据所述N个用户中每个用户的特征模型数据和初始关联规则，通过深度学习机制对所述预设的置信度变化值进行更新，得到更新后的置信度变化值。

示例性地，可以在后台通过实验数据分析，观察后台模型训练的拟合程度来获取新的置信度变化值，然后将新的置信变化值更新到***中，得到更新后的置信度变化值；也就是说，基于深度学习模型，将N个用户中每个用户的词袋模型作为输入的预测样本，其中，所述预测样本是一维数组形式的；以一维子数组为单位对所述预测样本中的样本特征进行泛化处理，并最终泛化为该用户对候选内容的好评预测概率，其中，所述候选内容可以是该用户的推荐信息或者N个用户的词袋模型的内容，一维子数组是指从所述预测样本中得到的位置相邻的样本，其最大尺寸不超过一维数组的尺寸；所述候选内容中包括该用户的推荐信息，从该用户对候选内容的好评预测概率中获得该用户的推荐信息的好评预测概率；根据该用户的推荐信息的好评预测概率，调整置信度变化值。

步骤S301至步骤S307可以由云服务器中的处理器实现。

由此可见，本发明实施例中，获取N个用户针对终端的历史操作数据后，得到每个用户的词袋模型，以及每个用户的词袋模型与其他用户的词袋模型相似度，当想要获取第i个用户的推荐信息时，对由N个用户的词袋模型得到的初始关联规则进行筛选，筛选出先导为第i个用户的词袋模型的关联规则，以及先导为与第i个用户的词袋模型相似度大的其他用户的词袋模型的关联规则，根据筛选后的关联规则获取第i个用户的推荐信息，这样得到的推荐信息不仅符合第i个用户的个性特征，还将与第i个用户个性特征相近的其他用户的个性特征也作为选择依据，使得该推荐信息不局限于第i个用户的已知信息量，更加全面和准确；另一方面，通过预设的置信度变化值，对筛选后的关联规则再进行选择，使得获得的第i个用户的推荐信息更加可靠。

实施例三

本发明实施例提供一种获取推荐信息的方法，该方法包括：

步骤A1：当满足预设的推荐信息更新条件时，获取N个用户针对终端的历史操作数据，得出所述N个用户中每个用户的特征模型数据；N为大于1的整数。

在实际实施时，可以基于文本相似度计算算法，对获取的N个用户的历史操作数据进行处理，得到N个用户中每个用户的特征模型数据，如图4所示，具体步骤包括：

S401：读取N个用户的历史操作数据，得到N个用户中每个用户的用户ID。

在实际实施时，云服务器的数据库中存储的N个用户的历史操作数据，是云服务器从终端获取的具有相应字符格式的数据；其中，字符格式包括Session、Token和Json等，以Token格式为例，Token格式的历史操作数据由用户ID、控制参数和请求地址等参数组成，云服务器获取每个用户的历史操作数据后，通过token转id的方式获得对应的用户ID，每个用户的用户ID在数据库中是唯一的，是查询每个用户在数据库中的存储地址的唯一索引。

S402：对N个用户中每个用户的历史操作数据进行语料分析、分类和分词，得到N个用户中每个用户的词语集合。

在实际实施时，每个用户的历史操作数据都是用户实际使用的语言材料，需要进行对其进行语料分析、分类和分词，才能得到可进行数据挖掘的词语集合。

示例性的，首先对任一个用户的历史操作数据进行分析和分词，判断每个词语是否是与电器功能和电器处理对象相关的词语，或者是所述相关词语的形容词，保留所述相关词语，并将所述相关词语的形容词作为所述相关词语的标注进行保留；再根据所述相关词语的标注将其分为两类，即好评词语和差评词语，然后根据所述用户的用户ID找到所述用户在数据库中的存储地址，将好评词语和差评词语分别保存在数据库中所述用户的好评组和差评组，并分别保存在数据库中大众的好评组和差评组，好评组和差评组中记录词语以及该词语的出现次数；最后，由好评词语构成所述用户的词语集合；其中，好评词语的形容词有满意、好吃、好用、简单、方便等，差评词语的形容词有不好、声音大、慢、复杂等。

可选的，根据大众的好评组也能够得到推荐信息，将大众好评组中词语的出现次数较高的词语，作为推荐信息，向N个用户中每个用户进行推荐；根据大众的差评组，对推荐信息进行校正，当获得的推荐信息属于大众差评组中词语的出现次数较高的词语时，删除该推荐信息。

S403：统计N个用户中每个用户的词语集合中每个词语的出现次数，即词频，删除每个用户的词语集合中词频小于预设的词频阈值的词语，得到包含高频词的词语集合。

在实际实施时，每个用户的词语集合中除了包含自身针对终端的操作数据，可能包含其他用户针对该终端的操作数据，这种情况只是偶然发生的、需要排除在外的；可以通过预设的词频阈值滤除每个用户的词语集合中的低频词，预设的词频阈值的初始值是根据经验值设置的，之后通过深度学习方法不断调整，使预设的词频阈值更加合理。

可选的，计算每个用户的词语集合中的词语总个数，每个词语的词频除以词语总个数，得到每个用户的词语集合中每个词语的词频比率，通过预设的词频比率阈值滤除每个用户的词语集合中的低频词。

S404：根据N个用户中每个用户的包含高频词的词语集合，建立语料库词典。

在实际实施时，将所有用户的包含高频词的词语集合中的词语进行整理，得到一个包含所述词语集合的所有词语的语料库词典，所述语料库词典中的每一个词语都是有对应编号，编号从0至P，P为大于0的整数；并且，下一次执行该步骤时得到新的语料库词典，将新的语料库词典与所述语料库词典进行比较，得到所述语料库词典中没有的新语料，在所述语料库词典中对新语料分配新的编号后按序保存，得到更新后的语料库词典。

S405：将N个用户中每个用户的包含高频词的词语集合，转换为数组表示的词袋模型，其中，以语料库词典中的词语总个数作为数组长度，数组下标对应表示不同的词语，数组元素表示词语的词频。

在实际实施时，数组下标及每个下标对应的词语，与所述语料库词典的编号和编号对应的词语一样。

S406：计算N个用户的词袋模型两两之间的相似度，得到用户的特征模型数据。

在实际实施时，计算任一个用户的词袋模型与其他用户的词袋模型的相似度值，根据所述用户的用户ID找到所述用户在数据库中的存储地址，将所有用户的词袋模型、以及所述用户与其他用户的词袋模型相似度值保存在数据库中，将上述保存在数据库中的内容以及所述用户的好评组、差评组，作为所述用户的特征模型数据。

步骤A2-A7：分别与S302至S307的实现方式相同，这里不再赘述。

步骤A1至步骤A7可以由云服务器中的处理器实现。

由此可见，本发明实施例中，读取N个用户的历史操作数据，基于文本相似度算法，得到由每个用户的好评词语组成的词袋模型，以及每个用户的词袋模型与其他用户的词袋模型的相似度，据此来筛选关联规则，根据筛选后的关联规则获取每个用户的推荐信息，还能够从所有用户的终端数据中得到大众的好评数据，根据大众的好评数据向每个用户推荐目前受大众欢迎的信息内容，并且，商家也能够根据这些数据对市场产品的发展方向做出更加准确的预测分析。

实施例四

本发明实施例提供一种获取推荐信息的方法，该方法包括：

步骤B1：当满足预设的推荐信息更新条件时，获取N个用户针对终端的历史操作数据，得出所述N个用户中每个用户的特征模型数据；N为大于1的整数。

示例性的，用户1的历史操作数据包括：烤箱1很好用、做出来的鸡翅很美味，豆浆机1速度慢、声音大，对豆浆机2点赞两次；用户2的历史操作数据包括：自己用烤箱2做出来的蛋糕还不错，冰箱1冷藏效果好；用户3的历史操作数据包括：快递很快、两天就收到电饭煲1、做了米饭很香，豆浆机2功能多，对烤箱1点赞一次；其中，豆浆机1和豆浆机2中的数字1、2仅用于表示这是两个不同品牌的或者一个品牌不同型号的豆浆机，其他电器后的数字同样仅用于表示某品牌或某品牌的某型号；

对每个用户的历史操作数据中的词语进行分析和分词，保留与电器功能、食谱菜谱等相关的词语，以及词语的形容词，对于没有形容词的词语默认为好评词语，可以得到3个用户的由好评词语组成的的词语集合，用户1的词语集合包括：烤箱1(很好用)、鸡翅(很美味)、豆浆机2(点赞两次)；用户2的词语集合包括：烤箱2、蛋糕(还不错)、冰箱1(冷藏室空间大)；用户3的词语集合包括：电饭煲1、米饭(很香)、豆浆机2(功能多)、烤箱1(点赞一次)；

根据3个用户的词语集合，获得语料库词典为：0-烤箱1，1-鸡翅，2-豆浆机2，3-烤箱2，4-蛋糕、5-冰箱1、6-电饭煲1、7-米饭；

再对每个用户的词语集合转换为词袋模型，得到每个用户的词袋模型为：用户1[8]＝{1 1 2 0 0 0 0 0}，用户2[8]＝{0 0 0 1 1 1 0 0}，用户3[8]＝{1 0 1 0 0 0 11}，数组下标{0,1,2,3,4,5,6,7}类似索引，对应表示不同的词，即{烤箱1，鸡翅，豆浆机2，烤箱2，蛋糕、冰箱1、电饭煲1、米饭}，数组中的元素表示每个词的出现次数；

计算3个用户的词袋模型两两之间的相似度，得到3个用户的特征模型数据。

步骤B2：对所述N个用户的词袋模型进行数据挖掘，得到N个用户中每个用户的频繁项集和初始关联规则。

示例性的，对3个用户的词袋模型进行数据挖掘，得到3个用户的频繁项集和初始关联规则。

步骤B3：当i取1至N时，根据所述N个用户中第i个用户的特征模型数据对所述初始关联规则进行筛选，得到N个用户中第i个用户的筛选后的关联规则。

示例性的，当想要获取3个用户中用户1的推荐信息时，根据用户1的词袋模型，以及用户1的词袋模型与用户2、3的词袋模型的关系，对所述初始关联规则进行筛选，得到用户1的筛选后的关联规则。

步骤B4：根据所述N个用户中第i个用户的筛选后的关联规则，得到推荐信息。

示例性的，将用户1的筛选后的关联规则的后继的内容作为所述推荐信息，向用户1进行推荐。

步骤B1至步骤B4可以由云服务器中的处理器实现。

实施例五

为了能够更加体现本发明的目的，在前述方法实施例的基础上，进行进一步的举例说明。

本发明实施例提供一种获取推荐信息的装置，所述装置可以是云服务器，能够与终端进行实时通信，获取终端数据，如图5所示，所述装置500包括：网络接口501、存储器502、和处理器503，各个组件通过总线***504耦合在一起；可理解，总线***504用于实现这些组件之间的连接通信，总线***504除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，但是为了清楚说明起见，在图5中将各种总线都标为总线***504；其中，

网络接口501，用于在与其他外部网元之间进行收发信息过程中，信号的接收和发送；其中，所述其他外部网元包括：终端、具有通信功能的家电设备等，

存储器502用于存储计算机程序；

处理器503用于执行存储器502中存储的计算机程序，以实现以下步骤：

在上述方案中，所述处理器503具体用于运行存储器502中存储的计算机程序，以实现以下步骤：在所述N个用户中第i个用户的筛选后的关联规则中，选择置信度大于或等于预设的置信度变化值的关联规则，根据所选择的关联规则，得到推荐信息。

可选的，所述处理器503还用于运行存储器502中存储的计算机程序，以实现以下步骤：在所述得到推荐信息之后，根据所述N个用户中每个用户的特征模型数据和初始关联规则，通过深度学习机制对所述预设的置信度变化值进行更新，得到更新后的置信度变化值。

在上述方案中，所述处理器503具体用于运行存储器502中存储的计算机程序，以实现以下步骤：

根据以下至少一种词袋模型对所述初始关联规则进行筛选：

所述N个用户中第i个用户的词袋模型；

在上述方案中，所述处理器503具体用于运行存储器502中存储的计算机程序，以实现以下步骤：将所述N个用户中第i个用户的筛选后的关联规则的后继作为所述推荐信息。

可以理解，本发明实施例中的存储器502可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DRRAM)。本文描述的***和方法的存储器502旨在包括但不限于这些和任意其它适合类型的存储器。

而处理器503可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器503中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器503可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502，处理器503读取存储器502中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理部分可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits，ASIC)、数字信号处理器(Digital Signal Processing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(Programmable LogicDevice，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子部分或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

实施例六

基于与前述实施例相同的技术构思，本发明实施例六提供了一种计算机可读存储介质，可以应用于装置中；前述实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或processor(处理器)执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

具体来讲，本实施例中的一种获取推荐信息方法对应的计算机程序指令可以被存储在光盘，硬盘，U盘等存储介质上，当存储介质中的与一种获取推荐信息方法对应的计算机程序指令被一电子设备读取或被执行时，导致所述至少一个处理器执行本发明前述实施例的任意一种获取推荐信息方法所述的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种获取推荐信息的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述N个用户中第i个用户的筛选后的关联规则，得到推荐信息包括：

3.根据权利要求2所述的方法，其特征在于，在得到推荐信息之后，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述N个用户中第i个用户的特征模型数据对所述初始关联规则进行筛选，包括：

根据以下至少一种词袋模型对所述初始关联规则进行筛选：

所述N个用户中第i个用户的词袋模型；

5.根据权利要求1所述的方法，其特征在于，所述获取N个用户针对终端的历史操作数据，包括：

获取到N个用户针对终端的新的操作数据；

6.根据权利要求1至5中任一项所述的方法，其特征在于，每个用户针对终端的历史操作数据包括以下至少一项：用户输入的产品评论、用户选择的产品评价的关键词、用户的搜索记录、用户对产品的点赞记录。

7.根据权利要求6所述的方法，其特征在于，所述根据所述N个用户中第i个用户的筛选后的关联规则，得到推荐信息包括：

8.一种获取推荐信息的装置，其特征在于，所述装置包括：存储器和处理器，其中，

所述存储器，用于存储计算机程序；

9.根据权利要求8所述的装置，其特征在于，所述处理器具体用于运行所述计算机程序时，执行以下步骤：

10.根据权利要求9所述的装置，其特征在于，所述处理器还用于运行所述计算机程序时，执行以下步骤：

11.根据权利要求8所述的装置，其特征在于，所述处理器具体用于运行所述计算机程序时，执行以下步骤：

根据以下至少一种词袋模型对所述初始关联规则进行筛选：

所述N个用户中第i个用户的词袋模型；

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，