CN107590224B

CN107590224B - 基于大数据的用户偏好分析方法与装置

Info

Publication number: CN107590224B
Application number: CN201710786530.7A
Authority: CN
Inventors: 王颖帅; 李晓霞; 苗诗雨
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2017-09-04
Filing date: 2017-09-04
Publication date: 2021-11-30
Anticipated expiration: 2037-09-04
Also published as: CN107590224A

Abstract

本公开提供一种基于大数据的用户偏好分析方法与装置。方法包括：获取用户与内容的交互行为数据，所述内容具有至少一个标签；对所述交互行为数据进行预处理并生成特征数据集，将所述特征数据集即作为gcForest模型的输入特征值；将所述gcForest模型中每一层级联森林输出的类概率向量与所述特征数据集的特征作为下一层级联森林的输入特征；根据所述gcForest模型最后一层级联森林输出的类概率向量获取用户对所述标签的偏好概率。本公开提供的用户偏好分析方法能够基于大数据样本提供更精确的用户偏好分析结果。

Description

基于大数据的用户偏好分析方法与装置

技术领域

本公开涉及机器学习技术领域，具体而言，涉及一种基于大数据的用户偏好分析方法与装置。

背景技术

随着互联网技术的发展，对用户进行内容个性化推荐越来越普及。以文章推荐为例，通过根据文章内容为每篇文章设置一或多个标签，并获取用户对文章的操作，可以分析出用户对哪些标签有偏好，从而可以为用户推荐这些标签下的其他文章，提升用户体验。

在现有的个性化推荐技术中，分析用户偏好的方法主要包括基于LR逻辑回归算法分析法和基于分析师策略对每个特征按照时间权重得出统计公式打分法。在基于LR逻辑回归算法分析法中，数据分析师需要根据业务经验分析需要提取哪些特征，以及以何种方式给内容打标签。在获得特征和标签数据后，对不同标签进行分层抽样，利用统计分析软件的逻辑回归模型获取各个特征的系数，从而确定用户标签偏好得分公式。基于时间权重统计打分法是假设用户对最近时间选择的内容比稍远时间选择的内容更偏好，从而按照时间权重维护一份数据，即找一个合适的函数确定一年365天每一天的时间权重，最后结合每个特征得出有时间维度的统计公式。

在上述技术中，LR逻辑回归算法分析法需要分析师根据业务经验确定每个特征的系数，强依赖于分析师经验，且每个业务都需要手动分析，效率较低，样本数小。而由于用户在不同的时间段对内容的偏好程度不一样，难以找到最合适的时间权重函数，因此基于时间权重统计打分法也难以精确挖掘用户偏好。

因此，一种能够处理大量样本并提供更准确分析结果的用户偏好分析方法算法对于提升个性化推荐能力以及提升内容点击量具有重大意义。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种基于大数据的用户偏好分析方法与装置，用于至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或多个问题。

根据本公开实施例的第一方面，提供一种基于大数据的用户偏好分析方法，包括：获取用户与内容的交互行为数据，所述内容具有至少一个标签；对所述交互行为数据进行预处理并生成特征数据集，将所述特征数据集即作为gcForest模型的输入特征值；将所述gcForest模型中每一层级联森林输出的类概率向量与所述特征数据集的特征作为下一层级联森林的输入特征；根据所述gcForest模型最后一层级联森林输出的类概率向量获取用户对所述标签的偏好概率。

在本公开的一种示例性实施例中，所述交互行为数据包括用户在预设时间段内对所述内容的操作的数据，所述数据包括浏览数、点赞数、分享数、评论数、查看详情次数、下单数。

在本公开的一种示例性实施例中，对所述交互行为数据进行预处理包括：判断所述交互行为数据中是否存在缺失数据，如果存在则补充缺失数据；删除所述交互行为数据中预设范围的极大值与极小值；对所述交互行为数据做特征归一化处理。

在本公开的一种示例性实施例中，对所述交互行为数据进行预处理还包括：根据所述交互行为数据以及当前时间的前一天用户对所述内容的操作增加一列特征值。

在本公开的一种示例性实施例中，还包括：获取用户的实物品类偏好数据；根据所述实物品类偏好数据修正所述用户对所述标签的偏好概率。

在本公开的一种示例性实施例中，还包括：根据所述偏好概率选择推荐内容；获取用户对所述推荐内容的点击数据，根据所述点击数据修正所述偏好概率。

根据本公开的第二方面，提供一种基于大数据的用户偏好分析装置，包括：数据获取模块，用于获取用户与内容的交互行为数据，所述内容具有至少一个标签；特征预处理模块，用于对所述交互行为数据进行预处理并生成特征数据集，将所述特征数据集即作为gcForest模型的输入特征值；级联森林模块，用于将所述gcForest模型中每一层级联森林输出的类概率向量与所述特征数据集的特征作为下一层级联森林的输入特征；偏好计算模块，用于根据所述gcForest模型最后一层级联森林输出的类概率向量获取用户对所述标签的偏好概率。

在本公开的一种示例性实施例中，所述特征预处理模块包括：缺失值处理单元，用于判断所述交互行为数据中是否存在缺失数据，如果存在则补充缺失数据；异常值处理单元，用于删除所述交互行为数据中预设范围的极大值与极小值；归一化处理单元，用于对所述交互行为数据做特征归一化处理。

在本公开的一种示例性实施例中，所述特征预处理模块还包括：特征增加单元，用于根据所述交互行为数据以及当前时间的前一天用户对所述内容的操作增加一列特征值。

在本公开的一种示例性实施例中，还包括：实物偏好修正模块，用于获取用户的实物品类偏好数据，并根据所述实物品类偏好数据修正所述用户对所述标签的偏好概率。

在本公开的一种示例性实施例中，还包括：点击率修正模块，用于根据所述偏好概率选择推荐内容，并获取用户对所述推荐内容的点击数据，根据所述点击数据修正所述偏好概率。

根据本公开的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任意一项所述的方法步骤。

本发明通过使用改进后的多粒度级联森林算法gcForest对大数据样本进行分布式处理，并根据输出结果分析用户对内容标签的偏好，可以在使用更丰富数据的条件下获取更精确的用户偏好分析结果，提升个性化推荐效率，改善用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本公开示例性实施例中基于大数据的用户偏好分析方法的流程图。

图2是本公开示例性实施例中交互行为数据的示意图。

图3是本公开示例性实施例中对交互行为数据进行预处理的流程图。

图4是本公开示例性实施例中处理交互行为数据中缺失值的流程图。

图5是本公开示例性实施例中对交互行为数据进行预处理后的数据表示意图。

图6是多粒度级联森林(gcForest)结构的示意图。

图7是级联森林中的类概率向量生成示意图。

图8是本公开示例性实施例中对gcForest算法进行改进的示意图。

图9是本公开示例性实施例中输出的用户对标签的偏好概率数据表。

图10是本公开示例性实施例中一种用户偏好分析方法流程图。

图11示意性示出本公开一个示例性实施例中一种基于大数据的用户偏好分析装置的方框图。

图12示意性示出本公开一个示例性实施例中另一种基于大数据的用户偏好分析装置的方框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

下面结合附图对本公开示例实施方式进行详细说明。

图1示意性示出本公开示例性实施例中基于大数据的用户偏好分析方法的流程图。参考图1，基于大数据的用户偏好分析方法100包括：

步骤S102，获取用户与内容的交互行为数据，所述内容具有至少一个标签。

步骤S104，对所述交互行为数据进行预处理并生成特征数据集，将所述特征数据集即作为gcForest模型的输入特征值。

步骤S106，将所述gcForest模型中每一层级联森林输出的类概率向量与所述特征数据集的特征作为下一层级联森林的输入特征。

步骤S108，根据所述gcForest模型最后一层级联森林输出的类概率向量获取用户对所述标签的偏好概率。

通过使用改进的多粒度级联森林算法gcForest对海量样本进行分布式处理，并根据输出结果分析用户对内容标签的偏好，可以在使用更丰富数据的条件下获取更精确的用户偏好分析结果，提升个性化推荐效率，改善用户体验。

下面，对方法100的各步骤进行详细说明。

在步骤S102，获取用户与内容的交互行为数据，所述内容具有至少一个标签。

本公开所指的“内容”包括但不限于文章、商品、音乐、视频、书籍或其他可以被推荐给用户的内容。为方便说明，本公开仅以文章推荐为例，本领域相关技术人员可自行设置将本方法应用于其他内容的个性化推荐。

图2是本公开示例性实施例中互行为数据的示意图。参考图2，交互行为数据可以包括用户在预设时间段内对所述内容的操作的数据，所述数据包括浏览数、点赞数、分享数、评论数、查看详情次数、下单数。

具体而言，在京东发现文章频道，在90天内对文章内容有直接行为的用户大约为1300万，这个数量可以满足分析数据需求，因此上述预设时间段可以被设置为90天，交互行为数据可以为90天内的用户行为。但是在一些实施例中，分析用户的点赞特征、用户的分享特征等行为可以选取用户在30天内的操作数据。

可以通过HIVE对数据库中记录的用户行为提取以下六个特征：

特征1：用户过去90天对标签的浏览分数特征；

特征2：用户过去90天对标签的点赞分数特征；

特征3：用户过去30天对标签的分享分数特征；

特征4：用户过去30天对标签的评论分数特征；

特征5：用户过去30天在标签页点击商品详情的分数特征；

特征6：用户由标签引起的订单分数特征。

HIVE是基于Hadoop的一个数据库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，十分适合数据库的统计分析。上述提取的各分数特征包括该用户行为在预设时间段内的数量，在处理各分数特征时，可以根据每一维度特征的具体业务，通过数据预处理为各数据设置特征值。在一些实施例中，也可以根据每一用户行为的具体权重设置特征值，特征值例如可以用户行为数量或用户行为数量的加权值。设置特征值的方法可以由本领域相关技术人员根据实际情况设置，本公开对此不作特殊限定。

本公开通过在大量特征中计算各个特征对目标预测变量用户点击转化率的相关性重要程度，依据信息增益选取以上最有价值的六个特征，可以覆盖对90％以上的用户行为信息的分析。

如图2所示，提取出的特征数据格式第一列为用户名，第二列为内容标签，第三列到第八列为HIVE提取的六个特征的特征值。

在步骤S104，对所述交互行为数据进行预处理并生成特征数据集，将所述特征数据集即作为gcForest模型的输入特征值。

图3是本公开示例性实施例中对交互行为数据进行预处理的流程图。参考图3，对交互行为数据进行预处理的流程可以包括：

步骤S302，判断所述交互行为数据中是否存在缺失数据，如果存在则补充缺失数据。

步骤S304，删除所述交互行为数据中预设范围的极大值与极小值。

步骤S306，对所述交互行为数据做特征归一化处理。

参考图4，在步骤S302，获取数据之后，首先进入步骤S3020判断是否存在缺失值，如果不存在缺失值，则进入步骤S304；如果存在缺失值，则进入步骤S3021，判断缺失值是否有意义。意义是指特征数据对于目标的预测是否有关键作用。例如，一名用户的六个特征值只缺失一个，则可以判断这名用户是活跃用户，缺失特征不影响预测该用户的行为，此时可以判断该缺失值无意义。在一些实施例中，判断缺失值可以通过计算缺失值与现存值的比例，当该比例小于阈值时，可以判定缺失值无意义，当该比例大于或等于阈值时，则认为缺失值比较重要，有意义。

当缺失值有意义并且为缺失值为分类类型时，进入步骤S3022为缺失值创建一个分类；当缺失值有意义且缺失值为数值型时，进入步骤S3023将缺失值设置为有理数，例如将缺失值设置为该特征下所有特征值的平均数或中位数；当缺失值没有意义时，进入步骤S3024判断具体的数据缺失情况。如果整体数据缺失数据少(小于一阈值)，则进入步骤S3025删除缺失数据的实例；如果整体数据按时间有序，进入步骤S3026则用比整体数据时间更早的数据中的一个值代替该缺失值(例如选择时间最接近整体数据最早时间的数据)；如果是其他情况，则进入步骤S3027判断整体数据是否服从简单分布，如果整体数据不服从简单分布，则进入步骤S3028使用简单机器学***均值替代该缺失值并进入步骤S304；如果整体数据服从简单分布且有异常值，则进入步骤S3030使用该列数据的中位数替代该缺失值并进入步骤S304。异常值是一组数值中与平均值的偏差超过两倍标准差的数值。

在步骤S304，通过分析每个特征的数据分布，删除数据分布前x％和后y％的数据，可以删除数据中的异常值。其中，x和y是介于1～99的自然数，可以相同也可以不同，在本公开的示例性实施例中，x和y例如可以都为5，即可以通过删除数据中最大的5％的数据和最小的5％的数据来删除数据中的异常值。

在步骤S306，可以对每个特征的数据做归一化处理。数据归一化的公式例如可以为：

其中，y_inew是归一化后的特征值，y_i是原数据，y_min是该特征的所有现存数据中的最小值，y_max是该特征的所有现存数据中的最大值。归一化之后的特征数据分布在0到1之间。

在本公开的一种示例性实施例中，对交互行为数据进行预处理还可以包括：步骤S308，根据所述交互行为数据以及当前时间的前一天用户对所述内容的操作增加一列特征值。

在参考用户在预设时间段内的行为的基础上，可以观察用户昨天是否点击了之前有过操作的标签的内容。如果判断用户在昨天点击了曾有操作的标签的内容，则对该用户与该标签的交互行为数据添加特征值“1”；如果判断用户在昨天没有点击曾有操作的标签的内容，则对该用户与该标签的交互行为数据添加特征值“0”。添加后的特征值组成了一列新的特征。

在对数据进行预处理后，可以通过大数据平台Spark构造训练数据集的完整数据。图5是本公开示例性实施例中对交互行为数据进行预处理后的数据表示意图。参考图5，数据表第一列是添加的特征值，后面各列依次是特征编号：特征值。

通过对获取到的交互行为进行预处理，可以为接下来的分析过程提供更有效、更准确的数据源。

接下来，将预处理后的数据作为机器学习模型的输入数据。

值得说明的是，在测试数据之前，需要使用数据集对机器模型进行训练。训练后的模型可以用来测试包括训练数据集在内的数据集，在本公开的一些实施例中，用于测试的数据集可以包括从线上数据流中获取的经过预处理的实时用户行为数据。

在本公开的示例性实施例中，选取gcForest算法作为分析用户偏好的机器学习算法。gcForest(多粒度级联森林)算法是一种多粒度级联决策树集成方法，相比于深度神经网络中的特征学习主要依赖于对原始特征进行逐层处理，gcForest算法使用级联结构让由决策树组成的多个森林做特征学习。gcForest算法中的多粒度扫描输入可以增强级联森林的特征学习能力，相比于传统的逻辑回归算法，能进行更有效的特征提取，更适合大数据精准化的个性化推荐，更适用于并行部署，并具有理论分析简单，调试参数较少等优点。

图6是多粒度级联森林(gcForest)结构的示意图。参考图6，级联森林中的每一级接收到由前一级处理的特征信息，并将该级的处理结果输出给下一级。每个级联层包含两个随机森林和两个完全随机森林，每个完全随机森林包含1000个完全随机树，每个随机森林包含1000棵随机树。gcForest算法使用级联结构把模型训练分为特征生成阶段和结果输出阶段两个阶段。在特征生成阶段，完全随机森林中的完全随机树随机选择一个特征在树的每个节点进行分类，使树一直生长，直到每个叶节点只包含相同类的实例或者不超过10个实例；相对地，随机森林中的随机树选择特征开根号数目的特征作为候选特征，并选择具有最佳gini值的特征作为分类特征。假设有n个类要预测，每个森林将输出n维类概率向量，然后将其连接为交互组合特征作为下一级森林的输入数据。

图7是级联森林中的类概率向量生成示意图。参考图7，叶节点中的不同标记表示了不同的类。当一个新的用户实例进入gcForest模型的时候，每个森林会计算在相关实例落入的叶节点处的不同类的样本百分比，对森林中的所有树计算平均值，以生成对类的分布的估计，即每个森林会输出一个类概率向量。为了降低过拟合风险，每个森林产生的类概率向量由K折交叉验证生成。

在步骤S106，将所述gcForest模型中每一层级联森林输出的类概率向量与所述特征数据集的特征作为下一层级联森林的输入特征。

图8是本公开示例性实施例中对gcForest算法进行改进的示意图。参考图8，从相同大小的滑动特征窗口提取的实例将用于训练完全随机森林和随机森林，经过训练的森林生成类概率向量，并将类概率向量连接为转换后的特征。相比于现有的gcForest算法通过上一级级联森林输出原始特征交互组合构造下一级级联森林的新的输入交互特征，本发明在构造新输入特征时进行了改进，除第一层级联森林的输入特征是预处理后的7个特征外，其他级联森林的输入特征均为原有的7个特征、上一级级联森林输出的交互组合特征与上一级级联森林输出的叶子节点的偏好概率特征，即，把上一级森林预测的偏好概率作为下一级森林输入的新特征。具体地，使上一级森林预测的偏好概率作为新特征和原有的7个特征以及上一层森林输出的交互组合特征一起被滑动窗口捕获，并将偏好概率作为分类特征加入下一级森林的分类特征中。通过对每一层级联森林增加特征，可以提高gcForest算法的精确度。

在此参考图7，gcForest模型最后一层级联森林输出的类概率向量的形式为{a,b,c,d,……}。其中，向量的元素数量与涉及到的标签数量相同，各元素之和等于1，每个元素的含义为一名用户对一个标签的偏好概率。通过获取多名用户的实例的类概率向量，可以得到多名用户对其偏好标签的偏好分数。偏好分数的计算可以由本领域相关技术人员自行根据实际情况设置，只要设置依据为用户对标签的偏好概率即可。

图9是本公开示例性实施例中输出的用户对标签的偏好概率数据表。参考图9，偏好概率数据表第一列是用户名，第二列以及之后的列是标签：偏好分数#标签：偏好分数……。

图10是本公开示例性实施例中一种用户偏好分析方法流程图。参考的图10，用户偏好分析方法1000除了包括用户偏好分析方法100的全部步骤外，还可以包括：

步骤S1002，获取用户的实物品类偏好数据。

步骤S1004，根据所述实物品类偏好数据修正所述用户对所述标签的偏好概率。

步骤S1006，根据所述偏好概率选择推荐内容。

步骤S1008，获取用户对所述推荐内容的点击数据，根据所述点击数据修正所述偏好概率。

当用户偏好分析方法1000用于分析用户对电商网站文章标签的偏好程度时，可以把根据gcForest算法分析出的用户偏好与用户对实物品类的偏好关联，用实物品类偏好概率来扩充修正用户偏好概率。

首先，可以找到商品三级品类和标签的对应关系，并对标签的偏好分数做权重归一化处理：

(1)以用户为关联主键，获取并关联用户-商品三级品类-偏好数据表和用户-标签-偏好数据表，关联结果记做TableA；

(2)在TableA中，以标签编号和商品三级品类编号为关联主键，计算出每个标签下每个商品三级品类的分数，记为score；

(3)在TableA中，以标签编号为关联主键，计算出每个标签下的偏好分数总分，记为sumScore；

(4)计算出所有标签的偏好分数总分，记为allScore；

(5)以商品三级品类为关联主键，计算出每个商品三级品类下的总分数，记为sum；

(6)对每一个标签计算一个过滤阈值：算出这个标签下的得分占整体标签得分总和的比例，该比例就是每一个标签的过滤阈值，记为tagRatio；

(7)每个商品三级品类下会对应多个标签编号，标签编号被留下来的依据是：该商品三级品类下的标签得分除以这个商品三级品类总分数要大于过滤阈值tagRatio；

(8)归一化排序分数：对每个商品三级品类留存的标签编号计算标签权重分数，公式如下：

归一化处理可以使用户在商品三级品类下对应的标签多样化。

电商网站的用户可能没有对文章标签的偏好，但是有对商品的商品三级品类的偏好，此时可以给用户推荐商品三级品类对应的标签：以商品三级品类为关联主键，用归一化排序分数关联用户商品三级品类偏好表；将用户商品三级品类偏好的分数乘以标签权重分数作为扩量标签分数；以用户和标签为组合键，计算出用户对扩量标签的分数。

通过使用用户对商品三级品类的偏好修正用户对标签的偏好，可以更准确地获取用户的偏好。

在本公开的一种示例性实施例中，还包括：

步骤S114，根据所述偏好概率选择推荐内容；

步骤S116，获取用户对所述推荐内容的点击数据，根据所述点击数据修正所述偏好概率。

在获取用户对标签的偏好后，可以将每名用户偏好概率最大的若干个标签下的内容推荐给用户，其中，选择标签的标准可以为数量小于等于阈值，也可以为偏好概率大于一阈值，或者为偏好分数大于一阈值。本公开对此不作特殊限定。

可以通过标记记录用户对推荐内容的点击。在一些实施例中，可以将用户点击推荐内容标记为‘1’，将用户不点击推荐内容标记为‘0’，在一些实施例中，也可以在用户多次点击推荐内容时记录点击次数。

通过获取用户对推荐内容的点击，可以训练上述gcForest模型向着更符合用户实际偏好的方向学习，学习出的模型用来预测新数据，即实现了通过点击率修正用户偏好概率的目的。

通过结合线上业务对推荐内容是否引起用户真实的点击行为做出统计，并以此训练模型，可以给线上运营模型带来PV(PageView，页面浏览量)、UV(UniqueVisitor，独立访客)的提升。

相比于传统的逻辑回归算法要依赖数据分析师的业务经验权衡特征系数，在小样本上抽样部分数据做统计分析的局限性，gcForest算法可以处理海量数据，并可以对复杂特征重新加工，发现特征间的相互效应，且模型容易训练，可解释性比深度神经网络强，能够输出更准确的判断结果，更适合复杂的业务场景。本公开通过运用改进后的gcForest分析用户偏好概率，并结合具体业务修正用户偏好，更准确地分析了用户偏好，优化了用户体验，为线上业务带来了更多收益。

对应于上述方法实施例，本公开还提供一种基于大数据的用户偏好分析装置，可以用于执行上述方法实施例。

参考图11，基于大数据的用户偏好分析装置1100包括：

数据获取模块1102，用于获取用户与内容的交互行为数据，所述内容具有至少一个标签。

特征预处理模块1104，用于对所述交互行为数据进行预处理并生成特征数据集，将所述特征数据集即作为gcForest模型的输入特征值。

级联森林模块1106，用于将所述gcForest模型中每一层级联森林输出的类概率向量与所述特征数据集的特征作为下一层级联森林的输入特征。

偏好计算模块1108，用于根据所述gcForest模型最后一层级联森林输出的类概率向量获取用户对所述标签的偏好概率。

在本公开的一种示例性实施例中，所述特征预处理模块包括：

缺失值处理单元11042，用于判断所述交互行为数据中是否存在缺失数据，如果存在则补充缺失数据。

异常值处理单元11044，用于删除所述交互行为数据中预设范围的极大值与极小值。

归一化处理单元11046，用于对所述交互行为数据做特征归一化处理。

在本公开的一种示例性实施例中，所述特征预处理模块还包括：

特征增加单元11048，用于根据所述交互行为数据以及当前时间的前一天用户对所述内容的操作增加一列特征值。

在本公开的一种示例性实施例中，还包括：

实物偏好修正模块1110，用于获取用户的实物品类偏好数据，并根据所述实物品类偏好数据修正所述用户对所述标签的偏好概率。

在本公开的一种示例性实施例中，还包括：

点击率修正模块1112，用于根据所述偏好概率选择推荐内容，并获取用户对所述推荐内容的点击数据，根据所述点击数据修正所述偏好概率。

由于装置1100的各功能已在其对应的方法实施例中予以详细说明，本公开于此不再赘述。

根据本公开的一个方面，提供一种基于大数据的用户偏好分析装置，包括：

存储器；以及

耦合到所属存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如上述任意一项所述的方法。

该实施例中的装置的处理器执行操作的具体方式已经在有关该基于大数据的用户偏好分析方法的实施例中执行了详细描述，此处将不做详细阐述说明。

图12是根据一示例性实施例示出的一种装置1300的框图。装置1300可以是智能手机、平板电脑等移动终端。

参照图12，装置1200可以包括以下一个或多个组件：处理组件1202，存储器1204，电源组件1206，多媒体组件1208，音频组件1210，传感器组件1214以及通信组件1216。

处理组件1202通常控制装置1200的整体操作，诸如与显示，电话呼叫，数据通信，相机操作以及记录操作相关联的操作等。处理组件1202可以包括一个或多个处理器1218来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1202可以包括一个或多个模块，便于处理组件1202和其他组件之间的交互。例如，处理组件1202可以包括多媒体模块，以方便多媒体组件1208和处理组件1202之间的交互。

存储器1204被配置为存储各种类型的数据以支持在装置1200的操作。这些数据的示例包括用于在装置1200上操作的任何应用程序或方法的指令。存储器1204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储器1204中还存储有一个或多个模块，该一个或多个模块被配置成由该一个或多个处理器1218执行，以完成上述任一所示方法中的全部或者部分步骤。

电源组件1206为装置1200的各种组件提供电力。电源组件1206可以包括电源管理***，一个或多个电源，及其他与为装置1200生成、管理和分配电力相关联的组件。

多媒体组件1208包括在所述装置1200和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

音频组件1210被配置为输出和/或输入音频信号。例如，音频组件1210包括一个麦克风(MIC)，当装置1200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1204或经由通信组件1216发送。在一些实施例中，音频组件1210还包括一个扬声器，用于输出音频信号。

传感器组件1214包括一个或多个传感器，用于为装置1200提供各个方面的状态评估。例如，传感器组件1214可以检测到装置1200的打开/关闭状态，组件的相对定位，传感器组件1214还可以检测装置1200或装置1200一个组件的位置改变以及装置1200的温度变化。在一些实施例中，该传感器组件1214还可以包括磁传感器，压力传感器或温度传感器。

通信组件1216被配置为便于装置1200和其他设备之间有线或无线方式的通信。装置1200可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件1216经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1216还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置1200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在本公开的一种示例性实施例中，还提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如上述任意一项所述的基于大数据的用户偏好分析方法。该计算机可读存储介质例如可以为包括指令的临时性和非临时性计算机可读存储介质。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和构思由权利要求指出。

Claims

1.一种基于大数据的用户偏好分析方法，其特征在于，包括：

获取用户与内容的交互行为数据，所述内容具有至少一个标签；

对所述交互行为数据进行预处理并生成特征数据集，将所述特征数据集作为gcForest模型的输入特征值；

将所述gcForest模型中每一层级联森林输出的交互组合特征和叶子节点的偏好概率特征与所述特征数据集的特征作为下一层级联森林的输入特征；

根据所述gcForest模型最后一层级联森林输出的类概率向量获取用户对所述标签的偏好概率；

获取用户的实物品类偏好数据，根据所述实物品类偏好数据修正所述用户对所述标签的偏好概率。

2.根据权利要求1所述的用户偏好分析方法，其特征在于，所述交互行为数据包括用户在预设时间段内对所述内容的操作的数据，所述数据包括浏览数、点赞数、分享数、评论数、查看详情次数、下单数。

3.根据权利要求1所述的用户偏好分析方法，其特征在于，对所述交互行为数据进行预处理包括：

判断所述交互行为数据中是否存在缺失数据，如果存在则补充缺失数据；

删除所述交互行为数据中预设范围的极大值与极小值；

对所述交互行为数据做特征归一化处理。

4.根据权利要求1所述的用户偏好分析方法，其特征在于，对所述交互行为数据进行预处理还包括：

根据所述交互行为数据以及当前时间的前一天用户对所述内容的操作增加一列特征值。

5.根据权利要求1所述的用户偏好分析方法，其特征在于，还包括：

根据所述偏好概率选择推荐内容；

获取用户对所述推荐内容的点击数据，根据所述点击数据修正所述偏好概率。

6.一种基于大数据的用户偏好分析装置，其特征在于，包括：

数据获取模块，用于获取用户与内容的交互行为数据，所述内容具有至少一个标签；

特征预处理模块，用于对所述交互行为数据进行预处理并生成特征数据集，将所述特征数据集即作为gcForest模型的输入特征值；

级联森林模块，用于将所述gcForest模型中每一层级联森林输出的交互组合特征和叶子节点的偏好概率特征与所述特征数据集的特征作为下一层级联森林的输入特征；

偏好计算模块，用于根据所述gcForest模型最后一层级联森林输出的类概率向量获取用户对所述标签的偏好概率；

实物偏好修正模块，用于获取用户的实物品类偏好数据，并根据所述实物品类偏好数据修正所述用户对所述标签的偏好概率。

7.根据权利要求6所述的用户偏好分析装置，其特征在于，所述交互行为数据包括用户在预设时间段内对所述内容的操作的数据，所述数据包括浏览数、点赞数、分享数、评论数、查看详情次数、下单数。

8.根据权利要求6所述的用户偏好分析装置，其特征在于，所述特征预处理模块包括：

缺失值处理单元，用于判断所述交互行为数据中是否存在缺失数据，如果存在则补充缺失数据；

异常值处理单元，用于删除所述交互行为数据中预设范围的极大值与极小值；

归一化处理单元，用于对所述交互行为数据做特征归一化处理。

9.根据权利要求6所述的用户偏好分析装置，其特征在于，所述特征预处理模块还包括：

特征增加单元，用于根据所述交互行为数据以及当前时间的前一天用户对所述内容的操作增加一列特征值。

10.根据权利要求6所述的用户偏好分析装置，其特征在于，还包括：

点击率修正模块，用于根据所述偏好概率选择推荐内容，并获取用户对所述推荐内容的点击数据，根据所述点击数据修正所述偏好概率。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-5任一项所述的方法步骤。