CN106933969A

CN106933969A - 基于行业上下游关系的个性化推荐***和推荐方法

Info

Publication number: CN106933969A
Application number: CN201710073473.8A
Authority: CN
Inventors: 柳淑升; 钟水萍; 郑建全
Original assignee: Nine Fangda Data Information Group Co Ltd
Current assignee: Nine Fangda Data Information Group Co Ltd
Priority date: 2017-02-10
Filing date: 2017-02-10
Publication date: 2017-07-07

Abstract

本发明公开了一种基于行业上下游关系的个性化推荐***，包括：数据同步模块；标签计算模块：用于按照行业关系对用户标签进行分类，并根据每一类中用户所持有的标签频度进行排序，获得标签顺序列表；所述行业关系包括上游行业、下游行业和同行业；用户计算模块：用于按照用户特征进行分类，然后对每类用户按照预定的规则计算排序指标，然后根据计算结果排序，获得用户顺序列表，进一步还包括标签推送模块和用户推送模块。该***保证与用户业务相关性比较高的用户可以优先被推荐。同时本发明还提供了与上述***相对应的推荐方法。

Description

基于行业上下游关系的个性化推荐***和推荐方法

技术领域

本发明涉及机器学习、智能推荐领域，尤其涉及一种基于用户行业及行业上下游背景的综合、智能推荐***和方法。

背景技术

推荐***是根据用户的信息需求、兴趣等，将用户感兴趣的信息、产品等推荐给用户的个性化信息推荐***。

目前主流的推荐***包括协同过滤推荐、基于内容的推荐、基于知识的推荐和混合推荐。

协同过滤推荐的基本思想是，如果用户过去有相同的偏好，那么他们在未来也会有相似的偏好。这种***得到了广泛使用，主要作为在线零售***对某个顾客需求个性化定制内容的工具，由此可以促销商品和提升销售额。

基于内容的推荐：根据历史信息(如评价、分享、收藏过的文档)构造用户偏好文档,计算推荐项目与用户偏好文档的相似度，将最相似的项目推荐给用户。例如，在电影推荐中，基于内容的***首先分析用户已经看过的打分比较高的电影的共性(演员、导演、风格等)，再推荐与这些用户感兴趣的电影内容相似度高的其他电影。基于内容的推荐几种技术主要来源于信息检索和信息过滤领域。由于纯粹基于内容的推荐的局限性在很多领域都非常严重，目前商业领域几乎没有纯粹的的基于内容的推荐***。更多的还是和其他推荐算法结合使用。

基于知识的推荐：使用用户知识和产品知识，通过推理什么产品能满足用户需求来产生推荐。这种推荐***不依赖于用户评分等关于用户偏好的历史数据，故其不存在冷启动方面的问题。基于知识的推荐***响应用户的即时需求，当用户偏好发生变化时不需要任何训练。基于知识的推荐***主要帮我们解决购买频度较低的商品，如房屋、汽车、相机等等。基于知识的推荐***分为基于约束推荐和基于实例推荐。目前，基于知识的推荐也有比较多的应用案例。如餐馆、汽车、电影和消费电子产品等等，同时也有比较多的领域研究成果。

混合推荐：混合推荐***是推荐***的另一个研究热点，它是指将多种推荐技术进行混合相互弥补缺点，从而可以获得更好的推荐效果。最常见的是将协同过滤技术和其他技术相结合，克服冷启动的问题。

但是，无论是协同过滤、基于内容和基于知识的推荐，又或是通常的混合推荐***，都有比较强的行业局限性。另外，如果需要依赖比较强的专业知识背景(比如行业上下游关系)，并且希望推荐结果不必过于集中化，比如同一类型的结果被集中推荐出来，这时候传统的推荐***就显得有些捉襟见肘。

在我们的应用场景中，首先依赖比较强的专业知识背景(比如行业上下游关系)。除了需要推荐出优质用户以外，我们还希望可以对推荐结果进行高度定制，即希望推荐结果按类别重要程度推出，这个重要程度依赖行业经验。同时，我们也不希望推荐结果集中化，即同一类别的用户集中出现，这样避免对其他类别有需求的用户带来不好的用户体验。

发明内容

本发明的目的是为了提供一种基于行业上下游关系的个性化推荐***和推荐方法，保证与用户业务相关性比较高的用户可以优先被推荐。

为解决上述技术问题，第一方面，本发明提供了一种基于行业上下游关系的个性化推荐***，包括：

数据同步模块：用于将线上数据库的数据源同步到本地服务器，所述数据源包括用户数据和标签数据；

标签计算模块：用于按照行业关系对用户标签进行分类，并根据每一类中用户所持有的标签频度进行排序，获得标签顺序列表；所述行业关系包括上游行业、下游行业和同行业；

用户计算模块：用于按照用户特征进行分类，然后对每类用户按照预定的规则计算排序指标，然后根据计算结果排序，获得用户顺序列表；

标签推送模块：用于根据用户所提供的注册信息，确定其所在行业，然后根据标签顺序列表为其推送行业上游、行业下游、同行业三组标签；以及

用户推送模块：用于根据用户发送的推荐请求中包含的信息参数，然后按照用户顺序列表为其推送有关分类的用户。

可选地或优选地，所述用户计算模块的对每类用户按照预定的规则计算排序指标，然后根据计算结果排序包括：计算用户的好友数、共同好友数和标签相似性三项指标，为每一项指标分配权重并按权重进行加总获得所述排序指标。

可选地或优选地，所述计算用户的好友数具体包括：查询用户好友表，统计各用户正常好友状态的好友数，然后对统计结果进行Z-core标准化。

可选地或优选地，计算所述共同好友数具体包括：查询用户好友表，分别得到第一用户的第一好友集合和第二用户的第二好友集合，然后计算第一好友集合和第二好友集合的雅可比系数，即用第一好友集合和第二好友集合的交集除以第一好友集合和第二好友集合的并集。

可选地或优选地，计算所述标签相关性具体包括：查询用户标签表，分别得到第一用户的第一标签集合和第二用户的第二标签集合，然后计算第一标签集合和第二标签集合的雅可比系数，即用第一标签集合和第二标签集合的交集除以第一标签集合和第二标签集合的并集。

可选地或优选地，所述标签推送模块根据标签顺序列表为其推送行业上游、行业下游、同行业三组标签包括：推送标签顺序列表中的前N项的标签，如果该标签顺序列表中的标签数小于N，则用按照预定规则计算得到的热门标签补足。

可选地或优选地，所述热门标签的计算方式包括：选取活跃用户的标签，然后按频次排序，出现频次越高即越优先作为热门标签。

可选地或优选地，所述用户推送模块根据用户发送的推荐请求中包含的信息参数，然后按照用户顺序列表为其推送有关分类的用户包括：

将各类用户作为不同的推荐途径，对推荐途径按照预定规则进行排序；

在每一推荐途径中根据用户顺序列表提取的前M人作为推送用户；

查看当前已提取人数，如果人数小于N，则进行新一轮提取，直到提取人数达到N人为止；

如果最终选定结果的人数仍未达到N，则通过热门和/或同城用户补足。

可选地或优选地，所述数据同步模块将线上数据库的数据源同步到本地服务器时采用增量提取，即只抽取自上次抽取以来线上数据库中要抽取的表中新增或修改的数据。

第二方面，本发明提供了一种基于行业上下游关系的个性化推荐方法，包括如下步骤：

将线上数据库的数据源同步到本地服务器，所述数据源包括用户数据和标签数据；

按照行业关系对用户标签进行分类，并根据每一类中用户所持有的标签频度进行排序，获得标签顺序列表；所述行业关系包括上游行业、下游行业和同行业；

按照用户特征进行分类，然后对每类用户按照预定的规则计算排序指标，然后根据计算结果排序，获得用户顺序列表；

根据用户所提供的注册信息，确定其所在行业，然后根据标签顺序列表为其推送行业上游、行业下游、同行业三组标签；

根据用户发送的推荐请求中包含的信息参数，然后按照用户顺序列表为其推送有关分类的用户。

本发明提供的一种基于行业上下游关系的个性化推荐方法和***，包括推标签和推人两部分。推标签主要是根据用户本身的行业或从业单位所在行业，为其推荐同行业及行业上下游产品及服务作为用户初始化标签，后续的标签维护交给用户自行维护以适应其个性化；推人则是要按照不同的类别分别推荐，基于行业上下游事实表的推荐，保证了与用户业务相关性比较高的用户可以优先被推荐，同时兼顾用户相关度、并且使新用户也有机会被推荐到。

附图说明

图1为本发明实施例1提供的一种基于行业上下游关系的个性化推荐方法的流程图；

图2为实施例1推荐方法的标签计算中计算上游行业标签的具体流程图；

图3为实施例1推荐方法的标签计算中计算同行业标签的具体流程图；

图4为实施例1推荐方法的标签计算中计算下游行业标签的具体流程图；

图5为实施例1推荐方法的用户计算的具体流程图；

图6为实施例1推荐方法的用户推送的具体流程图；

图7为本发明实施例2提供的一种基于行业上下游关系的个性化推荐***的结构示意图；

图8为本发明实施例2提供的一种基于行业上下游关系的个性化推荐***的架构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

实施例1

本发明实施例提供的一种基于行业上下游关系的个性化推荐方法，特别适用于为职场人士推荐行业相关的的用户，以便发现合作机会，寻找合作商机。其主要技术构思是基于行业上下游关系来优化推荐结果，以使得业务相关性比较高的用户可以优先被推荐。

请参考图1-6，本实施例中提供的一种基于行业上下游关系的个性化推荐方法，具体包括如下步骤：

S1：将线上数据库的数据源同步到本地服务器，所述数据源包括用户数据和标签数据；

通过将线上数据库中的数据源同步到本地服务器中，可以对用户进行及时的更新，保证推荐结果的及时性，在同步过程中，优选采用新增提取的方法对线上数据库进行用户提取，增量抽取只抽取自上次抽取以来数据库中要抽取的表中新增或修改的用户数据，然后将增量数据与本地数据实现合并，这样可以避免相同用户数据的重复提取和相同数据的覆盖，提高了数据同步效率。本地服务器的***架构可以采用hadoop，其具有利用集群的威力进行高速运算和存储的优点。增量提取可以采用sqoop以及MR合并工具进行增量同步。

S2：按照行业关系对用户标签进行分类，并根据每一类中用户所持有的标签频度进行排序，获得标签顺序列表；所述行业关系包括上游行业、下游行业和同行业。

在用户数据库中，每个用户都具有自己的标签，各个标签之间存在的行业关系，本发明实施例按照标签之间的行业关系进行分类，具体分为与本标签属于同行业的同行业标签、上游行业的标签和下游行业的标签。具体的计算过程包括：

S21：上游行业标签计算，即通过行业上游关系确定行业上游用户，然后依据行业上游用户所持有的标签频度，确定行业上游标签顺序列表。

S22：同行标签计算，即通过同行用户所持有标签的频度进行顺序确定。

S23：下游行业标签计算，即通过行业下游关系确定行业下游用户，然后依据行业下游用户所持有的标签频度，确定行业下游标签顺序列表。

得到各行业的标签顺序列表后，将这些列表存储在本地服务器中，以供后续流程调取。标签计算的具体计算算法可以通过hive以及MR算法包，在hadoop集群进行算法运算，运算结果会被推送到hbase进行存储。

S3：按照用户特征进行分类，然后对每类用户按照预定的规则计算排序指标，然后根据计算结果排序，获得用户顺序列表。

除了步骤S2中对行业进行分类推送外，本发明实施例还对用户进行分类推送。在用户分类时，仍然可以按照行业关系进行分类，并兼顾一些其他用户特征，这样推送结果是基于行业关系和其他社会关系数据融合而成的，推送依据更加广泛，用户获得的推送结果相关性更高，且避免了推送结果的集中度过高。例如，在一些实施例中，可以按照下表的用户特征对用户进行分类：

说明：这里的聚信是指采用该推荐算法的移动社交应用。

进一步，对各个分类的用户计算排序指标，并按照计算结果排序。排序指标可以是单一的指标，优选是多种指标按照预定策略的融合。例如，在本实施例中，采用的三种指标来计算排序指标，即用户的好友数、用户之间的共同好友数以及用户之间的标签相似性，最后的排序指标是该三种指标按照各自的权重进行加和得到的。在一些实施例中，具体的计算方式可以是：

S31：计算用户的好友数：查询用户好友表，统计各用户正常好友状态的好友数，然后对统计结果进行Z-core标准化。Z-core标准化的公式为：

对序列X₁，X₂，……X_n进行变换：

其中，

则新序列y₁，y₂……y_n的值均为0，而方差为1，且无量纲。这种无量纲的处理方法提高了数据之间的可比性。

S32：计算所述共同好友数：查询用户好友表，分别得到第一用户的第一好友集合和第二用户的第二好友集合，然后计算第一好友集合和第二好友集合的雅可比系数，即用第一好友集合和第二好友集合的交集除以第一好友集合和第二好友集合的并集。

以用户a和用户b为例，计算共同好友数时，首先在各自的用户好友表中获取用户a的好友集合A，以及用户b的好友集合B，然后求两者的雅克比(Jaccard)系数，公式如下：

即统计既是用户a的好友、也是用户b的好友数，再除以用户a和用户b好友数的集合。

S33：计算所述标签相关性：查询用户标签表，分别得到第一用户的第一标签集合和第二用户的第二标签集合，然后计算第一标签集合和第二标签集合的雅可比系数，即用第一标签集合和第二标签集合的交集除以第一标签集合和第二标签集合的并集。其具体的计算方法与S32中计算共同好友数的方法相同。

需要说明的是，上述步骤S31-S33的执行顺序不分先后。

S34：将以上三项的统计结果进行融合，作为最终的排序指标。本实施例以f表示好友数，以s表示共同好友数，以l表示标签相似性，以a1、a2、a3表示三者的系数，融合公式表示为：

a₁×f+a₂×s+a₃×l

针对于公式中的系数，因为没有先验文档，本实施例中还是采用人工设定的，根据用户反馈进行相应调整。三者的数值设定分别为a₁＝0.3，a₂＝0.4，a₃＝0.3。用户计算的具体算法也可以通过hive以及MR算法包，在hadoop集群进行算法运算，运算结果会被推送到hbase进行存储。

S4：根据用户所提供的注册信息，确定其所在行业，然后根据标签顺序列表为其推送行业上游、行业下游、同行业三组标签。

在推送过程中，推送标签顺序列表中的前N项的标签，例如可以推送前20项标签，如果该标签顺序列表中的标签数小于N，则用按照预定规则计算得到的热门标签补足，这样可以确保在行业关系紧密的用户数量不足的情况下，用户仍然能够获得一些具有潜在合作商机的用户推送结果。用户也可以从这些热门标签中获得提示，来完善、维护自己的标签，以在后续的请求过程中获得更多的相关标签。热门标签的计算方式优选包括：选取活跃用户的标签，然后按频次排序，出现频次越高即越优先作为热门标签。例如假设需要推送前20项标签，但是标签顺序列表中只有16项标签，则选取出现频次最高的4项热门标签排在上述16项标签后推送给用户。标签推送的目的主要是给用户做一个标记，为下一步推送用户做准备。

S5：根据用户发送的推荐请求中包含的信息参数，然后根据用户顺序列表为其推送有关分类的用户。

用户推荐面向所有用户，只要用户有添加新用户需求，就可以调用推荐接口，提供用户基本信息参数，推荐后台会根据用户基本特征为其推荐用户。

以推送N人，每一类型每轮提取M人(N>M)为例，具体的推送过程可以包括：

S51：将各类用户作为不同的推荐途径，对推荐途径按照预定规则进行排序；

S52：在每一推荐途径中根据用户顺序列表提取的前M人作为推送用户；

S53：查看当前已提取人数，如果人数小于N，则进行新一轮提取，直到提取人数达到N人为止；

S54：如果最终选定结果的人数仍未达到N，则通过热门和/或同城用户补足。

在步骤S51中，用户特征分类(即推荐途径分类)及每类中每一轮的提取人数M可以按照下表来设定：

最终，每一种推荐渠道的用户都会以该类的用户顺序列表的排序指标进行降序排列，排序指标高的用户会被优先推举出来呈现给用户。

在本实施例中，接收外来调用需求，传递需求参数，同时接收推荐结果返回给调用远端都可以通过一个调用接口来实现。

实施例2

本实施例提供了一种基于实施例1中推荐方法的基于行业上游关系的个性化推荐***，如图7所示，其具体包括以下的模块：

数据同步模块101：用于将线上数据库的数据源同步到本地服务器，所述数据源包括用户数据和标签数据；

数据同步模块101将线上数据库的数据源同步到本地服务器时采用增量提取，即只抽取自上次抽取以来线上数据库中要抽取的表中新增或修改的数据。

标签计算模块102：按照行业关系对用户标签进行分类，并根据每一类中用户所持有的标签频度进行排序，获得标签顺序列表；所述行业关系包括上游行业、下游行业和同行业；

用户计算模块103：按照用户特征进行分类，然后对每类用户按照预定的规则计算排序指标，然后根据计算结果排序，获得用户顺序列表；

用户计算模块103的对每类用户按照预定的规则计算排序指标，然后根据计算结果排序具体包括：计算用户的好友数、共同好友数和标签相似性三项指标，为每一项指标分配权重并按权重进行加总获得所述排序指标。

计算用户的好友数具体包括：查询用户好友表，统计各用户正常好友状态的好友数，然后对统计结果进行Z-core标准化。

计算所述共同好友数具体包括：查询用户好友表，分别得到第一用户的第一好友集合和第二用户的第二好友集合，然后计算第一好友集合和第二好友集合的雅可比系数，即用第一好友集合和第二好友集合的交集除以第一好友集合和第二好友集合的并集。

计算所述标签相关性具体包括：查询用户标签表，分别得到第一用户的第一标签集合和第二用户的第二标签集合，然后计算第一标签集合和第二标签集合的雅可比系数，即用第一标签集合和第二标签集合的交集除以第一标签集合和第二标签集合的并集。

标签推送模块104：根据用户所提供的注册信息，确定其所在行业，然后根据标签顺序列表为其推送行业上游、行业下游、同行业三组标签；

标签推送模块104根据标签顺序列表为其推送行业上游、行业下游、同行业三组标签具体包括：推送标签顺序列表中的前N项的标签，如果该标签顺序列表中的标签数小于N，则用按照预定规则计算得到的热门标签补足。

所述热门标签的计算方式包括：选取活跃用户的标签，然后按频次排序，出现频次越高即越优先作为热门标签。

用户推送模块105：根据用户发送的推荐请求中包含的信息参数，然后根据用户顺序列表为其推送有关分类的用户。

所述用户推送模块105根据用户发送的推荐请求中包含的信息参数，然后根据用户顺序列表为其推送有关分类的用户具体包括：

访问接口模块106：访问接口模块106主要是用于接收外来调用需求，向推荐模块传递需求参数，同时接收推荐结果返回给调用远端。

上述数据同步模块101、标签计算模块102、用户计算模块103、标签推送模块104和用户推送模块105分别对应实施例1中推荐的方法的步骤S1-S5的，其具体的实现方式和工作过程与实施例1中的S1-S5相同，在本实施例中不再赘述。

图8所示的是本发明实施例提供的推荐***的***架构图，其主要包括线上数据库201、本地服务器202和用户端207，具体的数据处理流程为：

本地服务器202从线上数据库201增量同步用户数据，利用hadopp集群203和本地数据合并，然后存储在Hbase 204中。推荐接口205是连接Hbase204、用户端207和Redis存储***206的接口，其一方面向Hbase 204传递用户的访问请求和参数信息，另一方面将推送结果发送给用户端207，并且还将推送结果保存在Redis存储***206中。

以上对本发明所提供的一种基于行业上下游关系的个性化推荐方法和***进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.基于行业上下游关系的个性化推荐***，包括：

2.根据权利要求1所述的基于行业上下游关系的个性化推荐***，其特征在于：所述用户计算模块对每类用户按照预定的规则计算排序指标，然后根据计算结果排序包括：计算用户的好友数、共同好友数和标签相似性三项指标，为每一项指标分配权重并按权重进行加总获得所述排序指标。

3.根据权利要求2所述的基于行业上下游关系的个性化推荐***，其特征在于，所述计算用户的好友数具体包括：查询用户好友表、统计各用户正常好友状态的好友数，然后对统计结果进行Z-core标准化。

4.根据权利要求2所述的基于行业上下游关系的个性化推荐***，其特征在于，所述计算所述共同好友数包括：查询用户好友表，分别得到第一用户的第一好友集合和第二用户的第二好友集合，然后计算第一好友集合和第二好友集合的雅可比系数，即用第一好友集合和第二好友集合的交集除以第一好友集合和第二好友集合的并集。

5.根据权利要求2所述的基于行业上下游关系的个性化推荐***，其特征在于，计算所述标签相关性具体包括：查询用户标签表，分别得到第一用户的第一标签集合和第二用户的第二标签集合，然后计算第一标签集合和第二标签集合的雅可比系数，即用第一标签集合和第二标签集合的交集除以第一标签集合和第二标签集合的并集。

6.根据权利要求1所述的基于行业上下游关系的个性化推荐***，其特征在于，所述标签推送模块根据标签顺序列表为其推送行业上游、行业下游、同行业三组标签包括：推送标签顺序列表中的前N项的标签，如果该标签顺序列表中的标签数小于N，则用按照预定规则计算得到的热门标签补足。

7.根据权利要求6所述的基于行业上下游关系的个性化推荐***，其特征在于，所述热门标签的计算方式包括：选取活跃用户的标签，然后按频次排序，出现频次越高即越优先作为热门标签。

8.根据权利要求1-7任一所述的基于行业上下游关系的个性化推荐***，其特征在于，所述用户推送模块根据用户发送的推荐请求中包含的信息参数，然后按照用户顺序列表为其推送有关分类的用户包括：

9.根据权利要求1-7任一所述的基于行业上下游关系的个性化推荐***，其特征在于，所述数据同步模块将线上数据库的数据源同步到本地服务器时采用增量提取，即只抽取自上次抽取以来线上数据库中要抽取的表中新增或修改的数据。

10.一种基于行业上下游关系的个性化推荐方法，包括如下步骤：