CN106777132A

CN106777132A - 数据处理方法及装置

Info

Publication number: CN106777132A
Application number: CN201611173120.7A
Authority: CN
Inventors: 龚天雪; 赵寄筌; 管纯波; 李雪粉; 刘礼; 黄远魁; 余芬; 徐畅; 王珏; 王安静
Original assignee: Shenzhen Lamabang Technology Co Ltd
Current assignee: Shenzhen Lamabang Technology Co Ltd
Priority date: 2016-12-18
Filing date: 2016-12-18
Publication date: 2017-05-31

Abstract

本发明公开了一种数据处理方法及装置。其中，该方法包括：根据至少一个维度获取数据，其中，维度用于表示与数据被推荐相关的属性；根据各个数据对应的维度对获取到的数据进行合并；将合并后的数据按照预定规则进行排序，其中，预定规则能够被编辑，排序后的数据用于向用户进行推荐。通过本发明实现了灵活推荐的目的，进而解决了现有技术中仅仅根据用户上次访问的数据来进行推荐造成的无法满足内容服务商要求的问题。

Description

数据处理方法及装置

技术领域

本发明涉及数据处理领域，具体而言，涉及一种数据处理方法及装置。

背景技术

在现有技术中，用户可以通过浏览器或者APP获取需要的内容，在访问一个内容服务商的时候，内容服务提供商一般希望向用户推荐用户希望看到的数据，或者，用户感兴趣的数据，以增加用户的粘性。

在现有技术中，一般关注用户上一次访问的数据，根据用户上次访问的数据向用户进行推荐，这种处理方法仅仅是考虑了一个方面，而并没有考虑到在内容服务商侧所进行的处理，从而达不到内容服务商的要求。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数据处理方案，以至少解决了现有技术中仅仅根据用户上次访问的数据来进行推荐造成的无法满足内容服务商要求的问题。

根据本发明实施例的一个方面，提供了一种数据处理方法，包括：根据至少一个维度获取数据，其中，所述维度用于表示与数据被推荐相关的属性；根据各个数据对应的维度对获取到的数据进行合并；将合并后的数据按照预定规则进行排序，其中，所述预定规则能够被编辑，排序后的数据用于向用户进行推荐。

进一步地，根据所述各个数据对应的维度对获取到的数据进行合并包括：对对应于不同维度的数据进行去重；将所述不同维度对应在去重之后的数据上。

进一步地，在将获取到的数据按照所述预定规则进行排序之后，所述方法还包括：判断排序之后的数据是否属于需要剔除的数据；根据判断结果从获取到的数据中将需要剔除的数据进行剔除；保存剔除之后的数据。

进一步地，在所述至少一个维度包括数据的质量的情况下，所述方法还包括：根据质量模型对数据的质量进行评估，其中，所述质量模型是根据与所述质量对应的至少一个参数构造的；保存评估得到的该数据对应的质量。

进一步地，在所述数据为对多个用户发布的情况下，所述至少一个参数包括以下至少之一：所述数据发布的时间、所述多个用户对所述数据的回复数量、所述多个用户对所述数据的回复率、所述多个用户对所述数据的收藏数、所述多个用户对所述数据的收藏率、所述多个用户对所述数据称赞的数量、所述多个用户对所述数据称赞的比例、所述数据的长度、所述数据包含的多媒体数据、对所述数据进行操作的用户的级别、访问总量、单位时间的访问量、独立用户的访问量。

进一步地，所述回复率为所述回复数量与所述访问总量或所述独立用户的访问量的比值，和/或；所述收藏率为所述收藏数与所述访问总量或所述独立用户的访问量的比值，和/或；所述被赞的比例为所述被赞数与所述访问总量或所述独立用户的访问量的比值。

进一步地，所述质量模型为使用已有的高质量数据作为正例样本训练得到的。

进一步地，还包括：获取用户的信息，其中，所述用户的信息用于标识该用户对数据的关注；根据所述用户的信息获取数据并排序，从排序之后的数据中获取向所述用户推荐的数据；将向所述用户推荐的数据推荐给所述用户。

进一步地，所述用户的信息包括至少两类标签，其中，第一类标签用于标识所述用户访问过的数据和/或操作过的数据，第二类标签用于标识所述用户的状态。

进一步地，所述第一类标签包括至少一个标签，所述至少一个标签根据所述用户访问和/或操作数据的时间来决定该标签的权重，所述权重作为向所述用户推荐数据的依据。

根据本发明实施例的另一个方面，还提供了一种数据处理装置，包括：获取模块，用于根据至少一个维度获取数据，其中，所述维度用于表示与数据被推荐相关的属性；合并模块，用于根据各个数据对应的维度对获取到的数据进行合并；排序模块，用于将合并后的数据按照预定规则进行排序，其中，所述预定规则能够被编辑，排序后的数据用于向用户进行推荐。

在本发明实施例中，通过在内容服务商侧对数据进行处理，然后这些处理后的数据将被用于数据的推荐，从而实现了灵活推荐的目的，进而解决了现有技术中仅仅根据用户上次访问的数据来进行推荐造成的无法满足内容服务商要求的问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的数据处理方法的示意图；

图2是根据本发明实施例的一种可选的数据处理装置的示意图；

图3是根据本发明实施例的一种可选实施例的推荐内容来源的示意图；

图4是根据本发明实施例的推荐***的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例，提供了一种数据处理方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的数据处理方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，根据至少一个维度获取数据，其中，维度用于表示与数据被推荐相关的属性；

步骤S104，根据各个数据对应的维度对获取到的数据进行合并；

步骤S106，将合并后的数据按照预定规则进行排序，其中，预定规则能够被编辑，排序后的数据用于向用户进行推荐。

在上述步骤中，可以在服务器侧对数据进行处理，处理之后的数据可以用于向用户进行推荐，通过上述步骤，可以获取到至少一个维度的数据，然后对数据进行了处理，相比于现有技术，对数据的处理更加有利于向用户的推荐，从而实现了灵活推荐的目的，进而解决了现有技术中仅仅根据用户上次访问的数据来进行推荐造成的无法满足内容服务商要求的问题。

在本实施例中，还提供了一种数据处理装置，如图2所示，该装置包括：

获取模块22，用于根据至少一个维度获取数据，其中，维度用于表示与数据被推荐相关的属性；

合并模块24，用于根据各个数据对应的维度对获取到的数据进行合并；

排序模块26，用于将合并后的数据按照预定规则进行排序，其中，预定规则能够被编辑，排序后的数据用于向用户进行推荐。

在上述描述中，至少一个维度可以根据实际的需要来进行设置，例如，编辑推荐可以作为一个维度，帖子质量大于阈值可以作为一个维度等等。

在某种特定的情况下，同一个数据(例如，文章)可能出现到多个维度当中，例如，该数据可以是编辑推荐的，同时又是帖子质量超过阈值的。为了防止同样的数据出现，可以在合并的时候进行去重，但是，需要把该数据的多个维度标识在该数据上。该去重可以按照如下步骤进行：首先对对应于不同维度的数据进行去重，然后可以将不同维度对应在去重之后的数据上。这样的处理既减少了数据量，又保留了一个数据所对应的不同维度，从而为后续的推荐做准备。

有时，出于某种目的考虑，有些数据是不能被推荐的，例如，违反国家法律或者违***公德的数据。此时可以通过黑名单的方式将这些数据删除，如果需要删除的数据比较多，也可以通过白名单的方式进行。可选地，本发明实施例还可以根据用户所在的地理位置选择所推荐的数据。在该可选实施例中，将获取到的数据按照预定规则进行排序，可以判断排序之后的数据是否属于需要剔除的数据；根据判断结果从获取到的数据中将需要剔除的数据进行剔除；保存剔除之后的数据。通过该可选实施方式，可以对一些数据进行屏蔽，从而符合要求。

对数据的剔除，仅仅是将有危害的数据进行了屏蔽。当然，也是需要按照数据的质量来进行处理。在本可选实施例中，在至少一个维度包括数据的质量的情况下，还可以根据质量模型对数据的质量进行评估，该质量模型是根据与质量对应的至少一个参数构造的；保存评估得到的该数据对应的质量。通过质量评估模型可以使数据的推荐的质量提高。质量模型可以是根据经验搭建的，有些质量模型也为使用已有的高质量数据作为正例样本训练得到的。这种处理方式可以对质量的评估进行灵活的调整。

数据的质量有很多种体现方式，例如，在数据为对多个用户发布的情况下，至少一个参数包括以下至少之一：数据发布的时间、多个用户对数据的回复数量、多个用户对数据的回复率、多个用户对数据的收藏数、多个用户对数据的收藏率、多个用户对数据称赞的数量、多个用户对数据称赞的比例、数据的长度、数据包含的多媒体数据、对数据进行操作的用户的级别、访问总量、单位时间访问量、独立用户的访问量。

作为一个可选的实施方式，上述参数还可以包括如下至少之一：回复率为回复数量与访问总量或独立用户的访问量的比值，和/或；收藏率为收藏数与访问总量或独立用户的访问量的比值，和/或；被赞的比例为被赞数与访问总量或独立用户的访问量的比值。

在得到上述数据之后，还可以根据上述数据进行推荐。在一个可选的实施方式中，还可以考虑结合用户的信息。在该可选的实施方式中，可以获取用户的信息，其中，用户的信息用于标识该用户对数据的关注；然后根据用户的信息获取数据并排序，从排序之后的数据中获取向用户推荐的数据并将数据推荐给用户。通过该可选实施方式，可以结合用户的信息来进行推荐。

在一个可选的实施方式中，可以用标签表示用户的信息，例如，用户的信息包括至少两类标签，其中，第一类标签用于标识用户访问过的数据和/或操作过的数据，第二类标签用于标识用户的状态。在标签比较多的时候，还可以引入权重。例如，第一类标签包括至少一个标签，至少一个标签根据用户访问和/或操作数据的时间来决定该标签的权重，权重作为向用户推荐数据的依据。

下面结合一个可选实施例进行说明。

在本可选实施例中，可以实现如下的效果：

1.动态的推荐是个性化的，每个用户看到的都是适合自己且优质的内容。即“千人千面”。

为了做到这一点，可以读取每个用户的看帖记录、搜索记录，根据用户看不同类型内容的多寡(此处用帖子标签来分类)来猜测用户的兴趣推荐她可能感兴趣的内容。还可以根据用户的信息，例如，用户孕育孩子的信息，此时可以根据用户宝宝年龄，预产期等信息来推荐对用户孕育有帮助的内容。除此之外还可以采用协同过滤来推荐部分话题。

在本实施例中，帖子是否是一个优质的，值得推送出去的帖子，主要由质量模型来判断。该模型通过话题回复量、话题长短、受关注程度等指标来计算帖子是否优质。

2.尽量节约运营的人力成本，大部分工作应由算法自动完成。

有了算法帮助，工作人员日常最大的工作就是为帖子分类(即打标签)，由于每日有海量的新帖产生，为了节约人力，在本实施例中用机器学习自动为帖子打标签。工作人员只需要对少数典型帖子分类作为训练集即可。

3.可灵活接入不同的业务，包括用户生产内容(UGC)、专业生产内容(PGC)、广告、运营活动。

在本实施例中设计了一套内容排序规则来满足灵活介入。这套排序规则可以满足广告客户与各部门运营的需求。

4.适量随机的推送，保证呈现给用户一个开放的内容生态，不会限制在自己的兴趣圈子里面。

下面对上述几个方面进行说明。

推荐***内容框架

推荐内容来源有很多种类型，图3是根据本发明实施例的一种可选实施例的推荐内容来源的示意图，在图3中，涉及到了按照质量排序，随机排序、按照权重排序、按照发表时间排序等。这些不同的排序可以看作是不同的维度。

本质来说，该推荐***内容来源包括四类：

第一类：纯智能推荐-包括按标签计算出质量较高的帖，协同过滤帖，按状态匹配的内容，这部分内容占大部分。

第二类：半智能半人工-在按兴趣匹配的基础上，人工可以定义一些话题更有优先级。

第三类：纯人工推荐-小编强推是纯人工运营；小编认为能火的帖子，可设为“潜力帖”可增加其曝光。

第四类：用户自筛选-用户关注的人发表的内容会出现在动态。

标签框架

为了能够让机器能够进行更精准的推荐，新的标签框架包括三个维度:

主题-内容描述的主要对象：主题会标识在内容上，也会包含在用户兴趣中。例如用户经常关注“美食”主题的帖子，在本实施例中，也会认为用户喜欢“美食”这个主题，我们会给用户优先推荐“美食”相关的话题。

主题是一个树形结构。

体裁-内容发表的动机、诉求。体裁包括“教程/知识”、“讨论”、“晒图”、“问答”等等，体裁会影响推荐的时机。例如“美食”主题的话题会有“广告”体裁与“教程”体裁，“美食”相关的“教程”就不会在不合适的时间向用户推荐。

适用状态-内容是指适用什么样的用户，例如，孕育相关的内容适用于什么阶段的妈妈或准妈妈。适用状态包括从备孕、怀孕到宝宝6岁所有的孕育阶段。它能保证用户在每一个阶段都能看到适合自己的孕育知识。

在本实施例中，每一篇内容都包含上述三个维度的标签，以此保证推荐的精准性。

图4中示出了推荐***的技术框架，在图4中，涉及到内容来源、质量判断模型等，下面对此进行说明。

1.多种来源的内容混合

动态的信息包括类似微博(我关注的人发表的内容)、今日头条(根据兴趣匹配的内容)、杂志(每天小编精选的内容)、孕期伴侣(和我孕育状态息息相关的内容)等多种形式。

2.帖子质量判断模型

该计算方法先假设以下特征与话题质量有一定的关联性：

PV/最后更新时间-发帖时间

·回复数/PV

·收藏数/UV

·被赞数/UV

·帖子内容长度

·是否有图片

·发帖和回帖用户的平均等级

备注：PV是page view，即页面访问量；UV是unique visitor独立访客访问数

假设这些特征满足一定"条件"后，该话题会变为"推荐帖"。工作人员挑选的精华帖/推荐帖作为样本，计算出各个特征值权重，各个特征值线性加权后，将计算结果带入sigmoid函数，其输出值作为帖子质量，例如，如果值大于0.5则认为是推荐帖，小于0.5则认为不是推荐帖。

备注：Sigmoid函数所涉及到的逻辑回归，是一个标准的模型。

3.区分用户状态标签、兴趣标签

对用户推荐内容是根据用户身上的标签来定，而标签包括两类，一是兴趣标签，例如八卦、宠物、化妆等；一类是状态标签(与孕育状态相关的标签)，例如宝宝护理、早教、月子等等。为用户打两类标签的方式是不同的。

用户兴趣标签

·用户兴趣标签通过用户的看帖行为产生，用户标签与阅读过的话题的主题是完全相关的

·用户的兴趣标签是从主题中选取，每个用户的每个标签都有权重，权重越大表示对该主题越感兴趣

·权重会随自然时间衰减，目前是模拟圆形的函数曲线衰减，公式为：

Δdays是指上次更新这个标签的日期与用户第一次打上某标签的日期相差的天数。如果x天内，用户没有对某标签有行为，该标签的权重就会衰减到0。

·用户在有看帖行为时，会更新标签，更新过程为先衰减其身上的标签，再将当前看帖的标签以及权重累加到用户身上。

例：假设取x为45，某用户有tag1、tag2、tag3共3个标签，分别在2015.12.13，2016.1.14，2015.11.11打上，权重分别为12，10，5。在2016.2.2，用户有看帖行为，看的帖子有3个标签，tag2，tag3，tag4，该帖子的质量为0.6。

经过更新，tag1由于与当前日期已经相隔51天，大于45天，权重衰减到0，而新看的帖没有tag1这个标签，所以tag1的权重为0。tag2与当前日期相隔19天，那么tag2的权重应为tag3与当前日期相隔83天，大于45天，权重衰减为0，又因为新看的帖包含tag3，因此tag3的权重为0+0.6＝0.6。tag4是新增的标签，权重为帖子的质量0.6。

·部分tag是强相关的，例如关注"婆媳关系"的和关注"夫妻情感"可视为同一tag

tag合并的原则是:关注人群高度重合且内容相近或机器无法区分的多个tag可合并。

4.用户状态标签

每个状态相关的主题，都有“适用状态”属性，例如“辅食”适用于4个月到1岁的宝宝。我们会按比例为她推荐该状态相关的内容，由于每类用户对孕育话题的兴趣不一样(例如怀孕用户对该类话题明显比有宝宝的用户需求强)，比例也会随着调整。

5.改变排序规则简单方便。

排序规则通过配置的方式控制，所以想增加删除数据来源，改变各来源顺序，都可以通过修改配置文件的方式实现，不需要改动代码，简单方便。

6.实时推荐***

能根据当前用户点击行为，实时计算用户的兴趣点，并更新用户的兴趣标签。因此可以实时的捕捉用户的兴趣变化，并马上响应，是一个无延迟的线上实时推荐***。

结合新的标签体系可对不同场景进行微调，由于新的标签体系有“主题”与“体裁”两个维度，因此可以很方便地对细微场景进行优化。例如同样是对“婆媳八卦”感兴趣的用户，对喜欢回帖的用户推荐“讨论”型话题，而对喜欢看帖不回的用户推荐“故事”型话题，实现资源配置最优化。

总的来说，“主题”用于判断“用户是否感兴趣”，“体裁”用于判断“在什么场景下推荐(或不推荐)”。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据处理方法，其特征在于，包括：

根据至少一个维度获取数据，其中，所述维度用于表示与数据被推荐相关的属性；

根据各个数据对应的维度对获取到的数据进行合并；

将合并后的数据按照预定规则进行排序，其中，所述预定规则能够被编辑，排序后的数据用于向用户进行推荐。

2.根据权利要求1所述的方法，其特征在于，根据所述各个数据对应的维度对获取到的数据进行合并包括：

对对应于不同维度的数据进行去重；

将所述不同维度对应在去重之后的数据上。

3.根据权利要求1所述的方法，其特征在于，在将获取到的数据按照所述预定规则进行排序之后，所述方法还包括：

判断排序之后的数据是否属于需要剔除的数据；

根据判断结果从获取到的数据中将需要剔除的数据进行剔除；

保存剔除之后的数据。

4.根据权利要求1所述的方法，其特征在于，在所述至少一个维度包括数据的质量的情况下，所述方法还包括：

根据质量模型对数据的质量进行评估，其中，所述质量模型是根据与所述质量对应的至少一个参数构造的；

保存评估得到的该数据对应的质量。

5.根据权利要求4所述的方法，其特征在于，在所述数据为对多个用户发布的情况下，所述至少一个参数包括以下至少之一：

所述数据发布的时间、所述多个用户对所述数据的回复数量、所述多个用户对所述数据的回复率、所述多个用户对所述数据的收藏数、所述多个用户对所述数据的收藏率、所述多个用户对所述数据称赞的数量、所述多个用户对所述数据称赞的比例、所述数据的长度、所述数据包含的多媒体数据、对所述数据进行操作的用户的级别、访问总量、单位时间的访问量、独立用户的访问量。

6.根据权利要求5所述的方法，其特征在于，

所述回复率为所述回复数量与所述访问总量或所述独立用户的访问量的比值，和/或；

所述收藏率为所述收藏数与所述访问总量或所述独立用户的访问量的比值，和/或；

所述被赞的比例为所述被赞数与所述访问总量或所述独立用户的访问量的比值。

7.根据权利要求4所述的方法，其特征在于，所述质量模型为使用已有的高质量数据作为正例样本训练得到的。

8.根据权利要求1至7中任一项所述的方法，其特征在于，还包括：

获取用户的信息，其中，所述用户的信息用于标识该用户对数据的关注；

根据所述用户的信息获取数据并排序，从排序之后的数据中获取向所述用户推荐的数据；

将向所述用户推荐的数据推荐给所述用户。

9.根据权利要求8所述的方法，其特征在于，所述用户的信息包括至少两类标签，其中，第一类标签用于标识所述用户访问过的数据和/或操作过的数据，第二类标签用于标识所述用户的状态。

10.根据权利要求9所述的方法，其特征在于，所述第一类标签包括至少一个标签，所述至少一个标签根据所述用户访问和/或操作数据的时间来决定该标签的权重，所述权重作为向所述用户推荐数据的依据。

11.一种数据处理装置，其特征在于，包括：

获取模块，用于根据至少一个维度获取数据，其中，所述维度用于表示与数据被推荐相关的属性；

合并模块，用于根据各个数据对应的维度对获取到的数据进行合并；

排序模块，用于将合并后的数据按照预定规则进行排序，其中，所述预定规则能够被编辑，排序后的数据用于向用户进行推荐。