CN109388760B

CN109388760B - 推荐标签获取方法、媒体内容推荐方法、装置及存储介质

Info

Publication number: CN109388760B
Application number: CN201710654487.9A
Authority: CN
Inventors: 赵铭; 曹凯; 温旭; 范欣; 颜景善; 王树伟; 何鑫
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2017-08-03
Filing date: 2017-08-03
Publication date: 2023-04-07
Anticipated expiration: 2037-08-03
Also published as: CN109388760A

Abstract

本申请公开了一种推荐标签获取方法，包括：获取多个样本内容中各个样本内容的标签数据和投放数据，获取与所述多个样本内容相关联的用户行为数据，所述各个样本内容的标签数据包括各个样本内容中包含的标签；针对所述标签数据中的每一个标签，确定该标签的质量评分，所述质量评分用于表征该标签的作为内容标签的可推荐度；以及将质量评分满足预定条件的至少一个标签作为推荐标签，形成推荐标签集合。本申请还公开了媒体内容推荐方法、相应的装置及存储介质。

Description

推荐标签获取方法、媒体内容推荐方法、装置及存储介质

技术领域

本申请涉及互联网技术领域，尤其涉及推荐标签获取方法、媒体内容推荐方法、装置及存储介质。

背景技术

随着互联网技术的发展，人们可以通过网络阅读各种类型的文本。标签(tag)是与文本相关性很强的关键字，它能够对文本内容进行简单描述和分类。在媒体内容推送***中，媒体内容的tag提取工作，是后续文章召回和推荐的基础。准确地提取媒体内容的tag，提炼文本的核心点受到越来越多的关注。

发明内容

本申请实例提供了一种推荐标签获取方法，包括：

获取多个样本内容中各个样本内容的标签数据和投放数据，获取与所述多个样本内容相关联的用户行为数据，所述各个样本内容的标签数据包括各个样本内容中包含的标签；

针对所述标签数据中的每一个标签，执行如下处理：

根据包含该标签的各样本内容的投放数据，确定该标签的用户接受度；

根据与包含该标签的各样本内容相关联的所述用户行为数据，确定该标签的用户兴趣度参数；及

根据所述用户接受度及所述用户兴趣度参数，确定该标签的质量评分，所述质量评分用于表征该标签的作为内容标签的可推荐度；

以及

将质量评分满足预定条件的至少一个标签作为推荐标签，形成推荐标签集合。

可选地，其中，所述投放数据包括曝光数据和/或点击数据；

所述根据包含该标签的各样本内容的投放数据，确定该标签的用户接受度，包括：

获取包含该标签的各样本内容的曝光数据和/或点击数据；

根据包含该标签的各样本内容的所述曝光数据和/或所述点击数据，确定该标签的所述用户接受度。

可选地，其中，每一样本内容的标签数据包括：至少一个标签及其在该样本内容中的权重；

所述方法进一步包括：针对所述候选标签集合中的每一个标签，从包含该标签的各样本内容的标签数据中提取该标签在各样本内容中的权重；

其中，所述根据包含该标签的各样本内容的所述曝光数据和/或点击数据，确定该标签的用户接受度，包括：根据该标签在各样本内容中的所述权重、包含该标签的各样本内容的所述曝光数据和/或所述点击数据，确定所述用户接受度。

可选地，其中，采用以下公式(1)确定所述用户接受度：

其中，N为包含该标签的样本内容的个数，i为所述N个样本内容中的第i个内容，tagweight_i为该标签在第i个内容中的权重，hit_muni为第i个内容的点击量，post_muni为第i个内容的曝光量。

可选地，其中，所确定的该标签的用户兴趣度参数包括该标签的点击量、该标签的订阅量和该标签的搜索量中的至少一项。

可选地，其中，所述确定该标签的质量评分包括：通过对该标签的点击量、该标签的订阅量和该标签的搜索量中的至少一项及所述用户接受度进行加权求和，得到所述质量评分。

可选地，所述方法进一步包括：

针对所述推荐标签集合中的任一推荐标签，统计固定时间段内包含该推荐标签的待推送内容数量；

提取所述待推送内容数量满足预定条件的推荐标签；

统计包含选取的所述推荐标签的待推送内容的数量的时间分布；

将所述时间分布不满足预定条件的推荐标签从所述推荐标签集合中删除。

可选地，所述方法进一步包括：

针对多个待推送的媒体内容，提取每一个待推送的媒体内容的至少一个关键词；

根据所述推荐标签集合及每一个待推送的媒体内容的至少一个关键词，确定每一个待推送的媒体内容的至少一个标签。

可选地，其中，所述确定每一个待推送的媒体内容的至少一个标签包括：

获取每一个关键词在所述待推送的媒体内容中的词频，针对所述多个关键词中的任一关键词，执行如下处理：

当所述推荐标签集合中存在与该关键词对应的标签时，将该关键词的第一评分设置为第一预设值；

当所述推荐标签集合中不存在与该关键词对应的标签时，将该关键词的第一评分设置为第二预设值；

根据该关键词在所述待推送的媒体内容中的词频确定该关键词的第二评分；

根据所述第一评分及所述第二评分确定该关键词的第三评分；

将所述第三评分满足预定条件的关键词作为所述媒体内容的标签。

可选地，所述针对所述标签数据中的每一个标签，执行如下处理，包括：

根据所述各个样本内容的标签数据确定候选标签集合；

针对所述候选标签集合中的每一个标签，执行所述处理。

本申请实例还提供了一种媒体内容推荐方法，包括：

根据权利要求1所述的方法获取的所述推荐标签集合及每一个待推送的媒体内容的至少一个关键词，确定每一个待推送的媒体内容的至少一个标签；

接收应用客户端发送的媒体内容推荐请求，该媒体内容推荐请求中包括所述应用客户端的用户标识；

根据所述用户标识确定所述用户的兴趣标签；

将其标签中存在与所述用户的兴趣标签相对应的标签的待推送的媒体内容作为候选媒体内容；

针对每一候选媒体内容，根据该候选媒体内容的至少一个标签及所述用户的兴趣标签，确定该候选媒体内容与所述用户的兴趣标签的匹配度；

将匹配度满足预定条件的候选媒体内容作为推荐的媒体内容；

将所述推荐的媒体内容的信息返回给所述应用客户端。

本申请实例还提供了一种推荐标签获取装置，包括：

获取单元，用以获取多个样本内容中各个样本内容的标签数据和投放数据，获取与所述多个样本内容相关联的用户行为数据，所述各个样本内容的标签数据包括各个样本内容中包含的标签；

评分单元，用以：

针对所述候选标签集合中的每一个标签，执行如下处理：

根据所述用户接受度及所述用户兴趣度参数，确定该标签的质量评分，所述质量评分用于表征该标签的作为内容标签的可推荐度；以及

推荐标签确定单元，用以将质量评分满足预定条件的至少一个标签作为推荐标签，形成推荐标签集合。

可选地，所述装置进一步包括清洗单元，用以：

提取所述待推送内容数量满足预定条件的推荐标签；

本申请实例还提供了一种媒体内容推荐装置，包括：

标签提取单元，用以针对多个待推送的媒体内容，提取每一个待推送的媒体内容的至少一个关键词；根据权利要求1所述的方法获取的所述推荐标签集合及每一个待推送的媒体内容的至少一个关键词，确定每一个待推送的媒体内容的至少一个标签；

请求接收单元，用以接收应用客户端发送的媒体内容推荐请求，该媒体内容推荐请求中包括所述应用客户端的用户标识；

媒体内容选取单元，用以：

根据所述用户标识确定所述用户的兴趣标签；

信息发送单元，用以将所述推荐的媒体内容的信息返回给所述应用客户端。

本申请实例还提供了一种计算机可读存储介质，存储有计算机可读指令，可以使至少一个处理器执行如上述所述的方法。

采用本申请提供的上述方案，能够帮助在媒体内容的多个候选关键词中选取更合适的标签，进而更好地进行媒体内容的推荐。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是是本申请实例涉及的***构架图；

图2是本申请一实例推荐标签获取方法的流程图；

图3A是本申请一实例新闻及其显示标签的页面图；

图3B是本申请一实例标签主题下新闻的页面图；

图3C是本申请一实例新闻主页的页面图；

图4是本申请一实例媒体内容推荐方法的流程图；

图5是本申请一实例推荐标签获取装置的结构示意图；

图6是本申请一实例媒体内容推荐装置的结构示意图；以及

图7为本申请实例中的计算设备组成结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提出了推荐标签获取方法、媒体内容推荐方法、装置及存储介质，该方法可应用于图1所示的***构架中。如图1所示，该***构架包括：应用(APP)客户端101、推送信息平台102和推送信息提供方客户端105，这些实体可以通过互联网106进行通信，其中推送信息平台102包括应用服务器103、用户访问记录数据库104及处理平台107。

终端用户可以使用应用客户端101访问推送信息平台102中的应用服务器103，比如：浏览新闻或者文章等。当用户使用应用客户端101访问应用服务器103时，应用客户端101可以将用户的访问行为上报给应用服务器103，应用服务器103将用户的访问行为数据保存在用户访问记录数据库104中。应用客户端101上报用户访问行为的同时，应用客户端101可以向推送信息平台102发出信息推送请求，推送信息平台102可以将与该信息推送请求相匹配的媒体内容推送给应用客户端101。通过推送信息提供方客户端105，推送信息提供方可以将其要推送的媒体内容的素材上传到推送信息平台102，具体地，上传给应用服务器103，以生成相应的用于推送的媒体内容。应用服务器接收到所述媒体内容后，将该媒体内容发送给推送信息平台102中的处理平台107，处理平台107提取所述媒体内容的标签，将提取的媒体内容的标签保存在用户访问记录数据库104中。在媒体内容推送的过程中，应用客户端101向推送信息平台102中的应用服务器103发出的信息推送请求中包括用户的标识，根据该用户的标识可以在用户访问记录数据库104中查找到与该用户的历史访问记录，根据该用户的历史访问记录确定该用户的兴趣标签，应用服务器103同时在用户访问记录数据库104中提取媒体内容的标签，进而根据用户的兴趣标签及媒体内容的标签确定要向应用客户端101推送的媒体内容。

处理平台107在提取媒体内容的标签时，用户访问记录数据库104中包括分布式文件***，例如HDFS，用以保存与推送过的媒体内容相关的用户行为数据；还包括关系型数据库管理***，例如mysql，用以保存媒体内容提取的标签数据；还包括Key-Value数据库，例如redis，用以保存与标签相关的统计数据。处理平台107从用户访问记录数据库104中获取推送过的媒体内容，从分布式文件***中提取与所述推送过的媒体内容相关的用户行为数据，从关系型数据库管理***中提取所述推送过的媒体内容的提取标签数据，根据所述推送过的媒体内容，所述推送过媒体内容的标签数据，与所述推送过的媒体内容相关的用户行为数据，形成推荐标签集合。根据形成的该推荐标签集合提取媒体内容的标签。例如，在提取文章的标签时，通过对文章文本进行分词、去除停用词等操作后获取多个关键词，针对该多个关键词，进行多维度评分，例如，词频作为一个评分维度，关键词是否为推荐标签集合中的词作为另一个评分维度。这里，推荐标签也可称为优质标签。

在一些实例中，在对上述多个关键词进行多维度评分时，推荐标签作为一个评分维度，建立标签(tag)库，推荐标签集合是整个标签库的子集，在使用推荐关键词作为一个评分维度时，当一个关键词出现在推荐标签集合中时，给该关键词打出一个相对高的分值，当所述关键词没有出现在推荐标签集合中时，给该关键词打出一个相对低的分值。对于提取推荐标签集合，在一些实例中，在已有的标签库的基础上，在文章语料(即样本内容)中统计标签库中每个标签的统计特征，比如TF-IDF特征，将标签按照统计特征排序后，确定推荐标签集合中的候选词。同时，结合一部分人工标定工作，标定后确定推荐标签集合。该提取推荐标签集合的技术方案，使用的评价维度比较单一，对推荐标签的精确度不好控制，同时还需要部分人工标注工作，带来成本较高、效率较低、精确度不稳定等问题。

为解决以上技术问题，本申请提出一种推荐标签获取方法，应用于处理平台107，用于获取推荐标签集合，如图2所示，该方法包括以下步骤：

步骤201：获取多个样本内容中各个样本内容的标签数据和投放数据，获取与所述多个样本内容相关联的用户行为数据，所述各个样本内容的标签数据包括各个样本内容中包含的标签。

可以从一些现有的数据库中获取样本内容，例如从用户访问记录数据库104中获取样本内容，以及样本内容的标签数据和投放数据。例如，可以在HDFS中提取与样本内容相关的投放数据，在mysql中提取样本内容的标签数据，用以保存媒体内容提取的标签数据。例如，当所述样本内容为文章时，从用户访问记录数据库104中获取推送过的文章，以及推送过的文章的标签数据和投放数据。所述样本内容的标签数据中包括一个样本内容提取的标签，以及每一个标签在该样本内容中的权重。所述投放数据包括样本内容的曝光数据和/或用户对该样本内容的点击数据。例如，当所述样本内容为新闻时，获取每一篇新闻提取的标签，每一个标签在该新闻中的权重，每一篇新闻的投放数据，包括新闻的曝光数据和/或点击数据。所前所述，在获取样本内容的标签数据和投放数据时，也可以从一些现有的数据库，例如用户访问记录数据库104中获取与所述多个样本内容相关联的用户行为数据，例如，可以在HDFS中提取与样本内容相关的用户行为数据。该用户行为数据包括：用户对样本内容显示tag的点击数据、用户对样本内容显示tag的订阅数据、用户对样本内容包含的tag的搜索数据。例如，当所述样本内容为新闻时，图1中的应用服务器103为新闻媒体服务器，如图3A所示的一篇新闻的展示页面中，在新闻的底部展示有该新闻的标签1、标签2及标签3，其中，标签1、标签2及标签3为图3A所示的新闻提取的标签中的标签，所述展示的标签可以为所述新闻提取标签中的全部或部分。点击标签1的标识301，展示如图3B所示的页面图，在该页面图中，展示了与标签1相关的新闻。在图3B所述的页面图中，同时展示有订阅控件302，用户通过点击订阅控件302可以订阅标签1，从而在客户端的个人主页中可以显示用户订阅的标签，以及该订阅标签下的文章标识。同时，在图3C所示的新闻主页中，存在搜索控件303及对应的输入框304，用户可以在输入框304中内输入标签，点击控件303，进行对输入标签的搜索。上述用户点击标签1的标识301的行为、点击控件302的行为、以及在输入框304内输入标签以及点击控件303的行为，都会记录在用户的cookie中，用户在访问新闻媒体服务器时，携带所述cookie，从而新闻媒体服务器可以获取用户的行为数据，并保存在用户访问记录数据库104中。

步骤202：针对所述标签数据中的每一个标签，执行如下处理：根据包含该标签的各样本内容的投放数据，确定该标签的用户接受度。

根据包含一个标签的样本内容的曝光量和/或点击量确定该标签的用户接受度，其中用户接受度表征用户对提取了所述标签的样本内容的接受程度。其中，提取了所述标签的样本内容的点击量越大，说明用户对该标签的接受度越高，同时，提取了所述标签的样本内容的曝光量越大，说明用户对该标签的接受度越高。例如，提取了标签“洪荒之力”的新闻文章，相比于提取了“神工鬼力”的新闻文章，点击量更高，说明用户对于标签“洪荒之力”的接受度更高。

步骤203：根据与包含该标签的各样本内容相关联的所述用户行为数据，确定该标签的用户兴趣度参数。

所述用户行为数据包括：用户对样本内容显示tag的点击数据、用户对样本内容显示tag的订阅数据、用户对样本内容包含的tag的搜索数据。用户对于一个标签的行为数据反映用户对该标签感兴趣的程度。对于一些关系到民生的关键词，例如：学区房、房价、二胎等，用户对于这类关键词往往表现出更高的兴趣度。根据与包含该标签的各样本内容相关联的所述用户行为数据，可以确定该标签的用户兴趣度参数，所述用户兴趣度参数包括标签的点击量、订阅量及搜索量。

步骤204：根据所述用户接受度及所述用户兴趣度参数，确定该标签的质量评分，所述质量评分用于表征该标签的作为内容标签的可推荐度。

根据一个标签的用户接受度及用户兴趣度参数，确定该标签的质量评分，评分越高的标签，说明该标签更适合作为样本内容的标签，提取了该样本内容的标签，在推送该样本内容时，更容易被用户点击。

步骤205：将质量评分满足预定条件的至少一个标签作为推荐标签，形成推荐标签集合。

所述预定条件可以是，将标签按照其质量评分进行排序，将排序中的前N个标签作为推荐标签。或者设置一个预设阈值，将质量评分大于该预设阈值的标签作为推荐标签。选取的推荐标签形成推荐标签集合。

采用本申请提供的推荐标签获取方法，根据样本内容提取的标签形成候选标签集合，针对候选标签集合中的每一个标签，通过标签权重，结合用户行为中涉及到的标签情况以及包含所述标签的样本内容的投放情况等多维度数据，对标签进行多维度评分，从而提取出重要程度高的标签作为推荐标签。提取推荐标签的过程是一自动过程，不需要人工标注，降低了成本，同时可以更高效的完成，结果稳定，并且可以快速更新。

在一些实例中，所述投放数据包括曝光数据和/或点击数据，在上述步骤204中，在执行所述根据包含该标签的各样本内容的投放数据，确定该标签的用户接受度时，包括以下步骤：

S101：获取包含该标签的各样本内容的曝光数据和/或点击数据；

S102：根据包含该标签的各样本内容的所述曝光数据和/或所述点击数据，确定该标签的所述用户接受度。

多个样本内容可能包括相同的提取的标签，因而，对于候选标签集合中，包含一个标签的样本内容存在多项，例如，对于标签i，包含该标签的样本内容为：样本内容1、样本内容2、样本内容3……样本内容N。根据所述N个样本内容的曝光量及点击量确定所述标签i的用户接受度。

在一些实例中，每一样本内容的标签数据包括：至少一个标签及其在该样本内容中的权重；所述方法进一步包括：针对所述候选标签集合中的每一个标签，从包含该标签的各样本内容的标签数据中提取该标签在各样本内容中的权重；其中，在上述步骤S102中，在执行所述根据包含该标签的各样本内容的所述曝光数据和/或点击数据，确定该标签的用户接受度时，包括以下步骤：S201：根据该标签在各样本内容中的所述权重、包含该标签的各样本内容的所述曝光数据和/或所述点击数据，确定所述用户接受度。

在选取推荐标签时，除了需要参考包含标签的样本内容的投放数据，选取用户更容易接受的标签，同时还需要参考样本内容的文本内容，选取出能够体现样本内容的标签。样本内容的标签数据包括该样本内容包含的标签在该样本内容中的权重，所述标签在在该样本内容中的权重可以通过多种方式获取，可以根据样本内容中标签的TF-IDF特征，提取标签的所述权重

在一些实例中，采用以下公式(1)确定所述用户接受度：

其中，N为包含该标签的样本内容的个数，i为所述N个样本内容中的第i个内容，tagweight_i为该标签在第i个样本内容中的权重，hit_muni为第i个样本内容的点击量，post_muni为第i个样本内容的曝光量。

在一些实例中，其中，所确定的该标签的用户兴趣度参数包括该标签的点击量、该标签的订阅量和该标签的搜索量中的至少一项。

其中，与包含该标签的各样本内容相关联的所述用户行为数据包括用户对所述各样本内容外显的标签的点击行为数据，用户对所述标签的订阅数据以及用户对该标签的搜索数据。例如，当所述样本内容为文章时，如图3A所示，文章的底部展示有标签，该标签为所述文章提取的标签的全部或部分，用户点击标签1的标识301时，会展示如图3B所示的页面图，此时记录用户点击标签1的行为数据，与标签1对应的点击量加1。在图3B所示的页面图中，即与标签1相关的主题页面中，用户点击控件302，订阅标签1，此时记录用户点击控件302的行为数据，同时标签1对应的订阅量加1。在图3C所示的客户端的主页面中，用户可以在输入框304中输入标签1，同时点击控件304，实现对标签1的搜索，此时，记录用户搜索标签1的行为数据，同时标签1的搜索量加1。通过记录的用户的行为数据，确定一个标签的点击量、订阅量及搜索量。

在一些实例中，在上述步骤206中，在执行所述确定该标签的质量评分包括以下步骤：

S201：通过对该标签的点击量、该标签的订阅量和该标签的搜索量中的至少一项及所述用户接受度进行加权求和，得到所述质量评分。

在获取到所述标签的用户接受度、点击量、订阅量及搜索量后，其中该标签的点击量、订阅量及搜索量为该标签的用户兴趣度参数，反应用户对该标签的兴趣大小。可以将其中一个用户兴趣度参数与所述用户接受度确定该标签的质量评分，或者两个用户兴趣度参数任意组合与所述用户接受度确定该标签的质量评分，或者三个用户兴趣度参数与所述用户接受度确定该标签的质量评分。

当三个用户兴趣度参数与所述用户接受度确定该标签的质量评分时，采用下述公式(2)确定所述标签的质量评分：

tag_score＝w_h*tag_hitscore+w_s*tag_showscore+w_c*tag_collectscore+w_setag_searchscore (2)

其中，tag_hitscore为所述标签的用户接受度、w_h为该用户接受度的权重，tag_showscore为所述标签的点击量，w_s为该点击量的权重，tag_collectscore为所述标签的订阅量，w_c为该订阅量的权重，tag_searchscore为所述标签的搜索量，w_se为所述搜索量的权重。

通过公式(2)计算每一个标签的质量评分，可以将候选标签集合中的标签按照标签的所述质量评分进行排序，将排序中的前N个标签作为推荐标签。但采用上述技术方案提取的推荐标签，实践中发现，排在前面的标签，会有一些范围比较大的标签(比如“中国”)。这些标签的范围过大，不能比较好的表示内容的关键点和用户的兴趣点，所以不适合作为推荐标签，应该从推荐标签集合中删除。

因而，本申请提出另一实例，用以在推荐标签集合中删除上述范围过大的推荐标签，所述方法进一步包括以下步骤：

S31：针对所述推荐标签集合中的任一推荐标签，统计固定时间段内包含该推荐标签的待推送内容数量。

所述待推送内容数据为全量的待推送内容，例如，当所述内容为文章时，统计每一天的待推送文章，其中所述待推送文章已提取过标签，针对提取的推荐标签集合中的每一个推荐标签，统计每一天的待推送文章中，包含一个推荐标签的待推送文章的数量，即统计每个推荐标签下有多少待推送文章。将每天每个推荐标签下的待推送文章数量保存在用户访问记录数据库104中redis中。

S32：提取所述待推送内容数量满足预定条件的推荐标签。

还如上例所示，当所述内容为文章时，将推荐标签按照与其对应的待推送文章的数量进行排序，可以将排序中前M个推荐标签选取出来。排在前面的推荐标签，含有两种情况，一种是我们想要去掉的大范围的推荐标签，还有一种是近期比较热门的推荐标签。

S33：统计包含选取的所述推荐标签的待推送内容的数量的时间分布。

如上步骤S32所述，选取的排序靠前的推荐标签，可能是范围比较大的推荐标签，也可能是热门的推荐标签，需要保留热门的推荐标签，删除大范围的推荐标签，因此，统计一个时期以来，包含选取的所述推荐标签的待推送内容的数量的时间分布。大范围的推荐标签对应的时间分布比较均匀，不会出现比较大的变化；热门的推荐标签对应的时间分布不均匀，会偏离平均分布较远。针对所选取的任一个推荐标签，在用户访问记录数据库104中的redis中提取该推荐标签每一天的待推送媒体内容的数量，进而确定该推荐标签在一段时间内的时间分布，该时间分布表征推荐标签包括的待推送媒体内容的数量的时间分布。

S34：将所述时间分布不满足预定条件的推荐标签从所述推荐标签集合中删除。

当推荐标签的所述时间分布比较平缓，则确认该推荐标签为大范围推荐标签，当推荐标签的所述时间分布变化较大，则确认该推荐标签为热门推荐标签。将大范围推荐标签从推荐标签集合中删除。

采用该实例，可以把热门推荐标签识别出来，可以把范围较大的推荐标签清除出推荐标签集合。

在一些实例中，所述方法进一步包括以下步骤：

S41：针对多个待推送的媒体内容，提取每一个待推送的媒体内容的至少一个关键词。

在图1所示的***架构中，推送信息提供方客户端105可以将其要推送的媒体内容的素材上传到推送信息平台102中的应用服务器103，以生成相应的待推送的媒体内容。对于每一个媒体内容，应用服务器103将其发送给处理平台107，由处理平台107提取该媒体内容的标签。首先提取该媒体内容的至少一个关键词，可以将该媒体内容的文本部分通过分词、去除停用词后获取至少一个关键词。

S42：根据所述推荐标签集合及每一个待推送的媒体内容的至少一个关键词，确定每一个待推送的媒体内容的至少一个标签。

对于一个媒体内容，根据该媒体内容的至少一个关键词，以及上述推荐标签获取方法获取的推荐标签集合，确定该媒体内容的至少一个标签。具体地，该媒体内容的一个关键词是否出现在推荐标签集合中，作为一维的评分维度给该关键词进行评分。例如，可以在推荐标签集合中直接查找与所述关键词相同的推荐标签，当一个关键词在推荐标签集合中存在与其对应的标签时，给该关键词打一个相对高的分值，当一个关键词在推荐标签集合中不存在与其对应的标签时，给该关键词打一个相对低的分值。对该关键词打的所述分值作为该关键词的一项评分。可以结合其他的评分维度，例如关键词在对应的媒体内容的文本内容中的词频作为一项打分维度，可以得到该关键词的另一项打分。将关键词的多项打分加权求和，获得该关键词的综合评分，然后将关键词按照所述综合评分进行排序，选取前L个关键词作为所述媒体内容的标签。

在一些实例中，在上述步骤S42中，在执行所述确定每一个待推送的媒体内容的至少一个标签时，包括以下步骤：

S51：获取每一个关键词在所述待推送的媒体内容中的词频。

所述待推送的媒体内容包括至少一个关键词，统计每一个关键词在所述媒体内容的文本部分中出现的频次，即统计在所述文本内容中出现的次数。

针对所述多个关键词中的任一关键词，执行如下处理：

S52：当所述推荐标签集合中存在与该关键词对应的标签时，将该关键词的第一评分设置为第一预设值。

所述第一评分用以表征该关键词是否出现在推荐标签集合中，即反应该关键词是否是推荐标签，当该关键词出现在推荐标签集合中时，将该关键词的第一评分设置为第一预设值。

S53：当所述推荐标签集合中不存在与该关键词对应的标签时，将该关键词的第一评分设置为第二预设值；

当该关键词没有出现在推荐标签集合中时，将该关键词的第一评分设置为第二预设值。其中，第一预设值为一相对高的分值，第二预设值为一相对低的分值。

S54：根据该关键词在所述待推送的媒体内容中的词频确定该关键词的第二评分。

关键词是否出现在推荐标签集合中作为一维的评分维度，可以结合其他的评分维度，词频可以为第二评分维度，对应的分值为第二评分，一个关键词在媒体内容的文本中出现的频次越高，所述第二评分越高，在媒体内容的文本中出现的频次越低，所述第二评分越低。

S55：根据所述第一评分及所述第二评分确定该关键词的第三评分。

可以将第一评分及第二评分进行加权求和，得到的求和结果作为所述关键词的第三评分。其中，第一评分及第二评分的权重可以根据经验进行预设。

S56：将所述第三评分满足预定条件的关键词作为所述媒体内容的标签。

可以将关键词按照其第三评分进行排序，在排序结果中选取前Q个关键词作为所述媒体内容的标签。也可以将所述评分超过预设阈值的关键词作为所述媒体内容的标签。上述获取的推荐标签集合能够在媒体内容的多个候选关键词中，选出更加合适的关键词作为媒体内容的标签。

本申请还提出了一种媒体内容推荐方法，该方法应用在推送信息平台102，如图4所示，该方法包括以下步骤：

步骤401：针对多个待推送的媒体内容，提取每一个待推送的媒体内容的至少一个关键词。

在图1所示的***架构中，推送信息提供方客户端105可以将其要推送的媒体内容的素材上传到推送信息平台102，以生成相应的待推送的媒体内容。对于每一个媒体内容，提取该媒体内容的至少一个关键词，可以将该媒体内容的文本部分通过分词、去除停用词后获取至少一个关键词。

步骤402：根据上述所述的推荐标签获取方法获取的所述推荐标签集合，及每一个待推送的媒体内容的至少一个关键词，确定每一个待推送的媒体内容的至少一个标签。

其中，上述步骤401及步骤402由处理平台107来执行，用以执行提取待推送的媒体内容的标签。

步骤403：接收应用客户端发送的媒体内容推荐请求，该媒体内容推荐请求中包括所述应用客户端的用户标识。

终端用户可以使用应用客户端101访问推送信息平台102中的应用服务器103，比如：浏览新闻或者文章等。当用户使用应用客户端101访问应用服务器103时，应用客户端101可以向推送信息平台102发出媒体内容推荐请求，该请求中包括所述应用客户端101所在用户的标识。应用客户端101在访问应用服务器103时，会将所述用户的cookie发送给应用服务器103，用户的cookie中携带该用户的历史访问数据，应用服务器103根据该用户的历史访问数据可以确定该用户的兴趣标签，同时还可以确定该用户访问过的媒体内容的类别等其他的信息，将确定的所述信息保存在用户访问记录数据库104中。

步骤404：根据所述用户标识确定所述用户的兴趣标签。

如上步骤403所述，应用服务器103可以根据用户的历史访问记录确定用户的兴趣标签，根据所述用户的标识可以在所述应用服务器103的数据库用户访问记录数据库104中获取用户的兴趣标签。同时，还可以根据用户的标识获取用户访问过的媒体内容的类别等其他信息。

步骤405：将其标签中存在与所述用户的兴趣标签相对应的标签的待推送的媒体内容作为候选媒体内容。

在该步骤中，根据获取的用户的兴趣标签，在全量的待推送媒体内容中进行媒体内容的召回。其中，所述待推送媒体内容为推送信息提供方客户端105发送的所有的媒体内容，针对每一个推荐请求，在所述全量的待推送媒体内容中选择要推荐给客户端的媒体内容。例如，当待推送媒体内容为待推送文章时，在待推送文章召回时，当文章的标签中包括与用户的兴趣标签时，则将该待推送文章召回，作为候选文章，其中，用户的兴趣标签可以为多个。当根据用户的兴趣标签召回的待推送文章数量较少时，还可以根据用户访问过的媒体内容的类别，例如用户访问过的文章的类别再召回一些待推送的文章。

步骤406：针对每一候选媒体内容，根据该候选媒体内容的至少一个标签及所述用户的兴趣标签，确定该候选媒体内容与所述用户的兴趣标签的匹配度。

在该步骤中，计算每一个候选媒体内容与用户的兴趣标签的匹配度，一个候选媒体内容具有多个标签，同时，用户的也包括多个，根据候选媒体内容的标签确定候选媒体内容的标签向量，根据用户的兴趣标签确定兴趣标签向量，计算所述候选媒体内容的标签向量与所述兴趣标签向量之间的匹配度。

步骤407：将匹配度满足预定条件的候选媒体内容作为推荐的媒体内容。

可以将候选媒体内容按照计算得到的所述匹配度进行排序，选择排序靠前的P个候选媒体内容作为推荐媒体内容。也可以将匹配度超过预设阈值的候选媒体内容作为推荐的媒体内容。

步骤408：将所述推荐的媒体内容的信息返回给所述应用客户端。

将确定的推荐的媒体内容的链接发送给应用客户端，使得应用客户端根据所述链接获取对应的媒体内容。例如，对于新闻推荐来说，将推荐新闻的链接发送给客户端，展示如图3C所示的页面图，在该页面图中展示了推荐新闻的链接，用户点击其中一新闻的链接，展示对应的新闻页面。

上述步骤402-408由应用服务器103来执行，用以具体的媒体内容的推送过程。

在一些实例中，在上述步骤201中，在执行所述针对所述标签数据中的每一个标签，执行如下处理时，针对所述标签数据中的标签，执行以下处理：

S61：根据所述各个样本内容的标签数据确定候选标签集合。

所述样本内容的标签数据中包括每一个样本内容提取的标签，将每一个样本内容提取的标签的集合作为所述候选标签集合，在该过程中，对于候选标签集合中相同的标签进行去重处理。对于提取每一项样本内容的标签，可以将该样本内容的文本部分进行分词、去除停用词后获取一些关键词，然后对所述关键词进行多维度的评分，然后将评分高的关键词作为所述样本内容的标签。所述评分维度可以包括关键词在文本内容中出现的词频，关键词是否出现在推荐标签集合中。本申请提供的推荐标签获取方法，用于获取推荐标签集合，同时提取推荐标签集合是一个定期更新的过程，在该步骤中，可以利用现有的推荐标签集合作为一维评分维度，用以提取样本内容的标签。

S62：针对所述候选标签集合中的每一个标签，计算该标签的质量评分。

按照上述的方法，对候选标签集合中的每一个标签，计算其质量评分。

本申请还提供了一种推荐标签获取装置500，如图5所示，包括：

获取单元501，用以获取多个样本内容中各个样本内容的标签数据和投放数据，获取与所述多个样本内容相关联的用户行为数据，所述各个样本内容的标签数据包括各个样本内容中包含的标签；

评分单元502，用以：

针对所述标签数据中的每一个标签，执行如下处理：

推荐标签确定单元503，用以将质量评分满足预定条件的至少一个标签作为推荐标签，形成推荐标签集合。

在一些实例中，所述装置进一步包括清洗单元504，用以：

提取所述待推送内容数量满足预定条件的推荐标签；

本申请还提供了一种媒体内容推荐装置600，如图6所示，包括：

标签提取单元601，用以针对多个待推送的媒体内容，提取每一个待推送的媒体内容的至少一个关键词；根据权利要求1所述的方法获取的所述推荐标签集合及每一个待推送的媒体内容的至少一个关键词，确定每一个待推送的媒体内容的至少一个标签；

请求接收单元602，用以接收应用客户端发送的媒体内容推荐请求，该媒体内容推荐请求中包括所述应用客户端的用户标识；

媒体内容选取单元603，用以：

根据所述用户标识确定所述用户的兴趣标签；

信息发送单元604，用以将所述推荐的媒体内容的信息返回给所述应用客户端。

本申请还提供了一种计算机可读存储介质，存储有计算机可读指令，可以使至少一个处理器执行如上述所述的方法。

图7示出了通信连接装置所在的计算设备的组成结构图。如图7所示，该计算设备包括一个或者多个处理器(CPU)702、通信模块704、存储器706、用户接口710，以及用于互联这些组件的通信总线708。

处理器702可通过通信模块704接收和发送数据以实现网络通信和/或本地通信。

用户接口710包括一个或多个输出设备712，其包括一个或多个扬声器和/或一个或多个可视化显示器。用户接口710也包括一个或多个输入设备714，其包括诸如，键盘，鼠标，声音命令输入单元或扩音器，触屏显示器，触敏输入板，姿势捕获摄像机或其他输入按钮或控件等。

存储器706可以是高速随机存取存储器，诸如DRAM、SRAM、DDR RAM、或其他随机存取固态存储设备；或者非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备，或其他非易失性固态存储设备。

存储器706存储处理器702可执行的指令集，包括：

操作***716，包括用于处理各种基本***服务和用于执行硬件相关任务的程序；

应用718，包括用于获取推荐标签以及媒体内容推荐的各种应用程序，这种应用程序能够实现上述各实例中的处理流程，比如可以包括推荐标签获取装置500或媒体内容推荐装置600中的部分或全部单元或者模块。推荐标签获取装置500或媒体内容推荐装置600中的各单元中的至少一个单元可以存储有机器可执行指令。处理器702通过执行存储器706中各单元中至少一个单元中的机器可执行指令，进而能够实现上述各单元或模块中的至少一个模块的功能。

需要说明的是，上述各流程和各结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分，实际实现时，一个模块可以分由多个模块实现，多个模块的功能也可以由同一个模块实现，这些模块可以位于同一个设备中，也可以位于不同的设备中。

各实施例中的硬件模块可以以硬件方式或硬件平台加软件的方式实现。上述软件包括机器可读指令，存储在非易失性存储介质中。因此，各实施例也可以体现为软件产品。

各例中，硬件可以由专门的硬件或执行机器可读指令的硬件实现。例如，硬件可以为专门设计的永久性电路或逻辑器件(如专用处理器，如FPGA或ASIC)用于完成特定的操作。硬件也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。

另外，本申请的每个实例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然，数据处理程序构成了本申请。此外，通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此，这样的存储介质也构成了本申请，本申请还提供了一种非易失性存储介质，其中存储有数据处理程序，这种数据处理程序可用于执行本申请上述方法实例中的任何一种实例。

图7模块对应的机器可读指令可以使计算机上操作的操作***等来完成这里描述的部分或者全部操作。非易失性计算机可读存储介质可以是***计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器。安装在扩展板或者扩展单元上的CPU等可以根据指令执行部分和全部实际操作。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种推荐标签获取方法，其特征在于，包括：

针对所述标签数据中的每一个标签，执行如下处理：

以及

2.根据权利要求1所述的方法，其中，所述投放数据包括曝光数据和/或点击数据；

获取包含该标签的各样本内容的曝光数据和/或点击数据；

3.根据权利要求2所述的方法，其中，每一样本内容的标签数据包括：至少一个标签及其在该样本内容中的权重；

所述方法进一步包括：针对候选标签集合中的每一个标签，从包含该标签的各样本内容的标签数据中提取该标签在各样本内容中的权重；

4.根据权利要求3所述的方法，其中，采用以下公式(1)确定所述用户接受度：

5.根据权利要求1所述的方法，其中，所确定的该标签的用户兴趣度参数包括该标签的点击量、该标签的订阅量和该标签的搜索量中的至少一项。

6.根据权利要求5所述的方法，其中，所述确定该标签的质量评分包括：通过对该标签的点击量、该标签的订阅量和该标签的搜索量中的至少一项及所述用户接受度进行加权求和，得到所述质量评分。

7.根据权利要求1所述的方法，进一步包括：

提取所述待推送内容数量满足预定条件的推荐标签；

8.根据权利要求1所述的方法，进一步包括：

9.根据权利要求8所述的方法，其中，所述确定每一个待推送的媒体内容的至少一个标签包括：

10.根据权利要求1所述的方法，其中，所述针对所述标签数据中的每一个标签，执行如下处理，包括：

根据所述各个样本内容的标签数据确定候选标签集合；

针对所述候选标签集合中的每一个标签，执行所述处理。

11.一种媒体内容推荐方法，其特征在于，包括：

根据所述用户标识确定所述用户的兴趣标签；

将所述推荐的媒体内容的信息返回给所述应用客户端。

12.一种推荐标签获取装置，其特征在于，包括：

评分单元，用以：

针对所述标签数据中的每一个标签，执行如下处理：

13.根据权利要求12所述的装置，进一步包括清洗单元，用以：

提取所述待推送内容数量满足预定条件的推荐标签；

14.一种媒体内容推荐装置，其特征在于，包括：

媒体内容选取单元，用以：

根据所述用户标识确定所述用户的兴趣标签；

15.一种计算机可读存储介质，其特征在于，存储有计算机可读指令，可以使至少一个处理器执行如权利要求1-11任一项所述的方法。