CN110147499B

CN110147499B - 打标签方法、推荐方法及记录介质

Info

Publication number: CN110147499B
Application number: CN201910423246.2A
Authority: CN
Inventors: 张炜
Original assignee: Zhizhe Sihai Beijing Technology Co Ltd
Current assignee: Zhizhe Sihai Beijing Technology Co Ltd
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2021-09-14
Anticipated expiration: 2039-05-21
Also published as: CN110147499A

Abstract

本公开内容涉及打标签方法、推荐方法及记录介质。根据本公开内容的一个实施例，该打标签方法包括：从目标内容的文本部分选择多个关键词；使用语言模型确定各关键词的相应关键词向量；通过对各相应关键词向量加权求和确定目标内容的内容向量；基于内容向量和标签集中的各标签的标签向量确定目标内容关于各标签的相似度；以及基于各相似度确定目标内容的内容类别标签；其中，标签集中的各标签为指示目标内容的候选类别的类别指示词；并且各标签向量是由语言模型基于相应类别指示词确定的向量。本公开内容的方案至少有助于实现如下效果之一：准确地为内容分配标签、实时为内容分配标签、向用户推荐匹配的内容。

Description

打标签方法、推荐方法及记录介质

技术领域

本公开内容总体上涉及信息处理，更具体地，涉及打标签方法、推荐方法以及存储有执行前述方法的程序的计算机可读记录介质。

背景技术

近年来，随着互联网的蓬勃发展，在网络上发布内容及向用户推荐内容越来越普遍。如何向用户有效地推荐内容是重要的研究方向。

发明内容

在下文中将给出关于本公开内容的简要概述，以便提供关于本公开内容的某些方面的基本理解。应当理解，此概述并不是关于本公开内容的穷举性概述。它并不是意图确定本公开内容的关键或重要部分，也不是意图限定本公开内容的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

网络上发布的内容涉及各种类别。例如，运动健身、家政服务、鲜花礼品、婚纱摄影等。用户感兴趣的内容的类别也是多样的。例如，在一定的时间段内，用户可能仅对运动健身感兴趣。或者，用户对某些领域感兴趣，对某些领域缺乏兴趣。可以理解，考虑到前述事实，为了向用户有效推荐内容并提高用户针对推荐内容的点击率，通过对内容打标签以将内容进行分类，从而可以向对特定类型的内容感兴趣的用户推荐具有相应标签的内容。因此，准确且有效的为内容分配标签是期望的。

根据本公开内容的一方面，提供了一种打标签方法，包括：从目标内容的文本部分选择多个关键词；使用语言模型确定各关键词的相应关键词向量；通过对各相应关键词向量加权求和确定目标内容的内容向量；基于内容向量和标签集中的各标签的标签向量确定目标内容关于各标签的相似度；以及基于各相似度确定目标内容的内容类别标签；其中，标签集中的各标签为指示目标内容的候选类别的类别指示词；并且各标签向量是由语言模型基于相应类别指示词确定的向量。

根据本公开内容的一方面，提供了一种推荐方法，包括：基于多个内容中的每个的内容类别标签集和用户的感兴趣内容类别集确定用于向用户推荐的候选内容集；从候选内容集选择向用户推荐的推荐内容；以及生成向用户显示推荐内容的表示的指示；其中，指示用于供用户选择；并且多个内容包括目标内容，目标内容的内容类别标签集中的至少一个内容类别标签是通过前述打标签方法来被确定。

根据本公开内容的另一方面，提供了存储有程序的计算机可读记录介质，其中，该程序使计算机执行前述的打标签方法。

根据本公开内容的又一方面，提供了一种存储有程序的计算机可读记录介质，其中，该程序使计算机执行前述推荐方法。

本公开内容的打标签方法、推荐方法以及记录介质至少有助于实现如下效果之一：高效地为内容分配标签、准确地为内容分配标签、实时为内容分配标签、向用户推荐匹配的内容、提高内容的点击率、以及容易地实现新内容的冷启动。

附图说明

参照附图下面说明本公开内容的实施例，这将有助于更加容易地理解本公开内容的以上和其他目的、特点和优点。附图只是为了示出本公开内容的原理。在附图中不必依照比例绘制出单元的尺寸和相对位置。在附图中：

图1示出了根据本公开内容的一个实施例的打标签方法的示例性流程图；

图2示出了根据本公开内容的一个实施例的选择多个关键词的方法的示例性流程图；

图3示出了根据本公开内容的一个实施例的推荐方法的示例性流程图；

图4示出了根据本公开内容的一个实施例的打标签装置的示例性框图；以及

图5示出了根据本公开内容的一个实施例的推荐装置的示例性框图。

具体实施方式

在下文中将结合附图对本公开内容的示例性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施例的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中可以做出很多特定于实施例的决定，以便实现开发人员的具体目标，并且这些决定可能会随着实施例的不同而有所改变。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本公开内容，在附图中仅仅示出了与根据本公开内容的方案密切相关的装置结构，而省略了与本公开内容关系不大的其他细节。

应理解的是，本公开内容并不会由于如下参照附图的描述而只限于所描述的实施形式。在本文中，在可行的情况下，实施例可以相互组合、不同实施例之间的特征替换或借用、在一个实施例中省略一个或多个特征。

根据本公开内容的一个方面，本公开内容涉及确定内容的标签的打标签方法。下面参考图1示例性描述本公开内容的打标签方法。

图1示出了根据本公开内容的一个实施例的打标签方法100的示例性流程图。能够理解的是，可能有多个要分配标签的内容，可以使用打标签方法100来逐一或并行地为这些内容打标签(内容的标签也称为内容类别标签)。在此，选择多个内容中的一个作为目标内容CO来示例性的说明打标签方法100。

在步骤101处，选择关键词，其中，关键词的数量为多个，并且关键词来自目标内容的文本部分。可以使用KW_j来表示各关键词，j为索引，j取1至最大值j_max中的一个，并且j_max表示针对目标内容CO选择的关键词的数量。使用多个关键词有助于准确、全面表征目标内容CO所涉及的领域或类别，有助于准确、全面的为目标内容分配内容类别标签。目标内容CO包括文本部分。目标内容CO可以是多媒体内容、广告、文章、商品信息或图像。关键词的数量可以为2、3、4、5、6、7、8、9、10或更多。例如，可以根据目标内容CO的文本部分的长短选择合适的j_max。进一步的，例如，可以根据目标内容CO的文本部分的最小文本长度选择合适的j_max。文本部分可以包括目标内容中的图像或音频中包含的文字。图像中的文字例如可以通过光学字符识别来获取。音频中的文字例如可以通过语音识别来获取。文本部分可以包含标题部分和正文部分。

在步骤102处，确定相应关键词向量VK_j，其中，相应关键词向量VK_j是关键词KW_j的关键词向量，并且使用语言模型ML来确定相应关键词向量VK_j。语言模型ML可以将输入的词映射为一个向量。

在步骤103处，确定内容向量VC，其中，该内容向量VC为表征目标内容CO的向量，并且是通过对各相应关键词向量VK_j加权求和来确定内容向量VC。

在步骤104处，确定相似度SI_i，其中，这里的相似度是目标内容CO关于标签集{L_i}中的各标签L_i的相似度SI_i，相似度SI_i是基于基于内容向量VC和标签Li的标签向量VL_i来确定。i是索引，可以取1至i_max，i_max表示标签集{L_i}中标签个数，即，目标内容CO的候选类别的数量。标签集{L_i}中的各标签L_i为指示目标内容CO的候选类别的类别指示词WI_i。各标签向量VL_i是由语言模型ML基于相应类别指示词WI_i确定的向量。相似度SI_i可以为内容向量VC与标签向量VL_i的夹角的余弦，即，两向量的点乘与它们的模的积的比值。需要说明的是：在本公开内容中，除非特别说明，否则用标识{e_i}表示包含元素e₁、……、e_max的集合，即i＝1、……、max，并不是仅指包含一个元素e_i的集合，即标识{e_i}表示包括一个或多个元素的集合。

在步骤105处，确定目标内容CO的内容类别标签LC_k，其中，基于各相似度SI_i确定内容类别标签LC_k，k为索引，且k可以取1至k_max，k_max表示目标内容CO关于标签集{L_i}的内容类别标签的数量。例如，当相似度SI_i大于或等于预定相似度阈值Th，则将该相似度SI_i所对应的标签L_i分配给目标内容CO，作为目标内容CO的内容类别标签。可选的，可以将i_max个相似度按降序排列，选择前k_max个相似度所对应的标签分配给目标内容CO，作为目标内容CO的内容类别标签。相似度SIi能够指示目标内容关于相应类别的类别相关程度。因此，可以记录各相似度SI_i，以在推荐内容时，选择与用户的感兴趣类别匹配，且类别相关程度较高的内容作为推荐内容。能够理解的是，目标内容CO可能已经有用其他打标签方式分配的其他标签，其他标签和k_max个用本公开内容的打标签方法确定的标签一起可以构成目标内容CO的内容类别标签集{LC_m}，m为索引，其中，内容类别标签集中无重复元素；目标内容CO的内容类别标签集也可以完全由本公开内容的打标签方法确定的内容类别标签来构成，即，{LC_m}＝{LC_k}。

为了增强内容标签化的实时性，可以通过kafka队列来在线获取新内容作为目标内容，从而可以对新出现的内容及时打上标签，并基于打上的标签及时向用户推荐，以容易地解决新内容的冷启动问题。在一个变形例中，打标签方法100还包括：通过kafka队列来在线获取新内容作为目标内容CO。

在一个实施例中，打标签方法100还包括：通过对目标内容进行处理获得文本部分。

在本公开内容中，可以使用多种方式实现打标签方法100中的步骤101。图2示出了一种实现步骤101的示例性方法。

图2示出了根据本公开内容的一个实施例的选择多个关键词的方法210的示例性流程图。

在步骤211处，对目标内容的文本部分进行分词以得到多个候选关键词KW_j’，j’为索引，j’取1至最大值j’_max中的一个，并且j’_max表示候选关键词数量。如果出现j’_max<j_max的情况，可以执行特定例程以标识目标内容，例如将目标内容标识为预定内容类别标签和或后续由人工处理。进一步的，如果有一个或多个停用词，步骤211还包括去除停用词，即多个候选关键词KW_j’中不包括任一停用词。

在步骤212处，确定词频，其中，词频是指各候选关键词KW_j’的关于文本部分的词频TF_j’。从而，得到j’_max个词频值。

在步骤213处，确定逆文档频率，其中，逆文档频率是各候选关键词KW_j’的关于预定语料库CP的逆文档频率IDF_j’。从而，得到j’_max个逆文档词频值。预定语料库CP具有足够数量的文档，这些文档可以是针对对内容准确标签化而筛选的文档。例如，如果目标内容的文本部分均为简体中文，则预定语料库CP包含的文档可以均为简体中文编码的文档。优选的，预定语料库CP的各文档具有相同的编码格式。

在步骤214处，选择多个关键词，其中，基于各候选关键词KW_j’的词频TF_j’与逆文档频率IDF_j’的积TF_j’*IDF_j’选择预定数量的候选关键词作为多个关键词KW_j。例如，将积TF_j’*IDF_j’按从大到小排列得到积序列S，并选择积序列S中的前j_max个积所对应的候选关键词作为后续要使用的关键词。

选择多个关键词的方法不限于方法210。例如，作为一种变形例，也可以仅基于词频TF_j’选择预定数量的候选关键词作为多个关键词KW_j。或者，将逆文档频率IDF_j’缩放一定的比例r得到调整的逆文档频率r*IDF_j’，基于各候选关键词KW_j’的词频TF_j’与调整的逆文档频率r*IDF_j’的积TF_j’*r*IDF_j’选择预定数量的候选关键词作为多个关键词KW_j，其中r可以与候选关键词的类型相关。

可以使用各种能够基于词生成表征该词的词向量的自然语言处理模型作为本公开内容中的语言模型ML。例如，针对预定语料库使用word2vec工具训练后的自然语音处理模型。作为示例，在使用word2vec工具训练语言模型时，可以将word_embedding的size设为64，窗口尺寸设为10，最小词频设为5，运行迭代轮数设为10。如前所述，语言模型ML能够基于输入的关键词KWj，确定该关键词KW_j的相应关键词向量VK_j，还能够基于输入的标签L_i(即，类别指示词WI_i)确定该标签L_i的标签向量VL_i。

考虑到不同的内容分类体系，各分类(标签)可能对某些关键词更加敏感。因此，可以在确定内容向量时，考虑各关键词的类别，从而提高打标签的准确度。例如，在一个实施例中，通过对各相应关键词向量VK_j加权求和确定目标内容的内容向量VC包括：确定各关键词的类别C_j；以及基于类别C_j确定各相应关键词向量VK_j的相应权重w_j。可以使用等式(1)确定内容向量VC。

例如，基于关键词的类别组{C_j}将关键词的权重等级分为三个等级，权重分别取第一值v₁、v₂和v₃，其中，v₁>v₂>v₃。

进一步的，例如，类别组{C_j}可以由以下构成：商品、人名、地名、数字、时间和其他。当关键词KW_j的类别为“商品”时，相应权重w_j为第一值，即，w_j＝v₁；当关键词KW_j的类别为“其他”时，相应权重w_j为第二值，即，w_j＝v₁；当关键词KW_j的类别为“人名”、“地名”、“数字”或“时间”时，相应权重w_j为第三值，即，w_j＝v₃。关键词的类别例如可以通过搜索关键词类别数据库确定。

在一个实施例中，第一、二、三值v₁、v₂、v₃可以分别设置为2.0、1.0和0.5。

在一个实施例中，标签集{L_i}中的各标签L_i选自二级行业类别。表1是各级行业类别的示例，其中，仅示例性示出了部分行业类别。可以看出一级行业类别涵盖的范围过广，三级行业类别划分过细。因此，一级行业类别和三级行业类别对于有效且方便地区分用户感兴趣的内容可能是不利的。可见，选择二级行业类别来对目标内容进行分类(即，打标签)是优选的。本领域技术人员能够理解：为了准确区分用户感兴趣的内容类别，可以选择更细的分类，或者，为了特定目的，可以设计出特定于该目的的特定分类类别。

表1各级行业类别的示例

本公开内容还提供一种推荐方法。下面参照图3描述本公开内容的推荐方法。

图3示出了根据本公开内容的一个实施例的推荐方法300的示例性流程图。

在步骤302处，确定候选内容集。具体而言，基于多个内容中的每个的内容类别标签集和用户US_a的感兴趣内容类别集{Lu_k’}确定用于向用户US_a推荐的候选内容集，a为标识用户的索引，候选内容集包含用于向用户US_a推荐的候选内容。具体来说，对多个内容中每个进行匹配判断，即，基于内容C的内容类别标签集{LC_m}和用户US_a的感兴趣内容类别集{Lu_k’}确定内容C是否为要向用户推荐的候选内容，其中，多个内容包括目标内容，目标内容的内容类别标签集中的至少一个内容类别标签是通过本公开内容的打标签方法来被确定，k’是索引，取1至k’_max，用户US_a有k’_max个感兴趣内容类别。容易理解的是，目标内容CO的标签的数量可以是1个、2个或更多。

当标签LC_m与用户US_a匹配时，即，当内容C的标签集中的一个标签LC_m所指示的内容类别包括在用户的感兴趣内容类别集{Lu_k’}中时，将内容C确定为候选内容。优选的，可以记录针对该用户，被选中的内容C的匹配标签所对应的相似度中的最大相似度，作为该内容针对该用户的内容相关性得分S_x。例如，对用户US_a，被选中的作为候选内容的内容C有2个标签包括在用户US_a的感兴趣内容类别集中，2个标签所对应相似度分别为0.6和0.8，则针对用户US_a，记录该内容C的内容相关性得分S_x为0.8。另外，用户的各感兴趣内容类别Lu_k’可以对应一个感兴趣得分S_k’，可以将感兴趣得分与内容相关性得分求和或积作为是否选择候选内容为推荐内容的依据，其中，感兴趣得分S_k’用于表示用户对感兴趣内容类别Lu_k’的内容的感兴趣程度。例如，内容C的内容相关性得分S_x为0.8，且其对应针对“运动健身”标签的相似度，而用户US_a感兴趣内容类别集包括“运动健身”，且该类别的感兴趣得分S_k’＝0.6，则可以基于S_x和S_k’(例如，基于S_x*S_k’或S_x+S_k’的大小)选择推荐内容。

当标签与用户不匹配时，即，当内容C的内容类别标签集中的每个标签所指示的内容类别都不在用户感兴趣的内容类别集中时，不将内容C记入候选内容集。

在步骤303处，从候选内容集中选择推荐内容，其中，候选内容集包括要向用户推荐的至少一个候选内容。推荐内容的数量可以是1个、2个或更多。选择规则可以根据需要确定，例如，从候选内容集中选择最新的内容向用户推荐；从候选内容集中随机选择推荐内容；从候选内容集中选择被推荐次数最少的内容作为推荐内容；从候选内容集中选择具有最大内容相关度得分的内容作为推荐内容；或者，选择多个考虑因素，并为这多个考虑因素设置优先级，从而根据优先级选择推荐内容，多个考虑因素可以包括：候选内容的收录时间、候选内容的推荐次数、感兴趣得分与内容相关性得分的和/积、候选内容的点击率和候选内容所对应的内容相关度得分。

在步骤304处，生成显示推荐内容的表示的指示，其中，此处，是向用户显示推荐内容的表示，并且指示用于供用户选择。推荐内容的表示例如是推荐内容的缩略图。例如，若用户在其所使用的终端上点击了该缩略图，则在终端上显示推荐内容。

在推荐方法300由服务器端来执行的情况下，推荐方法300还可以包括：接收针对推荐内容的请求。该请求可以是由用户所使用的客户端发出。请求可以包括用户的用户信息，以基于用户信息确定用户感兴趣的内容类别集。推荐方法300可以由服务器端来执行。

在推荐方法300由服务器端来执行的情况下，推荐方法300还可以包括：向用户所使用的客户端发送向用户显示推荐内容的表示的指示。从而，客户端接收到该指示后，客户端向用户显示推荐内容的表示以供用户选择。

优选的，可以对多个内容执行本公开内容的打标签方法，以分别确定多个内容的内容类别标签。进一步的，候选内容集中的所有候选内容的所有内容类别标签均由本公开内容的打标签方法来确定。

可选的，可以使用kafka队列获取最新内容作为目标内容。

下面，以一个具体的示例，示例性描述本公开内容的打标签方法。

标签集{L_i}有10个标签，即，10个类别指示词，分别为：运动健身、家政服务、鲜花礼品、婚纱摄影、医疗科室、整形医疗、妇幼医院、酒店预定、民宿和航空公司。

从消息队列中在线获取的新内容的如下：

内容标题为：“一家人在旅途民宿里一起做饭是啥体验？Airbnb告诉你超温馨”；

内容正文为：“和家人去不同的地方，看风景，吃特色，还能在不同地方的家里一起做饭想想就很温馨，Airbnb全球任您来选”。

将该新内容选择为目标内容CO以选择关键词。

对目标内容CO进行分词，并基于TF*IDF选择TF*IDF最大的前9个候选关键词作为关键词。这9个关键词分别为：Airbnb、人在旅途、民宿、地方、温馨、做饭、风景、特色、全球。

确定的各关键词的类别如表2。

表2关键词的类别及权重

通过使用训练后的word2vec语言模型ML，获取这9个关键词的9个64维关键词向量，并根据关键词的类别对9个关键词向量进行加权求和，得到64维的目标内容向量VC如下：[-0.14115450160929885,-0.24425549793780627,-0.30044687888376137,-0.05763183483727175,0.15561235974744236,0.010583868380962057,0.013591076247417138,-0.06848938692135165,-0.02732886928430746,-0.034710140155875834,0.03750085532692744,0.046927746483094245,0.01581604176379293,0.16177491753452636,-0.237404869703128,-0.06449884472860959,-0.10758427322849924,-0.07626917726376475,0.006169830778924875,0.11237461946713251,-0.17831536577928542,0.0819056485434265,-0.12827313774691287,0.0020619466900970483,-0.016215964088673797,-0.14129457714696125,-0.0905078577328344,0.01599747926662087,-0.13264012880481604,-0.05488182080912134,0.15804649074807617,-0.15541510850124396,0.0344278284956769,0.154474302607422,-0.27187228106139893,-0.04848808005948619,0.07496522631347169,-0.09970821588166821,-0.21192385737972327,-0.10144228362039891,-0.03206756311276709,0.08181443401576366,-0.022456738055021172,0.07263042977339229,-0.05359920849368456,-0.012039215785374473,0.05122092769789547,-0.011626157154404461,-0.009008863938227746,-0.22059785870647422,0.004545139343459065,0.056822009826923224,0.10528190567950048,-0.16259849732059495,0.1074273601363384,0.16346525357742392,0.0016458175006195614,-0.10910192190291954,0.22706467011122444,0.23295105654493278,0.1703301017317971,0.017352765286693526,-0.14180094380902827,-0.18815346922446488]。

基于内容向量VC和标签集{L_i}中的10个标签的标签向量确定目标内容VC关于各标签的相似度，其中，10个标签的标签向量是由语言模型ML基于相应类别指示词确定的10个64维向量。10个相似度的值如下：0.10955877033307335、0.32484788901811973、0.18443480388501027、0.32851210400292546、-0.1871856053931387、0.057516092361998145、-0.10459164508515512、0.5691629355855871、0.8078326422773067、0.3179727610239934。

假设预定相似度阈值Th为0.5。则确定“民宿”和“酒店预定”为目标内容CO的内容类别标签，即，目标内容CO的内容类别标签集为{民宿，酒店预定}。

本公开内容还提供一种存储有程序的计算机可读记录介质，其中，该程序使计算机执行本公开内容的打标签方法。

本公开内容还提供一种存储有程序的计算机可读记录介质，其中，该程序使计算机执行本公开内容的推荐方法。

本公开内容还提供一种打标签装置。图4示出了根据本公开内容的一个实施例的打标签装置400的示例性框图。打标签装置400包括：关键词确定单元401、词向量确定单元402、内容向量确定单元403、相似度确定单元404和标签确定单元405。关键词确定单元401被配置成：从目标内容的文本部分选择多个关键词。词向量确定单元402被配置成：使用语言模型确定各关键词的相应关键词向量，以及使用语言模型确定各标签的标签向量，其中，标签集由标签组成，各标签为指示目标内容的候选类别的类别指示词。内容向量确定单元403被配置成：通过对各相应关键词向量加权求和确定目标内容的内容向量。相似度确定单元404被配置成：基于内容向量和标签集中的各标签的标签向量确定目标内容关于各标签的相似度。标签确定单元405被配置成：基于各相似度确定目标内容的内容类别标签。标签确定单元405可以输出目标内容的内容类别标签，其中，目标内容的内容类别标签的数量可以是1个、2个或更多。打标签装置400与本公开内容的打标签方法具有对应关系。在可行的情况下，打标签装置400的更具体细节可以与本公开内容的打标签方法中的对应细节相同。优选的，可以使用打标签装置400生成目标内容CO的所有内容类别标签。

本公开内容还提供一种推荐装置。图5示出了根据本公开内容的一个实施例的推荐装置500的示例性框图。推荐装置500包括：候选内容集确定单元501、选择单元502和指示生成单元503。候选内容确定单元501被配置成：基于多个内容中的每个的内容类别标签集和用户的感兴趣内容类别集确定用于向用户推荐的候选内容集，其中，多个内容包括目标内容，目标内容的内容类别标签集中的至少一个内容类别标签是通过本公开内容的打标签方法来被确定。选择单元502被配置成：从候选内容集选择向用户推荐的推荐内容。指示生成单元503被配置成：生成向用户显示推荐内容的表示的指示，其中，该指示用于供用户选择。推荐装置500与本公开内容的推荐签方法具有对应关系。在可行的情况下，推荐装置500的更具体细节可以与本公开内容的推荐方法中的对应细节相同。

根据上面对本公开内容的具体实施例的描述，本领域技术人员能够理解，本公开内容方案至少能实现如下效果之一：使用打标签方法为内容自动打标签，不需要人工标注标签，节约时间、节省标注成本、高效地打标签、避免人工标注的主观性引入的误差；打标签方法使用神经网络，能够有效、准确地为内容分配标签；不需要对预定语料库的内容进行标注，因此当标签体系发生变化时，不需要对预定语料库的内容进行标注，也不需要对语言模型进行再次训练，因此，打标签方法具有较强的鲁棒性；打标签方法能够在线实时为内容打标签，内容被实时标签化；能够向用户推荐个性化的匹配内容，从而提高了内容的点击率；新内容被在线实时标签化，能够被及时推荐给用户，从而能够容易第实现新内容的冷启动。

应该理解，术语“包括”在本文使用时指特征、整件、步骤或组件的存在，但并不排除一个或多个其他特征、整件、步骤或组件的存在或附加。

应该理解，在不偏离本公开内容的精神的情况下，针对一个实施例描述和/或示出的特征可以以相同或类似的方式在一个或多个其他实施例中使用，与其他实施例中的特征相组合，或替代其他实施例中的特征。

此外，本公开内容的方法不限于按照说明书中描述的时间顺序来执行，如果从原理上说可行，也可以按照其他的时间顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本公开内容的范围构成限制。

以上结合具体的实施例对本公开内容进行了描述，但本领域技术人员应该清楚，这些描述都是示例性的，并不是对本公开内容的保护范围的限制。本领域技术人员可以根据本公开内容的精神和原理对本公开内容做出各种变型和修改，这些变型和修改也在本公开内容的范围内。

Claims

1.一种打标签方法，包括：

从目标内容的文本部分选择多个关键词；其中，通过kafka队列在线获取的新内容作为目标内容；

使用语言模型确定各关键词的相应关键词向量；

通过对各相应关键词向量加权求和确定所述目标内容的内容向量；

基于所述内容向量和标签集中的各标签的标签向量确定所述目标内容关于各标签的相似度；以及

基于各相似度确定所述目标内容的内容类别标签；

其中，所述标签集中的各标签为指示所述目标内容的候选类别的类别指示词；并且

各标签向量是由所述语言模型基于相应类别指示词确定的向量；

其中，通过对各相应关键词向量加权求和确定所述目标内容的内容向量包括：

确定各关键词的类别；以及基于各关键词的类别确定各相应关键词向量的相应权重；

其中，所述类别选自于由以下构成的类别组：商品、人名、地名、数字、时间和其他；

当所述类别为商品时，所述相应权重为第一值；

当所述类别为其他时，所述相应权重为第二值；

当所述类别为人名、地名、数字或时间时，所述相应权重为第三值；

所述第一值大于所述第二值；并且

所述第二值大于所述第三值。

2.根据权利要求1所述的打标签方法，其中，所述标签集中的各标签选自二级行业类别。

3.根据权利要求1所述的打标签方法，其中，从目标内容的文本部分选择多个关键词包括：

对所述文本部分进行分词以得到多个候选关键词；

确定各候选关键词的关于所述文本部分的词频；

确定各候选关键词的关于预定语料库的逆文档频率；以及

基于各候选关键词的词频与逆文档频率的积选择预定数量的候选关键词作为所述多个关键词。

4.根据权利要求1所述的打标签方法，其中，所述语言模型是针对预定语料库使用word2vec工具训练后的自然语音处理模型。

5.一种推荐方法，包括：

基于多个内容中的每个的内容类别标签集和用户的感兴趣内容类别集确定用于向所述用户推荐的候选内容集；

从候选内容集选择向所述用户推荐的推荐内容；以及

生成向所述用户显示所述推荐内容的表示的指示；

其中，所述指示用于供所述用户选择；并且

所述多个内容包括目标内容，所述目标内容的内容类别标签集中的至少一个内容类别标签是通过权利要求1至4中的任一项所述的打标签方法来被确定。

6.根据权利要求5所述的推荐方法，还包括：使用kafka队列获取最新内容作为所述目标内容。

7.一种存储有程序的计算机可读记录介质，其中，所述程序使计算机执行权利要求1至4中的任一项所述的打标签方法。

8.一种存储有程序的计算机可读记录介质，其中，所述程序使计算机执行权利要求5或6所述的推荐方法。