CN104915359A

CN104915359A - 主题标签推荐方法及装置

Info

Publication number: CN104915359A
Application number: CN201410096024.1A
Authority: CN
Inventors: 佘洁莹; 陈雷; 梁颖琪
Original assignee: Huawei Technologies Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2014-03-14
Filing date: 2014-03-14
Publication date: 2015-09-16
Anticipated expiration: 2034-03-14
Also published as: CN104915359B

Abstract

本发明实施例提供一种主题标签推荐方法及装置，该方法包括：获取用户在社交网络上发布的第一消息，所述第一消息是指没有被标记主题标签的消息；根据所述社交网络的主题模型，获取所述第一消息的主题标签；将所述获取的第一消息的主题标签显示在屏幕上以供所述用户选择；根据所述用户选择的结果，确定所述第一消息的主题标签。本发明实施例中，实现了通过主题模型来向用户推荐主题标签，并由用户的选择来最终确定主题标签，这样最终确定的主题标签才能最接近用户原本想表达的主题。

Description

主题标签推荐方法及装置

技术领域

本发明涉及信息处理技术，尤其涉及一种主题标签推荐方法及装置。

背景技术

随着互连网和移动终端的普及，使用社交网络的用户越来越多。大家可以通过社交网络来发布或转发一些消息，随着用户的增多，社交网络上发布的消息量也越来越大。

为了提升用户在社交网络上的体验，现有社交网络提出了主题标签（hashtag）功能，即用户发布消息时通过“#”号隔离词汇以标定被隔离的词汇作为hashtag，该hashtag为所发布消息主题。这样hashtag可以帮助用户获取特定话题、相关事件等消息。但是这种方式必须依赖用户每次发布消息时都附带上指定标记来标定hashtag，如果用户没有标定hashtag就不能确定出用户发布消息的主题。

对于没有标定hashtag的消息，现有技术中确定消息主题的方式，主要采用消息聚类，将用户发布的消息中出现数量较多的词汇作为主题标签。

但是，采用该聚类技术获取的主题标签往往并不能准确表达用户发布消息的主题。

发明内容

本发明实施例提供一种主题标签推荐方法及装置，用于解决推荐的主题标签不能准确表达用户发布消息的主题的问题。

本发明实施例第一方面提供一种主题标签推荐方法，包括：

获取用户在社交网络上发布的第一消息，所述第一消息是指没有被标记主题标签的消息；

根据所述社交网络的主题模型，获取所述第一消息的主题标签；

将所述获取的第一消息的主题标签显示在屏幕上以供所述用户选择；

根据所述用户选择的结果，确定所述第一消息的主题标签。

结合第一方面，在第一方面的第一种可能的实施方式中，所述根据所述社交网络的主题模型，获取所述第一消息的主题标签之前，还包括：

从所述社交网络中获取第二消息，所述第二消息是指标记有主题标签的消息；

对所述第二消息进行预处理，并保存所述预处理的结果；

通过使用机器学习法对所述预处理的结果进行训练，获得所述社交网络的主题模型。

结合第一方面的第一种可能的实施方式，在第一方面的第二种可能的实施方式中，所述对所述第二消息进行预处理，并保存所述预处理的结果，包括：

将所述第二消息按词汇进行切分；

根据预设词性从所述切分的结果中获取词组；

将所述词组按照预设格式进行存储。

结合第一方面的第一种可能的实施方式或第二种可能的实施方式，在第一方面的第二种可能的实施方式中，所述通过使用机器学习法对所述预处理的结果进行训练，获得所述社交网络的主题模型包括：

使用机器学习法对所述预处理的结果进行采样，根据所述采样结果获取主题-词汇概率分布以及主题-主题标签概率分布；

根据所述主题-词汇概率分布以及所述主题-主题标签概率分布，获取所述社交网络的主题模型。

结合第一方面至第一方面的第三种可能的实施方式中任一项，在第一方面的第四种可能的实施方式中，所述根据所述社交网络的主题模型，获取所述第一消息的主题标签包括：

采用公式

p (h | d_{u}) = \underset{t}{Σ} ψ_{t, h} \times ((\underset{r &Element; F_{u} \cup {U}}{Σ} η_{u, r} θ_{r, t}) \underset{w_{u, d, n}}{Π} (π_{0} φ_{B, w_{u, d, n}} + π_{1} φ_{t, w_{u, d, n}}))

计算所述第一消息d_u的主题标签为h的概率，并获取所述p(hdu)的值大于第一预设阈值的主题标签，其中：ψ_t,h表示在主题t的主题标签中出现主题标签h的概率，η_u,r表示所述用户选用用户r的历史主题的概率，θ_r,t表示用户r发布的消息属于主题t的概率，π₀表示一个词汇属于非主题词汇的概率，表示非主题词汇中出现w_u,d,n的概率，π₁表示一个词汇属于主题词汇的概率，表示属于主题t的词汇中出现w_u,d,n的概率，w_u,d,n表示所述第一消息中的词汇n；

所述将所述获取的第一消息的主题标签显示在屏幕上以供所述用户选择包括：

将所述p(h|d_u)的值大于第一预设阈值的主题标签显示在屏幕上以供所述用户选择。

结合第一方面的第四种可能的实施方式，在第一方面的第五种可能的实施方式中，所述采用公式

p (h | d_{u}) = \underset{t}{Σ} ψ_{t, h} \times ((\underset{r &Element; F_{u} \cup {U}}{Σ} η_{u, r} θ_{r, t}) \underset{w_{u, d, n}}{Π} (π_{0} φ_{B, w_{u, d, n}} + π_{1} φ_{t, w_{u, d, n}}))

计算所述第一消息d_u的主题标签为h的概率，包括：

将所述社交网络的主题模型中的ψ_t,h从大到小进行排列，并按照ψ_t,h从大到小的顺序依次代入公式

p (h | d_{u}) = \underset{t}{Σ} ψ_{t, h} \times ((\underset{r &Element; F_{u} \cup {U}}{Σ} η_{u, r} θ_{r, t}) \underset{w_{u, d, n}}{Π} (π_{0} φ_{B, w_{u, d, n}} + π_{1} φ_{t, w_{u, d, n}}))

计算，当计算获取的p(h|d_u)值小于第二预设阈值时终止计算，所述第二预设阈值小于或等于所述第一预设阈值。

本发明实施例第二方面提供一种主题标签推荐装置，包括：

获取模块，用于获取用户在社交网络上发布的第一消息，所述第一消息是指没有被标记主题标签的消息；根据所述社交网络的主题模型，获取所述第一消息的主题标签；

推荐模块，用于将所述获取的第一消息的主题标签显示在屏幕上以供所述用户选择；

确定模块，用于根据所述用户选择的结果，确定所述第一消息的主题标签。

结合第二方面，在第二方面的第一种可能的实施方式中，所述获取模块，还用于从所述社交网络中获取第二消息，所述第二消息是指标记有主题标签的消息；

所述装置还包括：

预处理模块，用于对所述第二消息进行预处理，并保存所述预处理的结果；

学习模块，用于通过使用机器学习法对所述预处理的结果进行训练，获得所述社交网络的主题模型；

所述获取模块，具体用于根据所述学习模块获得的述社交网络的主题模型，获取所述第一消息的主题标签。

结合第二方面的第一种可能的实施方式，在第二方面的第二种可能的实施方式中，所述预处理模块，具体用于将所述第二消息按词汇进行切分；根据预设词性从所述切分的结果中获取词组；将所述词组按照预设格式进行存储。

结合第二方面的第一种可能的实施方式或第二种可能的实施方式，在第二方面的第二种可能的实施方式中，所述学习模块，具体用于使用机器学习法对所述预处理的结果进行采样，根据所述采样结果获取主题-词汇概率分布以及主题-主题标签概率分布；根据所述主题-词汇概率分布以及所述主题-主题标签概率分布，获取所述社交网络的主题模型。

结合第二方面至第二方面的第三种可能的实施方式中任一项，在第二方面的第四种可能的实施方式中，所述获取模块，具体用于采用公式

p (h | d_{u}) = \underset{t}{Σ} ψ_{t, h} \times ((\underset{r &Element; F_{u} \cup {U}}{Σ} η_{u, r} θ_{r, t}) \underset{w_{u, d, n}}{Π} (π_{0} φ_{B, w_{u, d, n}} + π_{1} φ_{t, w_{u, d, n}}))

计算所述第一消息d_u的主题标签为h的概率，并获取所述p(h|d_u)大于第一预设阈值的主题标签，其中：ψ_t,h表示在主题t的主题标签中出现主题标签h的概率，η_u,r表示用户u选用用户r的历史主题的概率，θ_r,t表示用户r发布的消息属于主题t的概率，π₀表示一个词汇属于非主题词汇的概率，表示非主题词汇中出现w_u,d,n的概率，π₁表示一个词汇属于主题词汇的概率，表示属于主题t的词汇中出现w_u,d,n的概率；

所述推荐模块，具体用于将所述p(h|d_u)的值大于第一预设阈值的主题标签显示在屏幕上以供所述用户选择。

结合第二方面的第四种可能的实施方式，在第二方面的第五种可能的实施方式中，所述获取模块，具体用于将所述社交网络的主题模型中的ψ_t,h从大到小进行排列，并按照ψ_t,h从大到小的顺序依次代入公式

p (h | d_{u}) = \underset{t}{Σ} ψ_{t, h} \times ((\underset{r &Element; F_{u} \cup {U}}{Σ} η_{u, r} θ_{r, t}) \underset{w_{u, d, n}}{Π} (π_{0} φ_{B, w_{u, d, n}} + π_{1} φ_{t, w_{u, d, n}}))

本发明实施例中，获取用户在社交网络上发布的没有标记主题标签的第一消息，根据社交网络的主题模型，获取该第一消息的主题标签，并将这些主题标签显示在屏幕上供用户选择，根据用户的选择结果，确定该第一消息的主题标签。实现了通过主题模型来向用户推荐主题标签，并由用户的选择来最终确定主题标签，这样最终确定的主题标签才能最接近用户原本想表达的主题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的主题标签推荐处理方法实施例一的流程示意图；

图2为本发明提供的主题标签推荐处理方法实施例二的流程示意图；

图3为本发明提供的主题标签推荐处理装置实施例一的结构示意图；

图4为本发明提供的主题标签推荐处理装置实施例二的结构示意图；

图5为本发明提供的主题标签推荐处理装置实施例三的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明提供的主题标签推荐处理方法实施例一的流程示意图，如图1所示，该方法包括：

S101、获取用户在社交网络上发布的第一消息，该第一消息是指没有被标记主题标签的消息。

上述社交网络可以是，当前用户常用的微博、人人网、微信朋友圈、推特（twitter）、脸谱（facebook）等，但并不以此为限，用户可以在这些社交网络上发布消息，或转发别人的消息，用户在发布消息时有可能会加上主题标签（hashtag），也可能会因为麻烦而不加hashtag直接发布。此处的第一消息就是指不加hashtag的消息。

S102、根据上述社交网络的主题模型，获取第一消息的主题标签。

该主题模型用于推荐主题标签，具有广泛适用性。

S103、将上述获取的第一消息的主题标签显示在屏幕上以供上述用户选择。

根据主题模型可以获取到多个针对上述第一消息的主题标签，这些通过用户设备的显示屏幕将这些主题标签都显示给用户，用户可以在其中进行选择，确定自己认为最合适的主题标签。

S104、根据用户选择的结果，确定上述第一消息的主题标签。

用户在上述获取的主题标签中选择一个自己认为最合适的主题标签，确定后，该主题标签就是第一消息的主题标签。

本实施例中，获取用户在社交网络上发布的没有标记主题标签的第一消息，根据社交网络的主题模型，获取该第一消息的主题标签，并将这些主题标签显示在屏幕上供用户选择，根据用户的选择结果，确定该第一消息的主题标签。实现了通过主题模型来向用户推荐主题标签，并由用户的选择来最终确定主题标签，这样最终确定的主题标签才能最接近用户原本想表达的主题。同时，将第一消息确定主题标签，也方便了用户搜索感兴趣的主题或事件，帮助网络进行时间检测与监控等功能。

图2为本发明提供的主题标签推荐处理方法实施例二的流程示意图，如图2所示，上述S102之前，即根据上述社交网络的主题模型，获取第一消息的主题标签之前，还包括：

S201、从上述社交网络中获取第二消息，该第二消息是指标记有主题标签的消息。

获取第二消息的同时，还可以包括获取社交网络中的社交关系消息。该社交关系消息可以包括社交网络上的用户消息以及这些用户的朋友圈消息。

S202、对上述第二消息进行预处理，并保存该预处理的结果。

具体地，对上述第二消息进行预处理，并保存该预处理的结果，可以是：将上述第二消息按词汇进行切分；根据预设词性从上述切分的结果中获取词组；将上述词组按照预设格式进行存储。

举例说明，假设获取的一条第二消息为“我和几个朋友一起度过了圣诞节”，按词汇进行切分后获得的词汇组合为{我、和、几个、朋友、一起、度过、了、圣诞节}。且其中“圣诞节”为该条消息的主题标签。

根据预设词性从上述切分的结果中获取词组，可以是进一步将上述词汇组合进行删减优化，例如删除停用词、垃圾广告词等。将上述词汇组合中的“几个”、“了”这样的停用词删除，更新后的词汇组合为{我、和、朋友、一起、度过、圣诞节}。

进行存储的时候将获取的词汇组合以及其主题标签进行存储，并注明词汇与主题标签的对应关系。

S203、通过使用机器学习法对上述预处理的结果进行训练，获得上述社交网络的主题模型。

在进行训练时，可以将从第二消息获取的主题标签作为已有主题进行训练。

进一步地，通过使用机器学习法对上述预处理的结果进行训练，获得上述社交网络的主题模型，具体可以为：使用机器学习法对上述预处理的结果进行采样，根据上述采样结果获取主题-词汇概率分布以及主题-主题标签概率分布；根据主题-词汇概率分布以及主题-主题标签概率分布，获取上述社交网络的主题模型。

其中，主题-词汇概率分布具体指属于同一主题下的各个词汇的概率分布；主题-主题标签概率分布具体指属于同一主题下的各个主题标签的概率分布。

具体采样过程中，上述预处理的结果可以作为采样样本，可以随机进行采样，也可以按照一定规则进行采样。

使用机器学习法对上述预处理的结果进行采样，可以是对预处理的结果进行吉布斯采样（Gibbs Sampling）。实际上也就是对第二消息进行采样。

但是本发明实施例中并不以此为限，还可以采用变分法（VariationalMethod）来进行主题模型的学习。

更具体地，以具体的某条第二消息为例进行说明，对预处理的结果进行采样，主要包括三个方面：

（1）对每条上述第二消息的主题来自于上述用户的历史主题还是该用户的朋友的历史主题进行采样。即用户u所发布的一条消息的主题可能来自于用户u曾经使用过的主题，也可能来自于用户u社交关系中某位朋友曾经使用过的主题。例如用户u的某样本为{我、喜欢、游乐场}的主题标签为“游乐场”，采样分析“游乐场”这一主题来自于该用户u自己的历史主题还是来自于用户u某朋友的历史主题。

（2）对第二消息的主题进行采样。即采样第二消息的主题是什么。

第二消息的主题可能就是该消息的主题标签，也可能是该主题标签所属的主题。“圣诞节”、“圣诞”、“Christmas”、“平安夜”这些主题标签都可以属于“圣诞节”这个主题。

（3）对第二消息中的词汇属于主题词汇或属于非主题词汇进行采样。即采样分析，某第二消息中的词汇具体是与主题相关的还是与主题无关的。例如“我”、“一起”、“度过”这种不能体现主题的词汇为非主题词汇，而像“朋友”、“圣诞节”这种可能成为主题的词汇为主题词汇。主题词汇可以与主题相同的词汇，也可以是与主题相关的词汇，例如属于“圣诞节”这个主题的词汇可以包括：“圣诞节”、“圣诞”、“Christmas”、“平安夜”等词汇。

需要说明的是，具体执行时，上述（1）、（2）、（3）不分先后顺序，可以同时执行，也可以按任意顺序执行，本发明实施例中不作限定。

更具体地，对于上述第（1）方面，对第二消息的主题来自于上述用户的历史主题还是该用户的朋友的历史主题进行采样，可以是，采用公式

p (f_{u, d} = r | f_{&Not; (u, d)}, z, y, w, h) &Proportional; \frac{{cf}_{u, r, &Not; (u, d)} + δ}{{cf}_{u, (\cdot), &Not; (u, d)} + (| F_{u} | + 1) δ} \times \frac{{ct}_{r, z_{u, d}, &Not; (u, d)} + α}{{ct}_{r, (\cdot), &Not; (u, d)} + (| T |) α}

（记为公式1）对第二消息的主题来自于上述用户的历史主题还是该用户的朋友的历史主题进行采样。历史主题指用户使用过的主题。其中：表示上述第二消息的主题来自于用户r的历史主题的概率，用户r为上述用户（记为：用户u）自己或用户u的朋友；|F_u|表示用户u的朋友总数；表示用户u所发布的消息中除上述第二消息外使用了用户r的历史主题的次数；表示除上述第二消息外所有的值的总和，即除上述第二消息之外，对于所有不同用户r的值的总和，即代入所有不同r值求出的值的总和；z_u,d表示该第二消息的主题；表示除上述第二消息外所述用户r发布的属于所述主题z_u,d的消息的数量；表示除上述第二消息外用户r发布的消息的总数；|T|表示当前已存在主题的数量。这些代入公式的参数都可以通过统计获得。

对于上述第（2）方面，对上述第二消息的主题进行采样，可以是，采用公式：

p (z_{u, d} = i | z_{&Not; (u, d)}, f, y, w, h) &Proportional; \frac{{ct}_{f_{u, d}, i, &Not; (u, d)} + α}{{ct}_{f_{u, d}, (\cdot), &Not; (u, d)} + (| T |) α}

\times (Π_{k = 0}^{{nw}_{i, (\cdot)} - 1} \frac{1}{{cw}_{i, (\cdot), &Not; (u, d)} + | V | β + k})

（记为公式2）

\times (\underset{v &Element; w_{u, d}}{Π} Π_{k = 0}^{{nw}_{i, w} - 1} ({cw}_{i, v, &Not; (u, d)} + β + k))

\times (Π_{k = 0}^{M_{u, d} - 1} \frac{1}{{ch}_{i, (\cdot), &Not; (u, d)} + | H | μ + k}) (\underset{g &Element; h_{u, d}}{Π} ({ch}_{i, g, &Not; (u, d)} + μ))

对上述第二消息的主题进行采样，其中：表示上述第二消息主题为主题i的概率；表示上述用户发布的消息中除上述第二消息外属于主题i的消息的数量；表示上述用户发布的消息除上述第二消息外的总数，例如用户发布了100条消息，则为99；表示除上述第二消息外词汇v（词汇v表示上述第二消息中的一个具体的词汇）属于主题i的词汇的次数；表示除上述第二消息外属于主题i的词汇的总数；w_u,d表示上述第二消息中的所有词汇，词汇v就表示w_u,d的其中一个；nw_i,v表示表示词汇v属于主题i的词汇的次数；|V|表示当前已存在词汇的数量；|H|表示当前已存在主题标签的数量；表示除上述第二消息外包含有主题标签g且属于主题i的消息的数量；表示所有值的总和，即除上述第二消息外包含有主题标签g的消息的总数。这些代入公式的参数都可以通过统计获得。

对于上述第（3）方面，对上述第二消息中的词汇属于主题词汇或属于非主题词汇进行采样，可以是，采用公式

p (y_{u, d, n} = 1 | y_{&Not; (u, d, n)}, f, z, w, h) &Proportional; \frac{{cy}_{1, &Not; (u, d, n)} + γ}{{cy}_{(\cdot), &Not; (u, d, n)} + 2 γ} \times \frac{{cw}_{i, w_{u, d, n}, &Not; (u, d, n)} + β}{{cw}_{i, (\cdot), &Not; (u, d, n)} + | V | β}

（记为公式3）对上述第二消息中的词汇属于主题词汇（非背景词汇）进行采样。采用公式

p (y_{u, d, n} = 0 | y_{&Not; (u, d, n)}, f, z, w, h) &Proportional; \frac{{cy}_{0, &Not; (u, d, n)} + γ}{{cy}_{(\cdot), &Not; (u, d, n)} + 2 γ} \times \frac{{cw}_{B, w_{u, d, n}, &Not; (u, d, n)} + β}{{cw}_{B, (\cdot), &Not; (u, d, n)} + | V | β}

（记为公式4）对上述第二消息中的词汇属于主题词汇（背景词汇）进行采样。

其中：表示上述第二消息中的词汇n（词汇n表示上述第二消息中的一个具体的词汇）属于主题词汇的概率，表示上述第二消息中的词汇n属于非主题词汇的概率；表示除所述第二消息中的词汇n外属于主题词汇的词汇数量；表示除第二消息中的词汇n外词汇的总数；表示除所述第二消息中的词汇n外属于非主题词汇的词汇数量；表示w_u,d,n在除所述第二消息中的词汇n外出现在主题i的次数，其中w_u,d表示上述第二消息中的所有词汇，词汇n就表示w_u,d的其中一个；表示除所述第二消息中的词汇n外出现主题i下不同词汇的总数，|V|表示当前已存在词汇的数量。这些代入公式的参数都可以通过统计获得。

根据上述Gibbs Sampling的结果，获取到的主题模型包括下述参数：1）一个词汇属于非主题词汇的概率或属于主题词汇的概率，记为π_k，k=0,1，当k=0时表示该词汇为非主题词汇，k=1时表示该词汇为主题词汇。2）上述用户（记为用户u）发布的消息属于主题t的概率，记为θ_u,t。3）在非主题词汇中出现词汇v的概率，记为φ_B,v。4）在属于主题t的词汇中出现词汇v的概率，记为φ_t,v。5）在主题t的主题标签中出现主题标签h的概率，记为ψ_t,h。6）上述用户（用户u）选用用户r的历史主题的概率，记为η_u,r，用户r为用户u本身或用户u的朋友，本发明实施例中朋友均指用户在社交网络上的朋友。

上述采样中的α、β、γ、μ、δ分别为上述主题模型中参数θ、φ、π、ψ、η的狄利克雷先验（Dirichlet prior）。

更为具体的，可以根据Gibbs Sampling的结果，采用下述公式来分别计算上述参数：1）k=0,1（记为公式5）；2)t∈T（记为公式6）；3）（记为公式7）；4）

φ_{t, v} = \frac{{cw}_{t, v} + β}{{cw}_{t, (\cdot)} + β}, &ForAll; t &Element; T,

v∈V（记为公式8）；5）

ψ_{t, h} = \frac{{ch}_{t, h} + μ}{{ch}_{t, (\cdot)} + | H | μ}, &ForAll; t &Element; T,

h∈H（记为公式8）；6）

η_{u, r} = \frac{{cF}_{u, r} + δ}{{cF}_{u, (\cdot)} + (| F_{u} | + 1) δ}, &ForAll; u &Element; U, r &Element; | F_{u} | \cup {u}

（记为公式8）。

其中，U表示爬取到的所有用户的集合；cy_k表示属于非主题词汇的数量或主题词汇的数量，其中k=0时表示非主题词汇的数量，k=1时表示主题词汇的数量；cy_(·)表示主题词汇的数量和非主题词汇的数量的总和；ct_u,t表示用户u发布的属于主题t的消息的数量；ct_u,(·)表示用户u发布的消息的总数；cw_B,v表示词汇v为非主题词汇的次数；cw_B,(·)表示非主题词汇出现次数的总和；cw_t,v表示词汇v属于主题t的次数；cw_t,(·)表示属于主题t的词汇出现的次数的总和；ch_t,h表示主题t的主题标签中出现主题标签h的次数；ch_t,(·)表示主题t的所有主题标签的总数；cf_u,r表示用户u使用用户r的历史主题的次数；cf_u,(·)表示用户u使用过的主题的总数。这些参数来自于前述采样结果以及统计结果。

需要说明的是，为了提高运算效率，上述获取主题模型的过程可以由多个并行的处理器同时进行处理，最后再由管理员（manager）进行整理，输出获取到的主题模型。

当然，具体实现过程中，会按照预设的时间间隔不断地从社交网络上爬取数据，也会不断重复执行上述流程，对于新获取的数据，如果只是获取到用户新发布的消息，其中采用的主题标签是当前已存在标签，那么该消息作为新的样本执行上述采样，并更新主题模型即可；如果获取到的新消息，还包含了新的主题标签，那么先在当前已存在的主题标签的向量维度上加1，然后对该样本进行上述采样，并更新主题模型即可。

进一步地，为了提高主题标签推荐的效率，还可以对主题模型进行优化。具体实现过程中，获取主题模型之后，一方面可以将上述主题模型中小于第三预设阈值的ψ_t,h所对应的主题标签从当前已存在主题标签中移除，即预设一个第三预设阈值与已有的ψ_t,h进行比较，将小于该第三预设阈值的ψ_t,h所对应的主题标签从已存储的当前已存在主题标签中移除，这样后续推荐主题标签时就不用考虑移除的主题标签了，减小了运算量，提高效率。类似地，另一方面，可以将上述主题模型中小于第四预设阈值的θ_u,t所对应的主题从当前已存在主题中移除，就是后续推荐过程中不用这些移除的主题。具体地，在具体实施过程中，可以同时执行上述两方面的优化，也可以根据具体情况只执行其中之一。

更进一步地，上述根据社交网络的主题模型，获取上述第一消息的主题标签，具体为采用公式

p (h | d_{u}) = \underset{t}{Σ} ψ_{t, h} \times ((\underset{r &Element; F_{u} \cup {U}}{Σ} η_{u, r} θ_{r, t}) \underset{w_{u, d, n}}{Π} (π_{0} φ_{B, w_{u, d, n}} + π_{1} φ_{t, w_{u, d, n}}))

计算所述第一消息d_u的主题标签为h的概率，并获取所述p(h|d_u)的值大于第一预设阈值的主题标签。其中：ψ_t,h表示在主题t的主题标签中出现主题标签h的概率，η_u,r表示上述用户（用户u）选用用户r的历史主题的概率，θ_r,t表示用户r发布的消息属于主题t的概率，π₀表示一个词汇属于非主题词汇的概率，表示非主题词汇中出现w_u,d,n的概率，π₁表示一个词汇属于主题词汇的概率，表示属于主题t的词汇中出现w_u,d,n的概率，w_u,d,n表示所述第一消息中的词汇n。w_u,d,n表示所述第一消息中的词汇n。

相应地，上述将获取的第一消息的主题标签显示在屏幕上以供用户选择，具体为：将上述p(h|d_u)的值大于第一预设阈值的主题标签显示在屏幕上以供所述用户选择。

另一种方式中，也可以是，将计算出的p(h|d_u)值从大到小进行排列，按照顺序将p(h|d_u)最大的N个主题标签显示在屏幕上以供用户选择，其中N为预设推荐主题标签的数目。

主题标签h为当前已存在主题标签中的任一个，针对不同的主题标签依次代入这些值进行计算p(h|d_u)值。由于针对每个主题标签h的运算都是独立的，具体实现时，为了提高运算量，可以由多个处理器同时处理不同的主题标签，获取p(h|d_u)值，最后再由管理员（manager）进行整理得到要显示给用户的主题标签。

更进一步地，为了提高推荐主题标签的效率，上述采用公式

p (h | d_{u}) = \underset{t}{Σ} ψ_{t, h} \times ((\underset{r &Element; F_{u} \cup {U}}{Σ} η_{u, r} θ_{r, t}) \underset{w_{u, d, n}}{Π} (π_{0} φ_{B, w_{u, d, n}} + π_{1} φ_{t, w_{u, d, n}}))

计算上述第一消息d_u的主题标签为h的概率，可以是，将上述社交网络的主题模型中的ψ_t,h从大到小进行排列，并按照ψ_t,h从大到小的顺序依次代入公式

p (h | d_{u}) = \underset{t}{Σ} ψ_{t, h} \times ((\underset{r &Element; F_{u} \cup {U}}{Σ} η_{u, r} θ_{r, t}) \underset{w_{u, d, n}}{Π} (π_{0} φ_{B, w_{u, d, n}} + π_{1} φ_{t, w_{u, d, n}}))

计算，当计算获取的p(h|d_u)值小于第二预设阈值时终止计算，所述第二预设阈值小于或等于所述第一预设阈值。这样预设一个第二预设阈值，就不必要将所有参数代入计算，减小了运算量，提高了工作效率。

图3为本发明提供的主题标签推荐处理装置实施例一的结构示意图，如图3所示，该装置包括：获取模块301、推荐模块302和确定模块304，其中：

获取模块301，用于获取用户在社交网络上发布的第一消息，所述第一消息是指没有被标记主题标签的消息；根据所述社交网络的主题模型，获取所述第一消息的主题标签。

推荐模块302，用于将所述获取的第一消息的主题标签显示在屏幕上以供所述用户选择。

确定模块303，用于根据所述用户选择的结果，确定所述第一消息的主题标签。

该装置用于执行前述方法实施例，其实现原理和技术效果类似，在此不再赘述。

图4为本发明提供的主题标签推荐处理装置实施例二的结构示意图，如图4所示，在图3的基础上，该装置还可以包括：预处理模块401和学习模块402。

具体实现过程中：

上述获取模块301，还用于从所述社交网络中获取第二消息，所述第二消息是指标记有主题标签的消息。

预处理模块401，用于对所述第二消息进行预处理，并保存所述预处理的结果。

学习模块402，用于通过使用机器学习法对所述预处理的结果进行训练，获得所述社交网络的主题模型。

获取模块301，具体用于根据学习模块402获得的述社交网络的主题模型，获取所述第一消息的主题标签。

进一步地，预处理模块401，具体用于将所述第二消息按词汇进行切分；根据预设词性从所述切分的结果中获取词组；将所述词组按照预设格式进行存储。

学习模块402，具体用于使用机器学习法对所述预处理的结果进行采样，根据所述采样结果获取主题-词汇概率分布以及主题-主题标签概率分布；根据所述主题-词汇概率分布以及所述主题-主题标签概率分布，获取所述社交网络的主题模型。

更进一步地，上述获取模块301，具体用于采用公式

p (h | d_{u}) = \underset{t}{Σ} ψ_{t, h} \times ((\underset{r &Element; F_{u} \cup {U}}{Σ} η_{u, r} θ_{r, t}) \underset{w_{u, d, n}}{Π} (π_{0} φ_{B, w_{u, d, n}} + π_{1} φ_{t, w_{u, d, n}}))

计算所述第一消息d_u的主题标签为h的概率，并获取所述p(h|d_u)的值大于第一预设阈值的主题标签，其中：ψ_t,h表示在主题t的主题标签中出现主题标签h的概率，η_u,r表示所述用户选用用户r的历史主题的概率，θ_r,t表示用户r发布的消息属于主题t的概率，π₀表示一个词汇属于非主题词汇的概率，表示非主题词汇中出现w_u,d,n的概率，π₁表示一个词汇属于主题词汇的概率，表示属于主题t的词汇中出现w_u,d,n的概率，w_u,d,n表示所述第一消息中的词汇n。

推荐模块302，具体用于将所述p(h|d_u)的值大于第一预设阈值的主题标签显示在屏幕上以供所述用户选择。

可选地，获取模块301，具体用于将所述社交网络的主题模型中的ψ_t,h从大到小进行排列，并按照ψ_t,h从大到小的顺序依次代入公式

p (h | d_{u}) = \underset{t}{Σ} ψ_{t, h} \times ((\underset{r &Element; F_{u} \cup {U}}{Σ} η_{u, r} θ_{r, t}) \underset{w_{u, d, n}}{Π} (π_{0} φ_{B, w_{u, d, n}} + π_{1} φ_{t, w_{u, d, n}}))

图5为本发明提供的主题标签推荐处理装置实施例三的结构示意图，如图5所示，该装置包括：存储器501和处理器502。其中：

存储器501用于存储指令集。该处理器502被配置为调用存储器501中的指令集，以执行如下流程：获取用户在社交网络上发布的第一消息，所述第一消息是指没有被标记主题标签的消息；根据所述社交网络的主题模型，获取所述第一消息的主题标签；将所述获取的第一消息的主题标签显示在屏幕上以供所述用户选择；根据所述用户选择的结果，确定所述第一消息的主题标签。

处理器502，还用于从所述社交网络中获取第二消息，所述第二消息是指标记有主题标签的消息；对所述第二消息进行预处理，并保存所述预处理的结果；通过使用机器学习法对所述预处理的结果进行训练，获得所述社交网络的主题模型。

进一步地，处理器502，具体用于将所述第二消息按词汇进行切分；根据预设词性从所述切分的结果中获取词组；将所述词组按照预设格式进行存储。

处理器502，具体用于使用机器学习法对所述预处理的结果进行采样，根据所述采样结果获取主题-词汇概率分布以及主题-主题标签概率分布；根据所述主题-词汇概率分布以及所述主题-主题标签概率分布，获取所述社交网络的主题模型。

处理器502，具体用于采用公式

p (h | d_{u}) = \underset{t}{Σ} ψ_{t, h} \times ((\underset{r &Element; F_{u} \cup {U}}{Σ} η_{u, r} θ_{r, t}) \underset{w_{u, d, n}}{Π} (π_{0} φ_{B, w_{u, d, n}} + π_{1} φ_{t, w_{u, d, n}}))

计算所述第一消息d_u的主题标签为h的概率，并获取所述p(h|d_u)的值大于第一预设阈值的主题标签，其中：ψ_t,h表示在主题t的主题标签中出现主题标签h的概率，η_u,r表示用户u选用用户r的历史主题的概率，θ_r,t表示用户r发布的消息属于主题t的概率，π₀表示一个词汇属于非主题词汇的概率，表示非主题词汇中出现w_u,d,n的概率，π₁表示一个词汇属于主题词汇的概率，表示与属于主题t的词汇中出现w_u,d,n的概率。

处理器502，具体用于将所述p(h|d_u)的值大于第一预设阈值的主题标签显示在屏幕上以供所述用户选择。

可选地，处理器502，具体用于将所述社交网络的主题模型中的ψ_t,h从大到小进行排列，并按照ψ_t,h从大到小的顺序依次代入公式

p (h | d_{u}) = \underset{t}{Σ} ψ_{t, h} \times ((\underset{r &Element; F_{u} \cup {U}}{Σ} η_{u, r} θ_{r, t}) \underset{w_{u, d, n}}{Π} (π_{0} φ_{B, w_{u, d, n}} + π_{1} φ_{t, w_{u, d, n}}))

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor）执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种主题标签推荐方法，其特征在于，包括：

根据所述用户选择的结果，确定所述第一消息的主题标签。

2.根据权利要求1所述的方法，其特征在于，所述根据所述社交网络的主题模型，获取所述第一消息的主题标签之前，还包括：

对所述第二消息进行预处理，并保存所述预处理的结果；

3.根据权利要求2所述的方法，其特征在于，所述对所述第二消息进行预处理，并保存所述预处理的结果，包括：

将所述第二消息按词汇进行切分；

根据预设词性从所述切分的结果中获取词组；

将所述词组按照预设格式进行存储。

4.根据权利要求2或3所述的方法，其特征在于，所述通过使用机器学习法对所述预处理的结果进行训练，获得所述社交网络的主题模型包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述根据所述社交网络的主题模型，获取所述第一消息的主题标签包括：

采用公式

p (h | d_{u}) = \underset{t}{Σ} ψ_{t, h} \times ((\underset{r &Element; F_{u} \cup {U}}{Σ} η_{u, r} θ_{r, t}) \underset{w_{u, d, n}}{Π} (π_{0} φ_{B, w_{u, d, n}} + π_{1} φ_{t, w_{u, d, n}}))

计算所述第一消息d_u的主题标签为h的概率，并获取所述p(h|d_u)的值大于第一预设阈值的主题标签，其中：ψ_t,h表示在主题t的主题标签中出现主题标签h的概率，η_u,r表示所述用户选用用户r的历史主题的概率，θ_r,t表示用户r发布的消息属于主题t的概率，π₀表示一个词汇属于非主题词汇的概率，表示非主题词汇中出现w_u,d,n的概率，π₁表示一个词汇属于主题词汇的概率，表示属于主题t的词汇中出现w_u,d,n的概率，w_u,d,n表示所述第一消息中的词汇n；

6.根据权利要求5所述的方法，其特征在于，所述采用公式

p (h | d_{u}) = \underset{t}{Σ} ψ_{t, h} \times ((\underset{r &Element; F_{u} \cup {U}}{Σ} η_{u, r} θ_{r, t}) \underset{w_{u, d, n}}{Π} (π_{0} φ_{B, w_{u, d, n}} + π_{1} φ_{t, w_{u, d, n}}))

计算所述第一消息d_u的主题标签为h的概率，包括：

p (h | d_{u}) = \underset{t}{Σ} ψ_{t, h} \times ((\underset{r &Element; F_{u} \cup {U}}{Σ} η_{u, r} θ_{r, t}) \underset{w_{u, d, n}}{Π} (π_{0} φ_{B, w_{u, d, n}} + π_{1} φ_{t, w_{u, d, n}}))

7.一种主题标签推荐装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述获取模块，还用于从所述社交网络中获取第二消息，所述第二消息是指标记有主题标签的消息；

所述装置还包括：

9.根据权利要求8所述的装置，其特征在于，所述预处理模块，具体用于将所述第二消息按词汇进行切分；根据预设词性从所述切分的结果中获取词组；将所述词组按照预设格式进行存储。

10.根据权利要求8或9所述的装置，其特征在于，所述学习模块，具体用于使用机器学习法对所述预处理的结果进行采样，根据所述采样结果获取主题-词汇概率分布以及主题-主题标签概率分布；根据所述主题-词汇概率分布以及所述主题-主题标签概率分布，获取所述社交网络的主题模型。

11.根据权利要求7至10任一项所述的装置，其特征在于，所述获取模块，具体用于采用公式

p (h | d_{u}) = \underset{t}{Σ} ψ_{t, h} \times ((\underset{r &Element; F_{u} \cup {U}}{Σ} η_{u, r} θ_{r, t}) \underset{w_{u, d, n}}{Π} (π_{0} φ_{B, w_{u, d, n}} + π_{1} φ_{t, w_{u, d, n}}))

12.根据权利要求7所述的装置，其特征在于，所述获取模块，具体用于将所述社交网络的主题模型中的ψ_t,h从大到小进行排列，并按照ψ_t,h从大到小的顺序依次代入公式

p (h | d_{u}) = \underset{t}{Σ} ψ_{t, h} \times ((\underset{r &Element; F_{u} \cup {U}}{Σ} η_{u, r} θ_{r, t}) \underset{w_{u, d, n}}{Π} (π_{0} φ_{B, w_{u, d, n}} + π_{1} φ_{t, w_{u, d, n}}))