CN103970756A

CN103970756A - 热点话题提取方法、装置和服务器

Info

Publication number: CN103970756A
Application number: CN201310031924.3A
Authority: CN
Inventors: 张国强; 何建国; 郝志新
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2013-01-28
Filing date: 2013-01-28
Publication date: 2014-08-06
Anticipated expiration: 2033-01-28
Also published as: CN103970756B

Abstract

本发明公开了一种热点话题提取方法、装置和服务器，属于计算机技术领域。所述热点话题提取方法包括：选择至少一个目标用户账户在预定时间窗口内发布的信息作为数据源；从所述数据源中提取至少两个词语，并将所述至少两个词语组成一个词表；计算所述词表中各词语的权值，并根据所述权值选择至少两个词语作为关键词；分别计算所述关键词中任意两个词语的相似度；根据所述相似度对所述关键词进行聚类，从而提取其中至少一类关键词作为热点话题；解决了已有方案提取的热点话题具有一定滞后性的问题；达到了可以实时提取词语作为热点话题，从而方便用户获取最新舆论热点的效果。

Description

热点话题提取方法、装置和服务器

技术领域

本发明涉及计算机技术领域，特别涉及一种热点话题提取方法、装置和服务器。

背景技术

随着计算机网络技术的不断发展，诸如微博、空间和博客等社区已经成为人们获取信息和交流沟通的重要场所。人们也越来越依赖社区提供的热点话题来获取当前舆论热点，所以如何为人们提取出最新的热点话题已经成为计算机领域技术人员在现阶段最重要的研究课题之一。

现有的一种热点话题的提取方法包括：第一，服务器分别累计计算用户检索各关键词的检索次数；第二，服务器根据各关键词的检索次数计算排名；第三，服务器将排名在前几位的关键词提取为热点话题。

在实现本发明的过程中，发明人发现现有技术至少存在如下问题：

现有的热点话题是只依据各关键词被用户检索的次数来提取的，也就是说，只有当关键词被用户累计检索达到一定次数之后，服务器才有可能将该关键词提取为热点话题，所以服务器使用现有方法提取的热点话题已经是很多人已经知道甚至是已经过时的热点话题，存在一定的滞后性。这对于微博、空间以及博客等实时性强的社区来说，现有方法提取的热点话题并不能满足用户通过热点话题获取最新信息的需求。

发明内容

为了解决现有技术中服务器提取的热点话题具有一定滞后性的问题，本发明实施例提供了一种热点话题提取方法、装置和服务器。所述技术方案如下：

第一方面，提供了一种热点话题提取方法，所述方法包括：

选择至少一个目标用户账户在预定时间窗口内发布的信息作为数据源；

从所述数据源中提取至少两个词语，并将所述至少两个词语组成一个词表；

计算所述词表中各词语的权值，并根据所述权值选择至少两个词语作为关键词；

分别计算所述关键词中任意两个词语的相似度；

根据所述相似度对所述关键词进行聚类，从而提取其中至少一类关键词作为热点话题。

第二方面，提供了一种热点话题提取装置，所述装置包括：

第一选择模块，用于选择至少一个目标用户账户在预定时间窗口内发布的信息作为数据源；

第一提取模块，用于从所述数据源中提取至少两个词语，并将所述至少两个词语组成一个词表；

第二选择模块，用于计算所述词表中各词语的权值，并根据所述权值选择至少两个词语作为关键词；

第一计算模块，用于分别计算所述关键词中任意两个词语的相似度；

第二提取模块，用于根据所述相似度对所述关键词进行聚类，从而提取其中至少一类关键词作为热点话题。

本发明实施例提供的技术方案的有益效果是：

通过将至少一个目标用户账户在预定时间窗口内发布的信息作为数据源，从而从数据源中提取至少两个词语并且根据各词语的权值以及任意两个词语的相似度来提取热点话题，解决了已有方案提取的热点话题具有一定滞后性的问题；达到了可以实时提取词语作为热点话题，从而方便用户获取最新舆论热点的效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的热点话题提取方法的方法流程图；

图2是本发明实施例二提供的热点话题提取方法的方法流程图；

图3是本发明实施例三提供的热点话题提取装置的结构方框图；

图4是本发明实施例四提供的热点话题提取装置的结构方框图；

图5是本发明实施例四提供的第一提取模块的结构方框图；

图6是本发明实施例四提供的第二选择模块的结构方框图；

图7是本发明实施例四提供的第二选择模块的另一结构方框图；

图8是本发明实施例四提供的第一计算模块的结构方框图；

图9是本发明实施例四提供的第二提取模块的结构方框图；

图10是本发明实施例四提供的第五计算单元的结构方框图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例一

请参考图1，其示出了本发明实施例一提供的热点话题提取方法的方法流程图，该方法包括：

步骤101，选择至少一个目标用户账户在预定时间窗口内发布的信息作为数据源；

步骤102，从数据源中提取至少两个词语，并将至少两个词语组成一个词表；

步骤103，计算词表中各词语的权值，并根据权值选择至少两个词语作为关键词；

步骤104，分别计算关键词中任意两个词语的相似度；

步骤105，根据相似度对关键词进行聚类，从而提取其中至少一类关键词作为热点话题。

综上所述，本实施例提供的热点话题提取方法，通过将至少一个目标用户账户在预定时间窗口内发布的信息作为数据源，从而从数据源中提取至少两个词语并且根据各词语的权值以及任意两个词语的相似度来提取热点话题，解决了已有方案提取的热点话题具有一定滞后性的问题；达到了可以实时提取词语作为热点话题，从而方便用户获取最新舆论热点的效果。

实施例二

请参考图2，其示出了本发明实施例二提供的热点话题提取方法的方法流程图，该热点话题提取方法可以用于诸如微博、空间和博客之类的社区服务器中，该方法包括：

步骤201，选择至少一个满足第一预定条件的用户账户作为目标用户账户；

服务器可以从众多的用户账户中选择至少一个满足第一预定条件的用户账户作为目标用户账户。

其中，第一预定条件包括如下条件中的一种或两种：

第一，用户账户在第二预定时间窗口内发布信息的条数大于等于第一阈值；

由于在服务器选择到目标用户账户之后，服务器会将目标用户账户发布的信息作为数据源并从数据源中提取热点话题，所以为了使得提取的热点话题更贴近现实，服务器在选择目标用户账户时，可以选择比较活跃的用户账户作为目标用户账户，也即服务器可以选择在第二预定时间窗口内发布信息的条数大于等于第一阈值的用户账户作为目标用户账户。

比如，以第二预定时间窗口为“1天”、第一阈值为“5条”为例，服务器可以获取至少一个用户账户在一定时间如‘1个月内’发布的信息的条数，然后计算用户账户在一天内平均发布信息的条数，当计算得到每天发布信息的条数大于等于5条时，服务器将该用户账户选择为目标用户账户。

第二，用户账户的听众数量大于等于第二阈值。

在众多用户账户中一些用户账户的听众很少，所以这类用户账户发布的信息只能被少量的用户读取到，成为热点话题的可能性极低，所以服务器在选择目标用户账户时，可以选择听众数量大于等于第二阈值的用户账户作为目标用户账户。比如，设定第二阈值为50000，则服务器可以选择听众数量超过50000的用户账户作为目标用户账户。

步骤202，选择至少一个目标用户账户在预定时间窗口内发布的信息作为数据源；

在服务器选择到目标用户账户后，服务器可以选择至少一个目标用户账户在预定时间窗口内发布的信息作为数据源。

比如，预定时间窗口为2013年1月22日‘8:00-10:00’的时间窗口，则服务器可以获取目标用户账户在‘8:00-10:00’之间发布的所有信息，并将这些信息作为数据源。

步骤203，对数据源进行预处理，从而提取出候选字符串；

由于在服务器选择的数据源中，可能会存在一些对其他用户账户没有实质意义的信息，所以在服务器选择到数据源之后，服务器可以对数据源进行预处理，并将经过预处理后的数据源中的每条信息作为一条候选字符串，从而提取出至少一条候选字符串。

其中，预处理包括如下处理中的至少一种：

第一，抛弃数据源中具有指向性的信息，具有指向性的信息包括具有“+用户账户”形式的信息；

在服务器选择的数据源中，可能会存在一些具有指向性的信息，如该信息为包括具有“+用户账户”形式的信息，这类信息只是目标用户账户与其他用户账户之间的互动，只关系到目标用户账户与该信息中指向的用户账户，与其他用户账户没有关系，将这类信息提取为热点话题的意义不大，所以为了减少这类信息的干扰，服务器可以抛弃数据源中具有指向性的信息。

第二，抛弃数据源中话题标记中包括的内容，话题标记包括“#话题#”；

在服务器选择的数据源中，可能会存在一些带有话题标记的信息，如“#话题#XXX”的信息，由于话题标记中的话题是一种相关信息的聚合列表，只是为了对信息进行归类和方便用户检索使用，没有实质意义，不能提取为热点话题，所以为了避免话题的干扰，服务器可以抛弃数据源中话题标记中包括的内容。比如，一条带有话题标记的信息为“#话题#XXX”，则服务器可以抛弃话题标记中的“话题”，只保留信息的内容“XXX”。

第三，抛弃数据源中目标用户账户转发其他用户账户的信息；

在服务器选择的数据源中，还可能会存在一些目标用户账户转发其他用户账户的信息，而这些信息本身可能只是一个笑话或者一句名句，并不是热点或者新闻，所以服务器可以抛弃数据源中目标用户账户转发其他用户账户的信息；比如，某一知名明星发布了一条笑话，被他的粉丝大量转发，而由于该笑话本身没有成为热点话题的价值，所以当服务器检测到目标用户账户发布的信息是转发其他用户账户的信息时，服务器可以抛弃该信息。

第四，保留数据源中两条或者多条完全相同的信息中的一条信息。

在服务器选择的数据源中，还可能会存在两条或者多条完全相同的信息，而这些完全相同的信息大多是目标用户账户直接从其他用户账户发布的信息中复制过来的笑话和名言名句等信息，成为热点话题的可能性也极低，所以服务器可以只保留数据源中两条或者多条完全相同的信息中的一条信息。

步骤204，对候选字符串进行分词，并计算候选字符串经过分词后得到的目标词语的词频；

在服务器提取出候选字符串之后，服务器可以对候选字符串进行分词，并且计算候选字符串经过分词后得到的目标词语的词频。然而，由于分词得到的词语中可能存在一些只是起到连接或者辅助作用的词语，也可能存在一些具有预定含义的、所有信息中都可能经常出现的词语，所以这些词语被提取为热点话题的意义也不大，所以在服务器计算候选字符串经过分词后得到的目标词语的词频之前，还可以执行如下步骤中的至少一步：

第一，选择候选字符串经过分词后得到的各词语中具有预定词性的词语作为目标词语；

在服务器对候选字符串进行分词后，可以得到具有如名词、动词、介词和形容词等各种词性的词语，而在这些词语中名词和动词可以表达出具体的含义，所以在服务器计算候选字符串经过分词后得到的目标词语的词频之前，服务器可以选择分词得到的各词语中具有预定词性的词语作为目标词语，其中，预定词性包括名词和动词的一种或两种，本实施例对目标词语的词性不做具体限定。

第二，抛弃候选字符串经过分词后得到的词语中是预定类型的词语，从而选择剩余的词语作为目标词语；

由于候选字符串经过分词后得到的词语中，可能会存在是预定类型的词语，这类词语在任何时间窗口内出现的概率都很大，服务器可以不将这类词语提取为热点话题，所以服务器可以抛弃候选字符串经过分词后得到的词语中是预定类型的词语，并且将剩余的词语作为目标词语。其中，预定类型的词语可以包括表示星座的词语、表示生肖的词语以及表示标号的词语中的至少一种。

比如，以预定类型的词语是表示星座的词语为例，在服务器对候选字符串进行分词之后，如果分词得到的词语中包括“处女座”，则服务器将抛弃“处女座”，而将其余的词语作为目标词语。

在服务器对候选字符串执行上述处理，并得到目标词语之后，服务器可以计算目标词语的词频。

比如，以服务器分词得到的其中一个目标词语“YY”为例，候选字符串经过上述处理后得到词语“YY”的个数为“3000”，则词语“YY”的词频为3000。

步骤205，将目标词语按照词频的大小进行排名，提取出排名在前m位的目标词语，并将提取出的词语组成一个词表；

在服务器计算得到目标词语的词频之后，服务器可以将目标词语按照词频的大小进行排名，提取出排名在前m位的目标词语，并将提取的目标词语组成一个词表。其中，m为正整数。

需要补充说明的是，在服务器将目标词语按照词频的大小进行排名之后，服务器还可以提取出排名在前预定比例如“10%”的目标词语，并将提取出的目标词语组成一个词表，本实施例对词表中词语的具体选择方法并不做限定。

步骤206，计算词表中各词语的权值，选择权值大于等于第三阈值的词语作为关键词；

服务器计算词表中各词语的权值，并选择权值大于等于第三阈值的词语作为关键词。

其中，词表中各词语权值的计算方法可以包括：

设预定时间窗口为j，词表中的词语i在预定时间窗口内的权值为W_i，j、词频为TF_i，j，词频增长速度为G_i，j、逆文档频率为IDF_i，j、预定时间窗口之前的时间窗口的个数为K以及在预定时间窗口之前的第k个时间窗口内的词语i的词频为TF_i,k；

由于词语i在预定时间窗口之前的第k个时间窗口内的词频为TF_i，k，预定时间窗口之前的时间窗口的个数为K，所以词语i在预定时间窗口内相对于之前的K个时间窗口的词频增长速度为：

G_{i, j} = \frac{{TF}_{i, j} * K}{Σ_{1}^{K} {TF}_{i, k}};

其中，i、j、k、K均为正整数，并且在具体实现时，可以根据不同的需求将K值设置为不同的值，如1、2或3等，本实施例对K的取值并不做限定。

词表中词语i在预定时间窗口内的权值为：

W_i，j=logG_i，j+αlog(IDF_i，j*TF_i，j)。

其中，0<α<1。

需要补充说明的是，当计算得到的词语i在预定时间窗口内的词频增长速度G_i，j的值越大时，说明词语i是预定时间窗口内突发的热议词，被提取为热点话题的可能性就越大；同理，当G_i，j的值越小时，说明词语i相对于前K个时间窗口的词频并没有变化，被提取为热点话题的可能性就越小；并且α是大于0小于1的调节系数，用于调节TF-IDF（term frequency–inverse document frequency，词频-反文档频率）和增长速度之间的关系，当α取值较大时，词语i的权值主要取决于TF-IDF的取值，而当α取值较小时，词语i的权值主要取决于增长速度，在具体实现时，可以根据需求来调整α的取值，本实施例对α的具体值并不做限定；此外，通过上述计算公式可以知道，当计算得到的词语的权值越大时，该词语被提取为热点话题的可能性也越大。

在服务器根据上述方法计算得到词表中各词语的权值之后，服务器可以选择权值大于等于第三阈值的词语作为关键词。其中，第三阈值大于等于0。

比如，取第三阈值为5，则服务器在计算得到词表中各词语的权值之后，服务器可以选择权值大于等于5的词语作为关键词。

步骤207，分别计算关键词中任意两个词语的相似度；

在服务器选择到关键词之后，服务器可以分别计算关键词中任意两个词语的相似度。

由于传统意义的相似度是指两个词语在词义上的相似度，也即当两个词语词义相近时相似度大，当两个词语词义无关时相似度小，但是这在本实施例中并不适用，比如两个词语分别为“XYZ”和“ABCD”，“XYZ”为一知名女星的姓名，“ABCD”是该明星主演的电视剧名称，如果单从词义上看，这两个词的相似度为0，而从起具体含义上看，这两个词的相似度很大，所以为了避免这种问题，本实施例采用如下方法计算两个词语的相似度：

设一个关键词为W_p、另一关键词为W_q、关键词W_p与关键词W_q的相似度为S(w_p/w_q)、包括关键词W_p和关键词W_q的信息的条数为R(w_p,w_q)以及包括关键词W_q的信息的条数为R(w_q)；

关键词W_p与关键词W_q的相似度为：

S (w_{p} / w_{q}) = \frac{R (w_{p}, w_{q})}{R (w_{q})};

其中，p、q均为正整数。

需要说明的是，服务器可以根据目标用户账户发布的信息的内容来获取R(w_p,w_q)和R(w_q)，本实施例在此不再赘述。

步骤208，根据相似度对关键词进行聚类，从而提取出至少一类关键词作为热点话题。

在服务器计算得到关键词中任意两个词语的相似度之后，服务器可以根据相似度对关键词进行聚类，并提取其中至少一类关键词作为热点话题。

具体的，服务器根据相似度对关键词进行聚类的步骤可以包括：

第一，将关键词按照权值的大小进行降序排名，并将排在首位的关键词作为初始词簇；

由于服务器已经计算得到各关键词的权值，并且当权值越大时，说明该关键词成为热点话题的可能性越高，所以服务器可以将关键词按照权值的大小进行排名，并将排在首位的关键词作为初始词簇。

第二，依次计算各关键词与已有的词簇之间的距离；

由于服务器已经计算得到各关键词的相似度，所以服务器可以根据各关键词的相似度依次计算各关键词与已有词簇之间的距离，直到所有的关键词都计算完成。

其中，关键词与已有词簇之间的距离的计算方法包括：

设关键词W_q与已有的词簇C之间的距离为D(w_q,C)以及词簇C中包括的一个或者多个关键词为w_s；

关键词W_q与已有词簇C之间的距离为：

D (w_{q}, C) = \{\begin{matrix} \frac{1}{\max (S (w_{q} | w_{s}), w_{s} &Element; C)}, \max (S (w_{q} | w_{s}), w_{s} &Element; C) > 0 \\ \infty, \max (S (w_{q} | w_{s}), w_{s} &Element; C) = 0 \end{matrix};

其中，s为正整数。

需要补充说明的是，max(S(w_q|w_s),w_s∈C)是指当前关键词W_q与词簇C中所有关键词的相似度最大的值，所以当前关键词与词簇C中的所有词的最大相似度为0时，当前关键词与词簇C中的所有词不可能同时出现在同一条信息中，也即当前关键词语词簇C之间的距离无穷大；而在当前关键词与词簇C中的所有词的最大相似度是非0值时，说明当前关键词可能与词簇C中的某一关键词同时出现在同一条信息中，两者之间的距离取为最大相似度的倒数，从而当最大相似度越大时，当前关键词与词簇C之间的距离越小，组成同一条信息也即组成同一个事件的可能性越大。

第三，选择已有的词簇中与当前关键词之间的距离最近的词簇作为目标词簇；

在服务器计算得到关键词与已有词簇之间的距离之后，服务器可以选择已有词簇中与当前关键词之间的距离最近的词簇作为目标词簇。

第四，判断当前关键词与目标词簇之间的距离是否大于等于第四阈值。

服务器判断当前关键词与目标词簇之间的距离是否大于等于第四阈值。其中，第四阈值为正数。

若服务器判断得到当前关键词与目标词簇之间的距离大于等于第四阈值时，说明当前关键词与已有词簇中的关键词的相似度仍然小于某一数值，也即当前关键词与已有词簇中的关键词组成同一条信息中的可能性较小，所以服务器可以把当前关键词作为一个新的词簇；

若服务器判断得到当前关键词与目标词簇之间的距离小于第四阈值时，说明当前关键词语与已有词簇中的关键词的相似度很大，也即当前关键词与已有词簇中的关键词出现在同一条信息中的可能性比较大，所以服务器可以把当前关键词并入到目标词簇中。

当服务器将所有关键词分簇完成后，服务器可以得到至少一个词簇也即可以得到至少一类词语，每个词簇中的关键词组成同一条信息的可能性极大，所以服务器可以将每个词簇看做一个热点事件，并且由于初始词簇是所有关键词中权值最大的关键词，并且所有关键词是按照权值的降序进行排名的，所以，在服务器得到的至少一个词簇中排在较前的词簇成为热点话题的可能性比排在较后的词簇成为热点话题的可能性比较大，所以，服务器可以根据具体需求将排在靠前的预定个数如“5个”词簇中的关键词作为热点话题推荐给用户。

需要补充说明的是，在服务器对关键词聚类完成后，服务器还可以提取排在靠前的预定个数的词簇中的关键词，并通过CGI（Common Gateway Interface，通用网关接口）检索方法，检索出相关的信息从而将相关信息作为热点话题推荐给用户，本实施例对热点话题的存在形式并不做限定。

综上所述，本实施例提供的热点话题提取方法，通过将至少一个目标用户账户在预定时间窗口内发布的信息作为数据源，从而从数据源中提取至少两个词语并且根据各词语的权值以及任意两个词语的相似度来提取热点话题，解决了已有方案提取的热点话题具有一定滞后性的问题；达到了可以实时提取词语作为热点话题，从而方便用户获取最新舆论热点的效果。本实施例还通过选择满足第一预定条件的用户账户作为目标用户账户，并且先对选取的数据源进行预处理后再提取词语来计算权值，消除了数据源中一些质量不高的信息对服务器提取热点话题的影响，使得服务器提取的热点话题准确度更高。

实施例三

请参考图3，其示出了本发明实施例三提供的热点话题提取装置的结构方框图，所述装置包括：第一选择模块310、第一提取模块320、第二选择模块330、第一计算模块340和第二提取模块350。

第一选择模块310，用于选择至少一个目标用户账户在预定时间窗口内发布的信息作为数据源；

第一提取模块320，用于从所述数据源中提取至少两个词语，并将所述至少两个词语组成一个词表；

第二选择模块330，用于计算所述词表中各词语的权值，并根据所述权值选择至少两个词语作为关键词；

第一计算模块340，用于分别计算所述关键词中任意两个词语的相似度；

第二提取模块350，用于根据所述相似度对所述关键词进行聚类，从而提取其中至少一类关键词作为热点话题。

综上所述，本实施例提供的热点话题提取装置，通过将至少一个目标用户账户在预定时间窗口内发布的信息作为数据源，从而从数据源中提取至少两个词语并且根据各词语的权值以及任意两个词语的相似度来提取热点话题，解决了已有方案提取的热点话题具有一定滞后性的问题；达到了可以实时提取词语作为热点话题，从而方便用户获取最新舆论热点的效果。

实施例四

请参考图4，其示出了本发明实施例四提供的热点话题提取装置的结构方框图，所述装置包括：第一选择模块310、第一提取模块320、第二选择模块330、第一计算模块340、第二提取模块340和第三选择模块360。

第三选择模块360，用于选择至少一个满足第一预定条件的用户账户作为所述目标用户账户；

其中，所述第一预定条件包括如下条件中的一种或两种：

用户账户在第二预定时间窗口内发布信息的条数大于等于第一阈值；

用户账户的听众数量大于等于第二阈值；

所述第一阈值和第二阈值均为大于等于1的整数。

请参考图5，所述第一提取模块320，包括：第一提取单元321、词频计算单元322和第二提取单元323；

第一提取单元321，用于从所述数据源中提取出候选字符串；

词频计算单元322，用于对所述候选字符串进行分词，并计算所述候选字符串经过分词后得到的目标词语的词频；

第二提取单元323，用于将所述目标词语按照词频的大小进行排名，并提取出排名在前m位的目标词语；

其中，所述m为正整数。

所述第一提取单元321，还用于对所述数据源进行预处理，从而提取出所述候选字符串；

其中，所述预处理包括如下处理中的至少一种：

抛弃所述数据源中具有指向性的信息，所述具有指向性的信息包括具有“+用户账户”形式的信息；

抛弃所述数据源中所述目标用户账户转发其他用户账户的信息；

抛弃所述数据源中话题标记中包括的内容，所述话题标记包括“#话题#”；

保留所述数据源中两条或者多条完全相同的信息中的一条信息。

所述词频计算单元322，包括：第一选择子单元410；

第一选择子单元410，用于选择所述候选字符串经过分词后得到的各词语中具有预定词性的词语作为所述目标词语；

其中，所述预定词性包括名词和/或动词。

所述词频计算单元322，包括：第二选择子单元420；

第二选择子单元420，用于抛弃所述候选字符串经过分词后得到的词语中是预定类型的词语，从而选择剩余的词语作为所述目标词语；

其中，所述预定类型的词语包括表示星座的词语、表示生肖的词语以及表示标号的词语中的至少一种。

请参考图6，所述第二选择模块330，包括：第一设定单元331、第一计算单元332和第二计算单元333；

第一设定单元331，用于设所述预定时间窗口为j，所述词表中的词语i在所述预定时间窗口内的权值为W_i，j、词频为TF_i，j，词频增长速度为G_i，j、逆文档频率为IDF_i，j、所述预定时间窗口之前的时间窗口的个数为K以及在所述预定时间窗口之前的第k个时间窗口内的词语i的词频为TF_i，k；

第一计算单元332，用于计算所述词表中的词语i在所述预定时间窗口内的词频增长速度，所述词频增长速度为：

G_{i, j} = \frac{{TF}_{i, j} * K}{Σ_{1}^{K} {TF}_{i, k}};

第二计算单元333，用于计算所述词表中的词语i在所述预定时间窗口内的权值，所述权值为：

W_i，j=log G_i，j+αlog(IDF_i，j*TF_i，j)；

其中，所述i、j、k、K均为正整数，0<α<1。

请参考图7，所述第二选择模块330，包括：第三选择单元334；

第三选择单元334，用于选择所述权值大于等于第三阈值的词语作为所述关键词。

请参考图8，所述第一计算模块340，包括：第二设定单元341和第三计算单元342；

第二设定单341，用于设一个关键词为W_p、另一关键词为W_q、关键词W_p与关键词W_q的相似度为S(w_p/w_q)、包括关键词W_p和关键词W_q的信息的条数为R(w_p,w_q)以及包括关键词W_q的信息的条数为R(w_q)；

第三计算单元342，用于计算所述关键词W_p与关键词W_q的相似度，所述相似度为：

S (w_{p} / w_{q}) = \frac{R (w_{p}, w_{q})}{R (w_{q})};

其中，所述p、q均为正整数。

请参考图9，所述第二提取模块350，包括：第四计算单元351、第五计算单元352、词簇选择单元353、距离判断单元354、第一结果单元355和第二结果单元356；

第四计算单元351，用于将所述关键词按照所述权值的大小进行降序排名，并将排在首位的关键词作为初始词簇；

第五计算单元352，用于依次计算各关键词与已有的词簇之间的距离；

词簇选择单元353，用于选择已有的词簇中与当前关键词之间的距离最近的词簇作为目标词簇；

距离判断单元354，用于判断所述当前关键词与所述目标词簇之间的距离是否大于等于第四阈值；

第一结果单元355，用于若所述距离判断单元的判断结果为是，则将所述当前关键词作为新的词簇；

第二结果单元356，用于若所述距离判断单元的判断结果为不是，则将所述当前关键词并入所述目标词簇。

请参考图10，所述第五计算子单元352，包括：第三设定子单元510和第六计算子单元；

第三设定子单元510，用于设所述关键词W_q与所述已有的词簇C之间的距离为D(w_q,C)以及所述词簇C中包括的一个或者多个关键词为w_s；

第六计算子单元520，用于计算所述关键词W_q与所述已有词簇C之间的距离，所述距离为：

D (w_{q}, C) = \{\begin{matrix} \frac{1}{\max (S (w_{q} | w_{s}), w_{s} &Element; C)}, \max (S (w_{q} | w_{s}), w_{s} &Element; C) > 0 \\ \infty, \max (S (w_{q} | w_{s}), w_{s} &Element; C) = 0 \end{matrix};

其中，s为正整数。

综上所述，本实施例提供的热点话题提取装置，通过将至少一个目标用户账户在预定时间窗口内发布的信息作为数据源，从而从数据源中提取至少两个词语并且根据各词语的权值以及任意两个词语的相似度来提取热点话题，解决了已有方案提取的热点话题具有一定滞后性的问题；达到了可以实时提取词语作为热点话题，从而方便用户获取最新舆论热点的效果。本实施例还通过选择满足第一预定条件的用户账户作为目标用户账户，并且先对选取的数据源进行预处理后再提取词语来计算权值，消除了数据源中一些质量不高的信息对服务器提取热点话题的影响，使得服务器提取的热点话题准确度更高。

需要说明的是：上述实施例提供的热点话题提取装置在提取热点话题时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的热点话题提取装置与热点话题提取方法的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种热点话题提取方法，其特征在于，所述方法包括：

分别计算所述关键词中任意两个词语的相似度；

2.根据权利要求1所述的热点话题提取方法，其特征在于，所述选择至少一个目标用户账户在预定时间窗口内发布的信息作为数据源之前，还包括：

选择至少一个满足第一预定条件的用户账户作为所述目标用户账户；

其中，所述第一预定条件包括如下条件中的一种或两种：

用户账户的听众数量大于等于第二阈值；

所述第一阈值和第二阈值均为大于等于1的整数。

3.根据权利要求1所述的热点话题提取方法，其特征在于，所述从所述数据源中提取至少两个词语，包括：

从所述数据源中提取出候选字符串；

对所述候选字符串进行分词，并计算所述候选字符串经过分词后得到的目标词语的词频；

将所述目标词语按照词频的大小进行排名，并提取出排名在前m位的目标词语；

其中，所述m为正整数。

4.根据权利要求3所述的热点话题提取方法，其特征在于，所述从所述数据源中提取出候选字符串，包括：

对所述数据源进行预处理，从而提取出所述候选字符串；

其中，所述预处理包括如下处理中的至少一种：

5.根据权利要求3所述的热点话题提取方法，其特征在于，所述并计算所述候选字符串经过分词后得到的目标词语的词频之前，还包括：

选择所述候选字符串经过分词后得到的各词语中具有预定词性的词语作为所述目标词语；

其中，所述预定词性包括名词和/或动词。

6.根据权利要求3所述的热点话题提取方法，其特征在于，所述并计算所述候选字符串经过分词后得到的目标词语的词频之前，还包括：

抛弃所述候选字符串经过分词后得到的词语中是预定类型的词语，从而选择剩余的词语作为所述目标词语；

7.根据权利要求1所述的热点话题提取方法，其特征在于，所述计算所述词表中各词语的权值，包括：

设所述预定时间窗口为j，所述词表中的词语i在所述预定时间窗口内的权值为W_i，j、词频为TF_i，j，词频增长速度为G_i，j、逆文档频率为IDF_i，j、所述预定时间窗口之前的时间窗口的个数为K以及在所述预定时间窗口之前的第k个时间窗口内的词语i的词频为TF_i，k；

所述词表中的词语i在所述预定时间窗口内的词频增长速度为：

G_{i, j} = \frac{{TF}_{i, j} * K}{Σ_{1}^{K} {TF}_{i, k}};

所述词表中的词语i在所述预定时间窗口内的权值为：

W_i，j=log G_i，j+αlog(IDF_i，j*TF_i，j)；

其中，所述i、j、k、K均为正整数，0<α<1。

8.根据权利要求7所述的热点话题提取方法，其特征在于，所述并根据所述权值选择至少两个词语作为关键词，包括：

选择所述权值大于等于第三阈值的词语作为所述关键词。

9.根据权利要求8所述的热点话题提取方法，其特征在于，所述分别计算所述关键词中任意两个词语的相似度，包括：

所述关键词W_p与关键词W_q的相似度为：

S (w_{p} / w_{q}) = \frac{R (w_{p}, w_{q})}{R (w_{q})};

其中，所述p、q均为正整数。

10.根据权利要求9所述的热点话题提取方法，其特征在于，所述根据所述相似度对所述关键词进行聚类，包括：

将所述关键词按照所述权值的大小进行降序排名，并将排在首位的关键词作为初始词簇；

依次计算各关键词与已有的词簇之间的距离；

选择已有的词簇中与当前关键词之间的距离最近的词簇作为目标词簇；

判断所述当前关键词与所述目标词簇之间的距离是否大于等于第四阈值；

若是，则将所述当前关键词作为新的词簇；

若不是，则将所述当前关键词并入所述目标词簇。

11.根据权利要求10所述的热点话题提取方法，其特征在于，所述依次计算各关键词与已有的词簇之间的距离，包括：

设所述关键词W_q与所述已有的词簇C之间的距离为D(w_q,C)以及所述词簇C中包括的一个或者多个关键词为w_s；

所述关键词W_q与所述已有词簇C之间的距离为：

D (w_{q}, C) = \{\begin{matrix} \frac{1}{\max (S (w_{q} | w_{s}), w_{s} &Element; C)}, \max (S (w_{q} | w_{s}), w_{s} &Element; C) > 0 \\ \infty, \max (S (w_{q} | w_{s}), w_{s} &Element; C) = 0 \end{matrix};

其中，s为正整数。

12.一种热点话题提取装置，其特征在于，所述装置包括：

13.根据权利要求12所述的热点话题提取装置，其特征在于，所述装置还包括：

第三选择模块，用于选择至少一个满足第一预定条件的用户账户作为所述目标用户账户；

其中，所述第一预定条件包括如下条件中的一种或两种：

用户账户的听众数量大于等于第二阈值；

所述第一阈值和第二阈值均为大于等于1的整数。

14.根据权利要求12所述的热点话题提取装置，其特征在于，所述第一提取模块，包括：

第一提取单元，用于从所述数据源中提取出候选字符串；

词频计算单元，用于对所述候选字符串进行分词，并计算所述候选字符串经过分词后得到的目标词语的词频；

第二提取单元，用于将所述目标词语按照词频的大小进行排名，并提取出排名在前m位的目标词语；

其中，所述m为正整数。

15.根据权利要求14所述的热点话题提取装置，其特征在于，

所述第一提取单元，还用于对所述数据源进行预处理，从而提取出所述候选字符串；

其中，所述预处理包括如下处理中的至少一种：

16.根据权利要求14所述的热点话题提取装置，其特征在于，所述词频计算单元，包括：

第一选择子单元，用于选择所述候选字符串经过分词后得到的各词语中具有预定词性的词语作为所述目标词语；

其中，所述预定词性包括名词和/或动词。

17.根据权利要求14所述的热点话题提取装置，其特征在于，所述词频计算单元，包括：

第二选择子单元，用于抛弃所述候选字符串经过分词后得到的词语中是预定类型的词语，从而选择剩余的词语作为所述目标词语；

18.根据权利要求12所述的热点话题提取装置，其特征在于，所述第二选择模块，包括：

第一设定单元，用于设所述预定时间窗口为j，所述词表中的词语i在所述预定时间窗口内的权值为W_i，j，、词频为TF_i，j，词频增长速度为G_i，j，、逆文档频率为IDF_i，j、所述预定时间窗口之前的时间窗口的个数为K以及在所述预定时间窗口之前的第k个时间窗口内的词语i的词频为TF_i，k；

第一计算单元，用于计算所述词表中的词语i在所述预定时间窗口内的词频增长速度，所述词频增长速度为：

G_{i, j} = \frac{{TF}_{i, j} * K}{Σ_{1}^{K} {TF}_{i, k}};

第二计算单元，用于计算所述词表中的词语i在所述预定时间窗口内的权值，所述权值为：

W_i，j=logG_i，j+αlog(IDF_i，j*TF_i，j)；

其中，所述i、j、k、K均为正整数，0<α<1。

19.根据权利要求18所述的热点话题提取装置，其特征在于，所述第二选择模块，包括：

第三选择单元，用于选择所述权值大于等于第三阈值的词语作为所述关键词。

20.根据权利要求19所述的热点话题提取装置，其特征在于，所述第一计算模块，包括：

第二设定单元，用于设一个关键词为W_p、另一关键词为W_q、关键词W_p与关键词W_q的相似度为S(w_p/w_q)、包括关键词W_p和关键词W_q的信息的条数为R(w_p,w_q)以及包括关键词W_q的信息的条数为R(w_q)；

第三计算单元，用于计算所述关键词W_p与关键词W_q的相似度，所述相似度为：

S (w_{p} / w_{q}) = \frac{R (w_{p}, w_{q})}{R (w_{q})};

其中，所述p、q均为正整数。

21.根据权利要求20所述的热点话题提取装置，其特征在于，所述第二提取模块，包括：

第四计算单元，用于将所述关键词按照所述权值的大小进行降序排名，并将排在首位的关键词作为初始词簇；

第五计算单元，用于依次计算各关键词与已有的词簇之间的距离；

词簇选择单元，用于选择已有的词簇中与当前关键词之间的距离最近的词簇作为目标词簇；

距离判断单元，用于判断所述当前关键词与所述目标词簇之间的距离是否大于等于第四阈值；

第一结果单元，用于若所述距离判断单元的判断结果为是，则将所述当前关键词作为新的词簇；

第二结果单元，用于若所述距离判断单元的判断结果为不是，则将所述当前关键词并入所述目标词簇。

22.根据权利要求21所述的热点话题提取装置，其特征在于，所述第五计算单元，包括：

第三设定子单元，用于设所述关键词W_q与所述已有的词簇C之间的距离为D(w_q,C)以及所述词簇C中包括的一个或者多个关键词为w_s；

第六计算子单元，用于计算所述关键词W_q与所述已有词簇C之间的距离，所述距离为：

D (w_{q}, C) = \{\begin{matrix} \frac{1}{\max (S (w_{q} | w_{s}), w_{s} &Element; C)}, \max (S (w_{q} | w_{s}), w_{s} &Element; C) > 0 \\ \infty, \max (S (w_{q} | w_{s}), w_{s} &Element; C) = 0 \end{matrix};

其中，s为正整数。

23.一种服务器，其特征在于，所述服务器包括如权利要求12至22任一所述的热点话题提取装置。