CN103942226A

CN103942226A - 获取热点内容的方法和装置

Info

Publication number: CN103942226A
Application number: CN201310024856.8A
Authority: CN
Inventors: 王佳强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2013-01-23
Filing date: 2013-01-23
Publication date: 2014-07-23
Anticipated expiration: 2033-01-23
Also published as: CN103942226B; WO2014114143A1; US20140280099A1; US9454568B2

Abstract

本发明公开了一种获取热点内容的方法和装置，属于通信技术领域。所述方法包括：获取N个搜索请求信息，以及与所述N个搜索请求信息对应的N个搜索应答信息；对所述N个搜索请求信息和所述N个搜索应答信息进行解析，得到N个初始热点内容数据；计算并根据每个初始热点内容数据的权值，从所述N个初始热点内容数据中选取出M个中间热点内容数据；其中，M为自然数，M小于等于N；对所述M个中间热点内容数据进行排重；从排重后的M个中间热点内容数据中，选取出热点内容。所述装置包括：获取模块、解析模块、选取模块、排重模块和处理模块。本发明可以全自动地获取热点内容，不需要额外的编辑整理，可以提高获取热点内容的效率，节约人力成本。

Description

获取热点内容的方法和装置

技术领域

本发明涉及通信技术领域，特别涉及一种获取热点内容的方法和装置。

背景技术

随着通信技术的发展，网络也逐渐成为获取各种信息的平台，可以通过网络查询信息、浏览新闻、聊天等。目前，与各种热词、热门事件等相关的热点内容已经成为用户比较感兴趣的内容。因此，如何获取热点内容，供用户查阅已经成为研究的重点。

现有获取热点内容的方法如下：获取用户在社交网络中发表的文档数据；采用空间向量模型、热词聚类等方法对用户在社交网络中发表的文档数据进行挖掘，得到一些单独的词；人工将这些词编辑整理成相关的热点内容。

然而，在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

现有获取热点内容的方法，需要人工进行编辑整理，获取热点内容的效率低，浪费人力。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种获取热点内容的方法和装置。所述技术方案如下：

一方面，提供了一种获取热点内容的方法，所述方法包括：

获取N个搜索请求信息，以及与所述N个搜索请求信息对应的N个搜索应答信息；其中，N为自然数；

对所述N个搜索请求信息和所述N个搜索应答信息中的每个搜索请求信息和与每个搜索请求信息对应的每个搜索应答信息进行解析，得到N个初始热点内容数据；其中，所述初始热点内容数据中包含检索词、热门广播信息和/或数据趋势信息；

计算并根据每个初始热点内容数据的权值，从所述N个初始热点内容数据中选取出M个中间热点内容数据；其中，M为自然数，M小于等于N；

对所述M个中间热点内容数据进行排重；

从排重后的M个中间热点内容数据中，选取出热点内容。

另一方面，提供了一种获取热点内容的装置，所述装置包括：

获取模块，用于获取N个搜索请求信息，以及与所述N个搜索请求信息对应的N个搜索应答信息；其中，N为自然数；

解析模块，用于对所述N个搜索请求信息和所述N个搜索应答信息中的每个搜索请求信息和与每个搜索请求信息对应的每个搜索应答信息进行解析，得到N个初始热点内容数据；其中，所述初始热点内容数据中包含检索词、热门广播信息和/或数据趋势信息；

选取模块，用于计算并根据每个初始热点内容数据的权值，从所述N个初始热点内容数据中选取出M个中间热点内容数据；其中，M为自然数，M小于等于N；

排重模块，用于对所述M个中间热点内容数据进行排重；

处理模块，用于从排重后的M个中间热点内容数据中，选取出热点内容。

本发明实施例提供的技术方案带来的有益效果是：

通过将获取的N个搜索请求信息，以及与N个搜索请求信息对应的N个搜索应答信息作为获取热点内容的数据源，并通过对数据源进行解析、计算权值、排重等得到热点内容，可以全自动地获取热点内容，不需要额外的编辑整理，可以提高获取热点内容的效率，节约人力成本。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的获取热点内容的方法流程图；

图2是本发明实施例二提供的获取热点内容的方法流程图；

图3是本发明实施例三提供的获取热点内容的第一装置结构示意图；

图4是本发明实施例三提供的获取热点内容的第二装置结构示意图；

图5是本发明实施例三提供的获取热点内容的第三装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

本发明实施例提供了一种获取热点内容的方法，参见图1，该方法包括：

101：获取N个搜索请求信息，以及与N个搜索请求信息对应的N个搜索应答信息；其中，N为自然数。

102：对N个搜索请求信息和N个搜索应答信息中的每个搜索请求信息和与每个搜索请求信息对应的每个搜索应答信息进行解析，得到N个初始热点内容数据；其中，初始热点内容数据中包含检索词、热门广播信息和/或数据趋势信息。

103：计算并根据每个初始热点内容数据的权值，从N个初始热点内容数据中选取出M个中间热点内容数据；其中，M为自然数，M小于等于N；

104：对M个中间热点内容数据进行排重；

105：从排重后的M个中间热点内容数据中，选取出热点内容。

优选地，得到N个初始热点内容数据之后，该方法还包括：

对N个初始热点内容数据进行噪音过滤，得到N个过滤噪音后的初始热点内容数据；

相应地，计算并根据每个初始热点内容数据的权值，从N个初始热点内容数据中选取出M个中间热点内容数据，包括：

计算并根据过滤噪音后的每个初始热点内容数据的权值，从N个过滤噪音后的初始热点内容数据中选取出M个中间热点内容数据。

优选地，得到N个过滤噪音后的初始热点内容数据之后，还包括：

根据每个初始热点内容数据中包含的热门广播信息，对N个过滤噪音后的初始热点内容数据进行聚类，得到K个聚类后的初始热点内容数据；其中，K为自然数，K小于等于N、大于等于M；

计算并根据每个聚类后的初始热点内容数据的权值，从K个聚类后的初始热点内容数据中选取出M个中间热点内容数据。

优选地，计算并根据每个聚类后的初始热点内容数据的权值，从K个聚类后的初始热点内容数据中选取出M个中间热点内容数据，包括：

计算K个聚类后的初始热点内容数据中每个聚类后的初始热点内容数据的权值；

按照权值从大到小的顺序，从K个聚类后的初始热点内容数据中提取出M个聚类后的初始热点内容数据；

将提取出的M个聚类后的初始热点内容数据，作为M个中间热点内容数据。

优选地，对M个中间热点内容数据进行排重，包括：

采用相似率排重方法和相似指纹排重方法，对M个中间热点内容数据中包含的检索词进行排重；

采用相似率排重方法，对M个中间热点内容数据中包含的热门广播信息进行排重；

采用相似率排重方法，对M个中间热点内容数据中包含的检索词和热门广播信息进行排重。

本发明实施例所述的获取热点内容的方法，通过将获取的N个搜索请求信息，以及与N个搜索请求信息对应的N个搜索应答信息作为获取热点内容的数据源，并通过对数据源进行解析、计算权值、排重等得到热点内容，可以全自动地获取热点内容，不需要额外的编辑整理，可以提高获取热点内容的效率，节约人力成本。通过噪音过滤处理，可以去除劣质词语，提高获取的热点内容的质量。通过聚类，便于对具有相同特征的词语进行处理，提高获取热点内容的效率和质量。

实施例二

本发明实施例提供了一种获取热点内容的方法，参见图2，该方法包括：

201：获取N个搜索请求信息，以及与N个搜索请求信息对应的N个搜索应答信息；其中，N为自然数。

其中，搜索请求信息是指用户在微博搜索框、和/或微信搜索框等中输入的搜索词。搜索应答信息是指对搜索请求信息进行搜索得到的搜索结果信息。对每个搜索请求信息进行搜索得到的搜索应答信息中可能包含很多条信息，也可能只包含很少的几条信息。

通过搜索请求信息和搜索应答信息来获取热点内容，及将搜索请求信息和搜索应答信息作为获取热点内容的数据源。具体地，本发明实施例中将用户在A微博搜索框中输入的搜索请求信息，以及与搜索请求信息对应的搜索应答信息作为获取热点内容的数据源。

具体地，获取N个搜索请求信息，以及与N个搜索请求信息对应的N个搜索应答信息，可以是获取到一定时间段内（如10分钟、1小时等）的多个搜索请求信息和搜索应答信息后再执行后续步骤，也可以是获取到一定数量的搜索请求信息和搜索应答信息后（如获取到100个搜索请求信息后等）再执行后续的步骤。

202：对N个搜索请求信息和N个搜索应答信息中的每个搜索请求信息和与每个搜索请求信息对应的每个搜索应答信息进行解析，得到N个初始热点内容数据。

具体地，对每个搜索请求信息和与每个搜索请求信息对应的每个搜索应答信息进行解析，得到与每个搜索请求信息和搜索应答信息对应的一个初始热点内容数据。

其中，初始热点内容数据中包含检索词、热门广播信息和/或数据趋势信息。

其中，检索词是指能概括检索内容的相关词汇。

其中，热门广播信息是指搜索应答信息中包含广播信息时，搜索应答信息中包含的所有广播信息中转播次数最多的那条广播信息。热门广播信息包括热门广播内容、热门广播的用户账号（Twitterid）、热门广播的发布时间、热门广播当前的转播数等。

其中，数据趋势信息是指对当前的某搜索请求信息进行搜索，在预设的时间段内（如一天或一小时等），产生了多少数据。数据趋势信息是在对当前的某搜索请求信息进行搜索过程中产生。

203：对N个初始热点内容数据进行噪音过滤，得到N个过滤噪音后的初始热点内容数据。

具体地，每个搜索请求信息和搜索应答信息对应一个初始热点内容数据，对每个初始热点内容数据进行噪音过滤。将每个初始热点内容数据中包含的somebody、句子长度大于预设的第一长度阈值的句子、句子长度小于预设的第二长度阈值的句子、句子中包含的标点符号的个数大于预设的个数阈值的句子等过滤掉；将不包含热门广播信息（即没有热门广播信息返回）的初始热点内容数据过滤掉；将搜索应答信息条数小于预设的条数阈值的那个搜索请求信息和搜索应答信息对应的初始热点内容数据过滤掉；计算初始热点内容中包含的数据趋势信息的热值（hot），将初始热点内容中包含的数据趋势信息的热值小于预设的热值阈值的初始热点内容过滤掉等。

204：根据每个初始热点内容数据中包含的热门广播信息，对N个过滤噪音后的初始热点内容数据进行聚类，得到K个聚类后的初始热点内容数据；其中，K为自然数，K小于等于N、大于等于M。

具体地，将包含相同热门广播信息的初始热点内容数据存储在一起，以对过滤噪音后的初始热点内容数据进行聚类，具体地，由于热门广播信息是根据相应的检索词检索得到，所以将包含相同热门广播信息的初始热点内容数据存储在一起，是对过滤噪音后的初始热点内容数据进行聚类，也是对检索词进行聚类。

205：计算K个聚类后的初始热点内容数据中每个聚类后的初始热点内容数据的权值。

首先，分别计算聚类后的初始热点内容数据中包含的检索词、热门广播信息和/或数据趋势信息的权值。

计算检索词的权值，是对检索词的请求变化率和检索词被检索的次数等归一化后，采用预设的加权平均公式计算得到。

其中，检索词的请求变化率是指检索词每小时的请求数量或/和检索词每一天的请求数量等。

计算热门广播信息的权值，是对热门广播信息的转播数变化率和热门广播信息的转播数等归一化后，采用预设的加权平均公式计算得到。

其中，热门广播信息的转播数变化率是根据热门广播的生成时间和热门广播信息的转播数计算得出。

计算数据趋势信息的权值，是对数据趋势信息的热度值等等归一化后，采用预设的加权平均公式计算得到。

其中，数据趋势信息的热度值根据每小时或每天的数据趋势信息得到。

其次，对计算得到的聚类后的初始热点内容数据中包含的检索词、热门广播信息和/或数据趋势信息的权值归一化后，采用预设的加权平均公式计算得到。

其中，各个预设的加权平均公式可以根据具体的情况进行设置，对此不做具体限定。

206：根据每个聚类后的初始热点内容数据的权值，从K个聚类后的初始热点内容数据中选取出M个中间热点内容数据，其中，M小于等于K。

具体地，将K个聚类后的初始热点内容数据，按照权值从大到小的顺序进行排列，从中选取出前M个聚类后的初始热点内容数据，将前M个聚类后的初始热点内容数据作为M个中间热点内容数据。

207：对M个中间热点内容数据进行排重。

本发明实施例中，对M个中间热点内容数据进行排重时，采用相似率排重方法和相似指纹排重方法进行排重。为了便于说明，假设有两个字符串分别为A和B。

第一种相似率排重方法：对A和B分别进行分词，从A和B中分别选取出预设词性（如名词、形容词等）的词。将从A中选取出的预设词性的词和从B中选取出的预设词性的词进行比较，得到A和B中相同的词的个数（记作：(A∩B)）。根据预设的相似率计算公式(A∩B)/min(A、B)，计算得到A和B的相似率。将A和B的相似率与预设的相似率阈值进行比较，如果A和B的相似率大于预设的相似率阈值，则A和B相似；否则，A和B不相似。其中，min(A、B)是指取A和B字符串长度较小的长度值。

第二种相似指纹排重方法：对A和B分别进行分词，从A和B中分别选取出预设词性（如名词、形容词等）的词。将从A和B中分别选取出的预设词性的词作为特征，采用相似指纹算法，计算出A和B的相似指纹值。将A和B的相似指纹值，与预设的相似指纹阈值进行比较，如果A和B的指纹值大于预设的指纹阈值，则A和B相似；否则，A和B不相似。

具体地，采用相似率排重方法和相似指纹排重方法，对M个中间热点内容数据中包含的检索词进行排重。

需要说明的是，如果相似率排重方法和相似指纹排重方法中有一种方法确定一个中间热点内容数据中包含的检索词与另一个中间热点内容数据中包含的检索词相重，则确定一个中间热点内容数据中包含的检索词与另一个中间热点内容数据中包含的检索词相重。

具体过程如下：将第一个中间热点内容数据中包含的每个检索词（相当于A），分别与其他M-1个中间热点内容数据中包含的每个检索词（相当于B）进行排重；将第二个中间热点内容数据中包含的每个检索词（相当于A），分别与其他M-1个中间热点内容数据中包含的每个检索词（相当于B）进行排重…将第M个中间热点内容数据中包含的每个检索词（相当于A），分别与其他M-1个中间热点内容数据中包含的每个检索词（相当于B）进行排重。即对检索词可以采用第一种和第二种两种方法进行排重。

具体地，采用相似率排重方法，对M个中间热点内容数据中包含的热门广播信息进行排重。

具体过程如下：将第一个中间热点内容数据中包含的每个热门广播信息（相当于A），分别与其他M-1个中间热点内容数据中包含的每个热门广播信息（相当于B）进行排重；将第二个中间热点内容数据中包含的每个热门广播信息（相当于A），分别与其他M-1个中间热点内容数据中包含的每个热门广播信息（相当于B）进行排重…将第M个中间热点内容数据中包含的每个热门广播信息（相当于A），分别与其他M-1个中间热点内容数据中包含的每个热门广播信息（相当于B）进行排重。即对热门广播信息可以采用第一种方法进行排重。

具体地，采用相似率排重方法，对M个中间热点内容数据中包含的检索词和热门广播信息进行排重。

具体过程如下：将第一个中间热点内容数据中包含的每个检索词（相当于A），分别与其他M-1个中间热点内容数据中包含的每个检索词（相当于B）或每个热门广播信息（相当于B）进行排重；将第二个中间热点内容数据中包含的每个检索词（相当于A），分别与其他M-1个中间热点内容数据中包含的每个检索词（相当于B）或每个热门广播信息（相当于B）进行排重…将第M个中间热点内容数据中包含的每个检索词（相当于A），分别与其他M-1个中间热点内容数据中包含的每个检索词（相当于B）或每个热门广播信息（相当于B）进行排重。采用相似率排重方法，将第一个中间热点内容数据中包含的每个热门广播信息（相当于A），分别与其他M-1个中间热点内容数据中包含的每个检索词（相当于B）或每个热门广播信息（相当于B）进行排重；将第二个中间热点内容数据中包含的每个热门广播信息（相当于A），分别与其他M-1个中间热点内容数据中包含的每个检索词（相当于B）或每个热门广播信息（相当于B）进行排重…将第M个中间热点内容数据中包含的每个热门广播信息（相当于A），分别与其他M-1个中间热点内容数据中包含的每个检索词（相当于B）或每个热门广播信息（相当于B）进行排重。即对检索词和热门广播信息采用第一种方法进行交互排重。

208：从排重后的M个中间热点内容数据中，选取出热点内容。

其中，热点内容包括热点内容的关键词和热点内容的正文内容。

热点内容的关键词通过下面的方法得到：对于内容相同的热门广播信息对应的所有检索词，将每个检索词的长度和检索词被检索的次数进行加权平均，得到每个检索词的权重值，选取权重值最大的检索词作为热点内容的。

选取中间热点内容数据中包括的热门广播信息作为热点内容的正文内容。

本发明实施例所述的获取热点内容的方法本发明实施例所述的获取热点内容的方法，通过将获取的N个搜索请求信息，以及与N个搜索请求信息对应的N个搜索应答信息作为获取热点内容的数据源，并通过对数据源进行解析、计算权值、排重等得到热点内容，可以全自动地获取热点内容，不需要额外的编辑整理，可以提高获取热点内容的效率，节约人力成本。通过噪音过滤处理，可以去除劣质词语，提高获取的热点内容的质量。通过聚类，便于对具有相同特征的词语进行处理，提高获取热点内容的效率和质量。

实施例三

参见图3，本发明实施例提供了一种获取热点内容的装置，该装置包括：

获取模块301，用于获取N个搜索请求信息，以及与N个搜索请求信息对应的N个搜索应答信息；其中，N为自然数；

解析模块302，用于对N个搜索请求信息和N个搜索应答信息中的每个搜索请求信息和与每个搜索请求信息对应的每个搜索应答信息进行解析，得到N个初始热点内容数据；其中，初始热点内容数据中包含检索词、热门广播信息和/或数据趋势信息；

选取模块303，用于计算并根据每个初始热点内容数据的权值，从N个初始热点内容数据中选取出M个中间热点内容数据；其中，M为自然数，M小于等于N；

排重模块304，用于对M个中间热点内容数据进行排重；

处理模块305，用于从排重后的M个中间热点内容数据中，选取出热点内容。

优选地，参见图4，该装置还包括：

过滤模块306，用于对N个初始热点内容数据进行噪音过滤，得到N个过滤噪音后的初始热点内容数据；

相应地，选取模块303包括：

第一选取单元303a，用于计算并根据过滤噪音后的每个初始热点内容数据的权值，从N个过滤噪音后的初始热点内容数据中选取出M个中间热点内容数据。

优选地，参见图5，该装置还包括：

聚类模块307，用于根据每个初始热点内容数据中包含的热门广播信息，对N个过滤噪音后的初始热点内容数据进行聚类，得到K个聚类后的初始热点内容数据；其中，K为自然数，K小于等于N、大于等于M；

相应地，选取模块303包括：

第二选取单元303b，用于计算并根据每个聚类后的初始热点内容数据的权值，从K个聚类后的初始热点内容数据中选取出M个中间热点内容数据。

优选地，第二选取单元303b包括：

计算子单元，用于计算K个聚类后的初始热点内容数据中每个聚类后的初始热点内容数据的权值；

提取子单元，用于按照权值从大到小的顺序，从K个聚类后的初始热点内容数据中提取出M个聚类后的初始热点内容数据；

处理子单元，用于将提取出的M个聚类后的初始热点内容数据，作为M个中间热点内容数据。

优选地，排重模块304包括：

第一排重单元，用于采用预设的相似率排重装置和预设的相似指纹排重装置，对M个中间热点内容数据中包含的检索词进行排重；

第二排重单元，用于采用预设的相似率排重装置，对M个中间热点内容数据中包含的热门广播信息进行排重；

第三排重单元，用于采用预设的相似率排重装置，对M个中间热点内容数据中包含的检索词和热门广播信息进行排重。

本发明实施例所述的获取热点内容的装置，通过将获取的N个搜索请求信息，以及与N个搜索请求信息对应的N个搜索应答信息作为获取热点内容的数据源，并通过对数据源进行解析、计算权值、排重等得到热点内容，可以全自动地获取热点内容，不需要额外的编辑整理，可以提高获取热点内容的效率，节约人力成本。通过噪音过滤处理，可以去除劣质词语，提高获取的热点内容的质量。通过聚类，便于对具有相同特征的词语进行处理，提高获取热点内容的效率和质量。

需要说明的是：上述实施例提供的获取热点内容的装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的获取热点内容的装置与获取热点内容的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种获取热点内容的方法，其特征在于，所述方法包括：

对所述M个中间热点内容数据进行排重；

从排重后的M个中间热点内容数据中，选取出热点内容。

2.根据权利要求1所述的方法，其特征在于，所述得到N个初始热点内容数据之后，还包括：

对所述N个初始热点内容数据进行噪音过滤，得到N个过滤噪音后的初始热点内容数据；

相应地，计算并根据每个初始热点内容数据的权值，从所述N个初始热点内容数据中选取出M个中间热点内容数据，包括：

计算并根据过滤噪音后的每个初始热点内容数据的权值，从所述N个过滤噪音后的初始热点内容数据中选取出M个中间热点内容数据。

3.根据权利要求2所述的方法，其特征在于，所述得到N个过滤噪音后的初始热点内容数据之后，还包括：

根据每个初始热点内容数据中包含的热门广播信息，对所述N个过滤噪音后的初始热点内容数据进行聚类，得到K个聚类后的初始热点内容数据；其中，K为自然数，K小于等于N、大于等于M；

计算并根据每个聚类后的初始热点内容数据的权值，从所述K个聚类后的初始热点内容数据中选取出M个中间热点内容数据。

4.根据权利要求3所述的方法，其特征在于，所述计算并根据每个聚类后的初始热点内容数据的权值，从所述K个聚类后的初始热点内容数据中选取出M个中间热点内容数据，包括：

计算所述K个聚类后的初始热点内容数据中每个聚类后的初始热点内容数据的权值；

按照权值从大到小的顺序，从所述K个聚类后的初始热点内容数据中提取出M个聚类后的初始热点内容数据；

5.根据权利要求1-4任一权利要求所述的方法，其特征在于，对所述M个中间热点内容数据进行排重，包括：

采用预设的相似率排重方法和预设的相似指纹排重方法，对所述M个中间热点内容数据中包含的检索词进行排重；

采用预设的相似率排重方法，对所述M个中间热点内容数据中包含的热门广播信息进行排重；

采用预设的相似率排重方法，对所述M个中间热点内容数据中包含的检索词和热门广播信息进行排重。

6.一种获取热点内容的装置，其特征在于，所述装置包括：

排重模块，用于对所述M个中间热点内容数据进行排重；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

过滤模块，用于对所述N个初始热点内容数据进行噪音过滤，得到N个过滤噪音后的初始热点内容数据；

相应地，所述选取模块包括：

第一选取单元，用于计算并根据过滤噪音后的每个初始热点内容数据的权值，从所述N个过滤噪音后的初始热点内容数据中选取出M个中间热点内容数据。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

聚类模块，用于根据每个初始热点内容数据中包含的热门广播信息，对所述N个过滤噪音后的初始热点内容数据进行聚类，得到K个聚类后的初始热点内容数据；其中，K为自然数，K小于等于N、大于等于M；

相应地，所述选取模块包括：

第二选取单元，用于计算并根据每个聚类后的初始热点内容数据的权值，从所述K个聚类后的初始热点内容数据中选取出M个中间热点内容数据。

9.根据权利要求8所述的装置，其特征在于，所述第二选取单元包括：

计算子单元，用于计算所述K个聚类后的初始热点内容数据中每个聚类后的初始热点内容数据的权值；

提取子单元，用于按照权值从大到小的顺序，从所述K个聚类后的初始热点内容数据中提取出M个聚类后的初始热点内容数据；

10.根据权利要求6-9任一权利要求所述的装置，其特征在于，所述排重模块包括：

第一排重单元，用于采用预设的相似率排重装置和预设的相似指纹排重装置，对所述M个中间热点内容数据中包含的检索词进行排重；

第二排重单元，用于采用预设的相似率排重装置，对所述M个中间热点内容数据中包含的热门广播信息进行排重；

第三排重单元，用于采用预设的相似率排重装置，对所述M个中间热点内容数据中包含的检索词和热门广播信息进行排重。