CN102710795B

CN102710795B - 热点聚合方法及装置

Info

Publication number: CN102710795B
Application number: CN201210210038.2A
Authority: CN
Inventors: 马良
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Priority date: 2012-06-20
Filing date: 2012-06-20
Publication date: 2015-02-11
Anticipated expiration: 2032-06-20
Also published as: CN102710795A; WO2013189254A1; US20150341771A1

Abstract

本发明公开了一种热点聚合方法及装置。该方法包括：抓取互联网上的网络资源；采用最长公共子序列LCS算法对网络资源进行匹配，获取匹配结果；根据匹配结果生成热点词组。借助于本发明的技术方案，能够降低运维成本和热点聚合计算的复杂度，提高了热点聚合的速度，能够实时采集，实时计算，快速发现热点事件，基本没有滞后。

Description

热点聚合方法及装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种热点聚合方法及装置。

背景技术

在现有技术中，热点聚合方法可以应用在电子布告栏***（Bulletin BoardSystem，简称为BBS）和博客（BLOG）上，也可以应用在网页、新闻、以及微博等数据上。

目前，各搜索引擎都会提供热榜之类的产品，例如，百度的搜索风云榜，搜搜的热榜等，在现有技术中，热点聚合的实现方法基本有两种：

方法1，利用用户的查询日志，按周期进行统计，对查询串进行分词，提取关键词，根据查询次数排序得到热词榜。

方法2，对网页标题或内容进行中心词的抽取，按中心词进行聚合，计算出热点事件。

方法1是基于统计进行热点事件计算的，因而会有一定的滞后性，不能及时发现热点事件。此外，上述两种方法都基于分词技术，而分词是基于词典的，而利用分词技术本身就会对新词的发现有一定的滞后性，从而会导致一些新的热词及热门事件不能及时发现，此外，上述两种方法的效果太过依赖于分词技术，需要进行词典维护，还具有一定的运维成本。

发明内容

本发明提供一种热点聚合方法及装置，以解决现有技术中通过分词技术进行热点聚合而导致的热点词发现滞后、以及进行词典维护的运维成本高的问题。

本发明提供一种热点聚合方法，包括：抓取互联网上的网络资源；采用最长公共子序列（Longest Common Subsequence，简称为LCS）算法对网络资源进行匹配，获取匹配结果；根据匹配结果生成热点词组。

优选地，根据匹配结果生成热点词组具体包括：设置采用LCS算法进行匹配时生成匹配结果所涉及网络资源的最少个数；获取所涉及网络资源的个数大于最少个数的匹配结果，并根据该匹配结果生成热点词组。

优选地，抓取互联网上的网络资源具体包括：从分布式文件***中获取以预定时间周期分割后的网络资源。

优选地，抓取互联网上的网络资源之后，上述方法还包括：对网络资源进行过滤。

优选地，对网络资源进行过滤的处理具体包括以下至少之一：根据预先配置的域名列表，滤除非重点域名的网络资源；根据预先配置的网络白名单，保留与网络白名单相应的网络资源；根据网页的浏览数对网络资源进行过滤；根据网页的发布日期对网络资源进行过滤；根据新闻、博客、或者帖子的回复数对网络资源进行过滤；对网络资源的标题中的无用信息进行过滤；对网络资源中的常用词进行过滤。

优选地，根据匹配结果生成热点词组之后，上述方法还包括：获取与各个热点词组相关的网络资源的标识，并将每个热点词组以及与该热点词组相关的网络资源的标识作为一个热点组进行聚合存储。

优选地，采用LCS算法对网络资源进行匹配，获取匹配结果具体包括：通过LCS算法，采用矩阵记录两个字符串中相应位置上的两个字符之间的匹配关系，并计算矩阵中对角线最长的匹配序列，根据匹配序列在矩阵中的位置，获取最长匹配子串的位置；

优选地，根据匹配结果生成热点词组具体包括：根据最长匹配子串的位置生成热点词组。

优选地，根据匹配结果生成热点词组之后，上述方法还包括：采用LCS算法对热点词组再次进行匹配，生成关键词组；将每个热点词组以及与该热点词组相关的网络资源的标识作为一个热点组进行存储具体包括：将每个关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源的标识作为一个热点组进行存储。

优选地，在将热点组进行存储之后，上述方法还包括：对存储的热点组中的热点数据进行统计分析、展现、和/或查询。

本发明还提供了一种热点聚合装置，包括：网络抓取模块，用于抓取互联网上的网络资源；匹配模块，用于采用最长公共子序列LCS算法对网络资源进行匹配，获取匹配结果；生成模块，用于根据匹配结果生成热点词组。

优选地，生成模块具体用于：设置采用LCS算法进行匹配时生成匹配结果所涉及网络资源的最少个数；获取所涉及网络资源的个数大于最少个数的匹配结果，并根据该匹配结果生成热点词组。

优选地，获取模块具体用于：从分布式文件***中获取以预定时间周期分割后的网络资源。

优选地，上述装置还包括：过滤模块，用于在网络抓取模块抓取互联网上的网络资源之后，对网络资源进行过滤。

优选地，过滤模块具体包括以下至少之一：域名过滤子模块，用于根据预先配置的域名列表，滤除非重点域名的网络资源；白名单过滤子模块，用于根据预先配置的网络白名单，保留与网络白名单相应的网络资源；浏览数过滤子模块，用于根据网页的浏览数对网络资源进行过滤；发布日期过滤子模块，用于根据网页的发布日期对网络资源进行过滤；回复数过滤子模块，用于根据新闻、博客、或者帖子的回复数对网络资源进行过滤；标题过滤子模块，用于对网络资源的标题中的无用信息进行过滤；常用词过滤子模块，用于对网络资源中的常用词进行过滤。

优选地，上述装置还包括：存储模块，用于获取与各个热点词组相关的网络资源的标识，将每个热点词组以及与该热点词组相关的网络资源的标识作为一个热点组进行存储。

优选地，匹配模块具体用于：通过LCS算法，采用矩阵记录两个字符串中相应位置上的两个字符之间的匹配关系，并计算矩阵中对角线最长的匹配序列，根据匹配序列在矩阵中的位置，获取最长匹配子串的位置；生成模块具体用于：根据最长匹配子串的位置生成热点词组。

优选地，匹配模块还用于：采用LCS算法对热点词组再次进行匹配，生成关键词组；存储模块具体用于：将每个关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源的标识作为一个热点组进行存储。

优选地，上述装置还包括：统计分析模块，用于对存储的热点组中的热点数据进行统计分析、展现、和/或查询。

本发明有益效果如下：

通过利用LCS算法对网络资源进行热点聚合，解决了现有技术中通过分词技术进行热点聚合而导致的热点词发现滞后、以及进行词典维护的运维成本高的问题，能够降低运维成本和热点聚合计算的复杂度，提高了热点聚合的速度，能够实时采集，实时计算，快速发现热点事件，基本没有滞后。

附图说明

图1是本发明实施例的热点聚合方法的流程图；

图2是本发明实施例的热点聚合装置的结构示意图；

图3是本发明实施例的热点聚合装置的详细结构示意图。

具体实施方式

为了解决现有技术中通过分词技术进行热点聚合而导致的热点词发现滞后、以及进行词典维护的运维成本高的问题，本发明提供了一种热点聚合方法及装置，根据本发明实施例的无词典热点聚合方法，通过采用LCS技术对互联网上网页的主题在一定周期内进行聚合，可以快速发现本周期内发生的热点事件。以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

根据本发明的实施例，提供了一种热点聚合方法，图1是本发明实施例的热点聚合方法的流程图，如图1所示，根据本发明实施例的热点聚合方法包括如下处理：

步骤101，抓取互联网上的网络资源；其中，上述网络资源包括：网页、帖子、微博、博客等。

优选地，在实际应用中，需要从文件***中获取以预定时间周期分割后的网络资源，其中，该文件***可以为分布式文件***（moosefs），也可以为普通的文件***。在步骤101中，可以从moosefs上采集按一定切分周期（即上述预定时间周期）切分好的网络资源。在实际应用中，切分周期可以根据网络资源的种类（或者网络资源更新的速度）的不同进行不同的配置，以控制计算的周期。例如，由于BBS的网络资源更新较快，因此，BBS可以按小时对网络资源进行切分（即切分周期为一小时），由于BLOG的网络资源更新较慢，因此，BLOG可以按天对相关网络资源进行切分（即切分周期为一天24小时）。

此外，在抓取互联网上的网络资源之后，还可以对网络资源进行过滤。

具体地，对网络资源进行过滤的处理具体包括以下至少之一：

1、filter_host过滤域名：根据预先配置的域名列表，滤除非重点域名的网络资源，可以减少垃圾数据；

2、filter_blog_list blog白名单过滤：根据预先配置的网络白名单，保留与网络白名单相应的网络资源，例如，根据博客白名单，保留重点博客的数据；

3、filter_viewcount浏览数过滤：根据网页的浏览数对网络资源进行过滤；例如，根据对网页或帖子的浏览数的多少，过滤出浏览数低于一定门限的网页或帖子，还需要过滤出浏览数高于一定门限的网页或帖子。例如，对浏览数为0或1的过滤掉；对浏览数为10000以上的过滤掉，浏览数为10000以上的大多为抓错或旧帖；

4、filter_replycount回复数过滤：根据新闻、博客、或者帖子的回复数对网络资源进行过滤；例如，如果对某个帖子的回复数大于10000以上的帖子进行过滤，大多为抓错或旧帖；

5、filter _publictime发帖日期过滤：根据网页的发布日期对网络资源进行过滤；例如，将一天前的帖子进行过滤。

6、filter_title过滤掉题目里的版块名称、说明、以及求助等无用前缀信息：即，对网络资源的标题中的无用信息进行过滤；

7、filter_comm_word常用词过滤：对网络资源中的常用词进行过滤，例如，对一些常用的、无意义的词进行过滤。

通过上述网络资源的过滤处理，能够过滤掉网络资源中大部分的干扰网络资源和垃圾网络资源，为下一步匹配打下良好的基础。

步骤102，采用LCS算法对网络资源进行匹配，获取匹配结果；

具体地，在步骤201中，采用LCS算法对网络资源进行匹配，获取匹配结果具体包括如下处理：通过LCS算法，采用矩阵记录两个字符串中相应位置上的两个字符之间的匹配关系，并计算矩阵中对角线最长的匹配序列，根据匹配序列在矩阵中的位置，获取最长匹配子串的位置（即上述匹配结果）；

例如，LCS算法使用一个矩阵来记录两个字符串中所有位置的两个字符之间的匹配情况，若是匹配则为1，否则为0。然后求出对角线最长的1序列，其对应的位置就是最长匹配子串的位置。需要说明的是，LCS是计算两个字符串相似程度的一种方法：LCS计算出的最长匹配子串越长，两个字符串越相似。所以，用它可以对相似主题进行聚集，用来达到发现相同主题的目的。

步骤103，根据匹配结果生成热点词组。

具体地，在步骤103中，根据步骤102中获取的最长匹配子串的位置（即，匹配结果）生成热点词组。

为了能够获取更准确的热点词组，在本发明实施例中，可以设置采用LCS算法进行匹配时生成匹配结果所涉及网络资源的最少个数，获取所涉及网络资源的个数大于最少个数的匹配结果，并根据该匹配结果生成热点词组。当然，判断是否构成热点词组的维度还有很多，例如，可以按照所涉及的网络资源数量的多少对热点词组进行排序等等。

优选地，在本发明实施例中，根据匹配结果生成热点词组之后，还可以获取与各个热点词组相关的网络资源的标识，并将每个热点词组以及与该热点词组相关的网络资源的标识作为一个热点组进行聚合存储。其中，网络资源的标识可以为网络资源的链接、或者网络资源的统一资源定位符（Uniform/Universal Resource Locator，简称为URL）地址。当然，在本发明实施例中，也可以直接对相关的网络资源进行存储。

为了进一步对热点词组进行聚合，在本发明实施例中，优选地，在根据匹配结果生成热点词组之后，可以采用LCS算法对热点词组再次进行匹配，生成关键词组；随后，将每个关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源的标识作为一个热点组进行存储。

也就是说，将LCS算法计算出的最长匹配子串，做为分组词组，对同一组中的词组再使用LCS算法计算出关键词组，并将关键词组、与关键词组对应的所有热点词组、以及对应网络资源（网站、帖子、博客、以及微博等）的标识归为一个热点，作为一个热点组。

在实际应用中，将每个关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源的标识作为一个热点组进行存储时，需要存储的关键词组的字段如表1所示，包括：热点组ID、关键词组、状态（用于标识关键词组是否有效）、入库存储时间、修改时间、以及扩展字段。

表1

字段名称	类型	约束	说明
				group_id	int(11)	主键	热点组id
keyword	varchar(255)		关键词组
				status	int(4)		状态

reg_time	datetime	入库时间
			mod_time	timestamp	修改时间
ext	tinyint(4)	扩展字段

需要存储的热点词组的字段如表2所示，包括：热点组ID、热点词组、入库存储时间、修改时间、以及扩展字段。如表1和表2所示，热点词组和关键词组通过热点组ID这个字段相对应。

表2

字段名称	类型	约束	说明
				group_id	int(11)	索引	热点组id
wordstr	varchar(255)	唯一索引	热点词组
				reg_time	datetime		入库时间
mod_time	timestamp		修改时间
				ext	tinyint(4)		扩展字段

需要说明的是，在实际应用中，可能由于同一组中的热点词组比较少，不能再聚合出关键词组，因此，在一个热点组中可能出现只有热点词组，没有关键词组的情况。

优选地，执行完上述处理后，可以对存储的热点组中的热点数据进行统计分析、展现、和/或提供查询服务。上述热点数据包括：关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源。

具体地，在实际应用中，还需要记录如表3所示的热点趋势数据，包括：热点组ID、日期、对应帖子数、浏览数、回复数、热度值、BBS帖子质量、BBS帖子质量分数（pr_rank）、入库时间、修改时间、以及扩展字段。根据表3，周期内可以按照热点趋势排序统计热点，例如，按照热度值，相关帖数，浏览数，回复数等进行排序，可以查询热点组内对应词组、帖子，还可以画出热点趋势图、展现周期内热点的变化趋势。

表3

字段名称	类型	约束	说明
				group_id	int(11)	索引	热点组id
Date	varchar(255)	索引	日期
				num	int(11)		对应帖子数
viewcount	int(11)		浏览数
				replycount	int(11)		回复数
hot_num	int(11)		热度值
				quality	int(11)		质量
score	int(11)		pr_rank
				reg_time	Datetime		入库时间
mod_time	Timestamp		修改时间
				ext	tinyint(4)		扩展字段

综上所述，根据本发明实施例的无词典的热点聚合方法，首先需要通过LCS进行数据抓取，对讨论的热点话题进行聚合，随后，计算出热点对应的关键词组，优选地，还可以根据关键词组对应的相关帖数、浏览数、回复数、以及讨论数等对热点进行排序。根据本发明实施例的技术方案不采用分词技术，采用LCS算法对主题抽取关键词以及对关键词进行分组聚合，避免了分词带来的一些问题，例如，新词发现的滞后行、以及词典维护运营成本高等，本发明实施例的技术方案能够实时采集、实时计算，并快速地发现热点事件。

需要说明的是，本发明实施例的热点聚合方法可以应用在BBS、以及BLOG热点聚合上，需要基于BBS、以及BLOG进行数据抓取，并对讨论的话题进行聚合，计算出热点对应的关键词组，根据其对应的相关帖数，浏览数，回复数，讨论数等对热点进行排序，可以快速发现热点事件。本发明实施例的技术方案的应用并不只限定于BBS、以及BLOG数据，它同样可以应用在网页、新闻、以及微博等其他网络资源上。

借助于本发明实施例的上述技术方案，通过利用LCS算法对网络资源进行热点聚合，解决了现有技术中通过分词技术进行热点聚合而导致的热点词发现滞后、以及进行词典维护的运维成本高的问题，能够降低运维成本和计算的复杂度，提高了热点聚合的速度，能够实时采集，实时计算，快速发现热点事件，基本没有滞后。

根据本发明的实施例，提供了一种热点聚合装置，图2是本发明实施例的热点聚合装置的结构示意图，如图2所示，根据本发明实施例的热点聚合装置包括：网络抓取模块20、匹配模块22、以及生成模块24，以下对本发明实施例的各个模块进行详细的说明。

网络抓取模块20，用于抓取互联网上的网络资源；其中，上述网络资源包括：网页、帖子、微博、博客等。

优选地，在实际应用中，网络抓取模块20需要从文件***中获取以预定时间周期分割后的网络资源，其中，该文件***可以为分布式文件***（moosefs），也可以为普通的文件***。网络抓取模块20可以从moosefs上采集按一定切分周期（即上述预定时间周期）切分好的网络资源。在实际应用中，切分周期可以根据网络资源的种类（或者网络资源更新的速度）的不同进行不同的配置，以控制计算的周期。例如，由于BBS的网络资源更新较快，因此，BBS可以按小时对网络资源进行切分（即切分周期为一小时），由于BLOG的网络资源更新较慢，因此，BLOG可以按天对相关网络资源进行切分（即切分周期为一天24小时）。

优选地，上述装置还包括：过滤模块，用于在网络抓取模块20抓取互联网上的网络资源之后，对网络资源进行过滤；具体地，上述过滤模块具体包括以下至少之一：

1、域名过滤子模块，用于过滤域名（filter_host）：根据预先配置的域名列表，滤除非重点域名的网络资源，可以减少垃圾数据；

2、白名单过滤子模块，用于进行白名单过滤（filter_blog_list blog）：根据预先配置的网络白名单，保留与网络白名单相应的网络资源，例如，根据博客白名单，保留重点博客的数据；

3、浏览数过滤子模块，用于进行浏览数过滤（filter_viewcount）：根据网页的浏览数对网络资源进行过滤；例如，根据对网页或帖子的浏览数的多少，过滤出浏览数低于一定门限的网页或帖子，还需要过滤出浏览数高于一定门限的网页或帖子。例如，对浏览数为0或1的过滤掉；对浏览数为10000以上的过滤掉，浏览数为10000以上的大多为抓错或旧帖；

4、回复数过滤子模块，用于进行回复数过滤（filter_replycount）：根据新闻、博客、或者帖子的回复数对网络资源进行过滤；例如，如果对某个帖子的回复数大于10000以上的帖子进行过滤，大多为抓错或旧帖；

5、发布日期过滤子模块，用于进行发帖日期过滤（filter_publictime）：根据网页的发布日期对网络资源进行过滤；例如，将一天前的帖子进行过滤。

6、标题过滤子模块，用于过滤掉题目里的版块名称、说明、以及求助等无用前缀信息（filter_title）：即，对网络资源的标题中的无用信息进行过滤；

7、常用词过滤子模块，用于进行常用词过滤（filter_comm_word）：对网络资源中的常用词进行过滤，例如，对一些常用的、无意义的词进行过滤。

通过过滤模块对网络资源的过滤处理，能够过滤掉网络资源中大部分的干扰网络资源和垃圾网络资源，为下一步匹配打下良好的基础。

匹配模块22，用于采用LCS算法对网络资源进行匹配，获取匹配结果；

具体地，匹配模块22采用LCS算法对网络资源进行匹配，获取匹配结果具体包括如下处理：匹配模块22通过LCS算法，采用矩阵记录两个字符串中相应位置上的两个字符之间的匹配关系，并计算矩阵中对角线最长的匹配序列，根据匹配序列在矩阵中的位置，获取最长匹配子串的位置（即上述匹配结果）；

生成模块24，用于根据匹配结果生成热点词组。

具体地，生成模块24根据匹配模块22获取的最长匹配子串的位置（即，匹配结果）生成热点词组。

优选地，为了获取更准确的热点词组，生成模块24具体用于：设置采用LCS算法进行匹配时生成匹配结果所涉及网络资源的最少个数；获取所涉及网络资源的个数大于所述最少个数的匹配结果，并根据该匹配结果生成热点词组。

优选地，在本发明实施例中，热点聚合装置还包括：

存储模块，用于获取与各个热点词组相关的网络资源的标识，将每个热点词组以及与该热点词组相关的网络资源的标识作为一个热点组进行存储。其中，网络资源的标识可以为网络资源的链接、或者网络资源的统一资源定位符（Uniform/Universal Resource Locator，简称为URL）地址。当然，在本发明实施例中，也可以直接对相关的网络资源进行存储。

为了进一步对热点词组进行聚合，在本发明实施例中，优选地，匹配模块22还用于：在根据匹配结果生成热点词组之后，可以采用LCS算法对热点词组再次进行匹配，生成关键词组；随后，存储模块将每个关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源的标识作为一个热点组进行存储。

也就是说，匹配模块22将LCS算法计算出的最长匹配子串，做为分组词组，对同一组中的词组再使用LCS算法计算出关键词组，并将关键词组、与关键词组对应的所有热点词组、以及对应网络资源（网站、帖子、博客、以及微博等）的标识归为一个热点，作为一个热点组。

表1

字段名称	类型	约束	说明
				group_id	int(11)	主键	热点组id
keyword	varchar(255)		关键词组
				status	int(4)		状态
reg_time	datetime		入库时间
				mod_time	timestamp		修改时间
ext	tinyint(4)		扩展字段

表2

根据本发明实施例，热点聚合装置还包括：统计分析模块，用于对存储的热点组中的热点数据进行统计分析、展现、和/或查询。

具体地，在执行完上述处理后，统计分析模块可以对存储的热点组中的热点数据进行统计分析、展现、和/或提供查询服务。上述热点数据包括：关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源。

表3

图3是本发明实施例的热点聚合装置的详细结构示意图，如图3所示，根据本发明实施例的无词典的热点聚合装置，首先通过配置将moosefs中的网络资源进行切分（BLOG按照天进行切分，BBS按照小时进行切分），然后对数据进行过滤，通过LCS算法对过滤后的数据进行抓取，对讨论的热点话题进行聚合，计算出热点词组；随后，对热点词组进行分组归并，计算出对应的关键词组，最后，将计算出的热点词组、关键词组、以及热点事件（上述网络资源）存储到数据库（hotding）中；优选地，还可以根据hotding中存储的数据进行统计分析，例如，可以根据关键词组对应的相关帖数、浏览数、回复数、以及讨论数等对热点进行排序。根据本发明实施例的技术方案不采用分词技术，采用LCS算法对主题抽取关键词以及对关键词进行分组聚合，避免了分词带来的一些问题，例如，新词发现的滞后行、以及词典维护运营成本高等，本发明实施例的技术方案能够实时采集、实时计算，并快速地发现热点事件。

尽管为示例目的，已经公开了本发明的优选实施例，本领域的技术人员将意识到各种改进、增加和取代也是可能的，因此，本发明的范围应当不限于上述实施例。

应当注意的是，在本发明的控制器的各个部件中，根据其要实现的功能而对其中的部件进行了逻辑划分，但是，本发明不受限于此，可以根据需要对各个部件进行重新划分或者组合，例如，可以将一些部件组合为单个部件，或者可以将一些部件进一步分解为更多的子部件。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器（DSP）来实现根据本发明实施例的控制器中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序（例如，计算机程序和计算机程序产品）。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种网络热点聚合方法，其特征在于，包括：

抓取互联网上的网络资源；

抓取互联网上的网络资源之后，对所述网络资源进行过滤；

采用最长公共子序列LCS算法对所述网络资源进行匹配，获取匹配结果；

根据所述匹配结果生成热点词组；

在根据匹配结果生成热点词组之后，可以采用LCS算法对热点词组再次进行匹配，生成关键词组；随后，将每个关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源的标识作为一个热点组进行存储；

对存储的热点组中的热点数据进行统计分析、展现、和/或提供查询服务；

其中，对网络资源进行过滤的处理具体包括以下至少之一：

filter_host过滤域名：根据预先配置的域名列表，滤除非重点域名的网络资源；filter_blog_list blog白名单过滤：根据预先配置的网络白名单，保留与网络白名单相应的网络资源；filter_viewcount浏览数过滤：根据网页的浏览数对网络资源进行过滤；filter_replycount回复数过滤：根据新闻、博客、或者帖子的回复数对网络资源进行过滤；filter_publictime发帖日期过滤：根据网页的发布日期对网络资源进行过滤；filter_title过滤掉题目里的版块名称、说明、以及求助等无用前缀信息；filter_comm_word常用词过滤：对网络资源中的常用词进行过滤。

2.如权利要求1所述的方法，其特征在于，根据所述匹配结果生成热点词组具体包括：

设置采用LCS算法进行匹配时生成匹配结果所涉及网络资源的最少个数；

获取所涉及网络资源的个数大于所述最少个数的匹配结果，并根据该匹配结果生成热点词组。

3.如权利要求1所述的方法，其特征在于，所述抓取互联网上的网络资源具体包括：

从分布式文件***中获取以预定时间周期分割后的网络资源。

4.如权利要求1所述的方法，其特征在于，

采用LCS算法对所述网络资源进行匹配，获取匹配结果具体包括：

通过所述LCS算法，采用矩阵记录两个字符串中相应位置上的两个字符之间的匹配关系，并计算所述矩阵中对角线最长的匹配序列，根据所述匹配序列在所述矩阵中的位置，获取最长匹配子串的位置；

根据所述匹配结果生成热点词组具体包括：

根据所述最长匹配子串的位置生成热点词组。

5.一种热点聚合装置，其特征在于，包括：

网络抓取模块，用于抓取互联网上的网络资源；

过滤模块，用于在所述网络抓取模块抓取互联网上的网络资源之后，对所述网络资源进行过滤；

匹配模块，用于采用最长公共子序列LCS算法对所述网络资源进行匹配，获取匹配结果；

生成模块，用于根据所述匹配结果生成热点词组；

所述匹配模块还用于：采用LCS算法对所述热点词组再次进行匹配，生成关键词组；

存储模块，用于将每个关键词组、与所述关键词组相对应的热点词组、以及与所述热点词组相关的网络资源的标识作为一个热点组进行存储；

统计分析模块，用于对存储的所述热点组中的热点数据进行统计分析、展现、和/或查询；

其中，所述过滤模块具体包括以下至少之一：

域名过滤子模块，用于根据预先配置的域名列表，滤除指定域名的网络资源；白名单过滤子模块，用于根据预先配置的网络白名单，保留与所述网络白名单相应的网络资源；浏览数过滤子模块，用于根据网页的浏览数对所述网络资源进行过滤；发布日期过滤子模块，用于根据网页的发布日期对所述网络资源进行过滤；回复数过滤子模块，用于根据新闻、博客、或者帖子的回复数对所述网络资源进行过滤；标题过滤子模块，用于对所述网络资源的标题中的无用信息进行过滤；常用词过滤子模块，用于对所述网络资源中的常用词进行过滤。

6.如权利要求5所述的装置，其特征在于，所述生成模块具体用于：

7.如权利要求5所述的装置，其特征在于，所述网络抓取模块具体用于：从分布式文件***中获取以预定时间周期分割后的网络资源。

8.如权利要求5所述的装置，其特征在于，

所述匹配模块具体用于：通过所述LCS算法，采用矩阵记录两个字符串中相应位置上的两个字符之间的匹配关系，并计算所述矩阵中对角线最长的匹配序列，根据所述匹配序列在所述矩阵中的位置，获取最长匹配子串的位置；

所述生成模块具体用于：根据所述最长匹配子串的位置生成热点词组。