CN102710795B - 热点聚合方法及装置 - Google Patents

热点聚合方法及装置 Download PDF

Info

Publication number
CN102710795B
CN102710795B CN201210210038.2A CN201210210038A CN102710795B CN 102710795 B CN102710795 B CN 102710795B CN 201210210038 A CN201210210038 A CN 201210210038A CN 102710795 B CN102710795 B CN 102710795B
Authority
CN
China
Prior art keywords
internet resources
focus
phrase
matching result
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210210038.2A
Other languages
English (en)
Other versions
CN102710795A (zh
Inventor
马良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201210210038.2A priority Critical patent/CN102710795B/zh
Priority to CN201510007096.9A priority patent/CN104462613B/zh
Publication of CN102710795A publication Critical patent/CN102710795A/zh
Priority to PCT/CN2013/077100 priority patent/WO2013189254A1/zh
Priority to US14/409,859 priority patent/US20150341771A1/en
Application granted granted Critical
Publication of CN102710795B publication Critical patent/CN102710795B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W8/00Network data management
    • H04W8/005Discovery of network devices, e.g. terminals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种热点聚合方法及装置。该方法包括:抓取互联网上的网络资源;采用最长公共子序列LCS算法对网络资源进行匹配,获取匹配结果;根据匹配结果生成热点词组。借助于本发明的技术方案,能够降低运维成本和热点聚合计算的复杂度,提高了热点聚合的速度,能够实时采集,实时计算,快速发现热点事件,基本没有滞后。

Description

热点聚合方法及装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种热点聚合方法及装置。
背景技术
在现有技术中,热点聚合方法可以应用在电子布告栏***(Bulletin BoardSystem,简称为BBS)和博客(BLOG)上,也可以应用在网页、新闻、以及微博等数据上。
目前,各搜索引擎都会提供热榜之类的产品,例如,百度的搜索风云榜,搜搜的热榜等,在现有技术中,热点聚合的实现方法基本有两种:
方法1,利用用户的查询日志,按周期进行统计,对查询串进行分词,提取关键词,根据查询次数排序得到热词榜。
方法2,对网页标题或内容进行中心词的抽取,按中心词进行聚合,计算出热点事件。
方法1是基于统计进行热点事件计算的,因而会有一定的滞后性,不能及时发现热点事件。此外,上述两种方法都基于分词技术,而分词是基于词典的,而利用分词技术本身就会对新词的发现有一定的滞后性,从而会导致一些新的热词及热门事件不能及时发现,此外,上述两种方法的效果太过依赖于分词技术,需要进行词典维护,还具有一定的运维成本。
发明内容
本发明提供一种热点聚合方法及装置,以解决现有技术中通过分词技术进行热点聚合而导致的热点词发现滞后、以及进行词典维护的运维成本高的问题。
本发明提供一种热点聚合方法,包括:抓取互联网上的网络资源;采用最长公共子序列(Longest Common Subsequence,简称为LCS)算法对网络资源进行匹配,获取匹配结果;根据匹配结果生成热点词组。
优选地,根据匹配结果生成热点词组具体包括:设置采用LCS算法进行匹配时生成匹配结果所涉及网络资源的最少个数;获取所涉及网络资源的个数大于最少个数的匹配结果,并根据该匹配结果生成热点词组。
优选地,抓取互联网上的网络资源具体包括:从分布式文件***中获取以预定时间周期分割后的网络资源。
优选地,抓取互联网上的网络资源之后,上述方法还包括:对网络资源进行过滤。
优选地,对网络资源进行过滤的处理具体包括以下至少之一:根据预先配置的域名列表,滤除非重点域名的网络资源;根据预先配置的网络白名单,保留与网络白名单相应的网络资源;根据网页的浏览数对网络资源进行过滤;根据网页的发布日期对网络资源进行过滤;根据新闻、博客、或者帖子的回复数对网络资源进行过滤;对网络资源的标题中的无用信息进行过滤;对网络资源中的常用词进行过滤。
优选地,根据匹配结果生成热点词组之后,上述方法还包括:获取与各个热点词组相关的网络资源的标识,并将每个热点词组以及与该热点词组相关的网络资源的标识作为一个热点组进行聚合存储。
优选地,采用LCS算法对网络资源进行匹配,获取匹配结果具体包括:通过LCS算法,采用矩阵记录两个字符串中相应位置上的两个字符之间的匹配关系,并计算矩阵中对角线最长的匹配序列,根据匹配序列在矩阵中的位置,获取最长匹配子串的位置;
优选地,根据匹配结果生成热点词组具体包括:根据最长匹配子串的位置生成热点词组。
优选地,根据匹配结果生成热点词组之后,上述方法还包括:采用LCS算法对热点词组再次进行匹配,生成关键词组;将每个热点词组以及与该热点词组相关的网络资源的标识作为一个热点组进行存储具体包括:将每个关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源的标识作为一个热点组进行存储。
优选地,在将热点组进行存储之后,上述方法还包括:对存储的热点组中的热点数据进行统计分析、展现、和/或查询。
本发明还提供了一种热点聚合装置,包括:网络抓取模块,用于抓取互联网上的网络资源;匹配模块,用于采用最长公共子序列LCS算法对网络资源进行匹配,获取匹配结果;生成模块,用于根据匹配结果生成热点词组。
优选地,生成模块具体用于:设置采用LCS算法进行匹配时生成匹配结果所涉及网络资源的最少个数;获取所涉及网络资源的个数大于最少个数的匹配结果,并根据该匹配结果生成热点词组。
优选地,获取模块具体用于:从分布式文件***中获取以预定时间周期分割后的网络资源。
优选地,上述装置还包括:过滤模块,用于在网络抓取模块抓取互联网上的网络资源之后,对网络资源进行过滤。
优选地,过滤模块具体包括以下至少之一:域名过滤子模块,用于根据预先配置的域名列表,滤除非重点域名的网络资源;白名单过滤子模块,用于根据预先配置的网络白名单,保留与网络白名单相应的网络资源;浏览数过滤子模块,用于根据网页的浏览数对网络资源进行过滤;发布日期过滤子模块,用于根据网页的发布日期对网络资源进行过滤;回复数过滤子模块,用于根据新闻、博客、或者帖子的回复数对网络资源进行过滤;标题过滤子模块,用于对网络资源的标题中的无用信息进行过滤;常用词过滤子模块,用于对网络资源中的常用词进行过滤。
优选地,上述装置还包括:存储模块,用于获取与各个热点词组相关的网络资源的标识,将每个热点词组以及与该热点词组相关的网络资源的标识作为一个热点组进行存储。
优选地,匹配模块具体用于:通过LCS算法,采用矩阵记录两个字符串中相应位置上的两个字符之间的匹配关系,并计算矩阵中对角线最长的匹配序列,根据匹配序列在矩阵中的位置,获取最长匹配子串的位置;生成模块具体用于:根据最长匹配子串的位置生成热点词组。
优选地,匹配模块还用于:采用LCS算法对热点词组再次进行匹配,生成关键词组;存储模块具体用于:将每个关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源的标识作为一个热点组进行存储。
优选地,上述装置还包括:统计分析模块,用于对存储的热点组中的热点数据进行统计分析、展现、和/或查询。
本发明有益效果如下:
通过利用LCS算法对网络资源进行热点聚合,解决了现有技术中通过分词技术进行热点聚合而导致的热点词发现滞后、以及进行词典维护的运维成本高的问题,能够降低运维成本和热点聚合计算的复杂度,提高了热点聚合的速度,能够实时采集,实时计算,快速发现热点事件,基本没有滞后。
附图说明
图1是本发明实施例的热点聚合方法的流程图;
图2是本发明实施例的热点聚合装置的结构示意图;
图3是本发明实施例的热点聚合装置的详细结构示意图。
具体实施方式
为了解决现有技术中通过分词技术进行热点聚合而导致的热点词发现滞后、以及进行词典维护的运维成本高的问题,本发明提供了一种热点聚合方法及装置,根据本发明实施例的无词典热点聚合方法,通过采用LCS技术对互联网上网页的主题在一定周期内进行聚合,可以快速发现本周期内发生的热点事件。以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
根据本发明的实施例,提供了一种热点聚合方法,图1是本发明实施例的热点聚合方法的流程图,如图1所示,根据本发明实施例的热点聚合方法包括如下处理:
步骤101,抓取互联网上的网络资源;其中,上述网络资源包括:网页、帖子、微博、博客等。
优选地,在实际应用中,需要从文件***中获取以预定时间周期分割后的网络资源,其中,该文件***可以为分布式文件***(moosefs),也可以为普通的文件***。在步骤101中,可以从moosefs上采集按一定切分周期(即上述预定时间周期)切分好的网络资源。在实际应用中,切分周期可以根据网络资源的种类(或者网络资源更新的速度)的不同进行不同的配置,以控制计算的周期。例如,由于BBS的网络资源更新较快,因此,BBS可以按小时对网络资源进行切分(即切分周期为一小时),由于BLOG的网络资源更新较慢,因此,BLOG可以按天对相关网络资源进行切分(即切分周期为一天24小时)。
此外,在抓取互联网上的网络资源之后,还可以对网络资源进行过滤。
具体地,对网络资源进行过滤的处理具体包括以下至少之一:
1、filter_host过滤域名:根据预先配置的域名列表,滤除非重点域名的网络资源,可以减少垃圾数据;
2、filter_blog_list blog白名单过滤:根据预先配置的网络白名单,保留与网络白名单相应的网络资源,例如,根据博客白名单,保留重点博客的数据;
3、filter_viewcount浏览数过滤:根据网页的浏览数对网络资源进行过滤;例如,根据对网页或帖子的浏览数的多少,过滤出浏览数低于一定门限的网页或帖子,还需要过滤出浏览数高于一定门限的网页或帖子。例如,对浏览数为0或1的过滤掉;对浏览数为10000以上的过滤掉,浏览数为10000以上的大多为抓错或旧帖;
4、filter_replycount回复数过滤:根据新闻、博客、或者帖子的回复数对网络资源进行过滤;例如,如果对某个帖子的回复数大于10000以上的帖子进行过滤,大多为抓错或旧帖;
5、filter _publictime发帖日期过滤:根据网页的发布日期对网络资源进行过滤;例如,将一天前的帖子进行过滤。
6、filter_title过滤掉题目里的版块名称、说明、以及求助等无用前缀信息:即,对网络资源的标题中的无用信息进行过滤;
7、filter_comm_word常用词过滤:对网络资源中的常用词进行过滤,例如,对一些常用的、无意义的词进行过滤。
通过上述网络资源的过滤处理,能够过滤掉网络资源中大部分的干扰网络资源和垃圾网络资源,为下一步匹配打下良好的基础。
步骤102,采用LCS算法对网络资源进行匹配,获取匹配结果;
具体地,在步骤201中,采用LCS算法对网络资源进行匹配,获取匹配结果具体包括如下处理:通过LCS算法,采用矩阵记录两个字符串中相应位置上的两个字符之间的匹配关系,并计算矩阵中对角线最长的匹配序列,根据匹配序列在矩阵中的位置,获取最长匹配子串的位置(即上述匹配结果);
例如,LCS算法使用一个矩阵来记录两个字符串中所有位置的两个字符之间的匹配情况,若是匹配则为1,否则为0。然后求出对角线最长的1序列,其对应的位置就是最长匹配子串的位置。需要说明的是,LCS是计算两个字符串相似程度的一种方法:LCS计算出的最长匹配子串越长,两个字符串越相似。所以,用它可以对相似主题进行聚集,用来达到发现相同主题的目的。
步骤103,根据匹配结果生成热点词组。
具体地,在步骤103中,根据步骤102中获取的最长匹配子串的位置(即,匹配结果)生成热点词组。
为了能够获取更准确的热点词组,在本发明实施例中,可以设置采用LCS算法进行匹配时生成匹配结果所涉及网络资源的最少个数,获取所涉及网络资源的个数大于最少个数的匹配结果,并根据该匹配结果生成热点词组。当然,判断是否构成热点词组的维度还有很多,例如,可以按照所涉及的网络资源数量的多少对热点词组进行排序等等。
优选地,在本发明实施例中,根据匹配结果生成热点词组之后,还可以获取与各个热点词组相关的网络资源的标识,并将每个热点词组以及与该热点词组相关的网络资源的标识作为一个热点组进行聚合存储。其中,网络资源的标识可以为网络资源的链接、或者网络资源的统一资源定位符(Uniform/Universal Resource Locator,简称为URL)地址。当然,在本发明实施例中,也可以直接对相关的网络资源进行存储。
为了进一步对热点词组进行聚合,在本发明实施例中,优选地,在根据匹配结果生成热点词组之后,可以采用LCS算法对热点词组再次进行匹配,生成关键词组;随后,将每个关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源的标识作为一个热点组进行存储。
也就是说,将LCS算法计算出的最长匹配子串,做为分组词组,对同一组中的词组再使用LCS算法计算出关键词组,并将关键词组、与关键词组对应的所有热点词组、以及对应网络资源(网站、帖子、博客、以及微博等)的标识归为一个热点,作为一个热点组。
在实际应用中,将每个关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源的标识作为一个热点组进行存储时,需要存储的关键词组的字段如表1所示,包括:热点组ID、关键词组、状态(用于标识关键词组是否有效)、入库存储时间、修改时间、以及扩展字段。
表1
  字段名称   类型   约束   说明
  group_id   int(11)   主键   热点组id
  keyword   varchar(255)   关键词组
  status   int(4)   状态
  reg_time   datetime   入库时间
  mod_time   timestamp   修改时间
  ext   tinyint(4)   扩展字段
需要存储的热点词组的字段如表2所示,包括:热点组ID、热点词组、入库存储时间、修改时间、以及扩展字段。如表1和表2所示,热点词组和关键词组通过热点组ID这个字段相对应。
表2
  字段名称   类型   约束   说明
  group_id   int(11)   索引   热点组id
  wordstr   varchar(255)   唯一索引   热点词组
  reg_time   datetime   入库时间
  mod_time   timestamp   修改时间
  ext   tinyint(4)   扩展字段
需要说明的是,在实际应用中,可能由于同一组中的热点词组比较少,不能再聚合出关键词组,因此,在一个热点组中可能出现只有热点词组,没有关键词组的情况。
优选地,执行完上述处理后,可以对存储的热点组中的热点数据进行统计分析、展现、和/或提供查询服务。上述热点数据包括:关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源。
具体地,在实际应用中,还需要记录如表3所示的热点趋势数据,包括:热点组ID、日期、对应帖子数、浏览数、回复数、热度值、BBS帖子质量、BBS帖子质量分数(pr_rank)、入库时间、修改时间、以及扩展字段。根据表3,周期内可以按照热点趋势排序统计热点,例如,按照热度值,相关帖数,浏览数,回复数等进行排序,可以查询热点组内对应词组、帖子,还可以画出热点趋势图、展现周期内热点的变化趋势。
表3
  字段名称   类型   约束   说明
  group_id   int(11)   索引   热点组id
  Date   varchar(255)   索引   日期
  num   int(11)   对应帖子数
  viewcount   int(11)   浏览数
  replycount   int(11)   回复数
  hot_num   int(11)   热度值
  quality   int(11)   质量
  score   int(11)   pr_rank
  reg_time   Datetime   入库时间
  mod_time   Timestamp   修改时间
  ext   tinyint(4)   扩展字段
综上所述,根据本发明实施例的无词典的热点聚合方法,首先需要通过LCS进行数据抓取,对讨论的热点话题进行聚合,随后,计算出热点对应的关键词组,优选地,还可以根据关键词组对应的相关帖数、浏览数、回复数、以及讨论数等对热点进行排序。根据本发明实施例的技术方案不采用分词技术,采用LCS算法对主题抽取关键词以及对关键词进行分组聚合,避免了分词带来的一些问题,例如,新词发现的滞后行、以及词典维护运营成本高等,本发明实施例的技术方案能够实时采集、实时计算,并快速地发现热点事件。
需要说明的是,本发明实施例的热点聚合方法可以应用在BBS、以及BLOG热点聚合上,需要基于BBS、以及BLOG进行数据抓取,并对讨论的话题进行聚合,计算出热点对应的关键词组,根据其对应的相关帖数,浏览数,回复数,讨论数等对热点进行排序,可以快速发现热点事件。本发明实施例的技术方案的应用并不只限定于BBS、以及BLOG数据,它同样可以应用在网页、新闻、以及微博等其他网络资源上。
借助于本发明实施例的上述技术方案,通过利用LCS算法对网络资源进行热点聚合,解决了现有技术中通过分词技术进行热点聚合而导致的热点词发现滞后、以及进行词典维护的运维成本高的问题,能够降低运维成本和计算的复杂度,提高了热点聚合的速度,能够实时采集,实时计算,快速发现热点事件,基本没有滞后。
根据本发明的实施例,提供了一种热点聚合装置,图2是本发明实施例的热点聚合装置的结构示意图,如图2所示,根据本发明实施例的热点聚合装置包括:网络抓取模块20、匹配模块22、以及生成模块24,以下对本发明实施例的各个模块进行详细的说明。
网络抓取模块20,用于抓取互联网上的网络资源;其中,上述网络资源包括:网页、帖子、微博、博客等。
优选地,在实际应用中,网络抓取模块20需要从文件***中获取以预定时间周期分割后的网络资源,其中,该文件***可以为分布式文件***(moosefs),也可以为普通的文件***。网络抓取模块20可以从moosefs上采集按一定切分周期(即上述预定时间周期)切分好的网络资源。在实际应用中,切分周期可以根据网络资源的种类(或者网络资源更新的速度)的不同进行不同的配置,以控制计算的周期。例如,由于BBS的网络资源更新较快,因此,BBS可以按小时对网络资源进行切分(即切分周期为一小时),由于BLOG的网络资源更新较慢,因此,BLOG可以按天对相关网络资源进行切分(即切分周期为一天24小时)。
优选地,上述装置还包括:过滤模块,用于在网络抓取模块20抓取互联网上的网络资源之后,对网络资源进行过滤;具体地,上述过滤模块具体包括以下至少之一:
1、域名过滤子模块,用于过滤域名(filter_host):根据预先配置的域名列表,滤除非重点域名的网络资源,可以减少垃圾数据;
2、白名单过滤子模块,用于进行白名单过滤(filter_blog_list blog):根据预先配置的网络白名单,保留与网络白名单相应的网络资源,例如,根据博客白名单,保留重点博客的数据;
3、浏览数过滤子模块,用于进行浏览数过滤(filter_viewcount):根据网页的浏览数对网络资源进行过滤;例如,根据对网页或帖子的浏览数的多少,过滤出浏览数低于一定门限的网页或帖子,还需要过滤出浏览数高于一定门限的网页或帖子。例如,对浏览数为0或1的过滤掉;对浏览数为10000以上的过滤掉,浏览数为10000以上的大多为抓错或旧帖;
4、回复数过滤子模块,用于进行回复数过滤(filter_replycount):根据新闻、博客、或者帖子的回复数对网络资源进行过滤;例如,如果对某个帖子的回复数大于10000以上的帖子进行过滤,大多为抓错或旧帖;
5、发布日期过滤子模块,用于进行发帖日期过滤(filter_publictime):根据网页的发布日期对网络资源进行过滤;例如,将一天前的帖子进行过滤。
6、标题过滤子模块,用于过滤掉题目里的版块名称、说明、以及求助等无用前缀信息(filter_title):即,对网络资源的标题中的无用信息进行过滤;
7、常用词过滤子模块,用于进行常用词过滤(filter_comm_word):对网络资源中的常用词进行过滤,例如,对一些常用的、无意义的词进行过滤。
通过过滤模块对网络资源的过滤处理,能够过滤掉网络资源中大部分的干扰网络资源和垃圾网络资源,为下一步匹配打下良好的基础。
匹配模块22,用于采用LCS算法对网络资源进行匹配,获取匹配结果;
具体地,匹配模块22采用LCS算法对网络资源进行匹配,获取匹配结果具体包括如下处理:匹配模块22通过LCS算法,采用矩阵记录两个字符串中相应位置上的两个字符之间的匹配关系,并计算矩阵中对角线最长的匹配序列,根据匹配序列在矩阵中的位置,获取最长匹配子串的位置(即上述匹配结果);
例如,LCS算法使用一个矩阵来记录两个字符串中所有位置的两个字符之间的匹配情况,若是匹配则为1,否则为0。然后求出对角线最长的1序列,其对应的位置就是最长匹配子串的位置。需要说明的是,LCS是计算两个字符串相似程度的一种方法:LCS计算出的最长匹配子串越长,两个字符串越相似。所以,用它可以对相似主题进行聚集,用来达到发现相同主题的目的。
生成模块24,用于根据匹配结果生成热点词组。
具体地,生成模块24根据匹配模块22获取的最长匹配子串的位置(即,匹配结果)生成热点词组。
优选地,为了获取更准确的热点词组,生成模块24具体用于:设置采用LCS算法进行匹配时生成匹配结果所涉及网络资源的最少个数;获取所涉及网络资源的个数大于所述最少个数的匹配结果,并根据该匹配结果生成热点词组。
优选地,在本发明实施例中,热点聚合装置还包括:
存储模块,用于获取与各个热点词组相关的网络资源的标识,将每个热点词组以及与该热点词组相关的网络资源的标识作为一个热点组进行存储。其中,网络资源的标识可以为网络资源的链接、或者网络资源的统一资源定位符(Uniform/Universal Resource Locator,简称为URL)地址。当然,在本发明实施例中,也可以直接对相关的网络资源进行存储。
为了进一步对热点词组进行聚合,在本发明实施例中,优选地,匹配模块22还用于:在根据匹配结果生成热点词组之后,可以采用LCS算法对热点词组再次进行匹配,生成关键词组;随后,存储模块将每个关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源的标识作为一个热点组进行存储。
也就是说,匹配模块22将LCS算法计算出的最长匹配子串,做为分组词组,对同一组中的词组再使用LCS算法计算出关键词组,并将关键词组、与关键词组对应的所有热点词组、以及对应网络资源(网站、帖子、博客、以及微博等)的标识归为一个热点,作为一个热点组。
在实际应用中,将每个关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源的标识作为一个热点组进行存储时,需要存储的关键词组的字段如表1所示,包括:热点组ID、关键词组、状态(用于标识关键词组是否有效)、入库存储时间、修改时间、以及扩展字段。
表1
  字段名称   类型   约束   说明
  group_id   int(11)   主键   热点组id
  keyword   varchar(255)   关键词组
  status   int(4)   状态
  reg_time   datetime   入库时间
  mod_time   timestamp   修改时间
  ext   tinyint(4)   扩展字段
需要存储的热点词组的字段如表2所示,包括:热点组ID、热点词组、入库存储时间、修改时间、以及扩展字段。如表1和表2所示,热点词组和关键词组通过热点组ID这个字段相对应。
表2
  字段名称   类型   约束   说明
  group_id   int(11)   索引   热点组id
  wordstr   varchar(255)   唯一索引   热点词组
  reg_time   datetime   入库时间
  mod_time   timestamp   修改时间
  ext   tinyint(4)   扩展字段
需要说明的是,在实际应用中,可能由于同一组中的热点词组比较少,不能再聚合出关键词组,因此,在一个热点组中可能出现只有热点词组,没有关键词组的情况。
根据本发明实施例,热点聚合装置还包括:统计分析模块,用于对存储的热点组中的热点数据进行统计分析、展现、和/或查询。
具体地,在执行完上述处理后,统计分析模块可以对存储的热点组中的热点数据进行统计分析、展现、和/或提供查询服务。上述热点数据包括:关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源。
具体地,在实际应用中,还需要记录如表3所示的热点趋势数据,包括:热点组ID、日期、对应帖子数、浏览数、回复数、热度值、BBS帖子质量、BBS帖子质量分数(pr_rank)、入库时间、修改时间、以及扩展字段。根据表3,周期内可以按照热点趋势排序统计热点,例如,按照热度值,相关帖数,浏览数,回复数等进行排序,可以查询热点组内对应词组、帖子,还可以画出热点趋势图、展现周期内热点的变化趋势。
表3
  字段名称   类型   约束   说明
  group_id   int(11)   索引   热点组id
  Date   varchar(255)   索引   日期
  num   int(11)   对应帖子数
  viewcount   int(11)   浏览数
  replycount   int(11)   回复数
  hot_num   int(11)   热度值
  quality   int(11)   质量
  score   int(11)   pr_rank
  reg_time   Datetime   入库时间
  mod_time   Timestamp   修改时间
  ext   tinyint(4)   扩展字段
图3是本发明实施例的热点聚合装置的详细结构示意图,如图3所示,根据本发明实施例的无词典的热点聚合装置,首先通过配置将moosefs中的网络资源进行切分(BLOG按照天进行切分,BBS按照小时进行切分),然后对数据进行过滤,通过LCS算法对过滤后的数据进行抓取,对讨论的热点话题进行聚合,计算出热点词组;随后,对热点词组进行分组归并,计算出对应的关键词组,最后,将计算出的热点词组、关键词组、以及热点事件(上述网络资源)存储到数据库(hotding)中;优选地,还可以根据hotding中存储的数据进行统计分析,例如,可以根据关键词组对应的相关帖数、浏览数、回复数、以及讨论数等对热点进行排序。根据本发明实施例的技术方案不采用分词技术,采用LCS算法对主题抽取关键词以及对关键词进行分组聚合,避免了分词带来的一些问题,例如,新词发现的滞后行、以及词典维护运营成本高等,本发明实施例的技术方案能够实时采集、实时计算,并快速地发现热点事件。
需要说明的是,本发明实施例的热点聚合方法可以应用在BBS、以及BLOG热点聚合上,需要基于BBS、以及BLOG进行数据抓取,并对讨论的话题进行聚合,计算出热点对应的关键词组,根据其对应的相关帖数,浏览数,回复数,讨论数等对热点进行排序,可以快速发现热点事件。本发明实施例的技术方案的应用并不只限定于BBS、以及BLOG数据,它同样可以应用在网页、新闻、以及微博等其他网络资源上。
借助于本发明实施例的上述技术方案,通过利用LCS算法对网络资源进行热点聚合,解决了现有技术中通过分词技术进行热点聚合而导致的热点词发现滞后、以及进行词典维护的运维成本高的问题,能够降低运维成本和计算的复杂度,提高了热点聚合的速度,能够实时采集,实时计算,快速发现热点事件,基本没有滞后。
尽管为示例目的,已经公开了本发明的优选实施例,本领域的技术人员将意识到各种改进、增加和取代也是可能的,因此,本发明的范围应当不限于上述实施例。
应当注意的是,在本发明的控制器的各个部件中,根据其要实现的功能而对其中的部件进行了逻辑划分,但是,本发明不受限于此,可以根据需要对各个部件进行重新划分或者组合,例如,可以将一些部件组合为单个部件,或者可以将一些部件进一步分解为更多的子部件。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的控制器中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (8)

1.一种网络热点聚合方法,其特征在于,包括:
抓取互联网上的网络资源;
抓取互联网上的网络资源之后,对所述网络资源进行过滤;
采用最长公共子序列LCS算法对所述网络资源进行匹配,获取匹配结果;
根据所述匹配结果生成热点词组;
在根据匹配结果生成热点词组之后,可以采用LCS算法对热点词组再次进行匹配,生成关键词组;随后,将每个关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源的标识作为一个热点组进行存储;
对存储的热点组中的热点数据进行统计分析、展现、和/或提供查询服务;
其中,对网络资源进行过滤的处理具体包括以下至少之一:
filter_host过滤域名:根据预先配置的域名列表,滤除非重点域名的网络资源;filter_blog_list blog白名单过滤:根据预先配置的网络白名单,保留与网络白名单相应的网络资源;filter_viewcount浏览数过滤:根据网页的浏览数对网络资源进行过滤;filter_replycount回复数过滤:根据新闻、博客、或者帖子的回复数对网络资源进行过滤;filter_publictime发帖日期过滤:根据网页的发布日期对网络资源进行过滤;filter_title过滤掉题目里的版块名称、说明、以及求助等无用前缀信息;filter_comm_word常用词过滤:对网络资源中的常用词进行过滤。
2.如权利要求1所述的方法,其特征在于,根据所述匹配结果生成热点词组具体包括:
设置采用LCS算法进行匹配时生成匹配结果所涉及网络资源的最少个数;
获取所涉及网络资源的个数大于所述最少个数的匹配结果,并根据该匹配结果生成热点词组。
3.如权利要求1所述的方法,其特征在于,所述抓取互联网上的网络资源具体包括:
从分布式文件***中获取以预定时间周期分割后的网络资源。
4.如权利要求1所述的方法,其特征在于,
采用LCS算法对所述网络资源进行匹配,获取匹配结果具体包括:
通过所述LCS算法,采用矩阵记录两个字符串中相应位置上的两个字符之间的匹配关系,并计算所述矩阵中对角线最长的匹配序列,根据所述匹配序列在所述矩阵中的位置,获取最长匹配子串的位置;
根据所述匹配结果生成热点词组具体包括:
根据所述最长匹配子串的位置生成热点词组。
5.一种热点聚合装置,其特征在于,包括:
网络抓取模块,用于抓取互联网上的网络资源;
过滤模块,用于在所述网络抓取模块抓取互联网上的网络资源之后,对所述网络资源进行过滤;
匹配模块,用于采用最长公共子序列LCS算法对所述网络资源进行匹配,获取匹配结果;
生成模块,用于根据所述匹配结果生成热点词组;
所述匹配模块还用于:采用LCS算法对所述热点词组再次进行匹配,生成关键词组;
存储模块,用于将每个关键词组、与所述关键词组相对应的热点词组、以及与所述热点词组相关的网络资源的标识作为一个热点组进行存储;
统计分析模块,用于对存储的所述热点组中的热点数据进行统计分析、展现、和/或查询;
其中,所述过滤模块具体包括以下至少之一:
域名过滤子模块,用于根据预先配置的域名列表,滤除指定域名的网络资源;白名单过滤子模块,用于根据预先配置的网络白名单,保留与所述网络白名单相应的网络资源;浏览数过滤子模块,用于根据网页的浏览数对所述网络资源进行过滤;发布日期过滤子模块,用于根据网页的发布日期对所述网络资源进行过滤;回复数过滤子模块,用于根据新闻、博客、或者帖子的回复数对所述网络资源进行过滤;标题过滤子模块,用于对所述网络资源的标题中的无用信息进行过滤;常用词过滤子模块,用于对所述网络资源中的常用词进行过滤。
6.如权利要求5所述的装置,其特征在于,所述生成模块具体用于:
设置采用LCS算法进行匹配时生成匹配结果所涉及网络资源的最少个数;
获取所涉及网络资源的个数大于所述最少个数的匹配结果,并根据该匹配结果生成热点词组。
7.如权利要求5所述的装置,其特征在于,所述网络抓取模块具体用于:从分布式文件***中获取以预定时间周期分割后的网络资源。
8.如权利要求5所述的装置,其特征在于,
所述匹配模块具体用于:通过所述LCS算法,采用矩阵记录两个字符串中相应位置上的两个字符之间的匹配关系,并计算所述矩阵中对角线最长的匹配序列,根据所述匹配序列在所述矩阵中的位置,获取最长匹配子串的位置;
所述生成模块具体用于:根据所述最长匹配子串的位置生成热点词组。
CN201210210038.2A 2012-06-20 2012-06-20 热点聚合方法及装置 Expired - Fee Related CN102710795B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201210210038.2A CN102710795B (zh) 2012-06-20 2012-06-20 热点聚合方法及装置
CN201510007096.9A CN104462613B (zh) 2012-06-20 2012-06-20 热点聚合方法及装置
PCT/CN2013/077100 WO2013189254A1 (zh) 2012-06-20 2013-06-09 热点聚合方法及装置
US14/409,859 US20150341771A1 (en) 2012-06-20 2013-06-09 Hotspot aggregation method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210210038.2A CN102710795B (zh) 2012-06-20 2012-06-20 热点聚合方法及装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201510007096.9A Division CN104462613B (zh) 2012-06-20 2012-06-20 热点聚合方法及装置

Publications (2)

Publication Number Publication Date
CN102710795A CN102710795A (zh) 2012-10-03
CN102710795B true CN102710795B (zh) 2015-02-11

Family

ID=46903341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210210038.2A Expired - Fee Related CN102710795B (zh) 2012-06-20 2012-06-20 热点聚合方法及装置

Country Status (3)

Country Link
US (1) US20150341771A1 (zh)
CN (1) CN102710795B (zh)
WO (1) WO2013189254A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102710795B (zh) * 2012-06-20 2015-02-11 北京奇虎科技有限公司 热点聚合方法及装置
US9094461B2 (en) * 2012-10-19 2015-07-28 Google Inc. Filtering a stream of content
CN103188347B (zh) * 2013-03-15 2016-03-30 亿赞普(北京)科技有限公司 互联网事件分析方法与装置
CN103455572B (zh) * 2013-08-20 2016-10-05 北京奇虎科技有限公司 获取网页中影视主体的方法及装置
CN103455758A (zh) * 2013-08-22 2013-12-18 北京奇虎科技有限公司 恶意网站的识别方法及装置
CN103761234A (zh) * 2013-10-29 2014-04-30 北京奇虎科技有限公司 一种用于优化网络资源点的搜索排名的方法和装置
CN103605670B (zh) * 2013-10-29 2017-03-29 北京奇虎科技有限公司 一种用于确定网络资源点的抓取频率的方法和装置
CN106708816B (zh) * 2015-07-16 2019-12-10 北京国双科技有限公司 网页解析中网页正文重复内容的处理方法及装置
CN105491117B (zh) * 2015-11-26 2018-12-21 北京航空航天大学 面向实时数据分析的流式图数据处理***及方法
CN109408794A (zh) * 2017-08-17 2019-03-01 阿里巴巴集团控股有限公司 一种频次词典建立方法、分词方法、服务器和客户端设备
CN109271495B (zh) * 2018-08-14 2023-02-17 创新先进技术有限公司 问答识别效果检测方法、装置、设备及可读存储介质
TWI752822B (zh) * 2021-02-09 2022-01-11 阿物科技股份有限公司 有價字詞萃取及形成有價字詞網之方法及其系統
CN113051912B (zh) * 2021-04-08 2023-01-20 云南电网有限责任公司电力科学研究院 一种基于成词率的领域词识别方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246499A (zh) * 2008-03-27 2008-08-20 腾讯科技(深圳)有限公司 网络信息搜索方法及***
CN102163198A (zh) * 2010-02-24 2011-08-24 北京搜狗科技发展有限公司 提供新词或热词的方法及***

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6873982B1 (en) * 1999-07-16 2005-03-29 International Business Machines Corporation Ordering of database search results based on user feedback
US7580972B2 (en) * 2001-12-12 2009-08-25 Valve Corporation Method and system for controlling bandwidth on client and server
US8346754B2 (en) * 2008-08-19 2013-01-01 Yahoo! Inc. Generating succinct titles for web URLs
TW201025035A (en) * 2008-12-18 2010-07-01 Univ Nat Taiwan Analysis algorithm of time series word summary and story plot evolution
CN102710795B (zh) * 2012-06-20 2015-02-11 北京奇虎科技有限公司 热点聚合方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246499A (zh) * 2008-03-27 2008-08-20 腾讯科技(深圳)有限公司 网络信息搜索方法及***
CN102163198A (zh) * 2010-02-24 2011-08-24 北京搜狗科技发展有限公司 提供新词或热词的方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
聚类算法在Web挖掘中的应用;范明;《中国优秀硕士学位论文全文数据库信息科技辑》;20070630;摘要、第29页倒数第5行至第30页第最后1行、第33页倒数第4行至最后1行、第38页第8行至第39页最后1行 *

Also Published As

Publication number Publication date
CN102710795A (zh) 2012-10-03
WO2013189254A1 (zh) 2013-12-27
US20150341771A1 (en) 2015-11-26

Similar Documents

Publication Publication Date Title
CN102710795B (zh) 热点聚合方法及装置
CN102930059B (zh) 一种聚焦爬虫的设计方法
CN102761627B (zh) 基于终端访问统计的云网址推荐方法及***及相关设备
CN106484828B (zh) 一种分布式互联网数据快速采集***及采集方法
CN101937469B (zh) 视频网站的信息抓取方法
CN103927370B (zh) 一种组合文字和图片信息的网络资讯批量采集方法
CN100405371C (zh) 一种提取新词的方法和***
CN106095979B (zh) Url合并处理方法和装置
CN104077402B (zh) 数据处理方法和数据处理***
US20020129011A1 (en) System for collecting specific information from several sources of unstructured digitized data
CN1955963A (zh) 用于搜索电子文档中的日期的***和方法
CN102567494B (zh) 网站分类方法及装置
CN101329687A (zh) 一种新闻网页定位方法
CN103116635B (zh) 面向领域的暗网资源采集方法和***
CN105512143A (zh) 一种网页分类方法及装置
CN101963965A (zh) 基于搜索引擎的文档索引方法、数据查询方法及服务器
CN104615627A (zh) 一种基于微博平台的事件舆情信息提取方法及***
CN104391978A (zh) 用于浏览器的网页收藏处理方法及装置
CN103530336A (zh) 统一资源定位符url中无效参数的识别设备及方法
CN103177022A (zh) 一种恶意文件搜索方法及装置
CN102622402B (zh) 使用页面集而提供信息搜索服务的服务器、方法和***
CN103530337A (zh) 识别统一资源定位符url中无效参数的设备及方法
CN102937977A (zh) 一种搜索服务器及搜索方法
CN104462613A (zh) 热点聚合方法及装置
CN105005619A (zh) 一种海量网站基础信息的快速检索方法和***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: QIZHI SOFTWARE (BEIJING) CO., LTD.

Effective date: 20120910

Owner name: BEIJING QIHU TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: QIZHI SOFTWARE (BEIJING) CO., LTD.

Effective date: 20120910

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100016 CHAOYANG, BEIJING TO: 100088 XICHENG, BEIJING

TA01 Transfer of patent application right

Effective date of registration: 20120910

Address after: 100088 Beijing city Xicheng District xinjiekouwai Street 28, block D room 112 (Desheng Park)

Applicant after: Beijing Qihu Technology Co., Ltd.

Applicant after: Qizhi Software (Beijing) Co., Ltd.

Address before: The 4 layer 100016 unit of Beijing city Chaoyang District Jiuxianqiao Road No. 14 Building C

Applicant before: Qizhi Software (Beijing) Co., Ltd.

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150211

Termination date: 20210620

CF01 Termination of patent right due to non-payment of annual fee