CN104216928A - 站点信息获取方法及装置 - Google Patents

站点信息获取方法及装置 Download PDF

Info

Publication number
CN104216928A
CN104216928A CN201310222196.4A CN201310222196A CN104216928A CN 104216928 A CN104216928 A CN 104216928A CN 201310222196 A CN201310222196 A CN 201310222196A CN 104216928 A CN104216928 A CN 104216928A
Authority
CN
China
Prior art keywords
information
search results
site
works
information acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310222196.4A
Other languages
English (en)
Inventor
高健
牛小彬
章云龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310222196.4A priority Critical patent/CN104216928A/zh
Publication of CN104216928A publication Critical patent/CN104216928A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种站点信息获取方法,所述方法包括:以基础数据集合中的元素的关键词进行搜索,并获取相应的搜索结果;根据所述搜索结果中的页面链接信息获取相应站点的页面中的预定部分信息;将与所述页面链接信息对应的站点标识和所述预定部分信息整理成相应的数据记录,并根据所述数据记录生成站点信息获取结果。本发明实施例还公开了一种信息挖掘装置。本发明实施例能够自动地查找出符合要求的站点信息,不需要耗费太多的人力。

Description

站点信息获取方法及装置
【技术领域】
本发明涉及计算机技术领域,特别涉及一种站点信息获取方法及装置。
【背景技术】
为了查找出具有众多小说的网站,传统的技术方案有以下两种:
一、在Hub(枢纽)页面(例如,http://www.hao123.com/)中通过人工查找的方式查找上述具有众多小说的站点;
二、在搜索引擎页面(例如,http://www.***.com/)上通过人工搜索的方式获取上述具有众多小说的站点。
在实践中,发明人发现现有技术至少存在以下问题:
针对上述第一点,Hub页面中包含的小说数量较少,无法找到具有众多小说的站点;
针对上述第二点,通过人工搜索的方式耗费的人力成本太高。
综上,传统的技术方案一般都需要人工查找才能获取符合要求的信息,无法实现自动地查找出符合要求的信息。
故,有必要提出一种新的技术方案,以解决上述技术问题。
【发明内容】
本发明的目的在于提供一种站点信息获取方法和装置,其能自动地查找出符合要求的站点信息,不需要耗费太多的人力。
为解决上述技术问题,本发明实施例的技术方案如下:
一种站点信息获取方法,所述方法包括:以基础数据集合中的元素的关键词进行搜索,并获取相应的搜索结果;根据所述搜索结果中的页面链接信息获取相应站点的页面中的预定部分信息;将与所述页面链接信息对应的站点标识和所述预定部分信息整理成相应的数据记录,并根据所述数据记录生成站点信息获取结果。
一种站点信息获取装置,所述装置包括:搜索模块,用于以基础数据集合中的元素的关键词进行搜索,并获取相应的搜索结果;获取模块,用于根据所述搜索结果中的页面链接信息获取相应站点的页面中的预定部分信息;整理模块,用于将与所述页面链接信息对应的站点标识和所述预定部分信息整理成相应的数据记录,并用于根据所述数据记录生成站点信息获取结果。
相对现有技术,本发明实施例由于利用了搜索模块、抓取模块和整理模块的组合来挖掘互联网上的站点信息,因此可以实现自动地挖掘互联网上的站点信息,操作者只需提供初始数据(例如,几部小说的信息)即可挖掘出符合要求(具有众多小说)的站点信息),在挖掘该站点信息的过程中不需要耗费太多的人力。
为让本发明的上述内容能更明显易懂,下文特举优选实施例,并配合所附图式,作详细说明如下:
【附图说明】
图1为本发明实施例的站点信息获取方法和装置的运行环境示意图;
图2是本发明的站点信息获取装置的第一实施例的框图;
图3是本发明的站点信息获取装置的第三实施例的框图;
图4是本发明的站点信息获取装置的第四实施例的框图;
图5是本发明的站点信息获取装置的第五实施例的框图;
图6是本发明的站点信息获取装置的第六实施例的框图;
图7是本发明的站点信息获取方法的第一实施例的流程图;
图8是本发明的站点信息获取方法的第二实施例的流程图;
图9是本发明的站点信息获取方法的第三实施例的流程图;
图10是本发明的站点信息获取方法的第四实施例的流程图;
图11是本发明的站点信息获取方法的第五实施例的流程图;
图12是本发明的站点信息获取方法的第六实施例的流程图。
【具体实施方式】
以下各实施例的说明是参考附加的图式,用以例示本发明可用以实施的特定实施例。
在以下的说明中,本发明的具体实施例将参考由一部或多部计算机/移动设备所执行的作业的步骤及符号来说明,除非另有述明。因此,其将可了解到这些步骤及操作,其中有数次提到为由计算机/移动设备执行,包括了由代表了以一结构化型式中的数据的电子信号的计算机/移动设备处理单元所操纵。此操纵转换该数据或将其维持在该计算机/移动设备的内存***中的位置处,其可重新配置或另外以本领域技术人员所熟知的方式来改变该计算机/移动设备的运作。该数据所维持的数据结构为该内存的实***置,其具有由该数据格式所定义的特定特性。但是,本发明原理以上述文字来说明,其并不代表为一种限制,本领域技术人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本发明的原理使用许多其它泛用性或特定目的运算、通信环境或组态来进行作业。所熟知适合用于本发明实施例的运算***、环境与组态的范例可包括(但不限于)平板电脑、移动电话、个人计算机、服务器、多处理器***、微电脑为主的***、主架构型计算机、及分布式运算环境,其中包括了任何的上述***或装置。
如在此处使用的术语“模块”或“单元”可称之为在该运算***上执行的软件对象或例式。在此处所述的不同组件、模块、引擎及服务可实施为在该运算***上执行的对象或处理。而在此处所述的***及方法优选地是实施成软件,在软件及硬件或硬件上的实施亦有可能并进行考虑。
参考图1,本发明实施例的站点信息获取方法及装置可以运行于计算机/移动设备中,该计算机可以是个人电脑、服务器等等中的一种或者一种以上组合而成的***,该移动设备可以是平板电脑、移动电话、PDA(PersonalDigital Assistant,个人数字助理)、笔记本电脑等等中的一种或者一种以上组合而成的***。该计算机/移动设备中可以包括处理器101、存储器102、传感器105、开关器件104、电源103、时钟信号生成器106、输入输出设备107等中的任意组合100。上述计算机/移动设备中的处理器101、存储器102、传感器105、开关器件104、电源103、时钟信号生成器106、输入输出设备107等中的任意组合100用于实现本发明实施例的站点信息获取方法中的步骤及站点信息获取装置中的功能。
在本实施例中,所述站点信息获取装置所对应的软件程序指令存储于存储器102中,并被处理器101执行,以实现操作***中的进程管理。
另外,上述存储器102计算机可读取的存储介质,该存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
参考图2,图2是本发明的站点信息获取装置100的第一实施例的框图。
本实施例的站点信息获取装置100包括搜索模块201、获取模块202和整理模块203。
其中,所述搜索模块201用于以基础数据集合中的元素的关键词进行搜索,并用于获取相应的搜索结果。所述搜索模块201可以在数据库中搜索所述关键词,也可以在互联网中搜索所述关键词。在本实施例中,所述基础数据集合包括文学作品集合、美术作品集合、音乐作品集合、影视作品集合中任意一者或一者以上的组合。所述基础数据集合是至少包括有N1个第一类型的作品和N2个第二类型的作品的集合,其中,N1、N2是正整数,即,所述基础数据集合是包括有至少一个第一类型的作品和至少一个第二类型的作品的集合,当然,所述基础数据集合还可以包括至少一个第三类型的作品。所述第一类型和所述第二类型与所述作品的受欢迎度(热门度)、畅销度、推荐度等等中的任意一者相关,例如,所述第一类型和所述第二类型分别是第一受欢迎度(最受欢迎)和第二受欢迎度(较受欢迎),或者,所述第一类型和所述第二类型分别是第一畅销度(最畅销)和第二畅销度(较畅销)。所述基础数据集合中的作品可以是由人工选取的方式来生成的,也可以是由计算机/移动设备自动选取的方式来生成的。例如,所述基础数据集合是包括有N1部最热门小说、N2部中等热门小说、N3部不热门小说等等的集合,其中,N3也是正整数。所述元素是所述基础数据集合中的每一个所述作品。所述作品可以是文学作品、美术作品、音乐作品、影视作品等等中的任意一者或一者以上的组合,即,所述作品包括文学作品、美术作品、音乐作品、影视作品中任意一者或一者以上的组合。
所述获取模块202用于根据所述搜索结果中的页面链接信息(例如,网址)获取相应站点的页面中的预定部分信息。具体地,在本实施例中,所述获取模块202用于对所述搜索结果中的每一条记录所对应的站点的页面进行分析(读取该页面中的代码并找出预定部分对应的位置),然后获取其中的预定部分信息,例如,标题信息,即,所述预定部分为所述站点的页面中的标题部分。
所述整理模块203用于将与所述页面链接信息对应的站点标识和所述预定部分信息整理成相应的数据记录,并用于根据所述数据记录生成站点信息获取结果。所述整理模块203还用于根据所述页面链接信息或所述预定部分信息获取与所述页面链接信息对应的站点标识(例如,从所述页面链接信息中获取域名或从所述预定部分信息中获取网站名)。具体地,所述整理模块203用于将每一所述页面链接信息所对应的站点标识(例如,网站名)和页面中的预定部分信息(例如,标题信息)整合成一条数据记录,并将多条此类的数据记录排列生成所述站点信息获取结果。
针对上述论述,下面举例说明:
在事先选取的小说集合(基础数据集合)中,所述搜索模块201对每一部小说,以与该小说相关的关键词在互联网中进行搜索,得到相关的搜索结果,所述搜索模块201将所得到的搜索结果发送给所述获取模块202。所述获取模块202针对该搜索结果中的每一条记录抓取页面链接信息(例如,网址),然后通过这个页面链接信息访问相关的网站,读取其中的页面代码,并找出预定部分信息(例如,标题信息),然后将所述页面链接信息和所述预定部分信息发送给所述整理模块203,例如,所述获取模块202根据该页面链接信息对站点的首页进行抓取,并提取超文本标记语言(Hyper Text Markup Language,HTML)中Title(标题)内容。所述整理模块203将所述页面链接信息和所述预定部分信息整合成一条数据记录,然后根据多条此类的数据记录生成站点信息获取结果,例如,生成诸如此类的数据:{站点1,标题1},{站点2,标题2},{站点3,标题3},并存储到相应的存储空间中。
在本实施例中,由于利用了搜索模块201、获取模块202和整理模块203的组合来挖掘互联网上的站点信息,因此可以实现自动地挖掘互联网上的站点信息,操作者只需提供初始数据(例如,几部小说的信息)即可挖掘出符合要求(具有众多小说)的站点信息,在挖掘该站点信息的过程中不需要耗费太多的人力。
进一步地,所述整理模块203还可以对所述页面链接信息进行整理,例如,在该网址包含较多字符的情况下,提取该网址中的域名信息并仅保留该域名信息,这样可以使得所挖掘的站点信息更加精简。
本发明的站点信息获取装置100的第二实施例与上述第一实施例相似,不同之处在于:
所述元素至少包括第一元素和第二元素,所述搜索结果至少包括与所述第一元素对应的第一搜索结果和与所述第二元素对应的第二搜索结果。在本实施例中,所述第一元素对应所述第一类型的作品,所述第二元素对应所述第二类型的作品。
所述搜索模块203还用于分别以所述第一元素的第一关键词和所述第二元素的第二关键词进行搜索,并用于分别获取所述第一搜索结果和所述第二搜索结果。
在本实施例的站点信息获取装置100中,所述第一关键词包括所述第一元素的至少两属性信息,所述第二关键词包括所述第二元素的至少两属性信息。所述第一元素的至少两属性信息包括作品名和作者名,所述第二元素的至少两属性信息包括作品名和作者名。
针对上述论述,下面举例说明:
所述搜索模块203分别以“小说1作者1”、“小说2作者2”和“小说3作者3”为关键词进行搜索,得到与“小说1作者1”相对应的第一搜索结果、与“小说2作者2”对应的第二搜索结果和与“小说3作者3”对应的第三搜索结果。
在本实施例中,由于所述搜索模块201分别利用至少两个元素的关键词来搜索,并分别获取相应的搜索结果,因此可以使得所获取的搜索结果多样化,从而使得所述获取模块202能够在更加多样化的数据基础上获取到更加多更加全的站点信息,确保了本实施例的站点信息获取装置100可以挖掘到更多的符合要求(具有众多小说)的站点信息。
参考图3,图3是本发明的站点信息获取装置100的第三实施例的框图。本实施例与上述第一或第二实施例相似,不同之处在于:
本实施例的站点信息获取装置100还包括第一提取模块301。
所述第一提取模块301用于提取所述第一搜索结果和所述第二搜索结果中的页面链接信息。具体地,所述第一提取模块301用于从所述搜索模块201中获取第一搜索结果和第二搜索结果中的每一条记录所对应的代码,然后从中找出与页面链接信息对应的部分,并从中提取相应的页面链接信息(例如,网址)。进一步的,所述第一提取模块301还用于在提取到多个页面链接信息后,对所提取到的页面链接信息进行比较,判断其中的域名是否相同,相同的多个页面链接信息仅保留其中一者,不同的多个页面链接信息则保留。
针对所述论述,下面举例说明:
所述第一提取模块301对搜索结果页面中的每条记录进行站点提取,生成数据:{小说1,{站点a,站点b,站点c,…}},{小说2,{站点a’,站点b’,站点c’,…}},{小说3,{站点a”,站点b”,站点c”,…}}。
在本实施例中,由于利用所述第一提取模块301来提取搜索结果中的页面链接信息,因此有利于所述获取模块202通过该页面链接信息来获取相应的站点中的信息。
参考图4,图4是本发明的站点信息获取装置100的第四实施例的框图。本实施例与上述第一、第二或第三实施例相似,不同之处在于:
本实施例的站点信息获取装置100还包括统计模块401和筛选模块402。
所述统计模块401用于针对与所述页面链接信息对应的站点,对所述元素的数量进行统计并生成统计结果。具体地,所述统计模块401用于对上述第一提取模块301所提取的页面链接信息所对应的站点的元素数量进行统计。
所述筛选模块402用于根据所述统计结果筛选所述数量大于预定值的元素所对应站点并生成筛选结果。具体地,所述预定值设定为M,M为正整数(例如,6),所述筛选模块402用于在接收到所述统计结果后根据所述统计结果判断哪些站点的小说数量大于M,保留其中在小说数量上大于M的站点的站点标识并将这些保留下来的站点标识生成所述筛选结果,其它的则丢弃。
所述获取模块202用于根据所述筛选结果分别获取其中相应站点的页面中的预定部分信息。
针对所述论述,下面举例说明:
所述统计模块401按照站点进行小说数量的统计,得到统计结果:{站点a,n1},{站点b,n2},{站点c,n3}。其中,n1,n2和n3分别是站点a,站点b和站点c的小说数量。所述筛选模块402从n1,n2和n3中筛选出大于M的数值,例如,n1和n3,对应的站点是站点a和站点c。
在本实施例中,通过对所述第一提取模块301所提取得到的页面链接信息进行统计和筛选,因此可以得到具有较多小说的站点。
参考图5,图5是本发明的站点信息获取装置100的第五实施例的框图。本实施例与上述第一至第四中任意一个实施例相似,不同之处在于:
本实施例的站点信息获取装置100还包括判断模块501。
所述判断模块501用于判断所述预定部分信息是否包含预定内容并生成判断结果。具体地,所述预定内容可以是诸如“小说”、“阅读”、“最新章节”等此类的词语。
所述整理模块203还用于在所述判断结果为所述预定部分信息不包含所述预定内容的情况下丢弃所述数据记录,以及用于在所述判断结果为所述预定部分信息包含所述预定内容的情况下保留所述数据记录。
针对所述论述,下面举例说明:
所述判断模块501判断所述站点对应的预定部分信息(例如,标题信息)中是否包含诸如“小说”、“阅读”、“最新章节”等中的一者的内容,如果站点的标题不包含其中的任一关键词,则放弃该站点,最终保留下的站点,即可作为新发现的小说站点。
在本实施例中,通过判断所述站点的预定部分信息是否包含预定内容,可以进一步判断所述站点是否是小说站点,若是小说站点,则保留,否则丢弃,这样有利于筛选出符合要求的站点。
参考图6,图6是本发明的站点信息获取装置100的第六实施例的框图。本实施例与上述第一至第五中任意一个实施例相似,不同之处在于:
本实施例的站点信息获取装置100还包括第二提取模块601。
所述第二提取模块601用于分别从所述第一元素和所述第二元素所对应的文件中提取至少两所述属性信息。具体地,所述第二提取模块601可以通过文字查找、识别的技术来提取第一元素和第二元素所对应的文件的至少两属性信息。
针对所述论述,下面举例说明:
所述第二提取模块601从操作人员提供或者机器随机选择的文件(例如,“.pdf”文档文件、“.doc”文档文件、“.mp3”音频文件、“.rmvb”影视文件)中提取相应的至少两属性信息,例如,关于文档名称、作者名的属性信息。
在本实施例中,通过第二提取模块601来提取基础数据集合中的元素的至少两属性信息,以作搜索的关键词之用途,有利于实现自动地挖掘上述站点信息。
参考图7,图7是本发明的站点信息获取方法的第一实施例的流程图。
本实施例的站点信息获取方法包括以下步骤:
步骤701,所述搜索模块201以基础数据集合中的元素的关键词进行搜索,并获取相应的搜索结果。所述搜索模块201可以在数据库中搜索所述关键词,也可以在互联网中搜索所述关键词。在本实施例中,所述基础数据集合包括文学作品集合、美术作品集合、音乐作品集合、影视作品集合中任意一者或一者以上的组合。所述基础数据集合是至少包括有N1个第一类型的作品和N2个第二类型的作品的集合,其中,N1、N2是正整数,即,所述基础数据集合是包括有至少一个第一类型的作品和至少一个第二类型的作品的集合,当然,所述基础数据集合还可以包括至少一个第三类型的作品。所述第一类型和所述第二类型与所述作品的受欢迎度(热门度)、畅销度、推荐度等等中的任意一者相关,例如,所述第一类型和所述第二类型分别是第一受欢迎度(最受欢迎)和第二受欢迎度(较受欢迎),或者,所述第一类型和所述第二类型分别是第一畅销度(最畅销)和第二畅销度(较畅销)。所述基础数据集合中的作品可以是由人工选取的方式来生成的,也可以是由计算机/移动设备自动选取的方式来生成的。例如,所述基础数据集合是包括有N1部最热门小说、N2部中等热门小说、N3部不热门小说等等的集合,其中,N3也是正整数。所述作品包括文学作品、美术作品、音乐作品、影视作品中任意一者或一者以上的组合。
步骤702,所述获取模块202根据所述搜索结果中的页面链接信息(例如,网址)获取相应站点的页面中的预定部分信息。具体地,在本实施例中,所述获取模块202对所述搜索结果中的每一条记录所对应的站点的页面进行分析(读取该页面中的代码并找出预定部分对应的位置),然后获取其中的预定部分信息,例如,标题信息,即,所述预定部分为所述站点的页面中的标题部分。
步骤703,所述整理模块203将与所述页面链接信息对应的站点标识和所述预定部分信息整理成相应的数据记录,并根据所述数据记录生成站点信息获取结果。所述整理模块203还用于根据所述页面链接信息或所述预定部分信息获取与所述页面链接信息对应的站点标识(例如,从所述页面链接信息中获取域名或从所述预定部分信息中获取网站名)。具体地,所述整理模块203将每一所述页面链接信息所对应的站点标识(例如,网站名)和页面中的预定部分信息(例如,标题信息)整合成一条数据记录,并将多条此类的数据记录排列生成所述站点信息获取结果。
针对上述论述,下面举例说明:
在步骤701,在事先选取的小说集合(基础数据集合)中,所述搜索模块201对每一部小说,以与该小说相关的关键词在互联网中进行搜索,得到相关的搜索结果,所述搜索模块201将所得到的搜索结果发送给所述获取模块202。在步骤702,所述获取模块202针对该搜索结果中的每一条记录抓取页面链接信息(例如,网址),然后通过这个页面链接信息访问相关的网站,读取其中的页面代码,并找出预定部分信息(例如,标题信息),然后将所述页面链接信息和所述预定部分信息发送给所述整理模块203,例如,所述获取模块202根据该页面链接信息对站点的首页进行抓取,并提取HTML(Hyper Text MarkupLanguage,超文本标记语言)中Title(标题)内容。在步骤703,所述整理模块203将所述页面链接信息和所述预定部分信息整合成一条数据记录,然后根据多条此类的数据记录生成站点信息获取结果,例如,生成诸如此类的数据:{站点1,标题1},{站点2,标题2},{站点3,标题3},并存储到相应的存储空间中。
在本实施例中,由于利用了搜索模块201、获取模块202和整理模块203的组合来挖掘互联网上的站点信息,因此可以实现自动地挖掘互联网上的站点信息,操作者只需提供初始数据(例如,几部小说的信息)即可挖掘出符合要求(具有众多小说)的站点信息,在挖掘该站点信息的过程中不需要耗费太多的人力。
进一步地,所述整理模块203还可以对所述页面链接信息进行整理,例如,在该网址包含较多字符的情况下,提取该网址中的域名信息并仅保留该域名信息,这样可以使得所挖掘的站点信息更加精简。
参考图8,图8是本发明的站点信息获取方法的第二实施例的流程图。本实施例与上述第一实施例相似,不同之处在于:
所述元素至少包括第一元素和第二元素,所述搜索结果至少包括与所述第一元素对应的第一搜索结果和与所述第二元素对应的第二搜索结果。在本实施例中,所述第一元素对应所述第一类型的作品,所述第二元素对应所述第二类型的作品。
所述以基础数据集合中的元素的关键词进行搜索,并获取相应的搜索结果的步骤(即,步骤701)包括:
步骤7011,所述搜索模块203分别以所述第一元素的第一关键词和所述第二元素的第二关键词进行搜索。
步骤7012,所述搜索模块203分别获取所述第一搜索结果和所述第二搜索结果。
在本实施例的站点信息获取装置100中,所述第一关键词包括所述第一元素的至少两属性信息,所述第二关键词包括所述第二元素的至少两属性信息。所述第一元素的至少两属性信息包括作品名和作者名,所述第二元素的至少两属性信息包括作品名和作者名。
针对上述论述,下面举例说明:
所述搜索模块203分别以“小说1作者1”、“小说2作者2”和“小说3作者3”为关键词进行搜索,得到与“小说1作者1”相对应的第一搜索结果、与“小说2作者2”对应的第二搜索结果和与“小说3作者3”对应的第三搜索结果。
在本实施例中,由于所述搜索模块201分别利用至少两个元素的关键词来搜索,并分别获取相应的搜索结果,因此可以使得所获取的搜索结果多样化,从而使得所述获取模块202能够在更加多样化的数据基础上获取到更加多更加全的站点信息,确保了本实施例的站点信息获取装置100可以挖掘到更多的符合要求(具有众多小说)的站点信息。
参考图9,图9是本发明的站点信息获取方法的第三实施例的流程图。本实施例与上述第一或第二实施例相似,不同之处在于:
在所述分别获取所述第一搜索结果和所述第二搜索结果的步骤(即,步骤7012)之后,以及在所述根据所述搜索结果中的页面链接信息获取相应站点的页面中的预定部分信息的步骤(即,步骤702)之前,所述方法还包括以下步骤:
步骤901,所述第一提取模块301提取所述第一搜索结果和所述第二搜索结果中的页面链接信息。具体地,所述第一提取模块301从所述搜索模块201中获取第一搜索结果和第二搜索结果中的每一条记录所对应的代码,然后从中找出与页面链接信息对应的部分,并从中提取相应的页面链接信息(例如,网址)。进一步的,所述第一提取模块301在提取到多个页面链接信息后,对所提取到的页面链接信息进行比较,判断其中的域名是否相同,相同的多个页面链接信息仅保留其中一者,不同的多个页面链接信息则保留。
针对所述论述,下面举例说明:
所述第一提取模块301对搜索结果页面中的每条记录进行站点提取,生成数据:{小说1,{站点a,站点b,站点c,…}},{小说2,{站点a’,站点b’,站点c’,…}},{小说3,{站点a”,站点b”,站点c”,…}}。
在本实施例中,由于利用所述第一提取模块301来提取搜索结果中的页面链接信息,因此有利于所述获取模块202通过该页面链接信息来获取相应的站点中的信息。
参考图10,图10是本发明的站点信息获取方法的第四实施例的流程图。本实施例与上述第一、第二或第三实施例相似,不同之处在于:
在所述提取所述第一搜索结果和所述第二搜索结果中的页面链接信息的步骤(即,步骤901)之后,以及在所述根据所述搜索结果中的页面链接信息获取相应站点的页面中的预定部分信息的步骤(即,步骤702)之前,所述方法还包括:
步骤1001,所述统计模块401针对与所述页面链接信息对应的站点,对所述元素的数量进行统计并生成统计结果。具体地,所述统计模块401对上述第一提取模块301所提取的页面链接信息所对应的站点的元素数量进行统计。
步骤1002,所述筛选模块402根据所述统计结果筛选所述数量大于预定值的元素所对应站点并生成筛选结果。具体地,所述预定值设定为M,M为正整数(例如,6),所述筛选模块402在接收到所述统计结果后根据所述统计结果判断哪些站点的小说数量大于M,保留其中在小说数量上大于M的站点的站点标识并将这些保留下来的站点标识生成所述筛选结果,其它的则丢弃。
所述根据所述搜索结果中的页面链接信息获取相应站点的页面中的预定部分信息的步骤(即,步骤702)为:
所述获取模块202根据所述筛选结果分别获取其中相应站点的页面中的预定部分信息。
针对所述论述,下面举例说明:
所述统计模块401按照站点进行小说数量的统计,得到统计结果:{站点a,n1},{站点b,n2},{站点c,n3}。其中,n1,n2和n3分别是站点a,站点b和站点c的小说数量。所述筛选模块402从n1,n2和n3中筛选出大于M的数值,例如,n1和n3,对应的站点是站点a和站点c。
在本实施例中,通过对所述第一提取模块301所提取得到的页面链接信息进行统计和筛选,因此可以得到具有小说的数量较多的站点。
参考图11,图11是本发明的站点信息获取方法的第五实施例的流程图。本实施例与上述第一至第四中任意一个实施例相似,不同之处在于:
在所述根据所述搜索结果中的页面链接信息获取相应站点的页面中的预定部分信息的步骤(即,步骤702)之后,并且在所述将所获取的所述信息整理成相应的数据记录并生成站点信息获取结果的步骤之前,或者在所述将所获取的所述信息整理成相应的数据记录并生成站点信息获取结果的步骤之后,所述方法还包括:
步骤1101,所述判断模块501判断所述预定部分信息是否包含预定内容并生成判断结果。具体地,所述预定内容可以是诸如“小说”、“阅读”、“最新章节”等此类的词语。
步骤1102,所述整理模块203在所述判断结果为所述预定部分信息不包含所述预定内容的情况下丢弃所述数据记录。
步骤1103,所述整理模块203在所述判断结果为所述预定部分信息包含所述预定内容的情况下保留所述数据记录。
针对所述论述,下面举例说明:
所述判断模块501判断所述站点对应的预定部分信息(例如,标题)中是否包含诸如“小说”、“阅读”、“最新章节”等中的一者的内容,如果站点的标题不包含其中的任一关键词,则放弃该站点,最终保留下的站点,即可作为新发现的小说站点。
在本实施例中,通过判断所述站点的预定部分信息是否包含预定内容,可以进一步判断所述站点是否是小说站点,若是小说站点,则保留,否则丢弃,这样有利于筛选出符合要求的站点。
参考图12,图12是本发明的站点信息获取方法的第六实施例的流程图。本实施例与上述第一至第五中任意一个实施例相似,不同之处在于:
在所述以基础数据集合中的元素的关键词进行搜索,并获取相应的搜索结果的步骤(步骤701)之前,所述方法还包括:
步骤1201,所述第二提取模块601分别从所述第一元素和所述第二元素所对应的文件中提取至少两所述属性信息。具体地,所述第二提取模块601可以通过文字查找、识别的技术来提取第一元素和第二元素所对应的文件的至少两属性信息。
针对所述论述,下面举例说明:
所述第二提取模块601从操作人员提供或者机器随机选择的文件(例如,“.pdf”文档文件、“.doc”文档文件、“.mp3”音频文件、“.rmvb”影视文件)中提取相应的至少两属性信息,例如,关于文档名称、作者名的属性信息。
在本实施例中,通过第二提取模块601来提取基础数据集合中的元素的至少两属性信息,以作搜索的关键词之用途,有利于实现自动地挖掘上述站点信息。
综上所述,虽然本发明已以优选实施例揭露如上,但上述优选实施例并非用以限制本发明,本领域的普通技术人员,在不脱离本发明的精神和范围内,均可作各种更动与润饰,因此本发明的保护范围以权利要求界定的范围为准。

Claims (22)

1.一种站点信息获取方法,其特征在于,所述方法包括:
以基础数据集合中的元素的关键词进行搜索,并获取相应的搜索结果;
根据所述搜索结果中的页面链接信息获取相应站点的页面中的预定部分信息;
将与所述页面链接信息对应的站点标识和所述预定部分信息整理成相应的数据记录,并根据所述数据记录生成站点信息获取结果。
2.根据权利要求1所述的站点信息获取方法,其特征在于,所述元素至少包括第一元素和第二元素,所述搜索结果至少包括与所述第一元素对应的第一搜索结果和与所述第二元素对应的第二搜索结果;
所述以基础数据集合中的元素的关键词进行搜索,并获取相应的搜索结果的步骤为:
分别以所述第一元素的第一关键词和所述第二元素的第二关键词进行搜索,并分别获取所述第一搜索结果和所述第二搜索结果。
3.根据权利要求2所述的站点信息获取方法,其特征在于,在所述分别获取所述第一搜索结果和所述第二搜索结果的步骤之后,以及在所述根据所述搜索结果中的页面链接信息获取相应站点的页面中的预定部分信息的步骤之前,所述方法还包括以下步骤:
提取所述第一搜索结果和所述第二搜索结果中的页面链接信息。
4.根据权利要求3所述的站点信息获取方法,其特征在于,在所述提取所述第一搜索结果和所述第二搜索结果中的页面链接信息的步骤之后,以及在所述根据所述搜索结果中的页面链接信息获取相应站点的页面中的预定部分信息的步骤之前,所述方法还包括:
针对与所述页面链接信息对应的站点,对所述元素的数量进行统计并生成统计结果;
根据所述统计结果筛选所述数量大于预定值的元素所对应站点并生成筛选结果;
所述根据所述搜索结果中的页面链接信息获取相应站点的页面中的预定部分信息的步骤为:
根据所述筛选结果分别获取其中相应站点的页面中的所述预定部分信息。
5.根据权利要求4所述的站点信息获取方法,其特征在于,在所述根据所述搜索结果中的页面链接信息获取相应站点的页面中的预定部分信息的步骤之后,所述方法还包括:
判断所述预定部分信息是否包含预定内容并生成判断结果;
在所述判断结果为所述预定部分信息不包含所述预定内容的情况下丢弃所述数据记录;
在所述判断结果为所述预定部分信息包含所述预定内容的情况下保留所述数据记录。
6.根据权利要求5所述的站点信息获取方法,其特征在于,所述第一关键词包括所述第一元素的至少两属性信息,所述第二关键词包括所述第二元素的至少两属性信息;
在所述以基础数据集合中的元素的关键词进行搜索,并获取相应的搜索结果的步骤之前,所述方法还包括:
分别提取所述第一元素和所述第二元素所对应的文件的至少两所述属性信息。
7.根据权利要求2至6中任意一项所述的站点信息获取方法,其特征在于,所述基础数据集合是包括有至少一个第一类型的作品和至少一个第二类型的作品的集合;
所述第一类型和所述第二类型与所述作品的受欢迎度、畅销度、推荐度中的任意一者相关;
所述元素是所述基础数据集合中的每一个所述作品。
8.根据权利要求7所述的站点信息获取方法,其特征在于,所述第一元素对应所述第一类型的作品,所述第二元素对应所述第二类型的作品。
9.根据权利要求7所述的站点信息获取方法,其特征在于,所述作品包括文学作品、美术作品、音乐作品、影视作品中任意一者或一者以上的组合。
10.根据权利要求7所述的站点信息获取方法,其特征在于,所述第一元素的至少两属性信息包括作品名和作者名,所述第二元素的至少两属性信息包括作品名和作者名。
11.根据权利要求1至6中任意一项所述的站点信息获取方法,其特征在于,所述预定部分信息为所述站点的页面中的标题信息。
12.一种站点信息获取装置,其特征在于,所述装置包括:
搜索模块,用于以基础数据集合中的元素的关键词进行搜索,并获取相应的搜索结果;
获取模块,用于根据所述搜索结果中的页面链接信息获取相应站点的页面中的预定部分信息;
整理模块,用于将与所述页面链接信息对应的站点标识和所述预定部分信息整理成相应的数据记录,并用于根据所述数据记录生成站点信息获取结果。
13.根据权利要求12所述的站点信息获取装置,其特征在于,所述元素至少包括第一元素和第二元素,所述搜索结果至少包括与所述第一元素对应的第一搜索结果和与所述第二元素对应的第二搜索结果;
所述搜索模块用于分别以所述第一元素的第一关键词和所述第二元素的第二关键词进行搜索,并分别获取所述第一搜索结果和所述第二搜索结果。
14.根据权利要求13所述的站点信息获取装置,其特征在于,所述装置还包括:
第一提取模块,用于提取所述第一搜索结果和所述第二搜索结果中的页面链接信息。
15.根据权利要求14所述的站点信息获取装置,其特征在于,所述装置还包括:
统计模块,用于针对与所述页面链接信息对应的站点,对所述元素的数量进行统计并生成统计结果;
筛选模块,用于根据所述统计结果筛选所述数量大于预定值的元素所对应站点并生成筛选结果;
所述获取模块用于根据所述筛选结果分别获取其中相应站点的页面中的所述预定部分信息。
16.根据权利要求15所述的站点信息获取装置,其特征在于,所述装置还包括:
判断模块,用于判断所述预定部分信息是否包含预定内容并生成判断结果;
所述整理模块还用于在所述判断结果为所述预定部分信息不包含所述预定内容的情况下丢弃所述数据记录,以及用于在所述判断结果为所述预定部分信息包含所述预定内容的情况下保留所述数据记录。
17.根据权利要求16所述的站点信息获取装置,其特征在于,所述第一关键词包括所述第一元素的至少两属性信息,所述第二关键词包括所述第二元素的至少两属性信息;
所述装置还包括:
第二提取模块,用于分别提取所述第一元素和第二元素所对应的文件的至少两所述属性信息。
18.根据权利要求13至17中任意一项所述的站点信息获取装置,其特征在于,所述基础数据集合是包括有至少一个第一类型的作品和至少一个第二类型的作品的集合;
所述第一类型和所述第二类型与所述作品的受欢迎度、畅销度、推荐度中的任意一者相关;
所述元素是所述基础数据集合中的每一个所述作品。
19.根据权利要求18所述的站点信息获取装置,其特征在于,所述第一元素对应所述第一类型的作品,所述第二元素对应所述第二类型的作品。
20.根据权利要求18所述的站点信息获取装置,其特征在于,所述作品包括文学作品、美术作品、音乐作品、影视作品中任意一者或一者以上的组合。
21.根据权利要求18所述的站点信息获取装置,其特征在于,所述第一元素的至少两属性信息包括作品名和作者名,所述第二元素的至少两属性信息包括作品名和作者名。
22.根据权利要求12至17中任意一项所述的站点信息获取装置,其特征在于,所述预定部分信息为所述站点的页面中的标题信息。
CN201310222196.4A 2013-06-05 2013-06-05 站点信息获取方法及装置 Pending CN104216928A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310222196.4A CN104216928A (zh) 2013-06-05 2013-06-05 站点信息获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310222196.4A CN104216928A (zh) 2013-06-05 2013-06-05 站点信息获取方法及装置

Publications (1)

Publication Number Publication Date
CN104216928A true CN104216928A (zh) 2014-12-17

Family

ID=52098423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310222196.4A Pending CN104216928A (zh) 2013-06-05 2013-06-05 站点信息获取方法及装置

Country Status (1)

Country Link
CN (1) CN104216928A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649366A (zh) * 2015-10-30 2017-05-10 北京国双科技有限公司 关键词搜索结果的分类方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6625594B1 (en) * 2000-01-18 2003-09-23 With1Click, Inc. System and method for searching a global communication system using a sub-root domain name agent
CN101458713A (zh) * 2008-12-29 2009-06-17 北京搜狗科技发展有限公司 网站分类的方法及***
CN101944111A (zh) * 2010-09-09 2011-01-12 中国科学技术大学 新闻视频的搜索方法和装置
CN102646101A (zh) * 2011-02-22 2012-08-22 阿里巴巴集团控股有限公司 一种推荐产品介绍信息的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6625594B1 (en) * 2000-01-18 2003-09-23 With1Click, Inc. System and method for searching a global communication system using a sub-root domain name agent
CN101458713A (zh) * 2008-12-29 2009-06-17 北京搜狗科技发展有限公司 网站分类的方法及***
CN101944111A (zh) * 2010-09-09 2011-01-12 中国科学技术大学 新闻视频的搜索方法和装置
CN102646101A (zh) * 2011-02-22 2012-08-22 阿里巴巴集团控股有限公司 一种推荐产品介绍信息的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王春红,张世民: "搜索引擎", 《大学计算机基础教程》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649366A (zh) * 2015-10-30 2017-05-10 北京国双科技有限公司 关键词搜索结果的分类方法和装置

Similar Documents

Publication Publication Date Title
Vishwakarma et al. Detection and veracity analysis of fake news via scrapping and authenticating the web search
US7861151B2 (en) Web site structure analysis
CN106383887B (zh) 一种环保新闻数据采集和推荐展示的方法及***
US8185530B2 (en) Method and system for web document clustering
CN102171689B (zh) 用于提供搜索结果的方法、***
CN102760172B (zh) 一种网络搜索方法及网络搜索***
CN100476830C (zh) 一种网络资源检索方法及***
CN102473190B (zh) 为网页分配关键词
CN106095979B (zh) Url合并处理方法和装置
CN106021418B (zh) 新闻事件的聚类方法及装置
CN102663060B (zh) 一种识别被篡改网页的方法及装置
CN103744856A (zh) 联动性扩展搜索方法及装置、***
CN111259220B (zh) 一种基于大数据的数据采集方法和***
CN103455758A (zh) 恶意网站的识别方法及装置
US20090259649A1 (en) System and method for detecting templates of a website using hyperlink analysis
CN105677921A (zh) 一种互联网舆情数据的获取方法及***
CN110069693A (zh) 用于确定目标页面的方法和装置
Sivakumar Effectual web content mining using noise removal from web pages
Troudi et al. A new mashup based method for event detection from social media
CN104809173A (zh) 一种搜索结果的处理方法和装置
Chen et al. Finding keywords in blogs: Efficient keyword extraction in blog mining via user behaviors
CN103631796A (zh) 网址分类管理方法及电子装置
CN112000866B (zh) 互联网数据分析方法、装置、电子装置及介质
KR20050070955A (ko) 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
CN107622125B (zh) 一种信息爬取方法和装置、电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20141217

RJ01 Rejection of invention patent application after publication