CN108052632B - 一种网络信息获取方法、***及企业信息搜索*** - Google Patents
一种网络信息获取方法、***及企业信息搜索*** Download PDFInfo
- Publication number
- CN108052632B CN108052632B CN201711381367.2A CN201711381367A CN108052632B CN 108052632 B CN108052632 B CN 108052632B CN 201711381367 A CN201711381367 A CN 201711381367A CN 108052632 B CN108052632 B CN 108052632B
- Authority
- CN
- China
- Prior art keywords
- information
- data
- page
- retrieval
- acquiring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2379—Updates performed during online database operations; commit processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种网络信息获取方法、***及企业信息搜索***,包括获取与指定信息关联的网页信息,根据所选择的检索策略获取关联网页的对象页面,并提取对象页面中的数据信息。本发明通过爬虫技术和具有针对性的检索策略,完成数据在深网的挖掘,使用户能够在短时间内获取到大量的有效数据,避免到各个独立网站一一查询,为用户提供了一站式的信息服务,提高了采集数据的效率。
Description
技术领域
本发明涉及一种网络信息获取的方法和***,特别是一种基于爬虫***的网页信息获取方法和***。。
背景技术
在当前的大数据时代,网络上的海量资源让使用者应接不暇,大量分布的、易购的信息应运而生。例如,如果需要获取企业的相关信息,可以直接通过包括国家企业信用信息公示***、中国法院裁判文书网、中国执行信息公开网、国家知识产权局官方网站、国家工商总局商标局官方网站、国家版权局官方网站以及招聘网等相关官方网站查找。然而,上述各类网站所涉及的企业信息各不相同,例如,国家企业信用信息公示***包括营业执照信息、主要人员等信息,裁判文书网主要针对判决信息,政府网站通常包含有企业信用数据和中标数据,而招聘网则更多地涉及职位、工资等信息。可见,不同的信息来源于不同的网络平台,而平台上的数据通常是独立且不共享的,如果想有针对性地获取一个或多个企业的相关信息,则需要通过不同的平台进行查询,对用户来说较为繁琐。
另一方面,企业的工商信息、招聘信息、涉及的裁判文书、以及知识产权信息等具有深层网络的性质,其中,深网的概念是相对于表层网定义的,指的是那些不能被普通搜索营运所获取的内容。为了有效便捷地获取所需的网络信息和资源,搜索引擎作为常用的信息检索工具成为了用户访问互联网的入口和平台。但是,通用的搜索引擎具有一定的局限性,对深网的内容往往难以获取,并且会返回大量用户不关心的网页,降低了获取有效信息的效率。而一些提供企业信息的平台,更存在更新不及时的问题。
因此,如何方便快捷的获取全面的企业信息是当前网络信息获取中所存在的问题,有必要提出一种互联网数据高效获取的方法和***,实现定向获取用户所需的企业最新信息。
发明内容
传统的企业信息网站获取数据的方法存在较多的局限性,一是无法通过传统的搜索引擎准确有效地获取大量隐藏在深网中的完整的高质量数据,二是采用一一遍历的信息搜索方式会浪费大量的***资源,使得信息获取的时间过长,效率低下。针对上述问题,本发明公开了一种网络信息获取的方法和***,特别是一种基于爬虫***的网页信息获取方法和***,用于获取所需的企业相关信息。
针对上述信息获取过程中所存在的问题,本发明提出了一种数据信息获取方法,用于获取与(用户)指定的信息相关联的数据信息,所述方法包括:根据所述指定的信息获取对应的网页信息;根据所述网页的布局方式确定检索策略;根据所述检索策略获取对象页面;提取所述页面中的所述数据信息。
进一步的,所述根据所述指定的信息获取对应的网页信息包括:基于HTTP协议获取所述对应的网页,并接收返回的所述网页信息。
进一步的,所述检索策略包括深度优先检索、广度优先检索和/或二者的结合。
进一步的,所述根据检索策略获取对象页面包括:通过多线程网络爬虫获取一个或多个所述对象页面的URL并下载所述对象页面。
进一步的,所述提取所述页面中的所述数据信息包括:获取URL队列中的URL地址,对URL地址进行DNS域名解析,建立与所述URL对应的服务器的Socket连接,并发送请求获取所述页面的HTML数据文件,其中,HTML数据文件包含有所述数据信息。
进一步的,所述方法还包括获取所述网页的更新信息,所述获取所述网页的更新信息的步骤包括定期回访抓取过的网页、检测网页有无变化、去除坏死链接和/或更新数据库。
以及,其中,所述指定信息为企业名称,所述数据信息为与所述企业相关的数据信息。
另一方面,根据本发明所提出的一种数据信息获取方法,同时还提出一种数据信息获取***,所述***包括:检索装置、选择装置、获取装置以及处理装置;其中,所述检索装置还包括信息单元,用于根据所述信息单元的指定信息获取对应的网页信息;所述选择装置用于根据所述检索装置获取的所述网页信息中所包含的网页布局方式,选择检索策略;所述获取装置用于获取所述检索单元所获取的对应的网页的对象页面;以及,所述处理装置用于提取所述页面中的所述数据信息。
进一步的,所述检索装置用于基于HTTP协议获取所述对应的网页,还包括接收单元,用于接收返回的所述网页信息。
进一步的,所述检索策略包括深度优先检索、广度优先检索和/或二者的结合。
进一步的,所述获取装置还包括网络爬虫单元,所述网络爬虫单元通过多线程网络爬虫获取一个或多个所述对应的页面的URL并下载所述对应的页面。
进一步的,所述处理装置还包括:地址处理单元,用于获取URL队列中的URL地址,对URL地址进行DNS域名解析;连接单元,用于建立与所述URL对应的服务器的Socket连接;获取单元,用于并发送请求获取所述页面的HTML数据文件,其中,HTML数据文件包含有所述数据信息。
进一步的,所述***还包括更新装置,用于获取所述网页的更新信息,所述获取所述网页的更新信息包括定期回访抓取过的网页、检测网页有无变化、去除坏死链接和/或更新数据库。
以及,所述指定信息为企业名称,所述数据信息为与所述企业相关的数据信息。
综上所述,本发明所公开的数据信息获取方法和***,通过爬虫技术和具有针对性的检索策略,能够完成数据在深网的挖掘,使用户在短时间内获取到大量的有效数据,避免到各个独立网站一一查询,为用户提供了一站式的信息服务,提高了采集数据的效率。
附图说明
图1 本发明一实施例提供的信息获取方法;
图2 本发明另一实施例提供的获取对象页面的方法;
图3 本发明另一实施例提供的结构化提取页面数据信息的方法;
图4 本发明的实施例提供的DOM树示意图;
图5 本发明的实施例提供的信息获取***;
图6 本发明的另一实施例提供的企业信息搜索***。
具体实施方式
为使所属领域的技术人员能够更好地理解本发明的技术方案,以下结合随说明书所附的说明书附图,对本发明的技术方案进行清除完整的描述。显然,以下具体实施方式仅仅只是本发明的部分实施方式,所属领域的技术人员在理解以下实施方式的基础上不付出创造性劳动所获得的其它实施方式或其组合,均属于本发明的技术构思和保护范围。
本发明一实施例提供一种数据信息获取方法,如图1所示,包括以下步骤:
S1,根据指定信息获取对应的网页信息。
所述的数据信息获取方法用于获取与指定信息相关联的数据信息,例如,可以根据用户所指定的企业名称获取与该企业相关的用户所需的企业信息。所述对应的网页可以是包含有与所述企业相关信息的网页,例如,国家企业信用信息公示***、中国法院裁判文书网、中国执行信息公开网、国家知识产权局官方网站、国家工商总局商标局官方网站、国家版权局官方网站以及招聘网等,其中,不同的网页具有不同针对性的企业信息。具体的,获取网页信息的方式可以为基于HTTP协议获取所述对应的网页,并接收返回的所述网页信息。
S2, 根据所述网页的布局方式确定检索策略。
在获取到对应的网页信息之后需要进一步爬取网页中包含用户所需信息的对象页面,而网络爬虫在 Web 上的爬取工作需要按照一定的检索策略算法进行,检索策略算法通常包括以下四种遍历算法:深度优先算法,广度优先算法,启发式搜索算法,自动分类搜索算法。对于常用的企业信息网页而言,其页面布局一般都具有以下特点:第一层均有检索入口,进入后便是所有企业列表,例如在国家企业信用信息公示***搜索“华为技术”,通过第一层的检索入口搜索“华为技术”后,便会在下一层显示企业名包含“华为技术”的企业列表。因此,对于具有上述布局特点的网页而言,采取深度优先检索方式和广度优先检索方式相结合的方法来对网页 URL 进行搜索,提供URL队列,使得爬虫最迅捷得到页面链接。
具体的,深度优先搜索的思想是尽可能深的遍历一个图,从图的某个顶点出发,访问图中的所有顶点,且使每个顶点仅被访问一次,这一过程叫做图的遍历。而广度优先搜索是一层一层地向下遍历,其与深度优先搜索不同的地方在于广度优先搜索可以避免一直往下的死循环。
S3,根据所述检索策略获取对象页面。
在确定检索策略后,基于所确定的检索策略获取包含有所需信息的对象页面。根据本发明需要获取的数据类型,通过给定的URL进行定向搜索以提高获取数据的检索效率,由于信息千差万别,只需要行业相关信息即可,无需遍历在整个互联网。具体的,获取对象页面的方式为采用多线程网络爬虫,通过深度优先检索和广度优先检索相结合的方式来对网页 URL 进行检索,爬取一个或多个所述对象页面的URL,并根据URL下载对象页面。其中,网络爬虫采用主题网络爬虫,又叫聚焦网络爬虫(Focused Crawler),是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫,由于主题爬虫与通用爬虫最主要的区别在于主题爬虫只选择与设定主题相关的页面,因而能够减少爬虫爬行的时间和所需遍历的网页数量,提高检索效率。
在本发明的另一实施例中,根据所述检索策略获取对象页面还包括如图2所示的步骤:
S301,使用网络爬虫,以初始URL页面为入口进行爬取遍历。
网络爬虫可以多线程采集,这样可以更有效、更快速地抓取网页内容。优选地,可以采用主题网络爬虫选择性地爬行那些与预先定义好的需求信息类型相关页面的网络爬虫。采用网络网络爬虫在 Web 上的爬取工作需要按照一定的策略算法进行,比如深度优先算法,广度优先算法,启发式搜索算法,自动分类搜索算法。深度优先搜索的思想是尽可能深的遍历一个图,从图的某个顶点出发,访问图中的所有顶点,且使每个顶点仅被访问一次,这一过程叫做图的遍历。而广度优先搜索是一层一层地向下遍历,与深度优先搜索不同的是它可以避免一直往下的死循环。根据企业信息数据在互联网页面布局的结构特点:第一层均有搜索入口,进入后便是所有企业列表,可以采取深度优先搜索和广度优先搜索相结合的方法来对网页 URL 进行搜索,这样爬虫程序能最迅捷得到页面链接。
S302,对爬取到的URL页面进行分析并过滤去重。
互联网信息繁杂,在使用爬虫进行爬取工作中,爬虫可能重复放入已经存在于待爬队伍的URL,如此便会降低爬虫的工作效率。因此在爬虫分析提取网页URL的过程中对URL进行去重过滤工作也变得越来越重要,而此项的技术的矛盾点在于,爬虫技术本身对于存储空间、以及速度要求很高,而在去重过程也不可避免的会影响爬虫的工作效率。为了采用高效率的、不占太多空间的去重方法,同时也需要保证去重的准确度,可选用的去重方法包括基于数据库去重、基于内存去重,以及基于布隆过滤器(bloom filter)的去重。
S303,获取优化后的URL队列。
将网络爬虫获取并经过滤去重后的URL存放到URL队列中。
S4,提取所述页面中的所述数据信息。
在获取对象页面后需要通过爬虫提取页面的内容,网络爬虫的文本提取是先从对象页面的URL队列中获取URL地址,对URL地址进行DNS域名解析,解析出URL中Web服务器中的地址以访问目标服务器的服务,建立客户端与服务器端的Socket连接,然后向HTTP发送请求,以获取内容页面HTML的数据。在获取内容页的HTML之后需要对该页面预处理进行编码转换和网页去噪。
由于HTML文件是自描述的半结构化数据,而半结构化数据难以被应用程序直接使用,为了从其文件中提取有用的信息,所以必须使其结构化。结构化信息提取方法还包括如图3所示的步骤:
S401, 解析并生成DOM树。
DOM(Document ObjectModel)树如图4所示,DOM树构建以后整篇网页代码就是一棵树,标签则是树的节点,在提取内容的过程中去掉和正文无关的节点,递归或者使用其他算法遍历DOM树获取内容节点,并抽取其中内容;针对注释内容,则从DOM树中删除节点后继续遍历获取内容。将HTML文档解析成DOM树可借助于Python的第三方库Beautiful Soup库,该库的主要功能是从网页抓取数据,提供一些函数处理导航、搜索、修改分析树等功能,还可以自动将输入文档转换编码,为用户提供不同的解析策略和强劲的速度。
S402,基于模板的结构化信息抽取。
在一些实施方式中,可以对明确需要获取的内容进行模板定制,定制模板的集合构成了页面抽取规则库,抽取信息时根据页面抽取规则库通过一定的正则表达式进行网页正文信息抽取,并判断信息是否与模板匹配。正则表达式是可以做到模式匹配和替换的强大的功能,一个模式匹配就是一个字符串,一个模式匹配表达式由一元的和二元的操作符组成,空格和制表符可以用于分隔关键词。
网页的信息提取方式包括基于包装器方法的数据提取、基于机器学习的数据提取、基于HTML构造树的数据提取以及基于Web查询的数据提取。
基于包装器的数据提取方法进行信息抽取依赖于人们手工建立的抽取规则或模式,通过对模板分析获得页面中正文的位置,能够精确的定位正文内容,且提取正文的准确率高,提取速度快。然而,这种方法无法用统一的模板处理Web中种类繁多的网页,不具有普遍适用性,且人为建立的规则也很难保证整体的***性逻辑性,同时,一些抽取规则都是针对某些领域固定设置的,具有高度的领域相关性和较差的可移植性,其生成和维护成本较高,需要过多的人工干预。
基于机器学习的数据抽取是通过对网页数据进行预处理之后进行Dom建树、Dom解析,利用事先训练好的模型对网页进行分型操作(识别出网页的结构:新闻、社区论坛等),然后根据文本长度、文本位置、标签名称等特征对网页进行分块抽取得到相关的信息,能够实现标题、正文抽取,网页结构分类等一些基础的抽取需求。然而,基于机器学习的方案只能满足通用的、相对粗糙的信息提取,无法对精准的字段做抽取。
基于HTML结构树的数据提取方法需要先根据结构特点定位要抽取的信息,通过Html 的特性来构造树,通过形成正则表达式的形式形成抽取规则,对树进行操作实现数据抽取。
基于Web查询的数据抽取是将Web作为信息源的一类信息抽取,从半结构化的Web文档中抽取数据,是数据更加结构化、语义更加清晰,为用户的Web查询提供便利。基于Web查询的信息抽取利用数据库技术对互联网上的数据进行管理和查询,将Web信息抽取转化成运用标准的Web查询语言对Web页面文档进行查询。
上述四种信息抽取的基本策略相似,都是首先对数据预处理,解析成DOM树,再根据规则、模板或训练算法对数据进行结构化抽取,抽取之后将数据存储到数据库。在针对某一个领域的信息进行集中抽取,如针对特定的企业信息(例如包括各种案情事件、法律裁判文书和法律法规等法律信息)进行集中抽取时,相对庞杂的网络数据较为容易形成一定的抽取规则,可以综合利用上述四种信息抽取方法及其组合。
S403,将抽取到的信息以结构化的形式存储到数据库。
抽取到的数据信息需要存入数据库中,便于提取利用。本发明主要是针对信息网站上的数据信息,其特点是大多数数据类型相对统一,例如企业的基本信息等。可选择的数据库包括
1.MySQL数据库
MySQL是一种开放源代码的关系型数据库管理***,总的来说是一款非常好用的数据库,开发环境是windows***、多语言支持,因为它操作及管理数据方便、高性能、低成本,且它的核心线程是多线程,成为企业存储数据的最佳选择。
2.MongoDB 数据库
MongoDB是在非关系数据库中功能完整并且与关系数据库非常相像的存储***。它是一个模式自由的,面向集合的文档型数据库,和MySQL相比,它的开源数据有商业公司的支持,更安全。
由于 MongoDB 数据库有着十分良好的数据扩展性能,介于非关系数据库和关系数据库之间,对于数据不完整的情况,可以用其扩展功能来解决,仍然可以将不同的信息分文档存储。但是MongoDB没有如MySQL那样成熟的维护工具,这对于开发和IT运营都是个值得注意的地方,而且MongoDB占用空间过大。
在另一些实施例中,本发明的信息获取方法还包括:
S5,获取网页的更新信息。
网络信息更新速度非常快,需要爬虫定期回访抓取过的网页,检测网页有无变化,去除无用的坏死链接,更新数据库,便于用户能及时获取最新的信息。
本发明还提供一种数据信息获取***100,如图1所示,包括:
检索装置110,其具有信息单元111和接收单元112,用于获取与信息单元111所指定信息相关联的数据信息。
例如,所指定的信息可以是用户输入的企业信息,检索装置110根据用户所指定的企业名称获取与该企业相关的用户所需的企业信息。所述对应的网页可以是包含有与所述企业相关信息的网页,例如,国家企业信用信息公示***、中国法院裁判文书网、中国执行信息公开网、国家知识产权局官方网站、国家工商总局商标局官方网站、国家版权局官方网站以及招聘网等,其中,不同的网页具有不同针对性的企业信息。具体的,获取网页信息的方式可以为基于HTTP协议获取所述对应的网页,并通过接收单元112接收返回的所述网页信息。
选择装置120,所述选择装置120用于根据所述检索装置110获取的所述网页信息中所包含的网页布局方式,选择检索策略。
在获取到对应的网页信息之后需要进一步爬取网页中包含用户所需信息的对象页面,而网络爬虫在 Web 上的爬取工作需要按照一定的检索策略算法进行,检索策略算法通常包括以下四种遍历算法:深度优先算法,广度优先算法,启发式搜索算法,自动分类搜索算法。对于常用的企业信息网页而言,其页面布局一般都具有以下特点:第一层均有检索入口,进入后便是所有企业列表,例如在国家企业信用信息公示***搜索“华为技术”,通过第一层的检索入口搜索“华为技术”后,便会在下一层显示企业名包含“华为技术”的企业列表。因此,对于具有上述布局特点的网页而言,采取深度优先检索方式和广度优先检索方式相结合的方法来对网页 URL 进行搜索,提供URL队列,使得爬虫最迅捷得到页面链接。
获取装置130,具有网络爬虫单元131和去重单元132,用于在确定检索策略后,获取所述检索装置110所获取的对应的网页的对象页面。
具体的,根据需要获取的数据类型,网络爬虫单元131以给定的初始URL为入口,进行定向搜索以提高获取数据的检索效率,由于信息千差万别,只需要行业相关信息即可,无需遍历在整个互联网。网络爬虫单元131获取对象页面的方式为采用多线程网络爬虫,通过深度优先检索和广度优先检索相结合的方式来对网页 URL 进行检索,爬取一个或多个所述对象页面的URL,并根据URL下载对象页面,其中,网络爬虫采用主题网络爬虫,又叫聚焦网络爬虫(Focused Crawler),是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫,由于主题爬虫与通用爬虫最主要的区别在于主题爬虫只选择与设定主题相关的页面,因而能够减少爬虫爬行的时间和所需遍历的网页数量,提高检索效率。
在本发明的另一实施例中,去重单元132还用于对网络爬虫单元131爬取到的URL页面进行分析并过滤去重。具体的,由于互联网信息繁杂,在使用爬虫进行爬取工作中,爬虫可能重复放入已经存在于待爬队伍的URL,如此便会降低爬虫的工作效率,因此在爬虫分析提取网页URL的过程中对URL进行去重过滤工作也变得越来越重要。为了采用高效率的、不占太多空间的去重方法,同时也需要保证去重的准确度,可选用的去重方法包括基于数据库去重、基于内存去重,以及基于布隆过滤器(bloom filter)的去重。
进一步的,去重单元132还用于将网络爬虫单元获取的并经去重单元132过滤去重后的URL存放到URL队列中。
处理装置140,具有地址处理单元141、连接单元142、获取单元143和预处理单元144,用于提取所述页面中的所述数据信息。
其中,地址处理单元141从对象页面的URL队列中获取URL地址,对URL地址进行DNS域名解析,解析出URL中Web服务器中的地址以访问目标服务器的服务,连接单元142建立客户端与服务器端的Socket连接,获取单元143向HTTP发送请求,以获取内容页面HTML的数据。在获取内容页的HTML之后,预处理单元144需要对该页面进行编码转换和网页去噪。
由于HTML文件是自描述的半结构化数据,而半结构化数据难以被应用程序直接使用,为了从其文件中提取有用的信息,处理装置140还包括结构化单元145,用以对获取单元143获取的HTML数据进行结构化处理并提取其中所包含的所需的信息。
更具体的,结构化单元145解析HTML数据并生成如图4所示的DOM树,在提取内容的过程中去掉和正文无关的节点,递归或者使用其他算法遍历DOM树获取内容节点,并抽取其中内容。在一些实施方式中,结构化单元还可以对明确需要获取的内容进行模板定制,定制模板的集合构成了页面抽取规则库,抽取信息时根据页面抽取规则库通过一定的正则表达式进行网页正文信息抽取,并判断信息是否与模板匹配。
在一些实施例中,处理装置140还包括策略选择单元146,用于在针对某一个领域的特定的信息进行集中抽取时,选择适当的信息抽取方法。其中,特定的信息可以是企业信息,包括各种案情事件、法律裁判文书和法律法规等法律信息等。信息抽取方法可以是基于包装器的数据提取方法、基于机器学习的数据提取方法、基于HTML构造树的数据提取方法、基于Web查询的数据提取方法或者以上方法的任意组合。
进一步的,信息获取***100还需要将抽取到的信息以结构化的形式存储到数据库中,以便于提取利用。本发明主要是针对信息网站上的数据,其特点是大多数数据类型相对统一,例如企业的基本信息等。
在一些实施例中,信息获取***还包括更新装置150,用于获取网页的更新信息。
网络信息更新速度非常快,需要爬虫定期回访抓取过的网页,检测网页有无变化,去除无用的坏死链接,更新数据库,便于用户能及时获取最新的信息。
在另一实施例中,本发明还提供一种企业信息搜索***200,包括用户接口210、信息获取***100以及数据库220,该***根据用户输入的信息,例如企业名称,在数据库210中查找对应的企业信息并按照一定的预设策略输出。其中,数据库210可以是本地数据库和/或网络数据库,其中存储有信息获取***100所获取的数据信息。进一步的,为了便于用户更加准确且高效率地获取所需的信息,在输出对应的企业信息时按照相关度由高到低的顺序输出。
需要说明的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。 此外,所属领域的普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于所属领域的普通技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (22)
1.一种数据信息获取方法,用于获取与指定信息相关联的数据信息,其特征在于,所述方法包括:
根据所述指定的信息获取对应的网页信息;
根据所述网页的布局方式确定检索策略;
根据所述检索策略获取对象页面;
提取所述页面中的所述数据信息,
其中,
提取所述页面中的所述数据信息还包括:获取URL队列中的URL地址,对URL地址进行DNS域名解析,建立与所述URL对应的服务器的Socket连接,并发送请求获取所述页面的HTML数据文件,其中,HTML数据文件包含有所述数据信息;
所述提取所述页面中的所述数据信息还包括获取所述页面的HTML数据文件,对所述HTML数据文件的内容进行解析并生成DOM(Document Object Model)树,去除无关的节点,遍历获取的内容节点;
所述根据检索策略获取对象页面包括:通过多线程网络爬虫获取一个或多个所述对象页面的URL并下载所述对象页面;
在获取所述HTML数据文件之后还包括对HTML文件进行编码转换和去噪的预处理;
所述遍历获取的内容节点之后,还包括对所需的内容定制模板;
所述对所需的内容定制模板包括对需要获取的内容,通过模式匹配和替换进行信息抽取,获取结构化信息数据;
所述方法还包括:针对所述指定的信息所涉及的领域,选择提取所述HTML文件中所包含的所述数据信息的策略;
所述提取所述HTML文件中所包含的所述数据信息的策略包括基于包装器的数据提取方法、基于机器学习的数据提取方法、基于HTML构造树的数据提取方法、基于Web查询的数据提取方法或者以上方法的任意组合。
2.如权利要求1所述的数据信息获取方法,其特征在于,所述根据所述指定的信息获取对应的网页信息包括:
基于HTTP协议获取所述对应的网页,并接收返回的所述网页信息。
3.如权利要求1-2中任一项所述的数据信息获取方法,其特征在于,所述检索策略包括深度优先检索、广度优先检索和/或二者的结合。
4.如权利要求3所述的数据信息获取方法,其特征在于,根据所述网页的布局方式确定检索策略包括:
所述网页布局包括第一层检索入口以及第二层信息列表。
5.如权利要求1所述的数据信息获取方法,其特征在于,所述多线程网络爬虫为聚焦网络爬虫(Focused Crawler)。
6.根据权利要求1所述的数据信息获取方法,其特征在于,所述获取一个或多个所述对象页面的URL还包括对所述网页的URL进行去重操作,所述去重操作为基于数据库去重、基于内存去重和/或基于布隆过滤器的去重。
7.根据权利要求1所述的数据信息获取方法,其特征在于,所述方法还包括获取所述网页的更新信息,所述获取所述网页的更新信息的步骤包括定期回访抓取过的网页、检测网页有无变化、去除坏死链接和/或更新数据库。
8.如权利要求7所述的数据信息获取方法,其特征在于,所述指定信息为企业名称,所述数据信息为与所述企业相关的数据信息。
9.一种信息获取***,用于获取与指定的信息相关联的数据信息,其特征在于,所述***包括:
检索装置、选择装置、获取装置以及处理装置;
其中,
所述检索装置还包括信息单元,用于根据所述信息单元的指定信息获取对应的网页信息;
所述选择装置用于根据所述检索装置获取的所述网页信息中所包含的网页布局方式,选择检索策略;
所述获取装置用于获取所述检索装置所获取的对应的网页的对象页面;
以及,
所述处理装置用于提取所述页面中的所述数据信息,
其中,所述处理装置还包括获取单元和结构化单元,
获取单元,用于获取所述页面的HTML数据文件,
结构化单元,用于对所述HTML数据文件的内容进行解析并生成DOM(Document ObjectModel)树,去除无关的节点,遍历获取的内容节点;
所述获取装置还包括网络爬虫单元,所述网络爬虫单元通过多线程网络爬虫获取一个或多个所述对应的页面的URL并下载所述对应的页面;
所述处理装置还包括:
地址处理单元,用于获取URL队列中的URL地址,对URL地址进行DNS域名解析;
连接单元,用于建立与所述URL对应的服务器的Socket连接;
其中,
获取单元还用于向所述服务器发送请求并获取所述页面的HTML数据文件,其中,HTML数据文件包含有所述数据信息;
所述处理装置还包括预处理单元,用于在所述获取单元获取所述HTML数据文件之后,对HTML文件进行编码转换和去噪的预处理;
所述结构化单元还用于对所需的内容定制模板;
所述对所需的内容定制模板包括对需要获取的内容,通过模式匹配和替换进行信息抽取,获取结构化信息数据;
所述处理装置还包括策略选择单元,用于针对所述指定的信息所涉及的领域,选择提取所述HTML文件中所包含的所述数据信息的策略;
所述策略包括基于包装器的数据提取方法、基于机器学习的数据提取方法、基于HTML构造树的数据提取方法、基于Web查询的数据提取方法或者以上方法的任意组合。
10.根据权利要求9所述的信息获取***,其特征在于,所述检索装置用于基于HTTP协议获取所述对应的网页,还包括接收单元,用于接收返回的所述网页信息。
11.根据权利要求9-10任一项所述的信息获取***,其特征在于,所述检索策略包括深度优先检索、广度优先检索和/或二者的结合。
12.根据权利要求11所述的信息获取***,其特征在于,所述网页布局包括第一层检索入口以及第二层信息列表。
13.根据权利要求9所述的信息获取***,其特征在于,所述多线程网络爬虫为聚焦网络爬虫(Focused Crawler)。
14.根据权利要求9所述的信息获取***,其特征在于,所述获取装置还包括去重单元,用于对所述网页的URL进行去重操作,所述去重操作为基于数据库去重、基于内存去重和/或基于布隆过滤器的去重。
15.根据权利要求9所述的信息获取***,其特征在于,所述***还包括更新装置,用于获取所述网页的更新信息,所述获取所述网页的更新信息包括定期回访抓取过的网页、检测网页有无变化、去除坏死链接和/或更新数据库。
16.根据权利要求15所述的信息获取***,其特征在于,所述指定信息为企业名称,所述数据信息为与所述企业相关的数据信息。
17.一种存储有数据库的计算机可读介质,所述数据库用于存储企业数据信息,其特征在于所述企业数据信息为通过如权利要求1-8任一项所述的方法或通过权利要求9-16任一项所述的***所获取的信息。
18.根据权利要求17所述的计算机可读介质,其特征在于,所述数据库为MySQL数据库或者MongoDB数据库。
19.一种企业信息搜索***,包括数据库,其特征在于,所述数据库为如权利要求17-18任一项所述的数据库,所述***根据用户输入的信息在所述数据库中查找与所述用户输入的信息对应的企业信息,并按照预设的策略输出。
20.根据权利要求19所述的企业信息搜索***,其特征在于,所述预设的策略为按照相关度顺序输出。
21.如权利要求19-20任一项所述的企业信息搜索***,其特征在于,所述用户输入的信息为企业名称。
22.一种计算机可读介质,其上存储有指令,其特征在于,所述指令可以由计算机读取以执行如权利要求1-8任一项所述的信息获取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711381367.2A CN108052632B (zh) | 2017-12-20 | 2017-12-20 | 一种网络信息获取方法、***及企业信息搜索*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711381367.2A CN108052632B (zh) | 2017-12-20 | 2017-12-20 | 一种网络信息获取方法、***及企业信息搜索*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108052632A CN108052632A (zh) | 2018-05-18 |
CN108052632B true CN108052632B (zh) | 2022-02-18 |
Family
ID=62130268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711381367.2A Active CN108052632B (zh) | 2017-12-20 | 2017-12-20 | 一种网络信息获取方法、***及企业信息搜索*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108052632B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033203A (zh) * | 2018-06-29 | 2018-12-18 | 大连交通大学 | 一种面向大数据的特征提取并行处理方法 |
CN109657121A (zh) * | 2018-12-09 | 2019-04-19 | 佛山市金穗数据服务有限公司 | 一种基于网络爬虫的Web页面信息采集方法及装置 |
CN109902217A (zh) * | 2019-03-20 | 2019-06-18 | 江苏科技大学 | 一种天文学数据筛选与下载的爬虫软件 |
CN111274217B (zh) * | 2020-01-10 | 2023-08-18 | 深圳前海环融联易信息科技服务有限公司 | 数据采集的方法、装置、计算机设备以及存储介质 |
CN111310012A (zh) * | 2020-01-21 | 2020-06-19 | 国网安徽省电力有限公司滁州供电公司 | 一种企业失信行为自动监测预警方法 |
TWI764491B (zh) * | 2020-12-31 | 2022-05-11 | 重量科技股份有限公司 | 文字資訊自動探勘方法及文字資訊自動探勘系統 |
CN113157730A (zh) * | 2021-04-26 | 2021-07-23 | 中国人民解放军军事科学院国防科技创新研究院 | 一种军民融合政策信息*** |
CN113343108B (zh) * | 2021-06-30 | 2023-05-26 | 中国平安人寿保险股份有限公司 | 推荐信息处理方法、装置、设备及存储介质 |
CN116361362B (zh) * | 2023-05-30 | 2023-08-11 | 江西顶易科技发展有限公司 | 一种基于网页内容识别的用户信息挖掘方法与*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1920817A (zh) * | 2006-09-14 | 2007-02-28 | 浙江大学 | 用于门户网站上,对多种资源仓库统一并行检索的方法 |
CN102930059A (zh) * | 2012-11-26 | 2013-02-13 | 电子科技大学 | 一种聚焦爬虫的设计方法 |
US8458227B1 (en) * | 2010-06-24 | 2013-06-04 | Amazon Technologies, Inc. | URL rescue by identifying information related to an item referenced in an invalid URL |
CN106462645A (zh) * | 2016-01-07 | 2017-02-22 | 马岩 | 网络信息的搜索方法及*** |
CN106709052A (zh) * | 2017-01-06 | 2017-05-24 | 电子科技大学 | 一种基于关键词的主题网络爬虫设计方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7483872B2 (en) * | 2001-08-23 | 2009-01-27 | Michael Meiresonne | Supplier identification and locator system and method |
US7289981B2 (en) * | 2002-12-10 | 2007-10-30 | International Business Machines Corporation | Using text search engine for parametric search |
US7720869B2 (en) * | 2007-05-09 | 2010-05-18 | Illinois Institute Of Technology | Hierarchical structured abstract file system |
US20110307479A1 (en) * | 2010-06-10 | 2011-12-15 | Microsoft Corporation | Automatic Extraction of Structured Web Content |
CN102694772B (zh) * | 2011-03-23 | 2014-12-10 | 腾讯科技(深圳)有限公司 | 一种访问互联网网页的装置、***及方法 |
CN103049542A (zh) * | 2012-12-27 | 2013-04-17 | 北京信息科技大学 | 一种面向领域的网络信息搜索方法 |
CN104899268A (zh) * | 2015-05-25 | 2015-09-09 | 浪潮集团有限公司 | 一种分布式企业信息垂直搜索方法 |
CN104978408A (zh) * | 2015-08-05 | 2015-10-14 | 许昌学院 | 基于Berkeley DB数据库的主题爬虫*** |
CN105868327A (zh) * | 2016-03-28 | 2016-08-17 | 浪潮软件集团有限公司 | 一种基于不同更新策略的分布式网络爬虫抓取方法 |
-
2017
- 2017-12-20 CN CN201711381367.2A patent/CN108052632B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1920817A (zh) * | 2006-09-14 | 2007-02-28 | 浙江大学 | 用于门户网站上,对多种资源仓库统一并行检索的方法 |
US8458227B1 (en) * | 2010-06-24 | 2013-06-04 | Amazon Technologies, Inc. | URL rescue by identifying information related to an item referenced in an invalid URL |
CN102930059A (zh) * | 2012-11-26 | 2013-02-13 | 电子科技大学 | 一种聚焦爬虫的设计方法 |
CN106462645A (zh) * | 2016-01-07 | 2017-02-22 | 马岩 | 网络信息的搜索方法及*** |
CN106709052A (zh) * | 2017-01-06 | 2017-05-24 | 电子科技大学 | 一种基于关键词的主题网络爬虫设计方法 |
Non-Patent Citations (1)
Title |
---|
面向论坛的文本特征提取及分类技术研究;肖雷;《中国优秀硕士学位论文全文数据库信息科技辑》;20151231;第2015年卷(第12期);第I138-965页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108052632A (zh) | 2018-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108052632B (zh) | 一种网络信息获取方法、***及企业信息搜索*** | |
US8473473B2 (en) | Object oriented data and metadata based search | |
CN109033358B (zh) | 新闻聚合与智能实体关联的方法 | |
CN102622445B (zh) | 一种基于用户兴趣感知的网页推送***及方法 | |
KR101775883B1 (ko) | 정보 스트림의 정보를 처리하는 방법 및 시스템 | |
CN104715064B (zh) | 一种实现在网页上标注关键词的方法和服务器 | |
US8380693B1 (en) | System and method for automatically identifying classified websites | |
US8560519B2 (en) | Indexing and searching employing virtual documents | |
CN107145496A (zh) | 基于关键词将图像与内容项目匹配的方法 | |
US20110208715A1 (en) | Automatically mining intents of a group of queries | |
US20160103913A1 (en) | Method and system for calculating a degree of linkage for webpages | |
US20110238653A1 (en) | Parsing and indexing dynamic reports | |
CN104391978A (zh) | 用于浏览器的网页收藏处理方法及装置 | |
US20150302090A1 (en) | Method and System for the Structural Analysis of Websites | |
CN107145497A (zh) | 基于图像和内容的元数据选择与内容匹配的图像的方法 | |
CN110889023A (zh) | 一种elasticsearch的分布式多功能搜索引擎 | |
CN103226609A (zh) | 一种web聚焦搜索***的搜索方法 | |
CN106874502A (zh) | 一种视频搜索的方法、装置及终端 | |
Devi et al. | An efficient approach for web indexing of big data through hyperlinks in web crawling | |
CN109272436B (zh) | 政策信息管理*** | |
Dixit et al. | Design of an ontology based adaptive crawler for hidden web | |
US20130311449A1 (en) | Identifying Referred Documents Based on a Search Result | |
CN110825976A (zh) | 网站页面的检测方法、装置、电子设备及介质 | |
CN107463570B (zh) | 一种文献检索/分析方法和装置 | |
Sultan et al. | Scraping Google Scholar Data Using Cloud Computing Techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |