CN101079048A

CN101079048A - 基于软件机器人排除标准的互联网信息搜索引擎及方法

Info

Publication number: CN101079048A
Application number: CN 200610141734
Authority: CN
Inventors: 林宏; 鲍劲松
Original assignee: WANWEI INFORMATION TECHN CO Ltd SHANGHAI
Current assignee: WANWEI INFORMATION TECHN CO Ltd SHANGHAI
Priority date: 2006-05-24
Filing date: 2006-09-28
Publication date: 2007-11-28

Abstract

一种基于软件机器人排除标准的互联网信息搜索引擎及方法，涉及计算机网络技术领域；互联网信息搜索引擎包括：中文引擎模块、并行页面请求引擎模块、智能页面分析引擎模块、客户请求端、提交客户端；客户请求端输入的客户请求，分别经并行页面请求引擎模块的软件机器人在网上搜索和智能页面分析引擎模块对搜索信息的分类整理、结果处理，其搜索结果由提交客户端提交给客户。互联网信息搜索方法，1)用户提交查询请求，由并行页面请求引擎模块派出“网页搜索程序”在网上搜寻所有信息；2)将搜索信息传至智能页面分析引擎模块，进行搜索信息分类整理，结果处理；3)由智能页面分析引擎模块将处理后搜索结果传至提交客户端。

Description

基于软件机器人排除标准的互联网信息搜索引擎及方法

技术领域

本发明涉及计算机网络技术，特别是涉及一种基于软件机器人排除标准的互联网信息搜索引擎技术。

背景技术

随着互联网(Internet)的迅猛发展、网页(Web)信息的增加，用户要在信息海洋里查找信息，就像大海捞针一样，搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。目前，搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。搜索引擎(Search Engine)是随着Web信息的迅速增加，从1995年开始逐渐发展起来的技术。2006年1月17日，中国互联网络信息中心(CNNIC)发布了第17次《中国互联网络发展状况统计报告》。报告显示：截止到2005年12月31日，我国CN下注册的域名数为109.7万个，与1年前相比增加66.5万个，增长率为154％，我国CN下注册的域名数的增长进一步说明了我国互联网产业正在快速发展。我国的互联网只是全球互联网的一部分，由此可见全球互联网的站点更是众多。用户要在如此浩瀚的信息海洋里寻找信息，必然如同大海捞针而无功而返。搜索引擎正是为了解决这个“迷航”问题而出现的技术。搜索引擎以一定的策略在互联网中搜集、发现信息，对信息进行理解、提取、组织和处理，并为用户提供检索服务，从而起到信息导航的目的。搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务，搜索引擎站点也被美誉为网络门户。搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。搜索引擎(Search Engines)是一个对互联网上的信息资源进行搜集整理，然后供用户查询的***，它包括信息搜集、信息整理、用户查询三部分。搜索引擎是一个为用户提供信息检索服务的网站，它使用某些程序把互联网上的所有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息。

随着互联网的极度膨胀，人们越来越依赖于各种搜索引擎查找信息。但是，它们的可信赖度到底有多大呢？根据专家的评测，目前主要的搜索引擎返回的相关结果的比率不足45％，而且由于机制、范围、算法等的不同，导致同样一个检索请求在不同搜索引擎中的查询结果的重复率不足34％。因此，要想获得一个比较全面、准确的结果，就必须反复调用多个搜索引擎。本发明元搜索引擎的出现，在一定程度上解决了这些问题。

发明内容

针对上述现有技术中存在的缺陷，本发明所要解决的技术问题是提供一种能提高网络线路和设备资源的使用率，更精确地收集信息的，能在有限的搜索来源中获得更多、更精确的信息的，能缩短信息采集、传输、整理的时间并有效的减少占用的带宽，减少用户的等待时间的，具有负载自适应处理功能的基于软件机器人排除标准的互联网信息搜索引擎及方法。

为了解决上述技术问题，本发明所提供的一种基于软件机器人排除标准的互联网信息搜索引擎，包括：

一中文引擎模块，收录中文最权威的网站，并支持英文搜索；

一并行页面请求引擎模块，连接中文引擎模块；

一智能页面分析引擎模块，分别连接中文引擎模块和并行页面请求引擎模块的输出端；

一客户请求端，分别连接智能页面分析引擎模块和并行页面请求引擎模块的输入端；

一提交客户端，连接智能页面分析引擎模块的输出端；

客户请求端输入的客户请求，分别经并行页面请求引擎模块的软件机器人在网上搜索和智能页面分析引擎模块对搜索信息的分类整理、结果处理，其搜索结果由提交客户端提交给客户。

进一步地，所述智能页面分析引擎模块设有：

输入端：比如用户输入的是“计算机”，引擎会自动到数据字典中找到该字的上下游词，比如会得到词：“电脑”、“微机”、“computer”、“PC”等词；

噪音过滤：对用户输入的信息自动分类处理；

解释端：从反馈回来的页面自动找出相关的词，计入相关度中；

对对方的引擎的调整自动适应：因为原始引擎可能因为技术调整、其他因素改动页面，而造成页面解析不成功；本引擎能够自动调整处理。

为了解决上述技术问题，本发明所提供的一种基于软件机器人排除标准的互联网信息搜索方法的步骤包括：

1)用户在客户请求端提交一个查询请求，并传至并行页面请求引擎模块，由并行页面请求引擎模块派出“网页搜索程序”(网上机器人)在网上搜寻所有信息，将查询请求通过Socket连接，分配给选定的那些搜索引擎，那些搜索引擎收到查询请求，从各自的数据库中搜索相关数据，再把搜索信息由“网页搜索程序”带回搜索引擎的并行页面请求引擎模块；

2)由并行页面请求引擎模块将搜索信息传至智能页面分析引擎模块，由智能页面分析引擎模块将搜索信息进行分类整理，结果处理，即对各条记录进行总结，去掉相同的和多余的，这中间过程要对搜索信息进行权重设定并排序(Rank)；

3)由智能页面分析引擎模块将处理后的搜索结果传至提交客户端，由提交客户端通过Web服务器端软件，以统一的页面格式为用户提供浏览器界面下的信息查询。

进一步地，在由并行页面请求引擎模块派出“网页搜索程序”在网上搜寻的步骤1)中，机器人寻找WWW文档的算法：

a.由网上机器人获取在Internet上的信息；

b.机器人寻找WWW文档的算法包括有深度优先和广度优先两种基本的搜索策略；

c.机器人排斥标准：查看服务器的根目标，寻找robot.txt的文件，并按照里面给出的限制去做；

d.注意机器人的礼节。

进一步地，在由智能页面分析引擎模块将信息进行分类整理、结果处理的步骤2)中，其结果处理技术中的网页评选的主要因素包括：

a.网页评选的网页数据库、检索的时间、网页的质量和网站的相关度的四个主要因素；

b.搜索结果的按频次排定次序、按页面被访问度排序、进一步净化(refine)结果的处理方法。

本发明提供的基于软件机器人排除标准的互联网信息搜索引擎及方法具有的有益效果具体如下：

由于使用了SERVLET技术，解决了网上超大流量和带宽的矛盾，提高了网络线路和设备的资源的使用率；

采用了页面智能分析技术，使用该技术建立的数字模型是根据评定的搜索引擎等级、数据库容量及网络状况抽象而成，可以在有限的搜索来源中获得更多、更精确的信息；

使用了多分类处理，用户可以根据相关度、时间、域名、引擎选择分类，更容易得到各种具体的信息；

采用负载自适应处理技术，用户少时，将查询时间加长，提供更多、更精确的信息；用户多时，将时间减少，缩短了等待时间；

设有功能强大的高级查询，用户可以根据自己的特殊查询，选择反馈的时间、记录数、使用的引擎等，使用户适应当地的网络状况。

附图说明

图1是本发明实施例的基于软件机器人排除标准的互联网信息搜索引擎的结构框图。

图2是本发明实施例的用于检索信息的程序框图。

图3是本发明实施例的用于搜索方法的程序框图。

图4是本发明实施例的网上机器人寻找WWW文挡的程序框图。

具体实施方式

以下结合附图说明对本发明的实施例作进一步详细描述，但本实施例并不用于限制本发明，凡是采用本发明的相似结构及其相似变化，均应列入本发明的保护范围。

如图1所示，本发明的基于软件机器人排除标准的互联网信息搜索引擎，包括：

一中文引擎模块，收录中文最权威的网站，本搜索引擎集成了3个英文搜索引擎如Google、Yahoo、hotbot、和6个中文搜索引擎如新浪、雅虎(中文)、中文Goole、百度、搜狐、天网。用户可根据需要自由选择其中的引擎进行同步搜索，搜索结果可按相关度、时间、域名和引擎分类，

一并行页面请求引擎模块，连接中文引擎模块；

一提交客户端，连接智能页面分析引擎模块的输出端。

其中，为了从有限的信息中获得更多的信息，所述智能页面分析引擎模设有：

噪音过滤：对用户输入的信息自动分类处理；

对对方的引擎的调整自动适应：因为原始引擎可能因为技术调整、其他因素改动页面，而造成页面解析不成功。本引擎能够自动调整处理。

所述智能页面分析引擎模设有网络模拟数学模型分析，即对所有的引擎反馈的页面作统一的数学模型分析归类，对不同的引擎反馈的结果都有统一的相关度。

如图2所示，本发明元搜索引擎完成主要任务的方法的程序步骤：当用户输入关键词(Keyword)查询时，在Internet上主动搜索Web服务器信息并将其自动索引，并告诉用户包含该关键词信息的网页中文档的摘要和该网页的网址，并提供通向该网站的链接。首先，用户提交一个查询请求。紧接着服务器收到之后，把这个查询请求通过Socket连接，分配给选定的那些搜索引擎。然后，那些搜索引擎收到查询请求了，从自己本身的数据库中搜索相关数据，再把搜索结果返回给我们的服务器。接下来，我们的服务器收到各个引擎的搜索结果，并且对各条记录进行总结，去掉相同的和多余的。这中间过程要对他们进行权重设定并排序(Rank)。最后以统一的页面格式返回给用户。

如图3所示，本发明实施例所提供的一种基于软件机器人排除标准的互联网信息搜索方法的步骤：

搜索引擎的并行页面请求引擎模块派出或“机器人(robots)”的网页搜索软件在各网址中爬行，访问网络中公开区域的每一个站点并记录其网址，从而创建出一个详尽的网络目录。Meta Engine搜索引擎工作的最初步骤大致都是如此。

在进行信息分类整理阶段，不同的***会在搜索结果的数量和质量上产生明显的不同。有的***是把“网页搜索软件”发往每一个站点，记录下每一页的所有文本内容；其他***则首先分析数据库中的地址，以判别哪些站点最受欢迎(一般都是通过测定该站点的链接数量)，然后再用软件记录这些站点的信息。记录的信息包括从HTML标题到整个站点所有文本内容以及经过算法处理后的摘要；

3)由智能页面分析引擎模块将处理后的搜索结果传至提交客户端，由提交客户端通过Web服务器端软件，以统一的页面格式为用户提供浏览器界面下的信息查询；

引擎的所述提交客户端都提供了一个良好的界面，并具有帮助功能。用户只要把想要查找的关键字或短语输入查询栏中，并按“Search”按钮(或其他类似的按钮)。搜索引擎就会根据用户输入的提问，在索引中查找相应的词语，并进行必要的逻辑运算，最后给出查询的命中结果(均为超文本链形式)。用户只需通过搜索引擎提供的链接，马上就可以访问到相关信息。引擎将搜索的范围进行了分类，查找可以在用户指定的类别中进行，这样可以提高查询效率，搜索结果的“命中率”较高，从而节省了搜寻时间。

在搜索引擎的并行页面请求引擎模块派出“网页搜索程序”(机器人)在网上搜寻的步骤1)中，机器人寻找WWW文档的算法：

凡上网者都用过搜索引擎，Google、Yahoo、Hotbot、搜狐、北大天网等等，它们的索引数据库涉及Internet上超过1亿的页面，如Altavista、Hotbot等。北大天网也收集了32万个www页面(国内)，索引数据库的建立需要访问这些页面然后进行索引，如何做到对如此多的页面的访问，现在的搜索引擎无论是针对英文还是中文，大都采用网上机器人来实现网上搜索。

1)网上机器人

网上机器人(Robot)又被称作Spider、Worm或Random，核心目的是为获取在Internet上的信息。机器人利用主页中的超文本链接遍历Web，通过URL引用从一个HTML文档爬行到另一个HTML文档。网上机器人收集到的信息可有多种用途，如建立索引、HTML文件的验证、URL链接验证、获取更新信息、站点镜像等。

2)机器人寻找WWW文档的算法

机器人要在网上爬行，因此需要建立一个URL列表来记录访问的轨迹。使用的是超文本，指向其它文档的URL是隐藏在文档中，需要从中分析提取URL；机器人一般都用于生成索引数据库。所有WWW的搜索程序都有类似步骤：机器人从起始URL列表中取出URL并从网上读取其内容；从每一个文档中提取某些信息并放入索引数据库中；从文档中提取指向其它文档的URL，并加入到URL列表中。如图4所示，机器人寻找WWW文档算法的程序步骤；重复上述3个步骤，直到再没有新的URL发现或超出了某些限制(时间或磁盘空间)；给索引数据库加上查询接口，向网上用户发布。

算法有深度优先和广度优先两种基本的搜索策略。

机器人以URL列表存取的方式决定搜索策略：先进先出，则形成广度优先搜索。当起始列表包含有大量的Web服务器地址时，广度优先搜索将产生一个很好的初始结果，但很难深入到服务器中去。先进后出，则形成深度优先搜索。这样能产生较好的文档分布，更容易发现文档的结构，即找到最大数目的交叉引用。

3)机器人使用的关键点：

a.注意网络资源和***负荷

机器人从站点上获取信息的速度比人要快得多。机器人可以同时运行几个进程，可一次从多个站点取回信息，在不到一分钟的时间里可以访问一百个站点，但也可能是同一个站点的一百个文档。它们总是以建立连接和服务器所允许的最快速度存取页面，这会给网络和服务器***带来很大的压力，甚至可能使在同一时刻想要访问站点的人遭到服务拒绝。

b.不要循环或重复

记住所有访问过的站点；检查不同的URL是否是同一个含义，如“Web.nexor.co.uk”，“hercules.nexor.co.uk”和128.243.219.1是指的同一台机器；不要忘了子页引用，<AHREF＝“#abstract”>，它指向的是同一页面。

c.只请求所需

当只需要处理文本，而链接却指向“.ps”、“.zip”、“.z”和“.gif”等等，程序应忽略这些链接；还要注意那些勿需处理的其它协议如“news”和“wais”等。

d.“黑洞”

有些站点的URL几乎是无限的，例如由CGI程序返回的继续包含CGI程序引用的页面，它可以从“/cgi bin/pit”开始，继之以“/cgi bin/pit/a”、“/cgibin/pit/a/a”等等，这种URL区域容易使机器人陷入其中不能自拔，这种区域称为“黑洞”，单靠机器人本身有时是无法解决的。

4)机器人排斥标准

WebServer常常会有许多本地信息(如内部数据库索引)，或某些临时存在的信息。由机器人来确定大量的这种应排除的文档是非常浪费的。另外，还有令机器人头疼的“黑洞”。而对于服务器管理员来说，使其愤怒的是某些行为不规范、贪得无厌的机器人。

1994年6月，一批机器人作者和热衷者联合制定了一个文档，称做机器人排斥标准(the standard for robots exclusion)。该文档简单地指出，一个机器人应该查看服务器的根目标，寻找一个叫做robot.txt的文件，并按照里面给出的限制去做。该文档为服务器管理员提供了一种手段，使他们可以控制哪些机器人可访问数据以及允许机器人游历服务器上的什么地方。该文档只是一个提议，尚未成为任何的官方标准。

5)机器人的礼节

大多数***管理员乐于让别人索引他们的页面，让公众获取他们的信息，可是运行拙劣的机器人也很容易激起他们的愤怒，所以要记住下面机器人指南：

a.标识你自己和你的机器人

机器人应该配置USER-AGENT以标识它自己，并附加一个电子邮件地址，使得对你的机器人有问题的人可以与你联系。当机器人运行时，不要离开它，以应保持对机器人的控制。

b.本地运行检查

尽量先在本地的局域网上检查你的机器人，进行各种可能情况的测试，有把握后再将其收到Internet上。

c.遵守robots.txt文件中的限制。

不要触及管理员只想留在自己***的非出版信息。

d.在适当的时间运行你的机器人

站点一般都有负荷较轻的时候，如果你决定对某一站点进行多次自动访问，最好事先了解其最佳访问时间。

e.共享结果

将搜索结果在网上公布，使大家都可以访问到。

在由智能页面分析引擎模块将信息进行分类整理，结果处理的步骤2)中，其结果处理技术包括：

1)网页评选的主要因素

搜索引擎应该能够找到与搜索要求相对应的站点，并按其相关程度将搜索结果排序。这里的相关程度是指搜索关键词在文档中出现的频度，最高为“1”。当频度越高时，则认为该文档的相关程度越高。但由于目前的搜索引擎还不具备智能，除非你知道要查找的文档的标题，否则排列第一的结果未必是最好的结果。所以有些文档尽管相关程度高，但并不一定是用户最需要的文档。

搜索引擎是一个技术含量很高的电脑网络应用***。它包括网络技术、数据库技术、检索技术、智能技术等等。在这一方面，由于国外的很多先进技术是建立在西文内核的基础上，所以我们还不能单纯引进照搬照抄。作为中文搜索引擎来讲，如何来发挥我们在中文处理上的长处，发展出有我们自己版权的核心技术，使我们在中文搜索引擎的竞争中占有有利地位。

网页评选的四个主要因素：

a.网页数据库

网页数据库的大小，主要是人工浏览后定的。

b.检索的时间

检索响应的时间，主要是程序里得出的。程序首先记下访问搜索引擎开始的时间，然后到取得记录后，又记下当时的时间，然后把两个时间减一下就得出了检索响应的时间。

c.网页的质量

网页的质量划分主要也是由人工排定的。搜索引擎总是要将检索结果返回给用户，而结果显示的好坏直接影响到搜索引擎的使用效果。因此，结果显示的内容组织，如何排序，是否提供足够的相关信息(内码、文件大小、文件日期等)，对用户对检索结果的判断具有很大的影响。

d.网站的相关度

各个网站的相关度和以下因素有关：各个网站的相关度；能够区分搜索结果的相关性(Pertinency)。人为的对网站设定一个相关系数，如Yahoo1.0，Goyoyo 0.94等；链接，Summary中出现的关键词的次数；记录返回时间，即检索响应的时间。

2)搜索结果处理方法

a.按频次排定次序

通常来说，如果一个页面包含了越多的关键词，其搜索目标的相关性应该越好，这是非常合乎常理的解决方案。

b.按页面被访问度排序

在这种方法中，搜索引擎会记录它所搜索到的页面被访问的频率。人们访问较多的页面通常应该包含信息比较多，或者有其它吸引人的长处。这种解决方案适合一般的搜索用户，而因为大部分的搜索引擎都不是专业性用户，所以这种方案也比较适合一般搜索器使用。

c.进一步净化(refine)结果

按照一定的条件对搜索结果再进行优化，可以再选择类别、相关词等。搜索引擎***的软件环境：

A.服务器***软件

服务器的***软件为Microsoft Windows 2000 Server或Windows NT.

B.WEB服务器软件

本发明元搜索引擎服务器软件采用JRun 3.1。Macromedia公司的JRun是一个具有最广阔适用性的Java引擎，用于开发及实施由Java Servlets和JavaServer Pages编写的服务器端Java应用。JRun在已有的Web服务器上添加服务器端Java的功能。其中Web服务器包括了Microsoft IIS、Netscape Enterprise Server、Apache等。JRun接受多个并发的连接并且包括全部Java Servlet API，支持JavaServer Pages(JSP)，支持所有主要的Web servers和计算机平台。

C.应用开发软件

采用JAVA作为开发平台。JAVA是目前在美国使用最广的企业软件开发平台标准。JAVA是一种纯OO语言，它具有很强的扩展性、开放性、安全性、分布性、网络性、可靠性、可移植性、动态性、并支持多线程。此外，JAVA具有一整套十分丰富的标准软件包(API)，从而大大缩短开发大型软件的时间。JAVA已不是一个简单的语言，它已成为一个非常强大、完整的开发平台。被(除微软外的)几乎所有软件公司所采纳、推广和使用。

搜索引擎***的硬件环境

A.***的服务器

服务器的硬件选择没有具体的要求，但是有些部件的性能指标需要达到一定程度，具体如表5-2-1所示。

表5-2-1***服务器的配置要求

部件名称	性能要求
部件名称	性能要求	CPU	至少PIII650
网卡	至少100M	CPU	至少PIII650
网卡	至少100M	主板	总线速度尽可能高
内存	至少256M	主板	总线速度尽可能高

B.服务器的UPS

由于应用服务器在工作时间需要响应客户的大量请求，需要保证服务器24小时都能正常运转，所以需要给服务器配备UPS，防止断电造成服务器停止服务或数据损坏、丢失。由于服务器在夜间无人值守，所以UPS的电池需要能保证足够长的电力持续时间。

Claims

1、一种基于软件机器人排除标准的互联网信息搜索引擎，其特征在于，包括：

一并行页面请求引擎模块，连接中文引擎模块；

一提交客户端，连接智能页面分析引擎模块的输出端；

2、根据权利要求1所述的基于软件机器人排除标准的互联网信息搜索引擎，其特征在于，所述智能页面分析引擎模块设有：

输入端：比如用户输入的是“计算机”，引擎会自动到数据字典中找到该字的上下游词；

噪音过滤：对用户输入的信息自动分类处理；

3、一种基于软件机器人排除标准的互联网信息搜索方法，其特征在于，搜索方法步骤包括：

1)用户在客户请求端提交一个查询请求，并传至并行页面请求引擎模块，由并行页面请求引擎模块派出“网页搜索程序”在网上搜寻所有信息，将查询请求通过Socket连接，分配给选定的那些搜索引擎，那些搜索引擎收到查询请求，从各自的数据库中搜索相关数据，再把搜索信息由“网页搜索程序”带回搜索引擎的并行页面请求引擎模块；

3)由智能页面分析引擎模块将处理后搜索结果传至提交客户端，由提交客户端通过Web服务器端软件，以统一的页面格式为用户提供浏览器界面下的信息查询。

4、根据权利要求3所述的基于软件机器人排除标准的互联网信息搜索方法，其特征在于，在由并行页面请求引擎模块派出“网页搜索程序”在网上搜寻的步骤1)中，机器人寻找WWW文档的算法：

a.由网上机器人获取在Internet上的信息；

d.注意机器人的礼节。

5、根据权利要求3所述的基于软件机器人排除标准的互联网信息搜索方法，其特征在于，在由智能页面分析引擎模块将信息进行分类整理、结果处理的步骤2)中，其结果处理技术中的网页评选的主要因素包括：