CN103745006B

CN103745006B - 一种互联网信息搜索***及方法

Info

Publication number: CN103745006B
Application number: CN201410036538.8A
Authority: CN
Inventors: 吕书成
Original assignee: Individual
Current assignee: Individual
Priority date: 2014-01-24
Filing date: 2014-01-24
Publication date: 2017-05-03
Anticipated expiration: 2034-01-24
Also published as: CN103745006A

Abstract

本发明公开了一种互联网信息搜索***及方法，该***包括：搜索引擎服务器、网站服务器和客户端；本发明提供的一种互联网信息搜索***及方法，没有“网页数据库”，不需要庞大的服务器集群。

Description

一种互联网信息搜索***及方法

技术领域

本发明涉及互联网信息处理技术领域，尤其涉及一种互联网信息搜索***及方法。

背景技术

目前互联网领域的搜索引擎技术无一例外都是将为数众多的服务器联机，组成一个超大型“网页索引库”。

其工作方式为：（1）依靠“网络爬虫”不停地抓取互联网中各网站的网页存入搜索引擎服务器的“网页索引库”，存档备查。（2）当用户搜索时，搜索引擎根据用户提交的“关键词（或短语）”在搜索引擎自己的“网页索引库”中进行检索。（3）最后将检索到的库存网页经相关性排序后，以摘要的形式连同网页原址呈现给用户，然后由用户点选。

然而上述方法存在明显的技术缺陷：现有的搜索引擎为了追求信息的完备性，利用网络爬虫在互联网内到处不停的抓取网页存入自己的“网页索引库”，导致其“网页索引库”急速膨胀且越来越大（目前谷歌服务器已经超过百万台），这就造成数据存储量大、查询检索困难、海量数据调入响应时间长、数据组织困难等缺陷；显然上述搜索引擎服务器需要建立的“网页索引库”具有存在数据冗余、占用各类资源巨大、数据搜索和检索处理速度慢等缺陷。

发明内容

本发明的目的在于提供一种互联网信息搜索***及方法，以解决上述问题。

为了达到上述目的，本发明的技术方案是这样实现的：

本发明提供了一种互联网信息搜索***，包括搜索引擎服务器、网站服务器和客户端，其中：

所述网站服务器，用于向搜索引擎服务器发送接入请求，在与所述搜索引擎服务器接入后提交网站名称、网站首页地址，同时下载“网页评价暨监测程序”并上传到所述网站空间的根目录下；在加载运行所述网页评价暨监测程序后，实时采集所述网站服务器配置的各个网页的标题和网页地址、关键词及网页地址，并分别送交到搜索引擎服务器所属的专题索引目录库的表A、表B中，以此建立“标题与地址”、“关键词与地址”的对应关系模型；

所述搜索引擎服务器包括专题索引目录库；所述搜索引擎服务器，用于将从各个网站采集回来的网页“标题”、网页“关键词”作为“专题”，分别存储在所述表A和所述表B中，以所述“专题”对所有网页进行分类；根据客户端输入的关键词或短语进入相应的表A或表B查找匹配的专题，根据查找到的专题在对应关系模型中确定网页地址，并调用对应的网页的摘要信息，或向所有相关网站服务器发送针对特定网页的评价指令；

所述网站服务器，还用于在接到搜索引擎服务器发来的针对特定网页的评价指令后，加载运行“网页评价暨监测程序”，若评价结果即得分数值高于预设值，则将所述得分数值返回到搜索引擎服务器；

所述搜索引擎服务器，还用于将全部返回的得分数值进行比较、排序后将得分较高的前一百个网页的摘要信息以目录的形式推荐给所述客户端，供用户进行点选。

较佳地，所述对应关系模型中的每个网页标题与若干个网页地址对应；每个关键词与若干个网址对应。

较佳地，所述网页地址为网页URL链接地址。

相应地，本发明还提供了一种互联网信息搜索方法，包括如下步骤：

网站服务器向搜索引擎服务器发送接入请求，在与所述搜索引擎服务器接入后提交网站名称、网站首页地址，同时下载“网页评价暨监测程序”并上传到所述网站空间的根目录下；在加载运行所述“网页评价暨监测程序”后，实时采集所述网站服务器配置的各个网页的标题和网页地址、关键词及网页地址，并分别送交到搜索引擎服务器所属的专题索引目录库的表A、表B中，以此建立“标题与地址”、“关键词与地址”的对应关系模型；

所述搜索引擎服务器将从各个网站采集回来的网页“标题”、网页“关键词”作为“专题”，分别存储在所述表A和所述表B中，以所述“专题”对所有网页进行分类；根据客户端输入的关键词或短语进入相应的表A或表B查找匹配的专题，根据查找到的专题在对应关系模型中确定网页地址，并调用对应的网页的摘要信息，或向所有相关网站服务器发送针对特定网页的评价指令；

所述网站服务器在接到搜索引擎服务器发来的针对特定网页的评价指令后，加载运行“网页评价暨监测程序”，若评价结果即得分数值高于预设值，则将所述得分数值返回到搜索引擎服务器；

所述搜索引擎服务器将全部返回的得分数值进行比较、排序后将得分较高的前一百个网页的摘要信息以目录的形式推荐给所述客户端，供用户进行点选。

较佳地，所述搜索引擎服务器分别包括两种适用的专题搜索方式：

专题搜索方式一：单个关键词或短语搜索方法，即单语句搜索；

专题搜索方式二：两个及其以上的关键词或短语搜索方法，即多语句搜索。

较佳地，在用户在搜索引擎服务器所推荐的目录中进行点选，打开的网页之前，还包括如下步骤：

调取用户点选的网页中的网页内容，过滤网页内容中的黄色信息以及广告信息，并重新生成一个新的网页，将过滤后的网页内容覆盖在新的网页中；

将新的网页的地址隐藏，并调用原来的网址替换显示；

将新生成的网页内容和地址推荐给所述客户端。

所述网站服务器向搜索引擎服务器发送接入请求，在与所述搜索引擎服务器接入后，下载“网页评价暨监测程序”并上传到所述网站空间的根目录下；在加载所述网页评价暨监测程序时，实时采集所述网站服务器配置的各个网页的标题和网页地址、关键词及网页地址，并分别送交到搜索引擎服务器的专题索引目录库的表A、表B中，以此建立一种“标题与地址”、“关键词与地址”的对应关系模型；

所述搜索引擎服务器包括专题索引目录库，所述搜索引擎服务器，用于将采集来的网页“标题”、网页“关键词”作为“专题”，分别存入表A和表B中，以此“专题”对所有网页进行分类；根据客户端输入的关键词（或短语，或多个关键词）进入相应的表A或表B查找匹配的专题，根据查找到的专题在对应关系模型中确定网页地址，调用相关网页的摘要信息，或向所有相关网站服务器发送针对特定网页的评价指令。

所述网站服务器接到指令后，加载运行“网页评价暨监测程序”，若评价结果得分高于某个既定数值（纯数字），则将该数值返回到搜索引擎服务器（得分低于某个定值则不必返回信息）。

所述搜索引擎服务器，将全部返回的数值进行比较、排序后将得分较高的前一百个网页的摘要信息以目录的形式推荐给所述客户端，由用户进行点选。

与现有互联网信息搜索技术相比，本发明实施例的特点在于：

首先，在搜索引擎服务器分别建立网页“标题与地址”、网页“关键词与地址”对应关系模型；这是实现本方案的根本环节。本发明所述搜索引擎服务器端，不需要设置“网页索引库”，这样将减少搜索引擎服务器的数据检索和处理负担以及库存负担，从而保障搜索引擎运行速度不会因为数据检索而变慢；“网页评价暨监测程序”分别放在不同节点上的网站空间根目录下；

搜索引擎服务器根据从各网站采集来的“标题”、“关键词”对互联网中所有网页进行分类，（各个标题、关键词作为分类专题）；这样用户进行搜索时，搜索引擎服务器接收客户端输入的关键词自行到表A（或表B，根据用户输入的是单语句还是多语句）中进行匹配查找，根据查找到的专题，向所有相关网页所在服务器发送针对特定网页的调用或评价指令；（需要说明的是，该对应关系模型中的“专题”与网页地址是“一个对应若干个”）。

网站服务器接收针对特定网页的评价指令后，即可加载运行“网页评价暨监测程序”，并将评价结果发送到搜索引擎服务器（若得分低于某个定值则不发送），搜索引擎服务器经过对全部返回的分值进行排序后，仅将得分较高的前一百个网页的简要信息推荐给所述客户端，由用户进行点选。这样搜索引擎服务器就不必要使用爬虫程序在整个互联网到处抓取网页，而是根据用户输入的关键词（或短语、或多语句），到《专题索引目录库》中查找相匹配的“专题”，并根据“专题”所对应的地址指向，由相关网站中的“网页评价与监测程序”对特定网页或调用或“评价”（即：打分）然后交由搜索引擎服务器对所有返回的结果进行比较、排序，并以“摘要”目录的形式呈送给用户。

另外：用户在搜索引擎服务器所推荐的目录中进行点选，打开的网页将是一个经过“过滤与净化”（比如过滤黄色信息）的网页（虽然地址栏显示的还是原来的网址，但是内容是经过处理的、用户所需的信息）。页面刷新后回到原来的网页内容。具体实现方法：调取相应网页的主要内容，重新生成一个网页，将地址隐藏并调用原来的网址。

附图说明

图1为本发明实施例提供的互联网信息搜索***的结构示意图；

图2为本发明实施例提供的互联网信息搜索***在执行搜索操作时的示意图；

图3为本发明实施例提供的互联网信息搜索方法的流程示意图。

具体实施方式

下面通过具体的实施例子并结合附图对本发明做进一步的详细描述。

关于互联网中数据检索和传输，其实质是在相互连接的各个服务器之间的数据传输，即搜索引擎服务器、网站服务器和客户端，下面对本发明中涉及的互联网信息搜索***做进一步的说明：

参见图1，本发明实施例提供了一种互联网信息搜索***1，包括搜索引擎服务器10、网站服务器11和客户端12，其中：

所述网站服务器11，用于向搜索引擎服务器发送接入请求，在与所述搜索引擎服务器接入后提交网站名称、网站首页地址，同时下载“网页评价暨监测程序”并上传到所述网站空间的根目录下；在加载运行所述网页评价暨监测程序后，实时采集所述网站服务器配置的各个网页的标题和网页地址、关键词及网页地址，并分别送交到搜索引擎服务器所属的专题索引目录库的表A、表B中，以此建立“标题与地址”、“关键词与地址”的对应关系模型；

所述搜索引擎服务器10包括专题索引目录库；所述搜索引擎服务器，用于将从各个网站采集回来的网页“标题”、网页“关键词”作为“专题”，分别存储在所述表A和所述表B中，以所述“专题”对所有网页进行分类；根据客户端输入的关键词或短语进入相应的表A或表B查找匹配的专题，根据查找到的专题在对应关系模型中确定网页地址，并调用对应的网页的摘要信息，或向所有相关网站服务器发送针对特定网页的评价指令；

所述网站服务器11，还用于在接到搜索引擎服务器发来的针对特定网页的评价指令后，加载运行网页评价暨监测程序，若评价结果即得分数值高于预设值（即某个既定数值（纯数字）），则将所述得分数值返回到搜索引擎服务器（得分低于某个定值则不必返回信息）。

所述搜索引擎服务器10，还用于将全部返回的得分数值进行比较、排序后将得分较高的前一百个网页的摘要信息以目录的形式推荐给所述客户端12，供用户进行点选。

需要说明的是，所述网站服务器11，用于向搜索引擎服务器发送接入请求（即提交网址准备接入搜索引擎服务器），在与所述搜索引擎服务器接入后，将“网页评价暨监测程序”下载并上传到所述网站空间的根目录下；然后，由该程序实时采集所述网站服务器11配置的各个网页标题及其地址、关键词及其地址，并发送到搜索引擎服务器，其后，该程序监测所在网站的***页并实时发回新的信息。

所述搜索引擎服务器10，用于接收各网站返回的“标题与地址”、“关键词与地址”分别存放于搜索引擎服务器的《专题索引目录库》的表A、表B中，据此建立“标题与地址”、“关键词与地址”的对应关系模型；

所述客户端12，键入欲搜索的关键词（或短语、或多个语句），由程序进入《专题索引目录库》中根据具体情况自行查找（单语句进入表A查找相匹配的“专题”，多语句则进入表B查找相匹配的“专题”）。然后向该“专题”所对应的全部网页所在服务器调用或评价指令。

所述网站服务器11，还用于加载运行“网页评价暨监测程序”，将得分超过某个既定数值的结果（纯数字）发送到搜索引擎服务器，搜索引擎服务器经过对全部返回的数值进行排序后，将得分最高的前一百个网页的摘要信息以目录的形式推荐给所述客户端12。

较佳地，所述网页地址为网页URL链接地址。

较佳地，所述摘要信息包括网页标题、网页内容摘要和网页地址（例如：网页URL链接地址，其为统一资源定位符（UniformResource Locator，缩写为URL）是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址）。

需要说明的是，本发明涉及互联网信息搜索***中的搜索引擎服务器端，不需要“网页索引库”，因此可节约数以百万的服务器，这样将极大的减轻搜索引擎服务器对各种网络资源的需求和消耗，本搜索引擎***最突出的特点是:节能；另外，该互联网信息搜索***设立方法不仅适用于有线互联网，也适用于无线互联网。

具体地，搜索引擎服务器将按照规则自行建立网页的“标题与对应地址”以及网页“关键词与地址”建立对应关系，搜索引擎服务器依据从各个网站采集来的网页“标题”和“关键词”对互联网中的网页进行分类，每一个“标题”、“关键词”即是一个类别；这样用户在进行搜索检索时，搜索引擎服务器接收客户端输入的关键词（或短语），然后程序自行在表A或表B中查找与其匹配的专题，据此“专题”所对应的地址，或调用或向全部所有相关网站服务器发送或调用或针对特定网页的评价指令。

其中：网站服务器中的“网页评价暨检测程序”实时采集所述网站服务器11配置的各个网页的“标题和地址”，以及“关键词和地址”，并发送给搜索引擎服务器10，以建立一种“专题与地址”的对应关系。

需要说明的是，表A和表B分别用于两种搜索模式：

表A，主要用于单语句搜索，如：文章（或网页）标题搜索、成语搜索、新闻事件搜索、人物搜索、历史事件搜索、歌曲搜索、图片搜索、影视搜索等，还可扩展为“问题答案搜索”；表B，主要用于网页内容搜索。

搜索引擎服务器内设一个“网页评价结果整理程序”；其具有如下作用及功能：对各个网站返回的评价结果进行排序，取其前一百名（降幂排列）调用其摘要信息呈送客户端。

外部工作模块:“网页评价暨监测程序”，该程序由各网站管理员下载并上传至其网站空间根目录下。其具有如下作用及功能：采集所在网站的网页“标题及其地址”、网页“关键词及其地址”并分别送交到搜索引擎服务器的《专题索引目录库》的表A、表B中。

在本发明实施例中，搜索引擎服务器端设置一个《专题索引目录库》；由程序自动采集互联网中各个网页的“标题”和首个“关键词”及其地址分别存放于该库中的两个表（分别记为：A和B）中。以每个“标题”、“关键词”（即所述“专题”）作为划分、整合互联网各类信息的依据。

基于同一发明构思，本发明实施例还提供了一种互联网信息搜索方法，由于此方法解决问题的原理与前述互联网信息搜索***功能模块相似，因此该方法的实施可以参见前述***的实施，重复之处不再赘述。

相应地，参见图3，本发明实施例还提供了一种互联网信息搜索方法，包括如下步骤：

步骤S100、网站服务器向搜索引擎服务器发送接入请求，在与所述搜索引擎服务器接入后提交网站名称、网站首页地址，同时下载“网页评价暨监测程序”并上传到所述网站空间的根目录下；在加载运行所述网页评价暨监测程序后，实时采集所述网站服务器配置的各个网页的标题和网页地址、关键词及网页地址，并分别送交到搜索引擎服务器所属的专题索引目录库的表A、表B中，以此建立“标题与地址”、“关键词与地址”的对应关系模型；

步骤S200、所述搜索引擎服务器将从各个网站采集回来的网页“标题”、网页“关键词”作为“专题”，分别存储在所述表A和所述表B中，以所述“专题”对所有网页进行分类；根据客户端输入的关键词或短语进入相应的表A或表B查找匹配的专题，根据查找到的专题在对应关系模型中确定网页地址，并调用对应的网页的摘要信息，或向所有相关网站服务器发送针对特定网页的评价指令；

步骤S300、所述网站服务器在接到搜索引擎服务器发来的针对特定网页的评价指令后，加载运行“网页评价暨监测程序”，若评价结果即得分数值高于预设值，则将所述得分数值返回到搜索引擎服务器；

步骤S400、所述搜索引擎服务器将全部返回的得分数值进行比较、排序后将得分较高的前一百个网页的摘要信息以目录的形式推荐给所述客户端，供用户进行点选。

较佳地，在步骤S200中，所述搜索引擎服务器分别包括两种适用的专题搜索方式：

需要说明的是，在此思路的基础上，还可以变更、扩展为其它形式的搜索方法，比如问题答案的搜索。

较佳地，在步骤S400中，在用户在搜索引擎服务器所推荐的目录中进行点选，打开的网页之前，还包括如下步骤：

调取用户点选的网页中的主要内容，舍弃网页中的广告信息、黄色信息以及其它无关信息，重新生成一个网页；

将新的网页的地址隐藏，并调用原来的网址替换显示；

将新生成的网页递交给所述客户端。

需要说明的是，上述步骤可以过滤所有与用户需求无关的网页内容，提取用户需求的主要信息递交给客户端。

下面对本发明实施例提供的互联网信息搜索方法做进一步地详细说明：

用户输入“关键词（或短语或多语句）”并“提交”之后，“关键词检索程序”根据用户提交的是单语句或多语句先行判断，然后自行到表A或表B中查找相应的“专题”，然后向该“专题”所指向的全部网页所属网站发布相关网页的调用或评价指令。

接到该指令的各个网站服务器在各自站内由“网页评价暨监测程序”对“指令”中所提到的网页依据事先给定的统一评价规则进行评价（即“打分”），如果其分值高于某个既定数值则将该分值返还给本搜索引擎所在服务器（若低于则不返回），经本搜索引擎的“结果整理程序”将全部返回结果的分值排序后仅调取前100名（降幂排列）的网页摘要、网页标题连同网页地址以目录的形式呈现给用户，由用户点选。

用户在目录中进行点选，打开的网页将是一个经过“过滤与净化”（比如过滤黄色信息）的网页（虽然地址栏显示的还是原来的网址，但是内容是经过处理的、用户所需的信息）。页面刷新后回到原来的网页内容。

具体实现方法：调取相应网页的主要内容，重新生成一个新的网页，将地址隐藏并调用原来的网址。

同时，搜索引擎服务器搜集用户的每一次搜索结果中得分最高的网页信息（专题与地址），作为《优质网络信息资源》另存，以备它用。

用户此次搜索，至此结束。

综上所述，由以上几方面与现有搜索引擎不同的设计思路，有望实现以下七个方面改进效果：

A.节约大量的网络资源（因为不设“网页索引库”，因此省略了数以百万计（而且越来越多）的服务器及带宽，还节省了其它网络资源；更重要的是可以轻松应对互联网信息的***式增长）。本发明提供的互联网信息搜索***没有“网页数据库”，不需要庞大的服务器集群。

B.响应速度快（因为仅仅是在相关网站中开展针对既定目标网页的评价，且省略了搜索环节，双方服务器的工作量非常微小）。

C.以各个网站采集来的网页标题和首个关键词作为待搜索的“专题”、实现一键专题分类搜索（（3）有了明确的分类及专题，用户的搜索需求将不再模糊。根据用户提交的“关键词”施行“专题搜索”，用户的任何需求都可以满足。此种搜索方法既服务于大众，也照顾到小众）。

D搜索结果较之现有的搜索引擎更精准（摒弃现有的“网站权重”、“网页外部链接”与用户需求不甚密切的评价方式，改以“用户需求相关度”的评价体系,提高搜索结果的精准度）。

E.运行费用低廉（运行费用低廉------意味着长远的竞争优势）。可望实现“一台服务器起步，数台服务器集群封顶”（虽然网页“标题”和网页“关键词”数量巨大，但毕竟是有限的--------因为汉字的组合是有限的）。

F.实现信息的即时性（因为搜索结果直接来自于信息的发源地）。

G.仅提供用户需要的内容，过滤所有与用户需求无关的信息，实现某种程度上的“净化网络环境”效果（采用“提取主要内容，重新生成网页，仍以原址显示”的方法）。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种互联网信息搜索***，其特征在于：包括搜索引擎服务器、网站服务器和客户端，其中：

所述网站服务器，用于向搜索引擎服务器发送接入请求，在与所述搜索引擎服务器接入后提交网站名称、网站首页地址，同时下载“网页评价暨监测程序”并上传到网站空间的根目录下；在加载运行所述网页评价暨监测程序后，实时采集所述网站服务器配置的各个网页的标题和网页地址、关键词及网页地址，并分别送交到搜索引擎服务器所属的专题索引目录库的表A、表B中，以此建立“标题与地址”、“关键词与地址”的对应关系模型；

2.如权利要求1所述的互联网信息搜索***，其特征在于：

所述对应关系模型中的每个网页标题与若干个网页地址对应；每个关键词与若干个网址对应。

3.如权利要求2所述的互联网信息搜索***，其特征在于，

所述网页地址为网页URL链接地址。

4.一种互联网信息搜索方法，其特征在于：

5.如权利要求4所述的互联网信息搜索方法，其特征在于，

所述搜索引擎服务器分别包括两种适用的专题搜索方式：

6.如权利要求4所述的互联网信息搜索方法，其特征在于，

用户在搜索引擎服务器所推荐的目录中进行点选，打开的网页之前，还包括如下步骤:

搜索引擎服务器调取用户点选的网页中的主要内容，舍弃网页中的广告信息、黄色信息以及其它无关信息，重新生成一个网页；

将新的网页的地址隐藏，并调用原来的网址替换显示；

将新生成的网页递交给所述客户端。