CN1325076A

CN1325076A - 网络中文信息综合搜索器

Info

Publication number: CN1325076A
Application number: CN 00115797
Authority: CN
Inventors: 林宏; 鲍劲松
Original assignee: WANWEI INFORMATION TECHN CO Ltd SHANGHAI
Current assignee: WANWEI INFORMATION TECHN CO Ltd SHANGHAI
Priority date: 2000-05-23
Filing date: 2000-05-23
Publication date: 2001-12-05

Abstract

网络中文信息综合搜索器,***结构包括输入端、噪音过滤,解释端和对对方引擎的自动调整适应处理,根据所设网络模拟数学模型分析搜索列的信息,并依据用户请求,编排后交用户使用,该模拟数学模型分析采用Wideway Search引擎对所有引擎反馈的页面作统一的数学模型分析归类,并对各不同反馈结果统一相关度,设条件为:原始引擎权重KL、页面本身相关度C、页面反馈时间T、一个引擎反馈结果数N,经钟型脉冲数学公式分析后得统一相关度。

Description

网络中文信息综合搜索器

本发明涉及计算机网络信息的处理***，特别是一种网络中文信息综合搜索器。

当今Internet页面全球约有10亿个，涉及到日常生活的各个方面。曾经人们还为Internet上的信息少而苦恼，如今却陷入到知识***、太多的信息使人无所适从的境地。从YAHOO搜索引擎的出世，到今天越来越多的搜索引擎的出现，无不显示出人们对信息查找的重视，如何在浩瀚的信息世界找到自己所要的信息，成为人们不得不思索的问题。

近几年来在INTERNET上出现的METAENGINE是将各个搜索引擎的数据库集中起来，为用户提供复盖率更广、更精确的搜索，因为一家引擎很难穷尽世界所有的页面，从技术上、操作上都不可能。

随着中国INTERNET的普及，中国上网人数每隔数月就翻一番，中文的信息量也越来越大。同样的信息查找问题摆在人们面前，目前提供中文搜索的引擎主要是，中文YAHOO、SOHU中文、新浪中文、天网、悠游等几家，他们收录的中文信息有限，同时对中文的分类、整理并没有仔细的处理，人们往往查到的信息并不是他们所要的。

INTERNET上至今还没有一个中文的METAENGINE，如果将各个中文引擎的数据库放到一起，同时对搜索的结果都精挑细选，那么让中国人也能享受到先进查询带来的好处。

本发明的目的就是为了解决已有技术的问题满足用户对中文信息的查询检索的需求。采用SERVLET技术，运用最新的技术处理目前国内复杂的网络环境。

本发明的***结构包括一种网络中文信息综合搜索器，***结构主要包括输入端、噪音过滤，解释端和对对方引擎的自动调整适应处理，根据所设网络模拟数学模型分析搜索到的信息，并依据用户请求，编排后交用户使用，其特征在于所述网络模拟数学模型分析为采用Wideway Search引擎对所有引擎反馈的页面作统一的数学模型分析归类，并对各不同反馈结果统一相关度，该相关度分析条件为：原始引擎的权重KL、页面本身的相关度C、页面反馈的时间T、一个引擎反馈的结果数N，经钟型脉冲数学公式分析后得统一相关度。

图1是本发明的***结构示意图

下面结合附图进一步说明本发明的实施例

用户在输入端提出检索请求如主题词、关键词等，进入页面智能分析引擎，该引擎收录了目前中文最权威的搜索引擎如中文YAHOO、中文EXITE、新浪中文、搜狐中文、北大天网、悠游、飞花中文、中文网典、欧姆龙、搜索客、网易中文。本搜索引擎还支持英文，收录目前世界技术最前沿、资料最全的五家搜索引擎：YAHOO、ALAVESTA、NORTHERNLIGHT、DIRECTHIT、GOOGLE。由于中国目前的网络带宽有限，页面的分析经常要靠原始引擎的结果。为了从有限的信息中获得更多的信息，本引擎采用智能推理分析页面，将用户输入的请求经噪音过滤，对信息自动分类处理后，由解释端从反馈回来的页面自动找出相关的词，计入相关度中，然后对对方的引擎调整自动适应处理，与此同时用户的请求进入并行页面请求引擎进行搜索，并将搜索到的信息返馈页面智能分析引擎，根据所设网络模拟数学模型分析搜索到的信息，并依据用户请求编排后交用户使用。

网络模拟数学模型分析采用WIDEWAYSEARCH引擎对所有的引擎反馈的页面作统一的数学模型分析归类，对不同的引擎反馈的结果都有统一的相关度。

该相关度分析条件：

1、原始引擎的权重KL：这是基本权重。由于中文引擎质量存在差别，所以将引擎分类，对于好的引擎，反馈回的记录的权重将高于其他的引擎反馈的结果。

2、页面本身的相关度C：对每条反馈的结果作智能分析，判断结果的相关度，即对简介作全文检索分析。

3、页面反馈的时间T：由于相关度和服务器与用户的距离有关，比如YAHOO的某条记录特别符合用户的需要，但是要链接到该页面可能化用户10分钟，这条记录的有效性将受到怀疑。因此监测每条记录的反馈结果，提供给用户参考链接该记录的花费时间。而不使用户作无用的尝试。

4、一个引擎反馈的结果数N：它将被最终的相关度作参考，我们注意到，反馈的结果数其实和该引擎的数据库大小有关，而该引擎的复盖率明显会对用户判断该记录的权威性产生影响。

根据以上相关度分析条件经钟型脉冲数学公式分析后得统一相关度。

本发明优点是采用多分类处理，在目前国内复杂的网络环境中用户可以根据相关度、时间、域名、选择的引擎进行分类，让用户更容易在信息中方便导航，采用SERVLET技术构建，有很大的伸缩空间以应付大量用户的请求，同时对服务程序作了特殊的负载自适应处理，能提供给用户多而精细的信息，并可大大减少用户等待的时间。

Claims

1、一种网络中文信息综合搜索器，***结构主要包括输入端、噪音过滤，解释端和对对方引擎的自动调整适应处理，根据所设网络模拟数学模型分析搜索到的信息，并依据用户请求，编排后交用户使用，其特征在于所述网络模拟数学模型分析为采用WidewaySearch引擎对所有引擎反馈的页面作统一的数学模型分析归类，并对各不同反馈结果统一相关度，该相关度分析条件为：原始引擎的权重KL、页面本身的相关度C、页面反馈的时间T、一个引擎反馈的结果数N，经钟型脉冲数学公式分析后得统一相关度。