CN1325076A - 网络中文信息综合搜索器 - Google Patents

网络中文信息综合搜索器 Download PDF

Info

Publication number
CN1325076A
CN1325076A CN 00115797 CN00115797A CN1325076A CN 1325076 A CN1325076 A CN 1325076A CN 00115797 CN00115797 CN 00115797 CN 00115797 A CN00115797 A CN 00115797A CN 1325076 A CN1325076 A CN 1325076A
Authority
CN
China
Prior art keywords
engine
degree
correlation
feedback
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 00115797
Other languages
English (en)
Inventor
林宏
鲍劲松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WANWEI INFORMATION TECHN CO Ltd SHANGHAI
Original Assignee
WANWEI INFORMATION TECHN CO Ltd SHANGHAI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WANWEI INFORMATION TECHN CO Ltd SHANGHAI filed Critical WANWEI INFORMATION TECHN CO Ltd SHANGHAI
Priority to CN 00115797 priority Critical patent/CN1325076A/zh
Publication of CN1325076A publication Critical patent/CN1325076A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

网络中文信息综合搜索器,***结构包括输入端、噪音过滤,解释端和对对方引擎的自动调整适应处理,根据所设网络模拟数学模型分析搜索列的信息,并依据用户请求,编排后交用户使用,该模拟数学模型分析采用Wideway Search引擎对所有引擎反馈的页面作统一的数学模型分析归类,并对各不同反馈结果统一相关度,设条件为:原始引擎权重KL、页面本身相关度C、页面反馈时间T、一个引擎反馈结果数N,经钟型脉冲数学公式分析后得统一相关度。

Description

网络中文信息综合搜索器
本发明涉及计算机网络信息的处理***,特别是一种网络中文信息综合搜索器。
当今Internet页面全球约有10亿个,涉及到日常生活的各个方面。曾经人们还为Internet上的信息少而苦恼,如今却陷入到知识***、太多的信息使人无所适从的境地。从YAHOO搜索引擎的出世,到今天越来越多的搜索引擎的出现,无不显示出人们对信息查找的重视,如何在浩瀚的信息世界找到自己所要的信息,成为人们不得不思索的问题。
近几年来在INTERNET上出现的METAENGINE是将各个搜索引擎的数据库集中起来,为用户提供复盖率更广、更精确的搜索,因为一家引擎很难穷尽世界所有的页面,从技术上、操作上都不可能。
随着中国INTERNET的普及,中国上网人数每隔数月就翻一番,中文的信息量也越来越大。同样的信息查找问题摆在人们面前,目前提供中文搜索的引擎主要是,中文YAHOO、SOHU中文、新浪中文、天网、悠游等几家,他们收录的中文信息有限,同时对中文的分类、整理并没有仔细的处理,人们往往查到的信息并不是他们所要的。
INTERNET上至今还没有一个中文的METAENGINE,如果将各个中文引擎的数据库放到一起,同时对搜索的结果都精挑细选,那么让中国人也能享受到先进查询带来的好处。
本发明的目的就是为了解决已有技术的问题满足用户对中文信息的查询检索的需求。采用SERVLET技术,运用最新的技术处理目前国内复杂的网络环境。
本发明的***结构包括一种网络中文信息综合搜索器,***结构主要包括输入端、噪音过滤,解释端和对对方引擎的自动调整适应处理,根据所设网络模拟数学模型分析搜索到的信息,并依据用户请求,编排后交用户使用,其特征在于所述网络模拟数学模型分析为采用Wideway Search引擎对所有引擎反馈的页面作统一的数学模型分析归类,并对各不同反馈结果统一相关度,该相关度分析条件为:原始引擎的权重KL、页面本身的相关度C、页面反馈的时间T、一个引擎反馈的结果数N,经钟型脉冲数学公式分析后得统一相关度。
图1是本发明的***结构示意图
下面结合附图进一步说明本发明的实施例
用户在输入端提出检索请求如主题词、关键词等,进入页面智能分析引擎,该引擎收录了目前中文最权威的搜索引擎如中文YAHOO、中文EXITE、新浪中文、搜狐中文、北大天网、悠游、飞花中文、中文网典、欧姆龙、搜索客、网易中文。本搜索引擎还支持英文,收录目前世界技术最前沿、资料最全的五家搜索引擎:YAHOO、ALAVESTA、NORTHERNLIGHT、DIRECTHIT、GOOGLE。由于中国目前的网络带宽有限,页面的分析经常要靠原始引擎的结果。为了从有限的信息中获得更多的信息,本引擎采用智能推理分析页面,将用户输入的请求经噪音过滤,对信息自动分类处理后,由解释端从反馈回来的页面自动找出相关的词,计入相关度中,然后对对方的引擎调整自动适应处理,与此同时用户的请求进入并行页面请求引擎进行搜索,并将搜索到的信息返馈页面智能分析引擎,根据所设网络模拟数学模型分析搜索到的信息,并依据用户请求编排后交用户使用。
网络模拟数学模型分析采用WIDEWAYSEARCH引擎对所有的引擎反馈的页面作统一的数学模型分析归类,对不同的引擎反馈的结果都有统一的相关度。
该相关度分析条件:
1、原始引擎的权重KL:这是基本权重。由于中文引擎质量存在差别,所以将引擎分类,对于好的引擎,反馈回的记录的权重将高于其他的引擎反馈的结果。
2、页面本身的相关度C:对每条反馈的结果作智能分析,判断结果的相关度,即对简介作全文检索分析。
3、页面反馈的时间T:由于相关度和服务器与用户的距离有关,比如YAHOO的某条记录特别符合用户的需要,但是要链接到该页面可能化用户10分钟,这条记录的有效性将受到怀疑。因此监测每条记录的反馈结果,提供给用户参考链接该记录的花费时间。而不使用户作无用的尝试。
4、一个引擎反馈的结果数N:它将被最终的相关度作参考,我们注意到,反馈的结果数其实和该引擎的数据库大小有关,而该引擎的复盖率明显会对用户判断该记录的权威性产生影响。
根据以上相关度分析条件经钟型脉冲数学公式分析后得统一相关度。
本发明优点是采用多分类处理,在目前国内复杂的网络环境中用户可以根据相关度、时间、域名、选择的引擎进行分类,让用户更容易在信息中方便导航,采用SERVLET技术构建,有很大的伸缩空间以应付大量用户的请求,同时对服务程序作了特殊的负载自适应处理,能提供给用户多而精细的信息,并可大大减少用户等待的时间。

Claims (1)

1、一种网络中文信息综合搜索器,***结构主要包括输入端、噪音过滤,解释端和对对方引擎的自动调整适应处理,根据所设网络模拟数学模型分析搜索到的信息,并依据用户请求,编排后交用户使用,其特征在于所述网络模拟数学模型分析为采用WidewaySearch引擎对所有引擎反馈的页面作统一的数学模型分析归类,并对各不同反馈结果统一相关度,该相关度分析条件为:原始引擎的权重KL、页面本身的相关度C、页面反馈的时间T、一个引擎反馈的结果数N,经钟型脉冲数学公式分析后得统一相关度。
CN 00115797 2000-05-23 2000-05-23 网络中文信息综合搜索器 Pending CN1325076A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 00115797 CN1325076A (zh) 2000-05-23 2000-05-23 网络中文信息综合搜索器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 00115797 CN1325076A (zh) 2000-05-23 2000-05-23 网络中文信息综合搜索器

Publications (1)

Publication Number Publication Date
CN1325076A true CN1325076A (zh) 2001-12-05

Family

ID=4585239

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 00115797 Pending CN1325076A (zh) 2000-05-23 2000-05-23 网络中文信息综合搜索器

Country Status (1)

Country Link
CN (1) CN1325076A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100371932C (zh) * 2004-03-23 2008-02-27 南京大学 一种可扩展、可定制的主题集中式万维网爬虫设置方法
CN101454782A (zh) * 2006-03-29 2009-06-10 甲骨文国际公司 协作环境的上下文搜索
CN1648902B (zh) * 2004-01-26 2010-12-08 微软公司 统一和混合搜索的***和方法
CN103970816A (zh) * 2013-01-24 2014-08-06 国际商业机器公司 标识要发布的内容的方法和***

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1648902B (zh) * 2004-01-26 2010-12-08 微软公司 统一和混合搜索的***和方法
CN100371932C (zh) * 2004-03-23 2008-02-27 南京大学 一种可扩展、可定制的主题集中式万维网爬虫设置方法
CN101454782A (zh) * 2006-03-29 2009-06-10 甲骨文国际公司 协作环境的上下文搜索
CN101454782B (zh) * 2006-03-29 2014-01-29 甲骨文国际公司 协作环境的上下文搜索
CN103970816A (zh) * 2013-01-24 2014-08-06 国际商业机器公司 标识要发布的内容的方法和***
CN103970816B (zh) * 2013-01-24 2017-04-05 国际商业机器公司 标识要发布的内容的方法和***

Similar Documents

Publication Publication Date Title
CN101908071B (zh) 一种提高搜索引擎搜索效率的方法及其***
Tanudjaja et al. Persona: A contextualized and personalized web search
JP5114380B2 (ja) 検索結果の関連性の再ランク付けおよびその増強
US6519586B2 (en) Method and apparatus for automatic construction of faceted terminological feedback for document retrieval
US20100131563A1 (en) System and methods for automatic clustering of ranked and categorized search objects
CN1389811A (zh) 搜索引擎的智能化搜索方法
WO2008109485A1 (en) Personalized shopping recommendation based on search units
KR20040029895A (ko) 검색 시스템
US20070271228A1 (en) Documentary search procedure in a distributed system
Sharma et al. The anatomy of web crawlers
Hu et al. An overview of world wide web search technologies
Jin et al. Tise: A temporal search engine for web contents
CN1325076A (zh) 网络中文信息综合搜索器
US20030018617A1 (en) Information retrieval using enhanced document vectors
Jadidoleslamy Introduction to metasearch engines and result merging strategies: a survey
US7490082B2 (en) System and method for searching internet domains
Satokar et al. Web search result personalization using web mining
Sugiyama et al. A method of improving feature vector for web pages reflecting the contents of their out-linked pages
Yu et al. The design and realization of open-source search engine based on Nutch
US20100076964A1 (en) Instance-Class-Attribute Matching Web Page Ranking
Pardakhe et al. Enhancement of web search engine results using keyword frequency based ranking
KR20030082109A (ko) 앤드 연산자를 이용한 색인어 검색 및 정보 제공 시스템및 방법
Babu et al. Design of a metacrawler for web document retrieval
EP1363203A1 (en) System and method for searching information automatically according to analysed results
AnigboguKenechukwu et al. A Cohesive Page Ranking and Depth-First Crawling Scheme For Improved Search Results

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication