CN102156749B - 一种地图网站的自动搜索判别方法、***及其分布式服务器*** - Google Patents
一种地图网站的自动搜索判别方法、***及其分布式服务器*** Download PDFInfo
- Publication number
- CN102156749B CN102156749B CN 201110101941 CN201110101941A CN102156749B CN 102156749 B CN102156749 B CN 102156749B CN 201110101941 CN201110101941 CN 201110101941 CN 201110101941 A CN201110101941 A CN 201110101941A CN 102156749 B CN102156749 B CN 102156749B
- Authority
- CN
- China
- Prior art keywords
- search engine
- request
- url
- web site
- particular search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明提供了一种地图网站的自动搜索判别方法、***及其分布式服务器***。所述方法包括:通过元搜索引擎入口服务器,接收用户提交的地图网站查询请求,启动并管理元搜索任务;通过请求分发与响应融合服务器,根据所述查询请求构造URL请求并将所述URL请求加入请求队列池中;将请求队列池中的URL请求分发至各代理服务器;各代理服务器根据所述分发的URL请求,获取特定搜索引擎返回的响应信息并回传;通过请求分发与响应融合服务器,管理所述请求队列池,并且根据所述响应信息建立并管理响应队列池;对特定搜索引擎的响应信息进行解析,从而过滤搜索结果中的非地图网站。本发明自动搜索判别互联网地图网站,解决了常规方法结果覆盖率低、准确度低、工作效率低的问题。
Description
技术领域
本发明涉及网站搜索技术,更具体地,涉及一种互联网地图网站的自动搜索判别方法及***。
背景技术
地图网站基于互联网向用户提供地理信息,是网上地理信息的主要来源。目前,国内外已经涌现了一大批以地理目标搜索为核心的应用型地图网站,例如谷歌地球、百度地图、天地图、图吧地图等网站。这些网站主要提供了地图交互展示和地理目标搜索功能,可以查询出主要政府机关、企事业单位、医院、学校、商场等地理对象,为公众提供了便利。但是,由于地图本身的重要性和保密性,互联网监管部门也需要对提供互联网地图服务的网站进行必要的监管。
然而,如何从浩如烟海的各类网站中搜索和判别地图网站成为了互联网地图监管人员面前的首要问题。目前,监管人员采用的方法是在通用搜索引擎(例如谷歌搜索引擎或百度搜索引擎)中输入“地图”等关键字进行查询,再从返回的查询记录中依次打开相关URL链接进行人工判别。这种方法存在结果覆盖率低、不支持多级行政区深度搜索,识别速度慢、工作效率低、重复工作量大等问题。主要原因在于:(1)单一搜索引擎(如谷歌搜索引擎或百度搜索引擎)无法覆盖到全部互联网网站;(2)使用少量的搜索关键词(如“地图”等)返回的搜索结果无法覆盖全部特征,且无法解决多语言网页内容识别的问题;(3)无法实现对特定行政区及下属区网站的搜索,例如搜索“四川地图”,大多数返回的是包含“四川省地图“的网页,而无法返回包含”成都市“、”德阳市“等下属行政区域地图的网页;(4)对搜索引擎返回的每个URL链接都需要手动打开网页进行人工识别,识别速度低,重复研判量大。
近年来,随着网页搜索引擎技术的创新,出现了元搜索技术。元搜索技术提供了基于关键字的、跨搜索引擎的信息搜索能力。从原理上看,元搜索引擎采用了一种双层客户机/服务器架构;用户向元搜索引擎发出检索请求,元搜索引擎再根据该请求向多个搜索引擎发出实际检索请求,搜索引擎执行元搜索引擎检索请求后将检索结果以应答形式传送给元搜索引擎,元搜索引擎将从多个搜索引擎获得的检索结果经过整理再以应答形式传送给实际用户。元搜索可以大大弥补传统搜索引擎覆盖面不足的劣势。但是元搜索引擎技术在文本分析技术、查询分派技术和结果综合技术等方面依然需要深入研究。而且,在对地图网站搜索方面,元搜索引擎技术的研究和应用还完全属于空白。
网页文本分析也是近年来随着网页内容***性增长而兴起的一项新技术,用于从海量的网页文本内容中发现规律和知识。然而,基于语义近似度的文本分析技术在互联网地图网站的内容分析方面的研究也属于空白阶段。
发明内容
针对现有技术中的上述缺陷,本发明的核心是从海量的互联网网站中自动搜索判别互联网地图网站,从而解决了常规方法导致的结果覆盖率低、准确度低、工作效率低的问题。
本发明提供了一种地图网站的自动搜索判别方法,其特征在于,包括:
通过元搜索引擎入口服务器,接收用户提交的地图网站查询请求,启动并管理元搜索任务;
通过请求分发与响应融合服务器,根据所述查询请求构造URL请求并将所述URL请求加入请求队列池中;
将请求队列池中的URL请求分发至各代理服务器;
各代理服务器根据所述分发的URL请求,获取特定搜索引擎返回的响应信息并回传;
通过请求分发与响应融合服务器,管理所述请求队列池,并且根据所述响应信息建立并管理响应队列池;
对特定搜索引擎的响应信息进行解析,从而过滤搜索结果中的非地图网站。
优选地,所述地图网站的自动搜索判别方法进一步包括:通过元搜索引擎入口服务器从所述查询请求中解析地名关键词,并在地理对象库中根据所述地名关键词进行匹配搜索获取查询条件;并且在所述根据所述查询请求构造URL请求的步骤中根据所述查询条件生成相应的URL请求。
进一步优选地,所述查询条件包括所述地名关键词的下属地名关键词及多语言全称和简称。
优选地,所述各代理服务器根据所述分发的URL请求获取特定搜索引擎返回的响应信息的步骤具体包括:
构造特定搜索引擎的查询URL地址;
接收所述URL请求,并根据所述特定搜索引擎的查询URL地址向特定搜索引擎发出实际URL请求,获取特定搜索引擎返回的指定URL和指定URL的页面内容作为响应信息。
进一步优选地,其中,构造特定搜索引擎的查询URL地址的步骤包括:接收对应特定搜索引擎的过滤条件、每页记录条数和当前页码,并生成对应特定搜索引擎的查询URL地址。
优选地,所述对特定搜索引擎的响应信息进行解析的步骤具体包括:根据所述响应信息的页面内容特征和URL特征计算置信度,根据置信度过滤非地图网站。
更进一步优选地,所述解析步骤进一步包括:建立正向特征词库和噪声特征词库;为特定搜索引擎建立页面解析器,统计特定搜索引擎返回页面内容的正向特征和噪声特征词频用于计算所述置信度。
另一方面,本发明提供了一种地图网站的自动搜索判别***,其特征在于,包括:
元搜索引擎模块,通过元搜索引擎入口服务器接收用户提交的地图网站查询请求,启动并管理元搜索任务;
查询任务管理器,通过请求分发与响应融合服务器,根据所述查询请求构造URL请求并将所述URL请求加入请求队列池中;
URL请求分发管理器,将请求队列池中的URL请求分发至各代理服务器;
搜索引擎请求代理模块,使各代理服务器根据所述分发的URL请求,获取特定搜索引擎返回的响应信息并回传;
URL池管理器,通过请求分发与响应融合服务器,管理所述请求队列池,并且根据所述响应信息建立并管理响应队列池;
搜索引擎页面解析器,对特定搜索引擎的响应信息进行解析,从而过滤搜索结果中的非地图网站。
优选地,所述地图网站的自动搜索判别***进一步包括:所述元搜索引擎模块通过元搜索引擎入口服务器从所述查询请求中解析地名关键词,并在地理对象库中根据所述地名关键词进行匹配搜索获取查询条件;并且所述查询任务管理器根据所述查询条件生成相应的URL请求。
进一步优选地,所述查询条件包括所述地名关键词的下属地名关键词及多语言全称和简称。
优选地,所述搜索引擎请求代理模块具体包括:
搜索引擎URL构造器,构造特定搜索引擎的查询URL地址;
Web请求代理模块,接收所述URL请求,并根据所述特定搜索引擎的查询URL地址向特定搜索引擎发出实际URL请求,获取特定搜索引擎返回的指定URL和指定URL的页面内容作为响应信息。
进一步优选地,其中,所述搜索引擎URL构造器接收对应特定搜索引擎的过滤条件、每页记录条数和当前页码,并生成对应特定搜索引擎的查询URL地址。
优选地,所述搜索引擎页面解析器根据所述响应信息的页面内容特征和URL特征计算置信度,根据置信度过滤非地图网站。
进一步优选地,所述搜索引擎页面解析器进一步包括:正向特征词库和噪声特征词库;特定搜索引擎页面解析器,用于统计特定搜索引擎返回页面内容的正向特征和噪声特征词频用于计算所述置信度。
另一方面,本发明提供了一种用于地图网站自动搜索判别的分布式服务器***,其特征在于,包括:
元搜索引擎入口服务器,接收用户提交的地图网站查询请求,启动并管理元搜索任务;
请求分发与响应融合服务器,用于根据所述查询请求构造URL请求并将所述URL请求加入请求队列池中,将请求队列池中的URL请求分发至各代理服务器;管理所述请求队列池,并且根据各代理服务器回传的响应信息建立并管理响应队列池;对所述响应信息进行解析,从而过滤搜索结果中的非地图网站;
代理服务器,用于根据所述分发的URL请求,获取特定搜索引擎返回的响应信息并回传。
优选地,其中,所述元搜索引擎入口服务器从所述查询请求中解析地名关键词,并在地理对象库中根据所述地名关键词进行匹配搜索获取查询条件;请求分发与响应融合服务器,根据所述查询条件生成相应的URL请求。
进一步优选地,所述查询条件包括所述地名关键词的下属地名关键词及多语言全称和简称。
优选地,其中,所述代理服务器用于构造特定搜索引擎的查询URL地址,并根据所述特定搜索引擎的查询URL地址向特定搜索引擎发出实际URL请求,获取特定搜索引擎返回的指定URL和指定URL的页面内容作为响应信息。
优选地,所述代理服务器构造特定搜索引擎的查询URL地址包括:接收对应特定搜索引擎的过滤条件、每页记录条数和当前页码,并生成对应特定搜索引擎的查询URL地址。
优选地,所述请求分发与响应融合服务器为位于不同地理位置的代理服务器分别建立并维护请求队列池和响应队列池。
优选地,其中,所述请求分发与响应融合服务器根据所述响应信息的页面内容特征和URL特征计算置信度,根据置信度过滤非地图网站。
更进一步优选地,所述请求分发与响应融合服务器建立正向特征词库和噪声特征词库;为特定搜索引擎建立页面解析器,统计特定搜索引擎返回页面内容的正向特征和噪声特征词频用于计算所述置信度。
本发明采用可动态扩展的元搜索引擎技术,可以整合多个特定搜索引擎(如谷歌、百度、必应、有道)的搜索结果,有效解决单个搜索引擎覆盖范围不全的问题。通过地理对象库的匹配搜索,实现了对地名关键词的深度、多语言搜索。采用多代理机制,构建支持多节点协同工作的元搜索指令动态构建、动态编组与多节点分发机制,实现面向互联网的元搜索指令快速分发与搜索结果快速合并机制,以大幅提高对指定地区地图网站的搜索速度。本发明根据元搜索引擎返回的URL对应的网页信息的特征,提取出“非地图/地理信息网站”的URL(即噪声URL)的URL特征和HTML内容特征,为每类网站构建基于关键词的“特征词库”;在此基础上,采用关键词词频统计技术和URL分析技术,对网站进行噪声类别归档与自动过滤,大幅提高地图网站的识别正确率和识别效率。
通过本发明,可以显著提高对互联网地图网站的搜索覆盖率,可以显著提高发现地图网站的速度和效率,可以将传统的人工搜索地图网站升级为自动搜索判别地图网站,大大降低了人工工作的劳动强度。
附图说明
图1是本发明实施例的地图网站的自动搜索判别***结构示意图;
图2是本发明实施例的分布式服务器***结构示意图。
具体实施方式
为详细说明本发明的技术内容、构造特征、所实现目的及效果,以下结合具体实施方式并配合附图详予说明。
图1是本发明实施例的地图网站的自动搜索判别***结构示意图。本发明的***是一种专门针对地图网站的搜索和识别而设计的、支持百度、谷歌、必应、有道等主流搜索引擎的元搜索引擎***,并且实行多服务器分布式部署,实现多节点协同工作。本***另一个重要方面是对主流搜索引擎返回的搜索结果基于URL分析和网页内容分析而实现噪声过滤,从而提高了地图网站的识别正确率。
如图1所示,所述地图网站的自动搜索判别***具有:
元搜索引擎模块101(MetaSearchEngine),位于元搜索引擎***的最高层,是本发明元搜索框架的运行入口,其布署在元搜索引擎入口服务器上。元搜索引擎模块101负责接收用户提交的地图网站查询请求,启动并管理搜索任务。该模块可以调用的主要功能函数包括启动任务(startTask),以从用户接收到的查询请求作为参数,开始一个新的元搜索任务。其它功能函数还包括:结束任务(finishTask)、中断并取消任务(cancelTask)、获取活动任务列表(getActiveTasks)、获取指定任务的活动状态(getTaskStatus)、设置任务池最大容量(setThreadNumber)等。因而,元搜索引擎模块101是用户提出元搜索请求并管理元搜索任务的接口。另一方面,所述元搜索引擎模块101还通过元搜索引擎入口服务器,采用搜索引擎的分词技术从所述查询请求中解析地名关键词,并在地理对象库中根据所述地名关键词进行匹配搜索获取查询条件;并且查询任务管理器102根据所述查询条件生成相应的URL请求。这里所述查询条件包括:所述地名关键词的下属地名关键词,以及地名关键词的多语言全称和简称。例如,元搜索引擎模块101在用户输入的查询请求中解析出一个地名关键词“四川”,可见该地名关键词是表示行政区的名词,则通过地理对象库进行匹配搜索,获得“四川”的下属地名关键词,即“四川”的下属行政区,例如“成都”、“德阳”等;以及“四川”的多语言全称和简称,例如中文、法文、德文、英文、俄文等语言中“四川,,的全称和简称。所述下属地名关键词和全称、简称均作为查询条件。并且查询任务管理器102根据所述查询条件,为每一个查询条件生成相应的URL请求,并且将其加入请求队列池。关于此处提到的“地理对象库”,在下文中将予以详细说明。
查询任务管理器102(RequestTaskManager),其布署在请求分发与响应融合服务器上,其根据从元搜索引擎模块101获得的所述查询请求,接收并验证客户提交的查询请求参数,所述参数包括在地理对象库中获得的查询条件;构造URL请求并将所述URL请求加入请求队列池中。查询任务管理器102也是管理一个元搜索任务的最小单元,其调用搜索引擎请求代理模块向指定的搜索引擎发送请求并对响应进行跟踪;在收到消息响应后,调用搜索引擎页面解析器106进行页面内容解析,并可以将解析出来的数据反馈给元搜索引擎模块101(MetaSearchEngine)。
URL请求分发管理器103(URLDispatcher),同样布署在请求分发与响应融合服务器上,用于将请求队列池中的URL请求分发至各代理服务器。该模块可以调用的主要功能函数包括:添加代理(addAgent)和删除代理(removeAgent),增加或删除可用于分配URL请求的代理服务器主机地址;获取代理状态(getAgentStatus),获取代理服务器的状态信息;分发任务到代理(sentTaskTo),将URL请求分发到某个代理服务器;删除代理任务(removeTaskFrom),删除某个代理服务器的任务。
搜索引擎请求代理模块,其布署在各个分布式代理服务器上,使各代理服务器根据所述分发的URL请求接入互联网上的若干个特定搜索引擎,这些特定搜索引擎包括互联网上提供网页搜索的主流搜索引擎,包括但不限于百度(Baidu)、谷歌(Google)、必应(Bing)、有道(Youdao)等。搜索引擎请求代理模块获取特定搜索引擎返回的响应信息并回传给请求分发与响应融合服务器。
如图1所示,搜索引擎请求代理模块进一步包括:搜索引擎URL构造器1041(SEURLBuilder)和Web请求代理模块1042(WebRequestAgent)。搜索引擎URL构造器1041(SEURLBuilder)构造所述各个特定搜索引擎的查询URL地址。该构造器作为所有针对特定搜索引擎的查询URL地址构造器的基类。通过搜索引擎URL构造器1041可以实现针对特定搜索引擎的URL构造器,包括但不限于图1中所示的谷歌URL构造器1041a(GoogleCNURLBuilder)、必应URL构造器1041b(BingCNURLBuilder)、百度URL构造器1041c(BaiduURLBuilder)、有道URL构造器1041d(YoudaoURLBuilder)。开发者还可以根据自身需要扩展其它搜索引擎所对应的URL构造器。对于特定搜索引擎(如百度、谷歌等),搜索引擎URL构造器1041调用获取URL函数(getURL),该函数接收三个参数,即对应特定搜索引擎的过滤条件、每页记录条数和当前页码,并生成对应特定搜索引擎的查询URL地址,并将查询URL地址加入由URL池管理器105管理的URL队列池。
Web请求代理模块1042(WebRequestAgent)用于接收所述分发至各代理服务器的URL请求,并根据特定搜索引擎的查询URL地址,向特定搜索引擎发出实际URL请求。各搜索引擎根据实际URL请求进行网页页面的搜索,并向Web请求代理模块1042返回搜索结果。Web请求代理模块1042获取特定搜索引擎返回的指定URL和指定URL的页面内容作为响应信息。Web请求代理模块1042是用于进行网络通讯的核心模块,支持以HTTP方式与指定的互联网服务器进行异步通信,获取指定URL的页面内容。所述Web请求代理模块1042可以管理多个连接以实现多线程通信。
URL池管理器105(URLRequestPoolManager)布署在请求分发与响应融合服务器上,其主要是用于维护请求队列和响应队列的URL队列池。URL池管理器105通过请求分发与响应融合服务器管理所述请求队列池,并且根据来自代理服务器的所述响应信息建立并管理响应队列池。URL池管理器105的主要方法包括添加URL、移除URL、获取所有URL列表、获取指定状态的URL列表、按运行进度对URL进行排序、获取和设置URL最大限制数据等。
搜索引擎页面解析器106(SEPageParser),对特定搜索引擎的响应信息进行解析,从而过滤搜索结果中的非地图网站。具体地,所述搜索引擎页面解析器106根据所述响应信息的页面内容特征和URL特征计算置信度,根据置信度过滤非地图网站。
为了分析所述页面内容特征,搜索引擎页面解析器106进一步包括正向特征词库和噪声特征词库。基于搜索引擎页面解析器106可以实现针对特定搜索引擎的特定搜索引擎页面解析器,包括但不限于图1中所示的谷歌页面解析器106a(GoogleCNPageParser)、必应页面解析器106b(BingCNPageParser)、百度页面解析器106c(BaiduPageParser)、有道页面解析器106d(YoudaoPageParser)。特定搜索引擎页面解析器106a-d用于统计特定搜索引擎返回页面内容的正向特征和噪声特征词频用于计算所述置信度。置信度的具体计算方法在下文中将更详细地加以介绍。
图2是本发明实施例的分布式服务器***结构示意图。本发明将图1所示***中的多个模块组件进行多服务器分布式部署,构建支持多节点协同工作的元搜索指令动态构建、动态编组与多节点分发机制,实现面向互联网的元搜索指令快速分发与搜索结果快速合并,从而大幅度提高了对指定地区地图网站的搜索速度。
如图2所示,所述分布式服务器***包括:
元搜索引擎入口服务器201,用于接收用户提交的地图网站查询请求,启动并管理元搜索任务;该服务器作为本发明的用户入口,其上面布署图1中的元搜索引擎模块101(MetaSearchEngine),为地图网站的查询检索提供统一入口。并且,所述元搜索引擎入口服务器201从用户提交的所述查询请求中解析地名关键词,并在地理对象库中根据所述地名关键词进行匹配搜索获取查询条件;所述查询条件包括所述地名关键词的下属地名关键词及多语言简称。请求分发与响应融合服务器202,根据所述查询条件生成相应的URL请求,并且将其加入请求队列池。
请求分发与响应融合服务器202,其上布署图1所示的查询任务管理器102(RequestTaskManager)、URL请求分发管理器103(URLDispatcher)、URL池管理器105(URLRequestPoolManager)、搜索引擎页面解析器106(SEPageParser)等组件,用于根据所述查询请求构造URL请求并将所述URL请求加入请求队列池中,将发往各搜索引擎的URL请求按照行政区进行编组,形成对应于各行政区的“请求队列池”和“响应队列池”,例如图2中所示的“北京地区元搜索请求队列池和响应队列池202a“、“上海地区元搜索请求队列池和响应队列池202b“、“新疆地区元搜索请求队列池和响应队列池202c“等;采用多线程机制,将各个“请求队列池”中的URL请求分发至各地区的代理服务器,并管理所述请求队列池;并且根据各代理服务器回传的响应信息,依次建立起对应于各地区“请求队列池”的“响应队列池”;对所述响应信息调用搜索引擎页面解析器106(SEPageParser)进行即时解析,从而过滤搜索结果中的非地图网站;将最终解析结果返回元搜索引擎入口服务器201。
代理服务器203接入互联网204,包括北京地区通讯节点组203a、上海地区通讯节点组203b、新疆地区通讯节点组203c以及**地区通讯节点组203d等。可见,代理服务器203分别部署在各个行政区域内,可以根据需要进行任意数量的主机增减。每台代理服务器203的主机上布署图1中的搜索引擎请求代理模块,即搜索引擎URL构造器1041(SEURLBuilder)和Web请求代理模块1042(WebRequestAgent),并且每个Web请求代理模块1042组件均包含行政区属性和本地区唯一编码的ID,用于根据所述分发的URL请求,调用搜索引擎URL构造器1041构造实际URL请求并发往对应搜索引擎,获取特定搜索引擎返回的响应信息并回传给请求分发与响应融合服务器202。代理服务器203构造特定搜索引擎(例如百度、谷歌等)的查询URL地址的操作包括:接收对应特定搜索引擎的过滤条件、每页记录条数和当前页码,并生成对应特定搜索引擎的查询URL地址。
基于以上***和服务器布署,本发明提供了一种地图网站的自动搜索判别方法,包括:
步骤1:通过元搜索引擎入口服务器,接收用户提交的地图网站查询请求,启动并管理元搜索任务;
步骤2:通过请求分发与响应融合服务器,根据所述查询请求构造URL请求并将所述URL请求加入请求队列池中;
步骤3:将请求队列池中的URL请求分发至各代理服务器;
步骤4:各代理服务器根据所述分发的URL请求,获取特定搜索引擎返回的响应信息并回传;
步骤5:通过请求分发与响应融合服务器,管理所述请求队列池,并且根据所述响应信息建立并管理响应队列池;
步骤6:对特定搜索引擎的响应信息进行解析,从而过滤搜索结果中的非地图网站。
其中,所述地图网站的自动搜索判别方法还进一步包括:在步骤1中,通过元搜索引擎入口服务器从所述查询请求中解析地名关键词,并在地理对象库中根据所述地名关键词进行匹配搜索获取查询条件;并且在所述步骤2根据所述查询请求构造URL请求的步骤中根据所述查询条件生成相应的URL请求。进一步优选地,所述查询条件包括所述地名关键词的下属地名关键词及多语言简称。
其中,步骤4具体包括以下两个步骤:
构造特定搜索引擎的查询URL地址;其中,构造特定搜索引擎的查询URL地址的步骤包括:接收对应特定搜索引擎的过滤条件、每页记录条数和当前页码,并生成对应特定搜索引擎的查询URL地址。
接收所述URL请求,并根据所述特定搜索引擎的查询URL地址向特定搜索引擎发出实际URL请求,获取特定搜索引擎返回的指定URL和指定URL的页面内容作为响应信息。
其中,所述对特定搜索引擎的响应信息进行解析的步骤6具体包括:根据所述响应信息的页面内容特征和URL特征计算置信度,根据置信度过滤非地图网站。更进一步,所述解析步骤进一步包括:建立正向特征词库和噪声特征词库;为特定搜索引擎建立页面解析器,统计特定搜索引擎返回页面内容的正向特征和噪声特征词频用于计算所述置信度。
下面介绍上文中所涉及的“地理对象库”的相关内容。所述地理对象库主要由作为基础表的全球行政区划对象表(T_Administration表)和作为辅助表的全球动态地理对象表(T_GeoEntity表)构成。
表1A全球动态地理对象表
表1B全球行政区划表
全球动态地理对象表的内容可参见表1A,全球行政区划表可参见表1B。在“地理对象数据库”中,以上两个表的收录范围都涵盖了全球主要地名。
在全球行政区划表中,Id字段用于存储一个识别该表的内部编码,Adcode字段用于存储10字符的某一地名的全球唯一编码,其格式与含义参见表1B的备注。表1B其余字段均用于存储该地名的多种语言的全称和简称。
全球动态地理对象表中,,Id字段用于存储一个内部编码,Adcode用于存储10字符的某一地名的全球唯一编码,从而表示该地名的所属行政区,其对应于全球行政区划表中的Adcode字段。版本号字段Version以日期格式定义,其余字段均用于存储该地名的多种语言的全称和简称。
由全球行政区划表和全球动态地理对象表组成的“地理对象库”是一种全球动态地理对象数据库,作为一种基础性信息资源,在地图网站元搜索引擎中发挥重要的作用,可以实现针对特定地名关键词(例如上文提到的“四川“)的下属地名关键词,以及地名关键词的各种语言的全称和简称,进行深度、多语言的搜索。
上文中多次提到对特定搜索引擎的响应信息进行解析并计算置信度的内容。下面,结合表2来具体说明为网站建立正向特征词库和噪声特征词库,并结合URL特征分析,建立噪声类别相似度判定模型。完成后的特征词库和类别置信度计算方法如表2所示。
表2噪声网站分类词库及置信度计算方法列表
通过分析搜索引擎的网页检索结果,我们发现,在对地图网站进行搜索时,搜索结果当中常常混入表2所示的以下几种类型的噪声网站:(1)文章或新闻类网站;(2)博客类、论坛类网站;(3)游戏类网站;(4)含有“网站地图”字样的网页;(5)地图相关商务产品型网站,如GPS、PDA、地球仪等产品介绍网站;(6)企业介绍、黄页型网站。
为了实现自动区分以上噪声网站,我们建立了表2中所示的正向特征词库,该词库中收录的关键词可以包括但不限于“地图“、”地名“、”数字城市“、”数字国土“等等。如果搜索到的网页中包含以上正向关键词,则表明该网页是地图网站的可能性增大。同时,我们还建立表2所示的噪声特征词库,针对上述不同类型的噪声网页,分别收录不同的噪声关键词,具体可见表2。如果搜索到的网页中包含以上噪声关键词,则表明该网页是非地图网站的可能性增大。
之后,我们利用上文中提到的页面解析器,统计页面内容当中的正向特征关键词和噪声特征关键词的词频,同时结合对网页URL特征,对各类噪声网页采用相应的算法来计算置信度E,具体的计算方法可以参见表2。仅以博客类、论坛类网站为例,首先将置信度E初始化为0;然后,分析页面URL地址的特征,即URL地址中是否含有“blog”、“bbs“、”forum”等字符,如果有则置信度E增加0.5;最后,利用正向特征词库和噪声特征词库统计网页页面内容中的正向特征关键词和噪声特征关键词的词频,如果噪声特征词频大于正向特征词频,则E增加0.5。
在表2所提供的算法上,对每一个作为所述响应信息的URL,在请求得到其对应的HTML文本后,依次计算其置信度E;然后统计置信度E大于0.5的记录个数,若大于1,则将该URL划为噪声网站即非地图网站。
综上所述,本发明结合了元搜索技术、地理对象库匹配搜索技术、多代理分布搜索技术以及网页文本分析技术。通过本发明,可以显著提高对互联网地图网站的搜索覆盖率,可以显著提高发现地图网站的速度和效率,可以将传统的人工搜索地图网站升级为自动搜索判别地图网站,大大降低了人工工作的劳动强度。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (19)
1.一种地图网站的自动搜索判别方法,其特征在于,包括:
通过元搜索引擎入口服务器,接收用户提交的地图网站查询请求,启动并管理元搜索任务;
通过元搜索引擎入口服务器从所述查询请求中解析地名关键词,并在地理对象库中根据所述地名关键词进行匹配搜索获取查询条件;
通过请求分发与响应融合服务器,根据所述查询条件构造URL请求并将所述URL请求加入请求队列池中;
将请求队列池中的URL请求分发至各代理服务器;
使各代理服务器根据所述分发的URL请求,获取特定搜索引擎返回的响应信息并回传;
通过请求分发与响应融合服务器,管理所述请求队列池,并且根据所述响应信息建立并管理响应队列池;
对特定搜索引擎的响应信息进行解析,从而过滤搜索结果中的非地图网站。
2.根据权利要求1所述地图网站的自动搜索判别方法,其特征在于,所述查询条件包括所述地名关键词的下属地名关键词及多语言全称和简称。
3.根据权利要求1所述地图网站的自动搜索判别方法,其特征在于,所述各代理服务器根据所述分发的URL请求获取特定搜索引擎返回的响应信息的步骤具体包括:
构造特定搜索引擎的查询URL地址;
接收所述URL请求,并根据所述特定搜索引擎的查询URL地址向特定搜索引擎发出实际URL请求,获取特定搜索引擎返回的指定URL和指定URL的页面内容作为响应信息。
4.根据权利要求3所述地图网站的自动搜索判别方法,其特征在于,构造特定搜索引擎的查询URL地址的步骤包括:接收对应特定搜索引擎的过滤条件、每页记录条数和当前页码,并生成对应特定搜索引擎的查询URL地址。
5.根据权利要求1所述地图网站的自动搜索判别方法,其特征在于,所述对特定搜索引擎的响应信息进行解析的步骤具体包括:根据所述响应信息的页面内容特征和URL特征计算置信度,根据置信度过滤非地图网站。
6.根据权利要求5所述地图网站的自动搜索判别方法,其特征在于,所述解析步骤进一步包括:建立正向特征词库和噪声特征词库;为特定搜索引擎建立页面解析器,统计特定搜索引擎返回页面内容的正向特征和噪声特征词频用于计算所述置信度。
7.一种地图网站的自动搜索判别***,其特征在于,包括:
元搜索引擎模块,通过元搜索引擎入口服务器接收用户提交的地图网站查询请求,启动并管理元搜索任务;并且通过元搜索引擎入口服务器从所述查询请求中解析地名关键词,并在地理对象库中根据所述地名关键词进行匹配搜索获取查询条件;
查询任务管理器,通过请求分发与响应融合服务器,根据所述查询条件构造URL请求并将所述URL请求加入请求队列池中;
URL请求分发管理器,将请求队列池中的URL请求分发至各代理服务器;
搜索引擎请求代理模块,使各代理服务器根据所述分发的URL请求,获取特定搜索引擎返回的响应信息并回传;
URL池管理器,通过请求分发与响应融合服务器,管理所述请求队列池,并且根据所述响应信息建立并管理响应队列池;
搜索引擎页面解析器,对特定搜索引擎的响应信息进行解析,从而过滤搜索结果中的非地图网站。
8.根据权利要求7所述地图网站的自动搜索判别***,其特征在于,所述查询条件包括所述地名关键词的下属地名关键词及多语言全称和简称。
9.根据权利要求7所述地图网站的自动搜索判别***,其特征在于,所述搜索引擎请求代理模块具体包括:
搜索引擎URL构造器,构造特定搜索引擎的查询URL地址;
Web请求代理模块,接收所述URL请求,并根据所述特定搜索引擎的查询URL地址向特定搜索引擎发出实际URL请求,获取特定搜索引擎返回的指定URL和指定URL的页面内容作为响应信息。
10.根据权利要求9所述地图网站的自动搜索判别***,其特征在于,所述搜索引擎URL构造器接收对应特定搜索引擎的过滤条件、每页记录条数和当前页码,并生成对应特定搜索引擎的查询URL地址。
11.根据权利要求7所述地图网站的自动搜索判别***,其特征在于,所述搜索引擎页面解析器根据所述响应信息的页面内容特征和URL特征计算置信度,根据置信度过滤非地图网站。
12.根据权利要求11所述地图网站的自动搜索判别***,其特征在于,所述搜索引擎页面解析器进一步包括:正向特征词库和噪声特征词库;以及特定搜索引擎页面解析器,用于统计特定搜索引擎返回页面内容的正向特征和噪声特征词频用于计算所述置信度。
13.一种用于地图网站自动搜索判别的分布式服务器***,其特征在于,包括:
元搜索引擎入口服务器,接收用户提交的地图网站查询请求,启动并管理元搜索任务;并且从所述查询请求中解析地名关键词,并在地理对象库中根据所述地名关键词进行匹配搜索获取查询条件;
请求分发与响应融合服务器,用于根据所述查询条件构造URL请求并将所述URL请求加入请求队列池中,将请求队列池中的URL请求分发至各代理服务器;管理所述请求队列池,并且根据各代理服务器回传的响应信息建立并管理响应队列池;对所述响应信息进行解析,从而过滤搜索结果中的非地图网站;
代理服务器,用于根据所述分发的URL请求,获取特定搜索引擎返回的响应信息并回传。
14.根据权利要求13所述的分布式服务器***,其特征在于,所述查询条件包括所述地名关键词的下属地名关键词及多语言全称和简称。
15.根据权利要求13所述的分布式服务器***,其特征在于,所述代理服务器用于构造特定搜索引擎的查询URL地址,并根据所述特定搜索引擎的查询URL地址向特定搜索引擎发出实际URL请求,获取特定搜索引擎返回的指定URL和指定URL的页面内容作为响应信息。
16.根据权利要求15所述的分布式服务器***,其特征在于,所述代理服务器构造特定搜索引擎的查询URL地址包括:接收对应特定搜索引擎的过滤条件、每页记录条数和当前页码,并生成对应特定搜索引擎的查询URL地址。
17.根据权利要求13所述的分布式服务器***,其特征在于,所述请求分发与响应融合服务器为位于不同地理位置的代理服务器分别建立并维护请求队列池和响应队列池。
18.根据权利要求13所述的分布式服务器***,其特征在于,所述请求分发与响应融合服务器根据所述响应信息的页面内容特征和URL特征计算置信度,根据置信度过滤非地图网站。
19.根据权利要求18所述的分布式服务器***,其特征在于,所述请求分发与响应融合服务器建立正向特征词库和噪声特征词库;为特定搜索引擎建立页面解析器,统计特定搜索引擎返回页面内容的正向特征和噪声特征词频用于计算所述置信度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110101941 CN102156749B (zh) | 2011-04-22 | 2011-04-22 | 一种地图网站的自动搜索判别方法、***及其分布式服务器*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110101941 CN102156749B (zh) | 2011-04-22 | 2011-04-22 | 一种地图网站的自动搜索判别方法、***及其分布式服务器*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102156749A CN102156749A (zh) | 2011-08-17 |
CN102156749B true CN102156749B (zh) | 2013-04-10 |
Family
ID=44438248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110101941 Expired - Fee Related CN102156749B (zh) | 2011-04-22 | 2011-04-22 | 一种地图网站的自动搜索判别方法、***及其分布式服务器*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102156749B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102789508A (zh) * | 2012-07-27 | 2012-11-21 | 吴建辉 | 基于地理位置的分布式实况搜索引擎及聊天*** |
CN103559239B (zh) * | 2013-10-25 | 2017-11-10 | 北京奇虎科技有限公司 | 图片的处理方法及***和任务服务器 |
CN107943810A (zh) * | 2016-10-13 | 2018-04-20 | 分众(中国)信息技术有限公司 | 楼宇信息地图的构建方法 |
CN108460084A (zh) * | 2018-01-18 | 2018-08-28 | 大象慧云信息技术有限公司 | 企业信息模糊查询方法及***、计算机设备和存储介质 |
CN112783543B (zh) * | 2019-11-11 | 2023-10-03 | 百度在线网络技术(北京)有限公司 | 小程序分发物料的生成方法、装置、设备及介质 |
US11914658B2 (en) * | 2020-05-15 | 2024-02-27 | Shenzhen Sekorm Component Network Co., Ltd | Multi-node word segmentation system and method for keyword search |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8312014B2 (en) * | 2003-12-29 | 2012-11-13 | Yahoo! Inc. | Lateral search |
CN101799835B (zh) * | 2010-04-21 | 2012-07-04 | 中国测绘科学研究院 | 一种本体驱动地理信息检索***和检索方法 |
-
2011
- 2011-04-22 CN CN 201110101941 patent/CN102156749B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN102156749A (zh) | 2011-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543086B (zh) | 一种面向多数据源的网络数据采集与展示方法 | |
CN102521337B (zh) | 一种基于海量知识网络的学术社区*** | |
CN110597981B (zh) | 一种采用多策略自动生成摘要的网络新闻概要*** | |
Elgazzar et al. | Clustering wsdl documents to bootstrap the discovery of web services | |
CN102063476B (zh) | 视频搜索方法及*** | |
JP5543458B2 (ja) | 地理的特性の一致による地域的コンテンツの提供 | |
CN102156749B (zh) | 一种地图网站的自动搜索判别方法、***及其分布式服务器*** | |
CN101655862A (zh) | 信息对象搜索的方法和装置 | |
CN101251852B (zh) | 面向领域的Web数据集成***和方法 | |
CN106294695A (zh) | 一种面向实时大数据搜索引擎的实现方法 | |
CN1487452A (zh) | 在一个或多个网络上进行通用搜索管理的*** | |
CN103399877A (zh) | 一种多Android客户端服务共享方法及*** | |
CN104615627A (zh) | 一种基于微博平台的事件舆情信息提取方法及*** | |
US20120317091A1 (en) | System and method for users to get newly updates | |
Wang et al. | Seeft: Planned social event discovery and attribute extraction by fusing twitter and web content | |
CN105095383A (zh) | 信息发布方法、搜索方法及相应装置 | |
CN103823855B (zh) | 面向语义网的中文百科知识组织与集成方法 | |
CN106649883B (zh) | 一种跨语言的主题网站自动发现方法 | |
CN101788981A (zh) | 一种深层网移动搜索方法、服务器及*** | |
Laddha et al. | Semantic tourism information retrieval interface | |
CN101853307A (zh) | 一种笔记的创建方法及其相应的网络搜索***及方法 | |
CN111309997A (zh) | 一种面向远程教育的数字资源整合和推送***及其架构 | |
Kumar et al. | An efficient and optimized sematic web enabled framework (EOSWEF) for Google search engine using ontology | |
Telang et al. | Information Integration across Heterogeneous Domains: Current Scenario, Challenges and the InfoMosaic Approach | |
Saxena | A Study On Web Mining As Web Services Framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130410 Termination date: 20170422 |
|
CF01 | Termination of patent right due to non-payment of annual fee |