CN102880721A - 垂直搜索引擎的实现方法 - Google Patents

垂直搜索引擎的实现方法 Download PDF

Info

Publication number
CN102880721A
CN102880721A CN2012103905887A CN201210390588A CN102880721A CN 102880721 A CN102880721 A CN 102880721A CN 2012103905887 A CN2012103905887 A CN 2012103905887A CN 201210390588 A CN201210390588 A CN 201210390588A CN 102880721 A CN102880721 A CN 102880721A
Authority
CN
China
Prior art keywords
coordinate
search
index
keyword
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012103905887A
Other languages
English (en)
Other versions
CN102880721B (zh
Inventor
黄水清
张尔宁
梁山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NETWORK TECHNOLOGY (SHANGHAI) Co Ltd
Original Assignee
NETWORK TECHNOLOGY (SHANGHAI) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NETWORK TECHNOLOGY (SHANGHAI) Co Ltd filed Critical NETWORK TECHNOLOGY (SHANGHAI) Co Ltd
Priority to CN201210390588.7A priority Critical patent/CN102880721B/zh
Publication of CN102880721A publication Critical patent/CN102880721A/zh
Application granted granted Critical
Publication of CN102880721B publication Critical patent/CN102880721B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种垂直搜索引擎的实现方法,首先建立地理词数据库、特征词数据库、地址检索训练库。然后由网页抓取程序搜集网页信息。接着由索引程序为所搜集的网页建立坐标值索引、特征码索引和关键词索引中的一个或多个。最后由检索程序响应用户的查询内容。检索程序判断查询内容是否属于按地址检索;如果属于,则以坐标值、特征码、关键词单独或组合检索。如果不属于,则以特征码、关键词单独或组合检索。检索结果展示给用户。本申请采用朴素贝叶斯分类算法判断检索意图,并构建了网页的三类索引库,以这三类索引库相组合进行检索,由此可得到更符合用户需求、更为精准的检索结果。

Description

垂直搜索引擎的实现方法
技术领域
本申请涉及一种互联网领域的垂直搜索引擎。
背景技术
搜索引擎是指搜集大量的网页信息,对这些网页信息进行整理,并为用户提供检索服务的计算机***。搜索引擎按其工作方式主要可分为三种:全文搜索引擎(Full TextSearch Engine)、垂直搜索引擎(Vertical Search Engine)和元搜索引擎(Meta SearchEngine)。
全文搜索引擎是从互联网上广泛抓取各种网页,为各个网页建立索引,根据用户的查询条件在索引库中查找相匹配的记录,然后按一定的排列顺序将结果返回给用户。全文搜索引擎的典型代表为Google、百度,其检索范围广泛,但也有查询不准确、深度不够的特点。
垂直搜索引擎是针对某一个行业的专业搜索引擎,其通过针对某一特定领域、某一特定人群或某一特定需求而提供检索服务。垂直搜索引擎的应用领域包括求职招聘类、房屋房产类、交通出行类、购物比价类、软件及影音资源类等,其检索范围局限在特定的应用领域,但具有在该应用领域内的检索结果专业、精确、深入的特点。
元搜索引擎是将用户的查询请求同时在多个其他搜索引擎上进行检索,并将全部结果返回给用户。
搜索引擎通常都包括网页抓取程序、索引程序、检索程序等。现有的垂直搜索引擎的实现方法如下:
首先,由网页抓取程序搜集网页内容。由于每个垂直搜索引擎都具有特定的应用领域,因而网页抓取程序重点搜集该特定的应用领域内的网页信息,兼顾互联网上的其他网页信息。
其次,由索引程序为所搜集的网页内容建立索引。索引程序将所搜集的网页中与应用领域相关的文本内容提取作为关键词索引,所有网页的关键词索引就形成了关键词索引库。
最后,由检索程序响应用户的查询请求。检索程序在关键词索引库中检索出与用户的查询内容相匹配的记录,并对输出结果进行排序(通常是按照匹配程度、重要性等方式排序)后展示出来。
现有的垂直搜索引擎的实现方法具有如下缺点:
其一,检索程序对用户输入的查询内容与关键词索引库之间进行的是文本匹配工作,导致检索结果不够精准。
其二,用户输入的查询内容有时包含一段准确(或者疑似)地址信息,这表明了按该地址进行检索的意图。但是检索程序仍然只是按照关键词匹配,因而无法给出合理的检索结果。
发明内容
本申请所要解决的技术问题是提供一种垂直搜索引擎的实现方法。
为解决上述技术问题,本申请垂直搜索引擎的实现方法为:
第一步,建立地理词数据库、特征词数据库、地址检索训练库;
所述地理词数据库包括多个地理词;
所述特征词数据库包括多个特征词及其相应的互不重复的特征码;
所述地址检索训练库包括多段话、它们均已由人工分类为“具有按地址检索的意图”或“不具有按地址检索的意图”这两个类别之一;所述两个类别出现的概率值、每段话中的每个词汇对于所述两个类别的条件概率也已统计计算出;
第二步,由网页抓取程序搜集网页信息;
第三步,由索引程序为所搜集的网页建立坐标值索引、特征码索引和关键词索引中的一个或多个;
第四步,由检索程序响应用户的查询内容;检索程序判断查询内容是否属于按地址检索;如果属于,则从查询内容中提取出地理词的坐标值、特征词的特征码,剩下的作为关键词,作为在坐标值索引库、特征码索引库、关键词索引库中单独或组合检索的条件;如果不属于,则从查询内容中提取出特征词的特征码,剩下的作为关键词,作为在特征码索引库、关键词索引库中单独组合检索的条件;检索结果展示给用户。
与现有的垂直搜索引擎相比,本申请的垂直搜索引擎的实现方法采用朴素贝叶斯分类算法对用户输入的查询内容进行检索意图的判断,为此预先建立了训练库,这可以显著增强检索结果的准确性。本申请还构建了网页的三类索引库,其中的坐标值索引库可用于按地址检索,特征码索引库可对网页进行精确描述,关键词索引库可进行关键词检索,以这三类索引库相组合可得到更为精准的检索结果。
附图说明
图1是本申请垂直搜索引擎的实现方法的总流程图;
图2是朴素贝叶斯分类算法的实现流程图;
图3是本申请垂直搜索引擎的实现方法中建立地理词索引的流程图;
图4是本申请垂直搜索引擎的实现方法中建立特征词索引的流程图;
图5是本申请垂直搜索引擎的实现方法中相应用户查询的流程图。
具体实施方式
下面以一个应用在房屋房产领域、主要用于搜索出租出售的房源信息的垂直搜索引擎为例,对本申请的技术方案进行详细说明。
请参阅图1,本申请垂直搜索引擎的实现方法包括如下步骤:
第一步,建立地理词数据库、特征词数据库、地址检索训练库。
所述地理词数据库包括多个地理词。地理词就是可以确定具体坐标的词汇、短语等,包括地名、地址、地标建筑名称(楼宇、企业、商业、工厂、交通设施名称等)。优选地,所述地理词数据库还包括部分或全部的地理词所对应的坐标值,坐标值优选为经度和纬度,也可以是邮政编码等。
所述特征词数据库包括多个特征词,这些特征词分别对应着互不重复的特征码。在本实施例中,特征词分为多个类别,每个类别具体包括多个特征词。特征词的类别例如有区域、板块、小区名称、类型(住宅、商业等)、户型、面积、价格、周边资源(教育资源、医疗资源、交通资源、商业资源等)。“户型”这个类别的特征词具体包括有一室户、两室户、三室户、……、一室一厅、两室一厅、三室一厅、……、一室两厅、两室两厅、三室两厅、……。每个特征词都有一个独立无二的特征码。特征码可以任意设置,从节省存储空间和便于检索的角度,优选为一串数字、英文字母与数字的组合等。
在这里简单地介绍一下朴素贝叶斯分类算法(Naive Bayes Classifier)。设x={a1,a2,……,am}为一个待分类项,每个ai(i=1,2,……,m)为x的一个特征属性。y1,y2,……,yn是所有可能出现的类别。目的是判断x到底属于哪一个yj(j=1,2,……,n)。朴素贝叶斯分类算法的核心思想是:计算在该待分类项x出现的条件下各个类别yj出现的概率P(yj|x)。如果其中P(yk|x)=max{P(yj|x)},即在该待分类项x已经发生的前提下类别yk的发生概率最大,k为1,2,……,n之一。则认为该待分类项x属于类别yk。
P(A|B)表示事件B已经发生的前提下事件A发生的概率,叫做事件B条件下事件A的概率。P(A|B)=P(AB)/P(B),其中P(AB)表示事件A和事件B同时发生的概率,P(B)表示事件B发生的概率。有时,P(A|B)很容易直接得出,而P(B|A)则很难直接得出。贝叶斯定理就可以解决该问题:P(B|A)=P(A|B)P(B)/P(A)。
根据贝叶斯定理,计算待分类项x出现的条件下各个类别yj出现的概率P(yj|x)的方法为:
(1)找到一个已知分类的多个待分类项组成的集合,每个待分类项的特征属性也已划分,这个集合叫做训练样本集。a1,a2,……,am是所有特征属性的集合。y1,y2,……,yn是所有类别的集合。
(2)统计得到各类别条件下各个特征属性的概率P(ai|yj),这可以通过计算P(ai·yj)/P(yj)得到,而P(ai·yj)和P(yj)都是可以通过统计得到的。
(3)根据贝叶斯定理可知:P(yj|x)=P(x|yj)P(yj)/P(x)。因为分母相同,因此只要判断哪个分子最大即可。朴素贝叶斯分类算法假定各个特征属性ai是条件独立的,所以有:P(x|yj)P(yj)=P(a1|yj)P(a2|yj)……P(am|yj)P(yj)。
请参阅图2,综合上述说明,采用朴素贝叶斯分类算法实现分类包括如下步骤:
第1a步,建立训练样本集合。具体而言,是形成多个训练样本,每个训练样本具有一个或多个特征属性,对每个训练样本人工分类。这是朴素贝叶斯分类算法中唯一需要人工处理的阶段。
第1b步,训练分类器。具体而言,是以训练样本集合为基础统计出每个类别的出现频率、以及每个特征属性对每个类别的条件概率。这一阶段可由程序自动计算完成。
第1c步,分类器应用。具体而言,是根据所述训练样本集合和训练时统计计算的概率值,采用朴素贝叶斯算法对训练样本集合以外的待分类项进行分类,判断其属于哪个类别。这一阶段也可由程序自动完成。
所述地址检索训练库就是本申请应用朴素贝叶斯分类算法建立的。所述地址检索意图训练库包括由多段话组成的训练样本集,每段话就是一个训练样本。每段话由一个或多个词汇组成,每个词汇就是一个特征属性。每段话已确定了是属于“具有按地址检索的意图”类别或“不具有按地址检索的意图”类别,即每个训练样本已确定了类别。
在建立了地址检索意图训练库之后,还以其为基础统计出上述两个类别各自的发生概率,以及每个词汇分别与上述两个类别同时发生的概率。基于这两个统计值就可以计算出上述两个类别的条件下每个词汇的概率(即每个词汇对上述两个类别的条件概率)。
第二步,由网页抓取程序搜集网页信息。例如可根据网页之间的超链接关系、网站的各网页层级关系等连续地抓取网页内容。垂直搜索引擎具有很强的行业性、专业性,而每个行业、每个专业都具有数量有限的重点网站,其中汇集有该行业、该专业的大量富有价值的网页信息。本申请的网页抓取程序对这些重点网站特别频繁、全面地搜集网页信息。
第三步,由索引程序为所搜集的网页建立坐标值索引、特征码索引和关键词索引中的一个或多个。
房屋房产类的网站在发布出售出租的房源信息时通常采用规范的网页结构,表现为网页内容大致呈现表格化,表格中的各栏就是名称、含义、位置相对固定的各个字段,例如包括“板块”、“地址”、“户型”等字段。
请参阅图3,本申请的垂直搜索引擎的索引程序为所搜集的网页建立坐标值索引包括如下步骤:
第3a步,索引程序根据网页结构查找描述地址信息的字段,例如称其为“地址”字段,不同的网页也可采用其他的字段名称。
如果网页结构中不存在“地址”字段、或者虽存在“地址”字段但其内容为空,则不为该网页建立坐标值索引。
如果网页结构中存在“地址”字段且其内容不为空,则进入第3b步。
第3b步,索引程序判断“地址”字段中的内容是否包含所述地理词数据库中的任意地理词。
如果仅包含一个地理词,则根据所述地理词数据库查询该地理词所对应的坐标值,并将该坐标值作为该网页的坐标值索引。
如果包含多个地理词,则根据所述地理词数据库查询其中首次出现的地理词所对应的坐标值,并将该坐标值作为该网页的坐标值索引。
如果未包含任意地理词,则进入第3c步。
第3c步,将“地址”字段的内容在第三方网站(例如地图、测绘类网站,只要其可以根据地址查询坐标即可)查询。
如果第三方网站仍无法得到坐标值,则不为该网页建立坐标值索引。
如果第三方网站可以得到坐标值,则将该坐标值作为该网页的坐标值索引,同时将“地址”字段的内容及其坐标值加入到坐标值数据库中。
第3b步中的“包含”一词不应简单地理解为完全匹配的情况,而应理解为搜索引擎通常采用的文本匹配方式,即具有一定的容错性。例如“浦东”与“普东”之间仍属于“包含”情况,只不过匹配度<100%。
优选地,在第3b步中,索引程序判断“地址”字段中的内容包含所述地理词数据库中的多个地理词时,将其中匹配度最大的地理词所对应的坐标值作为该网页的坐标值索引。如果匹配度最大的地理词具有多个,则将首次出现的、匹配度最大的地理词所对应的坐标值作为该网页的坐标值索引。
优选地,在第3c步中,如果第三方网站可以根据“地址”字段的内容得到坐标值,并且第三方网站能够给出该坐标值所对应的详细地址信息时,索引程序判断“地址”字段的内容与该详细地址信息之间的匹配程度是否大于某一阈值,如果大于,则将两者的共同部分与该坐标值加入到坐标值数据库中。如果第三方网站未给出坐标值所对应的详细地址信息,则取该坐标值(如果有多个,则取第一个)和“地址”字段的内容加入到坐标值数据库中。
请参阅图4,本申请的垂直搜索引擎的索引程序为所搜集的网页建立特征码索引包括如下步骤:
第4a步,索引程序根据网页结构查找各个非空字段,并从中排除掉描述地址信息的字段(例如称其为“地址”字段,不同的网页也可采用其他的字段名称)。
如果网页结构中不存在任何字段、或者仅存在“地址”字段、或者虽存在除“地址”字段以外的字段但内容均为空,则不为该网页建立特征码索引。
如果网页结构中存在内容不为空的、除“地址”字段以外的字段,则进入第4b步。
第4b步,索引程序判断这些不为空的、除“地址”字段以外的字段中的内容是否包含所述特征词数据库中的任意特征词。
如果包含一个或多个特征词,则根据所述特征词数据库查询这些特征词所对应的特征码,并将这些特征码作为该网页的特征码索引。
如果未包含任意特征词,则不为该网页建立特征码索引。
第4b步中的“包含”一词也不应简单地理解为完全匹配的情况,而应理解为搜索引擎通常采用的文本匹配方式,即具有一定的容错性。
本申请的垂直搜索引擎的索引程序为所搜集的网页建立关键词索引的方法为:对于所搜集的网页,排除掉地理词和特征词以外的内容,包括文本内容、多媒体内容的名称、描述、评论等,均作为该网页的关键词索引。
优选地,本申请的垂直搜索引擎的网页抓取程序仅搜集具有规范的网页结构的网页,那么索引程序也只对这些具有表格化特征的网页内容建立索引。或者,不论网页抓取程序如何搜集网页,索引程序都只对具有规范的网页结构的网页建立索引。
这种根据网页结构的各个字段提取地理词和特征词的方法,与现有的索引程序的全文索引方式相比,能够更为直接地提取出有价值的信息,从而更为精确地描述、概括网页的特征。
例如,某个网页在“板块”字段后填写“陆家嘴”,“地址”字段后填写“浦城路366弄”,在“详细信息描述”字段后则是一长段话,其中包括有“人民广场、陆家嘴等区域的小户型一直供不应求”。那么现有的索引程序会将“人民广场”也作为关键词索引,并且只根据关键词索引进行检索操作。而本申请则根据“板块”字段将“陆家嘴”作为特征词,将其对应的特征码建立为特征码索引;还根据“地址”字段将“浦城路366弄”作为地理词,将其对应的“(纬度31.227622974921,经度121.5126108750701)”作为坐标值索引;将除各字段以外的其余内容才作为关键词索引。在检索时,本申请同时在特征码索引、坐标值索引和关键词索引中进行检索,并且特征码索引与坐标值索引具有比关键词索引更高的优先级。
所有搜集的网页的坐标值索引、特征码索引、关键词索引就分别形成了坐标值索引库、特征码索引库、关键词索引库。
第四步,由检索程序响应用户的查询内容,具体检索流程如图5所示。
第5a步,检索程序判断用户输入的查询内容是否属于按地址检索,即采用朴素贝叶斯分类算法基于所述地址检索训练库对用户输入的查询内容进行分类。
具体实现时,先计算出所述查询内容属于“具有按地址检索的意图”这个类别的概率值。如果计算出的概率值大于或等于某个阈值,则判断用户输入的查询内容属于按地址检索;否则判断用户输入的查询内容不属于按地址检索。所述阈值例如为80%。
如果判断出用户输入的查询内容属于按地址检索,则进入第5b步。
如果判断出用户输入的查询内容不属于按地址检索,则进入第5d步。
第5b步,检索程序判断所述查询内容中是否包含所述地理词数据库中的任意地理词。
如果包含一个或多个地理词,则根据所述地理词数据库查询这些地理词所对应的坐标值,并记录这些坐标值,然后进入第5d步。
如果未包含任意地理词,则进入第5c步。
第5c步,检索程序将所述查询内容在第三方网站进行坐标查询。
如果第三方网站可以得到坐标值,则将所述查询内容及其坐标值加入到坐标值数据库中,并进入第5c步。
如果第三方网站仍无法得到坐标值,则进入第5d步。
第5d步,检索程序判断所述查询内容中是否包含所述特征词数据库中的任意特征词。
如果包含一个或多个特征词,则根据所述特征词数据库查询这些特征词所对应的特征码,并记录这些特征码,然后进入第5e步。
如果未包含任意特征词,则进入第5e步。
第5e步,如果所述查询内容排除掉地理词、特征词之后还具有剩余内容,则将这些剩余内容作为关键词,然后进入第5f步。
如果所述查询内容排除掉地理词、特征词之后没有剩余内容,则进入第5f步。
第5f步,当所述查询内容具有地理词时,将从所述查询内容中得到的坐标值的一定距离范围内作为在坐标值索引库中的检索条件;
当所述查询内容具有特征词时,将从所述查询内容中得到的特征码在特征码索引库中进行检索;
当所述查询内容具有关键词时,将所述关键词在关键词索引库中进行检索;
以上述三种检索方式的一种、或多种相组合所获得的检索结果的交集,呈现给用户。
第5a步或第5b步中,检索程序通常还对用户输入的查询内容进行分词、去符号、去停用词等操作。所述分词即将所述查询内容分解为多个词汇。所述去符号就是将所述查询内容中的非中文符号去除掉。所述去停用词就是将所述查询内容中的无意义词汇去除掉,例如介词“的”、“地”、“得”;感叹词“啊”、“吧”、“呀”等。
第5b步、第5d步中的“包含”一词也不应简单地理解为完全匹配的情况,而应理解为搜索引擎通常采用的文本匹配方式,即具有一定的容错性。
优选地,在第5c步中,如果第三方网站可以根据查询内容得到坐标值,并且第三方网站能够给出该坐标值所对应的详细地址信息时,检索程序判断查询内容与该详细地址信息之间的匹配程度是否大于某一阈值,如果大于,则将两者的共同部分与该坐标值加入到坐标值数据库中。如果第三方网站未给出坐标值所对应的详细地址信息,则取该坐标值(如果有多个,则取第一个)和查询内容加入到坐标值数据库中。
第5e步设定的七种情况如下表所示:
  查询内容   用于检索的索引库
  无地理词、无特征词、无关键词   (这种情况不可能发生)
  无地理词、无特征词、有关键词   关键词索引库
  无地理词、有特征词、无关键词   特征码索引库
  无地理词、有特征词、有关键词   特征码索引库、关键词索引库(可选)
  有地理词、无特征词、无关键词   坐标值索引库
  有地理词、无特征词、有关键词   坐标值索引库、关键词索引库(可选)
  有地理词、有特征词、无关键词   坐标值索引库、特征码索引库、
  有地理词、有特征词、有关键词   坐标值索引库、特征码索引库、关键词索引库(可选)
如果所述查询内容中未包含地理词、也未包含特征词、但包含关键词,则检索程序将所述关键词在关键词索引库中进行检索;
如果所述查询内容中未包含地理词、但包含特征词、也未包含关键词,则检索程序将从所述查询内容中得到的特征码在特征码索引库中进行检索;
如果所述查询内容中未包含地理词、但包含特征词、也包含关键词,则检索程序将从所述查询内容中得到的特征码在特征码索引库中进行检索,同时可选地以关键词在关键词索引库中进行检索;
如果所述查询内容中包含地理词、但未包含特征词、也未包含关键词,则检索程序将从所述查询内容中得到的坐标值的一定距离范围内作为在坐标值索引库中的检索条件;
如果所述查询内容中包含地理词、但未包含特征词、包含关键词,则检索程序将从所述查询内容中得到的坐标值的一定距离范围内作为在坐标值索引库中的检索条件,同时可选地以关键词在关键词索引库中进行检索;
如果所述查询内容中包含地理词、也包含特征词、但未包含关键词,则检索程序将所述查询内容中得到的坐标值的一定距离范围内作为在坐标值索引库中的检索条件,同时将从所述查询内容中得到的特征码在特征码索引库中进行检索;
如果所述查询内容中包含地理词、也包含特征词、也包含关键词,则检索程序将所述查询内容中得到的坐标值的一定距离范围内作为在坐标值索引库中的检索条件,同时将从所述查询内容中得到的特征码在特征码索引库中进行检索,同时可选地以关键词在关键词索引库中进行检索;
如果在多个索引库中同时进行检索,则取各自检索结果的交集呈现给用户。
所述坐标值的一定范围内例如是某个经纬度坐标的500米范围内、1000米范围内、2000米范围内等;或者是同一个邮政编码区域、相邻邮政编码区域等。如果所述查询内容中包括多个地理词,则以这些地理词的坐标值的一定范围的并集作为坐标值检索条件。
在三种可选地以关键词在关键词索引库中进行检索的情况中,如果将关键词检索条件作为组合检索条件之一得到零结果或很少的检索结果,则忽略该关键词检索条件。
第5e步具有一个特殊情况。当用户输入的查询内容同时包含有地理词和表示位置的特征词的时候,则忽略坐标值的检索条件。这是由于基于地理词的检索条件与基于“区域”、“板块”、“小区名称”等类别的表示位置的特征词检索条件相比,后者更符合用户的检索意图且地理定位更为精确。
以上列举的是一个房屋房产类的垂直搜索引擎,如果改为消费购物类的垂直搜索引擎,那么只需要修改特征码数据库即可。此时的特征词类别例如改为:品牌、类型(餐饮、电影院、卡拉OK、……)、人均消费金额、用户评价等。“品牌”这个类别的特征词例如包括全聚德、肯德基等。除此以外,其余方案则完全相同。
与现有的垂直搜索引擎相比,本申请的垂直搜索引擎的实现方法具有如下优点:
其一,对网页进行索引时,创新性地引入坐标值索引和特征码索引,大大增加了对网页特征捕捉的准确性。。
其二,对网页进行检索时,将原本一维的检索纬度(仅在关键词索引库中检索)扩展为最多具有多维的检索纬度(在坐标值索引库、特征码索引库和关键词索引库中组合检索),使得检索结果更为精准,也更符合用户的检索需求。
其三,采用朴素贝叶斯分类算法判断用户的查询内容是否具有按地址查询的意图,从而有针对性地启用坐标值的检索条件。
以上仅为本申请的优选实施例,并不用于限定本申请。对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (9)

1.一种垂直搜索引擎的实现方法,其特征是,所述方法为:
第一步,建立地理词数据库、特征词数据库、地址检索训练库;
所述地理词数据库包括多个地理词;
所述特征词数据库包括多个特征词及其相应的互不重复的特征码;
所述地址检索训练库包括多段话、它们均已由人工分类为“具有按地址检索的意图”或“不具有按地址检索的意图”这两个类别之一;所述两个类别出现的概率值、每段话中的每个词汇对于所述两个类别的条件概率也已统计计算出;
第二步,由网页抓取程序搜集网页信息;
第三步,由索引程序为所搜集的网页建立坐标值索引、特征码索引和关键词索引中的一个或多个;
第四步,由检索程序响应用户的查询内容;检索程序判断查询内容是否属于按地址检索;如果属于,则从查询内容中提取出地理词的坐标值、特征词的特征码,剩下的作为关键词,作为在坐标值索引库、特征码索引库、关键词索引库中单独或组合检索的条件;如果不属于,则从查询内容中提取出特征词的特征码,剩下的作为关键词,作为在特征码索引库、关键词索引库中单独组合检索的条件;检索结果展示给用户。
2.根据权利要求1所述的垂直搜索引擎的实现方法,其特征是,所述方法第一步中,所述地址检索训练库包括由多段话组成的训练样本集,每段话就是一个训练样本;每段话由一个或多个词汇组成,每个词汇就是一个特征属性;每段话已确定了是属于“具有按地址检索的意图”类别或“不具有按地址检索的意图”类别,即每个训练样本已确定了类别;
在建立了地址检索意图训练库之后,还以其为基础统计出上述两个类别各自的发生概率,以及每个词汇分别与上述两个类别同时发生的概率;基于这两个统计值就可以计算出上述两个类别的条件下每个词汇的概率,即每个词汇对上述两个类别的条件概率。
3.根据权利要求1所述的垂直搜索引擎的实现方法,其特征是,所述方法第三步中,建立坐标值索引包括如下步骤:
第3a步,索引程序根据网页结构查找描述地址信息的字段;
如果网页结构中不存在“地址”字段、或者虽存在“地址”字段但其内容为空,则不为该网页建立坐标值索引;
如果网页结构中存在“地址”字段且其内容不为空,则进入第3b步;
第3b步,索引程序判断“地址”字段中的内容是否包含所述地理词数据库中的任意地理词;
如果仅包含一个地理词,则根据所述地理词数据库查询该地理词所对应的坐标值,并将该坐标值作为该网页的坐标值索引;
如果包含多个地理词,则根据所述地理词数据库查询其中首次出现的地理词所对应的坐标值,并将该坐标值作为该网页的坐标值索引;
如果未包含任意地理词,则进入第3c步;
第3c步,将“地址”字段的内容在第三方网站查询;
如果第三方网站仍无法得到坐标值,则不为该网页建立坐标值索引;
如果第三方网站可以得到坐标值,则将该坐标值作为该网页的坐标值索引,同时将“地址”字段的内容及其坐标值加入到坐标值数据库中。
4.根据权利要求1所述的垂直搜索引擎的实现方法,其特征是,所述方法第三步中,建立特征码索引包括如下步骤:
第4a步,索引程序根据网页结构查找各个非空字段,并从中排除掉描述地址信息的字段;
如果网页结构中不存在任何字段、或者仅存在“地址”字段、或者虽存在除“地址”字段以外的字段但内容均为空,则不为该网页建立特征码索引;
如果网页结构中存在内容不为空的、除“地址”字段以外的字段,则进入第4b步;
第4b步,索引程序判断这些不为空的、除“地址”字段以外的字段中的内容是否包含所述特征词数据库中的任意特征词;
如果包含一个或多个特征词,则根据所述特征词数据库查询这些特征词所对应的特征码,并将这些特征码作为该网页的特征码索引;
如果未包含任意特征词,则不为该网页建立特征码索引。
5.根据权利要求1所述的垂直搜索引擎的实现方法,其特征是,所述方法第三步中,建立关键词索引的方法为:对于所搜集的网页,排除掉地理词和特征词以外的内容均作为该网页的关键词索引。
6.根据权利要求1所述的垂直搜索引擎的实现方法,其特征是,所述方法第三步中,索引程序仅对具有规范的网页结构的网页建立索引。
7.根据权利要求1所述的垂直搜索引擎的实现方法,其特征是,所述方法第四步具体包括:
第5a步,检索程序判断用户输入的查询内容是否属于按地址检索,即采用朴素贝叶斯分类算法基于所述地址检索训练库对用户输入的查询内容进行“具有按地址检索的意图”和“不具有按地址检索的意图”这两个类别的分类;
如果判断出用户输入的查询内容属于按地址检索,则进入第5b步;
如果判断出用户输入的查询内容不属于按地址检索,则进入第5d步;
第5b步,检索程序判断所述查询内容中是否包含所述地理词数据库中的任意地理词;
如果包含一个或多个地理词,则根据所述地理词数据库查询这些地理词所对应的坐标值,并记录这些坐标值,然后进入第5d步;
如果未包含任意地理词,则进入第5c步;
第5c步,检索程序将所述查询内容在第三方网站进行坐标查询;
如果第三方网站可以得到坐标值,则将所述查询内容及其坐标值加入到坐标值数据库中,并进入第5c步;
如果第三方网站仍无法得到坐标值,则进入第5d步;
第5d步,检索程序判断所述查询内容中是否包含所述特征词数据库中的任意特征词;
如果包含一个或多个特征词,则根据所述特征词数据库查询这些特征词所对应的特征码,并记录这些特征码,然后进入第5e步;
如果未包含任意特征词,则进入第5e步;
第5e步,如果所述查询内容排除掉地理词、特征词之后还具有剩余内容,则将这些剩余内容作为关键词,然后进入第5f步;
如果所述查询内容排除掉地理词、特征词之后没有剩余内容,则进入第5f步;
第5f步,当所述查询内容具有地理词时,将从所述查询内容中得到的坐标值的一定距离范围内作为在坐标值索引库中的检索条件;
当所述查询内容具有特征词时,将从所述查询内容中得到的特征码在特征码索引库中进行检索;
当所述查询内容具有关键词时,将所述关键词在关键词索引库中进行检索;
以上述三种检索方式的一种、或多种相组合所获得的检索结果的交集,呈现给用户。
8.根据权利要求7所述的垂直搜索引擎的实现方法,其特征是,第5f步中,
如果所述查询内容中未包含地理词、未包含特征词、包含关键词,则检索程序将关键词在关键词索引库中进行检索;
如果所述查询内容中未包含地理词、包含特征词、未包含关键词,则检索程序将特征码在特征码索引库中进行检索;
如果所述查询内容中未包含地理词、包含特征词、包含关键词,则检索程序将从特征码在特征码索引库中进行检索;或者,检索程序将特征码在特征码索引库中进行检索,同时以关键词在关键词索引库中进行检索;
如果所述查询内容中包含地理词、未包含特征词、未包含关键词,则检索程序将坐标值的一定距离范围内作为在坐标值索引库中的检索条件;
如果所述查询内容中包含地理词、未包含特征词、包含关键词,则检索程序将坐标值的一定距离范围内作为在坐标值索引库中的检索条件;或者,检索程序将坐标值的一定距离范围内作为在坐标值索引库中的检索条件,同时以关键词在关键词索引库中进行检索;
如果所述查询内容中包含地理词、包含特征词、未包含关键词,则检索程序将坐标值的一定距离范围内作为在坐标值索引库中的检索条件,同时将特征码在特征码索引库中进行检索;
如果所述查询内容中包含地理词、包含特征词、包含关键词,则检索程序将坐标值的一定距离范围内作为在坐标值索引库中的检索条件,同时将特征码在特征码索引库中进行检索;或者,检索程序将坐标值的一定距离范围内作为在坐标值索引库中的检索条件,同时将特征码在特征码索引库中进行检索,同时以关键词在关键词索引库中进行检索;
当在多个索引库中同时进行检索,取各自检索结果的交集呈现给用户。
9.根据权利要求7所述的垂直搜索引擎的实现方法,其特征是,第5f步中,当用户输入的查询内容同时包含有地理词和表示位置的特征词的时候,则忽略坐标值的检索条件。
CN201210390588.7A 2012-10-15 2012-10-15 垂直搜索引擎的实现方法 Active CN102880721B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210390588.7A CN102880721B (zh) 2012-10-15 2012-10-15 垂直搜索引擎的实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210390588.7A CN102880721B (zh) 2012-10-15 2012-10-15 垂直搜索引擎的实现方法

Publications (2)

Publication Number Publication Date
CN102880721A true CN102880721A (zh) 2013-01-16
CN102880721B CN102880721B (zh) 2015-10-28

Family

ID=47482047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210390588.7A Active CN102880721B (zh) 2012-10-15 2012-10-15 垂直搜索引擎的实现方法

Country Status (1)

Country Link
CN (1) CN102880721B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207901A (zh) * 2013-03-21 2013-07-17 百度在线网络技术(北京)有限公司 一种基于搜索引擎获取ip地址归属地的方法和装置
CN104123319A (zh) * 2013-04-28 2014-10-29 百度在线网络技术(北京)有限公司 对具有地图需求的搜索项进行解析的方法和装置
CN104572992A (zh) * 2015-01-06 2015-04-29 武汉工程大学 基于多约束推理的互联网地理位置信息规范化方法
CN104794152A (zh) * 2015-01-30 2015-07-22 北京东方泰坦科技股份有限公司 基于地名数据库的海量中文网页在线地理信息化方法
CN106503259A (zh) * 2016-11-18 2017-03-15 政和科技股份有限公司 搜索引导方法和搜索引擎
CN106933962A (zh) * 2017-02-06 2017-07-07 涂正富 一种微区域网络接入及垂直搜索精准定位获取目标的方法
CN111581490A (zh) * 2019-02-15 2020-08-25 北京无限光场科技有限公司 一种信息搜索方法、装置、存储介质及电子设备
CN114428834A (zh) * 2021-12-27 2022-05-03 北京百度网讯科技有限公司 检索方法、装置、电子设备及存储介质
CN116204568A (zh) * 2023-05-04 2023-06-02 华能信息技术有限公司 一种数据挖掘分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901247A (zh) * 2010-03-29 2010-12-01 北京师范大学 一种领域本体约束的垂直搜索引擎方法及***
CN102012922A (zh) * 2010-11-30 2011-04-13 无锡快度信息技术有限公司 通用型垂直搜索引擎的行业应用模型建模方法
WO2012034069A1 (en) * 2010-09-10 2012-03-15 Veveo, Inc. Method of and system for conducting personalized federated search and presentation of results therefrom
CN102567483A (zh) * 2011-12-20 2012-07-11 华中科技大学 多特征融合的人脸图像搜索方法和***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901247A (zh) * 2010-03-29 2010-12-01 北京师范大学 一种领域本体约束的垂直搜索引擎方法及***
WO2012034069A1 (en) * 2010-09-10 2012-03-15 Veveo, Inc. Method of and system for conducting personalized federated search and presentation of results therefrom
CN102012922A (zh) * 2010-11-30 2011-04-13 无锡快度信息技术有限公司 通用型垂直搜索引擎的行业应用模型建模方法
CN102567483A (zh) * 2011-12-20 2012-07-11 华中科技大学 多特征融合的人脸图像搜索方法和***

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207901A (zh) * 2013-03-21 2013-07-17 百度在线网络技术(北京)有限公司 一种基于搜索引擎获取ip地址归属地的方法和装置
CN103207901B (zh) * 2013-03-21 2019-03-08 百度在线网络技术(北京)有限公司 一种基于搜索引擎获取ip地址归属地的方法和装置
CN104123319A (zh) * 2013-04-28 2014-10-29 百度在线网络技术(北京)有限公司 对具有地图需求的搜索项进行解析的方法和装置
CN104123319B (zh) * 2013-04-28 2019-08-27 百度在线网络技术(北京)有限公司 对具有地图需求的搜索项进行解析的方法和装置
CN104572992B (zh) * 2015-01-06 2018-07-17 武汉工程大学 基于多约束推理的互联网地理位置信息规范化方法
CN104572992A (zh) * 2015-01-06 2015-04-29 武汉工程大学 基于多约束推理的互联网地理位置信息规范化方法
CN104794152A (zh) * 2015-01-30 2015-07-22 北京东方泰坦科技股份有限公司 基于地名数据库的海量中文网页在线地理信息化方法
CN106503259A (zh) * 2016-11-18 2017-03-15 政和科技股份有限公司 搜索引导方法和搜索引擎
CN106933962A (zh) * 2017-02-06 2017-07-07 涂正富 一种微区域网络接入及垂直搜索精准定位获取目标的方法
CN111581490A (zh) * 2019-02-15 2020-08-25 北京无限光场科技有限公司 一种信息搜索方法、装置、存储介质及电子设备
CN114428834A (zh) * 2021-12-27 2022-05-03 北京百度网讯科技有限公司 检索方法、装置、电子设备及存储介质
CN116204568A (zh) * 2023-05-04 2023-06-02 华能信息技术有限公司 一种数据挖掘分析方法
CN116204568B (zh) * 2023-05-04 2023-10-03 华能信息技术有限公司 一种数据挖掘分析方法

Also Published As

Publication number Publication date
CN102880721B (zh) 2015-10-28

Similar Documents

Publication Publication Date Title
CN102880721B (zh) 垂直搜索引擎的实现方法
WO2020228706A1 (zh) 基于围栏地址的坐标数据处理方法、装置和计算机设备
CN106682150B (zh) 一种信息处理的方法及装置
Han et al. A stacking-based approach to twitter user geolocation prediction
CN100590617C (zh) 信息检索***中基于短语的索引编制方法和***
CN1728142B (zh) 信息检索***中的短语识别方法和设备
CN100465954C (zh) 用于搜索术语建议的多种类型数据的加强群集
CN1728143B (zh) 基于短语产生文献说明
US8645385B2 (en) System and method for automating categorization and aggregation of content from network sites
CN1728141B (zh) 信息检索***中基于短语的搜索
US8166013B2 (en) Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
CN101364239B (zh) 一种分类目录自动构建方法及相关***
Ghahremanlou et al. Geotagging twitter messages in crisis management
US8898130B1 (en) Organizing search results
CN110532309B (zh) 一种高校图书馆用户画像***的生成方法
CN102163214A (zh) 一种数字地图生成装置及方法
US9183223B2 (en) System for non-deterministic disambiguation and qualitative entity matching of geographical locale data for business entities
CN104794242A (zh) 一种搜索方法
CN103778206A (zh) 一种网络服务资源的提供方法
CN104050243A (zh) 一种将搜索与社交相结合的网络搜索方法及其***
CN100470549C (zh) 一种表格定位的数据挖掘方法
CN104536957A (zh) 农用土地流转信息检索方法和***
Chatterjee et al. SAGEL: smart address geocoding engine for supply-chain logistics
CN109947914A (zh) 一种基于模板的软件缺陷自动问答方法
CN111325235B (zh) 面向多语种的通用地名语义相似度计算方法及其应用

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant