CN102486784B - 信息请求方法和信息提供方法 - Google Patents

信息请求方法和信息提供方法 Download PDF

Info

Publication number
CN102486784B
CN102486784B CN201010574338.XA CN201010574338A CN102486784B CN 102486784 B CN102486784 B CN 102486784B CN 201010574338 A CN201010574338 A CN 201010574338A CN 102486784 B CN102486784 B CN 102486784B
Authority
CN
China
Prior art keywords
structure objects
information
score value
entry
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201010574338.XA
Other languages
English (en)
Other versions
CN102486784A (zh
Inventor
尹红风
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yin Hongwei
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201010574338.XA priority Critical patent/CN102486784B/zh
Publication of CN102486784A publication Critical patent/CN102486784A/zh
Application granted granted Critical
Publication of CN102486784B publication Critical patent/CN102486784B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

一种通过互联网提供信息和请求信息的方法,所述信息提供方法包括:使用网络蜘蛛程序下载预定范围的网页,并且按照预定的规则对网页数据进行分析,提取至少一个对象的信息,并且根据网页的内容相关度、排名、浏览量、官方评分值和用户投票值中的至少一个,计算所述对象的分值;从存储有多个结构对象的对象数据库搜索具有提取的对象名称的结构对象;如果没有搜索到相应的结构对象,则使用提取的对象信息和计算的分值构建结构对象,并且将构建的结构对象写入到对象数据库中。其中,当接收到来自用户的包含查询字符串的提示请求消息时,从对象数据库提取与查询字符串相应的结构对象,并且构建和发送包含所述结构对象中的相应信息的提示响应消息。

Description

信息请求方法和信息提供方法
技术领域
本发明涉及一种通过互联网请求信息和提供信息的方法,尤其涉及一种在不启动全面网页搜索的情况下请求和提供有关用户给出的查询词的解释的方法。
背景技术
计算机的发明给人类带来了信息技术和信息革命。当前,信息***性地增长,而现有的信息技术无法使人有效地使用已有的信息。以信息检索理论为原理的搜索引擎是目前主要的信息查找方法,它主要是通过网络蜘蛛尽可能抓取互联网网页,然后用超链分析等方法给出网页排名,再用关键词来索引所有的网页。当用户输入关键词进行搜索时,搜索引擎从索引数据库中找到匹配该关键词的网页提供给用户。
搜索引擎通常涵盖非常大的互联网范围,但是经常返回大量的低质量网页。即使用户想了解有关特定主题的一般知识,也经常需要一一点击搜索引擎返回的网页链接,花费很多时间从大量网页筛选出相关的信息,因而经常产生挫折感。
因此,需要一种向用户直接提供有关特定主题的知识信息的方法,而不需要用户启动搜索,从搜索引擎返回的网页链接查找相关信息,从而为搜索引擎的用户提供便利。
发明内容
本发明的目的在于提供一种通过互联网请求信息的方法,从而在用户输入查询的同时,可以获得有关用户查询的提示结果。
本发明的另一目的在于提供一种通过互联网提供信息的方法,从而当收到用户查询字符串时,可以直接提供有关用户查询的信息,而不需要用户启动网页搜索。
本发明的另一目的在于提供一种通过互联网提供信息的方法,从而当收到用户查询字符串时,可以直接提供与用户查询的主题相关度高的信息以及提示关键词,而不需要用户启动网页搜索。
为了实现上述目的,本发明提供一种通过互联网提供信息的方法,所述方法包括,使用网络蜘蛛程序下载预定范围的网页,并且对每个网页进行以下处理:按照预定的规则对网页数据进行分析,提取至少一个对象的信息,并且根据网页的内容相关度、排名、浏览量、官方评分值和用户投票值中的至少一个,计算所述对象的分值,所述对象的信息包括对象名称、以及一个或多个属性和简介中的至少一个,所述属性包括属性名称和属性值;从存储有多个结构对象的对象数据库搜索具有提取的对象名称的结构对象,所述结构对象包括对象名称、分值、以及一个或多个属性和简介中的至少一个;如果没有搜索到相应的结构对象,则使用提取的对象信息和计算的分值构建结构对象,并且将构建的结构对象写入到对象数据库中;和如果搜索到相应的结构对象并且结构对象的分值小于计算的分值,则使用提取的对象信息和计算的分值更新对象数据库中的所述结构对象。其中,当接收到来自用户的包含查询字符串的提示请求消息时,从对象数据库提取与查询字符串相应的结构对象,并且构建和发送包含所述结构对象中的相应信息的提示响应消息。
所述结构对象可以以JSON(JavaScript Object Notation)格式进行存储。
可以以数据库和硬盘文件之一或者其结合存储所述对象数据库。
可以根据以下方法计算所述对象的分值:
对于提取自百科类网站的网页的对象,其中,所述评分值是用户对所述网页的用户投票值或官方评分值,浏览量是所述网页被浏览的次数统计,Alexa排名是Alexa公司对全球网站给予的排名;
对于提取自对象主题所属类别的网站的对象,指定预定的固定分值;和
对于从其他网站的网页提取的对象,分值=1/Alexa排名。
还可以为对象数据库建立对象索引并将所述对象索引存储在存储介质上,每个索引项包括关键词词条以及指针,所述关键词词条是对象名称或者对象名称与对象属性的组合,所述指针是对象数据库中具有所述对象名称的结构对象的指针。其中,当接收到包含查询字符串的提示请求消息时,从所述对象索引搜索关键词词条与所述查询字符串相应的索引项,并且根据搜索到的索引项中的指针从对象数据库提取相应的结构对象,并且构建和发送包含所述结构对象中的相应信息的提示响应消息。
可以以预定的第一时间间隔定期地更新所述对象索引。
当更新对象索引时,可以为自上一次更新对象索引后新增的每个结构对象,构建包括作为关键词词条的对象名称和所述结构对象在对象数据库中的位置的指针的索引项,对所述结构对象的每个属性,构建包括作为关键词词条的对象名称和属性名称的组合以及所述结构对象或所述属性在对象数据库中的位置的指针的索引项;然后,将构建的全部索引项写入对象索引。
还可以建立具有与对象索引相同结构的增量索引,并将所述增量索引独立于对象索引存储在存储介质上。其中,当接收到包含查询字符串的提示请求消息时,从所述对象索引和增量索引搜索关键词词条与所述查询字符串相应的索引项,并且根据搜索到的索引项中的指针从对象数据库提取相应的结构对象,并且构建和发送包含所述结构对象中的相应信息的提示响应消息;其中,当更新所述对象索引时,为自上一次更新起新增的每个结构对象,构建包括作为关键词词条的对象名称和所述结构对象在对象数据库中的位置的指针的索引项,对所述结构对象的每个属性,构建包括作为关键词词条的对象名称和属性名称的组合以及所述结构对象或所述属性在对象数据库中的位置的指针的索引项;然后,将构建的全部索引项写入所述增量索引;并且其中,以大于所述第一时间间隔的第二时间间隔将增量索引中的索引项合并到对象索引中,并且清空所述全部增量索引。
所述对象索引和增量索引可以是倒排索引。
还可以为对象数据库中的结构对象生成包括多个关键词词条项的提示关键词词库,其中,所述关键词词条项包括所述关键词词条和复合分值,当所述关键词词条是对象名称时,所述复合分值是对象的分值,当所述关键词词条是对象名称和属性名称的组合时,所述复合分值是基于对象的属性计算的分值;其中,以所述第一时间间隔更新提示关键词词库。
可以按照以下公式计算所述基于对象的属性计算的分值:
其中,R是所述结构对象的分值,V是所述关键词词条基于海量网页统计的次数,L是所述属性名称的长度。
当接收到来自用户的包含查询字符串的提示请求消息时,还可以从关键词词库提取预定数目的以查询字符串为前缀的关键词,并且构建和发送包括所述提取的关键词以及提取的结构对象中的相应信息的提示响应消息。
当接收到来自用户的包含查询字符串的提示请求消息时,可以在将查询字符串中的拼音转换为相应的中文字符串以后,基于所述中文字符串从关键词词库提取关键词,并且从对象索引以及对象数据库搜索结构对象的相应信息以构建和发送提示响应消息。
本发明还提供一种通过互联网请求信息的方法,包括:检测网络浏览器中的用户操作;当检测到的用户操作是输入字符串的改变时,构建并发送包括用户输入字符串的第一提示请求消息;当接收到响应于所述第一提示请求消息的第一提示响应消息时,从所述第一提示响应消息提取关于用户输入字符串表示的主题的解释,在浏览器的指定位置弹出提示窗口,并且在所述提示窗口的指定位置显示所述解释。当检测到的用户操作是搜索命令时,构建并发送包括用户输入字符串的搜索请求消息;当接收到响应于所述搜索请求消息的搜索响应消息时,从搜索响应消息提取关于用户输入字符串的搜索结果,并且在浏览器当前显示的窗口中显示所述搜索结果。
接收的第一提示响应消息还包括提示关键词列表,所述提示关键词列表可以还包括多个提示关键词。其中,当接收到所述第一提示响应消息时,还提取所述提示关键词列表,并且在弹出的提示窗口的另一指定位置显示所述多个提示关键词。
当检测到的用户操作是选定显示的提示关键词之一时,可以还构建并发送包括选定的提示关键词的字符串的第二提示请求消息;当接收到响应于所述第二提示请求消息的第二提示响应消息时,从所述第二提示响应消息提取关于选定的提示关键词表示的主题的解释,并且在所述提示窗口的指定位置显示所述解释。
用户的输入字符串可以是汉字、汉语拼音和西文之一。
附图说明
通过下面结合示例性地示出一例的附图进行的描述,本发明的上述和其他目的和特点将会变得更加清楚,其中:
图1是根据本发明的示例性实施例的信息请求方法和信息提供方法的互联网***的示意图;
图2是根据本发明的示例性实施例存储在对象数据库中的结构对象的数据结构的示意图;
图3示出根据本发明的示例性实施例以JSON格式表达的结构对象的示例;
图4A至图4C示出根据本发明的示例性实施例在客户机12或14上请求信息时的浏览器界面显示;
图5是示出根据本发明的示例性实施例在客户端请求信息时进行的处理的流程图;和
图6是示出根据本发明的示例性实施例在提示信息服务器端执行信息提供方法的处理的流程图。
具体实施方式
本发明通过使用网络蜘蛛程序从互联网的预定范围抓取网页,对网页的内容进行分析并提取有关指示特定主题的对象的信息,并且使用所述提取的对象的信息生成对象数据库,从而当接收到用户的信息请求时,直接将对象数据库中的相应知识信息提供给用户。而在客户端,用户在输入窗口中输入其想要了解的查询词的内容时,不需要启动搜索程序,再从搜索结构中进行筛选,而可以直接获得有关查询词的解释内容。
以下,参照附图来详细说明本发明的实施例。
图1是根据本发明的示例性实施例的信息请求方法和信息提供方法的互联网***10的示意图。参照图1,客户机12和14提供如网络浏览器的用户界面,用户通过该用户界面与执行本发明的信息提供方法的信息提供服务器18交互。客户机12和14可以是传统的台式计算机,或者是包括笔记本电脑、具有上网功能的手机等的各种移动装置。信息提供服务器18可以是单独的服务器或者服务器集群,通过互联网16从分布于全球各处的网络服务器22收集信息并进行处理,建立和维护所述对象数据库,并且响应用户的查询请求,提供对象数据库中与用户的查询相应的信息。用户通过客户机12和14的用户界面输入所述用户的查询请求,通过互联网16发送给信息提供服务器18。在互联网***10中,还可能有用于提供搜索服务的搜索引擎服务器20。根据本发明的可选实施例,信息提供服务器18还可以同时运行搜索引擎服务。
为了收集相关性强的知识信息,考虑到本发明建立知识库性质的对象数据库,有针对性地选择和确定抓取网页的范围,例如:
百科类:百度百科、互动百科、***
企业信息:企业黄页
财经:新浪财经、Google财经
音乐:1ting
体育:新浪体育、搜狐体育
读书:新浪读书频道、腾讯读书、豆瓣读书频道
通过对抓取的网页进行分析,能够将与特定主题(即对象)相关的信息集中进行存储和管理,将对象和其属性以及其他对象关联起来,提高提供的对象信息的相关度。
将本发明的对象数据库的存储单位称为结构对象,所述结构对象包含有关对象的信息。根据本发明的示例性实施例,如图2所示,结构对象200包括对象名称210、分值220和简介230。分值220是基于作为当前的对象数据的来源的网页计算的数值。简介230是有关所述对象的定义、说明或者解释性文字。通常,结构对象200还包括至少一个属性240。属性240包括属性名称和属性值。属性值可以是单个值也可以是多个值。根据本发明的优选实施例,以JSON(Javascript Object Notation)格式存储所述结构对象。JSON是基于纯文本的数据格式,在JSON中通常以至少一个键值对(Key-Value Pair)的形式进行表达一个对象(Object)。
根据本发明的示例性实施例,以数据库和硬盘文件之一或者其结合存储所述对象数据库。
图3示出根据本发明的示例性实施例以JSON格式表达的结构对象300的示例。参照图3,以下划线标识的对象名称310是“刘德华”,分值320和简介330也都以属性的形式进行表达,340-360以及“春晚记录”为属性名称,在所述属性名称的冒号右侧分别是所述属性的值。其中,使用方括号标识具有包含多个属性项的属性,例如电影票房360。
在客户机12和14端,通过下载和运行嵌入在网页中的如JavaScript脚本程序来实现根据本发明的示例性实施例的信息请求方法。所述网页提供用于用户输入查询词的文本输入框以及相关的命令按钮,其可以在用于本发明的信息请求以外,同时用于一般的网页搜索。所述脚本程序用于检测浏览器窗口中用户的操作,根据用户的操作构建和发送相应的提示请求消息并且显示接收的提示响应消息中的信息。在网页浏览器中,用户首先使用指定的统一资源定位符(URL)下载所述具有脚本程序的网页,然后,在网页的文本输入框中输入查询词,由此在单独弹出的提示窗口中得到有关查询词的信息。所述查询词的信息可以是有关特定对象主题的解释(“刘德华”的简介),也可以是特定对象主题的指定属性的值(如“刘德华”的“妻子”为“朱丽倩”)。根据本发明的另一示例性实施例,用户还可以在所述弹出的提示窗口中或者另一单独弹出的提示窗口中得到预定数目的提示关键词。
图4A至图4C示出根据本发明的示例性实施例在客户机12或14上请求信息时的浏览器界面显示。稍后将参照图5详细地描述所述请求信息的处理。
参照图4A,当用户在浏览器的文本输入框410中一次性地输入“北京大学校长”时,在浏览器的当前页面上弹出一个提示窗口420,并且在其中的预定位置(如右侧)显示出当前北大校长的查询结果“周其凤”。请注意,在这里用户并没有给出查询或搜索指令,而是由该网页中的JavaScript脚本在检测到用户的输入后直接生成并发送提示请求消息,并且显示接收的响应消息中提供的结果。当然,如果用户当前的输入是“北”,而没有相应的查询结果时,则不弹出提示窗口,也不显示任何信息。
根据本发明的另一示例性实施例,参照图4B,当用户在浏览器的文本输入框410中一次性地输入“钱学森”时,在浏览器的当前页面上弹出一个提示窗口420。此时,不仅在窗口的预定位置(如右侧)显示“钱学森”的简介,而且还在另一预定位置(如左侧)显示相关的一列提示关键词。所述提示关键词也来自响应于网页中JavaScript脚本生成的提示请求的响应消息。
根据本发明的另一示例性实施例,在如图4B所示的提示窗口被显示以后,如果用户例如使用鼠标选择了所述多个提示关键词之一(如使用鼠标在所述提示关键词上停留足够时间),如图4C所示,“钱学森主要成就”被选择,则在弹出的提示窗口的预定位置(如右侧)显示出相应的内容。
图5是示出根据本发明的示例性实施例在客户端请求信息时进行的处理的流程图。下面参照图4B、图4C和图5详细描述所述处理。参照图5,在客户机12或14端,用户从指定URL下载用于请求信息的网页。所述提示信息请求的处理起始自“A”。根据本发明的示例性实施例,使用AJAX(异步JavaScript和XML,Asynchronous JavaScript and XML)创建本发明的提示请求并与信息提供服务器18交互。
在步骤S510,检测网页浏览器当前网页中的用户操作。然后,当检测到用户操作时,在步骤S520,确定用户操作的类型。如果确定检测到的用户操作是文本输入框410中输入的改变(如输入字符串的变化),如图4B所示一次性地输入“钱学森”,则在步骤S540,构建包含用户输入字符串的第一提示请求消息,并且通过互联网16发送给信息提供服务器18。然后,当在步骤S542,从信息提供服务器18接收到响应于所述第一提示请求消息的第一提示响应消息时,对所述第一提示响应消息进行解析并提取用户输入字符串的提示查询结果。根据本发明的另一示例性实施例,所述第一提示响应消息还包括与用户输入字符串相关的提示关键词列表,所述提示关键词列表包括预定数目的提示关键词。
然后,在步骤S545,在浏览器当前页面上弹出提示窗口420,并且在所述提示窗口的预定位置显示所述用户输入字符串的提示查询结果,如图4B中提示窗口420的右侧所示。然后,根据本发明的另一示例性实施例,在步骤S548,在弹出的提示窗口420的另一预定位置显示所述提示关键词列表,如图4B中提示窗口420的左侧所示。所述提示关键词列表和所述查询结果可以在同一提示窗口中显示,也可以在单独的弹出窗口中分别显示。然后,所述处理返回到“A”。
也就是说,每次当用户在文本输入框410中输入、改变或删除字符时,都进行上述步骤S540的处理。当然,响应于所述第一提示请求消息的第一提示响应消息不一定总是包含提示查询结果,此时不执行步骤S545和S548。
如果在步骤S520,确定所述用户操作是从如上所示的所述提示关键词列表中选定任一提示关键词(如使用鼠标在特定提示关键词上停留足够的时间),如图4C中的左侧所示,用户选定了“钱学森主要成就”,则在步骤S550,构建包含用户选定的提示关键词的第二提示请求消息,并且通过互联网16发送给信息提供服务器18。然后,当在步骤S552,从信息提供服务器18接收到响应于所述第二提示请求消息的第二提示响应消息时,对所述第二提示响应消息进行解析并提取所述提示关键词的提示查询结果。然后,在步骤S555,在已弹出的提示窗口的预定位置或者单独的弹出窗口显示所述提示查询结果,如图4C中提示窗口420的右侧所示。然后,所述处理返回到“A”。
根据本发明的另一示例性实施例,如果在步骤S520,确定检测到的用户操作是启动搜索的命令(如点击搜索按钮、输入回车键或者点击所述关键词列表中的任一个等),则在步骤S530,构建包含用户输入字符串的搜索请求消息(如HTTP请求),并且通过互联网16发送给搜索引擎服务器20。然后,在步骤S532,从搜索引擎服务器20接收到响应于所述搜索请求消息的搜索响应消息并且对所述搜索响应消息进行解析;在步骤S535,在浏览器当前的窗口中显示搜索结果。然后,所述处理返回到“A”。在这里,可以在信息提供服务器18上运行所述搜索引擎程序。
如果在步骤S520,确定所述用户操作是关闭当前网页(未示出),则终止所述图5中的处理。如果在步骤S520,确定所述用户操作不是上述任何一种操作,则所述处理返回到“A”。
根据本发明的示例性实施例,用户的输入字符串可以是汉字、汉语拼音和西文之一。
图6是示出根据本发明的示例性实施例在提示信息服务器端执行信息提供方法的处理的流程图。
信息提供服务器18在存储和维护对象数据库的同时,还维护用于查询对象数据库的对象索引。所述索引包括多个索引项,其每个索引项是关键词词条和指向对象数据库的特定位置的指针的键值对。所述索引项中的所述关键词词条是对象名称,或者对象名称和属性名称的组合,其相应的指针是对象数据库中与所述对象相应的结构对象或者其相应属性的指针。通常使用预定的分隔符(如空格、逗号、分号等)来组合对象名称和属性名称。根据本发明的示例性实施例,以倒排索引的形式组织和管理所述对象索引,并在存储介质上存储所述对象索引。
参照图6,信息提供服务器18使用如开源网络爬虫工具Heritrix的网页蜘蛛程序从互联网16下载预定范围的网页。然后,对每个下载的网页进行从步骤S620至步骤S660的处理。
在步骤S620,信息提供服务器18对下载的网页中的数据进行分析,并且使用预先定义的规则从网页数据中提取有关对象的信息。其中,跳过大量重复性出现的数据(如菜单、导航条等),并且由于各网站的网页都具有较固定的格式,因此通常为每个网站预先制作用于分析网页及提取对象信息的模板。
例如,对“百度百科”的网页,通常从<title>标签提取对象名称,如从″<title>刘德华_百度百科</title>″提取“刘德华”作为对象名称,从该网页中的“百科名片”项提取简介,并且从满足于<tr><td>格式的项目中提取对象的属性信息,如从以下HTML源代码段提取属性“身高”:“174cm”、“体重”:“63kg”。
<tr>
<td class=″cardFirstTd″>身高:</td>
<td class=″cardSecondTd″>174cm</td>
</tr>
<tr>
<td class=″cardFirstTd″>体重:</td>
<td class=″cardSecondTd″>63kg</td>
</tr>
一般说来,从一个选取的网页提取一个在完成对网页数据的分析和提取后,在步骤S630,根据作为对象来源的网页的以下指标中的至少一个来计算当前对象的分值:网页的内容相关度、浏览量、内容相关度、官方评分值、用户的投票值以及网站排名(如Alexa排名)。例如,对于提取自百科类网站的网页的对象,使用以下公式计算对象的分值:
其中,所述评分值是用户对所述网页的用户投票值或官方评分值,浏览量是所述网页被浏览的次数统计,Alexa排名是Alexa公司对全球网站给予的排名。
对于提取自对象主题所属类别的网站的对象,指定预定的固定分值。例如,提取自人民网(属政治网站)的有关对象名称为“胡***”(属政治人物)的对象,将其分值设为10或者20等。
对于从其他网站的网页提取的对象,分值=1/Alexa排名。
然后,在步骤S640,信息提供服务器18确定是否需要更新对象数据库。首先,信息提供服务器18确定在对象数据库中是否已存有与当前提取的对象信息相应的结构对象。如果确定已存在所述结构对象,则确定所述结构对象是否包含具有当前提取的属性名称的数据。如果确定所述结构对象包含当前提取的属性名称的数据,则将在步骤S630计算的对象的分值与所述结构对象的分值进行比较。在满足以下几种情况之一(按照其顺序)时进行步骤S650:对象数据库中没有相应的结构对象;对象数据库中相应的结构对象不包含当前提取的属性名称的数据;所述相应的结构对象的分值低于为当前提取的对象计算的分值。相反,当对象数据库中已有相应的结构对象,所述结构对象包含当前提取的属性名称的数据,并且所述相应的结构对象的分值不低于为当前提取的对象计算的分值时,不更新对象数据库,而是返回到步骤S620以进行下一个网页的处理。
在步骤S650,生成结构对象或者更新结构对象的数据。如果对象数据库还没有与当前提取的对象信息相应的结构对象,则使用在步骤S620提取的对象数据和步骤S630计算的分值构建新的结构对象。如果对象数据库已包含与当前提取的对象信息相应的结构对象,则使用在步骤S620提取的对象数据和步骤S630计算的分值来更新所述结构对象。
然后,在步骤S660,信息提供服务器18将生成或更新的结构对象存储到对象数据库中。
根据本发明的示例性实施例,以预定的时间间隔更新对象索引(步骤S670)。当执行步骤S670时,信息提供服务器18对自上一次更新对象索引后新增的结构对象编制索引项,具体为:对每个结构对象,构建包括作为关键词词条的对象名称和所述结构对象在对象数据库中的位置的指针的索引项,对所述结构对象的每个属性,构建包括作为关键词词条的对象名称和属性名称的组合以及所述结构对象或所述属性在对象数据库中的位置的指针的索引项;然后,将构建的全部索引项***倒排索引形式的对象索引。根据本发明的优选实施例,为了控制索引项的数量,不对新增的结构对象中的全部属性编制索引项,而是仅对符合预定标准(如属性名称在指定长度以内)的属性制作索引项,并将索引项***倒排索引形式的对象索引。
根据本发明的另一示例性实施例,在对象索引的基础上,还维护与所述对象索引具有相同的结构的增量索引,并且将所述增量索引独立于对象索引存储在存储介质上。当执行步骤S670时,信息提供服务器18对自上一次更新索引后新增的结构对象如前所述编制索引项,并且将新的索引项写入到所述增量索引中。然后,信息提供服务器18以大于所述预定时间间隔的第二时间间隔将所述增量索引中的索引项合并到所述对象索引中并清空所述增量索引。这样做减少了更新索引项数目庞大的对象索引的频率,有助于提高数据处理效率。
此外,根据本发明的示例性实施例,信息提供服务器18还维护提示关键词词库,所述提示关键词词库包括多个关键词词条项,每个所述关键词词条项包括如前所述的关键词词条和其复合分值。
当信息提供服务器18执行步骤S670时,还更新所述提示关键词词库。其中,信息提供服务器18对自上一次更新索引后新增的结构对象编制关键词词条项,具体为:对每个所述结构对象,构建包括以对象名称作为关键词词条和以所述结构对象的分值作为复合分值的关键词词条项;为所述结构对象的每个属性,构建包括以对象名称和该属性的属性名称的关键词词条和为该关键词词条计算的复合分值的关键词词条项,根据所述结构对象的分值、所述关键词词条在互联网网页中出现的频率以及所述属性名称的长度来确定所述复合分值;将所述构建的多个关键词词条项写入提示关键词词库;然后,将提示关键词词库中具有预定长度的相同前缀的关键词词条项按照关键词词条的长度自小到大和复合分值从大到小的顺序进行排序。根据本发明的示例性实施例,使用以下公式计算包括对象名称和属性名称的关键词词条的复合分值:
其中,R是所述结构对象的分值,V是所述关键词词条基于海量网页统计的次数,L是所述属性名称的长度。可以在进行批量网页处理时进行统计,得到所述V。
由此可见,根据本发明构建的提示关键词词库收录的是指示特定主题的对象及其相关属性的提示关键词词条,提供与特定主题相关性强的提示关键词。
以下,将具体描述信息提供服务器18对来自客户机12或14的第一提示请求消息和第二提示请求消息的处理。
当通过互联网16接收到包含用户查询字符串的所述第一提示请求消息或第二提示请求消息时,信息提供服务器18首先从接收到的所述提示请求消息提取用户查询字符串。然后,根据本发明的示例性实施例,信息提供服务器18根据预定的规则对所述用户查询字符串进行规范化处理,例如将“刘德华的妻子”或“刘德华的老婆”处理为“刘德华妻子”。根据本发明的另一示例性实施例,信息提供服务器18还根据预定的算法和估算法将作为汉语拼音的用户查询字符串转换为相应的中文汉字,例如,分别将“liudehua”和“ldh”转换为“刘德华”、将“jiangzem”转换为“***”。
此后,信息提供服务器18在对象索引中搜索关键词词条与经过规范化处理的用户查询字符串相应的索引项。如果查找到相应的索引项,则使用所述索引项的指针从对象数据库中提取结构对象或者指定属性,并且提取相应的简介或属性值作为查询结果;如果没有查找到相应的索引项,则查询结果为null。例如,当用户查询字符串为“刘德华”时,从对象索引搜索关键词词条是“刘德华”的索引项,使用所述索引项中的指针从对象数据库提取结构对象,并且提取所述结构对象的简介作为查询结果。又例如,当用户查询字符串为“刘德华妻子”时,先从对象索引搜索关键词词条是“刘德华”的索引项,使用所述索引项中的指针从对象数据库提取结构对象,然后提取所述结构对象中属性名称为“妻子”的属性值作为查询结果。
根据本发明的另一示例性实施例,如果接收到第一提示请求消息,则信息提供服务器18在对用户查询字符串进行了规范化处理后,除了如上所述提供从对象数据库提取的查询结果,还以用户查询字符串作为前缀,从提示关键词词库提取预定数目的关键词词条项,构建包括所述关键词词条项中的关键词词条的提示关键词列表。根据本发明的另一优选实施例,当前述的查询结果为null时,信息提供服务器18使用所述提示关键词列表中的第一个关键词词条项的关键词词条从对象索引以及对象数据库搜索结构对象的相应信息作为查询结果。
然后,构建包含查询结果的第一提示响应消息或第二提示响应消息,并且通过互联网发送给客户机12或14。根据本发明的另一示例性实施例,所述第一提示响应消息还包括如前段所述构建的提示关键词列表。
由此可见,根据本发明的信息请求方法和信息提供方法,用户能够在不启动网页搜索的情况下,在输入查询的同时,直接获得有关查询的信息,提高了用户便利。同时,通过将特定主题与其属性集中地进行存储和管理,在处理用户查询时,能够提供与特定主题相关的提示关键词。
本发明不限于上述实施例,在不脱离本发明范围的情况下,可以进行各种变形和修改。

Claims (13)

1.一种通过互联网提供信息的方法,所述方法包括:
使用网络蜘蛛程序下载预定范围的网页,并且对每个网页进行以下处理:
按照预定的规则对网页数据进行分析,提取至少一个对象的信息,并且根据网页的内容相关度、排名、浏览量、官方评分值和用户投票值中的至少一个,计算所述对象的分值,所述对象的信息包括对象名称、以及一个或多个属性和简介中的至少一个,所述属性包括属性名称和属性值;
从存储有多个结构对象的对象数据库搜索具有提取的对象名称的结构对象,所述结构对象包括对象名称、分值、以及一个或多个属性和简介中的至少一个;
如果没有搜索到相应的结构对象,则使用提取的对象信息和计算的分值构建结构对象,并且将构建的结构对象写入到对象数据库中;和
如果搜索到相应的结构对象并且结构对象的分值小于计算的分值,则使用提取的对象信息和计算的分值更新对象数据库中的所述结构对象,
其中,当接收到来自用户的包含查询字符串的提示请求消息时,从对象数据库提取与查询字符串相应的结构对象,并且构建和发送包含所述结构对象中的相应信息的提示响应消息。
2.如权利要求1所述的方法,其中,根据以下方法计算所述对象的分值:
对于提取自百科类网站的网页的对象,其中,所述评分值是用户对所述网页的用户投票值或官方评分值,浏览量是所述网页被浏览的次数统计,Alexa排名是Alexa公司对全球网站给予的排名;
对于提取自对象主题所属类别的网站的对象,指定预定的固定分值;和
对于从其他网站的网页提取的对象,分值=1/Alexa排名。
3.如权利要求1所述的方法,还包括:
为对象数据库建立对象索引并将所述对象索引存储在存储介质上,每个索引项包括关键词词条以及指针,所述关键词词条是对象名称或者对象名称与对象属性的组合,所述指针是对象数据库中具有所述对象名称的结构对象的指针,
其中,当接收到包含查询字符串的提示请求消息时,从所述对象索引搜索关键词词条与所述查询字符串相应的索引项,并且根据搜索到的索引项中的指针从对象数据库提取相应的结构对象,并且构建和发送包含所述结构对象中的相应信息的提示响应消息。
4.如权利要求3所述的方法,还包括:以预定的第一时间间隔定期地更新所述对象索引。
5.如权利要求4所述的方法,其中,当更新对象索引时,为自上一次更新对象索引后新增的每个结构对象,构建包括作为关键词词条的对象名称和所述结构对象在对象数据库中的位置的指针的索引项,对所述结构对象的每个属性,构建包括作为关键词词条的对象名称和属性名称的组合以及所述结构对象或所述属性在对象数据库中的位置的指针的索引项;然后,将构建的全部索引项写入对象索引。
6.如权利要求4所述的方法,还包括:建立具有与对象索引相同结构的增量索引,并将所述增量索引独立于对象索引存储在存储介质上,
其中,当接收到包含查询字符串的提示请求消息时,从所述对象索引和增量索引搜索关键词词条与所述查询字符串相应的索引项,并且根据搜索到的索引项中的指针从对象数据库提取相应的结构对象,并且构建和发送包含所述结构对象中的相应信息的提示响应消息;
其中,当更新所述对象索引时,为自上一次更新起新增的每个结构对象,构建包括作为关键词词条的对象名称和所述结构对象在对象数据库中的位置的指针的索引项,对所述结构对象的每个属性,构建包括作为关键词词条的对象名称和属性名称的组合以及所述结构对象或所述属性在对象数据库中的位置的指针的索引项;然后,将构建的全部索引项写入所述增量索引;并且
其中,以大于所述第一时间间隔的第二时间间隔将增量索引中的索引项合并到对象索引中,并且清空所述全部增量索引。
7.如权利要求3或权利要求5所述的方法,其中,所述对象索引是倒排索引。
8.如权利要求4所述的方法,还包括:
为对象数据库中的结构对象生成包括多个关键词词条项的提示关键词词库,其中,所述关键词词条项包括所述关键词词条和复合分值,当所述关键词词条是对象名称时,所述复合分值是对象的分值,当所述关键词词条是对象名称和属性名称的组合时,所述复合分值是基于对象的属性计算的分值;
其中,以所述第一时间间隔更新提示关键词词库。
9.如权利要求8所述的方法,其中,按照以下公式计算所述基于对象的属性计算的分值:
其中,R是所述结构对象的分值,V是所述关键词词条基于海量网页统计的次数,L是所述属性名称的长度。
10.如权利要求8所述的方法,其中,
当接收到来自用户的包含查询字符串的提示请求消息时,还从关键词词库提取预定数目的以查询字符串为前缀的关键词,并且构建和发送包括所述提取的关键词以及提取的结构对象中的相应信息的提示响应消息。
11.如权利要求8所述的方法,还包括:当接收到来自用户的包含查询字符串的提示请求消息时,在将查询字符串中的拼音转换为相应的中文字符串以后,基于所述中文字符串从关键词词库提取关键词,并且从对象索引以及对象数据库搜索结构对象的相应信息以构建和发送提示响应消息。
12.如权利要求1所述的方法,其中,所述结构对象以JSON(JavaScriptObject Notation)格式进行存储。
13.如权利要求12所述的方法,其中,以数据库和硬盘文件之一或者其结合存储所述对象数据库。
CN201010574338.XA 2010-12-06 2010-12-06 信息请求方法和信息提供方法 Expired - Fee Related CN102486784B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010574338.XA CN102486784B (zh) 2010-12-06 2010-12-06 信息请求方法和信息提供方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010574338.XA CN102486784B (zh) 2010-12-06 2010-12-06 信息请求方法和信息提供方法

Publications (2)

Publication Number Publication Date
CN102486784A CN102486784A (zh) 2012-06-06
CN102486784B true CN102486784B (zh) 2014-08-06

Family

ID=46152277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010574338.XA Expired - Fee Related CN102486784B (zh) 2010-12-06 2010-12-06 信息请求方法和信息提供方法

Country Status (1)

Country Link
CN (1) CN102486784B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970850B (zh) * 2014-05-04 2017-09-22 广州品唯软件有限公司 网站信息推荐方法和***
CN104077366B (zh) * 2014-06-13 2018-03-23 北京百度网讯科技有限公司 一种在网络设备中用于确定特征信息的方法和装置
US11461318B2 (en) * 2017-02-28 2022-10-04 Microsoft Technology Licensing, Llc Ontology-based graph query optimization
CN107402909A (zh) * 2017-06-16 2017-11-28 合肥龙图腾信息技术有限公司 一种百科内容输入方法及***
CN109725982B (zh) * 2017-10-31 2020-12-11 迈普通信技术股份有限公司 数据对象构建方法及装置
CN111767308A (zh) * 2019-04-01 2020-10-13 广州精选速购网络科技有限公司 一种商品实时筛选和排序的方法、***、电子设备及介质
CN110147431A (zh) * 2019-05-05 2019-08-20 中国银行股份有限公司 关键词匹配方法、装置、计算机设备和存储介质
CN112181950B (zh) * 2020-10-19 2024-03-26 北京米连科技有限公司 一种分布式对象数据库的构建方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1588367A (zh) * 2004-09-02 2005-03-02 魏新成 搜索栏输入字母提示搜索词和网名
CN101118555A (zh) * 2007-09-10 2008-02-06 腾讯科技(深圳)有限公司 关键词的联想信息生成***和生成方法
CN101149758A (zh) * 2007-10-18 2008-03-26 中兴通讯股份有限公司 搜索***及搜索方法
CN101601038A (zh) * 2007-08-03 2009-12-09 松下电器产业株式会社 关联词语提示装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8244721B2 (en) * 2008-02-13 2012-08-14 Microsoft Corporation Using related users data to enhance web search

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1588367A (zh) * 2004-09-02 2005-03-02 魏新成 搜索栏输入字母提示搜索词和网名
CN101601038A (zh) * 2007-08-03 2009-12-09 松下电器产业株式会社 关联词语提示装置
CN101118555A (zh) * 2007-09-10 2008-02-06 腾讯科技(深圳)有限公司 关键词的联想信息生成***和生成方法
CN101149758A (zh) * 2007-10-18 2008-03-26 中兴通讯股份有限公司 搜索***及搜索方法

Also Published As

Publication number Publication date
CN102486784A (zh) 2012-06-06

Similar Documents

Publication Publication Date Title
CN102486784B (zh) 信息请求方法和信息提供方法
EP2798540B1 (en) Extracting search-focused key n-grams and/or phrases for relevance rankings in searches
CN102368262B (zh) 一种提供与查询序列相对应的搜索建议的方法与设备
CN102708174B (zh) 一种浏览器中的富媒体信息的展示方法和装置
CN102346778B (zh) 一种用于提供搜索结果的方法与设备
US20080215550A1 (en) Search support apparatus, computer program product, and search support system
CN103530339A (zh) 移动应用信息推送方法和装置
CN101118560A (zh) 关键词输出设备和关键词输出方法
CN103838785A (zh) 一种专利领域的垂直搜索引擎
JP2013531289A (ja) 検索におけるモデル情報群の使用
CN102722498A (zh) 搜索引擎及其实现方法
JP5156047B2 (ja) キーワード提示装置、方法及びプログラム
CN103838732A (zh) 一种生活服务领域垂直搜索引擎
JP5269938B2 (ja) 急上昇ワード関連付け装置及び方法
JP5768492B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN104217038A (zh) 一种针对财经新闻的知识网络构建方法
CN102722499A (zh) 搜索引擎及其实现方法
CN102737021A (zh) 搜索引擎及其实现方法
JP2017157193A (ja) 画像とコンテンツのメタデータに基づいてコンテンツとマッチングする画像を選択する方法
CN104503988A (zh) 搜索方法及装置
JP6147629B2 (ja) ページコンテンツについて注目箇所を直ぐに表示するページサイトサーバ、プログラム及び方法
CN102257490A (zh) 文档信息选择方法和计算机程序产品
JP2012141681A (ja) クエリセグメント位置決定装置
CN102067113A (zh) 用于浏览器中基于知识的输入的***和方法
JP5084859B2 (ja) 情報処理装置、データ抽出方法、及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: SUZHOU YEBOL SMART INFORMATION TECHNOLOGY CO., LTD

Free format text: FORMER OWNER: YEBOL SMART (BEIJING) TECHNOLOGY DEVELOPMENT CO., LTD.

Effective date: 20120731

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100085 HAIDIAN, BEIJING TO: 215123 SUZHOU, JIANGSU PROVINCE

TA01 Transfer of patent application right

Effective date of registration: 20120731

Address after: Suzhou City, Jiangsu Province, Suzhou Industrial Park 215123 Xinghu Street No. 328 Creative Industry Park 22-302 unit

Applicant after: Suzhou treasure Intelligent Information Technology Co., Ltd.

Address before: 100085, Room 408, building D, Pioneer Park, 2 information road, Beijing, Haidian District

Applicant before: Yebao Wisdom (Beijing) Technology Development Co.,Ltd.

ASS Succession or assignment of patent right

Owner name: YIN HONGWEI

Free format text: FORMER OWNER: SUZHOU YEBOL SMART INFORMATION TECHNOLOGY CO., LTD.

Effective date: 20140220

COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 215123 SUZHOU, JIANGSU PROVINCE TO: 201199 MINHANG, SHANGHAI

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20140220

Address after: 201199 Shanghai city Minhang District Road 388 Lane 27 spring Room 502 No.

Applicant after: Yin Hongwei

Address before: Suzhou City, Jiangsu Province, Suzhou Industrial Park 215123 Xinghu Street No. 328 Creative Industry Park 22-302 unit

Applicant before: Suzhou treasure Intelligent Information Technology Co., Ltd.

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140806

Termination date: 20171206

CF01 Termination of patent right due to non-payment of annual fee