CN101923556B - 根据句子序列号进行网页搜索的方法和装置 - Google Patents

根据句子序列号进行网页搜索的方法和装置 Download PDF

Info

Publication number
CN101923556B
CN101923556B CN 201010110315 CN201010110315A CN101923556B CN 101923556 B CN101923556 B CN 101923556B CN 201010110315 CN201010110315 CN 201010110315 CN 201010110315 A CN201010110315 A CN 201010110315A CN 101923556 B CN101923556 B CN 101923556B
Authority
CN
China
Prior art keywords
word
sentence
webpage
punctuation mark
serial numbers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 201010110315
Other languages
English (en)
Other versions
CN101923556A (zh
Inventor
杜一华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yutian Information Technology Co.,Ltd.
Original Assignee
SHANGHAI LAISEEK INFORMATION TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI LAISEEK INFORMATION TECHNOLOGY CO LTD filed Critical SHANGHAI LAISEEK INFORMATION TECHNOLOGY CO LTD
Priority to CN 201010110315 priority Critical patent/CN101923556B/zh
Publication of CN101923556A publication Critical patent/CN101923556A/zh
Application granted granted Critical
Publication of CN101923556B publication Critical patent/CN101923556B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种根据句子序列号进行网页搜索的方法和装置。该方法包括以下步骤:A)获取若干网页,并下载至网页数据库;B)对若干网页进行句子分割,并分别为每个网页的句子分配序列号;C)制作前向索引表,前向索引表包括句子序列号;D)制作倒排索引表,倒排索引表包括所述句子序列号;E)输入搜索项,将搜索项分解为至少一个关键字、关键词或标点符号;F)根据倒排索引表,计算包括关键字、关键词或标点符号的网页的排序权值,输出搜索结果。通过本发明的方法和装置,可以提高关键字、关键词或标点符号的句子距离为零或句子距离较小的网页的排序权值,从而使网页的排名靠前,提升用户的搜索满意度。

Description

根据句子序列号进行网页搜索的方法和装置
技术领域
本发明涉及信息检索领域和自然语言处理领域,尤其涉及一种根据句子序列号进行网页搜索的方法和装置。
背景技术
现有的主流搜索引擎,如Google、Yahoo、Baidu等都是通过关键字或关键词进行搜索。这些搜索引擎的索引结构中都必然包括关键字或关键词。
在1998年的第七届万维网会议上,Sergey Brin和Lawrence Page发表的题为“The Anatomy of a Large-Scale Hypertextual Web Search Engine”的论文公开了Google搜索引擎的索引结构。Google搜索引擎的前向索引表和后向索引表都包括该搜索引擎所下载网页的前4K个字、词或标点符号在网页中的位置信息。
专利号为ZL01109132.0,发明名称为“判断一组查询关键字或词在网页中位置相关性的方法”的发明专利公开了另一种搜索引擎的索引结构。前向索引表和后向索引表都包括该搜索引擎所下载网页的字、词或标点符号在网页中的位置,前向相邻的字、词或标点符号在网页中的位置以及后向相邻的字、词或标点符号在网页中的位置等信息。
现有的索引结构,也即前向索引表(Forward Index)和倒排索引表(InvertedIndex)都没有包括搜索引擎所下载网页的句子信息。因此,现有的搜索引擎在很大概率上,会将搜索项所分解的关键字、关键词或标点符号分散于若干不同句子的网页的搜索结果返回搜索用户。例如,郁达夫的《春风沉醉的晚上》有一个句子“经她这一问,我重新把半年来困苦的情形一层一层的想了出来。”。使用现有的主流搜索引擎,输入搜索项“半年来一层”,结果排名靠前的几个搜索网页都和郁达夫的这篇文章无关。现有的搜索引擎返回的搜索结果中,有一定概率会将“半年来”和“一层”分别位于文章首、尾的网页的排序权值设置较高,也即排名靠前。例如,有可能返回如下网页,内容为“11月11日晚,广州粤北地区迎来了半年来第一场救命雨,这场雨从晚上6时一直下到凌晨6时,而且还在继续下,只不过雨量稍许小些,空气质量也略有下降。这场雨的到来,可以说,对当地已经干旱了近半年时间,连水都快喝不上的老百姓来讲,可真是一场救命雨呀!城市的街道不但被这场雨冲刷得干干净净,空气清爽,老百姓的庄稼也有了大希望,甭提大家的心情是多么的愉快和高兴!赶紧去雨中放松一下已揪紧的心吧!大雨将美丽的珠江支流北江的夜景蒙上了一层阴影。”。在该网页中,关键词“半年来”位于该网页的开头,而关键词“一层”却位于该网页的末尾。显然,在该网页中,这两个关键词的关系松散,该网页并非用户所想搜索的对象。
现有的搜索引擎没有对所下载网页进行句子分割,没有任何所下载网页的句子信息。因此,现有的搜索引擎只能得到分解的关键字、关键词或标点符号在某个网页中的位置距离,例如分解的关键字、关键词或标点符号相距多少个字节的距离。但是,并不能直接得到分解的关键字、关键词或标点符号在某个网页中的句子距离,也即句子序列号之差的绝对值。由此可知,现有的搜索引擎不能保证句子距离为零(关键字、关键词或标点符号位于同一句子)或句子距离较小(关键字、关键词或标点符号位于相邻句子或相距较近的句子)的网页的排名靠前。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种根据句子序列号进行网页搜索的方法和装置,提高关键字、关键词或标点符号的句子距离为零或句子距离较小的网页的排序权值,从而使网页的排名靠前,提升用户的搜索满意度。
本发明公开了一种根据句子序列号进行网页搜索的方法,包括以下步骤:
A)、获取若干网页,并下载至网页数据库;
B)、对所述若干网页进行句子分割,并分别为每个网页的句子分配序列号;
C)、制作前向索引表,所述前向索引表包括句子序列号;
D)、制作倒排索引表,所述倒排索引表包括所述句子序列号;
E)、输入搜索项,将所述搜索项分解为至少一个关键字、关键词或标点符号;
F)、根据所述倒排索引表,计算包括所述关键字、关键词或标点符号的网页的排序权值,输出搜索结果。
进一步地,所述步骤B)进一步包括以下步骤:
B1)、索引器扫描所述每个网页,为所述每个网页作词语切分,记录每个词、字或标点符号在网页中的位置;
B2)、根据所述每个词、字或标点符号在网页中的位置和后面相邻的标点符号在网页中的位置,进行句子分割;
B3)、为每个句子分配序列号,确定所述每个词、字或标点符号的句子序列号。
优选地,所述句子分割的规则是:如果句号、问号、省略号或感叹号在引号内,且位于段落结束之处,句子的结尾为句号、问号、省略号或感叹号以及反引号;如果句号、问号、省略号或感叹号在引号外,句子结尾为句号、问号、省略号或感叹号。
优选地,所述前向索引表包括所述每个词、字或标点符号的网页序列号,所述每个词、字或标点符号,所述每个词、字或标点符号的序列号和所述每个词、字或标点符号的句子序列号。
优选地,所述倒排索引表包括所述每个词、字或标点符号,所述每个词、字或标点符号的序列号,包含所述每个词、字或标点符号的网页数量,所述每个词、字或标点符号的网页序列号和所述每个词、字或标点符号的句子序列号。
进一步地,所述步骤F)在包含所述关键字、关键词或标点符号的网页中,根据所述倒排索引表,判断所述关键字、关键词或标点符号是否属于同一句子,如果属于同一句子,提高所述关键字、关键词或标点符号所属网页的排序权值;如果不属于同一句子,计算所述关键字、关键词或标点符号的句子距离,如果所述句子距离大,则降低所述关键字、关键词或标点符号所属网页的排序权值,如果所述句子距离小,则提高所述关键字、关键词或标点符号所属网页的排序权值。
优选地,所述网页的排序权值由所述关键字、关键词或标点符号的句子距离,所述网页所在域名的权威性,所述网页的受欢迎程度,所述关键字、关键词或标点符号是否出现在网址、标题、锚文本或元标签中,所述网页的访问流量和点进率,所述网页所在网站的注册数据和开站数据综合决定。
优选地,如果所述关键字、关键词或标点符号属于同一句子,进一步对所述句子作自然语言处理。
本发明还公开了一种根据句子序列号进行网页搜索的装置,包括
网页获取器,用于获取并下载若干网页;
网页数据库,用于储存下载的所述若干网页;
索引器,用于对所述若干网页进行句子分割,并分别为每个网页的句子分配序列号,制作包括句子序列号的前向索引表和倒排索引表;
索引数据库,用于存储所述前向索引表和所述倒排索引表;
搜索器,用于将搜索项分解为至少一个关键字、关键词或标点符号,根据所述倒排索引表,计算包含所述关键字、关键词或标点符号的网页的排序权值,输出搜索结果;
所述网页获取器、所述网页数据库、所述索引器、所述索引数据库、所述搜索器依次连接。
本发明的有益效果在于:
本发明的根据句子序列号进行网页搜索的方法和装置的前向索引表和倒排索引表都包括了网页的句子序列号,通过查询句子序列号信息,搜索引擎可以提高关键字、关键词或标点符号的句子距离为零或句子距离较小的网页的排序权值,从而使网页的排名靠前,提升用户的搜索满意度。
本发明的根据句子序列号进行网页搜索的方法和装置可以直接根据每个网页中的每个字、词或标点符号的句子序列号,快速判断两个或多个待查询的关键字、关键词或标点符号是否属于同一句子或句子距离较近,而不需要大量的比较运算。本发明的根据句子序列号进行网页搜索的方法和装置具有较低的时间复杂度,从而提高搜索的响应速度,为用户带来更快捷的搜索体验。
本发明的根据句子序列号进行网页搜索的方法和装置可以为后续的自然语言处理提供先决条件。如果两个或多个待查询的关键字、关键词或标点符号属于同一句子,搜索引擎可以对该句子作进一步深入的自然语言处理。例如,对该句子作各种句法分析,如依存句法分析,以得到该句子的词汇之间的依存关系和中心语;或者可以对该句子做倾向性分析(褒贬分析),以得知该句子的倾向性等。
附图说明
图1为本发明的根据句子序列号进行网页搜索的方法的流程图;
图2为本发明的根据句子序列号进行网页搜索的方法和装置的前向索引表的结构示意图;
图3为本发明的根据句子序列号进行网页搜索的方法和装置的倒排索引表的结构示意图;
图4为本发明的根据句子序列号进行网页搜索的装置的结构示意图。
具体实施方式
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
如图1所示,本发明公开了一种根据句子序列号进行网页搜索的方法,包括以下步骤:
步骤101、获取若干网页,并下载至网页数据库;
搜索引擎公司通过网页获取器从互联网上获取若干网页,并将若干网页下载至搜索引擎公司的计算机中,也即网页数据库中。
步骤102、对若干网页进行句子分割,并分别为每个网页的句子分配序列号;
首先,索引器扫描每个网页,为每个网页作词语切分,记录每个词、字或标点符号在网页中的位置;
其次,根据每个词、字或标点符号在网页中的位置和后面相邻的标点符号在网页中的位置,进行句子分割;
再次,为每个句子分配序列号,确定每个词、字或标点符号的句子序列号。每个网页的句子序列号是单独编号的。
步骤103、制作前向索引表,前向索引表包括句子序列号;
前向索引表包括每个词、字或标点符号的网页序列号,每个词、字或标点符号,每个词、字或标点符号的序列号和每个词、字或标点符号的句子序列号。前向索引表还可以包括每个词、字或标点符号在网页中的位置,也即偏移量等信息。
步骤104、制作倒排索引表,倒排索引表包括句子序列号;
倒排索引表包括每个词、字或标点符号,每个词、字或标点符号的序列号,包含每个词、字或标点符号的网页数量,每个词、字或标点符号的网页序列号和每个词、字或标点符号的句子序列号。倒排索引表也可以包括每个词、字或标点符号在网页中的位置,也即偏移量等信息。
步骤105、输入搜索项,将搜索项分解为至少一个关键字、关键词或标点符号;
用户输入搜索项,搜索器将搜索项分解为多个关键字、关键词或标点符号。当然,用户输入的搜索项也可能本身即为一个关键字、关键词或标点符号,搜索器则不需对此进行分解。
步骤106、根据倒排索引表,计算包括关键字、关键词或标点符号的网页的排序权值,输出搜索结果。
在包含所述关键字、关键词或标点符号的网页中,根据倒排索引表,判断所述关键字、关键词或标点符号是否属于同一句子。如果属于同一句子,提高关键字、关键词或标点符号所属网页的排序权值;如果不属于同一句子,计算关键字、关键词或标点符号的句子距离。如果句子距离大,则降低关键字、关键词或标点符号所属网页的排序权值,如果句子距离小,则提高关键字、关键词或标点符号所属网页的排序权值。
请参阅图2,前向索引表包括每个词、字或标点符号的网页序列号docid,每个词、字或标点符号word1、word2、word3……,每个词、字或标点符号的序列号word id1、word id2、word id3……,每个词、字或标点符号的句子序列号sentence id1、sentence id2、sentence id3……。每个词、字或标点符号的网页序列号,每个词、字或标点符号,每个词、字或标点符号的序列号是唯一的。但是,每个词、字或标点符号的句子序列号可以为一个或多个。因为,一个词、字或标点符号可以在一个网页中的多个句子中出现。
当然,前向索引表还可以包括每个词、字或标点符号在网页中的位置,也即偏移量等信息。但由于偏移量等信息在现有的搜索引擎中已广泛使用,故在此不再赘述。
请参阅图3,倒排索引表包括每个词、字或标点符号word1、word2、word3……,每个词、字或标点符号的序列号word id1、word id2、word id3……,包含每个词、字或标点符号的网页数量ndocs1、ndocs2、ndocs3……,每个词、字或标点符号的网页序列号docid1、docid2、docid3、docid4、docid5、docid6……,每个词、字或标点符号的句子序列号sentence id1、sentence id2、sentence id3、sentence id4、sentence id5、sentence id6……。每个词、字或标点符号,每个词、字或标点符号的序列号,包含每个词、字或标点符号的网页数量,每个词、字或标点符号的网页序列号是唯一的。但是,每个词、字或标点符号的句子序列号可以为一个或多个。因为,一个词、字或标点符号可以在一个网页中的多个句子中出现。
当然,倒排索引表还可以包括每个词、字或标点符号在网页中的位置,也即偏移量等信息。但由于偏移量等信息在现有的搜索引擎中已广泛使用,故在此不再赘述。
在本发明的第一实施例中,第一网页的全部内容如下(摘自郁达夫《春风沉醉的晚上》):
因为自去年以来,我只是一日一日的萎靡下去,差不多把“我是什么人?”“我现在所处的是怎么一种境遇?”“我的心里还是悲还是喜?”这些观念都忘掉了。经她这一问,我重新把半年来困苦的情形一层一层的想了出来。所以听她的问话以后,我只是呆呆的看她,半晌说不出话来。她看了我这个样子,以为我也是一个无家可归的流浪人。脸上就立时起了一种孤寂的表情,微微的叹着说:
“唉!你也是同我一样的么?”
微微的叹了一声之后,她就不说话了。
请参阅图4,本发明的根据句子序列号进行网页搜索的装置,也即搜索引擎40通过网页获取器401,将第一网页下载至搜索引擎公司的计算机,也即网页数据库402。
索引器403扫描第一网页,为第一网页作词语切分,记录每个词、字或标点符号在网页中的位置。然后,索引器403根据每个词、字或标点符号在网页中的位置和后面相邻的标点符号在网页中的位置,进行句子分割。
句子是指由词和短语构成的具有独立表述意义的语法单位。在汉语中,句子结尾应该为句号、问号、省略号或感叹号。如果这些符号出现在引号内,当这些符号位于段落结束之处,这些符号和反引号一起被定义为句子的结尾。当然,本发明的句子的分割规则并不限于此,可以由索引器403设定分割规则。例如,如果句号、问号、省略号或感叹号出现在引号内,即使这些符号位于段落开头或段落中间部分,这些符号和反引号也可以一起被定义为句子的结尾。
句子分割结束后,为每个句子分配序列号,从而可以确定每个词、字或标点符号的句子序列号。较佳地,句子序列号为0、1、2、3、4……。但本发明并不限于此,句子序列号可以为1、2、3、4……,或者2、3、4……等。句子序列号的起始编号可以为任意整数。
作为本发明的另一实施例,句子序列号也可以为1、3、5、7……,或者2、6、10、14……等。句子序列号之间的差值也可以为任意自然数。
作为本发明的另一实施例,句子序列号也可以为……4、3、2、1等。句子序列号也可以依次递减。
句子序列号只需按设定的规律统一分配,即可适用于本发明。
第一网页可以被分割为以下五个句子:
[0]因为自去年以来,我只是一日一日的萎靡下去,差不多把“我是什么人?”“我现在所处的是怎么一种境遇?”“我的心里还是悲还是喜?”这些观念都忘掉了。
[1]经她这一问,我重新把半年来困苦的一层一层的想了出来。
[2]所以听她的问话以后,我只是呆呆的看她,半晌说不出话来。
[3]她看了我这个样子,以为我也是一个无家可归的流浪人。
[4]脸上就立时起了一种孤寂的表情,微微的叹着说:唉!你也是同我一样的么?”
[5]微微的叹了一声之后,她就不说话了。
当然,根据索引器403设定的不同的分割规则,第一网页可以分割为少于五个或多于五个的句子。例如也可以将句子序列号为零的句子再分割为四个句子。
索引器403制作前向索引表,并存入索引数据库404。第一网页的前向索引表如表一所示。docid为每个词、字或标点符号的网页序列号,word为每个词、字或标点符号,word id为每个词、字或标点符号的序列号,sentence id为每个词、字或标点符号的句子序列号。
表一 第一网页的前向索引表
  docid   word   word id   sentence id
  0   因为   0   0
  0   自   1   0
  0   去年   2   0
  0   以来   3   0
  0   我   4   0,1,2,3,4
  0   只是   5   0,2
  0   一日   6   0
  0   的   7   0,1,2,3,4,5
  0   萎靡   8   0
  0   下去   9   0
  0   ,   10   0,1,2,3
  0   差不多   11   0
  0   把   12   0
  0   “   13   0
  0   是   14   0
  0   什么   15   0
  0   人   16   0
  0   ?   17   0
  0   ”   18   0,4
  0   现在   19   0
  0   所   20   0
  0   处   21   0
  0   怎么   22   0
  0   一种   23   0,4
  0   境遇   24   0
  0   心里   25   0
  0   还是   26   0
  0   悲   27   0
  0   喜   28   0
  0   这些   29   0
  0   观念   30   0
  0   都   31   0
  0   忘掉   32   0
  0   了   33   0,1,3,4,5
  0   。   34   0,1,2,3,5
  0   经   35   1
  0   她   36   1,2,3,5
  0   这   37   1
  0   一问   38   1
  0   重新   39   1
  0   把   40   1
  0   半年来   41   1
  0   困苦   42   1
  0   情形   43   1
  0   一层   44   1
  0   想   45   1
  0   出来   46   1
  0   所以   47   2
  0   听   48   2
  0   问话   49   2
  0   以后   50   2
  0   呆呆   51   2
  0   看   52   2,3
  0   半晌   53   2
  0   说   54   2,4
  0   不   55   2
  0   出   56   2
  0   话   57   2
  0   来   58   1,2
  0   这个   59   3
  0   样子   60   3
  0   以为   61   3
  0   也是   62   3,4
  0   一个   63   3
  0   无家可归   64   3
  0   流浪人   65   3
  0   脸上   66   4
  0   就   67   4,5
  0   立时   68   4
  0   起   69   4
  0   孤寂   70   4
  0   表情   71   4
  0   微微   72   4,5
  0   叹着   73   4
  0   :   74   4
  0   唉   75   4
  0   !   76   4
  0   你   77   4
  0   同   78   4
  0   一样   79   4
  0   么   80   4
  0   叹   81   5
  0   一声   82   5
  0   之后   83   5
  0   不   84   5
  0   说话   85   5
在本发明的第二实施例中,第二网页的全部内容如下(摘自王之涣《登鹳雀楼》):
白日依山尽,黄河入海流。欲穷千里目,更上一层楼。
同样,第二网页也会通过网页获取器401,被下载至搜索引擎公司的计算机,也即网页数据库402。索引器403对第二网页作句子分割,并分配句子序列号。
第二网页可以被分割为以下两个句子:
[0]白日依山尽,黄河入海流。
[1]欲穷千里目,更上一层楼。
索引器403制作前向索引表,并存入索引数据库404。第二网页的前向索引表如表二所示。
表二第二网页的前向索引表
  docid   word   word id   sentence id
  1   白日   86   0
  1   依   87   0
  1   山   88   0
  1   尽   89   0
  1   ,   10   0,1
  1   黄河   90   0
  1   入   91   0
  1   海   92   0
  1   流   93   0
  1   。   34   0,1
  1   欲穷   94   1
  1   千里   95   1
  1   目   96   1
  1   更上   97   1
  1   一层   44   1
  1   楼   98   1
由表二可知,每个网页的句子序列号是独立编号的。在第二实施例中,句子序列号又从零开始编号。但每个词、字或标点符号的网页序列号docid,每个词、字或标点符号的序列号word id是接续表一顺次编号的。需注意的是,“,”、“。”、“一层”的word id在表一中已分别被分配为10、34、44。因此,在表二中,仍保留表一的word id。由此可知,在整个搜索引擎40中,每个词、字或标点符号的序列号word id是唯一的。
表一和表二制作完成后,索引器403将表一和表二合并为一个总前向索引表。索引器403为每个网页制作单独的一个前向索引表,再将若干前向索引表合并为一个总前向索引表。若干前向索引表的合并为现有技术,在此不再赘述。
根据表一和表二,索引器403制作倒排索引表,并存入索引数据库404。第一网页和第二网页的倒排索引表如表三所示。word为每个词、字或标点符号,word id为每个词、字或标点符号的序列号,ndocs为包含每个词、字或标点符号的网页数量,docid为每个词、字或标点符号的网页序列号,sentence id为每个词、字或标点符号的句子序列号。
表三 第一网页和第二网页的倒排索引表
Figure GSA00000033598900141
  出来   46   1   0   1
  所以   47   1   0   2
  听   48   1   0   2
  问话   49   1   0   2
  以后   50   1   0   2
  呆呆   51   1   0   2
  看   52   1   0   2,3
  半晌   53   1   0   2
  说   54   1   0   2,4
  不   55   1   0   2
  出   56   1   0   2
  话   57   1   0   2
  来   58   1   0   1,2
  这个   59   1   0   3
  样子   60   1   0   3
  以为   61   1   0   3
  也是   62   1   0   3,4
  一个   63   1   0   3
  无家可归   64   1   0   3
  流浪人   65   1   0   3
  脸上   66   1   0   4
  就   67   1   0   4,5
  立时   68   1   0   4
  起   69   1   0   4
  孤寂   70   1   0   4
  表情   71   1   0   4
  微微   72   1   0   4,5
  叹着   73   1   0   4
  :   74   1   0   4
  唉   75   1   0   4
    !     76     1     0     4
    你     77     1     0     4
    同     78     1     0     4
    一样     79     1     0     4
    么     80     1     0     4
    叹     81     1     0     5
    一声     82     1     0     5
    之后     83     1     0     5
    不     84     1     0     5
    说话     85     1     0     5
    白日     86     1     1     0
    依     87     1     1     0
    山     88     1     1     0
    尽     89     1     1     0
    黄河     90     1     1     0
    入     91     1     1     0
    海     92     1     1     0
    流     93     1     1     0
    欲穷     94     1     1     1
    千里     95     1     1     1
    目     96     1     1     1
    更上     97     1     1     1
    楼     98     1     1     1
需注意的是,第一网页和第二网页中都有“,”、“。”、“一层”。因此,对应的包含每个词、字或标点符号的网页数量ndocs为2。
搜索用户406输入搜索项后,搜索器405将搜索项分解为多个关键字、关键词或标点符号。当然,搜索用户406输入的搜索项也可能本身即为一个关键字、关键词或标点符号,搜索器405则不需对此进行分解。
搜索器405根据表三的句子序列号信息判断搜索项所分解的多个关键字、关键词或标点符号在网页是否属于同一句子或句子距离较小的句子(例如,句子距离为1,也即相邻的句子)。
例如,搜索用户406的搜索项为“半年来一层”,搜索项被分解为关键词“半年来”和“一层”。搜索器405查询表三,关键词“半年来”和“一层”的网页序列号docid都为0,句子序列号sentence id都为1,即可以判断两个关键词“半年来”、“一层”是属于同一句子的。例如,搜索用户406的搜索项为“孤寂表情”,搜索项被分解为关键词“孤寂”、“表情”。搜索器405查询表三,关键词“孤寂”和“表情”的网页序列号docid都为0,句子序列号sentence id都为4,即可以判断两个关键字“孤寂”、“表情”是属于同一句子的。
显然,属于同一句子的多个关键字、关键词或标点符号在同等的排序条件下具有更高的相关性,所属网页的排序权值应该提高(即在同等排序条件下,所属网页应该排名靠前)。
对于多个关键字、关键词或标点符号不属于同一句子的网页,可以计算多个关键字、关键词或标点符号的句子距离(句子序列号之差的绝对值)。句子距离小的网页的排序权值应该提高,句子距离大的网页的排序权值应该降低。
当然,网页的排序权值由多方因素综合决定。除了关键字、关键词或标点符号的句子距离,还有网页所在域名的权威性,网页的受欢迎程度,关键字、关键词或标点符号是否出现在网址、标题、锚文本或元标签中,网页的访问流量和点进率,网页所在网站的注册数据和开站数据等若干因素。
另外,如果多个关键字、关键词或标点符号属于同一句子,则可以进一步对句子作自然语言处理。例如,对该句子作各种句法分析,如依存句法分析,得到该句子的词汇之间的依存关系和该句子的中心语。例如,对该句子作倾向性分析(褒贬分析),得知该句子的倾向性。上述分析可以同时显示在搜索结果中,为搜索客户406提供更完善的增值服务。
如图4所示,本发明还提供了一种根据句子序列号进行网页搜索的装置,也即搜索引擎40,包括网页获取器401,用于获取并下载若干网页;网页数据库402,用于储存下载的若干网页;索引器403,用于对若干网页进行句子分割,并分别为每个网页的句子分配序列号,制作包括句子序列号的前向索引表和倒排索引表;索引数据库404,用于存储前向索引表和倒排索引表;搜索器405,用于将搜索项分解为至少一个关键字、关键词或标点符号,根据倒排索引表,计算包含关键字、关键词或标点符号的网页的排序权值,输出搜索结果。网页获取器401、网页数据库402、索引器403、索引数据库404、搜索器405依次连接。搜索引擎40将最终的搜索结果返回至搜索用户406。
第一实施例和第二实施例以中文网页为例,对本发明的根据句子序列号进行网页搜索的方法和装置进行阐述。但本发明并不限于此,本发明的根据句子序列号进行网页搜索的方法和装置还可应用于英文、德文、俄罗斯文、日文、西班牙文等各种包含标点符号的自然语言的信息检索。本发明可应用于网页、电子书籍、结构化文本等的搜索。
本发明的根据句子序列号进行网页搜索的方法和装置的倒排索引表包括网页的句子序列号,通过查询句子序列号信息,搜索引擎可以提高关键字、关键词或标点符号的句子距离为零或句子距离较小的网页的排序权值,从而使网页的排名靠前,提升用户的搜索满意度。
本发明的根据句子序列号进行网页搜索的方法和装置可以直接根据每个网页中的每个字、词或标点符号的句子序列号,快速判断两个或多个待查询的关键字、关键词或标点符号是否属于同一句子或句子距离较近,而不需要大量的比较运算。本发明的根据句子序列号进行网页搜索的方法和装置具有较低的时间复杂度,从而提高搜索的响应速度,为用户带来更快捷的搜索体验。
本发明的根据句子序列号进行网页搜索的方法和装置可以为后续的自然语言处理提供先决条件。如果两个或多个待查询的关键字、关键词或标点符号属于同一句子,搜索引擎可以对该句子作进一步深入的自然语言处理。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在本发明的权利要求保护范围内。

Claims (10)

1.一种根据句子序列号进行网页搜索的方法,其特征在于,包括以下步骤:
步骤A)、获取若干网页,并下载至网页数据库;
步骤B)、对所述若干网页进行句子分割,并分别为每个网页的句子分配序列号;
步骤C)、制作前向索引表,所述前向索引表包括所述句子序列号;
步骤D)、制作倒排索引表,所述倒排索引表包括所述句子序列号;
步骤E)、输入搜索项,将所述搜索项分解为至少一个关键字、关键词或标点符号;
步骤F)、根据所述倒排索引表,计算包括所述关键字、关键词或标点符号的网页的排序权值,输出搜索结果;
其中,所述步骤B)进一步为:索引器扫描所述每个网页,为所述每个网页作词语切分,记录每个词、字或标点符号在网页中的位置;根据所述每个词、字或标点符号在网页中的位置和后面相邻的标点符号在网页中的位置,进行句子分割;为每个句子分配序列号,确定所述每个词、字或标点符号的句子序列号;
所述句子分割的规则是:如果句号、问号、省略号或感叹号在引号内,且位于段落结束之处,句子的结尾为句号、问号、省略号或感叹号以及反引号;如果句号、问号、省略号或感叹号在引号外,句子结尾为句号、问号、省略号或感叹号。
2.如权利要求1所述的根据句子序列号进行网页搜索的方法,其特征在于,所述前向索引表包括所述每个词、字或标点符号的网页序列号,所述每个词、字或标点符号,所述每个词、字或标点符号的序列号和所述每个词、字或标点符号的句子序列号。
3.如权利要求1所述的根据句子序列号进行网页搜索的方法,其特征在于,所述倒排索引表包括所述每个词、字或标点符号,所述每个词、字或标点符号的序列号,包含所述每个词、字或标点符号的网页数量,所述每个词、字或标点符号的网页序列号和所述每个词、字或标点符号的句子序列号。
4.如权利要求1~3中任一权利要求所述的根据句子序列号进行网页搜索的方法,其特征在于,所述步骤F)进一步在包含所述关键字、关键词或标点符号的网页中,根据所述倒排索引表,判断所述关键字、关键词或标点符号是否属于同一句子,如果属于同一句子,提高所述关键字、关键词或标点符号所属网页的排序权值;如果不属于同一句子,计算所述关键字、关键词或标点符号的句子距离,如果所述句子距离大,则降低所述关键字、关键词或标点符号所属网页的排序权值,如果所述句子距离小,则提高所述关键字、关键词或标点符号所属网页的排序权值。
5.如权利要求4所述的根据句子序列号进行网页搜索的方法,其特征在于,如果所述关键字、关键词或标点符号属于同一句子,所述步骤F)进一步对所述句子作自然语言处理。
6.一种根据句子序列号进行网页搜索的装置,包括
网页获取器,用于获取若干网页,并下载至网页数据库;
句子序列号分配器,用于对所述若干网页进行句子分割,并分别为每个网页的句子分配序列号;
前向索引表制作器,用于制作前向索引表,所述前向索引表包括所述句子序列号;
倒排索引表制作器,用于制作倒排索引表,所述倒排索引表包括所述句子序列号;
搜索项输入器,用于输入搜索项,将所述搜索项分解为至少一个关键字、关键词或标点符号;
搜索器,用于根据所述倒排索引表,计算包含所述关键字、关键词或标点符号的网页的排序权值,输出搜索结果;
其中,所述句子序列号分配器进一步用于使索引器扫描所述每个网页,为所述每个网页作词语切分,记录每个词、字或标点符号在网页中的位置;根据所述每个词、字或标点符号在网页中的位置和后面相邻的标点符号在网页中的位置,进行句子分割;为每个句子分配序列号,确定所述每个词、字或标点符号的句子序列号;
所述句子分割的规则是:如果句号、问号、省略号或感叹号在引号内,且位于段落结束之处,句子的结尾为句号、问号、省略号或感叹号以及反引号;如果句号、问号、省略号或感叹号在引号外,句子结尾为句号、问号、省略号或感叹号。
7.如权利要求6所述的根据句子序列号进行网页搜索的装置,其特征在于,所述前向索引表包括所述若干网页的每个词、字或标点符号的网页序列号,所述每个词、字或标点符号,所述每个词、字或标点符号的序列号和所述每个词、字或标点符号的句子序列号。
8.如权利要求6所述的根据句子序列号进行网页搜索的装置,其特征在于,所述倒排索引表包括所述若干网页的每个词、字或标点符号,所述每个词、字或标点符号的序列号,包含所述每个词、字或标点符号的网页数量,所述每个词、字或标点符号的网页序列号和所述每个词、字或标点符号的句子序列号。
9.如权利要求6~8中任一权利要求所述的根据句子序列号进行网页搜索的装置,其特征在于,所述搜索器还用于在包含所述关键字、关键词或标点符号的网页中,根据所述倒排索引表,判断所述关键字、关键词或标点符号是否属于同一句子,如果属于同一句子,提高所述关键字、关键词或标点符号所属网页的排序权值;如果不属于同一句子,计算所述关键字、关键词或标点符号的句子距离,如果所述句子距离大,则降低所述关键字、关键词或标点符号所属网页的排序权值,如果所述句子距离小,则提高所述关键字、关键词或标点符号所属网页的排序权值。
10.如权利要求9所述的根据句子序列号进行网页搜索的装置,其特征在于,如果所述关键字、关键词或标点符号属于同一句子,所述搜索器还用于对所述句子作自然语言处理。
CN 201010110315 2010-02-09 2010-02-09 根据句子序列号进行网页搜索的方法和装置 Expired - Fee Related CN101923556B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010110315 CN101923556B (zh) 2010-02-09 2010-02-09 根据句子序列号进行网页搜索的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010110315 CN101923556B (zh) 2010-02-09 2010-02-09 根据句子序列号进行网页搜索的方法和装置

Publications (2)

Publication Number Publication Date
CN101923556A CN101923556A (zh) 2010-12-22
CN101923556B true CN101923556B (zh) 2013-01-02

Family

ID=43338494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010110315 Expired - Fee Related CN101923556B (zh) 2010-02-09 2010-02-09 根据句子序列号进行网页搜索的方法和装置

Country Status (1)

Country Link
CN (1) CN101923556B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110160A (zh) * 2011-02-24 2011-06-29 上海莱希信息科技有限公司 根据倾向性值进行网页搜索的方法和装置
CN103810220B (zh) * 2012-11-15 2018-02-27 腾讯科技(深圳)有限公司 一种微博搜索方法及装置
CN103886039B (zh) * 2014-03-10 2018-01-19 百度在线网络技术(北京)有限公司 应用检索的优化方法和装置
CN104778262B (zh) * 2015-04-21 2018-07-24 无锡天脉聚源传媒科技有限公司 一种搜索方法及装置
CN106095779A (zh) * 2016-05-26 2016-11-09 达而观信息科技(上海)有限公司 一种基于关键词位置的检索方法及装置
CN107784123B (zh) * 2017-11-06 2021-01-01 北京中科智营科技发展有限公司 一种基于主题的搜索优化方法
CN109992647B (zh) * 2019-04-04 2021-11-12 鼎富智能科技有限公司 一种内容搜索方法及装置
CN115840845A (zh) * 2021-09-18 2023-03-24 华为技术有限公司 一种网页检索方法及相关设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1928864A (zh) * 2006-09-22 2007-03-14 浙江大学 一种基于问答库的中文自然语言问答方法
CN101196898A (zh) * 2007-08-21 2008-06-11 新百丽鞋业(深圳)有限公司 将词组索引技术应用在互联网搜索引擎中的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1928864A (zh) * 2006-09-22 2007-03-14 浙江大学 一种基于问答库的中文自然语言问答方法
CN101196898A (zh) * 2007-08-21 2008-06-11 新百丽鞋业(深圳)有限公司 将词组索引技术应用在互联网搜索引擎中的方法

Also Published As

Publication number Publication date
CN101923556A (zh) 2010-12-22

Similar Documents

Publication Publication Date Title
CN101923556B (zh) 根据句子序列号进行网页搜索的方法和装置
CN107633044B (zh) 一种基于热点事件的舆情知识图谱构建方法
CN109543178B (zh) 一种司法文本标签体系构建方法及***
CN106997382B (zh) 基于大数据的创新创意标签自动标注方法及***
CN103678576B (zh) 基于动态语义分析的全文检索***
CN104216942B (zh) 查询建议模板
CN109829166B (zh) 基于字符级卷积神经网络的民宿顾客意见挖掘方法
CN105528437B (zh) 一种基于结构化文本知识提取的问答***构建方法
CN106970991B (zh) 相似应用的识别方法、装置和应用搜索推荐方法、服务器
CN103455487B (zh) 一种搜索词的提取方法及装置
CN107590128B (zh) 一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法
CN103823893A (zh) 一种基于用户评论的产品检索方法及产品检索***
JP2019504410A (ja) 旅行ガイド生成方法及びシステム
CN110781670B (zh) 基于百科知识库和词向量的中文地名语义消歧方法
CN103984771B (zh) 一种英文微博中地理兴趣点抽取和感知其时间趋势的方法
CN105426514A (zh) 个性化的移动应用app推荐方法
CN104598588A (zh) 基于双聚类的微博用户标签自动生成算法
CN102262670A (zh) 一种基于移动可视设备的跨媒体信息检索***及方法
CN108021715B (zh) 基于语义结构特征分析的异构标签融合***
CN110888991A (zh) 一种弱标注环境下的分段式语义标注方法
CN103886020A (zh) 一种房地产信息快速搜索方法
CN103150356A (zh) 一种应用的泛需求检索方法及***
CN105989058A (zh) 一种汉语新闻摘要生成***及方法
CN111488429A (zh) 一种基于搜索引擎的短文本聚类***及其短文本聚类方法
Colhon et al. Relating the opinion holder and the review accuracy in sentiment analysis of tourist reviews

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: SHANGHAI YUTIAN INFORMATION TECHNOLOGY CO.,LTD.

Free format text: FORMER OWNER: SHANGHAI LAISEEK INFORMATION TECHNOLOGY CO., LTD.

Effective date: 20140911

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 201112 MINHANG, SHANGHAI TO: 200120 PUDONG NEW AREA, SHANGHAI

TR01 Transfer of patent right

Effective date of registration: 20140911

Address after: Bi Sheng Lu Pudong New Area Zhangjiang hi tech park Shanghai city 200120 289 Lane 6, Room 202

Patentee after: Shanghai Yutian Information Technology Co.,Ltd.

Address before: 201112, room 505, building 1, building 1588, union airway, Shanghai, Minhang District

Patentee before: Shanghai Laiseek Information Technology Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130102

Termination date: 20170209