CN107229659A - 一种信息搜索方法及装置 - Google Patents

一种信息搜索方法及装置 Download PDF

Info

Publication number
CN107229659A
CN107229659A CN201610179888.9A CN201610179888A CN107229659A CN 107229659 A CN107229659 A CN 107229659A CN 201610179888 A CN201610179888 A CN 201610179888A CN 107229659 A CN107229659 A CN 107229659A
Authority
CN
China
Prior art keywords
keyword
word
information
scope
conjunctive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610179888.9A
Other languages
English (en)
Other versions
CN107229659B (zh
Inventor
蒋亿松
刘燚灵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201610179888.9A priority Critical patent/CN107229659B/zh
Publication of CN107229659A publication Critical patent/CN107229659A/zh
Application granted granted Critical
Publication of CN107229659B publication Critical patent/CN107229659B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种信息搜索方法及装置,用以提高信息搜索过程中的信息搜索结果的准确性。一种信息搜索装置包括:查询请求获取模块,用于获取查询请求;关键词获取模块,用于从查询请求中获取至少一个关键词;范围限定信息获取模块,用于获取范围限定信息;关联词查找模块,用于对至少一个关键词中的每一个关键词,查找符合范围限定信息所限定范围内的该关键词的一个或多个关联词;搜索模块,用于按照查找到的每一个关键词的一个或多个关联词进行信息搜索,得到位于范围限定信息所限定范围内的信息搜索结果。由于按查找到的关联词进行信息搜索时,得到的信息搜索结果位于范围限定信息所限定范围内,因而信息搜索结果更准确。

Description

一种信息搜索方法及装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种信息搜索方法及装置。
背景技术
随着信息时代的到来,人们每天都要面对大量纷繁复杂的信息,比如:互联网中的信息,那么,如何从大量的信息中准确地搜索出需要的信息以呈献给用户,是一个急需解决的问题。
以互联网中的信息搜索为例,在信息搜索的过程中,常见的一种搜索方法是按照关键词进行搜索。但是,关键词通常在语义上具有复杂性,比如:一个词通常都会存在多个同义词,也可能存在多个近义词,如果仅对用户输入的关键词进行检索,通常会造成搜索到的条目较少,所以通常都会对用户输入的关键词及其同义词、近义词进行搜索,此时,如何选择同义词、近义词通常决定了信息搜索结果的准确性。
因此,如何准确地确定同义词和/或近义词,以提高信息搜索结果的准确性是信息搜索过程中一个亟待解决的问题。
发明内容
本发明实施例提供一种信息搜索方法及装置,用以解决信息搜索过程中信息搜索结果的准确性低的问题。
第一方面,本发明实施例一种信息搜索方法,该方法可应用于进行信息搜索的服务器上,其中,该服务器获取用于信息搜索的查询请求,并从所述查询请求中获取至少一个关键词;此外,该服务器获取用于限定信息搜索的范围的范围限定信息,服务器对于从所述查询请求中获取的所述至少一个关键词中的每一个关键词,查找符合所述范围限定信息所限定范围内的该关键词的一个或多个关联词,其中,关联词可包括同义词和/或近义词;并按照查找到的每一个关键词的所述一个或多个关联词进行信息搜索,得到位于所述范围限定信息所限定范围内的信息搜索结果。
采用上述方案,服务器可根据获取到的至少一个关键词的范围限定信息,对于至少一个关键词中的每一个关键词,查找出符合范围限定信息所限定范围内的一个或多个关联词,并按照查找到的每一个关键词的一个或多个关联词进行信息搜索,得到位于范围限定信息所限定范围内的信息搜索结果。其中,关联词包括同义词和/或近义词。
由于查找出的关联词是符合范围限定信息所限定范围内的关联词,因此在按照查找到的关联词进行信息搜索时,得到的信息搜索结果也是位于范围限定信息所限定范围内的信息搜索结果,从而使得信息搜索结果准确性更高。
在一种可能的实现方式中,若获取到一个关键词,则服务器在进行信息搜索时,可按照查找到的所述一个关键词的所述一个或多个关联词进行信息搜索;或按照查找到的所述一个关键词的所述一个或多个关联词,以及所述一个关键词进行信息搜索。
采用上述方案,按照一个关键词进行信息搜索或者按照该关键词的关联词进行信息搜索,和仅按照关键词进行信息搜索的方法相比,可以扩大信息搜索范围。
其中,对于前一种仅按照关键词进行搜索的情形,信息搜索得到的搜索结果可不包括按照关联词搜索得到的结果;对于后一种既按照关键词,也按照关联词搜索的情形,信息搜索得到的搜索结果包括按照关联词搜索得到的结果。
在这种可选的实现方式中,提供了两种信息搜索的实现方式。
在一种可能的实现方式中,若服务器获取到至少两个关键词,则服务器在查找关联词之后,按照查找到的关联词进行信息搜索之前,还可将查找到的所述至少两个关键词中的不同关键词的关联词之间进行组合,以及将所述至少两个关键词中的部分关键词与查找到的其余关键词的关联词之间进行组合;
在信息搜索时,可按照形成的每一个组合进行信息搜索;或
按照所述至少两个关键词,以及形成的每一个组合进行信息搜索。采用上述方案,由于在进行信息搜索时是按照关键词与关联词之间采用不同的组合方式得到的组合进行的,因此可以对所有可能的组合方式均进行搜索,在保证搜索结果的准确性的前提下,使搜索结果更为完整。
其中,对于前一种仅按照关键词进行搜索的情形,信息搜索得到的搜索结果可不包括按照关联词搜索得到的结果;对于后一种既按照关键词,也按照关联词搜索的情形,信息搜索得到的搜索结果包括按照关键词搜索得到的结果。提供了两种信息搜索的可选实现方式。
在一种可能的实现方式中,服务器可按照下列方式查找关联词:
查找一个关键词的所有关联词;对于查找到的每一个关联词,获取该关联词的适用范围的信息;
将所述适用范围与所述范围限定信息所限定范围之间有重叠的关联词,作为符合所述范围限定信息所限定范围内的该关键词的关联词。
采用上述方案,由于获取了关键词的每一个关联词的适用范围的信息,并从中筛选出适用范围与范围限定信息所限定的范围相同的关联词,因而能够排除适用范围不同的关联词,使筛选出的关联词更为准确,从而使搜索结果更为准确。
在一种可能的实现方式中,服务器可从客户端获取所述查询请求;服务器在查找到符合所述范围限定信息所限定范围内的所述一个关键词的一个或多个关联词之后,向所述客户端发送所述一个或多个关联词,并对发送的每一个关联词,发送该关联词的适用范围的信息。
采用上述方案,由于服务器向客户端发送了一个或多个关联词,并对发送的每一个关联词,发送该关联词的适用范围的信息,因而在客户端可以有选择性地对关联词及其适用范围进行展示,方便用户选择采用哪个关联词进行信息搜索。
在一种可能的实现方式中,服务器从客户端获取所述查询请求;
若获取到至少两个关键词,则服务器在查找到关联词之后,还包括:
将查找到的所述至少两个关键词中的不同关键词的关联词之间进行组合,以及将至少两个关键词中的部分关键词与查找到的其余关键词的关联词之间进行组合;
对于形成的每一个组合,确定该组合的适用范围;
其中,若一个组合中包括关键词,则将所述范围限定信息所限定的范围与该组合中的每一个关联词的适用范围之间的交集,作为该组合的适用范围;若一个组合中不包括关键词,则将该组合中的每一个关联词的适用范围之间的交集,作为该组合的适用范围;
服务器可向所述客户端发送一个或多个具有非空适用范围的组合,并对发送的每一个组合,发送该组合的适用范围的信息。
采用上述方案,由于服务器向客户端发送了一个或多个具有非空适用范围的组合,并对发送的每一个组合,发送该组合的适用范围的信息,因而可以在客户端对每一个具有非空适用范围的组合及该组合的适用范围进行展示,方便用户选择采用哪个组合进行信息搜索。
在一种可能的实现方式中,服务器在获取每一个关联词的适用范围的信息之前,可从文本中获取一个关联词;
服务器判断所述文本中是否包括用于描述该关联词的适用范围的词语;
若包括,则服务器将用于描述该关联词的适用范围的词语,标记为该关联词的适用范围的信息。
采用上述方案,由于从文本中获取了用于描述一个关联词的适用范围的词语,并将该词语作为关联词的使用范围的信息,提供了一种确定关联词的适用范围的方法。
在一种可能的实现方式中,服务器可从所述查询请求中获取所述范围限定信息;或
若服务器获取到一个关键词、且所述一个关键词的词义限定了信息搜索的范围,则服务器生成用于描述所述一个关键词的词义所限定的信息搜索范围,作为所述范围限定信息;或
若服务器获取到至少两个关键词、且所述至少两个关键词中的部分或全部关键词的词义限定了信息搜索的范围,则服务器可确定所述部分或全部关键词中的每一个关键词的词义所限定的信息搜索范围,并将确定的每一个关键词的词义所限定的信息搜索范围之间取交集,将所述交集作为所述范围限定信息。
采用上述方案,由于从查询请求中或者从关键词的词义中获取了范围限定信息,提供了获取范围限定信息的方法。
在一种可能的实现方式中,服务器可从客户端获取所述查询请求;服务器在得到位于所述范围限定信息所限定范围内的信息搜索结果之后,可向所述客户端发送得到的信息搜索结果,并对信息搜索结果中的每一个条目,发送所述范围限定信息。
采用上述方案,由于服务器向所述客户端发送得到的信息搜索结果,并对信息搜索结果中的每一个条目,发送所述范围限定信息,因而可以在客户端对信息搜索结果以及信息搜索结果中的每一个条目的范围限定信息进行展示,使搜索结果更为直观。
第二方面,本发明实施例提供一种信息搜索装置,该信息搜索装置具有实现上述第一方面的信息搜索方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一种可选的实现方案中,所述信息搜索装置包括:查询请求获取模块、关键词获取模块、范围限定信息获取模块、关联词查找模块和搜索模块。
可选地,还可以包括词语组合模块、关联词发送模块、适用范围信息标记模块和搜索结果发送模块。
查询请求获取模块被配置为支持信息搜索装置执行上述第一方面所提供的方法中的获取查询请求的功能;关键词获取模块被配置为支持信息搜索装置执行上述第一方面所提供的方法中的获取关键词的功能;范围限定信息获取模块被配置为支持信息搜索装置执行上述第一方面所提供的方法中的获取范围限定信息的功能;关联词查找模块被配置为支持信息搜索装置执行上述第一方面所提供的方法中的查找关键词的关联词的功能;搜索模块被配置为支持信息搜索装置执行上述第一方面所提供的方法中的搜索的功能;词语组合模块被配置为支持信息搜索装置执行上述第一方面所提供的方法中的词语组合的功能;关联词发送模块被配置为支持信息搜索装置执行上述第一方面所提供的方法中的发送关联词的功能;适用范围信息标记模块被配置为支持信息搜索装置执行上述第一方面所提供的方法中的标记关联词的适用范围信息的功能;搜索结果发送模块被配置为支持信息搜索装置执行上述第一方面所提供的方法中的向客户端发送搜索结果的功能。
第三方面,本发明实施例提供一种信息搜索***,包括:客户端,用于发送查询请求以及接收搜索结果;
服务器,用于执行上述第一方面提供的信息搜索方法;
存储器,用于接收服务器发送的数据库访问请求以及将数据库查询结果返回给服务器。
第四方面,本发明实施例提供一种计算机存储介质,用于存储为上述第二方面所述的信息搜索装置所用的计算机软件指令,其包含用于执行上述方面所设计的程序。
第五方面,本发明实施例提供一种信息获取方法,该方法中,服务器从文本中获取一个关键词的一个或多个关联词,其中,关联词包括同义词和/或近义词;对于获取的每一个关联词,服务器在文本中查找用于描述该关联词的适用范围的词语;并将查找到的词语,标记为该关联词的适用范围的信息。
在一种可能的实现方式中,服务器可以从文本中找到该关键词以及该关键词的关联词标记符;服务器确定关联词标记符在文本中的匹配范围;然后,服务器从匹配范围内获取一个或多个关联词。
其中,关联词标记符用于标记该关键词的关联词与该关键词的关联关系,匹配范围用于标记关联词在文本中可能出现的位置范围。
第六方面,本发明实施例提供一种信息获取装置,该装置具有实现上述第五方面的方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一种可选的实现方式中,该信息获取装置包括:关联词获取模块、词语查找模块和范围标记模块。
可选地,还可以包括关键词查找模块、关联词标记符查找模块和匹配范围确定模块。
关联词获取模块被配置为支持信息获取装置执行上述第五方面所提供的方法中的获取关联词的功能;词语查找模块被配置为支持信息获取装置执行上述第五方面所提供的方法中的查找用于描述关联词的适用范围的词语的功能;范围标记模块被配置为支持信息获取装置执行上述第五方面所提供的方法中的标记关联词适用范围的功能;关键词查找模块被配置为支持信息获取装置执行上述第五方面所提供的方法中的查找关键词的功能;关联词标记符查找模块被配置为支持信息获取装置执行上述第五方面所提供的方法中的查找关联词标记符的功能;匹配范围确定模块被配置为支持信息获取装置执行上述第五方面所提供的方法中的确定关联词标记符的匹配范围的功能。
第七方面,本发明实施例提供一种信息获取***,包括:
客户端,用于发送关键词以及接收所获取的信息;
服务器,用于执行上述第五方面提供的信息搜索方法;
存储器,用于接收服务器发送的数据库访问请求以及将数据库查询结果返回给服务器。
第八方面,本发明实施例提供一种计算机存储介质,用于储存为上述第六方面所述的信息获取装置所用的计算机软件指令,其包含用于执行上述方面所设计的程序。
综上,本发明实施例提供一种信息搜索方法及装置,其中,根据获取到的至少一个关键词的范围限定信息,对于至少一个关键词中的每一个关键词,查找出符合范围限定信息所限定范围内的一个或多个关联词,并按照查找到的每一个关键词的一个或多个关联词进行信息搜索,得到位于范围限定信息所限定范围内的信息搜索结果。其中关联词包括同义词和/或近义词。
由于查找出的关联词是符合范围限定信息所限定范围内的关联词,因此在按照查找到的关联词进行信息搜索时,得到的信息搜索结果也是位于范围限定信息所限定范围内的信息搜索结果,从而使得信息搜索结果准确性更高。
附图说明
图1为本发明实施例提供的一种信息搜索***的网络架构的示意图;
图2为本发明实施例提供的一种用于信息搜索的服务器的结构示意图;
图3为本发明实施例提供的一种信息搜索方法的流程图;
图4为本发明实施例提供的一种展示每一个组合及每一个组合的适用范围信息的方式的示意图;
图5为本发明实施例提供的一种展示一个或多个具有非空适用范围的组合的方式的示意图;
图6为本发明实施例提供的一种客户端展示信息搜索结果的方式的示意图;
图7为本发明实施例提供的一种信息获取方法的流程图;
图8为本发明实施例提供的另一种信息搜索方法的流程图;
图9为本发明实施例提供的另一种信息获取方法的流程图;
图10为本发明实施例提供的一种信息搜索装置的结构示意图;
图11为本发明实施例提供的一种信息获取装置的结构示意图;
图12为本发明实施例提供的另一种信息搜索装置的结构示意图。
具体实施方式
为了更好地理解本发明实施例的上述目的、方案和优势,下文提供了详细描述。该详细描述通过使用框图、流程图等附图和/或示例,阐明了装置和/或方法的各种实施方式。在这些框图、流程图和/或示例中,包含一个或多个功能和/或操作。本领域技术人员将理解到:这些框图、流程图或示例内的各个功能和/或操作,能够通过各种各样的硬件、软件、固件单独或共同实施,或者通过硬件、软件和固件的任意组合实施。
本发明实施例提供一种信息搜索方法及装置,其中,根据获取到的至少一个关键词的范围限定信息,对于至少一个关键词中的每一个关键词,查找出符合范围限定信息所限定范围内的一个或多个关联词,并按照查找到的每一个关键词的一个或多个关联词进行信息搜索,得到位于范围限定信息所限定范围内的信息搜索结果。其中关联词包括同义词和/或近义词。
采用本发明实施例提供的方案,可以根据范围限定信息对每一个关键词的一个或多个关联词进行筛选,得到符合范围限定信息所限定的范围的关联词,并根据每一个关键词及筛选得到的一个或多个关联词进行信息搜索。因此,可以根据范围限定信息对关联词进行筛选,进而在进行信息搜索时能够得到进行筛选过的、更为准确的搜索结果。
下面,为了便于理解,介绍一下本发明实施例中涉及的概念。
一、关键词和关联词
在信息搜索时,通常会按照一个或多个关键词进行信息搜索,这些关键词可以是由用户输入的,也可能是从文本中获取的。这些关键词用于代表要搜索的信息中的主要内容。
本发明实施例中,一个关键词的关联词可以包括该关键词的同义词和/或近义词。
比如,“栀子花又名栀子、黄栀子”,则根据这一文本可以认定栀子花的同义词为栀子或者黄栀子。再比如,“辨别”指分辨、区别,“鉴别”指通过审察而确定事物的性质或特征,二者意思相近,可以认为“鉴别”是“辨别”的近义词。一个词的同义词或近义词都可以叫做这个词的关联词。
词语的同义词和/或近义词会随着时间或地域等适用范围的改变而不同。在社会发展的过程中,有些词的词意会随着时间或地域等适用范围的变化而变化,比如:在元朝,阿妈与父亲同义,在古代,兄弟和姐妹同义;也有些词在某个地域具有相同的含义,比如在四川地区,人们称“辣椒”为“海椒”,在陕西地区,人们称“辣椒”为“秦椒”。
现有的搜索方法没有考虑要搜索的关键词及其同义词和/或近义词的适用范围,影响搜索结果的准确性。比如,对于“在四川地区,人们称辣椒为海椒,在陕西地区,人们称辣椒为秦椒”这一同义词匹配文本,当搜索“四川辣椒”时,会给出“四川海椒”和“四川秦椒”这两个搜索建议和相应搜索结果。但是,由于在搜索时没有考虑关键词“四川”这一适用范围限定信息,因而会给出“四川秦椒”这一搜索建议和相应搜索结果,这一搜索建议和搜索结果显然不是进行搜索的用户所需要的,因而这一搜索建议和搜索结果是冗余的,影响搜索结果的准确性。
二、范围限定信息
范围限定信息是指查询请求中的用于表明此次查询请求的查询范围的限定信息,比如时间信息或者地域信息。
当范围限定信息为时间信息时,表明该查询请求需要查询的是该时间信息所表征的时间范围内、包含查询请求中的关键词的搜索结果;当范围限定信息为地域信息时,表明该查询请求需要查询的是该地域范围内的、包含查询请求中的关键词的搜索结果。
范围限定信息可以从查询请求中获取,也可以从查询请求中的关键词的词义中获取。
可选地,可对上述两种获取范围限定信息的方式设置优先级。比如,可以设置:从查询请求中获取的范围限定信息的优先级高于从关键词的词义中获取的范围限定信息。
从查询请求中获取范围限定信息的方式可以有多种,下面仅举出三种从查询请求中获取范围限定信息的例子,实际的获取方式不限于以下三种:
方式一、查询请求中输入的关键词中包含范围限定信息。
比如,从“阿妈元朝”这一查询请求中可以获取“元朝”这一范围限定信息。
方式二、通过设置输入范围限定信息的功能模块来获取范围限定信息。
比如,可以在查询请求页面设置窗口或插件用于输入范围限定信息。
方式三、通过约定的表示方式进行查询信息的录入。
比如,可以约定输入查询请求时冒号前面为范围限定信息,冒号后面为需要查询的关键词,如输入“明朝:刘伯温”时,标识在“明朝”这一范围限定信息所限定的时间范围内搜索“刘伯温”这一关键词。
从关键词的词义中获取范围限定信息的方式可以是:某些著名人物、古籍、历史事件等明显与一些时间、地域等范围限定信息相关联,那么当把这些词作为关键词输入到查询请求中时,可以获取这些范围限定信息,作为该查询请求中的范围限定信息。例如,当输入的关键词中包含“曹雪芹”时,可以从“曹雪芹”这一关键词关联到“清朝”这一地域,从而将“清朝”作为此次查询请求的一个范围限定信息。
可选地,当范围限定信息为时间信息或地域信息,判断某个关键词是否与时间信息或地域信息相关联,可以通过设置一个时间标签库或者地域标签库来实现。
时间标签库中记载了与著名人物、古籍、历史事件等所对应的时间(如历史事件发生的时间、著名人物存在的年代)信息,当查询请求中的关键词中包含这些著名人物、古籍、历史事件时,可以将时间标签库中的著名人物、古籍、历史事件等对应的时间信息作为该查询请求的范围限定信息。
地域标签库中记载了与著名人物、古籍、历史事件等所对应的地域(如历史事件发生的地点、著名人物出生或生活的地域)信息,当查询请求中的关键词中包含这些著名人物、古籍、历史事件时,可以将地域标签库中的著名人物、古籍、历史事件等对应的地域信息作为该查询请求的范围限定信息。
此外,若范围限定信息为地域信息,还可以通过对输入查询请求的用户的IP(Internet Protocol,网络协议)地址进行解读或通过定位装置定位来获取地域信息。
三、关联词的适用范围
在查找某个关键词的关联词时,该关联词并不一定在任何情况下都与关键词同义,而是在某个适用范围内与该关键词同义。比如,在四川地区,人们称辣椒为海椒,那么海椒并不是在所有地区都与辣椒同义,而是仅在“四川”这一适用范围内与辣椒同义;再比如,阿妈在元朝与父亲同义,那么阿妈并不是在所有朝代都与父亲同义,而是仅在“元朝”这一适用范围内与父亲同义。上述“四川”和“元朝”即为关联词的适用范围。
可选地,关联词的适用范围可以是时间或地域。
四、关联词标记符
在对互联网或者数据库中的文本进行分析,进而获得某个关键词的关联词的过程中,关联词标记符用来标记该关键词与其关联词之间的关联关系。例如,对于“栀子花又称栀子、黄栀子。”这一文本,在搜索“栀子花”的关联词的过程中,通过该文本中“栀子花”后面的“又称”,我们可以知道“又称”后面的词是“栀子花”的关联词。“又称”即为一种关联词标记符。
关联词标记符不限于上述一种形式,它可以是文字也可以是符号。比如,在栀子花的词条中存在“【别名】:栀子、黄鸡子、黄荑子、黄栀子、黄栀、山黄栀、玉荷花等。”这一文本,其中“【别名】:”也是一种关联词标记符。
五、关联词标记符在文本中的匹配范围
关联词标记符在文本中的匹配范围用于标记关联词在文本中可能出现的位置范围。
比如,对于“栀子花又称栀子、黄栀子。”这一匹配文本,在找到关联词标记符后,还需要知道关联词标记符的作用范围,即栀子花的关联词可能出现的位置范围。通过分析该文本中最后的句号可以知道,句号之后的词不再是栀子花的关联词,即关联词标记符在文本中的匹配范围到句号结束。
图1示出了一种信息搜索***的网络架构。如图1所示,信息搜索***包括:服务器101、客户端102以及存储器103,服务器101还可以包括处理器、存储器以及I/O接口。
服务器101通过I/O接口接收来自客户端102的查询请求,通过处理器对接收的查询请求进行处理,并可将处理后得到的搜索结果返回给客户端102进行展示。服务器101运行存储器中存储的程序指令,对查询请求进行处理。此外,服务器101还可以将处理查询请求过程中产生的临时数据存放在存储器中。服务器101在处理查询请求时可能需要访问数据库(如同义词库、时间标签库、地域标签库等)可以来自服务器101自身的存储器,也可以来自外部的存储器103。
其中,同义词库用于存储关键词的关联词以及每一个关联词的适用范围的信息,一种可选的实现结构可参考表1;时间标签库用于记载诸如著名人物、古籍、历史事件等所对应的时间(如历史事件发生的时间、著名人物存在的年代)信息,当查询请求中的关键词中包含这些著名人物、古籍、历史事件时,可以将时间标签库中的著名人物、古籍、历史事件等对应的时间信息作为该查询请求的范围限定信息;地域标签库用于记载诸如著名人物、古籍、历史事件等所对应的地域(如历史事件发生的地点、著名人物出生或生活的地域)信息,当查询请求中的关键词中包含这些著名人物、古籍、历史事件时,可以将地域标签库中的著名人物、古籍、历史事件等对应的地域信息作为该查询请求的范围限定信息。
其中,客户端102的查询请求可以是来自用户输入的搜索指令(比如,在网页上输入的搜索指令)。
可选地,客户端102在接收到服务器101返回的搜索结果后,可以选择展示该搜索结果。服务器101中的存储器可以是磁盘、光盘、闪存。存储器103可以是磁盘阵列、硬盘、闪存、光盘,采用的存储技术可以是传统存储技术,也可以是云存储技术。
图2为一种用于信息搜索的服务器的结构示意图,本发明实施例提供的信息搜索方法可应用于如附图2所示的服务器101中,该服务器101可应用于图1所示的信息搜索***中,包括I/O接口201、处理器202、和存储器203。
存储器203可用于存储程序、数据库。存储器203可以是光盘、硬盘、内存等。其中,数据库可以是本发明实施例中的服务器执行信息搜索方法所调用的程序以及所用到的数据库(如上述同义词库、时间标签库、地域标签库);服务器101通过I/O接口201接收来自客户端的查询请求,通过处理器202对接收的查询请求进行处理,并可将处理后得到的搜索结果通过I/O接口201返回给客户端进行展示。服务器101运行存储器203中存储的程序指令,对查询请求进行处理。此外,处理器202还可以将处理过程中产生的临时数据存放在存储器203中。处理器202在处理查询请求时可能需要访问的数据库(如同义词库、时间标签库、地域标签库等)可以来自服务器101自身的存储器203,也可以来自外部的存储器;I/O接口201用于连接各种输入/输出装置,可用于接收外部的搜索指令以及将搜索结果输出。
其中,同义词库用于存储关键词的关联词以及每一个关联词的适用范围的信息,一种可选的实现结构可参考表1;时间标签库用于记载诸如著名人物、古籍、历史事件等所对应的时间(如历史事件发生的时间、著名人物存在的年代)信息,当查询请求中的关键词中包含这些著名人物、古籍、历史事件时,可以将时间标签库中的著名人物、古籍、历史事件等对应的时间信息作为该查询请求的范围限定信息;地域标签库用于记载诸如著名人物、古籍、历史事件等所对应的地域(如历史事件发生的地点、著名人物出生或生活的地域)信息,当查询请求中的关键词中包含这些著名人物、古籍、历史事件时,可以将地域标签库中的著名人物、古籍、历史事件等对应的地域信息作为该查询请求的范围限定信息。
下面,对本发明的各实施例进行详细介绍。
图3为本发明实施例提供的一种信息搜索方法的流程图。该方法可由图1和图2中所示的服务器101执行。如图3所示,该流程包括如下步骤:
S301:获取用于信息搜索的查询请求;
可选地,获取查询请求可以是从客户端获取查询请求。
S302:从查询请求中获取至少一个关键词;
其中,可采用最大正向匹配算法,通过将输入的查询请求中的单字与分词词库进行正向最大匹配,对中文进行分词,提取分词后的结果,从而形成至少一个关键词。比如,对“阿妈元朝”进行分词后获得“阿妈”和“元朝”两个关键词。可选地,也可以运用逆向最大匹配法和双向匹配法进行分词。
S303:获取范围限定信息;
其中,范围限定信息用于限定信息搜索的范围;
可选地,获取范围限定信息的方式可以是:从查询请求中获取范围限定信息;或者,若获取到一个关键词,且一个关键词的词义限定了信息搜索的范围,则生成用于描述一个关键词的词义所限定的信息搜索范围的范围限定信息;或者,若获取到两个关键词,且多个关键词中的部分或全部关键词的词义限定了信息搜索的范围,则确定部分或全部关键词中的每一个关键词的词义所限定的信息搜索的范围;将确定的每一个关键词的词义所限定的信息搜索的范围取交集;生成用于描述该交集的范围限定信息。
其中,范围限定信息获取的具体方式可参照前述关于范围限定信息的解释中所提供的获取方式。
S304:对于至少一个关键词中的每一个关键词,查找符合范围限定信息所限定范围内的该关键词的一个或多个关联词;
其中,关联词包括同义词和/或近义词。
可选地,查找符合范围限定信息所限定范围内的一个关键词的一个或多个关联词的方式可以是:查找该关键词的所有关联词;对于查找到的每一个关联词,获取该关联词的适用范围的信息;将适用范围与范围限定信息所限定范围有重叠的关联词,作为符合范围限定信息所限定范围内的该关键词的关联词。
可选地,获取关联词的适用范围的信息之前,还可以从文本中获取一个关联词;判断所述文本中是否包括用于描述该关联词的适用范围的词语;若包括,则将用于描述该关联词的适用范围的词语,标记为该关联词的适用范围的信息。例如,根据“辣椒蜀称海椒”这一文本,获取关键词“辣椒”及这一关键词的关联词“海椒”,该文本中,包含用于描述该关联词的适用范围的词语“蜀”,那么“蜀”就可以作为该关联词的适用范围的信息。
可选地,若获取到一个关键词,则在查找到符合范围限定信息所限定范围内的一个关键词的一个或多个关联词(步骤S304)之后,还可以向客户端发送一个或多个关联词,并对发送的每一个关联词,发送该关联词的适用范围的信息,用于在客户端展示一个或多个关联词及其对应的适用范围的信息。
可选地,若获取到至少两个关键词,则在对于至少一个关键词中的每一个关键词,查找到符合范围限定信息所限定范围内的该关键词的一个或多个关联词(步骤S304)之后,还可以将查找到的至少两个关键词中的不同关键词的关联词之间进行组合,以及将至少两个关键词中的部分关键词与查找到的其余关键词的关联词之间进行组合;对于形成的每一个组合,确定该组合的适用范围;向客户端发送一个或多个具有非空适用范围的组合,并对发送的每一个组合,发送该组合的适用范围的信息,用于在客户端展示每一个组合及每一个组合的适用范围的信息。
其中,若一个组合中包括关键词,则将范围限定信息所限定的范围与该组合中的每一个关联词的适用范围的交集,作为该组合的适用范围;若一个组合中不包括关键词,则将该组合中的每一个关联词的适用范围的交集,作为该组合的适用范围。
其中,在客户端展示每一个组合及每一个组合的适用范围的信息的方式可以是在每一个组合的前面或者后面添加该组合的适用范围的信息,如图4所示;或者,当范围限定信息为两种或两种以上时,在同一种范围限定信息下,展示与其相关的一个或多个具有非空适用范围的组合,例如,当范围限定信息为时间信息和地域信息时,一个或多个具有非空适用范围的组合的展示方式可以如图5所示。
S305:按照查找到的每一个关键词的一个或多个关联词进行信息搜索,得到位于范围限定信息所限定范围内的信息搜索结果。
可选地,若获取到一个关键词,则按照查找到的每一个关键词的一个或多个关联词进行信息搜索,包括:仅按照查找到的一个关键词的一个或多个关联词进行信息搜索;或按照查找到的一个关键词的一个或多个关联词,以及一个关键词进行信息搜索。
可选地,若获取到至少两个关键词,则在对于至少两个关键词中的每一个关键词,查找到符合范围限定信息所限定范围内的该关键词的一个或多个关联词(步骤S304)之后,按照查找到的每一个关键词的一个或多个关联词进行信息搜索(步骤S305)之前,还可以将查找到的至少两个关键词中的不同关键词的关联词之间进行组合,以及将至少两个关键词中的部分关键词与查找到的其余关键词的关联词之间进行组合;按照查找到的每一个关键词的一个或多个关联词进行信息搜索,可以包括:按照形成的每一个组合进行信息搜索;或按照至少两个关键词,以及形成的每一个组合进行信息搜索。
可选地,在得到位于范围限定信息所限定范围内的信息搜索结果之后,还包括:向客户端发送得到的信息搜索结果,并对信息搜索结果中的每一个条目,发送范围限定信息,用以在客户端展示信息搜索结果。
其中,客户端展示信息搜索结果的方式可以如图6所示,在信息搜索结果(即搜索得到的条目的内容标题)的前面或后面标记范围限定信息,即展示搜索得到的条目的内容标题的同时,展示与该标题相关联的范围限定信息。
图7为本发明实施例的提供的一种信息获取方法的流程图,该方法主要用于从文本中获取一个关键词的关联词及每一个关联词的适用范围的信息,信息获取的结果可以为前述步骤S303提供某个关键词的范围限定信息。如图7所示,该方法的流程如下:
S701:从文本中获取一个关键词的一个或多个关联词;
关联词包括同义词和/或近义词;
可选地,在从文本中获取一个关键词的一个或多个关联词之前,还可以从文本中找到关键词;从文本中找到关键词的关联词标记符;确定关联词标记符在文本中的匹配范围,匹配范围用于标记关联词在文本中可能出现的位置范围;从文本中获取一个关键词的一个或多个关联词,可以是:从匹配范围内获取一个或多个关联词。
其中,关联词标记符用于标记关键词的关联词与关键词的关联关系。
S702:对于获取的每一个关联词,查找文本中用于描述该关联词的适用范围的词语;
S703:将查找到的词语所代表的适用范围,标记为该关联词的适用范围。
图8为本发明实施例提供的另一种信息搜索方法的流程图。其中,以关键词为两个、关联词为同义词、范围限定信息为时间信息和地域信息为例,给出图3所示方法的一个示例。
S801:获取用于信息搜索的查询请求;
比如:获取用户在搜索页面查询框输入“阿妈元朝”这一查询请求。
可选地,查询请求可以是用户输入的查询请求,也可以是由某一装置或***生成的查询请求。
S802:提取查询内容关键词;
采用一定的技术手段获取查询内容中的关键词。如可采用最大正向匹配算法、逆向最大匹配算法或者双向匹配算法进行分词。从分词后的结果中提取要查询的关键词。比如,对“阿妈元朝”进行分词并获得“阿妈”和“元朝”两个关键词。
其中,步骤S802可视为前述步骤S302的一个例子。
S803:利用获得的关键词进行首次搜索,获得首次搜索结果;
运用搜索算法或工具对获得的关键词进行搜索,将这里获得的结果称为“首次搜索结果”,即在未引入要查询的关键词的同义词的情况下获得的搜索结果。比如,对S803中获得的“阿妈”和“元朝”两个关键词进行搜索,获得首次搜索结果。
步骤S803中对获得的关键词进行搜索可以视为与现有的搜索方法相同的搜索方法,获得的首次搜索结果可以与后面的步骤S811中获得的二次搜索结果进行融合。
S804:判断关键词中是否含有时间或地域信息;若是,执行步骤S806;若否,执行步骤S805;
其中,时间信息、地域信息可以视为前述范围限定信息的一个例子。
比如:若仅有一个关键词、且该一个关键词的词义限定了信息搜索的范围,则生成用于描述一个关键词的词义所限定的信息搜索范围,作为前述的范围限定信息。
再比如:若有至少两个关键词、且至少两个关键词中的部分或全部关键词的词义限定了信息搜索的范围,则确定部分或全部关键词中的每一个关键词的词义所限定的信息搜索范围,并将确定的每一个关键词的词义所限定的信息搜索范围之间取交集,将交集作为范围限定信息。
一个与时间或地域信息相关的词,不仅限于该词明确含有时间信息的词,如年份,地名。它还也应包括一些明显与时间或地域信息能够进行关联的词,如“黄山”或“红楼梦”能够关联到事物所在的地点或书籍写作的年份或朝代。
如何判断一个词与时间或地域信息相关,可通过建立一个时间标签库或地域标签库实现。
时间标签库或地域标签库中关联有著名人物,古籍,历史事件等的时间或地域信息。如果查询内容中的关键词包含在时间标签库中,则其与时间信息相关联;如果查询内容中的关键词包含在地域标签库中,则其与地域信息相关联。
在对关键词进行分析后,输出该关键词关联的时间信息或地域信息。如果关键词具有不同的时间信息或不同的地域信息,则对这些信息取交集并输出。如果查询内容中的关键词没有与时间信息或地域信息关联,则认为该查询请求关联所有时间或地域信息。
比如:分析“阿妈”和“元朝”两个关键词,获得与时间关联的关键词。在分析的过程中依次将“阿妈”和“元朝”与时间标签库进行对比。在时间标签库中“阿妈”并不具备时间信息,而“元朝”具备时间信息。因此获得“元朝”所关联的时间信息。关联的时间信息可以是朝代名:元朝,也可以是时间段:公元1271年~1236年,同时也可以是其它表示时间的信息。
在本发明中,关键词关联的时间信息或地域信息也可通过输入查询请求时进行指定,如给用户通过提供窗口或插件来输入查询的时间信息或地域信息。在这种情况下,通过提供窗口或插件输入的时间信息或地域信息的优先级高于通过关键词与标签库进行对比后得到的时间信息或地域信息。
此外,查询请求中的关键词的地域信息的获取还可使用IP地址解读、定位装置定位等方式实现。
其中,步骤S804中判断关键词是否含有时间或地域信息的目的与前述步骤S303相同,是为了找到范围限定信息。
S805:从具有时间和地域信息的同义词库中获取所有同义词;
当然,同义词库也可仅包括时间信息,或仅包括地域信息,或者,对于部分同义词,这些同义词具有时间信息;而对于其他同义词,这些同义词具有低于信息。这些信息用于限定同义词的适用范围,用于筛选同义词。
S806:从具有时间和地域信息的同义词库中获取与步骤S804中获取的时间信息或地域信息相对应的同义词;
比如:在分析“阿妈”在元朝时期的同义词时,“父亲”和“母亲”这两个同义词所关联的时间信息为“元朝”,则“父亲”和“母亲”为相应时间信息(元朝)对应的同义词。
其中,同义词为前述关联词的一个例子,同义词所关联的时间或地域信息即为前述步骤S304中的关联词的适用范围的信息。
其中,步骤S805和步骤S806可视为前述步骤S304的一个例子。
S807:利用获得的同义词对原有关键词进行替代,并在替代完成后附加相应的时间信息,形成新的关键词组;
比如:“阿妈元朝”的新关键词组为“阿妈元”,“父亲元”,“父亲元朝”,“母亲元”,“母亲元朝”等。
这里同义词的替代方法可采用“全组合”方法,如输入的中文关键词组为“中文词1中文词2”,中文词1具有5个同义词,中文词2具有4个同义词,则形成的新关键词组为29种(29=6*5-1)。其中,新关键词组中不包含“中文词1中文词2”这一关键词组。
本申请的实施例中对同义词的代替方法不作特殊要求,只要能够实现同义词的替代即可。
其中,步骤S807可视为前述步骤S304中,当存在至少两个关键词时“将查找到的至少两个关键词中的不同关键词的关联词之间进行组合,以及将至少两个关键词中的部分关键词与查找到的其余关键词的关联词之间进行组合”的一个例子。
S808:对具有时间或地域信息的新关键词组进行处理,形成搜索建议;
步骤S808中,对具有时间或地域信息的新关键词组进行处理可视为前述步骤S304中,将查找到的至少两个关键词中的不同关键词的关联词之间进行组合,以及将至少两个关键词中的部分关键词与查找到的其余关键词的关联词之间进行组合之后,对得到的每一个组合确定该组合的适用范围的过程的一个例子。
首先对获得的新关键词组进行逻辑性分析,如“中文词1中文词2”的新关键词组为“同义词1-1同义词2-1”,则分析同义词1-1和同义词2-1的时间或地域信息是否重合,如果重合,则认为其是一个有效的新关键词组,新关键词组的时间信息为同义词1-1和同义词2-1的时间信息的交集,新关键词组的地域信息同义词1-1和同义词2-1的地域信息的交集。如果同义词1-1和同义词2-1的时间信息或地域信息不重合,则认为其是一个无效的新关键词组。
其中,新关键词组即为前述步骤S304中“将查找到的至少两个关键词中的不同关键词的关联词之间进行组合,以及将至少两个关键词中的部分关键词与查找到的其余关键词的关联词之间进行组合”后得到的组合的一个例子,新关键词组的时间信息或者地域信息即为前述步骤S304中“该组合的适用范围的信息”的一个例子。
在获得有效的新关键词组后,根据有效的新关键词组形成搜索建议。在搜索建议的形成过程中,可以对有效的新关键词组进行排序,依据设定输出其中的一个或多个,形成搜索建议。如评定当前新关键词组与原关键词组的相关度,按照降序排列,提取前两个新关键词组形成搜索建议。这里相关度的评价可以采取不同的方式,如按新关键词组的时间跨度的长短或地域的大小进行排序,或者按照新关键词组的历史搜索次数的多少进行排序等。本发明的实施例中对排序方法不作限定。
比如:在新关键词组“阿妈元”,“父亲元”,“父亲元朝”,“母亲元”,“母亲元朝”等中选取搜索建议时可选择含有时间范围最小的一对关键词组,如“母亲”和“阿妈”的同义关系不局限于元朝,而此次搜索的关键词中限定了元朝这一范围限定信息,因此优先选择含有“父亲”的搜索建议,“母亲”则作为非优选的搜索建议;而且“元朝”比“元”更能准确的表述时间信息,因此优先选择含有“元朝”的搜索建议,“元”则作为非优选的搜索建议。最终形成“父亲元朝”这一搜索建议。
可选地,可以在获得有效的新关键词组并根据这些新关键词组形成搜索建议之后对形成的搜索建议进行展示,搜索建议的展示方式可以参考图4和图5所示的展示方式。
S809:判断是否执行步骤S808中形成的搜索建议;若是,执行步骤S811,若否,执行步骤S810;
S810:获取首次搜索结果,执行步骤S813;
S811:执行步骤S808中形成的搜索建议并形成二次搜索结果;
为使步骤S811中得到的搜索结果与步骤S803中得到的“首次搜索结果”相区别,将步骤S811中得到的搜索结果称为“二次搜索结果”。
可选地,若步骤S808中形成的搜索建议有多个,可在搜索建议中选择其中一个或多个执行。
S812:融合首次搜索结果及二次搜索结果;
其中,融合的方式可以是运用搜索排序规则对检索到的结果进行排序,如按照网页中关键词的匹配程度、出现的位置、频次、链接质量等,计算出各搜索结果的相关度及排名等级,然后根据关联度高低,按顺序将搜索结果返回给用户。
比如:执行“父亲元朝”得搜索建议,获得的搜索结果与搜索“阿妈元朝”所获取的搜索结果相融合。
S813:返回搜索结果和搜索建议。
若执行了步骤S809中获得的搜索建议,则返回的搜索结果为首次搜索结果与二次搜索结果融合后的搜索结果,此外,还返回步骤S808中形成的搜索建议。
若未执行步骤S809中获得的搜索建议,则返回的搜索结果为首次搜索结果,此外,还返回步骤S808中形成的搜索建议。
将搜索建议返回给客户端后,客户端可以选择展示搜索建议,比如,在搜索建议栏中展示“父亲(元朝)”,“(元朝)父亲”,“父亲,元朝”,“元朝,父亲”等具有时间信息的搜索建议。需要说明的是,最终搜索结果的呈现不依赖于搜索建议的展示。
图8所示方法可以视为图3所示方法的一个举例。在图8所示方法的流程中未详细描述的实施方式可参照图3所示方法的描述。
图9示出了本发明实施例提供的另一种信息获取方法的流程图。图9所示的方法可视为图7所示方法的一个示例。下面,参考图9,举例说明本发明实施例提供的一种信息获取方法。
图9给出了从文本中获取一个关键词的同义词,以及同义词的时间/地域信息的方法的流程图,采用该方法所获取的信息最终可以形成一个具有时间/地域信息的同义词库的形式,该同义词库不同于现有的同义词库,其包含有时间信息和地域信息,该同义词库可以通过在现有的同义词库中添加时间信息和地域信息实现,其结构可如表1所示。
表1中,关键词为一个中文词,其可能具有多个同义词(同义词1,同义词2,同义词3等)。在记录关键词的同义词的同时也对每一个同义词所关联的时间或地域信息进行记录。
在这里,时间信息可以为朝代,年份,时间段等信息,地域信息可为地域,省份等信息。
需要说明的是,具有时间或地域信息的同义词库并不局限于表1所示的结构,其它能够体现同义词的时间或地域信息的结构也可。
表1
其中,图9所示的方法中获取的具有时间或地域信息的同义词库可用于前述步骤S806中获取同义词所关联的时间或地域信息。
S901:获取同义词匹配文本;
通过网页爬虫技术读取网页文本,或者通过数据库文本导入等方式获得匹配文本。如可通过“汉典”等网站获取词条的详细解释,引证解释等。
其中,同义词匹配文本即为前述步骤S701中的文本的一个例子。
S902:提取同义词标记符;
其中,同义词标记符即为前述步骤S701中的关联词标记符的一个例子。用以标记要查找的关键词的关联词在文本中出现的位置。
遍历匹配文本,提取所有匹配文本内所含的同义词标记符,如“简称”、“又名”等。获取同义词标记符的方式可以是,通过将同义词匹配文本中的词与标准同义词标记符库进行比较,从而获得同义词标记符。
其中,标准同义词标记符库用于记录所有同义词标记符。
S903:判断是否分析完所有的同义词标记符;
若是,执行步骤S909,若否,执行步骤S904。
S904:分析下一个同义词标记符的匹配范围,获得该范围内的同义词;
同义词标记符的匹配范围即为前述步骤S701中的关联词标记符在文本中的匹配范围的一个例子。
一个同义词标记符的匹配范围内可能具有多个同义词。如“栀子花又名栀子、黄栀子”中具有两个“栀子花”的同义词:“栀子”,“黄栀子”。那么,在获取同义统一词标记符后还要获取该同义词标记符的匹配范围,以确定到哪个词或哪个标点为止,文本中后面的词不再是该关键词的同义词。
匹配范围的获取可以通过字词划分、语句划分,段落划分等方式实现。在一些知识类文本解释中,如“汉典”的词条解释中,同义词标记符比较特殊,如“词语解释”、“引证解释”接下来的几段文本可能都为对该词条进行解释的内容,这几段文本都属于匹配范围。
S905:导入时间标签库和地域标签库;
时间标签库和地域标签库用于记录与历史事件,人物,书籍,物品等相关联的时间信息和地域信息。如与“曹雪芹”关联的时间信息可以为“清朝”或其生活年份;与“黄山”关联的地域信息可以为“安徽”或“安徽黄山市”等地域信息。
S906:获取同义词标记符中的时间或地域信息;
如“南池子明朝称东苑”中的同义词标记符“明朝称”中具有与时间信息相关的词“明朝”,“明朝”可作为“东苑”这一同义词的时间信息。本文对同义词标记符中的时间或地域信息不作特殊要求,不局限于上述方法。
S907:获取匹配范围内的时间或地域信息,并与同义词相关联;
匹配范围内的时间或地域信息的获取也可以通过对包含的文本内容进行分词并将所得结果与时间标签库和地域标签库进行对比而实现。
在获得匹配范围内的时间或地域信息后,将其关联在其包含的同义词上。关于匹配范围内的时间或地域信息和同义词对关联时间信息的确立,可采用但不局限于以下的方法。
I)匹配范围内含有一个或多个同义词,含有一个时间或地域信息。所有的同义词关联唯一的时间或地域信息。
II)匹配范围内含有一个或多个同义词,含有多个时间或地域信息。每个同义词关联所在语句或段落中距离最近的时间或地域信息。如果当前段落中无相关时间和地域信息,则该同义词的时间信息关联“现代”或“当今”等表示当前的时间信息,地域信息关联“全部区域”等表示所有区域的地域信息。
III)匹配范围内含有一个或多个同义词对,无时间或地域信息。将同义词对的时间信息关联“现代”或“当今”等表示当前的时间信息,关联“全部区域”等表示所有区域的时间信息。
其中,步骤S907可视为前述步骤S702~步骤S703的一个例子
S908:将步骤S907所获得的具有时间和地域信息的同义词加入同义词库中。
可选地,可以对加入同义词库的同义词进行过滤处理,即:如果已经存在相同的同义词,则将该同义词所关联的时间或地域信息添加进如表1所示的同义词库中的时间信息或地域信息一栏。如果不存在相同的同义词,则将具有时间或地域信息的同义词加入到同义词库中,并记录该同义词所关联的时间信息或地域信息。
执行步骤S908后,返回步骤S903。即,步骤S903~步骤S908是一个循环过程,直至文本中所有的同义词标记符都分析完成,循环过程结束,输出具有时间信息和地域信息的同义词库。
S909:输出具有时间和地域信息的同义词库。
图9所示方法可以视为图7所示方法的一个例子,图9所示方法中未详细描述的部分可参照图7中相应描述。
图10为本发明实施例提供的一种信息搜索装置的结构示意图,该信息搜索装置用于执行图3所示的信息搜索方法。如图10所示,该装置包括:
查询请求获取模块1001,用于获取用于信息搜索的查询请求;
关键词获取模块1002,用于从查询请求中获取至少一个关键词;
范围限定信息获取模块1003,用于获取范围限定信息,范围限定信息用于限定信息搜索的范围;
关联词查找模块1004,用于对于至少一个关键词中的每一个关键词,查找符合范围限定信息所限定范围内的该关键词的一个或多个关联词,关联词包括同义词和/或近义词;
搜索模块1005,用于按照关联词查找模块1004查找到的每一个关键词的一个或多个关联词进行信息搜索,得到位于范围限定信息所限定范围内的信息搜索结果。
可选地,搜索模块1005在关键词获取模块1002获取到一个关键词时,按照关联词查找模块1004查找到的一个关键词的一个或多个关联词进行信息搜索;或按照关联词查找模块1004查找到的一个关键词的一个或多个关联词,以及关键词获取模块1002获取到的一个关键词进行信息搜索。
可选地,该信息搜索装置还包括:词语组合模块,用于在关键词获取模块1002获取到至少两个关键词时,在关联词查找模块1004对于至少两个关键词中的每一个关键词,查找到符合范围限定信息所限定范围内的该关键词的一个或多个关联词之后,在搜索模块1005按照关联词查找模块1004查找到的每一个关键词的一个或多个关联词进行信息搜索之前,将关联词查找模块1004查找到的至少两个关键词中的不同关键词的关联词之间进行组合,以及将至少两个关键词中的部分关键词与查找到的其余关键词的关联词之间进行组合;
搜索模块1005具体用于:在关键词获取模块1002获取到至少两个关键词时,按照词语组合模块形成的每一个组合进行信息搜索;或按照至少两个关键词,以及词语组合模块形成的每一个组合进行信息搜索。
其中,搜索模块1005在进行信息搜索时,可以仅利用关联词查找模块1004所查找到的关联词进行搜索,也可以利用关键词获取模块1002获取的关键词以及关联词查找模块1004所查找到的关联词进行搜索。
可选地,关联词查找模块1004具体用于:对于至少一个关键词中的每一个关键词,查找该关键词的所有关联词;对于查找到的每一个关联词,获取该关联词的适用范围的信息;将适用范围与范围限定信息所限定范围之间有重叠的关联词,作为符合范围限定信息所限定范围内的该关键词的关联词。
可选地,查询请求获取模块1001具体用于:从客户端获取查询请求;
该信息搜索装置还包括:关联词发送模块,用于:
在关键词获取模块1002获取到一个关键词时,在关联词查找模块1004查找到符合范围限定信息所限定范围内的一个关键词的一个或多个关联词之后,向客户端发送一个或多个关联词,并对发送的每一个关联词,发送该关联词的适用范围的信息;
或者用于:
在关键词获取模块1002获取到至少两个关键词时,在关联词查找模块1004对于至少两个关键词中的每一个关键词,查找到符合范围限定信息所限定范围内的该关键词的一个或多个关联词之后,将关联词查找模块1004查找到的至少两个关键词中的不同关键词的关联词之间进行组合,以及将至少两个关键词中的部分关键词与查找到的其余关键词的关联词之间进行组合;对于形成的每一个组合,确定该组合的适用范围;向客户端发送一个或多个具有非空适用范围的组合,并对发送的每一个组合,发送该组合的适用范围的信息。
其中,若一个组合中包括关键词,则将范围限定信息所限定的范围与该组合中的每一个关联词的适用范围之间的交集,作为该组合的适用范围;
若一个组合中不包括关键词,则将该组合中的每一个关联词的适用范围之间的交集,作为该组合的适用范围。
可选地,该信息搜索装置还包括:适用范围信息标记模块,用于在关联词查找模块1004获取每一个关联词的适用范围的信息之前,从文本中获取一个关联词;判断文本中是否包括用于描述该关联词的适用范围的词语;若包括,则将用于描述该关联词的适用范围的词语,标记为该关联词的适用范围的信息。
可选地,范围限定信息获取模块1003具体用于:
从查询请求中获取范围限定信息;或
若关键词获取模块1002获取到一个关键词、且一个关键词的词义限定了信息搜索的范围,则生成用于描述一个关键词的词义所限定的信息搜索范围,作为范围限定信息;或
若关键词获取模块1002获取到至少两个关键词、且至少两个关键词中的部分或全部关键词的词义限定了信息搜索的范围,则确定部分或全部关键词中的每一个关键词的词义所限定的信息搜索范围,并将确定的每一个关键词的词义所限定的信息搜索范围之间取交集,将交集作为范围限定信息。
可选地,查询请求获取模块1001具体用于:从客户端获取查询请求;装置还包括:搜索结果发送模块,用于在搜索模块1005得到位于范围限定信息所限定范围内的信息搜索结果之后,向客户端发送得到的信息搜索结果,并对信息搜索结果中的每一个条目,发送范围限定信息。
在图10所示装置中,查询请求获取模1001用于执行前述步骤S301;关键词获取模块1002用于执行前述步骤S302;范围限定信息获取模块1003用于执行前述步骤S303;关联词查找模块1004用于执行前述步骤S304;搜索模块1005用于执行前述步骤S305;词语组合模块用于执行前述步骤S304中将不同关键词的关联词之间进行组合以及将部分关键词与其余关键词的关联词进行组合的步骤;关联词组合模块用于执行前述步骤S304中发送关联词及其适用范围的步骤;适用范围信息标记模块用于执行前述步骤S304中的标记关联词的适用范围的步骤;搜索结果发送模块用于执行前述步骤S305之后,将搜索结果发送给客户端。
图10所示的各模块中未详细描述的功能及操作,详见图3所示流程中的相应描述。
图10所示的装置所包括的各个模块在实现时,可由图2中的处理器202运行存储器203中存储的程序指令来实现。在各模块执行对应的操作时,可能会涉及到和服务器101和其他设备,比如:客户端102或外部的存储器103之间的交互,实现时可由处理器202控制I/O接口201完成这些交互。此外,在各个模块执行对应的操作时,可能会涉及到对存储器203的访问,实现时可由处理器202从存储器203中获取存储数据。
图11为本申请提供的一种信息获取装置的结构示意图,如图11所示,该装置包括:
关联词获取模块1101,用于从文本中获取一个关键词的一个或多个关联词,关联词包括同义词和/或近义词;
词语查找模块1102,用于对于关联词模块获取的每一个关联词,在文本中查找用于描述该关联词的适用范围的词语;
范围标记模块1103,用于将词语查找模块查找到的词语,标记为该关联词的适用范围的信息。
可选地,该装置还包括:
关键词查找模块,用于在关联词获取模块获取关键词的一个或多个关联词之前,从文本中找到关键词;
关联词标记符查找模块,述文本中找到关键词的关联词标记符,关联词标记符用于标记关键词的关联词与关键词的关联关系;
匹配范围确定模块,用于确定关联词标记符在文本中的匹配范围,匹配范围用于标记关联词在文本中可能出现的位置范围;
范围标记模块具体用于:
从匹配范围内获取一个或多个关联词。
图11所示的信息获取装置中,关联词获取模块1101用于执行前述步骤S701,词语查找模块1102用于执行前述步骤S702,范围标记模块1103用于执行前述步骤S703,关键词查找模块用于执行前述步骤S701中的查找关键词的操作,关联词标记符查找模块用于执行前述步骤S701中的查找关联词标记符的操作,匹配范围确定模块用于执行前述步骤S701中的确定关联词标记符的匹配范围的操作。
图11所示的装置所包括的各个模块在实现时,可由图2中的处理器202调用存储器203中存储的程序来实现。在各模块执行对应的操作时,可能会涉及到和服务器101和其他设备,比如:客户端102或外部的存储器103之间的交互,实现时可由处理器202控制I/O接口201完成这些交互。此外,在各个模块执行对应的操作时,可能会涉及到对存储器203的访问,实现时可由处理器202从存储器203中获取存储数据。
对图11所示的信息获取装置未详细描述的功能或操作详见图7所示流程中的相应描述。
下面,参考图12,举例说明本发明实施例提供的另一种信息搜索装置。其中,图12以关键词为至少两个、关联词为同义词、范围限定信息为时间信息和地域信息为例,给出图10所示装置的一个示例。
如图12所示,该信息搜索装置包括:
关键词获取模块1201,用于从客户端获取搜索的关键词。其中,关键词可以为由用户输入的搜索语句经过分词而获得的关键词,也可以为用户指定或选择的关键词,或者通过某些设置输入窗口选择或输入而获得关键词等。
具有时间或地域信息的同义词库存储模块1202,用于存储关键词获取模块1201获取的关键词的同义词,该同义词具有时间或地域信息,其结构可以为表1所示结构。在表1中,时间信息可以为朝代,年份,时间段等信息,地域信息可为地域,省份等信息。
具有时间或地域信息的同义词库存储模块并不局限于表1所述的结构,其它能够体现同义词的时间或地域信息的结果也可。
同义词处理模块1205在对同义词进行处理时根据具有时间或地域信息的同义词库存储模块1202获取每一个同义词的时间信息或地域信息(即前述关联词的适用范围的信息的一个例子)。
时间/地域标签库存储模块1203,用于记录与历史事件,人物,书籍,物品等词语相关联时间或地域信息,在图12所示的实施例中,关键词处理模块1204对关键词进行处理时将关键词与时间/地域标签库存储模块1203中记录的词语进行对比,获取关键词中所包含的时间信息或地域信息(即前述范围限定信息的一个例子)。
关键词处理模块1204,用于判断关键词是否与时间或地域信息相关,如果相关则获得相应的时间或地域信息。将关键词与时间/地域标签库存储模块1203中记录的词语进行对比,若关键词包含在时间/地域标签库存储模块1203中,则获取时间/地域标签库存储模块1203中该关键词的时间或地域信息。此外,如果没有与时间或地域信息相关的关键词,其输出时间信息可为以下两种:无时间或地域信息,或者所有时间或地域信息。可以根据需要选择其中一种输出方式。
同义词处理模块1205,用于将关键词获取模块1201获取的关键词用具有时间或地域信息的同义词库存储模块1202中的该关键词的同义词进行替代,并附加时间或地域信息,形成具有时间或地域信息的同义词关键词组(即前述步骤S807中的新关键词组的一个例子)。
搜索建议处理模块1206,用于过滤所获得的具有时间或地域信息的同义词关键词组,形成搜索建议。
搜索建议发送模块1207,用于向客户端发送具有时间或地域信息的搜索建议。
搜索模块1208,用于对待查询关键词组及其同义词关键词组进行搜索。
搜索结果存储及发送模块1209,用于存储搜索结果并向客户端发送搜索结果。
图12中,关键词获取模块1201为前述关键词获取模块1001的一个例子;具有时间或地域信息的同义词库存储模块1202为图9中获取的具有时间或地域信息的同义词库的一个例子,用于为前述关联词查找模块1004在查找符合范围限定信息所限定范围内的该关键词的一个或多个关联词时提供信息和数据;时间/地域标签库存储模块1203为前述范围限定信息获取模块1003在获取范围限定信息时提供信息和数据;关键词处理模块1204为前述范围限定信息获取模块1003的一个例子;同义词处理模块1205为前述词语组合模块的一个例子;搜索建议处理模块1206为前述关键词发送模块提供关联词及其适用范围的信息;搜索建议发送模块1207为前述关联词发送模块的一个例子;搜索模块1208为前述搜索模块1005的一个例子;搜索结果存储及发送模块1209为前述搜索结果发送模块的一个例子。
图12中未详细描述的各模块的功能及操作详见图10中的相应描述。
图12所示的装置所包括的各个模块在实现时,可由图2中的处理器202运行存储器203中存储的程序指令来实现。在各模块执行对应的操作时,可能会涉及到和服务器101和其他设备,比如:客户端102或外部的存储器103之间的交互,实现时可由处理器202控制I/O接口201完成这些交互。此外,在各个模块执行对应的操作时,可能会涉及到对存储器203的访问,实现时可由处理器202从存储器203中获取存储数据。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (22)

1.一种信息搜索方法,其特征在于,包括:
获取用于信息搜索的查询请求;
从所述查询请求中获取至少一个关键词;
获取范围限定信息,所述范围限定信息用于限定信息搜索的范围;
对于所述至少一个关键词中的每一个关键词,查找符合所述范围限定信息所限定范围内的该关键词的一个或多个关联词,所述关联词包括同义词和/或近义词;
按照查找到的每一个关键词的所述一个或多个关联词进行信息搜索,得到位于所述范围限定信息所限定范围内的信息搜索结果。
2.如权利要求1所述的方法,其特征在于,若获取到一个关键词,则按照查找到的每一个关键词的所述一个或多个关联词进行信息搜索,包括:
按照查找到的所述一个关键词的所述一个或多个关联词进行信息搜索;或
按照查找到的所述一个关键词的所述一个或多个关联词,以及所述一个关键词进行信息搜索。
3.如权利要求1所述的方法,其特征在于,若获取到至少两个关键词,则在对于所述至少两个关键词中的每一个关键词,查找到符合所述范围限定信息所限定范围内的该关键词的一个或多个关联词之后,按照查找到的每一个关键词的所述一个或多个关联词进行信息搜索之前,还包括:
将查找到的所述至少两个关键词中的不同关键词的关联词之间进行组合,以及将所述至少两个关键词中的部分关键词与查找到的其余关键词的关联词之间进行组合;
按照查找到的每一个关键词的所述一个或多个关联词进行信息搜索,包括:
按照形成的每一个组合进行信息搜索;或
按照所述至少两个关键词,以及形成的每一个组合进行信息搜索。
4.如权利要求1~3任一项所述的方法,其特征在于,查找符合所述范围限定信息所限定范围内的一个关键词的一个或多个关联词,包括:
查找该关键词的所有关联词;
对于查找到的每一个关联词,获取该关联词的适用范围的信息;
将所述适用范围与所述范围限定信息所限定范围之间有重叠的关联词,作为符合所述范围限定信息所限定范围内的该关键词的关联词。
5.如权利要求4所述的方法,其特征在于,获取所述查询请求,包括:从客户端获取所述查询请求;
若获取到一个关键词,则在查找到符合所述范围限定信息所限定范围内的所述一个关键词的一个或多个关联词之后,还包括:
向所述客户端发送所述一个或多个关联词,并对发送的每一个关联词,发送该关联词的适用范围的信息。
6.如权利要求4所述的方法,其特征在于,获取所述查询请求,包括:从客户端获取所述查询请求;
若获取到至少两个关键词,则在对于所述至少两个关键词中的每一个关键词,查找到符合所述范围限定信息所限定范围内的该关键词的一个或多个关联词之后,还包括:
将查找到的所述至少两个关键词中的不同关键词的关联词之间进行组合,以及将至少两个关键词中的部分关键词与查找到的其余关键词的关联词之间进行组合;
对于形成的每一个组合,确定该组合的适用范围;其中,若一个组合中包括关键词,则将所述范围限定信息所限定的范围与该组合中的每一个关联词的适用范围之间的交集,作为该组合的适用范围;若一个组合中不包括关键词,则将该组合中的每一个关联词的适用范围之间的交集,作为该组合的适用范围;
向所述客户端发送一个或多个具有非空适用范围的组合,并对发送的每一个组合,发送该组合的适用范围的信息。
7.如权利要求4~6任一项所述的方法,其特征在于,获取每一个关联词的适用范围的信息之前,还包括:
从文本中获取一个关联词;
判断所述文本中是否包括用于描述该关联词的适用范围的词语;
若包括,则将用于描述该关联词的适用范围的词语,标记为该关联词的适用范围的信息。
8.如权利要求1~7任一项所述的方法,其特征在于,获取所述范围限定信息,包括:
从所述查询请求中获取所述范围限定信息;或
若获取到一个关键词、且所述一个关键词的词义限定了信息搜索的范围,则生成用于描述所述一个关键词的词义所限定的信息搜索范围,作为所述范围限定信息;或
若获取到至少两个关键词、且所述至少两个关键词中的部分或全部关键词的词义限定了信息搜索的范围,则确定所述部分或全部关键词中的每一个关键词的词义所限定的信息搜索范围,并将确定的每一个关键词的词义所限定的信息搜索范围之间取交集,将所述交集作为所述范围限定信息。
9.如权利要求1~8任一项所述的方法,其特征在于,获取所述查询请求,包括:从客户端获取所述查询请求;
在得到位于所述范围限定信息所限定范围内的信息搜索结果之后,还包括:
向所述客户端发送得到的信息搜索结果,并对信息搜索结果中的每一个条目,发送所述范围限定信息。
10.一种信息获取方法,其特征在于,包括:
从文本中获取一个关键词的一个或多个关联词,所述关联词包括同义词和/或近义词;
对于获取的每一个关联词,在所述文本中查找用于描述该关联词的适用范围的词语;
将查找到的词语,标记为该关联词的适用范围的信息。
11.如权利要求10述的方法,其特征在于,在从文本中获取一个关键词的一个或多个关联词之前,还包括:
从所述文本中找到所述关键词;
从所述文本中找到所述关键词的关联词标记符,所述关联词标记符用于标记所述关键词的关联词与所述关键词的关联关系;
确定所述关联词标记符在所述文本中的匹配范围,所述匹配范围用于标记所述关联词在所述文本中可能出现的位置范围;
从文本中获取一个关键词的一个或多个关联词,包括:
从所述匹配范围内获取所述一个或多个关联词。
12.一种信息搜索装置,其特征在于,包括:
查询请求获取模块,用于获取用于信息搜索的查询请求;
关键词获取模块,用于从所述查询请求中获取至少一个关键词;
范围限定信息获取模块,用于获取范围限定信息,所述范围限定信息用于限定信息搜索的范围;
关联词查找模块,用于对于所述至少一个关键词中的每一个关键词,查找符合所述范围限定信息所限定范围内的该关键词的一个或多个关联词,所述关联词包括同义词和/或近义词;
搜索模块,用于按照所述关联词查找模块查找到的每一个关键词的所述一个或多个关联词进行信息搜索,得到位于所述范围限定信息所限定范围内的信息搜索结果。
13.如权利要求12所述的装置,其特征在于,所述搜索模块具体用于:在所述关键词获取模块获取到一个关键词时,
按照所述关联词查找模块查找到的所述一个关键词的所述一个或多个关联词进行信息搜索;或
按照所述关联词查找模块查找到的所述一个关键词的所述一个或多个关联词,以及所述关键词获取模块获取到的所述一个关键词进行信息搜索。
14.如权利要求12所述的装置,其特征在于,
所述装置还包括:词语组合模块,用于在所述关键词获取模块获取到至少两个关键词时,在所述关联词查找模块对于所述至少两个关键词中的每一个关键词,查找到符合所述范围限定信息所限定范围内的该关键词的一个或多个关联词之后,在所述搜索模块按照所述关联词查找模块查找到的每一个关键词的所述一个或多个关联词进行信息搜索之前,将所述关联词查找模块查找到的所述至少两个关键词中的不同关键词的关联词之间进行组合,以及将至少两个关键词中的部分关键词与查找到的其余关键词的关联词之间进行组合;
所述搜索模块具体用于:在所述关键词获取模块获取到至少两个关键词时,
按照所述词语组合模块形成的每一个组合进行信息搜索;或
按照所述至少两个关键词,以及所述词语组合模块形成的每一个组合进行信息搜索。
15.如权利要求12~14任一项所述的装置,其特征在于,所述关联词查找模块具体用于:
对于所述至少一个关键词中的每一个关键词,查找该关键词的所有关联词;
对于查找到的每一个关联词,获取该关联词的适用范围的信息;
将所述适用范围与所述范围限定信息所限定范围之间有重叠的关联词,作为符合所述范围限定信息所限定范围内的该关键词的关联词。
16.如权利要求15所述的装置,其特征在于,
所述查询请求获取模块具体用于:从客户端获取所述查询请求;
所述装置还包括:关联词发送模块,用于:
在所述关键词获取模块获取到一个关键词时,在所述关联词查找模块查找到符合所述范围限定信息所限定范围内的所述一个关键词的一个或多个关联词之后,向所述客户端发送所述一个或多个关联词,并对发送的每一个关联词,发送该关联词的适用范围的信息。
17.如权利要求15所述的装置,其特征在于,
所述查询请求获取模块具体用于:从客户端获取所述查询请求;
所述装置还包括:关联词发送模块,用于:
在所述关键词获取模块获取到至少两个关键词时,在所述关联词查找模块对于所述至少两个关键词中的每一个关键词,查找到符合所述范围限定信息所限定范围内的该关键词的一个或多个关联词之后,将所述关联词查找模块查找到的所述至少两个关键词中的不同关键词的关联词之间进行组合,以及将至少两个关键词中的部分关键词与查找到的其余关键词的关联词之间进行组合;
对于形成的每一个组合,确定该组合的适用范围;
其中,若一个组合中包括关键词,则将所述范围限定信息所限定的范围与该组合中的每一个关联词的适用范围之间的交集,作为该组合的适用范围;
若一个组合中不包括关键词,则将该组合中的每一个关联词的适用范围之间的交集,作为该组合的适用范围;
向所述客户端发送一个或多个具有非空适用范围的组合,并对发送的每一个组合,发送该组合的适用范围的信息。
18.如权利要求15~17任一项所述的装置,其特征在于,所述装置还包括:适用范围信息标记模块,用于在所述关联词查找模块获取每一个关联词的适用范围的信息之前,
从文本中获取一个关联词;
判断所述文本中是否包括用于描述该关联词的适用范围的词语;
若包括,则将用于描述该关联词的适用范围的词语,标记为该关联词的适用范围的信息。
19.如权利要求12~18任一项所述的装置,其特征在于,所述范围限定信息获取模块具体用于:
从所述查询请求中获取所述范围限定信息;或
若所述关键词获取模块获取到一个关键词、且所述一个关键词的词义限定了信息搜索的范围,则生成用于描述所述一个关键词的词义所限定的信息搜索范围,作为所述范围限定信息;或
若所述关键词获取模块获取到至少两个关键词、且所述至少两个关键词中的部分或全部关键词的词义限定了信息搜索的范围,则确定所述部分或全部关键词中的每一个关键词的词义所限定的信息搜索范围,并将确定的每一个关键词的词义所限定的信息搜索范围之间取交集,将所述交集作为所述范围限定信息。
20.如权利要求12~19任一项所述的装置,其特征在于,所述查询请求获取模块具体用于:从客户端获取所述查询请求;
所述装置还包括:搜索结果发送模块,用于在所述搜索模块得到位于所述范围限定信息所限定范围内的信息搜索结果之后,向所述客户端发送得到的信息搜索结果,并对信息搜索结果中的每一个条目,发送所述范围限定信息。
21.一种信息获取装置,其特征在于,包括:
关联词获取模块,用于从文本中获取一个关键词的一个或多个关联词,所述关联词包括同义词和/或近义词;
词语查找模块,用于对于所述关联词模块获取的每一个关联词,在所述文本中查找用于描述该关联词的适用范围的词语;
范围标记模块,用于将所述词语查找模块查找到的词语,标记为该关联词的适用范围的信息。
22.如权利要求21所述的装置,其特征在于,所述装置还包括:
关键词查找模块,用于在所述关联词获取模块获取所述关键词的一个或多个关联词之前,从所述文本中找到所述关键词;
关联词标记符查找模块,用于从所述文本中找到所述关键词的关联词标记符,所述关联词标记符用于标记所述关键词的关联词与所述关键词的关联关系;
匹配范围确定模块,用于确定所述关联词标记符在所述文本中的匹配范围,所述匹配范围用于标记所述关联词在所述文本中可能出现的位置范围;
所述范围标记模块具体用于:
从所述匹配范围内获取所述一个或多个关联词。
CN201610179888.9A 2016-03-25 2016-03-25 一种信息搜索方法及装置 Active CN107229659B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610179888.9A CN107229659B (zh) 2016-03-25 2016-03-25 一种信息搜索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610179888.9A CN107229659B (zh) 2016-03-25 2016-03-25 一种信息搜索方法及装置

Publications (2)

Publication Number Publication Date
CN107229659A true CN107229659A (zh) 2017-10-03
CN107229659B CN107229659B (zh) 2021-06-22

Family

ID=59931969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610179888.9A Active CN107229659B (zh) 2016-03-25 2016-03-25 一种信息搜索方法及装置

Country Status (1)

Country Link
CN (1) CN107229659B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446345A (zh) * 2018-03-07 2018-08-24 维沃移动通信有限公司 一种数据查找方法及移动终端
CN109684633A (zh) * 2018-12-14 2019-04-26 北京百度网讯科技有限公司 搜索处理方法、装置、设备及存储介质
CN110941609A (zh) * 2019-10-12 2020-03-31 贝壳技术有限公司 多维度搜索方法及***
CN111241126A (zh) * 2020-01-16 2020-06-05 联想(北京)有限公司 一种数据查找方法及装置、查询的交互方法
CN112464081A (zh) * 2020-09-08 2021-03-09 广东省华南技术转移中心有限公司 项目信息匹配方法、装置以及存储介质
CN112596646A (zh) * 2020-12-21 2021-04-02 维沃移动通信有限公司 信息显示方法、装置及电子设备
CN112650839A (zh) * 2021-01-12 2021-04-13 深圳市鹰硕技术有限公司 检索信息优化方法以及装置
CN112825088A (zh) * 2019-11-21 2021-05-21 阿里巴巴集团控股有限公司 信息展示方法、装置、设备及存储介质
CN113743981A (zh) * 2021-08-03 2021-12-03 深圳市东信时代信息技术有限公司 素材投放成本预测方法、装置、计算机设备及存储介质
CN114697748A (zh) * 2020-12-25 2022-07-01 深圳Tcl新技术有限公司 一种基于语音识别的视频推荐方法和计算机设备
WO2022262621A1 (zh) * 2021-06-17 2022-12-22 华为技术有限公司 信息点搜索的方法和装置
CN117112736A (zh) * 2023-10-24 2023-11-24 云南瀚文科技有限公司 一种基于语义分析模型的信息检索分析方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09231227A (ja) * 1996-02-20 1997-09-05 Inter Group:Kk 情報検索装置およびその情報検索方法
CN101888503A (zh) * 2010-06-12 2010-11-17 中山大学 一种数字电视节目的分类检索方法
CN103123632A (zh) * 2011-11-21 2013-05-29 阿里巴巴集团控股有限公司 搜索中心词确定方法及装置、搜索方法及搜索设备
CN103353894A (zh) * 2013-07-19 2013-10-16 武汉睿数信息技术有限公司 一种基于语义分析的数据搜索方法和***
CN104268175A (zh) * 2014-09-15 2015-01-07 乐视网信息技术(北京)股份有限公司 一种数据搜索的装置及其方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09231227A (ja) * 1996-02-20 1997-09-05 Inter Group:Kk 情報検索装置およびその情報検索方法
CN101888503A (zh) * 2010-06-12 2010-11-17 中山大学 一种数字电视节目的分类检索方法
CN103123632A (zh) * 2011-11-21 2013-05-29 阿里巴巴集团控股有限公司 搜索中心词确定方法及装置、搜索方法及搜索设备
CN103353894A (zh) * 2013-07-19 2013-10-16 武汉睿数信息技术有限公司 一种基于语义分析的数据搜索方法和***
CN104268175A (zh) * 2014-09-15 2015-01-07 乐视网信息技术(北京)股份有限公司 一种数据搜索的装置及其方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王屾: ""基于Lucene的同义词扩展检索的研究与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446345A (zh) * 2018-03-07 2018-08-24 维沃移动通信有限公司 一种数据查找方法及移动终端
CN109684633A (zh) * 2018-12-14 2019-04-26 北京百度网讯科技有限公司 搜索处理方法、装置、设备及存储介质
CN109684633B (zh) * 2018-12-14 2023-05-16 北京百度网讯科技有限公司 搜索处理方法、装置、设备及存储介质
CN110941609A (zh) * 2019-10-12 2020-03-31 贝壳技术有限公司 多维度搜索方法及***
CN110941609B (zh) * 2019-10-12 2023-10-20 贝壳找房(北京)科技有限公司 多维度搜索方法及***
CN112825088A (zh) * 2019-11-21 2021-05-21 阿里巴巴集团控股有限公司 信息展示方法、装置、设备及存储介质
CN111241126A (zh) * 2020-01-16 2020-06-05 联想(北京)有限公司 一种数据查找方法及装置、查询的交互方法
CN112464081A (zh) * 2020-09-08 2021-03-09 广东省华南技术转移中心有限公司 项目信息匹配方法、装置以及存储介质
CN112596646B (zh) * 2020-12-21 2022-05-20 维沃移动通信有限公司 信息显示方法、装置及电子设备
CN112596646A (zh) * 2020-12-21 2021-04-02 维沃移动通信有限公司 信息显示方法、装置及电子设备
CN114697748A (zh) * 2020-12-25 2022-07-01 深圳Tcl新技术有限公司 一种基于语音识别的视频推荐方法和计算机设备
CN114697748B (zh) * 2020-12-25 2024-05-03 深圳Tcl新技术有限公司 一种基于语音识别的视频推荐方法和计算机设备
CN112650839A (zh) * 2021-01-12 2021-04-13 深圳市鹰硕技术有限公司 检索信息优化方法以及装置
WO2022262621A1 (zh) * 2021-06-17 2022-12-22 华为技术有限公司 信息点搜索的方法和装置
CN113743981A (zh) * 2021-08-03 2021-12-03 深圳市东信时代信息技术有限公司 素材投放成本预测方法、装置、计算机设备及存储介质
CN113743981B (zh) * 2021-08-03 2023-11-28 深圳市东信时代信息技术有限公司 素材投放成本预测方法、装置、计算机设备及存储介质
CN117112736A (zh) * 2023-10-24 2023-11-24 云南瀚文科技有限公司 一种基于语义分析模型的信息检索分析方法及***
CN117112736B (zh) * 2023-10-24 2024-01-05 云南瀚文科技有限公司 一种基于语义分析模型的信息检索分析方法及***

Also Published As

Publication number Publication date
CN107229659B (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
CN107229659A (zh) 一种信息搜索方法及装置
CN110717049B (zh) 一种面向文本数据的威胁情报知识图谱构建方法
CN109710701B (zh) 一种用于公共安全领域大数据知识图谱的自动化构建方法
CN109857917B (zh) 面向威胁情报的安全知识图谱构建方法及***
CN104933113B (zh) 一种基于语义理解的表情输入方法和装置
CN105393263B (zh) 计算机‑人交互式学习中的特征完成
Chen Information visualization: Beyond the horizon
US8972440B2 (en) Method and process for semantic or faceted search over unstructured and annotated data
CN108268580A (zh) 基于知识图谱的问答方法及装置
CN113065003B (zh) 一种基于多指标的知识图谱生成方法
CN105528437B (zh) 一种基于结构化文本知识提取的问答***构建方法
CN102982117B (zh) 信息搜索方法和装置
CN109726274A (zh) 问题生成方法、装置及存储介质
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN106663117A (zh) 构造支持提供探索性建议的图
CN109582799A (zh) 知识样本数据集的确定方法、装置及电子设备
CN103617192B (zh) 一种数据对象的聚类方法和装置
CN104331438B (zh) 对小说网页内容选择性抽取方法和装置
CN107784014A (zh) 信息搜索方法、设备及电子设备
CN110309432A (zh) 基于兴趣点的同义词确定方法、地图兴趣点处理方法
CN109857952A (zh) 一种具有分类显示的搜索引擎及快速检索方法
CN113190593A (zh) 一种基于数字人文知识图谱的搜索推荐方法
CN106776640A (zh) 一种股票资讯信息展示方法和装置
Castellani Ribeiro et al. An urban data profiler
CN105653546A (zh) 一种目标主题的检索方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200201

Address after: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Applicant after: HUAWEI TECHNOLOGIES Co.,Ltd.

Address before: 210012 HUAWEI Nanjing base, 101 software Avenue, Yuhuatai District, Jiangsu, Nanjing

Applicant before: Huawei Technologies Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant