CN107943893A - 一种基于互联网的搜索处理方法及装置 - Google Patents

一种基于互联网的搜索处理方法及装置 Download PDF

Info

Publication number
CN107943893A
CN107943893A CN201711138671.4A CN201711138671A CN107943893A CN 107943893 A CN107943893 A CN 107943893A CN 201711138671 A CN201711138671 A CN 201711138671A CN 107943893 A CN107943893 A CN 107943893A
Authority
CN
China
Prior art keywords
document
index
file
storehouse
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711138671.4A
Other languages
English (en)
Inventor
王务志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qianxin Technology Co Ltd
Original Assignee
Beijing Qianxin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qianxin Technology Co Ltd filed Critical Beijing Qianxin Technology Co Ltd
Priority to CN201711138671.4A priority Critical patent/CN107943893A/zh
Publication of CN107943893A publication Critical patent/CN107943893A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种基于互联网的搜索处理方法及装置。所述方法包括:获取用户终端发送包括搜索关键词的搜索请求;根据搜索关键词与网页索引库中的网页索引词和文档索引库中的文档索引词进行匹配;获取匹配成功的目标网页索引词对应的第一目标索引信息和目标文档索引词对应的第二目标索引信息,并将第一目标索引信息和第二目标索引信息发送至所述用户终端。所述装置用于执行所述方法。本发明通过根据搜索关键词与网页索引库和文档索引库进行索引词获取索引信息,通过文档索引库能够获取到网页中链接地址和压缩文件中对应的文档,不需要用户再次点击链接地址进行下载或解压缩等操作,在提高了搜索的便捷性的同时,拓展了搜索的广度和深度。

Description

一种基于互联网的搜索处理方法及装置
技术领域
本发明实施例涉及计算机网络技术领域,尤其涉及一种基于互联网的搜索处理方法及装置。
背景技术
搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给用户进行查询的***。因特网上的信息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为用户绘制一幅一目了然的信息地图,供用户随时查阅。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
现有的搜索引擎,能够按网站域名,对该网站的静态或动态网页文件进行索引、存档、调用及阅展等操作处理。且各个搜索引擎能够实现网页、图片、声音、视频、文件的搜索。以百度文库为例,由于文库的文档依赖与用户的主动上传,在存放后才能供其他用户查看,用户不上传则没有这些文件,在可搜索的范围、广度、深度上存在不足。另外,对于谷歌等搜索引擎,其只能针对网页上的内容进行索引,假如,网页上存在链接,链接对应的内容是索引不到的,此时便需要用户先查到网页,再点击链接获取对应的内容,如果链接对应的是个压缩包,则需要用户再次进行解压缩等等操作,导致了需要用户经过一系列繁琐的操作才可以获取到想要的内容。
发明内容
针对现有技术存在的问题,本发明实施例提供一种基于互联网的搜索处理方法及装置。
第一方面,本发明实施例提供一种基于互联网的搜索处理方法,包括:
获取用户终端发送的搜索请求,所述搜索请求包括搜索关键词;
根据所述搜索关键词分别与网页索引库中的网页索引词和文档索引库中的文档索引词进行匹配,其中,所述文档索引库中的文档索引词是通过对互联网中的文档进行创建索引得到的;
获取匹配成功的目标网页索引词对应的第一目标索引信息和匹配成功的目标文档索引词对应的第二目标索引信息,并将所述第一目标索引信息和所述第二目标索引信息发送至所述用户终端。
第二方面,本发明实施例提供一种基于互联网的搜索处理装置,包括:
获取模块,用于获取用户终端发送的搜索请求,所述搜索请求包括搜索关键词;
索引模块,用于根据所述搜索关键词分别与网页索引库中的网页索引词和文档索引库中的文档索引词进行匹配,其中,所述文档索引库中的文档索引词是通过对互联网中的文档进行创建索引得到的;
发送模块,用于获取匹配成功的目标网页索引词对应的第一目标索引信息和匹配成功的目标文档索引词对应的第二目标索引信息,并将所述第一目标索引信息和所述第二目标索引信息发送至所述用户终端。
第三方面,本发明实施例提供一种电子设备,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行第一方面的方法步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,包括:
所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一方面的方法步骤。
本发明实施例提供的一种基于互联网的搜索处理方法及装置,通过根据搜索关键词与网页索引库和文档索引库进行索引词匹配,获取匹配成功的第一目标索引信息和第二目标索引信息,且文档索引库中包括了互联网中文档的文档索引词,因此,通过文档索引库能够获取到网页中链接地址和压缩文件中对应的文档,不需要用户再次点击链接地址进行下载或解压缩等操作,在提高了搜索的便捷性的同时,拓展了搜索的广度和深度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于互联网的搜索处理方法流程示意图;
图2为本发明实施例提供的一种基于互联网的搜索处理装置结构示意图;
图3为本发明实施例提供的电子设备实体结构实体图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种基于互联网的搜索处理方法流程示意图,如图1所述,所述方法,包括:
步骤101:获取用户终端发送的搜索请求,所述搜索请求包括搜索关键词;
具体的,用户可以在搜索输入框中输入搜索请求,输入完成后点击搜索,即向搜索处理装置发送该搜索请求,此时,搜索处理装置可获取到用户通过用户终端发送的搜索请求,可以理解的是,该搜索请求中包括了用户想要搜索内容的搜索关键词,且搜索关键词可以为一个词,也可以为一个短语,还可以是由多个词构成的逻辑表达式等等。
步骤102:根据所述搜索关键词分别与网页索引库中的网页索引词和文档索引库中的文档索引词进行匹配,其中,所述文档索引库中的文档索引词是通过对互联网中的文档进行创建索引得到的;
具体的,网页索引库中包括了互联网每一个网页中的网页索引词,文档索引库中包括了互联网公开的每一个文档对应的文档索引词,将获取到的搜索请求中的搜索关键词与网页索引库中的网页索引词和文档索引库中的文档搜索词进行匹配。应当说明的是,互联网公开的文档是一个海量的内容库,但是互联网中的文档并不是全部存在网页中的,因此,需要对互联网中的文档进行深度挖掘,并对这些文档进行创建索引,构建文档索引库。
步骤103:获取匹配成功的目标网页索引词对应的第一目标索引信息和匹配成功的目标文档索引词对应的第二目标索引信息,并将所述第一目标索引信息和所述第二目标索引信息发送至所述用户终端。
具体的,在网页索引库中除了包括网页索引词之外,还包括了每一网页索引词对应的第一索引信息,网页索引词对应的第一索引信息可以包括网页索引词对应的网页位置,以及在该网页出现的次数等。同样的,在文档索引库中除了包括文档索引词之外,还包括了每一文档索引词对应的第二索引信息,文档索引词对应的第二索引信息可以包括该文档索引词出现的文档位置,以及在该文档中出现的次数等。搜索处理装置获取与搜索关键词匹配成功目标网页索引词对应的第一目标索引信息和目标文档索引词对应的第二目标索引信息,并将上述获得的第一目标索引信息和第二目标索引信息以一定的规则发送至用户终端,并以一定的规则在用户终端显示,当用户点击某一第一目标索引信息或第二目标索引信息时,可以显示该第一目标索引信息或第二目标索引信息中的全部内容。可以理解的是,在用户终端显示时,可以根据该第一目标索引信息或第二目标索引信息被访问的次数进行排序显示,也可以根据索引信息在互联网上的公开时间进行排序显示等。
本发明实施例通过根据搜索关键词与网页索引库和文档索引库进行索引词匹配,获取匹配成功的第一目标索引信息和第二目标索引信息,且文档索引库中包括了互联网中文档的文档索引词,因此,通过文档索引库能够获取到网页中链接地址和压缩文件中对应的文档,不需要用户再次点击链接地址进行下载或解压缩等操作,在提高了搜索的便捷性的同时,拓展了搜索的广度和深度。
在上述实施例的基础上,所述方法,还包括:
预先创建所述网页索引库和所述文档索引库,所述网页索引库包括所述网页索引词和所述网页索引词对应的第一索引信息,所述文档索引库中包括所述文档索引词和所述文档索引词对应的第二索引信息。
具体的,互联网公开的文档是一个海量的内容库,需要搜索处理装置对这些可被阅读的文档创建索引,并将文档索引词编入文档索引库中。这是由于,现有的针对互联网的索引只有对网页内容的网页索引库,并没有针对通过在网页上的隐藏在链接地址或压缩文件中的文档的索引,因此,在为用户搜索文档之前,需要预先创建文档索引库。又由于还需要为用户搜索相关的网页,所以还需要预先创建网页索引库,应当说明的是,网页索引库可以直接获取现有的,也可以不需要再次创建。网页索引库包括网页索引词和网页索引词对应的第一索引信息,其中,网页索引词是对网页中的内容进行关键词提取得到的,网页索引词对应的第一索引信息可以为网页的地址或网页全文;文档索引库中包括文档索引词和文档索引词对应的第二索引信息,同样的,文档索引词是对文档中的内容进行关键词提取得到的,且文档索引词对应的第二索引信息可以为文档的地址或文档全文。
本发明实施例通过预先创建网页索引库和文档索引库,使得在进行搜索时可以同时搜索网页中的内容还可以搜索出以连接或者压缩包的形式隐藏在网页中的文档,从而避免了用户在搜索到网页后,在通过点击链接或者解压缩包等操作来获取到文档,使其操作更加简便。
在上述实施例的基础上,所述预先创建所述文档索引库,包括:
获取并解析待索引网页,若判断获知所述待索引网页中包括链接地址,则根据所述链接地址下载对应的文件;
根据所述文件的文件头和/或文件后缀获得所述文件的文件类型;
根据所述文件类型若判断获知所述文件为可被索引的第一文档,且所述第一文档未被索引,则对所述第一文档进行创建索引,并将所述第一文档对应的第一文档索引词存储在所述文档索引库中。
具体的,在创建文档索引库时,互联网中有很多的网页,因此,需要对每一个网页进行解析,判断该网页中是否包括链接地址。首先,获取一个待索引网页,并对该待索引网页进行解析,通过解析如果判断得知该待索引网页中包括连接地址,则获取该链接地址,并下载该链接地址中的文件。可以获取该文件的文件头和/或文件后缀,一般情况下,文件后缀可以体现文件的文件类型,但是,不排除用户刻意将文件后缀进行修改,例如,一个.doc的文档,用户将其后缀修改为.ppt后,如果只根据文件后缀来识别,则可能会出现识别错误。一个文件的文件头能够体现该文件的文件类型,但是,txt文件没有文件头,因此需要通过其后缀来进行识别。根据文件的文件类型可以判断得出该文件是否可被索引的第一文档,应当说明的是,预先设定了哪些文件类型是可被索引的第一文档,通过将文件类型与预先设定的可被索引的第一文档的文件类型进行匹配,如果匹配成功,则说明该文件为可被索引的第一文档,如果该第一文档没有在文档索引库中,说明该第一文档为未被索引,此时,应当对该第一文档进行创建索引,并将该第一文档对应的第一文档索引词存储在文档索引库中,应当说明的是,除了将第一文档索引词存储在文档索引库之外,还需要将第一文档的索引信息存储到文档索引库中。应当说明的是,已经经过创建索引并存储在文档索引库的文档属于已经被索引的文档,没有在文档索引库的文档属于未被索引的文档。
本发明实施例通过将以链接地址的形式隐藏在网页中的文档进行创建索引,从而使得搜索处理装置在文档索引库中获取到该文档,拓展了搜索的广度和深度,且不需要用户手动点击链接地址下载该文档,为用户的文档搜索提供了便利。
在上述实施例的基础上,所述预先创建所述文档索引库,还包括:
若根据所述文件类型判断获知所述文件为压缩文件,则对所述压缩文件进行解压缩,获得解压缩的文件夹;
若判断获知所述解压缩的文件夹中包含可被索引的第二文档,且所述第二文档未被索引,则对所述第二文档进行创建索引,并将所述第二文档对应的第二文档索引词存储在所述文档索引库中。
具体的,在下载了链接地址中的文件后,根据该文件的文件头和/或文件后缀判断得知该文件为压缩文件,则需要对该压缩文件进行解压缩,得到解压缩的文件夹,可以理解的是,解压缩的文件夹中包括了至少一个文件,因此,对解压缩的文件夹中的每个文件进行识别,仍然是获取每个文件的文件类型,并判断每个文件是否为可被索引的第二文档,如果解压缩的文件夹中某个文件为可被索引的第二文档,则对该第二文档进行创建索引,将该第二文件对应的第二文档索引词存储到文档索引库中,应当说明的是,除了将第二文档索引词存储在文档索引库之外,还需要将第二文档的索引信息存储到文档索引库中。另外,如果对该第二文档进行解析时,发现该文档中包含链接地址,则仍然需要下载该链接地址中的文件,并对该文件进行如上述实施例的操作,本发明实施例对此不再赘述。
应当说明的是,第一文档和第二文档对应的文件类型均包括doc、docx、ppt、pptx、xls、xlsx、html、web、txt、pdf和eml中的任意一项或其组合。且还可以包括其他文件类型,本发明实施例对此不做具体限定。
本发明实施例通过将以压缩文件的形式隐藏的文件进行解析,判断其为可被索引但未被索引的第二文档后,对该第二文档进行创建索引,从而使得搜索处理装置在文档索引库中获取到该文档,拓展了搜索的广度和深度,且不需要用户手动点击链接地址下载该文档,为用户的文档搜索提供了便利。
例如:用户在搜索输入框中输入关键词:蒸汽状态的杂质,并点击搜索,此时搜索处理装置接收到关键词为蒸汽状态的杂质的搜索请求,假如通过现有的搜索引擎进行搜索时,只能够将互联网中的网页页面内容中以该关键词为索引的搜索出来,但是如果搜索出来的网页中包括链接地址,且该链接地址中包括与该关键词相关的文档,此时,现有的搜索引擎将搜索不到该文档。本发明实施例提供的搜索处理装置根据该关键词分别从网页索引库和文档索引库中进行搜索,由于搜索处理装置已经将该网页中包括的链接地址对应文档的文档索引词存入到文档索引库中,因此可以搜索到该文档。将从网页索引库和文档索引库中获取到的索引信息发送至用户终端,并进行显示。
本发明实施例通过根据搜索关键词与网页索引库和文档索引库进行索引词匹配,获取匹配成功的索引信息,且文档索引库中包括了互联网中文档的文档索引词,因此,通过文档索引库能够获取到网页中链接地址和压缩文件中对应的文档,不需要用户再次点击链接地址进行下载或解压缩等操作,在提高了搜索的便捷性的同时,拓展了搜索的广度和深度。
图2为本发明实施例提供的一种基于互联网的搜索处理装置结构示意图,如图2所示,所述装置包括:获取模块201、索引模块202和发送模块203,其中:
获取模块201用于获取用户终端发送的搜索请求,所述搜索请求包括搜索关键词;索引模块202用于根据所述搜索关键词分别与网页索引库中的网页索引词和文档索引库中的文档索引词进行匹配,其中,所述文档索引库中的文档索引词是通过对互联网中的文档进行创建索引得到的;发送模块203用于获取匹配成功的目标网页索引词对应的第一目标索引信息和匹配成功的目标文档索引词对应的第一目标索引信息,并将所述第一目标索引信息和所述第二目标索引信息发送至所述用户终端。
具体的,用户可以在搜索输入框中输入搜索请求,输入完成后点击搜索,即向搜索处理装置发送该搜索请求,此时,获取模块201可获取到用户通过用户终端发送的搜索请求,可以理解的是,该搜索请求中包括了用户想要搜索内容的搜索关键词,且搜索关键词可以为一个词,也可以为一个短语,还可以是由多个词构成的逻辑表达式等等。网页索引库中包括了互联网每一个网页中的网页索引词,文档索引库中包括了互联网公开的每一个文档对应的文档索引词,索引模块202将获取到的搜索请求中的搜索关键词与网页索引库中的网页索引词和文档索引库中的文档搜索词进行匹配。发送模块203获取与搜索关键词匹配成功目标网页索引词对应的第一目标索引信息和目标文档索引词对应的第二目标索引信息,并将上述获得的第一目标索引信息和第二目标索引信息以一定的规则发送至用户终端,并以一定的规则在用户终端显示,
本发明提供的装置的实施例具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
本发明实施例通过根据搜索关键词与网页索引库和文档索引库进行索引词匹配,获取匹配成功的第一目标索引信息和第二目标索引信息,且文档索引库中包括了互联网中文档的文档索引词,因此,通过文档索引库能够获取到网页中链接地址和压缩文件中对应的文档,不需要用户再次点击链接地址进行下载或解压缩等操作,在提高了搜索的便捷性的同时,拓展了搜索的广度和深度。
在上述实施例的基础上,所述装置,还包括:
索引库创建模块,用于预先创建所述网页索引库和所述文档索引库,所述网页索引库包括所述网页索引词和所述网页索引词对应的第一索引信息,所述文档索引库中包括所述文档索引词和所述文档索引词对应的第二索引信息。
具体的,互联网公开的文档是一个海量的内容库,需要搜索处理装置对这些可被阅读的文档创建索引,并将文档索引词编入文档索引库中。这是由于,现有的针对互联网的索引只有对网页内容的网页索引库,并没有针对通过在网页上的隐藏在链接地址或压缩文件中的文档的索引,因此,在为用户搜索文档之前,需要索引库创建模块预先创建文档索引库。又由于还需要为用户搜索相关的网页,所以还需要预先创建网页索引库,应当说明的是,网页索引库可以直接获取现有的,也可以不需要再次创建。网页索引库包括网页索引词和网页索引词对应的第一索引信息,其中,网页索引词是对网页中的内容进行关键词提取得到的,网页索引词对应的第一索引信息可以为网页的地址,或网页全文;文档索引库中包括文档索引词和文档索引词对应的第二索引信息,同样的,文档索引词是对文档中的内容进行关键词提取得到的,且文档索引词对应的第二索引信息可以为文档的地址或文档全文。
本发明实施例通过索引库创建模块预先创建网页索引库和文档索引库,使得在进行搜索时可以同时搜索网页中的内容还可以搜索出以连接或者压缩包的形式隐藏在网页中的文档,从而避免了用户在搜索到网页后,在通过点击链接或者解压缩包等操作来获取到文档,使其操作更加简便。
在上述实施例的基础上,所述索引库创建模块,具体用于:
获取并解析待索引网页,若判断获知所述待索引网页中包括链接地址,则根据所述链接地址下载对应的文件;
根据所述文件的文件头和/或文件后缀获得所述文件的文件类型;
根据所述文件类型若判断获知所述文件为可被索引的第一文档,且所述第一文档未被索引,则对所述第一文档进行创建索引,并将所述第一文档对应的第一文档索引词存储在所述文档索引库中。
具体的,索引库创建模块获取一个待索引网页,并对该待索引网页进行解析,通过解析如果判断得知该待索引网页中包括连接地址,则获取该链接地址,并下载该链接地址中的文件。根据所述文件的文件头/或文件后缀获得所述文件的文件类型,通过将文件类型与预先设定的可被索引的第一文档的文件类型进行匹配,如果匹配成功,则说明该文件为可被索引的第一文档,如果该第一文档没有在文档索引库中,说明该第一文档为未被索引,此时,应当对该第一文档进行创建索引,并将该第一文档对应的第一文档索引词存储在文档索引库中,在创建索引时,需要用到去重、比对、识图、ORC文字识别等方法,去重保证在文档索引库中的文档不重复,ORC文字识别用于针对pdf格式的文件。
本发明实施例通过将以链接地址的形式隐藏在网页中的文档进行创建索引,从而使得搜索处理装置在文档索引库中获取到该文档,通过自动处理互联网的文档流程,包括去重、比对、视图、OCR文字识别来创建索引,拓展了搜索的广度和深度,且不需要用户手动点击链接地址下载该文档,为用户的文档搜索提供了便利。
在上述实施例的基础上,所述索引库创建模块,还用于:
若根据所述文件类型判断获知所述文件为压缩文件,则对所述压缩文件进行解压缩,获得解压缩的文件夹;
若判断获知所述解压缩的文件夹中包含可被索引的第二文档,且所述第二文档未被索引,则对所述第二文档进行创建索引,并将所述第二文档对应的第二文档索引词存储在所述文档索引库中。
具体的,在下载了链接地址中的文件后,根据该文件的文件头和/或文件后缀判断得知该文件为压缩文件,则需要对该压缩文件进行解压缩,得到解压缩的文件夹,索引库创建模块对解压缩的文件夹中的每个文件进行识别,仍然是获取每个文件的文件类型,并判断每个文件是否为可被索引的第二文档,如果解压缩的文件夹中某个文件为可被索引的第二文档,则对该第二文档进行创建索引,将该第二文件对应的第二文档索引词存储到文档索引库中。
本发明实施例通过将以压缩文件的形式隐藏的文件进行解析,判断其为可被索引但未被索引的第二文档后,对该第二文档进行创建索引,从而使得搜索处理装置在文档索引库中获取到该文档,通过自动处理互联网的网站丧可被下载的URL,比如下载、解压缩、存档、分类等,拓展了搜索的广度和深度,且不需要用户手动点击链接地址下载该文档,为用户的文档搜索提供了便利。
在上述实施例的基础上,所述可被索引的第一文档对应的文件类型和所述可被索引的第二文档对应的文档类型均包括:doc、docx、ppt、pptx、xls、xlsx、html、web、txt、pdf和eml中的任意一项或其组合。
本发明提供的装置的实施例具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
本发明实施例通过根据搜索关键词与网页索引库和文档索引库进行索引词匹配,获取匹配成功的索引信息,且文档索引库中包括了互联网中文档的文档索引词,因此,通过文档索引库能够获取到网页中链接地址和压缩文件中对应的文档,不需要用户再次点击链接地址进行下载或解压缩等操作,在提高了搜索的便捷性的同时,拓展了搜索的广度和深度。
图3为本发明实施例提供的电子设备实体结构实体图,如图3所示,所述电子设备,包括:处理器(processor)301、存储器(memory)302和总线303;其中,
所述处理器301和存储器302通过所述总线303完成相互间的通信;
所述处理器301用于调用所述存储器302中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:获取用户终端发送的搜索请求,所述搜索请求包括搜索关键词;根据所述搜索关键词分别与网页索引库中的网页索引词和文档索引库中的文档索引词进行匹配,其中,所述文档索引库中的文档索引词是通过对互联网中的文档进行创建索引得到的;获取匹配成功的目标网页索引词对应的第一目标索引信息和匹配成功的目标文档索引词对应的第二目标索引信息,并将所述第一目标索引信息和所述第二目标索引信息发送至所述用户终端。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取用户终端发送的搜索请求,所述搜索请求包括搜索关键词;根据所述搜索关键词分别与网页索引库中的网页索引词和文档索引库中的文档索引词进行匹配,其中,所述文档索引库中的文档索引词是通过对互联网中的文档进行创建索引得到的;获取匹配成功的目标网页索引词对应的第一目标索引信息和匹配成功的目标文档索引词对应的第二目标索引信息,并将所述第一目标索引信息和所述第二目标索引信息发送至所述用户终端。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取用户终端发送的搜索请求,所述搜索请求包括搜索关键词;根据所述搜索关键词分别与网页索引库中的网页索引词和文档索引库中的文档索引词进行匹配,其中,所述文档索引库中的文档索引词是通过对互联网中的文档进行创建索引得到的;获取匹配成功的目标网页索引词对应的第一目标索引信息和匹配成功的目标文档索引词对应的第二目标索引信息,并将所述第一目标索引信息和所述第二目标索引信息发送至所述用户终端。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (12)

1.一种基于互联网的搜索处理方法,其特征在于,包括:
获取用户终端发送的搜索请求,所述搜索请求包括搜索关键词;
根据所述搜索关键词分别与网页索引库中的网页索引词和文档索引库中的文档索引词进行匹配,其中,所述文档索引库中的文档索引词是通过对互联网中的文档进行创建索引得到的;
获取匹配成功的目标网页索引词对应的第一目标索引信息和匹配成功的目标文档索引词对应的第二目标索引信息,并将所述第一目标索引信息和所述第二目标索引信息发送至所述用户终端。
2.根据权利要求1所述的方法,其特征在于,所述方法,还包括:
预先创建所述网页索引库和所述文档索引库,所述网页索引库包括所述网页索引词和所述网页索引词对应的第一索引信息,所述文档索引库中包括所述文档索引词和所述文档索引词对应的第二索引信息。
3.根据权利要求2所述的方法,其特征在于,所述预先创建所述文档索引库,包括:
获取并解析待索引网页,若判断获知所述待索引网页中包括链接地址,则根据所述链接地址下载对应的文件;
根据所述文件的文件头和/或文件后缀获得所述文件的文件类型;
若根据所述文件类型判断获知所述文件为可被索引的第一文档,且所述第一文档未被索引,则对所述第一文档进行创建索引,并将所述第一文档对应的第一文档索引词存储在所述文档索引库中。
4.根据权利要求3所述的方法,其特征在于,所述预先创建所述文档索引库,还包括:
根据所述文件类型若判断获知所述文件为压缩文件,则对所述压缩文件进行解压缩,获得解压缩的文件夹;
若判断获知所述解压缩的文件夹中包含可被索引的第二文档,且所述第二文档未被索引,则对所述第二文档进行创建索引,并将所述第二文档对应的第二文档索引词存储在所述文档索引库中。
5.根据权利要求3或4所述的方法,其特征在于,所述可被索引的第一文档对应的文件类型和所述可被索引的第二文档对应的文档类型均包括:doc、docx、ppt、pptx、xls、xlsx、html、web、txt、pdf和eml中的任意一项或其组合。
6.一种基于互联网的搜索处理装置,其特征在于,包括:
获取模块,用于获取用户终端发送的搜索请求,所述搜索请求包括搜索关键词;
索引模块,用于根据所述搜索关键词分别与网页索引库中的网页索引词和文档索引库中的文档索引词进行匹配,其中,所述文档索引库中的文档索引词是通过对互联网中的文档进行创建索引得到的;
发送模块,用于获取匹配成功的目标网页索引词对应的第一目标索引信息和匹配成功的目标文档索引词对应的第二目标索引信息,并将所述第一目标索引信息和所述第二目标索引信息发送至所述用户终端。
7.根据权利要求6所述的装置,其特征在于,所述装置,还包括:
索引库创建模块,用于预先创建所述网页索引库和所述文档索引库,所述网页索引库包括所述网页索引词和所述网页索引词对应的第一索引信息,所述文档索引库中包括所述文档索引词和所述文档索引词对应的第二索引信息。
8.根据权利要求7所述的装置,其特征在于,所述索引库创建模块,具体用于:
获取并解析待索引网页,若判断获知所述待索引网页中包括链接地址,则根据所述链接地址下载对应的文件;
根据所述文件的文件头和/或文件后缀获得所述文件的文件类型;
根据所述文件类型若判断获知所述文件为可被索引的第一文档,且所述第一文档未被索引,则对所述第一文档进行创建索引,并将所述第一文档对应的第一文档索引词存储在所述文档索引库中。
9.根据权利要求8所述的装置,其特征在于,所述索引库创建模块,还用于:
若根据所述文件类型判断获知所述文件为压缩文件,则对所述压缩文件进行解压缩,获得解压缩的文件夹;
若判断获知所述解压缩的文件夹中包含可被索引的第二文档,且所述第二文档未被索引,则对所述第二文档进行创建索引,并将所述第二文档对应的第二文档索引词存储在所述文档索引库中。
10.根据权利要求8或9所述的装置,其特征在于,所述可被索引的第一文档对应的文件类型和所述可被索引的第二文档对应的文档类型均包括:doc、docx、ppt、pptx、xls、xlsx、html、web、txt、pdf和eml中的任意一项或其组合。
11.一种电子设备,其特征在于,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1-5任一项所述的方法。
12.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1-5任一项所述的方法。
CN201711138671.4A 2017-11-16 2017-11-16 一种基于互联网的搜索处理方法及装置 Pending CN107943893A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711138671.4A CN107943893A (zh) 2017-11-16 2017-11-16 一种基于互联网的搜索处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711138671.4A CN107943893A (zh) 2017-11-16 2017-11-16 一种基于互联网的搜索处理方法及装置

Publications (1)

Publication Number Publication Date
CN107943893A true CN107943893A (zh) 2018-04-20

Family

ID=61932627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711138671.4A Pending CN107943893A (zh) 2017-11-16 2017-11-16 一种基于互联网的搜索处理方法及装置

Country Status (1)

Country Link
CN (1) CN107943893A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299244A (zh) * 2018-11-15 2019-02-01 天津字节跳动科技有限公司 一种在线文档检索方法、装置、存储介质及电子设备
CN109885654A (zh) * 2019-02-01 2019-06-14 天津字节跳动科技有限公司 在线文档修改处理方法和装置
WO2020024903A1 (zh) * 2018-08-03 2020-02-06 上海点融信息科技有限责任公司 用于搜索区块链数据的方法、设备及计算机可读存储介质
CN111143582A (zh) * 2019-12-04 2020-05-12 青岛聚看云科技有限公司 一种双索引实时更新联想词的多媒体资源推荐方法及装置
CN111414339A (zh) * 2020-03-13 2020-07-14 浙江大华技术股份有限公司 一种文件的处理方法、***、装置、设备及介质
CN116701813A (zh) * 2023-08-04 2023-09-05 北控水务(中国)投资有限公司 一种数据检索方法、***、终端及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101097578A (zh) * 2007-06-07 2008-01-02 北京金山软件有限公司 一种网络资源检索方法及***
CN103530364A (zh) * 2013-10-12 2014-01-22 北京搜狗信息服务有限公司 提供下载链接的方法及***
CN104123366A (zh) * 2014-07-23 2014-10-29 谢建平 一种搜索方法及搜索服务器
CN104361094A (zh) * 2014-11-20 2015-02-18 北京奇虎科技有限公司 搜索结果中文件的保存方法、装置和浏览器客户端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101097578A (zh) * 2007-06-07 2008-01-02 北京金山软件有限公司 一种网络资源检索方法及***
CN103530364A (zh) * 2013-10-12 2014-01-22 北京搜狗信息服务有限公司 提供下载链接的方法及***
CN104123366A (zh) * 2014-07-23 2014-10-29 谢建平 一种搜索方法及搜索服务器
CN104361094A (zh) * 2014-11-20 2015-02-18 北京奇虎科技有限公司 搜索结果中文件的保存方法、装置和浏览器客户端

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020024903A1 (zh) * 2018-08-03 2020-02-06 上海点融信息科技有限责任公司 用于搜索区块链数据的方法、设备及计算机可读存储介质
CN109299244A (zh) * 2018-11-15 2019-02-01 天津字节跳动科技有限公司 一种在线文档检索方法、装置、存储介质及电子设备
CN109885654A (zh) * 2019-02-01 2019-06-14 天津字节跳动科技有限公司 在线文档修改处理方法和装置
CN111143582A (zh) * 2019-12-04 2020-05-12 青岛聚看云科技有限公司 一种双索引实时更新联想词的多媒体资源推荐方法及装置
CN111143582B (zh) * 2019-12-04 2023-09-22 青岛聚看云科技有限公司 一种双索引实时更新联想词的多媒体资源推荐方法及装置
CN111414339A (zh) * 2020-03-13 2020-07-14 浙江大华技术股份有限公司 一种文件的处理方法、***、装置、设备及介质
CN111414339B (zh) * 2020-03-13 2023-04-25 浙江大华技术股份有限公司 一种文件的处理方法、***、装置、设备及介质
CN116701813A (zh) * 2023-08-04 2023-09-05 北控水务(中国)投资有限公司 一种数据检索方法、***、终端及存储介质

Similar Documents

Publication Publication Date Title
CN107943893A (zh) 一种基于互联网的搜索处理方法及装置
Mitchell Web scraping with Python: Collecting more data from the modern web
US8924410B2 (en) Automated scheme for identifying user intent in real-time
CN105608134B (zh) 一种基于多线程的网络爬虫***及其网页爬取方法
US9275106B2 (en) Dynamic search box for web browser
US8751466B1 (en) Customizable answer engine implemented by user-defined plug-ins
US8335779B2 (en) Method and apparatus for gathering, categorizing and parameterizing data
US8762556B2 (en) Displaying content on a mobile device
US7788251B2 (en) System, method and computer program product for concept-based searching and analysis
US9122769B2 (en) Method and system for processing information of a stream of information
US10542123B2 (en) System and method for generating and monitoring feedback of a published webpage as implemented on a remote client
US7475074B2 (en) Web search system and method thereof
CN104715064B (zh) 一种实现在网页上标注关键词的方法和服务器
US20090204610A1 (en) Deep web miner
US11775767B1 (en) Systems and methods for automated iterative population of responses using artificial intelligence
CN105637509B (zh) 在图像内搜索和注释
JP6346218B2 (ja) オンライン取引プラットフォームのための検索方法、装置およびサーバ
EP1826692A2 (en) Query correction using indexed content on a desktop indexer program.
CN106960030A (zh) 基于人工智能的推送信息方法及装置
WO2013158758A1 (en) Semantic source code searching
TW201120665A (en) Systems and methods for providing advanced search result page content
US7805426B2 (en) Defining a web crawl space
CN109643315B (zh) 基于结构化网络知识自动生成中文本体库的方法、***、计算机设备和计算机可读介质
CN108052632A (zh) 一种网络信息获取方法、***及企业信息搜索***
CN104462396B (zh) 字符串处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180420

RJ01 Rejection of invention patent application after publication