CN104391978B - 用于浏览器的网页收藏处理方法及装置 - Google Patents

用于浏览器的网页收藏处理方法及装置 Download PDF

Info

Publication number
CN104391978B
CN104391978B CN201410742954.XA CN201410742954A CN104391978B CN 104391978 B CN104391978 B CN 104391978B CN 201410742954 A CN201410742954 A CN 201410742954A CN 104391978 B CN104391978 B CN 104391978B
Authority
CN
China
Prior art keywords
browser
webpage
collection
text
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410742954.XA
Other languages
English (en)
Other versions
CN104391978A (zh
Inventor
伯诺克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201410742954.XA priority Critical patent/CN104391978B/zh
Publication of CN104391978A publication Critical patent/CN104391978A/zh
Application granted granted Critical
Publication of CN104391978B publication Critical patent/CN104391978B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于浏览器的网页收藏处理方法及装置,该用于浏览器的网页收藏处理方法包括:接收检索关键词,其中,检索关键词用于从浏览器的收藏网页中查找需要浏览的网页;将检索关键词与浏览器的收藏网页进行匹配,得到匹配的收藏网页的地址;输出匹配的收藏网页的地址。通过本发明,解决了从浏览器的收藏网页中查找目标网页的效率低的问题,进而达到了提高从浏览器的收藏网页中查找目标网页的效率的效果。

Description

用于浏览器的网页收藏处理方法及装置
技术领域
本发明涉及互联网领域,具体而言,涉及一种用于浏览器的网页收藏处理方法及装置。
背景技术
现有的浏览器都有收藏网页的功能。网页收藏夹中记录了用户保存的网页的URL地址及该网页的标题。当用户需要再次访问收藏的网页时,可以通过收藏夹里的网址或网页的标题来找到这些网页进行访问。上述方式虽然能够让用户找到收藏的网页,但是当收藏记录很多时,只能通过收藏夹里的标题去识别出需要的网页。然而网页的标题常常不能代表网页内容,或者用户关心的网页内容的某些关键词并未包含在收藏的网页的标题中,使得用户难以在大量收藏的网页中快速找到需要访问的网页。
针对相关技术中从浏览器的收藏网页中查找目标网页的效率低的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种用于浏览器的网页收藏处理方法及装置,以解决从浏览器的收藏网页中查找目标网页的效率低的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种用于浏览器的网页收藏处理方法。
根据本发明的用于浏览器的网页收藏处理方法包括:接收检索关键词,其中,检索关键词用于从浏览器的收藏网页中查找需要浏览的网页;将检索关键词与浏览器的收藏网页进行匹配,得到匹配的收藏网页的地址;输出匹配的收藏网页的地址。
进一步地,将检索关键词与浏览器的收藏网页进行匹配包括:获取浏览器的收藏网页的标题和文本内容;以及将浏览器的收藏网页的标题和文本内容与检索关键词进行匹配,其中,如果浏览器的收藏网页的标题和文本内容与检索关键词匹配,则确定检索关键词与浏览器的收藏网页匹配,如果浏览器的收藏网页的标题和文本内容与检索关键词不匹配,则确定检索关键词与浏览器的收藏网页不匹配。
进一步地,在将浏览器的收藏网页的标题和文本内容与检索关键词进行匹配之前,方法还包括:获取浏览器的收藏网页的文本内容;获取浏览器的收藏网页的网址和标题;以及存储浏览器的收藏网页的文本内容、网址和标题。
进一步地,获取浏览器的收藏网页的文本内容包括:获取浏览器的收藏网页的地址;根据浏览器的收藏网页的地址访问收藏网页;以及在访问收藏网页的过程中从收藏网页爬取文本内容,得到浏览器的收藏网页的文本内容。
进一步地,从在访问收藏网页的过程中从收藏网页爬取文本内容,得到浏览器的收藏网页的文本内容包括:过滤浏览器的收藏网页的超文本标记语言标签;以及从过滤超文本标记语言标签的浏览器的收藏网页中爬取文本内容,得到浏览器的收藏网页的文本内容。
进一步地,在访问收藏网页的过程中从收藏网页爬取文本内容,得到浏览器的收藏网页的文本内容之后,方法还包括:从浏览器的收藏网页的文本内容中获取关键词,得到浏览器的收藏网页的关键词;存储浏览器的收藏网页的关键词、网址和标题,将浏览器的收藏网页的标题和文本内容与检索关键词进行匹配包括:将浏览器的收藏网页的关键词和标题与检索关键词进行匹配。
为了实现上述目的,根据本发明的另一方面,提供了一种用于浏览器的网页收藏处理装置。
根据本发明的用于浏览器的网页收藏处理装置包括:接收单元,用于接收检索关键词,其中,检索关键词用于从浏览器的收藏网页中查找需要浏览的网页;匹配单元,用于将检索关键词与浏览器的收藏网页进行匹配,得到匹配的收藏网页的地址;以及输出单元,用于输出匹配的收藏网页的地址。
进一步地,匹配单元包括:第一获取模块,用于获取浏览器的收藏网页的标题和文本内容;以及匹配模块,用于将浏览器的收藏网页的标题和文本内容与检索关键词进行匹配,其中,如果浏览器的收藏网页的标题和文本内容与检索关键词匹配,则确定检索关键词与浏览器的收藏网页匹配,如果浏览器的收藏网页的标题和文本内容与检索关键词不匹配,则确定检索关键词与浏览器的收藏网页不匹配。
进一步地,装置还包括:第一获取单元,用于获取浏览器的收藏网页的文本内容;第二获取单元,用于获取浏览器的收藏网页的网址和标题;以及存储单元,用于存储浏览器的收藏网页的文本内容、网址和标题。
进一步地,第一获取单元包括:第二获取模块,获取浏览器的收藏网页的地址;访问模块,用于根据浏览器的收藏网页的地址访问收藏网页;以及爬取模块,用于在访问收藏网页的过程中从收藏网页爬取文本内容,得到浏览器的收藏网页的文本内容。
通过本发明,采用检索的方式从浏览器的收藏网页中查找需要访问的收藏网页,解决了从浏览器的收藏网页中查找目标网页的效率低的问题,进而达到了提高从浏览器的收藏网页中查找目标网页的效率的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的用于浏览器的网页收藏处理方法的流程图;以及
图2是根据本发明实施例的用于浏览器的网页收藏处理装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供了一种用于浏览器的网页收藏处理方法,图1是根据本发明实施例的用于浏览器的网页收藏处理方法的流程图。
如图1所示,该方法包括如下的步骤S102至步骤S106:
步骤S102:接收检索关键词,其中,检索关键词用于从浏览器的收藏网页中查找需要浏览的网页。
检索关键词可以是任意用于从浏览器的收藏网页中查找需要浏览的网页的关键词,检索关键词可以是一个关键词,也可以是多个关键词。具体地,可以通过在浏览器的收藏网页的区域设置一个检索框,通过该检索框接收用户输入的检索关键词。
步骤S104:将检索关键词与浏览器的收藏网页进行匹配,得到匹配的收藏网页的地址。
浏览器的收藏网页通常位于浏览器的收藏夹中,在现有的浏览器的收藏夹中保存了收藏网页的地址和标题。将检索关键词与浏览器的收藏网页进行匹配可以是将检索关键词与收藏网页的标题进行匹配,如果收藏网页的标题中存在检索关键词,说明该收藏网页与用户需要访问的网页相关。记录浏览器的收藏网页中与检索关键词匹配的所由收藏网页。优选地,为了提高通过检索关键词查找需要访问的收藏网页的准确性,将检索关键词与浏览器的收藏网页进行匹配包括:获取浏览器的收藏网页的标题和文本内容;以及将浏览器的收藏网页的标题和文本内容与检索关键词进行匹配,其中,如果浏览器的收藏网页的标题和文本内容与检索关键词匹配,则确定检索关键词与浏览器的收藏网页匹配,如果浏览器的收藏网页的标题和文本内容与检索关键词不匹配,则确定检索关键词与浏览器的收藏网页不匹配。
收藏网页的内容可以是通过访问收藏网页获取,也可以是预先将浏览器的收藏网页中每一个收藏网页的文本内容存储于本地数据库或是其他存储区域,通过从数据库或是其他存储区域获取收藏网页的文本内容。收藏网页的文本内容可以是收藏网页的全部文本内容,也可以是收藏网页的全部文本内容中的提取的关键词。由于收藏网页的标题有时不能代表收藏网页的内容,或者用户关心的收藏网页的内容的关键词可能并未包含在收藏网页的标题中,此时,如果仅通过将检索关键词与收藏网页的标题进行匹配,会造成无法检索到需要访问的收藏网页,而且可能用户通过更换多个检索关键词进行多次检索也无法检索到需要访问的收藏网页,通过将浏览器的收藏网页的标题和文本内容与检索关键词进行匹配,可以避免上述问题。具体地,可以先将收藏网页的标题与检索关键词匹配,如果收藏网页的标题与检索关键词匹配则可以不再进行收藏网页的内容与检索关键词匹配,如果收藏网页的标题与检索关键词不匹配,再将收藏网页的内容与检索关键词匹配。通过上述方法,可以提高收藏网页与检索关键词的匹配的概率,进一步提高通过检索关键词查找需要访问的收藏网页的准确性。
优选地,为了提高上述获取浏览器的收藏网页的标题和文本内容的效率,在将浏览器的收藏网页的标题和文本内容与检索关键词进行匹配之前,该方法还包括:获取浏览器的收藏网页的文本内容;获取浏览器的收藏网页的网址和标题;以及存储浏览器的收藏网页的文本内容、网址和标题。
通过在对浏览器的收藏网页进行检索之前预先获取浏览器的收藏网页的文本内容、收藏网页的网址和收藏网页的标题并存储在本地的存储区域,例如本地数据库,具体地,在存储收藏网页的文本内容、网址和标题的过程中,可以关联浏览器的收藏网页的文本内容、网址和标题,即建立属于同一个收藏网页的文本内容、网址和标题的对应关系。通过上述方法,当用户对浏览器的收藏网页进行检索是时,可以是快速的获取到收藏网页的文本内容、标题与检索关键词进行匹配,如果存在与检索关键词匹配的收藏网页时可以快速得到该收藏网页的地址,提高了检索的效率。
可选地,获取浏览器的收藏网页的文本内容包括:获取浏览器的收藏网页的地址;根据浏览器的收藏网页的地址访问收藏网页;以及在访问收藏网页的过程中从收藏网页爬取文本内容,得到浏览器的收藏网页的文本内容。
浏览器的收藏网页的网址和标题已经存储在浏览器的收藏夹中,具体地,可以通过调用浏览器提供的用于获取收藏网页的地址的应用程序接口(ApplicationProgramming Interface,API)来获取收藏网页的地址,即统一资源定位符(UniformResource Locator,URL)。通过收藏网页的地址可以访问该收藏网页,在访问收藏网页的过程中从收藏网页爬取文本内容,得到浏览器的收藏网页的文本内容。具体地,可以通过网络爬虫从收藏网页中爬取文本内容。网络爬虫为按照设定规则自动爬取网络上信息的程序或是脚本,例如,可以设置网络爬虫仅爬取网页上的文本内容,也可以设置网络爬虫仅爬取网页上的图片,等待。本发明实施例中通过网络爬虫仅爬取收藏网页的文本内容。优选地,为了提高爬取收藏网页的文本内容的效率,在访问收藏网页的过程中从收藏网页中爬取文本内容,得到浏览器的收藏网页的文本内容包括:过滤浏览器的收藏网页的超文本标记语言标签;以及从过滤超文本标记语言标签的浏览器的收藏网页中爬取文本内容,得到浏览器的收藏网页的文本内容。
超文本标记语言(Hyper Text Markup Language,HTML)标签是超文本标记语言中最小的单位,通过该超文本标记语言标签可以设置网页的显示格式,例如,通过超文本标记语言标签设置网页的标题、关键字、网页内容的显示位置等。具体地,可以在通过收藏网页的地址向服务器请求访问网页后,将服务器返回的内容与预设的正则表达式进行匹配,过滤掉收藏网页的超文本标记语言标签,其中,正则表达式为使用单个字符串来描述、匹配一系列符合某个句法规则的字符串,例如,一个用于匹配中国邮政编码的正则表达式为“[1-9]\\d{5}(?!\d)”,待匹配的字符串为“Chinabeijing100081haidian”,则通过该正则表达式可以快速匹配出待检测字符串中表示邮政编码的字符“100081”,其他字符则被过滤掉。
优选地,在访问收藏网页的过程中从收藏网页爬取文本内容,得到浏览器的收藏网页的文本内容之后,方法还包括:从浏览器的收藏网页的文本内容中获取关键词,得到浏览器的收藏网页的关键词;存储浏览器的收藏网页的关键词、网址和标题,将浏览器的收藏网页的标题和文本内容与检索关键词进行匹配包括:将浏览器的收藏网页的关键词和标题与检索关键词进行匹配。
浏览器的收藏网页的关键词可以是收藏网页的文本内容中出现次数较多的一些词语,也可以是收藏网页的文本内容中位置靠前的文本内容的词语,例如收藏网页的文本内容的摘要等。具体地,本发明实施例以收藏网页的文本内容中出现次数较多的一些词语作为该收藏网页的关键词为例进行说明,在获取到收藏网页的文本内容后,可以对收藏网页的文本内容进行切词,即将收藏网页的文本内容划分为独立的词语,可以预先过滤掉一些停用词,停用词即语气词、连接词等无实际含义的词语,将过滤后得到的词语组成词集合,统计该词集合中重复出现的词语以及该重复出现的词语出现次数,如果该重复出现的词语的出现次数大于预设阈值,则将该重复出现的词语作为收藏网页的关键词。在得到浏览器的收藏网页的关键词后,同样地,在存储收藏网页的关键词、网址和标题过程时可以建立收藏网页的关键词、网址和标题的对应关系。由于收藏网页的文本内容可能较多,检索关键词与收藏网页的文本内容进行匹配时较为耗时,另一方面,也可能会出现过多错误的匹配结果,即与检索关键词匹配的收藏网页不是用户需要访问的收藏网页,通过提取收藏网页的文本内容中的关键词与检索关键词进行匹配,不仅可以提高匹配的效率,而且可以提高匹配结果的准确性。
步骤S106:输出匹配的收藏网页的地址。
通过上述步骤可以得到浏览器的收藏网页中与检索关键词的匹配的收藏网页的地址,输出该匹配的收藏网页的地址用于用户查看。
从以上的描述中,可以看出,本发明实现了如下技术效果:
本发明实施例通过接收检索关键词,将检索关键词与浏览器的收藏网页进行匹配,得到匹配的收藏网页的地址,输出匹配的收藏网页的地址,通过检索的方式从浏览器的收藏网页中查找需要访问的收藏网页,相比于现有技术中通过用户依次打开浏览器的收藏网页进行查找,提高了从浏览器的收藏网页中查找目标网页的效率,解决了相关技术中从浏览器的收藏网页中查找目标网页的效率低的问题。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例的另一方面,提供了一种用于浏览器的网页收藏处理装置,该装置可以用于执行本发明实施例的用于浏览器的网页收藏处理方法,本发明实施例的方法也可以通过本发明实施例的用于浏览器的网页收藏处理装置来执行。
图2是根据本发明实施例的用于浏览器的网页收藏处理装置的示意图。如图2所示,该用于浏览器的网页收藏处理装置包括:接收单元10,匹配单元20和输出单元30。
接收单元10,用于接收检索关键词,其中,检索关键词用于从浏览器的收藏网页中查找需要浏览的网页。
检索关键词可以是任意用于从浏览器的收藏网页中查找需要浏览的网页的关键词,检索关键词可以是一个关键词,也可以是多个关键词。具体地,可以通过在浏览器的收藏网页的区域设置一个检索框,通过该检索框接收用户输入的检索关键词。
匹配单元20,用于将检索关键词与浏览器的收藏网页进行匹配,得到匹配的收藏网页的地址。
浏览器的收藏网页通常位于浏览器的收藏夹中,在现有的浏览器的收藏夹中保存了收藏网页的地址和标题。将检索关键词与浏览器的收藏网页进行匹配可以是将检索关键词与收藏网页的标题进行匹配,如果收藏网页的标题中存在检索关键词,说明该收藏网页与用户需要访问的网页相关。
输出单元30,用于输出匹配的收藏网页的地址。
在得到浏览器的收藏网页中与检索关键词的匹配的收藏网页的地址后,输出该匹配的收藏网页的地址用于用户查看。
本发明实施例通过接收单元10接收检索关键词,匹配单元20将检索关键词与浏览器的收藏网页进行匹配,得到匹配的收藏网页的地址,输出单元30输出匹配的收藏网页的地址。本发明实施例通过检索的方式从浏览器的收藏网页中查找需要访问的收藏网页,相比于现有技术中通过用户依次打开浏览器的收藏网页进行查找,提高了从浏览器的收藏网页中查找目标网页的效率,解决了相关技术中从浏览器的收藏网页中查找目标网页的效率低的问题。
优选地,匹配单元20包括:第一获取模块,用于获取浏览器的收藏网页的标题和文本内容;以及匹配模块,用于将浏览器的收藏网页的标题和文本内容与检索关键词进行匹配,其中,如果浏览器的收藏网页的标题和文本内容与检索关键词匹配,则确定检索关键词与浏览器的收藏网页匹配,如果浏览器的收藏网页的标题和文本内容与检索关键词不匹配,则确定检索关键词与浏览器的收藏网页不匹配。
优选地,该装置还包括:第一获取单元,用于获取浏览器的收藏网页的文本内容;第二获取单元,用于获取浏览器的收藏网页的网址和标题;以及存储单元,用于存储浏览器的收藏网页的文本内容、网址和标题。
优选地,第一获取单元包括:第二获取模块,获取浏览器的收藏网页的地址;访问模块,用于根据浏览器的收藏网页的地址访问收藏网页;以及爬取模块,用于在访问收藏网页的过程中从收藏网页爬取文本内容,得到浏览器的收藏网页的文本内容。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种用于浏览器的网页收藏处理方法,其特征在于,包括:
接收检索关键词,其中,所述检索关键词用于从浏览器的收藏网页中查找需要浏览的网页,其中所述浏览器的收藏夹中存储有所述收藏网页的标题和地址;
如果收藏网页的标题与检索关键词匹配,则直接输出与所述检索关键词匹配的收藏网页的网址;
如果收藏网页的标题与检索关键词不匹配,则将收藏网页的文本内容与检索关键词进行匹配,得到匹配的收藏网页的地址;以及
输出所述匹配的收藏网页的地址,
其中,在将所述浏览器的收藏网页的文本内容与所述检索关键词进行匹配之前,所述方法还包括:
获取所述浏览器的收藏网页的文本内容;
其中,获取所述浏览器的收藏网页的文本内容包括:
获取所述浏览器的收藏网页的地址;
根据所述浏览器的收藏网页的地址访问所述收藏网页;以及
在访问所述收藏网页的过程中从所述收藏网页爬取文本内容,得到所述浏览器的收藏网页的文本内容,
其中,从在访问所述收藏网页的过程中从所述收藏网页爬取文本内容,得到所述浏览器的收藏网页的文本内容包括:
过滤所述浏览器的收藏网页的超文本标记语言标签;以及
从过滤超文本标记语言标签的所述浏览器的收藏网页中爬取文本内容,得到所述浏览器的收藏网页的文本内容。
2.根据权利要求1所述的用于浏览器的网页收藏处理方法,其特征在于,将所述检索关键词与所述浏览器的收藏网页进行匹配包括:
获取所述浏览器的收藏网页的标题和文本内容;以及
将所述浏览器的收藏网页的标题和文本内容与所述检索关键词进行匹配,
其中,如果所述浏览器的收藏网页的标题和文本内容与所述检索关键词匹配,则确定所述检索关键词与所述浏览器的收藏网页匹配,如果所述浏览器的收藏网页的标题和文本内容与所述检索关键词不匹配,则确定所述检索关键词与所述浏览器的收藏网页不匹配。
3.根据权利要求1所述的用于浏览器的网页收藏处理方法,其特征在于,
在访问所述收藏网页的过程中从所述收藏网页爬取文本内容,得到所述浏览器的收藏网页的文本内容之后,所述方法还包括:从所述浏览器的收藏网页的文本内容中获取关键词,得到所述浏览器的收藏网页的关键词;存储所述浏览器的收藏网页的关键词、网址和标题,
将所述浏览器的收藏网页的标题和文本内容与所述检索关键词进行匹配包括:将所述浏览器的收藏网页的关键词和标题与所述检索关键词进行匹配。
4.一种用于浏览器的网页收藏处理装置,其特征在于,包括:
接收单元,用于接收检索关键词,其中,所述检索关键词用于从浏览器的收藏网页中查找需要浏览的网页,其中所述浏览器的收藏夹中存储有所述收藏网页的标题和地址;
匹配单元,用于如果收藏网页的标题与检索关键词匹配,则直接输出与所述检索关键词匹配的收藏网页的地址;如果收藏网页的标题与检索关键词不匹配,则将收藏网页的文本内容与检索关键词进行匹配,得到匹配的收藏网页的地址;
以及
输出单元,用于输出所述匹配的收藏网页的地址,
所述装置还包括:
第一获取单元,用于获取所述浏览器的收藏网页的文本内容;
其中,所述第一获取单元包括:
第二获取模块,获取所述浏览器的收藏网页的地址;
访问模块,用于根据所述浏览器的收藏网页的地址访问所述收藏网页;以及
爬取模块,用于在访问所述收藏网页的过程中从所述收藏网页爬取文本内容,得到所述浏览器的收藏网页的文本内容,
其中,所述爬取模块用于:
过滤所述浏览器的收藏网页的超文本标记语言标签;以及
从过滤超文本标记语言标签的所述浏览器的收藏网页中爬取文本内容,得到所述浏览器的收藏网页的文本内容。
5.根据权利要求4所述的用于浏览器的网页收藏处理装置,其特征在于,所述匹配单元包括:
第一获取模块,用于获取所述浏览器的收藏网页的标题和文本内容;以及
匹配模块,用于将所述浏览器的收藏网页的标题和文本内容与所述检索关键词进行匹配,
其中,如果所述浏览器的收藏网页的标题和文本内容与所述检索关键词匹配,则确定所述检索关键词与所述浏览器的收藏网页匹配,如果所述浏览器的收藏网页的标题和文本内容与所述检索关键词不匹配,则确定所述检索关键词与所述浏览器的收藏网页不匹配。
CN201410742954.XA 2014-12-05 2014-12-05 用于浏览器的网页收藏处理方法及装置 Active CN104391978B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410742954.XA CN104391978B (zh) 2014-12-05 2014-12-05 用于浏览器的网页收藏处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410742954.XA CN104391978B (zh) 2014-12-05 2014-12-05 用于浏览器的网页收藏处理方法及装置

Publications (2)

Publication Number Publication Date
CN104391978A CN104391978A (zh) 2015-03-04
CN104391978B true CN104391978B (zh) 2018-05-15

Family

ID=52609882

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410742954.XA Active CN104391978B (zh) 2014-12-05 2014-12-05 用于浏览器的网页收藏处理方法及装置

Country Status (1)

Country Link
CN (1) CN104391978B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426224A (zh) * 2015-12-28 2016-03-23 上海银天下科技有限公司 打开应用程序中的web页面的方法及装置
CN105740417A (zh) * 2016-01-29 2016-07-06 青岛海信移动通信技术股份有限公司 一种基于网页的目标数据搜索方法、模块、浏览器及终端
CN106547821A (zh) * 2016-09-29 2017-03-29 广东工业大学 一种浏览器内根据关键词搜索相关网页的方法
CN107229705B (zh) * 2017-05-25 2024-05-31 北京小米移动软件有限公司 信息资源查找方法、装置及计算机可读存储介质
CN110020335B (zh) * 2017-07-28 2022-04-26 北京搜狗科技发展有限公司 收藏夹的处理方法和装置
CN110069667B (zh) * 2017-11-03 2022-07-19 北京搜狗科技发展有限公司 一种搜索方法、装置以及用于搜索的装置
CN108491420A (zh) * 2018-02-06 2018-09-04 平安科技(深圳)有限公司 网页爬取的配置方法、应用服务器及计算机可读存储介质
CN109657168B (zh) * 2018-11-30 2021-04-23 维沃移动通信有限公司 一种收藏记录显示方法及装置
CN113268184A (zh) * 2021-05-29 2021-08-17 五八到家有限公司 浏览器标签页切换方法及装置、电子设备及可读介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010115003A1 (en) * 2009-04-03 2010-10-07 Avichai Flombaum System and method for identifying and retrieving targeted advertisements or other related documents
CN102830894A (zh) * 2012-05-11 2012-12-19 北京奇虎科技有限公司 一种收藏网页的方法和装置
CN102982134A (zh) * 2012-11-16 2013-03-20 北京奇虎科技有限公司 在浏览器地址栏中显示推荐网址信息的***
CN103246746A (zh) * 2013-05-23 2013-08-14 百度在线网络技术(北京)有限公司 一种信息搜索方法、装置和***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010115003A1 (en) * 2009-04-03 2010-10-07 Avichai Flombaum System and method for identifying and retrieving targeted advertisements or other related documents
CN102830894A (zh) * 2012-05-11 2012-12-19 北京奇虎科技有限公司 一种收藏网页的方法和装置
CN102982134A (zh) * 2012-11-16 2013-03-20 北京奇虎科技有限公司 在浏览器地址栏中显示推荐网址信息的***
CN103246746A (zh) * 2013-05-23 2013-08-14 百度在线网络技术(北京)有限公司 一种信息搜索方法、装置和***

Also Published As

Publication number Publication date
CN104391978A (zh) 2015-03-04

Similar Documents

Publication Publication Date Title
CN104391978B (zh) 用于浏览器的网页收藏处理方法及装置
CN102930059B (zh) 一种聚焦爬虫的设计方法
US9183281B2 (en) Context-based document unit recommendation for sensemaking tasks
CN100394427C (zh) 网络搜寻***及方法
CN100462969C (zh) 利用互联网为公众提供和查询信息的方法
US20070198727A1 (en) Method, apparatus and system for extracting field-specific structured data from the web using sample
CN101908071A (zh) 一种提高搜索引擎搜索效率的方法及其***
US8560518B2 (en) Method and apparatus for building sales tools by mining data from websites
CN103631794A (zh) 一种用于对搜索结果进行排序的方法、装置与设备
CN102779169A (zh) 一种基于html标签的网页正文提取方法及装置
CN102270331A (zh) 基于可视化搜索的网络购物导航方法
US20160103913A1 (en) Method and system for calculating a degree of linkage for webpages
CN105631007A (zh) 一种行业技术信息搜集方法及***
US20150302090A1 (en) Method and System for the Structural Analysis of Websites
CN105095175A (zh) 获取截短的网页标题的方法及装置
CN106874502A (zh) 一种视频搜索的方法、装置及终端
Patil et al. Search engine optimization technique importance
Klein et al. Evaluating methods to rediscover missing web pages from the web infrastructure
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
CN103617225B (zh) 一种关联网页搜索方法和***
CN104281629A (zh) 从网页中提取图片的方法、装置及客户端设备
CN114117242A (zh) 数据查询方法和装置、计算机设备、存储介质
CN106959995A (zh) 兼容双向自动化网页内容采集方法
CN104077353B (zh) 一种黑链检测的方法及装置
CN110110182A (zh) 一种适用于批量爬取的数据采集方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and device for storing and processing web pages of browsers

Effective date of registration: 20190531

Granted publication date: 20180515

Pledgee: Shenzhen Black Horse World Investment Consulting Co.,Ltd.

Pledgor: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Registration number: 2019990000503

PE01 Entry into force of the registration of the contract for pledge of patent right
CP02 Change in the address of a patent holder

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Patentee after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Patentee before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

CP02 Change in the address of a patent holder
PP01 Preservation of patent right

Effective date of registration: 20240604

Granted publication date: 20180515

PP01 Preservation of patent right