CN104391978B

CN104391978B - 用于浏览器的网页收藏处理方法及装置

Info

Publication number: CN104391978B
Application number: CN201410742954.XA
Authority: CN
Inventors: 伯诺克
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2014-12-05
Filing date: 2014-12-05
Publication date: 2018-05-15
Anticipated expiration: 2034-12-05
Also published as: CN104391978A

Abstract

本发明公开了一种用于浏览器的网页收藏处理方法及装置，该用于浏览器的网页收藏处理方法包括：接收检索关键词，其中，检索关键词用于从浏览器的收藏网页中查找需要浏览的网页；将检索关键词与浏览器的收藏网页进行匹配，得到匹配的收藏网页的地址；输出匹配的收藏网页的地址。通过本发明，解决了从浏览器的收藏网页中查找目标网页的效率低的问题，进而达到了提高从浏览器的收藏网页中查找目标网页的效率的效果。

Description

用于浏览器的网页收藏处理方法及装置

技术领域

本发明涉及互联网领域，具体而言，涉及一种用于浏览器的网页收藏处理方法及装置。

背景技术

现有的浏览器都有收藏网页的功能。网页收藏夹中记录了用户保存的网页的URL地址及该网页的标题。当用户需要再次访问收藏的网页时，可以通过收藏夹里的网址或网页的标题来找到这些网页进行访问。上述方式虽然能够让用户找到收藏的网页，但是当收藏记录很多时，只能通过收藏夹里的标题去识别出需要的网页。然而网页的标题常常不能代表网页内容，或者用户关心的网页内容的某些关键词并未包含在收藏的网页的标题中，使得用户难以在大量收藏的网页中快速找到需要访问的网页。

针对相关技术中从浏览器的收藏网页中查找目标网页的效率低的问题，目前尚未提出有效的解决方案。

发明内容

本发明的主要目的在于提供一种用于浏览器的网页收藏处理方法及装置，以解决从浏览器的收藏网页中查找目标网页的效率低的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种用于浏览器的网页收藏处理方法。

根据本发明的用于浏览器的网页收藏处理方法包括：接收检索关键词，其中，检索关键词用于从浏览器的收藏网页中查找需要浏览的网页；将检索关键词与浏览器的收藏网页进行匹配，得到匹配的收藏网页的地址；输出匹配的收藏网页的地址。

进一步地，将检索关键词与浏览器的收藏网页进行匹配包括：获取浏览器的收藏网页的标题和文本内容；以及将浏览器的收藏网页的标题和文本内容与检索关键词进行匹配，其中，如果浏览器的收藏网页的标题和文本内容与检索关键词匹配，则确定检索关键词与浏览器的收藏网页匹配，如果浏览器的收藏网页的标题和文本内容与检索关键词不匹配，则确定检索关键词与浏览器的收藏网页不匹配。

进一步地，在将浏览器的收藏网页的标题和文本内容与检索关键词进行匹配之前，方法还包括：获取浏览器的收藏网页的文本内容；获取浏览器的收藏网页的网址和标题；以及存储浏览器的收藏网页的文本内容、网址和标题。

进一步地，获取浏览器的收藏网页的文本内容包括：获取浏览器的收藏网页的地址；根据浏览器的收藏网页的地址访问收藏网页；以及在访问收藏网页的过程中从收藏网页爬取文本内容，得到浏览器的收藏网页的文本内容。

进一步地，从在访问收藏网页的过程中从收藏网页爬取文本内容，得到浏览器的收藏网页的文本内容包括：过滤浏览器的收藏网页的超文本标记语言标签；以及从过滤超文本标记语言标签的浏览器的收藏网页中爬取文本内容，得到浏览器的收藏网页的文本内容。

进一步地，在访问收藏网页的过程中从收藏网页爬取文本内容，得到浏览器的收藏网页的文本内容之后，方法还包括：从浏览器的收藏网页的文本内容中获取关键词，得到浏览器的收藏网页的关键词；存储浏览器的收藏网页的关键词、网址和标题，将浏览器的收藏网页的标题和文本内容与检索关键词进行匹配包括：将浏览器的收藏网页的关键词和标题与检索关键词进行匹配。

为了实现上述目的，根据本发明的另一方面，提供了一种用于浏览器的网页收藏处理装置。

根据本发明的用于浏览器的网页收藏处理装置包括：接收单元，用于接收检索关键词，其中，检索关键词用于从浏览器的收藏网页中查找需要浏览的网页；匹配单元，用于将检索关键词与浏览器的收藏网页进行匹配，得到匹配的收藏网页的地址；以及输出单元，用于输出匹配的收藏网页的地址。

进一步地，匹配单元包括：第一获取模块，用于获取浏览器的收藏网页的标题和文本内容；以及匹配模块，用于将浏览器的收藏网页的标题和文本内容与检索关键词进行匹配，其中，如果浏览器的收藏网页的标题和文本内容与检索关键词匹配，则确定检索关键词与浏览器的收藏网页匹配，如果浏览器的收藏网页的标题和文本内容与检索关键词不匹配，则确定检索关键词与浏览器的收藏网页不匹配。

进一步地，装置还包括：第一获取单元，用于获取浏览器的收藏网页的文本内容；第二获取单元，用于获取浏览器的收藏网页的网址和标题；以及存储单元，用于存储浏览器的收藏网页的文本内容、网址和标题。

进一步地，第一获取单元包括：第二获取模块，获取浏览器的收藏网页的地址；访问模块，用于根据浏览器的收藏网页的地址访问收藏网页；以及爬取模块，用于在访问收藏网页的过程中从收藏网页爬取文本内容，得到浏览器的收藏网页的文本内容。

通过本发明，采用检索的方式从浏览器的收藏网页中查找需要访问的收藏网页，解决了从浏览器的收藏网页中查找目标网页的效率低的问题，进而达到了提高从浏览器的收藏网页中查找目标网页的效率的效果。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的用于浏览器的网页收藏处理方法的流程图；以及

图2是根据本发明实施例的用于浏览器的网页收藏处理装置的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供了一种用于浏览器的网页收藏处理方法，图1是根据本发明实施例的用于浏览器的网页收藏处理方法的流程图。

如图1所示，该方法包括如下的步骤S102至步骤S106：

步骤S102：接收检索关键词，其中，检索关键词用于从浏览器的收藏网页中查找需要浏览的网页。

检索关键词可以是任意用于从浏览器的收藏网页中查找需要浏览的网页的关键词，检索关键词可以是一个关键词，也可以是多个关键词。具体地，可以通过在浏览器的收藏网页的区域设置一个检索框，通过该检索框接收用户输入的检索关键词。

步骤S104：将检索关键词与浏览器的收藏网页进行匹配，得到匹配的收藏网页的地址。

浏览器的收藏网页通常位于浏览器的收藏夹中，在现有的浏览器的收藏夹中保存了收藏网页的地址和标题。将检索关键词与浏览器的收藏网页进行匹配可以是将检索关键词与收藏网页的标题进行匹配，如果收藏网页的标题中存在检索关键词，说明该收藏网页与用户需要访问的网页相关。记录浏览器的收藏网页中与检索关键词匹配的所由收藏网页。优选地，为了提高通过检索关键词查找需要访问的收藏网页的准确性，将检索关键词与浏览器的收藏网页进行匹配包括：获取浏览器的收藏网页的标题和文本内容；以及将浏览器的收藏网页的标题和文本内容与检索关键词进行匹配，其中，如果浏览器的收藏网页的标题和文本内容与检索关键词匹配，则确定检索关键词与浏览器的收藏网页匹配，如果浏览器的收藏网页的标题和文本内容与检索关键词不匹配，则确定检索关键词与浏览器的收藏网页不匹配。

收藏网页的内容可以是通过访问收藏网页获取，也可以是预先将浏览器的收藏网页中每一个收藏网页的文本内容存储于本地数据库或是其他存储区域，通过从数据库或是其他存储区域获取收藏网页的文本内容。收藏网页的文本内容可以是收藏网页的全部文本内容，也可以是收藏网页的全部文本内容中的提取的关键词。由于收藏网页的标题有时不能代表收藏网页的内容，或者用户关心的收藏网页的内容的关键词可能并未包含在收藏网页的标题中，此时，如果仅通过将检索关键词与收藏网页的标题进行匹配，会造成无法检索到需要访问的收藏网页，而且可能用户通过更换多个检索关键词进行多次检索也无法检索到需要访问的收藏网页，通过将浏览器的收藏网页的标题和文本内容与检索关键词进行匹配，可以避免上述问题。具体地，可以先将收藏网页的标题与检索关键词匹配，如果收藏网页的标题与检索关键词匹配则可以不再进行收藏网页的内容与检索关键词匹配，如果收藏网页的标题与检索关键词不匹配，再将收藏网页的内容与检索关键词匹配。通过上述方法，可以提高收藏网页与检索关键词的匹配的概率，进一步提高通过检索关键词查找需要访问的收藏网页的准确性。

优选地，为了提高上述获取浏览器的收藏网页的标题和文本内容的效率，在将浏览器的收藏网页的标题和文本内容与检索关键词进行匹配之前，该方法还包括：获取浏览器的收藏网页的文本内容；获取浏览器的收藏网页的网址和标题；以及存储浏览器的收藏网页的文本内容、网址和标题。

通过在对浏览器的收藏网页进行检索之前预先获取浏览器的收藏网页的文本内容、收藏网页的网址和收藏网页的标题并存储在本地的存储区域，例如本地数据库，具体地，在存储收藏网页的文本内容、网址和标题的过程中，可以关联浏览器的收藏网页的文本内容、网址和标题，即建立属于同一个收藏网页的文本内容、网址和标题的对应关系。通过上述方法，当用户对浏览器的收藏网页进行检索是时，可以是快速的获取到收藏网页的文本内容、标题与检索关键词进行匹配，如果存在与检索关键词匹配的收藏网页时可以快速得到该收藏网页的地址，提高了检索的效率。

可选地，获取浏览器的收藏网页的文本内容包括：获取浏览器的收藏网页的地址；根据浏览器的收藏网页的地址访问收藏网页；以及在访问收藏网页的过程中从收藏网页爬取文本内容，得到浏览器的收藏网页的文本内容。

浏览器的收藏网页的网址和标题已经存储在浏览器的收藏夹中，具体地，可以通过调用浏览器提供的用于获取收藏网页的地址的应用程序接口(ApplicationProgramming Interface，API)来获取收藏网页的地址，即统一资源定位符(UniformResource Locator，URL)。通过收藏网页的地址可以访问该收藏网页，在访问收藏网页的过程中从收藏网页爬取文本内容，得到浏览器的收藏网页的文本内容。具体地，可以通过网络爬虫从收藏网页中爬取文本内容。网络爬虫为按照设定规则自动爬取网络上信息的程序或是脚本，例如，可以设置网络爬虫仅爬取网页上的文本内容，也可以设置网络爬虫仅爬取网页上的图片，等待。本发明实施例中通过网络爬虫仅爬取收藏网页的文本内容。优选地，为了提高爬取收藏网页的文本内容的效率，在访问收藏网页的过程中从收藏网页中爬取文本内容，得到浏览器的收藏网页的文本内容包括：过滤浏览器的收藏网页的超文本标记语言标签；以及从过滤超文本标记语言标签的浏览器的收藏网页中爬取文本内容，得到浏览器的收藏网页的文本内容。

超文本标记语言(Hyper Text Markup Language，HTML)标签是超文本标记语言中最小的单位，通过该超文本标记语言标签可以设置网页的显示格式，例如，通过超文本标记语言标签设置网页的标题、关键字、网页内容的显示位置等。具体地，可以在通过收藏网页的地址向服务器请求访问网页后，将服务器返回的内容与预设的正则表达式进行匹配，过滤掉收藏网页的超文本标记语言标签，其中，正则表达式为使用单个字符串来描述、匹配一系列符合某个句法规则的字符串，例如，一个用于匹配中国邮政编码的正则表达式为“[1-9]\\d{5}(？！\d)”，待匹配的字符串为“Chinabeijing100081haidian”，则通过该正则表达式可以快速匹配出待检测字符串中表示邮政编码的字符“100081”，其他字符则被过滤掉。

优选地，在访问收藏网页的过程中从收藏网页爬取文本内容，得到浏览器的收藏网页的文本内容之后，方法还包括：从浏览器的收藏网页的文本内容中获取关键词，得到浏览器的收藏网页的关键词；存储浏览器的收藏网页的关键词、网址和标题，将浏览器的收藏网页的标题和文本内容与检索关键词进行匹配包括：将浏览器的收藏网页的关键词和标题与检索关键词进行匹配。

浏览器的收藏网页的关键词可以是收藏网页的文本内容中出现次数较多的一些词语，也可以是收藏网页的文本内容中位置靠前的文本内容的词语，例如收藏网页的文本内容的摘要等。具体地，本发明实施例以收藏网页的文本内容中出现次数较多的一些词语作为该收藏网页的关键词为例进行说明，在获取到收藏网页的文本内容后，可以对收藏网页的文本内容进行切词，即将收藏网页的文本内容划分为独立的词语，可以预先过滤掉一些停用词，停用词即语气词、连接词等无实际含义的词语，将过滤后得到的词语组成词集合，统计该词集合中重复出现的词语以及该重复出现的词语出现次数，如果该重复出现的词语的出现次数大于预设阈值，则将该重复出现的词语作为收藏网页的关键词。在得到浏览器的收藏网页的关键词后，同样地，在存储收藏网页的关键词、网址和标题过程时可以建立收藏网页的关键词、网址和标题的对应关系。由于收藏网页的文本内容可能较多，检索关键词与收藏网页的文本内容进行匹配时较为耗时，另一方面，也可能会出现过多错误的匹配结果，即与检索关键词匹配的收藏网页不是用户需要访问的收藏网页，通过提取收藏网页的文本内容中的关键词与检索关键词进行匹配，不仅可以提高匹配的效率，而且可以提高匹配结果的准确性。

步骤S106：输出匹配的收藏网页的地址。

通过上述步骤可以得到浏览器的收藏网页中与检索关键词的匹配的收藏网页的地址，输出该匹配的收藏网页的地址用于用户查看。

从以上的描述中，可以看出，本发明实现了如下技术效果：

本发明实施例通过接收检索关键词，将检索关键词与浏览器的收藏网页进行匹配，得到匹配的收藏网页的地址，输出匹配的收藏网页的地址，通过检索的方式从浏览器的收藏网页中查找需要访问的收藏网页，相比于现有技术中通过用户依次打开浏览器的收藏网页进行查找，提高了从浏览器的收藏网页中查找目标网页的效率，解决了相关技术中从浏览器的收藏网页中查找目标网页的效率低的问题。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本发明实施例的另一方面，提供了一种用于浏览器的网页收藏处理装置，该装置可以用于执行本发明实施例的用于浏览器的网页收藏处理方法，本发明实施例的方法也可以通过本发明实施例的用于浏览器的网页收藏处理装置来执行。

图2是根据本发明实施例的用于浏览器的网页收藏处理装置的示意图。如图2所示，该用于浏览器的网页收藏处理装置包括：接收单元10，匹配单元20和输出单元30。

接收单元10，用于接收检索关键词，其中，检索关键词用于从浏览器的收藏网页中查找需要浏览的网页。

匹配单元20，用于将检索关键词与浏览器的收藏网页进行匹配，得到匹配的收藏网页的地址。

浏览器的收藏网页通常位于浏览器的收藏夹中，在现有的浏览器的收藏夹中保存了收藏网页的地址和标题。将检索关键词与浏览器的收藏网页进行匹配可以是将检索关键词与收藏网页的标题进行匹配，如果收藏网页的标题中存在检索关键词，说明该收藏网页与用户需要访问的网页相关。

输出单元30，用于输出匹配的收藏网页的地址。

在得到浏览器的收藏网页中与检索关键词的匹配的收藏网页的地址后，输出该匹配的收藏网页的地址用于用户查看。

本发明实施例通过接收单元10接收检索关键词，匹配单元20将检索关键词与浏览器的收藏网页进行匹配，得到匹配的收藏网页的地址，输出单元30输出匹配的收藏网页的地址。本发明实施例通过检索的方式从浏览器的收藏网页中查找需要访问的收藏网页，相比于现有技术中通过用户依次打开浏览器的收藏网页进行查找，提高了从浏览器的收藏网页中查找目标网页的效率，解决了相关技术中从浏览器的收藏网页中查找目标网页的效率低的问题。

优选地，匹配单元20包括：第一获取模块，用于获取浏览器的收藏网页的标题和文本内容；以及匹配模块，用于将浏览器的收藏网页的标题和文本内容与检索关键词进行匹配，其中，如果浏览器的收藏网页的标题和文本内容与检索关键词匹配，则确定检索关键词与浏览器的收藏网页匹配，如果浏览器的收藏网页的标题和文本内容与检索关键词不匹配，则确定检索关键词与浏览器的收藏网页不匹配。

优选地，该装置还包括：第一获取单元，用于获取浏览器的收藏网页的文本内容；第二获取单元，用于获取浏览器的收藏网页的网址和标题；以及存储单元，用于存储浏览器的收藏网页的文本内容、网址和标题。

优选地，第一获取单元包括：第二获取模块，获取浏览器的收藏网页的地址；访问模块，用于根据浏览器的收藏网页的地址访问收藏网页；以及爬取模块，用于在访问收藏网页的过程中从收藏网页爬取文本内容，得到浏览器的收藏网页的文本内容。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于浏览器的网页收藏处理方法，其特征在于，包括：

接收检索关键词，其中，所述检索关键词用于从浏览器的收藏网页中查找需要浏览的网页，其中所述浏览器的收藏夹中存储有所述收藏网页的标题和地址；

如果收藏网页的标题与检索关键词匹配，则直接输出与所述检索关键词匹配的收藏网页的网址；

如果收藏网页的标题与检索关键词不匹配，则将收藏网页的文本内容与检索关键词进行匹配，得到匹配的收藏网页的地址；以及

输出所述匹配的收藏网页的地址，

其中，在将所述浏览器的收藏网页的文本内容与所述检索关键词进行匹配之前，所述方法还包括：

获取所述浏览器的收藏网页的文本内容；

其中，获取所述浏览器的收藏网页的文本内容包括：

获取所述浏览器的收藏网页的地址；

根据所述浏览器的收藏网页的地址访问所述收藏网页；以及

在访问所述收藏网页的过程中从所述收藏网页爬取文本内容，得到所述浏览器的收藏网页的文本内容，

其中，从在访问所述收藏网页的过程中从所述收藏网页爬取文本内容，得到所述浏览器的收藏网页的文本内容包括：

过滤所述浏览器的收藏网页的超文本标记语言标签；以及

从过滤超文本标记语言标签的所述浏览器的收藏网页中爬取文本内容，得到所述浏览器的收藏网页的文本内容。

2.根据权利要求1所述的用于浏览器的网页收藏处理方法，其特征在于，将所述检索关键词与所述浏览器的收藏网页进行匹配包括：

获取所述浏览器的收藏网页的标题和文本内容；以及

将所述浏览器的收藏网页的标题和文本内容与所述检索关键词进行匹配，

其中，如果所述浏览器的收藏网页的标题和文本内容与所述检索关键词匹配，则确定所述检索关键词与所述浏览器的收藏网页匹配，如果所述浏览器的收藏网页的标题和文本内容与所述检索关键词不匹配，则确定所述检索关键词与所述浏览器的收藏网页不匹配。

3.根据权利要求1所述的用于浏览器的网页收藏处理方法，其特征在于，

在访问所述收藏网页的过程中从所述收藏网页爬取文本内容，得到所述浏览器的收藏网页的文本内容之后，所述方法还包括：从所述浏览器的收藏网页的文本内容中获取关键词，得到所述浏览器的收藏网页的关键词；存储所述浏览器的收藏网页的关键词、网址和标题，

将所述浏览器的收藏网页的标题和文本内容与所述检索关键词进行匹配包括：将所述浏览器的收藏网页的关键词和标题与所述检索关键词进行匹配。

4.一种用于浏览器的网页收藏处理装置，其特征在于，包括：

接收单元，用于接收检索关键词，其中，所述检索关键词用于从浏览器的收藏网页中查找需要浏览的网页，其中所述浏览器的收藏夹中存储有所述收藏网页的标题和地址；

匹配单元，用于如果收藏网页的标题与检索关键词匹配，则直接输出与所述检索关键词匹配的收藏网页的地址；如果收藏网页的标题与检索关键词不匹配，则将收藏网页的文本内容与检索关键词进行匹配，得到匹配的收藏网页的地址；

以及

输出单元，用于输出所述匹配的收藏网页的地址，

所述装置还包括：

第一获取单元，用于获取所述浏览器的收藏网页的文本内容；

其中，所述第一获取单元包括：

第二获取模块，获取所述浏览器的收藏网页的地址；

访问模块，用于根据所述浏览器的收藏网页的地址访问所述收藏网页；以及

爬取模块，用于在访问所述收藏网页的过程中从所述收藏网页爬取文本内容，得到所述浏览器的收藏网页的文本内容，

其中，所述爬取模块用于：

过滤所述浏览器的收藏网页的超文本标记语言标签；以及

5.根据权利要求4所述的用于浏览器的网页收藏处理装置，其特征在于，所述匹配单元包括：

第一获取模块，用于获取所述浏览器的收藏网页的标题和文本内容；以及

匹配模块，用于将所述浏览器的收藏网页的标题和文本内容与所述检索关键词进行匹配，