CN103577489A - 一种网页浏览历史查询方法及装置 - Google Patents
一种网页浏览历史查询方法及装置 Download PDFInfo
- Publication number
- CN103577489A CN103577489A CN201210281087.5A CN201210281087A CN103577489A CN 103577489 A CN103577489 A CN 103577489A CN 201210281087 A CN201210281087 A CN 201210281087A CN 103577489 A CN103577489 A CN 103577489A
- Authority
- CN
- China
- Prior art keywords
- record
- search
- browsing
- user
- web page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种网页浏览历史查询方法及装置。一种网页浏览历史查询方法包括:接收用户输入的查询文本;获取预先生成的网页浏览历史记录;根据每条记录中携带的搜索关键词信息,判断该条记录是否与所述查询文本相匹配;利用匹配成功的记录条目生成查询结果。与现有技术相比,本发明方案是基于文本匹配的方式,查询效果明显好于根据浏览时段进行查询的方案。此外,由于匹配的依据是用户更为敏感的搜索关键词,因此相对于网页URL或者网页标题等内容而言更容易记忆,相应的查询结果也能够更好地符合用户的浏览需求。
Description
技术领域
本发明涉及互联网应用技术领域,特别是涉及一种网页浏览历史查询方法及装置。
背景技术
在用户使用计算机的过程中,计算机会对用户的操作历史行为进行自动记录。行为记录最早用于在***出现故障时进行问题定位和排查,随着计算机功能的不断丰富,行为记录也逐渐开始直接面对普通用户,通过调用历史行为的方式,实现快捷操作的目的。
以浏览器为例进行说明,现有的浏览器具备自动记录多种用户行为的功能,例如自动记录用户使用过的搜索关键词、网页浏览记录、甚至在某些网页的输入内容(例如用户名、密码)等等,当用户需要再次输入同样的信息时,就可以通过某种方式从记录中查询到之前输入的内容,从而实现快捷输入。
根据现有技术,对于用户的网页浏览行为,目前主要是采用两种方式进行处理:一种是将用户浏览过的网页按照浏览时间进行记录,相应地可以根据浏览时间对浏览记录进行展现,用户也可以根据时间对浏览历史进行查询,如图1a所示,例如查询今天曾经浏览过的网页、昨天曾经浏览过的网页,等等;另一种是将用户浏览过的网页按照名称进行记录,具体方法是根据网页的URL或者网页的标题内容建立索引,当用户再次输入URL片段或者网页标题片段时,就可以通过查询向用户反馈能够匹配到这些片段的浏览记录,如图1b所示。
由于互联网的迅速发展,用户的浏览量也有明显的提高,相应在某一时间段也会存在大量的浏览记录,此外,用户也很难记住自己浏览某网页的时 间,因此上述的第一种方式目前实际已经很难满足用户需求。上述第二种方式通过文本匹配的方式,相对于方式一可以对浏览记录实现更为有效的筛选,但是,这种方式要求用户自己至少能够记住网页URL或者网页标题的某些片段才能够实现快捷输入,然而一般情况下用户并不会去刻意去记忆这些内容;此外,用户输入的片段长度会直接影响查询结果的准确性,如果输入内容过短,也可能会导致命中结果过多,仍然难以实现快捷输入的目的。
发明内容
为解决上述技术问题,本发明实施例提供一种网页浏览历史查询方法及装置,以实现结合用户的搜索行为查询并展现浏览记录,技术方案如下:
本发明实施例提供一种网页浏览历史查询方法,其特征在于,该方法包括:
接收用户输入的查询文本;
获取预先生成的网页浏览历史记录;
根据每条记录中携带的搜索关键词信息,判断该条记录是否与所述查询文本相匹配;
利用匹配成功的记录条目生成查询结果。
根据本发明的一种具体实施方式,所述网页浏览历史记录的生成方法包括:
对用户的搜索行为进行监测;如果监测到用户通过搜索结果打开网页的行为,则在生成该网页的本次浏览记录时,为该条记录添加搜索关键词信息,所述搜索关键词信息用于记录与所述搜索结果对应的搜索关键词。
根据本发明的一种具体实施方式,所述网页浏览历史记录的生成方法还包括:
如果监测到用户通过搜索结果打开网页的行为,则在生成该网页的本次浏览记录时,为该条记录添加搜索途径浏览标识。
根据本发明的一种具体实施方式,
以所述搜索关键词信息作为搜索途径浏览标识。
根据本发明的一种具体实施方式,所述获取预先生成的网页浏览历史记录,包括:
从所有预先生成的网页浏览历史记录中,获取携带有搜索途径浏览标识的用户的网页浏览历史记录。
根据本发明的一种具体实施方式,所述根据每条记录中携带的搜索关键词信息,判断该条记录是否与所述查询文本相匹配,包括:
判断所述记录中携带的关键词信息是否与所述查询文本完全一致。
根据本发明的一种具体实施方式,所述根据每条记录中携带的搜索关键词信息,判断该条记录是否与所述查询文本相匹配,包括:
判断所述记录中携带的关键词信息是否与所述查询文本部分匹配。
根据本发明的一种具体实施方式,所述根据每条记录中携带的搜索关键词信息,判断该条记录是否与所述查询文本相匹配,包括:
判断所述记录中携带的关键词信息与所述查询文本的相似度是否超过预设的阈值。
根据本发明的一种具体实施方式,所述利用匹配成功的记录条目生成查询结果,包括:
根据匹配成功记录的浏览时间,对查询结果进行排序。
根据本发明的一种具体实施方式,所述利用匹配成功的记录条目生成查询结果,包括:
根据所述记录中携带的关键词信息与所述查询文本的相似度大小,对查询结果进行排序。
本发明实施例提供一种网页浏览历史查询装置,该装置包括:
查询文本接收单元,用于接收用户输入的查询文本;
浏览历史获取单元,用于获取预先生成的网页浏览历史记录;
查询单元,用于根据每条记录中携带的搜索关键词信息,判断该条记录是否与所述查询文本相匹配;
结果输出单元,用于利用匹配成功的记录条目生成查询结果。
根据本发明的一种具体实施方式,所述装置还包括:
浏览历史记录单元,用于对用户的搜索行为进行监测;如果监测到用户通过搜索结果打开网页的行为,则在生成该网页的本次浏览记录时,为该条记录添加搜索关键词信息,所述搜索关键词信息用于记录与所述搜索结果对应的搜索关键词。
根据本发明的一种具体实施方式,所述浏览历史记录单元,还用于:
如果监测到用户通过搜索结果打开网页的行为,则在生成该网页的本次浏览记录时,为该条记录添加搜索途径浏览标识。
根据本发明的一种具体实施方式,所述浏览历史记录单元,具体用于:
以所述搜索关键词信息作为搜索途径浏览标识。
根据本发明的一种具体实施方式,所述浏览历史获取单元,具体用于:
从所有预先生成的网页浏览历史记录中,获取携带有搜索途径浏览标识的网页浏览历史记录。
根据本发明的一种具体实施方式,所述查询单元,具体用于:
判断所述记录中携带的关键词信息是否与所述查询文本完全一致。
根据本发明的一种具体实施方式,所述查询单元,具体用于:
判断所述记录中携带的关键词信息是否与所述查询文本部分匹配。
根据本发明的一种具体实施方式,所述查询单元,具体用于:
判断所述记录中携带的关键词信息与所述查询文本的相似度是否超过预设的阈值。
根据本发明的一种具体实施方式,所述结果输出单元,具体用于:
根据匹配成功记录的浏览时间,对查询结果进行排序。
根据本发明的一种具体实施方式,所述结果输出单元,具体用于:
根据所述记录中携带的关键词信息与所述查询文本的相似度大小,对查询结果进行排序。
目前,利用搜索的方式进行浏览,已经成为用户浏览网页的主要途径, 而且,搜索关键词一般都是用户自己感兴趣内容,因此用户对搜索关键词的敏感程度远远大于网页URL或者网页标题。
基于上述情况,在本发明实施例所提供的技术方案中,对于通过搜索结果打开的网页,在生成该网页的浏览记录时会进一步记录用户搜索时所使用的关键词。在用户对浏览历史进行查询时,可以根据每条记录中携带的搜索关键词信息响应用户的查询。与现有技术相比,上述方案是基于文本匹配的方式,查询效果明显好于根据浏览时段进行查询的方案。此外,由于匹配的依据是用户更为敏感的搜索关键词,因此相对于网页URL或者网页标题等内容而言更容易记忆,相应的查询结果也能够更好地符合用户的浏览需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1a和图1b为现有技术的网页浏览历史展现方法示意图;
图2为本发明实施例网页浏览行为记录方法的流程图;
图3为本发明实施例网页浏览历史展现方法的流程图;
图4a和图4b为本发明实施例网页浏览历史展现示意图;
图5为本发明实施例网页浏览历史查询方法的流程图;
图6为本发明实施例网页浏览历史记录生成装置的结构示意图;
图7为本发明实施例网页浏览历史展现装置的结构示意图;
图8为本发明实施例网页浏览历史查询装置的结构示意图。
具体实施方式
现有技术中,对于用户的网页浏览行为记录,主要采用两种方式实现:一种方式是按照浏览时间进行记录,相应地可以根据浏览时间对所有浏览记录进行展示,但是在单位时间浏览量较大的情况下,这种方式的筛选效果已 经无法满足用户的实际需求。另一种方式是按照网页的名称进行记录,相应地用户根据网页URL或者网页标题进行查询,然而这种方式需要用户能够记住网页URL或者网页标题的内容,对用户提出了更高的要求。
针对现有技术所存在的问题,本发明实施例所提供的技术方案是:对于用户通过搜索的方式打开的网页,在生成该网页的浏览记录时进一步记录用户搜索时所使用的关键词。相应地,在展现浏览记录时,可以根据“搜索关键词”对浏览记录进行结构化展现,用户也可以利用搜索关键词对浏览记录进行查询。与现有技术相比,本发明实施例所提供的方案采用基于文本匹配的方式,筛选效果明显好于根据浏览时段进行查询的方案。此外,由于匹配的依据是用户更为敏感的搜索关键词,因此相对于网页URL或者网页标题等内容而言更容易记忆,相应的查询或展现结果也能够更好地符合用户的浏览需求。
为了使本领域技术人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明保护的范围。
图2所示为本发明所提供的一种网页浏览行为记录方法的流程图,该方法可以包括以下步骤:
S101,对用户的搜索行为进行监测;
S102,如果监测到用户通过搜索结果打开网页的行为,则在生成该网页的本次浏览记录时,为该条记录添加搜索关键词信息。
随着网络技术的快速发展,面对网络上的海量数据,用户经常利用搜索的方式来解决信息过滤问题。搜索引擎是为用户提供搜索服务的***,其通过网络爬虫抓取网络上的大量数据,进行序列化存储,建立索引库,然后利用前端搜索页面,对用户输入的关键词进行分词处理和匹配检索,而后将符合条件的网页信息按照一定的排序方式展现在搜索结果页中,用户可以通过 点击搜索结果页中的链接,打开相应的网页。
目前,利用搜索的方式进行浏览,已经成为用户浏览网页的一种主要途径,而且用户往往都会使用自己感兴趣的内容构成搜索关键词。很多情况下,对于曾经浏览过的网页,用户并不一定记得准确的浏览时间,也不一定记得网页的URL和网页的标题,但是对于通过搜索途径浏览的网页,用户却很容易记得:自己曾经关注或哪方面内容、自己曾经用过什么关键词进行网页搜索。
可见,用户对搜索关键词的敏感程度远远大于网页URL或者网页标题等内容,基于这一情况,在本发明实施例所提供的技术方案中,根据打开网页的途径,将用户浏览网页的行为划分为两种:通过搜索途径浏览和通过非搜索途径浏览。
其中“通过搜索途径浏览”是指:用户利用搜索引擎,通过自行输入搜索关键词、或者利用搜索建议得到搜索结果,进而通过搜索结果打开某个网页,则这个网页的浏览途径为“通过搜索途径浏览”,这类浏览途径的特征在于:对于任一个“通过搜索途径浏览”的网页浏览记录,都能够找到一个对应的搜索关键词,也就是得到搜索结果所用的关键词。
而“通过非搜索途径浏览”则可以包括:通过输入URL打开、通过收藏夹打开以及通过其他非搜索结果页链接等方式打开网页的行为,这类浏览途径的特征是:对于任一个“通过非搜索途径浏览”的网页浏览记录,都没有对应的搜索关键词。
通过对用户的搜索行为进行监测,可以监测到用户通过搜索结果打开网页的行为。在具体的实施过程中,可以对用户在一个或多个特定的搜索网站的搜索行为进行监控,也可以对用户在直接浏览器的搜索框进行的搜索行为进行监控。当搜索引擎针对用户输入的搜索关键词给出搜索结果后,用户一般会通过点击一条或多条结果的方式来打开自己感兴趣的网页,如果监测到用户的这种行为,则在生成网页的浏览记录时,对该条记录添加搜关键词信息,该信息用于记录与搜索结果相对应的搜索关键词。
例如,用户在搜索网站输入搜索关键词“法拉利”进行搜索,并且在搜索结果页中进一步点击浏览了以下网页:
a.法拉利官方网站,
URL:http://www.ferrari.cn/
b.百度百科“法拉利”词条页,
URL:http://baike.***.com/view/4490.htm
用户又输入关键词“非你莫属”进行搜索,然后在搜索结果页中进一步点击浏览了以下网页:
c.百度百科“非你莫属”词条页,
URL:http://baike.***.com/view/624646.htm
那么,在生成上述三次浏览行为的记录时,除了记录网页的URL、网页标题、浏览时间等,还需要记录用户搜索时所用的关键词“法拉利”,记录格式如表1所示:
网页URL | 网页标题 | 浏览时间 | 关键词 |
http://www.ferrari.cn/ | Ferrari Official Web Site | …… | 法拉利 |
http://baike.***.com/view/4490.htm | 法拉利_百度百科 | …… | 法拉利 |
http://baike.***.com/view/624646.htm | 非你莫属_百度百科 | …… | 非你莫属 |
表1
可以理解的是,表1中的内容仅用于示意性说明,并不用于限定实际的存储格式。例如,对于本发明所提供的方案而言,“网页标题”和“浏览时间”两项并不是必须的。
另外需要说明的是,所记录的搜索关键词,并不限于是用户自己手动输入的,例如,用户输入“法拉利”进行搜索,对于一些可以提供搜索建议的搜索引擎,除了能够给出与“法拉利”对应的搜索结果之外,还可以给出例如“法拉利跑车”、“法拉利标志”等相关的搜索建议,当用户点击这些搜索建议时,实质上相当于以搜索建议的内容作为关键词再一次发起搜索请求,如果用户在“法拉利跑车”的搜索结果页中点击某个结果,则该次浏览也应 被视为“通过搜索途径浏览”。
在本发明的一种优选实施方式中,如果监测到用户通过搜索结果打开网页的行为,还可以在生成该网页的本次浏览记录时,为该条记录进一步添加一个添加搜索途径浏览标识,用来区分“通过搜索途径浏览”和“通过非搜索途径浏览”两种途径的浏览记录。
例如,用户通过直接输入URL、收藏夹、或者非搜索结果页链接等方式进入网页:
d.百度首页,
URL:http://www.***.com/
那么,在生成浏览行为的记录时,为区分浏览途径,可以进一步在浏览记录中增加用于标识浏览途径的字段,如表2所示:
表2
在表2中的“是否搜索途径浏览”一栏中,以“1”表示“搜索途径浏览”,以“0”标识“非搜索途径浏览”。可以看出最后一条浏览记录与其他三条浏览记录的区别。
在浏览记录中添加搜索途径标识字段,其目的是能够直接区分出一条浏览记录是否对应是通过搜索途径浏览的,并进一步执行后续操作。当然,对于“非搜索途径浏览”的记录本身没有对应的搜索关键词,因此在本发明一种实施方式中,也可以将“搜索关键词”和“浏览途径”字段合并,仅以一个“搜索关键词”字段表示,通过检查每条记录的“搜索关键词”字段是否不为空,判断该条记录是否是“通过搜索途径浏览”。
本发明实施例通过以上方法生成网页浏览历史记录,其中对于用户通过搜索的方式打开的网页,在生成该网页的浏览记录时给予特殊标识(该步骤可选),并且记录用户搜索时所使用的关键词。利用以上形式的浏览记录,可以实现根据“搜索关键词”对浏览记录进行结构化展现,也可以响应用户基于“搜索关键词”的浏览记录查询请求,在本发明的以下实施例中,将对这两种应用方式分别进行说明。
图3所示,为本发明实施例一种网页浏览历史展现方法的流程图,该方法可以包括以下步骤:
S201,获取预先生成的网页浏览历史记录;
根据前面实施例的描述,在预先生成的网页浏览历史记录中,对于用户通过搜索的方式打开的网页,在记录中会进一步携带用户搜索时所使用的关键词信息。本实施例则是对于这些携带关键词信息的浏览记录进行分类展现处理。
如果在预先生成浏览记录的过程中,在记录中添加了用于表明该条记录浏览途径的标识,则在本步骤中,可以先根据这个标识,从所有的记录数据中筛选出通过“搜索途径浏览”的记录数据。例如,对于表2所示的数据,可以根据“是否搜索途径浏览”一列,将该列取值为0的第四行数据去除,仅保留该列取值为1的前三行数据。此外,也可以仅根据表1或表2中“关键词”一列是否为空,判断每条浏览记录是否为“通过搜索途径浏览”。当然,可以理解的,如果所生成的浏览记录全部是通过搜索途径浏览的,那么也可以不需要进行筛选操作。
S202,根据每条记录中携带的搜索关键词信息,对网页浏览历史记录进行分类;
根据每条记录中携带的搜索关键词信息,将网页浏览历史记录的集合划分为不同的子集,其中每个子集对应一个不同的搜索关键词。
以表1所示的数据为例,根据“关键词”一列,可以将表1中的三条数据划分为两类:
关键词为“法拉利”的第一条记录和第二条记录;
关键词为“非你莫属”的第三条记录。
S203,根据分类结果,对网页浏览历史记录进行展现。
根据每条浏览记录的关键词的不同,对浏览记录进行分类展现。在本实施例所提供的中,采用分类标签的方式,对不同搜索关键词的浏览记录进行分类展现:
首先根据不同搜索关键词的内容,生成不同的分类标签,然后根据分类结果,将每条浏览记录分配至对应的分类标签下进行展现。参见图4a和图4b所示,根据浏览记录中携带的关键词信息,分别在显示区域生成了“法拉利”、“非你莫属”、“度娘刘冬愤怒的小鸟”、“the new iPad”等标签,其中,每个标签都是用户曾经使用过的关键词,而每个标签下的显示的网页结果则是用户曾经利用该关键词搜索到的网页。用户通过切换选择标签,就可以有针对性地查看自己曾经浏览过的网页。如图4a所示,当前活动标签为“法拉利”,相应在预览区域显示了与“法拉利”相关的浏览记录;如图4b所示,用户通过切换操作,将当前活动标签切换为“非你莫属”,则预览区域所显示的内容也相应地变为与“非你莫属”相关的浏览记录。
考虑到用户在同一时间只能浏览一个标签的内容,因此在本发明的一种实现方式中,在用户刚开始浏览某个标签的搜索结果时,可以仅对当前活动标签对应的搜索结果进行加载并展示,待用户执行切换操作后,再对其他相应标签的内容进行加载并展示。这种方式可以有效地减少***资源的消耗。当然,如果出于展示速度方面的考虑,也可以在对当前活动标签对应的搜索结果进行加载并展示的同时,对其他标签对应的展示内容在后台进行预加载。这样当用户执行标签切换操作时,可以在第一时间为用户展示相应的搜索结果,省去用户等待加载所消耗的时间。
另外,考虑到所有浏览记录所对应关键词种类可能会比较多,因此在本发明的一种实施方式中,可以有选择地生成分类标签,或者采用一定的策略对多个标签进行排序:
1)一个搜索关键词所对应的浏览记录数量,可以反映用户对这个关键词的重视程度,根据这一情况,可以统计每个搜索关键词所对应的浏览记录数量,然后根据每个搜索关键词所对应的浏览记录数量,确定分类标签的展示展现顺序和/或展示展现数量。根据一般的浏览习惯,可以将浏览记录数量较多的关键词标签排在比较靠前的位置,例如“法拉利”对应的浏览记录为10条,“非你莫属”对应的浏览记录为8条,那么在展现的过程中,根据浏览记录数量,可以把“法拉利”标签排在“非你莫属”标签之前。
另外,在生成标签的过程中,还可以根据搜索关键词所对应的记录数量来确定生成标签的数量。例如:对所有搜索关键词所对应的浏览记录数量进行统计并排名,然后仅对记录数量排名前n位的关键词生成标签;或者,仅对浏览记录数量大于一定门限值的关键词生成标签,等等。
2)除了关键词所对应的浏览记录数量之外,用户使用关键词进行搜索的时间,也可以反映用户对这个关键词的重视程度,根据这一情况,可以统计每个搜索关键词的最近使用时间。然后根据每个搜索关键词所对应的最近使用时间,确定分类标签的展示展现顺序和/或展示展现数量。根据一般的浏览习惯,可以将使用时间较近的标签排在比较靠前的位置,例如“法拉利”最近一次使用是今天,“非你莫属”最近一次使用是昨天,那么在展现的过程中,根据浏览记录的最近使用时间,可以把“法拉利”标签排在“非你莫属”标签之前。
另外,在生成标签的过程中,还可以根据搜索关键词所对应的最近使用时间来确定生成标签的数量。例如:对所有搜索关键词所对应的最近使用时间进行统计并排名,然后仅对最近使用时间排名前n位的关键词生成标签;或者,仅对使用时间晚于一定时刻门限值的关键词生成标签,等等。
可以理解的是,上述两种对标签进行排序或数量控制的方案,仅用于示意性说明,并不构成对本发明方案的限定。根据本发明方案的基本思想,除了依据浏览记录数量和最近使用时间对关键词进行排序之外,还可以采用其他的策略对标签进行排序或数量控制,用户在使用过程中,也可以根据*** 所提供的策略进行灵活选择。
当然,上述的“标签分类展现”也仅是本发明的一种具体实施方式,在实际应用过程中,还可以采用列表或层级菜单等形式,对网页浏览历史记录以“关键词”为维度分类进行展示,本发明对此并不需要进行限定。
上述实施例所提供的方案,在对网页浏览历史进行展现时,根据每条记录中携带的搜索关键词信息对浏览历史进行分类展现。与现有技术相比,上述方案是基于文本匹配的方式,分类效果明显好于根据浏览时段进行分类展现的方案。此外,由于匹配的依据是用户更为敏感的搜索关键词,因此相对于网页URL或者网页标题等内容而言更容易记忆,相应展示出的浏览记录结果也能够更好地符合用户的浏览需求。
图5所示,为本发明实施例一种网页浏览历史查询方法的流程图,该方法可以包括以下步骤:
S301,接收用户输入的查询文本;
用户可以在搜索栏或者地址栏中,输入查询文本,其中,该查询文本可以是用户曾经使用过的搜索关键词,由于搜索关键词是用户自己感兴趣的内容,因此用户对于搜索关键词的记忆能力会远强于网页URL、网页标题等信息。
例如,用户曾经利用关键词“法拉利”进行搜索并利用搜索结果进一步浏览了法拉利的官方主页,该主页的URL为http://www.ferrari.cn/,标题为“Ferrari Official Web Site”,这两部分内容无论是全称还是片段都不容易记忆,根据本发明方案,用户可以直接输入自己曾经使用过的搜索关键词“法拉利”对本机已保存的浏览记录进行查询。
S302,获取预先生成的网页浏览历史记录;
根据前面实施例的描述,在预先生成的网页浏览历史记录中,对于用户通过搜索的方式打开的网页,在记录中会进一步携带用户搜索时所使用的关键词信息。本实施例则是对于这些携带关键词信息的浏览记录进行分类展现 处理。
如果在预先生成浏览记录的过程中,在记录中添加了用于表明该条记录浏览途径的标识,则在本步骤中,可以先根据这个标识,从所有的记录数据中筛选出通过“搜索途径浏览”的记录数据。例如,对于表2所示的数据,可以根据“是否搜索途径浏览”一列,将该列取值为0的第四行数据去除,仅保留该列取值为1的前三行数据。此外,也可以仅根据表1或表2中“关键词”一列是否为空,判断每条浏览记录是否为“通过搜索途径浏览”。当然,可以理解的,如果所生成的浏览记录全部是通过搜索途径浏览的,那么也可以不需要进行筛选操作。
S303,根据每条记录中携带的搜索关键词信息,判断该条记录是否与所述查询文本相匹配;
根据本发明的方案,对于已保存的网页浏览记录,可以根据“关键词”一列数据建立索引,以便对用户的查询做出快速响应。
当然,在实际的应用过程中,判定“记录是否与查询文本相匹配”的策略也可以灵活设置,例如:
1)判断所述记录中携带的关键词信息是否与查询文本完全一致。
根据这种策略,浏览记录中携带的关键词必须与查询文本完全一致,才会被判定为匹配。
2)判断所述记录中携带的关键词信息是否与所述查询文本部分匹配。
与策略1)相比,该策略的“匹配”的要求相对宽松,根据该策略,在浏览记录中携带的关键词与查询文本部分一致的情况下,就可以被判定为匹配,例如,用户输入“非你”,可以匹配到关键词信息为“非你莫属”的浏览记录;用户输入“愤怒的小鸟”,可以匹配到关键词信息为“度娘刘冬愤怒的小鸟”的浏览记录。
3)判断所述记录中携带的关键词信息与所述查询文本的相似度是否超过预设的阈值。
与策略2)相比,该策略的“匹配”的要求更为宽松,即不要求文本上 的完全一致,例如,用户输入“度娘愤怒的小鸟”,则希望可以匹配到关键词信息为“度娘刘冬愤怒的小鸟”的浏览记录。
对于文本相似度的计算方法,从大的方面分类,可以分为字面相似与语义相似。字面相似,最基本的方法是利用“公共字串长度/当前文本总长度”的公式计算,当然也可以引入欧式距离等其他更复杂的算法计算。语义相似,则需要在字面相似的基础上,引入一些同义资源,对同义词进行替换归一,然后再计算,如“电能转换”与“电能转化”归一为“电能转化”,然后再进行字面相似度计算。字面相似在很多情况下,可以近似估计出语义相似,且不需要额外资源;语义相似则需要额外资源,但也会带来比字面相似更准确的效果。根据实际应用需求,本领域技术人员可以灵活选择各种文本相似的具体计算方法,本发明对此并不需要进行限定。
可以理解的是,上述三种匹配策略,仅用于示意性说明,并不构成对本发明方案的限定。根据本发明方案的基本思想,本领域技术人员还可以引入其他的匹配策略,用户在使用过程中,也可以根据***所提供的策略进行灵活选择。
S304,利用匹配成功的记录条目生成查询结果。
对于匹配成功的记录条目,生成相应的查询结果向用户反馈。一种最简单的方式是,将所有匹配成功的记录条目直接展示给用户。在本发明的优选实施方式中,还可以对这些匹配成功的记录条目以一定的策略进行排序后再展示给用户。
例如,可以根据匹配成功记录的浏览时间,对查询结果进行排序。在实际应用中,可以按照每条记录的浏览时间距离当前由近到远的顺序,对记录进行排序,也可以如图1a所示,将浏览记录分类到不同的时间段中,需要注意的是,与图1a的区别在于,这里的浏览记录是能够与用户查询相匹配的浏览记录,而不是所有的浏览记录。
另外,如果在匹配查询的过程中,所采用的匹配策略利用了相似度,那么,还可以根据所述记录中携带的关键词信息与所述查询文本的相似度大小, 对查询结果进行排序。例如用户输入的查询内容为“愤怒的小鸟”,通过查询,关键词为“愤怒的小鸟”的浏览记录以及关键词为“度娘刘冬愤怒的小鸟”的浏览记录都能够匹配,那么根据相似度排序,可以把“愤怒的小鸟”对应的浏览记录排在“度娘刘冬愤怒的小鸟” 对应的浏览记录之前。
当然上述两种对查询结果进行排序的方案,仅用于示意性说明,并不构成对本发明方案的限定。根据本发明方案的基本思想,本领域技术人员还可以引入其他的排序策略,用户在使用过程中,也可以根据***所提供的策略进行灵活选择。
上述实施例所提供的方案,在用户对浏览历史进行查询时,可以根据每条记录中携带的搜索关键词信息响应用户的查询。与现有技术相比,上述方案是基于文本匹配的方式,查询效果明显好于根据浏览时段进行查询的方案。此外,由于匹配的依据是用户更为敏感的搜索关键词,因此相对于网页URL或者网页标题等内容而言更容易记忆,相应的查询结果也能够更好地符合用户的浏览需求。
假设用户曾经利用关键词“法拉利”进行搜索并利用搜索结果进一步浏览了法拉利的官方主页,该主页的URL为http://www.ferrari.cn/,标题为“Ferrari Official Web Site”,这两部分内容无论是全称还是片段都不容易记忆,根据现有的方案,如果用户想再次浏览该页面,需要再次利用“法拉利”进行搜索,然后在根据搜索引擎提供的搜索结果,从结果页进一步链接至相应页面。而应用本发明方案,用户可以直接利用自己曾经使用过的搜索关键词“法拉利”直接查询到在本机保存的网页浏览记录,不需要调用搜索引擎,也不需要经过搜索结果页进行链接,既方便用户使用,同时有效地节省了***资源。
相应于上面的方法实施例,相应于上面的方法实施例,本发明还提供一种网页浏览行为记录装置,参见图6所示,该装置可以包括:
监测单元110,用于对用户的搜索行为进行监测;
记录单元120,如果所示监测单元110监测到用户通过搜索结果打开网页的行为,则在生成该网页的本次浏览记录时,为该条记录添加搜索关键词信息。
在本发明实施例所提供的技术方案中,根据打开网页的途径,将用户浏览网页的行为划分为两种:通过搜索途径浏览和通过非搜索途径浏览。
在本发明实施例所提供的技术方案中,根据打开网页的途径,将用户浏览网页的行为划分为两种:通过搜索途径浏览和通过非搜索途径浏览。
其中“通过搜索途径浏览”是指:用户利用搜索引擎,通过自行输入搜索关键词、或者利用搜索建议得到搜索结果,进而通过搜索结果打开某个网页,则这个网页的浏览途径为“通过搜索途径浏览”,这类浏览途径的特征在于:对于任一个“通过搜索途径浏览”的网页浏览记录,都能够找到一个对应的搜索关键词,也就是得到搜索结果所用的关键词。
而“通过非搜索途径浏览”则可以包括:通过输入URL打开、通过收藏夹打开以及通过其他非搜索结果页链接等方式打开网页的行为,这类浏览途径的特征是:对于任一个“通过非搜索途径浏览”的网页浏览记录,都没有对应的搜索关键词。
通过对用户的搜索行为进行监测,可以监测到用户通过搜索结果打开网页的行为。在具体的实施过程中,可以对用户在一个或多个特定的搜索网站的搜索行为进行监控,也可以对用户在直接浏览器的搜索框进行的搜索行为进行监控。当搜索引擎针对用户输入的搜索关键词给出搜索结果后,用户一般会通过点击一条或多条结果的方式来打开自己感兴趣的网页,如果监测到用户的这种行为,则在生成网页的浏览记录时,对该条记录添加搜关键词信息,该信息用于记录与搜索结果相对应的搜索关键词。
需要说明的是,所记录的搜索关键词,并不限于是用户自己手动输入的,例如,用户输入“法拉利”进行搜索,对于一些可以提供搜索建议的搜索引擎,除了能够给出与“法拉利”对应的搜索结果之外,还可以给出例如“法拉利跑车”、“法拉利标志”等相关的搜索建议,当用户点击这些搜索建议 时,实质上相当于以搜索建议的内容作为关键词再一次发起搜索请求,如果用户在“法拉利跑车”的搜索结果页中点击某个结果,则该次浏览也应被视为“通过搜索途径浏览”。
在本发明的一种优选实施方式中,如果监测到用户通过搜索结果打开网页的行为,还可以在生成该网页的本次浏览记录时,为该条记录进一步添加一个添加搜索途径浏览标识,用来区分“通过搜索途径浏览”和“通过非搜索途径浏览”两种途径的浏览记录。
在浏览记录中添加搜索途径标识字段,其目的是能够直接区分出一条浏览记录是否对应是通过搜索途径浏览的,并进一步执行后续操作。当然,对于“非搜索途径浏览”的记录本身没有对应的搜索关键词,因此在本发明一种实施方式中,也可以将“搜索关键词”和“浏览途径”字段合并,仅以一个“搜索关键词”字段表示,通过检查每条记录的“搜索关键词”字段是否不为空,判断该条记录是否是“通过搜索途径浏览”。
本发明实施例通过以上方法生成网页浏览历史记录,其中对于用户通过搜索的方式打开的网页,在生成该网页的浏览记录时给予特殊标识(该步骤可选),并且记录用户搜索时所使用的关键词。利用以上形式的浏览记录,可以实现根据“搜索关键词”对浏览记录进行结构化展现,也可以响应用户基于“搜索关键词”的浏览记录查询请求,在本发明的以下实施例中,将对这两种应用方式分别进行说明。
参见图7所示,本发明实施例还提供一种网页浏览历史展现装置,该装置可以包括:
浏览历史获取单元210,用于获取预先生成的网页浏览历史记录;
在预先生成的网页浏览历史记录中,对于用户通过搜索的方式打开的网页,在记录中会进一步携带用户搜索时所使用的关键词信息。本实施例则是对于这些携带关键词信息的浏览记录进行分类展现处理。
如果在预先生成浏览记录的过程中,在记录中添加了用于表明该条记录 浏览途径的标识,则在本步骤中,可以先根据这个标识,从所有的记录数据中筛选出通过“搜索途径浏览”的记录数据。例如,对于表2所示的数据,可以根据“是否搜索途径浏览”一列,将该列取值为0的第四行数据去除,仅保留该列取值为1的前三行数据。此外,也可以仅根据表1或表2中“关键词”一列是否为空,判断每条浏览记录是否为“通过搜索途径浏览”。当然,可以理解的,如果所生成的浏览记录全部是通过搜索途径浏览的,那么也可以不需要进行筛选操作。
浏览历史分类单元220,用于根据每条记录中携带的搜索关键词信息,对网页浏览历史记录进行分类;
根据每条记录中携带的搜索关键词信息,将网页浏览历史记录的集合划分为不同的子集,其中每个子集对应一个不同的搜索关键词。
以表1所示的数据为例,根据“关键词”一列,可以将表1中的三条数据划分为两类:
关键词为“法拉利”的第一条记录和第二条记录;
关键词为“非你莫属”的第三条记录。
浏览历史展现单元230,用于根据分类结果,对网页浏览历史记录进行展现。根据每条浏览记录的关键词的不同,对浏览记录进行分类展现。在本实施例所提供的中,采用分类标签的方式,对不同搜索关键词的浏览记录进行分类展现:
首先根据不同搜索关键词的内容,生成不同的分类标签,然后根据分类结果,将每条浏览记录分配至对应的分类标签下进行展现。参见图4a和图4b所示,根据浏览记录中携带的关键词信息,分别在显示区域生成了“法拉利”、“非你莫属”、“度娘刘冬愤怒的小鸟”、“the new iPad”等标签,其中,每个标签都是用户曾经使用过的关键词,而每个标签下的显示的网页结果则是用户曾经利用该关键词搜索到的网页。用户通过切换选择标签,就可以有针对性地查看自己曾经浏览过的网页。如图4a所示,当前活动标签为“法拉利”,相应在预览区域显示了与“法拉利”相关的浏览记录;如图4b 所示,用户通过切换操作,将当前活动标签切换为“非你莫属”,则预览区域所显示的内容也相应地变为与“非你莫属”相关的浏览记录。
考虑到用户在同一时间只能浏览一个标签的内容,因此在本发明的一种实现方式中,在用户刚开始浏览某个标签的搜索结果时,可以仅对当前活动标签对应的搜索结果进行加载并展示,待用户执行切换操作后,再对其他相应标签的内容进行加载并展示。这种方式可以有效地减少***资源的消耗。当然,如果出于展示速度方面的考虑,也可以在对当前活动标签对应的搜索结果进行加载并展示的同时,对其他标签对应的展示内容在后台进行预加载。这样当用户执行标签切换操作时,可以在第一时间为用户展示相应的搜索结果,省去用户等待加载所消耗的时间。
另外,考虑到所有浏览记录所对应关键词种类可能会比较多,因此在本发明的一种实施方式中,可以有选择地生成分类标签,或者采用一定的策略对多个标签进行排序:
1)一个搜索关键词所对应的浏览记录数量,可以反映用户对这个关键词的重视程度,根据这一情况,可以统计每个搜索关键词所对应的浏览记录数量,然后根据每个搜索关键词所对应的浏览记录数量,确定分类标签的展示展现顺序和/或展示展现数量。根据一般的浏览习惯,可以将浏览记录数量较多的关键词标签排在比较靠前的位置,例如“法拉利”对应的浏览记录为10条,“非你莫属”对应的浏览记录为8条,那么在展现的过程中,根据浏览记录数量,可以把“法拉利”标签排在“非你莫属”标签之前。
另外,在生成标签的过程中,还可以根据搜索关键词所对应的记录数量来确定生成标签的数量。例如:对所有搜索关键词所对应的浏览记录数量进行统计并排名,然后仅对记录数量排名前n位的关键词生成标签;或者,仅对浏览记录数量大于一定门限值的关键词生成标签,等等。
2)除了关键词所对应的浏览记录数量之外,用户使用关键词进行搜索的时间,也可以反映用户对这个关键词的重视程度,根据这一情况,可以统计每个搜索关键词的最近使用时间。然后根据每个搜索关键词所对应的最近使 用时间,确定分类标签的展示展现顺序和/或展示展现数量。根据一般的浏览习惯,可以将使用时间较近的标签排在比较靠前的位置,例如“法拉利”最近一次使用是今天,“非你莫属”最近一次使用是昨天,那么在展现的过程中,根据浏览记录的最近使用时间,可以把“法拉利”标签排在“非你莫属”标签之前。
另外,在生成标签的过程中,还可以根据搜索关键词所对应的最近使用时间来确定生成标签的数量。例如:对所有搜索关键词所对应的最近使用时间进行统计并排名,然后仅对最近使用时间排名前n位的关键词生成标签;或者,仅对使用时间晚于一定时刻门限值的关键词生成标签,等等。
可以理解的是,上述两种对标签进行排序或数量控制的方案,仅用于示意性说明,并不构成对本发明方案的限定。根据本发明方案的基本思想,除了依据浏览记录数量和最近使用时间对关键词进行排序之外,还可以采用其他的策略对标签进行排序或数量控制,用户在使用过程中,也可以根据***所提供的策略进行灵活选择。
当然,上述的“标签分类展现”也仅是本发明的一种具体实施方式,在实际应用过程中,还可以采用列表或层级菜单等形式,对网页浏览历史记录以“关键词”为维度分类进行展示,本发明对此并不需要进行限定。
上述实施例所提供的方案,在对网页浏览历史进行展现时,根据每条记录中携带的搜索关键词信息对浏览历史进行分类展现。与现有技术相比,上述方案是基于文本匹配的方式,分类效果明显好于根据浏览时段进行分类展现的方案。此外,由于匹配的依据是用户更为敏感的搜索关键词,因此相对于网页URL或者网页标题等内容而言更容易记忆,相应展示出的浏览记录结果也能够更好地符合用户的浏览需求。
根据本发明的一种具体实施方式,所述网页浏览历史记录展现装置还可以进一步包括:浏览历史记录单元,该单元的总体功能相当于前述网页浏览行为记录装置,这里不再重复说明。
参见图8所示,本发明实施例还提供一种网页浏览历史查询装置,该装置可以包括:
查询文本接收单元310,用于接收用户输入的查询文本;
用户可以在搜索栏或者地址栏中,输入查询文本,其中,该查询文本可以是用户曾经使用过的搜索关键词,由于搜索关键词是用户自己感兴趣的内容,因此用户对于搜索关键词的记忆能力会远强于网页URL、网页标题等信息。
例如,用户曾经利用关键词“法拉利”进行搜索并利用搜索结果进一步浏览了法拉利的官方主页,该主页的URL为http://www.ferrari.cn/,标题为“Ferrari Official Web Site”,这两部分内容无论是全称还是片段都不容易记忆,根据本发明方案,用户可以直接输入自己曾经使用过的搜索关键词“法拉利”对本机已保存的浏览记录进行查询。
浏览历史获取单元320,用于获取预先生成的网页浏览历史记录;
根据前面实施例的描述,在预先生成的网页浏览历史记录中,对于用户通过搜索的方式打开的网页,在记录中会进一步携带用户搜索时所使用的关键词信息。本实施例则是对于这些携带关键词信息的浏览记录进行分类展现处理。
如果在预先生成浏览记录的过程中,在记录中添加了用于表明该条记录浏览途径的标识,则在本步骤中,可以先根据这个标识,从所有的记录数据中筛选出通过“搜索途径浏览”的记录数据。例如,对于表2所示的数据,可以根据“是否搜索途径浏览”一列,将该列取值为0的第四行数据去除,仅保留该列取值为1的前三行数据。此外,也可以仅根据表1或表2中“关键词”一列是否为空,判断每条浏览记录是否为“通过搜索途径浏览”。当然,可以理解的,如果所生成的浏览记录全部是通过搜索途径浏览的,那么也可以不需要进行筛选操作。
查询单元330,用于根据每条记录中携带的搜索关键词信息,判断该条记录是否与所述查询文本相匹配;
根据本发明的方案,对于已保存的网页浏览记录,可以根据“关键词”一列数据建立索引,以便对用户的查询做出快速响应。
当然,在实际的应用过程中,判定“记录是否与查询文本相匹配”的策略也可以灵活设置,例如:
1)判断所述记录中携带的关键词信息是否与查询文本完全一致。
根据这种策略,浏览记录中携带的关键词必须与查询文本完全一致,才会被判定为匹配。
2)判断所述记录中携带的关键词信息是否与所述查询文本部分匹配。
与策略1)相比,该策略的“匹配”的要求相对宽松,根据该策略,在浏览记录中携带的关键词与查询文本部分一致的情况下,就可以被判定为匹配,例如,用户输入“非你”,可以匹配到关键词信息为“非你莫属”的浏览记录;用户输入“愤怒的小鸟”,可以匹配到关键词信息为“度娘刘冬愤怒的小鸟”的浏览记录。
3)判断所述记录中携带的关键词信息与所述查询文本的相似度是否超过预设的阈值。
与策略2)相比,该策略的“匹配”的要求更为宽松,即不要求文本上的完全一致,例如,用户输入“度娘愤怒的小鸟”,则希望可以匹配到关键词信息为“度娘刘冬愤怒的小鸟”的浏览记录。
对于文本相似度的计算方法,从大的方面分类,可以分为字面相似与语义相似。字面相似,最基本的方法是利用“公共字串长度/当前文本总长度”的公式计算,当然也可以引入欧式距离等其他更复杂的算法计算。语义相似,则需要在字面相似的基础上,引入一些同义资源,对同义词进行替换归一,然后再计算,如“电能转换”与“电能转化”归一为“电能转化”,然后再进行字面相似度计算。字面相似在很多情况下,可以近似估计出语义相似,且不需要额外资源;语义相似则需要额外资源,但也会带来比字面相似更准确的效果。根据实际应用需求,本领域技术人员可以灵活选择各种文本相似的具体计算方法,本发明对此并不需要进行限定。
可以理解的是,上述三种匹配策略,仅用于示意性说明,并不构成对本发明方案的限定。根据本发明方案的基本思想,本领域技术人员还可以引入其他的匹配策略,用户在使用过程中,也可以根据***所提供的策略进行灵活选择。
结果输出单元340,用于利用匹配成功的记录条目生成查询结果。
对于匹配成功的记录条目,生成相应的查询结果向用户反馈。一种最简单的方式是,将所有匹配成功的记录条目直接展示给用户。在本发明的优选实施方式中,还可以对这些匹配成功的记录条目以一定的策略进行排序后再展示给用户。
例如,可以根据匹配成功记录的浏览时间,对查询结果进行排序。在实际应用中,可以按照每条记录的浏览时间距离当前由近到远的顺序,对记录进行排序,也可以如图1a所示,将浏览记录分类到不同的时间段中,需要注意的是,与图1a的区别在于,这里的浏览记录是能够与用户查询相匹配的浏览记录,而不是所有的浏览记录。
另外,如果在匹配查询的过程中,所采用的匹配策略利用了相似度,那么,还可以根据所述记录中携带的关键词信息与所述查询文本的相似度大小,对查询结果进行排序。例如用户输入的查询内容为“愤怒的小鸟”,通过查询,关键词为“愤怒的小鸟”的浏览记录以及关键词为“度娘刘冬愤怒的小鸟”的浏览记录都能够匹配,那么根据相似度排序,可以把“愤怒的小鸟”对应的浏览记录排在“度娘刘冬愤怒的小鸟” 对应的浏览记录之前。
当然上述两种对查询结果进行排序的方案,仅用于示意性说明,并不构成对本发明方案的限定。根据本发明方案的基本思想,本领域技术人员还可以引入其他的排序策略,用户在使用过程中,也可以根据***所提供的策略进行灵活选择。
上述实施例所提供的方案,在用户对浏览历史进行查询时,可以根据每条记录中携带的搜索关键词信息响应用户的查询。与现有技术相比,上述方案是基于文本匹配的方式,查询效果明显好于根据浏览时段进行查询的方案。 此外,由于匹配的依据是用户更为敏感的搜索关键词,因此相对于网页URL或者网页标题等内容而言更容易记忆,相应的查询结果也能够更好地符合用户的浏览需求。
假设用户曾经利用关键词“法拉利”进行搜索并利用搜索结果进一步浏览了法拉利的官方主页,该主页的URL为http://www.ferrari.cn/,标题为“Ferrari Official Web Site”,这两部分内容无论是全称还是片段都不容易记忆,根据现有的方案,如果用户想再次浏览该页面,需要再次利用“法拉利”进行搜索,然后在根据搜索引擎提供的搜索结果,从结果页进一步链接至相应页面。而应用本发明方案,用户可以直接利用自己曾经使用过的搜索关键词“法拉利”直接查询到在本机保存的网页浏览记录,不需要调用搜索引擎,也不需要经过搜索结果页进行链接,既方便用户使用,同时有效地节省了***资源。
根据本发明的一种具体实施方式,所述网页浏览历史记录查询装置还可以进一步包括:浏览历史记录单元,该单元的总体功能相当于前述网页浏览行为记录装置,这里不再重复说明。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同 之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及***实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (20)
1.一种网页浏览历史查询方法,其特征在于,该方法包括:
接收用户输入的查询文本;
获取预先生成的网页浏览历史记录;
根据每条记录中携带的搜索关键词信息,判断该条记录是否与所述查询文本相匹配;
利用匹配成功的记录条目生成查询结果。
2.根据权利要求1所述的方法,其特征在于,所述网页浏览历史记录的生成方法包括:
对用户的搜索行为进行监测;如果监测到用户通过搜索结果打开网页的行为,则在生成该网页的本次浏览记录时,为该条记录添加搜索关键词信息,所述搜索关键词信息用于记录与所述搜索结果对应的搜索关键词。
3.根据权利要求2所述的方法,其特征在于,所述网页浏览历史记录的生成方法还包括:
如果监测到用户通过搜索结果打开网页的行为,则在生成该网页的本次浏览记录时,为该条记录添加搜索途径浏览标识。
4.根据权利要求3所述的方法,其特征在于,
以所述搜索关键词信息作为搜索途径浏览标识。
5.根据权利要求3或4所述的方法,其特征在于,所述获取预先生成的网页浏览历史记录,包括:
从所有预先生成的网页浏览历史记录中,获取携带有搜索途径浏览标识的用户的网页浏览历史记录。
6.根据权利要求1所述的方法,其特征在于,所述根据每条记录中携带的搜索关键词信息,判断该条记录是否与所述查询文本相匹配,包括:
判断所述记录中携带的关键词信息是否与所述查询文本完全一致。
7.根据权利要求1所述的方法,其特征在于,所述根据每条记录中携带的搜索关键词信息,判断该条记录是否与所述查询文本相匹配,包括:
判断所述记录中携带的关键词信息是否与所述查询文本部分匹配。
8.根据权利要求1所述的方法,其特征在于,所述根据每条记录中携带的搜索关键词信息,判断该条记录是否与所述查询文本相匹配,包括:
判断所述记录中携带的关键词信息与所述查询文本的相似度是否超过预设的阈值。
9.根据权利要求1所述的方法,其特征在于,所述利用匹配成功的记录条目生成查询结果,包括:
根据匹配成功记录的浏览时间,对查询结果进行排序。
10.根据权利要求8所述的方法,其特征在于,所述利用匹配成功的记录条目生成查询结果,包括:
根据所述记录中携带的关键词信息与所述查询文本的相似度大小,对查询结果进行排序。
11.一种网页浏览历史查询装置,其特征在于,该装置包括:
查询文本接收单元,用于接收用户输入的查询文本;
浏览历史获取单元,用于获取预先生成的网页浏览历史记录;
查询单元,用于根据每条记录中携带的搜索关键词信息,判断该条记录是否与所述查询文本相匹配;
结果输出单元,用于利用匹配成功的记录条目生成查询结果。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
浏览历史记录单元,用于对用户的搜索行为进行监测;如果监测到用户通过搜索结果打开网页的行为,则在生成该网页的本次浏览记录时,为该条记录添加搜索关键词信息,所述搜索关键词信息用于记录与所述搜索结果对应的搜索关键词。
13.根据权利要求12所述的装置,其特征在于,所述浏览历史记录单元,还用于:
如果监测到用户通过搜索结果打开网页的行为,则在生成该网页的本次浏览记录时,为该条记录添加搜索途径浏览标识。
14.根据权利要求13所述的装置,其特征在于,所述浏览历史记录单元,具体用于:
以所述搜索关键词信息作为搜索途径浏览标识。
15.根据权利要求13或14所述的装置,其特征在于,所述浏览历史获取单元,具体用于:
从所有预先生成的网页浏览历史记录中,获取携带有搜索途径浏览标识的网页浏览历史记录。
16.根据权利要求11所述的装置,其特征在于,所述查询单元,具体用于:
判断所述记录中携带的关键词信息是否与所述查询文本完全一致。
17.根据权利要求11所述的装置,其特征在于,所述查询单元,具体用于:
判断所述记录中携带的关键词信息是否与所述查询文本部分匹配。
18.根据权利要求11所述的装置,其特征在于,所述查询单元,具体用于:
判断所述记录中携带的关键词信息与所述查询文本的相似度是否超过预设的阈值。
19.根据权利要求11所述的装置,其特征在于,所述结果输出单元,具体用于:
根据匹配成功记录的浏览时间,对查询结果进行排序。
20.根据权利要求18所述的装置,其特征在于,所述结果输出单元,具体用于:
根据所述记录中携带的关键词信息与所述查询文本的相似度大小,对查询结果进行排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210281087.5A CN103577489A (zh) | 2012-08-08 | 2012-08-08 | 一种网页浏览历史查询方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210281087.5A CN103577489A (zh) | 2012-08-08 | 2012-08-08 | 一种网页浏览历史查询方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103577489A true CN103577489A (zh) | 2014-02-12 |
Family
ID=50049286
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210281087.5A Pending CN103577489A (zh) | 2012-08-08 | 2012-08-08 | 一种网页浏览历史查询方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103577489A (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104679899A (zh) * | 2015-03-17 | 2015-06-03 | 努比亚技术有限公司 | 搜索方法、搜索装置及终端 |
CN104933099A (zh) * | 2015-05-28 | 2015-09-23 | 百度在线网络技术(北京)有限公司 | 一种为用户提供目标搜索结果的方法与装置 |
CN105631036A (zh) * | 2016-01-13 | 2016-06-01 | 浙江慧脑信息科技有限公司 | 一种浏览历史查询方法 |
CN106484921A (zh) * | 2016-12-06 | 2017-03-08 | 庄爱芹 | 一种在网页的浏览记录中搜索关键字的方法 |
CN106599147A (zh) * | 2016-12-06 | 2017-04-26 | 庄爱芹 | 一种浏览器浏览记录的管理方法及装置 |
CN106611022A (zh) * | 2015-10-27 | 2017-05-03 | 北京国双科技有限公司 | 提高网站站内搜索效率的方法和装置 |
CN108319613A (zh) * | 2017-01-18 | 2018-07-24 | 阿里巴巴集团控股有限公司 | 一种网页信息归类的方法及设备 |
CN108628992A (zh) * | 2018-04-28 | 2018-10-09 | 上海与德通讯技术有限公司 | 网页的搜索词的获取方法和电子设备 |
CN108804433A (zh) * | 2017-04-26 | 2018-11-13 | 北京京东尚科信息技术有限公司 | 信息推送方法和装置 |
CN109582757A (zh) * | 2018-12-06 | 2019-04-05 | 深圳高企在线科技有限公司 | 一种知识产权综合信息快速查询方法及*** |
CN109634991A (zh) * | 2018-12-12 | 2019-04-16 | 安徽讯呼信息科技有限公司 | 一种基于大数据的搜索方法 |
CN109670105A (zh) * | 2018-11-30 | 2019-04-23 | 维沃移动通信有限公司 | 搜索方法及移动终端 |
CN110321544A (zh) * | 2019-07-08 | 2019-10-11 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
CN110472142A (zh) * | 2019-07-19 | 2019-11-19 | 平安科技(深圳)有限公司 | 历史浏览网页查找方法、装置、存储介质和计算机设备 |
CN111177551A (zh) * | 2019-12-27 | 2020-05-19 | 百度在线网络技术(北京)有限公司 | 确定搜索结果的方法、装置、设备和计算机存储介质 |
CN111612547A (zh) * | 2020-05-27 | 2020-09-01 | 恩亿科(北京)数据科技有限公司 | 广告创意图片生成方法、装置、计算机设备及存储介质 |
WO2021196541A1 (zh) * | 2020-04-01 | 2021-10-07 | 百度在线网络技术(北京)有限公司 | 用于搜索内容的方法、装置、设备和计算机可读存储介质 |
CN114328572A (zh) * | 2020-09-28 | 2022-04-12 | 北京鸿享技术服务有限公司 | 基于sql解析器的数据查询方法、装置、***及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050021677A1 (en) * | 2003-05-20 | 2005-01-27 | Hitachi, Ltd. | Information providing method, server, and program |
CN101807187A (zh) * | 2009-02-16 | 2010-08-18 | 杨云国 | 基于浏览信息的即时搜索方法 |
CN102375833A (zh) * | 2010-08-12 | 2012-03-14 | 橘子电视股份有限公司 | 记录及搜索网页的方法以及记录浏览网页的方法 |
CN102521251A (zh) * | 2011-11-16 | 2012-06-27 | 北京搜狗科技发展有限公司 | 个性化搜索直达的方法、实现该方法的装置和搜索服务器 |
-
2012
- 2012-08-08 CN CN201210281087.5A patent/CN103577489A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050021677A1 (en) * | 2003-05-20 | 2005-01-27 | Hitachi, Ltd. | Information providing method, server, and program |
CN101807187A (zh) * | 2009-02-16 | 2010-08-18 | 杨云国 | 基于浏览信息的即时搜索方法 |
CN102375833A (zh) * | 2010-08-12 | 2012-03-14 | 橘子电视股份有限公司 | 记录及搜索网页的方法以及记录浏览网页的方法 |
CN102521251A (zh) * | 2011-11-16 | 2012-06-27 | 北京搜狗科技发展有限公司 | 个性化搜索直达的方法、实现该方法的装置和搜索服务器 |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104679899A (zh) * | 2015-03-17 | 2015-06-03 | 努比亚技术有限公司 | 搜索方法、搜索装置及终端 |
CN104933099A (zh) * | 2015-05-28 | 2015-09-23 | 百度在线网络技术(北京)有限公司 | 一种为用户提供目标搜索结果的方法与装置 |
CN106611022A (zh) * | 2015-10-27 | 2017-05-03 | 北京国双科技有限公司 | 提高网站站内搜索效率的方法和装置 |
CN106611022B (zh) * | 2015-10-27 | 2020-03-03 | 北京国双科技有限公司 | 提高网站站内搜索效率的方法和装置 |
CN105631036A (zh) * | 2016-01-13 | 2016-06-01 | 浙江慧脑信息科技有限公司 | 一种浏览历史查询方法 |
CN106484921A (zh) * | 2016-12-06 | 2017-03-08 | 庄爱芹 | 一种在网页的浏览记录中搜索关键字的方法 |
CN106599147A (zh) * | 2016-12-06 | 2017-04-26 | 庄爱芹 | 一种浏览器浏览记录的管理方法及装置 |
CN108319613A (zh) * | 2017-01-18 | 2018-07-24 | 阿里巴巴集团控股有限公司 | 一种网页信息归类的方法及设备 |
CN108804433A (zh) * | 2017-04-26 | 2018-11-13 | 北京京东尚科信息技术有限公司 | 信息推送方法和装置 |
CN108628992A (zh) * | 2018-04-28 | 2018-10-09 | 上海与德通讯技术有限公司 | 网页的搜索词的获取方法和电子设备 |
CN109670105A (zh) * | 2018-11-30 | 2019-04-23 | 维沃移动通信有限公司 | 搜索方法及移动终端 |
CN109582757A (zh) * | 2018-12-06 | 2019-04-05 | 深圳高企在线科技有限公司 | 一种知识产权综合信息快速查询方法及*** |
CN109634991A (zh) * | 2018-12-12 | 2019-04-16 | 安徽讯呼信息科技有限公司 | 一种基于大数据的搜索方法 |
CN109634991B (zh) * | 2018-12-12 | 2023-03-21 | 安徽讯呼信息科技有限公司 | 一种基于大数据的搜索方法 |
CN110321544A (zh) * | 2019-07-08 | 2019-10-11 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
CN110321544B (zh) * | 2019-07-08 | 2023-07-25 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
CN110472142A (zh) * | 2019-07-19 | 2019-11-19 | 平安科技(深圳)有限公司 | 历史浏览网页查找方法、装置、存储介质和计算机设备 |
CN111177551A (zh) * | 2019-12-27 | 2020-05-19 | 百度在线网络技术(北京)有限公司 | 确定搜索结果的方法、装置、设备和计算机存储介质 |
WO2021128729A1 (zh) * | 2019-12-27 | 2021-07-01 | 百度在线网络技术(北京)有限公司 | 确定搜索结果的方法、装置、设备和计算机存储介质 |
US11734373B2 (en) | 2019-12-27 | 2023-08-22 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, apparatus, device and computer storage medium for determining search result |
WO2021196541A1 (zh) * | 2020-04-01 | 2021-10-07 | 百度在线网络技术(北京)有限公司 | 用于搜索内容的方法、装置、设备和计算机可读存储介质 |
CN111612547A (zh) * | 2020-05-27 | 2020-09-01 | 恩亿科(北京)数据科技有限公司 | 广告创意图片生成方法、装置、计算机设备及存储介质 |
CN111612547B (zh) * | 2020-05-27 | 2023-11-03 | 恩亿科(北京)数据科技有限公司 | 广告创意图片生成方法、装置、计算机设备及存储介质 |
CN114328572A (zh) * | 2020-09-28 | 2022-04-12 | 北京鸿享技术服务有限公司 | 基于sql解析器的数据查询方法、装置、***及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103577489A (zh) | 一种网页浏览历史查询方法及装置 | |
CN103577490A (zh) | 一种网页浏览历史展现方法及装置 | |
US20210334451A1 (en) | Uniform resource locator subscription service | |
JP4637969B1 (ja) | ウェブページの主意,およびユーザの嗜好を適切に把握して,最善の情報をリアルタイムに推奨する方法 | |
US7580926B2 (en) | Method and apparatus for representing text using search engine, document collection, and hierarchal taxonomy | |
US9348935B2 (en) | Systems and methods for augmenting a keyword of a web page with video content | |
JP5721818B2 (ja) | 検索におけるモデル情報群の使用 | |
US8386478B2 (en) | Methods and systems for unobtrusive search relevance feedback | |
TWI398786B (zh) | 產生以專業知識為基礎的搜尋結果之系統、方法及其電腦可讀取媒體 | |
US9798820B1 (en) | Classification of keywords | |
CN111708740A (zh) | 基于云平台的海量搜索查询日志计算分析*** | |
US20080282186A1 (en) | Keyword generation system and method for online activity | |
KR20110085995A (ko) | 검색 결과들의 제공 | |
CN102693271A (zh) | 一种网络信息推荐方法及*** | |
CN104216881A (zh) | 一种个性化标签的推荐方法及装置 | |
JP2007018285A (ja) | 情報提供システム、情報提供方法、情報提供装置並びに情報提供プログラム | |
Gasparetti et al. | Exploiting web browsing activities for user needs identification | |
US20130031075A1 (en) | Action-based deeplinks for search results | |
US20130031091A1 (en) | Action-based search results and action view pivoting | |
CN104050183A (zh) | 浏览器输入框的内容匹配结果提示方法及装置 | |
US11941073B2 (en) | Generating and implementing keyword clusters | |
Malhotra et al. | A comprehensive review from hyperlink to intelligent technologies based personalized search systems | |
CN114090877A (zh) | 职位信息推荐方法、装置、电子设备及存储介质 | |
CN105824915A (zh) | 一种网购产品评论文摘生成方法及*** | |
US20150154266A1 (en) | Providing Leaf Page Sublinks In Response To A Search Query |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140212 |
|
RJ01 | Rejection of invention patent application after publication |