CN104715064A - 一种实现在网页上标注关键词的方法和服务器 - Google Patents

一种实现在网页上标注关键词的方法和服务器 Download PDF

Info

Publication number
CN104715064A
CN104715064A CN201510149902.6A CN201510149902A CN104715064A CN 104715064 A CN104715064 A CN 104715064A CN 201510149902 A CN201510149902 A CN 201510149902A CN 104715064 A CN104715064 A CN 104715064A
Authority
CN
China
Prior art keywords
url
keyword
webpage
request
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510149902.6A
Other languages
English (en)
Other versions
CN104715064B (zh
Inventor
李月雷
王志青
贾文杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510149902.6A priority Critical patent/CN104715064B/zh
Publication of CN104715064A publication Critical patent/CN104715064A/zh
Application granted granted Critical
Publication of CN104715064B publication Critical patent/CN104715064B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种实现在网页上标注关键词的方法和服务器。该实现在网页上标注关键词的方法包括:接收客户端侧发来的包含网页URL的关键词标注请求;根据所述关键词标注请求中的网页URL,获取相应的一个或多个关键词;将所查找到的一个或多个关键词以及与各关键词分别对应的搜索脚本代码返回给客户端,以使得客户端在加载渲染所述关键词标注请求中包含的网页URL所指的网页时,对该网页中包含的一个或多个关键词进行标注。本发明的这种方法使得客户端能够在加载渲染包含的网页URL所指的网页时,对该网页中包含的一个或多个关键词进行标注突出显示,方便用户查看和对该关键词进行操作,提升用户体验。

Description

一种实现在网页上标注关键词的方法和服务器
技术领域
本发明涉及互联网技术,具体涉及一种实现在网页上标注关键词的方法和服务器。
背景技术
随着互联网技术的发展,越来越多的用户使用互联网来浏览网页获取信息,用户在浏览网页内容时,可能会网页上的对某个或某些关键词感兴趣,目前网络搜索索引的主要方法之一是关键词搜索,即用户输入一个词/句子,以此为内容进行搜索,搜索引擎显示搜索结果,其中用户输入的内容就是关键词。根据现有技术,如果用户想进一步了解更多该关键词的信息,就需要自己手动操作选中该关键词,将该关键词复制粘贴到搜索引擎的搜索栏中,点击搜索后跳转到搜索结果页面,在搜索结果页面中查看与该关键词有关的更多信息,这种获取关键词相关信息的方式非常不方便,用户体验较差。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的实现在网页上标注关键词的方法和相应的服务器。
依据本发明的一个方面,提供了一种实现在网页上标注关键词的方法,该方法包括:
接收客户端侧发来的包含网页URL的关键词标注请求;
根据关键词标注请求中的网页URL,获取相应的一个或多个关键词;
将所查找到的一个或多个关键词以及与各关键词分别对应的搜索脚本代码返回给客户端,以使得客户端在加载渲染关键词标注请求中包含的网页URL所指的网页时,对该网页中包含的一个或多个关键词进行标注。
可选地,根据关键词标注请求中的网页URL,获取相应的一个或多个关键词包括:
基于关键词请求中包含的网页URL,提取网页URL的文本信息;
查找出文本信息中与关键词字典中的关键词匹配的一个或多个关键词。
可选地,根据关键词标注请求中的网页URL,获取相应的一个或多个关键词包括:
根据关键词请求中包含的网页URL,从关键词数据库中查找出对应的一个或多个关键词;其中,关键词数据库中对应保存有网页URL和网页URL所指网页中包含的关键词。
可选地,关键词数据库采用Redis作为存储,并采用主从备份。
可选地,该方法进一步包括:
将关键词数据库中的查询频率大于预设值的热门数据加载到内存中;
根据关键词请求中包含的网页URL,先查询内存,再查询关键词数据库。
可选地,该方法进一步包括离线制作关键词数据库的步骤,具体包括:
获取URL列表;
利用网络蜘蛛抓取URL列表中的各URL对应的网页HTML代码;
从网页HTML代码中抽取网页正文相关信息;
从网页正文相关信息中提取关键词。
可选地,获取URL列表包括:
周期性地获取浏览器端推荐的用户访问日志;
从用户访问日志中获取用户访问的URL;
将获取的用户访问的URL添加到URL列表中。
可选地,在将获取的用户访问的URL添加到URL列表中之前该方法进一步包括:
对获取的用户访问的URL根据对应网页的浏览量进行筛选处理,将筛选后的URL添加到URL列表中。
可选地,在将获取的用户访问的URL添加到URL列表中之前该方法进一步包括:
判断获取的一个用户访问的URL是否在URL白名单中,如果在,则将该URL添加到URL列表中;
和/或,判断获取的一个用户访问的URL是否在URL黑名单中,如果在,则不将该URL添加到URL列表中。
与前述实现在网页上标注关键词的方法相对应的,本发明还提供了一种实现在网页上标注关键词的服务器,该服务器包括:
接收单元,适于接收客户端侧发来的包含网页URL的关键词标注请求;
关键词查询单元,适于根据关键词标注请求中的网页URL,获取相应的一个或多个关键词;
反馈单元,适于将所查找到的一个或多个关键词以及与各关键词分别对应的搜索脚本代码返回给客户端,以使得客户端在加载渲染关键词标注请求中包含的网页URL所指的网页时,对该网页中包含的一个或多个关键词进行标注。
本发明的技术方案的有益效果是:接收客户端侧发来的包含网页URL的关键词标注请求,对该关键词标注请求进行处理后返回查找到的一个或多个关键词以及与各关键词分别对应的搜索脚本代码给客户端,使得客户端在加载渲染关键词标注请求中包含的网页URL所指的网页时,对该网页中包含的一个或多个关键词进行标注。这样用户在通过客户端查看网页时,能够看到标注的关键词,突出显示,方便用户查看,对该关键词进一步操作,提升用户体验。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种实现在网页上标注关键词的方法的流程示意图;
图2示出了根据本发明一个实施例的查找关键词的流程示意图;以及
图3示出了根据本发明一个实施例的利用图1所示方法在网页上标注关键词的效果示意图;
图4示出了根据本发明一个实施例的在图3所示网页上利用标注关键词进行搜索的效果示意图;
图5示出了根据本发明一个实施例的离线制作关键词数据库的流程示意图;
图6示出了根据本发明一个实施例的一种实现在网页上标注关键词的服务器的框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明中针对现有技术用户在访问网站的网页内容时,没有对网页上的关键词进行标注,导致的使用不方便的问题,提供了一种实现在网页上标注关键词的技术方案。通过本发明的这种方案,在对用户访问的当前网页进行加载渲染时,实现分别对当前网页中包含的一个或多个关键词进行标注,突出显示关键词,方便对标注的关键词的进一步搜索操作,从而提升用户体验。
图1示出了根据本发明一个实施例的一种实现在网页上标注关键词的方法的流程示意图,参见图1,该实现在网页上标注关键词的方法包括:
步骤S110,接收客户端侧发来的包含网页URL的关键词标注请求;
步骤S120,根据所述关键词标注请求中的网页URL,获取相应的一个或多个关键词;
步骤S130,将所查找到的一个或多个关键词以及与各关键词分别对应的搜索脚本代码返回给客户端,以使得客户端在加载渲染所述关键词标注请求中包含的网页URL所指的网页时,对该网页中包含的一个或多个关键词进行标注。
通过图1所示的方法,实现了对网页上关键词的标注,这样用户在访问网站的相应的网页时,可以看到该网页上的关键词已被标注,突出显示,提升了用户浏览网页内容时的体验。
在本发明的一个实施例中,图1所示的方法进一步包括:将关键词数据库中的查询频率大于预设值的热门数据加载到内存中;
根据关键词请求中包含的网页URL,先查询内存,再查询关键词数据库。
由于关键词数据库中往往存储了大量的数据,服务器根据关键词请求在关键词数据库中查询对应的关键词时,工作量大,耗时长。为了提高服务器数据处理速度和响应效率,本实施例中通过将关键词数据库中的查询频率大于预设值的热门数据加载到内存中,服务器执行查询操作时先查询内存,再查询关键词数据库。与关键词数据库相比,内存读取信息的速度非常快,并且存储容量相对关键词数据库较小,能够有效缩短查询时间。服务器如果在内存中没有查询到关键词请求中的网页URL时,再去关键字数据库中查询。另外,本实施例中是将关键词数据库中查询频率大于预设值的热门数据加载到内存中,具体的预设值可以具体情况进行设置。例如,预设值可以是100,当某一时间段内对该数据的查询超过100次的,从关键词数据库中将该数据加载到内存中,也避免了将大量非热门的数据加载到内存中增加内存负担的问题。
在本发明的一个实施例中,图1所示的方法中步骤S120包括:基于关键词请求中包含的网页URL,提取网页URL的文本信息;
查找出文本信息中与关键词字典中的关键词匹配的一个或多个关键词。
图2示出了根据本发明一个实施例的查找关键词的流程示意图,参见图2,基于关键词请求中包含的网页URL,提取网页URL的文本信息;查找出文本信息中与关键词字典中的关键词匹配的一个或多个关键词具体实现过程包括:
步骤S210,输入提取到的网页URL的文本信息;
其中,这里的网页URL的文本信息,基于接收到的客户端测发送的关键词请求中包含的网页URL,提取网页URL中的文本信息得到的网页URL文本信息。
步骤S220,对文本信息中进行分词处理;
这里的文本信息即是网页正文相关信息,对文本信息进行分词处理后,将得到的串逐一与关键词字典进行匹配。本实施例中,对文本信息进行分词处理采用的是混合粒度分词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。根据网页中文本形式的不同会有不同的处理,例如,在英文的行文中,单词之间是以空格作为自然分界符的,因而,文本信息中出现英文时,利用空格进行分词。而中文只是字、句和段能通过明显的分界符来简单划界,中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。具体的分词处理方式有:边界识别(例如,识别“词”和“词组”的边界)、消歧处理(即利用句法信息和语义信息来处理歧义现象)和内链识别(即判断“词”与“内链”的边界)。
需要说明的是,分词技术是现有技术,可以利用现有的分词技术来实现对文本信息中进行分词处理,在此不再赘述。
步骤S230,将分词处理后的串与关键词字典进行匹配;
关键词字典是规定了提取到的网页URL的文本信息中哪些词可以标注,这些能够被标注的词都是有实际意义的词。在本发明的一个实施例中,关键词字典中的关键词的来源包括如下中的一种或多种:
机构名称;
搜索机构提供的“百科”库中词;
滑词,即用户在浏览网页时,在网页上选中并进行搜索的词;
搜索机构提供的“实体库”中的词,所示实体库中规定了实体之间的关系。这些词是一个完整意义的词条。
其中,机构名称是用来识别具体机构的,例如识别高校、公司、研究所政府机关等名称的那些词。滑词是指用户在访问网站浏览网页内容时通过鼠标右键,选中一些特定词语,进行搜索,这些被用户选中的词/句子。滑词是根据用户的行为得到的词,能够体现用户浏览网页时的喜好和兴趣。
在本发明的一个实施例中,对分词后的串逐一和关键词字典进行匹配时,采用的一种匹配算法是Trie树,Trie树又称单词查找树。Trie树是一种树形结构,Trie树典型用是统计、排序和保存大量的字符串(但不仅限于字符串),经常被搜索引擎***用于文本词频统计。Trie树的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希表高。
步骤S240,命中,则提取关键字,输出要标注的文本列表。
通过图2所示的过程,能够将接收到的客户端发送的网页URL对应的关键词进行标注,以方便用户查看或利用标注的关键词进行搜索操作。
图3示出了根据本发明一个实施例的利用图1所示方法在网页上标注关键词的示意图;参见图3,根据图1所示的方法经过图2所示的步骤后,用户在访问网站的网页时看到的效果是:对机构名称类的关键词“北大青鸟矿业科技有限公司”、“联盛能源投资有限公司”以及“柳林县联盛集团”进行了标注,突出显示。
图4示出了根据本发明一个实施例的在图3所示网页上利用标注关键词进行搜索的效果示意图,参见图4,由于网页上的关键词已经进行了标注,突出显示,用户在访问网站的网页时,只需要直接点击该标注的关键词,搜索引擎会直接跳转到该关键词搜索结果页面,展现与该关键词相关的信息。不需要用户再手动选中感兴趣的词,复制粘贴到搜索引擎的搜索栏,获得与该关键词相关的信息,省略了这些复杂的操作,提升了用户使用体验。
在本发明的另一个实施例中,图1所示的方法中步骤S120包括:
根据关键词请求中包含的网页URL,从关键词数据库中查找出对应的一个或多个关键词;其中,关键词数据库中对应保存有网页URL和网页URL所指网页中包含的关键词。
在本发明的一个实施例中,关键词数据库采用Redis作为存储,并采用主从备份。Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库。Redis支持主从同步备份,数据可以从主服务器向任意数量的从服务器上同步,这里的从服务器可以是关联其他从服务器的主服务器。Redis具有读取操作的可扩展性、减少数据冗余的优点。
在本发明的一个实施例中,图1所示的方法进一步包括:离线制作关键词数据库的步骤。图5示出了根据本发明一个实施例的离线制作关键词数据库的流程示意图;参见图5,离线制作关键词数据库具体包括:
步骤S510,获取URL列表;
步骤S520,利用网络蜘蛛抓取URL列表中的各URL对应的网页HTML代码;
具体的,提交抓取URL列表的任务给网络蜘蛛,将获取的URL列表,放在Hadoop数据库的特定位置下。其中,网络蜘蛛抓取的是全部的网页HTML代码,需要进行解析以提取有用的信息。
步骤S530,从网页HTML代码中抽取网页正文相关信息;
步骤S540,从网页正文相关信息中提取关键词。
在本发明的一个实施例中,步骤S510获取URL列表包括:周期性地获取浏览器端推荐的用户访问日志;
从用户访问日志中获取用户访问的URL;
将获取的用户访问的URL添加到URL列表中。
其中,按照小时粒度获取浏览器推荐的用户访问日志,为离线挖掘关键词制作关键词数据库做准备。用户访问日志中最重要的一个字段是用户访问的网站的URL。
在本发明的一个实施例中,在将获取的用户访问的URL添加到URL列表中之前,图1所示的方法进一步包括:
对获取的用户访问的URL根据对应网页的浏览量进行筛选处理,将筛选后的URL添加到URL列表中。
由于步骤S510中采集的用户访问日志是全网的流量,相当巨大,如果不对该URL列表进行处理,直接制作关键词数据库的话会造成处理时间较长因此,有必要对获取的URL列表进行筛选以提高数据处理速度。一种具体方式根据高频PV对获取的URL列表进行筛选,这里的PV是指Page View,即页面浏览量,网页浏览量是评价网站流量最常用的指标之一。本实施例中,根据网站的页面浏览量对URL列表进行筛选,将那些页面浏览量大于预设值的URL放入URL列表中。预设值可以根据实际的应用进行设置,对此不做限制。
在本发明的一个实施例中,在将获取的用户访问的URL添加到URL列表中之前,图1所示的方法进一步包括:
判断获取的一个用户访问的URL是否在URL白名单中,如果在,则将该URL添加到URL列表中;
和/或,判断获取的一个用户访问的URL是否在URL黑名单中,如果在,则不将该URL添加到URL列表中。
在实际应用时,该方法可以根据用户访问的网站的具体情况来配置是否可以在网页中标注关键词,例如,可以将希望被标注关键词的网站添加到白名单中,这样如果获取到一个用户访问的网站的URL时,先判断该URL是否在URL白名单中,如果在,则将该URL添加到URL列表中。
和/或,将不希望被标注关键词的网站添加到黑名单中,如果获取到一个用户访问的网站的URL时,判断该URL是否在URL黑名单中,如果在,则不将该URL添加到URL列表中。
当然,也可以设置成将不希望被标注关键词的网站的URL添加到白名单中,或者将希望被标注关键词的网站的URL添加到黑名单中,在获取到一个用户访问的URL时进行具体判断是在哪一个名单中,从而确定是否添加到URL列表中。存储黑名单或白名单的粒度可以设计成Host粒度或URL粒度。粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别,细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。
在本发明的一个实施例中,步骤S530,从网页HTML代码中抽取网页正文相关信息包括:
提取网页HTML代码中的title标签、mate info标签中的内容以及正文内容,滤除广告和外链。
通过滤除广告和外链等对关键词标注没有帮助的信息,提取出title标签、meta info标签中的内容以及正文内容等有用的信息,可以简化关键词数据库的结构,避免数据冗余。
以上对本发明的这种实现在网页上标注关键词的方法进行了具体的说明,可以看出,本发明的这种实现在网页上标注关键词的方法通过对网页上的关键词进行标注,突出显示,方便了用户查看关键词,简化了利用关键词进行搜索的步骤,提升了用户使用体验。
与上述实现在网页上标注关键词的方法相对应的,本发明还提供了一种实现在网页上标注关键词的服务器,该实现在网页上标注关键词的服务器600包括:
接收单元610,适于接收客户端侧发来的包含网页URL的关键词标注请求;
关键词查询单元620,适于根据关键词标注请求中的网页URL,获取相应的一个或多个关键词;
反馈单元630,适于将所查找到的一个或多个关键词以及与各关键词分别对应的搜索脚本代码返回给客户端,以使得客户端在加载渲染关键词标注请求中包含的网页URL所指的网页时,对该网页中包含的一个或多个关键词进行标注。
与服务器相对应的,客户端在接收到服务器返回的网页URL时,加载并渲染该URL,呈现出网页上的关键词被标注的效果,这样用户在通过客户端访问网站查看网页时能够看到被标注的关键词,方便用户查看。
在本发明的一个实施例中,图6所示的关键词查询单元620,适于基于关键词请求中包含的网页URL,提取网页URL的文本信息;查找出文本信息中与关键词字典中的关键词匹配的一个或多个关键词。
在本发明的一个实施例中,图6所示的服务器600进一步包括:数据库单元,适于存储关键词数据库;
关键词查询单元,适于根据关键词请求中包含的网页URL,从关键词数据库中查找出对应的一个或多个关键词;其中,关键词数据库中对应保存有网页URL和网页URL所指网页中包含的关键词。
在本发明的一个实施例中,数据库单元中采用Redis存储关键词数据库,并采用主从备份。
在本发明的一个实施例中,图6所示的服务器600进一步包括:
热词加载单元,适于将关键词数据库中的查询频率大于预设值的热门数据加载到内存中;
关键词查询单元,适于根据关键词请求中包含的网页URL,先查询内存,再查询关键词数据库。
在本发明的一个实施例中,图6所示的服务器600进一步包括离线制作关键词数据库的装置,具体包括:
URL获取单元,适于获取URL列表;
网页抓取单元,适于利用网络蜘蛛抓取URL列表中的各URL对应的网页HTML代码;
正文抽取单元,适于从网页HTML代码中抽取网页正文相关信息;
关键词提取单元,适于从网页正文相关信息中提取关键词。
在本发明的一个实施例中,URL获取单元,适于周期性地获取浏览器端推荐的用户访问日志,从用户访问日志中获取用户访问的URL,将获取的用户访问的URL添加到URL列表中。
在本发明的一个实施例中,URL获取单元,适于在将获取的用户访问的URL添加到URL列表中之前,进一步对获取的用户访问的URL根据对应网页的浏览量进行筛选处理,将筛选后的URL添加到URL列表中。
在本发明的一个实施例中,URL获取单元,适于在将获取的用户访问的URL添加到URL列表中之前,进一步判断获取的一个用户访问的URL是否在URL白名单中,如果在,则将该URL添加到URL列表中;和/或,进一步判断获取的一个用户访问的URL是否在URL黑名单中,如果在,则不将该URL添加到URL列表中。
在本发明的一个实施例中,正文抽取单元,适于提取网页HTML代码中的title标签、mate info标签中的内容以及正文内容,滤除广告和外链。
在本发明的一个实施例中,关键词提取单元,适于对网页正文相关信息进行分词处理,将分词后的串逐一与关键词字典进行匹配,命中则作为关键词进行提取。
在本发明的一个实施例中,图6所示的服务器600进一步包括:
关键词字典生成单元,适于从包括如下中的一种或多种的来源中获取关键词添加到关键词字典中:
机构名称;
搜索机构提供的“百科”库中词;
滑词,即用户在浏览网页时,在网页上选中并进行搜索的词;
搜索机构提供的“实体库”中的词,所示实体库中规定了实体之间的关系。
需要说明的是,本发明实施例的这种实现在网页上标注关键词的服务器是和前述的实现在网页上标注关键词的方法相对应的,因此,本实施例中的服务器的具体工作过程可以参见前述方法部分的相应的说明,在此不再赘述。
综上所述,本发明的这种实现在网页上标注关键词的方法和服务器能够实现对用户访问的网站的网页上的关键词进行标注,突出显示,方便用户查看,简化了用户利用网页上被标注的关键词进行搜索的操作,提升了用户使用体验。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的服务器中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种实现在网页上标注关键词的方法,其中,该方法包括:
接收客户端侧发来的包含网页URL的关键词标注请求;
根据所述关键词标注请求中的网页URL,获取相应的一个或多个关键词;
将所查找到的一个或多个关键词以及与各关键词分别对应的搜索脚本代码返回给客户端,以使得客户端在加载渲染所述关键词标注请求中包含的网页URL所指的网页时,对该网页中包含的一个或多个关键词进行标注。
2.如权利要求1所述的方法,其中,所述根据所述关键词标注请求中的网页URL,获取相应的一个或多个关键词包括:
基于所述关键词请求中包含的网页URL,提取所述网页URL的文本信息;
查找出所述文本信息中与关键词字典中的关键词匹配的一个或多个关键词。
3.如权利要求1-2任一项所述的方法,其中,所述根据所述关键词标注请求中的网页URL,获取相应的一个或多个关键词包括:
根据所述关键词请求中包含的网页URL,从关键词数据库中查找出对应的一个或多个关键词;其中,所述关键词数据库中对应保存有网页URL和网页URL所指网页中包含的关键词。
4.如权利要求1-3任一项所述的方法,其中,所述关键词数据库采用Redis作为存储,并采用主从备份。
5.如权利要求1-4任一项所述的方法,其中,该方法进一步包括:
将关键词数据库中的查询频率大于预设值的热门数据加载到内存中;
根据所述关键词请求中包含的网页URL,先查询内存,再查询关键词数据库。
6.如权利要求1-5任一项所述的方法,其中,该方法进一步包括离线制作所述关键词数据库的步骤,具体包括:
获取URL列表;
利用网络蜘蛛抓取所述URL列表中的各URL对应的网页HTML代码;
从网页HTML代码中抽取网页正文相关信息;
从网页正文相关信息中提取关键词。
7.如权利要求1-6任一项所述的方法,其中,所述获取URL列表包括:
周期性地获取浏览器端推荐的用户访问日志;
从用户访问日志中获取用户访问的URL;
将获取的用户访问的URL添加到URL列表中。
8.如权利要求1-7任一项所述的方法,其中,在将获取的用户访问的URL添加到URL列表中之前该方法进一步包括:
对获取的用户访问的URL根据对应网页的浏览量进行筛选处理,将筛选后的URL添加到URL列表中。
9.如权利要求1-8任一项所述的方法,其中,在将获取的用户访问的URL添加到URL列表中之前该方法进一步包括:
判断获取的一个用户访问的URL是否在URL白名单中,如果在,则将该URL添加到URL列表中;
和/或,判断获取的一个用户访问的URL是否在URL黑名单中,如果在,则不将该URL添加到URL列表中。
10.一种实现在网页上标注关键词的服务器,其中,该服务器包括:
接收单元,适于接收客户端侧发来的包含网页URL的关键词标注请求;
关键词查询单元,适于根据所述关键词标注请求中的网页URL,获取相应的一个或多个关键词;
反馈单元,适于将所查找到的一个或多个关键词以及与各关键词分别对应的搜索脚本代码返回给客户端,以使得客户端在加载渲染所述关键词标注请求中包含的网页URL所指的网页时,对该网页中包含的一个或多个关键词进行标注。
CN201510149902.6A 2015-03-31 2015-03-31 一种实现在网页上标注关键词的方法和服务器 Expired - Fee Related CN104715064B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510149902.6A CN104715064B (zh) 2015-03-31 2015-03-31 一种实现在网页上标注关键词的方法和服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510149902.6A CN104715064B (zh) 2015-03-31 2015-03-31 一种实现在网页上标注关键词的方法和服务器

Publications (2)

Publication Number Publication Date
CN104715064A true CN104715064A (zh) 2015-06-17
CN104715064B CN104715064B (zh) 2018-11-02

Family

ID=53414390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510149902.6A Expired - Fee Related CN104715064B (zh) 2015-03-31 2015-03-31 一种实现在网页上标注关键词的方法和服务器

Country Status (1)

Country Link
CN (1) CN104715064B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933197A (zh) * 2015-07-13 2015-09-23 北京天天卓越科技有限公司 一种关键字确定方法及终端设备
CN105117498A (zh) * 2015-09-28 2015-12-02 北京奇虎科技有限公司 网页页面数据处理方法及装置
CN106021439A (zh) * 2016-05-16 2016-10-12 腾讯科技(深圳)有限公司 一种对通信号码的处理方法及装置
CN106407229A (zh) * 2015-08-03 2017-02-15 天脉聚源(北京)科技有限公司 一种网页关键词匹配的方法和***
WO2017117912A1 (zh) * 2016-01-04 2017-07-13 百度在线网络技术(北京)有限公司 一种数据获取方法、装置、设备及计算机存储介质
CN107203546A (zh) * 2016-03-17 2017-09-26 阿里巴巴集团控股有限公司 一种文本展示方法和装置
CN107341267A (zh) * 2017-07-24 2017-11-10 郑州云海信息技术有限公司 一种分布式文件***访问方法及平台
CN108920593A (zh) * 2018-06-27 2018-11-30 上海深势信息科技有限公司 文本显示方法、装置、设备以及存储介质
CN109144503A (zh) * 2018-08-29 2019-01-04 北京城市网邻信息技术有限公司 通过Redux存储数据的方法、装置、设备及可读存储介质
CN110309395A (zh) * 2019-07-05 2019-10-08 云南电网有限责任公司电力科学研究院 一种基于数据获取技术的专业字典构建方法
CN110889050A (zh) * 2018-09-07 2020-03-17 北京搜狗科技发展有限公司 一种泛品牌词的挖掘方法及装置
CN112507664A (zh) * 2020-12-29 2021-03-16 医渡云(北京)技术有限公司 网页元素标注方法与装置
CN113434795A (zh) * 2021-06-23 2021-09-24 杭州米络星科技(集团)有限公司 网页渲染方法、装置、设备及存储介质
CN117131301A (zh) * 2023-10-24 2023-11-28 苏州阿基米德网络科技有限公司 一种医疗设备文档的网页端浏览方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202314B (zh) * 2016-06-30 2020-02-14 北京奇虎科技有限公司 一种用于网页内查找关键词的方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050050547A1 (en) * 2003-08-29 2005-03-03 Whittle Derrick W. Method and apparatus for providing desktop application functionality in a client/server architecture
CN102065145A (zh) * 2010-12-31 2011-05-18 华为技术有限公司 一种信息投放方法、装置和***
CN102135967A (zh) * 2010-01-27 2011-07-27 华为技术有限公司 网页关键词提取方法、装置及***
CN102915380A (zh) * 2012-11-19 2013-02-06 北京奇虎科技有限公司 用于对数据进行搜索的方法和***
CN103577597A (zh) * 2013-11-15 2014-02-12 北京奇虎科技有限公司 基于当前浏览页面的关键词搜索***
CN104199954A (zh) * 2012-06-26 2014-12-10 北京奇虎科技有限公司 一种用于搜索输入的推荐***及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050050547A1 (en) * 2003-08-29 2005-03-03 Whittle Derrick W. Method and apparatus for providing desktop application functionality in a client/server architecture
CN102135967A (zh) * 2010-01-27 2011-07-27 华为技术有限公司 网页关键词提取方法、装置及***
CN102065145A (zh) * 2010-12-31 2011-05-18 华为技术有限公司 一种信息投放方法、装置和***
CN104199954A (zh) * 2012-06-26 2014-12-10 北京奇虎科技有限公司 一种用于搜索输入的推荐***及方法
CN102915380A (zh) * 2012-11-19 2013-02-06 北京奇虎科技有限公司 用于对数据进行搜索的方法和***
CN103577597A (zh) * 2013-11-15 2014-02-12 北京奇虎科技有限公司 基于当前浏览页面的关键词搜索***

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933197A (zh) * 2015-07-13 2015-09-23 北京天天卓越科技有限公司 一种关键字确定方法及终端设备
CN106407229A (zh) * 2015-08-03 2017-02-15 天脉聚源(北京)科技有限公司 一种网页关键词匹配的方法和***
CN105117498A (zh) * 2015-09-28 2015-12-02 北京奇虎科技有限公司 网页页面数据处理方法及装置
WO2017117912A1 (zh) * 2016-01-04 2017-07-13 百度在线网络技术(北京)有限公司 一种数据获取方法、装置、设备及计算机存储介质
CN107203546B (zh) * 2016-03-17 2021-07-16 创新先进技术有限公司 一种文本展示方法和装置
CN107203546A (zh) * 2016-03-17 2017-09-26 阿里巴巴集团控股有限公司 一种文本展示方法和装置
CN106021439A (zh) * 2016-05-16 2016-10-12 腾讯科技(深圳)有限公司 一种对通信号码的处理方法及装置
CN107341267A (zh) * 2017-07-24 2017-11-10 郑州云海信息技术有限公司 一种分布式文件***访问方法及平台
CN108920593A (zh) * 2018-06-27 2018-11-30 上海深势信息科技有限公司 文本显示方法、装置、设备以及存储介质
CN109144503A (zh) * 2018-08-29 2019-01-04 北京城市网邻信息技术有限公司 通过Redux存储数据的方法、装置、设备及可读存储介质
CN110889050A (zh) * 2018-09-07 2020-03-17 北京搜狗科技发展有限公司 一种泛品牌词的挖掘方法及装置
CN110309395A (zh) * 2019-07-05 2019-10-08 云南电网有限责任公司电力科学研究院 一种基于数据获取技术的专业字典构建方法
CN112507664A (zh) * 2020-12-29 2021-03-16 医渡云(北京)技术有限公司 网页元素标注方法与装置
CN113434795A (zh) * 2021-06-23 2021-09-24 杭州米络星科技(集团)有限公司 网页渲染方法、装置、设备及存储介质
CN117131301A (zh) * 2023-10-24 2023-11-28 苏州阿基米德网络科技有限公司 一种医疗设备文档的网页端浏览方法
CN117131301B (zh) * 2023-10-24 2024-01-05 苏州阿基米德网络科技有限公司 一种医疗设备文档的网页端浏览方法

Also Published As

Publication number Publication date
CN104715064B (zh) 2018-11-02

Similar Documents

Publication Publication Date Title
CN104715064A (zh) 一种实现在网页上标注关键词的方法和服务器
JP5552426B2 (ja) 自動拡張言語サーチ
US7788262B1 (en) Method and system for creating context based summary
Cafarella et al. Web-scale extraction of structured data
US8423885B1 (en) Updating search engine document index based on calculated age of changed portions in a document
Zhao et al. Topic-centric and semantic-aware retrieval system for internet of things
CN107491465A (zh) 用于搜索内容的方法和装置以及数据处理***
CN106776937B (zh) 一种确定内链关键词的方法和装置
Sivakumar Effectual web content mining using noise removal from web pages
CN105808615A (zh) 一种基于分词权重的文档索引生成方法和装置
US8949254B1 (en) Enhancing the content and structure of a corpus of content
US20100082594A1 (en) Building a topic based webpage based on algorithmic and community interactions
CN115168401A (zh) 数据分级处理方法及装置、电子设备及计算机可读介质
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
CN114117242A (zh) 数据查询方法和装置、计算机设备、存储介质
CN104715067A (zh) 在网页上标注关键词的方法、装置、***和浏览器客户端
Soulemane et al. Crawling the hidden web: An approach to dynamic web indexing
CN109948015B (zh) 一种元搜索列表结果抽取方法及***
CN104462519A (zh) 搜索查询方法和装置
KR100659370B1 (ko) 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
CN112100500A (zh) 范例学习驱动的内容关联网站发掘方法
He et al. Towards building a metaquerier: Extracting and matching web query interfaces
CN102375835B (zh) 一种信息搜索***和方法
CN111241854A (zh) 一种基于区块链技术的语言搜索引擎***
CN105808607A (zh) 一种文档索引的生成方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181102

Termination date: 20210331