CN105183905A - 一种官方网站网址的查询词挖掘方法和装置 - Google Patents

一种官方网站网址的查询词挖掘方法和装置 Download PDF

Info

Publication number
CN105183905A
CN105183905A CN201510641174.0A CN201510641174A CN105183905A CN 105183905 A CN105183905 A CN 105183905A CN 201510641174 A CN201510641174 A CN 201510641174A CN 105183905 A CN105183905 A CN 105183905A
Authority
CN
China
Prior art keywords
official website
title
keyword
query word
homepage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510641174.0A
Other languages
English (en)
Inventor
马伟
陈进平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510641174.0A priority Critical patent/CN105183905A/zh
Publication of CN105183905A publication Critical patent/CN105183905A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种官方网站网址的查询词挖掘方法和装置。方法包括:对于每个查询词待挖掘的官方网站,依据其各页面的标题确定该官方网站的一个或多个查询词;将所述确定的一个或多个查询词分别与该官方网站的网址对应保存到数据库中。该技术方案能够准确地从官方网站中挖掘到该网站的一个或多个关键词,并将得到的关键词与该官方网站的网址进行对应保存,不需要人工进行数据的统计和提交,也解决了用户点击浏览统计方式不能保证获得的数据准确性的问题,具有实施方法简单、挖掘结果准确的有益效果。

Description

一种官方网站网址的查询词挖掘方法和装置
技术领域
本发明涉及数据挖掘领域,具体涉及一种官方网站网址的查询词挖掘装置和相应的官方网站网址的查询词挖掘方法。
背景技术
在现实生活中,用户希望访问网站时很少会选择在地址栏直接输入网站的网址,而通常会选择在搜索引擎中输入查询词来进行官方网站网址的查询,再通过点击相应的链接进行网站的访问。而搜索引擎为了解决当用户希望访问官方网站的网址时,能够通过搜索引擎获得准确的官方网站网址的问题,使用了官方网站查询技术。
现有的官方网站查询技术主要通过人工方式进行官方网站网址数据的提交,以及进行用户点击浏览统计来实现。然而,通过人工方式提交官方网站网址数据不能覆盖全部官方网站的网址数据,并且费时费力;而在存在作弊网站的情况下,通过用户点击浏览统计方式不能保证获得的数据准确性。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的官方网站网址的查询词挖掘装置和相应的官方网站网址的查询词挖掘方法。
依据本发明的一个方面,提供了一种官方网站网址的查询词挖掘方法,包括:对于每个查询词待挖掘的官方网站,依据其各页面的标题确定该官方网站的一个或多个查询词;将所述确定的一个或多个查询词分别与该官方网站的网址对应保存到数据库中。
可选地,所述对于每个查询词待挖掘的官方网站,依据其各页面的标题确定该官方网站的一个或多个查询词包括:对该官方网站域名的主页的标题进行分析,确定主页的标题中包含的一个或多个关键词;对该官方网站域名下所有或部分页面的标题进行分析,确定各网页中包含的关键词,统计主页的标题中包含的所述一个或多个关键词的出现次数;根据主页的标题中包含的所述一个或多个关键词的出现次数,确定其中的一个或多个关键词为该官方网站的查询词。
可选地,该方法进一步包括:根据主页的标题中包含的所述一个或多个关键词的出现次数、关键词的长度以及是否包含停用词,确定其中的一个或多个关键词为该官方网站的查询词。
可选地,所述对该官方网站域名的主页的标题进行分析,确定主页的标题中包含的一个或多个关键词包括:对该官方网站域名的主页的标题,根据其中包含的各类符号分隔出的词组,确定该主页的标题中包含的一个或多个关键词。
可选地,该方法进一步包括:接收用户输入的查询关键词;将所述查询关键词与所述数据库中的查询词进行匹配;如果数据库中存在与所述查询关键词匹配的查询词,则将该匹配的查询词对应的官方网站的网址返回给用户。
可选地,该方法进一步包括:如果数据库中存在与所述查询关键词匹配的查询词,进一步判断该官方网站的网址的查询次数和/或浏览次数是否达到预设条件;如果达到预设条件,再将该匹配的查询词对应的官方网站的网址返回给用户。
依据本发明的另一方面,提供了一种官方网站网址的查询词挖掘装置,包括:查询词确定单元,适于对每个查询词待挖掘的官方网站,依据其各页面的标题确定该官方网站的一个或多个查询词;查询词入库单元,将所述确定的一个或多个查询词分别与该官方网站的网址对应保存到数据库中;存储单元,适于存储所述数据库。
可选地,所述查询词确定单元,包括:标题分析模块,适于对该官方网站域名的主页的标题进行分析,确定主页的标题中包含的一个或多个关键词;以及对该官方网站域名下所有或部分页面的标题进行分析,确定各网页中包含的关键词;统计确定模块,适于统计主页的标题中包含的所述一个或多个关键词的出现次数;以及根据主页的标题中包含的所述一个或多个关键词的出现次数,确定其中的一个或多个关键词为该官方网站的查询词。
可选地,所述统计确定模块,进一步适于根据主页的标题中包含的所述一个或多个关键词的出现次数、关键词的长度以及是否包含停用词,确定其中的一个或多个关键词为该官方网站的查询词。
可选地,所述标题分析模块,进一步适于对该官方网站域名的主页的标题,根据其中包含的各类符号分隔出的词组,确定该主页的标题中包含的一个或多个关键词。
可选地,该装置进一步包括:查询处理单元,适于接收用户输入的查询关键词,将所述查询关键词与所述数据库中的查询词进行匹配,如果数据库中存在与所述查询关键词匹配的查询词,则将该匹配的查询词对应的官方网站的网址返回给用户。
可选地,所述查询处理单元,进一步适于在数据库中存在与所述查询关键词匹配的查询词时,判断该官方网站的网址的查询次数和/或浏览次数是否达到预设条件,如果达到所述预设条件,再将该匹配的查询词对应的官方网站的网址返回给用户。
由上述可知,本发明的技术方案提供了一种官方网站网址的查询词挖掘方法和装置,该方法对于每个查询词待挖掘的官方网站,依据其各页面的标题确定该官方网站的一个或多个查询词,将所述确定的一个或多个查询词分别与该官方网站的网址对应保存到数据库中。该技术方案能够准确地从官方网站中挖掘到该网站的一个或多个关键词,并将得到的关键词与该官方网站的网址进行对应保存,不需要人工进行数据的统计和提交,也解决了用户点击浏览统计方式不能保证获得的数据准确性的问题,具有实施方法简单、挖掘结果准确的有益效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种官方网站网址的查询词挖掘方法的流程图;
图2示出了根据本发明一个实施例的一种官方网站网址的查询词挖掘装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的一种官方网站网址的查询词挖掘方法的流程图,如图1所示,该方法包括:
步骤S110,对于每个查询词待挖掘的官方网站,依据其各页面的标题确定该官方网站的一个或多个查询词。
通常一个官方网站的域名下会对应存在多个页面,例如,某新闻网站的域名下还细化为娱乐新闻、教育新闻、社会新闻等多个独立的页面,每个独立的页面中还包含多个具体新闻的页面链接,但这些页面都同处于该官方网站的域名下。该步骤对于每个查询词待挖掘的官方网站,对其各页面的标题均进行统计,可以提高确定该官方网站的一个或多个查询词的准确性。
步骤S120,将确定的一个或多个查询词分别与该官方网站的网址对应保存到数据库中。
可见,图1所示的方法对于每个查询词待挖掘的官方网站,依据其各页面的标题确定该官方网站的一个或多个查询词,将所述确定的一个或多个查询词分别与该官方网站的网址对应保存到数据库中。该技术方案能够准确地从官方网站中挖掘到该网站的一个或多个关键词,并将得到的关键词与该官方网站的网址进行对应保存,不需要人工进行数据的统计和提交,也解决了用户点击浏览统计方式不能保证获得的数据准确性的问题,具有实施方法简单、挖掘结果准确的有益效果。
在本发明的一个实施例中,图1所示方法的步骤S110对于每个查询词待挖掘的官方网站,依据其各页面的标题确定该官方网站的一个或多个查询词包括如下步骤:
步骤S111,对该官方网站域名的主页的标题进行分析,确定主页的标题中包含的一个或多个关键词。
在本步骤中,可以通过建立关键词-URL(UniformResourceLocator,统一资源定位符)的键值对进行统计,key为关键词,value为与该关键词对应的域名的URL。例如,从该官方网站域名的主页的标题中确定出的关键词为A,该官方网站的域名的URL为B,则建立key为A,value为B的键值对。
步骤S112,对该官方网站域名下所有或部分页面的标题进行分析,确定各网页中包含的关键词,统计主页的标题中包含的一个或多个关键词的出现次数。
与步骤S111类似,在本步骤中,同样可以通过建立键值对进行统计,不过此时key为关键词,value为挖掘到该关键词的次数。例如,从某页面的标题中确定了该网页包含的关键词为C,若该关键词在该官方网站主页以外的页面从未被挖掘到,则建立key为“C”,value为“1”的键值对。若在另一页面中,再次挖掘到该关键词,则将key为“C”的value中取到的变量加1作为该key新的value,最终可以得到各一个或多个关键词的出现次数,如关键词C的键值对中value最终为27,则证明该关键词共被挖掘到27次。之后可以对步骤S112中得到的关键词key与步骤S111中得到的主页中的关键词key进行匹配,只保留主页中统计到的关键词的出现次数,将其作为主页的标题中包含的一个或多个关键词的出现次数。当然,也可以在其他页面进行挖掘时,只挖掘与从该官方网站域名的主页的标题中确定出的关键词一致的关键词并加以统计。
步骤S113,根据主页的标题中包含的一个或多个关键词的出现次数,确定其中的一个或多个关键词为该官方网站的查询词。
通常可以将出现次数最多的关键词直接确定为该官方网站的查询词,也可以通过人工或预设阈值的方式,当一个关键词的出现次数达到预设条件时便将其确定为官方网站的查询词。
在本发明的一个实施例中,步骤S113还可以进一步优选为:
根据主页的标题中包含的一个或多个关键词的出现次数、关键词的长度以及是否包含停用词,确定其中的一个或多个关键词为该官方网站的查询词。
本实施例中增加了更多关键词的判断指标,可以更准确地判断该关键词是否为该官方网站的查询词。例如,关键词在标题首部比较醒目,通常可以准确地描述官方网站,也是最为用户所知、用户最易输入的查询关键词,则可以增加该关键词的权值;关键词长度较长,可能为该官方网站所属企业的全称,许多追求准确的用户可能将其作为查询关键词进行搜索,则也同样可以增加该关键词的权值。最终,通过对各关键词判断指标加权求得满足预设条件的关键词作为该官方网站的查询词。
在本发明的一个实施例中,上述步骤S111对该官方网站域名的主页的标题进行分析,确定主页的标题中包含的一个或多个关键词包括:对该官方网站域名的主页的标题,根据其中包含的各类符号分隔出的词组,确定该主页的标题中包含的一个或多个关键词。
例如,该主页的标题表现为AAAA|BBBB|CCCC|DDDD,其中以“|”分将标题分割为四部分,实际上,每一部分通常都是该主页的一种描述方式。以“www.360.cn”主页的标题为例,其标题为“360安全中心-360安全卫士-杀毒软件|免费杀毒软件|企业杀毒软件|安全浏览器”,其中包含了两种符号“-”和“|”,将标题分为了六部分,可以看出其中每部分都可以独立出来表达一定的含义,如“360安全卫士”“安全浏览器”代表了该网站所提供的不同产品,在用户希望下载上述产品时通常希望访问该产品的官方网站,而因此在搜索引擎中输入的查询词通常与产品名称相同,从而可以看出,将上述根据官方网站域名的主页的标题包含的各类符号分隔出的词组而确定出的该主页的标题中包含的一个或多个关键词是比较准确的。
在本发明的一个实施例中,上述方法进一步包括:
接收用户输入的查询关键词;将查询关键词与数据库中的查询词进行匹配;如果数据库中存在与查询关键词匹配的查询词,则将该匹配的查询词对应的官方网站的网址返回给用户。
该实施例提供了一种简单的反馈用户查询请求的方法。由于已经在数据库中保存了大量查询词和与查询词对应的官方网站的网址,当接收到用户输入的查询关键词,如搜索引擎的搜索栏中输入的字符时,可以将该查询关键词与数据库中的查询词进行匹配,如果数据库中存在与查询关键词匹配的查询词,则将该匹配的查询词对应的官方网站的网址返回给用户,用户便可以直接访问该官方网站,准确方便地解决了用户的需求。
在本发明的一个实施例中,上述方法进一步包括:
如果数据库中存在与查询关键词匹配的查询词,进一步判断该官方网站的网址的查询次数和/或浏览次数是否达到预设条件;如果达到预设条件,再将该匹配的查询词对应的官方网站的网址返回给用户。
在本实施例中进一步对前述实施例加以改进,在数据库中存在与查询关键词匹配的查询词时,进一步判断该官方网站的网址的查询次数和/或浏览次数是否达到预设条件。需要注意的是,本实施例中,判断官方网站的网址的查询次数和/或浏览次数是否达到预设条件是在数据库中已经存在查询词,且用户输入的查询关键词与该查询词相匹配的情况下进行的,因此不存在现有技术中进行用户点击浏览统计会受到作弊网站欺骗的情况。
图2示出了根据本发明一个实施例的一种官方网站网址的查询词挖掘装置的结构示意图,如图2所示,官方网站网址的查询词挖掘装置200包括:
查询词确定单元210,适于对每个查询词待挖掘的官方网站,依据其各页面的标题确定该官方网站的一个或多个查询词。
通常一个官方网站的域名下会对应存在多个页面,例如,某新闻网站的域名下还细化为娱乐新闻、教育新闻、社会新闻等多个独立的页面,每个独立的页面中还包含多个具体新闻的页面链接,但这些页面都同处于该官方网站的域名下。该步骤对于每个查询词待挖掘的官方网站,对其各页面的标题均进行统计,可以提高确定该官方网站的一个或多个查询词的准确性。
查询词入库单元220,将确定的一个或多个查询词分别与该官方网站的网址对应保存到数据库中。
存储单元230,适于存储数据库。
可见,图2所示的官方网站网址的查询词挖掘装置200对于每个查询词待挖掘的官方网站,采用查询词确定单元210依据其各页面的标题确定该官方网站的一个或多个查询词,查询词入库单元220将所述确定的一个或多个查询词分别与该官方网站的网址对应保存到存储单元230存储的数据库中。该装置能够准确地从官方网站中挖掘到该网站的一个或多个关键词,并将得到的关键词与该官方网站的网址进行对应保存,不需要人工进行数据的统计和提交,也解决了用户点击浏览统计方式不能保证获得的数据准确性的问题,具有实施方法简单、挖掘结果准确的有益效果。
在本发明的一个实施例中,图2所示的装置中,查询词确定单元220包括:
标题分析模块221,适于对该官方网站域名的主页的标题进行分析,确定主页的标题中包含的一个或多个关键词;以及对该官方网站域名下所有或部分页面的标题进行分析,确定各网页中包含的关键词。
统计确定模块222,适于统计主页的标题中包含的一个或多个关键词的出现次数;以及根据主页的标题中包含的一个或多个关键词的出现次数,确定其中的一个或多个关键词为该官方网站的查询词。
统计确定模块222可以通过建立关键词-URL(UniformResourceLocator,统一资源定位符)的键值对统计主页的标题中包含的一个或多个关键词的出现次数,key为关键词,value为与该关键词对应的域名的URL。例如,从该官方网站域名的主页的标题中确定出的关键词为A,该官方网站的域名的URL为B,则建立key为A,value为B的键值对。类似地,与同样可以通过建立键值对该官方网站域名下所有或部分页面的标题中确定的各网页中包含的关键词进行统计,不过此时key为关键词,value为挖掘到该关键词的次数。例如,从某页面的标题中确定了该网页包含的关键词为C,若该关键词在该官方网站主页以外的页面从未被挖掘到,则建立key为“C”,value为“1”的键值对。若在另一页面中,再次挖掘到该关键词,则将key为“C”的value中取到的变量加1作为该key新的value,最终可以得到各一个或多个关键词的出现次数,如关键词C的键值对中value最终为27,则证明该关键词共被挖掘到27次。之后可以该官方网站域名下所有或部分页面的标题中确定的各网页中包含的关键词key与主页中的关键词key进行匹配,只保留主页中统计到的关键词的出现次数,将其作为主页的标题中包含的一个或多个关键词的出现次数。当然,也可以在其他页面进行挖掘时,只挖掘与从该官方网站域名的主页的标题中确定出的关键词一致的关键词并加以统计。然后,通常可以将出现次数最多的关键词直接确定为该官方网站的查询词,也可以通过人工或预设阈值的方式,当一个关键词的出现次数达到预设条件时便将其确定为官方网站的查询词
在本发明的一个实施例中,上述装置中,统计确定模块222,进一步适于根据主页的标题中包含的一个或多个关键词的出现次数、关键词的长度以及是否包含停用词,确定其中的一个或多个关键词为该官方网站的查询词。
本实施例中增加了更多关键词的判断指标,可以更准确地判断该关键词是否为该官方网站的查询词。例如,关键词在标题首部比较醒目,通常可以准确地描述官方网站,也是最为用户所知、用户最易输入的查询关键词,则可以增加该关键词的权值;关键词长度较长,可能为该官方网站所属企业的全称,许多追求准确的用户可能将其作为查询关键词进行搜索,则也同样可以增加该关键词的权值。最终,通过对各关键词判断指标加权求得满足预设条件的关键词作为该官方网站的查询词。
在本发明的一个实施例中,上述装置中,标题分析模块222,进一步适于对该官方网站域名的主页的标题,根据其中包含的各类符号分隔出的词组,确定该主页的标题中包含的一个或多个关键词。
例如,该主页的标题表现为AAAA|BBBB|CCCC|DDDD,其中以“|”分将标题分割为四部分,实际上,每一部分通常都是该主页的一种描述方式。以“www.360.cn”主页的标题为例,其标题为“360安全中心-360安全卫士-杀毒软件|免费杀毒软件|企业杀毒软件|安全浏览器”,其中包含了两种符号“-”和“|”,将标题分为了六部分,可以看出其中每部分都可以独立出来表达一定的含义,如“360安全卫士”“安全浏览器”代表了该网站所提供的不同产品,在用户希望下载上述产品时通常希望访问该产品的官方网站,而因此在搜索引擎中输入的查询词通常与产品名称相同,从而可以看出,将上述根据官方网站域名的主页的标题包含的各类符号分隔出的词组而确定出的该主页的标题中包含的一个或多个关键词是比较准确的。
在本发明的一个实施例中,上述装置进一步包括:
查询处理单元240,适于接收用户输入的查询关键词,将查询关键词与数据库中的查询词进行匹配,如果数据库中存在与查询关键词匹配的查询词,则将该匹配的查询词对应的官方网站的网址返回给用户。
该实施例中查询处理单元240可以简单地反馈用户的查询请求。由于已经在数据库中保存了大量查询词和与查询词对应的官方网站的网址,当接收到用户输入的查询关键词,如搜索引擎的搜索栏中输入的字符时,可以将该查询关键词与数据库中的查询词进行匹配,如果数据库中存在与查询关键词匹配的查询词,则将该匹配的查询词对应的官方网站的网址返回给用户,用户便可以直接访问该官方网站,准确方便地解决了用户的需求。
而优选地,查询处理单元240可以进一步在数据库中存在与查询关键词匹配的查询词时,判断该官方网站的网址的查询次数和/或浏览次数是否达到预设条件,如果达到预设条件,再将该匹配的查询词对应的官方网站的网址返回给用户。
对查询处理单元240加以改进,在数据库中存在与查询关键词匹配的查询词时,进一步判断该官方网站的网址的查询次数和/或浏览次数是否达到预设条件。需要注意的是,此时,判断官方网站的网址的查询次数和/或浏览次数是否达到预设条件是在数据库中已经存在查询词,且用户输入的查询关键词与该查询词相匹配的情况下进行的,因此不存在现有技术中进行用户点击浏览统计会受到作弊网站欺骗的情况。
综上所述,本发明提供的官方网站网址的查询词挖掘方法和装置。对于可以从查询词待挖掘的官方网站中,依据其各页面的标题确定该官方网站的一个或多个查询词,并将所述确定的一个或多个查询词分别与该官方网站的网址对应保存到数据库中。在用户发送查询请求时,接收用户输入的查询关键词,将查询关键词与数据库中的查询词进行匹配,如果数据库中存在与查询关键词匹配的查询词,则将该匹配的查询词对应的官方网站的网址返回给用户。该技术方案能够准确地从官方网站中挖掘到该网站的一个或多个关键词,并将得到的关键词与该官方网站的网址进行对应保存,不需要人工进行数据的统计和提交,也解决了用户点击浏览统计方式不能保证获得的数据准确性的问题,具有实施方法简单、挖掘结果准确的有益效果。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的官方网站网址的查询词挖掘装置设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (12)

1.一种官方网站网址的查询词挖掘方法,其中,所述方法包括:
对于每个查询词待挖掘的官方网站,依据其各页面的标题确定该官方网站的一个或多个查询词;
将所述确定的一个或多个查询词分别与该官方网站的网址对应保存到数据库中。
2.如权利要求1所述的方法,其中,所述对于每个查询词待挖掘的官方网站,依据其各页面的标题确定该官方网站的一个或多个查询词包括:
对该官方网站域名的主页的标题进行分析,确定主页的标题中包含的一个或多个关键词;
对该官方网站域名下所有或部分页面的标题进行分析,确定各网页中包含的关键词,统计主页的标题中包含的所述一个或多个关键词的出现次数;
根据主页的标题中包含的所述一个或多个关键词的出现次数,确定其中的一个或多个关键词为该官方网站的查询词。
3.如权利要求2所述的方法,其中,该方法进一步包括:
根据主页的标题中包含的所述一个或多个关键词的出现次数、关键词的长度以及是否包含停用词,确定其中的一个或多个关键词为该官方网站的查询词。
4.如权利要求2所述的方法,其中,所述对该官方网站域名的主页的标题进行分析,确定主页的标题中包含的一个或多个关键词包括:
对该官方网站域名的主页的标题,根据其中包含的各类符号分隔出的词组,确定该主页的标题中包含的一个或多个关键词。
5.如权利要求1-4中任一项所述的方法,其中,该方法进一步包括:
接收用户输入的查询关键词;
将所述查询关键词与所述数据库中的查询词进行匹配;
如果数据库中存在与所述查询关键词匹配的查询词,则将该匹配的查询词对应的官方网站的网址返回给用户。
6.如权利要求5所述的方法,其中,该方法进一步包括:
如果数据库中存在与所述查询关键词匹配的查询词,进一步判断该官方网站的网址的查询次数和/或浏览次数是否达到预设条件;
如果达到预设条件,再将该匹配的查询词对应的官方网站的网址返回给用户。
7.一种官方网站网址的查询词挖掘装置,其中,该装置包括:
查询词确定单元,适于对每个查询词待挖掘的官方网站,依据其各页面的标题确定该官方网站的一个或多个查询词;
查询词入库单元,将所述确定的一个或多个查询词分别与该官方网站的网址对应保存到数据库中;
存储单元,适于存储所述数据库。
8.如权利要求7所述的装置,其中,所述查询词确定单元,包括:
标题分析模块,适于对该官方网站域名的主页的标题进行分析,确定主页的标题中包含的一个或多个关键词;以及对该官方网站域名下所有或部分页面的标题进行分析,确定各网页中包含的关键词;
统计确定模块,适于统计主页的标题中包含的所述一个或多个关键词的出现次数;以及根据主页的标题中包含的所述一个或多个关键词的出现次数,确定其中的一个或多个关键词为该官方网站的查询词。
9.如权利要求8所述的装置,其中,所述统计确定模块,进一步适于根据主页的标题中包含的所述一个或多个关键词的出现次数、关键词的长度以及是否包含停用词,确定其中的一个或多个关键词为该官方网站的查询词。
10.如权利要求8所述的装置,其中,所述标题分析模块,进一步适于对该官方网站域名的主页的标题,根据其中包含的各类符号分隔出的词组,确定该主页的标题中包含的一个或多个关键词。
11.如权利要求8-10中任一项所述的装置,其中,该装置进一步包括:
查询处理单元,适于接收用户输入的查询关键词,将所述查询关键词与所述数据库中的查询词进行匹配,如果数据库中存在与所述查询关键词匹配的查询词,则将该匹配的查询词对应的官方网站的网址返回给用户。
12.如权利要求11所述的装置,其中,所述查询处理单元,进一步适于在数据库中存在与所述查询关键词匹配的查询词时,判断该官方网站的网址的查询次数和/或浏览次数是否达到预设条件,如果达到所述预设条件,再将该匹配的查询词对应的官方网站的网址返回给用户。
CN201510641174.0A 2015-09-30 2015-09-30 一种官方网站网址的查询词挖掘方法和装置 Pending CN105183905A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510641174.0A CN105183905A (zh) 2015-09-30 2015-09-30 一种官方网站网址的查询词挖掘方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510641174.0A CN105183905A (zh) 2015-09-30 2015-09-30 一种官方网站网址的查询词挖掘方法和装置

Publications (1)

Publication Number Publication Date
CN105183905A true CN105183905A (zh) 2015-12-23

Family

ID=54905986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510641174.0A Pending CN105183905A (zh) 2015-09-30 2015-09-30 一种官方网站网址的查询词挖掘方法和装置

Country Status (1)

Country Link
CN (1) CN105183905A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107967256A (zh) * 2017-11-14 2018-04-27 北京拉勾科技有限公司 词语权重预测模型生成方法、职位推荐方法及计算设备
CN108984554A (zh) * 2017-06-01 2018-12-11 北京京东尚科信息技术有限公司 用于确定关键词的方法和装置
CN110020049A (zh) * 2017-10-27 2019-07-16 北京国双科技有限公司 域名翻译和查询的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398856A (zh) * 2008-11-12 2009-04-01 北京搜狗科技发展有限公司 获取导航查询词的方法、装置及展现搜索结果的方法
CN102682011A (zh) * 2011-03-14 2012-09-19 腾讯科技(深圳)有限公司 建立域名描述名称信息表、搜索的方法、装置及***
CN103106282A (zh) * 2013-02-27 2013-05-15 王义东 一种网页搜索与展示的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398856A (zh) * 2008-11-12 2009-04-01 北京搜狗科技发展有限公司 获取导航查询词的方法、装置及展现搜索结果的方法
CN102682011A (zh) * 2011-03-14 2012-09-19 腾讯科技(深圳)有限公司 建立域名描述名称信息表、搜索的方法、装置及***
CN103106282A (zh) * 2013-02-27 2013-05-15 王义东 一种网页搜索与展示的方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984554A (zh) * 2017-06-01 2018-12-11 北京京东尚科信息技术有限公司 用于确定关键词的方法和装置
CN108984554B (zh) * 2017-06-01 2021-06-29 北京京东尚科信息技术有限公司 用于确定关键词的方法和装置
CN110020049A (zh) * 2017-10-27 2019-07-16 北京国双科技有限公司 域名翻译和查询的方法和装置
CN107967256A (zh) * 2017-11-14 2018-04-27 北京拉勾科技有限公司 词语权重预测模型生成方法、职位推荐方法及计算设备

Similar Documents

Publication Publication Date Title
US10698960B2 (en) Content validation and coding for search engine optimization
US8751466B1 (en) Customizable answer engine implemented by user-defined plug-ins
US7974974B2 (en) Techniques to perform relative ranking for search results
US8214361B1 (en) Organizing search results in a topic hierarchy
US20170061029A1 (en) Interactive web crawler
US7039631B1 (en) System and method for providing search results with configurable scoring formula
US20170177729A1 (en) Search engine and link-based ranking algorithm for the semantic web
US20090049010A1 (en) Method and system to enable domain specific search
WO2006007229A1 (en) Method and apparatus for retrieving and indexing hidden web pages
CN104951099A (zh) 一种基于输入法的展示候选项的方法和装置
EP1975816A1 (en) Electronic document retrieval system
CN104715064A (zh) 一种实现在网页上标注关键词的方法和服务器
CN104715069A (zh) 一种搜索推荐词的处理方法和装置
CN104050286A (zh) 一种提供搜索结果整合的方法和装置
Edosomwan et al. Comparative analysis of some search engines
US10445393B2 (en) System and method of creating and processing semantic URL
CN105183905A (zh) 一种官方网站网址的查询词挖掘方法和装置
CN104715067A (zh) 在网页上标注关键词的方法、装置、***和浏览器客户端
Soulemane et al. Crawling the hidden web: An approach to dynamic web indexing
CN104317929A (zh) 搜索结果呈现优化方法和装置
Yan et al. An improved PageRank method based on genetic algorithm for web search
CN104462519A (zh) 搜索查询方法和装置
CN105488209A (zh) 一种词权重的分析方法及装置
US20090171967A1 (en) System and method for providing description diversity
CN104021214A (zh) 一种基于长尾关键词的搜索推荐方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20151223

RJ01 Rejection of invention patent application after publication