CN102761627A - 基于终端访问统计的云网址推荐方法及***及相关设备 - Google Patents
基于终端访问统计的云网址推荐方法及***及相关设备 Download PDFInfo
- Publication number
- CN102761627A CN102761627A CN2012102169477A CN201210216947A CN102761627A CN 102761627 A CN102761627 A CN 102761627A CN 2012102169477 A CN2012102169477 A CN 2012102169477A CN 201210216947 A CN201210216947 A CN 201210216947A CN 102761627 A CN102761627 A CN 102761627A
- Authority
- CN
- China
- Prior art keywords
- network address
- keyword
- file
- query
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012163 sequencing technique Methods 0.000 claims abstract description 6
- 238000001914 filtration Methods 0.000 claims description 29
- 238000004422 calculation algorithm Methods 0.000 claims description 26
- 230000008030 elimination Effects 0.000 claims description 9
- 238000003379 elimination reaction Methods 0.000 claims description 9
- ZXQYGBMAQZUVMI-GCMPRSNUSA-N gamma-cyhalothrin Chemical compound CC1(C)[C@@H](\C=C(/Cl)C(F)(F)F)[C@H]1C(=O)O[C@H](C#N)C1=CC=CC(OC=2C=CC=CC=2)=C1 ZXQYGBMAQZUVMI-GCMPRSNUSA-N 0.000 claims description 9
- 230000006399 behavior Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000008676 import Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90324—Query formulation using system suggestions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/535—Tracking the activity of the user
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Computational Linguistics (AREA)
- Game Theory and Decision Science (AREA)
- Computer Hardware Design (AREA)
- Mathematical Physics (AREA)
- Information Transfer Between Computers (AREA)
- Computer And Data Communications (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于终端访问统计的云网址推荐方法及***及相关设备,其中方法主要包括:对终端访问过的网址进行存储,根据终端访问网址的频率对网址进行排序处理;根据网址排序的结果抓取对应的网址描述信息;存储网址及对应的网址描述信息到云端存储媒介;当接收到请求方的查询请求时,根据查询请求中的查询关键词在存储的网址及对应的网址描述信息中进行查询并返回查询结果,并将查询结果中频率排在前面的一个或多个网址作为推荐项目返回给请求方;本发明基于对访问行为的统计来计算网址的热度和排序,从而大幅提升推荐结果的质量和相关性。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种基于终端访问统计的云网址推荐方法及***及相关设备。
背景技术
网址推荐技术是指用户在输入部分网址或者网址描述后自动为其推荐相关网址的技术。该技术应用在浏览器地址栏等应用场景,要求尽可能地把用户想要访问的网址提示出来,甚至将用户未知但是最符合用户需求的网址推荐出来。
目前,各主流浏览器都提供地址栏的网址推荐功能,但是大多数浏览器的网址推荐的数据都来自本地的历史访问记录。该方法存在两个问题,一是本地历史访问记录中不存在的网址就无法推荐出来;二是更新网址库的成本较高,无法频繁更新网址库。由于互联网内容的变化非常快,因此,该方法很难保证网址库的覆盖度和新鲜度。
少数浏览器除了支持本地网址库推荐外还支持云网址推荐功能,会在用户输入时实时去云端查询网址并推荐相应的结果。与基于本地网址库的推荐相比,该方法能够保证推荐网址的覆盖率和准确率。但是,现有支持该功能的浏览器都是基于通用搜索引擎的,也就是使用用户输入的部分网址或者网址描述去通用搜索引擎中搜索,将搜索出来的前几个结果的网址推荐出来。由于通用搜索引擎的目标数据是网页正文,满足的是用户检索文本信息的需求,其结果相关性计算算法和结果排序算法都是针对全文检索设计的;而浏览器地址栏网址推荐的目标数据是网址数据,满足的是用户快速寻找网址的需求。因此,直接用搜索引擎的检索结果作为推荐网址使用是不合适的,存在相关性较差和质量偏低的缺陷,用户使用中找到合适网址的效率较低,用户体验较差。
发明内容
鉴于上述的分析,本发明旨在提供一种基于终端访问统计的云网址推荐方法及***及相关设备,用以解决现有技术中直接用搜索引擎的检索结果作为推荐网址使用是不合适的,存在相关性较差和质量偏低的问题。
本发明的目的主要是通过以下技术方案实现的:
本发明提供了一种基于终端访问统计的云网址推荐***,包括:排序处理单元、抓取处理单元、存储单元以及查询处理单元,其中,
排序处理单元,适于对终端访问过的网址进行存储,根据终端访问网址的频率对网址进行排序处理;
抓取处理单元,适于根据网址排序的结果抓取对应的网址描述信息;
存储单元,适于存储抓取的网址及对应的网址描述信息到云端存储媒介;
查询处理单元,适于当接收到请求方的查询请求时,根据查询请求中的关键词在存储的网址及对应的网址描述信息中进行查询并返回查询结果,并将查询结果中频率排在前面的一个或多个网址作为推荐项目返回给请求方。
进一步地,还包括:
预处理单元,适于从存储终端访问过的网址数据库中提取网址并进行预处理后触发所述排序单元,所述预处理包括:过滤非法网址和/或消除重复的网址。
进一步地,所述排序处理单元具体包括:
统计模块,适于对终端访问网址的频率进行统计,按照终端访问频率从高到低的顺序对网址进行排序;
文件生成模块,适于将排序后的网址生成指定格式的原始种子文件,所述原始种子文件包含多条数据记录,每条数据记录对应一个网址;
分发模块,适于按照预定规则将所述原始种子文件分割成多个子文件,分别分发给每个抓取处理单元。
进一步地,所述预定规则为MD5算法,则所述分发模块具体适于,针对原始种子文件中的每条数据记录,使用MD5算法计算其网址串对应的MD5值;然后,将MD5值归一化成整型值,并使用该整型值对需要切分出的子文件个数进行求余操作,得到的余数即为需要写入的子文件的序号;最后,将该条数据记录写入对应序号的子文件内。
进一步地,所述抓取处理单元具体适于,对于每个子文件,根据其中记录的网址抓取对应的网址描述信息,将抓取得到的网址描述信息生成网址描述生成结果文件进行存储。
进一步地,所述存储单元具体适于,
临时存储每个网址描述生成结果文件,然后将多个网址描述生成结果文件进行汇总存储到云端存储媒介。
进一步地,所述查询处理单元进一步包括:
索引建立模块,适于根据网址及对应的网址描述信息建立索引,生成索引文件;
查询模块,适于根据查询请求中的查询关键词,调用索引文件进行查询并输出查询结果,并将查询结果中频率排在前面的一个或多个网址作为推荐项目返回给请求方。。
进一步地,所述关键词包括:网址关键词和/或描述关键词,则查询模块具体适于,判断查询请求中的关键词是网址关键词还是描述关键词,如果是网址关键词,则调用索引文件进行查询,并过滤掉非前缀命中的结果后进行输出;如果是描述关键词,则直接调用索引文件进行查询后进行输出。
进一步地,所述查询处理单元还包括:
结果过滤模块,适于对查询结果进行过滤后再输出。
其中,结果过滤的方式为下述策略的一种或多种:
黑白名单过滤、色情内容过滤、木马病毒类过滤和钓鱼类过滤。
进一步地,所述查询处理单元还包括:
负载均衡模块,适于当从外部接收请求方的查询请求后,对接收到的查询请求进行负载均衡处理。
本发明还提供了一种基于终端访问统计的云网址推荐方法,包括:
对终端访问过的网址进行存储,根据终端访问网址的频率对网址进行排序处理;
根据网址排序的结果抓取对应的网址描述信息;
存储网址及对应的网址描述信息到云端存储媒介;
当接收到请求方的查询请求时,根据查询请求中的查询关键词在存储的网址及对应的网址描述信息中进行查询并返回查询结果,并将查询结果中频率排在前面的一个或多个网址作为推荐项目返回给请求方。
进一步地,所述对网址进行排序处理的步骤之前还包括:
从存储终端访问过的网址数据库中提取网址并进行预处理,所述预处理包括:过滤非法网址和/或消除重复的网址。
进一步地,所述对网址进行排序处理的步骤进一步包括:
对终端访问网址的频率进行统计,按照终端访问频率从高到低的顺序对网址进行排序;
将排序后的网址生成指定格式的原始种子文件,所述原始种子文件包含多条数据记录,每条数据记录对应一个网址;
按照预定规则将所述原始种子文件分割成多个子文件。
进一步地,所述预定规则为MD5算法,则分割的过程进一步包括:
针对原始种子文件中的每条数据记录,使用MD5算法计算其网址串对应的MD5值;然后,将MD5值归一化成整型值,并使用该整型值对需要切分出的子文件个数进行求余操作,得到的余数即为需要写入的子文件的序号;最后,将该条数据记录写入对应序号的子文件内。
进一步地,抓取的过程进一步包括:
对于每个子文件,根据其中记录的网址抓取对应的网址描述信息,将抓取得到的网址描述信息生成网址描述生成结果文件进行存储。
进一步地,所述抓取对应的网址描述信息的步骤之后还包括:
将多个网址描述生成结果文件进行汇总存储;
根据网址及对应的网址描述信息建立索引,生成索引文件。
进一步地,所述根据查询关键词进行查询的过程进一步包括:
根据查询请求中的查询关键词,调用索引文件进行查询;
输出查询结果。
其中,所述关键词包括:网址关键词和/或描述关键词,则所述调用索引文件进行查询的过程进一步包括:
判断查询请求中的关键词是网址关键词还是描述关键词,如果是网址关键词,则调用索引文件进行查询,并过滤掉非前缀命中的结果;如果是描述关键词,则直接调用索引文件进行查询。
进一步地,输出查询结果前还包括:
对查询结果进行过滤后再输出。
进一步地,对查询结果进行过滤的方式为下述策略的一种或多种:
黑白名单过滤、色情内容过滤、木马病毒类过滤和钓鱼类过滤。
进一步地,还包括:
当从外部接收请求方的查询请求后,先对接收到的查询请求进行负载均衡处理。
本发明还提供了一种网址统计处理装置,包括:排序处理单元、抓取处理单元以及存储单元,其中,
排序处理单元,适于对终端访问过的网址进行存储,根据终端访问网址的频率对网址进行排序处理;
抓取处理单元,适于根据网址排序的结果抓取对应的网址描述信息;
存储单元,适于存储抓取的网址及对应的网址描述信息到云端存储媒介。
进一步地,还包括:
预处理单元,适于对下载的网址进行预处理后触发所述排序单元,所述预处理包括:过滤非法网址和/或消除重复的网址。
进一步地,所述排序处理单元进一步包括:
统计模块,适于对终端访问网址的频率进行统计,按照终端访问频率从高到低的顺序对网址进行排序;
文件生成模块,适于将排序后的网址生成指定格式的原始种子文件,所述原始种子文件包含多条数据记录,每条数据记录对应一个网址;
分发模块,适于按照预定规则将所述原始种子文件分割成多个子文件,分别分发给每个抓取处理单元。
进一步地,所述预定规则为MD5算法,则所述分发模块具体适于,针对原始种子文件中的每条数据记录,使用MD5算法计算其网址串对应的MD5值;然后,将MD5值归一化成整型值,并使用该整型值对需要切分出的子文件个数进行求余操作,得到的余数即为需要写入的子文件的序号;最后,将该条数据记录写入对应序号的子文件内。
进一步地,所述抓取处理单元具体适于,对于每个子文件,根据其中记录的网址抓取对应的网址描述信息,将抓取得到的网址描述信息生成网址描述生成结果文件进行存储。
进一步地,所述存储单元具体适于,
临时存储每个网址描述生成结果文件,然后将多个网址描述生成结果文件进行汇总存储到云端存储媒介。
本发明最后还提供了一种查询装置,包括:
索引建立模块,适于根据网址及对应的网址描述信息建立索引,生成索引文件;
查询模块,适于根据查询请求中的查询关键词,调用索引文件进行查询并输出查询结果,并将查询结果中频率排在前面的一个或多个网址作为推荐项目返回给请求方。
进一步地,所述关键词包括:网址关键词和/或描述关键词,则查询模块具体适于,判断查询请求中的关键词是网址关键词还是描述关键词,如果是网址关键词,则调用索引文件进行查询,并过滤掉非前缀命中的结果后进行输出;如果是描述关键词,则直接调用索引文件进行查询后进行输出。
进一步地,所述查询处理单元还包括:
结果过滤模块,适于对查询结果进行过滤后再输出。
其中,结果过滤的方式为下述策略的一种或多种:
黑白名单过滤、色情内容过滤、木马病毒类过滤和钓鱼类过滤。
进一步地,还包括:
负载均衡模块,适于当从外部接收请求方的查询请求后,对接收到的查询请求进行负载均衡处理。
本发明有益效果如下:
本发明基于对访问行为的统计来计算网址的热度和排序,从而大幅提升推荐结果的质量和相关性
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分的从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
图1为本发明所述基于终端访问统计的云网址推荐方法的流程示意图;
图2为本发明实施例所述述基于终端访问统计的云网址推荐方法的具体流程示意图
图3本发明实施例所述基于终端访问统计的云网址推荐***的结构示意图;
图4为本发明实施例所述网址统计处理装置的结构示意图;
图5为本发明实施例所述查询装置的结构示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理。
首先,结合附图1和2对本发明实施例所述基于终端访问统计的云网址推荐方法进行详细说明。
如图1所示,图1为本发明实施例所述述基于终端访问统计的云网址推荐方法的流程示意图,主要可以包括如下步骤:
步骤101:对终端访问过的网址进行存储,根据终端访问网址的频率对网址进行排序处理;
步骤102:根据网址排序的结果抓取对应的网址描述信息;
步骤103:存储网址及对应的网址描述信息到云端存储媒介;
步骤104:当接收到请求方的查询请求时,根据查询请求中的查询关键词在存储的网址及对应的网址描述信息中进行查询并返回查询结果,并将查询结果中频率排在前面的一个或多个网址作为推荐项目返回给请求方。
如图2所示,图2为本发明实施例所述基于终端访问统计的云网址推荐方法的具体流程示意图,具体可以包括以下步骤:
步骤201:从存储终端访问过的网址数据库中提取网址;
步骤202:对提取的网址进行预处理,所述预处理可以包括:过滤非法网址和/或消除重复的网址;
步骤203:对预处理后的网址按照终端访问频率进行计数;
步骤205:按照终端访问频率从高到低的顺序进行排序;
步骤204:对于终端访问频率进行分布统计,例如终端访问量在1000次以内这个区间的有哪些域名,终端访问量在1000到2000次之间这个区间的有哪些域名;
步骤205:将排序后的网址生成指定格式的原始种子文件,该指定格式为符合后续抓取要求的文件格式,例如SXML格式;
步骤206:输出原始种子文件,该原始种子文件包含多条数据记录,每条数据记录对应一个网址。
步骤207:按照预定规则将原始种子文件切分为多个子文件保存到临时目录中,该预定规则可以为MD5算法,切分的过程可以为:针对原始种子文件中的每条数据记录,使用MD5算法计算其网址串对应的MD5值;然后,将MD5值归一化成整型值,并使用该整型值对需要切分出的子文件个数进行求余操作,得到的余数即为需要写入的子文件的序号;最后,将该条数据记录写入对应序号的子文件内;本发明实施例中为采用MD5算法进行分割,本领域技术人员应该知道,本发明实施例还可以采用其他哈希算法实现;
步骤208:输出切分后的子文件到临时目录中;
步骤209:将临时目录中下切分好的多个子文件进行输出,等待后续抓取流程;
步骤210:对于每个子文件,根据其中记录的网址抓取对应的网址描述信息,将抓取得到的网址描述信息生成网址描述生成结果文件进行存储;
步骤211:临时存储每个网址描述生成结果文件,然后将多个网址描述生成结果文件进行汇总存储到云端存储媒介;
步骤212:根据网址及对应的网址描述信息建立索引,生成索引文件;
步骤213:当从外部接收请求方的查询请求后,对接收到的查询请求进行负载均衡处理;
步骤214:对于每个查询请求,判断查询请求中的关键词是网址关键词还是描述关键词,如果是网址关键词,则调用索引文件进行查询,并过滤掉非前缀命中的结果;如果是描述关键词,则直接调用索引文件进行查询;
步骤215:对查询结果进行过滤后,将查询结果中频率排在前面的一个或多个网址作为推荐项目进行输出,其中,过滤的方式为下述策略的一种或多种:
黑白名单过滤、色情内容过滤、木马病毒类过滤、钓鱼类过滤以及政治敏感过滤等。
接下来,结合附图3对本发明实施例所述基于终端访问统计的云网址推荐***进行详细说明。
如图3所示,图3为本发明实施例所述基于终端访问统计的云网址推荐***的结构示意图,具体可以包括:预处理单元301、排序处理单元302、抓取处理单元303、存储单元304以及查询处理单元305,以下将对各个模块分别予以详细说明。
(一)预处理单元301,作为本发明实施例的优选功能模块,主要负责对从存储终端访问过的网址数据库中提取网址并进行预处理后触发所述排序处理单元302,其中,预处理包括:过滤非法网址和/或消除重复的网址。
(二)排序处理单元302,主要负责根据终端访问频率对网址进行排序处理;
该排序处理单元302具体可以包括:统计模块3021、文件生成模块3022、分发模块3023,其中,
统计模块3021,适于对终端访问网址的频率进行统计,按照终端访问频率从高到低的顺序对网址进行排序;
文件生成模块3022,适于将排序后的网址生成指定格式的原始种子文件,所述原始种子文件包含多条数据记录,每条数据记录对应一个网址;
分发模块3023,适于按照预定规则将所述原始种子文件分割成多个子文件,分别分发给每个抓取处理单元;其中,预定规则可以为MD5算法,则分发模块针对原始种子文件中的每条数据记录,使用MD5算法计算其网址串对应的MD5值;然后,将MD5值归一化成整型值,并使用该整型值对需要切分出的子文件个数进行求余操作,得到的余数即为需要写入的子文件的序号;最后,将该条数据记录写入对应序号的子文件内;本发明实施例中为采用MD5算法进行分割,本领域技术人员应该知道,本发明实施例还可以采用其他哈希算法实现;
(三)抓取处理单元303,适于根据网址排序的结果抓取对应的网址描述信息;具体的说就是,对于每个子文件,抓取处理单元根据其中记录的网址抓取对应的网址描述信息,将抓取得到的网址描述信息生成网址描述生成结果文件进行存储。
(四)存储单元304,适于存储抓取的网址及对应的网址描述信息;具体的说就是,存储单元304临时存储每个网址描述生成结果文件,然后将多个网址描述生成结果文件进行汇总存储到云端存储媒介。
(五)查询处理单元305,适于当接收到外部发来的查询请求时,根据查询请求中的关键词在存储的网址及对应的网址描述信息中进行查询并返回查询结果;
该查询处理单元具体包括:索引建立模块3051、查询模块3052、结果过滤模块3053以及负载均衡模块3054,其中,
索引建立模块3051,适于根据网址及对应的网址描述信息建立索引,生成索引文件;
查询模块3052,适于根据查询请求中的查询关键词,调用索引文件进行查询并输出查询结果;其中,关键词包括:网址关键词和/或描述关键词,则查询模块具体适于,判断查询请求中的关键词是网址关键词还是描述关键词,如果是网址关键词,则调用索引文件进行查询,并过滤掉非前缀命中的结果后进行输出;如果是描述关键词,则直接调用索引文件进行查询后进行输出;
结果过滤模块3053,适于对查询结果进行过滤后,将查询结果中频率排在前面的一个或多个网址作为推荐项目进行输出,结果过滤的方式为下述策略的一种或多种:
黑白名单过滤、色情内容过滤、木马病毒类过滤、钓鱼类过滤以及政治敏感过滤等。
负载均衡模块3054,适于当从外部接收请求方的查询请求后,对接收到的查询请求进行负载均衡处理。
最后结合附图4和5对本发明实施例所述网址统计处理装置以及查询装置进行详细说明。
如图4所示,图4为本发明实施例所述网址统计处理装置的结构示意图,具体可以包括:预处理单元401、排序处理单元402、抓取处理单元403以及存储单元404,其中,
(一)预处理单元401,作为本发明实施例的优选功能模块,主要负责从存储终端访问过的网址数据库中提取网址并进行预处理后触发所述排序处理单元402,其中,预处理包括:过滤非法网址和/或消除重复的网址。
(二)排序处理单元402,主要负责根据终端访问频率对网址进行排序处理;
该排序处理单元402具体可以包括:统计模块4021、文件生成模块4022、分发模块4023,其中,
统计模块4021,适于对终端访问网址的频率进行统计,按照终端访问频率从高到低的顺序对网址进行排序;
文件生成模块4022,适于将排序后的网址生成指定格式的原始种子文件,所述原始种子文件包含多条数据记录,每条数据记录对应一个网址;
分发模块4023,适于按照预定规则将所述原始种子文件分割成多个子文件,分别分发给每个抓取处理单元;其中,预定规则可以为MD5算法,则分发模块针对原始种子文件中的每条数据记录,使用MD5算法计算其网址串对应的MD5值;然后,将MD5值归一化成整型值,并使用该整型值对需要切分出的子文件个数进行求余操作,得到的余数即为需要写入的子文件的序号;最后,将该条数据记录写入对应序号的子文件内;本发明实施例中为采用MD5算法进行分割,本领域技术人员应该知道,本发明实施例还可以采用其他哈希算法实现;
(三)抓取处理单元403,适于根据网址排序的结果抓取对应的网址描述信息;具体的说就是,对于每个子文件,抓取处理单元根据其中记录的网址抓取对应的网址描述信息,将抓取得到的网址描述信息生成网址描述生成结果文件进行存储。
(四)存储单元404,适于存储抓取的网址及对应的网址描述信息;具体的说就是,存储单元临时存储每个网址描述生成结果文件,然后将多个网址描述生成结果文件进行汇总存储到云端存储媒介。
如图5所示,图5为本发明实施例所述查询装置的结构示意图,具体可以包括:索引建立模块501、查询模块502、结果过滤模块503以及负载均衡模块504,其中,
索引建立模块501,适于根据网址及对应的网址描述信息建立索引,生成索引文件;
查询模块502,适于根据查询请求中的查询关键词,调用索引文件进行查询并输出查询结果;其中,关键词包括:网址关键词和/或描述关键词,则查询模块具体适于,判断查询请求中的关键词是网址关键词还是描述关键词,如果是网址关键词,则调用索引文件进行查询,并过滤掉非前缀命中的结果后进行输出;如果是描述关键词,则直接调用索引文件进行查询后进行输出;
结果过滤模块503,适于对查询结果进行过滤后将查询结果中频率排在前面的一个或多个网址作为推荐项目进行输出,结果过滤的方式为下述策略的一种或多种:
黑白名单过滤、色情内容过滤、木马病毒类过滤、钓鱼类过滤以及政治敏感过滤等。
负载均衡模块504,适于当从外部接收请求方的查询请求后,对接收到的查询请求进行负载均衡处理。
综上所述,本发明实施例提供了一种基于终端访问统计的云网址推荐方法及***及相关设备,在原有云网址推荐的基础上,使用海量终端真实访问的网址作为网址库,并基于对访问行为的统计来计算网址的热度和排序,从而大幅提升推荐结果的质量和相关性。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (33)
1.一种基于终端访问统计的云网址推荐***,其特征在于,包括:排序处理单元、抓取处理单元、存储单元以及查询处理单元,其中,
排序处理单元,适于对终端访问过的网址进行存储,根据终端访问网址的频率对网址进行排序处理;
抓取处理单元,适于根据网址排序的结果抓取对应的网址描述信息;
存储单元,适于存储抓取的网址及对应的网址描述信息到云端存储媒介;
查询处理单元,适于当接收到请求方的查询请求时,根据查询请求中的关键词在存储的网址及对应的网址描述信息中进行查询并返回查询结果,并将查询结果中频率排在前面的一个或多个网址作为推荐项目返回给请求方。
2.根据权利要求1所述的***,其特征在于,还包括:
预处理单元,适于从存储终端访问过的网址数据库中提取网址并进行预处理后触发所述排序单元,所述预处理包括:过滤非法网址和/或消除重复的网址。
3.根据权利要求1或2所述的***,其特征在于,所述排序处理单元具体包括:
统计模块,适于对终端访问网址的频率进行统计,按照终端访问频率从高到低的顺序对网址进行排序;
文件生成模块,适于将排序后的网址生成指定格式的原始种子文件,所述原始种子文件包含多条数据记录,每条数据记录对应一个网址;
分发模块,适于按照预定规则将所述原始种子文件分割成多个子文件,分别分发给每个抓取处理单元。
4.根据权利要求3所述的***,其特征在于,所述预定规则为MD5算法,则所述分发模块具体适于,针对原始种子文件中的每条数据记录,使用MD5算 法计算其网址串对应的MD5值;然后,将MD5值归一化成整型值,并使用该整型值对需要切分出的子文件个数进行求余操作,得到的余数即为需要写入的子文件的序号;最后,将该条数据记录写入对应序号的子文件内。
5.根据权利要求4所述的***,其特征在于,所述抓取处理单元具体适于,对于每个子文件,根据其中记录的网址抓取对应的网址描述信息,将抓取得到的网址描述信息生成网址描述生成结果文件进行存储。
6.根据权利要求5所述的***,其特征在于,所述存储单元具体适于,
临时存储每个网址描述生成结果文件,然后将多个网址描述生成结果文件进行汇总存储到云端存储媒介。
7.根据权利要求6所述的***,其特征在于,所述查询处理单元进一步包括:
索引建立模块,适于根据网址及对应的网址描述信息建立索引,生成索引文件;
查询模块,适于根据查询请求中的查询关键词,调用索引文件进行查询并输出查询结果,并将查询结果中频率排在前面的一个或多个网址作为推荐项目返回给请求方。
8.根据权利要求7所述的***,其特征在于,所述关键词包括:网址关键词和/或描述关键词,则查询模块具体适于,判断查询请求中的关键词是网址关键词还是描述关键词,如果是网址关键词,则调用索引文件进行查询,并过滤掉非前缀命中的结果后进行输出;如果是描述关键词,则直接调用索引文件进行查询后进行输出。
9.根据权利要求7所述的***,其特征在于,所述查询处理单元还包括:
结果过滤模块,适于对查询结果进行过滤后再输出。
10.根据权利要求9所述的***,其特征在于,结果过滤的方式为下述策略的一种或多种:
黑白名单过滤、色情内容过滤、木马病毒类过滤和钓鱼类过滤。
11.根据权利要求7所述的***,其特征在于,所述查询处理单元还包括:
负载均衡模块,适于当从外部接收请求方的查询请求后,对接收到的查询请求进行负载均衡处理。
12.一种基于终端访问统计的云网址推荐方法,其特征在于,包括:
对终端访问过的网址进行存储,根据终端访问网址的频率对网址进行排序处理;
根据网址排序的结果抓取对应的网址描述信息;
存储网址及对应的网址描述信息到云端存储媒介;
当接收到请求方的查询请求时,根据查询请求中的查询关键词在存储的网址及对应的网址描述信息中进行查询并返回查询结果,并将查询结果中频率排在前面的一个或多个网址作为推荐项目返回给请求方。
13.根据权利要求12所述的方法,其特征在于,所述对网址进行排序处理的步骤之前还包括:
从存储终端访问过的网址数据库中提取网址并进行预处理,所述预处理包括:过滤非法网址和/或消除重复的网址。
14.根据权利要求12或13所述的方法,其特征在于,所述对网址进行排序处理的步骤进一步包括:
对终端访问网址的频率进行统计,按照终端访问频率从高到低的顺序对网 址进行排序;
将排序后的网址生成指定格式的原始种子文件,所述原始种子文件包含多条数据记录,每条数据记录对应一个网址;
按照预定规则将所述原始种子文件分割成多个子文件。
15.根据权利要求14述的方法,其特征在于,所述预定规则为MD5算法,则分割的过程进一步包括:
针对原始种子文件中的每条数据记录,使用MD5算法计算其网址串对应的MD5值;然后,将MD5值归一化成整型值,并使用该整型值对需要切分出的子文件个数进行求余操作,得到的余数即为需要写入的子文件的序号;最后,将该条数据记录写入对应序号的子文件内。
16.根据权利要求14或15所述的方法,其特征在于,抓取的过程进一步包括:
对于每个子文件,根据其中记录的网址抓取对应的网址描述信息,将抓取得到的网址描述信息生成网址描述生成结果文件进行存储。
17.根据权利要求12所述的方法,其特征在于,所述抓取对应的网址描述信息的步骤之后还包括:
将多个网址描述生成结果文件进行汇总存储;
根据网址及对应的网址描述信息建立索引,生成索引文件。
18.根据权利要求17所述的方法,其特征在于,所述根据查询关键词进行查询的过程进一步包括:
根据查询请求中的查询关键词,调用索引文件进行查询;
输出查询结果。
19.根据权利要求18所述的方法,其特征在于,所述关键词包括:网址关键词和/或描述关键词,则所述调用索引文件进行查询的过程进一步包括:
判断查询请求中的关键词是网址关键词还是描述关键词,如果是网址关键词,则调用索引文件进行查询,并过滤掉非前缀命中的结果;如果是描述关键词,则直接调用索引文件进行查询。
20.根据权利要求18所述的方法,其特征在于,输出查询结果前还包括:
对查询结果进行过滤后再输出。
21.根据权利要求20所述的方法,其特征在于,对查询结果进行过滤的方式为下述策略的一种或多种:
黑白名单过滤、色情内容过滤、木马病毒类过滤和钓鱼类过滤。
22.根据权利要求12所述的方法,其特征在于,还包括:
当从外部接收请求方的查询请求后,先对接收到的查询请求进行负载均衡处理。
23.一种网址统计处理装置,其特征在于,包括:排序处理单元、抓取处理单元以及存储单元,其中,
排序处理单元,适于对终端访问过的网址进行存储,根据终端访问网址的频率对网址进行排序处理;
抓取处理单元,适于根据网址排序的结果抓取对应的网址描述信息;
存储单元,适于存储抓取的网址及对应的网址描述信息到云端存储媒介。
24.根据权利要求23所述的装置,其特征在于,还包括:
预处理单元,适于对下载的网址进行预处理后触发所述排序单元,所述预处理包括:过滤非法网址和/或消除重复的网址。
25.根据权利要求23或24所述的装置,其特征在于,所述排序处理单元进一步包括:
统计模块,适于对终端访问网址的频率进行统计,按照终端访问频率从高到低的顺序对网址进行排序;
文件生成模块,适于将排序后的网址生成指定格式的原始种子文件,所述原始种子文件包含多条数据记录,每条数据记录对应一个网址;
分发模块,适于按照预定规则将所述原始种子文件分割成多个子文件,分别分发给每个抓取处理单元。
26.根据权利要求25所述的装置,其特征在于,所述预定规则为MD5算法,则所述分发模块具体适于,针对原始种子文件中的每条数据记录,使用MD5算法计算其网址串对应的MD5值;然后,将MD5值归一化成整型值,并使用该整型值对需要切分出的子文件个数进行求余操作,得到的余数即为需要写入的子文件的序号;最后,将该条数据记录写入对应序号的子文件内。
27.根据权利要求26所述的装置,其特征在于,所述抓取处理单元具体适于,对于每个子文件,根据其中记录的网址抓取对应的网址描述信息,将抓取得到的网址描述信息生成网址描述生成结果文件进行存储。
28.根据权利要求27所述的装置,其特征在于,所述存储单元具体适于,临时存储每个网址描述生成结果文件,然后将多个网址描述生成结果文件进行汇总存储到云端存储媒介。
29.一种查询装置,其特征在于,包括:
索引建立模块,适于根据网址及对应的网址描述信息建立索引,生成索引文件;
查询模块,适于根据查询请求中的查询关键词,调用索引文件进行查询并输出查询结果,并将查询结果中频率排在前面的一个或多个网址作为推荐项目返回给请求方。
30.根据权利要求29所述的装置,其特征在于,所述关键词包括:网址关键词和/或描述关键词,则查询模块具体适于,判断查询请求中的关键词是网址关键词还是描述关键词,如果是网址关键词,则调用索引文件进行查询,并过滤掉非前缀命中的结果后进行输出;如果是描述关键词,则直接调用索引文件进行查询后进行输出。
31.根据权利要求29所述的装置,其特征在于,所述查询处理单元还包括:
结果过滤模块,适于对查询结果进行过滤后再输出。
32.根据权利要求31所述的装置,其特征在于,结果过滤的方式为下述策略的一种或多种:
黑白名单过滤、色情内容过滤、木马病毒类过滤和钓鱼类过滤。
33.根据权利要求29所述的装置,其特征在于,还包括:
负载均衡模块,适于当从外部接收请求方的查询请求后,对接收到的查询请求进行负载均衡处理。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210216947.7A CN102761627B (zh) | 2012-06-27 | 2012-06-27 | 基于终端访问统计的云网址推荐方法及***及相关设备 |
US14/411,463 US10216848B2 (en) | 2012-06-27 | 2013-05-21 | Method and system for recommending cloud websites based on terminal access statistics |
PCT/CN2013/075952 WO2014000538A1 (zh) | 2012-06-27 | 2013-05-21 | 基于终端访问统计的云网址推荐方法及***及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210216947.7A CN102761627B (zh) | 2012-06-27 | 2012-06-27 | 基于终端访问统计的云网址推荐方法及***及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102761627A true CN102761627A (zh) | 2012-10-31 |
CN102761627B CN102761627B (zh) | 2015-12-09 |
Family
ID=47055945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210216947.7A Expired - Fee Related CN102761627B (zh) | 2012-06-27 | 2012-06-27 | 基于终端访问统计的云网址推荐方法及***及相关设备 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10216848B2 (zh) |
CN (1) | CN102761627B (zh) |
WO (1) | WO2014000538A1 (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102946449A (zh) * | 2012-11-28 | 2013-02-27 | 网神信息技术(北京)股份有限公司 | Url 的匹配方法、装置及网关 |
CN102982134A (zh) * | 2012-11-16 | 2013-03-20 | 北京奇虎科技有限公司 | 在浏览器地址栏中显示推荐网址信息的*** |
CN102982136A (zh) * | 2012-11-16 | 2013-03-20 | 北京奇虎科技有限公司 | 浏览器地址栏中显示推荐网址信息的方法和浏览器 |
WO2014000538A1 (zh) * | 2012-06-27 | 2014-01-03 | 北京奇虎科技有限公司 | 基于终端访问统计的云网址推荐方法及***及相关设备 |
CN103812906A (zh) * | 2012-11-14 | 2014-05-21 | 腾讯科技(深圳)有限公司 | 一种网址推荐方法、装置和通信*** |
WO2014194689A1 (en) * | 2013-06-06 | 2014-12-11 | Tencent Technology (Shenzhen) Company Limited | Method, server, browser, and system for recommending text information |
CN105847364A (zh) * | 2016-03-28 | 2016-08-10 | 乐视控股(北京)有限公司 | 基于统一域名的公有云对象存储方法及*** |
US10019419B2 (en) | 2013-06-06 | 2018-07-10 | Tencent Technology (Shenzhen) Company Limited | Method, server, browser, and system for recommending text information |
CN110148028A (zh) * | 2018-02-13 | 2019-08-20 | 北京京东尚科信息技术有限公司 | 向用户推荐菜单的方法、装置及计算机可读存储介质 |
CN110569417A (zh) * | 2019-09-12 | 2019-12-13 | 重庆市群众艺术馆 | 文化云平台资源推送方法 |
CN110807041A (zh) * | 2019-11-01 | 2020-02-18 | 广州华多网络科技有限公司 | 索引推荐方法、装置、电子设备及存储介质 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105224572B (zh) * | 2014-06-30 | 2019-11-15 | 北京金山安全软件有限公司 | 鉴别垃圾目录的方法及装置 |
CN108984572B (zh) * | 2017-06-05 | 2022-03-18 | 北京国双科技有限公司 | 网站信息推送方法及装置 |
CN109190001B (zh) * | 2018-09-19 | 2022-02-11 | 广东电网有限责任公司 | 办公文件管理方法 |
US10810229B2 (en) | 2018-10-19 | 2020-10-20 | Oracle International Corporation | Database replication based on data access scores |
CN110781372B (zh) * | 2019-10-28 | 2022-04-08 | 珠海格力电器股份有限公司 | 一种优化网站的方法、装置、计算机设备及存储介质 |
CN110851758B (zh) * | 2019-10-30 | 2024-02-06 | 深圳前海微众银行股份有限公司 | 一种网页访客数量统计方法及装置 |
CN113158024B (zh) * | 2021-02-26 | 2022-07-15 | 中国科学技术大学 | 一种纠正推荐***流行度偏差的因果推理方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101320373A (zh) * | 2008-06-13 | 2008-12-10 | 华中科技大学 | 网站支撑数据库安全搜索引擎*** |
US20090083278A1 (en) * | 2007-09-26 | 2009-03-26 | Yihong Zhao | System and method for discovering and presenting social relationships between internet users and content |
CN101420452A (zh) * | 2008-12-05 | 2009-04-29 | 深圳市迅雷网络技术有限公司 | 一种视频文件的发布方法及装置 |
CN101551806A (zh) * | 2008-04-03 | 2009-10-07 | 北京搜狗科技发展有限公司 | 一种个性化网址导航的方法和*** |
US20090259646A1 (en) * | 2008-04-09 | 2009-10-15 | Yahoo!, Inc. | Method for Calculating Score for Search Query |
CN102332020A (zh) * | 2011-09-22 | 2012-01-25 | 奇智软件(北京)有限公司 | 一种网址导航页面的生成方法和装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7499965B1 (en) * | 2004-02-25 | 2009-03-03 | University Of Hawai'i | Software agent for locating and analyzing virtual communities on the world wide web |
CN100596135C (zh) * | 2006-06-09 | 2010-03-24 | 华为技术有限公司 | 一种确定内容提供商优先级的***和方法 |
US7774470B1 (en) * | 2007-03-28 | 2010-08-10 | Symantec Corporation | Load balancing using a distributed hash |
WO2009030972A1 (en) * | 2007-09-06 | 2009-03-12 | Chin San Sathya Wong | Method and system of generating and presenting search results |
CN101178728A (zh) | 2007-11-21 | 2008-05-14 | 北京搜狗科技发展有限公司 | 一种网址导航的方法和*** |
CN101251881B (zh) * | 2008-04-07 | 2010-04-14 | 华为技术有限公司 | 一种内容识别的方法、***和装置 |
CN102761627B (zh) * | 2012-06-27 | 2015-12-09 | 北京奇虎科技有限公司 | 基于终端访问统计的云网址推荐方法及***及相关设备 |
-
2012
- 2012-06-27 CN CN201210216947.7A patent/CN102761627B/zh not_active Expired - Fee Related
-
2013
- 2013-05-21 US US14/411,463 patent/US10216848B2/en active Active
- 2013-05-21 WO PCT/CN2013/075952 patent/WO2014000538A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090083278A1 (en) * | 2007-09-26 | 2009-03-26 | Yihong Zhao | System and method for discovering and presenting social relationships between internet users and content |
CN101551806A (zh) * | 2008-04-03 | 2009-10-07 | 北京搜狗科技发展有限公司 | 一种个性化网址导航的方法和*** |
US20090259646A1 (en) * | 2008-04-09 | 2009-10-15 | Yahoo!, Inc. | Method for Calculating Score for Search Query |
CN101320373A (zh) * | 2008-06-13 | 2008-12-10 | 华中科技大学 | 网站支撑数据库安全搜索引擎*** |
CN101420452A (zh) * | 2008-12-05 | 2009-04-29 | 深圳市迅雷网络技术有限公司 | 一种视频文件的发布方法及装置 |
CN102332020A (zh) * | 2011-09-22 | 2012-01-25 | 奇智软件(北京)有限公司 | 一种网址导航页面的生成方法和装置 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014000538A1 (zh) * | 2012-06-27 | 2014-01-03 | 北京奇虎科技有限公司 | 基于终端访问统计的云网址推荐方法及***及相关设备 |
US10216848B2 (en) | 2012-06-27 | 2019-02-26 | Beijing Qihoo Technology Company Limited | Method and system for recommending cloud websites based on terminal access statistics |
CN103812906A (zh) * | 2012-11-14 | 2014-05-21 | 腾讯科技(深圳)有限公司 | 一种网址推荐方法、装置和通信*** |
CN103812906B (zh) * | 2012-11-14 | 2015-03-18 | 腾讯科技(深圳)有限公司 | 一种网址推荐方法、装置和通信*** |
CN102982134A (zh) * | 2012-11-16 | 2013-03-20 | 北京奇虎科技有限公司 | 在浏览器地址栏中显示推荐网址信息的*** |
CN102982136A (zh) * | 2012-11-16 | 2013-03-20 | 北京奇虎科技有限公司 | 浏览器地址栏中显示推荐网址信息的方法和浏览器 |
CN102946449A (zh) * | 2012-11-28 | 2013-02-27 | 网神信息技术(北京)股份有限公司 | Url 的匹配方法、装置及网关 |
US10019419B2 (en) | 2013-06-06 | 2018-07-10 | Tencent Technology (Shenzhen) Company Limited | Method, server, browser, and system for recommending text information |
WO2014194689A1 (en) * | 2013-06-06 | 2014-12-11 | Tencent Technology (Shenzhen) Company Limited | Method, server, browser, and system for recommending text information |
US10402479B2 (en) | 2013-06-06 | 2019-09-03 | Tencent Technology (Shenzhen) Company Limited | Method, server, browser, and system for recommending text information |
CN105847364A (zh) * | 2016-03-28 | 2016-08-10 | 乐视控股(北京)有限公司 | 基于统一域名的公有云对象存储方法及*** |
CN110148028A (zh) * | 2018-02-13 | 2019-08-20 | 北京京东尚科信息技术有限公司 | 向用户推荐菜单的方法、装置及计算机可读存储介质 |
CN110148028B (zh) * | 2018-02-13 | 2024-05-24 | 北京京东尚科信息技术有限公司 | 向用户推荐菜单的方法、装置及计算机可读存储介质 |
CN110569417A (zh) * | 2019-09-12 | 2019-12-13 | 重庆市群众艺术馆 | 文化云平台资源推送方法 |
CN110807041A (zh) * | 2019-11-01 | 2020-02-18 | 广州华多网络科技有限公司 | 索引推荐方法、装置、电子设备及存储介质 |
CN110807041B (zh) * | 2019-11-01 | 2022-05-20 | 广州华多网络科技有限公司 | 索引推荐方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US10216848B2 (en) | 2019-02-26 |
CN102761627B (zh) | 2015-12-09 |
WO2014000538A1 (zh) | 2014-01-03 |
US20160188723A1 (en) | 2016-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102761627A (zh) | 基于终端访问统计的云网址推荐方法及***及相关设备 | |
US9443019B2 (en) | Optimized web domains classification based on progressive crawling with clustering | |
CN105956183B (zh) | 一种分布式数据库中海量小文件的多级优化存储方法及*** | |
CN102542052B (zh) | 优先散列索引 | |
US8977623B2 (en) | Method and system for search engine indexing and searching using the index | |
CN102710795B (zh) | 热点聚合方法及装置 | |
CN105721538A (zh) | 数据访问的方法和装置 | |
CN102930038A (zh) | 一种检索结果相似条目的合并方法及其*** | |
CN105574054A (zh) | 一种分布式缓存范围查询方法、装置及*** | |
CN102663049A (zh) | 一种更新搜索引擎网址库方法及装置 | |
CN109753504A (zh) | 数据查询方法及装置 | |
CN108154024B (zh) | 一种数据检索方法、装置及电子设备 | |
US10491606B2 (en) | Method and apparatus for providing website authentication data for search engine | |
CN105610881B9 (zh) | 一种分布式缓存范围查询方法、装置及*** | |
CN102937977A (zh) | 一种搜索服务器及搜索方法 | |
CN102117275B (zh) | 一种基于互联网定向站点网页数据采集的方法及装置 | |
CN103559307A (zh) | 一种查询的缓存方法及装置 | |
CN103605770A (zh) | 网页模板生成方法和服务器 | |
CN101599069A (zh) | 电子文档的搜索方法及*** | |
CN106326280A (zh) | 数据处理方法、装置及*** | |
Dixit et al. | Automatic recommendation for online users using web usage mining | |
CN102945253A (zh) | 一种搜索服务器及搜索方法 | |
CN103902687B (zh) | 一种搜索结果的生成方法及装置 | |
CN102937974A (zh) | 一种搜索服务器及搜索方法 | |
CN104392000B (zh) | 确定移动站点抓取配额的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20151209 Termination date: 20210627 |
|
CF01 | Termination of patent right due to non-payment of annual fee |