CN105653651A - 一种行业网站的发现整理方法及装置 - Google Patents
一种行业网站的发现整理方法及装置 Download PDFInfo
- Publication number
- CN105653651A CN105653651A CN201511004549.9A CN201511004549A CN105653651A CN 105653651 A CN105653651 A CN 105653651A CN 201511004549 A CN201511004549 A CN 201511004549A CN 105653651 A CN105653651 A CN 105653651A
- Authority
- CN
- China
- Prior art keywords
- website
- industry
- domain name
- correlation
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了一种行业网站的发现整理方法及装置,通过获取用户的网络访问记录,根据所述网络访问记录访问网络页面,获取所述网络页面中的链接地址;然后,从所述连接地址中获取网站域名地址;根据所述网站域名地址对应的网站出现的行业词汇数,计算所述网站的网站行业相关度;最后根据所述网站行业相关度,整理网站。通过上述方法,能够有效获得与待检索行业紧密相关的网站,用户通过整理出的网站继续进行检索,有效防止其他无关信息的干扰,保证检索的专业度,提高检索效率。同时,通过所述方法对网站进行整理,有效减轻了用户寻找和维护行业网站的工作量,方便检索。
Description
技术领域
本发明涉及信息检索技术领域,特别是涉及一种行业网站的发现整理方法及装置。
背景技术
电网企业在进行技术创新时,需要进行新技术、新方法等技术信息的收集,并以收集到的技术信息作为基础进行创造性的革新和拓展。基于搜索引擎,使用者在输入查询内容后,搜索引擎可以根据查询内容将相关网站的信息提供给用户查阅。
目前搜索引擎一般需要抓取整个广域网或局域网内的网站,并将所有网站中包含的内容与所述查询内容进行比对,不但费时费力,而且抓取得到的网站的质量也参差不齐,例如用户需要查询电网的相关技术内容,并输入查询内容“高压”,通过上述方法获得网站往往包含大量无关网站例如卖高压锅的电商网站以及报道高压线故障的新闻门户网站等,其包含的信息很容易干扰用户的检索工作,造成检索效率低下。
发明内容
本发明实施例中提供了一种行业网站的发现整理方法及装置,以解决现有技术中的检索效率低的问题。
为了解决上述技术问题,本发明实施例公开了如下技术方案:
本发明实施例公开了一种行业网站的发现整理方法,该方法包括:
获取用户的网络访问记录;
根据所述网络访问记录访问网络页面,获取所述网络页面中的链接地址;
从所述链接地址中,获取网站域名地址;
根据所述网站域名地址对应的网站中出现的行业词汇数,计算所述网站的网站行业相关度;
根据所述网站行业相关度,整理网站。
优选地,根据所述网站域名对应的网站中出现的行业词汇数,计算所述网站的网站行业相关度之前,还包括:
获取行业类别信息,所述行业类别信息为包括电力、航天、能源以及医学的一个或多个的类别信息;
根据所述行业类别信息,获得相应行业的行业词汇。
优选地,所述根据所述网站域名地址对应的网站中出现的行业词汇数,计算所述网站的网站行业相关度,包括:
对比网站域名地址对应网站的标题与行业词汇,确定标题行业词汇数;
对比网站域名地址对应网站的网页内容与行业词汇,确定网页内容行业词汇数;
通过所述标题行业词汇数和所述网页内容行业词汇数,计算获得网站行业相关度。
优选地,所述通过所述标题行业词汇数和所述网页内容行业词汇数,计算获得网站行业相关度,还包括:
预设标题权重系数;
根据所述标题权重系数、标题行业词汇数以及网页内容行业词汇数,加权计算获得网站行业相关度。
优选地,所述根据所述网站行业相关度,整理网站,包括:
预设网站行业相关度阈值;
判断所述网站行业相关度是否大于所述网站行业相关度阈值;
判断所述网站域名地址是否存在于行业网站库中;
如果所述网站行业相关度大于所述网站行业相关度阈值,且所述网站域名地址不存在于所述行业网站库中,将所述网站域名地址整理加入到行业网站库。
本发明实施例还公开了一种行业网站的发现整理装置,包括:
网络访问记录获取模块,用于获取用户的网络访问记录;
链接地址抓取模块,用于根据所述网络访问记录访问网络页面,获取所述网络页面中的链接地址;
网站域名地址获取模块,用于从所述链接地址中,获取网站域名地址;
网站行业相关度计算模块,用于根据所述网站域名地址对应的网站中出现的行业词汇数,计算所述网站的网站行业相关度;
网站库整理模块,用于根据所述网站行业相关度,整理网站。
优选地,所述行业网站的发现整理装置还包括:
行业类别信息获取模块,用于获取行业类别信息,所述行业类别信息为包括电力、航天、能源以及医学的一个或多个的类别信息;
行业词汇获取模块,用于根据所述行业类别信息,获得相应行业的行业词汇。
优选地,所述网站行业相关度计算模块包括:
标题行业词汇数确定模块,用于对比网站域名地址对应网站的标题与行业词汇,确定标题行业词汇数;
网页内容行业词汇数确定模块,用于对比网站域名地址对应网站的网页内容与行业词汇,确定网页内容行业词汇数;
网站行业相关度获得模块,用于通过所述标题行业词汇数和所述网页内容行业词汇数,计算获得网站行业相关度。
优选地,所述网站行业相关度获得模块包括:
标题权重系数预设模块,用于预设标题权重系数;
网站行业相关度加权模块,用于根据所述标题权重系数、标题行业词汇数以及网页内容行业词汇数,加权计算获得网站行业相关度。
优选地,所述网站库整理模块包括:
网站行业相关度预设模块,用于预设网站行业相关度阈值;
网站行业相关度判断模块,用于判断所述网站行业相关度是否大于所述网站行业相关度阈值;
网站域名地址判断模块,用于判断所述网站域名地址是否存在于行业网站库中;
行业网站入库模块,用于如果所述网站行业相关度大于所述网站行业相关度阈值,且所述网站域名地址不存在于所述行业网站库中,将所述网站域名地址整理加入到行业网站库。
由以上技术方案可见,本发明实施例提供的一种行业网站的发现整理方法及装置,通过获取用户的网络访问记录,根据所述网络访问记录访问网络页面,获取所述网络页面中的链接地址;然后,从所述连接地址中获取网站域名地址;根据所述网站域名地址对应的网站出现的行业词汇数,计算所述网站的网站行业相关度;最好根据所述网站行业相关度,整理网站。通过上述方法,能够有效获得与待检索行业紧密相关的网站,用户通过整理出的网站继续进行检索,有效防止其他无关信息的干扰,保证检索的专业度,提高检索效率。同时,通过所述方法对网站进行整理,有效减轻了用户寻找和维护行业网站的工作量,方便检索。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种行业网站的发现整理方法的流程示意图;
图2为本发明实施例提供的另一种行业网站的发现整理方法的流程示意图;
图3为本发明实施例提供的一种网站行业相关度计算方法的流程示意图;
图4为本发明实施例提供的另一种网站行业相关度计算方法的流程示意图;
图5为本发明实施例提供的一种行业网站库加入方法的流程示意图;
图6为本发明实施例提供的一种行业网站的发现整理装置的结构示意图;
图7为本发明实施例提供的另一种行业网站的发现整理装置的结构示意图;
图8为本发明实施例提供的一种网站行业相关度计算模块的结构示意图;
图9为本发明实施例提供的另一种网站行业相关度计算模块的结构示意图;
图10为本发明实施例提供的一种网站库整理模块的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
技术创新主要分为三种模式:自主创新、模仿创新和合作创新。目前,电网企业技术创新以模仿创新为主将新技术、新方法与当前电网生产实践相结合。模仿创新是指在率先创新的示范影响和利益诱导之下,创新主体通过合法方式引进创新成果,并在此基础上进行改进的一种创新形式。模仿创新过程中前沿新技术、新方法收集及其电网生产实践的结合可抽象为固有模式;在新技术、新方法的收集过程中,用户一般借助搜索引擎,在搜索引擎中查询整个Intel网内的网站以获得相应的检索结果,而网站作为技术信息的提供者是决定收集效率的重要因素。
参见图1,为本发明实施例提供的一种行业网站的发现整理方法的流程示意图,所述行业网站的发现整理方法包括以下步骤:
步骤S101:获取用户的网络访问记录。
所述网络访问记录为***中记录的用户的网络访问记录,或者用户授权许可访问的浏览器、操作***等记录的用户的网络访问记录;所述网络访问记录还包括用户在商用的搜索引擎如百度、谷歌等,输入查询内容获得的网络检索记录。所述网络访问记录包括网络页面的URL地址信息、网络页面的标题和页面内容索引等信息。
步骤S102:根据所述网络访问记录访问网络页面,获取所述网络页面中的链接地址。
通过所述网络访问记录中的URL地址信息,访问网络页面;所述网络页面为HTML(HyperTextMarkupLanguage,超文本标记语言)格式的网络页面,通过对HTML网络页面的解析;网页页面中一般包括多个次级链接地址,以及相关链接地址,从所述网络页面中提取出所有上述链接地址;根据所述链接地址,继续深入访问与所述链接地址对应的网络页面,从网络页面中继续提取其中的链接地址,直至一个网络页面中不包含链接地址为止。当然,在具体实施时,为了保证链接地址提取效率,可以设置抓取深度,所述抓取深度可以理解为从开始抓取的网络页面开始计算,只抓取到固定层数的次级链接地址或相关链接地址。如表一所示,为本发明实施例提供的一种获取到的链接地址结果。
表一:
链接地址 |
https://www.***.com/s?wd=你好 |
https://www.***.com/s?wd=hello&rsv_idx=2&tn=***home_pg |
https://www.***.com/s?tn=***home_pg&wd=专利 |
http://www.bjx.com.cn/search.asp?indexkey=%u9A71%u9E1F |
http://www.bjx.com.cn/search.asp?indexkey=%B5%E7%C1%A6 |
步骤S103:从所述链接地址中,获取网站域名地址。
从上述步骤S102获取的链接地址中包括协议头、网站域名以及网站域名之后的网站路径信息,所述网站路径信息为网站的二级链接,而所述协议头和所述网站域名的组合就能唯一确定网站,因此只需获得所述网站域名之前的部分即可,所述网站域名地址可以理解为由协议头和网站域名构成的地址。在具体实施时,获取网站域名地址的方法包括:根据域名后缀确定网站域名地址截取位置,所述域名后缀为“com”、“cn”、“net”、“org”等后缀,并确定域名后缀对应位置为网站域名地址截取位置;在所述网站域名地址截取位置截取所述链接地址,从而获取网站域名地址。在实际应用时,例如对于表一所示的第一链接地址,确定域名后缀“com”对应位置为截取位置,将“com”之后的内容删掉从而获得相应的第一网站域名地址为“https://www.***.com”;同样,可以对表一中的其他链接地址按照上述步骤进行处理,从而获得相应的第二网站域名地址、第三网站域名地址、第四网站域名地址以及第五网站域名地址,如表二所示,为本发明实施例提供的一种网站域名地址结果。
表二:
网站域名地址 |
https://www.***.com |
https://www.***.com |
https://www.***.com |
http://www.bjx.com.cn |
http://www.bjx.com.cn |
优选地,在获取到所述网站域名地址之后,还包括去除重复网站域名地址,在表二所示的结果中,第一网站域名地址、第二网站域名地址和第三网站域名地址重复,第四网站域名地址和第五网站域名地址重,将重复的网站域名地址删除;具体地删除过程包括:根据“www”万维网标识以及网站域名后缀,从网站域名地址中提取所述万维网标识与所述网站域名后缀之间的字符串;比对所述字符串是否相等,如果相等,则认为所述网站域名地址重复,将重复的网站域名地址删除,确保在网站域名地址结果中只保留一条网站域名地址,例如在本发明实施例中去除第二网站域名地址、第三网站域名地址以及第五网站域名地址。
步骤S104:根据所述网站域名地址对应的网站中出现的行业词汇数,计算所述网站的网站行业相关度。
在利用搜素引擎检索的过程中,用户往往会检索出大量与行业无关的网站,导致检索效率低下;为了提高检索的专业性,提高检索效率,本发明实施例对步骤S103确定的网站域名地址对应的网站进行网站行业相关度的计算,通过所述网站行业相关度筛选出与行业紧密相关的网站。
由于用户的行业领域不同,在图1所示的行业网站的发现整理方法的基础上,在计算所述网站行业相关度之前,本发明实施例还包括如图2所述的步骤;参见图2,为本发明实施例提供的另一种行业网站的发现整理方法的流程示意图,该方法包括:
步骤S201:获取行业类别信息,所述行业类别信息为包括电力、航天、能源以及医学的一个或多个行业的类别信息。
用户的行业领域包括但不限于电力、航天、能源以及医学领域;因此,所述行业类别信息标识用户的行业领域,在具体使用过程中,例如用户的行业领域为电力,且用户需要整理电力领域的网站,则可以设定所述行业类别信息为电力;为了提高网站整理效率,用户可以同时整理多个行业领域的网站,例如如果用户需要同时整理航天和能源领域的网站,则可以设定所述行业类别信息为航天+能源。
步骤S202:根据所述行业类别信息,获得相应行业的行业词汇。
每个行业均对应各自的行业词汇,例如电力行业对应电力行业词汇“电力”、“高压”、“断路器”等,航天行业对应航天行业词汇“推进器”、“遥感”等。所述行业词汇可以组织为行业词汇库,例如电力行业词汇库、航天行业词汇库、能源行业词汇库和医学行业词汇库等;根据步骤S201确定的行业类别信息,选择需要加载的行业词汇库,例如如果行业类别信息为电力,则加载电力行业词汇库;如果行业类别信息为航天+能源,则加载航天行业词汇库和能源行业词汇库。
参见图3,为本发明实施例提供的一种网站行业相关度计算方法的流程示意图,所述计算方法包括:
步骤S1041:对比网站域名地址对应网站的标题与行业词汇,确定标题行业词汇数。
根据步骤S103确定的网站域名地址,所述网站域名地址对应有相应的网站标题;例如“https://www.***.com”对应的网站标题为百度,“http://www.bjx.com.cn”对应的网站标题为北极星电力网;将所述网站标题进行分词,以及过滤“一种”、“的”等无意义词;比对分词、过滤处理后的网站标题与行业词汇,例如在具体实施时,用户需要整理电力行业网站,则比对网站标题与电力行业词汇,统计标题中出现电力行业词汇的数目,从而确定标题行业词汇。在本发明实施例中,网站“https://www.***.com”的标题中包括电力行业词汇数为0,因此确定标题行业词汇数为0;网站“http://www.bjx.com.cn”的标题中包括电力行业词汇“电力”,因此确定标题行业词汇数为1。
步骤S1042:对比网站域名地址对应网站的网页内容与行业词汇,确定网页内容行业词汇数。
在具体实施时,用户检索电力相关技术信息,从而确定所述行业词汇为电力行业词汇,获取网页内容行业词汇数的过程与步骤S1041的过程类似,具体地对网站“https://www.***.com”的网页内容进行分词、过滤无意义词,比对电力行业词汇,上述网站中不包括电力行业词汇,因此确定网页内容词汇数为0;而在网站“http://www.bjx.com.cn”的网页内容中,包括“火力发电”、“风力发电”、“光伏太阳能”等10个电力行业词汇,从而确定网页内容词汇数为10。
步骤S1043:通过所述标题行业词汇数和所述网页内容行业词汇数,计算获得网站行业相关度。
所述网站行业相关度的计算公式如下所示:
网站行业相关度=标题行业词汇数·3+网页内容行业词汇数
根据上述公式计算各网站对应的网站行业相关度,如表三所示,为本发明实施例提供的网站行业相关度的计算结果。网站“https://www.***.com”对应的标题行业词汇数为0、网页内容行业词汇数为0,计算获得的网站行业相关度为0;网站“http://www.bjx.com.cn”对应的标题行业词汇数为1、网页内容行业词汇数为10,计算获得网站行业相关度为1*3+10=13。
表三:
网站 | 标题行业词汇数 | 网页内容行业词汇数 | 网站行业相关度 |
https://www.***.com | 0 | 0 | 0 |
http://www.bjx.com.cn | 1 | 10 | 13 |
由于网站标题集中概括网站内容和类型,因此在计算网站行业相关度时,可以预设标题权重系数,从而进一步保证所述网站行业相关度计算的正确性,参见图4,为本发明实施例提供的另一种网站行业相关度计算方法的流程示意图,该方法包括以下步骤:
步骤S1044:预设标题权重系数。
所述标题权重系数可以预设为任意数值,例如3或1.5等。
步骤S1045:根据所述标题权重系数、标题行业词汇数以及网页内容行业词汇数加权计算获得网站行业相关度。
引入所述标题权重系数后,所述网站行业相关度通过以下公式计算获得:
网站行业相关度=标题行业词汇数·标题权重系数+网页内容行业词汇数
当然,需要说明的是,在具体实施时,根据用户选择的行业类别信息,计算所述行业类别信息对应的网站行业相关度。例如用户不选择行业类别信息,或则设定所述行业类别信息为电力,则根据上述步骤计算电力网站行业相关度;如果用户需要同时整理电力和航天领域的网站,则分别计算网站的电力网站行业相关度和航天网站行业相关度。
步骤S105:根据网站行业相关度,整理网站。
参见图5,为本发明实施例提供的一种行业网站库加入方法的流程示意图,所述方法包括以下步骤:
S1051:预设网站行业相关度阈值。
在具体实施时,所述网站行业相关度阈值可以设置为10。当然在具体实施时,根据实际网站相关度的要求,可以设置所述网站行业相关度阈值为任意数值;例如如果用户对于网站相关度要求比较高,需要整理与行业紧密相关的网站,则可以设置较高的所述网站行业相关度阈值;或者用户需要拓展搜索范围,对网站的网站行业相关度要求比较低,则可以设置较低的所述网站行业相关度阈值。而且,根据不同行业,也可以设置不同的网站行业相关度阈值,例如对电力行业,设置电力行业相关度阈值;对能源行业,设置能源行业相关度阈值等。
步骤S1052:判断所述网站行业相关度是否大于所述网站行业相关度阈值。
通过上述步骤计算得到的网站行业相关度,在具体实施时,网站“https://www.***.com”的网站行业相关度为0,小于网站行业相关度阈值10,因此网站“https://www.***.com”无需再进入后续步骤;网站“http://www.bjx.com.cn”的网站行业相关度为13,大于网站行业相关度阈值,因此网站“http://www.bjx.com.cn”继续进入后续步骤。
步骤S1053:判断所述网站域名地址是否存在于行业网站库中。
所述行业网站库可以理解为整理记录相应行业网站的数据库。在本发明实施例中,所述行业网站库可以包括电力、航天、能源以及医学等多个行业的网站。所述行业网站库的组织形式在本发明实施例中不做限制,例如所述行业网站库可以为包括电力网站子库、航天网站子库、能源网站子库以及医学网站子库等多个子库的行业网站库;所述行业网站库也可以为一个汇集多个行业网站的、通过行业标识进行区分的综合行业网站库等。
根据所述行业网站库比对网站域名地址,具体的比对方式可以为根据行业网站库中保存的网站地址进行全文比对,或者从所述行业网站库中提取网站域名地址,与步骤S104中确定的网站域名地址进行比对,确定网站是否存在于行业网站库中。在具体实施时,如果判断网站“http://www.bjx.com.cn”与行业网站库中保存的地址或域名匹配,则判断存在与行业网站库中,则上述网站无需进入后续步骤;如果判断网站“http://www.bjx.com.cn”不与行业网站库中的地址或域名匹配,则判断上述网站不存在与行业网站库中,需要进入后续步骤。当然,在实际应用过程中,由于网站整理行业需求不同,可以首选选择行业网站库的行业类型,例如用户需要整理电力行业网站,则可以只与比对电力行业网站库。
步骤S1054:将所述网站域名地址整理加入到行业网站库中。
在具体实施时,如果网站“http://www.bjx.com.cn”通过上述步骤的判断确定,所述网站“http://www.bjx.com.cn”不存在于行业网站库中,则将网站“http://www.bjx.com.cn”加入到行业网站库中。当然,根据整理网站的行业需求,可以将分门别类地所述网站域名地址加入到相应的行业网站库中,例如将“http://www.bjx.com.cn”加入到电力行业网站库中,以及通过步骤S1052和步骤S1053的判断,将其他网站域名地址加入到航天行业网站库中等。
在本发明实施例提供的行业网站的发现整理方法中,通过获取用户的网络访问记录,根据所述网络访问记录访问网络页面,获取所述网络页面中的链接地址;然后,从所述连接地址中获取网站域名地址;根据所述网站域名地址对应的网站出现的行业词汇数,计算所述网站的网站行业相关度;最后根据所述网站行业相关度,整理网站。通过上述方法,能够有效获得与待检索行业紧密相关的网站,用户通过整理出的网站继续进行检索,有效防止其他无关信息的干扰,保证检索的专业度,提高检索效率。同时,通过所述方法对网站进行整理,有效减轻了用户寻找和维护行业网站的工作量,方便检索。
通过以上的方法实施例的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
与本发明提供的行业网站的发现整理方法实施例相对应,本发明还提供了一种行业网站的发现整理装置。
参见图6,为本发明实施例提供的一种行业网站的发现整理装置的结构示意图,所述装置包括:
网络访问记录获取模块11,用于获取用户的网络访问记录;
链接地址抓取模块12,用于根据所述网络访问记录访问网络页面,获取所述网络页面中的链接地址;
网站域名地址获取模块13,用于从所述链接地址中,获取网站域名地址;
网站行业相关度计算模块14,用于根据所述网站域名地址对应的网站中出现的行业词汇数,计算所述网站的网站行业相关度;
网站库整理模块15,用于根据所述网站行业相关度,整理网站。
参见图7,为本发明实施例提供的另一种行业网站的发现整理装置的结构示意图,所述行业网站的发现整理装置还包括:
行业类别信息获取模块21,用于获取行业类别信息,所述行业类别信息为包括电力、航天、能源以及医学的一个或多个行业的类别信息;
行业词汇获取模块22,用于根据所述行业类别信息,获得相应行业的行业词汇。
为了获得网站行业相关度,参见图8,为本发明实施例提供的一种网站行业相关度计算模块的结构示意图,所述网站行业相关度计算模块14包括:
标题行业词汇数确定模块141,用于对比网站域名地址对应网站的标题与行业词汇,确定标题行业词汇数;
网页内容行业词汇数确定模块142,用于对比网站域名地址对应网站的网页内容与行业词汇,确定网页内容行业词汇数;
网站行业相关度获得模块143,用于通过所述标题行业词汇数和所述网页内容行业词汇数,计算获得网站行业相关度。
为了更精确、且灵活的计算网站行业相关度,参见图9,为本发明实施例提供的另一种网站行业相关度计算模块的结构示意图,所述网站行业相关度计算模块14包括:
标题权重系数预设模块144,用于预设标题权重系数;
网站行业相关度加权模块145,用于根据所述标题权重系数、标题行业词汇数以及网页内容行业词汇数,加权计算获得网站行业相关度。
参见图10,为本发明实施例提供的一种网站库整理模块的结构示意图,所述网站库整理模块15包括:
网站行业相关度阈值预设模块151,用于预设网站行业相关度阈值;
网站行业相关度判断模块152,用于判断所述网站行业相关度是否大于所述网站行业相关度阈值;
网站域名地址判断模块153,用于判断所述网站域名地址是否存在于行业网站库中;
行业网站入库模块154,用于如果所述网站行业相关度大于所述网站行业相关度阈值,且所述网站域名地址不存在于所述行业网站库中,将所述网站域名地址整理加入到行业网站库。
由上述实施例可见,本发明实施例提供的行业网站的发现整理装置,通过获取用户的网络访问记录,根据所述网络访问记录访问网络页面,获取所述网络页面中的链接地址;然后,从所述连接地址中获取网站域名地址;根据所述网站域名地址对应的网站出现的行业词汇数,计算所述网站的网站行业相关度;最好根据所述网站行业相关度,整理网站。通过上述方法,能够有效获得与待检索行业紧密相关的网站,用户通过整理出的网站继续进行检索,有效防止其他无关信息的干扰,保证检索的专业度,提高检索效率。同时,通过所述方法对网站进行整理,有效减轻了用户寻找和维护行业网站的工作量,方便检索。
另外,需要说明的是,本发明实施例提供的信息搜集方法及***,以预定周期从用户的网络访问记录中提取网站域名地址,并整理网站;其中,所述周期为本领域技术人员根据业务需求设定周期,例如所述周期为固定周期1天即1天整理一次,或者动态周期例如设置工作时间的整理周期为3小时,休息时间的整理周期为10小时等;当然技术人员可以随时触发进行网站整理。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或***实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及***实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种行业网站的发现整理方法,其特征在于,包括以下步骤:
获取用户的网络访问记录;
根据所述网络访问记录访问网络页面,获取所述网络页面中的链接地址;
从所述链接地址中,获取网站域名地址;
根据所述网站域名地址对应的网站中出现的行业词汇数,计算所述网站的网站行业相关度;
根据所述网站行业相关度,整理网站。
2.根据权利要求1所述的行业网站的发现整理方法,其特征在于,根据所述网站域名地址对应的网站中出现的行业词汇数,计算所述网站的网站行业相关度之前,还包括:
获取行业类别信息,所述行业类别信息为包括电力、航天、能源以及医学的一个或多个的类别信息;
根据所述行业类别信息,获得相应行业的行业词汇。
3.根据权利要求1所述的行业网站的发现整理方法,其特征在于,所述根据所述网站域名对应的网站中出现的行业词汇数,计算所述网站的网站行业相关度,包括:
对比网站域名地址对应网站的标题与行业词汇,确定标题行业词汇数;
对比网站域名地址对应网站的网页内容与行业词汇,确定网页内容行业词汇数;
通过所述标题行业词汇数和所述网页内容行业词汇数,计算获得网站行业相关度。
4.根据权利要求3所述的行业网站的发现整理方法,其特征在于,所述通过所述标题行业词汇数和所述网页内容行业词汇数,计算获得网站行业相关度,还包括:
预设标题权重系数;
根据所述标题权重系数、标题行业词汇数以及网页内容行业词汇数,加权计算获得网站行业相关度。
5.根据权利要求1所述的行业网站的发现整理方法,其特征在于,所述根据所述网站行业相关度,整理网站,包括:
预设网站行业相关度阈值;
判断所述网站行业相关度是否大于所述网站行业相关度阈值;
判断所述网站域名地址是否存在于行业网站库中;
如果所述网站行业相关度大于所述网站行业相关度阈值,且所述网站域名地址不存在于所述行业网站库中,将所述网站域名地址整理加入到行业网站库。
6.一种行业网站的发现整理装置,其特征在于,包括:
网络访问记录获取模块,用于获取用户的网络访问记录;
链接地址抓取模块,用于根据所述网络访问记录访问网络页面,获取所述网络页面中的链接地址;
网站域名地址获取模块,用于从所述链接地址中,获取网站域名地址;
网站行业相关度计算模块,用于根据所述网站域名地址对应的网站中出现的行业词汇数,计算所述网站的网站行业相关度;
网站库整理模块,用于根据所述网站行业相关度,整理网站。
7.根据权利要求6所述的行业网站的发现整理装置,其特征在于,所述行业网站的发现整理装置还包括:
行业类别信息获取模块,用于获取行业类别信息,所述行业类别信息为包括电力、航天、能源以及医学的一个或多个的类别信息;
行业词汇获取模块,用于根据所述行业类别信息,获得相应行业的行业词汇。
8.根据权利要求6所述的行业网站的发现整理装置,其特征在于,所述网站行业相关度计算模块包括:
标题行业词汇数确定模块,用于对比网站域名地址对应网站的标题与行业词汇,确定标题行业词汇数;
网页内容行业词汇数确定模块,用于对比网站域名地址对应网站的网页内容与行业词汇,确定网页内容行业词汇数;
网站行业相关度获得模块,用于通过所述标题行业词汇数和所述网页内容行业词汇数,计算获得网站行业相关度。
9.根据权利要求8所述的行业网站的发现整理装置,其特征在于,所述网站行业相关度获得模块包括:
标题权重系数预设模块,用于预设标题权重系数;
网站行业相关度加权模块,用于根据所述标题权重系数、标题行业词汇数以及网页内容行业词汇数,加权计算获得网站行业相关度。
10.根据权利要求6所述的行业网站的发现整理装置,其特征在于,所述网站库整理模块包括:
网站行业相关度阈值预设模块,用于预设网站行业相关度阈值;
网站行业相关度判断模块,用于判断所述网站行业相关度是否大于所述网站行业相关度阈值;
网站域名地址判断模块,用于判断所述网站域名地址是否存在于行业网站库中;
行业网站入库模块,用于如果所述网站行业相关度大于所述网站行业相关度阈值,且所述网站域名地址不存在于所述行业网站库中,将所述网站域名地址整理加入到行业网站库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511004549.9A CN105653651B (zh) | 2015-12-29 | 2015-12-29 | 一种行业网站的发现整理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511004549.9A CN105653651B (zh) | 2015-12-29 | 2015-12-29 | 一种行业网站的发现整理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105653651A true CN105653651A (zh) | 2016-06-08 |
CN105653651B CN105653651B (zh) | 2019-04-02 |
Family
ID=56477122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511004549.9A Active CN105653651B (zh) | 2015-12-29 | 2015-12-29 | 一种行业网站的发现整理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105653651B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112860667A (zh) * | 2021-02-20 | 2021-05-28 | 中国联合网络通信集团有限公司 | 相关度模型的建立方法、判定方法、站点发现方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049542A (zh) * | 2012-12-27 | 2013-04-17 | 北京信息科技大学 | 一种面向领域的网络信息搜索方法 |
CN103226578A (zh) * | 2013-04-02 | 2013-07-31 | 浙江大学 | 面向医学领域的网站识别和网页细分类的方法 |
CN103605794A (zh) * | 2013-12-05 | 2014-02-26 | 国家计算机网络与信息安全管理中心 | 一种网站分类方法 |
CN103744981A (zh) * | 2014-01-14 | 2014-04-23 | 南京汇吉递特网络科技有限公司 | 一种基于网站内容用于网站自动分类分析的*** |
CN104486461A (zh) * | 2014-12-29 | 2015-04-01 | 北京奇虎科技有限公司 | 域名分类方法和装置、域名识别方法和*** |
CN104750754A (zh) * | 2013-12-31 | 2015-07-01 | 北龙中网(北京)科技有限责任公司 | 网站所属行业的分类方法和服务器 |
-
2015
- 2015-12-29 CN CN201511004549.9A patent/CN105653651B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049542A (zh) * | 2012-12-27 | 2013-04-17 | 北京信息科技大学 | 一种面向领域的网络信息搜索方法 |
CN103226578A (zh) * | 2013-04-02 | 2013-07-31 | 浙江大学 | 面向医学领域的网站识别和网页细分类的方法 |
CN103605794A (zh) * | 2013-12-05 | 2014-02-26 | 国家计算机网络与信息安全管理中心 | 一种网站分类方法 |
CN104750754A (zh) * | 2013-12-31 | 2015-07-01 | 北龙中网(北京)科技有限责任公司 | 网站所属行业的分类方法和服务器 |
CN103744981A (zh) * | 2014-01-14 | 2014-04-23 | 南京汇吉递特网络科技有限公司 | 一种基于网站内容用于网站自动分类分析的*** |
CN104486461A (zh) * | 2014-12-29 | 2015-04-01 | 北京奇虎科技有限公司 | 域名分类方法和装置、域名识别方法和*** |
Non-Patent Citations (1)
Title |
---|
何维: ""行业网站分类方法研究与应用"", 《中国优秀硕士学位论文全文数据库(电子期刊)》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112860667A (zh) * | 2021-02-20 | 2021-05-28 | 中国联合网络通信集团有限公司 | 相关度模型的建立方法、判定方法、站点发现方法及装置 |
CN112860667B (zh) * | 2021-02-20 | 2023-06-20 | 中国联合网络通信集团有限公司 | 相关度模型的建立方法、判定方法、站点发现方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105653651B (zh) | 2019-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6582085B2 (ja) | ウェブページコンテンツを生成するための方法および装置 | |
CN107526807A (zh) | 信息推荐方法及装置 | |
CN104731807B (zh) | 一种统计和分析页面跳转数据的方法及装置 | |
CN102761627B (zh) | 基于终端访问统计的云网址推荐方法及***及相关设备 | |
CN105631007A (zh) | 一种行业技术信息搜集方法及*** | |
CN104504136B (zh) | 网站的访问路径的分析方法和装置 | |
JP6017155B2 (ja) | 改善された類似文書検出方法、装置、及びコンピュータ読み取り可能な記録媒体 | |
CN103530365B (zh) | 获取资源的下载链接的方法及*** | |
CN108932291B (zh) | 电网舆情评价方法、存储介质及计算机 | |
CN105653661A (zh) | 一种检索结果重排方法及装置 | |
CN103116639A (zh) | 基于用户-物品二分图模型的物品推荐方法及*** | |
CN104182405A (zh) | 一种连接查询方法及装置 | |
CN103984757B (zh) | 在搜索结果页上***新闻信息条目的方法和*** | |
CN103116635B (zh) | 面向领域的暗网资源采集方法和*** | |
CN103177036A (zh) | 一种标签自动提取方法和*** | |
CN103077250A (zh) | 一种网页内容抓取方法及装置 | |
JP2003076715A (ja) | ウェブページ検索方法、ウェブページ検索装置、プログラム、および記録媒体 | |
TW201426357A (zh) | 搜索資料排序的方法和裝置,資料搜索的方法和裝置 | |
CN104615627A (zh) | 一种基于微博平台的事件舆情信息提取方法及*** | |
CN103729420A (zh) | 微博热点追踪***及追踪方法 | |
CN104899215A (zh) | 数据处理方法、推荐源信息组织和信息推荐方法及装置 | |
CN102402535A (zh) | 一种建设产品库的方法及*** | |
CN103678302B (zh) | 一种文档结构化组织方法及装置 | |
CN103257975A (zh) | 一种搜索方法、装置及*** | |
KR20110122719A (ko) | 탐색 엔진 결과 페이지 연구 보조를 위한 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |