CN107908681A - 一种相似网站查找方法、***、设备及介质 - Google Patents
一种相似网站查找方法、***、设备及介质 Download PDFInfo
- Publication number
- CN107908681A CN107908681A CN201711033737.3A CN201711033737A CN107908681A CN 107908681 A CN107908681 A CN 107908681A CN 201711033737 A CN201711033737 A CN 201711033737A CN 107908681 A CN107908681 A CN 107908681A
- Authority
- CN
- China
- Prior art keywords
- website
- keyword
- obtains
- search
- target information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种相似网站查找方法,包括:获取目标网站的目标信息;提取目标信息中的关键词;将关键词输入至目标引擎进行搜索,得到搜索网站;将目标网站与搜索网站的相似度进行比较,得到相似度列表;查找相似度列表中排名达到预设筛选条件的搜索网站,得到相似网站。在本发明中,利用关键词对网站进行搜索,扩大了网站的搜索范围,所以提高了查找相似网站的查全率;然后再将检索到的搜索网站按照预设的筛选条件进行筛选,最后得到相似网站,进而提高了查找相似网站的准确率。相应的,本发明还公开了一种相似网站查找***、一种相似网站查找设备及一种计算机可读存储介质,同样具有以上有益效果。
Description
技术领域
本发明涉及互联网技术领域,特别涉及一种相似网站查找方法、***、设备及介质。
背景技术
随着互联网技术的快速发展,互联网已经成为目前最大的电子信息资源平台,它为信息工作人员搜集信息提供了重要的参考途径,但是在现有技术当中,利用搜索引擎搜索相关领域的网站时,会出现大量无关的冗余信息,严重干扰了信息工作人员对有用信息的准确分辨和正确选择,所以必须要提高对有用信息的获取能力,增强对网络资源的利用率。
在国内,对于相似网站发现技术的研究起步较晚,一些人工分类的中文导航目录,如hao123、2345网站、360安全网站,在这些网站中可以找到一些相似网站的站点,但是,这些相似网站的发现主要还是基于标签和用户评注,极少能实现对网站里给定的某个网页发现与其内容相似的网站。而且,在搜索的过程中,相似网站的推荐完全是基于人工分类的,利用这种搜索方法进行搜索时,不仅搜索到的网页数量和主题有限,而且内容上也会出现大量的冗余,进而导致相似网站查询的准确率和查全率较低。所以,怎样提高查找相似网站的准确率和查全率,是本领域技术人员亟待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种相似网站查找方法,以提高在查找相似网站过程中的准确率和查全率。
本发明的另一目的是提供一种相似网站查找***、一种相似网站查找设备及一种计算机可读存储介质。
为解决上述技术问题,本发明提供的一种相似网站查找方法,包括:
获取目标网站的目标信息;
提取目标信息中的关键词;
将关键词输入至目标引擎进行搜索,得到搜索网站;
将所述目标网站与搜索网站的相似度进行比较,得到相似度列表;
查找所述相似度列表中排名达到预设筛选条件的搜索网站,得到相似网站。
优选的,所述获取目标网站的目标信息的过程,包括:
筛选所述目标网站中的目录型页面,并提取目录型页面中预设区域的信息,得到第一目标信息;
筛选所述目标网站中的主题型页面,并利用逻辑行和/或最大接纳距离的方法提取主题型页面中的主题信息,得到第二目标信息。
优选的,所述提取目标信息中的关键词的过程,包括:
利用TF-IDF方法提取目标信息中的关键词,得到第一关键词;
利用Topic Model方法提取目标信息中的关键词,得到第二关键词;
利用SVM方法提取目标信息中的关键词,得到第三关键词。
优选的,所述利用TF-IDF方法提取目标信息中的关键词,得到第一关键词的过程,包括:
利用TF-IDF方法提取目标信息中的TF-IDF值,得到第一目标词汇;
选取第一目标词汇中符合第一预设范围的关键词,得到第二目标词汇;
将第二目标词汇进行随机拆分,并将拆分后的第二目标词汇进行随机组合,得到第一关键词。
优选的,所述利用Topic Model方法提取目标信息中的关键词,得到第二关键词的过程,包括:
利用LDA主题模型预测目标信息中的主题,得到第一目标主题;
根据第一目标主题查找对应的关键词,得到第一目标关键词;
选取第一目标关键词中符合第二预设范围的关键词,得到第二关键词。
优选的,所述利用SVM方法提取目标信息中的关键词,得到第三关键词的过程,包括:
利用SVM方法预测目标信息中的主题,得到第二目标主题;
根据第二目标主题查找对应的训练语料,得到目标训练语料;
利用TF-IDF方法提取目标训练语料的关键词,得到第二目标关键词;
选取第二目标关键词中符合第三预设范围的关键词,得到第三关键词。
优选的,所述将所述目标网站与搜索网站的相似度进行比较,得到相似度列表的过程,包括:
对所述目标网站的主页和搜索网站的主页进行解析,得到目标文档和搜索文档;
提取目标文档和搜索文档的向量,得到目标文档向量和搜索文档向量;
利用余弦定理计算目标文档向量和搜索文档向量的相似度,并按计算值的大小进行排序,得到所述相似度列表。
优选的,所述提取目标文档和搜索文档的向量,得到目标文档向量和搜索文档向量的过程,包括:
利用TF-IDF/Doc2Vec提取目标文档和搜索文档的向量,得到目标文档向量和搜索文档向量。
优选的,所述将关键词输入至目标引擎进行搜索,得到搜索网站的过程,包括:
将关键词输入至目标引擎进行搜索,得到搜索网页;
利用Jsoup对搜索网页进行解析,得到解析网页;
将解析网页按网站域名去重,得到搜索网站。
相应的,本发明还公开了一种相似网站查找***,包括:
信息获取模块,用于获取目标网站的目标信息;
关键词提取模块,用于提取目标信息中的关键词;
网站搜索模块,用于将关键词输入至目标引擎进行搜索,得到搜索网站;
相似度比较模块,用于将所述目标网站与搜索网站的相似度进行比较,得到相似度列表;
相似网站搜索模块,用于查找所述相似度列表中排名达到预设筛选条件的搜索网站,得到相似网站。
相应的,本发明还公开了一种相似网站查找设备,包括:
存储器,用于存储指令;其中,所述指令包括前述公开的一种相似网站查找方法的每个动作的指令;
处理器,用于执行所述存储器中的指令。
相应的,本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前述公开的一种相似网站查找方法的步骤。
在本发明中,一种相似网站查找方法,包括:获取目标网站的目标信息;提取目标信息中的关键词;将关键词输入至目标引擎进行搜索,得到搜索网站;将目标网站与搜索网站的相似度进行比较,得到相似度列表;查找相似度列表中排名达到预设筛选条件的搜索网站,得到相似网站。
可见,在本发明中,首先是提取目标网站中的目标信息,再在目标信息中提取关键词,通过在目标信息中提取关键词的方法,提高了提取关键词的准确性。其次,利用关键词对网站进行搜索,扩大了网站的搜索范围,所以提高了查找相似网站的查全率;然后再将检索到的搜索网站,按照与目标网站的相似度进行排序,得到相似度列表,再在相似度列表中按照预设的筛选条件进行筛选,最后得到相似网站,进而提高了查找相似网站的准确率,综上所述,通过本发明中的方法,可以提高查找相似网站时的查全率和准确率。相应的,本发明还公开了一种相似网站查找***、一种相似网站查找设备以及一种计算机可读存储介质,同样具有以上有益效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例一提供的一种相似网站查找方法流程图;
图2为本发明实施例二提供的一种相似网站查找方法流程图;
图3为本发明提供的一种相似网站查找***结构图;
图4为本发明提供的一种相似网站查找设备结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例一公开了一种相似网站查找方法,如图1所示,该方法包括:
步骤S11:获取目标网站的目标信息。
步骤S12:提取目标信息中的关键词。
可以理解的是,目标信息是用以反映目标网站主题内容的词语,提取目标信息的过程实际上可以看成是对目标网站整体内容进行概述的过程,其次提取目标信息的关键词,也即提取到了目标网站中的主要信息,而且,在本实施例中,是先提取了目标网站中的目标信息,所以避免了直接对目标网站进行提取关键词时,出现的冗余信息及错误信息,由此更加提高了提取关键词时的准确率。需要说明的是,目标网站是目标网页的一个集合,所以本发明中的方法同样适合于对目标网页进行相似网站的查找。
步骤S13:将关键词输入至目标引擎进行搜索,得到搜索网站。
步骤S14:将目标网站与搜索网站的相似度进行比较,得到相似度列表。
在本实施中,利用关键词来对搜索网站进行搜索,扩大了搜索网站的搜索范围,从而提高了查找相似网站时的查全率;可以理解的是,将关键词输入至搜索引擎进行搜索之后,可以检索到很多内容与目标网站相似的网页列表,但多数情况下,这些结果可能并不是每一个都与我们进行搜索的目标搜索网站相关,所以还需要对搜索到的网站进行再一次的提炼,所以,要将搜索到的网站与目标网站的相似度进行比较,得到相似度列表。需要说明的是,相似度列表中搜索网站的排名,包括但不限于按照与目标网站的相似程度由高到低进行排名,只要能够达到区分各个搜索网站与目标网站的相似程度即可。
步骤S15:查找相似度列表中排名达到预设筛选条件的搜索网站,得到相似网站。
在本实施中,当得到相似度列表以后,要对相似度列表中的搜索网站进行再一次的筛选,从而提高查找相似网站的准确率。可以理解的是,如果是对搜索网站的筛选条件若设的太大,则有可能剔除掉部分主题相关网站,若设的太小,结果就会包含大量无关的网站,所以要按照预设的筛选的条件进行筛选,进而提高查找相似网站的准确率。当然,对于预设筛选条件的设定应能够以达到实际应用为目的,此处不进行限定。
可见,在本发明中,首先是提取目标网站中的目标信息,再在目标信息中提取关键词,通过在目标信息中提取关键词的方法,提高了提取关键词的准确性。其次,利用关键词对网站进行搜索,扩大了网站的搜索范围,所以提高了查找相似网站的查全率;然后再将检索到的搜索网站,按照与目标网站的相似度进行排序,得到相似度列表,再在相似度列表中按照预设的筛选条件进行筛选,最后得到相似网站,进而提高了查找相似网站的准确率,综上所述,通过本发明中的方法,可以提高查找相似网站时的查全率和准确率。
本发明实施例二公开了一种具体的相似网站查找方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。如图2所示,具体的:
步骤S21:获取目标网站中的目标信息。
具体的,步骤S21包括步骤S211和步骤S212。
步骤S211:筛选目标网站中的目录型页面,并提取目录型页面中预设区域的信息,得到第一目标信息。
步骤S212:筛选目标网站中的主题型页面,并利用逻辑行和/或最大接纳距离的方法提取主题型页面中的主题信息,得到第二目标信息。
在本实施例中,对网站页面和网站内部页面应用了不同的处理方式,提高了提取页面关键词的准确性。可以理解的是,当目标网站中的页面为目录型页面时,页面中大部分的内容块是多链接型的,页面中的重要信息通常分布在页面的中间区域,而页面的边缘信息重要性相对较弱,所以,边缘的内容块可以通过计算与主题内容相似程度的方法来决定取舍,进而可以提高提取关键词的准确率。当目标网站中的页面为主题型页面时,可以采用基于逻辑行和/或最大接纳距离的网页正文抽取方法来提取页面的主题信息。可见,在本实施例中,通过对不同种类的页面采用不同的解析方式,能够使得提取到的目标信息更能代表网站的主题内容,所以在提取关键词的过程中,能够达到更好的提取效果。
步骤S22:提取目标信息中的关键词。
具体的,步骤S22包括步骤S221、步骤S222和步骤S223。
步骤S221:利用TF-IDF方法提取目标信息中的关键词,得到第一关键词。
具体的,步骤S221包括步骤H11、步骤H12和步骤H13。
步骤H11:利用TF-IDF方法提取目标信息中的TF-IDF值,得到第一目标词汇;
步骤H12:选取第一目标词汇中符合第一预设范围的关键词,得到第二目标词汇;
步骤H13:将第二目标词汇进行随机拆分,并将拆分后的第二目标词汇进行随机组合,得到第一关键词。
在本实施例中,利用TF-IDF(词频逆文档频率)方法计算解析到的页面信息的TF-IDF值,得到第一目标词汇。为了提高提取关键词的准确率,需要在第一目标词汇中筛选符合第一预设范围的关键词,进而来提高提取关键词的准确率。具体的,在本实施例中选取TF-IDF值最大的20个分词进行检索,需要说明的是,在计算其TF-IDF值时选取该分词在训练阶段的值,由于多个关键词同时在目标引擎中进行搜索,其搜索结果范围会缩小,所以在本实施例中会将得到的关键词进行随机拆分,并将拆分后的关键词进行随机组合,来得到最终提取到的关键词,显然,由此得到的关键词会扩大关键词的搜索范围,进而提高相似网站的查全率。
步骤S222:利用Topic Model方法提取目标信息中的关键词,得到第二关键词。
具体的,步骤S222具体包括步骤H21、步骤H22和步骤H23。
步骤H21:利用LDA主题模型预测目标信息中的主题,得到第一目标主题。
步骤H22:根据第一目标主题查找对应的关键词,得到第一目标关键词。
步骤H23:选取第一目标关键词中符合第二预设范围的关键词,得到第二关键词。
在本实施例中,利用LDA主题模型预测目标信息的主题,需要说明的是,利用LDA主题模型预测主题时,会输出与每个主题对应的一系列分词,也即对应的关键词,可以理解的是,这一系列关键词当中,会存在部分的冗余信息,所以此时需要再对这一系列的关键词进行筛选,具体的,在本实施例当中,按照符合第二预设范围进行筛选,具体的,在本实施例中将会把输出的前20个词作为该主题的关键词,当然,在实际操作当中,应以能够达到实际应用进行相应的调整,此处不进行限定。
步骤S223:利用SVM方法提取目标信息中的关键词,得到第三关键词。
具体的,步骤S223包括步骤H31、步骤H32、步骤H33和步骤H34。
步骤H31:利用SVM方法预测目标信息中的主题,得到第二目标主题。
步骤H32:根据第二目标主题查找对应的训练语料,得到目标训练语料。
步骤H33:利用TF-IDF方法提取目标训练语料的关键词,得到第二目标关键词。
步骤H34:选取第二目标关键词中符合第三预设范围的关键词,得到第三关键词。
在本实施例中,利用SVM主题模型预测目标信息的主题,再利用TF-IDF的方法提取预测到的各个主题的关键词,可以理解的是,选取到的关键词,还会存在一部分的冗余信息,所以按照符合第三预设范围进行筛选,可以对提取到的关键词进行进一步的提炼,具体的,在本实施例中将会选取TF-IDF值最大的20个词作为该主题的关键词,当然,在实际操作当中,应以能够达到实际应用进行相应的调整,此处不进行限定。
步骤S23:将关键词输入至目标引擎进行搜索,得到搜索网站。
具体的,步骤S23包括步骤S231、步骤S232和步骤S233。
步骤S231:将关键词输入至目标引擎进行搜索,得到搜索网页。
步骤S232:利用Jsoup对搜索网页进行解析,得到解析网页。
步骤S233:将解析网页按网站域名去重,得到搜索网站。
在本实施例中,将提取到的目标信息中的关键词输入至搜索引擎进行搜索,利用Jsoup解析搜索网页,可以理解的是,不同站点的不同网页上存在着相同的网页,例如网页的转载,这样的网页重复访问浪费了网络资源,所以将解析网页按网站域名进行去重,可以去除搜索网站中的重复网页,进而提高网站搜索人员的工作效率。当然,目标搜索引擎包括但不限于百度搜索引擎或者是谷歌搜索引擎。
步骤S24:将目标网站与搜索网站的相似度进行比较,得到相似度列表。
具体的,步骤S24包括步骤S241、步骤S242和步骤S243。
步骤S241:对目标网站的主页和搜索网站的主页进行解析,得到目标文档和搜索文档。
步骤S242:提取目标文档和搜索文档的向量,得到目标文档向量和搜索文档向量。
具体的,步骤S242包括利用TF-IDF/Doc2Vec提取目标文档和搜索文档的向量,得到目标文档向量和搜索文档向量。
步骤S243:利用余弦定理计算目标文档向量和搜索文档向量的相似度,并按计算值的大小进行排序,得到相似度列表。
步骤S25:查找相似度列表中排名达到预设筛选条件的搜索网站,得到相似网站。
在本实施例中,可以利用TF-IDF的方法来提取目标文档和搜索文档的向量,也即,利用TF-IDF的权值表示目标文档和搜索文档的向量;也可以利用Doc2Vec的方法提取目标文档和搜索文档的向量,也即,利用Doc2Vec表示目标文档和搜索文档的向量,之后再利用余弦定理计算目标文档和搜索文档的相似度,然后再按照计算值的大小进行排序得到相似度列表,可以理解的是,按照预设筛选条件对相似度列表中的搜索网站进行筛选,可以去除搜索网站中与目标网站相似度较小的网站,进一步提高搜索网站的准确率。
显然,由于关键词对搜索结果的多少和质量有决定性的作用,所以在本发明中,分别采用TF-IDF法、Topic Model的方法和SVM的方法,来提取目标网站中的关键词,并且将生成的关键词用搜索引擎进行搜索,得到搜索网页,再将搜索到的网页按照网站域名进行去重,将这些网站作为候选网站,为了在候选网站中筛选出与目标网站相似的网站,再对候选网站进行按照相似程度的大小进行排序,然后按照预设的筛选条件进行筛选,最后将筛选到的相似网站返回给网站搜索人员,通过本发明中的方法,不仅提高了相似网站的查全率,还提高了相似网站的准确率。
相应的,本发明还公开了一种相似网站查找***,如图3所示,该***包括:
信息获取模块31,用于获取目标网站的目标信息。
关键词提取模块32,用于提取目标信息中的关键词。
网站搜索模块33,用于将关键词输入至目标引擎进行搜索,得到搜索网站。
相似度比较模块34,用于将目标网站与搜索网站的相似度进行比较,得到相似度列表。
相似网站搜索模块35,用于查找相似度列表中排名达到预设筛选条件的搜索网站,得到相似网站。
优选的,信息获取模块31,包括:
第一信息提取单元,用于筛选目标网站中的目录型页面,并提取目录型页面中预设区域的信息,得到第一目标信息。
第二信息提取单元,用于筛选目标网站中的主题型页面,并利用逻辑行和/或最大接纳距离的方法提取主题型页面中的主题信息,得到第二目标信息。
优选的,关键词提取模块32,包括:
第一关键词提取子模块,用于利用TF-IDF方法提取目标信息中的关键词,得到第一关键词。
第二关键词提取子模块,用于利用Topic Model方法提取目标信息中的关键词,得到第二关键词。
第三关键词提取子模块,用于利用SVM方法提取目标信息中的关键词,得到第三关键词。
优选的,第一关键词提取子模块,包括:
词汇获取单元,用于利用TF-IDF方法提取目标信息中的TF-IDF值,得到第一目标词汇。
词汇选取单元,用于选取第一目标词汇中符合第一预设范围的关键词,得到第二目标词汇。
第一关键词获取单元,用于将第二目标词汇进行随机拆分,并将拆分后的第二目标词汇进行随机组合,得到第一关键词。
优选的,第二关键词提取子模块,包括:
第一主题获取单元,用于利用LDA主题模型预测目标信息中的主题,得到第一目标主题。
目标关键词查找单元,用于根据第一目标主题查找对应的关键词,得到第一目标关键词。
第二关键词获取单元,用于选取第一目标关键词中符合第二预设范围的关键词,得到第二关键词。
优选的,第三关键词提取子模块,包括:
第二主题获取单元,用于利用SVM方法预测目标信息中的主题,得到第二目标主题。
语料查找单元,用于根据第二目标主题查找对应的训练语料,得到目标训练语料。
语料提取单元,用于利用TF-IDF方法提取目标训练语料的关键词,得到第二目标关键词。
第三关键词获取单元,用于选取第二目标关键词中符合第三预设范围的关键词,得到第三关键词。
相似度比较模块34,包括:
主页解析单元,用于对目标网站的主页和搜索网站的主页进行解析,得到目标文档和搜索文档。
向量提取单元,用于提取目标文档和搜索文档的向量,得到目标文档向量和搜索文档向量。
向量计算单元,用于利用余弦定理计算目标文档向量和搜索文档向量的相似度,并按计算值的大小进行排序,得到相似度列表。
优选的,向量提取单元,包括:
向量提取子单元,用于利用TF-IDF/Doc2Vec提取目标文档和搜索文档的向量,得到目标文档向量和搜索文档向量。
优选的,网站搜索模块33,包括:
网页获取单元,用于将关键词输入至目标引擎进行搜索,得到搜索网页。
网页解析单元,用于利用Jsoup对搜索网页进行解析,得到解析网页。
网页去重单元,用于将解析网页按网站域名去重,得到搜索网站。
相应的,本发明还公开了一种相似网站查找设备,如图4所示,包括:
存储器41,用于存储指令;其中,指令包括如前述公开的一种相似网站查找方法的每个动作的指令。
处理器42,用于执行存储器中的指令。
相应的,本发明还公开了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如前述公开的相似网站查找方法的步骤。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种相似网站查找方法、一种相似网站查找***、一种相似网站查找设备及一种计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (12)
1.一种相似网站查找方法,其特征在于,包括:
获取目标网站的目标信息;
提取目标信息中的关键词;
将关键词输入至目标引擎进行搜索,得到搜索网站;
将所述目标网站与搜索网站的相似度进行比较,得到相似度列表;
查找所述相似度列表中排名达到预设筛选条件的搜索网站,得到相似网站。
2.根据权利要求1所述的方法,其特征在于,所述获取目标网站的目标信息的过程,包括:
筛选所述目标网站中的目录型页面,并提取目录型页面中预设区域的信息,得到第一目标信息;
筛选所述目标网站中的主题型页面,并利用逻辑行和/或最大接纳距离的方法提取主题型页面中的主题信息,得到第二目标信息。
3.根据权利要求1所述的方法,其特征在于,所述提取目标信息中的关键词的过程,包括:
利用TF-IDF方法提取目标信息中的关键词,得到第一关键词;
利用Topic Model方法提取目标信息中的关键词,得到第二关键词;
利用SVM方法提取目标信息中的关键词,得到第三关键词。
4.根据权利要求3所述的方法,其特征在于,所述利用TF-IDF方法提取目标信息中的关键词,得到第一关键词的过程,包括:
利用TF-IDF方法提取目标信息中的TF-IDF值,得到第一目标词汇;
选取第一目标词汇中符合第一预设范围的关键词,得到第二目标词汇;
将第二目标词汇进行随机拆分,并将拆分后的第二目标词汇进行随机组合,得到第一关键词。
5.根据权利要求3所述的方法,其特征在于,所述利用Topic Model方法提取目标信息中的关键词,得到第二关键词的过程,包括:
利用LDA主题模型预测目标信息中的主题,得到第一目标主题;
根据第一目标主题查找对应的关键词,得到第一目标关键词;
选取第一目标关键词中符合第二预设范围的关键词,得到第二关键词。
6.根据权利要求3所述的方法,其特征在于,所述利用SVM方法提取目标信息中的关键词,得到第三关键词的过程,包括:
利用SVM方法预测目标信息中的主题,得到第二目标主题;
根据第二目标主题查找对应的训练语料,得到目标训练语料;
利用TF-IDF方法提取目标训练语料的关键词,得到第二目标关键词;
选取第二目标关键词中符合第三预设范围的关键词,得到第三关键词。
7.根据权利要求1所述的方法,其特征在于,所述将所述目标网站与搜索网站的相似度进行比较,得到相似度列表的过程,包括:
对所述目标网站的主页和搜索网站的主页进行解析,得到目标文档和搜索文档;
提取目标文档和搜索文档的向量,得到目标文档向量和搜索文档向量;
利用余弦定理计算目标文档向量和搜索文档向量的相似度,并按计算值的大小进行排序,得到所述相似度列表。
8.根据权利要求7所述的方法,其特征在于,所述提取目标文档和搜索文档的向量,得到目标文档向量和搜索文档向量的过程,包括:
利用TF-IDF/Doc2Vec提取目标文档和搜索文档的向量,得到目标文档向量和搜索文档向量。
9.根据权利要求1至8任一项所述的方法,其特征在于,所述将关键词输入至目标引擎进行搜索,得到搜索网站的过程,包括:
将关键词输入至目标引擎进行搜索,得到搜索网页;
利用Jsoup对搜索网页进行解析,得到解析网页;
将解析网页按网站域名去重,得到搜索网站。
10.一种相似网站查找***,其特征在于,包括:
信息获取模块,用于获取目标网站的目标信息;
关键词提取模块,用于提取目标信息中的关键词;
网站搜索模块,用于将关键词输入至目标引擎进行搜索,得到搜索网站;
相似度比较模块,用于将所述目标网站与搜索网站的相似度进行比较,得到相似度列表;
相似网站搜索模块,用于查找所述相似度列表中排名达到预设筛选条件的搜索网站,得到相似网站。
11.一种相似网站查找设备,其特征在于,包括:
存储器,用于存储指令;其中,所述指令包括如权利要求1至9任一项所述方法的每个动作的指令;
处理器,用于执行所述存储器中的指令。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至9任一项所述相似网站查找方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711033737.3A CN107908681A (zh) | 2017-10-30 | 2017-10-30 | 一种相似网站查找方法、***、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711033737.3A CN107908681A (zh) | 2017-10-30 | 2017-10-30 | 一种相似网站查找方法、***、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107908681A true CN107908681A (zh) | 2018-04-13 |
Family
ID=61842095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711033737.3A Pending CN107908681A (zh) | 2017-10-30 | 2017-10-30 | 一种相似网站查找方法、***、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107908681A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108664584A (zh) * | 2018-05-07 | 2018-10-16 | 秦德玉 | 侵权网站搜索识别方法及装置 |
CN109635009A (zh) * | 2018-12-27 | 2019-04-16 | 北京航天智造科技发展有限公司 | 模糊匹配查询***及方法 |
CN112100500A (zh) * | 2020-09-23 | 2020-12-18 | 高小翎 | 范例学习驱动的内容关联网站发掘方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103106234A (zh) * | 2012-11-07 | 2013-05-15 | 无锡成电科大科技发展有限公司 | 一种网页内容搜索方法和装置 |
CN103294693A (zh) * | 2012-02-27 | 2013-09-11 | 华为技术有限公司 | 搜索方法、服务器及*** |
CN103744981A (zh) * | 2014-01-14 | 2014-04-23 | 南京汇吉递特网络科技有限公司 | 一种基于网站内容用于网站自动分类分析的*** |
CN107220386A (zh) * | 2017-06-29 | 2017-09-29 | 北京百度网讯科技有限公司 | 信息推送方法和装置 |
-
2017
- 2017-10-30 CN CN201711033737.3A patent/CN107908681A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294693A (zh) * | 2012-02-27 | 2013-09-11 | 华为技术有限公司 | 搜索方法、服务器及*** |
CN103106234A (zh) * | 2012-11-07 | 2013-05-15 | 无锡成电科大科技发展有限公司 | 一种网页内容搜索方法和装置 |
CN103744981A (zh) * | 2014-01-14 | 2014-04-23 | 南京汇吉递特网络科技有限公司 | 一种基于网站内容用于网站自动分类分析的*** |
CN107220386A (zh) * | 2017-06-29 | 2017-09-29 | 北京百度网讯科技有限公司 | 信息推送方法和装置 |
Non-Patent Citations (4)
Title |
---|
张霞亮等: "基于逻辑行和最大接纳距离的网页正文抽取", 《计算机工程与应用》 * |
王博: "基于云计算的多层次文本关键词抽取研究与应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
贡正仙: "基于相似页面的Web信息抽取***的实现", 《计算机应用》 * |
郭倩: "主题网站的自动发现与判定方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108664584A (zh) * | 2018-05-07 | 2018-10-16 | 秦德玉 | 侵权网站搜索识别方法及装置 |
CN109635009A (zh) * | 2018-12-27 | 2019-04-16 | 北京航天智造科技发展有限公司 | 模糊匹配查询***及方法 |
CN109635009B (zh) * | 2018-12-27 | 2023-09-15 | 北京航天智造科技发展有限公司 | 模糊匹配查询*** |
CN112100500A (zh) * | 2020-09-23 | 2020-12-18 | 高小翎 | 范例学习驱动的内容关联网站发掘方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180300315A1 (en) | Systems and methods for document processing using machine learning | |
EP2041669B1 (en) | Text categorization using external knowledge | |
CN108763321B (zh) | 一种基于大规模相关实体网络的相关实体推荐方法 | |
CA2774278C (en) | Methods and systems for extracting keyphrases from natural text for search engine indexing | |
CN104199833B (zh) | 一种网络搜索词的聚类方法和聚类装置 | |
CN111291210B (zh) | 图像素材库生成方法、图像素材推荐方法及相关装置 | |
CN102200975B (zh) | 一种利用语义分析的垂直搜索引擎*** | |
NO335440B1 (no) | Frasebasert indeksering i et informasjonsgjenfinningssystem | |
NO335144B1 (no) | Frasebasert generasjon av dokumentbeskrivelser | |
KR20100084510A (ko) | 전자 소스로부터 특정 개체와 관련된 정보를 식별하는 방법, 시스템 및 장치 | |
CN105975639B (zh) | 搜索结果排序方法和装置 | |
CN110555154B (zh) | 一种面向主题的信息检索方法 | |
Mahdabi et al. | The effect of citation analysis on query expansion for patent retrieval | |
CN107908681A (zh) | 一种相似网站查找方法、***、设备及介质 | |
JP2011103075A (ja) | 抜粋文抽出方法 | |
CN105808615A (zh) | 一种基于分词权重的文档索引生成方法和装置 | |
CN109948154A (zh) | 一种基于邮箱名的人物获取及关系推荐***和方法 | |
CN111506705A (zh) | 一种信息查询方法、装置及电子设备 | |
KR20010102687A (ko) | 카테고리 학습 기법을 이용한 주제별 웹 문서 자동 분류방법 및 시스템 | |
Chen et al. | Learning chinese entity attributes from online encyclopedia | |
Gunawan et al. | The identification of pornographic sentences in Bahasa Indonesia | |
Hoyos et al. | A search engine optimization recommender system | |
CN103699602B (zh) | 一种建立范文网页数据库的方法和装置 | |
Bhaskar et al. | Cross lingual query dependent snippet generation | |
US20230162031A1 (en) | Method and system for training neural network for generating search string |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180413 |