CN107436890A - 一种网站类型的检测方法及装置 - Google Patents

一种网站类型的检测方法及装置 Download PDF

Info

Publication number
CN107436890A
CN107436890A CN201610362232.0A CN201610362232A CN107436890A CN 107436890 A CN107436890 A CN 107436890A CN 201610362232 A CN201610362232 A CN 201610362232A CN 107436890 A CN107436890 A CN 107436890A
Authority
CN
China
Prior art keywords
website
page
detected
level
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610362232.0A
Other languages
English (en)
Inventor
赵燕雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610362232.0A priority Critical patent/CN107436890A/zh
Publication of CN107436890A publication Critical patent/CN107436890A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请实施例提供了一种网站类型的检测方法及装置,所述方法包括:根据待检测网站的地址访问所述待检测网站的至少两级页面;获取所述至少两级页面对应的网页代码;从所述网页代码中提取特征信息,作为基本特征信息;根据所述基本特征信息获取所述至少两级页面与预设模板的匹配度,作为第一匹配度;若所述第一匹配度大于预设阈值,确定所述待检测网站属于所述预设模板对应的网站类型。可见,本申请实施例提供了一种自动检测网站类型的方式,从而减少工作量并提高检测效率。而且,由于本申请实施例中不再依赖于检测人员的经验值,而且根据待检测网站的至少两级页面进行检测,能够有效地提高检测结果的准确率。

Description

一种网站类型的检测方法及装置
技术领域
本申请涉及互联网技术领域,尤其是涉及一种网站类型的检测方法及装置。
背景技术
随着互联网技术的发展,在很多场景下都需要对网站类型进行检测。例如,通过检测网站类型判断网站的安全性;又例如,对于工信部备案的网站时,需要检测该网站的类型,确定该类型与备案时上报的类型是否一致。
目前在检测网站的类型时,通常由检测人员根据网站显示的内容,人工确定网站的类型。显然,这种方式造成了较大的工作量,导致检测效率较低。
因此,如何实现对网站类型的自动检测,是目前亟待解决的问题。
发明内容
本申请解决的技术问题在于提供一种网站类型的检测方法及装置,以实现能够自动检测网站类型,从而减少工作量并提高检测效率。
为此,本申请解决技术问题的技术方案是:
本申请提供了一种网站类型的检测方法,包括:
根据待检测网站的地址访问所述待检测网站的至少两级页面;
获取所述至少两级页面对应的网页代码;
从所述网页代码中提取特征信息,作为基本特征信息;
根据所述基本特征信息获取所述至少两级页面与预设模板的匹配度,作为第一匹配度;
若所述第一匹配度大于预设阈值,确定所述待检测网站属于所述预设模板对应的网站类型。
可选的,所述检测方法还包括:
若所述第一匹配度小于所述预设阈值,确定所述待检测网站不属于所述网站类型,或者根据所述基本特征信息和附加特征信息确定所述待检测网站是否属于所述网站类型。
可选的,根据所述基本特征信息和附加特征信息确定所述待检测网站是否属于所述网站类型,包括:
访问所述至少两级页面的下一级页面;
获取所述下一级页面对应的网页代码;
从所述下一级页面对应的网页代码中提取特征信息,作为所述附加特征信息;
根据所述基本特征信息和所述附加特征信息获取至少三级页面与所述预设模板的匹配度,作为第二匹配度;所述至少三级页面包括所述至少两级页面和所述至少两级页面的下一级页面;
根据所述第二匹配度与所述预设阈值的比较结果,确定所述待检测网站是否属于所述网站类型。
可选的,所述预设模板包括至少一个模块,各个模块具有对应的匹配特征信息和权值;根据所述基本特征信息获取所述至少两级页面与预设模板的匹配度,包括:
根据所述基本特征信息和各个模块对应的匹配特征信息,确定出与所述至少两级页面匹配的N个模块,N≥0;
根据所述N个模块分别对应的权值,获得所述至少两级页面与所述预设模板的匹配度。
可选的,所述检测方法还包括:
获取属于所述网站类型的网站对应的特征信息,作为反馈特征信息;
根据所述反馈特征信息,调整所述预设模板。
可选的,所述至少两级页面包括一级页面和二级页面,根据待检测网站的地址访问所述待检测网站的至少两级页面包括:
根据所述待检测网站的一级页面地址访问所述待检测网站的一级页面;
获取所述一级页面的网页代码,从所述一级页面的网页代码中获取二级页面的地址;
根据所述二级页面的地址访问所述二级页面。
可选的,所述基本特征信息包括页面元素的标识和/或内容。
可选的,访问所述待检测网站的至少两级页面时,所述检测方法还包括:
模拟登录和/或模拟操作所述待检测网站。
可选的,所述网站类型为电子商务类,所述预设模板为所述电子商务类对应的模板。
本申请还提供了一种网站类型的检测装置,包括:
访问单元,用于根据待检测网站的地址访问所述待检测网站的至少两级页面;
第一获取单元,用于获取所述至少两级页面对应的网页代码;
提取单元,用于从所述网页代码中提取特征信息,作为基本特征信息;
第二获取单元,用于根据所述基本特征信息获取所述至少两级页面与预设模板的匹配度,作为第一匹配度;
第一确定单元,用于若所述第一匹配度大于预设阈值,确定所述待检测网站属于所述预设模板对应的网站类型。
可选的,还包括第二确定单元或者第三确定单元;
所述第二确定单元用于,若所述第一匹配度小于所述预设阈值,确定所述待检测网站不属于所述网站类型;所述第三确定单元用于,根据所述基本特征信息和附加特征信息确定所述待检测网站是否属于所述网站类型。
可选的,所述第三确定单元包括:
第一访问子单元,用于访问所述至少两级页面的下一级页面;
第一获取子单元,用于获取所述下一级页面对应的网页代码;
提取子单元,用于从所述下一级页面对应的网页代码中提取特征信息,作为所述附加特征信息;
第二获取子单元,用于根据所述基本特征信息和所述附加特征信息获取至少三级页面与所述预设模板的匹配度,作为第二匹配度;所述至少三级页面包括所述至少两级页面和所述至少两级页面的下一级页面;
第一确定子单元,用于根据所述第二匹配度与所述预设阈值的比较结果,确定所述待检测网站是否属于所述网站类型。
可选的,所述预设模板包括至少一个模块,各个模块具有对应的匹配特征信息和权值;所述第二获取模块包括:
第二确定子单元,用于根据所述基本特征信息和各个模块对应的匹配特征信息,确定出与所述至少两级页面匹配的N个模块,N≥0;
第三获取子单元,用于根据所述N个模块分别对应的权值,获得所述至少两级页面与所述预设模板的匹配度。
可选的,还包括:
第三获取单元,用于获取属于所述网站类型的网站对应的特征信息,作为反馈特征信息;
调整单元,用于根据所述反馈特征信息,调整所述预设模板。
可选的,所述至少两级页面包括一级页面和二级页面;所述访问单元包括:
第二访问子单元,用于根据所述待检测网站的一级页面地址访问所述待检测网站的一级页面;
第四获取子单元,用于获取所述一级页面的网页代码,从所述一级页面的网页代码中获取二级页面的地址;
第三访问子单元,用于根据所述二级页面的地址访问所述二级页面。
可选的,所述基本特征信息包括页面元素的标识和/或内容。
可选的,还包括:模拟登陆单元和/或模拟操作单元;
所述模拟登陆单元,用于模拟登录所述待检测网站;
所述模拟操作单元,用于模拟操作所述待检测网站。
可选的,所述网站类型为电子商务类,所述预设模板为所述电子商务类对应的模板。
通过上述技术方案可知,本申请实施例中,通过自动访问待检测网站的至少两级页面,能够获取所述至少两级页面对应的网页代码,根据从网页代码提取出的特征信息,能够获取所述至少两级页面与预设模板对应的匹配度,由于预设模板对应一网站类型,因此若该匹配度大于预设阈值,则说明所述待检测网站属于该网站类型。可见,本申请实施例提供了一种自动检测网站类型的方式,从而减少工作量并提高检测效率。而且,由于本申请实施例中不再依赖于检测人员的经验值,而且根据待检测网站的至少两级页面进行检测,能够有效地提高检测结果的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其它的附图。
图1为本申请提供的一种方法实施例的流程示意图;
图2为本申请提供的另一种方法实施例的流程示意图;
图3为本申请提供的一级页面上部的示意图;
图4为本申请提供的一级页面下部的示意图;
图5为本申请提供的二级页面的示意图;
图6为本申请提供的三级页面的示意图;
图7为本申请提供的一种装置实施例的结构示意图。
具体实施方式
在很多场景下都需要对网站类型进行检测。例如,在工信部备案网站时必须上报网站类型。然而,目前很多上报的网站类型往往与实际的网站类型不一致,因此需要由检测人员根据网站的地址访问该网站,根据网站的一级页面显示的内容,根据经验人工确定出实际的网站类型。显然,这种方式造成了较大的工作量,导致检测效率较低。而且由于检测人员经验有限,导致检测结果的准确率往往较低。
本申请实施例提供一种网站类型的检测方法及装置,以实现能够自动检测网站类型,从而减少工作量并提高检测效率。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
请参阅图1,本申请实施例提供了网站类型的检测方法的一种方法实施例。本实施例的所述方法包括:
S101:根据待检测网站的地址访问所述待检测网站的至少两级页面。
在本申请实施例中,当需要对待检测网站进行网站类型的检测时,能够获取到该网站的地址,例如该网站的域名等,通过该域名等地址能够自动访问所述待检测网站。
若所述至少两级页面包括一级页面和二级页面,所述地址通常为所述待检测网站的一级页面地址,即首页地址,根据所述一级页面地址能够访问该网站的一级页面,通过获取所述一级页面的网页代码,能够从所述一级页面的网页代码中获取二级页面的地址,根据所述二级页面的地址访问所述二级页面。类似的,可以依次访问三级页面、四级页面等。
其中,所述至少两级页面通常为前M级页面,M≥2,M的具体数值可以预先设定。也就是说,本申请实施例除了访问一级页面之外,还会访问所述待检测网站的二级页面甚至更多的后级页面,从而能够获取待检测网站更全面的信息,提高检测结果的准确率。
经过发明人研究发现,通常访问该网站的前三级页面,即一级页面、二级页面和三级页面,一般就能够准确判断出所述待检测网站的网站类型。
S102:获取所述至少两级页面对应的网页代码。
本步骤具体可以通过网络爬虫等技术实现。其中,网页代码可以包括静态网页标记代码,和/或JavaScript动态脚本代码。
S103:从所述网页代码中提取特征信息,作为基本特征信息。
通过对所述网页代码进行分析,能够提取出所述网页代码的特征信息,该特征信息能够反映所述至少两级页面的基本属性,例如显示属性等等。
其中,所述特征信息可以包括页面元素的标识和/或内容。例如,在网页代码中,将变量order赋值为‘订单01’,该变量即作为一个页面元素,该页面元素的标识为“order”,该页面元素的内容为“订单01”。
S104:根据所述基本特征信息获取所述至少两级页面与预设模板的匹配度,作为第一匹配度。
其中,所述预设模板对应一网站类型,并且能够反映该类型的网站具有的特定属性。举例说明,所述预设模板对应电子商务类,能够反映电子商务类网站具有的属性,例如能够反映电子商务类网站通常具有商品类目区、电商备案认证区、商品详情页等。将所述基本特征信息与预设模板进行比较,能够获取所述至少两级页面与所述预设模板的匹配度。
S105:若所述第一匹配度大于预设阈值,确定所述待检测网站属于所述预设模板对应的网站类型。
若所述第一匹配度大于预设阈值,表示所述至少两级页面与所述预设模板的匹配度较高,因此能够说明所述待检测网站属于所述预设模板对应的所述网站类型。例如,若所述预设模板为所述电子商务类对应的模板,所述第一匹配度大于预设阈值,则能够确定出所述待检测网站属于电子商务类。
本申请实施例可以用于手机等手持设备、计算机、服务器等任一种具有检测功能的电子设备中。
通过上述技术方案可知,本申请实施例中,通过自动访问待检测网站的至少两级页面,能够获取所述至少两级页面对应的网页代码,根据从网页代码提取出的特征信息,能够获取所述至少两级页面与预设模板对应的匹配度,由于预设模板对应一网站类型,因此若该匹配度大于预设阈值,则说明所述待检测网站属于该网站类型。可见,本申请实施例提供了一种自动检测网站类型的方式,从而减少工作量并提高检测效率。而且,由于本申请实施例中不再依赖于检测人员的经验值,而且根据待检测网站的至少两级页面进行检测,能够有效地提高检测结果的准确率。
本申请实施例中,在访问所述至少两级页面时,还可以模拟登录和/或模拟操作所述待检测网站。例如利用TestNG等自动化技术,自动注册账号以模拟登录所述网站,或者在购物页面进行模拟购物行为等等。
在本申请实施例中,若所述至少两级页面与预设模板的匹配度小于预设阈值,则可以确定所述待检测网站不属于所述预设模板对应的网站类型,也可以认为基于目前的数据无法判断出所述待检测网站是否属于所述网站类型,因此可以进一步结合其他数据,例如下一级页面对应的特征信息进行判断。下面具体说明。
所述方法还可以包括:若所述第一匹配度小于所述预设阈值,确定所述待检测网站不属于所述网站类型。此时可以向用户提示检测结果;或者,若所述第一匹配度小于所述预设阈值,根据所述基本特征信息和附加特征信息确定所述待检测网站是否属于所述网站类型。
其中,所述附加特征信息可以通过访问下一级页面进行获取。具体地,根据所述基本特征信息和附加特征信息确定所述待检测网站是否属于所述网站类型,可以包括:访问所述至少两级页面的下一级页面,获取所述下一级页面对应的网页代码,从所述下一级页面对应的网页代码中提取特征信息,作为所述附加特征信息;根据所述基本特征信息和所述附加特征信息获取至少三级页面与所述预设模板的匹配度,作为第二匹配度;所述至少三级页面包括所述至少两级页面和所述至少两级页面的下一级页面;根据所述第二匹配度与所述预设阈值的比较结果,确定所述待检测网站是否属于所述网站类型。
举例说明,所述至少两级页面包括一级页面和二级页面,则所述下一级页面为三级页面,通过访问三级页面,从三级页面对应的网页代码中提取特征信息,根据一级页面、二级页面、三级页面对应的特征信息,获取这三级页面与预设模板的匹配度,根据该匹配度确定待检测网站是否属于所述网站类型。其中,访问三级页面的方式,可以参见根据一级页面的网页代码访问二级页面的实现方式,这里不再赘述。
若第二匹配度大于预设阈值,则说明待检测网站属于所述网站类型,若第二匹配度小于预设阈值,则说明待检测网站不属于所述网站类型,或者可以进一步结合下一级页面,例如上述例子中的四级页面进一步判断。本申请实施例中可以设定检测的最大级数,例如设定最大级数为6,如果根据前六级页面的特征信息确定出的匹配度仍然低于预设阈值,则最终确定出待检测网站不属于所述网站类型。
其中,为了对已经检测过的页面不再重复检测,避免链路死循环,本申请实施例在访问下一级页面之前,还可以判断获取的下一级页面的地址是否已经访问过,如果否,则继续访问,如果是,则重新获取下一级页面的地址。例如,从二级页面的网页代码中提取出第一地址,如果第一地址实际上为一级页面的地址,将会判断出第一地址已经被访问过,重新从二级页面的网页代码中提取第二地址,如果第二地址为三级页面的地址,将会判断出第二地址没有被访问过,则访问第二地址。
在本申请实施例的S104中,根据基本特征信息获取至少两级页面与预设模板的匹配度,下面提供一种具体的匹配度获取方式。需要说明的是,该具体获取方式不会对本申请实施例起到限制作用。
所述预设模板可以包括至少一个模块,各个模块具有对应的匹配特征信息,用于确定所述至少两级页面是否与该模块匹配;根据所述基本特征信息和各个模块对应的匹配特征信息,确定出与所述至少两级页面匹配的N个模块,N≥0,实际上即,将基本特征信息与每个模块的匹配特征信息进行匹配,若匹配成功,则说明所述至少两级页面与该模块匹配;各个模块具有对应的权值,根据所述N个模块分别对应的权值,获得所述至少两级页面与预设模板的匹配度。下面以预设模板为电子商务类对应的模板为例加以说明。
所述预设模板包括以下模块中的一个或多个模块:商品类目模块、电商备案认证模块、商品详情模块、购物车模块、订单模块、以及物流模块。每个模块具有分别对应的匹配特征信息和权值。例如,所述商品类目模块的匹配特征信息为“ICP证”,如果所述基本特征信息与“ICP证”匹配成功,则说明所述至少两级页面与所述商品类目模块匹配。重复上述过程,能够确定出所述至少两级页面匹配的N个模块,根据N个模块对应的权值,能够计算出至少两级页面与预设模板的匹配度,例如,将N个模块对应的权值相加,能够得到所述匹配度。
其中,在将所述基本特征信息与所述匹配特征信息进行匹配时,可以按照特定位置对应的基本特征信息,与特定位置对应的模块的匹配特征信息进行匹配。例如,将网站上方获取的基本特征信息与网站上方对应的商品类目模块的匹配特征信息进行匹配,若匹配成功则确定出所述至少两级页面包括所述商品类目模块。
其中,所述预设模板可以进行实时调整和更新,例如对预设模板进行自学习。具体地,所述检测方法还包括:获取属于所述网站类型的网站对应的特征信息,作为反馈特征信息;根据所述反馈特征信息,调整所述预设模板。例如,可以根据所述反馈特征信息,增加或者删除预设模板中的模块,或者对模块的权值进行修改。
下面通过一个具体的实施例,说明本申请实施例的检测方法。
请参阅图2,本申请实施例提供了网站类型的检测方法的另一种方法实施例。本申请实施例中,以网站类型为电子商务类为例加以说明。
本实施例的所述方法包括:
S201:获取待检测网站的地址,访问所述待检测网站的一级页面。
例如,可以从工信部备案***中,确定出所属行业为电子商务类的表项,自动获取该表项中对应的地址。其中,可以以excel等格式批量提供多个待检测网站的地址。
S202:获取一级页面对应的网页代码,并提取该网页代码中的特征信息,作为特征信息01。
例如对于图3和图4所示的一级页面,从一级页面对应的网页代码中提取的特征信息01,可以包括:母婴玩具、手机数码、空调电视、“ICP证”等等。
S203:从一级页面的网页代码中获取二级页面的地址,根据二级页面的地址访问二级页面。
S204:获取二级页面的网页代码,并提取该网页代码中的特征信息,作为特征信息02。其中,特征信息01和特征信息02构成基本特征信息。
例如对于图5所示的二级页面,从二级页面对应的网页代码中提取的特征信息02,可以包括:送至、购买数量、加入购物车、立即购买等等。
S205:将特征信息01和特征信息02,与预设模板中的各个模块进行匹配,确定出与前两级页面匹配的N1个模块。
本实施例中,预设模板可以如表1所示。其中,需要说明的是,表1仅为一种举例说明,表1中所包括的各个模块,以及各个模块对应的匹配特征信息和权值,可以根据实际情况进行调整。
表1
例如,将特征信息01与各个模块的匹配特征信息进行匹配,确定出与一级页面匹配的电商备案认证模块和商品类目模块,将特征信息02与各个模块的匹配特征信息进行匹配,确定出与二级页面匹配的商品详情模块。
在本申请实施例中,将基本特征信息与匹配特征信息进行匹配时,可以采用精确匹配或者模糊匹配,模块匹配包括同义词匹配等,防止关键数据的丢失。
S206:根据N1个模块分别对应的权值,获得前两级页面与预设模板的匹配度。
例如,将电商备案认证模块、商品类目模块和商品详情模块这三个模块对应的权值相加,得到匹配度0.15+0.2+0.2=55%。
S207:将匹配度与预设阈值进行比较,若匹配度大于预设阈值,则执行S208,若匹配度小于预设阈值,则执行S208。
S208:确定出所述待检测网站属于电子商务类。
S209:从二级页面的网页代码中获取三级页面的地址,根据三级页面的地址访问三级页面。
本实施例中,在访问三级页面时若检测出需要登录,则可以利用TestNG等自动化技术,自动注册账号以模拟登录所述网站。
S210:获取三级页面的网页代码,并提取该网页代码中的特征信息,作为特征信息03。其中,特征信息03作为附加特征信息。
例如对于图6所示的三级页面,从三级页面对应的网页代码中提取的特征信息03,可以包括:单价、数量、结算等等。
S211:将特征信息01、特征信息02和特征信息03,与预设模板中的各个模块进行匹配,确定出与前三级页面匹配的N2个模块。
例如,将特征信息03与各个模块的匹配特征信息进行匹配,确定出与三级页面匹配的购物车模块。因此,N2个模块包括:电商备案认证模块、商品类目模块、商品详情模块和购物车模块。
S212:根据N2个模块分别对应的权值,获得前三级页面与预设模板的匹配度。
例如,将电商备案认证模块、商品类目模块、商品详情模块、购物车模块这四个模块对应的权值相加,得到匹配度0.15+0.2+0.2+0.15=70%。
S213:将匹配度与预设阈值进行比较,若匹配度大于预设阈值,则执行S208,若匹配度小于预设阈值,则执行S214。
S214:可以确定出所述待检测网站不属于电子商务类,也可以继续访问四级页面进行判断。其中,可以设定检测的最大级数,例如设定最大级数为6,如果根据前六级页面的特征信息确定出的匹配度仍然低于预设阈值,则最终确定出待检测网站不属于所述网站类型。
对应上述方法实施例,本申请还提供了装置实施例,下面具体说明。
请参阅图7,本申请提供了网站类型的检测装置的一种装置实施例。本实施例的所述检测装置包括:访问单元701、第一获取单元702、提取单元703、第二获取单元704和第一确定单元705。
访问单元701,用于根据待检测网站的地址访问所述待检测网站的至少两级页面。
在本申请实施例中,当需要对待检测网站进行网站类型的检测时,能够获取到该网站的地址,例如该网站的域名等,通过该域名等地址能够自动访问所述待检测网站。
若所述至少两级页面包括一级页面和二级页面,所述地址通常为所述待检测网站的一级页面地址,即首页地址,根据所述一级页面地址能够访问该网站的一级页面,通过获取所述一级页面的网页代码,能够从所述一级页面的网页代码中获取二级页面的地址,根据所述二级页面的地址访问所述二级页面。类似的,可以依次访问三级页面、四级页面等。
其中,所述至少两级页面通常为前M级页面,M≥2,M的具体数值可以预先设定。也就是说,本申请实施例除了访问一级页面之外,还会访问所述待检测网站的二级页面甚至更多的后级页面,从而能够获取待检测网站更全面的信息,提高检测结果的准确率。
经过发明人研究发现,通常访问该网站的前三级页面,即一级页面、二级页面和三级页面,一般就能够准确判断出所述待检测网站的网站类型。
第一获取单元702,用于获取所述至少两级页面对应的网页代码。
第一获取单元702具体可以通过网络爬虫等技术获取所述网页代码。其中,网页代码可以包括静态网页标记代码,和/或JavaScript动态脚本代码。
提取单元703,用于从所述网页代码中提取特征信息,作为基本特征信息;
提取单元703通过对所述网页代码进行分析,能够提取出所述网页代码的特征信息,该特征信息能够反映所述至少两级页面的基本属性,例如显示属性等等。
其中,所述特征信息可以包括页面元素的标识和/或内容。例如,在网页代码中,将变量order赋值为‘订单01’,该变量即作为一个页面元素,该页面元素的标识为“order”,该页面元素的内容为“订单01”。
第二获取单元704,用于根据所述基本特征信息获取所述至少两级页面与预设模板的匹配度,作为第一匹配度。
其中,所述预设模板对应一网站类型,并且能够反映该类型的网站具有的特定属性。举例说明,所述预设模板对应电子商务类,能够反映电子商务类网站具有的属性,例如能够反映电子商务类网站通常具有商品类目区、电商备案认证区、商品详情页等。第二获取单元704将所述基本特征信息与预设模板进行比较,能够获取所述至少两级页面与所述预设模板的匹配度。
第一确定单元705,用于若所述第一匹配度大于预设阈值,确定所述待检测网站属于所述预设模板对应的网站类型。
若所述第一匹配度大于预设阈值,表示所述至少两级页面与所述预设模板的匹配度较高,因此能够说明所述待检测网站属于所述预设模板对应的所述网站类型。例如,若所述预设模板为所述电子商务类对应的模板,所述第一匹配度大于预设阈值,则第一确定单元705能够确定出所述待检测网站属于电子商务类。
本申请实施例的所述检测装置可以用于手机等手持设备、计算机、服务器等任一种具有检测功能的电子设备中。
通过上述技术方案可知,本申请实施例中,通过自动访问待检测网站的至少两级页面,能够获取所述至少两级页面对应的网页代码,根据从网页代码提取出的特征信息,能够获取所述至少两级页面与预设模板对应的匹配度,由于预设模板对应一网站类型,因此若该匹配度大于预设阈值,则说明所述待检测网站属于该网站类型。可见,本申请实施例提供了一种自动检测网站类型的方式,从而减少工作量并提高检测效率。而且,由于本申请实施例中不再依赖于检测人员的经验值,而且根据待检测网站的至少两级页面进行检测,能够有效地提高检测结果的准确率。
可选的,所述检测装置还包括第二确定单元或者第三确定单元;
其中,所述第二确定单元用于,若所述第一匹配度小于所述预设阈值,确定所述待检测网站不属于所述网站类型;所述第三确定单元用于,根据所述基本特征信息和附加特征信息确定所述待检测网站是否属于所述网站类型。
可选的,所述第三确定单元包括:
第一访问子单元,用于访问所述至少两级页面的下一级页面;
第一获取子单元,用于获取所述下一级页面对应的网页代码;
提取子单元,用于从所述下一级页面对应的网页代码中提取特征信息,作为所述附加特征信息;
第二获取子单元,用于根据所述基本特征信息和所述附加特征信息获取至少三级页面与所述预设模板的匹配度,作为第二匹配度;所述至少三级页面包括所述至少两级页面和所述至少两级页面的下一级页面;
第一确定子单元,用于根据所述第二匹配度与所述预设阈值的比较结果,确定所述待检测网站是否属于所述网站类型。
可选的,所述预设模板包括至少一个模块,各个模块具有对应的匹配特征信息和权值;所述第二获取模块包括:
第二确定子单元,用于根据所述基本特征信息和各个模块对应的匹配特征信息,确定出与所述至少两级页面匹配的N个模块,N≥0;
第三获取子单元,用于根据所述N个模块分别对应的权值,获得所述至少两级页面与所述预设模板的匹配度。
可选的,所述检测装置还包括:
第三获取单元,用于获取属于所述网站类型的网站对应的特征信息,作为反馈特征信息;
调整单元,用于根据所述反馈特征信息,调整所述预设模板。
可选的,所述至少两级页面包括一级页面和二级页面;所述访问单元包括:
第二访问子单元,用于根据所述待检测网站的一级页面地址访问所述待检测网站的一级页面;
第四获取子单元,用于获取所述一级页面的网页代码,从所述一级页面的网页代码中获取二级页面的地址;
第三访问子单元,用于根据所述二级页面的地址访问所述二级页面。
可选的,所述检测装置还包括:模拟登陆单元和/或模拟操作单元;
所述模拟登陆单元,用于模拟登录所述待检测网站;所述模拟操作单元,用于模拟操作所述待检测网站。
可选的,所述网站类型为电子商务类,所述预设模板为所述电子商务类对应的模板。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (18)

1.一种网站类型的检测方法,其特征在于,包括:
根据待检测网站的地址访问所述待检测网站的至少两级页面;
获取所述至少两级页面对应的网页代码;
从所述网页代码中提取特征信息,作为基本特征信息;
根据所述基本特征信息获取所述至少两级页面与预设模板的匹配度,作为第一匹配度;
若所述第一匹配度大于预设阈值,确定所述待检测网站属于所述预设模板对应的网站类型。
2.根据权利要求1所述的检测方法,其特征在于,所述检测方法还包括:
若所述第一匹配度小于所述预设阈值,确定所述待检测网站不属于所述网站类型,或者根据所述基本特征信息和附加特征信息确定所述待检测网站是否属于所述网站类型。
3.根据权利要求2所述的检测方法,其特征在于,根据所述基本特征信息和附加特征信息确定所述待检测网站是否属于所述网站类型,包括:
访问所述至少两级页面的下一级页面;
获取所述下一级页面对应的网页代码;
从所述下一级页面对应的网页代码中提取特征信息,作为所述附加特征信息;
根据所述基本特征信息和所述附加特征信息获取至少三级页面与所述预设模板的匹配度,作为第二匹配度;所述至少三级页面包括所述至少两级页面和所述至少两级页面的下一级页面;
根据所述第二匹配度与所述预设阈值的比较结果,确定所述待检测网站是否属于所述网站类型。
4.根据权利要求1所述的检测方法,其特征在于,所述预设模板包括至少一个模块,各个模块具有对应的匹配特征信息和权值;根据所述基本特征信息获取所述至少两级页面与预设模板的匹配度,包括:
根据所述基本特征信息和各个模块对应的匹配特征信息,确定出与所述至少两级页面匹配的N个模块,N≥0;
根据所述N个模块分别对应的权值,获得所述至少两级页面与所述预设模板的匹配度。
5.根据权利要求1所述的检测方法,其特征在于,所述检测方法还包括:
获取属于所述网站类型的网站对应的特征信息,作为反馈特征信息;
根据所述反馈特征信息,调整所述预设模板。
6.根据权利要求1所述的检测方法,其特征在于,所述至少两级页面包括一级页面和二级页面,根据待检测网站的地址访问所述待检测网站的至少两级页面包括:
根据所述待检测网站的一级页面地址访问所述待检测网站的一级页面;
获取所述一级页面的网页代码,从所述一级页面的网页代码中获取二级页面的地址;
根据所述二级页面的地址访问所述二级页面。
7.根据权利要求1所述的检测方法,其特征在于,所述基本特征信息包括页面元素的标识和/或内容。
8.根据权利要求1所述的检测方法,其特征在于,访问所述待检测网站的至少两级页面时,所述检测方法还包括:
模拟登录和/或模拟操作所述待检测网站。
9.根据权利要求1至8任一项所述的检测方法,其特征在于,所述网站类型为电子商务类,所述预设模板为所述电子商务类对应的模板。
10.一种网站类型的检测装置,其特征在于,包括:
访问单元,用于根据待检测网站的地址访问所述待检测网站的至少两级页面;
第一获取单元,用于获取所述至少两级页面对应的网页代码;
提取单元,用于从所述网页代码中提取特征信息,作为基本特征信息;
第二获取单元,用于根据所述基本特征信息获取所述至少两级页面与预设模板的匹配度,作为第一匹配度;
第一确定单元,用于若所述第一匹配度大于预设阈值,确定所述待检测网站属于所述预设模板对应的网站类型。
11.根据权利要求10所述的检测装置,其特征在于,还包括第二确定单元或者第三确定单元;
所述第二确定单元用于,若所述第一匹配度小于所述预设阈值,确定所述待检测网站不属于所述网站类型;所述第三确定单元用于,根据所述基本特征信息和附加特征信息确定所述待检测网站是否属于所述网站类型。
12.根据权利要求11所述的检测装置,其特征在于,所述第三确定单元包括:
第一访问子单元,用于访问所述至少两级页面的下一级页面;
第一获取子单元,用于获取所述下一级页面对应的网页代码;
提取子单元,用于从所述下一级页面对应的网页代码中提取特征信息,作为所述附加特征信息;
第二获取子单元,用于根据所述基本特征信息和所述附加特征信息获取至少三级页面与所述预设模板的匹配度,作为第二匹配度;所述至少三级页面包括所述至少两级页面和所述至少两级页面的下一级页面;
第一确定子单元,用于根据所述第二匹配度与所述预设阈值的比较结果,确定所述待检测网站是否属于所述网站类型。
13.根据权利要求10所述的检测装置,其特征在于,所述预设模板包括至少一个模块,各个模块具有对应的匹配特征信息和权值;所述第二获取模块包括:
第二确定子单元,用于根据所述基本特征信息和各个模块对应的匹配特征信息,确定出与所述至少两级页面匹配的N个模块,N≥0;
第三获取子单元,用于根据所述N个模块分别对应的权值,获得所述至少两级页面与所述预设模板的匹配度。
14.根据权利要求10所述的检测装置,其特征在于,还包括:
第三获取单元,用于获取属于所述网站类型的网站对应的特征信息,作为反馈特征信息;
调整单元,用于根据所述反馈特征信息,调整所述预设模板。
15.根据权利要求10所述的检测装置,其特征在于,所述至少两级页面包括一级页面和二级页面;所述访问单元包括:
第二访问子单元,用于根据所述待检测网站的一级页面地址访问所述待检测网站的一级页面;
第四获取子单元,用于获取所述一级页面的网页代码,从所述一级页面的网页代码中获取二级页面的地址;
第三访问子单元,用于根据所述二级页面的地址访问所述二级页面。
16.根据权利要求10所述的检测装置,其特征在于,所述基本特征信息包括页面元素的标识和/或内容。
17.根据权利要求10所述的检测装置,其特征在于,还包括:模拟登陆单元和/或模拟操作单元;
所述模拟登陆单元,用于模拟登录所述待检测网站;
所述模拟操作单元,用于模拟操作所述待检测网站。
18.根据权利要求10至17任一项所述的检测装置,其特征在于,所述网站类型为电子商务类,所述预设模板为所述电子商务类对应的模板。
CN201610362232.0A 2016-05-26 2016-05-26 一种网站类型的检测方法及装置 Pending CN107436890A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610362232.0A CN107436890A (zh) 2016-05-26 2016-05-26 一种网站类型的检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610362232.0A CN107436890A (zh) 2016-05-26 2016-05-26 一种网站类型的检测方法及装置

Publications (1)

Publication Number Publication Date
CN107436890A true CN107436890A (zh) 2017-12-05

Family

ID=60454521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610362232.0A Pending CN107436890A (zh) 2016-05-26 2016-05-26 一种网站类型的检测方法及装置

Country Status (1)

Country Link
CN (1) CN107436890A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108742457A (zh) * 2018-05-14 2018-11-06 佛山市顺德区美的洗涤电器制造有限公司 洗碗机分配器识别方法、装置及计算机可读存储介质
CN108875060A (zh) * 2018-06-29 2018-11-23 成都市映潮科技股份有限公司 一种网站识别方法及识别***
CN109101657A (zh) * 2018-08-30 2018-12-28 杭州安恒信息技术股份有限公司 传销推荐人网站识别方法、装置及设备
CN109753619A (zh) * 2018-12-25 2019-05-14 杭州安恒信息技术股份有限公司 一种网站行业类型快速识别的方法
CN110929129A (zh) * 2018-08-31 2020-03-27 阿里巴巴集团控股有限公司 一种信息检测方法、设备及机器可读存储介质
CN111833064A (zh) * 2019-04-17 2020-10-27 马上消费金融股份有限公司 一种作弊检测方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102819597A (zh) * 2012-08-13 2012-12-12 北京星网锐捷网络技术有限公司 网页分类方法及设备
CN103179095A (zh) * 2011-12-22 2013-06-26 阿里巴巴集团控股有限公司 一种检测钓鱼网站的方法及客户端装置
CN103577447A (zh) * 2012-07-30 2014-02-12 百度在线网络技术(北京)有限公司 一种用于确定目标页面的页面类型信息的方法和设备
US20140304814A1 (en) * 2011-10-19 2014-10-09 Cornell University System and methods for automatically detecting deceptive content
CN104750754A (zh) * 2013-12-31 2015-07-01 北龙中网(北京)科技有限责任公司 网站所属行业的分类方法和服务器
CN104978423A (zh) * 2015-06-30 2015-10-14 北京奇虎科技有限公司 网站类型的检测方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140304814A1 (en) * 2011-10-19 2014-10-09 Cornell University System and methods for automatically detecting deceptive content
CN103179095A (zh) * 2011-12-22 2013-06-26 阿里巴巴集团控股有限公司 一种检测钓鱼网站的方法及客户端装置
CN103577447A (zh) * 2012-07-30 2014-02-12 百度在线网络技术(北京)有限公司 一种用于确定目标页面的页面类型信息的方法和设备
CN102819597A (zh) * 2012-08-13 2012-12-12 北京星网锐捷网络技术有限公司 网页分类方法及设备
CN104750754A (zh) * 2013-12-31 2015-07-01 北龙中网(北京)科技有限责任公司 网站所属行业的分类方法和服务器
CN104978423A (zh) * 2015-06-30 2015-10-14 北京奇虎科技有限公司 网站类型的检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭庚麒: ""基于Web挖掘的中文专业搜索引擎设计关键技术研究"", 《万方—中国学位论文全文数据库》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108742457A (zh) * 2018-05-14 2018-11-06 佛山市顺德区美的洗涤电器制造有限公司 洗碗机分配器识别方法、装置及计算机可读存储介质
CN108875060A (zh) * 2018-06-29 2018-11-23 成都市映潮科技股份有限公司 一种网站识别方法及识别***
CN108875060B (zh) * 2018-06-29 2021-02-26 成都市映潮科技股份有限公司 一种网站识别方法及识别***
CN109101657A (zh) * 2018-08-30 2018-12-28 杭州安恒信息技术股份有限公司 传销推荐人网站识别方法、装置及设备
CN110929129A (zh) * 2018-08-31 2020-03-27 阿里巴巴集团控股有限公司 一种信息检测方法、设备及机器可读存储介质
CN110929129B (zh) * 2018-08-31 2023-12-26 阿里巴巴集团控股有限公司 一种信息检测方法、设备及机器可读存储介质
CN109753619A (zh) * 2018-12-25 2019-05-14 杭州安恒信息技术股份有限公司 一种网站行业类型快速识别的方法
CN111833064A (zh) * 2019-04-17 2020-10-27 马上消费金融股份有限公司 一种作弊检测方法及装置

Similar Documents

Publication Publication Date Title
CN107436890A (zh) 一种网站类型的检测方法及装置
CN108416198B (zh) 人机识别模型的建立装置、方法及计算机可读存储介质
CN107807987B (zh) 一种字符串分类方法、***及一种字符串分类设备
CN108629043B (zh) 网页目标信息的提取方法、装置及存储介质
CN101694668B (zh) 网页结构相似性确定方法及装置
CN107168992A (zh) 基于人工智能的文章分类方法及装置、设备与可读介质
CN104168293B (zh) 结合本地内容规则库识别可疑钓鱼网页的方法及***
CN110532352B (zh) 文本查重方法及装置、计算机可读存储介质、电子设备
CN108197668A (zh) 模型数据集的建立方法及云***
CN107491536B (zh) 一种试题校验方法、试题校验装置及电子设备
CN105824822A (zh) 一种由钓鱼网页聚类定位目标网页的方法
CN110019163A (zh) 对象特征的预测、推荐的方法、***、设备和存储介质
CN109714356A (zh) 一种异常域名的识别方法、装置及电子设备
CN107895117A (zh) 恶意代码标注方法和装置
CN113961473A (zh) 数据测试方法、装置、电子设备及计算机可读存储介质
CN108804918A (zh) 安全性防御方法、装置、电子设备及存储介质
CN106168968A (zh) 一种网站分类方法及装置
CN108763961A (zh) 一种基于大数据的隐私数据分级方法和装置
CN104102704A (zh) ***控件展示方法和装置
CN114510716A (zh) 文档检测方法、模型训练方法、装置、终端及存储介质
CN104657391B (zh) 页面的处理方法及装置
CN108920955A (zh) 一种网页后门检测方法、装置、设备及存储介质
CN104572810A (zh) 利用位图进行海量文件运算处理的方法
CN104462151A (zh) 评估网页发布时间的方法和相关装置
CN107133163A (zh) 一种验证描述类api的方法与设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171205

RJ01 Rejection of invention patent application after publication