CN109672650A

CN109672650A - 网站分类***、方法及数据处理方法

Info

Publication number: CN109672650A
Application number: CN201710965355.8A
Authority: CN
Inventors: 孙建亮
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2017-10-17
Filing date: 2017-10-17
Publication date: 2019-04-23

Abstract

本发明公开了一种网站分类***、方法及数据处理方法。其中，该方法包括：从公有云的网络入口处截获数据流，其中，数据流为至少一个客户端设备访问至少一个目标网站时的数据流；基于数据流确定至少一个目标网站，并对确定的至少一个目标网站进行分类。本发明解决了现有技术中使用安全协议传输的网站难以准确分类的技术问题。

Description

网站分类***、方法及数据处理方法

技术领域

本发明涉及互联网领域，具体而言，涉及一种网站分类***、方法及数据处理方法。

背景技术

目前网站的分类主要是针对HTTP协议，主要原因是HTTP协议是明文协议，能够提取URL，以及相关的GET、POST、Response信息，因此可以根据这些信息对HTTP网站进行多个维度的分类。

但随着HTTPS的不断普及，很多网站站点都开始使用HTTPS对外提供服务。由于HTTPS网站内容加密的，在不掌握证书私钥和相关随机数的情况下，HTTPS流量在旁路观察者看来就是一堆随机数，所以难以对HTTPS网站进行分类。

针对现有技术中使用安全协议传输的网站难以准确分类的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种网站分类***、方法及数据处理方法，以至少解决现有技术中使用安全协议传输的网站难以准确分类的技术问题。

根据本发明实施例的一个方面，提供了一种网站分类***，包括：至少一个客户端设备，用于通过公有云的网络入口访问至少一个目标网站；旁路镜像***，用于接收从网络入口处对原始数据流进行镜像得到的数据流，基于接收的数据流确定至少一个客户端设备访问的至少一个目标网站；分类服务器，用于对确定的至少一个目标网站进行分类。

根据本发明实施例的另一方面，还提供了一种网站分类方法，包括：从公有云的网络入口处截获数据流，其中，数据流为至少一个客户端设备访问至少一个目标网站时的数据流；基于数据流确定至少一个目标网站，并对确定的至少一个目标网站进行分类。

根据本发明实施例的另一方面，还提供了一种数据处理方法，包括：获取应用层加密数据，其中，应用层加密数据包括HTTPS数据流，HTTPS数据流包括服务器名称指示SNI字段；基于应用层加密数据，确定待访问的目标网站。

根据本发明实施例的另一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行的网站分类方法；或者的数据处理方法。

根据本发明实施例的另一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行的网站分类方法；或者的数据处理方法。

根据本发明实施例的另一方面，还提供了一种***，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：从公有云的网络入口处截获数据流，其中，数据流为至少一个客户端设备访问至少一个目标网站时的数据流；基于数据流确定至少一个目标网站，并对确定的至少一个目标网站进行分类。

在现有技术中，只能对使用HTTP协议的网站，及使用非加密协议的网站进行分类，而对于使用了安全传输协议的网站，由于其数据流在第三方看来仅为乱码，因此无法对使用了安全传输协议的网站进行分类。而本申请上述实施例从公有云的网络入口处截获数据流，其中，数据流为至少一个客户端设备访问至少一个目标网站时的数据流，基于数据流确定至少一个目标网站，并对确定的至少一个目标网站进行分类。上述方案通过对客户端设备访问目标网站的原始数据流进行镜像得到数据流，通过数据流来获取客户端设备所访问的目标网站，进而能够对目标网站进行分类。

由此，本申请上述方案解决了现有技术中使用安全协议传输的网站难以准确分类的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本申请实施例1的一种网站分类***的示意图；

图2是根据本申请实施例1的一种可选的网站分类***的示意图；

图3示出了一种用于实现网站分类方法的计算机终端(或移动设备)的硬件结构框图；

图4是根据本申请实施例2的网站分类方法的流程图；

图5是根据本申请实施例2的一种获取SNI字段的流程图；

图6是根据本申请实施例2的一种获取目标网站的安全证书的流程图；

图7是根据本申请实施例2的一种根据安全证书对目标网站进行分类的示意图；

图8是根据本申请实施例2的一种识别仿冒网站的示意图；

图9是根据本申请实施例2的一种爬取设备对网页进行爬取的示意图；

图10是根据本申请实施例2的一种根据爬取的网页内容对目标网站进行分类的示意图；

图11是根据本申请实施例2的一种爬取网页内容的流程图；

图12是根据本申请实施例3的数据处理方法的流程图；

图13是根据本申请实施例4的一种网站分类装置的示意图；

图14是根据本申请实施例5的一种数据处理装置的示意图；以及

图15是根据本申请实施例6的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

HTTP：HTTP协议(HyperText Transfer Protocol，超文本传输协议)是用于从WWW服务器传输超文本到本地浏览器的传送协议。

SSL：SSL协议(Secure Sockets Layer，安全套接层)，是一种安全协议，目的是为网际通信提供安全及数据完整性保障，该协议会在传输层对网络连接进行加密。SSL协议位于TCP/IP协议与各种应用层协议之间，为数据通信提供安全支持。

TLS：TLS协议(Transport Layer Security，传输层安全协议)，其前身为SSL协议，目的也是为数据通信提供安全支持，在传输层对网络连接进行加密。

HTTPS：HTTPS协议(HyperText Transfer Protocol Secure)，是以安全为目标的HTTP通道，常称为HTTP over TLS,HTTP over SSL或者HTTP Secure。HTTPS使用SSL/TLS来加密封包，上层承载的是HTTP协议。

SNI：SNI(Server Name Indication)是TLS协议的一个扩展字段，通过SNI在握手开始时客户端能够告知服务器端所要访问的网站域名。这样在一个主机对应多个域名的情况下，服务器通过SNI字段则能够判断客户端访问的具体域名，并返回对应的证书。

数字证书认证机构：数字证书认证机构(Certificate Authority，缩写为CA)，也称为电子商务认证中心、电子商务认证授权机构，是负责发放和管理数字证书的权威机构，并作为电子商务交易中受信任的第三方，承担公钥体系中公钥的合法性检验的责任。CA中心为每个使用公开密钥的用户发放一个数字证书，数字证书的作用是证明证书中列出的用户合法拥有证书中列出的公开密钥。

数字证书：数字证书为实现双方安全通信提供电子认证。在因特网、公司内部网或外部网中，使用数字证书实现身份识别和电子信息加密。数字证书中含有密钥对(公钥和私钥)所有者的识别信息，通过验证识别信息的真伪实现对证书持有者身份的认证。

实施例1

目前网站的分类主要是针对HTTP协议，主要原因是HTTP协议是明文协议，能够提取URL，以及相关的GET、POST、Response，可以根据多种维度对HTTP网站进行分类。但随着HTTPS的不断普及，很多网站站点都开始使用HTTPS对外提供服务。由于HTTPS网站内容加密的，在不掌握证书私钥和相关随机数的情况下，HTTPS流量在旁路观察者看来就是一堆随机数，所以难以对HTTPS网站进行分类。

为了解决上述技术问题，本申请提供了相应的解决方案，即一种网站分类***，下面对该***进行说明，如图1所示：

至少一个客户端设备10，用于通过公有云的网络入口访问至少一个目标网站。

上述客户端设备可以是用户用于通过公有云的网络入口访问目标网站的终端设备，目标网站可以是公有云平台能够提供的任意网站。

图2是根据本申请实施例1的一种可选的网站分类***的示意图，结合图2所示，客户端设备通过互联网接入公有云平台提供的网络入口来访问公有云平台提供的目标网站，这些目标网站可以是使用安全协议的网站，例如：使用HTTPS协议的网站。

旁路镜像***20，用于接收从网络入口处对原始数据流进行镜像得到的数据流，基于接收的数据流确定至少一个客户端设备访问的至少一个目标网站。

具体的，上述旁路镜像***可以包括端口具备镜像功能的交换机等网络设备。上述网络入口为公有云平台提供的网络入口，用于客户端设备对目标网站进行访问，原始数据流为客户端设备访问目标网站生成的数据流，通过旁路镜像***对原始数据流进行镜像得到用于确定目标网站的数据流。

旁路镜像***在得到数据流后，可以从数据流中获取服务器名称指示SNI字段；基于SNI字段确定数据流中目标网站的站点域名，从而确定至少一个目标网站。

分类服务器30，用于对确定的至少一个目标网站进行分类。

在通过数据流确定至少一个目标网站之后，可以对目标网站在多个维度上进行分类。

在现有技术中，只能对使用HTTP协议的网站，及使用非加密协议的网站进行分类，而对于使用了安全传输协议的网站，由于其数据流在第三方看来仅为乱码，因此无法对使用了安全传输协议的网站进行分类。而本申请上述实施例提供的方案通过对客户端设备访问目标网站的原始数据流进行镜像得到数据流，通过数据流来获取客户端设备所访问的目标网站，进而能够对目标网站进行分类。

作为一种可选的实施例，旁路镜像***，还用于在数据流为HTTPS数据流时，从接收的数据流中获取服务器名称指示SNI字段；并基于SNI字段确定目标网站。

具体的，可以通过从数据流中识别SSL协议，并获取原始数据流的TCP数据包，基于原始数据流的TCP数据包中的识别握手包(client hello数据包)，按照TLS的规范提取出相应的SNI。

作为一种可选的实施例，旁路镜像***，还用于从数据流中提取用于反映目标网站的可信度的可信度信息；分类服务器，还用于根据可信度信息对目标网站进行分类。

具体的，上述目标网站的可信度信息可以为目标网站的数字证书认证机构的可信度等级，知名数字证书认证机构具有较高的可信度等级，不知名的数字证书认证机构具有较低的可信度等级。分类服务器根据可信度信息，将目标网站按照可信度信息这一维度进行分类。

作为一种可选的实施例，可信度信息包括：目标网站的安全证书；分类服务器，还用于依据安全证书认证机构的类型对目标网站进行分类。

结合图2所示，在一种可选的实施例中，上述分类服务器包括算法中心和HPPTS网站分类知识库，算法中心预存有不同数字证书认证机构的可信度等级。旁路镜像***从网站入口处对原始数据流进行镜像得到数据流，从数据流中提取目标网站的网站证书信息，并将提取到的数字证书上传至算法中心，算法中心根据数字证书确定目标网站所使用的数字证书认证机构，并基于预存的数字证书认证机构的可信度模型，确定目标网站所使用的数字证书认证机构的可信度等级。每个数字证书认证机构的可信度等级可以作为一个类别，算法中心将目标网站分类至其数字证书认证机构所属的等级对应的类别中，从而完成了对目标网站的分类。

例如，知名的数字证书认证机构具有较高的可信度等级，对应第一类别；普通的数字证书认证机构具有较低的可信度等级，对应第二类别；自签名的数字证书的可信度最低，对应第三类别。在这一基础上，算法中心可以在可信度的维度上，基于目标网站所使用的安全证书，将目标网站分为上述三个类别。

算法中心还能够根据预存的数字证书认证机构的信息进行更加细致的划分，从而将目标网站进行更加细致的划分。

在算法中心将目标网站进行分类之后，可以由HTTPS网站分类知识库存储算法中心得到的分类结果，并由HTTPS网站分类知识库直接度外部提供服务。

需要注意的是，在上述分类过程中，还可以另外设置一个分类为仿冒分类，识别出安全证书与可信度较高的安全证的相似度超过预设值的安全证书，将使用该安全证书的网站分为该仿冒分类。

可以将安全证书的可信度与安全证书信息库中的安全证书进行证书相似度计算，安全证书信息库用于存储知名度较高的网站的安全证书，也即可信度较高的安全证书。在得到的相似度高于预设值时，确认当前目标网站为仿冒网站，将该目标网站分类至仿冒分类。

作为一种可选的实施例，上述***还包括：

爬取设备，用于爬取确定的至少一个目标网站的网页。

分类服务器还用于依据网页中的内容对目标网站进行分类。

具体的，上述爬取设备可以为爬虫，可以通过旁路镜像***获取HTTPS网站的访问日志，基于HTTPS网站的访问日志来确定爬取策略，通过爬取策略进行爬取，得到目标网站对应的网页。

分类服务器得到至少一个目标网站的网页后，根据网页的内容，可以从设置的多个维度对目标网站进行分类。

作为一种可选的实施例，上述***还包括：策略服务器，用于获取目标网站的访问量；依据访问量生成爬取指令，其中，爬取指令用于触发爬取设备爬取网页。

在一种可选的实施例中，结合图2所示，策略服务器可以为爬虫知识库，爬虫知识库从旁路镜像***中获取访问日志，根据访问日志确定爬取策略，及爬取指令，再由HTTPS网站深爬***根据爬取指令调度爬取设备进行爬取，并将爬取结果上传至分类服务器。

分类服务器可以包括算法中心和HTTPS网站分类知识库，爬取设备将爬取结果上传至算法中心，由算法中心根据爬取得到的网页内容对网站进行分类。具体的，算法中心可以使用分词、聚类等算法对目标网站进行不同维度的分类。

例如，爬虫知识库根据访问日志对目标网站的网页的访问量由高至低排序，并获取排序结果中前n位的网页，生成对这n个网页进行爬取的爬取指令，HTTPS网站深爬***根据爬取指令调度爬虫设备对这n个网站进行爬取。

算法中心对爬取结果中的文本内容进行分词，并将分词结果进行聚类，从而实现了对目标网站的分类。

需要说明的是，如果没有根据爬取指令而进行无目标全网深爬，则目标性不强，导致爬取效率较低，得到的分类结果也不准确，因此上述方案通过策略服务器指定爬取指令，根据爬取指令调度爬取设备进行爬取得到至少一个网页，同时可以根据不同的爬取目的设置不同的爬取指令，这样的爬取方式具有针对性和目的性。再根据爬取的至少一个网页进行分类，则能够得到具有针对性的分类结果。

实施例2

根据本发明实施例，还提供了一种网站分类方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图3示出了一种用于实现网站分类方法的计算机终端(或移动设备)的硬件结构框图。如图3所示，计算机终端30(或移动设备30)可以包括一个或多个(图中采用302a、302b，……，302n来示出)处理器302(处理器302可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器304、以及用于通信功能的传输模块306。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图3所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端30还可包括比图3中所示更多或者更少的组件，或者具有与图3所示不同的配置。

应当注意到的是上述一个或多个处理器302和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端30(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器304可用于存储应用软件的软件程序以及模块，如本发明实施例中的网站的分类方法对应的程序指令/数据存储装置，处理器302通过运行存储在存储器304内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的网站分类方法。存储器304可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器304可进一步包括相对于处理器302远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端30。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置306用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端30的通信供应商提供的无线网络。在一个实例中，传输装置306包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置306可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端30(或移动设备)的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图3所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图3仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

在上述运行环境下，本申请提供了如图4所示的网站分类方法。图4是根据本申请实施例2的网站分类方法的流程图。

步骤S41，从公有云的网络入口处截获数据流，其中，数据流为至少一个客户端设备访问至少一个目标网站时的数据流。

在上述步骤中，可以通过旁路镜像设备，对客户端设备访问至少一个目标网站时的原始数据流进行镜像得到的数据流。

步骤S43，基于数据流确定至少一个目标网站，并对确定的至少一个目标网站进行分类。

作为一种可选的实施例，从公有云的网络入口处截获数据流，包括：

步骤S411，从网络入口处获取原始数据流；并对原始数据流进行镜像，将镜像得到的数据流作为截获的数据流。

结合图2所示，可以通过旁路镜像***从公有云的网络入口处对原是数据流进行截获，在将原始数据流通过旁路镜像***的镜像功能进行镜像，得到上述数据流。

作为一种可选的实施例，数据流包括HTTPS数据流；基于数据流确定至少一个目标网站，包括：

步骤S431，从接收的数据流中获取服务器名称指示SNI字段；并基于SNI字段确定目标网站。

由于SNI字段是TLS协议的一个扩展字段，通过SNI在握手开始时客户端告知服务器端所要访问的网站域名，从而获取SNI字段来确定目标网站。

图5是根据本申请实施例2的一种获取SNI字段的流程图，结合图2所示对如何获取SNI字段进行说明。

S51，接收TCP数据包。上述TCP数据包可以为原始数据流获取。

S52，判断是否为SSL协议。可以通过SSL协议识别模块来识别原始数据流中的SSL协议，并将TCP数据包上传给SNI提取模块。在判断结果是为SSL协议的情况下，进入步骤S53，在判断结果是不为SSL协议的情况下，返回步骤S51重新获取TCP数据包。

S53，判断是否为Client Hello报文。对TCP数据包中的内容进行识别，在内容为Client Hello报文时，则进入步骤S54，在内容不为Client Hello报文的情况下，返回S53获取下一个报文进行判断。

S54，是否能正确提取到SNI。在能够正确提取到SNI的情况下进入步骤S55，否则再次执行S54继续进行提取。

S55，提取SNI字段。由于SNI字段是在握手开始时客户端设备告知服务器端所要访问的网站域名，因此可以通过提取SNI字段来获取目标网站的站点域名。

作为一种可选的实施例，对确定的至少一个目标网站进行分类，包括：

步骤S433，从数据流中提取用于反映目标网站的可信度的可信度信息；根据可信度信息对目标网站进行分类。

具体的，上述目标网站的可信度信息可以为目标网站的数字证书认证机构的可信度等级，知名数字证书认证机构具有较高的可信度，不知名的数字证书认证机构具有较低的可信度。分类服务器根据可信度信息，将目标网站按照可信度这一维度进行分类。

作为一种可选的实施例，可信度信息包括：目标网站的安全证书；根据可信度信息对目标网站进行分类，包括：依据安全证书认证机构的类型对目标网站进行分类。

具体的，安全证书认证机构的类型可以根据预存的安全证书认证机构的知名度确定，安全证书认证机构的类型可以是根据安全证书认证机构的可信度对安全证书认证机构进行分类的结果，依据安全证书认证机构的类型对目标网站进行分类，即为将安全证书认证机构的类别相同的目标网站分为一类。

图6是根据本申请实施例2的一种获取目标网站的安全证书的流程图，下面结合图6进行说明。

S61，接收TCP数据包。上述TCP数据包可以为原始数据流获取。

S62，判断是否为SSL协议。可以通过SSL协议识别模块来识别原始数据流中的SSL协议，并将TCP数据包上传给SNI提取模块。在判断结果是为SSL协议的情况下，进入步骤S63，在判断结果是不为SSL协议的情况下，返回步骤S61重新获取TCP数据包。

S63，判断是否为Client Hello报文。对TCP数据包中的内容进行识别，在内容为Client Hello报文时，则进入步骤S64，在内容不为Client Hello报文的情况下，返回S63获取下一个报文进行判断。

S64，是否能正确提取安全证书。在能够正确提取到安全证书的情况下进入步骤S65，否则再次执行S64继续进行提取。

S65，提取安全证书。

图7是根据本申请实施例2的一种根据安全证书对目标网站进行分类的示意图，在提取了目标网站的安全证书之后，根据HTTP证书信息(目标网站的安全证书)以及预设的数字证书认证机构的可信度模型，得到HTTP网站可信度分类结果。在一种可选的实施例中，将安全证书的可信度信息输入至数字证书认证机构的可信度模型，进行HTTP网站可信度分类计算，得到其可信度对应的分类，即为该目标网站所属的分类。

图8是根据本申请实施例2的一种识别仿冒网站的示意图，结合图8所示，将HTTP证书信息(目标网站的安全证书)的可信度与安全证书信息库中的安全证书进行证书相似度计算，安全证书信息库用于存储知名度较高的网站的安全证书，也即可信度较高的安全证书。在得到的相似度高于预设值时，确认当前目标网站为仿冒网站，将该目标网站分类至仿冒分类。

爬取至少一个目标网站的网页内容；基于网页内容对至少一个目标网站进行分类。

在上述步骤中，可以根据目标网站的访问量确定所爬取的目标网站的网页，可以通过下发爬取指令调用爬取设备对确定的网页进行爬取。

具体的，可以通过图9所示的流程图进行爬取。

S91，爬虫知识库下发爬取指令。

S92,判断该目标网站的优先级是否高于当前爬取任务，在该目标网站的优先级高于当前爬取任务的情况下，进入步骤S93，否则进入步骤S94。

S93，立即根据爬取指令进行爬取。

S94，排入爬取队列。

在上述步骤中，爬取指令排入爬取队列等待被执行，爬取设备在执行完当前爬取指令后会继续执行爬取队列中的下一个爬取指令。

对至少一个目标网站进行分类可以是通过分词、确认网站主题词以及主题词聚类几个步骤来进行，下面结合图10进行详细说明。

图10是根据本申请实施例的一种根据爬取的网页内容对目标网站进行分类的示意图，结合图10所示，将爬取所得的网页内容中的文本进行网页分词，得到分词结果，再对分词结果进行主题词计算，主题词计算可以基于每个分词出现的频次来确定。对比目标网站的主题词，从而对目标网站的主题词进行聚类，从而得到目标网站的分类结果。

作为一种可选的实施例，爬取至少一个目标网站的网页内容，包括：爬取当前网页的内容；在内容中包括网站链接时，判断网站链接是否为本站链接；并在判断结果为是的情况下，继续爬取网站链接对应的网页。

图11是根据本申请实施例2的一种爬取网页内容的流程图，结合图11所示，包括如下步骤：

S111，爬取当前网页。

S112，提取当前网页中的所有HTTPS链接。

S113，判断链接是否为本站链接，在链接为本站链接的情况下进入步骤S114，否则进入步骤S115。

S114，继续进入深度爬取。

S115，将该链接放入爬虫知识库。

实施例3

根据本发明实施例，还提供了一种数据处理方法的实施例，图12是根据本申请实施例3的数据处理方法的流程图。

步骤S121，获取应用层加密数据，其中，所述应用层加密数据包括HTTPS数据流，所述HTTPS数据流包括服务器名称指示SNI字段。

具体的，上述应用层加密数据可以是从公有云的网络入口处截获数据流，可以通过旁路镜像设备，对客户端设备访问至少一个目标网站时的原始数据流进行镜像得到的数据流。

步骤S123，基于应用层加密数据，确定待访问的目标网站。

作为一种可选的实施例，在基于所述应用层加密数据，确定待访问的目标网站之后，所述方法还包括：对确定的目标网站进行分类。

在现有技术中，只能对使用HTTP协议的网站，及使用非加密协议的网站进行分类，而对于使用了安全传输协议的网站，由于其数据流在第三方看来仅为乱码，因此无法对使用了安全传输协议的网站进行分类。而本申请上述实施例获取应用层加密数据，基于应用层加密数据确定待访问的目标网站，对确定的目标网站进行分类。上述方案通过应用层加密数据来确定客户端设备的待访问目标网站，进而能够对目标网站进行分类。

作为一种可选的实施例，应用层加密数据包括HTTPS数据流，HTTPS数据流包括服务器名称指示SNI字段。

由于SNI字段是TLS协议的一个扩展字段，通过SNI在握手开始时客户端能够告知服务器端所要访问的网站域名，因此可以获取SNI字段来确定目标网站。

作为一种可选的实施例，数据流为HTTPS数据流；对确定的至少一个目标网站进行分类，包括：

步骤S1251，从数据流中提取用于反映目标网站的可信度的可信度信息；根据可信度信息对目标网站进行分类；或者，

步骤S1253，爬取确定的至少一个目标网站的网页；依据网页中的内容对目标网站进行分类。

上述方案提供了两种对目标网站进行分类的方式，第一种方式为根据提取的可信度信息进行分类，第二种方式为通过爬取的目标网站的网页对目标网站进行分类。

在第一种方式中，目标网站的可信度信息可以为目标网站的数字证书认证机构的可信度等级，知名数字证书认证机构具有较高的可信度，不知名的数字证书认证机构具有较低的可信度。分类服务器根据可信度信息，将目标网站按照可信度这一维度进行分类。

在第二种方式中，可以通过访问日志得到目标网站中网页的访问量，根据访问量生成爬取指令，并根据爬取指令调度爬取设备对网页进行爬取。再对爬取内容分析，对其中的文本内容进行分词，并通过各个分词的频次得到目标网站的主题词，再通过最各个目标网站的主题词进行聚类，得到目标网站的分类结果。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例4

根据本发明实施例，还提供了一种用于实施上述网站分类方法的网站分类装置，如图13所示，该装置1300包括：

截获模块130，用于从公有云的网络入口处截获数据流，其中，所述数据流为至少一个客户端设备访问至少一个目标网站时的数据流。

确定模块132，用于基于所述数据流确定至少一个目标网站，并对确定的至少一个目标网站进行分类。

此处需要说明的是，上述截获模块130和确定模块132对应于实施例2中的步骤S41至步骤S43，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端15中。

实施例5

根据本发明实施例，还提供了一种用于实施上述数据处理方法的数据处理装置，如图14所示，该装置1400包括：

获取模块140，用于获取应用层加密数据，其中，应用层加密数据包括HTTPS数据流，HTTPS数据流包括服务器名称指示SNI字段。

确定模块142，用于基于所述应用层加密数据，确定待访问的目标网站。

此处需要说明的是，上述获取模块140和确定模块142对应于实施例3中的步骤S121至步骤S123，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端15中。

实施例6

本发明的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行网站分类方法中以下步骤的程序代码：从公有云的网络入口处截获数据流，其中，安全证书数据流为至少一个客户端设备访问至少一个目标网站时的数据流；基于安全证书数据流确定至少一个目标网站，并对确定的至少一个目标网站进行分类。

可选地，图15是根据本申请实施例6的一种计算机终端的结构框图。如图15所示，该计算机终端A可以包括：一个或多个(图中仅示出一个)处理器1502、存储器1504以及外设接口1506。

其中，存储器可用于存储软件程序以及模块，如本发明实施例中的网站分类方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的网站分类方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端15。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：从公有云的网络入口处截获数据流，其中，安全证书数据流为至少一个客户端设备访问至少一个目标网站时的数据流；基于安全证书数据流确定至少一个目标网站，并对确定的至少一个目标网站进行分类。

可选的，上述处理器还可以执行如下步骤的程序代码：从安全证书网络入口处获取原始数据流；并对安全证书原始数据流进行镜像，将镜像得到的数据流作为截获的数据流。

可选的，上述处理器还可以执行如下步骤的程序代码：从安全证书接收的数据流中获取服务器名称指示SNI字段；并基于安全证书SNI字段确定安全证书目标网站。

可选的，上述处理器还可以执行如下步骤的程序代码：从安全证书数据流中提取用于反映安全证书目标网站的可信度的可信度信息；根据安全证书可信度信息对安全证书目标网站进行分类。

可选的，上述处理器还可以执行如下步骤的程序代码：安全证书可信度信息包括：安全证书目标网站的安全证书；根据安全证书可信度信息对安全证书目标网站进行分类，包括：依据安全证书安全证书认证机构的类型对安全证书目标网站进行分类。

可选的，上述处理器还可以执行如下步骤的程序代码：爬取安全证书至少一个目标网站的网页内容；基于安全证书网页内容对安全证书至少一个目标网站进行分类。

可选的，上述处理器还可以执行如下步骤的程序代码：爬取当前网页的内容；在安全证书内容中包括网站链接时，判断安全证书网站链接是否为本站链接；并在判断结果为是的情况下，继续爬取安全证书网站链接对应的网页。

本领域普通技术人员可以理解，图15所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图15其并不对上述电子装置的结构造成限定。例如，计算机终端15还可包括比图15中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图15所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例7

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的网站分类方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：从公有云的网络入口处截获数据流，其中，所述数据流为至少一个客户端设备访问至少一个目标网站时的数据流；基于所述数据流确定至少一个目标网站，并对确定的至少一个目标网站进行分类。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种网站分类***，其特征在于，包括：

至少一个客户端设备，用于通过公有云的网络入口访问至少一个目标网站；

旁路镜像***，用于接收从网络入口处对原始数据流进行镜像得到的数据流，基于接收的数据流确定所述至少一个客户端设备访问的至少一个目标网站；

分类服务器，用于对确定的所述至少一个目标网站进行分类。

2.根据权利要求1所述的***，其特征在于，所述旁路镜像***，还用于在所述数据流为HTTPS数据流时，从所述接收的数据流中获取服务器名称指示SNI字段；并基于所述SNI字段确定所述目标网站。

3.根据权利要求1所述的***，其特征在于，所述旁路镜像***，还用于从所述数据流中提取用于反映所述目标网站的可信度的可信度信息；所述分类服务器，还用于根据所述可信度信息对所述目标网站进行分类。

4.根据权利要求3所述的***，其特征在于，所述可信度信息包括：所述目标网站的安全证书；所述分类服务器，还用于依据安全证书认证机构的类型对所述目标网站进行分类。

5.根据权利要求1所述的***，其特征在于，

所述***还包括：爬取设备，用于爬取确定的所述至少一个目标网站的网页；

所述分类服务器还用于依据所述网页中的内容对所述目标网站进行分类。

6.根据权利要求5所述的***，其特征在于，所述***还包括：策略服务器，用于获取所述目标网站的访问量；依据所述访问量生成爬取指令，其中，所述爬取指令用于触发所述爬取设备爬取所述网页。

7.一种网站分类方法，其特征在于，包括：

从公有云的网络入口处截获数据流，其中，所述数据流为至少一个客户端设备访问至少一个目标网站时的数据流；

基于所述数据流确定至少一个目标网站，并对确定的至少一个目标网站进行分类。

8.根据权利要求7所述的方法，其特征在于，从公有云的网络入口处截获数据流，包括：

从所述网络入口处获取原始数据流；并对所述原始数据流进行镜像，将镜像得到的数据流作为截获的数据流。

9.根据权利要求7所述的方法，其特征在于，所述数据流包括HTTPS数据流；基于所述数据流确定至少一个目标网站，包括：

从接收的所述数据流中获取服务器名称指示SNI字段；并基于所述SNI字段确定所述目标网站。

10.根据权利要求7所述的方法，其特征在于，对确定的至少一个目标网站进行分类，包括：

从所述数据流中提取用于反映所述目标网站的可信度的可信度信息；根据所述可信度信息对所述目标网站进行分类。

11.根据权利要求10所述的方法，其特征在于，所述可信度信息包括：所述目标网站的安全证书；根据所述可信度信息对所述目标网站进行分类，包括：

依据安全证书认证机构的类型对所述目标网站进行分类。

12.根据权利要求7所述的方法，其特征在于，对确定的至少一个目标网站进行分类，包括：

爬取所述至少一个目标网站的网页内容；基于所述网页内容对所述至少一个目标网站进行分类。

13.根据权利要求12所述的方法，其特征在于，爬取所述至少一个目标网站的网页内容，包括：

爬取当前网页的内容；在所述内容中包括网站链接时，判断所述网站链接是否为本站链接；并在判断结果为是的情况下，继续爬取所述网站链接对应的网页。

14.一种数据处理方法，其特征在于，包括：

获取应用层加密数据，其中，所述应用层加密数据包括HTTPS数据流，所述HTTPS数据流包括服务器名称指示SNI字段；

基于所述应用层加密数据，确定待访问的目标网站。

15.根据权利要求14所述的方法，其特征在于，在基于所述应用层加密数据，确定待访问的目标网站之后，所述方法还包括：

对确定的所述目标网站进行分类。

16.根据权利要求14所述的方法，其特征在于，所述数据流为HTTPS数据流；对确定的至少一个目标网站进行分类，包括：

从所述数据流中提取用于反映所述目标网站的可信度的可信度信息；根据所述可信度信息对所述目标网站进行分类；或者，

爬取确定的所述至少一个目标网站的网页；依据所述网页中的内容对所述目标网站进行分类。

17.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求7至10中任意一项所述的网站分类方法；或者权利要求14-16中任意一项所述的数据处理方法。

18.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求7至10中任意一项所述的网站分类方法；或者权利要求14-16中任意一项所述的数据处理方法。

19.一种***，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：从公有云的网络入口处截获数据流，其中，所述数据流为至少一个客户端设备访问至少一个目标网站时的数据流；基于所述数据流确定至少一个目标网站，并对确定的至少一个目标网站进行分类。