CN108234435A - 一种基于ip分类的自动检测方法 - Google Patents

一种基于ip分类的自动检测方法 Download PDF

Info

Publication number
CN108234435A
CN108234435A CN201611201889.5A CN201611201889A CN108234435A CN 108234435 A CN108234435 A CN 108234435A CN 201611201889 A CN201611201889 A CN 201611201889A CN 108234435 A CN108234435 A CN 108234435A
Authority
CN
China
Prior art keywords
information
cluster
behavior
collection
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611201889.5A
Other languages
English (en)
Inventor
周辉
唐亘
张克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mdt Infotech Ltd Shanghai
Original Assignee
Mdt Infotech Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mdt Infotech Ltd Shanghai filed Critical Mdt Infotech Ltd Shanghai
Priority to CN201611201889.5A priority Critical patent/CN108234435A/zh
Publication of CN108234435A publication Critical patent/CN108234435A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种基于IP分类的自动检测方法,包括:将服务器获取的IP地址信息转化为IP使用的地理信息,并基于所述地理信息对所述IP地址信息分类以形成聚类;对所述IP参数集W中的选定元素及聚类按预定的时间维度进行窗口行为统计以输出行为统计结果,得到当前行为时间分布集C;以预定的时间单位对每个时间单位下的历史行为统计结果分配权重并对相同元素或聚类统计数据相加以更新历史行为分布集D;利用聚类算法将所述历史行为分布集D中的行为数据进行分类以生成聚类中心;计算所述当前行为时间分布集C到每一个聚类中心的距离并输出最小距离值;比较所述最小距离值与风险阈值以输出检测结果。本发明能够准确检测恶意域名。

Description

一种基于IP分类的自动检测方法
技术领域
本发明涉及计算机领域,特别涉及一种基于IP分类的自动检测方法。
背景技术
随着网络技术的飞速发展和网络时代的到来,网络所蕴含的广阔而丰富的资源,给人类社会带来了很多便利。然而,就在人们的生活越来越依赖网络的同时,由利益驱动而产生的网络安全事件却层出不穷,尤其在近几年,僵尸网络、域名放大分布式拒绝服务攻击、挂马等众多安全事件严重影响了网络的正常使用,也给社会各界带来了极大的危害,因此对这些事件的检测显得额外的重要。另外,使用一些网络域名,基于IP地址进行终端网站及应用的恶意注册、恶意申请也给网络服务商带来了极大的安全隐患。
域名***是当前互联网重要的基础设施之一,大量的网络服务依赖于域名服务来开展。域名解析服务(以下简称:DNS服务)将抽象的IP地址映射为易于记忆的域名,使互联网用户更加方便地访问各种网络资源,是互联网体系结构中重要的基础服务之一。由于域名***并不对依托于其开展的服务行为进行检测,DNS服务缺少恶意行为检测能力,因此常常被恶意程序利用。为了检测这些恶意事件,需要对恶意域名进行检测。
现在已有的一些检测恶意域名的技术常常依赖于黑白名单,通过明确地“允许”和“不允许”来限制用户的访问,从而实现“安全性”效果。然而,这样的方法往往伴随着大量误报和漏报状况,不同用户环境、业务需求场景下适应性极差。
发明内容
本发明技术方案解决的技术问题为,如何准确检测恶意域名。
为了解决上述技术问题,本发明技术方案提供了一种基于IP分类的自动检测方法,包括:
从服务器端获取预先定义的数据包以获取IP参数集W,所述IP参数集W中的元素至少包括IP地址信息;
将所述IP地址信息转化为IP使用的地理信息,并基于所述地理信息对所述IP地址信息分类以形成聚类;
对所述IP参数集W中的选定元素及聚类按预定的时间维度进行窗口行为统计以输出行为统计结果,得到当前行为时间分布集C;
以预定的时间单位对每个时间单位下的历史行为统计结果分配权重并对相同元素或聚类统计数据相加以更新历史行为分布集D;
利用聚类算法将所述历史行为分布集D中的行为数据进行分类以生成聚类中心;
计算所述当前行为时间分布集C到每一个聚类中心的距离并输出最小距离值;
比较所述最小距离值与风险阈值以输出检测结果。
可选的,所述数据包包括:进行IP行为的设备信息、网络信息及账户信息。
可选的,所述IP参数集W中的元素还包括:IP数值、IP网段、IP截断信息及TCP协议栈信息;
所述IP截断信息通过如下方式获取:
将IP地址表示为三十二位的二进制数;
取前n位数值作为所述IP截断信息,其中,n取24至32的自然数;
所述TCP协议栈信息包括:Tcpts、Wscale及Tcp Source Port。
可选的,所述将所述IP地址信息转化为IP使用的地理信息包括:
利用外部IP地理数据库,将IP地址信息转化为使用地信息;
基于自然语言识别所述使用地信息中的国家、省份、城市及街道信 息中的至少若干信息,构成所述地理信息的字段;
所述基于所述地理信息对所述IP地址信息分类以形成聚类包括:
基于所述地址信息的字段设定类别以对所述IP地址信息分类。
可选的,所述选定元素包括:所述IP参数集W中的IP网段及IP截断信息。
可选的,所述对所述IP参数集W中的选定元素及聚类按预定的时间维度进行窗口行为统计以输出行为统计结果包括:
监测窗口行为;
统计该窗口行为时所述选定元素及聚类在预定时间维度上的显示次数。
可选的,所述窗口行为基于滑动窗口或固定窗口。
可选的,所述预定时间维度的设定方法为:设定时间期间或设定时间起点及时间终点。
可选的,所述时间单位为天,所述行为统计结果按天分布。
可选的,基于如下算法确定第j个时间单位下分配至历史行为统计结果的权重kj
kj=aj(a/(1-a)),其中a为大于0且小于1的预定常数。
可选的,所述利用聚类算法将所述历史行为分布集D中的行为数据进行分类以生成聚类中心包括:
定义分布向量;
设定所述历史行为分布集D中两两分布向量之间的距离,所述距离为普通欧式距离;
针对两两分布向量之间距离使用K-means算法进行聚类,并使用Elbow method算法确定最佳聚类个数m以及m个聚类中心,记为{k1,k2,...km}。
可选的,所述利用聚类算法将所述历史行为分布集D中的行为数据进行分类以生成聚类中心包括:基于所生成的聚类中心更新IP行为聚类信息库;
所述每一个聚类中心为所述IP行为聚类信息库中记录的聚类中心。
可选的,所述计算所述当前行为时间分布集C到每一个聚类中心的距离包括:计算所述当前行为时间分布集C中每一个分布向量到对应聚类中心的距离;
所述风险阈值基于如下方式获取:
基于所述当前行为时间分布集C中的分布向量到对应聚类中心的距离建立概率分布;
取所述概率分布的中间数值位数为所述风险阈值。
可选的,所述分布向量为所述选定元素或聚类在预定的时间维度上的显示次数。
可选的,所述方法还包括:
基于所述检测结果得到风险等级;
根据外部风险请求确定可接受的风险等级范围并输出对应的聚类结果。
本发明技术方案的有益效果至少包括:
本发明技术方案能够有效检测行为异常的IP地址信息,并能够基于IP地址信息对网站或应用操作过程中产生的数据包进行检测并对每一个IP参数进行窗口行为统计聚类,从而侦测异常IP地址信息,从而提高并监测恶意IP地址的准确度。
本发明技术方案还可以针对IP地址的参数集,结合历史参数数据进行参数集的聚类评估,并基于时间单位对历史参数集进行加权积累,并基于聚类结果的概率分布计算风险阈值及风险等级,将具有威胁的IP地址信息进行量化评估,从而进一步提高监测恶意IP地址的准确度。
本发明技术方案还可基于上述聚类结果对IP地址信息进行风险等级的划分,从而使第三方使用人可以有效确认其适用的风险范围,使恶意IP地址信息的评估体系可依据第三方使用人的情况而得到评估,扩大本发明技术方案的适用范围,做到多种评估***的兼容。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其他特征、目的和优点将会变得更明显:
图1为本发明技术方案一种基于IP分类的自动检测方法的流程示意图;
图2为本发明技术方案另一种基于IP分类的自动检测方法的流程示意图。
具体实施方式
为了更好的使本发明的技术方案清晰的表示出来,下面结合附图对本发明作进一步说明。
恶意域名的检测在如今网络普及的社会中非常重要。多种网络应用场景,比如银行贷款、业务注册、电商营销等,都基于IP地址,对应用场景中的用户或商家都基于IP地址进行网络手段的操作。而上述操作都离不开基于IP地址所打开的网络窗口。因此在网络通信中,IP地址是非常基础并且普遍具备的一种用户或商家的信息。在网络应用场景下,用户或商家基于IP地址进行网络操作进行,但是不良用户可能基于某个IP地址对商家服务恶意申请,不良商家可能基于IP地址对平台进行恶意宣传推广,上述行为可能会对网络环境及资源服务造成严重损失,并产生金钱的浪费。
上述行为过程中,由于不良用户或商家是通过网络的IP地址进行的,在网络申请或推广过程中,网络会基于用户的特定操作,比如登录窗口等窗口新闻,定时向服务器发送预定的数据包,数据包中会保护各种有关IP地址的信息,本发明技术方案通过检测服务器中接收的上述数据包,进行IP地址信息的分类,从而实现本发明技术方案IP地址的自动检测。
如图1所示的一种基于IP分类的自动检测方法,包括步骤:
步骤S100,从服务器端获取预先定义的数据包以获取IP参数集W,所述IP参数集W中的元素至少包括IP地址信息。
在本步骤中,在网络用户(本申请所指用户包括一般网络服务的使 用用户及商家用户)进行网络服务的打开页面、登录、注册、申请等操作时,网络服务应用会向服务器发送预先定义好的数据包。所述数据包则是预先定义的,预先定义数据包的过程在其他实施例中可以作为一个额外步骤进行执行。预先定义数据包的内容包括:定义进行IP行为(即上述网络操作)的设备信息;定义网络信息;以及,定义账户信息。其中,账户信息的信息内容可以选择为所述数据包的内容结构。
在步骤S100中,所述IP参数集W中的元素具体包括如下信息:IP数值、IP网段、IP截断信息及TCP协议栈信息。具体的,所述P参数集W中的元素基于IP地址信息,将IP地址表示为二进制数(一共32位),然后将该二进制数的前面n位记为ipSeg_n(n取值从24到32),作为所述IP截断信息;TCP协议栈的信息包括tcpts,wscale,tcp source port。更为具体的,tcpts信息为是TCP协议栈的时间戳信息,是TCP协议中一个选项,表示TCP协议握手发生的时间戳;wscale信息是TCP窗口扩大选项的窗口扩大因子,用于扩大TCP通告窗口;tcpsource port信息是TCP通信来源的通信端口信息。
在本发明技术方案中,所述IP参数集W中的元素信息是基于所述数据包的信息内容所获取得到的,因此,所述数据包的信息内容除了上述预先定义内容的举例外,还可以有其他形式,其目的是通过数据包内容获取上述IP参数集W中的元素所需要的基本信息即可,本发明技术方案的数据包形式并不受上述实例的限制。
继续参考图1,本发明技术方案所述基于IP分类的自动检测方法还包括:
步骤S101,将所述IP地址信息转化为IP使用的地理信息,并基于所述地理信息对所述IP地址信息分类以形成聚类。
具体的,在上述步骤S101中,所述将所述IP地址信息转化为IP使用的地理信息包括:利用外部IP地理数据库,将IP地址信息转化为使用地信息;以及,基于自然语言识别所述使用地信息中的国家、省份、城市及街道信息中的至少若干信息,构成所述地理信息的字段。所述基于所述地理信息对所述IP地址信息分类以形成聚类包括:基于所述地理 信息的字段设定类别以对所述IP地址信息分类。
举例以说明步骤S101的过程,比如获取的IP地址信息为106.18.236.97,根据外部IP地理数据库,可将转换该IP地址信息为使用地信息,即中国湖南省电信,则其中构成的地理信息的字段为“中国”、“湖南省”、“电信”。鉴于该例的地理信息转化结果,可按上述地理信息的字段组合以确定类别,比如,将具有“中国”、“电信”地理信息字段的IP地址信息归为一类,在其他实施例中,上述字段组合确定的类型是可设定的,比如,也可以将有“中国”、“湖南省”地理信息字段的IP地址信息归为一类,也可以将有“中国”、“湖南省”及“电信”地理信息字段的IP地址信息归为一类。上述实例给出了如何组合地理信息的字段以确定IP地址分类类别的实施过程。
需要说明的是,根据外部IP地理数据库对于IP地址信息对应地理信息的数据库准确度的不同,将IP地址信息转化为IP使用的地理信息的准确度会有所差异,也就是说,对于现有技术较为完备的外部IP地理数据库而言,其将已知IP地址信息转化为使用地信息时,其地理信息可能具有更为详细的地址信息,对应得到的地理信息的字段也会更多,在设定IP地址分类的类别时,也可以使用更为精确的类别信息。类似的,使用地信息可以具体到国家、省份、城市及街道信息,此时,得到的地理信息的字段包括国家信息字段、省份信息字段、城市信息字段及街道信息字段,那么在确定IP地址分类类别时,还可以采用国家信息字段、省份信息字段、城市信息字段的组合,也可以采用国家信息字段、省份信息字段、城市信息字段及街道信息字段的组合,本发明技术方案不对此做限定。
继续参考图1,本发明技术方案所述基于IP分类的自动检测方法还包括:
步骤S102,对所述IP参数集W中的选定元素及聚类按预定的时间维度进行窗口行为统计以输出行为统计结果,得到当前行为时间分布集C。
具体的,所述选定元素包括:所述IP参数集W中的IP网段及IP 截断信息,所述IP截断信息即为上述ipSeg_n。所述窗口行为即在所述服务器接收到上述IP地址信息的数据包时,即视为一次窗口行为的产生。所述统计即为实时计数。所述聚类对应本次IP参数集W。更为具体的,所述对所述IP参数集W中的选定元素及聚类按预定的时间维度进行窗口行为统计以输出行为统计结果包括:监测窗口行为;以及,统计该窗口行为时所述选定元素及聚类在预定时间维度上的显示次数。
在步骤S102中,所述窗口行为基于滑动窗口或固定窗口。所述预定时间维度宽度的设定方法为:设定时间期间或设定时间起点及时间终点。根据窗口行为的类别,统计窗口行为的算法包括:分别对上述统计对象(即IP网段,ipSeg_n,IP所对应的地址聚类)在设定一个或多个时间期间内进行滑动窗口或固定窗口的统计,或者,通过设定时间起点及时间终点在过去的一段时间期间内进行滑动窗口或固定窗口的统计。
以下给出了本发明技术方案中统计窗口行为算法的一则实例:
对于上述的选定的元素,比如IP网段,进行如下计数:以第15分钟、第30分钟、第60分钟及第120分钟作为所述时间期间;统计该IP网段在第15分钟、第30分钟、第60分钟、第120分钟滑动窗口出现次数;统计该IP地址网段在第15分钟、第30分钟、第60分钟、第120分钟固定窗口出现次数。
在另一则实例中,本发明技术方案中统计窗口行为的算法还可以是:
设定过去的时间段为15分钟,设定时间起点为1:00、时间终点为1:15,或者也可设定时间起点为1:15、时间终点为1:30。滑动窗口出现计数为:对于上述选定元素(比如IP网段),统计过去15分钟之内出现的次数;固定窗口出现计数为:对于15分钟的固定窗口中,给定的参数(比如IP网段)出现的次数。
基于上述技术内容,步骤S102中所述当前行为时间分布集C实际是IP地址选定元素在多个时间维度上于滑动窗口或固定窗口中出现次数的统计分布。
继续参考图1,本发明技术方案所述基于IP分类的自动检测方法还 包括:
步骤S103,以预定的时间单位对每个时间单位下的历史行为统计结果分配权重并对相同元素或聚类统计数据相加以更新历史行为分布集D。
具体的,在步骤S103中,时间单位可以为天或任意选定的数个小时,所述时间单位优选为天,所述行为统计结果按天分布,即按天分布的历史行为统计结果以天为单位进行统计,比如统计为今天的计数信息,昨天的计数信息等。本步骤中历史行为统计结果是以天为时间单位的时间维度的行为统计数据。
更为具体的,所述更新历史行为分布集D需要依据时间维度对时间维度上的每一个元素或聚类及其统计数据分配权重,本发明技术方案优选的按时间维度的时间序列分配不同的权重,并对基于相同元素或聚类的次数统计进行加总更新,从而实现本发明技术方案所指更新历史行为分布集D。权重设置的思路为时间越久远的数据,权重越低。基于如下算法确定第j个时间单位上元素或聚类分配的权重kj:kj=aj(a/(1-a)),其中a为大于0且小于1的预定常数。j为时间单位的计数,也即所述时间维度上的时间序列数值,j=1~N,1为最近一次更新的时间序列,N为初始更新的时间序列。在步骤S103中,所述对相同元素或聚类统计数据相加以更新历史行为分布集D包括如下过程:对所述时间单位下历史时间维度上针对同一元素或聚类的赋值比例进行加权相加。其中,加权相加的结果用于更新所述历史行为分布集D,所述历史行为分布集D中记录的是每一个元素依据所述历史时间维度对该元素或聚类在时间维度上的赋值比例加权相加的结果。
继续参考图1,本发明技术方案所述基于IP分类的自动检测方法还包括:
步骤S104,利用聚类算法将所述历史行为分布集D中的行为数据进行分类以生成聚类中心。
根据步骤S103所产生的历史行为分布集D,该历史行为分布集D是历史IP行为时间分布集,里面的每一个元素或聚类即为一个j维的向 量,比如若以1小时时间维度的某天次数统计分布,元素或聚类的分布向量是一个24维的向量集,每一维分别表示上述元素或聚类在各个小时窗口的出现次数。因此,所述利用聚类算法将所述历史行为分布集D中的行为数据进行分类以生成聚类中心包括:
定义分布向量;
设定所述历史行为分布集D中两两分布向量之间的距离,所述距离为普通欧式距离;以及,
针对两两分布向量之间距离使用K-means算法进行聚类,并使用Elbow method算法确定最佳聚类个数m以及m个聚类中心,记为{k1,k2,...km}。
所述分布向量为所述选定元素或聚类在预定的时间维度上统计的显示次数。所述普通欧式距离的算法可根据现有技术中计算两个向量之间欧氏距离的任意方式得到。所述分布向量即为所述历史行为分布集D中的行为数据。本步骤中,K-means算法过程包括输入确定的聚类个数以及包含若干数据对象的数据库,输出满足方差最小标准的聚类(即上述聚类中心),具体包括:
(1)从若干数据对象任意选择确定聚类个数的对象作为初始聚类中心;(2根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;(3)重新计算每个(有变化)聚类的均值(中心对象);(4)计算标准测度函数,当满足一定条件,如函数收敛时,则算法终止,输出满足方差最小标准的聚类;如果条件不满足则回到步骤(2)。
上述K-means算法中,所述若干数据对象的数据库即为所述两两分布向量之间距离的计算结果集合。所述聚类个数的确定可以采用以下两种方式中的一种:其一通过Elbowmethod算法确定,即根据聚类的结果和聚类个数的函数关系判断聚类个数为多少的时候效果最好,从而确定聚类个数;其二是根据具体的需求确定m的取值,比如说衬衫尺寸的聚类就会考虑LMS三类等。本发明技术方案中优选的通过Elbow method算法确定本发明技术方案的聚类个数m。
更为具体的,所述利用聚类算法将所述历史行为分布集D中的行为数据进行分类以生成聚类中心还包括:基于所生成的聚类中心更新IP行为聚类信息库;所述IP行为聚类信息库中记录的聚类中心记录了每一个聚类中心。
继续参考图1,本发明技术方案所述基于IP分类的自动检测方法还包括:
步骤S105,计算所述当前行为时间分布集C到每一个聚类中心的距离并输出最小距离值。
具体的,所述计算所述当前行为时间分布集C到每一个聚类中心的距离包括:计算所述当前行为时间分布集C中每一个分布向量到对应聚类中心的距离。更为具体的,聚类中心被存储于所述IP行为聚类信息库,计算所述当前行为时间分布集C中元素到IP行为聚类信息库中的每一个聚类中心的距离,取最小值为输出值。需要说明的是,上述输出值也可以取平均值或基于其他输入函数计算得到上述输出值,本发明技术方案将所述输出值即为当前行为时间分布集C中元素到聚类中心的距离。
继续参考图1,本发明技术方案所述基于IP分类的自动检测方法还包括:
步骤S106,比较所述最小距离值与风险阈值以输出检测结果。
在步骤S106中,所述风险阈值基于如下方式获取:基于所述当前行为时间分布集C中的分布向量到对应聚类中心的距离建立概率分布;以及,取所述概率分布的中间数值位数为所述风险阈值。
更为具体的,在上述过程中,本发明技术方案基于当前行为时间分布集C中每个数据点到对应聚类中心的距离(可以是最小距离),将每个数据点到对应聚类中心的所有距离从小到大,形成一个概率分布(可以是直方图),将所述概率分布的50分位数确定为所述风险阈值,如果所述最小距离值小于所述风险阈值,则最小距离值对应的分位数为对应的风险等级,根据上述风险等级的划分可判断出当前IP地址信息所对应的窗口行为或网络行为属于对应聚类的可能性,基于上述可能性可以根据置信度输出判断聚类结果的可靠性,从而判断出IP地址信息所属的应 用类型。上述聚类可以与不同的应用场景对应,从而通过本发明技术方案的IP分类识别的方案进行IP地址信息的侦测,从而得到IP地址信息所述应用类型的风险评估。
参考图2,本发明技术方案所述基于IP分类的自动检测方法还可以以图2的流程步骤进行实施,即基于上述步骤S100~S106,还包括:
步骤S107,基于所述检测结果得到风险等级;
步骤S108,根据外部风险请求确定可接受的风险等级范围并输出对应的聚类结果。
对于本发明技术方案来说,步骤S107、S108可以作为本发明技术方案的流程范畴,也可以作为外部设备的应用流程。
需要说明的是,通常的聚类算法只能给出一个聚类结果,本发明技术方案将上述聚类算法与IP地址的分类进行结合,并可将IP地址进行实时检测并迅速通过本发明技术方案判断输出IP地址的聚类结果。考虑到聚类结果并不一定是100%确定的,而是具有可能性的,本发明技术方案将聚类结果置于置信度下,不止给出聚类的结果,还给出了聚类结果的可靠性。
通过本发明技术方案的IP地址信息的聚类,通过将IP地址信息聚类化,可判断出IP地址所属的应用类型,比如是否为办公网络,是否为移动网络,以及对应的概率。
在实际使用的时候,比如是一个电商营销的场景,对于IP聚类结果的误差容忍度比较高,该场景可以选择高一点的风险等级,自动得到对应的聚类结果;
又比如是一个银行贷款场景,对误差容忍度较低,可以选择低一点风险等级,自动得到和上面不一样的聚类结果。
另外需要说明的是,本发明技术方案的IP地址信息是基于IP二进制字符而处理得到的多种类型的信息,上述信息的聚类可以进一步增加IP地址信息聚类的准确度与可靠性。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范 围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (15)

1.一种基于IP分类的自动检测方法,其特征在于,包括:
从服务器端获取预先定义的数据包以获取IP参数集W,所述IP参数集W中的元素至少包括IP地址信息;
将所述IP地址信息转化为IP使用的地理信息,并基于所述地理信息对所述IP地址信息分类以形成聚类;
对所述IP参数集W中的选定元素及聚类按预定的时间维度进行窗口行为统计以输出行为统计结果,得到当前行为时间分布集C;
以预定的时间单位对每个时间单位下的历史行为统计结果分配权重并对相同元素或聚类统计数据相加以更新历史行为分布集D;
利用聚类算法将所述历史行为分布集D中的行为数据进行分类以生成聚类中心;
计算所述当前行为时间分布集C到每一个聚类中心的距离并输出最小距离值;
比较所述最小距离值与风险阈值以输出检测结果。
2.如权利要求1所述的方法,其特征在于,所述数据包包括:进行IP行为的设备信息、网络信息及账户信息。
3.如权利要求1所述的方法,其特征在于,所述IP参数集W中的元素还包括:IP数值、IP网段、IP截断信息及TCP协议栈信息;
所述IP截断信息通过如下方式获取:
将IP地址表示为三十二位的二进制数;
取前n位数值作为所述IP截断信息,其中,n取24至32的自然数;
所述TCP协议栈信息包括:Tcpts、Wscale及Tcp Source Port。
4.如权利要求1所述的方法,其特征在于,所述将所述IP地址信息转化为IP使用的地理信息包括:
利用外部IP地理数据库,将IP地址信息转化为使用地信息;
基于自然语言识别所述使用地信息中的国家、省份、城市及街道信息中的至少若干信息,构成所述地理信息的字段;
所述基于所述地理信息对所述IP地址信息分类以形成聚类包括:
基于所述地址信息的字段设定类别以对所述IP地址信息分类。
5.如权利要求1所述的方法,其特征在于,所述选定元素包括:所述IP参数集W中的IP网段及IP截断信息。
6.如权利要求1所述的方法,其特征在于,所述对所述IP参数集W中的选定元素及聚类按预定的时间维度进行窗口行为统计以输出行为统计结果包括:
监测窗口行为;
统计该窗口行为时所述选定元素及聚类在预定时间维度上的显示次数。
7.如权利要求6所述的方法,其特征在于,所述窗口行为基于滑动窗口或固定窗口。
8.如权利要求6所述的方法,其特征在于,所述预定时间维度的设定方法为:设定时间期间或设定时间起点及时间终点。
9.如权利要求1所述的方法,其特征在于,所述时间单位为天,所述行为统计结果按天分布。
10.如权利要求1所述的方法,其特征在于,基于如下算法确定第j个时间单位下分配至历史行为统计结果的权重kj
kj=aj(a/(1-a)),其中a为大于0且小于1的预定常数。
11.如权利要求1所述的方法,其特征在于,所述利用聚类算法将所述历史行为分布集D中的行为数据进行分类以生成聚类中心包括:
定义分布向量;
设定所述历史行为分布集D中两两分布向量之间的距离,所述距离为普通欧式距离;
针对两两分布向量之间距离使用K-means算法进行聚类,并使用Elbow method算法确定最佳聚类个数m以及m个聚类中心,记为{k1,k2,...km}。
12.如权利要求1或11所述的方法,其特征在于,所述利用聚类算法将所述历史行为分布集D中的行为数据进行分类以生成聚类中心包括:基于所生成的聚类中心更新IP行为聚类信息库;
所述每一个聚类中心为所述IP行为聚类信息库中记录的聚类中心。
13.如权利要求1所述的方法,其特征在于,所述计算所述当前行为时间分布集C到每一个聚类中心的距离包括:计算所述当前行为时间分布集C中每一个分布向量到对应聚类中心的距离;
所述风险阈值基于如下方式获取:
基于所述当前行为时间分布集C中的分布向量到对应聚类中心的距离建立概率分布;
取所述概率分布的中间数值位数为所述风险阈值。
14.如权利要求11或13所述的方法,其特征在于,所述分布向量为所述选定元素或聚类在预定的时间维度上的显示次数。
15.如权利要求1所述的方法,其特征在于,还包括:
基于所述检测结果得到风险等级;
根据外部风险请求确定可接受的风险等级范围并输出对应的聚类结果。
CN201611201889.5A 2016-12-22 2016-12-22 一种基于ip分类的自动检测方法 Pending CN108234435A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611201889.5A CN108234435A (zh) 2016-12-22 2016-12-22 一种基于ip分类的自动检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611201889.5A CN108234435A (zh) 2016-12-22 2016-12-22 一种基于ip分类的自动检测方法

Publications (1)

Publication Number Publication Date
CN108234435A true CN108234435A (zh) 2018-06-29

Family

ID=62657192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611201889.5A Pending CN108234435A (zh) 2016-12-22 2016-12-22 一种基于ip分类的自动检测方法

Country Status (1)

Country Link
CN (1) CN108234435A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598404A (zh) * 2019-09-17 2019-12-20 腾讯科技(深圳)有限公司 安全风险监控方法、监控装置、服务器和存储介质
CN110677309A (zh) * 2018-07-03 2020-01-10 百度在线网络技术(北京)有限公司 人群聚类方法及***、终端以及计算机可读存储介质
CN111325495A (zh) * 2018-12-17 2020-06-23 顺丰科技有限公司 异常件分类方法及***
CN112822143A (zh) * 2019-11-15 2021-05-18 网宿科技股份有限公司 一种ip地址的评估方法、***及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103532797A (zh) * 2013-11-06 2014-01-22 网之易信息技术(北京)有限公司 一种用户登录异常监测方法和装置
CN104050289A (zh) * 2014-06-30 2014-09-17 中国工商银行股份有限公司 一种异常事件检测方法及***
CN104156418A (zh) * 2014-08-01 2014-11-19 北京***工程研究所 一种基于知识重用的演化聚类方法
CN105553998A (zh) * 2015-12-23 2016-05-04 中国电子科技集团公司第三十研究所 一种网络攻击异常检测方法
JP5957411B2 (ja) * 2013-04-25 2016-07-27 日本電信電話株式会社 アドレス解決システム及び方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5957411B2 (ja) * 2013-04-25 2016-07-27 日本電信電話株式会社 アドレス解決システム及び方法
CN103532797A (zh) * 2013-11-06 2014-01-22 网之易信息技术(北京)有限公司 一种用户登录异常监测方法和装置
CN104050289A (zh) * 2014-06-30 2014-09-17 中国工商银行股份有限公司 一种异常事件检测方法及***
CN104156418A (zh) * 2014-08-01 2014-11-19 北京***工程研究所 一种基于知识重用的演化聚类方法
CN105553998A (zh) * 2015-12-23 2016-05-04 中国电子科技集团公司第三十研究所 一种网络攻击异常检测方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110677309A (zh) * 2018-07-03 2020-01-10 百度在线网络技术(北京)有限公司 人群聚类方法及***、终端以及计算机可读存储介质
CN111325495A (zh) * 2018-12-17 2020-06-23 顺丰科技有限公司 异常件分类方法及***
CN111325495B (zh) * 2018-12-17 2023-12-01 顺丰科技有限公司 异常件分类方法及***
CN110598404A (zh) * 2019-09-17 2019-12-20 腾讯科技(深圳)有限公司 安全风险监控方法、监控装置、服务器和存储介质
CN112822143A (zh) * 2019-11-15 2021-05-18 网宿科技股份有限公司 一种ip地址的评估方法、***及设备
CN112822143B (zh) * 2019-11-15 2022-05-27 网宿科技股份有限公司 一种ip地址的评估方法、***及设备

Similar Documents

Publication Publication Date Title
CN108848515B (zh) 一种基于大数据的物联网业务质量监测平台及方法
CN103581186B (zh) 一种网络安全态势感知方法及***
US20200322237A1 (en) Traffic detection method and traffic detection device
CN109861953B (zh) 一种异常用户识别方法及装置
CN108234435A (zh) 一种基于ip分类的自动检测方法
CN110321424B (zh) 一种基于深度学习的艾滋病人员行为分析方法
Wang et al. A behavior-based SMS antispam system
CN101686444B (zh) 垃圾短信发送号码实时检测***及方法
CN112751835B (zh) 一种流量预警方法、***、设备和存储介质
CN106951446A (zh) 金融信息推送方法和装置
CN111191720B (zh) 一种业务场景的识别方法、装置及电子设备
CN104040963A (zh) 用于使用字符串的频谱进行垃圾邮件检测的***和方法
CN109190916A (zh) 基于大数据分析的反窃电方法
CN109218321A (zh) 一种网络入侵检测方法及***
CN112733045B (zh) 用户行为的分析方法、装置及电子设备
CN108632269A (zh) 基于c4.5决策树算法的分布式拒绝服务攻击检测方法
CN110648172B (zh) 一种融合多种移动设备的身份识别方法和***
CN109446327B (zh) 一种移动通信客户投诉的诊断方法及***
CN111917574A (zh) 社交网络拓扑模型及构建方法、用户置信度和亲密度计算方法及电信诈骗智能拦截***
CN104598595A (zh) 欺诈网页检测方法及相应装置
Althobaiti et al. Energy theft in smart grids: a survey on data-driven attack strategies and detection methods
CN111611519B (zh) 一种个人异常行为检测方法及装置
Zhang et al. Comprehensive IoT SIM card anomaly detection algorithm based on big data
Sun et al. Detection and classification of network events in LAN using CNN
CN115766471B (zh) 一种基于组播流量的网络业务质量分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180629