CN111064719A - 文件异常下载行为的检测方法及装置 - Google Patents

文件异常下载行为的检测方法及装置 Download PDF

Info

Publication number
CN111064719A
CN111064719A CN201911251809.0A CN201911251809A CN111064719A CN 111064719 A CN111064719 A CN 111064719A CN 201911251809 A CN201911251809 A CN 201911251809A CN 111064719 A CN111064719 A CN 111064719A
Authority
CN
China
Prior art keywords
file
download
downloading
behavior
individual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911251809.0A
Other languages
English (en)
Other versions
CN111064719B (zh
Inventor
郝传洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NSFOCUS Information Technology Co Ltd
Nsfocus Technologies Inc
Original Assignee
NSFOCUS Information Technology Co Ltd
Nsfocus Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NSFOCUS Information Technology Co Ltd, Nsfocus Technologies Inc filed Critical NSFOCUS Information Technology Co Ltd
Priority to CN201911251809.0A priority Critical patent/CN111064719B/zh
Publication of CN111064719A publication Critical patent/CN111064719A/zh
Application granted granted Critical
Publication of CN111064719B publication Critical patent/CN111064719B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • H04L63/0236Filtering by address, protocol, port number or service, e.g. IP-address or URL
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • H04L63/101Access control lists [ACL]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种文件异常下载行为的检测方法及装置。该方法从存储的下载日志信息中获取至少一个文件下载行为个体和每个文件下载行为个体对应的下载记录;获取每个文件下载行为个体对应的下载记录中文件下载数量大于预设数量阈值的目标下载记录;采用预设聚类算法,按照下载时间与下载文件大小,对目标下载记录进行聚类分析,得到包括至少一个文件下载行为个体对应的文件下载行为的文件下载行为基线;将采集的预设检测时间段内的待检测文件下载行为个体的下载记录与文件下载行为基线进行匹配检测,确定待检测文件下载行为个体的下载记录是否存在异常文件下载行为。该方法扩大了检测范围,提高了检测效率和检测准确性。

Description

文件异常下载行为的检测方法及装置
技术领域
本申请涉及网络安全技术领域,尤其涉及一种文件异常下载行为的检测方法及装置。
背景技术
目前,针对文件下载行为的合法性检测,当前常用的检测方案多为基于模式匹配的方案,即设定所需监测的重要文件及相应文件访问白名单,该方案的优势在于响应敏捷,但是依然存在以下几点问题:
对非法下载行为的一般为人为设定的“重要文件”下载行为的检测,即对主观关注的文件设置白名单,仅对白名单内的文件进行下载行为的检测,而忽视了对“其他文件”下载行为的检测。其中,“其他文件”可以包括但不限于操作***配置文件、Hadoop\Spark配置文件、入侵检测配置文件等。也就是说,目前的非法下载行为的检测方案检测的内容不够全面,检测准确性不高。
其次,随着业务范围不断扩大,白名单内的重要文件也愈加增多,这给白名单的维护带来巨大挑战,需要专员去重新制定相应规则,降低了检测效率。
发明内容
本申请实施例提供一种文件异常下载行为的检测方法及装置,解决了现有技术存在的上述问题,扩大了检测范围、提高了检测准确性和检测效率。
第一方面,提供了一种文件异常下载行为的检测方法,该方法可以包括:
从存储的下载日志信息中获取至少一个文件下载行为个体和每个文件下载行为个体对应的下载记录,其中,所述文件下载行为个体包括用户标识和下载文件对应的源IP地址、目的IP地址以及文件传输协议,所述下载记录包括文件下载数量、下载时间和下载文件大小;
获取每个文件下载行为个体对应的下载记录中文件下载数量大于预设数量阈值的目标下载记录;
采用预设聚类算法,按照下载时间与下载文件大小,对所述目标下载记录进行聚类分析,得到文件下载行为基线,所述文件下载行为基线包括所述至少一个文件下载行为个体对应的文件下载行为,所述文件下载行为包括下载时间范围、下载文件的大小范围和下载文件的第一下载频次,所述第一下载频次是由所述下载时间范围内的文件下载数量和所述下载时间范围的下载持续时间确定的;
将采集的预设检测时间段内的待检测文件下载行为个体的下载记录与所述文件下载行为基线中的至少一个文件下载行为个体对应的文件下载行为进行匹配检测,确定所述待检测文件下载行为个体的下载记录是否存在异常文件下载行为。
在一个可选的实现中,所述预设数量阈值T是由所述至少一个文件下载行为个体的总数与每个文件下载行为个体对应的下载记录中的文件下载数量确定的;
所述预设数量阈值T的计算公式表示为:
Figure BDA0002309261410000021
其中,Nall为所述至少一个文件下载行为个体的总数,ni为第i个文件下载行为个体对应的下载记录中的文件下载数量,α为调整系数,取值范围为[0,1]。
在一个可选的实现中,获取每种文件标识对应的下载记录中文件下载数量大于预设数量阈值的目标下载记录之后,所述方法还包括:
按照下载时间与下载文件大小,对所述目标下载记录进行归一化处理,得到待处理的归一化向量;
采用预设异常点去除算法,对所述待处理的归一化向量进行异常点去除,得到去除异常点的目标下载记录。
在一个可选的实现中,采用预设聚类算法,按照下载时间与下载文件大小,对所述目标下载记录进行聚类分析,得到所述至少一个文件下载行为个体对应的文件下载行为,包括:
采用预设聚类算法,按照下载时间与下载文件大小,对所述目标下载记录进行聚类,得到至少一个簇;
对每个簇中的目标下载记录进行统计分析,得到所述至少一个文件下载行为个体对应的文件下载行为。
在一个可选的实现中,所述第一下载频次的计算公式表示为:
Figure BDA0002309261410000031
其中,Nrec为所述下载时间范围内[i,j]的文件下载数量,β为调整系数,Tij为所述下载时间范围的下载持续时间,所述下载持续时间的时长表示为:j-i。
在一个可选的实现中,将采集的预设检测时间段内的待检测文件下载行为个体的下载记录与所述文件下载行为基线中的至少一个文件下载行为个体对应的文件下载行为进行匹配检测,确定所述待检测的文件下载行为个体的下载记录是否存在异常文件下载行为,包括:
若所述文件下载行为基线中的至少一个文件下载行为个体中不存在所述待检测文件下载行为个体,则确定所述待检测文件下载行为个体的下载记录存在异常文件下载行为;
若所述文件下载行为基线中的至少一个文件下载行为个体中存在目标文件下载行为个体与所述待检测文件下载行为个体匹配,则获取所述预设检测时间段内所述待检测文件下载行为个体的下载记录的文件下载数量、下载时间、下载文件大小和下载文件的第二下载频次;
其中,若所述待检测文件下载行为个体的下载时间和下载文件大小均在所述目标文件下载行为个体对应的下载时间范围内和下载文件的大小范围内,且所述第二下载频次不大于所述目标文件下载行为个体对应的第一下载频次,则确定所述待检测文件下载行为个体的下载记录不存在异常文件下载行为;
若所述下载时间不在所述下载时间范围内、所述下载文件大小不在所述下载文件的大小范围内或所述第二下载频次大于所述第一下载频次,则确定所述待检测文件下载行为个体的下载记录存在异常文件下载行为;
或者,若所述下载时间不在所述下载时间范围内、所述下载文件大小不在所述下载文件的大小范围内,且所述第二下载频次大于所述第一下载频次,则确定所述待检测文件下载行为个体的下载记录存在异常文件下载行为。
在一个可选的实现中,所述第二下载频次是由所述待检测文件下载行为个体的文件下载数量和所述预设检测时间段的时长确定的;
所述第二下载频次的计算公式表示为:
Figure BDA0002309261410000041
其中,Tduration为所述预设检测时间段的时长,NdownUnit为所述预设检测时间段内,所述待检测文件下载行为个体的文件下载数量。
在一个可选的实现中,所述方法还包括:
若确定所述待检测文件下载行为个体的下载记录不存在异常文件下载行为,则获取所述下载记录中下载时间之前的目标时间段内所述待检测文件下载行为个体对应的告警信息,所述告警信息包括告警事件的类型数和每种类型的告警事件的发生次数;
根据所述告警事件的类型数和所述每种类型的告警事件的发生次数,确定所述待检测文件下载行为个体的下载记录是否存在异常文件下载行为。
在一个可选的实现中,根据所述告警事件的类型数和所述每种类型的告警事件的发生次数,确定所述待检测文件下载行为个体的下载记录是否存在异常文件下载行为,包括:
根据所述告警事件的类型数和所述每种类型的告警事件的发生次数,获取所述待检测文件下载行为个体的下载记录对应的正面反应值;
若获取的正面反应值低于设定的反应值阈值,则确定所述待检测文件下载行为个体的下载记录存在异常文件下载行为;
若获取的正面反应值不低于设定的反应值阈值,则确定所述待检测文件下载行为个体的下载记录不存在异常文件下载行为。
在一个可选的实现中,所述正面反应值的计算公式表示为:
Figure BDA0002309261410000051
式中,NE为所述告警事件的类型数,
Figure BDA0002309261410000052
为第i种类型的告警事件的发生次数,
Figure BDA0002309261410000053
为第i种类型的告警事件的威胁系数。
在一个可选的实现中,从存储的下载日志信息中获取至少一个文件下载行为个体和每个文件下载行为个体对应的下载记录之前,所述方法还包括:
按照用户标识,下载文件对应的源IP地址、目的IP地址、下载时间以及文件路径,对第一类文件设置白名单;
对第二类文件设置黑名单。
在一个可选的实现中,所述第一类文件为机密类文件,所述第二类文件为配置类文件。
第二方面,提供了一种文件异常下载行为的检测装置,该装置可以包括:获取单元、聚类单元和检测单元;
所述获取单元,用于从存储的下载日志信息中获取至少一个文件下载行为个体和每个文件下载行为个体对应的下载记录,其中,所述文件下载行为个体包括用户标识和下载文件对应的源IP地址、目的IP地址以及文件传输协议,所述下载记录包括文件下载数量、下载时间和下载文件大小;
以及,获取每个文件下载行为个体对应的下载记录中文件下载数量大于预设数量阈值的目标下载记录;
所述聚类单元,用于采用预设聚类算法,按照下载时间与下载文件大小,对所述目标下载记录进行聚类分析,得到文件下载行为基线,所述文件下载行为基线包括所述至少一个文件下载行为个体对应的文件下载行为,所述文件下载行为包括下载时间范围、下载文件的大小范围和下载文件的第一下载频次,所述第一下载频次是由所述下载时间范围内的文件下载数量和所述下载时间范围的下载持续时间确定的;
所述检测单元,用于将采集的预设检测时间段内的待检测文件下载行为个体的下载记录与所述文件下载行为基线中的至少一个文件下载行为个体对应的文件下载行为进行匹配检测,确定所述待检测文件下载行为个体的下载记录是否存在异常文件下载行为。
在一个可选的实现中,所述预设数量阈值T是由所述至少一个文件下载行为个体的总数与每个文件下载行为个体对应的下载记录中的文件下载数量确定的;
所述预设数量阈值T的计算公式表示为:
Figure BDA0002309261410000061
其中,Nall为所述至少一个文件下载行为个体的总数,ni为第i个文件下载行为个体对应的下载记录中的文件下载数量,α为调整系数,取值范围为[0,1]。
在一个可选的实现中,所述装置还包括处理单元、去除单元;
所述处理单元,用于按照下载时间与下载文件大小,对所述目标下载记录进行归一化处理,得到待处理的归一化向量;
所述去除单元,用于采用预设异常点去除算法,对所述待处理的归一化向量进行异常点去除,得到去除异常点的目标下载记录。
在一个可选的实现中,所述聚类单元,具体用于采用预设聚类算法,按照下载时间与下载文件大小,对所述目标下载记录进行聚类,得到至少一个簇;
对每个簇中的目标下载记录进行统计分析,得到所述至少一个文件下载行为个体对应的文件下载行为。
在一个可选的实现中,所述第一下载频次的计算公式表示为:
Figure BDA0002309261410000071
其中,Nrec为所述下载时间范围内[i,j]的文件下载数量,β为调整系数,Tij为所述下载时间范围的下载持续时间,所述下载持续时间的时长表示为:j-i。
在一个可选的实现中,所述检测单元,具体用于若所述文件下载行为基线中的至少一个文件下载行为个体中不存在所述待检测文件下载行为个体,则确定所述待检测文件下载行为个体的下载记录存在异常文件下载行为;
若所述文件下载行为基线中的至少一个文件下载行为个体中存在目标文件下载行为个体与所述待检测文件下载行为个体匹配,则获取所述预设检测时间段内所述待检测文件下载行为个体的下载记录的文件下载数量、下载时间、下载文件大小和下载文件的第二下载频次;
其中,若所述待检测文件下载行为个体的下载时间和下载文件大小均在所述目标文件下载行为个体对应的下载时间范围内和下载文件的大小范围内,且所述第二下载频次不大于所述目标文件下载行为个体对应的第一下载频次,则确定所述待检测文件下载行为个体的下载记录不存在异常文件下载行为;
若所述下载时间不在所述下载时间范围内、所述下载文件大小不在所述下载文件的大小范围内或所述第二下载频次大于所述第一下载频次,则确定所述待检测文件下载行为个体的下载记录存在异常文件下载行为;
或者,若所述下载时间不在所述下载时间范围内、所述下载文件大小不在所述下载文件的大小范围内,且所述第二下载频次大于所述第一下载频次,则确定所述待检测文件下载行为个体的下载记录存在异常文件下载行为。
在一个可选的实现中,所述第二下载频次是由所述待检测文件下载行为个体的文件下载数量和所述预设检测时间段的时长确定的;
所述第二下载频次的计算公式表示为:
Figure BDA0002309261410000081
其中,Tduration为所述预设检测时间段的时长,NdownUnit为所述预设检测时间段内,所述待检测文件下载行为个体的文件下载数量。
在一个可选的实现中,所述装置还包括确定单元;
所述获取单元,还用于若确定所述待检测文件下载行为个体的下载记录不存在异常文件下载行为,则获取所述下载记录中下载时间之前的目标时间段内所述待检测文件下载行为个体对应的告警信息,所述告警信息包括告警事件的类型数和每种类型的告警事件的发生次数;
所述确定单元,用于根据所述告警事件的类型数和所述每种类型的告警事件的发生次数,确定所述待检测文件下载行为个体的下载记录是否存在异常文件下载行为。
在一个可选的实现中,所述确定单元,具体用于根据所述告警事件的类型数和所述每种类型的告警事件的发生次数,获取所述待检测文件下载行为个体的下载记录对应的正面反应值;
若获取的正面反应值低于设定的反应值阈值,则确定所述待检测文件下载行为个体的下载记录存在异常文件下载行为;
若获取的正面反应值不低于设定的反应值阈值,则确定所述待检测文件下载行为个体的下载记录不存在异常文件下载行为。
在一个可选的实现中,所述正面反应值的计算公式表示为:
Figure BDA0002309261410000082
式中,NE为所述告警事件的类型数,
Figure BDA0002309261410000083
为第i种类型的告警事件的发生次数,
Figure BDA0002309261410000091
为第i种类型的告警事件的威胁系数。
在一个可选的实现中,所述装置还包括设置单元;
所述设置单元,用于按照用户标识,下载文件对应的源IP地址、目的IP地址、下载时间以及文件路径,对第一类文件设置白名单;
以及,对第二类文件设置黑名单。
在一个可选的实现中,所述第一类文件为机密类文件,所述第二类文件为配置类文件。
第三方面,提供了一种电子设备,该电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面中任一所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一所述的方法步骤。
本发明实施例提供的文件异常下载行为的测检方法从存储的下载日志信息中获取至少一个文件下载行为个体和每个文件下载行为个体对应的下载记录,文件下载行为个体包括用户标识和下载文件对应的源IP地址、目的IP地址以及文件传输协议,下载记录包括文件下载数量、下载时间和下载文件大小;获取每个文件下载行为个体对应的下载记录中文件下载数量大于预设数量阈值的目标下载记录;采用预设聚类算法,按照下载时间与下载文件大小,对目标下载记录进行聚类分析,得到包括至少一个文件下载行为个体对应的文件下载行为的文件下载行为基线,文件下载行为包括下载时间范围、下载文件的大小范围和下载文件的第一下载频次;将采集的预设检测时间段内的待检测文件下载行为个体的下载记录与文件下载行为基线中的至少一个文件下载行为个体对应的文件下载行为进行匹配检测,确定待检测文件下载行为个体的下载记录是否存在异常文件下载行为。该方法以历史文件下载记录为分析基础,通过机器学习得出有效的文件下载行为基线,摆脱人为设定规则的束缚,能够对所有文件的下载记录进行下载行为的测检,即扩大了检测范围,通过获取的文件下载行为基线自动对待检测文件下载行为个体的下载记录进行检测,提高了检测效率和检测准确性。
附图说明
图1为本发明实施例提供的一种应用文件异常下载行为的检测方法的***架构示意图;
图2为本发明实施例提供的一种文件异常下载行为的检测方法的流程示意图;
图3为本发明实施例提供的一种文件异常下载行为的检测装置的结构示意图;
图4为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,并不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明实施例提供的文件异常下载行为的检测方法可以应用在图1所述的检测***架构中,该检测***可以应用在服务器中,如应用服务器或云服务器中,也可以应用在终端设备中,终端设备可以是具有较强计算能力的移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)等用户设备(User Equipment,UE)、计算设备或连接到无线调制解调器的其它处理设备、移动台(Mobile station,MS)等。
该检测***可以包括:文件涉敏检查模块、行为基线匹配模块以及多场景关联检测模块。
其中,文件涉敏检查模块,用于根据文件所属类型设定相应黑白名单,并据此对文件下载行为的测检,即对下载行为合法性进行判决。
行为基线匹配模块,用于基于表现文件下载行为的历史下载记录,通过机器学习算法构建文件下载行为基线,使用该文件下载行为基线对实时产生的文件下载记录进行文件下载行为的检测。
多场景关联检测模块,用于基于多场景的告警信息,对行为基线匹配模块的检测结果中不存在异常文件下载行为的待检测文件下载行为个体的下载记录再次进行文件下载行为的检测。
相比于现有技术,该检测***对文件下载行为个体的下载记录经过涉敏检查、文件下载行为基线的匹配以及多场景关联检测,提高了检测效率,并能够极大降低误报率和漏报率,提高了检测的准确性。
以下以该***应用在应用服务器为例,结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图2为本发明实施例提供的一种文件异常下载行为的检测方法的流程示意图。如图2所示,该方法可以包括:
步骤210、从存储的下载日志信息中获取至少一个文件下载行为个体和每个文件下载行为个体对应的下载记录。
可选地,在执行该步骤之前,可以将服务器中的文件进行分类,包括:第一类文件为机密类文件,第二类文件为配置类文件和除第一类文件和第二类文件外的其他类文件。其中,商业机密类文件包括商业合同、源代码、招标书等机密文件;重要配置文件包括***配置文件、重要软件或服务配置文件,例如Hadoop、Redis等。
之后,按照用户标识,下载文件对应的源IP地址、目的IP地址、下载时间,以及文件路径,对第一类文件设置白名单,也就是说,通过限制用户名、源IP地址、目的IP地址、下载时间以及文件路径设定白名单,仅认定符合白名单的文件下载行为属于正常下载行为,即合法行为;
以及,对第二类文件设置黑名单,也就是说,即这些配置文件不允许被任何人下载,一经下载即为非法行为,属于异常下载行为。
针对其它类文件,可以从存储的下载日志信息中获取至少一个文件下载行为个体和每个文件下载行为个体对应的下载记录。其中,文件下载行为个体可以包括用户标识和下载文件对应的源IP地址、目的IP地址以及文件传输协议,下载记录可以包括文件下载数量、下载时间和下载文件大小。
可选的,至少一个文件下载行为个体和每个文件下载行为个体对应的下载记录可以以键值对(Key-Value)的形式进行存储,其中,Key为每个文件下载行为个体,相应的Value为相应文件下载行为个体对应的下载记录。
步骤220、获取每个文件下载行为个体对应的下载记录中文件下载数量大于预设数量阈值的目标下载记录。
由于不能保证每个下载行为个体的下载记录均是合法的,为了提高检测的准确性,需要对至少一个文件下载行为个体的下载记录进行去除异常记录的预处理。
具体为,获取至少一个文件下载行为个体中每个文件下载行为个体对应的下载记录中文件下载数量;
将文件下载数量不大于预设数量阈值T的下载记录确定为异常的下载记录,并删除;
将文件下载数量大于预设数量阈值T的下载记录确定为目标下载记录,即正常的下载记录。
其中,预设数量阈值T可以由至少一个文件下载行为个体的总数与每个文件下载行为个体对应的下载记录中的文件下载数量来确定;
预设数量阈值T的计算公式可以表示为:
Figure BDA0002309261410000131
其中,Nall为至少一个文件下载行为个体的总数,ni为第i个文件下载行为个体对应的下载记录中的文件下载数量,α为调整系数,取值范围为[0,1]。
可选的,为了进一步提高检测的准确性,针对获取的目标下载记录还可以基于预设异常点去除算法,如局部异常因子(Local Outlier Factor,LOF)算法分别进行异常记录的去除,具体为:
按照下载时间与下载文件大小,对目标下载记录进行归一化处理,得到待处理的归一化向量;
采用预设异常点去除算法,对待处理的归一化向量进行异常点去除,得到去除异常点的目标下载记录。
步骤230、采用预设聚类算法,按照下载时间与下载文件大小,对目标下载记录进行聚类分析,得到文件下载行为基线。
采用预设聚类算法,如K-Means聚类算法,按照下载时间与下载文件大小,对目标下载记录进行聚类,得到至少一个簇;
基于K-Means聚类算法,对每个文件下载行为个体的下载记录进行划分。将去除异常点的特征向量作为K-Means聚类算法的数据集,该特征向量依旧由下载时间以及下载文件大小组成。
K-Means聚类算法:从数据集中K个样本数据作为初始中心,计算各个样本数据到初始中心的距离,并根据设定的步长,将各个样本数据归入到距离最近的初始中心中形成相应的簇,然后重心计算每个簇的平均值,将其作为新的簇中心;循环执行,直到满足聚类准则函数手链位置。
其中,为了确保K-Means算法中的参数K可以得到准确的至少一个簇,对于参数K的选取方法可以包括如下步骤:
1)确定参数K的选取范围。
极限情况下,K最大为数据样本点个数,即最终每一个样本点都是一个类簇;K最小为1,即最终所有样本点都被划分成同一个类簇。
其中,参数K的选取范围可根据实际情况自行指定。
2)确定步长。
在调整过程中,步长的选择需确保参数K不能为非正整数。其中,步长的具体数值可根据实际情况自行指定。若待聚类的数据规模较大,为了节约时间,可适当增大步长。
3)计算轮廓系数。
计算每一次参数K调整时对应聚类结果的轮廓系数,其中,轮廓系数函数的样本点(或称“参数”)为K。
聚类结果的轮廓系数为所有样本点轮廓系数的均值,某样本点K的轮廓系数SC(K)表示如下:
Figure BDA0002309261410000141
式中,m(K)为样本点K距离同一类簇中其他样本点的平均距离,m(k)越小则说明该样本点越应该被分到该簇,即描述了同一类簇中样本点之间的相似度;n(K)为样本点距离其他类簇中样本点的平均距离,n(K)越大则说明该样本点越不应该分到其他簇,即描述了样本点所在簇与其他簇的不相似度。
4)确定最终聚类算法的参数K。
记录每一次参数K调整对应的轮廓系数,将其中轮廓系数最大时对应的参数K,选取为最终K-Means聚类算法的参数K的值。
进一步的,对得到的每个簇中的目标下载记录进行统计分析,得到文件下载行为基线。
其中,下载行为基线包括至少一个文件下载行为个体对应的文件下载行为,文件下载行为可以包括下载时间范围、下载文件的大小范围和下载文件的第一下载频次。如,下载行为基线可以包括每个文件下载行为个体对应的不同下载时间范围内的下载文件的大小范围和第一下载频次,也可以包括不同文件下载行为个体对应的相同下载时间范围内的下载文件的大小范围和第一下载频次等。
可选地,,第一下载频次可以是下载时间范围内的文件下载数量和下载时间范围的下载持续时间来确定;
第一下载频次fij的计算公式可以表示为:
Figure BDA0002309261410000151
其中,Nrec为下载时间范围内[i,j]的文件下载数量,β为调整系数,Tij为下载时间范围的下载持续时间,下载持续时间的时长可以表示为:j-i。
以文件下载行为基线包括两个文件下载行为个体以及相应的文件下载行为为例,该文件下载行为基线的存储方式,可以如表1所示:
表1
Figure BDA0002309261410000152
表1中,文件下载行为基线中的第一文件下载行为个体的源IP地址为10.10.10.1,目的IP地址为22.22.22.22,用户标识为zhangsan,传输协议为sftp;
文件下载行为基线中的第二文件下载行为个体的源IP地址为10.10.10.1,目的IP地址为22.22.22.22,用户标识为zhangsan,传输协议为ftp;
第一文件下载行为个体在“09:23~12:35”的时间段的下载的文件大小为“548M~698M”,相应时间段的下载频次为16;
第二文件下载行为个体在“16:37~19:00”的时间段的下载的文件大小为“1578M~2398M”,相应时间段的下载频次为36。
步骤240、将采集的预设检测时间段内的待检测文件下载行为个体的下载记录与文件下载行为基线中的至少一个文件下载行为个体对应的文件下载行为进行匹配检测,确定待检测文件下载行为个体的下载记录是否存在异常文件下载行为。
在执行该步骤之前,基于Hadoop/Spark大数据处理平台,首先通过agent采集实时产生的下载日志数据,随后经过相应数据范式化操作后发送至Kafka,最后大数据平台以固定间隔时间(或称“预设检测时间段”)从Kafka中读取待检测数据,即待检测文件下载行为个体的下载记录,并对其进行下载行为的测检,即将实时的数据流处理转换成短时间内的“微批处理”。
将预设检测时间段内的待检测文件下载行为个体的下载记录与文件下载行为基线中的至少一个文件下载行为个体对应的文件下载行为进行匹配检测;
首先,将待检测文件下载行为个体与文件下载行为基线中的至少一个文件下载行为个体进行匹配检测;也就是说,判断“源IP地址、目的IP地址、用户标识、传输协议”是否均在获取的文件下载行为基线中出现。
若文件下载行为基线中的至少一个文件下载行为个体中不存在待检测文件下载行为个体,则确定待检测文件下载行为个体的下载记录存在异常文件下载行为;
若文件下载行为基线中的至少一个文件下载行为个体中存在目标文件下载行为个体与待检测文件下载行为个体匹配,则将目标文件下载行为个体对应的文件下载行为对待检测文件下载行为个体的下载记录进行文件下载行为的匹配检测;
具体为,获取预设检测时间段内待检测文件下载行为个体的下载记录的文件下载数量、下载时间、下载文件大小和下载文件的第二下载频次,其中,第二下载频次可以由待检测文件下载行为个体的文件下载数量和预设检测时间段的时长来确定;
可选地,第二下载频次f的计算公式可以表示为:
Figure BDA0002309261410000171
其中,Tduration为预设检测时间段的时长,NdownUnit为预设检测时间段内,待检测文件下载行为个体的文件下载数量。
待若检测文件下载行为个体的下载时间和下载文件大小均在目标文件下载行为个体对应的下载时间范围内和下载文件的大小范围内,且第二下载频次不大于第一下载频次,则确定待检测文件下载行为个体的下载记录不存在异常文件下载行为;
若下载时间不在下载时间范围内、下载文件大小不在下载文件的大小范围内或第二下载频次大于第一下载频次,则确定待检测文件下载行为个体的下载记录存在异常文件下载行为;
或者,若下载时间不在下载时间范围内、下载文件大小不在下载文件的大小范围内,且第二下载频次大于第一下载频次,则确定待检测文件下载行为个体的下载记录存在异常文件下载行为。
在一个例子中,采集到是三个待检测文件下载行为个体以及相应的下载记录:
第一待检测文件下载行为个体为的源IP地址为10.10.10.1,目的IP地址为22.22.22.22,用户标识为lisi,传输协议为sftp;其下载记录中下载时间为“10:25”,下载文件大小为“589”,下载频次为5;
第二待检测文件下载行为个体为的源IP地址为10.10.10.1,目的IP地址为22.22.22.22,用户标识为zhangsan,传输协议为sftp;其下载记录中下载时间为“8:25”,下载文件大小为“566”,下载频次为5;
第三待检测文件下载行为个体为的源IP地址为10.10.10.1,目的IP地址为22.22.22.22,用户标识为zhangsan,传输协议为sftp;其下载记录中下载时间为“10:25”,下载文件大小为“589”,下载频次为5;
采用上述匹配检测方法,根据表1所示的文件下载行为基线,对三个待检测文件下载行为个体以及相应的下载记录进行匹配检测,得到检测结果为:
(1)文件下载行为基线中不存在第一待检测文件下载行为个体,故第一待检测文件下载行为个体的下载记录为非法,即存在异常文件下载行为;
(2)文件下载行为基线中存在第二待检测文件下载行为个体,但下载时间不在文件下载行为基线中的下载时间范围内,故第二待检测文件下载行为个体的下载记录为非法,即存在异常文件下载行为;
(3)文件下载行为基线中存在第一待检测文件下载行为个体,且下载时间在文件下载行为基线中的下载时间范围内,下载文件大小在文件下载行为基线中的下载文件大小范围内,下载频次低于文件下载行为基线中的下载频次,故第三待检测文件下载行为个体的下载记录为合法,即不存在异常文件下载行为。其中,检测结果可以如表2所示。
表2
Figure BDA0002309261410000181
需要说明的是,上述对源IP地址、目的IP地址、用户标识和传输协议的检测顺序可以根据实际情况进行先后调整,本发明实施例在此不做限定。
进一步的,为了进一步提高检测的准确性,在上述检测出待检测文件下载行为个体的下载记录不存在异常文件下载行为后,可以获取该下载记录中下载时间之前的目标时间段内待检测文件下载行为个体对应的告警信息,告警信息可以包括告警事件的类型数和每种类型的告警事件的发生次数;
其中,告警事件包括但不限于非法登录、非法提权、非法上传文件等,关联方法为以“源IP地址-目的IP地址-用户标识”以及所设定的最远查询时间去匹配告警事件表,即使用“源IP地址-目的IP地址-用户标识”作为索引,查询存储器存储的告警信息表,由此查询出待检测文件下载行为个体对应的告警信息。
根据告警事件的类型数和每种类型的告警事件的发生次数,确定待检测文件下载行为个体的下载记录是否存在异常文件下载行为,有效的降低了漏报率。
具体的,考虑到目标时间段△τ,以及告警事件的类型数和发生次数对正面反应值的影响,即“短时间内发生的告警事件越多(种类多、数量多),此后发生的文件下载行为越有可能是异常”,故根据告警事件的类型数和每种类型的告警事件的发生次数,可以获取待检测文件下载行为个体的下载记录对应的正面反应值;
若获取的正面反应值低于设定的反应值阈值,则确定待检测文件下载行为个体的下载记录存在异常文件下载行为;
若获取的正面反应值不低于设定的反应值阈值,则确定待检测文件下载行为个体的下载记录不存在异常文件下载行为。
可选地,正面反应值S的计算公式表示为:
Figure BDA0002309261410000191
其中,NE为告警事件的类型数,
Figure BDA0002309261410000192
为第i种类型的告警事件的发生次数,
Figure BDA0002309261410000193
为第i种类型的告警事件的威胁系数。
本发明实施例提供的文件异常下载行为的测检方法从存储的下载日志信息中获取至少一个文件下载行为个体和每个文件下载行为个体对应的下载记录,文件下载行为个体包括用户标识和下载文件对应的源IP地址、目的IP地址以及文件传输协议,下载记录包括文件下载数量、下载时间和下载文件大小;获取每个文件下载行为个体对应的下载记录中文件下载数量大于预设数量阈值的目标下载记录;采用预设聚类算法,按照下载时间与下载文件大小,对目标下载记录进行聚类分析,得到包括至少一个文件下载行为个体对应的文件下载行为的文件下载行为基线,文件下载行为包括下载时间范围、下载文件的大小范围和下载文件的第一下载频次,第一下载频次是由下载时间范围内的文件下载数量和下载时间范围的下载持续时间确定的;将采集的预设检测时间段内的待检测文件下载行为个体的下载记录与文件下载行为基线中的至少一个文件下载行为个体对应的文件下载行为进行匹配检测,确定待检测文件下载行为个体的下载记录是否存在异常文件下载行为。该方法以历史文件下载记录为分析基础,通过机器学习得出有效的文件下载行为基线,摆脱人为设定规则的束缚,能够对所有文件的下载记录进行下载行为的测检,即扩大了检测范围,通过获取的文件下载行为基线自动对待检测文件下载行为个体的下载记录进行检测,提高了检测效率和检测准确性。
与上述方法对应的,本发明实施例还提供一种文件异常下载行为的检测装置,如图3所示,该装置包括:获取单元310、聚类单元320和检测单元330;
获取单元310,用于从存储的下载日志信息中获取至少一个文件下载行为个体和每个文件下载行为个体对应的下载记录,其中,所述文件下载行为个体包括用户标识和下载文件对应的源IP地址、目的IP地址以及文件传输协议,所述下载记录包括文件下载数量、下载时间和下载文件大小;
以及,获取每个文件下载行为个体对应的下载记录中文件下载数量大于预设数量阈值的目标下载记录;
聚类单元320,用于采用预设聚类算法,按照下载时间与下载文件大小,对所述目标下载记录进行聚类分析,得到文件下载行为基线,所述文件下载行为基线包括所述至少一个文件下载行为个体对应的文件下载行为,所述文件下载行为包括下载时间范围、下载文件的大小范围和下载文件的第一下载频次,所述第一下载频次是由所述下载时间范围内的文件下载数量和所述下载时间范围的下载持续时间确定的;
检测单元330,用于将采集的预设检测时间段内的待检测文件下载行为个体的下载记录与所述文件下载行为基线中的至少一个文件下载行为个体对应的文件下载行为进行匹配检测,确定所述待检测文件下载行为个体的下载记录是否存在异常文件下载行为。
在一个可选的实现中,所述预设数量阈值T是由所述至少一个文件下载行为个体的总数与每个文件下载行为个体对应的下载记录中的文件下载数量确定的;
所述预设数量阈值T的计算公式表示为:
Figure BDA0002309261410000211
其中,Nall为所述至少一个文件下载行为个体的总数,ni为第i个文件下载行为个体对应的下载记录中的文件下载数量,α为调整系数,取值范围为[0,1]。
在一个可选的实现中,所述装置还包括处理单元340、去除单元350;
处理单元340,用于按照下载时间与下载文件大小,对所述目标下载记录进行归一化处理,得到待处理的归一化向量;
去除单元350,用于采用预设异常点去除算法,对所述待处理的归一化向量进行异常点去除,得到去除异常点的目标下载记录。
在一个可选的实现中,聚类单元320,具体用于采用预设聚类算法,按照下载时间与下载文件大小,对所述目标下载记录进行聚类,得到至少一个簇;
对每个簇中的目标下载记录进行统计分析,得到所述至少一个文件下载行为个体对应的文件下载行为。
在一个可选的实现中,所述第一下载频次的计算公式表示为:
Figure BDA0002309261410000221
其中,Nrec为所述下载时间范围内[i,j]的文件下载数量,β为调整系数,Tij为所述下载时间范围的下载持续时间,所述下载持续时间的时长表示为:j-i。
在一个可选的实现中,检测单元330,具体用于若所述文件下载行为基线中的至少一个文件下载行为个体中不存在所述待检测文件下载行为个体,则确定所述待检测文件下载行为个体的下载记录存在异常文件下载行为;
若所述文件下载行为基线中的至少一个文件下载行为个体中存在目标文件下载行为个体与所述待检测文件下载行为个体匹配,则获取所述预设检测时间段内所述待检测文件下载行为个体的下载记录的文件下载数量、下载时间、下载文件大小和下载文件的第二下载频次;
其中,若所述待检测文件下载行为个体的下载时间和下载文件大小均在所述目标文件下载行为个体对应的下载时间范围内和下载文件的大小范围内,且所述第二下载频次不大于所述目标文件下载行为个体对应的第一下载频次,则确定所述待检测文件下载行为个体的下载记录不存在异常文件下载行为;
若所述下载时间不在所述下载时间范围内、所述下载文件大小不在所述下载文件的大小范围内或所述第二下载频次大于所述第一下载频次,则确定所述待检测文件下载行为个体的下载记录存在异常文件下载行为;
或者,若所述下载时间不在所述下载时间范围内、所述下载文件大小不在所述下载文件的大小范围内,且所述第二下载频次大于所述第一下载频次,则确定所述待检测文件下载行为个体的下载记录存在异常文件下载行为。
在一个可选的实现中,所述第二下载频次是由所述待检测文件下载行为个体的文件下载数量和所述预设检测时间段的时长确定的;
所述第二下载频次的计算公式表示为:
Figure BDA0002309261410000222
其中,Tduration为所述预设检测时间段的时长,NdownUnit为所述预设检测时间段内,所述待检测文件下载行为个体的文件下载数量。
在一个可选的实现中,所述装置还包括确定单元360;
获取单元310,还用于若确定所述待检测文件下载行为个体的下载记录不存在异常文件下载行为,则获取所述下载记录中下载时间之前的目标时间段内所述待检测文件下载行为个体对应的告警信息,所述告警信息包括告警事件的类型数和每种类型的告警事件的发生次数;
确定单元360,用于根据所述告警事件的类型数和所述每种类型的告警事件的发生次数,确定所述待检测文件下载行为个体的下载记录是否存在异常文件下载行为。
在一个可选的实现中,确定单元360,具体用于根据所述告警事件的类型数和所述每种类型的告警事件的发生次数,获取所述待检测文件下载行为个体的下载记录对应的正面反应值;
若获取的正面反应值低于设定的反应值阈值,则确定所述待检测文件下载行为个体的下载记录存在异常文件下载行为;
若获取的正面反应值不低于设定的反应值阈值,则确定所述待检测文件下载行为个体的下载记录不存在异常文件下载行为。
在一个可选的实现中,所述正面反应值的计算公式表示为:
Figure BDA0002309261410000231
式中,NE为所述告警事件的类型数,
Figure BDA0002309261410000232
为第i种类型的告警事件的发生次数,
Figure BDA0002309261410000233
为第i种类型的告警事件的威胁系数。
在一个可选的实现中,所述装置还包括设置单元370;
设置单元370,用于按照用户标识,下载文件对应的源IP地址、目的IP地址、下载时间以及文件路径,对第一类文件设置白名单;
以及,对第二类文件设置黑名单。
在一个可选的实现中,所述第一类文件为机密类文件,所述第二类文件为配置类文件。
本发明上述实施例提供的文件异常下载行为的检测装置的各功能单元的功能,可以通过上述各方法步骤来实现,因此,本发明实施例提供的文件异常下载行为的检测装置中的各个单元的具体工作过程和有益效果,在此不复赘述。
本发明实施例还提供了一种电子设备,如图4所示,包括处理器410、通信接口420、存储器430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。
存储器430,用于存放计算机程序;
处理器410,用于执行存储器430上所存放的程序时,实现如下步骤:
从存储的下载日志信息中获取至少一个文件下载行为个体和每个文件下载行为个体对应的下载记录,其中,所述文件下载行为个体包括用户标识和下载文件对应的源IP地址、目的IP地址以及文件传输协议,所述下载记录包括文件下载数量、下载时间和下载文件大小;
获取每个文件下载行为个体对应的下载记录中文件下载数量大于预设数量阈值的目标下载记录;
采用预设聚类算法,按照下载时间与下载文件大小,对所述目标下载记录进行聚类分析,得到文件下载行为基线,所述文件下载行为基线包括所述至少一个文件下载行为个体对应的文件下载行为,所述文件下载行为包括下载时间范围、下载文件的大小范围和下载文件的第一下载频次,所述第一下载频次是由所述下载时间范围内的文件下载数量和所述下载时间范围的下载持续时间确定的;
将采集的预设检测时间段内的待检测文件下载行为个体的下载记录与所述文件下载行为基线中的至少一个文件下载行为个体对应的文件下载行为进行匹配检测,确定所述待检测文件下载行为个体的下载记录是否存在异常文件下载行为。
在一个可选的实现中,所述预设数量阈值T是由所述至少一个文件下载行为个体的总数与每个文件下载行为个体对应的下载记录中的文件下载数量确定的;
所述预设数量阈值T的计算公式表示为:
Figure BDA0002309261410000251
其中,Nall为所述至少一个文件下载行为个体的总数,ni为第i个文件下载行为个体对应的下载记录中的文件下载数量,α为调整系数,取值范围为[0,1]
在一个可选的实现中,获取每种文件标识对应的下载记录中文件下载数量大于预设数量阈值的目标下载记录之后,所述方法还包括:
按照下载时间与下载文件大小,对所述目标下载记录进行归一化处理,得到待处理的归一化向量;
采用预设异常点去除算法,对所述待处理的归一化向量进行异常点去除,得到去除异常点的目标下载记录。
在一个可选的实现中,采用预设聚类算法,按照下载时间与下载文件大小,对所述目标下载记录进行聚类分析,得到所述至少一个文件下载行为个体对应的文件下载行为,包括:
采用预设聚类算法,按照下载时间与下载文件大小,对所述目标下载记录进行聚类,得到至少一个簇;
对每个簇中的目标下载记录进行统计分析,得到所述至少一个文件下载行为个体对应的文件下载行为。
在一个可选的实现中,所述第一下载频次的计算公式表示为:
Figure BDA0002309261410000261
其中,Nrec为所述下载时间范围内[i,j]的文件下载数量,β为调整系数,Tij为所述下载时间范围的下载持续时间,所述下载持续时间的时长表示为:j-i。
在一个可选的实现中,将采集的预设检测时间段内的待检测文件下载行为个体的下载记录与所述文件下载行为基线中的至少一个文件下载行为个体对应的文件下载行为进行匹配检测,确定所述待检测的文件下载行为个体的下载记录是否存在异常文件下载行为,包括:
若所述文件下载行为基线中的至少一个文件下载行为个体中不存在所述待检测文件下载行为个体,则确定所述待检测文件下载行为个体的下载记录存在异常文件下载行为;
若所述文件下载行为基线中的至少一个文件下载行为个体中存在目标文件下载行为个体与所述待检测文件下载行为个体匹配,则获取所述预设检测时间段内所述待检测文件下载行为个体的下载记录的文件下载数量、下载时间、下载文件大小和下载文件的第二下载频次;
其中,若所述待检测文件下载行为个体的下载时间和下载文件大小均在所述目标文件下载行为个体对应的下载时间范围内和下载文件的大小范围内,且所述第二下载频次不大于所述目标文件下载行为个体对应的第一下载频次,则确定所述待检测文件下载行为个体的下载记录不存在异常文件下载行为;
若所述下载时间不在所述下载时间范围内、所述下载文件大小不在所述下载文件的大小范围内或所述第二下载频次大于所述第一下载频次,则确定所述待检测文件下载行为个体的下载记录存在异常文件下载行为;
或者,若所述下载时间不在所述下载时间范围内、所述下载文件大小不在所述下载文件的大小范围内,且所述第二下载频次大于所述第一下载频次,则确定所述待检测文件下载行为个体的下载记录存在异常文件下载行为。
在一个可选的实现中,所述第二下载频次是由所述待检测文件下载行为个体的文件下载数量和所述预设检测时间段的时长确定的;
所述第二下载频次的计算公式表示为:
Figure BDA0002309261410000271
其中,Tduration为所述预设检测时间段的时长,NdownUnit为所述预设检测时间段内,所述待检测文件下载行为个体的文件下载数量。
在一个可选的实现中,所述方法还包括:
若确定所述待检测文件下载行为个体的下载记录不存在异常文件下载行为,则获取所述下载记录中下载时间之前的目标时间段内所述待检测文件下载行为个体对应的告警信息,所述告警信息包括告警事件的类型数和每种类型的告警事件的发生次数;
根据所述告警事件的类型数和所述每种类型的告警事件的发生次数,确定所述待检测文件下载行为个体的下载记录是否存在异常文件下载行为。
在一个可选的实现中,根据所述告警事件的类型数和所述每种类型的告警事件的发生次数,确定所述待检测文件下载行为个体的下载记录是否存在异常文件下载行为,包括:
根据所述告警事件的类型数和所述每种类型的告警事件的发生次数,获取所述待检测文件下载行为个体的下载记录对应的正面反应值;
若获取的正面反应值低于设定的反应值阈值,则确定所述待检测文件下载行为个体的下载记录存在异常文件下载行为;
若获取的正面反应值不低于设定的反应值阈值,则确定所述待检测文件下载行为个体的下载记录不存在异常文件下载行为。
在一个可选的实现中,所述正面反应值的计算公式表示为:
Figure BDA0002309261410000272
式中,NE为所述告警事件的类型数,
Figure BDA0002309261410000281
为第i种类型的告警事件的发生次数,
Figure BDA0002309261410000282
为第i种类型的告警事件的威胁系数。
在一个可选的实现中,从存储的下载日志信息中获取至少一个文件下载行为个体和每个文件下载行为个体对应的下载记录之前,所述方法还包括:
按照用户标识,下载文件对应的源IP地址、目的IP地址、下载时间以及文件路径,对第一类文件设置白名单;
对第二类文件设置黑名单。
在一个可选的实现中,所述第一类文件为机密类文件,所述第二类文件为配置类文件。
上述提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
由于上述实施例中电子设备的各器件解决问题的实施方式以及有益效果可以参见图2所示的实施例中的各步骤来实现,因此,本发明实施例提供的电子设备的具体工作过程和有益效果,在此不复赘述。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的文件异常下载行为的检测方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的文件异常下载行为的检测方法。
本领域内的技术人员应明白,本申请实施例中的实施例可提供为方法、***、或计算机程序产品。因此,本申请实施例中可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例中可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例中是参照根据本申请实施例中实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例中实施例进行各种改动和变型而不脱离本申请实施例中实施例的精神和范围。这样,倘若本申请实施例中实施例的这些修改和变型属于本申请实施例中权利要求及其等同技术的范围之内,则本申请实施例中也意图包含这些改动和变型在内。

Claims (15)

1.一种文件异常下载行为的测检方法,其特征在于,所述方法包括:
从存储的下载日志信息中获取至少一个文件下载行为个体和每个文件下载行为个体对应的下载记录,其中,所述文件下载行为个体包括用户标识和下载文件对应的源IP地址、目的IP地址以及文件传输协议,所述下载记录包括文件下载数量、下载时间和下载文件大小;
获取每个文件下载行为个体对应的下载记录中文件下载数量大于预设数量阈值的目标下载记录;
采用预设聚类算法,按照下载时间与下载文件大小,对所述目标下载记录进行聚类分析,得到文件下载行为基线,所述文件下载行为基线包括所述至少一个文件下载行为个体对应的文件下载行为,所述文件下载行为包括下载时间范围、下载文件的大小范围和下载文件的第一下载频次,所述第一下载频次是由所述下载时间范围内的文件下载数量和所述下载时间范围的下载持续时间确定的;
将采集的预设检测时间段内的待检测文件下载行为个体的下载记录与所述文件下载行为基线中的至少一个文件下载行为个体对应的文件下载行为进行匹配检测,确定所述待检测文件下载行为个体的下载记录是否存在异常文件下载行为。
2.如权利要求1所述的方法,其特征在于,所述预设数量阈值T是由所述至少一个文件下载行为个体的总数与每个文件下载行为个体对应的下载记录中的文件下载数量确定的;
所述预设数量阈值T的计算公式表示为:
Figure FDA0002309261400000011
其中,Nall为所述至少一个文件下载行为个体的总数,ni为第i个文件下载行为个体对应的下载记录中的文件下载数量,α为调整系数,取值范围为[0,1]。
3.如权利要求1所述的方法,其特征在于,获取每种文件标识对应的下载记录中文件下载数量大于预设数量阈值的目标下载记录之后,所述方法还包括:
按照下载时间与下载文件大小,对所述目标下载记录进行归一化处理,得到待处理的归一化向量;
采用预设异常点去除算法,对所述待处理的归一化向量进行异常点去除,得到去除异常点的目标下载记录。
4.如权利要求1所述的方法,其特征在于,采用预设聚类算法,按照下载时间与下载文件大小,对所述目标下载记录进行聚类分析,得到所述至少一个文件下载行为个体对应的文件下载行为,包括:
采用预设聚类算法,按照下载时间与下载文件大小,对所述目标下载记录进行聚类,得到至少一个簇;
对每个簇中的目标下载记录进行统计分析,得到所述至少一个文件下载行为个体对应的文件下载行为。
5.如权利要求1所述的方法,其特征在于,所述第一下载频次的计算公式表示为:
Figure FDA0002309261400000021
其中,Nrec为所述下载时间范围内[i,j]的文件下载数量,β为调整系数,Tij为所述下载时间范围的下载持续时间,所述下载持续时间的时长表示为:j-i。
6.如权利要求1所述的方法,其特征在于,
将采集的预设检测时间段内的待检测文件下载行为个体的下载记录与所述文件下载行为基线中的至少一个文件下载行为个体对应的文件下载行为进行匹配检测,确定所述待检测的文件下载行为个体的下载记录是否存在异常文件下载行为,包括:
若所述文件下载行为基线中的至少一个文件下载行为个体中不存在所述待检测文件下载行为个体,则确定所述待检测文件下载行为个体的下载记录存在异常文件下载行为;
若所述文件下载行为基线中的至少一个文件下载行为个体中存在目标文件下载行为个体与所述待检测文件下载行为个体匹配,则获取所述预设检测时间段内所述待检测文件下载行为个体的下载记录的文件下载数量、下载时间、下载文件大小和下载文件的第二下载频次;
其中,若所述待检测文件下载行为个体的下载时间和下载文件大小均在所述目标文件下载行为个体对应的下载时间范围内和下载文件的大小范围内,且所述第二下载频次不大于所述目标文件下载行为个体对应的第一下载频次,则确定所述待检测文件下载行为个体的下载记录不存在异常文件下载行为;
若所述下载时间不在所述下载时间范围内、所述下载文件大小不在所述下载文件的大小范围内或所述第二下载频次大于所述第一下载频次,则确定所述待检测文件下载行为个体的下载记录存在异常文件下载行为;
或者,若所述下载时间不在所述下载时间范围内、所述下载文件大小不在所述下载文件的大小范围内,且所述第二下载频次大于所述第一下载频次,则确定所述待检测文件下载行为个体的下载记录存在异常文件下载行为。
7.如权利要求6所述的方法,其特征在于,所述第二下载频次是由所述待检测文件下载行为个体的文件下载数量和所述预设检测时间段的时长确定的;
所述第二下载频次的计算公式表示为:
Figure FDA0002309261400000031
其中,Tduration为所述预设检测时间段的时长,NdownUnit为所述预设检测时间段内,所述待检测文件下载行为个体的文件下载数量。
8.如权利要求1所述的方法,其特征在于,所述方法还包括:
若确定所述待检测文件下载行为个体的下载记录不存在异常文件下载行为,则获取所述下载记录中下载时间之前的目标时间段内所述待检测文件下载行为个体对应的告警信息,所述告警信息包括告警事件的类型数和每种类型的告警事件的发生次数;
根据所述告警事件的类型数和所述每种类型的告警事件的发生次数,确定所述待检测文件下载行为个体的下载记录是否存在异常文件下载行为。
9.如权利要求8所述的方法,其特征在于,根据所述告警事件的类型数和所述每种类型的告警事件的发生次数,确定所述待检测文件下载行为个体的下载记录是否存在异常文件下载行为,包括:
根据所述告警事件的类型数和所述每种类型的告警事件的发生次数,获取所述待检测文件下载行为个体的下载记录对应的正面反应值;
若获取的正面反应值低于设定的反应值阈值,则确定所述待检测文件下载行为个体的下载记录存在异常文件下载行为;
若获取的正面反应值不低于设定的反应值阈值,则确定所述待检测文件下载行为个体的下载记录不存在异常文件下载行为。
10.如权利要求9所述的方法,其特征在于,所述正面反应值的计算公式表示为:
Figure FDA0002309261400000041
式中,NE为所述告警事件的类型数,
Figure FDA0002309261400000042
为第i种类型的告警事件的发生次数,
Figure FDA0002309261400000043
为第i种类型的告警事件的威胁系数。
11.如权利要求1所述的方法,其特征在于,从存储的下载日志信息中获取至少一个文件下载行为个体和每个文件下载行为个体对应的下载记录之前,所述方法还包括:
按照用户标识,下载文件对应的源IP地址、目的IP地址、下载时间以及文件路径,对第一类文件设置白名单;
对第二类文件设置黑名单。
12.如权利要求11所述的方法,其特征在于,所述第一类文件为机密类文件,所述第二类文件为配置类文件。
13.一种文件异常下载行为的测检装置,其特征在于,所述装置包括:获取单元、聚类单元和检测单元;
所述获取单元,用于从存储的下载日志信息中获取至少一个文件下载行为个体和每个文件下载行为个体对应的下载记录,其中,所述文件下载行为个体包括用户标识和下载文件对应的源IP地址、目的IP地址以及文件传输协议,所述下载记录包括文件下载数量、下载时间和下载文件大小;
以及,获取每个文件下载行为个体对应的下载记录中文件下载数量大于预设数量阈值的目标下载记录;
所述聚类单元,用于采用预设聚类算法,按照下载时间与下载文件大小,对所述目标下载记录进行聚类分析,得到文件下载行为基线,所述文件下载行为基线包括所述至少一个文件下载行为个体对应的文件下载行为,所述文件下载行为包括下载时间范围、下载文件的大小范围和下载文件的第一下载频次,所述第一下载频次是由所述下载时间范围内的文件下载数量和所述下载时间范围的下载持续时间确定的;
所述检测单元,用于将采集的预设检测时间段内的待检测文件下载行为个体的下载记录与所述文件下载行为基线中的至少一个文件下载行为个体对应的文件下载行为进行匹配检测,确定所述待检测文件下载行为个体的下载记录是否存在异常文件下载行为。
14.一种电子设备,其特征在于,所述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存储的程序时,实现权利要求1-12任一所述的方法步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-12任一所述的方法步骤。
CN201911251809.0A 2019-12-09 2019-12-09 文件异常下载行为的检测方法及装置 Active CN111064719B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911251809.0A CN111064719B (zh) 2019-12-09 2019-12-09 文件异常下载行为的检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911251809.0A CN111064719B (zh) 2019-12-09 2019-12-09 文件异常下载行为的检测方法及装置

Publications (2)

Publication Number Publication Date
CN111064719A true CN111064719A (zh) 2020-04-24
CN111064719B CN111064719B (zh) 2022-02-11

Family

ID=70300497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911251809.0A Active CN111064719B (zh) 2019-12-09 2019-12-09 文件异常下载行为的检测方法及装置

Country Status (1)

Country Link
CN (1) CN111064719B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984504A (zh) * 2020-08-20 2020-11-24 海信电子科技(深圳)有限公司 浏览器内存监控方法及电子设备
CN115134164A (zh) * 2022-07-18 2022-09-30 深信服科技股份有限公司 一种上传行为检测方法、***、设备及计算机存储介质
CN115150414A (zh) * 2022-06-29 2022-10-04 中国电信股份有限公司 异常账号的检测方法、装置及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140059641A1 (en) * 2012-08-22 2014-02-27 International Business Machines Corporation Automated feedback for proposed security rules
US8955138B1 (en) * 2013-07-11 2015-02-10 Symantec Corporation Systems and methods for reevaluating apparently benign behavior on computing devices
CN108829715A (zh) * 2018-05-04 2018-11-16 慧安金科(北京)科技有限公司 用于检测异常数据的方法、设备和计算机可读存储介质
CN110300027A (zh) * 2019-06-29 2019-10-01 西安交通大学 一种异常登录检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140059641A1 (en) * 2012-08-22 2014-02-27 International Business Machines Corporation Automated feedback for proposed security rules
US8955138B1 (en) * 2013-07-11 2015-02-10 Symantec Corporation Systems and methods for reevaluating apparently benign behavior on computing devices
CN108829715A (zh) * 2018-05-04 2018-11-16 慧安金科(北京)科技有限公司 用于检测异常数据的方法、设备和计算机可读存储介质
CN110300027A (zh) * 2019-06-29 2019-10-01 西安交通大学 一种异常登录检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JING TAO: "An Abnormal Login Detection Method Based on Multi-source Log Fusion Analysis", 《IEEE》 *
孙名松等: "基于LDA模型的海量APT通信日志特征研究", 《计算机工程》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984504A (zh) * 2020-08-20 2020-11-24 海信电子科技(深圳)有限公司 浏览器内存监控方法及电子设备
CN115150414A (zh) * 2022-06-29 2022-10-04 中国电信股份有限公司 异常账号的检测方法、装置及计算机可读存储介质
CN115134164A (zh) * 2022-07-18 2022-09-30 深信服科技股份有限公司 一种上传行为检测方法、***、设备及计算机存储介质
CN115134164B (zh) * 2022-07-18 2024-02-23 深信服科技股份有限公司 一种上传行为检测方法、***、设备及计算机存储介质

Also Published As

Publication number Publication date
CN111064719B (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
EP3771168B1 (en) Abnormal user identification method
CN107528832B (zh) 一种面向***日志的基线构建与未知异常行为检测方法
CN111614690B (zh) 一种异常行为检测方法及装置
CN111064719B (zh) 文件异常下载行为的检测方法及装置
CN110830986B (zh) 一种物联网卡异常行为检测方法、装置、设备及存储介质
CN107305611B (zh) 恶意账号对应的模型建立方法和装置、恶意账号识别的方法和装置
CN106294508B (zh) 一种刷量工具检测方法及装置
CN110457175B (zh) 业务数据处理方法、装置、电子设备及介质
CN110365636B (zh) 工控蜜罐攻击数据来源的判别方法及装置
CN110351299B (zh) 一种网络连接检测方法和装置
CN114553523A (zh) 基于攻击检测模型的攻击检测方法及装置、介质、设备
CN108234426B (zh) Apt攻击告警方法和apt攻击告警装置
CN112839014A (zh) 建立识别异常访问者模型的方法、***、设备及介质
CN113282920B (zh) 日志异常检测方法、装置、计算机设备和存储介质
CN111371581A (zh) 物联网卡业务异常检测的方法、装置、设备和介质
CN113691483B (zh) 异常用户设备的检测方法、装置、设备及存储介质
CN117609992A (zh) 一种数据泄密检测方法、装置及存储介质
CN111159009B (zh) 一种日志服务***的压力测试方法及装置
CN113765850A (zh) 物联网异常检测方法、装置、计算设备及计算机存储介质
CN106682516A (zh) 应用程序的检测方法、检测装置和服务器
CN111107079A (zh) 一种上传文件检测方法及装置
CN117391214A (zh) 模型训练方法、装置及相关设备
CN107085544B (zh) 一种***错误定位方法及装置
CN114329449A (zh) ***安全检测方法和装置、存储介质及电子装置
CN111901324B (zh) 一种基于序列熵流量识别的方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100089 Beijing city Haidian District Road No. 4 North wa Yitai three storey building

Applicant after: NSFOCUS Technologies Group Co.,Ltd.

Applicant after: NSFOCUS TECHNOLOGIES Inc.

Address before: 100089 Beijing city Haidian District Road No. 4 North wa Yitai three storey building

Applicant before: NSFOCUS INFORMATION TECHNOLOGY Co.,Ltd.

Applicant before: NSFOCUS TECHNOLOGIES Inc.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant