CN106033514B

CN106033514B - 一种可疑进程的探测方法及装置

Info

Publication number: CN106033514B
Application number: CN201510124614.5A
Authority: CN
Inventors: 陈艳军
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2015-03-20
Filing date: 2015-03-20
Publication date: 2019-08-09
Anticipated expiration: 2035-03-20
Also published as: WO2016150313A1; US20180075240A1; CN106033514A

Abstract

本申请提供了一种可疑进程的探测方法及装置，获取待探测主机的数据流向特征的测试值及数据流向库中的待探测主机对应的数据流向特征的样本值，数据流向特征包括进程列表和网络出口特征中的至少一个、及数据源特征，如果在数据源特征的测试值与数据源特征的样本值相同的情况下，进程列表的测试值与进程列表的样本值不同和/或网络出口特征的测试值与网络出口特征的样本值不同，确定探测到可疑进程，可见，本申请所述的可疑进程探测方法及装置，以数据的流向特征为依据来探测可疑进程，而非依据应用程序的攻击行为，又因为一旦发生数据的盗用，数据的流向特征就会变化，所以本申请所述方法及装置能够准确地检测到数据被盗取的可疑进程。

Description

一种可疑进程的探测方法及装置

技术领域

本申请涉及计算机领域，尤其涉及一种可疑进程的探测方法及装置。

背景技术

数据安全是云计算和数据开放面临的核心问题之一。以电商云为例，独立软件开发商(Independent Software Vendors，ISV)软件***部署在电商云环境中，在获得天猫和淘宝商户的订购授权后，ISV能通过TOP访问商户在天猫和淘宝的敏感数据，如订单和客户关系等。ISV任何软件或云资源管理上的漏洞，可能被人利用在云主机或应用中部署后门，非法读取、拷贝或外传这些敏感数据，造成大批量的数据泄漏。

而传统的病毒检测方法，通常针对病毒程序对***的攻击行为设计防御策略，而在云主机或应用中盗取数据的后门程序，一般以获取数据为目的，并没有主动攻击***的行为特征。

所以，传统的病毒检测技术，并不能准确地检测到数据被盗取的可疑进程。

发明内容

本申请提供了一种可疑进程的探测方法及装置，目的在于解决不能准确检测到数据被盗取的可疑进程的问题。

为了实现上述目的，本申请提供了以下技术方案：

一种可疑进程的探测方法，包括：

获取待探测主机的数据流向特征的测试值，以及，数据流向库中所述待探测主机对应的数据流向特征的样本值；所述数据流向特征包括进程列表和网络出口特征中的至少一个、以及数据源特征，所述数据源特征用于指示流入所述待探测主机的预设类型数据的数据源，所述进程列表中包括按照时间顺序排列的、调用所述数据源流出的数据的进程，所述网络出口特征用于指示所述数据源流出的数据在被所述进程列表中的进程调用后、流出所述待探测主机的出口；

如果在所述数据源特征的测试值与所述数据源特征的样本值相同的情况下，所述进程列表的测试值与所述进程列表的样本值不同，和/或，所述网络出口特征的测试值与所述网络出口特征的样本值不同，则确定探测到可疑进程。

可选地，所述数据流向库的建立过程包括：

按照以下方式，分别建立每一个数据源的数据流向特征：

从预先获取的所述待探测主机的网络事件表中确定与一个所述数据源特征相关的网络事件；

以所述网络事件的进程编号和时间戳为查找条件，通过关联所述网络事件表、所述待探测主机的进程事件表及所述待探测主机的文件读写事件表，依次获得调用所述数据源的数据的进程，以及，所述第二数据源的数据流出的第二网络出口。

可选地，还包括：

获取所述待探测主机中每一个应用程序的行为特征的测试值，以及，应用行为库中所述待探测主机的行为特征的样本值；所述行为特征至少包括以下一项：应用程序的级别、应用程序访问所述预设类型的数据的数据源的频率、应用程序对外连接的频率、应用程序对外连接的目的地址、应用程序对外连接的端口、运行应用程序的用户、应用程序的进程命令参数、应用程序的运行频率及应用程序的运行时长；

如果任意一个应用程序的行为特征中任意一项的测试值与此应用程序在所述行为特征库中此项行为特征的样本值的差别不在预设范围内，则确定探测到可疑进程。

可选地，在行为特征中的任意一项为多维数据的情况下，此行为特征的测试值与所述行为特征库中的此项行为特征的样本值的差别的确定方法包括：

计算该项的测试值与所述行为特征库中此项行为特征的样本值之间的距离值。

可选地，所述应用行为库的建立过程包括：

从预先获取的所述待探测主机的网络事件表及进程事件表中，获取每一个应用程序的行为特征；所述行为特征包括应用程序的级别、应用程序访问所述预设类型的数据的数据源的频率、应用程序对外连接的频率、应用程序对外连接的目的地址、应用程序对外连接的端口、运行应用程序的用户、应用程序的进程命令参数、应用程序的运行频率及应用程序的运行时长。

可选地，还包括：

按照预设的进程风险规则，从所述待探测主机的进程中确定可疑进程，所述进程风险规则包括：所述待探测主机发起对自身的网络连接及该连接的目标端口为远程登录端口。

一种可疑进程的探测装置，包括：

第一获取模块，用于获取待探测主机的数据流向特征的测试值，以及，数据流向库中所述待探测主机对应的数据流向特征的样本值；所所述数据流向特征包括进程列表和网络出口特征中的至少一个、以及数据源特征，所述数据源特征用于指示流入所述待探测主机的预设类型数据的数据源，所述进程列表中包括按照时间顺序排列的、调用所述数据源流出的数据的进程，所述网络出口特征用于指示所述数据源流出的数据在被所述进程列表中的进程调用后、流出所述待探测主机的出口；

第一确定模块，用于如果在所述数据源特征的测试值与所述数据源特征的样本值相同的情况下，所述进程列表的测试值与所述进程列表的样本值不同，和/或，所述网络出口特征的测试值与所述网络出口特征的样本值不同，则确定探测到可疑进程。

可选地，还包括：

数据流向库建立模块，用于按照以下方式，分别建立每一个数据源的数据流向特征：从预先获取的所述待探测主机的网络事件表中确定与一个所述数据源特征相关的网络事件；以所述网络事件的进程编号和时间戳为查找条件，通过关联所述网络事件表、所述待探测主机的进程事件表及所述待探测主机的文件读写事件表，依次获得调用所述数据源的数据的进程，以及，所述第二数据源的数据流出的第二网络出口。

可选地，还包括：

第二获取模块，用于获取所述待探测主机中每一个应用程序的行为特征的测试值以及应用行为库中所述待探测主机的行为特征的样本值；所述行为特征至少包括以下一项：应用程序的级别、应用程序访问所述预设类型的数据的数据源的频率、应用程序对外连接的频率、应用程序对外连接的目的地址、应用程序对外连接的端口、运行应用程序的用户、应用程序的进程命令参数、应用程序的运行频率及应用程序的运行时长；

第二确定模块，用于如果任意一个应用程序的行为特征中任意一项的测试值与此应用程序在所述行为特征库中此项行为特征的样本值的差别不在预设范围内，则确定探测到可疑进程。

可选地，所述第二确定模块用于在行为特征中的任意一项为多维数据的情况下，确定此行为特征的测试值与所述行为特征库中的此项行为特征的样本值的差别的具体过程包括：

所述第二确定模块具体用于，计算该项的测试值与所述行为特征库中的此项行为特征的样本值的距离值。

可选地，还包括：

应用行为库建立模块，用于从预先获取的所述待探测主机的网络事件表及进程事件表中获取每一个应用程序的行为特征；所述行为特征包括应用程序的级别、应用程序访问所述预设类型的数据的数据源的频率、应用程序对外连接的频率、应用程序对外连接的目的地址、应用程序对外连接的端口、运行应用程序的用户、应用程序的进程命令参数、应用程序的运行频率及应用程序的运行时长。

可选地，还包括：

第三确定模块，用于按照预设的进程风险规则，从所述待探测主机的进程中确定可疑进程，所述进程风险规则包括：所述待探测主机发起对自身的网络连接及该连接的目标端口为远程登录端口。

与现有技术相比，本申请实施例具有以下有益效果：

本申请所述的可疑进程的探测方法及装置，获取待探测主机的数据流向特征的测试值及数据流向库中的待探测主机对应的数据流向特征的样本值，其中，数据流向特征包括数据源特征、进程列表以及网络出口特征，如果在所述数据源特征的测试值与所述数据源特征的样本值相同的情况下，进程列表的测试值与进程列表的样本值不同或者网络出口特征的测试值与网络出口特征的样本值不同，则确定探测到可疑进程，可见，本申请所述的可疑进程探测方法及装置，以数据的流向特征为依据来探测可疑进程，而非依据应用程序的攻击行为，又因为一旦发生数据的盗用，数据的流向特征就会变化，所以本申请所述的可疑进程探测方法及装置能够准确地检测到数据被盗取的可疑进程。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为申请实施例公开的一种可疑进程的探测方法的流程图；

图2为本申请实施例公开的又一种可疑进程的探测方法的流程图；

图3为本申请实施例公开的数据流向库及应用行为库的建立方法的流程图；

图4为本申请实施例公开的通过在待探测主机上部署的采集客户端，采集在预设时间段内的事件数据的方法的流程图；

图5为本申请实施例公开的一个数据源的数据流向特征的示意图；

图6为本申请实施例公开的一种可疑进程的探测装置的结构示意图；

图7为本申请实施例还公开的又一种可疑进程的探测装置的结构示意图；

图8为本申请实施例公开的可疑进程的探测装置与待探测主机的连接关系结构示意图。

具体实施方式

本申请实施例公开了一种可疑进程的探测方法及装置，可以应用在对于云主机的可疑进程的探测上，以便于能够准确发现盗取云主机中的数据的可疑进程。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例公开的一种可疑进程的探测方法，如图1所示，包括以下步骤：

S101：获取待探测主机的数据流向特征的测试值及数据流向库中的待探测主机对应的数据流向特征的样本值。

本实施例中，数据流向特征可以包括：进程列表和网络出口特征中的至少一个、以及数据源特征。也就是说，数据流向特征中包括数据源特征，除此以外，可以包括进程列表和网络出口特征，也可以包括两者中的任意一个。在包括进程列表和网络出口特征的情况下，探测的准确性更高，本申请以下实施例中，均以数据流向特征中包括数据源特征、进程列表和网络出口特征为例进行描述。

其中，数据源特征用于指示流入待探测主机的预设类型数据的数据源，进程列表中包括按照时间顺序排列的、调用数据源流出的数据的进程，网络出口特征用于指示数据源流出的数据在被进程列表中的进程调用后、流出待探测主机的出口。

进程列表的测试值与样本值均可以为进程列表中包含的文件的名称或者编号。进程列表的测试值与样本值不同，说明调用数据的进行发生了改变，改变可以包括增加了进程，或者，进程按照时间排序发生了变化。

数据源特征的测试值与样本值均可以为数据源的地址或端口号，网络出口特征的测试值与样本值均可以为网络出口的地址或端口号。

S102：在数据源特征的测试值与数据源特征的样本值相同的情况下，如果满足预设条件，则确定探测到可疑进程。其中预设条件至少包括以下任意一项：

1、进程列表的测试值与进程列表的样本值不同；

2、网络出口特征的测试值与网络出口特征的样本值不同。

因为数据盗取方需要通过后门应用程序读取数据或者将数据引流的方式盗取数据，所以，本实施例中，从这两方面入手，设置以上条件，以便从根本上发现数据盗取行为。

可疑进程即为异常的特征对应的进程。例如，对于进程列表而言，可疑进程可以为进程列表的测试值与样本值相比，多出来的名称或编号对应的进程为可疑进程；对于网络出口特征而言，测试样与样本值不同，则通过此网络出口向得探测主机外传输数据的进程即为可疑进程。

例如，本实施例所述的方法应用在电商平台，对于电商平台而言，预设类型数据可以为敏感数据，例如客户的订单信息，为了防止云主机中的敏感数据泄露，探测电商平台的云主机中的数据流向特征的测试值，并从数据流向库中获取云主机的数据流向特征的样本值。如果敏感信息的数据源特征的测试值与样本值相同，而其进程列表中的测试值与样本值不同，例如，调用敏感信息的进程多了一个，多出的进程可能为盗取数据的进程。因此，可以确定存在数据被盗取的风险，则确定探测到可疑进程。网络运维人员可以进一步确定是否确实为风险进程，如确实为风险进程，则采用相应的处理措施。

可见，与现有的检测病毒的技术相比，本实施例中所述的方法，从数据盗取的特点为出发点，以待探测主机中的数据流向特征为依据进行可疑进程的探测，因此，能够准确发现盗取数据的可疑进程。

在上述实施例所述的方法的基础上，还可以进一步增加其它步骤以提高探测可疑进程的准确性，本申请实施例公开的又一种可疑进程的探测方法，与上一实施例相比，探测可疑进程的依据不仅仅限于数据流向特征，如图2所示，包括以下具体步骤：

S201：获取待探测主机的数据流向特征的测试值及数据流向库中的待探测主机对应的数据流向特征的样本值。

本实施例中，数据流向特征可以参见上一实施例所示，这里不再赘述。

S202：在数据源特征的测试值与数据源特征的样本值相同的情况下，如果进程列表的测试值与进程列表的样本值不同和/或网络出口特征的测试值与网络出口特征的样本值不同，则确定探测到可疑进程。

S203：获取待探测主机中的每一个应用程序的行为特征的测试值以及应用行为库中的、待探测主机的行为特征的样本值。

本实施例中，行为特征用于表示各个应用程序在待探测主机中的行为，至少可以包括以下一项：应用程序的级别、应用程序访问所述预设类型的数据的数据源的频率、应用程序对外连接的频率、应用程序对外连接的目的地址、应用程序对外连接的端口、运行应用程序的用户、应用程序的进程命令参数、应用程序的运行频率及应用程序的运行时长。

其中，本实施例中，应用程序可以分为四个级别，分别为：直接访问数据源或中间文件并向外发起网络连接的L1级程序，访问数据源或中间文件但无其它网络连接的L2级程序，不访问数据源或中间文件但有主动外连行为的L3级程序，以及，不访问数据源或中间文件且无主动外连行为的L4级程序。

S204：如果任意一个应用程序的行为特征中的任意一项的测试值与此应用程序在所述行为库中的特征中的此项行为特征的样本值的差别不在预设范围内，则确定探测到可疑进程。

本实施例中，在行为特征中的任意一项为多维数据的情况下，此行为特征的测试值与行为特征库中的此项行为特征的样本值的差别的确定方法可以为：计算该项的测试值与行为特征库中的此项行为特征的样本值的距离值，所述距离值为该项的测试值与行为特征库中的此项行为特征的样本值的差别，其中，距离值可以为K近邻距离值；在行为特征中的任意一项为多维数据的情况下，可以直接计算测试值与样本值之间的差别。

本实施例中，预设范围可以预先设定，范围越大，容忍性越大，则探测可疑进程的条件越宽松，范围越小，容忍性越小，则探测可疑进程的条件越严格，实际应用中，可以依据实际需求设定。

例如，在云主机中，某个应用程序向外连接的频率的测试值明显大于其样本值，则说明此应用程序可能在进行数据的盗取，从而确定探测到可疑进程，可疑进程即为此应用程序对应的进程。

S205：按照预设的进程风险规则，从所述待探测主机的进程中确定可疑进程。

其中，进程风险规则可以包括：待探测主机发起对自身的网络连接及该连接的目标端口为远程登录端口。

本实施例中，进程风险规则可以通过由网络维护人员通过先验知识推导得到。

设置S205的目的在于，可以将一些可能导致重大安全事故的特征加入进程风险规则中，一旦待探测主机中出现这些特征，可以直接确定存在可疑进程，而不必通过数据流向特征及行为特征的探测。

从图2中可以看出，S201和S202，S203和S204，以及，S205分别为探测可疑进程的3个分支，需要说明的是，本实施例中为步骤标记的序号仅为便于说明，在实际应用中，这三个分支的执行顺序不做限定。

可选地，在确定探测到可疑进程后，本实施例中还可以包括：

发出预警信号，并将可疑进程的编号加入可疑进程列表中，以便于网络运营人员查看可疑进程列表，并对可疑进程进行审核，如确认无风险，在***中标定，该标定记录将被加入该主机的应用行为库或数据流向库中。如有风险，能直观地定位有风险的进程，或数据异常流动的模式，启动应急措施控制风险。

本实施例所述的方法应用在电商平台的云主机中，可以分别从三个方面探测盗取数据的可疑进程，云主机上部署的应用程序，由于没有人机交互行为，所以，数据在主机内的流转、以及主机内的应用程序的行为比较固定，有明显的特征。本实施例所述的方法，分别从待探测主机中的数据流向特征、行为特征及进程风险规则三个方面探测待探测主机中盗取数据的可疑进程，因此，探测的角度更为多样化，能够更为及时准确地发现数据访问行为中的异常，定位到可疑的后门或程序。即使后门程序本身发生大的改变，只要盗取数据的行为还存在，就能被快速发现。

需要说明的是，上述实施例中，测试值可以从待探测主机第一时间段(例如某一天)的事件记录中采集，而样本值可以依据待探测主机在第二时间段内(例如一个月)的时间记录中采集的数据而生成。

下面将详细说明数据流向库及应用行为库的建立方法。

如图3所示，数据流向库及应用行为库的建立方法可以包括以下具体步骤：

S301：通过在待探测主机上部署的采集客户端，采集在预设时间段(例如一个月)内的事件数据。

其中，事件可以具体包括网络事件、进程事件以及文件读写事件。

具体地，网络事件数据可以包括发起或接收网络连接的进程的标号、发起时间、来源IP和端口以及目的IP和端口。进程事件数据可以包括进程的编号、事件类型(包括启动或停止)、活动时间、进程名以及命令行参数。文件读写事件数据可以包括文件读写操作记录进程的编号、读写类型(包括读或写)以及活动时间。

如图4所示，S301的具体实现过程可以包括以下步骤：

1、通过Windows事件收集器使用ETW框架，或者Linux事件收集器使用Audit框架，从操作***底层抓取网络事件数据、进程事件数据和文件事件数据，为了减小事件数据量，抓取的粒度和事件类型由事件处理器通过配置来控制和过滤，排除已知的无风险进程、网络或文件活动。

2、事件处理器可以将数据整理成统一格式，如果当前数据不足以建立数据流向库，事件处理器可以调用***函数补全数据后，实时上传到日志收集服务器。

3、日志收集服务器在数据缓存到一定容量或者超过某个时间值后，将已接收的数据同步到大数据处理平台存储、以及等待进一步处理。

S302：依据上述采集到的数据，在大数据处理平台上，事件数据被写入网络事件表、进程事件表及文件读写事件表。

上述三种事件表可以按照时间维度进行分片存储。

S303：按照以下方式，分别建立每一个数据源特征的数据流向特征：从所述网络事件表中确定与一个所述数据源特征相关的网络事件，以所述网络事件的进程编号和时间戳-为查找条件，通过关联所述网络事件表、所述进程事件表及所述文件读写事件表，依次获得调用所述数据源的数据的进程以及所述第二数据源的数据流出的第二网络出口。

其中，每一个数据源特征均可以通过人工提取获得，以电商云TOP数据源为例，TOP服务器的IP地址为一固定列表，且服务端口为80。

如图5所示，一个数据源的数据流向特征为：数据从数据源(如电商云中的TOP)通过网络事件到达云主机第一个进程，再通过文件写事件存到本地文件，服务进程(一般为Web服务器)通过文件读事件读取到数据，随后通过网络事件发送给客户或者第三方***(如电商云中的物流***)。可见，一个数据源的流向特征表示的是从此数据源流出的数据在待探测主机中的流动路径。

需要说明的是，文件读事件仅为连接前后进程的中间过程，本申请的实施例中，不将文件读写事件看作参与探测可疑进程的数据流向特征。

本实施例中，依据以下步骤建立应用行为库：

S304：从所述网络事件表及所述进程事件表中获取每一个应用程序的行为特征，所述行为特征包括应用程序的级别、应用程序访问所述预设类型的数据的数据源的频率、应用程序对外连接的频率、应用程序对外连接的目的地址、应用程序对外连接的端口、运行应用程序的用户、应用程序的进程命令参数、应用程序的运行频率及应用程序的运行时长。

需要说明的是，S303和S304的执行顺序可以互换。

从上述过程可以看出，数据流向库以及应用行为特征库从待探测主机的日程运行数据得到，因此，具有时效性高的特点，并且，数据采集过程不会影响待探测的主机的正常运行。

与图1所示的方法实施例相对应地，本申请实施例还公开了一种可疑进程的探测装置，如图6所示，包括：

第一获取模块601，用于获取待探测主机的数据流向特征的测试值以及数据流向库中的所述待探测主机对应的数据流向特征的样本值，所述数据流向特征包括进程列表和网络出口特征中的至少一个、以及数据源特征，所述数据源特征用于指示流入所述待探测主机的预设类型数据的数据源，所述进程列表中包括按照时间顺序排列的、调用所述数据源流出的数据的进程，所述网络出口特征用于指示所述数据源流出的数据在被所述进程列表中的进程调用后、流出所述待探测主机的出口；

第一确定模块602，用于如果在所述数据源特征的测试值与所述数据源特征的样本值相同的情况下，所述进程列表的测试值与所述进程列表的样本值不同和/或所述网络出口特征的测试值与所述网络出口特征的样本值不同，则确定探测到可疑进程。

本实施例中所述的装置，以数据盗取的特点为出发点，以待探测主机中的数据流向特征为依据进行可疑进程的探测，因此，能够准确发现盗取数据的可疑进程。

与图2所示的方法实施例相对应地，本申请实施例还公开的又一种可疑进程的探测装置如图7所示，包括：第一获取模块701、第一确定模块702、第二获取模块703、第二确定模块704以及第三确定模块705。

其中，第一获取模块701和第一确定模块702的功能与上一实施例相同，这里不再赘述。

第二获取模块703，用于获取所述待探测主机中的每一个应用程序的行为特征的测试值以及应用行为库中的、所述待探测主机的行为特征的样本值，所述行为特征至少包括以下一项：应用程序的级别、应用程序访问所述预设类型的数据的数据源的频率、应用程序对外连接的频率、应用程序对外连接的目的地址、应用程序对外连接的端口、运行应用程序的用户、应用程序的进程命令参数、应用程序的运行频率及应用程序的运行时长。

第二确定模块704，用于如果任意一个应用程序的行为特征中的任意一项的测试值与此应用程序在所述行为特征库中的此项行为特征的样本值的差别不在预设范围内，则确定探测到可疑进程。

具体地，第二确定模块在行为特征中的任意一项为多维数据的情况下，确定此行为特征的测试值与所述行为特征库中的此项行为特征的样本值的差别的具体过程可以为：计算该项的测试值与所述行为特征库中的此项行为特征的样本值的距离值，所述距离值为该项的测试值与所述行为特征库中的此项行为特征的样本值的差别。

第三确定模块705，用于按照预设的进程风险规则，从所述待探测主机的进程中确定可疑进程，所述进程风险规则包括：所述待探测主机发起对自身的网络连接及该连接的目标端口为远程登录端口。

可选地，本实施例所述装置还可以包括：

数据流向库建立模块706，用于按照以下方式，分别建立每一个数据源的数据流向特征：从预先获取的所述待探测主机的网络事件表中确定与一个所述数据源特征相关的网络事件；以所述网络事件的进程编号和时间戳为查找条件，通过关联所述网络事件表、所述待探测主机的进程事件表及所述待探测主机的文件读写事件表，依次获得调用所述数据源的数据的进程以及所述第二数据源的数据流出的第二网络出口。

以及，应用行为库建立模块707，用于从预先获取的所述待探测主机的网络事件表及进程事件表中获取每一个应用程序的行为特征，所述行为特征包括应用程序的级别、应用程序访问所述预设类型的数据的数据源的频率、应用程序对外连接的频率、应用程序对外连接的目的地址、应用程序对外连接的端口、运行应用程序的用户、应用程序的进程命令参数、应用程序的运行频率及应用程序的运行时长。

数据流向库建立模块和应用行为库建立模块的工作流程可以参见图3所示的方法实施例。

本实施例中所述的装置，可以设置在数据处理平台上，例如电商的大数据处理平台。所述数据处理平台与待探测主机相连，图8所示为本实施例所述的装置与待探测主机的连接关系。数据处理平台可以通过现有的数据采集模块及数据传输模块，将待探测主机中的数据传输到数据处理平台，数据处理平台的事件数据存储模块可以将这些数据进行存储，本实施例所述的装置按照以上所述的功能对数据进行分析整理，并依据分析整理的结果探测待探测主机中的可疑进程。

需要说明的是，本申请实施例中所述的装置可以设置在电子设备中，所述电子设备除了可以为专业的监测设备外，也可以为移动终端设备。

本实施例所述的可疑进程的探测方法，从多个角度探测可疑进程，因此具有更高的准确性以及更小的时延。

本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种可疑进程的探测方法，其特征在于，包括：

获取待探测主机的数据流向特征的测试值，以及，数据流向库中所述待探测主机对应的数据流向特征的样本值；所述数据流向特征表示从数据源流出的数据在待探测主机中的流动路径，所述数据流向特征包括进程列表、网络出口特征、以及数据源特征，所述数据源特征用于指示流入所述待探测主机的预设类型数据的数据源，所述进程列表中包括按照时间顺序排列的、调用所述数据源流出的数据的进程，所述网络出口特征用于指示所述数据源流出的数据在被所述进程列表中的进程调用后、流出所述待探测主机的出口；

如果在所述数据源特征的测试值与所述数据源特征的样本值相同的情况下，所述进程列表的测试值与所述进程列表的样本值不同，和/或，所述网络出口特征的测试值与所述网络出口特征的样本值不同，则确定探测到数据被盗取的可疑进程。

2.根据权利要求1所述的方法，其特征在于，所述数据流向库的建立过程包括：

按照以下方式，分别建立每一个数据源的数据流向特征：

以所述网络事件的进程编号和时间戳为查找条件，通过关联所述网络事件表、所述待探测主机的进程事件表及所述待探测主机的文件读写事件表，依次获得调用所述数据源的数据的进程，以及，所述数据源的数据流出的网络出口。

3.根据权利要求1或2所述的方法，其特征在于，还包括：

4.根据权利要求3所述的方法，其特征在于，在行为特征中的任意一项为多维数据的情况下，此行为特征的测试值与所述行为特征库中的此项行为特征的样本值的差别的确定方法包括：

5.根据权利要求4所述的方法，其特征在于，所述应用行为库的建立过程包括：

6.根据权利要求1或2所述的方法，其特征在于，还包括：

7.一种可疑进程的探测装置，其特征在于，包括：

第一获取模块，用于获取待探测主机的数据流向特征的测试值，以及，数据流向库中所述待探测主机对应的数据流向特征的样本值；所述数据流向特征表示从数据源流出的数据在待探测主机中的流动路径，所述数据流向特征包括进程列表、网络出口特征、以及数据源特征，所述数据源特征用于指示流入所述待探测主机的预设类型数据的数据源，所述进程列表中包括按照时间顺序排列的、调用所述数据源流出的数据的进程，所述网络出口特征用于指示所述数据源流出的数据在被所述进程列表中的进程调用后、流出所述待探测主机的出口；

第一确定模块，用于如果在所述数据源特征的测试值与所述数据源特征的样本值相同的情况下，所述进程列表的测试值与所述进程列表的样本值不同，和/或，所述网络出口特征的测试值与所述网络出口特征的样本值不同，则确定探测到数据被盗取的可疑进程。

8.根据权利要求7所述的装置，其特征在于，还包括：

数据流向库建立模块，用于按照以下方式，分别建立每一个数据源的数据流向特征：从预先获取的所述待探测主机的网络事件表中确定与一个所述数据源特征相关的网络事件；以所述网络事件的进程编号和时间戳为查找条件，通过关联所述网络事件表、所述待探测主机的进程事件表及所述待探测主机的文件读写事件表，依次获得调用所述数据源的数据的进程，以及，所述数据源的数据流出的网络出口。

9.根据权利要求7所述的装置，其特征在于，还包括：

10.根据权利要求9所述的装置，其特征在于，所述第二确定模块用于在行为特征中的任意一项为多维数据的情况下，确定此行为特征的测试值与所述行为特征库中的此项行为特征的样本值的差别的具体过程包括：

11.根据权利要求10所述的装置，其特征在于，还包括：

12.根据权利要求7或8所述的装置，其特征在于，还包括：