CN116861429B

CN116861429B - 一种基于样本行为的恶意检测方法、装置、设备及介质

Info

Publication number: CN116861429B
Application number: CN202311131111.1A
Authority: CN
Inventors: 田国新; 奚广生; 白富宽; 孙晋超; 肖新光
Original assignee: Beijing Antiy Network Technology Co Ltd
Current assignee: Beijing Antiy Network Technology Co Ltd
Priority date: 2023-09-04
Filing date: 2023-09-04
Publication date: 2023-12-08
Anticipated expiration: 2043-09-04
Also published as: CN116861429A

Abstract

本发明提供了一种基于样本行为的恶意检测方法、装置、设备及介质，涉及安全检测领域，该方法包括：获取待检测文件在第一预设时间段内进行的若干文件行为信息；确定待检测文件的目标行为向量；将目标行为向量输入至目标模型中，得到对应的目标文件标识；若目标文件标识为恶意文件标识，则将待检测文件确定为恶意文件。本发明通过待检测文件进行的文件行为，获取其对应的目标行为向量，将目标行为向量输入至目标模型中，得到对应的目标文件标识，若目标文件标识为恶意文件标识，则将待检测文件确定为恶意文件，通过将待检测文件的文件行为与恶意样本文件的恶意行为进行比对，确定待检测文件是否为恶意文件，提高了检测精度和适用性。

Description

一种基于样本行为的恶意检测方法、装置、设备及介质

技术领域

本发明涉及安全检测领域，特别是涉及一种基于样本行为的恶意检测方法、装置、设备及介质。

背景技术

目前的恶意文件检测方法，是通过查看文件属性、数字签名、***检测等方式检测文件是否为恶意文件，通过检测文件属性来检测恶意文件的方法准确度较差，易出现误检测的情况，而通过***检测的方式来对文件进行恶意检测的方法，则是由于恶意文件的恶意类型种类较多，一般的***检测只能针对单类恶意类型或多类恶意类型的结合来进行恶意检测，具有局限性，且针对每类恶意类型的检测需要设计对应的执行代码，增加了***维护成本。

发明内容

有鉴于此，本发明提供一种基于样本行为的恶意检测方法、装置、设备及介质，至少部分解决现有技术中存在的通过检测文件属性来检测恶意文件的方法准确度较差，易出现误检测的技术问题，本发明采用的技术方案为：

根据本申请的一个方面，提供一种基于样本行为的恶意检测方法，应用于文件检测***，所述基于样本行为的恶意检测方法包括如下步骤：

响应于接收到待检测文件，在第一预设时间段T₁结束后，获取待检测文件进行的若干文件行为的文件行为信息，得到第一文件行为信息集Q=(Q₁,Q₂,...,Q_i,...,Q_n)；其中，i=1,2,...,n；n为待检测文件在T₁内进行的文件行为的数量；Q_i为待检测文件在T₁内进行的第i个文件行为的文件行为信息；T₁=[t₁₁,t₁₂]；t₁₁＜t₁₂；t₁₁为T₁对应的起始时间，且t₁₁不早于接收到待检测文件的时间；t₁₂为T₁对应的截止时间；

根据Q，确定待检测文件的目标行为向量E=(E₁,E₂,...,E_a,...,E_b)；E_a为E中第a个目标恶意行为信息对应的行为特征；若E_a=1则表示在T₁期间待检测文件进行过E_a对应的目标恶意行为；若E_a=0则表示在T₁期间待检测文件未进行过E_a对应的目标恶意行为；

将目标行为向量E输入至目标模型中，得到对应的目标文件标识；目标模型为根据恶意样本文件的文件行为进行训练得到的；目标文件标识用于标识待检测文件是否为恶意文件；

若目标文件标识为恶意文件标识，则将待检测文件确定为恶意文件。

在本申请的一种示例性实施例中，目标行为向量E通过以下步骤确定：

获取目标恶意行为信息列表MB=(MB₁,MB₂,...,MB_a,...,MB_b)；其中，a=1,2,...,b；b为预设的目标恶意行为信息的数量；MB_a为第a个预设的目标恶意行为信息；每一目标恶意行为信息唯一对应有一个预设的目标恶意行为；

遍历MB，若MB_a对应的目标恶意行为信息存在于Q中，则获取E_a=1；否则，获取E_a=0；以得到目标行为向量E=(E₁,E₂,...,E_a,...,E_b)；其中，E_a为E中第a个目标恶意行为信息对应的行为特征。

在本申请的一种示例性实施例中，目标恶意行为信息通过以下步骤确定：

获取m个恶意样本文件在第二预设时间段T₂=[t₂₁,t₂₂]内进行的若干文件行为信息，得到样本文件行为信息集F=(F₁,F₂,...,F_j,...,F_m)；F_j=(F_j1,F_j2,...,F_jd,...,F_jf(j))；其中，j=1,2,...,m；d=1,2,...,f(j)；f(j)为第j个恶意样本文件在T₂内进行的文件行为信息的数量；F_j为第j个恶意样本文件对应的文件行为信息列表；F_jd为第j个恶意样本文件在T₂内进行的第d个文件行为信息；t₂₁＜t₂₂＜t₁₁；(t₂₂-t₂₁)=(t₁₂-t₁₁)；t₂₁为T₂对应的起始时间；t₂₂为T₂对应的截止时间；

对F进行去重处理，得到b个目标恶意行为信息。

在本申请的一种示例性实施例中，目标模型通过以下步骤确定：

获取m个恶意样本文件对应的恶意行为类型标识，得到恶意行为类型标识集H=(H₁,H₂,...,H_j,...,H_m)；其中，H_j为第j个恶意样本文件对应的恶意行为类型标识；

将对H进行去重处理后得到的e个恶意行为类型标识确定为恶意文件标识；

根据F，得到m个第二预设行为特征向量G₁,G₂,...,G_j,...,G_m；G_j=(G_j1,G_j2,...,G_ja,...,G_jb)；其中，G_j为第j个恶意样本文件对应的第二预设行为特征向量；G_ja为第j个恶意样本文件的第a个目标恶意行为信息对应的行为特征；

遍历G_j，若G_ja对应的目标恶意行为信息存在于F_j中，则将G_ja确定为1；否则，将G_ja确定为0；

将G_j确定为第j个恶意样本文件的恶意行为向量；

将G_j和第j个恶意样本文件对应的恶意文件标识输入至预设模型中进行训练，得到目标模型。

在本申请的一种示例性实施例中，在获取待检测文件进行的若干文件行为的文件行为信息，得到第一文件行为信息集Q=(Q₁,Q₂,...,Q_i,...,Q_n)的步骤后，所述基于样本行为的恶意检测方法还包括：

若在T₁内检测到与待检测文件具有关联关系的若干目标关联文件，则在T₁结束后，获取若干个目标关联文件进行的文件行为信息，得到第二文件行为信息集R=(R₁,R₂,...,R_g,...,R_h)；R_g=(R_g1,R_g2,...,R_gk,...,R_gf(g))；其中，g=1,2,...,h；k=1,2,...,f(g)；h为目标关联文件的数量；f(g)为第g个目标关联文件在T₁内进行的文件行为信息的数量；R_g为第g个目标关联文件对应的文件行为信息列表；R_gk为第g个目标关联文件在T₁内进行的第k个文件行为信息；

根据R，确定每一所述目标关联文件的关联行为向量M₁,M₂,...,M_g,...,M_h；其中，第g个所述目标关联文件对应的关联行为向量M_g根据R_g获得；

根据E、M₁,M₂,...,M_g,...,M_h，确定融合行为向量；

将融合行为向量输入至目标模型中，得到对应的融合文件标识；

若融合文件标识为恶意文件标识，则将待检测文件和每一目标关联文件确定为恶意文件。

在本申请的一种示例性实施例中，b个目标恶意行为信息对应有u个行为监测策略；其中，第p个行为监测策略的行为监测列表N_p=(N_p1,N_p2,...,N_py,...,N_pf(p))；p=1,2,...,u；y=1,2,...,f(p)；f(p)为第p个行为监测策略对应的目标恶意行为信息的数量；∑^u _p=1f(p)=b；N_py为第p个行为监测策略对应的第y个目标恶意行为信息；

在得到目标行为向量E=(E₁,E₂,...,E_a,...,E_b)的步骤后，所述基于样本行为的恶意检测方法还包括：

通过每一行为监测策略，对待检测文件对应的目标恶意行为信息进行监测；

若在当前T₁的t₁₂时刻，E中的N_p1,N_p2,...,N_py,...,N_pf(p)对应的行为特征均为1，则在下一T₁的t₁₁时刻，停止第p个行为监测策略对待检测文件的行为监测。

根据本申请的一个方面，提供一种基于样本行为的恶意检测装置，包括：

行为获取模块，用于当接收到待检测文件时，在第一预设时间段T₁结束后，获取待检测文件进行的若干文件行为的文件行为信息，得到第一文件行为信息集Q=(Q₁,Q₂,...,Q_i,...,Q_n)；其中，i=1,2,...,n；n为待检测文件在T₁内进行的文件行为的数量；Q_i为待检测文件在T₁内进行的第i个文件行为的文件行为信息；T₁=[t₁₁,t₁₂]；t₁₁＜t₁₂；t₁₁为T₁对应的起始时间，且t₁₁不早于接收到待检测文件的时间；t₁₂为T₁对应的截止时间；

向量确定模块，用于根据Q，确定待检测文件的目标行为向量E=(E₁,E₂,...,E_a,...,E_b)；E_a为E中第a个目标恶意行为信息对应的行为特征；若E_a=1则表示在T₁期间待检测文件进行过E_a对应的目标恶意行为；若E_a=0则表示在T₁期间待检测文件未进行过E_a对应的目标恶意行为；

标识确定模块，用于将目标行为向量E输入至目标模型中，得到对应的目标文件标识；目标模型为根据恶意样本文件的文件行为进行训练得到的；目标文件标识用于标识待检测文件是否为恶意文件；

恶意判断模块，用于当目标文件标识为恶意文件标识时，将待检测文件确定为恶意文件。

根据本申请的一个方面，提供一种非瞬时性计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现前述的基于样本行为的恶意检测方法。

根据本申请的一个方面，提供一种电子设备，包括处理器和前述的非瞬时性计算机可读存储介质。

本发明至少具有以下有益效果：

本发明通过获取待检测文件进行的文件行为，确定待检测文件的目标行为向量，并将目标行为向量输入至目标模型中，得到对应的目标文件标识，若目标文件标识为恶意文件标识，则将待检测文件确定为恶意文件，目标模型为根据恶意样本文件的文件行为得到的，所以，通过检测待检测文件的文件行为，与恶意样本文件的若干恶意行为的结合进行比对，来确定待检测文件是否为恶意文件，在提高了检测精度的同时，也提高了适用性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于样本行为的恶意检测方法的流程图；

图2为本发明实施例提供的基于样本行为的恶意检测装置的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于样本行为的恶意检测方法，应用于文件检测***，文件检测***用于对待检测文件进行恶意检测，检测待检测文件是否为恶意文件。

如图1所示，所述基于样本行为的恶意检测方法包括如下步骤：

步骤S100、响应于接收到待检测文件，在第一预设时间段T₁结束后，获取待检测文件进行的若干文件行为的文件行为信息，得到第一文件行为信息集Q=(Q₁,Q₂,...,Q_i,...,Q_n)；其中，i=1,2,...,n；n为待检测文件在T₁内进行的文件行为的数量；Q_i为待检测文件在T₁内进行的第i个文件行为的文件行为信息；T₁=[t₁₁,t₁₂]；t₁₁＜t₁₂；t₁₁为T₁对应的起始时间，且t₁₁不早于接收到待检测文件的时间；t₁₂为T₁对应的截止时间；

待检测文件即文件检测***接收到的未经过恶意检测的文件，在文件检测***接收到待检测文件后，获取待检测文件的若干文件行为信息，通过检测待检测文件的文件行为信息，对待检测文件进行恶意检测。每一文件行为信息对应有一文件行为，文件行为包括自启动、生成注册表、扫描、加密、信息窃取等行为，文件行为包括正常文件行为和异常文件行为，异常文件行为即对用户信息或***信息进行窃取或盗用的行为。通过检测待检测文件在第一预设时间段内进行的所有文件行为，来综合判断待检测文件是否执行了恶意行为，继而判断其是否为恶意文件。

目前大多数的恶意文件的单一文件行为看起来是正常的文件行为，如注册表修改、文件加密等，此类文件行为可能是在正常权限内或由用户执行的，也可能是由勒索文件触发的异常的注册表修改行为或文件加密行为。因此，无法通过判断其单一的文件行为来确定其是否为异常文件行为。但是，恶意文件为了达到窃取、盗用用户信息的目的，通常会执行连续的文件行为，如勒索文件为了实现勒索目的，会执行注册表权限修改-文件扫描-文件加密等一系列文件行为。若待检测文件执行了上述的连续的文件行为，则待检测文件有很大概率为勒索文件。因此，本申请通过获取待检测文件执行的连续的文件行为，并对待检测文件执行的文件行为进行行为编码，来判断其是否为恶意文件。

第一预设时间段为文件检测***在接收到待检测文件之后的时间段，即t₁₁时刻可以为文件检测***接收到待检测文件的时刻，也可以为文件检测***设定的时刻，待检测文件可以在服务器***中进行行为监测，也可以将其置入沙箱中进行行为监测。若待检测文件的大小小于预设文件大小值，则表示其进行的行为类型较少，可以直接在服务器***中进行行为监测，若待检测文件的大小大于或等于预设文件大小值，则表示此待检测文件的可执行行为类型较多，为了安全起见，将待检测文件置于沙箱中，让待检测文件在沙箱中进行行为监测，即使待检测文件执行了恶意行为，也不会对服务器***造成危害。在沙箱中对待检测文件进行恶意检测，若其不为恶意文件，则将其从沙箱中移动至服务器***中，保证了服务器***的信息安全。

若待检测文件在T₁内不存在目标关联文件，则执行步骤S200-步骤S400；若在T₁内检测到与待检测文件具有关联关系的若干目标关联文件，则利用待检测文件和目标关联文件在第一预设时间段内进行的若干文件行为信息进行恶意检测，以进一步提高恶意检测的准确性，利用目标关联文件的具体实施例可参见步骤S200-步骤S400之后的描述，这里暂不赘述。

步骤S200、根据Q，确定待检测文件的目标行为向量E=(E₁,E₂,...,E_a,...,E_b)；E_a为E中第a个目标恶意行为信息对应的行为特征；若E_a=1则表示在T₁期间待检测文件进行过E_a对应的目标恶意行为；若E_a=0则表示在T₁期间待检测文件未进行过E_a对应的目标恶意行为；

步骤S200为待检测文件不存在对应的目标关联文件的文件恶意检测方法，根据待检测文件的文件行为，确定对应的目标行为向量。

其中，目标行为向量E通过以下步骤确定：

步骤S210、获取目标恶意行为信息列表MB=(MB₁,MB₂,...,MB_a,...,MB_b)；其中，a=1,2,...,b；b为预设的目标恶意行为信息的数量；MB_a为第a个预设的目标恶意行为信息；每一目标恶意行为信息唯一对应有一个预设的目标恶意行为；

目标恶意行为信息是本发明预设的已知的恶意文件的已知行为信息，目标恶意行为信息列表MB是将目标恶意行为信息向量化得到的。不同特征向量中的同一位置对应的文件行为相同，目标恶意行为信息列表MB中的每一行为特征对应有一文件行为。

目标恶意行为信息为目前已知的或通过恶意样本文件进行采集的恶意行为对应的信息，恶意行为即异常文件行为，每个目标恶意行为信息对应有一行为监测策略，行为监测策略为文件检测***对待检测文件的行为进行监测的方法。

步骤S220、遍历MB，若MB_a对应的目标恶意行为信息存在于Q中，则获取E_a=1；否则，获取E_a=0；以得到目标行为向量E=(E₁,E₂,...,E_a,...,E_b)；其中，E_a为E中第a个目标恶意行为信息对应的行为特征；

目标行为向量的确定方法与关联行为向量的确定方法相同，通过检测待检测文件的文件行为中是否包含对应的目标恶意行为，若包含，则将目标恶意行为信息列表MB中对应的行为特征确定为1，否则，将对应的行为特征确定为0。

步骤S231、通过每一行为监测策略，对待检测文件对应的目标恶意行为信息进行监测；

每一行为监测策略对应有若干个目标恶意行为信息，即每一行为监测策略对其对应的每个目标恶意行为进行监测。

步骤S232、若在当前T₁的t₁₂时刻，E中的N_p1,N_p2,...,N_py,...,N_pf(p)对应的行为特征均为1，则在下一T₁的t₁₁时刻，停止第p个行为监测策略对待检测文件的行为监测。

在t₁₂时刻，若其中一个行为监测策略对应的所有目标恶意行为均检测到执行，即待检测文件在T₁内执行了此行为监测策略对应的所有目标恶意行为，则表示该行为监测策略已经监测出了所有对应的目标恶意行为，为了降低***算力，节省***资源，则将该行为监测策略停掉。

其中，目标恶意行为信息通过以下步骤确定：

步骤S211、获取m个恶意样本文件在第二预设时间段T₂=[t₂₁,t₂₂]内进行的若干文件行为信息，得到样本文件行为信息集F=(F₁,F₂,...,F_j,...,F_m)；F_j=(F_j1,F_j2,...,F_jd,...,F_jf(j))；其中，j=1,2,...,m；d=1,2,...,f(j)；f(j)为第j个恶意样本文件在T₂内进行的文件行为信息的数量；F_j为第j个恶意样本文件对应的文件行为信息列表；F_jd为第j个恶意样本文件在T₂内进行的第d个文件行为信息；t₂₁＜t₂₂＜t₁₁；(t₂₂-t₂₁)=(t₁₂-t₁₁)；t₂₁为T₂对应的起始时间；t₂₂为T₂对应的截止时间；

每一目标恶意行为信息对应有一目标恶意行为，目标恶意行为通过恶意样本文件确定，恶意样本文件为已知的恶意文件，或统计的某个时段的恶意文件，或保存在服务器数据库中的历史恶意文件，获取m个恶意样本文件在T₂内进行的文件行为，T₂为历史时间段，由于存在不同恶意样本文件执行相同文件行为的情况，所以，要对得到的所有文件行为进行去重。

步骤S212、对F进行去重处理，得到b个目标恶意行为信息。

经过对所有恶意样本文件的文件行为去重后，得到b个文件行为，将此文件行为确定为目标恶意行为，其对应的信息即目标恶意行为信息。

步骤S300、将目标行为向量E输入至目标模型中，得到对应的目标文件标识；目标模型为根据恶意样本文件的文件行为进行训练得到的；目标文件标识用于标识待检测文件是否为恶意文件；

得到目标行为向量后，将目标行为向量输入目标模型中，由目标模型输出对应的目标文件标识，通过目标文件标识判断待检测文件是否为恶意文件。

其中，目标模型通过以下步骤确定：

步骤S310、获取m个恶意样本文件对应的恶意行为类型标识，得到恶意行为类型标识集H=(H₁,H₂,...,H_j,...,H_m)；其中，H_j为第j个恶意样本文件对应的恶意行为类型标识；

每一恶意样本文件对应有一恶意行为类型标识，恶意行为类型标识表示对应的恶意样本文件进行的恶意行为类型的标识，恶意行为类型即恶意攻击类型，表示对应的恶意样本文件的攻击手段。

步骤S320、将对H进行去重处理后得到的e个恶意行为类型标识确定为恶意文件标识；

相应的，也可能存在不同的恶意样本文件的恶意行为类型标识相同的情况，就需对其进行去重，得到的恶意行为类型标识确定为恶意文件标识。

步骤S330、根据F，得到m个第二预设行为特征向量G₁,G₂,...,G_j,...,G_m；G_j=(G_j1,G_j2,...,G_ja,...,G_jb)；其中，G_j为第j个恶意样本文件对应的第二预设行为特征向量；G_ja为第j个恶意样本文件的第a个目标恶意行为信息对应的行为特征；G_ja对应的目标恶意行为与E_a对应的目标恶意行为相同；

根据恶意样本文件进行的文件行为，预设每个恶意样本文件对应的第二预设行为特征向量。

步骤S340、遍历G_j，若G_ja对应的目标恶意行为信息存在于F_j中，则将G_ja确定为1；否则，将G_ja确定为0；

若恶意样本文件的文件行为中包括了目标恶意行为，则将其对应的第二预设行为特征向量中的行为特征确定为1，否则，确定为0。

步骤S350、将G_j确定为第j个恶意样本文件的恶意行为向量；

步骤S360、将G_j和第j个恶意样本文件对应的恶意文件标识输入至预设模型中进行训练，得到目标模型。

将每一恶意行为向量与其对应的恶意文件标识输入至预设模型中训练，得到目标模型，使目标模型根据输入的行为向量，输出对应的文件标识。

步骤S400、若目标文件标识为恶意文件标识，则将待检测文件确定为恶意文件。

将目标行为向量输入至目标模型中，得到目标文件标识，若目标文件标识为恶意文件标识，则表示对应的待检测文件为恶意文件。

下面对在T₁内检测到与待检测文件具有关联关系的若干目标关联文件的情况进行详述：

在T₁结束后，获取若干个目标关联文件进行的文件行为信息；根据每一目标关联文件对应的文件行为信息，确定对应的关联行为向量；根据待检测文件对应的若干文件行为信息，确定待检测文件的目标行为向量；根据目标行为向量和所有关联行为向量得到融合行为向量；将融合行为向量输入至目标模型中，得到对应的融合文件标识；若融合文件标识为恶意文件标识，则将待检测文件和每一目标关联文件确定为恶意文件。

目标关联文件为与待检测文件具有关联关系的文件，关联关系为下载、释放、触发等关系，如待检测文件在T₁内执行了下载、释放、触发等行为，并生成了对应的下载文件、释放文件、触发文件，则将对应的生成的文件确定为目标关联文件。由于目前的恶意文件存在关联窃取信息的情况，如甲文件自身并未执行信息窃取等恶意行为，但在甲文件进入服务器***后，执行了下载行为，生成了对应的乙文件，而乙文件执行信息窃取的恶意行为，由于甲文件只执行了下载行为，而下载行为又非恶意行为，所以，以目前的安全检测方法无法对甲文件进行拦截或检测，目前的安全检测方法在检测到甲文件不具有恶意信息后，就对其进行放行，而不会对其后续生成的文件进行检测，所以，对待检测文件对应的目标关联文件也要进行相应的恶意检测。

在一些实施例中，目标关联文件对应的关联行为向量的生成方式与步骤S210-步骤S220提供的生成目标行为向量的方式类似。不过，生成关联行为向量时，需要将步骤S210-步骤S210中的目标恶意行为信息列表MB替换为与目标关联文件相关的第三预设行为特征向量。可选地，目标恶意行为信息列表MB与目标关联文件的第三预设行为特征向量的行为特征对应的文件行为一致。

通过关联行为向量可得知对应的目标关联文件在T₁内执行的文件行为，每一关联行为向量中，若行为特征为1，则表示对应的目标关联文件在T₁内执行了对应的目标恶意行为，若行为特征为0，则表示对应的目标关联文件在T₁内未执行对应的目标恶意行为，所以，通过查看每一关联行为向量，即可得知对应的目标关联文件是否执行了目标恶意行为。

融合行为向量表示待检测文件和目标关联文件共同执行的行为的向量，由于待检测文件或单个目标关联文件所执行的行为不为恶意行为，但其进行结合后的行为可能为恶意行为，所以，需要对目标行为向量和每一关联行为向量进行融合后得到的融合行为向量进行检测。

目标模型为根据恶意样本文件的恶意行为进行训练得到的模型，将融合行为向量输入目标模型中，目标模型输出融合行为向量对应的融合文件标识，通过验证融合文件标识，来确定待检测文件和其对应的目标关联文件是否为恶意文件。

进一步，在另一实施例的步骤S100中，获取待检测文件在第一预设时间段内进行的若干文件行为信息，还包括：

步骤S001、获取待检测文件的文件特征；

文件特征包括待检测文件的哈希值、文件结构信息、MD5值、文件代码特征等中的一个或多个的结合，通过对待检测文件的文件特征的检测，判断待检测文件是否为恶意文件。

步骤S002、对文件特征进行检测，得到待检测文件对应的检测结果；

文件特征的检测为对待检测文件的初步检测，由于文件特征的检测方法较为便捷，所以先对待检测文件的文件特征进行检测，若通过文件特征进行检测后的待检测文件为恶意文件，则无需进行后续的检测步骤，即可确定待检测文件为恶意文件，简化了恶意检测的流程，若通过文件特征检测的待检测文件不为恶意文件，则表示待检测文件的文件特征为正常特征，则继续进行后续的检测步骤。

进一步，步骤S002中，对文件特征进行检测，得到待检测文件对应的检测结果，包括：

步骤S0021、将待检测文件的哈希值、文件结构信息、MD5值、文件代码特征与预设异常哈希值、预设异常文件结构信息、预设异常MD5值、预设异常文件代码特征进行比较，得到待检测文件对应的检测结果；

步骤S0022、若哈希值与预设异常哈希值相同、或文件结构信息与预设异常文件结构信息相同、或MD5值与预设异常MD5值相同、或文件代码特征与预设异常文件代码特征相同，则检测结果表示待检测文件为恶意文件；否则，检测结果表示待检测文件不为恶意文件。

由于异常的文件特征的数量比正常的文件特征的数量少，且易获取，所以，将待检测文件的文件特征与异常文件特征进行对比，得到对应的检测结果，异常的文件特征可以从服务器***的数据存储库中调取，也可以对恶意样本文件进行分析获得。

若待检测文件的其中一个文件特征与对应的异常文件特征相同，则表示该待检测文件为恶意文件，若待检测文件的所有文件特征均与对应的异常文件特征不同，则表示该待检测文件不为恶意文件，需要进行后续步骤再对待检测文件进行检测，进一步判断其是否为恶意文件。

步骤S003、若待检测文件对应的检测结果表示待检测文件不为恶意文件，则获取待检测文件在第一预设时间段内进行的若干文件行为信息。

本发明还提供了一种基于样本行为的恶意检测装置100，如图2所示，包括：

行为获取模块110，用于当接收到待检测文件时，在第一预设时间段T₁结束后，获取待检测文件进行的若干文件行为的文件行为信息，得到第一文件行为信息集Q=(Q₁,Q₂,...,Q_i,...,Q_n)；其中，i=1,2,...,n；n为待检测文件在T₁内进行的文件行为的数量；Q_i为待检测文件在T₁内进行的第i个文件行为的文件行为信息；T₁=[t₁₁,t₁₂]；t₁₁＜t₁₂；t₁₁为T₁对应的起始时间，且t₁₁不早于接收到待检测文件的时间；t₁₂为T₁对应的截止时间；

向量确定模块120，用于根据Q，确定待检测文件的目标行为向量E=(E₁,E₂,...,E_a,...,E_b)；E_a为E中第a个目标恶意行为信息对应的行为特征；若E_a=1则表示在T₁期间待检测文件进行过E_a对应的目标恶意行为；若E_a=0则表示在T₁期间待检测文件未进行过E_a对应的目标恶意行为；

标识确定模块130，用于将目标行为向量E输入至目标模型中，得到对应的目标文件标识；目标模型为根据恶意样本文件的文件行为进行训练得到的；目标文件标识用于标识待检测文件是否为恶意文件；

恶意判断模块140，用于当目标文件标识为恶意文件标识时，将待检测文件确定为恶意文件。

本发明的实施例还提供一种计算机程序产品，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、移动终端、或者网络设备等）执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为***、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式（包括固件、微代码等），或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“***”。

根据本发明的这种实施方式的电子设备。电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于：上述至少一个处理器、上述至少一个储存器、连接不同***组件（包括储存器和处理器）的总线。

其中，所述储存器存储有程序代码，所述程序代码可以被所述处理器执行，使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

储存器可以包括易失性储存器形式的可读介质，例如随机存取储存器（RAM）和/或高速缓存储存器，还可以进一步包括只读储存器（ROM）。

储存器还可以包括具有一组（至少一个）程序模块的程序/实用工具，这样的程序模块包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线可以为表示几类总线结构中的一种或多种，包括储存器总线或者储存器控制器、***总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

电子设备也可以与一个或多个外部设备（例如键盘、指向设备、蓝牙设备等）通信，还可与一个或者多个使得用户能与该电子设备交互的设备通信，和/或与使得该电子设备能与一个或多个其它计算设备进行通信的任何设备（例如路由器、调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口进行。并且，电子设备还可以通过网络适配器与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器通过总线与电子设备的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、终端装置、或者网络设备等）执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于样本行为的恶意检测方法，其特征在于，应用于文件检测***，所述方法包括如下步骤：

响应于接收到待检测文件，在第一预设时间段T₁结束后，获取所述待检测文件进行的若干文件行为的文件行为信息，得到第一文件行为信息集Q=(Q₁,Q₂,...,Q_i,...,Q_n)；其中，i=1,2,...,n；n为所述待检测文件在T₁内进行的文件行为的数量；Q_i为所述待检测文件在T₁内进行的第i个文件行为的文件行为信息；T₁=[t₁₁,t₁₂]；t₁₁＜t₁₂；t₁₁为T₁对应的起始时间，且t₁₁不早于接收到所述待检测文件的时间；t₁₂为T₁对应的截止时间；所述第一文件行为信息集中的若干文件行为信息对应的文件行为是所述待检测文件在第一预设时间段T₁内执行的连续的文件行为；

根据Q，确定所述待检测文件的目标行为向量E=(E₁,E₂,...,E_a,...,E_b)；E_a为E中第a个目标恶意行为信息对应的行为特征；若E_a=1则表示在T₁期间待检测文件进行过E_a对应的目标恶意行为；若E_a=0则表示在T₁期间待检测文件未进行过E_a对应的目标恶意行为；

将所述目标行为向量E输入至目标模型中，得到对应的目标文件标识；所述目标模型为根据恶意样本文件的文件行为进行训练得到的；所述目标文件标识用于标识所述待检测文件是否为恶意文件；

若所述目标文件标识为恶意文件标识，则将所述待检测文件确定为恶意文件；

其中，在所述获取所述待检测文件进行的若干文件行为的文件行为信息，得到第一文件行为信息集Q=(Q₁,Q₂,...,Q_i,...,Q_n)的步骤后，所述方法还包括：

若在T₁内检测到与所述待检测文件具有关联关系的若干目标关联文件，则在T₁结束后，获取若干个所述目标关联文件进行的文件行为信息，得到第二文件行为信息集R=(R₁,R₂,...,R_g,...,R_h)；R_g=(R_g1,R_g2,...,R_gk,...,R_gf(g))；其中，g=1,2,...,h；k=1,2,...,f(g)；h为所述目标关联文件的数量；f(g)为第g个所述目标关联文件在T₁内进行的文件行为信息的数量；R_g为第g个所述目标关联文件对应的文件行为信息列表；R_gk为第g个所述目标关联文件在T₁内进行的第k个文件行为信息；所述第二文件行为信息集的每一文件行为信息列表中的若干文件行为信息对应的文件行为是该文件行为信息列表对应的目标关联文件在第一预设时间段T₁内执行的连续的文件行为；

根据E、M₁,M₂,...,M_g,...,M_h，确定融合行为向量；

将所述融合行为向量输入至目标模型中，得到对应的融合文件标识；

若所述融合文件标识为恶意文件标识，则将所述待检测文件和每一所述目标关联文件确定为恶意文件；

其中，所述获取所述待检测文件进行的若干文件行为的文件行为信息，包括：

获取待检测文件的文件特征；

对文件特征进行检测，得到待检测文件对应的检测结果；

若待检测文件对应的检测结果表示待检测文件不为恶意文件，则获取待检测文件在第一预设时间段内进行的若干文件行为信息。

2.根据权利要求1所述的方法，其特征在于，所述目标行为向量E通过以下步骤确定：

3.根据权利要求2所述的方法，其特征在于，所述目标恶意行为信息通过以下步骤确定：

对F进行去重处理，得到b个目标恶意行为信息。

4.根据权利要求3所述的方法，其特征在于，所述目标模型通过以下步骤确定：

根据G，对预设模型进行训练，得到目标模型。

5.根据权利要求4所述的方法，其特征在于，所述根据G，对预设模型进行训练，得到目标模型，包括：

将G_j确定为第j个所述恶意样本文件的恶意行为向量；

将G_j和第j个所述恶意样本文件对应的恶意文件标识输入至预设模型中进行训练，得到目标模型。

6.根据权利要求2所述的方法，其特征在于，b个所述目标恶意行为信息对应有u个行为监测策略；其中，第p个行为监测策略的行为监测列表N_p=(N_p1,N_p2,...,N_py,...,N_pf(p))；p=1,2,...,u；y=1,2,...,f(p)；f(p)为第p个行为监测策略对应的目标恶意行为信息的数量；∑^u _p=1f(p)=b；N_py为第p个行为监测策略对应的第y个目标恶意行为信息；

在所述得到目标行为向量E=(E₁,E₂,...,E_a,...,E_b)的步骤后，所述方法还包括：

通过每一所述行为监测策略，对所述待检测文件对应的目标恶意行为信息进行监测；

若在当前T₁的t₁₂时刻，E中的N_p1,N_p2,...,N_py,...,N_pf(p)对应的行为特征均为1，则在下一T₁的t₁₁时刻，停止第p个行为监测策略对所述待检测文件的行为监测。

7.一种基于样本行为的恶意检测装置，其特征在于，包括：

行为获取模块，用于当接收到待检测文件时，在第一预设时间段T₁结束后，获取待检测文件进行的若干文件行为的文件行为信息，得到第一文件行为信息集Q=(Q₁,Q₂,...,Q_i,...,Q_n)；其中，i=1,2,...,n；n为待检测文件在T₁内进行的文件行为的数量；Q_i为待检测文件在T₁内进行的第i个文件行为的文件行为信息；T₁=[t₁₁,t₁₂]；t₁₁＜t₁₂；t₁₁为T₁对应的起始时间，且t₁₁不早于接收到待检测文件的时间；t₁₂为T₁对应的截止时间；以及若在T₁内检测到与待检测文件具有关联关系的若干目标关联文件，则在T₁结束后，获取若干个目标关联文件进行的文件行为信息，得到第二文件行为信息集R=(R₁,R₂,...,R_g,...,R_h)；R_g=(R_g1,R_g2,...,R_gk,...,R_gf(g))；其中，g=1,2,...,h；k=1,2,...,f(g)；h为目标关联文件的数量；f(g)为第g个目标关联文件在T₁内进行的文件行为信息的数量；R_g为第g个目标关联文件对应的文件行为信息列表；R_gk为第g个目标关联文件在T₁内进行的第k个文件行为信息；第一文件行为信息集中的若干文件行为信息对应的文件行为是待检测文件在第一预设时间段T₁内执行的连续的文件行为；第二文件行为信息集的每一文件行为信息列表中的若干文件行为信息对应的文件行为是该文件行为信息列表对应的目标关联文件在第一预设时间段T₁内执行的连续的文件行为；

向量确定模块，用于根据Q，确定待检测文件的目标行为向量E=(E₁,E₂,...,E_a,...,E_b)；E_a为E中第a个目标恶意行为信息对应的行为特征；若E_a=1则表示在T₁期间待检测文件进行过E_a对应的目标恶意行为；若E_a=0则表示在T₁期间待检测文件未进行过E_a对应的目标恶意行为；以及根据R，确定每一目标关联文件的关联行为向量M₁,M₂,...,M_g,...,M_h；其中，第g个目标关联文件对应的关联行为向量M_g根据R_g获得；根据E、M₁,M₂,...,M_g,...,M_h，确定融合行为向量；

标识确定模块，用于将目标行为向量E输入至目标模型中，得到对应的目标文件标识；目标模型为根据恶意样本文件的文件行为进行训练得到的；目标文件标识用于标识待检测文件是否为恶意文件；以及将融合行为向量输入至目标模型中，得到对应的融合文件标识；

恶意判断模块，用于当目标文件标识为恶意文件标识时，将待检测文件确定为恶意文件，以及当融合文件标识为恶意文件标识时，将待检测文件和每一目标关联文件确定为恶意文件。

8.一种非瞬时性计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，其特征在于，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-6中任意一项所述的方法。

9.一种电子设备，其特征在于，包括处理器和权利要求8中所述的非瞬时性计算机可读存储介质。