CN116861428B

CN116861428B - 一种基于关联文件的恶意检测方法、装置、设备及介质

Info

Publication number: CN116861428B
Application number: CN202311131104.1A
Authority: CN
Inventors: 田国新; 奚广生; 白富宽; 孙晋超; 肖新光
Original assignee: Beijing Antiy Network Technology Co Ltd
Current assignee: Beijing Antiy Network Technology Co Ltd
Priority date: 2023-09-04
Filing date: 2023-09-04
Publication date: 2023-12-08
Anticipated expiration: 2043-09-04
Also published as: CN116861428A

Abstract

本发明提供了一种基于关联文件的恶意检测方法、装置、设备及介质，涉及安全检测领域，该方法包括：获取待检测文件和每一目标关联文件进行的文件行为信息；确定待检测文件对应的目标行为向量和每一目标关联文件对应的关联行为向量；确定融合行为向量；将目标行为向量和融合行为向量、每一关联行为向量分别与融合行为向量输入至目标模型中，得到对应的目标文件标识和每一关联文件标识；若目标文件标识或关联文件标识为恶意文件标识，则将待检测文件或目标关联文件确定为恶意文件。本发明通过对待检测文件和目标关联文件的文件行为进行检测并结合，确定融合行为向量，判断待检测文件和目标关联文件是否为恶意文件，安全性得到提高。

Description

一种基于关联文件的恶意检测方法、装置、设备及介质

技术领域

本发明涉及安全检测领域，特别是涉及一种基于关联文件的恶意检测方法、装置、设备及介质。

背景技术

目前的恶意文件检测方法，是通过查看文件属性、数字签名、***检测等方式检测文件是否为恶意文件，通过检测文件属性来检测恶意文件的方法准确度较差，易出现误检测的情况，而通过***检测的方式来对文件进行恶意检测的方法，则是由于恶意文件的恶意类型种类较多，一般的***检测只能针对单类恶意类型或多类恶意类型的结合来进行恶意检测，具有局限性，且由于目前的恶意文件存在关联窃取信息的情况，即源文件通过生成关联文件，通过关联文件窃取信息。目前的安全检测方法在检测到源文件不具有恶意信息后，就对其进行放行，但源文件会不断生成关联文件窃取信息，导致***安全性较低。

发明内容

有鉴于此，本发明提供一种基于关联文件的恶意检测方法、装置、设备及介质，至少部分解决现有技术中存在的在对源文件放行后，源文件还会不断生成关联文件进行窃取信息导致***安全性较低的技术问题，本发明采用的技术方案为：

根据本申请的一个方面，提供一种基于关联文件的恶意检测方法，应用于文件检测***，所述基于关联文件的恶意检测方法包括如下步骤：

响应于接收到待检测文件，若在第一预设时间段内，检测到与待检测文件具有关联关系的若干目标关联文件，则获取待检测文件和每一目标关联文件在第一预设时间段内进行的若干文件行为信息；

根据若干文件行为信息，确定待检测文件对应的目标行为向量和每一目标关联文件对应的关联行为向量；

根据目标行为向量和每一关联行为向量，确定融合行为向量；

将目标行为向量和融合行为向量输入至目标模型中，得到对应的目标文件标识；目标模型为根据恶意样本文件的文件行为信息进行训练得到的；

若目标文件标识为恶意文件标识，则将待检测文件确定为恶意文件；

将每一关联行为向量分别与融合行为向量输入至目标模型中，得到对应的每一关联文件标识；

若关联文件标识为恶意文件标识，则将对应的目标关联文件确定为恶意文件。

在本申请的一种示例性实施例中，获取待检测文件和每一目标关联文件在第一预设时间段内进行的若干文件行为信息，包括：

在第一预设时间段T₁结束后，获取待检测文件进行的若干文件行为信息，得到第一文件行为信息集Q=(Q₁,Q₂,...,Q_i,...,Q_n)；其中，i=1,2,...,n；n为待检测文件在T₁内进行的文件行为信息的数量；Q_i为待检测文件在T₁内进行的第i个文件行为信息；T₁=[t₁₁,t₁₂]；t₁₁＜t₁₂；t₁₁为T₁对应的起始时间；t₁₂为T₁对应的截止时间；

若Q中包括关联行为信息，则将与关联行为信息对应的关联文件确定为目标关联文件；

获取若干个目标关联文件在T₁内进行的若干文件行为信息，得到第二文件行为信息集R=(R₁,R₂,...,R_g,...,R_h)；R_g=(R_g1,R_g2,...,R_gk,...,R_gf(g))；其中，g=1,2,...,h；k=1,2,...,f(g)；h为目标关联文件的数量；f(g)为第g个目标关联文件在T₁内进行的文件行为信息的数量；R_g为第g个目标关联文件对应的文件行为信息列表；R_gk为第g个目标关联文件在T₁内进行的第k个文件行为信息。

在本申请的一种示例性实施例中，目标行为向量和关联行为向量通过以下步骤确定：

根据b个目标恶意行为信息，得到第一预设行为特征向量E=(E₁,E₂,...,E_a,...,E_b)和h个第三预设行为特征向量M₁,M₂,...,M_g,...,M_h；M_g=(M_g1,M_g2,...,M_ga,...,M_gb)；其中，a=1,2,...,b；E_a为E中第a个目标恶意行为信息对应的行为特征；M_g为第g个目标关联文件对应的第三预设行为特征向量；M_ga为第g个目标关联文件的第a个目标恶意行为信息对应的行为特征；M_ga对应的目标恶意行为信息与E_a对应的目标恶意行为信息相同；

遍历E，若E_a对应的目标恶意行为信息存在于Q中，则将E_a确定为1；否则，将E_a确定为0；

将E确定为待检测文件对应的目标行为向量；

遍历M_g，若M_ga对应的目标恶意行为信息存在于R_g中，则将M_ga确定为1；否则，将M_ga确定为0；

将M_g确定为第g个目标关联文件对应的关联行为向量。

在本申请的一种示例性实施例中，目标恶意行为信息通过以下步骤确定：

获取m个恶意样本文件在第二预设时间段T₂=[t₂₁,t₂₂]内进行的若干文件行为信息，得到样本文件行为信息集F=(F₁,F₂,...,F_j,...,F_m)；F_j=(F_j1,F_j2,...,F_jd,...,F_jf(j))；其中，j=1,2,...,m；d=1,2,...,f(j)；f(j)为第j个恶意样本文件在T₂内进行的文件行为信息的数量；F_j为第j个恶意样本文件对应的文件行为信息列表；F_jd为第j个恶意样本文件在T₂内进行的第d个文件行为信息；t₂₁＜t₂₂＜t₁₁；(t₂₂-t₂₁)=(t₁₂-t₁₁)；t₂₁为T₂对应的起始时间；t₂₂为T₂对应的截止时间；

对F进行去重处理，得到b个目标恶意行为信息。

在本申请的一种示例性实施例中，融合行为向量通过以下步骤确定：

遍历E、M₁,M₂,...,M_g,...,M_h，若(E_a+∑^h _g=1M_ga)≥1，则将S_a确定为1；否则，将S_a确定为0；以得到融合行为向量S=(S₁,S₂,...,S_a,...,S_b)；其中，S_a为S中第a个目标恶意行为信息对应的行为特征；S_a对应的目标恶意行为信息与E_a对应的目标恶意行为信息相同。

在本申请的一种示例性实施例中，目标模型通过以下步骤确定：

根据F，得到m个第二预设行为特征向量G₁,G₂,...,G_j,...,G_m；G_j=(G_j1,G_j2,...,G_ja,...,G_jb)；其中，G_j为第j个恶意样本文件对应的第二预设行为特征向量；G_ja为第j个恶意样本文件的第a个目标恶意行为信息对应的行为特征；

遍历G_j，若G_ja对应的目标恶意行为信息存在于F_j中，则将G_ja确定为1；否则，将G_ja确定为0；

将G_j确定为第j个恶意样本文件的恶意行为向量；

获取m个恶意样本文件对应的恶意行为类型标识，得到恶意行为类型标识集H=(H₁,H₂,...,H_j,...,H_m)；其中，H_j为第j个恶意样本文件对应的恶意行为类型标识；

将对H进行去重处理后得到的e个恶意行为类型标识确定为恶意文件标识；

根据每一恶意文件标识，对m个恶意样本文件进行分组，确定D个恶意文件标识组；每一恶意文件标识组中的若干个恶意样本文件对应的恶意行为类型标识相同；

根据每一恶意文件标识组中的若干个恶意样本文件对应的恶意行为向量，得到每一恶意文件标识组对应的样本融合行为向量；

将G_j、第j个恶意样本文件所在的恶意文件标识组对应的样本融合行为向量、第j个恶意样本文件对应的恶意文件标识输入至预设模型中进行训练，得到目标模型。

在本申请的一种示例性实施例中，获取待检测文件和每一目标关联文件在第一预设时间段内进行的若干文件行为信息，还包括：

获取待检测文件和每一目标关联文件的若干文件特征；

对每一文件特征进行检测，得到对应的检测结果；

在若干个检测结果中，若存在表示对应的待检测文件或目标关联文件不为恶意文件的检测结果，则获取待检测文件和每一目标关联文件在第一预设时间段内进行的若干文件行为信息。

根据本申请的一个方面，提供一种基于关联文件的恶意检测装置，包括：

文件行为获取模块，用于在接收到待检测文件时，若在第一预设时间段内，检测到与待检测文件具有关联关系的若干目标关联文件，则获取待检测文件和每一目标关联文件在第一预设时间段内进行的若干文件行为信息；

第一向量确定模块，用于根据若干文件行为信息，确定待检测文件对应的目标行为向量和每一目标关联文件对应的关联行为向量；

第二向量确定模块，用于根据目标行为向量和每一关联行为向量，确定融合行为向量；

第一标识确定模块，用于将目标行为向量和融合行为向量输入至目标模型中，得到对应的目标文件标识；目标模型为根据恶意样本文件的文件行为信息进行训练得到的；

第一恶意判断模块，用于当目标文件标识为恶意文件标识时，将待检测文件确定为恶意文件；

第二标识确定模块，用于将每一关联行为向量分别与融合行为向量输入至目标模型中，得到对应的每一关联文件标识；

第二恶意判断模块，用于当关联文件标识为恶意文件标识时，将对应的目标关联文件确定为恶意文件。

根据本申请的一个方面，提供一种非瞬时性计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现前述的基于关联文件的恶意检测方法。

根据本申请的一个方面，提供一种电子设备，包括处理器和前述的非瞬时性计算机可读存储介质。

本发明至少具有以下有益效果：

本发明在检测到与待检测文件对应的目标关联文件后，根据待检测文件和目标关联文件的文件行为信息，确定待检测文件对应的目标行为向量和每一目标关联文件对应的关联行为向量，根据目标行为向量和每一关联行为向量，确定融合行为向量，再将目标行为向量和融合行为向量、每一关联行为向量分别与融合行为向量输入至目标模型中，得到对应的目标文件标识和每一关联文件标识，若目标文件标识或关联文件标识为恶意文件标识，则将待检测文件或对应的目标关联文件确定为恶意文件，通过对待检测文件和目标关联文件的文件行为进行检测并结合，确定融合行为向量，判断待检测文件和目标关联文件是否为恶意文件，安全性得到提高。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于关联文件的恶意检测方法的流程图；

图2为本发明实施例提供的目标行为向量和关联行为向量的确定方法的流程图；

图3为本发明实施例提供的目标模型的确定方法的流程图；

图4为本发明实施例提供的基于关联文件的恶意检测装置的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于关联文件的恶意检测方法，应用于文件检测***，文件检测***用于对待检测文件和目标关联文件进行恶意检测，检测待检测文件和目标关联文件是否为恶意文件。

如图1所示，所述基于关联文件的恶意检测方法包括如下步骤：

步骤S100、响应于接收到待检测文件，若在第一预设时间段内，检测到与待检测文件具有关联关系的若干目标关联文件，则获取待检测文件和每一目标关联文件在第一预设时间段内进行的若干文件行为信息；

待检测文件即文件检测***接收到的未经过恶意检测的文件。在文件检测***接收到待检测文件后，获取待检测文件的若干文件行为信息，通过检测待检测文件的文件行为信息，对待检测文件进行恶意检测，每一文件行为信息对应有一文件行为，文件行为包括自启动、生成注册表、扫描、加密、信息窃取等行为，待检测文件的文件行为包括正常文件行为和异常文件行为，异常文件行为即对用户信息或***信息进行窃取或盗用的行为，通过检测待检测文件在第一预设时间段内进行的所有文件行为，来综合判断待检测文件是否执行了恶意行为，继而判断其是否为恶意文件。

目标关联文件为与待检测文件具有关联关系的文件，关联关系为下载、释放、触发等关系，如待检测文件在T₁内执行了下载、释放、触发等行为，并生成了对应的下载文件、释放文件、触发文件，则将对应的生成的文件确定为目标关联文件，由于目前的恶意文件存在关联窃取信息的情况，如甲文件自身并未执行信息窃取等恶意行为，但在甲文件进入服务器***后，执行了下载行为，生成了对应的乙文件，而乙文件执行信息窃取的恶意行为，由于甲文件只执行了下载行为，而下载行为又非恶意行为，所以，以目前的安全检测方法无法对甲文件进行拦截或检测，目前的安全检测方法在检测到甲文件不具有恶意信息后，就对其进行放行，而不会对其后续生成的文件进行检测，所以，对待检测文件对应的目标关联文件也要进行相应的恶意检测。

进一步，步骤S100中，获取待检测文件和每一目标关联文件在第一预设时间段内进行的若干文件行为信息，包括：

步骤S110、在第一预设时间段T₁结束后，获取待检测文件进行的若干文件行为信息，得到第一文件行为信息集Q=(Q₁,Q₂,...,Q_i,...,Q_n)；其中，i=1,2,...,n；n为待检测文件在T₁内进行的文件行为信息的数量；Q_i为待检测文件在T₁内进行的第i个文件行为信息；T₁=[t₁₁,t₁₂]；t₁₁＜t₁₂；t₁₁为T₁对应的起始时间；t₁₂为T₁对应的截止时间；

第一预设时间段为文件检测***在接收到待检测文件之后的时间段，即t₁₁时刻可以为文件检测***接收到待检测文件的时刻，也可以为文件检测***设定的时刻，待检测文件可以在服务器***中进行行为监测，也可以将其置入沙箱中进行行为监测，若待检测文件的大小小于预设文件大小值，则表示其进行的行为类型较少，可以直接在服务器***中进行行为监测，若待检测文件的大小大于或等于预设文件大小值，则表示此待检测文件的可执行行为类型较多，为了安全起见，将待检测文件置于沙箱中，让待检测文件在沙箱中进行行为监测，即使待检测文件执行了恶意行为，也不会对服务器***造成危害，在沙箱中对待检测文件进行恶意检测，若其不为恶意文件，则将其从沙箱中移动至服务器***中，保证了服务器***的信息安全。

步骤S120、若Q中包括关联行为信息，则将与关联行为信息对应的关联文件确定为目标关联文件；

步骤S130、获取若干个目标关联文件在T₁内进行的若干文件行为信息，得到第二文件行为信息集R=(R₁,R₂,...,R_g,...,R_h)；R_g=(R_g1,R_g2,...,R_gk,...,R_gf(g))；其中，g=1,2,...,h；k=1,2,...,f(g)；h为目标关联文件的数量；f(g)为第g个目标关联文件在T₁内进行的文件行为信息的数量；R_g为第g个目标关联文件对应的文件行为信息列表；R_gk为第g个目标关联文件在T₁内进行的第k个文件行为信息。

待检测文件和目标关联文件对应有若干目标恶意行为信息，目标恶意行为信息为目前已知的或通过恶意样本文件进行采集的恶意行为对应的信息，恶意行为即异常文件行为。

步骤S200、根据若干文件行为信息，确定待检测文件对应的目标行为向量和每一目标关联文件对应的关联行为向量；

根据每一目标关联文件对应的文件行为信息，确定对应的关联行为向量，通过关联行为向量可得知对应的目标关联文件在T₁内执行的文件行为。

其中，如图2所示，目标行为向量和关联行为向量通过以下步骤确定：

步骤S210、根据b个目标恶意行为信息，得到第一预设行为特征向量E=(E₁,E₂,...,E_a,...,E_b)和h个第三预设行为特征向量M₁,M₂,...,M_g,...,M_h；M_g=(M_g1,M_g2,...,M_ga,...,M_gb)；其中，a=1,2,...,b；E_a为E中第a个目标恶意行为信息对应的行为特征；M_g为第g个目标关联文件对应的第三预设行为特征向量；M_ga为第g个目标关联文件的第a个目标恶意行为信息对应的行为特征；M_ga对应的目标恶意行为信息与E_a对应的目标恶意行为信息相同；

待检测文件对应有第一预设行为特征向量，每一目标关联文件对应有一个第三预设行为特征向量，第一预设行为特征向量和第三预设行为特征向量均为预设的特征向量，第一预设行为特征向量和每一第三预设行为特征向量包含的特征数量相同，且每一特征均对应有一个目标恶意行为信息，不同第三预设行为特征向量的同一个特征位置对应的目标恶意行为信息相同，如所有的第三预设行为特征向量和第一预设行为特征向量的第一个特征均表示同一个目标恶意行为信息，便于后续对向量的处理。

步骤S220、遍历E，若E_a对应的目标恶意行为信息存在于Q中，则将E_a确定为1；否则，将E_a确定为0；

目标行为向量通过检测待检测文件的文件行为中是否包含对应的目标恶意行为，若包含，则将第一预设行为特征向量中对应的行为特征确定为1，否则，将对应的行为特征确定为0。

步骤S230、将E确定为待检测文件对应的目标行为向量；

步骤S240、遍历M_g，若M_ga对应的目标恶意行为信息存在于R_g中，则将M_ga确定为1；否则，将M_ga确定为0；

在预设了h个第三预设行为特征向量后，将每一目标恶意行为信息与每一目标关联文件进行的文件行为进行比对，若目标关联文件进行的文件行为中包括目标恶意行为，如信息窃取行为，则将该目标关联文件对应的第三预设行为特征向量中的信息窃取行为对应的行为特征确定为1，反之，若目标关联文件进行的文件行为中不包括对应的目标恶意行为，则将其对应的行为特征确定为0。

步骤S250、将M_g确定为第g个目标关联文件对应的关联行为向量。

每一关联行为向量中，若行为特征为1，则表示对应的目标关联文件在T₁内执行了对应的目标恶意行为，若行为特征为0，则表示对应的目标关联文件在T₁内未执行对应的目标恶意行为，所以，通过查看每一关联行为向量，即可得知对应的目标关联文件是否执行了目标恶意行为。

其中，目标恶意行为信息通过以下步骤确定：

步骤S211、获取m个恶意样本文件在第二预设时间段T₂=[t₂₁,t₂₂]内进行的若干文件行为信息，得到样本文件行为信息集F=(F₁,F₂,...,F_j,...,F_m)；F_j=(F_j1,F_j2,...,F_jd,...,F_jf(j))；其中，j=1,2,...,m；d=1,2,...,f(j)；f(j)为第j个恶意样本文件在T₂内进行的文件行为信息的数量；F_j为第j个恶意样本文件对应的文件行为信息列表；F_jd为第j个恶意样本文件在T₂内进行的第d个文件行为信息；t₂₁＜t₂₂＜t₁₁；(t₂₂-t₂₁)=(t₁₂-t₁₁)；t₂₁为T₂对应的起始时间；t₂₂为T₂对应的截止时间；

每一目标恶意行为信息对应有一目标恶意行为，目标恶意行为通过恶意样本文件确定，恶意样本文件为已知的恶意文件，或统计的某个时段的恶意文件，或保存在服务器数据库中的历史恶意文件，获取m个恶意样本文件在T₂内进行的文件行为，T₂为历史时间段，由于存在不同恶意样本文件执行相同文件行为的情况，所以，要对得到的所有文件行为进行去重。

步骤S212、对F进行去重处理，得到b个目标恶意行为信息。

经过对所有恶意样本文件的文件行为去重后，得到b个文件行为，将此文件行为确定为目标恶意行为，其对应的信息即目标恶意行为信息。

步骤S300、根据目标行为向量和每一关联行为向量，确定融合行为向量；

融合行为向量为根据目标行为向量和所有关联行为向量得到的向量，表示待检测文件和目标关联文件共同执行的行为的向量，由于待检测文件或单个目标关联文件所执行的行为不为恶意行为，但其进行结合后的行为可能为恶意行为，所以，需要对目标行为向量和每一关联行为向量进行融合后得到的融合行为向量进行检测。

其中，融合行为向量通过以下步骤确定：

步骤S310、遍历E、M₁,M₂,...,M_g,...,M_h，若(E_a+∑^h _g=1M_ga)≥1，则将S_a确定为1；否则，将S_a确定为0；以得到融合行为向量S=(S₁,S₂,...,S_a,...,S_b)；其中，S_a为S中第a个目标恶意行为信息对应的行为特征；S_a对应的目标恶意行为信息与E_a对应的目标恶意行为信息相同。

由于目标行为向量和每一关联行为向量的同一位置的行为特征表示的文件行为相同，所以，对目标行为向量和每一关联行为向量的同一位置的行为特征进行相加，若其和大于等于1，则表示待检测文件或目标关联文件执行了该位置的行为特征对应的文件行为，将融合行为向量的该位置的行为特征确定为1，表示融合行为向量对应的融合文件执行了对应的文件行为；反之，若其和等于0，则表示待检测文件和所有目标关联文件均未执行该位置的行为特征对应的文件行为，则将融合行为向量的该位置的行为特征确定为0，表示融合行为向量对应的融合文件未执行对应的文件行为。

步骤S400、将目标行为向量和融合行为向量输入至目标模型中，得到对应的目标文件标识；目标模型为根据恶意样本文件的文件行为信息进行训练得到的；

目标模型为根据恶意样本文件的恶意行为进行训练得到的模型，将融合行为向量和目标行为向量输入目标模型中，目标模型输出对应的目标文件标识，通过验证目标文件标识，来确定待检测文件是否为恶意文件，目标文件标识表示攻击类型的恶意行为，融合行为向量对应的类型标识表示其攻击类型的标识，目标行为向量对应的标识表示其恶意行为的标识，通过目标文件标识，可以确定目标行为向量对应的待检测文件在与其目标关联文件中所做的行为类型和其结合后进行的攻击类型。

其中，如图3所示，目标模型通过以下步骤确定：

步骤S401、根据F，得到m个第二预设行为特征向量G₁,G₂,...,G_j,...,G_m；G_j=(G_j1,G_j2,...,G_ja,...,G_jb)；其中，G_j为第j个恶意样本文件对应的第二预设行为特征向量；G_ja为第j个恶意样本文件的第a个目标恶意行为信息对应的行为特征；

根据恶意样本文件进行的文件行为，预设每个恶意样本文件对应的第二预设行为特征向量。

步骤S402、遍历G_j，若G_ja对应的目标恶意行为信息存在于F_j中，则将G_ja确定为1；否则，将G_ja确定为0；

若恶意样本文件的文件行为中包括了目标恶意行为，则将其对应的第二预设行为特征向量中的行为特征确定为1，否则，确定为0。

步骤S403、将G_j确定为第j个恶意样本文件的恶意行为向量；

步骤S404、获取m个恶意样本文件对应的恶意行为类型标识，得到恶意行为类型标识集H=(H₁,H₂,...,H_j,...,H_m)；其中，H_j为第j个恶意样本文件对应的恶意行为类型标识；

每一恶意样本文件对应有一恶意行为类型标识，恶意行为类型标识表示对应的恶意样本文件进行的恶意行为类型的标识，恶意行为类型即恶意攻击类型，表示对应的恶意样本文件的攻击手段。

步骤S405、将对H进行去重处理后得到的e个恶意行为类型标识确定为恶意文件标识；

相应的，也可能存在不同的恶意样本文件的恶意行为类型标识相同的情况，就需对其进行去重，得到的恶意行为类型标识确定为恶意文件标识。

步骤S406、根据每一恶意文件标识，对m个恶意样本文件进行分组，确定D个恶意文件标识组；每一恶意文件标识组中的若干个恶意样本文件对应的恶意行为类型标识相同；

将若干个恶意样本文件根据恶意文件标识进行分组。

步骤S407、根据每一恶意文件标识组中的若干个恶意样本文件对应的恶意行为向量，得到每一恶意文件标识组对应的样本融合行为向量；

步骤S408、将G_j、第j个恶意样本文件所在的恶意文件标识组对应的样本融合行为向量、第j个恶意样本文件对应的恶意文件标识输入至预设模型中进行训练，得到目标模型。

步骤S500、若目标文件标识为恶意文件标识，则将待检测文件确定为恶意文件；

步骤S600、将每一关联行为向量分别与融合行为向量输入至目标模型中，得到对应的每一关联文件标识；

步骤S700、若关联文件标识为恶意文件标识，则将对应的目标关联文件确定为恶意文件。

关联文件标识的表示和目标文件标识的表示相同，均为对应的文件的攻击类型的恶意行为，通过所有关联文件标识，可以确定每个目标关联文件执行的恶意行为，以及通过关联文件标识和目标文件标识，可以确定其结合的若干文件的攻击类型。

此外，每个目标恶意行为信息对应有一行为监测策略，行为监测策略为文件检测***对待检测文件或目标关联文件的行为进行监测的方法，每一行为监测策略对应有若干个目标恶意行为信息，即每一行为监测策略对其对应的每个目标恶意行为进行监测。所以，在对待检测文件和目标关联文件进行恶意检测时，文件检测***还用于执行以下步骤：

步骤S131、通过每一行为监测策略，对待检测文件和目标关联文件对应的目标恶意行为信息进行监测；

步骤S132、若在当前T₁的t₁₂时刻，E、M₁,M₂,...,M_g,...,M_h中的N_p1,N_p2,...,N_py,...,N_pf(p)对应的行为特征均为1，则在下一T₁的t₁₁时刻，停止第p个行为监测策略对待检测文件和目标关联文件的行为监测。

在t₁₂时刻，若其中一个行为监测策略对应的所有目标恶意行为均检测到执行，即待检测文件和目标关联文件在T₁内，均执行了此行为监测策略对应的所有目标恶意行为，则表示该行为监测策略已经监测出了所有对应的目标恶意行为，为了降低***算力，节省***资源，则将该行为监测策略停掉。

进一步，第二实施例中，获取待检测文件和每一目标关联文件在第一预设时间段内进行的若干文件行为信息的步骤，还包括：

步骤S001、获取待检测文件和每一目标关联文件的若干文件特征；

文件特征包括待检测文件或目标关联文件的哈希值、文件结构信息、MD5值、文件代码特征等中的一个或多个的结合，通过对待检测文件或目标关联文件的文件特征的检测，判断待检测文件或目标关联文件是否为恶意文件。

步骤S002、对每一文件特征进行检测，得到对应的检测结果；

文件特征的检测为对待检测文件和目标关联文件的初步检测，由于文件特征的检测方法较为便捷，所以先对待检测文件和目标关联文件的文件特征进行检测，若通过文件特征进行检测后的待检测文件或目标关联文件为恶意文件，则无需进行后续的检测步骤，即可确定待检测文件或目标关联文件为恶意文件，简化了恶意检测的流程，若通过文件特征检测的待检测文件不为恶意文件，则表示待检测文件或目标关联文件的文件特征为正常特征，则继续进行后续的检测步骤。

进一步，步骤S002中，对每一文件特征进行检测，得到对应的检测结果，包括：

步骤S0021、将每一文件特征与其对应的预设异常特征进行比较，得到待检测文件对应的检测结果；

将待检测文件和目标关联文件的哈希值、文件结构信息、MD5值、文件代码特征与预设异常哈希值、预设异常文件结构信息、预设异常MD5值、预设异常文件代码特征进行比较，得到待检测文件和目标关联文件对应的检测结果。

步骤S0022、若任一文件特征与其对应的预设异常特征相同，则检测结果表示待检测文件为恶意文件；否则，检测结果表示待检测文件不为恶意文件。

若哈希值与预设异常哈希值相同、或文件结构信息与预设异常文件结构信息相同、或MD5值与预设异常MD5值相同、或文件代码特征与预设异常文件代码特征相同，则检测结果表示待检测文件为恶意文件；否则，检测结果表示待检测文件不为恶意文件。

由于异常的文件特征的数量比正常的文件特征的数量少，且易获取，所以，将待检测文件的文件特征与异常文件特征进行对比，得到对应的检测结果，异常的文件特征可以从服务器***的数据存储库中调取，也可以对恶意样本文件进行分析获得。

若待检测文件的其中一个文件特征与对应的异常文件特征相同，则表示该待检测文件为恶意文件，若待检测文件的所有文件特征均与对应的异常文件特征不同，则表示该待检测文件不为恶意文件，需要进行后续步骤再对待检测文件进行检测，进一步判断其是否为恶意文件。

步骤S003、在若干个检测结果中，若存在表示对应的待检测文件或目标关联文件不为恶意文件的检测结果，则获取待检测文件和每一目标关联文件在第一预设时间段内进行的若干文件行为信息；

若每一检测结果均表示对应的待检测文件或目标关联文件为恶意文件，则将待检测文件和每一目标关联文件确定为恶意文件。

在所有检测结果中，若存在不为恶意文件的检测结果，则表示其结合所产生的恶意行为和攻击类型可能存在误差，需要对待检测文件和目标关联文件进一步进行恶意检测；若所有检测结果均表示为恶意文件，则此时认为待检测文件和其对应的目标关联文件均为恶意文件。无需进行后续检测步骤。

进一步，第三实施例中，若存在表示对应的待检测文件或目标关联文件不为恶意文件的检测结果，则获取待检测文件和每一目标关联文件在第一预设时间段内进行的若干文件行为信息的步骤，还包括：

步骤S004、若任一检测结果表示对应的待检测文件或目标关联文件为恶意文件，则将待检测文件和目标关联文件移动至预设存储空间中，并获取待检测文件和每一目标关联文件在第一预设时间段内的预设存储空间中进行的若干文件行为信息。

此外，第三实施例中，若检测结果中表示对应的文件为恶意文件，则表示其具有恶意文件的可能性，为了保证服务器***的信息安全，将待检测文件和目标关联文件移动至预设存储空间中，将其与服务器***进行隔离，在预设存储空间中对待检测文件和目标关联文件进行恶意检测，当确定其为安全文件时，再将其从预设存储空间中移动至服务器***中。

一种基于关联文件的恶意检测装置100，如图4所示，包括：

文件行为获取模块110，用于在接收到待检测文件时，若在第一预设时间段内，检测到与待检测文件具有关联关系的若干目标关联文件，则获取待检测文件和每一目标关联文件在第一预设时间段内进行的若干文件行为信息；

第一向量确定模块120，用于根据若干文件行为信息，确定待检测文件对应的目标行为向量和每一目标关联文件对应的关联行为向量；

第二向量确定模块130，用于根据目标行为向量和每一关联行为向量，确定融合行为向量；

第一标识确定模块140，用于将目标行为向量和融合行为向量输入至目标模型中，得到对应的目标文件标识；目标模型为根据恶意样本文件的文件行为信息进行训练得到的；

第一恶意判断模块150，用于当目标文件标识为恶意文件标识时，将待检测文件确定为恶意文件；

第二标识确定模块160，用于将每一关联行为向量分别与融合行为向量输入至目标模型中，得到对应的每一关联文件标识；

第二恶意判断模块170，用于当关联文件标识为恶意文件标识时，将对应的目标关联文件确定为恶意文件。

本发明的实施例还提供一种计算机程序产品，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、移动终端、或者网络设备等）执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为***、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式（包括固件、微代码等），或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“***”。

根据本发明的这种实施方式的电子设备。电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于：上述至少一个处理器、上述至少一个储存器、连接不同***组件（包括储存器和处理器）的总线。

其中，所述储存器存储有程序代码，所述程序代码可以被所述处理器执行，使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

储存器可以包括易失性储存器形式的可读介质，例如随机存取储存器（RAM）和/或高速缓存储存器，还可以进一步包括只读储存器（ROM）。

储存器还可以包括具有一组（至少一个）程序模块的程序/实用工具，这样的程序模块包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线可以为表示几类总线结构中的一种或多种，包括储存器总线或者储存器控制器、***总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

电子设备也可以与一个或多个外部设备（例如键盘、指向设备、蓝牙设备等）通信，还可与一个或者多个使得用户能与该电子设备交互的设备通信，和/或与使得该电子设备能与一个或多个其它计算设备进行通信的任何设备（例如路由器、调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口进行。并且，电子设备还可以通过网络适配器与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器通过总线与电子设备的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、终端装置、或者网络设备等）执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于关联文件的恶意检测方法，其特征在于，应用于文件检测***，所述方法包括如下步骤：

响应于接收到待检测文件，若在第一预设时间段内，检测到与所述待检测文件具有关联关系的多个目标关联文件，则获取所述待检测文件和每一所述目标关联文件在第一预设时间段内进行的多个文件行为信息；所述文件行为信息对应有文件行为，所述文件行为是自启动、生成注册表、扫描、加密、信息窃取中的一个；

根据多个所述文件行为信息，确定所述待检测文件对应的目标行为向量和每一所述目标关联文件对应的关联行为向量；

根据所述目标行为向量和每一所述关联行为向量，确定融合行为向量；

将所述目标行为向量和所述融合行为向量输入至目标模型中，得到对应的目标文件标识；所述目标模型为根据恶意样本文件的文件行为信息进行训练得到的；

若所述目标文件标识为恶意文件标识，则将所述待检测文件确定为恶意文件；

将每一所述关联行为向量分别与所述融合行为向量输入至目标模型中，得到对应的每一关联文件标识；

若所述关联文件标识为恶意文件标识，则将对应的所述目标关联文件确定为恶意文件。

2.根据权利要求1所述的方法，其特征在于，所述获取所述待检测文件和每一所述目标关联文件在第一预设时间段内进行的多个文件行为信息，包括：

在第一预设时间段T₁结束后，获取所述待检测文件进行的多个文件行为信息，得到第一文件行为信息集Q=(Q₁,Q₂,...,Q_i,...,Q_n)；其中，i=1,2,...,n；n为所述待检测文件在T₁内进行的文件行为信息的数量；Q_i为所述待检测文件在T₁内进行的第i个文件行为信息；T₁=[t₁₁,t₁₂]；t₁₁＜t₁₂；t₁₁为T₁对应的起始时间；t₁₂为T₁对应的截止时间；

若Q中包括关联行为信息，则将与所述关联行为信息对应的关联文件确定为目标关联文件；

获取多个所述目标关联文件在T₁内进行的多个文件行为信息，得到第二文件行为信息集R=(R₁,R₂,...,R_g,...,R_h)；R_g=(R_g1,R_g2,...,R_gk,...,R_gf(g))；其中，g=1,2,...,h；k=1,2,...,f(g)；h为所述目标关联文件的数量；f(g)为第g个所述目标关联文件在T₁内进行的文件行为信息的数量；R_g为第g个所述目标关联文件对应的文件行为信息列表；R_gk为第g个所述目标关联文件在T₁内进行的第k个文件行为信息。

3.根据权利要求2所述的方法，其特征在于，所述目标行为向量和所述关联行为向量通过以下步骤确定：

根据b个目标恶意行为信息，得到第一预设行为特征向量E=(E₁,E₂,...,E_a,...,E_b)和h个第三预设行为特征向量M₁,M₂,...,M_g,...,M_h；M_g=(M_g1,M_g2,...,M_ga,...,M_gb)；其中，a=1,2,...,b；E_a为E中第a个目标恶意行为信息对应的行为特征；M_g为第g个所述目标关联文件对应的第三预设行为特征向量；M_ga为第g个所述目标关联文件的第a个目标恶意行为信息对应的行为特征；M_ga对应的目标恶意行为信息与E_a对应的目标恶意行为信息相同；

将E确定为所述待检测文件对应的目标行为向量；

将M_g确定为第g个所述目标关联文件对应的关联行为向量。

4.根据权利要求3所述的方法，其特征在于，所述目标恶意行为信息通过以下步骤确定：获取m个恶意样本文件在第二预设时间段T₂=[t₂₁,t₂₂]内进行的多个文件行为信息，得到样本文件行为信息集F=(F₁,F₂,...,F_j,...,F_m)；F_j=(F_j1,F_j2,...,F_jd,...,F_jf(j))；其中，j=1,2,...,m；d=1,2,...,f(j)；f(j)为第j个恶意样本文件在T₂内进行的文件行为信息的数量；F_j为第j个恶意样本文件对应的文件行为信息列表；F_jd为第j个恶意样本文件在T₂内进行的第d个文件行为信息；t₂₁＜t₂₂＜t₁₁；(t₂₂-t₂₁)=(t₁₂-t₁₁)；t₂₁为T₂对应的起始时间；t₂₂为T₂对应的截止时间；

对F进行去重处理，得到b个目标恶意行为信息。

5.根据权利要求4所述的方法，其特征在于，所述融合行为向量通过以下步骤确定：

6.根据权利要求4所述的方法，其特征在于，所述目标模型通过以下步骤确定：

将G_j确定为第j个所述恶意样本文件的恶意行为向量；

根据每一所述恶意文件标识，对m个恶意样本文件进行分组，确定D个恶意文件标识组；每一所述恶意文件标识组中的多个恶意样本文件对应的恶意行为类型标识相同；

根据每一所述恶意文件标识组中的多个恶意样本文件对应的恶意行为向量，得到每一所述恶意文件标识组对应的样本融合行为向量；

将G_j、第j个所述恶意样本文件所在的所述恶意文件标识组对应的样本融合行为向量、第j个所述恶意样本文件对应的恶意文件标识输入至预设模型中进行训练，得到目标模型。

7.根据权利要求1所述的方法，其特征在于，所述获取所述待检测文件和每一所述目标关联文件在第一预设时间段内进行的多个文件行为信息，还包括：

获取所述待检测文件和每一所述目标关联文件的多个文件特征；

对每一所述文件特征进行检测，得到对应的检测结果；

在多个所述检测结果中，若存在表示对应的所述待检测文件或所述目标关联文件不为恶意文件的检测结果，则获取所述待检测文件和每一所述目标关联文件在第一预设时间段内进行的多个文件行为信息。

8.一种基于关联文件的恶意检测装置，其特征在于，包括：

文件行为获取模块，用于在接收到待检测文件时，若在第一预设时间段内，检测到与待检测文件具有关联关系的多个目标关联文件，则获取待检测文件和每一目标关联文件在第一预设时间段内进行的多个文件行为信息；文件行为信息对应有文件行为，所述文件行为是自启动、生成注册表、扫描、加密、信息窃取中的一个；

第一向量确定模块，用于根据多个文件行为信息，确定待检测文件对应的目标行为向量和每一目标关联文件对应的关联行为向量；

9.一种非瞬时性计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，其特征在于，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-7中任意一项所述的方法。

10.一种电子设备，其特征在于，包括处理器和权利要求9中所述的非瞬时性计算机可读存储介质。