CN113987502A

CN113987502A - 目标程序检测方法、设备及存储介质

Info

Publication number: CN113987502A
Application number: CN202111629126.1A
Authority: CN
Inventors: 王晓晨
Original assignee: Alibaba Cloud Computing Ltd
Current assignee: Alibaba Cloud Computing Ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-01-28

Abstract

本申请实施例提供一种目标程序检测方法、设备及存储介质。对待检测的目标程序进行静态特征分析，可得到目标程序的静态特征；将目标程序的静态特征与至少一个程序类别各自的静态特征进行相似度计算，得到目标程序与至少一个程序类别各自的相似度。若目标程序与任一目标程序类别的相似度大于设定阈值，则确定目标程序属于目标程序类别。在这种实施方式中，通过目标程序的静态特征实现程序检测，在目标程序尚未运行的情况下也可对目标程序进行检测，降低了对目标应用程序所在***的依赖，有利于扩展到多种不同的操作***，提升程序检测方法的泛化能力；同时，可避免目标程序运行后对***造成的潜在破坏，降低了***的安全风险。

Description

目标程序检测方法、设备及存储介质

技术领域

本申请涉及安全技术领域，尤其涉及一种目标程序检测方法、设备及存储介质。

背景技术

恶意程序，例如rootkit通常在在其入侵设备上深层植入，并隐藏其他恶意代码。例如，当入侵到云主机上时，rootkit通常帮助其他恶意程序模块实现模块、文件、端口、进程隐藏等行为，从而影响云主机的安全性。

现有技术中，常用的rootkit检测方法多以动态检测为主。在动态检测方式中，通过检测操作***重要数据结构是否被篡改来检测***中已加载的rootkit。但是这种方式过于依赖于操作***版本和编译器优化选项，泛化能力以及拓展性较差。因此，有待提出一种新的解决方案。

发明内容

本申请的多个方面提供一种目标程序检测方法、设备及存储介质，用以提供一种泛化能力以及拓展性较强的目标程序检测方法。

本申请实施例提供一种目标程序检测方法，包括：获取待检测的目标程序；对所述目标程序进行静态特征分析，得到所述目标程序的静态特征；将所述目标程序的静态特征与至少一个程序类别各自的静态特征进行相似度计算，得到所述目标程序与所述至少一个程序类别各自的相似度；若所述目标程序与所述至少一个程序类别中的任一目标程序类别的相似度大于设定的第一阈值，则确定所述目标程序属于所述目标程序类别。

进一步可选地，对所述目标程序进行静态特征分析，得到所述目标程序的静态特征，包括以下至少一种：提取所述目标程序的变量名中的字符串和/或函数中引用的字符串特征；提取所述目标程序中的函数对应的函数名特征；提取所述目标程序的源文件名特征。

进一步可选地，所述至少一个程序类别中，任一程序类别包括至少一个聚类中心样本；将所述目标程序的静态特征与至少一个程序类别各自的静态特征进行相似度计算，得到所述目标程序与所述至少一个程序类别各自的相似度，包括：针对所述程序类别，将所述目标程序的静态特征与所述程序类别中的至少一个聚类中心样本各自的静态特征进行相似度计算，分别得到与所述至少一个聚类中心样本的相似度；从与所述至少一个聚类中心样本的相似度中，选取最大值作为所述目标程序与所述程序类别的相似度。

进一步可选地，所述至少一个聚类中心样本中，任一聚类中心样本包括至少一种静态特征；将所述目标程序的静态特征与所述程序类别中的至少一个聚类中心样本各自的静态特征进行相似度计算，分别得到与所述至少一个聚类中心样本的相似度，包括：按照静态特征的种类对应关系，分别计算所述目标程序的静态特征与所述聚类中心样本的至少一种静态特征分的相似度；对与所述至少一种静态特征的相似度进行加权计算，得到所述目标程序与所述聚类中心样本的相似度。

进一步可选地，对与所述至少一种静态特征的相似度进行加权计算的过程中，设置函数名特征对应的相似度的加权权重以及源文件名特征对应的相似度的加权权重，大于字符串特征对应的相似度的权重。

进一步可选地，所述方法还包括：若所述目标程序与所述至少一个程序类别中的任一目标程序类别的相似度小于或等于所述第一阈值，且大于设定的第二阈值，则确定所述目标程序为疑似恶意程序；根据所述目标程序的静态特征，将所述目标程序与所述至少一个程序类别中的样本进行重新聚类，以确定所述目标程序所属的类别。

进一步可选地，还包括：获取程序样本集，所述程序样本集中的程序样本，包括：恶意程序样本、具有释放恶意程序的行为的程序样本以及被其他程序释放的恶意程序样本中的至少一种；对所述程序样本集中的程序样本进行静态特征分析，分别得到所述程序样本的静态特征；根据所述静态特征，对所述程序样本集中的程序样本进行聚类处理，得到至少一个程序类别；根据所述至少一个程序类别中的程序样本的静态特征，确定所述至少一个程序类别各自的静态特征。

进一步可选地，根据所述至少一个程序类别中的程序样本的静态特征，确定所述至少一个程序类别各自的静态特征，包括：针对所述至少一个程序类别中的任一程序类别，根据所述程序类别中的任意两个程序样本的静态特征，计算所述任意两个程序样本的相似度；根据所述任意两个样本的相似度，从所述程序类别中确定与所述程序类别中的其他程序样本的平均相似度大于设定的第三阈值的程序样本作为所述程序类别对应的第一聚类中心样本；和/或，将所述程序类别中与所述第一聚类中心样本的相似度小于设定的第四阈值的程序样本，作为所述程序类别对应的第二聚类中心样本，所述第三阈值大于所述第四阈值；将所述程序类别对应的所述第一聚类中心样本和/或所述第二聚类中心样本的静态特征，作为所述程序类别对应的静态特征。

进一步可选地，确定所述目标程序属于所述目标程序类别之后，还包括：输出所述目标程序属于所述目标程序类别的提示消息，并展示至少一个处理策略；响应对所述至少一个处理策略的选择操作，根据被选择的处理策略对所述目标程序进行清除处理。

进一步可选地，确定所述目标程序属于所述目标程序类别之后，还包括：按照所述目标程序类别对应的处理策略，限制所述目标程序运行；和/或，拦截所述目标程序发送的指令。

本申请实施例还提供一种电子设备，包括：存储器和处理器；所述存储器用于存储一条或多条计算机指令；所述处理器用于执行所述一条或多条计算机指令以用于：执行本申请实施例提供的方法中的步骤。

本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被处理器执行时能够实现本申请实施例提供的方法中的步骤。

本申请实施例中，对待检测的目标程序进行静态特征分析，可得到目标程序的静态特征；将所述目标程序的静态特征与至少一个程序类别各自的静态特征进行相似度计算，得到所述目标程序与所述至少一个程序类别各自的相似度。若所述目标程序与所述至少一个程序类别中的任一目标程序类别的相似度大于设定的第一阈值，则确定所述目标程序属于所述目标程序类别。在这种实施方式中，通过目标程序的静态特征以及至少一个程序类别的静态特征实现程序检测，在目标程序尚未运行的情况下也可对目标程序进行检测，降低了对目标应用程序所在***的依赖，有利于扩展到多种不同的操作***，提升程序检测方法的泛化能力；同时，可避免目标程序运行后对***造成的潜在破坏，降低了***的安全风险。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请一示例性实施例提供的目标程序检测方法的流程示意图；

图2为本申请一示例性实施例提供的目标程序检测方法的架构示意图；

图3为本申请一示例性实施例提供的目标程序检测方法的组合策略比较示意图；

图4为本申请一示例性实施例提供的服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

现有技术中，常用的rootkit检测方法多以动态检测为主。在动态检测方式中，通过检测操作***重要数据结构是否被篡改来检测***中已加载的rootkit。但是这种方式过于依赖于操作***版本和编译器优化选项，泛化能力以及拓展性较差。

针对上述技术问题，在本申请一些实施例中，提供了一种解决方案，以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本申请一示例性实施例提供的目标程序检测方法的流程示意图，如图1所示，该方法包括：

步骤101、获取待检测的目标程序。

步骤102、对该目标程序进行静态特征分析，得到该目标程序的静态特征。

步骤103、将该目标程序的静态特征与至少一个程序类别各自的静态特征进行相似度计算，得到该目标程序与该至少一个程序类别各自的相似度。

步骤104、若该目标程序与该至少一个程序类别中的任一目标程序类别的相似度大于设定的第一阈值，则确定该目标程序属于该目标程序类别。

本实施例可由电子设备实现，该电子设备可实现为可运行程序的终端设备、服务器、路由器等设备。当实现为服务器时，该服务器可为云服务器、云主机、虚拟主机等，本实施例不做限制。电子设备上可运行有用于对目标程序进行检测的检测程序，电子设备可基于该检测程序中的计算机指令，对电子设备上的目标程序进行检测。

其中，目标程序可以是保存在电子设备上、但尚未运行的待检测的程序，也可以是已在电子设备上运行的待检测的程序，本实施例不做限制。通常，目标程序为恶意程序，恶意程序入侵电子设备时，将导致电子设备存在一定的安全威胁。

其中，目标程序的静态特征，可从目标程序的二进制文件中获取。该静态特征不依赖于目标程序的运行过程，可在目标程序未运行的情况下进行检测，因而对目标程序所在的操作***的依赖性较小，可在多种不同的操作***中进行程序检测。

目标程序实现为恶意程序（例如rootkit、木马程序、勒索程序、病毒软件等）时，目标程序可帮助其他恶意程序模块、文件、端口、进程等隐藏行为，从而威胁设备安全。基于此，在本实施例中，可从恶意程序的二进制文件中提取能够反映其执行后的动态行为的特征，作为静态特征。通常，恶意程序的行为，由恶意程序中的变量、函数、调用关系、调试信息实现。因此，可提取恶意程序的二进制文件中的上述信息，从而辅助判断目标程序是否为恶意程序。

在一些可选的实施例中，电子设备在对目标程序进行静态特征分析，得到目标程序的静态特征时，可执行以下至少一种实施方式：

实施方式A1、提取该目标程序的字符串特征。

其中，字符串特征包括：变量名中的字符串以及函数中引用的字符串特征中的至少一种。例如，对rootkit而言，Reptile家族中的rootkit中都具有“reptile”字符串。某一类恶意程序在执行过程中释放的rootkit的二进制文件中包含家族名“adore-ng”字符串。

值得说明的是，在提取字符串特征时，为防止被无引用意义的字符串干扰，可预先对目标程序进行噪声过滤，以过滤掉无引用意义的字符串。例如，可过滤掉.data段中没有数据交叉引用的字符串。

实施方式A2、提取该目标程序中的函数对应的函数名特征。

以目标程序实现为rootkit为例，rootkit在在实现隐藏文件、隐藏端口等功能时，在自定义函数上具有命名特征。例如，实现文件隐藏功能的函数通常命名为“proc_filldir”；又例如，实现隐藏端口功能的函数通常命名为“tcp4_seq_show”、“tcp6_seq_show”等。基于此，可从目标程序中提取函数名特征，以辅助判断目标程序是否为恶意程序。

实施方式A3、提取该目标程序的源文件名特征。

以目标程序实现为rootkit为例，部分rootkit的二进制文件中携带调试信息，例如adore-ng家族的rootkit携带有“adore-ng.c”、"adore-ng.mod.c"等调试信息。该调试信息为目标程序编译前的信息，包含目标程序的源文件名。例如，可对携带调试信息的.debug_info section进行遍历，得到目标程序的源文件名。可选地，为提取完备的源文件名，还可对对目标程序的二进制文件的结构进行深入分析，以在其他结构部分（例如.strtab section）中提取到源文件名特征。

上述实施方式A1、A2以及A3可单独执行也可任意组合执行，本实施例做限制。

在基于上述实施方式获取到目标程序的静态特征后，可将目标程序的静态特征与至少一个程序类别各自的静态特征进行相似度计算，得到该目标程序与该至少一个程序类别各自的相似度。

其中，至少一个程序类别，可以是预先对大量的恶意程序样本进行类别分析得到的恶意程序类别，通常，不同程序类别对应恶意程序的不同家族。该至少一个程序类别可通过对样本进行聚类分析得到，具体将在后续的实施例中进行介绍，此处不赘述。其中，任意一种程序类别可对应一种或者多种静态特征，该静态特征可以是从该程序类别中的程序样本中提取到的。

计算得到目标程序与该至少一个程序类别各自的近似度后，若目标程序与该至少一个程序类别中的任一目标程序类别的相似度大于设定的第一阈值，则可确定该目标程序属于该目标程序类别。其中，在计算得到目标程序与该至少一个程序类别各自的近似度后，可对应得到至少一个相似度。可从该至少一个相似度中选取最大值对应的程序类别，作为目标程序类别。其中，第一阈值可以是经验值，例如可以为80%、75%或者90%，本实施例对此不做限定。在本实施例中，采用“第一”对阈值进行限定，仅用于方便与后续提及的阈值进行区分，并不对其数值范围构成限制。

在一些实施例中，在确定目标程序属于目标程序类别后，电子设备可输出提示消息，以使用户对目标程序进行清除处理。可选地，电子设备可输出目标程序属于目标程序类别的提示消息，并展示至少一个处理策略；响应对该至少一个处理策略的选择操作，根据被选择的处理策略对该目标程序进行清除处理。其中，该至少一个处理策略可包括以下至少一种：卸载目标应用程序、采用工具粉碎目标应用程序的相关文件以及将目标应用程序加入黑名单。本实施例不做限制。

可选地，确定目标程序属于所述目标程序类别之后，电子设备可根据目标程序类别对应的处理策略（例如预设的恶意程序处理策略）限制目标程序运行，和/或拦截目标程序发送的指令，不再赘述。

本实施例中，对待检测的目标程序进行静态特征分析，可得到目标程序的静态特征；将该目标程序的静态特征与至少一个程序类别各自的静态特征进行相似度计算，得到该目标程序与该至少一个程序类别各自的相似度。若该目标程序与该至少一个程序类别中的任一目标程序类别的相似度大于设定的第一阈值，则确定该目标程序属于该目标程序类别。在这种实施方式中，通过目标程序的静态特征以及至少一个程序类别的静态特征实现程序检测，在目标程序尚未运行的情况下也可对目标程序进行检测，降低了对目标应用程序所在***的依赖，有利于扩展到多种不同的操作***，提升程序检测方法的泛化能力；同时，可避免目标程序运行后对***造成的潜在破坏，降低了***的安全风险。

在一些示例性的实施例中，该至少一个程序类别中，任一程序类别包括至少一个聚类中心样本。其中，聚类中心样本，指的是任一程序类别中被当作聚类中心的程序样本，该聚类中心样本可用于代表其所属的程序类别的整体特征。

相应地，电子设备在将该目标程序的静态特征与至少一个程序类别各自的静态特征进行相似度计算时，可将目标程序的静态特征与每一程序类别中的聚类中心样本的静态特征进行相似度计算，从而得到该目标程序与每一程序类别各自的相似度以下将以至少一个程序类别中的任一程序类别为例进行示例性说明。

可选地，针对任一程序类别，可确定该程序类别包含的至少一个聚类中心样本，并将目标程序的静态特征与该程序类别中的至少一个聚类中心样本各自的静态特征进行相似度计算，分别得到与该述至少一个聚类中心样本的相似度。例如，假设，存在目标程序A，某一程序类别B包含聚类中心样本B1、聚类中心样本B2以及聚类中心样本B3。可分别计算目标程序A的静态特征与聚类中心样本B1的静态特征的相似度，得到相似度S1(A，B1)、计算目标程序A的静态特征与聚类中心样本B的静态特征的相似度，得到相似度S2(A，B2)、计算目标程序A的静态特征与聚类中心样本B2的静态特征的相似度，得到相似度S3(A，B3)。

确定目标程序与该述至少一个聚类中心样本的相似度后，可从与该至少一个聚类中心样本的相似度中，选取最大值作为该目标程序与该程序类别的相似度。例如，继续沿用上述例子，可S1(A，B1)、S2(A，B2) 以及S3(A，B3)中选取最大值，作为目标程序A与程序类别B的相似度。

基于上述方法，可计算出目标程序与每一程序类别的相似度，并根据预设的第一阈值判断目标程序属于何种程序类别，不再赘述。

在一些示例性的实施例中，该至少一个聚类中心样本中，任一聚类中心样本包括至少一种静态特征。该至少一种静态特征，可通过上述实施方式A1、A2以及A3中的至少一种计算得到。

相应地，将该目标程序的静态特征与该程序类别中的至少一个聚类中心样本各自的静态特征进行相似度计算时，可根据每一聚类中心样本的静态特征的存在情况，将目标程序的静态特征与聚类中心样本具有的静态特征进行相似度计算。以任一聚类中心样本为例，可选地，可按照静态特征的种类对应关系，分别计算该目标程序的静态特征与该聚类中心样本的至少一种静态特征分的相似度。例如，目标程序包含的静态特征为：字符串特征C1、函数名特征D1、源文件名特征E1。若某一聚类中心样本X2包括：字符串特征C2、函数名特征D2，则可计算字符串特征C1与字符串特征C2的相似度S(C1, C2)，并计算函数名特征D1与函数名特征D2的相似度S(D1, D2)。若另一聚类中心样本X3包括：函数名特征D3、源文件名特征E3，则可计算计算函数名特征D1与函数名特征D3的相似度S(D1, D3)，并计算源文件名特征E1与源文件名特征E3之间的相似度S(E1, E3)。

确定该目标程序的静态特征与该聚类中心样本的至少一种静态特征分的相似度后，可对与该至少一种静态特征的相似度进行加权计算，得到该目标程序与该聚类中心样本的相似度。例如，继续沿用上述例子进行说明。目标程序与聚类中心样本X2的相似度可表示为：S= w1*S(C1, C2)+ w2*S(D1, D2)，其中，w1、w2为加权系数，为经验值，可根据需求进行设置。目标程序与聚类中心样本X3的相似度可表示为：S= w3* S(D1, D3)+ w4* S(E1,E3)，其中，w3、w4为加权系数，为经验值，可根据需求进行设置。

可选地，在一些实施例中，通过分析大量恶意程序的行为可知，程序的函数名以及源文件名更能反映其是否为恶意程序以及所属的恶意程序的类别。即，恶意程序的函数名以及源文件名对识别出恶意程序做出的贡献较大，因此，在对与该至少一种静态特征的相似度进行加权计算时，函数名特征对应的相似度的加权权重以及源文件名特征对应的相似度的加权权重，大于字符串特征对应的相似度的权重。基于这种实施方式，适当增大贡献度大的静态特征的加权权重，可更加准确地根据静态特征实际反映的程序行为识别出恶意程序。

可选地，在本实施例中，计算相似度时，可采用基于Jaccard系数的计算方法、基于余弦相似度的计算方法、基于欧式距离的计算方法以及基于曼哈顿距离的计算方法中的至少一种，本实施例不做限制。沿用上述例子，采用基于Jaccard系数的计算方法计算字符串特征C1与字符串特征C2的相似度S(C1, C2)时，计算过程可通过以下公式表达：

其中，Jaccard系数越大，则相似度越高。

基于上述实施方式，可计算得到目标程序与每一聚类中心样本的相似度，从而根据与每一聚类中心样本的相似度，计算与聚类中心样本所属的程序类别的相似度，不再赘述。

值得说明的是，在上述各实施例的基础上，本实施例提供的目标程序检测方法还可在检测的过程中动态地扩充聚类样本，并发现变体样本。以下将进行示例性说明。

在前述实施例的记载中，若目标程序与该至少一个程序类别中的任一目标程序类别的相似度大于设定的第一阈值，则确定该目标程序属于该目标程序类别。在这种实施方式中，目标程序与目标程序类别的相似度，通常是从目标程序与该至少一个程序类别的相似度中选择出的最大值。若该最大值大于第一阈值，则确定目标程序属于目标程序类别。反之，若该目标程序与目标程序类别的相似度小于或等于该第一阈值，且大于设定的第二阈值，则确定该目标程序为疑似恶意程序。其中，该第二阈值为小于第一阈值的较大值。即，目标程序与目标程序类别的相似度未达到第一阈值，但相似度较高时，可将目标程序视为疑似恶意程序，并进行进一步分析。

在这种情况下，可认为随着时间演变，目标程序类别中出现了变体样本，为不断更新目标程序检测算法，可将变体样本加入聚类分析，以扩充聚类样本。可选地，可根据目标程序的静态特征，将该目标程序与该至少一个程序类别中的样本进行重新聚类，以确定该目标程序所属的类别。在重新聚类后，存在根据该目标程序聚类出新的程序类别，并将该目标程序作为新的程序类别的聚类中心样本的情况。在重新聚类后，也存在将目标程序聚类到已有程序类别中，并将目标程序作为该已有程序类别中的新的聚类中心样本的情况，不再赘述。

上述基于待检测的目标程序进行重新聚类的操作，可定期执行，也可在每次检测相似度大于第二阈值且小于或等于第一阈值的目标程序时执行，本实施例不做限制。基于这种实施方式，可动态地在检测过程中发现变体样本，有利于不断更新检测算法并在后续的检测过程中及时发现变体的恶意程序，避免漏检漏判。

上述各实施例记载了基于至少一种程序类别各自的静态特征进行目标程序检测的实施方式，以下将对该至少一种程序类别的静态特征的获取方式进行进一步示例性说明。

可选地，可预先收集程序样本集。该程序样本集中的程序样本，包括：恶意程序样本、具有释放恶意程序的行为的程序样本以及被其他程序释放的恶意程序样本中的至少一种，本实施例不做限制。获取到程序样本集后，可对该程序样本集中的程序样本进行静态特征分析，分别得到该程序样本的静态特征。其中，静态特征分析的具体实施方式可参考前述实施例的记载，此处不赘述。根据该静态特征，可对该程序样本集中的程序样本进行聚类处理，得到至少一个程序类别，例如adore-ng类别以及Reptile类别。根据该至少一个程序类别中的程序样本的静态特征，可确定该至少一个程序类别各自的静态特征。可选地，根据该至少一个程序类别中的程序样本的静态特征，确定该至少一个程序类别各自的静态特征，包括：针对该至少一个程序类别中的任一程序类别，根据该程序类别中的任意两个程序样本的静态特征，计算该任意两个程序样本的相似度；根据该任意两个样本的相似度，从该程序类别中确定与该程序类别中的其他程序样本的平均相似度大于设定的第三阈值的程序样本作为该程序类别对应的第一聚类中心样本。其中，第一聚类中心样本可包括一个或者多个程序样本。

可选地，若该程序类别中存在与该第一聚类中心样本的相似度小于设定的第四阈值的程序样本，则将该与该第一聚类中心样本的相似度小于设定的第四阈值的程序样本作为该程序类别对应的第二聚类中心样本，该第三阈值大于该第四阈值。其中，第二聚类中心样本可包括一个或者多个程序样本。

当某一程序样本与其所在的类别中的聚类中心样本的相似度低于某一经验阈值时，可认为该程序样本与聚类中心样本属于同一类中的不同家族，因此，可将与聚类中心样本的相似度低于某一经验阈值(即第四阈值)的程序样本作为另一聚类中心样本。确定程序类别的聚类中心样本后，可将该程序类别对应的该第一聚类中心样本和/或该第二聚类中心样本的静态特征，作为该程序类别对应的静态特征也即是说，将于其他程序样本平均相似度最大的程序样本作为聚类中心样本。

在上述实施方式中，可在每一程序类别中进行多次聚类中心样本的选取，从而生成每一程序类别对应的中心样本列表，该中心样本列表中的样本的静态特征，可覆盖同一类别中的多数样本的静态特征，从而提升检测效率。

以下将结合图2以及图3，对上述各实施例进行进一步示例性说明。

如图2所示，本申请实施例提供的用于检测rootkit的方法，主要由预处理模块201、静态特征提取模块202、rootkit聚类模块203、组合策略比较模块204等模块实现。

其中，预处理模块201主要用于，对输入的程序样本进行类型检测。其中，该类型检测，用于识别程序样本应用在何种操作***中，例如，可检测程序样本为pe类型的文件或者为elf类型的文件。其中，pe类型的文件是Windows操作***中的文件，elf类型的文件是Linux操作***中的文件。本实施例可用于检测不同操作***中的恶意程序。在一些实施例中，不同类型的文件的结构不同，静态特征的存放位置可能不同，因此，提取静态特征时，可根据程序样本的类型确定程序样本中的静态特征的存放位置，从而准确地提取到静态特征。预处理模块还可用于对加壳样本进行upx（一种可执行文件压缩器）脱壳处理，以便于准确地提取该程序的静态特征。

其中，静态特征提取模块202主要用于对样本进行静态分析，提取得到的静态特征如图2所示，包括字符串特征、函数名特征、源文件名特征等。

其中，如图2所示，rootkit聚类模块203用于执行已知样本聚类操作以及聚类中心样本选取操作。其中，已知样本聚类时，可通过已知样本静态特征进行聚类，也采用其他的方式对已知样本进行聚类，得到多个程序类别，并最终形成rootkit聚类样本库。

中心样本是最能表征其所属的类别中的rootkit行为的样本。为了提高检测效率，在选取聚类中心样本时，可对每一程序类别中的rootkit样本通过静态特征提取和相似度比较模块，计算每个样本与其他样本的平均相似度，并选取与其他样本平均相似度最大的样本作为聚类中心样本。同时，当存在某一个或者多个样本与聚类中心样本的相似度低于设定的经验阈值时，可将该样本加入到其所属的程序类别的中心样本列表中。为提高检测效率同时尽可能覆盖一类中多数样本的特征，可每一类别中进行多次中心样本选取操作，以生成如图3所示的中心样本列表。

其中，组合策略比较模块204主要用于在接收到待检测的新样本时，结合新样本的静态特征以及聚类库中的样本的静态特征，输出新样本的检测结果。如图3所示，组合策略比较模块分别用于执行单特征相似度计算、加权相似度比较、分类决策等操作。

其中，执行单特征相似度计算操作时，可对静态特征提取模块从任新样本与任一聚类中心样本中提取的常规字符串、函数名、源文件名分别计算相似度。例如，计算新样本与聚类中心样本之间的字符串特征的相似度、计算新样本与聚类中心样本之间的函数名特征的相似度、计算新样本与聚类中心样本之间的源文件名特征的相似度。

在执行加权相似度计算时，可按照多个单特征相似度对应的加权权重，将多个单特征相似度进行加权计算。其中，函数名特征的权重以及源文件名特征的权重大于字符串特征的权重。

如图3所示，通过rootkit聚类模块203获取的每一程序类别的中心样本列表，在每一程序类别中，可将新样本与中心样本列表中的每一聚类中心样本进行加权相似度计算，并在每一程序类别中取最大相似度作为该新样本与这一程序类别的加权相似度。分别计算得到新样本与多个程序类别的加权相似度后，可从多个加权相似度中选取最大相似度。若该最大相似度大于设定的第一阈值，则确定该新样本为最大相似度对应的程序类别中的rootkit样本，否则为正常样本。确定类别后，组合策略比较模块可输出分类决策结果、计算得到的加权相似度以及与rootkit聚类样本库最相似的rootkit程序类别的名称以供查看。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤101至步骤104的执行主体可以为设备a；又比如，步骤101和102的执行主体可以为设备a，步骤103的执行主体可以为设备b；等等。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。

需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

图4是本申请一示例性实施例提供的电子设备的结构示意图，该电子设备可用于执行前述实施例记载的目标程序检测方法。如图4所示，该电子设备包括：存储器401以及处理器402。

存储器401，用于存储计算机程序，并可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

其中，存储器401可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。

在一些实施例中，处理器402与存储器401耦合，用于执行存储器401中的计算机程序，以用于：获取待检测的目标程序；对该目标程序进行静态特征分析，得到该目标程序的静态特征；将该目标程序的静态特征与至少一个程序类别各自的静态特征进行相似度计算，得到该目标程序与该至少一个程序类别各自的相似度；若该目标程序与该至少一个程序类别中的任一目标程序类别的相似度大于设定的第一阈值，则确定该目标程序属于该目标程序类别。

进一步可选地，处理器402在对该目标程序进行静态特征分析，得到该目标程序的静态特征时，具体用于执行以下至少一种操作：提取该目标程序的变量名中的字符串和/或函数中引用的字符串特征；提取该目标程序中的函数对应的函数名特征；提取该目标程序的源文件名特征。

进一步可选地，该至少一个程序类别中，任一程序类别包括至少一个聚类中心样本；相应地，处理器402在将该目标程序的静态特征与至少一个程序类别各自的静态特征进行相似度计算，得到该目标程序与该至少一个程序类别各自的相似度时，具体用于：针对该程序类别，将该目标程序的静态特征与该程序类别中的至少一个聚类中心样本各自的静态特征进行相似度计算，分别得到与该至少一个聚类中心样本的相似度；从与该至少一个聚类中心样本的相似度中，选取最大值作为该目标程序与该程序类别的相似度。

进一步可选地，该至少一个聚类中心样本中，任一聚类中心样本包括至少一种静态特征；相应地，处理器402在将该目标程序的静态特征与该程序类别中的至少一个聚类中心样本各自的静态特征进行相似度计算，分别得到与该至少一个聚类中心样本的相似度时，具体用于：按照静态特征的种类对应关系，分别计算该目标程序的静态特征与该聚类中心样本的至少一种静态特征分的相似度；对与该至少一种静态特征的相似度进行加权计算，得到该目标程序与该聚类中心样本的相似度。

进一步可选地，处理器402在对与该至少一种静态特征的相似度进行加权计算时，函数名特征对应的相似度的加权权重以及源文件名特征对应的相似度的加权权重，大于字符串特征对应的相似度的权重。

进一步可选地，处理器402还用于：若该目标程序与该至少一个程序类别中任一程序类别的相似度小于或等于该第一阈值，且大于设定的第二阈值，则确定该目标程序为疑似恶意程序；根据该目标程序的静态特征，将该目标程序与该至少一个程序类别中的样本进行重新聚类，以确定该目标程序所属的类别。

进一步可选地，处理器402还用于：获取程序样本集，该程序样本集中的程序样本，包括：恶意程序样本、具有释放恶意程序的行为的程序样本以及被其他程序释放的恶意程序样本中的至少一种；对该程序样本集中的程序样本进行静态特征分析，分别得到该程序样本的静态特征；根据该静态特征，对该程序样本集中的程序样本进行聚类处理，得到至少一个程序类别；根据该至少一个程序类别中的程序样本的静态特征，确定该至少一个程序类别各自的静态特征。

进一步可选地，处理器402在根据该至少一个程序类别中的程序样本的静态特征，确定该至少一个程序类别各自的静态特征时，具体用于：针对该至少一个程序类别中的任一程序类别，根据该程序类别中的任意两个程序样本的静态特征，计算该任意两个程序样本的相似度；根据该任意两个样本的相似度，从该程序类别中确定与该程序类别中的其他程序样本的平均相似度大于设定的第三阈值的程序样本作为该程序类别对应的第一聚类中心样本；和/或，将该程序类别中与该第一聚类中心样本的相似度小于设定的第四阈值的程序样本，作为该程序类别对应的第二聚类中心样本，该第三阈值大于该第四阈值；将该程序类别对应的该第一聚类中心样本和/或该第二聚类中心样本的静态特征，作为该程序类别对应的静态特征。

进一步可选地，确定所述目标程序属于所述目标程序类别之后，处理器402还用于：输出所述目标程序属于所述目标程序类别的提示消息，并展示至少一个处理策略；响应对所述至少一个处理策略的选择操作，根据被选择的处理策略对所述目标程序进行清除处理。

进一步可选地，确定所述目标程序属于所述目标程序类别之后，处理器402还用于：按照所述目标程序类别对应的处理策略，限制所述目标程序运行；和/或，拦截所述目标程序发送的指令。

进一步，如图4所示，该电子设备还包括：通信组件403以及电源组件404等其它组件。图4中仅示意性给出部分组件，并不意味着电子设备只包括图4所示组件。

其中，通信组件403被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G或5G，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，通信组件可基于近场通信（NFC）技术、射频识别（RFID）技术、红外数据协会（IrDA）技术、超宽带（UWB）技术、蓝牙（BT）技术和其他技术来实现。

其中，电源组件404，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理***，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

本实施例中，对待检测的目标程序进行静态特征分析，可得到目标程序的静态特征；将所述目标程序的静态特征与至少一个程序类别各自的静态特征进行相似度计算，得到所述目标程序与所述至少一个程序类别各自的相似度。若所述目标程序与所述至少一个程序类别中的任一目标程序类别的相似度大于设定的第一阈值，则确定所述目标程序属于所述目标程序类别。在这种实施方式中，通过目标程序的静态特征以及至少一个程序类别的静态特征实现程序检测，在目标程序尚未运行的情况下也可对目标程序进行检测，降低了对目标应用程序所在***的依赖，有利于扩展到多种不同的操作***，提升程序检测方法的泛化能力。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被执行时能够实现上述方法实施例中可由电子设备执行的各步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（***）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM) 和/或非易失性内存等形式，如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种目标程序检测方法，其特征在于，包括：

获取待检测的目标程序；

对所述目标程序进行静态特征分析，得到所述目标程序的静态特征；

将所述目标程序的静态特征与至少一个程序类别各自的静态特征进行相似度计算，得到所述目标程序与所述至少一个程序类别各自的相似度；

若所述目标程序与所述至少一个程序类别中的任一目标程序类别的相似度大于设定的第一阈值，则确定所述目标程序属于所述目标程序类别。

2.根据权利要求1所述的方法，其特征在于，对所述目标程序进行静态特征分析，得到所述目标程序的静态特征，包括以下至少一种：

提取所述目标程序的变量名中的字符串和/或函数中引用的字符串特征；

提取所述目标程序中的函数对应的函数名特征；

提取所述目标程序的源文件名特征。

3.根据权利要求2所述的方法，其特征在于，所述至少一个程序类别中，任一程序类别包括至少一个聚类中心样本；

将所述目标程序的静态特征与至少一个程序类别各自的静态特征进行相似度计算，得到所述目标程序与所述至少一个程序类别各自的相似度，包括：

针对所述程序类别，将所述目标程序的静态特征与所述程序类别中的至少一个聚类中心样本各自的静态特征进行相似度计算，分别得到与所述至少一个聚类中心样本的相似度；

从与所述至少一个聚类中心样本的相似度中，选取最大值作为所述目标程序与所述程序类别的相似度。

4.根据权利要求3所述的方法，其特征在于，所述至少一个聚类中心样本中，任一聚类中心样本包括至少一种静态特征；

将所述目标程序的静态特征与所述程序类别中的至少一个聚类中心样本各自的静态特征进行相似度计算，分别得到与所述至少一个聚类中心样本的相似度，包括：

按照静态特征的种类对应关系，分别计算所述目标程序的静态特征与所述聚类中心样本的至少一种静态特征分的相似度；

对与所述至少一种静态特征的相似度进行加权计算，得到所述目标程序与所述聚类中心样本的相似度。

5.根据权利要求4所述的方法，其特征在于，还包括：

对与所述至少一种静态特征的相似度进行加权计算的过程中，设置函数名特征对应的相似度的加权权重以及源文件名特征对应的相似度的加权权重，大于字符串特征对应的相似度的权重。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

若所述目标程序与所述至少一个程序类别中的任一目标程序类别的相似度小于或等于所述第一阈值，且大于设定的第二阈值，则确定所述目标程序为疑似恶意程序；

根据所述目标程序的静态特征，将所述目标程序与所述至少一个程序类别中的样本进行重新聚类，以确定所述目标程序所属的类别。

7.根据权利要求1-5任一项所述的方法，其特征在于，还包括：

获取程序样本集，所述程序样本集中的程序样本，包括：恶意程序样本、具有释放恶意程序的行为的程序样本以及被其他程序释放的恶意程序样本中的至少一种；

对所述程序样本集中的程序样本进行静态特征分析，分别得到所述程序样本的静态特征；

根据所述静态特征，对所述程序样本集中的程序样本进行聚类处理，得到至少一个程序类别；

根据所述至少一个程序类别中的程序样本的静态特征，确定所述至少一个程序类别各自的静态特征。

8.根据权利要求7所述的方法，其特征在于，根据所述至少一个程序类别中的程序样本的静态特征，确定所述至少一个程序类别各自的静态特征，包括：

针对所述至少一个程序类别中的任一程序类别，根据所述程序类别中的任意两个程序样本的静态特征，计算所述任意两个程序样本的相似度；

根据所述任意两个样本的相似度，从所述程序类别中确定与所述程序类别中的其他程序样本的平均相似度大于设定的第三阈值的程序样本作为所述程序类别对应的第一聚类中心样本；和/或，将所述程序类别中与所述第一聚类中心样本的相似度小于设定的第四阈值的程序样本，作为所述程序类别对应的第二聚类中心样本，所述第三阈值大于所述第四阈值；

将所述程序类别对应的所述第一聚类中心样本和/或所述第二聚类中心样本的静态特征，作为所述程序类别对应的静态特征。

9.根据权利要求1-5任一项所述的方法，其特征在于，确定所述目标程序属于所述目标程序类别之后，还包括：

输出所述目标程序属于所述目标程序类别的提示消息，并展示至少一个处理策略；

响应对所述至少一个处理策略的选择操作，根据被选择的处理策略对所述目标程序进行清除处理。

10.根据权利要求1-5任一项所述的方法，其特征在于，确定所述目标程序属于所述目标程序类别之后，还包括：

按照所述目标程序类别对应的处理策略，限制所述目标程序运行；和/或，拦截所述目标程序发送的指令。

11.一种电子设备，其特征在于，包括：存储器和处理器；

所述存储器用于存储一条或多条计算机指令；

所述处理器用于执行所述一条或多条计算机指令以用于：执行权利要求1-10任一项所述的方法中的步骤。

12.一种存储有计算机程序的计算机可读存储介质，其特征在于，计算机程序被处理器执行时能够实现权利要求1-10任一项所述的方法中的步骤。