CN112328614B

CN112328614B - 病毒库更新方法、设备、存储介质及装置

Info

Publication number: CN112328614B
Application number: CN202011274804.2A
Authority: CN
Inventors: 徐传宇; 党亮; 王士聪
Original assignee: 360 Digital Security Technology Group Co Ltd
Current assignee: 360 Digital Security Technology Group Co Ltd
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2024-06-18
Anticipated expiration: 2040-11-13
Also published as: CN112328614A

Abstract

本发明公开了一种病毒库更新方法、设备、存储介质及装置，相较于现有的人工进行病毒库更新的方式，本发明中，通过初始文件的文件信息确定文件索引值，根据文件索引值对初始文件进行分类，获得待处理索引类别，获取待处理索引类别中的多个待处理文件，并对待处理文件分别进行信息提取，获得文件代码以及文件数据，根据文件代码以及文件数据生成待处理文件的文件缓冲区，根据文件缓冲区对待处理文件进行特征提取，获得目标特征库，并根据目标特征库对预设病毒库进行更新，克服了现有技术中人工更新病毒库效率低、可靠性差的缺陷，从而能够优化病毒库更新过程，提高病毒库更新效率，保证病毒库可靠性。

Description

病毒库更新方法、设备、存储介质及装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种病毒库更新方法、设备、存储介质及装置。

背景技术

目前，在进行病毒库更新时，通常是将样本文件下载到本地计算机，人工对样本文件进行分类，再人工提取分类后样本文件的共同特征，最后根据共同特征对病毒库进行更新。

但是，上述方式由于需要人工对样本文件进行分类以及特征提取，从而导致效率低、可靠性差。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种病毒库更新方法、设备、存储介质及装置，旨在解决如何优化病毒库更新过程的技术问题。

为实现上述目的，本发明提供一种病毒库更新方法，所述病毒库更新方法包括以下步骤：

获取初始文件的文件信息，并根据所述文件信息确定文件索引值；

根据所述文件索引值对所述初始文件进行分类，获得待处理索引类别；

获取所述待处理索引类别中的多个待处理文件，并对所述待处理文件分别进行信息提取，获得文件代码以及文件数据；

根据所述文件代码以及所述文件数据生成所述待处理文件的文件缓冲区；

根据所述文件缓冲区对所述待处理文件进行特征提取，获得目标特征库，并根据所述目标特征库对预设病毒库进行更新。

此外，为实现上述目的，本发明还提出一种病毒库更新设备，所述病毒库更新设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的病毒库更新程序，所述病毒库更新程序配置为实现如上文所述的病毒库更新方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有病毒库更新程序，所述病毒库更新程序被处理器执行时实现如上文所述的病毒库更新方法的步骤。

此外，为实现上述目的，本发明还提出一种病毒库更新装置，所述病毒库更新装置包括：确定模块、分类模块、提取模块、生成模块和更新模块；

所述确定模块，用于获取初始文件的文件信息，并根据所述文件信息确定文件索引值；

所述分类模块，用于根据所述文件索引值对所述初始文件进行分类，获得待处理索引类别；

所述提取模块，用于获取所述待处理索引类别中的多个待处理文件，并对所述待处理文件分别进行信息提取，获得文件代码以及文件数据；

所述生成模块，用于根据所述文件代码以及所述文件数据生成所述待处理文件的文件缓冲区；

所述更新模块，用于根据所述文件缓冲区对所述待处理文件进行特征提取，获得目标特征库，并根据所述目标特征库对预设病毒库进行更新。

相较于现有的人工对样本文件进行分类，再人工提取分类后样本文件的共同特征，最后根据共同特征对病毒库进行更新的方式，本发明中，通过获取初始文件的文件信息，并根据文件信息确定文件索引值，根据文件索引值对初始文件进行分类，获得待处理索引类别，获取待处理索引类别中的多个待处理文件，并对待处理文件分别进行信息提取，获得文件代码以及文件数据，根据文件代码以及文件数据生成待处理文件的文件缓冲区，根据文件缓冲区对待处理文件进行特征提取，获得目标特征库，并根据目标特征库对预设病毒库进行更新，克服了现有技术中人工更新病毒库效率低、可靠性差的缺陷，从而能够优化病毒库更新过程，提高病毒库更新效率，保证病毒库可靠性。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的病毒库更新设备的结构示意图；

图2为本发明病毒库更新方法第一实施例的流程示意图；

图3为本发明病毒库更新方法第二实施例的流程示意图；

图4为本发明病毒库更新方法第三实施例的流程示意图；

图5为本发明病毒库更新方法第四实施例的流程示意图；

图6为本发明病毒库更新装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的病毒库更新设备结构示意图。

如图1所示，该病毒库更新设备可以包括：处理器1001，例如中央处理器(CentralProcessing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)，可选用户接口1003还可以包括标准的有线接口、无线接口，对于用户接口1003的有线接口在本发明中可为USB接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity，WI-FI)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory，RAM)存储器，也可以是稳定的存储器(Non-volatileMemory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对病毒库更新设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，认定为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及病毒库更新程序。

在图1所示的病毒库更新设备中，网络接口1004主要用于连接后台服务器，与所述后台服务器进行数据通信；用户接口1003主要用于连接用户设备；所述病毒库更新设备通过处理器1001调用存储器1005中存储的病毒库更新程序，并执行本发明实施例提供的病毒库更新方法。

基于上述硬件结构，提出本发明病毒库更新方法的实施例。

参照图2，图2为本发明病毒库更新方法第一实施例的流程示意图，提出本发明病毒库更新方法第一实施例。

在第一实施例中，所述病毒库更新方法包括以下步骤：

步骤S10：获取初始文件的文件信息，并根据所述文件信息确定文件索引值。

应当理解的是，本实施例的执行主体是所述病毒库更新设备，其中，所述病毒库更新设备可为个人电脑或服务器等电子设备，还可为其他可实现相同或相似功能的设备，本实施例对此不加以限制，在本实施例中，以病毒库更新设备为例说明。

需要说明的是，初始文件可以是用户通过病毒库更新设备输入的样本文件；也可以是用户通过预先与病毒库更新设备建立通信连接的终端设备输入的样本文件。其中，样本文件可以是用户预先设置需要进行特征提取的文件，本实施例对此不加以限制；文件信息可以包含文件导入表信息、文件导出信息、文件资源信息等，本实施例对此不加以限制。

进一步地，为了避免对初始文件进行重复分析，提高处理效率，所述获取初始文件的文件信息，并根据所述文件信息确定文件索引值之前，还包括：

对所述初始文件进行特征提取，获得所述初始文件的文件特征，将所述文件特征与预设病毒库中的样本特征进行匹配，获得匹配结果，在所述匹配结果为匹配失败时，获取初始文件的文件信息，并根据所述文件信息确定文件索引值。

步骤S20：根据所述文件索引值对所述初始文件进行分类，获得待处理索引类别。

可以理解的是，根据文件索引值对初始文件进行分类，获得待处理索引类别可以是对所述初始文件进行遍历，并遍历到的初始文件作为初始处理文件，将除所述初始处理文件之外的初始文件作为待匹配文件，并将所述初始处理文件的文件索引值与所述待匹配文件的文件索引值进行匹配，获得匹配结果，在对所述初始文件遍历结束后，根据所述匹配结果对所述初始文件进行分类。

应当理解的是，根据匹配结果对所述初始文件进行分类可以是将匹配成功的待匹配文件与初始处理文件分为待处理索引类别。

步骤S30：获取所述待处理索引类别中的多个待处理文件，并对所述待处理文件分别进行信息提取，获得文件代码以及文件数据。

需要说明的是，文件代码可以包括公共代码以及用户代码，本实施例对此及不加以限制。其中，公共代码可以是编译器在编译时产生的框架、运行库等一系列代码的总称；用户代码可以是开发人员编写的代码；

文件数据可以包括头部数据、尾部数据以及校验区数据，本实施例对此不加以限制。其中，头部数据可以是DOS头数据、PE头数据；尾部数据可以是文件尾部数据、附加数据等；校验区数据可以是缓冲区的哈希值。

可以理解的是，对多个待处理文件分别进行信息提取，获得文件代码以及文件数据可以是对多个待处理文件进行标识提取，获得信息标识，并根据信息标识进行信息提取，获得文件代码以及文件数据，其中，信息标识可以用来标识信息种类，本实施例对此不加以限制。

步骤S40：根据所述文件代码以及所述文件数据生成所述待处理文件的文件缓冲区。

应当理解的是，根据文件代码以及文件数据生成待处理文件的文件缓冲区可以是根据文件代码以及文件数据通过预设缓冲区模板生成待处理文件的文件缓冲区，其中，预设缓冲区模板可以是用户预先设置的缓冲区结构模板，本实施例对此不加以限制。

进一步地，考虑到实际应用中，若仅根据文件代码以及文件数据通过预设缓冲区模板生成待处理文件的文件缓冲区，势必会导致生成过程所涉及的对象过多，运算量过大，文件缓冲区可靠性差。为克服这一缺陷，所述根据所述文件代码以及所述文件数据生成所述待处理文件的文件缓冲区，包括：

对所述文件数据进行标识提取，获得数据标识，根据所述数据标识对所述文件数据进行筛选，获得头部数据、尾部数据以及校验区数据，根据所述头部数据、所述文件代码、所述尾部数据以及所述校验区数据生成所述待处理文件的文件缓冲区。

步骤S50：根据所述文件缓冲区对所述待处理文件进行特征提取，获得目标特征库，并根据所述目标特征库对预设病毒库进行更新。

应当理解的是，根据文件缓冲区对待处理文件进行特征提取，获得目标特征库可以是对所述待处理文件进行遍历，将遍历到的待处理文件作为当前处理文件，将除所述当前处理文件之外的待处理文件作为待分析文件，并分别确定所述当前处理文件与各待分析文件之间的缓冲区相似度，根据所述缓冲区相似度对所述当前处理文件进行特征提取，获得目标特征，在对所述待处理文件遍历结束后，根据所述目标特征生成目标特征库。

可以理解的是，确定当前处理文件与各待分析文件之间的缓冲区相似度可以是将当前处理文件的文件缓冲区与各待分析文件之间的文件缓冲区进行对比分析，获得分析结果，并根据分析结果确定当前处理文件与各待分析文件之间的缓冲区相似度。

应当理解的是，根据目标特征库对预设病毒库进行更新，获得目标病毒库可以是将目标特征库中的目标特征合并至预设病毒库，以对预设病毒库进行更新，从而获得目标病毒库。

相较于现有的人工对样本文件进行分类，再人工提取分类后样本文件的共同特征，最后根据共同特征对病毒库进行更新的方式，本实施例中，通过获取初始文件的文件信息，并根据文件信息确定文件索引值，根据文件索引值对初始文件进行分类，获得待处理索引类别，获取待处理索引类别中的多个待处理文件，并对待处理文件分别进行信息提取，获得文件代码以及文件数据，根据文件代码以及文件数据生成待处理文件的文件缓冲区，根据文件缓冲区对待处理文件进行特征提取，获得目标特征库，并根据目标特征库对预设病毒库进行更新，克服了现有技术中人工更新病毒库效率低、可靠性差的缺陷，从而能够优化病毒库更新过程，提高病毒库更新效率，保证病毒库可靠性。

参照图3，图3为本发明病毒库更新方法第二实施例的流程示意图，基于上述图2所示的第一实施例，提出本发明病毒库更新方法的第二实施例。

在第二实施例中，所述步骤S10，包括：

步骤S101：获取初始文件的文件信息。

步骤S102：对所述初始文件进行字符信息提取，获得所述初始文件的结构字符信息。

需要说明的是，结构字符信息可以包括头部字符、签名字符、标志字符、基础信息、调试信息、资源信息、重定位表信息、导出表信息、版本信息、程序执行入口信息以及节表信息等，本实施例对此不加以限制。

签名字符可以是PE签名字符，标志字符可以是Magic字符；文件属性信息可以包含基础信息、调试信息、资源信息、重定位表信息、导出表信息、版本信息、程序执行入口信息以及节表信息，本实施例对此不加以限制。

基础信息可以是IMAGE_FILE_HEADER::Characteristics对应的数值；

平台信息可以是IMAGE_DIRECTORY_ENTRY_COM_DESCRIPTO的数据目录指向.NET信息；

调试信息可以是IMAGE_DIRECTORY_ENTRY_DEBUG的数据目录；

资源信息可以是IMAGE_DIRECTORY_ENTRY_RESOURCE的数据目录；

重定位表信息可以是IMAGE_DIRECTORY_ENTRY_BASERELOC的数据目录；

导出表信息可以是IMAGE_DIRECTORY_ENTRY_EXPORT的数据目录；

版本信息可以是IMAGE_OPTIONAL_HEADER::MajorLinkVersion和::MinorLinkVersion的值；

程序执行入口信息可以是通过IMAGE_OPTIONAL_HEADER::AddressOfEntryPoint获取的入口点信息；

节表信息可以是IMAGE_SECTION_HEADER的信息。

步骤S103：根据所述结构字符信息以及所述文件信息确定文件索引值。

应当理解的是，根据结构字符信息以及文件信息确定文件索引值可以是通过预设文件索引值脚本对结构字符信息以及文件信息进行处理，获得文件索引值，其中，预设文件索引值脚本可以是用户预先设置的信息处理脚本。

进一步地，为了能够提高文件分类效率，所述根据所述结构字符信息以及所述文件信息确定文件索引值，包括：

获取所述待处理文件的入口数据，并根据所述入口数据以及所述结构字符信息生成一级索引值，根据所述文件信息生成所述待处理文件的二级索引值，根据所述一级索引值以及所述二级索引值生成文件索引值。

在第二实施例中，通过获取初始文件的文件信息，对所述初始文件进行字符信息提取，获得所述初始文件的结构字符信息，根据所述结构字符信息以及所述文件信息确定文件索引值，从而能够自动生成准确、可靠的文件索引值。

在第二实施例中，所述步骤S40，包括：

步骤S401：对所述文件数据进行标识提取，获得数据标识。

需要说明的是，数据标识可以用来标识数据种类，本实施例对此不加以限制。

步骤S402：根据所述数据标识对所述文件数据进行筛选，获得头部数据、尾部数据以及校验区数据。

需要说明的是，头部数据可以是DOS头数据、PE头数据；尾部数据可以是文件尾部数据、附加数据等；校验区数据可以是缓冲区的哈希值，本实施例对此不加以限制。

可以理解的是，根据数据标识对文件数据进行筛选，获得头部数据、尾部数据以及校验区数据可以是根据数据标识对文件数据进行分类，获得分类结果，并根据分类结果确定头部数据、尾部数据以及校验区数据。

步骤S403：根据所述头部数据、所述文件代码、所述尾部数据以及所述校验区数据生成所述待处理文件的文件缓冲区。

应当理解的是，根据头部数据、文件代码、尾部数据以及校验区数据生成待处理文件的文件缓冲区可以是根据头部数据、文件代码、尾部数据以及校验区数据通过预设文件缓冲区模板生成待处理文件的文件缓冲区，其中，预设文件缓冲区模板可以是用户预先设置的文件缓冲区标准格式，本实施例对此不加以限制。

进一步地，考虑到实际情况中，仅根据头部数据、文件代码、尾部数据以及校验区数据通过预设文件缓冲区模板生成待处理文件的文件缓冲区，将会使得文件缓冲区的可靠性差。为克服这一缺陷，所述根据所述头部数据、所述文件代码、所述尾部数据以及所述校验区数据生成所述待处理文件的文件缓冲区，包括：

对所述文件代码进行特征提取，获得代码特征，根据所述代码特征对所述文件代码进行代码提取，获得文件入口代码以及用户入口代码，根据预设尾部数据提取策略对所述尾部数据进行数据提取，获得文件尾部数据以及文件附加数据，根据所述头部数据、所述文件入口代码、所述用户入口代码、所述文件尾部数据、文件附加数据以及校验区数据生成所述待处理文件的文件缓冲区。

在第二实施例中，通过对所述文件数据进行标识提取，获得数据标识，根据所述数据标识对所述文件数据进行筛选，获得头部数据、尾部数据以及校验区数据，根据所述头部数据、所述文件代码、所述尾部数据以及所述校验区数据生成所述待处理文件的文件缓冲区，从而能够提高文件缓冲区的可靠性，降低处理数据量。

在第二实施例中，所述步骤S50，包括：

步骤S501：对所述待处理文件进行遍历，将遍历到的待处理文件作为当前处理文件。

应当理解的是，对待处理文件进行遍历可以是根据预设文件遍历顺序进行遍历；也可以是根据待处理文件的上传时间，从早到晚依次进行遍历。其中，预设文件遍历顺序可以是用户预先设置的文件遍历顺序，本实施例对此不加以限制。

步骤S502：将除所述当前处理文件之外的待处理文件作为待分析文件，并分别确定所述当前处理文件与各待分析文件之间的缓冲区相似度。

步骤S503：根据所述缓冲区相似度对所述当前处理文件进行特征提取，获得目标特征。

可以理解的是，根据所述缓冲区相似度对所述当前处理文件进行特征提取，获得目标特征可以是根据所述缓冲区相似度对所述待分析文件进行遍历，将遍历到的待分析文件作为当前分析文件，根据所述当前处理文件的文件缓冲区与所述当前分析文件的文件缓冲区确定缓冲区共同特征，在对所述待分析文件遍历结束后，根据所述缓冲区共同特征确定目标特征。

应当理解的是，根据缓冲区相似度对待分析文件进行遍历可以是根据缓冲区相似度由高到低对待分析文件进行遍历，以对高相似度的待分析文件优先分析。

步骤S504：在对所述待处理文件遍历结束后，根据所述目标特征生成目标特征库。

应当理解的是，在对待分析文件遍历结束后，说明已将多个待处理文件的目标特征提取完毕。因此，可以直接将多个待处理文件的目标特征进行聚合，获得目标特征库。

步骤S505：根据所述目标特征库对预设病毒库进行更新，获得目标病毒库。

需要说明的是，预设病毒库可以是用户预先设置的计算机病毒库，可以用于存储病毒文件的文件特征，本实施例对此不加以限制。

在第二实施例中，通过对所述待处理文件进行遍历，将遍历到的待处理文件作为当前处理文件，将除所述当前处理文件之外的待处理文件作为待分析文件，并分别确定所述当前处理文件与各待分析文件之间的缓冲区相似度，根据所述缓冲区相似度对所述当前处理文件进行特征提取，获得目标特征，在对所述待处理文件遍历结束后，根据所述目标特征生成目标特征库，根据所述目标特征库对预设病毒库进行更新，获得目标病毒库，从而能够自动对目标病毒库进行更新。

参照图4，图4为本发明病毒库更新方法第三实施例的流程示意图，基于上述图3所示的第二实施例，提出本发明病毒库更新方法的第三实施例。

在第三实施例中，所述步骤S103，包括：

步骤S1031：获取所述初始文件的入口数据，并根据所述入口数据以及所述结构字符信息生成一级索引值。

可以理解的是，根据所述入口数据以及所述结构字符信息生成一级索引值可以通过预设一级索引值生成脚本对入口数据以及结构字符信息进行处理，获得一级索引值，其中，预设一级索引值生成脚本可以是用户预先设置的入口数据以及结构字符信息处理脚本，本实施例对此不加以限制。

进一步地，为了能够快速、准确地生成一级索引值，提高处理效率，所述步骤S1031，包括：

根据所述结构字符信息确定签名字符、标志字符以及文件属性信息；

根据所述签名字符、所述标志字符以及所述文件属性信息确定所述初始文件的属性数据索引值；

获取所述初始文件的入口数据，并查找所述入口数据对应的入口数据索引值；

根据所述属性数据索引值以及所述入口数据索引值生成一级索引值。

需要说明的是，签名字符可以是PE签名字符，标志字符可以是Magic字符；文件属性信息可以包含基础信息、调试信息、资源信息、重定位表信息、导出表信息、版本信息、程序执行入口信息以及节表信息，本实施例对此不加以限制。

可以理解的是，根据结构字符信息确定签名字符、标志字符以及文件属性信息可以是根据预设提取策略对结构字符信息进行信息提取，获得签名字符、标志字符以及文件属性信息，其中，预设提取策略可以是用户预先设置的信息提取策略，本实施例对此不加以限制。

应当理解的是，查找入口数据对应的入口数据索引值可以是在预设入口数据表中查找入口数据对应的入口数据索引值，其中，预设入口数据表中包含入口数据与入口数据索引值之间的对应关系，入口数据与入口数据索引值之间的对应关系可以由用户预先设置，本实施例对此不加以限制。

应当理解的是，根据属性数据索引值以及入口数据索引值生成一级索引值可以是根据属性数据索引值以及入口数据索引值通过预设一级索引值生成策略确定一级索引值，其中，预设一级索引值生成策略可以是用户预先设置的索引值处理策略，本实施例对此不加以限制。

进一步地，为了提高属性数据索引值的准确性，所述根据所述签名字符、所述标志字符以及所述文件属性信息确定所述初始文件的属性数据索引值，包括：

根据所述签名字符判断所述初始文件是否为合法文件，获得文件判断结果；

根据所述标志字符确定标志字段，并根据所述标志字段确定初始文件的文件位数信息；

根据所述文件判断结果、所述文件位数信息以及所述文件属性信息确定所述初始文件的属性数据索引值。

需要说明的是，合法文件可以是合法PE文件；文件位数信息可以是32位文件或64位文件，本实施例对比不加以限制。

应当理解的是，根据签名字符判断初始文件是否为合法文件，获得文件判断结果可以是将签名字符与预设合法签名表中的标准签名进行匹配，获得签名匹配结果，在签名匹配结果为匹配成功时，判定初始文件为合法文件，其中，预设合法签名表可以是用户预先设置的签名信息，例如：PE文件的MZ签名信息、PE签名信息，本实施例对此不加以限制。

在具体实现中，例如，从标志字符IMAGE_OPTIONAL_HEADER确定Magic字段，可以确定文件为多少位文件。在Magic字段＝0x10b时，表示文件为32位文件，在Magic字段＝0x20b时，表示文件为64位文件。

步骤S1032：根据所述文件信息生成所述初始文件的二级索引值。

可以理解的是，根根据所述文件信息生成所述初始文件的二级索引值可以通过预设文件信息处理脚本对文件信息进行处理，获得二级索引值，其中，预设文件信息处理脚本可以是用户预先设置的文件信息处理脚本，本实施例对此不加以限制。

进一步地，为了能够快速、准确地生成二级索引值，提高处理效率，所述步骤S1032，包括：

对所述文件信息进行信息提取，获得文件导入表信息、资源信息以及导出信息；

根据所述文件导入表信息确定文件导入表索引值；

根据所述导出信息以及所述资源信息确定数据分类索引值；

根据所述数据分类索引值以及所述资源判断索引值生成所述初始文件的二级索引值。

需要说明的是，文件导入表信息可以是导入动态库数量等；导出信息可以是导出函数数量等，本实施例对此不加以限制。

应当理解的是，根据文件导入表信息确定文件导入表索引值可以是查找文件导入表信息对应的文件导入表索引值。

可以理解的是，根据所述导出信息以及所述资源信息确定数据分类索引值可以是根据所述导出信息判断所述初始文件是否包含导出函数，获得函数判断结果，根据所述资源信息判断所述初始文件是否包含资源数据，获得资源判断结果，根据所述函数判断结果以及所述资源判断结果确定数据分类索引值。

应当理解的是，根据数据分类索引值以及资源判断索引值生成初始文件的二级索引值可以是根据数据分类索引值以及资源判断索引值通过预设二级索引值生成策略生成初始文件的二级索引值，其中，预设二级索引值生成策略可以是用户预先设置的索引值处理策略，本实施例对此不加以限制。

步骤S1033：根据所述一级索引值以及所述二级索引值生成文件索引值。

可以理解的是，根据所述一级索引值以及所述二级索引值生成文件索引值可以是根据所述一级索引值以及所述二级索引值通过预设索引值转换规则生成文件索引值，其中，预设索引值转换规则可以是用户预先设置的数值转换规则，本实施例对此不加以限制。

在第三实施例中，通过获取所述初始文件的入口数据，并根据所述入口数据以及所述结构字符信息生成一级索引值，根据所述文件信息生成所述初始文件的二级索引值，根据所述一级索引值以及所述二级索引值生成文件索引值，从而能够提高文件索引值的准确性、可靠性。

参照图5，图5为本发明病毒库更新方法第四实施例的流程示意图，基于上述图3所示的第二实施例，提出本发明病毒库更新方法的第四实施例。

在第四实施例中，所述步骤S403，包括：

步骤S4031：对所述文件代码进行特征提取，获得代码特征。

需要说明的是，代码特征可以是代码函数，例如，WinMain或main函数的代码，通常为用户代码。

应当理解的是，对文件代码进行特征提取，获得代码特征可以是将文件代码与预设代码函数表中的样本代码进行匹配，获得代码匹配结果，并根据代码匹配结果确定代码特征，其中，预设代码函数表可以是用户预先设置的代码函数表，本实施例对此不加以限制。

步骤S4032：根据所述代码特征对所述文件代码进行代码提取，获得文件入口代码以及用户入口代码。

可以理解的是，根据代码特征对文件代码进行代码提取，获得文件入口代码以及用户入口代码可以是根据代码特征通过预设代码提取脚本进行代码提取，获得文件入口代码以及用户入口代码，其中，预设代码提取脚本可以是用户预先设置的代码处理脚本。

进一步地，考虑到实际应用中，若根据代码特征通过预设代码提取脚本对文件代码进行代码提取，获得文件入口代码以及用户入口代码，势必会导致代码提取过程所涉及的对象过多，运算量过大。为克服这一缺陷，所述根据所述代码特征对所述文件代码进行代码提取，获得文件入口代码以及用户入口代码，包括：

根据所述代码特征对所述文件代码进行分类，获得公共代码类别以及用户代码类别，根据所述公共代码类别以及所述用户代码类别对所述文件代码进行代码提取，获得文件入口代码以及用户入口代码。

更进一步地，考虑到实际情况中，仅通过预设公共代码提取脚本以及预设用户代码提取脚本对文件代码进行代码提取，将会使得文件入口代码以及用户入口代码准确性低、可靠性差。为克服这一缺陷，，所述根据所述公共代码类别以及所述用户代码类别对所述文件代码进行代码提取，获得文件入口代码以及用户入口代码，包括：

在预设映射关系表中查找所述公共代码类别对应的公共代码类别权重值；根据所述公共代码类别权重值确定公共代码提取方向以及公共代码提取字节；根据所述公共代码提取方向以及所述公共代码提取字节对所述文件代码进行代码提取，获得文件入口代码；在所述预设映射关系表中查找所述用户代码类别对应的用户代码类别权重值；根据所述用户代码类别权重值确定用户代码提取方向以及用户代码提取字节；根据所述用户代码提取方向以及所述用户代码提取字节对所述文件代码进行代码提取，获得用户入口代码。

需要说明的是，预设映射关系表中包含代码类别与代码类别权重值之间的对应关系，其中，代码类别与代码类别权重值之间的对应关系可以由用户预先设置，本实施例对此不加以限制。例如，用户可以预先设置用户代码类别对应的用户代码类别权重值大于公共代码类别对应的公共代码类别权重值，以获得更多的用户代码。

应当理解的是，根据公共代码类别权重值确定公共代码提取方向可以是判断公共代码类别权重值是否大于预设权重值，在公共代码类别权重值大于预设权重值时，将向前且向后提取作为公共代码提取方向；在公共代码类别权重值小于或等于预设权重值时，将向前提取或向后提取作为公共代码提取方向，其中，预设权重值可以是用户预先设置的数值，本实施例对此不加以限制。

应当理解的是，根据公共代码提取方向以及公共代码提取字节对文件代码进行代码提取，获得文件入口代码可以是对文件代码进行代码分析，获得文件入口定位代码，例如，IMAGE_NT_HEADERS、OptionalHeader以及AddressOfEntryPoint等，本实施例对此不加以限制。然后，以文件入口定位代码为起点，向公共代码提取方向提取公共代码提取字节，获得文件入口代码，例如，以IMAGE_NT_HEADERS代码所在位置为起点，向前向后提取n字节。

步骤S4033：根据预设尾部数据提取策略对所述尾部数据进行数据提取，获得文件尾部数据以及文件附加数据。

需要说明的是，预设尾部数据提取策略可以是用户预先设置的尾部数据提取策略，本实施例对此不加以限制。

步骤S4034：根据所述头部数据、所述文件入口代码、所述用户入口代码、所述文件尾部数据、文件附加数据以及校验区数据生成所述待处理文件的文件缓冲区。

可以理解的是，根据头部数据、文件入口代码、用户入口代码、文件尾部数据、文件附加数据以及校验区数据生成待处理文件的文件缓冲区可以是根据头部数据、文件入口代码、用户入口代码、文件尾部数据、文件附加数据以及校验区数据通过预设文件缓冲区模板生成待处理文件的文件缓冲区，其中，预设文件缓冲区模板可以是用户预先设置的文件缓冲区标准格式，本实施例对此不加以限制。

在第四实施例中，通过对所述文件代码进行特征提取，获得代码特征，根据所述代码特征对所述文件代码进行代码提取，获得文件入口代码以及用户入口代码，根据预设尾部数据提取策略对所述尾部数据进行数据提取，获得文件尾部数据以及文件附加数据，根据所述头部数据、所述文件入口代码、所述用户入口代码、所述文件尾部数据、文件附加数据以及校验区数据生成所述待处理文件的文件缓冲区，从而能够提高文件缓冲区的可靠性。

在第四实施例中，所述步骤S503，包括：

步骤S5031：根据所述缓冲区相似度对所述待分析文件进行遍历，将遍历到的待分析文件作为当前分析文件。

进一步地，考虑到实际情况中，对缓冲区相似度过低的文件进行分析，将会导致降低处理效率。所述步骤S5031，包括：

判断所述缓冲区相似度是否大于预设阈值；

在所述缓冲区相似度大于预设阈值时，根据所述缓冲区相似度对所述待分析文件进行排序，获得排序结果；

根据所述排序结果对所述待分析文件进行遍历，将遍历到的待分析文件作为当前分析文件。

需要说明的是，预设阈值可以是用户预先设置的相似度阈值，本实施例对此不加以限制。

应当理解的是，在缓冲区相似度大于预设阈值时，说明该缓冲区相似度对应的待分析文件与当前处理文件的缓冲相似度满足条件，需要对待分析文件与当前处理文件进行缓冲区分析。

步骤S5032：根据所述当前处理文件的文件缓冲区与所述当前分析文件的文件缓冲区确定缓冲区共同特征。

应当理解的是，根据当前处理文件的文件缓冲区与当前分析文件的文件缓冲区确定缓冲区共同特征可以是通过预设缓冲区分析脚本对当前处理文件的文件缓冲区与当前分析文件的文件缓冲区进行特征分析，获得缓冲区共同特征，其中，预设缓冲区分析脚本可以是用户预先设置的文件缓冲区特征分析脚本。

进一步地，为了保证缓冲区共同特征具有较高的准确性以及可靠性，所述步骤S5032，包括：

将所述当前处理文件的文件缓冲区与所述当前分析文件的文件缓冲区进行匹配，获得匹配结果；

根据所述匹配结果对所述当前处理文件的文件缓冲区进行特征提取，获得缓冲区共同特征。

应当理解的是，将当前处理文件的文件缓冲区与当前分析文件的文件缓冲区进行匹配，获得匹配结果可以是将当前处理文件的文件缓冲区信息与当前分析文件的文件缓冲区信息进行逐一匹配，获得匹配结果。

可以理解的是，根据匹配结果对当前处理文件的文件缓冲区进行特征提取，获得缓冲区共同特征可以是将匹配成功的文件缓冲区信息作为缓冲区共同特征。

步骤S5033：在对所述待分析文件遍历结束后，根据所述缓冲区共同特征确定目标特征。

应当理解的是，在对待分析文件遍历结束后，说明已将待分析文件的文件缓冲区与当前处理文件的文件缓冲区进行逐一匹配。因此，可以直接将多个待分析文件与当前处理文件的缓冲区共同特征进行聚合，获得目标特征。

在第四实施例中，通过根据所述缓冲区相似度对所述待分析文件进行遍历，将遍历到的待分析文件作为当前分析文件，根据所述当前处理文件的文件缓冲区与所述当前分析文件的文件缓冲区确定缓冲区共同特征，在对所述待分析文件遍历结束后，根据所述缓冲区共同特征确定目标特征，从而能够快速、准确地确定目标特征，提高处理效率。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有病毒库更新程序，所述病毒库更新程序被处理器执行时实现如上文所述的病毒库更新方法的步骤。

此外，参照图6，本发明实施例还提出一种病毒库更新装置，所述病毒库更新装置包括：确定模块10、分类模块20、提取模块30、生成模块40和更新模块50；

所述确定模块10，用于获取初始文件的文件信息，并根据所述文件信息确定文件索引值。

所述分类模块20，用于根据所述文件索引值对所述初始文件进行分类，获得待处理索引类别。

所述提取模块30，用于获取所述待处理索引类别中的多个待处理文件，并对所述待处理文件分别进行信息提取，获得文件代码以及文件数据。

所述生成模块40，用于根据所述文件代码以及所述文件数据生成所述待处理文件的文件缓冲区。

所述更新模块50，用于根据所述文件缓冲区对所述待处理文件进行特征提取，获得目标特征库，并根据所述目标特征库对预设病毒库进行更新。

本发明所述病毒库更新装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序，可将这些词语解释为名称。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器镜像(Read Only Memory image，ROM)/随机存取存储器(Random AccessMemory，RAM)、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种病毒库更新方法，其特征在于，所述病毒库更新方法包括以下步骤：

2.如权利要求1所述的病毒库更新方法，其特征在于，所述获取初始文件的文件信息，并根据所述文件信息确定文件索引值的步骤，具体包括：

获取初始文件的文件信息；

对所述初始文件进行字符信息提取，获得所述初始文件的结构字符信息；

根据所述结构字符信息以及所述文件信息确定文件索引值。

3.如权利要求2所述的病毒库更新方法，其特征在于，所述根据所述结构字符信息以及所述文件信息确定文件索引值的步骤，具体包括：

获取所述初始文件的入口数据，并根据所述入口数据以及所述结构字符信息生成一级索引值；

根据所述文件信息生成所述初始文件的二级索引值；

根据所述一级索引值以及所述二级索引值生成文件索引值。

4.如权利要求3所述的病毒库更新方法，其特征在于，所述获取所述初始文件的入口数据，并根据所述入口数据以及所述结构字符信息生成一级索引值的步骤，具体包括：

5.如权利要求4所述的病毒库更新方法，其特征在于，所述根据所述签名字符、所述标志字符以及所述文件属性信息确定所述初始文件的属性数据索引值的步骤，具体包括：

6.如权利要求3所述的病毒库更新方法，其特征在于，所述根据所述文件信息生成所述初始文件的二级索引值的步骤，具体包括：

根据所述文件导入表信息确定文件导入表索引值；

根据所述导出信息以及所述资源信息确定数据分类索引值；

根据所述数据分类索引值以及所述文件导入表索引值生成所述初始文件的二级索引值。

7.如权利要求1所述的病毒库更新方法，其特征在于，所述根据所述文件代码以及所述文件数据生成所述待处理文件的文件缓冲区的步骤，具体包括：

对所述文件数据进行标识提取，获得数据标识；

根据所述数据标识对所述文件数据进行筛选，获得头部数据、尾部数据以及校验区数据；

根据所述头部数据、所述文件代码、所述尾部数据以及所述校验区数据生成所述待处理文件的文件缓冲区。

8.如权利要求7所述的病毒库更新方法，其特征在于，所述根据所述头部数据、所述文件代码、所述尾部数据以及所述校验区数据生成所述待处理文件的文件缓冲区的步骤，具体包括：

对所述文件代码进行特征提取，获得代码特征；

根据所述代码特征对所述文件代码进行代码提取，获得文件入口代码以及用户入口代码；

根据预设尾部数据提取策略对所述尾部数据进行数据提取，获得文件尾部数据以及文件附加数据；

根据所述头部数据、所述文件入口代码、所述用户入口代码、所述文件尾部数据、文件附加数据以及校验区数据生成所述待处理文件的文件缓冲区。

9.如权利要求1所述的病毒库更新方法，其特征在于，所述根据所述文件缓冲区对所述待处理文件进行特征提取，获得目标特征库，并根据所述目标特征库对预设病毒库进行更新的步骤，具体包括：

对所述待处理文件进行遍历，将遍历到的待处理文件作为当前处理文件；

将除所述当前处理文件之外的待处理文件作为待分析文件，并分别确定所述当前处理文件与各待分析文件之间的缓冲区相似度；

根据所述缓冲区相似度对所述当前处理文件进行特征提取，获得目标特征；

在对所述待处理文件遍历结束后，根据所述目标特征生成目标特征库；

根据所述目标特征库对预设病毒库进行更新，获得目标病毒库。

10.如权利要求9所述的病毒库更新方法，其特征在于，所述根据所述缓冲区相似度对所述待处理文件进行特征提取，获得目标特征的步骤，具体包括：

根据所述缓冲区相似度对所述待分析文件进行遍历，将遍历到的待分析文件作为当前分析文件；

根据所述当前处理文件的文件缓冲区与所述当前分析文件的文件缓冲区确定缓冲区共同特征；

在对所述待分析文件遍历结束后，根据所述缓冲区共同特征确定目标特征。

11.如权利要求10所述的病毒库更新方法，其特征在于，所述根据所述当前处理文件的文件缓冲区与所述当前分析文件的文件缓冲区确定缓冲区共同特征的步骤，具体包括：

12.如权利要求10所述的病毒库更新方法，其特征在于，所述根据所述缓冲区相似度对所述待分析文件进行遍历，将遍历到的待分析文件作为当前分析文件的步骤，具体包括：

判断所述缓冲区相似度是否大于预设阈值；

13.一种病毒库更新设备，其特征在于，所述病毒库更新设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的病毒库更新程序，所述病毒库更新程序被所述处理器执行时实现如权利要求1至12中任一项所述的病毒库更新方法的步骤。

14.一种存储介质，其特征在于，所述存储介质上存储有病毒库更新程序，所述病毒库更新程序被处理器执行时实现如权利要求1至12中任一项所述的病毒库更新方法的步骤。

15.一种病毒库更新装置，其特征在于，所述病毒库更新装置包括：确定模块、分类模块、提取模块、生成模块和更新模块；

16.如权利要求15所述的病毒库更新装置，其特征在于，所述确定模块，还用于获取初始文件的文件信息；

所述确定模块，还用于对所述初始文件进行字符信息提取，获得所述初始文件的结构字符信息；

所述确定模块，还用于根据所述结构字符信息以及所述文件信息确定文件索引值。

17.如权利要求16所述的病毒库更新装置，其特征在于，所述确定模块，还用于获取所述初始文件的入口数据，并根据所述入口数据以及所述结构字符信息生成一级索引值；

所述确定模块，还用于根据所述文件信息生成所述初始文件的二级索引值；

所述确定模块，还用于根据所述一级索引值以及所述二级索引值生成文件索引值。

18.如权利要求17所述的病毒库更新装置，其特征在于，所述确定模块，还用于根据所述结构字符信息确定签名字符、标志字符以及文件属性信息；

所述确定模块，还用于根据所述签名字符、所述标志字符以及所述文件属性信息确定所述初始文件的属性数据索引值；

所述确定模块，还用于获取所述初始文件的入口数据，并查找所述入口数据对应的入口数据索引值；

所述确定模块，还用于根据所述属性数据索引值以及所述入口数据索引值生成一级索引值。

19.如权利要求18所述的病毒库更新装置，其特征在于，所述确定模块，还用于根据所述签名字符判断所述初始文件是否为合法文件，获得文件判断结果；

所述确定模块，还用于根据所述标志字符确定标志字段，并根据所述标志字段确定初始文件的文件位数信息；

所述确定模块，还用于根据所述文件判断结果、所述文件位数信息以及所述文件属性信息确定所述初始文件的属性数据索引值。

20.如权利要求17所述的病毒库更新装置，其特征在于，所述确定模块，还用于对所述文件信息进行信息提取，获得文件导入表信息、资源信息以及导出信息；

所述确定模块，还用于根据所述文件导入表信息确定文件导入表索引值；

所述确定模块，还用于根据所述导出信息以及所述资源信息确定数据分类索引值；

所述确定模块，还用于根据所述数据分类索引值以及所述文件导入表索引值生成所述初始文件的二级索引值。