CN111641619A

CN111641619A - 一种基于大数据构建黑客画像的方法、装置和计算机设备

Info

Publication number: CN111641619A
Application number: CN202010434384.3A
Authority: CN
Inventors: 冷豹; 范渊; 黄进
Original assignee: Hangzhou Dbappsecurity Technology Co Ltd
Current assignee: Hangzhou Dbappsecurity Technology Co Ltd
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2020-09-08
Anticipated expiration: 2040-05-21
Also published as: CN111641619B

Abstract

本申请涉及一种基于大数据构建黑客画像的方法、装置和计算机设备，其中，该基于大数据构建黑客画像的方法包括：相比于相关技术，本申请实施例提供的基于大数据构建黑客画像的方法，通过对原始库中攻击行为的攻击数据进行数据清洗，以获得标准库，所述标准库中包括所述攻击行为的攻击属性，根据所述攻击属性，确定所述攻击行为之间的相似度，根据所述相似度确定所述攻击行为的黑客模型，不同的攻击属性对相似度的权重值不同，根据所述攻击属性，并利用实体协同过滤算法，确定黑客模型之间的关联度，根据关联度确定所述黑客的画像，解决了通过探针简单收集攻击信息，存在所识别的黑客画像的准确度偏低的问题，提高了所识别的黑客画像的准确度。

Description

一种基于大数据构建黑客画像的方法、装置和计算机设备

技术领域

本申请涉及网络安全技术领域，特别是涉及一种基于大数据构建黑客画像的方法、装置和计算机设备。

背景技术

用户画像，作为一种勾画目标用户、联系用户诉求与设计方向的有效工具，用户画像最初是在电商领域得到应用的，在大数据时代背景下，用户信息充斥在网络中，将用户的每个具体信息抽象成标签，利用这些标签将用户形象具体化，从而为用户提供有针对性的服务。黑客画像就是一种能够代表该黑客特征的标签。

相关技术中，黑客攻击手段越来越多样化，黑客会利用网络漏洞进行各种手段的攻击，从而导致大量的***遭受到不同严重程度的损失，互联网安全企业普遍具备了识别和研判攻击行为的软/硬探针能力，但这些探针只是简单收集了攻击信息。由于攻击信息是非常具有实效性的，一旦未发现黑客的攻击手段，那么旧的探针告警策略，所收集的数据的有效性大打折扣，使得在整个识别黑客画像的过程中，存在漏掉了有价值的攻击/告警数据，使得所识别的黑客画像的准确度偏低。

目前针对相关技术中探针只是简单收集了攻击信息，存在所识别的黑客画像的准确度偏低的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种基于大数据构建黑客画像的方法、装置和计算机设备，以至少解决相关技术中探针只是简单收集了攻击信息，存在所识别的黑客画像的准确度偏低的问题。

第一方面，本申请实施例提供了一种基于大数据构建黑客画像的方法，所述方法包括：

对原始库中攻击行为的攻击数据进行数据清洗，以获得标准库，所述标准库中包括所述攻击行为的攻击属性；

根据所述攻击属性，确定所述攻击行为之间的相似度，根据所述相似度确定所述攻击行为的黑客模型，其中，不同的攻击属性对所述相似度的权重值不同；

根据所述攻击属性，并利用实体协同过滤算法，确定所述黑客模型之间的关联度，根据所述关联度确定所述黑客的画像。

在其中一些实施例中，所述根据所述关联度确定所述黑客的画像之后，所述方法还包括：

获取所述攻击属性的知识库；

将所述标准库中的所述攻击属性与所述知识库碰撞，以确定所述黑客的知识信息，根据所述知识信息完善所述黑客的画像。

在其中一些实施例中，所述对原始库中攻击行为的攻击数据进行数据清洗，以获得标准库包括：

将所述攻击行为的攻击源IP地址和攻击源MAC地址，与流量库进行碰撞，以获取所述攻击行为的攻击属性；

根据所述攻击属性，确定所述攻击属性的哈希值，根据所述攻击属性的哈希值，对所述攻击行为中未获取到的攻击属性进行补充。

在其中一些实施例中，所述将所述攻击行为的攻击源IP地址和攻击源MAC地址，与流量库进行碰撞，以获取所述攻击行为的攻击属性之前，所述方法还包括：

根据所述攻击源IP地址或者所述攻击源MAC地址，确定所述攻击行为的哈希值，根据所述攻击行为的哈希值，对所述攻击行为中未检测到的攻击源IP地址或者攻击源MAC地址进行补充。

根据所述黑客的画像，对所述黑客攻击的目的域名进行分类；

根据所述目的域名的类别，对所述目的域名进行反查，以确定所述黑客的攻击行业偏好，并根据所述偏好对相关行业进行预警指示。

根据所述黑客的画像，追溯所述攻击源IP地址；

在所述攻击源IP地址的使用者为傀儡机的情况下，根据所述傀儡机对所述黑客的控制机进行反查，以获取所述黑客的真实攻击源IP地址，并对所述傀儡机的攻击源IP地址进行打标。

第二方面，本申请实施例提供了一种基于大数据构建黑客画像的装置，所述装置包括：数据清洗模块、生成黑客模型模块和生成黑客画像模块；

所述数据清洗模块，用于对原始库中攻击行为的攻击数据进行数据清洗，以获得标准库，所述标准库中包括所述攻击行为的攻击属性；

所述生成黑客模型模块，用于根据所述攻击属性，确定所述攻击行为之间的相似度，根据所述相似度确定所述攻击行为的黑客模型，其中，不同的攻击属性对所述相似度的权重值不同；

所述生成黑客画像模块，用于根据所述攻击属性，并利用实体协同过滤算法，确定所述黑客模型之间的关联度，根据所述关联度确定所述黑客的画像。

在其中一些实施例中，所述装置还包括黑客画像分析模块；

所述黑客画像分析模块，用于在所述关联度确定所述黑客的画像之后，获取所述攻击属性的知识库，并将所述标准库中的所述攻击属性与所述知识库碰撞，以确定所述黑客的知识信息，根据所述知识信息完善所述黑客的画像。

第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的基于大数据构建黑客画像的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的基于大数据构建黑客画像的方法。

相比于相关技术，本申请实施例提供的一种基于大数据构建黑客画像的方法、装置和计算机设备，通过对原始库中攻击行为的攻击数据进行数据清洗，以获得标准库，所述标准库中包括所述攻击行为的攻击属性，根据所述攻击属性，确定所述攻击行为之间的相似度，根据所述相似度确定所述攻击行为的黑客模型，其中，不同的攻击属性对所述相似度的权重值不同，根据所述攻击属性，并利用实体协同过滤算法，确定所述黑客模型之间的关联度，根据所述关联度确定所述黑客的画像，解决了通过探针收集攻击信息，存在所识别的黑客画像的准确度偏低的问题，提高了所识别的黑客画像的准确度。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的基于大数据构建黑客画像的方法的流程图一；

图2是根据本申请实施例的基于大数据构建黑客画像的方法的流程图二；

图3是根据本申请实施例的对原始库中攻击行为的攻击数据进行数据清洗的方法的流程图；

图4是根据本申请实施例的对原始库中攻击行为的攻击数据进行数据清洗的另一方法的流程图；

图5是根据本申请实施例的基于大数据构建黑客画像的方法的流程图三；

图6是根据本申请实施例的基于大数据构建黑客画像的方法的流程图四；

图7是根据本申请实施例的基于大数据构建黑客画像的装置的结构框图；

图8是根据本申请实施例的基于大数据构建黑客画像的另一装置的结构框图；

图9是根据本申请实施例的计算机设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本申请提供的基于大数据构建黑客画像的方法，应用于网络安全技术领域，利用探针采集的攻击数据，在攻击数据已经做了网络安全标准化处理的前提下，进一步对攻击信息进行处理，进而获得精准的黑客画像，通过这些黑客画像，可以帮助公安政府部门提供有效的黑客打击方案，提前感知黑客的攻击动向，为保障良好的网络环境提供有利的帮助。需要说明的是，黑客画像是指能够标示该黑客的特征。

本实施例提供了一种基于大数据构建黑客画像的方法，图1是根据本申请实施例的基于大数据构建黑客画像的方法的流程图一，如图1所示，该方法包括如下步骤：

步骤S101，对原始库中攻击行为的攻击数据进行数据清洗，以获得标准库，标准库中包括攻击行为的攻击属性。在原始库中通过探针获取有海量的攻击数据，且原始库中的海量数据已经做了网络安全标准化的处理，其中，攻击行为的攻击数据可以取决于探针的获取能力，在本申请中，攻击数据可以包含攻击源IP地址，或者包含攻击源MAC地址；在对原始库中的攻击数据进行数据清洗后，得到包括攻击属性的标准库，攻击属性可以为QQ号码，电话号码，手机号码、身份证号等重要信息。

步骤S102，根据攻击属性，确定攻击行为之间的相似度，根据相似度确定攻击行为的黑客模型，其中，不同的攻击属性对相似度的权重值不同。不同的攻击属性对相似度的权重值不同，例如，手机号码、身份证号权重值较高，但是攻击者目的IP，攻击手段，攻击时间等不太容易判断为同一攻击者的，权重就偏低。针对相似度较高的攻击属性，通过带有权重值的攻击属性，可确定攻击行为之间的相似度，并结合公安***的知识库，进而可构建出黑客模型。

步骤S103，根据攻击属性，并利用实体协同过滤算法，确定黑客模型之间的关联度，根据关联度确定黑客的画像。根据数据的相似度，所构建出的黑客模型中存在重复模型的，因此需要再对黑客模型利用实体协同过滤算法进行黑客相似度运算，当然在操作期间对找到相似度较高的黑客，可以在人工确认的情况下对黑客画像进行纠正，其中，利用实体协同过滤算法，确定黑客模型之间的关联度，如公式1所示：

上述公式1中，Ru,i表示：攻击属性u与i的相似度，Ru,j表示：攻击属性u与j的相似度，Ri表示：第i个攻击行为的攻击属性与其他攻击行为的攻击属性相似度平均值，Ri表示：第i个攻击行为的攻击属性与其他攻击行为的攻击属性相似度平均值，Rj表示：第i个攻击行为的攻击属性与其他攻击行为的攻击属性相似度平均值。

需要进一步说明的是，本申请中利用探针的实时攻击信息数据，可以进行大数据的离线分析，因为离线分析虽然耗时，但是能在更多的计算中，提供更为准确的黑客画像。

通过步骤S101至步骤S103，利用探针所获取的攻击信息数据，进行数据清洗以得到包含攻击属性的标准库，并在标准库的基础上，进行数据相似度计算以确定黑客模型，进一步利用实体协同过滤算法，在黑客模型的基础上筛选出黑客的画像，解决了相关技术中通过探针简单收集攻击信息，存在所识别的黑客画像的准确度偏低的问题，提高了所识别的黑客画像的准确度。

在其中一些实施例中，在步骤S102之前，还可以通过获取标准库中的哈希值，并将哈希值相同的攻击行为进行关联性计算，可以对哈希值本身就相同的归为一个黑客模型，可以对黑客的QQ、电话、微信等等相同的，做一次布隆过滤器运算，将这些重要信息相同的也归到一个黑客模型中，同时可以利用哈希算法，对哈希值相同的黑客模型，所对应的攻击属性做一次补充。

在其中一些实施例中，图2是根据本申请实施例的基于大数据构建黑客画像的方法的流程图二，如图2所示，该方法还包括如下步骤：

步骤S201，获取攻击属性的知识库。需要说明的是，知识库可以在获得许可的情况下通过地方公安***获取，例如，获取到关于手机号的知识库。

步骤S202，将标准库中的攻击属性与知识库碰撞，以确定黑客的知识信息，根据知识信息完善黑客的画像。如果能够获取到更多的知识库，也可以进行多次碰撞，例如，通过IP知识库碰撞，关联降噪黑客省、市、区，黑客网站，黑客地址；通过手机号知识库，将手机号对该库进行碰撞，相应地，可以拿到黑客的精确地理位置等信息。

通过步骤S201至步骤S202，将黑客的攻击属性，与对应的知识库进行碰撞，以获取到关于黑客的更多基础信息，进一步提高黑客画像的精确度，且更多的基础信息可以为黑客画像的分析，提供强力的基础数据质量。

在其中一些实施例中，图3是根据本申请实施例的对原始库中攻击行为的攻击数据进行数据清洗的方法的流程图，如图3所示，该方法包括如下步骤：

步骤S301，将攻击行为的攻击源IP地址和攻击源MAC地址，与流量库进行碰撞，以获取攻击行为的攻击属性。将某条攻击行为中攻击数据的攻击源IP地址及攻击源MAC地址，进行流量库碰撞，尝试获取到关联的QQ、电话号码、手机号码、身份证号等等重要攻击属性。需要进一步说明的是，流量库可以是利用大数据的平台，收集有对象信息的一些管理***。

步骤S302，根据攻击属性，确定攻击属性的哈希值，根据攻击属性的哈希值，对攻击行为中未获取到的攻击属性进行补充。根据攻击属性，手机号或者QQ等等，进行一次哈希计算，并将哈希值相同的攻击属性，进行补充，例如，两次攻击行为的哈希值是相同的，但一次攻击行为中只获取到了该攻击行为的手机号，另一次攻击行为中获取到了QQ，此时该两次攻击行为的攻击数据进行补充，使得两次攻击行为的攻击数据更加完整。

通过步骤S301至步骤S302，根据哈希算法，将哈希值相同的攻击数据进行补充，进而实现对攻击数据的降噪处理，使得攻击行为的攻击数据更加完整。

在其中一些实施例中，图4是根据本申请实施例的对原始库中攻击行为的攻击数据进行数据清洗的另一方法的流程图，如图4所示，该方法还包括如下步骤：

步骤S401，根据攻击源IP地址或者攻击源MAC地址，确定攻击行为的哈希值，根据攻击行为的哈希值，对攻击行为中未检测到的攻击源IP地址或者攻击源MAC地址进行补充。为了确定每条攻击数据的唯一性，为每条攻击数据利用哈希算法计算出一个哈希值，因此可以根据攻击源IP地址的唯一字段或者攻击源MAC地址的唯一字段，计算哈希值，并将哈希值相同的攻击行为进行攻击源IP地址或者攻击源MAC地址补充，例如，两次攻击行为的哈希值相同，但一次攻击行为中探针只获取到攻击源MAC地址，另一攻击行为中探针只获取到攻击源IP地址，此时将对应的攻击源MAC地址或者攻击源IP地址补充，使得每次攻击数据中都尽可能既有攻击源MAC地址和者攻击源IP地址。

通过步骤S401，利用攻击源IP地址的唯一字段或者攻击源MAC地址的唯一字段计算哈希值，并根据相同的哈希值进行对应攻击源IP地址或者攻击源MAC地址补充，使得每次攻击数据中都尽可能既有攻击源MAC地址和者攻击源IP地址，进而可将某条攻击信息的IP及Mac地址，进行流量库碰撞，尝试获取到QQ、电话、手机等重要信息，提高攻击数据的质量、有效性。

在其中一些实施例中，图5是根据本申请实施例的基于大数据构建黑客画像的方法的流程图三，如图5所示，该方法还包括如下步骤：

步骤S501，根据黑客的画像，对黑客攻击的目的域名进行分类。在根据黑客的攻击数据定位到黑客画像后，可根据黑客画像对黑客的攻击行为进行更为具体的分析，例如，对黑客攻击的目的IP/域名进行分类。

步骤S502，根据目的域名的类别，对目的域名进行反查，以确定黑客的攻击行业偏好，并根据偏好对相关行业进行预警指示。在对黑客攻击的目的IP/域名进行分类后，可对目的域名进行反查，拿到具体的被攻击对象信息，可以根据不同的对象，将黑客的攻击行业偏好进行打标，也可以通过该黑客最近攻击的目的IP/域名进行打标，了解该黑客近期的攻击情况，及时通过黑客画像通知相关企业或者单位进行相关防护。

通过步骤S501至步骤S502，在根据黑客的攻击数据定位到黑客画像后，可根据黑客画像对黑客的目的域名进行分析，并对该黑客攻击的目的域名或者攻击行业偏好进行打标，并对相关行业进行预警，进而实现提前感知黑客的攻击动向，为保障良好的网络环境提供有利的帮助。

在其中一些实施例中，图6是根据本申请实施例的基于大数据构建黑客画像的方法的流程图四，如图6所示，该方法还包括如下步骤：

步骤S601，根据黑客的画像，追溯攻击源IP地址；

步骤S602，在攻击源IP地址的使用者为傀儡机的情况下，根据傀儡机对黑客的控制机进行反查，以获取黑客的真实攻击源IP地址，并对傀儡机的攻击源IP地址进行打标。如果最终追溯到该IP的使用者为肉鸡(傀儡机)的话，可通过肉鸡进行控制机反查，从而最终得到黑客的真实信息，也可以通过人工打标的方式，对黑客肉鸡IP组进行打标，使得黑客画像能够做到更为准确的识别黑客攻击行为，其中，肉鸡或者傀儡机是指被黑客远程控制的机器。

通过步骤S601至步骤S602，根据黑客画像，对黑客的攻击行为进行具体的分析，在攻击源IP地址的使用者为傀儡机的情况下，对黑客的控制机进行反查，以获取黑客的真实攻击源IP地址，并对傀儡机的攻击源IP地址进行打标，提高通过黑客画像识别黑客攻击行为的精度。

在其中一些实施例中，对黑客的攻击行为进行分析时，可以是对黑客的攻击手段进行分类，对常用且成功率较高的攻击手段进行打标，对近期单位时间该黑客的流量行为进行反查，通过目的IP或者目的MAC地址等，对该黑客最近攻击失败的IP地址进行碰撞，获取该黑客最新的攻击方法，并反馈给指挥决策人员，进行及时的未知风险处置，并对其最新攻击手段进行打标。同样的若涉嫌重大事件，可以从该黑客的攻击源IP段中，进行流量库碰撞，拿到最新的社会型黑客信息，方便政府机关单位对其侦查立案。

在其中一些实施例中，对黑客的攻击行为进行分析时，也可以获取黑客攻击某网站或者目的IP的未成功次数，在未成功次数达到预设阈值，且该黑客近期不再使用的攻击手段的数据，可对这类原始数据进行定期的计算相关标签，以及时更换黑客的画像。

需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例还提供了一种基于大数据构建黑客画像的装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图7是根据本申请实施例的基于大数据构建黑客画像的装置的结构框图，如图7所示，该装置包括：数据清洗模块71、生成黑客模型模块72和生成黑客画像模块73；

数据清洗模块71，用于对原始库中攻击行为的攻击数据进行数据清洗，以获得标准库，标准库中包括攻击行为的攻击属性；

生成黑客模型模块72，用于根据攻击属性，确定攻击行为之间的相似度，根据相似度确定攻击行为的黑客模型，其中，不同的攻击属性对相似度的权重值不同；

生成黑客画像模块73，用于根据攻击属性，并利用实体协同过滤算法，确定黑客模型之间的关联度，根据关联度确定黑客的画像。

通过上述基于大数据构建黑客画像的装置，数据清洗模块71利用探针所获取的攻击信息数据，进行数据清洗以得到包含攻击属性的标准库，生成黑客模型模块72在标准库的基础上，进行数据相似度计算以确定黑客模型，生成黑客画像模块73进一步利用实体协同过滤算法，在黑客模型的基础上筛选出黑客的画像，解决了相关技术中通过探针简单收集攻击信息，存在所识别的黑客画像的准确度偏低的问题，提高了所识别的黑客画像的准确度。

在其中一些实施例中，图8是根据本申请实施例的基于大数据构建黑客画像的另一装置的结构框图，如图8所示，该方法还包括黑客画像分析模块81；

黑客画像分析模块81，用于在关联度确定黑客的画像之后，获取攻击属性的知识库，并将标准库中的攻击属性与知识库碰撞，以确定黑客的知识信息，根据知识信息完善黑客的画像。

通过上述黑客画像分析模块81，将黑客的攻击属性，与对应的知识库进行碰撞，以获取到关于黑客的更多基础信息，进一步提高黑客画像的精确度，且更多的基础信息可以为黑客画像的分析，提供强力的基础数据质量。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

另外，结合图1描述的本申请实施例的基于大数据构建黑客画像可以由计算机设备来实现。计算机设备可以包括处理器以及存储有计算机程序指令的存储器。

具体地，上述处理器可以包括中央处理器(CPU)，或者特定集成电路(ApplicationSpecific Integrated Circuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器可包括硬盘驱动器(Hard Disk Drive，简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器可在数据处理装置的内部或外部。在特定实施例中，存储器是非易失性(Non-Volatile)存储器。在特定实施例中，存储器包括只读存储器(Read-Only Memory，简称为ROM)和随机存取存储器(Random AccessMemory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory，简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory，简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory，简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(Static Random-Access Memory，简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory，简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory，简称SDRAM)等。

存储器可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器所执行的可能的计算机程序指令。

处理器通过读取并执行存储器中存储的计算机程序指令，以实现上述实施例中的任意一种基于大数据构建黑客画像。

在其中一些实施例中，计算机设备还可包括通信接口93和总线90，图9是根据本申请实施例的计算机设备的硬件结构示意图，如图9所示，处理器91、存储器92、通信接口93通过总线90连接并完成相互间的通信。

通信接口93用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信接口93还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线90包括硬件、软件或两者，将计算机设备的部件彼此耦接在一起。总线90包括但不限于以下至少之一：数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制，总线90可包括图形加速接口(Accelerated Graphics Port，简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，简称为EISA)总线、前端总线(Front Side Bus，简称为FSB)、超传输(Hyper Transport，简称为HT)互连、工业标准架构(Industry Standard Architecture，简称为ISA)总线、无线带宽互连、低引脚数(LowPin Count，简称为LPC)总线、存储器总线、微信道架构(Micro Channel Architecture，简称为MCA)总线、***组件互连(Peripheral Component Interconnect，简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial Advanced TechnologyAttachment，简称为SATA)总线、视频电子标准协会局部(Video Electronics StandardsAssociation Local Bus，简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线90可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

另外，结合上述实施例中的基于大数据构建黑客画像的方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意基于大数据构建黑客画像的方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于大数据构建黑客画像的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述关联度确定所述黑客的画像之后，所述方法还包括：

获取所述攻击属性的知识库；

3.根据权利要求1所述的方法，其特征在于，所述对原始库中攻击行为的攻击数据进行数据清洗，以获得标准库包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述攻击行为的攻击源IP地址和攻击源MAC地址，与流量库进行碰撞，以获取所述攻击行为的攻击属性之前，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述关联度确定所述黑客的画像之后，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述关联度确定所述黑客的画像之后，所述方法还包括：

根据所述黑客的画像，追溯所述攻击源IP地址；

7.一种基于大数据构建黑客画像的装置，其特征在于，所述装置包括：数据清洗模块、生成黑客模型模块和生成黑客画像模块；

8.根据权利要求7所述的装置，其特征在于，所述装置还包括黑客画像分析模块；

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的基于大数据构建黑客画像的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至6中任一项所述的基于大数据构建黑客画像的方法。