CN113841142B

CN113841142B - 使用知识图提供网络安全的方法、装置和计算机程序

Info

Publication number: CN113841142B
Application number: CN202080032501.1A
Authority: CN
Inventors: 徐尙德; 尹昶勋; 李承炫
Original assignee: Ace Graphic Co ltd
Current assignee: Ace Graphic Co ltd
Priority date: 2019-04-30
Filing date: 2020-01-30
Publication date: 2023-09-08
Anticipated expiration: 2040-01-30
Also published as: JP2022530376A; KR102079970B1; JP7340286B2; CN113841142A; WO2020222404A1; US20220292137A1

Abstract

本发明涉及一种用于在数据处理装置中处理知识图的方法，该方法包括以下步骤：(a)创建知识图，该知识图包括用于信息对象的分类***的分类图和用于特定信息对象实例之间的关系的实体图；(b)通过在知识图中反映从数据库中提取的信息对象来更新知识图；以及(c)通过使用更新后的知识图来推断任意信息对象的相关性。

Description

使用知识图提供网络安全的方法、装置和计算机程序

技术领域

本公开涉及一种用于构建基于知识的图并通过利用该基于知识的图来推断与犯罪和/或犯罪的相关性相关的情况的方法和***。

背景技术

随着最近互联网技术的发展，基于虚拟世界的信息越来越多。不仅包括经由普通浏览器通过搜索引擎可访问的普通网还包括需要访问权限的深网、普通浏览器无法访问但使用特定软件可访问的匿名暗网以及加密货币分布式账本的网络空间中的信息每时每刻都在以几何级数增长。

发明内容

技术问题

本公开旨在提供一种以基于知识的图的形式在虚拟世界中形成信息并在与犯罪或威胁相关的领域中通过利用基于知识的图来推断与犯罪或犯罪的相关性相关的情况的方法。

技术方案

根据本公开的实施例，一种由数据处理装置处理基于知识的图的方法包括以下操作：a)创建基于知识的图，该基于知识的图包括用于信息对象的分类***的分类图和用于特定信息对象实例之间的关系的实体图；b)将从数据库中提取的对象信息应用到基于知识的图来更新基于知识的图；以及c)通过使用更新后的基于知识的图来推断任意信息对象的相关性。

有益效果

本公开的优点在于：虚拟空间中的数据可以形成在基于知识的图中，可以识别信息对象之间的关系，并且可以根据基于知识的图推断与犯罪和/或犯罪的相关性相关的情况。此外，本公开的优点在于：不仅可以收集通过普通网络浏览器可访问的普通数据而且可以收集仅通过特殊浏览器可访问的大量特殊数据，并且可以通过将收集到的数据应用到基于知识的图来分析信息相关性。

附图说明

图1示出了根据本公开的实施例的基于知识的图的配置；

图2是示出了根据本公开的实施例的创建基于知识的图并基于创建的基于知识的图来推断与犯罪和/或犯罪的相关性相关的情况的示例的流程图；

图3是示出了对从多域收集的大量数据进行标准化并提取可应用于基于知识的图的信息的具体方法的流程图；

图4A示出了根据本公开的实施例的对从多域收集的大量数据进行标准化并扩展基于知识的图的具体示例，并且示出了根据本公开的实施例的通过对从多域收集的大量数据进行标准化而创建的初始的基于知识的图的具体示例；

图4B示出了根据本公开的实施例的对从多域收集的大量数据进行标准化并扩展基于知识的图的具体示例，并且示出了推荐新类以扩展初始的基于知识的图的具体示例；

图4C示出了根据本公开的实施例的对从多域收集的大量数据进行标准化并扩展基于知识的图的具体示例，并且示出了根据本公开的实施例的扩展后的基于知识的图的具体示例；

图5示出了根据本公开的实施例的从多域收集大量数据的方法。

具体实施方式

很明显，本公开不限于以下描述的实施例，并且在不脱离本公开的技术思想的情况下可以包括各种修改。在描述实施例时，可以省略对本领域技术人员已知并且与本公开的主旨不直接相关的技术的描述。

在整个附图中，相同的附图标记指代相同的元件。另外，在附图中，一些元件可能被夸大、省略或示意性地示出，通过省略与本公开的主旨无关的不必要的描述来阐明本公开的主旨。

虚拟世界中存在大量数据，但大量数据的形式并不标准，每个信息片段都是单独存在的，因此不容易识别信息片段之间的相关性或分析相关信息的含义。为了解决这个问题，已经采用了基于知识的图。基于知识的图是通过结构化信息片段而获得的图，可以用于识别单独存在的信息片段之间的关系及其之间的相关性，并且可以用作搜索引擎的元素，以更智能的方式来提供搜索结果。

根据本公开的实施例的基于知识的图可以包括如图1所示的节点和边。

根据本公开的实施例的基于知识的图中的节点可以包括类节点和实体节点。类节点可以被定义为与构成用于信息的分类和结构化的分层结构的概念相关，而实体节点可以被定义为与和任意类匹配的实例相关。在图1的示例中，类节点包括酒店112和城市132，实体节点被示为曼德勒海湾度假村124和拉斯维加斯122，曼德勒海湾度假村124作为与酒店112类匹配的实例，拉斯维加斯122作为与城市类匹配的实例。

边与节点之间的关系相关并且可以具有方向性。在图1的示例中，酒店节点112和城市节点132可以通过边144彼此连接，边144指示<位于……中>关系。

如图1所示，基于知识的图可以包括用于各种对象的分类***的分类图110和用于特定对象实例之间的关系的实体图120，其中分类图110和实体图120可以分别形成在单独的层中，但可以相互映射。

通过利用根据本公开的实施例的基于知识的图，可以以更智能的方式提供搜索引擎。也就是说，通过使用基于知识的图，可以推断查询的更清楚含义，并且还可以导出查询的搜索结果。

例如，当查询是<拉斯维加斯酒店>时，搜索引擎可以通过利用图1所示的基于知识的图来识别<酒店>类节点112，识别作为节点112的实例的拉斯维加斯实体节点122，识别映射到拉斯维加斯实例的类，即<城市>132，并识别类112和类132之间的链接信息144，即<位于……中>，从而推断出接收到的查询的含义是<搜索位于拉斯维加斯中的酒店>。此外，可以向搜索引擎提供酒店域的查询推断结果。

此外，搜索引擎可以通过利用图1所示的基于知识的图搜索具有与基于知识的图中连接到酒店节点112和拉斯维加斯节点122的节点124的位置值的向量相似的向量的另一个实例节点，并提供关于相应实例节点的信息作为<位于拉斯维加斯中的酒店>的搜索结果。根据基于知识的图分析节点之间的相关性的算法有很多种，下面将描述相应的算法。

图2是示出了根据本公开的实施例的在数据分析***中创建基于知识的图并基于创建的基于知识的图来推断网络犯罪的相关性的示例的流程图。

在操作210中，根据本公开的实施例的数据分析***可以配置初始的基于知识的图的模型。

初始的基于知识的图可以包括用于多域的一个或多个对象的分类***的分类图和用于特定对象实例之间的关系的实体图。分类图和实体图可以形成在不同的层中，但可以相互映射。可以使用例如***和Yago的高度可靠的分类模型作为源来创建初始的基于知识的图，在这种情况下，模型可以用例如json、csv、xml和xlsx的不同的数据类型表示。

例如，数据分析***可以将下面表1中所示的多个数据源结构化，并以分类图和实体图格式创建初始的基于知识的图。根据本公开的实施例，适合应用数据模型作为用于创建初始的基于知识的图的数据源，其中识别数据模型的数据分类和对象实例匹配的可靠性，并且数据模型用作事实上的标准。

[表1]

在这种情况下，初始的基于知识的图可以包括全局模型和/或特定域模型。全局模型可以具有例如表1中的YAGO模型作为数据源，特定域模型可以包括映射到每个类的特定实例和与例如漏洞、弱点、补丁和漏洞利用的特定主题相关的详细分类***。全局模型涉及所有对象之间的关系，因此可以包括作为子类的特定域图。

此外，数据分析***可以记录节点的元数据。元数据可以被记录为节点的标签，标签可以包括节点的属性信息。例如，在图4中的基于知识的图中，连接到漏洞域410的分类图的CVE节点412的实体图的CVE-2015-2544节点421可以被配置为具有作为其属性信息的被称为<Internet Explorer漏洞>的标签431。在另一示例中，节点的元数据可以包括关于数据源的信息，并且被示为图4A的441。

根据本公开的实施例，数据分析***可以在基于知识的图中记录描述节点之间的关系的边的内容。边可以起到指示节点对象之间的相关性的作用，并且包括关于节点之间的方向性信息和关系的信息。

例如，在图4A的基于知识的图中，连接到软件域414的分类图的应用节点416的实体图的Internet Explorer 10节点422可以通过边423连接到节点421，其中边423可以配置有被称为<影响产品(affectsProduct)>的内容。

在操作220中，数据分析***可以选择目标域。根据本公开的实施例，与网络安全、犯罪和/或威胁相关的知识模型作为目标域。

此后，数据分析***可以：从各种源收集与网络安全相关的大量信息，并为收集的信息构建数据库(操作230)；以预先配置的形式精炼从数据库中提取的信息(操作240)；并通过将目标域的特定域模型添加到初始的基于知识的图来扩展基于知识的图(操作250)。

更具体地，在操作230中，数据分析***可以调用目标域的数据库。

数据库可以存储对正常网络环境开放的数据和从需要单独访问权限的深网、通过特定浏览器可访问的暗网和/或加密货币网络收集的网络安全相关信息。将结合图5对用于数据库构建的多域信息收集进行更详细的描述。

此后，数据分析***可以从数据库中提取信息并以预先配置的形式精炼信息(操作240)。将在图3的描述中对操作240进行更详细的描述。

图3是示出了用于对从多域收集的大量数据进行标准化并提取可应用于基于知识的图的信息的具体方法的流程图。

在操作310中，数据分析***可以以预先配置的形式来对数据库中收集的大量数据进行标准化，或者可以基于收集的大量数据的内容提取待应用于基于知识的图的信息。

例如，可以考虑所收集的数据是非标准文本的情况。在操作340中，数据分析***可以通过使用例如用于自然语言处理的算法(操作320)、用于对象提取的算法和/或用于信息提取的OPEN IE的现有算法，从相应文本中提取信息对象的数据和信息对象之间的关系。

例如，数据分析***可以从包括文本<摩根大通已遭受到DDoS攻击>的报纸文章中提取<摩根大通>作为主语，并且可以从报纸文章中提取<DDoS>和<已遭受到DDos攻击>作为谓语，并从基于知识的图中识别<摩根大通>节点和<DDoS>节点。在这种情况下，<摩根大通>对应<银行公司>类的实体节点，<DDoS>对应<网络安全攻击>类的实体节点。此外，数据分析***可以通过边连接<摩根大通>节点和<DDoS>节点，并将<攻击>记录为边的内容。

在另一示例中，可以考虑所收集的数据是图像的情况。数据分析***可以通过应用光学字符识别(OCR)技术从图像中提取文本，并根据预先配置的格式对所提取的文本进行标准化。此后，数据分析***可以通过使用用于自然语言处理的算法、用于对象提取的算法和用于信息提取的算法，从相应的数据中提取信息对象的数据以及信息对象之间的关系。此外，数据分析***可以生成与目标图像的创建者、创建时间和源域信息等相关的元数据。

在另一示例中，当收集的数据是执行文件时，数据分析***可以：分析执行文件的内容以确定执行文件是否包括恶意代码，并且还基于关于收集执行文件的域的信息生成用于到达恶意代码的多个URL路径或生成相应恶意代码的哈希值、文件类型、每个URL路径的恶意代码访问计数器信息的元数据。

数据分析***可以从数据库中收集的大量数据中识别在相应的时间点未从基于知识的图中识别出的信息对象，即未知对象(操作350)，并且可以将识别出的未知对象应用于基于知识的图。

例如，当将根据本公开的实施例的用于信息提取的OPEN IE算法应用于从任意数据源中提取的被称为<赛门铁克发现SundownEK已开始使用已知为CVE-2015-2444的最近的Internet Explorer漏洞>的文本数据时，可以提取如下面表2中所示的一个或多个主语-谓语-宾语关系。

[表2]

当根据节点和边之间的关系对表2中的信息对象进行分类时，信息对象可以表示为如下面表3中所示的数据。

[表3]

此后，数据分析***将表3中形式标准化的数据应用于基于知识的图。在这种情况下，在相应时间点未从基于知识的图中识别出的节点被识别为未知对象，并且可以推荐未知对象的新类和/或实体(操作360)。

例如，考虑到连接“CVE”“2015”和“2444”的数据类型，将表3中的<CVE-2015-2444>信息对象形成为基于知识的图中的CVE类中的实体节点是合适的。此外，因为通过关键字在基于知识的图中的公司类中找到作为实体节点的信息对象，将表3中的<赛门铁克>信息对象形成为公司类中的实体节点是合适的。

在这种情况下，表3中的<Internet Explorer漏洞>和<Sundown EK>信息对象对应于未从基于知识的图中识别出的未知对象，通过使用未知信息对象与例如<CVE-2015-2444>信息对象和<赛门铁克>信息对象的信息对象之间的关系，可以在基于知识的图中形成未知信息对象。将参照图4A至图4C对此进行描述。

图4A至图4C示出了对多域中收集的大量数据进行标准化并扩展基于知识的图的详细示例。

在图4A中，410至419示出了使用YAGO分类模型作为数据源创建的初始的基于知识的图。

在初始的基于知识的图的状态下，可以将表3中的上述信息对象以如420所示的实体图的形式添加到基于知识的图。

更具体地，在图4A的示例中，考虑到连接“CVE”、“2015”和“2444”的数据类型，表3中的<CVE-2015-2444>信息对象可以形成为节点421，该节点421是基于知识的图中的CVE类412中的实体。此外，表3中的<赛门铁克>信息对象可以形成为节点426，该节点426是基于知识的图中的公司类418和419中的实体。

表3中的<Internet Explorer漏洞>和<Sundown EK>信息对象是未从基于知识的图中识别出的未知对象，可以利用未知对象和基于知识的图中已知的对象之间的关系，将未知对象添加到基于知识的图。

更具体地，参考表3中的第一行，<Internet Explorer漏洞>与<CVE-2015-2444>节点421具有<已知为>关系。因此，根据本公开的实施例的基于知识的图创建***可以新建立与先前创建的节点421具有1跳(1-hop)关系的节点431，在节点431中配置未知信息对象<Internet Explorer漏洞>，通过边434连接节点421和节点431，并将边434的内容记录为<已知为>。

此外，参考表3中的第三行，<Sundown EK>与<Internet Explorer漏洞>节点431具有<已开始使用>关系。因此，根据本公开的实施例的基于知识的图创建***可以新建立与先前创建的节点431具有1跳关系的节点432，在节点432中配置未知信息对象<Sundown EK>，通过边433连接节点432和节点431，并将边433的内容记录为<已开始使用>。

未知对象<Sundown EK>432是名为“Sundown”的漏洞利用工具包(EK)，并且在图4A中包括的分类图中没有相应的对象可以属于的合适的类。在这种情况下，根据本公开的实施例的数据分析***可以推荐新类节点以新建立合适的类并扩展分类，并且推荐未知对象作为新类节点的实体。

例如，在图4B中，当例如节点432和456至459的多个未知对象连接到CVE类节点412的实体对象461、462和463并且相应的对象包括相同的关键字“EK”时，根据本公开的实施例的数据分析***可以通过确定未知对象456、457、458、459和432属于同一类的可能性很高来推荐定义新类。

例如，如图4B所示，数据分析***可以推荐新建立顶级类“恶意软件”450和子类“漏洞利用工具包”455。此外，如图4C所示，数据分析***可以将共享作为关键字的“漏洞利用工具包”的未知对象456、457、458、459和432连接到新类450和455，以更新基于知识的图。

此外，根据本公开的实施例的数据分析***可以推荐更新基于知识的图中的类对象之间的关系，即边。例如，在图4B中，CVE对象461、462和463与漏洞利用工具包对象456、457、458、459和432由不同的关系，即不同的边表示，但可以表示基本相同的关系。当识别出具有不同表示但具有基本相同内容的关系(边)时，根据本公开的实施例的数据分析***可以推荐定义新边。

例如，如图4C所示，数据分析***可以将CVE 412类和漏洞利用工具包455类之间的关系定义为利用漏洞(exploitsVulnerability)关系473，在这种情况下，属于相应类的对象也可以通过继承相应关系来使用该相应关系。

回到图3的描述，在操作370中，数据分析***可以在基于知识的图中注释边和/或节点的标签和/或元数据。例如，在图4A中的基于知识的图中，数据分析***可以将信息源的元数据441、442、443和444配置为相应节点的标签。

此后，在操作380中，数据分析***可以更精确地管理添加了例如节点、边和标签的元素的基于知识的图。例如，在图4A的示例中，<Internet Explorer漏洞>节点431被视为连接到节点421的实体实例，但可以分类为类节点410的子类。即使在这种情况下，可以保持与节点421的1跳关系。因此，如图4C所示，数据分析***可以执行管理以将节点431的位置改变为410的子类，并更新基于知识的图。

根据本公开的实施例的数据分析***可以通过管理基于知识的图中的类、实体和/或边来更新基于知识的图，并且如图4C的471和475所示，管理的记录可以被管理为包括在基于知识的图中。回到图2的描述，数据分析***可以通过操作210至250通过将收集到的数据应用于基于知识的图来扩展基于知识的图，并且在操作270中通过使用创建的基于知识的图来推断相关性。

例如，可以考虑将包括分布式账本信息和加密货币地址组信息的区块链数据应用于基于知识的图的情况。分布式账本信息可以包括例如区块生成时间、存款/取款金额、交易费用、上一个区块和下一个区块的加密货币区块数据以及例如交易金额、费用和存款/取款加密货币地址的区块中的交易信息，并且可以作为元数据进行管理。因此，区块链数据可以包括各种加密货币的分布式账本信息中包括的加密货币区块数据以及区块中的交易信息，并且可以包括例如加密货币地址组(钱包)的所有者信息。

加密货币交易记录可以通过边而连接到节点并在第一基于知识的图中形成，并且可以映射到非法交易的第二基于知识的图。

在这种情况下，在作为第一基于知识的图的加密货币网络图中，可以通过使用从标准化的区块链数据中提取的第一对象或第一属性来生成第一节点，并且可以通过使用相应节点之间的关系(边)来构建加密货币网络图。例如，可以生成例如加密货币存款地址(对象节点)-汇款金额(边)-加密货币取款地址(对象节点)的网络图，或例如应用了组信息的所有者X(对象节点)-汇款金额(边)-勒索软件(属性节点)的网络图。

此外，在非法交易的第二基于知识的图中，可以通过使用从标准化的多域数据中提取的第二对象或第二属性来生成第二节点，并且通过使用相应节点之间的关系(边)来构建第二基于知识的图。例如，可以通过使用从暗网的网页中提取的配置文件数据生成例如用户ID(对象节点)-所有权(边)-加密货币地址(对象节点)的节点和边，以及利用从网页中提取的销售数据生成例如加密货币地址(对象节点)-存款(边)-产品(对象节点)的节点和边来构建第二基于知识的图。

第二基于知识的图也可以如同第一基于知识的图一样显示在一个或多个层上，并且具有多层结构。各个层的基于知识的图可以属于不同的类别。

此后，数据分析***可以通过映射彼此对应的第一节点和第二节点来生成基于交易分析知识的图。例如，可以考虑以下情况：作为加密货币网络图的第一基于知识的图中的第一层中包括的节点(A)对应于地址a，节点(B)对应于地址b，两个地址属于同一组，并且第二基于知识的图中的第一层中包括的节点(C)对应于加密货币地址b。

节点(B)和节点(C)包括相同的信息，因此可以相互映射。也就是说，基于交易分析知识的图可以具有多层结构，在该多层结构中，加密货币交易记录的第一基于知识的图和第二基于知识的图中的节点相互映射，因此，可以使用基于交易分析知识的图，通过第二基于知识的图的元素来解释加密货币网络的第一基于知识的图的元素。例如，当节点(C)通过所有权的边连接到指示用户ID的节点(D)时，地址a和b的所有者是具有与节点(D)对应的用户ID的主体。

此外，可以推断未直接连接的节点之间的关系。例如，非法交易的第二基于知识的图是表示卖家使用的加密货币地址与销售商品的关系的图，并且包括关于卖家和销售商品的信息，加密货币交易记录的第一基于知识的图包括关于加密货币地址之间的交易的信息。在这种情况下，通过关系推断，可以预测使用了在第二基于知识的图中未明确指示的加密货币地址的销售商品。

更具体地，非法交易的第二基于知识的图中指示的加密货币地址的金融活动被记录在加密货币交易记录的第一基于知识的图中，因此根据本公开的实施例的数据分析***可以链接两个图中的信息片段，并因此保护关于特定商品和特定类型商品的交易的概率数据。利用相应的数据作为推理算法(包括机器学习和深度学习)的基础数据来生成商品交易模型的优势在于可以高精度地预测加密货币地址的使用目的。

图5示出了根据本公开的实施例的收集暗网数据的过程。暗网存在于加密网络中并且表示使用普通浏览器无法访问的特定类型的网站。存在于暗网中的许多站点都基于Tor网络(洋葱网络)。

首先，根据本公开的实施例的数据收集***可以收集Tor网络中的域列表(操作510)。

为此，根据本公开的实施例的数据收集***可以通过使用暗网索引站点或例如Ahmia或FreshOnions的Tor搜索引擎来收集域地址。

此外，数据收集***可以通过使用收集到的域地址作为种子从相应地址中抓取文本内容来收集Tor网络中的域地址，并根据暗网页面中包括的链接进行跟踪，直到没有链接可以遍历(traverse)。

在操作520中，数据收集***可以根据预先配置的时间段来识别所收集的域地址的状态。例如，数据收集***可以通过使用Tor的STEM API来识别相应域是处于运行还是关闭，或者识别由相应域运行的网页的内容是否被添加、删除或修改，并且在相应域的元数据中记录状态变化信息。

此后，数据收集***可以实现分布式爬虫和用于操作多个Tor节点的多个容器(container)，并将收集到的域分配给分布式爬虫(操作530)。

更具体地，根据本公开的实施例的数据收集***可以在参考预先识别的域的注册状态将域分配给分布式爬虫中将已被识别为最近注册的域的域置于更高的优先级，或者可以通过识别构成分布式爬虫的各个爬虫实例的状态，动态地将下次要进行爬网的域分配给已经完成爬网的爬虫实例。

此后，根据爬虫的操作产生的流量通过负载均衡器传输到每个容器，每个容器通过连接的NIC将请求传输到暗网，爬虫可以收集通过相应域操作的暗网的所有页面并将其记录在数据库中(操作540)。

此处提供的和附图所示的本公开的实施例仅仅是为了方便描述本公开的技术细节并帮助理解本公开而提供的具体示例，并不旨在限制本公开的范围。对于本公开所属领域的技术人员来说将显而易见的是，除了在此提供的实施例之外，还可以基于本公开的技术思想来实施其他修改的实施例。

Claims

1.一种用于在数据处理装置中处理基于知识的图的方法，所述方法包括以下操作：

a)创建基于知识的图，所述基于知识的图包括用于信息对象的分类***的分类图和用于特定信息对象实例之间的关系的实体图；

b)以预先配置的形式精炼从数据库中提取的信息，提取与信息对象和所述信息对象之间的关系相关的数据，并且通过使用所述信息对象和所述信息对象之间的关系来更新所述基于知识的图；以及

c)通过使用更新后的基于知识的图来推断任意信息对象的相关性，

其中操作b包括以下操作：

b-1)识别从所述数据库中提取的信息对象是否是所述基于知识的图中不存在的未知对象；

b-2)如果识别结果表明从所述数据库中提取的信息对象是所述基于知识的图中不存在的未知对象，则新建立节点并且通过将所述未知对象配置在所述节点中来生成未知对象节点，所述节点与对应于所述基于知识的图中的信息对象之间的关系的先前生成的节点具有1跳关系；以及

b-3)识别连接到属于任意类的一个或多个实体节点的多个未知对象节点，通过使用多个未知对象共享的关键字在所述基于知识的图的分类图中新建立新类，并将所述多个未知对象节点连接到所述新类。

2.根据权利要求1所述的方法，其中操作b包括：如果识别结果表明从所述数据库中提取的信息对象存在于所述基于知识的图中，则通过使用关键字或数据类型的相似性，将信息对象之中具有与所述基于知识的图的组成元素的关键字或数据类型相似的关键字或数据类型的第一信息对象应用到所述基于知识的图，并通过使用所述第一信息对象的相关性，将第二信息对象应用到所述基于知识的图。