CN113454621A - 用于从多域收集数据的方法、装置和计算机程序 - Google Patents
用于从多域收集数据的方法、装置和计算机程序 Download PDFInfo
- Publication number
- CN113454621A CN113454621A CN202080015599.XA CN202080015599A CN113454621A CN 113454621 A CN113454621 A CN 113454621A CN 202080015599 A CN202080015599 A CN 202080015599A CN 113454621 A CN113454621 A CN 113454621A
- Authority
- CN
- China
- Prior art keywords
- data
- domain
- network
- information
- collecting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000004590 computer program Methods 0.000 title description 2
- 238000013480 data collection Methods 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 claims description 24
- 230000009193 crawling Effects 0.000 claims description 4
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 239000008186 active pharmaceutical agent Substances 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000010365 information processing Effects 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000001152 differential interference contrast microscopy Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 241000234282 Allium Species 0.000 description 1
- 235000002732 Allium cepa var. cepa Nutrition 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
- G06F21/16—Program or content traceability, e.g. by watermarking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Technology Law (AREA)
- Information Transfer Between Computers (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种用于在数据收集装置中从多域收集数据的方法。该方法包括:步骤A,从可通过搜索引擎访问的通用网络收集数据;步骤B,从无法通过通用网络浏览器访问但可通过预设特定软件访问的暗网站点收集数据;以及步骤C,将所收集到的数据以预设格式进行标准化,并且生成针对所收集到的数据的元数据。
Description
技术领域
本发明涉及一种用于收集和处理数据的方法。更具体地,本发明涉及一种用于收集和处理关于多域中的任意对象的大量数据的***,该多域包括通用表层网络(surfaceweb)以及需要访问权限的不可见网络。
背景技术
近年来,随着互联网技术的发展,基于虚拟世界的信息泛滥。然而,可以通过通用浏览器中的搜索引擎访问的站点仅仅是整个网络环境中的冰山一角。存在连接到互联网但需要访问权限的深网(Deep Web)以及无法通过通用浏览器访问但可以使用特定软件访问的匿名暗网(Dark Web)。
暗网是指存在于加密网络上并且无法使用通用浏览器访问的特定类别的站点。暗网上的许多站点基于Tor(洋葱网络(Onion Network))网络。自2010年以来发展迅速的Tor网络是一种应用用户匿名技术的网络,并且正在成为使用加密货币(cryptocurrency)的诸如以下的各种非法交易的温床:武器交易、毒品交易、器官交易、黑客工具销售、黑客技术共享、个人信息交易和色情销售。
在Tor网络中,网络中的节点用作网络路由器,并且特定节点的地址信息分布和存储在网络中的其它节点中。由于Tor浏览器经由多个节点随机提供到目的地的连接,因此Tor网络具有无法追踪服务供应商和用户之间的连接路径的特性。
发明内容
本发明的目的在于提供一种收集和处理关于通用表层网络以及需要访问权限的不可见网络中的任意对象的大量数据的方法。
根据本发明的实施例,一种在数据收集装置中从多域收集数据的方法包括:步骤A,从可通过搜索引擎访问的通用网络收集数据;步骤B,从无法通过通用网络浏览器访问但可通过预设特定软件访问的暗网站点收集数据;以及步骤C,将收集到的数据以预设格式进行标准化,并且生成针对收集到的数据的元数据。
根据本发明,可以在互联网环境中收集可通过通用网络浏览器访问的通用数据以及可通过特殊浏览器访问的特殊数据。此外,根据本发明,存在通过处理基于多域收集的大量数据来分析信息相关性的效果。
附图说明
图1是用于描述根据本发明的实施例的收集多域中的大量数据并分析收集到的数据之间的相关性的***的操作的示图。
图2A是用于描述根据本发明的实施例的收集Tor网络中的数据的***的配置的示图。
图2B是用于描述根据本发明的另一实施例的收集Tor网络中的数据的***的配置的示图。
图3是用于描述根据本发明的实施例的收集Tor网络的数据的过程的示图。
具体实施方式
本发明不限于下面描述的具体实施方式,并且显而易见的是,在不脱离本发明的技术主旨的范围内,可以进行各种修改。在描述实施例时,将省略本发明所属技术领域中公知的并且与本发明技术主旨没有直接关系的技术内容的描述。
同时,在附图中,相同的组件由相同的附图标记表示。在附图中,一些组件可能被夸大、省略或示意性地示出。这是为了通过省略与本发明的主旨无关的不必要描述来清楚地描述本发明的主旨。
图1是用于描述根据本发明的实施例的收集多域中的大量数据并分析收集到的数据之间的相关性的***的操作的示图。
参照图1,根据本发明的实施例的***可以包括通用数据收集模块110、特殊数据收集模块120、数据库125、数据处理模块130和知识图谱创建模块140。
通用数据收集模块110执行收集在通用网络环境中发布的数据的功能。根据本发明的优选实施例,通用数据收集模块可以通过对与犯罪或威胁相关的信息源进行加权来收集数据。
例如,在收集与诸如恶意代码、色情和个人信息交易的非法交易相关的数据时,通用数据收集模块110可以以收集与非法交易相关的通用站点上记录的电子邮件账户、链接到电子邮件账户的SNS账户、SNS账户帖子上记录的其它电子邮件账户或者网页和帖子上记录的比特币交易地址的方式来收集关于非法交易的信息119。在稍后将描述的数据处理模块130和知识图谱创建模块140中提炼(refine)收集到的信息以推断其含义或关系。
同时,可以考虑收集恶意代码二进制数据的情况。根据常规的安全解决方案,以代理的形式在客户端安装安全程序,并且当恶意代码被引入客户端装置时,安全程序收集恶意代码。
然而,由于最近的恶意代码往往针对少数特定的用户,因此存在安全程序难以以常规方式收集所有恶意代码的问题。此外,根据常规方法,存在用户装置被感染之后才收集恶意代码二进制数据的问题。
因此,为了解决上述问题,本发明的目的在于提供一种在客户端感染恶意代码之前检测和收集恶意软件的方法。为此,根据本发明的实施例,通用数据收集模块110和/或特殊数据收集模块120可以收集数据源113和种子数据116,并且使用数据源113和种子数据116直接从恶意代码分布(malicious code distribution)和/或控制服务器收集恶意代码二进制数据119。
更具体地,通用数据收集模块可以首先创建可在通用网络环境中访问的可信的数据源113的列表。数据源可以包括例如国内和国外安全公司和安全组织所运行的站点、博客、报告和SNS账户。
此后,通用数据收集模块110可以爬取与该数据源的列表相对应的网页中存在的所有URL链接,以收集恶意代码的种子数据116。
恶意代码的种子数据可以大致划分为两种类型。
第一种子数据是危害指标(indicator),并且是指用作网络或装置的操作***中发现的网络入侵事件的指标或证据的数据。根据本发明的实施例,可以通过第一种子数据来识别某个装置是否感染了恶意代码。
第二种子数据可以是与控制服务器的DNS相关的数据,该控制服务器控制具有命令与控制(Command&Control,C&C)基础架构的恶意代码。具有C&C基础架构的恶意代码以二进制形式存储控制服务器的域地址或包括域地址生成例程(routine),并且以不断改变映射到域的IP地址的方式运行。以这种方式,恶意代码控制服务器在不重新分布恶意代码二进制文件的情况下运行以更改C&C。
根据本发明实施例的第一种子数据可以包括例如恶意软件的名称、恶意软件的哈希值(md5、sha1、sha256等)、控制恶意代码的命令与控制(C&C)的IP地址、域地址和域地址生成例程、恶意软件所创建的文件的名称和类型、恶意软件的源代码和运行、以及恶意代码的通信消息上发现的签名,诸如唯一的消息结构、开发者ID、代码片段的重用日志等。根据本发明的实施例的第一种子数据除了上述示例之外,还可以包括能够指定任意恶意软件的所有数据。
对于第一种子数据的收集,根据本发明的实施例的通用数据收集模块110可以通过正则表达式爬取和搜索数据源列表113中记录的网页中存在的所有URL链接,提取可以用作网络或装置的操作***中发现的网络入侵事件的指标或证据的数据,并且通过一起记录发布相关信息的日期和数据源来创建第一种子数据116。
例如,在恶意代码Ranscam的情况下,数据源可以是Cisco Talos博客(https://blog.talosintelligence.com/2016/07/ranscam.html)。通用数据收集模块可以从该博客提取Ranscam的第一种子数据。
例如,在Cisco Talos博客(https://blog.talosintelligence.com/2016/07/ranscam.html)上,爬虫可以提取SHA256哈希函数(Ranscam源代码的哈希值)、恶意软件试图与之通信的服务器域地址以及IP地址、恶意软件所创建的文件的名称、以及域注册人的电子邮件地址,作为第一种子数据(Ranscam的威胁指标)。
同时,可以通过监控映射到从数据源收集的域的IP地址,以获得攻击者所使用的IP地址列表的方式提取恶意代码控制服务器的DNS信息的第二种子数据。原因在于,相同攻击者在分布新的恶意软件时更有可能使用相同或相似的IP地址列表。
更具体地,第二种子数据可以通过以下方式来创建:从数据源收集被动DNS复制信息,搜索第一种子数据中包含的C&C的IP地址和域地址,基于搜索结果提取域信息,解析IP地址、域地址、域注册人信息、注册到期日期等,并且将它们与域信息一起存储。
此后,通用数据收集模块110可以收集关于恶意代码和URL路径的数据119,以通过使用从恶意代码的第一种子和第二种子数据获得的新IP地址和域地址,访问该恶意代码、恶意代码文件或恶意代码开发者和交易者。
例如,通用数据收集模块110可以通过网络安全公司或安全组织所运行的DNS信息检索服务来收集恶意代码的数据源(即,DNS反射信息),通过搜索种子数据的C&C IP地址和域地址来识别C&C IP地址和域地址中记录的DNS反射信息和其它IP链接,通过执行跟踪来生成恶意代码的URL路径,直到没有更多的链接来遍历,并且根据URL路径来获取恶意代码二进制文件的原始数据119。
在这种情况下,恶意代码销售站点可能是隐藏的通用站点,也可能是无法通过普通浏览器访问的暗网。当恶意代码在暗网上交易时,特殊数据收集模块120可以获取相应的销售站点地址和恶意代码文件,其具体细节将在稍后对特殊数据收集模块120的描述中给出。
此外,数据处理模块130可以执行预处理以从收集到的原始数据中过滤掉无效或不必要的信息,并且可以对收集到的数据是否实际上对应于恶意代码进行标记。稍后将描述数据处理模块130的操作。
另一方面,通用数据收集模块可以通过对恶意代码的分析来获取其它销售站点的URL信息,并且通过链接到电子邮件账户的SNS账户获取能够跟踪销售站点上记录的电子邮件账户或者跟踪恶意代码的开发者或交易者的数据119。
在这种情况下,当通过比特币进行恶意代码的交易时,特殊数据收集模块120可以获取比特币交易数据,其具体细节将在稍后对特殊数据收集模块120的描述中给出。
同时,特殊数据收集模块120可以执行从需要单独访问权限的深网、只能通过特定浏览器访问的暗网和/或最近已经成为非法交易的交易工具的加密货币网络收集数据的功能。
更具体地,在需要访问权限的深网的情况下,特殊数据收集模块120可以预先准备针对诸如秘密社区和黑客论坛的监视列表的数据源113,获取对该数据源的访问权限,收集作为数据源中搜索基础的种子数据116,从种子数据中记录的IP识别另一连接的IP链接,并且通过跟踪来收集深网服务器上发布的数据119(包括与犯罪和威胁相关的安全关键字),直到没有更多的链接来遍历。
然而,在暗网的情况下,存在由于该网络对一般方法的搜索或爬虫进行防御而导致无法利用通用搜索引擎的问题。此外,在作为非法交易工具的加密货币的情况下,由于交易账本是非集中式的且使用加密算法和点对点(peer-to-peer)网络进行管理的,因此类似暗网数据,交易账本上的数据无法使用通用搜索引擎来收集,而是需要单独的装置来收集交易账本数据。
因此,根据本发明的实施例的特殊数据收集***120可以构建用于收集暗网数据126的***200以及用于收集交易账本数据的***。
图2是用于描述根据本发明的实施例的收集暗网数据的***的配置的示图。
在图2A的示例中,根据本发明的实施例的收集暗网数据的***200可以包括暗网域处理装置220、暗网信息处理装置210和暗网页面数据库230。当域处理装置220确定收集暗网信息的域,暗网信息处理装置210可以执行将关于从相应域获取的站点的所有信息存储在数据库230中的功能。
更具体地,根据本发明的实施例的暗网域处理装置220可以包括域收集器222、域状态***223、域数据库224和域分配器225。
根据本发明的实施例的域信息收集器222可以通过使用诸如FreshOnions的Tor搜索引擎来收集域地址或通过参考暗网域索引站点上记录的信息来收集域地址,并且将该域地址存储在域地址数据库224中。
同时,Tor网络是一种用于网络旁路(network bypass)和匿名化的工具,并且许多在线黑市驻留在Tor网络上的域中。这种黑市的特征在于频繁更改域地址以减少跟踪和关闭站点或重新运行关闭的站点的可能性。因此,根据本发明的实施例的暗网域处理装置220包括如图2B的示例所示的域状态***223,并且域状态***223可以执行以预设周期识别收集到的域的状态的功能。
例如,域状态***223可以以这种以预设周期识别收集到的域是否使用Tor的STEM API进行注册的方式来识别域地址数据库中存在的域的状态变化信息。也就是说,可以收集关于收集到的域地址是否关闭、运行或变化的信息,并且域数据库224可以将域的状态变化数据一起存储作为域地址数据的元数据。
此外,根据本发明的实施例的分配器225可以操作,以在参考域的注册状态的同时,将被识别为最近注册的域优先分配给分布式爬虫215。原因在于,考虑到暗网的频繁更改域的性质,使数据收集所需的时间和资源浪费最小化。
更具体地,根据本发明的实施例的域分配器225可以在参考域状态***223预先识别的域注册状态的同时,将被识别为最近注册的域优先分配给爬虫215。
另一方面,根据本发明的实施例的域分配器225可以识别分布式爬虫215的每个爬虫实例的状态,并且立即为已经完成爬取的爬虫实例分配待爬取的域。这是由于连接到域的站点大小不同,爬取所需的时间根据Tor网络的状态而不同。因此,当根据本发明的实施例的域分配器225将域动态地分配给爬虫实例时,分布式爬虫215的利用率被最大化并且在尽可能短的时间内收集大量数据。
同时,作为大多数暗网基础的Tor网络具有通过多个客户端节点建立通道的结构,这些客户端节点在中间运行Tor路由器,而无需立即与目的地通信。因此,与普通浏览器相比,通信速度非常慢。此外,由于数据包每次通过节点时会对数据包进行加密以获得匿名性,因此需要控制大多数节点以找出数据包的路径。
为了解决该问题,根据本发明的实施例的收集暗网数据的***200的特征在于,暗网信息处理装置210以Tor代理中间盒的形式运行,该Tor代理中间盒运行多个Tor节点。这是为了通过直接运行构成暗网架构的Tor节点来收集数据,因为一般爬虫由于暗网的结构而无法运行。
进一步地,根据本发明的实施例的Tor代理中间盒形式的暗网信息处理装置210可以配置至少一个或多个Tor节点容器212,在容器212中运行多个Tor客户端节点213,并且向节点中的每一个提供网卡、NIC214和网络代理216网络功能。
另外,可以并行运行多个分布式爬虫215,根据分布式爬虫215的运行而产生的大量暗网流量可以通过负载均衡器217和网络代理216而分配给正在直接运行的Tor客户端节点213。
考虑到Tor网络的结构和较慢的速度,存在以下问题,即在执行访问Tor网络的域和收集大量信息的过程时中会出现严重的瓶颈。本发明的上述架构被设计为将分布式爬虫215所产生的所有请求转发到暗网,并且将来自暗网的响应转发到分布式爬虫215,而没有瓶颈。
更具体地,由于数据处理装置(即,中间盒211)所设置的网络环境,可能会出现成为暗网数据收集障碍的第一瓶颈。例如,当向中间盒211提供网络的网络设备性能不足或带宽受诸如基于IP的带宽限制的网络策略限制时,可能会出现瓶颈。
为了解决该问题,根据本发明的实施例的Tor代理中间盒211可以在一个物理服务器上部署多个网卡(NIC)214,并且为这些网卡分配多个公共IP以将流量物理地分配给暗网。为了分配流量,中间盒可以运行包括多个Tor客户端213的多个虚拟容器212。
此后,中间盒可以对传入的暗网流量执行负载均衡217,并且将负载均衡的结果转发到每个容器,并且每个容器被配置为通过每个NIC将请求转发到暗网,从而解决物理瓶颈。
当Tor客户端并行处理多个请求时,可能会出现阻碍暗网数据收集的第二瓶颈。原因在于,当单个Tor客户端处置暗网上的分布式爬虫的大量请求时会产生负载。
为了解决该问题,根据本发明的实施例的Tor代理中间盒211可以被实施为使得多个虚拟容器运行并且每个容器运行多个Tor客户端。因此,可以通过每个容器将接收到的请求分配给正在运行的多个Tor客户端的方式来解决Tor客户端中出现的瓶颈。
图3是用于描述根据本发明的实施例的在收集暗网数据的***200中收集Tor网络数据的过程的示图。
根据本发明的实施例的暗网数据收集***200可以首先收集Tor网络的域列表。(步骤330)
为此,根据本发明的实施例的暗网数据收集***200的暗网域收集装置220可以使用诸如Ahmia和FreshOnions的Tor搜索引擎或暗网索引站点来收集域地址。
此外,Tor网络上的域地址可以通过以下方式来收集:使用收集到的域地址作为种子来爬取相应地址中的文本内容,并且跟踪暗网页面中包括的链接,直到没有更多的链接进行遍历。
在步骤350中,暗网数据收集***200可以以预设周期识别收集到的域地址的状态。例如,暗网数据收集***200可以使用Tor的STEM API来识别相应的域是否运行或关闭或者识别相应的域所运行的网页的内容是否已经添加、删除或更改,并且记录相应域的元数据中的状态更改信息。
此后,暗网数据收集***200可以实施分布式爬虫以及运行多个Tor节点的多个容器,并且将收集到的域分配给分布式爬虫。(步骤370)
更具体地,根据本发明的实施例的暗网数据收集***200可以在参考预先识别的域注册状态的同时,将被识别为最近注册的域优先分配给分布式爬虫,或者通过识别构成分布式爬虫的每个爬虫实例的状态,将后续待爬取的域动态分配给已经完成爬取的爬虫实例。
然后,根据爬虫的运行所产生的流量通过负载均衡器转发到每个容器,并且每个容器通过连接的NIC将请求转发到暗网。爬虫收集在相应域中运行的所有暗网页面并将它们记录在数据库中。(步骤390)
再次回到图1的描述,特殊数据收集模块120可以包括加密货币交易数据收集模块。
加密货币交易数据收集模块可以执行以下功能:收集与任意加密货币相对应的区块链的分布式账本信息,并且对从分布式账本信息中提取的区块链数据进行标准化。
更具体地,加密货币交易数据收集模块运行一个或多个加密货币客户端,该一个或多个加密货币客户端可以运行以收集区块链的分布式账本信息。是否运行加密货币客户端可以由用户的请求确定。
当加密货币客户端提供API时,加密货币交易数据收集模块可以从加密货币客户端的API请求交易信息,以收集与该请求相对应的分布式账本信息。当加密货币客户端不提供外部API时,加密货币交易数据收集模块可以通过解析加密货币客户端所管理的区块数据来收集分布式账本信息。
可以在数据处理模块130中分析收集到的分布式账本信息。例如,数据处理模块130可以对加密货币地址进行分组,以估计分布式账本信息中包括的加密货币地址的所有者。
为了对加密货币地址进行分组,可以使用以下算法中的至少一种:多输入启发式算法,该算法将一个交易中包括的多个输入地址进行分组;组集成算法,该算法使用用于交易的私钥将包含相同地址的多个组分组为一组;以及地址更改启发式算法,该算法使用汇款之后返回余额的地址对假定为相同所有者的多个地址进行分组。另外,可以使用用户自定义的启发式算法,并且可以根据用户命令来执行地址过滤和/或地址分组。
同时,在图1的示例中,通过通用数据收集模块110和特殊数据收集模块120的操作而收集的数据库125可能由于从多域收集的数据而处于非结构化状态。因此,需要对大量未提炼的数据进行预处理的过程,并且可以由数据处理模块130执行相应的功能。
更具体地,根据本发明的实施例的数据处理模块130可以通过根据大量收集数据的类型而应用不同的技术来执行提取和处理信息的功能,并且可以包括数据分析模块133、数据提炼模块136和元数据生成模块138。
例如,当收集到的数据是结构化或非结构化文档时,数据分析模块133可以将自然语言处理技术应用于收集到的文档来确定含义,并且数据提炼模块136可以根据预设格式对非结构化文档的形式进行标准化。作为另一示例,当收集到的数据是图像时,数据分析模块133可以提取文件的图像,并且通过图像处理来确定图像的内容。同时,数据提炼模块136可以通过使用光学字符识别(OCR)技术从所提取的图像中提取文本,并且根据预设格式对文本进行标准化。此外,元数据生成模块138可以生成关于待分析图像的创建者、创建时间、源域信息等的元数据。
另一方面,当收集到的数据是可运行文件时,数据分析模块133可以分析可运行文件的内容以确定该可运行文件是否为恶意代码,而数据提炼模块136可以基于收集到的域信息创建可运行文件访问恶意代码所通过的多个URL路径。此外,元数据生成模块138可以生成关于相应恶意代码的哈希值、文件类型以及每个URL路径的恶意代码访问计数器信息的元数据。
这种数据处理可以根据知识图谱创建模块140的请求而执行。也就是说,数据提炼模块136可以将在多域中收集的信息以可以根据知识图谱的格式记录在知识图谱中的形式进行标准化,并且数据分析模块133可以从基于知识图谱收集的信息中提取对象。
例如,当收集到的数据是加密货币交易记录,即分布式账本信息时,数据分析模块133可以对分布式账本信息进行分析,以获取分布式账本中未包括的附加信息。例如,可以对加密货币地址进行分组,以估计收集到的分布式账本信息中包括的加密货币地址的所有者。
为了对加密货币地址进行分组,可以使用以下的算法中的至少一种:多输入启发式算法,该算法将一个交易中包括的多个输入地址进行分组;组集成算法,该算法使用用于交易的私钥将包含相同地址的多个组分组为一组;以及地址更改启发式算法,该算法使用汇款之后返回余额的地址对假定为相同所有者的多个地址进行分组。另外,可以使用用户自定义的启发式算法,并且可以根据用户命令来执行地址过滤和/或地址分组。
多输入启发式算法可以使用加密货币的交易属性,其中一个交易中可以使用多个输入地址和多个输出地址(或目标地址)。当单个交易包括输入地址(公共地址)a、b和c时,a、b和c很可能是相同所有者的账户。因此,区块链数据分析模块115可以将a、b和c分组为所有者X的地址。
组集成算法利用所有者需要拥有私钥来创建交易输入的事实。当包括输入地址a、b和c的交易1以及包括输入地址c、d和e的交易2存在时,组集成算法估计a、b、c、d和e的所有者相同。因此,在这种情况下,数据分析模块133可以将地址a、b、c、d和e分组为所有者X的地址。
地址更改启发式算法可以利用每次进行加密货币交易时新创建地址来取回余额的特征。例如,当在地址a拥有10个UTXO(未花费的交易输出)的X向Y汇出8个UTXO时,为X创建新地址a',并且可以将2个UTXO的余额存入a'。因此,区块链数据分析模块115可以确定a和a'属于相同所有者,并且a和a'可以通过所有者X的地址进行分组。
数据提炼模块136可以根据预设标准对区块链数据进行标准化,该区块链数据包括数据分析模块所分析的分布式账本信息和加密货币地址组信息。分布式账本信息可以包括区块内(intra-block)交易信息,诸如区块创建时间、输入/输出量、交易费用、加密货币区块数据(例如,上一个块和下一个块)、交易量、费用、输入/输出加密货币地址等,并且可以作为元数据生成模块138所生成的元数据进行管理。因此,标准化的区块链数据可以包括各种加密货币的分布式账本信息中包括的加密货币区块数据和区块内交易信息,并且包括加密货币的类型以及数据分析模块133所分析的加密货币地址组信息。
同时,在图1的示例中,基于知识的图谱模块140可以以知识图谱的形式构建提炼数据,以执行识别对象之间的关系和相关性的功能。基于知识的图谱可以由节点和边组成。
更具体地,KB图谱模块140可以为在知识图谱中作为节点运行的对象预先创建模型,并且根据本发明的实施例的节点模型可以划分为概念和实例,并且以树的形式创建。例如,节点模型可以指用于前述种子数据、DNS、恶意代码、比特币交易地址等的数据中的每一个。可以使用标签来对相应节点的详细信息进行索引。
节点模型可以是针对诸如个人、工作、地点、国家或公司的全局域(globaldomain)创建的,或者可以是针对诸如漏洞、产品或网络攻击的特定域创建的。在这种情况下,图谱创建模块140可以为节点设置标签以区分不同类型的数据。标签可以包括节点的属性信息。
此外,KB图谱模块140可以记录描述知识图谱节点之间的关系的边的内容。边可以表示节点对象之间的相关性。在这种情况下,所有的边包括方向性,并且可以根据相关性的类型为边设置标签。
此外,KB图谱模块140可以利用从多域收集的数据库125来扩展知识图谱。例如,图谱创建模块140可以请求数据处理模块130将自然语言处理技术应用于数据库中记录的信息,以确定句子结构并识别句子中包括的对象之间的关系。
基于此,KB图谱模块140可以请求数据处理模块130从收集到的数据中提取关于对象和/或对象之间的关系的信息,并且将该信息以节点或边的形式添加到知识图谱中以扩展分类图谱(texonomy graph),或者创建被映射到预先构建的知识图谱的实体图谱。
此外,KB图谱模块140可以基于KB图谱来分析对象之间的相关性或预测任意事件。
例如,KB图谱模块140可以以多层的形式配置KB图谱。例如,在加密货币交易记录的情况下,图谱创建模块140可以使用数据处理模块130所处理的标准化区块链数据来构建用于加密货币交易的第一知识图谱,使用标准化多域数据来构建第二知识图谱(例如,用于恶意代码交易),并且通过映射第一知识图谱和第二知识图谱来创建基于多层的交易分析知识图谱。
在这种情况下,作为第一知识图谱的加密货币网络图谱可以通过从标准化区块链数据中提取的第一对象或第一属性来创建第一节点,并且使用节点之间的关系(边)来构建加密货币网络图谱。例如,可以创建诸如加密货币输入地址(对象节点)-转移量(边)-加密货币输出地址(对象节点)的网络图谱,或者诸如所有者X(对象节点)-转移量(边)-勒索软件(属性节点)的网络图谱。
此外,知识图谱创建模块140可以通过从标准化多域数据中提取的第二对象或第二属性来创建第二节点,并且使用节点之间的关系(边)来构建第二知识图谱。例如,知识图谱创建模块153可以使用从网页中提取的配置文件数据(profile data)来创建诸如用户ID(对象节点)-所有者(边)-加密货币地址(对象节点)的节点和边,并且通过使用从网页中提取的销售数据创建诸如加密货币地址(对象节点)-存款(边)-产品(对象节点)的节点和边,从而构建第二知识图谱。第二知识图谱也可以具有含有类似于用于加密货币交易记录的第一知识图谱的一层或多层的多层结构。这些层的知识图谱可以属于不同的类别。
知识图谱创建模块140可以通过映射彼此对应的第一节点和第二节点来创建交易分析知识图谱。例如,可以考虑以下情况:加密货币网络图谱的第一层中包括的节点A对应于地址a,节点B对应于地址b,两个地址属于相同组,并且知识图谱的层#1中包括的节点C是加密货币地址b。
由于节点B和节点C包含相同的信息,因此它们可以相互映射。也就是说,知识图谱可以具有多层结构,其中用于加密货币交易记录的第一知识图谱与第二知识图谱的节点相互映射。因此,如果使用交易分析知识图谱,则可以通过第二知识图谱的分量(component)来解释加密货币网络的第一知识图谱的分量。例如,当节点C通过所有者边连接到表示用户ID的节点D时,可以推断地址a和b的所有者是用户ID对应于节点D的个人。
提供本说明书及附图中公开的本发明的实施例仅仅是为了提供具体的示例,以便于描述本发明的技术内容并帮助理解本发明,而非旨在限制本发明的范围。对于本领域的普通技术人员显而易见的是,除了其中公开的实施例之外,还可以实施基于本发明的技术思想的其它修改。
Claims (6)
1.一种在数据收集装置中收集数据的方法,包括:
步骤A,使用分布式爬虫从暗网站点收集数据,所述暗网站点属于通过随机连接执行网络路由功能的至少一个或多个网络节点来建立通道的网络,所述暗网无法通过通用网络浏览器访问但能够通过预设的特定软件访问;以及
步骤B,将所收集到的数据以预设格式进行标准化,并且生成针对所收集到的数据的元数据,
其中所述步骤A包括:
收集网络的域信息;
识别所收集到的域是否已经变化,并且将被识别为最近注册的域优先分配给所述分布式爬虫;以及
通过处理所述网络节点中的所述分布式爬虫的请求,运行执行所述路由功能的多个所述网络节点,并且从与任意域相对应的暗网收集数据。
2.根据权利要求1所述的方法,进一步包括:
步骤C,创建基于知识的图谱,基于标准化数据和所述元数据来更新所述基于知识的图谱,并且基于所述基于知识的图谱来跟踪犯罪。
3.根据权利要求1所述的方法,在所述步骤A之前,进一步包括:
创建能够在记录了关于恶意代码的可靠信息的通用网络环境中访问的数据源列表;
通过爬取与所述数据源列表相对应的网页中存在的URL链接,收集作为网络或装置的操作***中的恶意代码攻击的指标的第一种子数据;
通过监控被映射到从数据源收集的域的IP地址,或者监控所述第一种子数据中包括的域信息或IP地址信息,收集控制所述恶意代码的服务器的DNS信息的第二种子数据,所述恶意代码具有命令与控制基础架构即C&C基础架构;以及
通过链接从所述第一种子数据和所述第二种子数据中获取的域信息或新IP地址信息来创建用于访问特定恶意代码的至少一个URL路径,并且收集恶意代码二进制数据。
4.根据权利要求3所述的方法,其中分配给所述分布式爬虫包括:
以预设周期收集关于所收集到的域地址是否关闭、运行和/或变化的状态信息,并且生成所述状态信息作为所收集到的域地址的元数据;以及
将所述状态信息中被识别为最近注册的域优先分配给所述分布式爬虫。
5.根据权利要求4所述的方法,其中分配给所述分布式爬虫包括:
将后续待爬取的域分配给构成所述分布式爬虫的爬虫实例之中的已经完成爬取的爬虫实例。
6.根据权利要求5所述的方法,其中分配给所述分布式爬虫包括:
配置至少一个或多个Tor节点容器,并且在所述容器中设置多个网卡;
在所述容器中的每一个中运行多个Tor节点客户端,并且向所述Tor节点客户端提供网络代理功能和负载均衡功能;以及
通过所述负载均衡功能和所述网络代理功能,将根据所述分布式爬虫的运行而产生的大量的暗网流量分配给所述Tor节点客户端。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2019-0019087 | 2019-02-19 | ||
KR1020190019087 | 2019-02-19 | ||
PCT/KR2020/001382 WO2020171410A1 (ko) | 2019-02-19 | 2020-01-30 | 멀티 도메인에서 데이터를 수집하는 방법, 장치 및 컴퓨터 프로그램 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113454621A true CN113454621A (zh) | 2021-09-28 |
Family
ID=72144118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080015599.XA Withdrawn CN113454621A (zh) | 2019-02-19 | 2020-01-30 | 用于从多域收集数据的方法、装置和计算机程序 |
Country Status (4)
Country | Link |
---|---|
US (2) | US11790016B2 (zh) |
JP (1) | JP7320866B2 (zh) |
CN (1) | CN113454621A (zh) |
WO (1) | WO2020171410A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114756837A (zh) * | 2022-06-16 | 2022-07-15 | 湖北长江传媒数字出版有限公司 | 一种基于区块链的数字内容溯源方法及*** |
CN115632785A (zh) * | 2022-09-08 | 2023-01-20 | 云南电网有限责任公司 | 一种基于洋葱网络的分布式控制器集群方法和装置 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11902242B1 (en) * | 2020-12-21 | 2024-02-13 | United Services Automobile Association (Usaa) | Nonexistant domain forwarding in authoritative zones |
JP7460564B2 (ja) | 2021-02-16 | 2024-04-02 | Kddi株式会社 | コンテナ環境構築システム、方法およびプログラム |
US11983161B2 (en) * | 2021-06-23 | 2024-05-14 | Bank Of America Corporation | System for mitigating data loss in an edge computing environment using machine learning and distributed ledger techniques |
CN114039782B (zh) * | 2021-11-10 | 2022-10-14 | 深圳安巽科技有限公司 | 一种暗网监控方法、***及存储介质 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1899822A2 (en) | 2005-07-01 | 2008-03-19 | MarkMonitor Inc. | Enhanced fraud monitoring systems |
US8566928B2 (en) * | 2005-10-27 | 2013-10-22 | Georgia Tech Research Corporation | Method and system for detecting and responding to attacking networks |
KR100875636B1 (ko) * | 2007-09-19 | 2008-12-26 | 한국과학기술정보연구원 | 그리드 컴퓨팅 기반 웹 크롤러 시스템 및 그 방법 |
US20090204610A1 (en) | 2008-02-11 | 2009-08-13 | Hellstrom Benjamin J | Deep web miner |
US8793239B2 (en) | 2009-10-08 | 2014-07-29 | Yahoo! Inc. | Method and system for form-filling crawl and associating rich keywords |
US8713676B2 (en) * | 2010-05-13 | 2014-04-29 | Verisign, Inc. | Systems and methods for identifying malicious domains using internet-wide DNS lookup patterns |
CN104796416A (zh) * | 2015-04-08 | 2015-07-22 | 中国科学院信息工程研究所 | 一种僵尸网络的模拟方法及*** |
US10044736B1 (en) * | 2015-09-21 | 2018-08-07 | ThreatConnect, Inc. | Methods and apparatus for identifying and characterizing computer network infrastructure involved in malicious activity |
US11218510B2 (en) * | 2015-10-28 | 2022-01-04 | Qomplx, Inc. | Advanced cybersecurity threat mitigation using software supply chain analysis |
EP3398088A4 (en) * | 2015-12-28 | 2019-08-21 | Sixgill Ltd. | SYSTEM AND METHOD FOR MONITORING, ANALYZING AND MONITORING DARK WEB |
KR101803225B1 (ko) * | 2017-02-03 | 2017-12-28 | 국방과학연구소 | 멀티 서버, 멀티도커 기반 고속 악성 웹사이트 탐지 시스템 및 방법 |
US10496994B2 (en) * | 2017-03-31 | 2019-12-03 | Ca, Inc. | Enhanced authentication with dark web analytics |
CN107066569A (zh) * | 2017-04-07 | 2017-08-18 | 武汉大学 | 一种分布式网络爬虫***及信息爬取的方法 |
US10862907B1 (en) * | 2017-08-07 | 2020-12-08 | RiskIQ, Inc. | Techniques for detecting domain threats |
CN107808000B (zh) * | 2017-11-13 | 2020-05-22 | 哈尔滨工业大学(威海) | 一种暗网数据采集与抽取***及方法 |
KR101852107B1 (ko) | 2017-11-22 | 2018-04-25 | (주)유니스소프트 | 다크웹 범죄정보 분석 시스템 및 그 방법 |
US11201881B2 (en) * | 2018-10-31 | 2021-12-14 | Hewlett Packard Enterprise Development Lp | Behavioral profiling of service access using intent to access in discovery protocols |
US11222083B2 (en) * | 2019-08-07 | 2022-01-11 | International Business Machines Corporation | Web crawler platform |
KR102257139B1 (ko) * | 2020-12-18 | 2021-05-27 | 한국인터넷진흥원 | 다크웹 정보 수집 방법 및 장치 |
CN115865427B (zh) * | 2022-11-14 | 2023-07-21 | 重庆伏特猫科技有限公司 | 一种基于数据路由网关的数据采集与监控方法 |
-
2020
- 2020-01-30 WO PCT/KR2020/001382 patent/WO2020171410A1/ko active Application Filing
- 2020-01-30 US US17/431,697 patent/US11790016B2/en active Active
- 2020-01-30 CN CN202080015599.XA patent/CN113454621A/zh not_active Withdrawn
- 2020-01-30 JP JP2021546246A patent/JP7320866B2/ja active Active
-
2023
- 2023-10-13 US US18/380,065 patent/US20240061893A1/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114756837A (zh) * | 2022-06-16 | 2022-07-15 | 湖北长江传媒数字出版有限公司 | 一种基于区块链的数字内容溯源方法及*** |
CN114756837B (zh) * | 2022-06-16 | 2022-08-30 | 湖北长江传媒数字出版有限公司 | 一种基于区块链的数字内容溯源方法及*** |
CN115632785A (zh) * | 2022-09-08 | 2023-01-20 | 云南电网有限责任公司 | 一种基于洋葱网络的分布式控制器集群方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2020171410A1 (ko) | 2020-08-27 |
US20240061893A1 (en) | 2024-02-22 |
JP2022520360A (ja) | 2022-03-30 |
US11790016B2 (en) | 2023-10-17 |
US20220138271A1 (en) | 2022-05-05 |
JP7320866B2 (ja) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11790016B2 (en) | Method, device and computer program for collecting data from multi-domain | |
US20230319090A1 (en) | Consolidating structured and unstructured security and threat intelligence with knowledge graphs | |
US10560471B2 (en) | Detecting web exploit kits by tree-based structural similarity search | |
JP7340286B2 (ja) | 知識グラフを用いてサイバーセキュリティを提供する方法、装置及びコンピュータプログラム | |
Sanchez-Rola et al. | Journey to the center of the cookie ecosystem: Unraveling actors' roles and relationships | |
Chen et al. | Ai@ ntiphish—machine learning mechanisms for cyber-phishing attack | |
Srivastava et al. | Preprocessing techniques in web usage mining: A survey | |
Reddy et al. | Literature survey on clustering techniques | |
KR102147167B1 (ko) | 멀티 도메인에서 데이터를 수집하는 방법, 장치 및 컴퓨터 프로그램 | |
Mehta et al. | A comparative study of various approaches to adaptive web scraping | |
Kim et al. | Implementation of hybrid P2P networking distributed web crawler using AWS for smart work news big data | |
Eswaran et al. | An enhanced network intrusion detection system for malicious crawler detection and security event correlations in ubiquitous banking infrastructure | |
CN103440454B (zh) | 一种基于搜索引擎关键词的主动式蜜罐检测方法 | |
Jha et al. | Intelligent phishing website detection using machine learning | |
Luo et al. | Botgraph: Web bot detection based on sitemap | |
Carragher et al. | Detection and discovery of misinformation sources using attributed webgraphs | |
Vlachos et al. | The SAINT observatory subsystem: an open-source intelligence tool for uncovering cybersecurity threats | |
KR20200061812A (ko) | 브라우저 모사를 이용한 딥웹 분석 시스템 및 그 분석 방법 | |
RU2791824C1 (ru) | Способ и вычислительное устройство для выявления целевого вредоносного веб-ресурса | |
Jayanetti et al. | Robots still outnumber humans in web archives in 2019, but less than in 2015 and 2012 | |
US20240214406A1 (en) | Cyber threat information processing apparatus, cyber threat information processing method, and storage medium storing cyber threat information processing program | |
Jamal et al. | Web log analyzer for semantic web mining | |
Yoon et al. | The Study of Criminal Lingo Analysis on Cyberspace and Management Used in Artificial Intelligence and Block-chain Technology | |
Mambetov et al. | DETECTION AND CLASSIFICATION OF THREATS AND VULNERABILITIES ON HACKER FORUMS BASED ON MACHINE LEARNING. | |
Bergman et al. | Recognition of tor malware and onion services |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Gyeonggi Do, South Korea Applicant after: Ace graphic Co.,Ltd. Address before: Gyeonggi Do, South Korea Applicant before: Ace Leibo Co.,Ltd. |
|
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210928 |