CN111444232A - 挖掘数字货币交易所地址的方法以及存储介质 - Google Patents

挖掘数字货币交易所地址的方法以及存储介质 Download PDF

Info

Publication number
CN111444232A
CN111444232A CN202010004655.1A CN202010004655A CN111444232A CN 111444232 A CN111444232 A CN 111444232A CN 202010004655 A CN202010004655 A CN 202010004655A CN 111444232 A CN111444232 A CN 111444232A
Authority
CN
China
Prior art keywords
address
exchange
addresses
wallet
transaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010004655.1A
Other languages
English (en)
Inventor
李祯
李琦
郑翊
吴明
余碧波
宣炎
孙通成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Miape Information Technology Co Ltd
Original Assignee
Shanghai Miape Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Miape Information Technology Co Ltd filed Critical Shanghai Miape Information Technology Co Ltd
Priority to CN202010004655.1A priority Critical patent/CN111444232A/zh
Publication of CN111444232A publication Critical patent/CN111444232A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种挖掘数字货币交易所地址的方法以及存储介质,该方法包括:获取待挖掘的交易所地址,并获取与交易所地址相关的部分或全部交易;从部分或全部交易中搜索出符合预定规则的交易所的多个地址,其中,预定规则表示交易的输入地址、交易金额和输出地址之间的相关性。通过上述技术方案,本发明至少能够提供一种有效地应用于交易所地址挖掘的方法。

Description

挖掘数字货币交易所地址的方法以及存储介质
技术领域
本发明涉及计算机技术领域,具体来说,涉及一种挖掘数字货币交易所地址的方法以及存储介质。
背景技术
比特币交易所是用户交易比特币的平台。用户通过自己的账户将比特币打到交易所提供的充币地址实现充币的操作,通过提供提币地址给交易所实现提币的操作。在交易所平台上,用户可以通过买***特币,并将其兑换成法币实现一次完整的交易。目前市场上有数百个比特币交易所,因此选择一个安全可靠的交易所对于用户来说是一个关键的问题。
用户无法得到真实有效的信息来评估交易所的好坏。比特币持有量是评估交易所的一个重要指标,但是用户无法得到这个信息。同时比特币交易量也是评估交易所的一个重要指标。2019年4月,区块链透明度研究所(BTI)发布了一份报告,报告指出,在货币市场市值(CMC)排名前25位的交易所中,有17个交易所存在超过了99%的虚假交易量,其中许多交易所的虚假交易量超过99.5%。在交易量调整后的前50排名中,仍然有35家存在大量虚假交易。实际上,在大多数排名网站列举的交易所中,有60%的交易所几乎没有任何交易量,而在这仅有的交易量中,有96%的交易还是虚假的。这意味着许多交易所不仅隐藏自己的比特币持有量,还伪造交易量以获得用户的青睐。
可以通过挖掘交易所地址,并且根据这些地址的余额、交易等来评估交易所的安全可靠程度。例如WhaleAlert监控了例如比特币、瑞波币、以太坊等多种虚拟货币的大额转账。TokenAnalyst计算多种虚拟货币每日的流入流出情况。但是,目前为止,未有公开过任何针对交易所比特币地址挖掘的具体算法,仅仅有一些粗略的描述。大多数的研究,则是集中在挖掘所有比特币地址背后的拥有者,而不会将拥有者锁定在交易所上,这些研究列举如下。
(1)爬虫抓取
一些工作指出,可以通过爬虫来收集比特币的标签。blockchain.com网站上提供给比特币地址打标签的服务,用户依次输入比特币地址、标签内容和网站链接并提交即可。同时在该网站上,用户可以输入比特币地址、标签内容或网站链接进行信息搜索。MichaelFleder等人编写了爬虫程序,用广度优先搜索来爬取bitcointalk.org网站,结合正则表达式以寻找可能包含比特币地址的post签名。然后他们获取这个字符串并验证它是否是一个合法的比特币公钥,以筛除大量不可能出现在区块链中的节点。DmitryErmilov等人提到了标签可以通过被动或者主动收集的方式获得。被动方式意味着对公共论坛和用户资料(例如Twitter、Reddit等)和暗网市场(例如Silkroad、Hub Marketplace等)进行网页爬虫。主动方式是指对比特币公司和数据实现过程进行人工分析。这种方法在交易所的比特币地址挖掘中是不可行的。因为交易所的比特币地址属于隐私信息,很少有用户或交易所会主动或被动地在网上暴露自己的比特币地址。
(2)地址前缀
一些工作指出,可以根据特殊的比特币地址前缀来获知地址的所有者。DmitryErmilov等人指出最常见的比特币交易公司有交易所、市场、矿池等。一些公司通常使用带有特定前缀的地址。由于地址是一个公钥,对于一个未知的私钥,如果要生成一个特定的地址,就必须尝试多个私钥,即需要一些额外的计算工作。例如,SatoshiBonescasino使用1change和1bones前缀,BTC-Eexchange使用1eEUR和1eUSD前缀。PopularAddress网站上列举出了按照产出数量排名的前100大比特币地址,我们可以看到这些地址的交易次数,总共收到的比特币数量,总共发送的比特币数量和最后余额。但是根据我们观察,交易所的比特币地址并不会有特殊的前缀,所以这个方法同样是不可行的。
(3)地址聚类
一些文章提出了用聚类算法对比特币地址进行聚类。DmitryErmilov等人提出了一种新的比特币地址聚类算法,他们用了一个概率模型来定义相似度,并用一种最大似然的方式进行比特币地址聚类。该算法与现有***的区别是双重的。首先,它不仅使用区块链信息进行聚类,而且使用了从互联网上采集的非链上数据。其次,他们将某些非链上数据视为在聚类过程中反对地址联合的投票。实验结果表明,该方法优于单纯基于区块链数据的聚类方法。ButianHuang等人评估了一些潜在的序列相似性方法,包括欧氏距离、动态时间规整、实序列编辑距离、最长公共子序列相似度。选择了一个适合于行为模式聚类问题的距离,即动态时间规整距离(DTW),并提出了一种类似于k-means的名为BPC的算法来进行比特币地址聚类。实验结果表明,BPC算法在聚类精度方面明显优于现有算法。
区块链地址聚类方法认为一个类中的地址可以认为属于同一个实体。现有的有关聚类算法在区块链地址挖掘中的应用的论文的大致思想就是先根据地址之间的转账关系来计算地址之间的相似度,然后再用聚类算法进行聚类。这些比特币地址聚类方法用于挖掘交易所地址的话,准确度是很低的。因为它们使用了固定的算法来计算地址之间的相似度,同时把一个实体拥有的比特币地址的行为模式归为一类。而交易所的比特币地址是分为了好几类,每一类地址都有不同的行为模式。所以地址之间的似然度是没法用统一的方式进行计算的。故这些聚类方法有通用性,但是没法用于交易所地址标签的挖掘。
目前只有地址聚类的方法能够用于挖掘交易所的比特币地址。地址聚类目前有两种实现:
实现一
DmitryErmilov等人不仅使用了区块链信息进行聚类,还使用了非链上信息来进行聚类。将某些非链上数据视为聚类过程中反对地址联合的投票。他们用了一个概率模型来定义相似度。
DmitryErmilov等人所提出的模型并不是为了捕捉真实世界的概率结构,而是为***地研究不同信息元之间的信任权衡提供了一种方法。他们建议用贪心方法求解对数最大似然问题,回顾比特币网络中的所有交易,这些交易会满足某一种启发式方法。在每一个步骤中,他们根据对数似然函数的值决定是否加入考虑的交易的地址所对应的聚类。
实现二
ButianHuang等人介绍了4种计算相似度的方法,包括欧氏距离、动态时间规整(DTW)、实序列编辑距离(EDR)和最长公共子序列(LCSS)。
ButianHuang等人选择DTW距离作为序列之间的相似性度量。他们认为EDR距离和LCSS相似度也可以处理两个长度不同的序列,但是EDR距离和LCSS相似度主要用于处理序列中的噪声,而区块链网络中的所有事务都是精确的,不存在噪声。
ButianHuang等人提出了一种名为BPC的算法,BPC算法与k-means聚类算法类似但不同。k-means聚类算法与BPC算法有三个主要区别。(1)k-means聚类随机初始化聚类中心,BPC对序列进行排序,从排序列表中均匀选择k个序列。(2)k-means聚类利用静态元组之间的欧氏距离,BPC利用序列之间的DTW距离。(3)k-means聚类使用在聚类中的元组的平均值作为聚类中心,BPC用计算序列在所有序列中到它第n/k近邻的最小距离的方式来选择序列作为聚类中心。同时他们进行了大量的实验来评估他们的算法与现有方法的有效性,并研究了其聚类中心初始化过程的影响。实验结果表明,该算法在聚类精度方面明显优于现有算法。
然而,聚类方法不适用于交易所地址挖掘。可以看到,他们在计算地址之间相似度的时候,使用的是单一的计算方式。他们认为,一个实体所拥有的比特币地址的行为模式都是一样的。这个假设并不适用于分析交易所地址的行为模式。因为在实际情况中,交易所的地址有好几类。每一类都有不同的用途,不同类的地址表现出的行为模式不一样。
此外,聚类的方法需要遍历区块链上所有的交易从而进行聚类,而不仅仅是与交易所相关的交易。因此聚类方法在应用于交易所地址挖掘的时候,效率是非常低的。
发明内容
针对相关技术中的上述问题,本发明提出一种挖掘数字货币交易所地址的方法以及存储介质,能够有效地应用于交易所地址挖掘。
本发明的技术方案是这样实现的:
根据本发明的一个方面,提供了一种挖掘数字货币交易所地址的方法,包括:
获取待挖掘的交易所地址,并获取与交易所地址相关的部分或全部交易;
从部分或全部交易中搜索出符合预定规则的交易所的多个地址,其中,预定规则表示交易的输入地址、交易金额和输出地址之间的相关性。
根据本发明的实施例,预定规则包括以下至少一种:如果一笔交易中的一个输入地址属于一个交易所,则一笔交易中的其他输入地址属于一个交易所;如果一笔交易包含两个输出且一个输出金额为整数,另一个输出金额为小数,则整数输出金额地址和小数输出金额地址属于同一个主体;对于向交易所转入大于预定金额数字货币的交易,如果全部的输出地址属于同一个交易所且全部的输入地址属于同一地址,则全部的输出地址和全部的输入地址属于同一个交易所。
根据本发明的实施例,搜索出符合预定规则的交易所的多个地址包括:根据预定规则,使用广度优先搜索算法来搜索交易所的多个地址。
根据本发明的实施例,上述方法还包括:根据交易所地址的行为模式,对搜索出的交易所的多个地址进行分类。
根据本发明的实施例,对搜索出的交易所的多个地址进行分类包括:确定交易所的多个地址中的每一个是充值钱包地址、热钱包地址或者冷钱包地址,其中,交易所钱包分为充值钱包、热钱包和冷钱包。
根据本发明的实施例,充值钱包地址中的数字货币转移至外部地址和热钱包地址,热钱包地址在与交易所地址相关的全部交易中的出现次数、交易金额和交易次数分别大于相应的阈值,冷钱包地址只与热钱包地址之间存在资金往来并且交易金额大于相应的金额阈值。
根据本发明的实施例,对搜索出的交易所的多个地址进行分类包括:选取交易所地址的特征;根据交易所地址的特征的特征值和与特征值相关联的阈值来构建分类器;利用分类器来检测交易所的多个地址中的任一个为冷钱包地址、热钱包地址或充值钱包地址。
根据本发明的实施例,对搜索出的交易所的多个地址进行分类包括:通过机器学习训练模型来构建分类器,并利用分类器来检测交易所的多个地址中的一个交易所地址是否为充值钱包地址。
根据本发明的实施例,对交易所的多个地址中的一个交易所地址的特征值进行归一化处理,并利用归一化之后的特征值来进行分类。
根据本发明的实施例,上述方法还包括:根据搜索出的交易所的多个地址来评估交易所的安全可靠程度。
根据本发明的另一个方面,还提供了一种存储介质,存储有程序,程序被执行以实现上述的挖掘数字货币交易所地址的方法。
本发明的上述技术方案,只需要采集一个确定的交易所地址即可搜索到该交易所几乎全部地址,原始数据采集的成本极低。只需要遍历与交易所相关的部分或全部交易,而不是遍历区块链上的所有交易,计算量小、运行时间更短。从纵向、前向、后向三个维度进行算法的设计,使得地址搜索更加全面,避免遗漏。通过将搜索出的交易所的多个地址分类为充值钱包地址、冷钱包地址或热钱包地址,可以更准确地描述了交易所地址的行为模式,得到的挖掘结果也更加准确。由于交易所地址的挖掘结果更准确,因此对交易所的安全可靠程度的评估也更加准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明一个实施例的挖掘比特币交易所地址的方法的流程图;
图2是一笔比特币交易的实例的示意图;
图3是根据本发明另一个实施例的挖掘比特币交易所地址的方法的流程图;
图4是不同类型钱包的地址之间的交互关系的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的实施例,提供了一种挖掘比特币(BTC)交易所地址的方法。本方法以比特币地址为例来进行介绍,而事实上,方法也适用于其他类型的数字货币,例如莱特币、比特现金、量子链等。
如图1所示,根据本发明实施例的挖掘比特币交易所地址的方法可以包括地址搜索的步骤,地址搜索可以包括:
S12,获取待挖掘的交易所地址。交易所地址可以通过一次充币操作来获得。然后,获取与交易所地址相关的部分或全部交易。
S14,从部分或全部交易中搜索出符合预定规则的交易所的多个地址,其中,预定规则表示交易的输入地址、交易金额和输出地址之间的相关性。地址搜索的含义是它可以根据交易所的一个地址搜索出其他相关的地址。这样,只需要采集一个确定的交易所地址即可搜索到该交易所几乎全部地址,原始数据采集的成本极低。并且,由于只需要遍历与交易所相关的交易,而不是遍历区块链上的所有交易,因此计算量小、运行时间更短。
比特币交易基于UTXO(未花费交易输出)模型,一笔交易包含一个或多个输入和一个或多个输出。交易的一个输入包含输入地址和输入金额,交易的一个输出包含:输出地址和输出金额。一个输入必须对应一条UTXO,该UTXO是之前某笔交易的一个输出并且在区块链上未被花费过。交易的输入金额总和减去输出金额总和是该笔交易花费的手续费。图2是一笔比特币交易(Transaction)的实例,在此笔交易中,1枚比特币从打款者转移到收款者。打款者使用三条UTXO作为输入,并构建了两个输出:1枚比特币转给收款者,0.020956枚比特币是找零。本次交易共花费0.001779枚比特币作为手续费。
基于比特币的上述交易模型,可以对表示交易的输入地址、交易金额和输出地址之间的相关性的预定规则进行预定义。根据本发明的实施例,对于地址搜索,将交易所地址之间的相关性建立为纵向模型、前向模型和后向模型这三个模型,纵向模型、前向模型和后向模型分别用于搜索符合相应预定规则的交易所的地址。
(1)纵向模型。与纵向模型对应的预定规则为:如果一笔交易中的一个输入地址属于一个交易所,则该笔交易中的其他输入地址属于该交易所。也就是说,对于比特币的一笔交易,如果输入地址中的一个地址属于某个交易所,则可以认为其他的输入地址均属于该交易所。通常,一笔比特币交易由一个独立用户发送,所以输入地址均属于同一个用户。尽管有些用户会使用混币算法把大量来自不同用户的UTXO聚合到一笔交易中,以此使得确定输入地址与输出地址之间的关系更加困难,但是该算法并未被交易所使用过。
(2)前向模型。与前向模型对应的预定规则为:如果一笔交易包含两个输出,并且一个输出金额为整数、另一个输出金额为小数,则整数输出金额地址和小数输出金额地址属于同一个主体。当该笔交易的两个输出中包括交易所的地址时,则整数输出金额地址和小数输出金额地址属于同一个交易所。对于一笔来自交易所的交易,如果该交易包含两个输出金额,且一个输出金额是整数,而另一个输出金额是小数,那么小数输出金额和输入金额属于同一交易所。这一现象可以描述一种典型的支付-找零类型的交易,由于整数容易被记住和交流,所以很多支付场景使用整数作为输出金额。比如,由于整数在交易所的网页端或手机应用上很容易填写入表单,所以很多提币金额都是整数。在这一场景下,找零的地址可以与交易所地址有效地联系起来。
(3)后向模型。与后向模型对应的预定规则为:对于向交易所转入大于预定金额比特币的交易,如果全部的输出地址属于同一个交易所且全部的输入地址属于同一地址,则全部的输出地址和全部的输入地址属于同一个交易所。可以根据实际应用情况设定预定金额比特币,如果一笔交易向交易所转入大于预定金额比特币,则可以认为该笔交易向交易所转入大量比特币。对于向一个交易所转入大量比特币的交易,如果输出地址全部属于同一个交易所,且所有输入地址全部属于同一地址,则该地址与输出侧地址属于同一交易所。这种交易经常在交易所整理钱包时出现。出于安全考虑,交易所经常将自己的资产转移到新的地址,这需要转移大量的比特币,也经常需要从同一地址合并大量UTXO。后向模型可以通过这一特征有效地搜索这些新地址。
在其他实施例中,预定规则可以是上述三种预定规则中的至少一种。在其他实施例中,也可以对表示交易的输入地址、交易金额和输出地址之间的相关性的预定规则进行其他可应用的配置。
基于以上纵向模型、前向模型和后向模型,可以使用广度优先搜索算法来搜索交易所的多个地址。在使用广度优先搜索算法从一个地址搜索出相关地址的实例中,广度优先搜索算法的输入是一个交易所的地址a0,该地址a0可以通过一次充币操作简单获得,广度优先搜索算法的输出是该交易所的地址集A,地址集A包含了a0以及经过搜索后筛选出的地址a0的所有相关地址。可以通过以下步骤来得到地址集A:
S101,初始化时A={a0},同时初始化一个队列Q=[a0]和一个空的地址集合T={};设置一个深度常数m,用来控制搜索的深度。
S102,搜索从深度常数m为1开始,将队列Q中的每一个地址依次赋值给a,然后获取到和地址a相关的全部交易,遍历获取的全部交易,按照纵向模型、前向模型、后向模型的顺序搜索出符合纵向模型、前向模型和后向模型的地址,并将这些地址输入到地址集合T中保存。
S103,遍历全部交易之后,对于集合T中的每一个地址,将该地址与地址集A中的地址进行对比,若该地址已在地址集A中存在则不进行操作,若地址集A中不存在该地址则将该地址存入地址集A中并将该地址加入到队列Q中,作为下层循环中的参数使用。一层循环结束后清空集合T。
S104,每层循环均结束之后,地址集A中将包含之前所有循环所搜索到的地址,队列Q中将只包含当前循环最新发现的地址,集合T被清空。
S105,直至到达设置的循环深度m或者该层循环中未搜索到新的地址(即队列Q为空),搜索结束,并返回搜索结果地址集A,即地址集A中的地址即为搜索到的符合预定规则的交易所的多个地址。经过对交易所的地址搜索实际结果分析,对于大部分交易所来说,可以将搜索深度m设置为3或4。如果搜索深度m过大,很多与交易所不相关的地址会被包含入搜索结果地址集A。在其他实施例中,可以将搜索深度m设置为其他任何适当的数值。
在一个示例中,由输入的交易所的地址a0得到地址集A的指令可以是:
Figure BDA0002354786790000091
Figure BDA0002354786790000101
其中,VerticalMining、ForwardMining、BackwardMining分别表示使用纵向模型、前向模型、后向模型进行地址搜索的操作。
由于本发明的地址搜索使用的纵向模型、前向模型、后向模型完全基于比特币交易特点进行建模,从纵向、前向、后向三个维度进行算法的设计,从而使得地址搜索更加全面,避免遗漏。
在经过地址搜索获得交易所的多个地址后,发明人对这些地址及其所涉及的交易进行了分析,得出了以下结果:
结果1,交易所的多个地址中具有极少部分特殊地址(以下称为地址a),数量一般为1个至5个,地址a中地址的特征是交易金额巨大,交易次数很多,且相关交易的输入地址均来自交易所的多个地址(地址集A)中的地址,极大部分输出为外部地址;
结果2,交易所的多个地址中具有极大部分的使用频次很低的地址(以下称为地址b),这些地址的交易金额不大(一般不超过1000比特币,大部分小于200比特币),且由外部地址转入,并直接或经过中转后进入地址a中的地址;
结果3,交易所的多个地址中具有一些极少活动的地址(以下称为地址c),交易所的大部分比特币资金存放在地址c的地址中,一般分散到3-5个地址存放,地址c中的地址只与地址a中的地址交互或者与地址c中的其他地址进行交互;
结果4,地址a中的地址金额维持相对的稳定,地址a中的地址金额大量转出到外部地址,之后地址c中的地址会向其转入整数枚比特币作为补充。另外,当地址b中的地址大量向地址a中的地址转入比特币时,地址a中的地址会将大量整数枚比特币转入地址c中的地址。
以上分析结果1至分析结果4可以用于表示交易所地址的行为模式。如图3所示,根据本发明实施例的方法还可以包括步骤S16,根据交易所地址的行为模式,对搜索出的交易所的多个地址进行分类。地址分类的含义是将地址搜索得到的交易所相关地址进行过滤和分类,以得到归属不同行为模式的交易所地址。
根据本发明的实施例,交易所钱包分为充值钱包、热钱包和冷钱包。应当理解的是,钱包是一种抽象构造,比特币客户端软件为用户抽象了钱包,以便检查钱包中包含的每个地址在区块链中是否具有与之相关的任何余额(交易输出)。图4是代表了不同类型钱包的地址之间的交互关系,其中箭头代表比特币的流动。基于以上特征,结合交易所的实际业务需求,结合图4所示,可以将搜索出的交易所的多个地址进行分类,确定所述交易所的多个地址中的每一个是充值钱包地址、热钱包地址或者冷钱包地址。具体来说,可以将交易所钱包建模为充值钱包、热钱包和冷钱包:
(1)充值钱包。交易所拥有的地址超过99.9%的地址都属于充值钱包地址。充值钱包由每个用户的充值地址组成,每个用户可以通过他的充值地址完成从外部地址向交易所账户充值比特币的操作。充值钱包地址中的比特币被转移到外部地址(提币操作)和热钱包地址。
(2)热钱包。热钱包地址负责实现比特币的转移,它可以作为输入地址或输出地址出现在几乎所有交易所相关的交易中。热钱包可能只包含10个至30个热钱包地址,但是热钱包地址的交易金额和交易次数巨大。该特点可以有效地区分出热钱包地址与其他地址。因此,可以分别对热钱包地址的在与交易所地址相关的全部交易中的出现次数、交易金额和交易次数设置相应的阈值,并根据相应的阈值确定交易所地址是否属于热钱包地址。
(3)冷钱包。交易所将其大部分比特币都存储在冷钱包地址中。为了保证资金安全,冷钱包需要离线,冷钱包地址只与热钱包地址发生资金往来。冷钱包地址的交易次数很少,但是交易金额相对来说都很大,交易金额大于相应的金额阈值(例如,每笔交易都超过100枚比特币)。
通过将搜索出的交易所的多个地址分类为充值钱包地址、冷钱包地址或热钱包地址,可以更准确地描述交易所地址的行为模式,得到的挖掘结果也更加准确。
在一些实施例中,可以根据搜索出的交易所的多个地址来评估交易所的安全可靠程度。由于交易所地址的挖掘结果更准确,因此对交易所的安全可靠程度的评估也更准确。
同时,属于不同交易所钱包的地址(充值钱包地址、冷钱包地址、热钱包地址)有不同的地址特征。可以选取多个维度的地址特征来描述充值钱包、冷钱包、热钱包的模型。地址特征可以包括:UTXO数量、余额、总收入、总支出、总交易数、每个块的平均交易数、平均交易间隔、总交易额、每个块的平均交易额、平均交易额、总输入地址数、每笔交易输入地址数、每个块的输入地址数、总输出地址数、每笔交易输出地址数、每个块输出地址数、来自热钱包的总收入金额、流向热钱包的总输出金额、来自冷钱包的总收入金额、流向热钱包的总输出金额。除上述特征外,地址的特征还可以包括其他特征,本发明对此不做限定。用户可以根据需求选取特征中的一种或多种来描述模型。
根据本发明的实施例,可以对交易所的多个地址中的各个地址的特征值进行归一化处理,并利用归一化之后的特征值来进行分类。具体的,基于以上的地址特征和钱包交互关系,可以使用Logistic回归算法来建立分类器,该分类器用于检测交易所的一个地址是否属于充值钱包地址、热钱包地址或冷钱包地址。在一个实施例中,可以通过归一化将各个地址的每个特征值归一化至[0,1]的范围内,归一化的公式如下所示:
Figure BDA0002354786790000131
其中,x表示地址的特征值的原始值,x’表示地址的特征值归一化之后的值,e表示当前地址所属的交易所,xmax,e和xmin,e分别表示交易所e的该特征值中的最大值和最小值。由于每个交易所的地址对应的特征值差异性较大,通过归一化处理可以在分类器中降低这些差异带来的影响。
对于热钱包和冷钱包,可以根据交易所地址的特征值和与特征值相关联的阈值来构建分类器,并利用分类器来检测交易所的多个地址中的任一个是否是冷钱包地址或是热钱包。在一个实施例中,分类器可以根据带有部分特征值及其阈值的预定义决策树来构建。对于热钱包和冷钱包采用分类器的原因是:一方面,由于冷钱包地址和热钱包地址的数量较少,对于冷钱包地址和热钱包地址没有特别多的样本;另一方面,冷钱包地址和热钱包地址容易通过一些特征值(例如,总交易数和总余额等)来直接区分出来。
对于充值钱包,可以通过机器学习训练模型来构建分类器,并利用该分类器来检测交易所的多个地址中的一个地址是否为充值钱包地址。
具体的,可以人工筛选一些样本来训练基于机器学习模型,比如逻辑回归模型的分类器。逻辑回归模型的输出可由如下公式表示:
Figure BDA0002354786790000132
其中函数f()公式为:
Figure BDA0002354786790000133
其中,n表示特征值的数量,x=(x0,…,xn-1,1)表示n个特征值,W=(w0,…,wn-1,wn)表示在训练模型过程中获得的n+1个参数。在一个实施例中,n=20。如果一个地址的分类器输出y>0.5,则此地址被标记为对应的钱包类型,例如被标记为充值钱包地址。如果一个地址没有被上述三个分类器中的任何一个标记钱包类型,即该地址没有被确定为充值钱包地址、冷钱包地址或热钱包地址中的任何一个,则将该地址过滤。
在一些实施例中,根据特征值及其阈值构建的分类器也可以用于检测交易所的多个地址中的任一个是否为充值钱包地址。
综上所述,借助于本发明的上述技术方案,只需要采集一个确定的交易所地址即可搜索到该交易所几乎全部地址,原始数据采集的成本极低。只需要遍历与交易所相关的交易,而不是遍历区块链上的所有交易,计算量小、运行时间更短。从纵向、前向、后向三个维度进行算法的设计,使得地址搜索更加全面,避免遗漏。通过将搜索出的交易所的多个地址分类为充值钱包地址、冷钱包地址或热钱包地址,可以更准确地描述了交易所地址的行为模式,得到的挖掘结果也更加准确。由于交易所地址的挖掘结果更准确,因此对交易所的安全可靠程度的评估也更加准确。
根据本发明的实施例,还提供了一种存储介质,存储有程序,所述程序被执行以实现上述的挖掘数字货币交易所地址的方法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种挖掘数字货币交易所地址的方法,其特征在于,包括:
获取待挖掘的交易所地址,并获取与所述交易所地址相关的部分或全部交易;
从所述部分或全部交易中搜索出符合预定规则的所述交易所的多个地址,其中,所述预定规则表示交易的输入地址、交易金额和输出地址之间的相关性。
2.根据权利要求1所述的方法,其特征在于,所述预定规则包括以下至少一种:
如果一笔交易中的一个输入地址属于一个交易所,则所述一笔交易中的其他输入地址属于所述一个交易所;
如果一笔交易包含两个输出且一个输出金额为整数,另一个输出金额为小数,则整数输出金额地址和小数输出金额地址属于同一个主体;
对于向交易所转入大于预定金额数字货币的交易,如果全部的输出地址属于同一个交易所且全部的所述输入地址属于同一地址,则全部的输出地址和全部的输入地址属于同一个交易所。
3.根据权利要求1所述的方法,其特征在于,搜索出符合所述预定规则的所述交易所的多个地址包括:
根据所述预定规则,使用广度优先搜索算法来搜索所述交易所的多个地址。
4.根据权利要求1所述的方法,其特征在于,还包括:根据交易所地址的行为模式,对搜索出的所述交易所的多个地址进行分类。
5.根据权利要求4所述的方法,其特征在于,对搜索出的所述交易所的多个地址进行分类包括:
确定所述交易所的多个地址中的每一个是充值钱包地址、热钱包地址或者冷钱包地址,其中,交易所钱包分为充值钱包、热钱包和冷钱包。
6.根据权利要求5所述的方法,其特征在于,其中,充值钱包地址中的数字货币转移至外部地址和热钱包地址,所述热钱包地址在与所述交易所地址相关的全部交易中的出现次数、交易金额和交易次数分别大于相应的阈值,所述冷钱包地址只与所述热钱包地址之间存在资金往来并且交易金额大于相应的金额阈值。
7.根据权利要求5所述的方法,其特征在于,对搜索出的所述交易所的多个地址进行分类包括:
选取交易所地址的特征;
根据所述交易所地址的特征的特征值和与所述特征值相关联的阈值来构建分类器;
利用所述分类器来检测所述交易所的多个地址中的任一个为所述冷钱包地址、所述热钱包地址或所述充值钱包地址。
8.根据权利要求5所述的方法,其特征在于,对搜索出的所述交易所的多个地址进行分类包括:
通过机器学习训练模型来构建分类器,并利用所述分类器来检测所述交易所的多个地址中的一个交易所地址是否为所述充值钱包地址。
9.根据权利要求5所述的方法,其特征在于,对所述交易所的多个地址中的一个交易所地址的特征值进行归一化处理,并利用归一化之后的特征值来进行所述分类。
10.根据权利要求1-9任一项所述的方法,还包括:根据搜索出的所述交易所的多个地址来评估交易所的安全可靠程度。
11.一种存储介质,存储有程序,所述程序被执行以实现权利要求1-10任一项所述的挖掘数字货币交易所地址的方法。
CN202010004655.1A 2020-01-03 2020-01-03 挖掘数字货币交易所地址的方法以及存储介质 Pending CN111444232A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010004655.1A CN111444232A (zh) 2020-01-03 2020-01-03 挖掘数字货币交易所地址的方法以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010004655.1A CN111444232A (zh) 2020-01-03 2020-01-03 挖掘数字货币交易所地址的方法以及存储介质

Publications (1)

Publication Number Publication Date
CN111444232A true CN111444232A (zh) 2020-07-24

Family

ID=71652478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010004655.1A Pending CN111444232A (zh) 2020-01-03 2020-01-03 挖掘数字货币交易所地址的方法以及存储介质

Country Status (1)

Country Link
CN (1) CN111444232A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699964A (zh) * 2021-01-13 2021-04-23 成都链安科技有限公司 模型构建方法、***、装置、介质、交易身份识别方法
CN112801784A (zh) * 2021-01-06 2021-05-14 中山大学 一种数字货币交易所的比特币地址挖掘方法及装置
CN113052577A (zh) * 2021-03-12 2021-06-29 北京工业大学 一种区块链数字货币虚拟地址的类别推测方法及***
CN113064953A (zh) * 2021-04-21 2021-07-02 湖南天河国云科技有限公司 基于邻居信息聚合的以太坊地址聚类方法及装置
CN113177596A (zh) * 2021-04-30 2021-07-27 中国人民银行数字货币研究所 一种区块链地址分类方法和装置
CN114819965A (zh) * 2021-01-21 2022-07-29 成都链安科技有限公司 区块链虚拟货币监测***
CN115660837A (zh) * 2022-09-05 2023-01-31 淮阴工学院 一种基于知识图谱的虚拟货币地址画像构建方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194677A (zh) * 2017-05-27 2017-09-22 国家计算机网络与信息安全管理中心 一种比特币区域流向的统计方法
CN109741183A (zh) * 2018-12-29 2019-05-10 北京金山安全软件有限公司 一种信息获取方法及装置
CN109918584A (zh) * 2019-03-25 2019-06-21 中国科学院自动化研究所 比特币交易所地址识别方法、***、装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194677A (zh) * 2017-05-27 2017-09-22 国家计算机网络与信息安全管理中心 一种比特币区域流向的统计方法
CN109741183A (zh) * 2018-12-29 2019-05-10 北京金山安全软件有限公司 一种信息获取方法及装置
CN109918584A (zh) * 2019-03-25 2019-06-21 中国科学院自动化研究所 比特币交易所地址识别方法、***、装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
北京星球节点传媒文化有限公司官方帐号: "交易所数据不透明?一文带你探寻交易所地址挖掘全过程", 《HTTPS://BAIJIAHAO.BAIDU.COM/S?ID=1652530212846290861&WFR=SPIDER&FOR=PC》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801784A (zh) * 2021-01-06 2021-05-14 中山大学 一种数字货币交易所的比特币地址挖掘方法及装置
CN112699964A (zh) * 2021-01-13 2021-04-23 成都链安科技有限公司 模型构建方法、***、装置、介质、交易身份识别方法
CN114819965A (zh) * 2021-01-21 2022-07-29 成都链安科技有限公司 区块链虚拟货币监测***
CN114819965B (zh) * 2021-01-21 2023-10-20 成都链安科技有限公司 区块链虚拟货币监测***
CN113052577A (zh) * 2021-03-12 2021-06-29 北京工业大学 一种区块链数字货币虚拟地址的类别推测方法及***
CN113064953A (zh) * 2021-04-21 2021-07-02 湖南天河国云科技有限公司 基于邻居信息聚合的以太坊地址聚类方法及装置
CN113064953B (zh) * 2021-04-21 2023-08-22 湖南天河国云科技有限公司 基于邻居信息聚合的区块链地址聚类方法及装置
CN113177596A (zh) * 2021-04-30 2021-07-27 中国人民银行数字货币研究所 一种区块链地址分类方法和装置
CN113177596B (zh) * 2021-04-30 2024-03-22 中国人民银行数字货币研究所 一种区块链地址分类方法和装置
CN115660837A (zh) * 2022-09-05 2023-01-31 淮阴工学院 一种基于知识图谱的虚拟货币地址画像构建方法及装置
CN115660837B (zh) * 2022-09-05 2023-05-30 淮阴工学院 一种基于知识图谱的虚拟货币地址画像构建方法及装置

Similar Documents

Publication Publication Date Title
CN111444232A (zh) 挖掘数字货币交易所地址的方法以及存储介质
CN110009174B (zh) 风险识别模型训练方法、装置及服务器
CN111291816B (zh) 针对用户分类模型进行特征处理的方法及装置
US20170286962A1 (en) Bulk Dispute Challenge System
CN113574556A (zh) 追踪区块链上的标记资金的流动
Burri et al. Transforming Payment Processes: A Discussion of AI-Enabled Routing Optimization
CN113159922A (zh) 一种数据的流向识别方法、装置、设备及介质
CN110728301A (zh) 一种个人用户的信用评分方法、装置、终端及存储介质
CN113240505A (zh) 图数据的处理方法、装置、设备、存储介质及程序产品
CN113537960A (zh) 一种异常资源转移链路的确定方法、装置和设备
Lee et al. Machine learning based bitcoin address classification
CN115375480A (zh) 基于图神经网络的异常虚拟币钱包地址检测方法
CN112990989B (zh) 价值预测模型输入数据生成方法、装置、设备和介质
Huang et al. A deep dive into nft rug pulls
Al-Sayyed et al. Mobile money fraud detection using data analysis and visualization techniques
Yang et al. ENHANCING FINANCIAL SERVICES THROUGH BIG DATA AND AI-DRIVEN CUSTOMER INSIGHTS AND RISK ANALYSIS
CN112907308B (zh) 数据检测方法和装置、计算机可读存储介质
Sen et al. Meta learning algorithms for credit card fraud detection
Krysovatyy et al. Classification Method of Fictitious Enterprises Based on Gaussian Naive Bayes
Galletta et al. Sharpening ponzi schemes detection on ethereum with machine learning
CN115796183A (zh) 数据字段统一标准命名方法及装置
Zhao et al. Detecting fake reviews via dynamic multimode network
Feng et al. Blockchain-oriented approach for detecting cyber-attack transactions
Ramani et al. Gradient boosting techniques for credit card fraud detection
Haddab Data Science & Machine Learning Methods for Detecting Credit Card Fraud

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200724

RJ01 Rejection of invention patent application after publication