CN110866172A - 一种面向区块链***的数据分析方法 - Google Patents

一种面向区块链***的数据分析方法 Download PDF

Info

Publication number
CN110866172A
CN110866172A CN201911079968.7A CN201911079968A CN110866172A CN 110866172 A CN110866172 A CN 110866172A CN 201911079968 A CN201911079968 A CN 201911079968A CN 110866172 A CN110866172 A CN 110866172A
Authority
CN
China
Prior art keywords
data
block chain
block
nodes
transaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911079968.7A
Other languages
English (en)
Other versions
CN110866172B (zh
Inventor
高健博
任立峰
李青山
吴振豪
刘世克
冯向军
吴奇泽
司华友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Guoxin Cloud Clothing Technology Co Ltd
Nanjing Boya Blockchain Research Institute Co Ltd
Boya Chain Beijing Technology Co Ltd
Original Assignee
Beijing Guoxin Cloud Clothing Technology Co Ltd
Nanjing Boya Blockchain Research Institute Co Ltd
Boya Chain Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Guoxin Cloud Clothing Technology Co Ltd, Nanjing Boya Blockchain Research Institute Co Ltd, Boya Chain Beijing Technology Co Ltd filed Critical Beijing Guoxin Cloud Clothing Technology Co Ltd
Priority to CN201911079968.7A priority Critical patent/CN110866172B/zh
Publication of CN110866172A publication Critical patent/CN110866172A/zh
Application granted granted Critical
Publication of CN110866172B publication Critical patent/CN110866172B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种面向区块链***的数据分析方法,涉及区块链技术领域。该方法首先部署区块链的完整节点,将这些节点连接到区块链网络,并与区块链网络中的其他节点进行同步;通过RPC与部署的区块链节点进行通信,从区块高度为1的区块开始按顺序读取每个交易中的数据;对获取的每个交易中的数据依次判断其是否为与智能合约特征相关的无效数据,并对其进行编码并丢弃高于设定阈值的无效编码的数据;然后确定数据所使用的语言,最后进行敏感关键词的匹配及情感分类,并对匹配到敏感关键词的数据和判定为负面的数据进行报警。本发明方法针对区块链舆情的特点进行针对性的设计,有效的提高了区块链舆情数据分析的准确性。

Description

一种面向区块链***的数据分析方法
技术领域
本发明涉及区块链技术领域,尤其涉及一种面向区块链***的数据分析方法。
背景技术
网络舆情一直以来被认为是社情民意的重要表现方式,对网络舆情数据进行分析,有助于及时准确的了解网民的情感、态度、意见、观点。目前,各个单位对网络舆情的采集、分析、监控主要面向新闻、论坛、博客、微博等互联网渠道。
随着区块链技术的迅速发展,由于其具有不可篡改的特性,一些网民选择将舆情数据写入区块链,而这些舆情信息一旦被广泛传播,就会造成重大的社会影响。因此,对区块链网络中的舆情数据进行分析和监控是网络舆情工作中的重要组成部分。
与互联网舆情相比,区块链舆情主要具有以下特点:
1.采集形式不同;区块链舆情需要维护区块链节点,从区块链网络上实时同步数据。不能通过互联网爬虫***进行采集。
2.编码形式不同;目前主流的区块链***只接受二进制数据,因此舆情数据往往通过UTF-8编码后转换成二进制,写入区块链。从区块链上直接看到的数据均为二进制形式,需要先经过解码才能够被人阅读。
3.无效数据多;由于区块链数据和智能合约等数据写入同一个字段,因此对于舆情数据分析,有大量的智能合约相关数据是无效的。
4.多语言环境;由于区块链的跨国性,写入同一个区块链的数据有多种不同的语言,既有中文、英文等,也包括各种小语种。
然而,截至目前,尚未有较为高效、准确的针对区块链的舆情数据分析技术。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种面向区块链***的数据分析方法,实现及时、准确的分析和监控区块链中的舆情数据。
为解决上述技术问题,本发明所采取的技术方案是:一种面向区块链***的数据分析方法,包括以下步骤:
步骤1、部署区块链的完整节点,将这些节点连接到待进行数据分析的区块链网络,并与区块链网络中的其他节点进行同步;
步骤2、通过RPC与部署的区块链节点进行通信,从区块高度为1的区块开始按顺序读取每个交易中的数据,并保存区块、交易及交易中的数据信息;对获取的每个交易中的数据依次执行步骤3-7;
步骤3、通过特征匹配删除获取的数据中与运行在待进行数据分析的区块链网络上的智能合约特征相关的无效数据;
所述智能合约特征包括以下几种:(1)0x6060开头;(2)0x6080开头;(3)不计算0x,表示为16进制的长度为8+64*n,n≥0,且目标地址为合约地址,即该地址的code字段不为空;
步骤4、将获取的数据以UTF-8编码的格式进行解码,丢弃出现高于设定阈值无效编码的数据;
步骤5、通过多语种词典对获取的数据所属语种进行识别,确定数据所使用的语言;
步骤6、对获取的数据进行敏感关键词的匹配,如果匹配到敏感关键词,则对该条数据进行报警;
步骤7、通过跨语言情感分析的方式对获取的数据进行情感分类,将数据分为正面、中性、负面三大类,对判定为负面的数据进行报警。
采用上述技术方案所产生的有益效果在于:本发明提供的一种面向区块链***的数据分析方法,充分考虑了区块链舆情采集形式、编码形式、无效数据多、多语言环境等特点,进行针对性的设计,有效的提高了区块链舆情数据分析的准确性;并能够及时、准确的分析和监控区块链舆情,有效的拓展了网络舆情的监测范围,弥补了区块链舆情数据分析领域的空白。
附图说明
图1为本发明实施例提供的一种面向区块链***的数据分析方法的流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
下面结合附图对本发明实施例做进一步说明。
一种面向区块链***的数据分析方法,如图1所示,包括以下步骤:
步骤1、部署区块链完整节点,连接到区块链网络中进行同步;
本发明实施例中,设定区块链上数据为0x426c6f636b636861696ee88886e68385;
步骤2、通过RPC(Remote Procedure Call,即远程过程调用)与区块链节点进行通信,从区块高度为1的区块开始按顺序读取每个交易中的数据,并保存区块、交易、数据信息;
本实施例中,在读取过程中,读取到数据0x426c6f636b636861696ee88886e68385及其所在区块和交易的信息。
步骤3、通过特征匹配删除获取的数据中与运行在待进行数据分析的区块链网络上的智能合约特征相关的无效数据;
智能合约特征包括以下几种:(1)0x6060开头;(2)0x6080开头;(3)不计算0x,表示为16进制的长度为8+64*n(n≥0),且目标地址为合约地址(即该地址的code字段不为空)。本实施例中,区块链上的数据不符合以上条件,因此不是智能合约相关的无效数据。
步骤4、将获取的数据以UTF-8编码的格式进行解码,丢弃出现高于10%无效编码的数据。该数据解码后为“Blockchain舆情”,未出现无效编码。
步骤5、通过多语种词典对获取的数据所属语种进行识别,确定数据所使用的语言。
本实施例中,通过词典匹配,确定该数据为英文和中文混合,“Blockchain”为英文,“舆情”为中文。
步骤6、对获取的数据进行敏感关键词的匹配,包括重要人物、地点、事件等,如果匹配到敏感关键词,则对该条数据进行报警。
本实施例中,在“Blockchain舆情”中未匹配到敏感关键词。
步骤7、通过跨语言情感分析的方式对数据进行情感分类,将数据分为正面、中性、负面三大类,对判定为负面的数据进行报警。
本实施例中,对于中文和英文数据,采用现有的已训练的情感分类模型直接进行分类。对于其他语言的数据,分别将其通过翻译器翻译为中文和英文两个版本,分别通过中文情感分类模型和英文情感分类模型进行分类。若两个模型结果一致或接近(例如一个正面一个中性),则将一致结果作为最终结果(一个正面一个中性的最终结果取为正面);若两个模型结果冲突(一个正面一个负面),则标记该数据,提交人工处理。在本实施例中,“Blockchain舆情”是中性的,因此不会进行报警。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (2)

1.一种面向区块链***的数据分析方法,其特征在于:包括以下步骤:
步骤1、部署区块链的完整节点,将这些节点连接到待进行数据分析的区块链网络,并与区块链网络中的其他节点进行同步;
步骤2、通过RPC与部署的区块链节点进行通信,从区块高度为1的区块开始按顺序读取每个交易中的数据,并保存区块、交易及交易中的数据信息;对获取的每个交易中的数据依次执行步骤3-7;
步骤3、通过特征匹配删除获取的数据中与运行在待进行数据分析的区块链网络上的智能合约特征相关的无效数据;
步骤4、将获取的数据以UTF-8编码的格式进行解码,丢弃出现高于设定阈值无效编码的数据;
步骤5、通过多语种词典对获取的数据所属语种进行识别,确定数据所使用的语言;
步骤6、对获取的数据进行敏感关键词的匹配,如果匹配到敏感关键词,则对该条数据进行报警;
步骤7、通过跨语言情感分析的方式对获取的数据进行情感分类,将数据分为正面、中性、负面三大类,对判定为负面的数据进行报警。
2.根据权利要求1所述的一种面向区块链***的数据分析方法,其特征在于:步骤3所述智能合约特征包括以下几种:(1)0x6060开头;(2)0x6080开头;(3)不计算0x,表示为16进制的长度为8+64*n,n≥0,且目标地址为合约地址,即该地址的code字段不为空。
CN201911079968.7A 2019-11-07 2019-11-07 一种面向区块链***的数据分析方法 Active CN110866172B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911079968.7A CN110866172B (zh) 2019-11-07 2019-11-07 一种面向区块链***的数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911079968.7A CN110866172B (zh) 2019-11-07 2019-11-07 一种面向区块链***的数据分析方法

Publications (2)

Publication Number Publication Date
CN110866172A true CN110866172A (zh) 2020-03-06
CN110866172B CN110866172B (zh) 2023-01-03

Family

ID=69653515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911079968.7A Active CN110866172B (zh) 2019-11-07 2019-11-07 一种面向区块链***的数据分析方法

Country Status (1)

Country Link
CN (1) CN110866172B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632346A (zh) * 2021-01-11 2021-04-09 绵阳沸尔特科技有限公司 一种面向区块链***的数据分析方法
CN112925847A (zh) * 2021-02-22 2021-06-08 同济大学 一种针对区块链的数据处理与网络分析工具

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107018146A (zh) * 2017-05-09 2017-08-04 暨南大学 一种基于区块链技术的舆情检测平台建设方法
CN107103087A (zh) * 2017-05-02 2017-08-29 成都中远信电子科技有限公司 区块链大数据商情分析***
CN108769751A (zh) * 2018-05-02 2018-11-06 中广热点云科技有限公司 一种基于智能合约的网络视听管理支撑***
CN108776671A (zh) * 2018-05-12 2018-11-09 苏州华必讯信息科技有限公司 一种网络舆情监控***及方法
US20190188787A1 (en) * 2017-12-20 2019-06-20 Accenture Global Solutions Limited Analytics engine for multiple blockchain nodes
CN109992735A (zh) * 2019-03-19 2019-07-09 京东数字科技控股有限公司 舆情数据的处理方法及公有链***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107103087A (zh) * 2017-05-02 2017-08-29 成都中远信电子科技有限公司 区块链大数据商情分析***
CN107018146A (zh) * 2017-05-09 2017-08-04 暨南大学 一种基于区块链技术的舆情检测平台建设方法
US20190188787A1 (en) * 2017-12-20 2019-06-20 Accenture Global Solutions Limited Analytics engine for multiple blockchain nodes
CN108769751A (zh) * 2018-05-02 2018-11-06 中广热点云科技有限公司 一种基于智能合约的网络视听管理支撑***
CN108776671A (zh) * 2018-05-12 2018-11-09 苏州华必讯信息科技有限公司 一种网络舆情监控***及方法
CN109992735A (zh) * 2019-03-19 2019-07-09 京东数字科技控股有限公司 舆情数据的处理方法及公有链***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632346A (zh) * 2021-01-11 2021-04-09 绵阳沸尔特科技有限公司 一种面向区块链***的数据分析方法
CN112925847A (zh) * 2021-02-22 2021-06-08 同济大学 一种针对区块链的数据处理与网络分析工具

Also Published As

Publication number Publication date
CN110866172B (zh) 2023-01-03

Similar Documents

Publication Publication Date Title
CN106557695B (zh) 一种恶意应用检测方法和***
CN113420296B (zh) 一种基于Bert模型与BiLSTM的C源代码漏洞检测方法
CN111475649A (zh) 基于深度学习的虚假新闻预测方法、***、装置、介质
CN111723569A (zh) 一种事件抽取方法、装置和计算机可读存储介质
CN111177367B (zh) 案件分类方法、分类模型训练方法及相关产品
CN110866172B (zh) 一种面向区块链***的数据分析方法
US11003705B2 (en) Natural language processing and classification
CN115292568B (zh) 一种基于联合模型的民生新闻事件抽取方法
CN115359799A (zh) 语音识别方法、训练方法、装置、电子设备及存储介质
CN116561748A (zh) 一种组件子序列相关性感知的日志异常检测装置
CN115757695A (zh) 一种日志语言模型训练方法及***
CN110263345B (zh) 关键词提取方法、装置及存储介质
CN111859862B (zh) 文本的数据标注方法和装置、存储介质及电子装置
CN113434631A (zh) 基于事件的情感分析方法、装置、计算机设备及存储介质
CN113568969B (zh) 信息抽取方法、装置、设备以及计算机可读存储介质
CN111562943B (zh) 一种基于事件嵌入树及gat网络的代码克隆检测方法和装置
CN115115432A (zh) 基于人工智能的产品信息推荐方法及装置
CN109145297B (zh) 基于hash存储的网络词汇语义分析方法和***
CN111723568A (zh) 一种事件抽取方法、装置和计算机可读存储介质
CN115587599B (zh) 一种机器翻译语料的质量检测方法及装置
CN117077678B (zh) 一种敏感词识别方法、装置、设备及介质
CN114742016B (zh) 一种基于多粒度实体异构图的篇章级事件抽取方法及装置
KR102575752B1 (ko) 앙상블 분류모델을 이용한 검진데이터 분류장치 및 분류방법
CN111753521B (zh) 基于人工智能的阅读理解方法及相关设备
CN110197192B (zh) 自然语言处理、查询构建和分类

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant