CN112966126B

CN112966126B - 一种面向海量非结构化数据内容可查询可追溯的高可靠知识库构建方法

Info

Publication number: CN112966126B
Application number: CN202110216317.9A
Authority: CN
Inventors: 徐超; 陈勇
Original assignee: NANJING AUDIT UNIVERSITY
Current assignee: NANJING AUDIT UNIVERSITY
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2021-09-17
Anticipated expiration: 2041-02-26
Also published as: CN112966126A

Abstract

本发明公开了一种面向海量非结构化数据内容可查询可追溯的高可靠知识库构建方法，其特征在于它包括：(1)输入非结构化原始数据，采用二级结构进行存储：云端存储原始数据，区块链以交易的方式存储原始数据的摘要特征及原始数据之间的联系；(2)输入查询条件，自动提取查询条件的摘要信息作为查询依据；(3)将查询依据与区块链中的信息进行相关度匹配，返回直接相关结果及其该结果的前驱后继关系。本发明利用深度学习技术将非结构化数据的特征信息自动提取出来，使其能够方便的用于数据检索；同时利用区块链将这些检索的摘要信息及数据之间的关系保存起来，保障知识库的中数据检索和溯源的高可靠性。

Description

一种面向海量非结构化数据内容可查询可追溯的高可靠知识库构建方法

技术领域

本发明属于大数据存储和区块链应用领域，特别是涉及一种面向海量非结构化数据内容可查询可追溯的高可靠知识库构建方法。

背景技术

随着大数据的快速发展，利用图片、视频这样非结构化数据构建的应用越来越广泛，各类企业都十分注重相关数据的积累，通常以知识库的方式来管理。但构建的知识库主要是为应用而服务的，而知识库要能被有效应用，一方面要保证其存储的数据的可靠性，特别是一些决策支持类知识库，一旦数据缺失将可能导致完全相反的结果；另一方要提供较好的检索能力，包括根据关键字直接查找我们需要的内容，以及根据指定的内容查找它的来龙去脉。对于结构化数据，现有的数据库管理***已经能够实现较好的数据检索功能，但对于非结构化数据，由于其内容的异质性，现有的知识库通常是基于个人对非结构化数据的理解，通过自定义关键字的形式来构建搜索索引，建立关联。当需要搜索相关信息或搜索数据的来龙去脉时，仅能够根据关键字来进行查找。由于非结构化数据表现内容的丰富性，这种通过个人理解确定的简单关键字信息，并不一定能够完全体现非结构化数据本身所涵盖的所有方面。比如在警察进行案件取证的时候，一些图片或视频信息里可能无意间记录了一些关键证据，但这些图片或视频可能最初只是为了宣传某个产品而拍摄的，并不直接与这个案件相关，所以它的这个关键字里可能并没有对应的信息，因此，仅根据个人提取的非结构化关键字进行搜索，很多情况下会错失许多有用数据，这将使得知识库的作用大打折扣。

发明内容

本发明主要解决的技术问题是提供一种面向海量非结构化数据的知识库构建方法，能够从非结构化数据的内容层面进行数据检索和溯源，并保障知识库的可靠性。

在利用关键字对知识库中的数据进行查询时，现有的知识库难以基于非结构化数据的内容进行搜索。为解决上述问题，本发明利用深度学习技术自动提取非结构化数据的特征，并借助区块链结构，提出一种面向海量非结构化数据内容可查询可追溯的高可靠知识库构建方法，所述方法包括：

–输入图片、视频、声音等非结构化原始数据，采用“云+区块链”的二级结构进行存储。云端存储原始数据，区块链以交易的方式存储数据的摘要特征及联系；

–输入查询条件，自动提取数据的关键信息作为查询依据；

–将查询依据与区块链中的信息进行相关度匹配，返回直接相关结果及其该结果的前驱后继关系。

具体地，对于输入的图片、视频、声音等非结构化原始数据，采用云服务器保存。

具体地，对于非结构化数据的摘要特征及联系，采用区块链进行保存。为保障交易能够用于非结构化数据的按内容可靠查询，每一个交易T被表示为一个五元组T＝<E,H,ID,S,A>,其中,E表示交易证据，H表示交易数据的哈希、ID表示交易号、S表示数据发送方的数字签名、A表示交易摘要。一个区块中第i个交易可以表示为Ti＝<Ei,Hi,Di,Si,Ai>；其中：

–交易证据字段E为交易所依赖的证据项，证据项分为两大类：a)基于区块链上已有的证据，此时地址即为对应的交易号；b)新的证明材料，这类材料则需要上传到云端，然后将云端地址作为证明材料的地址。E的计算方式为E＝∪e,e∈ID|e∈Addr，其中，ID表示所有交易号的集合，Addr是所有云端地址的集合；

–交易证据字段的证据项之间通过“；”分隔；

–数据HASH字段对交易的一致性进行校验，其计算公式为H_e＝∪_e∈IDHash(e)|∪_e∈AddrHash(*e)，其中Hash(*e)表示对e所对应的云端地址中的数据进行hash；

–签名S是发送方的私要加密的数字签名，用来确定是发送方的身份；

–交易摘要A用来存储交易特征的信息。主要包括两个部分。第一个部分是根据交易类型给出的基本特征，比如交易接收人地址、交易金额等等，用A1表示。第二个部分是根据上传的证据信息自动提取的非结构化数据的元特征，比如通过图像识别获得的人物特征、物品特征，通过文字识别和自然语言处理获得的自动摘要等等，用A2表示；

–交易摘要A1各基本特征之间使用“，”分隔；交易摘要A2各特征之间使用“，”分隔，并且整个A2使用小括号囊括，交易摘要A1与A2之间使用“；”分隔；

具体地，在输入查询条件时，如果是非结构化数据，将根据数据类型(视频、图片、音频等)利用对应的深度学习模型自动提取相应的特征作为查询依据。这些深度学习模型是针对具体的知识库类型通过训练构建出来的。比如电力***设备知识库，其面向图片的深度学习模型将基于电力***相关设备的图片进行训练而获得。如果是关键字等结构化数据，则直接以关键字为查询依据；

具体地，在知识库中的数据与查询依据逐一匹配时，按如下步骤进行：

–首先查看查询依据是否有关键字，如果有，则根据关键字，区块链中的每个节点i按照完全匹配的原则，在各自所保存的每个区块每个交易的A1字段进行搜索，找到匹配项构成交易列表L1；

–每个节点将各自找到的匹配交易列表L1分别广播，由区块链的共识机制进行共识，如果共识成功则将该交易的加入到匹配列表EXR中，如果该交易的摘要中有特征字段，则将该交易的特征字段加入到特征列表SBL中；

–接着检测查询依据中是否有非结构化数据，如果有，则根据待查询的非结构化数据提取的特征，将其加入到SBL中，然后按照皮尔逊相似度比较方法，每个节点对各自保存的区块链中每个区块的每个交易的A2字段与SBL中的每个特征项进行相似度计算，将相似度大于阈值的交易提取出来，构成匹配列表L2；

–每个节点将各自找到的匹配交易列表L2分别广播，由区块链的共识机制进行共识，如果共识成功则将该交易的加入到匹配列表EXR中；

–依次遍历EXR中的每个交易，利用区块链的溯源机制，从其证据字段中找到与这个交易对应的所有相关交易，最后一并返回给查询者。

本发明的有益效果

本发明利用深度学习技术将非结构化数据的特征信息自动提取出来，使其能够方便的用于数据检索；同时利用区块链将这些检索的摘要信息及数据之间的关系保存起来，保障知识库的中数据检索和溯源的高可靠性(深度学习建模方法属于现有技术，本发明的创新点在于将其应用于数据检索，更重要的是检索结果与数据之间的关系设计)。

附图说明

图1是本发明进行知识库存储和非结构化数据查询示意图。

图2是区块交易字段结构示意图。

图3是交易字段示意图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

假设一张赤颈鹤的图片需要传入珍惜鸟类保护知识库，它是为了补充另外一张已经在知识库中的图片P(假设其地址为www.knowledgebase.com/pic/1.png)而添加的，而且这张照片里面还含有部分黑颈鹤的内容。如图1所示，这张图片的所有者将利用自己的用户ID(假设为1243)登录到珍惜鸟类保护知识库***，然后将该图片及其关键字“赤颈鹤”输入录入***上传。在上传的过程中，***首先通过网络上传到存储该知识库原始数据的云端地址，并返回该地址标志，假设该地址为www.knowledgebase.com/pic/2.png；接着，***会调用已有的非结构化数据特征提取模型中的图片特征提取模型，提取该图片对应的特征，假设该特征模型生成了10个维度的特征，其值分别为(0.223,0.323,0.523,0.752,0.531,0.631,0.724,0.891,0.133,0.343)。

接着，按照图2所示的交易结构，每个区块链节点会将其摘要信息组装为区块中的一个交易。首先填充证据字段E，由于该图片依赖于另一张图片P，而且其本身也是图片，所以证据字段应该是P的交易号和该照片本身的云端地址。对于P的交易号，在云服务器中存储了云端地址与交易号之间的对应关系，因此可以根据P的云端地址进行查找，假设www.knowledgebase.com/pic/1.png对应的交易号为14323113，那么此时证据字段E的值即为：“14323113，www.knowledgebase.com/pic/2.png”。其次，对于本次交易的交易号，将有全局进行统一分配，假设其值为“14324147”，对于签名则根据用户ID进行查找其私钥，然后用私钥加密其用户ID号1243，假设其结果为“1299498238a2345b”，则签名字段的值即为“1299498238a2345b”。最后对于交易摘要字段，一方面是用户输入的关键字“赤颈鹤”，另一方面即为该图片所对应的非结构化特征(0.223,0.323,0.523,0.752,0.531,0.631,0.724,0.891,0.133,0.343)，最后将所有字段合并进行MD5计算，字段之间用分号分隔，即：

MD5(14323113，www.knowledgebase.com/pic/2.png；14324147；1299498238a2345b；赤颈鹤,(0.223,0.323,0.523,0.752,0.531,0.631,0.724,0.891,0.133,0.343))＝72B0EEECCE3B0D1CBE28EC7620F1D205

因此，经过以上分析，该交易的值即为图3所示。

接着这个交易将打包进区块链，云端也将保存其图片地址www.knowledgebase.com/pic/2.png与交易号14324147之间的对应关系。

当用户输入查询条件，假设是一张包含有“黑颈鹤”的图片，没有输入关键字。此时***将同样借助非结构化数据特征提取模型中的图片特征提取模型，提取该图片对应的特征，假设该特征模型生成了10个维度的特征，其值分别为(0.433,0.532,0.237,1.342,0.623,0.712,0.561,0.792,0.122,0.353)。接着基于该组特征，每个区块链节点依次比较其保存的所有交易摘要中的非结构化特征。我们设定相似度阈值为0.7，采用皮尔逊相关系数进行特征相似度计算。对于前面输入的赤颈鹤的图片，由于其特征为(0.223,0.323,0.523,0.752,0.531,0.631,0.724,0.891,0.133,0.343)，计算其相似度：

因为0.7037>0.7，超过阈值。由于区块链中大部分节点都是诚实节点，他们发现前面输入的带有部分黑颈鹤内容的赤颈鹤的图片的交易匹配度已经超过了阈值，因此该交易将被正常节点广播。

所以，最终我们将发现有超过50％的节点都广播了该交易，因此该交易对应的图片及其与P(www.knowledgebase.com/pic/2.png)的链接关系都将被返回给查询用户。从而找到了这张与黑颈鹤相关联的图片及其溯源关系。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种面向海量非结构化数据内容可查询可追溯的高可靠知识库构建方法，其特征在于它包括：

(1)输入非结构化原始数据，采用二级结构进行存储：云端存储原始数据，区块链以交易的方式存储原始数据的摘要特征及原始数据之间的联系；原始数据的摘要特征及原始数据之间的联系通过区块的交易T表示：

T＝<E,H,ID,S,A>

式中，E表示交易证据，H表示交易数据的哈希、ID表示交易号、S表示数据发送方的数字签名、A表示交易摘要；交易摘要A用来存储交易特征的信息，包括两个部分：

a)根据交易类型给出的基本特征，用A1表示；

b)根据上传的证据信息，利用非结构化特征提取模型自动提取的非结构化数据的元特征，用A2表示；

(2)输入查询条件，自动提取查询条件的摘要信息作为查询依据；

(3)将查询依据与区块链中的信息进行相关度匹配，返回直接相关结果及其该结果的前驱后继关系；具体步骤为：

(3-1)首先查看查询依据是否有关键字：如果有，则根据关键字，区块链中的每个节点i按照完全匹配的原则，在各自所保存的每个区块每个交易的A1字段进行搜索，找到匹配项构成匹配交易列表L1后进行步骤(3-2)；如果无关键字，则直接进行步骤(3-3)；

(3-2)每个节点将各自找到的匹配交易列表L1分别广播，由区块链的共识机制进行共识，如果共识成功则将该交易加入到匹配列表EXR中；进一步判断，如果该交易的摘要中有特征字段，则将该交易的特征字段加入到特征列表SBL中；

(3-3)检测查询依据中是否有非结构化数据，如果有，则根据待查询的非结构化数据提取的特征，将其加入到SBL中，然后按照皮尔逊相似度比较方法，每个节点对各自保存的区块链中每个区块的每个交易的A2字段与SBL中的每个特征项进行相似度计算，将相似度大于阈值的交易提取出来，构成匹配交易列表L2；

(3-4)每个节点将各自找到的匹配交易列表L2分别广播，由区块链的共识机制进行共识，如果共识成功则将该交易的加入到匹配列表EXR中；

(3-5)依次遍历EXR中的每个交易，利用区块链的溯源机制，从其证据字段中找到与这个交易对应的所有相关交易，最后一并返回给查询者。

2.根据权利要求1所述的方法，其特征在于交易证据E分为两大类：

a)区块链上已有的证据；

b)输入的非结构化原始数据，作为交易证据E的非结构化原始数据需要上传至云端，云端地址作为交易证据的地址；

E的计算方式为E＝∪e,e∈ID|e∈Addr，其中，ID表示所有交易号的集合，Addr是所有云端地址的集合，e表示由交易号或者云端地址构成的序列的集合。

3.根据权利要求1所述的方法，其特征在于交易数据的哈希H对交易的一致性进行校验，其计算公式为：

其中，ID表示所有交易号的集合，Addr是所有云端地址的集合；Hash(e)表示对e所对应的交易号进行hash；Hash(*e)表示对e所对应的云端地址中的数据进行hash。

4.根据权利要求1所述的方法，其特征在于所述非结构化特征提取模型基于深度学习方法构建。

5.根据权利要求1所述的方法，其特征在于查询条件是结构化数据或非结构化数据，其中：

-结构化数据：直接以关键字作为查询依据；

-非结构化数据：根据非结构化数据的数据类型，利用对应的深度学习模型自动提取相应的摘要信息作为查询依据。