CN107133371A

CN107133371A - 一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法

Info

Publication number: CN107133371A
Application number: CN201710506603.2A
Authority: CN
Inventors: 段玉聪; 邵礼旭
Original assignee: Hainan University
Current assignee: Hainan University
Priority date: 2017-06-28
Filing date: 2017-06-28
Publication date: 2017-09-05

Abstract

本发明是一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法，并给出了资源形态包括数据、信息和知识等的解释和数据图谱、信息图谱和知识图谱的概念表示，属于分布式计算和软件工程学技术交叉领域。以计算决定存储，以存储服务搜索，仅仅从资源类型上无法判断资源应在哪一层图谱上进行存储，本发明根据用户投入找出花费最合理资源类型转移代价和计算代价的方案，合理确定资源对象搜索机制和资源空间组织方案，有利于资源搜索效率的提升。

Description

一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法

技术领域

本发明是一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法，将以数据、信息和知识等形态的资源根据存储代价和搜索代价综合考虑资源组织方案。主要用于通过数据图谱、信息图谱和知识图谱对以数据、信息和知识形态出现的资源进行合理组织和存储，提高搜索效率，属于分布式计算和软件工程学技术交叉领域。

背景技术

传统的搜索引擎技术根据用户的查询要求快速检索和排序网页资源，对于搜索引擎反馈的大量资源需要用户进行人工排查和筛选，导致搜索效率低下，难以满足用户快速获取到资源的需求。现有的技术包括基于机器学习的方法和基于本体的方法为应对这一挑战做出了许多贡献，然而，基于机器学习的方法缺乏有效的机制来明确地将经验知识与训练模型结合在一起，基于本体的方法受到人类专家方面沉重负担的限制。

知识图谱容纳资源规模较大，涵盖的知识领域广泛，并且能为用户提供智能搜索和问答服务。基于知识图谱的搜索侧重于图结构的逻辑推理计算，基于语义网三元组进行推理补充资源信息，实现Web从网页链接向概念链接的转变，支持用户按照语句进行检索，以图形化的方式向用户反馈结构化知识，准确定位用户所需资源，使用户从人工过滤网页寻找答案的模式中解脱出来，提高了搜索效率。

本文提出一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法关键技术在于对不同图谱上的搜索效率和将以数据、信息和知识等形态存在的资源根据在数据图谱、信息图谱和知识图谱上的综合代价进行存储，通过对资源的合理组织和存储能够达到搜索效率最优。

发明内容

技术问题：本发明的目的是提供一种对数据(Data_DIK)、信息(Information_DIK)和知识(Knowledge_DIK)（我们定义数据为Data_DIK，信息为Information_DIK，知识为Knowledge_DIK）等形态的资源的原始表述的自然语言的机器理解、自动处理、自动综合和自动分析方法，用于解决对不同类型、不同规模资源的高效组织和存储，以便提高在图谱上的搜索效率，降低搜索过程中所要耗费的代价。

技术方案：本发明是一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法，从应对自动增量式结合经验知识和减少人工专家交互负担等两个方面考虑，从资源处理、处理优化和资源管理等角度进行研究，基于对现有知识图谱（Knowledge Graph）概念的拓展提出了一种三层可自动抽象调整的解决架构。这个架构包括：数据图谱（DataGraph_DIK）、信息图谱（InformationGraph_DIK）和知识图谱（KnowledgeGraph_DIK）（我们定义数据图谱为DataGraph_DIK，信息图谱为InformationGraph_DIK，知识图谱为KnowledgeGraph_DIK）等三个层面。基于不同层次的图谱架构进行存储资源，提高搜索效率。

体系结构

图1给出了在DataGraphDIK,InformationGraph_DIK和KnowledgeGraph_DIK上查找资源的体系结构，获取到用户的资源查找对象集合（IPR）后，计算在资源存储空间（SOR）上搜索的代价。表1所示为对Data_DIK、Intormation_DIK和Knowledge_DIK等形态的资源以及对应图谱层次的介绍。表2所示为IPR中单位资源类型转换的原子代价，表3所示为SOR中单位资源类型转换的原子代价。下面我们给出DataGraph_DIK,InformationGraph_DIK和KnowledgeGraph_DIK的具体说明。

我们定义DataGraph_DIK为DataGraph_DIK := collection{array, list, stack,queue, tree, graph}. DataGraph_DIK是各种数据结构包括数组（array）、链表（list）、栈（stack）、队列（queue）、树（tree）和图（graph）等的集合（collection）。DataGraph_DIK只能对图谱上表示的Data_DIK进行静态分析，无法分析和预测Data_DIK的动态变化。

我们定义InformationGraph_DIK为InformationGraph_DIK:= combination{relatedData_DIK}。InformationGraph_DIK是相互关联的Data_DIK（relatedData_DIK）的组合（combination），Information_DIK是通过Data_DIK和Data_DIK组合之后的上下文传达的，经过概念映射和相关关系组合之后的适合分析和解释的信息。在InformationGraph_DIK上进行数据清洗，消除冗余数据。

我们定义KnowledgeGraph_DIK为KnowledgeGraph_DIK := collection{statisticrules}。KnowledgeGraph_DIK实质是语义网络和由Information_DIK总结出的统计规则（statistic rules）的集合（collection）。KnowledgeGraph_DIK蕴含丰富的语义关系，在KnowledgeGraph_DIK上能通过信息推理和实体链接提高KnowledgeGraph_DIK的边密度和结点密度，KnowledgeGraph_DIK的无结构特性使得其自身可以无缝链接。信息推理需要有相关关系规则的支持，这些规则可以由人手动构建，但往往耗时费力，得到复杂关系中的所有推理规则更加困难。使用路径排序算法将每个不同的关系路径作为一维特征，通过在KnowledgeGraph_DIK中构建大量的关系路径来构建关系分类的特征向量和关系分类器来提取关系。本发明将搜索目标资源集合定义为IPR:={IPR₁,IPR₂,IPR₃}，IPR的类型集合为X={X₁,X₂,X₃},每种资源的规模为N={N₁,N₂,N₃}，资源空间为SOR={SOR₁,SOR₂,SOR₃}, SOR的类型集合为Y={Y₁,Y₂,Y₃},每种资源的规模为M={M₁,M₂,M₃}，假定IPR中所有类型资源已在当前资源存储空间(SOR)以任意一种存储方案存储完毕。类型变量集合为Z={Data_DIK,Information_DIK,Knowledge_DIK}，对不同类型变量进行赋值，Data_DIK:=1,Information_DIK:=2,Knowledge_DIK:=3。

表1.资源类型的渐进形式

表2.IPR中单位资源类型转换的原子代价

标注：C₁₁: 从X₁转移到Data_DIK的代价；

C₁₂: 从X₁转移到Information_DIK的代价；

C₁₃: 从X₁转移到Knowledge_DIK的代价；

C₂₁: 从X₂转移到Data_DIK的代价；

C₂₂: 从X₂转移到Information_DIK的代价；

C₂₃: 从X₂转移到Knwledge_DIK的代价；

C₃₁: 从X₃转移到Data_DIK的代价；

C₃₂: 从X₃转移到Information_DIK的代价；

C₃₃: 从X₃转移到Knowledge_DIK的代价。

表3.SOR中单位资源类型转换的原子代价

	Y₁	Y₂	Y₃
				Data_DIK	C’₁₁	C’₁₂	C’₁₃
Information_DIK	C’₂₁	C’₂₂	C’₂₃
				Knowledge_DIK	C’₃₁	C’₃₂	C’₃₃

标注：C’₁₁: 从Data_DIK转移到Y₁的代价；

C’₁₂: 从Information_DIK转移到Y₁的代价；

C’₁₃: 从Knowledge_DIK转移到Y₁的代价；

C’₂₁: 从Data_DIK转移到Y₂的代价；

C’₂₂: 从Information_DIK转移到Y₂的代价；

C’₂₃: 从Knwledge_DIK转移到Y₂的代价；

C’₃₁: 从Data_DIK转移到Y₃的代价；

C’₃₂: 从Information_DIK转移到Y₃的代价；

C’₃₃: 从Knowledge_DIK转移到Y₃的代价。

有益效果：

本发明提出了一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法，主要用于解决对于以Data_DIK，Informaition_DIK和Knowledge_DIK形态存在的资源存储和资源搜索等问题。通过使用本发明提出的方法可以实现对不同类型资源的合理组织和存储，花费最合理的存储代价和搜索代价并实现最优的搜索效率。该方法具有如下优点：

1）对资源类型的划分；

将资源划分为Data_DIK、Information_DIK和Knowledge_DIK，便于挖掘资源之间的联系，从Data_DIK经过抽象得到Information_DIK、Knowledge_DIK，从Knowledge_DIK进行推理得到Data_DIK、Information_DIK；

2）允许跨层存储资源

仅仅通过资源类型无法判断出资源应存储在哪一类型图谱上，本发明提出假定资源初始存储在某一类型图谱上，根据资源搜索效率的计算和综合代价的计算确定资源的存储和搜索位置；

3）存储搜索计算一体化

一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法，通过存储代价和搜索代价综合考虑，选择综合代价最低的存储方案，达到花费较小存储代价的同时获得高效搜索资源的目标。

附图说明

图1是一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法流程图。

具体实施方式

一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法，其特征在于以计算来决定存储，以存储来服务搜索，综合考虑资源对象的搜索方案和资源空间的存储方案。具体实施方式为：

步骤1）对应于图1中操作001，对X中每个元素依次取Z中的值，形成组合情形X={X_1i,X_2j,X_3k},i,j,k∈{1,2,3}；

步骤2）对应于图1中操作002，对每种情形，根据公式1计算IPR中资源当前情形向每种情形转移的代价（CostMT1）：

(1)

步骤3）对应于图1中操作003，对Y中每个元素依次取Z中的值，形成组合情形Y={Y_1m,Y_2n,Y_3p},m,n,p∈{1,2,3}；

步骤4）对应于图1中操作004，根据公式2计算在SOR中搜索IPR中资源所要花费的计算代价（Cost_计算）：

(2)

其中C(X_1i,X_2j,X_3p->Y_1m,Y_2n,Y_3p)为在SOR中查找IPR所要花费的代价，α和β分别表示图谱规模和资源类型转换代价占Cost_计算的权重，均可通过数据训练得出，λ表示资源是否需要转换不同类型，若需要转换，则用0表示，否则，用1表示；

步骤5）对应于图1中操作005，对Y中每种情形，根据公式3计算Y中每种资源形态向SOR中资源当前情形转移的代价（CostMT2）：

(3)

步骤6）对应于图1中操作006，根据步骤2、4、5得到的CostMT1_ijk、CostMT2_mnp和Cost_计算，根据公式4计算从当前IPR向X转移的代价和Y中资源向SOR状态转移的代价和计算代价的总和（Total_Cost）：

(4)

步骤7）对应于图1中操作007，获取用户预期投入（Inve₀）。本发明设定一个总代价（Total_Cost₀），对应于图1中操作008，将不同情形下Total_Cost的值与Total_Cost₀进行比较，并将对应情形所需用户投入（Inve）和Inve₀作比较，判断是否满足条件“Total_Cost_i<Total_Cost₀ & Inve_i<Inve₀”。009当Total_Cost小于Total_Cost₀时，令Total_Cost₀等于当前Total_Cost，若Total_Cost大于Total_Cost₀时，执行下一步操作，用户投入计算方法如公式5所示：

(5)

其中γ表示单位代价所需用户投入，可通过数据训练得出；

步骤8）对应于图1中操作010，判断当X或Y中的组合是否穷举完毕。若没有穷举完毕，返回步骤1继续穷举。若穷举完，对应于图1中操作011，按照当前Total_Cost₀对应的的方案调整IPR和SOR中资源的类型。

Claims

1.一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法，其特征在于以计算来决定存储，以存储来服务搜索，将以数据（Data_DIK）、信息（Information_DIK）和知识（Knowledge_DIK）等形态存在的资源(Resource_DIK)根据在数据图谱（DataGraph_DIK）、信息图谱（InformationGraph_DIK）和知识图谱（KnowledgeGraph_DIK）上搜索的代价的进行存储，通过对Resource_DIK的合理组织和存储能够达到搜索效率最优，根据花费最合理的存储代价和搜索代价并实现搜索效率最优综合考虑在哪一层次的图谱上进行存储与搜索，本发明将搜索目标资源集合定义为IPR:={IPR₁,IPR₂,IPR₃}，IPR的类型集合为X={X₁,X₂,X₃},每种资源的规模为N={N₁,N₂,N₃}，资源空间为SOR={SOR₁,SOR₂,SOR₃}, SOR的类型集合为Y={Y₁,Y₂,Y₃},每种资源的规模为M={M₁,M₂,M₃}，假定IPR中所有类型资源已在当前资源存储空间(SOR)以任意一种存储方案存储完毕，类型变量集合为Z={Data_DIK,Information_DIK,Knowledge_DIK}，对不同类型变量进行赋值，Data_DIK:=1,Information_DIK:=2,Knowledge_DIK:=3，具体实现步骤为：

步骤1）对X中每个元素依次取Z中的值，形成组合情形X={X_1i,X_2j,X_3k},i,j,k∈{1,2,3}；

步骤2）对每种情形，根据公式1计算IPR中资源当前情形向每种情形转移的代价（CostMT1）：

(1)

其中C_1i表示从 X₁转移到Data_DIK或Information_DIK或Knowledge_DIK的代价，C_2j表示从X₂转移到Data_DIK或Information_DIK或Knwledge_DIK的代价，C_3k表示从X₃转移到Data_DIK或到Information_DIK或Knowledge_DIK的代价；

步骤3）对Y中每个元素依次取Z中的值，形成组合情形Y={Y_1m,Y_2n,Y_3p},m,n,p∈{1,2,3}；

步骤4）根据公式2计算在SOR中搜索IPR中资源所要花费的计算代价（Cost_计算）：

(2)

步骤5）对Y中每种情形，根据公式3计算Y中每种资源形态向SOR中资源当前情形转移的代价（CostMT2）：

(3)

其中C’_m1表示从Data_DIK或Information_DIK或Knowledge_DIK转移到Y₁的代价，C’_n2表示从Data_DIK或Information_DIK或Knwledge_DIK转移到Y₂的代价，C’_p3表示从Data_DIK或Information_DIK或Knwledge_DIK转移到Y₃的代价；

步骤6）根据步骤2、4、5得到的CostMT1_ijk、CostMT2_mnp和Cost_计算，根据公式4计算从当前IPR向X转移的代价和Y中资源向SOR状态转移的代价和计算代价的总和（Total_Cost）：

(4)

步骤7）本发明设定一个总代价（Total_Cost₀）,将不同情形下Total_Cost的值进行比较，并将对应情形所需用户投入（Inve）和用户期望投入（Inve0）作比较，当X或Y中的组合都穷举完毕时，找出Inve不超过Inve0的具有最小Total_cost的方案，用户投入计算方法如公式5所示：

(5)

所需用户投入，可通过数据训练得出；

步骤8）根据步骤8得到的具有最小Total_Cost的方案调整IPR和SOR中资源的类型。