CN107133371A - 一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法 - Google Patents

一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法 Download PDF

Info

Publication number
CN107133371A
CN107133371A CN201710506603.2A CN201710506603A CN107133371A CN 107133371 A CN107133371 A CN 107133371A CN 201710506603 A CN201710506603 A CN 201710506603A CN 107133371 A CN107133371 A CN 107133371A
Authority
CN
China
Prior art keywords
dik
cost
resource
data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710506603.2A
Other languages
English (en)
Inventor
段玉聪
邵礼旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hainan University
Original Assignee
Hainan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hainan University filed Critical Hainan University
Priority to CN201710506603.2A priority Critical patent/CN107133371A/zh
Publication of CN107133371A publication Critical patent/CN107133371A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明是一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法,并给出了资源形态包括数据、信息和知识等的解释和数据图谱、信息图谱和知识图谱的概念表示,属于分布式计算和软件工程学技术交叉领域。以计算决定存储,以存储服务搜索,仅仅从资源类型上无法判断资源应在哪一层图谱上进行存储,本发明根据用户投入找出花费最合理资源类型转移代价和计算代价的方案,合理确定资源对象搜索机制和资源空间组织方案,有利于资源搜索效率的提升。

Description

一种投入驱动的存储与计算一体化协同调整的面向事务处理 的时空效率优化方法
技术领域
本发明是一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法,将以数据、信息和知识等形态的资源根据存储代价和搜索代价综合考虑资源组织方案。主要用于通过数据图谱、信息图谱和知识图谱对以数据、信息和知识形态出现的资源进行合理组织和存储,提高搜索效率,属于分布式计算和软件工程学技术交叉领域。
背景技术
传统的搜索引擎技术根据用户的查询要求快速检索和排序网页资源,对于搜索引擎反馈的大量资源需要用户进行人工排查和筛选,导致搜索效率低下,难以满足用户快速获取到资源的需求。现有的技术包括基于机器学习的方法和基于本体的方法为应对这一挑战做出了许多贡献,然而,基于机器学习的方法缺乏有效的机制来明确地将经验知识与训练模型结合在一起,基于本体的方法受到人类专家方面沉重负担的限制。
知识图谱容纳资源规模较大,涵盖的知识领域广泛,并且能为用户提供智能搜索和问答服务。基于知识图谱的搜索侧重于图结构的逻辑推理计算,基于语义网三元组进行推理补充资源信息,实现Web从网页链接向概念链接的转变,支持用户按照语句进行检索,以图形化的方式向用户反馈结构化知识,准确定位用户所需资源,使用户从人工过滤网页寻找答案的模式中解脱出来,提高了搜索效率。
本文提出一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法关键技术在于对不同图谱上的搜索效率和将以数据、信息和知识等形态存在的资源根据在数据图谱、信息图谱和知识图谱上的综合代价进行存储,通过对资源的合理组织和存储能够达到搜索效率最优。
发明内容
技术问题:本发明的目的是提供一种对数据(DataDIK)、信息(InformationDIK)和知识(KnowledgeDIK)(我们定义数据为DataDIK,信息为InformationDIK,知识为KnowledgeDIK)等形态的资源的原始表述的自然语言的机器理解、自动处理、自动综合和自动分析方法,用于解决对不同类型、不同规模资源的高效组织和存储,以便提高在图谱上的搜索效率,降低搜索过程中所要耗费的代价。
技术方案:本发明是一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法,从应对自动增量式结合经验知识和减少人工专家交互负担等两个方面考虑,从资源处理、处理优化和资源管理等角度进行研究,基于对现有知识图谱(Knowledge Graph)概念的拓展提出了一种三层可自动抽象调整的解决架构。这个架构包括:数据图谱(DataGraphDIK)、信息图谱(InformationGraphDIK)和知识图谱(KnowledgeGraphDIK)(我们定义数据图谱为DataGraphDIK,信息图谱为InformationGraphDIK,知识图谱为KnowledgeGraphDIK)等三个层面。基于不同层次的图谱架构进行存储资源,提高搜索效率。
体系结构
图1给出了在DataGraphDIK,InformationGraphDIK和KnowledgeGraphDIK上查找资源的体系结构,获取到用户的资源查找对象集合(IPR)后,计算在资源存储空间(SOR)上搜索的代价。表1所示为对DataDIK、IntormationDIK和KnowledgeDIK等形态的资源以及对应图谱层次的介绍。表2所示为IPR中单位资源类型转换的原子代价,表3所示为SOR中单位资源类型转换的原子代价。下面我们给出DataGraphDIK,InformationGraphDIK和KnowledgeGraphDIK的具体说明。
我们定义DataGraphDIK为DataGraphDIK := collection{array, list, stack,queue, tree, graph}. DataGraphDIK是各种数据结构包括数组(array)、链表(list)、栈(stack)、队列(queue)、树(tree)和图(graph)等的集合(collection)。DataGraphDIK只能对图谱上表示的DataDIK进行静态分析,无法分析和预测DataDIK的动态变化。
我们定义InformationGraphDIK为InformationGraphDIK:= combination{relatedDataDIK}。InformationGraphDIK是相互关联的DataDIK(relatedDataDIK)的组合(combination),InformationDIK是通过DataDIK和DataDIK组合之后的上下文传达的,经过概念映射和相关关系组合之后的适合分析和解释的信息。在InformationGraphDIK上进行数据清洗,消除冗余数据。
我们定义KnowledgeGraphDIK为KnowledgeGraphDIK := collection{statisticrules}。KnowledgeGraphDIK实质是语义网络和由InformationDIK总结出的统计规则(statistic rules)的集合(collection)。KnowledgeGraphDIK蕴含丰富的语义关系,在KnowledgeGraphDIK上能通过信息推理和实体链接提高KnowledgeGraphDIK的边密度和结点密度,KnowledgeGraphDIK的无结构特性使得其自身可以无缝链接。信息推理需要有相关关系规则的支持,这些规则可以由人手动构建,但往往耗时费力,得到复杂关系中的所有推理规则更加困难。使用路径排序算法将每个不同的关系路径作为一维特征,通过在KnowledgeGraphDIK中构建大量的关系路径来构建关系分类的特征向量和关系分类器来提取关系。本发明将搜索目标资源集合定义为IPR:={IPR1,IPR2,IPR3},IPR的类型集合为X={X1,X2,X3},每种资源的规模为N={N1,N2,N3},资源空间为SOR={SOR1,SOR2,SOR3}, SOR的类型集合为Y={Y1,Y2,Y3},每种资源的规模为M={M1,M2,M3},假定IPR中所有类型资源已在当前资源存储空间(SOR)以任意一种存储方案存储完毕。类型变量集合为Z={DataDIK,InformationDIK,KnowledgeDIK},对不同类型变量进行赋值,DataDIK:=1,InformationDIK:=2,KnowledgeDIK:=3。
表1.资源类型的渐进形式
表2.IPR中单位资源类型转换的原子代价
标注:C11: 从X1转移到DataDIK的代价;
C12: 从X1转移到InformationDIK的代价;
C13: 从X1转移到KnowledgeDIK的代价;
C21: 从X2转移到DataDIK的代价;
C22: 从X2转移到InformationDIK的代价;
C23: 从X2转移到KnwledgeDIK的代价;
C31: 从X3转移到DataDIK的代价;
C32: 从X3转移到InformationDIK的代价;
C33: 从X3转移到KnowledgeDIK的代价。
表3.SOR中单位资源类型转换的原子代价
Y1 Y2 Y3
DataDIK C’11 C’12 C’13
InformationDIK C’21 C’22 C’23
KnowledgeDIK C’31 C’32 C’33
标注:C’11: 从DataDIK转移到Y1的代价;
C’12: 从InformationDIK转移到Y1的代价;
C’13: 从KnowledgeDIK转移到Y1的代价;
C’21: 从DataDIK转移到Y2的代价;
C’22: 从InformationDIK转移到Y2的代价;
C’23: 从KnwledgeDIK转移到Y2的代价;
C’31: 从DataDIK转移到Y3的代价;
C’32: 从InformationDIK转移到Y3的代价;
C’33: 从KnowledgeDIK转移到Y3的代价。
有益效果:
本发明提出了一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法,主要用于解决对于以DataDIK,InformaitionDIK和KnowledgeDIK形态存在的资源存储和资源搜索等问题。通过使用本发明提出的方法可以实现对不同类型资源的合理组织和存储,花费最合理的存储代价和搜索代价并实现最优的搜索效率。该方法具有如下优点:
1)对资源类型的划分;
将资源划分为DataDIK、InformationDIK和KnowledgeDIK,便于挖掘资源之间的联系,从DataDIK经过抽象得到InformationDIK、KnowledgeDIK,从KnowledgeDIK进行推理得到DataDIK、InformationDIK
2)允许跨层存储资源
仅仅通过资源类型无法判断出资源应存储在哪一类型图谱上,本发明提出假定资源初始存储在某一类型图谱上,根据资源搜索效率的计算和综合代价的计算确定资源的存储和搜索位置;
3)存储搜索计算一体化
一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法,通过存储代价和搜索代价综合考虑,选择综合代价最低的存储方案,达到花费较小存储代价的同时获得高效搜索资源的目标。
附图说明
图1是一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法流程图。
具体实施方式
一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法,其特征在于以计算来决定存储,以存储来服务搜索,综合考虑资源对象的搜索方案和资源空间的存储方案。具体实施方式为:
步骤1)对应于图1中操作001,对X中每个元素依次取Z中的值,形成组合情形X={X1i,X2j,X3k},i,j,k∈{1,2,3};
步骤2)对应于图1中操作002,对每种情形,根据公式1计算IPR中资源当前情形向每种情形转移的代价(CostMT1):
(1)
步骤3)对应于图1中操作003,对Y中每个元素依次取Z中的值,形成组合情形Y={Y1m,Y2n,Y3p},m,n,p∈{1,2,3};
步骤4)对应于图1中操作004,根据公式2计算在SOR中搜索IPR中资源所要花费的计算代价(Cost计算):
(2)
其中C(X1i,X2j,X3p->Y1m,Y2n,Y3p)为在SOR中查找IPR所要花费的代价,α和β分别表示图谱规模和资源类型转换代价占Cost计算的权重,均可通过数据训练得出,λ表示资源是否需要转换不同类型,若需要转换,则用0表示,否则,用1表示;
步骤5)对应于图1中操作005,对Y中每种情形,根据公式3计算Y中每种资源形态向SOR中资源当前情形转移的代价(CostMT2):
(3)
步骤6)对应于图1中操作006,根据步骤2、4、5得到的CostMT1ijk、CostMT2mnp和Cost计算,根据公式4计算从当前IPR向X转移的代价和Y中资源向SOR状态转移的代价和计算代价的总和(Total_Cost):
(4)
步骤7)对应于图1中操作007,获取用户预期投入(Inve0)。本发明设定一个总代价(Total_Cost0),对应于图1中操作008,将不同情形下Total_Cost的值与Total_Cost0进行比较,并将对应情形所需用户投入(Inve)和Inve0作比较,判断是否满足条件“Total_Costi<Total_Cost0 & Invei<Inve0”。009当Total_Cost小于Total_Cost0时,令Total_Cost0等于当前Total_Cost,若Total_Cost大于Total_Cost0时,执行下一步操作,用户投入计算方法如公式5所示:
(5)
其中γ表示单位代价所需用户投入,可通过数据训练得出;
步骤8)对应于图1中操作010,判断当X或Y中的组合是否穷举完毕。若没有穷举完毕,返回步骤1继续穷举。若穷举完,对应于图1中操作011,按照当前Total_Cost0对应的的方案调整IPR和SOR中资源的类型。

Claims (1)

1.一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法,其特征在于以计算来决定存储,以存储来服务搜索,将以数据(DataDIK)、信息(InformationDIK)和知识(KnowledgeDIK)等形态存在的资源(ResourceDIK)根据在数据图谱(DataGraphDIK)、信息图谱(InformationGraphDIK)和知识图谱(KnowledgeGraphDIK)上搜索的代价的进行存储,通过对ResourceDIK的合理组织和存储能够达到搜索效率最优,根据花费最合理的存储代价和搜索代价并实现搜索效率最优综合考虑在哪一层次的图谱上进行存储与搜索,本发明将搜索目标资源集合定义为IPR:={IPR1,IPR2,IPR3},IPR的类型集合为X={X1,X2,X3},每种资源的规模为N={N1,N2,N3},资源空间为SOR={SOR1,SOR2,SOR3}, SOR的类型集合为Y={Y1,Y2,Y3},每种资源的规模为M={M1,M2,M3},假定IPR中所有类型资源已在当前资源存储空间(SOR)以任意一种存储方案存储完毕,类型变量集合为Z={DataDIK,InformationDIK,KnowledgeDIK},对不同类型变量进行赋值,DataDIK:=1,InformationDIK:=2,KnowledgeDIK:=3,具体实现步骤为:
步骤1)对X中每个元素依次取Z中的值,形成组合情形X={X1i,X2j,X3k},i,j,k∈{1,2,3};
步骤2)对每种情形,根据公式1计算IPR中资源当前情形向每种情形转移的代价(CostMT1):
(1)
其中C1i表示从 X1转移到DataDIK或InformationDIK或KnowledgeDIK的代价,C2j表示从X2转移到DataDIK或InformationDIK或KnwledgeDIK的代价,C3k表示从X3转移到DataDIK或到InformationDIK或KnowledgeDIK的代价;
步骤3)对Y中每个元素依次取Z中的值,形成组合情形Y={Y1m,Y2n,Y3p},m,n,p∈{1,2,3};
步骤4)根据公式2计算在SOR中搜索IPR中资源所要花费的计算代价(Cost计算):
(2)
其中C(X1i,X2j,X3p->Y1m,Y2n,Y3p)为在SOR中查找IPR所要花费的代价,α和β分别表示图谱规模和资源类型转换代价占Cost计算的权重,均可通过数据训练得出,λ表示资源是否需要转换不同类型,若需要转换,则用0表示,否则,用1表示;
步骤5)对Y中每种情形,根据公式3计算Y中每种资源形态向SOR中资源当前情形转移的代价(CostMT2):
(3)
其中C’m1表示从DataDIK或InformationDIK或KnowledgeDIK转移到Y1的代价,C’n2表示从DataDIK或InformationDIK或KnwledgeDIK转移到Y2的代价,C’p3表示从DataDIK或InformationDIK或KnwledgeDIK转移到Y3的代价;
步骤6)根据步骤2、4、5得到的CostMT1ijk、CostMT2mnp和Cost计算,根据公式4计算从当前IPR向X转移的代价和Y中资源向SOR状态转移的代价和计算代价的总和(Total_Cost):
(4)
步骤7)本发明设定一个总代价(Total_Cost0),将不同情形下Total_Cost的值进行比较,并将对应情形所需用户投入(Inve)和用户期望投入(Inve0)作比较,当X或Y中的组合都穷举完毕时,找出Inve不超过Inve0的具有最小Total_cost的方案,用户投入计算方法如公式5所示:
(5)
所需用户投入,可通过数据训练得出;
步骤8)根据步骤8得到的具有最小Total_Cost的方案调整IPR和SOR中资源的类型。
CN201710506603.2A 2017-06-28 2017-06-28 一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法 Pending CN107133371A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710506603.2A CN107133371A (zh) 2017-06-28 2017-06-28 一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710506603.2A CN107133371A (zh) 2017-06-28 2017-06-28 一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法

Publications (1)

Publication Number Publication Date
CN107133371A true CN107133371A (zh) 2017-09-05

Family

ID=59736840

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710506603.2A Pending CN107133371A (zh) 2017-06-28 2017-06-28 一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法

Country Status (1)

Country Link
CN (1) CN107133371A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112000854A (zh) * 2020-08-24 2020-11-27 海南大学 面向本质计算与推理融合的跨模态的推荐方法与装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112000854A (zh) * 2020-08-24 2020-11-27 海南大学 面向本质计算与推理融合的跨模态的推荐方法与装置
CN112000854B (zh) * 2020-08-24 2021-10-01 海南大学 面向本质计算与推理融合的跨模态的推荐方法与装置

Similar Documents

Publication Publication Date Title
CN107038263B (zh) 一种基于数据图谱、信息图谱和知识图谱的搜索优化方法
CN107066634A (zh) 一种投入驱动的面向数据图谱、信息图谱和知识图谱的资源存储效率优化方法
Pandiri et al. An artificial bee colony algorithm with variable degree of perturbation for the generalized covering traveling salesman problem
CN104573106B (zh) 一种基于案例推理技术的城市建设智能审批方法
Ulanowicz Quantitative methods for ecological network analysis
CN103488537B (zh) 一种数据抽取、转换和加载etl的执行方法及装置
Sheikholeslami et al. A hybrid cuckoo–harmony search algorithm for optimal design of water distribution systems
CN107229878A (zh) 一种投入决定的安全性可定义的基于数据图谱、信息图谱和知识图谱的资源安全保护方法
Shi et al. Addressing adjacency constraints in rectangular floor plans using Monte-Carlo Tree Search
CN105550746A (zh) 机器学习模型的训练方法和训练装置
Digalakis et al. A multipopulation cultural algorithm for the electrical generator scheduling problem
Gorkemli et al. A quick semantic artificial bee colony programming (qsABCP) for symbolic regression
CN107451230A (zh) 一种问答方法以及问答***
CN107343010B (zh) 面向类型化资源的自动安全态势感知、分析与报警***
Salama et al. Learning Bayesian network classifiers using ant colony optimization
CN106874955A (zh) 一种基于深度卷积神经网络的三维形状分类方法
CN107038261A (zh) 一种基于数据图谱、信息图谱和知识图谱的处理架构资源可动态抽象的语义建模方法
CN114639483A (zh) 一种基于图神经网络的电子病历检索方法及装置
Zhu et al. Strategy optimization of weighted networked evolutionary games with switched topologies and threshold
CN107092705A (zh) 一种基于元素多维频度关联计算的数据图谱、信息图谱和知识图谱架构的语义建模方法
CN107330129A (zh) 面向类型化资源的投入驱动的存储与计算一体化的事务处理优化方法
Zhang et al. Optimal concurrent design based upon distributed product development life-cycle modeling
CN107133371A (zh) 一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法
CN105279388B (zh) 多层云计算框架协同的孕龄新生儿脑病历集成约简方法
Kacprzyk et al. Group decision making with fuzzy majorities represented by linguistic quantifiers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170905

RJ01 Rejection of invention patent application after publication