CN108647266A - 一种异构数据快速分布存储、交互方法 - Google Patents

一种异构数据快速分布存储、交互方法 Download PDF

Info

Publication number
CN108647266A
CN108647266A CN201810399691.5A CN201810399691A CN108647266A CN 108647266 A CN108647266 A CN 108647266A CN 201810399691 A CN201810399691 A CN 201810399691A CN 108647266 A CN108647266 A CN 108647266A
Authority
CN
China
Prior art keywords
data
keyword
distributed storage
concordance list
isomeric
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810399691.5A
Other languages
English (en)
Inventor
陈新碧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Bazemun Zhe Zhe Network Technology Co Ltd
Original Assignee
Chongqing Bazemun Zhe Zhe Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Bazemun Zhe Zhe Network Technology Co Ltd filed Critical Chongqing Bazemun Zhe Zhe Network Technology Co Ltd
Priority to CN201810399691.5A priority Critical patent/CN108647266A/zh
Publication of CN108647266A publication Critical patent/CN108647266A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种异构数据快速分布存储、交互方法,将数据分散存储在多***立的设备上,采用可扩展的***结构,利用多台存储服务器分担存储负荷,这不但提高了***的可靠性、可用性和存取效率,还易于扩展;本发明采用的优化查询算法,采用了关键词计数排序策略,缩短查询时间。

Description

一种异构数据快速分布存储、交互方法
技术领域
本发明涉及数据处理技术领域,具体涉及一种异构数据分布存储、实时交互处理方法。
背景技术
在企业信息化建设进程中,大量的功能性应用被集成于企业信息门户***,需要对其进行集中统一管理,以满足共享数据应用的需求。但是,大量的功能性应用之间存在多类差异,体现在开发语言、开发平台、操作***、数据库管理***、网络通信协议等方面。其中,数据库差异相对突出,不同的***数据源和应用需求导致了数据结构上的差异性,由于异构数据库在数据访问和数据共享的方式不同,无法很好的实现数据之间的实时共享,因此,如何实现异构数据分布存储、实时交互处理是目前的技术难题。
发明内容
本发明的目的就是提供一种异构数据快速分布存储、交互方法,它可以解决异构数据的分布存储和实时交互处理问题,实现数据之间的实时共享。
本发明的目的是通过这样的技术方案实现的,具体步骤如下:
1)拆分异构数据,存入数据中心缓存,并在缓存中对数据种类进行编号;
2)对缓存中的工况数据进行去冗余处理;
3)计算每种数据的量占总数据量的比重ΣPi=1,其中Si为某类数据量,S为总数据量;
4)设置阈值向量P1′,P2′,...,Pi′,0<P1′<...<Pn′<1,并设定n1,n2,...,nk的值,其中n1,n2,...,nk均为大于0的整数,其中阈值向量和ni根据实际需要设置不同的个数和数值大小;
5)比较Pi与P1′,P2′,...,Pi′的大小:若Pi<P1′,则n1种数据存入同一从服务器中;若P1′<Pi<P2′则n2种数据存入同一从服务器中;依次类推,若Pi>Pi′,则该种数据存入nk个从服务器中;
6)根据分布式存储数据的存储地址,建立异构索引表;
7)接收用户端发送的查询请求,将检索目标内容进行关键词提取;
8)根据异构索引表逐级查询关键词所在的位置;
9)将查询后的信息分发至数据库配置信息中对应的数据存储数据库,从对应的数据存储数据库中提取所需数据;
10)将步骤9)中提取的所需数据汇总并返回给用户端。
进一步,步骤6)中所述建立异构索引表的具体步骤如下:
6-1)对新的数据集提取关键词,并进行预处理得到关键词在该数据集中的查询计数;
6-2)将关键词按查询计数从小到大排序,并形成计数表;
6-3)以计数表为基础,逐级构建索引形成索引表,每级索引表包含对应的关键词及其对应的数据对象信息;
6-4)建立索引表与源数据库的映射关系,根据索引信息可获得数据所在位置信息。
进一步,步骤8)中所述根据异构索引表逐级查询关键词所在的位置的具体步骤如下:
8-1)将用户端的查询请求与索引的关键词库进行映射,将原查询映射到目标查询;
8-2)对查询中的关键词按照计数表中计数大小排序;
8-3)按计数大小从小到大依次读取查询中的关键词,在索引表中自上向下逐级查询,找到匹配的关键词。
进一步,步骤10)中所述提取的所需数据汇总并返回给用户端的具体方法为:
根据数据映射关系从对应的数据集中提取所需数据并汇总,将提取的数据转换为所需的数据格式,返回给用户端。
进一步,步骤1)中所述在缓存中对数据种类进行编号的具体步骤如下:
1-1)对采集到的工业***原始数据进行预处理,即对原始工况数据进行拆分、数据合法性验证、不同数据逻辑关联提取和数据格式转换;
1-2)将预处理后的工况数据存入缓存;
1-3)在缓存中对数据种类进行编号。
进一步,步骤2)中所述对缓存中的工况数据进行去冗余处理的具体步骤如下:
2-1)通过提前设定数据优先级,筛选出工况数据中的非关键信息,对它们进行丢弃处理;
2-2)提取工况数据的重复性公共信息;
2-3)采用无损压缩算法对工况数据进行压缩处理。
进一步,步骤5)中所述从服务器,根据数据热度来存储数据,多类型数据可对应同一节点,将数据节点存储空间按热度分为高速容量小、快速容量中等、中速容量大这三个层次;新鲜数据更新时,第一级按一定的分钟数放入最近更新或者访问最频繁的数据,第二级按一定的天数放入最近更新或者访问最频繁的数据,第三级按事先约定的时间周期放入更新或者访问最频繁的数据;所述数据热度,依据工业过程工况数据的访问频度和访问时间确定。
由于采用了上述技术方案,本发明具有如下的优点:
本发明的分布式存储***是将数据分散存储在多***立的设备上,采用可扩展的***结构,利用多台存储服务器分担存储负荷,这不但提高了***的可靠性、可用性和存取效率,还易于扩展。实时交互处理方法可以提高数据处理效率,能实现实时处理;采用关键词计数排序策略,节省了数据存储空间和计算量,缩短了索引构建的时间;采用数据分层查询,利用查询计数提高了数据查询效率;构建的内存数据库***将内存数据库与磁盘数据库高效的结合,用磁盘数据库弥补内存数据库的不同,同时将两者之间相互关联,提升整个***的实时性并降低***的运行负载。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和权利要求书来实现和获得。
附图说明
本发明的附图说明如下。
图1为本发明的架构示意图;
图2为本发明分布示存储流程示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
一种异构数据快速分布存储、交互方法,具体步骤如下:
1)拆分异构数据,存入数据中心缓存,并在缓存中对数据种类进行编号;
2)对缓存中的工况数据进行去冗余处理;
3)计算每种数据的量占总数据量的比重ΣPi=1,其中Si为某类数据量,S为总数据量;
4)设置阈值向量P1′,P2′,...,Pi′,0<P1′<...<Pn′<1,并设定n1,n2,...,nk的值,其中n1,n2,...,nk均为大于0的整数,其中阈值向量和ni根据实际需要设置不同的个数和数值大小;
5)比较Pi与P1′,P2′,...,Pi′的大小:若Pi<P1′,则n1种数据存入同一从服务器中;若P1′<Pi<P2′,则n2种数据存入同一从服务器中;依次类推,若Pi>Pi′,则该种数据存入nk个从服务器中;
6)根据分布式存储数据的存储地址,建立异构索引表;
建立异构索引表的具体步骤如下:
6-1)对新的数据集提取关键词,得到关键词集合;
6-2)将关键词集合中的每个关键词在新的数据集上扫描,得到关键词的查询计数;
6-3)将关键词按查询计数从小到大排序,并按顺序给每个关键词标号;
6-4)按关键词计数顺序构建上一层节点,逐级构建索引形成索引表,每级索引表包含对应的关键词及其对应的数据对象信息;
6-5)建立索引表与源数据库的映射关系,根据索引信息可获得数据所在位置信息。
7)接收查询请求,将检索目标内容进行关键词提取;
8)根据异构索引表逐级查询关键词所在的位置;
查询关键词所在的位置的具体步骤如下:
8-1)将用户端的查询关键词与索引的关键词库进行映射,将原查询映射到目标查询;
8-2)检索计数表,得到关键词查询计数顺序号;
8-3)按计数顺序号从小到大依次读取查询中的关键词,在索引表中自上向下逐级查询,找到匹配的关键词。
7)接收用户端发送的查询请求,将检索目标内容进行关键词提取;
8)根据异构索引表逐级查询关键词所在的位置;
9)将查询后的信息分发至数据库配置信息中对应的数据存储数据库,从对应的数据存储数据库中提取所需数据;
10)将步骤9)中提取的所需数据汇总并返回给用户端;
具体步骤如下:
10-1)将提取的数据汇总,并采用可扩展标记语言将数据封装为统一格式的文档,返回给用户端;
10-2)用户端将文档内容解析,并转换为所需的数据格式。
本发明优化查询算法,采用了关键词计数排序策略,缩短查询时间;对异构数据进行拆分并分布式存储,提高了数据处理速度。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种异构数据快速分布存储、交互方法,其特征在于,具体步骤如下:
1)拆分异构数据,存入数据中心缓存,并在缓存中对数据种类进行编号;
2)对缓存中的工况数据进行去冗余处理;
3)计算每种数据的量占总数据量的比重∑Pi=1,其中Si为某类数据量,S为总数据量;
4)设置阈值向量P′1,P′2,...,P′i,0<P′1<...<P′n<1,并设定n1,n2,...,nk的值,其中n1,n2,...,nk均为大于0的整数,其中阈值向量和ni根据实际需要设置不同的个数和数值大小;
5)比较Pi与P′1,P′2,...,P′i的大小:若Pi<P′1,则n1种数据存入同一从服务器中;若P′1<Pi<P′2,则n2种数据存入同一从服务器中;依次类推,若Pi>P′i,则该种数据存入nk个从服务器中;
6)根据分布式存储数据的存储地址,建立异构索引表;
7)接收用户端发送的查询请求,将检索目标内容进行关键词提取;
8)根据异构索引表逐级查询关键词所在的位置;
9)将查询后的信息分发至数据库配置信息中对应的数据存储数据库,从对应的数据存储数据库中提取所需数据;
10)将步骤9)中提取的所需数据汇总并返回给用户端。
2.如权利要求1所述的一种异构数据快速分布存储、交互方法,其特征在于:步骤6)中所述建立异构索引表的具体步骤如下:
6-1)对新的数据集提取关键词,并进行预处理得到关键词在该数据集中的查询计数;
6-2)将关键词按查询计数从小到大排序,并形成计数表;
6-3)以计数表为基础,逐级构建索引形成索引表,每级索引表包含对应的关键词及其对应的数据对象信息;
6-4)建立索引表与源数据库的映射关系,根据索引信息可获得数据所在位置信息。
3.如权利要求1所述的一种异构数据快速分布存储、交互方法,其特征在于:步骤8)中所述根据异构索引表逐级查询关键词所在的位置的具体步骤如下:
8-1)将用户端的查询请求与索引的关键词库进行映射,将原查询映射到目标查询;
8-2)对查询中的关键词按照计数表中计数大小排序;
8-3)按计数大小从小到大依次读取查询中的关键词,在索引表中自上向下逐级查询,找到匹配的关键词。
4.如权利要求1所述的一种异构数据快速分布存储、交互方法,其特征在于:步骤10)中所述提取的所需数据汇总并返回给用户端的具体方法为:
根据数据映射关系从对应的数据集中提取所需数据并汇总,将提取的数据转换为所需的数据格式,返回给用户端。
5.如权利要求1所述的一种异构数据快速分布存储、交互方法,其特征在于:步骤1)中所述在缓存中对数据种类进行编号的具体步骤如下:
1-1)对采集到的工业***原始数据进行预处理,即对原始工况数据进行拆分、数据合法性验证、不同数据逻辑关联提取和数据格式转换;
1-2)将预处理后的工况数据存入缓存;
1-3)在缓存中对数据种类进行编号。
6.如权利要求1所述的一种异构数据快速分布存储、交互方法,其特征在于:步骤2)中所述对缓存中的工况数据进行去冗余处理的具体步骤如下:
2-1)通过提前设定数据优先级,筛选出工况数据中的非关键信息,对它们进行丢弃处理;
2-2)提取工况数据的重复性公共信息;
2-3)采用无损压缩算法对工况数据进行压缩处理。
7.如权利要求1所述的一种异构数据快速分布存储、交互方法,其特征在于:步骤5)中所述从服务器,根据数据热度来存储数据,多类型数据可对应同一节点,将数据节点存储空间按热度分为高速容量小、快速容量中等、中速容量大这三个层次;新鲜数据更新时,第一级按一定的分钟数放入最近更新或者访问最频繁的数据,第二级按一定的天数放入最近更新或者访问最频繁的数据,第三级按事先约定的时间周期放入更新或者访问最频繁的数据;所述数据热度,依据工业过程工况数据的访问频度和访问时间确定。
CN201810399691.5A 2018-04-28 2018-04-28 一种异构数据快速分布存储、交互方法 Withdrawn CN108647266A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810399691.5A CN108647266A (zh) 2018-04-28 2018-04-28 一种异构数据快速分布存储、交互方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810399691.5A CN108647266A (zh) 2018-04-28 2018-04-28 一种异构数据快速分布存储、交互方法

Publications (1)

Publication Number Publication Date
CN108647266A true CN108647266A (zh) 2018-10-12

Family

ID=63748529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810399691.5A Withdrawn CN108647266A (zh) 2018-04-28 2018-04-28 一种异构数据快速分布存储、交互方法

Country Status (1)

Country Link
CN (1) CN108647266A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492004A (zh) * 2018-10-29 2019-03-19 广东开放大学(广东理工职业学院) 一种数字渔业异构数据存储方法、***及装置
CN111026721A (zh) * 2019-11-12 2020-04-17 上海麦克风文化传媒有限公司 一种温数据存储方法
CN113254427A (zh) * 2021-07-15 2021-08-13 深圳市同富信息技术有限公司 一种数据库扩展方法和装置
CN115934794A (zh) * 2022-11-30 2023-04-07 二十一世纪空间技术应用股份有限公司 一种海量多源异构遥感空间数据查询的弹性管理方法
CN116303833A (zh) * 2023-05-18 2023-06-23 联通沃音乐文化有限公司 一种基于olap的向量化数据混合存储方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492004A (zh) * 2018-10-29 2019-03-19 广东开放大学(广东理工职业学院) 一种数字渔业异构数据存储方法、***及装置
CN111026721A (zh) * 2019-11-12 2020-04-17 上海麦克风文化传媒有限公司 一种温数据存储方法
CN113254427A (zh) * 2021-07-15 2021-08-13 深圳市同富信息技术有限公司 一种数据库扩展方法和装置
CN115934794A (zh) * 2022-11-30 2023-04-07 二十一世纪空间技术应用股份有限公司 一种海量多源异构遥感空间数据查询的弹性管理方法
CN115934794B (zh) * 2022-11-30 2024-05-24 二十一世纪空间技术应用股份有限公司 一种海量多源异构遥感空间数据查询的弹性管理方法
CN116303833A (zh) * 2023-05-18 2023-06-23 联通沃音乐文化有限公司 一种基于olap的向量化数据混合存储方法
CN116303833B (zh) * 2023-05-18 2023-07-21 联通沃音乐文化有限公司 一种基于olap的向量化数据混合存储方法

Similar Documents

Publication Publication Date Title
Li et al. Packet forwarding in named data networking requirements and survey of solutions
CN108647266A (zh) 一种异构数据快速分布存储、交互方法
US10958752B2 (en) Providing access to managed content
US10423626B2 (en) Systems and methods for data conversion and comparison
CN104820714B (zh) 基于hadoop的海量瓦片小文件存储管理方法
CN100505762C (zh) 适用于对象网络存储的分布式多级缓存***
Cambazoglu et al. Scalability challenges in web search engines
CN102638584B (zh) 数据分布缓存方法及***
CN102819586B (zh) 一种基于高速缓存的url分类方法和设备
KR20200053512A (ko) Kvs 트리 데이터베이스
US20130191523A1 (en) Real-time analytics for large data sets
US9129010B2 (en) System and method of partitioned lexicographic search
CN108140040A (zh) 存储器中数据库的选择性数据压缩
CN102971732A (zh) 键/值存储器的集成分级查询处理的***结构
CN105160039A (zh) 一种基于大数据的查询方法
CN110765138B (zh) 数据查询方法、装置、服务器及存储介质
US10528590B2 (en) Optimizing a query with extrema function using in-memory data summaries on the storage server
CN102054000A (zh) 数据查询方法、装置及***
US20140032568A1 (en) System and Method for Indexing Streams Containing Unstructured Text Data
CN118113663A (zh) 用于管理存储***的方法、设备和计算机程序产品
CN106649150A (zh) 一种缓存管理方法及装置
CN117076523B (zh) 一种用于本地的数据时序存储方法
CN109246102B (zh) 一种支撑大规模认证数据快速存储及检索的***及方法
CN113722274A (zh) 一种高效的R-tree索引遥感数据存储模型
CN108509585A (zh) 一种异构数据实时交互优化处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20181012