CN104794567A - 一种基于HBase的传染病数据管理方法 - Google Patents

一种基于HBase的传染病数据管理方法 Download PDF

Info

Publication number
CN104794567A
CN104794567A CN201510166304.XA CN201510166304A CN104794567A CN 104794567 A CN104794567 A CN 104794567A CN 201510166304 A CN201510166304 A CN 201510166304A CN 104794567 A CN104794567 A CN 104794567A
Authority
CN
China
Prior art keywords
data
infectious disease
hbase
storage
unstructured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510166304.XA
Other languages
English (en)
Other versions
CN104794567B (zh
Inventor
顾君忠
相晓敏
李舒媛
张学军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201510166304.XA priority Critical patent/CN104794567B/zh
Publication of CN104794567A publication Critical patent/CN104794567A/zh
Application granted granted Critical
Publication of CN104794567B publication Critical patent/CN104794567B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于HBase的传染病数据管理方法,该方法包括传染病数据的存储和查询获取,所述传染病数据的存储包括非结构化数据的存储和从已有的结构化数据库获取的数据的存储,所述的查询获取包括结构化数据的获取和非结构化数据的获取。对于传染病数据量大的特点,非结构数据库采用键值数据模型,能够处理数据存储量大,能够支持高并发读写;对于传染病数据实时更新的特点,非结构化数据库采用列式数据存储,存储性能和查询效率得到提高;对于图片文本数据,非结构化数据库采用文档数据模型和图形数据模型,扩展性得到增强。本发明适用于存储与查询传染病数据。

Description

一种基于HBase的传染病数据管理方法
技术领域
本发明涉及数据存储与查询技术领域,具体地说是一种基于HBase的传染病数据管理方法。
背景技术
随着当今互联网的迅速发展,各行各业的运行与互联网的关系越加紧密,许许多多的数据信息通过互联网流通,使得目前互联网上的数据达到了一个难以预测的数量级。这些信息的管理维护需要花费大量人力与技术等宝贵资源。而这些充斥在互联网上的数据中,绝大部分是有着各自不同格式的文档、图片以及视频等非结构化数据。
随着医疗信息化的发展以及数字医疗设备的广泛使用,传染病数据呈海量增长趋势,相比传统数据来说,传染病数据具有采集来源多样化、实时更新、数据量大以及数据结构多样化的特点。在这种情况下,结构化型数据库面临许多难以解决的问题。
首先,大量半结构化、非结构化数据的存在,使得数据库设计者难以事先确定合理、有效的数据关系模型,这就与结构化数据库优先设计模式的原则产生了冲突。而且结构化数据库的横向扩展能力通常比较差,数据模式的变更、数据库的升级产生相当高的代价,这对大型***来说几乎是不可能的。
其次,传染病数据处理对并发读写能力要求极高,需要很高的实时性。简单的查询操作可能就涉及到对海量数据的读写,结构化数据库使用基于SQL的接口,难以实现单条语句的分布式处理。而在面对超大规模数据集 ,对于如Join、Union等多表联合的操作的效率非常低下,很难满足高并发处理和大数据量下的实时性要求。
最后,海量的传染病数据使得分布式的存储方案势在必行,而多数结构化数据库都不支持大规模的分布式存储,一般都会采用数据分表分库的方式来实现。这样在数据量到达一定阶段后又将面临扩展性的问题,而且存储需求的变更可能又会需要一种新的数据切分方式,对于应用***而言不透明,将会使***变得非常复杂。虽然可以通过开发透明的中间件来使开发者避免复杂的编程,但却避免不了***整个架构的复杂性。而问题产生的根源来自结构化数据模型自身的缺陷,只有采用全新的数据模型,才能从根本上解决这些问题。
发明内容
本发明的目的是针对现有技术的不足而提供的一种基于HBase的传染病数据管理方法,该方法将传染病数据分为结构化和非结构化数据进行存取,存储使用HBase数据库,存储容量大,存储扩展性好,查询效率高,并能满足用户和医生对数据查询、获取、存储等各种要求。
实现本发明目的的具体技术方案是:
一种基于HBase的传染病数据管理方法,特点是:该方法包括传染病数据的存储及查询获取;所述传染病数据的存储包括传染病非结构化数据的存储和从已有的结构化数据库获取的传染病结构化数据的存储;所述传染病数据的查询获取包括传染病结构化数据的查询获取和传染病非结构化数据的查询获取;其中:
a、所述从已有的结构化数据库获取的传染病结构化数据的存储,包括以下步骤:
⑴、在HBase非结构化数据库中,建立HBase传染病非结构化存储表;
⑵、从已有的结构化数据库中,选取所有的传染病结构化数据;
⑶、采用Thrift接口,调用该接口的Tput函数读取所有的传染病结构化数据,将所有的传染病结构化数据存储到HBase传染病非结构化存储表中;
b、所述传染病非结构化数据的存储,包括以下步骤:
⑴、建立传染病非结构化数据的存储文本;
⑵、将传染病非结构化数据保存到存储文本中;
⑶、采用Thrift接口,调用该接口的Tput函数读取存储文本,将传染病非结构化数据以<key, value>形式存储在HBase 传染病非结构化存储表中;
c、所述传染病结构化数据的查询获取,包括以下步骤:
⑴、采用Thrift接口,向HBase传染病非结构化存储表发送查询传染病结构化数据的查询条件;
⑵、Thrift接口调用Tget函数,查询HBase传染病非结构化存储表中与查询条件相符的传染病结构化数据,并获取数据;
⑶、建立存储文本,将步骤⑵获取数据存储到文本中;
d、所述传染病非结构化数据的查询获取,包括以下步骤:
⑴、采用Thrift接口,向HBase传染病非结构化存储表发送传染病非结构化数据的查询条件;
⑵、调用Tget函数,查询HBase传染病非结构化存储表中与查询条件相符的传染病非结构化数据,并获取该数据;
⑶、建立存储文本,把获取的传染病非结构化数据存储到文本中;其中:
所述传染病结构化数据为地区、年龄、性别、职业、病种、诊断医院和诊断科室的用户信息以及传染病的发病人数、死亡率、死亡人数和死亡率的疾病信息;
所述传染病非结构化数据为B超视频流、CT视频流、医学影像图片、数字病历及医生开的医院诊断报告。
所述HBase传染病非结构化存储表,对于数字病历数据,采用文档数据模型,文档数据模型是基于<key,value>模型。
所述HBase传染病非结构化存储表,对于医学影像图片数据,采用图片数据模型,具体方法是:
用单独的列簇存储图片内容,用其他列簇存储图片的类型、大小、创建时间、修改时间;在存储每个列簇时,会以<Key,Value>的方式存储每行单元格中的数据,形成若干数据块,然后把数据块保存到HFile中,最后把HFile保存到后台的HDFS。
所述HBase传染病非结构化存储表,采用列式存储数据,在列导向的存储机制下对于空值存储是不占用任何空间的,大大节省了读写数据的空间。
所述<key, value> 模型的每条记录都是由主键和值两部分组成,并且不限制数据的类型。
所述的Thrift接口安装在Hadoop的任意结点上面,通过Java语言启动Thrift接口。
所述的传染病非结构化数据的查询条件为两种,一种是按指定主键获取唯一一条数据,一种是按指定列簇或者列获取一批数据。
与现有技术相比,本发明的有益结果:
本发明针对结构化数据库对半结构化、非结构化数据难以事先确定合理、有效的数据关系模型,难以实现单条语句的分布式处理、Join、Union等多表联合的操作的效率非常低下,很难满足高并发处理和大数据量下实时性的问题,通过HBase存储结构,Thrift接口的实时存储与查询,即可解决上述的对半结构化、非结构化数据确定数据关系模型、实现单条语句的分布式处理、Join、Union等多表联合的操作以及大规模的分布式存储问题。本发明从根本上提高了存储性能和查询效率,数据存储量得到提高,具有支持高并发读写等优势,同时对非结构化记忆半结构化数据进行存储。
附图说明
图1为本发明的流程图;
图2为本发明从已有的结构化数据库获取的传染病结构化数据的存储的流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的说明。
本发明的实现依赖于HBase为基础的数据管理平台,它包括传染病数据的存储及查询获取;所述传染病数据的存储包括传染病非结构化数据的存储和从已有的结构化数据库获取的传染病结构化数据的存储;所述传染病数据的查询获取包括传染病结构化数据的查询获取和传染病非结构化数据的查询获取。
所述的非结构化数据主要是以文本图片为主的传染病数据,包括B超视频流、CT视频流、医学影像图片、数字病历、医生开的医院诊断报告,以及医学影像图片。所述的结构化数据主要是能够用二维逻辑结构存储的传染病数据,包括地区、年龄、性别、职业、病种、诊断医院,诊断科室这些基本的用户信息,以及传染病的发病人数、死亡率、死亡人数和死亡率相关的疾病信息。
参阅图2,为本实施例从已有的结构化数据库获取的传染病结构化数据的存储具体描述流程图。
实施例1
    将用户root存储在结构化数据库中的传染病结构化数据,存储到HBase传染病非结构化存储表中,此例描述从已有的结构化数据库获取的传染病结构化数据的存储过程,其具体步骤如下:
(1)在HBase非结构化数据库中,建立HBase传染病非结构化存储表,命名为Disease_Data;
(2)从已有的结构化数据库中,选取所有的传染病结构化数据;
(3)采用Thrift接口,调用该接口的Tput函数读取所有的传染病结构化数据;
(4)将所有的传染病结构化数据存储到HBase传染病非结构化存储表Disease_Data中,该表的信息具体如下所示:
实施例2
将用户root的医学影像图片存储到HBase 传染病非结构化存储表中,此例描述传染病非结构化数据的存储过程,其具体步骤如下:
(1)建立传染病非结构化数据的存储文本,命名为video_image;
(2)将传染病非结构化数据保存到存储文本video_image中;
(3)调用Thrift接口的Tput函数读取存储文本video_image, 将传染病非结构化数据以<key, value>形式存储在HBase 传染病非结构化存储表中;
该表的具体信息如下所示:
实施例3
查看time时间的病例信息,此例描述传染病结构化数据的查询获取过程,其具体步骤如下:
(1)采用Thrift接口,向HBase传染病非结构化存储表发送查询传染病结构化数据的查询条件,即t1时间的所有病例数据;
(2)Thrift接口调用Tget函数,查询HBase传染病非结构化存储表中t1时间的所有数据;
(3)建立存储文本,把(2)获取的数据存储到文本中,文本以 时间_名称 命名,为time_disease_info。
实施例4:
查看time时间的医学影像图片信息,此例描述传染病非结构化数据的查询获取过程,其具体步骤如下:
(1)采用Thrift接口,向HBase传染病非结构化存储表发送传染病非结构化数据的查询条件,即upload_time是2015年1月1日的所有影像图片信息;
(2)调用Tget函数,查询HBase传染病非结构化存储表中upload_time= ‘20150101’的所有数据;
(3)建立存储文本,把(2)获取的数据存储到文本中,文本以 时间_名称 命名,为 time_disease_picture,供用户进行获取。

Claims (8)

1.一种基于HBase的传染病数据管理方法,其特征在于该方法包括传染病数据的存储及查询获取;所述传染病数据的存储包括传染病非结构化数据的存储和从已有的结构化数据库获取的传染病结构化数据的存储;所述传染病数据的查询获取包括传染病结构化数据的查询获取和传染病非结构化数据的查询获取;其中:
a、所述从已有的结构化数据库获取的传染病结构化数据的存储,包括以下步骤:
⑴、在HBase非结构化数据库中,建立HBase传染病非结构化存储表;
⑵、从已有的结构化数据库中,选取所有的传染病结构化数据;
⑶、采用Thrift接口,调用该接口的Tput函数读取所有的传染病结构化数据,将所有的传染病结构化数据存储到HBase传染病非结构化存储表中;
b、所述传染病非结构化数据的存储,包括以下步骤:
⑴、建立传染病非结构化数据的存储文本;
⑵、将传染病非结构化数据保存到已建立的传染病非结构化数据存储文本中;
⑶、采用Thrift接口,调用该接口的Tput函数读取存储文本,将传染病非结构化数据以key, value形式存储在HBase 传染病非结构化存储表中;
c、所述传染病结构化数据的查询获取,包括以下步骤:
⑴、采用Thrift接口,向HBase传染病非结构化存储表发送查询传染病结构化数据的查询条件;
⑵、Thrift接口调用Tget函数,查询HBase传染病非结构化存储表中与查询条件相符的传染病结构化数据并获取数据;
⑶、建立存储文本,将步骤⑵获取数据存储到文本中;
d、所述传染病非结构化数据的查询获取,包括以下步骤:
⑴、采用Thrift接口,向HBase传染病非结构化存储表发送传染病非结构化数据的查询条件;
⑵、调用Tget函数,查询HBase传染病非结构化存储表中与查询条件相符的传染病非结构化数据,并获取该数据;
⑶、建立存储文本,把步骤⑵获取的数据存储到文本中;其中:
所述传染病结构化数据为地区、年龄、性别、职业、病种、诊断医院和诊断科室的用户信息以及传染病的发病人数、死亡率、死亡人数和死亡率的疾病信息;
所述传染病非结构化数据为B超视频流、CT视频流、医学影像图片、数字病历及医生开的医院诊断报告。
2.根据权利要求1所述的方法,其特征在于所述HBase传染病非结构化存储表,对于数字病历数据,采用文档数据模型,文档数据模型是基于key,value模型。
3.根据权利要求1所述的方法,其特征在于所述HBase传染病非结构化存储表,对于医学影像图片数据,采用图片数据模型,具体是:
用单独的列簇存储图片内容,用其他列簇存储图片的类型、大小、创建时间、修改时间;在存储每个列簇时,会以Key,Value的方式存储每行单元格中的数据,形成若干数据块,然后把数据块保存到HFile中,最后把HFile保存到后台的HDFS。
4.根据权利要求1所述的方法,其特征在于所述HBase传染病非结构化存储表,采用列式存储数据。
5.根据权利要求2所述的方法,其特征在于所述key, value 模型的每条记录都是由主键和值两部分组成,并且不限制数据的类型。
6.根据权利要求1所述的方法,其特征在于所述的Thrift接口安装在Hadoop的任意结点上面,通过Java语言启动Thrift接口。
7.根据权利要求1所述的方法,其特征在于所述的传染病非结构化数据的查询条件为两种,一种是按指定主键获取唯一一条数据,一种是按指定列簇或者列获取一批数据。
8.根据权利要求1所述的方法,其特征在于所述的传染病结构化数据的查询条件为两种,一种是按指定主键获取唯一一条数据,一种是按指定列簇或者列获取一批数据。
CN201510166304.XA 2015-04-10 2015-04-10 一种基于HBase的传染病数据管理方法 Expired - Fee Related CN104794567B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510166304.XA CN104794567B (zh) 2015-04-10 2015-04-10 一种基于HBase的传染病数据管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510166304.XA CN104794567B (zh) 2015-04-10 2015-04-10 一种基于HBase的传染病数据管理方法

Publications (2)

Publication Number Publication Date
CN104794567A true CN104794567A (zh) 2015-07-22
CN104794567B CN104794567B (zh) 2018-02-23

Family

ID=53559353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510166304.XA Expired - Fee Related CN104794567B (zh) 2015-04-10 2015-04-10 一种基于HBase的传染病数据管理方法

Country Status (1)

Country Link
CN (1) CN104794567B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426442A (zh) * 2015-11-06 2016-03-23 努比亚技术有限公司 一种基于分布式数据库消息数据管理方法及***
CN108509182A (zh) * 2018-02-27 2018-09-07 北京航空航天大学 将非结构化大数据进行结构化处理并融合的软件技术
CN109445704A (zh) * 2018-10-29 2019-03-08 南京录信软件技术有限公司 一种综合使用多种设备存储海量数据的方法
CN117787924A (zh) * 2024-02-28 2024-03-29 中国航空工业集团公司西安飞机设计研究所 一种飞机设计数据发放数据包发放方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236867A (zh) * 2011-08-15 2011-11-09 悠易互通(北京)广告有限公司 基于云计算的受众行为分析广告定向***
CN103678650A (zh) * 2013-12-23 2014-03-26 蓝盾信息安全技术股份有限公司 一种基于thrift服务的HBase安全插件
CN104036006A (zh) * 2014-06-20 2014-09-10 浪潮(北京)电子信息产业有限公司 一种实现Windows下连接控制Hbase的方法及装置
CN104156429A (zh) * 2014-08-08 2014-11-19 平安养老保险股份有限公司 医疗服务提供方服务协议管理***及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236867A (zh) * 2011-08-15 2011-11-09 悠易互通(北京)广告有限公司 基于云计算的受众行为分析广告定向***
CN103678650A (zh) * 2013-12-23 2014-03-26 蓝盾信息安全技术股份有限公司 一种基于thrift服务的HBase安全插件
CN104036006A (zh) * 2014-06-20 2014-09-10 浪潮(北京)电子信息产业有限公司 一种实现Windows下连接控制Hbase的方法及装置
CN104156429A (zh) * 2014-08-08 2014-11-19 平安养老保险股份有限公司 医疗服务提供方服务协议管理***及方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426442A (zh) * 2015-11-06 2016-03-23 努比亚技术有限公司 一种基于分布式数据库消息数据管理方法及***
CN105426442B (zh) * 2015-11-06 2020-01-14 广东湛数大数据有限公司 一种基于分布式数据库消息数据管理方法及***
CN108509182A (zh) * 2018-02-27 2018-09-07 北京航空航天大学 将非结构化大数据进行结构化处理并融合的软件技术
CN109445704A (zh) * 2018-10-29 2019-03-08 南京录信软件技术有限公司 一种综合使用多种设备存储海量数据的方法
CN117787924A (zh) * 2024-02-28 2024-03-29 中国航空工业集团公司西安飞机设计研究所 一种飞机设计数据发放数据包发放方法及***

Also Published As

Publication number Publication date
CN104794567B (zh) 2018-02-23

Similar Documents

Publication Publication Date Title
CN112036736B (zh) 一种工作流创建方法及装置
US10810179B2 (en) Distributed graph database
CN107402995B (zh) 一种分布式newSQL数据库***及方法
CN105630864B (zh) 存储行标识符值的字典的强制排序
US11468103B2 (en) Relational modeler and renderer for non-relational data
US8156149B2 (en) Composite nested streams
Poorthuis et al. Making big data small: strategies to expand urban and geographical research using social media
US8341164B1 (en) Apparatus and methods for organizing data items having time of life intervals
US20160328429A1 (en) Mutations in a column store
CN106844682B (zh) 数据交换方法、装置及***
CN102799679B (zh) 基于Hadoop的海量空间数据索引更新***及方法
CN109144966A (zh) 一种海量时空数据的高效组织与管理方法
Chavan et al. Survey paper on big data
JP2006114045A (ja) スキーマデータ(schemadata)からデータ構造へのマッピング
CN105069151A (zh) HBase二级索引构建装置和方法
US9952893B2 (en) Spreadsheet model for distributed computations
CN104794567A (zh) 一种基于HBase的传染病数据管理方法
CN112286941A (zh) 一种基于Binlog+HBase+Hive的大数据同步方法和装置
CN109582831A (zh) 一种支持非结构化数据存储与查询的图数据库管理***
CN111125229A (zh) 数据血缘生成方法、装置、电子设备
US8037088B2 (en) Change management
US11200201B2 (en) Metadata storage method, device and server
CN114860727A (zh) 拉链表更新方法及装置
CN103809915B (zh) 一种磁盘文件的读写方法和装置
Joldzic et al. The impact of cluster characteristics on HiveQL query optimization

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180223

CF01 Termination of patent right due to non-payment of annual fee