CN111768850A - 医院数据分析方法、医院数据分析平台、设备和介质 - Google Patents

医院数据分析方法、医院数据分析平台、设备和介质 Download PDF

Info

Publication number
CN111768850A
CN111768850A CN202010566697.4A CN202010566697A CN111768850A CN 111768850 A CN111768850 A CN 111768850A CN 202010566697 A CN202010566697 A CN 202010566697A CN 111768850 A CN111768850 A CN 111768850A
Authority
CN
China
Prior art keywords
data
warehouse
data warehouse
clickhouse
business application
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010566697.4A
Other languages
English (en)
Other versions
CN111768850B (zh
Inventor
王福
陈良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Synyi Medical Technology Co ltd
Original Assignee
Shanghai Synyi Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Synyi Medical Technology Co ltd filed Critical Shanghai Synyi Medical Technology Co ltd
Publication of CN111768850A publication Critical patent/CN111768850A/zh
Application granted granted Critical
Publication of CN111768850B publication Critical patent/CN111768850B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种医院数据分析方法、医院数据分析平台、设备和介质,通过获取多数据源的数据并统一采用ETL技术汇总到第一数据仓库;根据不同业务应用***的分析需求,制定数据仓库模型与第一数据仓库中各数据的字段一一匹配,以进行数据抽取从而得到运行于业务应用***的第二数据仓库;在第二数据仓库与最终提供数据服务的ClickHouse数据仓库之间建立连接,并基于ClickHouse特点将ClickHouse数据仓库与第二数据仓库的数据同步与数据集合。本申请可以实现毫秒级的查询性能,有效的解决了传统模式下数据仓库建模无法随业务变更快速迭代的问题以及明细数据与汇总数据的一致性问题,解决了传统数据分析平台数据查询时间长,数据变更存在滞后性的问题,保证分析数据的有效性。

Description

医院数据分析方法、医院数据分析平台、设备和介质
技术领域
本发明涉及数据库技术领域,特别是涉及一种医院数据分析方法、医院数据分析平台、设备和介质。
背景技术
当前数据中心在医疗行业已经有了很广泛的应用,通过搭建医院运营数据中心(ODR),通过集成院内HIS(医院信息***,Hospital Information System)、病案***、手术麻醉***、成本核算***、电子病历***等业务数据,借助MDM(移动设备管理,MobileDevice Management)实现院内主数据的统一管理,对数据进行标准化的数据治理后,通过建立面向业务主题的、经过集成和加工的、相对稳定不可更新的数据库,最终通过仪表盘或报表等工具对结果数据进行可视化展示,为管理者运营管理提供数据决策支持。
医院运营数据中心(ODR)基于性能的考虑,在设计业务表模型时通常会根据业务场景划分为:
1.ODS层:ODS层是数据仓库准备区,为DW层提供基础原始数据,可减少对业务***的影响;
2.DW层:DW层提供来源明细数据,提供业务***细节数据的长期沉淀,为未来分析类需求的扩展提供历史数据支撑;
3.DM层:DW层根据DW层数据按照各种维度或多种维度组合把需要查询的一些事实字段进行汇总统计并作为单独的列进行存储;满足一些特定查询、数据挖掘应用;
传统数据仓库建模方式在数据查询时,将明细数据汇总为聚集表,通过缩减数据量,提升了查询的性能,但在面对快速变换的业务需求,传统数据仓库建模方式严重影响ODR模型的快速迭代,医院业务数据的复杂多变也不断影响着明细数据与汇总数据的一致性。
发明内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供一种医院数据分析方法、医院数据分析平台、设备和介质,以解决现有技术中存在的至少一个问题。
为实现上述目的及其他相关目的,本申请提供一种医院数据分析方法,所述方法包括:获取多数据源的数据,并统一采用ETL技术汇总到第一数据仓库;根据不同业务应用***的分析需求,制定数据仓库模型与所述第一数据仓库中各数据的字段一一匹配,以进行数据抽取从而得到运行于所述业务应用***的第二数据仓库;在所述第二数据仓库与最终提供数据服务的ClickHouse数据仓库之间建立连接,并基于ClickHouse特点将ClickHouse数据仓库与所述第二数据仓库的数据同步与数据集合。
于本申请的一实施例中,所述方法还包括:针对ClickHouse数据仓库中不支持更新和删除功能,在所述业务应用***通过SQL语句编写数据状态的替代方式给予支持;在所述业务应用***中依据各数据状态进行求和以重构数据。
于本申请的一实施例中,所述在所述业务应用***通过SQL语句编写数据状态的替代方式给予支持,包括:新***一条数据状态为-1的新更新数据以供对待更新数据的更新功能;和/或,新***一条数据状态为-1的空数据以供对待删除数据的删除功能;其中,各数据对应有数据标签,通过数据标签可找到待更新数据与新更新数据的第一对应关系和/或待删除数据与空数据的第二对应关系。
于本申请的一实施例中,所述在所述业务应用***中依据各数据状态进行求和以重构数据,包括:在所述业务应用***中依据各数据的数据标签可将具有第一对应关系和/或第二对应关系的数据对进行关联;根据各数据中对应状态的数值进行求和,将新更新数据替换待更新数据和/或空数据替换待删除数据。
于本申请的一实施例中,所述根据不同业务应用***的分析需求,制定数据仓库模型与所述第一数据仓库中各数据的字段一一匹配,以进行数据抽取从而得到运行于所述业务应用***的第二数据仓库,包括:根据不同业务应用***的分析需求,确定所述第一数据仓库中所需的数据类型;构建一数据仓库模型,并对所需的数据类型的数据的字段进行一一匹配以进行逻辑对应;根据数据仓库模型与所述第一数据仓库所对应的字段进行数据抽取,以使所述数据仓库模型形成运行于所述业务应用***的第二数据仓库。
于本申请的一实施例中,所述方法还包括:配套书写符合ClickHouse语法标准的SQL查询语句,以兼容自不同数据源的数据的语法特性;和/或,基于ClickHouse数据仓库中返回的数据集合结果呈现于所述业务应用***中,以供将数据表格化或图形化展示。
于本申请的一实施例中,所述业务应用***包括:智能业务***、数据报表服务***、及用户行为分析平台中任意一种或多种组合。
为实现上述目的及其他相关目的,本申请提供一种医院数据分析平台,所述装置包括:获取模块,用于获取多数据源的数据,并统一采用ETL技术汇总到第一数据仓库;处理模块,用于根据不同业务应用***的分析需求,制定数据仓库模型与所述第一数据仓库中各数据的字段一一匹配,以进行数据抽取从而得到运行于所述业务应用***的第二数据仓库;在所述第二数据仓库与最终提供数据服务的ClickHouse数据仓库之间建立连接,并基于ClickHouse特点将ClickHouse数据仓库与所述第二数据仓库的数据同步与数据集合。
为实现上述目的及其他相关目的,本申请提供一种计算机设备,所述设备包括:存储器、及处理器;所述存储器用于存储计算机指令;所述处理器运行计算机指令实现如上所述的方法。
为实现上述目的及其他相关目的,本申请提供一种计算机可读存储介质,存储有计算机指令,所述计算机指令被运行时执行如上所述的方法。
综上所述,本申请提供的一种医院数据分析方法、医院数据分析平台、设备和介质,通过获取多数据源的数据,并统一采用ETL技术汇总到第一数据仓库;根据不同业务应用***的分析需求,制定数据仓库模型与所述第一数据仓库中各数据的字段一一匹配,以进行数据抽取从而得到运行于所述业务应用***的第二数据仓库;在所述第二数据仓库与最终提供数据服务的ClickHouse数据仓库之间建立连接,并基于ClickHouse特点将ClickHouse数据仓库与所述第二数据仓库的数据同步与数据集合。
具有以下有益效果:
本申请针对传统数据仓库建模方式普遍存在的性能瓶颈,创新性提出一种通过Clickhouse联机分析处理内存引擎,在大数据量业务场景下,仍然可以通过明细数据的汇总计算,实现毫秒级的查询性能,有效的解决了传统模式下数据仓库建模无法随业务变更快速迭代的问题以及明细数据与汇总数据的一致性问题。在实践使用中基于Clickhouse的数据分析平台解决了传统数据分析平台数据查询时间长,数据变更存在滞后性的问题,保证分析数据的有效性,为瞬息万变的决策提供有效及时的数据支持。
附图说明
图1显示为本申请于一实施例中医院数据分析方法的流程示意图。
图2显示为本申请于一实施例中医院数据分析方法的场景示意图。
图3显示为本申请于一实施例中医院数据分析平台的模块示意图。
图4显示为本申请于一实施例中计算机设备的结构示意图。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本申请的基本构想,虽然图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,但其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
目前传统数据仓库建模方式在数据查询时,将明细数据汇总为聚集表,通过缩减数据量,提升了查询的性能,但在面对快速变换的业务需求,传统数据仓库建模方式严重影响ODR模型的快速迭代,医院业务数据的复杂多变也不断影响着明细数据与汇总数据的一致性。等方面都有缺陷。
鉴于上述现有技术的缺点,本申请的目的在于提供一种基于联机分析处理(OLAP)的列式数据库(ClickHouse)管理***的解决方案,用于解决现有技术中因数据更新不及时导致的信息遗漏及决策失误的问题,以及解决医院日益新增的数据需求与变化的及时响应要求。
如图1所示,展示为本申请于一实施例中的医院数据分析方法的流程示意图。如图所示,所述方法包括:
步骤S101:获取多数据源的数据,并统一采用ETL技术汇总到第一数据仓库。
于一或多个实施例中,一家医院所使用的***并非只有一种,如针对不同科室可能就设有多种***来上传或收集数据,例如,药房***、病案***、病例***、住院***等;再如不同职能也可应用不同***,如MDM主数据管理***、EMPI患者主索引***、其他HIS厂商数据源等。如图2展示的医院数据分析方法的场景示意图中的多数据源。
这里MDM指移动设备管理,它提供从设备注册、激活、使用、淘汰各个环节进行完整的移动设备全生命周期管理;EMPI指患者主索引,它是患者基本信息检索目录,其主要用途是在一个复杂的医疗体系内,通过唯一的患者标识将多个医疗信息***有效地关联在一起。以实现各个***之间的互联互通,保证对同一个患者,分布在不同***中的个人信息采集的完整性和准确性;HIS指医院信息***,是利用计算机软硬件技术和网络通信技术等现代化手段,对医院及其所属各部门的人流、物流、财流进行综合管理,对在医疗活动各阶段产生的数据进行采集、存储、处理、提取、传输、汇总,加工形成各种信息,从而为医院的整体运行提供全面的自动化管理及各种服务的信息***。
因此,本申请首先将院内数据进行统一收集和管理,以供对数据进行标准化的数据治理后建立可面向业务主题的医院运营数据平台。
所述ETL是将业务***的数据经过抽取、清洗转换之后加载到目的端数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业、单位的决策提供分析依据,ETL是BI(商业智能)项目重要的一个环节。即本申请通过ETL技术将不同数据源的数据进行统一处理并汇总的一个数据仓库中。
步骤S102:根据不同业务应用***的分析需求,制定数据仓库模型与所述第一数据仓库中各数据的字段一一匹配,以进行数据抽取从而得到运行于所述业务应用***的第二数据仓库。
所述业务应用***包括但不限于:智能业务***、数据报表服务***、及用户行为分析平台中任意一种或多种组合,如还可以包括其他应用服务***。如图2展示的医院数据分析方法的场景示意图中的业务应用***。
举例来说,根据BI业务的分析需求,制定第三方HIS厂商数据库数据与本申请数据仓库模型一一匹配的ETL工程抽取逻辑,抽取数据到BI***应用专属的数据仓库。
于本申请一实施例中,所述步骤S102具体包括:
A、根据不同业务应用***的分析需求,确定所述第一数据仓库中所需的数据类型;
具体来说,当业务需求为一年内手术数据或住院数据的统计时,其所需的数据只需要统计每条手术记录或住院记录的简要信息即可,而对其具体的手术内容、手术过程或具体的住院记录、住院详情等信息则可以过滤,即在此步骤对数据做精简和过滤。
另外,在步骤S101中是对院内所有信息进行收集,侧重点在于数据的全面,而在后续侯建面向业务主题的医院运营数据平台时,有些如体检数据、化验数据可能不需详细展示,因此,在本步骤中可以根据属性将数据进行简化和过滤,本步骤侧重点则是对数据进行精准或精简。
B、构建一数据仓库模型,并对所需的数据类型的数据的字段进行一一匹配以进行逻辑对应。
于本实施例中,在医院产生的每份记录都会在***中的数据库中产生数据表,因此,汇总到第一数据库中的数据也会有几百几千个数据表,而每个数据表对应有不同字段,为将数据转移到所述业务应用***的专属数据库中,本申请通过构建的数据仓库模型与第一数据仓库中的字段一一对应,并进行逻辑对应,以此实现数据的抽取。
举例来说,字段可以为名称、年龄、性别、病例、住院记录等内容,通过将在数据仓库模型中逻辑对应的构建相应字段,以实现一一对应。
C、根据数据仓库模型与所述第一数据仓库所对应的字段进行数据抽取,以使所述数据仓库模型形成运行于所述业务应用***的第二数据仓库。
于本实施例中,通过如上方式以实现数据对应的抽取,在抽取完成后即形成运行于所述业务应用***的第二数据仓库。
步骤S103:在所述第二数据仓库与最终提供数据服务的ClickHouse数据仓库之间建立连接,并基于ClickHouse特点将ClickHouse数据仓库与所述第二数据仓库的数据同步与数据集合。
需说明的是,与传统的方案不同的是:本申请基于Clickhouse的医院数据分析平台建模方案,并依赖Clickhouse强大的数据查询性能,在建模时抛弃原先预先创建数据仓库的做法,而直接采用ODS-DW层的设计模型,并将DM层的数据聚集工作改为在数据库层面通过虚拟视图的方式,在使用时通过实时查询计算获取最新数据,从而解决了性能瓶颈与数据不一致的之间的矛盾问题。
ClickHouse是近年来备受关注的开源列式数据库,主要用于数据分析(OLAP)领域。近年来ClickHouse发展趋势迅猛,社区和大厂都纷纷跟进使用。ClickHouse实现了大多数当前主流的数据分析技术,具有明显的技术优势:如,提供了极致的查询性能:开源公开benchmark显示比传统方法快1001000倍,提供50MB200MB/s的高吞吐实时导入能力);以极低的成本存储海量数据:借助于精心设计的列存、高效的数据压缩算法,提供高达10倍的压缩比,大幅提升单机数据存储和计算能力,大幅降低使用成本,是构建海量数据仓库的绝佳方案;简单灵活又不失强大:提供完善SQL支持,上手十分简单;提供json、map、array等灵活数据类型适配业务快速变化;同时支持近似计算、概率数据结构等应对海量数据处理;相比于开源社区的其他几项分析型技术,如Druid、Presto、Impala、Kylin、ElasticSearch等,ClickHouse更是一整套完善的解决方案,它自包含了存储和计算能力(无需额外依赖其他存储组件),完全自主实现了高可用,而且支持完整的SQL语法包括JOIN等,技术上有着明显优势。相比于hadoop体系,以数据库的方式来做大数据处理更加简单易用,学习成本低且灵活度高。当前社区仍旧在迅猛发展中,相信后续会有越来越多好用的功能出现。
另外,ClickHouse数据库还包括以下方面的特点:真正的面向列的DBMS;数据高效压缩;磁盘存储的数据;多核并行处理;在多个服务器上分布式处理;SQL语法支持;向量化引擎;实时数据更新;索引;适合在线查询;支持近似预估计算;支持嵌套的数据结构、支持数组作为数据类型;支持限制查询复杂性以及配额;复制数据复制和对数据完整性的支持等。
于本实施例中,本申请所基于的ClickHouse数据仓库为列式存储方式,相比于其他行式存存储方式具有诸多优势。
1)在行存模式下,数据按行连续存储,所有列的数据都存储在一个block中,不参与计算的列在IO时也要全部读出,读取操作被严重放大。而列存模式下,只需要读取参与计算的列即可,极大的减低了IO cost,加速了查询。
2)同一列中的数据属于同一类型,压缩效果显著。列存往往有着高达十倍甚至更高的压缩比,节省了大量的存储空间,降低了存储成本。
3)更高的压缩比意味着更小的data size,从磁盘中读取相应数据耗时更短。
4)自由的压缩算法选择。不同列的数据具有不同的数据类型,适用的压缩算法也就不尽相同。可以针对不同列类型,选择最合适的压缩算法。
5)高压缩比,意味着同等大小的内存能够存放更多数据,***cache效果更好。
官方数据显示,通过使用列存,在某些分析场景下,能够获得100倍甚至更高的加速效应。
因此,本申请最终提供数据服务是基于ClickHouse数据仓库,相比于其他数据库来说,运行速度更快。并且依据ClickHouse数据仓库具有的实时数据更新的优势特点,通过与所述第二数据仓库建立连接。可实现数接近秒级别的数据同步,以保证二者的数据一致性。
于本申请一实施例中,虽然ClickHouse数据仓库能够带来诸多优势,但是ClickHouse数据仓库也在某方面作出了牺牲,如ClickHouse数据仓库中对更新(Update)、删除(Delete)支持不佳,因此,本申请所述方法针对这一缺陷提出了如下解决方法:
A、针对ClickHouse数据仓库中不支持更新和删除功能,在所述业务应用***通过SQL语句编写数据状态的替代方式给予支持。
具体来说,包括:新***一条数据状态为-1的新更新数据以供对待更新数据的更新功能;和/或,新***一条数据状态为-1的空数据以供对待删除数据的删除功能;其中,各数据对应有数据标签,通过数据标签可找到待更新数据与新更新数据的第一对应关系和/或待删除数据与空数据的第二对应关系。
例如,Update优化:新***一条数据状态为-1A的新更新后的数据;Delete优化:新***一条数据状态为-1的空数据。
B、在所述业务应用***中依据各数据状态进行求和以重构数据。
具体包括:在所述业务应用***中依据各数据的数据标签可将具有第一对应关系和/或第二对应关系的数据对进行关联;根据各数据中对应状态的数值进行求和,将新更新数据替换待更新数据和/或空数据替换待删除数据。
于本申请一实施例中,为进一步增强本ClickHouse数据仓库运行于不同业务应用***中的运行环境,申请所述方法还包括:
配套书写符合ClickHouse语言标准的SQL查询语句,以兼容自不同数据源的数据的语法特性。例如,常见的数据库有Oracle(甲骨文)、db2(IBM)、sql server(微软)、Sybase(sap)、Mysql等大型数据库,以及小型数据库access、MSDE等,来自不同数据库的数据源通常会带有各自数据库的语法特性,因此需要配套书写符合ClickHouse语言标准的SQL查询语句来进行兼容。
和/或,基于ClickHouse数据仓库中返回的数据集合结果呈现于所述业务应用***中,以供将数据表格化或图形化展示。如,基于返回的数据集合结果,呈现在***应用界面中,完成数据的各种表格、图形化的展示。
综上所述,本申请提供的医院数据分析方法,其基于联机分析处理的列式数据库管理***的解决方案,以用于解决现有技术中因数据更新不及时导致的信息遗漏及决策失误的问题,以及解决医院日益新增的数据需求与变化的及时响应要求。
本申请针对传统数据仓库建模方式普遍存在的性能瓶颈,创新性提出一种通过Clickhouse联机分析处理内存引擎,在大数据量业务场景下,仍然可以通过明细数据的汇总计算,实现毫秒级的查询性能,有效的解决了传统模式下数据仓库建模无法随业务变更快速迭代的问题以及明细数据与汇总数据的一致性问题。在实践使用中基于Clickhouse的数据分析平台解决了传统数据分析平台数据查询时间长,数据变更存在滞后性的问题,保证分析数据的有效性,为瞬息万变的决策提供有效及时的数据支持。
如图3所示,展示为本申请于一实施例中的医院数据分析平台的模块示意图。如图所示,所述平台300包括:
获取模块301,用于获取多数据源的数据,并统一采用ETL技术汇总到第一数据仓库;
处理模块302,用于根据不同业务应用***的分析需求,制定数据仓库模型与所述第一数据仓库中各数据的字段一一匹配,以进行数据抽取从而得到运行于所述业务应用***的第二数据仓库;在所述第二数据仓库与最终提供数据服务的ClickHouse数据仓库之间建立连接,并基于ClickHouse特点将ClickHouse数据仓库与所述第二数据仓库的数据同步与数据集合。
需要说明的是,上述平台各模块/单元之间的信息交互、执行过程等内容,由于与本申请所述方法实施例基于同一构思,其带来的技术效果与本申请方法实施例相同,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
还需要说明的是,应理解以上平台的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些单元可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,处理模块302可以为单独设立的处理元件,也可以集成在上述平台的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述平台的某一个处理元件调用并执行以上处理模块302的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些平台可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital signal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上***(system-on-a-chip,简称SOC)的形式实现。
如图4所示,展示为本申请于一实施例中的计算机设备的结构示意图。如图所示,所述计算机设备400包括:存储器401、及处理器402;所述存储器401用于存储计算机指令;所述处理器402运行计算机指令实现如图1所述的方法。
在一些实施例中,所述计算机设备400中的所述存储器401的数量均可以是一或多个,所述处理器402的数量均可以是一或多个,而图4中均以一个为例。
于本申请一实施例中,所述计算机设备400中的处理器402会按照如图1所述的步骤,将一个或多个以应用程序的进程对应的指令加载到存储器401中,并由处理器402来运行存储在存储器401中的应用程序,从而实现如图1所述的方法。
所述存储器401可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。所述存储器401存储有操作***和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。操作***可包括各种***程序,用于实现各种基础业务以及处理基于硬件的任务。
所述处理器402可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在一些具体的应用中,所述计算机设备400的各个组件通过总线***耦合在一起,其中总线***除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清除说明起见,在图4中将各种总线都成为总线***。
于本申请的一实施例中,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如图1所述的方法。
所述计算机可读存储介质,本领域普通技术人员可以理解:实现上述***及各单元功能的实施例可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述***及各单元功能的实施例;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,本申请提供的一种医院数据分析方法、医院数据分析平台、设备和介质,通过获取多数据源的数据,并统一采用ETL技术汇总到第一数据仓库;根据不同业务应用***的分析需求,制定数据仓库模型与所述第一数据仓库中各数据的字段一一匹配,以进行数据抽取从而得到运行于所述业务应用***的第二数据仓库;在所述第二数据仓库与最终提供数据服务的ClickHouse数据仓库之间建立连接,并基于ClickHouse特点将ClickHouse数据仓库与所述第二数据仓库的数据同步与数据集合。
本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中包含通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。

Claims (10)

1.一种医院数据分析方法,其特征在于,所述方法包括:
获取多数据源的数据,并统一采用ETL技术汇总到第一数据仓库;
根据不同业务应用***的分析需求,制定数据仓库模型与所述第一数据仓库中各数据的字段一一匹配,以进行数据抽取从而得到运行于所述业务应用***的第二数据仓库;
在所述第二数据仓库与最终提供数据服务的ClickHouse数据仓库之间建立连接,并基于ClickHouse特点将ClickHouse数据仓库与所述第二数据仓库的数据同步与数据集合。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对ClickHouse数据仓库中不支持更新和删除功能,在所述业务应用***通过SQL语句编写数据状态的替代方式给予支持;
在所述业务应用***中依据各数据状态进行求和以重构数据。
3.根据权利要求2所述的方法,其特征在于,所述在所述业务应用***通过SQL语句编写数据状态的替代方式给予支持,包括:
新***一条数据状态为-1的新更新数据以供对待更新数据的更新功能;和/或,新***一条数据状态为-1的空数据以供对待删除数据的删除功能;
其中,各数据对应有数据标签,通过数据标签可找到待更新数据与新更新数据的第一对应关系和/或待删除数据与空数据的第二对应关系。
4.根据权利要求3所述的方法,其特征在于,所述在所述业务应用***中依据各数据状态进行求和以重构数据,包括:
在所述业务应用***中依据各数据的数据标签可将具有第一对应关系和/或第二对应关系的数据对进行关联;
根据各数据中对应状态的数值进行求和,将新更新数据替换待更新数据和/或空数据替换待删除数据。
5.根据权利要求1所述的方法,其特征在于,所述根据不同业务应用***的分析需求,制定数据仓库模型与所述第一数据仓库中各数据的字段一一匹配,以进行数据抽取从而得到运行于所述业务应用***的第二数据仓库,包括:
根据不同业务应用***的分析需求,确定所述第一数据仓库中所需的数据类型;
构建一数据仓库模型,并对所需的数据类型的数据的字段进行一一匹配以进行逻辑对应;
根据数据仓库模型与所述第一数据仓库所对应的字段进行数据抽取,以使所述数据仓库模型形成运行于所述业务应用***的第二数据仓库。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
配套书写符合ClickHouse语法标准的SQL查询语句,以兼容自不同数据源的数据的语法特性;
和/或,基于ClickHouse数据仓库中返回的数据集合结果呈现于所述业务应用***中,以供将数据表格化或图形化展示。
7.根据权利要求1所述的方法,其特征在于,所述业务应用***包括:智能业务***、数据报表服务***、及用户行为分析平台中任意一种或多种组合。
8.一种医院数据分析平台,其特征在于,所述装置包括:
获取模块,用于获取多数据源的数据,并统一采用ETL技术汇总到第一数据仓库;
处理模块,用于根据不同业务应用***的分析需求,制定数据仓库模型与所述第一数据仓库中各数据的字段一一匹配,以进行数据抽取从而得到运行于所述业务应用***的第二数据仓库;在所述第二数据仓库与最终提供数据服务的ClickHouse数据仓库之间建立连接,并基于ClickHouse特点将ClickHouse数据仓库与所述第二数据仓库的数据同步与数据集合。
9.一种计算机设备,其特征在于,所述设备包括:存储器、及处理器;所述存储器用于存储计算机指令;所述处理器运行计算机指令实现如权利要求1至7中任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,存储有计算机指令,所述计算机指令被运行时执行如权利要求1至7中任一项所述的方法。
CN202010566697.4A 2020-06-05 2020-06-19 医院数据分析方法、医院数据分析平台、设备和介质 Active CN111768850B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010507324 2020-06-05
CN202010507324X 2020-06-05

Publications (2)

Publication Number Publication Date
CN111768850A true CN111768850A (zh) 2020-10-13
CN111768850B CN111768850B (zh) 2021-08-27

Family

ID=72721405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010566697.4A Active CN111768850B (zh) 2020-06-05 2020-06-19 医院数据分析方法、医院数据分析平台、设备和介质

Country Status (1)

Country Link
CN (1) CN111768850B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112349404A (zh) * 2020-11-03 2021-02-09 中国人民解放军总医院 基于云-边-端架构的多中心医疗设备大数据云平台
CN112685514A (zh) * 2021-01-08 2021-04-20 北京云桥智联科技有限公司 Ai智能客户价值管理平台
CN112732763A (zh) * 2021-01-20 2021-04-30 北京千方科技股份有限公司 数据的聚合方法、装置、电子设备及介质
CN112860659A (zh) * 2021-01-18 2021-05-28 北京奇艺世纪科技有限公司 数据仓库的构建方法、装置、设备及存储介质
CN112988916A (zh) * 2021-03-05 2021-06-18 杭州天阙科技有限公司 针对Clickhouse的全量和增量同步方法、设备和存储介质
CN114388107A (zh) * 2020-10-16 2022-04-22 上海森亿医疗科技有限公司 基于虚拟科室的业务权限配置方法、***以及终端
CN115408465A (zh) * 2022-10-27 2022-11-29 江苏智云天工科技有限公司 基于工业互联网的数据管理***及方法
CN116089518A (zh) * 2023-04-07 2023-05-09 广州思迈特软件有限公司 一种数据模型抽取方法及***、终端、介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104111996A (zh) * 2014-07-07 2014-10-22 山大地纬软件股份有限公司 基于hadoop平台的医保门诊大数据抽取***及方法
CN107918600A (zh) * 2017-11-15 2018-04-17 泰康保险集团股份有限公司 报表开发***及方法、存储介质和电子设备
CN109471893A (zh) * 2018-10-24 2019-03-15 上海连尚网络科技有限公司 网络数据的查询方法、设备及计算机可读存储介质
US10565070B2 (en) * 2017-11-29 2020-02-18 Bmc Software, Inc. Systems and methods for recovery of consistent database indexes

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104111996A (zh) * 2014-07-07 2014-10-22 山大地纬软件股份有限公司 基于hadoop平台的医保门诊大数据抽取***及方法
CN107918600A (zh) * 2017-11-15 2018-04-17 泰康保险集团股份有限公司 报表开发***及方法、存储介质和电子设备
US10565070B2 (en) * 2017-11-29 2020-02-18 Bmc Software, Inc. Systems and methods for recovery of consistent database indexes
CN109471893A (zh) * 2018-10-24 2019-03-15 上海连尚网络科技有限公司 网络数据的查询方法、设备及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蔡岳毅: "《携程用ClickHouse轻松玩转每天十亿级数据更新》", 《HTTPS://WWW.SOHU.COM/A/332065480_411876》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114388107A (zh) * 2020-10-16 2022-04-22 上海森亿医疗科技有限公司 基于虚拟科室的业务权限配置方法、***以及终端
CN112349404A (zh) * 2020-11-03 2021-02-09 中国人民解放军总医院 基于云-边-端架构的多中心医疗设备大数据云平台
CN112685514A (zh) * 2021-01-08 2021-04-20 北京云桥智联科技有限公司 Ai智能客户价值管理平台
CN112860659A (zh) * 2021-01-18 2021-05-28 北京奇艺世纪科技有限公司 数据仓库的构建方法、装置、设备及存储介质
CN112860659B (zh) * 2021-01-18 2023-09-01 北京奇艺世纪科技有限公司 数据仓库的构建方法、装置、设备及存储介质
CN112732763A (zh) * 2021-01-20 2021-04-30 北京千方科技股份有限公司 数据的聚合方法、装置、电子设备及介质
CN112988916A (zh) * 2021-03-05 2021-06-18 杭州天阙科技有限公司 针对Clickhouse的全量和增量同步方法、设备和存储介质
CN112988916B (zh) * 2021-03-05 2023-06-16 杭州天阙科技有限公司 针对Clickhouse的全量和增量同步方法、设备和存储介质
CN115408465A (zh) * 2022-10-27 2022-11-29 江苏智云天工科技有限公司 基于工业互联网的数据管理***及方法
CN116089518A (zh) * 2023-04-07 2023-05-09 广州思迈特软件有限公司 一种数据模型抽取方法及***、终端、介质

Also Published As

Publication number Publication date
CN111768850B (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
CN111768850B (zh) 医院数据分析方法、医院数据分析平台、设备和介质
US9619549B2 (en) Reporting and summarizing metrics in sparse relationships on an OLTP database
Dourish No SQL: The shifting materialities of database technology
US10210236B2 (en) Storing and retrieving data of a data cube
Gorton et al. Distribution, data, deployment: Software architecture convergence in big data systems
Chavan et al. Survey paper on big data
CN111367989B (zh) 一种实时数据指标计算***和方法
US12019668B2 (en) Digital duplicate
US11461293B2 (en) Processes and systems for onboarding data for a digital duplicate
US20190340272A1 (en) Systems and related methods for updating attributes of nodes and links in a hierarchical data structure
Singh et al. Easy designing steps of a local data warehouse for possible analytical data processing
Hasan et al. Data transformation from sql to nosql mongodb based on r programming language
US20230066110A1 (en) Creating virtualized data assets using existing definitions of etl/elt jobs
CN115114297A (zh) 数据轻量存储及查找方法、装置、电子设备及存储介质
CN114356945A (zh) 数据处理方法、装置、计算机设备和存储介质
CN110647518B (zh) 一种数据源融合计算方法、组件及装置
WO2019010277A2 (en) HIGHLY ATOMIZED INTERVIEWABLE AND SEGMENTED DATA SYSTEMS (HASIDS)
Purdilă et al. Single‐scan: a fast star‐join query processing algorithm
Engle et al. Evaluation Criteria for Selecting NoSQL Databases in a Single Box Environment
CN114564621A (zh) 一种关联数据的方法、装置、设备及可读存储介质
CN113722296A (zh) 一种农业信息处理方法、装置、电子设备及存储介质
Aydin et al. Data modelling for large-scale social media analytics: design challenges and lessons learned
CN116955510B (zh) 基于数据湖的空间数据版本化管理方法
McGlothlin et al. Scalable queries for large datasets using cloud computing: a case study
US20240095243A1 (en) Column-based union pruning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant