CN113380414B - 基于大数据的数据采集方法及*** - Google Patents

基于大数据的数据采集方法及*** Download PDF

Info

Publication number
CN113380414B
CN113380414B CN202110552784.9A CN202110552784A CN113380414B CN 113380414 B CN113380414 B CN 113380414B CN 202110552784 A CN202110552784 A CN 202110552784A CN 113380414 B CN113380414 B CN 113380414B
Authority
CN
China
Prior art keywords
medical data
data
acquisition
medical
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110552784.9A
Other languages
English (en)
Other versions
CN113380414A (zh
Inventor
王兴维
邰从越
陈攀
张迁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Senyint International Digital Medical System Dalian Co ltd
Original Assignee
Senyint International Digital Medical System Dalian Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Senyint International Digital Medical System Dalian Co ltd filed Critical Senyint International Digital Medical System Dalian Co ltd
Priority to CN202110552784.9A priority Critical patent/CN113380414B/zh
Publication of CN113380414A publication Critical patent/CN113380414A/zh
Application granted granted Critical
Publication of CN113380414B publication Critical patent/CN113380414B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Public Health (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Primary Health Care (AREA)
  • Quality & Reliability (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于大数据的数据采集方法及***,涉及医疗数据采集技术领域;其方法包括:通过采集调度中心获取多种医疗数据,其中所述采集调度中心包括多个不同的采集器,所述不同的采集器在对应的采集渠道获取非结构化医疗数据;汇总所述非结构化医疗数据;将所述医疗数据进行处理;对所述处理后的医疗数据进行本地存储和/或云端存储。本发明对多种多样的相关医疗数据收集后进行整合存储,提供两种的脏数据处理方式,在处理过程中可以实现脏数据精确过滤、识别、采集、展示,其可靠性强,安全性高,还能处理医疗数据中的重复数据。

Description

基于大数据的数据采集方法及***
技术领域
本发明涉及医疗数据采集技术领域,具体涉及基于大数据的数据采集方法及***。
背景技术
现阶段我国医疗数据主要来自于医院信息***HIS、电子病历***EMR、影像采集与传输***PACS、实验室检查信息***LIS、病理***PS、医疗器械等信息化***和设备所记录下来的疾病、体征数据。还包括医院物资管理、医院运营***所产生的数据。经调查显示,当前已有70%以上的医院实现了医疗信息化,但仅有不到3%的医院数据互通,医疗大数据比较分散,信息孤岛有待攻破。有时同一份病历,两个医生会有不同的解读,故医院之间的信息如果不能互通,对患者来说是很大的损失。信息孤岛同样给需要运用数据和信息的医生、医院管理者带来了极大不便。
信息孤岛是我国卫生信息化建设过程中留下的历史问题,由于未出台相关标准,各家医院在建设医疗信息***时缺乏标准指导,没有顶层设计,条块分割,导致了信息孤岛的产生。因此建立医疗的数据采集中心,是当前提高医疗技术、破除信息孤岛、实现医院之间互联互通的一个重要手段。
由于医疗数据种类繁多、量大且更新速度快,现有医疗数据采集***不能很好的处理多种多样的大量数据,且无法保证采集到的数据可靠性,还不能处理重复数据。
发明内容
针对现有技术存在上述问题,本发明提出了一种基于大数据的数据采集方法及***,其能够处理多种多样的大量数据,可靠性强,安全性高,还能处理采集数据中的重复数据。
根据本申请第一方面实施例的一种基于大数据的数据采集方法,包括:
通过采集调度中心获取多种医疗数据,其中所述采集调度中心包括多个不同的采集器,所述不同的采集器在对应的采集渠道获取非结构化医疗数据;
汇总所述非结构化医疗数据;
将所述医疗数据进行处理;
对所述处理后的医疗数据进行本地存储和/或云端存储。
根据本申请的一些实施例,通过多种采集方式获取医疗数据前,还包括:
将yml类型文件对应的服务进行基础配置,各个服务之间通过队列方式进行医疗数据的传递。
根据本申请的一些实施例,将所述医疗数据进行处理,包括:
对医疗数据的质量进行校验;
将校验后的医疗数据打标签;
对打标签后的医疗数据创建索引。
根据本申请的一些实施例,对医疗数据的质量进行校验,包括:
校验医疗数据的准确度;
通过神经网络对所述医疗数据进行去重处理;
将去重后的医疗数据加密。
根据本申请的一些实施例,将校验后的医疗数据打标签,包括:
将校验后的医疗数据输入到bert神经网络获取文本向量V;
随机选择多个文本向量V作为聚类中心点a;
获取其他医疗数据与每个聚类中心点a之间距离,将所述其他医疗数据归类为距离最近的文本向量V,分类完成后再得到多类文本向量V的聚类中心点b;
获取其他医疗数据与每个聚类中心点b之间距离,将所述其他医疗数据归类为距离最近的文本向量V,分类完成后再得到多类文本向量V的聚类中心点c,重复该步骤,获得多个种类文本;
对每个种类所述文本打上中心词的标签;
新获取的医疗数据根据与中心词的相似度进行分类。
根据本申请的一些实施例,将校验后的医疗数据打标签,包括:
将现有医疗数据分为多个类型;
通过bert+bilstm+cnn+attention+crf神经网络对所述现有医疗数据进行训练,直至准确率大于阈值;
用训练后的bert+bilstm+cnn+attention+crf神经网络对新获取的医疗数据进行分类,使其归属到相应的类型下。
根据本申请的一些实施例,对所述处理后的医疗数据进行本地存储,包括:
获取属性表所在的代理服务和端口;
所述代理服务扫描属性表中每个属性配置的起始行健,判断当前医疗数据在哪个属性范围内后存储在数据库中;
所述数据库中存储有属性与代理服务的对应关系。
根据本申请的一些实施例,对所述数据库进行管理,包括:
读取所述医疗数据翻译成内部统一数据格式;
对医疗数据的采集源进行增删改查操作;
从所述数据库中获取查询结果后,对其进行数据格式转换。
根据本申请第二方面实施例的一种基于大数据的数据采集***,包括:
采集模块,通过采集调度中心获取多种医疗数据,其中所述采集调度中心包括多个不同的采集器,所述不同的采集器在对应的采集渠道获取非结构化医疗数据;
汇总模块,汇总所述非结构化医疗数据;
处理模块,用于将所述医疗数据进行处理;
存储模块,用于对所述处理后的医疗数据进行本地存储和/或云端存储。
根据本申请的一些实施例,所述处理模块包括:
校验模块,对医疗数据的质量进行校验;
打标签模块,将校验后的医疗数据打标签;
创建索引模块,对打标签后的医疗数据创建索引。
通过以上技术方案,获得的技术效果在于:本发明对多种多样的相关医疗数据收集后进行整合存储,提供两种的脏数据处理方式,在处理过程中可以实现脏数据精确过滤、识别、采集、展示,其可靠性强,安全性高,还能处理医疗数据中的重复数据。
附图说明
图1为本申请实施例公开的数据采集计算机的硬件结构框图;
图2为本申请实施例公开的数据采集方法流程图;
图3为本申请实施例公开的将所述医疗数据进行质量校验和处理流程图;
图4为本申请实施例公开的对医疗数据的质量进行校验流程图;
图5为本申请实施例公开的对处理后的医疗数据进行本地存储流程图。
具体实施方式
现在将参考附图更全面地描述示例性实施例。然而,示例性实施例能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施例使得本发明将更加全面和完整,并将示例性实施例的构思全面地传达给本领域的技术人员。
当前三级综合医院医疗质量管理与控制指标框架,包括7大类指标,44类质量评价指标,730个单项指标,2610个复合指标,400多个监测数据,其中指标分类包含住院死亡类指标、重返类指标、医院感染类指标、手术并发症类指标、患者安全类指标、医疗机构合理用药指标与医院运行管理类指标。其管理体系庞大,监测难度也大。且各个业务***的数据库服务器运行DBMS,是否存在手工数据、手工数据量有多大、是否存在非结构化数据等问题,都是医疗互通的技术壁垒,因此本申请实施例提供基于大数据的数据采集方法及***。所述数据采集方法可以在服务器、计算机或者类似的运算装置中执行。以运行在计算机上为例,图1为本申请实施例公开的数据采集计算机的硬件结构框图。如图1所示,计算机10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述计算机还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机的结构造成限定。例如,计算机10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的数据采集方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机10的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
如图2所示,在一些实施例中,基于大数据的数据采集方法,包括:
S1.通过采集调度中心获取多种医疗数据,其中所述采集调度中心包括多个不同的采集器,所述不同的采集器在对应的采集渠道获取非结构化医疗数据;
具体的,可以利用不同的采集方式在相应的采集渠道获取医疗数据。任务调度中心可以对不同的数据(日志,数据库内数据等)采集任务进行管理。所述采集方式可以为:
(1)网络上有各种各样的开发数据集,只要找到相应的网址获取下载链接,就可以得到医疗领域的数据集,这些数据集可以帮助医疗***完善内部信息,配置采集器通过爬虫和规则匹配等方法对医疗数据进行爬取和整理。
(2)对于医疗***的日志服务,可以采用相关的日志收集方案。比较常见的几款日志收集工具有Logstash、Filebeat、Flume、Fluentd、Logagent、rsyslog、syslog-ng。配置采集器利用日志文本信息读取的方式对该类医疗数据进行读取,收集。
(3)通过社会调查的方式获取相应的医疗数据,这些医疗数据可以对医疗***的数据内容进行完善。配置采集器获取社会调查结果的医疗数据。
(4)医疗***中会设有日常运营和业务部门模块,其各种相关数据都会记录在某些文件或者***中,例如常见的医疗***数据库等。大量的医疗数据存储在数据库中,配置采集器对不同种类的数据库用不同的方式进行获取数据。
(5)医疗传感器是一种检测装置,能感受到被测量的信息,并能将感受到的信息,按一定规律变换成为电信号或其他所需形式的信息输出,通过医疗传感器获取到医疗数据后上传,配置采集器对这些医疗数据进行收集。
S2.汇总所述非结构化医疗数据;
具体的,获取医疗数据均是通过统一的微服务接口进行收集。即采集器获取数据后通过Restful接口将数据发送到微服务中,然后将数据放在redis的分布式缓存平台中进行临时存储。
对通过不同渠道获取的非结构化医疗数据进行汇总,然后统一交付给数据质量校验来处理。本申请采用了不同采集器的方式,可以处理多种数据。解决了在传统***中不能很好的处理多种多样的数据问题。
S3.将所述医疗数据进行处理;
具体的,医疗数据获取后,首先对医疗数据的质量进行校验,其包括校验各种相关医疗信息的准确度,对医疗数据去重、加密等。再进行校验后,对去重后的数据打标签,监控信息来源。
S4.对所述处理后的医疗数据进行本地存储和/或云端存储。
具体的,由于本地存储医疗数据存在一定风险,如本地设备损坏导致部分或全部数据消失。故可以将医疗数据备份在云端。即将获取的医疗数据在本地存储的同时再向云端发送一份相同的数据信息进行存储。或者每隔一段时间(例如:半个月、一个月等)将本地存储的医疗数据更新部分进行压缩,然后备份到云端。保证数据的安全性。
本发明可以将医院信息***HIS、电子病历***EMR、影像采集与传输***PACS、实验室检查信息***LIS、病理***PS和其他医院信息化***中,分布的、异构数据源的医疗数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据库中,成为医疗数据联机分析处理、医疗数据挖掘的基础,通过上述方法建立的医疗服务监管信息数据采集平台,其架构安全性高、易扩展,能够支持各类主流开发语言,并提供丰富的接口。同时能够支持结构化和非结构化数据的存储和应用。
在一些实施例中,通过多种采集方式获取医疗数据前,还包括:
将yml类型文件对应的服务进行基础配置,各个服务之间通过队列方式进行医疗数据的传递。
具体的,数据采集过程中所有配置文件均存储在nacos中,所述nacos中有很多yml类型的文件,分别是各个服务的配置文件,例如:采集器服务,数据质量校验服务、用户中心服务,网关服务,数据管理服务等。首先对yml类型文件进行服务的端口、数据库地址、启动方式等进行基础配置。各个服务在启动时自动从nacos中获取到对应的配置。
需要说明的是,医疗数据在各个服务中的传递都是使用中间件工具,也就是用队列的方式来解决并发问题,降低服务器的压力。
如图3所示,在一些实施例中,将所述医疗数据进行质量校验和处理,包括:
S31.对医疗数据的质量进行校验;
具体的,质量校验包括通过对比原则校验医疗数据准确度、通过神经网络对医疗数据进行去重、对去重后的数据进行TripleDES算法加密。
S32.将校验后的医疗数据打标签;
具体的,可以通过两种方式实现,第一种方式是将获取到的医疗数据进行聚类;第二种方式是使用神经网络进行分类。分类完成后将数据的数据源也作为属性存储到该数据的整体信息中。
S33.对打标签后的医疗数据创建索引。
具体的,将每条医疗数据进行总结获取到该数据的标题。获取标题方式分为两种:一种为直接获取该数据的前10-20个字符作为该数据的标题,另一种方式通过Seq2Seq架构中的编码器和解码器获取该数据的摘要。将所述数据的摘要,产生时间等重要的属性在Elasticsearch中创建索引便于用户快速的查询该数据。
如图4所示,在一些实施例中,对医疗数据的质量进行校验,包括:
S311.校验医疗数据的准确度;
具体的,医疗数据准确度校验可以通过多种方式实现,例如第一种是将中间件发送来的医疗数据进行MD5编码和数据携带的MD5码进行对比,如果相同则说明传输的数据不存在问题;第二种是通过该数据的多个数据源进行相似度对比,差异较大,则该数据存在问题;第三种是确定数据传输前后是否存在较大误差,如果同一个指标的平均值出现了巨大差异,而又不符合逻辑时,则说明传输过程出了问题,获取的数据不准确。
S312.通过神经网络对所述医疗数据进行去重处理;
具体的,使用神经网络对医疗数据文本进行去重,将获取到的经过检验的完整数据和现有***中相对应的模块信息对比。例如将获取某人现有的病情信息,和现有***中该人的病情信息进行对比。判断方式可以用神经网络中的bert获取相应的句子向量然后进行相似度的计算。相似度大于90%将文本定义为基本相同,相似度大于80%则定义为大致相同,相似度低于50%,则定义为不同。过滤掉相同的医疗数据,保存不同的医疗数据。
S313.将去重后的医疗数据加密。
具体的,TripleDES算法可以把64位的明文输入块变为数据长度为64位的密文输出块,其中8位为奇偶校验位,另外56位作为密码的长度。
在一些实施例中,将校验后的医疗数据打标签,包括:
将校验后的医疗数据输入到bert神经网络获取文本向量V;
随机选择多个(例如10个)文本向量V作为聚类中心点a;
获取其他医疗数据与每个聚类中心点a之间距离(通过相似度计算来判断其他医疗数据和文本之间含义的距离),将所述其他医疗数据归类为距离最近的文本向量V,分类完成后再得到多类(例如10类)文本向量V的聚类中心点b;
获取其他医疗数据与每个聚类中心点b之间距离(通过相似度计算来判断其他医疗数据和文本之间含义的距离),将所述其他医疗数据归类为距离最近的文本向量V,分类完成后再得到多类(例如10类)文本向量V的聚类中心点c,重复该步骤N次,获得多个(例如10个)种类文本进行存储;
对每个种类所述文本打上中心词的标签;
新获取的医疗数据根据与中心词的相似度进行分类。
在一些实施例中,将校验后的医疗数据打标签,包括:
将现有医疗数据分为多个类型;
具体的,所述多个类型可以为10个类型,该数目根据现有医疗数据量确定。
通过bert+bilstm+cnn+attention+crf神经网络对所述现有医疗数据进行训练,直至准确率大于阈值;
具体的,使用训练的设备显卡内存应大于10G,训练出准确率大于90%的效果。
用训练后的bert+bilstm+cnn+attention+crf神经网络对新获取的医疗数据进行分类,使其归属到相应的类型下。
需要说明的是:本实施例对多种脏数据提供了2种或多种的处理方式,在某种数据的处理方式失败情况下,可以自动识别返回处理失败的信号0,立刻启动另外处理方式对数据进行处理,保证数据处理的稳定性。例如:对医疗数据进行规则分类失败时,则会立刻用神经网络模型对医疗数据进行分类获取准确的分类结果。
如图5所示,在一些实施例中,对处理后的医疗数据进行本地存储,包括:
S41.获取属性表所在的代理服务和端口;
具体的,获取包含完整属性的医疗数据后。通过客户端连接zookeeper,从zookeeper的节点找到属性表所在的代理服务和端口。
S42.所述代理服务扫描属性表中每个属性配置的起始行健,判断当前医疗数据在哪个属性范围内后存储在数据库中;
S43.所述数据库中存储有属性与代理服务的对应关系。
具体的,客户端直接请求对应的代理服务;代理服务接收到客户端发来的请求之后,将医疗数据写入到属性中。
在一些实施例中,对所述数据库进行管理,包括:
读取所述医疗数据翻译成内部统一数据格式;
具体的,该步骤使数据库中的资源可以充分得到管理,并且能实现关于数据的一种控制;
对医疗数据的采集源进行增删改查操作;
具体的,根据信源状态、正则状态等,实时监控网站;对于关键词搜索采集,便于实时增加/删除、启动/关闭采集;根据采集的实际情况,实时调整采集策略。如增加/删减采集器等;
从所述数据库中获取查询结果后,对其进行数据格式转换。
具体的,将用户的数据请求(高级指令)转换成复杂的机器代码(低层指令),实现对数据库的查询操作并获取查询结果;对查询结果进行处理(格式转换)返回给用户。
本实施例还公开了一种基于大数据的数据采集***,包括:
采集模块,通过采集调度中心获取多种医疗数据,其中所述采集调度中心包括多个不同的采集器,所述不同的采集器在对应的采集渠道获取非结构化医疗数据;
采集模块,汇总所述非结构化医疗数据;
处理模块,将所述医疗数据进行处理;
存储模块,对所述处理后的医疗数据进行本地存储和/或云端存储。
***完成单个医疗数据的存储作业,称之为Job,其接收到一个Job之后,将启动一个进程来完成整个存储过程。***Job模块是单个作业的中枢管理节点,承担了数据清理、子任务切分(将单一作业计算转化为多个子Task)、TaskGroup管理等功能。***Job启动后,会根据不同的源端切分策略,将Job切分成多个小的Task(子任务),以便于并发执行。Task便是***作业的最小单元,每一个Task都会负责一部分数据的存储工作。切分多个Task之后,***Job会调用Scheduler模块,根据配置的并发数据量,将拆分成的Task重新组合,组装成TaskGroup(任务组)。每一个TaskGroup负责以一定的并发运行完毕分配好的所有Task,默认单个任务组的并发数量可以为10。每一个Task都由TaskGroup负责启动,Task启动后,会固定启动Reader—>Channel—>Writer的线程来完成数据存储工作。***作业运行起来之后,Job监控并等待多个TaskGroup模块任务完成,等待所有TaskGroup任务完成后Job成功退出。
在一些实施例中,所述一种基于大数据的数据采集***还包括:
配置模块,用于将yml类型文件对应的服务进行基础配置,各个服务之间通过队列方式进行医疗数据的传递。
在一些实施例中,所述处理模块包括:
校验模块,对医疗数据的质量进行校验;
打标签模块,将校验后的医疗数据打标签;
创建索引模块,对打标签后的医疗数据创建索引。
在一些实施例中,所述校验模块包括:
准确度校验模块,校验医疗数据的准确度;
去重模块,通过神经网络对所述医疗数据进行去重处理;
加密模块,将去重后的医疗数据加密。
在一些实施例中,所述打标签模块具体实现方式包括:
将校验后的医疗数据输入到bert神经网络获取文本向量V;
随机选择多个文本向量V作为聚类中心点a;
获取其他医疗数据与每个聚类中心点a之间距离,将所述其他医疗数据归类为距离最近的文本向量V,分类完成后再得到多类文本向量V的聚类中心点b;
获取其他医疗数据与每个聚类中心点b之间距离,将所述其他医疗数据归类为距离最近的文本向量V,分类完成后再得到多类文本向量V的聚类中心点c,重复该步骤,获得多个种类文本;
对每个种类所述文本打上中心词的标签;
新获取的医疗数据根据与中心词的相似度进行分类。
在一些实施例中,所述打标签模块具体实现方式包括:
将现有医疗数据分为多个类型;
通过bert+bilstm+cnn+attention+crf神经网络对所述现有医疗数据进行训练,直至准确率大于阈值;
用训练后的bert+bilstm+cnn+attention+crf神经网络对新获取的医疗数据进行分类,使其归属到相应的类型下。
在一些实施例中,所述存储模块具体实现方式包括:
获取属性表所在的代理服务和端口;
所述代理服务扫描属性表中每个属性配置的起始行健,判断当前医疗数据在哪个属性范围内后存储在数据库中;
所述数据库中存储有属性与代理服务的对应关系。
在一些实施例中,对所述数据库进行管理,包括:
读取所述医疗数据翻译成内部统一数据格式;
对医疗数据的采集源进行增删改查操作;
从所述数据库中获取查询结果后,对其进行数据格式转换。
由于该基于大数据的数据采集***解决问题的原理与上述数据采集方法类似,因此所述基于大数据的数据采集系的实施可以参见方法的实施,在此不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述数据采集方法的步骤。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
此外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一起。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。
最后应说明的是:以上上述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应上述以权利要求的保护范围为准。

Claims (7)

1.一种基于大数据的数据采集方法,其特征在于,包括:
通过采集调度中心获取多种医疗数据,其中所述采集调度中心包括多个不同的采集器,所述不同的采集器在对应的采集渠道获取非结构化医疗数据;
汇总所述非结构化医疗数据;
将所述医疗数据进行处理;
对所述处理后的医疗数据进行本地存储和/或云端存储;
将所述医疗数据进行处理,包括:
对医疗数据的质量进行校验;
将校验后的医疗数据打标签;
对打标签后的医疗数据创建索引;
将校验后的医疗数据通过方式一或方式二打标签,
所述方式一包括:
将校验后的医疗数据输入到bert神经网络获取文本向量V;
随机选择多个文本向量V作为聚类中心点a;
获取其他医疗数据与每个聚类中心点a之间距离,将所述其他医疗数据归类为距离最近的文本向量V,分类完成后再得到多类文本向量V的聚类中心点b;
获取其他医疗数据与每个聚类中心点b之间距离,将所述其他医疗数据归类为距离最近的文本向量V,分类完成后再得到多类文本向量V的聚类中心点c,重复该步骤,获得多个种类文本;
对每个种类所述文本打上中心词的标签;
新获取的医疗数据根据与中心词的相似度进行分类;
所述方式二包括:
将现有医疗数据分为多个类型;
通过bert+bilstm+cnn+attention+crf神经网络对所述现有医疗数据进行训练,直至准确率大于阈值;
用训练后的bert+bilstm+cnn+attention+crf神经网络对新获取的医疗数据进行分类,使其归属到相应的类型下。
2.根据权利要求1所述一种基于大数据的数据采集方法,其特征在于,通过多种采集方式获取医疗数据前,还包括:
将yml类型文件对应的服务进行基础配置,各个服务之间通过队列方式进行医疗数据的传递。
3.根据权利要求1所述一种基于大数据的数据采集方法,其特征在于,对医疗数据的质量进行校验,包括:
校验医疗数据的准确度;
通过神经网络对所述医疗数据进行去重处理;
将去重后的医疗数据加密。
4.根据权利要求1所述一种基于大数据的数据采集方法,其特征在于,对处所述理后的医疗数据进行本地存储,包括:
获取属性表所在的代理服务和端口;
所述代理服务扫描属性表中每个属性配置的起始行健,判断当前医疗数据在哪个属性范围内后存储在数据库中;
所述数据库中存储有属性与代理服务的对应关系。
5.根据权利要求4所述一种基于大数据的数据采集方法,其特征在于,对所述数据库进行管理,包括:
读取所述医疗数据翻译成内部统一数据格式;
对医疗数据的采集源进行增删改查操作;
从所述数据库中获取查询结果后,对其进行数据格式转换。
6.一种基于大数据的数据采集***,用于实现权利要求1-5任一项所述数据采集方法,其特征在于,包括:
采集模块,通过采集调度中心获取多种医疗数据,其中所述采集调度中心包括多个不同的采集器,所述不同的采集器在对应的采集渠道获取非结构化医疗数据;
汇总模块,汇总所述非结构化医疗数据;
处理模块,用于将所述医疗数据进行处理;
存储模块,用于对所述处理后的医疗数据进行本地存储和/或云端存储。
7.根据权利要求6所述一种基于大数据的数据采集***,其特征在于,所述处理模块包括:
校验模块,对医疗数据的质量进行校验;
打标签模块,将校验后的医疗数据打标签;
创建索引模块,对打标签后的医疗数据创建索引。
CN202110552784.9A 2021-05-20 2021-05-20 基于大数据的数据采集方法及*** Active CN113380414B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110552784.9A CN113380414B (zh) 2021-05-20 2021-05-20 基于大数据的数据采集方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110552784.9A CN113380414B (zh) 2021-05-20 2021-05-20 基于大数据的数据采集方法及***

Publications (2)

Publication Number Publication Date
CN113380414A CN113380414A (zh) 2021-09-10
CN113380414B true CN113380414B (zh) 2023-11-10

Family

ID=77571507

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110552784.9A Active CN113380414B (zh) 2021-05-20 2021-05-20 基于大数据的数据采集方法及***

Country Status (1)

Country Link
CN (1) CN113380414B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114564444A (zh) * 2022-02-24 2022-05-31 朗森特科技有限公司 一种利用二进制提取、识别、归类文件的***

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108899078A (zh) * 2018-06-27 2018-11-27 郑州云海信息技术有限公司 一种基于云存储的健康信息处理***
CN108922632A (zh) * 2018-05-03 2018-11-30 广东健凯医疗有限公司 一种数据管理方法及***
CN109785927A (zh) * 2019-02-01 2019-05-21 上海众恒信息产业股份有限公司 基于互联网一体化医疗平台的临床文档结构化处理方法
CN110021439A (zh) * 2019-03-07 2019-07-16 平安科技(深圳)有限公司 基于机器学习的医疗数据分类方法、装置和计算机设备
CN110415831A (zh) * 2019-07-18 2019-11-05 天宜(天津)信息科技有限公司 一种医疗大数据云服务分析平台
CN111259154A (zh) * 2020-02-07 2020-06-09 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备及存储介质
CN111401066A (zh) * 2020-03-12 2020-07-10 腾讯科技(深圳)有限公司 基于人工智能的词分类模型训练方法、词处理方法及装置
CA3085033A1 (en) * 2019-07-30 2021-01-30 Imrsv Data Labs Inc. Methods and systems for multi-label classification of text data
CN112711581A (zh) * 2020-12-30 2021-04-27 医渡云(北京)技术有限公司 医疗数据校验方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020247651A1 (en) * 2019-06-05 2020-12-10 The Ronin Project, Inc. Modeling for complex outcomes using clustering and machine learning algorithms

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108922632A (zh) * 2018-05-03 2018-11-30 广东健凯医疗有限公司 一种数据管理方法及***
CN108899078A (zh) * 2018-06-27 2018-11-27 郑州云海信息技术有限公司 一种基于云存储的健康信息处理***
CN109785927A (zh) * 2019-02-01 2019-05-21 上海众恒信息产业股份有限公司 基于互联网一体化医疗平台的临床文档结构化处理方法
CN110021439A (zh) * 2019-03-07 2019-07-16 平安科技(深圳)有限公司 基于机器学习的医疗数据分类方法、装置和计算机设备
CN110415831A (zh) * 2019-07-18 2019-11-05 天宜(天津)信息科技有限公司 一种医疗大数据云服务分析平台
CA3085033A1 (en) * 2019-07-30 2021-01-30 Imrsv Data Labs Inc. Methods and systems for multi-label classification of text data
CN111259154A (zh) * 2020-02-07 2020-06-09 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备及存储介质
CN111401066A (zh) * 2020-03-12 2020-07-10 腾讯科技(深圳)有限公司 基于人工智能的词分类模型训练方法、词处理方法及装置
CN112711581A (zh) * 2020-12-30 2021-04-27 医渡云(北京)技术有限公司 医疗数据校验方法、装置、电子设备及存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Word Embedding-based Text Processing for Comprehensive Summarization and Distinct Information Extraction;Wan, Xiangpeng 等;020 IEEE TECHNOLOGY & ENGINEERING MANAGEMENT CONFERENCE;1-5 *
基于LCN的医疗知识问答模型;马满福;刘元喆;李勇;王霞;贾海;史彦斌;张小康;;西南大学学报(自然科学版)(10);30-41 *
基于TextRank的医院信息智能处理方法研究;刘宇枝 等;粘接;第49卷(第9期);57-63 *
基于云计算的医疗大数据分析服务平台及应用示范;王兴维 等;中国知网;1-2 *
基于大数据处理的模糊聚类分析应用研究;李媛;中国知网硕士学位论文库(第4期);1-57 *

Also Published As

Publication number Publication date
CN113380414A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
US10706093B2 (en) System for organizing and fast searching of massive amounts of data
CN109471863B (zh) 基于分布式数据库的信息查询方法及装置、电子设备
US11238069B2 (en) Transforming a data stream into structured data
CN111488363B (zh) 数据处理方法、装置、电子设备及介质
CN110008288A (zh) 用于网络故障分析的知识图谱库的构建方法及其应用
WO2021121187A1 (zh) 基于分词文本的电子病例查重方法、装置、计算机设备
CN110597946B (zh) 一种案例存储方法、装置、设备及存储介质
US11600367B2 (en) Medical diagnostic platform
CN111611458A (zh) 大数据治理中基于元数据和数据分析技术实现***数据架构梳理的方法
WO2022222943A1 (zh) 科室推荐方法、装置、电子设备及存储介质
US11977546B1 (en) System and method for integrating disparate information sources
US11727007B1 (en) Systems and methods for a unified analytics platform
CN114049927A (zh) 疾病数据处理方法、装置、电子设备及可读介质
US11921758B2 (en) Systems and methods for machine learning models for entity resolution
CN111210884B (zh) 一种临床医疗数据采集方法、装置、介质及设备
US20220101961A1 (en) Systems and methods for matching medical records for patients across disparate medical providers to facilitate continuity of care
CN111370132A (zh) 电子文件的解析方法及装置、计算机设备、存储介质
WO2022237506A1 (zh) 在线问诊业务监控方法、装置、设备及存储介质
CN113380414B (zh) 基于大数据的数据采集方法及***
US11748634B1 (en) Systems and methods for integration of machine learning components within a pipelined search query to generate a graphic visualization
CN113806332A (zh) 一种异构***集成数据处理方法、装置和计算机设备
US20230073627A1 (en) Analytics database and monitoring system for structuring and storing data streams
US20220407768A1 (en) Information distribution system, monitoring device, sharing device and information distribution method
US10901980B2 (en) Health care clinical data controlled data set generator
Christobel et al. Health Care Analysis Based on Big Data: A Review Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant