CN113672609A - 基于多源数据融合生成居民孕产模型标签方法 - Google Patents
基于多源数据融合生成居民孕产模型标签方法 Download PDFInfo
- Publication number
- CN113672609A CN113672609A CN202111025631.5A CN202111025631A CN113672609A CN 113672609 A CN113672609 A CN 113672609A CN 202111025631 A CN202111025631 A CN 202111025631A CN 113672609 A CN113672609 A CN 113672609A
- Authority
- CN
- China
- Prior art keywords
- data
- pregnancy
- information
- date
- birth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000035935 pregnancy Effects 0.000 title claims abstract description 161
- 230000004927 fusion Effects 0.000 title claims abstract description 67
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000002776 aggregation Effects 0.000 claims abstract description 39
- 238000004220 aggregation Methods 0.000 claims abstract description 39
- 238000012795 verification Methods 0.000 claims abstract description 19
- 238000004140 cleaning Methods 0.000 claims abstract description 17
- 230000036541 health Effects 0.000 claims abstract description 16
- 238000004458 analytical method Methods 0.000 claims abstract description 9
- 230000035606 childbirth Effects 0.000 claims abstract description 5
- 238000007726 management method Methods 0.000 claims description 29
- 238000006243 chemical reaction Methods 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 16
- 230000003203 everyday effect Effects 0.000 claims description 15
- 238000012384 transportation and delivery Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 13
- 230000004931 aggregating effect Effects 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 8
- 238000007689 inspection Methods 0.000 claims description 7
- 238000013479 data entry Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 230000002354 daily effect Effects 0.000 claims description 5
- 238000013523 data management Methods 0.000 claims description 5
- 238000013524 data verification Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 230000008676 import Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 3
- 238000013496 data integrity verification Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 claims description 3
- 238000000586 desensitisation Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 239000003814 drug Substances 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 210000001503 joint Anatomy 0.000 claims description 3
- 230000008439 repair process Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 230000004083 survival effect Effects 0.000 claims description 3
- 230000001360 synchronised effect Effects 0.000 claims description 3
- 230000009984 peri-natal effect Effects 0.000 abstract description 3
- 206010000234 Abortion spontaneous Diseases 0.000 description 3
- 206010000210 abortion Diseases 0.000 description 3
- 231100000176 abortion Toxicity 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 208000000995 spontaneous abortion Diseases 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 206010004272 Benign hydatidiform mole Diseases 0.000 description 1
- 208000034423 Delivery Diseases 0.000 description 1
- 208000006937 Hydatidiform mole Diseases 0.000 description 1
- 208000035752 Live birth Diseases 0.000 description 1
- 206010036595 Premature delivery Diseases 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000003511 ectopic pregnancy Diseases 0.000 description 1
- 230000035558 fertility Effects 0.000 description 1
- 201000007116 gestational trophoblastic neoplasm Diseases 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 231100000533 low birth weight Toxicity 0.000 description 1
- 208000018773 low birth weight Diseases 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 208000015994 miscarriage Diseases 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 208000002254 stillbirth Diseases 0.000 description 1
- 231100000537 stillbirth Toxicity 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 230000009677 vaginal delivery Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2477—Temporal data queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Economics (AREA)
- Probability & Statistics with Applications (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Fuzzy Systems (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于多源数据融合生成居民孕产模型标签方法,包括:步骤1、数据汇聚分析;步骤2、根据业务分析需要汇聚生育登记信息、怀孕信息、出生信息、卫健委/公安出生信息、户籍信息和出生医学证明信息;步骤3、校验数据;步骤4、清洗数据;步骤5、融合数据;步骤6、多源数据融合成孕产模型;步骤7、基于孕产模型生成孕产标签;步骤8、基于多源数据融合智能标签生成对怀孕标签进行使用;步骤9、进行数据质量稽查。该方法能够快速发现孕妇并进行孕产跟踪和监控,降低孕产妇和围产儿死亡率,同时,便于人口信息管理,实现产妇分娩管理和核查。
Description
技术领域
本发明涉及一种基于多源数据融合生成居民孕产模型标签方法。
背景技术
日常孕产业务核查过程中会存在以下问题:
第一、孕产模型一数多源,编目难确权:孕产资源信息目录存在多个部门编目,每个部门信息资源项权属不清晰、数据项维护职责不明确;同时,存在一数多源情况。例如,卫健委委既有全员人口***资源目录,又有生育登记信息、怀孕信息、出生信息、公安出生信息、卫健委委健康家庭一卡通等信息。
第二、数据标准不统一,口径不一致:多部门对孕产信息数据项以及数据标准不一致,导致数据共享交换过程中存在数据口径冲突、一数多意的问题。例如,全员人口中妊娠结果代码字典项有:活产、***分娩、剖宫产、妊娠终止、自然流产、12周以内人工流产、12周以上人工流产、死胎、死产、其他;而妊娠结局随访字典项有:足月活产、自然流产、人工流产、稽留流产、***、异位妊娠、治疗性引产、低出生体重儿、早产。
第三、数据交换过程追溯机制不完善:孕产信息数据共享交换过程涉及的业务方有卫健委、公安等部门,数据业务流程长、审批环节多。同时,数据申请、审批、交换、使用过程无法追溯审计。
第四、业务协同不深入,数据不可用:业务协同处于初级阶段,存在信息孤岛、有数不能用。当前政务部门较多,孕产信息数据散落在众多信息***中,形成一个个“数据烟囱”。以出生人口为例,***公布的人口出生数据,公安公布的出生且登记户籍的人口出生数据,卫健委的出生数据可能又是一个新值。
因此,急需要提供一种基于多源数据融合生成居民孕产模型标签方法来解决上述难题。
发明内容
本发明的目的是提供一种基于多源数据融合生成居民孕产模型标签方法,该方法能够快速发现孕妇并进行孕产跟踪和监控,降低孕产妇和围产儿死亡率,同时,便于人口信息管理,实现产妇分娩管理和核查。
为了实现上述目的,本发明提供了一种基于多源数据融合生成居民孕产模型标签方法,包括:
步骤1、数据汇聚分析;
步骤2、根据业务分析需要汇聚生育登记信息、怀孕信息、出生信息、卫健委/公安出生信息、户籍信息和出生医学证明信息;
步骤3、校验数据;
步骤4、清洗数据;
步骤5、融合数据;
步骤6、多源数据融合成孕产模型;
步骤7、基于孕产模型生成孕产标签;
步骤8、基于多源数据融合智能标签生成对怀孕标签进行使用;
步骤9、进行数据质量稽查。
优选地,步骤1包括:定义出一系列的孕产业务孕产业务数据交换规范标准,用于反应各业务应用所需要的数据结构;同时,在标准中定义数据提供方信息,记录当前数据是通过哪个业务部门、哪个业务***请求获得;
步骤1中的数据汇聚方法包括数据录入和数据采集汇聚;其中,
数据录入为通过页面管理操作,实现孕产专项业务的录入,根据梳理的统一标准《孕产业务标准规范》对社区的孕产等信息进行模板式录入管理;
数据采集汇聚为对接各业务部门信息平台,通过调研分析梳理的信息***,利用向导式的操作使用数据人工智能机器人将该单位现有***的数据导出后,再根据数据导入标准进行底数仓库数据导入。
优选地,在步骤2中,
汇聚生育登记信息的汇聚加载策略为增量追加,汇聚逻辑为:首先,汇聚数据所在位置,即新******中的生育登记管理;其次,每天获取的增加数据判断依据为申请日期,其中,开始日期为当前时间减7天,结束日期为当前时间天;
汇聚怀孕信息的汇聚加载策略为增量追加,汇聚逻辑为:首先,汇聚数据所在位置,即全员人口业务中的全员业务查询中的怀孕信息查询;其次,每天获取的增加数据判断依据为妊娠日期,其中,开始日期为当前时间减1 年,结束日期为当前时间天;
汇聚出生信息的汇聚加载策略为增量追加,汇聚逻辑为:首先,汇聚数据所在位置,即全员人口业务中的全员业务查询中的出生信息查询;其次,每天获取的增加数据判断依据为出生日期,其中,开始日期为当前时间减半年,结束日期为当前时间天;
汇聚卫健委/公安出生信息的汇聚加载策略为增量追加,汇聚逻辑为:首先,汇聚数据所在位置,即大数据中心数据库中的GZK_SC_WJW_GACSDJXX 数据表中的所有字段;其次,每天获取的增加数据判断依据为数据写入时间,即当前时间减1天;出生登记类型为出生登记并上报派出所名称;
汇聚户籍信息的汇聚加载策略为增量追加,汇聚逻辑为:首先,汇聚数据所在位置,即大数据中心数据库中的GZK_SC_WJW_GACSDJXX数据表中的所有字段;其次,每天获取的增加数据判断依据为数据写入时间,即当前时间减1天;出生登记类型为出生登记并上报派出所名称;
汇聚出生医学证明信息的汇聚加载策略为增量追加,汇聚逻辑为:首先,汇聚数据所在位置,即大数据中心数据库中的PSN_BIRTH_CERTIFICATE_INFO 数据表中的所有字段;其次,每天获取的增加数据判断依据为更新时间,即当前时间减1天。
优选地,在步骤3中:
数据校验从校验对象细粒度维度分析,针对孕情专项数据,校验模块进行数据唯一性检查和外键完整性检查;数据校验内容包括类型、长度、是否为空、精度、范围、格式等信息,如果数据不符合,则进行过滤;同时,对于错误的数据,进行错误数据输出,包括错误原因和错误字段序号;
在发生数据汇聚时,各业务部门采集汇聚的数据向基层社区底数仓库传入要校验的数据条目信息,数据底座校验该条目信息是否吻合一致,如果一致相符,则返回对比成功;否则,返回比对错误,并将各业务部门采集汇聚准确的信息返回给自动取数模块;在向业务部门数据同步时,数据校验用于比对导入数据和业务部门数据的一致性,如果一致,则不需要重复导入;如果不一致,则用最新的数据覆盖不一致信息。
优选地,步骤4中的数据清洗为对人工智能采集汇聚机器人抽取过来的数据进行清洗处理,包括数据过滤、数据剔重、类型转换、编码映射、文件拆分与合并、维度转换等功能,用于进行不一致的数据转换、数据粒度的转换、数据去脏和转换规则的计算;其中,不符合要求的数据包括残缺数据、错误数据和重复数据;
针对残缺数据,对其进行数据过滤并根据业务属性使用算法或者人工关联进行必要补齐;
针对错误数据,如是数值数据输成全角数字字符或数据前后有不可见字符的问题,通过写SQL语句的方式找出来,使用算法进行尝试修复;如是日期格式不正确或日期越界,则需要先核实后修复;
针对重复数据,对每个从源业务***中数据,按照表的主键、识别主体,对主键字段重复、主体名称重复或其他业务规则能识别为同一主体的,判断最新的正确数据,将重复数据记录的所有字段导出,由部门确认并整理,再对重复数据进行删除,最终保留一份正确的数据。
优选地,步骤5中数据融合为将孕产专项的数据按照转换规则生成新的数据并存放至数据底座的数据仓库中,其中,数据转换支持数据字段之间一对多、多对一以及多对多的映射关系处理;
对于一数一源,如为可信数据可直接进行数据入库;对于一数多源,按照数据质量指标评价方法和数据存活规则生产可信数据,再进行数据入库;对于多源数据融合,包括数据级融合、特征级融合和决策级融合;其中,数据级融合是对原始数据经过简单处理之后直接使用SQL进行关联和融合,融合之后再进行数据特征提取;特征级融合基于对数据特征进行提取后使用相关算法对数据进行关联融合;决策级融合是先对各数据源进行决策,然后再将这些决策进行关联融合,最终获得一致性决策结果。
优选地,在步骤6中根据孕情专项模型中的生育登记管理、怀孕信息、出生信息、卫健委/公安出生登记信息、户籍信息和出生医学证明中的多源数据融合生成怀孕报表数据,融合后的字段包括女方姓名、女方身份证、怀孕情况、妊娠开始日期、妊娠终止日期、分娩结果和妊娠结果。
优选地,步骤7中的标签中,
未分娩标签计算口径为:同时满足怀孕日期有值、怀孕日期小于当前280 天和妊娠终止日期无值;或者,同时满足妊娠开始日期有值、妊娠开始日期小于当前280天和妊娠终止日期无值;再或者,同时满足生育登记中办结日期有值、登记时状态为在孕申请、办结日期小于当前280天和妊娠终止日期无值;
已分娩标签计算口径为:同时满足妊娠终止日期有值和妊娠终止日期大于怀孕日期;或者,同时满足妊娠终止日期有值、妊娠终止日期大于当前孕妇末子的出生日期或末子出生日期;再或者,使用卫健委/公安出生登记信息和户籍信息已出生信息表进行关联,获取到的幼儿出生的孕妇/丈夫信息判断当前孕妇信息是否有妊娠终止,其中,幼儿出生日期等同于妊娠终止日期;
疑似分娩标签计算口径为:同时满足当前孕妇的妊娠开始日期有值、妊娠终止日期无值和妊娠开始日期大于280天。
优选地,在步骤8中,
标签逻辑为:首先,使用怀孕报表中女方身份证跟社区已有人口管理身份证进行关联,获取居民ID和基本单元ID;其次,如果分娩结果中值为未分娩孕妇标签为是,值为已分娩则孕妇标签为否;接着,新增专项信息管理中的妊娠信息专项数据;最后,如果怀孕报表中女方身份证不在社区已有人口管理中,则生成相应的待核查任务;
孕产标签中包括居民ID、妊娠开始日期、妊娠终止日期、妊娠预产期、妊娠结果、基本单元ID和更新时间。
优选地,在步骤9中,
数据质量稽查通过制定数据质量规则,在数据汇聚和数据融合等数据治理过程中或质量稽核过程中依据数据质量规则与数据标准,对数据进行完成性校验、数据格式比对、数据查重和关系校验,将有效数据采集到底数仓库,将问题数据反馈到相应的部门,以实现分发、整改以及闭环操作;
同时,通过分析孕产业务数据来总结业务数据缺陷,根据孕产业务数据问题建立数据完整性校验模型、数据格式校验模型、数据范围校验模型、数据查重模型、关系校验模型和数据脱敏模型。
根据上述技术方案,本发明搭建hdsf+hive+kylin大数据平台,基于大数据融合技术(Big data integration,BDI)把来自一数一源的卫健委委全员人口数据和多源补充融合数据,如人工补充、大数据中心补充数据等多源动态异构数数据,通过接入数据汇聚、数据校验、数据清洗、数据融合等数据服务,采用自动化的集中管理和数据治理,将孕产信息数据按照孕产业务进行梳理,基于特征级别数据融合、数据服务方式梳理孕产模型,为孕产场景提供数据赋能。
本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1是本发明中基于多源数据融合生成居民孕产模型标签方法的流程图;
图2是本发明中多源数据融合的示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
参见图1,本发明提供一种基于多源数据融合生成居民孕产模型标签方法,以多源数据融合智能标签生成核查居民孕产模型生成,对符合法定条件生育的孕妇实现全程服务和管理,建立孕情检查和访视。包括:
步骤1、数据汇聚分析;
步骤2、根据业务分析需要汇聚生育登记信息、怀孕信息、出生信息、卫健委/公安出生信息、户籍信息和出生医学证明信息;
步骤3、校验数据;
步骤4、清洗数据;
步骤5、融合数据;
步骤6、多源数据融合成孕产模型;
步骤7、基于孕产模型生成孕产标签;
步骤8、基于多源数据融合智能标签生成对怀孕标签进行使用;
步骤9、进行数据质量稽查。
具体的,步骤1包括:根据对孕产业务的需求分析,定义出一系列的孕产业务孕产业务数据交换规范标准,用于反应各业务应用所需要的数据结构;同时,在标准中定义数据提供方信息,记录当前数据是通过哪个业务部门、哪个业务***请求获得;
步骤1中的数据汇聚方法包括数据录入和数据采集汇聚;其中,
数据录入为通过页面管理操作,实现孕产专项业务的录入,根据梳理的统一标准《孕产业务标准规范》对社区的孕产等信息进行模板式录入管理;
数据采集汇聚为对接各业务部门信息平台,通过调研分析梳理的信息***,利用向导式的操作使用数据人工智能机器人将该单位现有***的数据导出后,再根据数据导入标准进行底数仓库数据导入。导入文件的类型支持文本文件、excel文件、XML文件以及数据库等。
在步骤2中,
汇聚生育登记信息的汇聚***为人口信息综合业务平台,汇聚加载策略为增量追加,汇聚逻辑为:首先,汇聚数据所在位置,即新******中的生育登记管理;其次,每天获取的增加数据判断依据为申请日期,其中,开始日期为当前时间减7天,结束日期为当前时间天;
汇聚怀孕信息的汇聚***为人口信息综合业务平台,汇聚加载策略为增量追加,汇聚逻辑为:首先,汇聚数据所在位置,即全员人口业务中的全员业务查询中的怀孕信息查询;其次,每天获取的增加数据判断依据为妊娠日期,其中,开始日期为当前时间减1年,结束日期为当前时间天;
汇聚出生信息的汇聚***为人口信息综合业务平台,汇聚加载策略为增量追加,汇聚逻辑为:首先,汇聚数据所在位置,即全员人口业务中的全员业务查询中的出生信息查询;其次,每天获取的增加数据判断依据为出生日期,其中,开始日期为当前时间减半年,结束日期为当前时间天;
汇聚卫健委/公安出生信息的汇聚***为城市大数据中心,汇聚加载策略为增量追加,汇聚逻辑为:首先,汇聚数据所在位置,即大数据中心数据库中的GZK_SC_WJW_GACSDJXX数据表中的所有字段;其次,每天获取的增加数据判断依据为数据写入时间,即当前时间减1天;出生登记类型为出生登记并上报派出所名称;
汇聚户籍信息的汇聚***为城市大数据中心,汇聚加载策略为增量追加,汇聚逻辑为:首先,汇聚数据所在位置,即大数据中心数据库中的GZK_SC_WJW_GACSDJXX数据表中的所有字段;其次,每天获取的增加数据判断依据为数据写入时间,即当前时间减1天;出生登记类型为出生登记并上报派出所名称;
汇聚出生医学证明信息的汇聚***为城市大数据中心,汇聚加载策略为增量追加,汇聚逻辑为:首先,汇聚数据所在位置,即大数据中心数据库中的PSN_BIRTH_CERTIFICATE_INFO数据表中的所有字段;其次,每天获取的增加数据判断依据为更新时间,即当前时间减1天;
此外,在步骤3中:
数据校验从校验对象细粒度维度分析,针对孕情专项数据,校验模块进行数据唯一性检查和外键完整性检查;数据校验内容包括类型、长度、是否为空、精度、范围、格式等信息,如果数据不符合,则进行过滤;同时,对于错误的数据,进行错误数据输出,包括错误原因和错误字段序号;
在发生数据汇聚时,各业务部门采集汇聚的数据向基层社区底数仓库传入要校验的数据条目信息,数据底座校验该条目信息是否吻合一致,如果一致相符,则返回对比成功;否则,返回比对错误,并将各业务部门采集汇聚准确的信息返回给自动取数模块;在向业务部门数据同步时,数据校验用于比对导入数据和业务部门数据的一致性,如果一致,则不需要重复导入;如果不一致,则用最新的数据覆盖不一致信息。
孕产数据从卫健、公安业务***中抽取过来,会包含历史数据,实现数据的清洗、转换、加载功能,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误或冲突数据显然不是我们想要的,需要使用数据清洗模块过滤那些不符合要求的数据,一方面保障采集汇聚的数据能正确、完整、规范地加载到目的地;另一方面,实现数据整合过程中的异常处理机制,如:处理传输异常、数据加载异常、数据结构与质量异常等。
数据清洗处理是数据底座的核心内容,***提供基础数据服务,主要步骤包含数据抽取、数据清洗、数据转换和数据加载等功能。数据清洗整合应用由多个数据服务组成,其中包括一系列预定义的基础数据处理服务,具体的,步骤4中的数据清洗为对人工智能采集汇聚机器人抽取过来的数据进行清洗处理,包括数据过滤、数据剔重、类型转换、编码映射、文件拆分与合并、维度转换等功能,用于进行不一致的数据转换、数据粒度的转换、数据去脏和转换规则的计算。不一致转换过程是数据整合的过程,侧重于将来源于不同业务***的相同类型的数据进行统一处理;针对源业务***中出现二义性、重复、不完整、违反业务或逻辑规则等问题的数据进行统一的处理,一般包括如:NULL值处理,日期格式转换,数据类型转换等等。其中,不符合要求的数据包括残缺数据、错误数据和重复数据;
针对残缺数据,这一类数据主要是一些应该有的信息缺失导致数据空值,如人口的名称、人口的地址信息缺失等。如果部门业务***没有作为必填项,会让一些数据失去意义,无法进行后续比对,失去共享意义,对于这一类数据过滤出来,会对其根据业务属性使用算法或者人工关联进行必要补齐。
针对错误数据,这一类错误产生的原因是业务***不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。这一类数据也要分类,对于类似于全角字符、数据前后有不可见字符的问题,只能通过写SQL语句的方式找出来,使用算法进行尝试修复。日期格式不正确的或者是日期越界的这一类错误会导致无法获取最新的数据而导致数据不全,这一类数据需要跟客户核实后再尝试修复。
针对重复数据,对每个从源业务***中数据,按照表的主键、识别主体,对主键字段重复、主体名称重复、或其他业务规则能识别为同一主体的,判断最新的正确数据,将重复数据记录的所有字段导出来,让部门确认并整理,再对重复数据进行删除,保留一份正确的数据。
步骤5中数据融合为将孕产专项的数据按照转换规则生成新的数据并存放至数据底座的数据仓库中,其中,数据转换支持数据字段之间一对多、多对一以及多对多的映射关系处理;
如图2所示,对于一数一源,指定卫健提供的妊娠结果信息为可信数据,可以直接进行数据入库。公安提供的女方身份证信息为可信数据,可以直接进行数据入库。对于一数多源,指定多个数据提供者提供数据,按照数据质量指标评价方法和数据存活规则生成可信数据,再进行数据入库。对于多源数据融合,包括数据级融合、特征级融合和决策级融合;其中,数据级融合是对原始数据经过简单处理之后直接使用SQL进行关联和融合,融合之后再进行数据特征提取;特征级融合基于对数据特征进行提取后使用相关算法对数据进行关联融合;决策级融合是先对各数据源进行决策,然后再将这些决策进行关联融合,最终获得一致性决策结果。
在步骤6中根据孕情专项模型中的生育登记管理、怀孕信息、出生信息、卫健委/公安出生登记信息、户籍信息和出生医学证明中的多源数据融合生成怀孕报表数据,融合后的字段包括女方姓名、女方身份证、怀孕情况、妊娠开始日期、妊娠终止日期、分娩结果和妊娠结果。
步骤7中的分娩结果标签中,
未分娩标签计算口径为:同时满足怀孕日期有值、怀孕日期小于当前280 天和妊娠终止日期无值;或者,同时满足妊娠开始日期有值、妊娠开始日期小于当前280天和妊娠终止日期无值;再或者,同时满足生育登记中办结日期有值、登记时状态为在孕申请、办结日期小于当前280天和妊娠终止日期无值;
已分娩标签计算口径为:同时满足妊娠终止日期有值和妊娠终止日期大于怀孕日期;或者,同时满足妊娠终止日期有值、妊娠终止日期大于当前孕妇末子的出生日期或末子出生日期;再或者,使用卫健委/公安出生登记信息和户籍信息已出生信息表进行关联,获取到的幼儿出生的孕妇/丈夫信息判断当前孕妇信息是否有妊娠终止,其中,幼儿出生日期等同于妊娠终止日期;
疑似分娩标签计算口径为:同时满足当前孕妇的妊娠开始日期有值、妊娠终止日期无值和妊娠开始日期大于280天。
在步骤8中,
标签逻辑为:首先,使用怀孕报表中女方身份证跟社区已有人口管理身份证进行关联,获取居民ID和基本单元ID;其次,如果分娩结果中值为未分娩孕妇标签为是,值为已分娩则孕妇标签为否;接着,新增专项信息管理中的妊娠信息专项数据;最后,如果怀孕报表中女方身份证不在社区已有人口管理中,则生成相应的待核查任务;
孕产标签中包括居民ID、妊娠开始日期、妊娠终止日期、妊娠预产期、妊娠结果、基本单元ID和更新时间。
在步骤9中,
数据质量稽查通过制定数据质量规则,在数据汇聚和数据融合等数据治理过程中或质量稽核过程中依据数据质量规则与数据标准,对数据进行完成性校验、数据格式比对、数据查重和关系校验,将有效数据采集到底数仓库,将问题数据反馈到相应的部门,以实现分发、整改以及闭环操作;
同时,通过分析孕产业务数据来总结业务数据缺陷,根据孕产业务数据问题建立数据完整性校验模型、数据格式校验模型、数据范围校验模型、数据查重模型、关系校验模型和数据脱敏模型。
综上所述,在大数据时代,传统的数据共享方式无法满足海量孕情数据共享的时效性,会影响孕情核查走访时效性与智能性。本申请利用多源数据融合卫健、公安等业务部门数据,生成孕产模型,再通过智能标签生成孕情标签,可以为全科社工走访核查居民居民孕情专项提供支撑。同时,提高数据融合的数据使用度情况,通过对提取的各类异构数据源的数据共享特性进行特征级别数据融合,提取孕产数据和出生信息进行数据融合,并根据日常数据情况使用算法计算疑似分娩等预测特征,生成孕产/出生模型标签。
由此,通过本方法可以快速发现孕妇,将孕妇纳入早孕保健管理,实现育龄妇女人口信息化管理,充分挖掘和利用人口信息,也可以通过对孕妇跟踪和监控,降低孕产妇死亡率和围产儿死亡率,达到母婴健康和安全。
并且,在人户分离户中存在着庞大的已婚育龄人群,且情况比较复杂,给当前的城市计划生育管理服务工作带来诸多困难和问题,本方法采用业务部门数据补充,使用多源数据融合发现孕产信息,弥补以上问题,让流动人口信息管理不再难。
同时,通过数据治理方式获取卫健、统计、公安共享数据,通过建立数据质量稽查机制,通过对卫健、统计、公安数据质量控制提高***数据质量,同时将全员人口信息、公共卫生服务相关数据治理后提供给基层使用,实现产妇分娩管理和核查。
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。
Claims (10)
1.一种基于多源数据融合生成居民孕产模型标签方法,其特征在于,包括:
步骤1、数据汇聚分析;
步骤2、根据业务分析需要汇聚生育登记信息、怀孕信息、出生信息、卫健委/公安出生信息、户籍信息和出生医学证明信息;
步骤3、校验数据;
步骤4、清洗数据;
步骤5、融合数据;
步骤6、多源数据融合成孕产模型;
步骤7、基于孕产模型生成孕产标签;
步骤8、基于多源数据融合智能标签生成对怀孕标签进行使用;
步骤9、进行数据质量稽查。
2.根据权利要求1所述的基于多源数据融合生成居民孕产模型标签方法,其特征在于,步骤1包括:定义出一系列的孕产业务孕产业务数据交换规范标准,用于反应各业务应用所需要的数据结构;同时,在标准中定义数据提供方信息,记录当前数据是通过哪个业务部门、哪个业务***请求获得;
步骤1中的数据汇聚方法包括数据录入和数据采集汇聚;其中,
数据录入为通过页面管理操作,实现孕产专项业务的录入,根据梳理的统一标准《孕产业务标准规范》对社区的孕产等信息进行模板式录入管理;
数据采集汇聚为对接各业务部门信息平台,通过调研分析梳理的信息***,利用向导式的操作使用数据人工智能机器人将该单位现有***的数据导出后,再根据数据导入标准进行底数仓库数据导入。
3.根据权利要求1所述的基于多源数据融合生成居民孕产模型标签方法,其特征在于,在步骤2中,
汇聚生育登记信息的汇聚加载策略为增量追加,汇聚逻辑为:首先,汇聚数据所在位置,即新******中的生育登记管理;其次,每天获取的增加数据判断依据为申请日期,其中,开始日期为当前时间减7天,结束日期为当前时间天;
汇聚怀孕信息的汇聚加载策略为增量追加,汇聚逻辑为:首先,汇聚数据所在位置,即全员人口业务中的全员业务查询中的怀孕信息查询;其次,每天获取的增加数据判断依据为妊娠日期,其中,开始日期为当前时间减1年,结束日期为当前时间天;
汇聚出生信息的汇聚加载策略为增量追加,汇聚逻辑为:首先,汇聚数据所在位置,即全员人口业务中的全员业务查询中的出生信息查询;其次,每天获取的增加数据判断依据为出生日期,其中,开始日期为当前时间减半年,结束日期为当前时间天;
汇聚卫健委/公安出生信息的汇聚加载策略为增量追加,汇聚逻辑为:首先,汇聚数据所在位置,即大数据中心数据库中的GZK_SC_WJW_GACSDJXX数据表中的所有字段;其次,每天获取的增加数据判断依据为数据写入时间,即当前时间减1天;出生登记类型为出生登记并上报派出所名称;
汇聚户籍信息的汇聚加载策略为增量追加,汇聚逻辑为:首先,汇聚数据所在位置,即大数据中心数据库中的GZK_SC_WJW_GACSDJXX数据表中的所有字段;其次,每天获取的增加数据判断依据为数据写入时间,即当前时间减1天;出生登记类型为出生登记并上报派出所名称;
汇聚出生医学证明信息的汇聚加载策略为增量追加,汇聚逻辑为:首先,汇聚数据所在位置,即大数据中心数据库中的PSN_BIRTH_CERTIFICATE_INFO数据表中的所有字段;其次,每天获取的增加数据判断依据为更新时间,即当前时间减1天。
4.根据权利要求1所述的基于多源数据融合生成居民孕产模型标签方法,其特征在于,在步骤3中:
数据校验从校验对象细粒度维度分析,针对孕情专项数据,校验模块进行数据唯一性检查和外键完整性检查;数据校验内容包括类型、长度、是否为空、精度、范围、格式等信息,如果数据不符合,则进行过滤;同时,对于错误的数据,进行错误数据输出,包括错误原因和错误字段序号;
在发生数据汇聚时,各业务部门采集汇聚的数据向基层社区底数仓库传入要校验的数据条目信息,数据底座校验该条目信息是否吻合一致,如果一致相符,则返回对比成功;否则,返回比对错误,并将各业务部门采集汇聚准确的信息返回给自动取数模块;在向业务部门数据同步时,数据校验用于比对导入数据和业务部门数据的一致性,如果一致,则不需要重复导入;如果不一致,则用最新的数据覆盖不一致信息。
5.根据权利要求1所述的基于多源数据融合生成居民孕产模型标签方法,其特征在于,步骤4中的数据清洗为对人工智能采集汇聚机器人抽取过来的数据进行清洗处理,包括数据过滤、数据剔重、类型转换、编码映射、文件拆分与合并、维度转换等功能,用于进行不一致的数据转换、数据粒度的转换、数据去脏和转换规则的计算;其中,不符合要求的数据包括残缺数据、错误数据和重复数据;
针对残缺数据,对其进行数据过滤并根据业务属性使用算法或者人工关联进行必要补齐;
针对错误数据,如是数值数据输成全角数字字符或数据前后有不可见字符的问题,通过写SQL语句的方式找出来,使用算法进行尝试修复;如是日期格式不正确或日期越界,则需要先核实后修复;
针对重复数据,对每个从源业务***中数据,按照表的主键、识别主体,对主键字段重复、主体名称重复或其他业务规则能识别为同一主体的,判断最新的正确数据,将重复数据记录的所有字段导出,由部门确认并整理,再对重复数据进行删除,最终保留一份正确的数据。
6.根据权利要求1所述的基于多源数据融合生成居民孕产模型标签方法,其特征在于,步骤5中数据融合为将孕产专项的数据按照转换规则生成新的数据并存放至数据底座的数据仓库中,其中,数据转换支持数据字段之间一对多、多对一以及多对多的映射关系处理;
对于一数一源,如为可信数据可直接进行数据入库;对于一数多源,按照数据质量指标评价方法和数据存活规则生产可信数据,再进行数据入库;对于多源数据融合,包括数据级融合、特征级融合和决策级融合;其中,数据级融合是对原始数据经过简单处理之后直接使用SQL进行关联和融合,融合之后再进行数据特征提取;特征级融合基于对数据特征进行提取后使用相关算法对数据进行关联融合;决策级融合是先对各数据源进行决策,然后再将这些决策进行关联融合,最终获得一致性决策结果。
7.根据权利要求1所述的基于多源数据融合生成居民孕产模型标签方法,其特征在于,在步骤6中根据孕情专项模型中的生育登记管理、怀孕信息、出生信息、卫健委/公安出生登记信息、户籍信息和出生医学证明中的多源数据融合生成怀孕报表数据,融合后的字段包括女方姓名、女方身份证、怀孕情况、妊娠开始日期、妊娠终止日期、分娩结果和妊娠结果。
8.根据权利要求1所述的基于多源数据融合生成居民孕产模型标签方法,其特征在于,步骤7中的标签中,
未分娩标签计算口径为:同时满足怀孕日期有值、怀孕日期小于当前280天和妊娠终止日期无值;或者,同时满足妊娠开始日期有值、妊娠开始日期小于当前280天和妊娠终止日期无值;再或者,同时满足生育登记中办结日期有值、登记时状态为在孕申请、办结日期小于当前280天和妊娠终止日期无值;
已分娩标签计算口径为:同时满足妊娠终止日期有值和妊娠终止日期大于怀孕日期;或者,同时满足妊娠终止日期有值、妊娠终止日期大于当前孕妇末子的出生日期或末子出生日期;再或者,使用卫健委/公安出生登记信息和户籍信息已出生信息表进行关联,获取到的幼儿出生的孕妇/丈夫信息判断当前孕妇信息是否有妊娠终止,其中,幼儿出生日期等同于妊娠终止日期;
疑似分娩标签计算口径为:同时满足当前孕妇的妊娠开始日期有值、妊娠终止日期无值和妊娠开始日期大于280天。
9.根据权利要求1所述的基于多源数据融合生成居民孕产模型标签方法,其特征在于,在步骤8中,
标签逻辑为:首先,使用怀孕报表中女方身份证跟社区已有人口管理身份证进行关联,获取居民ID和基本单元ID;其次,如果分娩结果中值为未分娩孕妇标签为是,值为已分娩则孕妇标签为否;接着,新增专项信息管理中的妊娠信息专项数据;最后,如果怀孕报表中女方身份证不在社区已有人口管理中,则生成相应的待核查任务;
孕产标签中包括居民ID、妊娠开始日期、妊娠终止日期、妊娠预产期、妊娠结果、基本单元ID和更新时间。
10.根据权利要求1所述的基于多源数据融合生成居民孕产模型标签方法,其特征在于,在步骤9中,
数据质量稽查通过制定数据质量规则,在数据汇聚和数据融合等数据治理过程中或质量稽核过程中依据数据质量规则与数据标准,对数据进行完成性校验、数据格式比对、数据查重和关系校验,将有效数据采集到底数仓库,将问题数据反馈到相应的部门,以实现分发、整改以及闭环操作;
同时,通过分析孕产业务数据来总结业务数据缺陷,根据孕产业务数据问题建立数据完整性校验模型、数据格式校验模型、数据范围校验模型、数据查重模型、关系校验模型和数据脱敏模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111025631.5A CN113672609A (zh) | 2021-09-02 | 2021-09-02 | 基于多源数据融合生成居民孕产模型标签方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111025631.5A CN113672609A (zh) | 2021-09-02 | 2021-09-02 | 基于多源数据融合生成居民孕产模型标签方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113672609A true CN113672609A (zh) | 2021-11-19 |
Family
ID=78548288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111025631.5A Withdrawn CN113672609A (zh) | 2021-09-02 | 2021-09-02 | 基于多源数据融合生成居民孕产模型标签方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113672609A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116631640A (zh) * | 2023-07-14 | 2023-08-22 | 福州康为网络技术有限公司 | 一种孕妇的个性化需求方案的生成方法和平台 |
CN116756162A (zh) * | 2023-06-28 | 2023-09-15 | 蝉鸣科技(西安)有限公司 | 一种保证数据一致性的方法和*** |
-
2021
- 2021-09-02 CN CN202111025631.5A patent/CN113672609A/zh not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116756162A (zh) * | 2023-06-28 | 2023-09-15 | 蝉鸣科技(西安)有限公司 | 一种保证数据一致性的方法和*** |
CN116756162B (zh) * | 2023-06-28 | 2024-03-12 | 蝉鸣科技(西安)有限公司 | 一种保证数据一致性的方法和*** |
CN116631640A (zh) * | 2023-07-14 | 2023-08-22 | 福州康为网络技术有限公司 | 一种孕妇的个性化需求方案的生成方法和平台 |
CN116631640B (zh) * | 2023-07-14 | 2024-05-31 | 福州康为网络技术有限公司 | 一种孕妇的个性化需求方案的生成方法和平台 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110781236A (zh) | 一种构建政务大数据治理体系的方法 | |
US11334599B2 (en) | Systems and methods for electronic data record synchronization | |
CN111046035B (zh) | 数据自动化处理方法、***、计算机设备及可读存储介质 | |
CN113672609A (zh) | 基于多源数据融合生成居民孕产模型标签方法 | |
CN102246174A (zh) | 用于在采用异构信任模型的分布式和自治保健环境中改进记录链接的自动决断再利用 | |
CN111078780A (zh) | 一种ai优化数据治理的方法 | |
CN112231333A (zh) | 一种生态环境数据共享交换方法和*** | |
CN106663101A (zh) | 本体映射方法和设备 | |
CN101436200A (zh) | 标准化信息管理***及其标准更新方法 | |
CN112612908A (zh) | 自然资源知识图谱构建方法、装置、服务器及可读存储器 | |
CN109542967A (zh) | 基于xbrl标准的智慧城市数据共享***及方法 | |
CN110109908B (zh) | 基于社会基础信息挖掘人物潜在关系的分析***及方法 | |
CN112687399A (zh) | 一种基于人工智能信息化的传染病监测与预警*** | |
CN111126957B (zh) | 面向检察业务协同流程的检务世系数据采集与集成方法 | |
CN111191153A (zh) | 一种信息技术咨询服务展示装置 | |
CN115982429B (zh) | 一种基于流程控制的知识管理方法及*** | |
CN110019237B (zh) | 一种基于地图分析罪犯行踪的***及方法 | |
CN113742498B (zh) | 一种知识图谱的构建更新方法 | |
CN105677745A (zh) | 一种通用高效自助数据查询***及实现方法 | |
CN115688729A (zh) | 一种输变电工程造价数据集成管理***及其方法 | |
CN115481105A (zh) | 数据管理方法、装置、电子设备及存储介质 | |
RU105492U1 (ru) | Автоматизированная система реализации запросов органа управления к элементам подчиненной структуры на основе модифицированных таблиц excel | |
CN114036316A (zh) | 基于知识图谱可视化的智能实验室管理*** | |
KR20140123647A (ko) | 지식재산권 분석 시스템 | |
CN117520324A (zh) | 政务数据的清洗方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20211119 |