CN111737268B - 一种基于文档数据库的数据处理方法 - Google Patents

一种基于文档数据库的数据处理方法 Download PDF

Info

Publication number
CN111737268B
CN111737268B CN202010822510.2A CN202010822510A CN111737268B CN 111737268 B CN111737268 B CN 111737268B CN 202010822510 A CN202010822510 A CN 202010822510A CN 111737268 B CN111737268 B CN 111737268B
Authority
CN
China
Prior art keywords
data
stream
processing
database
data stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010822510.2A
Other languages
English (en)
Other versions
CN111737268A (zh
Inventor
谢智
谢乾
王吉
龚彬
周国栋
邓锌强
吴大超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIANGSU ZHUOYI INFORMATION TECHNOLOGY Co.,Ltd.
KUNSHAN BYOSOFT ELECTRONIC TECHNOLOGY Co.,Ltd.
NANJING BYOSOFT Co.,Ltd.
SHANGHAI BAIZHIAO INFORMATION TECHNOLOGY Co.,Ltd.
Original Assignee
Jiangsu Zhuoyi Information Technology Co ltd
Kunshan Byosoft Electronic Technology Co ltd
Shanghai Baizhiao Information Technology Co ltd
Nanjing Byosoft Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Zhuoyi Information Technology Co ltd, Kunshan Byosoft Electronic Technology Co ltd, Shanghai Baizhiao Information Technology Co ltd, Nanjing Byosoft Co ltd filed Critical Jiangsu Zhuoyi Information Technology Co ltd
Priority to CN202010822510.2A priority Critical patent/CN111737268B/zh
Publication of CN111737268A publication Critical patent/CN111737268A/zh
Application granted granted Critical
Publication of CN111737268B publication Critical patent/CN111737268B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于文档数据库的数据处理方法,属于数据分析与处理领域,方法包括:监听数据库中文档集的数据变动,收集增量数据作为一条数据流的输入源,经过处理节点构成的自动化处理流程,产生新的数据作为数据流的输出源;一条数据流的输出源直接与其他数据库绑定,存入指定数据库表中,或者作为新的数据流的输入源,再次进行处理。本发明将多种数据流进行组合,可以满足复杂业务的数据处理需求。相比于现有技术的方法,本发明使用范围更广,可应用于多种文档数据库,对运行环境也无特殊要求。

Description

一种基于文档数据库的数据处理方法
技术领域
本发明属于数据分析与处理技术领域,具体涉及一种基于文档数据库的数据处理方法。
背景技术
现在主流的数据分为关系型数据库和文档数据库,两种数据库侧重点不同。关系型数据库表结构稳定,侧重维持表与表之间的关系,善于分析统计;文档数据库表结构比较灵活,适用于动态存储的场景。很多情况下需要将两者进行结合,将文档数据库中的数据转换到关系型数据库中,并保持两边的数据同步,且需要在数据转换过程中加入业务逻辑的处理。现存技术中只有mongodb公司基于自身的云服务实现了stitch,具有一些基础的数据分析和转换能力,但该功能依赖于云环境,且仅限于mongodb这一种数据库,适用性不强。
发明内容
本发明解决的技术问题:提供基于文档数据库的数据处理方法,该方法通过监听文档数据库的数据变动,通过一系列的自动化处理流程,把结果数据存入关系型数据库中。
技术方案:为了解决上述技术问题,本发明采用的技术方案如下:
一种基于文档数据库的数据处理方法,监听数据库中文档集的数据变动,收集增量数据作为一条数据流的输入源,经过处理节点构成的自动化处理流程,产生新的数据作为数据流的输出源;数据流的输出源直接与数据库绑定,存入指定数据库表中,或者作为新的数据流的输入源,再次进行处理。主要包括以下步骤:
S1:对文档数据库的文档集进行监听,收集有变动的数据,根据变动方式对数据进行标记;
S2:将步骤S1中收集的数据作为一个数据流的输入源;
S3:为步骤S2中创建的数据流设置自动化处理流程,所述自动化处理流程是由流处理节点和元数据处理节点组成的链式流程;
S4:由统一的数据流处理中心,根据步骤S3中设置的处理流程进行初始化,对流和元数据执行处理节点对应的逻辑,产生输出源;
S5:步骤S4中产生的输出源与数据库绑定,存储处理结果;或者作为其他数据流的输入源。
作为优选,步骤S1中,采用***与文档数据库建立连接,通过定时轮训访问文档集,通过文档的创建时间、修改时间和删除时间判断是否在轮训间隔时间内发生变动,并收集变动数据。
作为优选,步骤S2中,所述数据流的输入源以队列的形式存储监听获得的变动数据,所述输入源的存储队列中数据根据其变动的类型,在数据上增加标识位用以区分数据是新增、修改或者删除。
作为优选,步骤S3中,所述流处理节点包括流合并节点、流关联节点和流过滤节点。
作为优选,所述流合并处理节点是指定一个新的文档集的数据流,与原有的数据流中元数据的字段一一映射后,使两个数据流的数据格式统一,从而并成一个新的数据流,合并后的数据流的数据量为两个数据流之和。
作为优选,所述流关联处理节点是指定一个新的文档集,通过与原有数据流中的一个或多个字段进行关联建立元数据的一对一关系,然后将新的文档集中的字段作为原数据流的扩充,使原数据流携带更多的字段。
作为优选,所述流过滤节点通过对流中数据一个或多个字段进行判断,过滤掉不符合判断的数据,减少数据量。
作为优选,所述元数据处理节点,通过编程语言构成其内部的逻辑运算,其逻辑运算可以是一系列的数学计算和通用函数组成。在数据流处理中心会对编译后初始化,对接收到的数据流的元数据执行处理节点的逻辑运算,从而改变元数据。
有益效果:与现有技术相比,本发明具有以下优点:
本发明的基于文档数据库的数据处理方法,将多种数据流进行组合,可以满足复杂业务的数据处理需求。相比于现有技术的方法,本发明使用范围更广,可应用于多种文档数据库,对运行环境也无特殊要求。
附图说明
图1为本发明的基于文档数据库的数据处理方法的执行流程图;
图2为本发明的基于文档数据库的数据处理方法的***原理图;
图3为本发明的基于文档数据库的数据处理方法的流合并节点原理图;
图4为本发明的基于文档数据库的数据处理方法的流关联节点原理图;
图5为本发明的基于文档数据库的数据处理方法的元数据处理节点原理图;
图6为本发明的基于文档数据库的数据处理方法的输出源原理图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,实施例在以本发明技术方案为前提下进行实施,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。
如图1所示为本发明的执行流程图,一种基于文档数据库的数据处理方法,监听数据库中文档集的数据变动,收集增量数据作为一条数据流的输入源,经过处理节点构成的自动化处理流程,产生新的数据作为数据流的输出源;数据流的输出源直接与数据库绑定,存入指定数据库表中,或者作为新的数据流的输入源,再次进行处理。包括以下步骤:
S1:启动***,监听文档数据库的一个文档集,当数据有变动时,收集数据并做好标记;
数据的变动方式包括新增、修改和删除,文档集合的监听是基于记录每条文档数据新增、修改、删除的时间,***采用轮训方式获取间隔时间内产生变动的数据。如图2所示的***是与文档数据库建立连接的应用,对每个文档集创建一个定时任务去轮训访问,记录每次访问的时间;通过文档的创建时间、修改时间和删除时间判断是否在轮训间隔时间内发生变动;将发生变动的数据进行标记(新增-A,修改-M,删除-D),收集后存入队列,然后作为数据流的输入源,将数据流发送至数据流处理中心。
S2:将步骤S1中收集的数据存储为队列,作为一个数据流的输入源;数据流由一个输入源、一个自动化处理流程和一个输出源组成;
数据流的输入源以队列的形式存储监听获得的变动数据,输入源的存储队列中数据根据其变动的类型,在数据上增加标识位用以区分数据是新增、修改还是删除。
S3:为步骤S2中创建的数据流设置一个自动化处理流程,处理流程是由两种类型的节点组成的链式流程,一种是流处理节点,还有一种是元数据处理节点;
输入源中包含一个数据队列,在处理流程中,数据以队列形式执行每个节点的逻辑,经过一个节点就产生一个新的输入源。
流处理节点,主要操作流本身,由三种类型的节点组成,分别是:流合并节点、流关联节点和流过滤节点;
如图3所示的流合并处理节点是指定一个新的文档集的数据流,与原有的数据流中元数据的字段一一映射后,使两个数据流的数据格式统一,从而并成一个新的数据流,合并后的数据流的数据量为两个数据流之和。
如图4所示的流关联处理节点是指定一个新的文档集,通过与原有数据流中的一个或多个字段进行关联建立元数据的一对一关系,然后将新的文档集中的字段作为原数据流的扩充,使原数据流携带更多的字段。
流过滤节点通过对流中数据一个或多个字段进行判断,过滤掉不符合判断的数据,减少数据量。
如图5所示的元数据处理节点,元数据处理节点,通过编程语言构成其内部的逻辑运算,其逻辑运算由一系列的数学计算和通用函数组成,在数据流处理中心会对编译后初始化,对接收到的数据流的元数据执行处理节点的逻辑运算,从而改变元数据。
S4:在统一的数据流处理中心,根据步骤S3中设置的处理流程,依次执行处理节点,对数据进行操作,最后产生输出源;
数据流处理中心主要作用在于接收由***产生的数据流,对数据流设置的处理流程进行初始化。启动定时器每隔一段时间获取数据流输入源中的队列,依次执行处理流中的每个节点的逻辑,直到最后产生结果数据构成输出源。
S5:步骤S4中产生的输出源与其他数据库绑定,存储处理结果;也可以替代步骤2)产生输入源,执行其他的处理流程。
如图6所示的输出源,将处理流程产生的结果暂存在自身的队列中,可以选择的输出方式,输出源可选择与关系型数据库直接绑定,将产生的数据存储到对应的关系型数据库表中,或者转换成新的数据流的输入源,继续执行其他的处理流程。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种基于文档数据库的数据处理方法,其特征在于:监听数据库中文档集的数据变动,收集增量数据作为一条数据流的输入源,经过处理节点构成的自动化处理流程,产生新的数据作为数据流的输出源,所述自动化处理流程是由流处理节点和元数据处理节点组成的链式流程,根据自动化处理流程进行初始化,对流和元数据执行处理节点对应的逻辑,产生输出源,所述流处理节点包括流合并节点、流关联节点和流过滤节点,所述流合并节点是指定一个新的文档集的数据流,与原有数据流中元数据的所有字段一一映射后,使两个数据流的数据格式统一,从而并成一个新的数据流,合并后的数据流的数据量为两个数据流之和,所述流关联节点是指定一个新的文档集,通过与原有数据流中的一个或多个字段进行关联建立元数据的一对一关系,然后将新的文档集中的字段作为原数据流的扩充,使原数据流携带更多的字段;数据流的输出源直接与数据库绑定,存入指定数据库表中,或者作为新的数据流的输入源,再次进行处理。
2.根据权利要求1所述的基于文档数据库的数据处理方法,其特征在于,包括以下步骤:
S1:对文档数据库的文档集进行监听,收集有变动的数据,根据变动方式对数据进行标记;
S2:将步骤S1中收集的数据作为一个数据流的输入源;
S3:为步骤S2中创建的数据流设置自动化处理流程,
S4:由统一的数据流处理中心,根据步骤S3中设置的处理流程进行初始化,对流和元数据执行处理节点对应的逻辑,产生输出源;S5:步骤S4中产生的输出源与数据库绑定,存储处理结果;或者作为其他数据流的输入源。
3.根据权利要求2所述的基于文档数据库的数据处理方法,其特征在于:步骤S1中,采用***与文档数据库建立连接,通过定时轮训访问文档集,通过文档的创建时间、修改时间和删除时间判断是否在轮训间隔时间内发生变动,并收集变动数据。
4.根据权利要求2所述的基于文档数据库的数据处理方法,其特征在于:步骤S2中,所述数据流的输入源以队列的形式存储监听获得的变动数据,所述输入源的存储队列中数据根据其变动的类型,在数据上增加标识位用以区分数据是新增、修改或者删除。
5.根据权利要求1所述的基于文档数据库的数据处理方法,其特征在于:所述流过滤节点通过对流中数据一个或多个字段进行判断,过滤掉不符合判断的数据,减少数据量。
6.根据权利要求1所述的基于文档数据库的数据处理方法,其特征在于:所述元数据处理节点,通过编程语言构成其内部的逻辑运算,其逻辑运算由一系列的数学计算和通用函数组成,在数据流处理中心会对编译后初始化,对接收到的数据流的元数据执行处理节点的逻辑运算,从而改变元数据。
CN202010822510.2A 2020-08-17 2020-08-17 一种基于文档数据库的数据处理方法 Active CN111737268B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010822510.2A CN111737268B (zh) 2020-08-17 2020-08-17 一种基于文档数据库的数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010822510.2A CN111737268B (zh) 2020-08-17 2020-08-17 一种基于文档数据库的数据处理方法

Publications (2)

Publication Number Publication Date
CN111737268A CN111737268A (zh) 2020-10-02
CN111737268B true CN111737268B (zh) 2021-01-01

Family

ID=72658491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010822510.2A Active CN111737268B (zh) 2020-08-17 2020-08-17 一种基于文档数据库的数据处理方法

Country Status (1)

Country Link
CN (1) CN111737268B (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955517B (zh) * 2014-05-05 2017-05-03 中国工商银行股份有限公司 将文档型数据库的数据转换至关系型数据库的方法及***
CA3013322A1 (en) * 2016-02-02 2017-08-10 ActiveWrite, Inc. Document collaboration and consolidation tools and methods of use
CN109669965A (zh) * 2018-11-13 2019-04-23 广州欧赛斯信息科技有限公司 一种支持非结构化数据的采集分析***和方法

Also Published As

Publication number Publication date
CN111737268A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
CN104317843B (zh) 一种数据同步etl***
US11314808B2 (en) Hybrid flows containing a continous flow
CN110837585B (zh) 多源异构的数据关联查询方法及***
US20030009443A1 (en) Generic data aggregation
JP2006244493A (ja) データベース内で表現されるファイル・システム
US20130031143A1 (en) Large scale real-time multistaged analytic system using data contracts
US20020049759A1 (en) High performance relational database management system
CN107301214A (zh) 在hive中数据迁移方法、装置及终端设备
CN110019308A (zh) 数据查询方法、装置、设备及存储介质
US10642530B2 (en) Global occupancy aggregator for global garbage collection scheduling
CN115033646A (zh) 一种基于Flink&Doris构建实时数仓***的方法
CN107807977B (zh) 一种基于配置的对象属性元数据抽取***
CN112988916A (zh) 针对Clickhouse的全量和增量同步方法、设备和存储介质
CN103810197A (zh) 一种基于Hadoop的数据处理方法及其***
CN109635022B (zh) 一种可视化的ElasticSearch数据采集方法及装置
CN114756629A (zh) 基于sql的多源异构数据交互分析引擎及方法
CN111737268B (zh) 一种基于文档数据库的数据处理方法
CN117349368A (zh) 基于Flink的跨库数据实时同步任务管理***及方法
CN116431635A (zh) 基于湖仓一体的配电物联网数据实时处理***及方法
CN110427399A (zh) 实时数据采集方法、***、装置及存储介质
CN108121807A (zh) Hadoop环境下多维索引结构OBF-Index的实现方法
CN114925054A (zh) 一种基于元模型的元数据管理***及方法
CN107016083B (zh) 一种支持处理单元在线切换的流数据处理方法
CN113342550A (zh) 一种数据处理方法、***、计算设备及存储介质
CN118193583A (zh) 数据查询优化方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 "change of name, title or address"
CP03 "change of name, title or address"

Address after: No. 298, Xingye Road, Yixing new street, Wuxi City, Jiangsu Province, 214205

Patentee after: JIANGSU ZHUOYI INFORMATION TECHNOLOGY Co.,Ltd.

Patentee after: NANJING BYOSOFT Co.,Ltd.

Patentee after: KUNSHAN BYOSOFT ELECTRONIC TECHNOLOGY Co.,Ltd.

Patentee after: SHANGHAI BAIZHIAO INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 210061 11 / F, block a, Chuangzhi building, 17 Xinghuo Road, Jiangbei new district, Nanjing City, Jiangsu Province

Patentee before: NANJING BYOSOFT Co.,Ltd.

Patentee before: JIANGSU ZHUOYI INFORMATION TECHNOLOGY Co.,Ltd.

Patentee before: KUNSHAN BYOSOFT ELECTRONIC TECHNOLOGY Co.,Ltd.

Patentee before: SHANGHAI BAIZHIAO INFORMATION TECHNOLOGY Co.,Ltd.