CN111737268B

CN111737268B - 一种基于文档数据库的数据处理方法

Info

Publication number: CN111737268B
Application number: CN202010822510.2A
Authority: CN
Inventors: 谢智; 谢乾; 王吉; 龚彬; 周国栋; 邓锌强; 吴大超
Original assignee: Jiangsu Zhuoyi Information Technology Co ltd; Kunshan Byosoft Electronic Technology Co ltd; Shanghai Baizhiao Information Technology Co ltd; Nanjing Byosoft Co ltd
Current assignee: JIANGSU ZHUOYI INFORMATION TECHNOLOGY Co.,Ltd.; KUNSHAN BYOSOFT ELECTRONIC TECHNOLOGY Co.,Ltd.; NANJING BYOSOFT Co.,Ltd.; SHANGHAI BAIZHIAO INFORMATION TECHNOLOGY Co.,Ltd.
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2021-01-01
Anticipated expiration: 2040-08-17
Also published as: CN111737268A

Abstract

本发明公开一种基于文档数据库的数据处理方法，属于数据分析与处理领域，方法包括：监听数据库中文档集的数据变动，收集增量数据作为一条数据流的输入源，经过处理节点构成的自动化处理流程，产生新的数据作为数据流的输出源；一条数据流的输出源直接与其他数据库绑定，存入指定数据库表中，或者作为新的数据流的输入源，再次进行处理。本发明将多种数据流进行组合，可以满足复杂业务的数据处理需求。相比于现有技术的方法，本发明使用范围更广，可应用于多种文档数据库，对运行环境也无特殊要求。

Description

一种基于文档数据库的数据处理方法

技术领域

本发明属于数据分析与处理技术领域，具体涉及一种基于文档数据库的数据处理方法。

背景技术

现在主流的数据分为关系型数据库和文档数据库，两种数据库侧重点不同。关系型数据库表结构稳定，侧重维持表与表之间的关系，善于分析统计；文档数据库表结构比较灵活，适用于动态存储的场景。很多情况下需要将两者进行结合，将文档数据库中的数据转换到关系型数据库中，并保持两边的数据同步，且需要在数据转换过程中加入业务逻辑的处理。现存技术中只有mongodb公司基于自身的云服务实现了stitch，具有一些基础的数据分析和转换能力，但该功能依赖于云环境，且仅限于mongodb这一种数据库，适用性不强。

发明内容

本发明解决的技术问题：提供基于文档数据库的数据处理方法，该方法通过监听文档数据库的数据变动，通过一系列的自动化处理流程，把结果数据存入关系型数据库中。

技术方案：为了解决上述技术问题，本发明采用的技术方案如下：

一种基于文档数据库的数据处理方法，监听数据库中文档集的数据变动，收集增量数据作为一条数据流的输入源，经过处理节点构成的自动化处理流程，产生新的数据作为数据流的输出源；数据流的输出源直接与数据库绑定，存入指定数据库表中，或者作为新的数据流的输入源，再次进行处理。主要包括以下步骤：

S1：对文档数据库的文档集进行监听，收集有变动的数据，根据变动方式对数据进行标记；

S2：将步骤S1中收集的数据作为一个数据流的输入源；

S3：为步骤S2中创建的数据流设置自动化处理流程，所述自动化处理流程是由流处理节点和元数据处理节点组成的链式流程；

S4：由统一的数据流处理中心，根据步骤S3中设置的处理流程进行初始化，对流和元数据执行处理节点对应的逻辑，产生输出源；

S5：步骤S4中产生的输出源与数据库绑定，存储处理结果；或者作为其他数据流的输入源。

作为优选，步骤S1中，采用***与文档数据库建立连接，通过定时轮训访问文档集，通过文档的创建时间、修改时间和删除时间判断是否在轮训间隔时间内发生变动，并收集变动数据。

作为优选，步骤S2中，所述数据流的输入源以队列的形式存储监听获得的变动数据，所述输入源的存储队列中数据根据其变动的类型，在数据上增加标识位用以区分数据是新增、修改或者删除。

作为优选，步骤S3中，所述流处理节点包括流合并节点、流关联节点和流过滤节点。

作为优选，所述流合并处理节点是指定一个新的文档集的数据流，与原有的数据流中元数据的字段一一映射后，使两个数据流的数据格式统一，从而并成一个新的数据流，合并后的数据流的数据量为两个数据流之和。

作为优选，所述流关联处理节点是指定一个新的文档集，通过与原有数据流中的一个或多个字段进行关联建立元数据的一对一关系，然后将新的文档集中的字段作为原数据流的扩充，使原数据流携带更多的字段。

作为优选，所述流过滤节点通过对流中数据一个或多个字段进行判断，过滤掉不符合判断的数据，减少数据量。

作为优选，所述元数据处理节点，通过编程语言构成其内部的逻辑运算，其逻辑运算可以是一系列的数学计算和通用函数组成。在数据流处理中心会对编译后初始化，对接收到的数据流的元数据执行处理节点的逻辑运算，从而改变元数据。

有益效果：与现有技术相比，本发明具有以下优点：

本发明的基于文档数据库的数据处理方法，将多种数据流进行组合，可以满足复杂业务的数据处理需求。相比于现有技术的方法，本发明使用范围更广，可应用于多种文档数据库，对运行环境也无特殊要求。

附图说明

图1为本发明的基于文档数据库的数据处理方法的执行流程图；

图2为本发明的基于文档数据库的数据处理方法的***原理图；

图3为本发明的基于文档数据库的数据处理方法的流合并节点原理图；

图4为本发明的基于文档数据库的数据处理方法的流关联节点原理图；

图5为本发明的基于文档数据库的数据处理方法的元数据处理节点原理图；

图6为本发明的基于文档数据库的数据处理方法的输出源原理图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，实施例在以本发明技术方案为前提下进行实施，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。

如图1所示为本发明的执行流程图，一种基于文档数据库的数据处理方法，监听数据库中文档集的数据变动，收集增量数据作为一条数据流的输入源，经过处理节点构成的自动化处理流程，产生新的数据作为数据流的输出源；数据流的输出源直接与数据库绑定，存入指定数据库表中，或者作为新的数据流的输入源，再次进行处理。包括以下步骤：

S1：启动***，监听文档数据库的一个文档集，当数据有变动时，收集数据并做好标记；

数据的变动方式包括新增、修改和删除，文档集合的监听是基于记录每条文档数据新增、修改、删除的时间，***采用轮训方式获取间隔时间内产生变动的数据。如图2所示的***是与文档数据库建立连接的应用，对每个文档集创建一个定时任务去轮训访问，记录每次访问的时间；通过文档的创建时间、修改时间和删除时间判断是否在轮训间隔时间内发生变动；将发生变动的数据进行标记（新增-A,修改-M,删除-D），收集后存入队列，然后作为数据流的输入源，将数据流发送至数据流处理中心。

S2：将步骤S1中收集的数据存储为队列，作为一个数据流的输入源；数据流由一个输入源、一个自动化处理流程和一个输出源组成；

数据流的输入源以队列的形式存储监听获得的变动数据，输入源的存储队列中数据根据其变动的类型，在数据上增加标识位用以区分数据是新增、修改还是删除。

S3：为步骤S2中创建的数据流设置一个自动化处理流程，处理流程是由两种类型的节点组成的链式流程，一种是流处理节点，还有一种是元数据处理节点；

输入源中包含一个数据队列，在处理流程中，数据以队列形式执行每个节点的逻辑，经过一个节点就产生一个新的输入源。

流处理节点，主要操作流本身，由三种类型的节点组成，分别是：流合并节点、流关联节点和流过滤节点；

如图3所示的流合并处理节点是指定一个新的文档集的数据流，与原有的数据流中元数据的字段一一映射后，使两个数据流的数据格式统一，从而并成一个新的数据流，合并后的数据流的数据量为两个数据流之和。

如图4所示的流关联处理节点是指定一个新的文档集，通过与原有数据流中的一个或多个字段进行关联建立元数据的一对一关系，然后将新的文档集中的字段作为原数据流的扩充，使原数据流携带更多的字段。

流过滤节点通过对流中数据一个或多个字段进行判断，过滤掉不符合判断的数据，减少数据量。

如图5所示的元数据处理节点，元数据处理节点，通过编程语言构成其内部的逻辑运算，其逻辑运算由一系列的数学计算和通用函数组成，在数据流处理中心会对编译后初始化，对接收到的数据流的元数据执行处理节点的逻辑运算，从而改变元数据。

S4：在统一的数据流处理中心，根据步骤S3中设置的处理流程，依次执行处理节点，对数据进行操作，最后产生输出源；

数据流处理中心主要作用在于接收由***产生的数据流，对数据流设置的处理流程进行初始化。启动定时器每隔一段时间获取数据流输入源中的队列，依次执行处理流中的每个节点的逻辑，直到最后产生结果数据构成输出源。

S5：步骤S4中产生的输出源与其他数据库绑定，存储处理结果；也可以替代步骤2）产生输入源，执行其他的处理流程。

如图6所示的输出源，将处理流程产生的结果暂存在自身的队列中，可以选择的输出方式，输出源可选择与关系型数据库直接绑定，将产生的数据存储到对应的关系型数据库表中，或者转换成新的数据流的输入源，继续执行其他的处理流程。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于文档数据库的数据处理方法，其特征在于：监听数据库中文档集的数据变动，收集增量数据作为一条数据流的输入源，经过处理节点构成的自动化处理流程，产生新的数据作为数据流的输出源，所述自动化处理流程是由流处理节点和元数据处理节点组成的链式流程，根据自动化处理流程进行初始化，对流和元数据执行处理节点对应的逻辑，产生输出源，所述流处理节点包括流合并节点、流关联节点和流过滤节点，所述流合并节点是指定一个新的文档集的数据流，与原有数据流中元数据的所有字段一一映射后，使两个数据流的数据格式统一，从而并成一个新的数据流，合并后的数据流的数据量为两个数据流之和，所述流关联节点是指定一个新的文档集，通过与原有数据流中的一个或多个字段进行关联建立元数据的一对一关系，然后将新的文档集中的字段作为原数据流的扩充，使原数据流携带更多的字段；数据流的输出源直接与数据库绑定，存入指定数据库表中，或者作为新的数据流的输入源，再次进行处理。

2.根据权利要求1所述的基于文档数据库的数据处理方法，其特征在于，包括以下步骤：

S2：将步骤S1中收集的数据作为一个数据流的输入源；

S3：为步骤S2中创建的数据流设置自动化处理流程，

S4：由统一的数据流处理中心，根据步骤S3中设置的处理流程进行初始化，对流和元数据执行处理节点对应的逻辑，产生输出源；S5：步骤S4中产生的输出源与数据库绑定，存储处理结果；或者作为其他数据流的输入源。

3.根据权利要求2所述的基于文档数据库的数据处理方法，其特征在于：步骤S1中，采用***与文档数据库建立连接，通过定时轮训访问文档集，通过文档的创建时间、修改时间和删除时间判断是否在轮训间隔时间内发生变动，并收集变动数据。

4.根据权利要求2所述的基于文档数据库的数据处理方法，其特征在于：步骤S2中，所述数据流的输入源以队列的形式存储监听获得的变动数据，所述输入源的存储队列中数据根据其变动的类型，在数据上增加标识位用以区分数据是新增、修改或者删除。

5.根据权利要求1所述的基于文档数据库的数据处理方法，其特征在于：所述流过滤节点通过对流中数据一个或多个字段进行判断，过滤掉不符合判断的数据，减少数据量。

6.根据权利要求1所述的基于文档数据库的数据处理方法，其特征在于：所述元数据处理节点，通过编程语言构成其内部的逻辑运算，其逻辑运算由一系列的数学计算和通用函数组成，在数据流处理中心会对编译后初始化，对接收到的数据流的元数据执行处理节点的逻辑运算，从而改变元数据。