CN114417408B

CN114417408B - 数据处理方法、装置、设备以及存储介质

Info

Publication number: CN114417408B
Application number: CN202210053524.1A
Authority: CN
Inventors: 徐立国; 陈治宇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2022-11-11
Anticipated expiration: 2042-01-18
Also published as: CN114417408A

Abstract

本公开提供了一种数据处理方法、装置、设备以及存储介质。涉及计算机技术领域，尤其涉及大数据、云计算、信息安全等领域。具体实现方案为：获取来自各数据源的目标数据，目标数据包括至少一种类型的数据；对各目标数据中不同类型的数据分别进行格式转换，得到各目标数据的第一数据流，第一数据流的格式为预设目标格式；对各第一数据流分别进行隐私计算处理，得到各目标数据的第二数据流；基于各第二数据流，生成各目标数据的待存储数据。根据本公开的技术方案，能提高多元化数据源数据的处理效率。

Description

数据处理方法、装置、设备以及存储介质

技术领域

本公开涉及计算机技术领域，具体涉及大数据、云计算、信息安全等领域。

背景技术

随着大数据时代来临，数据源的多元化处理成了需要解决的难题，尤其是需要对来自多元化数据源的数据进行隐私计算处理，这些数据源的特点是数据量大，文件多。因此，处理效率低。

发明内容

本公开提供了一种数据处理方法、装置、设备、存储介质以及计算机程序产品。

根据本公开的第一方面，提供了一种数据处理方法，包括：

获取来自各数据源的目标数据，目标数据包括至少一种类型的数据；

对各目标数据中不同类型的数据分别进行格式转换，得到各目标数据的第一数据流，第一数据流的格式为预设目标格式；

对各第一数据流分别进行隐私计算处理，得到各目标数据的第二数据流；

基于各第二数据流，生成各目标数据的待存储数据。

根据本公开的第二方面，提供了一种数据处理装置，包括：

获取模块，用于获取来自各数据源的目标数据，目标数据包括至少一种类型的数据；

第一格式转换模块，用于对各目标数据中不同类型的数据分别进行格式转换，得到各目标数据的第一数据流，第一数据流的格式为预设目标格式；

隐私计算模块，用于对各第一数据流分别进行隐私计算处理，得到各目标数据的第二数据流；

生成模块，用于基于各第二数据流，生成各目标数据的待存储数据。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行上述第一方面所提供的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使该计算机执行上述第一方面所提供的方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现上述第一方面所提供的方法。

根据本公开的技术方案，至少能提高多元化数据源数据的处理效率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的数据处理方法的流程示意图；

图2是根据本公开实施例的隐私计算处理前后格式化的示意图；

图3是根据本公开实施例的正常处理和异常处理流程示意图；

图4是根据本公开实施例的多元化数据源流式处理的整体逻辑框图；

图5是根据本公开实施例的数据源处理的接口示意图；

图6是根据本公开实施例的数据写出模块接口示意图；

图7是根据本公开实施例的ORC文件格式示意图；

图8是根据本公开实施例的数据处理装置的结构示意图一；

图9是根据本公开实施例的数据处理装置的结构示意图二；

图10是根据本公开实施例的数据处理场景示意图；

图11是用来实现本公开实施例的数据处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的说明书实施例和权利要求书及上述附图中的术语"第一"、"第二"和"第三"等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语"包括"和"具有"以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本公开实施例提供一种数据处理方法，该数据处理方法可以应用于电子设备，该电子设备包括但不限于固定设备和/或移动设备，例如，固定设备包括但不限于服务器，服务器可以是云服务器或普通服务器。例如，移动设备包括但不限于：手机或平板电脑中的一项或是多项。如图1所示，该数据处理方法包括：

S101，获取来自各数据源的目标数据，目标数据包括至少一种类型的数据；

S102，对各目标数据中不同类型的数据分别进行格式转换，得到各目标数据的第一数据流，第一数据流的格式为预设目标格式；

S103，对各第一数据流分别进行隐私计算处理，得到各目标数据的第二数据流；

S104，基于各第二数据流，生成各目标数据的待存储数据。

其中，本公开不对数据源的类型进行限定。比如，JDBC数据源、S3数据源、Oracle数据源、PostgreSQL数据源、MySQL数据源等。

这里，目标数据是从数据源获取的待处理的数据，目标数据可以数据流的形式表示。可以理解，不同数据源获取的目标数据所包括的数据类型可能相同，但是，不同数据源获取的目标数据是不同的。

其中，本公开不对数据的类型进行限定。比如，图片数据、文本数据、语音数据等。

这里，不同类型数据对应不同格式转换器。格式转换器可细分为输入格式转换器和输出格式转换器。S102中的第一数据流是通过输入格式转换器转换得到的。

比如，输入格式转换器至少分为：采样输入格式(Sample input Format)转换器，注释输入格式(Annotation input Format)转换器，完整数据输入格式(Full Data inputFormat)转换器，csv输入格式(Csv input Format)转换器，Jdbc输入格式(Jdbc inputFormat)转换器。

示例性的，数据类型为采样的目标数据通过采样输入格式进行转换，数据类型为注释的目标数据通过注释输入格式进行转换，数据类型为完整数据的目标数据通过完整数据输入格式进行转换，数据类型为Csv数据的目标数据通过Csv输入格式进行转换。也就是说，比如，数据类型是Csv的数据，不管来自什么数据源，都通过Csv输入格式转换器进行转换；又比如，数据类型是Txt的数据，不管来自什么数据源，都通过Txt格式转换器进行转换。

这里，预设目标格式为虚拟表格格式。对于不同目标数据的虚拟表格，每列表示的内容相同。当然，对于虚拟表格中每列所表示的内容，可根据实际需要如用户需求进行设定或调整。

示例性的，在虚拟表格中，第一列表示文件名；第二列，表示图片自身的数据；第三列，表示标注文件的二进制信息。

这里，隐私计算处理包括但不限于以下至少之一类型：抽样处理、脱敏处理。

本公开实施例不对隐私计算处理的类型进行限定。通过隐私计算处理，能够将部分数据进行替换，以保护数据的安全性。

这里，对于第二数据流是对第一数据流中的至少部分数据进行隐私计算处理后得到的数据流。也就是说，第二数据流中至少部分数据与第一数据流不同。第二数据流与第一数据流的格式相同。

这里，待存储数据是符合目标存储格式的数据。该目标存储格式为列存储格式，如(Optimized Row Columnar，ORC)文件格式。

本公开实施例的技术方案，获取来自各数据源的目标数据；对各目标数据中不同类型的数据分别进行格式转换，得到各目标数据的第一数据流；对各第一数据流分别进行隐私计算处理，得到各目标数据的第二数据流；基于各第二数据流，生成各目标数据的待存储数据，如此，先将不同数据源的不同数据格式的目标数据转换成统一的预设目标格式，然后再进行隐私计算处理、存储等一系列操作，能提高多元化数据源数据的处理效率，包括隐私计算处理的效率。

在一些实施例中，获取来自各数据源的目标数据，包括：确定与各数据源分别适配的各解析器；通过各解析器流式获取来自各数据源的目标数据。

其中，解析器能识别与其连接的数据源的类型，从而能确定是否能解析来自该数据源的数据。实际应用中，不同数据源和与其适配的解析器连接，以便解析器从与其连接的数据源获取的数据。

这里，流式获取可以理解为对于每个解析器而言，同一时间获取一条目标数据，待当前获取的目标数据处理完毕后，再获取各个数据源的下一条目标数据。

示例性的，根据数据源类型确定解析器，比如Jdbc数据源有Jdbc的解析器，S3数据源有S3的解析器，Oracle数据源有Oracle的解析器，PostgreSQL数据源有PostgreSQL的解析器，MySQL数据源有MySQL的解析器。

又示例性的，根据数据源类型和数据类型确定解析器。比如，S3数据源csv格式数据对应的解析器为S3的csv子解析器。Oracle数据源SQL格式数据对应的解析器为Oracle的SQL子解析器。

虽然不同解析器的解析方式不同，但是均采用流式方式读取数据，采用流式读取可以减少缓存的使用，提高资源利用率和读取效率。

如此，通过不同解析器获取来自不同数据源的目标数据，对于每个解析器，采用流式处理方式从与其连接的数据源中获取目标数据，为多元化数据源的数据的流式处理提供了基础性支撑，从而实现支持多文件，大数据的隐私计算。

在一些实施例中，预设目标格式为虚拟表格格式，对各目标数据中不同类型的数据分别进行格式转换，得到各目标数据的第一数据流，包括：分别确定与各目标数据中不同类型的数据相匹配的各输入格式转换器；通过各输入格式转换器，分别对各目标数据中不同类型的数据进行格式转换，得到各目标数据的用虚拟表格格式表示的第一数据流。

这里，各目标数据的第一数据流用同一种虚拟表格表示，即对于各目标数据的第一数据流而言，每列表示的内容相同。可以理解，对于虚拟表格中每列所表示的内容，可根据实际需要如用户需求进行设定或调整。

示例性的，在虚拟表格中，第一列表示文件名；第二列，表示图片本身的数据；第三列，表示标注文件的二进制信息。

示例性的，采样类型的数据通过采样输入格式转换器得到第一数据流，注释类型的数据通过注释输入格式转换器得到第一数据流，csv类型的数据通过csv输入格式转换器得到第一数据流，Jdbc类型的数据通过Jdbc输入格式转换器得到第一数据流。

如此，通过不同输入格式转换器将各目标数据中不同类型的数据进行格式转换，得到各目标数据的用虚拟表格格式表示的第一数据流，使得后续进行隐私计算处理时仅需面对虚拟表格格式的第一数据流，无需对不同格式的数据流分别进行不同形式的隐私计算处理，不仅能提高隐私计算处理的数据源覆盖度，还能简化隐私处理的计算过程，提高隐私计算处理的处理效率。

在一些实施例中，对各第一数据流分别进行隐私计算处理，得到各目标数据的第二数据流，包括：对各第一数据流分别进行隐私计算处理，得到各第一数据流对应的经隐私计算处理后的数据；基于各第一数据流对应的经隐私计算处理后的数据，得到各目标数据的第二数据流，第二数据流的格式为预设目标格式。

这里，第二数据流与第一数据流的格式相同，均为预设目标格式，如虚拟表格格式。

这里，隐私计算处理包括但不限于抽样处理和脱敏处理。

如此，隐私计算处理的数据是格式化好的数据，对隐私计算屏蔽了数据的多元化，减少了隐私计算的难度。

在一些实施例中，上述数据处理方法还可以包括：分别确定与各目标数据中不同类型的数据相匹配的各输出格式转换器；将各目标数据分别对应的第二数据流通过各输出格式转换器，得到各更新后的第二数据流。其中，基于各第二数据流，生成各目标数据的待存储数据，包括：基于各更新后的第二数据流，生成各目标数据的满足目标存储格式的待存储数据。

这里，输出格式转换器包括但不限于采样输出格式(Sample output Format)转换器，注释输出格式(Annotation output Format)转换器，完整数据输出格式(Full Dataoutput Format)转换器。

这里，输出格式转换器的种类数小于等于输入格式转换器的种类数。

这里，目标存储格式为列式存储格式，比如，目标存储格式为ORC文件格式。在一些实施方式中，先基于行对数据表进行分组(行组)，然后对行组进行列式存储。查询数据时不需要扫描全部数据，只需查询指定列即可。

图2示出了隐私计算处理前后格式化的示意图，如图2所示，从数据源流式获取目标数据，对目标数据进行格式转化，然后进行隐私计算处理，对隐私计算处理后的数据进一步进行格式转化，最终生成各目标数据的满足目标存储格式的待存储数据。这里，对经隐私计算处理后的部分数据进行一些标识性的处理(如加前缀)，但是不会改变经隐私计算处理后的数据，如为图片数据加上前缀标识。

如此，通过各输出格式转换器对各目标数据分别对应的第二数据流进行格式转换，得到各更新后的第二数据流；基于各更新后的第二数据流，生成各目标数据的满足目标存储格式的待存储数据；这样，在存储时无需对不同数据源采用不同的存储处理方式，只需采用统一的存储方式，能对多元化数据进行统一格式的存储，提高存储处理效率。

在一些实施例中，上述数据处理方法还可以包括：将各目标数据的待存储数据，分别按照预设存储方式进行存储。

这里，预设存储方式包括：为各数据源分配的独立的内存，并在每个内存中划分独立的数据片，该数据片用于存储待存储数据。在每个数据片中，通过索引元数据保存有每个数据片的起始位置信息和每列属性，每列表头信息；数据信息；将每行数据以列的形式进行存储(Row Data也叫Row Group，一个Stripe对应多个Row Group。Row Group内部数据按照列进行存储)。

如此，对多元化数据源数据进行统一的隐私计算处理后，能进行统一格式的存储，能够实现对多元化数据源数据的整体流式处理。

在一些实施例中，将各目标数据的待存储数据，分别按照预设存储方式进行存储，包括：将各目标数据的待存储数据，分别写入各数据源各自对应的内存的数据片中；在各数据源各自对应的数据片中的数据大小达到预设阈值的情况下，将达到预设阈值的数据片中所存储的待存储数据上传至存储服务器。

这里，预设阈值可根据实际情况进行设定或调整。比如，根据***为各数据源分配的内存的大小而设定。预设阈值小于等于***为各数据源分配的内存。

比如，预设阈值为10兆，则每写入一行数据先存储到内存中的数据片，等数据达到10兆时，将这个数据片中数据上传到存储服务器。

这里，存储服务器用于合并每个数据源的所有数据片上传的数据。

如此，通过分数据片上传数据，每写入一行数据先写入各数据源对应的内存，既能合理的使用缓存，又能合理的应用输入/输出接口，使资源得到充分利用。

在一些实施例中，将各目标数据的待存储数据，分别按照预设存储方式进行存储，还包括：在各数据源对应的各目标数据读取完毕的情况下，将各数据源各自对应的内存的数据片中的待存储数据上传至存储服务器。

以数据片的大小为10兆为例，若数据源1对应的数据片1中的数据未达到10兆，但数据源1对应的所有目标数据读取完毕，或者与数据源1的连接断开，则将数据片1中的数据上传至存储服务器。

如此，能保证存储的各数据源的目标数据的完整性。

在一些实施例中，将各目标数据的待存储数据，分别按照预设存储方式进行存储，还包括：通过存储服务器分别将各数据源所对应的所有数据片的数据进行合并，得到各数据源的目标存储数据。

举例来说，数据源1包括目标数据1～2n，存储服务器接收到数据源1对应的内存的数据片1上传的待存储数据1～n，数据源1对应的内存的数据片2上传的待存储数据n+1～2n，将数据源1所对应的数据片1和数据片2上传的待存储数据进行合并，得到数据源1的目标存储数据。

如此，由于分片上传数据到存储服务器，最后做分片的合并，既能合理的使用缓存，又能合理的应用输入/输出接口，提高了资源的利用率。

在一些实施例中，上述数据处理方法还可以包括：确定各数据源的目标数据库；将各数据源的目标存储数据，存储至各数据源的目标数据库。

其中，各数据源对应的目标数据库可根据配置信息进行设定。

这里，目标数据库是数据源的目标数据经过隐私计算处理后最终的存储位置。本公开不对目标数据库的类型进行限定。比如，bos数据库，minio数据库，oss数据库，分布式文件***(Hadoop Distributed File System，HDFS)数据库等。

需要说明是，各数据源对应的目标数据库可以相同，也可以不同。比如，数据源1对应目标数据库1，数据源2和数据源3对应目标数据库2。

如此，能根据配置信息将数据源的目标数据存储至指定数据库。

在一些实施例中，上述数据处理方法还可以包括：在数据处理的过程中发生异常的情况下，生成故障事件并逐层上报故障事件；根据故障事件确定故障发生原因。

这里，逐层是指在发生故障的本级节点向发生故障的上一级节点上报故障事件，以此类推，直至上报至第一级节点。其中，根据数据的处理流程，各节点包括分配任务的节点、获取目标数据的节点、输入格式转化的节点、隐私计算处理的节点、输出格式转化的节点、数据写出处理的节点、数据存储的节点。

图3示出了正常处理和异常处理流程示意图，图3中用实线表示正常流程，具体地，任务分发器分发任务到数据源解析器，通过数据源解析器生成数据流，数据流通过隐私计算处理，写入到数据存储中。图3中用虚线表示异常流程，具体地，在哪个模块出现异常，就会逐层抛错，并记录错误信息，最后抛到任务分发器中，由任务分发器将任务更新成失败，并更新失败原因。

如此，能够对数据异常处理流程进行及时上报，及时获取故障事件，便于提高处理故障事件的效率。

为了便于理解上述数据处理方法，下面给出具体实现方案。

多元化数据源流式处理的整体逻辑框图如图4所示，任务分发器负责处理用户配置的任务，通过多线程并发的方式处理不同的任务。任务分发器获取任务，分发线程处理任务，每个任务的实现都是通过数据源解析器获取用户不同的数据源信息，将数据源信息读取转换成迭代器封装到数据结构(如虚拟化表格)中，数据结构中还包括数据的元信息，如数据的行数，数据的列数，数据的类型等。封装成迭代器的过程中会根据不同的格式转换器对不同类型的文件格式转换，通过输入格式化工具(即输入格式转换器)转换成我们统一的格式后，通过隐私计算处理，分发到不同的处理实现中对数据进行抽样、脱敏等处理。处理后的数据再封装成新的数据结构，里面包括了迭代器，通过输出格式化工具(即输出格式转换器)进行格式转换，转换成我们需要存储的格式，通过数据写出处理模块分片地写入文件存储***中。其中，任务分发器在进行数据处理时，基于不同数据源包括的多种数据类型进行任务调度，每个任务对应一个数据源的一种数据类型的数据的处理。同一个数据源可能多种数据类型，每一种数据类型只能配置一个任务，多种数据类型配置多个任务，可以进行多个任务的调度。其中，将通过流式读取的数据构造成迭代器，多文件则进行嵌套迭代器的设计，通过迭代器可以做到后续隐私计算的流式数据处理。比如，a、b、c三个文件，先将3个文件名称列表构造成迭代器(3次迭代)，每次迭代，在内部读取相应文件，相应文件流构造成文件流迭代器，会将文件流迭代器迭代完成，再通过外层迭代器处理下一个文件。

上述架构中，采用流式化方式读取数据、格式转化、隐私计算和存储，由于逐行读取数据，逐行对数据进行脱敏和抽样的处理，处理完一行就写入一行，这种数据的流式处理减小了隐私计算的缓存应用，并且控制了隐私计算单个处理的大小，有效地提升了计算效率，并且通过格式化工具，输入到隐私计算的数据都是格式化好的数据，所以同时也减少了隐私计算的难度，对隐私计算屏蔽了数据的多元化。

图5示出了数据源处理的接口示意图，图5中矩形代表核心接口，平行四边形代表抽象类，椭圆形代表接口的不同实现类。图5中，以数据源解析器(Data Source)为核心接口，它有不同的数据源的实现类，如S3、Mysql、Oracle等不同的数据源解析实现。DataSource接口通过数据源解析器工厂接口(Data Source Factory)进行管理，根据用户配置的不同数据源，找出相应的解析器。Data Source接口通过输入格式化工具实现对输入数据流的格式转化，输入格式化工具根据文件的类型会有不同的实现类，如：示例文件格式转换器、Json文件格式转换器、csv文件格式转换器等。Data Source接口还与数据流封装器(Data Frame)连接，可以通过数据流处理结构获取每行数据的迭代器，可以获取数据的元信息如行数、列数、数据类型等。数据流封装器又分为数据读取流封装器、数据写出流封装器、数据存储流封装器。数据读取流是对用户数据源数据生成的流的封装。数据写出流是对隐私计算后生成的数据的封装。数据存储流是对待存储数据的封装。数据读取流又分为S3读取流、Mysql读取流等不同的实现类。同理，数据写出流又分为S3写出流、Mysql写出流等不同的实现类。数据存储流又分为S3存储流、Mysql存储流等不同的实现类。

图6示出了数据写出模块接口示意图，图6中矩形代表核心接口，平行四边形代表抽象类，椭圆形代表接口的不同实现类。以数据写出模块(Data Sink)为核心接口，数据写出模块可以有S3协议的文件存储写入的实现类如(minio\bos\oss等)，也可以是其他协议存储***写入的实现类。数据写出模块是通过数据写出模块工厂接口(Data SinkFactory)管理的，可以根据不同的用户配置选择不同的数据写出实现类。数据写出模块与输出格式化工具连接，将处理后的数据转换成统一的格式进行存储。比如，通用的输出格式化工具的实现，大部分格式化数据都可以支持。非结构化输出格式转换器的实现，如图片数据集、大文本等。

图7示出了ORC文件格式示意图，ORC文件不是一个单纯的列式存储格式，首先根据行组分割整个表，在每一个行组内按列进行存储。ORC文件是自描述的，它的元数据使用Protocol Buffers序列化，并且ORC文件中的数据尽可能地压缩以降低存储空间的消耗，目前也被Spark SQL、Presto等查询引擎支持。在ORC格式的hive表中，记录首先会被横向的切分为多个stripes，然后在每一个stripe内，数据以列为单位进行存储，所有列的内容都保存在同一个文件中。当读取一个ORC文件时，需要有两个位置信息才能准确的进行数据读取操作。由于每个stripe中有多个group，ORC阅读器(reader)需要知道每个group的元数据流(metadata streams)和数据流(data streams)中所记录的该group的开始位置。由于一个ORC文件可以包含多个stripes，并且一个HDFS块也能包含多个stripes，为了快速定位指定stripe的位置，需要知道每个stripe的开始位置，这些信息可保存在ORC的文件脚本(FileFooter)中，如图7中间位置的虚线所示。采用ORC文件格式存储具有以下优点：

1)ORC文件是列式存储，有多种文件压缩方式，并且有着很高的压缩比。比如，将格式化数据按照分片的形式存储在OCR文件，每一片是一定行数的数据，每一行存储的相应的列数据。由于支持压缩，减少了存储占用空间。

2)ORC文件可分片，隐私计算处理通常会处理大批量的数据，利用分片的特性可以将完整的数据源数据进行分片存储，查询时可以根据index索引，通过算法查找，直接定位到相应的分片查到数据，而不用所有数据都遍历，增加了查询效率。

3)ORC文件提供多种复杂的数据格式，可以根据支持的数据源和业务场景，做不同数据格式的存储，更好的实现多元化数据的统一处理。

4)统一存储，将不同的数据源和数据类型，如结构化数据类型Csv、Json等，非结构化数据图片和大文本或者机器学习数据集VOC和COCO等，可以利用ORC文件的特性进行统一的列存储，这样，读取使用的时候，就可以屏蔽数据源本身的格式，可以按照统一的格式进行后续的处理。

下面，给出隔离域场景下隐私计算流式处理和统一存储的整体闭环流程，具体如下：

1)用户选择相应的数据源以及数据类型，如：S3数据源，Csv数据类型；

2)根据用户的配置，通过不同的数据源，采用流式方式获取数据源数据，构造成迭代器，多文件则嵌套迭代；

3)根据不同的数据类型，通过不同的格式化工具，格式化数据；

4)隐私计算处理，通过迭代器和格式化工具获取到格式化后的虚拟表格数据，对数据进行流式的计算，如脱敏计算，指定字段统计等；

5)处理后的数据，通过流式的方式写入数据输出层；

6)数据输出层接取流式数据，进行构造ORC文件，并分片上传到存储服务器；

7)用户通过统一的数据读取方式，解析数据进行后续的算法运算即可。

如此，通过流式处理可以支持多文件、大数据的隐私计算，并且内存暂用较少，计算效率良好；在存储上，能对多元化的数据源的隐私计算处理结果进行统一格式存储。

本公开实施例公开了一种数据处理装置，如图8所示，该数据处理装置可以包括：

获取模块810，用于获取来自各数据源的目标数据，目标数据包括至少一种类型的数据；

第一格式转换模块820，用于对各目标数据中不同类型的数据分别进行格式转换，得到各目标数据的第一数据流，第一数据流的格式为预设目标格式；

隐私计算模块830，用于对各第一数据流分别进行隐私计算处理，得到各目标数据的第二数据流；

生成模块840，用于基于各第二数据流，生成各目标数据的待存储数据。

在一些实施例中，该获取模块810，用于：

确定与各数据源分别适配的各解析器；

通过各解析器流式获取来自各数据源的目标数据。

在一些实施例中，预设目标格式为虚拟表格格式，该第一格式转换模块820，用于：

分别确定与各目标数据中不同类型的数据相匹配的各输入格式转换器；

通过各输入格式转换器，分别对各目标数据中不同类型的数据进行格式转换，得到各目标数据的用虚拟表格格式表示的第一数据流。

在一些实施例中，该隐私计算模块830，用于：

对各第一数据流分别进行隐私计算处理，得到各第一数据流对应的经隐私计算处理后的数据；

基于各第一数据流对应的经隐私计算处理后的数据，得到各目标数据的第二数据流，第二数据流的格式为预设目标格式。

在一些实施例中，如图9所示，该数据处理装置还可包括：

第二格式转换模块850，用于：

分别确定与各目标数据中不同类型的数据相匹配的各输出格式转换器；

将各目标数据分别对应的第二数据流通过各输出格式转换器，得到各更新后的第二数据流；

其中，生成模块，还用于基于各更新后的第二数据流，生成各目标数据的满足目标存储格式的待存储数据。

在一些实施例中，如图9所示，该数据处理装置还可包括：

存储模块860，用于将各目标数据的待存储数据，分别按照预设存储方式进行存储。

在一些实施例中，该存储模块860包括：

写入子模块，用于将各目标数据的待存储数据，分别写入各数据源各自对应的内存的数据片中；

上传子模块，用于在各数据源各自对应的数据片中的数据大小达到预设阈值的情况下，将达到预设阈值的数据片中所存储的待存储数据上传至存储服务器。

在一些实施例中，该上传子模块，还用于：

在各数据源对应的各目标数据读取完毕的情况下，将各数据源各自对应的内存的数据片中的待存储数据上传至存储服务器。

在一些实施例中，该存储模块860还包括：

合并子模块，用于通过存储服务器将各数据源所对应的所有数据片的数据进行合并，得到各数据源的目标存储数据。

在一些实施例中，该存储模块860还包括：

确定子模块，用于确定各数据源的目标数据库；

存储子模块，用于将各数据源的目标存储数据，存储至各数据源的目标数据库。

在一些实施例中，如图9所示，该数据处理装置还可包括：

异常处理模块870，用于：

在数据处理的过程中发生异常的情况下，生成故障事件并逐层上报故障事件；

根据故障事件确定故障发生原因。

本领域技术人员应当理解，本公开实施例的数据处理装置中各处理模块的功能，可参照前述的数据处理方法的相关描述而理解，本公开实施例的数据处理装置中各处理模块，可通过实现本公开实施例所述的功能的模拟电路而实现，也可以通过执行本公开实施例所述的功能的软件在电子设备上的运行而实现。

本公开实施例的数据处理装置，能对多元化的数据源进行统一格式的处理，从而提高多元化数据源的处理效率；另外，在存储过程中，不仅占用内存较少，还能对多元化的数据源进行统一格式的存储，这样读取或使用已存储的数据时，可以屏蔽数据源本身的格式，按照统一的格式进行处理。

图10示出了数据处理的场景示意图，从图10可以看出，电子设备如云服务器从多元化数据源接收目标数据，对各目标数据中不同类型的数据分别进行格式转换，得到各目标数据的第一数据流，第一数据流的格式为预设目标格式；对各第一数据流分别进行隐私计算处理如抽样处理或脱敏处理等，得到各目标数据的第二数据流；基于各第二数据流，生成各目标数据的待存储数据；将各目标数据的待存储数据，分别按照预设存储方式进行存储，如写入各数据源各自对应的内存的数据片中，在各数据源各自对应的所述数据片中的数据大小达到预设阈值的情况下，将达到预设阈值的数据片中所存储的数据上传至存储服务器，通过存储服务器将各数据源所对应的所有数据片的数据进行合并，得到各数据源的ORC文件格式的目标存储数据；并且，能将各数据源的目标存储数据存储至各数据源的目标数据库。

应理解，图10示的场景图仅仅是示意性而非限制性的，本领域技术人员可以基于图10的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本公开实施例的公开范围。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，设备1100包括计算单元1101，其可以根据存储在只读存储器(Read-Only Memory，ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(Random Access Memory，RAM)1103中的计算机程序，来执行各种适当的动作和处理。在RAM1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM1103通过总线1104彼此相连。输入/输出(Input/Output，I/O)接口1105也连接至总线1104。

设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(Central Processing Unit，CPU)、图形处理单元(Graphics Processing Unit，GPU)、各种专用的人工智能(ArtificialIntelligence，AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(Digital Signal Processor，DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如数据处理方法。例如，在一些实施例中，数据处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时，可以执行上文描述的数据处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数据处理方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(Field Programmable Gate Array，FPGA)、专用集成电路(Application Specific Integrated Circuit，ASIC)、专用标准产品(Application-Specific Standard Products，ASSP)、芯片上***的***(System on Chip，SOC)、负载可编程逻辑设备(Complex Programmable Logic Device，CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器、只读存储器、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory，EPROM)、快闪存储器、光纤、便捷式紧凑盘只读存储器(Compact Disk Read Only Memory，CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，阴极射线管(Cathode Ray Tube，CRT)或者液晶显示器(Liquid Crystal Display，LCD)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端和服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种数据处理方法，包括：

获取来自各数据源的目标数据，所述目标数据包括至少一种类型的数据；

对各所述目标数据中不同类型的数据分别进行格式转换，得到各所述目标数据的第一数据流，所述第一数据流的格式为预设目标格式；

对各所述第一数据流分别进行隐私计算处理，得到各所述目标数据的第二数据流；

基于各所述第二数据流，生成各所述目标数据的待存储数据；

分别确定与各所述目标数据中不同类型的数据相匹配的各输出格式转换器；

将各所述目标数据分别对应的所述第二数据流通过各所述输出格式转换器，得到各更新后的所述第二数据流；

其中，所述基于各所述第二数据流，生成各所述目标数据的待存储数据，包括：

基于各更新后的所述第二数据流，生成各所述目标数据的满足目标存储格式的所述待存储数据。

2.根据权利要求1所述的方法，其中，所述获取来自各数据源的目标数据，包括：

确定与各数据源分别适配的各解析器；

通过各所述解析器流式获取来自各数据源的所述目标数据。

3.根据权利要求1所述的方法，其中，所述预设目标格式为虚拟表格格式，所述对各所述目标数据中不同类型的数据分别进行格式转换，得到各所述目标数据的第一数据流，包括：

分别确定与各所述目标数据中不同类型的数据相匹配的各输入格式转换器；

通过各所述输入格式转换器，分别对各所述目标数据中不同类型的数据进行格式转换，得到各所述目标数据的用虚拟表格格式表示的第一数据流。

4.根据权利要求1所述的方法，其中，所述对各所述第一数据流分别进行隐私计算处理，得到各所述目标数据的第二数据流，包括：

对各所述第一数据流分别进行隐私计算处理，得到各所述第一数据流对应的经所述隐私计算处理后的数据；

基于各所述第一数据流对应的经所述隐私计算处理后的数据，得到各所述目标数据的所述第二数据流，所述第二数据流的格式为所述预设目标格式。

5.根据权利要求1所述的方法，还包括：

将各所述目标数据的所述待存储数据，分别按照预设存储方式进行存储。

6.根据权利要求5所述的方法，其中，所述将各所述目标数据的所述待存储数据，分别按照预设存储方式进行存储，包括：

将各所述目标数据的所述待存储数据，分别写入各数据源各自对应的内存的数据片中；

在各数据源各自对应的所述数据片中的数据大小达到预设阈值的情况下，将达到所述预设阈值的所述数据片中所存储的所述待存储数据上传至存储服务器。

7.根据权利要求6所述的方法，所述将各所述目标数据的所述待存储数据，分别按照预设存储方式进行存储，还包括：

在各数据源对应的各所述目标数据读取完毕的情况下，将各数据源各自对应的内存的所述数据片中的所述待存储数据上传至所述存储服务器。

8.根据权利要求6或7所述的方法，其中，所述将各所述目标数据的所述待存储数据，分别按照预设存储方式进行存储，还包括：

通过所述存储服务器将各所述数据源所对应的所有数据片的数据进行合并，得到各所述数据源的目标存储数据。

9.根据权利要求8所述的方法，还包括：

确定各数据源的目标数据库；

将各所述数据源的所述目标存储数据，存储至各所述数据源的所述目标数据库。

10.根据权利要求1所述的方法，还包括：

在数据处理的过程中发生异常的情况下，生成故障事件并逐层上报所述故障事件；

根据所述故障事件确定故障发生原因。

11.一种数据处理装置，包括：

获取模块，用于获取来自各数据源的目标数据，所述目标数据包括至少一种类型的数据；

第一格式转换模块，用于对各所述目标数据中不同类型的数据分别进行格式转换，得到各所述目标数据的第一数据流，所述第一数据流的格式为预设目标格式；

隐私计算模块，用于对各所述第一数据流分别进行隐私计算处理，得到各所述目标数据的第二数据流；

生成模块，用于基于各所述第二数据流，生成各所述目标数据的待存储数据；

第二格式转换模块，用于：

其中，所述生成模块，还用于基于各更新后的所述第二数据流，生成各所述目标数据的满足目标存储格式的所述待存储数据。

12.根据权利要求11所述的装置，其中，所述获取模块，用于：

确定与各数据源分别适配的各解析器；

通过各所述解析器流式获取来自各数据源的所述目标数据。

13.根据权利要求11所述的装置，其中，所述预设目标格式为虚拟表格格式，所述第一格式转换模块，用于：

14.根据权利要求11所述的装置，其中，所述隐私计算模块，用于：

15.根据权利要求11所述的装置，还包括：

存储模块，用于将各所述目标数据的所述待存储数据，分别按照预设存储方式进行存储。

16.根据权利要求15所述的装置，所述存储模块包括：

写入子模块，用于将各所述目标数据的所述待存储数据，分别写入各数据源各自对应的内存的数据片中；

上传子模块，用于在各数据源各自对应的所述数据片中的数据大小达到预设阈值的情况下，将达到所述预设阈值的所述数据片中所存储的所述待存储数据上传至存储服务器。

17.根据权利要求16所述的装置，其中，所述上传子模块，还用于：

18.根据权利要求16或17所述的装置，其中，所述存储模块还包括：

合并子模块，用于通过所述存储服务器将各所述数据源所对应的所有数据片的数据进行合并，得到各所述数据源的目标存储数据。

19.根据权利要求18所述的装置，所述存储模块还包括：

确定子模块，用于确定各数据源的目标数据库；

存储子模块，用于将各所述数据源的所述目标存储数据，存储至各所述数据源的所述目标数据库。

20.根据权利要求11所述的装置，还包括：

异常处理模块，用于：

根据所述故障事件确定故障发生原因。

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。

23.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-10中任一项所述的方法。