CN113986208A - 数据的处理方法、计算设备及存储介质 - Google Patents

数据的处理方法、计算设备及存储介质 Download PDF

Info

Publication number
CN113986208A
CN113986208A CN202111136937.8A CN202111136937A CN113986208A CN 113986208 A CN113986208 A CN 113986208A CN 202111136937 A CN202111136937 A CN 202111136937A CN 113986208 A CN113986208 A CN 113986208A
Authority
CN
China
Prior art keywords
data
processing
processed
preset
processing mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111136937.8A
Other languages
English (en)
Inventor
李建成
顾晓艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Cloud Computing Ltd
Original Assignee
Alibaba Cloud Computing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Cloud Computing Ltd filed Critical Alibaba Cloud Computing Ltd
Priority to CN202111136937.8A priority Critical patent/CN113986208A/zh
Publication of CN113986208A publication Critical patent/CN113986208A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)

Abstract

本申请实施例提供一种数据的处理方法、计算设备及存储介质。在本申请实施例中,确定待处理数据与对应基准数据元之间的映射关系,基准数据元用于标识待处理数据中实体属性或实体属性集合;从多个预置的处理方式中确定对应的处理方式,用于处理基准数据元对应的数据;根据确定的映射关系以及确定的处理方式,生成对应的执行代码,用于自动处理待处理数据。其中,根据确定的映射关系以及确定的处理方式,生成对应的执行代码,用于自动处理待处理数据,能够自动生成执行代码,降低开发人员对于数据处理开发水平的不一致性,从而提高开发质量以及开发效率,同时保证数据质量。

Description

数据的处理方法、计算设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据的处理方法、计算设备及存储介质。
背景技术
随着数据交换需求的日益增长,在城市安全应用场景中,为了提升数据交换的便捷性和规范行,需要对数据进行处理。
然而,由于需要处理的表的数量往往都是上千的量级,而交付人员的开发水平又是良莠不齐的,所以导致了在数据处理的开发效率和开发质量都五花八门,无法稳定保障数据质量。
发明内容
本申请的多个方面提供一种数据的处理方法、计算设备及存储介质,使得能够提高数据处理的开发效率以及开发质量,同时保障了数据质量。
本申请实施例提供一种数据的处理方法,包括:确定待处理数据与对应基准数据元之间的映射关系,所述基准数据元用于标识待处理数据中实体属性或实体属性集合;从多个预置的处理方式中确定对应的处理方式,用于处理所述基准数据元对应的数据;根据确定的映射关系以及确定的处理方式,生成对应的执行代码,用于自动处理所述待处理数据。
本申请实施例还提供一种计算设备,包括:存储器、处理器;所述存储器,用于存储计算机程序;所述处理器,执行所述计算机程序,以用于:确定待处理数据与对应基准数据元之间的映射关系,所述基准数据元用于标识待处理数据中实体属性或实体属性集合;从多个预置的处理方式中确定对应的处理方式,用于处理所述基准数据元对应的数据;根据确定的映射关系以及确定的处理方式,生成对应的执行代码,用于自动处理所述待处理数据。
本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被一个或多个处理器执行时,致使所述一个或多个处理器实现上述方法中的步骤。
在本申请实施例中,确定待处理数据与对应基准数据元之间的映射关系,基准数据元用于标识待处理数据中实体属性或实体属性集合;从多个预置的处理方式中确定对应的处理方式,用于处理基准数据元对应的数据;根据确定的映射关系以及确定的处理方式,生成对应的执行代码,用于自动处理待处理数据。
其中,根据确定的映射关系以及确定的处理方式,生成对应的执行代码,用于自动处理待处理数据,能够自动生成执行代码,降低开发人员对于数据处理开发水平的不一致性,从而提高开发质量以及开发效率,同时保障了数据质量。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请一示例性实施例提供的数据的处理方法的流程示意图;
图2为本申请一示例性实施例提供的可视化界面的示意图;
图3为本申请一示例性实施例提供的数据的处理的示意图;
图4为本申请一示例性实施例提供的数据的处理***的结构示意图;
图5为本申请一示例性实施例提供的数据的处理装置的结构示意图;
图6为本申请一示例性实施例提供的计算设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
根据前文所述可知,为了提升数据交换的便捷性和规范行,需要对数据进行处理。然而,由于需要处理的表的数量往往都是上千的量级,而交付人员的开发水平又是良莠不齐的,所以导致了在数据处理的开发效率和开发质量都五花八门,无法稳定保障数据质量。
基于此,本申请实施例提供了一种数据的处理方法、计算设备及存储介质,使得能够提高数据处理的开发效率以及开发质量,同时保障了数据质量。
下面结合方法实施例,针对数据的处理过程进行详细说明。
图1为本申请一示例性实施例的一种数据的处理方法的流程示意图。本申请实施例提供的该方法100由计算设备执行,如,电脑等。该方法100包括以下步骤:
101:确定待处理数据与对应基准数据元之间的映射关系。
其中,基准数据元用于标识待处理数据中实体属性或实体属性集合。
102:从多个预置的处理方式中确定对应的处理方式,用于处理基准数据元对应的数据。
103:根据确定的映射关系以及确定的处理方式,生成对应的执行代码,用于自动处理待处理数据。
需要说明的是,对于该执行主体也可以是具有显示设备,如显示器的服务器等。
以下针对上述步骤进行详细地阐述:
101:确定待处理数据与对应基准数据元之间的映射关系。
其中,基准数据元(也可以称为数据元)用于标识待处理数据中实体属性或实体属性集合。例如,对于待处理中的“手机号”,其对应的基准数据元可以是“手机号码”。需要说明的是,该基准数据元是可以根据数据接收端的要求或条件而确定的。其中,实体是指客观对象,如人、车、案件、各类物品或者组织等。
映射关系是指将待处理数据中的数据字段与基准数据元之间的对应关系,根据该关系,可以将数据字段转换成基准数据元。
该映射关系可以是预置好的。
所以,具体的,确定待处理数据与对应基准数据元之间的映射关系,包括:确定待处理数据中数据字段与基准数据元之间的映射关系。
例如,根据前文可知,电脑可以确定待处理数据中的数据字段,如手机号,对应的基准数据元,如手机号码之间的映射关系,使得将上述数据字段转换基准数据元。当然,对于待处理数据而言,其可以具有多个数据字段,均可以根据对应的基准数据元,确定对应的映射关系。映射关系的确认可以是开发用户自主选择的,也可以是电脑根据待处理数据的字段进行默认设置的。
为了更好地实现映射关系的确定,可以由开发用户通过可视化界面进行映射关系的自主选择。
具体的,该方法100还包括:提供可视化界面;在可视化界面上配置有多个预置映射关系对应的选择项以及多个预置处理方式的选择项,以供选择。
其中,映射关系可以通过用户自定义函数(UDF,user-defined function)实现、还可以通过代码实现。而通过代码实现可以根据不同接收数据端的需求或要求来预置对应的代码表,即实现转换到基准数据元的映射的代码。于此,根据不同的接收数据端,预置对应的代码表。
处理方式是指对数据的处理,如对待处理数据中的数据数值的处理。如数据清洗的处理方式、数据转换的处理方式、数据截取的处理方式以及数据回填的处理方式等方式。
例如,根据前文所述,如图2所示,在该可视化界面200中展示了多个映射关系的选择项,如数据规则201(其是通过UDF实现的)、本地代码表202(即是针对本地区域(本地市级)的接收数据端的、通过代码实现的映射关系)、以及标准代码映射表203(即是针对其它区域(如,本地省级)的接收数据端的、通过代码实现的映射关系)。
由此,使得开发用户可以通过可视化界面进行预置映射关系的选择,从而降低不同开发质量造成的问题。且方便开发用户的操作,提高开发用户的体验感以及开发时间和开发成本。
此外,在该可视化界面200上也可以展示出上述处理方式,在本图2中并没有画出对应的处理方式的选择项,但是其可以展示在该可视化界面200上。另,该界面也可以不展示处理方式的选择项,如果是这样的话,那么,电脑可以默认选择了对应的处理方式,则无需开发用户进行选择。或者在对应的代码模板中默认了对应的处理方式。
由此,开发用户可以基于该可视化界面200来进行选择对应的选择项。
需要说明的是,对于每个映射关系的选择项其可以具有对应的映射范围,开发用户可以通过该界面对各个映射范围进行了解,从而确定选择哪个选择项。
例如,基于待处理数据中的数据字段,来选择对应的选择项。如手机号、名字、男女等。由此,可以选择数据规则201,用于确定对应的基准数据元,如手机号码、姓名以及学历的映射关系。如果该待处理数据还有人员类别的数据字段,可以选择本地代码表202(因为该代码表映射了人员类别与人员类型(即基准数据元)之间的映射关系)。如果该待处理数据还有文凭的数据字段,可以选择标准代码映射表203(因为该代码表映射了文凭与学历(即基准数据元)之间的映射关系)。
基于该可视化界面可以进行选择,具体的,该方法100还包括:提供可视化界面;其中,确定待处理数据与对应基准数据元之间的映射关系,包括:基于可视化界面,响应于映射关系的选择操作,从多个预置映射关系中选择对应的映射关系,以确定映射关系。
例如,根据前文所述,开发用户通过电脑上展示的该可视化界面200进行操作,基于待处理数据中的数据字段,来选择对应的选择项。如手机号、名字、男女等。由此,开发用户可以选择数据规则201,用于确定对应的基准数据元,如手机号码、姓名以及学历的映射关系。电脑响应于该选择操作,确定对应的选项:数据规则201。
如果该待处理数据还有人员类别的数据字段,开发用户还可以选择本地代码表202(因为该代码表映射了人员类别与人员类型(即基准数据元)之间的映射关系)。电脑响应于该选择操作,确定对应的选项:本地代码表202。
如果该待处理数据还有文凭的数据字段,开发用户还可以选择标准代码映射表203(因为该代码表映射了文凭与学历(即基准数据元)之间的映射关系)。电脑响应于该选择操作,确定对应的选项:标准代码映射表203。
需要说明的是,对于开发用户对应的待处理数据可以是以数据表为单位的。如一个数据表或者是以多个数据表为单位的。
此外,对于数据规则而言,其可以是针对接收数据端没有确定的对应基准数据元与待处理数据中的数据字段之间的映射关系。
于是,开发用户在可视化界面上进行操作,就可以确定映射关系。简化了开发用户的开发过程以及开发操作流程,提高了开发效率以及开发质量,可以快速地生成执行代码。开发后的执行代码可以保证稳定的质量,不会导致开发质量良莠不齐。
为了能够更加好地展示在可视化界面上,可以通过对应映射关系的划分,来进行展示,具体的,该方法100还包括:根据不同数据接收端(即接收数据端)所需的基准数据元,划分出多个预置映射关系;将多个预置映射关系,通过对应的选择项展示在可视化界面上。
由于前文已经阐述过了,此处就不再赘述。仅说明:由于具有不同的数据接收端(针对本地区域的数据接收端,如本地市级的服务器,或者针对其它区域的数据接收端,如本地省级的服务器)所需的基准数据元,根据对应的基准数据元预置对应的映射关系,从而将预置的映射关系根据不同的区域或者说不同的数据接收端进行划分。如图2所示,就不再过多赘述了。
另说明,对于不同的划分,或者说不同的选择项,每个选择项可以满足该项对应的所有映射关系,即多个基准数据元与待处理数据中多个数据字段之间的映射关系。
可以使得开发用户清楚明了地知晓可视化界面上不同的映射关系,方便开发用户进行选择,降低开发错误的发生,提高开发质量以及开发的稳定度。
102:从多个预置的处理方式中确定对应的处理方式,用于处理基准数据元对应的数据。
例如,根据前文所示,电脑可以自动默认选择预置好的所有处理方式,也可以根据开发用户的选择确定对应的处理方式。
其中,从多个预置的处理方式中确定对应的处理方式,包括:从预置的数据清洗的处理方式、数据转换的处理方式、数据截取的处理方式和/或数据回填的处理方式中选择对应的处理方式。
其中,数据清洗的处理方式是指对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。可以删除掉冗余数据、无效数据以及错误数据等。可以根据预置清洗规则来清洗数据。
数据转换的处理方式是指将数据从一种表示形式变为另一种表现形式的过程。需要说明的是,上述映射关系对应的处理方式也属于一种数据转换方式。除此之外,还可以是其它的数据转换,如转换数据类型、倒数转换等。
数据截取的处理方式是指对数据中部分数据进行获取,或者说截取。如可以截取数据中的整数部分,或者截取数据中的字符串,也可以对数据的长度进行截取等。
数据回填的处理方式是指数据进行处理后再回填至数据字段中,如数据字段中的数据可以经过上述处理方式后,再回填至对应的数据字段中。
于此,可以从上述多个处理方式中选择对应的处理方式进行数据处理。且这些处理方式可以以函数的形式存储,统一打包。
具体的,从多个预置的处理方式中确定对应的处理方式,包括:基于可视化界面,响应于处理方式的选择操作,从多个预置处理方式中选择对应的处理方式。
例如,根据前文所述,开发用户可以在上述可视化界面中选择对应的处理方式,电脑响应于开发用户的选择操作,确定开发用户选择的处理方式,如数据清洗的处理方式、数据转换的处理方式和数据回填的处理方式。
相对的,可以通过可视化界面能够使得开发用户清楚地对对应的处理方式进行选择,提高了开发质量,简化了开发流程以及提高了开发效率,可以快速地生成对应的执行代码。且方便了开发用户的开发操作,具有较好的开发体验。
103:根据确定的映射关系以及确定的处理方式,生成对应的执行代码,用于自动处理待处理数据。
例如,根据前文所述,电脑在确定了映射关系以及处理方式后,可以通过代码生成器生成对应的执行代码用于处理待处理数据中的数据字段以及数据。如图2所示,开发用户可以在可视化界面200上点击“生成执行代码”按钮204,即可以执行生成对应的可执行代码。
其中,如图3所示,开发用户可以根据待处理数据中所涉及到的数据字段302,如名称、名称拼音等,从映射关系集合301中的各个映射关系,来选择对应的映射关系。然后,电脑确定选择的映射关系,根据选择的映射关系,可以确定出对应的逻辑标准表303。在该表中有原始列名,即待处理数据的数据字段,以及数据元,即基准数据元。表中还有注释,即表示数据元和对应的原始列名对应的含义,以及还有各个对应的映射关系,如数据规则、本地代码表以及标准代码映射表。当对应的数据字段属于哪个映射关系,则哪个映射关系需要被填写。如姓名对应的原始列名“XM”,其对应的映射关系为数据规则,具体的是数据规则中的“aaaa”。如学历对应的原始列名“xldm”,其对应的映射关系为标准代码映射表,具体的是标准代码映射表中的“bbbb”。如人员类型对应的原始列名“Lkbsqk_qwd_rylb”,其对应的映射关系为本地代码表,具体的是中的“cccc”。其它就不再赘述了。
在该表的基础上可以根据代码生成器304生成对应的可执行代码305。
具体的,根据确定的映射关系以及确定的处理方式,生成对应的执行代码,包括:根据确定的映射关系、确定的处理方式以及预置执行代码生成模板,生成对应的执行代码。
其中,预置执行代码生成模板是指预置好的代码格式,其中需要根据缺少的参数或代码进行填写,最终可以生成对应的执行代码。
例如,根据前文所述,电脑可以根据确定好的映射关系以及处理方式,将这些发送至对应的模板中,使之填写至预置位置处,可以通过直接填写映射关系的代码或处理方式的代码,也可以填写对应的调用参数等。或者电脑直接确定好的映射关系以及处理方式对应的代码或调用参数填写至模板中。从而生成对应的执行代码,该执行代码可以是SQL(结构化查询语言,Structured Query Language)代码。
需要说明的是,对于默认的处理方式或默认的映射关系,则在模板中已经预置好了对应的处理方式或映射关系的执行代码或者其调用参数。
此外,对于该执行代码可以针对一个类型的数据表,该类型的数据表可以是一个数据表也可以是多个数据表,就不再赘述了。
生成执行代码后,就可以根据该执行代码处理待处理数据了。更具体的,还可以通过该执行代码构建对应的数据处理模型,从而进行数据处理。
具体的,该方法100还包括:根据执行代码,生成数据处理模型;获取待处理数据,根据数据处理模型,对待处理数据进行处理,得到处理后的数据,处理后的数据符合数据接收端的数据处理标准。
例如,根据前文所述,电脑可以基于生成的执行代码构建数据处理模型。然后等待从下游的数据接收端,如服务器发送待处理数据。接收到待处理数据后,将待处理数据输入至该模型中,该模型根据其执行代码对待处理数据进行处理。使得处理的后的数据的数据字段以及数据值都符合上游端的需求,即处理标准。
其中,具体的,根据数据处理模型,对待处理数据进行处理,包括:根据数据处理模型,对待处理数据进行数据字段的处理,使得处理后的数据字段符合基准数据元对应的数据字段;根据数据处理模型,对待处理数据进行数据数值的处理,使得处理后的数据数值符合对应处理方式处理后的数据。
由于前文已经阐述过了,此处就不再赘述。
除此以外,还可以将生成的执行代码部署到其它设备上。具体的,该方法100还包括:将生成的执行代码下发至执行设备中,以使执行设备上部署的执行工具执行执行代码,对待处理数据进行自动处理。
其中,执行设备可以是服务器,或者云服务器等。
例如,根据前文所述,电脑可以将执行代码发送至对应的服务器,或者通过人工的方式将执行代码复制到服务器上。服务器上部署有对应的执行工具,如ETL(抽取转换加载工具,Extract-Transform-Load,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程)。该工具可以被应用到数据仓库中的数据治理引擎。数据仓库可以部署在该服务器上。由此,该服务器接收到下游的服务器发送的待处理数据,该数据通过服务器上的ETL工具中的执行代码创建的数据处理模型进行数据处理,从而实现数据仓库中数据治理引擎的数据处理。将处理后的数据发送至上游的数据服务器,进行数据接收。
基于此,本申请实施例基于上述治理引擎,解决在进行数据治理或处理时,借助工具手段,通过的基准数据元与原始表的数据字段的对应关系,从而快速完成原始数据到治理数据模型的ETL代码的快速生成。
图4为本申请一示例性实施例提供的一种数据的处理***的结构示意图。如图4所示,该***400可以包括:第一设备401以及第二设备402。此外,该***400还可以包括:第三设备403以及第四设备404。
其中,第一设备401可以是有一定计算能力的设备,可以实现向第二设备402发送数据的功能,也可以接收第二设备402发送的数据。第一设备401的基本结构可以包括:至少一个处理器。处理器的数量可以取决于具有一定计算能力装置的配置和类型。具有一定计算能力装置也可以包括存储器,该存储器可以为易失性的,例如RAM,也可以为非易失性的,例如只读存储器(Read-Only Memory,ROM)、闪存等,或者也可以同时包括两种类型。存储器内通常存储有操作***(Operating System,OS)、一个或多个应用程序,也可以存储有程序数据等。除了处理单元和存储器之外,具有一定计算能力装置还包括一些基本配置,例如网卡芯片、IO总线、显示组件以及一些***设备等。可选地,一些***设备可以包括,例如键盘、输入笔等。其它***设备在本领域中是众所周知的,在此不做赘述。可选地,第一设备401可以为智能终端,例如,手机、台式电脑、笔记本、平板电脑等。
第二设备402是指可以在网络虚拟环境中提供计算处理服务的设备,可以是指利用网络进行数据处理的设备。在物理实现上,第二设备402可以是任何能够提供计算服务,响应服务请求,并进行数据处理的设备,例如可以是云服务器、云主机、虚拟中心、常规服务器等等,其上构架有数据库。第二设备402的构成主要包括处理器、硬盘、内存、***总线等,和通用的计算机架构类似。
第三设备403以及第四设备404与第二设备402的实现形态相似,就不再赘述了。仅说明:第三设备403用于向第二设备402发送待处理数据。第四设备404用于接收第二设备402发送的数据。
具体的,第一设备401,确定待处理数据与对应基准数据元之间的映射关系,所述基准数据元用于标识待处理数据中实体属性或实体属性集合;从多个预置的处理方式中确定对应的处理方式,用于处理所述基准数据元对应的数据;根据确定的映射关系以及确定的处理方式,生成对应的执行代码,用于自动处理待处理数据。
具体的,第一设备401,确定待处理数据中数据字段与基准数据元之间的映射关系。
此外,第一设备401,提供可视化界面;在可视化界面上配置有多个预置映射关系对应的选择项以及多个预置处理方式的选择项,以供选择。
此外,第一设备401,提供可视化界面;其中,具体的,第一设备401,基于可视化界面,响应于映射关系的选择操作,从多个预置映射关系中选择对应的映射关系,以确定所述映射关系。
具体的,第一设备401,基于可视化界面,响应于处理方式的选择操作,从多个预置处理方式中选择对应的处理方式。
此外,第一设备401,根据不同数据接收端所需的基准数据元,划分出多个预置映射关系;将多个预置映射关系,通过对应的选择项展示在可视化界面上。
具体的,第一设备401,根据确定的映射关系、确定的处理方式以及预置执行代码生成模板,生成对应的执行代码。
此外,第一设备401,根据执行代码,生成数据处理模型;获取待处理数据,根据数据处理模型,对待处理数据进行处理,得到处理后的数据,处理后的数据符合数据接收端的数据处理标准。
具体的,第一设备401,根据数据处理模型,对待处理数据进行数据字段的处理,使得处理后的数据字段符合基准数据元对应的数据字段;根据数据处理模型,对待处理数据进行数据数值的处理,使得处理后的数据数值符合对应处理方式处理后的数据。
此外,第一设备401,将生成的执行代码下发至第二设备402中,以使第二设备402上部署的执行工具执行执行代码,对待处理数据进行自动处理。
具体的,第一设备401,从预置的数据清洗的处理方式、数据转换的处理方式、数据截取的处理方式和/或数据回填的处理方式中选择对应的处理方式。
需要说明的是,在***400中未能完全阐述的内容请参见前文方法100中的内容,其具体的实施方式也请参见前文所述的方法100的具体实施方式,此处就不再赘述。
在本申请实施例的数据处理的场景中,如图4所示,开发用户可以通过第一设备401(如电脑)上提供的可视化界面进行映射关系的选择。如数据规则(其是通过UDF实现的)、本地代码表(即是针对本地区域(本地市级)的接收数据端的、通过代码实现的映射关系)、以及标准代码映射表(即是针对其它区域(如,本地省级)的接收数据端的、通过代码实现的映射关系)。
开发用户通过电脑上展示的该可视化界面进行操作,基于待处理数据中的数据字段,来选择对应的选择项。如手机号、名字、男女等。由此,开发用户可以选择数据规则,用于确定对应的基准数据元,如手机号码、姓名以及学历的映射关系。电脑响应于该选择操作,确定对应的选项:数据规则。
如果该待处理数据还有人员类别的数据字段,开发用户还可以选择本地代码表(因为该代码表映射了人员类别与人员类型(即基准数据元)之间的映射关系)。电脑响应于该选择操作,确定对应的选项:本地代码表。
如果该待处理数据还有文凭的数据字段,开发用户还可以选择标准代码映射表(因为该代码表映射了文凭与学历(即基准数据元)之间的映射关系)。电脑响应于该选择操作,确定对应的选项:标准代码映射表。
开发用户可以在上述可视化界面中选择对应的处理方式,电脑响应于开发用户的选择操作,确定开发用户选择的处理方式,如数据清洗的处理方式、数据转换的处理方式和数据回填的处理方式。
电脑可以根据确定好的映射关系以及处理方式,将这些发送至对应的模板中,使之填写至预置位置处,可以通过直接填写映射关系的代码或处理方式的代码,也可以填写对应的调用参数等。或者电脑直接确定好的映射关系以及处理方式对应的代码或调用参数填写至模板中。从而生成对应的执行代码,该执行代码可以是SQL(结构化查询语言,Structured Query Language)代码。
电脑可以将执行代码发送至第二设备402,如对应的服务器,即执行步骤411:发送执行代码(即可执行代码),或者通过人工的方式将执行代码复制到服务器上。服务器上部署有对应的执行工具,如ETL(抽取转换加载工具,Extract-Transform-Load,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程)。该工具可以被应用到数据仓库中的数据治理引擎。数据仓库可以部署在该服务器上。由此,该服务器接收到第三设备403,如下游的服务器,发送的待处理数据,即执行步骤412:发送待处理数据。该数据通过服务器上的ETL工具中的执行代码创建的数据处理模型进行数据处理,从而实现数据仓库中数据治理引擎的数据处理。将处理后的数据发送至第四设备404,如上游的数据服务器,进行数据接收,即执行步骤413:发送处理后的数据。
此处未详细记载的内容可以参考前文所述的内容,就不再赘述。
在上述本实施例中,第一设备401、第二设备402、第三设备403以及第四设备404进行网络连接。若第一设备401、第二设备402、第三设备403以及第四设备404是通信连接,该移动网络的网络制式可以为2G(GSM)、2.5G(GPRS)、3G(WCDMA、TD-SCDMA、CDMA2000、UTMS)、4G(LTE)、4G+(LTE+)、WiMax、5G等中的任意一种。
图5为本申请一示例性实施例提供的一种数据的处理装置的结构框架示意图。该装置500可以应用于终端设备,如电脑。该装置500包括:确定模块501、生成模块502;以下针对各个模块的功能进行详细的阐述:
确定模块501,用于确定待处理数据与对应基准数据元之间的映射关系。
其中,基准数据元用于标识待处理数据中实体属性或实体属性集合;
确定模块501,用于从多个预置的处理方式中确定对应的处理方式,用于处理基准数据元对应的数据。
生成模块502,用于根据确定的映射关系以及确定的处理方式,生成对应的执行代码,用于自动处理待处理数据。
具体的,确定模块501,用于确定待处理数据中数据字段与基准数据元之间的映射关系。
此外,该装置500还包括:提供模块,用于提供可视化界面;在可视化界面上配置有多个预置映射关系对应的选择项以及多个预置处理方式的选择项,以供选择。
此外,提供模块,用于提供可视化界面;其中,确定模块501,用于基于可视化界面,响应于映射关系的选择操作,从多个预置映射关系中选择对应的映射关系,以确定映射关系。
具体的,确定模块501,用于基于可视化界面,响应于处理方式的选择操作,从多个预置处理方式中选择对应的处理方式。
此外,该装置500还包括:划分模块,用于根据不同数据接收端所需的基准数据元,划分出多个预置映射关系;展示模块,用于将多个预置映射关系,通过对应的选择项展示在可视化界面上。
具体的,生成模块502,用于根据确定的映射关系、确定的处理方式以及预置执行代码生成模板,生成对应的执行代码。
此外,生成模块502,用于根据执行代码,生成数据处理模型;该装置500还包括:处理模块,用于获取待处理数据,根据数据处理模型,对待处理数据进行处理,得到处理后的数据,处理后的数据符合数据接收端的数据处理标准。
具体的,处理模块,包括:处理单元,用于根据数据处理模型,对待处理数据进行数据字段的处理,使得处理后的数据字段符合基准数据元对应的数据字段;根据数据处理模型,对待处理数据进行数据数值的处理,使得处理后的数据数值符合对应处理方式处理后的数据。
此外,该装置500还包括:下发模块,用于将生成的执行代码下发至执行设备中,以使执行设备上部署的执行工具执行执行代码,对待处理数据进行自动处理。
具体的,确定模块501,用于从预置的数据清洗的处理方式、数据转换的处理方式、数据截取的处理方式和/或数据回填的处理方式中选择对应的处理方式。
本装置500中未能详尽的内容请参考前文所述,就不再赘述。
以上描述了图5所示的装置500的内部功能和结构,在一个可能的设计中,图5所示的装置500的结构可实现为计算设备,如,电脑。如图6所示,该设备600可以包括:存储器601、处理器602;
存储器601,用于存储计算机程序。
处理器602,用于执行计算机程序,以用于:确定待处理数据与对应基准数据元之间的映射关系,基准数据元用于标识待处理数据中实体属性或实体属性集合;从多个预置的处理方式中确定对应的处理方式,用于处理基准数据元对应的数据;根据确定的映射关系以及确定的处理方式,生成对应的执行代码,用于自动处理待处理数据。
具体的,处理器602,具体用于:确定待处理数据中数据字段与基准数据元之间的映射关系。
此外,处理器602,还用于:提供可视化界面;在可视化界面上配置有多个预置映射关系对应的选择项以及多个预置处理方式的选择项,以供选择。
此外,处理器602,还用于:提供可视化界面;其中,处理器602,具体用于:基于可视化界面,响应于映射关系的选择操作,从多个预置映射关系中选择对应的映射关系,以确定映射关系。
具体的,处理器602,具体用于:基于可视化界面,响应于处理方式的选择操作,从多个预置处理方式中选择对应的处理方式。
此外,处理器602,还用于:根据不同数据接收端所需的基准数据元,划分出多个预置映射关系;将多个预置映射关系,通过对应的选择项展示在可视化界面上。
具体的,处理器602,具体用于:根据确定的映射关系、确定的处理方式以及预置执行代码生成模板,生成对应的执行代码。
此外,处理器602,还用于:根据执行代码,生成数据处理模型;获取待处理数据,根据数据处理模型,对待处理数据进行处理,得到处理后的数据,处理后的数据符合数据接收端的数据处理标准。
具体的,处理器602,具体用于:根据数据处理模型,对待处理数据进行数据字段的处理,使得处理后的数据字段符合基准数据元对应的数据字段;根据数据处理模型,对待处理数据进行数据数值的处理,使得处理后的数据数值符合对应处理方式处理后的数据。
此外,该设备600还包括:通信组件,用于将生成的执行代码下发至执行设备中,以使执行设备上部署的执行工具执行执行代码,对待处理数据进行自动处理。
具体的,处理器602,具体用于:从预置的数据清洗的处理方式、数据转换的处理方式、数据截取的处理方式和/或数据回填的处理方式中选择对应的处理方式。
本发明实施例提供了一种计算机存储介质,计算机程序被一个或多个处理器执行时,致使一个或多个处理器实现图1-3方法实施例中一种数据的处理方法的步骤。
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102、103等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程多媒体数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程多媒体数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程多媒体数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程多媒体数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (11)

1.一种数据的处理方法,其特征在于,包括:
确定待处理数据与对应基准数据元之间的映射关系,所述基准数据元用于标识待处理数据中实体属性或实体属性集合;
从多个预置的处理方式中确定对应的处理方式,用于处理所述基准数据元对应的数据;
根据确定的映射关系以及确定的处理方式,生成对应的执行代码,用于自动处理所述待处理数据。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
提供可视化界面;
在所述可视化界面上配置有多个预置映射关系对应的选择项以及多个预置处理方式的选择项,以供选择。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
提供可视化界面;
其中,所述确定待处理数据与对应基准数据元之间的映射关系,包括:
基于所述可视化界面,响应于映射关系的选择操作,从多个预置映射关系中选择对应的映射关系,以确定所述映射关系。
4.根据权利要求1或3所述的方法,其特征在于,所述从多个预置的处理方式中确定对应的处理方式,包括:
基于可视化界面,响应于处理方式的选择操作,从多个预置处理方式中选择对应的处理方式。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据不同数据接收端所需的基准数据元,划分出多个预置映射关系;
将多个预置映射关系,通过对应的选择项展示在所述可视化界面上。
6.根据权利要求1所述的方法,其特征在于,所述根据确定的映射关系以及确定的处理方式,生成对应的执行代码,包括:
根据确定的映射关系、确定的处理方式以及预置执行代码生成模板,生成对应的执行代码。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据执行代码,生成数据处理模型;
获取待处理数据,根据数据处理模型,对所述待处理数据进行处理,得到处理后的数据,处理后的数据符合数据接收端的数据处理标准。
8.根据权利要求7所述的方法,其特征在于,所述根据数据处理模型,对所述待处理数据进行处理,包括:
根据数据处理模型,对所述待处理数据进行数据字段的处理,使得处理后的数据字段符合基准数据元对应的数据字段;
根据数据处理模型,对所述待处理数据进行数据数值的处理,使得处理后的数据数值符合对应处理方式处理后的数据。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将生成的执行代码下发至执行设备中,以使所述执行设备上部署的执行工具执行所述执行代码,对待处理数据进行自动处理。
10.一种计算设备,包括:存储器、处理器;
所述存储器,用于存储计算机程序;
所述处理器,执行所述计算机程序,以用于:
确定待处理数据与对应基准数据元之间的映射关系,所述基准数据元用于标识待处理数据中实体属性或实体属性集合;
从多个预置的处理方式中确定对应的处理方式,用于处理所述基准数据元对应的数据;
根据确定的映射关系以及确定的处理方式,生成对应的执行代码,用于自动处理所述待处理数据。
11.一种存储有计算机程序的计算机可读存储介质,其特征在于,计算机程序被一个或多个处理器执行时,致使所述一个或多个处理器实现权利要求1-9任一项所述方法中的步骤。
CN202111136937.8A 2021-09-27 2021-09-27 数据的处理方法、计算设备及存储介质 Pending CN113986208A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111136937.8A CN113986208A (zh) 2021-09-27 2021-09-27 数据的处理方法、计算设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111136937.8A CN113986208A (zh) 2021-09-27 2021-09-27 数据的处理方法、计算设备及存储介质

Publications (1)

Publication Number Publication Date
CN113986208A true CN113986208A (zh) 2022-01-28

Family

ID=79736885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111136937.8A Pending CN113986208A (zh) 2021-09-27 2021-09-27 数据的处理方法、计算设备及存储介质

Country Status (1)

Country Link
CN (1) CN113986208A (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688659A (zh) * 2017-09-08 2018-02-13 北京奇艺世纪科技有限公司 一种数据处理方法及装置
CN109213902A (zh) * 2017-07-03 2019-01-15 上海全土豆文化传播有限公司 信息处理及展示方法及装置
CN110262901A (zh) * 2019-06-27 2019-09-20 深圳前海微众银行股份有限公司 一种数据处理方法及数据处理***
US20200026691A1 (en) * 2017-03-28 2020-01-23 Alibaba Group Holding Limited Blockchain-based data processing method and device
CN110908746A (zh) * 2019-10-12 2020-03-24 平安银行股份有限公司 一种数据处理方法、***、可读存储介质及终端设备
CN111061733A (zh) * 2019-12-10 2020-04-24 北京明略软件***有限公司 数据处理方法、装置、电子设备和计算机可读存储介质
CN111190750A (zh) * 2019-12-25 2020-05-22 天津幸福生命科技有限公司 一种数据处理方法以及***
CN111209283A (zh) * 2020-01-10 2020-05-29 深圳前海微众银行股份有限公司 一种数据处理方法及装置
CN111580991A (zh) * 2020-05-09 2020-08-25 莱芜职业技术学院 一种计算机数据处理方法和***
US20210042319A1 (en) * 2018-09-30 2021-02-11 Advanced New Technologies Co., Ltd. Data processing method, apparatus, and device
CN112528327A (zh) * 2020-12-08 2021-03-19 杭州数梦工场科技有限公司 数据脱敏方法及装置、数据还原方法及装置
CN112749194A (zh) * 2020-06-03 2021-05-04 腾讯科技(深圳)有限公司 可视化的数据处理方法、装置、电子设备及可读存储介质
CN112948472A (zh) * 2019-11-26 2021-06-11 北京沃东天骏信息技术有限公司 处理数据方法、装置、设备和计算机可读介质
CN113032532A (zh) * 2021-05-21 2021-06-25 杭州未名信科科技有限公司 基于健康医疗大数据标准库的多源数据处理方法与***
CN113296786A (zh) * 2021-05-31 2021-08-24 上海米哈游璃月科技有限公司 数据处理方法、装置、电子设备及存储介质
CN113434527A (zh) * 2021-07-07 2021-09-24 北京京东振世信息技术有限公司 数据处理的方法、装置、电子设备和存储介质

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200026691A1 (en) * 2017-03-28 2020-01-23 Alibaba Group Holding Limited Blockchain-based data processing method and device
CN109213902A (zh) * 2017-07-03 2019-01-15 上海全土豆文化传播有限公司 信息处理及展示方法及装置
CN107688659A (zh) * 2017-09-08 2018-02-13 北京奇艺世纪科技有限公司 一种数据处理方法及装置
US20210042319A1 (en) * 2018-09-30 2021-02-11 Advanced New Technologies Co., Ltd. Data processing method, apparatus, and device
CN110262901A (zh) * 2019-06-27 2019-09-20 深圳前海微众银行股份有限公司 一种数据处理方法及数据处理***
CN110908746A (zh) * 2019-10-12 2020-03-24 平安银行股份有限公司 一种数据处理方法、***、可读存储介质及终端设备
CN112948472A (zh) * 2019-11-26 2021-06-11 北京沃东天骏信息技术有限公司 处理数据方法、装置、设备和计算机可读介质
CN111061733A (zh) * 2019-12-10 2020-04-24 北京明略软件***有限公司 数据处理方法、装置、电子设备和计算机可读存储介质
CN111190750A (zh) * 2019-12-25 2020-05-22 天津幸福生命科技有限公司 一种数据处理方法以及***
CN111209283A (zh) * 2020-01-10 2020-05-29 深圳前海微众银行股份有限公司 一种数据处理方法及装置
CN111580991A (zh) * 2020-05-09 2020-08-25 莱芜职业技术学院 一种计算机数据处理方法和***
CN112749194A (zh) * 2020-06-03 2021-05-04 腾讯科技(深圳)有限公司 可视化的数据处理方法、装置、电子设备及可读存储介质
CN112528327A (zh) * 2020-12-08 2021-03-19 杭州数梦工场科技有限公司 数据脱敏方法及装置、数据还原方法及装置
CN113032532A (zh) * 2021-05-21 2021-06-25 杭州未名信科科技有限公司 基于健康医疗大数据标准库的多源数据处理方法与***
CN113296786A (zh) * 2021-05-31 2021-08-24 上海米哈游璃月科技有限公司 数据处理方法、装置、电子设备及存储介质
CN113434527A (zh) * 2021-07-07 2021-09-24 北京京东振世信息技术有限公司 数据处理的方法、装置、电子设备和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JOANNAWHEREVER: "数据挖掘 — 数据预处理之 数据挖掘 — 数据预处理之 数据清洗及数据转换数据清洗及数据转换", pages 1 - 6, Retrieved from the Internet <URL:《https://zhuanlan.zhihu.com/p/301194325》> *
洪自强: "基于Docker的私有云存储的设计与实现", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, 15 March 2018 (2018-03-15), pages 137 - 47 *
魏玲: "基于并行处理机制的数据复用策略研究", 《计算机应用研究》, 31 December 2017 (2017-12-31), pages 1 - 6 *

Similar Documents

Publication Publication Date Title
CN108536761B (zh) 报表数据查询方法及服务器
US9875265B2 (en) Database table format conversion based on user data access patterns in a networked computing environment
CN112015739A (zh) 一种数据核验、数据查询方法及装置
CN111367976A (zh) 基于java反射机制的excel文件数据的导出方法及装置
CN111435367B (zh) 知识图谱的构建方法、***、设备及存储介质
CN112860777B (zh) 数据处理方法、装置及设备
CN110889013B (zh) 一种基于xml的数据关联方法、装置、服务器及存储介质
EP4022452A1 (en) Document tracking through version hash linked graphs
CN115599764A (zh) 一种表格数据的迁移方法、设备及介质
CN114371845A (zh) 表单生成方法及装置
CN115617773A (zh) 数据迁移的方法、装置和***
CN117170655A (zh) 一种元数据处理方法、装置、数据处理设备及存储介质
CN110704635B (zh) 一种知识图谱中三元组数据的转换方法及装置
CN111125216A (zh) 数据导入Phoenix的方法及装置
CN116414935A (zh) 一种基于Elastic Search的分布式搜索空间矢量数据的方法
CN113986208A (zh) 数据的处理方法、计算设备及存储介质
CN112491943A (zh) 数据请求方法、装置、存储介质和电子设备
CN109918346A (zh) 一种文件的创建方法及装置
CN113076086B (zh) 元数据管理***和使用其对模型对象进行建模的方法
CN112199930B (zh) 一种根据报表配置自动生成报表的方法和***
CN115129787A (zh) 一种维护区块链数据的方法、装置、电子设备和存储介质
CN111459907B (zh) 通过模型配置主数据的方法、***及存储介质
CN115114321A (zh) 一种动态查询方法及***
CN114816405A (zh) 业务视图界面的展示方法、装置、计算机设备和存储介质
CN113177059A (zh) 撮合平台sql脚本的生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40066798

Country of ref document: HK