CN112131289A - 数据处理方法、装置、电子设备及存储介质 - Google Patents

数据处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112131289A
CN112131289A CN202010827529.6A CN202010827529A CN112131289A CN 112131289 A CN112131289 A CN 112131289A CN 202010827529 A CN202010827529 A CN 202010827529A CN 112131289 A CN112131289 A CN 112131289A
Authority
CN
China
Prior art keywords
data
adapter
metadata
item
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010827529.6A
Other languages
English (en)
Inventor
冯曦
黄安武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Kuangshi Jinzhi Technology Co ltd
Beijing Kuangshi Technology Co Ltd
Beijing Megvii Technology Co Ltd
Original Assignee
Wuhan Kuangshi Jinzhi Technology Co ltd
Beijing Kuangshi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Kuangshi Jinzhi Technology Co ltd, Beijing Kuangshi Technology Co Ltd filed Critical Wuhan Kuangshi Jinzhi Technology Co ltd
Priority to CN202010827529.6A priority Critical patent/CN112131289A/zh
Publication of CN112131289A publication Critical patent/CN112131289A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/541Interprogram communication via adapters, e.g. between incompatible applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种数据处理方法、装置、电子设备及存储介质,所述方法包括:对待处理数据进行初步处理,获得元数据项目和与所述元数据项目各自对应的元数据内容;通过所述元数据项目对应的预设适配器组合,对所述元数据项目对应的元数据内容进行解析;将解析后的数据内容填充到预设模板,并将填充后的模板导出至指定存储空间。采用发明实施例的技术方案,可以对多种不同文件格式的数据源的数据进行处理和导出,并可以满足用户的个性化需求。

Description

数据处理方法、装置、电子设备及存储介质
技术领域
本发明涉及数据处理技术领域,特别是涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术
目前,需要从多个数据源中导出所需的数据,一般需要从采用不同文件格式的数据源中导出特定的列的数据,例如,从Excel文件格式、txt文件格式以及csv文件格式的数据源中导出所需要的数据。
相关技术中,比较常用的数据导出方式是:通过设置于应用***中的导出按钮,一键导出该应用***的数据库中相应格式的数据。但是这样的方式,一方面只能针对几种特定文件格式的数据源进行数据导出,即只能针对特定的数据结构进行数据导出,无法灵活适应多种文件格式的数据源。另一方面导出后的数据的格式有可能并不符合用户的需求,还需要用户进行人工修改,从而降低了数据导出的效率。
发明内容
鉴于上述问题,提出了本发明实施例提出了一种数据处理方法、装置、电子设备及存储介质,以便克服上述问题或者至少部分地解决上述问题。
本发明实施例的第一方面,提供了一种数据处理方法,所述方法包括:
对待处理数据进行初步处理,获得元数据项目和与所述元数据项目对应的元数据内容;
通过所述元数据项目对应的预设适配器组合,对所述元数据项目对应的元数据内容进行解析;
将解析后的数据内容填充到预设模板,并将填充后的模板导出至指定存储空间。
可选地,在对待处理数据进行初步处理之前,所述方法还包括:
响应于检测到的数据导出请求,对所述数据导出请求进行解析,确定所述待处理数据所属的目标数据源的存储路径;
按照所述目标数据源的存储路径,从所述目标数据源中读取所述待处理数据。
可选地,对待处理数据进行初步处理,获得元数据项目和与所述元数据项目对应的元数据内容,包括:
确定所述待处理数据所属的目标数据源的类型;
按照所述目标数据源的类型对应的转换方式,对所述待处理数据进行转换,得到所述元数据项目和所述元数据项目对应的元数据内容。
可选地,所述元数据项目对应的预设适配器组合包括多个相连的适配器;通过所述元数据项目对应的预设适配器组合,对所述元数据项目对应的元数据内容进行解析,包括:
将所述元数据项目对应的元数据内容输入到所述元数据项目对应的预设适配器组合中的一个或多个输入适配器,所述输入适配器为不存在与其相邻的上游适配器的适配器;
通过所述元数据项目对应的预设适配器组合中的每个适配器,按照该适配器内置的预设转换规则,对输入到该适配器的数据内容进行内容转换,并在存在与该适配器相邻的下游适配器的情况下,将转换后得到的数据内容作为与该适配器相邻的下游适配器的输入;
将通过所述元数据项目对应的预设适配器组合中的一个或多个输出适配器转换后得到的数据内容,确定为解析后的数据内容和数据项目,所述输出适配器为不存在与其相邻的下游适配器的适配器。
可选地,将解析后的数据内容填充到预设模板,包括:
在所述预设模板的类型是数据文件模板的情况下,将解析后的数据内容填充到所述解析后的数据项目对应的列表项中,得到数据文件;所述数据文件模板包含至少一个列表项;
和/或,在所述预设模板的类型为图片文件模板的情况下,根据所述图片文件模板包括的多个预设命名项,确定对应的多个输出项,将解析后的数据内容填充到对应的输出项中,得到图片输出文件,其中,一个预设命名项的名称对应于一个输出项的名称。
可选地,所述预设适配器组合中的适配器包括以下至少一者:身份证适配器、手机号适配器、时间适配器、字典数据适配器、图片适配器、关联数据适配器;
所述身份证适配器的输入端连接至少两个元数据项目,其中一个元数据项目是死亡标识项目,另一个元数据项目是身份证号码项目,所述身份证适配器的输出端连接至少两个输出项,其中一个输出项为出生日期输出项,另一个输出项是性别输出项;
所述手机号适配器的输入端连接包括手机号项目在内的至少一个元数据项目,所述手机号适配器的输出端连接至少两个输出项,其中一个输出项为归属地输出项,另一个输出项是手机号所属的通信网络输出项;
所述时间适配器的输入端连接至少一种类型的元数据项目,所述时间适配器的输出端连接至少一种数据类型的输出项;
所述字典数据适配器用于按照预设的逻辑表达式和/或按照预设的截取表达式,对输入的元数据项目对应的元数据内容进行编辑,并输出编辑后的元数据内容;
所述图片适配器用于根据所连接的元数据项目对应的原图片存储地址信息,获取原图片,对所述原图片进行处理,并输出处理后的图片的存储地址信息;
所述关联数据适配器用于根据所连接的元数据项目对应的元数据内容,获取与所述元数据内容关联的其他元数据内容。
本发明实施例的第二方面,提供了一种数据处理装置,包括:
处理模块,用于对待处理数据进行初步处理,获得元数据项目和与所述元数据项目对应的元数据内容;
解析模块,用于通过所述元数据项目对应的预设适配器组合,对所述元数据项目对应的元数据内容进行解析;
导出模块,用于将解析后的数据内容填充到预设模板,并将填充后的模板导出至指定存储空间。
本发明实施例的第三方面,还公开了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本实施例第一方面所述的数据处理方法。
本发明实施例的第四方面,还公开了一种计算机可读存储介质,其存储的计算机程序使得处理器执行如本发明实施例第一方面所述的数据处理方法。
在本发明实施例中,可以对待处理数据进行初步处理,获得元数据项目和与所述元数据项目对应的元数据内容;并通过元数据项目对应的预设适配器组合,对元数据项目对应的元数据内容进行解析;之后,将解析后的数据内容填充到预设模板,并将填充后的模板导出至指定存储空间。
本发明实施例至少包括以下优点:
一方面,由于对待处理数据进行了初步处理,从而得到了统一的元数据项目和与元数据项目各自对应的元数据内容,因此,可以对来源于不同数据源的不同数据结构的数据转换成统一的数据结构,从而可以对多种不同文件格式的数据源的数据进行处理和导出。
另一方面,由于通过与元数据项目对应的预设适配器组合对相应的元数据内容进了解析,并将解析后的数据内容填充到预设模板。这样,用户可以根据自身需求选择相应的适配器,进而可以通过所选择的适配器,将元数据内容解析为用户所需要的数据格式的内容,以使导出的数据格式满足用户个性化的需求,能被用户直接使用,避免用户人为对导出后的数据进行再次编辑修改,从而优化了用户体验,提高了数据导出效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中的实施环境图;
图2是本发明一实施例的数据导出工具的框架示意图;
图3是本发明一实施例中数据处理方法的步骤流程图;
图4是本发明一实施例中不同预设适配器组合与元数据项目的映射关系示意图;
图5是本发明一实施例中预设适配器组合对元数据内容进行解析的步骤流程图;
图6是本发明一实施例中数据文件模板中的各个列表项与解析后的数据项目的一种映射关系图;
图7是本发明一实施例中将预设适配器组合所输出的各数据内容、数据项目填充到数据文件模板后的示意图;
图8是本发明一实施例中图片文件模板中的各个预设命名项与各解析后的数据项目的映射关系图;
图9是本发明一实施例中将预设适配器组合所输出的各数据内容填充到图片文件模板后的示意图;
图10是本发明一实施例中数据处理装置的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
相关技术中的数据导出存在以下三个问题:
一是针对的数据源的文件格式较为单一,要么只能单纯的导出xls文件,当需要图片文件时,图片只能嵌套在xls文件的某列当中,但是当用户想xls和图片分离时,却往往难以做到。
二是数据导出的灵活性较差,若用户想导出csv文件、或者pdt文件,往往难以满足,需要人为地手动将Excel文件通过其他工具再做一次转换,比较麻烦且格式难以统一。
三是导出后的数据的格式无法满足用户的需求。例如,对于“年龄男女”用户想用英文的Female/Male展示,再或者金额的格式有的地方想避免错误,想用大写的数字进行标识,多数工具无法根据用户需要实现符合用户习惯方式的导出方式。
有鉴于此,本发明提出了至少解决上述一个问题的以下核心构思之一:对待处理数据进行初步处理,以将待处理数据转换为元数据项目和与元数据项目对应的元数据内容,之后,通过元数据项目对应的预设适配器组合,对元数据内容进行解析,从而将解析得到的数据内容填充到预设模板。一方面,通过初步处理,使得对不同数据结构的数据源的数据转换为统一的数据结构;另一方面,通过与各元数据项目对应的预设适配器组合,可以将元数据内容解析为符合用户所需的数据格式的数据内容,从而使得导出后的数据符合用户的需求。
参照图1所示,示出了本申请实施例的实施环境图,如图1所示,包括终端设备101,在终端设备101上配置有数据导出工具102。其中,数据导出工具102可以从多个数据源103中获取数据,数据源103可以包括位于终端设备101中(即本地存储空间)的数据源1至数据源3,也可以包括位于互联网中的服务器中的数据源4或其他终端设备中的数据源5。
参照图2所示,示出了本申请实施例的数据导出工具101的框架示意图,包括数据源配置模块、数据处理模块、数据内容解析模块以及数据导出模块。其中,上述模块之间的交互可以如图2中的箭头所示。
结合图2,对本申请实施例的整体构思简要阐述如下:
在需要导出数据时,用户可以在数据源配置模块中配置数据源的路径,这样,数据导出工具可以按照所配置的路径从相应的数据源中获取数据。数据处理模块可以用于将从相应的数据源中获取的不同数据结构的数据进行处理,以转换为统一格式的数据结构。数据内容解析模块可以用于将统一格式的数据送入相应的适配器进行转换,最后通过数据导出模块,将适配器输出的数据内容导出到预设模板中的相应位置。
其中,在进行数据导出时,用户可以预先在数据源配置模块中配置好数据的数据获取路径、在数据适配器模块中选择所需要的适配器从而构成适配器组合,在用户确定完成以上配置后即是表示用户发出了数据导出请求,从而数据导出工具可以按照用户所配置的数据获取路径和所选择的适配器组合,进行数据的导出。
在对本申请的数据处理方法进行介绍前,首先对本申请如何配置数据获取路径进行介绍。
如图2所示,数据源配置模块中包括了三种类型的数据源,分别是关系型数据库、HTTP接口的数据源和本地的数据文件。其中,在配置数据获取路径时,针对不同文件格式的数据源,其在配置数据获取路径时所采用的语句可以不同,在具体实施时:
若是HTTP接口的数据源,则用户所配置的数据获取路径是数据源的HTTP地址;若是Ftp数据源,用户所配置的数据获取路径是Ftp的地址,Ftp用户名和密码端口号等信息;若是Oracle、Mysql或者DB2等关系型数据库,则所配置的数据获取路径是数据库地址、数据库用户名和密码、以及正确的可查询数据的Sql语句。
其中,不同数据源进行数据获取路径的配置的过程如下:
对于HTTP接口的数据源而言,该HTTP接口中的数据一般是存储在网络服务器中的数据。因此在配置数据获取地址时,该数据获取地址可以包括:URL地址,还可以包括相关的配置项,如请求头、分页标志及每页大小、数据类型、数据项标志等。其中,数据类型可以包括JSON类型、XML类型。数据项标志用于基于数据类型,对每行数据进行标记。
其中,部分数据请求需要设置在请求头配置TOKEN,若不需要可忽略此配置项。其中,若向HTTP数据源请求的数据量大时,可以设置分页标志和分页大小,以通过分页方式分多次从HTTP数据源获取数据,每次请求的数据的数据量的大小不超过设置的分页大小。
对于关系型数据库的数据源而言,该关系型数据库中存储的数据一般位于数据库中。因此在配置数据获取地址时,该数据获取地址可以包括:数据库的IP地址、数据库端口号(若没提供,则使用该类型数据库默认端口号)、数据库用户名和密码。当然,还可以包括相关的配置项,如SQL查询语句。其中,SQL查询语句用于从关系型数据库中查询到所需的数据。
对于以本地存储的数据文件为数据源而言,该数据源中存储的均是本地的数据文件,例如,存储到终端设备101的硬盘中的文件。此种情况下,在配置数据获取地址时,该数据获取地址可以包括:文件地址,还可以包括相关的配置项,如文件类型、表头、数据分隔符等。
其中,数据文件可以分为FTP文件和本地文件,其中,FTP文件是指存储到空间平台上的文件,可以理解为是存储到相应的云端的文件,此种情况下,文件地址可以包括FTP地址、用户名、密码以及文件的绝对路径。而在数据文件是本地文件的情况下,文件地址即为文件在终端设备101中的存储路径。
其中,配置项中的文件类型包括“文本文件”和“EXCEL文件”两种文件类型。表头是指将数据文件中的第一行数据作为元数据项目;若无表头,则表示使用默认元数据项目。在文件类型为文本文件的情况下,数据分隔符若用于对数据内容进行划分,例如,将数据内容“姓名张三”用分隔符“/”划分为“姓名/张三”,以划分出代表不同含义的数据内容。
在配置好数据获取路径进行数据导出时,便可以先从相应的数据源获取待处理数据。如图2所示,数据导出工具从各个数据源获取待处理数据的具体过程如下:响应于检测到数据导出请求,对所述数据导出请求进行解析,确定所述待处理数据所属的目标数据源的存储路径;按照所述目标数据源的存储路径,从所述目标数据源中读取所述待处理数据。
本实施例中,目标数据源可以是以下数据源中的至少一种:Oracle数据源、Mysql数据源、HTTP接口的数据源、Ftp数据源以及本地文件数据源。其中,数据导出请求可以是用户确定完成数据获取路径和适配器的配置后产生的,其中,待处理数据是指存储在数据源中需要被导出的数据,待处理数据所属的目标数据源的存储路径即为配置的数据获取路径。
实际中,该数据导出请求中可以携带数据获取路径和相关的配置项,进而数据导出工具可以对数据导出请求进行解析,以获取数据获取路径,从而按照数据获取路径,从相应的目标数据源中读取出待处理数据。
在从目标数据源获取到待处理数据后,便可以对待处理数据进行处理,以向用户输出用户所期望的数据。参照图3所示,示出了一实施例中数据处理方法的步骤流程图,如图3所示,对获取到的待处理数据进行处理的过程具体如下:
步骤S301:对待处理数据进行初步处理,获得元数据项目和与所述元数据项目对应的元数据内容。
实际中,由于不同的数据源可能是不同的文件格式(如JSON格式、XML格式),从而从不同的数据源获取到的待处理数据可以具有不同的数据结构。本实施例中,对待处理数据进行初步处理可以是指:将具有不同数据结构的待处理数据转换为元数据模型的数据,元数据模型是一种数据结构,其主要由元数据项目和元数据内容构成。其中,元数据项目表示数据的属性名称,元数据内容表示数据属性对应的具体值,元数据内容具有多种数据类型:字符串类型,布尔类型,整数类型,浮点类型。
示例地,若待处理数据是JSON格式的数据结构,则可以将JSON的属性名称,如username、userAge、isEnabled、averageValue作为元数据项目,将username对应的值"Tom",userAge对应的值18,isEnabled对应的值true,averageValue对应的值98.72作为元数据内容。若待处理数据是数据文件类型的数据结构,如果包含表头,则可以将表头定义的名称作为元数据项目;如果无表头,则可以将每一列作为元数据项目,如Col[1],Col[2],……。
步骤S302:通过所述元数据项目对应的预设适配器组合,对所述元数据项目对应的元数据内容进行解析。
本实施例中,预设适配器组合中可以包括至少一种适配器,至少一种适配器可以相互连接从而组合为适配器组合。其中,预设适配器组合中的不同适配器可以用于将同一元数据项目对应的元数据内容解析为不同格式的数据,以将同一数据内容进行多元化的呈现。例如,对于元数据项目“出生日期”,其元数据内容是“1956年11月13日”的时间,则对于不同的适配器,可以将该时间解析为年龄“64”(数值格式)的数据内容,或者解析为“老年”(文本格式)的数据内容。
具体实施时,至少一种适配器之间的连接关系可以构成对元数据项目对应的元数据内容进行解析的解析路径,则可以按照解析路径,利用解析路径上设置的各适配器对元数据项目对应的元数据内容进行解析。其中,一种适配器可以对应至少一个元数据项目。
其中,在对元数据内容进行解析时,预设适配器组合中的每个适配器可以根据预先配置的转换规则,将输入至该适配器的数据内容转换为含义相同但是表现形式不同的单个或多个输出项,即输出的单个或多个输出项所表征的含义与输入的数据内容所表征的含义相同,但是输出项的数据格式与数据内容的数据格式不同,从而可以将元数据内容按照用户需求进行多元化的呈现。
例如,输入的数据内容是UNIX时间戳格式的数据,通过适配器的解析后输出的输出项是如“yyyy年MM月dd日HH时mm分ss秒”的字符串时间格式,从而符合用户的阅读习惯。
本实施例中,利用预设适配器组合中的适配器,可以将每一元数据项目对应的元数据内容均进行相应的转换,从而将元数据内容转换为用户所需的数据格式的数据,进而满足用户的需求。
步骤S303:将解析后的数据内容填充到预设模板,并将填充后的模板导出至指定存储空间。
本实施例中,解析后的数据内容即为预设适配器组合中各个适配器所输出的输出项,其中,可以包括多个解析后的数据内容,即包括多个输出项。预设模板可以是指根据预设适配器组合的单个或多个输出项而定义出的导出模板。
其中,该预设模板可以包括用于填充各解析后的数据内容的位置,具体实施时,可以通过映射模块将解析得到的各个数据内容与预设模板中的相应位置进行映射,从而形成各个数据内容与预设模板中各个位置的对应关系,进而,根据该对应关系,将解析后的数据内容填充到预设模板。
本实施例中,可以预先设置导出数据的存储路径,则在将各数据内容填充到预设模板后,可以按照存储路径,将填充后的模板导出至指定存储空间。
采用本发明实施例的技术方案,一方面,由于对待处理数据进行了初步处理,从而将具有不同数据结构的待处理数据整理为统一的元数据模型,因此,可以对来源于不同数据源的不同文件格式的数据转换成统一的文件格式,从而可以对多种不同文件格式的数据源的数据进行处理和导出。另一方面,由于通过与元数据项目对应的预设适配器组合对相应的元数据内容进了解析,并将解析后的数据内容填充到预设模板。这样,用户可以根据自身需求选择相应的适配器,进而可以通过所选择的适配器,将元数据内容解析为用户所需要的数据格式的内容,以使导出的数据格式满足用户需求,能被用户直接使用,避免用户人为对导出后的数据进行再次编辑修改,从而优化了用户体验,提高了数据导出效率。
下面,对数据初步处理的过程、对元数据内容进行解析的过程、以及将解析后的数据内容填充到预设模板的过程进行分别详细阐述。
其中,在一种实施方式中,示出了对待处理数据进行初步处理的过程,在对待处理数据进行初步处理,获得元数据项目和与所述元数据项目各自对应的元数据内容时,可以确定所述待处理数据所属的目标数据源的类型;并按照所述目标数据源的类型对应的转换方式,对所述待处理数据进行转换,得到所述元数据项目和所述元数据项目对应的元数据内容。
本实施方式中,初步处理是指将具有不同数据结构的待处理数据转换为元数据模型的过程,其中,在将不同数据结构的待处理数据转换为元数据模型的数据的过程中,可以依据待处理数据所属的目标数据源的类型进行转换,即,不同类型的目标数据源,可以对应不同的转换方式。
具体实施时,对于数据库类型的目标数据源,此种情况下,其得到的待处理数据可以是通过SQL语句,如“SELECT t.code,t.name,t.age,t.birth from table t limit 5,10”查询到的数据,则可以将查询到的待处理数据中的每一列数据作为元数据项目,每一行数据为元数据内容。
对于HTTP类型的目标数据源,其获取到的待处理数据可以为JSON格式、XML格式,则又可以根据不同的数据格式,对待处理数据进行相应的转换。若待处理数据是JSON格式的数据,例如,为如下数据:
Figure BDA0002636762730000111
则可以使用JAVA开发的FastJson转换JSON类型的待处理数据,将name和age作为元数据的项目,后边的值“李四”、“28”作为元数据内容。
若待处理数据是XML格式的数据,例如是如下数据:
Figure BDA0002636762730000112
其中,<name>、<age>是在配置数据获取路径时所配置的数据项标志,标志哪些行被自己所包含。例如,<name>张三</name>表示“张三”被<name>所包含。则可以使用SAX和DOM方式转换XML类型的待处理数据,将数据项标志作为元数据项目,被数据项标志包含的内容为元数据内容。
对于数据文件类型的目标数据源,获取到的待处理数据的类型可以是本地的文本文件类型或者本地的Excel文件类型。
其中,对于文本文件类型的待处理数据,一般以TXT文件类型、CSV文件类型等为主,这些文件存储的数据是每一行为一条数据,通过换行区分数据条目,每一列数据用特殊符号进行分隔,以CSV、逗号分隔值文件格式为例:张三,男,14,桥梁工程师。每一列是以逗号分隔、以其他特殊符合,如空格(),制表符(\t),竖线(|)等符合隔开的数据。则得到一个数据列的集合Col[n],n表示列的数量,则每一列为元数据内容,定义为Col[1],Col[2],…。其中,若配置了第一行为标题,则元数据的项目为第一行Col[n]的内容;如果没有配置,则默认使用COL[1],COL[2],COL[3]作为元数据项目。
其中,对于Excel文件类型的待处理数据,可以在进行获取路径配置的时候,配置具体获取哪些列的数据,则从本地文件中导出的便是所配置的列的数据,例如,配置的是第N列至第M列作为导出数据,则获取到的是本地文件中第N列至第M列的数据,则可以将第N列至第M列中的每列内容即集合Col[n]为元数据内容,n表示列的数据,则每一列为元数据内容,定义为Col[1],Col[2]……。当然,若在进行获取路径配置的时,配置了第一行为标题,则待处理数据中第一行Col[n]的内容作为元数据项目;其余情况下,可以默认使用COL[1],COL[2],COL[3]作为元数据项目。
采用上述实施方式时,可以对从不同的目标数据源中所获取的待处理数据,依据目标数据源的类型进行相应的转换,这样,可以对不同数据源中获取到的数据的结果均转换为元数据模型的数据结构,从而可以适应多种数据源。
接下来,对元数据内容进行解析的过程进行说明,首先,对本申请所使用的预设适配器组合进行详细介绍。
如图2所示,本实施例中的多种适配器可以包括:身份证适配器、手机号适配器、时间适配器、字典数据适配器、图片适配器、关联数据适配器,则预设适配器组合可以包括以上多种适配器中的至少一种,下面,对每种适配器进行介绍:
其中,所述身份证适配器的输入端连接至少两个元数据项目,其中一个元数据项目是死亡标识项目,另一个元数据项目是身份证号码项目,所述身份证适配器的输出端连接至少两个输出项,其中一个输出项为出生日期输出项,另一个输出项是性别输出项。
由于身份证适配器的一个元数据项目是死亡标识项目,另一个元数据项目是身份证号码项目。对于身份证号码项目,可以根据身份证号码的定义规则,解析出省份信息、城市信息、区县信息、出生年月日信息、归属派出所信息、性别信息,该信息可以选取单个或多个作为输出项。对于死亡标识项目,如果死亡标识为True,则不会做解析工作,并且所有的输出项为空。
其中,所述手机号适配器的输入端连接包括手机号项目在内的至少一个元数据项目,所述手机号适配器的输出端连接至少两个输出项,其中一个输出项为归属地输出项,另一个输出项是手机号所属的通信网络输出项。
当然,手机号码适配器也可以对输入的手机号码解析出移动用户所归属的移动通信网信息,比如***、中国电信、***、以及归属地信息等。实际中,可以选取以上单个或多个信息作为输出项。
其中,所述时间适配器的输入端连接至少一种类型的元数据项目,所述时间适配器的输出端连接至少一种数据类型的输出项。
对于时间适配器所连接的元数据项目可以是时间类型的元数据项目,具体可以包括UNIX时间戳格式、字符串时间格式,其中字符串时间格式如“yyyy年MM月dd日HH时mm分ss秒”、“yyyy-MM-dd HH:mm:ss”等。时间适配器可以将该元数据项目对应的内容,根据指定的配置规则,转换为多种数据类型的输出项。例如,转换为其它时间格式:如,仅包含年月日的时间格式作为输出项(yyyy-MM-dd)。转换为数字:如,输入项与当前时间,或参照时间相差的值(年数,天数,小时数,秒数),计算两个输入项之间相差的值。转换为其他时区的时间,并可以配置指定的时间格式显示。
所述字典数据适配器用于按照预设的逻辑表达式和/或按照预设的截取表达式,对输入的元数据项目对应的元数据内容进行编辑,并输出编辑后的元数据内容。
其中,对于字典数据适配器,可以根据用户设定的配置,将接入的一个元数据项目的元数据内容的值,转换为另一个值作为输出项,用户所述舍得的配置可以包括逻辑表达式、截取表达式。
对于逻辑表达式
Figure BDA0002636762730000141
而言,包含四个元素,第一是元数据项目(E);第二是逻辑符号(L),包括等于、不等于、大于、小于、包含;第三是参照值(C);第四是输出值(B)。这四个元素结合起来,即将项目值根据逻辑符号
Figure BDA0002636762730000142
与参照值进行逻辑判断(L?C),逻辑判断为真时返回输出值
Figure BDA0002636762730000143
例如:一个表示“性别”的元数据项,逻辑符号为“等于”作为第二元素,参照值有“1”和“0”,输出值有“男”,“女”。当该元数据内容的值等于“1”,输出项为“男”,当值等于“0”,输出项为“女”。
又例如:一个表示“分数”的元数据项,元数据内容的值≥90,输出项为“优”;80≤元数据内容的值<90,输出项为“良”。
对于截取表达式
Figure BDA0002636762730000144
而言,包含三个元素,第一是元数据项目(E);第二是截取函数Sub(a,b),a和b分别起始索引(包含),结束索引(不包含);第三是输出值(B)。这三个元素结合起来,就是将元数据项目对应的元数据内容的值通过截取函数(Sub(a,b)),将值从起点位置(a)截取至结束位置(b)但不包含b位置对应的字符,截取后的值作为返回输出值
Figure BDA0002636762730000145
例如,一个表示“版本信息”的元数据项目,其命名规则例如“v.1.0_20200101_001”,通过截取表达式适配之后,将版本信息中的时间部分作为输出项,则截取函数设置为Sub(6,14),第一位从0开始计算,截取后的值为“20200101”。
其中,所述图片适配器用于根据所连接的元数据项目对应的原图片存储地址信息,获取原图片,对所述原图片进行处理,并输出处理后的图片的存储地址信息。
本实施例中,图片适配器主要用于获取图片,其对应的一个元数据项是可以获取到图片,该适配器可以根据元数据项中原图片存储地址信息,获取到图片,并根据原图片的数据类型将原图片进行转换,实际中,也可以配置图片的大小,分辨率,图片格式,图片存放路径等属性,从而将转换后的图片存储到指定的存储地址中,存储成功后,可以输出所存储的存储地址信息。
其中,图片适配器获取并处理原图片的方法如下:
第一种方式:若原图片存储于数据库中,数据类型为BLOB类型、TEXT类型;其中,BLOB类型是图片以二进制的字节形式存储,TEXT类型是在字节基础上再进行一次BASE64编码之后的字符串存储,则可以使用Java的文件流API将原图片的字节转换成图片,使用Java的sun.misc组件下的BASE64Decoder的API可以对BASE64的字符串解码为字节,然后再使用Java的文件流API转换成图片。
第二种方式:若原图片存储于HTTP网站中,则利用统一资源标识符方式获取原图片。统一资源标识符(Uniform Resource Identifier,URI)是一个用于标识某一互联网资源名称的字符串,其格式:[协议名]://[用户名]:[密码]@[服务器地址]:[服务器端口号]/[路径]?[查询字符串]#[片段ID]。根据接入的元数据项指定的图片URI地址,可获取到图片文件。
其中,所述关联数据适配器用于根据所连接的元数据项目对应的元数据内容,获取与所述元数据内容关联的其他元数据内容。
与所述元数据内容关联的其他元数据内容的含义是,根据接收的一个或多个元数据项,通过配置的SQL查询脚本或HTTP查询接口,获取到其他关联的数据。例如:接收一个表示“部门编码”元数据项,元数据项对应的元数据内容为“01254”,则通过关联数据适配器将查询到的与“01254”对应的部门名称“人力资源部”作为输出项。
具体实施时,对于SQL查询脚本,可以预先配置SQL查询所使用的查询语言,之后关联数据适配器根据输入的元数据内容,将元数据内容作为查询条件,执行该查询语言,从而获得关联的数据。其中,当查询结果有多条数据返回时,可以只取第一条数据。例:接收一个表示“部门编码”的元数据项,项目的属性名为deptCode,需要通过SQL查询脚本获取到“部门名称”这个关联数据,可以设定SQL查询脚本为“SELECT dept.name FROM table_deptdept WHERE dept.code=${deptCode}”。其中${deptCode}表示“部门编码”元数据项的值,查询结果dept.name列的值为该部门的名称,作为输出项。
具体实施时,对于HTTP查询接口而言,可配置接口请求地址URL,请求方法可以是GET或POST,以及响应消息体中一个或多个属性作为输出项。当请求方法为GET时,请求参数写在请求地址URL后面,格式为:http://[服务地址]:[服务端口]/[路径]?[参数名]=${element}。当请求方法为POST时,请求参数可以写在请求地址URL中,可以写在请求消息体中,请求消息体为JSON格式,并通过EL表达式标识哪些属性作为输出项。
例如,当对应一个表示“部门编码”元数据项,项目的属性名为deptCode,请求地址URL:http://127.0.0.1:8080/deptinfo,请求方法为POST,${deptCode}作为请求参数deptCode的值,请求消息体为:
Figure BDA0002636762730000161
如果返回消息体为如下消息体,则表达式${data.deptName}作为输出项,其含义是,从返回消息体中取得属性data下属性deptName的值作为输出值。
Figure BDA0002636762730000162
上述多种适配器可以用于对不同的元数据项目对应的元数据内容进行解析,从上述适配器的描述可知,适配器可以用于将输入的元数据内容根据该元数据内容的属性,将其解析为含义相同但是表现形式不同的数据,即对元数据内容进行了多元化的呈现,从而满足用户的相应需求。
上述对本申请实施例的多种适配器分别进行了介绍,实际中,针对每次的数据导出,数据导出工具可以根据用户在当次所选择的至少一种适配器组合为预设适配器组合。其中,组合预设适配器组合可以是由至少一种适配器之间按照相应的连接关系进行连接而成。这样,预设适配器组合中便包括至少一种适配器,从而可以利用预设适配器组合中的各适配器进行元数据内容的解析。
在一种实施方式中,通过图4和图5对元数据内容的解析过程进行了示意性说明。其中,图4示出了不同预设适配器组合与元数据项目的映射关系示意图,图5示出了预设适配器组合对元数据内容进行解析的步骤流程图。结合图4和图5,对如何通过元数据项目对应的预设适配器组合对元数据项目对应的元数据内容进行解析的过程进行详述如下:
实际中,对待处理数据进行处理后可以得到多个元数据项目,和与多个元数据项目分别对应的元数据内容,相应地,也可以包括多个预设适配器组合,这样,每种预设适配器组合可以对应多个元数据项目中的至少一个元数据项目,其中,不同的元数据项目可以对应不同的预设适配器组合。
参照图4所示,示出了一实施例中,预设适配器组合与元数据项目的对应关系图,由图4可知,通过处理,可得到多个元数据项目,一个预设适配器组合可以对应一个或多个元数据项目,例如,预设适配器组合3可以对应元数据项目A和元数据项目B,预设适配器组合2可以对应元数据项目F和元数据项目G和元数据项目H。
结合图4所示的对应关系图,在具体实施时,预设适配器组合中的至少一种适配器之间的连接关系可以构成对元数据内容进行解析的解析路径,例如,如图4中箭头所指示的路径,则实际中,对于每个元数据项目所对应的元数据内容,均可以按照该元数据项目所对应的预设适配器组合的解析路径,利用解析路径上设置的各适配器对元数据内容进行解析。
参照图5所示,图5示出了本实施方式中利用预设适配器组合对元数据内容进行解析的步骤流程图,具体可以包括以下步骤:
步骤S3021:将所述元数据项目对应的元数据内容输入到所述元数据项目对应的预设适配器组合中的一个或多个输入适配器,所述输入适配器为不存在与其相邻的上游适配器的适配器。
可以理解的是,本实施例所指的相邻是指相连接。
本实施例中,输入适配器不存在与其相邻的上游适配器的适配器可以理解为是该输入适配器是预设适配器组合中位于解析路径的初始端的适配器,如图4所示,对于预设适配器组合3而言,其输入适配器即为适配器3.1,可见,适配器301是解析路径上位于起始点的适配器。
其中,一个预设适配器组合中的输入适配器可以是一个也可以是多个,图4仅示出了输入适配器为单个的情况,但是,根据实际需求,并不排除输入适配器为多个的情况。
本实施例中,对于单个的元数据项目,可以将该元数据项目对应的元数据内容输入到预设适配器组合中的输入适配器中。
步骤S3022:通过所述元数据项目对应的预设适配器组合中的每个适配器,按照该适配器内置的预设转换规则,对输入到该适配器的数据内容进行内容转换,并在存在与该适配器相邻的下游适配器的情况下,将转换后得到的数据内容作为与该适配器相邻的下游适配器的输入。
本实施例中,对于预设适配器组合中的每个适配器,输入到该适配器的数据内容可以是解析路径的上游相邻适配器所输出的数据内容。而该适配器所输出的数据内容,可以作为解析路径的下游相邻的适配器的输入,和/或可以直接作为输出项进行输出。如此,可以理解为预设适配器组合中各个适配器构成的解析路径中可以包括多个路径分支,每一路径分支输出一个输出项。例如,如图4所示,具有三条路径分支,分别为:适配器3.1-适配器3.3,适配器3.1-适配器3.2-适配器3.3、适配器3.1-适配器3.2,则三条路径分支分别输出三个输出项。
实际中,对于预设适配器组合中的一个适配器,其可以将输入的数据内容转换为一个或多个输出项,则一个多个输出项可以全部作为下一适配器的输入或全部作为输出,或者,多个输出项中的部分输出项作为下一适配器的输入、另一部分输出项作为输出。
例如,如图4所示,对于预设适配器组合3.1中的适配器3.2而言,输入到适配器3.2的内容可以是适配器3.1输出的数据内容3.1-1,则适配器3.2可以根据自身配置的预设转换规则对数据内容3.1-1进行转换,进而将转换后的数据3.2-2直接输出,将转换后的数据3.2-1又输入到下游适配器3.3。
其中,每个适配器根据内置的预设转换规则对输入的数据内容进行转换的过程,已在上述对每种适配器的介绍中进行了详细说明,具体过程参照上述对适配器进行介绍的描述即可,在此不再赘述。
步骤S3023:将通过所述元数据项目对应的预设适配器组合中的一个或多个输出适配器转换后得到的数据内容,确定为解析后的数据内容和数据项目,所述输出适配器为不存在与其相邻的下游适配器的适配器。
本实施方式中,预设适配器组合中的输出适配器可以是多个或一个,该输出适配器为不存在与其相邻的下游适配器的适配器可以理解为是:在预设适配器组合的解析路径中位于输出端的适配器,更具体地,可以理解为是位于解析路径中各个路径分支的输出端的适配器,如适配器3.3和适配器3.3均位于路径分支的输出端。
可以理解的是,由于对于预设适配器组合中每个适配器,其可以将输入的数据内容转换为一个或多个输出项,且一个多个输出项可以全部作为下一适配器的输入或全部作为输出,或者,多个输出项中的部分输出项作为下一适配器的输入、另一部分输出项作为输出,则本实施方式中的输出适配器也可以理解为是:在预设适配器组合中可以用于直接将转换后的数据内容进行输出的适配器。
具体实施时,可以将输出适配器转换得到的数据内容作为该预设适配器组合所输出的数据内容。其中,输出适配器在根据内置的转换规则对输入的数据内容进行解析时,也可以一并解析得到数据项目,例如,在对身份证号码“51138219451217****”进行解析时,将身份证号码解析为“1945年12月17日”、“四川”,则也可以输出于输出的数据内容相配套的“出生年月”、“地域”等数据项目。
下面,以图4中的预设适配器组合3为例,对预设适配器组合对元数据内容进行解析的过程进行举例说明:
如图4所示,预设适配器组合3包括身份证适配器3.1、时间适配器3.2、字典适配器3.3。其中,身份证适配器3.1的输出端分别与时间适配器3.2、字典适配器3.3连接,而时间适配器3.2的输出端又与典适配器3.3连接。
首先,元数据项目A为身份证号码、元数据项目B为死亡标识,这二者均作为适配器3.1的输入项。
其中,若身份证适配器3.1校验项目B为true的时候,则它所有的输出项为空。若身份证适配器3.1校验项目B为空或者不为true的时候,则对元数据项目A对应的元数据内容“51138219451217****”进行拆分,生成输出项3.1-1和输出项3.1-2,其中输出项3.1-1为“19451217”,输出项3.1-2为“1”,1表示“男”、2表示“女”。
之后,输出项3.1-1“19451217”经过时间适配器3.2生成输出项3.2-1“65”(年龄),同时,经过时间适配器3.2生成输出项3.2-2“1945年12月17日”(日期格式)。输出项3.2-1“65”经过字典适配器3.3生成输出项3.3-1“老年”(年龄段)。输出项3.1-2“1”(男),经过字典适配器3.3生成输出项3.3-2“男”(性别名称)。
最后,该预设适配器组合3中可以将时间适配器3.2输出的输出项3.2-2“1945年12月17日”、字典适配器3.3输出的输出项3.3-1“老年”、输出项3.3-2“男”作为最终输出的数据内容,并将相配套的数据项目“出生日期”、“年龄段”、“性别”输出。
可见,通过该适配器组合3,可以将身份证号码解析为三个表征不同含义的数据内容,分别是:出生日期的数据内容、性别名称的数据内容、年龄段的数据内容,以多元化呈现一个数据内容,从而满足用户对导出数据在数据格式上的需求。
可以理解的是,上述示例性说明仅为示例,并不代表对本申请的预设适配器组合中适配器种类的限定,实际中,预设适配器组合可以不限于上述三种适配器,也可以是其他种类的适配器,例如,可以是图片适配器,在具有图片适配器的情况下,该图片适配器可以输出所获取的图片在本地中的存储地址信息,后续便可以根据该存储地址信息读取出图片,并输出图片。
接下来,对本申请实施例中将解析后的数据内容填充到预设模板的过程进行阐述。其中,在一种实施方式中,如图2所示,预设模板可以包括两个,一个是用于导出表格数据的数据文件模板,另一个是用于导出图片的图片文件模板,对于两种不同的模板,可以先确定解析后得到的数据内容分别与预设模板中的相应项的映射关系,根据映射关系,将解析后得到的数据内容进行填充,从而完成数据内容的导出。具体地:
在所述预设模板的类型是数据文件模板的情况下,可以将解析后的数据内容填充到所述解析后的数据项目对应的列表项中,得到数据文件。
在所述预设模板的类型为图片文件模板的情况下,可以根据所述图片文件模板包括的多个预设命名项,确定对应的多个输出项,将解析后的数据内容填充到对应的输出项中,得到图片输出文件,其中,一个预设命名项的名称对应于一个输出项的名称。
首先,对于数据文件模板而言,本实施方式中,数据文件模板的文件类型可以是excel文件类型,则该预设模板中可以包括多个列表项,该多个列表项即是用于填充各数据内容的位置。具体地,每一个列表项可以对应文件模板中的一列数据。其中,每一列数据中的第一行可以对应预设适配器组合所解析出的数据项目,而一列数据中的其余行则是对应该数据项目的数据内容。则,可以按照此种对应方式,将预设适配器组合所输出的各数据内容和数据项目进行对应填充。
参照图6所示,示出了数据文件模板中的各个列表项与解析后的数据项目的一种映射关系图。图6中,列表项col[1]--col[9]为对应的列表项,[内容]所在的位置即是需要填充数据内容的位置。
示例地,如图7所示,示出了将预设适配器组合3所输出的各数据内容、数据项目填充到文件模板后的示意图,如图7所示,每一列的第一行对应一个数据项目,比如,F列第一行对应“出生日期”、G列第一行对应“年龄段”、H列第一行对应“性别”;每一列的其余行对应相应的数据内容,比如,F列第二行对应“1945年12月17日”、G列第一行对应“老年”、H列第一行对应“男”。
其次,对于图片文件模板而言,在图片适配器根据相应的元数据项目获取到图片文件后,可以按照图片文件模板,根据预设适配器组合所输出的数据内容为获取到的图片文件进行命名,从而得到图片输出文件。
具体地,图片文件模板可以理解为是:所要导出的图片文件的命名模板,即该图片文件模板用于指示将预设适配器组合所输出的数据内容,按照命名规范的要求进行组合以作为要导出的图片文件的命名。其中,输出项则可以理解为是图片文件模板中的数据填充位置。
具体实施时,图片文件模板可以包括多个预设命名项,多个预设命名项具有先后排列顺序。其中,一个预设命名项可以对应于一个输出项,一个输出项可以对应一个解析后的数据项目,又由于一个解析后的数据项目对应一个相应的解析后的数据内容,这样,可以将解析后的数据内容填充到对应的输出项中,从而得到图片的命名。
如图8所示,示出了图片文件模板中的各个预设命名项与各解析后的数据项目的映射关系图,图8中,Part_1--Part_8为对应的预设命名项所对应的输出项,即填充位置,相邻预设命名项之间可以用分隔符进行分隔,例如采用分隔符“/”进行分割。输出项1.2-1即为解析后的数据项目。
示例地,如图9所示,示出了将预设适配器组合3所输出的各数据内容、数据项目填充到图片文件模板后的示意图,如图9所示,包括三个命名项,分别是“出生日期”、“年龄段”、“性别”,则输出的人物头像的图片的命名为“1945年12月17日.老年.男”。
可见,本申请实施例中,由于预设模板可以包括数据文件模板和图片文件模板,因而,可以对预设适配器组合所解析得到的各数据内容填充到数据文件模板中,进而导出数据文件,例如excel文件,也可以将预设适配器组合所解析得到的各数据内容填充到图片文件模板中,从而可以导出图片文件,因此,实现了数据和图片进行分离导出,优化了用户体验。
并且在导出图片文件时,可以对输出的图片文件进行自动命名,避免人工对输出的图片文件进行命名,从而提高了数据导出效率。
基于相同的发明构思,参照图10所示,示出了本申请实施例的一种数据处理装置的结构示意图,如图10所示,具体可以包括以下模块:
处理模块1001,用于对待处理数据进行初步处理,获得元数据项目和与所述元数据项目对应的元数据内容;
解析模块1002,用于通过所述元数据项目对应的预设适配器组合,对所述元数据项目对应的元数据内容进行解析;
导出模块1003,用于将解析后的数据内容填充到预设模板,并将填充后的模板导出至指定存储空间。
可选地,所述装置还可以包括以下模块:
响应模块,用于响应于检测到的数据导出请求,对所述数据导出请求进行解析,确定所述待处理数据所属的目标数据源的存储路径;
读取模块,用于按照所述目标数据源的存储路径,从所述目标数据源中读取所述待处理数据。
可选地,所述处理模块1001,具体可以包括以下单元:
类型确定单元,用于确定所述待处理数据所属的目标数据源的类型;
转换单元,用于按照所述目标数据源的类型对应的转换方式,对所述待处理数据进行转换,得到所述元数据项目和所述元数据项目对应的元数据内容。
可选地,所述元数据项目对应的预设适配器组合包括多个相连的适配器;所述解析模块1002,具体可以包括以下单元:
输入单元,用于将所述元数据项目对应的元数据内容输入到所述元数据项目对应的预设适配器组合中的一个或多个输入适配器,所述输入适配器为不存在与其相邻的上游适配器的适配器;
转换单元,用于通过所述元数据项目对应的预设适配器组合中的每个适配器,按照该适配器内置的预设转换规则,对输入到该适配器的数据内容进行内容转换,并在存在与该适配器相邻的下游适配器的情况下,将转换后得到的数据内容作为与该适配器相邻的下游适配器的输入;
输出单元,用于将通过所述元数据项目对应的预设适配器组合中的一个或多个输出适配器转换后得到的数据内容,确定为解析后的数据内容和数据项目,所述输出适配器为不存在与其相邻的下游适配器的适配器。
可选地,所述导出模块1003具体可以包括以下单元:
第一导出单元,用于在所述预设模板的类型是数据文件模板的情况下,将解析后的数据内容填充到所述解析后的数据项目对应的列表项中,得到数据文件;
第二导出单元,用于在所述预设模板的类型为图片文件模板的情况下,根据所述图片文件模板包括的多个预设命名项,确定对应的多个输出项,将解析后的数据内容填充到对应的输出项中,得到图片输出文件,其中,一个预设命名项的名称对应于一个输出项的名称。
可选地,所述预设适配器组合包括以下至少一者:身份证适配器、手机号适配器、时间适配器、字典数据适配器、图片适配器、关联数据适配器;其中:
所述身份证适配器的输入端连接至少两个元数据项目,其中一个元数据项目是死亡标识项目,另一个元数据项目是身份证号码项目,所述身份证适配器的输出端连接至少两个输出项,其中一个输出项为出生日期输出项,另一个输出项是性别输出项;
所述手机号适配器的输入端连接包括手机号项目在内的至少一个元数据项目,所述手机号适配器的输出端连接至少两个输出项,其中一个输出项为归属地输出项,另一个输出项是手机号所属的通信网络输出项;
所述时间适配器的输入端连接至少一种类型的元数据项目,所述时间适配器的输出端连接至少一种数据类型的输出项;所述字典数据适配器用于按照预设的逻辑表达式和/或按照预设的截取表达式,对输入的元数据项目对应的元数据内容进行编辑,并输出编辑后的元数据内容;
所述图片适配器用于根据所连接的元数据项目对应的原图片存储地址信息,获取原图片,对所述原图片进行处理,并输出处理后的图片的存储地址信息;
所述关联数据适配器用于根据所连接的元数据项目对应的元数据内容,获取与所述元数据内容关联的其他元数据内容。
对于数据处理装置实施例而言,由于其与数据处理方法实施例基本相似,所以描述的比较简单,相关之处参见数据处理方法实施例的部分说明即可。
本发明实施例还提供了一种电子设备,可以包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述设备执行如本发明实施例所述的一个或多个的数据处理方法。
本发明实施例还提供了一种计算机可读存储介质,其存储的计算机程序使得处理器执行如本发明实施例所述的数据处理方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种数据处理方法、装置、电子设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (9)

1.一种数据处理方法,其特征在于,所述方法包括:
对待处理数据进行初步处理,获得元数据项目和与所述元数据项目对应的元数据内容;
通过所述元数据项目对应的预设适配器组合,对所述元数据项目对应的元数据内容进行解析;
将解析后的数据内容填充到预设模板,并将填充后的模板导出至指定存储空间。
2.根据权利要求1所述的方法,其特征在于,在对待处理数据进行初步处理之前,所述方法还包括:
响应于检测到的数据导出请求,对所述数据导出请求进行解析,确定所述待处理数据所属的目标数据源的存储路径;
按照所述目标数据源的存储路径,从所述目标数据源中读取所述待处理数据。
3.根据权利要求1所述的方法,其特征在于,对待处理数据进行初步处理,获得元数据项目和与所述元数据项目对应的元数据内容,包括:
确定所述待处理数据所属的目标数据源的类型;
按照所述目标数据源的类型对应的转换方式,对所述待处理数据进行转换,得到所述元数据项目和所述元数据项目对应的元数据内容。
4.根据权利要求1-3任一所述的方法,其特征在于,所述元数据项目对应的预设适配器组合包括多个相连的适配器;通过所述元数据项目对应的预设适配器组合,对所述元数据项目对应的元数据内容进行解析,包括:
将所述元数据项目对应的元数据内容输入到所述元数据项目对应的预设适配器组合中的一个或多个输入适配器,所述输入适配器为不存在与其相邻的上游适配器的适配器;
通过所述元数据项目对应的预设适配器组合中的每个适配器,按照该适配器内置的预设转换规则,对输入到该适配器的数据内容进行内容转换,并在存在与该适配器相邻的下游适配器的情况下,将转换后得到的数据内容作为与该适配器相邻的下游适配器的输入;
将通过所述元数据项目对应的预设适配器组合中的一个或多个输出适配器转换后得到的数据内容,确定为解析后的数据内容和数据项目,所述输出适配器为不存在与其相邻的下游适配器的适配器。
5.根据权利要求1-3任一所述的方法,其特征在于,将解析后的数据内容填充到预设模板,包括:
在所述预设模板的类型是数据文件模板的情况下,将解析后的数据内容填充到所述解析后的数据项目对应的列表项中,得到数据文件;所述数据文件模板包含至少一个列表项;
和/或,在所述预设模板的类型为图片文件模板的情况下,根据所述图片文件模板包括的多个预设命名项,确定对应的多个输出项,将解析后的数据内容填充到对应的输出项中,得到图片输出文件,其中,一个预设命名项的名称对应于一个输出项的名称。
6.根据权利要求1-5任一所述的方法,其特征在于,所述预设适配器组合中的适配器包括以下至少一者:身份证适配器、手机号适配器、时间适配器、字典数据适配器、图片适配器、关联数据适配器;
所述身份证适配器的输入端连接至少两个元数据项目,其中一个元数据项目是死亡标识项目,另一个元数据项目是身份证号码项目,所述身份证适配器的输出端连接至少两个输出项,其中一个输出项为出生日期输出项,另一个输出项是性别输出项;
所述手机号适配器的输入端连接包括手机号项目在内的至少一个元数据项目,所述手机号适配器的输出端连接至少两个输出项,其中一个输出项为归属地输出项,另一个输出项是手机号所属的通信网络输出项;
所述时间适配器的输入端连接至少一种类型的元数据项目,所述时间适配器的输出端连接至少一种数据类型的输出项;
所述字典数据适配器用于按照预设的逻辑表达式和/或按照预设的截取表达式,对输入的元数据项目对应的元数据内容进行编辑,并输出编辑后的元数据内容;
所述图片适配器用于根据所连接的元数据项目对应的原图片存储地址信息,获取原图片,对所述原图片进行处理,并输出处理后的图片的存储地址信息;
所述关联数据适配器用于根据所连接的元数据项目对应的元数据内容,获取与所述元数据内容关联的其他元数据内容。
7.一种数据处理装置,其特征在于,所述装置包括:
处理模块,用于对待处理数据进行初步处理,获得元数据项目和与所述元数据项目对应的元数据内容;
解析模块,用于通过所述元数据项目对应的预设适配器组合,对所述元数据项目对应的元数据内容进行解析;
导出模块,用于将解析后的数据内容填充到预设模板,并将填充后的模板导出至指定存储空间。
8.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现如权利要求1-6任一所述的数据处理方法。
9.一种计算机可读存储介质,其特征在于,其存储的计算机程序使得处理器执行如权利要求1-6任一项所述的数据处理方法。
CN202010827529.6A 2020-08-17 2020-08-17 数据处理方法、装置、电子设备及存储介质 Pending CN112131289A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010827529.6A CN112131289A (zh) 2020-08-17 2020-08-17 数据处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010827529.6A CN112131289A (zh) 2020-08-17 2020-08-17 数据处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112131289A true CN112131289A (zh) 2020-12-25

Family

ID=73851690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010827529.6A Pending CN112131289A (zh) 2020-08-17 2020-08-17 数据处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112131289A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114564919A (zh) * 2022-02-17 2022-05-31 成都飞机工业(集团)有限责任公司 无人机控制文件的转换方法、装置、设备及存储介质
CN114880308A (zh) * 2022-07-12 2022-08-09 山东中创软件商用中间件股份有限公司 一种基于大数据的元数据处理方法、装置、介质
CN115168363A (zh) * 2022-07-29 2022-10-11 北京远舢智能科技有限公司 元数据的处理方法、装置、电子设备及存储介质
CN115543584A (zh) * 2022-11-25 2022-12-30 苏州魔视智能科技有限公司 一种数据处理方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110275861A (zh) * 2019-06-25 2019-09-24 北京明略软件***有限公司 数据存储方法及装置、存储介质、电子装置
CN111008211A (zh) * 2019-12-06 2020-04-14 北京百分点信息科技有限公司 可视化接口的创建方法、装置、可读存储介质及电子设备
CN106202452B (zh) * 2016-07-15 2020-05-26 复旦大学 大数据平台的统一数据资源管理***与方法
US20200201865A1 (en) * 2018-12-19 2020-06-25 Sap Se Unified metadata model translation framework

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202452B (zh) * 2016-07-15 2020-05-26 复旦大学 大数据平台的统一数据资源管理***与方法
US20200201865A1 (en) * 2018-12-19 2020-06-25 Sap Se Unified metadata model translation framework
CN110275861A (zh) * 2019-06-25 2019-09-24 北京明略软件***有限公司 数据存储方法及装置、存储介质、电子装置
CN111008211A (zh) * 2019-12-06 2020-04-14 北京百分点信息科技有限公司 可视化接口的创建方法、装置、可读存储介质及电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114564919A (zh) * 2022-02-17 2022-05-31 成都飞机工业(集团)有限责任公司 无人机控制文件的转换方法、装置、设备及存储介质
CN114880308A (zh) * 2022-07-12 2022-08-09 山东中创软件商用中间件股份有限公司 一种基于大数据的元数据处理方法、装置、介质
CN115168363A (zh) * 2022-07-29 2022-10-11 北京远舢智能科技有限公司 元数据的处理方法、装置、电子设备及存储介质
CN115543584A (zh) * 2022-11-25 2022-12-30 苏州魔视智能科技有限公司 一种数据处理方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN112131289A (zh) 数据处理方法、装置、电子设备及存储介质
US20240078386A1 (en) Methods and systems for language-agnostic machine learning in natural language processing using feature extraction
CN109933752B (zh) 一种导出电子文档的方法和装置
CN117056471A (zh) 知识库构建方法及基于生成式大语言模型的问答对话方法和***
CN110781183B (zh) Hive数据库中增量数据的处理方法、装置以及计算机设备
US20100076937A1 (en) Feed processing
CN113626223A (zh) 一种接口调用方法和装置
US20140280352A1 (en) Processing semi-structured data
WO2022134878A1 (zh) 数据处理、查询方法、装置、电子设备及存储介质
US20180300424A1 (en) Systems and methods for providing structured markup content retrievable by a service that provides rich search results
CN112463261B (zh) 接口调用方法、装置、电子设备、介质及产品
JP6095487B2 (ja) 質問応答装置、及び質問応答方法
CN113568923A (zh) 数据库中数据的查询方法和装置、存储介质及电子设备
CN112905178A (zh) 业务功能页面生成方法、装置、设备及介质
CN109614592B (zh) 文本的处理方法、装置、存储介质和电子设备
CN115065945B (zh) 短信链接生成方法、装置、电子设备及存储介质
CN113127776A (zh) 面包屑路径生成方法、装置及终端设备
CN108196921B (zh) 单据开发方法、装置、计算机设备和存储介质
JP2007041983A (ja) 申請書作成プログラムおよび申請書作成装置
CN112149391B (zh) 信息处理方法、信息处理装置、终端设备及存储介质
CN109739923A (zh) 一种数据导入的方法和***
CN113485942B (zh) 一种基于独立模块的自动化测试方法及装置
CN115712411A (zh) 一种自定义流水号的生成方法及装置
CN114968917A (zh) 一种文件数据快速导入方法及装置
CN114860946A (zh) 一种图谱网络的生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination