CN112905323A - 数据处理方法、装置、电子设备及存储介质 - Google Patents

数据处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112905323A
CN112905323A CN202110180439.7A CN202110180439A CN112905323A CN 112905323 A CN112905323 A CN 112905323A CN 202110180439 A CN202110180439 A CN 202110180439A CN 112905323 A CN112905323 A CN 112905323A
Authority
CN
China
Prior art keywords
data
project
processing
task
processing result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110180439.7A
Other languages
English (en)
Other versions
CN112905323B (zh
Inventor
王玉涛
李惠敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taikang Life Insurance Co ltd
Taikang Insurance Group Co Ltd
Original Assignee
Taikang Life Insurance Co ltd
Taikang Insurance Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taikang Life Insurance Co ltd, Taikang Insurance Group Co Ltd filed Critical Taikang Life Insurance Co ltd
Priority to CN202110180439.7A priority Critical patent/CN112905323B/zh
Publication of CN112905323A publication Critical patent/CN112905323A/zh
Application granted granted Critical
Publication of CN112905323B publication Critical patent/CN112905323B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Stored Programmes (AREA)

Abstract

本申请提供的一种数据处理方法、装置、电子设备及存储介质,应用于计算机技术领域,所述方法包括:从各核心***获取源数据;查询各项目任务相对应的功能算法;调用所述功能算法所指示的预设算子对所述源数据进行多线程处理,得到所述各项目任务相对应的处理结果;生成所述处理结果的可视化处理结果;在接收到用户客户端发送给目标数据接口的接入请求时,向所述客户端发送所述目标数据接口相对应的项目任务的可视化处理结果。本方案避免了多个项目任务执行需要从核心***频繁调用和相同功能算法的重复存储的情况,提高了项目任务处理的效率,使得用户可以便捷且直观地查看项目任务的处理结果。

Description

数据处理方法、装置、电子设备及存储介质
技术领域
本申请属于计算机技术领域,特别是涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术
随着保险行业的飞速发展,对于保险行业数据的监管需求也不断增加,并且保险公司自身对于业务数据的应用需求也日益提高。
而目前的保险公司由于各核心***中的业务存储分散,关联性不高,导致对于业务数据的项目任务往往是从各核心***独立抽取源数据,然后独立在不同的平台分别完成数据处理过程后提供给客户端,这种方式由于任务分散,因此对于核心***的源数据的调用频繁,导致核心***需要重复将源数据提供给多个数据库,而多个数据库也需要分别对相同的源数据进行重复存储,不仅使得项目任务在执行的过程中浪费了大量的数据资源,而且有繁琐的调用和存储流程降低了项目任务的执行效率。
发明内容
有鉴于此,本申请提供一种数据处理方法、装置、电子设备及存储介质,以解决现有技术中由于项目任务执行分散,对于核心***的源数据的调用频繁,导致核心***需要重复将源数据提供给多个数据库以及在多个数据库进行重复存储,不仅使得项目任务在执行的过程中浪费了大量的数据资源,而且由于繁琐的调用和存储流程降低了项目任务的执行效率的问题。
本申请第一方面提供一种数据处理方法,应用于数据管理平台,所述方法包括:
从各核心***获取源数据;
查询各项目任务相对应的功能算法;
调用所述功能算法所指示的预设算子对所述源数据进行多线程处理,得到所述各项目任务相对应的处理结果;
生成所述处理结果的可视化处理结果;
在接收到用户客户端发送给目标数据接口的接入请求时,向所述客户端发送所述目标数据接口相对应的项目任务的可视化处理结果。
可选地,所述功能算法包括:预设算子标识、预设算子组合规则;所述调用所述功能算法所指示的预设算子对所述源数据进行多线程处理,得到所述各项目任务相对应的处理结果,包括:
调用各所述预设算子标识相对应的预设算子,以构建符合所述预设算子组合规则的多个任务线程;
采用并行的方式执行所述多个任务线程,得到所述各项目任务相对应的处理结果。
可选地,所述调用各所述预设算子标识相对应的预设算子,以构建符合所述预设算子组合规则的多个任务线程,包括:
调用各所述预设算子标识相对应的预设算子,并将所述各预设算子按照所述预设算子组合规则进行封装,得到所述各项目任务相对应的项目组件;
基于各所述项目组件构建所述各项目任务相对应的多个任务线程。
可选地,在所述调用各项目任务相对应的功能算法对所述源数据进行多线程处理之前,所述方法还包括:
接收至少两个开发客户端对于所述功能算法发送的开发代码;
根据至少两个所述开发代码,并行执行对于所述功能算法的迭代流程。
可选地,在所述根据至少两个所述开发代码,并行执行对于所述功能算法的迭代流程之后,所述方法还包括:
在所述对于所述功能算法的迭代流程执行完成时,按照第一预设方式输出完成提示信息;
在所述对于所述功能算法的迭代流程执行报错时,按照第二预设方式输出报错提示信息。
可选地,在所述根据至少两个所述开发代码,并行执行对于所述功能算法的迭代流程之前,所述方法还包括:
对所述功能算法进行备份。
可选地,所述从各核心***获取源数据,包括:
将从各核心***获取到的源数据按照目标预处理方式进行处理,其中,所述目标预处理方式包括:数据清洗、格式转换、数据整合中的至少一种。
可选地,所述从各核心***获取源数据,包括:
从预先构建的连接池中获取与各核心***的连接线程;
通过所述各核心***的连接线程获取各核心***中的源数据。
可选地,在所述从所述源数据中提取与各项目任务相对应的目标源数据之前,所述方法还包括:
接收任务配置信息;
根据所述任务配置信息编辑项目任务。
依据本申请的第二方面,提供的一种数据处理装置,应用于数据管理平台,所述装置包括:
获取模块,被配置为从各核心***获取源数据;
查询模块,被配置为查询各项目任务相对应的功能算法;
处理模块,被配置为调用所述功能算法所指示的预设算子对所述源数据进行多线程处理,得到所述各项目任务相对应的处理结果;
生成模块,被配置为生成所述处理结果的可视化处理结果;
输出模块,被配置为在接收到用户客户端发送给目标数据接口的接入请求时,向所述客户端发送所述目标数据接口相对应的项目任务的可视化处理结果。
可选地,所述功能算法包括:预设算子标识、预设算子组合规则;所述处理模块,还被配置为:
调用各所述预设算子标识相对应的预设算子,以构建符合所述预设算子组合规则的多个任务线程;
采用并行的方式执行所述多个任务线程,得到所述各项目任务相对应的处理结果。
可选地,所述处理模块,还被配置为:
调用各所述预设算子标识相对应的预设算子,并将所述各预设算子按照所述预设算子组合规则进行封装,得到所述各项目任务相对应的项目组件;
基于各所述项目组件构建所述各项目任务相对应的多个任务线程。
可选地,所述装置还包括:
开发模块,被配置为:
接收至少两个开发客户端对于所述功能算法发送的开发代码;
根据至少两个所述开发代码,并行执行对于所述功能算法的迭代流程。
可选地,所述开发模块,还被配置为:
在所述对于所述功能算法的迭代流程执行完成时,按照第一预设方式输出完成提示信息;
在所述对于所述功能算法的迭代流程执行报错时,按照第二预设方式输出报错提示信息。
可选地,所述开发模块,还被配置为:
对所述功能算法进行备份。
可选地,所述获取模块,还被配置为:
将从各核心***获取到的源数据按照目标预处理方式进行处理,其中,所述目标预处理方式包括:数据清洗、格式转换、数据整合中的至少一种。
可选地,所述获取模块,还被配置为:
从预先构建的连接池中获取与各核心***的连接线程;
通过所述各核心***的连接线程获取各核心***中的源数据。
可选地,所述装置还包括:任务配置模块,被配置为:
接收任务配置信息;
根据所述任务配置信息编辑项目任务。
依据本申请第三方面,提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一方面所述的数据处理方法。
依据本申请第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述任一方面所述的数据处理方法。
针对现有技术,本申请具备如下优点:
本申请提供的一种数据处理方法、装置、电子设备及存储介质,本方案通过将各核心***的源数据汇总到数据管理平台进行存储,通过数据管理平台中的已有算子对各项目任务进行处理,提供各项目任务的数据接口供用户客户端接入查看处理结果的可视化视图,避免了多个项目任务执行需要从核心***频繁调用和相同功能算法的重复存储的情况,提高了项目任务处理的效率,使得用户可以便捷且直观地查看项目任务的处理结果。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本申请实施例提供的一种数据处理方法的步骤流程图;
图2是本申请实施例提供的另一种数据处理方法的步骤流程图;
图3是本申请实施例提供的再一种数据处理方法的步骤流程图;
图4是本申请实施例提供的一种项目任务的编辑方法的步骤流程图;
图5是本申请实施例提供一种数据处理方法的数据传输示意图
图6是本申请实施例提供的一种数据处理装置的结构框图;
图7是本申请实施例提供的一种电子设备的结构框图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
图1是本申请实施例提供的一种数据处理方法的步骤流程图,应用于数据管理平台,所述方法包括:
步骤101,从各核心***获取源数据。
在本申请实施例中,数据管理平台是用于对各核心***中的源数据进行统一管理并将源数据进行处理后提供给客户端的***平台,可以是基于Hadoop(是一种由Apache基金会所开发的分布式***基础架构)的大数据平台,得益于Hadoop在处理速度、可扩展性、成本效益以及容错能力的优势,对于核心***中的海量数据可以实现多线程算法处理,可以高效地完成对于源数据的准备工作。源数据是指核心***中日常运行所产生的各种指标参数。相对于现有技术中核心***的源数据被多个平台提取并使用的方案,本方案可以减少核心***中源数据被调用的次数,从而减少核心***的数据传输压力。
步骤102,查询各项目任务相对应的功能算法。
在本申请实施例中,项目任务预先在数据管理平台中设置有功能算法,并且数据管理平台存储有各种项目任务与功能算法的对应关系,从而在需要对项目任务进行处理时,依据该对应关系即可确定所需的功能算法。
步骤103,调用所述功能算法所指示的预设算子对所述源数据进行多线程处理,得到所述各项目任务相对应的处理结果。
在本申请实施例中,预设预设算子是数据管理平台中预先设置的算法,例如:数学运算算子、数组运算算子和神经网络运算算子,数学运算算子可以包括加法、减法、除法和梯度计算等算子,数组运算可以包括串接、并接、差分和排序等算子,神经网络算法可以包括分类器、激活函数、归一化等算子,此处仅是示例性说明,具体算子的类型和作用可以根据实际需求设置,此处不做限定。开发人员可以基于预设算法进行组合来开发各项目任务的功能算法,相对于现有技术中开发人员需要对功能算法进行整体开发的方案,本方案通过提供预设预设使得开发人员可以直接使用所需的预设算子来组合开发功能算法,通过预设算子复用的方式,避免了数据管理平台中对于重复存储相同功能的算法代码,可以有效减少数据管理平台中所需存储的算法代码。项目任务是对于源数据进行处理的任务,例如参照特定规则对源数据进行筛选,或者是对源数据按照特定数据架构进行整合等等,具体可以根据实际需求设置,此处不做限定。各项目任务中指定有所需处理的目标源数据的数据标识,从而可以根据该数据标识从数据管理平台中预先获取的源数据中提取所需的目标源数据,无需再从存储该目标源数据的核心***中单独提取,可以有效减少执行项目任务的数据准备工作所需的工作量,从而提高执行项目任务的效率。
在本申请实施例中,功能算法是项目任务中包括的数据处理算法。各项目任务在执行前,会预先开发有功能算法,从而在项目任务执行时,通过功能算法对项目任务相对应的源数据进行加工,从而得到项目任务所需的处理结果。由于Hadoop支持多线程并行处理,因此在存在多个项目任务时,也可以是同时通过多线程并行对多个项目任务同时进行处理,从而提高项目任务的执行效率。
步骤104,生成所述处理结果的可视化处理结果。
在本申请实施例中,处理结果的可视化处理结果是通过可视化工具对处理结果的数据图像化处理得到,相较于处理结果可读性差的特点,转换得到的可视化处理结果可以使得用户直观地了解到处理结果的情况。
步骤105,在接收到客户端发送给目标数据接口的接入请求时,向所述客户端发送所述目标数据接口相对应的项目任务的可视化处理结果。
在本申请实施例中,用户客户端可以是例如用于数据监管、数据分析、数据报送等功能的应用客户端,具体可以根据实际需求确定,此处不做限定。各项目任务与目标数据接口之间的对应关系可以是在项目任务生成时预先设置的,也可以是在项目任务生成后设置的。具体的,用户客户端可通过数据管理平台提供的对应与各项目任务的不同数据接口来接入数据管理平台查看所接入目标数据接口所对应的项目任务的可视化处理结果,例如:接入企业内部监管报送接口可查看企业内部数据的可视化传输路径图、接入企业内部经营分析接口可查看企业内部经营数据的可视化分析图表、接入代理人接口可查看代理人信息的可视化描述图、接入客户接口可查看客户信息的可视化描述图等,对于接口的权限和功能具体可以根据实际需求设置,此处不做限定。
本申请提供的一种数据处理方法,通过将各核心***的源数据汇总到数据管理平台进行存储,通过数据管理平台中的已有算子对各项目任务进行处理,提供各项目任务的数据接口供用户客户端接入查看处理结果的可视化视图,避免了多个项目任务执行需要从核心***频繁调用和相同功能算法的重复存储的情况,提高了项目任务处理的效率,使得用户可以便捷且直观地查看项目任务的处理结果。
图2是本申请实施例提供的另一种数据处理方法的步骤流程图,应用于数据管理平台,所述方法包括:
步骤201,从预先构建的连接池中获取与各核心***的连接线程。
步骤202,通过所述各核心***的连接线程获取各核心***中的源数据。
在本申请实施例中,对于步骤201和步骤202,连接池是指预先设置有数据管理平台与各核心***之间的连接线程的池化结构。通过预先构建数据管理平台和各核心***的数据库之间的连接池,可以在每次需要从核心***的数据库中获取数据时直接从连接池中获取连接线程执行数据获取过程,无需单独构建连接,并且通过连接池还可以对数据管理平台与核心***之间的连接随时进行开关,从而对核心***和数据管理平台之间的通信连接进行灵活管理。
步骤203,将从各核心***获取到的源数据按照目标预处理方式进行处理,其中,所述目标预处理方式包括:数据清洗、格式转换、数据整合中的至少一种。
在本申请实施例中,由于各核心***中的源数据的数据格式不一定相同,为了便于数据管理平台进行统一管理,可以在获取源数据后对数据进行数据清洗、格式转换和数据整合等预处理操作。数据清洗是指发现并纠正数据文件中可识别的错误,包括检查数据一致性,处理无效值和缺失值等,格式转换是将源数据的格式转换成数据管理平台的指定格式,该指定格式具体可以根据实际需求设置,数据整合是把在从不同数据源获取的数据加载到一个新的数据源,为数据消费者提供统一数据视图的数据集成方式。具体可以通过Informatica(一种数据管理软件)来对源数据进行处理。
本申请实施例通过将各核心***的获取的源数据进行数据清洗、格式转换和数据整合后存储在数据管理平台,使得数据管理平台可以更加高效地对不同核心***的数据进行管理。
步骤204,接收至少两个开发客户端对于所述功能算法发送的开发代码。
在本申请实施例中,开发客户端用于对数据管理平台中的算法进行设计开发的客户端,通常是被开发人员使用。开发代码是用于对功能算法进行迭代操作的代码。数据管理平台中可以基于GitLab(一个用于仓库管理***的开源项目,使用Git作为代码管理工具,并在此基础上搭建起来的web服务)构建多人协同作业环境,从而可以使得多个开发人员在各自的开发客户端对数据管理平台中的功能算法进行协同开发、测试和上线等操作。具体的,通过开发人员可以在开发客户端获取功能算法,并对功能算法编写开发代码后提供给数据管理平台,数据管理平台根据接收到的开发代码对功能算法进行迭代,从而实现对于功能算法的协同开发。
步骤205,对所述功能算法进行备份。
在本申请实施例中,为了保证算法开发的可追溯性,数据管理平台可在对功能算法进行编辑前,通过HDFS(Hadoop Distributed File System,分布式文件***)进行数据备份。
步骤206,根据至少两个所述开发代码,并行执行对于所述功能算法的迭代流程。
在本申请实施例中,可以通过预先搭建的Sparkcode(计算引擎代码)和SparkSQI(计算引擎数据库)功能环境,从而依据开发代码对Spark(计算引擎)的功能代码进行加工,实现对于Spark功能代码的开发,并将加工完成后的功能算法通过Sqoop(一款开源的工具,用于在Hadoop与传统的数据库间进行数据的传递)的形式导入HIVE(基于Hadoop的一个数据仓库工具)进行存储。
步骤207,在所述对于所述功能算法的迭代流程执行完成时,按照第一预设方式输出完成提示信息。
在本申请实施例中,第一预设方式可以是音频、视频、图像等形式的提示提示方式,具体可以根据实际需求确定,此处不做限定。通过DB2(一套关系型数据库管理***)数据在算法编辑完成后向开发客户端报送完成提示信息。
步骤208,通过可视化工具对编辑后的所述功能算法进行可视化处理,得到编辑后的功能算法的可视化效果图。
在本申请实施例中,可视化工具是用于将算法代码处理生成可视化效果图的形式的工具,例如将对于某界面的开发代码生成该界面的效果图等。
步骤209,向所述至少两个开发客户端发送所述可视化效果图。
在本申请实施例中,通过将可视化效果图发送给开发客户端,可以使得开发人员及时观看到编辑后的功能算法的效果。
步骤210,在所述对于所述功能算法的迭代流程执行报错时,按照第二预设方式输出报错提示信息。
在本申请实施例中,第二预设方式可以是音频、视频、图像等形式的提示提示方式,或者是通过邮件或者电话形式向开发客户端相对应的开发人员发送报错提示信息,以使得开发人员可以及时对报错的功能算法进行调整,具体可以根据实际需求确定,此处不做限定。可以通过Jenkins(一个可扩展的自动化服务器)来对编辑后的功能算法进行调度和执行,从而在执行报错后向开发客户端发送报错提示信息。
步骤211,查询各项目任务相对应的功能算法。
该步骤可参照步骤102的详细描述,此处不再赘述。
步骤212,调用各所述预设算子标识相对应的预设算子,以构建符合所述预设算子组合规则的多个任务线程。
在本申请实施例中,预设算子标识可以用于指示各预设算子的接口函数,也可以用于指示预设算子的接口函数的标识,只要可以依靠预设算子标识查询到所需的预设算子的存储位置即可,此处不做限定。预设算子组合规则是用于指示调用不同预设算子的顺序、每次调用的预设算子的类型、预设算子所需处理的对象等预设算子实际使用时的运算规则。通过按照所述预设算子组合规则来将调用到的预设算子来构建任务线程,即可开始对项目任务所需处理的数据进行处理。
步骤213,采用并行的方式执行所述多个任务线程,得到所述各项目任务相对应的处理结果。
在本申请实施例中,并行的方式是指将多个项目任务的任务线程分值至处理集群中各不同节点同时进行处理,从而可以提高对于项目任务的执行过程的执行效率。
可选地,参照图3,所述步骤212,可以包括:
子步骤2121,调用各所述预设算子标识相对应的预设算子,并将所述各预设算子按照所述预设算子组合规则进行封装,得到所述各项目任务相对应的项目组件。
子步骤2122,基于各所述项目组件构建所述各项目任务相对应的多个任务线程。
在本申请实施例中,在对项目任务进行处理时,可以通过调用预设算子相对应的算子来按照预设算子组合规则将多个预设算子进行封装,从而可以得到处理项目任务的项目组件,该项目组件中由于封装有处理项目任务的预设算子,因此直接分配运行线程给各项目组件,即可构建各项目任务相对应的项目线程,从而通过运行线程来获取各项目任务相对应的处理结果。通过这种方式可以无需每次处理项目任务时调用预设算子,而是直接使用封装得到的项目组件来构建任务线程,从而减少了预设算子的调用次数,减少了处理项目任务所需的处理资源。
步骤214,生成所述处理结果的可视化处理结果。
该步骤可参照步骤104的详细描述,此处不再赘述。
步骤215,在接收到用户客户端发送给目标数据接口的接入请求时,向所述客户端发送所述目标数据接口相对应的项目任务的可视化处理结果。
该步骤可参照步骤105的详细描述,此处不再赘述。
可选地,参照图4,在所述步骤201之前,所述方法还包括:
步骤216,接收任务配置信息。
步骤217,根据所述任务配置信息编辑项目任务。
在本申请实施例中,得益于Hadoop的可扩展性,可以在数据管理平台中预留有可扩展模块,从而通过可扩展模块根据任务配置信息进行对项目数据进行增减,提高了数据管理平台的可扩展性。
本申请实施例通过依据任务配置信息对项目任务进行灵活配置,从而可以实现项目任务的实时编辑,提高了项目任务的编辑效率,使得项目任务的提供的处理结果更加准确。
参照图5,示出本申请实施例提供的一种数据处理方法的数据传输示意图,其中,用户客户端可以提供权限管理、内部监管报送接口、内部数据经营分析接口、代理人接口、客户或征信接口和可扩展功能等功能服务,并且可通过管控端对数据管理平台与客户端之间的任务监控、数据安全、数据接入等过程进行管理。而数据管理平台通过依据所设置的多个项目任务将从核心***获取到的源数据进行数据清洗、数据整合等数据预处理操作后存储到数据管理平台的Hadoop数据库中,并且设置用于执行项目任务的线程,通过连接池将源数据导入至基于Spark的功能环境中采用多线程并行对多个项目任务的源数据采用Spark算子组成的功能算法进行处理后,将得到的处理结果输出至用户客户端,并且还可以在算法开发的过程中将将编辑后的功能算法进通过Sqoop的形式导入HIVE数据库中,该HIVE数据库也可以支持与Spark功能环境之间的数据冷备,也就是离线数据备份。并且还可以通过基于GitLab的多人协同开发平台对Spark功能进行编辑,以实现对功能算法的编辑,并在编辑后通过Jenkins调用执行,在执行成功或失败后发送提示信息,以及通过DB2数据库报送执行情况。并且还可以通过可扩展模块实现随时增加实时采集、缓存、计数器等功能的项目任务。
本申请提供的另一种数据处理方法,通过将各核心***的源数据汇总到数据管理平台进行存储,通过数据管理平台中的已有算子对各项目任务进行处理,提供各项目任务的数据接口供用户客户端接入查看处理结果的可视化视图,避免了多个项目任务执行需要从核心***频繁调用和相同功能算法的重复存储的情况,提高了项目任务处理的效率,使得用户可以便捷且直观地查看项目任务的处理结果。并且还通过提供多人协同开发功能提高了项目任务中算法开发的灵活性。并且还通过预留可扩展模块使得数据管理平台可以适应更多需求。并且还通过自动报送算法执行情况,减少了数据监控的成本。并且还通过将获取到的数据进行数据清洗和数据整合等数据预处理操作,提高了数据管理平台中数据的质量。
图6是本申请实施例提供的一种数据处理装置30的结构示意图,应用于数据管理平台,所述装置包括:
获取模块301,被配置为从各核心***获取源数据;
查询模块302,被配置为查询各项目任务相对应的功能算法;
处理模块303,被配置为调用所述功能算法所指示的预设算子对所述源数据进行多线程处理,得到所述各项目任务相对应的处理结果;
生成模块304,被配置为生成所述处理结果的可视化处理结果;
输出模块305,被配置为在接收到用户客户端发送给目标数据接口的接入请求时,向所述客户端发送所述目标数据接口相对应的项目任务的可视化处理结果。
可选地,所述功能算法包括:预设算子标识、预设算子组合规则;所述处理模块303,还被配置为:
调用各所述预设算子标识相对应的预设算子,以构建符合所述预设算子组合规则的多个任务线程;
采用并行的方式执行所述多个任务线程,得到所述各项目任务相对应的处理结果。
可选地,所述处理模块303,还被配置为:
调用各所述预设算子标识相对应的预设算子,并将所述各预设算子按照所述预设算子组合规则进行封装,得到所述各项目任务相对应的项目组件;
基于各所述项目组件构建所述各项目任务相对应的多个任务线程。
可选地,所述装置还包括:
开发模块,被配置为:
接收至少两个开发客户端对于所述功能算法发送的开发代码;
根据至少两个所述开发代码,并行执行对于所述功能算法的迭代流程。
可选地,所述开发模块,还被配置为:
在所述对于所述功能算法的迭代流程执行完成时,按照第一预设方式输出完成提示信息;
在所述对于所述功能算法的迭代流程执行报错时,按照第二预设方式输出报错提示信息。
可选地,所述开发模块,还被配置为:
对所述功能算法进行备份。
可选地,所述获取模块301,还被配置为:
将从各核心***获取到的源数据按照目标预处理方式进行处理,其中,所述目标预处理方式包括:数据清洗、格式转换、数据整合中的至少一种。
可选地,所述获取模块301,还被配置为:
从预先构建的连接池中获取与各核心***的连接线程;
通过所述各核心***的连接线程获取各核心***中的源数据。
可选地,所述装置还包括:任务配置模块,被配置为:
接收任务配置信息;
根据所述任务配置信息编辑项目任务。
本申请提供的一种数据处理装置,通过将各核心***的源数据汇总到数据管理平台进行存储,通过数据管理平台中的已有算子对各项目任务进行处理,提供各项目任务的数据接口供用户客户端接入查看处理结果的可视化视图,避免了多个项目任务执行需要从核心***频繁调用和相同功能算法的重复存储的情况,提高了项目任务处理的效率,使得用户可以便捷且直观地查看项目任务的处理结果。
对于上述服务器的实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例还提供了一种电子设备,如图7所示,包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信,
存储器403,用于存放计算机程序;
处理器401,用于执行存储器403上所存放的程序时,实现上述任一数据处理方法的步骤。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的数据处理方法。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的数据处理方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。

Claims (10)

1.一种数据处理方法,其特征在于,应用于数据管理平台,所述方法包括:
从各核心***获取源数据;
查询各项目任务相对应的功能算法;
调用所述功能算法所指示的预设算子对所述源数据进行多线程处理,得到所述各项目任务相对应的处理结果;
生成所述处理结果的可视化处理结果;
在接收到用户客户端发送给目标数据接口的接入请求时,向所述客户端发送所述目标数据接口相对应的项目任务的可视化处理结果。
2.根据权利要求1所述的方法,其特征在于,所述功能算法包括:预设算子标识、预设算子组合规则;所述调用所述功能算法所指示的预设算子对所述源数据进行多线程处理,得到所述各项目任务相对应的处理结果,包括:
调用各所述预设算子标识相对应的预设算子,以构建符合所述预设算子组合规则的多个任务线程;
采用并行的方式执行所述多个任务线程,得到所述各项目任务相对应的处理结果。
3.根据权利要求2所述的方法,其特征在于,所述调用各所述预设算子标识相对应的预设算子,以构建符合所述预设算子组合规则的多个任务线程,包括:
调用各所述预设算子标识相对应的预设算子,并将所述各预设算子按照所述预设算子组合规则进行封装,得到所述各项目任务相对应的项目组件;
基于各所述项目组件构建所述各项目任务相对应的多个任务线程。
4.根据权利要求1所述的方法,其特征在于,在所述调用各项目任务相对应的功能算法对所述源数据进行多线程处理之前,所述方法还包括:
接收至少两个开发客户端对于所述功能算法发送的开发代码;
根据至少两个所述开发代码,并行执行对于所述功能算法的迭代流程。
5.根据权利要求3所述的方法,其特征在于,在所述根据至少两个所述开发代码,并行执行对于所述功能算法的迭代流程之后,所述方法还包括:
在所述对于所述功能算法的迭代流程执行完成时,按照第一预设方式输出完成提示信息;
在所述对于所述功能算法的迭代流程执行报错时,按照第二预设方式输出报错提示信息。
6.根据权利要求3所述的方法,其特征在于,在所述根据至少两个所述开发代码,并行执行对于所述功能算法的迭代流程之前,所述方法还包括:
对所述功能算法进行备份。
7.根据权利要求1所述的方法,其特征在于,所述从各核心***获取源数据,包括:
从预先构建的连接池中获取与各核心***的连接线程;
通过所述各核心***的连接线程获取各核心***中的源数据。
8.一种数据处理装置,其特征在于,应用于数据管理平台,所述装置包括:
获取模块,被配置为从各核心***获取源数据;
查询模块,被配置为查询各项目任务相对应的功能算法;
处理模块,被配置为调用所述功能算法所指示的预设算子对所述源数据进行多线程处理,得到所述各项目任务相对应的处理结果;
生成模块,被配置为生成所述处理结果的可视化处理结果;
输出模块,被配置为在接收到用户客户端发送给目标数据接口的接入请求时,向所述客户端发送所述目标数据接口相对应的项目任务的可视化处理结果。
9.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7中任一所述的数据处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现权利要求1至7中任一所述的数据处理方法。
CN202110180439.7A 2021-02-09 2021-02-09 数据处理方法、装置、电子设备及存储介质 Active CN112905323B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110180439.7A CN112905323B (zh) 2021-02-09 2021-02-09 数据处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110180439.7A CN112905323B (zh) 2021-02-09 2021-02-09 数据处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112905323A true CN112905323A (zh) 2021-06-04
CN112905323B CN112905323B (zh) 2023-10-27

Family

ID=76123224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110180439.7A Active CN112905323B (zh) 2021-02-09 2021-02-09 数据处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112905323B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114201156A (zh) * 2021-12-10 2022-03-18 北京百度网讯科技有限公司 接入方法、装置、电子设备及计算机存储介质
CN114327818A (zh) * 2021-12-23 2022-04-12 广州钛动科技有限公司 一种算法调度方法、装置、设备及可读存储介质
CN115202851A (zh) * 2022-09-13 2022-10-18 创新奇智(浙江)科技有限公司 数据任务执行***及数据任务执行方法
CN117093640A (zh) * 2023-10-18 2023-11-21 上海柯林布瑞信息技术有限公司 基于池化技术的数据抽取方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169505A (zh) * 2011-05-16 2011-08-31 苏州两江科技有限公司 基于云计算的推荐***构建方法
CN110659999A (zh) * 2019-08-30 2020-01-07 中国人民财产保险股份有限公司 一种数据处理方法、装置及电子设备
US20210004642A1 (en) * 2019-07-02 2021-01-07 Beijing Baidu Netcom Science Technology Co., Ltd. Ai capability research and development platform and data processing method
CN112199441A (zh) * 2020-09-28 2021-01-08 中国平安人寿保险股份有限公司 基于大数据平台的数据同步处理方法、装置、设备及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169505A (zh) * 2011-05-16 2011-08-31 苏州两江科技有限公司 基于云计算的推荐***构建方法
US20210004642A1 (en) * 2019-07-02 2021-01-07 Beijing Baidu Netcom Science Technology Co., Ltd. Ai capability research and development platform and data processing method
CN110659999A (zh) * 2019-08-30 2020-01-07 中国人民财产保险股份有限公司 一种数据处理方法、装置及电子设备
CN112199441A (zh) * 2020-09-28 2021-01-08 中国平安人寿保险股份有限公司 基于大数据平台的数据同步处理方法、装置、设备及介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114201156A (zh) * 2021-12-10 2022-03-18 北京百度网讯科技有限公司 接入方法、装置、电子设备及计算机存储介质
CN114201156B (zh) * 2021-12-10 2022-08-05 北京百度网讯科技有限公司 接入方法、装置、电子设备及计算机存储介质
CN114327818A (zh) * 2021-12-23 2022-04-12 广州钛动科技有限公司 一种算法调度方法、装置、设备及可读存储介质
CN114327818B (zh) * 2021-12-23 2024-03-26 广州钛动科技有限公司 一种算法调度方法、装置、设备及可读存储介质
CN115202851A (zh) * 2022-09-13 2022-10-18 创新奇智(浙江)科技有限公司 数据任务执行***及数据任务执行方法
CN117093640A (zh) * 2023-10-18 2023-11-21 上海柯林布瑞信息技术有限公司 基于池化技术的数据抽取方法及装置
CN117093640B (zh) * 2023-10-18 2024-01-23 上海柯林布瑞信息技术有限公司 基于池化技术的数据抽取方法及装置

Also Published As

Publication number Publication date
CN112905323B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN112905323B (zh) 数据处理方法、装置、电子设备及存储介质
US10776107B2 (en) Microservice-based data processing apparatus, method, and program
CN110471949B (zh) 数据血缘分析方法、装置、***、服务器及存储介质
CN109344170B (zh) 流数据处理方法、***、电子设备及可读存储介质
CN109669976B (zh) 基于etl的数据服务方法及设备
CN111400288A (zh) 数据质量检查方法及***
CN110956269A (zh) 数据模型的生成方法、装置、设备以及计算机存储介质
CN115374102A (zh) 数据处理方法及***
CN112214505B (zh) 数据同步方法、装置、计算机可读存储介质及电子设备
CN113760677A (zh) 异常链路分析方法、装置、设备及存储介质
CN112465446A (zh) 工单数据的处理方法、装置、电子设备及存储介质
US10482268B1 (en) Systems and methods for access management
US20220044144A1 (en) Real time model cascades and derived feature hierarchy
CN109271431B (zh) 数据抽取方法、装置、计算机设备及存储介质
CN113672497B (zh) 无埋点事件的生成方法、装置、设备及存储介质
CN111078764A (zh) 数据处理方法、装置、计算机可读存储介质及电子设备
CN114090268B (zh) 容器管理方法及容器管理***
CN111277425A (zh) 集中化数据传输管理的装置
CN112132544B (zh) 业务***的巡检方法及装置
US9606892B2 (en) Workfile monitor
CN113612832A (zh) 流式数据分发方法与***
CN117076546B (zh) 数据处理方法、终端设备及计算机可读存储介质
CN116860859B (zh) 一种多源异构数据的接口创建方法、装置及电子设备
CN113238839B (zh) 一种基于云计算数据管理方法及装置
US10936571B1 (en) Undo based logical rewind in a multi-tenant system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant