CN110728118B - 跨数据平台的数据处理方法、装置、设备及存储介质 - Google Patents

跨数据平台的数据处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110728118B
CN110728118B CN201910851205.3A CN201910851205A CN110728118B CN 110728118 B CN110728118 B CN 110728118B CN 201910851205 A CN201910851205 A CN 201910851205A CN 110728118 B CN110728118 B CN 110728118B
Authority
CN
China
Prior art keywords
data
model
service
platform
service data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910851205.3A
Other languages
English (en)
Other versions
CN110728118A (zh
Inventor
蔡昀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN201910851205.3A priority Critical patent/CN110728118B/zh
Publication of CN110728118A publication Critical patent/CN110728118A/zh
Application granted granted Critical
Publication of CN110728118B publication Critical patent/CN110728118B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例提供了一种跨数据平台的数据处理方法、装置、计算机设备及计算机可读存储介质。本申请实施例属于数据处理技术领域,进行数据处理时,方法包括:接收第一业务数据,所述第一业务数据是基于第一数据平台所构建的第一数据模型而产生的;通过模型解析器将所述第一业务数据进行预处理以得到预设格式的第二业务数据;将所述第二业务数据输入基于第二数据平台所构建的第二数据模型;通过所述第二数据模型对所述第二业务数据进行处理以得到数据处理结果,由于第一数据平台和第二数据平台是不同的平台,能够发挥第一数据平台和第二数据平台各自优势,提升了对数据进行处理的效率。

Description

跨数据平台的数据处理方法、装置、设备及存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种跨数据平台的数据处理方法、装置、计算机设备及计算机可读存储介质。
背景技术
传统技术中,模型构建一般基于一种工具或者平台,目前主流建模平台包括SAS平台、SPARK平台或者Tensorflow平台等,但是每种平台都有各自的优势和劣势,采用传统技术进行建模的效率和进度都存在局限,降低了数据处理的效率。
发明内容
本申请实施例提供了一种跨数据平台的数据处理方法、装置、计算机设备及计算机可读存储介质,能够解决传统技术中数据处理效率不高的问题。
第一方面,本申请实施例提供了一种跨数据平台的数据处理方法,所述方法包括接收第一业务数据,所述第一业务数据是基于第一数据平台所构建的第一数据模型而产生的;通过模型解析器将所述第一业务数据进行预处理以得到预设格式的第二业务数据;将所述第二业务数据输入基于第二数据平台所构建的第二数据模型;通过所述第二数据模型对所述第二业务数据进行处理以得到数据处理结果。
第二方面,本申请实施例提供了一种跨数据平台的数据处理装置,所述装置包括:接收单元,用于接收第一业务数据,所述第一业务数据是基于第一数据平台所构建的第一数据模型而产生的;预处理单元,用于通过模型解析器将所述第一业务数据进行预处理以得到预设格式的第二业务数据;输入单元,用于将所述第二业务数据输入基于第二数据平台所构建的第二数据模型;处理单元,用于通过所述第二数据模型对所述第二业务数据进行处理以得到数据处理结果。
第三方面,本申请实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现所述跨数据平台的数据处理方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行所述跨数据平台的数据处理方法的步骤。
本申请实施例提供了一种跨数据平台的数据处理方法、装置、计算机设备及计算机可读存储介质。本申请实施例实现数据处理时,所述方法包括:接收第一业务数据,所述第一业务数据是基于第一数据平台所构建的第一数据模型而产生的,通过模型解析器将所述第一业务数据进行预处理以得到预设格式的第二业务数据,将所述第二业务数据输入基于第二数据平台所构建的第二数据模型,通过所述第二数据模型对所述第二业务数据进行处理以得到数据处理结果,本申请实施例通过第一数据平台对数据进行预处理以得到统一的预设格式的第二业务数据,及第二数据平台对预处理后的第二业务数据进行处理,由于第一数据平台和第二数据平台是不同的平台,从而实现基于跨数据平台以采用复合模型对数据进行处理,能够发挥第一数据平台和第二数据平台各自的计算能力或者丰富的算法能力等优势,提升了复杂场景下对数据进行处理的效率和精度。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的跨数据平台的数据处理方法的一个应用场景示意图;
图2为本申请实施例提供的跨数据平台的数据处理方法的一个示意性流程图;
图3为本申请实施例提供的跨数据平台的数据处理方法的一个子流程的示意性流程图;
图4为本申请实施例提供的跨数据平台的数据处理方法的另一个示意性流程图;
图5为本申请实施例提供的跨数据平台的数据处理方法的另一个应用场景架构示意图;
图6为本申请实施例提供的跨数据平台的数据处理装置的示意性框图;以及
图7为本申请实施例提供的计算机设备的示意性框图。
具体实施方式
基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
请参阅图1,图1为本申请实施例提供的跨数据平台的数据处理方法的一个应用场景示意图。所述应用场景包括:
(1)终端,终端上安装有办理业务的应用程序,用户通过应用程序办理业务以对应产生业务数据,即第一业务数据。比如,保险业务***中,用户可以通过终端上的应用程序办理代理人应用业务、理赔欺诈检测业务、产品推荐业务及投保定价业务等以对应产生代理人应用业务数据、理赔欺诈检测业务、产品推荐业务数据及投保定价业务数据等,第一业务数据即指代理人应用业务数据、理赔欺诈检测业务、产品推荐业务数据或者投保定价业务数据。终端,又可以称为前端,前端可以为笔记本、台式机、智能手机、平板电脑或者智能手表等计算机设备。
(2)服务器。服务器接收终端发送的第一业务数据,对第一业务数据进行预处理得到第二业务数据,对第二业务数据进行处理以得到数据处理结果。服务器可以为单台服务器或者分布式的服务器集群,也可以为云服务器,接收外部终端的访问,通过有线网络或者无线网络与终端连接。
图1中的各个主体工作过程如下:用户通过终端上的应用程序办理业务以产生第一业务数据,所述第一业务数据是基于第一数据平台所构建的第一数据模型而产生的,终端将第一业务数据发送至服务器,服务器接收第一业务数据,通过模型解析器将所述第一业务数据进行预处理,以将第一业务数据的格式转换为预设格式,从而得到预设格式的第二业务数据;服务器将所述第二业务数据输入基于第二数据平台所构建的第二数据模型,其中,所述第二数据平台支持对所述预设格式的数据进行处理,通过所述第二数据模型对所述第二业务数据进行处理以得到数据处理结果。
需要说明的是,上述跨数据平台的数据处理方法的应用场景架构示意图仅仅用于说明本申请技术方案,并不用于限定本申请技术方案,上述连接关系还可以有其他形式。
请参阅图2,图2为本申请实施例提供的跨数据平台的数据处理方法的一个示意性流程图。该跨数据平台的数据处理方法应用于图1中的服务器中,以完成跨数据平台的数据处理方法的全部或者部分功能。如图2所示,该方法包括以下步骤S201-S204:
S201、接收第一业务数据,所述第一业务数据是基于第一数据平台所构建的第一数据模型而产生的。
其中,数据平台,又可以称为建模平台或者建模工具,数据平台是指建立模型使用的工具或者平台,例如Spark平台、Tesorflow平台、Sklearn平台或者R平台。Spark,又可以称为Apache Spark,Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎,Spark是一种开源集群计算环境,可用它来完成各种各样的运算,包括SQL查询、文本处理、机器学***台是一个基于数据流编程(英文为Dataflow Programming)的符号数学***,被广泛应用于各类机器学***台指R语言,英文为The RProgramming Language,R是用于统计分析、绘图的语言和操作环境,是一个用于统计计算和统计制图的工具。
建模平台上可以建立的模型包括LR模型、FM模型、GBDT模型、XGBT模型或者DNN模型等模型,在一种建模平台上可以建立多种模型,比如在Tesorflow平台上可以建立LR模型、FM模型、GBDT模型及XGBT模型等。其中,LR模型,英文为Logistic Regression,缩写为LR,指逻辑回归模型。FM模型,英文为Factorization Machine,简写为FM,指分解机模型,又称为因子分解机模型。GBDT模型,英文为Gradient Boosting Decision Tree,简写为GBDT,是指梯度提升决策树模型。XGBT模型,英文为eXtreme Gradient Boosting,又可以称为XGBoost模型,是指极端梯度提升模型。DNN模型,英文为Deep Neural Networks,简写为DNN,是指深度神经网络。
具体地,一般由于业务***会处理各种业务,在处理各种业务的过程中会产生各种对应的业务数据,尤其在大数据时代,每种业务***产生的业务数据量都可能十分庞大,比如保险业务***中,可以包括代理人应用业务、理赔欺诈检测业务、产品推荐业务及投保定价业务等业务内容,在每一项业务的处理过程中,都会产生对应的业务数据。
终端产生第一业务数据,所述第一业务数据的第一数据模型基于所述第一数据平台所构建,所述第一业务数据是基于第一数据模型产生的,终端将所述第一业务数据发送至服务器,服务器接收第一业务数据。例如,服务器接收业务***的调用,接收业务***发送的初始格式的第一业务数据,所述第一业务数据的数据模型由所述第一数据平台构建,所述初始格式即为第一数据平台对应的格式。其中,所述第一数据平台可以为Spark格式、Tesorflow格式、Sklearn格式或者R格式等,具体根据每项业务数据的需求来确定,比如,若第一业务数据属于海量的大数据,第一数据平台可以采用Spark平台,第一业务数据对应Spark格式。若第一业务数据需要丰富的算法,第一数据平台可以采用Tesorflow平台,第一业务数据对应Tesorflow格式。
进一步地,在本申请实施例中,由于对业务数据的处理,涉及第一数据平台和第二数据平台,并且所述第一数据平台和所述第二数据平台是建模类型不同的数据平台,针对每种具体业务应用确定对应的业务数据处理的第一数据平台和第二数据平台是根据业务应用的业务数据处理性能和算法需求确定的。比如,请参阅表格1,表格1所示为保险业务中三项业务各自对应的第一数据平台和第二数据平台的示例,其中,第一数据平台构建的数据模型是第一业务数据的初始格式,第二数据平台构建的数据模型是对第一业务数据的初始格式进行转化后得到的统一的预设格式的数据进行处理,比如,若第一数据平台为Spark平台,由于Spark擅长海量大数据处理,从而第一数据平台可以充分利用Spark擅长处理海量大数据的优势,若第二数据平台为Tesorflow平台,由于Tensorflow算法丰富,从而可以利用Tensorflow丰富的算法对数据进行处理,从而充分利用第一数据平台和第二数据平台各自的优势,实现基于跨数据平台的采用复合模型进行数据处理。
表格1
业务应用 第一数据平台 第二数据平台
代理人应用业务 Spark平台 Tesorflow平台
理赔欺诈检测业务 Spark平台 R平台
产品推荐业务 R平台 Sklearn平台
S202、通过模型解析器将所述第一业务数据进行预处理以得到预设格式的第二业务数据。
其中,解析器,英文为Parser,是一段可以读入一个文档并分析其结构的代码,也即是用来读取和解释源代码的模块。模型解析器是指用来读取和解释模型所对应的源代码的模块,通过预定解析方式将模型从一种格式转换为另一种格式以实现对模型进行解析处理的具体实现的模块,其中,预定解析方式可以是通过预设函数进行解析,也可以是通过预设公式进行解析,还可以是通过现有的工具进行,例如HTML解析器是对HTML进行分析的解析器,Jsoup是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容等,在Spark中导出PMML文件(Python语言)可以通过安装Jpmml-sparkml安装包,也即Jpmml-sparkml-package作为模型解析器等。
其中,所述预处理是指在对第一业务数据进行处理以得到数据处理结果前,将所述第一业务数据的初始格式转换为统一的预设格式的处理过程,其中,预设格式可以为PMML格式、Protobuf格式或者自定义格式。其中,PMML格式,英文为Predictive ModelMarkup Language,简写为PMML,预测模型标记语言,利用XML描述和存储数据挖掘模型。Protobuf格式,又称为Protocol Buffers,Protocol Buffers是一种和语言平台都没关的数据交换格式,其内部数据是纯二进制格式,不依赖于语言和平台。
具体地,由于第一数据平台和第二数据平台是不同的平台,第一数据平台和第二数据平台各自对应不同的数据格式,因此,第二数据平台不能直接处理第一数据平台对应的数据格式构建的第一业务数据,需要通过模型解析器调用所述第一业务数据的初始格式对应的第一数据平台对第一业务数据做预处理,将所述第一业务数据转化为统一的预设格式,得到第二业务数据,才能由支持所述预设格式的第二数据平台构建的数据模型处理第二业务数据以得到数据处理结果。
进一步地,根据初始格式的第一业务数据所属的第一数据平台,通过模型解析器调用所述第一数据平台对应的公式,将所述初始格式的第一业务数据输出为预设的统一预设格式的第二业务数据,也即接收初始格式的第一业务数据,使用第一数据平台对初始格式的第一业务数据进行数据预处理,其中,第一平台例如为Spark平台。以第一平台例如为Spark平台为例,具体实施时,需要确定数据模型跨平台语言和数据跨平台语言规范,以支持不同平台之间实现跨平台进行模型解析和数据解析,再定义各个平台的工作环节,并确定数据流转流程,具体包括以下过程:
1)Spark进行数据准备和数据处理,也支持部分模型构建。
具体地,Spark进行数据准备和数据处理,是利用Spark的计算能力进行特征工程处理,包括变量数值化、ONE-HOT编码及GBDT编码等,并对由Spark构建的轻量级模型输出为PMML格式,其中,Spark是基于内存的大数据处理框架,同时也支持基于MLlib/ML构建有限机器学习算法的模型。
Spark进行数据准备和数据处理包括两部分内容,一部分是对数据的预处理,另一部分是创建一些模型,并且创建的模型和数据均输出为PMML格式,以供第二数据平台例如Tesorflow平台进行数据解析和模型解析,从而实现对第一业务数据进行处理。
2)通过模型解析器将所述第一业务数据进行预处理以得到预设格式的第二业务数据。
具体地,需要模型解析器首先解析所述第一业务数据。而模型解析器解析所述第一业务数据,首先需要定义统一的预设格式作为标准格式。例如,以统一的预设格式为PMML格式为例,无论第一业务数据的模型是Sklearn,R还是SparkMLlib生成的,都可以将其转化为标准的PMML的XML格式来存储。当需要将这个PMML的模型用于部署的时候,可以使用目标环境的解析PMML模型的库来加载模型,并做预测,后续对于不同平台建模,基于PMML生成标准格式的模型文件,通过Tesorflow对PMML进行模型文件读取解析。其中,PMML,英文为Predictive Model Markup Language,缩写为PMML,预测模型标记语言,是一种可以呈现预测分析模型的事实标准语言,PMML是数据挖掘的一种通用的规范,它用统一的XML格式来描述我们生成的机器学习模型。
S203、将所述第二业务数据输入基于第二数据平台所构建的第二数据模型;
S204、通过所述第二数据模型对所述第二业务数据进行处理以得到数据处理结果。
其中,第二数据模型包括LR模型、FM模型、GBDT模型、XGBT模型和/或DNN模型等模型。
具体地,通过模型解析器将所述第一业务数据进行预处理以得到预设格式的第二业务数据,所述第二数据平台支持对所述预设格式的数据进行处理,将所述第二业务数据输入基于第二数据平台构建的第二数据模型,通过所述第二数据模型对所述第二业务数据进行处理以得到数据处理结果,从而实现跨平台采用复合模型对数据进行处理。
本申请实施例提供了一种跨数据平台的数据处理方法,实现数据处理时,涉及第一数据平台和第二数据平台,第一业务数据的第一数据模型是基于第一数据平台所构建的,服务器上处理数据所使用的第二数据模型是基于第二数据平台所构建的,所述第一数据平台和所述第二数据平台是建模类型不同的数据平台,所述方法包括:接收第一业务数据,所述第一业务数据是基于第一数据平台所构建的第一数据模型而产生的,通过模型解析器将所述第一业务数据进行预处理以得到预设格式的第二业务数据,将所述第二业务数据输入基于第二数据平台所构建的第二数据模型,其中,所述第二数据平台支持对所述预设格式的数据进行处理,通过所述第二数据模型对所述第二业务数据进行处理以得到数据处理结果,本申请实施例通过第一数据平台对数据进行预处理以得到统一的预设格式的第二业务数据,及第二数据平台对预处理后的第二业务数据进行处理,由于第一数据平台和第二数据平台是不同的平台,从而实现基于跨数据平台以采用复合模型对数据进行处理,能够发挥第一数据平台和第二数据平台各自的计算能力或者丰富的算法能力等优势,提升了复杂场景下对数据进行处理的效率和精度。
请参阅图3,图3为本申请实施例提供的跨数据平台的数据处理方法的一个子流程的示意性流程图。如图3所示,在该实施例中,所述通过模型解析器将所述第一业务数据进行预处理以得到预设格式的第二业务数据的步骤包括:
S301、将所述第一业务数据通过第二预设方式进行数据转换以得到第三业务数据,其中,所述数据转换是指将所述第一业务数据从一种表现形式转换为另一种表现形式。
其中,数据转换,也可以称为数据变换,英文为Data Transfer,是将数据从一种表示形式变为另一种表现形式的过程。
具体地,数据转换的预设方式包括对数转换、平方根转换、平方根反正弦转换、平方转换或者倒数变换等方式,比如,将数据1—100的数字转换为0-1之间的数据,从而更好的通过指标对数据进行筛选。
S302、根据预设条件对所述第三业务数据进行数据筛选以得到第四业务数据。
其中,数据筛选,英文为Data screening,数据筛选包括数据抽取、数据清理、数据加载三个部分,主要根据变量信息值、基尼指数及相对偏差率对转换后的数据进行筛选。
其中,变量信息值,又称信息值,英文为Infromation Value,简称IV,信息值可用来表示变量的预测能力。
基尼指数,英文为Gini index,是一种不等性度量,通常用来度量收入不平衡,可以用来度量任何不均匀分布,是介于0~1之间的数,0-完全相等,1-完全不相等,总体内包含的类别越杂乱,GINI指数就越大(跟熵的概念很相似)。
相对偏差是指某一次测量的绝对偏差占平均值的百分比,相对偏差只能用来衡量单项测定结果对平均值的偏离程度,也就是相对偏差是指的一个数据与平均值的差与平均值的比,相对偏差=[(A-平均值)÷平均值]×100%,比如35和32代入公式得:相对偏差=[(35-33.5)÷33.5]×100%≈4%。相对偏差率是相对偏差的数据在所有数据中所占的比例。
具体地,根据预设条件例如变量信息值、基尼指数及相对偏差率等,对转换后的所述第三业务数据进行数据筛选以得到第四业务数据。
S303、将所述第四业务数据输入预设的第三数据模型;
S304、通过所述第三数据模型将所述第四业务数据转换为预设格式的第二业务数据。
具体地,需要先进行数据模型构建,以将筛选后得到的第四业务数据通过数据模型转换为统一的预设格式。由于PMML是数据挖掘的一种通用的规范,采用统一的XML格式描述生成的模型,无论模型是Sklearn,R还是Spark MLlib生成的,都可以将其转化为标准的XML格式来存储,当需要将这个PMML的模型用于部署的时候,可以使用目标环境的解析PMML模型的库来加载模型,并做预测。比如,Spark MLlib支持模型导出到预测模型语言PMML,将模型导出为PMML,只需要调用model.toPMML方法就可以了。
进一步地,还需要对构建的数据模型进行参数确定,参数确定是指通过损失函数确定最优的参数,以使数据转换具有较好的效果。参数确定包括对损失函数或者代价函数等的参数进行确定,其中,损失函数(英文为Loss Function)或代价函数(英文为CostFunction)是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。在应用中,损失函数通常作为学习准则与优化问题相联系,即通过最小化损失函数求解和评估模型,例如在机器学习中被用于模型的参数估计(英文为Parameteric estimation)。
最后通过模型解析器调用初始格式的所述第一业务数据对应的第一数据平台对数据做预处理,将所述第一业务数据转化为统一的预设格式。
请参阅图4和图5,图4为本申请实施例提供的跨数据平台的数据处理方法的另一个示意性流程图,图5为本申请实施例提供的跨数据平台的数据处理方法的另一个应用场景架构示意图。如图4和图5所示,在该实施例中,所述第一数据平台为第一预设数据平台集合中的一个数据平台,其中,所述第一预设数据平台集合包含多个不同类型的数据平台,所述第二数据平台为第二预设数据平台集合中的一个数据平台,其中,所述第二预设数据平台集合也包含多个不同类型的数据平台。
具体地,由于业务***会存在多种业务,每种业务应用的数据需要的处理性能和算法需求存在不一样,每种业务对应一组第一数据平台和第二数据平台以对该种业务数据进行处理,业务***的多种业务就会对应多组第一数据平台和第二数据平台以对该业务***的业务数据进行处理,尤其是针对大数据,由于数据量巨大,可以采用分布式部署服务器,以通过服务器集群处理业务***的海量大数据。比如,请继续参阅表格1,如表格1所示的保险业务***中的三项业务,对应三组不同的第一数据平台和第二数据平台以对该业务***的业务数据进行处理。在本申请实施例中,所述第一数据平台为第一预设数据平台集合中的一个数据平台,其中,所述第一预设数据平台集合包含多个不同类型的数据平台,请参阅图5,第一预设数据平台集合包括Spark格式的Spark平台、Tesorflow格式的Tesorflow平台、Sklearn格式的Sklearn平台或者R格式的R平台,所述第二数据平台为第二预设数据平台集合中的一个数据平台,其中,所述第二预设数据平台集合也包含多个不同类型的数据平台,请继续参阅图5,第二预设数据平台集合中包括基于Tesorflow平台构建的LR模型对应的数据平台、FM模型对应的数据平台、GBDT模型对应的数据平台、XGBT模型对应的数据平台及DNN模型对应的数据平台等多个预设平台,其中,每个模型对应的数据平台也可以是基于Tesorflow平台、Sklearn平台或者R平台等不同的工具或者平台进行构建的。
请继续参阅图4,如图4所示,在该实施例中,所述接收第一业务数据,所述第一业务数据的数据模型由所述第一数据平台构建的步骤包括:
S401、接收第一业务数据,所述第一业务数据是基于第一数据平台所构建的第一数据模型而产生的,所述第一业务数据中携带有用于标识所述第一业务数据的标识信息。
其中,所述标识信息是指第一业务数据的业务数据名称、业务数据编码或者业务数据的数据标识等具有辨识性的信息。
具体地,业务***发送第一业务数据,负载均衡器根据第一业务数据的标识信息按照负载分配策略将所述第一业务数据分配至数据处理的执行单元包含的服务器,服务器接收第一业务数据,所述第一业务数据的第一数据模型由所述第一数据平台构建,所述第一业务数据是基于第一数据模型而产生的,所述第一业务数据中携带有用于标识所述第一业务数据的标识信息。
所述通过模型解析器将所述第一业务数据进行预处理以得到预设格式的第二业务数据的步骤包括:
S402、根据所述标识信息,确定将所述第一业务数据进行预处理的方式,并将该方式作为第一预设方式;
S403、通过模型解析器,采用所述第一预设方式将所述第一业务数据进行预处理以得到预设格式的第二业务数据。
具体地,由于业务***包含多种业务数据,每种业务数据对应不同的第一数据平台,所述第一数据平台,例如每种业务数据可以基于Spark格式的Spark平台、Tesorflow格式的Tesorflow平台、Sklearn格式的Sklearn平台或者R格式的R平台,服务器接收到第一业务数据后,根据所述标识信息,识别所述第一业务数据的初始格式所属的平台,根据第一业务数据基于的第一数据平台,确定将所述第一业务数据进行预处理的方式,并将该方式作为第一预设方式,从而通过模型解析器,采用所述第一数据平台对应的第一预设方式将所述第一业务数据进行预处理以得到预设格式的第二业务数据。比如,若第一业务数据基于Spark平台,需要采用Spark平台对应的第一预设方式A将所述第一业务数据进行预处理以得到预设格式的第二业务数据,若第一业务数据基于Tesorflow平台,需要采用Tesorflow平台对应的第一预设方式B将所述第一业务数据进行预处理以得到预设格式的第二业务数据,也即每种数据模型所属的数据平台对应的对业务数据进行预处理的预设方式是不一样的,如上述举例,Spark平台对应预设方式A,Tesorflow平台对应预设方式B等。
进一步地,在一个实施例中,所述通过模型解析器,采用所述第一预设方式将所述第一业务数据进行预处理以得到预设格式的第二业务数据的步骤包括:
通过模型解析器,调用所述第一数据平台对应的预设公式将所述第一业务数据转化为预设格式以得到第二业务数据。
具体地,由于PMML标准支持一些常用的数据转换预处理操作,并在此基础上支持使用函数表达式的转换,例如可以采取以下所列的PMML标准所定义的数据转换操作:
1)正态化(Normalization),把数据值转化为数值,同时适用于连续性变量和离散变量。
2)离散化(Discretization),把连续性变量转化为离散变量。
3)数据映射(Value mapping),把当前离散变量映射成另一种离散性变量。
4)函数(Functions),PMML内建了大量的常用函数,用户也可以定义自己的函数。
5)聚合(Aggregation),聚合操作,比如求平均值,最大值,最小值等。
因此,服务器接收第一业务数据,所述第一业务数据的第一数据模型由所述第一数据平台构建,所述第一业务数据是基于所述第一数据模型而产生的,所述第一业务数据中携带有用于标识所述第一业务数据的标识信息,根据所述标识信息,确定将所述第一业务数据进行预处理的预设公式,并将该预设公式作为第一预设方式,通过模型解析器调用所述第一数据平台对应的预设公式将所述第一业务数据转化为预设格式以得到第二业务数据时,例如,将第一业务数据的格式转换为PMML的格式时,可以采用例如上述方式中的PMML内建的常用函数或者用户定义的函数,将所述第一业务数据转化为预设格式以得到第二业务数据,以便后续根据所述标识信息,通过模型路由器调用模型服务集群中预先配置的由对应的所述第二数据平台构建的第二数据模型,将所述第二业务数据输入所述第二数据模型,以通过所述第二数据模型对所述第二业务数据进行处理以得到数据处理结果,其中,所述模型服务集群是指服务器中进行数据处理的模型组成的集合,比如图5中的模型服务集群包括LR模型、FM模型、GBDT模型、XGBT模型及DNN模型。
所述将所述第二业务数据输入基于第二数据平台所构建的第二数据模型的步骤,包括:
S404、根据所述标识信息,通过模型路由器调用模型服务集群中预先配置的基于第二数据平台所构建的第二数据模型;
S405、将所述第二业务数据输入所述第二数据模型。
具体地,由于业务***包含多种业务数据,每种业务数据对应不同的第二数据平台,例如每种业务数据可以基于Spark格式的Spark平台、Tesorflow格式的Tesorflow平台、Sklearn格式的Sklearn平台或者R格式的R平台,服务器接收到第一业务数据经转换格式后得到的第二业务数据,根据所述标识信息,识别所述第二业务数据所属的第二数据平台,根据预先设置的预设匹配关系,从模型服务集群中调用预先配置的由对应的所述第二数据平台构建的第二数据模型。比如,若第二业务数据基于Spark平台,需要采用Spark平台对应的第二数据模型A对第二业务数据进行处理以得到数据处理结果,若第二业务数据基于Tesorflow平台,需要采用Tesorflow平台对应的第二数据模型B对第二业务数据进行处理以得到数据处理结果,也即每种业务数据所属的第二数据平台对应的第二数据模型是不一样的,如上述举例,Spark平台对应的第二数据模型可以为A,Tesorflow平台对应的第二数据模型可以为B等,根据所述标识信息,模型路由器调用模型服务集群中预先配置的由对应的所述第二数据平台构建的第二数据模型A或者第二数据模型B等,将所述第二业务数据输入所述第二数据模型以对所述第二业务数据进行处理得到数据处理结果。其中,第一业务数据与第一数据模型和第二数据模型之间具有预设匹配关系,所述预设匹配关系根据所述第一业务数据的性能和算法需求来确定第一数据模型和第二数据模型以建立预设匹配关系的,也即第一业务数据采用何种模型作为初始格式的第一数据模型,后续的第二数据模型由基于何种平台进行建立。预设匹配关系又可以称为业务数据描述方式与数据处理的之间对应关系,比如,预先指定业务数据A数据由第一数据模型B作为初始格式来描述,由第二数据模型C来处理,A与B和C之间即满足预设匹配关系。
S406、通过所述第二数据模型对所述第二业务数据进行处理以得到数据处理结果。
具体地,图4所示实施例中的步骤S406与图2所示实施例中的步骤S204相同,通过引用的方式将图2所示实施例中的步骤S204引用于此,在此不再赘述。
进一步地,在通过根据所述第二业务数据调用所述第二业务数据对应的第二数据平台对应的第二数据模型并将所述第二业务数据输入所述第二数据模型,以通过所述第二数据模型对第二业务数据进行计算以得到数据计算结果,也即使用第二数据平台创建的数据模型进行数据处理以获得数据处理结果,例如第二数据平台创建的LR模型、FM模型、GBDT模型、XGBT模型或者DNN模型对第二业务数据进行处理,以得到最终的数据处理结果。其中,第二数据平台包括Tensorflow平台,其中,可以使用Tensorflow进行模型构建和模型应用,以及模型发布,同时模型解析器也基于Tensorflow构建。比如,把SPARK平台处理的结果输出到Tensorflow上进行解析,由于SPARK平台输出的内容包括PMML格式的数据和PMML格式的SPARK平台创建的模型,Tensorflow平台上进行解析可以包括解析数据和解析模型,同时在Tensorflow进行深度学***台建模,基于PMML生成标准格式模型问题,通过Tesorflow对PMML进行模型文件读取解析,从而整合Spark和Tensorflow,发挥各自优势,进行跨平台复合建模。其中,总体架构可以基于Tensorflow平台进行构建,由于整个总体架构主要是基于Tensorflow平台进行构建,SPARK平台是基于Tensorflow平台进行构建的总体架构中的一部分,同时Tensorflow平台适合与其他***进行交互,应用服务通过Tensorflow server API对外接口,通过Java封装均衡负载实现。
服务器接收业务***的调用,接收业务***发送的初始格式的第一业务数据,通过模型解析器调用所述第一业务数据对应的第一数据平台对数据做预处理,将所述第一业务数据转化为统一的预设格式,得到第二业务数据,然后模型路由器调用模型服务集群中由第二数据平台建立的对应模型对第二业务数据进行处理,可以是通过图5所示的架构来实现的。在图5所示实施例中,业务***发送初始格式的第一业务数据,通过负载均衡器的分配将第一业务数据发送至由若干单台服务器组成的服务器集群中所述第一业务数据对应的执行单元的服务器,后续执行单元的服务器对所述第一业务数据进行处理以得到数据处理结果。其中,所述执行单元的服务器是指对某一种业务类型的数据进行处理的若干服务器组成的单元,所述执行单元的服务器为服务器集群的子集。比如,在保险业务***中,由于保险业务包括代理人应用业务、理赔欺诈检测业务、产品推荐业务及投保定价业务等业务内容,可以采用由服务器Server1、Server1、Server3、Server4、Server5、Server6及Server7等七台服务器组成的服务器集群C对保险业务提供数据服务,其中,代理人应用业务产生的业务数据可以由Server1作为执行单元进行处理,理赔欺诈检测业务产生的业务数据可以由Server1及Server3两台服务器组成的执行单元进行处理,产品推荐业务产生的业务数据可以由Server4作为执行单元进行处理,投保定价业务产生的业务数据可以由Server5、Server6及Server7三台服务器组成的执行单元进行处理。本申请实施例中的数据平台是指构建数据模型使用的工具等应用软件环境构成的平台,服务器及服务器集群是指硬件设备,执行单元是包括硬件设备及硬件设备上的软件***组成的执行主体。
请继续参阅图5,如图5所示,图5所示的架构图包括:
1)、接口层,针对不同应用的业务数据调用对应的业务应用服务,例如通过Tensorflow server API对外接口调用对应的业务应用服务,可以通过Java封装均衡负载实现。例如在保险业务中,若接收到代理人应用的业务数据,调用代理人应用的服务接口以处理代理人应用的业务数据。
2)、模型处理层,通过定义模型解析器识别不同平台建立模型,支持Spark/Tesorflow/Sklearn/R构建的模型。具体包括:①模型解析器,用于将第一业务数据的初始格式通过模型解析器的解析转换为统一的预设格式的第二业务数据,预设格式例如为自定义格式、PMML格式或者Protobuf格式;②模型服务集群。
3)、数据计算层,用于通过调用模型服务集群中的数据模型处理第二业务数据以得到数据处理结果,例如通过Kafka+SparkStreaming处理实时特征计算、自定义特征处理(+、-、*、/)、特征关联算子(关联计算)及特征查询(嵌套查询)等以得到数据处理结果。其中,Kafka作为一个实时的分布式消息队列,实时的生产和消费消息,可以利用SparkStreaming实时计算框架实时地读取Kafka中的数据然后进行计算,其中,SparkStreaming属于Spark的核心API,它支持高吞吐量、支持容错的实时流数据处理。
进一步地,对数据计算的内容包括:
(1)实时特征计算,是指针对实时特征的计算;
(2)自定义特征处理,是指针对自定义特征的处理;
(3)特征关联算子,算子,别称算符,外文名operator,算子是一个函数空间到函数空间上的映射O:X→X。广义上的算子可以推广到任何空间,如内积空间等,是指数据中特征的关联性处理;
(4)特征查询算子,是指从数据库中进行特征查询的处理。
请继续参阅图5,如图5所示,以保险业务中包含的代理人应用业务、理赔欺诈检测业务、产品推荐业务及投保定价业务为例描述跨数据平台的数据处理的过程如下:
1)业务***通过服务调用发送第一业务数据至负载均衡器,也即前端的计算机设备通过服务调用发送所述第一业务数据至所述负载均衡器,所述第一业务数据的数据模型由第一数据平台构建,例如所述第一业务数据的数据模型由Spark平台、Tesorflow平台、Sklearn平台或者R平台构建。
2)负载均衡器接收到所述第一业务数据后,识别第一业务数据所属的业务类型,比如所述第一业务数据属于代理人应用业务、理赔欺诈检测业务、产品推荐业务还是投保定价业务等业务类型,根据所述第一业务数据的业务类型并结合负载分配策略将所述第一业务数据发送至模型处理层中的模型解析器。
3)模型解析器根据所述第一业务数据所属的第一数据平台调用所述第一数据平台对应的公式,将所述第一业务数据由初始的第一数据平台的格式经过预处理转化为统一的预设格式的第二业务数据。例如,模型解析器识别出第一业务数据为基于Spark平台的Spark格式,调用Spark格式对应的公式将所述第一业务数据进行预处理,以将第一业务数据的Spark格式进行转换以得到统一的预设的PMML格式的第二业务数据。
4)数据计算层,也就是模型路由器,接收到第二业务数据,根据第二业务数据所述的业务类型,调用预设的该业务类型对应的模型服务集群中的第二数据模型处理第二业务数据以得到数据处理结果,其中,数据计算层对第二业务数据的处理包括实时特征计算、自定义特征处理、特征关联算子及特征查询算子。例如,请继续参阅表格1,若保险业务中的代理人应用业务预先设置的第一数据平台为Spark平台,也即代理人业务应用业务中的第一业务数据的数据模型是由Spark平台构建,第二数据平台为Tesorflow平台,也即代理人应用业务的第二数据模型由Tesorflow平台构建,处理代理人应用业务的第二数据模型为基于Tesorflow平台构建的DNN模型,Tesorflow平台支持处理PMML格式的数据,模型路由器接收到PMML格式的第二业务数据后,调用模型服务集群中代理人应用业务对应的DNN模型对第二业务数据进行处理,从而得到数据处理结果。
在一个实施例中,所述将所述第二业务数据输入基于第二数据平台所构建的第二数据模型的步骤之前,还包括:
接收基于所述第一数据平台所创建的第一预设模型;
通过模型解析器将所述第一预设模型以所述预设格式输出以得到所述预设格式的第一预设模型:
所述将所述第二业务数据输入基于第二数据平台所构建的第二数据模型的步骤还包括:
将所述第二业务数据输入所述预设格式的第一预设模型以通过所述预设格式的第一预设模型对所述第二业务数据进行处理以得到数据处理结果。
具体地,第一数据平台也可以建立一些模型,例如Spark平台可以建立一些模型,并将建立的模型输出为PMML,Protobuf或者自定义格式,以供第二数据平台比如Tesorflow使用,模型解析器支持PMML,Protobuf及约定的自定义格式,自定义格式是指仅仅针对某一指定项目使用的格式,是相对于PMML格式或者Protobuf格式等具有普适性标准的格式而言的。第一数据平台和第二数据平台的选择分别根据实际的业务数据对数据处理性能和算法丰富的需求进行选择。从各个平台的性能和算法的角度对各个平台进行排序,其中,R指R语言,各个平台的排序如下:
上述平台数据处理性能由弱到强的顺序依次为:R、Sklearn、Tesorflow及Spark;
上述平台算法丰富由弱到强的顺序依次为:Spark、R、Sklearn及Tesorflow。
在一个实施例中,所述通过所述第二数据模型对所述第二业务数据进行处理以得到数据处理结果的步骤包括:
通过所述第二数据模型对所述第二业务数据进行解析以得到解析数据;
通过所述第二数据模型对所述解析数据进行处理以得到数据处理结果。
具体地,通过所述第二数据模型对所述第二业务数据进行解析以得到解析数据,通过所述第二数据模型对所述解析数据进行处理以得到数据处理结果。第一数据平台和第二数据平台的选择分别根据实际的业务数据对数据处理性能和算法丰富的需求进行选择,各个平台的排序如上所述。
在一个实施例中,所述第一业务数据包括数据和基于所述第一数据平台所创建的第二预设模型;
所述通过所述第二数据模型对所述第二业务数据进行解析以得到解析数据的步骤包括:
通过所述第二数据模型对所述第二业务数据进行数据解析和第二预设模型解析以得到解析数据。
具体地,第一数据平台也可以建立一些模型,例如Spark平台可以建立一些模型,并将建立的模型输出为PMML,Protobuf或者自定义格式,模型解析器支持PMML,Protobuf及约定的自定义格式,也即通过所述第一数据平台不但可以产生业务数据,还可以构建第二预设模型,将第一业务数据进行预处理以得到预设格式的第二业务数据,对应的第二业务数据中不但包括数据,也包括经过预处理得到的预设格式的第二预设模型,通过第二数据模型对所述第二业务数据进行解析时,不但要进行数据解析,还要进行模型解析,以得到包含数据和模型的解析数据,后续通过所述第二数据模型对所述解析数据进行处理以得到数据处理结果,各个平台的排序如上所述。
在一个实施例中,所述接收第一业务数据的步骤包括:
接收负载均衡器按照预设策略发送的第一业务数据。
其中,预设策略包括按照业务类型进行负载的分配,或者按照每个服务器处理数据已经使用的性能占比进行负载的分配。按照业务类型进行负载的分配,比如,将第一类型业务数据由服务器A处理,第二类型业务数据由服务器B处理,第三类型业务数据由服务器C来处理等。按照每个服务器处理数据的负载量进行负载的分配,A服务器处理数据的性能已经使用了90%,分配至B服务器来处理数据,B服务器处理数据的性能已经使用了95%,分配至C服务器来处理数据。
具体地,由于所述第一业务数据可以为多种业务数据中的一种,每种所述业务数据由不同的数据平台构建以对应不同的格式,从而需要针对多种业务数据产生的海量大数据进行数据处理。针对海量大数据处理时,由于单台服务器的处理能力有限,一般会采取服务器集群进行数据处理,这需要对接收到的第一业务数据在服务器集群中的服务器之间进行分配,一般会通过负载均衡器对接收到的业务数据根据预设策略在服务器集群中对业务数据进行调配。请继续参阅图5,如图5所示,在该实施例中,业务***发送初始格式的第一业务数据,初始格式为预设的例如第一数据平台的Spark格式、Tesorflow格式、Sklearn格式或者R格式等,第一业务数据经负载均衡器分配后至服务器集群的操作执行单元,执行单元所在的服务器根据第一业务数据携带的标识识别第一业务数据的格式为Spark格式、Tesorflow格式、Tklearn格式或者R格式,服务器中的模型解析器根据第一业务数据的格式调用由第一平台对应的公式解析初始业务数据,将Spark格式、Tesorflow格式、Tklearn格式或者R格式的第一业务数据转换为PMML格式、Protobuf格式或者约定的特定的自定义格式的第二业务数据,并调用模型服务集群中第一业务数据对应的由第二数据平台创建的LR模型、FM模型、GBDT模型、XGBT模型或者DNN的模型对第二业务数据进行处理,以得到最终的数据处理结果。
在一个实施例中,所述第一数据平台为Spark平台,第二数据平台为Tensorflow平台。
具体地,通过接收业务***的调用,接收业务***发送的初始格式的第一业务数据,通过模型解析器调用所述第一业务数据对应的第一数据平台对数据做预处理,将所述第一业务数据转化为统一的预设格式,得到第二业务数据,然后模型路由器调用模型服务集群中由第二数据平台建立的对应模型对第二业务数据进行处理,得到数据处理结果,能够发挥不同平台各自的计算能力和丰富算法能力,提升了复杂场景下构建复合模型效率和精度。由于大数据处理平台和建模平台有多种,每一个平台都有自己的优势和劣势,通过将第一数据平台和第二数据平台结合起来实现跨数据平台的数据处理,比如,若以Spark平台作为第一数据平台,以Tensorflow平台作为第二数据平台,从而在Tensorflow平台上进行深度学习、迁移学习等模型及Ensumble模型构建,并输出最终结果,可以带来以下好处:
1)、发挥了Spark平台的计算能力,同时发挥了Tensorflow平台的丰富算法能力;
2)、提升了复杂场景下构建复合模型效率和精度。
进一步地,所述接收第一业务数据,所述第一业务数据的数据模型由所述第一数据平台构建的步骤之前,还包括:
通过离线方式和在线方式测试所述第一数据模型和所述第二数据模型。
具体地,可以采用多种方法,评估跨数据平台的数据处理方法中包含的数据模型的效果,例如采取离线方式和在线方式,用不同方法评估模型效果。
更进一步地,所述接收第一业务数据,所述第一业务数据的数据模型由所述第一数据平台构建的步骤之前,还包括:
通过第一预设效果指标测试所述第一数据模型;
通过第二预设效果指标测试所述第二数据模型。
具体地,通过测试的模型发布上线,并设计效果指标跟踪模型精度,比如,根据模型针对的业务不同,设计不同的业务指标跟进模型精度,比如,针对销售业务,设计转化率进行模型精度的跟踪。
需要说明的是,上述各个实施例所述的跨数据平台的数据处理方法,可以根据需要将不同实施例中包含的技术特征重新进行组合,以获取组合后的实施方案,但都在本申请要求的保护范围之内。
请参阅图6,图6为本申请实施例提供的跨数据平台的数据处理装置的示意性框图。对应于上述跨数据平台的数据处理方法,本申请实施例还提供一种跨数据平台的数据处理装置。如图6所示,该跨数据平台的数据处理装置包括用于执行上述跨数据平台的数据处理方法的单元,该装置可以被配置于服务器等计算机设备中,该装置涉及第一数据平台和第二数据平台,所述第一数据平台和所述第二数据平台是建模类型不同的数据平台。具体地,请参阅图6,该跨数据平台的数据处理装置600包括接收单元601、预处理单元602、输入单元603及处理单元604。
其中,接收单元601,用于接收第一业务数据,所述第一业务数据是基于第一数据平台所构建的第一数据模型而产生的;
预处理单元602,用于通过模型解析器将所述第一业务数据进行预处理以得到预设格式的第二业务数据;
输入单元603,用于将所述第二业务数据输入基于第二数据平台所构建的第二数据模型;
处理单元604,用于通过所述第二数据模型对所述第二业务数据进行处理以得到数据处理结果。
在一个实施例中,所述第一业务数据中携带有用于标识所述第一业务数据的标识信息;
所述预处理单元602包括:
确定子单元,用于根据所述标识信息,确定将所述第一业务数据进行预处理的方式,并将该方式作为第一预设方式;
预处理子单元,用于通过模型解析器,采用所述第一预设方式将所述第一业务数据进行预处理以得到预设格式的第二业务数据;
所述输入单元603包括:
调用子单元,用于根据所述标识信息,通过模型路由器调用模型服务集群中预先配置的基于第二数据平台所构建的第二数据模型;
输入子单元,用于将所述第二业务数据输入所述第二数据模型。
在一个实施例中,所述预处理子单元,用于通过模型解析器,调用所述第一数据平台对应的预设公式将所述第一业务数据转化为预设格式以得到第二业务数据。
在一个实施例中,所述预处理单元602包括:
第一转换子单元,用于将所述第一业务数据通过第二预设方式进行数据转换以得到第三业务数据,其中,所述数据转换是指将所述第一业务数据从一种表现形式转换为另一种表现形式;
筛选子单元,用于根据预设条件对所述第三业务数据进行数据筛选以得到第四业务数据;
输入子单元,用于将所述第四业务数据输入预设的第三数据模型;
第二转换子单元,用于通过所述第三数据模型将所述第四业务数据转换为预设格式的第二业务数据。
在一个实施例中,所述处理单元604包括:
解析子单元,用于通过所述第二数据模型对所述第二业务数据进行解析以得到解析数据;
处理子单元,用于通过所述第二数据模型对所述解析数据进行处理以得到数据处理结果。
在一个实施例中,所述接收单元601,用于接收负载均衡器按照预设策略发送的第一业务数据。
在一个实施例中,所述第一数据平台为Spark平台,第二数据平台为Tensorflow平台。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述跨数据平台的数据处理装置和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
同时,上述跨数据平台的数据处理装置中各个单元的划分和连接方式仅用于举例说明,在其它实施例中,可将跨数据平台的数据处理装置按照需要划分为不同的单元,也可将跨数据平台的数据处理装置中各单元采取不同的连接顺序和方式,以完成上述跨数据平台的数据处理装置的全部或部分功能。
上述跨数据平台的数据处理装置可以实现为一种计算机程序的形式,该计算机程序可以在如图7所示的计算机设备上运行。
请参阅图7,图7是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备700可以是台式机电脑或者服务器等计算机设备,也可以是其它设备中的组件或者部件。
参阅图7,该计算机设备700包括通过***总线701连接的处理器702、存储器和网络接口705,其中,存储器可以包括非易失性存储介质703和内存储器704。该非易失性存储介质703可存储操作***7031和计算机程序7032。该计算机程序7032被执行时,可使得处理器702执行一种上述跨数据平台的数据处理方法。
该处理器702用于提供计算和控制能力,以支撑整个计算机设备700的运行。
该内存储器704为非易失性存储介质703中的计算机程序7032的运行提供环境,该计算机程序7032被处理器702执行时,可使得处理器702执行一种上述跨数据平台的数据处理方法。
该网络接口705用于与其它设备进行网络通信。本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备700的限定,具体的计算机设备700可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图7所示实施例一致,在此不再赘述。
以该计算机设备为服务器为例,所述处理器702用于运行存储在存储器中的计算机程序7032,以实现如下步骤:接收第一业务数据,所述第一业务数据是基于第一数据平台所构建的第一数据模型而产生的;通过模型解析器将所述第一业务数据进行预处理以得到预设格式的第二业务数据;将所述第二业务数据输入基于第二数据平台所构建的第二数据模型;通过所述第二数据模型对所述第二业务数据进行处理以得到数据处理结果。
在一实施例中,所述处理器702在实现所述接收第一业务数据的步骤时,所述第一业务数据中携带有用于标识所述第一业务数据的标识信息;
所述处理器702在实现所述通过模型解析器将所述第一业务数据进行预处理以得到预设格式的第二业务数据的步骤时,具体实现以下步骤:
根据所述标识信息,确定将所述第一业务数据进行预处理的方式,并将该方式作为第一预设方式;
通过模型解析器,采用所述第一预设方式将所述第一业务数据进行预处理以得到预设格式的第二业务数据;
所述处理器702在实现所述将所述第二业务数据输入基于第二数据平台所构建的第二数据模型的步骤时,具体实现以下步骤:
根据所述标识信息,通过模型路由器调用模型服务集群中预先配置的基于第二数据平台所构建的第二数据模型;
将所述第二业务数据输入所述第二数据模型。
在一实施例中,所述处理器702在实现所述通过模型解析器,采用所述第一预设方式将所述第一业务数据进行预处理以得到预设格式的第二业务数据的步骤时,具体实现以下步骤:
通过模型解析器,调用所述第一数据平台对应的预设公式将所述第一业务数据转化为预设格式以得到第二业务数据。
在一实施例中,所述处理器702在实现所述通过模型解析器将所述第一业务数据进行预处理以得到预设格式的第二业务数据的步骤时,具体实现以下步骤:
将所述第一业务数据通过第二预设方式进行数据转换以得到第三业务数据,其中,所述数据转换是指将所述第一业务数据从一种表现形式转换为另一种表现形式;
根据预设条件对所述第三业务数据进行数据筛选以得到第四业务数据;
将所述第四业务数据输入预设的第三数据模型;
通过所述第三数据模型将所述第四业务数据转换为预设格式的第二业务数据。
在一实施例中,所述处理器702在实现所述通过所述第二数据模型对所述第二业务数据进行处理以得到数据处理结果的步骤时,具体实现以下步骤:
通过所述第二数据模型对所述第二业务数据进行解析以得到解析数据;
通过所述第二数据模型对所述解析数据进行处理以得到数据处理结果。
在一实施例中,所述处理器702在实现所述接收第一业务数据的步骤时,具体实现以下步骤:
接收负载均衡器按照预设策略发送的第一业务数据。
在一实施例中,所述处理器702在实现所述跨数据平台的数据处理方法的步骤时,所述第一数据平台为Spark平台,第二数据平台为Tensorflow平台。
应当理解,在本申请实施例中,处理器702可以是中央处理单元(CentralProcessing Unit,CPU),该处理器702还可以是其它通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来完成,该计算机程序可存储于一计算机可读存储介质。该计算机程序被该计算机***中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本申请还提供一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时使处理器执行如下步骤:
一种计算机程序产品,当其在计算机上运行时,使得计算机执行以上各实施例中所描述的跨数据平台的数据处理方法的步骤。
所述计算机可读存储介质可以是前述设备的内部存储单元,例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备,例如所述设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC)等。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上所述,仅为本申请的具体实施方式,但本申请明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种跨数据平台的数据处理方法,其特征在于,所述方法包括:
接收第一业务数据,所述第一业务数据是基于第一数据平台所构建的第一数据模型而产生的;
通过模型解析器将所述第一业务数据进行预处理以得到预设格式的第二业务数据;
将所述第二业务数据输入基于第二数据平台所构建的第二数据模型;
通过所述第二数据模型对所述第二业务数据进行处理以得到数据处理结果;
所述第一业务数据中携带有用于标识所述第一业务数据的标识信息;
所述通过模型解析器将所述第一业务数据进行预处理以得到预设格式的第二业务数据的步骤包括:
根据所述标识信息,确定将所述第一业务数据进行预处理的方式,并将该方式作为第一预设方式;
通过模型解析器,采用所述第一预设方式将所述第一业务数据进行预处理以得到预设格式的第二业务数据;
所述将所述第二业务数据输入基于第二数据平台所构建的第二数据模型的步骤,包括:
根据所述标识信息,通过模型路由器调用模型服务集群中预先配置的基于第二数据平台所构建的第二数据模型;
将所述第二业务数据输入所述第二数据模型;
所述通过模型解析器将所述第一业务数据进行预处理以得到预设格式的第二业务数据的步骤包括:
将所述第一业务数据通过第二预设方式进行数据转换以得到第三业务数据,其中,所述数据转换是指将所述第一业务数据从一种表现形式转换为另一种表现形式;
根据预设条件对所述第三业务数据进行数据筛选以得到第四业务数据;
将所述第四业务数据输入预设的第三数据模型;
通过所述第三数据模型将所述第四业务数据转换为预设格式的第二业务数据。
2.根据权利要求1所述跨数据平台的数据处理方法,其特征在于,所述通过模型解析器,采用所述第一预设方式将所述第一业务数据进行预处理以得到预设格式的第二业务数据的步骤包括:
通过模型解析器,调用所述第一数据平台对应的预设公式将所述第一业务数据转化为预设格式以得到第二业务数据。
3.根据权利要求1所述跨数据平台的数据处理方法,其特征在于,所述通过所述第二数据模型对所述第二业务数据进行处理以得到数据处理结果的步骤包括:
通过所述第二数据模型对所述第二业务数据进行解析以得到解析数据;
通过所述第二数据模型对所述解析数据进行处理以得到数据处理结果。
4.根据权利要求1所述跨数据平台的数据处理方法,其特征在于,所述接收第一业务数据的步骤包括:
接收负载均衡器按照预设策略发送的第一业务数据。
5.根据权利要求1所述跨数据平台的数据处理方法,其特征在于,所述第一数据平台为Spark平台,第二数据平台为Tensorflow平台。
6.一种跨数据平台的数据处理装置,其特征在于,所述装置包括:
接收单元,用于接收第一业务数据,所述第一业务数据是基于第一数据平台所构建的第一数据模型而产生的;
预处理单元,用于通过模型解析器将所述第一业务数据进行预处理以得到预设格式的第二业务数据;
输入单元,用于将所述第二业务数据输入基于第二数据平台所构建的第二数据模型;
处理单元,用于通过所述第二数据模型对所述第二业务数据进行处理以得到数据处理结果;
所述第一业务数据中携带有用于标识所述第一业务数据的标识信息,所述预处理单元包括:
确定子单元,用于根据所述标识信息,确定将所述第一业务数据进行预处理的方式,并将该方式作为第一预设方式;
预处理子单元,用于通过模型解析器,采用所述第一预设方式将所述第一业务数据进行预处理以得到预设格式的第二业务数据;
所述输入单元包括:
调用子单元,用于根据所述标识信息,通过模型路由器调用模型服务集群中预先配置的基于第二数据平台所构建的第二数据模型;
输入子单元,用于将所述第二业务数据输入所述第二数据模型;
所述预处理单元还包括:
第一转换子单元,用于将所述第一业务数据通过第二预设方式进行数据转换以得到第三业务数据,其中,所述数据转换是指将所述第一业务数据从一种表现形式转换为另一种表现形式;
筛选子单元,用于根据预设条件对所述第三业务数据进行数据筛选以得到第四业务数据;
输入子单元,用于将所述第四业务数据输入预设的第三数据模型;
第二转换子单元,用于通过所述第三数据模型将所述第四业务数据转换为预设格式的第二业务数据。
7.一种计算机设备,其特征在于,所述计算机设备包括存储器以及与所述存储器相连的处理器;所述存储器用于存储计算机程序;所述处理器用于运行所述存储器中存储的计算机程序,以执行如权利要求1-5任一项所述跨数据平台的数据处理方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行如权利要求1-5中任一项所述跨数据平台的数据处理方法的步骤。
CN201910851205.3A 2019-09-10 2019-09-10 跨数据平台的数据处理方法、装置、设备及存储介质 Active CN110728118B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910851205.3A CN110728118B (zh) 2019-09-10 2019-09-10 跨数据平台的数据处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910851205.3A CN110728118B (zh) 2019-09-10 2019-09-10 跨数据平台的数据处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110728118A CN110728118A (zh) 2020-01-24
CN110728118B true CN110728118B (zh) 2023-07-25

Family

ID=69218078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910851205.3A Active CN110728118B (zh) 2019-09-10 2019-09-10 跨数据平台的数据处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110728118B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115550463A (zh) * 2022-09-16 2022-12-30 深圳市润腾智慧科技有限公司 一种跨云物联网平台数据处理方法、装置及相关设备
CN116308434B (zh) * 2023-05-12 2023-08-11 杭州大鱼网络科技有限公司 一种保险欺诈识别方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908426A (zh) * 2017-12-21 2018-04-13 江苏国泰新点软件有限公司 跨平台应用程序的设计方法、装置、移动终端及存储介质
CN107995259A (zh) * 2017-11-14 2018-05-04 北京思特奇信息技术股份有限公司 一种对跨域请求进行处理的方法及装置
CN109308224A (zh) * 2017-07-27 2019-02-05 阿里巴巴集团控股有限公司 跨平台数据通信、跨平台数据处理的方法、装置及***
CN109598289A (zh) * 2018-11-16 2019-04-09 京东城市(南京)科技有限公司 跨平台的数据处理方法、装置、设备及可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130045803A1 (en) * 2011-08-21 2013-02-21 Digital Harmony Games, Inc. Cross-platform gaming between multiple devices of multiple types

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109308224A (zh) * 2017-07-27 2019-02-05 阿里巴巴集团控股有限公司 跨平台数据通信、跨平台数据处理的方法、装置及***
CN107995259A (zh) * 2017-11-14 2018-05-04 北京思特奇信息技术股份有限公司 一种对跨域请求进行处理的方法及装置
CN107908426A (zh) * 2017-12-21 2018-04-13 江苏国泰新点软件有限公司 跨平台应用程序的设计方法、装置、移动终端及存储介质
CN109598289A (zh) * 2018-11-16 2019-04-09 京东城市(南京)科技有限公司 跨平台的数据处理方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN110728118A (zh) 2020-01-24

Similar Documents

Publication Publication Date Title
CN107908672B (zh) 基于Hadoop平台的应用报表实现方法、设备及存储介质
US9639444B2 (en) Architecture for end-to-end testing of long-running, multi-stage asynchronous data processing services
CN113312191B (zh) 数据分析方法、装置、设备及存储介质
US20150363215A1 (en) Systems and methods for automatically generating message prototypes for accurate and efficient opaque service emulation
CN107861981A (zh) 一种数据处理方法及装置
CN110728118B (zh) 跨数据平台的数据处理方法、装置、设备及存储介质
JP2023036681A (ja) タスク処理方法、処理装置、電子機器、記憶媒体及びコンピュータプログラム
CN114791927A (zh) 一种数据分析方法和装置
CN112016285B (zh) 物流信息的处理方法和处理***
CN116155628B (zh) 网络安全检测方法、训练方法、装置、电子设备和介质
CN114358910A (zh) 异常财务数据处理方法、装置、设备及存储介质
US20210141791A1 (en) Method and system for generating a hybrid data model
CN114996557B (zh) 服务稳定性确定方法、装置、设备以及存储介质
CN117056663B (zh) 一种数据处理方法、装置、电子设备及存储介质
US20230061914A1 (en) Rule based machine learning for precise fraud detection
CN113409136A (zh) 组合服务相似度分析方法、装置、计算机***及存储介质
CN117390099A (zh) 数据查询方法、装置、计算机设备和存储介质
CN114185943A (zh) 一种数据校验***、方法和电子设备
CN117435492A (zh) 数据库性能测试方法、装置、计算机设备和存储介质
Zhang et al. Data-Aware Adaptive Compression for Stream Processing
CN114661749A (zh) 数据处理方法、装置、设备及存储介质
CN116962579A (zh) 话务调度方法、装置、计算机设备、存储介质
CN117391490A (zh) 金融业务的评价信息处理方法、装置和计算机设备
CN117055871A (zh) 一种模型建立方法及装置、存储介质
CN116775981A (zh) ***推荐方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant