CN111475532B - 数据处理的优化方法及装置、存储介质、终端 - Google Patents
数据处理的优化方法及装置、存储介质、终端 Download PDFInfo
- Publication number
- CN111475532B CN111475532B CN202010147752.6A CN202010147752A CN111475532B CN 111475532 B CN111475532 B CN 111475532B CN 202010147752 A CN202010147752 A CN 202010147752A CN 111475532 B CN111475532 B CN 111475532B
- Authority
- CN
- China
- Prior art keywords
- data
- processing
- feature
- fusion
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 216
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000005457 optimization Methods 0.000 title claims abstract description 20
- 230000004927 fusion Effects 0.000 claims abstract description 71
- 238000012549 training Methods 0.000 claims abstract description 49
- 238000007499 fusion processing Methods 0.000 claims abstract description 43
- 238000004891 communication Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 16
- 238000012423 maintenance Methods 0.000 description 6
- 238000013499 data model Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据处理的优化方法及装置、存储介质、终端,涉及数据处理技术领域,主要目的在于解决现有单一应用平台通过模型对具有关联性数据处理效率低、准确性低的问题。包括:从具有关联关系的不同应用平台数据库中获取业务对象的特征数据;根据生成特征数据的数据结构类型,分别对所述特征数据进行特征融合处理;根据处理后的特征融合数据、所述不同应用平台数据库中获取的业务信息训练预设数据处理模型,输出优化后的数据处理模型,所述预设数据处理模型为按照业务需求选取与所述不同应用平台对应的一个数据处理模型。主要用于数据处理的优化。
Description
技术领域
本发明涉及一种数据处理技术领域,特别是涉及一种数据处理的优化方法及装置、存储介质、终端。
背景技术
随着大数据处理的快速发展,对于不同应用平台上通过业务交易等用户交互操作产生的大量数据,都是通过后台***的数据处理来获取分析结果的。其中,对于不同的应用平台会按照应用平台自己的数据处理方式得到对应的数据处理结果,例如,利用特定的模型算法结合用户的交易数据对线上商家的业务交易情况进行排序分析。
目前,现有针对应用平台中数据所实施的数据处理仅仅依赖应用平台自己的用户数据,作为进行算法模型训练的基础数据,以便利用训练好的模型进行运算得到此应用平台的数据处理结果,若不同应用平台间之间存在数据关联,如一个应用平台的数据变化影响另一个应用平台的数据变化,则通过单一的应用平台中的数据训练算法模型后,利用算法模型确定的结果较为独立,导致大量数据丢失,结合业务场景下的模型预测不准确,无法体现关联数据在不同应用平台中的数据关联性,且构建的模型算法针对不同应用平台训练数据较大,维护成本高,从而影响利用算法模型进行数据处理的准确性及效率。
发明内容
有鉴于此,本发明提供一种数据处理的优化方法及装置、存储介质、终端,主要目的在于解决现有单一应用平台通过模型对具有关联性数据处理效率低、准确性低的问题。
依据本发明一个方面,提供了一种数据处理的优化方法,包括:
从具有关联关系的不同应用平台数据库中获取业务对象的特征数据;
根据生成特征数据的数据结构类型,分别对所述特征数据进行特征融合处理;
根据处理后的特征融合数据、所述不同应用平台数据库中获取的业务信息训练预设数据处理模型,输出优化后的数据处理模型,所述预设数据处理模型为按照业务需求选取与所述不同应用平台对应的一个数据处理模型。
进一步地,所述根据生成特征数据的数据结构类型,分别对所述特征数据进行特征融合处理包括:
对所述特征数据划分数据结构类型;
对属于不同应用平台、相同数据结构类型的所述特征数据进行特征融合处理。
进一步地,所述对属于不同应用平台、相同数据结构类型的所述特征数据进行特征融合处理包括:
确定属于不同应用平台、相同数据结构类型的所述特征数据的数据结构,并根据所述数据结构对所述特征数据进行数据加权处理、和/或数据拼接处理。
进一步地,所述对属于不同应用平台、相同数据结构类型的所述特征数据进行特征融合处理之前,所述方法还包括:
判断属于不同应用平台、相同数据结构类型的所述特征数据是否超过预设融合偏差范围;
若超过预设融合偏差范围,则调整用于进行数据加权处理的加权函数。
进一步地,所述根据处理后的特征融合数据、所述不同应用平台数据库中获取的业务信息训练预设数据处理模型,输出优化后的数据处理模型之前,所述方法还包括:
对已完成特征融合处理的所述业务对象的特征数据、所述业务信息进行数值化处理,以使处理后的特征融合数据用于训练所述预设处理模型。
进一步地,所述方法还包括:
按照进行特征融合处理后所述特征数据的数据结构,从所述不同应用平台数据库中提取所述业务对象的业务信息。
进一步地,所述业务对象包括至少一个在业务活动中生成特征数据的数据源对象。
进一步地,所述方法还包括:
当接收到所述业务需求的处理指令时,根据所述处理指令中携带的业务信息、所述数据处理模型输出所述业务需求对应的处理结果。
依据本发明另一个方面,提供了一种数据处理的优化装置,包括:
获取模块,用于从具有关联关系的不同应用平台数据库中获取业务对象的特征数据;
处理模块,用于根据生成特征数据的数据结构类型,分别对所述特征数据进行特征融合处理;
训练模块,用于根据处理后的特征融合数据、所述不同应用平台数据库中获取的业务信息训练预设数据处理模型,输出优化后的数据处理模型,所述预设数据处理模型为按照业务需求选取与所述不同应用平台对应的一个数据处理模型。
进一步地,所述处理模块包括:
划分单元,用于对所述特征数据划分数据结构类型;
处理单元,用于对属于不同应用平台、相同数据结构类型的所述特征数据进行特征融合处理。
进一步地,所述处理单元,具体用于确定属于不同应用平台、相同数据结构类型的所述特征数据的数据结构,并根据所述数据结构对所述特征数据进行数据加权处理、和/或数据拼接处理。
进一步地,所述处理模块还包括:
判断单元,用于判断属于不同应用平台、相同数据结构类型的所述特征数据是否超过预设融合偏差范围;
调整单元,用于若超过预设融合偏差范围,则调整用于进行数据加权处理的加权函数。
进一步地,所述处理模块,还用于对已完成特征融合处理的所述业务对象的特征数据、所述业务信息进行数值化处理,以使处理后的特征融合数据用于训练所述预设处理模型。
进一步地,所述装置还包括:
提取模块,用于按照进行特征融合处理后所述特征数据的数据结构,从所述不同应用平台数据库中提取所述业务对象的业务信息。
进一步地,所述业务对象包括至少一个在业务活动中生成特征数据的数据源对象。
进一步地,所述装置还包括:
输出模块,用于当接收到所述业务需求的处理指令时,根据所述处理指令中携带的业务信息、所述数据处理模型输出所述业务需求对应的处理结果。
根据本发明的又一方面,提供了一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述数据处理的优化方法对应的操作。
根据本发明的再一方面,提供了一种终端,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述数据处理的优化方法对应的操作。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明提供了一种数据处理的优化方法及装置、存储介质、终端,与现有技术针对应用平台中数据所实施的数据处理仅仅依赖应用平台自己的用户数据,作为进行算法模型训练的基础数据相比,本发明实施例通过从不同应用平台中获取业务对象的特征数据,按照数据结构类型融合特征数据,并利用融合后的特征数据及业务信息对数据模型进行训练优化,实现多应用平台间的数据处理关联性的体现,提高利用数据处理模型进行业务处理的准确性,提高数据的利用率,以特征融合后单一的数据处理模型作为多个应用平台的训练模型,减少了应用平台训练数据资源消耗,降低维护成本,从而提高了利用算法模型进行数据处理的准确性及效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种数据处理的优化方法流程图;
图2示出了本发明实施例提供的另一种数据处理的优化方法流程图;
图3示出了本发明实施例提供的一种多个应用平台中特征数据融合后的模型训练流程图;
图4示出了本发明实施例提供的一种数据处理的优化装置组成框图;
图5示出了本发明实施例提供的另一种数据处理的优化装置组成框图;
图6示出了本发明实施例提供的一种终端的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种数据处理的优化方法,如图1所示,该方法包括:
101、从具有关联关系的不同应用平台数据库中获取业务对象的特征数据。
本发明实施例中,具有关联关系的不同应用平台为至少2个存在数据关联应用平台,例如用户1在应用平台a中所进行的业务活动产生业务数据的同时,在应用平台b中同样产生业务数据,本发明实施例不做具体限定。另外,具有关联关系的不同应用平台还可以为存在业务关联的至少2个应用平台,例如,分别提供外卖服务和到店服务的应用平台之间存在业务关联,或者分别提供电子商务应用和电子支付应用的应用平台之间存在业务关联,即应用平台之间提供的业务服务是有关联的,本发明实施例不做具体限定。所述业务对象包括至少一个在业务活动中生成特征数据的数据源对象,数据源对象可以为在应用平台中进行业务活动的用户、线上商家等,业务对象可以针对不同的业务活动包括用户及线上商家,也可以包括多个用户,或者多个线上商家等,例如,针对用户对商家进行点单排序的业务,业务对象可以包括用户及线上商家,本发明实施例不做具体限定。当业务对象在进行业务过的中,根据不同的业务活动会产生不同的特征数据,即所述特征数据可以为用户的画像,也可以为线上商家的画像等,如用户进行业务活动的时间特征、身份特征等,本发明实施例不做具体限定。
需要说明的是,不同的业务对象在不应用平台中进行业务活动时产生的特征数据会存储至对应的业务平台数据库中,因此,在获取特征数据时,需要从不同应用平台数据库中获取不同业务对象的特征数据,例如,分别从应用平台1的数据库中获取用户a及商家a的特征数据,以及从应用平台2的数据库中获取用户a及商家a的特征数据。
102、根据生成特征数据的数据结构类型,分别对所述特征数据进行特征融合处理。
由于业务对象在不同应用平台中进行业务活动时会将生成的特征数据分别存储在对应的应用平台数据库中,因此,在存储过中,对于不同的特征数据可以生成不同的数据结构类型,为了使作为基础数据的特征数据可以作为一个数据处理模型的训练数据优化模型,按照数据结构类型分别对特征数据进行特征融合处理。其中,数据结构类型可以包括数值型数据结构、列表型数据结构、字典型数据结构等,对于不同类型的数据结构可以按照不同的方式进行特征融合处理,例如,数值型数据结构的特征数据可以直接通过加权平均函数进行融合,本发明实施例不做限定。
需要说明的是,由于业务对象包括至少一个在业务活动中生成特征数据的数据源对象,因此,若业务对象为1个数据源对象,将不同应用平台数据库中此数据源对象的特征数据进行融合处理,若业务对象为多个数据源对象,分别将不同应用平台数据库中的数据源对象分别对应的特征数据进行融合处理,例如,若业务对象包括用户和线上商家,则对不同应用平台数据库中用户的特征数据进行融合处理,以及对不同应用平台数据库中线上商家的特征数据进行融合处理,本发明实施例不做具体限定。
103、根据处理后的特征融合数据、所述不同应用平台数据库中获取的业务信息训练预设数据处理模型,输出优化后的数据处理模型。
本发明实施例中,为了优化用于进行数据处理的数据处理模型,以便得到适用多应用平台适用的数据处理模型,根据处理后的特征融合数据、不同应用平台数据库中获取的业务信息训练预设数据处理模型。其中,所述预设数据处理模型为按照业务需求选取与所述不同应用平台对应的一个数据处理模型,即不同应用平台可以使用共同的一个数据处理模型来进行数据运算,从而使不同应用平台之间数据的处理实现关联性,业务需求包括不同业务活动中用户对业务产生的需求,例如,订单业务排序等,本发明实施例不做具体限定。另外,对于业务信息的获取,包括业务对象在业务活动中产生的全部信息,例如订单信息,收藏信息等,本发明实施例不做具体限定。
需要说明的是,本发明实施例中的预设数据处理模型可以为按照业务需求选取与不同应用平台对应的一个数据处理模块,例如,应用平台1、应用平台2,根据订单排序的业务需求,选取与应用平台1和应用平台2对比的一个机器学习模型,如逻辑回归、xgboost模型等,通过对此模型训练,完成对数据处理的优化,从而得到优化后的数据处理模型。
本发明提供了一种数据处理的优化方法,与现有技术针对应用平台中数据所实施的数据处理仅仅依赖应用平台自己的用户数据,作为进行算法模型训练的基础数据相比,本发明实施例通过从不同应用平台中获取业务对象的特征数据,按照数据结构类型融合特征数据,并利用融合后的特征数据及业务信息对数据模型进行训练优化,实现多应用平台间的数据处理关联性的体现,提高利用数据处理模型进行业务处理的准确性,提高数据的利用率,以特征融合后单一的数据处理模型作为多个应用平台的训练模型,减少了应用平台训练数据资源消耗,降低维护成本,从而提高了利用算法模型进行数据处理的准确性及效率。
本发明实施例提供了另一种数据处理的优化方法,如图2所示,该方法包括:
201、从具有关联关系的不同应用平台数据库中获取业务对象的特征数据。
本步骤与图1所示的步骤101方法相同,在此不再赘述。
202、对所述特征数据划分数据结构类型。
对于本发明实施例,由于特征数据存储在不同应用平台数据中的数据结构类型不同,为了使相同数据结构类型的特征数据可以进行特征融合处理,需要对获取到的特征数据划分数据结构类型。其中,数据结构类型可以包括数值型数据结构、列表型数据结构、字典型数据结构等,对于不同类型的数据结构可以按照不同的方式进行特征融合处理,本发明实施例不做具体限定。
需要说明的是,对数据结构类型的划分,可以按照特征数据存储于不同应用平台数据库中的存储标识来确定,例如,数据库中存储标识为int,则可以确定为数值型数据结构,数据库中存储标识为list,则可以确定为列表型数据结构,数据库中存储标识为dict,则可以确定为字典型数据结构,以便根据不同的数据结构进行不同方式的融合处理。
203、对属于不同应用平台、相同数据结构类型的所述特征数据进行特征融合处理。
对于本发明实施例,为了使不用应用平台中具有关联性的数据进行结合处理,因此,需要对属于不同应用平台、相同数据结构类型的特征数据进行特征融合处理。其中,不同应用平台、相同数据结构类型的特征数据为业务对象在不同应用平台中进行业务活动过程中产生的相同数据结构类型的特征数据,例如,用户a在应用平台1和应用平台2中产生了相同数据结构类型的特征数据分别为数值型20、10,则对数值型的特征数据20、10进行特征融合处理。
对于本发明实施例,为了进一步说明及限定,以实现不同数据结构的特征数据进行不同方式的特征融合处理,步骤203具体可以包括:确定属于不同应用平台、相同数据结构类型的所述特征数据的数据结构,并根据所述数据结构对所述特征数据进行数据加权处理、和/或数据拼接处理。
由于不同的数据结构类型的特征数据在作为训练数据集对模型进行训练时,数据处理模型的训练方式不同,因此,需要将不同类型的数据结构按照对应的融合方式进行处理。另外,由于数据结构类型包括数值型数据结构、列表型数据结构、字典型数据结构等,在进行特征融合处理时,由于数值型的特征数据仅仅包含有数值,因此在进行特征融合处理时,可以利用加权函数对属于数值的特征数据进行数据加权处理,例如,用户A在平台1、平台2的客单价分别为40,38,之后对着两个数调用加权平均函数g(40,38)。由于列表型数据结构包含有数值及对应的存储位置,因此在进行特征融合处理时,可以对属于列表型的特征数据进行数据拼接处理,例如,用户喜欢的商户属于平台1的列表feature1=[id1,id2],平台2的列表fature2=[id1,id4],进行数据拼接处理,融合之后的特征feature_merge=[id1,id2,id4]。由于字典型数据结构包含有关键字key,以及对应的数值,因此在进行特征融合处理时,可以对属于字典型的特征数据进行数据加权处理及数据拼接处理,例如,平台1中的feature1和平台2中的feature2具有同key,则进行加权处理,平台1中的feature1和平台2中的feature2不同key,则进行拼接处理,再如,feature1={k1:v1,k2:v2},feature2={k1:v3,k4:v4},用加权平均函数g(x1,x2)进行加权平均,则feature_merge={k1:g(v1,v3),k4:v4}。
进一步地,为了使特征融合更为准确,提高特征融合效率,步骤203之前,本发明实施例还包括:判断属于不同应用平台、相同数据结构类型的所述特征数据是否超过预设融合偏差范围;若超过预设融合偏差范围,则调整用于进行数据加权处理的加权函数。
其中,预设融合偏差范围为根据不同特征数据配置的、不同数据结构融合的偏差值,如对于数值型的数值在利用加权函数进行融合时,若其中一个数值较大,另一个数值较小,融合后的数值可能出现偏差,例如,商户在平台1的曝光是10,在平台2的曝光是1000,按照加权函数g(x1,x2)=(x1+x2)/2融合后,特征对于曝光多的商户来说就可能出现比较大的偏差,因此,根据配置的预设融合偏差范围来确定是否对加权函数进行调整。本发明实施例中,加权函数即为进行加权处理的预设的处理函数,可以调整为g(x1,x2)=(w1*x1+w2*x2)/(w1+w2),其中,w1、w2分别为调整的加权系数,本发明实施例不做具体限定。通过调整加权函数,从而提高对特征数据融合的融合准确度,提高数据处理的效率。
204、按照进行特征融合处理后所述特征数据的数据结构,从所述不同应用平台数据库中提取所述业务对象的业务信息。
本发明实施例中,为了使从不同应用平台中获取到的业务对象对应的业务信息与进行特征融合处理后的特征数据相匹配,则按照进行特征融合处理后特征数据的数据结构提取业务对象的业务信息。例如,若特征融合后的特征数据的数据结构为数值型,则按照数值型来提取用户的订单信息,本发明实施例不做具体限定。
205、对已完成特征融合处理的所述业务对象的特征数据、所述业务信息进行数值化处理。
本发明实施例中,对于完成特征融合处理的特征数据,为了利用特征融合处理后的特征数据对预设数据处理模型进行训练,需要对特征数据进行数值化处理,以使处理后的特征融合数据用于训练所述预设处理模型。其中,对于特征数据、业务信息可以进行合并,以业务对象为主键,分别加入特征融合后的特征数据,以便统一进行数值化处理,例如,用户id、商户id为主键,将特征融合后的特征数据进行合并得到[id,merge_feature1,...,label],进一步的为了作为模型可以训练的数据,进行数值化。
本发明实施例中,数值化可以通过预设数值化公式进行计算,例如,预设数值化公式为:xpercentil(98)为98分位数,xmin为x的最小值。
206、根据处理后的特征融合数据、所述不同应用平台数据库中获取的业务信息训练预设数据处理模型,输出优化后的数据处理模型。
本步骤与图1所示的步骤103方法相同,在此不再赘述。例如,如图3所示的多个应用平台中特征数据融合后的模型训练流程图。
207、当接收到所述业务需求的处理指令时,根据所述处理指令中携带的业务信息、所述数据处理模型输出所述业务需求对应的处理结果。
本发明实施例中,为了实现数据处理的优化,提高不同业务需求下对数据处理的准确率及效率,当接收到业务需求的处理指令时,根据携带的业务信息,以及数据处理模型输出处理结果。例如,当接收到2个应用平台中商家的排序的处理指令时,根据指令中携带的订单信息,调取商家、用户对应的数据,利用计算商家排序的数据处理模型输出适用于2个应用平台的处理结果。
本发明提供了另一种数据处理的优化方法,与现有技术针对应用平台中数据所实施的数据处理仅仅依赖应用平台自己的用户数据,作为进行算法模型训练的基础数据相比,本发明实施例通过从不同应用平台中获取业务对象的特征数据,按照数据结构类型融合特征数据,并利用融合后的特征数据及业务信息对数据模型进行训练优化,实现多应用平台间的数据处理关联性的体现,提高利用数据处理模型进行业务处理的准确性,提高数据的利用率,以特征融合后单一的数据处理模型作为多个应用平台的训练模型,减少了应用平台训练数据资源消耗,降低维护成本,从而提高了利用算法模型进行数据处理的准确性及效率。
进一步的,作为对上述图1所示方法的实现,本发明实施例提供了一种数据处理的优化装置,如图4所示,该装置包括:获取模块31、处理模块32、训练模块33。
获取模块31,用于从具有关联关系的不同应用平台数据库中获取业务对象的特征数据;
处理模块32,用于根据生成特征数据的数据结构类型,分别对所述特征数据进行特征融合处理;
训练模块33,用于根据处理后的特征融合数据、所述不同应用平台数据库中获取的业务信息训练预设数据处理模型,输出优化后的数据处理模型,所述预设数据处理模型为按照业务需求选取与所述不同应用平台对应的一个数据处理模型。
本发明提供了一种数据处理的优化装置,与现有技术针对应用平台中数据所实施的数据处理仅仅依赖应用平台自己的用户数据,作为进行算法模型训练的基础数据相比,本发明实施例通过从不同应用平台中获取业务对象的特征数据,按照数据结构类型融合特征数据,并利用融合后的特征数据及业务信息对数据模型进行训练优化,实现多应用平台间的数据处理关联性的体现,提高利用数据处理模型进行业务处理的准确性,提高数据的利用率,以特征融合后单一的数据处理模型作为多个应用平台的训练模型,减少了应用平台训练数据资源消耗,降低维护成本,从而提高了利用算法模型进行数据处理的准确性及效率。
进一步的,作为对上述图2所示方法的实现,本发明实施例提供了另一种数据处理的优化装置,如图5所示,该装置包括:获取模块41、处理模块42、训练模块43、提取模块44、输出模块45。
获取模块41,用于从具有关联关系的不同应用平台数据库中获取业务对象的特征数据;
处理模块42,用于根据生成特征数据的数据结构类型,分别对所述特征数据进行特征融合处理;
训练模块43,用于根据处理后的特征融合数据、所述不同应用平台数据库中获取的业务信息训练预设数据处理模型,输出优化后的数据处理模型,所述预设数据处理模型为按照业务需求选取与所述不同应用平台对应的一个数据处理模型。
进一步地,所述处理模块42包括:
划分单元4201,用于对所述特征数据划分数据结构类型;
处理单元4202,用于对属于不同应用平台、相同数据结构类型的所述特征数据进行特征融合处理。
进一步地,所述处理单元4202,具体用于确定属于不同应用平台、相同数据结构类型的所述特征数据的数据结构,并根据所述数据结构对所述特征数据进行数据加权处理、和/或数据拼接处理。
进一步地,所述处理模块42还包括:
判断单元4203,用于判断属于不同应用平台、相同数据结构类型的所述特征数据是否超过预设融合偏差范围;
调整单元4204,用于若超过预设融合偏差范围,则调整用于进行数据加权处理的加权函数。
进一步地,所述处理模块42,还用于对已完成特征融合处理的所述业务对象的特征数据、所述业务信息进行数值化处理,以使处理后的特征融合数据用于训练所述预设处理模型。
进一步地,所述装置还包括:
提取模块44,用于按照进行特征融合处理后所述特征数据的数据结构,从所述不同应用平台数据库中提取所述业务对象的业务信息。
进一步地,所述业务对象包括至少一个在业务活动中生成特征数据的数据源对象。
进一步地,所述装置还包括:
输出模块45,用于当接收到所述业务需求的处理指令时,根据所述处理指令中携带的业务信息、所述数据处理模型输出所述业务需求对应的处理结果。
本发明提供了另一种数据处理的优化装置,与现有技术针对应用平台中数据所实施的数据处理仅仅依赖应用平台自己的用户数据,作为进行算法模型训练的基础数据相比,本发明实施例通过从不同应用平台中获取业务对象的特征数据,按照数据结构类型融合特征数据,并利用融合后的特征数据及业务信息对数据模型进行训练优化,实现多应用平台间的数据处理关联性的体现,提高利用数据处理模型进行业务处理的准确性,提高数据的利用率,以特征融合后单一的数据处理模型作为多个应用平台的训练模型,减少了应用平台训练数据资源消耗,降低维护成本,从而提高了利用算法模型进行数据处理的准确性及效率。
根据本发明一个实施例提供了一种存储介质,所述存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的数据处理的优化方法。
图6示出了根据本发明一个实施例提供的一种终端的结构示意图,本发明具体实施例并不对终端的具体实现做限定。
如图6所示,该终端可以包括:处理器(processor)502、通信接口(CommunicationsInterface)504、存储器(memory)506、以及通信总线508。
其中:处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。
通信接口504,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器502,用于执行程序510,具体可以执行上述数据处理的优化方法实施例中的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。
处理器502可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。终端包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序510具体可以用于使得处理器502执行以下操作:
从具有关联关系的不同应用平台数据库中获取业务对象的特征数据;
根据生成特征数据的数据结构类型,分别对所述特征数据进行特征融合处理;
根据处理后的特征融合数据、所述不同应用平台数据库中获取的业务信息训练预设数据处理模型,输出优化后的数据处理模型,所述预设数据处理模型为按照业务需求选取与所述不同应用平台对应的一个数据处理模型。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (12)
1.一种数据处理的优化方法,其特征在于,包括:
从具有关联关系的第一应用平台和第二应用平台分别获取第一用户特征数据和第一商户特征数据,以及第二用户特征数据和第二商户特征数据;
对第一用户特征数据、第二用户特征数据、第一商户特征数据、第二商户特征数据的特征数据划分数据结构类型,对属于不同应用平台、相同业务对象、相同数据结构类型的所述特征数据进行特征融合处理,得到用户特征融合数据和商户特征融合数据;
按照所述用户特征融合数据和所述商户特征融合数据的数据结构,从第一应用平台和第二应用平台分别获取第一订单信息和第二订单信息;
根据所述用户特征融合数据和所述商户特征融合数据、所述第一订单信息、所述第二订单信息训练预设数据处理模型,输出优化后的数据处理模型,所述预设数据处理模型为按照业务需求选取与不同应用平台对应的一个数据处理模型。
2.根据权利要求1所述的方法,其特征在于,所述对属于不同应用平台、相同业务对象、相同数据结构类型的所述特征数据进行特征融合处理包括:
确定属于不同应用平台、相同业务对象、相同数据结构类型的所述特征数据的数据结构,并根据所述数据结构对所述特征数据进行数据加权处理和/或数据拼接处理。
3.根据权利要求1所述的方法,其特征在于,所述对属于不同应用平台、相同业务对象、相同数据结构类型的所述特征数据进行特征融合处理之前,所述方法还包括:
判断属于不同应用平台、相同业务对象、相同数据结构类型的所述特征数据是否超过预设融合偏差范围;
若超过预设融合偏差范围,则调整用于进行数据加权处理的加权函数。
4.根据权利要求1所述的方法,其特征在于,所述根据所述用户特征融合数据、所述商户特征融合数据、所述第一订单信息、所述第二订单信息训练预设数据处理模型,输出优化后的数据处理模型之前,所述方法还包括:
对所述用户特征融合数据、所述商户特征融合数据、所述第一订单信息、所述第二订单信息进行数值化处理,以使处理后的特征融合数据用于训练所述预设数据处理模型。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当接收到所述业务需求的处理指令时,根据所述处理指令中携带的业务信息、所述数据处理模型输出所述业务需求对应的处理结果。
6.一种数据处理的优化装置,其特征在于,包括:
获取模块,用于从具有关联关系的第一应用平台和第二应用平台分别获取第一用户特征数据和第一商户特征数据,以及第二用户特征数据和第二商户特征数据;
处理模块,用于根据生成特征数据的数据结构类型,分别对第一用户特征数据、第二用户特征数据,和,第一商户特征数据、第二商户特征数据进行特征融合处理;其中,所述处理模块包括:划分单元,用于对第一用户特征数据、第二用户特征数据、第一商户特征数据、第二商户特征数据的特征数据划分数据结构类型;以及,处理单元,用于对属于不同应用平台、相同业务对象、相同数据结构类型的所述特征数据进行特征融合处理,得到用户特征融合数据和商户特征融合数据;
提取模块,用于按照所述用户特征融合数据和所述商户特征融合数据的数据结构,从第一应用平台和第二应用平台分别获取第一订单信息和第二订单信息;
训练模块,用于根据所述用户特征融合数据和所述商户特征融合数据训练预设数据处理模型,输出优化后的数据处理模型,所述预设数据处理模型为按照业务需求选取与不同应用平台对应的一个数据处理模型。
7.根据权利要求6所述的装置,其特征在于,
所述处理单元,具体用于确定属于不同应用平台、相同业务对象、相同数据结构类型的所述特征数据的数据结构,并根据所述数据结构对所述特征数据进行数据加权处理和/或数据拼接处理。
8.根据权利要求6所述的装置,其特征在于,所述处理模块还包括:
判断单元,用于判断属于不同应用平台、相同业务对象、相同数据结构类型的所述特征数据是否超过预设融合偏差范围;
调整单元,用于若超过预设融合偏差范围,则调整用于进行数据加权处理的加权函数。
9.根据权利要求8所述的装置,其特征在于,
所述处理模块,还用于对所述用户特征融合数据、所述商户特征融合数据、所述第一订单信息、所述第二订单信息进行数值化处理,以使处理后的特征融合数据用于训练所述预设数据处理模型。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
输出模块,用于当接收到所述业务需求的处理指令时,根据所述处理指令中携带的业务信息、所述数据处理模型输出所述业务需求对应的处理结果。
11.一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-5中任一项所述的数据处理的优化方法对应的操作。
12.一种终端,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-5中任一项所述的数据处理的优化方法对应的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010147752.6A CN111475532B (zh) | 2020-03-05 | 2020-03-05 | 数据处理的优化方法及装置、存储介质、终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010147752.6A CN111475532B (zh) | 2020-03-05 | 2020-03-05 | 数据处理的优化方法及装置、存储介质、终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111475532A CN111475532A (zh) | 2020-07-31 |
CN111475532B true CN111475532B (zh) | 2023-11-03 |
Family
ID=71747292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010147752.6A Active CN111475532B (zh) | 2020-03-05 | 2020-03-05 | 数据处理的优化方法及装置、存储介质、终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111475532B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609096A (zh) * | 2021-07-19 | 2021-11-05 | 北京智思迪科技有限公司 | 一种数据处理方法及装置 |
CN113626415B (zh) * | 2021-08-27 | 2024-02-23 | 天元大数据信用管理有限公司 | 一种信用数据输出方法、设备及介质 |
CN115129992A (zh) * | 2022-07-04 | 2022-09-30 | 北京深演智能科技股份有限公司 | 数据的处理方法及装置、非易失性存储介质、处理器 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101901252A (zh) * | 2010-06-23 | 2010-12-01 | 中兴通讯股份有限公司 | 一种整合多个网站中同一用户数据的方法及整合平台 |
CN106407416A (zh) * | 2016-09-23 | 2017-02-15 | 维沃移动通信有限公司 | 一种应用程序数据整合的方法及移动终端 |
CN106980999A (zh) * | 2016-01-19 | 2017-07-25 | 阿里巴巴集团控股有限公司 | 一种用户推荐的方法和设备 |
CN107464174A (zh) * | 2017-08-21 | 2017-12-12 | 合肥工业大学 | 一种基于商圈的外卖平台、外卖点餐***及点餐方法 |
CN108510421A (zh) * | 2018-01-29 | 2018-09-07 | 湖北省楚天云有限公司 | 一种政务服务***、方法、设备以及介质 |
CN108959369A (zh) * | 2018-05-22 | 2018-12-07 | 国网浙江省电力有限公司电力科学研究院 | 一种海量数据平台与大数据平台融合方法 |
CN108984733A (zh) * | 2018-07-13 | 2018-12-11 | 北京京东金融科技控股有限公司 | 跨域数据融合方法、***以及存储介质 |
CN109146606A (zh) * | 2018-07-09 | 2019-01-04 | 广州品唯软件有限公司 | 一种品牌推荐方法、电子设备、存储介质及*** |
CN109493319A (zh) * | 2018-10-10 | 2019-03-19 | 武汉联影医疗科技有限公司 | 融合图像效果量化方法、装置、计算机设备和存储介质 |
CN109726321A (zh) * | 2019-01-11 | 2019-05-07 | 安徽爱吉泰克科技有限公司 | 一种可视化集成云计算应用***及方法 |
CN110069988A (zh) * | 2019-01-31 | 2019-07-30 | 中国平安财产保险股份有限公司 | 基于多维数据的ai驾驶风险分析方法、服务器及存储介质 |
CN110119413A (zh) * | 2019-04-30 | 2019-08-13 | 京东城市(南京)科技有限公司 | 数据融合的方法和装置 |
CN110532254A (zh) * | 2018-05-25 | 2019-12-03 | 杭州海康威视数字技术股份有限公司 | 融合数据表的方法和装置 |
CN110704543A (zh) * | 2019-08-19 | 2020-01-17 | 上海机电工程研究所 | 多类型多平台信息数据自适应融合***及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060204107A1 (en) * | 2005-03-04 | 2006-09-14 | Lockheed Martin Corporation | Object recognition system using dynamic length genetic training |
-
2020
- 2020-03-05 CN CN202010147752.6A patent/CN111475532B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101901252A (zh) * | 2010-06-23 | 2010-12-01 | 中兴通讯股份有限公司 | 一种整合多个网站中同一用户数据的方法及整合平台 |
CN106980999A (zh) * | 2016-01-19 | 2017-07-25 | 阿里巴巴集团控股有限公司 | 一种用户推荐的方法和设备 |
CN106407416A (zh) * | 2016-09-23 | 2017-02-15 | 维沃移动通信有限公司 | 一种应用程序数据整合的方法及移动终端 |
CN107464174A (zh) * | 2017-08-21 | 2017-12-12 | 合肥工业大学 | 一种基于商圈的外卖平台、外卖点餐***及点餐方法 |
CN108510421A (zh) * | 2018-01-29 | 2018-09-07 | 湖北省楚天云有限公司 | 一种政务服务***、方法、设备以及介质 |
CN108959369A (zh) * | 2018-05-22 | 2018-12-07 | 国网浙江省电力有限公司电力科学研究院 | 一种海量数据平台与大数据平台融合方法 |
CN110532254A (zh) * | 2018-05-25 | 2019-12-03 | 杭州海康威视数字技术股份有限公司 | 融合数据表的方法和装置 |
CN109146606A (zh) * | 2018-07-09 | 2019-01-04 | 广州品唯软件有限公司 | 一种品牌推荐方法、电子设备、存储介质及*** |
CN108984733A (zh) * | 2018-07-13 | 2018-12-11 | 北京京东金融科技控股有限公司 | 跨域数据融合方法、***以及存储介质 |
CN109493319A (zh) * | 2018-10-10 | 2019-03-19 | 武汉联影医疗科技有限公司 | 融合图像效果量化方法、装置、计算机设备和存储介质 |
CN109726321A (zh) * | 2019-01-11 | 2019-05-07 | 安徽爱吉泰克科技有限公司 | 一种可视化集成云计算应用***及方法 |
CN110069988A (zh) * | 2019-01-31 | 2019-07-30 | 中国平安财产保险股份有限公司 | 基于多维数据的ai驾驶风险分析方法、服务器及存储介质 |
CN110119413A (zh) * | 2019-04-30 | 2019-08-13 | 京东城市(南京)科技有限公司 | 数据融合的方法和装置 |
CN110704543A (zh) * | 2019-08-19 | 2020-01-17 | 上海机电工程研究所 | 多类型多平台信息数据自适应融合***及方法 |
Non-Patent Citations (1)
Title |
---|
李莉等.自适应加权数据融合加权因子的动态调整.《战术导弹技术》.2011,(第3期),第[109]-[111]页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111475532A (zh) | 2020-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111475532B (zh) | 数据处理的优化方法及装置、存储介质、终端 | |
US11361364B2 (en) | Shopping recommendation method, client, and server | |
US9087108B2 (en) | Determination of category information using multiple stages | |
EP3373543A1 (en) | Service processing method and apparatus | |
CN109933617B (zh) | 一种数据处理方法、装置以及相关设备和介质 | |
CN111461345A (zh) | 深度学习模型训练方法及装置 | |
US10902350B2 (en) | System and method for relationship identification | |
CN112016967B (zh) | 一种交易数据处理方法与装置 | |
US11165561B2 (en) | Determining a change to product information or user information via hashing | |
CN112698818A (zh) | 一种基于活动页面的积分兑换方法、装置及积分兑换*** | |
CN115907926A (zh) | 商品的推荐方法、装置、电子设备及存储介质 | |
CN112561538B (zh) | 风险模型创制方法、装置、计算机设备及可读存储介质 | |
CN112507725B (zh) | 金融信息的静态发布方法、装置、设备及存储介质 | |
CN112182107B (zh) | 名单数据获取方法、装置、计算机设备及存储介质 | |
CN113379499A (zh) | 物品筛选方法及装置、电子设备、存储介质 | |
CN111291019B (zh) | 数据模型的相似判别方法及装置 | |
CN111506784B (zh) | 资产债权匹配方法、装置、计算机设备及存储介质 | |
CN113407849A (zh) | 一种粗排序的方法及装置 | |
CN109214874B (zh) | Ip产品运营数据处理方法、装置、设备及可读存储介质 | |
CN112084408A (zh) | 名单数据筛选方法、装置、计算机设备及存储介质 | |
CN111461825A (zh) | 一种虚拟资源的生成方法、装置、电子设备及存储介质 | |
CN111598638A (zh) | 点击率确定方法、装置及设备 | |
CN112328960B (zh) | 数据运算的优化方法、装置、电子设备及存储介质 | |
CN111858832B (zh) | 一种对话方法、装置、电子设备和存储介质 | |
CN115063217B (zh) | 预算管理方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |