CN110490304B - 一种数据处理方法及设备 - Google Patents
一种数据处理方法及设备 Download PDFInfo
- Publication number
- CN110490304B CN110490304B CN201910775569.8A CN201910775569A CN110490304B CN 110490304 B CN110490304 B CN 110490304B CN 201910775569 A CN201910775569 A CN 201910775569A CN 110490304 B CN110490304 B CN 110490304B
- Authority
- CN
- China
- Prior art keywords
- feature
- target
- target data
- data
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 16
- 238000000605 extraction Methods 0.000 claims abstract description 95
- 239000013598 vector Substances 0.000 claims abstract description 70
- 230000007246 mechanism Effects 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000013528 artificial neural network Methods 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 30
- 230000000694 effects Effects 0.000 claims abstract description 19
- 230000015654 memory Effects 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 11
- 238000012216 screening Methods 0.000 abstract description 7
- 238000004141 dimensional analysis Methods 0.000 abstract description 3
- 238000007477 logistic regression Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 6
- 206010070834 Sensitisation Diseases 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000005291 magnetic effect Effects 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013019 agitation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请的目的是提供一种数据处理方法及设备,本申请使得在利用注意力机制和时间循环神经网络将获取的多维度、异构的待处理的目标数据中的特征提取出来的同时,忽视目标数据中的噪声与无用部分,筛选出目标数据中的重要信息和非重要信息,使得两种信息在目标数据的特征向量中所占的权重不同,以确保对目标数据进行多维度的分析及特征提取,以得到目标数据的特征向量并作为目标任务对应的任务模型的输入,经过任务模型的处理得到目标任务的执行结果,避免了人工数据处理的过程中出现的信息丢失的问题,节约人力,同时,提高目标数据的特征提取的筛选能力和拟合能力,改善了目标数据的特征提取效果,从而提高了目标任务执行结果的可靠性。
Description
技术领域
本申请涉及计算机领域,尤其涉及一种数据处理的方法及设备。
背景技术
现有技术中,数据特征提取技术作为从海量数据源中提取有用信息的技术,已经成为了大数据互联网时代不可缺少的一项技术,也是人工智能相关技术的基石。所谓数据特征提取技术,就是从不同的数据源(例如金融数据、图像数据、文本数据、语言数据等)中,自动地将其有用的部分提取出来,转化为能够直接概括这些数据关键信息的编码,从而用于机器学习、深度学习等模型的训练和推断。
当前常用的数据特征抽取技术主要分为两大类:1、基于人工特征模板的特征抽取技术,该类技术利用相关领域专家的先验知识,总结出一套规则体系,并将其转化为人工智能模型的输入,例如金融领域专家整理的股票走势映射表,语言学家整理的文字偏旁部首映射表等;2、基于统计机器学习方法的自动特征抽取技术,该类技术利用大量的人工标注数据(监督数据)或者无人工标注数据(无监督数据)提前训练好特征抽取器,然后作为数据集与目标模型之间的管道,常见的方法有主成分分析、自编码器、梯度提升决策树等等。
上述两类传统的特征抽取技术都存在着各自的缺点,比如,基于人工特征模板的特征抽取技术往往存在召回率低的问题,即人工提取特征虽然较为精准,但往往不能够捕获所有的信息,从而造成许多有用的信息丢失,并且人工构造特征模板十分费时费力;而基于统计机器学习方法的特征抽取技术虽然在一定程度上弥补了基于人工特征模板的特征抽取技术的缺点,但是其存在模型拟合能力有限、无法高度并行的缺点,并且很难在多维度、异构的数据源上进行处理。
发明内容
本申请的一个目的是提供一种数据处理方法及设备,以解决现有技术中如何对待处理的多维度、异构的数据进行处理的问题。
根据本申请的一个方面,提供了一种数据处理方法,包括:
获取目标任务及所述目标任务对应的任务模型和待处理的目标数据;
基于注意力机制和时间循环神经网络对所述目标数据进行特征提取,得到所述目标数据的特征向量;
将所述目标数据的特征向量输入所述任务模型以执行所述目标任务,得到所述目标任务的执行结果。
进一步地,上述数据处理方法中,所述获取目标任务及所述目标任务对应的任务模型和待处理的目标数据,包括:
获取目标任务;
基于所述目标任务确定对应的任务模型和待处理数据;分别对所述待处理数据进行去噪、脱敏、清洗脚本及归一化处理,得到待处理的目标数据,其中,所述目标数据包括至少一个时间步对应的原始数据,所述原始数据包括至少一条。
进一步地,上述数据处理方法中,所述基于注意力机制和时间循环神经网络对所述目标数据进行特征提取,得到所述目标数据的特征向量,包括:
依序基于软注意力机制和时间循环神经网络,分别对每个所述时间步对应的原始数据进行特征提取,得到每个所述时间步对应的原始数据的特征序列;
基于多头注意力机制对所有所述时间步对应的原始数据的特征序列进行特征提取,并将提取出的特征经过前馈神经网络进行整合,得到所述目标数据的特征向量。
进一步地,上述数据处理方法中,所述依序基于软注意力机制和时间循环神经网络,分别对每个所述时间步对应的原始数据进行特征提取,得到每个所述时间步对应的原始数据的特征序列,包括:
基于与所述目标数据对应的嵌入算法,分别对每个所述时间步对应的原始数据进行向量化处理,得到每个所述时间步对应的原始数据的稠密向量;
基于所述软注意力机制分别对每个所述时间步对应的原始数据的稠密向量进行特征提取和特征加权,得到每个所述时间步对应的原始数据的注意力特征序列;
基于所述时间循环神经网络,分别对每个所述时间步对应的原始数据的注意力特征序列进行特征学习,得到每个所述时间步对应的原始数据的特征序列,其中,所述特征序列包括长距离特征依赖关系。
进一步地,上述数据处理方法中,所述基于多头注意力机制对所有所述时间步对应的原始数据的特征序列进行特征提取,并将提取出的特征经过前馈神经网络进行整合,得到所述目标数据的特征向量,包括:
将所有所述时间步对应的原始数据的特征序列经过至少一次仿射变换后,基于多头注意力机制分别对每次仿射变换后的、所述目标数据对应的特征序列进行特征提取和特征加权,得到所述多头注意力机制中的每个软注意力机制对应的目标数据的特征序列;
将所述多头注意力机制中的每个软注意力机制对应的目标数据的特征序列,经过所述前馈神经网络进行整合,得到所述目标数据的特征向量。
进一步地,上述数据处理方法中,所述方法还包括:
基于所述目标任务的执行结果对所述目标数据进行特征调整,得到所述目标数据的更新后的特征向量;
将所述目标数据的更新后的特征向量输入所述任务模型,以执行所述目标任务的同时对所述任务模型进行调整,得到所述目标任务的更新后的执行结果。
进一步地,上述数据处理方法中,所述时间循环神经网络为长短期记忆网络LSTM。
根据本申请的另一方面,还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行时,使所述处理器实现如上述任一项所述的方法。
根据本申请的另一方面,还提供了一种数据处理设备,该数据处理设备包括:
一个或多个处理器;
计算机可读介质,用于存储一个或多个计算机可读指令,
当所述一个或多个计算机可读指令被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述中任一项所述的方法。
与现有技术相比,本申请通过获取目标任务及所述目标任务对应的任务模型和待处理的目标数据;基于注意力机制和时间循环神经网络对所述目标数据进行特征提取,得到所述目标数据的特征向量;将所述目标数据的特征向量输入所述任务模型以执行所述目标任务,得到所述目标任务的执行结果。使得在利用注意力机制和时间循环神经网络将获取的多维度、异构的待处理的目标数据中的特征提取出来的同时,忽视掉目标数据中的噪声与无用部分,筛选出所述目标数据中的重要信息和非重要信息,使得重要信息和非重要信息在目标数据的特征向量中所占的权重不同,以确保对目标数据进行多维度的分析及特征提取,以得到目标数据的特征向量并作为目标任务对应的任务模型的输入,经过任务模型的处理得到目标任务的执行结果,避免了人工数据处理的过程中可能出现的信息丢失的问题,节约人力,同时,提高目标数据的特征提取的筛选能力和拟合能力,改善了目标数据的特征提取效果,从而提高了目标任务执行结果的可靠性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出根据本申请一个方面的一种数据处理方法的流程图;
图2示出根据本申请一个方面的一种数据处理方法的实施例中特征提取示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(例如中央处理器(Central Processing Unit,CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RandomAccess Memory,RAM)和/或非易失性内存等形式,如只读存储器(Read Only Memory,ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(Phase-Change RAM,PRAM)、静态随机存取存储器(Static Random Access Memory,SRAM)、动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、数字多功能光盘(Digital Versatile Disk,DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
图1示出根据本申请一个方面的一种数据处理方法的流程示意图,该方法包括步骤S11、步骤S12及步骤S13,其中,具体包括:
步骤S11获取目标任务及所述目标任务对应的任务模型和待处理的目标数据。在此,不同的目标任务对应不同的任务模型,其中所述目标任务对应的目标数据可以包括不同时间维度的原始数据。
步骤S12,基于注意力机制和时间循环神经网络对所述目标数据进行特征提取,得到所述目标数据的特征向量。在此,所述时间循环神经网络可以包括但不限于是长短期记忆网络(Long Short-Term Memory,LSTM)等,其中,所述LSTM解决了远距离的信息的学习,从而优化了目标数据的特征提取过程,提高了目标数据的特征提取效率,改善了目标数据的特征提取效果。其中,所述注意力机制和时间循环神经网络用于筛选出所述目标数据中的重要信息(对应重要特征)和非重要信息(对应非重要特征),并为该重要信息和非重要信息分别设置不同的权重,以体现重要性的不同,得到所述目标数据的特征向量,提高了目标数据的特征提取效率,改善了目标数据的特征提取效果。
步骤S13,将所述目标数据的特征向量输入所述任务模型以执行所述目标任务,得到所述目标任务的执行结果。所述步骤S13中,将所述目标数据的特征向量作为任务模型的输入,通过所述任务模型对所述目标数据的特征向量进行处理后输出该目标任务的执行结果,提高了目标任务的执行结果的准确性。
上述步骤S11至步骤S13,使得在利用注意力机制和时间循环神经网络将获取的多维度、异构的待处理的目标数据中的特征提取出来的同时,忽视掉目标数据中的噪声与无用部分,筛选出所述目标数据中的重要信息和非重要信息,使得重要信息和非重要信息在目标数据的特征向量中所占的权重不同,以确保对目标数据进行多维度的分析及特征提取,以得到目标数据的特征向量并作为目标任务对应的任务模型的输入,经过任务模型的处理得到目标任务的执行结果,避免了人工数据处理的过程中可能出现的信息丢失的问题,节约人力,同时,提高目标数据的特征提取的筛选能力和拟合能力,改善了目标数据的特征提取效果,从而提高了目标任务执行结果的可靠性。
例如,以金融领域的信用评估为例,若目标任务是预测用户是否会按时还款,该目标任务对应的任务模型就可以采用逻辑回归模型,所述目标任务对应的待处理的目标数据从不同时间维度上反映用户在金融领域所涉及的该用户的基本信息、兴趣爱好、社交网络信息、近期活动信息、资产信息、资金流动记录及不良信用记录等数据,以确保后续对这些用户中的每个用户的信用指标进行监测,从而预测对应的用户是否为按时还款。基于注意力机制和时间循环神经网络对用户的基本信息、兴趣爱好、社交网络信息、近期活动信息、资产信息、资金流动记录及不良信用记录等目标数据进行分析,并筛选出重要信息和非重要信息对应的特征,对非重要信息设置相对较低的权重,重要信息设置相对较高的权重,以确保考虑到重要信息的同时,也不忽略非重要信息,实现对目标数据进行多维度的数据处理和特征提取以得到所述目标数据的特征向量。最后,将目标数据的特征向量作为任务模型:逻辑回归模型的输入,通过所述逻辑回归模型对所述目标数据的特征向量进行处理,输出执行目标任务后得到的执行结果,即用户是否会按时还款的预测结果(比如,不会按时还款或会按时还款),避免了人工数据处理过程中可能出现的信息丢失的问题,节约人力的同时,还提高了目标数据的特征提取效率,改善了目标数据的特征提取效果,从而提高了目标任务执行结果的准确性。
接着本申请的上述实施例,所述步骤S11获取目标任务及所述目标任务对应的任务模型和待处理的目标数据包括:
获取目标任务;
基于所述目标任务确定对应的任务模型和待处理数据;在此,若所述目标任务为预测用户是否会按时还款,则根据该目标任务:预测用户是否会按时还款,获取对应的待处理数据为:用户在金融领域所涉及的该用户的基本信息、兴趣爱好、社交网络信息、近期活动信息、资产信息、资金流动记录及不良信用记录等数据;若所述目标任务为预测用户是否会继续购买金融产品,则根据该目标任务:预测用户是否会继续购买金融产品,获取的待处理数据为;用户的基本信息、资产信息、购买金融产品历史纪录、资金流动记录等数据,使得根据不同的目标任务来获取对应不同的待处理数据,以确保后续对目标任务的定向有效地执行。当然,所述待处理数据可以包括不同时间维度的数据,每个时间维度的每一步可以称为一个时间步。
分别对所述待处理数据进行去噪、脱敏、清洗脚本及归一化处理,得到待处理的所述目标数据,其中,所述目标数据包括至少一个时间步对应的原始数据,所述原始数据包括至少一条。
例如,基于所述目标任务获取待处理数据Xm t,t代表第t个时间步,t为小于等于T的正整数,T为待处理数据中所包括的时间步的总数且为正整数,每个时间步对应至少一条原始数据,Xm t代表时间步t中的第m条原始数据,即待处理数据包括T个时间步中的每个时间步t对应的m个原始数据。步骤S11中,可以将获取的待处理数据通过数据去躁的手段将其中的无用部分给剔除,也可以通过数据脱敏的手段将待处理数据中涉及到用户隐私的数据进行隐藏,以实现对待处理数据的脱敏处理,亦可以通过清洗脚本的手段将待处理数据的编码格式统一,还可以通过归一化等手段对待处理数据进行信息特征的量纲统一,以实现对待处理数据的归一化处理,进而得到待处理的目标数据,实现对目标任务对应的目标数据的预处理,以便后续对该目标数据进行特征提取。当然,在得到待处理的目标数据后,还可以将得到的目标数据存储在相应的数据库或者大型文件中,避免待处理的目标数据遗失,所述数据库或大型文件的数据存储格式可以是但不局限于Hbase、MongoDB、csv、hdf5等,实现了目标任务对应的目标数据的存储。
接着本申请的上述实施例,所述步骤S12基于注意力机制和时间循环神经网络对所述目标数据进行特征提取,得到所述目标数据的特征向量中,包括:
依序基于软注意力机制和时间循环神经网络,分别对每个所述时间步对应的原始数据进行特征提取,得到每个所述时间步对应的原始数据的特征序列;
基于多头注意力机制对所有所述时间步对应的原始数据的特征序列进行特征提取,并将提取出的特征经过前馈神经网络进行整合,得到所述目标数据的特征向量。
例如,金融领域的信用评估为例,若目标任务是预测用户是否会按时还款,获取的用户的基本信息、兴趣爱好、社交网络信息、近期活动信息、资产信息、资金流动记录及不良信用记录等待处理数据进行处理得到待处理的目标数据,分别对每个所述时间步对应的原始数据进行特征提取,筛选出重要信息和非重要信息对应的特征,对非重要信息设置相对较低的权重,重要信息设置相对较高的权重,得到每个所述时间步对应的原始数据的特征序列,然后,基于多头注意力机制对所有所述时间步对应的原始数据的特征序列进行特征提取,选出重要信息和非重要信息对应的特征,对非重要信息设置相对较低的权重,重要信息设置相对较高的权重,并将提取出的特征经过前馈神经网络进行整合,得到所述目标数据的特征向量。实现对目标数据进行多维度的数据并行处理和特征提取以得到所述目标数据的特征向量。
进一步地,所述步骤S12中依序基于软注意力机制和时间循环神经网络,分别对每个所述时间步对应的原始数据进行特征提取,得到每个所述时间步对应的原始数据的特征序列,包括:
基于与所述目标数据对应的嵌入算法,分别对每个所述时间步对应的原始数据进行向量化处理,得到每个所述时间步对应的原始数据的稠密向量。在此,不同类别的目标数据涉及不同的嵌入方法,例如,若所述目标数据为文本数据,则与所述文本数据对应的嵌入算法可以包括词嵌入算法、句嵌入算法等,若所述目标数据为图像数据,则与所述图像数据对应的嵌入算法可以包括卷积层算法等,使得目标数据经过与所述目标数据对应的嵌入算法的向量化处理后,能够将多维度、异构的目标数据均转化可以进一步进行特征提取的稠密向量,以得到所述目标数据中的每个所述时间步对应的原始数据的稠密向量,有利于提高后续对目标数据进行特征提取时的效率,进而改善目标数据的特征提取的效果。
基于所述软注意力机制分别对每个所述时间步对应的原始数据的稠密向量进行特征提取和特征加权,得到每个所述时间步对应的原始数据的注意力特征序列。在此,软注意力机制关注每个所述时间步对应的原始数据的稠密向量中的重要信息以获取更多需要关注的信息,而抑止其他无用信息,通过动态地提高对重要特征(即重要信息)的注意力权重后输出注意力加权后的新的特征序列即注意力特征序列。
基于所述时间循环神经网络,分别对每个所述时间步对应的原始数据的注意力特征序列进行特征学习,得到每个所述时间步对应的原始数据的特征序列,其中,所述特征序列包括长距离特征依赖关系。在此,在网络结构上,时间循环神经网络会记忆之前的信息,并利用之前的信息影响后面结点的输出;所述时间循环神经网络循环地考虑每个时间步对应的原始数据的注意力特征序列与其对应的历史时间步的特征序列的联系,并将重要特征(比如重要信息)通过“记忆细胞”传递下去,从而在时间循环神经网络中学习到关于重要特征的长距离特征依赖关系,输出与所述时间步对应的原始数据的注意力特征序列在时间维度上等长的新的所述原始数据的特征序列。
例如,若待处理的目标数据为文本数据,且所述待处理的目标数据包括大量客户的基本信息、兴趣爱好、社交网络信息、近期活动信息、资产信息、资金流动记录及不良信用记录等信息。首先,采用与所述文本数据对应的嵌入算法:词嵌入算法和句嵌入算法,分别对所述目标数据中的每个所述时间步对应的原始数据进行向量化处理,得到每个所述时间步对应的原始数据的稠密向量。接着,通过所述软注意力机制分别对每个所述时间步对应的原始数据的稠密向量进行特征提取和特征加权,以提取每个时间步对应的原始数据的稠密向量中的重要特征和非重要特征,并对重要特征和非重要特征进行不同程度的特征加权,使得保证需要关注的重要特征的同时,也不忽略非重要特征,进而实现对数据的多维度、全方面的特征提取,得到注意力特征序列。然后,通过时间循环神经网络分别对每个所述时间步对应的原始数据的注意力特征序列进行特征学习,学习到长距离特征依赖关系,输出与原始数据的注意力特征序列在时间维度上等长的新的原始数据的特征序列,在实现了对多维度、异构的目标数据的特征提取的同时,还提高了目标数据的特征提取效率,从而改善了目标数据的特征提取效果。
进一步地,所述步骤S12中基于多头注意力机制对所有所述时间步对应的原始数据的特征序列进行特征提取,并将提取出的特征经过前馈神经网络进行整合,得到所述目标数据的特征向量,包括:
将所有所述时间步对应的原始数据的特征序列经过至少一次仿射变换后,基于多头注意力机制分别对每次仿射变换后的、所述目标数据对应的特征序列进行特征提取和特征加权,得到所述多头注意力机制中的每个软注意力机制对应的目标数据的特征序列;将所述多头注意力机制中的每个软注意力机制对应的目标数据的特征序列,经过所述前馈神经网络进行整合,得到所述目标数据的特征向量。
例如,将所有所述时间步对应的原始数据的特征序列经过H次仿射变换得到H次中每次仿射变换后的所有所述时间步对应的原始数据的特征序列,接着,将每次仿射变换后的所有所述时间步对应的原始数据的特征序列分别输入至H个注意力层,通过并行的H个软注意力机制进行特征提取和特征加权,实现对所有所述时间步对应的原始数据的特征序列的高度并行处理,最终输出H个不同的特征序列,最后,通过所述前馈神经网络将H个不同的特征序列拼接为1个特征序列即为所述目标数据的特征向量,实现了对目标数据的特征提取,防止目标数据的特征提取过拟合,提高了目标数据的特征提取效率,改善了目标数据的特征提取效果。
接着本申请的上述实施例,本申请的一实施例中的数据处理方法还包括:
基于所述目标任务的执行结果对所述目标数据进行特征调整,得到所述目标数据的更新后的特征向量;
将所述目标数据的更新后的特征向量输入所述任务模型,以执行所述目标任务的同时对所述任务模型进行调整,得到所述目标任务的更新后的执行结果。
例如,若目标任务是预测用户是否会按时还款,与目标任务对应的任务模型是逻辑回归模型,将与目标任务:预测用户是否会按时还款对应的待处理的目标数据经过特征提取后转换为目标数据的特征向量,并输入至所述任务模型:逻辑回归模型进行目标任务的执行后,得到执行结果,该逻辑回归模型在每一步的训练过程中,其梯度会流向待处理的目标数据的特征提取过程,所述执行结果会对所述目标数据进行特征提取的调整,使特征提取过程进一步更新和优化,接着,目标数据的更新后的特征向量输入该逻辑回归模型得到更新后的执行结果。实现了对特征提取、任务模型及经过所述任务模型后得到的执行结果都得到了更新与优化,确保得到的目标任务的执行结果更可靠精确。
根据本申请的另一个方面,还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行时,使所述处理器实现如上述控制用户对垒方法。
根据本申请的另一个方面,还提供了一种数据处理设备,其特征在于,该设备包括:
一个或多个处理器;
计算机可读介质,用于存储一个或多个计算机可读指令,
当所述一个或多个计算机可读指令被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述在设备上控制用户对垒方法。
在此,所述设备的各实施例的详细内容,具体可参见上述设备端的控制用户对垒方法实施例的对应部分,在此,不再赘述。
本申请提供的一种数据处理方法的实际应用场景,金融领域的信用评估为例,若目标任务是预测用户是否会按时还款,该目标任务对应的任务模型就可以采用逻辑回归模型,获取对应的待处理数据为:用户在金融领域所涉及的该用户的基本信息、兴趣爱好、社交网络信息、近期活动信息、资产信息、资金流动记录及不良信用记录等数据。所述待处理数据可以包括不同时间维度的数据,每个时间维度的每一步可以称为一个时间步。基于所述目标任务获取待处理数据Xm t,t代表第t个时间步,t为小于等于T的正整数,T为待处理数据中所包括的时间步的总数且为正整数,每个时间步对应至少一条原始数据(即m为大于等于1的正整数且为每个时间步对应的原始数据的总数量),Xm t代表时间步t中的第m条原始数据,即待处理数据包括T个时间步中的每个时间步t对应的m个原始数据,如图2所示,。
将获取的待处理数据通过数据去躁的手段将其中的无用部分给剔除,通过数据脱敏的手段将待处理数据中涉及到用户隐私的数据进行隐藏,以实现对待处理数据的脱敏处理,通过清洗脚本的手段将待处理数据的编码格式统一,还可以通过归一化等手段对待处理数据进行信息特征的量纲统一,以实现对待处理数据的归一化处理,进而得到待处理的目标数据X1 1...Xi 1、X1 2...Xi 2、X1 3...Xi 3、X1 4...Xi 4、X1 5...Xi 5、......X1 j...Xi j,其中,i≤m的正整数,j≤T的正整数,Xi j为T个时间步中的j时间步对应的第i个原始数据,每个时间步对应的原始数据的总数量小于等于m(即i≤m),实现了对目标任务对应的目标数据的预处理,以便后续对该目标数据进行特征提取。当然,在得到待处理的目标数据后,还可以将得到的目标数据存储在相应的数据库或者大型文件中,避免待处理的目标数据遗失,所述数据库或大型文件的数据存储格式可以是但不局限于Hbase、MongoDB、csv、hdf5等,实现了目标任务对应的目标数据的存储。
目标数据的特征抽取过程涉及输入层、嵌入层、注意力层、循环网络层、多头注意力层和特征输出层。首先,输入层获取所述目标数据X1 1...Xi 1、X1 2...Xi 2、X1 3...Xi 3、X1 4...Xi 4、X1 5...Xi 5、......X1 j...Xi j。接着,在嵌入层中采用与所述文本数据对应的嵌入算法:词嵌入算法和句嵌入算法,分别对所述目标数据中的每个所述时间步对应的原始数据进行向量化处理,得到每个所述时间步对应的原始数据的稠密向量V1 1、V1 2......V1 j,其中,V1 1为第一个时间步对应的原始数据的稠密向量,V1 2为第二个时间步对应的原始数据的稠密向量,以此类推,V1 j为第j个时间步对应的原始数据的稠密向量。然后,注意力层中通过所述软注意力机制分别对每个所述时间步对应的原始数据的稠密向量V1 1、V1 2......V1 j进行特征提取和特征加权,以提取每个时间步对应的原始数据的稠密向量中的重要特征和非重要特征,并对重要特征和非重要特征进行不同程度的特征加权,使得保证需要关注的重要特征的同时,也不忽略非重要特征,进而实现对数据的多维度、全方面的特征提取,得到注意力特征序列V2 1、V2 2......V2 j,其中,V2 1为第一个时间步对应的原始数据的注意力特征序列,V2 2为第二个时间步对应的原始数据注意力特征序列,以此类推,V2 j为第j个时间步对应的原始数据的注意力特征序列。然后,在循环网络层中通过时间循环神经网络分别对每个所述时间步对应的原始数据的注意力特征序列进行特征学习,学习到长距离特征依赖关系,输出与原始数据的注意力特征序列在时间维度上等长的新的原始数据的特征序列V3 1、V3 2......V3 j,其中,V3 1为第一个时间步对应的与原始数据的注意力特征序列在时间维度上等长的新的原始数据的特征序列,V3 2为第二个时间步对应的与原始数据的注意力特征序列在时间维度上等长的新的原始数据的特征序列,以此类推,V3 j为第j个时间步对应的与原始数据的注意力特征序列在时间维度上等长的新的原始数据的特征序列,在实现了对多维度、异构的目标数据的特征提取的同时,还提高了目标数据的特征提取效率,从而改善了目标数据的特征提取效果。接着,在多头注意力层中将所有所述时间步对应的原始数据的特征序列V3 1、V3 2......V3 j经过H次仿射变换得到H次中每次仿射变换后的所有所述时间步对应的原始数据的特征序列,接着,将每次仿射变换后的所有所述时间步对应的原始数据的特征序列分别输入至H个注意力层,通过并行的H个软注意力机制进行特征提取和特征加权,得到所述多头注意力机制中的每个软注意力机制对应的目标数据的特征序列:V4 1、V4 2......V4 x、……、V4 (H-1)及V4 H,其中,x用于指示H个注意力机制中的第x个注意力层,x为小于等于H的正整数,以实现对所有所述时间步对应的原始数据的特征序列的高度并行处理,最终输出H个不同的特征序列:V4 1、V4 2......V4 x、……、V4 (H-1)及V4 H,最后,通过所述前馈神经网络将H个注意力机制中的每个软注意力机制对应的目标数据的的特征序列:V4 1、V4 2......V4 x、……、V4 (H-1)及V4 H,拼接为1个特征序列即为所述目标数据的特征向量V,实现了对目标数据的特征提取,防止目标数据的特征提取过拟合,提高了目标数据的特征提取效率,改善了目标数据的特征提取效果。最后,通过特征输出层输出得到的所述目标数据的特征向量…V。
接着,将与目标任务:预测用户是否会按时还款对应的待处理的目标数据经过特征提取后转换得到的目标数据的特征向量…V输入至所述任务模型:逻辑回归模型进行目标任务的执行后,得到执行结果,该逻辑回归模型在每一步的训练过程中,其梯度会流向待处理的目标数据的特征提取过程,所述执行结果会对所述目标数据进行特征提取的调整,使特征提取过程进一步更新和优化,然后,目标数据的更新后的特征向量输入该逻辑回归模型得到更新后的执行结果。实现了对特征提取、任务模型及经过所述任务模型后得到的执行结果都得到了更新与优化,确保得到的目标任务的执行结果更可靠精确。
综上所述,本申请使得在利用注意力机制和时间循环神经网络将获取的多维度、异构的待处理的目标数据中的特征提取出来的同时,忽视掉目标数据中的噪声与无用部分,筛选出所述目标数据中的重要信息和非重要信息,使得重要信息和非重要信息在目标数据的特征向量中所占的权重不同,以确保对目标数据进行多维度的分析及特征提取,以得到目标数据的特征向量并作为目标任务对应的任务模型的输入,经过任务模型的处理得到目标任务的执行结果,避免了人工数据处理的过程中可能出现的信息丢失的问题,节约人力,同时,提高目标数据的特征提取的筛选能力和拟合能力,改善了目标数据的特征提取效果,从而提高了目标任务执行结果的可靠性。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (7)
1.一种数据处理方法,其特征在于,所述方法包括:
获取目标任务及所述目标任务对应的任务模型和待处理的目标数据,其中,所述目标数据包括至少一个时间步对应的原始数据,所述原始数据包括至少一条,所述时间步指在待处理的目标数据中包括不同时间维度的数据,每个时间维度的每一步为一个时间步;
基于注意力机制和时间循环神经网络对所述目标数据进行特征提取,得到所述目标数据的特征向量;
将所述目标数据的特征向量输入所述任务模型以执行所述目标任务,得到所述目标任务的执行结果;
所述方法应用于金融领域的信用评估,所述目标任务对应的待处理的目标数据从不同时间维度上反映用户在金融领域所涉及的该用户的基本信息、兴趣爱好、社交网络信息、近期活动信息、资产信息、资金流动记录及不良信用记录;其中,
所述基于注意力机制和时间循环神经网络对所述目标数据进行特征提取,得到所述目标数据的特征向量,包括:依序基于软注意力机制和时间循环神经网络,分别对每个所述时间步对应的原始数据进行特征提取,得到每个所述时间步对应的原始数据的特征序列;基于多头注意力机制对所有所述时间步对应的原始数据的特征序列进行特征提取,并将提取出的特征经过前馈神经网络进行整合,得到所述目标数据的特征向量,其中,所述依序基于软注意力机制和时间循环神经网络,分别对每个所述时间步对应的原始数据进行特征提取,得到每个所述时间步对应的原始数据的特征序列,包括:基于与所述目标数据对应的嵌入算法,分别对每个所述时间步对应的原始数据进行向量化处理,得到每个所述时间步对应的原始数据的稠密向量;
基于所述软注意力机制分别对每个所述时间步对应的原始数据的稠密向量进行特征提取和特征加权,得到每个所述时间步对应的原始数据的注意力特征序列;基于所述时间循环神经网络,分别对每个所述时间步对应的原始数据的注意力特征序列进行特征学习,得到每个所述时间步对应的原始数据的特征序列,其中,所述特征序列包括长距离特征依赖关系。
2.根据权利要求1所述的方法,其特征在于,所述获取目标任务及所述目标任务对应的任务模型和待处理的目标数据,包括:
获取目标任务;
基于所述目标任务确定对应的任务模型和待处理数据;分别对所述待处理数据进行去噪、脱敏、清洗脚本及归一化处理,得到待处理的目标数据。
3.根据权利要求1所述的方法,其特征在于,所述基于多头注意力机制对所有所述时间步对应的原始数据的特征序列进行特征提取,并将提取出的特征经过前馈神经网络进行整合,得到所述目标数据的特征向量,包括:
将所有所述时间步对应的原始数据的特征序列经过至少一次仿射变换后,基于多头注意力机制分别对每次仿射变换后的、所述目标数据对应的特征序列进行特征提取和特征加权,得到所述多头注意力机制中的每个软注意力机制对应的目标数据的特征序列;
将所述多头注意力机制中的每个软注意力机制对应的目标数据的特征序列,经过所述前馈神经网络进行整合,得到所述目标数据的特征向量。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:
基于所述目标任务的执行结果对所述目标数据进行特征调整,得到所述目标数据的更新后的特征向量;
将所述目标数据的更新后的特征向量输入所述任务模型,以执行所述目标任务的同时对所述任务模型进行调整,得到所述目标任务的更新后的执行结果。
5.根据权利要求1至2中任一项所述的方法,其特征在于,所述时间循环神经网络为长短期记忆网络LSTM。
6.一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行时,使所述处理器实现如权利要求1至5中任一项所述的方法。
7.一种用于数据处理的设备,其特征在于,该设备包括:
一个或多个处理器;
计算机可读介质,用于存储一个或多个计算机可读指令,
当所述一个或多个计算机可读指令被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910775569.8A CN110490304B (zh) | 2019-08-21 | 2019-08-21 | 一种数据处理方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910775569.8A CN110490304B (zh) | 2019-08-21 | 2019-08-21 | 一种数据处理方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110490304A CN110490304A (zh) | 2019-11-22 |
CN110490304B true CN110490304B (zh) | 2023-10-27 |
Family
ID=68552668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910775569.8A Active CN110490304B (zh) | 2019-08-21 | 2019-08-21 | 一种数据处理方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110490304B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111222981A (zh) * | 2020-01-16 | 2020-06-02 | 中国建设银行股份有限公司 | 可信度确定方法、装置、设备和存储介质 |
CN111491262A (zh) * | 2020-04-26 | 2020-08-04 | 中国信息通信研究院 | 移动宽带网络信号强度确定方法和装置 |
CN113283979A (zh) * | 2021-05-12 | 2021-08-20 | 广州市全民钱包科技有限公司 | 一种贷款申请人的贷款信用评估方法、装置及存储介质 |
CN117876910B (zh) * | 2024-03-06 | 2024-06-21 | 西北工业大学 | 基于主动学习的无人机目标检测关键数据筛选方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280104B (zh) * | 2017-02-13 | 2020-06-02 | 腾讯科技(深圳)有限公司 | 目标对象的特征信息提取方法及装置 |
US20190034497A1 (en) * | 2017-07-27 | 2019-01-31 | Nec Laboratories America, Inc. | Data2Data: Deep Learning for Time Series Representation and Retrieval |
CN108460679B (zh) * | 2018-02-28 | 2021-02-26 | 电子科技大学 | 融合注意力机制的深度网络智能投资***数据分析方法 |
-
2019
- 2019-08-21 CN CN201910775569.8A patent/CN110490304B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110490304A (zh) | 2019-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11720804B2 (en) | Data-driven automatic code review | |
CN110490304B (zh) | 一种数据处理方法及设备 | |
CN112633419B (zh) | 小样本学习方法、装置、电子设备和存储介质 | |
CN111724083A (zh) | 金融风险识别模型的训练方法、装置、计算机设备及介质 | |
US10346782B2 (en) | Adaptive augmented decision engine | |
CN110598620B (zh) | 基于深度神经网络模型的推荐方法和装置 | |
US20220253856A1 (en) | System and method for machine learning based detection of fraud | |
US20210303970A1 (en) | Processing data using multiple neural networks | |
US20210304055A1 (en) | Mechanisms for Continuous Improvement of Automated Machine Learning | |
CN110956278A (zh) | 重新训练机器学习模型的方法和*** | |
CN116737581A (zh) | 测试文本的生成方法、装置、存储介质及电子设备 | |
US20200175406A1 (en) | Apparatus and methods for using bayesian program learning for efficient and reliable knowledge reasoning | |
CN116522912B (zh) | 一种包装设计语言模型的训练方法、装置、介质及设备 | |
CN117421639A (zh) | 多模态数据分类方法、终端设备及存储介质 | |
RU2715024C1 (ru) | Способ отладки обученной рекуррентной нейронной сети | |
KR102284440B1 (ko) | 딥러닝 모델 거래중개서버에 의해서 수행되는 딥러닝 모델 거래를 중개하는 방법 | |
CN112328899B (zh) | 信息处理方法、信息处理装置、存储介质与电子设备 | |
CN112860652B (zh) | 作业状态预测方法、装置和电子设备 | |
WO2022265782A1 (en) | Blackbox optimization via model ensembling | |
CN118155227B (zh) | 基于智能化技术的核电设备维护决策方法及*** | |
KR102311108B1 (ko) | 딥러닝 모델 거래중개서버에 의해서 수행되는 딥러닝 모델 거래를 중개하는 방법 | |
US20240232177A9 (en) | Automatic Generation of Training and Testing Data for Machine-Learning Models | |
US20230008628A1 (en) | Determining data suitability for training machine learning models | |
CN117633282A (zh) | 金融产品的查询方法及装置、存储介质和电子设备 | |
CA3108609A1 (en) | System and method for machine learning based detection of fraud |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |