CN110490304B - 一种数据处理方法及设备 - Google Patents

一种数据处理方法及设备 Download PDF

Info

Publication number
CN110490304B
CN110490304B CN201910775569.8A CN201910775569A CN110490304B CN 110490304 B CN110490304 B CN 110490304B CN 201910775569 A CN201910775569 A CN 201910775569A CN 110490304 B CN110490304 B CN 110490304B
Authority
CN
China
Prior art keywords
feature
target
target data
data
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910775569.8A
Other languages
English (en)
Other versions
CN110490304A (zh
Inventor
程大伟
陈远哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhejin Information Technology Co ltd
Original Assignee
Shanghai Zhejin Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhejin Information Technology Co ltd filed Critical Shanghai Zhejin Information Technology Co ltd
Priority to CN201910775569.8A priority Critical patent/CN110490304B/zh
Publication of CN110490304A publication Critical patent/CN110490304A/zh
Application granted granted Critical
Publication of CN110490304B publication Critical patent/CN110490304B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请的目的是提供一种数据处理方法及设备,本申请使得在利用注意力机制和时间循环神经网络将获取的多维度、异构的待处理的目标数据中的特征提取出来的同时,忽视目标数据中的噪声与无用部分,筛选出目标数据中的重要信息和非重要信息,使得两种信息在目标数据的特征向量中所占的权重不同,以确保对目标数据进行多维度的分析及特征提取,以得到目标数据的特征向量并作为目标任务对应的任务模型的输入,经过任务模型的处理得到目标任务的执行结果,避免了人工数据处理的过程中出现的信息丢失的问题,节约人力,同时,提高目标数据的特征提取的筛选能力和拟合能力,改善了目标数据的特征提取效果,从而提高了目标任务执行结果的可靠性。

Description

一种数据处理方法及设备
技术领域
本申请涉及计算机领域,尤其涉及一种数据处理的方法及设备。
背景技术
现有技术中,数据特征提取技术作为从海量数据源中提取有用信息的技术,已经成为了大数据互联网时代不可缺少的一项技术,也是人工智能相关技术的基石。所谓数据特征提取技术,就是从不同的数据源(例如金融数据、图像数据、文本数据、语言数据等)中,自动地将其有用的部分提取出来,转化为能够直接概括这些数据关键信息的编码,从而用于机器学习、深度学习等模型的训练和推断。
当前常用的数据特征抽取技术主要分为两大类:1、基于人工特征模板的特征抽取技术,该类技术利用相关领域专家的先验知识,总结出一套规则体系,并将其转化为人工智能模型的输入,例如金融领域专家整理的股票走势映射表,语言学家整理的文字偏旁部首映射表等;2、基于统计机器学习方法的自动特征抽取技术,该类技术利用大量的人工标注数据(监督数据)或者无人工标注数据(无监督数据)提前训练好特征抽取器,然后作为数据集与目标模型之间的管道,常见的方法有主成分分析、自编码器、梯度提升决策树等等。
上述两类传统的特征抽取技术都存在着各自的缺点,比如,基于人工特征模板的特征抽取技术往往存在召回率低的问题,即人工提取特征虽然较为精准,但往往不能够捕获所有的信息,从而造成许多有用的信息丢失,并且人工构造特征模板十分费时费力;而基于统计机器学习方法的特征抽取技术虽然在一定程度上弥补了基于人工特征模板的特征抽取技术的缺点,但是其存在模型拟合能力有限、无法高度并行的缺点,并且很难在多维度、异构的数据源上进行处理。
发明内容
本申请的一个目的是提供一种数据处理方法及设备,以解决现有技术中如何对待处理的多维度、异构的数据进行处理的问题。
根据本申请的一个方面,提供了一种数据处理方法,包括:
获取目标任务及所述目标任务对应的任务模型和待处理的目标数据;
基于注意力机制和时间循环神经网络对所述目标数据进行特征提取,得到所述目标数据的特征向量;
将所述目标数据的特征向量输入所述任务模型以执行所述目标任务,得到所述目标任务的执行结果。
进一步地,上述数据处理方法中,所述获取目标任务及所述目标任务对应的任务模型和待处理的目标数据,包括:
获取目标任务;
基于所述目标任务确定对应的任务模型和待处理数据;分别对所述待处理数据进行去噪、脱敏、清洗脚本及归一化处理,得到待处理的目标数据,其中,所述目标数据包括至少一个时间步对应的原始数据,所述原始数据包括至少一条。
进一步地,上述数据处理方法中,所述基于注意力机制和时间循环神经网络对所述目标数据进行特征提取,得到所述目标数据的特征向量,包括:
依序基于软注意力机制和时间循环神经网络,分别对每个所述时间步对应的原始数据进行特征提取,得到每个所述时间步对应的原始数据的特征序列;
基于多头注意力机制对所有所述时间步对应的原始数据的特征序列进行特征提取,并将提取出的特征经过前馈神经网络进行整合,得到所述目标数据的特征向量。
进一步地,上述数据处理方法中,所述依序基于软注意力机制和时间循环神经网络,分别对每个所述时间步对应的原始数据进行特征提取,得到每个所述时间步对应的原始数据的特征序列,包括:
基于与所述目标数据对应的嵌入算法,分别对每个所述时间步对应的原始数据进行向量化处理,得到每个所述时间步对应的原始数据的稠密向量;
基于所述软注意力机制分别对每个所述时间步对应的原始数据的稠密向量进行特征提取和特征加权,得到每个所述时间步对应的原始数据的注意力特征序列;
基于所述时间循环神经网络,分别对每个所述时间步对应的原始数据的注意力特征序列进行特征学习,得到每个所述时间步对应的原始数据的特征序列,其中,所述特征序列包括长距离特征依赖关系。
进一步地,上述数据处理方法中,所述基于多头注意力机制对所有所述时间步对应的原始数据的特征序列进行特征提取,并将提取出的特征经过前馈神经网络进行整合,得到所述目标数据的特征向量,包括:
将所有所述时间步对应的原始数据的特征序列经过至少一次仿射变换后,基于多头注意力机制分别对每次仿射变换后的、所述目标数据对应的特征序列进行特征提取和特征加权,得到所述多头注意力机制中的每个软注意力机制对应的目标数据的特征序列;
将所述多头注意力机制中的每个软注意力机制对应的目标数据的特征序列,经过所述前馈神经网络进行整合,得到所述目标数据的特征向量。
进一步地,上述数据处理方法中,所述方法还包括:
基于所述目标任务的执行结果对所述目标数据进行特征调整,得到所述目标数据的更新后的特征向量;
将所述目标数据的更新后的特征向量输入所述任务模型,以执行所述目标任务的同时对所述任务模型进行调整,得到所述目标任务的更新后的执行结果。
进一步地,上述数据处理方法中,所述时间循环神经网络为长短期记忆网络LSTM。
根据本申请的另一方面,还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行时,使所述处理器实现如上述任一项所述的方法。
根据本申请的另一方面,还提供了一种数据处理设备,该数据处理设备包括:
一个或多个处理器;
计算机可读介质,用于存储一个或多个计算机可读指令,
当所述一个或多个计算机可读指令被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述中任一项所述的方法。
与现有技术相比,本申请通过获取目标任务及所述目标任务对应的任务模型和待处理的目标数据;基于注意力机制和时间循环神经网络对所述目标数据进行特征提取,得到所述目标数据的特征向量;将所述目标数据的特征向量输入所述任务模型以执行所述目标任务,得到所述目标任务的执行结果。使得在利用注意力机制和时间循环神经网络将获取的多维度、异构的待处理的目标数据中的特征提取出来的同时,忽视掉目标数据中的噪声与无用部分,筛选出所述目标数据中的重要信息和非重要信息,使得重要信息和非重要信息在目标数据的特征向量中所占的权重不同,以确保对目标数据进行多维度的分析及特征提取,以得到目标数据的特征向量并作为目标任务对应的任务模型的输入,经过任务模型的处理得到目标任务的执行结果,避免了人工数据处理的过程中可能出现的信息丢失的问题,节约人力,同时,提高目标数据的特征提取的筛选能力和拟合能力,改善了目标数据的特征提取效果,从而提高了目标任务执行结果的可靠性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出根据本申请一个方面的一种数据处理方法的流程图;
图2示出根据本申请一个方面的一种数据处理方法的实施例中特征提取示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(例如中央处理器(Central Processing Unit,CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RandomAccess Memory,RAM)和/或非易失性内存等形式,如只读存储器(Read Only Memory,ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(Phase-Change RAM,PRAM)、静态随机存取存储器(Static Random Access Memory,SRAM)、动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、数字多功能光盘(Digital Versatile Disk,DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
图1示出根据本申请一个方面的一种数据处理方法的流程示意图,该方法包括步骤S11、步骤S12及步骤S13,其中,具体包括:
步骤S11获取目标任务及所述目标任务对应的任务模型和待处理的目标数据。在此,不同的目标任务对应不同的任务模型,其中所述目标任务对应的目标数据可以包括不同时间维度的原始数据。
步骤S12,基于注意力机制和时间循环神经网络对所述目标数据进行特征提取,得到所述目标数据的特征向量。在此,所述时间循环神经网络可以包括但不限于是长短期记忆网络(Long Short-Term Memory,LSTM)等,其中,所述LSTM解决了远距离的信息的学习,从而优化了目标数据的特征提取过程,提高了目标数据的特征提取效率,改善了目标数据的特征提取效果。其中,所述注意力机制和时间循环神经网络用于筛选出所述目标数据中的重要信息(对应重要特征)和非重要信息(对应非重要特征),并为该重要信息和非重要信息分别设置不同的权重,以体现重要性的不同,得到所述目标数据的特征向量,提高了目标数据的特征提取效率,改善了目标数据的特征提取效果。
步骤S13,将所述目标数据的特征向量输入所述任务模型以执行所述目标任务,得到所述目标任务的执行结果。所述步骤S13中,将所述目标数据的特征向量作为任务模型的输入,通过所述任务模型对所述目标数据的特征向量进行处理后输出该目标任务的执行结果,提高了目标任务的执行结果的准确性。
上述步骤S11至步骤S13,使得在利用注意力机制和时间循环神经网络将获取的多维度、异构的待处理的目标数据中的特征提取出来的同时,忽视掉目标数据中的噪声与无用部分,筛选出所述目标数据中的重要信息和非重要信息,使得重要信息和非重要信息在目标数据的特征向量中所占的权重不同,以确保对目标数据进行多维度的分析及特征提取,以得到目标数据的特征向量并作为目标任务对应的任务模型的输入,经过任务模型的处理得到目标任务的执行结果,避免了人工数据处理的过程中可能出现的信息丢失的问题,节约人力,同时,提高目标数据的特征提取的筛选能力和拟合能力,改善了目标数据的特征提取效果,从而提高了目标任务执行结果的可靠性。
例如,以金融领域的信用评估为例,若目标任务是预测用户是否会按时还款,该目标任务对应的任务模型就可以采用逻辑回归模型,所述目标任务对应的待处理的目标数据从不同时间维度上反映用户在金融领域所涉及的该用户的基本信息、兴趣爱好、社交网络信息、近期活动信息、资产信息、资金流动记录及不良信用记录等数据,以确保后续对这些用户中的每个用户的信用指标进行监测,从而预测对应的用户是否为按时还款。基于注意力机制和时间循环神经网络对用户的基本信息、兴趣爱好、社交网络信息、近期活动信息、资产信息、资金流动记录及不良信用记录等目标数据进行分析,并筛选出重要信息和非重要信息对应的特征,对非重要信息设置相对较低的权重,重要信息设置相对较高的权重,以确保考虑到重要信息的同时,也不忽略非重要信息,实现对目标数据进行多维度的数据处理和特征提取以得到所述目标数据的特征向量。最后,将目标数据的特征向量作为任务模型:逻辑回归模型的输入,通过所述逻辑回归模型对所述目标数据的特征向量进行处理,输出执行目标任务后得到的执行结果,即用户是否会按时还款的预测结果(比如,不会按时还款或会按时还款),避免了人工数据处理过程中可能出现的信息丢失的问题,节约人力的同时,还提高了目标数据的特征提取效率,改善了目标数据的特征提取效果,从而提高了目标任务执行结果的准确性。
接着本申请的上述实施例,所述步骤S11获取目标任务及所述目标任务对应的任务模型和待处理的目标数据包括:
获取目标任务;
基于所述目标任务确定对应的任务模型和待处理数据;在此,若所述目标任务为预测用户是否会按时还款,则根据该目标任务:预测用户是否会按时还款,获取对应的待处理数据为:用户在金融领域所涉及的该用户的基本信息、兴趣爱好、社交网络信息、近期活动信息、资产信息、资金流动记录及不良信用记录等数据;若所述目标任务为预测用户是否会继续购买金融产品,则根据该目标任务:预测用户是否会继续购买金融产品,获取的待处理数据为;用户的基本信息、资产信息、购买金融产品历史纪录、资金流动记录等数据,使得根据不同的目标任务来获取对应不同的待处理数据,以确保后续对目标任务的定向有效地执行。当然,所述待处理数据可以包括不同时间维度的数据,每个时间维度的每一步可以称为一个时间步。
分别对所述待处理数据进行去噪、脱敏、清洗脚本及归一化处理,得到待处理的所述目标数据,其中,所述目标数据包括至少一个时间步对应的原始数据,所述原始数据包括至少一条。
例如,基于所述目标任务获取待处理数据Xm t,t代表第t个时间步,t为小于等于T的正整数,T为待处理数据中所包括的时间步的总数且为正整数,每个时间步对应至少一条原始数据,Xm t代表时间步t中的第m条原始数据,即待处理数据包括T个时间步中的每个时间步t对应的m个原始数据。步骤S11中,可以将获取的待处理数据通过数据去躁的手段将其中的无用部分给剔除,也可以通过数据脱敏的手段将待处理数据中涉及到用户隐私的数据进行隐藏,以实现对待处理数据的脱敏处理,亦可以通过清洗脚本的手段将待处理数据的编码格式统一,还可以通过归一化等手段对待处理数据进行信息特征的量纲统一,以实现对待处理数据的归一化处理,进而得到待处理的目标数据,实现对目标任务对应的目标数据的预处理,以便后续对该目标数据进行特征提取。当然,在得到待处理的目标数据后,还可以将得到的目标数据存储在相应的数据库或者大型文件中,避免待处理的目标数据遗失,所述数据库或大型文件的数据存储格式可以是但不局限于Hbase、MongoDB、csv、hdf5等,实现了目标任务对应的目标数据的存储。
接着本申请的上述实施例,所述步骤S12基于注意力机制和时间循环神经网络对所述目标数据进行特征提取,得到所述目标数据的特征向量中,包括:
依序基于软注意力机制和时间循环神经网络,分别对每个所述时间步对应的原始数据进行特征提取,得到每个所述时间步对应的原始数据的特征序列;
基于多头注意力机制对所有所述时间步对应的原始数据的特征序列进行特征提取,并将提取出的特征经过前馈神经网络进行整合,得到所述目标数据的特征向量。
例如,金融领域的信用评估为例,若目标任务是预测用户是否会按时还款,获取的用户的基本信息、兴趣爱好、社交网络信息、近期活动信息、资产信息、资金流动记录及不良信用记录等待处理数据进行处理得到待处理的目标数据,分别对每个所述时间步对应的原始数据进行特征提取,筛选出重要信息和非重要信息对应的特征,对非重要信息设置相对较低的权重,重要信息设置相对较高的权重,得到每个所述时间步对应的原始数据的特征序列,然后,基于多头注意力机制对所有所述时间步对应的原始数据的特征序列进行特征提取,选出重要信息和非重要信息对应的特征,对非重要信息设置相对较低的权重,重要信息设置相对较高的权重,并将提取出的特征经过前馈神经网络进行整合,得到所述目标数据的特征向量。实现对目标数据进行多维度的数据并行处理和特征提取以得到所述目标数据的特征向量。
进一步地,所述步骤S12中依序基于软注意力机制和时间循环神经网络,分别对每个所述时间步对应的原始数据进行特征提取,得到每个所述时间步对应的原始数据的特征序列,包括:
基于与所述目标数据对应的嵌入算法,分别对每个所述时间步对应的原始数据进行向量化处理,得到每个所述时间步对应的原始数据的稠密向量。在此,不同类别的目标数据涉及不同的嵌入方法,例如,若所述目标数据为文本数据,则与所述文本数据对应的嵌入算法可以包括词嵌入算法、句嵌入算法等,若所述目标数据为图像数据,则与所述图像数据对应的嵌入算法可以包括卷积层算法等,使得目标数据经过与所述目标数据对应的嵌入算法的向量化处理后,能够将多维度、异构的目标数据均转化可以进一步进行特征提取的稠密向量,以得到所述目标数据中的每个所述时间步对应的原始数据的稠密向量,有利于提高后续对目标数据进行特征提取时的效率,进而改善目标数据的特征提取的效果。
基于所述软注意力机制分别对每个所述时间步对应的原始数据的稠密向量进行特征提取和特征加权,得到每个所述时间步对应的原始数据的注意力特征序列。在此,软注意力机制关注每个所述时间步对应的原始数据的稠密向量中的重要信息以获取更多需要关注的信息,而抑止其他无用信息,通过动态地提高对重要特征(即重要信息)的注意力权重后输出注意力加权后的新的特征序列即注意力特征序列。
基于所述时间循环神经网络,分别对每个所述时间步对应的原始数据的注意力特征序列进行特征学习,得到每个所述时间步对应的原始数据的特征序列,其中,所述特征序列包括长距离特征依赖关系。在此,在网络结构上,时间循环神经网络会记忆之前的信息,并利用之前的信息影响后面结点的输出;所述时间循环神经网络循环地考虑每个时间步对应的原始数据的注意力特征序列与其对应的历史时间步的特征序列的联系,并将重要特征(比如重要信息)通过“记忆细胞”传递下去,从而在时间循环神经网络中学习到关于重要特征的长距离特征依赖关系,输出与所述时间步对应的原始数据的注意力特征序列在时间维度上等长的新的所述原始数据的特征序列。
例如,若待处理的目标数据为文本数据,且所述待处理的目标数据包括大量客户的基本信息、兴趣爱好、社交网络信息、近期活动信息、资产信息、资金流动记录及不良信用记录等信息。首先,采用与所述文本数据对应的嵌入算法:词嵌入算法和句嵌入算法,分别对所述目标数据中的每个所述时间步对应的原始数据进行向量化处理,得到每个所述时间步对应的原始数据的稠密向量。接着,通过所述软注意力机制分别对每个所述时间步对应的原始数据的稠密向量进行特征提取和特征加权,以提取每个时间步对应的原始数据的稠密向量中的重要特征和非重要特征,并对重要特征和非重要特征进行不同程度的特征加权,使得保证需要关注的重要特征的同时,也不忽略非重要特征,进而实现对数据的多维度、全方面的特征提取,得到注意力特征序列。然后,通过时间循环神经网络分别对每个所述时间步对应的原始数据的注意力特征序列进行特征学习,学习到长距离特征依赖关系,输出与原始数据的注意力特征序列在时间维度上等长的新的原始数据的特征序列,在实现了对多维度、异构的目标数据的特征提取的同时,还提高了目标数据的特征提取效率,从而改善了目标数据的特征提取效果。
进一步地,所述步骤S12中基于多头注意力机制对所有所述时间步对应的原始数据的特征序列进行特征提取,并将提取出的特征经过前馈神经网络进行整合,得到所述目标数据的特征向量,包括:
将所有所述时间步对应的原始数据的特征序列经过至少一次仿射变换后,基于多头注意力机制分别对每次仿射变换后的、所述目标数据对应的特征序列进行特征提取和特征加权,得到所述多头注意力机制中的每个软注意力机制对应的目标数据的特征序列;将所述多头注意力机制中的每个软注意力机制对应的目标数据的特征序列,经过所述前馈神经网络进行整合,得到所述目标数据的特征向量。
例如,将所有所述时间步对应的原始数据的特征序列经过H次仿射变换得到H次中每次仿射变换后的所有所述时间步对应的原始数据的特征序列,接着,将每次仿射变换后的所有所述时间步对应的原始数据的特征序列分别输入至H个注意力层,通过并行的H个软注意力机制进行特征提取和特征加权,实现对所有所述时间步对应的原始数据的特征序列的高度并行处理,最终输出H个不同的特征序列,最后,通过所述前馈神经网络将H个不同的特征序列拼接为1个特征序列即为所述目标数据的特征向量,实现了对目标数据的特征提取,防止目标数据的特征提取过拟合,提高了目标数据的特征提取效率,改善了目标数据的特征提取效果。
接着本申请的上述实施例,本申请的一实施例中的数据处理方法还包括:
基于所述目标任务的执行结果对所述目标数据进行特征调整,得到所述目标数据的更新后的特征向量;
将所述目标数据的更新后的特征向量输入所述任务模型,以执行所述目标任务的同时对所述任务模型进行调整,得到所述目标任务的更新后的执行结果。
例如,若目标任务是预测用户是否会按时还款,与目标任务对应的任务模型是逻辑回归模型,将与目标任务:预测用户是否会按时还款对应的待处理的目标数据经过特征提取后转换为目标数据的特征向量,并输入至所述任务模型:逻辑回归模型进行目标任务的执行后,得到执行结果,该逻辑回归模型在每一步的训练过程中,其梯度会流向待处理的目标数据的特征提取过程,所述执行结果会对所述目标数据进行特征提取的调整,使特征提取过程进一步更新和优化,接着,目标数据的更新后的特征向量输入该逻辑回归模型得到更新后的执行结果。实现了对特征提取、任务模型及经过所述任务模型后得到的执行结果都得到了更新与优化,确保得到的目标任务的执行结果更可靠精确。
根据本申请的另一个方面,还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行时,使所述处理器实现如上述控制用户对垒方法。
根据本申请的另一个方面,还提供了一种数据处理设备,其特征在于,该设备包括:
一个或多个处理器;
计算机可读介质,用于存储一个或多个计算机可读指令,
当所述一个或多个计算机可读指令被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述在设备上控制用户对垒方法。
在此,所述设备的各实施例的详细内容,具体可参见上述设备端的控制用户对垒方法实施例的对应部分,在此,不再赘述。
本申请提供的一种数据处理方法的实际应用场景,金融领域的信用评估为例,若目标任务是预测用户是否会按时还款,该目标任务对应的任务模型就可以采用逻辑回归模型,获取对应的待处理数据为:用户在金融领域所涉及的该用户的基本信息、兴趣爱好、社交网络信息、近期活动信息、资产信息、资金流动记录及不良信用记录等数据。所述待处理数据可以包括不同时间维度的数据,每个时间维度的每一步可以称为一个时间步。基于所述目标任务获取待处理数据Xm t,t代表第t个时间步,t为小于等于T的正整数,T为待处理数据中所包括的时间步的总数且为正整数,每个时间步对应至少一条原始数据(即m为大于等于1的正整数且为每个时间步对应的原始数据的总数量),Xm t代表时间步t中的第m条原始数据,即待处理数据包括T个时间步中的每个时间步t对应的m个原始数据,如图2所示,。
将获取的待处理数据通过数据去躁的手段将其中的无用部分给剔除,通过数据脱敏的手段将待处理数据中涉及到用户隐私的数据进行隐藏,以实现对待处理数据的脱敏处理,通过清洗脚本的手段将待处理数据的编码格式统一,还可以通过归一化等手段对待处理数据进行信息特征的量纲统一,以实现对待处理数据的归一化处理,进而得到待处理的目标数据X1 1...Xi 1、X1 2...Xi 2、X1 3...Xi 3、X1 4...Xi 4、X1 5...Xi 5、......X1 j...Xi j,其中,i≤m的正整数,j≤T的正整数,Xi j为T个时间步中的j时间步对应的第i个原始数据,每个时间步对应的原始数据的总数量小于等于m(即i≤m),实现了对目标任务对应的目标数据的预处理,以便后续对该目标数据进行特征提取。当然,在得到待处理的目标数据后,还可以将得到的目标数据存储在相应的数据库或者大型文件中,避免待处理的目标数据遗失,所述数据库或大型文件的数据存储格式可以是但不局限于Hbase、MongoDB、csv、hdf5等,实现了目标任务对应的目标数据的存储。
目标数据的特征抽取过程涉及输入层、嵌入层、注意力层、循环网络层、多头注意力层和特征输出层。首先,输入层获取所述目标数据X1 1...Xi 1、X1 2...Xi 2、X1 3...Xi 3、X1 4...Xi 4、X1 5...Xi 5、......X1 j...Xi j。接着,在嵌入层中采用与所述文本数据对应的嵌入算法:词嵌入算法和句嵌入算法,分别对所述目标数据中的每个所述时间步对应的原始数据进行向量化处理,得到每个所述时间步对应的原始数据的稠密向量V1 1、V1 2......V1 j,其中,V1 1为第一个时间步对应的原始数据的稠密向量,V1 2为第二个时间步对应的原始数据的稠密向量,以此类推,V1 j为第j个时间步对应的原始数据的稠密向量。然后,注意力层中通过所述软注意力机制分别对每个所述时间步对应的原始数据的稠密向量V1 1、V1 2......V1 j进行特征提取和特征加权,以提取每个时间步对应的原始数据的稠密向量中的重要特征和非重要特征,并对重要特征和非重要特征进行不同程度的特征加权,使得保证需要关注的重要特征的同时,也不忽略非重要特征,进而实现对数据的多维度、全方面的特征提取,得到注意力特征序列V2 1、V2 2......V2 j,其中,V2 1为第一个时间步对应的原始数据的注意力特征序列,V2 2为第二个时间步对应的原始数据注意力特征序列,以此类推,V2 j为第j个时间步对应的原始数据的注意力特征序列。然后,在循环网络层中通过时间循环神经网络分别对每个所述时间步对应的原始数据的注意力特征序列进行特征学习,学习到长距离特征依赖关系,输出与原始数据的注意力特征序列在时间维度上等长的新的原始数据的特征序列V3 1、V3 2......V3 j,其中,V3 1为第一个时间步对应的与原始数据的注意力特征序列在时间维度上等长的新的原始数据的特征序列,V3 2为第二个时间步对应的与原始数据的注意力特征序列在时间维度上等长的新的原始数据的特征序列,以此类推,V3 j为第j个时间步对应的与原始数据的注意力特征序列在时间维度上等长的新的原始数据的特征序列,在实现了对多维度、异构的目标数据的特征提取的同时,还提高了目标数据的特征提取效率,从而改善了目标数据的特征提取效果。接着,在多头注意力层中将所有所述时间步对应的原始数据的特征序列V3 1、V3 2......V3 j经过H次仿射变换得到H次中每次仿射变换后的所有所述时间步对应的原始数据的特征序列,接着,将每次仿射变换后的所有所述时间步对应的原始数据的特征序列分别输入至H个注意力层,通过并行的H个软注意力机制进行特征提取和特征加权,得到所述多头注意力机制中的每个软注意力机制对应的目标数据的特征序列:V4 1、V4 2......V4 x、……、V4 (H-1)及V4 H,其中,x用于指示H个注意力机制中的第x个注意力层,x为小于等于H的正整数,以实现对所有所述时间步对应的原始数据的特征序列的高度并行处理,最终输出H个不同的特征序列:V4 1、V4 2......V4 x、……、V4 (H-1)及V4 H,最后,通过所述前馈神经网络将H个注意力机制中的每个软注意力机制对应的目标数据的的特征序列:V4 1、V4 2......V4 x、……、V4 (H-1)及V4 H,拼接为1个特征序列即为所述目标数据的特征向量V,实现了对目标数据的特征提取,防止目标数据的特征提取过拟合,提高了目标数据的特征提取效率,改善了目标数据的特征提取效果。最后,通过特征输出层输出得到的所述目标数据的特征向量…V。
接着,将与目标任务:预测用户是否会按时还款对应的待处理的目标数据经过特征提取后转换得到的目标数据的特征向量…V输入至所述任务模型:逻辑回归模型进行目标任务的执行后,得到执行结果,该逻辑回归模型在每一步的训练过程中,其梯度会流向待处理的目标数据的特征提取过程,所述执行结果会对所述目标数据进行特征提取的调整,使特征提取过程进一步更新和优化,然后,目标数据的更新后的特征向量输入该逻辑回归模型得到更新后的执行结果。实现了对特征提取、任务模型及经过所述任务模型后得到的执行结果都得到了更新与优化,确保得到的目标任务的执行结果更可靠精确。
综上所述,本申请使得在利用注意力机制和时间循环神经网络将获取的多维度、异构的待处理的目标数据中的特征提取出来的同时,忽视掉目标数据中的噪声与无用部分,筛选出所述目标数据中的重要信息和非重要信息,使得重要信息和非重要信息在目标数据的特征向量中所占的权重不同,以确保对目标数据进行多维度的分析及特征提取,以得到目标数据的特征向量并作为目标任务对应的任务模型的输入,经过任务模型的处理得到目标任务的执行结果,避免了人工数据处理的过程中可能出现的信息丢失的问题,节约人力,同时,提高目标数据的特征提取的筛选能力和拟合能力,改善了目标数据的特征提取效果,从而提高了目标任务执行结果的可靠性。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (7)

1.一种数据处理方法,其特征在于,所述方法包括:
获取目标任务及所述目标任务对应的任务模型和待处理的目标数据,其中,所述目标数据包括至少一个时间步对应的原始数据,所述原始数据包括至少一条,所述时间步指在待处理的目标数据中包括不同时间维度的数据,每个时间维度的每一步为一个时间步;
基于注意力机制和时间循环神经网络对所述目标数据进行特征提取,得到所述目标数据的特征向量;
将所述目标数据的特征向量输入所述任务模型以执行所述目标任务,得到所述目标任务的执行结果;
所述方法应用于金融领域的信用评估,所述目标任务对应的待处理的目标数据从不同时间维度上反映用户在金融领域所涉及的该用户的基本信息、兴趣爱好、社交网络信息、近期活动信息、资产信息、资金流动记录及不良信用记录;其中,
所述基于注意力机制和时间循环神经网络对所述目标数据进行特征提取,得到所述目标数据的特征向量,包括:依序基于软注意力机制和时间循环神经网络,分别对每个所述时间步对应的原始数据进行特征提取,得到每个所述时间步对应的原始数据的特征序列;基于多头注意力机制对所有所述时间步对应的原始数据的特征序列进行特征提取,并将提取出的特征经过前馈神经网络进行整合,得到所述目标数据的特征向量,其中,所述依序基于软注意力机制和时间循环神经网络,分别对每个所述时间步对应的原始数据进行特征提取,得到每个所述时间步对应的原始数据的特征序列,包括:基于与所述目标数据对应的嵌入算法,分别对每个所述时间步对应的原始数据进行向量化处理,得到每个所述时间步对应的原始数据的稠密向量;
基于所述软注意力机制分别对每个所述时间步对应的原始数据的稠密向量进行特征提取和特征加权,得到每个所述时间步对应的原始数据的注意力特征序列;基于所述时间循环神经网络,分别对每个所述时间步对应的原始数据的注意力特征序列进行特征学习,得到每个所述时间步对应的原始数据的特征序列,其中,所述特征序列包括长距离特征依赖关系。
2.根据权利要求1所述的方法,其特征在于,所述获取目标任务及所述目标任务对应的任务模型和待处理的目标数据,包括:
获取目标任务;
基于所述目标任务确定对应的任务模型和待处理数据;分别对所述待处理数据进行去噪、脱敏、清洗脚本及归一化处理,得到待处理的目标数据。
3.根据权利要求1所述的方法,其特征在于,所述基于多头注意力机制对所有所述时间步对应的原始数据的特征序列进行特征提取,并将提取出的特征经过前馈神经网络进行整合,得到所述目标数据的特征向量,包括:
将所有所述时间步对应的原始数据的特征序列经过至少一次仿射变换后,基于多头注意力机制分别对每次仿射变换后的、所述目标数据对应的特征序列进行特征提取和特征加权,得到所述多头注意力机制中的每个软注意力机制对应的目标数据的特征序列;
将所述多头注意力机制中的每个软注意力机制对应的目标数据的特征序列,经过所述前馈神经网络进行整合,得到所述目标数据的特征向量。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:
基于所述目标任务的执行结果对所述目标数据进行特征调整,得到所述目标数据的更新后的特征向量;
将所述目标数据的更新后的特征向量输入所述任务模型,以执行所述目标任务的同时对所述任务模型进行调整,得到所述目标任务的更新后的执行结果。
5.根据权利要求1至2中任一项所述的方法,其特征在于,所述时间循环神经网络为长短期记忆网络LSTM。
6.一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行时,使所述处理器实现如权利要求1至5中任一项所述的方法。
7.一种用于数据处理的设备,其特征在于,该设备包括:
一个或多个处理器;
计算机可读介质,用于存储一个或多个计算机可读指令,
当所述一个或多个计算机可读指令被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至5中任一项所述的方法。
CN201910775569.8A 2019-08-21 2019-08-21 一种数据处理方法及设备 Active CN110490304B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910775569.8A CN110490304B (zh) 2019-08-21 2019-08-21 一种数据处理方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910775569.8A CN110490304B (zh) 2019-08-21 2019-08-21 一种数据处理方法及设备

Publications (2)

Publication Number Publication Date
CN110490304A CN110490304A (zh) 2019-11-22
CN110490304B true CN110490304B (zh) 2023-10-27

Family

ID=68552668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910775569.8A Active CN110490304B (zh) 2019-08-21 2019-08-21 一种数据处理方法及设备

Country Status (1)

Country Link
CN (1) CN110490304B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222981A (zh) * 2020-01-16 2020-06-02 中国建设银行股份有限公司 可信度确定方法、装置、设备和存储介质
CN111491262A (zh) * 2020-04-26 2020-08-04 中国信息通信研究院 移动宽带网络信号强度确定方法和装置
CN113283979A (zh) * 2021-05-12 2021-08-20 广州市全民钱包科技有限公司 一种贷款申请人的贷款信用评估方法、装置及存储介质
CN117876910B (zh) * 2024-03-06 2024-06-21 西北工业大学 基于主动学习的无人机目标检测关键数据筛选方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280104B (zh) * 2017-02-13 2020-06-02 腾讯科技(深圳)有限公司 目标对象的特征信息提取方法及装置
US20190034497A1 (en) * 2017-07-27 2019-01-31 Nec Laboratories America, Inc. Data2Data: Deep Learning for Time Series Representation and Retrieval
CN108460679B (zh) * 2018-02-28 2021-02-26 电子科技大学 融合注意力机制的深度网络智能投资***数据分析方法

Also Published As

Publication number Publication date
CN110490304A (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
US11720804B2 (en) Data-driven automatic code review
CN110490304B (zh) 一种数据处理方法及设备
CN112633419B (zh) 小样本学习方法、装置、电子设备和存储介质
CN111724083A (zh) 金融风险识别模型的训练方法、装置、计算机设备及介质
US10346782B2 (en) Adaptive augmented decision engine
CN110598620B (zh) 基于深度神经网络模型的推荐方法和装置
US20220253856A1 (en) System and method for machine learning based detection of fraud
US20210303970A1 (en) Processing data using multiple neural networks
US20210304055A1 (en) Mechanisms for Continuous Improvement of Automated Machine Learning
CN110956278A (zh) 重新训练机器学习模型的方法和***
CN116737581A (zh) 测试文本的生成方法、装置、存储介质及电子设备
US20200175406A1 (en) Apparatus and methods for using bayesian program learning for efficient and reliable knowledge reasoning
CN116522912B (zh) 一种包装设计语言模型的训练方法、装置、介质及设备
CN117421639A (zh) 多模态数据分类方法、终端设备及存储介质
RU2715024C1 (ru) Способ отладки обученной рекуррентной нейронной сети
KR102284440B1 (ko) 딥러닝 모델 거래중개서버에 의해서 수행되는 딥러닝 모델 거래를 중개하는 방법
CN112328899B (zh) 信息处理方法、信息处理装置、存储介质与电子设备
CN112860652B (zh) 作业状态预测方法、装置和电子设备
WO2022265782A1 (en) Blackbox optimization via model ensembling
CN118155227B (zh) 基于智能化技术的核电设备维护决策方法及***
KR102311108B1 (ko) 딥러닝 모델 거래중개서버에 의해서 수행되는 딥러닝 모델 거래를 중개하는 방법
US20240232177A9 (en) Automatic Generation of Training and Testing Data for Machine-Learning Models
US20230008628A1 (en) Determining data suitability for training machine learning models
CN117633282A (zh) 金融产品的查询方法及装置、存储介质和电子设备
CA3108609A1 (en) System and method for machine learning based detection of fraud

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant