CN110390056B - 大数据处理方法、装置、设备及可读存储介质 - Google Patents

大数据处理方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN110390056B
CN110390056B CN201910526411.7A CN201910526411A CN110390056B CN 110390056 B CN110390056 B CN 110390056B CN 201910526411 A CN201910526411 A CN 201910526411A CN 110390056 B CN110390056 B CN 110390056B
Authority
CN
China
Prior art keywords
data
pushing
weight
pushed
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910526411.7A
Other languages
English (en)
Other versions
CN110390056A (zh
Inventor
高梁梁
陈绯霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910526411.7A priority Critical patent/CN110390056B/zh
Publication of CN110390056A publication Critical patent/CN110390056A/zh
Application granted granted Critical
Publication of CN110390056B publication Critical patent/CN110390056B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及大数据技术领域,公开了一种大数据处理方法,包括以下步骤:通过预置多层感知器神经网络模型集合中预先训练好的各个多层感知器神经网络模型,分别对数据记录表中的初始待推送数据进行分类,得到干扰数据集与非干扰数据集;对所述非干扰数据集中的数据进行降维,得到降维数据集;通过关联算法计算所述降维数据集中数据间的关联关系值,根据公式
Figure DDA0002098372390000011
计算所述关联关系值的权重,得到具有权重的降维数据集。本发明还公开了一种大数据处理装置、设备及计算机可读存储介质。本发明通过对数据进行处理,实现了优化大数据的目的。

Description

大数据处理方法、装置、设备及可读存储介质
技术领域
本发明涉及大数据技术领域,尤其涉及一种大数据处理方法、装置、设备及计算机可读存储介质。
背景技术
互联网技术的迅猛发展把用户带进了信息***的时代,用户几乎每天都会从手机或者电脑端被动接受到很多信息,用户往往很难从海量的数据中获取到真正所需的数据。针对这一情况,推荐算法能够有效地为用户筛选信息的优势受到了重视,尤其在电子商务***中的应用最为广泛。推荐算法是计算机专业中的一种算法,通过一些数学算法,推测出用户可能喜欢的东西,目前应用推荐算法比较好的地方主要是网络。所谓推荐算法就是利用用户的一些行为,例如购买某种物品,浏览某种物品的网页等,通过一些数学算法,推测出用户可能喜欢的东西。但是,在推送时推荐算法往往要处理高纬度的数据,因此计算速度会较慢,并且海量数据中也存在大量的干扰数据,例如对用户无价值的垃圾信息,这些数据的存在也影响了计算的速度,如何对大数据进行处理,使得数据得到优化,是本领域技术人员亟待解决的问题。
发明内容
本发明的主要目的在于提供一种大数据处理方法、装置、设备及计算机可读存储介质,旨在解决如何更为优化地处理大数据的技术问题。
为实现上述目的,本发明提供一种大数据处理方法,所述大数据处理方法包括以下步骤:
通过预置多层感知器神经网络模型集合中预先训练好的各个多层感知器神经网络模型,分别对数据记录表中的初始待推送数据进行分类,得到干扰数据集与非干扰数据集;
将所述非干扰数据集构造成样本数据矩阵Dn×m
通过协方差公式,计算所述样本数据矩阵Dn×m的协方差矩阵Cm×m
计算所述协方差矩阵Cm×m的m个特征值和对应的m个特征向量;
通过冒泡排序法对所述特征值和特征向量进行排序,并将所述排序后的特征值和特征向量映射到低维空间,得到降维数据集;
通过关联算法计算所述降维数据集中数据间的关联关系值,通过以下公式,计算所述关联关系值的权重,得到具有权重的降维数据集;
Figure BDA0002098372370000021
其中,Wij表示关联关系值的权重,Nij表示在j个数据分组中,数据组i中的数据之间的关联关系值,λ为权重调节系数,所述降维数据集包括多个数据分组。
可选地,在所述通过预置多层感知器神经网络模型集合中预先训练好的各个多层感知器神经网络模型,分别对数据记录表中的初始待推送数据进行分类,得到干扰数据集与非干扰数据集的步骤之前,还包括以下步骤:
依次遍历初始待推送数据数据记录表内的初始待推送数据,记录出现频率最高的初始待推送数据,并判断所述遍历到的初始待推送数据是否为异常数据;
若所述遍历到的初始待推送数据为异常数据,则对所述异常数据进行标记,得到标记数据;
采用所述出现频率最高的初始待推送数据替换所述标记数据,得到数据记录表。
可选地,在所述通过关联算法计算所述降维数据集中数据间的关联关系值,通过以下公式,计算所述关联关系值的权重,得到具有权重的降维数据集的步骤之后,还包括以下步骤:
基于最小二乘法构建初始最小二乘法数据推送模型;
采用所述具有权重的降维数据集,对初始待推送数据推送模型进行训练,得到最小二乘法数据推送模型。
可选地,在所述采用所述具有权重的降维数据集,对初始待推送数据推送模型进行训练,得到最小二乘法数据推送模型的步骤之后,还包括以下步骤:
根据预置配置文件中写入的定时任务类,判断当前是否存在定时推送数据的指令;
若存在定时推送数据的指令,则根据所述指令定时推送数据,并以页面的形式进行展示,若否,则通过最小二乘法数据推送模型实时推送所述具有权重的降维数据集,并以页面的形式进行展示。
可选地,在所述若存在定时推送数据的指令,则根据所述指令定时推送数据,并以页面的形式进行展示的步骤之后,还包括以下步骤:
判断页面数据的利用率是否小于预设阈值;
若页面数据的利用率小于预设阈值,则通过关联算法计算所述降维数据集中数据间的关联关系值,通过以下公式,计算所述关联关系值的权重,得到具有权重的降维数据集,调节所述公式权重调节系数λ值的大小,直至所述页面数据的利用率大于或等于所述预设阈值,若否,则不处理。
可选地,在所述通过预置多层感知器神经网络模型集合中预先训练好的各个多层感知器神经网络模型,分别对数据记录表中的初始待推送数据进行分类,得到干扰数据集与非干扰数据集的步骤之前,还包括以下步骤:
根据初始待推送数据与数据记录表之间的预置映射关系,判断所述初始待推送数据是否与所述数据记录表相匹配;
若所述初始待推送数据与所述数据记录表相匹配,则将所述初始待推送数据保存至所述数据记录表。
可选地,在所述通过最小二乘法数据推送模型实时推送所述具有权重的降维数据集,并以页面的形式进行展示的步骤之前,还包括以下步骤:
判断当前是否存在所述具有权重的降维数据集的获取指令;
若当前存在所述具有权重的降维数据集的获取指令,则获取所述具有权重的降维数据集,并以页面的形式进行展示;
若当前不存在所述具有权重的降维数据集的获取指令,则根据预置配置文件中写入的定时任务类,判断当前是否存在定时推送数据的指令。
进一步地,为实现上述目的,本发明还提供一种大数据处理装置,所述大数据处理装置包括:
分类模块,用于通过预置多层感知器神经网络模型集合中预先训练好的多层感知器神经网络模型,分别对数据记录表中的初始待推送数据进行分类,得到干扰数据集与非干扰数据集;
构造模块,用于将所述非干扰数据集构造成样本数据矩阵Dn×m
第一计算模块,用于通过协方差公式,计算所述样本数据矩阵Dn×m的协方差矩阵Cm×m
第二计算模块,用于计算所述协方差矩阵Cm×m的m个特征值和对应的m个特征向量;
排序模块,用于通过冒泡排序法对所述特征值和特征向量进行排序,并将所述排序后的特征值和特征向量映射到低维空间,得到降维数据集;
第三计算模块,用于通过关联算法计算所述降维数据集中数据间的关联关系值,通过以下公式,计算所述关联关系值的权重,得到具有权重的降维数据集;
Figure BDA0002098372370000041
其中,Wij表示关联关系值的权重,Nij表示在j个数据分组中,数据组i中的数据之间的关联关系值,λ为权重调节系数,所述降维数据集包括多个数据分组。
可选地,所述大数据处理装置还包括:
第一判断模块,用于依次遍历初始待推送数据数据记录表内的初始待推送数据,记录出现频率最高的初始待推送数据,并判断所述遍历到的初始待推送数据是否为异常数据;
标记模块,用于若所述遍历到的初始待推送数据为异常数据,则对所述异常数据进行标记,得到标记数据;
替换模块,用于采用所述出现频率最高的初始待推送数据替换所述标记数据,得到数据记录表。
可选地,所述大数据处理装置还包括:
构建模块,用于基于最小二乘法构建初始最小二乘法数据推送模型;
训练模块,用于采用所述具有权重的降维数据集对初始待推送数据推送模型进行训练,得到最小二乘法数据推送模型。
可选地,所述大数据处理装置还包括:
第二判断模块,用于根据预置配置文件中写入的定时任务类,判断当前是否存在定时推送数据的指令;
第一推送模块,用于若存在定时推送数据的指令,则根据所述指令定时推送数据,并以页面的形式进行展示;
第二推送模块,用于若不存在定时推送数据的指令,则通过最小二乘法数据推送模型实时推送所述具有权重的降维数据集,并以页面的形式进行展示。
可选地,所述大数据处理装置还包括:
第三判断模块,用于判断页面数据的利用率是否小于预设阈值;
调节模块,用于若页面数据的利用率小于预设阈值,则则通过关联算法计算所述降维数据集中数据间的关联关系值,通过以下公式,计算所述关联关系值的权重,得到具有权重的降维数据集,调节所述公式权重调节系数λ值的大小,直至所述页面数据的利用率大于或等于所述预设阈值。
可选地,所述大数据处理装置还包括:
第四判断模块,用于根据初始待推送数据与数据记录表之间的预置映射关系,判断所述初始待推送数据是否与所述数据记录表相匹配;
保存模块,用于若所述初始待推送数据与所述数据记录表相匹配,则将所述初始待推送数据保存至所述数据记录表。
可选地,所述大数据处理装置还包括:
第五判断模块,用于判断当前是否存在所述具有权重的降维数据集的获取指令;
展示模块,用于若当前存在所述具有权重的降维数据集的获取指令,则获取所述权重的数据集,并以页面的形式进行展示;
第六判断模块,用于若当前不存在所述具有权重的降维数据集的获取指令,则根据预置配置文件中写入的定时任务类,判断当前是否存在定时推送数据的指令。
进一步地,为实现上述目的,本发明还提供一种大数据处理设备,所述大数据处理设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的大数据处理程序,所述大数据处理程序被所述处理器执行时实现如上述任一项所述的大数据处理方法的步骤。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有大数据处理程序,所述大数据处理程序被处理器执行时实现如上述任一项所述的大数据处理方法的步骤。
本发明中,先通过具有不同隐藏层层数的多层感知器模型对初始待推送数据进行分类,可以有效清除掉初始待推送数据中的干扰数据,并对非干扰数据进行降维处理,得到降维数据,通过关联算法计算出不同数据间的关联关系以及为各个具有关联关系的数据组设置不同的权重,实现了对大数据的优化处理。
附图说明
图1为本发明实施例方案涉及的大数据处理设备运行环境的结构示意图;
图2为本发明大数据处理方法第一实施例的流程示意图;
图3为本发明大数据处理方法第二实施例的流程示意图;
图4为本发明大数据处理方法第三实施例的流程示意图;
图5为本发明大数据处理方法第四实施例的流程示意图;
图6为本发明大数据处理方法第五实施例的流程示意图;
图7为本发明大数据处理方法第六实施例的流程示意图;
图8为本发明大数据处理方法第七实施例的流程示意图;
图9为本发明大数据处理装置一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提供一种大数据处理设备。
参照图1,图1为本发明实施例方案涉及的大数据处理设备运行环境的结构示意图。
如图1所示,该大数据处理设备包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的大数据处理设备的硬件结构并不构成对大数据处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机可读存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及大数据处理程序。其中,操作***是管理和控制大数据处理设备和软件资源的程序,支持大数据处理程序以及其它软件和/或程序的运行。
在图1所示的大数据处理设备的硬件结构中,网络接口1004主要用于接入网络;用户接口1003主要用于侦测确认指令和编辑指令等。而处理器1001可以用于调用存储器1005中存储的大数据处理程序,并执行以下大数据处理方法的各实施例的操作。
基于上述大数据处理设备硬件结构,提出本发明大数据处理方法的各个实施例。
参照图2,图2为本发明大数据处理方法第一实施例的流程示意图。本实施例中,所述大数据处理方法包括以下步骤:
步骤S10,通过预置多层感知器神经网络模型集合中预先训练好的各个多层感知器神经网络模型,分别对数据记录表中的初始待推送数据进行分类,得到干扰数据集与非干扰数据集;
本实施例中,使用更多的隐藏层并不一定能提高多层感知器神经网络模型的分类能力,所以直接使用训练好的单个多层感知器神经网络模型分别对数据数据记录表中的数据进行分类,分类结果的准确率不能得到保障,为了解决这一问题,在本实施例中采用了具有不同隐藏层层数的多层感知器神经网络模型分别对数据记录表中的数据进行分类,其中,所述预置多层感知器神经网络模型集合中至少包括两个预先训练好的多层感知器神经网络模型,所述预先训练好的多层感知器神经网络模型具有不同的隐藏层层数。
每个具有不同隐藏层层数的多层感知器神经网络模型都会输出分类结果,再根据实际预先设置的人工分类结果,通过返现传播算法调整各个多层感知器神经网络模型所占的权重,最终输出的分类结果也会比单个模型更加准确。
主要是通过多层感知器神经网络模型将干扰数据与非干扰数据将数据进行分离,从而清理掉干扰数据,干扰数据主要根据实际场景的需求进行限定,例如,要计算出现频率最高的商品名称,则可以将标点符号等与商品名称无关的数据设置为干扰数据。Dn×m的协方差矩阵Cm×m
步骤S20,将所述非干扰数据集构造成样本数据矩阵Dn×m
本实施例中,将所述非干扰数据集构造成样本数据矩阵Dn×m,该矩阵由n行m列数据构成。
步骤S30,通过协方差公式,计算所述样本数据矩阵Dn×m的协方差矩阵Cm×m
本实施例中,通过协方差公式,计算所述样本数据矩阵Dn×m的协方差矩阵Cm×m。该矩阵由m行m列数据构成。
步骤S40,计算所述协方差矩阵Cm×m的m个特征值和对应的m个特征向量;
本实施例中,计算所述协方差矩阵Cm×m的m个特征值和对应的m个特征向量。
步骤S50,通过冒泡排序法对所述特征值和特征向量进行排序,并将所述排序后的特征值和特征向量映射到低维空间,得到降维数据集;
本实施例中,由于在大数据场景下,大批量、高纬度的数据会影响后续算法对非干扰数据的处理的速度,因此在本实施例对非干扰数据集中的大批量数据进行降维。具体过程是,将一个高维向量x,通过一个特殊的特征向量矩阵U,投影到一个低维的向量空间中,表征为一个低维向量y。例如,非干扰数据集中的数据的维度是2000维,经过降维后数据维度将远小于2000维度。冒泡排序法指的是,重复地走访需要排序的特征值,依次比较两个相邻的特征值,如果顺序错误就把他们交换过来,例如,0.2排在0.3的前面,则是错误的。走访特征值的工作是重复地进行直到没有相邻特征值需要交换。
步骤S60,通过关联算法计算所述降维数据集中数据间的关联关系值,通过以下公式,计算所述关联关系值的权重,得到具有权重的降维数据集;
Figure BDA0002098372370000091
其中,Wij表示关联关系值的权重,Nij表示在j个数据分组中,数据组i中的数据之间的关联关系值,λ为权重调节系数,所述降维数据集包括多个数据分组。
本实施例中,关联算法一种在大规模数据集中寻找关联关系的算法。该算法主要包含两个步骤:首先找出数据集中所有的频繁项集,这些项集出现的频繁性要大于或等于最小支持度;然后根据频繁项集产生强关联规则,这些规则必须满足最小支持度和最小置信度。
Figure BDA0002098372370000092
通过上述两个公式可以得到不同数据之间的关联关系,这样在后续输出数据的时候会将与目标数据存在关联关系的的数据一并输出,但是紧靠关联算法是远远不够的,为了使数据可以满足更多场景的需求,在本实施例中又对具有不同关联关系的数据进行加权分析,有些数据间的置信度较高则可以根据预先设置的权重规则自动为该数据设置更高的权重,由于在实际场景中,对不同数据的的需求有可能是动态变化的,因此本实施例中具有不同权重的数据的权重值也是可以动态变化的,例如可以通过预先设置的阈值来确定是否对数据的权重值进行一定的调整。例如,用户在正在执行对A产品进行下单操作后,都会对B产品以及C产品进行下单操作,那么这些操作之间以及由操作而带来的数据之间是存在关联关系的,而关联关系的大小存在差异性的可能,例如用户仅仅在一次消中在购物平台上购买A产品的同时也购买了B产品,而B产品对于用户来说并不是易耗产品,若每次推送产品的时候都推送B产品,那么就存在降低用户体验度的可能,而本实施例中的方案,由于为具有不同关联关系的数据设置了不同的权重,所以会提高推送的准确度。
参照图3,图3为本发明大数据处理方法第二实施例的流程示意图。本实施例中,在图2中的所述通过预置多层感知器神经网络模型集合中预先训练好的各个多层感知器神经网络模型,分别对数据记录表中的初始待推送数据进行分类,得到干扰数据集与非干扰数据集的步骤之前,还包括以下步骤::
步骤S70,依次遍历初始待推送数据记录表内的初始待推送数据,记录出现频率最高的初始待推送数据,并判断所述遍历到的初始待推送数据是否为异常数据;
本实施例中,对依次遍历到的数据记录表内的数据进行校验,其目的是为了发现异常的数据,保证存入保存节点的数据的正确性。例如,对名称为“年龄”的数据记录表,预先设置写入年龄数据的规则,例如,规定年龄需为正整数,年龄值的范围需在1-100之间,如果此时将-2、0或130输入数据记录表内,通过验证后可以发现-2、0或130均为异常数据,如果将这些继续保存在数据记录表中,会占用数据记录表的空间,如果将这些异常数据输入下一流程,则会继续处理异常数据,而对异常大数据处理后获取的结果也是不准确的。因此,对发现的异常数据要及时处理。
本实施例中,对数据验证的方式不限,例如,可以是采用验证工具serial izers对数据进行验证。
本实施例中,通过对数据记录表内的数据进行逐一验证,可以对每条数据是否为异常数据而做出判断。例如,用户甲在保险***上所下订单的产品的金额是10元,例如规定,在对甲用户推荐产品的时候,可以推荐5-15元之间的产品,若推荐10000-20000元的产品就不符合用户的购买习惯,因此可以把这样的数据归为异常数据。如果是正常数据的话,就可以将正常数据推送给用户。
步骤S80,若所述遍历到的初始待推送数据为异常数据,则对所述异常数据进行标记,得到标记数据,若否,则得到数据记录表;
本实施例中,所述依次遍历到的数据记录表内的数据是异常数据,则对所述异常数据进行标记,得到标记数据。
步骤S90,采用所述出现频率最高的初始待推送数据替换所述标记数据,得到数据记录表。
本实施例中,对异常数据的处理方式不限,例如,采用该数据记录表内出现频率最高的数据去取代异常数据,如“年龄”age{1、2、3、3、-2},年龄需要为整数,不能为负数,所以“-2”为异常数据,3为出现频率最高的数据。那么可得到age{1、2、3、3、3}。采集数据时采用的是全量采集的方式,即在采集数据时,既采集前端的数据,又采集后端的数据,由于第一数据采集模块采集的数据繁多,那么数据中就有存在异常数据的可能。若对这些数据置之不理,那么这些异常数据就有可能会影响到推送消息的准确性。
参照图4,图4为本发明大数据处理方法第三实施例的流程示意图。本实施例中,在图2中的所述通过关联算法计算所述降维数据集中数据间的关联关系值,通过以下公式,计算所述关联关系值的权重,得到具有权重的降维数据集的步骤之后,还包括以下步骤:
步骤S100,基于最小二乘法构建初始最小二乘法数据推送模型;
本实施例中,数据推送模型可以包含一种或多种算法,现以线性最小二乘法为例进行具体阐述。最小二乘法原理如下,若数据x与数据y之间存在一种对应关系f,那么这种对应关系就是模型,采用大量的x与y去训练模型,即机器学***方差来衡量估计值与真实值得误差,因为如果只用差值就可能会存在负数;用于计算真实值与预测值的误差的函数称为:平方损失函数;这里用L表示损失函数,所以有:Ln=(yn-(mxn+C))2
在推送第二交易数据x后,用户对推送后的数据会做出反应,那么此时就可获取到用户的行为数据y,根据用户行为数据可以得知用户是否对推送的数据是否满意。通过大量的x,y对初始待推送数据推送模型进行训练,直至训练完成。
步骤S110,采用所述具有权重的降维数据集对初始待推送数据推送模型进行训练,得到最小二乘法数据推送模型。
本实施例中,通过采用线性最小二乘法可以得到用户行为数据与需要推送的数据之间的关系,例如,用户对某一用户界面浏览的时间比较长,那么,在下次推送的时候,优先推送上述行为数据。
参照图5,图5为本发明大数据处理方法第四实施例的流程示意图。本实施例中,在图4中的所述采用所述具有权重的降维数据集对初始待推送数据推送模型进行训练,得到最小二乘法数据推送模型的步骤之后,还包括以下步骤:
步骤S120,根据预置配置文件中写入的定时任务类,判断当前是否存在定时推送数据的指令;
本实施例中,为了个性化地推送产品,在本实施例中按照预先设置的定时任务类来判断是否进行推送,这样的推送方式会更加精准。若当前存在推送数据的指令,则推送数据,若不存在推送数据的指令则不推送,这样的设置会极大满足实际场景的需求。
本实施例中,可以根据定时任务类推送数据,例如,可以规定每十五分钟进行推送一次,并且可以根据定时任务类对推送的内容进行限定。先在配置文件中配置相应的定时任务类。例如,可以采用quartz或timer处理定时任务。在处理定时任务的时候为了可以个性化地管理处理过程,因此,可以在配置文件内设置定时任务类,定时任务类包括定时任务查询类、定时任务执行类、定时任务组装类和定时任务推送类,例如,通过设置定时任务的运行频率,可以设置每次500条的定时任务;配置定时任务启动时间,可以实现每5分钟启动一次。在定时任务执行类执行的时候,根据定时任务查询类查询数据记录表中的数据,通过定时任务组装类组装数据,组装的过程为先创建jsonobject对象,调用jsonobject对象的put方法对json数据进行组装,得到组装好的数据。最后,通过调用resful接口推送组装好的数据。
步骤S130,若存在定时推送数据的指令,则根据所述指令定时推送数据,并以页面的形式进行展示,若否,则通过最小二乘法数据推送模型实时推送所述具有权重的降维数据集,并以页面的形式进行展示。
本实施例中,若存在推送数据的指令,则通过最小二乘法数据推送模型推送所述具有权重的降维数据集,为了个性化地推送产品,在本实施例中按照预先设置的定时任务类来判断是否进行推送,这样的推送方式会更加精准。完成训练的最小二乘法数据推送模型在推送数据时,是根据定时任务类的推送指令进行推送的,例如,推送指令规定每24小时推送一次,并将数据以页面的形式进行展示。
参照图6,图6为本发明大数据处理方法第五实施例的流程示意图。本实施例中,在图5中的所述若存在推送数据的指令,则通过最小二乘法数据推数据模型推送所述具有权重的降维数据集,并以页面的形式进行展示的步骤之后,还包括以下步骤:
步骤S140,判断页面数据的利用率是否小于预设阈值;
本实施例中,为了实时检验推送的内容是否达到预期效果,例如用户浏览时间、用户有无进行操作等,所以需要预先设置预设阈值,以判断推送的数据利用率是否足够高,即判断所述页面数据的利用率是否小于预设阈值。
步骤S150,若页面数据的利用率小于预设阈值,则返回步骤S60,并调节权重调节系数λ值的大小,直至所述页面数据的利用率大于或等于所述预设阈值,若否,则不处理。
本实施例中,若页面上展现的数据利用度不高,则可能存在推送不准确、推送资源浪费等情况,出现这种情况的主要原因是不精准数据占据的权重较高,而精准数据占据的权重较低,因此返回步骤S60,调节权重调节系数λ值的大小,直至所述页面数据的利用率大于或等于所述预设阈值。
参照图7,图7为本发明大数据处理方法第六实施例的流程示意图。本实施例中,在图2中的所述通过预置多层感知器神经网络模型集合中预先训练好的各个多层感知器神经网络模型,分别对数据记录表中的初始待推送数据进行分类,得到干扰数据集与非干扰数据集的步骤之前,还包括以下步骤:
步骤S160,根据初始待推送数据与数据记录表之间的预置映射关系,判断所述初始待推送数据是否与所述数据记录表相匹配;
本实施例中,预先建立初始待推送数据与数据记录表之间的预置映射关系,例如,对不同的数据设置不同的标签,带有不同表标签的数据与不同的数据记录表之间存在对应关系,根据初始待推送数据是与数据记录表之间的预置映射关系,判断所述初始待推送数据是否与所述数据记录表相匹配。
步骤S170,若所述初始待推送数据与所述数据记录表相匹配,则将所述初始待推送数据保存至所述数据记录表,若否,则不处理。
本实施例中,因为数据数量庞大且类型众多,若不对数据分门别类地进行的存储,会不利于对数据进行处理。在本实施例中,为了判断初始待推送数据是否与数据记录表相匹配,可以先预置初始待推送数据是与数据记录表之间的映射关系,例如,为数据记录表设置不同的名称,不同名称的数据记录表用于储存不同类型的数据,如果初始待推送数据与数据记录表相匹配,则可以将初始待推送数据放入指定的数据记录表,如果初始待推送数据与数据记录表不匹配,则不处理。
参照图8,图8为本发明大数据处理方法第七实施例的流程示意图。本实施例中,在图5中的所述通过最小二乘法数据推送模型实时推送所述具有权重的降维数据集,并以页面的形式进行展示的步骤之前,还包括以下步骤:
步骤S180,判断当前是否存在所述具有权重的降维数据集的获取指令;
本实施例中,除了根据预先设置的定时任务类来判断是否进行推送数据外,在实际场景中还存在用户通过客户端发送指令以获取数据的情况,因此,需要判断客户端是否存在发送获取所述权重的数据的请求,其方式不限,例如,根据用户操作指令。
步骤S190,若当前存在所述具有权重的降维数据集的获取指令,则获取所述具有权重的降维数据集,并以页面的形式进行展示;
若当前不存在所述具有权重的降维数据集的获取指令,则返回步骤S120。
本实施例中,若客户端存在发送获取所述权重的数据集的请求,则获取所述权重的数据集,并以页面的形式进行展示,若客户端不存在发送获取所述权重的数据集的请求,则判断所述权重的数据集是否符合定时任务类推送条件。
本发明中,先通过具有不同隐藏层层数的多层感知器模型对初始待推送数据进行分类,可以有效清除掉初始待推送数据中的干扰数据,通过主成分分析算法对非干扰数据进行降维处理,可以降低数据的维度,得到降维数据,通过关联算法计算出不同数据间的关联关系以及为各个具有关联关系的数据组设置不同的权重,最后通过最小二乘法数据推送模型对数据进行推送,并以页面的形式进行展示,实现了对大数据进行优化的目的。
本发明还提供一种大数据处理装置。
参照图9,图9为本发明大数据处理装置一实施例的功能模块示意图。本实施例中,所述大数据处理装置包括:
分类模块10,用于通过预置多层感知器神经网络模型集合中预先训练好的多层感知器神经网络模型,分别对数据记录表中的初始待推送数据进行分类,得到干扰数据集与非干扰数据集;
构造模块20,用于将所述非干扰数据集构造成样本数据矩阵Dn×m
第一计算模块30,用于通过协方差公式,计算所述样本数据矩阵Dn×m的协方差矩阵Cm×m
第二计算模块40,用于计算所述协方差矩阵Cm×m的m个特征值和对应的m个特征向量;
排序模块50,用于通过冒泡排序法对所述特征值和特征向量进行排序,并将所述排序后的特征值和特征向量映射到低维空间,得到降维数据集;
第三计算模块60,用于通过关联算法计算所述降维数据集中数据间的关联关系值,通过以下公式,计算所述关联关系值的权重,得到具有权重的降维数据集;
Figure BDA0002098372370000151
其中,Wij表示关联关系值的权重,Nij表示在j个数据分组中,数据组i中的数据之间的关联关系值,λ为权重调节系数,所述降维数据集包括多个数据分组。
本实施例中,分类模块10用于通过预置多层感知器神经网络模型集合中预先训练好的多层感知器神经网络模型,分别对数据记录表中的初始待推送数据进行分类,得到干扰数据集与非干扰数据集;构造模块20用于将所述非干扰数据集构造成样本数据矩阵Dn×m;第一计算模块30用于通过协方差公式,计算所述样本数据矩阵Dn×m的协方差矩阵Cm×m;第二计算模块40用于计算所述协方差矩阵Cm×m的m个特征值和对应的m个特征向量;排序模块50用于通过冒泡排序法对所述特征值和特征向量进行排序,并将所述排序后的特征值和特征向量映射到低维空间,得到降维数据集;第三计算模块60用于通过关联算法计算所述降维数据集中数据间的关联关系值,通过以下公式,计算所述关联关系值的权重,得到具有权重的降维数据集;
Figure BDA0002098372370000161
其中,Wij表示关联关系值的权重,Nij表示在j个数据分组中,数据组i中的数据之间的关联关系值,λ为权重调节系数,所述降维数据集包括多个数据分组。
先通过分类模块对初始待推送数据进行分类,有效清除掉初始待推送数据中的干扰数据,通过降维模块对非干扰数据进行降维处理,可以降低数据的维度,得到降维数据,通过计算模块计算出不同数据间的关联关系以及为各个具有关联关系的数据设置不同的权重,实现了对大数据的优化处理。
本发明还提供一种计算机可读存储介质。
本实施例中,所述计算机可读存储介质上存储有大数据处理程序,所述大数据处理程序被处理器执行时实现如上述任一项实施例中所述的大数据处理方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,这些均属于本发明的保护之内。

Claims (9)

1.一种大数据处理方法,其特征在于,所述大数据处理方法包括以下步骤:
预置多层感知器神经网络模型集合,通过多层感知器神经网络模型集合中预先训练好的多层感知器神经网络模型,分别对数据记录表中的初始待推送数据进行分类,得到干扰数据集与非干扰数据集;
将所述非干扰数据集构造成样本数据矩阵Dn×m
通过协方差公式,计算所述样本数据矩阵Dn×m的协方差矩阵Cm×m
计算所述协方差矩阵Cm×m的m个特征值和对应的m个特征向量;
通过冒泡排序法对所述特征值和特征向量进行排序,并将所述排序后的特征值和特征向量映射到低维空间,得到降维数据集;
通过关联算法计算所述降维数据集中数据间的关联关系值,计算所述关联关系值的权重,得到具有权重的降维数据集;
根据预置配置文件中写入的定时任务类,判断当前是否存在定时推送数据的指令;
若存在定时推送数据的指令,则根据所述指令定时推送数据,并以页面的形式进行展示;
若不存在定时推送数据的指令,则通过最小二乘法数据推送模型实时推送所述具有权重的降维数据集,并以页面的形式进行展示;
其中,
Figure FDA0003661340010000011
Wij表示关联关系值的权重,Nij表示在j个数据分组中,数据组i中的数据之间的关联关系值,λ为权重调节系数,所述降维数据集包括多个数据分组。
2.如权利要求1所述的大数据处理方法,其特征在于,在所述预置多层感知器神经网络模型集合,通过多层感知器神经网络模型集合中预先训练好的各个多层感知器神经网络模型,分别对数据记录表中的初始待推送数据进行分类,得到干扰数据集与非干扰数据集的步骤之前,还包括以下步骤:
依次遍历初始待推送数据数据记录表内的初始待推送数据,记录出现频率最高的初始待推送数据,并判断所述遍历到的初始待推送数据是否为异常数据;
若所述遍历到的初始待推送数据为异常数据,则对所述异常数据进行标记,得到标记数据;
采用所述出现频率最高的初始待推送数据替换所述标记数据,得到数据记录表。
3.如权利要求1所述的大数据处理方法,其特征在于,在所述通过关联算法计算所述降维数据集中数据间的关联关系值,计算所述关联关系值的权重,得到具有权重的降维数据集的步骤之后,还包括以下步骤:
基于最小二乘法构建初始最小二乘法数据推送模型;
采用所述具有权重的降维数据集,对初始待推送数据推送模型进行训练,得到最小二乘法数据推送模型。
4.如权利要求1所述的大数据处理方法,其特征在于,在所述若存在定时推送数据的指令,则根据所述指令定时推送数据,并以页面的形式进行展示的步骤之后,还包括以下步骤:
判断页面数据的利用率是否小于预设阈值;
若页面数据的利用率小于预设阈值,则通过关联算法计算所述降维数据集中数据间的关联关系值,计算所述关联关系值的权重,得到具有权重的降维数据集,调节所述公式权重调节系数λ值的大小,直至所述页面数据的利用率大于或等于所述预设阈值。
5.如权利要求1所述的大数据处理方法,其特征在于,在所述预置多层感知器神经网络模型集合,通过多层感知器神经网络模型集合中预先训练好的各个多层感知器神经网络模型,分别对数据记录表中的初始待推送数据进行分类,得到干扰数据集与非干扰数据集的步骤之前,还包括以下步骤:
根据初始待推送数据与数据记录表之间的预置映射关系,判断所述初始待推送数据是否与所述数据记录表相匹配;
若所述初始待推送数据与所述数据记录表相匹配,则将所述初始待推送数据保存至所述数据记录表。
6.如权利要求1所述的大数据处理方法,其特征在于,在所述通过最小二乘法数据推送模型实时推送所述具有权重的降维数据集,并以页面的形式进行展示的步骤之前,还包括以下步骤:
判断当前是否存在所述具有权重的降维数据集的获取指令;
若当前存在所述具有权重的降维数据集的获取指令,则获取所述具有权重的降维数据集,并以页面的形式进行展示;
若当前不存在所述具有权重的降维数据集的获取指令,则根据预置配置文件中写入的定时任务类,判断当前是否存在定时推送数据的指令。
7.一种大数据处理装置,其特征在于,所述大数据处理装置包括:
分类模块,用于预置多层感知器神经网络模型集合,通过多层感知器神经网络模型集合中预先训练好的多层感知器神经网络模型,分别对数据记录表中的初始待推送数据进行分类,得到干扰数据集与非干扰数据集;
构造模块,用于将所述非干扰数据集构造成样本数据矩阵Dn×m
第一计算模块,用于通过协方差公式,计算所述样本数据矩阵Dn×m的协方差矩阵Cm×m
第二计算模块,用于计算所述协方差矩阵Cm×m的m个特征值和对应的m个特征向量;
排序模块,用于通过冒泡排序法对所述特征值和特征向量进行排序,并将所述排序后的特征值和特征向量映射到低维空间,得到降维数据集;
第三计算模块,用于通过关联算法计算所述降维数据集中数据间的关联关系值,计算所述关联关系值的权重,得到具有权重的降维数据集;
第二判断模块,用于根据预置配置文件中写入的定时任务类,判断当前是否存在定时推送数据的指令;
第一推送模块,用于若存在定时推送数据的指令,则根据所述指令定时推送数据,并以页面的形式进行展示;
第二推送模块,用于若不存在定时推送数据的指令,则通过最小二乘法数据推送模型实时推送所述具有权重的降维数据集,并以页面的形式进行展示;
其中,
Figure FDA0003661340010000031
Wij表示关联关系值的权重,Nij表示在j个数据分组中,数据组i中的数据之间的关联关系值,λ为权重调节系数,所述降维数据集包括多个数据分组。
8.一种大数据处理设备,其特征在于,所述大数据处理设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的大数据处理程序,所述大数据处理程序被所述处理器执行时实现如权利要求1-6中任一项所述的大数据处理方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有大数据处理程序,所述大数据处理程序被处理器执行时实现如权利要求1-6中任一项所述的大数据处理方法的步骤。
CN201910526411.7A 2019-06-18 2019-06-18 大数据处理方法、装置、设备及可读存储介质 Active CN110390056B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910526411.7A CN110390056B (zh) 2019-06-18 2019-06-18 大数据处理方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910526411.7A CN110390056B (zh) 2019-06-18 2019-06-18 大数据处理方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN110390056A CN110390056A (zh) 2019-10-29
CN110390056B true CN110390056B (zh) 2022-07-15

Family

ID=68285790

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910526411.7A Active CN110390056B (zh) 2019-06-18 2019-06-18 大数据处理方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110390056B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111966474B (zh) * 2020-08-11 2024-04-02 武汉遂意语联网络科技有限公司 控制定时任务的方法及装置
CN113271232B (zh) * 2020-10-27 2022-01-11 苏州铁头电子信息科技有限公司 一种在线办公网络扰动处理方法及装置
CN112257807B (zh) * 2020-11-02 2022-05-27 曲阜师范大学 一种基于自适应优化线性邻域集选择的降维方法及***
CN113393211B (zh) * 2021-06-22 2022-12-09 柳州市太启机电工程有限公司 一种智能化提高自动化生产效率的方法及***
CN113746701B (zh) * 2021-09-03 2023-01-06 四川英得赛克科技有限公司 一种数据获取方法、***、存储介质和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108269325A (zh) * 2016-12-30 2018-07-10 ***通信有限公司研究院 一种驾驶行为油耗经济性的分析方法及装置
CN108873859A (zh) * 2018-05-31 2018-11-23 浙江工业大学 基于改进关联规则的桥式抓斗卸船机故障预测模型方法
CN109509054A (zh) * 2018-09-30 2019-03-22 平安科技(深圳)有限公司 海量数据下商品推荐方法、电子装置及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6922680B2 (en) * 2002-03-19 2005-07-26 Koninklijke Philips Electronics N.V. Method and apparatus for recommending an item of interest using a radial basis function to fuse a plurality of recommendation scores
US20160321523A1 (en) * 2015-04-30 2016-11-03 The Regents Of The University Of California Using machine learning to filter monte carlo noise from images
US10055411B2 (en) * 2015-10-30 2018-08-21 International Business Machines Corporation Music recommendation engine
US10929383B2 (en) * 2017-08-11 2021-02-23 International Business Machines Corporation Method and system for improving training data understanding in natural language processing
CN110580482B (zh) * 2017-11-30 2022-04-08 腾讯科技(深圳)有限公司 图像分类模型训练、图像分类、个性化推荐方法及装置
CN108683734B (zh) * 2018-05-15 2021-04-09 广州虎牙信息科技有限公司 品类推送方法、装置及存储设备、计算机设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108269325A (zh) * 2016-12-30 2018-07-10 ***通信有限公司研究院 一种驾驶行为油耗经济性的分析方法及装置
CN108873859A (zh) * 2018-05-31 2018-11-23 浙江工业大学 基于改进关联规则的桥式抓斗卸船机故障预测模型方法
CN109509054A (zh) * 2018-09-30 2019-03-22 平安科技(深圳)有限公司 海量数据下商品推荐方法、电子装置及存储介质

Also Published As

Publication number Publication date
CN110390056A (zh) 2019-10-29

Similar Documents

Publication Publication Date Title
CN110390056B (zh) 大数据处理方法、装置、设备及可读存储介质
CN109902708B (zh) 一种推荐模型训练方法及相关装置
CA3047353C (en) Learning document embeddings with convolutional neural network architectures
CN106250464B (zh) 排序模型的训练方法及装置
TWI582619B (zh) Method and apparatus for providing referral words
US20170150235A1 (en) Jointly Modeling Embedding and Translation to Bridge Video and Language
CN101266620B (zh) 向用户提供目标信息的方法及设备
WO2020164276A1 (zh) 网页数据爬取方法、装置、***及计算机可读存储介质
WO2014193399A1 (en) Influence score of a brand
CN115618371B (zh) 一种非文本数据的脱敏方法、装置及存储介质
CN105531701A (zh) 个性化趋势图像搜索建议
US20140214632A1 (en) Smart Crowd Sourcing On Product Classification
US20220261591A1 (en) Data processing method and apparatus
US11651255B2 (en) Method and apparatus for object preference prediction, and computer readable medium
CN109117442B (zh) 一种应用推荐方法及装置
CN110852785B (zh) 用户分级方法、装置及计算机可读存储介质
CN104268142A (zh) 基于可拒绝策略的元搜索结果排序算法
WO2024041483A1 (zh) 一种推荐方法及相关装置
CN112487283A (zh) 训练模型的方法、装置、电子设备及可读存储介质
CN110516164B (zh) 一种信息推荐方法、装置、设备及存储介质
WO2020147259A1 (zh) 一种用户画像方法、装置、可读存储介质及终端设备
CN103324641A (zh) 信息记录推荐方法和装置
CN110083809A (zh) 合同条款相似度计算方法、装置、设备及可读存储介质
CN110085292A (zh) 药品推荐方法、装置及计算机可读存储介质
CN118043802A (zh) 一种推荐模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant