CN112035582A - 结构化数据的分类方法及装置、存储介质、电子装置 - Google Patents

结构化数据的分类方法及装置、存储介质、电子装置 Download PDF

Info

Publication number
CN112035582A
CN112035582A CN202010888659.0A CN202010888659A CN112035582A CN 112035582 A CN112035582 A CN 112035582A CN 202010888659 A CN202010888659 A CN 202010888659A CN 112035582 A CN112035582 A CN 112035582A
Authority
CN
China
Prior art keywords
structured data
target
linear combination
data
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010888659.0A
Other languages
English (en)
Inventor
李刚
毛灿
刘尔凯
丁永建
李璠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Everbright Technology Co ltd
Original Assignee
Everbright Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Everbright Technology Co ltd filed Critical Everbright Technology Co ltd
Priority to CN202010888659.0A priority Critical patent/CN112035582A/zh
Publication of CN112035582A publication Critical patent/CN112035582A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种结构化数据的分类方法及装置、存储介质、电子装置,其中,上述方法包括:将目标结构化数据输入到目标卷积神经网络模型中,以得到所述结构化数据的线性组合特征,其中,所述目标卷积神经网络模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:结构化数据,以及结构化数据对应的线性组合特征,所述目标结构化数据包括:多个特征;根据所述线性组合特征确定所述结构化数据属于不同类别的多个概率值;根据所述多个概率值对所述结构化数据进行分类,采用上述技术方案,解决了相关技术中,只能通过逻辑回归方法以及决策树算法来处理结构化数据等问题。

Description

结构化数据的分类方法及装置、存储介质、电子装置
技术领域
本发明涉及通信领域,具体而言,涉及一种结构化数据的分类方法及装置、存储介质、电子装置。
背景技术
医疗、金融和社交网络等各类数据平台和信息***中汇集了大量的与个人隐私相关的敏感数据,这些敏感数据呈结构化数据,因此,在银行***中常常需要对银行所记录的敏感的结构化数据进行分类,进而更好的保护用户的信息。
相关技术中,常常采用逻辑回归的方法对银行中的结构化数据分类,通过对结构化数据的原始特征进行缺失值填充、归一化、人工生成一些特征后,将其线性组合输入到sigmoid函数中去,得到sigmoid函数的输出值,其sigmoid函数的输出值可以理解为分类问题中属于某类的概率,概率值最大的索引就是它的分类,但是,逻辑回归的方法需要人工的生成特征,需要添加大量的特征来完成对数据的处理,增加了对构化数据处理时间,并且逻辑回归的方法的特征工程中往往考虑单一特征或者交叉特征,很少考虑几个特征线性组合。
相关技术中,还通过决策树算法有效的利用组合特征,比如年龄和性别,由于xgboost算法的出现,其卓越的性能远超其它算法,目前是各种分类问题必不可少的一种算法,决策树算法虽说性能优越,效果好,但是也存在效果的上限,当构造出的决策树的叶子节点过多时,对于存在大量数据时,处理效果较差,故需要新算法的突破。
针对相关技术中,只能通过逻辑回归方法以及决策树算法来处理结构化数据等问题,尚未提出有效的技术方案。
发明内容
本发明实施例提供了一种结构化数据的分类方法及装置、存储介质、电子装置,以至少解决相关技术中,只能通过逻辑回归方法以及决策树算法来处理结构化数据等问题。
根据本发明的一个实施例,提供了一种结构化数据的分类方法,包括:将目标结构化数据输入到目标卷积神经网络模型中,以得到所述结构化数据的线性组合特征,其中,所述目标卷积神经网络模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:结构化数据,以及结构化数据对应的线性组合特征,所述目标结构化数据包括:多个特征;根据所述线性组合特征确定所述结构化数据属于不同类别的多个概率值;根据所述多个概率值对所述结构化数据进行分类。
可选地,将目标结构化数据输入到目标卷积神经网络模型中,以得到所述结构化数据的线性组合特征,包括:通过所述目标卷积神经网络模型对所述目标结构化数据进行卷积,得到卷积结果;将所述卷积结果转化为列向量;对所述列向量进行降维处理得到所述结构化数据的线性组合特征。
可选地,将所述卷积结果转化为列向量,包括:获取单位列矩阵;将所述卷积结果与所述单位列矩阵相乘,得出卷积结果特征所对应的特征列向量。
可选地,对所述列向量进行降维处理得到所述结构化数据的线性组合特征,包括:对所述列向量进行全连接处理,以对所述列向量进行降维处理,得到降维后的一维列向量;将所述一维列向量作为所述结构化数据的线性组合特征。
可选地,根据所述线性组合特征确定所述结构化数据属于不同类别的多个概率值,包括:将所述线性组合特征输入到目标逻辑函数中,以确定所述结构化数据属于不同类别的多个概率值。
可选地,根据所述多个概率值对所述结构化数据进行分类,包括:确定所述多个概率值中的最大概率值所对应的目标类别;将所述结构化数据的类别确定为所述目标类别。
根据本发明的一个实施例,提供了一种结构化数据的分类装置,包括:处理模块,用于将目标结构化数据输入到目标卷积神经网络模型中,以得到所述结构化数据的线性组合特征,其中,所述目标卷积神经网络模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:结构化数据,以及结构化数据对应的线性组合特征,所述目标结构化数据包括:多个特征;确定模块,用于根据所述线性组合特征确定所述结构化数据属于不同类别的多个概率值;分类模块,用于根据所述多个概率值对所述结构化数据进行分类。
可选地,上述处理模块,还用于通过所述目标卷积神经网络模型对所述目标结构化数据进行卷积,得到卷积结果;将所述卷积结果转化为列向量;对所述列向量进行降维处理得到所述结构化数据的线性组合特征。
可选地,上述处理模块,还用于获取单位列矩阵;将所述卷积结果与所述单位列矩阵相乘,得出卷积结果特征所对应的特征列向量。
可选地,上述处理模块,还用于对所述列向量进行全连接处理,以对所述列向量进行降维处理,得到降维后的一维列向量;将所述一维列向量作为所述结构化数据的线性组合特征。
可选地,上述确定模块,还用于将所述线性组合特征输入到目标逻辑函数中,以确定所述结构化数据属于不同类别的多个概率值。
可选地,上述分类模块,还用于确定所述多个概率值中的最大概率值所对应的目标类别;将所述结构化数据的类别确定为所述目标类别。
根据本发明的另一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,将目标结构化数据输入到目标卷积神经网络模型中,以得到所述结构化数据的线性组合特征,其中,所述目标卷积神经网络模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:结构化数据,以及结构化数据对应的线性组合特征,所述目标结构化数据包括:多个特征;根据所述线性组合特征确定所述结构化数据属于不同类别的多个概率值;根据所述多个概率值对所述结构化数据进行分类,即通过目标卷积神经网络模型可以快速的完成对结构化数据的线性组合特征的提取,采用上述技术方案,解决了相关技术中,只能通过逻辑回归方法以及决策树算法来处理结构化数据等问题,通过目标卷积神经网络模型可以对现有结构化数据中的特征进行提取得到线性组合特征,避免了人工提取特征,提高了对结构化数据的处理效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种结构化数据的分类方法的计算机终端的硬件结构框图;
图2是根据本发明实施例的结构化数据的分类方法的流程图;
图3是根据本发明可选实施例的一种SCNN网络结构的结构框图;
图4是根据本发明实施例的结构化数据的分类装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例所提供的方法实施例可以在计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1是本发明实施例的一种结构化数据的分类方法的计算机终端的硬件结构框图。如图1所示,计算机终端10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的结构化数据的分类方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
本发明实施例提供了一种结构化数据的分类方法,应用于上述计算机终端中,图2是根据本发明实施例的结构化数据的分类方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,将目标结构化数据输入到目标卷积神经网络模型中,以得到所述结构化数据的线性组合特征,其中,所述目标卷积神经网络模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:结构化数据,以及结构化数据对应的线性组合特征,所述目标结构化数据包括:多个特征;
步骤S204,根据所述线性组合特征确定所述结构化数据属于不同类别的多个概率值;
步骤S206,根据所述多个概率值对所述结构化数据进行分类。
通过上述步骤,将目标结构化数据输入到目标卷积神经网络模型中,以得到所述结构化数据的线性组合特征,其中,所述目标卷积神经网络模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:结构化数据,以及结构化数据对应的线性组合特征,所述目标结构化数据包括:多个特征;根据所述线性组合特征确定所述结构化数据属于不同类别的多个概率值;根据所述多个概率值对所述结构化数据进行分类,即通过目标卷积神经网络模型可以快速的完成对结构化数据的线性组合特征的提取,采用上述技术方案,解决了相关技术中,只能通过逻辑回归方法以及决策树算法来处理结构化数据等问题,通过目标卷积神经网络模型可以对现有结构化数据中的特征进行提取得到线性组合特征,避免了人工提取特征,提高了对结构化数据的处理效率。
需要说明的是,上述目标卷积神经网络模型可以根据需求加入更多的对于结构化数据的处理函数,来实现更加细化的结构化数据处理,本发明实施例对此不做过多限定。
步骤S202中的对于结构化数据的处理有多种实现方式,可选地,通过所述目标卷积神经网络模型对所述目标结构化数据进行卷积,得到卷积结果;将所述卷积结果转化为列向量;对所述列向量进行降维处理得到所述结构化数据的线性组合特征。
也就是说,在目标卷积神经网络模型通过机器学习训练后,可以直接通过目标卷积神经网络模型对目标结构化数据进行卷积处理,为了使得得到的卷积结果更加准确,目标卷积神经网络模型可以对目标结构化数据进行不低于一次的卷积处理,在得到卷结果后,为了便于后续函数的处理,将卷积结果转化为列向量并进行降维处理,进而可以通过目标卷积神经网络模型直接目标结构化数据得到结构化数据的线性组合特征。
可选地,将所述卷积结果转化为列向量,包括:获取单位列矩阵;将所述卷积结果与所述单位列矩阵相乘,得出卷积结果特征所对应的特征列向量,简而言之,为了将以矩阵存在的卷积结果转换为列向量,通过获取与卷积结果的矩阵阶数相同的单位列矩阵,通过相乘的方式将卷积结果的矩阵转换为列向量。
可选地,对所述列向量进行降维处理得到所述结构化数据的线性组合特征,包括:对所述列向量进行全连接处理,以对所述列向量进行降维处理,得到降维后的一维列向量;将所述一维列向量作为所述结构化数据的线性组合特征。
也就是说,成功转换为列向量的卷积结果中同时存在多个线性特征,为了使目标卷积神经网络模型可以输出结构化数据的线性组合特征,将列向量进行全连接处理,并对全连接后列向量进行降维处理,使得同时存在多个线性特征被组合,进而在列向量降维成一维列向量后得到一个结构化数据的线性组合特征。
可选地,根据所述线性组合特征确定所述结构化数据属于不同类别的多个概率值,包括:将所述线性组合特征输入到目标逻辑函数中,以确定所述结构化数据属于不同类别的多个概率值。
也就是说,经过目标卷积神经网络模型输出的结构化数据的线性组合特征,发送至可对线性组合特征进行处理得到对应概率值的目标逻辑函数中,进而可以确定每一个结构化数据所对应概率值,优选的,本发明实施例可以使用sigmoid函数或者soft max函数进行线性组合特征到概率值的变换处理。
可选地,根据所述多个概率值对所述结构化数据进行分类,包括:确定所述多个概率值中的最大概率值所对应的目标类别;将所述结构化数据的类别确定为所述目标类别。
也就是说,根据结构化数据对应的概率值可以对结构化数据进行分类处理,目标类别可以是结构化数据的详细程度,也可以是结构化数据的重要程度,也可以是其他根据其他要求划分出的用来对结构化数据区分的条件。
为了更好的理解上述结构化数据的分类流程,以下结合可选实施例进行说明,但不用于限定本发明实施例的技术方案。
银行等金融业中产生的数据往往以数据表的形式存贮在数据库。这种表结构的数据往往采用逻辑回归模型或者决策树模型,很少采用神经网络。卷积神经网络广泛应用到图像数据的处理中去,如人脸识别,人群密度估计等,却很少应用到表格数据。但是理论上神经网络可以拟合任何一个连续函数,因此也可以很好的拟合表格数据。如果能找到一种好的网络结构,神经网络的效果应该会在效果上突破现有的方法。
本发明可选实施例提出了一种SCNN网络结构(synaptically coupled NeuralNetworkS,神经网路,简称SCNN),可以对数据表中的结构化数据进行处理,从而得到数据表中的结构化数据的线性组合特征。如图3所示,在处理银行结构化数据时,使用了图3中的网络结构。
可选的,本发明可选实施例的网络结构SCNN包含以下步骤:
步骤S1,使用了32个步长为2的1维卷积,为了使得网络结构SCNN进行卷积处理时保持一致性以及保持相同的分布,在卷积处理时批量归一化,得到卷积结果;
需要说明的是,上述32个步长为2的1维卷积是一种优选的数据结构,也可以是其他数量的任意补偿的1维卷积结构,通过使用步长为2的1维卷积,可以通过相邻特征的两两组合,用来提取线性运算后的特征,通过32个卷积操作,相当于32个模型融合,大大的提高了对结构化数据的处理效率。
步骤S2,为了提高得到卷积结果的准确性,在重复两次归一化后,在得到的卷积结果中加入阈值为0.2的dropout防止卷积结果过拟合。
由公式:G=Ab*(n-2),其中,G表示卷积结果的个数,A表示需要进行卷积的个数,n表示一个卷积的步长,可知,经过两次处理后卷积归一化处理后,32个卷积通过两次卷积以及归一化后,可以得到1024个卷积结果。
步骤S3,将1024个卷积结果拉直为一个列向量,进行全联接,降至128维,最后再经过全联接降至1维。
可选的,为了将以矩阵存在的卷积结果转换为列向量,通过获取与卷积结果的矩阵阶数相同的单位列矩阵,通过相乘的方式将卷积结果的矩阵转换为列向量。
进一步的,将1维列向量输入sigmoid函数或者softmax函数进运算变换,就可以得到分类的概率结果了。
通过本发明可选实施例,解决了相关技术中,只能通过逻辑回归方法以及决策树算法来处理结构化数据等问题,通过目标卷积神经网络模型可以对现有结构化数据中的特征进行提取得到线性组合特征,避免了人工提取特征,提高了对结构化数据的处理效率,而且本发明实施例所提供的这种卷积神经网络的结构,可以提取到现有特征的线性组合特征,且不需要人工提取特征,进一步的还可以通过梯度下降算法可以自我迭代优化,提高了对结构化数据的处理效率,解决了以xgb为代表的决策树无法完成线性组合特征的处理,进一步的,在某行数据中,同样的特征,本发明可选实施例的SCNN方法要比逻辑回归的auc高出大约10个百分点,减轻了对特征工程的依赖。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
在本实施例中还提供了一种结构化数据的分类装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本发明实施例的结构化数据的分类装置的结构框图,如图4所示,该装置包括:
(1)处理模块42,用于将目标结构化数据输入到目标卷积神经网络模型中,以得到所述结构化数据的线性组合特征,其中,所述目标卷积神经网络模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:结构化数据,以及结构化数据对应的线性组合特征,所述目标结构化数据包括:多个特征;
(2)确定模块44,用于根据所述线性组合特征确定所述结构化数据属于不同类别的多个概率值;
(3)分类模块46,用于根据所述多个概率值对所述结构化数据进行分类。
通过上述装置,将目标结构化数据输入到目标卷积神经网络模型中,以得到所述结构化数据的线性组合特征,其中,所述目标卷积神经网络模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:结构化数据,以及结构化数据对应的线性组合特征,所述目标结构化数据包括:多个特征;根据所述线性组合特征确定所述结构化数据属于不同类别的多个概率值;根据所述多个概率值对所述结构化数据进行分类,即通过目标卷积神经网络模型可以快速的完成对结构化数据的线性组合特征的提取,采用上述技术方案,解决了相关技术中,只能通过逻辑回归方法以及决策树算法来处理结构化数据等问题,通过目标卷积神经网络模型可以对现有结构化数据中的特征进行提取得到线性组合特征,避免了人工提取特征,提高了对结构化数据的处理效率。
需要说明的是,上述目标卷积神经网络模型可以根据需求加入更多的对于结构化数据的处理函数,来实现更加细化的结构化数据处理,本发明实施例对此不做过多限定。
可选地,上述处理模块42,还用于通过所述目标卷积神经网络模型对所述目标结构化数据进行卷积,得到卷积结果;将所述卷积结果转化为列向量;对所述列向量进行降维处理得到所述结构化数据的线性组合特征。
也就是说,在目标卷积神经网络模型通过机器学习训练后,可以直接通过目标卷积神经网络模型对目标结构化数据进行卷积处理,为了使得得到的卷积结果更加准确,目标卷积神经网络模型可以对目标结构化数据进行不低于一次的卷积处理,在得到卷结果后,为了便于后续函数的处理,将卷积结果转化为列向量并进行降维处理,进而可以通过目标卷积神经网络模型直接目标结构化数据得到结构化数据的线性组合特征。
可选地,上述处理模块42,还用于获取单位列矩阵;将所述卷积结果与所述单位列矩阵相乘,得出卷积结果特征所对应的特征列向量。
简而言之,为了将以矩阵存在的卷积结果转换为列向量,通过获取与卷积结果的矩阵阶数相同的单位列矩阵,通过相乘的方式将卷积结果的矩阵转换为列向量。
可选地,上述处理模块42,还用于对所述列向量进行全连接处理,以对所述列向量进行降维处理,得到降维后的一维列向量;将所述一维列向量作为所述结构化数据的线性组合特征。
也就是说,成功转换为列向量的卷积结果中同时存在多个线性特征,为了使目标卷积神经网络模型可以输出结构化数据的线性组合特征,将列向量进行全连接处理,并对全连接后列向量进行降维处理,使得同时存在多个线性特征被组合,进而在列向量降维成一维列向量后得到一个结构化数据的线性组合特征。
可选地,上述确定模块44,还用于将所述线性组合特征输入到目标逻辑函数中,以确定所述结构化数据属于不同类别的多个概率值。
也就是说,经过目标卷积神经网络模型输出的结构化数据的线性组合特征,发送至可对线性组合特征进行处理得到对应概率值的目标逻辑函数中,进而可以确定每一个结构化数据所对应概率值,优选的,本发明实施例可以使用sigmoid函数或者soft max函数进行线性组合特征到概率值的变换处理。
可选地,上述分类模块46,还用于确定所述多个概率值中的最大概率值所对应的目标类别;将所述结构化数据的类别确定为所述目标类别。
也就是说,根据结构化数据对应的概率值可以对结构化数据进行分类处理,目标类别可以是结构化数据的详细程度,也可以是结构化数据的重要程度,也可以是其他根据其他要求划分出的用来对结构化数据区分的条件。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,将目标结构化数据输入到目标卷积神经网络模型中,以得到所述结构化数据的线性组合特征,其中,所述目标卷积神经网络模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:结构化数据,以及结构化数据对应的线性组合特征,所述目标结构化数据包括:多个特征;
S2,根据所述线性组合特征确定所述结构化数据属于不同类别的多个概率值;
S3,根据所述多个概率值对所述结构化数据进行分类。
本发明的实施例还提供了一种存储介质,该存储介质包括存储的程序,其中,上述程序运行时执行上述任一项的方法。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,将目标结构化数据输入到目标卷积神经网络模型中,以得到所述结构化数据的线性组合特征,其中,所述目标卷积神经网络模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:结构化数据,以及结构化数据对应的线性组合特征,所述目标结构化数据包括:多个特征;
S2,根据所述线性组合特征确定所述结构化数据属于不同类别的多个概率值;
S3,根据所述多个概率值对所述结构化数据进行分类。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种结构化数据的分类方法,其特征在于,包括:
将目标结构化数据输入到目标卷积神经网络模型中,以得到所述结构化数据的线性组合特征,其中,所述目标卷积神经网络模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:结构化数据,以及结构化数据对应的线性组合特征,所述目标结构化数据包括:多个特征;
根据所述线性组合特征确定所述结构化数据属于不同类别的多个概率值;
根据所述多个概率值对所述结构化数据进行分类。
2.根据权利要求1所述的方法,其特征在于,将目标结构化数据输入到目标卷积神经网络模型中,以得到所述结构化数据的线性组合特征,包括:
通过所述目标卷积神经网络模型对所述目标结构化数据进行卷积,得到卷积结果;
将所述卷积结果转化为列向量;
对所述列向量进行降维处理得到所述结构化数据的线性组合特征。
3.根据权利要求2所述的方法,其特征在于,将所述卷积结果转化为列向量,包括:
获取单位列矩阵;
将所述卷积结果与所述单位列矩阵相乘,得出卷积结果特征所对应的特征列向量。
4.根据权利要求2所述的方法,其特征在于,对所述列向量进行降维处理得到所述结构化数据的线性组合特征,包括:
对所述列向量进行全连接处理,以对所述列向量进行降维处理,得到降维后的一维列向量;
将所述一维列向量作为所述结构化数据的线性组合特征。
5.根据权利要求1所述的方法,其特征在于,根据所述线性组合特征确定所述结构化数据属于不同类别的多个概率值,包括:
将所述线性组合特征输入到目标逻辑函数中,以确定所述结构化数据属于不同类别的多个概率值。
6.根据权利要求1所述的方法,其特征在于,根据所述多个概率值对所述结构化数据进行分类,包括:
确定所述多个概率值中的最大概率值所对应的目标类别;
将所述结构化数据的类别确定为所述目标类别。
7.一种结构化数据的分类装置,其特征在于,包括:
处理模块,用于将目标结构化数据输入到目标卷积神经网络模型中,以得到所述结构化数据的线性组合特征,其中,所述目标卷积神经网络模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:结构化数据,以及结构化数据对应的线性组合特征,所述目标结构化数据包括:多个特征;
确定模块,用于根据所述线性组合特征确定所述结构化数据属于不同类别的多个概率值;
分类模块,用于根据所述多个概率值对所述结构化数据进行分类。
8.根据权利要求7所述的装置,其特征在于,所述处理模块还用于通过所述目标卷积神经网络模型对所述目标结构化数据进行卷积,得到卷积结果,将所述卷积结果转化为列向量,对所述列向量进行降维处理得到所述结构化数据的线性组合特征。
9.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至6任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至6任一项中所述的方法。
CN202010888659.0A 2020-08-28 2020-08-28 结构化数据的分类方法及装置、存储介质、电子装置 Pending CN112035582A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010888659.0A CN112035582A (zh) 2020-08-28 2020-08-28 结构化数据的分类方法及装置、存储介质、电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010888659.0A CN112035582A (zh) 2020-08-28 2020-08-28 结构化数据的分类方法及装置、存储介质、电子装置

Publications (1)

Publication Number Publication Date
CN112035582A true CN112035582A (zh) 2020-12-04

Family

ID=73586925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010888659.0A Pending CN112035582A (zh) 2020-08-28 2020-08-28 结构化数据的分类方法及装置、存储介质、电子装置

Country Status (1)

Country Link
CN (1) CN112035582A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256691A (zh) * 2018-02-08 2018-07-06 成都智宝大数据科技有限公司 还款概率预测模型构建方法及装置
CN108614548A (zh) * 2018-04-03 2018-10-02 北京理工大学 一种基于多模态融合深度学习的智能故障诊断方法
US20180300608A1 (en) * 2017-04-12 2018-10-18 Yodlee, Inc. Neural Networks for Information Extraction From Transaction Data
CN108764314A (zh) * 2018-05-17 2018-11-06 北京邮电大学 一种结构化数据分类方法、装置、电子设备及存储介质
CN109033169A (zh) * 2018-06-21 2018-12-18 东南大学 基于多级权重转换和卷积神经网络的移动流量分类方法
CN109448855A (zh) * 2018-09-17 2019-03-08 大连大学 一种基于cnn和模型融合的糖尿病血糖预测方法
CN109816140A (zh) * 2018-12-12 2019-05-28 哈尔滨工业大学(深圳) 基于跨市场影响的股价预测方法、装置、设备及存储介质
CN110427063A (zh) * 2019-08-13 2019-11-08 深圳市睿海智电子科技有限公司 一种基于物联网的番茄生长监控管理平台
CN110671092A (zh) * 2019-09-26 2020-01-10 北京博达瑞恒科技有限公司 油气产能检测方法及***
CN110955659A (zh) * 2019-11-28 2020-04-03 第四范式(北京)技术有限公司 处理数据表的方法及***

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180300608A1 (en) * 2017-04-12 2018-10-18 Yodlee, Inc. Neural Networks for Information Extraction From Transaction Data
CN108256691A (zh) * 2018-02-08 2018-07-06 成都智宝大数据科技有限公司 还款概率预测模型构建方法及装置
CN108614548A (zh) * 2018-04-03 2018-10-02 北京理工大学 一种基于多模态融合深度学习的智能故障诊断方法
CN108764314A (zh) * 2018-05-17 2018-11-06 北京邮电大学 一种结构化数据分类方法、装置、电子设备及存储介质
CN109033169A (zh) * 2018-06-21 2018-12-18 东南大学 基于多级权重转换和卷积神经网络的移动流量分类方法
CN109448855A (zh) * 2018-09-17 2019-03-08 大连大学 一种基于cnn和模型融合的糖尿病血糖预测方法
CN109816140A (zh) * 2018-12-12 2019-05-28 哈尔滨工业大学(深圳) 基于跨市场影响的股价预测方法、装置、设备及存储介质
CN110427063A (zh) * 2019-08-13 2019-11-08 深圳市睿海智电子科技有限公司 一种基于物联网的番茄生长监控管理平台
CN110671092A (zh) * 2019-09-26 2020-01-10 北京博达瑞恒科技有限公司 油气产能检测方法及***
CN110955659A (zh) * 2019-11-28 2020-04-03 第四范式(北京)技术有限公司 处理数据表的方法及***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘忠雨: "《深入浅出图神经网络GNN原理解析》", vol. 1, 30 April 2020, 机械工程出版社, pages: 29 - 30 *
刘鹏、孙元强等: "《人工智能应用技术基础》", vol. 1, 31 March 2020, 西安电子科技大学出版社, pages: 55 *
刘黎志、彭贝: "Spark 集群中还贷问题的逻辑回归模型研究", 《武汉工程大学学报》, vol. 42, no. 1, pages 113 - 118113 *

Similar Documents

Publication Publication Date Title
CN112307762B (zh) 搜索结果的排序方法及装置、存储介质、电子装置
CN110378305B (zh) 茶叶病害识别方法、设备、存储介质及装置
CN112862092B (zh) 一种异构图卷积网络的训练方法、装置、设备和介质
CN109918498B (zh) 一种问题入库方法和装置
CN110175170B (zh) 数据优化处理方法、装置、计算机设备及存储介质
CN112785441B (zh) 数据处理方法、装置、终端设备及存储介质
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN113435509A (zh) 基于元学习的小样本场景分类识别方法及***
CN114358252A (zh) 目标神经网络模型中的操作执行方法及装置、存储介质
CN111767419B (zh) 图片搜索方法、装置、设备及计算机可读存储介质
CN111783830A (zh) 基于oct的视网膜分类方法、装置、计算机设备及存储介质
CN111191065A (zh) 一种同源图像确定方法及装置
CN112035582A (zh) 结构化数据的分类方法及装置、存储介质、电子装置
CN115905702A (zh) 基于用户需求分析的数据推荐方法及***
CN107784363B (zh) 数据处理方法、装置及***
CN114461619A (zh) 能源互联网多源数据融合方法、装置、终端及存储介质
CN113868543A (zh) 推荐对象的排序方法、模型训练方法、装置及电子设备
CN113807370A (zh) 数据处理方法、装置、设备、存储介质及计算机程序产品
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN113590720A (zh) 数据分类方法、装置、计算机设备和存储介质
CN117807237B (zh) 基于多元数据融合的论文分类方法、装置、设备及介质
CN110460399A (zh) 波形图像处理方法、识别处理器、***、设备和介质
CN113392124B (zh) 一种基于结构化语言的数据查询方法及装置
CN112215354A (zh) 神经网络模型剪枝方法、装置、计算机设备和存储介质
CN114170641A (zh) 数据处理方法、装置、存储介质和处理器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination