CN110807520A - 一种卷积神经网络的神经节点的影响因子分析方法及装置 - Google Patents

一种卷积神经网络的神经节点的影响因子分析方法及装置 Download PDF

Info

Publication number
CN110807520A
CN110807520A CN202010016237.4A CN202010016237A CN110807520A CN 110807520 A CN110807520 A CN 110807520A CN 202010016237 A CN202010016237 A CN 202010016237A CN 110807520 A CN110807520 A CN 110807520A
Authority
CN
China
Prior art keywords
node
nodes
index
neural network
neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010016237.4A
Other languages
English (en)
Inventor
查文宇
张艳清
王伟才
潘小东
殷腾蛟
王纯斌
赵神州
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Sefon Software Co Ltd
Original Assignee
Chengdu Sefon Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Sefon Software Co Ltd filed Critical Chengdu Sefon Software Co Ltd
Priority to CN202010016237.4A priority Critical patent/CN110807520A/zh
Publication of CN110807520A publication Critical patent/CN110807520A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种卷积神经网络的神经节点的影响因子分析方法及装置,本发明所提供的基于PageRank的卷积神经网络可视化算法,提供了大多数卷积神经网络训练过程中都需要的通用模块,如:调整参数、选择重要节点、降低计算量、归一化处理、重要影响因子分析、输入输出结果的流向等功能,并可以与任何标准化的卷积神经网络和多种评价节点重要关联程度的指标的集成,以高效率,高精度的关联分析和最大限度的利用已有数据。解决传统卷积神经网络调整参数时的盲目和结果的不可解释性,依靠全局遍历所有参数组合和算法调参经验进行模型调优的可解释性不高,效率慢,费时等问题,更大地提高了卷积神经网络的可解释性和模型的准确性。

Description

一种卷积神经网络的神经节点的影响因子分析方法及装置
技术领域
本发明涉及大数据领域,特别涉及一种卷积神经网络的神经节点的影响因子分析方法及装置。
背景技术
首先,在现有卷积神经网络训练过程中,尽管卷积神经网络对于输入额图像或其他类型的数据具有强大的特征提取功能,但是对于初学者和没有项目调参经验的项目执行者可科研工作者来说,输出结果的不可解释性很难得到一个很好的归宿,一度被认为是暴力算法,所以对输出结果的可解释性提出了很大的需求。
现有的卷积神经网络的调参往往都是根据暴力组合模型参数,随机选取模型组合参数择优作为最终结果,或者基于经验来盲目调参,对于具体的调参方向还没有一个更加科学的方法,对于业务迁徙场景下的应用效果也不是很好。反而在调参过程中耗费了大量的人力,计算力和时间,对于所做的项目采取的方法也无法正确的说出为什么这么做,在迁徙上难度更是加深。因此寻找一种对于结果的可解释性就非常有必要,同时能够为模型调参提供改进模型的方法方向就显得非常有必要。
传统的基于卷积神经网络的局限性。当前所有知名的图像检测团队在面对庞大,冗杂的数据时仍然需要使用深度学习,卷积神经网络进行特征的学习,图像边缘的获取,但是对于初学者以及没有训练经验和模型嫁接能力非常差的情况下,亟需实现可视化图像检测流行图侦察蓝判定卷积神经网络里哪些神经节点对于最终的结果有较大影响,对于实现不同的业务场景下的不同节点的作用也需要进行可视化分析,方便后续调参,更加针对性的去优化模型和算法,从而达到很好的模型训练和测试效果。而许多高深有效的人工智能框架的功能、特征、倾向性均由美国等发布组织所把持,这也是整个人工智能产业难以在不同领域实现商用的重要原因之一,因为中小型公司几乎只能使用这些公开的框架进行上层包装式研发,受限技术实力,缺乏根据真实需求和不同应用深度定制一个标准的可视化流行图的方法。
发明内容
本发明的目的在于:提供了一种卷积神经网络的神经节点的影响因子分析方法及装置,解决了现有公开的框架只能进行上层包装式研发,用户受限技术实力,缺乏根据真实需求和不同应用深度定制一个标准的可视化流行图的方法。
本发明采用的技术方案如下:
一种卷积神经网络的神经节点的影响因子分析方法,包括以下步骤:
对神经网络的神经节点进行分析,标记每个神经节点的分布,获取神经节点与层之间的联系、神经节点与神经节点之间的联系;
确定中心节点,根据神经节点与层之间的联系、神经节点与神经节点之间的联系,使用PageRank拓展算法按照IV指标、基尼指数指标、熵指标、信息增益指标、皮尔逊相关指标高斯混合模型指标、层内间距指标和层间间距指标中的至少两种指标对每个神经节点对中心节点的影响因子进行迭代训练;
当所有指标在单位时间内的变化小于阈值时,停止迭代训练,输出前N个综合指标最小、影响因子最大的神经节点;N为正整数;
根据前N个综合指标最小、影响因子最大的神经节点得到对应中心节点的神经节点影响分析模型。
本方案采用8种PageRank具体衡量指标来对判定待分析节点是否参与中心节点的构成。
第一个指标是IV指标,用于挑选节点,IV就越大,该待分析节点就对中心节点的构成参与越多。
第二个指标是Gini增益指标,是不纯度衡量指标。分别计算待分析的节点中的数据加入到中心节点的子节点Gini增益,找到使得Gini增益最小的中心节点,把待分析的节点加入到中心节点的影响因子子节点中去。
第三个指标是熵指标,是不纯度衡量指标。对一个节点而言,中心节点有它和没它时信息量将发生变化,而前后信息量的差值就是这个节点特征给***带来的信息量,即熵。分别计算待分析的节点中的数据加入到中心节点的影响因子节点的子序列中的熵,找到使得熵最小的N个节点,把待分析的节点放入中心节点影响因子的子节点序列中,建立边连接,进行可视化。
第四个指标是信息增益指标,衡量标准是看节点特征能够为中心节点***带来多少信息,带来的信息越多,该节点越重要。信息增益能考察待分析节点对每个中心节点的贡献。
第五个指标是皮尔逊相关指标,用来衡量两个节点的子集合是否符合统一分布,变化规律是否一致,可以衡量节点间的线性关系。相关系数的绝对值越大,相关性越强:相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。
第六个指标是距离相关系数指标,计算待分析的节点和中心节点的距离,层间距离逆排序,选出使得N个待分析节点与中心节点的距离最小的节点。
第七个指标是高斯混合模型指标,分别拟合中心节点的子节点序列和待分析节点的子序列的高斯混合模型,若待分类节点的参数和某个中心节点的参数的方差和欧式距离最小,则认为待分析节点和中心节点的流向一致,可以认为待分析节点是中心节点的一个子节点。
第八个指标是层间间距指标。分别计算待分析的节点和中心节点之间的层间间距,使得层间间距保持即使距离较远,但是仍然保持着很大的影响因子,这里采取的是路径距离的归一化,可以更加直观的获取节点之间的影响关系。
相对于传统的节点关联算法,我们综合8个指标,来训练对于每一个节点,每一个表格指标的权重,根据节点的特征偏重于选择哪些指标来进行关联实现很好的效果,这不仅对特定的数据具有深攻性,也具有很好的鲁棒性。实现换一批数据,依然能够训练得出好的聚类关联推荐效果。
使用综合评判待分类节点是否应该加入到某一中心节点中,此处使用机器学***均值来确定的各个中心节点。
进一步的,对神经网络的神经节点进行分析前还包括对神经节点数据进行数据预处理。
进一步的,所述数据预处理包括数据准备和数据特征工程。为了使机器学习算法在数据集上获得最优的精确性,数据预处理必不可少。其特征在于对数据进行整理,整合,方便后续的统一关联,所述数据预处理模块分为两个步骤,其一是数据准备,其二是数据特征工程,采用如下流程工作:
数据准备中,接收多站点传输过来的数据的操作,数据清洗可使数据获得用于分析的正确形状(shape)和质量(quality);该操作依次包括了许多不同的功能,例如:
1、基本功能,包括:选择、过滤、去重等;
2、采样,包括:平衡(balanced)、分层(stratified)等;
3、数据分配,包括:创建训练数据集、验证数据集和测试数据集等;
4、变换,包括:归一化、标准化、缩放、pivoting等;
5、分箱,包括:计数、缺失值处理等;
6、数据替换,包括:剪切(cutting)、分割(splitting)、合并等;
7、加权与选择,包括:属性加权、自动优化等;
8、数据填补,包括:使用统计算法替换缺失的观察值。
特征工程会为分析选取正确的属性。我们需要借助数据的领域知识来选取或创建属性,这些属性能使机器学习算法正确地工作。特征工程过程包括:
1、特征测试;
2、特征选择;
3、验证特征配合模型使用;
4、改进特征;
5、回到特征测试/创建更多的特征,直到工作完成;
其中特征测试包括:检测数据的特征维度中,某一维度是否能够具有区分性使得区别于其他节点,并且作为通用的适用于所有节点的数据的特征。
其中特征选择包括:从数据的特征的所有维度中,根据特征测试的结果,选择适用于所有节点的特征,方便后续的关联挖掘中的判别待分类节点和中心节点的设定。
其中验证特征配合模型使用包括:根据上一步骤选择出的节点的特征,来判定,是否适用于本发明使用的PageRank,自编码,PCA主成分分析方法。主要判定方法是,数据输入的维度,数据的选择的特征,是否可以作为数据模型的输入,并能初步产出一个较为合理的关联结果。
其中改进特征包括:根据上一步的数据特征的验证结果,判定是否需要改进数据的特征,选择更好的特征来实现更好的影响因子分析效果。
其中回到特征测试/创建更多的特征包括:循环迭代重复特征测试,特征选择,判定特征配合模型,改进特征的工作,指导选出适合进行影响因子分析的指标。
进一步的,对应中心节点的神经节点影响分析模型后还包括:
使用PageRank拓展算法得到的神经节点影响分析的模型结合其他算法进行进一步的无监督集成学习;
通过集成学习获得PageRank拓展算法和其他算法的权重,得到优于神经节点影响分析模型的最优关联模型。
进一步的,所述其他算法的包括PCA主成分分析算法、自编码算法中的至少一个。
后续选择包括PCA主成分分析,自编码等多个学习器来进行无监督集成学习,通过训练集成学习器权重,结合三个学习器的优点,得到优于PageRank的权重分析,实现更好的影响因子分析的效果。相比于传统的一个或者两个算法的权衡,无法获知哪一个算法更适合每一个节点,此处采用集成学习的思想,来对每一个节点分别计算三个学习器的训练,得到分别的最优模型,再结合加权求和思想来实现对应于每个节点的关联,偏好选择哪个模型来进行关联,以8种评价指标的综合评价,判定最好的影响因子分析效果。后续延伸中,可以将三个算法拓展,实现更好的影响因子分析。
进一步的,所述集成学习使用bagging集成算法。
本发明使用的集成方法是bagging集成算法:该方法在训练的过程中,各基分类器之间无强依赖,可以进行并行训练。基于决策树基分类器的随机森林(Random forest)。为了让基分类器之间互相独立,将训练集分为若干子集。
其中,随机森林的构建过程包括以下步骤:
1、从原始训练集中使用Bootstraping方法随机有放回采样取出m个样本,共进行3次采样,生成3个训练集;
2、对3个训练集,我们分别训练上述PageRank拓展算法、PCA主成分分析算法和自编码算法,得到关联模型;
3、对于单个关联模型,假设训练样本特征的个数为n,那么每次***时根据上述8个指标选择最好的特征进行关联;
4、每棵树都已知这样关联下去,知道该节点的所有训练样例都属于同一类,在决策树的关联过程中不需要剪枝;
5、将生成的多颗关联树组成随机森林。对于分类问题,按照多棵关联树分类器投票决定最终分类结果;对于回归问题,由多颗树预测值的均值决定最终预测结果。
进一步的,根据神经节点与层之间的联系、神经节点与神经节点之间的联系,使用PageRank拓展算法按照IV指标、基尼指数指标、熵指标、信息增益指标、皮尔逊相关指标高斯混合模型指标、层内间距指标和层间间距指标中的全部指标对每个神经节点的影响因子进行迭代训练。
相对于传统的节点关联算法,我们综合8个指标,来训练对于每一个节点,每一个表格指标的权重,根据节点的特征偏重于选择哪些指标来进行关联实现很好的效果,这不仅对特定的数据具有深攻性,也具有很好的鲁棒性。实现换一批数据,依然能够训练得出好的聚类关联推荐效果。
使用综合评判待分类节点是否应该加入到某一中心节点中,此处使用机器学习中常用的加权求和的综合评价指标方法。通过训练各个指标的权重参数获得最优PageRank权重模型。其中参数对应于每一个节点的权重子节点。相对于传统的一个或者两个指标来评价节点关联程度,此处结合了8种评价指标,对应于特定的节点,训练得出偏重的更适合的评价指标来进行关联,实现了节点的影响因子分析,从而实现更合理、更直观、更准确的可视化流形分析方法。
一种卷积神经网络的神经节点的影响因子分析装置,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令,实现上述的一种卷积神经网络的神经节点的影响因子分析方法。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1.本发明一种卷积神经网络的神经节点的影响因子分析方法及装置, 本发明用拓展的PageRank的方式完全解决了卷积神经网络训练时调整参数时的盲目性和不可解释性等问题;
2.本发明一种卷积神经网络的神经节点的影响因子分析方法及装置,完全自动化,用人工智能构造人工智能完成节点的影响因子分析和可视化,让开发人员更关注数据和模型中间影响结果精确率的关键节点,从而针对性的训练和强化,省时省力,开发效率更高;
3.本发明一种卷积神经网络的神经节点的影响因子分析方法及装置,基于原始的PageRank在后面的节点等级会比旧的节点权重高,此处采取了节点分布全局归一化,这样即使相距较远,或者层数在前面的节点依旧可以保持较大的权重,不会因为层数的增加而变小;
4.本发明一种卷积神经网络的神经节点的影响因子分析方法及装置,可视化实现节点连接流形图,辅助训练和展示。本发明针对跨操作***的服务端硬件(CPU、GPU)深度优化,实现在低端硬件下,以4 核2GHz 的x86 架构CPU 的计算性能为标准,针对TB、PB级数据,实现针对性强化和并行化开发。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,其中:
图1是本发明的算法工作流程图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合图1对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
PageRank:该算法本质上属于有向带权图,对于某个卷积神经层里的节点A来说,该卷积神经层里的节点PageRank的计算基于以下两个基本假设:
数量假设:在Web图模型中,如果一个卷积神经层里的节点接收到的其他卷积神经层里的节点指向的入链数量越多,那么这个卷积神经层里的节点越重要,
质量假设:指向卷积神经层里的节点A的入链质量不同,质量高的卷积神经层里的节点会通过链接向其他卷积神经层里的节点传递更多的权重。所以越是质量高的卷积神经层里的节点指向卷积神经层里的节点A,则卷积神经层里的节点A越重要。
CNN:Convolution Neural Network,卷积神经网络。
PageRank迭代方法:
map: 在一轮更新卷积神经层里的节点PageRank得分的计算中,每个卷积神经层里的节点将其当前的PageRank值平均分配到本卷积神经层里的节点包含的出链上,这样每个链接即获得了相应的权值;
reduce: 而每个卷积神经层里的节点将所有指向本卷积神经层里的节点的入链所传入的权值求和,即可得到新的PageRank得分,当每个卷积神经层里的节点都获得了更新后的PageRank值,就完成了一轮PageRank计算,下一时刻PageRank值与前一时刻的PageRank值无直接关系,只取决于入度的权重。
阻尼系数:由于存在一些出链为0,也就是那些不链接任何其他节点的节点,也称为孤立节点,使得很多节点能被访问到,因此需要对 PageRank公式进行修正,即在简单公式的基础上增加了阻尼系数q,q一般取值q=0.85;1−q=0.15就是节点停止传输,随机跳到新节点的概率。
PageRank计算得出的结果是节点的对于结果的重要性评价,算法是客观的。通过对所有节点的构成成分进行排序分析,将每一条连接节点额度边按照权重进行可视化连线分析,有助于实现针对性的调优,从而达到更加精确的目的。
节点影响可视化:鉴于卷积网络的不可解释性,针对的提出计算层级节点,层内节点,节点和节点之间的影响关系,使得结果可视化,以及从输入到输出的结果的流程可视化,更具解释性。
节点可视化:将传统的PageRank应用于人工智能领域,实现自动节点关联,关键节点推荐,目标节点推荐,智能节点选择,自动度量特征价值的功能,减少人力开发,选取节点特征和合并处理节点的过程。
数据预处理:将数据中度量单位不一致的归一化到统一标准,对照字典表格进行字段名,表格名称的标准修改,去除异常值。
实施例1
一种卷积神经网络的神经节点的影响因子分析方法,包括以下步骤:
对神经网络的神经节点进行分析,标记每个神经节点的分布,获取神经节点与层之间的联系、神经节点与神经节点之间的联系;
确定中心节点,根据神经节点与层之间的联系、神经节点与神经节点之间的联系,使用PageRank拓展算法按照IV指标、基尼指数指标、熵指标、信息增益指标、皮尔逊相关指标高斯混合模型指标、层内间距指标和层间间距指标中的至少两种指标对每个神经节点对中心节点的影响因子进行迭代训练;
当所有指标在单位时间内的变化小于阈值时,停止迭代训练,输出前N个综合指标最小、影响因子最大的神经节点;N为正整数;
根据前N个综合指标最小、影响因子最大的神经节点得到对应中心节点的神经节点影响分析模型。
本方案采用8种PageRank具体衡量指标来对判定待分析节点是否参与中心节点的构成。
第一个指标是IV指标,用于挑选节点,IV就越大,该待分析节点就对中心节点的构成参与越多。
第二个指标是Gini增益指标,是不纯度衡量指标。分别计算待分析的节点中的数据加入到中心节点的子节点Gini增益,找到使得Gini增益最小的中心节点,把待分析的节点加入到中心节点的影响因子子节点中去。
第三个指标是熵指标,是不纯度衡量指标。对一个节点而言,中心节点有它和没它时信息量将发生变化,而前后信息量的差值就是这个节点特征给***带来的信息量,即熵。分别计算待分析的节点中的数据加入到中心节点的影响因子节点的子序列中的熵,找到使得熵最小的N个节点,把待分析的节点放入中心节点影响因子的子节点序列中,建立边连接,进行可视化。
第四个指标是信息增益指标,衡量标准是看节点特征能够为中心节点***带来多少信息,带来的信息越多,该节点越重要。信息增益能考察待分析节点对每个中心节点的贡献。
第五个指标是皮尔逊相关指标,用来衡量两个节点的子集合是否符合统一分布,变化规律是否一致,可以衡量节点间的线性关系。相关系数的绝对值越大,相关性越强:相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。
第六个指标是距离相关系数指标,计算待分析的节点和中心节点的距离,层间距离逆排序,选出使得N个待分析节点与中心节点的距离最小的节点。
第七个指标是高斯混合模型指标,分别拟合中心节点的子节点序列和待分析节点的子序列的高斯混合模型,若待分类节点的参数和某个中心节点的参数的方差和欧式距离最小,则认为待分析节点和中心节点的流向一致,可以认为待分析节点是中心节点的一个子节点。
第八个指标是层间间距指标。分别计算待分析的节点和中心节点之间的层间间距,使得层间间距保持即使距离较远,但是仍然保持着很大的影响因子,这里采取的是路径距离的归一化,可以更加直观的获取节点之间的影响关系。
相对于传统的节点关联算法,我们综合8个指标,来训练对于每一个节点,每一个表格指标的权重,根据节点的特征偏重于选择哪些指标来进行关联实现很好的效果,这不仅对特定的数据具有深攻性,也具有很好的鲁棒性。实现换一批数据,依然能够训练得出好的聚类关联推荐效果。
使用综合评判待分类节点是否应该加入到某一中心节点中,此处使用机器学习中常用的加权求和的综合评价指标方法。通过训练各个指标的权重参数获得最优PageRank权重模型。其中参数对应于每一个节点的权重子节点。相对于传统的一个或者两个指标来评价节点关联程度,此处结合了8种评价指标,对应于特定的节点,训练得出偏重的更适合的评价指标来进行关联,实现了节点的影响因子分析,从而实现更合理、更直观、更准确的可视化流形分析方法。
实施例2
本实施例在实施例1的基础上进一步的,对神经网络的神经节点进行分析前还包括对神经节点数据进行数据预处理。
进一步的,所述数据预处理包括数据准备和数据特征工程。为了使机器学习算法在数据集上获得最优的精确性,数据预处理必不可少。其特征在于对数据进行整理,整合,方便后续的统一关联,所述数据预处理模块分为两个步骤,其一是数据准备,其二是数据特征工程,采用如下流程工作:
数据准备中,接收多站点传输过来的数据的操作,数据清洗可使数据获得用于分析的正确形状(shape)和质量(quality);该操作依次包括了许多不同的功能,例如:
1、基本功能,包括:选择、过滤、去重等;
2、采样,包括:平衡(balanced)、分层(stratified)等;
3、数据分配,包括:创建训练数据集、验证数据集和测试数据集等;
4、变换,包括:归一化、标准化、缩放、pivoting等;
5、分箱,包括:计数、缺失值处理等;
6、数据替换,包括:剪切(cutting)、分割(splitting)、合并等;
7、加权与选择,包括:属性加权、自动优化等;
8、数据填补,包括:使用统计算法替换缺失的观察值。
特征工程会为分析选取正确的属性。我们需要借助数据的领域知识来选取或创建属性,这些属性能使机器学习算法正确地工作。特征工程过程包括:
1、特征测试;
2、特征选择;
3、验证特征配合模型使用;
4、改进特征;
5、回到特征测试/创建更多的特征,直到工作完成;
其中特征测试包括:检测数据的特征维度中,某一维度是否能够具有区分性使得区别于其他节点,并且作为通用的适用于所有节点的数据的特征。
其中特征选择包括:从数据的特征的所有维度中,根据特征测试的结果,选择适用于所有节点的特征,方便后续的关联挖掘中的判别待分类节点和中心节点的设定。
其中验证特征配合模型使用包括:根据上一步骤选择出的节点的特征,来判定,是否适用于本发明使用的PageRank,自编码,PCA主成分分析方法。主要判定方法是,数据输入的维度,数据的选择的特征,是否可以作为数据模型的输入,并能初步产出一个较为合理的关联结果。
其中改进特征包括:根据上一步的数据特征的验证结果,判定是否需要改进数据的特征,选择更好的特征来实现更好的影响因子分析效果。
其中回到特征测试/创建更多的特征包括:循环迭代重复特征测试,特征选择,判定特征配合模型,改进特征的工作,指导选出适合进行影响因子分析的指标。
实施例3
本实施例在实施例1的基础上进一步的,对应中心节点的神经节点影响分析模型后还包括:
使用PageRank拓展算法得到的神经节点影响分析的模型结合其他算法进行进一步的无监督集成学习;
通过集成学习获得PageRank拓展算法和其他算法的权重,得到优于神经节点影响分析模型的最优关联模型。
进一步的,所述其他算法的包括PCA主成分分析算法、自编码算法中的至少一个。
后续选择包括PCA主成分分析,自编码等多个学习器来进行无监督集成学习,通过训练集成学习器权重,结合三个学习器的优点,得到优于PageRank的权重分析,实现更好的影响因子分析的效果。相比于传统的一个或者两个算法的权衡,无法获知哪一个算法更适合每一个节点,此处采用集成学习的思想,来对每一个节点分别计算三个学习器的训练,得到分别的最优模型,再结合加权求和思想来实现对应于每个节点的关联,偏好选择哪个模型来进行关联,以8种评价指标的综合评价,判定最好的影响因子分析效果。后续延伸中,可以将三个算法拓展,实现更好的影响因子分析。
实施例4
本实施例在实施例3的基础上进一步的,所述集成学习使用bagging集成算法。
本发明使用的集成方法是bagging集成算法:该方法在训练的过程中,各基分类器之间无强依赖,可以进行并行训练。基于决策树基分类器的随机森林(Random forest)。为了让基分类器之间互相独立,将训练集分为若干子集。
其中,随机森林的构建过程包括以下步骤:
1、从原始训练集中使用Bootstraping方法随机有放回采样取出m个样本,共进行3次采样,生成3个训练集;
2、对3个训练集,我们分别训练上述PageRank拓展算法、PCA主成分分析算法和自编码算法,得到关联模型;
3、对于单个关联模型,假设训练样本特征的个数为n,那么每次***时根据上述8个指标选择最好的特征进行关联;
4、每棵树都已知这样关联下去,知道该节点的所有训练样例都属于同一类,在决策树的关联过程中不需要剪枝;
5、将生成的多颗关联树组成随机森林。对于分类问题,按照多棵关联树分类器投票决定最终分类结果;对于回归问题,由多颗树预测值的均值决定最终预测结果。
进一步的,根据神经节点与层之间的联系、神经节点与神经节点之间的联系,使用PageRank拓展算法按照IV指标、基尼指数指标、熵指标、信息增益指标、皮尔逊相关指标高斯混合模型指标、层内间距指标和层间间距指标中的全部指标对每个神经节点的影响因子进行迭代训练。
相对于传统的节点关联算法,我们综合8个指标,来训练对于每一个节点,每一个表格指标的权重,根据节点的特征偏重于选择哪些指标来进行关联实现很好的效果,这不仅对特定的数据具有深攻性,也具有很好的鲁棒性。实现换一批数据,依然能够训练得出好的聚类关联推荐效果。
使用综合评判待分类节点是否应该加入到某一中心节点中,此处使用机器学习中常用的加权求和的综合评价指标方法。通过训练各个指标的权重参数获得最优PageRank权重模型。其中参数对应于每一个节点的权重子节点。相对于传统的一个或者两个指标来评价节点关联程度,此处结合了8种评价指标,对应于特定的节点,训练得出偏重的更适合的评价指标来进行关联,实现了节点的影响因子分析,从而实现更合理、更直观、更准确的可视化流形分析方法。
实施例5
一种卷积神经网络的神经节点的影响因子分析装置,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令,实现上述的一种卷积神经网络的神经节点的影响因子分析方法。
实施例6
本实施例为上述8种指标提供一种具体的计算方法;
其中8种指标包括:
IV指标,即信息量指标:在用构建影响因子分析模型时,经常需要考虑节点之间的相关性,节点的组成因素,节点的简单性,节点变量的强壮性,节点变量在业务上的可解释性等等。但是,其中最主要和最直接的衡量标准是节点的预测能力。 IV就是用来衡量自变量的预测能力。假设在一个关联问题中,目标变量值为1,0。对于一个待关联的个体A,要判断A属于1还是0,需要知道一系列特定信息,假设这个信息总量是I,而这些所需要的信息,就蕴含在所有的自变量X1,X2,X3,……,Xn中,那么,对于其中一个变量Xi来说,其蕴含的信息越多,那么它对于判断A属于0还是1的贡献就越大,Xi的信息价值就越大,Xi的IV就越大,它就越应该进入到入模变量列表中。IV的计算基于WOE,可以看成对WOE的加权求和;
其中,分组i的IV值计算:
Figure 635749DEST_PATH_IMAGE001
总体的IV:
Figure 531735DEST_PATH_IMAGE002
Gini增益指标:根据计算待分析的节点到各个中心节点影响因子节点的基尼增益,选择使得基尼增益最小的那个中心节点归为一类影响因子节点,表明对于其他的中心节点,该待分析节点和该中心节点影响因子最高,循环迭代。其中,基尼增益的定义:假设有K个待分析节点,样本节点属于第k个节点的母节点的概率为pk
公式:
Figure 371832DEST_PATH_IMAGE003
对于数据集D:
Figure 431241DEST_PATH_IMAGE004
对于特征A将D划分成D1和D2,则
Figure 546013DEST_PATH_IMAGE005
Gini最小为0,此时表示所有节点都属于母节点的子节点,效果最好;
Gini最大时,pk都是0.5,效果最差。
熵指标:当样本节点按照特征A的值a划分成两个独立的子节点的因子集D1,D2时,此时整个数据集D的熵分为两个独立数据集D1的熵和D2的熵的加权和。计算待分析节点的与各个中心节点数据的熵,得到使得熵最小的中心节点,即把待分析节点分到和中心节点一类,认为待分析节点在相比于其他中心节点下,与该中心节点相似度更高;
Figure 365250DEST_PATH_IMAGE006
信息增益指标:信息增益,就是计算待分析节点加入某中心节点前和加入该中心节点后信息的差值,在决策树分类问题中,即就是决策树在进行属性选择划分前和划分后的信息差值,即可以写成:
Figure 637587DEST_PATH_IMAGE007
若待分析节点加入某中心节点以后的信息增益相比与其他中心节点的信息增益更大,说明此节点加入到此中心节点以后,此中心节点的熵减少最多,说明此中心节点变得更有序,则把此节点加入到此中心节点中。
皮尔逊相关指标:对于需要进行比较的两个节点的子节点序列,首先做Z均值处理之后, 然后两组数据的乘积和除以样本数。Z分数一般代表正态分布中, 数据偏离中心点的距离,等于变量减掉平均数再除以标准差。标准差则等于变量减掉平均数的平方和,再除以样本数,最后再开方。Pearson 相关系数是用协方差除以两个变量的标准差得到的,排除了协方差的量纲的影响。
距离相关指标:距离指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的距离就是两点之间的实际距离。通过计算待分析节点和各个中心节点中间的层数距离,根据得到的最小的层数距离和节点距离,把待分析的节点和中心节点的层数距离和节点距离归一化处理,使得即使相距离较远的层数和节点,一旦能够对节点产生很大影响,距离都归一化,去除距离影响,从而找出对输出结果更具表达性的节点。
高斯混合指标:高斯混合模型是一种业界广泛使用的聚类算法。它是多个高斯分布函数的线性组合,可以拟合出任意类型的分布,通常用于解决同一集合下的数据包含多种不同的分布的情况。高斯混合模型使用了期望最大EM算法进行训练。通过拟合待分类字段和中心字段的高斯混合模型分布,得出高斯混合模型的中间参数,若中间参数相差不大,则可以把此待分析节点加入中心节点的影响因子节点中去;
高斯混合模型是指具有如下形式概率分布模型:
Figure 606866DEST_PATH_IMAGE008
其中,
Figure 788766DEST_PATH_IMAGE009
是系数,
Figure 912131DEST_PATH_IMAGE011
是高斯分布密度,
Figure 682958DEST_PATH_IMAGE012
第k个分模型,服从以下分布:
Figure 433450DEST_PATH_IMAGE013
层间间距:计算待分析节点和中心节点之间的层间距,使得分别计算待分析的节点和中心节点之间的层间间距,使得层间间距保持即使距离较远,但是仍然保持着很大的影响因子,这里采取的是路径距离的归一化,可以更加直观的获取节点之间的影响关系,其中,层间间距:
Figure 495264DEST_PATH_IMAGE014
实施例7
本实施例为基于本方法的***框架,包括Python底层模块,基础框架模块以及扩展层模块的三层框架结构;其中,
基础框架模块包括定制Spring模块、定制MyBatis模块及定制Spring MVC模块;
扩展层模块包括日志体系模块、异常体系模块、远程调用模块、安全集成模块、规则引擎模块、测试集成模块、数据库适配模块。
所述日志体系模块包括数据操作模块、手动添加日志模块及日志收集模块;
所述用户操作***模块用于自动记录用户操作并同时自动拦截异常信息;
所述手动添加日志模块用于用户通过手动方式添加***运行日志;
所述日志收集模块用于接收来自用户操作***模块或手动添加日志模块的***日志,并判断该日志的类型及级别后存入数据库和/或存入日志文件。
进一步的,所述多数据的连接和获取模块采用如下流程工作:
接收基站或者其他发送端发送过来的请求发送数据的要求;该操作依次调用Service服务层函数、DAO(Data Access Objects)数据库操作层函数(DAO数据库操作成函数又称DAO接口函数);并请求建立与数据库的连接;
如数据库连接失败,返回异常信息;所述异常信息依次从数据库操作层函数、Service服务层函数返回至Action。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (8)

1.一种卷积神经网络的神经节点的影响因子分析方法,其特征在于:包括以下步骤:
对神经网络的神经节点进行分析,标记每个神经节点的分布,获取神经节点与层之间的联系、神经节点与神经节点之间的联系;
确定中心节点,根据神经节点与层之间的联系、神经节点与神经节点之间的联系,使用PageRank拓展算法按照IV指标、基尼指数指标、熵指标、信息增益指标、皮尔逊相关指标高斯混合模型指标、层内间距指标和层间间距指标中的至少两种指标对每个神经节点对中心节点的影响因子进行迭代训练;
当所有指标在单位时间内的变化小于阈值时,停止迭代训练,输出前N个综合指标最小、影响因子最大的神经节点;N为正整数;
根据前N个综合指标最小、影响因子最大的神经节点得到对应中心节点的神经节点影响分析模型。
2.根据权利要求1所述的一种卷积神经网络的神经节点的影响因子分析方法,其特征在于:对神经网络的神经节点进行分析前还包括对神经节点数据进行数据预处理。
3.根据权利要求2所述的一种卷积神经网络的神经节点的影响因子分析方法,其特征在于:所述数据预处理包括数据准备和数据特征工程。
4.根据权利要求1所述的一种卷积神经网络的神经节点的影响因子分析方法,其特征在于:对应中心节点的神经节点影响分析模型后还包括:
使用PageRank拓展算法得到的神经节点影响分析的模型结合其他算法进行进一步的无监督集成学习;
通过集成学习获得PageRank拓展算法和其他算法的权重,得到优于神经节点影响分析模型的最优关联模型。
5.根据权利要求4所述的一种卷积神经网络的神经节点的影响因子分析方法,其特征在于:所述其他算法的包括PCA主成分分析算法、自编码算法中的至少一个。
6.根据权利要求5所述的一种卷积神经网络的神经节点的影响因子分析方法,其特征在于:所述集成学习使用bagging集成算法。
7.根据权利要求1所述的一种卷积神经网络的神经节点的影响因子分析方法,其特征在于:根据神经节点与层之间的联系、神经节点与神经节点之间的联系,使用PageRank拓展算法按照IV指标、基尼指数指标、熵指标、信息增益指标、皮尔逊相关指标高斯混合模型指标、层内间距指标和层间间距指标中的全部指标对每个神经节点的影响因子进行迭代训练。
8.一种卷积神经网络的神经节点的影响因子分析装置,其特征在于:包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令,实现如权利要求1所述的一种卷积神经网络的神经节点的影响因子分析方法。
CN202010016237.4A 2020-01-08 2020-01-08 一种卷积神经网络的神经节点的影响因子分析方法及装置 Pending CN110807520A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010016237.4A CN110807520A (zh) 2020-01-08 2020-01-08 一种卷积神经网络的神经节点的影响因子分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010016237.4A CN110807520A (zh) 2020-01-08 2020-01-08 一种卷积神经网络的神经节点的影响因子分析方法及装置

Publications (1)

Publication Number Publication Date
CN110807520A true CN110807520A (zh) 2020-02-18

Family

ID=69493337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010016237.4A Pending CN110807520A (zh) 2020-01-08 2020-01-08 一种卷积神经网络的神经节点的影响因子分析方法及装置

Country Status (1)

Country Link
CN (1) CN110807520A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523188A (zh) * 2020-04-20 2020-08-11 电子科技大学 一种航空网络鲁棒性优化方法
CN112329678A (zh) * 2020-11-12 2021-02-05 山东师范大学 一种基于信息融合的单目行人3d定位的方法
CN112380780A (zh) * 2020-11-27 2021-02-19 中国运载火箭技术研究院 一种用于非对称对抗场景自博弈训练的对称场景嫁接方法
TWI746038B (zh) * 2020-07-02 2021-11-11 阿證科技股份有限公司 類神經網路人工智慧決策核心系統
CN118014098A (zh) * 2024-02-04 2024-05-10 贝格迈思(深圳)技术有限公司 机器学习训练数据调度方法及设备

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523188A (zh) * 2020-04-20 2020-08-11 电子科技大学 一种航空网络鲁棒性优化方法
CN111523188B (zh) * 2020-04-20 2023-06-30 电子科技大学 一种航空网络鲁棒性优化方法
TWI746038B (zh) * 2020-07-02 2021-11-11 阿證科技股份有限公司 類神經網路人工智慧決策核心系統
CN112329678A (zh) * 2020-11-12 2021-02-05 山东师范大学 一种基于信息融合的单目行人3d定位的方法
CN112329678B (zh) * 2020-11-12 2023-03-24 山东师范大学 一种基于信息融合的单目行人3d定位的方法
CN112380780A (zh) * 2020-11-27 2021-02-19 中国运载火箭技术研究院 一种用于非对称对抗场景自博弈训练的对称场景嫁接方法
CN118014098A (zh) * 2024-02-04 2024-05-10 贝格迈思(深圳)技术有限公司 机器学习训练数据调度方法及设备

Similar Documents

Publication Publication Date Title
CN110807520A (zh) 一种卷积神经网络的神经节点的影响因子分析方法及装置
CN110381079B (zh) 结合gru和svdd进行网络日志异常检测方法
CN110414555A (zh) 检测异常样本的方法及装置
CN110232434A (zh) 一种基于属性图优化的神经网络架构评估方法
Orooji et al. Predicting louisiana public high school dropout through imbalanced learning techniques
CN111476274A (zh) 一种大数据预测分析的方法、***、装置及存储介质
CN109597944B (zh) 一种基于深度信念网络的单分类微博谣言检测模型
CN117668360A (zh) 一种基于学习者在线学习行为分析的个性化习题推荐方法
CN117763316A (zh) 一种基于机器学习的高维数据降维方法及降维***
CN110008975B (zh) 基于免疫危险理论的社交网络水军检测方法
CN111105041B (zh) 一种用于智慧数据碰撞的机器学习方法及装置
Abecidan et al. Leveraging data geometry to mitigate csm in steganalysis
Chen Financial Statement Fraud Detection based on Integrated Feature Selection and Imbalance Learning
CN114282875A (zh) 流程审批确定性规则和语义自学习结合判定方法及装置
CN116188834B (zh) 基于自适应训练模型的全切片图像分类方法及装置
Kirkos et al. Data mining in finance and accounting: a review of current research trends
CN116702132A (zh) 网络入侵检测方法及***
Tsapatsoulis et al. The central community of Twitter ego-networks as a means for fake influencer detection
CN107423759B (zh) 低维逐次投影寻踪聚类模型综合评价方法、装置及应用
CN115643153A (zh) 基于图神经网络的报警关联分析方法
CN114757433A (zh) 一种饮用水源抗生素抗性相对风险快速识别方法
Ravichandran et al. Comparative study on decision tree techniques for mobile call detail record
CN106127606A (zh) 一种勘探开发项目中油气指标数据的处理方法和装置
CN111026661A (zh) 一种软件易用性全面测试方法及***
Liu et al. Evaluation of Intelligent Information System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200218