CN112926611A - 特征提取方法、装置及计算机可读存储介质 - Google Patents

特征提取方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN112926611A
CN112926611A CN201911239628.6A CN201911239628A CN112926611A CN 112926611 A CN112926611 A CN 112926611A CN 201911239628 A CN201911239628 A CN 201911239628A CN 112926611 A CN112926611 A CN 112926611A
Authority
CN
China
Prior art keywords
nodes
directed acyclic
acyclic graph
node
feature extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911239628.6A
Other languages
English (en)
Other versions
CN112926611B (zh
Inventor
吴发翔
程建波
彭南博
黄志翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JD Digital Technology Holdings Co Ltd
Original Assignee
JD Digital Technology Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JD Digital Technology Holdings Co Ltd filed Critical JD Digital Technology Holdings Co Ltd
Priority to CN201911239628.6A priority Critical patent/CN112926611B/zh
Publication of CN112926611A publication Critical patent/CN112926611A/zh
Application granted granted Critical
Publication of CN112926611B publication Critical patent/CN112926611B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种特征提取方法、装置及计算机可读存储介质,涉及人工智能技术领域。其中的特征提取方法包括:构建有向无环图;在有向无环图中选择多个节点,利用安全属性数据集的各个安全级别标签、多个节点中各个节点所表示的候选安全属性特征集,分别训练机器学习模型并测试多个节点中各个节点所对应机器学习模型预测安全级别标签的准确率,并从多个节点中选择准确率最高的节点;将准确率最高的节点所表示的候选安全属性特征集作为安全属性数据集的安全属性特征集。本公开能够自动化提取安全属性数据的安全属性特征,使得安全属性特征具有可解释性,并使得通过安全属性特征训练得到的机器学习模型具有较高的分类准确率。

Description

特征提取方法、装置及计算机可读存储介质
技术领域
本公开涉及人工智能技术领域,特别涉及一种特征提取方法、装置及计算机可读存储介质。
背景技术
特征工程是机器学习任务中的重要部分,是一项将安全属性数据转化成适合机器学习模型输入的工程实践。
质量好的特征可以减轻机器学习模型的算法建模难度,提高机器学习模型的训练速度,并能使得机器学习模型输出更精确的结果。
发明内容
本公开解决的一个技术问题是,如何自动化提取安全属性数据的数据特征,使得数据特征具有可解释性,并使得通过数据特征训练得到的机器学习模型具有较高的分类准确率。
根据本公开实施例的一个方面,提供了一种特征提取方法,包括:构建有向无环图;其中,有向无环图的边表示特征提取算子,有向无环图的根节点表示安全属性数据集,有向无环图的子节点表示利用特征提取算子对有向无环图的父节点进行处理得到的候选安全属性特征集,有向无环图的各个节点具有相同的数据数量;
在有向无环图中选择多个节点,利用安全属性数据集的各个安全级别标签、多个节点中各个节点所表示的候选安全属性特征集,分别训练机器学习模型并测试多个节点中各个节点所对应机器学习模型预测安全级别标签的准确率,并从多个节点中选择准确率最高的节点;将准确率最高的节点所表示的候选安全属性特征集作为安全属性数据集的安全属性特征集,以利用安全属性特征集训练得到的机器学习模型预测目标安全属性数据的安全级别标签。
在一些实施例中,特征提取算子的种类为多个;有向无环图中同一父节点的不同子节点,是分别利用各个种类的特征提取算子对有向无环图中的同一父节点进行处理得到的。
在一些实施例中,特征提取算子包括正弦函数算子、对数算子、平方算子、特征级联算子、特征选取算子;其中,特征级联算子用于对有向无环图中不同的父节点所表示的候选安全属性特征集进行级联,特征选取算子用于选取有向无环图中父节点所表示的候选安全属性特征集的部分维度。
在一些实施例中,特征提取方法还包括:确定有向无环图中根节点至目标节点的路径;利用路径包含的各个边所表示的特征提取算子,确定将安全属性数据集处理为安全属性特征集所需的特征提取运算。
在一些实施例中,采用深度Q学习算法,在有向无环图中选择多个节点,利用安全属性数据集的各个安全级别标签、多个节点中各个节点所表示的候选安全属性特征集,分别训练机器学习模型并测试多个节点中各个节点所对应机器学习模型预测安全级别标签的准确率,并从多个节点中选择准确率最高的节点。
在一些实施例中,在有向无环图中选择多个节点,利用安全属性数据集的各个安全级别标签、多个节点中各个节点所表示的候选安全属性特征集,分别训练机器学习模型并测试多个节点中各个节点所对应机器学习模型预测安全级别标签的准确率,并从多个节点中选择准确率最高的节点包括:按照有向无环图中边的方向,对有向无环图中的节点进行搜索;将已搜索节点作为有向无环图的当前搜索状态;将选择特征提取算子对已搜索节点进行处理得到未搜索节点作为当前动作;利用当前搜索状态及当前动作,确定有向无环图的下一搜索状态;确定当前动作的奖励,奖励与采用下一搜索状态中各节点所表示的候选安全属性特征集训练得到的机器学习模型预测安全级别标签的最高准确率呈正相关;将当前搜索状态、当前动作、当前奖励以及下一搜索状态存储至深度Q学习算法的经验池,以便利用深度Q学习算法的经验池选择准确率最高的节点。
在一些实施例中,在有向无环图中选择多个节点,利用安全属性数据集的各个安全级别标签、多个节点中各个节点所表示的候选安全属性特征集,分别训练机器学习模型并测试多个节点中各个节点所对应机器学习模型预测安全级别标签的准确率,并从多个节点中选择准确率最高的节点包括:设定采用深度Q学习算法对有向无环图中的节点进行搜索的终止时间;设定采用深度Q学习算法对有向无环图中的节点进行搜索的最大搜索深度。
根据本公开实施例的另一个方面,提供了一种特征提取装置,包括:图构建模块,被配置为:构建有向无环图;其中,有向无环图的边表示特征提取算子,有向无环图的根节点表示安全属性数据集,有向无环图的子节点表示利用特征提取算子对有向无环图的父节点进行处理得到的候选安全属性特征集,有向无环图的各个节点具有相同的数据数量;节点选择模块,被配置为:在有向无环图中选择多个节点,利用安全属性数据集的各个安全级别标签、多个节点中各个节点所表示的候选安全属性特征集,分别训练机器学习模型并测试多个节点中各个节点所对应机器学习模型预测安全级别标签的准确率,并从多个节点中选择准确率最高的节点;特征集确定模块,被配置为:将准确率最高的节点所表示的候选安全属性特征集作为安全属性数据集的安全属性特征集,以利用安全属性特征集训练得到的机器学习模型预测目标安全属性数据的安全级别标签。。
在一些实施例中,特征提取算子的种类为多个;有向无环图中同一父节点的不同子节点,是分别利用各个种类的特征提取算子对有向无环图中的同一父节点进行处理得到的。
在一些实施例中,特征提取算子包括正弦函数算子、对数算子、平方算子、特征级联算子、特征选取算子;其中,特征级联算子用于对有向无环图中不同的父节点所表示的候选安全属性特征集进行级联,特征选取算子用于选取有向无环图中父节点所表示的候选安全属性特征集的部分维度。
在一些实施例中,特征提取装置还包括运算确定模块,被配置为:确定有向无环图中根节点至目标节点的路径;利用路径包含的各个边所表示的特征提取算子,确定将安全属性数据集处理为安全属性特征集所需的特征提取运算。
在一些实施例中,节点选择模块被配置为:采用深度Q学习算法,在有向无环图中选择多个节点,利用安全属性数据集的各个安全级别标签、多个节点中各个节点所表示的候选安全属性特征集,分别训练机器学习模型并测试多个节点中各个节点所对应机器学习模型预测安全级别标签的准确率,并从多个节点中选择准确率最高的节点。
在一些实施例中,节点选择模块被配置为:按照有向无环图中边的方向,对有向无环图中的节点进行搜索;将已搜索节点作为有向无环图的当前搜索状态;将选择特征提取算子对已搜索节点进行处理得到未搜索节点作为当前动作;利用当前搜索状态及当前动作,确定有向无环图的下一搜索状态;确定当前动作的奖励,奖励与采用下一搜索状态中各节点所表示的候选安全属性特征集训练得到的机器学习模型预测安全级别标签的最高准确率呈正相关;将当前搜索状态、当前动作、当前奖励以及下一搜索状态存储至深度Q学习算法的经验池,以便利用深度Q学习算法的经验池选择准确率最高的节点。
在一些实施例中,节点选择模块被配置为:设定采用深度Q学习算法对有向无环图中的节点进行搜索的终止时间;设定采用深度Q学习算法对有向无环图中的节点进行搜索的最大搜索深度。
根据本公开实施例的又一个方面,提供了又一种特征提取装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行前述的特征提取方法。
根据本公开实施例的再一个方面,提供了一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机指令,指令被处理器执行时实现前述的特征提取方法。
本公开能够自动化提取安全属性数据的数据特征,使得数据特征具有可解释性,并使得通过数据特征训练得到的机器学习模型具有较高的分类准确率。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了本公开一些实施例的特征提取方法的流程示意图。
图2示出了有向无环图的示意图。
图3示出了强化学习的示意图。
图4示出了采用深度Q学习算法选择目标节点的流程示意图。
图5示出了本公开一些实施例的特征提取装置的结构示意图。
图6示出了本公开另一些实施例的特征提取装置的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
发明人研究发现,相关的特征工程方法有手动特征工程、决策树引导搜索、深度特征生成器、深度神经网络等等。
(1)手动特征工程
手动特征工程仍旧需要人类专家根据他们所拥有的丰富领域知识进行特征的分析和构建,因此提取特征困难、费时,且提取的特征不一定能较好的对数据进行表达。
(2)决策树引导搜索
诸如FCTree、Cognito等方法定义了一个特征空间,然后使用一颗决策树来进行引导性搜索,并利用一种权限更新机制来帮助识别好的特征转换。但是,该方法只包含简单的特征转化函数,因此定义的特征空间非常有限,且搜索特征空间的效率较低。
(3)深度特征生成器
深度特征生成器将特征工程看作是新特征空间的特征选择问题,穷举所有可能从数据集中构建出的特征,然后从这些特征中进行选择。但是,穷举式的选择会造成巨大的计算时间和资源上的消耗。
(4)深度神经网络
深度神经网络可以很好的提取元特征,使用它作为特征提取器是非常有效的,但是这些学习到的特征不具备可解释性,因此在金融、医疗等诸多应用领域下不适用。
发明人还研究发现,基于强化学习的特征选择方法,可以在一定程度上自动化的实现特征选择过程,但是特征工程中更核心的是特征抽取过程,且基于Q-Learning的强化学习的特征选择过程效率较低,需要耗费较多的搜索资源。在特征抽取任务中,基于强化学习的应用还缺乏较成熟的方案。另一方面,基于强化学习的神经网络架构搜索能够取得不错的效果,但是最大的缺陷是无法应用于需要解释性需求下的场景,且针对于网络架构的搜索过程,因其搜索空间的复杂性,同样需要耗费较多的搜索资源。
鉴于机器学习建模和特征工程技术领域有着很高的准入门槛,尤其是特征抽取过程具备着很强的领域知识局限性,同时特征抽取过程极其耗费资源,往往需要很长的时间和人力成本。本公开从特征提取的角度出发,提出了一种特征提取方法,以解决上述问题。
首先结合图1描述本公开特征提取方法的一些实施例。
图1示出了本公开一些实施例的特征提取方法的流程示意图。如图1所示,本实施例包括步骤S101~步骤S102。
在步骤S101中,构建有向无环图作为特征空间。
图2示出了有向无环图的示意图。如图2所示,有向无环图的有向边表示特征提取算子,用于执行特征提取操作。有向无环图的根节点(D0)表示安全属性数据集,有向无环图的子节点表示利用特征提取算子对有向无环图的父节点进行处理得到的候选安全属性特征集。也就是说,有向无环图的节点D1~D10表示经过特征提取算子处理得到的各个候选安全属性特征集。
有向无环图的各个节点具有相同的数据数量。例如,D0中安全属性数据集的数据数量为10,即安全属性数据集包含10条数据,每条数据对应一个用户,每条数据的维度为5(例如分别为年龄,性别,消费额度,收入额度,逾期还款次数),安全属性数据集的数据形式为10行5列的矩阵。那么,有向无环图的各个节点的数据数量均为10。
在一些实施例中,特征提取算子的种类为多个。有向无环图中同一父节点的不同子节点,是分别利用各个种类的特征提取算子对有向无环图中的同一父节点进行处理得到的。
本领域技术人员应理解,特征提取算子可以根据经验或实际需要进行设定,在此不做限制。具体举例来说,特征提取算子可以包括正弦函数算子sin、对数算子log、平方算子square、特征级联算子(虚线表示)、特征选取算子FS等等。其中,特征级联算子用于对有向无环图中不同的父节点所表示的候选安全属性特征集进行级联,特征选取算子用于选取有向无环图中父节点所表示的候选安全属性特征集的部分维度。
以正弦函数算子为例,正弦函数算子对矩阵形式的安全属性数据中的每个元素进行正弦函数运算,可以得到节点D1。如果D0的数据形式为10行5列的矩阵,则节点D1的数据形式也为10行5列的矩阵。
以特征级联算子为例,特征级联算子对节点D4和D7进行特征级联。如果节点D4、D7的数据形式均为10行5列的矩阵,则节点(D4,7)的数据形式为10行10列的矩阵,其数据数量仍为10。
以特征选取算子为例,特征级联算子FS选取节点D2所表示的候选安全属性特征集的前2列,如果节点D2的数据形式均为10行5列的矩阵,则节点D6的数据形式为10行2列的矩阵,其数据数量仍为10。
在步骤S102中,在有向无环图中选择多个节点,利用安全属性数据集的各个安全级别标签、多个节点中各个节点所表示的候选安全属性特征集,分别训练机器学习模型并测试多个节点中各个节点所对应机器学习模型预测安全级别标签的准确率,并从多个节点中选择准确率最高的节点。在特征空间中,每一个节点都是特征提取的候选方案。在给定有向无环图的深度及特征提取算子的种类的情况下,如果对每个节点的特征提取过程进行穷举,则能够穷举出非常多的候选方案。例如给定特征提取算子的种类为20,有向无环图的深度特征提取算子的种类为5时,有向无环图会有320万左右的节点,因此难以对有向无环图的所有节点进行搜索,以选择一个目标节点所表示的候选安全属性特征集作为安全属性数据集的安全属性特征集。此时需要采用一定的搜索策略。搜索策略就是引导如何在给定的特征空间中高效的搜索出最优的数据特征。搜索策略例如可以采用随机搜索策略、贝叶斯优化策略、进化算法等等。
安全级别标签例如可以包括“安全用户”及“不安全用户”,以表示一条数据所对应用户的安全属性。如果安全属性数据的数据数量为10,则安全属性数据集对应的安全级别标签的数量也为10。
在步骤S103中,将准确率最高的节点所表示的候选安全属性特征集作为安全属性数据集的安全属性特征集,以利用安全属性特征集训练得到的机器学习模型预测目标安全属性数据的安全级别标签。
本实施例通过构建有向无环图来定义特征空间,并在特征空间中的搜索最优的数据特征提取方案,将自动化特征提取任务转化成一个特征空间的搜索问题,减少了特征提取任务的复杂度。因此,本实施例能够自动化提取安全属性数据的安全属性特征,使得安全属性特征具有可解释性,并使得通过安全属性特征特征训练得到的机器学习模型具有较高的分类准确率。同时,由于通过安全属性特征训练得到的机器学习模型具有较好的性能指标,因此本实施例还能降低机器学习模型的建模难度和建模成本,提升机器学习模型中算法的运算效率。
发明人经过调研和实验发现,基于精确度和稳定性方面的考虑,可以选择强化学习的理念来完成搜索策略的设计。图3示出了强化学习的示意图。如图3所示,强化学习的理念是不断通过当前的状态采取相应的动作,从而获得相应的奖赏来训练策略,以期望在未来的状态下采取更好的动作。强化学习的核心四要素即为状态、动作、奖励和策略。对应到所在特征空间的搜索过程,在每一个时间步t,搜索策略会收到搜索空间反馈的状态变量St及的奖励Rt。然后,搜索策略执行动作At,即是选择使用怎样的特征提取算子。而对于搜索空间来说,它会收到动作At,并根据动作响应下一状态St+1,并对该动作给出一个奖励Rt。强化学习的目标是随着不断做出动作的过程,动态的调整参数,以使得期望得到的奖励最大化。同时,在搜索空间进行搜索的过程中,本实施例选择了一种性能驱动的搜索策略,采用了DQN(Deep Q-Learing,深度Q学习)算法,在有限的时间预算内最大限度的提高特征抽取的精确度。也就是说,在步骤S102中,可以采用深度Q学习算法,在有向无环图中选择多个节点,利用安全属性数据集的各个安全级别标签、多个节点中各个节点所表示的候选安全属性特征集,分别训练机器学习模型并测试多个节点中各个节点所对应机器学习模型预测安全级别标签的准确率,并从多个节点中选择准确率最高的节点。。
在一些实施例中,特征提取方法还包括步骤S104~步骤S105。
在步骤S104中,确定有向无环图中根节点至目标节点的路径。
假设目标节点为D10,则根节点至目标节点的路径为D0-D2-D6-D10。
在步骤S105中,利用路径包含的各个边所表示的特征提取算子,确定将安全属性数据集处理为安全属性特征集所需的特征提取运算。
例如,根据路径D0-D2-D6-D10中各个边所表示的特征提取算子log-FS-Sin,可知将安全属性数据集处理为安全属性特征集所需的特征提取运算为先取对数、再选取前两列维度、最后取正弦。
本领域技术人员应理解,上述实施例中的特征提取方法可以应用于机器学习建模过程。在整个机器学习建模过程中,可以首先对安全属性数据进行数据清洗操作;然后利用上述实施例中的特征提取方法,将经过数据清洗操作后的安全属性数据进行特征工程操作;最后利用从安全属性数据提取的数据特征进行机器学习模型的选择和训练。
下面结合图4描述采用深度Q学习算法选择目标节点的过程。
图4示出了采用深度Q学习算法选择目标节点的流程示意图。如图4所示,该实施例包括步骤S4020~S4024。
在步骤S4020中,准备安全属性数据D0,确定约束条件、特征空间及特征提取算子。
例如,可以设定采用深度Q学习算法对有向无环图中的节点进行搜索的终止时间,还可以设定采用深度Q学习算法对有向无环图中的节点进行搜索的最大搜索深度。
在步骤S4021中,DQN算法初始化经验池、Q网络权重以及目标网络权重。
在步骤S4022中,进入循环遍历阶段,判断是否阶段迭代完成。
在每一个阶段中,从当前状态执行一个动作得到下一状态。如果当前时间到达终止时间,则判断循环遍历阶段完成,执行步骤S4023。如果当前时间未到达终止时间,则判断循环遍历阶段未完成,执行步骤S4024,以继续进行循环遍历阶段。
在步骤S4023中,根据迭代结果得到最终的特征提取方案。
在步骤S4024中,进行循环遍历阶段。
在每个循环遍历阶段中,初始化Q网络及目标网络的初始状态,然后循环遍历时间步step=1,2,…,T,以对Q网络及目标网络进行训练。在每个时间步中,首先需用∈-greedy策略生成动作At,即每次选择哪一个特征提取算子。∈-greedy策略是一种贪心算法策略,∈代表了采取随机行动的概率。开始时因为没有经验导向,基本采用随机行动的方式进行搜索;而随着训练的进行,获得的过往经验越来越多,了解到哪些行动方案会帮助获得最大的回报期望,∈越来越大,表示会更多可能不进行随机选取,而是选择回报更高的行动。执行当前动作At后,接收到特征空间反馈的当前动作的奖励Rt和下一搜索状态St+1,将(St,At,Rt,St+1)作为一次转变存储到经验池之中,然后从经验池中随机抽取一些小样本的转变列表。时间步执行完毕后,通过判断Q网络及目标网络的损失函数是否收敛来判断是否达到终止条件。如果达到终止条件,则返回步骤S4022。如果未达到终止条件,则通过损失函数更新Q网络,并且每隔若干个时间步更新目标网络,再继续下一步时间步迭代。
DQN算法按照有向无环图中边的方向,对有向无环图中的节点进行搜索。搜索过程中,将已搜索节点作为有向无环图的当前搜索状态St;将选择特征提取算子对已搜索节点进行处理得到未搜索节点作为当前动作At;利用当前搜索状态St及当前动作At,确定有向无环图的下一搜索状态St+1。当前动作的奖励Rt与采用下一搜索状态中各节点所表示的候选安全属性特征集训练得到的机器学习模型预测安全级别标签的最高准确率呈正相关。DQN算法能够将当前搜索状态St、当前动作At、当前奖励Rt以及下一搜索状态St+1存储至深度Q学习算法的经验池,以便利用深度Q学习算法的经验池选择准确率最高的节点。
本实施例基于强化学习中的DQN算法,能够减少搜索特征空间所耗费的计算资源,提高搜索特征空间的效率,利用更少的计算资源获得更优的特征提取方案。
下面结合图5描述本公开特征提取装置的一些实施例。
图5示出了本公开一些实施例的特征提取装置的结构示意图。如图5所示,本实施例中的特征提取装置50包括:
图构建模块501,被配置为:构建有向无环图;其中,有向无环图的边表示特征提取算子,有向无环图的根节点表示安全属性数据集,有向无环图的子节点表示利用特征提取算子对有向无环图的父节点进行处理得到的候选安全属性特征集,有向无环图的各个节点具有相同的数据数量;节点选择模块502,被配置为:在有向无环图中选择多个节点,利用安全属性数据集的各个安全级别标签、多个节点中各个节点所表示的候选安全属性特征集,分别训练机器学习模型并测试多个节点中各个节点所对应机器学习模型预测安全级别标签的准确率,并从多个节点中选择准确率最高的节点;特征集确定模块503,被配置为:将准确率最高的节点所表示的候选安全属性特征集作为安全属性数据集的安全属性特征集,以利用安全属性特征集训练得到的机器学习模型预测目标安全属性数据的安全级别标签。。
本实施例通过构建有向无环图来定义特征空间,并在特征空间中的搜索最优的数据特征提取方案,将自动化特征提取任务转化成一个特征空间的搜索问题,减少了特征提取任务的复杂度。因此,本实施例能够自动化提取安全属性数据的数据特征,使得数据特征具有可解释性,并使得通过数据特征训练得到的机器学习模型具有较高的分类准确率。同时,由于通过数据特征训练得到的机器学习模型具有较好的性能指标,因此本实施例还能降低机器学习模型的建模难度和建模成本,提升机器学习模型中算法的运算效率。
在一些实施例中,特征提取算子的种类为多个;有向无环图中同一父节点的不同子节点,是分别利用各个种类的特征提取算子对有向无环图中的同一父节点进行处理得到的。
在一些实施例中,特征提取算子包括正弦函数算子、对数算子、平方算子、特征级联算子、特征选取算子;其中,特征级联算子用于对有向无环图中不同的父节点所表示的候选安全属性特征集进行级联,特征选取算子用于选取有向无环图中父节点所表示的候选安全属性特征集的部分维度。
在一些实施例中,特征提取装置50还包括运算确定模块504,被配置为:确定有向无环图中根节点至目标节点的路径;利用路径包含的各个边所表示的特征提取算子,确定将安全属性数据集处理为安全属性特征集所需的特征提取运算。
在一些实施例中,节点选择模块502被配置为:采用深度Q学习算法,在有向无环图中选择多个节点,利用安全属性数据集的各个安全级别标签、多个节点中各个节点所表示的候选安全属性特征集,分别训练机器学习模型并测试多个节点中各个节点所对应机器学习模型预测安全级别标签的准确率,并从多个节点中选择准确率最高的节点。
在一些实施例中,节点选择模块502被配置为:按照有向无环图中边的方向,对有向无环图中的节点进行搜索;将已搜索节点作为有向无环图的当前搜索状态;将选择特征提取算子对已搜索节点进行处理得到未搜索节点作为当前动作;利用当前搜索状态及当前动作,确定有向无环图的下一搜索状态;确定当前动作的奖励,奖励与采用下一搜索状态中各节点所表示的候选安全属性特征集训练得到的机器学习模型预测安全级别标签的最高准确率呈正相关;将当前搜索状态、当前动作、当前奖励以及下一搜索状态存储至深度Q学习算法的经验池,以便利用深度Q学习算法的经验池选择准确率最高的节点。
在一些实施例中,节点选择模块502被配置为:设定采用深度Q学习算法对有向无环图中的节点进行搜索的终止时间;设定采用深度Q学习算法对有向无环图中的节点进行搜索的最大搜索深度。
本实施例基于强化学习中的DQN算法,能够减少搜索特征空间所耗费的计算资源,提高搜索特征空间的效率,利用更少的计算资源获得更优的特征提取方案。
下面结合图6描述本公开特征提取装置的一些实施例。
图6示出了本公开一些实施例的特征提取装置的结构示意图。如图6所示,该实施例的特征提取装置60包括:存储器610以及耦接至该存储器610的处理器620,处理器620被配置为基于存储在存储器610中的指令,执行前述任意一些实施例中的特征提取方法。
其中,存储器610例如可以包括***存储器、固定非易失性存储介质等。***存储器例如存储有操作***、应用程序、引导装载程序(Boot Loader)以及其他程序等。
特征提取装置60还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630、640、650以及存储器610和处理器620之间例如可以通过总线660连接。其中,输入输出接口630为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口。存储接口650为SD卡、U盘等外置存储设备提供连接接口。
本公开还包括一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现前述任意一些实施例中的特征提取方法。
本公开是参照根据本公开实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (16)

1.一种特征提取方法,包括:
构建有向无环图;其中,有向无环图的边表示特征提取算子,有向无环图的根节点表示安全属性数据集,有向无环图的子节点表示利用特征提取算子对有向无环图的父节点进行处理得到的候选安全属性特征集,有向无环图的各个节点具有相同的数据数量;
在有向无环图中选择多个节点,利用安全属性数据集的各个安全级别标签、所述多个节点中各个节点所表示的候选安全属性特征集,分别训练机器学习模型并测试多个节点中各个节点所对应机器学习模型预测安全级别标签的准确率,并从所述多个节点中选择所述准确率最高的节点;
将所述准确率最高的节点所表示的候选安全属性特征集作为安全属性数据集的安全属性特征集,以利用所述安全属性特征集训练得到的机器学习模型预测目标安全属性数据的安全级别标签。
2.如权利要求1所述的特征提取方法,其中,特征提取算子的种类为多个;有向无环图中同一父节点的不同子节点,是分别利用各个种类的特征提取算子对有向无环图中的同一父节点进行处理得到的。
3.如权利要求2所述的特征提取方法,其中,特征提取算子包括正弦函数算子、对数算子、平方算子、特征级联算子、特征选取算子;其中,特征级联算子用于对有向无环图中不同的父节点所表示的候选安全属性特征集进行级联,特征选取算子用于选取有向无环图中父节点所表示的候选安全属性特征集的部分维度。
4.如权利要求1所述的特征提取方法,还包括:
确定有向无环图中根节点至目标节点的路径;
利用所述路径包含的各个边所表示的特征提取算子,确定将安全属性数据集处理为安全属性特征集所需的特征提取运算。
5.如权利要求1所述的特征提取方法,其中,采用深度Q学习算法,在有向无环图中选择多个节点,利用安全属性数据集的各个安全级别标签、所述多个节点中各个节点所表示的候选安全属性特征集,分别训练机器学习模型并测试多个节点中各个节点所对应机器学习模型预测安全级别标签的准确率,并从所述多个节点中选择所述准确率最高的节点。
6.如权利要求5所述的特征提取方法,其中,所述在有向无环图中选择多个节点,利用安全属性数据集的各个安全级别标签、所述多个节点中各个节点所表示的候选安全属性特征集,分别训练机器学习模型并测试多个节点中各个节点所对应机器学习模型预测安全级别标签的准确率,并从所述多个节点中选择所述准确率最高的节点包括:
按照有向无环图中边的方向,对有向无环图中的节点进行搜索;
将已搜索节点作为有向无环图的当前搜索状态;
将选择特征提取算子对已搜索节点进行处理得到未搜索节点作为当前动作;
利用当前搜索状态及当前动作,确定有向无环图的下一搜索状态;
确定当前动作的奖励,所述奖励与采用所述下一搜索状态中各节点所表示的候选安全属性特征集训练得到的机器学习模型预测安全级别标签的最高准确率呈正相关;
将所述当前搜索状态、当前动作、当前奖励以及下一搜索状态存储至深度Q学习算法的经验池,以便利用深度Q学习算法的经验池选择所述准确率最高的节点。
7.如权利要求5所述的特征提取方法,其中,所述在有向无环图中选择多个节点,利用安全属性数据集的各个安全级别标签、所述多个节点中各个节点所表示的候选安全属性特征集,分别训练机器学习模型并测试多个节点中各个节点所对应机器学习模型预测安全级别标签的准确率,并从所述多个节点中选择所述准确率最高的节点包括:
设定采用深度Q学习算法对有向无环图中的节点进行搜索的终止时间;
设定采用深度Q学习算法对有向无环图中的节点进行搜索的最大搜索深度。
8.一种特征提取装置,包括:
图构建模块,被配置为:构建有向无环图;其中,有向无环图的边表示特征提取算子,有向无环图的根节点表示安全属性数据集,有向无环图的子节点表示利用特征提取算子对有向无环图的父节点进行处理得到的候选安全属性特征集,有向无环图的各个节点具有相同的数据数量;
节点选择模块,被配置为:在有向无环图中选择多个节点,利用安全属性数据集的各个安全级别标签、所述多个节点中各个节点所表示的候选安全属性特征集,分别训练机器学习模型并测试多个节点中各个节点所对应机器学习模型预测安全级别标签的准确率,并从所述多个节点中选择所述准确率最高的节点;
特征集确定模块,被配置为:将所述准确率最高的节点所表示的候选安全属性特征集作为安全属性数据集的安全属性特征集,以利用所述安全属性特征集训练得到的机器学习模型预测目标安全属性数据的安全级别标签。
9.如权利要求8所述的特征提取装置,其中,特征提取算子的种类为多个;有向无环图中同一父节点的不同子节点,是分别利用各个种类的特征提取算子对有向无环图中的同一父节点进行处理得到的。
10.如权利要求9所述的特征提取装置,其中,特征提取算子包括正弦函数算子、对数算子、平方算子、特征级联算子、特征选取算子;其中,特征级联算子用于对有向无环图中不同的父节点所表示的候选安全属性特征集进行级联,特征选取算子用于选取有向无环图中父节点所表示的候选安全属性特征集的部分维度。
11.如权利要求8所述的特征提取装置,还包括运算确定模块,被配置为:
确定有向无环图中根节点至目标节点的路径;
利用所述路径包含的各个边所表示的特征提取算子,确定将安全属性数据集处理为安全属性特征集所需的特征提取运算。
12.如权利要求8所述的特征提取装置,其中,所述节点选择模块被配置为:采用深度Q学习算法,在有向无环图中选择多个节点,利用安全属性数据集的各个安全级别标签、所述多个节点中各个节点所表示的候选安全属性特征集,分别训练机器学习模型并测试多个节点中各个节点所对应机器学习模型预测安全级别标签的准确率,并从所述多个节点中选择所述准确率最高的节点。
13.如权利要求12所述的特征提取装置,其中,所述节点选择模块被配置为:
按照有向无环图中边的方向,对有向无环图中的节点进行搜索;
将已搜索节点作为有向无环图的当前搜索状态;
将选择特征提取算子对已搜索节点进行处理得到未搜索节点作为当前动作;
利用当前搜索状态及当前动作,确定有向无环图的下一搜索状态;
确定当前动作的奖励,所述奖励与采用所述下一搜索状态中各节点所表示的候选安全属性特征集训练得到的机器学习模型预测安全级别标签的最高准确率呈正相关;
将所述当前搜索状态、当前动作、当前奖励以及下一搜索状态存储至深度Q学习算法的经验池,以便利用深度Q学习算法的经验池选择所述准确率最高的节点。
14.如权利要求12所述的特征提取装置,其中,所述节点选择模块被配置为:
设定采用深度Q学习算法对有向无环图中的节点进行搜索的终止时间;
设定采用深度Q学习算法对有向无环图中的节点进行搜索的最大搜索深度。
15.一种特征提取装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1至7中任一项所述的特征提取方法。
16.一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行时实现如权利要求1至7中任一项所述的特征提取方法。
CN201911239628.6A 2019-12-06 2019-12-06 特征提取方法、装置及计算机可读存储介质 Active CN112926611B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911239628.6A CN112926611B (zh) 2019-12-06 2019-12-06 特征提取方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911239628.6A CN112926611B (zh) 2019-12-06 2019-12-06 特征提取方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112926611A true CN112926611A (zh) 2021-06-08
CN112926611B CN112926611B (zh) 2024-06-21

Family

ID=76162420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911239628.6A Active CN112926611B (zh) 2019-12-06 2019-12-06 特征提取方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112926611B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024000585A1 (zh) * 2022-07-01 2024-01-04 西门子股份公司 用于数据跟踪的数据处理方法、装置、***以及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102420723A (zh) * 2011-12-14 2012-04-18 南京邮电大学 一种面向多类入侵的异常检测方法
US20150379427A1 (en) * 2014-06-30 2015-12-31 Amazon Technologies, Inc. Feature processing tradeoff management
CN105765609A (zh) * 2013-11-13 2016-07-13 微软技术许可有限责任公司 使用有向无环图的存储器促进
US9524475B1 (en) * 2016-01-04 2016-12-20 International Business Machines Corporation Presenting discriminant change history records on topology graphs
US20180025092A1 (en) * 2016-07-21 2018-01-25 International Business Machines Corporation Modular memoization, tracking and train-data management of feature extraction
CN109242040A (zh) * 2018-09-28 2019-01-18 第四范式(北京)技术有限公司 自动生成组合特征的方法及***
CN109829375A (zh) * 2018-12-27 2019-05-31 深圳云天励飞技术有限公司 一种机器学习方法、装置、设备及***
CN110147925A (zh) * 2019-04-10 2019-08-20 阿里巴巴集团控股有限公司 一种风险决策方法、装置、设备及***

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102420723A (zh) * 2011-12-14 2012-04-18 南京邮电大学 一种面向多类入侵的异常检测方法
CN105765609A (zh) * 2013-11-13 2016-07-13 微软技术许可有限责任公司 使用有向无环图的存储器促进
US20150379427A1 (en) * 2014-06-30 2015-12-31 Amazon Technologies, Inc. Feature processing tradeoff management
US9524475B1 (en) * 2016-01-04 2016-12-20 International Business Machines Corporation Presenting discriminant change history records on topology graphs
US20180025092A1 (en) * 2016-07-21 2018-01-25 International Business Machines Corporation Modular memoization, tracking and train-data management of feature extraction
CN109242040A (zh) * 2018-09-28 2019-01-18 第四范式(北京)技术有限公司 自动生成组合特征的方法及***
CN109829375A (zh) * 2018-12-27 2019-05-31 深圳云天励飞技术有限公司 一种机器学习方法、装置、设备及***
CN110147925A (zh) * 2019-04-10 2019-08-20 阿里巴巴集团控股有限公司 一种风险决策方法、装置、设备及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张晓丹等: "基于有向无环图相关向量机的捣固车滚动轴承故障诊断", 化工自动化及仪表, vol. 46, no. 10 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024000585A1 (zh) * 2022-07-01 2024-01-04 西门子股份公司 用于数据跟踪的数据处理方法、装置、***以及电子设备

Also Published As

Publication number Publication date
CN112926611B (zh) 2024-06-21

Similar Documents

Publication Publication Date Title
Bansal et al. Holist: An environment for machine learning of higher order logic theorem proving
Kotthoff Algorithm selection for combinatorial search problems: A survey
Gagliolo et al. Learning dynamic algorithm portfolios
Leyton-Brown et al. Understanding the empirical hardness of NP-complete problems
KR20200014510A (ko) 기계 학습 기반의 예측 서비스 제공 방법 및 그 장치
CN111406264A (zh) 神经架构搜索
CN113361680A (zh) 一种神经网络架构搜索方法、装置、设备及介质
CN111260073A (zh) 数据处理方法、装置和计算机可读存储介质
CN110110858A (zh) 一种基于强化学习的自动化机器学习方法
Bansal et al. Holist: An environment for machine learning of higher-order theorem proving (extended version)
US20190228297A1 (en) Artificial Intelligence Modelling Engine
CN111598329A (zh) 基于自动化参数调整循环神经网络的时序数据预测方法
CN117744754B (zh) 大语言模型任务处理方法、装置、设备及介质
Agiollo et al. Shallow2Deep: Restraining neural networks opacity through neural architecture search
Hafeez et al. Empirical analysis and modeling of compute times of cnn operations on aws cloud
CN110222824B (zh) 智能算法模型自主生成及进化方法、***、装置
CN112926611B (zh) 特征提取方法、装置及计算机可读存储介质
CN116737334A (zh) 任务调度及数据集标签更新方法、装置和电子设备
CN116976491A (zh) 一种信息预测方法、装置、设备、存储介质及程序产品
Chen Comparing deep reinforcement learning methods for engineering applications
CN112052386B (zh) 信息推荐方法、装置和存储介质
Karampatziakis et al. Lessons from contextual bandit learning in a customer support bot
Koseler et al. Realization of a Machine Learning Domain Specific Modeling Language: A Baseball Analytics Case Study.
Saha et al. How Does User Behavior Evolve During Exploratory Visual Analysis?
Luckow et al. Monte Carlo tree search for finding costly paths in programs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: Jingdong Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant before: Jingdong Digital Technology Holding Co.,Ltd.

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: Jingdong Digital Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant before: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd.

GR01 Patent grant
GR01 Patent grant