CN111310915B - 一种面向强化学习的数据异常检测防御方法 - Google Patents

一种面向强化学习的数据异常检测防御方法 Download PDF

Info

Publication number
CN111310915B
CN111310915B CN202010071877.5A CN202010071877A CN111310915B CN 111310915 B CN111310915 B CN 111310915B CN 202010071877 A CN202010071877 A CN 202010071877A CN 111310915 B CN111310915 B CN 111310915B
Authority
CN
China
Prior art keywords
state data
driving state
data
network
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010071877.5A
Other languages
English (en)
Other versions
CN111310915A (zh
Inventor
陈晋音
章燕
王雪柯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010071877.5A priority Critical patent/CN111310915B/zh
Publication of CN111310915A publication Critical patent/CN111310915A/zh
Application granted granted Critical
Publication of CN111310915B publication Critical patent/CN111310915B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种面向强化学习的异常数据检测防御方法,包括:(1)搭建小车自动驾驶环境,并基于根据小车自动驾驶环境提供的状态数据,采用深度确定性策略梯度算法进行强化学习,生成驾驶状态数据作为训练样本;(2)利用所述训练样本训练由生成器和判别器组成的生成式对抗网络;(3)采集的驾驶状态数据,利用训练好的生成器生成根据当前时刻驾驶状态数据得到的下一时刻的预测驾驶状态数据;(4)利用训练好的判别器判别下一时刻的真实驾驶状态数据和预测驾驶状态数据是否正常,当下一刻的真实驾驶状态数据异常,预测驾驶状态数据正常,利用预测驾驶状态数据替换真实驾驶状态数据。

Description

一种面向强化学习的数据异常检测防御方法
技术领域
本发明属于面向强化学习的防御领域,具体涉及一种面向强化学习的异常数据检测防御方法。
背景技术
强化学习是近年来人工智能备受关注的方向之一,其基本思想是通过最大化智能体从环境中获取的累计奖励,从而学习最优策略以达到学习目的。但是,强化学习训练过程容易受到攻击,使得其训练集数据异常,影响了智能体在学习过程中对于决策的判断或者动作的选择,最终使智能体朝着失败的方向学习动作,这对于强化学习的决策安全应用领域是重大挑战。
目前,根据异常数据结构分布的特点,异常数据的检测防御方法可以大致分为两种。一种是对结构化数据的异常检测方法,其解决思想主要是通过与正常数据集差异较大的离群点,把离群点作为异常点。但是这种方法一般会面临两种问题:一是需要定义一个清晰地决策边界,从而界定正常点与异常点;二是维数灾难及交叉指标计算之间的高频计算性能瓶颈。随着研究的深入,该类异常数据检测主要通过图形位置分布、统计方法检测、距离检测、密度检测和矩阵分解检测等技术来界定正常点与异常点,以达到检测异常数据的目的。第二种是对非结构化数据的异常检测防御方法。该方法常见于图像识别任务,通过对图像目标检测,识别出异常(故障)点,该方法主要通过数字图像处理、RCNN、YOLO等和SSD目标检测算法来实现。
随着强化学习的快速发展和应用,强化学习已经在机器人控制、游戏博弈、计算机视觉、无人驾驶等领域被广泛使用。在异常数据检测领域,面向强化学习的检测防御技术还没有很多的新进展。因此,强化学习的异常数据检测成为了安全应用领域中的重要挑战。已有研究表明,通过决策中毒攻击可以通过改变训练集中的奖励来使决策发生改变,从而使训练集中的策略中毒,动作选取失误,最终使智能体达不到学习目的。这种攻击对于无人驾驶等安全决策领域的应用是十分致命的。
发明内容
本发明基于这种中毒攻击场景,提出了一种面向强化学习的异常数据检测防御方法。该防御方法基于双向生成式对抗网络(Generative Adversaria Networks,GAN)进行异常数据检测,通过比较正常数据样本和观测到的数据样本分布情况,来界定正常数据和异常数据,以达到异常数据检测的效果。
本发明的技术方案为:
一种面向强化学习的异常数据检测防御方法,包括以下步骤:
(1)搭建小车自动驾驶环境,并基于根据小车自动驾驶环境提供的状态数据,采用深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)进行强化学习,生成驾驶状态数据作为训练样本;
(2)利用所述训练样本训练由生成器和判别器组成的生成式对抗网络;
(3)采集驾驶状态数据,利用训练好的生成器生成根据当前时刻驾驶状态数据得到的下一时刻的预测驾驶状态数据;
(4)利用训练好的判别器判别下一时刻的真实驾驶状态数据和预测驾驶状态数据是否正常,当下一刻的真实驾驶状态数据异常,预测驾驶状态数据正常,利用预测驾驶状态数据替换真实驾驶状态数据。
优选地,所述采用深度确定性策略梯度算法进行强化学习生成驾驶状态数据包括:
利用主网络的主策略网络基于当前时刻的驾驶状态数据st产生动作at,并利用主网络的主价值Q网络计算动作at的奖励值rt,并将当前时刻的驾驶状态数据st、动作at、奖励值rt以及下一时刻的驾驶状态数据st+1存储到缓冲区内;
利用目标网络的目标价值Q网络根据缓冲区的奖励值rt和驾驶状态数据st+1计算累积奖励值r,根据奖励值和累积奖励值计算损失函数,利用损失函数更新主价值Q网络的参数;
根据参数更新后的主价值Q网络计算的动作at的更新价值和主策略网络产生的动作变化值计算累计奖励函数的梯度,利用该梯度来更新主策略网络的参数;
根据主策略网络参数和主价值Q网络参数采用软更新方式更新目标策略网络参数和目标价值Q网络参数。
优选地,所述生成器用于根据当前时刻的驾驶状态数据生成下一时刻的预测驾驶状态数据,所述生成器包括:生成器网络模型使用3层卷积神经网络结构作为隐层,隐层中使用批标准化(batch normalization),使用ReLU作为激活函数,最后一层使用tanh激活函数,生成器模型优化器使用Adam优化器。
优选地,所述判别器是一个二分类判别器,用于判别下一时刻的预测驾驶状态数据和下一时刻的真实驾驶状态数据的真伪。
步骤(4)中,若所述判别器的输出表示其来自于真实驾驶状态数据,则表明预测驾驶状态数据和真实驾驶状态数据相似,该真实驾驶状态数据有效。
步骤(4)中,若所述判别器的输出表示其来自于生成器输出的预测驾驶状态数据,则表明预测驾驶状态数据异于真实驾驶状态数据,则认为真实驾驶状态数据脱离之前的预测驾驶状态数据分布,则将该真实驾驶状态数据作为异常数据点处理,利用预测驾驶状态数据取代真实驾驶状态数据。
与现有技术相比,本发明具有的有益效果为:
通过GAN网络可以检测出正常状态数据样本的分布情况;在强化学习过程中,可以利用训练好的GAN网络针对当前状态数据生成下一个时刻的预测驾驶状态数据,该预测驾驶状态数据与真实驾驶状态数据分布相接近,将其和观测到的下一时刻真实驾驶状态数据进行判别来界定观测到的数据是否异常,该过程在训练过程就可实行,可及时替换掉异常状态数据。实现了对异常数据检测的防御。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是本发明实施例提供的面向强化学习的异常数据检测防御方法的流程图;
图2是本发明实施例提供的GAN网络的工作示意图;
图3是本发明实施例提供的利用训练好的GAN网络进行异常数据检测防御的工作流程图;
图4是本发明实施例提供的深度确定性策略梯度算法的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
参加图1~图4,实施例提供的一种面向强化学习的异常数据检测防御方法,包括以下步骤:
S101,搭建小车自动驾驶环境,并基于根据小车自动驾驶环境提供的状态数据,采用深度确定性策略梯度算法进行强化学习,生成驾驶状态数据作为训练样本。
搭建强化学习小车自动驾驶模拟环境;基于强化学习中的深度确定性决策梯度算法(DDPG)训练小车Player,Player的目标是尽可能快地安全到达目的地。
训练过程中,将状态转换过程(状态、动作、奖励、下一个状态)存储在经验回放缓冲区D中,作为训练数据集;从D中采样N个训练数据集,通过最小化实际累积的奖励函数和动作值Q函数之间的损失函数来更新主网络的主价值Q网路的网络参数;通过计算动作值函数的梯度来更新主网络的主策略网络的策略参数;通过软更新的方式来更新目标网络参数。
强化学习中的DDPG算法的核心是基于Actor-Critic方法、DQN算法和确定性策略梯度(DPG)延伸而来,采用了确定性策略μ来选取动作at=μ(stμ),其中at表示在t时刻的选择的动作,st表示在t时刻的状态,θμ是产生确定性动作的策略网络μ(s,θμ)的参数,以μ(s)来充当actor,θQ是价值Q网络Q(s,a,θQ)的参数,以Q(s,a)函数来充当critic。为提高训练稳定性,同时为策略网络和价值网络引入目标网络。其算法步骤如下:
(a)根据当前策略和探索噪声Nt(高斯分布)选择动作at=μ(stμ)+Nt,执行该动作at后,获取奖励rt和下一个状态st+1,将状态转换过程(st,at,rt,st+1)存到经验回放缓冲区D中;
(b)从D中采样小批量N个状态转换过程(si,ai,ri,si+1),通过最小化损失函数来更新价值网络中的的参数θQ
其中yi=ri+γQ′(si+1,μ′(si+1μ′)|θQ′),Qμ(si,ai)=E[r(si,ai)+γQμ(si+1,μ(si+1))],γ为衰减因子,取[0,1]之间的值。
(c)通过计算预期的累计奖励函数的梯度来更新策略网络中的策略参数θμ
(d)通过软更新的方式更新目标网络中目标价值Q网路和目标策略网络的参数θQ′和θμ′
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
S102,利用所述训练样本训练由生成器和判别器组成的生成式对抗网络。
从训练数据集中采集T个时刻正常的小车驾驶状态作为样本数据;
GAN的目的是使生成数据与目标数据分布(训练集数据所代表的的分布),其中判别器D可以当作一个二分类器,采用交叉熵来表示:
其中minmax表示纳什均衡中的最大最小目标函数,pdata(xs)为来自样本数据的分布,第一项中的logD(x)表示判别器对真实数据的判断,第二项log(1-D(x))则表示对生成数据的判断通过这样一个最大最小博弈过程,循环交替优化G和D来训练所需要的生成式网络和判别式网络,直至达到纳什均衡点。
具体的训练过程为:
2.1)将样本数据按一定的比例分为训练集和测试集;
2.2)将训练集中的正常小车驾驶状态数据分布xs输入到生成器G,生成器输出为下一时刻的状态数据x′s′
2.3)将步骤2.2)的输出x′s′和训练集中下一时刻的真实正常状态xs′输入到判别器D中;用判别器的输出y来判别其数据是来自于真实数据的概率,从而检验生成器的输出是否合格;
2.4)重复步骤2.2)-2.3),直到生成器生成的数据样本符合判别器的要求为止;
2.5)用测试集中的数据重复步骤2.2)-2.3),检测生成式对抗网络(GAN)是否能正确生成预测状态数据。
S103,采集驾驶状态数据,利用训练好的生成器生成根据当前时刻驾驶状态数据得到的下一时刻的预测驾驶状态数据。利用训练好的判别器判别下一时刻的真实驾驶状态数据和预测驾驶状态数据是否正常,当下一刻的真实驾驶状态数据异常,预测驾驶状态数据正常,利用预测驾驶状态数据替换真实驾驶状态数据。
具体过程为:
3.1)将T时刻数据集中的状态数据作为生成器的输入,利用训练好的GAN模型输出T+1时刻的预测状态数据/>该状态数据与之前的正常样本数据分布相似。
3.2)将T+1时刻的预测状态数据与T+1时刻强化学习过程中观测到的状态数据输入到判别器D中,检验判别器的输出y:
若判别器的输出表示其来自于真实状态数据,则表明预测状态数据和真实状态数据/>相似,即T+1时刻观测到的状态数据/>与之前的正常样本数据分布相似,该数据/>有效。
若判别器的输出表示其来自于生成器的输出数据,则表明预测状态数据异于真实状态数据/>即t+1时刻观测到的状态数据/>脱离之前的正常样本数据分布,则将该数据/>作为异常数据点处理,预测状态数据/>取代/>作为t+1时刻的状态数据存入训练数据集中;
3.3)重复步骤3.1)3.2),依次类推,继续检测T+2,T+3,...时刻的状态数据,直至将所有基于策略生成的状态数据检测完全。
上述异常数据检测防御方法在模拟小车自动驾驶的强化学习训练过程中,基于策略中毒的攻击方法会使学习者学习到一个错误的策略,从而选择一个不好的动作,使得学习者学习错误。基于此种情况,使用GAN来检测数据集中的状态数据是否异常。首先,利用正常的状态数据训练GAN网络,基于当前状态数据生成下一时刻的预测状态数据,与强化学习过程中下一时刻真实状态数据进行判别,检测该真实数据是否与之前的正常样本数据分布相似,以此来界定该数据是否异常。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种面向强化学习的异常数据检测防御方法,其特征在于,包括以下步骤:
(1)搭建小车自动驾驶环境,并基于根据小车自动驾驶环境提供的状态数据,采用深度确定性策略梯度算法进行强化学习,生成驾驶状态数据作为训练样本;
(2)利用所述训练样本训练由生成器和判别器组成的生成式对抗网络;
所述判别器是一个二分类判别器,采用交叉熵来表示,用于判别下一时刻的预测驾驶状态数据和下一时刻的真实驾驶状态数据的真伪;
训练时,从训练数据集中采集T个时刻正常的小车驾驶状态作为样本数据,交叉熵表示为:
其中minmax表示纳什均衡中的最大最小目标函数,pdata(xs)表示来自样本数据的分布,第一项中的logD(x)表示判别器对真实数据的判断,第二项log(1-D(x))表示对生成数据的判断通过这样一个最大最小博弈过程,循环交替优化生成器G和判别器D来训练所需要的生成式网络和判别式网络,直至达到纳什均衡点;
(3)采集驾驶状态数据,利用训练好的生成器生成根据当前时刻驾驶状态数据得到的下一时刻的预测驾驶状态数据;
(4)利用训练好的判别器判别下一时刻的真实驾驶状态数据和预测驾驶状态数据是否正常,当下一刻的真实驾驶状态数据异常,预测驾驶状态数据正常,利用预测驾驶状态数据替换真实驾驶状态数据,包括:
若所述判别器的输出表示其来自于真实驾驶状态数据,则表明预测驾驶状态数据和真实驾驶状态数据相似,该真实驾驶状态数据有效;
若所述判别器的输出表示其来自于生成器输出的预测驾驶状态数据,则表明预测驾驶状态数据异于真实驾驶状态数据,则认为真实驾驶状态数据脱离之前的预测驾驶状态数据分布,则将该真实驾驶状态数据作为异常数据点处理,利用预测驾驶状态数据取代真实驾驶状态数据。
2.如权利要求1所述的面向强化学习的异常数据检测防御方法,其特征在于,所述采用深度确定性策略梯度算法进行强化学习生成驾驶状态数据包括:
利用主网络的主策略网络基于当前时刻的驾驶状态数据st产生动作at,并利用主网络的主价值Q网络计算动作at的奖励值rt,并将当前时刻的驾驶状态数据st、动作at、奖励值rt以及下一时刻的驾驶状态数据st+1存储到缓冲区内;
利用目标网络的目标价值Q网络根据缓冲区的奖励值rt和驾驶状态数据st+1计算累积奖励值r,根据奖励值和累积奖励值计算损失函数,利用损失函数更新主价值Q网络的参数;
根据参数更新后的主价值Q网络计算的动作at的更新价值和主策略网络产生的动作变化值计算累计奖励函数的梯度,利用该梯度来更新主策略网络的参数;
根据主策略网络参数和主价值Q网络参数采用软更新方式更新目标策略网络参数和目标价值Q网络参数。
3.如权利要求1所述的面向强化学习的异常数据检测防御方法,其特征在于,所述生成器用于根据当前时刻的驾驶状态数据生成下一时刻的预测驾驶状态数据,所述生成器包括:生成器网络模型使用3层卷积神经网络结构作为隐层,隐层中使用批标准化,使用ReLU作为激活函数,最后一层使用tanh激活函数,生成器模型优化器使用Adam优化器。
CN202010071877.5A 2020-01-21 2020-01-21 一种面向强化学习的数据异常检测防御方法 Active CN111310915B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010071877.5A CN111310915B (zh) 2020-01-21 2020-01-21 一种面向强化学习的数据异常检测防御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010071877.5A CN111310915B (zh) 2020-01-21 2020-01-21 一种面向强化学习的数据异常检测防御方法

Publications (2)

Publication Number Publication Date
CN111310915A CN111310915A (zh) 2020-06-19
CN111310915B true CN111310915B (zh) 2023-09-01

Family

ID=71161599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010071877.5A Active CN111310915B (zh) 2020-01-21 2020-01-21 一种面向强化学习的数据异常检测防御方法

Country Status (1)

Country Link
CN (1) CN111310915B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112311733A (zh) * 2019-07-30 2021-02-02 四川大学 一种基于强化学习优化xss检测模型防御对抗攻击的方法
CN111753300B (zh) * 2020-06-29 2024-03-19 浙江工业大学 面向强化学习的检测防御异常数据方法和装置
CN111731326B (zh) * 2020-07-02 2022-06-21 知行汽车科技(苏州)有限公司 避障策略确定方法、装置及存储介质
JP2022041294A (ja) * 2020-08-31 2022-03-11 オムロン株式会社 学習装置、学習方法、学習プログラム、制御装置、制御方法、及び制御プログラム
CN112052456B (zh) * 2020-08-31 2024-07-19 浙江工业大学 基于多智能体的深度强化学习策略优化防御方法
CN112099496B (zh) * 2020-09-08 2023-03-21 苏州浪潮智能科技有限公司 一种自动驾驶训练方法、装置、设备及介质
CN112254274A (zh) * 2020-10-21 2021-01-22 上海协格空调工程有限公司 基于机器学习技术的空调故障识别***
CN112417771A (zh) * 2020-12-10 2021-02-26 华中科技大学 机床主轴故障诊断模型建立方法及机床主轴故障诊断方法
CN112904852B (zh) * 2021-01-18 2021-09-17 国汽智控(北京)科技有限公司 一种自动驾驶控制方法、装置及电子设备
CN112884131A (zh) * 2021-03-16 2021-06-01 浙江工业大学 一种基于模仿学习的深度强化学习策略优化防御方法和装置
CN112884130A (zh) * 2021-03-16 2021-06-01 浙江工业大学 一种基于SeqGAN的深度强化学习数据增强防御方法和装置
CN113079167B (zh) * 2021-04-12 2022-02-22 西北工业大学 一种基于深度强化学习的车联网入侵检测方法及***
CN113298252B (zh) * 2021-05-31 2024-02-13 浙江工业大学 一种面向深度强化学习的策略异常检测方法和装置
CN113420326B (zh) * 2021-06-08 2022-06-21 浙江工业大学之江学院 面向深度强化学习的模型隐私保护方法和***
CN113392396B (zh) * 2021-06-11 2022-10-14 浙江工业大学 面向深度强化学习的策略保护防御方法
CN113485313A (zh) * 2021-06-25 2021-10-08 杭州玳数科技有限公司 自动驾驶车辆的抗干扰方法和装置
CN113746800A (zh) * 2021-07-29 2021-12-03 北京七壹技术开发有限公司 一种智能多平台协同防御方法及***
CN114048834B (zh) * 2021-11-05 2023-01-17 哈尔滨工业大学(深圳) 基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置
CN113780482A (zh) * 2021-11-12 2021-12-10 中国科学院理化技术研究所 一种能量路由器异常智能检测方法
CN115009291B (zh) * 2022-05-23 2023-05-23 暨南大学 基于网络演化重放缓冲区的自动驾驶辅助决策方法及***

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734276A (zh) * 2018-04-28 2018-11-02 同济大学 一种基于对抗生成网络的模仿学习对话生成方法
CN108819948A (zh) * 2018-06-25 2018-11-16 大连大学 基于逆向强化学习的驾驶员行为建模方法
CN108923922A (zh) * 2018-07-26 2018-11-30 北京工商大学 一种基于生成对抗网络的文本隐写方法
CN109242207A (zh) * 2018-10-10 2019-01-18 中山大学 一种基于深度强化学习的金融时序数据预测方法
CN109318897A (zh) * 2018-10-08 2019-02-12 苏州大学 基于自动推理机制的接管巡航方法及***
CN109376862A (zh) * 2018-10-29 2019-02-22 中国石油大学(华东) 一种基于生成对抗网络的时间序列生成方法
CN109493599A (zh) * 2018-11-16 2019-03-19 南京航空航天大学 一种基于生成式对抗网络的短时交通流预测方法
CN109886403A (zh) * 2019-01-28 2019-06-14 中国石油大学(华东) 一种基于神经网络模型的工业数据生成方法
CN109947567A (zh) * 2019-03-14 2019-06-28 深圳先进技术研究院 一种多智能体强化学习调度方法、***及电子设备
CN109993222A (zh) * 2019-03-25 2019-07-09 中国科学院上海高等研究院 数据异常检测***及方法
CN110046712A (zh) * 2019-04-04 2019-07-23 天津科技大学 基于生成模型的隐空间模型化策略搜索学习方法
WO2019171060A1 (en) * 2018-03-06 2019-09-12 Latent Logic Ltd Control policy determination method and system
CN110309861A (zh) * 2019-06-10 2019-10-08 浙江大学 一种基于生成对抗网络的多模态人类活动识别方法
CN110489707A (zh) * 2019-08-22 2019-11-22 苏州科技大学 一种基于gan网络的机器人逆运动学求解方法
EP3576020A1 (en) * 2018-05-30 2019-12-04 Siemens Healthcare GmbH Methods for generating synthetic training data and for training deep learning algorithms for tumor lesion characterization, method and system for tumor lesion characterization, computer program and electronically readable storage medium
KR20190134966A (ko) * 2018-11-30 2019-12-05 남기헌 정책망 및 가치망을 이용한 온라인 쇼핑몰에서의 프로모션 성과 예측 및 추천 장치
CN110637308A (zh) * 2017-05-10 2019-12-31 瑞典爱立信有限公司 用于虚拟化环境中的自学习代理的预训练***
CN110647839A (zh) * 2019-09-18 2020-01-03 深圳信息职业技术学院 自动驾驶策略的生成方法、装置及计算机可读存储介质
CN110705376A (zh) * 2019-09-11 2020-01-17 南京邮电大学 一种基于生成式对抗网络的异常行为检测方法

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110637308A (zh) * 2017-05-10 2019-12-31 瑞典爱立信有限公司 用于虚拟化环境中的自学习代理的预训练***
WO2019171060A1 (en) * 2018-03-06 2019-09-12 Latent Logic Ltd Control policy determination method and system
CN108734276A (zh) * 2018-04-28 2018-11-02 同济大学 一种基于对抗生成网络的模仿学习对话生成方法
EP3576020A1 (en) * 2018-05-30 2019-12-04 Siemens Healthcare GmbH Methods for generating synthetic training data and for training deep learning algorithms for tumor lesion characterization, method and system for tumor lesion characterization, computer program and electronically readable storage medium
CN108819948A (zh) * 2018-06-25 2018-11-16 大连大学 基于逆向强化学习的驾驶员行为建模方法
CN108923922A (zh) * 2018-07-26 2018-11-30 北京工商大学 一种基于生成对抗网络的文本隐写方法
CN109318897A (zh) * 2018-10-08 2019-02-12 苏州大学 基于自动推理机制的接管巡航方法及***
CN109242207A (zh) * 2018-10-10 2019-01-18 中山大学 一种基于深度强化学习的金融时序数据预测方法
CN109376862A (zh) * 2018-10-29 2019-02-22 中国石油大学(华东) 一种基于生成对抗网络的时间序列生成方法
CN109493599A (zh) * 2018-11-16 2019-03-19 南京航空航天大学 一种基于生成式对抗网络的短时交通流预测方法
KR20190134966A (ko) * 2018-11-30 2019-12-05 남기헌 정책망 및 가치망을 이용한 온라인 쇼핑몰에서의 프로모션 성과 예측 및 추천 장치
CN109886403A (zh) * 2019-01-28 2019-06-14 中国石油大学(华东) 一种基于神经网络模型的工业数据生成方法
CN109947567A (zh) * 2019-03-14 2019-06-28 深圳先进技术研究院 一种多智能体强化学习调度方法、***及电子设备
CN109993222A (zh) * 2019-03-25 2019-07-09 中国科学院上海高等研究院 数据异常检测***及方法
CN110046712A (zh) * 2019-04-04 2019-07-23 天津科技大学 基于生成模型的隐空间模型化策略搜索学习方法
CN110309861A (zh) * 2019-06-10 2019-10-08 浙江大学 一种基于生成对抗网络的多模态人类活动识别方法
CN110489707A (zh) * 2019-08-22 2019-11-22 苏州科技大学 一种基于gan网络的机器人逆运动学求解方法
CN110705376A (zh) * 2019-09-11 2020-01-17 南京邮电大学 一种基于生成式对抗网络的异常行为检测方法
CN110647839A (zh) * 2019-09-18 2020-01-03 深圳信息职业技术学院 自动驾驶策略的生成方法、装置及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Parallel driving in CPSS: A unified approach for transport automation and vehicle intelligence;Wang F Y, et al.;《IEEE/CAA Journal of Automatica Sinica》;全文 *

Also Published As

Publication number Publication date
CN111310915A (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
CN111310915B (zh) 一种面向强化学习的数据异常检测防御方法
CN112052456B (zh) 基于多智能体的深度强化学习策略优化防御方法
CN109067773B (zh) 一种基于神经网络的车载can网络入侵检测方法及***
CN109800875A (zh) 基于粒子群优化和降噪稀疏编码机的化工故障检测方法
CN112884131A (zh) 一种基于模仿学习的深度强化学习策略优化防御方法和装置
CN113204745B (zh) 基于模型剪枝和逆向工程的深度学习后门防御方法
CN113298252B (zh) 一种面向深度强化学习的策略异常检测方法和装置
CN112884130A (zh) 一种基于SeqGAN的深度强化学习数据增强防御方法和装置
CN111753300B (zh) 面向强化学习的检测防御异常数据方法和装置
CN113255936A (zh) 基于模仿学习和注意力机制的深度强化学习策略保护防御方法和装置
CN113392396A (zh) 面向深度强化学习的策略保护防御方法
CN108594793A (zh) 一种改进的rbf飞控***故障诊断网络训练方法
CN110807291B (zh) 一种基于拟态对抗学习机制的现场态势未来引导技术
CN116244647A (zh) 一种无人机集群的运行状态估计方法
Park et al. Source term estimation using deep reinforcement learning with Gaussian mixture model feature extraction for mobile sensors
CN115938104A (zh) 一种动态短时路网交通状态预测模型及预测方法
Pang et al. Autonomous control of a particle accelerator using deep reinforcement learning
CN116938771A (zh) 一种网络异常流量检测方法及装置
CN115861625A (zh) 一种处理噪声标签的自标签修改方法
CN115438786A (zh) 基于样本驱动目标损失函数优化的鲁棒神经网络训练方法
CN115905861A (zh) 一种基于多级算子变异的强化学习框架安全性检测方法
CN109658742B (zh) 基于前序飞行信息的密集飞行自主冲突解脱方法
CN113485313A (zh) 自动驾驶车辆的抗干扰方法和装置
CN114139601A (zh) 一种对电力巡检场景人工智能算法模型的评估方法及***
Gu et al. A game theory approach to attack-defense strategy for perception of connected vehicles

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant