CN115408813A

CN115408813A - 基于深度强化学习的涂装轨迹智能规划方法

Info

Publication number: CN115408813A
Application number: CN202210831277.3A
Authority: CN
Inventors: 王国磊; 李亚昕; 张剑辉; 刘兴杰; 徐嵩; 艾嘉文; 吴丹
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-11-29

Abstract

本发明涉及人工智能技术领域，揭露一种基于深度强化学习的涂装轨迹智能规划方法，通过将喷涂过程抽象为马尔科夫决策过程，利用喷涂过程中喷枪与仿真环境的交互，使得涂装轨迹的确定与待喷涂工件表面的实时状态息息相关；本发明的基于深度强化学习的涂装轨迹智能规划方法综合考虑了喷涂过程中的工艺参数和喷涂轨迹的耦合影响，有效获取最优的涂装轨迹，有效地解决了改善复杂曲面的涂层厚度控制和喷涂轨迹计算的问题。

Description

基于深度强化学习的涂装轨迹智能规划方法

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于深度强化学习的涂装轨迹智能规划方法、装置及计算机可读存储介质。

背景技术

自1959年工业机器人研制成功后，工业机器人因其高速度、高精度、可重复性的特点逐渐取代了各类生产活动中的人力作业。相较于传统的人工喷涂，使用机器人进行自动化喷涂可以解决人工喷涂中难以控制涂层厚度偏差、难以提高作业效率、难以规避有毒溶剂带来的人体伤害等问题。喷涂机器人自推向市场后发展迅速，被广泛应用于航天、汽车等工业制造领域中。

由于航空航天等工业产品大多尺寸庞大、涂料种类特殊，且具有工艺过程复杂、生产模式多变的特点，对智能喷涂工艺提出了更高的要求，需要基于现有喷涂装置和外部环境，选择最优的喷涂参数和最佳的喷涂轨迹。

现有技术中，智能喷涂过程中的涂装参数和轨迹多采用工艺试验法或通过过求解以工件表面涂层厚度均匀性为优化目标的优化模型来进行确定。其中，工艺实验法因需要耗费大量的人力物力，且流程复杂，难以满足实时性和安全性的需要。目前，针对优化模型的常用的优化算法有粒子群算法、遗传算法、模拟退火算法等。然而，上述上述传统算法存在的弊端如下：

1)具有收敛速度慢、控制变量多等问题；

2)在对优化问题进行求解之前，需要获取所有可能的轨迹，是针对已知轨迹的参数寻优方法，具有求解效率低，难以获得全局最优解，没有综合考虑喷涂轨迹和工艺参数之间的组合优化，泛化能力差，不具备通用性的问题。

因此，亟需一种能够综合考虑喷涂工艺参数和喷涂轨迹优化的影响的涂装轨迹智能规划方法。

发明内容

本发明提供一种基于深度强化学习的涂装轨迹智能规划方法、***、电子设备及存储介质，以解决现有的技术中的至少一个问题。

为实现上述目的，本发明提供的一种基于深度强化学习的涂装轨迹智能规划方法，应用于电子装置，包括：

获取待喷涂工件的模型数据，并按照预设的涂装精度标准对待喷涂工件的模型进行格栅化划分，将某一时刻的所有格栅内全部点云涂层厚度的均值进行向量排列，获得初始化的状态向量；

将初始化状态向量输入预训练好的基于深度强化学习的涂装控制策略模型，获取喷涂动作向量；并根据喷涂动作向量，确定下一时刻的喷涂轨迹；

在仿真环境下，按照喷涂动作向量所对应的下一时刻的喷涂轨迹执行喷涂动作，利用漆膜厚度沉积模型，确定每条喷涂轨迹对待喷涂工件的漆膜厚度分布情况的影响；

根据每条喷涂轨迹对待喷涂工件的漆膜厚度分布情况的影响，更新下一时刻的状态向量；

根据下一时刻的状态向量，利用预训练好的基于深度强化学习的涂装控制策略模型确定喷涂动作向量所对应的下一时刻的喷涂轨迹；

循环执行，直至确定喷涂过程中每一时刻的状态向量、喷涂动作向量以及喷涂动作向量所对应的喷涂轨迹。

进一步，优选的，通过设定最大迭代次数，对基于深度强化学习的涂装控制策略模型进行迭代训练，迭代训练的方法包括：

随机初始化基于深度强化学习的涂装控制策略模型的参数，初始化网络训练迭代次数为1，并清空深度强化学习的经验回放池；其中，基于深度强化学习的涂装控制策略模型包括以mn维状态向量s为输入，l维动作向量a为输出的Actor网络和Actor_target网络，以及，以l维动作向量a为输入，数值Q为输出的Critic网络和Critic_target网络；其中，Critic网络和Critic_target网络各包括两个网络；基于深度强化学习的涂装控制策略模型的参数包括Actor网络的参数、Actor_target网络的参数、Critic网络的参数和Critic_target网络的参数；所述Actor_target网络的参数通过复制对应的Actor_target网络的参数得到，Critic_target网络的参数通过复制对应的Critic网络的参数得到；

更新状态向量s_t，基于状态向量s_t获取Actor网络的输出喷涂动作向量a_t；

基于喷涂动作向量a_t计算喷涂动作向量对应的喷涂轨迹T，利用漆膜厚度沉积模型更新待喷涂工件的漆膜厚度分布情况，得到状态向量s_t+1；

基于状态向量s_t+1和奖励函数R计算实时奖励reward；并以s_tb＝done是否成立，判断喷涂过程是否终止；

根据所获取的状态向量s_t、喷涂动作向量a_t、动状态向量s_t+1和实时奖励reward，确定集合{s_t,a_t,s_t+1,reward,s_tb}；

将集合{s_t,a_t,s_t+1,reward,s_tb}存入深度学习的经验回放池D，令t＝t+1，循环执行，直至达到经验回放池D的最大容量；

从经验回放池D中进行m次随机采样，获得{s_j,a_j,s_j+1,reward,s_jb}，j＝1,2,...,m，计算当前策略π下理论Q值；

使用均方差损失函数，通过神经网络的梯度反向传播对Critic网络的参数ω进行更新；

当迭代次数为延迟更新基数d的整数倍时，使用损失函数通过神经网络的梯度反向传播对Actor网络的参数θ进行更新，并将更新后的Critic网络的参数和Actor网络的参数分别复制给对应的Critic_target网络和Actor_target网络；

进行迭代训练，直至达到设定最大迭代次数；获得训练好的基于深度强化学习的涂装控制策略模型。

进一步，优选的，状态向量s＝(ω₀,ω₁,ω₂,...,ω_mn-1)^T，ω_i表示数组下标为i的点云簇中所有数据点的漆膜厚度δ的平均值；

其中，点云簇Ω中数据点Ω_k处漆膜厚度δ通过以下步骤获取：

计算喷枪在轨迹点T_i的停留时间t；

以轨迹点T_i为原点，构建局部坐标系Γ_local和漆膜厚度沉积模型，寻找点云簇Ω中位于涂覆面积中的数据点Ω_k，计算数据点Ω_k在时间t内获得的漆膜沉积厚度δ_k；

分别计算轨迹T中各轨迹点对数据点Ω_k所产生的的漆膜沉积厚度δ_k，则，最终的漆膜厚度δ为：δ＝∑δ_k。

进一步，优选的，漆膜厚度沉积模型为由平面涂层厚度模型转换得到的自由曲面涂层厚度分布模型；

由平面涂层厚度模型转换得到的自由曲面涂层厚度分布模型，通过以下公式实现：

其中，q_Ω表示当前喷涂范围内点云簇Ω表面的数据点Ω_i的涂层厚度沉积速率，q_t表示基准平面的涂层厚度沉积速率，x,y表示数据点Ω_i的坐标描述；d表示喷枪中心点到理论平面的距离高度，d'为喷枪中心点到基准平面的距离高度，α表示数据点Ω_i切平面法矢n与喷枪轴线方向的夹角，θ表示喷枪轴线与垂线段方向的夹角；a₀,b₀分别表示理论平面上喷涂椭圆的长短轴的长度，q_max表示理论平面的涂层沉积率系数，β₁,β₂表示沉积模型分布系数。

进一步，优选的，获取待喷涂工件的模型数据，并按照预设的精度标准对待喷涂工件进行格栅化划分的方法，包括，

获取待喷涂工件的模型数据；其中，模型数据为点云数据或CAD模型数据；

根据待喷涂工件的模型数据，利用视觉传感器获取待喷涂工件的三维空间的点云数据，或将所述CAD模型数据转换为点云数据；

按照精度需求确定分割的间隔尺寸，按照分割的间隔尺寸将待喷涂工件进行m×n栅格化划分，并反向映射至三维空间的点云数据中；

将三维空间的点云数据分割为m×n的点云簇，每个栅格对应一个数组，每个数组包含当前栅格内包含的点云数据点的编号。

进一步，优选的，通过基于策略π的状态价值函数获取当前策略π下理论Q值；基于策略π的状态价值函数v_π(s)通过以下公式实现：

v_π(s)＝E_π(G_t|S_t＝s)

＝E_π(R_t+1+γR_t+2+γ²R_t+3+...|S_t＝s)

＝E_π(R_t+1+γ(R_t+2+γR_t+3+...)|S_t＝s)

＝E_π(R_t+1+γv_π(s_t+1)|S_t＝s)

＝E_π(R_t+1|S_t＝s)+γE(v_π(s_t+1)|S_t＝s)

其中，R为状态s下的下一时刻所能获得的奖励期望，γ为折扣因子。

进一步，优选的，基于状态向量s_t+1和奖励函数R计算实时奖励reward，通过以下公式实现：

Id_begin＝0

其中，Ω_{min_x}表示点云簇Ω在坐标轴X方向上的最小值，T_ix表示对应轨迹点在空间坐标系Γ下的X坐标，δ_s表示理想漆膜厚度，δ_ij表示仿真模型下数组下标为i的数据点j的漆膜厚度，λ₁、λ₂表示奖励函数系数。

为了解决上述问题，本发明还提供一种基于深度强化学习的涂装轨迹智能规划***，包括：

数据获取单元，用于获取待喷涂工件的模型数据，并按照预设的涂装精度标准对待喷涂工件的模型进行格栅化划分，将某一时刻的所有格栅内全部点云涂层厚度的均值进行向量排列，获得初始化的状态向量；

状态向量更新单元，用于将初始化状态向量输入预训练好的基于深度强化学习的涂装控制策略模型，获取喷涂动作向量；并根据喷涂动作向量，确定下一时刻的喷涂轨迹；

执行单元，用于循环执行，直至确定喷涂过程中每一时刻的状态向量、喷涂动作向量以及喷涂动作向量所对应的喷涂轨迹。

为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述的基于深度强化学习的涂装轨迹智能规划方法中的步骤。

为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现上述所述的基于深度强化学习的涂装轨迹智能规划方法。

本发明提供的上述基于深度强化学习的涂装轨迹智能规划方法，在涂料沉积模型的基础上，将喷涂过程抽象为马尔科夫决策过程，利用喷涂过程中喷枪和仿真环境的交互，使得喷涂轨迹的确定与待喷涂工件表面的实时状态息息相关；通过考虑局部奖励和全局奖励，并把学习最优执行策略以达成漆膜厚度分布均匀的目标，使得本发明的基于深度强化学习的涂装轨迹智能规划方法区别于传统的基于已知轨迹的参数寻优流程，综合考虑了喷涂过程中的工艺参数和喷涂轨迹的耦合影响；达到了有效获取最优的涂装轨迹，有效地改善复杂曲面的涂层厚度控制和喷涂轨迹计算的问题的技术效果。

附图说明

图1为根据本发明实施例的基于深度强化学习的涂装轨迹智能规划方法的流程示意图；

图2为根据本发明实施例的基于采样法将CAD模型转换为三维空间点云数据的原理示意图；

图3为根据本发明实施例的对待喷涂的点云进行栅格化划分的原理示意图；

图4为根据本发明实施例的基于深度强化学习的涂装控制策略模型的模型参数训练原理示意图；

图5为现有技术中平面涂层厚度沉积分布模型的原理示意图；

图6为根据本发明实施例的自由曲面涂层厚度沉积分布模型的原理示意图；

图7为根据本发明实施例的基于切片法获取喷涂轨迹的原理示意图；

图8根据本发明实施例的基于深度强化学习的涂装轨迹智能规划***的逻辑结构框图；

图9为根据本发明实施例的实现基于深度强化学习的涂装轨迹智能规划方法的电子设备的内部结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。本发明中的人工智能软件技术为数字孪生模型的机器学习技术。

深度强化学习(Deep Reinforcement Learning，DRL)是将深度学习与强化学习结合起来从而实现从感知(Perception)到动作(Action)的端对端(End-to-end)学习的一种全新的算法。强化学习***具有四个主要元素：策略、回报函数、值函数和***的任选模型。该策略主要是当其将***的感知状态映射到动作时有兴趣查找的内容。回报函数将问题的目标定义为状态(或状态-动作对)之间的映射以及捕获情形期望性的单个数值回报。该***的目标是识别使回报最大化的策略。值函数是对从用于制定策略的当前状态可实现的未来回报的预测。任选的模型是可用于规划目的的环境的近似值。

针对现有技术中存在的没有综合考虑喷涂轨迹和工艺参数之间的组合优化，泛化能力差，不具备通用性的问题，本发明将喷涂过程抽象为马尔科夫决策过程，利用喷涂过程中喷枪与仿真环境的交互，使得涂装轨迹的确定与待喷涂工件表面的实时状态息息相关；本发明的基于深度强化学习的涂装轨迹智能规划方法综合考虑了喷涂过程中的工艺参数和喷涂轨迹的耦合影响，实现了有效获取最优的涂装轨迹，有效地改善复杂曲面的涂层厚度控制和喷涂轨迹计算的问题。

具体的，作为示例，图1为本发明一实施例提供的基于深度强化学习的涂装轨迹智能规划方法的流程示意图。参照图1所示，本发明提供一种基于深度强化学习的涂装轨迹智能规划方法，该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，基于深度强化学习的涂装轨迹智能规划方法包括：步骤S110～S150。

S110、获取待喷涂工件的模型数据，并按照预设的涂装精度标准对待喷涂工件的模型进行格栅化划分，将某一时刻的所有格栅内全部点云涂层厚度的均值进行向量排列，获得初始化的状态向量。

需要说明的是，在具体的实施过程中，视觉传感器可以但不限制于为激光雷达或扫描仪。对于利用视觉传感器获取待喷涂工件的三维空间的点云数据，具体为X、Y、Z数据点。

图2为根据本发明实施例的基于采样法将CAD模型转换为三维空间点云数据的原理示意图；如图2所示，对于不便采集的数据或已有CAD模型的工件，可以通过但不限于均匀采样等采样方式将CAD模型转换为三维空间点云数据，具体为X、Y、Z数据点。

具体地说，获取待喷涂工件的模型数据，并按照预设的精度标准对待喷涂工件进行格栅化划分的方法包括，获取待喷涂工件的模型数据；其中，模型数据为点云数据或CAD模型数据；根据待喷涂工件的模型数据，利用视觉传感器获取待喷涂工件的三维空间的点云数据，或将所述CAD模型数据转换为点云数据；按照精度需求确定分割的间隔尺寸，按照分割的间隔尺寸将待喷涂工件进行m×n栅格化划分，并反向映射至三维空间的点云数据中；将三维空间的点云数据分割为m×n的点云簇，每个栅格对应一个数组，每个数组包含当前栅格内包含的点云数据点的编号。

也就是说，将待喷涂工件按照精度需求进行栅格化划分，可以使用但不限于主成分分析等方式；在具体的实施过程中，通过计算待喷涂工件的几何主方向和姿态变换中心点，以几何主方向作为Z轴，以姿态变换中心点作为坐标原点构建三维空间坐标系Γ。如图2所示，按照间隔Ix,Iy将XOY投影区域分割为m×n的栅格区域，并反向映射至三维空间的点云数据中，将点云数据分割为m×n的点云簇，每个栅格对应一个数组，每个数组包含当前栅格内包含的点云数据点的编号。

点云簇Ω中数据点Ω_i所属数组下标Id的通过以下公式获取：

Id＝Idy×m+Idx

其中，Ω_ix、Ω_iy分别表示数据点Ω_i的在坐标轴X、Y方向上的坐标值，Ω_{min_x}、Ω_{min_y}分别表示点云簇Ω在坐标轴X、Y方向上的最小值，符号[]表示向下取整函数。

在按照预设的涂装精度标准对待喷涂工件的模型进行格栅化划分之后，将某一时刻的所有格栅内全部点云涂层厚度的均值进行向量排列，获得初始化的状态向量。

具体地说，状态向量s＝(ω₀,ω₁,ω₂,...,ω_mn-1)^T，ω_i表示数组下标为i的栅格中所有数据点的漆膜厚度平均值，即：

S120、将初始化状态向量输入预训练好的基于深度强化学习的涂装控制策略模型，获取喷涂动作向量；并根据喷涂动作向量，确定下一时刻的喷涂轨迹。

将喷涂过程抽象为马尔科夫奖励决策过程，并建立以喷涂距离、喷涂速度、搭接间距等可变参数作为自变量的Action向量，同时建立以全局性漆膜厚度分布和局部性漆膜厚度影响为自变量的Reward函数；基于深度强化学习模型和不同Action向量输入下仿真环境中涂层漆膜的厚度分布变化情况，根据损失函数对Actor和Critic等网络参数进行更新，并将更新后的Critic网络的参数和Actor网络的参数分别复制给对应的Critic_target网络和Actor_target网络。

需要说明的是，喷涂动作向量可以但不限制与包括喷涂距离、喷涂速度、搭接间距等参数。

图4为根据本发明实施例的基于深度强化学习的涂装控制策略模型的模型参数训练原理示意图；如图4所示，基于深度强化学习的涂装控制策略模型包括两个当前网络(Main Net)以及两个目标网络(Target Net)；其中，当前网络包括Actor网络和Critic网络；而目标网络包括Actor_target网络和Critic_target网络。也就是说，基于深度强化学习的涂装控制策略模型包括以mn维状态向量s为输入，l维动作向量a为输出的Actor网络和Actor_target网络，和以l维动作向量a为输入，数值Q为输出的Critic网络和Critic_target网络；其中，所述的Critic网络和Critic-Target网络各包含两个网络，即Critic网络1和Critic网络2，Critic-Target网络1，Critic_Target网络2，其中，Critic_target网络的参数复制对应编号的Critic网络得到。Actor_Target网络的参数也是复制Actor网络得到。基于深度强化学习的涂装控制策略模型的参数包括Actor网络参数、Actor_target网络参数、Critic网络参数和Critic_target网络参数。

经验回放池的功能主要是解决模型训练过程中相关性及非静态分布问题。具体做法是把每个时间步agent与环境交互得到的转移样本{s_j,a_j,s_j+1,reward,s_jb}储存到回放记忆单元，要训练时就随机拿出一些(minibatch)来训练(其实就是将训练的过程打成碎片存储，训练时随机抽取就避免了相关性问题)。

使用均方差损失函数，通过神经网络的梯度反向传播对Critic网络的参数ω进行更新；使用

损失函数，通过神经网络的梯度反向传播对Actor网络的参数θ进行更新。

通过设置目标网络，具体地，Q(a_j)表示当前网络(Main Net)的输出，用来评估当前状态动作对的值函数；Q(a_j+1)表示目标网络(Target Net)的输出，用以得到目标Q值。利用各自的损失函数更新当前网络(Main Net)的参数，每经过N轮迭代，将当前网络(MainNet)的参数复制给目标网络(Target Net)，也就是定时更新目标网络(Target Net)的参数。在一定程度降低了当前Q值和目标Q值的相关性，提高了算法稳定性。

在一个具体的实施例中，通过设定最大迭代次数，对基于深度强化学习的涂装控制策略模型进行迭代训练，迭代训练的方法包括步骤S121-S128。

S121、随机初始化基于深度强化学习的涂装控制策略模型的参数θ,θ',ω,ω'，初始化网络训练迭代次数为1，并清空深度强化学习的经验回放池D；需要说明的是，对于网络更新速率也进行初始化，一般设定为0.001；而训练回合数也初始化为1，初始化训练时刻t＝1；

S122、更新状态向量s_t，基于状态向量s_t获取Actor网络的输出喷涂动作向量a_t；其中，需要说明的是状态向量s_t为随机状态向量。

S123、基于喷涂动作向量a_t计算喷涂动作向量对应的喷涂轨迹T，利用漆膜厚度沉积模型更新待喷涂工件的漆膜厚度分布情况，得到状态向量s_t+1；

S124、基于状态向量s_t+1和奖励函数R计算实时奖励reward；并以s_tb＝done是否成立，判断喷涂过程是否终止；需要说明的是，以布尔值s_tb进行描述，即s_tb＝done是否成立，进而判断喷涂过程是否终止。

S125、根据所获取的状态向量s_t、喷涂动作向量a_t、动状态向量s_t+1和实时奖励reward，确定集合{s_t,a_t,s_t+1,reward,s_tb}；将集合{s_t,a_t,s_t+1,reward,s_tb}存入深度学习的经验回放池D，令t＝t+1，循环执行，直至达到经验回放池D的最大容量；

S126、从经验回放池D中进行m次随机采样，获得{s_j,a_j,s_j+1,reward,s_jb}，j＝1,2,...,m，计算当前策略π下理论Q值(状态动作Q函数)。需要说明的是，如果经验回放池D中的样本数量大于设定值，则从经验回放池中选择设定值数量的样本进行采样。其中，根据状态s_j获取Actor_Target网络的输出a_j，利用s_j和a_j计算两个Critic_Target网络的输出Q1，Q2，取最小值作为Q。

当前策略π下理论Q值y_j通过以下公式获取：

其中，γ表示奖励衰减因子，π_θ'(s_j+1)表示网络参数为θ'的Actor_target网络在状态向量s_j+1的输入下的对应输出喷涂动作向量a_j+1，Q_ω'(s_j+1,π_θ'(s_j+1))表示网络参数为ω'的Critic_target网络在对应输入下的对应输出。

S127、使用均方差损失函数

通过神经网络的梯度反向传播对Critic网络的参数ω进行更新；使用损失函数

通过神经网络的梯度反向传播对Actor网络的参数θ进行更新；并将更新后的Critic网络的参数和Actor网络的参数分别复制给对应的Critic_target网络和Actor_target网络。即采用软更新的方式将Actor网络和Critic网络1、Critic网络2的参数复制给对应的Target网络。

具体地说，每经过一定的迭代次数C，对基于深度强化学习的涂装控制策略模型中的Actor_target、Critic_target进行更新；更新通过以下公式实现：

其中，0<τ<1，τ为强化学习过程中的学习率。

S128、进行迭代训练，直至达到设定最大迭代次数；获得训练好的基于深度强化学习的涂装控制策略模型。需要说明的是，若时刻t到达设定的最大训练时刻数，则一个训练回合结束。若eps达到设定的最大回合数，则离线训练结束，得到离线训练完毕的智能体。

综上，本发明所示的基于深度强化学习模型和不同Action向量输入下仿真环境中涂层漆膜的厚度分布变化情况，根据损失函数对Actor和Critic等网络参数进行更新，并将更新后的Critic网络的参数和Actor网络的参数分别复制给对应的Critic_target网络和Actor_target网络；是基于点云模型栅格划分的数量mn和已知的Action向量维度l，构建以mn维状态向量s为输入，l维动作向量a为输出的Actor及Actor_target多层网络模型和以l维动作向量a为输入，数值Q为输出的Critic及Critic_target多层网络模型，并按照深度强化学习的训练过程对Actor、Actor_target、Critic、Critic_target的网络参数θ,θ',ω,ω'进行更新。

具体地说，对构建的基于深度强化学习的涂装控制策略模型进行训练直至模型收敛后。利用训练好的基于深度强化学习的涂装控制策略模型进行涂装轨迹智能规划的获取。

需要说明的是，设定仿真环境下所使用的漆膜厚度沉积模型和模型参数，通过提取影响机器人喷涂过程中的关键因素，构建多变量的喷枪涂层厚度沉积模型，并对模型参数进行初始化，用来模拟机器人喷涂过程中的工件表面漆膜厚度的变化情况。其中，常用的厚度沉积模型代表有β分布模型、分析沉积模型、抛物线沉积模型以及椭圆双β分布模型等。

在一个具体的实施例中，漆膜厚度沉积模型为由平面涂层厚度模型转换得到的自由曲面涂层厚度分布模型，上述转换基于椭圆双β漆膜厚度沉积模型及微分放大原理可实现。

图5和图6对漆膜厚度沉积模型进行了整体描述；其中，图5为现有技术中平面涂层厚度沉积分布模型的原理示意图；图6为根据本发明实施例的自由曲面涂层厚度沉积分布模型的原理示意图。如图5和图6所示，

可通过上述基于椭圆双β漆膜厚度沉积模型进行点云数据点Ω_k处漆膜厚度δ的数值计算。具体地说，可按照下述过程进行：

计算喷枪在轨迹点T_i的停留时间t，有：

以轨迹点T_i为原点，构建局部坐标系Γ_local和椭圆双β漆膜厚度沉积模型，寻找点云Ω中位于椭圆涂覆面积中的数据点Ω_k，计算数据点数据点Ω_k在时间t内获得的漆膜沉积厚度为：

δ_k＝t×q_Ω

重复上述过程，分别计算轨迹T中各轨迹点对数据点Ω_k所产生的的漆膜沉积厚度δ_k，则最终的漆膜厚度δ可表示为：

δ＝∑δ_k

在具体的实施过程中，根据喷涂动作向量，确定下一时刻的喷涂轨迹的方法可以但不限制于为切片法。图7为根据本发明实施例的基于切片法获取喷涂轨迹的原理示意图；如图7所示，基于喷涂动作向量a_t可以计算得到离散化的喷涂轨迹；具体地说，计算空间散乱点云即点云簇Ω与一组平行平面的截交线，并沿交点切平面的法矢方向平移Dis距离，即可获取与喷涂动作向量a_t相对应的喷涂轨迹T；喷涂轨迹T由若干间距为e的离散轨迹点T_i组成，上述平行平面的法向量方向与喷涂轨迹的朝向保持一致。

S130、在仿真环境下，按照喷涂动作向量所对应的下一时刻的喷涂轨迹执行喷涂动作，利用漆膜厚度沉积模型，确定每条喷涂轨迹对待喷涂工件的漆膜厚度分布情况的影响。

因为将喷涂过程抽象为马尔科夫奖励决策过程，并建立以喷涂距离、喷涂速度、搭接间距等可变参数作为自变量的Action向量，同时建立以全局性漆膜厚度分布和局部性漆膜厚度影响为自变量的Reward函数。所以，需要在仿真环境下，利用漆膜厚度沉积模型，确定每条喷涂轨迹对待喷涂工件的漆膜厚度分布情况的影响。

具体地说，由强化学习(RL)解决的示例性机器人喷涂问题可以用马尔科夫决策过程(MDP)的五元组<S,A,T,R,γ>来表示，其中，S是状态空间，A是行动空间，T：是状态转换模型，R：是奖励函数，γ是累积奖励的折扣系数。强化学习被用于通过使行动主体(agent)能够从与环境的相互作用中学习来优化策略π：以实现特定的目标。行动主体观察来自环境的状态S，选择由要在环境中执行的政策π给出的行动A，观察下一个状态，并同时获得奖励R，直到达到终点状态。因此，由最优策略π获得的预期累积奖励是最大的。强化学习方法的目标是找到最优策略π。对于一些实施方式，强化学习需要与环境互动，以了解每个策略的益处是什么，然后结合各策略进行序列化决策。

在本实施例中，将实际的喷涂过程按照时间顺序相互交替的顺序进行排列，用下述的状态—动作链(马尔科夫链)进行表述：

{s₀,a₀,s₁,a₁,...,s_t-1,a_t-1,s_t}

其中，a_t表示t时刻所采取的喷涂选择，可由是否进行喷涂、喷涂点所处位置、喷涂工艺参数等多要素组成，s_t表示t时刻待喷涂工件的表面漆膜厚度分布情况。状态s_t基于权利要求4中构建的涂层厚度沉积模型进行表述。

将喷涂过程抽象为马尔科夫决策过程，提取时刻t的喷涂动作构成深度强化学习网络中critic网络输入Action向量，喷涂动作向量a_t可包括但不限于喷涂速度Vec_t、喷涂距离Dis_t、轨迹搭接距离Inter_t等。

即a_t＝(Vec_t,Dis_t,Inter_t)^T，且：

其中，Vec_min、Vec_max分别代表喷涂轨迹中可变参数Vec的理论最小值和最大值，Dis_min、Dis_max分别代表喷涂轨迹中可变参数Dis的理论最小值和最大值，Inter_min、Inter_max分别代表喷涂轨迹中可变参数Inter的理论最小值和最大值。

为了求得深度强化学习的策略π，需要对每次采取喷涂动作向量a_t所产生的实际效果做出客观的评价，按照既定的方法确定相应的奖励函数R。

可以引入基于策略π的状态价值函数v_π(s)：

v_π(s)＝E_π(G_t|S_t＝s)

＝E_π(R_t+1+γR_t+2+γ²R_t+3+...|S_t＝s)

＝E_π(R_t+1+γ(R_t+2+γR_t+3+...)|S_t＝s)

＝E_π(R_t+1+γv_π(s_t+1)|S_t＝s)

＝E_π(R_t+1|S_t＝s)+γE(v_π(s_t+1)|S_t＝s)

其中，R为状态s下的下一时刻所能获得的奖励期望，γ为折扣因子。需要说明的是，状态价值函数是从某一状态根据策略π确定行动时所获得的收益的期望值，用V_π(s)表示；也就是说，状态价值函数代表喷涂机器人在状态s下的预期累积奖励，直到喷涂动作完成。策略网络的策略π的目标为最大化状态价值函数。当作为在状态s_t下选择行动a_t的结果，观测到报酬r_t+1和下一个转变的状态s_t+1时，由在转变至一小时步长后的状态下所选择的行动a_t+1来更新行动价值Q_(st，at)。

对于喷涂过程而言，以喷涂朝向为空间坐标系Γ下OX方向为例，奖励函数R可以但不限制于按照下述方法予以确定：

Id_begin＝0

其中，Id_begin、Id_end的具体数值与当前计算出的轨迹的位置有关；Ω_{min_x}表示点云簇Ω在坐标轴X方向上的最小值，T_ix表示对应轨迹点在空间坐标系Γ下的X坐标，δ_s表示理想漆膜厚度，δ_ij表示仿真模型下数组下标为i中数据点j的漆膜厚度，λ₁、λ₂表示奖励函数系数，通常有λ₂>λ₁。

需要说明的是，当T_ix满足T_ix-Ω_{max_x}>γ时，有s＝done成立，γ表示可变距离参数。

S140、根据每条喷涂轨迹对待喷涂工件的漆膜厚度分布情况的影响，更新下一时刻的状态向量。S150、根据下一时刻的状态向量，利用预训练好的基于深度强化学习的涂装控制策略模型确定喷涂动作向量所对应的下一时刻的喷涂轨迹；循环执行，直至确定喷涂过程中每一时刻的状态向量、喷涂动作向量以及喷涂动作向量所对应的喷涂轨迹。

也就是说，初始化状态向量s_t＝(0,0,0,...,0)^T；以状态s_t作为Actor网络模型的输入，获取网络输出喷涂动作向量a_t，基于喷涂动作向量a_t给出的喷涂速度Vec_t、喷涂距离Dis_t、轨迹搭接距离Inter_t等使用切片法获取实际的离散化喷涂轨迹T_t；基于喷涂轨迹T_t和椭圆双β漆膜厚度沉积模型更新待喷涂工件的漆膜厚度分布情况，获取状态向量s_t+1；令t＝t+1，重复上述步骤直至满足s＝done；由此，实现了对每一时刻(步骤)t下如喷涂速度Vec_t、喷涂距离Dis_t、轨迹搭接距离Inter_t等涂装工艺参数的确定，并获得了一系列离散的喷涂轨迹T_i,i＝0,1,2,...。

综上，本发明的基于深度强化学习的涂装轨迹智能规划方法针对现有技术中优化模型求解方法中求解效率低，难以获取全局最优解以及通用性差的问题。基于涂料沉积模型，将喷涂过程抽象为马尔科夫决策过程，利用喷涂过程中喷枪和仿真环境的交互，考虑局部奖励和全局奖励，学习最优执行策略以达成喷涂漆膜厚度分布均匀的目标，区别于传统的基于已知轨迹的参数寻优流程，通过综合考虑喷涂过程中工艺参数和涂装轨迹的耦合影响，有效地获取最优的涂装轨迹，有效地改善复杂曲面的涂层厚度控制和喷涂轨迹计算的技术效果。

与上述基于深度强化学习的涂装轨迹智能规划方法相对应，本发明还提供一种基于深度强化学习的涂装轨迹智能规划***。图6示出了根据本发明实施例的基于深度强化学习的涂装轨迹智能规划***的功能模块。

如图8所示，本发明提供的基于深度强化学习的涂装轨迹智能规划***800可以安装于电子设备中。根据实现的功能，所述基于深度强化学习的涂装轨迹智能规划***800可以包括数据获取单元810、状态向量更新单元820和执行单元830。本发明所述单元也可以称之为模块，指的是一种能够被电子设备的处理器所执行，并且能够完成某一固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

数据获取单元810，用于获取待喷涂工件的模型数据，并按照预设的涂装精度标准对待喷涂工件的模型进行格栅化划分，将某一时刻的所有格栅内全部点云涂层厚度的均值进行向量排列，获得初始化的状态向量；

状态向量更新单元820，用于将初始化状态向量输入预训练好的基于深度强化学习的涂装控制策略模型，获取喷涂动作向量；并根据喷涂动作向量，确定下一时刻的喷涂轨迹；在仿真环境下，按照喷涂动作向量所对应的下一时刻的喷涂轨迹执行喷涂动作，利用漆膜厚度沉积模型，确定每条喷涂轨迹对待喷涂工件的漆膜厚度分布情况的影响；根据每条喷涂轨迹对待喷涂工件的漆膜厚度分布情况的影响，更新下一时刻的状态向量；根据下一时刻的状态向量，利用预训练好的基于深度强化学习的涂装控制策略模型确定喷涂动作向量所对应的下一时刻的喷涂轨迹；

执行单元830，用于循环执行，直至确定喷涂过程中每一时刻的状态向量、喷涂动作向量以及喷涂动作向量所对应的喷涂轨迹。

本发明所提供的上述基于深度强化学习的涂装轨迹智能规划***的更为具体的实现方式，均可以参照上述对基于深度强化学习的涂装轨迹智能规划方法的实施例表述，在此不再一一列举。

如图9所示，本发明提供一种基于深度强化学习的涂装轨迹智能规划方法的电子设备9。

该电子设备9可以包括处理器90、存储器91和总线，还可以包括存储在存储器91中并可在所述处理器90上运行的计算机程序，如基于深度强化学习的涂装轨迹智能规划程序92。

其中，所述存储器91至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器91在一些实施例中可以是电子设备9的内部存储单元，例如该电子设备9的移动硬盘。所述存储器91在另一些实施例中也可以是电子设备9的外部存储设备，例如电子设备9上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(SecureDigital，SD)卡、闪存卡(Flash Card)等。进一步地，所述存储器91还可以既包括电子设备9的内部存储单元也包括外部存储设备。所述存储器91不仅可以用于存储安装于电子设备9的应用软件及各类数据，例如基于深度强化学习的涂装轨迹智能规划程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器90在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器90是所述电子设备的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器91内的程序或者模块(例如基于深度强化学习的涂装轨迹智能规划程序等)，以及调用存储在所述存储器91内的数据，以执行电子设备9的各种功能和处理数据。

所述总线可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器91以及至少一个处理器90等之间的连接通信。

图9仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图9示出的结构并不构成对所述电子设备9的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备9还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器90逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备9还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

进一步地，所述电子设备9还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该电子设备9与其他电子设备之间建立通信连接。

可选地，该电子设备9还可以包括用户接口，用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备9中处理的信息以及用于显示可视化的用户界面。

可选地，包括成像传感器、温度传感器和/或湿度传感器的外感受传感器。成像传感器可以是包括RGB传感器、单色传感器、红外传感器、雾度传感器、反射率传感器和/或漫射率传感器的视觉传感器，或者可以是包括RGB-D(结构化光、飞行时间和/或立体摄影测量)、立体偏折法、轮廓测量法和/或显微镜法的地形传感器。外感受传感器还可包括用于弹性体成像(即，GelSight)的触觉传感器；也可使用温度传感器，包括热电偶和/或IR热成像。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备9中的所述存储器91存储的基于深度强化学习的涂装轨迹智能规划程序92是多个指令的组合，在所述处理器90中运行时，可以实现：获取待喷涂工件的模型数据，并按照预设的涂装精度标准对待喷涂工件的模型进行格栅化划分，将某一时刻的所有格栅内全部点云涂层厚度的均值进行向量排列，获得初始化的状态向量；将初始化状态向量输入预训练好的基于深度强化学习的涂装控制策略模型，获取喷涂动作向量；并根据喷涂动作向量，确定下一时刻的喷涂轨迹；在仿真环境下，按照喷涂动作向量所对应的下一时刻的喷涂轨迹执行喷涂动作，利用漆膜厚度沉积模型，确定每条喷涂轨迹对待喷涂工件的漆膜厚度分布情况的影响；根据每条喷涂轨迹对待喷涂工件的漆膜厚度分布情况的影响，更新下一时刻的状态向量；根据下一时刻的状态向量，利用预训练好的基于深度强化学习的涂装控制策略模型确定喷涂动作向量所对应的下一时刻的喷涂轨迹；循环执行，直至确定喷涂过程中每一时刻的状态向量、喷涂动作向量以及喷涂动作向量所对应的喷涂轨迹。

具体地，所述处理器90对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。需要强调的是，为进一步保证上述基于深度强化学习的涂装轨迹智能规划程序的私密和安全性，上述基于深度强化学习的涂装轨迹智能规划程序存储于本服务器集群所处区块链的节点中。

进一步地，所述电子设备9集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

本发明实施例还提供一种计算机可读存储介质，所述存储介质可以是非易失性的，也可以是易失性的，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现：获取待喷涂工件的模型数据，并按照预设的涂装精度标准对待喷涂工件的模型进行格栅化划分，将某一时刻的所有格栅内全部点云涂层厚度的均值进行向量排列，获得初始化的状态向量；将初始化状态向量输入预训练好的基于深度强化学习的涂装控制策略模型，获取喷涂动作向量；并根据喷涂动作向量，确定下一时刻的喷涂轨迹；在仿真环境下，按照喷涂动作向量所对应的下一时刻的喷涂轨迹执行喷涂动作，利用漆膜厚度沉积模型，确定每条喷涂轨迹对待喷涂工件的漆膜厚度分布情况的影响；根据每条喷涂轨迹对待喷涂工件的漆膜厚度分布情况的影响，更新下一时刻的状态向量；根据下一时刻的状态向量，利用预训练好的基于深度强化学习的涂装控制策略模型确定喷涂动作向量所对应的下一时刻的喷涂轨迹；循环执行，直至确定喷涂过程中每一时刻的状态向量、喷涂动作向量以及喷涂动作向量所对应的喷涂轨迹。

具体地，所述计算机程序被处理器执行时具体实现方法可参考实施例基于深度强化学习的涂装轨迹智能规划方法中相关步骤的描述，在此不赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等区块链可以存储医疗数据，如个人健康档案、厨房、检查报告等。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于深度强化学习的涂装轨迹智能规划方法，应用于电子装置，其特征在于，所述方法包括：

获取待喷涂工件的模型数据，并按照预设的涂装精度标准对所述待喷涂工件的模型进行格栅化划分，将某一时刻的所有格栅内全部点云涂层厚度的均值进行向量排列，获得初始化的状态向量；

将所述初始化状态向量输入预训练好的基于深度强化学习的涂装控制策略模型，获取喷涂动作向量；并根据所述喷涂动作向量，确定下一时刻的喷涂轨迹；

在仿真环境下，按照所述喷涂动作向量所对应的下一时刻的喷涂轨迹执行喷涂动作，利用漆膜厚度沉积模型，确定每条喷涂轨迹对待喷涂工件的漆膜厚度分布情况的影响；

根据下一时刻的状态向量，利用预训练好的基于深度强化学习的涂装控制策略模型确定喷涂动作向量所对应的下一时刻的喷涂轨迹；循环执行，直至确定喷涂过程中每一时刻的状态向量、喷涂动作向量以及所述喷涂动作向量所对应的喷涂轨迹。

2.如权利要求1所述的基于深度强化学习的涂装轨迹智能规划方法，其特征在于，通过设定最大迭代次数，对基于深度强化学习的涂装控制策略模型进行迭代训练，所述迭代训练的方法包括：

随机初始化所述基于深度强化学习的涂装控制策略模型的参数，初始化网络训练迭代次数为1，并清空深度强化学习的经验回放池；其中，所述基于深度强化学习的涂装控制策略模型包括以mn维状态向量s为输入，l维动作向量a为输出的Actor网络和Actor_target网络，以及，以l维动作向量a为输入，数值Q为输出的Critic网络和Critic_target网络；其中，所述的Critic网络和Critic_Target网络各包括两个网络；所述基于深度强化学习的涂装控制策略模型的参数包括Actor网络的参数、Actor_target网络的参数、Critic网络的参数和Critic_target网络的参数；所述Actor_target网络的参数通过复制对应的Actor_target网络的参数得到，Critic_target网络的参数通过复制对应的Critic网络的参数得到；

将所述集合{s_t,a_t,s_t+1,reward,s_tb}存入所述深度学习的经验回放池D，令t＝t+1，循环执行，直至达到经验回放池D的最大容量；

3.如权利要求2中所述的基于深度强化学***均值；

计算喷枪在轨迹点T_i的停留时间t；

4.如权利要求2所述的基于深度强化学***面涂层厚度模型转换得到的自由曲面涂层厚度分布模型；

5.如权利要求2所述的基于深度强化学习的涂装轨迹智能规划方法，其特征在于，获取待喷涂工件的模型数据，并按照预设的精度标准对所述待喷涂工件进行格栅化划分的方法，包括，

获取待喷涂工件的模型数据；其中，所述模型数据为点云数据或CAD模型数据；

根据所述待喷涂工件的模型数据，利用视觉传感器获取待喷涂工件的三维空间的点云数据，或将所述CAD模型数据转换为点云数据；

按照精度需求确定分割的间隔尺寸，按照所述分割的间隔尺寸将待喷涂工件进行m×n栅格化划分，并反向映射至三维空间的点云数据中；

将所述三维空间的点云数据分割为m×n的点云簇，每个栅格对应一个数组，每个数组包含当前栅格内包含的点云数据点的编号。

6.如权利要求2所述的基于深度强化学习的涂装轨迹智能规划方法，其特征在于，通过基于策略π的状态价值函数获取当前策略π下理论Q值；所述基于策略π的状态价值函数v_π(s)通过以下公式实现：

v_π(s)＝E_π(G_t|S_t＝s)

＝E_π(R_t+1+γR_t+2+γ²R_t+3+...|S_t＝s)

＝E_π(R_t+1+γ(R_t+2+γR_t+3+...)|S_t＝s)

＝E_π(R_t+1+γv_π(s_t+1)|S_t＝s)

＝E_π(R_t+1|S_t＝s)+γE(v_π(s_t+1)|S_t＝s)

7.如权利要求1所述的基于深度强化学习的涂装轨迹智能规划方法，其特征在于，基于状态向量s_t+1和奖励函数R计算实时奖励reward，通过以下公式实现：

Id_begin＝0

8.一种基于深度强化学习的涂装轨迹智能规划***，其特征在于，包括：

数据获取单元，用于获取待喷涂工件的模型数据，并按照预设的涂装精度标准对所述待喷涂工件的模型进行格栅化划分，将某一时刻的所有格栅内全部点云涂层厚度的均值进行向量排列，获得初始化的状态向量；

状态向量更新单元，用于将所述初始化状态向量输入预训练好的基于深度强化学习的涂装控制策略模型，获取喷涂动作向量；并根据所述喷涂动作向量，确定下一时刻的喷涂轨迹；

执行单元，用于循环执行，直至确定喷涂过程中每一时刻的状态向量、喷涂动作向量以及所述喷涂动作向量所对应的喷涂轨迹。

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一所述的基于深度强化学习的涂装轨迹智能规划方法中的步骤。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的基于深度强化学习的涂装轨迹智能规划方法。