CN115149859A

CN115149859A - 永磁同步电机效率优化控制方法及***

Info

Publication number: CN115149859A
Application number: CN202210542923.4A
Authority: CN
Inventors: 彭思齐; 李伟俊; 郭旦; 彭鸿羽; 李辉; 谭平安
Original assignee: Green Intelligent Manufacturing Research Institute Xiangtan University Foshan; Xiangtan University
Current assignee: Foshan Shunde Lepuda Motor Co ltd; Green Intelligent Manufacturing Research Institute Xiangtan University Foshan; Xiangtan University
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-10-04
Also published as: WO2023221740A1; US20230412098A1

Abstract

本发明提供了一种永磁同步电机效率优化控制方法及***，所述方法包括以下步骤：步骤1、利用损耗模型法求得永磁同步电机的近似最优d轴电流；步骤2、以近似最优d轴电流为初始值，利用深度强化学习算法对d轴电流进行寻优，构建最优深度强化学习模型；步骤3、将当前采集的永磁同步电机状态数据送入最优深度强化学习模型，基于该模型预测出使电机运行在最优效率的控制参数值；根据该控制参数值对永磁同步电机进行控制。本发明能够对电机进行实时最优控制。

Description

永磁同步电机效率优化控制方法及***

技术领域

本发明属于永磁同步电机控制领域，涉及一种基于损耗模型法和深度强化学习相结合的复合式永磁同步电机效率优化控制方法及***。

背景技术

永磁同步电机具有体积小，功率密度高等优点，在多个行业广泛应用，如何进一步提高其运行效率，是科研工作者持之以恒的追求目标。永磁同步电机效率优化控制技术归纳为两类：基于损耗模型的效率优化控制方法和基于搜索技术的效率优化控制方法。

损耗模型法是目前的主流方法，其建立电机的效率最大函数或电机的损耗最小函数，推导出最优效率时的励磁电流和励磁磁链，并加以控制实现效率优化。它能够较快达到控制目标，实现实时控制，但它忽略饱和效应等非线性因素对参数变化的影响，往往也没有考虑驱动器的开关动作对于电机效率的影响。特别是凸极永磁同步电机交直轴参数不相等，得到最优直轴电流初始值比较复杂，并且对电机参数依赖大，而这些参数随电机运行状况而改变，需要对电机参数进行在线辨识。因此，实现起来难度大，实践中经常要对模型简化，得到的近似最优解与实际最优值仍存在偏差，最终只能实现效率次优控制。

搜索法能够实现***效率的全局最优，且不受电机参数变化的影响，但算法收敛时间长，收敛速度慢，容易引起磁通和转矩的脉动，存在收敛速度和转矩脉动的矛盾，此时控制算法步长选择不当，则会使算法收敛过慢甚至不收敛，从而导致总体效率下降，严重影响效率最优控制效果。

针对现有技术存在的不足，有必要设计一种新的永磁同步电机效率优化控制方法，进一步提高永磁同步电机的运行效率。

发明内容

针对现有技术中存在的问题，本发明提供了一种永磁同步电机效率优化控制方法及***，能进一步提高永磁同步电机的运行效率。

本发明提供的技术方案如下：

一方面，提供一种永磁同步电机效率优化控制方法，包括以下步骤：

步骤1、利用损耗模型法求得永磁同步电机的近似最优d轴电流；

步骤2、以近似最优d轴电流为初始值，利用深度强化学习(深度Q网络，DQN)算法对d轴电流进行寻优，构建最优深度强化学习模型；

步骤3、将当前采集的永磁同步电机状态数据送入最优深度强化学习模型，基于该模型预测出使电机运行在最优效率的控制参数值(最优d轴电流)；根据该控制参数值对永磁同步电机进行控制。

进一步地，所述步骤1包括以下步骤：

首先，对电机损耗进行分析评估并构建永磁同步电机的损耗模型；

永磁同步电机的损耗包括机械损耗、铜损和铁损等。其中机械损耗随转速和工况的不同不断改变，是不可控的。因此本发明只考虑可控部分的电气损耗，包括铁损和铜损。结合永磁同步电机考虑铜损和铁损的d，q轴等效电路，可以写出永磁同步电机的动态电压方程为：

其中，u_d与u_q分别为d、q轴电枢电压；i_d与i_q分别为d、q轴电流(电枢电流)；i_wd与 i_wq为d、q轴定子电流有功分量；R_s为电枢电阻；L_d与L_q分别为d、q轴的电枢电感；ψ_m为转子永磁体的磁链；ω_r为转子的机械角速度；n_p为电机极对数；

由永磁同步电机等效电路回路电压方程(KVL)，可得：

其中，i_Feq为d，q轴铁损电流分量，R_Fe为等效铁损电阻；

结合d，q轴铁损电流分量表达式，可得永磁同步电机总损耗为：

T_e为永磁同步电机电磁转矩。

然后，基于永磁同步电机总损耗模型求得近似最优d轴电流；

稳态运行时，电机转速，转矩保持不变，从总损耗关系式可知，电机损耗只与i_wd有关，要想总损耗最小，只需满足：

可得i_wd为：

由永磁同步电机等效电路节点电流方程(KCL)，可得：

i_d＝i_wd+i_Fed

由此得到近似最优d轴电流为：

电机在运行过程中，参数会不断发生变化，当采用损耗模型法时，所得d轴电流因为参数的影响，只能为近似最优d轴电流，为实现永磁同步电机效率最优控制，本发明继续通过深度强化学习对参数进行寻优，以得到电机控制的最优参数。

进一步地，所述步骤2包括以下步骤：

步骤2.1：以深度强化学习算法为永磁同步电机的智能体Agent，构建深度强化学习模型，包括结构相同的值网络Q^v和目标网络Q^T，状态空间S、动作空间A和奖励函数Reward，状态空间S中的每个状态为表示为一个四维向量(T,v,acc,T1)，其中T、v、acc、T1分别表示永磁同步电机的电磁转矩、转速、加速度和负载转矩，动作空间A中的每个动作为d轴电流 i_d的一种取值；

步骤2.2、利用当前的深度强化学习模型对次优数据即近似最优d轴电流进行寻优，得到全局最优数据池；

步骤2.3、对全局最优数据池中的异常数据进行检测和剔除；

步骤2.4、将剔除异常数据后的全局最优数据池中的样本数据，对深度强化学习模型进行训练，并判断是否满足终止条件，若满足，则终止，得到最优深度强化学习模型；否则返回步骤2.2。

进一步地，所述步骤2.2具体包括以下步骤：

步骤2.2.1：构建数据池D，其容量为C；

步骤2.2.2：测得电机当前状态s，包括永磁同步电机的电磁转矩、转速、加速度和负载转矩；将近似最优d轴电流记为动作a，执行动作a，即根据近似最优d轴电流对永磁同步电机进行控制，永磁同步电机自动更新(转移)至下一状态s'(该状态为永磁同步电机次优状态)，通过奖励函数计算当前状态s下执行动作a的奖励值r；将当前样本数据(s,a,r,s')存入数据池D中；

步骤2.2.3：将当前状态s更新为s'，将当前状态s输入至值网络Q^v中，利用值网络Q^v的参数θ得到当前状态s下状态空间中各个动作的预测Q值，采用ε-greedy策略选取最适合的动作，记为a；

步骤2.2.4：执行动作a，即根据近似最优d轴电流对永磁同步电机进行控制，永磁同步电机自动更新至下一状态s'；通过奖励函数计算当前状态s下执行动作a的奖励值r；将当前样本数据(s,a,r,s')存入数据池D中；

步骤2.2.5：返回2.2.3进行循环，直至数据池D满(数据池D中的样本数据条数达到其容量C)，将此时的数据池D作为全局最优数据池。

通过损耗模型法求得的近似最优d轴电流进而获得的永磁同步电机状态(包括电磁转矩，转速，加速度和负载转矩)为定值，且为永磁同步电机次优状态；本方案中通过设计状态空间S(状态取值范围)，其中的每个状态为表示为永磁同步电机的一种电磁转矩、转速、加速度和负载转矩的取值，通过状态信息和奖励判断电机运行状态的好坏，通过深度强化学习模型对数据进行寻优，能够及时的对电机控制进行调整，得到全局最优数据池。

进一步地，所述奖励函数设计如下：

r(s,a)＝α₁·Re ward T(k+1)+α₂·Re ward v(k+1)+α₃·Re ward acc(k+1)+α₄·Re ward T1(k+1)

其中，T(k)、v(k)、acc(k)、T1(k)分别表示执行动作a之前永磁同步电机的电磁转矩、转速、加速度和负载转矩；T(k+1)、v(k+1)、acc(k+1)、T1(k+1)分别表示执行动作a之后永磁同步电机的电磁转矩、转速、加速度和负载转矩；Re ward T(k+1)、Re ward v(k+1)、Re ward acc(k+1)、Re ward T1(k+1)分别表示动作a的电磁转矩、转速、加速度和负载转矩奖励；α₁、α₂、α₃、α₄为四种奖励因子的权重参数，其可以根据经验取值；r(s,a)表示当前状态s＝{T(k),v(k),acc(k),T1(k)}下执行动作a的奖励值。

进一步地，所述步骤2.3中，采用基于密度的局部异常因子法对全局最优数据池中的异常数据进行检测和剔除；

在实际工程中，电机***有时会产生明显不符合常理的数据，称为异常点。对于基于深度强化学习的搜索方法而言，无论异常点是一过性的还是永久性的，都会对数据驱动方法的结果带来灾难性的影响。这是因为异常数据会给数据驱动方法带来“困惑”，使得无法挖掘数据内部的真实信息；

本方案采用基于密度的局部异常因子法对异常点进行检测和剔除。基于密度的局部异常因子法是通过比较每个点和其邻域点的密度来判断该点是否为异常点，如果点p的密度越低，越可能被认定是异常点。至于密度，则通过点与点之间的距离来计算，间距离越远，密度越低，距离越近，密度越高。因为该方法对密度是通过点的第k邻域来计算，而不是全局计算，因此得名为“局部”异常因子，而不会因为数据密度分散情况不同而错误的将正常点判定为异常点。具体步骤为：

步骤2.3.1：对于全局最优数据池中的每个数据点p，计算其第k距离邻域内各点的第k可达距离：

k_reach(o,p)＝max(d_k(o),d(o,p))

其中，d_k(o)为邻域点o的第k距离，d(o,p)为邻域点o到点p的距离；

步骤2.3.2：计算每个数据点p的第k局部可达密度p_reach(p)：

N_k(p)为点p的第k距离邻域；|N_k(p)|为N_k(p)的模；

步骤2.3.3：计算每个数据点的第k局部离群因子：

步骤2.3.4：分析局部离群因子，局部离群因子小于1，则不为异常点，若局部离群因子大于1，则为异常点；

步骤2.3.5：对异常点进行剔除。

所述步骤2.4具体包括以下步骤：

步骤2.4.1：初始化迭代次数t＝1；从剔除异常数据后的全局最优数据池中随机选择n条样本数据，若n条样本数据中的奖励值r均大于所设定阈值，则结束，此时得到的值网络Q^v即为最优深度强化学习模型；否则进入步骤2.4.2；

步骤2.4.2：将随机选择的n条样本数据作为值网络Q^v和目标网络Q^T的输入；

针对每一条样本数据(s,a,r,s')，基于其中的状态s、动作a以及值网络Q^v的参数θ，得到对应的预测Q值，其中第i条样本数据对应的预测Q值记为Q_predict(i)，其中i＝1,2,···,n；

针对每一条样本数据(s,a,r,s')，基于其中的下一状态s'及目标网络Q^T的参数θ^T，获得状态s'下执行状态空间中不同动作a'对应的Q值Q(s',a',θ^T)，并取其中最大值

并计算第i条样本数据对应的目标Q值Q_Target(i)：

其中，γ为奖励衰减因子，取[0，1]之间的数；r_i为第i条样本数据中的奖励值；

步骤2.4.3：通过Q_predict(i)和Q_Target(i)计算损失函数L：

步骤2.4.4：通过误差反向法最小化损失函数L，其中使用梯度下降法对值网络Q^v的参数θ进行更新；

其中，α为学习律，为经验参数；

步骤2.4.5：判断是否满足t＝K，若满足，则更新目标网络Q^T的参数θ^T，令θ^T＝θ，并令t＝1；否则令t＝t+1；其中K为目标网络参数更新周期；

步骤2.4.6：返回步骤2.2.3。

进一步地，所述步骤2.4.4中，α取0.01，以使误差值对新的Q值影响较小，同时具有有一定影响。

进一步地，所述步骤2.4.5中，设置目标网络参数更新周期K为3个仿真周期，每隔3个周期对目标网络参数进行更新能够及时求得新的目标网络，同时避免时间过长导致一直不更新目标网络，导致Q值陷入局部最优。

进一步，所述步骤3中，控制参数值包括最优d轴电流和最优q轴电流；首先基于最优深度强化学习模型预测出使电机运行在最优效率的最优d轴电流；根据最优d轴电流对永磁同步电机进行控制，同时根据最优d轴电流对永磁同步电机q轴电流进行补偿，实现永磁同步电机稳态下的效率最优控制。

电机在寻优过程中，d轴电流的变化会导致转速，电磁转矩发生波动，为了保持永磁同步电机控制***的稳态，本方案采用调整d轴电流的同时，对q轴电流进行补偿从而维持转矩的恒定；

d轴电流调整之前电磁转矩为：

d轴电流变化Δi_d后，q轴电流相应调整为i_q ^*，可得调整后的电磁转矩为：

令调整前后的电磁转矩相等，可得最优q轴电流为：

q轴电流变化量Δi_q为：

另一方面，提供一种永磁同步电机效率优化控制***，包括存储器及处理器，所述存储器中存储有计算机程序，其特征在于，所述计算机程序被所述处理器执行时，使得所述处理器实现上述的永磁同步电机效率优化控制方法。

进一步地，所述***还包括数据采集模块，用于采集永磁同步电机当前的状态数据，包括永磁同步电机当前的电磁转矩、转速、加速度和负载转矩，并送至所述处理器中。

本发明首次将深度强化学习算法与损耗模型法相结合，提出一种新的复合式方法用以解决电机效率优化问题，该方法能够继承两者的优点，克服双方的缺陷。电机损耗模型中将驱动器和永磁同步电机视为整体，建立统一效率优化模型，但是受到参数的影响，会导致效率不能达到全局最优；深度强化学习法是在模型法的基础上进一步寻优，能够实现***效率的全局最优，且不受电机参数变化的影响，但算法收敛时间长，收敛速度慢，容易引起磁通和转矩的脉动，存在收敛速度和转矩脉动的矛盾，此时控制算法步长选择不当，则会使算法收敛过慢甚至不收敛，从而导致总体效率下降，严重影响效率最优控制效果。

本发明通过损耗模型法得到次优效率d轴电流，并将该电流作为深度强化学习搜索初始值，能够减少数据搜索的范围，缩短算法收敛时间，同时又避免了电机参数变化对结果的影响。并且采用了基于密度的局部异常因子法，能够避免异常数据会给深度强化学习方法带来“困惑”，使得无法挖掘数据内部的真实信息，从而减少算法搜索精度。同时，因为深度强化学习会带来转矩脉动，采用对q轴电流补偿能够减小转矩脉动并及时使q轴电流达到最优。此外，通过损耗模型法所得到的电磁转矩，转速，加速度和负载转矩为定值，而本发明结合深度强化学习，设定状态空间为四维向量B(T,v,acc,T1)，其包含了电机当前电磁转矩、转速、加速度和负载转矩，结合电机当前状态计算奖励值，从而选取最适合的动作，实现电机的最优控制。

有益效果：

本发明提出永磁同步电机效率优化方法，兼具目前基于损耗模型的效率优化控制方法和基于搜索技术的效率优化控制方法之长，克服了两者其短。通过电机损耗模型，可以直观得到电机总损耗，加快电机响应速度，并能适用于各种场合。引入深度强化学习，能够使电机在参数变化的情况下，获得全局最优解，实现电机运行实时控制。将损耗模型法结合深度强化学习，能够利用电机损耗模型法建立次优数据池，然后在次优的基础上全局寻优，大大减少了数据搜索的范围，缩短算法收敛时间，同时又避免了电机参数变化对结果的影响，能够对电机进行实时最优控制。

附图说明

图1为永磁同步电机效率优化的矢量控制框图。

图2为考虑铁损的d轴等效电路。

图3为考虑铁损的q轴等效电路。

图4为电机效率优化深度强化学习框架。电机接收来自智能体的动作时，电机模型根据动作和当前状态，自动更新至下一步状态，同时将状态传递到根据目标模型确定的奖励函数，得到对应的奖励值，将状态向量和奖励值放入到数据池中

图5为DQN算法框架。

具体实施方式

参照图1，本发明提出永磁同步电机效率优化控制方法，包括以下步骤：

以下结合附图和具体实施方式对本发明进行进一步具体说明。

实施例1：

本实施例提供一种永磁同步电机效率优化控制方法，包括以下步骤：

所述步骤1包括以下步骤：

永磁同步电机的损耗包括铜损、铁损、杂散损耗和机械损耗。铜损是指电流通过定子绕组时产生的热损耗，由于电机定子中装有大量线圈，且工作时通过线圈的电流较大，使得铜耗是电机主要损耗之一；铁损是指磁通在电机铁芯中交变流动产生的磁滞与涡流损耗，它的大小取决于铁芯材料本身，与电流频率和转速有关；机械损耗和杂散损耗在电机总损耗中占比较小且不易控制与检测。因此本方案只考虑铁损和铜损。结合结合图2和图3的永磁同步电机考虑铜损和铁损的d，q轴等效电路，可以写出永磁同步电机的动态电压方程为：

其中，u_d与u_q分别为d、q轴电枢电压；i_d与i_q分别为d、q轴电流(电枢电流)；i_wd与i_wq为d、q轴定子电流有功分量；R_s为电枢电阻；L_d与L_q分别为d、q轴的电枢电感；ψ_m为转子永磁体的磁链；ω_r为转子的机械角速度；n_p为电机极对数；

由永磁同步电机等效电路回路电压方程(KVL)，可得：

其中，i_Feq为d，q轴铁损电流分量，R_Fe为等效铁损电阻；

T_e为永磁同步电机电磁转矩。

然后，基于永磁同步电机总损耗模型求得近似最优d轴电流；

可得i_wd为：

由永磁同步电机等效电路节点电流方程(KCL)，可得：

i_d＝i_wd+i_Fed

由此得到近似最优d轴电流为：

实施例2：

本实施例在实施例1的基础上，所述步骤2包括以下步骤：

步骤2.3、对全局最优数据池中的异常数据进行检测和剔除；

实施例3：

本实施例在实施例2的基础上，，所述步骤2.2具体包括以下步骤：

步骤2.2.1：构建数据池D，其容量为C；

通过损耗模型法求得的近似最优d轴电流进而获得的永磁同步电机状态(包括电磁转矩，转速，加速度和负载转矩)为定值，且为永磁同步电机次优状态；本方案中通过设计状态空间S(状态取值范围)，其中的每个状态为表示为永磁同步电机的一种电磁转矩、转速、加速度和负载转矩的取值，通过深度强化学习模型对数据进行寻优，可以得到全局最优数据池。以损耗模型法所得电机状态为深度强化学习算法的初始值，能够在电机搜索过程中减少试错次数，在次优的基础上全局寻优，大大减少训练学习时间。

实施例4：

本实施例在实施例3的基础上，将步骤2.2.1中的C取值为200，即数据池D中可以存放 200个样本数据。

实施例5：

本实施例在实施例3的基础上，所述奖励函数设计如下：

其中，T(k)、v(k)、acc(k)、T1(k)分别表示执行动作a之前永磁同步电机的电磁转矩、转速、加速度和负载转矩；T(k+1)、v(k+1)、acc(k+1)、T1(k+1)分别表示执行动作a之后永磁同步电机的电磁转矩、转速、加速度和负载转矩；Re ward T(k+1)、Re ward v(k+1)、Reward acc(k+1)、Re ward T1(k+1)分别表示动作a的电磁转矩、转速、加速度和负载转矩奖励；α₁、α₂、α₃、α₄为四种奖励因子的权重参数，其可以根据经验取值；r(s,a)表示当前状态s＝{T(k),v(k),acc(k),T1(k)}下执行动作a的奖励值。

实施例6：

本实施例在实施例2的基础上，所述步骤2.3中，采用基于密度的局部异常因子法对全局最优数据池中的异常数据进行检测和剔除；

在实际工程中，电机***有时会产生明显不符合常理的数据，称为异常点。对于基于深度强化学***稳。

k_reach(o,p)＝max(d_k(o),d(o,p))

步骤2.3.2：计算每个数据点p的第k局部可达密度p_reach(p)：

N_k(p)为点p的第k距离邻域；|N_k(p)|为N_k(p)的模；

步骤2.3.3：计算每个数据点的第k局部离群因子：

步骤2.3.5：对异常点进行剔除。

实施例6：

本实施例在实施例3的基础上，所述步骤2.4具体包括以下步骤：

并计算第i条样本数据对应的目标Q值Q_Target(i)：

步骤2.4.3：通过Q_predict(i)和Q_Target(i)计算损失函数L：

其中，α为学习律，为经验参数；

步骤2.4.6：返回步骤2.2.3。

实施例7：

本实施例在实施例6的基础上，所述步骤2.4.4中，α取0.01，以使误差值对新的Q值影响较小，同时具有有一定影响。

实施例8：

本实施例在实施例6的基础上，所述步骤2.4.5中，设置目标网络参数更新周期K为3 个仿真周期，每隔3个周期对目标网络参数进行更新能够及时求得新的目标网络，同时避免时间过长导致一直不更新目标网络，导致Q值陷入局部最优。

实施例9：

本实施例在实施例2的基础上，所述步骤3中，控制参数值包括最优d轴电流和最优q 轴电流；首先将当前采集的实时数据送入最优深度强化学习模型，基于最优深度强化学习模型预测出使电机运行在最优效率的最优d轴电流；根据最优d轴电流对永磁同步电机进行控制，同时根据最优d轴电流对永磁同步电机q轴电流进行补偿，实现永磁同步电机稳态下的效率最优控制。

本方案考虑是在实际电机中实现，所以需要保证电机稳态运行才能实现效率最优。电机在寻优过程中，d轴电流的变化会导致转速，电磁转矩发生波动，为了保持永磁同步电机控制***的稳态，本方案采用调整d轴电流的同时，对q轴电流进行补偿从而维持转矩的恒定；

d轴电流调整之前电磁转矩为：

令调整前后的电磁转矩相等，可得最优q轴电流为：

q轴电流变化量Δi_q为：

实施例10：

本实施例提供一种永磁同步电机效率优化控制***，包括存储器及处理器，所述存储器中存储有计算机程序，其特征在于，所述计算机程序被所述处理器执行时，使得所述处理器实现上述实施例所述的永磁同步电机效率优化控制方法。

实施例11：

本实施例在实施例10的基础上，所述***还包括数据采集模块，用于采集永磁同步电机当前的状态数据，包括永磁同步电机当前的电磁转矩、转速、加速度和负载转矩，并送至所述处理器中。

综上所述，本发明提供一种永磁同步电机效率优化控制方法和***，能使电机在运行时，在效率达到全局最优的基础上，具有搜索时间短、收敛速度快、能够实现电机运行实时控制并适用于各种场合等优点；达到节能减排、降低损耗并且提高效率。本发明提出的方法和***简单、容易理解、易于实现、准确度高、是一种能够有效提高永磁同步电机效率的可行性方案。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种永磁同步电机效率优化控制方法，其特征在于，包括以下步骤：

步骤2、以近似最优d轴电流为初始值，利用深度强化学习算法对d轴电流进行寻优，构建最优深度强化学习模型；

步骤3、将当前采集的永磁同步电机状态数据送入最优深度强化学习模型，基于该模型预测出使电机运行在最优效率的控制参数值；根据该控制参数值对永磁同步电机进行控制。

2.根据权利要求1所述的永磁同步电机效率优化控制方法，其特征在于，所述步骤2包括以下步骤：

步骤2.1：构建深度强化学习模型，包括结构相同的值网络Q^v和目标网络Q^T，状态空间S、动作空间A和奖励函数Reward，状态空间S中的每个状态为表示为一个四维向量(T,v,acc,T1)，其中T、v、acc、T1分别表示永磁同步电机的电磁转矩、转速、加速度和负载转矩，动作空间A中的每个动作为d轴电流i_d的一种取值；

步骤2.3、对全局最优数据池中的异常数据进行检测和剔除；

3.根据权利要求2所述的永磁同步电机效率优化控制方法，其特征在于，所述步骤2.2具体包括以下步骤：

步骤2.2.1：构建数据池D，其容量为C；

步骤2.2.2：测得电机当前状态s，包括永磁同步电机的电磁转矩、转速、加速度和负载转矩；将近似最优d轴电流记为动作a，执行动作a，即根据近似最优d轴电流对永磁同步电机进行控制，永磁同步电机自动更新至下一状态s'，通过奖励函数计算当前状态s下执行动作a的奖励值r；将当前样本数据(s,a,r,s')存入数据池D中；

步骤2.2.5：返回2.2.3进行循环，直至数据池D满，将此时的数据池D作为全局最优数据池。

4.根据权利要求3所述的永磁同步电机效率优化控制方法，其特征在于，所述奖励函数设计如下：

r(s,a)＝α₁·Reward T(k+1)+α₂·Reward v(k+1)+α₃·Reward acc(k+1)+α₄·RewardT1(k+1)

其中，T(k)、v(k)、acc(k)、T1(k)分别表示执行动作a之前永磁同步电机的电磁转矩、转速、加速度和负载转矩；T(k+1)、v(k+1)、acc(k+1)、T1(k+1)分别表示执行动作a之后永磁同步电机的电磁转矩、转速、加速度和负载转矩；Reward T(k+1)、Reward v(k+1)、Reward acc(k+1)、Reward T1(k+1)分别表示动作a的电磁转矩、转速、加速度和负载转矩奖励；α₁、α₂、α₃、α₄为四种奖励因子的权重参数；r(s,a)表示当前状态s＝{T(k),v(k),acc(k),T1(k)}下执行动作a的奖励值。

5.根据权利要求3所述的永磁同步电机效率优化控制方法，其特征在于，所述步骤2.4具体包括以下步骤：

并计算第i条样本数据对应的目标Q值Q_Target(i)：

步骤2.4.3：通过Q_predict(i)和Q_Target(i)计算损失函数L：

其中，α为学习律；

步骤2.4.6：返回步骤2.2.3。

6.根据权利要求5所述的永磁同步电机效率优化控制方法，其特征在于，所述步骤2.4.4中，α取0.01。

7.根据权利要求5所述的永磁同步电机效率优化控制方法，其特征在于，所述步骤2.4.5中，设置目标网络参数更新周期K为3个仿真周期。

8.根据权利要求5所述的永磁同步电机效率优化控制方法，其特征在于，所述步骤3中，控制参数值包括最优d轴电流和最优q轴电流；首先基于最优深度强化学习模型预测出使电机运行在最优效率的最优d轴电流；根据最优d轴电流对永磁同步电机进行控制，同时根据最优d轴电流对永磁同步电机q轴电流进行补偿，实现永磁同步电机稳态下的效率最优控制，q轴电流补偿量Δi_q为：

其中，L_d与L_q分别为d、q轴的电枢电感；ψ_m为转子永磁体的磁链；i_d为调整之前的d轴电流，Δi_d为调整之后d轴电流变化量。

9.一种永磁同步电机效率优化控制方法，包括存储器及处理器，所述存储器中存储有计算机程序，其特征在于，所述计算机程序被所述处理器执行时，使得所述处理器实现如权利要求1～8中任一项所述的永磁同步电机效率优化控制方法。

10.根据权利要求9所述的永磁同步电机效率优化控制方法，其特征在于，还包括数据采集模块，用于采集永磁同步电机当前的状态数据，包括永磁同步电机当前的电磁转矩、转速、加速度和负载转矩，并送至所述处理器中。