CN109143870B

CN109143870B - 一种多目标任务的控制方法

Info

Publication number: CN109143870B
Application number: CN201811236696.2A
Authority: CN
Inventors: 江一波; 卿川东
Original assignee: Ningbo Xitang Information Technology Co ltd
Current assignee: Bestechnic Shanghai Co Ltd
Priority date: 2018-10-23
Filing date: 2018-10-23
Publication date: 2021-08-06
Anticipated expiration: 2038-10-23
Also published as: CN109143870A

Abstract

本发明是一种多目标任务的控制方法，通过一个或多个神经网络，在主要控制目标达成的基础上最大限度地达成次要控制目标。传感器检测外部环境，得到一组观测值，将所述观测值反馈给主控制器或第一神经网络后得到第一控制量；所述第一控制量用来达成主要控制目标；将所述观测值反馈给神经网络辅助***，并将所述第一控制量也传输给神经网络辅助***，神经网络辅助***在不影响主要控制目标达成的基础上，计算出最大限度地达成次要控制目标的第二控制量；通过所述第二控制量功能***进行输出，并且传感器检测外部环境得到的观测值反馈给主控制器，并且循环上述步骤。

Description

一种多目标任务的控制方法

技术领域

本发明属于自动控制技术领域，具体涉及一种多目标任务的控制方法。

背景技术

多目标控制是指同时控制两个或者两个以上的相互依赖的目标。多目标控制***由于多个目标量，所以存在多个控制量及多个观测量，而且目标量随着控制量非线性变化。现有的多目标控制方案根据大量实验以及工程师经验调整控制***参数，所以调参难度比较大。而且设备本身老化或者设备工作环境与实验室环境不一致，导致控制结果无法达到最优，所以适应性较差。

如附图1所示的传统多目标控制***中，传感器探测外部环境得到的观测值直接反馈给控制器，控制器根据主目标和多个次目标进行计算，得到控制量之后直接输出给功能***，对外部环境产生影响。但现有的多目标控制方案的外部环境有非线性，快时变的特点，功能***则有非线性、慢时变的特点，而且反馈观测量的传感器本身有不稳定因素及误差因素。因此控制器即使得到传感器的反馈之后很难做出精确的控制。

近几年开始研发神经网络***，其特点有根据输入信号产生一组预测值输出信号，且允许输入或输出高维参数向量，及支持非线性映射，并通过改变网络权重，调整输入到输出的映射函数等特点。等效函数组合或查找表在本质上神经网络完成了一个高维向量x到另一个高维向量y的(线性或非线性)映射，即y＝f(x)；等效地，该函数也可以用一个低维输入输出函数的集合{y_i＝f_i，j(x_j)}以及一个调用函数的规则体系达到同等的性能；在输入输出维度不高时，甚至可以通过构建查找表，将所有输入量组合对应的输出量存储下来以供使用时查找；或者用查找表和函数组合等效的方法。然而，等效方法往往需要付出更高存储的代价，并且难以进行调整，需要逐个对函数集合中的成员函数或者查找表中的各个元组进行逐个更新。

神经网络具有运算速度快、消耗资源少等优点，运用于诸多方面且取得了较佳结果，具有很高的研究与运用价值。尤其在控制***里面，具有开发时间短、灵活性高等优点，非常适合多目标控制***。

发明内容

本发明提出了一种多目标任务的控制方法，以达到主要控制目标的情况下，同时最大限度地达成次要控制目标。

为了达到以上目的，本发明通过以下技术方案实现：

一种多目标任务的控制方法，

传感器检测外部环境，得到一组观测值，将所述观测值反馈给主控制器，且经过主控制器的计算后得到第一控制量；

所述第一控制量用来达成主要控制目标；

将所述观测值反馈给神经网络辅助***，并将所述第一控制量也传输给神经网络辅助***，神经网络辅助***在不影响主要控制目标达成的基础上，计算出最大限度地达成次要控制目标的第二控制量；

通过所述第二控制量功能***进行输出，并且传感器检测外部环境得到的观测值反馈给主控制器。

优选地，神经网络的初始参数在***设置时离线调优；或，神经网络的参数通过在线学习以适应环境以及设备***的变化；神经网络的参数更新在***本地自动地进行，或通过联网下载，或人工调整；

或者，以等效函数组合或查找表代替所述神经网络。

优选地，所述神经网络辅助***的输入还包括一个或者多个用以表征主要控制目标达成所需的辅助指标值；

所述的辅助指标值由第一控制量和部分观测值计算得到。

优选地，所述神经网络辅助***的一种训练方法如下：

步骤1.1、通过***模拟软件或在实验室环境下对***进行测量，获得n组训练样本数据：

每一组训练样本数据通过随机设置***控制量{c₁，c₂，…，c_M}，随机设置或者按照一定顺序遍历典型环境参数,并记录观测量{s₁，s₂，…，s_K}，测量各个目标量{y₁，y₂，…，y_N}；目标量集合中y₁是主目标量，其它是次目标量；

步骤1.2、根据n组样本数据，记录由主目标量和观测量组成的向量

X_i(y₁，s₁，S₂，...，S_K)

且在所述向量的每一种可能的取值所对应的最佳控制量，使得次目标量最大化；

其中，i＝1，2，…，n，λ_i为一组重要性权重，默认值为全1；

步骤1.3、构建代价函数

其中，

和C_i分别代表网络输出的控制量和前一步得到的最佳控制量；

代价函数对神经网络权值向量的梯度为

其中，权值向量W＝(w₁，w₂，…，w_m)；

步骤1.4、根据梯度下降算法更新权重向量

其中，α取值一般为0.001，或根据其它已有的机器学习技术动态调整；

步骤1.5、迭代执行步骤1.4更新权值向量，直到达到预设的最大迭代次数，或满足收敛准则。

一种多目标任务的控制方法，

传感器检测外部环境，得到一组观测值；将所述观测值反馈给第一神经网络，且经过第一神经网络的计算后得到第一控制量；

所述第一控制量用来达成主要控制目标；

将所述观测值反馈给第二神经网络，并将所述第一控制量也传输给第二神经网络，第二神经网络在不影响主要控制目标达成的基础上，计算出最大限度地达成次要控制目标的第二控制量；

通过所述第二控制量功能***进行输出，并且传感器检测外部环境得到的观测值反馈给所述第一神经网络。

优选地，神经网络的初始参数在***设置时离线调优；或，神经网络的参数通过在线学习以适应环境以及设备***的变化；

神经网络的参数更新在***本地自动地进行，或通过联网下载，或人工调整；或者，以等效函数组合或查找表代替所述神经网络。

优选地，所述第二神经网络的一种训练方法如下：

步骤2.1、通过***模拟软件或在实验室环境下对***进行测量，获得n组训练样本数据：

每一组训练样本数据通过随机设置***控制量{c₁，c₂，…，c_M}，和随机设置环境参数并记录观测量{s₁，s₂，…，s_K}，测量各个目标量{y₁，y₂，…，y_N}；目标量集合中y₁是主目标量，其它是次目标量；

步骤2.2、根据n组样本数据，记录由主目标量和观测量组成的向量

X_i＝(y₁，s₁，s₂，…，s_K)

步骤2.3、构建代价函数

其中，

代价函数对神经网络权值向量的梯度为

其中，权值向量W＝(w₁，w₂，…，w_m)；

步骤2.4、根据梯度下降算法更新权重向量

其中，α取值一般为0.001，或根据已有的机器学习技术动态调整；

步骤2.5、迭代执行步骤2.5更新权值向量，直到达到预设的最大迭代次数，或满足收敛准则。

优选地，所述第一神经网络的一种训练方法如下：

步骤3.1、首先完成对第二神经网络的训练；

步骤3.2、对于连续的T次操作以及最终获得的累积主目标量门限v，第t次操作时，第一神经网络的输入是

其输出是一个期望的主目标值

步骤3.3、构建辅助模块，其输入为以

为输入通过第二神经网络对***进行连续T次操作中，第t次得到的目标值

输出为

步骤3.4、通过强化学习算法，将第一神经网络作为强化学习算法中的Agent，在某次试验的第k步，第一神经网络的输出经过第二神经网络生成控制向量{c₁，c₂，…，c_M}，并作用于***，得到主目标值

用辅助模块计算RL的奖励函数值，并反馈给学习算法，更新第一神经网络的权重向量；所述强化学习算法包含：Sarsa，Q-Learning，DDPG。

一种多目标任务的控制方法，

传感器检测外部环境，得到一组观测值，将所述观测值反馈给神经网络，且经过所述神经网络计算出一个控制量；

所述控制量在主要控制目标达成的基础上，最大限度地达成次要控制目标；

通过所述控制量功能***进行输出，并且传感器检测外部环境得到的观测值反馈给所述神经网络。

本发明和以往相比较，通过引入神经网络的控制，整个***的运算速度快、消耗资源少、开发时间短、灵活性高等优点。

附图说明

图1是现有的多目标控制方案的***示意图；

图2是本发明第一种多目标控制***示意图；

图3是本发明第二种多目标控制***示意图；

图4是本发明第三种多目标控制***示意图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合附图和具体实施例对本发明做进一步详细的说明，但不以任何方式限制本发明的范围。

如附图2所示，本发明第一种多目标控制***，其中，第一控制器选用传统PID控制器，用来确保主要控制目标的达成，该第一控制器的输入为传感器的观测值，输出为第一控制量；所述第一控制量确保主要控制目标的达成。第二控制器选用神经网络辅助***，用来在不影响主要控制目标达成的基础上，最大限度地达成X个次要控制目标，其输入为传感器的观测值及第一控制量，输出为第二控制量；所述第二控制量输出给功能***，进而对外部环境产生影响，再通过传感器感测外部环境的变化并将得到观测值反馈给第一控制器和第二控制器，形成闭环控制结构；循环上述操作，直到1个主要控制目标及X个次要控制目标均完成。

在另一示例中，所述第一控制器输出的第一控制量，不仅基于使主要控制目标达成的原则来生成，还同时基于使X个次要控制目标中的任意一个或多个尽可能达成来生成，或者基于使X个次要控制目标以外的其他次要控制模块仅可能达成来生成。

所述神经网络辅助***的一种训练方法如下：

每一组训练样本数据通过随机设置***控制量{c₁，c₂，…，c_M}，随机设置或者按照一定顺序遍历典型环境参数,并记录观测量{s₁，s₂，…,s_K}，测量各个目标量{y₁，y₂，…，y_N}；目标量集合中y₁是主目标量，其它是次目标量；

X_i＝(y₁，s₁，s₂，…，s_K)

步骤1.3、构建代价函数

其中，

代价函数对神经网络权值向量的梯度为

其中，权值向量W＝(w₁，w₂，…，w_m)；

步骤1.4、根据梯度下降算法更新权重向量

如附图3所示，本发明第二种多目标控制***，其中，传感器检测外部环境，得到一组观测值；将所述观测值反馈给第一神经网络，且经过第一神经网络的计算后得到第一控制量；所述第一控制量用来达成主要控制目标；将所述观测值反馈给第二神经网络，并将所述第一控制量也反馈给第二神经网络，第二神经网络在不影响主要控制目标达成的基础上，计算出最大限度地达成次要控制目标的第二控制量；通过所述第二控制量向功能***进行输出，并且传感器再次检测外部环境，继续循环上述操作。

第二神经网络的训练方法与本发明第一种多目标控制***的神经网络辅助***的训练方法类似。

第一神经网络的一种训练方法如下：

步骤3.1、首先完成对第二神经网络的训练；

其输出是一个期望的主目标值

步骤3.3、构建辅助模块，其输入为以

输出为

步骤3.4、通过强化学习算法，将第一神经网络作为强化学习(ReinforcementLearning，RL)算法中的Agent，在某次试验的第k步，第一神经网络的输出经过第二神经网络生成控制向量{c₁，c₂，…，c_M}，并作用于***，得到主目标值

如附图4所示，本发明第三种多目标控制***，其中，传感器检测外部环境，得到一组观测值，将所述观测值反馈给神经网络，且经过所述神经网络计算出一个控制量；所述控制量在达成主要控制目标的基础上，最大限度地达成次要控制目标；通过所述控制量功能***进行输出，并且传感器再次检测外部环境，继续循环上述操作。

所述神经网络的训练方法与本发明第一种多目标控制***的神经网络辅助***的训练方法类似；或者，也可以通过下面所述的一种神经网络训练方法。

步骤5.1、对于连续的T次操作以及最终获得的累积主目标量门限v，第t次操作时，第一神经网络的输入是

其输出输出是控制量

若将控制量

作用于***，通过***模拟软件或者实验室测试***得到目标向量

步骤5.2、构建辅助模块，其输入为以

为输入进行连续T次操作中，根据

计算得到的第t次得到的目标值

输出为

步骤5.3、通过强化学习算法，将神经网络作为强化学习算法中的Agent，在某次试验的第k步，神经网络生成控制向量

并作用于***，得到目标向量

通过辅助模块计算强化学习算法的奖励函数值，并反馈给学习算法，更新神经网络的权重向量；所述强化学习算法包含：Sarsa，Q-Learning，DDPG。

本发明的第一实施例可以应用到空调控制***当中。空调控制***的制热及制冷模式的目标是在预定时间范围内达到预设室内温度、同时尽可能降低功耗。该***的控制量包含：压缩机频率、内风机转速、外风机转速、膨胀阀开度等；观测量包含：室内/外温度/湿度、蒸发器表面温度、冷凝器表面温度、运行时间等。当空调机做功输出制冷量使得室内温度下降，一旦过调使室内温度低于预设值，只能依靠房间内热源、或者墙壁导热进行升温，所以该***有主动降温、被动升温的特点。因此各空调厂商根据多年累积的经验、针对特定机型进行PID控制参数调优，但所有用户都有不全相同的环境，例如阳光直射情况、房间面积、空调安装位置等。这样一来，当多年使用该***，或者***原件老化导致设备实际性能与实验室测试设备性能相差甚远。

针对现有技术中的缺陷，本发明使用第一种多目标控制***时，所述空调控制***的主要控制目标包含预定时间范围内达到预设室内温度，所述空调控制***的次要控制目标包含降低功耗；所述空调控制***的传感器检测的观测值包含室内/外温度、湿度、蒸发器表面温度、冷凝器表面温度、运行时间；所述空调控制***的传感器将观测值反馈给PID控制器，得到一组第一控制量；所述第一控制量包含：压缩机频率、内风机转速、外风机转速、膨胀阀开度；将所述第一控制量及传感器的观测值再反馈给所述神经网络辅助***，进一步得到第二控制量；所述第二控制量在不影响主要控制目标达成的基础上，最大限度地达成次要控制目标；将所述第二控制量输入到输出***中，进行制冷，并且循环上述步骤。

当使用第二种多目标控制***时，所述空调控制***的主要控制目标包含预定时间范围内达到预设室内温度，所述空调控制***的次要控制目标包含降低功耗；所述空调控制***的传感器检测的观测值包含室内/外温度、湿度、蒸发器表面温度、冷凝器表面温度、运行时间；所述空调控制***的传感器将观测值反馈给第一神经网络，得到一组第一控制量映射到一组特殊的与制冷能力相关的中间量A；所述第一控制量包含：压缩机频率、内风机转速、外风机转速、膨胀阀开度；将所述中间量A及传感器的观测值再反馈给第二神经网络，进一步将中间量A映射到第二控制量；所述第二控制量在不影响主要控制目标达成的基础上，最大限度地达成次要控制目标；将所述第二控制量输入到输出***中，进行制冷，并且循环上述步骤。

以上的过程也可以使用第三种多目标控制***所述的单一的神经网络结构完成。所述空调控制***的主要控制目标包含预定时间范围内达到预设室内温度，所述空调控制***的次要控制目标包含降低功耗；所述空调控制***的传感器检测的观测值包含室内/外温度、湿度、蒸发器表面温度、冷凝器表面温度、运行时间；所述空调控制***的传感器将观测值反馈给神经网络，得到控制量；所述控制量在不影响主要控制目标达成的基础上，最大限度地达成次要控制目标；将所述控制量输入到输出***中，进行制冷，并且循环上述步骤。在这里，神经网络的参数(权重)根据设备使用时间进行调整，以适应设备老化，保证设备一直工作在最节能的状态。

本发明的第二实施例可以应用到多摄像头监控***当中，多摄像头监控***的目标量是有嫌疑目标出现时保持目标在***画面内，同时保持最大监控范围(等效地，最小化***监控盲区)。该***的控制量包含：各个摄像头的角度位置、转动角速度；观测量包含：各摄像头画面。该***在运作时，各摄像头被独立控制，或甚至监控工作人员手工控制摄像头方向，所以在出现嫌疑目标时，容易造成监控盲区。而且该***采用固定广角摄像头，画面范围大，所以捕捉到的嫌疑目标画面无法锁定、局部画面分辨率低等缺点。在环境变化以及***故障时，比如临时遮挡物的出现以及某摄像头临时故障等情况下，需要在线地调整控制策略。

针对现有技术中的缺陷，该实施例优先选用第二种多目标控制***来实现。所述多摄像头监控***的主要控制目标包含嫌疑目标出现时保持目标在***画面内，次要控制目标最大监控范围；所述多摄像头监控***的观测值包含：各摄像头画面；多摄像头监控***在任一监控画面出现嫌疑人或车或物体时，把观测值反馈给第一神经网络，得到第一控制量；得到一组第一控制量包含：各个摄像头的角度位置、转动角速度；所述各摄像头画面若有故障、监控环境中已经出现的临时遮挡物，则把该信息反馈给第二神经网络，进一步调节第一控制量而到第二控制量；所述第二控制量在不影响主要控制目标达成的基础上，最大限度地达成次要控制目标；根据所述第二控制量调整所有摄像头的最佳朝向，使得监控***盲区最小，并且循环上述步骤。如果遇到监控范围内有较大变化，如新建建筑物等，则需要对第二神经网络重新进行调整；或者可以通过在线学习的方式，将采集到的图像传到后台服务器，在后台同步地更新监控区模型并据此对第二神经网络进行调整。优选地，第二神经网络的参数需要在监控***进行部署时进行调优。

本发明的第三实施例可以应用到基于温区用多套神经网络进行控制的冰箱***中，冰箱***与空调控制***类似。该实施例优先选用第三种多目标控制***来实现。除去训练单一的神经网络进行***控制之外，还可以训练多套神经网络来适应不同的工作情况，每一套神经网络具有差异较大的控制目标，再使用一段简单的控制逻辑在多套神经网络中进行切换。其中，第一神经网络专门用于冷冻室的制冷以及除霜，控制目标侧重点在于对冷冻室进行快速降温的同时控制霜量；第二神经网络则用于冷藏-冷冻室的制冷，控制目标侧重于在冷藏室的制冷和整体能效；再通过一套外部控制逻辑在第一神经网络和第二神经网络之间进行切换、同时控制冷藏与冷冻。若冷冻室温度过高，则让第一神经网络工作；若冷冻室温度达到设定值，则切换到第二神经网络进行控制。

本发明的第四实施例可以应用到智能洗衣机控制***中，智能洗衣机控制***的目标量是在用户设定时间内使得清洁程度达到某一阈值之下，并且消耗水和洗衣剂的数量尽可能小。该***的控制量包含：进水阀、出水阀、洗衣剂阀门、电机转矩、加热器；观测量包含：桶内水的清洁程度、计时器、水位等。该***在运作时，受水质、衣物脏污程度、衣物数量影响，***存在高度非线性。传统控制方法只能通过经验由生产厂商或者用户按照一定的预设模式进行清洗，无法针对上述变化量作出调整。

针对现有技术中的缺陷，该实施例优先选用第一种多目标控制***来实现。其中，先按照传统洗衣程序反馈给执行一套预设程序的控制器之后，得到控制量1(目标水位、加注洗衣剂毫升数、水温、电机转矩等)；将控制量1以及清洁传感器测量值(清洁度)、计时器数值输入神经网络辅助***；神经网络辅助***再根据清洁度的变化量，距离目标清洁度阈值的差，以及剩余洗衣时间来调整水位、水温、电机等得到控制量2，在保证清洁度下的前提下，尽可能少地使用洗衣剂、水以及降低耗电。

本发明通过神经网络，能够解决高维观测量(输入)以及高维控制量(输出)的复杂控制问题，还适用于非线性***，而且能够自学习调整神经网络辅助***参数，以适应环境以及***内部的缓慢变化，与传统控制方式结合神经网络辅助，让传统控制器专注于主要控制目标，让***主要功能不受到次要目标的影响，大大降低***调参难度。其中第一种多目标控制***较仅有神经网络的控制***更为安全、稳定。第一种多目标控制***由于神经网络只用于辅助，其在特殊情况下的不确定性不会导致***主要功能瘫痪，也易于对神经网络输出进行检验。若神经网络辅助***计算结果不合理的情况下，则维持传统控制器的输出控制量。

尽管本发明的内容已经通过上述优选实例作了详细介绍，但应当认识到上述的描述不应被认为是本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求。