CN109143870B - 一种多目标任务的控制方法 - Google Patents

一种多目标任务的控制方法 Download PDF

Info

Publication number
CN109143870B
CN109143870B CN201811236696.2A CN201811236696A CN109143870B CN 109143870 B CN109143870 B CN 109143870B CN 201811236696 A CN201811236696 A CN 201811236696A CN 109143870 B CN109143870 B CN 109143870B
Authority
CN
China
Prior art keywords
neural network
target
control
vector
observed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811236696.2A
Other languages
English (en)
Other versions
CN109143870A (zh
Inventor
江一波
卿川东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bestechnic Shanghai Co Ltd
Original Assignee
Ningbo Xitang Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Xitang Information Technology Co ltd filed Critical Ningbo Xitang Information Technology Co ltd
Priority to CN201811236696.2A priority Critical patent/CN109143870B/zh
Publication of CN109143870A publication Critical patent/CN109143870A/zh
Application granted granted Critical
Publication of CN109143870B publication Critical patent/CN109143870B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明是一种多目标任务的控制方法,通过一个或多个神经网络,在主要控制目标达成的基础上最大限度地达成次要控制目标。传感器检测外部环境,得到一组观测值,将所述观测值反馈给主控制器或第一神经网络后得到第一控制量;所述第一控制量用来达成主要控制目标;将所述观测值反馈给神经网络辅助***,并将所述第一控制量也传输给神经网络辅助***,神经网络辅助***在不影响主要控制目标达成的基础上,计算出最大限度地达成次要控制目标的第二控制量;通过所述第二控制量功能***进行输出,并且传感器检测外部环境得到的观测值反馈给主控制器,并且循环上述步骤。

Description

一种多目标任务的控制方法
技术领域
本发明属于自动控制技术领域,具体涉及一种多目标任务的控制方法。
背景技术
多目标控制是指同时控制两个或者两个以上的相互依赖的目标。多目标控制***由于多个目标量,所以存在多个控制量及多个观测量,而且目标量随着控制量非线性变化。现有的多目标控制方案根据大量实验以及工程师经验调整控制***参数,所以调参难度比较大。而且设备本身老化或者设备工作环境与实验室环境不一致,导致控制结果无法达到最优,所以适应性较差。
如附图1所示的传统多目标控制***中,传感器探测外部环境得到的观测值直接反馈给控制器,控制器根据主目标和多个次目标进行计算,得到控制量之后直接输出给功能***,对外部环境产生影响。但现有的多目标控制方案的外部环境有非线性,快时变的特点,功能***则有非线性、慢时变的特点,而且反馈观测量的传感器本身有不稳定因素及误差因素。因此控制器即使得到传感器的反馈之后很难做出精确的控制。
近几年开始研发神经网络***,其特点有根据输入信号产生一组预测值输出信号,且允许输入或输出高维参数向量,及支持非线性映射,并通过改变网络权重,调整输入到输出的映射函数等特点。等效函数组合或查找表在本质上神经网络完成了一个高维向量x到另一个高维向量y的(线性或非线性)映射,即y=f(x);等效地,该函数也可以用一个低维输入输出函数的集合{yi=fi,j(xj)}以及一个调用函数的规则体系达到同等的性能;在输入输出维度不高时,甚至可以通过构建查找表,将所有输入量组合对应的输出量存储下来以供使用时查找;或者用查找表和函数组合等效的方法。然而,等效方法往往需要付出更高存储的代价,并且难以进行调整,需要逐个对函数集合中的成员函数或者查找表中的各个元组进行逐个更新。
神经网络具有运算速度快、消耗资源少等优点,运用于诸多方面且取得了较佳结果,具有很高的研究与运用价值。尤其在控制***里面,具有开发时间短、灵活性高等优点,非常适合多目标控制***。
发明内容
本发明提出了一种多目标任务的控制方法,以达到主要控制目标的情况下,同时最大限度地达成次要控制目标。
为了达到以上目的,本发明通过以下技术方案实现:
一种多目标任务的控制方法,
传感器检测外部环境,得到一组观测值,将所述观测值反馈给主控制器,且经过主控制器的计算后得到第一控制量;
所述第一控制量用来达成主要控制目标;
将所述观测值反馈给神经网络辅助***,并将所述第一控制量也传输给神经网络辅助***,神经网络辅助***在不影响主要控制目标达成的基础上,计算出最大限度地达成次要控制目标的第二控制量;
通过所述第二控制量功能***进行输出,并且传感器检测外部环境得到的观测值反馈给主控制器。
优选地,神经网络的初始参数在***设置时离线调优;或,神经网络的参数通过在线学习以适应环境以及设备***的变化;神经网络的参数更新在***本地自动地进行,或通过联网下载,或人工调整;
或者,以等效函数组合或查找表代替所述神经网络。
优选地,所述神经网络辅助***的输入还包括一个或者多个用以表征主要控制目标达成所需的辅助指标值;
所述的辅助指标值由第一控制量和部分观测值计算得到。
优选地,所述神经网络辅助***的一种训练方法如下:
步骤1.1、通过***模拟软件或在实验室环境下对***进行测量,获得n组训练样本数据:
每一组训练样本数据通过随机设置***控制量{c1,c2,…,cM},随机设置或者按照一定顺序遍历典型环境参数,并记录观测量{s1,s2,…,sK},测量各个目标量{y1,y2,…,yN};目标量集合中y1是主目标量,其它是次目标量;
步骤1.2、根据n组样本数据,记录由主目标量和观测量组成的向量
Xi(y1,s1,S2,...,SK)
且在所述向量的每一种可能的取值所对应的最佳控制量,使得次目标量最大化;
Figure BDA0001838335470000031
其中,i=1,2,…,n,λi为一组重要性权重,默认值为全1;
步骤1.3、构建代价函数
Figure BDA0001838335470000032
其中,
Figure BDA0001838335470000033
和Ci分别代表网络输出的控制量和前一步得到的最佳控制量;
代价函数对神经网络权值向量的梯度为
Figure BDA0001838335470000034
其中,权值向量W=(w1,w2,…,wm);
步骤1.4、根据梯度下降算法更新权重向量
Figure BDA0001838335470000035
其中,α取值一般为0.001,或根据其它已有的机器学习技术动态调整;
步骤1.5、迭代执行步骤1.4更新权值向量,直到达到预设的最大迭代次数,或满足收敛准则。
一种多目标任务的控制方法,
传感器检测外部环境,得到一组观测值;将所述观测值反馈给第一神经网络,且经过第一神经网络的计算后得到第一控制量;
所述第一控制量用来达成主要控制目标;
将所述观测值反馈给第二神经网络,并将所述第一控制量也传输给第二神经网络,第二神经网络在不影响主要控制目标达成的基础上,计算出最大限度地达成次要控制目标的第二控制量;
通过所述第二控制量功能***进行输出,并且传感器检测外部环境得到的观测值反馈给所述第一神经网络。
优选地,神经网络的初始参数在***设置时离线调优;或,神经网络的参数通过在线学习以适应环境以及设备***的变化;
神经网络的参数更新在***本地自动地进行,或通过联网下载,或人工调整;或者,以等效函数组合或查找表代替所述神经网络。
优选地,所述第二神经网络的一种训练方法如下:
步骤2.1、通过***模拟软件或在实验室环境下对***进行测量,获得n组训练样本数据:
每一组训练样本数据通过随机设置***控制量{c1,c2,…,cM},和随机设置环境参数并记录观测量{s1,s2,…,sK},测量各个目标量{y1,y2,…,yN};目标量集合中y1是主目标量,其它是次目标量;
步骤2.2、根据n组样本数据,记录由主目标量和观测量组成的向量
Xi=(y1,s1,s2,…,sK)
且在所述向量的每一种可能的取值所对应的最佳控制量,使得次目标量最大化;
Figure BDA0001838335470000041
其中,i=1,2,…,n,λi为一组重要性权重,默认值为全1;
步骤2.3、构建代价函数
Figure BDA0001838335470000042
其中,
Figure BDA0001838335470000043
和Ci分别代表网络输出的控制量和前一步得到的最佳控制量;
代价函数对神经网络权值向量的梯度为
Figure BDA0001838335470000044
其中,权值向量W=(w1,w2,…,wm);
步骤2.4、根据梯度下降算法更新权重向量
Figure BDA0001838335470000045
其中,α取值一般为0.001,或根据已有的机器学习技术动态调整;
步骤2.5、迭代执行步骤2.5更新权值向量,直到达到预设的最大迭代次数,或满足收敛准则。
优选地,所述第一神经网络的一种训练方法如下:
步骤3.1、首先完成对第二神经网络的训练;
步骤3.2、对于连续的T次操作以及最终获得的累积主目标量门限v,第t次操作时,第一神经网络的输入是
Figure BDA0001838335470000051
其输出是一个期望的主目标值
Figure BDA0001838335470000052
步骤3.3、构建辅助模块,其输入为以
Figure BDA0001838335470000053
为输入通过第二神经网络对***进行连续T次操作中,第t次得到的目标值
Figure BDA0001838335470000054
输出为
Figure BDA0001838335470000055
步骤3.4、通过强化学习算法,将第一神经网络作为强化学习算法中的Agent,在某次试验的第k步,第一神经网络的输出经过第二神经网络生成控制向量{c1,c2,…,cM},并作用于***,得到主目标值
Figure BDA0001838335470000056
用辅助模块计算RL的奖励函数值,并反馈给学习算法,更新第一神经网络的权重向量;所述强化学习算法包含:Sarsa,Q-Learning,DDPG。
一种多目标任务的控制方法,
传感器检测外部环境,得到一组观测值,将所述观测值反馈给神经网络,且经过所述神经网络计算出一个控制量;
所述控制量在主要控制目标达成的基础上,最大限度地达成次要控制目标;
通过所述控制量功能***进行输出,并且传感器检测外部环境得到的观测值反馈给所述神经网络。
优选地,神经网络的初始参数在***设置时离线调优;或,神经网络的参数通过在线学习以适应环境以及设备***的变化;
神经网络的参数更新在***本地自动地进行,或通过联网下载,或人工调整;或者,以等效函数组合或查找表代替所述神经网络。
本发明和以往相比较,通过引入神经网络的控制,整个***的运算速度快、消耗资源少、开发时间短、灵活性高等优点。
附图说明
图1是现有的多目标控制方案的***示意图;
图2是本发明第一种多目标控制***示意图;
图3是本发明第二种多目标控制***示意图;
图4是本发明第三种多目标控制***示意图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合附图和具体实施例对本发明做进一步详细的说明,但不以任何方式限制本发明的范围。
如附图2所示,本发明第一种多目标控制***,其中,第一控制器选用传统PID控制器,用来确保主要控制目标的达成,该第一控制器的输入为传感器的观测值,输出为第一控制量;所述第一控制量确保主要控制目标的达成。第二控制器选用神经网络辅助***,用来在不影响主要控制目标达成的基础上,最大限度地达成X个次要控制目标,其输入为传感器的观测值及第一控制量,输出为第二控制量;所述第二控制量输出给功能***,进而对外部环境产生影响,再通过传感器感测外部环境的变化并将得到观测值反馈给第一控制器和第二控制器,形成闭环控制结构;循环上述操作,直到1个主要控制目标及X个次要控制目标均完成。
在另一示例中,所述第一控制器输出的第一控制量,不仅基于使主要控制目标达成的原则来生成,还同时基于使X个次要控制目标中的任意一个或多个尽可能达成来生成,或者基于使X个次要控制目标以外的其他次要控制模块仅可能达成来生成。
所述神经网络辅助***的一种训练方法如下:
步骤1.1、通过***模拟软件或在实验室环境下对***进行测量,获得n组训练样本数据:
每一组训练样本数据通过随机设置***控制量{c1,c2,…,cM},随机设置或者按照一定顺序遍历典型环境参数,并记录观测量{s1,s2,…,sK},测量各个目标量{y1,y2,…,yN};目标量集合中y1是主目标量,其它是次目标量;
步骤1.2、根据n组样本数据,记录由主目标量和观测量组成的向量
Xi=(y1,s1,s2,…,sK)
且在所述向量的每一种可能的取值所对应的最佳控制量,使得次目标量最大化;
Figure BDA0001838335470000071
其中,i=1,2,…,n,λi为一组重要性权重,默认值为全1;
步骤1.3、构建代价函数
Figure BDA0001838335470000072
其中,
Figure BDA0001838335470000073
和Ci分别代表网络输出的控制量和前一步得到的最佳控制量;
代价函数对神经网络权值向量的梯度为
Figure BDA0001838335470000074
其中,权值向量W=(w1,w2,…,wm);
步骤1.4、根据梯度下降算法更新权重向量
Figure BDA0001838335470000075
其中,α取值一般为0.001,或根据其它已有的机器学习技术动态调整;
步骤1.5、迭代执行步骤1.4更新权值向量,直到达到预设的最大迭代次数,或满足收敛准则。
如附图3所示,本发明第二种多目标控制***,其中,传感器检测外部环境,得到一组观测值;将所述观测值反馈给第一神经网络,且经过第一神经网络的计算后得到第一控制量;所述第一控制量用来达成主要控制目标;将所述观测值反馈给第二神经网络,并将所述第一控制量也反馈给第二神经网络,第二神经网络在不影响主要控制目标达成的基础上,计算出最大限度地达成次要控制目标的第二控制量;通过所述第二控制量向功能***进行输出,并且传感器再次检测外部环境,继续循环上述操作。
第二神经网络的训练方法与本发明第一种多目标控制***的神经网络辅助***的训练方法类似。
第一神经网络的一种训练方法如下:
步骤3.1、首先完成对第二神经网络的训练;
步骤3.2、对于连续的T次操作以及最终获得的累积主目标量门限v,第t次操作时,第一神经网络的输入是
Figure BDA0001838335470000081
其输出是一个期望的主目标值
Figure BDA0001838335470000082
步骤3.3、构建辅助模块,其输入为以
Figure BDA0001838335470000083
为输入通过第二神经网络对***进行连续T次操作中,第t次得到的目标值
Figure BDA0001838335470000084
输出为
Figure BDA0001838335470000085
步骤3.4、通过强化学习算法,将第一神经网络作为强化学习(ReinforcementLearning,RL)算法中的Agent,在某次试验的第k步,第一神经网络的输出经过第二神经网络生成控制向量{c1,c2,…,cM},并作用于***,得到主目标值
Figure BDA0001838335470000086
用辅助模块计算RL的奖励函数值,并反馈给学习算法,更新第一神经网络的权重向量;所述强化学习算法包含:Sarsa,Q-Learning,DDPG。
如附图4所示,本发明第三种多目标控制***,其中,传感器检测外部环境,得到一组观测值,将所述观测值反馈给神经网络,且经过所述神经网络计算出一个控制量;所述控制量在达成主要控制目标的基础上,最大限度地达成次要控制目标;通过所述控制量功能***进行输出,并且传感器再次检测外部环境,继续循环上述操作。
所述神经网络的训练方法与本发明第一种多目标控制***的神经网络辅助***的训练方法类似;或者,也可以通过下面所述的一种神经网络训练方法。
步骤5.1、对于连续的T次操作以及最终获得的累积主目标量门限v,第t次操作时,第一神经网络的输入是
Figure BDA0001838335470000091
其输出输出是控制量
Figure BDA0001838335470000092
若将控制量
Figure BDA0001838335470000093
作用于***,通过***模拟软件或者实验室测试***得到目标向量
Figure BDA0001838335470000094
步骤5.2、构建辅助模块,其输入为以
Figure BDA0001838335470000095
为输入进行连续T次操作中,根据
Figure BDA0001838335470000096
计算得到的第t次得到的目标值
Figure BDA0001838335470000097
输出为
Figure BDA0001838335470000101
步骤5.3、通过强化学习算法,将神经网络作为强化学习算法中的Agent,在某次试验的第k步,神经网络生成控制向量
Figure BDA0001838335470000102
并作用于***,得到目标向量
Figure BDA0001838335470000103
通过辅助模块计算强化学习算法的奖励函数值,并反馈给学习算法,更新神经网络的权重向量;所述强化学习算法包含:Sarsa,Q-Learning,DDPG。
本发明的第一实施例可以应用到空调控制***当中。空调控制***的制热及制冷模式的目标是在预定时间范围内达到预设室内温度、同时尽可能降低功耗。该***的控制量包含:压缩机频率、内风机转速、外风机转速、膨胀阀开度等;观测量包含:室内/外温度/湿度、蒸发器表面温度、冷凝器表面温度、运行时间等。当空调机做功输出制冷量使得室内温度下降,一旦过调使室内温度低于预设值,只能依靠房间内热源、或者墙壁导热进行升温,所以该***有主动降温、被动升温的特点。因此各空调厂商根据多年累积的经验、针对特定机型进行PID控制参数调优,但所有用户都有不全相同的环境,例如阳光直射情况、房间面积、空调安装位置等。这样一来,当多年使用该***,或者***原件老化导致设备实际性能与实验室测试设备性能相差甚远。
针对现有技术中的缺陷,本发明使用第一种多目标控制***时,所述空调控制***的主要控制目标包含预定时间范围内达到预设室内温度,所述空调控制***的次要控制目标包含降低功耗;所述空调控制***的传感器检测的观测值包含室内/外温度、湿度、蒸发器表面温度、冷凝器表面温度、运行时间;所述空调控制***的传感器将观测值反馈给PID控制器,得到一组第一控制量;所述第一控制量包含:压缩机频率、内风机转速、外风机转速、膨胀阀开度;将所述第一控制量及传感器的观测值再反馈给所述神经网络辅助***,进一步得到第二控制量;所述第二控制量在不影响主要控制目标达成的基础上,最大限度地达成次要控制目标;将所述第二控制量输入到输出***中,进行制冷,并且循环上述步骤。
当使用第二种多目标控制***时,所述空调控制***的主要控制目标包含预定时间范围内达到预设室内温度,所述空调控制***的次要控制目标包含降低功耗;所述空调控制***的传感器检测的观测值包含室内/外温度、湿度、蒸发器表面温度、冷凝器表面温度、运行时间;所述空调控制***的传感器将观测值反馈给第一神经网络,得到一组第一控制量映射到一组特殊的与制冷能力相关的中间量A;所述第一控制量包含:压缩机频率、内风机转速、外风机转速、膨胀阀开度;将所述中间量A及传感器的观测值再反馈给第二神经网络,进一步将中间量A映射到第二控制量;所述第二控制量在不影响主要控制目标达成的基础上,最大限度地达成次要控制目标;将所述第二控制量输入到输出***中,进行制冷,并且循环上述步骤。
以上的过程也可以使用第三种多目标控制***所述的单一的神经网络结构完成。所述空调控制***的主要控制目标包含预定时间范围内达到预设室内温度,所述空调控制***的次要控制目标包含降低功耗;所述空调控制***的传感器检测的观测值包含室内/外温度、湿度、蒸发器表面温度、冷凝器表面温度、运行时间;所述空调控制***的传感器将观测值反馈给神经网络,得到控制量;所述控制量在不影响主要控制目标达成的基础上,最大限度地达成次要控制目标;将所述控制量输入到输出***中,进行制冷,并且循环上述步骤。在这里,神经网络的参数(权重)根据设备使用时间进行调整,以适应设备老化,保证设备一直工作在最节能的状态。
本发明的第二实施例可以应用到多摄像头监控***当中,多摄像头监控***的目标量是有嫌疑目标出现时保持目标在***画面内,同时保持最大监控范围(等效地,最小化***监控盲区)。该***的控制量包含:各个摄像头的角度位置、转动角速度;观测量包含:各摄像头画面。该***在运作时,各摄像头被独立控制,或甚至监控工作人员手工控制摄像头方向,所以在出现嫌疑目标时,容易造成监控盲区。而且该***采用固定广角摄像头,画面范围大,所以捕捉到的嫌疑目标画面无法锁定、局部画面分辨率低等缺点。在环境变化以及***故障时,比如临时遮挡物的出现以及某摄像头临时故障等情况下,需要在线地调整控制策略。
针对现有技术中的缺陷,该实施例优先选用第二种多目标控制***来实现。所述多摄像头监控***的主要控制目标包含嫌疑目标出现时保持目标在***画面内,次要控制目标最大监控范围;所述多摄像头监控***的观测值包含:各摄像头画面;多摄像头监控***在任一监控画面出现嫌疑人或车或物体时,把观测值反馈给第一神经网络,得到第一控制量;得到一组第一控制量包含:各个摄像头的角度位置、转动角速度;所述各摄像头画面若有故障、监控环境中已经出现的临时遮挡物,则把该信息反馈给第二神经网络,进一步调节第一控制量而到第二控制量;所述第二控制量在不影响主要控制目标达成的基础上,最大限度地达成次要控制目标;根据所述第二控制量调整所有摄像头的最佳朝向,使得监控***盲区最小,并且循环上述步骤。如果遇到监控范围内有较大变化,如新建建筑物等,则需要对第二神经网络重新进行调整;或者可以通过在线学习的方式,将采集到的图像传到后台服务器,在后台同步地更新监控区模型并据此对第二神经网络进行调整。优选地,第二神经网络的参数需要在监控***进行部署时进行调优。
本发明的第三实施例可以应用到基于温区用多套神经网络进行控制的冰箱***中,冰箱***与空调控制***类似。该实施例优先选用第三种多目标控制***来实现。除去训练单一的神经网络进行***控制之外,还可以训练多套神经网络来适应不同的工作情况,每一套神经网络具有差异较大的控制目标,再使用一段简单的控制逻辑在多套神经网络中进行切换。其中,第一神经网络专门用于冷冻室的制冷以及除霜,控制目标侧重点在于对冷冻室进行快速降温的同时控制霜量;第二神经网络则用于冷藏-冷冻室的制冷,控制目标侧重于在冷藏室的制冷和整体能效;再通过一套外部控制逻辑在第一神经网络和第二神经网络之间进行切换、同时控制冷藏与冷冻。若冷冻室温度过高,则让第一神经网络工作;若冷冻室温度达到设定值,则切换到第二神经网络进行控制。
本发明的第四实施例可以应用到智能洗衣机控制***中,智能洗衣机控制***的目标量是在用户设定时间内使得清洁程度达到某一阈值之下,并且消耗水和洗衣剂的数量尽可能小。该***的控制量包含:进水阀、出水阀、洗衣剂阀门、电机转矩、加热器;观测量包含:桶内水的清洁程度、计时器、水位等。该***在运作时,受水质、衣物脏污程度、衣物数量影响,***存在高度非线性。传统控制方法只能通过经验由生产厂商或者用户按照一定的预设模式进行清洗,无法针对上述变化量作出调整。
针对现有技术中的缺陷,该实施例优先选用第一种多目标控制***来实现。其中,先按照传统洗衣程序反馈给执行一套预设程序的控制器之后,得到控制量1(目标水位、加注洗衣剂毫升数、水温、电机转矩等);将控制量1以及清洁传感器测量值(清洁度)、计时器数值输入神经网络辅助***;神经网络辅助***再根据清洁度的变化量,距离目标清洁度阈值的差,以及剩余洗衣时间来调整水位、水温、电机等得到控制量2,在保证清洁度下的前提下,尽可能少地使用洗衣剂、水以及降低耗电。
本发明通过神经网络,能够解决高维观测量(输入)以及高维控制量(输出)的复杂控制问题,还适用于非线性***,而且能够自学习调整神经网络辅助***参数,以适应环境以及***内部的缓慢变化,与传统控制方式结合神经网络辅助,让传统控制器专注于主要控制目标,让***主要功能不受到次要目标的影响,大大降低***调参难度。其中第一种多目标控制***较仅有神经网络的控制***更为安全、稳定。第一种多目标控制***由于神经网络只用于辅助,其在特殊情况下的不确定性不会导致***主要功能瘫痪,也易于对神经网络输出进行检验。若神经网络辅助***计算结果不合理的情况下,则维持传统控制器的输出控制量。
尽管本发明的内容已经通过上述优选实例作了详细介绍,但应当认识到上述的描述不应被认为是本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求。

Claims (8)

1.一种多目标任务的控制方法,其特征在于,
传感器检测外部环境,得到一组观测值,将所述观测值反馈给主控制器,且经过主控制器的计算后得到第一控制量;
所述第一控制量用来达成主要控制目标;
将所述观测值反馈给神经网络辅助***,并将所述第一控制量也传输给神经网络辅助***,神经网络辅助***在不影响主要控制目标达成的基础上,计算出最大限度地达成次要控制目标的第二控制量;
所述第二控制量通过功能***进行输出,并且传感器检测外部环境得到的观测值反馈给主控制器;
所述神经网络辅助***的一种训练方法如下:
步骤1.1、通过***模拟软件或在实验室环境下对***进行测量,获得n组训练样本数据:
每一组训练样本数据通过随机设置***控制量{c1,c2,…,CM},随机设置或者按照一定顺序遍历典型环境参数,并记录观测量{s1,s2,…,sK},测量各个目标量{y1,y2,…,yN};目标量集合中y1是主目标量,其它是次目标量;
步骤1.2、根据n组样本数据,记录由主目标量和观测量组成的向量
Xi=(y1,s1,s2,…,sK)
和所述向量Xi的每一种可能的取值所对应的最佳控制量,使得次目标量最大化,
Figure FDA0003032581240000011
其中,Xi表示第i组样本数据的主目标量和观测量组成的向量,Ci表示Xi对应的、使得次目标最大化的最佳控制量组成的向量,i=1,2,…,n,yj表示序号为j的次目标量,j=2,3,…,N,λj为次目标量yj对应的重要性权重,默认值为1;
步骤1.3、构建代价函数
Figure FDA0003032581240000021
其中,
Figure FDA0003032581240000022
和Ci分别代表向量Xi对应的网络输出的控制量组成的向量和前一步得到的最佳控制量组成的向量,
Figure FDA0003032581240000023
和ck分别代表向量
Figure FDA0003032581240000024
和Ci中的第k个变量,序号k=1,2,…,M;
代价函数对神经网络权值向量的梯度为
Figure FDA0003032581240000025
其中,神经网络的权值向量W=(w1,w2,…,wm),该神经网络包含的权值变量总数为m;
步骤1.4、根据梯度下降算法更新权重向量
Figure FDA0003032581240000026
其中,α取值为0.001,或根据其它已有的机器学习技术动态调整;
步骤1.5、迭代执行步骤1.4更新权值向量,直到达到预设的最大迭代次数,或满足收敛准则。
2.如权利要求1所述的一种多目标任务的控制方法,其特征在于,神经网络的初始参数在***设置时离线调优;或,神经网络的参数通过在线学习以适应环境以及设备***的变化;神经网络的参数更新在***本地自动地进行,或通过联网下载,或人工调整;
或者,以等效函数组合或查找表代替所述神经网络。
3.如权利要求1所述的一种多目标任务的控制方法,其特征在于,所述神经网络辅助***的输入还包括一个或者多个用以表征主要控制目标达成所需的辅助指标值;
所述的辅助指标值由第一控制量和部分观测值计算得到。
4.一种多目标任务的控制方法,其特征在于,
传感器检测外部环境,得到一组观测值;将所述观测值反馈给第一神经网络,且经过第一神经网络的计算后得到第一控制量;
所述第一控制量用来达成主要控制目标;
将所述观测值反馈给第二神经网络,并将所述第一控制量也传输给第二神经网络,第二神经网络在不影响主要控制目标达成的基础上,计算出最大限度地达成次要控制目标的第二控制量;
所述第二控制量通过功能***进行输出,并且传感器检测外部环境得到的观测值反馈给所述第一神经网络;
所述第二神经网络的一种训练方法如下:
步骤2.1、通过***模拟软件或在实验室环境下对***进行测量,获得n组训练样本数据:
每一组训练样本数据通过随机设置***控制量{c1,c2,…,CM},随机设置环境参数并记录观测量{s1,s2,…,sK},测量各个目标量{y1,y2,…,yN};目标量集合中y1是主目标量,其它是次目标量;
步骤2.2、根据n组样本数据,记录由主目标量和观测量组成的向量
Xi=(y1,s1,s2,…,sK)
和所述向量的每一种可能的取值所对应的最佳控制量,使得次目标量最大化;
Figure FDA0003032581240000031
其中,Xi表示第i组样本数据的主目标量和观测量组成的向量,Ci表示Xi对应的、使得次目标最大化的最佳控制量组成的向量,i=1,2,…,n,yj表示序号为j的次目标量,j=2,3,…,N,λj为次目标量yj对应的重要性权重,默认值为1;
步骤2.3、构建代价函数
Figure FDA0003032581240000032
其中,
Figure FDA0003032581240000041
和Ci分别代表向量Xi对应的网络输出的控制量组成的向量和前一步得到的最佳控制量组成的向量,
Figure FDA0003032581240000042
和ck分别代表向量
Figure FDA0003032581240000043
和Ci中的第k个变量,序号k=1,2,…,M;
代价函数对神经网络权值向量的梯度为
Figure FDA0003032581240000044
其中,神经网络的权值向量w=(w1,w2,…,wm),该神经网络包含的权值变量总数为m;
步骤2.4、根据梯度下降算法更新权重向量
Figure FDA0003032581240000045
其中,α取值为0.001,或根据已有的机器学习技术动态调整;
步骤2.5、迭代执行步骤2.5更新权值向量,直到达到预设的最大迭代次数,或满足收敛准则。
5.如权利要求4所述的一种多目标任务的控制方法,其特征在于,神经网络的初始参数在***设置时离线调优;或,神经网络的参数通过在线学习以适应环境以及设备***的变化;
神经网络的参数更新在***本地自动地进行,或通过联网下载,或人工调整;或者,以等效函数组合或查找表代替所述神经网络。
6.如权利要求4所述的一种多目标任务的控制方法,其特征在于,所述第一神经网络的一种训练方法如下:
步骤3.1、首先完成对第二神经网络的训练;
步骤3.2、对于连续的T次操作以及最终获得的累积主目标量门限v,第t次操作时,第一神经网络的输入是
Figure FDA0003032581240000046
其输出是一个期望的主目标值
Figure FDA0003032581240000047
步骤3.3、构建辅助模块,其输入为以
Figure FDA0003032581240000048
为输入通过第二神经网络对***进行连续T次操作中,第t次得到的目标值ηt
Figure FDA0003032581240000051
输出为
Figure FDA0003032581240000052
步骤3.4、通过强化学习算法,将第一神经网络作为强化学习算法中的Agent,在某次试验的第k步,第一神经网络的输出经过第二神经网络生成控制向量{c1,c2,…,CM},并作用于***,得到主目标值
Figure FDA0003032581240000053
用辅助模块计算强化学习算法的奖励函数值,并反馈给强化学习算法,更新第一神经网络的权重向量;所述强化学习算法包含:Sarsa,Q-Leaming,DDPG。
7.一种多目标任务的控制方法,其特征在于,
传感器检测外部环境,得到一组观测值,将所述观测值反馈给神经网络,且经过所述神经网络计算出一个控制量;
所述控制量在主要控制目标达成的基础上,最大限度地达成次要控制目标;
所述控制量通过功能***进行输出,并且传感器检测外部环境得到的观测值反馈给所述神经网络;
所述神经网络的一种训练方法如下:
步骤2.1、通过***模拟软件或在实验室环境下对***进行测量,获得n组训练样本数据:
每一组训练样本数据通过随机设置***控制量{c1,c2,…,CM},随机设置环境参数并记录观测量{s1,s2,…,sK},测量各个目标量{y1,y2,…,yN};目标量集合中y1是主目标量,其它是次目标量;
步骤2.2、根据n组样本数据,记录由主目标量和观测量组成的向量
Xi=(y1,s1,s2,…,sK)
和所述向量的每一种可能的取值所对应的最佳控制量,使得次目标量最大化;
Figure FDA0003032581240000061
其中,Xi表示第i组样本数据的主目标量和观测量组成的向量,Ci表示Xi对应的、使得次目标最大化的最佳控制量组成的向量,i=1,2,…,n,yj表示序号为j的次目标量,j=2,3,…,N,λj为次目标量yj对应的重要性权重,默认值为1;
步骤2.3、构建代价函数
Figure FDA0003032581240000062
其中,
Figure FDA0003032581240000063
和Ci分别代表向量Xi对应的网络输出的控制量组成的向量和前一步得到的最佳控制量组成的向量,
Figure FDA0003032581240000064
和ck分别代表向量
Figure FDA0003032581240000065
和Ci中的第k个变量,序号k=1,2,…,M;
代价函数对神经网络权值向量的梯度为
Figure FDA0003032581240000066
其中,神经网络的权值向量W=(w1,w2,…,wm),该神经网络包含的权值变量总数为m;
步骤2.4、根据梯度下降算法更新权重向量
Figure FDA0003032581240000067
其中,α取值为0.001,或根据已有的机器学习技术动态调整;
步骤2.5、迭代执行步骤2.5更新权值向量,直到达到预设的最大迭代次数,或满足收敛准则。
8.如权利要求7所述的一种多目标任务的控制方法,其特征在于,神经网络的初始参数在***设置时离线调优;或,神经网络的参数通过在线学习以适应环境以及设备***的变化;
神经网络的参数更新在***本地自动地进行,或通过联网下载,或人工调整;
或者,以等效函数组合或查找表代替所述神经网络。
CN201811236696.2A 2018-10-23 2018-10-23 一种多目标任务的控制方法 Active CN109143870B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811236696.2A CN109143870B (zh) 2018-10-23 2018-10-23 一种多目标任务的控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811236696.2A CN109143870B (zh) 2018-10-23 2018-10-23 一种多目标任务的控制方法

Publications (2)

Publication Number Publication Date
CN109143870A CN109143870A (zh) 2019-01-04
CN109143870B true CN109143870B (zh) 2021-08-06

Family

ID=64809026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811236696.2A Active CN109143870B (zh) 2018-10-23 2018-10-23 一种多目标任务的控制方法

Country Status (1)

Country Link
CN (1) CN109143870B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109631238A (zh) * 2019-01-28 2019-04-16 宁波溪棠信息科技有限公司 一种提高空调***运行能效的控制***和控制方法
EP3715608B1 (en) * 2019-03-27 2023-07-12 Siemens Aktiengesellschaft Machine control based on automated learning of subordinate control skills
CN111562740B (zh) * 2020-05-06 2021-04-23 清华大学 基于利用梯度的多目标强化学习算法的自动控制方法
CN111637435B (zh) * 2020-06-05 2021-09-28 沈阳航空航天大学 基于sarsa的核动力***蒸汽发生器水位控制方法
US20230375987A1 (en) * 2020-10-14 2023-11-23 Linde Gmbh Method for operating a process system, process system and method for converting a process system
CN112817240B (zh) * 2020-12-30 2022-03-22 西安交通大学 一种基于深度强化学习算法的离心压缩机调控方法
CN113741449B (zh) * 2021-08-30 2023-07-14 南京信息工程大学 一种面向海空协同观测任务的多智能体控制方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1598719A (zh) * 2004-09-27 2005-03-23 北京交通大学 一种神经网络优化控制器及控制方法
CN101498534A (zh) * 2008-12-08 2009-08-05 天津大学 制冷空调热泵***电子膨胀阀多目标智能控制方法
CN106681146A (zh) * 2016-12-31 2017-05-17 浙江大学 基于bp神经网络和遗传算法的高炉多目标优化控制算法
CN108177648A (zh) * 2018-01-02 2018-06-19 北京理工大学 一种基于智能预测的插电式混合动力车辆的能量管理方法
CN108256307A (zh) * 2018-01-12 2018-07-06 重庆邮电大学 一种智能商务旅居房车的混合增强智能认知方法
CN108447076A (zh) * 2018-03-16 2018-08-24 清华大学 基于深度增强学习的多目标跟踪方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1598719A (zh) * 2004-09-27 2005-03-23 北京交通大学 一种神经网络优化控制器及控制方法
CN101498534A (zh) * 2008-12-08 2009-08-05 天津大学 制冷空调热泵***电子膨胀阀多目标智能控制方法
CN106681146A (zh) * 2016-12-31 2017-05-17 浙江大学 基于bp神经网络和遗传算法的高炉多目标优化控制算法
CN108177648A (zh) * 2018-01-02 2018-06-19 北京理工大学 一种基于智能预测的插电式混合动力车辆的能量管理方法
CN108256307A (zh) * 2018-01-12 2018-07-06 重庆邮电大学 一种智能商务旅居房车的混合增强智能认知方法
CN108447076A (zh) * 2018-03-16 2018-08-24 清华大学 基于深度增强学习的多目标跟踪方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Neural network technique for fuzzy multiobjective linear programming";Mitsuo GEN等;《Computers ind. Engng》;19981231;全文 *
"基于聚类分析和集成神经网络的序列图像多目标识别算法";周涛等;《计算机科学》;20091231;全文 *
"多区域VAV***串级预测控制方法研究与实现";刘熙;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20130315;第3页第3行至第4页第10行以及图3-3 *

Also Published As

Publication number Publication date
CN109143870A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
CN109143870B (zh) 一种多目标任务的控制方法
CN103245031B (zh) 空调器及其控制方法和装置
CN105783199B (zh) 空调器智能自清洁方法
CN105928139B (zh) 空调器自清洁控制方法
CN109631238A (zh) 一种提高空调***运行能效的控制***和控制方法
CN105864983A (zh) 一种空调控制方法
CN105910228B (zh) 空调器自清洁运行方法
US20210222905A1 (en) Air-conditioning device, control device, air-conditioning method, and program
CN105157169A (zh) 空调器及其控制方法和控制装置
CN106871332B (zh) 一拖二分体式空调器控制方法和一拖二分体式空调器
CN110940030A (zh) 空调的运行控制方法、***及空调器
CN107940667A (zh) 使用多个单变量极值搜索控制器的具有多变量优化的暖通空调***
CN111102728B (zh) 一种空调及其防凝露的方法
CN111102729B (zh) 一种空调及其防凝露的方法
CN109855184A (zh) 空调器及其除湿控制方法
CN111102726B (zh) 一种空调及其防凝露的方法
CN109855186A (zh) 空调器及其除湿控制方法
CN105042799A (zh) 空调器控制方法、控制装置及空调器
CN107917516A (zh) 一种空调室外风机转速的控制方法及装置
CN106016588A (zh) 空调及其风速调节方法和装置
CN111102715B (zh) 一种空调及其防凝露的方法
CN116558167B (zh) 一种结冰风洞的制冷***控制方法、介质及计算机设备
CN111102722B (zh) 一种空调及其防凝露的方法
CN111102717B (zh) 一种空调及其防凝露的方法
CN113899055B (zh) 冷水机组控制***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220622

Address after: Room 201, block B, Changtai Plaza, Lane 2889, Jinke Road, Pudong New Area, Shanghai 200120

Patentee after: Hengxuan Technology (Shanghai) Co.,Ltd.

Address before: 315500 room 701, No. 88, Dongfeng Road, Yuelin street, Fenghua District, Ningbo City, Zhejiang Province

Patentee before: NINGBO XITANG INFORMATION TECHNOLOGY Co.,Ltd.