CN114729762A

CN114729762A - 机器学习装置、需求控制以及空调控制

Info

Publication number: CN114729762A
Application number: CN202080081407.5A
Authority: CN
Inventors: 西村忠史
Original assignee: Daikin Industries Ltd
Current assignee: Daikin Industries Ltd
Priority date: 2019-11-26
Filing date: 2020-11-26
Publication date: 2022-07-08
Also published as: EP4067766A4; AU2020392948A1; JP2021090344A; JP2021103083A; JP7078873B2; US20220282884A1; EP4067766A1; WO2021107054A1

Abstract

本发明提供一种机器学习装置，其能够决定用于实现规定的需求目标值的设定温度。机器学习装置(100)学习用于达成需求目标值的对象空间的设定温度，该需求目标值是对象空间内的空调装置(110)的规定时限内的耗电量的上限值。机器学习装置(100)具备学习部(103)、状态变量取得部(101)、评价数据取得部(105)以及函数更新部(104)。状态变量取得部(101)取得包括空调装置(110)的耗电量和与对象空间的状态相关的室内状态值中的至少一方的状态变量。评价数据取得部(105)取得对空调装置(110)的控制结果进行评价的评价数据。函数更新部(104)使用评价数据来更新学习部(103)的学习状态。学习部(103)按照函数更新部(104)的输出进行学习。评价数据至少包括空调装置(110)的耗电量。

Description

机器学习装置、需求控制***以及空调控制***

技术领域

本发明涉及机器学习装置、具备机器学习装置的需求控制***以及具备机器学习装置的空调控制***。

背景技术

在专利文献1(日本特开2011-36084号公报)中公开了如下结构：根据过去的空调运转实绩数据制作空调部分负载特性和室内热容量特性，决定实现规定的空调电力量的目标值的设定温度。

发明内容

发明所要解决的课题

存在实现规定的空调电力量的目标值的设定温度的精度不充分的课题。

用于解决课题的手段

第一观点的机器学习装置学习用于达成需求目标值的对象空间的设定温度，该需求目标值是设置于对象空间的空调装置的规定时限内的耗电量的上限值。机器学习装置具备学习部、第一取得部、第二取得部以及更新部。第一取得部取得包括空调装置的耗电量和与对象空间的状态相关的室内状态值中的至少一方的第一变量。第二取得部取得评价空调装置的控制结果的评价数据。更新部使用评价数据来更新学习部的学习状态。学习部按照更新部的输出进行学习。评价数据包括空调装置的耗电量。

第一观点的机器学习装置能够决定用于实现规定的需求目标值的设定温度。

第二观点的机器学习装置是在第一观点的机器学习装置中，更新部根据评价数据来计算报酬。学习部使用报酬进行学习。

第三观点的机器学习装置是在第二观点的机器学习装置中，需求目标值与评价数据所包括的空调装置的耗电量之差越小，更新部计算出越高的报酬。

第四观点的机器学习装置是在第一观点的机器学习装置中，还具备变更部，该变更部调整以第一变量为输入变量、以对象空间的设定温度为输出变量的识别函数的参数。学习部按照变更部的输出，多次进行识别函数的参数的变更，针对参数被变更后的每个识别函数，根据第一变量输出设定温度。更新部具备蓄积部和判定部。判定部使用评价数据输出判定结果。蓄积部按照判定结果，根据第一变量和学习部根据第一变量而输出的设定温度来蓄积教师数据。学习部基于蓄积于蓄积部的教师数据进行学习。

第五观点的机器学习装置是在第一至第四观点中的任一个机器学习装置中，室内状态值是对象空间的温度、湿度、温度变化量以及湿度变化量中的至少一方。

第六观点的机器学习装置是在第一至第五观点中的任一个机器学习装置中，第一变量还包括室内条件和室外条件中的至少一方。室内条件包括设置于对象空间的设备的耗电量以及对象空间的在室人数中的至少一方。室外条件包括设置有空调装置的室外机的空间的温度、湿度以及日照量中的至少一方。

第七观点的需求控制***具备第一至第六观点中的任一个机器学习装置和空调装置。

第八观点的机器学习装置学习设置于对象空间的空调装置的部分负载特性。机器学习装置具备第一取得部、第二取得部以及学习部。第一取得部取得包括与空调装置的运转实绩有关的第一参数的第一变量。第二取得部取得包括空调装置的部分负载特性的第二变量。学习部将第一变量与第二变量关联起来进行学习。

第八观点的机器学习装置能够高精度地取得空调装置的部分负载特性的预测值。

第九观点的机器学习装置是在第八观点的机器学习装置中，还具备推断部。推断部基于学习部的学习结果，根据第一变量推断空调装置的部分负载特性的预测值。

第十观点的机器学习装置是在第八观点或第九观点的机器学习装置中，学习部将第一变量和第二变量用作教师数据来进行学习。

第十一观点的机器学习装置在第九观点的机器学习装置中，还具备更新部。更新部根据第二变量以及部分负载特性的预测值来计算报酬。学习部使用报酬进行学习。

第十二观点的机器学习装置是在第十一观点的机器学习装置中，第二变量所包括的空调装置的部分负载特性与部分负载特性的预测值之差越小，更新部计算出越高的报酬。

第十三观点的机器学习装置是在第八至第十二观点中的任一个机器学习装置中，第一参数包括与空调装置的能力相关的参数以及与空调装置的耗电量相关的参数中的至少一方。

第十四观点的机器学习装置学习设置有空调装置的对象空间的热容量特性。机器学习装置具备第一取得部、第二取得部以及学习部。第一取得部取得第一变量，所述第一变量包括与空调装置的能力相关的第一参数和与对象空间的状态相关的第二参数中的至少一方。第二取得部取得包括对象空间的热容量特性的第二变量。学习部将第一变量与第二变量关联起来进行学习。

第十四观点的机器学习装置能够高精度地取得设置有空调装置的对象空间的热容量特性的预测值。

第十五观点的机器学习装置是在第十四观点的机器学习装置中，还具备推断部。推断部基于学习部的学习的结果，根据第一变量推断对象空间的热容量特性的预测值。

第十六观点的机器学习装置是在第十四观点或第十五观点的机器学习装置中，学习部将第一变量和第二变量用作教师数据来进行学习。

第十七观点的机器学习装置是在第十五观点的机器学习装置中，还具备更新部。更新部基于第二变量以及热容量特性的预测值来计算报酬。学习部使用报酬进行学习。

第十八观点的机器学习装置是在第十七观点的机器学习装置中，第二变量所包括的对象空间的热容量特性与热容量特性的预测值之差越小，更新部计算出越高的报酬。

第十九观点的机器学习装置是第十四至第十八观点中的任一个机器学习装置中，第二参数是对象空间的温度、湿度、温度变化量以及湿度变化量中的至少一方。

第二十观点的机器学习装置是在第十四至第十九观点中的任一个机器学习装置中，第一变量还包括室内条件和室外条件中的至少一方。室内条件是设置于对象空间的设备的耗电量以及对象空间的在室人数中的至少一方。室外条件是设置有空调装置的室外机的空间的温度、湿度以及日照量中的至少一方。

第二十一观点的空调控制***决定用于实现需求目标值的、用于控制空调装置的控制参数，该需求目标值是设置于对象空间的空调装置的规定时限内的耗电量的上限值。空调控制***具备机器学习装置、输出部以及决定部。机器学习装置学习设置有空调装置的对象空间的热容量特性和设置于对象空间的空调装置的部分负载特性。输出部输出用于控制空调装置的控制参数的候选。决定部决定用于控制空调装置的控制参数。机器学习装置具备第一取得部、第二取得部、第一学习部、第一推断部、第三取得部、第四取得部、第二学习部以及第二推断部。第一取得部取得第一变量，所述第一变量包括与空调装置的能力相关的第一参数和与对象空间的状态相关的第二参数中的至少一方。第二取得部取得包括对象空间的热容量特性的第二变量。第一学习部将第一变量和第二变量关联起来进行学习。第一推断部根据第一学习部的学习结果，根据第一变量推断作为对象空间的热容量特性的预测值的第一预测值。第三取得部取得包括第一预测值的第三变量。第四取得部取得包括空调装置的部分负载特性的第四变量。第二学习部将第三变量与第四变量关联起来进行学习。第二推断部基于输出部输出的控制参数的候选以及第二学习部的学习结果，根据第三变量推断空调装置的部分负载特性的预测值即第二预测值。决定部以使第二预测值满足与需求目标值有关的规定条件的方式决定控制参数。

第二十一观点的空调控制***能够决定用于实现规定的需求目标值的控制参数。

第二十二观点的空调控制***是在第二十一观点的空调控制***中，第二参数是对象空间的温度、湿度、温度变化量以及湿度变化量中的至少一方。控制参数包括用于达成需求目标值的对象空间的设定温度。

第二十三观点的空调控制***是在第二十一观点或第二十二观点的空调控制***中，决定部以使空调装置的部分负载特性的目标值与第二推断部推断出的第二预测值之差变小的方式决定控制参数。第二学习部使用决定部所决定的控制参数来进行学习。

附图说明

图1是第一实施方式的学习中的机器学习装置100的框图。

图2是第一实施方式的学习后的机器学习装置100的框图。

图3是第二实施方式的学习中的机器学习装置200的框图。

图4是第二实施方式的学习后的机器学习装置200的框图。

图5是第三实施方式的学习中的机器学习装置300的框图。

图6是第三实施方式的学习后的机器学习装置300的框图。

图7是第四实施方式的学习中的机器学习装置400的框图。

图8是第四实施方式的学习后的机器学习装置400的框图。

图9是变形例A的学习中的机器学习装置100的框图。

图10是变形例A的学习后的机器学习装置100的框图。

图11是神经网络的神经元的模型的示意图。

图12是组合图11所示的神经元而构成的三层神经网络的示意图。

图13是用于说明支持向量机的图。表示2类学习数据能够线性分离的特征空间。

图14表示2类学习数据不能进行线性分离的特征空间。

图15是通过分治法构成的决策树的一例。

图16表示由图15的决策树分割的特征空间。

具体实施方式

-第一实施方式-

参照附图对第一实施方式的需求控制***10进行说明。需求控制***10进行用于达到需求目标值的空调装置110的控制。需求目标值是指设置于对象空间的空调装置110的规定时限内的耗电量的上限值。换言之，需求控制***10控制空调装置110使得空调装置110的实际耗电量不超过需求目标值。

需求控制***10具备机器学习装置100和空调装置110。机器学习装置100使用机器学习的方法来学习用于达成规定的需求目标值的对象空间的设定温度。需求控制***10基于机器学习装置100的学习结果取得对象空间的设定温度，根据该设定温度控制空调装置110。机器学习装置100由1个或多个计算机构成。在机器学习装置100由多个计算机构成的情况下，该多个计算机也可以经由网络相互连接。

图1是第一实施方式的学习中的机器学习装置100的框图。图2是第一实施方式的学习后的机器学习装置100的框图。机器学习装置100主要具备状态变量取得部101、学习部103、函数更新部104、评价数据取得部105以及控制量决定部106。状态变量取得部101～控制量决定部106通过机器学习装置100的CPU执行存储在机器学习装置100的存储装置中的程序来实现。

状态变量取得部101取得状态变量(第一变量)。状态变量包括空调装置110的耗电量和与对象空间的状态相关的室内状态值中的至少一方。室内状态值是对象空间的温度、湿度、温度变化量以及湿度变化量中的至少一方。

评价数据取得部105取得对空调装置110的控制结果进行评价的评价数据。评价数据至少包括空调装置110的耗电量。

函数更新部104使用评价数据取得部105取得的评价数据来更新学习部103的学习状态。

如图1所示，学习部103将状态变量取得部101取得的状态变量与控制量(对象空间的设定温度)关联起来进行学习。学习部103输出作为学习的结果的已学习模型。

学习部103按照函数更新部104的输出进行学习。在第一实施方式中，学习部103进行使用报酬进行学习的强化学习。函数更新部104根据评价数据取得部105取得的评价数据来计算报酬。具体而言，规定的需求目标值与评价数据所包括的空调装置110的实际的耗电量之差越小，函数更新部104计算出越高的报酬。

如图2所示，控制量决定部106基于学习部103的学习的结果所得到的已学习模型，根据状态变量取得部101所取得的状态变量来决定控制量(对象空间的设定温度)。控制量决定部106决定的控制量用于学习部103的学习。

空调装置110基于控制量决定部106决定的设定温度，进行空调装置110的空调控制。空调装置110调整空调装置110的控制对象参数，进行达到控制量决定部106所决定的设定温度的控制。控制对象参数例如是空调装置110的压缩机的转速以及作为空调装置110的膨胀机构的电动阀的开度。

评价数据取得部105将规定的判定数据输入到规定的评价函数，取得评价函数的输出值作为评价数据。换言之，评价函数是从判定数据向评价数据的映射。判定数据是与空调装置110的耗电量相关的参数。与空调装置110的耗电量相关的参数例如是空调装置110的电力值、电流值以及压缩机的转速中的至少一方。

机器学习装置100在设定了规定的需求目标值的情况下，自动地决定用于实现该需求目标值的对象空间的设定温度。因此，需求控制***10通过具备机器学习装置100，能够根据需求目标值直接计算设定温度。因此，需求控制***10通过进行达成规定的需求目标值的空调控制，能够提高节能性能。

-第二实施方式-

参照附图对第二实施方式的空调控制***20进行说明。空调控制***20对设置于对象空间的空调装置210进行控制。

空调控制***20具备机器学习装置200。机器学习装置200学习设置于对象空间的空调装置210的部分负载特性。机器学习装置200由1个或多个计算机构成。在机器学习装置200由多个计算机构成的情况下，该多个计算机也可以经由网络相互连接。

图3是第二实施方式的学习中的机器学习装置200的框图。图4是第二实施方式的学习后的机器学习装置200的框图。机器学习装置200主要具备状态变量取得部201、控制量取得部202、学习部203、函数更新部204以及推断部205。状态变量取得部201～推断部205通过机器学习装置200的CPU执行存储在机器学习装置200的存储装置中的程序来实现。

状态变量取得部201取得至少包括与空调装置210的运转实绩有关的第一参数的状态变量(第一变量)。第一参数包括与空调装置210的能力相关的参数和与空调装置210的耗电量相关的参数中的至少一方。与空调装置210的能力相关的参数是指压缩机的转速、制冷剂的蒸发温度、制冷剂的冷凝温度、室内机的运转台数、室内机风扇的风量以及室内机的电动阀的开度中的至少一方。与空调装置210的耗电量相关的参数是指空调装置210的电力值、电流值以及压缩机的转速中的至少一方。第一参数还可以包括空气条件，该空气条件包括运转时的室内和室外的温度和湿度。

控制量取得部202取得至少包括空调装置210的部分负载特性的控制量(第二变量)。空调装置210的部分负载特性包括与空调装置210的能力相关的参数和空调装置210的耗电量的组合。部分负载特性例如是与空调装置210的耗电量相对于与空调装置210的能力相关的参数的变化有关的数据。

如图3所示，学习部203将状态变量取得部201取得的状态变量与控制量取得部202取得的控制量关联起来进行学习。在第二实施方式中，学习部203进行使用报酬进行学习的强化学习。学习部203输出作为学习的结果的已学习模型。

函数更新部204基于控制量取得部202取得的控制量和控制量的预测值来计算报酬。具体而言，控制量所包括的空调装置210的部分负载特性越接近空调装置210的部分负载特性的预测值，函数更新部204计算出越高的报酬。换言之，空调装置210的部分负载特性的实际值与空调装置210的部分负载特性的预测值之差越小，由函数更新部204计算出的报酬越高。

如图4所示，推断部205基于学习部203的学习结果所得到的已学习模型，根据状态变量取得部201所取得的状态变量，推断空调装置210的部分负载特性的预测值。推断部205输出空调装置210的部分负载特性的预测值。空调控制***20基于推断部205输出的预测值来控制空调装置210。

机器学习装置200使用与空调装置210的运转实绩有关的参数来取得空调装置210的部分负载特性的预测值。空调控制***20通过具备机器学习装置200，能够高精度地取得空调装置210的部分负载特性的预测值。因此，空调控制***20能够基于空调装置210的部分负载特性的预测值来预测运转时的空调装置210的耗电量。由此，空调控制***20例如在设定了规定的需求目标值的情况下，能够自动地决定用于实现该需求目标值的控制参数。因此，空调控制***20提高运转时的空调装置210的耗电量的预测精度，进行达成规定的需求目标值的空调控制，由此能够提高节能性能。

-第三实施方式-

参照附图对第三实施方式的空调控制***30进行说明。空调控制***30对设置于对象空间的空调装置310进行控制。

空调控制***30具备机器学习装置300。机器学习装置300学习设置有空调装置310的对象空间的热容量特性。机器学习装置300由1个或多个计算机构成。在机器学习装置300由多个计算机构成的情况下，该多个计算机也可以经由网络相互连接。

图5是第三实施方式的学习中的机器学习装置300的框图。图6是第三实施方式的学习后的机器学习装置300的框图。机器学习装置300主要具备状态变量取得部301、控制量取得部302、学习部303、函数更新部304以及推断部305。状态变量取得部301～推断部305通过机器学习装置300的CPU执行存储在机器学习装置300的存储装置中的程序来实现。

状态变量取得部301取得包括第一参数和第二参数中的至少一方的状态变量(第一变量)。第一参数是与空调装置310的能力相关的参数。第二参数是与设置有空调装置310的对象空间的状态相关的参数。与空调装置310的能力相关的参数是指压缩机的转速、制冷剂的蒸发温度、制冷剂的冷凝温度、室内机的运转台数、室内机风扇的风量以及室内机的电动阀的开度中的至少一方。与对象空间的状态相关的参数是指对象空间的温度、湿度、温度变化量以及湿度变化量中的至少一方。

控制量取得部302取得至少包括对象空间的热容量特性的控制量(第二变量)。对象空间的热容量特性包括第一参数和第二参数的组合。热容量特性例如是与第二参数相对于第一参数的变化有关的数据。

如图5所示，学习部303将状态变量取得部301取得的状态变量与控制量取得部302取得的控制量关联起来进行学习。在第三实施方式中，学习部303进行使用报酬进行学习的强化学习。学习部303输出作为学习的结果的已学习模型。

函数更新部304基于控制量取得部302取得的控制量和控制量的预测值来计算报酬。具体而言，每个设定温度下的控制量所包括的对象空间的热容量特性越接近对象空间的热容量特性的预测值，函数更新部304计算出越高的报酬。换言之，每个设定温度下的对象空间的热容量特性的实际值与对象空间的热容量特性的预测值之差越小，由函数更新部304计算出的报酬越高。

如图6所示，推断部305基于学习部303的学习的结果所得到的已学习模型，根据状态变量取得部301所取得的状态变量，推断对象空间的热容量特性的预测值。推断部305输出对象空间的热容量特性的预测值。空调控制***30基于推断部305输出的预测值来控制空调装置310。

机器学习装置300使用第一参数和第二参数中的至少一方来取得设置有空调装置310的对象空间的热容量特性的预测值。空调控制***30通过具备机器学习装置300，能够高精度地取得对象空间的热容量特性的预测值。因此，空调控制***30能够基于对象空间的热容量特性的预测值，例如预测空调装置310的部分负载特性，来预测运转时的空调装置310的耗电量。由此，空调控制***30例如在设定了规定的需求目标值的情况下，能够自动地决定用于实现该需求目标值的控制参数。因此，空调控制***30提高运转时的空调装置310的耗电量的预测精度，进行达成规定的需求目标值的空调控制，由此能够提高节能性能。

-第四实施方式-

参照附图对第四实施方式的空调控制***40进行说明。空调控制***40对设置于对象空间的空调装置410进行控制。

空调控制***40具备机器学习装置400、操作量候选输出部406以及操作量决定部407。图7是第四实施方式的学习中的机器学习装置400的框图。图8是第四实施方式的学习后的机器学习装置400的框图。

机器学习装置400学习设置有空调装置410的对象空间的热容量特性和设置于对象空间的空调装置410的部分负载特性。机器学习装置400具备第一状态变量取得部411、第一控制量取得部412、第一学习部413、第一函数更新部414、第一推断部415、第二状态变量取得部421、第二控制量取得部422、第二学习部423、第二函数更新部424以及第二推断部425。

第一状态变量取得部411取得包括与空调装置410的能力相关的第一参数和与对象空间的状态相关的第二参数中的至少一方的状态变量(第一变量)。

第一控制量取得部412取得包括对象空间的热容量特性的状态变量(第二变量)。

第一学习部413和第一函数更新部414分别具有与第三实施方式的学习部303和函数更新部304相同的功能。

第一推断部415基于第一学习部413的学习结果，根据状态变量(第一变量)推断对象空间的热容量特性的预测值(第一预测值)。

如图8所示，第二状态变量取得部421取得至少包括第一推断部415输出的对象空间的热容量特性的预测值(第一预测值)的状态变量(第三变量)。第二状态变量取得部421还可以取得与空调装置410的运转实绩有关的参数(运转实绩参数)作为状态变量。运转实绩参数包括与空调装置410的能力相关的参数和与空调装置410的耗电量相关的参数中的至少一方。与空调装置410的能力相关的参数是指压缩机的转速、制冷剂的蒸发温度、制冷剂的冷凝温度、室内机的运转台数、室内机风扇的风量以及室内机的电动阀的开度中的至少一方。与空调装置410的耗电量相关的参数是指空调装置410的电力值、电流值以及压缩机的转速中的至少一方。运转实绩参数还可以包括空气条件，该空气条件包括运转时的室内和室外的温度和湿度。

第二控制量取得部422取得包括空调装置410的部分负载特性的控制量(第四变量)。

第二学习部423和第二函数更新部424分别具有与第二实施方式的学习部203和函数更新部204相同的功能。

第二推断部425根据操作量候选输出部406输出的控制参数的候选以及第二学习部423的学习结果，根据状态变量(第三变量)推断空调装置410的部分负载特性的预测值(第二预测值)。控制参数是指用于控制空调装置410的参数。控制参数包括用于达成需求目标值的对象空间的设定温度，该需求目标值是设置于对象空间的空调装置410的规定时限内的耗电量的上限值。

操作量候选输出部406输出用于控制空调装置410的控制参数的候选。操作量候选输出部406例如基于第一状态变量取得部411以及第二状态变量取得部421取得的状态变量，输出控制参数的候选。

操作量决定部407以使设置于对象空间的空调装置410的部分负载特性的预测值满足规定的条件的方式决定用于控制空调装置410的控制参数。具体而言，操作量决定部407以使空调装置410的部分负载特性的目标值与第二推断部425推断出的部分负载特性的预测值(第二预测值)之差变小的方式决定控制参数。如图7所示，第一学习部413以及第二学习部423也可以使用操作量决定部407决定的控制参数进行学习，输出已学习模型。

机器学习装置400能够决定适合于用于取得空调装置410的部分负载特性的预测值的已学习模型的构建、以及该预测值的推断的控制参数。空调控制***40通过具备机器学习装置400，能够高精度地取得空调装置410的部分负载特性的预测值。因此，空调控制***40能够基于空调装置410的部分负载特性的预测值来预测运转时的空调装置410的耗电量。由此，空调控制***40在设定了规定的需求目标值的情况下，能够自动地决定用于实现该需求目标值的控制参数。因此，空调控制***40通过提高运转时的空调装置410的耗电量的预测精度，进行达成规定的需求目标值的空调控制，能够提高节能性能。

-变形例-

以下，对实施方式的至少一部分的变形例进行说明。

(1)变形例A

在第一实施方式中，学习部103进行使用报酬进行学习的强化学习。但是，学习部103也可以进行基于教师数据进行学习的有教师学习来代替强化学习。

参照附图对变形例A的需求控制***10进行说明。第一实施方式以及变形例A的需求控制***10的基本结构相同。以下，以第一实施方式与变形例A的不同点为中心进行说明。

图9是变形例A的学习中的机器学习装置100的框图。图10是变形例A的学习后的机器学习装置100的框图。机器学习装置100还具备函数变更部107。

函数更新部104具备教师数据蓄积部104a和判定部104b。判定部104b使用评价数据取得部105取得的评价数据，输出评价数据的判定结果。教师数据蓄积部104a按照判定部104b的判定结果，根据状态变量取得部101取得的状态变量和控制量(对象空间的设定温度)蓄积教师数据。

学习部103按照函数变更部107的输出，使识别函数的参数微小变化，多次进行识别函数的参数的变更，按照参数变更后的每个识别函数根据状态变量输出控制量。识别函数是指从教师数据所包括的状态变量向控制量的映射。具体而言，识别函数是以状态变量为输入变量、以控制量为输出变量的函数。函数变更部107输出识别函数的参数。函数更新部104在判定为需求控制***10基于学习部103根据状态变量而输出的控制量进行控制的结果所得到的评价数据适当的情况下，将该状态变量和学习部103根据该状态变量而输出的控制量作为教师数据进行蓄积。

学习部103基于蓄积在教师数据蓄积部104a中的教师数据进行学习。学习部103的学习的目的在于，使用教师数据作为学习数据来调整识别函数的参数，使得能够根据新的状态变量得到正确或适当的评价数据。学习部103使用状态变量取得部101预先取得的状态变量和控制量的对作为学习数据。由学习部103充分调整了参数后的识别函数相当于已学习模型。

控制量决定部106基于学习部103的学习的结果所得到的已学习模型，根据新的状态变量来决定控制量(对象空间的设定温度)。控制量决定部106所决定的控制量被用作新的教师数据。

学习部103如接下来说明的那样，进行基于在线学习或批量学习的有教师学习。

在基于在线学习的有教师学习中，学习部103使用在需求控制***10出厂或设置前的试验运转时等取得的数据(状态变量)，预先生成已学习模型。控制量决定部106在需求控制***10的初次运转开始时，基于学习部103预先生成的已学习模型，决定控制量(对象空间的设定温度)。然后，学习部103使用在需求控制***10的运转时新取得的数据(状态变量)来更新已学习模型。控制量决定部106基于学习部103更新后的已学习模型来决定控制量。这样，在在线学习中，已学习模型被定期地更新，控制量决定部106基于最新的已学习模型来决定控制量。

在基于批量学习的有教师学习中，学习部103使用在需求控制***10出厂或设置前的试验运转时等取得的数据(状态变量)，预先生成已学习模型。控制量决定部106在需求控制***10运转时，基于学习部103预先生成的已学习模型来决定控制量。该已学习模型在由学习部103预先生成之后不被更新。换言之，控制量决定部106使用相同的已学习模型来决定控制量。

经由互联网等计算机网络与需求控制***10连接的服务器也可以生成已学习模型，另外，也可以利用云计算的服务来生成已学习模型。

(2)变形例B

在第二实施方式中，学习部203进行使用报酬进行学习的强化学习。但是，如在变形例A中说明的那样，学习部203也可以代替强化学习而进行基于教师数据进行学习的有教师学习。在该情况下，学习部203也可以使用根据状态变量取得部201取得的状态变量和控制量取得部202取得的控制量(空调装置210的部分负载特性)得到的教师数据来进行学习。

(3)变形例C

在第三以及第四实施方式中，学习部303、413、423进行使用报酬进行学习的强化学习。但是，学习部303、413、423也可以如在变形例A中说明的那样，代替强化学习，而进行基于教师数据进行学习的有教师学习。在该情况下，例如，学习部303也可以使用从状态变量取得部301取得的状态变量和控制量取得部302取得的控制量(设置有空调装置310的对象空间的热容量特性)得到的教师数据来进行学习。

(4)变形例D

在变形例A至C中，在学习部103、203、303、413、423进行使用教师数据的有教师学习的情况下，学习部103、203、303、413、423也可以将教师数据的一部分用作学习数据来调整识别函数的参数，将剩余的部分用作测试数据。测试数据是在学习中未使用的数据，主要是在已学习模型的性能评价中使用的数据。通过使用测试数据，能够以相对于测试数据的错误概率这样的形式预测根据新的状态变量得到的评价数据的性能。作为将预先取得的数据分为学习数据和测试数据的方法，使用保持(hold-out)法、交叉验证法、留一法(刀切法)以及自举(bootstrap)法等。

(5)变形例E

在变形例A至D中，对作为学习部103、203、303、413、423使用的机器学习的方法的有教师学习进行说明。有教师学习是使用教师数据来生成与未知的输入数据对应的输出的方法。在有教师学习中，使用学习数据和识别函数。学习数据是输入数据和与其对应的教师数据的对的集合。输入数据例如是特征空间中的特征向量。教师数据例如是与输入数据的识别、分类以及评价有关的参数。识别函数表示从输入数据向与其对应的输出的映射。有教师学习是使用事先提供的学习数据来调整识别函数的参数，以使识别函数的输出与教师数据之差变小的方法。作为在有教师学习中使用的模型或算法，可举出回归分析、时间序列分析、决策树、支持向量机、神经网络、集成学习等。

回归分析例如是线性回归分析、多元回归分析、逻辑回归分析。回归分析是使用最小二乘法等在输入数据(说明变量)与教师数据(目的变量)之间代入模型的方法。说明变量的维度在线性回归分析中为1，在多元回归分析中为2以上。在逻辑回归分析中，逻辑函数(sigmoid函数)被用作模型。

时间序列分析例如是AR模型(自回归模型)、MA模型(移动平均模型)、ARMA模型(自回归移动平均模型)、ARIMA模型(自回归积分移动平均模型)、SARIMA模型(季节性自回归积分移动平均模型)、VAR模型(向量自回归模型)。AR、MA、ARMA、VAR模型表示稳态过程，ARIMA、SARIMA模型表示非稳态过程。AR模型是值随着时间的经过而规则地变化的模型。MA模型是某期间内的变动恒定的模型。例如，在MA模型中，某时刻的值由该时刻之前的移动平均决定。ARMA模型是将AR模型和MA模型组合的模型。ARIMA模型是考虑中长期的趋势(增加或减少倾向)而对前后的值的差分应用ARMA模型的模型。SARIMA模型是考虑中长期的季节变动而应用ARIMA模型的模型。VAR模型是将AR模型扩展为多变量的模型。

决策树是用于组合多个识别器来生成复杂的识别边界的模型。关于决策树的详细情况在后面叙述。

支持向量机是生成2类线性识别函数的算法。下面将描述支持向量机的详细情况。

神经网络是对通过突触将人类的脑神经***的神经元结合而形成的网络进行模型化而得到的。狭义而言，神经网络是指使用了误差反向传播法的多层感知器(perceptron)。作为代表性的神经网络，可列举卷积神经网络(CNN)、循环神经网络(RNN)。CNN是未进行全结合(结合稀疏)的顺传播型神经网络的一种。RNN是具备有向环路的神经网络的一种。CNN和RNN用于语音、图像、运动图像识别和自然语言处理。

集成学习是组合多个模型来提高识别性能的方法。集成学习所使用的方法例如是装袋(Bagging)、提升(Boosting)、随机森林。装袋是使用学习数据的自举样本来学习多个模型，通过基于多个模型的多数表决来决定新的输入数据的评价的方法。提升是根据装袋的学习结果对学习数据进行加权，对错误识别出的学习数据比正确识别出的学习数据更集中地学习的方法。随机森林是在使用决策树作为模型的情况下，生成由相关性低的多个决策树构成的决策树组(随机森林)的方法。关于随机森林的详细情况在后面叙述。

作为学习部103、203、303、413、423所使用的有教师学习的优选模型或算法，使用接下来说明的神经网络、支持向量机、决策树以及随机森林。

(5-1)神经网络

图11是神经网络的神经元的模型的示意图。图12是组合图11所示的神经元而构成的三层神经网络的示意图。如图11所示，神经元输出针对多个输入x(在图11中为输入x1、x2、x3)的输出y。对各输入x(在图11中为输入x1、x2、x3)乘以对应的权重w(在图11中为权重w1、w2、w3)。神经元使用下式(1)将输出y输出。

在式(1)中，输入x、输出y以及权重w全部是向量，θ是偏置，φ是激活函数。激活函数是非线性函数，例如是阶跃函数(形式神经元)、单纯感知器、S形函数或ReLU(斜坡函数)。

在图12所示的三层神经网络中，从输入侧(图12的左侧)输入多个输入向量x(在图12中为输入向量x1、x2、x3)，从输出侧(图12的右侧)输出多个输出向量y(在图12中为输出向量y1、y2、y3)。该神经网络由3个层L1、L2、L3构成。

在第一层L1中，输入向量x1、x2、x3被乘以对应的权重而分别输入到3个神经元N11、N12、N13。在图12中，这些权重统一标记为W1。神经元N11、N12、N13分别输出特征向量z11、z12、z13。

在第二层L2中，特征向量z11、z12、z13被乘以对应的权重而分别输入到2个神经元N21、N22。在图12中，这些权重被统称为W2。神经元N21、N22分别输出特征向量z21、z22。

在第三层L3中，特征向量z21、z22被乘以对应的权重而分别输入到3个神经元N31、N32、N33。在图12中，这些权重统一标记为W3。神经元N31、N32、N33分别输出输出向量y1、y2、y3。

神经网络的动作包含学习模式和预测模式。在学习模式中，使用学习数据集来学习权重W1、W2、W3。在预测模式中，使用学习到的权重W1、W2、W3的参数来进行识别等的预测。

权重W1、W2、W3例如能够通过误差反向传播法(反向传播)来学习。在该情况下，与误差有关的信息从输出侧朝向输入侧传递，换言之，在图12中从右侧朝向左侧传递。误差反向传播法是在各神经元中调整权重W1、W2、W3来进行学习以减小输入了输入x时的输出y与真正的输出y(教师数据)之差的方法。

神经网络能够构成为具有多于3层的层。基于4层以上的神经网络的机器学习的方法已知为深度学习(deep learning)。

(5-2)支持向量机

支持向量机(SVM)是求出实现最大富余(margin)的2类线性识别函数的算法。图13是用于说明SVM的图。2类线性识别函数表示在图13所示的特征空间中，用于对2个类C1、C2的学***面即识别超平面P1、P2。在图13中，类C1的学***面的富余是最接近识别超平面的学***面之间的距离。图13示出了识别超平面P1的富余d1和识别超平面P2的富余d2。在SVM中，求出富余最大的识别超平面即最佳识别超平面P1。一个类C1的学***面P1之间的距离的最小值d1等于另一个类C2的学***面P2之间的距离的最小值d1。

在图13中，用以下的式(2)表示2类问题的有教师学习中使用的学习数据集D_L。

D_L＝{(t_i，x_i)}(i＝1，...，N) (2)

学习数据集D_L是学习数据(特征向量)x_i与教师数据t_i＝{-1，+1}的对的集合。学习数据集D_L的要素数为N。教师数据t_i表示学习数据x_i属于类C1、C2中的哪一个。类C1是t_i＝-1的类，类C2是t_i＝+1的类。

在图13中，在所有学习数据x_i中成立的归一化的线性识别函数由以下的2个式(3-1)和(3-2)表示。w是系数向量，b是偏置。

t_i＝+1的情况w^Tx_i+b≥+1 (3-1)

t_i＝-1的情况w^Tx_i+b≤-1 (3-2)

这2个式由以下的1个式(4)表示。

t_i(w^Tx_i+b)≥1 (4)

在用以下的式(5)表示识别超平面P1、P2的情况下，其富余d用式(6)表示。

w^Tx+b＝0 (5)

在式(6)中，ρ(w)表示将类C1、C2各自的学***面P1、P2的法线向量w上的长度之差的最小值。式(6)的“min”以及“max”的项分别是在图13中用符号“min”以及符号“max”表示的点。在图13中，最佳识别超平面是富余d最大的识别超平面P1。

图13表示2类的学习数据能够线性分离的特征空间。图14是与图13同样的特征空间，表示2类的学习数据不能线性分离的特征空间。在2类的学习数据不能进行线性分离的情况下，能够使用对式(4)导入松弛变量ξ_i并扩展后的下式(7)。

t_i(w^Tx_i+b)-1+ξ_i≥0 (7)

松弛变量ξ_i仅在学***面P3、富余边界B1和B2以及富余d3。识别超平面P3的式子与式(5)相同。富余边界B1、B2是距识别超平面P3的距离为富余d3的超平面。

在松弛变量ξ_i为0的情况下，式(7)与式(4)等效。此时，如图14中的空心圆或正方形所示，在富余d3内正确地识别满足式(7)的学***面P3之间的距离为富余d3以上。

在松弛变量ξ_i大于0且为1以下的情况下，如图14中带阴影的圆或正方形所示，满足式(7)的学***面P3，被正确地识别。此时，学***面P3之间的距离小于富余d3。

在松弛变量ξ_i大于1的情况下，如图14中涂黑的圆或正方形所示，满足式(7)的学***面P3，被误识别。

这样，通过使用导入了松弛变量ξ_i的式(7)，即使在2类的学习数据不能线性分离的情况下，也能够识别学习数据x_i。

根据上述说明，所有学习数据x_i的松弛变量ξ_i之和表示误识别的学习数据x_i的数量的上限。在此，评价函数L_p由下式(8)定义。

学习部103、203、303、413、423求出使评价函数L_p的输出值最小化的解(w、ξ)。在式(8)中，第二项的参数C表示针对误识别的惩罚的强度。参数C越大，越求出与w的范数(第一项)相比更优先使误识别数(第二项)小的解。

(5-3)决策树

决策树是指用于组合多个识别器而得到复杂的识别边界(非线性识别函数等)的模型。识别器例如是与某个特征轴的值与阈值的大小关系有关的规则。作为根据学习数据构成决策树的方法，例如有反复求出将特征空间2分割的规则(识别器)的分治法。图15是通过分治法构成的决策树的一例。图16表示由图15的决策树分割的特征空间。在图16中，学习数据用白圈或黑圈表示，通过图15所示的决策树，各学习数据被分类为白圈的类或黑圈的类。在图15中，示出了被赋予了从1到11的编号的节点、和将节点之间连结并被赋予了“是”或者“否”的标签的链接。在图15中，末端节点(叶节点)用四边形表示，非末端节点(根节点以及内部节点)用圆圈表示。末端节点是被赋予了从6到11的编号的节点，非末端节点是被赋予了从1到5的编号的节点。在各末端节点中示出了表示学习数据的白圈或黑圈。在各非末端节点附有识别器。识别器是判断特征轴x₁、x₂的值与阈值a～e的大小关系的规则。附于链接的标签表示识别器的判断结果。在图16中，用虚线表示识别器，对由识别器分割的区域赋予对应的节点的编号。

在通过分治法构成适当的决策树的过程中，需要对以下的(a)～(c)这3点进行研究。

(a)用于构成识别器的特征轴和阈值的选择。

(b)末端节点的决定。例如，1个末端节点所包含的学习数据所属的类的数量。或者，选择将决策树的修剪(根节点得到相同的部分树)进行到哪里。

(c)通过多数表决对末端节点分配类。

决策树的学习方法例如使用CART、ID3以及C4.5。如图15和图16所示，CAT是通过在末端节点以外的各节点处将特征空间按每个特征轴进行2分割，生成2叉树作为决策树的方法。

在使用决策树的学习中，为了提高学习数据的识别性能，重要的是在非末端节点以最佳的分割候选点分割特征空间。作为评价特征空间的分割候选点的参数，也可以使用被称为不纯度的评价函数。作为表示节点t的不纯度的函数I(t)，例如使用由以下的式(9-1)～(9-3)表示的参数。K是类的数量。

(a)节点t中的错误率

(b)交叉熵(偏离度)

(c)基尼系数

在上式中，概率P(C_i|t)是节点t处的类C_i的后验概率，换句话说，是在节点t处选择类C_i的数据的概率。在式(9-3)的第二式中，概率P(C_j|t)是类C_i的数据被误认为第j(≠i)类的概率，因此，第二式表示节点t处的错误率。式(9-3)的第三式表示与所有类有关的概率P(C_i|t)的方差之和。

在将不纯度作为评价函数来分割节点的情况下，例如使用将决策树修剪到由该节点处的错误率以及决策树的复杂度决定的容许范围的方法。

(5-4)随机森林

随机森林是集成学习的一种，是组合多个决策树来强化识别性能的方法。在使用随机森林的学习中，生成由相关性低的多个决策树构成的组(随机森林)。在随机森林的生成以及识别中使用以下的算法。

(A)从m＝1到M重复以下步骤。

(a)根据N个d维学习数据生成m个自举样本Z_m。

(b)将Z_m作为学习数据，按照以下的步骤分割各节点t，生成m个决策树。

(i)从d个特征中随机选择d′个特征。(d′<d)

(ii)根据所选择的d′个特征求出给出学习数据的最佳分割的特征和分割点(阈值)。

(iii)利用求出的分割点将节点t进行2分割。

(B)输出由m个决策树构成的随机森林。

(C)针对输入数据，得到随机森林的各决策树的识别结果。随机森林的识别结果由各决策树的识别结果的多数表决决定。

在使用随机森林的学习中，通过在决策树的各非末端节点中随机地选择预先决定的数量的用于识别的特征，能够降低决策树间的相关性。

(6)变形例F

在第一至第四实施方式中，对学习部103、203、303、413、423所使用的机器学习的方法即强化学习进行说明。强化学习是学习使作为一系列行动的结果的报酬最大的对策的方法。强化学习中使用的模型或算法有Q学习(Q-learning)等。Q学习是学习表示在状态s下选择行动a的价值的Q值的方法。在Q学习中，选择Q值最高的行动a作为最佳的行动。为了求出较高的Q值，行动a的主体(智能体(agent))对在状态s下选择出的行动a赋予报酬。在Q学习中，每当智能体行动时，使用以下的式(10)来更新Q值。

在式(10)中，Q(s_t，a_t)是表示状态s_t的智能体选择行动a_t的价值的Q值。Q(s_t，a_t)是以状态s和行动a为参数的函数(行动价值函数)。s_t是时刻t的智能体的状态。a_t是时刻t的智能体的行动。α是学习系数。α被设定为通过式(10)使Q值收敛于最佳的值。r_t+1是智能体转变为状态s_t+1时得到的报酬。γ是折扣率。γ是0以上1以下的常数。包含max的项是在环境s_t+1下选择了Q值最高的行动a的情况下的Q值乘以γ而得到的。通过行动价值函数求出的Q值是智能体得到的报酬的期待值。

(7)变形例G

在第一实施方式和变形例A中，状态变量也可以还包括室内条件和室外条件中的至少一方。室内条件包括对象空间的温度、湿度、温度变化量、湿度变化量、在室人数以及设置于对象空间的设备的耗电量中的至少一方。设置于对象空间的设备是指空调装置110、照明以及PC等。室外条件包括设置有空调装置110的室外机的空间的温度、湿度以及日照量中的至少一方。

上述的室内条件以及室外条件相当于对需求目标值造成影响的干扰。因此，变形例G的机器学习装置100在设定了规定的需求目标值的情况下，能够考虑干扰的影响，自动地决定用于实现该需求目标值的对象空间的设定温度。

(8)变形例H

在第三以及第四实施方式以及变形例C中，状态变量也可以还包括室内条件以及室外条件中的至少一方。室内条件包括对象空间的温度、湿度、温度变化量、湿度变化量、在室人数以及设置于对象空间的设备的耗电量中的至少一方。设置于对象空间的设备是指空调装置310、410、照明以及PC等。室外条件包括设置有空调装置310、410的室外机的空间的温度、湿度及日照量中的至少一方。

上述室内条件和室外条件相当于对设置有空调装置310、410的对象空间的热容量特性产生影响的干扰。因此，变形例H的机器学习装置300、400能够考虑干扰的影响，高精度地取得对象空间的热容量特性的预测值。

(9)变形例I

在上述的实施方式以及变形例中，机器学习装置100、200、300、400使用有教师学习或者强化学习的方法。但是，机器学习装置100、200、300、400也可以使用组合了有教师学习和强化学习的方法。

(10)变形例J

在上述的实施方式以及变形例中，学习部103、203、303、413、423能够使用各种机器学习的方法。学习部103、203、303、413、423能够使用的机器学习的方法除了已经说明的有教师学习以及强化学习之外，还有无教师学习、半有教师学习、直推学习(transductivelearning)、多任务学习以及迁移学习等。学习部103、203、303、413、423也可以组合使用这些方法。

无教师学***均法(k-means法)、沃德法(Ward法)、主成分分析等。k平均法是反复进行对各输入数据随机地分配簇，计算各簇的中心，将各输入数据重新分配给最近的中心的簇的步骤的方法。沃德法是反复进行以使从簇的各输入数据到簇的质量中心的距离最小化的方式将各输入数据重新分配给簇的步骤的方法。主成分分析是从具有相关性的多个变量生成相关性最小的被称为主成分的变量的多变量分析的方法。

半有教师学习是使用不附带对应的教师数据的输入数据(无标签数据)和附带对应的教师数据的输入数据(有标签数据)双方来进行学习的方法。

直推学习是在半有教师学习中生成与用于学习的无标签数据对应的输出而不生成与未知的输入数据对应的输出的方法。

多任务学习是如下方法：共享多个关联的任务彼此的信息，使这些任务同时学习，由此获得任务共同的因素而提高任务的预测精度。

迁移学习是通过将在某个域中预先学习的模型适应于其他域来提高预测精度的方法。

-总结-

以上，对本公开的实施方式进行了说明，但应该理解为在不脱离权利要求书所记载的本公开的主旨以及范围的情况下，能够进行方式、详细情况的多样的变更。

产业上的可利用性

机器学习装置能够决定用于实现规定的需求目标值的设定温度。

标号说明

10：需求控制***；20：空调控制***；30：空调控制***；40：空调控制***；100：机器学习装置；101：状态变量取得部(第一取得部)；103：学习部；104：函数更新部(更新部)；104a：教师数据蓄积部(蓄积部)；104b：判定部；105：评价数据取得部(第二取得部)；107：函数变更部(变更部)；110：空调装置；200：机器学习装置；201：状态变量取得部(第一取得部)；202：控制量取得部(第二取得部)；203：学习部；204：函数更新部(更新部)；205：推断部；210：空调装置；300：机器学习装置；301：状态变量取得部(第一取得部)；302：控制量取得部(第二取得部)；303：学习部；304：函数更新部(更新部)；305：推断部；310：空调装置；400：机器学习装置；406：操作量候选输出部(输出部)；407：操作量决定部(决定部)；410：空调装置；411：第一状态变量取得部(第一取得部)；412：第一控制量取得部(第二取得部)；413：第一学习部；414：第一函数更新部；415：第一推断部；421：第二状态变量取得部(第三取得部)；422：第二控制量取得部(第四取得部)；423：第二学习部；424：第二函数更新部；425：第二推断部。

现有技术文献

专利文献

专利文献1：日本特开2011-36084号公报

Claims

1.一种机器学习装置(100)，其对用于达成需求目标值的对象空间的设定温度进行学习，所述需求目标值是设置于所述对象空间的空调装置(110)的规定时限内的耗电量的上限值，所述机器学习装置具备：

学习部(103)；

第一取得部(101)，其取得第一变量，所述第一变量包括所述空调装置的耗电量和与所述对象空间的状态相关的室内状态值中的至少一方；

第二取得部(105)，其取得对所述空调装置的控制结果进行评价的评价数据；以及

更新部(104)，其使用所述评价数据更新所述学习部的学习状态，

所述学习部按照所述更新部的输出进行学习，

所述评价数据包括所述空调装置的耗电量。

2.根据权利要求1所述的机器学习装置，其中，

所述更新部基于所述评价数据计算报酬，

所述学习部使用所述报酬进行学习。

3.根据权利要求2所述的机器学习装置，其中，

所述需求目标值与所述评价数据所包括的所述空调装置的耗电量之差越小，所述更新部计算出越高的所述报酬。

4.根据权利要求1所述的机器学习装置，其中，

所述机器学习装置还包括变更部(107)，其调整以所述第一变量为输入变量且以所述设定温度为输出变量的识别函数的参数，

所述学习部按照所述变更部的输出，多次进行所述识别函数的参数的变更，针对参数被变更后的每个所述识别函数，根据所述第一变量输出所述设定温度，

所述更新部具有蓄积部(104a)和判定部(104b)，

所述判定部使用所述评价数据输出判定结果，

所述蓄积部按照所述判定结果，根据所述第一变量和所述学习部根据所述第一变量而输出的所述设定温度来蓄积教师数据，

所述学习部基于所述蓄积部所蓄积的所述教师数据进行学习。

5.根据权利要求1至4中的任一项所述的机器学习装置，其中，

所述室内状态值是所述对象空间的温度、湿度、温度变化量以及湿度变化量中的至少一方。

6.根据权利要求1至5中的任一项所述的机器学习装置，其中，

所述第一变量还包括室内条件和室外条件中的至少一方，

所述室内条件包括设置于所述对象空间的设备的耗电量以及所述对象空间的在室人数中的至少一方，

所述室外条件包括设置有所述空调装置的室外机的空间的温度、湿度及日照量中的至少一方。

7.一种需求控制***(10)，其具备：

权利要求1至6中的任一项所述的机器学习装置；以及

空调装置。

8.一种机器学习装置(200)，其对设置于对象空间的空调装置(210)的部分负载特性进行学习，所述机器学习装置具备：

第一取得部(201)，其取得包括与所述空调装置的运转实绩有关的第一参数的第一变量；

第二取得部(202)，其取得包括所述空调装置的部分负载特性的第二变量；以及

学习部(203)，其将所述第一变量和所述第二变量关联起来进行学习。

9.根据权利要求8所述的机器学习装置，其中，

所述机器学习装置还具备推断部(205)，其基于所述学习部的学习结果，根据所述第一变量推断所述空调装置的部分负载特性的预测值。

10.根据权利要求8或9所述的机器学习装置，其中，

所述学习部将所述第一变量和所述第二变量用作教师数据来进行学习。

11.根据权利要求9所述的机器学习装置，其中，

所述机器学习装置还具备更新部(204)，其基于所述第二变量和所述预测值计算报酬，

所述学习部使用所述报酬进行学习。

12.根据权利要求11所述的机器学习装置，其中，

所述第二变量所包括的所述空调装置的部分负载特性与所述预测值之差越小，所述更新部计算出越高的所述报酬。

13.根据权利要求8至12中的任一项所述的机器学习装置，其中，

所述第一参数包括与所述空调装置的能力相关的参数和与所述空调装置的耗电量相关的参数中的至少一方。

14.一种机器学习装置(300)，其对设置有空调装置(310)的对象空间的热容量特性进行学习，所述机器学习装置具备：

第一取得部(301)，其取得第一变量，所述第一变量包括与所述空调装置的能力相关的第一参数和与所述对象空间的状态相关的第二参数中的至少一方；

第二取得部(302)，其取得包括所述对象空间的热容量特性的第二变量；以及

学习部(303)，其将所述第一变量和所述第二变量关联起来进行学习。

15.根据权利要求14所述的机器学习装置，其中，

所述机器学习装置还具备推断部(305)，其基于所述学习部的学习结果，根据所述第一变量推断所述对象空间的热容量特性的预测值。

16.根据权利要求14或15所述的机器学习装置，其中，

17.根据权利要求15所述的机器学习装置，其中，

所述机器学习装置还具备更新部(304)，其基于所述第二变量和所述预测值计算报酬，

所述学习部使用所述报酬进行学习。

18.根据权利要求17所述的机器学习装置，其中，

所述第二变量所包括的所述对象空间的热容量特性与所述预测值之差越小，所述更新部计算出越高的所述报酬。

19.根据权利要求14至18中的任一项所述的机器学习装置，其中，

所述第二参数是所述对象空间的温度、湿度、温度变化量以及湿度变化量中的至少一方。

20.根据权利要求14至19中的任一项所述的机器学习装置，其中，

所述第一变量还包括室内条件和室外条件中的至少一方，

所述室内条件是设置于所述对象空间的设备的耗电量以及所述对象空间的在室人数中的至少一方，

所述室外条件是设置有所述空调装置的室外机的空间的温度、湿度以及日照量中的至少一方。

21.一种空调控制***(40)，其决定用于控制设置于对象空间的空调装置(410)的控制参数，所述控制参数用于达成需求目标值，所述需求目标值是所述空调装置的规定时限内的耗电量的上限值，所述空调控制***具备：

机器学习装置(400)，其对设置有所述空调装置的所述对象空间的热容量特性和设置于所述对象空间的所述空调装置的部分负载特性进行学习；

输出部(406)，其输出所述控制参数的候选；以及

决定部(407)，其决定所述控制参数，

所述机器学习装置具备：

第一取得部(411)，其取得第一变量，所述第一变量包括与所述空调装置的能力相关的第一参数和与所述对象空间的状态相关的第二参数中的至少一方；

第二取得部(412)，其取得包括所述对象空间的热容量特性的第二变量；

第一学习部(413)，其将所述第一变量和所述第二变量关联起来进行学习；

第一推断部(415)，其基于所述第一学习部的学习结果，根据所述第一变量推断作为所述对象空间的热容量特性的预测值的第一预测值；

第三取得部(421)，其取得包括所述第一预测值的第三变量；

第四取得部(422)，其取得包括所述空调装置的部分负载特性的第四变量；

第二学习部(423)，其将所述第三变量和所述第四变量关联起来进行学习；

第二推断部(425)，其基于所述输出部输出的所述候选和所述第二学习部的学习结果，根据所述第三变量推断作为所述空调装置的部分负载特性的预测值的第二预测值，

所述决定部以使所述第二预测值满足与所述需求目标值有关的规定条件的方式决定所述控制参数。

22.根据权利要求21所述的空调控制***，其中，

所述第二参数是所述对象空间的温度、湿度、温度变化量以及湿度变化量中的至少一方，

所述控制参数包括用于达成所述需求目标值的所述对象空间的设定温度。

23.根据权利要求21或22所述的空调控制***，其中，

所述决定部以使所述空调装置的部分负载特性的目标值与所述第二推断部推断出的所述第二预测值之差变小的方式决定所述控制参数，

所述第二学习部使用所述决定部决定的所述控制参数进行学习。