CN114761733A

CN114761733A - 机器学习装置以及环境调整装置

Info

Publication number: CN114761733A
Application number: CN202080081440.8A
Authority: CN
Inventors: 西村忠史
Original assignee: Daikin Industries Ltd
Current assignee: Daikin Industries Ltd
Priority date: 2019-11-26
Filing date: 2020-11-26
Publication date: 2022-07-15
Also published as: EP4067769A4; EP4067769A1; WO2021107053A1; US20220299232A1; JP2021089134A

Abstract

本发明提供一种机器学习装置，能够高精度地取得对象者的冷热感的预测值。机器学习装置(100)学习对象者(20)的冷热感。机器学习装置(100)具备状态变量取得部(101)、控制量取得部(102)以及学习部(103)。状态变量取得部(101)取得包含与对象者(20)的生物体信息有关的参数的状态变量。控制量取得部(102)取得包含对象者(20)的冷热感的控制量。学习部(103)将状态变量与控制量关联起来进行学习。

Description

机器学习装置以及环境调整装置

技术领域

本发明涉及机器学习装置以及具备该机器学习装置的环境调整装置。

背景技术

在专利文献1(国际公开第2007/007632号)中公开了如下结构：通过对对象者的生物体信息的时间序列数据进行混沌分析来估计对象者的舒适感，基于估计结果来控制环境调整装置。

发明内容

发明所要解决的课题

存在对象者的舒适感的估计值的精度不充分的课题。

用于解决课题的手段

第一观点的机器学习装置学习对象者的冷热感。机器学习装置具备第一取得部、第二取得部以及学习部。第一取得部取得包含与对象者的生物体信息有关的参数的第一变量。第二取得部取得包含对象者的冷热感的第二变量。学习部将第一变量与第二变量关联起来进行学习。

第一观点的机器学习装置能够高精度地取得对象者的冷热感的预测值。

第二观点的机器学习装置是在第一观点的机器学习装置中，第一变量包含与对象者的脑波、皮肤血流量、皮肤温度、出汗量以及心跳分别有关的参数中的至少一方。

第三观点的机器学习装置是在第一观点或第二观点的机器学习装置中，学习部将第一变量和第二变量用作教师数据来进行学习。

第四观点的机器学习装置是在第一至第三观点中的任一个机器学习装置中，该机器学习装置还具有推断部。推断部基于学习部的学习结果，根据第一变量推断对象者的冷热感的预测值。

第五观点的机器学习装置是在第四观点的机器学习装置种，还具备更新部。更新部基于第二变量以及对象者的冷热感的预测值来计算报酬。学习部使用报酬进行学习。

第六观点的机器学习装置是在第五观点的机器学习装置中，第二变量中包含的对象者的冷热感与对象者的冷热感的预测值之差越小，更新部计算出越高的报酬。

第七观点的环境调整装置调整对象空间的环境。环境调整装置具备第一至第六观点中的任一个机器学习装置。

第八观点的环境调整装置是在第七观点的环境调整装置中，第二取得部基于与冷热感有关的对象者的输入值以及环境调整装置的操作状况中的至少一方，取得第二变量。

第九观点的环境调整装置是在第七观点或第八观点的环境调整装置中，具备第四观点至第六观点中的任一个机器学习装置、输出部以及决定部。输出部输出用于调整对象空间的环境的第三变量的候选。决定部决定第三变量。推断部基于输出部输出的第三变量的候选，推断对象者的冷热感的预测值。决定部以使对象者的冷热感的预测值满足规定的条件的方式决定第三变量。

第十观点的环境调整装置是在第九观点的环境调整装置中，决定部以使对象者的冷热感的目标值与推断部推断出的对象者的冷热感的预测值的误差变小的方式决定第三变量。

第十一观点的环境调整装置是在第九观点或第十观点的环境调整装置中，第三变量包含对象空间的温度。

第十二观点的机器学习装置学习调整对象空间的环境的环境调整装置的控制参数。机器学习装置具备第一取得部、第二取得部以及学习部。第一取得部取得包含与对象空间内的对象者的生物体信息有关的参数的第一变量。第二取得部取得控制参数。学习部将第一变量与控制参数关联起来进行学习。

第十二观点的机器学习装置能够取得适合于对象者的冷热感的环境调整装置的控制参数。

第十三观点的机器学习装置是在第十二观点的机器学习装置中，还具备第三取得部和更新部。第三取得部取得评价环境调整装置的控制结果的评价数据。更新部使用评价数据来更新学习部的学习状态。学习部按照更新部的输出进行学习。评价数据包含对象者的冷热感。

第十四观点的机器学习装置是在第十三观点的机器学习装置中，更新部根据评价数据来计算报酬。学习部使用报酬进行学习。

第十五观点的机器学习装置是在第十四观点的机器学习装置中，评价数据是对象者的冷热感的预测值与冷热感的中性的值之差。该差越小，更新部计算出越高的报酬。

第十六观点的机器学习装置是在第十三观点的机器学习装置中，还具备变更部。变更部输出以第一变量为输入变量以控制参数为输出变量的识别函数的参数。学习部按照变更部的输出，多次进行识别函数的参数的变更，针对参数被变更后的每个识别函数，根据第一变量输出控制参数。更新部具备蓄积部和判定部。判定部使用评价数据输出判定结果。蓄积部按照判定结果，根据第一变量和学习部根据第一变量而输出的控制参数来蓄积教师数据。学习部基于蓄积于蓄积部的教师数据进行学习。

第十七观点的机器学习装置是第十三至第十六观点中的任一个机器学习装置，第三取得部基于与冷热感有关的对象者的输入值以及环境调整装置的操作状况中的至少一方，取得评价数据。

第十八观点的机器学习装置是第十二至第十七观点中的任一个机器学习装置，第一变量包含与对象者的脑波、皮肤血流量、皮肤温度以及出汗量分别有关的参数中的至少一方。

第十九观点的环境调整装置具备第十二至第十八观点中的任一个机器学习装置。

附图说明

图1是第一实施方式的学习中的机器学习装置100的框图。

图2是第一实施方式的学习后的机器学习装置100的框图。

图3是第二实施方式的学习中的机器学习装置100的框图。

图4是第二实施方式的学习后的机器学习装置100的框图。

图5是第三实施方式的学习中的机器学习装置200的框图。

图6是第三实施方式的学习后的机器学习装置200的框图。

图7是变形例A的学习中的机器学习装置200的框图。

图8是变形例A的学习后的机器学习装置200的框图。

图9是神经网络的神经元的模型的示意图。

图10是组合图9所示的神经元而构成的三层神经网络的示意图。

图11是用于说明支持向量机的图。表示2类学习数据能够线性分离的特征空间。

图12表示2类学习数据不能线性分离的特征空间。

图13是通过分治法构成的决策树的一例。

图14表示由图13的决策树分割的特征空间。

具体实施方式

-第一实施方式-

参照附图对第一实施方式的环境调整装置10进行说明。环境调整装置10是调整对象空间的环境的装置。在第一实施方式中，环境调整装置10是空调控制装置。

环境调整装置10使用对象者20的生物体信息来预测对象空间内的对象者20的冷热感。环境调整装置10基于对象者20的冷热感的预测值，掌握该对象者20的舒适性，实现要求舒适性的空调控制。冷热感是表示对象空间内的对象者20的舒适性的指标。作为冷热感的指标，例如使用PMV(Predicted Mean Vote，预测冷热感报告)。

环境调整装置10具备使用机器学习的方法来学习对象者20的冷热感的机器学习装置100。机器学习装置100由1个或多个计算机构成。在机器学习装置100由多个计算机构成的情况下，该多个计算机也可以经由网络相互连接。

图1是第一实施方式的学习中的机器学习装置100的框图。图2是第一实施方式的学习后的机器学习装置100的框图。机器学习装置100主要具备状态变量取得部101、控制量取得部102、学习部103、函数更新部104以及推断部105。状态变量取得部101～推断部105通过机器学习装置100的CPU执行存储在机器学习装置100的存储装置中的程序来实现。

状态变量取得部101取得包含与对象者20的生物体信息有关的至少一方参数的状态变量(第一变量)。

控制量取得部102取得包含对象者20的冷热感的控制量(第二变量)。

如图1所示，学习部103将状态变量取得部101取得的状态变量与控制量取得部102取得的控制量关联起来进行学习。在第一实施方式中，学习部103进行使用报酬进行学习的强化学习。学习部103输出作为学习的结果的已学习模型。

函数更新部104根据控制量取得部102取得的控制量和控制量的预测值来计算报酬。具体而言，控制量所包含的对象者20的冷热感越接近对象者20的冷热感的预测值，函数更新部104计算出越高的报酬。换言之，对象者20的冷热感的实际值与对象者20的冷热感的预测值之差越小，由函数更新部104计算出的报酬越高。

如图2所示，推断部105基于学习部103的学习结果所得到的已学习模型，根据状态变量取得部101所取得的状态变量，推断对象者20的冷热感的预测值。推断部105输出对象者20的冷热感的预测值。环境调整装置10基于推断部105输出的预测值，进行空调控制。

状态变量取得部101取得的状态变量包含与对象者20的脑波、皮肤血流量、皮肤温度、出汗量以及心跳分别有关的参数中的至少一方。与脑波有关的参数是指脑波振幅、脑波波高最大值及最大李亚普诺夫指数中的至少一方。与皮肤温度有关的参数是指对象者20的身体的特定的部分的皮肤温度、以及对象者20的身体的特定的两处的部分的皮肤温度之差中的至少一方。与心跳有关的参数例如是R-R间隔。

控制量取得部102基于与冷热感有关的对象者20的输入值以及环境调整装置10的操作状况中的至少一方，取得包含对象者20的冷热感的控制量。与冷热感有关的对象者20的输入值是指基于对象者20的主观申报的冷热感。例如，与冷热感有关的对象者20的输入值是对象者20基于自身的主观而输入的冷热感、以及根据对象者20对与冷热感有关的问题的回答而计算出的冷热感。环境调整装置10的操作状况例如是与环境调整装置10的操作时的对象者20的脑波有关的参数。

机器学习装置100使用作为客观指标的对象者20的生物体信息来取得对象者20的冷热感的预测值。因此，环境调整装置10通过具备机器学习装置100，能够高精度地取得对象者20的冷热感的预测值。因此，环境调整装置10能够基于对象者20的冷热感的预测值，实现要求对象者20的舒适性的空调控制。

-第二实施方式-

参照附图对第二实施方式的环境调整装置10进行说明。第一实施方式和第二实施方式的环境调整装置10的基本结构相同。以下，以第一实施方式与第二实施方式的不同点为中心进行说明。

图3是第二实施方式的学习中的机器学习装置100的框图。图4是第二实施方式的学习后的机器学习装置100的框图。第二实施方式的环境调整装置10具备第一实施方式的机器学习装置100、操作量候选输出部106以及操作量决定部107。机器学习装置100具备状态变量取得部101～推断部105。

操作量候选输出部106输出用于调整对象空间的环境的环境参数(第三变量)的候选。环境参数包含对象空间的温度。操作量候选输出部106例如从环境参数的规定的列表输出环境参数的候选。如图4所示，机器学习装置100的推断部105至少根据操作量候选输出部106输出的环境参数的候选，推断对象者20的冷热感的预测值。

操作量决定部107以使对象者20的冷热感的预测值满足规定的条件的方式决定环境参数。具体而言，操作量决定部107以使对象者20的冷热感的目标值与推断部105推断出的预测值之差变小的方式决定环境参数。如图3所示，机器学习装置100的学习部103使用操作量决定部107决定的环境参数进行学习，输出已学习模型。

在第二实施方式中，操作量决定部107能够从环境参数的候选中决定适合于构建能够以高精度取得对象者20的冷热感的预测值的已学习模型的环境参数。因此，环境调整装置10能够以高精度取得对象者20的冷热感的预测值，基于对象者20的冷热感的预测值，实现要求对象者20的舒适性的空调控制。

-第三实施方式-

参照附图对第三实施方式的环境调整装置10进行说明。环境调整装置10是调整对象空间的环境的装置。在第三实施方式中，环境调整装置10是空调控制装置。

环境调整装置10使用对象者20的生物体信息来预测对象空间内的对象者20的冷热感。环境调整装置10基于对象者20的冷热感的预测值，掌握该对象者20的舒适性，实现要求舒适性的空调控制。

环境调整装置10具备对环境调整装置10的控制参数进行学习的机器学习装置200。机器学习装置200由1个或多个计算机构成。在机器学习装置200由多个计算机构成的情况下，该多个计算机也可以经由网络相互连接。

图5是第三实施方式的学习中的机器学习装置200的框图。图6是第三实施方式的学习后的机器学习装置200的框图。机器学习装置200主要具备状态变量取得部201、控制量取得部202、学习部203、函数更新部204、评价数据取得部205以及控制量决定部206。状态变量取得部201～控制量决定部206通过机器学习装置200的CPU执行存储在机器学习装置200的存储装置中的程序来实现。

状态变量取得部201取得包含与对象空间内的对象者20的生物体信息有关的至少一方参数的状态变量(第一变量)。

控制量取得部202取得环境调整装置10的控制参数作为控制量。

评价数据取得部205取得对环境调整装置10的控制结果进行评价的评价数据。

函数更新部204使用评价数据取得部205取得的评价数据来更新学习部203的学习状态。

如图5所示，学习部203将状态变量取得部201取得的状态变量与控制量取得部202取得的控制参数关联起来进行学习。学习部203输出作为学习的结果的已学习模型。

学习部203按照函数更新部204的输出进行学习。在第三实施方式中，学习部203进行使用报酬进行学习的强化学习。函数更新部204根据评价数据取得部205取得的评价数据来计算报酬。具体而言，对象者20的冷热感越接近中性，函数更新部204计算出越高的报酬。

如图6所示，控制量决定部206基于作为学习部203的学习结果而获得的学习模型，从状态变量取得部201所取得的状态变量中决定环境调整装置10的控制参数。环境调整装置10基于控制量决定部206决定的控制参数，进行环境调整装置10的空调控制。

评价数据取得部205将规定的判定数据输入到规定的评价函数，取得评价函数的输出值作为评价数据。换言之，评价函数从评价数据取得部205接收判定数据作为输入值，并输出评价数据。判定数据是与冷热感有关的对象者20的输入值以及环境调整装置10的操作状况中的至少一方。与冷热感有关的对象者20的输入值是指基于对象者20的主观申报的冷热感。例如，与冷热感有关的对象者20的输入值是对象者20基于自身的主观而输入的冷热感、以及根据对象者20对与冷热感有关的问题的回答而计算出的冷热感。环境调整装置10的操作状况例如是与环境调整装置10的操作时的对象者20的脑波有关的参数。

评价数据取得部205取得的评价数据至少包含对象者20的冷热感。评价数据例如是对象者20的冷热感的预测值。对象者20的冷热感的预测值根据与冷热感有关的对象者20的输入值以及环境调整装置10的操作状况中的至少一方来取得。评价数据也可以是对象者20的冷热感的预测值与冷热感的中性的值之差。在该情况下，评价数据取得部205取得的评价数据即差越接近零，函数更新部204计算出越高的报酬。

状态变量取得部201取得的状态变量包含与对象者20的脑波、皮肤血流量、皮肤温度以及发汗量分别有关的参数中的至少一方。与脑波有关的参数是指脑波振幅、脑波波高最大值及最大李亚普诺夫指数中的至少一方。与皮肤温度有关的参数是指对象者20的身体的特定的部分的皮肤温度、以及对象者20的身体的特定的两处的部分的皮肤温度之差中的至少一方。

机器学习装置200根据作为客观指标的对象者20的生物体信息取得对象者20的冷热感，根据对象者20的冷热感决定环境调整装置10的控制参数。因此，环境调整装置10通过具备机器学习装置200，能够取得直接反映了对象者20的生物体信息的控制参数。因此，环境调整装置10能够基于对象者20的冷热感，实现要求对象者20的舒适性的空调控制。

-变形例-

以下，对实施方式的至少一部分的变形例进行说明。

(1)变形例A

在第三实施方式中，学习部203进行使用报酬进行学习的强化学习。但是，学习部203也可以进行基于教师数据进行学习的有教师学习来代替强化学习。

参照附图对变形例A的环境调整装置10进行说明。第三实施方式和变形例A的环境调整装置10的基本结构相同。以下，以第三实施方式与变形例A的不同点为中心进行说明。

图7是变形例A的学习中的机器学习装置200的框图。图8是变形例A的学习后的机器学习装置200的框图。机器学习装置200还具备函数变更部207。

函数更新部204具备教师数据蓄积部204a和判定部204b。判定部204b使用评价数据取得部205取得的评价数据，输出评价数据的判定结果。教师数据蓄积部204a按照判定部204b的判定结果，根据状态变量取得部201取得的状态变量和控制量取得部202取得的控制参数来蓄积教师数据。

学习部203按照函数变更部207的输出，使识别函数的参数微小变化，多次进行识别函数的参数的变更，按照参数变更后的每个识别函数根据状态变量输出控制参数。识别函数是指从教师数据所包含的状态变量向控制参数的映射。具体而言，识别函数是以状态变量为输入变量、以控制参数为输出变量的函数。函数变更部207输出识别函数的参数。函数更新部204在判定为环境调整装置10基于学习部203根据状态变量输出的控制参数进行控制的结果所得到的评价数据适当的情况下，将该状态变量和学习部203根据该状态变量输出的控制参数作为教师数据进行蓄积。

学习部203基于蓄积在教师数据蓄积部204a中的教师数据进行学习。学习部203的学习的目的在于，使用教师数据作为学习数据来调整识别函数的参数，使得能够从新的状态变量得到正确或适当的评价数据。学习部203使用状态变量取得部201预先取得的状态变量和控制量取得部202取得的控制参数的对作为学习数据。由学习部203充分调整了参数后的识别函数相当于已学习模型。

控制量决定部206基于学习部203的学习的结果所得到的已学习模型，根据新的状态变量来决定控制参数。

学习部203如接下来说明的那样，进行基于在线学习或批量学习的有教师学习。

在基于在线学习的有教师学习中，学习部203使用在环境调整装置10的出厂或者设置前的试验运转时等取得的数据(状态变量)来预先生成已学习模型。控制量决定部206在环境调整装置10的初次运转开始时，基于学习部203预先生成的已学习模型来决定控制参数。之后，学习部203使用在环境调整装置10的运转时新取得的数据(状态变量)来更新已学习模型。控制量决定部206基于学习部203更新后的已学习模型，决定控制参数。这样，在在线学习中，已学习模型被定期地更新，控制量决定部206基于最新的已学习模型来决定控制参数。

在基于批量学习的有教师学习中，学习部203使用在环境调整装置10的出厂或者设置前的试验运转时等取得的数据(状态变量)来预先生成已学习模型。控制量决定部206在环境调整装置10的运转时，基于学习部203预先生成的已学习模型来决定控制参数。该已学习模型在由学习部203预先生成之后不被更新。换言之，控制量决定部206使用相同的已学习模型来决定控制参数。

此外，经由互联网等计算机网络与环境调整装置10连接的服务器也可以生成已学习模型，另外，也可以利用云计算的服务来生成已学习模型。

(2)变形例B

在第一以及第二实施方式中，学习部103进行使用报酬进行学习的强化学习。但是，如在变形例A中说明的那样，学习部103也可以代替强化学习而进行基于教师数据进行学习的有教师学习。在该情况下，学习部103也可以使用根据状态变量取得部101取得的状态变量和控制量取得部102取得的控制量(对象者20的冷热感)得到的教师数据来进行学习。

(3)变形例C

在变形例A至B中，在学习部103、203进行使用教师数据的有教师学习的情况下，学习部103、203也可以将教师数据的一部分用作学习数据来调整识别函数的参数，将剩余的部分用作测试数据。测试数据是在学习中未使用的数据，主要是在已学习模型的性能评价中使用的数据。通过使用测试数据，能够以相对于测试数据的错误概率这样的形式预测根据新的状态变量得到的评价数据的性能。作为将预先取得的数据分为学习数据和测试数据的方法，使用保持(hold-out)法、交叉验证法、留一法(刀切法)以及自举(bootstrap)法等。

(4)变形例D

在变形例A至C中，对作为学习部103、203使用的机器学习的方法的有教师学习进行说明。有教师学习是使用教师数据来生成与未知的输入数据对应的输出的方法。在有教师学习中，使用学习数据和识别函数。学习数据是输入数据和与其对应的教师数据的对的集合。输入数据例如是特征空间中的特征向量。教师数据例如是与输入数据的识别、分类以及评价有关的参数。识别函数表示从输入数据向与其对应的输出的映射。有教师学习是使用事先提供的学习数据来调整识别函数的参数，以使识别函数的输出与教师数据之差变小的方法。作为在有教师学习中使用的模型或算法，可举出回归分析、时间序列分析、决策树、支持向量机、神经网络、集成学习等。

回归分析例如是线性回归分析、多元回归分析、逻辑回归分析。回归分析是使用最小二乘法等在输入数据(说明变量)与教师数据(目的变量)之间代入模型的方法。说明变量的维度在线性回归分析中为1，在多元回归分析中为2以上。在逻辑回归分析中，逻辑函数(sigmoid函数)被用作模型。

时间序列分析例如是AR模型(自回归模型)、MA模型(移动平均模型)、ARMA模型(自回归移动平均模型)、ARIMA模型(自回归积分移动平均模型)、SARIMA模型(季节性自回归积分移动平均模型)、VAR模型(向量自回归模型)。AR、MA、ARMA、VAR模型表示稳态过程，ARIMA、SARIMA模型表示非稳态过程。AR模型是值随着时间的经过而规则地变化的模型。MA模型是某期间内的变动恒定的模型。例如，在MA模型中，某时刻的值由该时刻之前的移动平均决定。ARMA模型是将AR模型和MA模型组合的模型。ARIMA模型是考虑中长期的趋势(增加或减少倾向)而对前后的值的差分应用ARMA模型的模型。SARIMA模型是考虑中长期的季节变动而应用ARIMA模型的模型。VAR模型是将AR模型扩展为多变量的模型。

决策树是用于组合多个识别器来生成复杂的识别边界的模型。关于决策树的详细情况在后面叙述。

支持向量机是生成2类线性识别函数的算法。下面将描述支持向量机的详细情况。

神经网络是对通过突触将人类的脑神经***的神经元结合而形成的网络进行模型化而得到的。狭义而言，神经网络是指使用了误差反向传播法的多层感知器(perceptron)。作为代表性的神经网络，可列举卷积神经网络(CNN)、循环神经网络(RNN)。CNN是未进行全结合(结合稀疏)的顺传播型神经网络的一种。RNN是具备有向环路的神经网络的一种。CNN和RNN用于语音、图像、运动图像识别和自然语言处理。

集成学习是组合多个模型来提高识别性能的方法。集成学习所使用的方法例如是装袋(Bagging)、提升(Boosting)、随机森林。装袋是使用学习数据的自举样本来学习多个模型，通过基于多个模型的多数表决来决定新的输入数据的评价的方法。提升是根据装袋的学习结果对学习数据进行加权，对错误识别出的学习数据比正确识别出的学习数据更集中地学习的方法。随机森林是在使用决策树作为模型的情况下，生成由相关性低的多个决策树构成的决策树组(随机森林)的方法。关于随机森林的详细情况在后面叙述。

作为学习部103、203所使用的有教师学习的优选模型或算法，使用接下来说明的神经网络、支持向量机、决策树以及随机森林。

(4-1)神经网络

图9是神经网络的神经元的模型的示意图。图10是组合图9所示的神经元而构成的三层神经网络的示意图。如图9所示，神经元输出针对多个输入x(在图9中为输入x1、x2、x3)的输出y。对各输入x(在图9中为输入x1、x2、x3)乘以对应的权重w(在图9中为权重w1、w2、w3)。神经元使用下式(1)将输出y输出。

在式(1)中，输入x、输出y以及权重w全部是向量，θ是偏置，φ是激活函数。激活函数是非线性函数，例如是阶跃函数(形式神经元)、单纯感知器、S形函数或ReLU(斜坡函数)。

在图10所示的三层神经网络中，从输入侧(图10的左侧)输入多个输入向量x(在图10中为输入向量x1、x2、x3)，从输出侧(图10的右侧)输出多个输出向量y(在图10中为输出向量y1、y2、y3)。该神经网络由3个层L1、L2、L3构成。

在第一层L1中，输入向量x1、x2、x3被乘以对应的权重而分别输入到3个神经元N11、N12、N13。在图10中，这些权重统一标记为W1。神经元N11、N12、N13分别输出特征向量z11、z12、z13。

在第二层L2中，特征向量z11、z12、z13被乘以对应的权重而分别输入到2个神经元N21、N22。在图10中，这些权重被统称为W2。神经元N21、N22分别输出特征向量z21、z22。

在第三层L3中，特征向量z21、z22被乘以对应的权重而分别输入到3个神经元N31、N32、N33。在图10中，这些权重统一标记为W3。神经元N31、N32、N33分别输出输出向量y1、y2、y3。

神经网络的动作包含学习模式和预测模式。在学习模式中，使用学习数据集来学习权重W1、W2、W3。在预测模式中，使用学习到的权重W1、W2、W3的参数来进行识别等的预测。

权重W1、W2、W3例如能够通过误差反向传播法(反向传播)来学习。在该情况下，与误差有关的信息从输出侧朝向输入侧传递，换言之，在图10中从右侧朝向左侧传递。误差反向传播法是在各神经元中调整权重W1、W2、W3来进行学习以减小输入了输入x时的输出y与真正的输出y(教师数据)之差的方法。

神经网络能够构成为具有多于3层的层。基于4层以上的神经网络的机器学习的方法已知为深度学习(deep learning)。

(4-2)支持向量机

支持向量机(SVM)是求出实现最大富余(margin)的2类线性识别函数的算法。图11是用于说明SVM的图。2类线性识别函数表示在图11所示的特征空间中，用于对2个类C1、C2的学***面即识别超平面P1、P2。在图11中，类C1的学***面的富余是最接近识别超平面的学***面之间的距离。图11示出了识别超平面P1的富余d1和识别超平面P2的富余d2。在SVM中，求出富余最大的识别超平面即最佳识别超平面P1。一个类C1的学***面P1之间的距离的最小值d1等于另一个类C2的学***面P2之间的距离的最小值d1。

在图11中，用以下的式(2)表示2类问题的有教师学习中使用的学习数据集D_L。

D_L＝{(t_i，x_i)}(i＝1，...，N) (2)

学习数据集D_L是学习数据(特征向量)x_i与教师数据t_i＝{-1，+1}的对的集合。学习数据集D_L的要素数为N。教师数据t_i表示学习数据x_i属于类C1、C2中的哪一个。类C1是t_i＝-1的类，类C2是t_i＝+1的类。

在图11中，在所有学习数据x_i中成立的归一化的线性识别函数由以下的2个式(3-1)和(3-2)表示。w是系数向量，b是偏置。

t_i＝+1的情况w^Tx_i+b≥+1 (3-1)

t_i＝-1的情况w^Tx_i+b≤-1 (3-2)

这2个式由以下的1个式(4)表示。

ti(w^Tx_i+b)≥1 (4)

在用以下的式(5)表示识别超平面P1、P2的情况下，其富余d用式(6)表示。

w^Tx+b＝0 (5)

在式(6)中，ρ(w)表示将类C1、C2各自的学***面P1、P2的法线向量w上的长度之差的最小值。式(6)的“min”以及“max”的项分别是在图11中用符号“min”以及符号“max”表示的点。在图11中，最佳识别超平面是富余d最大的识别超平面P1。

图11表示2类的学习数据能够线性分离的特征空间。图12是与图11同样的特征空间，表示2类的学习数据不能线性分离的特征空间。在2类的学习数据不能进行线性分离的情况下，能够使用对式(4)导入松弛变量ξ_i并扩展后的下式(7)。

t_i(w^Tx_i+b)-1+ξ_i≥0(7)

松弛变量ξ_i仅在学***面P3、富余边界B1和B2以及富余d3。识别超平面P3的式子与式(5)相同。富余边界B1、B2是距识别超平面P3的距离为富余d3的超平面。

在松弛变量ξ_i为0的情况下，式(7)与式(4)等效。此时，如图12中的空心圆或正方形所示，在富余d3内正确地识别满足式(7)的学***面P3之间的距离为富余d3以上。

在松弛变量ξ_i大于0且为1以下的情况下，如图12中带阴影的圆或正方形所示，满足式(7)的学***面P3，被正确地识别。此时，学***面P3之间的距离小于富余d3。

在松弛变量ξ_i大于1的情况下，如图12中涂黑的圆或正方形所示，满足式(7)的学***面P3，被误识别。

这样，通过使用导入了松弛变量ξ_i的式(7)，即使在2类的学习数据不能线性分离的情况下，也能够识别学习数据x_i。

根据上述说明，所有学习数据x_i的松弛变量ξ_i之和表示误识别的学习数据x_i的数量的上限。在此，评价函数L_p由下式(8)定义。

学习部103、203求出使评价函数L_p的输出值最小化的解(w、ξ)。在式(8)中，第二项的参数C表示针对误识别的惩罚的强度。参数C越大，越求出与w的范数(第一项)相比更优先使误识别数(第二项)小的解。

(4-3)决策树

决策树是指用于组合多个识别器而得到复杂的识别边界(非线性识别函数等)的模型。识别器例如是与某个特征轴的值与阈值的大小关系有关的规则。作为根据学习数据构成决策树的方法，例如有反复求出将特征空间2分割的规则(识别器)的分治法。图13是通过分治法构成的决策树的一例。图14表示由图13的决策树分割的特征空间。在图14中，学习数据用白圈或黑圈表示，通过图13所示的决策树，各学习数据被分类为白圈的类或黑圈的类。在图13中，示出了被赋予了从1到11的编号的节点、和将节点之间连结并被赋予了“是”或者“否”的标签的链接。在图13中，末端节点(叶节点)用四边形表示，非末端节点(根节点以及内部节点)用圆圈表示。末端节点是被赋予了从6到11的编号的节点，非末端节点是被赋予了从1到5的编号的节点。在各末端节点中示出了表示学习数据的白圈或黑圈。在各非末端节点附有识别器。识别器是判断特征轴x₁、x₂的值与阈值a～e的大小关系的规则。附于链接的标签表示识别器的判断结果。在图14中，用虚线表示识别器，对由识别器分割的区域赋予对应的节点的编号。

在通过分治法构成适当的决策树的过程中，需要对以下的(a)～(c)这3点进行研究。

(a)用于构成识别器的特征轴和阈值的选择。

(b)末端节点的决定。例如，1个末端节点所包含的学习数据所属的类的数量。或者，选择将决策树的修剪(根节点得到相同的部分树)进行到哪里。

(c)通过多数表决对末端节点分配类。

决策树的学习方法例如使用CART、ID3以及C4.5。如图13和图14所示，CAT是通过在末端节点以外的各节点处将特征空间按每个特征轴进行2分割，生成2叉树作为决策树的方法。

在使用决策树的学习中，为了提高学习数据的识别性能，重要的是在非末端节点以最佳的分割候选点分割特征空间。作为评价特征空间的分割候选点的参数，也可以使用被称为不纯度的评价函数。作为表示节点t的不纯度的函数I(t)，例如使用由以下的式(9-1)～(9-3)表示的参数。K是类的数量。

(a)节点t中的错误率

(b)交叉熵(偏离度)

(c)基尼系数

在上式中，概率P(C_i|t)是节点t处的类C_i的后验概率，换句话说，是在节点t处选择类C_i的数据的概率。在式(9-3)的第二式中，概率P(C_j|t)是类C_i的数据被误认为第j(≠i)类的概率，因此，第二式表示节点t处的错误率。式(9-3)的第三式表示与所有类有关的概率P(C_i|t)的方差之和。

在将不纯度作为评价函数来分割节点的情况下，例如使用将决策树修剪到由该节点处的错误率以及决策树的复杂度决定的容许范围的方法。

(4-4)随机森林

随机森林是集成学习的一种，是组合多个决策树来强化识别性能的方法。在使用随机森林的学习中，生成由相关性低的多个决策树构成的组(随机森林)。在随机森林的生成以及识别中使用以下的算法。

(A)从m＝1到M重复以下步骤。

(a)根据N个d维学习数据生成m个自举样本Z_m。

(b)将Z_m作为学习数据，按照以下的步骤分割各节点t，生成m个决策树。

(i)从d个特征中随机选择d′个特征。(d′<d)

(ii)根据所选择的d′个特征求出给出学习数据的最佳分割的特征和分割点(阈值)。

(iii)利用求出的分割点将节点t进行2分割。

(B)输出由m个决策树构成的随机森林。

(C)针对输入数据，得到随机森林的各决策树的识别结果。随机森林的识别结果由各决策树的识别结果的多数表决决定。

在使用随机森林的学习中，通过在决策树的各非末端节点中随机地选择预先决定的数量的用于识别的特征，能够降低决策树间的相关性。

(5)变形例E

在第一至第三实施方式中，对学习部103、203所使用的机器学习的方法即强化学习进行说明。强化学习是学习使作为一系列行动的结果的报酬最大的对策的方法。强化学习中使用的模型或算法有Q学习(Q-learning)等。Q学习是学习表示在状态s下选择行动a的价值的Q值的方法。在Q学习中，选择Q值最高的行动a作为最佳的行动。为了求出较高的Q值，行动a的主体(智能体(agent))对在状态s下选择出的行动a赋予报酬。在Q学习中，每当智能体行动时，使用以下的式(10)来更新Q值。

在式(10)中，Q(s_t，a_t)是表示状态s_t的智能体选择行动a_t的价值的Q值。Q(s_t，a_t)是以状态s和行动a为参数的函数(行动价值函数)。s_t是时刻t的智能体的状态。a_t是时刻t的智能体的行动。α是学习系数。α被设定为通过式(10)使Q值收敛于最佳的值。r_t+1是智能体转变为状态s_t+1时得到的报酬。γ是折扣率。γ是0以上1以下的常数。包含max的项是在环境s_t+1下选择了Q值最高的行动a的情况下的Q值乘以γ而得到的。通过行动价值函数求出的Q值是智能体得到的报酬的期待值。

(6)变形例F

在第三实施方式中，机器学习装置200具备控制量取得部202。但是，机器学习装置200也可以不具备控制量取得部202。在该情况下，机器学习装置200的学习部203也可以使用控制量决定部206决定的控制参数作为学习数据。

(7)变形例G

在上述的实施方式以及变形例中，机器学习装置100、200使用有教师学习或者强化学习的方法。但是，机器学习装置100、200也可以使用组合了有教师学习和强化学习的方法。

(8)变形例H

在上述的实施方式以及变形例中，学习部103、203能够使用各种机器学习的方法。学习部103、203能够使用的机器学习的方法除了已经说明的有教师学习以及强化学习之外，还有无教师学习、半有教师学习、直推学习(transductive learning)、多任务学习以及迁移学习等。学习部103、203也可以组合使用这些方法。

无教师学***均法(k-means法)、沃德法(Ward法)、主成分分析等。k平均法是反复进行对各输入数据随机地分配簇，计算各簇的中心，将各输入数据重新分配给最近的中心的簇的步骤的方法。沃德法是反复进行以使从簇的各输入数据到簇的质量中心的距离最小化的方式将各输入数据重新分配给簇的步骤的方法。主成分分析是从具有相关性的多个变量生成相关性最小的被称为主成分的变量的多变量分析的方法。

半有教师学习是使用不附带对应的教师数据的输入数据(无标签数据)和附带对应的教师数据的输入数据(有标签数据)双方来进行学习的方法。

直推学习是在半有教师学习中生成与用于学习的无标签数据对应的输出而不生成与未知的输入数据对应的输出的方法。

多任务学习是如下方法：共享多个关联的任务彼此的信息，使这些任务同时学习，由此获得任务共同的因素而提高任务的预测精度。

迁移学习是通过将在某个域中预先学习的模型适应于其他域来提高预测精度的方法。

-总结-

以上，对本公开的实施方式进行了说明，但应该理解为在不脱离权利要求书所记载的本公开的主旨以及范围的情况下，能够进行方式、详细情况的多样的变更。

产业上的可利用性

机器学习装置能够高精度地取得对象者的冷热感的预测值。

标号说明

10：环境调整装置；20：对象者；100：机器学习装置；101：状态变量取得部(第一取得部)；102：控制量取得部(第二取得部)；103：学习部；104：函数更新部(更新部)；105：推断部；106：操作量候选输出部(输出部)；107：操作量决定部(决定部)；200：机器学习装置；201：状态变量取得部(第一取得部)；202：控制量取得部(第二取得部)；203：学习部；204：函数更新部(更新部)；204a：教师数据蓄积部(蓄积部)；204b：判定部；205：评价数据取得部(第三取得部)；207：函数变更部(变更部)。

现有技术文献

专利文献

专利文献1：国际公开第2007/007632号

Claims

1.一种机器学习装置(100)，其学习对象者(20)的冷热感，所述机器学习装置具备：

第一取得部(101)，其取得包含与所述对象者的生物体信息有关的参数的第一变量；

第二取得部(102)，其取得包含所述对象者的冷热感的第二变量；以及

学习部(103)，其将所述第一变量和所述第二变量关联起来进行学习。

2.根据权利要求1所述的机器学习装置，其中，

所述第一变量包含与所述对象者的脑波、皮肤血流量、皮肤温度、出汗量以及心跳各自有关的参数中的至少一方。

3.根据权利要求1或2所述的机器学习装置，其中，

所述学习部将所述第一变量和所述第二变量用作教师数据来进行学习。

4.根据权利要求1～3中的任一项所述的机器学习装置，其中，

所述机器学习装置还具备推断部(105)，所述推断部(105)基于所述学习部的学习的结果，根据所述第一变量推断所述对象者的冷热感的预测值。

5.根据权利要求4所述的机器学习装置，其中，

所述机器学习装置还具备更新部(104)，所述更新部(104)基于所述第二变量以及所述预测值来计算报酬，

所述学习部使用所述报酬进行学习。

6.根据权利要求5所述的机器学习装置，其中，

所述第二变量包含的所述对象者的冷热感与所述预测值之差越小，所述更新部计算出越高的所述报酬。

7.一种环境调整装置，其调整对象空间的环境，所述环境调整装置具有权利要求1～6中的任一项所述的机器学习装置。

8.根据权利要求7所述的环境调整装置，其中，

所述第二取得部基于与冷热感有关的所述对象者的输入值以及所述环境调整装置的操作状况中的至少一方，取得所述第二变量。

9.根据权利要求7或8所述的环境调整装置，其中，

所述环境调整装置具备：

权利要求4～6中的任一项所述的机器学习装置；

输出部(106)，其输出用于调整所述对象空间的环境的第三变量的候选；以及

决定部(107)，其决定所述第三变量，

所述推断部基于所述输出部输出的所述候选，推断所述预测值，

所述决定部以使所述预测值满足规定的条件的方式决定所述第三变量。

10.根据权利要求9所述的环境调整装置，其中，

所述决定部以使所述对象者的冷热感的目标值与所述推断部推断出的所述预测值之差变小的方式决定所述第三变量，

所述学习部使用所述决定部决定的所述第三变量进行学习。

11.根据权利要求9或10所述的环境调整装置，其中，

所述第三变量包含所述对象空间的温度。

12.一种机器学习装置，其对调整对象空间的环境的环境调整装置(10)的控制参数进行学习，所述机器学习装置具备：

第一取得部(201)，其取得包含与所述对象空间内的对象者的生物体信息有关的参数的第一变量；

第二取得部(202)，其取得所述控制参数；以及

学习部(203)，其将所述第一变量和所述控制参数关联起来进行学习。

13.根据权利要求12所述的机器学习装置，其中，

所述机器学习装置还具备：

第三取得部(205)，其取得对所述环境调整装置的控制结果进行评价的评价数据；以及

更新部(204)，其使用所述评价数据更新所述学习部的学习状态，

所述学习部根据所述更新部的输出进行学习，

所述评价数据包含所述对象者的冷热感。

14.根据权利要求13所述的机器学习装置，其中，

所述更新部基于所述评价数据计算报酬，

所述学习部使用所述报酬进行学习。

15.根据权利要求14所述的机器学习装置，其中，

所述评价数据是所述对象者的冷热感的预测值与冷热感的中性的值之差，

所述差越小，所述更新部计算出越高的所述报酬。

16.根据权利要求13所述的机器学习装置，其中，

所述的机器学习装置还具备变更部(207)，所述变更部(207)输出以所述第一变量为输入变量以所述控制参数为输出变量的识别函数的参数，

所述学习部按照所述变更部的输出，多次进行所述识别函数的参数的变更，针对参数被变更后的每个所述识别函数，根据所述第一变量输出所述控制参数，

所述更新部具备蓄积部(204a)和判定部(204b)，

所述判定部使用所述评价数据输出判定结果，

所述蓄积部按照所述判定结果，根据所述第一变量和所述学习部根据所述第一变量而输出的所述控制参数来蓄积教师数据，

所述学习部基于所述蓄积部蓄积的所述教师数据进行学习。

17.根据权利要求13～16中的任一项所述的机器学习装置，其中，

所述第三取得部基于与冷热感有关的所述对象者的输入值和所述环境调整装置的操作状况中的至少一方取得所述评价数据。

18.根据权利要求12～17中的任一项所述的机器学习装置，其中，

所述第一变量包含与所述对象者的脑波、皮肤血流量、皮肤温度以及出汗量各自有关的参数中的至少一方。

19.一种环境调整装置，其具备权利要求12～18中的任一项所述的机器学习装置。