WO2018213999A1

WO2018213999A1 - 家用设备学习方法、及服务器

Info

Publication number: WO2018213999A1
Application number: PCT/CN2017/085385
Authority: WO
Inventors: 谢毅; 张鹏程; 张晴晴
Original assignee: 深圳微自然创新科技有限公司
Priority date: 2017-05-22
Filing date: 2017-05-22
Publication date: 2018-11-29
Also published as: CN108419439B; CN108419439A

Abstract

本发明实施例涉及计算机技术领域，公开了一种家用设备学习方法、及服务器，该方法包括：构建目标矩阵；采用预置的策略选择机制，依据所述目标矩阵确定所要选择的目标操作集合，生成相应的控制指令，向环境调节装置发送所述控制指令，所述控制指令指示所述环境调节装置执行所述目标操作集合所指定的操作；在确定所述室内环境未达到所述目标状态的情况下，依据所述室内环境当前所处的第二状态、第一状态以及目标状态计算所述目标操作集合对应的目标值，使用所述目标值更新所述目标矩阵。本发明实施例中的方案可以将室内环境快速地调节到预期的状态。

Description

家用设备学习方法、及服务器

技术领域

本发明涉及计算机技术领域，尤其涉及一种家用设备学习方法、及服务器。

背景技术

目前，人们经常使用家用电器如空调、空气净化器等去调控室内环境，由于人们不能完全了解这些家用电器的特性，导致人们在使用的过程中不清楚如何控制这些家用电器快速地达到自己想要的效果。如今，控制家用电器达到预期效果的方式是一次次的进行尝试，直到达到预期的效果。举例来说，用户认为当前舒适的温度为26摄氏度，该用户可以通过遥控器将空调的温度调到26摄氏度，并设置该空调的模式和风速，当该空调的温度达到26摄氏度后保持温度不变，该空调对应的26摄氏度可能不是用户预期的温度，这时用户需要再重新设置温度。通过这种方式，用户难以一次将室内温度调节到预期的状态，也很难找到较理想的调节方式，导致室内环境不能快速地达到预期的效果。

在实际应用中，采用上述技术方案，难以将室内环境快速地调节到预期的状态。

发明内容

本发明实施例提供一种家用设备学习方法，可以将室内环境快速地调节到预期的状态。

一方面本发明实施例提供了一种家用设备学习方法，包括：

构建目标矩阵，所述目标矩阵的第一行元素为将室内环境从第一状态调整到目标状态可选择的至少两个操作集合所对应的参数值，所述参数值越大将所述室内环境从所述第一状态调整到所述目标状态的可能性越高，所述操作集合包括至少一种类型的调节操作；

采用预置的策略选择机制，依据所述目标矩阵确定所要选择的目标操作集合，生成相应的控制指令，向环境调节装置发送所述控制指令，所述控制指令指示所述环境调节装置执行所述目标操作集合所指定的操作；

在确定所述室内环境未达到所述目标状态的情况下，依据所述室内环境当前所处的第二状态、所述第一状态以及所述目标状态计算所述目标操作集合对应的目标值，使用所述目标值更新所述目标矩阵。

在一个可选的实现方式中，在所述构建目标矩阵之前，所述方法还包括：

获取第一室内环境参数和室外环境参数，所述第一室内环境参数表征所述第一状态，所述第一状态为初始的室内环境状态；

获取与所述室外环境参数相对应的目标室内环境参数，所述目标室内环境参数表征所述目标状态。

在一个可选的实现方式中，所述构建目标矩阵包括：

获取将所述室内环境从所述第一状态调整到所述目标状态可选择的所述至少两个操作集合所对应的所述参数值，构建所述目标矩阵；

或者，依据所述第一状态下可选择的所述至少两个操作集合与所述目标状态的关系，确定所述可选择的至少两个操作集合对应的所述参数值，构建所述目标矩阵，所述可选择的至少两个操作集合所指定的状态与所述目标状态越接近其对应的参数值越大。

在一个可选的实现方式中，所述采用预置的策略选择机制，依据所述目标矩阵确定所要选择的目标操作集合包括：

从所述目标矩阵的第一行中选择数值最大的元素所对应的操作集合，作为所述目标操作集合；

或者，以概率ε从所述目标矩阵的第一行中筛选出数值最大的N个元素所对应的N个操作集合，并从所述N个操作集合中随机选择一个操作集合，作为所述目标操作集合，所述N为大于1的整数，所述N个元素不包括数值最大的元素；以概率1-ε从所述第一行中选择数值最大的元素所对应的操作集合，作为所述目标操作集合。

在一个可选的实现方式中，所述确定所述室内环境未达到所述目标状态的情况包括：

在发送所述控制指令的预置时间后，确定所述室内环境当前所处的所述第二状态未达到所述目标状态。

在一个可选的实现方式中，所述使用所述目标值更新所述目标矩阵包括：

使用如下算式更新所述目标矩阵：

Q(s_t,a_t)＝Q(s_t,a_t)+α(R+γmax Q(s_t+1,a)-Q(s_t,a_t))；

算式左边的Q(s_t,a_t)为所述目标操作集合在所述目标矩阵更新后所对应的参数值，算式右边的Q(s_t,a_t)为所述目标操作集合在所述目标矩阵更新前所对应的参数值，所述α和所述γ为预置的常数，所述R为所述目标值，所述max Q(s_t+1,a)为在所述第二状态下可选择的全部操作集合所对应的各个参数值中的最大参数值。

二方面本发明实施例提供了一种服务器，包括：

矩阵构建单元，用于构建目标矩阵，所述目标矩阵的第一行元素为将室内环境从第一状态调整到目标状态可选择的至少两个操作集合所对应的参数值，所述参数值越大将所述室内环境从所述第一状态调整到所述目标状态的可能性越高，所述操作集合包括至少一种类型的调节操作；

确定单元，用于采用预置的策略选择机制，依据所述目标矩阵确定所要选择的目标操作集合；

生成单元，用于依据所述目标操作集合生成相应的控制指令，所述控制指令指示所述环境调节装置执行所述目标操作集合所指定的操作；

发送单元，用于向环境调节装置发送所述控制指令；

所述确定单元，还用于确定所述室内环境未达到所述目标状态的情况；还用于确定所述室内环境达到所述目标状态；

计算单元，用于在确定所述室内环境未达到所述目标状态的情况下，依据所述室内环境当前所处的第二状态、所述第一状态以及所述目标状态计算所述目标操作集合对应的目标值；

更新单元，用于使用所述目标值更新所述目标矩阵。

在一种可选的实现方式中，所述服务器还包括：

获取单元，用于获取第一室内环境参数和室外环境参数，所述第一室内环境参数表征所述第一状态，所述第一状态为初始的室内环境状态；获取与所述室外环境参数相对应的目标室内环境参数，所述目标室内环境参数表征所述目标状态。

在一种可选的实现方式中，所述矩阵构建单元，具体用于获取将所述室内环境从所述第一状态调整到所述目标状态可选择的所述至少两个操作集合所对应的所述参数值，构建所述目标矩阵；

或者，所述矩阵构建单元，具体用于依据所述第一状态下可选择的所述至少两个操作集合与所述目标状态的关系，确定所述可选择的至少两个操作集合对应的所述参数值，构建所述目标矩阵，所述可选择的至少两个操作集合所指定的状态与所述目标状态越接近其对应的参数值越大。

在一种可选的实现方式中，所述确定单元，具体用于从所述目标矩阵的第一行中选择数值最大的元素所对应的操作集合，作为所述目标操作集合；

或者，所述确定单元，具体用于以概率ε从所述目标矩阵的第一行中筛选出数值最大的N个元素所对应的N个操作集合，并从所述N个操作集合中随机选择一个操作集合，作为所述目标操作集合，所述N为大于1的整数，所述N个元素不包括数值最大的元素；以概率1-ε从所述第一行中选择数值最大的元素所对应的操作集合，作为所述目标操作集合。

在一种可选的实现方式中，所述确定单元，具体用于在发送所述控制指令的预置时间后，确定所述室内环境当前所处的所述第二状态未达到所述目标状态。

在一种可选的实现方式中，所述更新单元，具体用于使用如下算式更新所述目标矩阵：

Q(s_t,a_t)＝Q(s_t,a_t)+α(R+γmax Q(s_t+1,a)-Q(s_t,a_t))；

三方面本发明实施例还提供了一种服务器，包括：处理器、接收器、发送器以及存储器；在所述存储器中存储有可执行程序；所述处理器通过执行所述可执行程序实现前述一方面提供的任意一项的方法流程。

本发明实施例中，构建目标矩阵，采用预置的策略选择机制依据该目标矩阵选择相应的操作集合，该目标矩阵的第一行元素为将室内环境从第一状态调整到目标状态可选择的至少两个操作集合所对应的参数值；使用强化学习的算法不断优化该目标矩阵，并依据优化后的目标矩阵选择操作集合，可以使得室内环境快速地达到目标状态。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对本发明实施例或背景技术中所需要使用的附图进行说明。

图1是本发明实施例***结构示意图；

图2是本发明实施例家用设备学习方法的流程示意图；

图3是本发明实施例构建目标矩阵的示意图；

图4是本发明实施例家用设备学习方法的流程示意图；

图5是本发明实施例服务器结构示意图；

图6是本发明实施例服务器结构示意图；

图7是本发明实施例服务器结构示意图。

具体实施方式

请参阅图1，图1是本发明实施例***结构示意图。图1中的传感器可以表示多个传感器，如温度传感器、湿度传感器、光照强度传感器等，用于采集温度、湿度、光照强度、风速等。图1中的传感器可以位于环境调节装置中，也可以安装在其他设备中，可以将采集到的数据通过网络上传到服务器。图1中的服务器可以通过网络与终端设备进行通信。图1中的终端设备如智能手机、平板电脑等可以接收服务器发送的控制指令，并向环境调节装置发送接收到控制指令。图1中的环境调节装置可以根据终端设备发送的控制指令，执行相应的操作。

本发明实施例提供了一种家用设备学习方法，如图2所示，包括：

201、构建目标矩阵；

上述目标矩阵的第一行元素为将室内环境从第一状态调整到目标状态可选择的至少两个操作集合所对应的参数值，上述参数值越大将上述室内环境从上述第一状态调整到上述目标状态的可能性越高，上述操作集合包括至少一种类型的调节操作。上述目标矩阵至少有一行。所述室内环境可以是车内、飞机内、船内等。上述第一状态为上述室内环境当前所处的状态，例如可以是(26℃，67％，强)，第一个参数表示上述室内环境当前的温度，第二个参数表示上述室内环境当前的湿度，第三个参数表示上述室内环境当前的室内风速。室内风速可以按照空调风速的强度划分为弱、中、强三个等级。上述目标状态可以是根据室外环境参数确定的较为理想的室内环境状态。具体的，可以根据室外环境参数与室内环境参数的对应关系确定上述目标状态。举例来说，室外环境参数(16℃，37％)可以与室内环境参数(26℃，47％)对应，室外环境参数(36℃，37％)可以与室内环境参数(28℃，60％)对应。

上述操作集合对应环境调节装置的工作状态，以空调为例，其对应的操作集合可以是(空调温度，空调模式，空调风速)。空调模式可以包括制冷、抽湿、自动、送风、制热等。上述可选择的至少两个操作集合是指环境调节装置当前可以选择的操作集合，可以不限定于能够达到上述目标状态的操作集合。举例来说，上述第一状态为(28℃，60％，强)，上述目标状态为(22℃，50％，强)，上述可选择的至少两个操作集合可以是(22℃，除湿，强)、(21℃，除湿，强)、(26℃，制冷，弱)等，其中(26℃，制冷，弱)这一操作集合不能使上述室内环境达到上述目标状态。上述可选择的至少两个操作集合也可以限定于能够达到上述目标状态的操作集合，这样可以减少可选择的操作集合的数量，提高调节效率。举例来说，上述第一状态为(28℃，60％，强)，上述目标状态为(22℃，50％，强)，上述可选择的至少两个操作集合不可以是(26℃，除湿，弱)等，因为(26℃，除湿，弱)这一操作集合不能使上述室内环境达到上述目标状态。

上述目标矩阵可以是Q矩阵，上述第一状态和上述目标状态可以理解为位于状态集合中，上述可选择的至少两个操作集合可以理解为动作集合，上述参数值可以理解为奖励值。上述目标矩阵中，行表示不同的状态，列表示不同的操作集合，矩阵中的元素为从其所在的行所代表的状态出发执行其所在的列所代表的操作集合后，达到目标状态的奖励值即Q值，例如第一行第一列元素表示在第一状态下执行第一操作集合达到目标状态的奖励值。

202、采用预置的策略选择机制，依据上述目标矩阵确定所要选择的目标操作集合，生成相应的控制指令，向环境调节装置发送上述控制指令，上述控制指令指示上述环境调节装置执行上述目标操作集合所指定的操作；

上述环境调节装置可以是空调、空气净化器、加湿器、除湿器等。

在一种可选的实现方式中，提供了两种选择目标操作集合方法，具体如下：从上述目标矩阵的第一行中选择数值最大的元素所对应的操作集合，作为上述目标操作集合；

或者，以概率ε从上述目标矩阵的第一行中筛选出数值最大的N个元素所对应的N个操作集合，并从上述N个操作集合中随机选择一个操作集合，作为上述目标操作集合，上述N为大于1的整数，上述N个元素不包括数值最大的元素；以概率1-ε从上述第一行中选择数值最大的元素所对应的操作集合，作为上述目标操作集合。

第一种方法是从上述目标矩阵的第一行中选择数值最大的元素所对应的操作集合，这种方法计算简单，在上述目标矩阵接近收敛时，有较大概率找到最好的操作集合。

第二种方法是概率1-ε从上述第一行中选择数值最大的元素所对应的操作集合，作为上述目标操作集合，以概率ε随机从N个操作集合中选择一个操作集合作为目标操作集合，有一定概率选择参数值不是最大的操作集合，在上述目标矩阵离收敛较远时，提高寻找较优操作集合的速度。

本发明实施例中，服务器可以通过终端设备如手机向环境调节装置发送上述控制指令。终端设备可以与上述环境调节装置进行绑定，并通过发射红外线信号等方式向上述环境调节装置发送上述控制指令。

本发明实施例中，提出了两种选择目标操作集合方法，可以根据目标矩阵的收敛情况，选择相应的方法，提高寻找较优操作集合的速度。

203、在确定上述室内环境未达到上述目标状态的情况下，依据上述室内环境当前所处的第二状态、上述第一状态以及上述目标状态计算上述目标操作集合对应的目标值，使用上述目标值更新上述目标矩阵。

在一种可选的实现方式中，可以按照预置的时间间隔检测室内环境是否达到目标状态，具体如下：上述确定上述室内环境未达到上述目标状态的情况包括：

在发送上述控制指令的预置时间后，确定上述室内环境当前所处的上述第二状态未达到上述目标状态。

上述预置时间可以是15分钟、20分钟、30分钟等。举例来说，在发送上述控制指令之后，服务器开始计时，当时间达到20分钟后，获取当前的室内环境参数，并确定上述室内环境当前所处的上述第二状态是否达到上述目标状态。

本发明实施例中，可以及时确定室内环境未达到目标状态的情况，以便于及时调整环境调节装置的工作状态。

本发明实施例中，构建目标矩阵，采用预置的策略选择机制依据该目标矩阵选择相应的操作集合，该目标矩阵的第一行元素为将室内环境从第一状态调整到目标状态可选择的至少两个操作集合所对应的参数值；使用强化学习的算法不断优化该目标矩阵，并依据优化后的目标矩阵确定较好的操作集合，可以使得室内环境快速地达到目标状态。

在一种可选的实现方式中，服务器通过获取到的室外环境参数获取目标室内环境参数，具体如下：在上述构建目标矩阵之前，上述方法还包括：

获取第一室内环境参数和室外环境参数，上述第一室内环境参数表征上述第一状态，上述第一状态为初始的室内环境状态；

获取与上述室外环境参数相对应的目标室内环境参数，上述目标室内环境参数表征上述目标状态。

服务器可以通过位于室内的传感器获取上述第一室内环境参数，可以通过位于室外的传感器或者从其它服务器获得上述室外环境参数。上述目标状态可以是根据上述室外环境参数确定的较为理想的室内环境状态。具体的，可以根据室外环境参数与室内环境参数的对应关系确定上述目标状态，该对应关系可以是预先存储在该服务器中的，且不同用户的对应关系可以是不同的；该对应关系也可以是通过对多个室内环境参数的统计分析确定的。例如，在室外温度为36℃，湿度为47％时，该室内环境处于温度26℃，湿度40％的状态的次数最大或者时长最长，则确定室外参数(36℃,47％)与室内参数(26℃,40％)相对应。本发明实施例的重点不是如何根据室外环境参数确定目标室内环境参数，这里不作详述。

本发明实施例中，可以准确地确定目标室内环境参数，满足不同用户的需求。

在一种可选的实现方式中，提供了两种构建目标矩阵的方法，具体如下：上述构建目标矩阵包括：

获取将上述室内环境从上述第一状态调整到上述目标状态可选择的上述至少两个操作集合所对应的上述参数值，构建上述目标矩阵；

或者，依据上述第一状态下可选择的上述至少两个操作集合与上述目标状态的关系，确定上述可选择的至少两个操作集合对应的上述参数值，构建上述目标矩阵，上述可选择的至少两个操作集合所指定的状态与上述目标状态越接近其对应的参数值越大。

第一种方法是从服务器已保存的目标矩阵中获取将上述室内环境从上述第一状态调整到上述目标状态可选择的上述至少两个操作集合所对应的上述参数值，构建上述目标矩阵；

第二种方法是依据上述第一状态下可选择的上述至少两个操作集合与上述目标状态的关系，确定上述可选择的至少两个操作集合对应的上述参数值，构建上述目标矩阵。上述操作集合中包括至少一个表示最终状态的参数。例如，某一操作集合为(26℃，除湿，强)，其中26℃就是该操作集合对应的温度的最终状态。举例来说，如图3所示，当前温度为18℃，目标温度为21℃，不同列的操作集合中的温度不同，如第一列对应的操作集合中的温度为17℃，第二列对应的操作集合中的温度为18℃，依次类推，可以看出操作集合所对应的温度与目标温度越接近其参数值越大。本发明实施例可以通过其他多种方式确定操作集合所指定的状态与上述目标状态的接近程度，这里不作限定。例如，可以根据预设的规则初始化至少两个操作集合的参数值。

本发明实施例中，提供了两种构建目标矩阵的方法，可以加速目标矩阵的收敛，减少到达目标状态所需的时间。

在一种可选的实现方式中，提供了一种更新目标矩阵的方法，具体如下：上述使用上述目标值更新上述目标矩阵包括：

使用如下算式更新上述目标矩阵：

Q(s_t,a_t)＝Q(s_t,a_t)+α(R+γmax Q(s_t+1,a)-Q(s_t,a_t))；

算式左边的Q(s_t,a_t)为上述目标操作集合在上述目标矩阵更新后所对应的参数值，算式右边的Q(s_t,a_t)为上述目标操作集合在上述目标矩阵更新前所对应的参数值，上述α和上述γ为预置的常数，上述R为上述目标值，上述max Q(s_t+1,a)为在上述第二状态下可选择的全部操作集合所对应的各个参数值中的最大参数值。上述α和上述γ为预置的常数，可以根据不同的问题设置不同的数值。

本发明实施例中，可以加快目标矩阵的收敛，减少到达目标状态所需的时间。

本发明实施例提供一种的应用场景，具体过程如下：用户通过终端设备如手机上的应用程序向服务器发送调节室内环境指令；服务器接收到该调节室内环境指令后，解析该调节室内环境指令，得到该终端设备的标识信息，该终端设备对应一个环境调节装置以及一个室内环境；该服务器依据该标识信息获取该用户当前的室外环境参数和室内环境参数，并确定对应的目标室内环境参数，即该用户的热舒适区对应的室内环境参数；该服务器利用强化学习算法选择调节操作，并生成相应的控制指令发送给该终端设备；该终端设备向该环境调节装置发送给该控制指令；该环境调节装置执行该控制指令所指定的调节操作；该服务器在发送该控制指令的预置时间后，检测该室内环境当前的状态，并更新目标矩阵，即Q矩阵，发送新的控制指令；该服务器不断更新该目标矩阵直到该室内环境的参数与目标室内参数相同。

本发明实施例提出了另一种家用设备学习方法，如图4所示，包括：

401、获取第一室内环境参数和室外环境参数；

上述第一室内环境参数表征上述第一状态，上述第一状态为初始的室内环境状态。

402、获取与上述室外环境参数相对应的目标室内环境参数；

上述目标室内环境参数表征上述目标状态。

403、依据第一状态下可选择的至少两个操作集合与目标状态的关系，确定上述可选择的至少两个操作集合对应的参数值，构建目标矩阵；

404、采用预置的策略选择机制，依据上述目标矩阵确定所要选择的目标操作集合；

405、依据上述目标操作集合生成控制指令，向环境调节装置发送上述控制指令；

406、在发送上述控制指令的预置时间后，确定上述室内环境当前所处的上述第二状态未达到上述目标状态；

407、计算上述目标操作集合对应的目标值；

408、使用上述目标值更新上述目标矩阵；

409、存储上述目标矩阵。

本发明实施例中，构建目标矩阵，采用预置的策略选择机制依据该目标矩阵选择相应的操作集合，该目标矩阵的第一行元素为将室内环境从第一状态调整到目标状态可选择的至少两个操作集合所对应的参数值；使用强化学习的算法不断优化该目标矩阵，并依据优化后的目标矩阵确定较好的操作集合，可以使得室内环境快速地达到目标状态，节省电能。

本发明实施例提供了一种服务器，如图5所示，包括：

矩阵构建单元501，用于构建目标矩阵，上述目标矩阵的第一行元素为将室内环境从第一状态调整到目标状态可选择的至少两个操作集合所对应的参数值，上述参数值越大将上述室内环境从上述第一状态调整到上述目标状态的可能性越高，上述操作集合包括至少一种类型的调节操作；

确定单元502，用于采用预置的策略选择机制，依据上述目标矩阵确定所要选择的目标操作集合；

生成单元503，用于依据上述目标操作集合生成相应的控制指令，上述控制指令指示上述环境调节装置执行上述目标操作集合所指定的操作；

发送单元504，用于向环境调节装置发送上述控制指令；

上述确定单元502，还用于确定上述室内环境未达到上述目标状态的情况；还用于确定上述室内环境达到上述目标状态；

计算单元505，用于在确定上述室内环境未达到上述目标状态的情况下，依据上述室内环境当前所处的第二状态、上述第一状态以及上述目标状态计算上述目标操作集合对应的目标值；

更新单元506，用于使用上述目标值更新上述目标矩阵。

具体实现方法和图2中的方法相同，这里不作详述。

在一种可选的实现方式中，服务器通过获取到的室外环境参数获取目标室内环境参数，具体如下：如图6所示，上述服务器还包括：

获取单元601，用于获取第一室内环境参数和室外环境参数，上述第一室内环境参数表征上述第一状态，上述第一状态为初始的室内环境状态；获取与上述室外环境参数相对应的目标室内环境参数，上述目标室内环境参数表征上述目标状态。

在一种可选的实现方式中，提供了两种构建目标矩阵的方法，具体如下：上述矩阵构建单元501，具体用于获取将上述室内环境从上述第一状态调整到上述目标状态可选择的上述至少两个操作集合所对应的上述参数值，构建上述目标矩阵；

或者，上述矩阵构建单元501，具体用于依据上述第一状态下可选择的上述至少两个操作集合与上述目标状态的关系，确定上述可选择的至少两个操作集合对应的上述参数值，构建上述目标矩阵，上述可选择的至少两个操作集合所指定的状态与上述目标状态越接近其对应的参数值越大。

在一种可选的实现方式中，提供了两种选择目标操作集合方法，具体如下：上述确定单元502，具体用于从上述目标矩阵的第一行中选择数值最大的元素所对应的操作集合，作为上述目标操作集合；

或者，上述确定单元502，具体用于以概率ε从上述目标矩阵的第一行中筛选出数值最大的N个元素所对应的N个操作集合，并从上述N个操作集合中随机选择一个操作集合，作为上述目标操作集合，上述N为大于1的整数，上述N个元素不包括数值最大的元素；以概率1-ε从上述第一行中选择数值最大的元素所对应的操作集合，作为上述目标操作集合。

在一种可选的实现方式中，可以按照预置的时间间隔检测室内环境是否达到目标状态，具体如下：上述确定单元502，具体用于在发送上述控制指令的预置时间后，确定上述室内环境当前所处的上述第二状态未达到上述目标状态。

一种可选的实现方式中，提供了一种更新目标矩阵的方法，具体如下：上述更新单元506，具体用于使用如下算式更新上述目标矩阵：

Q(s_t,a_t)＝Q(s_t,a_t)+α(R+γmax Q(s_t+1,a)-Q(s_t,a_t))；

算式左边的Q(s_t,a_t)为上述目标操作集合在上述目标矩阵更新后所对应的参数值，算式右边的Q(s_t,a_t)为上述目标操作集合在上述目标矩阵更新前所对应的参数值，上述α和上述γ为预置的常数，上述R为上述目标值，上述max Q(s_t+1,a)为在上述第二状态下可选择的全部操作集合所对应的各个参数值中的最大参数值。

请参见图7，图7是本发明实施例提供的一种服务器，该服务器包括处理器701(处理器701的数量可以一个或多个，图7中以一个处理器为例)、存储器702、接收器703、发送器704，在本发明的一些实施例中，处理器701、存储器702、接收器703、发送器704可通过总线或者其它方式连接。

存储器702包括但不限于是随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或者快闪存储器)、或便携式只读存储器(CD-ROM)，该存储器702用于相关指令及数据。存储器702还用于存储目标矩阵。

上述服务器中的处理器701用于读取上述存储器702中存储的程序代码后，执行以下操作：

构建目标矩阵，上述目标矩阵的第一行元素为将室内环境从第一状态调整到目标状态可选择的至少两个操作集合所对应的参数值，上述参数值越大将上述室内环境从上述第一状态调整到上述目标状态的可能性越高，上述操作集合包括至少一种类型的调节操作；采用预置的策略选择机制，依据上述目标矩阵确定所要选择的目标操作集合，生成相应的控制指令，向环境调节装置发送上述控制指令，上述控制指令指示上述环境调节装置执行上述目标操作集合所指定的操作；在确定上述室内环境未达到上述目标状态的情况下，依据上述室内环境当前所处的第二状态、上述第一状态以及上述目标状态计算上述目标操作集合对应的目标值，使用上述目标值更新上述目标矩阵。

具体实现方法和图2中的方法相同，这里不作详述。

在一种可选的实现方式中，服务器通过获取到的室外环境参数获取目标室内环境参数，具体如下：上述处理器701，还用于在上述构建目标矩阵之前，获取第一室内环境参数和室外环境参数，上述第一室内环境参数表征上述第一状态，上述第一状态为初始的室内环境状态；获取与上述室外环境参数相对应的目标室内环境参数，上述目标室内环境参数表征上述目标状态。

在一种可选的实现方式中，提供了两种构建目标矩阵的方法，具体如下：上述处理器701，具体用于获取将上述室内环境从上述第一状态调整到上述目标状态可选择的上述至少两个操作集合所对应的上述参数值，构建上述目标矩阵；或者，具体用于依据上述第一状态下可选择的上述至少两个操作集合与上述目标状态的关系，确定上述可选择的至少两个操作集合对应的上述参数值，构建上述目标矩阵，上述可选择的至少两个操作集合所指定的状态与上述目标状态越接近其对应的参数值越大。

在一种可选的实现方式中，提供了两种选择目标操作集合方法，具体如下：上述处理器701，具体用于从上述目标矩阵的第一行中选择数值最大的元素所对应的操作集合，作为上述目标操作集合；或者，具体用于以概率ε从上述目标矩阵的第一行中筛选出数值最大的N个元素所对应的N个操作集合，并从上述N个操作集合中随机选择一个操作集合，作为上述目标操作集合，上述N为大于1的整数，上述N个元素不包括数值最大的元素；以概率1-ε从上述第一行中选择数值最大的元素所对应的操作集合，作为上述目标操作集合。

在一种可选的实现方式中，可以按照预置的时间间隔检测室内环境是否达到目标状态，具体如下：上述处理器701，具体用于在发送上述控制指令的预置时间后，确定上述室内环境当前所处的上述第二状态未达到上述目标状态。

在一种可选的实现方式中，提供了一种更新目标矩阵的方法，具体如下：上述处理器701，具体用于使用如下算式更新上述目标矩阵：

Q(s_t,a_t)＝Q(s_t,a_t)+α(R+γmax Q(s_t+1,a)-Q(s_t,a_t))；

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

一种家用设备学习方法，其特征在于，包括：

构建目标矩阵，所述目标矩阵的第一行元素为将室内环境从第一状态调整到目标状态可选择的至少两个操作集合所对应的参数值，所述参数值越大将所述室内环境从所述第一状态调整到所述目标状态的可能性越高，所述操作集合包括至少一种类型的调节操作；

采用预置的策略选择机制，依据所述目标矩阵确定所要选择的目标操作集合，生成相应的控制指令，向环境调节装置发送所述控制指令，所述控制指令指示所述环境调节装置执行所述目标操作集合所指定的操作；

在确定所述室内环境未达到所述目标状态的情况下，依据所述室内环境当前所处的第二状态、所述第一状态以及所述目标状态计算所述目标操作集合对应的目标值，使用所述目标值更新所述目标矩阵。
根据权利要求1所述方法，其特征在于，在所述构建目标矩阵之前，所述方法还包括：

获取第一室内环境参数和室外环境参数，所述第一室内环境参数表征所述第一状态，所述第一状态为初始的室内环境状态；

获取与所述室外环境参数相对应的目标室内环境参数，所述目标室内环境参数表征所述目标状态。
根据权利要求2所述方法，其特征在于，所述构建目标矩阵包括：

获取将所述室内环境从所述第一状态调整到所述目标状态可选择的所述至少两个操作集合所对应的所述参数值，构建所述目标矩阵；

或者，依据所述第一状态下可选择的所述至少两个操作集合与所述目标状态的关系，确定所述可选择的至少两个操作集合对应的所述参数值，构建所述目标矩阵，所述可选择的至少两个操作集合所指定的状态与所述目标状态越接近其对应的参数值越大。
根据权利要求3所述方法，其特征在于，所述采用预置的策略选择机制，依据所述目标矩阵确定所要选择的目标操作集合包括：

从所述目标矩阵的第一行中选择数值最大的元素所对应的操作集合，作为所述目标操作集合；

或者，以概率ε从所述目标矩阵的第一行中筛选出数值最大的N个元素所对应的N个操作集合，并从所述N个操作集合中随机选择一个操作集合，作为所述目标操作集合，所述N为大于1的整数，所述N个元素不包括数值最大的元素；以概率1-ε从所述第一行中选择数值最大的元素所对应的操作集合，作为所述目标操作集合。
根据权利要求4所述方法，其特征在于，所述确定所述室内环境未达到所述目标状态的情况包括：

在发送所述控制指令的预置时间后，确定所述室内环境当前所处的所述第二状态未达到所述目标状态。
根据权利要求1至5任意一项所述方法，其特征在于，所述使用所述目标值更新所述目标矩阵包括：

使用如下算式更新所述目标矩阵：

Q(s_t,a_t)＝Q(s_t,a_t)+α(R+γmax Q(s_t+1,a)-Q(s_t,a_t))；

算式左边的Q(s_t,a_t)为所述目标操作集合在所述目标矩阵更新后所对应的参数值，算式右边的Q(s_t,a_t)为所述目标操作集合在所述目标矩阵更新前所对应的参数值，所述α和所述γ为预置的常数，所述R为所述目标值，所述max Q(s_t+1,a)为在所述第二状态下可选择的全部操作集合所对应的各个参数值中的最大参数值。
一种服务器，其特征在于，包括：

矩阵构建单元，用于构建目标矩阵，所述目标矩阵的第一行元素为将室内环境从第一状态调整到目标状态可选择的至少两个操作集合所对应的参数值，所述参数值越大将所述室内环境从所述第一状态调整到所述目标状态的可能性越高，所述操作集合包括至少一种类型的调节操作；

确定单元，用于采用预置的策略选择机制，依据所述目标矩阵确定所要选择的目标操作集合；

生成单元，用于依据所述目标操作集合生成相应的控制指令，所述控制指令指示所述环境调节装置执行所述目标操作集合所指定的操作；

发送单元，用于向环境调节装置发送所述控制指令；

所述确定单元，还用于确定所述室内环境未达到所述目标状态的情况；还用于确定所述室内环境达到所述目标状态；

计算单元，用于在确定所述室内环境未达到所述目标状态的情况下，依据所述室内环境当前所处的第二状态、所述第一状态以及所述目标状态计算所述目标操作集合对应的目标值；

更新单元，用于使用所述目标值更新所述目标矩阵。
根据权利要求7所述服务器，其特征在于，所述服务器还包括：

获取单元，用于获取第一室内环境参数和室外环境参数，所述第一室内环境参数表征所述第一状态，所述第一状态为初始的室内环境状态；获取与所述室外环境参数相对应的目标室内环境参数，所述目标室内环境参数表征所述目标状态。
根据权利要求8所述服务器，其特征在于，

所述矩阵构建单元，具体用于获取将所述室内环境从所述第一状态调整到所述目标状态可选择的所述至少两个操作集合所对应的所述参数值，构建所述目标矩阵；

或者，所述矩阵构建单元，具体用于依据所述第一状态下可选择的所述至少两个操作集合与所述目标状态的关系，确定所述可选择的至少两个操作集合对应的所述参数值，构建所述目标矩阵，所述可选择的至少两个操作集合所指定的状态与所述目标状态越接近其对应的参数值越大。
根据权利要求9所述服务器，其特征在于，

所述确定单元，具体用于从所述目标矩阵的第一行中选择数值最大的元素所对应的操作集合，作为所述目标操作集合；

或者，所述确定单元，具体用于以概率ε从所述目标矩阵的第一行中筛选出数值最大的N个元素所对应的N个操作集合，并从所述N个操作集合中随机选择一个操作集合，作为所述目标操作集合，所述N为大于1的整数，所述N个元素不包括数值最大的元素；以概率1-ε从所述第一行中选择数值最大的元素所对应的操作集合，作为所述目标操作集合。
根据权利要求10所述服务器，其特征在于，

所述确定单元，具体用于在发送所述控制指令的预置时间后，确定所述室内环境当前所处的所述第二状态未达到所述目标状态。
根据权利要求7至11任意一项所述服务器，其特征在于，

所述更新单元，具体用于使用如下算式更新所述目标矩阵：

Q(s_t,a_t)＝Q(s_t,a_t)+α(R+γmax Q(s_t+1,a)-Q(s_t,a_t))；

算式左边的Q(s_t,a_t)为所述目标操作集合在所述目标矩阵更新后所对应的参数值，算式右边的Q(s_t,a_t)为所述目标操作集合在所述目标矩阵更新前所对应的参数值，所述α和所述γ为预置的常数，所述R为所述目标值，所述max Q(s_t+1,a)为在所述第二状态下可选择的全部操作集合所对应的各个参数值中的最大参数值。