JP2018194932A

JP2018194932A - 制御装置、制御プログラム、学習データ作成方法、及び学習方法

Info

Publication number: JP2018194932A
Application number: JP2017096165A
Authority: JP
Inventors: 安藤　丹一; Tanichi Ando; 丹一安藤
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 2017-05-15
Filing date: 2017-05-15
Publication date: 2018-12-06
Anticipated expiration: 2037-05-15
Also published as: WO2018211927A1; JP6915371B2

Abstract

【課題】複数の制御の間で競合が発生しても、制御対象装置が動作不能に陥らないようにする技術を提供する。【解決手段】本発明の一側面に係る制御装置は、第１の制御対象装置の動作を制御するための学習を行った学習済みの第１の学習器から出力される制御値に基づいて、当該第１の制御対象装置の動作を制御する第１の制御処理部と、第２の制御対象装置の動作を制御するための学習を行った学習済みの第２の学習器から出力される制御値に基づいて、当該第２の制御対象装置の動作を制御する第２の制御処理部と、前記第１の学習器から出力される制御値に基づく前記第１の制御対象装置の制御と前記第２の学習器から出力される制御値に基づく前記第２の制御対象装置の制御とが競合する場合に、前記第１の制御対象装置及び前記第２の制御対象装置の制御を修正することで、当該競合を解消する競合解消部と、を備える。【選択図】図５

Description

本発明は、制御装置、制御プログラム、学習データ作成方法、及び学習方法に関する。

近年、所望の装置の動作を制御する機能の習得に、ディープラーニング等の機械学習が用いられることがある。例えば、特許文献１では、ニューラル装置を利用したインテリジェント住宅システムが提案されている。具体的には、特許文献１では、アイデンティティ情報、座標情報、及び使用者が過去に電子装置を調節した制御情報を用いて、使用者の慣用の操作状態に当該電子装置を調節制御する機能を習得する機械学習を行うシステムが提案されている。

特表２０１６−５３２３５５号公報

上記のとおり、機械学習を利用すれば、所望の装置の動作を制御する機能を習得したシステムを容易に構築することができる。しかしながら、本件発明者は、制御対象装置の動作を制御する機能を機械学習により習得したシステムでは、次のような問題点が発生し得ることを見出した。

すなわち、制御対象装置の動作を制御する機能を機械学習により習得した複数の異なる学習器を利用する場合に、１又は複数の制御対象装置に対する複数の制御の間で競合が発生する可能性がある。例えば、各使用者に応じて構築した学習器を利用して同一の制御対象装置を制御する場合に、異なる使用者の学習器から異なる動作を実行させる制御指令が発行されると、当該制御対象装置の制御に競合が発生してしまう。また、例えば、各制御対象装置に応じて構築した学習器を利用して複数の制御対象装置を同時に制御する場合に、同一の場所に移動させる等の同時に実現できない動作を実行させる制御指令が発行されると、当該複数の制御対象装置の制御に競合が発生してしまう。このような制御の競合が発生した場合に、従来のシステムでは、制御対象装置が動作不能に陥ってしまう可能性があるという問題点を本件発明者は見出した。

本発明は、一側面では、このような実情を鑑みてなされたものであり、その目的は、複数の制御の間で競合が発生しても、制御対象装置が動作不能に陥らないようにする技術を提供することである。

本発明は、上述した課題を解決するために、以下の構成を採用する。

すなわち、本発明の一側面に係る制御装置は、第１の制御対象装置の動作を制御するための学習を行った学習済みの第１の学習器から出力される制御値に基づいて、当該第１の制御対象装置の動作を制御する第１の制御処理部と、第２の制御対象装置の動作を制御するための学習を行った学習済みの第２の学習器から出力される制御値に基づいて、当該第２の制御対象装置の動作を制御する第２の制御処理部と、前記第１の学習器から出力される制御値に基づく前記第１の制御対象装置の制御と前記第２の学習器から出力される制御値に基づく前記第２の制御対象装置の制御とが競合する場合に、前記第１の制御対象装置及び前記第２の制御対象装置の制御を修正することで、当該競合を解消する競合解消部と、を備える。

当該構成では、第１の制御処理部が、第１の学習器を利用して、第１の制御対象装置の動作を制御する。また、第２の制御処理部が、第２の学習器を利用して、第２の制御対象装置の動作を制御する。そして、第１の制御対象装置の制御と第２の制御対象装置の制御との間に競合が発生する場合には、競合解消部が、第１の制御対象装置及び第２の制御対象装置の制御を修正することで、当該競合を解消する。したがって、当該構成によれば、複数の制御の間で競合が発生しても、制御対象装置が動作不能に陥らないようにすることができる。なお、第１の制御対象装置及び第２の制御対象装置は、同一の制御対象装置であってもよいし、互いに異なる制御対象装置であってもよい。また、制御対象装置は、制御対象となり得るあらゆる種類の装置を含んでよく、例えば、空調装置、ロボット装置等であってよい。

上記一側面に係る制御装置において、前記競合解消部は、前記第１の学習器から出力される前記第１の制御対象装置の制御値及び前記第２の学習器から出力される前記第２の制御対象装置の制御値を入力すると、前記競合を解消するように修正された前記第１の制御対象装置の制御値及び前記第２の制御対象装置の制御値を出力するように学習を行った学習済みの第３の学習器を利用して、前記競合を解消してもよい。当該構成によれば、制御対象装置の制御が複雑に競合し得る場合であっても、当該制御対象装置に生じ得る競合を容易に解消することができる。

上記一側面に係る制御装置は、前記第１の学習器から出力される前記第１の制御対象装置の制御値及び前記第２の学習器から出力される前記第２の制御対象装置の制御値に基づいて、前記第１の制御対象装置及び前記第２の制御対象装置の制御がどのように競合するかを示す競合種別情報を特定する競合種別特定部を更に備えてよく、前記競合解消部は、特定された前記競合種別情報を前記第３の学習器に更に入力してもよい。当該構成によれば、競合の仕方（種別）に応じて、適した競合の解消方法を採用するようにすることができる。

上記一側面に係る制御装置において、前記競合種別特定部は、前記第１の学習器から出力される前記第１の制御対象装置の制御値及び前記第２の学習器から出力される前記第２の制御対象装置の制御値を入力すると、前記競合種別情報に対応する出力値を出力するように学習を行った学習済みの第４の学習器を利用して、前記競合種別情報を特定してもよい。当該構成によれば、制御対象装置の制御が複雑に競合し得る場合であっても、当該制御対象装置に生じ得る競合の種別を容易に特定することができる。

上記一側面に係る制御装置において、前記第１、第２、第３及び第４の学習器はそれぞれニューラルネットワークにより構成されてよい。当該構成によれば、制御対象装置の制御に生じ得る競合を解消可能な制御装置を簡易に実現することができる。

上記一側面に係る制御装置において、前記競合解消部は、前記第１の学習器から出力される制御値に基づく前記第１の制御対象装置の制御、及び前記第２の学習器から出力される制御値に基づく前記第２の制御対象装置の制御のいずれか一方を優先することで、前記競合を解消してもよい。当該構成によれば、第１の学習器から出力される制御値及び第２の学習器から出力される制御値のいずれか一方を優先し、他方を無視することで、制御対象装置の制御に生じる競合を確実に解消することができる。

上記一側面に係る制御装置において、前記第１の制御対象装置と前記第２の制御対象装置とは同一の制御対象装置であってよく、前記競合解消部は、前記第１の学習器から出力される制御値と前記第２の学習器から出力される制御値とを平均化することで、前記競合を解消してもよい。当該構成によれば、第１の学習器から出力される制御値及び第２の学習器から出力される制御値の平均値を採用することで、制御対象装置の制御に生じる競合を解消することができる。

なお、上記各形態に係る制御装置の別の形態として、以上の各構成を実現する情報処理方法であってもよいし、プログラムであってもよいし、このようなプログラムを記録したコンピュータその他装置、機械等が読み取り可能な記憶媒体であってもよい。ここで、コンピュータ等が読み取り可能な記録媒体とは、プログラム等の情報を、電気的、磁気的、光学的、機械的、又は、化学的作用によって蓄積する媒体である。

例えば、本発明の一側面に係る制御プログラムは、第１の制御対象装置及び第２の制御対象装置の動作を制御するコンピュータに、前記第１の制御対象装置の動作を制御するための学習を行った学習済みの第１の学習器から出力される前記第１の制御対象装置を制御するための制御値を取得するステップと、前記第２の制御対象装置の動作を制御するための学習を行った学習済みの第２の学習器から出力される前記第２の制御対象装置を制御するための制御値を取得するステップと、前記第１の学習器から出力される制御値に基づく前記第１の制御対象装置の制御と前記第２の学習器から出力される制御値に基づく前記第２の制御対象装置の制御とが競合する場合に、当該競合を解消するように修正された前記第１の制御対象装置の制御値及び前記第２の制御対象装置の制御値を取得するステップと、取得された前記制御値に基づいて前記第１の制御対象装置及び前記第２の制御対象装置を制御するステップと、を実行させるためのプログラムである。

また、本発明の一側面に係る学習データ作成方法は、第１の制御対象装置の動作を制御するための学習を行った学習済みの第１の学習器から出力される当該第１の制御対象装置を制御するための制御値を取得するステップと、第２の制御対象装置の動作を制御するための学習を行った学習済みの第２の学習器から出力される当該第２の制御対象装置を制御するための制御値を取得するステップと、前記第１の学習器から出力される制御値に基づく前記第１の制御対象装置の制御と前記第２の学習器から出力される制御値に基づく前記第２の制御対象装置の制御とが競合するか否かを判定するステップと、前記第１の学習器から出力される制御値に基づく前記第１の制御対象装置の制御と前記第２の学習器から出力される制御値に基づく前記第２の制御対象装置の制御とが競合する場合に、当該競合を解消するように前記第１の制御対象装置及び前記第２の制御対象装置の制御値の修正値を決定するステップと、前記第１の学習器から得られた制御値及び前記第２の学習器から得られた制御値を入力データとし、決定された前記修正値を教師データとして、学習器の学習を行うための学習データを作成するステップと、を備える。当該構成によれば、制御対象装置の制御に生じ得る競合の解消に利用する上記第３の学習器を構築するための学習データを収集することができる。

上記一側面に係る学習データ作成方法において、前記修正値は、オペレータの入力により決定されてよい。制御対象装置が人の利用する装置である場合に、制御対象装置の制御に生じ得る競合の解消に利用する第３の学習器の構築に最適な学習データを作成することができる。

上記一側面に係る学習データ作成方法において、前記修正値は、所定の規則に従って決定されてよい。当該構成によれば、第３の学習器の構築に利用する学習データを簡易に作成することができる。

また、本発明の一側面に係る学習方法は、上記いずれかの形態に係る学習データ作成方法により作成した前記学習データを取得するステップと、取得した前記学習データにより学習器の学習を行うステップと、を備える。当該構成によれば、制御対象装置の制御に生じ得る競合の解消に利用する上記第３の学習器を構築することができる。

本発明によれば、複数の制御の間で競合が発生しても、制御対象装置が動作不能に陥らないようにする技術を提供することができる。

図１は、実施の形態に係る制御装置及び学習装置の適用場面の一例を模式的に例示する。図２は、実施の形態に係る制御装置のハードウェア構成の一例を模式的に例示する。図３は、実施の形態に係るデータ収集用制御装置のハードウェア構成の一例を模式的に例示する。図４は、実施の形態に係る学習装置のハードウェア構成の一例を模式的に例示する。図５は、実施の形態に係る制御装置の機能構成の一例を模式的に例示する。図６は、実施の形態に係るデータ収集用制御装置の機能構成の一例を模式的に例示する。図７は、実施の形態に係る学習装置の機能構成の一例を模式的に例示する。図８は、実施の形態に係る制御装置の処理手順の一例を例示する。図９は、実施の形態に係るデータ収集用制御装置の処理手順の一例を例示する。図１０は、実施の形態に係る学習装置の処理手順の一例を例示する。図１１は、変形例に係る制御装置の構成の一例を模式的に例示する。図１２は、変形例に係る制御装置の構成の一例を模式的に例示する。図１３は、変形例に係る制御装置の構成の一例を模式的に例示する。

以下、本発明の一側面に係る実施の形態（以下、「本実施形態」とも表記する）を、図面に基づいて説明する。ただし、以下で説明する本実施形態は、あらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、本発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。なお、本実施形態において登場するデータを自然言語により説明しているが、より具体的には、コンピュータが認識可能な疑似言語、コマンド、パラメータ、マシン語等で指定される。

§１適用例
まず、図１を用いて、本発明が適用される場面の一例について説明する。図１は、本実施形態に係る制御装置１及び学習装置３の適用場面の一例を模式的に例示する。

図１に示されるとおり、本実施形態に係る制御装置１は、複数の利用者（図１では、利用者Ａ及びＢ）からの指示に従って、制御対象装置である空調装置４の動作を制御する情報処理装置である。空調装置４は、例えば、室内の温度を調節する公知のエア・コンディショナであり、本発明の「第１の制御対象装置」及び「第２の制御対象装置」に相当する。すなわち、本実施形態では、第１の制御対象装置及び第２の制御対象装置は同一である。ただし、第１の制御対象装置及び第２の制御対象装置は、このような例に限定されなくてもよく、異なる装置であってもよい。

本実施形態に係る制御装置１は、空調装置４の動作を制御するための２つの学習器を備えている。第１の学習器（後述する第１のニューラルネットワーク５）は、利用者Ａの好みに応じた空調装置４の動作の制御を予め学習済みである。一方、第２の学習器（後述する第２のニューラルネットワーク６）は、利用者Ｂの好みに応じた空調装置４の動作の制御を予め学習済みである。制御装置１は、第１の学習器及び第２の学習器それぞれから出力される制御値に基づいて、空調装置４の動作を制御する。

このとき、第１の学習器から出力される制御値と第２の学習器から出力される制御値とが相違する場合、空調装置４の動作の制御に競合が生じる可能性がある。例えば、室温が２４度である状況で、第１の学習器から出力される制御値が室温を２６度にする指令を構成しており、第２の学習器から出力される制御値が室温を２２度にする指令を構成している場合、空調装置４の動作の制御に競合が生じる。

そこで、本実施形態に係る制御装置１は、第１の学習器から出力される制御値に基づく空調装置４の制御と第２の学習器から出力される制御値に基づく空調装置４の制御とが競合する場合に、空調装置４の制御を修正することで当該競合を解消する。具体的には、本実施形態に係る制御装置１は、第３の学習器（後述する第３のニューラルネットワーク７）を利用して、空調装置４の制御の競合を解消する。

第３の学習器は、第１の学習器及び第２の学習器それぞれから出力される制御値を入力すると、競合を解消するように修正された制御値（以下、「修正済み制御値」とも記載する）を出力するように予め学習済みである。そのため、制御装置１は、第１の学習器及び第２の学習器それぞれから得られる制御値を第３の学習器に入力することで、競合が生じないように修正された制御値を得ることができる。制御装置１は、このようにして得られる修正済み制御値に基づいて、空調装置４の動作を制御する。

一方、本実施形態に係る学習装置３は、第３の学習器の機械学習を行う情報処理装置である。本実施形態に係る学習装置３は、データ収集用制御装置２を用いて、第３の学習器の機械学習に利用する学習データを収集する。データ収集用制御装置２は、制御装置１と同様に、第１の学習器及び第２の学習器を利用して、各利用者（Ａ、Ｂ）の好みに適するように空調装置４の動作を制御する。ただし、データ収集用制御装置２は、空調装置４の制御の競合を解消しない（第３の学習器を利用しない）点で、制御装置１と相違する。

すなわち、データ収集用制御装置２による空調装置４の制御では、上記のような競合が生じ得る。そこで、データ収集用制御装置２は、第１の学習器から得られる制御値に基づく空調装置４の制御と第２の学習器から得られる制御値に基づく空調装置４の制御とが競合するか否かを判定する。第１の学習器から得られる制御値に基づく空調装置４の制御と第２の学習器から得られる制御値に基づく空調装置４の制御とが競合すると判定した場合、データ収集用制御装置２は、当該競合を解消するように制御値の修正値を決定する。

例えば、データ収集用制御装置２は、第１の学習器及び第２の学習器それぞれから得られる制御値のうちのいずれか一方を優先する。すなわち、データ収集用制御装置２は、優先する方の制御値を修正済み制御値として取り扱う。また、例えば、データ収集用制御装置２は、第１の学習器及び第２の学習器それぞれから得られる制御値の平均値を修正済み制御値として算出する。これにより、データ収集用制御装置２は、上記競合を解消するように決定した修正済み制御値を取得することができる。

そして、データ収集用制御装置２は、第１の学習器及び第２の学習器それぞれから得た制御値を入力データとし、上記により得られる修正済み制御値を教師データとして、第３の学習器の機械学習に利用する学習データを作成する。つまり、データ収集用制御装置２は、修正前の各制御値と修正済みの制御値とを組にすることで、学習データを作成する。

学習装置３は、このようにして作成された学習データを取得し、取得した学習データを用いて第３の学習器の機械学習を行うことで、上記制御装置１で利用可能な学習済みの第３の学習器を構築する。なお、制御装置１は、例えば、ネットワークを介して、学習装置３から学習済みの第３の学習器を取得してもよい。また、制御装置１を製造する際に、組み込みデータとして、学習済みの第３の学習器は、制御装置１に組み込まれてもよい。

以上のとおり、本実施形態に係る制御装置１は、学習済みの第１の学習器及び第２の学習器を用いることで、各利用者（Ａ、Ｂ）の好みに適するように空調装置４の動作を制御することができる。加えて、第１の学習器及び第２の学習器それぞれから得られる制御値に基づく空調装置４の制御に競合が生じる場合に、第３の学習器を利用して、当該競合を解消することができる。したがって、本実施形態によれば、各利用者（Ａ、Ｂ）による制御の間で競合が発生しても、空調装置４が動作不能に陥らないようにすることができる。

§２構成例
［ハードウェア構成］
＜制御装置＞
次に、図２を用いて、本実施形態に係る制御装置１のハードウェア構成の一例について説明する。図２は、本実施形態に係る制御装置１のハードウェア構成の一例を模式的に例示する。

図２に示されるとおり、本実施形態に係る制御装置１は、制御部１１、記憶部１２、及び外部インタフェース１３が電気的に接続されたコンピュータである。なお、図２では、外部インタフェースを「外部Ｉ／Ｆ」と記載している。

制御部１１は、ＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等を含み、プログラム及びデータに基づいて各種情報処理を実行するように構成される。記憶部１２は、制御部１１で実行される制御プログラム１２１、学習済みの第１の学習器に関する情報を示す第１動作制御学習結果データ１２２、学習済みの第２の学習器に関する情報を示す第２動作制御学習結果データ１２３、学習済みの第３の学習器に関する情報を示す競合解消学習結果データ１２４等を記憶する。

制御プログラム１２１は、後述する空調装置４の動作を制御する処理（図８）を制御部１１に実行させるためのプログラムである。第１動作制御学習結果データ１２２は、学習済みの第１の学習器の設定に利用するデータである。第２動作制御学習結果データ１２３は、学習済みの第２の学習器の設定に利用するデータである。競合解消学習結果データ１２４は、学習済みの第３の学習器の設定に利用するデータである。詳細は後述する。

外部インタフェース１３は、外部装置と接続するためのインタフェースであり、接続する外部装置に応じて適宜構成される。本実施形態では、制御装置１は、外部インタフェース１３を介して、空調装置４に接続する。なお、制御装置１は、外部インタフェース１３を介して、記憶媒体に記憶されたデータを読み込むためのドライブ装置等に接続されてもよい。この場合、制御装置１は、ドライブ装置を介して、上記制御プログラム１２１、第１動作制御学習結果データ１２２、第２動作制御学習結果データ１２３、及び競合解消学習結果データ１２４を取得してもよい。また、ドライブ装置を利用する場合、上記制御プログラム１２１、第１動作制御学習結果データ１２２、第２動作制御学習結果データ１２３、及び競合解消学習結果データ１２４は、記憶媒体に記憶されていてもよい。記憶媒体は、コンピュータその他装置、機械等が記録されたプログラム等の情報を読み取り可能なように、当該プログラム等の情報を、電気的、磁気的、光学的、機械的又は化学的作用によって蓄積する媒体である。記憶媒体は、例えば、ＣＤ（Compact Disk）、ＤＶＤ（Digital Versatile Disk）、フラッシュメモリ等である。

＜データ収集用制御装置＞
次に、図３を用いて、本実施形態に係るデータ収集用制御装置２のハードウェア構成の一例について説明する。図３は、本実施形態に係るデータ収集用制御装置２のハードウェア構成の一例を模式的に例示する。

図３に示されるとおり、本実施形態に係るデータ収集用制御装置２は、学習データの収集の場面で利用される制御装置であり、上記制御装置１とほぼ同様に構成される。すなわち、データ収集用制御装置２は、制御部２１、記憶部２２、及び外部インタフェース２３が電気的に接続されたコンピュータである。なお、図３では、上記図２と同様に、外部インタフェースを「外部Ｉ／Ｆ」と記載している。

制御部２１、記憶部２２及び外部インタフェース２３は、上記制御装置１の制御部１１、記憶部１２及び外部インタフェース１３と同様に構成される。ただし、記憶部２２は、データ収集用制御プログラム２２１、第１動作制御学習結果データ１２２、第２動作制御学習結果データ１２３、データ収集用制御プログラム２２１を実行することで作成される学習データ２２３等を記憶する。

データ収集用制御プログラム２２１は、データ収集用制御装置２に後述する学習データの収集処理（図９）を実行させるためのプログラムである。学習データ２２３は、第１の学習器及び第２の学習器それぞれから出力される制御値を入力すると、競合を解消するように修正済みの制御値を出力するように第３の学習器の学習を行うためのデータである。詳細は後述する。

＜学習装置＞
次に、図４を用いて、本実施形態に係る学習装置３のハードウェア構成の一例を説明する。図４は、本実施形態に係る学習装置３のハードウェア構成の一例を模式的に例示する。

図４に示されるとおり、本実施形態に係る学習装置３は、制御部３１、記憶部３２、通信インタフェース３３、入力装置３４、出力装置３５、及びドライブ３６が電気的に接続されたコンピュータである。なお、図４では、通信インタフェースを「通信Ｉ／Ｆ」と記載している。

制御部３１は、ＣＰＵ、ＲＡＭ、ＲＯＭ等を含み、プログラム及びデータに基づいて各種情報処理を実行するように構成される。記憶部３２は、制御部３１で実行される学習プログラム３２１、第３の学習器の学習に利用する学習データ２２３、学習プログラム３２１を実行することで作成した競合解消学習結果データ１２４等を記憶する。学習プログラム３２１は、学習装置３に後述する学習処理（図１０）を実行させるためのプログラムである。

通信インタフェース３３は、例えば、有線ＬＡＮ（Local Area Network）モジュール、無線ＬＡＮモジュール等であり、ネットワークを介した有線又は無線通信を行うためのインタフェースである。入力装置３４は、例えば、マウス、キーボード等の入力を行うための装置である。出力装置３５は、例えば、ディスプレイ、スピーカ等の出力を行うための装置である。

ドライブ３６は、例えば、ＣＤドライブ、ＤＶＤドライブ等であり、記憶媒体９１に記憶されたプログラムを読み込むためのドライブ装置である。ドライブ３６の種類は、記憶媒体９１の種類に応じて適宜選択されてよい。上記学習プログラム３２１及び／又は学習データ２２３は、この記憶媒体９１に記憶されていてもよい。

記憶媒体９１は、コンピュータその他装置、機械等が記録されたプログラム等の情報を読み取り可能なように、当該プログラム等の情報を、電気的、磁気的、光学的、機械的又は化学的作用によって蓄積する媒体である。学習装置３は、この記憶媒体９１から、上記学習プログラム３２１及び／又は学習データ２２３を取得してもよい。

なお、図４では、記憶媒体９１の一例として、ＣＤ、ＤＶＤ等のディスク型の記憶媒体を例示している。しかしながら、記憶媒体９１の種類は、ディスク型に限定される訳ではなく、ディスク型以外であってもよい。ディスク型以外の記憶媒体として、例えば、フラッシュメモリ等の半導体メモリを挙げることができる。

［機能構成］
＜制御装置＞
次に、図５を用いて、本実施形態に係る制御装置１の機能構成の一例を説明する。図５は、本実施形態に係る制御装置１の機能構成の一例を模式的に例示する。

制御装置１の制御部１１は、記憶部１２に記憶された制御プログラム１２１をＲＡＭに展開する。そして、制御部１１は、ＲＡＭに展開された制御プログラム１２１をＣＰＵにより解釈及び実行して、各構成要素を制御する。これによって、図５に示されるとおり、本実施形態に係る制御装置１は、第１の制御処理部１１１、第２の制御処理部１１２、及び競合解消部１１３を備えるコンピュータとして機能する。

第１の制御処理部１１１は、第１の学習器である第１のニューラルネットワーク５を利用して、空調装置４の動作を制御する。第１のニューラルネットワーク５は、利用者Ａの好みに適した空調装置４の動作の制御を予め学習済みである。第１の制御処理部１１１は、利用者Ａからの指示データ、位置情報等を第１のニューラルネットワーク５に入力することで、当該第１のニューラルネットワーク５から空調装置４に対する制御値を取得する。

一方、第２の制御処理部１１２は、第２の学習器である第２のニューラルネットワーク６を利用して、空調装置４の動作を制御する。第２のニューラルネットワーク６は、利用者Ｂの好みに適した空調装置４の動作の制御を予め学習済みである。第２の制御処理部１１２は、利用者Ｂからの指示データ、位置情報等を第２のニューラルネットワーク６に入力することで、当該第２のニューラルネットワーク６から空調装置４に対する制御値を取得する。

なお、第１のニューラルネットワーク５及び第２のニューラルネットワーク６に入力する情報（データ）の種類は、実施の形態に応じて適宜決定されてよい。利用者Ａ及びＢは、例えば、ＰＣ（Personal Computer）、携帯電話、リモートコントローラ等のユーザ端末を用いて、空調装置４に対して室温調整の要求を行ってもよい。これに応じて、制御装置１は、公知の無線又は有線のデータ通信により、各利用者（Ａ、Ｂ）のユーザ端末から指示データを受信してもよい。

このとき、制御装置１は、ユーザ端末からの指示データに付随して、各ニューラルネットワーク（５、６）に入力する各種情報を取得してもよい。例えば、ユーザ端末が、ＧＰＳ（Global Positioning System）信号の受信機を備える場合には、制御装置１は、各ニューラルネットワーク（５、６）に入力する情報として、各ユーザ端末から各利用者（Ａ、Ｂ）の位置情報を取得してもよい。

また、制御装置１は、各利用者（Ａ、Ｂ）の個人情報を記憶部１２に予め保持していてもよい。この場合、制御部１１は、各ユーザ端末から指示データを受信した際に、各ニューラルネットワーク（５、６）に入力する情報として、記憶部１２から各利用者（Ａ、Ｂ）の個人情報を取得してもよい。

競合解消部１１３は、第１のニューラルネットワーク５から出力される制御値に基づく空調装置４の制御と第２のニューラルネットワーク６から出力される制御値に基づく空調装置４の制御とが競合する場合に、空調装置４の制御を修正することで、当該競合を解消する。本実施形態では、第３の学習器である第３のニューラルネットワーク７を利用して、当該競合の解消を行う。

第３のニューラルネットワーク７は、第１のニューラルネットワーク５及び第２のニューラルネットワーク６それぞれから出力される制御値を入力すると、競合を解消するように修正済みの制御値を出力するように予め学習済みである。そのため、競合解消部１１３は、第１のニューラルネットワーク５及び第２のニューラルネットワーク６それぞれから出力される制御値を第３のニューラルネットワーク７に入力することで、競合を解消するように修正済みの制御値を第３のニューラルネットワーク７から取得することができる。

次に、各ニューラルネットワーク５〜７について説明する。図５に示されるとおり、第１のニューラルネットワーク５は、いわゆる深層学習に用いられる多層構造のニューラルネットワークであり、入力から順に、入力層５１、中間層（隠れ層）５２、及び出力層５３を備えている。

なお、図５の例では、第１のニューラルネットワーク５は、１層の中間層５２を備えており、入力層５１の出力が中間層５２の入力となり、中間層５２の出力が出力層５３の入力となっている。ただし、中間層５２の数は１層に限られなくてもよく、第１のニューラルネットワーク５は、２層以上の中間層５２を備えてもよい。

各層５１〜５３は、１又は複数のニューロンを備えている。例えば、入力層５１のニューロンの数は、入力に利用する情報の件数に応じて設定することができる。中間層５２のニューロンの数は、実施の形態に応じて適宜設定することができる。また、出力層５３のニューロンの数は、出力する制御値の種類数に応じて設定することができる。

隣接する層のニューロン同士は適宜結合され、各結合には重み（結合荷重）が設定されている。図５の例では、各ニューロンは、隣接する層の全てのニューロンと結合されているが、ニューロンの結合は、このような例に限定されなくてもよく、実施の形態に応じて適宜設定されてよい。

各ニューロンには閾値が設定されており、基本的には、各入力と各重みとの積の和が閾値を超えているか否かによって各ニューロンの出力が決定される。第１の制御処理部１１１は、このような第１のニューラルネットワーク５の入力層５１に利用者Ａからの指示データ、位置情報等の各種情報を入力し、順伝搬の方向に各層５１〜５３に含まれる各ニューロンの発火判定を行うことで、出力層５３から制御値（出力値）を得ることができる。

なお、以上のような第１のニューラルネットワーク５の構成（例えば、ニューラルネットワークの層数、各層におけるニューロンの個数、ニューロン同士の結合関係、各ニューロンの伝達関数）、各ニューロン間の結合の重み、及び各ニューロンの閾値を示す情報は、第１動作制御学習結果データ１２２に含まれている。第１の制御処理部１１１は、第１動作制御学習結果データ１２２を参照して、利用者Ａの好みに適した空調装置４の動作の制御を学習済みの第１のニューラルネットワーク５の設定を行う。

第２のニューラルネットワーク６及び第３のニューラルネットワーク７も、第１のニューラルネットワーク５と同様に構成される。すなわち、第２のニューラルネットワーク６は、入力から順に、入力層６１、中間層（隠れ層）６２、及び出力層６３を備えている。第３のニューラルネットワーク７は、入力から順に、入力層７１、中間層（隠れ層）７２、及び出力層７３を備えている。各中間層（６２、７２）の数、各層（６１〜６３、７１〜７３）のニューロンの数、及び隣接する層のニューロンの結合は、実施の形態に応じて適宜設定されてよい。

第２の制御処理部１１２は、第２のニューラルネットワーク６の入力層６１に利用者Ｂからの指示データ、位置情報等の各種情報を入力し、順伝搬の方向に各層６１〜６３に含まれる各ニューロンの発火判定を行うことで、出力層６３から制御値（出力値）を得ることができる。また、競合解消部１１３は、第１のニューラルネットワーク５及び第２のニューラルネットワーク６の各出力層（５３、６３）から出力される制御値を入力層７１に入力し、順伝搬の方向に各層７１〜７３に含まれる各ニューロンの発火判定を行うことで、出力層７３から修正済みの制御値（出力値）を得ることができる。

なお、以上のような第２のニューラルネットワーク６の構成、各ニューロン間の結合の重み、及び各ニューロンの閾値を示す情報は、第２動作制御学習結果データ１２３に含まれている。第２の制御処理部１１２は、第２動作制御学習結果データ１２３を参照して、利用者Ｂの好みに適した空調装置４の動作の制御を学習済みの第２のニューラルネットワーク６の設定を行う。

同様に、以上のような第３のニューラルネットワーク７の構成、各ニューロン間の結合の重み、及び各ニューロンの閾値を示す情報は、競合解消学習結果データ１２４に含まれている。競合解消部１１３は、競合解消学習結果データ１２４を参照して、第１のニューラルネットワーク５及び第２のニューラルネットワーク６それぞれから出力される制御値を入力すると、競合を解消するように修正済みの制御値を出力するように学習済みである第３のニューラルネットワーク７の設定を行う。

＜データ収集用制御装置＞
次に、図６を用いて、本実施形態に係るデータ収集用制御装置２の機能構成の一例を説明する。図６は、本実施形態に係るデータ収集用制御装置２の機能構成の一例を模式的に例示する。

データ収集用制御装置２の制御部２１は、記憶部２２に記憶されたデータ収集用制御プログラム２２１をＲＡＭに展開する。そして、制御部２１は、ＲＡＭに展開されたデータ収集用制御プログラム２２１をＣＰＵにより解釈及び実行して、各構成要素を制御する。これにより、図６に示されるとおり、本実施形態に係るデータ収集用制御装置２は、第１の制御処理部２１１、第２の制御処理部２１２、修正値決定部２１３、及び学習データ作成部２１４を備えるコンピュータとして機能する。

第１の制御処理部２１１は、上記制御装置１の第１の制御処理部１１１と同様である。すなわち、第１の制御処理部２１１は、第１動作制御学習結果データ１２２を参照して、第１のニューラルネットワーク５の設定を行う。そして、第１の制御処理部２１１は、設定した第１のニューラルネットワーク５の入力層５１に利用者Ａからの指示データ、位置情報等の各種情報を入力し、順伝搬の方向に各層５１〜５３に含まれる各ニューロンの発火判定を行うことで、利用者Ａの好みに応じた空調装置４に対する制御値（出力値）を出力層５３から取得する。

第２の制御処理部２１２は、上記制御装置１の第２の制御処理部１１２と同様である。すなわち、第２の制御処理部２１２は、第２動作制御学習結果データ１２３を参照して、第２のニューラルネットワーク６の設定を行う。そして、第２の制御処理部２１２は、設定した第２のニューラルネットワーク６の入力層６１に利用者Ｂからの指示データ、位置情報等の各種情報を入力し、順伝搬の方向に各層６１〜６３に含まれる各ニューロンの発火判定を行うことで、利用者Ｂの好みに応じた空調装置４に対する制御値（出力値）を出力層６３から取得する。

データ収集用制御装置２は、第１のニューラルネットワーク５及び第２のニューラルネットワーク６それぞれから得られる制御値に基づいて、空調装置４の動作を制御する。ただし、空調装置４の動作を制御しようとした結果、空調装置４の制御に競合が生じる場合には、空調装置４は動作不能に陥る可能性がある。

例えば、上記のとおり、室温が２４度である状況で、第１のニューラルネットワーク５から出力される制御値が室温を２６度に上げる指令を構成しており、第２のニューラルネットワーク６から出力される制御値が室温を２２度に下げる指令を構成しているとする。このような場合、空調装置４の制御に競合が生じてしまい、データ収集用制御装置２は、室温を上げるように空調装置４の動作を制御すればよいのか、室温を下げるように空調装置４の動作を制御すればよいのか判断できなくなってしまう。

そこで、空調装置４の動作を制御しようとした結果、空調装置４の制御に競合が生じる場合には、修正値決定部２１３が、当該競合を解消するように制御値の修正値を決定する。そして、学習データ作成部２１４は、各ニューラルネットワーク（５、６）から得られる制御値を入力データとし、修正値決定部２１３により決定された修正済みの制御値を教師データとして、第３のニューラルネットワーク７を構築するための学習データ２２３を作成する。

＜学習装置＞
次に、図７を用いて、本実施形態に係る学習装置３の機能構成の一例を説明する。図７は、本実施形態に係る学習装置３の機能構成の一例を模式的に例示する。

学習装置３の制御部３１は、記憶部３２に記憶された学習プログラム３２１をＲＡＭに展開する。そして、制御部３１は、ＲＡＭに展開された学習プログラム３２１をＣＰＵにより解釈及び実行して、各構成要素を制御する。これによって、図７に示されるとおり、本実施形態に係る学習装置３は、学習データ取得部３１１及び学習処理部３１２を備えるコンピュータとして機能する。

学習データ取得部３１１は、上記により作成された学習データ２２３を取得する。学習処理部３１２は、取得した学習データ２２３及び学習用のニューラルネットワーク８を利用して、上記制御装置１で利用する第３のニューラルネットワークの構築を行う。すなわち、学習処理部３１２は、各ニューラルネットワーク（５、６）から得られる制御値を入力すると、競合を解消するように修正済みの制御値を出力するようにニューラルネットワーク８を学習させる。

学習対象となるニューラルネットワーク８は、第３のニューラルネットワーク７と同様に構成される。すなわち、学習用のニューラルネットワーク８は、入力層８１、中間層（隠れ層）８２、及び出力層８３を備え、各層８１〜８３は、上記第３のニューラルネットワーク７の各層７１〜７３と同様に構成される。

学習処理部３１２は、ニューラルネットワークの学習処理により、各ニューラルネットワーク（５、６）から得られる制御値を入力層８１に入力すると、競合を解消するように修正済みの制御値を出力層８３から出力するニューラルネットワーク８を構築する。これにより構築されたニューラルネットワーク８は、学習済みの第３のニューラルネットワーク７として利用可能である。学習処理部３１２は、構築したニューラルネットワーク８の構成、各ニューロン間の結合の重み、及び各ニューロンの閾値を示す情報を競合解消学習結果データ１２４として記憶部３２に格納する。

＜その他＞
制御装置１、データ収集用制御装置２、及び学習装置３の各機能に関しては後述する動作例で詳細に説明する。なお、本実施形態では、制御装置１、データ収集用制御装置２、及び学習装置３の各機能がいずれも汎用のＣＰＵにより実現される例について説明した。しかしながら、以上の機能の一部又は全部が、１又は複数の専用のハードウェアプロセッサにより実現されてもよい。また、制御装置１、データ収集用制御装置２、及び学習装置３それぞれの機能構成に関して、実施形態に応じて、適宜、機能の省略、置換及び追加が行われてもよい。

§３動作例
［制御装置］
次に、図８を用いて、制御装置１の動作例を説明する。図８は、制御装置１の処理手順の一例を例示するフローチャートである。なお、以下で説明する処理手順は一例に過ぎず、各処理は可能な限り変更されてよい。また、以下で説明する処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。

（起動）
まず、制御装置１及び空調装置４を含むシステムを適宜起動する。システムを起動すると、制御装置１は、制御プログラム１２１を読み込んで、初期設定の処理を実行する。具体的には、制御部１１は、各学習結果データ１２２〜１２４を参照して、各ニューラルネットワーク５〜７の構造、各ニューロン間の結合の重み及び各ニューロンの閾値の設定を行う。そして、制御部１１は、以下の処理手順に従って、空調装置４の動作を制御する。

（ステップＳ１０１）
ステップＳ１０１では、制御部１１は、空調装置４の動作の制御に利用する各種情報、換言すると、空調装置４の動作を決定する要因となる情報を各利用者（Ａ、Ｂ）から取得する。上記のとおり、空調装置４の動作の制御に利用する情報の種類は、実施の形態に応じて適宜決定されてよい。各利用者（Ａ、Ｂ）は、例えば、ＰＣ（Personal Computer）、携帯電話、リモートコントローラ等のユーザ端末を用いて、空調装置４に対して室温調整の要求を行ってもよい。これに応じて、制御部１１は、公知の無線又は有線のデータ通信により、空調装置４の動作の制御に利用する指示データ、位置情報等の各種情報をユーザ端末から取得してもよい。また、制御部１１は、空調装置４の動作の制御に利用する情報として、各利用者（Ａ、Ｂ）の個人情報を記憶部１２から取得してもよい。

（ステップＳ１０２）
次のステップＳ１０２では、制御部１１は、第１の制御処理部１１１として機能し、利用者Ａから取得した指示データ、位置情報等の各種情報を第１のニューラルネットワーク５に入力する。第１のニューラルネットワーク５は、利用者Ａから取得した各種情報を入力すると、利用者Ａの好みに応じた空調装置４に対する制御値を出力するように予め学習済みである。そのため、制御部１１は、利用者Ａから取得した各種情報を入力層５１の各ニューロンに入力し、順伝搬の方向に各層５１〜５３に含まれる各ニューロンの発火判定を行うことで、利用者Ａの好みに応じた空調装置４に対する制御値を出力層５３の各ニューロンから取得することができる。

また、制御部１１は、第２の制御処理部１１２として機能し、利用者Ｂから取得した指示データ、位置情報等の各種情報を第２のニューラルネットワーク６に入力する。第２のニューラルネットワーク６は、利用者Ｂから取得した各種情報を入力すると、利用者Ｂの好みに応じた空調装置４に対する制御値を出力するように予め学習済みである。そのため、制御部１１は、利用者Ｂから取得した各種情報を入力層６１の各ニューロンに入力し、順伝搬の方向に各層６１〜６３に含まれる各ニューロンの発火判定を行うことで、利用者Ｂの好みに応じた空調装置４に対する制御値を出力層６３の各ニューロンから取得することができる。

（ステップＳ１０３）
次のステップＳ１０３では、制御部１１は、競合解消部１１３として機能し、各ニューラルネットワーク（５、６）から得られた制御値を第３のニューラルネットワーク７の入力層７１に入力する。そして、制御部１１は、順伝搬の方向に各層７１〜７３に含まれる各ニューロンの発火判定を行うことで、第３のニューラルネットワーク７の出力層７３から競合を解消するように修正済みの制御値を取得する。これにより、本実施形態では、各ニューラルネットワーク（５、６）を利用した空調装置４の制御に競合が発生する場合に、当該競合を解消するように空調装置４の制御を修正することができる。

ここで、本ステップＳ１０３では、ステップＳ１０２で取得した各制御値により空調装置４の制御に競合が発生するか否かを区別せずに、第３のニューラルネットワーク７に当該各制御値を入力している。つまり、ステップＳ１０２で取得した各制御値により空調装置４の制御に競合が発生しない場合にも、当該ステップＳ１０２で取得した各制御値を第３のニューラルネットワーク７に入力している。

このとき、第３のニューラルネットワーク７は、ステップＳ１０２で取得した各制御値により空調装置４の制御に競合が発生しない場合、各制御値をそのまま出力するように学習されていてもよいし、競合が発生する場合と同様に修正済みの制御値を出力するように学習されていてもよい。なお、以下では、入力された制御値を修正せずに第３のニューラルネットワーク７からそのまま出力される制御値も「修正済みの制御値（修正済み制御値）」と称する。

（ステップＳ１０４）
次のステップＳ１０４では、制御部１１は、上記ステップＳ１０３において第３のニューラルネットワーク７から取得した修正済み制御値に基づいて、空調装置４の動作を制御する。制御値は、例えば、空調装置４を動作させることで達成すべき所望の室温を示す。制御部１１は、制御値に示される所望の室温と現状の室温とを比較し、所望の室温になるように空調装置４の冷暖房の動作を制御する。

以上により、制御部１１は、本動作例に係る処理を終了する。制御部１１は、以上のステップＳ１０１〜Ｓ１０４の処理を定期的又は不定期的に繰り返し実行してもよい。これにより、制御装置１は、各利用者（Ａ、Ｂ）の好みに応じた空調装置４の動作の制御を継続的に実施することができる。

［データ収集用制御装置］
次に、図９を用いて、データ収集用制御装置２の動作例を説明する。図９は、データ収集用制御装置２の処理手順の一例を例示するフローチャートである。なお、以下で説明する処理手順は、本発明の「学習データ作成方法」に相当する。ただし、以下で説明する処理手順は一例に過ぎず、各処理は可能な限り変更されてよい。また、以下で説明する処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。

（起動）
上記と同様に、データ収集用制御装置２及び空調装置４を含むシステムを適宜起動する。システムを起動すると、データ収集用制御装置２は、データ収集用制御プログラム２２１を読み込んで、初期設定の処理を実行する。すなわち、制御部２１は、各学習結果データ（１２２、１２３）を参照して、各ニューラルネットワーク（５、６）の構造、各ニューロン間の結合の重み及び各ニューロンの閾値の設定を行う。そして、制御部２１は、以下の処理手順に従って、第３のニューラルネットワーク７を構築するための学習データ２２３を作成する。

（ステップＳ２０１及びＳ２０２）
ステップＳ２０１では、制御部２１は、上記ステップＳ１０１と同様に、各ニューラルネットワーク（５、６）に入力する各種情報を各利用者（Ａ、Ｂ）から取得する。

次のステップＳ２０２では、制御部２１は、上記ステップＳ１０２と同様に、第１の制御処理部２１１として機能し、利用者Ａから取得した各種情報を第１のニューラルネットワーク５の入力層５１に入力する。そして、制御部２１は、順伝搬の方向に各層５１〜５３に含まれる各ニューロンの発火判定を行うことで、第１のニューラルネットワーク５の出力層５３から出力される利用者Ａの好みに応じた空調装置４に対する制御値を取得する。

また、制御部２１は、第２の制御処理部２１２として機能し、利用者Ｂから取得した各種情報を第２のニューラルネットワーク６の入力層６１に入力する。そして、制御部２１は、順伝搬の方向に各層６１〜６３に含まれる各ニューロンの発火判定を行うことで、第２のニューラルネットワーク６の出力層６３から出力される利用者Ｂの好みに応じた空調装置４に対する制御値を取得する。

（ステップＳ２０３及びＳ２０４）
次のステップＳ２０３では、制御部２１は、上記ステップＳ２０２で各ニューラルネットワーク（５、６）から取得した各制御値に基づいて、制御対象装置である空調装置４の動作を制御する。そして、ステップＳ２０４では、制御部２１は、空調装置４の制御に競合が発生するか否かを判定する。

このとき、制御部２１は、ステップＳ２０３において空調装置４を実際に動作させて、各ニューラルネットワーク（５、６）から取得した各制御値が競合を発生させるか否かを判定してもよい。また、制御部２１は、ステップＳ２０３において空調装置４を実際には動作させず、各ニューラルネットワーク（５、６）から取得した各制御値に基づいて、空調装置４の動作をシミュレートすることで、競合が発生するか否かを判定してもよい。

競合が発生するか否かを判定する方法は、実施の形態に応じて適宜設定されてよい。例えば、各ニューラルネットワーク（５、６）から取得した各制御値に基づいた空調装置４の制御を同時に実行できない場合に、制御部２１は、空調装置４の制御に競合が発生すると判定してもよい。空調装置４の制御に競合が発生すると判定した場合には、制御部２１は、次のステップＳ２０５に処理を進める。一方、空調装置４の制御に競合が発生しないと判定した場合には、制御部２１は、本動作例に係る処理を終了する。

（ステップＳ２０５）
次のステップＳ２０５では、制御部２１は、修正値決定部２１３として機能し、空調装置４の制御に生じた競合を解消するように、各ニューラルネットワーク（５、６）から取得した各制御値の修正値を決定する。これにより、制御部２１は、競合を解消するように修正済みの制御値を取得する。

制御値の修正方法は、実施の形態に応じて適宜選択されてよい。例えば、制御部２１は、所定の規則に従って修正値を決定してもよい。この場合、利用者Ａ及びＢのいずれか一方を優先することが所定の規則として定められているときには、制御部２１は、各ニューラルネットワーク（５、６）から取得した制御値のうちいずれか一方を優先する。すなわち、制御部２１は、優先する方の制御値を修正済み制御値として取り扱う。また、利用者Ａ及びＢを共に平等に扱うことが所定の規則として定められているときには、制御部２１は、各ニューラルネットワーク（５、６）から取得した制御値を平均化することで、修正済みの制御値を取得する。

なお、所定の規則は、このような例に限定されなくてもよい。例えば、所定の規則として、利用者Ａ及びＢそれぞれに優先度が設定されている場合には、制御部２１は、各ニューラルネットワーク（５、６）から取得した制御値の加重平均を修正済みの制御値として取得してもよい。

また、例えば、制御部２１は、修正値の入力をオペレータから受け付けてもよい。すなわち、制御部２１は、オペレータからの入力に基づいて修正済みの制御値を決定してもよい。この場合、データ収集用制御装置２は、外部インタフェース２３を介して、キーボード、マイクロフォン等の入力装置に接続していてもよい。これにより、オペレータは、キーボード入力、音声入力等により、修正済みの制御値を入力することができる。

（ステップＳ２０６）
次のステップＳ２０６では、制御部２１は、学習データ作成部２１４として機能し、ステップＳ２０２で各ニューラルネットワーク（５、６）から取得した制御値と、ステップＳ２０５で決定した修正済みの制御値とを組にする。これにより、制御部２１は、修正前の各制御値を入力データとし、修正済みの制御値を教師データとする学習データ２２３を作成する。そして、制御部２１は、作成した学習データ２２３を記憶部２２に保存する。

以上により、制御部２１は、本動作例に係る処理を終了する。制御部２１は、上記ステップＳ２０１〜Ｓ２０６の一連の処理を繰り返し実行することで、複数件の学習データ２２３を収集することができる。

なお、空調装置４の制御に競合が発生しない場合に、各制御値をそのまま出力する第３のニューラルネットワーク７を構築するときには、制御部２１は、ステップＳ２０４で競合が発生しないと判定した際の各制御値を入力データ及び教師データとして学習データ２２３を作成してもよい。

また、空調装置４の制御に競合が発生しない場合でも、各ニューラルネットワーク（５、６）から得られる制御値を修正する第３のニューラルネットワーク７を構築するときには、制御部２１は、ステップＳ２０４で競合が発生しないと判定した際にも、上記ステップＳ２０５及びＳ２０６の処理を実行してもよい。

この場合、制御部２１は、オペレータからの入力を受け付けて、利用者Ａ及びＢの両方の好みに適した修正済みの制御値が得られるように修正値を決定してもよい。これにより、各ニューラルネットワーク（５、６）から得られる制御値を入力すると、利用者Ａ及びＢの両方の好みに適した修正済みの制御値を出力する第３のニューラルネットワーク７の構築に利用可能な学習データ２２３を作成することができる。

［学習装置］
次に、図１０を用いて、学習装置３の動作例を説明する。図１０は、学習装置３の処理手順の一例を例示するフローチャートである。なお、以下で説明する処理手順は一例に過ぎず、各処理は可能な限り変更されてよい。また、以下で説明する処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。

（ステップＳ３０１）
ステップＳ３０１では、制御部３１は、学習データ取得部３１１として機能し、上記データ収集用制御装置２により作成された学習データ２２３を取得する。

データ収集用制御装置２により作成した学習データ２２３を学習装置３に転送する方法は、実施の形態に応じて適宜選択されてよい。例えば、学習装置３とデータ収集用制御装置２とがネットワークを介して接続している場合には、制御部３１は、ネットワークを介してデータ収集用制御装置２にアクセスすることで、学習データ２２３を取得することができる。また、例えば、データ収集用制御装置２で作成された学習データ２２３は、ＮＡＳ（Network Attached Storage）等のその他の情報処理装置（記憶装置）に格納されていてもよい。この場合、制御部３１は、当該その他の情報処理装置にアクセスすることで、学習データ２２３を取得することができる。また、例えば、データ収集用制御装置２で作成された学習データ２２３は、記憶媒体９１に格納されていてもよい。この場合、制御部３１は、ドライブ３６を介して記憶媒体９１から学習データ２２３を取得することができる。なお、本ステップＳ３０１で取得する学習データ２２３の件数は、学習用のニューラルネットワーク８の学習を行うことができるように、実施の形態に応じて適宜決定されてよい。

（ステップＳ３０２）
次のステップＳ３０２では、制御部３１は、学習処理部３１２として機能し、ステップＳ３０１で取得した学習データ２２３を用いて、各ニューラルネットワーク（５、６）から得られる制御値を入力すると、競合を解消するように修正済みの制御値を出力するように学習用のニューラルネットワーク８の学習を行う。

具体的には、まず、制御部３１は、学習処理を行う対象となる学習用のニューラルネットワーク８を用意する。用意するニューラルネットワーク８の構成、各ニューロン間の結合の重みの初期値、及び各ニューロンの閾値の初期値は、テンプレートにより与えられてもよいし、オペレータの入力により与えられてもよい。また、再学習を行う場合には、制御部３１は、再学習を行う対象となる競合解消学習結果データ１２４に基づいて、学習用のニューラルネットワーク８を用意してもよい。

次に、制御部３１は、ステップＳ３０１で取得した学習データ２２３に含まれる各ニューラルネットワーク（５、６）から得られた制御値を入力データとし、修正済みの制御値を教師データとして、ニューラルネットワーク８の学習を行う。このニューラルネットワーク８の学習には、勾配降下法、確率的勾配降下法等が用いられてよい。

例えば、制御部３１は、学習データ２２３に含まれる各ニューラルネットワーク（５、６）から得られた制御値を入力層８１に入力して、学習用のニューラルネットワーク８の順伝播方向の演算処理を行う。これにより、制御部３１は、学習用のニューラルネットワーク８の出力層８３から出力値を得る。次に、制御部３１は、出力層８３から出力された出力値を学習データ２２３に含まれる修正済みの制御値との誤差を算出する。続いて、制御部３１は、誤差逆伝搬法により、算出した出力値の誤差を用いて、各ニューロン間の結合の重み及び各ニューロンの閾値それぞれの誤差を算出する。そして、制御部３１は、算出した各誤差に基づいて、各ニューロン間の結合の重み及び各ニューロンの閾値それぞれの値の更新を行う。

制御部３１は、各件の学習データ２２３について、出力層８３から出力される出力値が対応する修正済みの制御値と一致するまでこの一連の処理を繰り返すことにより、ニューラルネットワーク８の学習を行う。これにより、各ニューラルネットワーク（５、６）から得られる制御値を入力すると、競合を解消するように修正済みの制御値を出力するニューラルネットワーク８を構築することができる。

（ステップＳ３０３）
次のステップＳ３０３では、制御部３１は、学習処理部３１２として機能して、構築したニューラルネットワーク８の構成、各ニューロン間の結合の重み、及び各ニューロンの閾値を示す情報を競合解消学習結果データ１２４として記憶部３２に格納する。これにより、制御部３１は、本動作例に係る学習処理を終了する。

なお、学習装置３と制御装置１とがネットワークを介して接続可能な場合、制御部３１は、上記ステップＳ３０３の処理が完了した後に、作成した競合解消学習結果データ１２４を制御装置１に適宜転送してもよい。また、制御部３１は、上記ステップＳ３０１〜Ｓ３０３の学習処理を定期的又は不定期的に実行することで、競合解消学習結果データ１２４を定期的に又は不定期的に更新してもよい。そして、制御部３１は、作成した競合解消学習結果データ１２４を当該学習処理の実行毎に制御装置１に転送することで、制御装置１の保持する競合解消学習結果データ１２４を定期的に又は不定期的に更新してもよい。

［作用・効果］
以上のように、本実施形態では、各ニューラルネットワーク（５、６）によって、各利用者（Ａ、Ｂ）の好みに適するように空調装置４の動作を制御することができる。ただし、両者から相反する指示がなされた場合等には、空調装置４の制御に競合が発生し得る。これに対して、本実施形態では、各ニューラルネットワーク（５、６）から得られた制御値を、上記ステップＳ１０３の処理で利用する第３のニューラルネットワーク７によって、当該競合を解消するように修正することができる。したがって、本実施形態によれば、各利用者（Ａ、Ｂ）による制御の間で競合が発生しても、空調装置４が動作不能に陥らないようにすることができる。

§４変形例
以上、本発明の実施の形態を詳細に説明してきたが、前述までの説明はあらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。例えば、以下のような変更が可能である。なお、以下では、上記実施形態と同様の構成要素に関しては同様の符号を用い、上記実施形態と同様の点については、適宜説明を省略した。以下の変形例は適宜組み合わせ可能である。

＜４．１＞
上記実施形態では、制御装置１により制御される制御対象装置として空調装置を例示している。しかしながら、制御対象装置の種類は、空調装置に限られなくてもよく、実施の形態に応じて適宜選択されてよい。制御対象装置は、例えば、ロボット装置等であってもよい。

また、上記実施形態では、第１のニューラルネットワーク５及び第２のニューラルネットワーク６は、同一の制御対象装置（空調装置４）を制御対象としている。しかしながら、第１のニューラルネットワーク５が制御対象とする制御対象装置と第２のニューラルネットワーク６が制御対象とする制御対象装置とは異なっていてもよい。

例えば、第１のニューラルネットワーク５は、第１の制御対象装置として、第１のロボット装置を制御対象としてもよい。そして、第２のニューラルネットワーク６は、第２の制御対象装置として、第１のロボット装置とは異なる第２のロボット装置を制御対象としてもよい。この場合、例えば、第１のロボット装置及び第２のロボット装置に同じタイミングで同じ位置に移動する制御指令が発行されたときに、両ロボット装置の制御の間で競合が発生し得る。

また、上記実施形態では、制御対象装置の動作を制御する制御値を発行する学習器として２つの学習器（第１のニューラルネットワーク５及び第２のニューラルネットワーク６）が利用されている。しかしながら、制御対象装置の動作を制御する制御値を発行する学習器の数は、２つに限られなくてもよく、３つ以上であってもよい。

＜４．２＞
上記制御装置１、データ収集用制御装置２、及び学習装置３それぞれの具体的なハードウェア構成に関して、実施の形態に応じて、適宜、構成要素の省略、置換及び追加が可能である。例えば、制御部１１は、複数のプロセッサを含んでもよい。制御装置１及びデータ収集用制御装置２は、通信インタフェースを備え、ネットワークを介して他の情報処理装置とデータのやりとりが可能に構成されてもよい。制御装置１、データ収集用制御装置２、及び学習装置３はそれぞれ、複数台のコンピュータで構成されてもよい。

また、制御装置１及びデータ収集用制御装置２はそれぞれ、提供されるサービス専用に設計されたＥＣＵ（Electronic Control Unit）等の情報処理装置の他、制御する対象となる制御対象装置に応じて、汎用のデスクトップＰＣ、タブレットＰＣ、携帯電話等が適宜用いられてもよい。また、学習装置３は、提供されるサービス専用に設計された情報処理装置の他、汎用のサーバ装置、デスクトップＰＣ等が用いられてもよい。

＜４．３＞
また、上記実施形態では、図５〜図７に示されるとおり、各ニューラルネットワーク５〜８として、多層構造を有する一般的な順伝播型ニューラルネットワークを用いている。しかしながら、各ニューラルネットワーク５〜８の種類は、このような例に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、入力データとして画像を用いる場合、各ニューラルネットワーク５〜８には、畳み込み層及びプーリング層を備える畳み込みニューラルネットワークを用いてもよい。また、例えば、入力データとして時系列データを用いる場合、各ニューラルネットワーク５〜８には、中間層から入力層等のように出力側から入力側に再帰する結合を有する再帰型ニューラルネットワークが用いられてもよい。なお、各ニューラルネットワーク５〜８の層数、各層におけるニューロンの個数、ニューロン同士の結合関係、及び各ニューロンの伝達関数は、実施の形態に応じて適宜決定されてよい。

＜４．４＞
また、上記ステップＳ１０３では、空調装置４の制御に競合を発生させるか否かを区別せずに、ステップＳ１０２で各ニューラルネットワーク（５、６）から取得した制御値を第３のニューラルネットワーク７に入力している。しかしながら、制御装置１の処理手順は、このような例に限定されなくてもよい。ステップＳ１０２で各ニューラルネットワーク（５、６）から取得した制御値が空調装置４の制御に競合を発生させる場合にのみ、制御部１１は、当該ステップＳ１０２で取得した制御値を第３のニューラルネットワーク７に入力してもよい。この場合、ステップＳ１０２で各ニューラルネットワーク（５、６）から取得した制御値が空調装置４の制御に競合を発生させないときには、制御部１１は、上記ステップＳ１０３を省略して、次のステップＳ１０４の処理を実行することで、各ニューラルネットワーク（５、６）から取得した制御値をそのまま空調装置４の制御に利用してもよい。

また、上記ステップＳ１０３では、第３のニューラルネットワーク７を用いて、空調装置４の制御に生じる競合の解消を行っている。しかしながら、空調装置４の制御に生じる競合の解消を行う方法は、このような例に限定されなくてもよい。ニューラルネットワークを用いずに、空調装置４の制御に生じる競合の解消が行われてもよい。

図１１は、本変形例に係る制御装置１Ａを模式的に例示する。制御装置１Ａは、競合解消学習結果データ１２４を保持せず、ニューラルネットワークを利用しない競合解消部１１３Ａを備える点を除き、上記制御装置１と同様に構成されている。この場合、制御部１１は、上記ステップＳ１０３において、競合解消部１１３Ａとして機能し、各ニューラルネットワーク（５、６）から取得した制御値により空調装置４の制御に競合が発生するか否かを判定する。例えば、制御部１１は、空調装置４の動作をシミュレートすることで、当該空調装置４の制御に競合が発生するか否かを判定する。

そして、空調装置４の制御に競合が発生しないと判定した場合には、制御部１１は、各ニューラルネットワーク（５、６）から取得した制御値に基づいて空調装置４の動作を制御する。一方、空調装置４の制御に競合が発生すると判定した場合には、制御部１１は、競合を解消するように、各ニューラルネットワーク（５、６）から取得した制御値を修正し、修正した制御値に基づいて空調装置４の動作を制御する。

なお、制御値の修正方法は、上記ステップＳ２０５と同様に、実施の形態に応じて適宜選択されてよい。例えば、制御部１１は、各ニューラルネットワーク（５、６）から取得した制御値のうちいずれか一方を優先することで、修正済みの修正値を決定してもよい。また、例えば、制御部１１は、各ニューラルネットワーク（５、６）から取得した制御値を平均化することで、修正済みの制御値を決定してもよい。

＜４．５＞
また、上記実施形態では、制御部１１は、空調装置４の制御にどのような競合を発生させるかを特定せずに、各ニューラルネットワーク（５、６）から取得した制御値を第３のニューラルネットワーク７に入力している。しかしながら、制御装置１の処理手順は、このような例に限定されなくてもよく、制御部１１は、各ニューラルネットワーク（５、６）から取得した制御値が空調装置４の制御にどのような競合を発生させるかを特定してもよい。

図１２は、本変形例に係る制御装置１Ｂを模式的に例示する。制御装置１Ｂは、各ニューラルネットワーク（５、６）から取得した制御値に基づいて、空調装置４の制御がどのように競合するかを示す競合種別情報１２５を特定する競合種別特定部１１４を備える点、特定した競合種別情報１２５を第３のニューラルネットワーク７の入力に利用する点を除き、上記制御装置１と同様に構成されている。

この場合、制御部１１は、上記ステップＳ１０３を実行する前に、各ニューラルネットワーク（５、６）から取得した制御値に基づいて、空調装置４の制御がどのように競合するかを示す競合種別情報１２５を特定する。競合の種別（仕方）は、実施の形態に応じて適宜設定されてよい。そして、上記ステップＳ１０３において、制御部１１は、各ニューラルネットワーク（５、６）から取得した制御値及び競合種別情報１２５を第３のニューラルネットワーク７の入力層７１に入力する。

これにより、制御装置１Ｂは、競合の種別に応じて制御値の修正方法を確実に変更することができる。例えば、利用者Ａが利用者Ｂよりも高い室温を所望している場合に、第３のニューラルネットワーク７は、各ニューラルネットワーク（５、６）から取得した制御値の平均値を修正済み制御値として出力するようにしてもよい。そして、利用者Ｂが利用者Ａよりも高い室温を所望している場合に、第３のニューラルネットワーク７は、ニューラルネットワーク５から取得した制御値を修正済み制御値として優先して出力するようにしてもよい。

なお、図１３に例示するように、空調装置４の制御がどのように競合するかの特定には、ニューラルネットワーク等の学習器が利用されてもよい。図１３は、本変形例に係る制御装置１Ｃを模式的に例示する。制御装置１Ｃは、第４のニューラルネットワーク１１５を利用して競合種別情報１２５を特定する競合種別特定部１１４Ｃを備える点を除き、上記制御装置１Ｂと同様に構成されている。第４のニューラルネットワーク１１５は、各ニューラルネットワーク（５、６）から出力される制御値を入力すると、競合種別情報１２５に対応する出力値を出力するように学習済みである。第４のニューラルネットワーク１１５は、例えば、各ニューラルネットワーク５〜７と同様に構成されてよい。上記処理手順において、システムを起動した際に、制御部１１は、学習結果データ１２６を参照して、第４のニューラルネットワーク１１５の構造、各ニューロン間の結合の重み及び各ニューロンの閾値の設定を行う。これにより、空調装置４の制御に生じる競合を複雑に分類することができ、各分類に適切な解消方法を採用することができるようになる。

＜４．６＞
また、上記実施形態（及び変形例）では、各学習器は、ニューラルネットワークにより構成されている。しかしながら、各学習器の種類は、ニューラルネットワークに限られなくてもよく、実施の形態に応じて適宜選択されてよい。各学習器には、例えば、サポートベクターマシン、自己組織化マップ、強化学習により学習を行う学習器等が用いられてもよい。

＜４．７＞
また、上記各ニューラルネットワーク（５、６）を作成するための学習装置を用意してもよい。例えば、機械学習に利用する学習データを上記学習データ２２３から各利用者（Ａ、Ｂ）に適した制御を学習するための学習データに変更することで、上記学習装置３により、学習済みの各ニューラルネットワーク（５、６）を作成することができる。各利用者（Ａ、Ｂ）に適した制御を学習させるための学習データは、各利用者（Ａ、Ｂ）から取得した入力データとなる各種情報と、各利用者（Ａ、Ｂ）の好みに適した教師データとなる本来の制御値とを組み合わせることで作成することができる。学習装置は、このような学習データを利用して、上記ステップＳ３０１〜３０３の処理を実行することで、学習済みの各ニューラルネットワーク（５、６）を構築し、各動作制御学習結果データ（１２２、１２３）を作成することができる。

同様に、上記第４のニューラルネットワーク１１５を作成するための学習装置を用意してもよい。例えば、機械学習に利用する学習データを上記学習データ２２３から競合の種別の特定を学習するための学習データに変更することで、上記学習装置３により、学習済みの第４のニューラルネットワーク１１５を作成することができる。競合の種別の特定を学習するための学習データは、各ニューラルネットワーク（５、６）から取得される入力データとなる制御値と、教師データとなる競合種別情報１２５に対応する出力値とを組み合わせることで作成することができる。学習装置は、このような学習データを利用して、上記ステップＳ３０１〜３０３の処理を実行することで、学習済みの第４のニューラルネットワーク１１５を構築し、学習結果データ１２６を作成することができる。

１・１Ａ・１Ｂ・１Ｃ…制御装置、
１１…制御部、１２…記憶部、１３…外部インタフェース、
１１１…第１の制御処理部、１１２…第２の制御処理部、
１１３・１１３Ａ…競合解消部、
１１４・１１４Ｃ…競合種別特定部、
１１５…第４のニューラルネットワーク、
１２１…制御プログラム、１２２…第１動作制御学習結果データ、
１２３…第２動作制御学習結果データ、
１２４…競合解消学習結果データ、
１２５…競合種別情報、１２６…学習結果データ、
２…データ収集用制御装置、
２１…制御部、２２…記憶部、２３…外部インタフェース、
２１１…第１の制御処理部、２１２…第２の制御処理部、
２１３…修正値決定部、２１４…学習データ作成部、
２２１…データ収集用制御プログラム、２２３…学習データ、
３…学習装置、
３１…制御装置、３２…記憶部、３３…通信インタフェース、
３４…入力装置、３５…出力装置、３６…ドライブ、
３１１…学習データ取得部、３１２…学習処理部、
３２１…学習プログラム、
５…第１のニューラルネットワーク、
５１…入力層、５２…中間層（隠れ層）、５３…出力層、
６…第２のニューラルネットワーク、
６１…入力層、６２…中間層（隠れ層）、６３…出力層、
７…第３のニューラルネットワーク、
７１…入力層、７２…中間層（隠れ層）、７３…出力層、
８…学習用のニューラルネットワーク、
８１…入力層、８２…中間層（隠れ層）、８３…出力層、
９１…記憶媒体

Claims

第１の制御対象装置の動作を制御するための学習を行った学習済みの第１の学習器から出力される制御値に基づいて、当該第１の制御対象装置の動作を制御する第１の制御処理部と、
第２の制御対象装置の動作を制御するための学習を行った学習済みの第２の学習器から出力される制御値に基づいて、当該第２の制御対象装置の動作を制御する第２の制御処理部と、
前記第１の学習器から出力される制御値に基づく前記第１の制御対象装置の制御と前記第２の学習器から出力される制御値に基づく前記第２の制御対象装置の制御とが競合する場合に、前記第１の制御対象装置及び前記第２の制御対象装置の制御を修正することで、当該競合を解消する競合解消部と、
を備える、
制御装置。
前記競合解消部は、前記第１の学習器から出力される前記第１の制御対象装置の制御値及び前記第２の学習器から出力される前記第２の制御対象装置の制御値を入力すると、前記競合を解消するように修正された前記第１の制御対象装置の制御値及び前記第２の制御対象装置の制御値を出力するように学習を行った学習済みの第３の学習器を利用して、前記競合を解消する、
請求項１に記載の制御装置。
前記第１の学習器から出力される前記第１の制御対象装置の制御値及び前記第２の学習器から出力される前記第２の制御対象装置の制御値に基づいて、前記第１の制御対象装置及び前記第２の制御対象装置の制御がどのように競合するかを示す競合種別情報を特定する競合種別特定部を更に備え、
前記競合解消部は、特定された前記競合種別情報を前記第３の学習器に更に入力する、
請求項２に記載の制御装置。
前記競合種別特定部は、前記第１の学習器から出力される前記第１の制御対象装置の制御値及び前記第２の学習器から出力される前記第２の制御対象装置の制御値を入力すると、前記競合種別情報に対応する出力値を出力するように学習を行った学習済みの第４の学習器を利用して、前記競合種別情報を特定する、
請求項３に記載の制御装置。
前記第１、第２、第３及び第４の学習器はそれぞれニューラルネットワークにより構成される、
請求項４に記載の制御装置。
前記競合解消部は、前記第１の学習器から出力される制御値に基づく前記第１の制御対象装置の制御、及び前記第２の学習器から出力される制御値に基づく前記第２の制御対象装置の制御のいずれか一方を優先することで、前記競合を解消する、
請求項１から５のいずれか１項に記載の制御装置。
前記第１の制御対象装置と前記第２の制御対象装置とは同一の制御対象装置であり、
前記競合解消部は、前記第１の学習器から出力される制御値と前記第２の学習器から出力される制御値とを平均化することで、前記競合を解消する、
請求項１から６のいずれか１項に記載の制御装置。
第１の制御対象装置及び第２の制御対象装置の動作を制御するコンピュータに、
前記第１の制御対象装置の動作を制御するための学習を行った学習済みの第１の学習器から出力される前記第１の制御対象装置を制御するための制御値を取得するステップと、
前記第２の制御対象装置の動作を制御するための学習を行った学習済みの第２の学習器から出力される前記第２の制御対象装置を制御するための制御値を取得するステップと、
前記第１の学習器から出力される制御値に基づく前記第１の制御対象装置の制御と前記第２の学習器から出力される制御値に基づく前記第２の制御対象装置の制御とが競合する場合に、当該競合を解消するように修正された前記第１の制御対象装置の制御値及び前記第２の制御対象装置の制御値を取得するステップと、
取得された前記制御値に基づいて前記第１の制御対象装置及び前記第２の制御対象装置を制御するステップと、
を実行させるための制御プログラム。
第１の制御対象装置の動作を制御するための学習を行った学習済みの第１の学習器から出力される当該第１の制御対象装置を制御するための制御値を取得するステップと、
第２の制御対象装置の動作を制御するための学習を行った学習済みの第２の学習器から出力される当該第２の制御対象装置を制御するための制御値を取得するステップと、
前記第１の学習器から出力される制御値に基づく前記第１の制御対象装置の制御と前記第２の学習器から出力される制御値に基づく前記第２の制御対象装置の制御とが競合するか否かを判定するステップと、
前記第１の学習器から出力される制御値に基づく前記第１の制御対象装置の制御と前記第２の学習器から出力される制御値に基づく前記第２の制御対象装置の制御とが競合する場合に、当該競合を解消するように前記第１の制御対象装置及び前記第２の制御対象装置の制御値の修正値を決定するステップと、
前記第１の学習器から得られた制御値及び前記第２の学習器から得られた制御値を入力データとし、決定された前記修正値を教師データとして、学習器の学習を行うための学習データを作成するステップと、
を備える、
学習データ作成方法。
前記修正値は、オペレータの入力により決定される、
請求項９に記載の学習データ作成方法。
前記修正値は、所定の規則に従って決定される、
請求項９に記載の学習データ作成方法。
請求項９から１１のいずれか１項に記載の学習データ作成方法により作成した前記学習データを取得するステップと、
取得した前記学習データにより学習器の学習を行うステップと、
を備える、
学習方法。