WO2002066211A1

WO2002066211A1 - Procede de commande de fonctionnement, programme, et support d'enregistrement pour dispositif robotise, et dispositif robotise correspondant

Info

Publication number: WO2002066211A1
Application number: PCT/JP2002/001573
Authority: WO
Inventors: Jun Yokono; Kohtaro Sabe; Gabriel Costa; Takeshi Ohashi
Original assignee: Sony Corporation
Priority date: 2001-02-21
Filing date: 2002-02-21
Publication date: 2002-08-29
Also published as: JP2002239960A; US6697711B2; CN1457287A; KR20030007533A; US20030144764A1

Description

明細書ロボット装置の動作制御方法、プログラム、記録媒体及びロボット装置技術分野本発明は、口ポット装置、ロボット装置の動作制御方法、ロボット装置の動作を制御すためのプログラム、及びこのプログラムが記録された記録媒体に関し、詳しくは、ロボット装置が動作を学習するのに好適なものに関する。

背景技術近年、外観形状が犬や猫等の動物に模して形成されたロボット装置が提供されている。そのようなロボット装置には、外部からの情報や内部の状態に応じて自律的に動作するものがある。このようなロボット装置を思い通りの動作を学習せるためには、コントローラ等を使用していた。例えば、コントローラとしてはいわゆるジョイスティックがあげられる。

ところで、上述したようにロボット装置に動作をコントローラ等によって学習させるには、ある程度の習熟が必要である。さらに、 4足歩行のロボット装置等の場合には、動作部のリンク構造が複雑になり制御がさらに難しくなる。

また、ぺットのようにユーザに飼われているような状況にあるロボット装置の場合、ユーザが実際のペットに対して行うように、より現実に近い形で動作の教示をできれば娯楽性はさらに向上する。発明の鬨示本発明の目的は、上述の実情に鑑みてなされたものであり従来のロボット装置の問題点を解決し、より容易に且つより現実に近い形で動作の学習を実現できるロボット装置、またこのロボヅト装置の動作制御方法、そのためのプログラム、このプログラムが記録された記録媒体を提供することにある。

本発明に係るロボット装置の動作制御方法は、動作部を有するロボット装置の動作を制御するロボット装置の動作制御方法である。この口ポト装置の動作制御方法は、動作部の操作に応じて、この動作部において得られる時系列の信号を学習する学習工程と、動作部にかかる外力によって動作部で得られる信号と学習工程にて学習した時系列の信号とに基づいて動作部を制御する動作制御工程とを有する。

このようなロボット装置の動作制御方法により、ロボット装置は、ユーザによる動作部への操作を学習して、学習後には、動作部にかかる外力に基づいて学習した動作を想起し自律的に動作する。

また、本発明に係るプログラムは、動作部を有するロボット装置の動作を制御するためのプログラムである。このプログラムは、動作部の操作に応じて動作部において得られる時系列の信号を学習する学習工程と、動作部にかかる外力によつて動作部で得られる信号と学習工程にて学習した時系列の信号とに基づいて動作部を制御する動作制御工程とを口ポト装置に実行させる。

このようなプログラムにより、ロボヅト装置は、動作部の操作に応じて動作部において得られる時系列の信号の学習をし、学習後に動作部にかかる外力によつて動作部で得られる信号と学習した時系列の信号とに基づいて動作部を制御できるようになる。また、これによりロボット装置は、動作部への外力に基づいて学習した動作を想起し自律的に動作する。

また、本発明に係る記録媒体は、動作部を有する口ポット装置の動作を制御するためのプログラムが記録された記録媒体である。この記録媒体は、ロボット装置の動作部の操作に応じて、この動作部で得られる時系列の信号の学習をする学習工程と動作部にかかる外力によって動作部で得られる信号と学習工程にて学習した時系列の信号とに基づいて動作部を制御する動作制御工程とをロボット装置に実行させるプログラムが記録されている。

このような記録媒体に記録されたプログラムにより、ロボット装置は、ユーザによる動作部の操作を学習して、学習後には、動作部にかかる外力に基づいて学習した動作を想起し自律的に動作できるようになる。

また、本発明に係るロボット装置は、動作部を有するロボット装置である。このロボット装置は、動作部の操作に応じて、この動作部において得られる時系列の信号を学習する学習手段と、動作部にかかる外力によって動作部で得られる信号と学習手段が学習した時系列の信号とに基づいて動作部を制御する動作制御手段とを備える。

このような構成を備えたロボット装置は、ユーザによる動作部の操作を学習して、学習後には、動作部にかかる外力に基づいて学習した動作を想起し自律的に動作できる。

本発明のさらにほかの目的、本発明によって得られる具体的な利点は、以下に説明される実施例の説明から一層明らかにされるであろう。図面の簡単な説明図 1は、本発明の実施の形態として示すロボット装置の外観構成を示す斜視図であり、図 2は、このロボット装置における動作の学習等をする要部を示すプロヅク図である。

図 3は、学習によって実現されるロボット装置の動作を説明する図である。図 4は、図 1に示すロボット装置の学習部を構成する R N Nを示す図である。また、図 5は、学習の際のロボット装置における処理を示すフローチャートである。

図 6は、図 1に示すロボヅト装置の予測部を構成するィンバース R N Nを示す図である。

図 7は、図 1に示すロボット装置の回路構成を示すプロック図である。

図 8は、図 1に示すロボヅト装置のソフトウヱァ構成を示すプロック図であり、図 9は、図 8に示すロボヅト装置のソフトウエア構成におけるミドル · ウェア · レイヤの構成を示すプロック図である。

図 1 0は、図 1に示すロボヅト装置のソフトウエア構成におけるアプリケーシヨン · レイヤの構成を示すプロヅク図であり、図 1 1は、図 1 0のアプリケーション · レイヤの行動モデルライブラリの構成を示すプロック図である。

図 1 2は、ロボット装置の行動決定のための情報となる有限確率オートマトンを説明する図であり、図 1 3は、有限確率オートマトンの各ノードに用意された状態遷移表を示す図である。

図 1 4は、図 1に示すロボット装置の学習部等のより具体的な構成を示すプロヅクである。図 1 5は、 R N Nモジュールの構成を示すブロック図である。発明を実施するための最良の形態以下、本発明の実施の形態について図面を用いて詳細に説明する。この実施の形態は、周囲の環境（外的要因）や内部の状態（内的要因）に応じて自律的に行動を.する自律型のロボヅト装置である。

図 1には、ロボヅト装置 1の具体例を示している。このロボヅト装置 1は、「犬」等の動物を模した形状の、いわゆるペット型ロボットとされ、胴体部ユニット 2 の前後左右にそれそれ脚部ュニヅト 3 A , 3 B , 3 C， 3 Dが連結されると共に、胴体部ュニット 2の前端部及び後端部にそれそれ頭部ュニット 4及び尻尾部ュニヅト 5が連結されて構成されている。このように構成されるロボヅト装置 1は、制御プログラムに基づいて、自己（内部）及び周囲（外部）の状況や、使用者からの指示及び働きかけに応じて、脚部ユニット 3 A， 3 B， 3 C , 3 D等の動作部を動作させて、自律的に行動するようになされている。

そして、このロボット装置 1は、ユーザに教示された動作を、学習することができるようになされている。ロボット装置 1がする学習とは、後で詳述するように、例えば、尻部を一瞬押すだけで、予め教示された動作を表出するようなものである。図 2には、そのような学習をするためのロボット装置 1の構成を示している。ロボヅト装置 1は、図 2に示すように、センサー 1 0 1、運動制御部 1 0 2、学習部 1 0 3、予測部 1 0 4及び駆動部 1 0 5を有している。

このような構成において、学習部 1 0 3は、脚部ユニット 3 A， 3 B , 3 C， 3 Dや頭部ュニット 4等の動作を発現させるための動作部 1 0 6が操作され、その操作に応じて当該動作部 1 0 6において得られる時系列の信号の学習をする学習手段として機能し、動作制御部 1 0 2及び駆動部 1 0 5は、学習後に動作部 1 0 6への外力により動作部 1 0 6において得られる信号と、学習部 1 0 3が学習した時系列の信号とに基づいて

、動作部 1 0 6を制御する動作制御手段として機能し、予測部 1 0 4は、学習後に動作部 1 0 6への外力により当該動作部 1 0 6において得られる初期の信号から予測する予測手段として機能する。

以下、上述の口ポット装置 1の各構成部について詳細に説明する。センサー 1 1は、動作部 1 0 6の変位を検出する。例えば、センサー 1 1は、ポテンショメ一夕やエンコーダ等である。なお、センサー 1 1はこれに限定されないことはいうまでもなく、ロボット装置 1の動作部 1 0 6が駆動された際の変位を検出するものであれば良い。また、このセンサー 1 1は、ロボヅト装置 1が自らの動作として駆動した際の動作部 1 0 6の変位の検出をする他に、ユーザ等によって付与される外力によって操作された際の動作部 1 0 6の変位を検出している。

例えば、動作部 1 0 6が上述したような脚部ユニット 3 A , 3 B， 3 C , 3 D である場合には、ポテンショメ一夕とされた場合のセンサー 1 1は、変位した際の脚部ュニヅト 3 A， 3 B， 3 C , 3 Dの移動位置とされる回転角度を検出する。このセンサー 1 0 1が検出したセンサー検出信号は、動作制御部 1 0 2に出力される。

動作制御部 1 0 2は、動作部 1 0 6を制御する制御手段である。具体的には、上述したセンサー 1 0 1からのセンサー検出信号等の各種情報に基づいて動作部 1 0 6を制御している。この動作制御部 1 0 2は、動作部 1 0 6の制御を、駆動部 1 0 5を介して実行している。すなわち、動作制御部 1 0 2は、センサー検出信号等の各種情報に応じた制御信号を、駆動部 1 0 5に出力している。また、動作制御部 1 0 2は、センサー 1 0 1からのセンサー検出信号を、学習部 1 0 3にも出力している。学習部 1 0 3については後で詳述する。

駆動部 1 0 5では、動作制御部 1 0 2からの制御信号に基づいて、動作部 1 0 6を制御している。すなわち例えば、駆動部 1 0 5は、制御信号に基づいて、動作部 1 0 6とされる脚部ュニヅト 3 A , 3 B , 3 C , 3 D、頭部ュニヅト 4或いは尻尾部ュニット 5等を駆動させている。 - 学習部 1 0 3は、動作部 1 0 6が操作され、その操作に応じて動作部 1 0 6において得られる時系列の信号（センサー検出信号）を学習するものとして構成されている。学習部 1 0 3は、学習時の際にセンサー 1 0 1において検出される信号であって、例えば、動作の学習としてユーザ等により外力が付与されて姿勢が強制的に変化された際にセンサー 1 0 1が検出するセンサー検出信号である。ここで、時系列の信号は、具体的には、動作部 1 0 6の一連の変位或いは移動によりセンサ一 1 1が検出したセンサー検出信号である。センサー検出信号としては、例えば、上述したように、脚部 3 A， 3 B , 3 C， 3 Dの変位としてポテンショメータが検出する回転角度（間接角度）があげられる。

一方、予測部 1 0 4は、学習部 1 0 3がそのようなセンサー検出信号から得た学習結果に基づいて、動作を予測（或いは起想）する。例えば、予測部 1 0 4は、行動やロボット装置に付与される外力と予測対象とされる動作とを関連付けておき、そのような行動や外力が付与された際に、動作を表出する（すなわち、動作制御部 1 0 2にそれに対応する情報を出力する）ような情報を動作制御部 1 0 2 に出力する。

例えば、上述した学習部 1 0 3と予測部 1 0 4とにより次のような動作の学習が可能になる。ユーザは、ロボヅト装置 1へのある動作の教示として、例えば、ロボット装置 1の尻部を下方向に押し下げる操作を行う。例えば、同様な操作を何度か繰り返して動作の教示を行う。この際、ロボット装置 1において、脚部ュニット 3 A , 3 B , 3 C , 3 Dの回転角度が学習対象とされて、学習部 1 0 3によって学習される。

ロボット装置 1は、予測部 1 0 4により、そのような学習部 1 0 3による学習結果に基づいて動作の予測を行う。具体的には、ロボット装置 1は、学習後に再びユーザ等によって尻部が下方向に押し下げられる操作が行われると、先に学習した動作であることを予測して、対応する動作を表出する。具体的には、ロボット装置 1は、尻部への下方向への一瞬の負荷から、予め得ている学習結果に基づいてそれが予め教示された動作になることを予測して、その動作を自律動作として発現させる。

具体的には、このような動作をする際のロボット装置 1における処理は、学習部 1 0 3による学習結果に基づいて、力が加えられた大きさと方向とを検出して、その大きさと方向から予測部 1 0 4において各関節の運動及び必要なトルクを計算しァクチユエ一夕を駆動する情報を出力する処理である。この場合において、予測部 1 0 4は、例えば、学習結果に基づいて力の大きさ及び方向から動作を予測して（想起して）、このような動作を実現させるための制御情報としてトルク情報を動作制御部 1 0 2にフィードバヅクさせる。

これにより、ユーザは、ロボット装置 1の学習後には、図 3中に示すように口ボット装置 1の尻部を一瞬押すだけで、ロボット装置 1は、対応する学習動作を自律的に発現するようになる。この応用としては、ユーザがロボット装置 1の手をとるだけで、ロボット装置が自律行動としてお手の動作を発現するような場合があげられる。

以下に、このような動作を可能にする学習部 1 0 3及び予測部 1 0 4の構成について具体的に説明する。

学習部 1 0 3は、ニューラルネヅトワークにより構成されている。学習部 1 3 が採用するニューラルネヅトワークは、例えば、図 4に示すように、入力層 1 0 3い隠れ層（或いは中間層） 1 0 3 ₂及び出力層 1 0 3 ₃に階層化されている。このニューラルネヅトワークは、具体的には、出力層 1 0 3 ₃から入力層 1 0 3 に向かってフィ一ドバヅクするループを有するリカレント型ニューラルネヅトヮーク（以下、 R N Nという。）である。

R N Nを構成する入力層 1 0 3い隠れ層 1 0 3 ₂及び出力層 1 0 3 ₃は、それそれ所定の数のニューロンを有し、各層間で各ニューロンが結合されている。そして、このニューロンは、各層間でランダムに結合されている。そして、出力層 1 0 3 ₃の一部のニューロンは、フィードバックニューロンとされるコンテキスト（context) として、入力層 1 0 3 丄に結合されている。例えば、出力層 1 0 3 ₃のニューロン数が 1 4のニューロンである場合、出力層 1 0 3 ₃の 2つのニューロンがコンテキストとして入力層 1 0 3 丄に結合されている。そして、各層間のニューロンの結合は，重み係数として観念されるものである。このような R N N において、学習動作は、次のように行われる。なお、学習とは、ここでは、この各層間のニューロンを結合している重み係数をチューニングし記億していくことである。

R N Nでは、学習対象として入力された情報が入力層 1 0 3 iから出力層 1 0 3 ₃に向かって入力されることで学習が行われる。例えば、学習対象とされる情報は、ぺクトル値として入力される。各層では、このような入力べクトルに対して、各ニューロンにて重み係数を乗算して、後の層の他のニューロンに出力する。具体的には、 R N Nの学習は、大別して、リハースシーケンス、実際の学習の順番で実行される。ここでリハースシーケンスは、大別してさらに 2つのステヅプのプロセスからなり、実際の学習は、大別した 2つのステップのプロセスからなる。

リハースシーケンスの第 1のステップでは、図に示すように、ステップ S 1において、 R N Nの入力ユニット、コンテキストユニットを初期化する。例えば、ランダムに初期化する。

第 2のステヅプでは、ステヅプ S 2において、出力を、入力に自己フィードパヅクをかける閉ループモードにして、初期化後の初期値から Nステヅプのシ一ケンスを生成する。

そして、上述の第 1及び第 2のステップのプロセスを、所定回数（例えば、ここでは、 L回とする。）繰り返すことにより、 L列のリハースシーケンスを得る。このように実行され、 L列のリハースシーケンスを得て、実際の学習を実行する。学習の第 1のステップでは、上述のリハースシーケンスにより得た L列のリハースシーケンスと最新の 1列の経験シーケンスとを足して、（L + 1 )列の学習用シーケンスを得る。

第 2のステップでは、ステップ S 3において、第 1のステップにより得た学習用シーケンスを、例えば誤算逆伝播法とされる、いわゆるバヅクプロパゲーション法により、 M回行って、重み係数（例えば、重みマトリヅクスともいう。）を更新する。

ここで、誤算逆伝播法とは、概略としては、出力層 1 0 3 ₃から出力された値 (例えば、センサーの予測値）と、実際に次時刻で得られた値（例えば、センサ一の予測値）の誤差を、出力層 1 0 3 ₃から入力層 1 0 3 iにフィードバヅクさせる手法である。このような学習のステップにより、各層間の結合とされる重み係数が得られる。例えば、学習の終了については、入力層 1 03 こより出力されたものと要求されるパターンとの誤差がある一定値以上になることで決定したり、所定回数の学習を繰り返すことで決定する。

以上のような RNNにより学習部 103が構成されている。一方、予測部 10 4は、このような学習部 103の学習結果に基づいて予測する部分として構成されており、いわゆるィンバースダイナミクスにより処理を行う部分として構成されている。学習部 103は、このような予測部 1 04に対していわゆるフォヮ一ドダイナミクスにより処理を行う部分として構成されているといえる。

予測部 1 04は、上述の RNNの逆変換として位置付けられる、いわゆるインバース RNN (或いは RNN— を基礎とし、 RNNの学習結果に基づいて予測するように構成されている。例えば、インバース RNNは、図 4に示した RNN に対応して図示すると、図 6に示すようになり、入力層 1 03い隠れ層 1 03₂ 及び出力層 103₃によって構成されている。

このようなィンバース RNNにより予測部 104が構成されている。次に上述した RNNによる処理、インバース RNNによる処理について、具体例をあげて説明する。ここで、 RNNで考えた場合、入力される値はセンサ一の状態を示すセンサ一出力とモータの状態を示すモー夕出力になり、それに対応した出力値は、予測値（以下、センサ一予測値という。）になる。

RNNには、図 4に示すように、入力層 1 03 iに、センサー出力 S _tとモ一夕出力 m_tとが入力され、出力層 103₃は、この入力に対応するセンサーの状態に対する出力 S_{t + 1}とモ一夕の状態に対する出力 m_{t + 1}とをする。そして、 RNN では、その出力の一部が、コンテキスト（context) C _tとして、入力層 1 03丄にフィードバックされる。また、 RNNでは、例えば、出力されたセンサー予測値 S_{t + 1}と実際に次時刻で計測されたセンサ一の値 S_{t + 1}の誤差に基づいてバヅクプロパゲーション法により実行される。

RNNでは、このような入力層 1 03 への情報の入力により、学習結果として、各層における重み係数が決定される。すなわち例えば、このような RNNにより、ロボット装置 1は、尻部を下方向に押された際の各脚部ユニット 3 A, 3 B, 3 C， 3 Dからのポテンショメ一夕の検出値とされるセンサー出力 S_tに基づいて、学習結果としての重み係数の決定を行う。

一方、インバース RNNでは、そのような RNNの逆変換として、学習結果に基づいて予測値を得ることができる。具体的には、インバース RNNは、図 6に示すように、時刻 nのセンサー予測出力 S_nとコンテキスト C_nが与えられる。これにより、インバース RNNは、時刻 n— 1のセンサー入力とモ一夕の状態入力とコンテキスト Cn—iとを出力するようになる。そして、ィンバース RNNでは、上述の R N Nと同様にバックプロパゲーション法により、フォワードダイナミクスへの入力と、出力結果との誤差を使用した処理を行う。

インバース RNNは、以上のような処理結果として、センサー入力とコンテキストとを順次入力にフォードバックすることで、時間をさかのぼってモー夕の状態の順を予測値として出力する。そして、最終的には、時刻 nのセンサー出力 S _nを得るためのアクションの時系列 Α₁₅ Α₂，· · ·， A_n— i或いはモー夕の時系列 m₂ , - · ·， m_n— iを得ることができるようになる。このようなインバース RNNにより構成される予測部 1 04は、このようなモー夕の時系列 , m₂, . . .， irin-iを、動作制御部 102に出力する。動作制御部 1 02では、モー夕の時系列から時系列のトルク情報を得て、駆動部 1 05に出力する。駆動部 1 05は、時系列のトルク情報に基づいて、動作部 105を制御する。

このようなィンパース RNNにより、ロボット装置 1は、学習後において再び、尻部への下方向への一瞬の負荷から、予め得ている学習結果に基づいてそれが予め教示された動作になるであろうことを予測して、動作を自律動作として発現させる。

以上のような RNNによって学習部 1 03が構成されており、また、インバース RNNにより予測部 1 04が構成されている。ロボヅト装置 1は、以上のように、 RNNによって構成される学習部 1 3やインバース RNNによって構成される予測部 14により、センサ一情報から教示された動作を学習して、学習後においては、入力されたセンサー情報から次の時間での出力すべきトルクを予測することで、希望の姿勢（起想した姿勢）に遷移することができるようになる。

( 1 ) 本実施の形態によるロポット装置の構成上述の実施の形態の説明では、ロボット装置 1に本発明を適用した場合について説明した。以下では、そのようなロボヅト装置 1についての、より具体的な構成を説明する。

ロボット装置 1は、図 7に示すように、「犬」を模した形状のいわゆるぺット口ボヅトとされ、胴体部ュニット 2の前後左おにそれそれ脚部ュニット 3 A， 3 B , 3 C , 3 Dが連結されると共に、胴体部ユニット 2の前端部及び後端部にそれぞれ頭部ュニット 4及び尻尾部ュニット 5が連結されて構成されている。

胴体部ュニヅト 2には、図 7に示すように、 C P U (Central Processing Unit) 1 0 、 D R A M (Dynamic Random Access Memory) 1 1、フラッシュ R O M (Read Only Memory) 1 2 、 P C (Personal Computer) 力一ドイン夕一フエース回路 1 3及び信号処理回路 1 4が内部バス 1 5を介して相互に接続されることにより形成されたコントロール部 1 6と、このロボット装置 1の動力源としてのバヅテリ 1 7とが収納されている。また、胴体部ュニヅト 2には、ロボット装置 1の向きや動きの加速度を検出するための角速度センサー 1 8及び加速度センサ一 1 9なども収納されている。

また、頭部ユニット 4には、外部の状況を撮像するための C C D ( Charge Coupled Device) カメラ 2 0と、使用者からの「撫でる」や「叩く」といった物理的な働きかけにより受けた圧力を検出するための夕ツチセンサー 2 1と、前方に位置する物体までの距離を測定するための距離センサー 2 2と、外部音を集音するためのマイクロホン 2 3と、鳴き声等の音声を出力するためのスピーカ 2 4 と、ロボヅト装置 1の「目」に相当する L E D (Light Emitting Diode) (図示せず）となどがそれそれ所定位置に配置されている。

さらに、各脚部ュニット 3 A〜 3 Dの関節部分や各脚部ュニット 3 A〜 3 D及び胴体部ュニット 2の各連結部分、頭部ュニット 4及び胴体部ュニット 2の連結部分、並びに尻尾部ュニツト 5の尻尾 5 Aの連結部分などにはそれぞれ自由度数分のァクチユエ一夕 2 5 丄〜 2 5 _n及びポテンショメ一夕 2 6 ₁ ~ 2 6 _nが配設されている。例えば、ァクチユエ一夕 2 5 丄〜 2 5 _nはサーボモー夕を構成として有している。サ一ボモー夕の駆動により、脚部ユニット 3 A〜 3 Dが制御されて、目標の姿勢或いは動作に遷移する。ここで、ポテンショメ一夕 2 6 丄〜 2 6 _nは、上述の図 2に示したセンサ一 10 1を構成している。

そして、これら角速度センサ一 18、加速度センサー 1 9、夕ヅチセンサー 2 1、距離センサ一 22、マイクロホン 23、スピーカ 24及び各ポテンショメ一タ 26 i〜 2 6 _nなどの各種センサー並びに L E D及び各ァクチユエ一夕 25丄〜

25 _nは、それそれ対応するハブ 27 i〜 27 _nを介してコントロール部 1 6の信号処理回路 14と接続され、 CCDカメラ 20及びバッテリ 17は、それそれ信号処理回路 14と直接接続されている。

信号処理回路 14は、上述の各センサーから供給されるセンサーデ一夕や画像デ一夕及び音声デ一夕を順次取り込み、これらをそれそれ内部バス 1 5を介して DR AM 1 1内の所定位置に順次格納する。また信号処理回路 14は、これと共にバッテリ 1 7から供給されるバッテリ残量を表すパッテリ残量デ一夕を順次取り込み、これを D RAM 1 1内の所定位置に格納する。

このようにして DRAM1 1に格納された各センサーデ一夕、画像デ一夕、音声データ及ぴバヅテリ残量データは、この後 CPU 1 0がこのロボヅト装置 1の動作制御を行う際に利用される。

実際上 CPU 1 0は、ロボット装置 1の電源が投入された初期時、胴体部ュニヅト 2の図示しない P C力一ドスロヅトに装填されたメモリカード 28又はフラヅシュ ROM 12に格納された制御プログラムを P Cカードインターフヱ一ス回路 1 3を介して又は直接読み出し、これを DRAM1 1に格納する。なお、この CPU 1 0が、上述の図 2に示した動作制御部 1 0としての機能を併有している。また、 CPU 1 0は、この後上述のように信号処理回路 14より D RAM 1 1 に順次格納される各センサ一データ、画像データ、音声データ及びバッテリ残量デ一夕に基づいて自己及び周囲の状況や、使用者からの指示及び働きかけの有無などを判断する。

さらに、 CPU 10は、この判断結果及び DRAM 1 1に格納しだ制御プログラムに基づいて続く行動を決定すると共に、当該決定結果に基づいて必要なァクチユエ一夕 25 i〜25 _nを駆動させることにより、頭部ュニット 4を上下左右に振らせたり、尻尾部ユニット 5の尻尾 5 Aを動かせたり、各脚部ュニヅト 3 A〜

3 Dを駆動させて歩行させるなどの行動を行わせる。また、この際 C P U 1 0は、必要に応じて音声デ一夕を生成し、これを信号処理回路 1 4を介して音声信号としてスピーカ 2 4に与えることにより当該音声信号に基づく音声を外部に出力させたり、上述の L E Dを点灯、消灯又は点滅させる。

このようにしてこのロボヅト装置 1においては、自己及び周囲の状況や、使用者からの指示及び働きかけに応じて自律的に行動し得るようになされている。

( 2 ) 制御プログラムのソフトウヱァ構成

ここで、ロボット装置 1における上述の制御プログラムのソフトウエア構成は、図 8に示すようになる。この図 8において、デバイス · ドライバ 'レイヤ 3 0は、この制御プログラムの最下位層に位置し、複数のデバイス · ドライバからなるデバイス · ドライノ · セヅト 3 1から構成されている。この場合、各デパイス · ドライバは、 C C Dカメラ 2 0 (図 7 ) やタイマ等の通常のコンビ夕で用いられるハ一ドウエアに直接アクセスするごとを許されたオブジェクトであり、対応するドウエアからの割り込みを受けて処理を行う。

また、ロボティヅク ·サーバ 'オブジェクト 3 2は、デバイス · ドライノ、" ' レィャ 3 0の最下位層に位置し、例えば上述の各種センサーゃァクチユエ一夕 2 5 丄〜2 5 _n等のハードウェアにアクセスするためのィン夕ーフェースを提供するソフトウヱァ群でなるバーチャル · ロボヅト 3 3と、電源の切換えなどを管理するソフトウエア群でなるパワーマネージャ 3 4と、他の種々のデバイス · ドライバを管理するソフトウヱァ群でなるデバイス · ドライバ .マネージャ 3 5と、口ポヅト装置 1の機構を管理するソフトウヱァ群でなるデザィンド · ロボット 3 6 とから構成されている。

マネージャ ·オブジェクト 3 7は、オブジェクト ·マネージャ 3 8及ぴサービス 'マネージャ 3 9から構成されている。オブジェクト 'マネージャ 3 8は、口ポティヅク ·サ ·オブジェクト 3 2、ミドル ' ウェア ' レイヤ 4 0、及ぴァプリケーシヨン · レイヤ 4 1に含まれる各ソフトウエア群の起動や終了を管理するソフトウェア群であり、サービス .マネージャ 3 9は、メモリカード 2 8 (図 7 ) に格納されたコネクションファイルに記述されている各オブジェクト間の接続情報に基づいて各オブジェクトの接続を管理するソフトウヱァ群である。ミドル · ウェア ' レイヤ 4 0は、ロボティヅク .サーノ ' 'オブジェクト 3 2の上位層に位置し、画像処理や音声処理などのこのロボット装置 1の基本的な機能を提供するソフトウェア群から構成されている。また、アプリケーション ' レイャ 4 1は、ミドル ·ウェア ·レイヤ 4 0の上位層に位置し、当該ミドル 'ウエア - レイヤ 4 0を構成する各ソフトウエア群によって処理された処理結果に基づいて口ポット装置 1の行動を決定するためのソフトウエア群から構成されている。なお、ミドル · ウェア ' レイヤ 4 0及びアプリケーシヨン · レイヤ 4 1の具体なソフトウエア構成をそれそれ図 9に示す。

ミドル ·ゥヱァ ·レイヤ 4 0は、図 9に示すように、騒音検出用、温度検出用、明るさ検出用、音階認識用、距離検出用、姿勢検出用、夕ツチセンサ一用、動き検出用及び色認識用の各信号処理モジュール 5 0 〜 5 8並びに入力セマンティクスコンパ'一夕モジュール 5 9などを有する認識系 6 0と、出力セマンティクスコンバ一夕モジュール 6 8並びに姿勢管理用、トラヅキング用、モーション再生用、歩行用、転倒復帰用、 L E D点灯用及び音再生用の各信号処理モジュール 6 1 〜 6 7などを有する出力系 6 9とから構成されている。

認識系 6 0の各信号処理モジュール 5 0 〜 5 8は、ロボティック 'サーバ 'ォブジェクト 3 2のバーチャル · ロボヅト 3 3により D R A M 1 1 (図 7 ) から読み出される各センサーデータや画像データ及び音声デ一夕のうちの対応するデー夕を取り込み、当該データに基づいて所定の処理を施して、処理結果を入力セマンテイクスコンバータモジュール 5 9に与える。ここで、例えば、バーチャル ' ロボット 3 3は、所定の通信規約によって、信号の授受或いは変換をする部分として構成されている。

入力セマンティクスコンバータモジュール 5 9は、これら各信号処理モジュ一ル 5 0 〜 5 8から与えられる処理結果に基づいて、「うるさい」、「暑い」、「明るい」、「ボールを検出した」、「転倒を検出した」、「撫でられた」、「叩かれた」、「ドミソの音階が聞こえた」、「動く物体を検出した」又は「障害物を検出した」などの自己及び周囲の状況や、使用者からの指令及び働きかけを認識し、認識結果をアプリケーション · レイヤ 4 1 (図 7 ) に出力する。

アプリケーション · レイヤ 4 1は、図 1 0に示すように、行動モデルライブラリ 70、行動切換えモジュール 71、学習モジュール 72、感情モデル 73及び本能モデル 74の 5つのモジュールから構成されている。

行動モデルライブラリ 70には、図 1 1に示すように、「バッテリ残量が少なくなった場合」、「転倒復帰する」、「障害物を回避する場合」、「感情を表現する場合」、「ボールを検出した場合」などの予め選択されたいくつかの条件項目にそれそれ対応させて、それそれ独立した行動モデル 70 !~ 70 _nが設けられている。そして、これら行動モデル 70 ι〜70_nは、それそれ入力セマンティクスコンバー夕モジュール 59から認識結果が与えられたときや、最後の認識結果が与えられてから一定時間が経過したときなどに、必要に応じて後述のように感情モデル 73に保持されている対応する情動のパラメ一夕値や、本能モデル 74に保持されている対応する欲求のパラメ一夕値を参照しながら続く行動をそれそれ決定し、決定結果を行動切換えモジュール 7 1に出力する。

なお、この実施の形態の場合、各行動モデル 70 i〜70_nは、次の行動を決定する手法として、図 1 2に示すような 1つのノード（状態） NODE。〜 NOD E_nから他のどのノード NOD E ₀〜NOD E_nに遷移するかを各ノード N〇D E ₀~NODE_nに間を接続するアーク AR C i〜AR C_{n l}に対してそれそれ設定された遷移確率 P 〜卩に基づいて確率的に決定する有限確率ォートマトンと呼ばれるアルゴリズムを用いる。

具体的に、各行動モデル 70 i〜70_nは、それそれ自己の行動モデル 70 i〜 70₁₁を形成するノード 00£₍₎〜 00£₁₁にそれぞれ対応させて、これらノード NODE。〜NODE_nごとに図 1 3に示すような状態遷移表 80を有している。

この状態遷移表 80では、そのノード 00£。~ 〇0£₁₁にぉぃて遷移条件とする入カイペント（認識結果）が「入カイベント名」の行に優先順に列記され、その遷移条件についてのさらなる条件が「デ一夕名」及び「デ一夕範囲」の行における対応する列に記述されている。

したがって、図 13の状態遷移表 80で表されるノード NODE丄。。では、「ポールを検出（BALL)」という認識結果が与えられた場合に、当該認識結果と共に与えられるそのポールの「大きさ（S I ZE)」が「0から 1000」の範囲であることや、「障害物を検出（OB S TACLE)」という認識結果が与えられた場合に、当該認識結果と共に与えられるその障害物までの「距離（D I S TAN CE)」が「0から 1 00」の範囲であることが他のノードに遷移するための条件となっている。

また、このノード NODE 。では、認識結果の入力がない場合においても、行動モデル 70 i〜 70 _nが周期的に参照する感情モデル 73及び本能モデル 7 4にそれぞれ保持された各情動及び各欲求のパラメ一夕値のうち、感情モデル 7 3に保持された「喜び（ J 0 Y)」、「驚き（SURPR I S Ε)」若しくは「悲しみ（SUDNE S S)」のいずれかのパラメ一夕値が「50から 100」の範囲であるときには他のノードに遷移することができるようになつている。

また、状態遷移表 80では、「他のノードへの遷移確率」の欄における「遷移先ノード」の列にそのノード NODE。〜 NODE_nから遷移できるノード名が列記されていると共に、「入力イベント名」、「デ一夕値」及び「データの範囲」の行に記述された全ての条件が揃ったときに遷移できる他の各ノ一ド NODE _Q~N ODE_nへの遷移確率が「他のノードへの遷移確率」の欄内の対応する箇所にそれそれ記述され、そのノード NODE。〜 NODE _nに遷移する際に出力すべき行動が「他のノードへの遷移確率」の欄における「出力行動」の行に記述ざれている。なお、「他のノードへの遷移確率」の欄における各行の確率の和は 1 00 [%] となっている。

したがって、図 1 3の状態遷移表 80で表されるノード NOD E では、例えば「ボールを検出（B AL L)」し、そのボールの「S I Z E (大きさ）」が「0 から 1000」の範囲であるという認識結果が与えられた場合には、「30 [%]」の確率で「ノード NODE ₁₂。（node 120)」に遷移でき、そのとき「ACT I 〇N 1」の行動が出力されることとなる。

各行動モデル 70 i〜70 _nは、それそれこのような状態遷移表 80として記述されたノード NODE。〜 NODE_nがいくつも繋がるようにして構成されており、入力セマンティクスコンバ一夕モジュール 59から認識結果が与えられたときなどに、対応するノード NOD E _Q〜NODE_nの状態遷移表を利用して確率的に次の行動を決定し、決定結果を行動切換えモジュール 71に出力するようになされている。

図 1 0に示す行動切換えモジュール 7 1は、行動モデルライブラリ 7 0の各行動モデル 7 0 ! ~ 7 0 _nからそれそれ出力される行動のうち、予め定められた優先順位の高い行動モデル 7 0 〜 7 0 _nから出力された行動を選択し、当該行動を実行すべき旨のコマンド（以下、これを行動コマンドという。）をミドル ' ウェア ' レイヤ 4 0の出力セマンティクスコンバ一夕モジュール 6 8に送出する。なお、この実施の形態においては、図 1 1において下側に表記された行動モデル 7 0 1 〜7 0 _nほど優先順位が高く設定されている。

また、行動切換えモジュール 7 1は、行動完了後に出力セマンティクスコンパ' 一夕モジュール 6 8から与えられる行動完了情報に基づいて、その行動が完了したことを学習モジュール 7 2、感情モデル 7 3及び本能モデル 7 4に通知する。一方、学習モジュール 7 2は、入力セマンティクスコンバ一夕モジュール 5 9 から与えられる認識結果のうち、「叩かれた」や「撫でられた」など、使用者からの働きかけとして受けた教示の認識結果を入力する。

そして、学習モジュール 7 2は、この認識結果及び行動切換えモジュール 7 1 からの通知に基づいて、「叩かれた（叱られた）」ときにはその行動の発現確率を低下させ、「撫でられた（褒められた）」ときにはその行動の発現確率を上昇させるように、行動モデルライブラリ 7 0における対応する行動モデル 7 0 i〜 7 0 _n の対応する遷移確率を変更する。

他方、感情モデル 7 3は、「喜ぴ（joy)」、「悲しみ（sadness)」、「怒り（anger)」、「驚き（surprise )」、「嫌悪（disgust)」及び「恐れ（fear)」の合計 6つの情動について、各情動ごとにその情動の強さを表すパラメ一夕を保持している。そして、感情モデル 7 3は、これら各情動のパラメ一夕値を、それそれ入力セマンティクスコンバ一夕モジュール 5 9から与えられる「叩かれた」及び「撫でられた」などの特定の認識結果と、経過時間及び行動切換えモジュール 7 1からの通知となどに基づいて周期的に更新する。

具体的には、感情モデル 7 3は、入力セマンティクスコンバータモジュール 5 9から与えられる認識結果と、そのときのロボット装置 1の行動と、前回更新してからの経過時間となどに基づいて所定の演算式により算出されるそのときのその情動の変動量を Δ Ε [ t ]、現在のその情動のパラメ一夕値を E [七]、その情動の感度を表す係数を k _eとして、式（ 1 ) によって次の周期におけるその情動のパラメータ値 E [ t + 1 ] を算出し、これを現在のその情動のパラメ一夕値 E [ t ] と置き換えるようにしてその情動のパラメ一夕値を更新する。また、感情モデル 7 3は、これと同様にして全ての情動のパラメ一夕値を更新する。

式 1

E[t +l]=E [t]+kexAE [t] なお、各認識結果や出力セマンティクスコンバ一夕モジュール 6 8からの通知が各情動のパラメ一夕値の変動量 Δ Ε [ t ] にどの程度の影響を与えるかは予め決められており、例えば「叩かれた」といった認識結果は「怒り」の情動のパラメータ値の変動量 Δ Ε [ t ] に大きな影響を与え、「撫でられた」といった認識結果は「喜び」の情動のパラメ一夕値の変動量 Δ Ε [七] に大きな影響を与えるようになつている。

ここで、出力セマンティクスコンバータモジュール 6 8からの通知とは、いわゆる行動のフィードバック情報（行動完了情報）であり、行動の発現結果の情報であり、感情モデル 7 3は、このような情報によっても感情を変化させる。これは、例えば、「吠える」といった行動により怒りの感情レベルが下がるといったようなことである。なお、出力セマンティクスコンバータモジュール 6 8からの通知は、上述した学習モジュール 7 2にも入力されており、学習モジュール 7 2は、その通知に基づいて行動モデル 7 0 i〜 7 0 _nの対応する遷移確率を変更する。なお、行動結果のフィードバックは、行動切換えモジユレ一夕 7 1の出力（感情が付加された行動）によりなされるものであっても良い。

一方、本能モデル 7 4は、「運動欲（exercise)」、「愛情欲（affection)」、「食欲 (appetite)」及び「好奇心（curiosity)jの互いに独立した 4つの欲求について、これら欲求ごとにその欲求の強さを表すパラメ一夕を保持している。そして、本能モデル 7 4は、これらの欲求のパラメ一夕値を、それそれ入力セマンティクスコンパ一夕モジュール 5 9から与えられる認識結果や、経過時間及び行動切換えモジュール 71からの通知などに基づいて周期的に更新する。

具体的には、本能モデル 74は、「運動欲」、「愛情欲」及び「好奇心」については、認識結果、経過時間及び出力セマンティクスコンパ一夕モジュール 68からの通知などに基づいて所定の演算式により算出されるそのときのその欲求の変動量を Δ Ι [k]、現在のその欲求のパラメ一夕値を I [k]、その欲求の感度を表す係数 kiとして、所定周期で（2) 式を用いて次の周期におけるその欲求のパラメ一夕値 I [k+ 1] を算出し、この演算結果を現在のその欲求のパラメ一夕値 I [k] と置き換えるようにしてその欲求のパラメ一夕値を更新する。また、本能モデル 74は、これと同様にして「食欲」を除く各欲求のパラメ一夕値を更新する。

式 2 l[k+l] = l[k]+kixAl[k] なお、認識結果及び出力セマンティクスコンバータモジュール 68からの通知などが各欲求のパラメ一夕値の変動量△ I [k] にどの程度の影響を与えるかは予め決められており、例えば出力セマンティクスコンバ一タモジュール 68からの通知は、「疲れ」のパラメ一夕値の変動量 ΔΙ [k]に大きな影響を与えるようになっている。

なお、本実施の形態においては、各情動及び各欲求（本能）のパラメ一夕値がそれぞれ 0から 100までの範囲で変動するように規制されており、また係数 k _e、 kiの値も各情動及び各欲求ごとに個別に設定されている。

一方、ミドル · ウェア · レイヤ 40の出力セマンティクスコンバータモジユール 68は、図 9に示すように、上述のようにしてアプリケーション · レイヤ 41 の行動切換えモジュール 7 1から与えられる「前進」、「喜ぶ」、「鳴く」又は「トラヅキング（ポールを追いかける）」といった抽象的な行動コマンドを出力系 69 の対応する信号処理モジュール 6 1〜 67に与える。

そしてこれら信号処理モジュール 6 1〜67は、行動コマンドが与えられると当該行動コマンドに基づいて、その行動を行うために対応するァクチユエ一夕 2 5丄〜2 5 _n (図 7 ) に与えるべきサーボ指令値や、スピーカ 2 4 (図 7 ) から出力する音の音声デ一夕及び又は「目」の L E Dに与える駆動データを生成し、これらのデ一夕をロポティヅク .サーバ ·オブジェクト 3 2のバ一チャル · ロボヅト 3 3及び信号処理回路 1 4 (図 7 ) を順次介して対応するァクチユエ一夕 2 5 ! ~ 2 5 _n又はスピーカ 2 4又は L E Dに順次送出する。

このようにしてロボット装置 1においては、制御プログラムに基づいて、自己 (内部）及び周囲（外部）の状況や、使用者からの指示及び働きかけに応じた自律的な行動を行うことができるようになされている。

( 3 ) ロポヅト装置への適用

以上がロボット装置 1の具体的な構成についての説明である。次のこの具体的な構成とされるロボット装置 1における学習について具体的に説明する。

ロボヅト装置 1は、図 1 4に示すように、上述のバーチャルロボヅト 3 3、並びに姿勢管理用トラッキングモジュールモジュール用、モーション再生用、転倒復帰用及ぴ歩行用の信号処理モジュール 6 1〜6 4の他に、行動計画モジュール 1 1 1、R N Nモジュール 1 1 2及び特徴量抽出モジュール 1 1 3を備えている。例えば、このような各構成部分は、制御プログラムとして構成されている。具体的には、上述の図 8に示したミドル，ウェア · レイヤ 4 0を構成しており、上述したように姿勢管理用トラヅキングモジュールモジュール用、モーション再生用、転倒復帰用及び歩行用の各信号処理モジュール 6 1 ~ 6 4については、出力系 6 9において構成されており、特徴量抽出モジュール 1 1 3については、認識系 6 0において構成されている。

図 1 5のように示される構成において、ロボット装置 1において検出された各種センサー情報は、特徴量抽出モジュール 1 1 3に入力される。

特徴量抽出モジュール 1 1 3では、各種センサ一情報を処理して、センサー情報から特徴量を抽出し、センサー特徴量を得る。そして、特徴量抽出モジュール 1 1 3は、センサ一特徴量を、 R N Nモジュール 1 1 2に出力する。

R N Nモジュール 1 1 2は、上述の図 2に示した学習部 1 0 3及び予測部 1 0 4の機能を併有しており、情報の学習と、その学習結果を利用した情報の予測を行う機能を有している。例えば、 R N Nモジュール 1 1 2は、図 1 5に示すように構成されている。また、例えば、この RNNモジュール 1 1 2は、図 1 0に示した学習モジュール 72として制御プログラムによって構成されている。

このような RNNモジュール 1 1 2には、センサー情報が入力として与えられると同時に、行動計画モジュール 1 1 1から出力されるコマンド A_tも入力として与えられる。 RNNモジュール 1 12では、入力されるセンサー特徴量とコマンドとを使用して、 RNNとしてのフォワードモデル 1 1 2 ιとィンバース RN Nとしてのインバースモデル 1 12₂とによる学習を行う。

学習の際には、 RNNモジュール 1 1 2は、フォヮ一ドモデル 1 1 2丄により、入力されてくるセンサ一情報 S _t等から次時刻のセンサー情報（センサー予測値） S_{t + 1}及びコンテキスト C_{t + 1}を得る。 RNNモジュール 1 1 2において得られた次時刻のセンサー情報 S_{t + 1}及びコンテキスト C_{t + 1}は、行動計画モジュール 1 1 1において記憶される。例えば、行動計画モジュール 1 1 1は、必要に応じて内部状態に関連付けて記憶する。例えば、内部状態とは、感情等である。

行動計画モジュール 1 1 1は、ロボット装置 1の行動の計画を決定する部分である。行動計画モジュール 1 1 1は、例えば、図 10に示した行動モデルライブラリ 70として構成されている。学習（学習フェイズ）の際（すなわち、未だ完全に学習されていない場合）には、行動計画モジュール 1 1 1は、上述したような行動モデルライブラリ 7◦の行動モデル 70 i〜 70₁₁のうちの一の所望の行動モデルに基づいてロボヅト装置 1の行動を決定するようにしている。行動計画モジュール 1 1 1は、図 14に示すように、行動計画に応じた行動情報 A_tを、姿勢管理モジュール 6 1に出力している。そして、姿勢管理モジュール 6 1以降の処理により、そのような行動情報 A_tに基づいて動作の制御がなされるようになる。

また、行動計画モジュール 1 1 1は、 RNNモジュール 1 1 2の学習が進んだ状態（すなわち、ある程度学習をした後）で、行動計画モジュール 1 1 1の内部にて記憶されたセンサー情報とコンテキストを起想させる必要が起こったときに、起想させたいセンサー情報 Sとコンテキスト Cとを取り出し、それをィンバース RNNとされるフォワードモデル 1 1 2₂の入力として R NNモジュール 1 1 2 に与える。 R N Nモジュール 1 1 2では、この入力から、インバース R N Nにより、実現する（想起する）アクションの時系列 Α _{1 5} Α ₂， · · · ， A _nを順次計算し、姿勢管理モジュール 6 1に対して送信する。これにより、行動計画モジュール 1 1 1 の期待する入力が得られるようにロポット装置 1の行動が実行されるするようになる。

以上のように、ロボット装置 1によれば、ユーザが直接ロボット装置 1に対して力を加えることで、ユーザとロポット装置 1 との間で直感的なィン夕ーフエ一スを形成することができ、しかも、繰り返して同じ操作を教えることによって、後に、ロボット装置 1自身がとるべき動作を予測し、最後まで操作しなくても自律的に動作するようになる。

なお、上述の実施の形態では、学習後に、ロボット装置 1が再び同様な外力を検出することにより、対応される動作を自律的に発現させる場合を説明した。しかし、これに限定されるものではなく、ロボット装置 1が、外力の付与をトリガとすることなく、最初から自律的に、学習後の動作を表出することもできる。この場合、ロボット装置 1は、感情等と学習後の動作とを関連付けておくことで、所定の感情になつたときに関連付けされた学習後の動作を発現させることができるようになる。この場合、ロボット装置 1は、学習したフォワードモデルを用いて、ある姿勢をとりたいときに、インバースダイナミクスを解いて出力すべきトルクを算出して、そのトルクを用いて、目標姿勢に到達するように動作部をする。また、上述の実施の形態では、学習部を R N Nとし、予測部をインバース R N Nとして、説明した。しかし、学習部がそのようなニューラルネヅトに限定されないことはいうまでもない。

また、上述の実施の形態では、本発明を、ロボット装置 1 自体に適用した場合について説明したが、これに限定されるものではない。例えば、上述したような口ポット装置 1に実行させるプログラムやそのようなプログラムが記録された記録媒体に適用することもできる。産業上の利用可能性本発明に係るロボット装置の動作制御方法によれば、ロボット装置は、ユーザによる動作部の操作を学習し、学習後に動作部への外力に基づいて学習した動作を想起し自律的に動作できるようになる。

本発明に係るプログラムによれば、ロボット装置は、ユーザによる動作部の操作を学習して、学習後においては、動作部への外力に基づいて学習した動作を想起し自律的に動作できるようになる。また、このプログラムを記録媒体に記録して提供することもできる。この場合、ロボット装置は、記録媒体に記録されたプログラムを読み取ることによって、ユーザによる動作部の操作を学習し、学習後には、動作部への外力に基づいて、学習した動作を想起し自律的に動作できるようになる。

また、本発明に係るロボット装置は、動作部が操作され、この操作に応じて動作部において得られる時系列の信号の学習をする学習手段と、学習後に動作部への外力により動作部において得られる信号と、学習手段が学習した時系列の信号とに基づいて動作部を制御する動作制御手段とを備えることにより、ユーザによる動作部の操作を学習し、学習後には、動作部への外力に基づいて、学習した動作を想起し自律的に動作できる。

Claims

請求の範囲

1 . 動作部を有するロボット装置の動作を制御するロボット装置の動作制御方法であって、

上記動作部を操作し、その操作に応じて動作部において得られる時系列の信号を学習する学習工程と、

学習後に上記動作部への外力により上記動作部において得られる信号と、上記学習工程にて学習した上記時系列の信号とに基づいて、上記動作部を制御する動作制御工程と

を有することを特徴とするロボット装置の動作制御方法。

2 . 上記信号は、上記動作部の位置を示すことを特徴とする請求の範囲第 1項記載のロボツト装置の動作制御方法。

3 . 上記ロボット装置は、上記動作部の動作を制御する際の当該動作部の移動位置検出をする位置検出手段を備えており、

上記信号は、上記位置検出手段の検出信号であることを特徴とする請求の範囲第 2項記載のロポット装置の動作制御方法。

4 . 上記動作制御工程では、上記学習後に上記動作部への外力により上記動作部において得られる初期の信号から予測し、その予測値と上記学習工程にて学習した時系列の信号とを比較し、その比較結果に基づいて上記動作部を制御することを特徴とする請求の範囲第 1項記載のロボット装置の動作制御方法。

5 . 上記学習工程では、入力層、隠れ層及び出力層に向かって入力されるニューラルネットワークにより上記時系列の信号が学習されることを特徴とする請求の範囲第 1項記載のロボット装置の動作制御方法。

6 . 上記ニューラルネットワークは、上記出力層から上記入力層に向かってフィ ―ドパックするループを有するリカレントニューラルネヅトワークであることを特徴とする請求の範囲第 5項記載のロボット装置の動作制御方法。

7 . 動作部を有するロボット装置の動作を制御するためのプログラムであって、上記動作部が操作され、その操作に応じて動作部において得られる時系列の信号を学習する学習工程と、

をロポット装置に実行させることを特徴とするプログラム。

8 . 動作部を有するロボット装置の動作を制御するためのプログラムが記録された記録媒体であって、

上記動作部が操作され、その操作に応じて動作部において得られる時系列の信号を学習する学習工程と、

をロボット装置に実行させるプログラムが記録されたことを特徴とする記録媒体。

9 . 動作部を有するロボット装置であって、

上記動作部が操作され、その操作に応じて動作部において得られる時系列の信号を学習する学習手段と、

学習後に上記動作部への外力により上記動作部において得られる信号と、上記学習手段が学習した上記時系列の信号とに基づいて、上記動作部を制御する動作制御手段と

を備えることを特徴とするロボット装置。

1 0 . 上記信号は、上記動作部の位置を示すことを特徴とする請求の範囲第 9項記載のロボット装置。

1 1 . 上記動作部の動作を制御する際の当該動作部の移動位置検出をする位置検出手段を備えており、

上記信号は、上記位置検出手段の検出信号であることを特徴とする請求の範囲第 1 0項記載のロボット装置。

1 2 . 上記学習後に上記動作部への外力により上記動作部において得られる初期の信号から予測する予測手段を備え、上記動作制御手段は、上記予測手段の予測値と上記学習手段にて学習した時系列の信号とを比較し、その比較結果に基づいて上記動作部を制御することを特徴とする請求の範囲第 9項記載のロボット装置。

1 3 . 上記学習手段は、入力層、隠れ層及び出力層に向かって入力されるニューラルネットワークにより上記時系列の信号を学習することを特徴とする請求の範囲第 9項記載のロボット装置。

1 4 . 上記ニューラルネヅトワークは、上記出力層から上記入力層に向かってフィ一ドバックするループを有するリカレントニューラルネヅトワークであることを特徴とする請求の範囲第 1 3項記載のロボット装置。