WO2020075423A1

WO2020075423A1 - ロボット制御装置、ロボット制御方法及びロボット制御プログラム

Info

Publication number: WO2020075423A1
Application number: PCT/JP2019/034722
Authority: WO
Inventors: 良寺澤; 侑紀糸谷; 清和宮澤; 成田　哲也; 康宏松田; 寿光甲斐
Original assignee: ソニー株式会社
Priority date: 2018-10-10
Filing date: 2019-09-04
Publication date: 2020-04-16
Also published as: US20210402598A1

Abstract

ロボット装置（１０）は、物体を把持する把持部（３２）を有するロボット装置が把持対象とする物体に関する物体情報を取得する。そして、ロボット装置（１０）は、ロボット装置が物体を把持して実行する動作内容と、物体情報とに基づいて、動作内容を実行する際の拘束条件を決定する。

Description

ロボット制御装置、ロボット制御方法及びロボット制御プログラム

　本開示は、ロボット制御装置、ロボット制御方法及びロボット制御プログラムに関する。

　物体を把持可能なアームを有するロボットの動作軌道を計画する際に、ロボットが実行するタスクに対してユーザが拘束条件を与えることが行われている。また、特定のタスクを検出した場合に、一意な拘束条件を決定する手法も知られている。例えば、ロボットが液体の入ったコップを把持する際に、少し傾動させて液体が入っていることを自動で検出し、容器を水平状態に維持する制御を行って搬送する手法が知られている。この手法は、液体の入ったコップを搬送するという特定のタスクにおいて拘束条件を決定している。なお、拘束条件を加味して動作軌道を計画する動作計画アルゴリズムとしては、「Task　Constrained　Motion　Planning　in　Robot　Joint　Space,　Mike　Stilman,　IROS2007」が知られている。

特開２００７－２６０８３８号公報

　しかしながら、上記の従来技術では、タスクに応じてユーザが事前に拘束条件を指定するので、拘束条件の過不足が生じやすく、結果として正確な動作軌道を計画することが難しい。また、特定のタスクに対して一意な拘束条件を決定する手法では、タスクが異なれば適用することができず、汎用性に欠ける。

　そこで、本開示では、計画される動作軌道の正確性を向上させることができるロボット制御装置、ロボット制御方法及びロボット制御プログラムを提案する。

　上記の課題を解決するために、本開示に係る一形態のロボット制御装置は、物体を把持する把持部を有するロボット装置が把持対象とする物体に関する物体情報を取得する取得部と、前記ロボット装置が前記物体を把持して実行する動作内容と、前記物体情報とに基づいて、前記動作内容を実行する際の拘束条件を決定する決定部とを有する。

第１の実施形態に係るロボット装置を説明する図である。第１の実施形態に係るロボット装置の機能構成を示す機能ブロック図である。タスクＤＢに記憶されるタスク情報の一例を示す図である。拘束条件ＤＢに記憶される拘束情報の一例を示す図である。軌道計画の実行処理の流れを示すフローチャートである。拘束条件の教師有学習を説明する図である。ニューラルネットワークの一例を説明する図である。拘束条件の強化学習を説明する図である。ロボット装置の機能を実現するハードウェア構成図である。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

（１．第１の実施形態）
［１－１．第１の実施形態に係るロボット装置の説明］
　図１は、第１の実施形態に係るロボット装置１０を説明する図である。図１に示すロボット装置１０は、物体を保持可能なアームを有するロボット装置の一例であり、計画された動作軌道にしたがって、移動、アーム動作、物体の把持などを実行する。

　このロボット装置１０は、ロボット装置１０の動作内容や行動を規定するタスクに関するタスク情報と、把持物体に関する物体情報とを用いて、ロボット装置１０がタスクを実行するときの拘束条件を自律的に決定する。そして、ロボット装置１０は、拘束条件を遵守して動作する動作軌道を計画し、計画した動作軌道にしたがってロボットを動作させることで、タスクを実行することができる。

　例えば、図１に示すように、水の入ったコップを移動させて机に置く場合を例にして説明する。ロボット装置１０は、コップを把持すると、タスク情報として「把持する物体を机に置く」を取得し、物体情報として「水の入ったコップ」の画像情報などを取得する。この場合、ロボット装置１０は、タスク情報と物体情報とから、拘束条件として「水をこぼさない程度に水平に保つ」を特定する。その後、ロボット装置１０は、公知の動作計画アルゴリズムを用いて、この拘束条件を遵守しつつ、タスク「水の入ったコップを移動させて机に置く」を実現するための動作軌道を計画する。そして、ロボット装置１０は、ロボット装置１０は、動作軌道にしたがって、アームやエンドエフェクタなどを動作させて、保持するコップの水をこぼさないように移動させて机の上に置く。

　このように、ロボット装置１０は、タスク情報と物体情報とを用いて拘束条件を決定し、決定した拘束条件を用いた動作軌道を計画することができるので、過不足なく拘束条件を決定することができ、計画される動作軌道の正確性を向上させることができる。

［１－２．第１の実施形態に係るロボット装置の機能構成］
　図２は、第１の実施形態に係るロボット装置１０の機能構成を示す機能ブロック図である。図２に示すように、ロボット装置１０は、記憶部２０、ロボット制御部３０、制御部４０を有する。

　記憶部２０は、各種データや制御部４０等が実行するプログラムなどを記憶する記憶装置の一例であり、例えばメモリやハードディスクなどである。この記憶部２０は、タスクＤＢ２１、物体情報ＤＢ２２、拘束条件ＤＢ２３、設定値ＤＢ２４を記憶する。

　タスクＤＢ２１は、各タスクを記憶するデータベースの一例である。具体的には、タスクＤＢ２１は、ユーザにより設定されたタスクに関する情報を記憶する。例えば、タスクＤＢ２１には、「運ぶ」や「置く」などとのように抽象度の高い処理内容を設定することもでき、「水の入ったコップを運ぶ」や「把持対象物体へリーチングする」などのように具体的な処理内容を設定することもできる。

　また、タスクＤＢ２１は、ステートマシンなどにより、環境や現在タスクに応じて次にどのような行動をすべきかなどを設定する状態遷移の形式でタスク情報を記憶することもできる。図３は、タスクＤＢ２１に記憶されるタスク情報の一例を示す図である。図３に示すように、タスクＤＢ２１は、各タスク情報を状態遷移で保持する。具体的には、タスクＤＢ２１は、タスク「机まで移動」からタスク「コップを把持」、タスク「コップを机に置く」に遷移する情報や、タスク「机まで移動」からタスク「皿を保持」、タスク「コップを把持」に遷移する情報や、タスク「机まで移動」からタスク「皿を把持」、タスク「洗い場へ移動」、タスク「皿を洗い場に置く」に遷移する情報などを記憶する。

　物体情報ＤＢ２２は、把持対象の物体または把持している物体を示す把持物体に関する情報を記憶するデータベースの一例である。例えば、物体情報ＤＢ２２は、後述するロボット制御部３０の物体情報取得部３１によって取得された画像データなどの各種情報を記憶する。

　拘束条件ＤＢ２３は、タスクが実行されるときに物体に課せられる目的を達成するための条件である拘束条件を記憶するデータベースの一例である。具体的には、拘束条件ＤＢ２３は、タスク情報と物体情報とを用いて特定される拘束条件を記憶する。図４は、拘束条件ＤＢ２３に記憶される拘束情報の一例を示す図である。図４に示すように、拘束条件ＤＢ２３は、「項番、タスク情報、物体情報、拘束条件」を対応付けて記憶する。

　ここで記憶される「項番」は、拘束条件を識別する情報である。「タスク情報」は、ロボット装置１０の処理内容を規定したタスクに関する情報であり、例えば図３に記憶される各タスク情報である。「物体情報」は、物体情報ＤＢ２２に記憶される各物体情報である。「拘束条件」は、特定される拘束条件である。

　図４の例では、タスク情報が「コップを机に置く」で物体情報が「水の入ったコップ」である場合は、拘束条件として「水平に保つ」が特定されることを示す。また、タスク情報が「皿を運ぶ」で物体情報が「料理の入った皿」である場合は、拘束条件として「傾きＸ度以内に保つ」が特定されることを示す。また、タスク情報が「包丁をユーザに渡す」で物体情報が「刃がむき出しの包丁」である場合は、拘束条件として「刃をロボット側に向ける」が特定されることを示す。

　なお、拘束条件は、閾値で設定することもできる。例えば、単純な「ｚ軸周りの姿勢拘束」ではなく「ｚ軸周りの姿勢のずれを５度以内に抑える」などと設定することもでき、アームの角度の限界値を示す閾値やエンドエフェクタの角度の限界値を示す閾値などを設定することもできる。このような設定により、拘束条件に強弱をつけることが可能になる。拘束条件の強弱はロボットの機構や動作計画アルゴリズムに影響するので、適用する機構やアルゴリズムによって閾値を適切に設定することで、より高速に解けるようになったり、解の存在が保証されたりするなど、計画される動作軌道の正確性を向上させることができる。また、後述するが、拘束条件は、学習処理などによって学習することもできる。

　上記拘束条件の例は、説明上、具体的な記載としたが、タスクに依存しない、各タスクに共通となる記載形式を用いて規定することもできる。共通となる記載形式としては、ツール座標系やワールド座標系を用いることができる。上記具体例を用いて説明すると、「水の入ったコップを水平に保つ」場合、拘束条件として、「ツール座標系のｚ軸をワールド座標系のｚ軸方向に姿勢拘束」とすることができる。また、「料理の入った皿を傾きＸ度以内に保つ」場合、拘束条件として、「ツール座標系のｚ軸をワールド座標系のｚ軸方向に誤差Ｘ度の範囲で姿勢拘束」とすることができる。また、「刃をロボット側に向ける」場合、拘束条件として、「ツール座標系のｘ軸をワールド座標系の－ｘ軸方向に姿勢拘束」とすることができる。このような記述形式を採用することで、動作計画アルゴリズムに拘束条件を直接的に設定可能であり、後述するニューラルネットワークを用いた学習を行う場合でも出力ラベルがタスクによらないため、同一のネットワークで学習することができる。

　また、ロボット装置１０が動作するときは、図４に示す具体的な拘束条件を記憶しておき、ニューラルネットワークを用いた学習時には、正解ラベルとする具体的な拘束条件を共通形式の拘束条件に変換してニューラルネットワークに入力することもできる。このとき、ロボット装置１０は、共通形式のフォーマットなどを予め用意することで、具体的な拘束条件から共通形式の拘束条件に変換することもできる。したがって、ユーザが、共通形式などを意識せずに、学習データ（教師データ）を登録しても、ロボット装置１０が、自動で共通形式に変換した上でニューラルネットワークに入力して学習することができるので、ユーザの負担も軽減できる。

　なお、何も把持していないときの通常時のツール座標系は、エンドエフェクタの座標に一致するが、コップや皿、包丁などのツールを把持している場合などは、ツール先端をツール座標系とする。また、上記ワールド座標系は、ロボット装置１０の正面向きをｘ軸、ロボット装置１０から見て左方向をｙ軸、鉛直上向きをｚ軸とする。また、包丁のツール座標系は、実際に切るとき（刃が前に向いていて水平のとき）の向きにしたときにワールド座標系と一致するような座標を用いることができる。そのため、包丁のツール座標系のｘ軸をワールド座標の－ｘ方向に向けることが刃をロボット側に向けることに対応する。

　設定値ＤＢ２４は、動作軌道の計画に使用される初期値や目標値などを記憶するデータベースの一例である。具体的には、設定値ＤＢ２４は、手先位置や関節の位置姿勢などを記憶する。例を挙げると、設定値ＤＢ２４は、初期値として、ロボットの現在の状態を示す関節角度、手先の位置および姿勢などを記憶する。また、設定値ＤＢ２４は、目標値として、物体の位置、目標とするロボットの手先の位置、姿勢、関節角度などを記憶する。なお、各種位置情報としては、ロボット制御で使用される各種情報を採用することができ、例えば座標などである。

　ロボット制御部３０は、物体情報取得部３１、把持部３２、駆動部３３を有し、ロボット装置１０が有するロボット機構を制御する処理部である。例えば、ロボット制御部３０は、マイコンやプロセッサなどの電子回路や、プロセッサが有するプロセスによって実現できる。

　物体情報取得部３１は、把持物体に関する物体情報を取得する処理部である。例えば、物体情報取得部３１は、カメラなどを用いて画像を撮像する視覚センサ、ロボットの手首部分における力やモーメントを検出する力覚センサ、物体への接触の有無や厚覚などを検出する触覚センサ、温度を検出する温度センサなどを用いて、物体情報を取得する。そして、物体情報取得部３１は、取得した物体情報を物体情報ＤＢ２２に格納する。

　一例を挙げると、物体情報取得部３１は、視覚センサを用いて、把持物体であるコップを撮像し、撮像して得られた画像データを物体情報として、物体情報ＤＢ２２に格納する。なお、視覚センサで取得されたコップの画像データに画像処理を行うことで、面積、重心、長さ、位置など対象物（コップ）の特徴量やコップに水が入っているなどの状態を抽出することができる。また、物体情報取得部３１は、タスク情報をもとに能動的にアームを動かして得られるセンサ情報を、物体情報として用いることもできる。

　把持部３２は、物体を把持する処理部であり、例えばエンドエフェクタなどである。例えば、把持部３２は、後述する駆動部３３によって駆動され、把持対象の物体を把持する。

　駆動部３３は、把持部３２を駆動する処理部であり、例えばアクチュエータなどである。例えば、駆動部３３は、後述するアーム制御部４５の指示等により、図示しないロボットのアームや把持部３２を、計画された動作軌道にしたがって駆動する。

　制御部４０は、タスク管理部４１、行動決定部４２、アーム制御部４５を有し、ロボット装置１０の動作軌道などを計画する処理部であり、例えばプロセッサなどである。また、タスク管理部４１、行動決定部４２、アーム制御部４５は、プロセッサなどの電子回路の一例やプロセッサが実行するプロセスの一例などである。

　タスク管理部４１は、ロボット装置１０のタスクを管理する処理部である。具体的には、タスク管理部４１は、ユーザによって指定されたタスク情報やタスクＤＢ２１に記憶されるタスク情報を取得して、行動決定部４２に出力する。例えば、タスク管理部４１は、図３のタスク情報を参照し、現在のタスク状況やロボット装置１０の環境などを用いて、タスクの状態を次の状態に遷移させて、該当するタスク情報を取得する。

　より詳細には、タスク管理部４１は、ロボット装置１０の現在の状態が「コップを把持」に該当する場合、次のタスクを「コップを机に置く」と特定する。そして、タスク管理部４１は、タスク情報として「コップを机に置く」を行動決定部４２に出力する。

　行動決定部４２は、拘束条件決定部４３と計画部４４を有し、拘束条件を考慮した軌道計画を生成する処理部である。

　拘束条件決定部４３は、タスク情報と物体情報とを用いて、拘束条件を決定する処理部である。具体的には、拘束条件決定部４３は、拘束条件ＤＢ２３を参照し、タスク管理部４１から入力されたタスク情報および物体情報取得部３１によって取得された物体情報の組み合わせに該当する拘束条件を取得する。そして、拘束条件決定部４３は、取得した拘束条件を計画部４４に出力する。

　例えば、拘束条件決定部４３は、タスク情報「コップを机に置く」と、物体情報「コップに水が入った画像データ」とを取得すると、図４に示す拘束条件一覧から、拘束条件「水平に保つ」を特定する。このとき、拘束条件決定部４３は、拘束条件の設定が可能か否かを判定することもできる。例えば、拘束条件決定部４３は、物体情報からコップに水が入っていないことが確認できた場合、コップを水平に保つ必要がないので、拘束条件を設定しない。すなわち、拘束条件決定部４３は、水が入っていればコップを水平に保つという拘束条件が必要であるが、水が入っていなければ特に拘束条件を設定する必要はないと判断することができる。このように、上記コップの例では、タスク情報として「コップを運ぶ」ことが既知であるため、水が入っているかいないかの判断を行えばよいということがわかっている。そのため、拘束条件決定部４３は、物体情報（画像データ）からコップに水が入っていないかどうかを画像処理により確認して拘束条件を決定する。このように、拘束条件決定部４３は、タスク情報と物体情報を組み合わせて拘束条件を決定する。

　なお、拘束条件決定部４３は、物体情報について、物体情報ＤＢ２２に記憶される最新の情報を取得することができる。また、コップがすでに把持されている状態である場合、物体情報取得部３１は把持部３２の状態を撮像して保存する。しかし、拘束条件決定部４３は、その把持状態の画像データに限らず、把持対象物体を把持しに行く前の段階で得られた画像データを記憶しておき、それを物体情報として利用することもできる。

　計画部４４は、拘束条件決定部４３によって決定された拘束条件を遵守しつつ、タスクを実行するためのロボット装置１０の動作軌道を計画する処理部である。例えば、計画部４４は、設定値ＤＢ２４から初期値や目標値などを取得する。また、計画部４４は、タスク管理部４１からタスク情報を取得し、拘束条件決定部４３から拘束条件を取得する。そして、計画部４４は、取得した各種情報および拘束条件を動作計画アルゴリズムに入力して、動作軌道を計画する。

　その後、計画部４４は、生成した動作軌道を記憶部２０に格納したり、アーム制御部４５に出力したりする。なお、計画部４４は、拘束条件がない場合、拘束条件を用いずに、動作軌道を計画する。また、動作計画アルゴリズムは、「Task　Constrained　Motion　Planning　in　Robot　Joint　Space,　Mike　Stilman,　IROS2007」など公知の様々なアルゴリズムを用いることができる。

　アーム制御部４５は、計画部４４により計画された動作軌道にしたがって、ロボット装置１０を動作させて、タスクを実行する処理部である。例えば、アーム制御部４５は、動作軌道に沿って駆動部３３を制御することで、把持部３２が把持するコップに対して、拘束条件「水平に保つ」を遵守しつつ、タスク「コップを机に置く」を実行する。この結果、アーム制御部４５は、把持部３２が把持するコップに入っている水をこぼさないように、把持部３２が把持するコップを机に置く動作を実行することができる。

［１－３．第１の実施形態に係るロボット装置の処理の流れ］
　図５は、軌道計画の実行処理の流れを示すフローチャートである。図５に示すように、タスク管理部４１は、ユーザ等や画像データの解析等により与えられる動作計画の初期値や目標値を設定する（Ｓ１０１）。ここで設定される情報は、設定値ＤＢ２４に格納される情報であり、ロボット装置１０の軌道動作を計画する際に利用される情報である。

　続いて、拘束条件決定部４３は、タスクＤＢ２１から、実行対象のタスクに該当するタスク情報を取得する（Ｓ１０２）。そして、拘束条件決定部４３は、タスク情報から拘束条件の設定が可能か否かを判定する（Ｓ１０３）。

　ここで、拘束条件決定部４３は、タスク情報から拘束条件の設定が可能と判定した場合（Ｓ１０３：Ｙｅｓ）、動作軌道の拘束条件を設定する（Ｓ１０４）。例えば、拘束条件決定部４３は、「水の入ったコップを運ぶ」というタスクを実行する場合は、現在持っているコップの水をこぼさないようにするため、コップを水平に保つという拘束条件を設定することができる。また、拘束条件決定部４３は、「把持対象物体へリーチングする」というタスクを実行する場合、現在何も把持していないことがタスク情報として既知なのであれば、拘束条件は不要であり、拘束条件なしと設定することができる。

　一方、拘束条件決定部４３は、タスク情報から拘束条件の設定が可能ではないと判定した場合（Ｓ１０３：Ｎｏ）、把持物体の物体情報を取得し（Ｓ１０５）、タスク情報と物体情報とを用いて動作軌道の拘束条件を決定し（Ｓ１０６）、決定した拘束条件を設定する（Ｓ１０４）。例えば、拘束条件決定部４３は、物体情報である画像データに対して画像処理を行って、コップに水が入っているか否かを特定し、特定結果に応じた拘束条件を設定する。

　そして、計画部４４は、公知の動作計画アルゴリズムを用いて、拘束条件決定部４３によって決定された拘束条件を遵守しつつ、タスクを実行するためのロボット装置１０の動作軌道を計画する（Ｓ１０７）。その後、アーム制御部４５は、計画部４４により計画された動作軌道に沿って、ロボット装置１０を動作させて、タスクを実行する。

［１－４．効果］
　上述したように、ロボット装置１０は、動作計画アルゴリズムの拘束条件を状況に応じて決定できるので、拘束条件の過不足が発生しづらくなり、動作計画アルゴリズムの解の効率的な探索を実行できる。ロボット装置１０は、タスク「ナイフの手渡し」などにおいて「人に刃を向けないようにアームを動かす」など、タスク情報及び物体情報を用いることでヒューマンロボットインタラクションの観点でも有用な動作生成が実行できる。また、ロボット装置１０は、ユーザがタスクに応じて、都度、拘束条件を設定する必要がなくなり、自律性を高めることができる。ロボット装置１０は、タスク情報も利用して拘束条件を決定するので、特定タスクによらず汎用的に応用できる。

　また、ロボット装置１０は、閾値まで含めて拘束条件を決定することにより、拘束条件を緩めに設定したり厳しめに設定したりすることが可能になるので、ロボットアームの機構や動作計画アルゴリズムに応じた最適な設定が可能となる。例えば、ロボットの自由度が多く探索空間を小さくしたい場合は拘束条件を厳しめに設定することで動作計画アルゴリズムの探索を効率的に行うことが可能になり、ロボットの自由度が少ない場合などは拘束条件を緩めに設定することで解の存在を担保しやすくなる。

（２．第２の実施形態）
　ところで、第１の実施形態では、拘束条件を予め静的に保持しておき、タスク情報と物体情報とから拘束条件を一意に決定する例を説明したが、これに限定されるものではない。例えば、機械学習によって拘束条件の特定を学習することもできる。そこで、第２の実施形態では、拘束条件の機械学習の一例として、ニューラルネットワークを用いた学習と強化学習とについて説明する。

［２－１．ニューラルネットワークを用いた学習の説明］
　図６は、拘束条件の教師有学習を説明する図である。図６に示すように、ロボット装置１０の拘束条件決定部４３は、入力データとして「物体情報の画像データおよびタスク情報」が設定されて、出力データである正解ラベルとして「拘束条件」が設定された教師データを訓練データとして保持する。そして、拘束条件決定部４３は、ニューラルネットワークを用いた学習モデルに教師データを入力して学習モデルの更新を実行する。なお、拘束条件をラベル情報として、ラベル情報を選択するような形式にしてもよく、拘束条件の閾値を数値として出力する形式を採用することもできる。

　例えば、拘束条件決定部４３は、入力データ「物体情報（水が入ったコップの画像データ）、タスク情報（コップを机に置く）」と出力データ「水平に保つ」などの複数の教師データを保持する。なお、教師データの別例としては、入力データ「物体情報（料理が入った皿の画像データ）、タスク情報（皿を洗い場に置く）」と出力データ「傾きｘ度以内」などが挙げられる。

　なお、ここでは一例として、具体的な条件を記載した拘束条件を例示して説明するが、ニューラルネットワークの学習においては、上述したように、ツール座標系やワールド座標系を用いた共通形式の拘束条件を用いることが好ましい。その結果、異なるタスクの異なる拘束条件であっても、同一のネットワークで学習することができる。

　そして、拘束条件決定部４３は、ニューラルネットワークを用いた学習モデルに入力データを入力して出力結果を取得し、出力結果と出力データ（正解ラベル）との誤差を算出する。その後、拘束条件決定部４３は、誤差逆伝搬などを用いて、誤差が最小になるようにモデルの更新を実行する。

　このようにして、拘束条件決定部４３は、各教師データを用いて学習モデルを構築する。その後、拘束条件決定部４３は、学習済みの学習モデルに、予測対象である現在の「タスク情報」と「物体情報」とを入力し、その出力結果を拘束条件に決定する。

　ここで、ニューラルネットワークの一例を説明する。図７は、ニューラルネットワークの一例を説明する図である。図７に示すように、ニューラルネットワークは、入力層、中間層（隠れ層）、出力層から構成される多段構成であり、各層は複数のノードがエッジで結ばれる構造を有する。各層は、「活性化関数」と呼ばれる関数を持ち、エッジは「重み」を持ち、各ノードの値は、前の層のノードの値、接続エッジの重みの値（重み係数）、層が持つ活性化関数から計算される。なお、計算方法については、公知の様々な手法を採用できる。

　このようなニューラルネットワークの３層それぞれは、図７に示すニューロンを組み合わせて構成される。すなわち、ニューラルネットワークは、図７に示すようなニューロンのモデルを模した演算装置およびメモリ等で構成される。図７に示されるように、ニューロンは、複数の入力ｘ（ｘ_１～ｘ_ｎ）に対する出力ｙを出力する。各入力には、入力ｘに対応する重みｗ（ｗ_１～ｗ_ｎ）が乗算される。これにより、ニューロンは、式（１）により表現される結果ｙを出力する。なお、入力ｘ、結果ｙ、重みｗは、すべてベクトルである。また、式（１）におけるθはバイアスであり、ｆ_kは活性化関数である。

　また、ニューラルネットワークにおける学習とは、出力層が正しい値となるように、パラメータ、すなわち、重みとバイアスを修正していくことである。誤差逆伝播法においては、ニューラルネットワークに対して、出力層の値がどれだけ正しい状態（望まれている状態）から離れているかを示す「損失関数（loss　function）」を定め、最急降下法等を用いて、損失関数が最小化するように、重みやバイアスの更新が行われる。具体的には、入力値をニューラルネットワークに与え、その入力値を基にニューラルネットワークが予測値を計算し、予測値と教師データ（正解値）を比較して誤差を評価し、得られた誤差を基にニューラルネットワーク内の結合荷重（シナプス係数）の値を逐次修正することにより、学習モデルの学習および構築が実行される。

［２－２．強化学習の説明］
　図８は、拘束条件の強化学習を説明する図である。図８に示すように、ロボット装置１０の拘束条件決定部４３は、学習データとして「物体情報の画像データおよびタスク情報」などを保持する。そして、拘束条件決定部４３は、学習データをエージェント（例えばロボット装置１０）に入力し、その結果に応じて報酬計算を実行し、計算された報酬に基づいて関数更新を行うことで、エージェントの学習を行う。そして、拘束条件決定部４３は、学習済みのエージェントを用いて、予測対象のタスク情報と物体情報とから拘束条件を決定する。

　例えば、強化学習には、式（２）に示す行動価値関数を用いたＱ学習を用いることができる。ここでｓ_ｔ、ａ_ｔは、時刻ｔにおける環境と行動を表し、行動ａ_ｔにより、環境はｓ_ｔ＋１に変わる。ｒ_ｔ＋１は、その環境の変化によって貰える報酬を示す。ｍａｘの付いた項は、環境ｓ_ｔ＋１の下で、最もＱ値の高い行動ａを選んだ場合のＱ値にγを掛けたものである。ここで、γは、０＜γ≦１のパラメータで、割引率と呼ばれる。αは、学習係数であり、０＜α≦１の範囲である。式（２）は、環境ｓにおける行動ａの評価値Ｑ（ｓ_ｔ，ａ_ｔ）よりも、行動ａによる次の環境状態に於ける最良の行動の評価値Ｑ（ｓ_ｔ＋１，ｍａｚａ_ｔ＋１）の方が大きければ、Ｑ（ｓ_ｔ，ａ_ｔ）を大きくし、逆に小さければ、Ｑ（ｓ_ｔ，ａ_ｔ）を小さくする事を示す。このようして、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝搬する。

　例えば、状態ｓと行動ａと「状態ｓのときに行動ａをしたときにどれくらい良さそうか」を示すＱ（ｓ，ａ）を考える。ある条件のときに報酬が得られた場合に、Ｑ（ｓ，ａ）を更新する。例えば、「水の入ったコップを水平に保ったまま移動させたら、水がこぼれずに机におけた」場合、Ｑ（水の入ったコップを運ぶ、水平に保つ）の値を大きくする。また、「水の入ったコップをＹ度傾けたまま移動したら、水がこぼれた」場合、Ｑ（水の入ったコップを運ぶ、Ｙ度傾ける）の値を小さくする。このようにして、ランダムに選択した行動を実行することで、Ｑ値を更新して学習を実行し、最適な行動を実行するエージェントを構築する。

［２－３．変形例および効果］
　また、拘束条件として、上述した閾値を用いることもできる。閾値の設定は、例えば強化学習の報酬として（機構やアルゴリズムに応じて）、拘束条件を緩くするか厳しくするかまで与えて学習する手法を採用できる。また、教師有学習の出力を閾値とすることもできる。図５のＳ１０３におけるタスク情報から拘束条件の設定が可能かどうかの判断についても、画像を入力した教師有学習など、各種機械学習によって判断することもできる。

（３．その他の実施形態）
　上述した各実施形態に係る処理は、上記各実施形態以外にも種々の異なる形態にて実施されてよい。

　拘束条件については、水の入ったコップや料理の配膳などのように、拘束条件を適切に設定しなければ実現できないタスクの他にも、拘束条件を設定した方が望ましいタスクにも適用することができる。例えば、はさみや包丁などといった刃物を把持しながらアームを移動させてユーザに手渡しをする場合は、刃の向きをユーザから遠ざけるような緩めの拘束条件を課すことができる。他にも、環境を認識した結果、あまり騒音を出したくないような状況の場合は、各関節速度レベルの拘束条件（制限）を設定することによって、静かに動かしながらタスクを実行することもできる。

　拘束条件としては、水平に保つという抽象的な概念に限らず、音の大きさや速度、加速度、関節角度などの具体的な数値やロボットの自由度などを設定することもできる。また、拘束条件として、障害物を避けるなどのロボットの動作ではなく、例えばコップなどの把持対象がある目的を達成するための条件を設定することが好ましい。なお、計画される動作軌道としては、障害物を避けてアームを移動させつつ、コップを机に置くまでの、アームやエンドエフェクタの軌跡などが該当する。

　また、学習手法としては、ニューラルネットワークに限らず、サポートベクターマシンや再帰型ニューラルネットワークなどの他の機械学習を採用することもできる。また、教師有学習に限らず、教師無学習や半教師学習などを採用することもできる。また、各学習において、ロボット装置１０が置かれている環境情報の一例である「風の強さ、雨の有無、坂道、移動経路の舗装状況」などを用いることもできる。また、これらの環境情報は、拘束条件の決定にも用いることができる。

　この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、アームなどを有するロボットと、ロボットを制御するロボット制御部３０や制御部４０を有する制御装置とを別々の筐体で実現することもできる。また、拘束条件の学習は、拘束条件決定部４３ではなく、制御部４０が有する、図示しない学習部などが実行することもできる。

　また、上述してきた各実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

　また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

（４．ハードウェア構成）
　上述してきた各実施形態に係るロボット装置１０は、例えば図９に示すような構成のコンピュータ１０００とロボット機構２０００によって実現することができる。図９は、ロボット装置１０の機能を実現するハードウェア構成図である。

　コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Read　Only　Memory）１３００、ＨＤＤ（Hard　Disk　Drive）１４００、通信インターフェイス１５００、及び入出力インターフェイス１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

　ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例である本開示に係るロボット制御プログラムを記録する記録媒体である。

　通信インターフェイス１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、通信インターフェイス１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

　入出力インターフェイス１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばＤＶＤ（Digital　Versatile　Disc）、ＰＤ（Phase　change　rewritable　Disk）等の光学記録媒体、ＭＯ（Magneto-Optical　disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

　例えば、コンピュータ１０００が第１の実施形態に係るロボット装置１０として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたロボット制御プログラムを実行することにより、ロボット制御部３０や制御部４０等の機能を実現する。また、ＨＤＤ１４００には、本開示に係るロボット制御プログラムや、図２に示した各ＤＢ内のデータが格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

　ロボット機構２０００は、ロボットに該当するハードウェア構成であり、センサ２１００、エンドエフェクタ２２００、アクチュエータ２３００を有し、これらはＣＰＵ１１００と通信可能に接続される。センサ２１００は、視覚センサなどの各種センサであり、把持対象の物体の物体情報を取得してＣＰＵ１１００に出力する。エンドエフェクタ２２００は、把持対象の物体を把持する。アクチュエータ２３００は、ＣＰＵ１１００の指示操作により、エンドエフェクタ２２００などを駆動する。

　なお、本技術は以下のような構成も取ることができる。
（１）
　物体を把持する把持部を有するロボット装置が把持対象とする物体に関する物体情報を取得する取得部と、
　前記ロボット装置が前記物体を把持して実行する動作内容と、前記物体情報とに基づいて、前記動作内容を実行する際の拘束条件を決定する決定部と
　を有するロボット制御装置。
（２）
　前記決定部は、前記動作内容が実行されるときに、前記物体に課せられる目的を達成するための条件を前記拘束条件として決定する、前記（１）に記載のロボット制御装置。
（３）
　前記決定部は、前記動作内容から前記拘束条件が決定できるか否かを判定し、決定できる場合は、前記動作内容から前記拘束条件を決定し、決定できない場合は、前記動作内容と前記物体情報とを用いて、前記拘束条件を決定する、前記（１）または（２）に記載のロボット制御装置。
（４）
　前記ロボット装置が実行する各動作内容と前記各動作内容を実行するときの各物体情報との組み合わせに対応付けられた各拘束条件を記憶する記憶部を有し、
　前記決定部は、前記取得部により取得された物体情報と、前記物体情報に対応する物体を把持して実行される動作内容との組み合わせに基づいて、前記記憶部から前記拘束条件を決定する、前記（１）から（３）のいずれかに記載のロボット制御装置。
（５）
　入力データとして動作内容および物体情報が設定され、正解情報として拘束条件が設定される複数の教師データを用いてモデルを学習する学習部をさらに有し、
　前記決定部は、前記動作内容と前記物体情報とを、学習済みのモデルに入力して得られた結果を、前記拘束条件として決定する、前記（１）から（３）のいずれかに記載のロボット制御装置。
（６）
　入力データとして動作内容および物体情報が設定される複数の学習データを用いて強化学習を実行する学習部をさらに有し、
　前記決定部は、前記動作内容と前記物体情報とを、強化学習結果に入力して得られた結果を、前記拘束条件として決定する、前記（１）から（３）のいずれかに記載のロボット制御装置。
（７）
　前記決定部は、前記ロボット装置の姿勢、前記把持部の角度、前記把持部を駆動するアームの角度の少なくとも一つの限界値を示す閾値を、前記拘束条件として決定する、前記（１）から（６）のいずれかに記載のロボット制御装置。
（８）
　前記取得部は、前記把持部が前記物体を把持した状態または前記把持部が前記物体を把持する前の状態を撮像した画像データを取得する、前記（１）から（７）のいずれかに記載のロボット制御装置。
（９）
　物体を把持する把持部を有するロボット装置が把持対象とする物体に関する物体情報を取得し、
　前記ロボット装置が前記物体を把持して実行する動作内容と、前記物体情報とに基づいて、前記動作内容を実行する際の拘束条件を決定する
　処理を実行するロボット制御方法。
（１０）
　物体を把持する把持部を有するロボット装置が把持対象とする物体に関する物体情報を取得し、
　前記ロボット装置が前記物体を把持して実行する動作内容と、前記物体情報とに基づいて、前記動作内容を実行する際の拘束条件を決定する
　処理を実行させるロボット制御プログラム。

　１０　ロボット装置
　２０　記憶部
　２１　タスクＤＢ
　２２　物体情報ＤＢ
　２３　拘束条件ＤＢ
　２４　設定値ＤＢ
　３０　ロボット制御部
　３１　物体情報取得部
　３２　把持部
　３３　駆動部
　４０　制御部
　４１　タスク管理部
　４２　行動決定部
　４３　拘束条件決定部
　４４　計画部
　４５　アーム制御部

Claims

　物体を把持する把持部を有するロボット装置が把持対象とする物体に関する物体情報を取得する取得部と、
　前記ロボット装置が前記物体を把持して実行する動作内容と、前記物体情報とに基づいて、前記動作内容を実行する際の拘束条件を決定する決定部と
　を有するロボット制御装置。
　前記決定部は、前記動作内容が実行されるときに、前記物体に課せられる目的を達成するための条件を前記拘束条件として決定する、
　請求項１に記載のロボット制御装置。
　前記決定部は、前記動作内容から前記拘束条件が決定できるか否かを判定し、決定できる場合は、前記動作内容から前記拘束条件を決定し、決定できない場合は、前記動作内容と前記物体情報とを用いて、前記拘束条件を決定する
　請求項１に記載のロボット制御装置。
　前記ロボット装置が実行する各動作内容と前記各動作内容を実行するときの各物体情報との組み合わせに対応付けられた各拘束条件を記憶する記憶部を有し、
　前記決定部は、前記取得部により取得された物体情報と、前記物体情報に対応する物体を把持して実行される動作内容との組み合わせに基づいて、前記記憶部から前記拘束条件を決定する
　請求項１に記載のロボット制御装置。
　入力データとして動作内容および物体情報が設定され、正解情報として拘束条件が設定される複数の教師データを用いてモデルを学習する学習部をさらに有し、
　前記決定部は、前記動作内容と前記物体情報とを、学習済みのモデルに入力して得られた結果を、前記拘束条件として決定する
　請求項１に記載のロボット制御装置。
　入力データとして動作内容および物体情報が設定される複数の学習データを用いて強化学習を実行する学習部をさらに有し、
　前記決定部は、前記動作内容と前記物体情報とを、強化学習結果に入力して得られた結果を、前記拘束条件として決定する
　請求項１に記載のロボット制御装置。
　前記決定部は、前記ロボット装置の姿勢、前記把持部の角度、前記把持部を駆動するアームの角度の少なくとも一つの限界値を示す閾値を、前記拘束条件として決定する
　請求項１に記載のロボット制御装置。
　前記取得部は、前記把持部が前記物体を把持した状態または前記把持部が前記物体を把持する前の状態を撮像した画像データを取得する
　請求項１に記載のロボット制御装置。
　物体を把持する把持部を有するロボット装置が把持対象とする物体に関する物体情報を取得し、
　前記ロボット装置が前記物体を把持して実行する動作内容と、前記物体情報とに基づいて、前記動作内容を実行する際の拘束条件を決定する
　処理を実行するロボット制御方法。
　物体を把持する把持部を有するロボット装置が把持対象とする物体に関する物体情報を取得し、
　前記ロボット装置が前記物体を把持して実行する動作内容と、前記物体情報とに基づいて、前記動作内容を実行する際の拘束条件を決定する
　処理を実行させるロボット制御プログラム。