JPH0850548A

JPH0850548A - 経路学習方法及び装置

Info

Publication number: JPH0850548A
Application number: JP6184523A
Authority: JP
Inventors: Hiroyuki Abe; 啓之阿部
Original assignee: Nikon Corp
Current assignee: Nikon Corp
Priority date: 1994-08-05
Filing date: 1994-08-05
Publication date: 1996-02-20

Abstract

(57)【要約】（修正有）【目的】固定したステートで、数個の限られたアクシ
ョンのままで入出力変数を連続的に扱え、より汎用的な
問題にも適用できる。【構成】離散的に分布されている各ステートにメンバ
ーシップ関数を配置する第１ステップ、対象が遷移する
際、近傍に配置されたステートの中から１つを選択する
第２ステップ、対象が通過したステートをステート番号
の履歴として記憶する第３ステップ、第２ステップのス
テート番号と第３ステップのステート番号とが一致した
時、ステート番号履歴を削除する第４ステップ、ファジ
ィ演算処理することにより、対象の行動を決定し、実行
する第５ステップ、次のステートに遷移する際、障害物
を回避する第６ステップ、ゴール点に到達するまでの対
象の行動結果をスタート点からゴール点までの走行距離
によって行動評価する第７ステップ、及び行動評価結果
に応じた報酬をメンバーシップ関数のパラメータに分配
する第８ステップを経由し、前記操作を繰返して、対象
が最適の行動を取るように学習を収束させる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は組み合わせ最適問題、最
短経路探索などの応用に関する分野に利用できる。特に
学習機能を持った移動装置に関する。

【０００２】

【従来の技術】最近、人工知能の１分野である強化学習
方式が注目されている。この強化学習とは報酬という特
別な入力を手がかりとして環境に対象を適応させようと
する方法である。従来の強化学習方法に関する論文とし
て、Machine Learnig,Vol.3,pp225-245 (1988)があげら
れる。

【０００３】強化学習の対象としている問題は、ステー
ト（状態）遷移の性質と入出力変数の種類によってクラ
ス分けされている。この論文のステート（状態）遷移の
性質は、ステート（状態）が固定であり、各ステートで
取りうるアクション（行動）が数個に制限されている。
また、入出力変数の種類は離散的である。この強化法の
報酬分配法をみると、報酬は各ステートにおけるアクシ
ョンに重みとして分配している経験型強化学習方法であ
る。

【０００４】他の代表的な従来学習法として、入出力変
数を連続に扱えるニューラルネットワークを取り入れた
強化学習方法が、米国特許番号ＵＳ５１１３４８２で提
案されている。

【０００５】

【発明が解決しようとする課題】上述した従来の経験型
強化学習方法では、限定された問題しか扱えず自由度が
少ない。また、ニューラルネットワークを取り入れた強
化学習方法では、ニューロン数が増加し、メモリーが膨
大となる欠点がある。本発明は、ファジィ推論を強化学
習方法に採用することにより、固定したステートで、数
個の限られたアクションのままで入出力変数を連続的に
扱え、より汎用的な問題にも適用できる経路学習装置を
提供することを目的とする。

【０００６】

【課題を解決するための手段】本経路学習方法は、離散
的に分布されている各ステートにメンバーシップ関数を
配置する初期化する第１ステップと、前記対象が現在の
ステートから次のステートに遷移する際、その近傍に配
置されたステートの中から１つを選択するステート選択
する第２ステップと、前記対象が通過したステートをス
テート番号の履歴として記憶する第３ステップと、前記
第２ステップによって選択されたステート番号と前記第
３ステップに記憶されているステート番号とが一致した
と判断した時、経路ループしたとしてループしたステー
ト番号履歴を削除する第４ステップと、前記各ステート
に配置されたメンバーシップ関数と前記対象の現在位置
とからファジィ演算処理することにより、前記対象の行
動を決定し、実行する第５ステップと、前記対象が次の
ステートに遷移する際、障害物を回避する第６ステップ
と、前記対象がゴール点に到達するまでの前記対象の行
動結果をスタート点からゴール点までの走行距離によっ
て評価する行動評価する第７ステップと、前記第７ステ
ップの行動評価結果に応じた報酬を、通過した各ステー
トに配置されたすべてのメンバーシップ関数のパラメー
タに分配する報酬分配する第８ステップと、前記第２ス
テップから第８ステップを順次繰返し処理することで、
前記対象が最適の行動を取るように学習を収束させる第
９ステップとを備え、動作させることを特徴とする。

【０００７】また、本発明の経路学習装置は、離散的に
分布されている各ステートにメンバーシップ関数を配置
する初期化する初期化処理手段と、前記メンバーシップ
関数と前記対象の現在位置とからファジィ演算処理しな
がら行動決定し、その行動評価結果に応じ報酬を分配す
ることにより経路を強化学習する経路学習処理部と、前
記経路学習処理部の結果に基づき強化された経路に応じ
て前記対象が移動する経路移動処理部とを備えたことを
特徴とする。

【０００８】

【作用】本発明は、経験型強化学習方法にファジィ推論
を採用したことにより、離散的な扱いしかできなかった
問題を連続的に扱えるようにした。本発明の請求項２に
示した経路学習装置は、請求項１の経路学習方法を組み
込んだものである。

【０００９】本発明の経路学習装置の請求項２の第１の
ステート選択手段は、経路学習処理部として用いてお
り、重み付き確率にてステートを選択する。しかしなが
ら、経路学習処理を終了後の経路移動処理部における第
２のステート選択手段では、確率は用いてはいない。本
発明の経路学習処理部の行動決定手段では、ファジィ演
算処理により移動体の移動速度や進行方向を決め、実行
させるようにした。また、報酬に応じてメンバーシップ
関数のパラメータを変えることにより、移動体が移動す
る経路が強化される。その結果、経路学習以後の経路移
動においては、滑らかな移動体の動作となる。

【００１０】本発明における経路学習方法及び装置の典
型的な事例として、自律型移動ロボットがあるが、その
ほかスケジューリング問題などの最適問題にも適用する
ことができる。本発明の対象とは、動作対象となるもの
を指し、本実施例では移動体のことである。また、本実
施例における移動体とはＣＰＵ等のプログラミングが可
能な装置によって制御される移動体のことを意味してお
り、ＣＰＵ等が移動体の内部にあっても外部にあっても
構わない。本実施例において、移動体は全方位移動可能
である。

【００１１】本実施例において、メンバーシップ関数は
円錐形状であり、その最大高さは、常に同じ高さ（規格
値）を１に設定している。なお、本発明では、２次元平
面上の経路学習装置を取り扱っているが、メンバーシッ
プ関数を球状にし、球状の中心と移動体の距離に反比例
した適合度（例えば、中心で１、球の表面で０等）を用
いれば、水中や宇宙空間などの３次元障害物を含む経路
学習の問題にも拡張が可能である。

【００１２】

【実施例】以下、図面を参照してこの発明の一実施例で
ある移動体の経路学習方法の説明を行う。図１は、本発
明である経路学習方法の基本的な処理フロー図である。
本発明の経路学習方法は、離散的に分布されている各ス
テートにメンバーシップ関数を配置する初期化する第１
ステップ１０１と、前記対象が現在のステートから次の
ステートに遷移する際、その近傍に配置されたステート
の中から１つを選択する第２ステップ１０２と、前記対
象が通過したステートをステート番号の履歴として記憶
する第３ステップ１０３と、前記第２ステップによって
選択されたステート番号と前記第３ステップに記憶され
ているステート番号とが一致したと判断した時、経路ル
ープしたとしてループしたステート番号履歴を削除する
第４ステップ１０４と、前記各ステートに配置されたメ
ンバーシップ関数と前記対象の現在位置とからファジィ
演算処理することにより、前記対象の行動を決定し、実
行する第５ステップ１０５と、前記対象が次のステート
に遷移する際、障害物を回避する第６ステップ１０６
と、前記対象がゴール点に到達するまでの前記対象の行
動結果をスタート点からゴール点までの走行距離によっ
て評価する行動評価する第７ステップ１０７と、前記第
７ステップの行動評価結果に応じた報酬を、通過した各
ステートに配置されたすべてのメンバーシップ関数のパ
ラメータに分配する報酬分配する第８ステップ１０８と
前記第２ステップから第８ステップを順次繰返し処理す
ることで、前記対象が最適の行動を取るように学習を収
束させる第９ステップ１０９とから構成されている。

【００１３】図２は、本発明の請求項１記載の経路学習
方法を用いた経路学習装置としてのブロック図である。
その装置構成は、離散的に分布されている各ステートに
メンバーシップ関数を配置する初期化する初期化処理手
段３０１を有し、前記メンバーシップ関数と前記対象の
現在位置とからファジィ演算処理しながら行動決定し、
その行動評価結果に応じ報酬を分配することにより経路
を強化学習する経路学習処理部２０１と前記経路学習処
理部の結果に基づき強化された経路に応じて前記対象が
移動する経路移動処理部２０２とから構成されている。

【００１４】図２の本発明装置の経路学習処理部の初期
化処理手段３０１では、平面上に等間隔に分布された各
ステートに円錐形状のメンバーシップ関数を配置し、メ
ンバーシップ関数のパラメータの初期化を行う。さら
に、この手段においてスタート点、ゴール点をステート
に配置する。この配置されたスタート点からゴール点ま
での経路をエピソード（報酬から報酬に至るルールの選
択系列）と呼ぶことにする。また、スタート点からゴー
ル点までの経路の途中にサブゴール点を設けることもあ
る。その時、経路はサブゴール点によって分割されるこ
とになる。またこの分割された経路もエピソードと呼ば
れる。

【００１５】スタート点〜サブゴール１、サブゴール１
〜サブゴール２、・・・サブゴールｎ〜ゴールのそれぞ
れの区間をこの順番に学習する。つまり、エピソード１
が学習終了した後にエピソード２を学習するという処理
である。また、経路学習後の経路移動処理でも経路学習
処理部と同様にサブゴールによってエピソードに分割さ
れている。さらに、サブゴールで分割された経路が、重
なる場合は各々重なったステートに別々のメンバーシッ
プ関数をとることも行う。経路学習処理は、経路移動処
理の前に１度は行わなければならないが、経路学習した
結果を記憶媒体に蓄えておけば、環境が変わらない限り
再学習処理は不要である。

【００１６】図３は、本発明装置の各エピソードにおけ
る経路学習処理部のブロック図である。その構成は、各
ステートにメンバーシップ関数を配置する初期化処理手
段３０１と、移動体が現在のステートから次のステート
に遷移する際、その近傍に配置されたステートの中から
１つを重み付き確率にて選択する第１のステート選択手
段３０２と、前記対象が通過したステートをステート番
号の履歴として記憶するステート履歴記憶手段３０３
と、前記第１のステート選択手段によって選択されたス
テート番号と前記ステート履歴記憶手段に記憶されてい
るステート番号とが一致したと判断した時、経路ループ
したとしてループしたステート番号履歴を削除する経路
ループ削除手段３０４と、前記各ステートに配置された
メンバーシップ関数と前記対象の現在位置とからファジ
ィ演算処理することにより、前記対象の行動を決定し、
実行する行動決定手段３０５と、前記対象が次のステー
トに遷移する際、障害物を回避する障害物回避手段３０
６と、前記対象がゴール点に到達するまでの前記対象の
行動結果をスタート点からゴール点までの走行距離によ
って評価する行動評価手段３０７と、前記行動評価結果
に応じた報酬を、通過した各ステートに配置されたすべ
てのメンバーシップ関数のパラメータに分配する報酬分
配手段３０８と、前記各手段を順次繰返し処理すること
で、前記対象が最適の行動を取るように学習を収束させ
る学習収束手段３０９とから構成されている。

【００１７】図４は、本発明装置の各エピソードにおけ
る経路移動処理部のブロック図である。その構成は、移
動体が現在のステートから次のステートに遷移する際、
その近傍に配置されたステートの中から１つを選択する
第２のステート選択手段４０１と、現在移動体が位置し
ている複数のステートの各ステートに配置された各円錐
形状のメンバーシップ関数とから適合度及び移動体の進
行方向を算出するために、ファジイ演算処理を用いて移
動体の行動を決定し、実行する行動決定手段４０２と、
前記対象が次のステートに遷移する際、障害物を回避す
る障害物回避手段４０３とからなる。

【００１８】次に、離散的に分布された各ステートに配
置された円錐形状のメンバーシップ関数を用いた対象
（移動体）の動作説明をする。図５は、障害物の存在す
る平面上をスタート点からゴール点、サブゴール点を学
習するための経路探索環境をモデル化した平面モデル図
である。実施例中の各構成部は主にコンピュータシステ
ム内のソフトウエア的手段により実現されているが、特
にこれに限定されずにハードウエア的手段によってもよ
い。

【００１９】２次元平面をＸ×ＹのＸＹ個のメッシュに
切り、交点であるメッシュ点を強化学習のステート点と
する。本実施例ではＸ＝１０、Ｙ＝１２としている。初
期化処理手段では、１２０個の各ステートに円錐形状の
メンバーシップ関数を等間隔に配置し、メンバーシップ
関数の初期化処理を行う。また、１２０個のステートの
中で、スタート点、ゴール点、サブゴール点を選択す
る。対象のスタート点であるステートは図の左下に、対
象の到達点であるゴール点のステートは図５の中央やや
上に設定してある。また、スタートとゴールの間に立ち
寄る必要のある点をサブゴール点とする。ここでは１個
のサブゴールが右中央に配置してある。スタート点、ゴ
ール点、サブゴール点はこのように１２０個のステート
点から自由に選択できるものとする。サブゴール点を選
択することにより経路は分割される。

【００２０】図６は、平面上のあるステートに置かれた
移動体とその移動体に隣接するステートとの関係を説明
する図である。あるステート点に置かれた移動体は、周
囲８点のステート点と隣接する。移動体の移動は、現在
滞在しているステートと隣接する周囲の８個のステート
のどれか１つを選択しながらステートを渡り歩く形でな
される。具体的な自律移動ロボットでは、移動体が周囲
８個のステート近傍までの範囲しか届かない障害物セン
サーを有し、そのセンサーによって移動体が自律移動す
ることになる。

【００２１】図７は、本発明で用いたメンバーシップ関
数の円錐形状を示した図である。各ステートに配置され
たメンバーシップ関数の形状は、高さが常に規定値（図
７では１である）の円錐形状で表される３次元形状をし
ている。円錐形状の底面の半径（図７のｈ）を可変と
し、この値を制御することで移動体の動作を決定する。
直径２ｈを「ヘッジ幅」と称す。本メンバーシップ関数
は、全部のステート（本実施例では１２０個）に配置さ
れ、初期状態ではヘッジ幅２ｈは最小の幅で表されてお
り、学習中もこの幅以下にはならない。このメンバーシ
ップ関数は、２つの役目を持っている。

【００２２】第１の役目は、経路学習時にステートから
次のステートに移動する際、隣接する複数のステートか
ら１つを重み付き確率で決定される時の「重み」とし
て、メンバーシップ関数の形状パラメータである底面の
直径２ｈを使用することである。図８（ａ）（ｂ）は、
移動体がステート選択する際、移動方向に応じて移動対
象となるステートを示した図である。実際には、学習収
束を速くするため、後戻りするステート選択を禁止して
いる。そのため、隣接する８個のステート中、移動方向
前面と左右の図の点線で示した５個のステートが選択対
象となる。つまり、５面のサイコロの各面を重みでもっ
て変形し、重みが大きいほどその面が出やすくなるよう
にした変形サイコロをふりながら移動体が走行すると考
えればよい。

【００２３】また、第２の役目は、移動体に移動方向の
速度を与えるという役目である。円錐形状のメンバーシ
ップ関数の内部に位置している移動体の移動速度は、そ
の位置から鉛直上方に延ばした円錐面との交点までの長
さ（図７のｚ）によって決定される。この長さｚを適合
度という。移動体の現在位置から次のステートに進入し
た時点で、変形５面サイコロを振ることで次に行くべき
ステートが決まる。次のステートへ行く力がこの適合度
ｚで表されることになる。また、隣接した各ステートに
配置された円錐形状のメンバーシップ関数の各々の円錐
面が重なる場合は、それぞれの適合度ｚの値でファジィ
演算処理を行い、移動方向が決定される。わかりやすく
表現すれば、本発明のメンバーシップ関数は、移動体が
次のステートを決定する「引力」の役目と、そのステー
トに入った移動体を押し出す「斥力」という２つの対称
的な役目を持つことになる。また、ファジィ演算処理を
行うことにより、自動的に移動体は滑らかな曲率を描き
ながら移動するという効果もある。

【００２４】本発明では、強化学習の報酬をメンバーシ
ップ関数の形状パラメータに反映させている。つまり、
移動体がゴール点（またはサブゴール点、以後の説明で
はゴールとサブゴールを総称してゴール点とする）に到
達した時点で、その回の学習を「走行距離」の大きさで
評価し、その評価に応じた報酬を、今回通った経路の全
ステートに分配する。行動評価が高い時は、ステートの
メンバーシップ関数の形状パラメータ（ここでは円錐形
状のヘッジ幅２ｈである）に加える報酬を多くし、行動
評価が低いときは少なくする。行動評価がきわめて低い
ときは「負の報酬」も考慮する。重み付き確率でステー
ト間を遷移している移動体は、ヘッジ幅２ｈの大きいス
テートに引きつけられやすいため、行動評価が高い経路
は徐々に通りやすくなる。

【００２５】この学習により、ステートのヘッジ幅２ｈ
を初期状態で一律に小さくしておくことで、はじめの間
はランダムウォークを行いあらゆる経路を試み、評価の
高い経路が何本か生成されてからは、それらを随時評価
するという、人間の思考に近いモデルが形成される。次
に、各エピソードにおける経路学習処理部の動作につい
て説明する。図９は、動作説明するための処理フロー図
である。

【００２６】ステップＳ１学習収束手段では経路学習の
終了の判定を行う。本実施例での終了の判定は、エピソ
ードでの最短経路を構成するステートに配置された円錐
形状のメンバーシップ関数のヘッジ幅がすべて最大規定
値になった時点を収束したと判断している。最大規定値
とは、隣接する８個のステートの中心を通る円の中で最
大の直径である。ただし、その円が障害物にかかる場合
の最大規定値は、障害物にかからない円のうちの最大の
円の直径である。

【００２７】学習終了の判定を受けた場合はステップＳ
２へ行き、次のエピソードがある場合は再び経路学習処
理を繰り返し、最後のエピソードの場合は学習を終了す
る。ステップＳ３では移動体が、ゴール点に到達したか
どうかの判定を行う。ステップＳ３での判定が肯定され
るとサブルーチンＳＲ１へ移行する。サブルーチンＳＲ
１では移動体がゴール点に到達したときに、通過してき
た経路を行動評価した後、各ステートに配置されたメン
バーシップ関数の形状パラメータに報酬を与える。

【００２８】図１０は、行動評価手段及び報酬分配手段
における処理フロー図である。ステップＳ１０１では今
回通ってきた経路の走行距離に応じてステートに与える
報酬の算出を行う。算出は例えば次のような算出式を使
用する。報酬＝（１．５ー今回の走行距離／今までの最短走行距
離）×定数この式で定数は実験で決まる値である。一般には値を大
きくすれば、収束は早いが最短経路がみつかりにくく、
値を小さくすればその逆の傾向がある。

【００２９】ステップＳ１０２では今回の走行距離がこ
のエピソード内で最小かどうかの判定を行う。判定が肯
定されればステップＳ１０３へ移り、この最小経路を強
化するために前述した通常の報酬よりも幾分多く報酬を
分配する。ステップＳ１０４では最短経路として通過し
てきた全てのステートの番号を全走行距離とともにステ
ート履歴記憶手段の一部に記憶する。

【００３０】ステップＳ１０４を終了し、ステップＳ１
０５を経ないでステップＳ１０６へ直接移動する。ステ
ップＳ１０５では報酬の正負判定を行う。報酬が正の場
合はステップＳ１０６へ移り、今回通過した全ステート
に配置されたメンバーシップ関数のヘッジ幅に報酬を加
算して、このサブルーチンを抜ける。報酬が負の場合は
ステップＳ１０７へ移る。ここでは、ステップＳ１０４
で記憶された最短経路を構成するステートを除いた全ス
テートに対し報酬分だけヘッジ幅を減らす。

【００３１】このサブルーチン終了後は、図９のステッ
プＳ１へ戻る。図９のステップＳ４では移動体が、ステ
ート履歴記憶手段の記憶にない新しいステート範囲に位
置しているかどうかを判断する。ステート範囲とは、円
錐形状のメンバーシップ関数の底面の円の内部をいう。
ステップＳ４での判定が肯定されるとサブルーチンＳＲ
２へ移行する。

【００３２】図１１のサブルーチンＳＲ２は、第１のス
テート選択手段での動作である。このサブルーチンＳＲ
２では次に行くべきステートを決定する処理を行う。移
動体の行動選択は、進行方向にある５つのステートから
１つを重み付き確率で選択する。また、５つのステート
のヘッジ幅を重みとするだけでなく、ゴールのある方向
を重みに加算するとゴール点の発見が早くなることがあ
る。しかし、最短経路を探索する時には、逆に重みを加
算しない方がよいことが実験でわかっている。従って、
経路の早期発見に主眼を置くか、時間はかかっても最短
経路の発見に主眼を置くかでゴール点方向の重みの扱い
を使い分ける必要がある。同様に、移動体の慣性を重み
に加算する方法も考えられる。つまり、現在進んでいる
方向の重みを多くするという方法であるが、実際の移動
体では必ず慣性が存在するためエネルギー最小という評
価項を最短経路に付加する必要がある。そのため、移動
体の慣性を次のステートの決定のパラメータにするのは
合理的である。

【００３３】ステップＳ２０１では、移動体の現在位置
を確認する。ステップＳ２０２では前記したようにゴー
ル点の方向を確率の重みに加算するときのためにゴール
点の方向を確認する。ステップＳ２０３では移動体の進
行方向から前面、斜め前、左右の５方向の近傍のステー
トを選択し、次に進むステートの候補とする。

【００３４】ステップＳ２０４では選択された５つのス
テートが、障害物の内部にあるかどうかを判定する。判
定が肯定された場合はステップＳ２０５へ移行し、障害
物の内部にあるステートを候補から外す。ステップＳ２
０６では重み付き確率演算を行い、次に進むステートを
決定する。ここで重み付き確率演算の１例についての説
明を行う。

【００３５】図１２は、移動体が図のステート番号ｎに
位置し、５つのステートから１つを選択する説明図であ
る。上図に、５つのステートの各メンバーシップ関数の
ヘッジ幅が、それぞれ１０、３０、１００、４０、２０
である場合を示した。また、下図は、重み付き確率演算
説明図である。５つのヘッジ幅の総計２００にＲＮＤ関
数（０から１の実数値を乱数として発生する関数をＲＮ
Ｄ関数という）を乗じて得られた値が１２０である場
合、移動体が次に進むべきステートがｃと決定されるこ
とが図からわかる。このサブルーチン終了後は、図９の
サブルーチンＳＲ３へ移行する。

【００３６】サブルーチンＳＲ３では経路のループ判定
を行う。図１３は、経路ループ削除手段の処理フロー図
である。また、図１４（ａ）、（ｂ）は、その動作説明
図である。図１４（ａ）は、次に移動体が選択したステ
ート番号が、既に学習しステート履歴記憶に記憶されて
いるステート番号と一致したと判断された時のループ経
路図である。図１４（ｂ）は、そのループした経路を削
除した時の経路図である。

【００３７】サブゴールを含んだ経路をスタート点から
ゴール点まで通して経路学習するようなシステムでは、
移動体がサブゴール近傍で同一のステートを再度通過す
ることがある。しかし、本実施例では、各エピソードの
学習が収束するまで次のエピソードの学習は行わないた
め、既に通過したステートに戻ることはない。そのた
め、ループした経路の削除が有効となる。

【００３８】ステップＳ３０１ではサブルーチンＳＲ２
で決定された次に進むステートが既に通過したステート
か否かの判定を行う。判定が否定された場合はこのサブ
ルーチンを終了させる。判定が肯定された場合は、ステ
ップＳ３０２において、ステート履歴記憶手段に記憶さ
れたステート履歴のリストからそのステートの次から現
在までのステートの記録を削除する。このサブルーチン
終了後、図９のステップＳ５へ移る。

【００３９】ステップＳ５ではゴール点到達後の評価お
よび削除ループの判定に使うために決定されたステート
を履歴のリストに追加する。その終了後は図９のステッ
プＳ３へ戻る。図９のステップＳ４で判定が否定された
ときは、通常の移動体の移動状態であり、移動体の方向
を決定するサブルーチンＳＲ４行動決定手段に移行す
る。

【００４０】図１５のステップＳ４０１では、移動体の
位置が現在どこかのステート（ヘッジ）の内部にあるか
どうかの判定を行う。判定が否定された場合は、ステッ
プＳ４０２へ移行し、移動体の方向はサブルーチンＳＲ
２で決定された次に進むべきステートの方向を取る。学
習初期の段階で経路のステートに配置されているメンバ
ーシップ関数のパラメータに報酬が加算されていない時
はステートのヘッジ幅が小さく、このステップに移行し
易くなる。

【００４１】ステップＳ４０３では以後のファジィ演算
処理に使用するパラメータとして、移動体が位置してい
る全てのステートの中心と移動体の距離を算出する。こ
の距離は図７ではｎの値である。ステップＳ４０４では
移動体の位置から各ステートとの適合度を算出する。図
７ではｚの値である。ステップＳ４０５では移動体の方
向をファジィ演算処理により決定する。

【００４２】図１６は、行動決定手段により移動体が行
動決定する際の動作説明図である。移動体は、ａｅ点で
ステートＡの領域に入るとサブルーチンＳＲ２によりス
テートＢを選択し、ステートＢの中心に向かう。ステー
トＢの領域に入るｂｅ点までの間、Ａのメンバーシップ
関数と移動体の位置によりＢに向かう適合度ａｆが算出
される。さらに、移動体は、ｂｅ点でステートＢの領域
に入るとサブルーチンＳＲ２により次のステートＣを選
択し、ステートＣの中心に向かう。移動体がステートＣ
の領域に入るまでは、Ａのメンバーシップ関数と移動体
の位置によりＢに向かう適合度ａｆ及びＢのメンバーシ
ップ関数からＣに向かう適合度ｂｆとが随時算出され
る。このように移動体の位置と各ステートに配置された
メンバーシップ関数とからファジィ演算処理して移動体
の行動が決定される。

【００４３】図１７は移動体の進む方向をベクトル成分
で表した図である。このように、移動体の進む方向は、
両方の適合度を正規化されたベクトル成分を使って算出
される。重みつき平均は、次式により計算される。

【００４４】

【数１】

【００４５】この式はファジィ制御で一般に使われるも
のと同じ式である。以上のように本実施例では、移動体
があるステートの範囲に入った瞬間に次に移動するステ
ートを決定し、ステートの中心を経由しないで次のステ
ートへ向かうようにしている。そのため、従来の離散的
な強化学習方法の欠点であった有限のアクションしか持
てないという制限、つまり、離散的ステートの中心のど
れかへ必ず行かなければならないという制限がなくな
り、移動体の移動は滑らかな制御を行わなくても自動的
に滑らかな曲線を描くことになる。

【００４６】移動体の方向が決定した後、このサブルー
チンは終了し次の障害物回避のサブルーチンに移行す
る。通常の移動時、移動体は常に障害物の監視を続け
る。図９のサブルーチンＳＲ５は障害物回避手段の処理
フロー図である。図１８のステップＳ５０１では移動体
の障害物センサーが進行方向に障害物を検知したか否か
の判定を行う。判定が否定された場合はこのサブルーチ
ンを終了する。判定が肯定された場合は障害物回避のア
ルゴリズムが起動される。ステップＳ５０２は、移動体
のセンサーにより障害物の左右両端それぞれのおおまか
な距離を計測する。図１９（ａ），（ｂ）は、移動体の
障害物回避手段の動作説明図である。図では、障害物を
斜線部で示した。

【００４７】図１９（ａ）は、移動体を中心とする円が
センサーの計測しうる範囲、Ｌｒが障害物の右端と移動
体の距離、Ｌｌが障害物の左端と移動体の距離を示す。
ステップＳ５０３ではＬｒとＬｌを比較し近い方に移動
体の方向を変更する。また、図１９（ｂ）は、障害物の
左端はセンサーの計測しうる範囲に入っているが右端が
範囲外のため左端を方向として選択する。また、両端が
範囲外の場合は次に進むべきステートに近い端を選択す
る。

【００４８】以上で障害物回避アルゴリズムを終了し、
次のステップへ移行する。図９のステップＳ６ではサブ
ルーチンＳＲ４で決まった方向に基づいて一定距離の移
動を行う。距離の設定は実験により適時決定する。その
のち処理はステップＳ４へ戻る。以上のように移動体は
ランダムウォークしながらゴール点に到達する毎に報酬
を受け（負の場合もある）最短経路を強化する。

【００４９】次に、経路学習終了後、移動体が移動する
経路移動処理部について説明する。図４は、経路学習終
了後の、経路移動処理部のブロック図である。また、図
２０は、経路移動処理部における移動体が移動する各エ
ピソードにおける経路移動の処理フロー図である。この
ブロック図４は、ステップ、サブルーチンとも経路学習
処理部の動作と共通のものが多い。例えば、行動決定手
段４０２、障害物回避手段４０３は、経路学習処理部の
行動決定手段３０５、障害物回避手段３０６などと動作
は共通している。したがって、ここでは相違する箇所の
みの動作説明を行う。

【００５０】図２０のステップＳ７は、移動体の現在位
置がゴール点のステートにいるかどうかの判定を行う。
判定が肯定されたときはステップＳ２へ移行する。ステ
ップＳ８の第２のステート選択手段では、経路学習のサ
ブルーチンＳＲ２第１のステート選択手段とは異なり、
次に選択するステートの決定に確率は使用しない。図８
（ａ）でこのステート選択を説明する。対象となるステ
ートは、点線内で示した５つのステートである。この５
つのステートの中で、円錐形状のメンバーシップ関数の
ヘッジ幅が一番大きなステートを選択する。したがっ
て、図中ではｎ＋１のステートが選ばれる。

【００５１】図２１は、障害物が存在する平面モデル上
で移動体が、最初のエピソードにおいて経路を学習して
いる途中のシミュレーション図である。図２２は、学習
収束した結果、移動体がスタート点からゴール点まで学
習強化された経路を示すシミュレーション図である。図
中には示してはないが、サブゴールの近傍などで別々の
エピソード間でステートが重なる場合がある。このよう
な場合は、移動体の移動に支障があり、エピソード毎に
同一ステートに別々のメンバーシップ関数を持たせる必
要がある。

【００５２】

【発明の効果】以上詳細に説明したように請求項１の発
明によれば強化学習におけるステートにメンバーシップ
関数を配置し、強化学習における報酬をメンバーシップ
関数の大きさに反映させることで学習を収束させること
ができる。また、ステートに配置したメンバーシップ関
数を利用してファジイ処理を行うことでステートの位置
が固定で、取り得るアクションが有限なままで、連続的
な入出力変数に近い学習が実現でき、実用向きなコンパ
クトなシステムが組める。

【００５３】また、障害物の存在する平面上を移動する
移動体において、使用者は平面上を無条件に等間隔の有
限なステートを配置するだけで移動体が自ら経路を学習
することが可能となった。さらに、従来の強化学習にお
ける移動体の移動では、移動体が離散的で固定的なステ
ートを渡り歩くいわばジグザグな走行であったのに対し
て、本発明ではステートが範囲を広げ隣接するステート
とファジイ演算処理をすることで円滑な走行を実現し
た。

【００５４】さらに、メンバーシップ関数の大きさその
ものをステートの範囲とするために、学習収束後の結果
としてはステートの位置情報とステートの範囲情報のみ
であるため、装置の記憶領域が小さくて済むという効果
がある。

【図面の簡単な説明】

【図１】本発明の経路学習方法の処理フロー図。

【図２】本発明の経路学習装置のブロック図。

【図３】本発明の経路学習処理部における各エピソー
ドのブロック図

【図４】本発明の経路処理部における各エピソードの
ブロック図。

【図５】障害物が存在する経路学習のための平面モデ
ル図。

【図６】移動体の障害物センサーが検出できる範囲を
示した図。

【図７】円錐形状のメンバーシップ関数の説明図。

【図８】移動体がステート選択する際対象となるステ
ートを示した図。

【図９】本発明の経路学習処理部における各エピソー
ドの処理フロー図。

【図１０】本発明の経路学習処理部の行動評価手段及
び報酬分配手段の処理フロー図。

【図１１】本発明の経路学習処理部の第１のステート
選択手段の処理フロー図。

【図１２】第１のステート選択手段により重み付き確
率演算の１例。

【図１３】本発明の経路学習処理部の経路ループ削除
手段の処理フロー図。

【図１４】経路ループ削除手段の動作説明図。

【図１５】本発明の経路学習処理部の行動決定手段の
処理フロー図。

【図１６】行動決定手段の動作説明図。

【図１７】行動決定手段において移動体の動作方向ベ
クトル説明図

【図１８】本発明の経路学習処理部の障害物回避手段
の処理フロー図。

【図１９】障害物回避手段の動作説明図。

【図２０】本発明の経路学習装置の経路移動処理部の
処理フロー図。

【図２１】本発明の経路学習装置を用いて移動体が経
路学習している途中のシミュレーション図。

【図２２】本発明の経路学習装置を用いて、移動体が
経路学習した結果と経路移動を行ったシミュレーション
図。

Claims

【特許請求の範囲】

【請求項１】対象がスタート点からゴール点に移動
する経路学習方法において、離散的に分布されている各ステートにメンバーシップ関
数を配置する初期化する第１ステップと、前記対象が現在のステートから次のステートに遷移する
際、その近傍に配置されたステートの中から１つを選択
する第２ステップと、前記対象が通過したステートをステート番号の履歴とし
て記憶する第３ステップと、前記第２ステップによって選択されたステート番号と前
記第３ステップに記憶されているステート番号とが一致
したと判断した時、経路ループしたとしてループしたス
テート番号履歴を削除する第４ステップと前記各ステー
トに配置されたメンバーシップ関数と前記対象の現在位
置とからファジィ演算処理することにより、前記対象の
行動を決定し、実行する第５ステップと、前記対象が次のステートに遷移する際、障害物を回避す
る第６ステップと、前記対象がゴール点に到達するまでの前記対象の行動結
果をスタート点からゴール点までの走行距離によって評
価する行動評価する第７ステップと、前記第７ステップの行動評価結果に応じた報酬を、通過
した各ステートに配置されたすべてのメンバーシップ関
数のパラメータに分配する報酬分配する第８ステップ
と、前記第２ステップから第８ステップを順次繰返し処理す
ることで、前記対象が最適の行動を取るように学習を収
束させる第９ステップとを備え、動作を行うようにした
ことを特徴とする経路学習方法。
【請求項２】対象がスタート点からゴール点に移動
する経路学習装置において、離散的に分布されている各ステートにメンバーシップ関
数を配置する初期化する初期化処理手段と、前記メンバ
ーシップ関数と前記対象の現在位置とからファジィ演算
処理しながら行動決定し、その行動評価結果に応じ報酬
を分配することにより経路を強化学習する経路学習処理
部と、前記経路学習処理部の結果に基づき強化された経
路に応じて前記対象が移動する経路移動処理部と、を備
えたことを特徴とする経路学習装置。
【請求項３】前記経路学習処理部は、前記対象が現
在のステートから次のステートに遷移する際、その近傍
に配置されたステートの中から１つを選択する第１のス
テート選択手段と、前記対象が通過したステートをステ
ート番号の履歴として記憶するステート履歴記憶手段
と、前記第１のステート選択手段によって選択されたス
テート番号と前記ステート履歴記憶手段に記憶されてい
るステート番号とが一致したと判断した時、経路ループ
したとしてループしたステート番号履歴を削除する経路
ループ削除手段と、前記各ステートに配置されたメンバ
ーシップ関数と前記対象の現在位置とからファジィ演算
処理することにより、前記対象の行動を決定し、実行す
る行動決定手段と、前記対象が次のステートに遷移する
際、障害物を回避する障害物回避手段と、前記対象がゴ
ール点に到達するまでの前記対象の行動結果をスタート
点からゴール点までの走行距離によって評価する行動評
価手段と、前記行動評価結果に応じた報酬を、通過した
各ステートに配置されたすべてのメンバーシップ関数の
パラメータに分配する報酬分配手段と、前記各手段を順
次繰返し処理することで、前記対象が最適の行動を取る
ように学習を収束させる学習収束手段とを備えたことを
特徴とする請求項２記載の経路学習装置。
【請求項４】前記経路移動処理部は、前記対象が現
在のステートから次のステートに遷移する際、その近傍
に配置されたステートの中から１つを選択する第２のス
テート選択手段と、前記各ステートに配置されたメンバ
ーシップ関数と前記対象の現在位置とからファジィ演算
処理することにより、前記対象の行動を決定し、実行す
る行動決定手段と、前記対象が次のステートに遷移する
際、障害物を回避する障害物回避手段とを備えたことを
特徴とする請求項２記載の経路学習装置。
【請求項５】前記初期化処理手段におけるメンバー
シップ関数の形状が、円錐形状であることを特徴とする
請求項２記載の経路学習装置。
【請求項６】前記第１のステート選択手段は、重み
付き確率を用いて次に移動するステートを選択すること
を特徴とする請求項２記載の経路学習装置。
【請求項７】前記第１のステート選択手段により選
択された１つステートの中で、前記対象がゴール点また
は移動する方向の各ステートに配置されたメンバーシッ
プ関数のパラメータに対して重み付き確率の重みを加算
することを特徴とする請求項６記載の経路学習装置。
【請求項８】前記障害物回避手段は、障害物の回避
は障害物の左右両端のうち近い方を前記対象の方向とす
ることを特徴とする請求項２記載の経路学習装置。
【請求項９】前記学習収束手段は、通過したステー
トがすべて最大規定値に達した時に、学習を収束するこ
とを特徴とする請求項２記載の経路学習装置。