JPH0850548A - 経路学習方法及び装置 - Google Patents

経路学習方法及び装置

Info

Publication number
JPH0850548A
JPH0850548A JP6184523A JP18452394A JPH0850548A JP H0850548 A JPH0850548 A JP H0850548A JP 6184523 A JP6184523 A JP 6184523A JP 18452394 A JP18452394 A JP 18452394A JP H0850548 A JPH0850548 A JP H0850548A
Authority
JP
Japan
Prior art keywords
state
route
learning
target
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6184523A
Other languages
English (en)
Inventor
Hiroyuki Abe
啓之 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nikon Corp
Original Assignee
Nikon Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nikon Corp filed Critical Nikon Corp
Priority to JP6184523A priority Critical patent/JPH0850548A/ja
Publication of JPH0850548A publication Critical patent/JPH0850548A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

(57)【要約】 (修正有) 【目的】 固定したステートで、数個の限られたアクシ
ョンのままで入出力変数を連続的に扱え、より汎用的な
問題にも適用できる。 【構成】 離散的に分布されている各ステートにメンバ
ーシップ関数を配置する第1ステップ、対象が遷移する
際、近傍に配置されたステートの中から1つを選択する
第2ステップ、対象が通過したステートをステート番号
の履歴として記憶する第3ステップ、第2ステップのス
テート番号と第3ステップのステート番号とが一致した
時、ステート番号履歴を削除する第4ステップ、ファジ
ィ演算処理することにより、対象の行動を決定し、実行
する第5ステップ、次のステートに遷移する際、障害物
を回避する第6ステップ、ゴール点に到達するまでの対
象の行動結果をスタート点からゴール点までの走行距離
によって行動評価する第7ステップ、及び行動評価結果
に応じた報酬をメンバーシップ関数のパラメータに分配
する第8ステップを経由し、前記操作を繰返して、対象
が最適の行動を取るように学習を収束させる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は組み合わせ最適問題、最
短経路探索などの応用に関する分野に利用できる。特に
学習機能を持った移動装置に関する。
【0002】
【従来の技術】最近、人工知能の1分野である強化学習
方式が注目されている。この強化学習とは報酬という特
別な入力を手がかりとして環境に対象を適応させようと
する方法である。従来の強化学習方法に関する論文とし
て、Machine Learnig,Vol.3,pp225-245 (1988)があげら
れる。
【0003】強化学習の対象としている問題は、ステー
ト(状態)遷移の性質と入出力変数の種類によってクラ
ス分けされている。この論文のステート(状態)遷移の
性質は、ステート(状態)が固定であり、各ステートで
取りうるアクション(行動)が数個に制限されている。
また、入出力変数の種類は離散的である。この強化法の
報酬分配法をみると、報酬は各ステートにおけるアクシ
ョンに重みとして分配している経験型強化学習方法であ
る。
【0004】他の代表的な従来学習法として、入出力変
数を連続に扱えるニューラルネットワークを取り入れた
強化学習方法が、米国特許番号US5113482で提
案されている。
【0005】
【発明が解決しようとする課題】上述した従来の経験型
強化学習方法では、限定された問題しか扱えず自由度が
少ない。また、ニューラルネットワークを取り入れた強
化学習方法では、ニューロン数が増加し、メモリーが膨
大となる欠点がある。本発明は、ファジィ推論を強化学
習方法に採用することにより、固定したステートで、数
個の限られたアクションのままで入出力変数を連続的に
扱え、より汎用的な問題にも適用できる経路学習装置を
提供することを目的とする。
【0006】
【課題を解決するための手段】本経路学習方法は、離散
的に分布されている各ステートにメンバーシップ関数を
配置する初期化する第1ステップと、前記対象が現在の
ステートから次のステートに遷移する際、その近傍に配
置されたステートの中から1つを選択するステート選択
する第2ステップと、前記対象が通過したステートをス
テート番号の履歴として記憶する第3ステップと、前記
第2ステップによって選択されたステート番号と前記第
3ステップに記憶されているステート番号とが一致した
と判断した時、経路ループしたとしてループしたステー
ト番号履歴を削除する第4ステップと、前記各ステート
に配置されたメンバーシップ関数と前記対象の現在位置
とからファジィ演算処理することにより、前記対象の行
動を決定し、実行する第5ステップと、前記対象が次の
ステートに遷移する際、障害物を回避する第6ステップ
と、前記対象がゴール点に到達するまでの前記対象の行
動結果をスタート点からゴール点までの走行距離によっ
て評価する行動評価する第7ステップと、前記第7ステ
ップの行動評価結果に応じた報酬を、通過した各ステー
トに配置されたすべてのメンバーシップ関数のパラメー
タに分配する報酬分配する第8ステップと、前記第2ス
テップから第8ステップを順次繰返し処理することで、
前記対象が最適の行動を取るように学習を収束させる第
9ステップとを備え、動作させることを特徴とする。
【0007】また、本発明の経路学習装置は、離散的に
分布されている各ステートにメンバーシップ関数を配置
する初期化する初期化処理手段と、前記メンバーシップ
関数と前記対象の現在位置とからファジィ演算処理しな
がら行動決定し、その行動評価結果に応じ報酬を分配す
ることにより経路を強化学習する経路学習処理部と、前
記経路学習処理部の結果に基づき強化された経路に応じ
て前記対象が移動する経路移動処理部とを備えたことを
特徴とする。
【0008】
【作用】本発明は、経験型強化学習方法にファジィ推論
を採用したことにより、離散的な扱いしかできなかった
問題を連続的に扱えるようにした。本発明の請求項2に
示した経路学習装置は、請求項1の経路学習方法を組み
込んだものである。
【0009】本発明の経路学習装置の請求項2の第1の
ステート選択手段は、経路学習処理部として用いてお
り、重み付き確率にてステートを選択する。しかしなが
ら、経路学習処理を終了後の経路移動処理部における第
2のステート選択手段では、確率は用いてはいない。本
発明の経路学習処理部の行動決定手段では、ファジィ演
算処理により移動体の移動速度や進行方向を決め、実行
させるようにした。また、報酬に応じてメンバーシップ
関数のパラメータを変えることにより、移動体が移動す
る経路が強化される。その結果、経路学習以後の経路移
動においては、滑らかな移動体の動作となる。
【0010】本発明における経路学習方法及び装置の典
型的な事例として、自律型移動ロボットがあるが、その
ほかスケジューリング問題などの最適問題にも適用する
ことができる。本発明の対象とは、動作対象となるもの
を指し、本実施例では移動体のことである。また、本実
施例における移動体とはCPU等のプログラミングが可
能な装置によって制御される移動体のことを意味してお
り、CPU等が移動体の内部にあっても外部にあっても
構わない。本実施例において、移動体は全方位移動可能
である。
【0011】本実施例において、メンバーシップ関数は
円錐形状であり、その最大高さは、常に同じ高さ(規格
値)を1に設定している。なお、本発明では、2次元平
面上の経路学習装置を取り扱っているが、メンバーシッ
プ関数を球状にし、球状の中心と移動体の距離に反比例
した適合度(例えば、中心で1、球の表面で0等)を用
いれば、水中や宇宙空間などの3次元障害物を含む経路
学習の問題にも拡張が可能である。
【0012】
【実施例】以下、図面を参照してこの発明の一実施例で
ある移動体の経路学習方法の説明を行う。図1は、本発
明である経路学習方法の基本的な処理フロー図である。
本発明の経路学習方法は、離散的に分布されている各ス
テートにメンバーシップ関数を配置する初期化する第1
ステップ101と、前記対象が現在のステートから次の
ステートに遷移する際、その近傍に配置されたステート
の中から1つを選択する第2ステップ102と、前記対
象が通過したステートをステート番号の履歴として記憶
する第3ステップ103と、前記第2ステップによって
選択されたステート番号と前記第3ステップに記憶され
ているステート番号とが一致したと判断した時、経路ル
ープしたとしてループしたステート番号履歴を削除する
第4ステップ104と、前記各ステートに配置されたメ
ンバーシップ関数と前記対象の現在位置とからファジィ
演算処理することにより、前記対象の行動を決定し、実
行する第5ステップ105と、前記対象が次のステート
に遷移する際、障害物を回避する第6ステップ106
と、前記対象がゴール点に到達するまでの前記対象の行
動結果をスタート点からゴール点までの走行距離によっ
て評価する行動評価する第7ステップ107と、前記第
7ステップの行動評価結果に応じた報酬を、通過した各
ステートに配置されたすべてのメンバーシップ関数のパ
ラメータに分配する報酬分配する第8ステップ108と
前記第2ステップから第8ステップを順次繰返し処理す
ることで、前記対象が最適の行動を取るように学習を収
束させる第9ステップ109とから構成されている。
【0013】図2は、本発明の請求項1記載の経路学習
方法を用いた経路学習装置としてのブロック図である。
その装置構成は、離散的に分布されている各ステートに
メンバーシップ関数を配置する初期化する初期化処理手
段301を有し、前記メンバーシップ関数と前記対象の
現在位置とからファジィ演算処理しながら行動決定し、
その行動評価結果に応じ報酬を分配することにより経路
を強化学習する経路学習処理部201と前記経路学習処
理部の結果に基づき強化された経路に応じて前記対象が
移動する経路移動処理部202とから構成されている。
【0014】図2の本発明装置の経路学習処理部の初期
化処理手段301では、平面上に等間隔に分布された各
ステートに円錐形状のメンバーシップ関数を配置し、メ
ンバーシップ関数のパラメータの初期化を行う。さら
に、この手段においてスタート点、ゴール点をステート
に配置する。この配置されたスタート点からゴール点ま
での経路をエピソード(報酬から報酬に至るルールの選
択系列)と呼ぶことにする。また、スタート点からゴー
ル点までの経路の途中にサブゴール点を設けることもあ
る。その時、経路はサブゴール点によって分割されるこ
とになる。またこの分割された経路もエピソードと呼ば
れる。
【0015】スタート点〜サブゴール1、サブゴール1
〜サブゴール2、・・・サブゴールn〜ゴールのそれぞ
れの区間をこの順番に学習する。つまり、エピソード1
が学習終了した後にエピソード2を学習するという処理
である。また、経路学習後の経路移動処理でも経路学習
処理部と同様にサブゴールによってエピソードに分割さ
れている。さらに、サブゴールで分割された経路が、重
なる場合は各々重なったステートに別々のメンバーシッ
プ関数をとることも行う。経路学習処理は、経路移動処
理の前に1度は行わなければならないが、経路学習した
結果を記憶媒体に蓄えておけば、環境が変わらない限り
再学習処理は不要である。
【0016】図3は、本発明装置の各エピソードにおけ
る経路学習処理部のブロック図である。その構成は、各
ステートにメンバーシップ関数を配置する初期化処理手
段301と、移動体が現在のステートから次のステート
に遷移する際、その近傍に配置されたステートの中から
1つを重み付き確率にて選択する第1のステート選択手
段302と、前記対象が通過したステートをステート番
号の履歴として記憶するステート履歴記憶手段303
と、前記第1のステート選択手段によって選択されたス
テート番号と前記ステート履歴記憶手段に記憶されてい
るステート番号とが一致したと判断した時、経路ループ
したとしてループしたステート番号履歴を削除する経路
ループ削除手段304と、前記各ステートに配置された
メンバーシップ関数と前記対象の現在位置とからファジ
ィ演算処理することにより、前記対象の行動を決定し、
実行する行動決定手段305と、前記対象が次のステー
トに遷移する際、障害物を回避する障害物回避手段30
6と、前記対象がゴール点に到達するまでの前記対象の
行動結果をスタート点からゴール点までの走行距離によ
って評価する行動評価手段307と、前記行動評価結果
に応じた報酬を、通過した各ステートに配置されたすべ
てのメンバーシップ関数のパラメータに分配する報酬分
配手段308と、前記各手段を順次繰返し処理すること
で、前記対象が最適の行動を取るように学習を収束させ
る学習収束手段309とから構成されている。
【0017】図4は、本発明装置の各エピソードにおけ
る経路移動処理部のブロック図である。その構成は、移
動体が現在のステートから次のステートに遷移する際、
その近傍に配置されたステートの中から1つを選択する
第2のステート選択手段401と、現在移動体が位置し
ている複数のステートの各ステートに配置された各円錐
形状のメンバーシップ関数とから適合度及び移動体の進
行方向を算出するために、ファジイ演算処理を用いて移
動体の行動を決定し、実行する行動決定手段402と、
前記対象が次のステートに遷移する際、障害物を回避す
る障害物回避手段403とからなる。
【0018】次に、離散的に分布された各ステートに配
置された円錐形状のメンバーシップ関数を用いた対象
(移動体)の動作説明をする。図5は、障害物の存在す
る平面上をスタート点からゴール点、サブゴール点を学
習するための経路探索環境をモデル化した平面モデル図
である。実施例中の各構成部は主にコンピュータシステ
ム内のソフトウエア的手段により実現されているが、特
にこれに限定されずにハードウエア的手段によってもよ
い。
【0019】2次元平面をX×YのXY個のメッシュに
切り、交点であるメッシュ点を強化学習のステート点と
する。本実施例ではX=10、Y=12としている。初
期化処理手段では、120個の各ステートに円錐形状の
メンバーシップ関数を等間隔に配置し、メンバーシップ
関数の初期化処理を行う。また、120個のステートの
中で、スタート点、ゴール点、サブゴール点を選択す
る。対象のスタート点であるステートは図の左下に、対
象の到達点であるゴール点のステートは図5の中央やや
上に設定してある。また、スタートとゴールの間に立ち
寄る必要のある点をサブゴール点とする。ここでは1個
のサブゴールが右中央に配置してある。スタート点、ゴ
ール点、サブゴール点はこのように120個のステート
点から自由に選択できるものとする。サブゴール点を選
択することにより経路は分割される。
【0020】図6は、平面上のあるステートに置かれた
移動体とその移動体に隣接するステートとの関係を説明
する図である。あるステート点に置かれた移動体は、周
囲8点のステート点と隣接する。移動体の移動は、現在
滞在しているステートと隣接する周囲の8個のステート
のどれか1つを選択しながらステートを渡り歩く形でな
される。具体的な自律移動ロボットでは、移動体が周囲
8個のステート近傍までの範囲しか届かない障害物セン
サーを有し、そのセンサーによって移動体が自律移動す
ることになる。
【0021】図7は、本発明で用いたメンバーシップ関
数の円錐形状を示した図である。各ステートに配置され
たメンバーシップ関数の形状は、高さが常に規定値(図
7では1である)の円錐形状で表される3次元形状をし
ている。円錐形状の底面の半径(図7のh)を可変と
し、この値を制御することで移動体の動作を決定する。
直径2hを「ヘッジ幅」と称す。本メンバーシップ関数
は、全部のステート(本実施例では120個)に配置さ
れ、初期状態ではヘッジ幅2hは最小の幅で表されてお
り、学習中もこの幅以下にはならない。このメンバーシ
ップ関数は、2つの役目を持っている。
【0022】第1の役目は、経路学習時にステートから
次のステートに移動する際、隣接する複数のステートか
ら1つを重み付き確率で決定される時の「重み」とし
て、メンバーシップ関数の形状パラメータである底面の
直径2hを使用することである。図8(a)(b)は、
移動体がステート選択する際、移動方向に応じて移動対
象となるステートを示した図である。実際には、学習収
束を速くするため、後戻りするステート選択を禁止して
いる。そのため、隣接する8個のステート中、移動方向
前面と左右の図の点線で示した5個のステートが選択対
象となる。つまり、5面のサイコロの各面を重みでもっ
て変形し、重みが大きいほどその面が出やすくなるよう
にした変形サイコロをふりながら移動体が走行すると考
えればよい。
【0023】また、第2の役目は、移動体に移動方向の
速度を与えるという役目である。円錐形状のメンバーシ
ップ関数の内部に位置している移動体の移動速度は、そ
の位置から鉛直上方に延ばした円錐面との交点までの長
さ(図7のz)によって決定される。この長さzを適合
度という。移動体の現在位置から次のステートに進入し
た時点で、変形5面サイコロを振ることで次に行くべき
ステートが決まる。次のステートへ行く力がこの適合度
zで表されることになる。また、隣接した各ステートに
配置された円錐形状のメンバーシップ関数の各々の円錐
面が重なる場合は、それぞれの適合度zの値でファジィ
演算処理を行い、移動方向が決定される。わかりやすく
表現すれば、本発明のメンバーシップ関数は、移動体が
次のステートを決定する「引力」の役目と、そのステー
トに入った移動体を押し出す「斥力」という2つの対称
的な役目を持つことになる。また、ファジィ演算処理を
行うことにより、自動的に移動体は滑らかな曲率を描き
ながら移動するという効果もある。
【0024】本発明では、強化学習の報酬をメンバーシ
ップ関数の形状パラメータに反映させている。つまり、
移動体がゴール点(またはサブゴール点、以後の説明で
はゴールとサブゴールを総称してゴール点とする)に到
達した時点で、その回の学習を「走行距離」の大きさで
評価し、その評価に応じた報酬を、今回通った経路の全
ステートに分配する。行動評価が高い時は、ステートの
メンバーシップ関数の形状パラメータ(ここでは円錐形
状のヘッジ幅2hである)に加える報酬を多くし、行動
評価が低いときは少なくする。行動評価がきわめて低い
ときは「負の報酬」も考慮する。重み付き確率でステー
ト間を遷移している移動体は、ヘッジ幅2hの大きいス
テートに引きつけられやすいため、行動評価が高い経路
は徐々に通りやすくなる。
【0025】この学習により、ステートのヘッジ幅2h
を初期状態で一律に小さくしておくことで、はじめの間
はランダムウォークを行いあらゆる経路を試み、評価の
高い経路が何本か生成されてからは、それらを随時評価
するという、人間の思考に近いモデルが形成される。次
に、各エピソードにおける経路学習処理部の動作につい
て説明する。図9は、動作説明するための処理フロー図
である。
【0026】ステップS1学習収束手段では経路学習の
終了の判定を行う。本実施例での終了の判定は、エピソ
ードでの最短経路を構成するステートに配置された円錐
形状のメンバーシップ関数のヘッジ幅がすべて最大規定
値になった時点を収束したと判断している。最大規定値
とは、隣接する8個のステートの中心を通る円の中で最
大の直径である。ただし、その円が障害物にかかる場合
の最大規定値は、障害物にかからない円のうちの最大の
円の直径である。
【0027】学習終了の判定を受けた場合はステップS
2へ行き、次のエピソードがある場合は再び経路学習処
理を繰り返し、最後のエピソードの場合は学習を終了す
る。ステップS3では移動体が、ゴール点に到達したか
どうかの判定を行う。ステップS3での判定が肯定され
るとサブルーチンSR1へ移行する。サブルーチンSR
1では移動体がゴール点に到達したときに、通過してき
た経路を行動評価した後、各ステートに配置されたメン
バーシップ関数の形状パラメータに報酬を与える。
【0028】図10は、行動評価手段及び報酬分配手段
における処理フロー図である。ステップS101では今
回通ってきた経路の走行距離に応じてステートに与える
報酬の算出を行う。算出は例えば次のような算出式を使
用する。 報酬=(1.5ー今回の走行距離/今までの最短走行距
離)×定数 この式で定数は実験で決まる値である。一般には値を大
きくすれば、収束は早いが最短経路がみつかりにくく、
値を小さくすればその逆の傾向がある。
【0029】ステップS102では今回の走行距離がこ
のエピソード内で最小かどうかの判定を行う。判定が肯
定されればステップS103へ移り、この最小経路を強
化するために前述した通常の報酬よりも幾分多く報酬を
分配する。ステップS104では最短経路として通過し
てきた全てのステートの番号を全走行距離とともにステ
ート履歴記憶手段の一部に記憶する。
【0030】ステップS104を終了し、ステップS1
05を経ないでステップS106へ直接移動する。ステ
ップS105では報酬の正負判定を行う。報酬が正の場
合はステップS106へ移り、今回通過した全ステート
に配置されたメンバーシップ関数のヘッジ幅に報酬を加
算して、このサブルーチンを抜ける。報酬が負の場合は
ステップS107へ移る。ここでは、ステップS104
で記憶された最短経路を構成するステートを除いた全ス
テートに対し報酬分だけヘッジ幅を減らす。
【0031】このサブルーチン終了後は、図9のステッ
プS1へ戻る。図9のステップS4では移動体が、ステ
ート履歴記憶手段の記憶にない新しいステート範囲に位
置しているかどうかを判断する。ステート範囲とは、円
錐形状のメンバーシップ関数の底面の円の内部をいう。
ステップS4での判定が肯定されるとサブルーチンSR
2へ移行する。
【0032】図11のサブルーチンSR2は、第1のス
テート選択手段での動作である。このサブルーチンSR
2では次に行くべきステートを決定する処理を行う。移
動体の行動選択は、進行方向にある5つのステートから
1つを重み付き確率で選択する。また、5つのステート
のヘッジ幅を重みとするだけでなく、ゴールのある方向
を重みに加算するとゴール点の発見が早くなることがあ
る。しかし、最短経路を探索する時には、逆に重みを加
算しない方がよいことが実験でわかっている。従って、
経路の早期発見に主眼を置くか、時間はかかっても最短
経路の発見に主眼を置くかでゴール点方向の重みの扱い
を使い分ける必要がある。同様に、移動体の慣性を重み
に加算する方法も考えられる。つまり、現在進んでいる
方向の重みを多くするという方法であるが、実際の移動
体では必ず慣性が存在するためエネルギー最小という評
価項を最短経路に付加する必要がある。そのため、移動
体の慣性を次のステートの決定のパラメータにするのは
合理的である。
【0033】ステップS201では、移動体の現在位置
を確認する。ステップS202では前記したようにゴー
ル点の方向を確率の重みに加算するときのためにゴール
点の方向を確認する。ステップS203では移動体の進
行方向から前面、斜め前、左右の5方向の近傍のステー
トを選択し、次に進むステートの候補とする。
【0034】ステップS204では選択された5つのス
テートが、障害物の内部にあるかどうかを判定する。判
定が肯定された場合はステップS205へ移行し、障害
物の内部にあるステートを候補から外す。ステップS2
06では重み付き確率演算を行い、次に進むステートを
決定する。ここで重み付き確率演算の1例についての説
明を行う。
【0035】図12は、移動体が図のステート番号nに
位置し、5つのステートから1つを選択する説明図であ
る。上図に、5つのステートの各メンバーシップ関数の
ヘッジ幅が、それぞれ10、30、100、40、20
である場合を示した。また、下図は、重み付き確率演算
説明図である。5つのヘッジ幅の総計200にRND関
数(0から1の実数値を乱数として発生する関数をRN
D関数という)を乗じて得られた値が120である場
合、移動体が次に進むべきステートがcと決定されるこ
とが図からわかる。このサブルーチン終了後は、図9の
サブルーチンSR3へ移行する。
【0036】サブルーチンSR3では経路のループ判定
を行う。図13は、経路ループ削除手段の処理フロー図
である。また、図14(a)、(b)は、その動作説明
図である。図14(a)は、次に移動体が選択したステ
ート番号が、既に学習しステート履歴記憶に記憶されて
いるステート番号と一致したと判断された時のループ経
路図である。図14(b)は、そのループした経路を削
除した時の経路図である。
【0037】サブゴールを含んだ経路をスタート点から
ゴール点まで通して経路学習するようなシステムでは、
移動体がサブゴール近傍で同一のステートを再度通過す
ることがある。しかし、本実施例では、各エピソードの
学習が収束するまで次のエピソードの学習は行わないた
め、既に通過したステートに戻ることはない。そのた
め、ループした経路の削除が有効となる。
【0038】ステップS301ではサブルーチンSR2
で決定された次に進むステートが既に通過したステート
か否かの判定を行う。判定が否定された場合はこのサブ
ルーチンを終了させる。判定が肯定された場合は、ステ
ップS302において、ステート履歴記憶手段に記憶さ
れたステート履歴のリストからそのステートの次から現
在までのステートの記録を削除する。このサブルーチン
終了後、図9のステップS5へ移る。
【0039】ステップS5ではゴール点到達後の評価お
よび削除ループの判定に使うために決定されたステート
を履歴のリストに追加する。その終了後は図9のステッ
プS3へ戻る。図9のステップS4で判定が否定された
ときは、通常の移動体の移動状態であり、移動体の方向
を決定するサブルーチンSR4行動決定手段に移行す
る。
【0040】図15のステップS401では、移動体の
位置が現在どこかのステート(ヘッジ)の内部にあるか
どうかの判定を行う。判定が否定された場合は、ステッ
プS402へ移行し、移動体の方向はサブルーチンSR
2で決定された次に進むべきステートの方向を取る。学
習初期の段階で経路のステートに配置されているメンバ
ーシップ関数のパラメータに報酬が加算されていない時
はステートのヘッジ幅が小さく、このステップに移行し
易くなる。
【0041】ステップS403では以後のファジィ演算
処理に使用するパラメータとして、移動体が位置してい
る全てのステートの中心と移動体の距離を算出する。こ
の距離は図7ではnの値である。ステップS404では
移動体の位置から各ステートとの適合度を算出する。図
7ではzの値である。ステップS405では移動体の方
向をファジィ演算処理により決定する。
【0042】図16は、行動決定手段により移動体が行
動決定する際の動作説明図である。移動体は、ae点で
ステートAの領域に入るとサブルーチンSR2によりス
テートBを選択し、ステートBの中心に向かう。ステー
トBの領域に入るbe点までの間、Aのメンバーシップ
関数と移動体の位置によりBに向かう適合度afが算出
される。さらに、移動体は、be点でステートBの領域
に入るとサブルーチンSR2により次のステートCを選
択し、ステートCの中心に向かう。移動体がステートC
の領域に入るまでは、Aのメンバーシップ関数と移動体
の位置によりBに向かう適合度af及びBのメンバーシ
ップ関数からCに向かう適合度bfとが随時算出され
る。このように移動体の位置と各ステートに配置された
メンバーシップ関数とからファジィ演算処理して移動体
の行動が決定される。
【0043】図17は移動体の進む方向をベクトル成分
で表した図である。このように、移動体の進む方向は、
両方の適合度を正規化されたベクトル成分を使って算出
される。重みつき平均は、次式により計算される。
【0044】
【数1】
【0045】この式はファジィ制御で一般に使われるも
のと同じ式である。以上のように本実施例では、移動体
があるステートの範囲に入った瞬間に次に移動するステ
ートを決定し、ステートの中心を経由しないで次のステ
ートへ向かうようにしている。そのため、従来の離散的
な強化学習方法の欠点であった有限のアクションしか持
てないという制限、つまり、離散的ステートの中心のど
れかへ必ず行かなければならないという制限がなくな
り、移動体の移動は滑らかな制御を行わなくても自動的
に滑らかな曲線を描くことになる。
【0046】移動体の方向が決定した後、このサブルー
チンは終了し次の障害物回避のサブルーチンに移行す
る。通常の移動時、移動体は常に障害物の監視を続け
る。図9のサブルーチンSR5は障害物回避手段の処理
フロー図である。図18のステップS501では移動体
の障害物センサーが進行方向に障害物を検知したか否か
の判定を行う。判定が否定された場合はこのサブルーチ
ンを終了する。判定が肯定された場合は障害物回避のア
ルゴリズムが起動される。ステップS502は、移動体
のセンサーにより障害物の左右両端それぞれのおおまか
な距離を計測する。図19(a),(b)は、移動体の
障害物回避手段の動作説明図である。図では、障害物を
斜線部で示した。
【0047】図19(a)は、移動体を中心とする円が
センサーの計測しうる範囲、Lrが障害物の右端と移動
体の距離、Llが障害物の左端と移動体の距離を示す。
ステップS503ではLrとLlを比較し近い方に移動
体の方向を変更する。また、図19(b)は、障害物の
左端はセンサーの計測しうる範囲に入っているが右端が
範囲外のため左端を方向として選択する。また、両端が
範囲外の場合は次に進むべきステートに近い端を選択す
る。
【0048】以上で障害物回避アルゴリズムを終了し、
次のステップへ移行する。図9のステップS6ではサブ
ルーチンSR4で決まった方向に基づいて一定距離の移
動を行う。距離の設定は実験により適時決定する。その
のち処理はステップS4へ戻る。以上のように移動体は
ランダムウォークしながらゴール点に到達する毎に報酬
を受け(負の場合もある)最短経路を強化する。
【0049】次に、経路学習終了後、移動体が移動する
経路移動処理部について説明する。図4は、経路学習終
了後の、経路移動処理部のブロック図である。また、図
20は、経路移動処理部における移動体が移動する各エ
ピソードにおける経路移動の処理フロー図である。この
ブロック図4は、ステップ、サブルーチンとも経路学習
処理部の動作と共通のものが多い。例えば、行動決定手
段402、障害物回避手段403は、経路学習処理部の
行動決定手段305、障害物回避手段306などと動作
は共通している。したがって、ここでは相違する箇所の
みの動作説明を行う。
【0050】図20のステップS7は、移動体の現在位
置がゴール点のステートにいるかどうかの判定を行う。
判定が肯定されたときはステップS2へ移行する。ステ
ップS8の第2のステート選択手段では、経路学習のサ
ブルーチンSR2第1のステート選択手段とは異なり、
次に選択するステートの決定に確率は使用しない。図8
(a)でこのステート選択を説明する。対象となるステ
ートは、点線内で示した5つのステートである。この5
つのステートの中で、円錐形状のメンバーシップ関数の
ヘッジ幅が一番大きなステートを選択する。したがっ
て、図中ではn+1のステートが選ばれる。
【0051】図21は、障害物が存在する平面モデル上
で移動体が、最初のエピソードにおいて経路を学習して
いる途中のシミュレーション図である。図22は、学習
収束した結果、移動体がスタート点からゴール点まで学
習強化された経路を示すシミュレーション図である。図
中には示してはないが、サブゴールの近傍などで別々の
エピソード間でステートが重なる場合がある。このよう
な場合は、移動体の移動に支障があり、エピソード毎に
同一ステートに別々のメンバーシップ関数を持たせる必
要がある。
【0052】
【発明の効果】以上詳細に説明したように請求項1の発
明によれば強化学習におけるステートにメンバーシップ
関数を配置し、強化学習における報酬をメンバーシップ
関数の大きさに反映させることで学習を収束させること
ができる。また、ステートに配置したメンバーシップ関
数を利用してファジイ処理を行うことでステートの位置
が固定で、取り得るアクションが有限なままで、連続的
な入出力変数に近い学習が実現でき、実用向きなコンパ
クトなシステムが組める。
【0053】また、障害物の存在する平面上を移動する
移動体において、使用者は平面上を無条件に等間隔の有
限なステートを配置するだけで移動体が自ら経路を学習
することが可能となった。さらに、従来の強化学習にお
ける移動体の移動では、移動体が離散的で固定的なステ
ートを渡り歩くいわばジグザグな走行であったのに対し
て、本発明ではステートが範囲を広げ隣接するステート
とファジイ演算処理をすることで円滑な走行を実現し
た。
【0054】さらに、メンバーシップ関数の大きさその
ものをステートの範囲とするために、学習収束後の結果
としてはステートの位置情報とステートの範囲情報のみ
であるため、装置の記憶領域が小さくて済むという効果
がある。
【図面の簡単な説明】
【図1】 本発明の経路学習方法の処理フロー図。
【図2】 本発明の経路学習装置のブロック図。
【図3】 本発明の経路学習処理部における各エピソー
ドのブロック図
【図4】 本発明の経路処理部における各エピソードの
ブロック図。
【図5】 障害物が存在する経路学習のための平面モデ
ル図。
【図6】 移動体の障害物センサーが検出できる範囲を
示した図。
【図7】 円錐形状のメンバーシップ関数の説明図。
【図8】 移動体がステート選択する際対象となるステ
ートを示した図。
【図9】 本発明の経路学習処理部における各エピソー
ドの処理フロー図。
【図10】 本発明の経路学習処理部の行動評価手段及
び報酬分配手段の処理フロー図。
【図11】 本発明の経路学習処理部の第1のステート
選択手段の処理フロー図。
【図12】 第1のステート選択手段により重み付き確
率演算の1例。
【図13】 本発明の経路学習処理部の経路ループ削除
手段の処理フロー図。
【図14】 経路ループ削除手段の動作説明図。
【図15】 本発明の経路学習処理部の行動決定手段の
処理フロー図。
【図16】 行動決定手段の動作説明図。
【図17】 行動決定手段において移動体の動作方向ベ
クトル説明図
【図18】 本発明の経路学習処理部の障害物回避手段
の処理フロー図。
【図19】 障害物回避手段の動作説明図。
【図20】 本発明の経路学習装置の経路移動処理部の
処理フロー図。
【図21】 本発明の経路学習装置を用いて移動体が経
路学習している途中のシミュレーション図。
【図22】 本発明の経路学習装置を用いて、移動体が
経路学習した結果と経路移動を行ったシミュレーション
図。

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 対象がスタート点からゴール点に移動
    する経路学習方法において、 離散的に分布されている各ステートにメンバーシップ関
    数を配置する初期化する第1ステップと、 前記対象が現在のステートから次のステートに遷移する
    際、その近傍に配置されたステートの中から1つを選択
    する第2ステップと、 前記対象が通過したステートをステート番号の履歴とし
    て記憶する第3ステップと、 前記第2ステップによって選択されたステート番号と前
    記第3ステップに記憶されているステート番号とが一致
    したと判断した時、経路ループしたとしてループしたス
    テート番号履歴を削除する第4ステップと前記各ステー
    トに配置されたメンバーシップ関数と前記対象の現在位
    置とからファジィ演算処理することにより、前記対象の
    行動を決定し、実行する第5ステップと、 前記対象が次のステートに遷移する際、障害物を回避す
    る第6ステップと、 前記対象がゴール点に到達するまでの前記対象の行動結
    果をスタート点からゴール点までの走行距離によって評
    価する行動評価する第7ステップと、 前記第7ステップの行動評価結果に応じた報酬を、通過
    した各ステートに配置されたすべてのメンバーシップ関
    数のパラメータに分配する報酬分配する第8ステップ
    と、 前記第2ステップから第8ステップを順次繰返し処理す
    ることで、前記対象が最適の行動を取るように学習を収
    束させる第9ステップとを備え、動作を行うようにした
    ことを特徴とする経路学習方法。
  2. 【請求項2】 対象がスタート点からゴール点に移動
    する経路学習装置において、 離散的に分布されている各ステートにメンバーシップ関
    数を配置する初期化する初期化処理手段と、前記メンバ
    ーシップ関数と前記対象の現在位置とからファジィ演算
    処理しながら行動決定し、その行動評価結果に応じ報酬
    を分配することにより経路を強化学習する経路学習処理
    部と、前記経路学習処理部の結果に基づき強化された経
    路に応じて前記対象が移動する経路移動処理部と、を備
    えたことを特徴とする経路学習装置。
  3. 【請求項3】 前記経路学習処理部は、前記対象が現
    在のステートから次のステートに遷移する際、その近傍
    に配置されたステートの中から1つを選択する第1のス
    テート選択手段と、前記対象が通過したステートをステ
    ート番号の履歴として記憶するステート履歴記憶手段
    と、前記第1のステート選択手段によって選択されたス
    テート番号と前記ステート履歴記憶手段に記憶されてい
    るステート番号とが一致したと判断した時、経路ループ
    したとしてループしたステート番号履歴を削除する経路
    ループ削除手段と、前記各ステートに配置されたメンバ
    ーシップ関数と前記対象の現在位置とからファジィ演算
    処理することにより、前記対象の行動を決定し、実行す
    る行動決定手段と、前記対象が次のステートに遷移する
    際、障害物を回避する障害物回避手段と、前記対象がゴ
    ール点に到達するまでの前記対象の行動結果をスタート
    点からゴール点までの走行距離によって評価する行動評
    価手段と、前記行動評価結果に応じた報酬を、通過した
    各ステートに配置されたすべてのメンバーシップ関数の
    パラメータに分配する報酬分配手段と、前記各手段を順
    次繰返し処理することで、前記対象が最適の行動を取る
    ように学習を収束させる学習収束手段とを備えたことを
    特徴とする請求項2記載の経路学習装置。
  4. 【請求項4】 前記経路移動処理部は、前記対象が現
    在のステートから次のステートに遷移する際、その近傍
    に配置されたステートの中から1つを選択する第2のス
    テート選択手段と、前記各ステートに配置されたメンバ
    ーシップ関数と前記対象の現在位置とからファジィ演算
    処理することにより、前記対象の行動を決定し、実行す
    る行動決定手段と、前記対象が次のステートに遷移する
    際、障害物を回避する障害物回避手段とを備えたことを
    特徴とする請求項2記載の経路学習装置。
  5. 【請求項5】 前記初期化処理手段におけるメンバー
    シップ関数の形状が、円錐形状であることを特徴とする
    請求項2記載の経路学習装置。
  6. 【請求項6】 前記第1のステート選択手段は、重み
    付き確率を用いて次に移動するステートを選択すること
    を特徴とする請求項2記載の経路学習装置。
  7. 【請求項7】 前記第1のステート選択手段により選
    択された1つステートの中で、前記対象がゴール点また
    は移動する方向の各ステートに配置されたメンバーシッ
    プ関数のパラメータに対して重み付き確率の重みを加算
    することを特徴とする請求項6記載の経路学習装置。
  8. 【請求項8】 前記障害物回避手段は、障害物の回避
    は障害物の左右両端のうち近い方を前記対象の方向とす
    ることを特徴とする請求項2記載の経路学習装置。
  9. 【請求項9】 前記学習収束手段は、通過したステー
    トがすべて最大規定値に達した時に、学習を収束するこ
    とを特徴とする請求項2記載の経路学習装置。
JP6184523A 1994-08-05 1994-08-05 経路学習方法及び装置 Pending JPH0850548A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6184523A JPH0850548A (ja) 1994-08-05 1994-08-05 経路学習方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6184523A JPH0850548A (ja) 1994-08-05 1994-08-05 経路学習方法及び装置

Publications (1)

Publication Number Publication Date
JPH0850548A true JPH0850548A (ja) 1996-02-20

Family

ID=16154697

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6184523A Pending JPH0850548A (ja) 1994-08-05 1994-08-05 経路学習方法及び装置

Country Status (1)

Country Link
JP (1) JPH0850548A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1040231A (ja) * 1996-07-24 1998-02-13 Fujitsu Ltd 入力パターンの変化の連続性を考慮したトポロジカル・マップ演算装置及び方法
JP2008052473A (ja) * 2006-08-24 2008-03-06 Nippon Telegr & Teleph Corp <Ntt> 水中ロボットの動作制御方法、装置、プログラム及びその記録媒体
CN109085825A (zh) * 2018-07-13 2018-12-25 安徽灵图壹智能科技有限公司 一种无人驾驶矿车采矿最优路径选择方法
WO2020203342A1 (ja) * 2019-04-02 2020-10-08 ソニー株式会社 制御装置、制御方法、およびプログラム
WO2020203341A1 (ja) * 2019-04-02 2020-10-08 ソニー株式会社 制御装置、制御方法、およびプログラム
JP2020194432A (ja) * 2019-05-29 2020-12-03 トヨタ自動車株式会社 機械学習方法および移動ロボット
CN112161630A (zh) * 2020-10-12 2021-01-01 北京化工大学 适用于大型仓储***的agv在线无碰撞路径规划方法
CN116700258A (zh) * 2023-06-13 2023-09-05 重庆市荣冠科技有限公司 一种基于人工势场法和强化学习的智能车路径规划方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1040231A (ja) * 1996-07-24 1998-02-13 Fujitsu Ltd 入力パターンの変化の連続性を考慮したトポロジカル・マップ演算装置及び方法
JP2008052473A (ja) * 2006-08-24 2008-03-06 Nippon Telegr & Teleph Corp <Ntt> 水中ロボットの動作制御方法、装置、プログラム及びその記録媒体
CN109085825A (zh) * 2018-07-13 2018-12-25 安徽灵图壹智能科技有限公司 一种无人驾驶矿车采矿最优路径选择方法
WO2020203342A1 (ja) * 2019-04-02 2020-10-08 ソニー株式会社 制御装置、制御方法、およびプログラム
WO2020203341A1 (ja) * 2019-04-02 2020-10-08 ソニー株式会社 制御装置、制御方法、およびプログラム
JP2020194432A (ja) * 2019-05-29 2020-12-03 トヨタ自動車株式会社 機械学習方法および移動ロボット
CN112161630A (zh) * 2020-10-12 2021-01-01 北京化工大学 适用于大型仓储***的agv在线无碰撞路径规划方法
CN112161630B (zh) * 2020-10-12 2022-07-15 北京化工大学 适用于大型仓储***的agv在线无碰撞路径规划方法
CN116700258A (zh) * 2023-06-13 2023-09-05 重庆市荣冠科技有限公司 一种基于人工势场法和强化学习的智能车路径规划方法
CN116700258B (zh) * 2023-06-13 2024-05-03 万基泰科工集团数字城市科技有限公司 一种基于人工势场法和强化学习的智能车路径规划方法

Similar Documents

Publication Publication Date Title
CN112179367B (zh) 一种基于深度强化学习的智能体自主导航方法
Sulzberger et al. FUN: Optimization of fuzzy rule based systems using neural networks
Brys et al. Multi-objectivization of reinforcement learning problems by reward shaping
Hagras et al. Learning and adaptation of an intelligent mobile robot navigator operating in unstructured environment based on a novel online Fuzzy–Genetic system
CN112362066A (zh) 一种基于改进的深度强化学习的路径规划方法
Victerpaul et al. Path planning of autonomous mobile robots: A survey and comparison
CN110632922A (zh) 一种基于蝙蝠算法与强化学习的路径规划方法
Kantasewi et al. Multi Q-table Q-learning
JPH0850548A (ja) 経路学習方法及び装置
Shi et al. Enhanced spatial attention graph for motion planning in crowded, partially observable environments
Sheppard et al. A teaching strategy for memory-based control
CN115933669A (zh) 基于改进蝴蝶优化算法的移动机器人路径规划方法
Nguyen et al. Disturbances in influence of a shepherding agent is more impactful than sensorial noise during swarm guidance
Bi et al. Hierarchical path planning approach for mobile robot navigation under the dynamic environment
Strauss et al. Autonomous navigation based on a Q-learning algorithm for a robot in a real environment
Li et al. Q-learning based method of adaptive path planning for mobile robot
Tan et al. A novel ga-based fuzzy controller for mobile robots in dynamic environments with moving obstacles
Shiltagh et al. A comparative study: Modified particle swarm optimization and modified genetic algorithm for global mobile robot navigation
bin Kamarulariffin et al. Improving Deep Reinforcement Learning Training Convergence using Fuzzy Logic for Autonomous Mobile Robot Navigation.
Pipe et al. Balancing exploration with exploitation-solving mazes with real numbered search spaces
Miyashita et al. Flexible Exploration Strategies in Multi-Agent Reinforcement Learning for Instability by Mutual Learning
da Costa et al. Omnidirectional mobile robots navigation: A joint approach combining reinforcement learning and knowledge-based systems
Duc et al. Hierarchical pathfinding and ai-based learning approach in strategy game design
Cheng et al. Autonomous Mapless Navigation via Maximum Entropy Learning
Kucharski et al. Real-World Projectile Catching with Reinforcement Learning: Empirical Analysis using Discretized Simulations