JP6952767B2 - ロボットエージェントのための制御ポリシー - Google Patents
ロボットエージェントのための制御ポリシー Download PDFInfo
- Publication number
- JP6952767B2 JP6952767B2 JP2019514296A JP2019514296A JP6952767B2 JP 6952767 B2 JP6952767 B2 JP 6952767B2 JP 2019514296 A JP2019514296 A JP 2019514296A JP 2019514296 A JP2019514296 A JP 2019514296A JP 6952767 B2 JP6952767 B2 JP 6952767B2
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- image
- action
- robot agent
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009471 action Effects 0.000 claims description 105
- 238000013528 artificial neural network Methods 0.000 claims description 50
- 238000000034 method Methods 0.000 claims description 48
- 238000009826 distribution Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 8
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 230000003542 behavioural effect Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 description 19
- 238000004590 computer program Methods 0.000 description 13
- 230000006399 behavior Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000010399 physical interaction Effects 0.000 description 2
- 238000001556 precipitation Methods 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000009827 uniform distribution Methods 0.000 description 2
- 241000009334 Singa Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/008—Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1661—Programme controls characterised by programming, planning systems for manipulators characterised by task planning, object-oriented languages
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Image Analysis (AREA)
- Manipulator (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Description
本出願は、2016年9月15日に出願された米国仮出願第62/395,329号の優先権を主張するものである。先の出願の開示は、本出願の開示の一部と考えられ、本出願の開示に参照により組み込まれる。
102 ロボットエージェント
104 現実の環境
106 コントローラ
108 学習された予測モデル
110 次画像予測ニューラルネットワーク
112 データ
114 目標の場所
116 現在の画像
118 次の行動シーケンス
200 プロセス
300 プロセス
Claims (13)
1つまたは複数の物体の各々に関して、現実の環境とインタラクションするロボットエージェントが前記物体を移動させるべきそれぞれの目標の場所を特定するデータを受信するステップと、
前記現実の環境の現在の状態の現在の画像を受信するステップ、
現在の行動および前記ロボットエージェントによって実行されるべき行動に基づいて将来の画像を予測する次画像予測ニューラルネットワークを使用して前記ロボットエージェントによって実行されるべき次の行動シーケンスを前記現在の画像から決定するステップであって、
前記次のシーケンスが、前記環境が前記現在の状態にあるときから開始して前記ロボットエージェントによって実行される場合に、前記1つまたは複数の物体が前記それぞれの目標の場所に移動させられる結果をもたらす可能性が最も高いであろう複数の候補シーケンスのうちのシーケンスであり、
前記次のシーケンスを決定するステップが、前記候補シーケンスのそれぞれについて、前記候補シーケンスにおける後続の行動と前記行動に対して前記ニューラルネットワークによって生成された次画像とを次画像予測ニューラルネットワークに再帰的に入力として与え、次画像のそれぞれが、前記次画像における各ピクセルが前記現在の画像の各ピクセルから来る確率を与えるフローマップに関連付けられ、それにより前記ロボットエージェントが前記環境におけるすべての行動を実施した場合に前記環境における予測される最終状態の画像である前記候補シーケンスの最終的な次画像に対する最終的なフローマップを決定する、
ステップ、ならびに
前記次の行動シーケンスを実行するように前記ロボットエージェントに指示するステップ
を繰り返し実行することによって、前記ロボットエージェントに前記1つまたは複数の物体を1つまたは複数の目標の場所に移動させるステップと
を含む、方法。
をさらに含む、請求項1または2に記載の方法。
前記ロボットエージェントによって実行されている現在の行動シーケンスを中断し、かつ前記次の行動シーケンスを実行することを開始するように前記ロボットエージェントに指示するステップ
を含む、請求項1から3のいずれか一項に記載の方法。
少なくとも現在の画像および入力行動を入力として受け取り、
前記環境が前記現在の状態にある場合において前記ロボットエージェントが前記入力行動を実行するときに、前記環境の予測される次の状態の画像である次画像を生成するために前記入力を処理する
ようにトレーニングされた再帰型ニューラルネットワークであり、
前記次画像を生成することの一部として、前記再帰型ニューラルネットワークが、前記次画像内の複数のピクセルの各々に関して、前記ピクセルが前記現在の画像内の複数のピクセルの各々から移動したそれぞれの予測される尤度を特定するフローマップを生成する、
請求項1から4のいずれか一項に記載の方法。
前記1つまたは複数の物体を示す前記現在の画像内の1つまたは複数のピクセルを前記環境内に現在置かれているものとして決定すること
を含む、請求項6に記載の方法。
を含む、請求項6または7に記載の方法。
をさらに含む、請求項1から8のいずれか一項に記載の方法。
交差エントロピー技法を使用してサンプリングの複数の反復を実行するステップ
を含む、請求項9に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662395329P | 2016-09-15 | 2016-09-15 | |
US62/395,329 | 2016-09-15 | ||
PCT/US2017/051751 WO2018053246A1 (en) | 2016-09-15 | 2017-09-15 | Control policies for robotic agents |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019530925A JP2019530925A (ja) | 2019-10-24 |
JP6952767B2 true JP6952767B2 (ja) | 2021-10-20 |
Family
ID=59997455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019514296A Active JP6952767B2 (ja) | 2016-09-15 | 2017-09-15 | ロボットエージェントのための制御ポリシー |
Country Status (6)
Country | Link |
---|---|
US (2) | US11853876B2 (ja) |
EP (1) | EP3497628A1 (ja) |
JP (1) | JP6952767B2 (ja) |
KR (1) | KR102590411B1 (ja) |
CN (1) | CN109844771B (ja) |
WO (1) | WO2018053246A1 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11604941B1 (en) * | 2017-10-27 | 2023-03-14 | Deepmind Technologies Limited | Training action-selection neural networks from demonstrations using multiple losses |
JP7122821B2 (ja) * | 2017-12-15 | 2022-08-22 | 川崎重工業株式会社 | ロボットシステム及びロボット制御方法 |
US20210034969A1 (en) * | 2018-03-09 | 2021-02-04 | Deepmind Technologies Limited | Training an unsupervised memory-based prediction system to learn compressed representations of an environment |
US11518040B2 (en) | 2018-07-27 | 2022-12-06 | Autodesk, Inc. | Generative design techniques for robot behavior |
US20200151576A1 (en) * | 2018-11-08 | 2020-05-14 | Uber Technologies, Inc. | Training adaptable neural networks based on evolvability search |
KR102313160B1 (ko) * | 2019-05-31 | 2021-10-19 | 동국대학교 산학협력단 | 동작 정보를 이용한 고해상도 동영상 생성 방법 및 장치 |
JP7295421B2 (ja) * | 2019-08-22 | 2023-06-21 | オムロン株式会社 | 制御装置及び制御方法 |
US11685045B1 (en) * | 2019-09-09 | 2023-06-27 | X Development Llc | Asynchronous robotic control using most recently selected robotic action data |
CN112669612B (zh) * | 2019-10-15 | 2023-03-28 | 阿里巴巴集团控股有限公司 | 图像录制、回放方法、装置及计算机*** |
CN110721470B (zh) * | 2019-10-25 | 2022-11-11 | 网易(杭州)网络有限公司 | 虚拟对象移动行为的控制方法、装置及电子设备 |
JP7449770B2 (ja) * | 2020-04-28 | 2024-03-14 | 三菱重工業株式会社 | 端末、制御システム、制御方法及びプログラム |
CN113807460B (zh) * | 2021-09-27 | 2024-05-14 | 北京地平线机器人技术研发有限公司 | 智能体动作的确定方法和装置、电子设备和介质 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3210473B2 (ja) * | 1993-03-11 | 2001-09-17 | 株式会社東芝 | ビジュアルフィードバック制御装置 |
US5805733A (en) * | 1994-12-12 | 1998-09-08 | Apple Computer, Inc. | Method and system for detecting scenes and summarizing video sequences |
JP2002059384A (ja) * | 2000-08-22 | 2002-02-26 | Sony Corp | ロボットのための学習システム及び学習方法 |
JP2003080484A (ja) * | 2001-09-07 | 2003-03-18 | Tomy Co Ltd | 動作反応玩具 |
JP4661074B2 (ja) | 2004-04-07 | 2011-03-30 | ソニー株式会社 | 情報処理システム、情報処理方法、並びにロボット装置 |
US8150151B2 (en) * | 2005-05-12 | 2012-04-03 | Bracco Imaging S.P.A. | Method for coding pixels or voxels of a digital image and a method for processing digital images |
CN101266689B (zh) * | 2008-04-23 | 2010-09-29 | 北京中星微电子有限公司 | 一种运动目标检测方法及装置 |
JP4710932B2 (ja) * | 2008-07-09 | 2011-06-29 | ソニー株式会社 | 学習装置、学習方法、およびプログラム |
TWI388956B (zh) * | 2009-05-20 | 2013-03-11 | Univ Nat Taiwan Science Tech | 行動機器人與其目標物處理路徑的規劃方法 |
CN101624097B (zh) * | 2009-05-27 | 2011-07-27 | 北京航空航天大学 | 自由基座对接器的自主最优轨迹跟踪设计方法 |
KR101677634B1 (ko) * | 2010-07-12 | 2016-11-18 | 엘지전자 주식회사 | 로봇 청소기 및 이의 제어 방법 |
US8761933B2 (en) * | 2011-08-02 | 2014-06-24 | Microsoft Corporation | Finding a called party |
JP2013120465A (ja) * | 2011-12-07 | 2013-06-17 | Sony Corp | 情報処理装置、情報処理方法、及び、プログラム |
US9463571B2 (en) * | 2013-11-01 | 2016-10-11 | Brian Corporation | Apparatus and methods for online training of robots |
WO2015192263A1 (en) * | 2014-06-16 | 2015-12-23 | Xiaoou Tang | A method and a system for face verification |
US9811756B2 (en) * | 2015-02-23 | 2017-11-07 | Mitsubishi Electric Research Laboratories, Inc. | Method for labeling images of street scenes |
-
2017
- 2017-09-15 EP EP17777714.1A patent/EP3497628A1/en active Pending
- 2017-09-15 KR KR1020197010314A patent/KR102590411B1/ko active IP Right Grant
- 2017-09-15 JP JP2019514296A patent/JP6952767B2/ja active Active
- 2017-09-15 CN CN201780063614.6A patent/CN109844771B/zh active Active
- 2017-09-15 US US16/332,961 patent/US11853876B2/en active Active
- 2017-09-15 WO PCT/US2017/051751 patent/WO2018053246A1/en active Search and Examination
-
2023
- 2023-11-13 US US18/389,022 patent/US20240078429A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP3497628A1 (en) | 2019-06-19 |
KR20190044683A (ko) | 2019-04-30 |
CN109844771A (zh) | 2019-06-04 |
US20240078429A1 (en) | 2024-03-07 |
CN109844771B (zh) | 2024-04-23 |
JP2019530925A (ja) | 2019-10-24 |
US20190251437A1 (en) | 2019-08-15 |
US11853876B2 (en) | 2023-12-26 |
KR102590411B1 (ko) | 2023-10-17 |
WO2018053246A1 (en) | 2018-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6952767B2 (ja) | ロボットエージェントのための制御ポリシー | |
US11783182B2 (en) | Asynchronous deep reinforcement learning | |
JP6935550B2 (ja) | 強化学習を使用した環境ナビゲーション | |
CN110692066B (zh) | 使用多模态输入选择动作 | |
JP7080811B2 (ja) | 強化学習ニューラルネットワークのトレーニング | |
US20170228662A1 (en) | Reinforcement learning using advantage estimates | |
CN110114784B (zh) | 递归环境预测器及其方法 | |
US20190354813A1 (en) | Data-efficient reinforcement learning for continuous control tasks | |
JP7354460B2 (ja) | ブートストラップされた潜在性の予測を使用するエージェント制御のための学習環境表現 | |
US20200234117A1 (en) | Batched reinforcement learning | |
EP4398159A2 (en) | Asynchronous deep reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190510 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190510 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200423 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200511 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200729 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210402 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210830 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210928 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6952767 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |