KR102461732B1 - 강화 학습 방법 및 장치 - Google Patents
강화 학습 방법 및 장치 Download PDFInfo
- Publication number
- KR102461732B1 KR102461732B1 KR1020190086015A KR20190086015A KR102461732B1 KR 102461732 B1 KR102461732 B1 KR 102461732B1 KR 1020190086015 A KR1020190086015 A KR 1020190086015A KR 20190086015 A KR20190086015 A KR 20190086015A KR 102461732 B1 KR102461732 B1 KR 102461732B1
- Authority
- KR
- South Korea
- Prior art keywords
- state
- reinforcement
- state value
- value
- standard deviation
- Prior art date
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 189
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000010801 machine learning Methods 0.000 title 1
- 238000007619 statistical method Methods 0.000 claims abstract description 56
- 230000006399 behavior Effects 0.000 claims abstract description 28
- 230000002093 peripheral effect Effects 0.000 claims description 31
- 238000004891 communication Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/32—Operator till task planning
- G05B2219/32334—Use of reinforcement learning, agent acts, receives reward
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/33—Director till display
- G05B2219/33056—Reinforcement learning, agent acts, receives reward, emotion, action selective
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/34—Director, elements to supervisory
- G05B2219/34082—Learning, online reinforcement learning
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/40—Robotics, robotics mapping to robotics vision
- G05B2219/40499—Reinforcement learning algorithm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Feedback Control In General (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Algebra (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
Abstract
환경의 상태 정보를 수집하고, 수집된 상태에 대해 통계 분석을 수행하는 단계, 통계 분석의 분석 결과를 바탕으로 학습 단계에서 입력되는 제1 상태의 상태 값 및 추론 단계에서 입력되는 제2 상태의 상태 값을 결정하는 단계, 제1 상태 값에 따라 서로 다른 관점의 강화 학습을 수행하는 복수의 강화 학습기를 이용하여 강화 학습을 수행하는 단계, 및 제2 상태 값에 따라 복수의 강화 학습기에서 각각 결정된 행동 중 하나를 선택하고, 선택된 행동을 환경에 적용하는 단계를 통해 배타적 강화 학습을 수행하는 에이전트 장치 및 강화 학습 방법이 제공된다.
Description
본 기재는 상호 배타적으로 강화 학습을 수행하는 장치 및 방법에 관한 것이다.
강화 학습은 특정 환경 안에서 정의되는 에이전트가 환경의 현재 상태를 인식하고, 상태 인식에 기반하여 선택 가능한 행동 중 환경으로부터 제공되는 보상을 최대화하는 행동 또는 행동의 순서를 선택하는 방법이다. 종래의 강화 학습은 상태와 보상을 단일 관점에서 평가하여 행동을 결정하는 정책을 학습하는 방식으로 진행된다. 따라서, 상태 변화의 범위가 넓거나 또는 보상이 구체적이지 못하면, 강화 학습이 오래 걸리거나 완료되지 못할 수 있다.
한 실시예는, 배타적 강화 학습을 수행하는 에이전트 장치를 제공한다.
다른 실시예는, 에이전트 장치에 의한 배타적 강화 학습 방법을 제공한다.
또 다른 실시예는, 배타적 강화 학습을 수행하는 에이전트 장치를 제공한다.
한 실시예에 따르면, 배타적 강화 학습을 수행하는 에이전트 장치가 제공된다. 상기 에이전트 장치는, 환경의 상태 정보를 수집하고, 수집된 표본 상태에 대해 통계 분석을 수행하는 통계 분석부, 통계 분석의 분석 결과를 바탕으로 학습 단계에서 입력되는 제1 상태의 상태 값 및 추론 단계에서 입력되는 제2 상태의 상태 값을 결정하는 상태 값 판별부, 제1 상태 값에 따라 서로 다른 관점의 강화 학습을 수행하는 복수의 강화 학습기를 포함하는 강화 학습부, 및 제2 상태 값에 따라 복수의 강화 학습기에서 각각 결정된 행동 중 하나를 선택하는 행동 선택부를 포함한다.
상기 에이전트 장치에서 통계 분석의 분석 결과는 수집된 표본 상태의 평균 및 표준편차를 포함하고, 상태 값 판별부는, 제1 상태의 절대값이 평균 및 표준편차의 합보다 크면 제1 상태의 상태 값을 1로 결정하고, 제1 상태의 절대값이 평균 및 표준편차의 합보다 제1 상태의 상태 값을 0으로 결정할 수 있다.
상기 에이전트 장치에서 복수의 강화 학습기는, 중심 관점 강화 학습기 및 주변 관점 강화 학습기를 포함하고, 강화 학습부는 제1 상태의 상태 값이 1일 때 주변 관점 강화 학습기를 통해 강화 학습을 수행하고, 제1 상태의 상태 값이 0일 때 중심 관점 강화 학습기를 통해 강화 학습을 수행할 수 있다.
상기 에이전트 장치에서 통계 분석의 분석 결과는 수집된 표본 상태의 평균 및 표준편차를 포함하고, 상태 값 판별부는, 제2 상태의 절대값이 평균 및 표준편차의 합보다 크면 제2 상태의 상태 값을 1로 결정하고, 제2 상태의 절대값이 평균 및 표준편차의 합보다 제2 상태의 상태 값을 0으로 결정하고, 복수의 강화 학습기는, 중심 관점 강화 학습기 및 주변 관점 강화 학습기를 포함하고, 강화 학습부는 제2 상태의 상태 값이 1일 때 주변 관점 강화 학습기에 의해 결정된 행동을 선택하고, 제2 상태의 상태 값이 0일 때 중심 관점 강화 학습기에 의해 결정된 행동을 선택할 수 있다.
상기 에이전트 장치에서 통계 분석의 분석 결과는 수집된 표본 상태의 평균 및 표준편차를 포함하고, 상태 값 판별부는, 평균 및 표준편차를 바탕으로 정규분포 특성 그래프를 생성하고, 정규분포 특성 그래프를 이용하여 제1 상태의 상태 값 및 제2 상태의 상태 값을 결정할 수 있다.
다른 실시예에 따르면 에이전트 장치에 의한 배타적 강화 학습 방법이 제공된다. 상기 배타적 강화 학습 방법은 환경의 상태 정보를 수집하고, 수집된 상태에 대해 통계 분석을 수행하는 단계, 통계 분석의 분석 결과를 바탕으로 학습 단계에서 입력되는 제1 상태의 상태 값 및 추론 단계에서 입력되는 제2 상태의 상태 값을 결정하는 단계, 제1 상태 값에 따라 서로 다른 관점의 강화 학습을 수행하는 복수의 강화 학습기를 이용하여 강화 학습을 수행하는 단계, 및 제2 상태 값에 따라 복수의 강화 학습기에서 각각 결정된 행동 중 하나를 선택하고, 선택된 행동을 환경에 적용하는 단계를 포함한다.
상기 배타적 강화 학습 방법에서 통계 분석의 분석 결과는 수집된 표본 상태의 평균 및 표준편차를 포함하고, 통계 분석의 분석 결과를 바탕으로 학습 단계에서 입력되는 제1 상태의 상태 값 및 추론 단계에서 입력되는 제2 상태의 상태 값을 결정하는 단계는, 제1 상태의 절대값이 평균 및 표준편차의 합보다 크면 제1 상태의 상태 값을 1로 결정하고, 제1 상태의 절대값이 평균 및 표준편차의 합보다 제1 상태의 상태 값을 0으로 결정하는 단계를 포함할 수 있다.
상기 배타적 강화 학습 방법에서 복수의 강화 학습기는, 중심 관점 강화 학습기 및 주변 관점 강화 학습기를 포함하고, 제1 상태 값에 따라 서로 다른 관점의 강화 학습을 수행하는 복수의 강화 학습기를 이용하여 강화 학습을 수행하는 단계는, 제1 상태의 상태 값이 1일 때 주변 관점 강화 학습기를 통해 강화 학습을 수행하고, 제1 상태의 상태 값이 0일 때 중심 관점 강화 학습기를 통해 강화 학습을 수행하는 단계를 포함할 수 있다.
상기 배타적 강화 학습 방법에서 통계 분석의 분석 결과는 수집된 표본 상태의 평균 및 표준편차를 포함하고, 통계 분석의 분석 결과를 바탕으로 학습 단계에서 입력되는 제1 상태의 상태 값 및 추론 단계에서 입력되는 제2 상태의 상태 값을 결정하는 단계는, 제2 상태의 절대값이 평균 및 표준편차의 합보다 크면 제2 상태의 상태 값을 1로 결정하고, 제2 상태의 절대값이 평균 및 표준편차의 합보다 제2 상태의 상태 값을 0으로 결정하는 단계를 포함하고, 복수의 강화 학습기는, 중심 관점 강화 학습기 및 주변 관점 강화 학습기를 포함하고, 제1 상태 값에 따라 서로 다른 관점의 강화 학습을 수행하는 복수의 강화 학습기를 이용하여 강화 학습을 수행하는 단계는, 제2 상태의 상태 값이 1일 때 주변 관점 강화 학습기에 의해 결정된 행동을 선택하고, 제2 상태의 상태 값이 0일 때 중심 관점 강화 학습기에 의해 결정된 행동을 선택하는 단계를 포함할 수 있다.
상기 배타적 강화 학습 방법에서 통계 분석의 분석 결과는 수집된 표본 상태의 평균 및 표준편차를 포함하고, 통계 분석의 분석 결과를 바탕으로 학습 단계에서 입력되는 제1 상태의 상태 값 및 추론 단계에서 입력되는 제2 상태의 상태 값을 결정하는 단계는, 평균 및 표준편차를 바탕으로 정규분포 특성 그래프를 생성하고, 정규분포 특성 그래프를 이용하여 제1 상태의 상태 값 및 제2 상태의 상태 값을 결정하는 단계를 포함할 수 있다.
또 다른 실시예에 따르면, 배타적 강화 학습을 수행하는 에이전트 장치가 제공된다. 상기 에이전트 장치는, 프로세서, 메모리, 및 통신 인터페이스를 포함하고, 프로세서는 메모리에 포함된 프로그램을 실행하여, 통신 인터페이스를 통해 환경의 상태 정보를 수집하고, 수집된 상태에 대해 통계 분석을 수행하는 단계, 통계 분석의 분석 결과를 바탕으로 학습 단계에서 입력되는 제1 상태의 상태 값 및 추론 단계에서 입력되는 제2 상태의 상태 값을 결정하는 단계, 제1 상태 값에 따라 서로 다른 관점의 강화 학습을 수행하는 복수의 강화 학습기 중 하나의 강화 학습기를 이용하여 강화 학습을 수행하는 단계, 및 제2 상태 값에 따라 복수의 강화 학습기에서 각각 결정된 행동 중 하나를 선택하고, 선택된 행동을 환경에 적용하는 단계를 수행한다.
상기 에이전트 장치에서 통계 분석의 분석 결과는 수집된 표본 상태의 평균 및 표준편차를 포함하고, 프로세서는 통계 분석의 분석 결과를 바탕으로 학습 단계에서 입력되는 제1 상태의 상태 값 및 추론 단계에서 입력되는 제2 상태의 상태 값을 결정하는 단계를 수행할 때, 제1 상태의 절대값이 평균 및 표준편차의 합보다 크면 제1 상태의 상태 값을 1로 결정하고, 제1 상태의 절대값이 평균 및 표준편차의 합보다 제1 상태의 상태 값을 0으로 결정하는 단계를 수행할 수 있다.
상기 에이전트 장치에서 복수의 강화 학습기는, 중심 관점 강화 학습기 및 주변 관점 강화 학습기를 포함하고, 프로세서는 제1 상태 값에 따라 서로 다른 관점의 강화 학습을 수행하는 복수의 강화 학습기를 이용하여 강화 학습을 수행하는 단계를 수행할 때, 제1 상태의 상태 값이 1일 때 주변 관점 강화 학습기를 통해 강화 학습을 수행하고, 제1 상태의 상태 값이 0일 때 중심 관점 강화 학습기를 통해 강화 학습을 수행하는 단계를 수행할 수 있다.
상기 에이전트 장치에서 통계 분석의 분석 결과는 수집된 표본 상태의 평균 및 표준편차를 포함하고, 프로세서는 통계 분석의 분석 결과를 바탕으로 학습 단계에서 입력되는 제1 상태의 상태 값 및 추론 단계에서 입력되는 제2 상태의 상태 값을 결정하는 단계를 수행할 때, 제2 상태의 절대값이 평균 및 표준편차의 합보다 크면 제2 상태의 상태 값을 1로 결정하고, 제2 상태의 절대값이 평균 및 표준편차의 합보다 제2 상태의 상태 값을 0으로 결정하는 단계를 포함하고, 복수의 강화 학습기는, 중심 관점 강화 학습기 및 주변 관점 강화 학습기를 포함하고, 프로세서는 제1 상태 값에 따라 서로 다른 관점의 강화 학습을 수행하는 복수의 강화 학습기를 이용하여 강화 학습을 수행하는 단계를 수행할 때, 제2 상태의 상태 값이 1일 때 주변 관점 강화 학습기에 의해 결정된 행동을 선택하고, 제2 상태의 상태 값이 0일 때 중심 관점 강화 학습기에 의해 결정된 행동을 선택하는 단계를 수행할 수 있다.
상기 에이전트 장치에서 통계 분석의 분석 결과는 수집된 표본 상태의 평균 및 표준편차를 포함하고, 프로세서는 통계 분석의 분석 결과를 바탕으로 학습 단계에서 입력되는 제1 상태의 상태 값 및 추론 단계에서 입력되는 제2 상태의 상태 값을 결정하는 단계를 수행할 때, 평균 및 표준편차를 바탕으로 정규분포 특성 그래프를 생성하고, 정규분포 특성 그래프를 이용하여 제1 상태의 상태 값 및 제2 상태의 상태 값을 결정하는 단계를 수행할 수 있다.
상태의 통계적 분석을 바탕으로 중심 관점 및 주변 관점으로 이원화하여 강화 학습을 수행하여, 실제 환경의 다양한 변화에도 유연하게 대응하고 적절한 행동을 도출할 수 있다. 또한 행동 적용 - 보상 수신으로 구성되는 강화 학습 사이클의 횟수를 줄여서 강화 학습을 수행하는 에이전트의 컴퓨팅 자원의 소모를 줄일 수 있다.
도 1은 에이전트의 강화 학습 방법을 나타낸 개념도이다.
도 2는 한 실시예에 따른 에이전트 장치의 배타적 강화 학습 방법을 나타낸 개념도이다.
도 3은 한 실시예에 따른 상태의 정규분포 특성 그래프이다.
도 4는 한 실시예에 따른 에이전트 장치의 배타적 강화 학습 방법을 나타낸 흐름도이다.
도 5는 한 실시예에 따른 배타적 강화 학습을 수행하는 에이전트 장치를 나타낸 블록도이다.
도 2는 한 실시예에 따른 에이전트 장치의 배타적 강화 학습 방법을 나타낸 개념도이다.
도 3은 한 실시예에 따른 상태의 정규분포 특성 그래프이다.
도 4는 한 실시예에 따른 에이전트 장치의 배타적 강화 학습 방법을 나타낸 흐름도이다.
도 5는 한 실시예에 따른 배타적 강화 학습을 수행하는 에이전트 장치를 나타낸 블록도이다.
아래에서는 첨부한 도면을 참고로 하여 본 기재의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 기재는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 기재를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
도 1은 에이전트의 강화 학습 방법을 나타낸 개념도이다.
도 1을 참조하면, 에이전트(B2)는 환경(environment, B1)의 상태(state, D1)를 인식하고, 환경에 대해 적용할 행동(action, D3)을 결정하는 정책(policy, BX1)을 강화 학습한다(single perspective reinforcement learning). 이후 에이전트는 강화 학습의 결과에 기반하여 정책에 따라 행동을 결정하고, 이때 행동은 환경으로부터의 보상을 최대화할 수 있도록 에이전트에 의해 선택된다. 에이전트는 선택된 행동을 환경에 적용하여 환경으로부터 보상(reward, D2)을 수신한다.
이때 환경으로부터 입력되는 상태의 변화가 정규 분포 특성을 가질 때, 대부분(약 68.2%, 표준 분포표의 ±1σ 이내)의 상태 변화 학습 데이터는 평균(μ) 및 표준편차(±1σ) 이내에서 수집될 수 있다. 따라서 이러한 학습 데이터만을 사용하여 강화 학습이 수행되면, 실제 환경의 상태가 다양하게 변화할 때(예를 들어, 평균 및 표준편차를 벗어나는 상태 변화가 발생할 때 등), 그러한 상태 변화에 대해서는 학습이 잘 수행되지 않았으므로, 에이전트에 의해 결정된 행동의 정확도가 낮아질 수 있다.
도 2는 한 실시예에 따른 에이전트 장치의 배타적 강화 학습 방법을 나타낸 개념도이고, 도 3은 한 실시예에 따른 상태의 정규분포 특성 그래프이다.
도 2를 참조하면, 한 실시예에 따른 에이전트 장치(100)는 통계 분석부(110), 상태 값 판별부(120), 행동 선택부(130), 및 강화 학습부(140)를 포함한다. 강화 학습부(140)는 중심 관점 강화 학습기(141) 및 주변 관점 강화 학습기(142)를 포함한다.
통계 분석부(110)는 환경으로부터 입력되는 상태를 통계적으로 분석하고, 상태의 평균 및 표준편차를 계산한다. 평균 및 표준편차는 상태 값을 판별하기 위해 정규분포 특성 그래프로 시각화될 수 있다. 환경의 상태가 정량적으로 수치화되면, 수치화된 상태는 일반적으로 정규분포(normal distribution)의 특성을 가질 수 있다. 한 실시예에 따른 에이전트 장치(100)의 통계 분석부(110)는 배타적 관점의 강화 학습을 수행하기 위한 학습 데이터의 전처리로서, 학습 데이터로서의 환경의 상태를 통계적으로 분석하여 상태의 평균 및 표준편차를 계산할 수 있다. 이때 상태의 평균 및 표준편차는 정규분포 특성 그래프의 형태로 시각화될 수 있다. 이때 환경이 에이전트에게 제공하는 보상은, 수행된 행동에 대한 즉시 보상, 수행된 복수의 행동에 대해 누적된 보상 등을 포함하고, 아래에서 보상은 에이전트가 환경에 적용한 행동에 대한, 통상적인 강화 학습의 보상을 말하며, 본 기재는 이에 한정되지 않는다.
상태 값 판별부(120)는 환경으로부터 입력되는 상태가 정규분포 특성 그래프의 어떤 영역 내에 위치하는지 판단하고, 상태의 정규분포 특성 그래프 내에서의 위치에 따라 강화 학습부(140)를 활성화시키거나 또는 행동 선택부(130)에게 상태 값을 전달한다. 도 2에서 상태 값 판별부(120)는 상태의 절대값과 μ+1σ 간의 크기를 비교한다. 도 2를 참조하면, 상태의 절대값이 μ+1σ 보다 작다면 상태 값은 0으로 결정되고, 상태의 절대값이 μ+1σ 보다 크다면 상태 값은 1로 결정될 수 있다. 도 2에서는 표준편차의 범위가 1σ이지만, 상태의 변화 정도, 환경의 유형에 따라 다른 값으로 결정될 수 있다. 상태가 정규분포 특성 그래프의 ±1σ 안쪽에 위치하면 중심 관점 강화 학습기(141)가 활성화되고, 상태가 정규분포 특성 그래프의 ±1σ 바깥에 위치하면 주변 관점 강화 학습기(142)가 활성화될 수 있다. 즉, 강화 학습 단계에서, 상태 값 판별부(120)는 강화 학습을 위한 환경의 상태가 입력되면 상태의 정규분포 특성 그래프 내에서의 위치를 바탕으로 중심 관점 강화 학습기(141)에 의한 강화 학습이 수행되도록 하거나 또는 주변 관점 강화 학습기(142)에 의한 강화 학습이 수행되도록 할 수 있다.
행동 선택부(130)는 에이전트 장치(100)에서 수행할 행동을 결정하기 위해, 상태 값에 따라 강화 학습부(140)에서 결정된 행동을 선택한다. 도 2를 참조하면, 상태 값이 0일 때 중심 관점 강화 학습기(141)에서 생성된 행동이 선택되고, 상태 값이 1일 때 주변 관점 강화 학습기(142)에서 생성된 행동이 선택된다. 즉, 추론 단계에서, 행동 선택부(130)는 행동이 적용될 환경의 상태의 상태 값에 따라, 중심 관점 강화 학습기(141)에 의해 결정된 행동을 선택하거나 또는 주변 관점 강화 학습기(142)에 의해 결정된 행동을 선택한다.
도 4는 한 실시예에 따른 에이전트 장치의 배타적 강화 학습 방법을 나타낸 흐름도이다.
도 4를 참조하면, 한 실시예에 따른 에이전트 장치(100)의 통계 분석부(110)는 환경의 상태 정보를 수집하고(S110), 수집된 표본 상태에 대해 통계 분석을 수행한다(S120). 통계 분석부(110)는 통계 분석의 분석 결과를 바탕으로 에이전트가 행동을 적용할 환경에 대응하는 정규분포 특성 그래프를 결정할 수 있다. 이때 통계 분석의 결과는 상태의 평균 및 표준편차를 포함한다.
이후 강화 학습 단계에서 에이전트 장치(100)의 상태 값 판별부(120)는 정규분포 특성 그래프를 이용하여 환경의 상태의 상태 값을 결정하고(S130), 상태의 상태 값에 기반하여 중심 관점 강화 학습기(141) 또는 주변 관점 강화 학습기(142)에 의한 강화 학습을 수행한다. 예를 들어, 환경의 상태의 상태 값이 0이면 중심 관점 강화 학습기(141)에 의한 중심 관점 강화 학습이 수행되고(S141), 환경의 상태의 상태 값이 1이면 주변 관점 강화 학습기(142)에 의한 강화 학습이 수행된다(S142).
그리고 추론 단계에서 에이전트 장치(100)의 행동 선택부(130)는 행동을 적용할 환경의 상태의 상태 값에 따라 행동을 선택한다(S150). 예를 들어, 행동 선택부(130)는 환경의 상태의 상태 값이 0이면 중심 관점 강화 학습기(141)에 의해 결정된 행동을 선택하고, 환경의 상태의 상태 값이 1이면 주변 관점 강화 학습기(142)에 의해 결정된 행동을 선택한다. 이후 에이전트 장치(100)는 선택된 행동을 환경에 적용하고, 환경의 상태 변화를 발생시킨 후, 환경으로부터 보상을 수신한다(S160). 이때 보상은 중심 관점 강화 학습기(141) 및 주변 관점 강화 학습기(142)에 각각 입력될 수 있다.
위에서 설명한 대로, 한 실시예에 따른 배타적 강화 학습 방법에 따르면, 상태의 통계적 분석을 바탕으로 중심 관점 및 주변 관점으로 이원화하여 강화 학습이 수행됨으로써 실제 환경의 다양한 변화에도 유연하게 대응하고 적절한 행동이 도출될 수 있다. 이는 높은 복잡도를 갖는 환경 또는 데이터가 부족하여 규칙을 찾기 어려운 환경에 효율적으로 적용될 수 있다. 또한 행동 적용 - 보상 수신으로 구성되는 강화 학습 사이클의 횟수를 줄여서 강화 학습을 수행하는 에이전트의 컴퓨팅 자원의 소모를 줄일 수 있다.
도 5는 한 실시예에 따른 배타적 강화 학습을 수행하는 에이전트 장치를 나타낸 블록도이다.
한 실시예에 따른 에이전트 장치는, 컴퓨터 시스템, 예를 들어 컴퓨터 판독 가능 매체로 구현될 수 있다. 도 5를 참조하면, 컴퓨터 시스템(500)은, 버스(570)를 통해 통신하는 프로세서(510), 메모리(530), 입력 인터페이스 장치(550), 출력 인터페이스 장치(560), 및 저장 장치(540) 중 적어도 하나를 포함할 수 있다. 컴퓨터 시스템(500)은 또한 네트워크에 결합된 통신 장치(520)를 포함할 수 있다. 프로세서(510)는 중앙 처리 장치(central processing unit, CPU)이거나, 또는 메모리(530) 또는 저장 장치(540)에 저장된 명령을 실행하는 반도체 장치일 수 있다. 메모리(530) 및 저장 장치(540)는 다양한 형태의 휘발성 또는 비휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리는 ROM(read only memory) 및 RAM(random access memory)를 포함할 수 있다. 본 기재의 실시예에서 메모리는 프로세서의 내부 또는 외부에 위치할 수 있고, 메모리는 이미 알려진 다양한 수단을 통해 프로세서와 연결될 수 있다. 메모리는 다양한 형태의 휘발성 또는 비휘발성 저장 매체이며, 예를 들어, 메모리는 읽기 전용 메모리(read-only memory, ROM) 또는 랜덤 액세스 메모리(random access memory, RAM)를 포함할 수 있다.
따라서, 본 발명의 실시예는 컴퓨터에 구현된 방법으로서 구현되거나, 컴퓨터 실행 가능 명령이 저장된 비일시적 컴퓨터 판독 가능 매체로서 구현될 수 있다. 한 실시예에서, 프로세서에 의해 실행될 때, 컴퓨터 판독 가능 명령은 본 기재의 적어도 하나의 양상에 따른 방법을 수행할 수 있다.
통신 장치(520)는 유선 신호 또는 무선 신호를 송신 또는 수신할 수 있다.
한편, 본 발명의 실시예는 지금까지 설명한 장치 및/또는 방법을 통해서만 구현되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있으며, 이러한 구현은 상술한 실시예의 기재로부터 본 발명이 속하는 기술 분야의 통상의 기술자라면 쉽게 구현할 수 있는 것이다. 구체적으로, 본 발명의 실시예에 따른 방법(예, 네트워크 관리 방법, 데이터 전송 방법, 전송 스케줄 생성 방법 등)은 다양한 컴퓨터 수단을 통해 수행될 수 있는 프로그램 명령 형태로 구현되어, 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은, 본 발명의 실시예를 위해 특별히 설계되어 구성된 것이거나, 컴퓨터 소프트웨어 분야의 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체는 프로그램 명령을 저장하고 수행하도록 구성된 하드웨어 장치를 포함할 수 있다. 예를 들어, 컴퓨터 판독 가능 기록 매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광 기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 롬(ROM), 램(RAM), 플래시 메모리 등일 수 있다. 프로그램 명령은 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라, 인터프리터 등을 통해 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.
Claims (16)
- 배타적 강화 학습을 수행하는 에이전트 장치로서,
환경의 상태 정보를 수집하고, 수집된 표본 상태에 대해 통계 분석을 수행하는 통계 분석부,
상기 통계 분석의 분석 결과를 바탕으로 학습 단계에서 입력되는 제1 상태의 제1 상태 값 및 추론 단계에서 입력되는 제2 상태의 제2 상태 값을 결정하는 상태 값 판별부,
상기 제1 상태 값에 따라 서로 다른 관점의 강화 학습을 수행하는 복수의 강화 학습기를 포함하는 강화 학습부, 및
상기 제2 상태 값에 따라 상기 복수의 강화 학습기에서 각각 결정된 행동 중 하나를 선택하는 행동 선택부
를 포함하고,
상기 복수의 강화 학습기는, 중심 관점 강화 학습기 및 주변 관점 강화 학습기를 포함하고,
상기 강화 학습부는 상기 제1 상태 값이 1일 때 상기 주변 관점 강화 학습기를 통해 강화 학습을 수행하고, 상기 제1 상태 값이 0일 때 상기 중심 관점 강화 학습기를 통해 강화 학습을 수행하는, 에이전트 장치. - 제1항에서,
상기 통계 분석의 분석 결과는 수집된 표본 상태의 평균 및 표준편차를 포함하고,
상기 상태 값 판별부는, 상기 제1 상태의 절대값이 상기 평균 및 상기 표준편차의 합보다 크면 상기 제1 상태 값을 1로 결정하고, 상기 제1 상태의 절대값이 상기 평균 및 상기 표준편차의 합보다 작거나 같으면 상기 제1 상태 값을 0으로 결정하는, 에이전트 장치. - 삭제
- 제1항에서,
상기 통계 분석의 분석 결과는 수집된 표본 상태의 평균 및 표준편차를 포함하고,
상기 상태 값 판별부는, 상기 제2 상태의 절대값이 상기 평균 및 상기 표준편차의 합보다 크면 상기 제2 상태 값을 1로 결정하고, 상기 제2 상태의 절대값이 상기 평균 및 상기 표준편차의 합보다 작거나 같으면 상기 제2 상태 값을 0으로 결정하는, 에이전트 장치. - 제4항에서,
상기 강화 학습부는 상기 제2 상태 값이 1일 때 상기 주변 관점 강화 학습기에 의해 결정된 행동을 선택하고, 상기 제2 상태 값이 0일 때 상기 중심 관점 강화 학습기에 의해 결정된 행동을 선택하는, 에이전트 장치. - 제1항에서,
상기 통계 분석의 분석 결과는 수집된 표본 상태의 평균 및 표준편차를 포함하고,
상기 상태 값 판별부는, 상기 평균 및 상기 표준편차를 바탕으로 정규분포 특성 그래프를 생성하고, 상기 정규분포 특성 그래프를 이용하여 상기 제1 상태 값 및 상기 제2 상태 값을 결정하는, 에이전트 장치. - 에이전트 장치에 의한 배타적 강화 학습 방법으로서,
환경의 상태 정보를 수집하고, 수집된 상태에 대해 통계 분석을 수행하는 단계,
상기 통계 분석의 분석 결과를 바탕으로 학습 단계에서 입력되는 제1 상태의 제1 상태 값 및 추론 단계에서 입력되는 제2 상태의 제2 상태 값을 결정하는 단계,
상기 제1 상태 값에 따라 서로 다른 관점의 강화 학습을 수행하는 복수의 강화 학습기를 이용하여 강화 학습을 수행하는 단계, 및
상기 제2 상태 값에 따라 상기 복수의 강화 학습기에서 각각 결정된 행동 중 하나를 선택하고, 상기 선택된 행동을 상기 환경에 적용하는 단계
를 포함하고,
상기 복수의 강화 학습기는, 중심 관점 강화 학습기 및 주변 관점 강화 학습기를 포함하고,
상기 제1 상태 값에 따라 서로 다른 관점의 강화 학습을 수행하는 복수의 강화 학습기를 이용하여 강화 학습을 수행하는 단계는,
상기 제1 상태 값이 1일 때 상기 주변 관점 강화 학습기를 통해 강화 학습을 수행하고, 상기 제1 상태 값이 0일 때 상기 중심 관점 강화 학습기를 통해 강화 학습을 수행하는 단계
를 포함하는, 배타적 강화 학습 방법. - 제7항에서,
상기 통계 분석의 분석 결과는 수집된 표본 상태의 평균 및 표준편차를 포함하고,
상기 통계 분석의 분석 결과를 바탕으로 학습 단계에서 입력되는 제1 상태의 제1 상태 값 및 추론 단계에서 입력되는 제2 상태의 제2 상태 값을 결정하는 단계는,
상기 제1 상태의 절대값이 상기 평균 및 상기 표준편차의 합보다 크면 상기 제1 상태 값을 1로 결정하고, 상기 제1 상태의 절대값이 상기 평균 및 상기 표준편차의 합보다 작거나 같으면 상기 제1 상태 값을 0으로 결정하는 단계
를 포함하는, 배타적 강화 학습 방법. - 제7항에서,
상기 통계 분석의 분석 결과는 수집된 표본 상태의 평균 및 표준편차를 포함하고,
상기 통계 분석의 분석 결과를 바탕으로 학습 단계에서 입력되는 제1 상태의 제1 상태 값 및 추론 단계에서 입력되는 제2 상태의 제2 상태 값을 결정하는 단계는,
상기 제2 상태의 절대값이 상기 평균 및 상기 표준편차의 합보다 크면 상기 제2 상태 값을 1로 결정하고, 상기 제2 상태의 절대값이 상기 평균 및 상기 표준편차의 합보다 작거나 같으면 상기 제2 상태 값을 0으로 결정하는 단계
를 포함하는 배타적 강화 학습 방법. - 제9항에서,
상기 제1 상태 값에 따라 서로 다른 관점의 강화 학습을 수행하는 복수의 강화 학습기를 이용하여 강화 학습을 수행하는 단계는,
상기 제2 상태 값이 1일 때 상기 주변 관점 강화 학습기에 의해 결정된 행동을 선택하고, 상기 제2 상태 값이 0일 때 상기 중심 관점 강화 학습기에 의해 결정된 행동을 선택하는 단계
를 더 포함하는, 배타적 강화 학습 방법. - 제7항에서,
상기 통계 분석의 분석 결과는 수집된 표본 상태의 평균 및 표준편차를 포함하고,
상기 통계 분석의 분석 결과를 바탕으로 학습 단계에서 입력되는 제1 상태의 상태 값 및 추론 단계에서 입력되는 제2 상태의 상태 값을 결정하는 단계는,
상기 평균 및 상기 표준편차를 바탕으로 정규분포 특성 그래프를 생성하고, 상기 정규분포 특성 그래프를 이용하여 상기 제1 상태의 상태 값 및 상기 제2 상태의 상태 값을 결정하는 단계
를 포함하는, 배타적 강화 학습 방법. - 배타적 강화 학습을 수행하는 에이전트 장치로서,
프로세서, 메모리, 및 통신 인터페이스를 포함하고
상기 프로세서는 상기 메모리에 포함된 프로그램을 실행하여,
상기 통신 인터페이스를 통해 환경의 상태 정보를 수집하고, 수집된 상태에 대해 통계 분석을 수행하는 단계,
상기 통계 분석의 분석 결과를 바탕으로 학습 단계에서 입력되는 제1 상태의 제1 상태 값 및 추론 단계에서 입력되는 제2 상태의 제2 상태 값을 결정하는 단계,
상기 제1 상태 값에 따라 서로 다른 관점의 강화 학습을 수행하는 복수의 강화 학습기 중 하나의 강화 학습기를 이용하여 강화 학습을 수행하는 단계, 및
상기 제2 상태 값에 따라 상기 복수의 강화 학습기에서 각각 결정된 행동 중 하나를 선택하고, 상기 선택된 행동을 상기 환경에 적용하는 단계
를 수행하고,
상기 복수의 강화 학습기는, 중심 관점 강화 학습기 및 주변 관점 강화 학습기를 포함하고,
상기 프로세서는 상기 제1 상태 값에 따라 서로 다른 관점의 강화 학습을 수행하는 복수의 강화 학습기를 이용하여 강화 학습을 수행하는 단계를 수행할 때,
상기 제1 상태 값이 1일 때 상기 주변 관점 강화 학습기를 통해 강화 학습을 수행하고, 상기 제1 상태 값이 0일 때 상기 중심 관점 강화 학습기를 통해 강화 학습을 수행하는 단계
를 수행하는, 에이전트 장치. - 제12항에서,
상기 통계 분석의 분석 결과는 수집된 표본 상태의 평균 및 표준편차를 포함하고,
상기 프로세서는 상기 통계 분석의 분석 결과를 바탕으로 학습 단계에서 입력되는 제1 상태의 제1 상태 값 및 추론 단계에서 입력되는 제2 상태의 제2 상태 값을 결정하는 단계를 수행할 때,
상기 제1 상태의 절대값이 상기 평균 및 상기 표준편차의 합보다 크면 상기 제1 상태 값을 1로 결정하고, 상기 제1 상태의 절대값이 상기 평균 및 상기 표준편차의 합보다 작거나 같으면 상기 제1 상태 값을 0으로 결정하는 단계
를 수행하는, 에이전트 장치. - 제12항에서,
상기 통계 분석의 분석 결과는 수집된 표본 상태의 평균 및 표준편차를 포함하고,
상기 프로세서는 상기 통계 분석의 분석 결과를 바탕으로 학습 단계에서 입력되는 제1 상태의 제1 상태 값 및 추론 단계에서 입력되는 제2 상태의 제2 상태 값을 결정하는 단계를 수행할 때,
상기 제2 상태의 절대값이 상기 평균 및 상기 표준편차의 합보다 크면 상기 제2 상태 값을 1로 결정하고, 상기 제2 상태의 절대값이 상기 평균 및 상기 표준편차의 합보다 작거나 같으면 상기 제2 상태 값을 0으로 결정하는 단계
를 수행하는, 에이전트 장치. - 제14항에서,
상기 프로세서는 상기 제1 상태 값에 따라 서로 다른 관점의 강화 학습을 수행하는 복수의 강화 학습기를 이용하여 강화 학습을 수행하는 단계를 수행할 때,
상기 제2 상태 값이 1일 때 상기 주변 관점 강화 학습기에 의해 결정된 행동을 선택하고, 상기 제2 상태 값이 0일 때 상기 중심 관점 강화 학습기에 의해 결정된 행동을 선택하는 단계
를 수행하는, 에이전트 장치. - 제12항에서,
상기 통계 분석의 분석 결과는 수집된 표본 상태의 평균 및 표준편차를 포함하고,
상기 프로세서는 상기 통계 분석의 분석 결과를 바탕으로 학습 단계에서 입력되는 제1 상태의 제1 상태 값 및 추론 단계에서 입력되는 제2 상태의 제2 상태 값을 결정하는 단계를 수행할 때,
상기 평균 및 상기 표준편차를 바탕으로 정규분포 특성 그래프를 생성하고, 상기 정규분포 특성 그래프를 이용하여 상기 제1 상태 값 및 상기 제2 상태 값을 결정하는 단계
를 수행하는, 에이전트 장치.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190086015A KR102461732B1 (ko) | 2019-07-16 | 2019-07-16 | 강화 학습 방법 및 장치 |
US16/929,975 US11989658B2 (en) | 2019-07-16 | 2020-07-15 | Method and apparatus for reinforcement machine learning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190086015A KR102461732B1 (ko) | 2019-07-16 | 2019-07-16 | 강화 학습 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210009232A KR20210009232A (ko) | 2021-01-26 |
KR102461732B1 true KR102461732B1 (ko) | 2022-11-01 |
Family
ID=74310340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190086015A KR102461732B1 (ko) | 2019-07-16 | 2019-07-16 | 강화 학습 방법 및 장치 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11989658B2 (ko) |
KR (1) | KR102461732B1 (ko) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11645498B2 (en) * | 2019-09-25 | 2023-05-09 | International Business Machines Corporation | Semi-supervised reinforcement learning |
KR102454700B1 (ko) * | 2021-11-24 | 2022-10-13 | 경기대학교 산학협력단 | 의미적 제약을 이용한 뉴로-논리 강화학습 최적화 방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012181579A (ja) | 2011-02-28 | 2012-09-20 | National Institute Of Information & Communication Technology | パターン分類の学習装置 |
Family Cites Families (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110150328A1 (en) | 2009-12-21 | 2011-06-23 | Electronics And Telecommunications Research Institute | Apparatus and method for blockiing objectionable image on basis of multimodal and multiscale features |
MX2017009879A (es) | 2015-01-28 | 2018-05-28 | Google Llc | Capas de normalizacion por lotes. |
JP6477551B2 (ja) * | 2016-03-11 | 2019-03-06 | トヨタ自動車株式会社 | 情報提供装置及び情報提供プログラム |
US10977551B2 (en) * | 2016-12-14 | 2021-04-13 | Microsoft Technology Licensing, Llc | Hybrid reward architecture for reinforcement learning |
KR102645202B1 (ko) | 2017-01-03 | 2024-03-07 | 한국전자통신연구원 | 기계 학습 방법 및 장치 |
CN110520868B (zh) * | 2017-04-14 | 2023-06-02 | 渊慧科技有限公司 | 用于分布式强化学习的方法、程序产品和存储介质 |
WO2018215665A1 (en) * | 2017-05-26 | 2018-11-29 | Deepmind Technologies Limited | Training action selection neural networks using look-ahead search |
CN110574048B (zh) * | 2017-06-09 | 2023-07-07 | 渊慧科技有限公司 | 训练动作选择神经网络 |
JP6820815B2 (ja) * | 2017-09-07 | 2021-01-27 | 株式会社日立製作所 | 学習制御システム及び学習制御方法 |
US11243532B1 (en) * | 2017-09-27 | 2022-02-08 | Apple Inc. | Evaluating varying-sized action spaces using reinforcement learning |
EP3688675B1 (en) * | 2017-10-27 | 2024-05-08 | DeepMind Technologies Limited | Distributional reinforcement learning for continuous control tasks |
US11562287B2 (en) * | 2017-10-27 | 2023-01-24 | Salesforce.Com, Inc. | Hierarchical and interpretable skill acquisition in multi-task reinforcement learning |
US11604941B1 (en) * | 2017-10-27 | 2023-03-14 | Deepmind Technologies Limited | Training action-selection neural networks from demonstrations using multiple losses |
US11568236B2 (en) * | 2018-01-25 | 2023-01-31 | The Research Foundation For The State University Of New York | Framework and methods of diverse exploration for fast and safe policy improvement |
EP3698283A1 (en) * | 2018-02-09 | 2020-08-26 | DeepMind Technologies Limited | Generative neural network systems for generating instruction sequences to control an agent performing a task |
WO2019155061A1 (en) * | 2018-02-09 | 2019-08-15 | Deepmind Technologies Limited | Distributional reinforcement learning using quantile function neural networks |
JP7035734B2 (ja) * | 2018-03-30 | 2022-03-15 | 富士通株式会社 | 強化学習プログラム、強化学習方法、および強化学習装置 |
EP3776363A1 (en) * | 2018-05-18 | 2021-02-17 | Deepmind Technologies Limited | Reinforcement learning using agent curricula |
EP3776364B1 (en) * | 2018-05-29 | 2023-12-06 | DeepMind Technologies Limited | Deep reinforcement learning with fast updating recurrent neural networks and slow updating recurrent neural networks |
US11537872B2 (en) * | 2018-07-30 | 2022-12-27 | International Business Machines Corporation | Imitation learning by action shaping with antagonist reinforcement learning |
US11501157B2 (en) * | 2018-07-30 | 2022-11-15 | International Business Machines Corporation | Action shaping from demonstration for fast reinforcement learning |
US11734575B2 (en) * | 2018-07-30 | 2023-08-22 | International Business Machines Corporation | Sequential learning of constraints for hierarchical reinforcement learning |
EP3605334A1 (en) * | 2018-07-31 | 2020-02-05 | Prowler.io Limited | Incentive control for multi-agent systems |
KR102090539B1 (ko) * | 2018-10-04 | 2020-03-18 | 서울대학교산학협력단 | 신규한 가중치를 이용한 센터링 연산을 적용한 강화 학습 방법 및 장치 |
CA3060914A1 (en) * | 2018-11-05 | 2020-05-05 | Royal Bank Of Canada | Opponent modeling with asynchronous methods in deep rl |
KR101990326B1 (ko) * | 2018-11-28 | 2019-06-18 | 한국인터넷진흥원 | 감가율 자동 조정 방식의 강화 학습 방법 |
US11841689B2 (en) * | 2018-12-27 | 2023-12-12 | Nec Corporation | Policy creation apparatus, control apparatus, policy creation method, and non-transitory computer readable medium storing policy creation program |
US20220105624A1 (en) * | 2019-01-23 | 2022-04-07 | Google Llc | Efficient adaption of robot control policy for new task using meta-learning based on meta-imitation learning and meta-reinforcement learning |
US11627165B2 (en) * | 2019-01-24 | 2023-04-11 | Deepmind Technologies Limited | Multi-agent reinforcement learning with matchmaking policies |
CA3074156A1 (en) * | 2019-03-01 | 2020-09-01 | Royal Bank Of Canada | System and method for multi-type mean field reinforcement machine learning |
JP7225923B2 (ja) * | 2019-03-04 | 2023-02-21 | 富士通株式会社 | 強化学習方法、強化学習プログラム、および強化学習システム |
JP7379833B2 (ja) * | 2019-03-04 | 2023-11-15 | 富士通株式会社 | 強化学習方法、強化学習プログラム、および強化学習システム |
JP7188194B2 (ja) * | 2019-03-07 | 2022-12-13 | 富士通株式会社 | 方策改善方法、方策改善プログラム、および方策改善装置 |
US20200320435A1 (en) * | 2019-04-08 | 2020-10-08 | Sri International | Multi-level introspection framework for explainable reinforcement learning agents |
US20200334565A1 (en) * | 2019-04-16 | 2020-10-22 | Siemens Aktiengesellschaft | Maximum entropy regularised multi-goal reinforcement learning |
US11501167B2 (en) * | 2019-04-26 | 2022-11-15 | Huawei Technologies Canada Co., Ltd. | Learning domain randomization distributions for transfer learning |
US11321635B2 (en) * | 2019-05-29 | 2022-05-03 | United States Of America As Represented By The Secretary Of The Navy | Method for performing multi-agent reinforcement learning in the presence of unreliable communications via distributed consensus |
US20200380353A1 (en) * | 2019-05-30 | 2020-12-03 | Royal Bank Of Canada | System and method for machine learning architecture with reward metric across time segments |
CN114303162A (zh) * | 2019-06-14 | 2022-04-08 | 北京嘀嘀无限科技发展有限公司 | 用于驾驶员奖酬的强化学习方法:用于驾驶员-***互动的生成性对抗网络 |
US20220172103A1 (en) * | 2020-11-30 | 2022-06-02 | International Business Machines Corporation | Variable structure reinforcement learning |
CA3162812A1 (en) * | 2021-06-11 | 2022-12-11 | Royal Bank Of Canada | System and method for risk sensitive reinforcement learning architecture |
-
2019
- 2019-07-16 KR KR1020190086015A patent/KR102461732B1/ko active IP Right Grant
-
2020
- 2020-07-15 US US16/929,975 patent/US11989658B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012181579A (ja) | 2011-02-28 | 2012-09-20 | National Institute Of Information & Communication Technology | パターン分類の学習装置 |
Also Published As
Publication number | Publication date |
---|---|
US11989658B2 (en) | 2024-05-21 |
KR20210009232A (ko) | 2021-01-26 |
US20210019644A1 (en) | 2021-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ehlers | Formal verification of piece-wise linear feed-forward neural networks | |
Zhang et al. | Equipment health indicator learning using deep reinforcement learning | |
KR102461732B1 (ko) | 강화 학습 방법 및 장치 | |
JP6821614B2 (ja) | モデル学習装置、モデル学習方法、プログラム | |
JP7334801B2 (ja) | 学習装置、学習方法および学習プログラム | |
KR20210058171A (ko) | 주식 예측 딥러닝 모델 생성 및 파라미터 최적화를 위한 Automated Deep Learning Studio | |
CN113360762A (zh) | 基于人工智能的内容推荐方法及人工智能内容推荐*** | |
Moghadam et al. | An autonomous performance testing framework using self-adaptive fuzzy reinforcement learning | |
EP4273750A1 (en) | Data processing method and apparatus, computing device, and test simplification device | |
Könighofer et al. | Correct-by-Construction Runtime Enforcement in AI–A Survey | |
US20210150358A1 (en) | System and method for controlling confidential information | |
JPWO2019189249A1 (ja) | 学習装置、学習方法、及びプログラム | |
CN109743200B (zh) | 基于资源特征的云计算平台计算任务成本预测方法及*** | |
KR102124425B1 (ko) | 시계열 데이터 예측 모델 평가 방법 및 장치 | |
Krivic et al. | Decreasing uncertainty in planning with state prediction | |
US20210304059A1 (en) | Method for selecting datasets for updating an artificial intelligence module | |
CN113516182B (zh) | 视觉问答模型训练、视觉问答方法和装置 | |
JP7188580B2 (ja) | パフォーマンス特性に従って選択的にプログラムを計装するためのシステム及び方法 | |
CN110991659B (zh) | 异常节点识别方法、装置、电子设备及存储介质 | |
Agrell et al. | Pitfalls of machine learning for tail events in high risk environments | |
KR20200141853A (ko) | 시험용 테스트 케이스 생성 장치 및 방법 | |
KR102283237B1 (ko) | 데이터 주도 기계학습 기반 차량 조향 특성 모델 실시간 규명 장치 및 방법 | |
Alidoust | AGI brain II: the upgraded version with increased versatility index | |
JP7127686B2 (ja) | 仮説推論装置、仮説推論方法、及びプログラム | |
US11481606B2 (en) | Method of updating parameters and information processing apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |