KR20180091841A

KR20180091841A - 결투 심층 신경 네트워크

Info

Publication number: KR20180091841A
Application number: KR1020187016564A
Authority: KR
Inventors: 지유 왕; 드 프리타스 주앙 페르디난도 고메즈; 마크 란코트
Original assignee: 딥마인드 테크놀로지스 리미티드
Priority date: 2015-11-12
Filing date: 2016-11-11
Publication date: 2018-08-16
Also published as: EP3360083B1; US10572798B2; US10296825B2; US20180260689A1; JP2018537773A; KR102172277B1; WO2017083775A1; CN108604309B; US20170140266A1; JP6591672B2; CN108604309A; EP3360083A1

Abstract

환경과 인터랙팅하는 에이전트에 의해 수행될 액션들의 집합으로부터 액션들을 선택하기 위한, 컴퓨터 저장 매체 상에 인코딩된 컴퓨터 프로그램들을 포함하는, 시스템들, 방법들, 및 장치. 하나의 양태에서, 시스템은 결투 심층 신경 네트워크를 포함한다. 결투 심층 신경 네트워크는 값 서브네트워크, 이점 서브네트워크, 및 결합 계층을 포함한다. 값 서브네트워크는 값 추정치를 생성하기 위해 관측의 표현을 처리한다. 이점 서브네트워크는 액션들의 집합 내의 각 액션에 대한 이점 추정치를 생성하기 관측의 표현을 처리한다. 결합 계층은 액션에 대한 각각의 Q 값을 생성하기 위해 각 액션에 대한 값 추정치와 이점 추정치를 결합한다. 시스템은 액션들의 집합 내의 액션들에 대한 각각의 Q 값을 사용하여 관측의 응답으로 에이전트에 의해 수행될 액션을 선택한다.

Description

결투 심층 신경 네트워크

본 명세서는 강화 학습에 관한 것이다.

강화 학습 시스템에서, 에이전트는 환경의 현재 상태를 특징짓는 하는 관측들을 수신하는 것에 응답하여 강화 학습 시스템에 의해 선택된 액션들을 수행함으로써 환경과 인터랙팅한다.

일부 강화 학습 시스템들은 신경 네트워크의 출력에 따라 주어진 관측을 수신하는 것에 응답하여 에이전트에 의해 수행될 액션을 선택한다.

신경 네트워크들은 수신된 입력에 대한 출력을 예측하기 위해 비선형 유닛들의 하나 이상의 계층들을 이용하는 기계 학습 모델들이다. 일부 신경 네트워크들은 출력 계층 외에도 하나 이상의 숨겨진 계층들을 포함하는 심 신경 네트워크들이다. 각 숨겨진 계층의 출력은 네트워크의 다음 계층, 즉 다음 숨겨진 계층 또는 출력 계층에 대한 입력으로 사용된다. 네트워크의 각 계층은 파라미터들 각각의 집합의 현재 값들에 따라 수신된 입력으로부터 출력을 생성한다.

일반적으로, 본 명세서에 기술된 발명의 하나의 혁신적인 양태는 환경과 인터랙팅 하는 에이전트에 의해 수행될 액션들의 집합으로부터 액션들을 선택하기 위한 시스템들에서 구현될 수 있으며, 시스템들은 하나 이상의 컴퓨터들에 의해 구현되는 결투 심층 신경 네트워크를 포함한다.

결투 심층 신경 네트워크는 (i) 값 서브네트워크, 상기 값 서브네트워크는: 상기 환경의 현재 상태를 특징짓는 관측의 표현을 수신하고; 그리고 값 추정치를 생성하기 위해 상기 관측의 상기 표현을 처리하도록 구성되며, 상기 값 추정치는 상기 현재 상태에 있는 상기 환경의 결과로 인한 예상 리턴의 추정치이며; (ii) 이점 서브네트워크, 상기 이점 서브네트워크는: 상기 관측의 상기 표현을 수신하고; 그리고 상기 환경이, 상기 환경이 상기 현재 상태에 있을 때 상기 에이전트가 다른 액션들을 수행한 결과로 인한 상기 리턴과 관련된, 상기 현재 상태에 있는 경우, 상기 에이전트가 상기 액션을 수행한 결과로 인한 상기 리턴의 상대적 척도의 추정치인 액션들의 상기 집합 내의 각 액션에 대한 각각의 이점 추정치(advantage estimate)를 생성하기 위해, 상기 관측의 상기 표현을 처리하도록 구성되며; 및 (iii) 결합 계층을 포함하며, 상기 결합계층은, 각 액션에 대해, 상기 액션에 대한 각각의 Q 값을 생성하기 위해 상기 액션에 대한 상기 각각의 이점 추정치 및 상기 값 추정치를 결합하도록 구성되고, 상기 각각의 Q 값은 상기 환경이 상기 현재 상태에 있을 때 상기 에이전트가 상기 액션을 수행한 결과로 인한 예상 리턴의 추정치이다.

이 양태의 다른 실시예들은 환경과 인터랙팅 하는 에이전트에 의해 수행될 액션들을 선택하기 위해 시스템들을 사용하기 위한 방법을 포함한다. 이 양태의 다른 실시예들은 각각이 상기 방법들의 액션들을 수행하도록 구성된, 하나 이상의 컴퓨터 저장 디바이스들 상에 기록된 대응하는 컴퓨터 시스템들, 장치들 및 컴퓨터 프로그램들을 포함한다. 하나 이상의 컴퓨터들의 시스템은 시스템 상에 설치된 소프트웨어, 펌웨어, 하드웨어 또는 이들의 임의의 조합에 의해 특정한 동작들 또는 액션들을 수행하도록 구성될 수 있으며, 그것들은 동작 중에 시스템으로 하여금 액션들을 수행하게 할 수 있다. 하나 이상의 컴퓨터 프로그램들은 명령어들을 포함하는 것에 의해 특정한 동작들 또는 액션들을 수행하도록 구성될 수 있으며, 상기 명령어들은 데이터 처리 장치에 의해 실행될 때, 장치로 하여금 액션들을 수행하게 한다.

일부 구현예들에서, 상기 시스템은 하나 이상의 제2 컴퓨터들 및 명령어들을 저장하는 하나 이상의 저장 디바이스들을 포함하며, 상기 명령어들은 상기 하나 이상의 제2 컴퓨터들에 의해 실행될 때 상기 하나 이상의 제2 컴퓨터들로 하여금 동작들을 수행하게 하며, 상기 동작들은 액션들의 상기 집합 내의 상기 액션들에 대한 상기 각각의 Q 값들을 사용하여 상기 관측에 응답하여 상기 에이전트에 의해 수행될 액션을 선택하는 동작을 포함한다.

일부 구현예들에서, 상기 결투 심층 신경 네트워크는 하나 이상의 초기 신경 네트워크 계층들을 더 포함하며, 상기 초기 신경 네트워크 계층들은 상기 관측을 수신하고, 그리고 상기 관측의 상기 표현을 생성하기 위해 상기 관측을 처리하도록 구성된다.

일부 구현예들에서, 상기 관측은 이미지이고, 상기 하나 이상의 초기 신경 네트워크 계층들은 컨볼루션 신경 네트워크 계층들이다. 일부 구현예들에서, 상기 관측의 상기 표현은 상기 관측이다.

일부 구현예들에서, 상기 값 추정치와 상기 각각의 이점 추정치를 결합하는 것은: 액션들의 상기 세트에서 상기 액션들에 대한 상기 각각의 이점 추정치들의 중심 경향의 척도를 결정하는 것; 중심 경향의 상기 척도를 사용하여 상기 액션에 대한 상기 각각의 이점 추정치를 조정함으로써 상기 액션에 대한 각각의 조정된 이점 추정치를 결정하는 것; 및 상기 액션에 대한 상기 각각의 Q 값을 결정하기 위해 상기 액션에 대한 상기 각각의 이점 추정치 및 상기 값 추정치를 결합하는 것을 포함한다.

일부 구현예들에서, 상기 값 서브네트워크는 파라미터들의 제1 집합을 가지며 상기 이점 서브네트워크는 파라미터들의 상이한 제2 집합을 갖는다.

일부 구현예들에서, 액션들의 상기 집합 내의 상기 액션들에 대한 상기 각각의 Q 값들을 사용하여 상기 관측에 응답하여 상기 에이전트에 의해 수행될 액션을 선택하는 동작은 상기 에이전트에 의해 수행될 상기 액션으로서 가장 높은 Q 값을 갖는 액션을 선택하는 동작을 포함한다.

일부 구현예들에서, 액션들의 상기 집합 내의 상기 액션들에 대한 상기 각각의 Q 값들을 사용하여 상기 관측에 응답하여 상기 에이전트에 의해 수행될 액션을 선택하는 동작은 확률 ε을 갖는 액션들의 상기 집합으로부터 랜덤 액션을 선택하는 동작 및 확률 1 - ε을 갖는 가장 높은 Q 값을 갖는 액션을 선택하는 동작을 포함한다.

본 명세서에 게시된 발명의 다른 혁신적 양태는 값 서브네트워크와 이점 서브네트워크를 포함하는 결투 심층 신경 네트워크를 사용하여 환경과 인터랙팅 하는 에이전트에 의해 수행될 액션들의 집합으로부터 액션들을 선택하기 위한 방법으로서 구현될 수 있으며, 상기 상법은: 상기 환경의 현재 상태를 특징짓는 관측의 표현을 획득하는 단계; 상기 값 서브네트워크를 사용하여 상기 관측의 상기 표현을 처리하는 단계, 상기 값 서브네트워크는: 상기 관측의 상기 표현을 수신하고; 그리고 값 추정치를 생성하기 위해 상기 관측의 상기 표현을 처리하도록 구성되며, 상기 값 추정치는 상기 환경이 상기 현재 상태에 있는 결과로 인한 예상 리턴의 추정치이며; 상기 이점 서브네트워크를 사용하여 상기 관측의 상기 표현을 처리하는 단계, 상기 이점 서브네트워크는: 상기 관측의 상기 표현을 수신하고; 그리고 상기 환경이, 상기 환경이 상기 현재 상태에 있을 때 상기 에이전트가 다른 액션들을 수행한 결과로 인한 상기 리턴과 관련된, 상기 현재 상태에 있는 경우, 상기 에이전트가 상기 액션을 수행한 결과로 인한 상기 리턴의 상대적 척도의 추정치인 액션들의 상기 집합내의 각 액션에 대한 각각의 이점 추정치를 생성하기 위해, 상기 관측의 상기 표현을 처리하도록 구성되며; 각 액션에 대해, 상기 액션에 대한 각각의 Q 값을 생성하기 위해 상기 액션에 대한 상기 각각의 이점 추정치 및 상기 값 추정치를 결합하는 단계, 상기 각각의 Q 값은 상기 환경이 상기 현재 상태에 있을 때 상기 에이전트가 상기 액션을 수행한 결과로 인한 예상 리턴의 추정치이며; 및 액션들의 상기 집합 내의 상기 액션들에 대한 상기 각각의 Q 값들을 사용하여 상기 관측에 응답하여 상기 에이전트에 의해 수행될 액션을 선택하는 단계를 포함한다.

이 양태의 다른 실시예들은 각각이 상기 방법들의 액션들을 수행하도록 구성된, 하나 이상의 컴퓨터 저장 디바이스들 상에 기록된 대응하는 컴퓨터 시스템들, 장치들 및 컴퓨터 프로그램들을 포함한다. 하나 이상의 컴퓨터들의 시스템은 시스템 상에 설치된 소프트웨어, 펌웨어, 하드웨어 또는 이들의 임의의 조합에 의해 특정한 동작들 또는 액션들을 수행하도록 구성될 수 있으며, 그것들은 동작 중에 시스템으로 하여금 액션들을 수행하게 할 수 있다. 하나 이상의 컴퓨터 프로그램들은 명령어들을 포함하는 것에 의해 특정한 동작들 또는 액션들을 수행하도록 구성될 수 있으며, 상기 명령어들은 데이터 처리 장치에 의해 실행될 때, 장치로 하여금 액션들을 수행하게 한다.

일부 구현예들에서, 상기 결투 심층 신경 네트워크는 하나 이상의 초기 신경 네트워크 계층들을 포함하며, 상기 방법은 상기 하나 이상의 초기 신경 네트워크 계층들을 사용하여 상기 관측을 처리하는 단계를 더 포함하며, 상기 하나 이상의 초기 신경 네트워크 계층들은 상기 관측을 수신하고 그리고 상기 관측의 상기 표현을 생성하기 위해 상기 관측을 처리하도록 구성된다.

일부 구현예들에서, 상기 값 추정치와 상기 각각의 이점 추정치를 결합하는 단계는: 액션들의 상기 세트에서 상기 액션들에 대한 상기 각각의 이점 추정치들의 중심 경향의 척도를 결정하는 단계; 중심 경향의 상기 척도를 사용하여 상기 액션에 대한 상기 각각의 이점 추정치를 조정함으로써 상기 액션에 대한 각각의 조정된 이점 추정치를 결정하는 단계; 및 상기 액션에 대한 상기 각각의 Q 값을 결정하기 위해 상기 액션에 대한 상기 각각의 이점 추정치 및 상기 값 추정치를 결합하는 단계를 포함한다.

일부 구현예들에서, 액션들의 상기 집합 내의 상기 액션들에 대한 상기 각각의 Q 값들을 사용하여 상기 관측에 응답하여 상기 에이전트에 의해 수행될 액션을 선택하는 단계는: 상기 에이전트에 의해 수행될 상기 액션으로서 가장 높은 Q 값을 갖는 액션을 선택하는 단계를 포함한다.

일부 구현예들에서, 액션들의 상기 집합 내의 상기 액션들에 대한 상기 각각의 Q 값들을 사용하여 상기 관측에 응답하여 상기 에이전트에 의해 수행될 액션을 선택하는 단계는: 확률 ε을 갖는 액션들의 상기 집합으로부터 랜덤 액션을 선택하는 단계; 및 확률 1 - ε을 갖는 가장 높은 Q 값을 갖는 액션을 선택하는 단계를 포함한다.

본 명세서에서 기술된 발명은 다음의 이점들 중 하나 이상을 실현하도록 특정한 실시예들에서 구현될 수 있다. 신경 네트워크들은 보다 나은 추정치들을 생성하도록 트레이닝될 수 있다. 신뢰할 수 있는 이점 추정치들을 생성하기 위해 신경 네트워크를 트레이닝 하는 것은 신뢰할 수 있는 값 추정치들을 생성하기 위해 신경 네트워크를 트레이닝 하는 것보다 계산적으로 더 복잡할 수 있다. 이것은 이점 추정치들은 에이전트 환경의 상태와 그 상태에서 각 개별 액션의 이점, 둘 모두의 특성을 고려해야 하는 반면, 값 추정치들은 환경 상태의 특성들 만에 기초하기 때문이다. 이점 추정치들을 생성하기 위한 별도의 서브네트워크를 할당하는 것은 기본 강화 학습 알고리즘을 변경할 필요 없이 상이한 액션들에 대한 이점 추정치들을 생성하는 신경 네트워크들의 일반화된 트레이닝을 가능하게 한다. 이것은 보다 정확한 Q 값들과 이점 추정치들의 생성을 유도하고 상술된 신뢰할 수 있는 이점 추정치들 생성의 어려움들을 완화하거나 극복한다. 생성된 Q 값들의 개선된 정확성은 이점 추정치들에 대한 목표 값들과 상이한 액션들의 Q 값들이 서로 가까운 경우에 특히 중요할 수 있다.

본 명세서의 발명의 하나 이상의 실시예들의 세부 사항들은 첨부된 도면들 및 이하의 기술(description)에서 설명된다. 발명의 다른 구성들, 양태들 및 이점들은 상세한 설명, 도면들 및 청구항들로부터 명백해질 것이다.

도 1은 강화 학습 시스템의 예시를 도시한다.
도 2는 에이전트에 의해 수행될 액션을 선택하기 위한 예시적 프로세스의 흐름도이다.
도 3은 조정된 이점 추정치들을 사용하여 Q 값들을 생성하기 위한 예시적 프로세스의 흐름도이다.
다양한 도면들에서 동일한 참조 번호들 및 명칭들은 동일한 요소들을 표시한다.

본 명세서는 환경과 인터랙팅 하는 강화 학습 에이전트에 의해 수행될 액션들을 선택하는 강화 학습 시스템을 일반적으로 기술한다. 에이전트가 환경과 인터랙팅 하기 위해, 시스템은 환경의 현재 상태를 특징짓는 데이터를 수신하고, 수신된 데이터에 응답하여 에이전트에 의해 수행될 미리 결정된 액션들의 집합으로부터 액션을 선택한다. 환경의 상태를 특징짓는 데이터는 본 명세서에서 관측으로 지칭될 것이다.

일부 구현예들에서, 환경은 시뮬레이팅된 환경이며 에이전트는 시뮬레이팅된 환경과 인터랙팅 하는 하나 이상의 컴퓨터 프로그램들로 구현된다. 예를 들어, 시뮬레이팅된 환경은 비디오 게임일 수 있으며 에이전트는 비디오 게임을 하는 시뮬레이팅된 사용자일 수 있다. 다른 예시로써, 시뮬레이팅된 환경은 모션 시뮬레이션 환경, 예를 들어 주행 시뮬레이션 또는 비행 시뮬레이션일 수 있으며, 에이전트는 모션 시뮬레이션을 네비게이션하는 시뮬레이팅된 차량이다. 이러한 구현예들에서, 액션들은 시뮬레이팅된 사용자 또는 시뮬레이팅된 차량을 제어하기 위한 제어 입력들일 수 있다.

일부 다른 구현예들에서, 환경은 실제 환경이며 에이전트는 실제 환경과 인터랙팅 하는 기계식 에이전트이다. 예를 들어, 에이전트는 특정 작업을 완수하기 위해 환경과 인터랙팅 하는 로봇일 수 있다. 다른 예시로써, 에이전트는 환경을 네이게이션하는 자율 또는 반-자율 차량일 수 있다. 이러한 구현예들에서, 액션들은 로봇 또는 자율 차량을 제어하기 위한 제어 입력들일 수 있다.

예를 들어, 에이전트는 환경과 인터랙팅 하는 로봇 에이전트일 수 있다. 이러한 환경에 관한 관측들은 로봇 에이전트의 하나 이상의 센서들에 의해 캠쳐되고 환경의 하나 이상의 특성들을 특징짓는 감각 데이터 (이미지들을 포함하는)를 포함할 수 있다. 예를 들어, 각 관측은 로봇 에이전트의 카메라에 의해 캡쳐된 이미지, 및 선택적으로, 로봇 에이전트의 하나 이상의 다른 센서들 (열 센서들, 화학 센서들, 모션 센서들, 등과 같은)에 의해 캡쳐된 하나 이상의 다른 센서 판독 값들을 포함할 수 있다.

도 1은 예시적 강화 학습 시스템(100)을 도시한다. 강화 학습 시스템(100)은 환경(104)과 인터랙팅 하는 강화 학습 에이전트(102)에 의해 수행될 액션들을 선택한다. 즉, 강화 학습 시스템(100)은 각 관측이 환경(104)의 각각의 상태를 특징짓는 관측들을 수신하며, 각 관측에 응답하여, 상기 관측의 응답으로 강화 학습 에이전트(102)에 의해 수행될 미리 결정된 액션들의 집합으로부터 액션을 선택한다. 에이전트(102)에 의해 수행된 일부 또는 모든 액션들의 응답으로, 강화 학습 시스템(100)은 보상을 받는다. 각 보상은 에이전트가 액션을 수행한 결과로써 환경(104)으로부터 수신된 수치 값이며, 즉, 보상은 에이전트(102)가 액션을 수행한 결과로써 환경(104)이 전이하는 상태에 따라 상이할 것이다.

특히, 강화 학습 시스템(100)은 결투 심층 신경 네트워크(103)를 사용하여 에이전트(102)에 의해 수행될 액션들을 선택한다. 결투 심층 신경 네트워크(103)는 환경(104)의 현재 상태를 특징짓는 관측(105)을 입력으로써 수신하고 액션들의 집합 내의 각 액션에 대한 각각의 Q 값(171)을 생성하는 신경 네트워크이다.

주어진 액션에 대한 Q 값은 관측(105)에 응답하여 에이전트(102)가 주어진 액션을 수행한 결과로 인한 예상 리턴의 추정치이다. 리턴은 에이전트가 관측(105)에 응답하여 액션을 수행한 결과로써 강화 학습 시스템(100)에 의해 수신된 총 장기간 미래 보상의 척도이다. 예를 들어, 리턴은 미래 보상들의 시간 할인된 합계일 수 있다.

결투 심층 신경 네트워크(103)는 값 서브네트워크(111), 이점 서브네트워크(112), 및 결합 계층(113)을 포함한다. 결투 심층 신경 네트워크(103)는 선택적으로 초기 신경 네트워크 계층들(110)을 또한 포함할 수 있다.

결투 심층 신경 네트워크(103)에 포함될 때, 초기 신경 네트워크 계층들(110)은 관측(105)을 수신하고 관측(105)의 표현을(151)을 생성하기 위해 관측(105)을 처리하도록 구성된다. 예를 들어, 관측이 이미지일 때의 구현예들에서, 하나 이상의 초기 신경 네트워크 계층들(110)은 이미지로부터 피쳐들을 추출하는 컨볼루션 신경 네트워크 계층들일 수 있다.

값 서브네트워크(111)는 표현(151)을 처리하도록, 또는 결투 심층 신경 네트워크(103)가 임의의 초기 신경 네트워크 계층들(100)을 포함하지 않는 구현예들에서, 환경(104)의 현재 상태에 대한 값 추정치(152)를 결정하기 위해 관측(105)을 처리하도록 구성된다. 현재 상태에 대한 값 추정치(152)는 현재 상태에 있는 환경으로 인한 예상 리턴의 추정치이다. 달리 말해, 값 추정치(152)는 환경(104)이 현재 상태에 있을 때 선택된 액션과 관계없이, 현재 상태에 있는 중요성을 측정한다.

이점 서브네트워크(112)는 표현(151)을 처리하도록, 또는 결투 심층 신경 네트워크(103)가 임의의 초기 신경 네트워크 계층들(100)을 포함하지 않는 구현예들에서, 액션들의 집합 내의 각 액션에 대한 각각의 이점 추정치(153)를 결정하기 위해 관측(105)을 처리하도록 구성된다. 주어진 액션에 대한 이점 추정치(153)는 환경(104)이 현재 상태에 있을 때 에이전트가 액션들(106)의 집합 내의 다른 액션들에 관한 주어진 액션을 수행하는 결과로 인한 리턴의 상대적 척도의 추정치이다.

결합 계층(113)은, 액션들의 집합 내의 각 액션에 대해, 액션에 대한 각각의 Q 값(171)을 결정하기 위해 액션에 대한 값 추정치(152) 및 이점 추정치(153)을 결합하도록 구성된다. 각 액션에 대한 값 추정치(152) 및 이점 추정치(153)를 결합하는 것은 도 3을 참조하여 아래에서 보다 상세하게 기술된다.

강화 학습 시스템(100)은 선택적으로 의사 결정 엔진(120)을 포함할 수 있다. 관측(105)에 응답하여 에이전트(102)에 의해 수행될 액션을 선택하여 에이전트(102)로 하여금 선택된 액션을 수행하게 하기 위해, 의사 결정 엔진(120)은 가능한 액션들(106)의 집합 내의 액션들에 대한 Q 값들(171)을 사용한다.

결투 심층 신경 네트워크(103)가 하나 이상의 제1 컴퓨터들에 의해 구현되는 반면, 의사 결정 엔진(120)에 대한 동작들은 하나 이상의 제2 컴퓨터들에 의해 수행된다.

일부 구현예들에서, 하나 이상의 제1 컴퓨터들은 하나 이상의 제2 컴퓨터들과 동일한 컴퓨터 시스템의 일부일 수 있다. 다른 구현예들에서, 하나 이상의 제1 컴퓨터들 및 하나 이상의 제2 컴퓨터들은 상이한 컴퓨터 시스템들의 일부일 수 있다.

일부 구현예들에서, 하나 이상의 제1 컴퓨터들 및 하나 이상의 제2 컴퓨터들은 동일한 하나 이상의 컴퓨터들로 구성된다. 달리 말해, 동일한 하나 이상의 컴퓨터들이 결투 심층 신경 네트워크(103)를 구현하고 의사 결정 엔진(120)에 대한 동작들을 수행한다.

일부 구현예들에서, 하나 이상의 제1 컴퓨터들 및 하나 이상의 제2 컴퓨터들은 상이한 하나 이상의 컴퓨터들로 구성된다. 달리 말해, 상이한 하나 이상의 컴퓨터들이 결투 심층 신경 네트워크(103)를 구현하고 의사 결정 엔진(120)에 대한 동작들을 수행한다.

도 2는 에이전트에 의해 수행될 동작을 선택하기 위한 예시적 프로세스(200)의 흐름도이다. 편의상, 프로세스(200)는 하나 이상의 위치들에 위치된 하나 이상의 컴퓨터들의 시스템에 의해 수행되고 있는 것으로 기술될 것이다. 예를 들어, 본 명세서에 따라 적절히 프로그래밍된 강화 학습 시스템, 예를 들어, 도 1의 강화 학습 시스템(100), 은 프로세스(200)를 수행할 수 있다.

시스템은 환경의 현재 상태를 특징짓는 관측을 획득한다(210). 일부 구현예들에서, 관측은 이미지 또는 이미지들의 모음이다. 예를 들어, 관측은 환경 또는 에이전트와 연관된 하나 이상의 센서들을 사용하여 획득될 수 있다.

시스템은 관측의 표현을 생성한다(220). 일부 구현예들에서, 관측의 표현은 관측 그 자체이다. 일부 다른 구현예들에서, 시스템은 결투 심층 신경 네트워크의 하나 이상의 초기 신경 네트워크 계층들 (예를 들어, 도 1의 결투 심층 신경 네트워크(103)의 초기 신경 네트워크 계층들(110))을 통해 관측을 처리함으로써 관측의 표현을 생성한다.

시스템은 결투 심층 신경 네트워크의 값 서브네트워크 (예를 들어, 도 1의 결투 심층 신경 네트워크(103)의 값 서브네트워크(111))를 사용하여 관측의 표현을 처리함으로써 값 추정치를 생성한다(230). 값 추정치는 현재 상태에 있는 에이전트의 환경으로 인한 예상 리턴의 추정치이다. 일부 구현예들에서, 특정한 상태의 값 추정치는, 특정한 상태에서 시작하여 그 이후의 특정한 정책, 즉 결투 심층 네트워크에 의해 출력된 Q 값들에 의해 정의된 액션 선택 정책을 따를 때의, 예상 리턴이다.

시스템은 결투 심층 신경 네트워크의 이점 서브네트워크를 사용하여 관측의 표현을 처리함으로써 가능한 액션들의 집합에서 각 액션에 대한 이점 추정치를 생성한다(240) (예를 들어, 도 1의 결투 심층 신경 네트워크(103)의 이점 서브네트워크(112)). 주어진 액션에 대한 이점 추정치는 환경이 현재 상태에 있을 때 에이전트가 액션들의 집합 내의 다른 액션들과 관련한 액션을 수행한 결과로 인한 상대적 척도의 추정치이다.

시스템은 값 추정치의 척도와 행동의 이점 추정치의 척도를 결합함으로써 각 액션에 대한 Q 값들을 생성한다(250). 일부 구현예들에서, 시스템은 액션의 Q 값을 생성하기 위해 액션의 값 추정치 및 이점 추정치를 부가한다. 일부 다른 구현예들에서, 시스템은 액션의 Q 값을 생성하기 위해 값 추정치와 이점 추정치의 조정된 값을 부가한다.

조정된 이점 추정치들을 사용하여 Q 값들을 생성하는 것은 도 3을 참조하여 아래에 보다 상세히 기술된다.

시스템은 관측에 응답하여 에이전트에 의해 수행될 액션을 선택한다(260).

일부 구현예들에서, 시스템은 에이전트에 의해 수행될 액션으로써 가장 높은 Q 값을 갖는 액션을 선택한다. 일부 다른 구현예들에서, 예를 들어, 결투 심층 신경 네트워크의 트레이닝 동안, 시스템은 확률 ε을 갖는 가능한 액션들의 집합으로부터 랜덤 액션을 선택하고 확률 1 - ε을 갖는 가장 높은 Q 값을 갖는 액션을 선택한다. 이러한 구현예들 중 일부에서, ε 값은 시스템에 더 많은 트레이닝 예시들이 제시될 때 감소할 수 있으며, 이는 시스템에 의한 랜덤 액션 선택을 감소시킨다.

일부 구현예들에서, 결투 심층 신경 네트워크가 트레이닝 되었던 이후에, 시스템은 각 액션의 이점 추정치를 사용하여, 즉 가장 높은 이점 추정치를 갖는 액션을 선택함으로써, 수행될 액션을 선택한다.

도 3은 조정된 이점 추정치들을 사용하여 Q 값들을 생성하기 위한 예시적 프로세스(300)의 흐름도이다. 편의상, 프로세스(300)는 하나 이상의 위치들에 위치된 하나 이상의 컴퓨터들의 시스템에 의해 수행되는 것으로 기술될 것이다. 예를 들어, 본 명세서에 따라 적절히 프로그래밍된 강화 학습 시스템, 예를 들어, 도 1의 강화 학습 시스템(100), 은 프로세스(300)를 수행할 수 있다.

시스템은 현재 상태에 대한 값 추정치를 획득한다.

시스템은 가능한 동작 액션들의 집합 내의 각 액션에 대한 각각의 이점 추정치를 획득한다(320).

시스템은 이점 추정치들을 특징 짓는 통계를 결정한다(330). 일부 구현예들에서, 통계는 중심 경향의 척도, 예를 들어 각각의 이점 추정치들의 평균 또는 중앙값이다. 다른 구현예들에서, 통계는 이점 추정치들의 최대 값이다.

시스템은 통계를 사용하여 조정된 이점 추정치를 결정한다(340). 일부 구현예들에서, 시스템은 액션 대한 조정된 이점 추정치를 결정하기 위해 각 액션에 대한 이점 추정치로부터 상기 통계를 뺀다.

시스템은 값 추정치와 각각의 이익 추정치를 사용하여 각 액션에 대한 Q 값들을 생성한다(350). 즉, 시스템은 각 액션에 대한 Q 값을 생성하기 위해 현재 상태에 대한 값 추정치와 각 액션에 대한 조정된 이점 추정치를 결합한다.

본 명세서에서 기술된 발명의 실시예들, 기능 동작들은 디지털 전자 회로, 실체적으로 구현된 컴퓨터 소프트웨어 또는 펌웨어, 본 명세서에 게시된 구조들 및 그들의 구조적 등가물들을 포함하는 컴퓨터 하드웨어, 또는 그들 중 하나 이상의 조합들로 구현될 수 있다. 본 명세서에서 기술된 발명의 실시예들은 하나 이상의 컴퓨터 프로그램들, 즉 데이터 처리 장치에 의해 실행되거나 또는 데이터 처리 장치의 동작을 제어하도록 유형의 비휘발성 프로그램 캐리어 상에 인코딩된 컴퓨터 프로그램 명령어들의 하나 이상의 모듈들로 구현될 수 있다. 대안적으로 또는 추가로, 프로그램 명령어들은 데이터 처리 장치에 의한 실행에 적합한 수신기 장치로의 전송을 위한 정보를 인코딩하도록 생성된 기계로 생성된 전기, 광학, 또는 전자기 신호와 같은, 인위적으로 생성되고 전파된 신호 상에 인코딩 될 수 있다. 컴퓨터 저장 매체는 기계 판독가능 저장 디바이스, 기계 판독가능 저장 기판, 랜덤 또는 직렬 액세스 메모리 디바이스, 또는 그들 중 하나 이상의 조합일 수 있다. 컴퓨터 저장 매체는, 그러나, 전파된 신호가 아니다.

"데이터 처리 장치"라는 용어는 데이터 처리를 위한 모든 종류의 장치들, 디바이스들 및 기계들 예를 들어, 프로그램 가능한 프로세서, 컴퓨터, 또는 다수의 프로세서들 또는 컴퓨터들을 포함한다. 상기 장치는 특수 목적 논리 회로, 예를 들어 FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)을 포함할 수 있다. 상기 장치는 하드웨어 이외에, 문제의 컴퓨터 프로그램을 위한 실행 환경을 제작하는 코드, 예를 들어 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제, 또는 그들 중 하나 이상의 조합을 구성하는 코드를 또한 포함할 수 있다.

컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 모듈, 소프트웨어 모듈, 스크립트, 또는 코드로 또한 지칭되거나 기술될 수 있음)은 컴파일된 또는 해석된 언어들, 또는 선언적 또는 절차적 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 작성될 수 있으며, 상기 컴퓨터 프로그램은 독립형 프로그램 또는 모듈, 컴포넌트, 서브루틴, 또는 컴퓨팅 환경에서 사용하기에 적합한 다른 유닛을 포함하여, 임의의 형태로 배치될 수 있다. 컴퓨터 프로그램은 파일 시스템 내의 파일에 대응할 수 있지만, 반드시 그런 것은 아니다. 프로그램은 다른 프로그램들 또는 데이터, 예를 들어, 마크업 언어 문서에 저장된 하나 이상의 스크립트들, 를 보유한 파일의 일부분, 문제의 프로그램 전용 단일 파일, 또는 다수의 조정된 파일들, 예를 들어, 하나 이상의 모듈들, 하위 프로그램들, 또는 코드의 일부들을 저장하는 파일들, 에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터에서 또는 하나의 사이트에 있거나 여러 사이트에 걸쳐서 분산되어 있고 통신 네트워크로 상호접속된 다수의 컴퓨터들에서 실행되도록 배치될 수 있다.

본 명세서에서 사용되는, "엔진" 또는 "소프트웨어 엔진"은 입력과는 상이한 출력을 제공하는 소프트웨어로 구현된 입/출력 시스템을 지칭한다. 엔진은 라이브러리, 플랫폼, 소프트웨어 개발 키트(“SDK”), 또는 객체와 같이, 인코딩된 기능 블록일 수 있다. 각 엔진은 임의의 적합한 유형의 컴퓨팅 디바이스, 예를 들어 서버들, 모바일 폰들, 태블릿 컴퓨터들, 노트북 컴퓨터들, 뮤직 플레이어들, 전자 책 리더들, 랩탑들 또는 데스크탑 컴퓨터들, PDA들, 스마트폰들, 또는 다른 고정식 또는 휴대용 디바이스들, 상에서 구현될 수 있으며, 그것은 하나 이상의 프로세서들 및 컴퓨터 판독가능 매체를 포함한다. 추가로, 엔진들 중 2개 이상은 동일한 컴퓨팅 디바이스 또는 상이한 컴퓨팅 디바이스들 상에 구현될 수 있다.

본 명세서에 기술된 프로세스들 및 논리 흐름들은 입력 데이터를 조작하고 출력을 생성함으로써 기능들을 수행하기 위해 하나 이상의 컴퓨터 프로그램들을 실행하는 하나 이상의 프로그램 가능한 컴퓨터들에 의해 수행될 수 있다. 상기 프로세스들 및 논리 흐름들은 FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)과 같은 특수 목적 논리 회로에 의해 또한 수행될 수 있고, 장치는 특수 목적 논리 회로로 또한 구현될 수 있다.

컴퓨터 프로그램의 실행에 적합한 컴퓨터들은 예를 들어, 범용 또는 전용 목적 마이크로프로세서들, 또는 둘 모두, 또는 임의의 다른 종류의 중앙 처리 유닛에 기초할 수 있다. 일반적으로, 중앙 처리 유닛은 읽기-전용 메모리 또는 랜덤 액세스 메모리 또는 둘 모두로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 필수 요소들은 명령어들을 수행하거나 실행하기 위한 중앙 처리 유닛 및 명령어들과 데이터를 저장하기 위한 하나 이상의 메모리 디바이스들이다. 일반적으로, 컴퓨터는 데이터를 저장하기 위한 하나 이상의 대용량 저장 디바이스들, 예를 들어, 자기, 광 자기 디스크들 또는 광학 디스크들, 로부터 데이터를 수신하거나 하나 이상의 대용량 저장 디바이스들로 데이터를 전송, 또는 둘 모두를 하도록 동작 가능하게 결합될 것이다. 그러나, 컴퓨터는 그러한 디바이스들을 가질 필요가 없다. 게다가, 컴퓨터는 다른 디바이스, 예를 들어, 모바일 전화기, 개인 휴대 정도 단말기(PDA), 모바일 오디오 또는 비디오 플레이어, 게임 콘솔, 위성 위치 확인 시스템(GPS) 수신기, 또는 휴대용 저장 디바이스, 예를 들어, 범용 직렬 버스(USB) 플래시 드라이브, 에 내장될 수 있다.

컴퓨터 프로그램 명령어들 및 데이터를 저장하기에 적합한 컴퓨터 판독가능 매체는 모든 형태의 비휘발성 메모리, 매체 및 메모리 디바이스들을 포함하며, 상기 디바이스들은 반도체 메모리 디바이스들, 예를 들어, EPROM, EEPROM, 및 플래시 메모리 디바이스; 자기 디스크들, 예를 들어, 내부 하드 디스크들 또는 이동식 디스크들; 광 자기 디스크들; 및 CD-ROM 및 DVD-ROM 디스크들을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로에 의해 보충되거나 또는 특수 목적 논리 회로에 포함될 수 있다.

사용자와의 인터랙션을 제공하기 위해, 본 명세서에 기술된 발명의 실시예들은 예를 들면, CRT(cathode ray tube) 또는 LCD(liquid crystal display)모니터와 같은 사용자에게 정보를 디스플레이하기 위한 디스플레이 디바이스 및 키보드 및 예를 들면, 사용자가 컴퓨터에 입력을 제공할 수 있는 마우스 또는 트랙볼과 같은 포인팅 디바이스를 갖는 컴퓨터 상에서 구현될 수 있다. 다른 종류의 디바이스들도 사용자와의 인터랙션을 제공하는데 또한 사용될 수 있다; 예를 들어, 사용자에게 제공되는 피드백은 시각 피드백, 청각 피드백, 또는 촉각 피드백과 같은 감각 피드백일 수 있다; 그리고 사용자로부터의 입력은 음향, 스피치, 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다. 추가로, 컴퓨터는 사용자에 의해 사용되는 디바이스와 문서들을 전송하고 상기 디바이스로부터 문서들을 수신함으로써 예를 들어, 웹 브라우저로부터 수신된 요청들에 응답하여 사용자의 클라이언트 디바이스 상의 웹 브라우저에 웹 페이지들을 전송함으로써, 사용자와 인터랙팅할 수 있다.

본 명세서에 기술된 발명의 실시예들은 컴퓨팅 시스템에서 구현될 수 있으며, 상기 컴퓨팅 시스템은 백 엔드 컴포넌트, 예를 들어, 데이터 서버, 를 포함하거나, 또는 미들웨어 컴포넌트, 예를 들어, 애플리케이션 서버, 를 포함하거나, 또는 프런트 엔드 컴포넌트, 예를 들어, 그래픽 사용자 인터페이스 또는 사용자가 본 명세서에 기술된 발명의 구현과 인터랙팅할 수 있는 웹 브라우저를 가진 클라이언트 컴퓨터, 또는 하나 이상의 그러한 백 엔드, 미들웨어 또는 프런트 엔드 컴포넌트들의 이상의 임의의 조합을 포함한다. 시스템의 컴포넌트들은 예를 들어, 통신 네트워크와 같은, 디지털 데이터 통신의 매체 또는 임의의 형태에 의해 상호접속될 수 있다. 통신 네트워크들의 예시들은 근거리 통신망("LAN") 및 광역 통신망("WAN"), 예를 들어, 인터넷을 포함한다.

컴퓨팅 시스템은 클라이언트들 및 서버들을 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며 전형적으로 통신 네트워크를 통해 인터랙팅 한다. 클라이언트와 서버의 관계는, 각각의 컴퓨들 상에서 작동하며 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램들, 에 의해서 발생한다.

본 명세서는 많은 특정 구현 세부사항들을 포함하지만, 이들이 청구될 수 있는 범위 또는 발명에 대한 제한들로 해석되어서는 안되며, 오히려 특정한 실시예들에서 특정될 수 있는 구성들의 기술(description)들로 해석되어야 한다. 별도 실시예들의 컨택스트 내의 본 명세서에 기술된 일정 구성들은 단일 실시예 내의 조합으로 또한 구현될 수 있다. 반대로, 단일 실시예의 컨택스트에 기술된 다양한 구성들은 다수의 실시예들에서 개별적으로 구현되거나 또는 임의의 적합한 하위조합으로 또한 구현될 수 있다. 게다가, 구성들은 일정 조합들로 동작하는 것으로써 상기 기술되었고 심지어 초기적으로는 그와 같이 청구되었지만, 청구된 조합으로부터의 하나 이상의 구성들은 일부 경우들에서는 상기 조합으로부터 제거될 수 있고, 청구된 조합은 하위조합 또는 하위조합의 변형으로 유도될 수 있다.

유사하게, 동작들이 특정한 순서로 도면들에 도시되어 있지만, 바람직한 결과들을 달성하기 위해, 그러한 동작들이 도시된 특정한 순서 또는 순차적 순서로 수행되거나, 또는 도시된 모든 동작들이 수행될 것을 요구하는 것으로 이해되어서는 안 된다. 일정 상황들에서는, 멀티태스킹과 병렬 처리가 유리할 수 있다. 또한, 상술된 실시예들에서 다양한 시스템 컴포넌트들의 분리는 모든 실시예들에서 그러한 분리를 요구하는 것으로 이해되어서는 안 된다. 상기 기술된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품에 함께 통합되거나 다수의 소프트웨어 제품들로 패키징 될 수 있다는 것을 이해하여야 한다.

발명의 특정한 실시예들이 기술되었었다. 다른 실시예들은 다음의 청구항들의 범위 내에 있다. 예를 들어, 청구항들에 열거된 액션들은 상이한 순서로 수행될 수 있으며 여전히 바람직한 결과들을 달성한다. 하나의 예시로써, 첨부된 도면에 도시된 프로세스들은 바람직한 결과들을 달성하기 위해 반드시 도시된 특정한 순서, 또는 순차적 순서를 요구하지 않는다. 일정 구현예들에서, 멀티태스킹 및 병렬 처리가 유리할 수 있다.

Claims

환경과 인터랙팅 하는 에이전트에 의해 수행될 액션들의 집합으로부터 액션들을 선택하기 위한 시스템으로서, 상기 시스템은:
하나 이상의 컴퓨터들에 의해 구현되는 결투 심층 신경 네트워크(dueling deep neural network)를 포함하며, 상기 결투 심층 신경 네트워크는:
값 서브네트워크, 상기 값 서브네트워크는:
상기 환경의 현재 상태를 특징짓는 관측의 표현을 수신하고; 그리고
값 추정치를 생성하기 위해 상기 관측의 상기 표현을 처리하도록 구성되며, 상기 값 추정치는 상기 현재 상태에 있는 상기 환경의 결과로 인한 예상 리턴의 추정치이며;
이점 서브네트워크, 상기 이점 서브네트워크는:
상기 관측의 상기 표현을 수신하고; 그리고
상기 환경이, 상기 환경이 상기 현재 상태에 있을 때 상기 에이전트가 다른 액션들을 수행한 결과로 인한 상기 리턴과 관련된, 상기 현재 상태에 있는 경우, 상기 에이전트가 상기 액션을 수행한 결과로 인한 상기 리턴의 상대적 척도의 추정치인 액션들의 상기 집합 내의 각 액션에 대한 각각의 이점 추정치(advantage estimate)를 생성하기 위해, 상기 관측의 상기 표현을 처리하도록 구성되며; 및
결합 계층을 포함하며, 상기 결합계층은, 각 액션에 대해, 상기 액션에 대한 각각의 Q 값을 생성하기 위해 상기 액션에 대한 상기 각각의 이점 추정치 및 상기 값 추정치를 결합하도록 구성되고, 상기 각각의 Q 값은 상기 환경이 상기 현재 상태에 있을 때 상기 에이전트가 상기 액션을 수행한 결과로 인한 예상 리턴의 추정치인 것을 특징으로 하는 시스템.
청구항 1에 있어서, 상기 시스템은 하나 이상의 제2 컴퓨터들 및 명령어들을 저장하는 하나 이상의 저장 디바이스들을 포함하며, 상기 명령어들은 상기 하나 이상의 제2 컴퓨터들에 의해 실행될 때 상기 하나 이상의 제2 컴퓨터들로 하여금 동작들을 수행하게 하며, 상기 동작들은:
액션들의 상기 집합 내의 상기 액션들에 대한 상기 각각의 Q 값들을 사용하여 상기 관측에 응답하여 상기 에이전트에 의해 수행될 액션을 선택하는 동작을 포함하는 것을 특징으로 하는 시스템.
청구항 2에 있어서, 상기 결투 심층 신경 네트워크는:
하나 이상의 초기 신경 네트워크 계층들을 더 포함하며, 상기 초기 신경 네트워크 계층들은:
상기 관측을 수신하고; 그리고
상기 관측의 상기 표현을 생성하기 위해 상기 관측을 처리하도록 구성되는 것을 특징으로 하는 시스템.
청구항 3에 있어서, 상기 관측은 이미지이고, 상기 하나 이상의 초기 신경 네트워크 계층들은 컨볼루션 신경 네트워크 계층들인 것을 특징으로 하는 시스템.
전술한 항들 중 어느 한 항에 있어서, 상기 관측의 상기 표현이 상기 관측인 것을 특징으로 하는 시스템.
전술한 항들 중 어느 한 항에 있어서, 상기 값 추정치와 상기 각각의 이점 추정치를 결합하는 것은:
액션들의 상기 세트에서 상기 액션들에 대한 상기 각각의 이점 추정치들의 중심 경향의 척도를 결정하는 것;
중심 경향의 상기 척도를 사용하여 상기 액션에 대한 상기 각각의 이점 추정치를 조정함으로써 상기 액션에 대한 각각의 조정된 이점 추정치를 결정하는 것; 및
상기 액션에 대한 상기 각각의 Q 값을 결정하기 위해 상기 액션에 대한 상기 각각의 이점 추정치 및 상기 값 추정치를 결합하는 것을 포함하는 것을 특징으로 하는 시스템.
전술한 항들 중 어느 한 항에 있어서, 상기 값 서브네트워크는 파라미터들의 제1 집합을 가지며 상기 이점 서브네트워크는 파라미터들의 상이한 제2 집합을 갖는 것을 특징으로 하는 시스템.
청구항 2 내지 청구항 7 중 어느 한 항에 있어서, 액션들의 상기 집합 내의 상기 액션들에 대한 상기 각각의 Q 값들을 사용하여 상기 관측에 응답하여 상기 에이전트에 의해 수행될 액션을 선택하는 동작은:
상기 에이전트에 의해 수행될 상기 액션으로서 가장 높은 Q 값을 갖는 액션을 선택하는 동작을 포함하는 것을 특징으로 하는 시스템.
청구항 2 내지 청구항 8 중 어느 한 항에 있어서, 액션들의 상기 집합 내의 상기 액션들에 대한 상기 각각의 Q 값들을 사용하여 상기 관측에 응답하여 상기 에이전트에 의해 수행될 액션을 선택하는 동작은:
확률 ε을 갖는 액션들의 상기 집합으로부터 랜덤 액션을 선택하는 동작; 및
확률 1 - ε을 갖는 가장 높은 Q 값을 갖는 액션을 선택하는 동작을 포함하는 것을 특징으로 하는 시스템.
값 서브네트워크와 이점 서브네트워크를 포함하는 결투 심층 신경 네트워크를 사용하여 환경과 인터랙팅 하는 에이전트에 의해 수행될 액션들의 집합으로부터 액션들을 선택하기 위한 방법으로서, 상기 상법은:
상기 환경의 현재 상태를 특징짓는 관측의 표현을 획득하는 단계;
상기 값 서브네트워크를 사용하여 상기 관측의 상기 표현을 처리하는 단계, 상기 값 서브네트워크는:
상기 관측의 상기 표현을 수신하고; 그리고
값 추정치를 생성하기 위해 상기 관측의 상기 표현을 처리하도록 구성되며, 상기 값 추정치는 상기 환경이 상기 현재 상태에 있는 결과로 인한 예상 리턴의 추정치이며;
상기 이점 서브네트워크를 사용하여 상기 관측의 상기 표현을 처리하는 단계, 상기 이점 서브네트워크는:
상기 관측의 상기 표현을 수신하고; 그리고
상기 환경이, 상기 환경이 상기 현재 상태에 있을 때 상기 에이전트가 다른 액션들을 수행한 결과로 인한 상기 리턴과 관련된, 상기 현재 상태에 있는 경우, 상기 에이전트가 상기 액션을 수행한 결과로 인한 상기 리턴의 상대적 척도의 추정치인 액션들의 상기 집합내의 각 액션에 대한 각각의 이점 추정치를 생성하기 위해, 상기 관측의 상기 표현을 처리하도록 구성되며
각 액션에 대해, 상기 액션에 대한 각각의 Q 값을 생성하기 위해 상기 액션에 대한 상기 각각의 이점 추정치 및 상기 값 추정치를 결합하는 단계, 상기 각각의 Q 값은 상기 환경이 상기 현재 상태에 있을 때 상기 에이전트가 상기 액션을 수행한 결과로 인한 예상 리턴의 추정치이며; 및
액션들의 상기 집합 내의 상기 액션들에 대한 상기 각각의 Q 값들을 사용하여 상기 관측에 응답하여 상기 에이전트에 의해 수행될 액션을 선택하는 단계를 포함하는 것을 특징으로 하는 방법.
청구항 10에 있어서, 상기 결투 심층 신경 네트워크는 하나 이상의 초기 신경 네트워크 계층들을 포함하며, 상기 방법은:
상기 하나 이상의 초기 신경 네트워크 계층들을 사용하여 상기 관측을 처리하는 단계를 더 포함하며, 상기 하나 이상의 초기 신경 네트워크 계층들은:
상기 관측을 수신하고; 그리고
상기 관측의 상기 표현을 생성하기 위해 상기 관측을 처리하도록 구성되는 것을 특징으로 하는 방법.
청구항 11에 있어서, 상기 관측은 이미지이고, 상기 하나 이상의 초기 신경 네트워크 계층들은 컨볼루션 신경 네트워크 계층들인 것을 특징으로 하는 방법.
청구항 10 내지 청구항 12 중 어느 한 항에 있어서, 상기 관측의 상기 표현이 상기 관측인 것을 특징으로 하는 방법.
청구항 10 내지 청구항 13 중 어느 한 항에 있어서, 상기 값 추정치와 상기 각각의 이점 추정치를 결합하는 단계는:
액션들의 상기 세트에서 상기 액션들에 대한 상기 각각의 이점 추정치들의 중심 경향의 척도를 결정하는 단계;
중심 경향의 상기 척도를 사용하여 상기 액션에 대한 상기 각각의 이점 추정치를 조정함으로써 상기 액션에 대한 각각의 조정된 이점 추정치를 결정하는 단계; 및
상기 액션에 대한 상기 각각의 Q 값을 결정하기 위해 상기 액션에 대한 상기 각각의 이점 추정치 및 상기 값 추정치를 결합하는 단계를 포함하는 것을 특징으로 하는 방법.
청구항 10 내지 청구항 14 중 어느 한 항에 있어서, 상기 값 서브네트워크는 파라미터들의 제1 집합을 가지며 상기 이점 서브네트워크는 파라미터들의 상이한 제2 집합을 갖는 것을 특징으로 하는 방법.
청구항 10 내지 청구항 15에 있어서, 액션들의 상기 집합 내의 상기 액션들에 대한 상기 각각의 Q 값들을 사용하여 상기 관측에 응답하여 상기 에이전트에 의해 수행될 액션을 선택하는 단계는:
상기 에이전트에 의해 수행될 상기 액션으로서 가장 높은 Q 값을 갖는 액션을 선택하는 단계를 포함하는 것을 특징으로 하는 방법.
청구항 10 내지 청구항 15 중 어느 한 항에 있어서, 액션들의 상기 집합 내의 상기 액션들에 대한 상기 각각의 Q 값들을 사용하여 상기 관측에 응답하여 상기 에이전트에 의해 수행될 액션을 선택하는 단계는:
확률 ε을 갖는 액션들의 상기 집합으로부터 랜덤 액션을 선택하는 단계; 및
확률 1 - ε을 갖는 가장 높은 Q 값을 갖는 액션을 선택하는 단계를 포함하는 것을 특징으로 하는 방법.
명령어들이 인코딩된 컴퓨터 저장 매체로서, 상기 명령어들은 하나 이상의 컴퓨터들에 의해 실행될 때, 상기 하나 이상의 컴퓨터들로 하여금 청구항 10 내지 청구항 17 중 어느 한 항의 상기 각각의 방법의 상기 동작들을 수행하게 하는 것을 특징으로 하는 컴퓨터 저장 매체.