KR20210123586A - 모방 학습을 통한 사물 자율 제어 방법 및 장치 - Google Patents

모방 학습을 통한 사물 자율 제어 방법 및 장치 Download PDF

Info

Publication number
KR20210123586A
KR20210123586A KR1020200040892A KR20200040892A KR20210123586A KR 20210123586 A KR20210123586 A KR 20210123586A KR 1020200040892 A KR1020200040892 A KR 1020200040892A KR 20200040892 A KR20200040892 A KR 20200040892A KR 20210123586 A KR20210123586 A KR 20210123586A
Authority
KR
South Korea
Prior art keywords
policy
reward
environment
information
trajectory
Prior art date
Application number
KR1020200040892A
Other languages
English (en)
Inventor
최진철
손영성
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020200040892A priority Critical patent/KR20210123586A/ko
Publication of KR20210123586A publication Critical patent/KR20210123586A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0011Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots associated with a remote control arrangement
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16YINFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
    • G16Y20/00Information sensed or collected by the things
    • G16Y20/10Information sensed or collected by the things relating to the environment, e.g. temperature; relating to location
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16YINFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
    • G16Y40/00IoT characterised by the purpose of the information processing
    • G16Y40/30Control
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16YINFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
    • G16Y40/00IoT characterised by the purpose of the information processing
    • G16Y40/60Positioning; Navigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Software Systems (AREA)
  • Automation & Control Theory (AREA)
  • Tourism & Hospitality (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Environmental & Geological Engineering (AREA)
  • Toxicology (AREA)
  • Manipulator (AREA)

Abstract

본 발명은 모방 학습을 통한 객체를 자율 제어하는 방법 및 장치에 대한 것으로서, 본 발명의 일 실시예에 따른 사물 자율 제어 방법은 정책에 기반한 동작 명령에 따라 동작한 사물의 출력값을 획득하는 단계, 상기 정책에 대한 보상을 결정하는 단계, 상기 보상을 최적화하는 방향으로 상기 정책을 업데이트 하는 단계를 포함할 수 있다.
본 발명에 의하면, 사물인터넷 환경에서 사람의 행동 궤적을 모방 학습하여 사물 제어 시스템이 사용자의 개입이 없음에도 전문가가 조작하는 것과 같이 동작하도록 도움을 줄 수 있다.

Description

모방 학습을 통한 사물 자율 제어 방법 및 장치{Method and Apparatus for Automatic Control through imitation Learning}
본 발명은 사람의 작업 시연으로부터 획득된 행동 궤적 데이터를 모방하는 학습을 통한 사물 자율 제어 방법 및 장치에 대한 것이다.
인터넷은 인간이 정보를 생성하고 소비하는 인간 중심의 연결 망에서, 사물 등 분산된 구성 요소들 간에 정보를 주고받아 처리하는 사물인터넷(Internet of Things, IoT) 망으로 진화하고 있다. IoE(Internet of Everything) 기술은 클라우드 서버 등과의 연결을 통한 빅데이터 (Big data) 처리 기술 등이 IoT 기술에 결합된 하나의 예가 될 수 있다.
IoT를 구현하기 위해서, 센싱 기술, 유무선 통신 및 네트워크 인프라, 서비스 인터페이스 기술, 및 보안 기술 등과 같은 기술 요소 들이 요구되어, 최근에는 사물 간의 연결을 위한 센서 네트워크(sensor network), 사물 통신(Machine to Machine, M2M), MTC (Machine Type Communication) 등의 기술이 연구되고 있다.
IoT 환경에서는 연결된 사물들에서 생성된 데이터를 수집, 분석하여 사람의 삶에 새로운 가치를 창출하는 지능형 IT(Internet Technology) 서비스가 제공될 수 있다. IoT는 기존의 IT 기술과 다양한 산업 간의 융합 및 복합을 통하여 스마트홈, 스마트 빌딩, 스마트 시티, 스마트 카 혹은 커넥티드(Connected) 카, 스마트 그리드, 헬스 케어, 스마트 가전, 첨단의료서비스 등의 분야에 응용될 수 있다.
한편, IoT 환경에서 사람의 제어를 통해 원격의 로봇을 작동하는 텔레로보틱스(telerobotics)나 텔레프레즌스(telepresence) 로봇 등의 원격 제어 시스템은 사람의 감각과 작업능력을 멀리 떨어진 공간까지 확대시켜줄 수 있다. 예를 들어, 의사가 로봇을 이용하여 원격의 환자를 수술할 수 있으며, 화재 현장에서 소방관이 무인 비행체와 로봇을 이용하여 구조작업을 할 수 있게 한다.
사물과 멀리 떨어져 있는 사람에게 생생한 현장감과 사물의 작동/제어 능력을 제공하기 위해, 이러한 사물 원격 제어 시스템에는, IoT 환경과 더불어 초고속네트워크, AR/VR 기반 가상화 기술, 모션 캡쳐와 햅틱 센서, 사용자 친화적인 인터페이스 등 다양한 기술이 융합되어 활용될 수 있다.
한편, 원격 사물 제어 시스템은 3단계의 발전 단계를 가질 수 있다.
첫번째 단계는 직접 원격 제어(Direct Teleoperation)이다. 직접 원격 제어란, 예를 들어, 주어진 임무 수행을 위해 원격의 사물에 필요한 모든 행동을, 사람이 직접 단말기를 통해 입력함으로써 제어하는 것이다.
두번째 단계는 공유 원격 제어(Shared Teleoperation)로써 원격의 사물과 사용자가 역할을 분담하고 협업하여 임무를 수행하는 것이다. 예를 들어, 원격의 사물이 무인 비행체이고, 무인 비행체를 이용하여 영상을 촬영해야 할 때, 사용자는 어떤 장면을 촬영할 것인지를 제어하고, 무인 비행체가 높이와 평행유지, 떨림 방지 등을 자동적으로 처리하는 것이다.
세번째 단계는 지도 원격 제어(Supervised Teleoperation)로서, 사용자가 의사결정을 내리면, 원격의 사물은 상기 의사 결정에 따른 실제 작업을 스스로 수행하는 제어 시스템이다. 예를 들어, 수술이 종료된 후 의사가 원격의 사물에게 봉합을 명령하면 상기 사물이 사용자의 개입없이 스스로 봉합할 수 있다.
현재의 원격 제어 시스템은 아직 1단계와 2단계 초기 수준에 머무르고 있으며, 2, 3단계로 진화하기 위해서는 사람과 원격의 사물이 협업할 수 있도록 지원하는 기술과 원격의 사물에게 행동 양식을 학습시켜 작업 처리의 자율성을 부여할 수 있는 기술 등이 필요하다.
상술한 종래 기술의 문제점을 해결하기 위해, 본 발명의 목적은 사물이 사람의 행동 궤적 데이터를 모방학습 하여 작업을 수행할 수 있게 하는 자율 제어 방법 및 장치를 제공하는 데 있다.
또한, 본 발명의 목적은 원격의 사물과 사람이 협업할 수 있도록 지원하는 기술을 제공하는 데 있다.
또한, 본 발명의 목적은 원격의 사물이 자율적으로 작업을 수행할 때 정확성과 전문성을 갖추기 위한 자율 제어 방법 및 장치를 제공하는 데 있다.
또한, 본 발명의 목적은 사물에게 작업 처리의 자율성을 부여할 수 있는 자율 제어 방법 및 장치를 제공하는 데 있다.
본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허청구범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
상기 목적을 달성하기 위한, 본 발명의 일 실시예에 따른 모방 학습을 통한 사물 자율 제어 장치는, 동작 명령에 따라 동작한 사물의 출력 값을 획득하는 수집부 및 정책으로부터 상기 동작 명령을 결정하고, 상기 동작 명령을 상기 사물에 적용하고, 상기 출력 값을 이용하여 상기 정책에 대한 보상을 결정하고, 상기 보상을 최적화하는 방향으로 상기 정책을 업데이트하는 강화학습을 수행하는 프로세서를 포함할 수 있다.
한편, 상기 프로세서는, 상기 보상을 최적화하기 위해, 상기 정책이 궤적 데이터를 모방하도록 정책을 업데이트 하는 것을 특징으로 할 수 있다.
한편, 상기 사물의 출력 값은 상기 사물의 동작에 따라 변화하는 환경에 대한 환경 관찰 정보를 포함하는 것을 특징으로 할 수 있다.
한편, 상기 궤적 데이터는 작업 시연에 따른 사물의 움직임에 대한 정보를 포함하는 입력 제어 정보와 상기 사물의 움직임에 따라 변화하는 환경에 대한 환경 관찰 정보를 포함하는 것을 특징으로 할 수 있다.
한편, 상기 프로세서는 상기 환경 관찰 정보를 기반으로 상태 파라미터를 도출하는 것을 특징으로 할 수 있다.
한편, 상기 프로세서는 상기 보상과 상기 정책을 각각 파라미터화하는 것을 특징으로 할 수 있다.
한편, 상기 보상은 상기 궤적 데이터, 상기 상태 파라미터 및 현재의 정책 파라미터를 이용하여 도출되는 것을 특징으로 할 수 있다.
한편, 상기 입력 제어 정보는 상기 작업 시연에 포함되는 사물의 전원 동작, 사물의 자세 변화값, 사물의 기울임 정도, 사물의 상승 및 하강 정도에 대한 정보를 포함될 수 있다.
한편, 상기 환경 관찰 정보는 사물의 동작 속도, 상기 사물의 동작에 따른 GPS 센서로부터 측정된 위치 값 및 위치 변화 값 등을 포함할 수 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 모방 학습을 통한 사물 자율 제어 방법은 정책에 기반한 동작 명령에 따라 동작한 사물의 출력값을 획득하는 단계, 상기 정책에 대한 보상을 결정하는 단계, 상기 보상을 최적화하는 방향으로 상기 정책을 업데이트 하는 단계를 포함할 수 있다.
한편, 상기 업데이트 하는 단계는, 상기 보상을 최적화하기 위해 상기 정책이 궤적 데이터를 모방하도록 정책을 업데이트 하는 것을 특징으로 할 수 있다.
한편, 상기 출력값은 상기 사물의 동작에 따라 변화하는 환경에 대한 환경 관찰 정보를 포함하는 것을 특징으로 할 수 있다.
한편, 상기 궤적 데이터는 작업 시연에 따른 사물의 움직임에 대한 정보를 포함하는 입력 제어 정보와 상기 사물의 움직임에 따라 변화하는 환경에 대한 환경 관찰 정보를 포함하는 것을 특징으로 할 수 있다.
한편, 상기 보상을 결정하는 단계 이전에, 상기 환경 관찰 정보를 기반으로 상태 파라미터를 도출하는 단계를 더 포함할 수 있다.
한편, 상기 보상과 상기 정책은 각각 파라미터화 된 것을 특징으로 할 수 있다.
한편, 상기 보상을 결정하는 단계는, 상기 보상을 상기 궤적 데이터, 상기 상태 파라미터 및 현재의 정책 파라미터를 기반으로 도출하는 것을 특징으로 할 수 있다.
한편, 상기 입력 제어 정보는 상기 작업 시연에 포함되는 사물의 전원 동작, 사물의 자세 변화값, 사물의 기울임 정도, 사물의 상승 및 하강 정도에 대한 정보를 포함할 수 있다.
한편, 상기 환경 관찰 정보는 사물의 동작 속도, 사물의 동작에 따른 GPS 센서로부터 측정된 위치 값 및 위치 변화 값 등을 포함할 수 있다.
상기 목적을 달성하기 위한, 본 발명의 일 실시예에 따른 사물 자율 제어 시스템은, 사물 인터넷 기반 환경에서, 제어 대상인 사물, 작업 시연에 따른 궤적 데이터를 수집하는 궤적 수집부, 상기 궤적 데이터와 정책을 이용하여 보상을 결정하는 보상 학습부, 상기 보상을 최적화하는 정책을 도출하는 정책 학습부, 상기 정책을 기반으로 사물의 동작 명령을 결정하는 학습 제어부 및 상기 동작 명령에 따른 사물의 출력값을 수집하여 상태 파라미터화 하는 상태 수집부를 포함할 수 있다.
본 발명에 의하면 사물이 행동 궤적 데이터를 모방 학습하게 하여 작업 수행의 자율성을 획득하게 할 수 있다.
본 발명에 의하면, 사물이 자율적으로 수행하는 작업의 높은 완성도와 정확도를 기대할 수 있다.
본 발명에 의하면, 원격의 사물과 사람이 역할을 분담하고 협업하여 하나의 임무를 수행할 수 있다.
본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 모방 학습을 통한 사물 자율 제어 시스템을 도시한 것이다.
도 2는 본 발명의 일 실시예에 따른 모방 학습을 통한 사물 자율 제어 동작의 흐름도를 도시한 것이다.
도 3은 본 발명의 일 실시예에 따른 모방 학습을 통한 사물 자율 제어 장치를 도시한 것이다.
도 4는 본 발명의 일 실시예에 따른 보상 파라미터와 정책 파라미터의 업데이트 알고리즘을 도시한 것이다.
도 5는 본 발명의 일 실시예에 따른 복수의 사물 자율 제어 장치가 통합적으로 구성된 시스템을 도시한 것이다.
이하에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.
본 발명의 실시 예를 설명함에 있어서 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그에 대한 상세한 설명은 생략한다. 그리고, 도면에서 본 발명에 대한 설명과 관계없는 부분은 생략하였으며, 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본 발명에 있어서, 서로 구별되는 구성요소들은 각각의 특징을 명확하게 설명하기 위함이며, 구성요소들이 반드시 분리되는 것을 의미하지는 않는다. 즉, 복수의 구성요소가 통합되어 하나의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있고, 하나의 구성요소가 분산되어 복수의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있다. 따라서, 별도로 언급하지 않더라도 이와 같이 통합된 또는 분산된 실시 예도 본 발명의 범위에 포함된다.
본 발명에 있어서, 다양한 실시 예에서 설명하는 구성요소들이 반드시 필수적인 구성요소들을 의미하는 것은 아니며, 일부는 선택적인 구성요소일 수 있다. 따라서, 일 실시 예에서 설명하는 구성요소들의 부분집합으로 구성되는 실시 예도 본 발명의 범위에 포함된다. 또한, 다양한 실시 예에서 설명하는 구성요소들에 추가적으로 다른 구성요소를 포함하는 실시 예도 본 발명의 범위에 포함된다.
본 발명에 있어서, 다양한 실시 예에서 설명하는 구성요소들이 반드시 필수적인 구성요소들을 의미하는 것은 아니며, 일부는 선택적인 구성요소일 수 있다. 따라서, 일 실시 예에서 설명하는 구성요소들의 부분집합으로 구성되는 실시 예도 본 발명의 범위에 포함된다. 또한, 다양한 실시 예에서 설명하는 구성요소들에 추가적으로 다른 구성요소를 포함하는 실시 예도 본 발명의 범위에 포함된다.
본 발명에 있어서, 제1, 제2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용되며, 특별히 언급되지 않는 한 구성요소들 간의 순서 또는 중요도 등을 한정하지 않는다. 따라서, 본 개시의 범위 내에서 일 실시 예에서의 제1 구성요소는 다른 실시 예에서 제2 구성요소라고 칭할 수도 있고, 마찬가지로 일 실시예에서의 제2 구성요소를 다른 실시예에서 제1 구성요소라고 칭할 수도 있다.
본 발명의 어떤 구성요소가 다른 구성요소에 “연결되어” 있다거나 “접속되어” 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있으나, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성 요소가 다른 구성 요소에 “직접 연결되어” 있다거나, “직접 접속되어” 있다고 언급된 때에는, 중간에 다른 구성 요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 발명은 사물인터넷 환경에서 사람의 행동 궤적을 모방 학습하여 사용자의 직접적인 조작 없이도 사물이 자율적으로 동작하기 위한 기술에 대한 것이다.
보다 상세하게는, 폐루프로서, 결정된 정책에 따라 수집된 환경 관찰 정보와 사람의 궤적 데이터를 비교하여 보상 파라미터를 결정, 즉 업데이트하고, 업데이트된 보상에 따라 정책을 업데이트 함을 반복하여 목표 값인 사람의 궤적 데이터에 가까워지는 형태로 사물을 자율 제어하는 기술에 대한 것이다.
또한, 본 발명에서 사물이란 사물인터넷 기반의 모든 사물을 의미하는 것으로, 예를 들어 로봇이나 무인 비행체와 같은 사물인터넷 기반의 장치를 포함할 뿐만 아니라 기계나 프로세스를 통제하기 위해 사용되는 사물인터넷 기반의 시스템을 의미할 수도 있는 바, 어떠한 한정이 없다고 할 것이다.
또한, 본 발명의 일 실시예에 따른 사물 자율 제어 장치는, 상기 사물에 포함되거나 부착될 수도 있으며, 사물인터넷 기반으로 제어의 대상인 사물과 통신하는 원격의 장치 등 다양한 형태로 구현될 수 있으며 이에 한정되는 것은 아니고, 사물을 제어할 수 있는 형태라면 어떤 형태이든 가능할 것이다.
또한, 본 발명의 실시예를 설명함에 있어서 행동 궤적 데이터와 궤적 데이터는 혼용될 수 있다.
또한, 본 발명의 실시예를 설명함에 있어서 제어 정책과 정책은 혼용될 수 있다.
또한, 본 발명의 실시예를 설명함에 있어서 보상은 보상 파라미터로 나타날 수 있으며, 정책은 정책 파라미터로 나타날 수 있다.
또한, 본 발명의 실시예는 사물인터넷 기반 환경에서 실시되는 것일 수 있다.
이하, 첨부한 도면을 참조하여 본 발명의 실시 예들에 대해서 설명할 것이다.
도 1은 본 발명의 일 실시예에 따른 모방 학습을 통한 사물 자율 제어 시스템에 대한 것이다. 상기 시스템은, 일 실시예로서, 궤적 수집부(102), 정책 학습부(103), 보상 학습부(104), 상태 수집부(105), 학습 제어부(106), 제어 대상이 되는 사물(107)을 포함할 수 있다. 또한, 상기 시스템이 수행되는 환경(108)은 통신이 가능한 사물인터넷 기반의 환경을 포함할 수 있다.
보다 상세하게는, 본 발명의 일 실시예에 따라 사람(101)이 작업의 시연을 하고, 시연에 따라 행동 궤적 데이터, 즉 궤적 데이터를 생성하고, 상기 궤적 데이터를 모방 학습하여 보상(reward)과 정책(policy)을 도출하기 위한 시스템의 구성을 설명하기 위한 도면이다.
여기서 보상이란 상기 시스템의 행동에 대한 성공이나 실패를 측정하는 피드백일 수 있고, 정책은 시스템이 현재 상태를 기준으로 다음의 행동을 결정하는 데 사용하는 전략이 될 수 있다.
일 실시예로서, 상기 시스템의 최초 구동 시 사람(101)이 제어 대상인 사물의 작업 시연을 하면 궤적 수집부(102)가 작업 시연의 궤적을 수집하여 궤적 데이터를 생성할 수 있다.
다만, 시스템의 최초 구동이 아니라 하더라도 시스템 구동 중 궤적 데이터를 변경해야 할 필요성이 있는 경우에는 새로운 사물의 작업 시연에 따른 새로운 궤적 데이터가 수집될 수 있다.
상기 궤적 데이터는 현재 사물(107)에 수행된 작업 시연에 따른 모든 사물의 동작 및 사물의 자세 변화 등을 포함할 수 있다.
예를 들어, 상기 궤적 데이터는 입력 제어 정보와 환경 관찰 정보를 포함할 수 있다.
일 실시예로서, 상기 궤적 데이터에 포함된 입력 제어 정보는 사람의 시연에 포함된, 사물을 제어하기 위한 명령에 대한 정보를 포함할 수 있으며, 상기 환경 관찰 정보는 상기 사물이 동작하는 작업 환경에 대한 정보를 포함할 수 있다.
예를 들어, 상기 입력 제어 정보에는 사람의 시연에 포함되는 사물의 전원(온/오프) 동작부터, 사물의 자세와 관련된, 사물의 좌-우 회전 변화 값, 사물의 기울임 정도, 사물의 상승 및 하강 정도에 대한 정보를 포함할 수 있다.
상기 환경 관찰 정보는 예를 들어, 상기 사물의 동작에 따라 작업 환경이 변화한 값에 대한 정보 등을 포함할 수 있는데, 상기 사물이 작업 환경에 위치한 다른 요소와 연동되어 동작해야 하는 경우 상기 다른 요소에 대한 정보나, 상기 사물의 동작이 여러 동작으로 이루어진 때 각 동작에 따른 중간 산물의 상태에 대한 정보를 포함할 수 있고, 사물의 동작에 따라 작업 환경의 온도, 조도, 습도 등이 변화하였고 상기 변화가 작업에 중요한 경우에는, 상기 환경 관찰 정보에 포함될 수 있다.
뿐만 아니라, 사물의 동작 속도, 사물의 동작에 따른 GPS 센서로부터 측정된 위치 값 및 이를 포함한 사물에 포함될 수 있는 다른 센서 혹은 작업 환경에 위치할 수 있는 센서의 측정값, 및 환경의 상태 변경 값 등에 대한 정보를 포함할 수 있는데, 이에 한정되는 것은 아니다. 또한, 상기 GPS 센서로부터 측정된 위치 값은 좌표 값으로서 나타날 수 있다.
뿐만 아니라, 사물에 작업 시연 시 움직이는 방향, 사물의 동작 상태가 변화하는 경우 각 동작 상태의 변경 값 및 각 동작 상태의 지속 시간 등을 포함할 수 있다.
상기 사물이나 상기 환경에 포함될 수 있는 센서는 위치 정보를 좌표로 출력하는 GPS 센서, 센서에 가해지는 3축 방향(x축, y축, z축)의 가속도를 측정할 수 있는 가속도 센서, 3차원 공간에서 x축, y축, z축 방향의 각가속도를 측정하여 사물의 기울기 정보를 제공하는 자이로(Gyroscope) 센서 등을 포함할 수 있으며, 이에 한정되는 것은 아니다.
상기 궤적 수집부(102)는 이러한 궤적 데이터 집합을 보상 학습부에 전달할 수 있으며, 상기 전달은 시스템 최초 구동시 혹은 새로운 궤적 데이터가 수집되었을 때에만 이루어질 수 있다.
일 실시예로서, 상기 정책 학습부(103)는 실질적으로 사물(107)을 제어하기 위한 정책을 도출할 수 있다. 상기 정책은 정책 파라미터로서 나타날 수 있으며, 보상 학습부(104)에서 도출하는 보상 파라미터를 최적화하는 방향으로 정책 파라미터, 즉 정책을 결정, 즉 업데이트 할 수 있다. 또한 상기 정책은 상기 사람의 작업 시연을 추종하도록, 즉 상기 궤적 데이터와 유사해지도록 업데이트되는 것이 바람직할 것이며, 상기 보상 파라미터로부터 상기 정책을 도출할 때 인공지능 기반의 강화학습 기법의 적용이 가능할 수 있다. 강화학습 알고리즘에 있어서는, 예를 들어, 정책 그라디언트(Policy Gradient) 기법이나 Q-학습(Learning) 기법 등이 응용될 수 있으나, 이에 한정되는 것은 아니며, 상기 알고리즘의 일 예는 도 4에서 더욱 상세하게 설명할 것이다.
또한, 상기 정책 학습부(103)는 상기 정책을 학습 제어부(106)와 보상 학습부(104)에 전달할 수 있다.
한편, 상기 정책 학습부(103)는 최초 구동시 혹은 새로운 궤적 데이터가 수집된 경우에는 정책 파라미터를 초기화 할 수 있다.
일 실시예로서, 상기 학습 제어부(106)는 전달받은 정책을 기반으로 사물의 동작을 제어하는 명령을 결정할 수 있고, 상기 명령을 사물(107)에 전달할 수 있다. 상기 사물은 수신된 명령에 따라 동작할 수 있다.
일 실시예로서, 상기 상태 수집부(105)는 상기 사물(107)의 동작에 따른 환경 관찰 정보를 수집할 수 있다. 즉, 상기 명령을 수행한 사물의 출력값을 수집할 수 있는데, 상기 출력 값이 환경 관찰 정보를 포함할 수 있다. 또한, 상기 환경 관찰 정보를 상태 파라미터화 할 수 있으며 필요시 입력 제어 정보를 더 수집하여 입력 제어 정보와 환경 관찰 정보를 상태 파라미터화할 수 있다.
상기 입력 제어 정보와 상기 환경 관찰 정보는, 궤적 수집부(102)에서 수집되는 궤적 데이터에 포함된 입력 제어 정보 및 환경 관찰 정보와 달리 사람의 작업 시연을 기반으로 하지 않고, 현재 결정된 정책에 의한 명령에 따른 상기 사물의 동작을 기반으로 한다는 점을 제외하면, 상기 궤적 수집부(102)에서 설명한 입력 제어 정보의 정의와 상기 환경 관찰 정보의 정의와 동일할 수 있다. 즉, 입력 제어 정보는 현재 정책에 따른 사물을 제어하기 위한 명령에 대한 정보를 포함할 수 있으며, 환경 관찰 정보는 상기 현재 정책에 따라 상기 사물이 동작하는 작업 환경에 대한 정보를 포함할 수 있다. 또한, 상기 입력 제어 정보와 상기 환경 관찰 정보에 각각 포함될 수 있는 정보의 유형, 예를 들어, 사물의 기울임 정도나 전원 동작 혹은 GPS 센서 값 등도 상기에서 설명한 바와 동일할 수 있다.
또한, 상기 입력 제어 정보와 상기 환경 관찰 정보를 기반으로 사물의 상태를 나타내는 정보, 즉 상태 파라미터를 생성할 수 있다. 이를 보상 학습부(104)에 전달할 수 있다.
상기 보상 학습부(104)에서는 일 실시예로서, 상기 전달받은 궤적 데이터 집합, 상태 수집부로부터 도출된 상기 상태 파라미터 및 사물에 입력된 정책으로부터 도출된 현재의 정책 파라미터를 이용하여 보상 파라미터를 도출하고 정책 학습부(103)에 전달할 수 있다. 이때, 보상은 사물의 각 동작이 얼마나 가치 있는지 판단하기 위하여 예측되는 누적 보상일 수 있다.
한편, 상기 보상 학습부(104)는 최초 구동 시 혹은 새로운 궤적 데이터가 수집된 경우에는 보상 파라미터를 초기화 할 수 있다.
일 실시예로서, 상기 보상 파라미터는 상기 정책이 얼마나 사람의 작업 시연에 가까운지를 평가하는 지표가 될 수 있다.
상기 사물 자율 제어 시스템은 정책 학습부와 학습 제어부를 거쳐 사물을 제어하고, 상태 수집부와 보상 학습부를 거쳐 다시 정책 학습부를 거치는 방향으로 상기 일련의 동작이 반복될 수 있으며, 상기 반복에 따라 보상 파라미터 및 정책 파라미터가 최적화될 수 있다.
도 2는 본 발명의 일 실시예에 따른 사물 자율 제어 동작의 흐름도를 나타낸 것이다. 보다 상세하게는, 도 2a는 사물 자율 제어를 위한 동작을, 사물 자율 제어 시스템에 포함될 수 있는 구성요소 별로 상세하게 나타낸 것이고, 도 2b는 사물 자율 제어 시스템 혹은 사물 자율 제어 장치에 의한 사물 자율 제어 방법의 흐름도를 도시한 것이다.
일 실시예로서, 상기 사물 자율 제어 시스템은 도 1에서 나타낸, 궤적 수집부, 정책 학습부, 보상 학습부, 상태 수집부, 학습 제어부 및 사물을 포함하는 시스템일 수 있다.
또한, 상기 사물 자율 제어 장치는, 예를 들어 도 3에서 설명할, 수집부와 프로세서를 포함하는 장치일 수 있다.
일 실시예로서, 상기 시스템이나 상기 장치가 최초 구동되었거나, 새로운 궤적 데이터를 수집해고자 할 때 사람의 작업 시연(200)에 따라 궤적 데이터가 궤적 수집부에 의해 수집될 수 있다. 이는, 시연에 따른 궤적 데이터를 수집하는 단계(S221)에 해당할 수 있다.
일 실시예로서, 상기 궤적 수집부는 궤적 데이터 집합(201)을 보상 학습부에 전달할 수 있는데, 이에 앞서 상기 정책 학습부는 정책 파라미터를 초기화(202)하고, 보상 학습부는 보상 파라미터를 초기화(203) 할 수 있다.
일 실시예로서, 상기 궤적 데이터 및 상기 궤적 데이터 집합은 도 1에서 설명한 바와 동일할 수 있다.
또한, 정책 학습부는 결정한 정책(204)을 학습 제어부에 전달할 수 있다. 이 경우, 상기 정책(204)은 시스템 구동 후 첫 정책이므로 초기화된 정책일 수 있다. 이는 정책을 결정하는 단계(S222)에 해당할 수 있다.
일 실시예로서, 초기화된 정책은 사물의 목표에 따라 임의로 기 설정된 정책일 수 있다.
상기 학습 제어부는 전달받은 정책에 따른 사물의 동작 명령(206)을 결정하여 사물에 전달할 수 있다. 상기 명령에 의해 사물이 작업 환경에서 동작(207)할 수 있다. 상기 상태 수집부는 상기 명령을 수행한 사물의 출력값을 상태 파라미터로서 획득할 수 있다. 또한 상기 사물이 동작함에 따른 환경 관찰 정보(208)는 상태 수집부에 의해 수집될 수 있으며, 필요시 입력 제어 정보를 더 수집할 수 있다. 이는 상기 정책을 사물에 적용하는 단계(S223)에 해당할 수 있다.
일 실시예로서, 상기 입력 제어 정보는 현재 정책에 따른 사물을 제어하기 위한 명령에 대한 정보를 포함할 수 있으며, 상기 환경 관찰 정보는 상기 현재 정책에 따라 상기 사물이 동작하는 작업 환경에 대한 정보를 포함할 수 있으며, 이는 도 1에서 설명한 바와 동일할 수 있다.
상기 상태 수집부는, 수집된 상기 환경 관찰 정보 등을 기반으로 상태 파라미터(209)를 생성하고, 보상 학습부에 전달할 수 있다. 이는 상기 정책을 사물에 적용하는 단계(S223)에 포함될 수 있다.
상기 보상 학습부는 상기 정책 파라미터, 상기 상태 파라미터 및 상기 궤적 데이터 집합 등에 기반하여 보상 파라미터를 업데이트(210) 할 수 있고, 업데이트 된 보상 파라미터(211)를 정책 학습부에 전달할 수 있다. 이는 보상 파라미터를 업데이트하는 단계(S224)에 포함될 수 있다.
상기 정책 학습부는 업데이트된 보상 파라미터에 기반하여 정책 파라미터, 즉 정책을 업데이트(212) 할 수 있고, 업데이트된 정책을 다시 학습 제어부에 전달(213)할 수 있다. 이는 정책을 업데이트 하는 단계(S225)에 해당할 수 있다.
이때, 보상 파라미터를 업데이트 하면서 최적화하기 위한 정책 파라미터를 도출하기 위해서는 강화 학습 기법의 적용이 가능하며, 이에 대하여는 도 1에서 설명한 바와 같을 수 있다.
이후 학습 제어부가 정책을 기반으로 동작 명령을 결정하여 사물에 동작 명령을 전달하는 등 상기에서 설명한 일련의 과정(214)이 종료 조건이 만족되지 않는 한 반복될 수 있다.(S226)
상기 종료 조건이란, 제어 대상 사물에 더 이상 자율 제어를 하지 않기로 결정하였거나, 제어 대상 사물의 구동을 종료한 경우를 포함할 수 있으며, 그 외에 기 설정된 적절한 종료 조건을 포함할 수 있다.
도 3은 본 발명의 일 실시예에 따른 사물 자율 제어 장치를 나타낸 도면이다. 상기 장치는, 일 실시예로서, 수집부(304)와 프로세서(305)를 포함할 수 있으며, 사물에 부착되거나 사물에 포함되는 형태로 구현되는 것도 가능하나, 별도의 장치의 형태를 갖는 것도 가능하다.
일 실시예로서, 수집부(304)는 상기 도 1 및 도 2의 상태 수집부 및 궤적 수집부를 포함할 수 있으며 이들이 제공하는 기능을 제공할 수 있다. 상기 수집부(304)는 상기 프로세서가 결정한 대로 동작한 사물의 출력값을 수집할 수 있다. 상기 출력값은, 예를 들어, 환경 관찰 정보를 포함할 수 있고, 입력 제어 정보 등이 더 포함될 수 있다. 상기 입력 제어 정보는 현재 정책에 따른 사물을 제어하기 위한 명령에 대한 정보를 포함할 수 있으며, 상기 환경 관찰 정보는 상기 현재 정책에 따라 상기 사물이 동작하는 작업 환경에 대한 정보를 포함할 수 있다. 이는 도 1 및 도 2에서 설명한 바와 동일할 수 있다.
또한, 상기 장치의 최초 구동 시 혹은 새로운 궤적 데이터의 수집이 필요한 경우에는 사람의 작업 시연에 따른 궤적 데이터를 수집할 수 있으며, 상기 궤적 데이터 집합을 생성할 수 있다. 상기 궤적 데이터에는 환경 관찰 정보와 입력 제어 정보가 포함될 수 있으며, 이는 도 1 내지 도 2에서 설명한 바와 동일할 수 있다.
상기 수집부(304)는 상태 파라미터로서 도출될 수 있는 상기 출력값 및 상기 궤적 데이터 집합을 프로세서(305)에 전달할 수 있다.
한편, 상기 프로세서(305)는 상기 도 1 및 도 2에 도시된 보상 학습부, 정책 학습부, 학습 제어부를 포함할 수 있으며 이들이 제공하는 기능을 제공할 수 있다. 즉, 상기 프로세서(305)는 전달받은 상기 출력값을 이용하여 상태 파라미터를 도출할 수 있고, 상기 상태 파라미터, 상기 궤적 데이터 집합을 기반으로 상기 제어 장치의 목표에 따라 보상 파라미터를 설정 및 업데이트 할 수 있다. 상기 업데이트된 보상 파라미터를 기반으로 정책을 업데이트하고, 상기 정책에 따른 동작 명령을 결정하여 사물의 동작을 제어할 수 있다.
상기 출력값에는 현재 정책에 따른 동작 명령이 적용된 사물의 동작에 따른 환경 관찰 정보가 포함될 수 있으며, 현재 정책에 따른 동작 명령에 대한 정보인 입력 제어 정보를 더 포함할 수 있다. 상기 환경 관찰 정보와 상기 입력 제어 정보는 도 1 및 도 2에서 설명한 것과 동일할 수 있다.
상기 보상 파라미터를 최적화하는 방법으로 정책을 업데이트 함에 있어서는 강화학습 기법이 적용될 수 있으며, 이는 도 1에서 설명한 내용과 동일할 수 있다. 또한 강화학습 기법에 대하여 도 5에서 설명할 내용을 포함할 수 있다.
상기 프로세서는 상기 장치가 첫 구동되거나 새로운 궤적 데이터를 수집부(304)로부터 전달받은 경우에는, 보상 파라미터 및 정책 파라미터를 모두 초기화할 수 있다.
도 4는 본 발명의 일 실시예에 따른 보상 파라미터와 정책 파라미터를 업데이트 하기 위한 강화학습 알고리즘을 나타낸 도면이다.
일 실시예로서, 사물 자율 제어 시스템 혹은 사물 자율 제어 장치의 최초 구동 시 사람의 작업 시연 궤적 데이터 집합이 생성되어 있으며, 정책 파라미터와 보상 파라미터가 초기화 되어 있다고 가정한다.
일 실시예로서, 보상 파라미터는 정책 파라미터, 상태 파라미터 및 상기 궤적 데이터 집합을 기반으로 업데이트 될 수 있다. 상기 상태 파라미터 및 정책 파라미터에 의한 사물의 동작-상태 분포 데이터와, 상기 궤적 데이터 집합에 의한 작업 시연에 의한 동작-상태 분포 데이터의 방문 빈도를 평가할 수 있다. 즉, 보상 파라미터를 최적화하기 위하여는 궤적 데이터에 의한 사물의 동작과 정책 파라미터에 의한 사물의 동작이 유사해지는 것이 목표이므로, 작업 시연에 의한 동작-상태 분포 데이터에 나타난 각 동작-상태의 방문 빈도를 유지하면서, 상기 정책에 따라 사물이 동작 시 얻게 되는 보상의 기대치인 목적 함수가 최적화되도록 보상 파라미터를 업데이트할 수 있다.
이후 업데이트된 보상 파라미터를 최적화하도록, 정책 파라미터를 업데이트할 수 있다. 이러한 과정이 반복됨으로써 보상 파라미터와 정책 파라미터가 최적화될 수 있고, 사람의 작업 시연과 가까워질 수 있다.
도 5는, 본 발명의 일 실시예로서 복수의 제어 장치가 통합적으로 구성된 일 시스템을 도시한 것이다. 보다 상세하게는, 상기 시스템은 제어 센터(502)로 연결될 수 있는 제1 장치(501) 및 제2 장치(503)를 포함할 수 있다.
일 실시예로서, 상기 제1 장치 및 제2 장치는 각각 개별의 사물 자율 제어 장치 혹은 사물 자율 제어 시스템을 의미하는 것일 수 있으며, 상기 제어 장치는 도 4를 참조하여 설명한 장치와 동일할 수 있고, 상기 제어 시스템은 도 1을 참조하여 설명한 시스템과 동일할 수 있으나, 이에 한정되는 것은 아니다. 다만 하기에서는 설명의 명료함을 위하여 제1 장치와 제2 장치가 모두 도 3에서 설명한 장치와 동일하여, 각각 수집부와 프로세서를 포함한다고 가정한다.
일 실시예로서, 제어 센터(502)는 로봇으로 이루어진 공정 시스템을 통합 관리하는 장치일 수 있다. 또한, 제 1 장치(501)는 상기 공정 시스템에 포함된 제1 공정을 수행하는 제1 로봇을 자율 제어하는 장치일 수 있으며, 제2 장치(503)는 상기 공정 시스템에 포함된 제1 공정의 출력을 이용하는 제2 공정을 수행하는 제2 로봇을 자율 제어하는 장치일 수 있다.
제어 센터(502)에서는 예를 들어, 제1 장치의 출력 값을 제2 장치에 전달하는 통신부(5021)와 제1 장치 및 제2 장치의 고장이나 필요한 알림 등을 탐지하고, 일련의 데이터 처리가 가능한 프로세서(5022)등이 포함될 수 있다.
상기 제1 장치 및 제2 장치는 각각 다른 사람의 작업 시연이나 다른 작업 시연을 궤적 데이터로 수집할 수 있으며, 동일한 작업 시연을 궤적 데이터로 수집하는 것도 가능하다. 이는 도 4에서 설명한 바와 동일할 수 있다.
또한 각각 제1 장치 및 제2 장치의 보상을 결정하고 보상을 최적화하는 방향으로 정책을 업데이트 할 수 있는데, 상기 정책을 각각 제1 로봇 및 제2 로봇에 적용하여 상기 로봇들의 상태를 보상을 결정하는 데 이용할 수 있다. 이는 도 1 내지 도 3에서 설명한 바와 동일할 수 있다. 또한, 이 경우 강화학습 기법에 의할 수 있으며, 이는 도 4의 알고리즘에 의할 수 있다.
본 개시의 다양한 실시 예는 모든 가능한 조합을 나열한 것이 아니고 본 개시의 대표적인 양상을 설명하기 위한 것이며, 다양한 실시 예에서 설명하는 사항들은 독립적으로 적용되거나 또는 둘 이상의 조합으로 적용될 수도 있다.
또한, 본 개시의 다양한 실시 예는 하드웨어, 펌웨어(firmware), 소프트웨어, 또는 그들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 범용 프로세서(general processor), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다. 예를 들어, 종단 혹은 에지에서 사용될 수 있는 비 일시적 컴퓨터 판독가능한 매체에 저장된 프로그램의 형식이나, 에지 혹은 클라우드에서 사용될 수 있는 비 일시적 컴퓨터 판독 가능한 매체에 저장된 프로그램의 형식으로도 구현될 수 있음은 자명하다. 또한, 다양한 하드웨어 및 소프트웨어의 결합으로도 구현될 수 있다.
본 발명의 일 실시예에 따른 모방 학습을 통한 사물 자율 제어 프로그램은 컴퓨터에서 정책에 기반한 동작 명령에 따라 동작한 사물의 출력 값을 획득하는 단계, 상기 정책에 대한 보상을 결정하는 단계, 상기 보상을 최적화하는 방향으로 상기 정책을 업데이트 하는 단계를 실행시키는, 비-일시적 컴퓨터 판독가능한 매체에 저장된 프로그램일 수 있다.
본 개시의 범위는 다양한 실시 예의 방법에 따른 동작이 장치 또는 컴퓨터 상에서 실행되도록 하는 소프트웨어 또는 머신-실행 가능한 명령들(예를 들어, 운영체제, 애플리케이션, 펌웨어(firmware), 프로그램 등), 및 이러한 소프트웨어 또는 명령 등이 저장되어 장치 또는 컴퓨터 상에서 실행 가능한 비-일시적 컴퓨터-판독가능 매체(non-transitory computer-readable medium)를 포함한다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로, 본 발명의 범위는 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.
101: 사람
102: 궤적 수집부
103: 정책 학습부
104: 보상 학습부
105: 상태 수집부
106: 학습 제어부
107: 사물
108: 환경

Claims (19)

  1. 정책에 기반한 동작 명령에 따라 동작한 사물의 출력 값을 획득하는 수집부; 및
    상기 동작 명령을 상기 사물에 적용하고, 상기 출력 값을 이용하여 상기 정책에 대한 보상을 결정하고, 상기 보상을 최적화하는 방향으로 상기 정책을 업데이트하는 강화학습을 수행하는 프로세서를 포함하되,
    상기 정책을 업데이트하는 경우 시연된 행동 궤적을 모방 학습하는 것을 특징으로 하는 사물 자율 제어 장치.
  2. 제1 항에 있어서,
    상기 행동 궤적은 궤적 데이터로서 수집되는 것을 특징으로 하는 사물 자율 제어 장치.
  3. 제2 항에 있어서,
    상기 사물의 출력 값은 상기 사물의 동작에 따라 변화하는 환경에 대한 환경 관찰 정보를 포함하는 것을 특징으로 하는 사물 자율 제어 장치.
  4. 제2 항에 있어서,
    상기 궤적 데이터는 작업 시연에 따른 사물의 움직임에 대한 정보를 포함하는 입력 제어 정보와 상기 사물의 움직임에 따라 변화하는 환경에 대한 환경 관찰 정보를 포함하는 것을 특징으로 하는 사물 자율 제어 장치.
  5. 제3 항에 있어서,
    상기 프로세서는,
    상기 환경 관찰 정보를 기반으로 상태 파라미터를 도출하는 것을 특징으로 하는 사물 자율 제어 장치.
  6. 제5 항에 있어서,
    상기 프로세서는
    상기 보상과 상기 정책을 각각 파라미터화하는 것을 특징으로 하는 사물 자율 제어 장치.
  7. 제6 항에 있어서,
    상기 보상은 상기 궤적 데이터, 상기 상태 파라미터 및 현재의 정책 파라미터를 이용하여 도출되는 것을 특징으로 하는 사물 자율 제어 장치.
  8. 제4 항에 있어서,
    상기 입력 제어 정보는 상기 작업 시연에 포함되는 사물의 전원 동작, 사물의 자세 변화값, 사물의 기울임 정도, 사물의 상승 및 하강 정도에 대한 정보를 포함하는 사물 자율 제어 장치.
  9. 제8 항에 있어서,
    상기 환경 관찰 정보는 사물의 동작 속도, 상기 사물의 동작에 따른 GPS 센서로부터 측정된 위치 값 및 위치 변화 값을 포함하는 사물 자율 제어 장치.
  10. 정책에 기반한 동작 명령에 따라 동작한 사물의 출력값을 획득하는 단계;
    상기 정책에 대한 보상을 결정하는 단계;
    상기 보상을 최적화하는 방향으로 상기 정책을 업데이트 하는 단계;를 포함하되,
    상기 정책을 업데이트 하는 단계는,
    시연된 행동 궤적을 모방학습하는 것을 특징으로 하는 사물 자율 제어 방법.
  11. 제10 항에 있어서,
    상기 행동 궤적은 궤적 데이터로서 수집된 것을 특징으로 하는 사물 자율 제어 방법.
  12. 제11 항에 있어서,
    상기 출력값은 상기 사물의 동작에 따라 변화하는 환경에 대한 환경 관찰 정보를 포함하는 것을 특징으로 하는 사물 자율 제어 방법.
  13. 제11 항에 있어서,
    상기 궤적 데이터는 작업 시연에 따른 사물의 움직임에 대한 정보를 포함하는 입력 제어 정보와 상기 사물의 움직임에 따라 변화하는 환경에 대한 환경 관찰 정보를 포함하는 것을 특징으로 하는 사물 자율 제어 방법.
  14. 제12 항에 있어서,
    상기 보상을 결정하는 단계 이전에,
    상기 환경 관찰 정보를 기반으로 상태 파라미터를 도출하는 단계를 더 포함하는 사물 자율 제어 방법.
  15. 제14 항에 있어서,
    상기 보상과 상기 정책은 각각 파라미터화 된 것을 특징으로 하는 사물 자율 제어 방법.
  16. 제15 항에 있어서,
    상기 보상을 결정하는 단계는,
    상기 보상을 상기 궤적 데이터, 상기 상태 파라미터 및 현재의 정책 파라미터를 기반으로 도출하는 것을 특징으로 하는 사물 자율 제어 방법.
  17. 제13 항에 있어서,
    상기 입력 제어 정보는 상기 작업 시연에 포함되는 사물의 전원 동작, 사물의 자세 변화값, 사물의 기울임 정도, 사물의 상승 및 하강 정도에 대한 정보를 포함하는 사물 자율 제어 방법.
  18. 제17 항에 있어서,
    상기 환경 관찰 정보는 사물의 동작 속도, 사물의 동작에 따른 GPS 센서로부터 측정된 위치 값 및 위치 변화 값을 포함하는 사물 자율 제어 방법.
  19. 사물 인터넷 기반 환경에서,
    제어 대상인 사물;
    작업 시연에 따른 궤적 데이터를 수집하는 궤적 수집부;
    상기 궤적 데이터와 정책을 이용하여 보상을 결정하는 보상 학습부;
    상기 보상을 최적화하는 정책을 도출하는 정책 학습부;
    상기 정책을 기반으로 사물의 동작 명령을 결정하는 학습 제어부; 및
    상기 동작 명령에 따른 사물의 출력값을 수집하여 상태 파라미터화 하는 상태 수집부를 포함하는 사물 자율 제어 시스템.
KR1020200040892A 2020-04-03 2020-04-03 모방 학습을 통한 사물 자율 제어 방법 및 장치 KR20210123586A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200040892A KR20210123586A (ko) 2020-04-03 2020-04-03 모방 학습을 통한 사물 자율 제어 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200040892A KR20210123586A (ko) 2020-04-03 2020-04-03 모방 학습을 통한 사물 자율 제어 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20210123586A true KR20210123586A (ko) 2021-10-14

Family

ID=78151286

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200040892A KR20210123586A (ko) 2020-04-03 2020-04-03 모방 학습을 통한 사물 자율 제어 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20210123586A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024085313A1 (ko) * 2022-10-19 2024-04-25 한국전자기술연구원 인공지능 기반 정보 인프라 자율제어 방법 및 시스템
WO2024091059A1 (ko) * 2022-10-27 2024-05-02 한국과학기술원 효율적인 사이버 물리 시스템 목표 검증을 위한 모방 학습을 활용한 가상 환경 모델 생성 기법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024085313A1 (ko) * 2022-10-19 2024-04-25 한국전자기술연구원 인공지능 기반 정보 인프라 자율제어 방법 및 시스템
WO2024091059A1 (ko) * 2022-10-27 2024-05-02 한국과학기술원 효율적인 사이버 물리 시스템 목표 검증을 위한 모방 학습을 활용한 가상 환경 모델 생성 기법

Similar Documents

Publication Publication Date Title
Niloy et al. Critical design and control issues of indoor autonomous mobile robots: A review
CN107671857B (zh) 用于服务机器人操作演示与算法验证的三维仿真平台
KR20200099611A (ko) 로봇 자율 모션 계획 및 내비게이션을 위한 시스템 및 방법들
Calzado et al. SAMI: interactive, multi-sense robot architecture
KR20210123586A (ko) 모방 학습을 통한 사물 자율 제어 방법 및 장치
Knopp et al. Formation control using GQ (λ) reinforcement learning
Son et al. An evaluation of haptic cues on the tele-operator's perceptual awareness of multiple UAVs' environments
KR20220128655A (ko) 제조 또는 산업 환경에서 협동 로봇과의 상호작용을 위한 가상/증강 현실 사용 시스템 및 방법
WO2008069366A1 (en) Robot simulation system using the network
Kato A remote navigation system for a simple tele-presence robot with virtual reality
Baidya et al. Digital twin in safety-critical robotics applications: Opportunities and challenges
Patil et al. Robust state and unknown input estimator and its application to robot localization
Johns et al. Robo-Stim: modes of human robot collaboration for design exploration
Krupitzer et al. RoCoSys: A framework for coordination of mobile IoT devices
CN109857258B (zh) 一种虚拟远程遥控方法及装置、***
Liu et al. A versatile vision-pheromone-communication platform for swarm robotics
Pequeño-Zurro et al. Proactive control for online individual user adaptation in a welfare robot guidance scenario: toward supporting elderly people
Haber et al. A cognitive architecture for autonomous robots
Peña-Rios et al. A fuzzy logic based system for mixed reality assistance of remote workforce
Zheng et al. Integrated system architecture with mixed-reality user interface for virtual-physical hybrid swarm simulations
Mann et al. Opportunities for enhanced robot control along the adjustable autonomy scale
Pradyumna et al. Gesture Controlled Humanoid Robot with Autonomous Movement in a Mapped Region
Turnwald et al. A platform for experimental education of control science
Wozniak et al. Virtual reality framework for better human-robot collaboration and mutual understanding
US20220402126A1 (en) Systems, computer program products, and methods for building simulated worlds