KR102143906B1 - 인공 지능 기반의 환경 적응적 경기 전략 수행 방법 및 인공 지능 기반의 경기 분석 시스템 - Google Patents

인공 지능 기반의 환경 적응적 경기 전략 수행 방법 및 인공 지능 기반의 경기 분석 시스템 Download PDF

Info

Publication number
KR102143906B1
KR102143906B1 KR1020180143319A KR20180143319A KR102143906B1 KR 102143906 B1 KR102143906 B1 KR 102143906B1 KR 1020180143319 A KR1020180143319 A KR 1020180143319A KR 20180143319 A KR20180143319 A KR 20180143319A KR 102143906 B1 KR102143906 B1 KR 102143906B1
Authority
KR
South Korea
Prior art keywords
environment
environmental
game
strategy
adaptation
Prior art date
Application number
KR1020180143319A
Other languages
English (en)
Other versions
KR20200063309A (ko
Inventor
이성환
원동옥
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020180143319A priority Critical patent/KR102143906B1/ko
Publication of KR20200063309A publication Critical patent/KR20200063309A/ko
Application granted granted Critical
Publication of KR102143906B1 publication Critical patent/KR102143906B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Marketing (AREA)
  • Artificial Intelligence (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 인공 지능 기반의 환경 적응적 경기 전략 수행 방법 및 인공 지능 기반의 경기 분석 시스템에 관한 것으로서, 인공 지능 기반의 경기 분석 시스템에 의해 수행되는 인공 지능 기반의 환경 적응적 경기 전략 수행 방법에 있어서, a) 스포츠 종류별로 가상 환경을 제공하고, 상기 가상 환경에 스포츠 종류별 실제 환경을 고려하여 불확실성 환경적 요소를 추출한 후 각 불확실성 환경적 요소에 대한 불완전 모델을 생성하는 단계; b) 상기 가상 환경에서 스포츠 종류별로 경기 진행시 상기 불완전 모델에 의해 환경 변화가 생성되고, 시간 변화에 따라 변화되는 환경 변화로 인해 획득되는 순차적 환경 적응 특징을 추출하며, 상기 순차적 환경 적응 특징과 융합되는 현재 상태 특징을 추출하는 단계; c) 상기 순차적 환경 적응 특징과 현재 상태 특징을 이용하여 목표 전략을 수립하고, 상기 수립된 목표 전략을 현실 환경에서 실행하기 위한 환경 적응 정책을 수립하는 심층 네트워크를 이용하는 단계; d) 상기 환경 적응 정책 수행에 대해 순차적으로 수행 오차를 검출하고, 상기 검출된 순차적 수행 오차에 대해 오류 함수와 가중치를 설계하여 상기 환경 적응 정책에 대한 강화학습을 수행하는 환경 적응적 프레임워크를 제공하는 단계; 및e) 실제 환경에서 경기 진행 정보를 수집하고, 상기 환경 적응적 프레임워크에 상기 수집된 경기 진행 정보를 반영하여 현재 환경 정보를 예측하고, 상기 예측된 현재 환경 정보에 적응적으로 대응하는 환경 적응 정책을 실시간 도출하는 단계를 포함하는 것이다.

Description

인공 지능 기반의 환경 적응적 경기 전략 수행 방법 및 인공 지능 기반의 경기 분석 시스템{METHOD AND SYSTEM FOR PERFORMING ENVIRONMENT ADAPTING STATEGY BASED ON AI}
본 발명은 각종 스포츠 경기의 전략 수행에 적용되어 불확실성이 있는 현실 환경에 실시간 적응할 수 있는 인공 지능 기반의 환경 적응적 경기 전략 수행 방법 및 인공 지능 기반의 경기 분석 시스템에 관한 것이다.
기계학습을 이용한 인공지능 기술이 실제 환경에 적용되기 위해 다양한 시도가 이루어지고 있다. 최근 심층강화학습 기법을 이용하여 다양한 분야에서 인공지능 스스로 문제를 학습하는 방법들을 제시하고 있다. 하지만 현재까지는 실험실 환경과 같은 제약된 환경에서 인공지능 기반의 문제 학습 실험이 진행되고 있다.
여기서, 강화학습(Reinforcement Learning)이란 어떤 환경 내에서 정의된 장치가 현재의 상태를 인식하여, 선택 가능한 행동들 중 가중치를 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다. 이러한 강화학습 기술은 최근 기계학습 분야 중에서도 가장 중요한 핵심 기술 중 하나로서, 다른 학습 방법들에 비해 탁월한 성능을 보이고 있다.
강화학습 기술은 인공지능 스스로 수많은 시행착오를 겪으면서 개선해나가는 방법으로 바로 현실 환경에 적용하기 전에 가상 환경에서 학습을 진행한다. 하지만, 가상 환경은 실제 환경에 비해 상대적으로 이상적인 환경일 수밖에 없고, 대다수 실제 환경을 가상 환경에 완벽하게 구현해 낼 수 없을 뿐만 아니라 불확실성까지 가상 환경에서 고려하는 것은 상당히 어렵다. 일례로, 자율 주행체 제어에 있어서 주요 고려 대상 중 하나인 다른 주행체의 움직임 등이 불확실성 변수로 작용한다. 따라서, 인공 지능 기술을 이용하여 가상 환경을 현실 환경으로 이전하는 문제는 여전히 도전적인 문제일 수밖에 없다.
한편, 딥러닝은 컴퓨터가 인간처럼 판단하고 학습할 수 있도록 하고, 이러한 학습을 통해 사물이나 데이터를 군집화하거나 분류하는데 사용하는 기술이다. 딥러닝의 고안으로 인공지능이 획기적으로 도약하게 되었다.
초기 인공지능은 규칙을 컴퓨터에 주입하는 지도학습법(Supervised Learning)이 활용되었다. 1990년대 중반 이후에는 인터넷의 등장으로 방대한 데이터를 수집할 수 있게 되면서 수많은 빅데이터를 분석해 인공지능 시스템 스스로 학습하는 이른바 머신러닝(Machine Learning, 기계학습)의 형태로 진화하였다. 머신러닝 기반의 인공 지능은 데이터가 포함한 내용의 특징을 파악하는 데는 한계를 보였는데, 이를 뛰어넘는 딥러닝이 고안되면서 문제가 해결되었다.
이러한 딥러닝 기반의 인공 지능 시스템은 각종 스포츠 경기에 적용되어, 경기 분석, 경기 전략 추천 등에 이용될 수 있다. 예를 들어, 인공지능(AI) 컬링 로봇은 카메라를 이용해 상황을 인식하고, 딥러닝 학습을 통해 투구 전략을 수립하여 경기를 수행할 수 있다.
일반적으로, 컬링은 각각 4명으로 구성된 두 팀이 '컬링시트(Curling sheet)'라 부르는 길이 42.07m, 너비 4.27m인 얼음 링크 위에서 컬링 스톤을 미끄러뜨려 하우스에 넣어 득점을 하는 스포츠 게임이다. 일반적으로 컬링은 '얼음 위의 체스'라 불릴 정도로 전략이 필요한 경기로, 두뇌의 회전과 상대팀과의 심리전에서 오는 긴장감을 만끽할 수 있으며 팀원과의 협동이 필요하다. 컬링에서 전략은 어떤 샷을 어떻게 구사할 것인지 결정하는 것인데, 컬링의 전략을 지시하는 스킵(Skip)이 스톤을 투구하는 스로어(Thrower)의 투구 특성, 컬링 경기장의 변수 및 스톤의 변수 등을 고려하여 목표 시키고자 하는 목표위치로 유도시킨다. 컬링은 환경적인 불확실성이 경기 상황에 지대한 영향을 미치는 스포츠로 불확실성이 있는 실제 환경에 적용하는 연구를 진행하기에 매우 적합한 환경이다.
그러나, 이러한 인공 지능 컬링 로봇은 현실 상황에서 발생하는 예기치 못한 상황에 대한 대처 능력이 부족하다는 문제점이 있다.
즉, 인공 지능 컬링 로봇은 컬링 경기 전략 알고리즘을 실행할 경우에, 빙판의 마찰 정도, 상대방의 스톤 위치 등 컬링의 불확실성 요소에 대해 취약하거나, 이러한 불확실성 요소들을 무시하는 문제점이 있다. 만일, 인공 지능 컬링 로봇이 불확실성 요소를 반영하여 경기 전략을 생성할 경우, 실제 환경에 실시간 적응적으로 대응할 수 있는 전략을 수행하는 문제를 고려하지 않고 있다.
대한민국 등록특허 제 10-1611431 호(발명의 명칭 :컬링 분석 방법, 이를 수행하기 위한 기록 매체 및 장치)
대한민국 공개특허 제10-2017-0013094호(발명이 명칭 : 작업 환경 변화에 적응적인 로봇 동작 데이터 제공 장치 및 그 방법)
본 발명은 전술한 문제점을 해결하기 위하여, 본 발명의 일 실시예에 따라 각종 스포츠 경기의 전략 수행시 심층강화학습 기법을 적용하여 불확실성이 있는 현실 환경에서 오차를 최소화하면서 실시간 환경에 적응적으로 행동을 결정할 수 있도록 하는 것에 목적이 있다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상기한 기술적 과제를 달성하기 위한 기술적 수단으로서 본 발명의 일 실시예에 따른 인공 지능 기반의 환경 적응적 경기 전략 수행 방법은, 인공 지능 기반의 경기 분석 시스템에 의해 수행되는 인공 지능 기반의 환경 적응적 경기 전략 수행 방법에 있어서, a) 스포츠 종류별로 가상 환경을 제공하고, 상기 가상 환경에 스포츠 종류별 실제 환경을 고려하여 불확실성 환경적 요소를 추출한 후 각 불확실성 환경적 요소에 대한 불완전 모델을 생성하는 단계; b) 상기 가상 환경에서 스포츠 종류별로 경기 진행시 상기 불완전 모델에 의해 환경 변화가 생성되고, 시간 변화에 따라 변화되는 환경 변화로 인해 획득되는 순차적 환경 적응 특징을 추출하며, 상기 추출된 환경 적응 특징과 융합되는 현재 상태 특징을 추출하는 단계; c) 상기 순차적 환경 적응 특징과 현재 상태 특징을 이용하여 목표 전략을 수립하고, 상기 수립된 목표 전략을 현실 환경에서 실행하기 위한 환경 적응 정책을 수립하는 심층 네트워크를 이용하는 단계; d) 상기 환경 적응 정책 수행에 대해 순차적으로 수행 오차를 검출하고, 상기 검출된 순차적 수행 오차에 대해 오류 함수와 가중치를 설계하여 상기 환경 적응 정책에 대한 강화학습을 수행하는 환경 적응적 프레임워크를 제공하는 단계; 및e) 실제 환경에서 경기 진행 정보를 수집하고, 상기 환경 적응적 프레임워크에 상기 수집된 경기 진행 정보를 반영하여 현재 환경 정보를 예측하고, 상기 예측된 현재 환경 정보에 적응적으로 대응하는 환경 적응 정책을 실시간 도출하는 단계를 포함하는 것이다.
상기한 기술적 과제를 달성하기 위한 기술적 수단으로서 본 발명의 일 실시예에 따른 인공 지능 기반의 경기 분석 시스템은, 실제 환경에서 환경 적응적 경기 전략 수행 방법을 수행하기 위한 프로그램이 기록된 메모리; 및 상기 프로그램을 실행하기 위한 프로세서를 포함하며, 상기 프로세서는, 상기 프로그램의 실행에 의해, 스포츠 종류별로 가상 환경을 제공하고, 상기 가상 환경에 스포츠 종류별 실제 환경을 고려하여 불확실성 환경적 요소를 추출한 후 각 불확실성 환경적 요소에 대한 불완전 모델을 생성하며, 상기 가상 환경에서 스포츠 종류별로 경기 진행시 상기 불완전 모델에 의해 환경 변화가 생성되면 시간 변화에 따라 변화되는 환경 변화로 인해 획득되는 순차적 환경 적응 특징을 추출하며, 상기 추출된 환경 적응 특징과 융합되는 현재 상태 특징을 추출하고, 상기 순차적 환경 적응 특징과 현재 상태 특징을 이용하여 목표 전략을 수립하고, 상기 수립된 목표 전략을 현실 환경에서 실행하기 위한 환경 적응 정책을 수립하는 심층 네트워크를 이용하며, 상기 환경 적응 정책 수행에 대해 순차적으로 수행 오차를 검출하고, 상기 검출된 순차적 수행 오차에 대해 오류 함수와 가중치를 설계하여 상기 환경 적응 정책에 대한 강화학습을 수행하는 환경 적응적 프레임워크를 제공하되, 실제 환경에서 경기 진행 정보를 수집하고, 상기 환경 적응적 프레임워크에 상기 수집된 경기 진행 정보를 반영하여 현재 환경 정보를 예측하고, 상기 예측된 현재 환경 정보에 적응적으로 대응하는 환경 적응 정책을 실시간 도출하는 것이다.
전술한 본 발명의 과제 해결 수단에 의하면, 각종 스포츠 경기의 전략 수행시 심층강화학습 기법을 적용하여 불확실성이 있는 현실 환경에서 불확실성 환경적 요소로 인해 발생되는 오차를 실시간 반영하고, 환경 정보를 예측하여 예측된 환경에 적응적으로 행동을 결정할 수 있다.
본 발명은 불확실성 환경적 요소를 반영한 가상 환경에서 심층강화학습을 수행하여 이전 상황의 오차 및 환경 정보를 이용하여 현재 상황의 환경 정보를 예측할 수 있어, 실제 환경에서 예상하지 못한 환경적인 요소가 존재하더라도 실시간 오차 교정 및 안정적인 전략 수행이 가능해질 수 있다.
도 1은 본 발명의 일 실시예에 따른 인공 지능 기반의 경기 분석 시스템의 구성을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 인공 지능 기반의 환경 적응적 경기 전략 수행 방법을 설명하는 순서도이다.
도 3은 실제 컬링 경기에서 목표 전략 수행시 가상 환경과 실제 환경에서 발생되는 오차를 설명하는 도면이다.
도 4는 가상 환경과 실제 환경의 오차를 평가 및 예측하는 과정을 설명하는 도면이다.
도 5는 본 발명의 일 실시예에 따른 심층 네트워크 및 강화 학습 과정을 설명하는 도면이다.
도 6은 본 발명의 일 실시예에 따른 환경 적응적 프레임워크를 설명하는 도면이다.
도 7은 컬링 경기에서 빙질 상태 변화를 반영한 가상 환경을 설명하는 도면이다.
도 8은 본 발명의 일 실시예에 따른 인공 지능 기반의 환경 적응적 경기 전략 수행 방법에 따른 전략 수행 결과와 기존의 컬링 로봇에 의한 전략 수행 결과에 대한 평균 오차 비교 결과를 설명하는 도면이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하의 실시예는 본 발명의 이해를 돕기 위한 상세한 설명이며, 본 발명의 권리 범위를 제한하는 것이 아니다. 따라서 본 발명과 동일한 기능을 수행하는 동일 범위의 발명 역시 본 발명의 권리 범위에 속할 것이다.
이하 첨부된 도면을 참고하여 본 발명의 일 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 인공 지능 기반의 경기 분석 시스템의 구성을 나타낸 도면이다.
도 1을 참조하면, 인공 지능 기반의 경기 분석 시스템은 불확실성이 존재하는 실제 환경에 적용되어 정책을 수행하는 것으로서, 설명의 편의상 환경적인 불확실성이 경기 상황에 지대한 영향을 미치는 컬링을 대상으로 하고 있지만, 컬링을 포함한 스포츠 경기 뿐만 아니라 불확실성이 존재하는 환경적 요소를 포함하는 다양한 환경에 적용될 수 있다.
인공 지능 기반의 경기 분석 시스템은, 투구 로봇(20)과 스킵 로봇(10)을 이용하여 인공 지능 기반으로 경기 분석을 수행하는 프로세서(100)를 포함한다.
프로세서(100)는 스킵 로봇(10)의 헤드부에 장착된 카메라(30)를 통해 경기 상황 인식, 즉 경기 진행 정보를 수집하고, 심층강화학습을 통해 투구 전략을 수립하여 경기를 수행한다. 이때, 스킵 로봇(10)은 카메라(30)를 통해 인식한 경기 영상을 프로세서(100)에 전송한다.
프로세서(100)는 데이터 입력 모듈(110), 환경 적응적 프레임워크 실행 모듈(120), 환경 적응 정책 추천 모듈(130) 및 데이터 출력 모듈(140)을 통해 경기 영상을 분석하여 현재 환경 상태를 실시간으로 예측한 후, 스톤을 어느 방향으로, 얼마만큼의 강도로 던질 것인지에 대한 투구 파라미터들을 포함한 정책을 결정하여 투구 로봇(20)에게 정책 수행을 위한 데이터를 전달하여 경기를 진행하도록 한다.
프로세서(100)는 실제 환경에서 환경 적응적 경기 전략 수행 방법을 제공하는 전체 과정을 제어한다. 프로세서(100)가 수행하는 각 단계에 대해서는 도 2를 참조하여 후술하기로 한다.
여기서, 프로세서(100)는 프로세서(processor)와 같이 데이터를 처리할 수 있는 모든 종류의 장치를 포함할 수 있다. 여기서, '프로세서(processor)'는, 예를 들어 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다.
이와 같이 하드웨어에 내장된 데이터 처리 장치의 일 예로써, 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 등의 처리 장치를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.
메모리(200)는 실제 환경에서 환경 적응적 경기 전략 수행 방법을 수행하기 위한 프로그램이 기록된다. 또한, 프로세서(100)가 처리하는 데이터를 일시적 또는 영구적으로 저장하는 기능을 수행한다. 여기서, 메모리(200)는 휘발성 저장 매체(volatile storage media) 또는 비휘발성 저장 매체(non-volatile storage media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.
도 2는 본 발명의 일 실시예에 따른 인공 지능 기반의 환경 적응적 경기 전략 수행 방법을 설명하는 순서도이고, 도 3은 실제 컬링 경기에서 목표 전략 수행시 가상 환경과 실제 환경에서 발생되는 오차를 설명하는 도면이고, 도 4는 가상 환경과 실제 환경의 오차를 평가 및 예측하는 과정을 설명하는 도면이며, 도 5는 본 발명의 일 실시예에 따른 심층 네트워크 및 강화 학습 과정을 설명하는 도면이고, 도 6은 본 발명의 일 실시예에 따른 환경 적응적 프레임워크를 설명하는 도면이다.
도 2 내지 도 6을 참조하면, 인공 지능 기반의 환경 적응적 경기 전략 수행 방법은, 환경 적응적 프레임워크를 통해 가상 환경의 불완전 모델 생성, 순차적 환경 적응 특징 및 현재 상태 특징 추출, 심층 네트워크 및 강화학습 수행, 환경 적응 정책에 대한 강화 학습을 수행한다.
먼저, 환경 적응적 프레임워크는 스포츠 종류별로 실제 환경을 고려하여 불확실성 환경적 요소를 추출한 후 각 불확실성 환경적 요소에 대한 불완전 모델을 포함하는 가상 환경을 제공한다(S110). 컬링의 경우, 빙판의 고르지 못한 마찰 계수, 시간에 따른 마모 변화, 빙질 상태 변화(온도, 습도, 정빙 등), 투구 제어 오차 등이 불확실성 환경적 요소가 될 수 있다.
환경 적응적 프레임워크는 가상 환경에서 스포츠 종류별로 경기 진행시 불완전 모델에 의해 환경 변화가 생성되면, 시간 변화에 따라 변화되는 환경 변화로 인해 획득되는 순차적 환경 적응 특징을 추출하며, 순차적 환경 적응 특징과 융합되는 현재 상태 특징을 추출한다(S120).
실제 컬링 경기에서는 도 3에 도시된 바와 같이, 목표 전략 수행시 가상 환경의 목표 위치와 현실에서의 실제 도달 위치간에 오차가 발생한다. 불확실성 환경적 요소가 존재하는 실제 환경에서는 투구 제어 오차, 마모 변화, 빙질 상태 변화 등으로 투구 스톤의 궤적이 가상 환경에서의 투구 스톤의 궤적과 차이가 발생하게 된다.
따라서, 환경 적응적 프레임워크는 도 4에 도시된 바와 같이, 가상 환경이 목표 위치와 실제 환경에서의 도달 위치의 오차를 순차적으로 검출하고, 순차적으로 검출된 오차 데이터를 통해 다음 상태의 환경 변화를 예측할 수 있는 환경 변화 예측 정보를 산출한다. 이때, 환경 적응적 프레임워크는 정책 수행시 환경 변화 예측 정보의 요인을 측정하고, 환경 적응 특징을 추출한다.
순차적 환경 적응 특징은 불완전 모델이 없거나 불완전 모델이 완벽한 상태가 아니더라도 불확실성 환경적 요소에 의한 오차, 불완전 모델에 의한 오차 등을 고려할 수 있는 특징이다. 한편, 현재 상태 특징은 실제 환경에서 측정 가능한 요인을 매 시간마다 추출 및 누적한 순차적 누적 환경 요소이다.
환경 적응적 프레임워크는 순차적 환경 적응 특징과 현재 상태 특징을 이용하여 순차적으로 목표 전략을 수립하고, 수립된 목표 전략을 현실 환경에서 실행하기 위한 환경 적응 정책을 수립하는 심층 네트워크를 이용한다(S130).
심층 네트워크는, 도 5에 도시된 바와 같이, 순차적 환경 적응 특징과 현재 상태 특징, 순차적 누적 환경 요소들이 입력 데이터로 입력되고, 입력 데이터가 복수의 컨벌루션 층을 거쳐 복수의 특징 맵(feature map)으로 출력되며, 복수의 특징 맵들을 밀집 층(Dense Layer)에서 모두 연결하여 환경 적응 정책이 출력되도록 한다.
환경 적응적 프레임워크는 순차적 환경 적응 정책을 순차적으로 수행한 후 수행 오차를 검출하고, 검출된 수행 오차에 대해 오류 함수(또는 손실 함수)와 가중치를 설계하여 환경 적응 정책에 대한 강화학습을 수행한다(S140).
이때, 강화 학습의 학습 정도를 조정하기 위한 가중치 설계는 수행 오차가 목표 전략에 대해 허용 오차 범위 이내인 경우에 정답에 근접한 값임을 나타내는 강한 긍정 가중치를 제공하고, 수행 오차가 기설정된 불확실성 범위 이내인 경우에 약한 긍정 가중치를 제공하며, 수행 오차가 기설정된 불확설 범위를 초과하는 경우에 오답에 근접한 값임을 나타내는 부정 가중치를 제공한다.
환경 적응적 프레임워크는 실제 환경에서 경기 진행 정보를 수집한 후 실시간 경기 진행 정보를 반영하여 현재 환경 정보를 예측하고, 이렇게 예측된 현재 환경 정보에 적응적으로 대응하는 환경 적응 정책을 실시간 도출한다(S150, S160).
또한, 환경 적응적 프레임워크는 강화 학습시 수행 오차를 학습하여 목표 전략에 대한 위험도를 산출하고, 고위험도의 목표 전략에 대한 환경 적응 정책의 가중치 조정을 통해 위험도를 낮출 수 있다. 즉, 고위험도 목표 전략에 대한 환경 적응 정책이 환경 적응 정책 후보군 도출시 제외되도록 한다. 즉, 환경 적응적 프레임워크는 환경 적응 정책에 대한 강화 학습을 수행함과 동시에 불확실성에 의한 투구 오차 데이터를 학습하고, 성공 확률이 낮은 투구 전략에 대한 환경 적응 정책 후보군를 제외하여 실시간 학습된 환경 적응 정책 후보군을 제공함으로써 보다 안정적인 투구 전략에 대한 환경 적응 정책을 제공할 수 있다.
심층 강화 학습 기반의 환경 적응적 프레임워크는, 도 6에 도시된 바와 같이, 컬링의 경우 거리오차 및 궤적 등의 순차적 누적 환경 요소, 전략 요소와 환경적 요소를 포함한 특징들이 입력데이터로 입력되고, 심층 네트워크를 통해 투구에 대한 행동 확률인 환경 적응 정책이 출력되며, 환경 적응 정책을 수행한 후에 수행 오차에 대해 손실 함수 및 보상을 수행하며, 손실 함수 및 보상의 결과를 다시 심층 네트워크에 전달 한다. 즉, 환경 적응적 프레임워크는 환경 적응 특징을 이용하여 오류 함수에 반영하여 환경 적응 정책에 대한 학습을 수행한다.
환경 적응적 프레임워크는 목표 전략을 수립하는 전략 생성 모듈과 환경 적응 정책을 수립하는 전략 수행 모듈을 분리하고, 전략 생성 모듈과 전략 수행 모듈을 개별적으로 강화학습 함으로써 모듈별로 성능을 개선할 수 있도록 한다.
도 7은 컬링 경기에서 빙질 상태 변화를 반영한 가상 환경을 설명하는 도면이고, 도 8은 본 발명의 일 실시예에 따른 인공 지능 기반의 환경 적응적 경기 전략 수행 방법에 따른 전략 수행 결과와 기존의 컬링 로봇에 의한 전략 수행 결과에 대한 평균 오차 비교 결과를 설명하는 도면이다.
도 7 및 도 8을 참조하면, 본 발명은 가상 환경이 아닌 실제 환경에서 전략을 수행하기 위한 환경 적응적 프레임워크를 통해 도출된 순차적 환경 적응 정책을 수행한다. 순차적 환경 적응 정책 (model-based, model free)의 수행 결과와 기존의 컬링 로봇에 의한 전략 수행 결과를 비교해 보면, 로봇이 투구 제어 오차, 마모 변화, 빙질 상태 변화 등의 불확실성으로 인해 예측할 수 없이 변화는 환경에서 환경 적응 정책이 오차를 최소화하면서 현실 환경에 실시간 적응하고 있음을 알 수 있다.
이와 같이, 환경 적응적 프레임워크는 심층강화학습 기술을 이용하여 이전 상황의 환경적 변화 요소와 및 환경적 변화 요소로 인해 발생한 순차적 오차 정보들을 이용한다. 따라서, 환경 적응적 프레임워크는 실제 환경에 대한 완벽한 모델링이 어렵거나, 불확실성으로 인해 예측할 수 없이 변하는 환경에서 이전 상황들의 오차와 환경적 변화 요소를 이용하여 현재 환경 상태를 실시간으로 예측하여 환경 적응 정책을 수행하도록 한다.
특히, 컬링의 투구는 빙판 위에서 스톤을 미끄러뜨리는 것으로, 경기 상황에 따라 상대의 스톤을 밀어내거나 블로킹 하는 등 어떤 전략을 구사할 것인지도 중요하지만, 해당 전략을 수행하기 위해서 현재 빙질 상태에 따라 스톤을 투구할 때 필요한 강도, 회전(curl), 궤적 등의 투구 파라미터의 결정이 매우 중요한 요소이다.
본 발명은 이전 상황의 환경적 변화 요소와 및 환경적 변화 요소로 인해 발생한 순차적 오차 정보들을 이용하여 실시간으로 현재 빙질 상태 변화를 파악하여, 스톤의 속도(강도)와 회전을 결정하여 스톤의 궤적이 결정되도록 환경 적응 정책을 도출한다.
이상에서 설명한 본 발명의 실시예에 따른 인공 지능 기반의 환경 적응적 경기 전략 수행 방법은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 이러한 기록 매체는 컴퓨터 판독 가능 매체를 포함하며, 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함하며, 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
10: 스킵 로봇 20 : 투구 로봇
30 : 카메라 100 : 프로세서
110 : 데이터 입력 모듈
120 : 환경 적응적 프레임워크 실행 모듈
130 : 환경 적응 정책 추천 모듈
140 : 데이터 출력 모듈

Claims (9)

  1. 인공 지능 기반의 경기 분석 시스템에 의해 수행되는 인공 지능 기반의 환경 적응적 경기 전략 수행 방법에 있어서,
    a) 스포츠 종류별로 가상 환경을 제공하되, 상기 가상 환경에 스포츠 종류별 실제 환경을 고려하여 불확실성 환경적 요소를 추출한 후 각 불확실성 환경적 요소에 대한 불완전 모델을 포함하는 가상 환경을 제공하는 단계;
    b) 상기 가상 환경에서 스포츠 종류별로 경기 진행시 상기 불완전 모델에 의해 환경 변화가 생성되고, 시간 변화에 따라 발생하는 환경 변화로 인해 획득되는 순차적 환경 적응 특징을 추출하며, 상기 추출된 순차적 환경 적응 특징과 융합되는 현재 상태 특징을 추출하는 단계;
    c) 상기 순차적 환경 적응 특징과 현재 상태 특징을 이용하여 목표 전략을 수립하고, 상기 수립된 목표 전략을 현실 환경에서 실행하기 위한 환경 적응 정책을 출력하는 심층 네트워크를 이용하는 환경 적응적 프레임 워크를 제공하되, 상기 환경 적응적 프레임 워크는 상기 환경 적응 정책 수행에 대해 순차적으로 수행 오차를 검출하고, 상기 검출된 순차적 수행 오차에 대해 오류 함수와 가중치를 설계하여 상기 환경 적응 정책에 대한 강화학습을 수행하는 것인, 단계; 및
    d) 실제 환경에서 경기 진행 정보를 수집하고, 상기 환경 적응적 프레임워크에 상기 수집된 경기 진행 정보를 반영하여 현재 환경 정보를 예측하고, 상기 예측된 현재 환경 정보에 적응적으로 대응하는 환경 적응 정책을 실시간 도출하는 단계를 포함하는 것이되,
    상기 스포츠는 대상체를 목표 위치로 이동 시키는 행위를 반복적으로 수행하되, 시간 변화에 따라 발생하는 환경 변화로 인해 대상체가 이동하는 위치가 변화되는 환경에서 이루어지는 것이고,
    상기 환경 적응 정책은 상기 대상체를 목표 위치로 이동 시키는 행위에 대한 행동 확률을 나타내는 것인, 인공 지능 기반의 환경 적응적 경기 전략 수행 방법.
  2. 제 1 항에 있어서,
    상기 b) 단계는,
    상기 가상 환경에서 경기 진행에 따른 목표값과 실제 환경에서 경기 진행에 따른 목표값을 비교하여 오차를 순차적으로 검출하고, 상기 순차적으로 검출된 오차를 통해 환경 변화 예측 정보를 산출하며, 상기 환경 변화 예측 정보를 이용하여 환경 적응 특징을 추출하는 것인, 인공 지능 기반의 환경 적응적 경기 전략 수행 방법.
  3. 제 2 항에 있어서,
    상기 시간 변화에 따라 변화되는 환경 변화에 대응되는 특징들을 실제 환경에서 매시간 추출하여 누적 저장함으로써 현재 상태 특징을 산출하는 것인, 인공 지능 기반의 환경 적응적 경기 전략 수행 방법.
  4. 제 1 항에 있어서,
    상기 심층 네트워크는 상기 환경 적응 특징과 현재 상태 특징, 순차적 누적 환경 요소들이 입력 데이터로 입력되고, 상기 입력 데이터가 복수의 컨벌루션 층을 거쳐 복수의 특징 맵(feature map)으로 출력되며, 상기 복수의 특징 맵들을 밀집 층(Dense Layer)에서 모두 연결하여 환경 적응 정책이 출력되도록 하는 것인, 인공 지능 기반의 환경 적응적 경기 전략 수행 방법.
  5. 제 1 항에 있어서,
    상기 c) 단계는 상기 목표 전략을 수립하는 전략 생성 모듈과 상기 환경 적응 정책을 수립하는 전략 수행 모듈을 분리하고,
    상기 전략 생성 모듈과 전략 수행 모듈을 개별적으로 강화학습 하는 것인, 인공 지능 기반의 환경 적응적 경기 전략 수행 방법.
  6. 제 1 항에 있어서,
    상기 c) 단계는
    N-1 번째의 환경 적응 정책을 수행한 결과와 N번째의 환경 적응 정책을 수행한 결과를 비교하여 수행 오차를 검출하고, 상기 검출된 수행 오차에 대해 차등적으로 가중치 설계를 수행하는 것인, 인공 지능 기반의 환경 적응적 경기 전략 수행 방법.
  7. 제 6 항에 있어서,
    상기 강화 학습의 학습 정도를 조정하기 위한 가중치 설계는,
    상기 수행 오차가 목표 전략에 대해 허용 오차 범위 이내인 경우, 정답에 근접한 값임을 나타내는 강한 긍정 가중치를 제공하고,
    상기 수행 오차가 기설정된 불확실성 범위 이내인 경우, 약한 긍정 가중치를 제공하며,
    상기 수행 오차가 기설정된 불확설 범위를 초과하는 경우, 오답에 근접한 값임을 나타내는 부정 가중치를 제공하는 것인, 인공 지능 기반의 환경 적응적 경기 전략 수행 방법.
  8. 제 2 항에 있어서,
    상기 d) 단계는,
    상기 환경 적응적 프레임워크를 통해 적어도 하나 이상의 학습된 환경 적응 정책 후보군을 도출하고,
    상기 환경 적응적 프레임워크는 강화 학습시 상기 수행 오차를 학습하여 목표 전략에 대한 위험도를 산출하고, 고위험도의 목표 전략에 대한 환경 적응 정책의 가중치 조정을 통해 상기 환경 적응 정책 후보군에서 제외되도록 하는 것인, 인공 지능 기반의 환경 적응적 경기 전략 수행 방법.
  9. 인공 지능 기반의 경기 분석 시스템에 있어서,
    실제 환경에서 환경 적응적 경기 전략 수행 방법을 수행하기 위한 프로그램이 기록된 메모리; 및
    상기 프로그램을 실행하기 위한 프로세서를 포함하며,
    상기 프로세서는, 상기 프로그램의 실행에 의해,
    스포츠 종류별로 가상 환경을 제공하되, 상기 가상 환경에 스포츠 종류별 실제 환경을 고려하여 불확실성 환경적 요소를 추출한 후 각 불확실성 환경적 요소에 대한 불완전 모델을 포함하는 가상 환경을 제공하고,
    상기 가상 환경에서 스포츠 종류별로 경기 진행시 상기 불완전 모델에 의해 환경 변화가 생성되면 시간 변화에 따라 발생하는 환경 변화로 인해 획득되는 순차적 환경 적응 특징을 추출하며, 상기 순차적 환경 적응 특징과 융합되는 현재 상태 특징을 추출하고,
    상기 순차적 환경 적응 특징과 현재 상태 특징을 이용하여 목표 전략을 수립하고, 상기 수립된 목표 전략을 현실 환경에서 실행하기 위한 환경 적응 정책을 출력하는 심층 네트워크를 이용하는 환경 적응적 프레임 워크를 제공하되, 상기 환경 적응적 프레임 워크는, 상기 환경 적응 정책 수행에 대해 순차적으로 수행 오차를 검출하고, 상기 검출된 순차적 수행 오차에 대해 오류 함수와 가중치를 설계하여 상기 환경 적응 정책에 대한 강화학습을 수행하고,
    실제 환경에서 경기 진행 정보를 수집하고, 상기 환경 적응적 프레임워크에 상기 수집된 경기 진행 정보를 반영하여 현재 환경 정보를 예측하고, 상기 예측된 현재 환경 정보에 적응적으로 대응하는 환경 적응 정책을 실시간 도출하는 것이되,
    상기 스포츠는 대상체를 목표 위치로 이동 시키는 행위를 반복적으로 수행하되, 시간 변화에 따라 발생하는 환경 변화로 인해 대상체가 이동하는 위치가 변화되는 환경에서 이루어지는 것이고,
    상기 환경 적응 정책은 상기 대상체를 목표 위치로 이동 시키는 행위에 대한 행동 확률을 나타내는 것인, 인공 지능 기반의 경기 분석 시스템.
KR1020180143319A 2018-11-20 2018-11-20 인공 지능 기반의 환경 적응적 경기 전략 수행 방법 및 인공 지능 기반의 경기 분석 시스템 KR102143906B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180143319A KR102143906B1 (ko) 2018-11-20 2018-11-20 인공 지능 기반의 환경 적응적 경기 전략 수행 방법 및 인공 지능 기반의 경기 분석 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180143319A KR102143906B1 (ko) 2018-11-20 2018-11-20 인공 지능 기반의 환경 적응적 경기 전략 수행 방법 및 인공 지능 기반의 경기 분석 시스템

Publications (2)

Publication Number Publication Date
KR20200063309A KR20200063309A (ko) 2020-06-05
KR102143906B1 true KR102143906B1 (ko) 2020-08-12

Family

ID=71088833

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180143319A KR102143906B1 (ko) 2018-11-20 2018-11-20 인공 지능 기반의 환경 적응적 경기 전략 수행 방법 및 인공 지능 기반의 경기 분석 시스템

Country Status (1)

Country Link
KR (1) KR102143906B1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780317A (zh) * 2020-08-27 2021-12-10 北京同邦卓益科技有限公司 行为方式预测方法及装置、存储介质、电子设备
CN112494949B (zh) * 2020-11-20 2023-10-31 超参数科技(深圳)有限公司 智能体行动策略制定方法、服务器及存储介质
CN114721788A (zh) * 2021-01-05 2022-07-08 ***通信有限公司研究院 策略管理方法及装置
KR102585570B1 (ko) * 2021-05-12 2023-10-10 한국과학기술원 적응형 시스템의 통계적 검증 기반 예측적 적응 기법
CN114371719B (zh) * 2021-12-09 2023-08-08 湖南国天电子科技有限公司 一种基于sac的水下机器人自主控制方法
CN114489144B (zh) * 2022-04-08 2022-07-12 中国科学院自动化研究所 无人机自主机动决策方法、装置及无人机

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100553439B1 (ko) * 2003-08-26 2006-02-20 주식회사 팬택앤큐리텔 신경망 알고리즘을 이용한 전력 보정 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101611431B1 (ko) 2014-02-20 2016-04-12 숭실대학교산학협력단 컬링 분석 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101962889B1 (ko) 2015-07-27 2019-03-28 한국전자통신연구원 작업환경 변화에 적응적인 로봇 동작 데이터 제공장치 및 그 방법
KR101963754B1 (ko) * 2016-11-14 2019-07-31 동국대학교 산학협력단 드론을 제어하기 위한 시스템 및 방법
KR102045567B1 (ko) * 2017-02-24 2019-11-18 고려대학교 산학협력단 딥러닝에 기반한 컬링 경기 전략 추천 장치 및 그 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100553439B1 (ko) * 2003-08-26 2006-02-20 주식회사 팬택앤큐리텔 신경망 알고리즘을 이용한 전력 보정 방법

Also Published As

Publication number Publication date
KR20200063309A (ko) 2020-06-05

Similar Documents

Publication Publication Date Title
KR102143906B1 (ko) 인공 지능 기반의 환경 적응적 경기 전략 수행 방법 및 인공 지능 기반의 경기 분석 시스템
Lee et al. Composing complex skills by learning transition policies
Taylor et al. Cross-domain transfer for reinforcement learning
Barrett et al. Transfer learning for reinforcement learning on a physical robot
Riedmiller et al. Reinforcement learning for robot soccer
Kober et al. Reinforcement learning to adjust parametrized motor primitives to new situations
Abeyruwan et al. i-sim2real: Reinforcement learning of robotic policies in tight human-robot interaction loops
Huang et al. Creating a dynamic quadrupedal robotic goalkeeper with reinforcement learning
CN113298252B (zh) 一种面向深度强化学习的策略异常检测方法和装置
Schwab et al. Learning skills for small size league robocup
Ros et al. Retrieving and reusing game plays for robot soccer
D'Ambrosio et al. Robotic table tennis: A case study into a high speed learning system
Davidsson A framework for preventive state anticipation
Copete et al. Estimation of players’ actions in soccer matches based on deep autoencoder
Carvalho et al. Reinforcement learning for the soccer dribbling task
Farouk et al. Generic opponent modelling approach for real time strategy games
Chen et al. Modified PPO-RND method for solving sparse reward problem in ViZDoom
Wu et al. A training model of wargaming based on imitation learning and deep reinforcement learning
Lee et al. Effective strategies for improving mobility efficiency and keeping numerical superiority in AI Worldcup
Rahimi et al. An AI-based tennis game by application of virtual reality components
Riedmiller et al. Learning to dribble on a real robot by success and failure
Gomez et al. Iterative learning system to intercept a ball for humanoid soccer player
Uc-Cetina A novel reinforcement learning architecture for continuous state and action spaces
Hussein Deep learning based approaches for imitation learning.
Cheng et al. A novel decision-making method based on reinforcement learning for underwater robots

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant