KR102400833B1 - Ai 강화학습 기반의 교통 신호 제어 장치 및 이를 수행하는 방법 - Google Patents

Ai 강화학습 기반의 교통 신호 제어 장치 및 이를 수행하는 방법 Download PDF

Info

Publication number
KR102400833B1
KR102400833B1 KR1020200186650A KR20200186650A KR102400833B1 KR 102400833 B1 KR102400833 B1 KR 102400833B1 KR 1020200186650 A KR1020200186650 A KR 1020200186650A KR 20200186650 A KR20200186650 A KR 20200186650A KR 102400833 B1 KR102400833 B1 KR 102400833B1
Authority
KR
South Korea
Prior art keywords
intersection
traffic
signal control
state
action
Prior art date
Application number
KR1020200186650A
Other languages
English (en)
Inventor
김영찬
김준원
Original Assignee
서울시립대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울시립대학교 산학협력단 filed Critical 서울시립대학교 산학협력단
Priority to KR1020200186650A priority Critical patent/KR102400833B1/ko
Application granted granted Critical
Publication of KR102400833B1 publication Critical patent/KR102400833B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/075Ramp control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications
    • G08G1/0145Measuring and analyzing of parameters relative to traffic conditions for specific applications for active traffic flow control

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Traffic Control Systems (AREA)

Abstract

교통 신호 제어 장치가 개시된다. 상기 교통 신호 제어 장치는, 제1 스테이트를 기반으로 배리어간 녹색 시간 조정 비율과 상충현시간 녹색 시간 조정 비율을 제1 액션으로 도출하고, 교차로 신호 제어 변수를 출력하는 교차로 학습부와; 제2 스테이트를 기반으로 교차로별 옵셋 조정 비율과 교차로별 옵셋을 제2 액션으로 도출하고, 네트워크 신호 제어 변수를 출력하는 네트워크 학습부와; 입력되는 이동류별 통과 교통량과 이동류별 초기 대기 행렬를 기반으로 교통 상황을 모사하여 상기 제1 스테이트를 상기 교차로 학습부로 출력하고, 상기 제2 스테이트를 상기 네트워크 학습부로 출력하고, 상기 제1 액션 및 상기 제2 액션을 기반으로 상기 교통 상황을 다시 모사하여 상기 제1 스테이트와 상기 제2 스테이트를 갱신하는 교통 학습 모형부와; 상기 교차로 신호 제어 변수 및 상기 네트워크 신호 제어 변수를 수신하고, 상기 교차로 신호 제어 변수 및 상기 네트워크 신호 제어 변수를 교통 신호 네트워크에 적용하는 신호 제어부를 포함한다.

Description

AI 강화학습 기반의 교통 신호 제어 장치 및 이를 수행하는 방법{METHOD AND APPARATUS FOR CONTROLLING TRAFFIC SIGNAL BASED ON AI REINFORCE LEARNING}
본 발명은 AI(artificial intelligence) 강화학습에 기반하여 교통 신호를 제어하는 장치 및 이를 수행하는 방법에 관한 것이다.
최근, AI 개발로 인하여 이를 도시 공학에 적용하는 경우도 존재하지만, AI를 이용하여 교통 신호를 제어하는 기술은 주로 정보수집부분에 활용되었다. 즉, AI를 적용하여 정보를 수집하였으나, 이를 이용하여 교통 신호를 제어하는 기술 개발은 아직 초기 단계이다.
한편, 기존에 연구된 AI 강화학습 기반의 교통신호제어 기술들은 학습 단계별 현시 이동식 방법으로 다음 단계에 현시가 유지될지 또는 다른 어떤 현시가 올지 결정하는 방법이다. 이는 현시순서, 주기 및 배리어에 대한 제약이 필요한 현재 현장에 설치되어 있는 표준신호제어기에서 받아들이기 어려워 실제 현장에 적용하기 어려운 단점이 있다.
이에, AI가 직접 신호제어변수를 조정함으로써 교통 패턴 변화에 AI가 능동적으로 대응하는 실제 현장적용이 가능한 기술 개발이 필요하다.
한국등록특허공보 제 10-2171671호(2020.10.23)
본 발명이 해결하고자 하는 과제는, AI가 직접 신호제어변수를 조정함으로써 교통 패턴 변화에 AI가 능동적으로 대응할 수 있는 교통 신호 제어 장치 및 이를 활용한 방법을 제공하는 것이다.
또한, 본 발명이 해결하고자 하는 과제는, 실제 현장에서 운영할 수 있도록 듀얼 링(Dual-ring) 기반의 현시 체계를 반영할 수 있는 교통 신호 제어 장치 및 이를 활용한 방법을 제공하는 것이다.
또한, 본 발명이 해결하고자 하는 과제는, 교차로 뿐만 아니라 네트워크 연동 최적화를 위한 교통류 모형 학습에 기초한 교통 신호 제어 장치 및 이를 활용한 방법을 제공하는 것이다.
또한, 본 발명이 해결하고자 하는 과제는, 주어진 교통 상황에서 현시, 주기 및 옵셋과 같은 신호 제어 변수 변화에 따른 교통류 모형의 교통 상황 변화에 대한 강화 학습을 기반으로 하는 교통 신호 제어 장치 및 이를 활용한 방법을 제공하는 것이다.
본 발명의 실시예에 따르면, 교통 신호 제어 장치가 제공된다. 상기 교통 신호 제어 장치는, 제1 스테이트를 기반으로 배리어간 녹색 시간 조정 비율과 상충현시간 녹색 시간 조정 비율을 제1 액션으로 도출하고, 교차로 신호 제어 변수를 출력하는 교차로 학습부와; 제2 스테이트를 기반으로 교차로별 옵셋 조정 비율과 교차로별 옵셋을 제2 액션으로 도출하고, 네트워크 신호 제어 변수를 출력하는 네트워크 학습부와; 입력되는 이동류별 통과 교통량과 이동류별 초기 대기 행렬를 기반으로 교통 상황을 모사하여 상기 제1 스테이트를 상기 교차로 학습부로 출력하고, 상기 제2 스테이트를 상기 네트워크 학습부로 출력하고, 상기 제1 액션 및 상기 제2 액션을 기반으로 상기 교통 상황을 다시 모사하여 상기 제1 스테이트와 상기 제2 스테이트를 갱신하는 교통 학습 모형부와; 상기 교차로 신호 제어 변수 및 상기 네트워크 신호 제어 변수를 수신하고, 상기 교차로 신호 제어 변수 및 상기 네트워크 신호 제어 변수를 교통 신호 네트워크에 적용하는 신호 제어부를 포함한다.
제1 스테이트는 현시이동류별 공간 점유률, 현시이동류별 녹색시간 비율, 교차로 평균 제어 지체 및 현시별 포화도 중 적어도 하나를 포함할 수 있다.
상기 제2 스테이트는 제어 교차로 간 구간 평균 제어 지체 및 교차로별 옵셋을 포함할 수 있다.
상기 교차로 신호 제어 변수는 현시별 녹색 시간를 포함할 수 있다.
상기 네트워크 신호 제어 변수는 신호 변화 주기, 및 교차로 옵셋을 포함할 수 있ㄷ.
상기 교차로 학습부 및 상기 네트워크 학습부는 연속적인 액션 스페이스 학습을 수행하는 DDPG(Deep Deterministic Policy Gradient) 알고리즘을 포함할 수 있다.
상기 교통 학습 모형부는, 상기 제1 액션으로 인하여 교차로 지체가 감소되면 상기 제1 액션을 보상하고, 상기 제2 액션으로 인하여 네트워크 지체가 감소되면 상기 제2 액션을 보상할 수 있다.
상기 교통 학습 모형부는 시공간적 셀 단위로 교통류 충격파 전파를 나타내는 셀 전파 모델을 기반으로 상기 시공간적 셀의 지체를 도출하고, 상기 지체를 기반으로 상기 제1 스테이트 및 상기 제2 스테이트를 도출할 수 있다.
본 발명의 다른 실시예에 따르면, 교차로 학습부 및 네트워크 학습부를 포함하는 교통 신호 제어 장치에 의한 교통 신호 제어 방법이 제공된다. 상기 교통 신호 제어 방법은, 입력되는 이동류별 통과 교통량과 이동류별 초기 대기 행렬를 기반으로 교통 상황을 모사하여 제1 스테이트를 상기 교차로 학습부로 출력하는 단계와; 상기 제1 스테이트를 기반으로 배리어간 녹색 시간 조정 비율과 상충현시간 녹색 시간 조정 비율을 제1 액션으로 학습하는 단계와; 상기 제1 액션을 기반으로 상기 교통 상황을 다시 모사하여 상기 제1 스테이트를 갱신하는 단계와; 상기 제1 액션으로 인하여 교차로 지체가 감소되면 상기 제1 액션을 보상하는 단계와; 상기 제1 스테이트, 상기 제1 액션 및 상기 보상을 기반으로 최적의 교차로 신호 제어 변수를 도출하고, 도출된 상기 교차로 신호 제어 변수를 교통 신호 네트워크에 적용하는 단계를 포함한다.
상기 교통 신호 제어 방법은, 입력되는 이동류별 통과 교통량과 이동류별 초기 대기 행렬를 기반으로 교통 상황을 모사하여 제2 스테이트를 상기 네트워크 학습부로 출력하는 단계와; 상기 제2 스테이트를 기반으로 교차로별 옵셋 조정 비율과 교차로별 옵셋을 제2 액션으로 학습하는 단계와; 상기 제2 액션을 기반으로 상기 교통 상황을 다시 모사하여 상기 제2 스테이트를 갱신하는 단계와; 상기 제2 액션으로 인하여 네트워크 지체가 감소되면 상기 제2 액션을 보상하는 단계와; 상기 제2 스테이트, 상기 제2 액션 및 상기 보상을 기반으로 최적의 네트워크 신호 제어 변수를 도출하고, 도출된 상기 네트워크 신호 제어 변수를 교통 신호 네트워크에 적용하는 단계를 더 포함할 수 있다.
상기 제1 스테이트는 현시이동류별 공간 점유률, 현시이동류별 녹색시간 비율, 교차로 평균 제어 지체 및 현시별 포화도 중 적어도 하나를 포함할 수 있다. 상기 제2 스테이트는 제어 교차로 간 구간 평균 제어 지체 및 교차로별 옵셋을 포함할 수 있다. 상기 교차로 신호 제어 변수는 현시별 녹색 시간를 포함할 수 있다. 상기 네트워크 신호 제어 변수는 신호 변화 주기, 및 교차로 옵셋을 포함할 수 있다.
상기 교통 상황을 모사하는 단계 및 상기 교통 상황을 다시 모사하는 단계는, 시공간적 셀 단위로 교통류 충격파 전파를 나타내는 셀 전파 모델을 기반으로 상기 시공간적 셀의 지체를 도출하고, 상기 지체를 기반으로 상기 제1 스테이트 및 상기 제2 스테이트를 도출하는 단계를 포함할 수 있다.
상기 교차로 신호 제어 변수는 소정 신호 주기 마다 최적화될 수 있다.
상기 네트워크 신호 제어 변수는 소정 시간 마다 최적화될 수 있다.
본 발명의 실시예에 따르면, AI가 직접 신호제어변수를 조정함으로써 교통 패턴 변화에 AI가 능동적으로 대응할 수 있는 교통 신호 제어 장치 및 이를 활용한 방법이 제공된다.
본 발명의 일 실시예에 따르면, 실제 현장에서 운영할 수 있도록 Dual-ring 기반의 현시 체계를 반영할 수 있는 교통 신호 제어 장치 및 이를 활용한 방법이 제공된다.
본 발명의 일 실시예에 따르면, 교차로 뿐만 아니라 네트워크 연동 최적화를 위한 교통류 모형 학습에 기초한 교통 신호 제어 장치 및 이를 활용한 방법이 제공된다.
본 발명의 일 실시예에 따르면, 주어진 교통 상황에서 현시, 주기 및 옵셋과 같은 신호 제어 변수 변화에 따른 교통 상황의 변화에 대한 강화 학습을 기반으로 하는 교통 신호 제어 장치 및 이를 활용한 방법이 제공된다.
이를 통해, 현재 직면한 교통 혼잡 문제를 해소하고, 최근 급격히 발전하고 있는 AI 기술을 활용한 도시부 교통류 최적화 관리 기술 확보를 통해 도시부 교통 혼잡을 완화시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 교통 신호 제어 장치의 제어 블록도이다.
도 2는 AI 강화 학습 개념을 설명하기 위한 도면이다.
도 3은 본 발명의 일 예에 따른 교통 학습 모형부에 적용되는 모형을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 개별 교차로의 신호 제어 그룹을 설명한 도면이다.
도 5는 본 발명의 일 실시예에 따른 교통 신호 제어 방법을 설명하기 위한 제어 흐름도이다.
도 6은 본 발명의 실시예에 따른, 컴퓨팅 장치를 나타내는 도면이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본 명세서에서, 동일한 구성요소에 대해서 중복된 설명은 생략한다.
또한 본 명세서에서, 어떤 구성요소가 다른 구성요소에 '연결되어' 있다거나 '접속되어' 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에 본 명세서에서, 어떤 구성요소가 다른 구성요소에 '직접 연결되어' 있다거나 '직접 접속되어' 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
또한, 본 명세서에서 사용되는 용어는 단지 특정한 실시예를 설명하기 위해 사용되는 것으로써, 본 발명을 한정하려는 의도로 사용되는 것이 아니다.
또한 본 명세서에서, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다.
또한 본 명세서에서, '포함하다' 또는 '가지다' 등의 용어는 명세서에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품, 또는 이들을 조합한 것이 존재함을 지정하려는 것일 뿐, 하나 또는 그 이상의 다른 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 할 것이다.
또한 본 명세서에서, '및/또는' 이라는 용어는 복수의 기재된 항목들의 조합 또는 복수의 기재된 항목들 중의 어느 항목을 포함한다. 본 명세서에서, 'A 또는 B'는, 'A', 'B', 또는 'A와 B 모두'를 포함할 수 있다.
또한 본 명세서에서, 본 발명의 요지를 흐리게 할 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략될 것이다.
기존 신호 운영의 경우 축단위로 SA를 구분하여 축단위로 신호연동 계획을 수행하고 있으며, SA간 연계는 운영자의 경험에 의해 수행되고 있다. 연동 최적화를 위한 기존의 교통류 모형도 축단위로 최적화를 수행하고 있으며, 네트워크 연동 최적화를 위한 교통류 모형은 없는 실정이다.
이에, 본 발명은 AI 기반 모델 예측 제어(Model Predictive Control) 네트워크 신호 최적화 기술을 적용하여 AI 강화 학습을 통해 주어진 교통 상황에서 신호제어 변수(현시, 주기, 옵셋) 변화에 따른 교통 상황의 변화를 학습하고 이를 통해최적 값에 근접한 네트워크 연동 최적화를 수행하는 것을 목적으로 한다.
또한 본 발명은 교통 상황을 간단하고 현실에 가깝게 모사할 수 있는 Kinematic Wave 기반 MESO 모형을 적용해 신호 제어 변수 변화(현시, 주기, 옵셋)에 따른 교통 상황의 변화를 세밀하게 학습할 수 있고, 네트워크 신호 운영 관리를 통해 비슷한 교통류 특성을 보이는 교차로간 네트워크를 구성할 수 있다.
이하, 도면을 참조하여 본 발명에 대한 상세히 기술한다.
도 1은 본 발명의 일 실시예에 따른 교통 신호 제어 장치의 제어 블록도이다.
도시된 바와 같이, 본 실시예에 따른 교통 신호 제어 장치는 교통 학습 모형부(100), 교차로 학습부(200), 네트워크 학습부(300), 신호 제어부(400)를 포함하고, 교통 신호 제어 장치는 교통 신호 네트워크(500)에 신호 제어 변수를 출력한다.
상술된 바와 같이, 교통 신호 제어 장치는 교통 상황 변화에 대응해 AI가 직접 교통 신호를 조정하는 것으로, 이때 듀얼 링(Dual-ring) 기반 현시체계를 반영해 현장 적용을 위한 제약 사항(주기, 배리어, 현시 순서)을 준수함으로써 현장에 설치되어 있는 표준 교통신호제어기, 즉 교통 신호 네트워크(500)에서 운영 가능하다. 이를 위하여 초기 신호 제어 변수(주기, 현시별 녹색시간, 옵셋) 및 수집/가공된 교통 정보를 Kinematic Wave 기반 MESO 모형, 즉 교통 학습 모형부(100)에 입력해 현재 교통 상태를 모사한 후, 신호 제어 변수(주기, 현시별 녹색시간, 옵셋) 조정 시 충격파 기반 메소스코픽 모형 따른 교통 상태의 변화를 AI가 학습해 교통 상태에 대응해 최적의 신호제어변수를 도출한다. AI 학습은 교차로 학습부(200), 네트워크 학습부(300)에서 수행되고, AI 학습에 의한 신호 제어 변수는 신호 제어부(400)로 출력되어, 교통 신호 네트워크(500)에 적용될 수 있다.
도 1의 구성 요소에 대한 설명에 앞서, 본 발명에 적용되는 AI 강화 학습을 설명하면 다음과 같다. 도 2는 AI 강화 학습 개념을 설명하기 위한 도면이다.
AI 강화 학습이란 현재 상태(State, 이하, 스테이트)에서 어떤 행동(Action, 이하, 액션)을 취하는 것이 최적인지를 학습하는 것으로, 행동을 취할 때 마다 보상(Reward)을 부여한다. 이를 수없이 반복해 부여되는 보상(Reward)을 최대화하는 방향으로 행동(Action)을 결정하도록 학습을 수행 한다. 소정의 주기에 따라 최대의 보상에 대한 액션이 결정되고, 이러한 액션이 또 다시 스태이트 설정에 반영되고, 다시 보상을 부여하는 방식으로 최적의 액션을 도출하는 알고리즘이 적용된다.
본 발명에서는 일 예에 따라 다양한 강화 학습 알고리즘 중 하나인 DDPG(Deep Deterministic Policy Gradient)이 적용될 수 있다. DDPG 알고리즘은 off-policy, continuous actor-critic이라는 DPG(Deterministic Policy Gradient)알고리즘에 기반을 두고 있다.
또한, 본 실시예에 따른 알고리즘은 좀 더 복잡한 학습을 수행하기 위하여 딥러닝 기법(DQN, Deep Q-Network)에서 제안한 소프트 업데이트(soft update) 및 배치 러닝(batch learning)을 적용하였으며, 액션 스페이스(Action Space)가 연속적인 환경에서 AI 강화 학습에 최적화된 모형이다.
정리하면, 액션 스페이스가 연속적인 신호 제어 변수 조정 값을 직접 학습하기에 적합하기 때문에 본 발명에 따른 교통 신호 제어 장치는 AI에게 신호 제어 변수 조정을 학습시키기 위한 강화 학습 모형으로 DDPG 알고리즘을 채택하였다.
본 발명에 따른 교통 신호 제어 장치에 적용되는 AI 기반 모델 예측 제어(Model Predictive Control) 네트워크 신호 최적화 기술은 개별교차로 신호최적화 알고리즘와 네트워크 옵셋 최적화 알고리즘을 구성될 수 있고, 이때 각각의 AI 에이전트(Agent) 들은 병렬로 현시 최적화를 수행할 수 있다. 상술된 DDPG 알고리즘 기반 AI 에이전트는 교차로 학습부(200), 네트워크 학습부(300)로 구현되고, 교통 상황 모사에 대한 모델은 교통 학습 모형부(100)로 구현될 수 있다.
교차로 학습부(200)은 제1 스테이트를 기반으로 배리어간 녹색 시간 조정 비율과 상충현시간 녹색 시간 조정 비율을 제1 액션으로 도출하고, 교차로 신호 제어 변수를 출력하고, 네트워크 학습부(300)는 제2 스테이트를 기반으로 교차로별 옵셋 조정 비율과 교차로별 옵셋을 제2 액션으로 도출하고, 네트워크 신호 제어 변수를 출력할 수 있다.
교차로 신호 제어 변수를 최적화 하기 위한 교차로 학습부(200)와 네트워크 신호 제어 변수를 최적화 하기 위한 네트워크 학습부(300)는 서로 병렬적으로 동작하며 각각 상이한 주기에 따라 신호 제어 변수를 최적화 한다.
교통 학습 모형부(100)는 입력되는 이동류별 통과 교통량과 이동류별 초기 대기 행렬를 기반으로 교통 상황을 모사하여 제1 스테이트를 교차로 학습부(200)로 출력하고, 교통 상황을 모사하여 제2 스테이트를 네트워크 학습부(300)로 출력하고, 제1 액션 및 제2 액션을 기반으로 교통 상황을 다시 모사하여 제1 스테이트와 제2 스테이트를 갱신하는 모델링을 수행한다.
본 실시예예 따른 제1 스테이트는 현시이동류별 공간 점유률, 현시이동류별 녹색시간 비율, 교차로 평균 제어 지체 및 현시별 포화도 중 적어도 하나를 포함할 수 있고, 제2 스테이트는 제어 교차로 간 구간 평균 제어 지체 및 교차로별 옵셋을 포함할 수 있다. 또한, 교차로 신호 제어 변수는 현시별 녹색 시간를 포함하고, 네트워크 신호 제어 변수는 신호 변화 주기, 및 교차로 옵셋을 포함할 수 있다.
즉, 교통 학습 모형부(100)는 입력되는 교통 정보를 기반으로 현시이동류별 공간 점유률, 현시이동류별 녹색시간 비율, 교차로 평균 제어 지체 및 현시별 포화도 등을 제1 스테이트로 도출할 수 있고, 이러한 제1 스테이트는 교차로 학습부(200)로 입력되고, 교차로 학습부(200)는 입력된 제1 스테이트의 학습을 통하여 제1 액션으로 배리어간 녹색 시간 조정 비율과 상충현시간 녹색 시간 조정 비율을 출력할 수 있다. 이러한 제1 액션을 기반으로 교차로 신호 제어 변수인 현시별 녹색 시간이 변경될 수 있고, 변경된 현시별 녹색 시간을 기반으로 교통 학습 모형부(100)는 다시 제1 스테이트를 갱신할 수 있다. 이러한 과정이 반복되면서 최적의 교차로 신호 제어 변수가 도출될 수 있다.
유사하게, 교통 학습 모형부(100)는 입력되는 교통 정보를 기반으로 제어 교차로 간 구간 평균 제어 지체 및 교차로별 옵셋 등을 제2 스테이트로 도출할 수 있고, 이러한 제2 스테이트는 네트워크 학습부(300)로 입력되고, 네트워크 학습부(300)는 입력된 제2 스테이트의 학습을 통하여 제2 액션으로 교차로별 옵셋 조정 비율과 교차로별 옵셋을 출력할 수 있다. 이러한 제2 액션을 기반으로 네트워크 신호 제어 변수인 신호 변화 주기, 및 교차로 옵셋이 변경될 수 있고, 변경된 신호 변화 주기, 및 교차로 옵셋을 기반으로 교통 학습 모형부(100)는 다시 제2 스테이트를 갱신할 수 있다. 이러한 과정이 반복되면서 최적의 네트워크 신호 제어 변수가 도출될 수 있다.
한편, 본 실시예예 따른 교통 신호 최적화를 위한 AI 강화 학습에 요구되는 정보는 이동류 교통량 및 이동류별 대기 행렬에 대한 정보를 포함할 수 있고, 이동류 교통량 및 이동류별 대기 행렬에 대한 정보는 교통 학습 모형부(100)로 입력되어 교통 상황을 모사하는 데 활용될 수 있다.
이동류 교통량 및 이동류별 대기 행렬에 대한 정보는 최초에는 소정의 초기 값으로 설정되었다가 스테이트 및 액션의 반복적인 갱신으로 인하여 교통 신호 네트워크(500)에 신호 제어 변수가 적용되면, 교통 신호 네트워크(500)를 통하여 실질적으로 수집된 교통 정보를 기반으로 다시 업데이트 될 수 있다.
이동류별 교통량은 정지선을 통과하는 교통량으로 정의될 수 있고, 시간 가공 단위는 신호가 변경되는 소정의 주기(Cycle)로 설정될 수 있고, 공간 가공단위는 현시 이동류별(접근방향별, 직진/좌회전) 교차로 공간으로 설정될 수 있다.
또한, 이동류별 초기 대기행렬은 녹색시간에서 적색시간으로 전이 시점에 검지 영역에 있는 잔여교통량으로 정의될 수 있고, 시간 가공 단위 및 공간 가공 단위는 이동류별 교통량과 동일하게 설정될 수 있다.
한편, 일 예에 따라, 교통 학습 모형부(100)는 AI 에이전트에게 신호 제어 변수 변화에 따른 교통류 변화를 학습시키기 위한 교통류 모사 메소스코픽 모형인 Kinematic Wave 기반 MESO 모형이 적용될 수 있다. 이는 시공간적 셀 단위로 교통류 충격파 전파를 나타낸 모형인 Kinematic Wave Model (Daganzo, 1994)을 기반으로 도시부 교통 네트워크 모사에 적합하도록 개발한 모형이다. 이는 각 셀의 초기 밀도에 기초하여 각 셀의 밀도에 따라 수요와 공급 교통량을 결정하고, 각 셀 경계의 전이 교통량을 결정하고, 1초마다 셀 밀도 값을 업데이트하는 방식으로 시간과 공간에 따라 달라지는 밀도 값을 셀마다 부여하여 충격파의 전이를 도출할 수 있다. 하류 셀에서 받을 수 있는 교통량(공급)과 상류 셀에서 보내고자 하는 교통량(수요) 중 작은 값이 교통량으로 결정될 수 있고, 1초 전의 셀 밀도 값과 경계의 교통량에 의해 셀의 밀소 값이 결정된다. 이러한 밀도 값에 의하여 도로 상의 지체 정도가 도출될 수 있다.
본 실시예에 따른 Kinematic Wave 기반 MESO 모형은 도시부 교차로 기하구조에 대한 특징 및 다양한 현시 체계를 반영하여 이를 통해 시공간 셀을 이용한 지체를 산정할 수 있다.
도시부 교통류에서는 하나의 이동류의 지체가 다른 인접한 이동류 소통상황에 영향을 미칠 수 있다. 예컨대, 좌회전 교통류에 지체가 발생해 대기 행렬이 좌회전 차로를 넘어서는 경우 직진 이동류도 영향을 받아 지체가 발생할 수 있다. 이와 같은 상황을 기존 교통류 모형에서 모사할 경우 단순히 직진의 지체가 악화된 것으로 판단하지만, 본 실시예예 따른 모형에서는 좌회전 과포화로 인한 교통류 악화로 판단할 수 있다.
본 실시예에 따른 교통 학습 모형부(100)는 교차로 기하구조에 따라 2가지 상황을 구분하고 있으며, 이는 도 3에 도시되어 있다.
도 3은 본 발명의 일 예에 따른 교통 학습 모형부에 적용되는 모형을 설명하기 위한 도면이다.
도 3의 (a)는 " First In First Out" 구조를 나타낸 것으로 직진 이동류 차로수가 1차로인 경우, 직진 한차로가 막히면 양쪽 모두 빠져나갈 수 없는 기하구조 형태를 나타내고 있으며, 이러한 기하 구조를 반영하기 위하여 교통 학습 모형부(100)는 Daganzo(1993) 분류 모형(Combining Downstream Supply)을 사용하였다.
또한, 도 3의 (b)는 " Non First In First Out" 구조를 나타낸 것으로, 직진 이동류가 다차로인 경우 직진 한차로가 막히면, 직진의 용량은 감소하지만 통과할 수 있는 기하구조 형태를 나타내고 있으며, 이러한 기하 구조를 반영하기 위하여 교통 학습 모형부(100) Lebacque(1996) 분류 모형(Splitting Upstream Demand)을 사용할 수 있다.
또한, 교통 학습 모형부(100)는 선직진, 선좌회전, 동시 신호, 중첩 현시 등과 같은 다양한 현시 체계를 반영할 수 있고, 초기 밀도보다 큰 밀도를 갖는 셀들의 밀도값의 합으로 총 지체를 도출할 수 있다. 지체를 도출하기 위하여 다양한 도로의 다양한 기하 구조를 반영할 수 있다. 예컨대, 직진 전용구간, 좌회전 전용구간, 직진 좌회전 혼용구간으로 구분해 총 지체 산정할 수 있고, 혼용 구간은 직진, 좌회전 교통량 비율로 가중치를 주어 반영할 수 있다. 이 때, 직진, 좌회전 총 지체를 각각 직진, 좌회전 차량수로 나누어 평균함으로써 지체를 산정할 수 있다.
AI 에이전트인 교차로 학습부(200)는 교차로 당 1개가 배치될 수 있고, 개별 교차로 현시별 녹색시간 조정을 수행한다. 이는 배리어 경계 및 상충 현시 경계를 조정하는 것으로 소정의 주기, 예컨대 기본 3주기 별로 개별 교차로 현시 최적화를 수행할 수 있다.
도 4는 본 발명의 일 실시예에 따른 개별 교차로의 신호 제어 변수를 설명한 도면이다.
도 4에 도시된 바와 같이, 하나의 주기 동안 두 개의 배리어 그룹에 대한 신호가 변경될 수 있다. 교차로 학습부(200)는 두 개의 배리어 간의 시간 경계(Ⅰ)를 조정하고, 하나의 링베이어 그룹 내에서 상충현시 시간 경계(Ⅱ)를 조정하는 역할을 수행한다.
교차로 학습부(200)가 AI 강화 학습을 수행하기 위한 스테이트, 액션 및 보상은 다음과 같다.
스테이트는 제어대상의 신호제어변수 조정에 따른 교통상태를 대표할 수 있는 지표를 의미하고, 현시별 공간점유율 및 녹색시간 비율을 스테이트 지표로 설정할 수 있다. 예컨대, 4지교차로 기준 16개 스테이트 지표가 존재할 수 있다.
액션은 제어 대상의 신호제어변수 조정을 위한 행동으로 듀얼 링(Dual-ring) 기반의 현시조정을 위해 배리어별 녹색시간 조정비율과 상충현시간 녹색시간 조정비율로 설정될 수 있다. 예컨대, 4지교차로 기준으로 배리어간 1개, 상충현시간 4개와 같은 5개의 액션이 존재할 수 있다.
보상은 액션에 따른 결과를 평가하기 위한 보상값으로 개별 교차로 지체 증감 여부에 따라 결정될 수 있다. 예를 들어, 교차로 지체 감소 시 +1의 보상을 수행하고, 교차로 지체 증가 시 보상은 0으로 설정될 수 있다.
또 다른 AI 에이전트인 네트워크 학습부(300)는 제어 네트워크 당 1개가 배치될 수 있고, 네트워크를 구성하는 교차료 간 옵셋 조정을 수행한다. 이는 복수의 교차로를 통과하는 차량이 정차 없이 교차로를 통과할 수 있도록 신호를 조정하는 것을 의미하여, 소정의 주기, 예컨대 기본 1시간 단위 주기로 개별 네트워크 옵셋 최적화를 수행할 수 있다.
네트워크 학습부(300)가 AI 강화 학습을 수행하기 위한 스테이트, 액션 및 보상은 다음과 같다.
스테이트는 제어대상의 신호제어변수 조정에 따른 교통상태를 대표할 수 있는 지표를 의미하고, 제어교차로간 양방향 구간 편균제어 지체, 제어교차로 간 상대 옵셋으로 설정할 수 있다. 예컨대, 3
Figure 112020142922567-pat00001
1 네트워크 기준으로 4개 스테이트 지표가 존재할 수 있고, 이 때 스테이트는 제어교차로 간 구간 평균제어지체(양방향 평균) 2개 및 제어교차로 간 상대옵셋 2개로 구성될 수 있다.
액션은 제어 대상의 신호제어변수 조정을 위한 행동으로 제어 교차로별 옵셋 조정 비율로 설정될 수 있다. 예컨대, 제어 네트워크의 중심 교차로는 옵셋을 0으로 고정하고 3
Figure 112020142922567-pat00002
2 네트워크 기준으로 5개 액션이 존재할 수 있다.
보상은 액션에 따른 결과를 평가하기 위한 보상값으로 네트워크 지체 증감 여부에 따라 결정될 수 있다. 예를 들어, 네트워크 지체 감소 시 +1의 보상을 수행하고, 네트워크 지체 증가 시 보상은 0으로 설정될 수 있다.
신호 제어부(400)는 교차로 신호 제어 변수 및 네트워크 신호 제어 변수를 수신하고, 교차로 신호 제어 변수 및 네트워크 신호 제어 변수를 교통 신호 네트워크(500)에 실질적으로 적용할 수 있다.
도 5는 본 발명의 일 실시예에 따른 교통 신호 제어 방법을 설명하기 위한 제어 흐름도이다. 도 5를 참조하여 본 실시예에 따른 교통 신호 제어 방법을 정리하면 다음과 같다.
상술된 바와 같이, AI 에이전트인 교차로 학습부(200)와 네트워크 학습부(300)는 교통 학습 모형부(100)와 병렬적으로 동작되며, 최적화 하고자 하는 신호 제어 변수가 다르기 때문에 스테이트 및 액션은 다르지만, 동작을 위한 알고리즘은 동일하다. 도 5에서는 교차로 학습부(200)에 관련된 제1 스테이트와 제1 액션을 중심으로 설명되며, 제1 스테이트를 제2 스테이트로, 제1 액션을 제2 액션으로 변경하면 네트워크 학습부(300)에 의한 AI 강화 학습 과정이 도출될 수 있다.
우선, 교통 신호 제어 장치는 교통 상태 정보를 수집 및 가공하여 교통 학습 모형부(100)가 활용할 수 있는 정보로 변환할 수 있다(S510).
교통 학습 모형부(100)는 이동류별 통과 교통량과 이동류별 초기 대기 행렬을 기반으로 제1 스테이트(i)와 보상 산출을 위한 교차로 총지체(i)를 도출할 수 있다(S520).
상술된 바와 같이 제1 스테이트는 현시이동류별 공간 점유률, 현시이동류별 녹색시간 비율, 교차로 평균 제어 지체 및 현시별 포화도를 포함할 수 있다.
제1 스테이트(i)를 수신한 교차로 학습부(200)는 제1 스테이트(i)를 기반으로 제1 액션(i)을 도출할 수 있다(S530).
제1 액션은 배리어간 녹색 시간 조정 비율과 상충현시간 녹색 시간 조정 비율일 수 있다.
제1 액션(i)이 다시 교통 학습 모형부(100)로 입력되면, 교통 학습 모형부(100)는 제1 액션(i)이 반영된 신호 제어 변수 조정을 기반으로 하여 제1 스테이트(i+1) 및 교차로 총지체(i+1)를 도출할 수 있다(S540). 즉, 교차로 학습부(200)는 제1 액션(i)을 기반으로 제1 스테이트(i)를 제1 스테이트(i+1)로 갱신할 수 있다. 이는 제1 액션(i)을 기반으로 교통 상황을 새롭게 모사한 것을 의미한다. 교통 학습 모형부(100)는 기존의 제1 스테이트(i)에 따른 교차로 총지제(i)와 제1 스테이트(i+1)에 따른 교차로 총지제(i+1)를 비교하여 제1 액션(i)에 대한 보상(i)을 도출할 수 있다. 즉, 제1 액션(i)에 의하여 업데이트된 교차로 총지제(i+1)이 교차로 총지제(i)보다 감소된 것으로 판단되면, 즉 교차로 지체가 감소되면 +1의 보상(i)이 부여된다(S550).
제1 스테이트(i), 제1 스테이트(i+1), 제1 액션(i), 및 보상(i)를 저장 및 학습하여 업데이트된 AI 에이전트, 즉 교차로 학습부(200)는 제1 스테이트(i+1)에 대응하는 제1 액션(i+1)을 도출할 수 있다(S560).
S520 내지 S560의 과정은 기설정된 횟수 또는 소정 주기 동안 반복될 수 있고, 하나의 사이클이 완료되면 소정 주기 동안 반복되었는지 여부가 판단될 수 있다(S570).
만약, 상기 사이클이 소정 주기 동안 반복되지 않았으면 i는 i+1로 갱신되어 다시 S520 내지 S560의 과정을 반복하고(S580), 소정 주기 동안 반복되었으면 교차로 학습부(200)는 보상을 기반으로 최적의 신호 제어 변수를 출력할 수 있다.
이러한 최적의 신호 제어 변수는 교통 신호 네트워크(500)에 적용될 수 있다(S590).
실제 교통 신호 네트워크(500)에 적용된 신호 제어 변수는 일정한 주기 동안 적용되고, 그 적용 결과에 대한 새로운 신호 제어 변수들이 다시 새로운 교통 상태 정보로 수집될 수 있다.
교통 신호 제어 장치는 새롭게 수집된 데이터를 기반으로 도 5의 과정을 반복할 수 있다.
이와 같이, 본 실시예에 따른 교통 신호 제어 장치 및 이를 활용한 방법을 교통 패턴 변화가 많은 국내 도시부 교통신호 네트워크에 적용하여, 패턴 변화에 대응할 수 있고, 기존 신호 제어 시스템의 축단위 제어 체계에서 벗어나, 네트워크 단위에 대한 교통류 관리를 수행함으로써 네트워크 특성에 부합하는 실시간 신호운영을 수행할 수 있다.
또한, AI가 교통패턴 변화에 대응해 직접 신호 제어 변수(주기, 현시별 녹색 시간, 옵셋)을 조정해 실시간 교통 신호 운영을 수행할 수 있으므로, AI 기술을 교통패턴변화에 능동적으로 활용할 수 있다. 또한 기존 기술과 달리 현장 적용을 위한 제약 사항(현시순서, 주기, 배리어)을 준수하여 실질적으로 교통 현장에 적용할 수 있다.
도 6은 본 발명의 실시예에 따른, 컴퓨팅 장치를 나타내는 도면이다. 도 6의 컴퓨팅 장치(TN100)는 본 명세서에서 기술된 장치(예, 교통 신호 제어 장치, 교차로 학습부, 네트워크 학습부 또는 교통 학습 모형부 등) 일 수 있다.
도 6의 실시예에서, 컴퓨팅 장치(TN100)는 적어도 하나의 프로세서(TN110), 송수신 장치(TN120), 및 메모리(TN130)를 포함할 수 있다. 또한, 컴퓨팅 장치(TN100)는 저장 장치(TN140), 입력 인터페이스 장치(TN150), 출력 인터페이스 장치(TN160) 등을 더 포함할 수 있다. 컴퓨팅 장치(TN100)에 포함된 구성 요소들은 버스(bus)(TN170)에 의해 연결되어 서로 통신을 수행할 수 있다.
프로세서(TN110)는 메모리(TN130) 및 저장 장치(TN140) 중에서 적어도 하나에 저장된 프로그램 명령(program command)을 실행할 수 있다. 프로세서(TN110)는 중앙 처리 장치(CPU: central processing unit), 그래픽 처리 장치(GPU: graphics processing unit), 또는 본 발명의 실시예에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다. 프로세서(TN110)는 본 발명의 실시예와 관련하여 기술된 절차, 기능, 및 방법 등을 구현하도록 구성될 수 있다. 프로세서(TN110)는 컴퓨팅 장치(TN100)의 각 구성 요소를 제어할 수 있다.
메모리(TN130) 및 저장 장치(TN140) 각각은 프로세서(TN110)의 동작과 관련된 다양한 정보를 저장할 수 있다. 메모리(TN130) 및 저장 장치(TN140) 각각은 휘발성 저장 매체 및 비휘발성 저장 매체 중에서 적어도 하나로 구성될 수 있다. 예를 들어, 메모리(TN130)는 읽기 전용 메모리(ROM: read only memory) 및 랜덤 액세스 메모리(RAM: random access memory) 중에서 적어도 하나로 구성될 수 있다.
송수신 장치(TN120)는 유선 신호 또는 무선 신호를 송신 또는 수신할 수 있다. 송수신 장치(TN120)는 네트워크에 연결되어 통신을 수행할 수 있다.
한편, 본 발명의 실시예는 지금까지 설명한 장치 및/또는 방법을 통해서만 구현되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있으며, 이러한 구현은 상술한 실시예의 기재로부터 본 발명이 속하는 기술 분야의 통상의 기술자라면 쉽게 구현할 수 있는 것이다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 통상의 기술자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (10)

  1. 교통 신호 제어 장치에 있어서,
    제1 스테이트를 기반으로 배리어간 녹색 시간 조정 비율과 상충현시간 녹색 시간 조정 비율을 제1 액션으로 도출하고, 교차로 신호 제어 변수를 출력하는 교차로 학습부와;
    제2 스테이트를 기반으로 교차로별 옵셋 조정 비율과 교차로별 옵셋을 제2 액션으로 도출하고, 네트워크 신호 제어 변수를 출력하는 네트워크 학습부와;
    입력되는 이동류별 통과 교통량과 이동류별 초기 대기 행렬을 기반으로 교통 상황을 모사하여 상기 제1 스테이트를 상기 교차로 학습부로 출력하고, 상기 제2 스테이트를 상기 네트워크 학습부로 출력하고, 상기 제1 액션 및 상기 제2 액션을 기반으로 상기 교통 상황을 다시 모사하여 상기 제1 스테이트와 상기 제2 스테이트를 갱신하는 교통 학습 모형부와;
    상기 교차로 신호 제어 변수 및 상기 네트워크 신호 제어 변수를 수신하고, 상기 교차로 신호 제어 변수 및 상기 네트워크 신호 제어 변수를 교통 신호 네트워크에 적용하는 신호 제어부를 포함하는 것을 특징으로 하는 교통 신호 제어 장치.
  2. 제1항에 있어서,
    제1 스테이트는 현시이동류별 공간 점유률, 현시이동류별 녹색시간 비율, 교차로 평균 제어 지체 및 현시별 포화도 중 적어도 하나를 포함하고,
    상기 제2 스테이트는 제어 교차로 간 구간 평균 제어 지체 및 교차로별 옵셋을 포함하고,
    상기 교차로 신호 제어 변수는 현시별 녹색 시간을 포함하고,
    상기 네트워크 신호 제어 변수는 신호 변화 주기, 및 교차로 옵셋을 포함하는 것을 특징으로 하는 교통 신호 제어 장치.
  3. 제1항에 있어서,
    상기 교차로 학습부 및 상기 네트워크 학습부는 연속적인 액션 스페이스 학습을 수행하는 DDPG(Deep Deterministic Policy Gradient) 알고리즘을 포함하는 것을 특징으로 하는 교통 신호 제어 장치.
  4. 제3항에 있어서,
    상기 교통 학습 모형부는,
    상기 제1 액션으로 인하여 교차로 지체가 감소되면 상기 제1 액션을 보상하고,
    상기 제2 액션으로 인하여 네트워크 지체가 감소되면 상기 제2 액션을 보상하는 것을 특징으로 하는 교통 신호 제어 장치.
  5. 제2항에 있어서,
    상기 교통 학습 모형부는 시공간적 셀 단위로 교통류 충격파 전파를 나타내는 셀 전파 모델을 기반으로 상기 시공간적 셀의 지체를 도출하고,
    상기 지체를 기반으로 상기 제1 스테이트 및 상기 제2 스테이트를 도출하는 것을 특징으로 하는 교통 신호 제어 장치.
  6. 제1항에 있어서,
    상기 교차로 신호 제어 변수는 소정 신호 주기 마다 최적화되고,
    상기 네트워크 신호 제어 변수는 소정 시간 마다 최적화 되는 것을 특징으로 하는 교통 신호 제어 장치.
  7. 교차로 학습부 및 네트워크 학습부를 포함하는 교통 신호 제어 장치에 의한 교통 신호 제어 방법에 있어서,
    입력되는 이동류별 통과 교통량과 이동류별 초기 대기 행렬을 기반으로 교통 상황을 모사하여 제1 스테이트를 상기 교차로 학습부로 출력하는 단계와;
    상기 제1 스테이트를 기반으로 배리어간 녹색 시간 조정 비율과 상충현시간 녹색 시간 조정 비율을 제1 액션으로 학습하는 단계와;
    상기 제1 액션을 기반으로 상기 교통 상황을 다시 모사하여 상기 제1 스테이트를 갱신하는 단계와;
    상기 제1 액션으로 인하여 교차로 지체가 감소되면 상기 제1 액션을 보상하는 단계와;
    상기 제1 스테이트, 상기 제1 액션 및 상기 보상을 기반으로 최적의 교차로 신호 제어 변수를 도출하고, 도출된 상기 교차로 신호 제어 변수를 교통 신호 네트워크에 적용하는 단계를 포함하는 것을 특징으로 하는 교통 신호 제어 방법.
  8. 제7항에 있어서,
    입력되는 이동류별 통과 교통량과 이동류별 초기 대기 행렬을 기반으로 교통 상황을 모사하여 제2 스테이트를 상기 네트워크 학습부로 출력하는 단계와;
    상기 제2 스테이트를 기반으로 교차로별 옵셋 조정 비율과 교차로별 옵셋을 제2 액션으로 학습하는 단계와;
    상기 제2 액션을 기반으로 상기 교통 상황을 다시 모사하여 상기 제2 스테이트를 갱신하는 단계와;
    상기 제2 액션으로 인하여 네트워크 지체가 감소되면 상기 제2 액션을 보상하는 단계와;
    상기 제2 스테이트, 상기 제2 액션 및 상기 보상을 기반으로 최적의 네트워크 신호 제어 변수를 도출하고, 도출된 상기 네트워크 신호 제어 변수를 교통 신호 네트워크에 적용하는 단계를 더 포함하는 것을 특징으로 하는 교통 신호 제어 방법.
  9. 제8항에 있어서,
    상기 제1 스테이트는 현시이동류별 공간 점유률, 현시이동류별 녹색시간 비율, 교차로 평균 제어 지체 및 현시별 포화도 중 적어도 하나를 포함하고,
    상기 제2 스테이트는 제어 교차로 간 구간 평균 제어 지체 및 교차로별 옵셋을 포함하고,
    상기 교차로 신호 제어 변수는 현시별 녹색 시간를 포함하고,
    상기 네트워크 신호 제어 변수는 신호 변화 주기, 및 교차로 옵셋을 포함하는 것을 특징으로 하는 교통 신호 제어 방법.
  10. 메모리; 및
    상기 메모리를 제어하는 프로세서를 포함하고,
    상기 프로세서는,
    입력되는 이동류별 통과 교통량과 이동류별 초기 대기 행렬을 기반으로 교통 상황을 모사하여 제1 스테이트를 출력하고, 상기 제1 스테이트를 기반으로 배리어간 녹색 시간 조정 비율과 상충현시간 녹색 시간 조정 비율을 제1 액션으로 학습하고, 상기 제1 액션을 기반으로 상기 교통 상황을 다시 모사하여 상기 제1 스테이트를 갱신하는
    제어 장치.
KR1020200186650A 2020-12-29 2020-12-29 Ai 강화학습 기반의 교통 신호 제어 장치 및 이를 수행하는 방법 KR102400833B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200186650A KR102400833B1 (ko) 2020-12-29 2020-12-29 Ai 강화학습 기반의 교통 신호 제어 장치 및 이를 수행하는 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200186650A KR102400833B1 (ko) 2020-12-29 2020-12-29 Ai 강화학습 기반의 교통 신호 제어 장치 및 이를 수행하는 방법

Publications (1)

Publication Number Publication Date
KR102400833B1 true KR102400833B1 (ko) 2022-05-20

Family

ID=81798986

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200186650A KR102400833B1 (ko) 2020-12-29 2020-12-29 Ai 강화학습 기반의 교통 신호 제어 장치 및 이를 수행하는 방법

Country Status (1)

Country Link
KR (1) KR102400833B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102573526B1 (ko) * 2022-07-08 2023-09-06 주식회사 노타 강화학습 모델을 이용하여 연동 그룹 내 신호기의 교통신호를 제어하는 장치 및 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090116172A (ko) * 2008-05-06 2009-11-11 최상우 인공지능 차량 신호등 제어장치
KR101211645B1 (ko) * 2012-02-06 2012-12-12 (주)비엔텍아이엔씨 실시간 교통 신호 현시 제어 시스템 및 이를 이용한 실시간 교통 신호 현시 제어 방법
KR20200019290A (ko) * 2018-08-09 2020-02-24 (주)인터아이 딥 러닝 및 인공지능 플래닝 기반 교통신호 통합제어 시스템
KR102116029B1 (ko) * 2019-12-13 2020-05-27 (주)동림티엔에스 드론을 이용한 교통신호 최적화 시스템
KR102155052B1 (ko) * 2019-03-25 2020-09-11 라온피플 주식회사 영상 검지 장치 및 이를 포함하는 신호 제어 시스템 및 신호 제어 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090116172A (ko) * 2008-05-06 2009-11-11 최상우 인공지능 차량 신호등 제어장치
KR101211645B1 (ko) * 2012-02-06 2012-12-12 (주)비엔텍아이엔씨 실시간 교통 신호 현시 제어 시스템 및 이를 이용한 실시간 교통 신호 현시 제어 방법
KR20200019290A (ko) * 2018-08-09 2020-02-24 (주)인터아이 딥 러닝 및 인공지능 플래닝 기반 교통신호 통합제어 시스템
KR102171671B1 (ko) 2018-08-09 2020-10-29 (주)인터아이 딥 러닝 및 인공지능 플래닝 기반 교통신호 통합제어 시스템
KR102155052B1 (ko) * 2019-03-25 2020-09-11 라온피플 주식회사 영상 검지 장치 및 이를 포함하는 신호 제어 시스템 및 신호 제어 방법
KR102116029B1 (ko) * 2019-12-13 2020-05-27 (주)동림티엔에스 드론을 이용한 교통신호 최적화 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102573526B1 (ko) * 2022-07-08 2023-09-06 주식회사 노타 강화학습 모델을 이용하여 연동 그룹 내 신호기의 교통신호를 제어하는 장치 및 방법

Similar Documents

Publication Publication Date Title
CN108510764B (zh) 一种基于q学习的多路口自适应相位差协调控制***及方法
Jin et al. A group-based traffic signal control with adaptive learning ability
Haddad et al. Cooperative traffic control of a mixed network with two urban regions and a freeway
US11783702B2 (en) Method and system for adaptive cycle-level traffic signal control
Richter et al. Natural actor-critic for road traffic optimisation
Gong et al. Multi-objective reinforcement learning approach for improving safety at intersections with adaptive traffic signal control
CN113643528B (zh) 信号灯控制方法、模型训练方法、***、装置及存储介质
CN112614343A (zh) 基于随机策略梯度的交通信号控制方法、***及电子设备
KR20220102395A (ko) 자율주행 차량 군집 운행을 위한 비신호 교차로에서의 강화학습기반 통행 개선을 위한 장치 및 방법
Yoon et al. Transferable traffic signal control: Reinforcement learning with graph centric state representation
KR102400833B1 (ko) Ai 강화학습 기반의 교통 신호 제어 장치 및 이를 수행하는 방법
CN102110371A (zh) 一种基于分级多智能体架构的交通信号控制***
KR102057066B1 (ko) 교통 빅데이터 기계학습이 내장된 교통시스템 모델링방법
Han et al. A new reinforcement learning-based variable speed limit control approach to improve traffic efficiency against freeway jam waves
Egea et al. Assessment of reward functions for reinforcement learning traffic signal control under real-world limitations
Marsetič et al. Road artery traffic light optimization with use of the reinforcement learning
Mou Intersection traffic control based on multi-objective optimization
Di et al. Integrated control for mixed CAV and CV traffic flow in expressway merge zones combined with variable speed limit, ramp metering, and lane changing
Khamis et al. Adaptive traffic control system based on Bayesian probability interpretation
Shabestary et al. Cycle-level vs. second-by-second adaptive traffic signal control using deep reinforcement learning
Zhang et al. PlanLight: learning to optimize traffic signal control with planning and iterative policy improvement
Qiao et al. Traffic signal control using a cooperative EWMA-based multi-agent reinforcement learning
Niittymäki Using fuzzy logic to control traffic signals at multi-phase intersections
Lee et al. Reinforcement learning for traffic signal control: Incorporating a virtual mesoscopic model for depicting oversaturated traffic conditions
CN116543574A (zh) 一种面向车道容量差异的多信号灯控制方法及***

Legal Events

Date Code Title Description
GRNT Written decision to grant