KR20230070779A

KR20230070779A - 제약 강화 학습이 적용된 이산 산업 제조 시스템의 수요반응 관리 방법

Info

Publication number: KR20230070779A
Application number: KR1020210156719A
Authority: KR
Inventors: 홍승호; 장시옹펑
Original assignee: 네스트필드(주)
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2023-05-23
Also published as: WO2023085560A1

Abstract

수요반응(DR)은 전력망의 안정성과 재정적 효율성을 향상시키는 효과적인 방법으로 인정받고 있다. 1차 소비자로서 산업 부문에 대한 DR 구현이 시급하다. 본 발명은 에너지 비용과 일일 생산 목표를 동시에 고려하여 산업용 이산 제조 시스템을 위한 새로운 산업용 가격 기반 DR 관리 접근 방식을 제안한다. 이를 달성하기 위해 이산 제조 시스템은 CMDP(Constrained Markov Decision Process)로 모델링되고, CRL(Constrained Reinforcement Learning) 알고리즘을 채택하여 이산 제조 시스템에 대한 비용 효율적인 운영 전략을 결정한다. 본 발명에 따른 방법의 성능을 검증하기 위해 실제 리튬 이온 배터리 조립 시스템을 사용하여 시뮬레이션을 수행하였고, 그 평가 결과는 본 발명에 따른 방법이 생산 목표를 위반하지 않고 에너지 비용을 최적화할 수 있음을 보여 주었다.

Description

제약 강화 학습이 적용된 이산 산업 제조 시스템의 수요반응 관리 방법{Demand response management method for discrete industrial manufacturing system based on constrained reinforcement learning}

본 발명은 이산 산업 제조 시스템의 수요반응 관리 방법에 관한 것으로서, 상세하게는 CMDP(Constrained Markov Decision Process)로 모델링되고, CRL(Constrained Reinforcement Learning) 알고리즘을 채택하여 이산 산업 제조 시스템에 대한 비용 효율적인 운영 전략을 결정할 수 있는 제약 강화 학습이 적용된 이산 산업 제조 시스템의 수요반응 관리 방법에 관한 것이다.

수요반응(DR)은 시변하는 가격에 대한 고객의 에너지 수요 변화를 의미한다. 잘 설계된 DR 프로그램은 스마트 그리드에서 경제적 효율성, 운영 유연성 및 시스템 신뢰성을 촉진할 수 있다. 최근 연구에 따르면 산업 부문의 에너지 소비는 지난 몇 년 동안 급격히 증가하여 전 세계 에너지 사용의 50% 이상을 차지하고 있다. 또한, 산업 부문에서 소비하는 에너지는 향후 몇 년 동안 더욱 증가할 것으로 예상된다. 따라서 산업 부문의 에너지 관리를 위한 효율적인 DR 프로그램을 개발하는 것이 중요하다.

그러나 산업 제조 시스템을 위한 효과적인 DR 프로그램을 구현하는 것은 복잡하고 어려운 작업이다. 주거 및 상업 부문과 달리 산업 에너지 소비 패턴은 일반적으로 순차적이고 상호 의존적이며 상관 관계가 있는 다양한 생산 작업과 다양한 제조 장비에서 비롯된다. 따라서 성공적인 산업용 DR 구현에는 대상 시스템에 있는 각 장비의 물리적 특성을 모두 취득할 수 있는 고해상도 시스템 모델이 필요하다. 또한, 많은 산업용 DR 조치는 생산 이동과 관련된 생산 손실 또는 비용 증가를 초래할 수 있으며, 이는 DR 프로그램 참여에 대한 산업 고객의 관심을 제한할 것이다.

지난 몇 년 동안 강화 학습(RL) 방법은 복잡한 순차적 의사 결정 문제를 해결하는데 점점 더 많은 관심을 끌고 있다. RL의 일련의 성공은 딥 Q-러닝의 적용으로 달성되었다. 행동 심리학에서 영감을 받은 인공 지능(AI)의 한 분야인 RL은 소프트웨어 에이전트가 불확실한 환경에서 어떻게 행동하여 누적 보상을 극대화할 수 있는지 탐구한다. RL의 사용은 에이전트 및 환경의 식별을 포함한다. 에이전트는 환경과 상호 작용하여 환경으로부터 피드백을 받는다. 이 피드백(보상)은 각 상태-동작 쌍을 평가하는 데 사용된다. 일반적으로 의사결정 문제를 처리하기 위해 RL을 적용하는 이점은 두 가지 주요 측면으로 요약될 수 있다.

첫째, RL은 모델이 없다. 작업을 선택하는 방법을 결정하기 위해 사전 정의된 규칙이나 사전 정의된 규칙이 필요하지 않다. 둘째, RL은 적응적이다. 매우 불확실한 시스템 역학을 다루기 위해 과거 데이터로부터 귀중한 지식을 학습할 수 있으며 추출된 지식을 일반화하고 새로 발생하는 상황에 적용할 수 있다. RL의 인상적인 장점으로 인해 DR 에너지 관리, 전기 자동차 충전 및 동적 경제 파견(dynamic economic dispatch) 등과 같은 스마트 그리드의 의사 결정 문제를 잠재적으로 해결할 수 있다.

주거 및 상업 부문의 DR 관리 문제를 해결하기 위해 RL을 적용하는데 많은 관심을 기울이고 있다. 예를 들어, 종래 연구는 사용자 행동과 전기 가격을 확률론적으로 고려하여 전기 자동차에 대한 최적의 충전 전략을 얻기 위해 DRL 기반 에너지 관리 알고리즘을 제안했다. 또한, 다른 종래 연구는 DRL 기반의 DR 스케줄링 알고리즘을 개발하여 입주민 행동의 불확실성, 실시간 전기요금, 실외 온도 등을 고려하여 가전제품 세트를 최적으로 제어할 수 있도록 하였다.

또한, 다른 종래 연구는 시스템 역학에 대한 제한된 정보 하에 열 펌프 온도 조절기 또는 전기 히터와 같은 에너지 가변 부하의 에너지 소비를 최적화하기 위해 일괄 RL 기반 하루 전(day-ahead) DR 계획을 적용했다. 또한, 다른 종래 연구는 RL 방법을 사용하여 서비스 제공자 측에서 동적 가격 설정 문제를 탐구했으며, 가격 설정 문제는 Markov Decision Process(MDP)로 모델링된 다음 Q-leaning 알고리즘을 사용하여 이상적인 값을 결정했다. 또한, 다른 종래 연구에서 RL은 서비스 제공자의 이익과 고객의 비용 모두를 최적화하는 것을 목표로 다양한 고객에게 이상적인 인센티브 비율을 탐색하기 위해 적용되었다. 또한, 다른 종래 연구에서 다양한 유형의 가전제품이 있는 스마트 홈을 고려하여 전력 비용과 사용자 불만족 비용의 합을 최소화하기 위해 다중 에이전트 RL 기반 DR 알고리즘을 개발했다.

위에서 강조한 연구는 주거 및 상업용 DR 문제를 해결하는데 있어 일련의 성공을 입증했지만, 그 성공은 단순한 애플리케이션 시나리오 및/또는 장치 다양성이 적기 때문이다. 더욱이 이러한 응용 프로그램의 장치는 일반적으로 서로 함께 작동하지 않고 독립적으로 작동하는 것으로 간주된다. 이러한 기능을 통해 Q-learning, Actor-Critic과 같은 다양한 RL 접근 방식을 주거 및 상업 시나리오에 적용하여 비용 최소화 문제 또는 동적 가격 책정 문제를 해결할 수 있다.

다음과 같은 몇 가지 이유로 인해 RL 관련 기술을 사용하여 산업 부문의 DR 잠재력을 탐구하기 위해 드문 작업이 수행되었다.

i) 산업 자산은 일반적으로 밀접하게 연결되어 함께 함께 작동한다.

ii) 제조 공정에서 연속적인 장비는 순서를 위반하지 않고 특정 순서로 작동해야 한다.

iii) 산업 DR 관리는 일반적으로 에너지 소비를 줄이는 것뿐만 아니라 생산 요구 사항을 유지하는 방법도 고려해야 한다.

최근 연구에서 리튬 이온 배터리 어셈블리 제조 시스템의 에너지 소비를 조절하기 위해 실시간 기반 DR 방식을 제안했다. 여기서 제조 시스템은 Markov 게임으로 모델링되었다. 이후 이 Markov 게임을 해결하기 위해 다중 에이전트 DRL 알고리즘이 사용되었다. 그러나 이 연구는 에너지 소비를 최적화하려고 노력할 뿐 실제 생산 관점에서 생산 목표에 대한 제약은 언급되지 않았다. 에너지 비용을 최소화하는 것이 매력적이지만 제조 시스템은 생산 요구 사항을 위반하는 비용으로 이를 달성해서는 안 된다.

한국공개특허공보 제10-2019-0132193호

이러한 문제를 극복하기 위해 본 발명은 생산 목표를 보장하면서 에너지 비용을 최적화하려는 산업 제조 시스템을 위한 제약 강화 학습(CRL) 기반 DR 관리 알고리즘을 제공하는 것을 목적으로 한다.

이를 위해, 본 발명에 따른 제약 강화 학습이 적용된 이산 산업 제조 시스템의 수요반응 관리 방법은 이산 산업 제조 시스템의 에너지 관리 장치에서 수행되는 방법으로서, 시간 구간 t 상태(S_t)에서 정책(π)에 따라 행동(작업)(a_t)을 실행하고 보상(R_t) 및 비용(R^c _t)을 획득하여 다음 상태(S_t+1)로 이동하고 현 상태(S_t), 행동(a_t), 다음 상태(S_t+1), 보상(R_t) 및 비용(R^c _t)으로 구성된 샘플을 저장하는 방식으로 총 시간 단계(t=1~T)의 훈련 집합을 저장하는 경험 축적 단계와, 상기 훈련 집합에서 임의로 미니 배치(mini-batch)를 샘플링하고 미니 배치에 대해 행동 가치 함수(state-action value function)와 상태 가치 함수(state value function)의 목표값(target label)을 계산하고, 함수값과 목표값 간의 오차가 최소화되도록 행동 가치 함수의 파라미터와 상태 가치 함수의 파라미터를 경사 하강법에 따라 업데이트하는 과정; 정책 함수(policy function)의 파라미터를 업데이트하는 과정; 목표 상태 가치 함수(target state value function)의 파라미터를 업데이트하는 과정; 및 라그랑주 승수(Lagrange multiplier)를 업데이트하는 과정을 포함하는 파라미터 갱신 단계와, 상기 파라미터 갱신 단계에서 결정된 파라미터에 근거하여 현 상태에서 정책에 따라 행동을 실행하고 보상을 획득하여 다음 상태로 이동하는 동작을 반복 실행하여 누적 보상을 계산하는 누적 보상 계산 단계를 포함하여, 상기 누적 보상이 최대가 될 때까지 상기 파라미터 갱신 단계를 반복하는 것을 특징으로 한다.

상술한 바와 같이, 본 발명은 이산 산업 제조 시스템에 대한 비용 효율적인 운영 전략을 결정할 수 있는 효과가 있다.

인공지능(AI)의 출현으로 복잡한 의사 결정 프로세스를 처리하기 위해 강화학습(RL)을 채택하는 것에 대한 관심이 높아지고 있다. 본 발명은 생산 목표를 달성하면서 에너지 비용을 최소화하기 위해 이산 제조 시스템에 대해 CRL 기반 DR 알고리즘을 제안한다. 특히, 이산 제조 시스템이 CMDP로 공식화되고 CRL 알고리즘이 채택되어 모든 기계에 대한 최적의 작동 일정을 식별할 수 있다.

마지막으로 본 발명에 따른 CDRL 알고리즘을 리튬 이온 배터리 조립 공정에 적용한 시뮬레이션 결과, 본 발명에 따른 알고리즘이 생산 목표를 위반하지 않고 공정의 에너지 비용을 최소화할 수 있음을 입증하였다.

앞으로 본 발명에 따른 DR 계획은 에너지 저장 시스템과 재생 가능 에너지 자원(예: 태양광 및 풍력)을 통합하는 다른 많은 종류의 산업 시설에서 평가될 수 있고, 또한 실제 산업 제조 시스템에서 구현되어 성능을 평가 받을 수 있을 것이다.

도 1은 본 발명에 따른 산업 이산 제조 시스템의 일반적인 구성을 나타낸 도면.
도 2는 행위자-비평가(actor-critic) 방식의 구성을 나타낸 도면.
도 3은 본 발명에 따른 방법이 적용되는 리튬이온 배터리 조립 공정을 나타낸 도면.
도 4는 리튬이온 배터리 모듈의 계층적 구조를 나타낸 도면.
도 5는 본 발명에 따른 학습 과정에서 누적 보상을 나타낸 도면.
도 6은 전기 가격에 대응하는 총 에너지 수요를 나타낸 도면.
도 7은 각 시간 단계(구간)에서 최종 배터리 생산의 저장량을 나타낸 도면.
도 8은 CSAC 및 Gurobi solver에 의해 얻은 총 비용을 나타낸 도면.
도 9는 2019.6.2~4일까지 학습 과정에서 누적 보상을 나타낸 도면.
도 10은 2019.6.2~4일까지 전기 가격에 대응하는 총 에너지 수요를 나타낸 도면.
도 11은 2019.6.2~4일까지 각 시간 구간에서 최종 배터리 생산의 저장량을 나타낸 도면.
도 12는 본 발명에 따른 방법에서 처리 과정을 나타낸 순서도.

본 발명에 따른 CRL 알고리즘을 적용하기 위해 산업 제조 공정의 운영 비용 최적화 문제는 에너지 소비와 자원 관리를 모두 고려하는 미지의 변수나 동적 모델에 대한 예측이 없는 CMDP(Constrained Markov Decision Process)로 공식화된다.

에너지 비용을 최소화하면서 생산 목표를 달성할 수 있도록 보상 함수와 비용 함수를 정교하게 설계하여 해석된(construed) CDMP에 통합된다.

본 발명에 따른 CMDP를 기반으로 산업 제조 시스템의 모든 장비에 대한 최적의 운영 정책을 결정하기 위해 CMDP를 해결하는 새로운 CRL 알고리즘을 설계한다.

마지막으로, 실제 산업 사례인 일반적인 리튬 이온 배터리 어셈블리 제조 공정을 사용하여 본 발명에 따른 CRL 알고리즘의 효율성을 평가한다. 평가 결과는 본 발명에 따른 CRL 알고리즘이 생산 요구 사항을 보장하면서 에너지 수요 공급의 균형을 유지하고 에너지 비용을 절감할 수 있음을 보여준다. 이는 본 발명에 따른 알고리즘이 복잡한 산업 DR 관리 문제를 처리할 가능성이 있음을 나타낸다.

본 발명은 여러 대의 연속 기계의 작동과 다양한 자원(전기 및 생산 자재)의 사용을 동시에 고려하는 산업 제조 시스템의 DR 관리에 CRL을 적용한 첫 번째 사례이다.

본 발명의 명세서는 다음과 같이 구성된다.

먼저, 에너지 수요 모델, 생산 자원 균형 모델 및 대상 기능을 포함하여 일반적인 개별 제조 시스템의 문제 공식을 상술하고, 종래의 DR 문제를 해결하기 위한 본 발명에 따른 CRL 알고리즘을 설명한 후. 그 CRL 알고리즘에 대한 평가 결과를 기술하기로 한다.

문제 공식화

가격 기반 DR 환경에서 일반적인 이산 제조 시스템의 에너지 관리 문제를 살펴본다. 시설에 주기적으로(예: 시간 단위로) 유틸리티 회사로부터 실시간 가격(RTP) 데이터를 수신하는 에너지 관리 센터(EMC)가 있다고 가정한다. 그런 다음 EMC는 이산 제조 시스템에서 다양한 기계의 에너지 소비를 관리하기 위한 최적의 제어 정책을 결정한다. 본 발명에 따른 CRL 기반 DR 체계는 EMC에 사전 설치된다.

도 1은 일반적인 산업용 이산 제조 시스템을 나타낸 것이다.

도 1을 참고하면, M_i,j 및 B_i,j는 각각 중간 제품을 처리하고 저장하는 데 사용되는 기계와 해당 버퍼를 나타낸다. 여기서 i는 i번째 직렬 생산 라인 분기를 나타내고 j는 i번째 분기의 j번째 기계 또는 버퍼를 나타낸다. 에너지 수요 모델, 생산 자원 균형 모델 및 대상 함수의 수학적 공식은 다음과 같이 설명할 수 있다.

A. 에너지 수요 모델

일반적으로 이산 제조 시스템에서 각 기계에는 작동 및 유휴의 두 가지 작동 옵션이 있다. 작동은 기계가 완전 작동 모드에 있음을 의미하고 유휴 상태는 기계가 절전 모드로 전환됨을 나타낸다.

z_i,j ^t가 기계 M_i,j의 이진 변수이다. 즉, M_i,j가 작동 모드인 경우 z_i,j=1이고, 그렇지 않으면 z_i,j=0이다.

단계 t 동안 각 기계는 하나의 작동 옵션만 선택할 수 있다. 따라서 단계 t 동안 기계 M_i,j의 에너지 소비는 수학식 1과 같이 나타낼 수 있다.

여기서, e_i,j ^op 및 e_i,j ^idle은 각각 작동 또는 절전 모드에서 기계 M_i,j의 에너지 소비를 나타낸다.

따라서 t 단계 동안 전체 제조 시스템의 에너지 소비량은 수학식 2를 사용하여 합산할 수 있다.

또한, 전체 시스템의 총 에너지 소비 E^t는 수학식 3과 같이 로컬 전력망의 최대 용량 E_max에 종속된다.

B. 생산 자원 균형 모델

두 개의 순차적 기계 사이에서 버퍼 B_i,j는 생산 프로세스를 따라 제품의 다른 부분을 위한 저장 공간 역할을 한다. 단계 t에서 버퍼 B_i,j의 재료 저장은 수학식 4와 같이 표현된다.

여기서, P_i,j ^t(C_i,j ^t)는 단계 t 동안 버퍼 B_i,j에서 생산(소비)된 양을 나타낸다. P_i,j ^t와 C_i,j ^t는 각각 수학식 5와 6과 같다.

p_i,j ^t(c_i,j ^t)는 작동 모드 z_i,j ^t에서 기계 M_i,j의 생산(소비)율을 나타낸다.

공정 기계의 정상적인 작동을 보장하기 위해 t 단계 동안 버퍼 B_i,j의 재료 양은 수학식 7와 같이 제약 조건을 유지해야 한다.

여기서 B_i,j ^min 및 B_i,j ^max는 버퍼 B_i,j에 있는 재료의 최소 및 최대 양을 나타낸다.

C. 목적 함수

실제 산업용 이산 제조 시스템의 목표는 최소한의 에너지 비용으로 생산 작업을 수행하는 것이다. 시스템의 목적 함수는 수학식 8 및 9로 나타낼 수 있다.

수학식 8은 v^t가 단계 t에서 전기 가격을 나타내며 그 날 하루의 에너지 비용 최소화를 정의한다. 수학식 9는 생산 목표 제약을 정의하는데, 이는 최종 버퍼 B_final의 잔존 값 B_final ²⁴가 마지막 단계(즉, t=24)의 끝에서 사전 정의된 목표 출력

보다 작을 수 없음을 의미한다.

CRL 방법론

먼저 CMDP를 간략하게 설명한 후, 산업 DR 관리 문제를 CMDP로 공식화하고, 마지막으로 CMDP를 해결하기 위해 CRL 방법론을 적용한다.

A. CMDP

MDP의 확장으로서 CMDP는 6쌍(S, A, π, P _r, R, R ^c )을 특징으로 한다. 여기서, S는 사용 가능한 상태가 있는 상태 공간을 나타낸다. A는 사용 가능한 행동이 있는 행동 공간을 나타낸다. π는 주어진 상태의 행동에 대한 분포를 나타낸다.

P _r: S×A×S → [0,1]은 천이 확률 함수를 나타내고, R(또는 R ^c ) :S×A×S → R(또는 R ^c )은 보상함수(또는 비용함수)를 나타낸다. CDMP는 일반적으로 이산 시간 단계에서 서로 상호 작용하는 에이전트와 환경의 개념을 포함한다. 각 단계 t∈[0,T] 동안 에이전트는 환경의 상태 s_t∈S를 관찰하고 정책 π에 따라 행동 a_t∈A를 선택한다. 다음 단계 t+1에서 에이전트는 보상 R(s_t,a_t,s_t+1)⊂R과 비용 R^c(s_t,a_t,s_t+1)⊂R ^c 를 얻는다. 환경은 천이 확률 함수 P _r(s_t+1|s_t,a_t)에 따라 다음 상태 s_t+1로 이동한다. 에이전트의 목표는 예상 할인 총 비용 J^c에 대한 상한 제약

에 종속되는 예상 할인 수익 J를 최대화하는 최적 정책 π를 식별하는 것이다.

여기서, τ는 경로

이고, γ∈[0,1]은 할인율를 나타내고, R과 R_t ^c는 각각 R(s_t,a_t,s_t+1)와 R^c(s_t,a_t,s_t+1)의 약자이다.

마지막으로 상태가치 함수 V^π(s)와 행동가치 함수 Q^π(s)는 다음과 같이 정의된다.

여기서, π는 상태 공간 S에서 행동 공간 A으로 매핑한 결정 정책이거나 상태에서 다른 행동을 선택할 확률을 매핑한 확률 정책이다.

상태가치 함수와 행동가치 함수는 벨만 방정식에 따라 즉각적 보상과 후속 상태의 할인값으로 분해될 수 있다.

B. 산업적 DR 문제에 대한 CMDP 공식화

산업 DR 관리 문제는 CMDP로 설정되고 EMC가 환경, 즉 전체 이산 제조 시스템과 상호 작용하는 학습 에이전트로 간주된다. 공식화된 CMDP는 상태 공간(state space), 행동 공간(action space), 보상함수(reward function), 비용함수(cost function)을 포함한다. 최적화 수평(optimization horizon)은 시간당 가격을 기준으로 내려야 하는 총 24개의 결정에 따라 24개의 단계로 구성됩니다.

본 발명의 목표는 이산 제조 시스템의 총 에너지 비용을 최소화하면서 생산 목표 제약을 충족하는 최적의 전략을 찾는 것이다.

1) 상태 공간

산업 DR 관리에서 각 단계의 시작 부분에서 관찰된 상태 s는 시간 표시기 t, 전기 가격 v^t, 기계 에너지 소비 e^t _ij, 버퍼 저장량 B^t _i,j의 네 부분을 포함한다.

수학식 18은 시간 표시기 t, 전기 가격 v^t, 기계 에너지 소비 e^t _ij, 버퍼 저장량 B^t _i,j을 포함하는 단계 t에서 상태(s_t)의 샘플을 나타낸다.

2) 행동 공간

각 단계의 시작에서, EMC는 이진 결정 변수 z^t _i,j∈{0,1}로 각 기계의 작동을 스케줄링한다. 따라서 행동 공간 A는 모든 기계의 행동을 포함한다.

수학식 20은 단계 t에서 행동(a_t)의 샘플을 나타낸다. 여기서 z^t _i,j는 단계 t에서 기계 M_i,j의 동작점의 선택을 나타낸다.

3) 보상 함수 및 비용 함수

상술한 바와 같이, 산업용 DR의 목적함수는 생산과제를 만족시키는 것과 에너지 비용을 최소화하는 두 부분으로 구성된다. 따라서 이 CMDP 프레임워크에서 보상 함수 R_t는 다음과 같이 정의된다.

여기서, R_t는 단계 t에서 제조 조립 시스템의 에너지 비용의 역수이다.

비용 함수 R_t ^c는 다음과 같이 정의된다.

여기서, R_t ^c < 0이고, B^t _final는 단계 t에서 최종 버퍼 B_final의 저장량이다.

첫 번째 줄은 마지막 시간(t=24)이 끝날 때 최종 생산 저장 B^t _final이 목표 출력

에서 얼마나 벗어났는지 계산한다. 두 번째 줄은 허용 가능한 최대 저장 B^max _final을 초과하는 최종 생산 저장 B^t _final의 양을 측정한다. 세 번째 줄은 허용 가능한 최소 저장 B^min _final 미만인 최종 생산 저장 B^t _final의 양을 계산한다. 네 번째 줄은 최종 생산 저장 B^t _final이 최소 저장 B^min _final과 최대 저장 B^max _final 사이에 있음을 나타낸다.

C. CRL 알고리즘

본 발명에 따른 CRL 알고리즘은 CMDP를 풀기 위한 제약 소프트 행위자-비평가(constrained soft actor-critic)(CSAC)를 나타낸다. CSAC 알고리즘을 이해하기 위해, 행위자-비평가 알고리즘의 배경을 우선 설명한 후 본 발명에 따른 CSAC 알고리즘에 대해 상술하기로 한다.

1) 행위자-비평가 알고리즘

여러 학습 전략에 따라 RL 알고리즘은 가치 기반, 정책 기반 또는 행위자-비평가(actor-critic)로 분류될 수 있다. Q-학습 및 SARSA와 같은 가치 기반 접근 방식은 가치 함수만 사용하며 정책에 대한 명시적 공식이 없다. 정책 그레이디언트(policy gradient)와 같은 정책 기반 접근 방식은 어떤 형태의 가치 함수 없이 직접 최적의 정책을 식별하려고 한다. 세 번째 유형은 위의 두 가지 접근 방식을 결합한 도 2와 같은 행위자-비평가 알고리즘이다. 행위자는 행위 생성을 담당하고 비평가는 보상 처리를 담당한다. 훈련 과정에서 에이전트가 환경에서 가장 최근 상태를 관찰하면 행위자는 현재 정책을 기반으로 일련의 행동을 출력한다. 한편, 비평가는 현재의 정책이 얼마나 좋은지를 가치 함수를 통해 판단할 것이다. 그런 다음 예상 값과 받은 보상 간의 편차를 시간차(TD) 오류로 표시하며, 이는 행위자와 비평가에게 동시에 피드백되어 정책 및 가치 함수가 조정된다.

종래의 행위자-비평가 알고리즘은 일반적으로 샘플 효율성이 좋지 않으며, 특히 근접 정책 최적화(PPO) 및 비동기식 행위자-비평가(A3C)와 같은 정책 기반 학습 알고리즘이 그렇다. DDPG(Deep Deterministic Policy Gradient)와 같은 정책 기반 학습 알고리즘은 각 그레이디언트 단계에서 새로운 샘플 수집이 필요하며, 이는 훈련 프로세스의 효율성에 큰 영향을 미친다. 정책 외 학습 알고리즘은 과거 샘플을 재사용할 수 있기 때문에 샘플 효율성이 크게 향상되었다. 그러나 정책 외 학습 알고리즘은 안정성과 수렴이 더 큰 도전을 제시할 수 있음을 의미하는 학습 하이퍼파라미터에 민감하다. 이러한 문제를 극복하기 위해 정책 외 최대 엔트로피 DRL 알고리즘인 SAC(Soft Actor-Critic) 알고리즘이 강인하고 샘플 효율적인 성능을 달성하도록 설계되었다.

SAC 알고리즘은 오프 정책 방식을 통해 확률적 정책을 개선한다. SAC의 두드러진 속성은 예상 보상과 엔트로피 간의 균형을 맞추기 위해 에이전트가 정책을 학습하는 엔트로피 정규화이다. 이것은 탐험-탐사 메커니즘과 밀접하게 관련되어 있다. 즉, 엔트로피가 증가하면 더 많은 탐험이 발생한다. 이를 통해 SAC는 학습 속도를 가속화하고 정책이 비이상적인 로컬 최적으로 조기에 수렴하는 것을 방지할 수 있다.

최대 엔트로피 RL 프레임워크에서 가치 함수는 각 단계에서 엔트로피 보너스를 포함하도록 변경된다.

여기서,

는 단계 t에서 확률적 정책을 위한 엔트로피이다.

따라서 엔트로피 정규화 형식의 벨만 방정식(Bellman equation)은 다음과 같다.

두 개의 정규화된 가치 함수

와

는 수학식 27에 의해 연결된다.

수학식 27에 따라, 정책의 근사해

(여기서,

)는 수학식 28과 같이 유도된다.

Q_h ^π가 Q_h ^*로 수렴하면 에이전트는 최적의 정책

을 산출한다. 최적 정책

을 참조하면 최적값 V_h*(s)도 얻을 수 있다. 수학식 28에 따르면, Q-값 함수의 업데이트 메커니즘은 오프 정책 방식을 통해 달성될 수 있다.

SAC 프레임워크는 알고리즘 1에 제시되어 있다. 여기서 클리핑된 이중 Q-학습, 기준 가치(baseline value) 함수, 가치 함수의 지연된 업데이트와 같은 구현 세부 정보는 생략되어 있다.

알고리즘 1 : 소프트 행위자-비평가(Soft Actor-Critic)

1. 정책 및 정규화된 가치 함수 파라미터를 초기화

2. 반복 구간 3~6

3. 현재 정책에 근거해 샘플 생성

4. 데이터 버퍼로부터 샘플링

5. 수학식 26에 따라 가치 함수의 파라미터를 업데이트

6. 수학식 28에 따라 정책 파라미터를 업데이트

7. 수렴할 때까지 3~6 반복

2) CSAC 알고리즘

SAC가 복잡한 의사 결정 작업을 해결하는 데 일련의 성공을 거두었다는 사실에도 불구하고 SAC는 MDP를 처리하도록 고안되었으며 실제적인 제약이 있는 CMDP를 해결할 수 없다. 이러한 관점에서 CMDP의 제약을 해결하기 위해 조정 가능한 라그랑주 승수(Lagrange multiplier)를 SAC와 통합하여 본 발명에 따른 CSAC 알고리즘을 제안한다.

산업 DR 문제는 CMDP로 공식화되었는데, 생산 목표 제약은 각 시간 단계로 분할되었다. 즉, 수학식 22에 정의된 R_t ^c < 0이다.

SAC 프레임워크 아래에서, CMDP의 최적 해는 수학식 29를 풀어 얻을 수 있다.

여기서, D는 데이터 샘플링 버퍼, 즉 일련의 경험 데이터이다.

라그랑주 승수를 도입하여, 제약 최적화 문제가 다음과 같이 재공식화될 수 있다.

여기서,

는 다음과 같다.

제한된 최적화 문제를 처리하기 위해 라그랑주 승수를 사용할 수 있다. k번째 반복에서 승수 λ^k≥0가 주어지면 정책 영역에 대해

을 최대화하여 정책 π^k을 얻을 수 있다.

그러면 수학식 32와 같이 설정하여 프로세스를 반복한다.

δ_i는 λ를 업데이트하기 위한 스텝 크기이다. []⁺는 음이 아닌 실수를 말한다.

정책 파라미터와 라그랑주 승수를 업데이트하는 반복적인 방법은 다음과 같은 세 가지 가정이 만족될 때 이상적이고 실현 가능한 해로 수렴될 수 있음이 입증되었다.

첫째, V_h ^π(s)는 모든 정책 π∈Π에 대해 치역의 한계가 있다.

둘째, J_c(π)의 모든 최소값은 실현 가능한 해이다.

세째,

와

는 정책 신경망의 파라미터 θ를 업데이트하기 위한 스텝이다.

유한 반복 상황의 경우, δ_λ는 실제로 δ_θ보다 작게 설정될 수 있다. 본 발명에 따른 CSAC 알고리즘은 알고리즘 2로 요약된다.

알고리즘 2: 제약 소프트 행위자-비평가(Constrained Soft Actor-Critic)

입력값: 정책 신경망 파라미터 θ, 상태가치 함수 V 파라미터

, 상태-행동가치 함수 Q 파라미터

, 대응하는 업데이트 스텝 크기

, 라그랑주 승수 λ, 온도 파라미터 α, 할인율 γ

출력값: 모든 기계의 최적 제어 전략 A^*=

, 현재 단계를 위한 행동만이 실행될 것이다.

1. 정책 신경망 파라미터 θ, 상태가치 함수 V 파라미터

, 상태-행동가치 함수 Q 파라미터

, 대응하는 업데이트 스텝 크기

, 라그랑주 승수 λ, 온도 파라미터 α, 할인율 γ을 초기화한다.

2.

을 위한 빈 응답 풀(empty reply pool) D를 초기화한다.

3. 각 에피소드(episode) i

4. 각 샘플 단계 t

5. 현재 상태 s_t에서 행동

을 선택한다

6. 보상 R_t, 비용 R^c _t을 얻고 다음 상태 s_t+1로 이동한다

7. 데이터 D를 저장한다

8. 샘플 단계 종료

9. 각 그레이디언트 단계 n

10. 임의로 천이 미니 배치 B를 샘플링한다

11. 미니 배치 B에 대해, 수학식 33 내지 37과 같이 목표 라벨(목표값)을 계산한다

12. 경사 하강법에 의해

를 업데이트한다

13. 경사 하강법에

의해 업데이트한다

14. 경사 하강법에 의해 θ를 업데이트한다

15. 지연율

로 목표 V 함수 파라미터

를 업데이트한다.

16. 스텝 크기 δ_λ로 목표 λ를 업데이트한다

17. 그레이디언트 단계 종료

18. 최대 누적 보상을 얻을 때까지(에피소드 I_max까지) 그레이디언트 단계 반복 수행

19. 알고리즘 종료

CSAC 알고리즘은 9개의 신경망으로 구성되며, 9개의 신경망은 3개의 집합으로 분류될 수 있다.

첫번째 4개의 신경망은 2개의 행동가치 함수

와 2개의 상태가치 함수

를 라그랑주 함수(수학식 32)에서 가치 함수와 관련있는

으로 근사화하는데 사용된다.

다음 4개의 신경망은 제약과 연관되고

파라미터를 가진 2개의 행동가치 함수

와 2개의 상태가치 함수

를 근사화하는데 사용된다.

파라미터 θ를 가진 마지막 신경망은 정책 함수를 근사화하는데 사용된다.

상기 9개 신경망의 매개변수는 CSAC 알고리즘의 입력으로 사용된다. 즉, 상태가치 함수 V 파라미터

, 상태-행동가치 함수 Q 파라미터

및 정책 네트워크 매개변수 θ이다. 또한, 대응하는 경사 하강 업데이트 스텝 크기

, 라그랑주 승수 λ, 온도 파라미터 α, 할인율 γ 역시 CSAC 알고리즘의 입력으로 사용된다.

알고리즘 2에서 볼 수 있듯이 전체 학습 프로세스는 i(알고리즘 2의 라인 3), t(알고리즘 2의 라인 4) 및 n(알고리즘 2의 라인 9)의 세 가지 시간 표시기로 제어된다. 그 중 i는 학습 에피소드를 계산한다. t는 매일의 시간별 단계를 나타낸다. n은 그레이디언트 단계를 나타낸다. 3행부터 8행까지 알고리즘은 경험 축적 과정에 들어간다. 단계 카운터 t가 증가함에 따라 에이전트는 현재 정책 π에 따라 a_t를 실행하고 보상 R_t를 얻고 비용 R^c _t를 얻고 다음 상태 s_t+1로 이동한다. 이 과정에서 (s_t,a_t,s_t+1,R_t,R^c _t)의 각 쌍은 향후 에이전트 학습을 위해 응답 풀 D에 저장된다.

9행에서 17행까지 알고리즘은 학습 단계, 즉 그레이디언트 프로세스에 들어간다. 10행에서 알고리즘은 응답 풀 D에서 무작위 B 샘플의 배치 즉, {(s_t,a_t,s_t+1,R_t,R^c _t)}를 샘플링한다. |B|는 미니 배치의 크기이다. 11행에서 Q 및 V 신경망에 대한 훈련 목표는 수학식 33 내지 37을 통해 계산된다. 수학식 34, 35를 고려하면 훈련 목표

는

로 계산된다. 여기서, r_t는 라그랑주 함수와 관련된 신경망에 대한

이고, R^c _t는 제약과 관련된 신경망에 대한 것이고,

는 V 신경망의 추가 카피로 수학식 41에 따라

을 업데이트한다.

수학식 35, 36을 고려하면, 정책 업데이트 과정에서 편향을 줄이기 위해 clipped double Q-learning 기법이 사용된다. V 신경망에 대한 훈련 레이블은

로 표시된다.

여기서 Q 신경망의 두 집합

은 별도로 관리되어 학습된다. 수학식 37을 고려하면,

는

에서 샘플링된 행동이라는 것을 나타낸다. 12행에서 행동가치 신경망의 매개변수

를 업데이트하기 위해 평균 제곱 오차(MSE)

를 최소화하기 위해 Adam 옵티마이저를 사용하여 경사하강법 업데이트를 수행한다. 마찬가지로 13행에서 상태가치 신경망의 매개변수

를 업데이트하기 위해 MSE 오차

를 최소화하기 위해 Adam optimizer를 통해 경사하강법 업데이트가 수행된다.

14행에서, 정책 신경망의 매개변수 θ를 업데이트하기 위해 Adam 옵티마이저 사용하여 경사하강법을 수행하여 손실을 최소화한다.

15행에서, 목표 V 신경망 매개변수

의 지연된 업데이트가 수학식 41에서 수행됩니다. 16행에서, 라그랑주 승수 λ는 수학식 42에 따라 업데이트된다. 17행에서 알고리즘은 특수 미니 배치 B 샘플을 기반으로 현재 그레이디언트 프로세스를 완료한다. 마지막으로 알고리즘은 다음 에피소드에 진입하여 최대 누적 보상을 얻을 때까지 학습 과정을 반복한다. 이는 알고리즘이 최적의 운영 정책을 생성할 수 있음을 의미한다.

도 12는 본 발명에 따른 제약 강화 학습이 적용된 이산 산업 제조 시스템의 수요반응 관리 방법의 처리 과정을 나타낸 것이다.

도 12에 도시된 처리 과정은 이산 산업 제조 시스템의 에너지 관리 장치(EMC) 또는 별도의 컴퓨터 장치에서 수행되며, 이러한 처리 과정을 통해 생성된 최적 운영 정책(에너지 전략)이 이산 산업 제조 시스템에 적용된다.

구체적으로 도 12에 도시된 처리 과정은 이산 산업 제조 시스템의 수요반응 관리를 위한 최적 운영 정책을 생성하기 위한 과정이며, 이러한 처리 과정은 이산 산업 제조 시스템의 에너지 관리 장치(EMC) 또는 별도의 컴퓨터 장치의 프로세서에 의해 수행될 것이다. 이하에서는 프로세서에 의해 수행되는 것으로 상술한다.

도 12를 참조하면, 본 발명에 따른 방법은 경험 축적 단계(S100), 파라미터 갱신 단계(S102), 누적 보상 계산 단계(S104)로 크게 구분된다.

경험 축적 단계(S100)는 훈련 집합을 생성하는 과정이다. 프로세서는 시간 구간 t 상태(S_t)에서 정책(π)에 따라 행동(작업)(a_t)을 실행하고 보상(R_t) 및 비용(R^c _t)을 획득하여 다음 상태(S_t+1)로 이동하고 현 상태(S_t), 행동(a_t), 다음 상태(S_t+1), 보상(R_t) 및 비용(R^c _t)으로 구성된 샘플을 저장하는 방식으로 총 시간 단계(t=1~T)의 훈련 집합을 내부 메모리에 구비된 응답 풀 D에 저장한다.

여기서, 상태(S_t)는 해당 시간 구간에서 전기가격, 각 기계의 에너지 소비 및 각 버퍼의 저장량을 포함하고(수학식 18). 행동은(a_t) 해당 시간 구간에서 각 기계의 동작 또는 유휴를 나타낸다(수학식 20).

파라미터 갱신 단계(S102)는 상술한 알고리즘 2의 입력값을 결정하는 과정이다. 파라미터 갱신 단계(S102)는 신경망의 파라미터를 결정하기 위한 학습 과정(그레이디언트 단계)이다.

알고리즘 2의 입력값은 정책 신경망(정책 함수) 파라미터 θ, 상태가치 함수 V 파라미터

, 상태-행동가치 함수 Q 파라미터

, 대응하는 업데이트 스텝 크기

, 라그랑주 승수 λ, 온도 파라미터 α, 할인율 γ 등을 포함한다.

프로세서는 경험 축적 단계(S100)에서 생성한 훈련 집합에서 임의로 미니 배치(mini-batch)를 샘플링하고 미니 배치에 대해 행동 가치 함수(state-action value function)와 상태 가치 함수(state value function)의 목표값(target label)을 계산하고, 함수값과 목표값 간의 오차가 최소화되도록 행동 가치 함수의 파라미터와 상태 가치 함수의 파라미터를 경사 하강법에 따라 업데이트한다.

또한 프로세서는 정책 함수(policy function)의 파라미터를 업데이트하는 과정(수학식 40), 목표 상태 가치 함수(target state value function)의 파라미터를 업데이트하는 과정(수학식 41) 및 라그랑주 승수(Lagrange multiplier)를 업데이트하는 과정(수학식 42)을 순차적으로 수행한다.

누적 보상 계산 단계(S104)는 하나의 에피소드에 대해 누적 보상액을 구하는 과정이다. 프로세서는 결정된 파라미터에 근거하여 현 상태에서 정책에 따라 행동을 실행하고 보상을 획득하여 다음 상태로 이동하는 동작을 반복 실행하여 누적 보상을 계산한다.

이후 프로세서는 상기 누적 보상이 최대인지 판단하여(S106), 누적 보상이 아직 최대에 이르지 않은 경우 파라미터 갱신 단계(S102)를 반복해서 수행하다가, 누적 보상이 최대에 도달한 것으로 판단하면 그 때의 정책을 최적 운영 정책으로 결정하게 된다(S108).

상술한 과정을 통해 최적 운영 정책이 결정되면, 최적 운영 정책을 이산 산업 제조 시스템에 적용하여 생산 목표를 보장하면서 에너지 비용을 최소화할 수 있는 수요반응 관리를 달성할 수 있다.

실험 평가

본 발명에 따른 CSAC 알고리즘의 타당성을 검증하기 위해 이산 제조 공정의 예로 실제적인 리튬이온 배터리 조립 공정을 선택하였다. 먼저 리튬이온 배터리 조립공정의 세부사항을 소개하고 본 발명에 따른 알고리즘을 평가한다.

A. 케이스 연구

도 3에 도시된 바와 같이, 리튬 이온 배터리 조립 공정은 조립, 포화, 형성 및 등급화의 4가지 공정을 포함한다.

조립: 구성 요소들이 함께 조립되어 도 4와 같은 배터리 모듈의 계층적 구조를 갖는 배터리 모듈로 구성된다. 구성 요소들은 사이드 프레임(SF), 배터리 셀(BC), 냉각 플레이트(CP), 중간 프레임( IF) 및 압축 발포체(CF)를 포함한다.

포화: 모듈에 적절한 양의 전해질이 주입된다.

형성: 모듈은 적절한 충전 및 방전 프로세스에 의해 사용 가능한 모드로 활성화된다.

등급: 일련의 저항 및 정전용량 측정을 통해 배터리 모듈은 성능에 따라 등급이 매겨진다.

도 3은 관련 기계에 할당된 각 작업으로 10개의 작업으로 분리될 수 있는 배터리 모듈 조립 프로세스의 개요를 제공한다. 사용 가능한 운전 모드, 생산 속도, 소비 전력 및 버퍼 용량을 포함하여 각 기계의 작업 정보는 표 1에 제공된다.

이러한 매개변수를 기반으로 이 조립 시스템의 목표는 하루에 500개의 리튬 이온 배터리 유닛(즉, 기계의 최대 버퍼 용량)을 생산하도록 설정된다. 시스템이 끌어오는 최대 전력량은 500kW으로 설정된다.

B. 수치 결과

표 2에 도시된 것처럼 훈련을 시작하기 위해 상태가치 신경망 V 파라미터

, 상태-행동가치(state-action value) 신경망 Q 파라미터

, 정책 신경망 파라미터 θ, 라그랑주 승수 λ를 업데이트하기 위해 아담 옵티마이저(Adam optimizer)를 사용한다.

상태가치 신경망 V, 상태-행동가치 Q, 정책 신경망에 대한 스텝 크기

는 각각 5e^-4, e^-3, e^-3 및 e^-5로 설정된다.

각 신경망에 대한 은닉층의 수는 2개로 설정되고 각 계층에는 64개의 뉴런이 있다. 또한 ReLU(Rectified Linear Unit)를 활성 함수로 구현하여 각 신경망에서 두 개의 은닉층을 연결한다. Q-값 신경망에서 정규화에서 온도 계수 α와 할인율 γ를 각각 0.02와 0.95로 설정한다. softmax 함수는 정책의 마지막 층에 적용되어 이산 행동(discret action)을 생성한다. 재생 버퍼 크기와 배치 크기는 각각 500과 256으로 설정된다. 9개의 신경망의 가중치는 무작위로 초기화되고 반복적으로 업데이트된다.

모든 매개변수를 설정한 후 에이전트는 누적 보상을 최대화하기 시작한다. 도 5는 2019년 9월 5일의 훈련 과정을 도시하고 있다. 에이전트는 보상에서 알 수 있듯이 초기에 저조한 성능을 보이고 있다. 그러나 반복 횟수가 증가함에 따라 에이전트는 시행 착오를 통해 더 높은 보상을 제공하는 작업(action)을 수행하기 시작하였다. 드디어 약 30000회만에 최대 보상을 달성했다. 최대 보상을 획득하면 해당하는 최적의 운영 전략이 결정된다. 표 3은 각 단계에서 모든 기계의 작동 옵션을 나열하며 "1"과 "0"은 각각 작동 및 유휴 모드를 나타낸다.

도 6은 본 발명에 따른 방법에서 생성된 최적 운영 정책 하에서 모든 기계의 총 에너지 소비량을 보여준다. 기계는 가격이 낮을 때 더 많은 에너지를 소비하고 가격이 높을 때 적게 소비하며 피크 시간에는 에너지 소비를 피하고 있다. 특히, 기계는 단계 1-15 및 19-24 동안 더 많은 에너지를 소비하고 16-18 동안 덜 소비하고 있다. 특히 대부분의 기계는 16, 17 단계에서 전력 가격이 최고가에 있기 때문에 에너지 소비를 최소값으로 줄이고 있다. 이는 전력망에 가해지는 스트레스를 완화할 뿐만 아니라 산업 소비자의 에너지 비용도 절감한다. 실시간 배터리 생산을 설명하기 위해 제안된 DR 계획에 따라 각 단계 t에서 해당하는 최종 배터리 생산 저장이 도 7에 도시되어 있다. 시스템은 표 3에 도시된 최적의 스케줄 표를 실행함으로써 최종적으로 500개의 배터리 모듈(즉, 생산 목표)을 산출한다.

도 8은 MILP Gurobi solver와 본 발명에 따른 CSAC 알고리즘에서 얻은 총 비용을 비교하고 있다. MILP Gurobi solver는 시스템의 모든 정보를 고려한 특정 모델을 사용하여 근시안적 조치로 수학식 8 및 수학식 9에 정의된 대로 생산 목표를 충족하고 에너지 비용을 최소화한다. 그러나 CSAC 알고리즘은 상술한 바와 같ㅌ이 보상을 최대화하기 위해 다양한 행동을 선택하는 자체 학습 능력을 발휘한다. 도 8에서 보는 바와 같이, 본 발명에 따른 CRL 알고리즘 방법은 시행착오를 거치기 때문에 초기 훈련 단계에서 낮은 성능을 보인다. 그러나 더 많은 에피소드를 경험한 후 에이전트는 학습 환경에 적응하고 탐색 및 활용 메커니즘을 통해 정책을 조정한다. 마지막으로 최적의 정책을 얻게 된다. 본 발명에 따른 방법은 모델이 없고 복잡한 에너지 관리 시나리오에 대한 전문 지식이 필요하지 않기 때문에, 복잡한 산업 에너지 관리 문제를 해결할 수 있는 유망한 솔루션을 제공할 수 있다.

본 발명에 따른 DR 알고리즘의 효율성에 대한 통찰력을 얻기 위해 ComEd에서 얻은 2019년 6월 2일부터 6월 4일까지 3일 동안의 전력 가격을 고려한 시뮬레이션을 수행한다. 도 9 및 10은 각각 학습 과정에서 누적 보상의 수렴과 본 발명에 따른 DR 방식 하에서 모든 기계의 대응하는 총 에너지 소비를 나타내고 있다.

도 10에서 보는 바와 같이, 전일 패턴 간에 유사한 에너지 소비 경향이 관찰되어 본 발명에 따른 DR 방식의 타당성을 더욱 입증한다. 2019년 6월 2일부터 6월 4일까지 실시간으로 최종 배터리 생산 저장을 설명하기 위해 제안된 DR 방식에 따라 각 단계 t에서 3일 동안 최종 배터리 생산 저장이 도 11에 표시되어 있다. 도 11에서 볼 수 있듯이, 시스템은 매일 마지막 단계에서 500개의 배터리 모듈을 생산한다.

Claims

이산 산업 제조 시스템의 에너지 관리 장치에서 수행되는 방법으로서,
시간 구간 t 상태(S_t)에서 정책(π)에 따라 행동(작업)(a_t)을 실행하고 보상(R_t) 및 비용(R^c _t)을 획득하여 다음 상태(S_t+1)로 이동하고 현 상태(S_t), 행동(a_t), 다음 상태(S_t+1), 보상(R_t) 및 비용(R^c _t)으로 구성된 샘플을 저장하는 방식으로 총 시간 단계(t=1~T)의 훈련 집합을 저장하는 경험 축적 단계와,
상기 훈련 집합에서 임의로 미니 배치(mini-batch)를 샘플링하고 미니 배치에 대해 행동 가치 함수(state-action value function)와 상태 가치 함수(state value function)의 목표값(target label)을 계산하고, 함수값과 목표값 간의 오차가 최소화되도록 행동 가치 함수의 파라미터와 상태 가치 함수의 파라미터를 경사 하강법에 따라 업데이트하는 과정; 정책 함수(policy function)의 파라미터를 업데이트하는 과정; 목표 상태 가치 함수(target state value function)의 파라미터를 업데이트하는 과정; 및 라그랑주 승수(Lagrange multiplier)를 업데이트하는 과정을 포함하는 파라미터 갱신 단계와,
상기 파라미터 갱신 단계에서 결정된 파라미터에 근거하여 현 상태에서 정책에 따라 행동을 실행하고 보상을 획득하여 다음 상태로 이동하는 동작을 반복 실행하여 누적 보상을 계산하는 누적 보상 계산 단계를 포함하여,
상기 누적 보상이 최대가 될 때까지 상기 파라미터 갱신 단계를 반복하는 것을 특징으로 하는 제약 강화 학습이 적용된 이산 산업 제조 시스템의 수요반응 관리 방법.
제1항에 있어서,
상기 상태는 해당 시간 구간에서 전기가격, 각 기계의 에너지 소비 및 각 버퍼의 저장량을 포함하는 것을 특징으로 하는 제약 강화 학습이 적용된 이산 산업 제조 시스템의 수요반응 관리 방법.
제1항에 있어서,
상기 행동은 해당 시간 구간에서 각 기계의 동작 또는 유휴를 나타내는 것을 특징으로 하는 제약 강화 학습이 적용된 이산 산업 제조 시스템의 수요반응 관리 방법.
제1항에 있어서,
상기 누적 보상이 최대가 되면 그 때의 정책을 최적의 운영 정책으로 결정하는 것을 특징으로 하는 제약 강화 학습이 적용된 이산 산업 제조 시스템의 수요반응 관리 방법.