KR102124978B1

KR102124978B1 - 증권 거래를 위한 주문 집행을 수행하는 서버 및 방법

Info

Publication number: KR102124978B1
Application number: KR1020190093178A
Authority: KR
Inventors: 김성민; 조태희; 문효준
Original assignee: (주)크래프트테크놀로지스
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2020-06-22
Also published as: US20210035213A1; US11593877B2; WO2021020639A1

Abstract

증권 거래를 위한 주문 집행 서버는 적어도 하나의 종목에 대한 거래 데이터를 수집하는 데이터 수집부, 미리 학습된 지도학습 기반의 제 1 딥러닝 모델에 거래 데이터를 입력하여 보조 예측값을 생성하는 보조 예측값 생성부, 거래 데이터 및 보조 예측값에 기초하여 미리 학습된 강화학습 기반의 제 2 딥러닝 모델을 이용하여 현재 주기에서의 적어도 하나의 종목에 대한 주문 집행 전략을 도출하는 주문 집행 전략 도출부 및 주문 집행 전략을 포함하는 주문 정보를 이용하여 현재 주기에서의 적어도 하나의 종목에 대한 주문 집행을 지시하는 주문 집행 지시부를 포함할 수 있다.

Description

증권 거래를 위한 주문 집행을 수행하는 서버 및 방법{SERVER AND METHOR FOR PERFORMING ORDER EXCUTION FOR STOCK TRADING}

본 발명은 증권 거래를 위한 주문 집행을 수행하는 서버 및 방법에 관한 것이다.

증권사는 자산운용사 등의 기관으로부터 대량의 증권 주문을 위탁받아 증권 거래를 집행하고 거래수수료를 받는다.

이 경우, 증권사가 위탁받은 대량의 증권 주문을 한번에 매도 또는 매수하게 될 경우, 증권 시장의 주가가 급락하거나 급등하는 임팩트가 발생하게 되어 적절한 가격에 거래하기 어려워진다.

이러한 이유로, 증권사는 대량의 증권 주문을 나누어 집행하는 알고리즘　트레이딩 시스템을 사용한다.

하지만, 기존의 알고리즘　트레이딩 시스템은 사전에 기설정된 규칙에 따라 주문을 분할하여 집행을 실시하기 때문에 변화하는 증권 시장에 적절히 대응하기 어려웠다.

예를 들어, TWAP(Time Weighted Average Price) 알고리즘을 이용한 트레이딩 시스템의 경우, 시간이 지남에 따라 균등 분배된 수량으로 주문을 집행하기 때문에 시장에 대한 적응성과 효율성이 떨어질 수 밖에 없다．　

한국등록특허공보 제1808259호 (2017.12.06. 등록)

본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 미리 학습된 지도학습 기반의 제 1 딥러닝 모델에 적어도 하나의 종목에 대한 거래 데이터를 입력하여 보조 예측값을 생성하고자 한다. 또한, 본 발명은 제 1 딥러닝 모델을 통해 생성된 보조 예측값에 기초하여 미리 학습된 강화학습 기반의 제 2 딥러닝 모델을 이용하여 현 주기에서의 해당 종목에 대한 주문 집행 전략을 도출하고, 도출된 주문 집행 전략을 포함하는 주문 정보를 이용하여 현 주기에서의 해당 종목에 대한 주문 집행을 지시하고자 한다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예에 따르면, 증권 거래를 위한 주문 집행 서버에 있어서, 적어도 하나의 종목에 대한 거래 데이터를 수집하는 데이터 수집부, 미리 학습된 지도학습 기반의 제 1 딥러닝 모델에 상기 거래 데이터를 입력하여 보조 예측값을 생성하는 보조 예측값 생성부, 상기 거래 데이터 및 상기 보조 예측값에 기초하여 미리 학습된 강화학습 기반의 제 2 딥러닝 모델을 이용하여 현재 주기에서의 상기 적어도 하나의 종목에 대한 주문 집행 전략을 도출하는 주문 집행 전략 도출부 및 상기 주문 집행 전략을 포함하는 주문 정보를 이용하여 현재 주기에서의 상기 적어도 하나의 종목에 대한 주문 집행을 지시하는 주문 집행 지시부를 포함한다.

본 발명의 다른 실시예에 따르면, 주문 집행 서버를 통해 증권 거래를 수행하는 방법은 적어도 하나의 종목에 대한 거래 데이터를 수집하는 단계; 미리 학습된 지도학습 기반의 제 1 딥러닝 모델에 상기 거래 데이터를 입력하여 보조 예측값을 생성하는 단계; 상기 거래 데이터 및 상기 보조 예측값에 기초하여 미리 학습된 강화학습 기반의 제 2 딥러닝 모델을 이용하여 현재 주기에서의 상기 적어도 하나의 종목에 대한 주문 집행 전략을 도출하는 단계; 및 상기 주문 집행 전략을 포함하는 주문 정보를 이용하여 현재 주기에서의 상기 적어도 하나의 종목에 대한 주문 집행을 지시하는 단계를 포함할 수 있다.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 본 발명은 미리 학습된 지도학습 기반의 제 1 딥러닝 모델에 적어도 하나의 종목에 대한 거래 데이터를 입력하여 보조 예측값을 생성할 수 있다. 또한, 본 발명은 제 1 딥러닝 모델을 통해 생성된 보조 예측값에 기초하여 미리 학습된 강화학습 기반의 제 2 딥러닝 모델을 이용하여 현 주기에서의 해당 종목에 대한 주문 집행 전략을 도출하고, 도출된 주문 집행 전략을 포함하는 주문 정보를 이용하여 현 주기에서의 해당 종목에 대한 주문 집행을 지시할 수 있다.

이를 통해, 본 발명은 시장 데이터에 기초하여 복수의 딥러닝 모델을 지속적으로 학습하기 때문에 현 시장에 맞는 적절한 주문 집행 전략을 도출할 수 있다. 또한, 본 발명은 시장 변화에 따라 최선의 주문 집행 전략을 도출함으로써 대량의 주문 집행에 따른 손실을 최소화할 수 있다.

도 1은 본 발명의 일 실시예에 따른, 주문 집행 서버의 블록도이다.
도 2는 본 발명의 일 실시예에 따른, 강화학습 기반의 제 2 딥러닝 모델을 학습하는 방법을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른, 현재 주기에서의 종목에 대한 주문 집행 전략을 도출하는 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른, 증권 거래를 위한 종목에 대한 주문 집행을 수행하는 방법을 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른, 주문 집행을 수행하는 방법을 나타낸 동작 흐름도이다.
도 6는 본 발명의 일 실시예에 따른, 주문 집행을 위한 인터페이스를 나타낸 도면이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다.

본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다.

이하, 첨부된 구성도 또는 처리 흐름도를 참고하여, 본 발명의 실시를 위한 구체적인 내용을 설명하도록 한다.

도 1은 본 발명의 일 실시예에 따른, 주문 집행 서버(10)의 블록도이다.

도 1을 참조하면, 주문 집행 서버(10)는 데이터 수집부(100), 보조 예측값 생성부(110), 모델 생성부(120), 주문 집행 전략 도출부(130) 및 주문 집행 지시부(140)를 포함할 수 있다. 다만, 도 1에 도시된 주문 집행 서버(10)는 본 발명의 하나의 구현 예에 불과하며, 도 1에 도시된 구성요소들을 기초로 하여 여러 가지 변형이 가능하다.

모델 생성부(120)는 지도학습 기반의 제 1 딥러닝 모델을 생성하고, 생성된 제 1 딥러닝 모델을 학습시킬 수 있다. 여기서, 지도학습 기반의 제 1 딥러닝 모델은 예를 들면, 어텐션 네트워크(Attention Network), 순환 신경망 네트워크(Recurrent Neural Network) 등으로 구성된 심층 신경망 모델일 수 있다.

모델 생성부(120)는 수집된 적어도 하나의 종목에 대한 거래 데이터를 제 1 딥러닝 모델에 입력하여 기설정된 단위 시간 마다의 해당 종목에 대한 주가변화율을 예측하도록 제 1 딥러닝 모델을 학습시킬 수 있다.

여기서, 제 1 딥러닝 모델에 입력되는 적어도 하나의 종목에 대한 거래 데이터는 예를 들면, 증권 기관에서 거래된 종목에 대한 거래 대금 정보, 호가창 데이터, 거시경제지표 데이터 등을 포함할 수 있다.

예를 들어, 모델 생성부(120)는 단위 시간별 적어도 하나의 종목에 대한 제 1 딥러닝 모델의 출력값이 기설정된 단위 시간별 종목의 기준 주가 변화율과 일치하는 주가 변화율을 예측하도록 제 1 딥러닝 모델을 학습시킬 수 있다.

이를 위해, 모델 생성부(120)는 기설정된 단위 시간별 종목의 기준 주가 변화율과 제 1 딥러닝 모델의 출력값인 단위 시간 별 종목의 주가 변화율 간의 평균 제곱 오차가(MSE, Mean Squared Error)가 최소화되도록 제 1 딥러닝 모델을 학습시킬 수 있다.

예를 들면, 기설정된 단위 시간별 제 1 종목의 기준 주가 변화율이 제 1 시점(예컨대, 1시간 뒤)에서는 제 1 기준 주가 변화율을 갖고, 제 2 시점(예컨대, 2시간 뒤)에서는 제 2 기준 주가 변화율을 갖고, 제 N 시점(예컨대, N시간 뒤)에서는 제 N 기준 주가 변화율을 갖는다고 가정하면, 모델 생성부(120)는 제 1 종목에 대한 거래 데이터가 제 1 딥러닝 모델에 입력됨에 따라 출력되는 제 1 시점에서의 제 1 딥러닝 모델의 제 1 주가 변화율이 제 1 기준 주가 변화율과 일치되도록 제 1 딥러닝 모델을 학습시키고, 이후 출력되는 제 2 시점에서의 제 1 딥러닝 모델의 제 2 주가 변화율이 제 2 기준 주가 변화율과 일치되도록 제 1 딥러닝 모델을 학습시키고, 이후 출력되는 제 N 시점에서의 제 1 딥러닝 모델의 제 N 주가 변화율이 제 N 기준 주가 변화율과 일치되도록 제 1 딥러닝 모델을 학습시킬 수 있다.

모델 생성부(120)는 강화학습 기반의 제 2 딥러닝 모델을 생성하고, 생성된 제 2 딥러닝 모델을 학습시킬 수 있다.

모델 생성부(120)는 수집된 적어도 하나의 종목에 대한 거래 데이터를 제 2 딥러닝 모델에 입력하여 해당 종목에 있어서의 초단기 시장 상황에 대한 슬리피지(slippage) 비용 및 주문 집행 비용이 절감되는 주문 집행 전략이 도출되도록 제 2 딥러닝 모델을 학습시킬 수 있다.

여기서, 제 2 딥러닝 모델에 입력되는 적어도 하나의 종목에 대한 거래 데이터는 예를 들면, 해당 종목에 대한 호가창 데이터, 시세 데이터(거래 가격 및 거래량), 장진행 시간 정보, 기주문체결량 등을 포함할 수 있다.

모델 생성부(120)는 강화학습 환경에서의 주문 집행 전략(제 2 딥러닝 모델로부터 도출된 전략)에 대한 리워드를 결정하고, 결정된 리워드가 최대화되도록 제 2 딥러닝 모델을 학습시킬 수 있다. 여기서, 강화학습 환경은 증권 시장 환경을 가상화하여 만든 모델이다. 또한, 리워드는 주문 집행 전략에 대한 주문 체결 성공 여부 및 거래량 가중 평균거래(VWAP) 대비 절감한 주문 집행 금액에 대한 정보를 포함할 수 있다.

도 2를 참조하면, 제 2 딥러닝 모델(20)은 강화학습 에이전트의 행동 규약을 결정하는 신경망인 둘 이상의 액터(Actor)(201, 203, 205) 및 강화학습 에이전트의 행동 가치를 추정하는 신경망인 크리틱(Critic)(209, 211)을 포함할 수 있다.

여기서, 둘 이상의 액터(201, 203, 205)는 적어도 하나의 종목에 대한 주문량을 결정하는 제 1 액터(201) 및 적어도 하나의 종목에 대한 주문 취소량을 결정하는 제 2 액터(203)를 포함할 수 있다.

둘 이상의 액터(201, 203, 205)는 제 1 액터(201)를 통해 결정된 주문량 및 제 2 액터(203)를 통해 결정된 주문 취소량에 기초하여 적어도 하나의 종목에 대한 최종 주문량을 결정하는 제 3 액터(205)를 포함할 수 있다.

모델 생성부(120)는 거래 데이터에 기초하여 강화학습 환경으로부터 주문 집행 전략에 대한 리워드가 향상되도록 둘 이상의 액터(201, 203, 205)를 학습시킬 수 있다.

예를 들어, 모델 생성부(120)는 적어도 하나의 종목에 대한 주문량을 결정하도록 제 1 액터(201)를 학습시키고, 해당 종목의 주문량에 대한 주문 취소량을 결정하도록 제 2 액터(203)를 학습시킬 수 있다.

여기서, 제 1 액터(201)를 통해 결정된 주문량 및 제 2 액터(203)를 통해 결정된 주문 취소량을 합하게 되면 결과적으로 제로 중심의 구조가 나타나는데 이러한 구조는 순수 주문량의 결정을 학습할 때 도움을 줄 수 있다.

모델 생성부(120)는 제 1 액터(201)를 통해 결정된 주문량 및 제 2 액터(203)를 통해 결정된 주문 취소량에 기초하여 순수 주문량을 결정하도록 제 3 액터(205)를 학습시킬 수 있다.

모델 생성부(120)는 제 3 액터(205)에 의해 결정된 순수 주문량에 기초하여 현재 주기에서의 적어도 하나의 종목에 대한 주문 집행 전략(즉, 순수 주문량에 대한 호가창 배분 전략)을 도출하도록 제 3 액터(205)를 학습시킬 수 있다.

이후, 모델 생성부(120)는 제 3 액터(205)에 의해 결정된 순수 주문량 및 현재 주기에서의 적어도 하나의 종목에 대한 주문 집행 전략에 따라 강화학습 환경(207)에서 주문 집행을 수행할 수 있다.

한편, 크리틱(209, 211)은 강화학습 환경(207)에서 복수의 액터(201, 203, 205)의 최종 주문량 및 주문집행전략 결과에 대한 보상을 추정하기 위해 상태 가치값(state value)을 추정하는데 안정적으로 추정하기 위해 산출된 리워드에 리워드 평균법(예컨대, polyak-ruppert averaging)을 적용하여 해당 리워드를 업데이트하는 제 2 크리틱(211)을 포함할 수 있다.

여기서, 리워드 평균법을 이용하는 이유는 제 1 크리틱(209)의 리워드 추정이 불안정하기 때문에 이동평균과 같은 개념을 도입하여 더욱 안정적인 리워드 추정을 돕기 위함이다.

모델 생성부(120)는 복수의 액터(201, 203, 205) 및 복수의 크리틱(209, 211)을 포함하는 에이전트 모델을 생성할 수 있다.

모델 생성부(120)는 제 1 크리틱(209) 및 제 2 크리틱(211)을 학습시킬 수 있다.

모델 생성부(120)는 에이전트 모델과 환경의 상호작용을 통해 에이전트 모델을 학습할 수 있다. 여기서, 환경은 에이전트 모델의 행동 결과에 대한 리워드를 제공하는 환경이다.

모델 생성부(120)는 에이전트 모델과 환경의 상호작용을 통한 결과 정보(예컨대, 에이전트 모델의 상태, 행동, 리워드 등)을 리플레이 버퍼에 저장할 수 있다.

모델 생성부(120)는 리플레이버퍼에 저장된 결과 정보를 추출하여 에이전트 모델을 학습할 수 있다.

모델 생성부(120)는 특정 상태에 대한 상태 가치값을 추정하기 위해, 특정 상태가 입력될 때, 특정 상태에서의 기대 상태 가치값과의 차이가 최소화되도록 제 1 크리틱(209) 및 제 2 크리틱(211)을 학습시킬 수 있다.

Q-네트워크(213)는 리워드 평균법이 적용된 리워드에 기초하여 크리틱(209, 211)의 행동 가치를 추정할 수 있다. 이렇게 추정된 크리틱 (209, 211)의 행동 가치는 복수의 액터(201, 203, 205)가 학습하는데 사용될 수 있다.

크리틱(209, 211)은 Q-네트워크(213)를 사용하여 오프-폴리시(off-policy) 형태로 학습할 수 있다. 이 때, Q-네트워크(213) 역시 학습을 진행한다.

예를 들어, Q-네트워크(213)는 리워드 평균법이 적용된 리워드로부터 부트스트랩핑(bootstrapping)된 크리틱(209, 211)의 행동 가치와 유사한 값을 내도록 학습할 수 있다.

이 때, Q-네트워크(213)는 평균 제곱 오차(MSE, Mean Squared Error)가 최소화되는 방식으로 학습할 수 있다. 여기서, 크리틱(209, 211)의 행동 가치는 리워드 및 상태 가치값의 합으로 산출될 수 있다.

모델 생성부(120)는 Q- 네트워크(213)로부터 추정된 행동 가치가 향상되도록 둘 이상의 액터(201, 203, 205)를 학습시킬 수 있다.

도 1 및 도 3을 함께 참조하면, 데이터 수집부(100)는 적어도 하나의 종목에 대한 거래 데이터를 수집할 수 있다. 여기서, 적어도 하나의 종목에 대한 거래 데이터는 예를 들면, 해당 종목에 대한 호가창 데이터, 시세 데이터(거래 가격 및 거래량), 장진행 시간 정보, 기주문체결량 등을 포함할 수 있다.

보조 예측값 생성부(110)는 미리 학습된 지도학습 기반의 제 1 딥러닝 모델(30)에 수집된 적어도 하나의 종목에 대한 거래 데이터를 입력하여 해당 종목에 대한 보조 예측값을 생성할 수 있다. 여기서, 보조 예측값은 예를 들면, 볼륨 커브(Volume Curve)일 수 있다. 볼륨 커브는 하루 동안 거래해야 하는 총 거래량을 시간에 따라 나타낸 그래프이다. 예를 들면, 보조 예측값 생성부(110)는 거래 데이터가 입력값으로 입력된 제 1 딥러닝 모델(30)을 통해 고객의 위험 성향이 반영된 보조 예측값을 생성할 수 있다. 여기서, 보조 예측값은 하루 동안 거래해야 하는 총 거래량을 시간에 따라 나타낸 그래프(볼륨 커브)일 수 있다.

예를 들어, 제 1 딥러닝 모델에 적어도 하나의 종목에 대한 거래 데이터가 입력된 후, 제 1 딥러닝 모델로부터 기설정된 단위 시간 마다의 해당 종목에 대한 주가 변화율이 예측되면, 보조 예측값 생성부(110)는 예측된 기설정된 단위 시간 마다의 해당 종목에 대한 주가 변화율에 기초하여 보조 예측값을 생성할 수 있다.

예를 들면, 보조 예측값 생성부(110)는 종목의 당일 주가 방향성에 대하여 예측된 기설정된 단위 시간 마다의 종목에 대한 주가 변화율 및 고객의 위험 성향 정보를 반영하여 거래량 가중 평균거래(VWAP)에 대응하는 브이왑(VWAP) 커브를 생성하고, 생성된 브이왑 커브를 변형하여 최적의 보조 예측값인 볼륨 커브를 도출할 수 있다.

한편, 보조 예측값 생성부(110)에 의해 생성된 볼륨 커브에 따라 주문 집행을 수행하게 되면, 단기 시간에서 불리한 가격으로 주문 거래가 이루어질 가능성이 높다.

즉, 단순히 볼륨 커브에 따라 주문 집행을 수행하게 될 경우, 시장가로 거래가 되거나 보다 작은 시간 단위에서 시장 상황의 변화에 대응하기 어려워 결국 총주문비용이 증가되는 문제점이 발생하게 된다.

본 발명에서는 이러한 문제점을 해결하기 위해 강화학습 기반의 제 2 딥러닝 모델을 통해 주문 집행 전략(예컨대, 총주문량에 대한 호가창 배분 전략)을 도출하여 총주문비용이 최소가 되도록 한다.

즉, 본 발명에 따르면, 강화학습 기반의 제 2 딥러닝 모델을 이용하여, 미시적인 주문 집행 전략에 대해서도 초단기 시장 상황에 대한 슬리피지 비용 및 주문 집행 비용을 최적화할 수 있다.

주문 집행 전략 도출부(130)는 제 1 딥러닝 모델(30)로부터 생성된 보조 예측값과 함께 수집된 적어도 하나의 종목에 대한 거래 데이터를 미리 학습된 강화학습 기반의 제 2 딥러닝 모델(20)에 입력한 후, 제 2 딥러닝 모델(20)로부터 거래 데이터 및 보조 예측값에 기초한 주문 집행 전략을 도출할 수 있다.

주문 집행 전략 도출부(130)는 거래 데이터 및 보조 예측값에 기초하여 제 2 딥러닝 모델(20)을 통해 현재 주기에서의 적어도 하나의 종목에 대한 주문 집행 전략을 도출할 수 있다.

예를 들어, 주문 집행 전략 도출부(130)는 제 2 딥러닝 모델(20)의 제 1 액터를 통해 보조 예측값에 기초한 종목에 대한 주문량을 결정하고, 제 2 액터를 통해 보조 예측값에 기초한 종목에 대한 주문 취소량을 결정할 수 있다.

주문 집행 전략 도출부(130)는 제 1 액터로부터 결정된 종목에 대한 주문량 및 제 2 액터로부터 결정된 종목에 대한 주문 취소량에 기초하여 제 3 액터를 통해 최종 주문량을 결정할 수 있다.

주문 집행 전략 도출부(130)는 제 3 액터를 통해 결정된 최종 주문량에 따라 현재 주기에서의 종목에 대한 주문 집행 전략을 도출할 수 있다.

여기서, 주문 집행 전략은 누적 주문량, 이전 주기 대비 현재 주기에서의 추가 주문량(추가 매수/매도 주문 또는 취소 주문), 현재 주기에서의 추가 주문량에 대한 호가창 배분 정보 중 적어도 하나를 포함할 수 있다. 여기서, 누적 주문량 및 추가 주문량은 제 3 액터에 의해 결정되는 최종 주문량일 수 있다.

즉, 주문 집행 전략은 시장 상황에 따라 변동되는 종목의 누적 주문량 또는 추가 주문량 및 호가창 배분 전략을 포함할 수 있다.

주문 집행 전략 도출부(130)는 누적 주문량 또는 추가 주문량을 복수의 호가창(시장가 포함)에 배분하는 주문 집행 전략을 도출할 수 있다.

또한, 주문 집행 전략 도출부(130)는 현재 주기에서의 시장 상황의 변화에 따라 주문 집행 전략을 수정할 수 있다.

예를 들면, 주문 집행 전략 도출부(130)는 누적 주문량 또는 추가 주문량 및 호가창 배분 정보에 기초하여 각 호가창마다 주문을 늘리거나 취소할 수 있다.

본 발명은 강화학습 기반의 제 2 딥러닝 모델(20)을 통해 적어도 하나의 종목에 대하여 현재 시점에서 미래의 현가 할인된 보상이 최대화되도록 하는 주문 집행 전략을 도출할 수 있다.

예를 들어, A주식을 T 시간 이전에 V 주만큼 매수하라는 주문이 들어왔다고 가정하자. 현재까지의 체결량이 v량이고, 경과 시간이 t 시간이라면, 주문 집행 전략 도출부(130)는 브이왑(VWAP) 대비 현재 상황에서 T 시점까지 나머지 (V-v)주를 사는 비용을 최소화하도록 하는 주문 집행 전략을 도출할 수 있다.

또한, 본 발명은 주문 집행 전략에 따른 단기 보상 및 향후 미치는 장기 보상 사이의 균형을 최적화함으로써 현재 시점에서의 주문 집행 금액을 최소화하는 효과를 제공할 수 있다.

주문 집행 지시부(140)는 주문 집행 전략을 포함하는 주문 정보를 이용하여 현재 주기에서의 적어도 하나의 종목에 대한 주문 집행을 지시할 수 있다.

또한, 주문 집행 지시부(140)는 현재 시점의 시장 상황의 변화에 따라 수정된 주문 집행 전략을 포함하는 주문 정보를 이용하여 현재 주기에서의 적어도 하나의 종목에 대한 주문 집행을 지시할 수 있다.

주문 집행 지시부(140)는 주문 집행 전략을 포함하는 주문 정보를 증권 거래 운용 서버로 전송함으로써 현재 주기에서의 적어도 하나의 종목에 대한 주문 집행을 지시할 수 있다.

이후, 모델 생성부(120)는 실제 증권 시장의 환경에서 주문 집행 전략에 따라 주문 집행된 주문 집행 전략에 대한 리워드를 결정하고, 결정된 리워드에 기초하여 제 2 딥러닝 모델(20)을 재학습시키고, 주문 집행이 종료된 종목의 거래 데이터를 이용하여 제 1 딥러닝 모델을 재학습시킬 수 있다.

한편, 당업자라면, 데이터 수집부(100), 보조 예측값 생성부(110), 모델 생성부(120), 주문 집행 전략 도출부(130) 및 주문 집행 지시부(140) 각각이 분리되어 구현되거나, 이 중 하나 이상이 통합되어 구현될 수 있음을 충분히 이해할 것이다.

도 4는 본 발명의 일 실시예에 따른, 증권 거래를 위한 종목에 대한 주문 집행을 수행하는 방법을 나타낸 도면이다.

도 4를 참조하면, 단계 S401에서 주문 집행 서버(10)는 적어도 하나의 종목에 대한 거래 데이터를 수집할 수 있다.

단계 S403에서 주문 집행 서버(10)는 미리 학습된 지도학습 기반의 제 1 딥러닝 모델에 거래 데이터를 입력하여 보조 예측값을 생성할 수 있다. 여기서, 보조 예측값은 예를 들어, 볼륨 커브(Volume Curve)일 수 있다.

단계 S405에서 주문 집행 서버(10)는 보조 예측값에 기초하여 미리 학습된 강화학습 기반의 제 2 딥러닝 모델을 이용하여 현재 주기에서의 적어도 하나의 종목에 대한 주문 집행 전략을 도출할 수 있다.

단계 S407에서 주문 집행 서버(10)는 주문 집행 전략을 포함하는 주문 정보를 이용하여 현재 주기에서의 적어도 하나의 종목에 대한 주문 집행을 지시할 수 있다.

상술한 설명에서, 단계 S401 내지 S407은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.

도 5는 본 발명의 일 실시예에 따른, 주문 집행을 수행하는 방법을 나타낸 동작 흐름도이다.

도 5를 참조하면, 단계 S501에서 유저 단말(50)은 유저로부터 특정 종목에 대한 주문 데이터를 입력받을 수 있다. 여기서, 주문 데이터는 특정 종목에 대한 주문 타입 정보, 주문 기한 정보, 주문 수량 정보, 주문 코드 정보 및 주문 제한 조건을 포함할 수 있다. 예를 들면, 유저 단말(50)은 도 6의 주문 설정 인터페이스를 통해 특정 종목에 대한 주문 데이터를 입력받을 수 있다. 유저 단말(50)은 주문 설정 인터페이스를 통해 특정 종목에 대한 계좌 번호(601), 주문 기한 정보(미도시), 주문 코드 정보(603), 주문 타입 정보(605), 주문 수량 정보(607), 주문 제한 조건 정보(609)를 사용자로부터 설정받을 수 있다. 여기서, 주문 기한 정보(미도시)는 특정 종목을 매도 또는 매수하는 주문 마감일을 포함하고, 주문 코드 정보(603)는 특정 종목에 해당하는 코드 정보(예컨대, 삼성 전자 종목의 코드 정보)를 포함할 수 있다. 주문 타입 정보(605)는 특정 종목에 대하여 매도를 할지 또는 매수를 할지 여부에 대한 선택 정보를 포함하고, 주문 수량 정보(607)는 선택된 주문 타입 정보에 따른 특정 정보의 주문량을 포함할 수 있다. 주문 제한 조건(609)은 예컨대, TWAP 주문 제한 범위를 포함할 수 있다.

단계 S503에서 유저 단말(50)은 특정 종목에 대한 주문 데이터를 주문 집행 서버(10)에게 전송할 수 있다.

단계 S505에서 주문 집행 서버(10)는 0주기 시점의 특정 종목에 대한 증권 데이터를 증권 데이터 제공 서버(60)에게 요청할 수 있다. 여기서, 증권 데이터는 호가창 데이터 및 거래틱 데이터 등을 포함할 수 있다.

단계 S507에서 주문 집행 서버(10)는 증권 데이터 제공 서버(60)로부터 0주기 시점의 특정 종목에 대한 증권 데이터를 수신할 수 있다.

단계 S509에서 주문 집행 서버(10)는 수신된 특정 종목에 대한 주문 데이터 및 0주기 시점의 특정 종목에 대한 증권 데이터에 기초하여 0주기 시점의 주문 집행 전략을 도출할 수 있다.

단계 S511에서 주문 집행 서버(10)는 도출된 0주기 시점의 주문 집행 전략을 포함하는 주문 정보를 증권 거래 운용 서버(70)에게 전송할 수 있다.

단계 S513에서 주문 집행 서버(10)는 0주기 시점의 주문 정보에 대한 체결 결과 정보를 증권 거래 운용 서버(70)로부터 수신할 수 있다.

단계 S515에서 주문 집행 서버(10)는 증권 거래 운용 서버(70)로부터 수신된 체결 결과 정보를 유저 단말(50)에게 전송할 수 있다.

단계 S517에서 주문 집행 서버(10)는 1주기 시점의 특정 종목에 대한 증권 데이터를 증권 데이터 제공 서버(60)에게 요청할 수 있다.

단계 S519에서 주문 집행 서버(10)는 증권 데이터 제공 서버(60)로부터 1주기 시점의 특정 종목에 대한 증권 데이터(0주기 시점의 주문 정보에 대한 체결 결과가 반영된 증권 데이터)를 수신할 수 있다.

단계 S521에서 주문 집행 서버(10)는 수신된 특정 종목에 대한 주문 데이터 및 1주기 시점의 특정 종목에 대한 증권 데이터에 기초하여 1주기 시점의 주문 집행 전략을 도출할 수 있다.

단계 S523에서 주문 집행 서버(10)는 도출된 1주기 시점의 주문 집행 전략을 포함하는 주문 정보를 증권 거래 운용 서버(70)에게 전송할 수 있다.

단계 S525에서 증권 거래 운용 서버(70)는 유저 단말(50)이 입력한 특정 종목에 대한 주문 데이터에 포함된 주문 수량 정보에 따라 증권 거래 운용 서버(70)가 특정 종목의 주문을 모두 완료한 경우, 주문 집행 서버(10)에게 특정 종목에 대한 최종 체결 정보를 전송할 수 있다. 만일, 특정 종목의 주문이 완료되지 않으면, 주문이 모두 완료될 때까지 단계 S513 이후의 과정이 반복될 수 있다.

단계 S527에서 주문 집행 서버(10)는 증권 거래 운용 서버(70)로부터 수신된 최종 체결 정보를 유저 단말(50)에게 전송할 수 있다.

상술한 설명에서, 단계 S501 내지 S527은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.

본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

10: 주문 집행 서버
100: 데이터 수집부
110: 보조 예측값 생성부
120: 모델 생성부
130: 주문 집행 전략 도출부
140: 주문 집행 지시부

Claims

증권 거래를 위한 주문 집행 서버에 있어서,
적어도 하나의 종목에 대한 거래 데이터를 수집하는 데이터 수집부;
미리 학습된 지도학습 기반의 제 1 딥러닝 모델에 상기 거래 데이터를 입력하여 보조 예측값을 생성하는 보조 예측값 생성부;
상기 거래 데이터 및 상기 보조 예측값에 기초하여 미리 학습된 강화학습 기반의 제 2 딥러닝 모델을 이용하여 현재 주기에서의 상기 적어도 하나의 종목에 대한 주문 집행 전략을 도출하는 주문 집행 전략 도출부; 및
상기 주문 집행 전략을 포함하는 주문 정보를 이용하여 현재 주기에서의 상기 적어도 하나의 종목에 대한 주문 집행을 지시하는 주문 집행 지시부를 포함하되,
상기 주문 집행 전략은 주문 집행 비용이 절감되도록 하는 호가창 배분 전략을 포함하고,
상기 주문 집행 전략 도출부는 상기 보조 예측값에 기초하여 상기 적어도 하나의 종목에 대한 주문량 및 주문 취소량을 결정하는 것인, 주문 집행 서버.
제 1 항에 있어서,
상기 제 2 딥러닝 모델을 생성하는 모델 생성부를 더 포함하고,
상기 제 2 딥러닝 모델은 강화학습 에이전트의 행동 규약을 결정하는 신경망인 둘 이상의 액터(Actor) 및 상기 강화학습 에이전트의 행동 가치를 추정하는 신경망인 크리틱(Critic)으로 구성되는 것인, 주문 집행 서버.
제 2 항에 있어서,
상기 모델 생성부는 상기 거래 데이터에 기초하여 강화학습 환경으로부터 주문 집행 전략에 대한 리워드가 향상되도록 상기 둘 이상의 액터를 학습시키는 것인, 주문 집행 서버.
제 2 항에 있어서,
상기 둘 이상의 액터는
상기 적어도 하나의 종목에 대한 상기 주문량을 결정하는 제 1 액터; 및
상기 적어도 하나의 종목에 대한 상기 주문 취소량을 결정하는 제 2 액터를 포함하는 것인, 주문 집행 서버.
제 4 항에 있어서,
상기 둘 이상의 액터는
상기 제 1 액터를 통해 결정된 주문량 및 상기 제 2 액터를 통해 결정된 주문 취소량에 기초하여 상기 적어도 하나의 종목에 대한 최종 주문량을 결정하는 제 3 액터를 포함하는 것인, 주문 집행 서버.
제 5 항에 있어서,
상기 모델 생성부는
상기 적어도 하나의 종목에 대한 주문량을 결정하도록 상기 제 1 액터를 학습시키고,
상기 보조 예측값에 따라 현 시점의 상기 적어도 하나의 종목의 주문량에 대한 주문 취소량을 결정하도록 상기 제 2 액터를 학습시키는 것인, 주문 집행 서버.
제 5 항에 있어서,
상기 모델 생성부는
상기 제 1 액터를 통해 결정된 주문량 및 상기 제 2 액터를 통해 결정된 주문 취소량에 기초하여 최종 주문량을 결정하도록 상기 제 3 액터를 학습시키는 것인, 주문 집행 서버.
제 2 항에 있어서,
상기 크리틱은
상기 주문 집행 전략에 따른 주문 집행의 수행 결과에 기초하여 리워드를 산출하는 제 1 크리틱; 및
리워드 평균법에 기초하여 상기 산출된 리워드를 업데이트하는 제 2 크리틱을 포함하는 것인, 주문 집행 서버.
제 8 항에 있어서,
상기 모델 생성부는
상기 주문 집행 전략에 따른 주문 집행의 수행 결과에 기초하여 리워드를 산출하도록 상기 제 1 크리틱을 학습시키고,
리워드 평균법에 기초하여 상기 산출된 리워드를 업데이트하도록 상기 제 2 크리틱을 학습시키는 것인, 주문 집행 서버.
제 1 항에 있어서,
상기 주문 집행 지시부는 상기 주문 집행 전략을 포함하는 주문 정보를 증권 거래 운용 서버로 전송함으로써 상기 현재 주기에서의 상기 적어도 하나의 종목에 대한 주문 집행을 지시하는 것인, 주문 집행 서버.
제 1 항에 있어서,
상기 보조 예측값은 볼륨 커브(Volume Curve)인 것인, 주문 집행 서버.
주문 집행 서버가 증권 거래를 수행하는 방법에 있어서,
상기 주문 집행 서버의 데이터 수집부가 적어도 하나의 종목에 대한 거래 데이터를 수집하는 단계;
상기 주문 집행 서버의 보조 예측값 생성부가 미리 학습된 지도학습 기반의 제 1 딥러닝 모델에 상기 거래 데이터를 입력하여 보조 예측값을 생성하는 단계;
상기 주문 집행 서버의 주문 집행 전략 도출부가 상기 거래 데이터 및 상기 보조 예측값에 기초하여 미리 학습된 강화학습 기반의 제 2 딥러닝 모델을 이용하여 현재 주기에서의 상기 적어도 하나의 종목에 대한 주문 집행 전략을 도출하는 단계; 및
상기 주문 집행 서버의 주문 집행 지시부가 상기 주문 집행 전략을 포함하는 주문 정보를 이용하여 현재 주기에서의 상기 적어도 하나의 종목에 대한 주문 집행을 지시하는 단계를 포함하고,
상기 주문 집행 전략은 주문 집행 비용이 절감되도록 하는 호가창 배분 전략을 포함하고,
상기 주문 집행 전략을 도출하는 단계는
상기 보조 예측값에 기초하여 상기 적어도 하나의 종목에 대한 주문량 및 주문 취소량을 결정하는 단계를 포함하는 증권 거래 수행 방법.