KR102573799B1

KR102573799B1 - 머신 러닝을 이용한 경영 성과 예측 방법 및 이를 이용한 장치

Info

Publication number: KR102573799B1
Application number: KR1020220098623A
Authority: KR
Inventors: 강병준
Original assignee: 엔에프엔 유한회사
Priority date: 2022-08-08
Filing date: 2022-08-08
Publication date: 2023-09-01
Also published as: US20240046288A1

Abstract

본 개시의 다양한 실시예에 따른 기업 경영 성과 예측 장치에 의해 수행되는 방법은, 정보 수집부에서 특정 기업의 내부 데이터 및 외부 데이터를 포함하는 데이터 세트를 획득하는 단계, 정보 분류부에서 상기 데이터 세트를 기초로 정형(structured) 데이터를 포함하는 제1 데이터 및 비정형(unstructured) 데이터를 포함하는 제2 데이터로 분류하는 단계, 정보 가공부에서 상기 제2 데이터를 상기 제1 데이터에 대응하는 정형 데이터인 제3 데이터로 가공하는 단계, 피처 추출부에서 상기 제1 데이터 및 상기 제3 데이터를 기초로 피처를 추출하는 단계, 및 상기 피처의 개별 특성에 대응하여, 미리 설정된 예측 모델을 통해 상기 특정 기업의 경영 성과 예측 데이터 및 미리 설정된 통계 속성 분야에 맵핑하여 상기 특정 기업의 경영 지표 데이터를 제공하는 단계를 포함할 수 있다.

Description

머신 러닝을 이용한 경영 성과 예측 방법 및 이를 이용한 장치{METHOD FOR PREDICTING BUSINESS PERFORMANCE USING MACHINE LEARNING AND APPARATUS USING THE SAME}

본 개시는 경영 성과 예측 방법 및 이를 이용한 장치에 관한 것이다. 보다 상세하게는, 본 개시는 기업에 관련된 데이터를 머신 러닝을 통해 학습하여 기업의 경영 성과를 예측하는 방법 및 이를 이용한 장치에 관한 것이다.

특정 기업의 경영 성과는 해당 기업에 대한 투자 의사를 결정하는데 있어서 많은 도움이 된다. 이와 관련된 대부분의 종래 기술은 특정 기업에 대한 현재까지의 경영 관련 자료를 분석하여 결과를 도출하게 되어 많은 시간이 소요되었다.

이에 따른 시간 소요와 분석의 정확성을 높이기 위하여 일 기업의 경영 성과와 관련된 다양한 데이터를 머신 러닝을 통해 분석하기 위한 트레이닝 방법들이 시도되고 있다.

이와 관련하여 대한민국등록특허 제10-2008845호가 있다.

(특허문헌 1) KR 10-2008845 B

본 개시에 개시된 실시예는 상술한 문제점을 해결하기 위하여 제안된 것으로, 사용자가 필요로 하는 정보를 무작위의 데이터로부터 추출하여 적합하게 가공해 제공하는데 그 목적이 있다.

본 개시가 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

상술한 기술적 과제를 달성하기 위한 본 개시의 일 측면에 따른 기업 경영 성과 예측 장치에 의해 수행되는 방법은, 정보 수집부에서 특정 기업의 내부 데이터 및 외부 데이터를 포함하는 데이터 세트를 획득하는 단계, 정보 분류부에서 상기 데이터 세트를 기초로 정형(structured) 데이터를 포함하는 제1 데이터 및 비정형(unstructured) 데이터를 포함하는 제2 데이터로 분류하는 단계, 정보 가공부에서 상기 제2 데이터를 상기 제1 데이터에 대응하는 정형 데이터인 제3 데이터로 가공하는 단계, 피처 추출부에서 상기 제1 데이터 및 상기 제3 데이터를 기초로 피처를 추출하는 단계, 및 상기 피처의 개별 특성에 대응하여, 미리 설정된 예측 모델을 통해 상기 특정 기업의 경영 성과 예측 데이터 및 미리 설정된 통계 속성 분야에 맵핑하여 상기 특정 기업의 경영 지표 데이터를 제공하는 단계를 포함할 수 있다.

이 외에도, 본 개시의 기업 경영 성과 예측 방법을 구현하기 위한 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램이 더 제공될 수 있다.

이 외에도, 본 개시를 구현하기 위한 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공될 수 있다.

본 개시의 전술한 과제 해결 수단에 의하면, 특정 기업의 경영과 관련된 내부 데이터 및 외부 데이터를 활용하여 특정 기업에 대한 기업 경영 성과 예측 데이터를 제공하고, 현재까지의 데이터를 기준으로 한 기업 경영 지표 데이터를 통계값으로 하여 제공함으로써 기업 경영 성과에 대한 보다 명확한 예측값과 통계값을 학인할 수 있는 효과가 있다.

본 개시의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 개시의 다양한 실시예에 따른 기업 경영 성과 예측 방법을 제공하기 위한 장치들이 네트워크를 통해 연결된 시스템의 블록도이다.
도 2는 본 개시의 다양한 실시예에 따른, 경영 성과 예측 장치의 구성요소들에 관한 개략적인 블록도이다.
도 3a 및 도 3b는 본 개시의 다양한 실시예에 따른, 기업 경영 성과 예측 방법에 관한 개략적인 흐름도이다.
도 4는 본 개시의 다양한 실시예에 따른 데이터 가공 방법에 관한 개략적인 도면이다.
도 5는 본 개시의 다양한 실시예에 따른 기업 경영 성과 예측 방법에 활용되는 데이터 세트에 관한 블록도이다.
도 6은 본 개시의 다양한 실시예에 따른 데이터 전처리 수행에 관한 개략적인 흐름도이다.
도 7은 본 개시의 다양한 실시예에 따른 기업 경영 성과 예측 데이터 및 기업경영 지표 데이터를 제공하는 개략적인 흐름도이다.
도 8은 본 개시의 다양한 실시예에 따른 데이터 세트에 관한 예시도이다.

본 개시 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭한다. 본 개시가 실시예들의 모든 요소들을 설명하는 것은 아니며, 본 개시가 속하는 기술분야에서 일반적인 내용 또는 실시예들 간에 중복되는 내용은 생략한다. 명세서에서 사용되는 '부, 모듈, 부재, 블록'이라는 용어는 소프트웨어 또는 하드웨어로 구현될 수 있으며, 실시예들에 따라 복수의 '부, 모듈, 부재, 블록'이 하나의 구성요소로 구현되거나, 하나의 '부, 모듈, 부재, 블록'이 복수의 구성요소들을 포함하는 것도 가능하다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐 아니라, 간접적으로 연결되어 있는 경우를 포함하고, 간접적인 연결은 무선 통신망을 통해 연결되는 것을 포함한다.

또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

명세서 전체에서, 어떤 부재가 다른 부재 "상에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.

제1, 제2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위해 사용되는 것으로, 구성요소가 전술된 용어들에 의해 제한되는 것은 아니다.

단수의 표현은 문맥상 명백하게 예외가 있지 않는 한, 복수의 표현을 포함한다.

각 단계들에 있어 식별부호는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 실시될 수 있다.

이하 첨부된 도면들을 참고하여 본 개시의 작용 원리 및 실시예들에 대해 설명한다.

본 명세서에서 '본 개시에 따른 기업 경영 성과 예측 장치'는 연산처리를 수행하여 사용자에게 결과를 제공할 수 있는 다양한 장치들이 모두 포함된다. 예를 들어, 본 개시에 따른 기업 경영 성과 예측 장치는, 컴퓨터, 서버 장치 및 휴대용 단말기를 모두 포함하거나, 또는 어느 하나의 형태가 될 수 있다.

여기에서, 상기 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop), 태블릿 PC, 슬레이트 PC 등을 포함할 수 있다.

상기 서버 장치는 외부 장치와 통신을 수행하여 정보를 처리하는 서버로써, 애플리케이션 서버, 컴퓨팅 서버, 데이터베이스 서버, 파일 서버, 게임 서버, 메일 서버, 프록시 서버 및 웹 서버 등을 포함할 수 있다.

상기 휴대용 단말기는 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), WiBro(Wireless Broadband Internet) 단말, 스마트 폰(Smart Phone) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치와 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘택트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD) 등과 같은 웨어러블 장치를 포함할 수 있다.

본 개시의 데이터 세트는 기업과 관련된 내부 데이터 및 외부 데이터로 구성된다. 내부 데이터는 특정 기업의 인트라넷, 내부 네트워크, 또는 이들을 통해 접근이 가능한 데이터베이스에서 획득이 가능한 특정 기업과 관련된 데이터이다. 외부 데이터는 특정 기업에서 관리가 불가능한 데이터를 포함하고, 특정 기업에 관한 메타 데이터에 매칭되는 모든 외부 데이터를 포함한다.

본 개시의 데이터 전처리(pre-processing)는 비정형 데이터를 정형 데이터로 가공하는 처리 과정을 포함한다. 피처 엔지니어링(feature engineering)은 가공된 데이터 세트로부터 피처를 추출하여 데이터 세트로부터 의도하는 결괏값을 도출하기 위한 일련의 과정을 포함한다.

본 개시의 앙상블 모델은 다수의 얕은 모델(shallow model)들을 결합하여 단일 모델 대비 우수한 퍼포먼스를 내는 모델을 의미할 수 있다. 본 개시의 앙상블 모델은 XGB(extreme gradient boosting) 방식으로 CART(classification and regression trees) 모델을 포함할 수 있다.

본 개시의 결괏값은 데이터 세트로부터 추출된 피처를 기준으로 도출되는 값이다. 본 개시의 결괏값은 피처 세트의 종류에 따라 기업 경영 성과 예측 데이터 및 기업 경영 지표 데이터이다. 기업 경영 성과 예측 데이터는 기업의 경영 성과를 예측할 수 있는 데이터이다. 기업 경영 지표 데이터는 통계 데이터에 대응하며, 결괏값을 조회하는 현재 시점까지의 기업 경영과 관련된 지표에 대한 통계 데이터 또는 결괏값을 조회하는 시점에서의 갱신 데이터에 대한 통계 데이터를 포함한다.

도 1은 본 개시의 다양한 실시예에 따른 기업 경영 성과 예측 방법을 제공하기 위한 장치들이 네트워크를 통해 연결된 시스템(100)의 블록도이다.

도1을 참조하면, 경영 성과 예측 장치(200), 외부 장치(300), 및 사용자 단말(400)은 각각 서로 다른 노드와 데이터를 주고받을 수 있다. 이와 같은 각 노드는 네트워크를 통해 연결될 수 있다.

경영 성과 예측 장치(200)는 특정 기업의 경영 성과를 예측하는 장치일 수 있다. 경영 성과 예측 장치(200)는 시스템(100) 내에서의 각종 데이터를 수신할 수 있으며, 사용자 단말(400)로부터의 결괏값 요청에 대응하여 결괏값을 제공할 수 있다. 경영 성과 예측 장치(200)는 기업 경영 성과 예측을 위한 소프트웨어 또는 플랫폼을 전체적으로 운용 및 관리하는 장치를 포함할 수 있으며, 기업 경영 성과 예측 결과를 제공하는 서버일 수 있다.

본 개시의 결괏값은 기업 경영 성과 예측 데이터 및 기업 경영 지표 데이터를 포함할 수 있다. 일 예를 들어, 기업 경영 성과 예측 데이터는 특정 기업의 전반적인 경영 성과를 현재까지 수집된 데이터를 통해 예측하는 데이터를 포함한다. 다른 예를 들어, 기업 경영 지표 데이터는 특정 기업의 전반적인 경영 성과를 현재까지 수집된 데이터를 통해 통계를 낸 데이터를 포함한다. 기업 경영 지표 데이터는 특정 기업이 설정한 통계 속성 분야에 대응하여 구성될 수 있다.

실시예에 따르면, 특정 기업의 경영 성과와 관련된 데이터는 다양한 형태로 제공될 수 있다. 근래에는 머신 러닝을 통해 특정 기업과 관련된 전체 데이터를 필요한 형태로 학습시켜 분류하는 기술이 많이 사용되고 있다. 예를 들어, 머신 러닝은 특정 기업에서 관심 있는 분야를 기준으로 전체 데이터를 피처의 특성에 따라 추출하도록 수행될 수 있다. 이와 같은 머신 러닝 방식의 설정은 다양한 모델을 통해 이루어질 수 있다.

실시예에 따른 기업 경영 성과 예측 데이터는 미리 설정된 예측 모델(예: 앙상블 모델)을 통해 데이터 세트로부터 추출한 피처에 따른 결괏값일 수 있다. 예를 들어, 피처는 제1 피처 세트일 수 있다.

실시예에 따른 기업 경영 지표 데이터는 데이터 세트로부터 추출한 피처에 따라 미리 설정된 통계 속성 분야에 맵핑한 결괏값일 수 있다. 예를 들어, 피처는 제2 피처 세트일 수 있다.

실시예에 따른 데이터 가공 프로세스는 공개된 머신 러닝 프로세스에 의하여 이루어질 수 있으며, 특정 기업의 니즈에 따라 모델을 설정하여 결괏값을 제공할 수 있다. 특정 기업의 니즈는 제공받고자 하는 결괏값에 대한 니즈이며, 구체적으로, 제공받고자 하는 결괏값의 형태 또는 종류일 수 있다.

실시예에 따른 기업 경영 성과 예측 데이터 및 기업 경영 지표 데이터는 전반적인 텍스트 데이터 마이닝을 통한 결괏값에 대응할 수 있다. 텍스트 데이터 마이닝은 의미 있는 패턴과 새로운 인사이트를 식별하기 위해 구조화되지 않은 데이터(예: 비정형 데이터)를 구조화된 데이터(예: 정형 데이터)로 변환하는 프로세스일 수 있다. 본 개시의 기업 경영 성과 예측 방법은 비정형 데이터 내에 숨겨진 관계를 식별하여 제공할 수 있다.

실시예에 따른 텍스트 마이닝을 수행하기 위해서는 비정형 데이터를 정형화하여 정형 데이터로 가공하는 모델이 필요하다. 일반적인 텍스트 마이닝 모델은 BOW(bag-of-word) 모델과 N-gram 모델이 있다.

BOW 모델은 자연어 처리 및 정보 검색에 사용되는 모델로 표현을 단순화하는 기능을 수행할 수 있다. 일반적으로 BOW 모델은 각 단어의 발생 빈도를 트레이닝 피처로 사용하는 데이터 분류 방법에 활용된다. N-gram 모델은 데이터 내에 자주 함께 출현하는 단어 n개를 하나의 그룹으로 묶어 벡터로 표현하는 기능을 수행할 수 있다. 이는 통계에 기반한 모델로써 통계적 언어 모델(statistical language medel, SLM)의 일종이다.

그 외에는 토픽 모델이 존재하여, 데이터 내에서의 대표적 토픽을 탐색하기 위한 통계적 모델이다. 본 개시에서의 앙상블 모델은 상기 모델 중 BOW 모델과 N-gram 모델을 각각 또는 조합하여 활용하는 모델일 수 있다. 본 개시에서의 통계 모델은 토픽 모델을 활용하는 모델일 수 있다.

구체적으로, 본 개시의 기업 경영 성과 예측 데이터는 앙상블 모델을 통해 데이터 세트를 트레이닝한 결괏값일 수 있다. 또한, 본 개시의 기업 경영 지표 데이터는 토픽 모델을 통해 데이터 세트를 트레이닝한 결괏값일 수 있다.

외부 장치(300)는 내부의 통신 모듈 또는 트랜시버를 통해 전자 경영 성과 예측 장치(200)와 네트워크로 연결된 장치를 포함할 수 있다. 예를 들어, 외부 장치(300)는 데이터베이스 서버로 구현되어 저장부를 포함하는 장치일 수 있다. 구체적으로, 데이터베이스 서버는 데이터 세트를 구성하는 일 데이터인 외부 데이터를 수집하는 서버일 수 있다.

예를 들어, 외부 데이터는 경영 성과 예측 장치(200)에서 외부 장치(300)로 요청하는 데이터일 수 있다. 경영 성과 예측 장치(200)는 데이터 세트를 구성하기 위하여 주기적으로 또는 실시간으로 외부 장치(300)로부터 외부 데이터를 수신할 수 있다. 외부 장치(300)는 특정 기업에서 관리하는 데이터가 아닌 데이터들을 수집하는 장치일 수 있다.

본 개시의 사용자 단말(400)은 경영 성과 예측 장치(200)로부터 기업 경영 성과 예측 데이터 및 기업 경영 지표 데이터를 제공받는 장치일 수 있다. 사용자 단말(400)은 특정 기업에서 제어 가능한 컴퓨터 또는 단말기를 포함한다.

도 2는 본 개시의 다양한 실시예에 따른, 경영 성과 예측 장치의 구성요소들에 관한 개략적인 블록도이다.

본 개시에 따른 경영 성과 예측 장치(200)는 내부 구성요소로 프로세서(210), 통신부(220), 및 메모리(230) 등을 포함할 수 있으며, 이에 한정되는 것은 아니다.

도 2를 참조하면, 프로세서(210)는 본 개시의 다양한 실시예에 따른 기업 경영 성과 예측 데이터 제공 방법을 수행하기 위한 일련의 단계들을 처리할 수 있다. 프로세서(210)는 경영 성과 예측 장치(200)의 다른 구성요소들을 제어할 수 있다.

실시예에 따른 프로세서(210)는 본 개시의 기업 경영 성과 예측 데이터 및 기업 경영 지표 데이터를 제공하는 과정에서, 개별 동작을 수행하는 기능에 따라 개별 기능 블록을 제어할 수 있다. 예를 들어, 프로세서(210)는 정보 수집부, 정보 분류부, 정보 가공부, 및 피처 추출부 등의 기능 블록을 제어할 수 있다.

실시예에 따른 프로세서(210)는 경영 성과 예측 장치(200) 내의 구성요소들의 동작을 제어하기 위한 알고리즘 또는 알고리즘을 재현한 프로그램에 대한 데이터를 저장하는 메모리(230), 및 메모리(230)에 저장된 데이터를 이용하여 전술한 동작을 수행하는 적어도 하나의 기능 블록으로 구현될 수 있다. 이때, 메모리(230)와 프로세서(210)는 각각 별개의 칩으로 구현될 수 있다. 또는, 메모리(230)와 프로세서(210)는 단일 칩으로 구현될 수도 있다.

또한, 프로세서(210)는 이하의 도 3a, 도 3b, 도 4, 도 6, 및 도 7에서 설명되는 본 개시에 따른 다양한 실시 예들을 경영 성과 예측 장치(200) 상에서 구현하기 위하여, 위에서 살펴본 구성요소들을 중 어느 하나 또는 복수를 조합하여 제어할 수 있다.

경영 성과 예측 장치(200)의 통신부(220)는 경영 성과 예측 장치(200)의 메모리(230)에 저장된 정보 또는 프로세서(210)에 의해 처리된 정보를 다른 장치로 전송하거나, 다른 장치로부터 경영 성과 예측 장치(200)로 정보를 수신하는 기능을 수행할 수 있다. 예를 들어, 경영 성과 예측 장치(200)는 통신부(220)를 통해 외부 장치(예: 도 1의 외부 장치(300))와 정보를 주고받을 수 있다.

실시예에 따른 통신부(220)는 외부 장치와 통신을 가능하게 하는 하나 이상의 구성 요소를 포함할 수 있으며, 예를 들어, 유선통신 모듈, 무선통신 모듈, 근거리 통신 모듈 중 적어도 하나를 포함할 수 있다.

유선 통신 모듈은, 지역 통신(Local Area Network; LAN) 모듈, 광역 통신(Wide Area Network; WAN) 모듈 또는 부가가치 통신(Value Added Network; VAN) 모듈 등 다양한 유선 통신 모듈뿐만 아니라, USB(Universal Serial Bus), HDMI(High Definition Multimedia Interface), DVI(Digital Visual Interface), RS-232(recommended standard232), 전력선 통신, 또는 POTS(plain old telephone service) 등 다양한 케이블 통신 모듈을 포함할 수 있다.

무선 통신 모듈은 와이파이(Wifi) 모듈, 와이브로(Wireless broadband) 모듈 외에도, GSM(global System for Mobile Communication), CDMA(Code Division Multiple Access), WCDMA(Wideband Code Division Multiple Access), UMTS(universal mobile telecommunications system), TDMA(Time Division Multiple Access), LTE(Long Term Evolution), 4G, 5G, 6G 등 다양한 무선 통신 방식을 지원하는 무선 통신 모듈을 포함할 수 있다.

근거리 통신 모듈은 근거리 통신(Short range communication)을 위한 것으로서, 블루투스(Bluetooth™RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association; IrDA), UWB(Ultra Wideband), ZigBee, NFC(Near Field Communication), Wi-Fi(Wireless-Fidelity), Wi-Fi Direct, Wireless USB(Wireless Universal Serial Bus) 기술 중 적어도 하나를 이용하여, 근거리 통신을 지원할 수 있다.

경영 성과 예측 장치(200)의 메모리(230)는 경영 성과 예측 장치(200)의 소정의 저장 공간에 구현된 데이터 구조로서, 데이터의 저장, 검색, 삭제, 편집, 또는 추가 등의 기능이 자유롭게 수행될 수 있다. 예를 들어, 메모리(230)는 데이터의 저장, 검색, 삭제, 편집, 또는 추가 등의 기능을 처리하기 위한 필드 또는 구성요소들을 포함할 수 있다. 다른 예를 들어, 메모리(230)는 별도의 클라우드 서버 또는 데이터베이스 서버에 구비될 수 있다.

메모리(230)는 경영 성과 예측 장치(200)의 다양한 기능을 지원하는 데이터와, 프로세서(210)의 동작을 위한 프로그램을 저장할 수 있고, 입/출력되는 데이터들(예를 들어, 문서 파일, 음악 파일, 정지영상, 동영상 등)을 저장할 있고, 경영 성과 예측 장치(200)에서 구동되는 다수의 응용 프로그램(application program 또는 애플리케이션(application)), 본 장치의 동작을 위한 데이터들, 명령어들을 저장할 수 있다. 이러한 응용 프로그램 중 적어도 일부는, 무선 통신을 통해 외부 서버로부터 다운로드 될 수 있다.

이러한, 메모리(230)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), SSD 타입(Solid State Disk type), SDD 타입(Silicon Disk Drive type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(random access memory; RAM), SRAM(static random access memory), 롬(read-only memory; ROM), EEPROM(electrically erasable programmable read-only memory), PROM(programmable read-only memory), 자기 메모리, 자기 디스크 및 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. 또한, 메모리(230)는 경영 성과 예측 장치(200)와는 분리되어 있으나, 유선 또는 무선으로 연결된 데이터베이스가 될 수도 있다.

실시예에 따른 인터페이스부(미도시)는 본 장치에 연결되는 다양한 종류의 외부 기기와의 통로 역할을 수행한다. 이러한 인터페이스부는 유/무선 헤드셋 포트(port), 외부 충전기 포트(port), 유/무선 데이터 포트(port), 메모리 카드(memory card) 포트, 식별 모듈(SIM)이 구비된 장치를 연결하는 포트(port), 오디오 I/O(Input/Output) 포트(port), 비디오 I/O(Input/Output) 포트(port), 이어폰 포트(port) 중 적어도 하나를 포함할 수 있다. 본 장치에서는, 상기 인터페이스부에 연결된 외부 장치와 관련된 적절한 제어를 수행할 수 있다.

도 2에 도시된 경영 성과 예측 장치(200)의 내부 구성요소들의 성능에 대응하여 적어도 하나의 구성요소가 추가되거나 삭제될 수 있다. 또한, 구성 요소들의 상호 위치는 시스템의 성능 또는 구조에 대응하여 변경될 수 있다는 것은 당해 기술 분야에서 통상의 지식을 가진 자에게 용이하게 이해될 것이다.

한편, 도 2에서 도시된 각각의 구성요소는 소프트웨어 및/또는 Field Programmable Gate Array(FPGA) 및 주문형 반도체(ASIC, Application Specific Integrated Circuit)와 같은 하드웨어 구성요소를 의미한다.

도 3a 및 도 3b는 본 개시의 다양한 실시예에 따른, 기업 경영 성과 예측 방법에 관한 개략적인 흐름도이다. 예를 들어, 도 3a는 기업 경영 성과 예측 방법을 수행하기 위한 특정 기업과 관련된 데이터 세트를 통해 예측 모델을 학습하는 흐름일 수 있다. 예를 들어, 도 3b는 도 3a의 학습된 예측 모델을 통해 특정 기업의 경영 성과 예측 방법을 수행하는 흐름일 수 있다.

도 3a를 참조하면, 경영 성과 예측 장치(예: 도 1의 경영 성과 예측 장치(200))는 기업 경영 성과 예측 데이터 및 기업 경영 지표 데이터를 다른 장치로 제공할 수 있다.

S310에서, 프로세서(예: 도 2의 프로세서(210))는 정보 수집부에서 데이터 세트를 획득할 수 있다. 데이터 세트는 특정 기업의 내부 데이터 및 외부 데이터를 포함한다.

실시예에 따른 프로세서는 메모리(예: 도 2의 메모리(230))로부터 내부 데이터를 획득하고, 외부 장치(예: 도 1의 외부 장치(300))를 통해 외부 데이터를 획득할 수 있다. 이 때, 프로세서는 사용자 단말(예: 도 1의 사용자 단말(400))에 제공하기 위한 데이터 형식으로 가공하기 이전의 원본 데이터의 형식으로 데이터 세트를 획득할 수 있다.

S320에서, 프로세서는 정보 분류부에서 데이터 세트를 제1 데이터 및 제2 데이터로 분류할 수 있다. 제1 데이터는 정형(structured) 데이터를 포함하고, 제2 데이터는 비정형(unstructured) 데이터를 포함한다.

실시예에 따르면, 내부 데이터 및 외부 데이터는 각각 정형 데이터 및 비정형 데이터를 포함한다. 이는 도 5에서 후술된다.

S330에서, 프로세서는 정보 가공부에서 비정형 데이터를 정형 데이터로 가공할 수 있다. 정형 데이터는 엑셀 테이블 형태로 정리된 구조화된 데이터일 수 있다. 비정형 데이터는 문서, 이미지 파일과 같이 구조화되지 않은 데이터일 수 있다.

실시예에 따르면, 프로세서는 자연어 처리 프로세스를 통해 비정형 데이터의 텍스트를 처리할 수 있다. 여기서, 텍스트 처리는 비정형 데이터 내에 포함된 문자열을 처리하여 어간 또는 단어 단위로 추출화하여 전처리하는 과정을 포함할 수 있다. 즉, 프로세서는 정보 가공부에서 비정형 데이터를 정형 데이터로 가공하는 전처리 프로세스를 제어할 수 있다.

구체적으로, 프로세서는 S320에서 분류한 데이터 중 비정형 데이터를 포함하는 제2 데이터를 정형 데이터를 포함하는 제1 데이터의 형식에 대응되도록 하여 정형 데이터로 가공할 수 있다. 이 때, 제2 데이터를 정형 데이터로 가공한 데이터를 제3 데이터로 지칭할 수 있다. 제3 데이터는 제1 데이터의 데이터 구조 및 표현 형식이 대응하는 데이터이며, 정형 데이터이다.

실시예에 따르면, 데이터를 가공하는 단계는 비정형 데이터를 포함하는 제2 데이터의 문자열을 확인하는 단계와 확인한 문자열을 기초로 정보를 추출하고, 문자를 토큰화하여 단어(word)를 추출하는 단계를 포함한다. 이와 관련된 상세한 설명은 도 6에서 후술된다.

S340에서, 프로세서는 피처 추출부에서 데이터 세트의 피처를 추출할 수 있다. 피처가 추출되는 데이터 세트는 S330에서 가공된 상태의 정형 데이터를 포함한다.

실시예에 따르면, 피처를 추출하는 단계는 피처 벡터화 이후 정형 데이터를 리스케일링(re-scaling) 및 정규화하는 피처 스케일링 단계를 포함한다. 이와 관련된 상세한 설명은 도 7에서 후술된다.

실시예에 따르면, 프로세서는 도 3a의 S310 내지 S340을 통해 특정 기업과 관련된 데이터 세트를 기반으로 기업 경영 성과 예측 데이터 및 경영 지표 데이터를 출력하기 위한 모델을 학습 및 배포할 수 있다. 여기서, 모델은 경영 성과 예측 데이터를 출력하기 위한 모델과 경영 지표 데이터를 출력하기 위한 모델을 포함할 수 있다. 특히, 모델은 미리 설정된 모델과 미리 설정된 통계 속성 분야야 관련된 것으로 특정 기업과 관련된 데이터 세트를 통해 기업 경영 성과 예측 데이터 및 경영 지표 데이터를 출력하기 위한 특정한 모델일 수 있다.

실시예에 따른 프로세서는, 도 3a의 흐름을 통해 특정 기업과 관련하여 기업 경영 성과 예측 데이터 및 경영 지표 데이터를 출력하는데 최적화된 모델을 학습할 수 있다. 구체적으로, 프로세서는 도 3a의 S310 내지 S340의 프로세스를 거치면서 학습을 마무리할 수 있다. 보다 구체적으로, 프로세서는 S340의 프로세스 이후에 학습을 마무리할 수 있다. 도 3a에서는 프로세서의 특정 기업에 관련된 데이터 세트에 대한 모델의 학습 및 배포를 A로 표현한다. 즉, 프로세서는 도 3a의 A 이후에 학습된 모델을 통해 도 3b의 예측 프로세스를 수행할 수 있다.

실시예에 따르면, 프로세서는 도 3a의 학습 프로세스 이후에 학습된 모델을 기반으로 도 3b의 예측 프로세스를 수행할 수 있다. 프로세서가 A 이후에 학습된 모델을 통해 도 3b의 S350 내지 S380의 프로세스를 수행하는 내용은 S310 내지 340에 대한 설명으로 대체한다.

S390에서, 프로세서는 경영 성과 예측 데이터 및 경영 지표 데이터를 제공할 수 있다. 경영 성과 예측 데이터 및 경영 지표 데이터는 특정 기업에 관한 것이며, S350에서 획득한 데이터 세트를 기초로 하여 제공되는 결괏값일 수 있다.

실시예에 따르면, 특정 기업은 해당 기업 내에서 획득하게 되는 경영 관련 데이터와 해당 기업의 외부에서 해당 기업의 경영과 관련하여 발행되는 데이터를 통해 경영 성과 데이터를 제공받을 수 있다. 예를 들어, 경영 성과 예측 데이터는 특정 기업의 경영 성과를 예측하는 데이터이다. 예를 들어, 경영 성과 지표 데이터는 특정 기업의 경영 성과 통계 데이터이다.

실시예에 따르면, 기업 경영 성과 예측 데이터는 특정 기업의 현재 데이터를 적용하여 특정 기업의 향후 성과 데이터를 예측한 데이터이다. 예를 들어, 기업 경영 성과 예측 데이터는 XGB 방식으로 CART 모델로 구성된 미리 설정된 모델을 통해 추출된 피처 세트(예: 제1 피처 세트)에 대한 결괏값의 데이터이다. 최종적으로 제공되는 기업 경영 성과 예측 데이터는 특정 기업의 주가 지수 예측 데이터 및 자체 경영 지표 인덱스에 대한 경영 지표 예측 데이터를 포함한다.

실시예에 따르면, 기업 경영 지표 데이터는 특정 기업의 현재 데이터를 적용하여 특정 기업의 현재까지의 성과 통계를 나타낸 데이터이다. 예를 들어, 기업 경영 지표 데이터는 재무 분야, 고객 분야, 프로세스 분야, 및 지속성 분야를 포함하는 미리 설정된 통계 속성 분야를 기준으로 추출된 피처 세트(예: 제2 피처 세트)에 대한 결괏값을 맵핑한 데이터이다. 최종적으로 제공되는 기업 경영 지표 데이터는 미리 설정된 통계 속성 분야에 대응하는 그래프 데이터, 상관 관계 데이터, 및 목표값과 현재 달성값과의 비교 데이터(예: 목표값과의 비교 데이터)를 포함한다.

실시예에 따른 프로세서는 특정 기업과 관련된 데이터 세트를 통해 경영 성과 예측 데이터 및 경영 지표 데이터를 제공하기 위한 모델을 학습할 수 있다. 구체적으로, 프로세서는 학습한 모델을 기반으로 하여 특정 기업과 관련된 데이터 세트를 입력값으로 하여 학습된 모델을 통해 경영 성과 예측 데이터 및 경영 지표 데이터를 제공할 수 있다.

도 4는 본 개시의 다양한 실시예에 따른 데이터 가공 방법에 관한 개략적인 도면이다.

도 4를 참조하면, 프로세서(예: 도 2의 프로세서(210))는 데이터 세트(410)를 전처리할 수 있다. 구체적으로, 프로세서가 데이터 세트(410)를 전처리하여 정형 데이터(420)로 가공하는 프로세스는 도 3의 S330에 대응할 수 있다.

실시예에 따르면, 프로세서는 정형 데이터(420)를 기초로 피처 엔지니어링을 수행할 수 있다. 피처 엔지니어링은 원시 데이터(예: 데이터 세트)로부터 자연어 처리 어플리케이션을 개발하거나 자연어 처리 관련 문제를 해결하는데 도움이 되는 피처를 생성 또는 유도하는 프로세스이다.

구체적으로, 피처 엔지니어링은 정형 데이터(420)로부터 피처를 추출하는 프로세스를 포함한다. 피처 엔지니어링은 머신 러닝을 통해 도출하고자 하는 결괏값에 부합하는 속성이나 피처를 추출하는 것을 목적으로 한다. 보다 구체적으로, 피처는 자연어 처리를 통해 예측값(예: 결괏값)을 출력할 때 유용한 정보 또는 예측이 가능한 속성으로 정의될 수 있다.

실시예에 따르면, 본 개시의 기업 경영 성과 예측 방법은 데이터 세트를 입력으로 하여 결괏값을 출력하는 방법일 수 있다. 결괏값은 입력에 대해 피처를 활용한 예측값이며, 본 개시의 결괏값은 경영 성과 예측 데이터(430) 및 경영 지표 데이터(440)를 포함한다.

도 4는 일반적인 입력값에 대한 자연어 처리와 피처 엔지니어링을 통한 결괏값 도출 방법에 관한 도면이며, 본 개시에 따른 기업 경영 성과 예측 방법의 개략적인 데이터 제공에 대응할 수 있다. 또한, 도 4에 도시된 프로세스는 본 개시의 기업 경영 성과 예측 방법을 수행하기 위한 특정한 머신 러닝 모델이 적용될 수 있으며, 일반적인 모델에 제한되는 것은 아니다.

도 5는 본 개시의 다양한 실시예에 따른 기업 경영 성과 예측 방법에 활용되는 데이터 세트에 관한 블록도이다.

도 5를 참조하면, 프로세서(예: 도 2의 프로세서(210))는 데이터 세트(500)를 본 개시의 기업 경영 성과 예측 방법의 결괏값을 제공하기 위한 입력값으로 활용할 수 있다.

데이터 세트(500)는 내부 데이터(510)와 외부 데이터(520)로 구성된다. 내부 데이터(510)는 정형 데이터(511)와 비정형 데이터(512)로 구성되며, 외부 데이터(520)는 정형 데이터(521)과 비정형 데이터(522)로 구성된다. 도 5에서, 외부 데이터(520)가 점선으로 표현된 것은 프로세서가 외부 데이터(520)를 외부 장치(예: 도 1의 외부 장치(300))로부터 획득할 수 있기 때문이다.

실시예에 따른 내부 데이터(510)는 특정 기업의 경영 성과와 관련된 재무제표 데이터, 경영 측정 지표 데이터, 회의록 데이터, 업무 보고 데이터, 및 설문 데이터 등을 포함한다. 다른 예를 들어, 내부 데이터(510)는 특정 기업의 직원 근태 패턴 데이터, 직원 간 메일 데이터, 사내 ERP 시스템 자료, 프로젝트 관리 시스템의 자료, 정기 또는 비정기의 성과 측정 자료, 사내 인터뷰 자료, 사내 진단 자료 등의 정형 데이터(511) 및 비정형 데이터(512)를 포함한다.

실시예에 따른 외부 데이터(520)는 특정 기업에 대한 온라인 기사 데이터, 텍스트 컨텐츠 데이터(예: 특정 기업에 대한 관련 법률 데이터, 특허 데이터, 논문 데이터, 국내/해외 저널 데이터, 의료 데이터, 도서 데이터 등), 영상 컨텐츠 데이터(예: 특정 기업에 대한 온라인 대학 강의 데이터, 유튜브 데이터 등), 외부 온라인 커뮤니티 게시글 데이터, 및 온라인 포털 데이터 등을 포함한다. 다른 예를 들어, 외부 데이터(520)는 특정 기업의 온라인 주주 게시판 데이터 등의 경영과 관련된 정형 데이터(521) 및 비정형 데이터(522)를 포함한다.

도 6은 본 개시의 다양한 실시예에 따른 데이터 전처리 수행에 관한 개략적인 흐름도이다.

도 6을 참조하면, 프로세서(예: 도 2의 프로세서(210))는 데이터 세트에 포함되어 있는 비정형 데이터를 정형 데이터로 가공할 수 있다. 이와 같은 데이터 세트에 대한 가공 프로세스는 데이터 전처리 과정을 포함한다.

실시예에 따르면, 본 개시의 기업 경영 성과 예측 방법은 비정형 데이터 내의 텍스트 분석 프로세스를 활용한다. 텍스트 분석 프로세스는 비정형 데이터에서 의미 있는 정보를 추출하는 프로세스일 수 있다. 즉, 프로세서는 비정형 데이터를 정형 데이터로 가공하여 원본이 되는 비정형 데이터로부터 특정 기업에서 관심을 두고 있는 의미 있는 정보를 추출하는 프로세스를 수행한다.

실시예에 따른 프로세서는 데이터 세트로부터 특정 기업의 관심사에 맞게 텍스트 전처리를 수행할 수 있다. S610에서, 프로세서는 데이터 세트를 정제(cleaning)할 수 있다. 데이터 정제는 데이터 세트로부터 노이즈를 제거하는 프로세스를 의미한다.

데이터 정제는 S620의 토큰화 프로세스에 방해가 되는 부분들을 배제시키고 토큰화 프로세스를 수행하기 위하여 토큰화 프로세스보다 앞서 이루어지거나 토큰화 프로세스 이후에 남아있는 노이즈를 제거하기 ?♧? 지속적으로 수행된다.

실시예에 따른 프로세서는, 제2 데이터의 문자열 내에서 빈도가 적은 문자, 의미가 없는 문자, 기호, 또는 불용어(stopword) 등을 제거하여 데이터를 정제할 수 있다. 여기서, 의미가 없는 문자는 불용어와 상이할 수 있으며, 불용어는 미리 설정된 패키지 내에서 정의될 수 있거나 개발자에 의하여 직접 정의될 수 있다.

S620에서, 프로세서는 정제된 데이터에 대한 토큰화 프로세스를 수행할 수 있다. 데이터 토큰화는 주어진 데이터 세트에서 토큰(token) 단위로 나누는 프로세스를 의미한다. 여기서, 토큰의 단위는 상황에 따라 달라질 수 있으나, 보통은 의미를 가지는 단위로 설정할 수 있다. 본 명세서에서는 단어를 토큰화의 단위로 하여 설명한다.

실시예에 따르면, 단어 토큰화(word tokenization)는 문자열 내의 문자를 의미를 가지는 가장 작은 단위인 단어로 토큰화하는 프로세스일 수 있다. 물론, 문자에서 의미를 가지는 가장 작은 단위는 형태소일 수 있으나, 형태소를 대체하여 단어를 단위로 하도록 설정할 수 있다.

실시예에 따른 프로세서는, 문자열 내에서 구두점을 지우고 띄어쓰기(whitespace)를 기준으로 잘라내어 토큰화 프로세스를 수행할 수 있다.

S630에서, 프로세서는 문자를 파싱(parsing)하여 단어를 추출할 수 있다. 파싱은 문장이나 토큰 스트림을 사용하는 프로세스일 수 있다. 프로세스는 파싱 프로세스를 수행하여 문장의 각 단어의 성분 구조를 이용해 그 구조를 결정할 수 있다.

실시예에 따르면, 프로세서는 문자를 파싱하여 단어를 추출하는 과정에서 어간(stem)을 추출할 수 있다. 어간 추출은 형태학적 분석을 단순화한 것으로, 정해진 규칙만으로 단어의 어미를 자르는 프로세스로 볼 수 있다. 어간 추출의 프로세스는 불용어를 제거하는데 활용될 수 있다.

S640에서, 프로세서는 정수 인코딩(integer encoding) 프로세스를 수행할 수 있다. 정수 인코딩은 파싱을 통해 추출한 개별 단어에 대해 고유의 정수를 부여하는 프로세스일 수 있다. 예를 들어, 프로세서는 “책”이라는 단어에는 “13”의 정수를 부여하고 “서랍”이라는 단어에는 “16”의 정수를 부여할 수 있다.

실시예에 따르면, 프로세서는 정수 인코딩 프로세스 수행 시 단어의 등장 빈도수를 기준으로 정수를 부여할 수 있다. 프로세서는 정수 인코딩 이후에 제로 패딩(zero-padding)과 원-핫 인코딩(one-hot encoding)을 통해 단어 집합(vocabulary) 분석을 위한 전처리 프로세스를 수행할 수 있다. 여기서, 단어 집합은 서로 다른 단어들의 집합을 의미한다.

원-핫 인코딩은 단어를 표혀나는 방식에 해당한다. 원-핫 인코딩은 단어 집합의 크기를 벡터의 차원으로 한다. 이 때, 표현하고자 하는 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여한다. 이렇게 표현된 벡터를 원-핫 벡터라고 하며, 프로세서는 원-핫 인코딩을 통해 문자열에서 추출하고자 하는 단어에 대한 정수와 벡터를 확인할 수 있다.

도 7은 본 개시의 다양한 실시예에 따른 기업 경영 성과 예측 데이터 및 기업경영 지표 데이터를 제공하는 개략적인 흐름도이다.

도 7을 참조하면, 프로세서(예: 도 2의 프로세서(210))는 데이터 세트에서 추출된 단어들로부터 피처를 확인할 수 있다. 프로세서는 데이터 세트를 기초로 추출한 단어의 등장 빈도와 그 빈도에 따른 가중치를 반영하여 데이터를 피처 벡터화하는 프로세스를 수행할 수 있다.

실시예에 따른 프로세서는 도 7의 피처 엔지니어링 프로세스를 수행하여 결괏값을 제공할 수 있다. 피처 엔지니어링은 로 데이터(raw data)를 데이터 마이닝 기법을 통해 피처로 만들어 머신 러닝 알고리즘의 성능을 향상시키는 일련의 과정일 수 있다.

S710에서, 프로세서는 데이터를 피처 벡터화하는 프로세스를 수행할 수 있다. 피처 벡터화는 가공된 텍스트에서 피처를 추출하고, 추출한 피처에 벡터값을 할당하는 프로세스이다.

실시예에 따른 프로세서는 특정 기업의 경영 성과와 관련된 데이터(예: 데이터 세트)로부터 피처를 추출하여, 추출한 피처의 특성에 대응시켜 벡터값을 할당할 수 있다. 이 경우, 프로세서가 BOW 모델을 통해 피처 벡터화를 수행하게 되면 희소 행렬 형태의 데이터 세트가 생성될 수 있다. 구체적으로, 프로세서는 특정 기업의 경영 성과와 관련된 데이터 세트에서 등장하는 빈도가 높은 단어에 대하여 가중치를 높게 부여하여 발생 빈도 값으로 구성된 벡터를 생성할 수 있다. 이 경우, 가중치는 등장 빈도에 비례하여 설정될 수 있으며, 카운트 값에 의해 결정될 수 있다.

S720에서, 프로세서는 피처 스케일링(feature scaling)을 수행할 수 있다. 피처 스켕일링은 독립 변수 또는 데이터 피처의 범위를 정규화하는데 사용되는 프로세스이다. 피처 스케일링은 데이터 정규화로 지칭될 수 있으며, 데이터 전처리와 피처 스케일링 프로세스에서 지속적으로 수행될 수 있다.

실시예에 따른 프로세서는, 리스케일링(re-scaling) 및 표준 정규화를 통해 피처 스케일링 프로세스를 수행할 수 있다. 구체적으로, 프로세서는 특정 기업의 기업 경영 성과와 관련된 데이터 세트에서 제1 데이터 및 제3 데이터를 리스케일링 및 표준 정규화할 수 있다.

리스케일링은 min-max 스케일링으로 지칭될 수 있다. 프로세서는 리스케일링을 통해 다양한 범주의 기업 경영 성과 데이터의 피처를 [0, 1] 또는 [-1, 1] 범위로 스케일링할 수 있다. 즉, 프로세서는 리스케일링을 통해 데이터를 동일한 수치 범위에 위치하도록 동일한 비율로 축소하거나 확대할 수 있다. 표준 정규화는 개별 피처가 평균이 0이고, 표준편차가 1인 분포로 만드는 프로세스이다.

S730에서, 프로세서는 피처 세트를 학인할 수 있다. 피처 세트는 제1 피처 세트와 제2 피처 세트를 포함한다. 프로세서는 제1 피처 세트를 활용하여 경영 성과 예측 데이터를 구성한다. 또한, 프로세서는 제2 피처 세트를 활용하여 경영 지표 데이터를 구성할 수 있다. S740에서, 프로세서는 개별 피처 세트를 활용하여 개별 결괏값을 통해 데이터를 제공할 수 있다.

실시예에 따르면, 메모리(예: 도 2의 메모리(230))는 기업 경영 성과 예측 데이터를 제공하기 위해 필요한 피처 세트인 제1 피처 세트와 관련된 정보를 저장할 수 있다. 또한, 메모리는 경영 지표 데이터를 제공하기 위해 필요한 피처 세트인 제2 피처 세트와 관련된 정보를 저장할 수 있다. 이에 따라, 프로세서는 메모리에 저장된 각각의 피처 세트를 활용하여 각각에 대응하는 결괏값을 제공할 수 있다.

실시예에 따르면, 프로세서는 의사 결정 나무(decision tree), 회귀 분석(regression analysis), ARIMA 등 회귀 분석 및 시계열 분석 알고리즘을 사용하여 분석할 결괏값들을 종합하여 기업 경영 성과 예측 데이터를 제공하는 앙상블 모델을 활용할 수 있다.

실시예에 따르면, 프로세서는 앙상블 모델을 통해 기업 경영 성과 예측 데이터를 제공할 수 있다. 이 경우, 프로세서는 제1 피처 세트를 활용한다. 앙상블 모델을 통해 예측값을 제공하는 수식을 일반화하면 아래의 수학식 (1)과 같다.

실시예에 따른 프로세서는 수학식 (1)에서의 예측값을 기업 경영 성과 예측 데이터로 출력하며, 입력값을 개별 데이터 세트로부터 추출한 피처로 삼을 수 있다.

실시예에 따르면, 프로세서는 모델 학습을 위한 목적 함수(objective function) obj와 손실 함수(loss function) l, 과적합(overfitting)을 방지하기 위한 정규화 함수(regularization function) w를 활용할 수 있다. 목적 함수, 손실 함수, 및 과적합의 관계식은 아래의 수학식 (2)와 같다.

상기 수학식 (2)에서, t번째 단계에서의 예측값 은 아래의 수학식 (3)과 같이 표현될 수 있다.

이에 따라, t번째 단계에서의 MSE(mean squared error) 형태의 목적 함수 obj^(t)를 아래의 수학식 (4)와 같이 표현할 수 있다.

실시예에 따른 프로세서는 수학식 (4)를 테일러 전개를 통해 처리할 수 있으며, 그 결과는 수학식 (5)와 같다.

이 경우, 프로세서는 수학식 (5)에서의 g_i 및 h_i를 아래의 수학식 (6)을 이용할 수 있다.

상기 수학식 (6)에서의 g_i 및 h_i는 테일러 전개에 의해 각각 손실 함수 l의 1차 및 2차 편미분 값이 된다. 이 때, 과 상수항(constant)는 이미 전 단계에서 계산한 값으로 알고 있는 값이기에 t단계에서의 목적 함수는 수학식 (7)과 같다.

실시예에 따른 프로세서가 상기 수학식 (1) 내지 (7)을 활용하여 제공하고자 하는 y_i는 기업 경영 성과 예측 데이터이다. 즉, 기업 경영 성가 예측 데이터는 기업의 주가 지수 데이터 및 기업의 자체 경영 지표 예측 데이터를 포함한다.

다른 실시예에 따르면, 프로세서는 제2 피처 세트를 활용하여 기업 경영 지표 데이터를 제공할 수 있다. 이 경우, 프로세서는 미리 설정된 통계 속성 분야인 재무 분야, 고객 분야, 프로세스 분야, 및 지속성 분야를 기준으로 제2 피처 세트에 대한 결괏값을 맵핑할 수 있다.

구체적으로, 프로세서는 미리 설정된 통계 속성 분야로 피처 엔지니어링 프로세스를 거친 데이터들을 맵핑하고, 개별 통계 속성 분야 별 통계값을 연산할 수 있다. 이를 통해, 프로세서는 특정 기업의 경영 성과 통계와 관련된 지표 데이터를 제공할 수 있다.

실시예에 따르면, 프로세서는 특정 기업의 기업 경영 지표 데이터를 제공할 수 있다. 기업 경영 지표 데이터는 통계 데이터이며, 미리 설정된 통계 속성 분야에 따라 결괏값이 제공된다. 미리 설정된 통계 속성 분야는 특정 기업의 내부 또는 외부 이해 관계자에게 정기 또는 비정기적으로 리커트 척도(Likert scale)로 응답받은 결과에 대응할 수 있다.

기업 경영 지표 데이터는 미리 설정된 통계 속성 분야에 대응하는 그래프 데이터, 상관 관계 데이터, 및 목표값과의 비교 데이터를 포함한다. 각각의 지표는 4개의 통계 속성 분야의 기초 통계량으로 표본수, 평균, 분산, 표준 편차, 최소값, 최대값, 중간값, 최빈값, 분위수 등의 수치와 그래프로 제공될 수 있다. 일 예를 들어, 기업 경영 지표 데이터를 쉽게 이해하기 위하여 개별 지표 간 상관 관계 데이터가 제공될 수 있다. 다른 예를 들어, 기업 경영 지표 데이터는 지표 별 목표 수준 설정 기준 및 현재의 수준을 산출하여 그 비교 결과에 대한 데이터를 포함한다.

도 8은 본 개시의 다양한 실시예에 따른 데이터 세트에 관한 예시도이다.

도 8은 특정 기업의 경영 전략 목표 및 측정 지표에 관한 예시적인 도면이다. 도 8을 참조하면, 프로세서(예: 도 2의 프로세서(210))는 도 8의 정형 데이터(예: 도 5의 정형 데이터(511))를 확인할 수 있다. 특히, 도 8에서는 프로세서를 통해 제공되는 경영 지표 데이터를 확인할 수 있다.

실시예에 따른 프로세서는 전략 영역에 대하여 미리 설정된 통계 속성 분야 중 재무 전략 분야(예: 재무 분야)에 대한 결괏값을 맵핑하여 제공할 수 있다. 여기서, 프로세서가 제공하는 재무 분야에 대한 결괏값은 제1 피처 세트를 기준으로 한 결괏값에 대응하는 예측값과 제2 피처 세트를 기준으로 맵핑한 결괏값에 대응하는 통계값을 포함한다.

실시예를 들어, 프로세서는 전략 목표, 측정 지표, 측정 결과, 목표 수준, 현재 수준의 개별 카테고리에 맵핑한 결괏값을 제공할 수 있다. 여기서, 전략 목표, 측정 지표, 측정 결과, 목표 수준, 현재 수준의 카테고라이징은 미리 설정되어 메모리(예: 도 2의 메모리(230))에 저장될 수 있다.

도 8을 참조하면, 프로세서는 전략 목표 카테고리 내의 매출 성장 전략(F1)과 생산성 향상(F2)의 하위 카테고리를 확인할 수 있다. 이 경우, 프로세서는 각각의 하위 카테고리에 대응하는 측정 지표의 하위 카테고리인 F1.1, F1.2, F2.1, F2.2, F2.3에 각각 맵핑되는 결괏값을 데이터 세트로부터 도출할 수 있다.

실시예에 따른 프로세서는 측정 결과에 대응하는 결괏값, 목표 수준에 대응하는 결괏값, 현재 수준에 대응하는 결괏값을 제공할 수 있다. 여기서, 측정 결과에 대응하는 결괏값은 프로세서가 제2 피처 세트를 기준으로 도출한 결괏값일 수 있으며, 현재 수준에 대응하는 결괏값 또한 제2 피처 세트를 기준으로 도출한 결괏값일 수 있다. 목표 수준에 대응하는 결괏값은 프로세서가 메모리로부터 로드한 데이터일 수 있다.

도 8에 도시되지는 않았으나, 프로세서는 기업 경영 성과 예측 데이터를 도 8과 유사한 방식으로 제공할 수 있다. 예를 들어, 프로세서는 데이터 세트에 대하여 피처 엔지니어링 프로세스를 수행한 이후, 추출한 피처 중 제1 피처 세트를 기준으로 앙상블 모델을 적용하여 해당 기업의 주가 지수 데이터 및 기업 경영 지표 인덱스에 대한 예측값을 제공할 수 있다.

프로세서를 통해 제공되는 기업 경영 성과 예측 데이터는 머신 러닝에 의하여 지속적으로 연산되는 결괏값이다. 따라서, 프로세서는 동일한 입력값(예: 데이터 세트)에 대하여 본 개시의 전처리 프로세스, 피처 엔지니어링 프로세스, 및 앙상블 모델의 적용을 통해 보다 정확한 예측 결과를 사용자(예: 도 1의 사용자 단말(400)의 사용자)에게 제공할 수 있다.

한편, 개시된 실시예들은 컴퓨터에 의해 실행 가능한 명령어를 저장하는 기록매체의 형태로 구현될 수 있다. 명령어는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 프로그램 모듈을 생성하여 개시된 실시예들의 동작을 수행할 수 있다. 기록매체는 컴퓨터로 읽을 수 있는 기록매체로 구현될 수 있다.

컴퓨터가 읽을 수 있는 기록매체로는 컴퓨터에 의하여 해독될 수 있는 명령어가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있을 수 있다.

이상에서와 같이 첨부된 도면을 참조하여 개시된 실시예들을 설명하였다. 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고도, 개시된 실시예들과 다른 형태로 본 개시가 실시될 수 있음을 이해할 것이다. 개시된 실시예들은 예시적인 것이며, 한정적으로 해석되어서는 안 된다.

100: 시스템
200: 경영 성과 예측 장치
300: 외부 장치
400: 사용자 단말

Claims

기업 경영 성과 예측 장치에 의해 수행되는 방법에 있어서,
정보 수집부에서 특정 기업의 내부 데이터 및 외부 데이터를 포함하는 데이터 세트를 획득하는 단계;
정보 분류부에서 상기 데이터 세트를 기초로 정형(structured) 데이터를 포함하는 제1 데이터 및 비정형(unstructured) 데이터를 포함하는 제2 데이터로 분류하는 단계;
정보 가공부에서 상기 제2 데이터를 상기 제1 데이터에 대응하는 정형 데이터인 제3 데이터로 가공하는 단계;
피처 추출부에서 상기 제1 데이터 및 상기 제3 데이터를 기초로 피처를 추출하는 단계; 및
상기 피처의 개별 특성에 대응하여, 미리 설정된 예측 모델을 통해 상기 특정 기업의 경영 성과 예측 데이터 및 미리 설정된 통계 속성 분야에 맵핑하여 상기 특정 기업의 경영 지표 데이터를 제공하는 단계를 포함하고,
상기 경영 성과 예측 데이터를 구성하는데 활용되는 제1 피처 세트를 확인하는 단계; 및
상기 미리 설정된 통계 속성 분야를 기준으로 상기 경영 지표 데이터를 구성하는데 활용되는 제2 피처 세트를 확인하는 단계를 더 포함하고,
상기 특정 기업의 경영 성과 예측 데이터를 제공하는 단계는,
상기 미리 설정된 모델을 통해 상기 제1 피처 세트에 대한 결괏값을 확인하고, 상기 제1 피처 세트에 대한 결괏값을 기초로 상기 특정 기업의 주가 지수 예측 데이터 및 경영 지표 예측 데이터를 포함하는 상기 경영 성과 예측 데이터를 제공하는 것이고,
상기 특정 기업의 경영 지표 데이터를 제공하는 단계는
상기 미리 설정된 통계 속성 분야를 상기 제2 피처 세트에 대한 결괏값을 맵핑하고, 상기 제2 피처 세트에 대한 결괏값을 기초로 상기 미리 설정된 통계 속성 분야에 대응하는 그래프 데이터, 상관 관계 데이터, 및 목표값과의 비교 데이터를 포함하는 경영 지표 데이터를 제공하는 것이고,
상기 미리 설정된 통계 속성 분야는,
상기 특정 기업에 대해 정기적 또는 비정기적으로 리커트 척도(Likert scale)로 응답받은 결과에 대응하는 것인, 경영 성과 예측 방법.
제1항에 있어서,
상기 데이터 세트를 획득하는 단계는,
상기 특정 기업의 경영 성과와 관련된 재무제표 데이터, 경영 측정 지표 데이터, 회의록 데이터, 업무 보고 데이터, 및 설문 데이터를 포함하는 내부 데이터를 획득하는 단계; 및
상기 특정 기업에 대한 온라인 기사 데이터, 영상 컨텐츠 데이터, 텍스트 컨텐츠 데이터, 외부 온라인 커뮤니티 게시글 데이터, 및 온라인 포털 데이터를 포함하는 외부 데이터를 획득하는 단계를 포함하는, 경영 성과 예측 방법.
제1항에 있어서,
상기 제3 데이터로 가공하는 단계는,
상기 제2 데이터의 문자열을 확인하는 단계; 및
상기 제2 데이터의 문자열을 기초로 정보 추출, 문자 토큰화, 및 단어(word) 추출의 전처리를 수행하는 단계를 포함하는, 경영 성과 예측 방법.
제3항에 있어서,
상기 전처리하는 단계는,
상기 제2 데이터의 문자열 내에서 빈도가 적은 문자, 의미가 없는 문자, 기호, 또는 불용어를 제거하여 데이터를 정제하는 단계;
상기 제2 데이터의 문자열 내의 문자를 의미를 가지는 가장 작은 단위로 토큰화하는 단계;
토큰화된 문자를 파싱(parsing)하여 단어를 추출하는 단계; 및
상기 제2 데이터의 문자열 내에서 상기 단어가 추출되는 빈도를 고려하여 정수 인코딩을 수행하는 단계를 포함하는, 경영 성과 예측 방법.
제1항에 있어서,
상기 피처를 추출하는 단계는,
상기 제1 데이터 및 상기 제3 데이터 내의 단어 추출 빈도와 상기 빈도에 따른 가중치를 고려하여 상기 제1 데이터 및 상기 제3 데이터를 피처 벡터화하는 단계를 포함하는, 경영 성과 예측 방법.
제5항에 있어서,
상기 피처를 추출하는 단계는,
상기 피처 벡터화 이후, 상기 제1 데이터 및 상기 제3 데이터를 리스케일링(re-scaling) 및 표준 정규화를 통해 피처 스케일링하는 단계를 포함하는, 경영 성과 예측 방법.
제1항에 있어서,
상기 미리 설정된 모델은,
XGB(extreme gradient boosting) 방식으로 CART(classification and regression trees) 모델로 구성되는, 경영 성과 예측 방법.
제1항에 있어서,
상기 미리 설정된 통계 속성 분야는,
재무 분야, 고객 분야, 프로세스 분야, 및 지속성 분야를 포함하는, 경영 성과 예측 방법.
통신부;
메모리; 및
프로세서를 포함하고,
상기 프로세서는,
상기 메모리로부터 정보 수집부를 통해 특정 기업의 내부 데이터 및 외부 데이터를 포함하는 데이터 세트를 획득하고,
정보 분류부에서 상기 데이터 세트를 기초로 정형(structured) 데이터를 포함하는 제1 데이터 및 비정형(unstructured) 데이터를 포함하는 제2 데이터로 분류하고,
정보 가공부에서 상기 제2 데이터를 상기 제1 데이터에 대응하는 정형 데이터인 제3 데이터로 가공하고,
피처 추출부에서 상기 제1 데이터 및 상기 제3 데이터를 기초로 피처를 추출하고,
상기 피처의 개별 특성에 대응하여, 미리 설정된 예측 모델을 통해 상기 특정 기업의 경영 성과 예측 데이터 및 미리 설정된 통계 속성 분야에 맵핑하여 상기 특정 기업의 경영 지표 데이터를 제공하고,
상기 프로세서는,
상기 피처를 추출할 시,
상기 경영 성과 예측 데이터를 구성하는데 활용되는 제1 피처 세트를 확인하고, 상기 미리 설정된 통계 속성 분야를 기준으로 상기 경영 지표 데이터를 구성하는데 활용되는 제2 피처 세트를 확인하고,
상기 특정 기업의 경영 성과 예측 데이터를 제공할 시,
상기 미리 설정된 모델을 통해 상기 제1 피처 세트에 대한 결괏값을 확인하고, 상기 제1 피처 세트에 대한 결괏값을 기초로 상기 특정 기업의 주가 지수 예측 데이터 및 경영 지표 예측 데이터를 포함하는 상기 경영 성과 예측 데이터를 제공하고,
상기 특정 기업의 경영 지표 데이터를 제공할 시,
상기 미리 설정된 통계 속성 분야를 상기 제2 피처 세트에 대한 결괏값을 맵핑하고, 상기 제2 피처 세트에 대한 결괏값을 기초로 상기 미리 설정된 통계 속성 분야에 대응하는 그래프 데이터, 상관 관계 데이터, 및 목표값과의 비교 데이터를 포함하는 경영 지표 데이터를 제공하고,
상기 미리 설정된 통계 속성 분야는,
상기 특정 기업에 대해 정기적 또는 비정기적으로 리커트 척도(Likert scale)로 응답받은 결과에 대응하는 것인, 기업 경영 성과 예측 장치.
컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램으로서, 상기 컴퓨터 프로그램은 하나 이상의 프로세서에서 실행되는 경우, 기업 경영 성과 예측 장치에 의해 수행되는 방법을 수행하기 위한 이하의 동작들을 수행하도록 하며,
상기 동작들은,
정보 수집부에서 특정 기업의 내부 데이터 및 외부 데이터를 포함하는 데이터 세트를 획득하는 단계;
정보 분류부에서 상기 데이터 세트를 기초로 정형(structured) 데이터를 포함하는 제1 데이터 및 비정형(unstructured) 데이터를 포함하는 제2 데이터로 분류하는 단계;
정보 가공부에서 상기 제2 데이터를 상기 제1 데이터에 대응하는 정형 데이터인 제3 데이터로 가공하는 단계;
피처 추출부에서 상기 제1 데이터 및 상기 제3 데이터를 기초로 피처를 추출하는 단계; 및
상기 피처의 개별 특성에 대응하여, 미리 설정된 예측 모델을 통해 상기 특정 기업의 경영 성과 예측 데이터 및 미리 설정된 통계 속성 분야에 맵핑하여 상기 특정 기업의 경영 지표 데이터를 제공하는 단계를 포함하고,
상기 피처를 추출하는 단계는,
상기 경영 성과 예측 데이터를 구성하는데 활용되는 제1 피처 세트를 확인하는 단계; 및
상기 미리 설정된 통계 속성 분야를 기준으로 상기 경영 지표 데이터를 구성하는데 활용되는 제2 피처 세트를 확인하는 단계를 더 포함하고,
상기 특정 기업의 경영 성과 예측 데이터를 제공하는 단계는,
상기 미리 설정된 모델을 통해 상기 제1 피처 세트에 대한 결괏값을 확인하고, 상기 제1 피처 세트에 대한 결괏값을 기초로 상기 특정 기업의 주가 지수 예측 데이터 및 경영 지표 예측 데이터를 포함하는 상기 경영 성과 예측 데이터를 제공하는 것이고,
상기 특정 기업의 경영 지표 데이터를 제공하는 단계는
상기 미리 설정된 통계 속성 분야를 상기 제2 피처 세트에 대한 결괏값을 맵핑하고, 상기 제2 피처 세트에 대한 결괏값을 기초로 상기 미리 설정된 통계 속성 분야에 대응하는 그래프 데이터, 상관 관계 데이터, 및 목표값과의 비교 데이터를 포함하는 경영 지표 데이터를 제공하는 것이고,
상기 미리 설정된 통계 속성 분야는,
상기 특정 기업에 대해 정기적 또는 비정기적으로 리커트 척도(Likert scale)로 응답받은 결과에 대응하는 것인, 컴퓨터 프로그램.