KR102645672B1 - Bems 내 고품질 데이터 확보를 위한 건물 에너지사용량 실시간 전처리 장치 및 방법 - Google Patents

Bems 내 고품질 데이터 확보를 위한 건물 에너지사용량 실시간 전처리 장치 및 방법 Download PDF

Info

Publication number
KR102645672B1
KR102645672B1 KR1020230141976A KR20230141976A KR102645672B1 KR 102645672 B1 KR102645672 B1 KR 102645672B1 KR 1020230141976 A KR1020230141976 A KR 1020230141976A KR 20230141976 A KR20230141976 A KR 20230141976A KR 102645672 B1 KR102645672 B1 KR 102645672B1
Authority
KR
South Korea
Prior art keywords
data
model
energy usage
bems
derived
Prior art date
Application number
KR1020230141976A
Other languages
English (en)
Inventor
이태동
박원장
최민호
양수현
서무경
최한성
임혜미
박소정
한기범
박소연
Original Assignee
주식회사 에코시안
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 에코시안 filed Critical 주식회사 에코시안
Priority to KR1020230141976A priority Critical patent/KR102645672B1/ko
Application granted granted Critical
Publication of KR102645672B1 publication Critical patent/KR102645672B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • G06F18/15Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/18Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits
    • G06F11/183Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits by voting, the voting not being performed by the redundant components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • G06F11/3075Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting the data filtering being achieved in order to maintain consistency among the monitored data, e.g. ensuring that the monitored data belong to the same timeframe, to the same system or component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명의 일 실시예에 따른 BEMS 내 고품질 데이터 확보를 위한 건물 에너지사용량 실시간 전처리 장치는 원천데이터의 수집에서부터 전체 에너지사용량 및 외부환경(기상)변수의 극단치 제거 및 취합하는 데이터 전처리부; 복수의 후보 회귀모델을 생성하여, 상기 전처리부에서 도출된 데이터의 학습 성능의 책정 및 보팅방식을 통한 최종모델을 도출하여 사전학습하는 모델 형성부; 및 상기 데이터 전처리부에서 도출된 데이터를 상기 모델 형성부에서 도출된 대체 모델에 학습하여 적합된 값을 미결측 구간에 대체하여 정제하는 모델 활용부를 포함한다.

Description

BEMS 내 고품질 데이터 확보를 위한 건물 에너지사용량 실시간 전처리 장치 및 방법{System and method for real-time pretreatment of building energy consumption to secure high-quality data in BEMS}
본 발명은 BMES 내 고품질 데이터 확보를 위한 건물 에너지사용량 실시간 전처리 장치 및 방법에 관한 것이다.
기존 건물에너지관리시스템(Building Energy Management System; BEMS)의 에너지사용량 데이터는 대상 건축물 내에서 상시 발생되는 에너지사용량을 일정 주기의 계측을 통해 수집이 이뤄지나, 다양한 요인에 의해 결측 또는 이상치가 발생할 수 있다. 하지만, 현재는 이에 대한 조치가 별도로 이뤄지지 않거나, 결측된 데이터의 제외까지만을 수행하는 실정이다.
따라서, BEMS 내 성과검증(Measurement and verification; M&V), 에너지 사용량 예측 등 에너지 사용량을 인자로 한 심층적인 분석 기능 측면에서 품질의 저하 또는, 모니터링 기능의 사용자가 불편감을 가질 위험이 있다.
등록특허공보 10-2470763
본 발명이 해결하고자 하는 과제는 종래의 문제점을 해결할 수 있는 BEMS 내 고품질 데이터 확보를 위한 건물 에너지사용량 실시간 전처리 장치 및 방법을 제공하는 데 그 목적이 있다.
상기 과제를 해결하기 위한 본 발명의 일 실시예에 따른 BEMS 내 고품질 데이터 확보를 위한 건물 에너지사용량 실시간 전처리 장치는 원천데이터의 수집에서부터 전체 에너지사용량 및 외부환경(기상)변수의 극단치 제거 및 취합하는 데이터 전처리부; 복수의 후보 회귀모델을 생성하여, 상기 전처리부에서 도출된 데이터의 학습 성능의 책정 및 보팅방식을 통한 최종모델을 도출하여 사전학습하는 모델 형성부; 및 상기 데이터 전처리부에서 도출된 데이터를 상기 모델 형성부에서 도출된 대체 모델에 학습하여 적합된 값을 미결측 구간에 대체하여 정제하는 모델 활용부를 포함한다.
일 실시예에서, 상기 데이터 처리부는 에너지사용량 데이터의 극단치 식별 및 처리 과정은 실제 이상 사용량의 구분이 아닌, 계측기기의 오류 및 통신 불량 등에 따른 극단 값을 하기의 식 1을 통해 식별하여, 제외하기 위함임에 따라, 시간대별 분포를 가정하여, 계수를 1.722로 설정한 Tukey 기법을 통해 상·하한 임계치의 산출 및 임계 범위(상·하한 임계치)를 이탈하였을 경우 잡음(또는 이상치)으로 간주하여 결측으로 처리하는 것을 특징으로 한다.
[식 1]
여기서, Tukey 기법은 인자별 집단데이터의 사분위 범위를 활용하여 IQR(3분위수 - 1분위수)를 산출 및 상·하한 임계치를 도출하는 기법이다.
일 실시예에서, 상기 데이터 전처리부는 극단치 식별 시, 판단 근거는 기상관측자료의 품질등급 기준 및 절차(제 2022-9호) 제4조 제 2항에 기준하여 이뤄지는 것을 특징으로 한다.
일 실시예에서, 상기 데이터 전처리부는 오·결측치 판단 시, 이에 대한 처리는 식별된 기간이 1시간 이하일 경우, 통계처리(전후 평균 또는 최근값 대체)를 진행하며, 1시간을 초과할 경우, 인접한 기상청 지점 데이터를 활용하여 0.7 이상의 상관성(피어슨 상관 계수 (Pearson Correlation Coefficient: PCC))을 가진 지점 중, 가장 높은 상관성을 가진 지점의 값으로 대체하나, 0.7을 넘는 지점이 존재하지 않을 경우, 역거리 가중 보간법(Inverse Distance Weighted; IDW)을 활용하는 것을 특징으로 한다.
일 실시예에서, 상기 모델 형성부는 상기 복수의 후보 회귀모델을 학습시에 출력변수는 데이터 내, 에너지사용량 컬럼을 사용하고, 입력변수는 환경변수(외기 온도/습도/일사량) 및 시간 특성 컬럼을 활용하는 것을 특징으로 한다.
일 실시예에서, 상기 모델 형성부는 교차검증을 통한 모델별 회귀성능 도출시에, 교차검증 방식을 통하여 도출된 k개의 성능지표를 평균하여 책정하고, 회귀성능 지표는 RMSE를 사용하고, 교차검증을 통해 도출된 복수의 회귀모형별 평균 RMSE 리스트를 기반으로 보팅 방식을 통해 최종모델을 형성하는 것을 특징으로 한다.
일 실시예에서, 상기 모델 활용부는 상기 데이터 전처리부에서 이동된 데이터의 결측 행을 추출하고, 결측된 구간의 입력변수만을 입력하였을 시의 출력된 적합 값을 BEMS 서버의 데이터베이스(DB)로 삽입하여 결측된 구간을 전처리하는 구성인 것을 특징으로 한다.
상기 과제를 해결하기 위한 본 발명의 일 실시예에 따른 BEMS 내 고품질 데이터 확보를 위한 건물 에너지사용량 실시간 전처리 방법은 데이터 전처리부에서 원천데이터의 수집에서부터 전체 에너지사용량 및 외부환경(기상)변수의 극단치 제거 및 취합하는 단계; 모델 형성부에서 복수의 후보 회귀모델을 생성하여, 상기 전처리부에서 도출된 데이터의 학습 성능의 책정 및 보팅방식을 통한 최종모델을 도출하여 사전학습하는 단계; 및 모델 활용부가 상기 데이터 전처리부에서 도출된 데이터를 상기 모델 형성부에서 도출된 대체 모델에 학습하여 적합된 값을 미결측 구간에 대체하여 정제하는 단계를 포함한다.
일 실시예에서, 상기 극단치 제거 및 취합하는 단계는 실제 이상 사용량의 구분이 아닌, 계측기기의 오류 및 통신 불량 등에 따른 극단 값을 하기의 식 1을 통해 식별하여, 제외하기 위함임에 따라, 시간대별 분포를 가정하여, 계수를 1.722로 설정한 Tukey 기법을 통해 상·하한 임계치의 산출 및 임계 범위(상·하한 임계치)를 이탈하였을 경우 잡음(또는 이상치)으로 간주하여 결측으로 처리하는 단계를 포함하는 것을 특징으로 한다.
[식 1]
여기서, Tukey 기법은 인자별 집단데이터의 사분위 범위를 활용하여 IQR(3분위수 - 1분위수)를 산출 및 상·하한 임계치를 도출하는 기법이다.
일 실시예에서, 상기 극단치 제거 및 취합하는 단계는 상기 데이터 전처리부가 오·결측치 판단 시, 이에 대한 처리는 식별된 기간이 1시간 이하일 경우, 통계처리(전후 평균 또는 최근값 대체)를 진행하며, 1시간을 초과할 경우, 인접한 기상청 지점 데이터를 활용하여 0.7 이상의 상관성(피어슨 상관 계수 (Pearson Correlation Coefficient: PCC))을 가진 지점 중, 가장 높은 상관성을 가진 지점의 값으로 대체하나, 0.7을 넘는 지점이 존재하지 않을 경우, 역거리 가중 보간법(Inverse Distance Weighted; IDW)을 활용하는 단계를 포함하는 것을 특징으로 한다.
일 실시예에서, 상기 최종모델을 도출하여 사전학습하는 단계는 상기 모델 형성부에서 상기 복수의 후보 회귀모델을 학습시에 출력변수는 데이터 내, 에너지사용량 컬럼을 사용하고, 입력변수는 환경변수(외기 온도/습도/일사량) 및 시간 특성 컬럼을 활용하는 단계를 포함하는 것을 특징으로 한다.
일 실시예에서, 상기 최종모델을 도출하여 사전학습하는 단계는 상기 모델 형성부에서 교차검증을 통한 모델별 회귀성능 도출시에, 교차검증 방식을 통하여 도출된 k개의 성능지표를 평균하여 책정하고, 회귀성능 지표는 RMSE를 사용하고, 교차검증을 통해 도출된 복수의 회귀모형별 평균 RMSE 리스트를 기반으로 보팅 방식을 통해 최종모델을 형성하는 단계를 포함하는 것을 특징으로 한다.
본 발명의 일 실시예에 따른 BEMS 내 고품질 데이터 확보를 위한 건물 에너지사용량 실시간 전처리 장치 및 방법을 이용하면, 외부환경(외기 온/습도, 일사량 등) 및 시간적 요인을 고려한 기계학습 모델을 도출하고 이를 실시간으로 활용하여 데이터 품질 저하 가능성을 최소화하고 에너지사용량 데이터의 분석 용이성을 확보할 수 있어, 건물의 에너지사용량 데이터의 전처리 과정 중 결측 또는 잡음(Noise)을 효과적으로 처리할 수 있다는 이점이 있다.
도 1은 본 발명의 일 실시예에 따른 BEMS 내 고품질 데이터 확보를 위한 건물 에너지사용량 실시간 전처리 장치의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 BEMS 내 고품질 데이터 확보를 위한 건물 에너지사용량 실시간 전처리 방법을 설명한 흐름도이다.
도 3은 도 2에 도시된 S710 과정의 세부 흐름도이다.
도 4는 도 2에 도시된 S720 과정의 세부 흐름도이다.
도 5는 도 2에 도시된 S730 과정의 세부 흐름도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며, 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이하, 첨부된 도면들에 기초하여 본 발명의 일 실시예에 따른 BEMS 내 고품질 데이터 확보를 위한 건물 에너지사용량 실시간 전처리 장치 및 방법을 보다 상세하게 설명하도록 한다.
도 1은 본 발명의 일 실시예에 따른 BEMS 내 고품질 데이터 확보를 위한 건물 에너지사용량 실시간 전처리 장치의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 BEMS 내 고품질 데이터 확보를 위한 건물 에너지사용량 실시간 전처리 방법을 설명한 흐름도이고, 도 3은 도 2에 도시된 S710 과정의 세부 흐름도이고, 도 4는 도 2에 도시된 S720 과정의 세부 흐름도이고, 도 5는 도 2에 도시된 S730 과정의 세부 흐름도이다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 BEMS 내 고품질 데이터 확보를 위한 건물 에너지사용량 실시간 전처리 장치(100)는 외부 기상변수 등을 입력변수로 하였을 때, 건물의 과거 에너지사용량 패턴을 가장 적절하게 학습한 기계학습 회귀모델을 도출하고, 사전학습의 진행을 통해 전처리 및 정제 과정이 실시간으로 이뤄지도록 하기 위한 발명이다.
상기 BEMS 내 고품질 데이터 확보를 위한 건물 에너지사용량 실시간 전처리 장치(100)는 데이터 전처리부(110), 모델 형성부(120) 및 모델 활용부(130)를 포함한다.
각 구성은 에너지사용량 데이터를 종속 인자로 한 회귀모델의 사전학습 유무에 따라, 필요한 절차가 구분된다.
사전학습이 이뤄지지 못하였을 경우, 건물별 에너지사용 패턴을 가장 잘 학습한 모델을 도출하여 사전학습을 진행하는 모듈인 모델 형성부 실행의 선행이 필요 하고, 사전학습이 이뤄졌을 경우, 상기 모델 형성부의 동작과정은 불필요하다.
보다 구체적으로, 상기 데이터 전처리부(110)는 원천데이터의 수집에서부터 전체 에너지사용량 및 외부환경(기상)변수의 극단치 제거 및 취합하는 구성일 수 있다.
상기 데이터 전처리부(110)는 도 3을 참조, 에너지사용량 데이터의 극단치 식별 및 처리 과정은 실제 이상 사용량의 구분이 아닌, 계측기기의 오류 및 통신 불량 등에 따른 극단 값을 하기의 식 1을 통해 식별하여, 제외하기 위함임에 따라, 시간대별 분포를 가정하여, 계수를 1.722로 설정한 Tukey 기법을 통해 상·하한 임계치의 산출 및 임계 범위(상·하한 임계치)를 이탈하였을 경우 잡음(또는 이상치)으로 간주하여 결측으로 처리한다.
[식 1]
여기서, Tukey 기법은 인자별 집단데이터의 사분위 범위를 활용하여 IQR(3분위수 - 1분위수)를 산출 및 상·하한 임계치를 도출하는 기법이다.
①상한 임계치: 3분위수 + 계수 × IQR,② 하한 임계치: 1분위수 - 계수 × IQR
외부 환경변수는 에너지사용량 정제 모델의 입력변수로써, 건물 외부에서 수집되는 외기 온·습도 등의 외부 기상변수를 의미하며, 자체 수집 혹은 기상청 데이터가 활용될 수 있다. 환경변수 또한 마찬가지로, 오·결측치의 식별 및 처리가 필요하나, 용도적 측면에서의 주된 차이는 본 발명의 주요 전처리 변수인 에너지사용량 패턴 학습 성능 향상을 유도하기 위한 점에서 있다.
극단치 식별 시, 판단 근거는 기상관측자료의 품질등급 기준 및 절차(제 2022-9호) 제4조 제 2항에 기준하여 이뤄진다. 참고로, 기상 데이터 극단치 식별 기준(기상청 고시에 따른 관측값의 물리적 허용범위)은 하기의 표 1과 같다.
기상요소 허용범위
기온 -40~60℃
일누적강수량 0~1,800㎜
강수유무 0, 10
풍향 0~360°
풍속 0~75㎧
기압 500~1,080hPa
상대습도 1~100%
일누적일사 0~45MJ/㎡
일누적일조 0~54,000s
오·결측치 판단 시, 이에 대한 처리는 식별된 기간이 1시간 이하일 경우, 통계처리(전후 평균 또는 최근값 대체)를 진행하며, 1시간을 초과할 경우, 인접한 기상청 지점 데이터를 활용하여 0.7 이상의 상관성(피어슨 상관 계수 (Pearson Correlation Coefficient: PCC))을 가진 지점 중, 가장 높은 상관성을 가진 지점의 값으로 대체하나, 0.7을 넘는 지점이 존재하지 않을 경우, 역거리 가중 보간법(Inverse Distance Weighted; IDW)을 활용한다.
참고로, 하기의 식 2는 피어슨 상관계수(PCC)을 산출하는 식이고, 하기의 식 3은 역거리 가중 보간법 공식이다.
[식 2]
[식 3]
상기 데이터 전처리부(110)는 데이터의 수집, 극단치 처리가 이뤄진 값들을 테이블 형태로 취합한다.
다음으로, 상기 모델 형성부(120)는 도 4를 참조, 복수의 후보 회귀모델을 생성하여, 상기 전처리부(110)에서 도출된 데이터의 학습 성능의 책정 및 보팅방식을 통한 최종모델을 도출하여 사전학습하는 구성일 수 있다.
보다 구체적으로, 상기 모델 형성부(120)는 건물의 상황에 따라, 적절한 모델을 자동으로 탐색하도록 하기 위한 알고리즘으로, 모델 형성부를 거치지 않았거나, 모델의 갱신을 위한 경우에 한하여서만 필요하다.
본 발명 내의 실시간 에너지사용량 데이터는 연속성을 갖는 시계열 데이터임에 따라, 복수의 후보 모형은 회귀모형에 해당돼야 한다.
복수의 회귀모형들의 학습에서, Y(출력변수)는 데이터 내, 에너지사용량 컬럼이고, X(입력변수)는 환경변수(외기 온도/습도/일사량) 및 시간 특성 컬럼이 활용된다.
여기서, 교차검증을 통한 모델별 회귀성능 도출은 교차검증 방식을 통하여 도출된 k개의 성능지표를 평균하여 책정한다. 이때, 회귀성능 지표는 RMSE를 사용된다.
교차검증을 통해 도출된 복수의 회귀모형별 평균 RMSE 리스트를 기반으로 보팅 방식을 통해 최종모델을 형성하고, 도출된 최종모델은 대체 모델(Impute Model)로써, 상시 실행이 가능할 수 있도록 BEMS 서버 내에 저장 후 종료된다.
참고로, 교차검증을 통한 RMSE 산출 식은 하기의 식과 같다.
다음으로, 모델 활용부(130)는 도 5를 참조, 상기 데이터 전처리부(110)에서 도출된 데이터를 상기 모델 형성부에서 도출된 대체 모델에 학습하여 적합된 값을 미결측 구간에 대체하여 정제하는 구성일 수 있다.
여기서, 모델 활용부(130)는 데이터 전처리부(110)에서 이동된 데이터의 결측 행을 추출하고, 결측된 구간의 입력변수만을 입력하였을 시의 출력된 적합 값을 BEMS 서버의 데이터베이스(DB)로 삽입하여 결측된 구간을 전처리하는 구성일 수 있다.
도 2 내지 도 5를 참조하면, 본 발명의 일 실시예에 따른 BEMS 내 고품질 데이터 확보를 위한 건물 에너지사용량 실시간 전처리 방법(S700)은 데이터 전처리부(110)에서 원천데이터의 수집에서부터 전체 에너지사용량 및 외부환경(기상)변수의 극단치 제거 및 취합(S710)하고, 모델 형성부(120)에서 복수의 후보 회귀모델을 생성하여, 상기 전처리부에서 도출된 데이터의 학습 성능의 책정 및 보팅방식을 통한 최종모델을 도출하여 사전학습(S720)하면, 모델 활용부(130)에서 상기 데이터 전처리부(110)에서 도출된 데이터를 상기 모델 형성부(120)에서 도출된 대체 모델에 학습하여 적합된 값을 미결측 구간에 대체하여 정제(S730)하는 과정을 포함한다.
보다 구체적으로, 상기 S710 과정은 실제 이상 사용량의 구분이 아닌, 계측기기의 오류 및 통신 불량 등에 따른 극단 값을 하기의 식 1을 통해 식별하여, 제외하기 위함임에 따라, 시간대별 분포를 가정하여, 계수를 1.722로 설정한 Tukey 기법을 통해 상·하한 임계치의 산출 및 임계 범위(상·하한 임계치)를 이탈하였을 경우 잡음(또는 이상치)으로 간주하여 결측으로 처리하는 단계를 포함할 수 있다.
[식 1]
여기서, Tukey 기법은 인자별 집단데이터의 사분위 범위를 활용하여 IQR(3분위수 - 1분위수)를 산출 및 상·하한 임계치를 도출하는 기법이다.
또한, 상기 S710 과정은 전처리부가 오·결측치 판단 시, 이에 대한 처리는 식별된 기간이 1시간 이하일 경우, 통계처리(전후 평균 또는 최근값 대체)를 진행하며, 1시간을 초과할 경우, 인접한 기상청 지점 데이터를 활용하여 0.7 이상의 상관성(피어슨 상관 계수 (Pearson Correlation Coefficient: PCC))을 가진 지점 중, 가장 높은 상관성을 가진 지점의 값으로 대체하나, 0.7을 넘는 지점이 존재하지 않을 경우, 역거리 가중 보간법(Inverse Distance Weighted; IDW)을 활용하는 단계를 포함한다.
다음으로, 상기 S720 과정은 상기 모델 형성부에서 상기 복수의 후보 회귀모델을 학습시에 출력변수는 데이터 내, 에너지사용량 컬럼을 사용하고, 입력변수는 환경변수(외기 온도/습도/일사량) 및 시간 특성 컬럼을 활용하는 단계로서, 상기 모델 형성부에서 교차검증을 통한 모델별 회귀성능 도출시에, 교차검증 방식을 통하여 도출된 k개의 성능지표를 평균하여 책정하고, 회귀성능 지표는 RMSE를 사용하고, 교차검증을 통해 도출된 복수의 회귀모형별 평균 RMSE 리스트를 기반으로 보팅 방식을 통해 최종모델을 형성하는 과정을 포함할 수 있다.
따라서, 본 발명의 일 실시예에 따른 BEMS 내 고품질 데이터 확보를 위한 건물 에너지사용량 실시간 전처리 장치 및 방법을 이용하면, 외부환경(외기 온/습도, 일사량 등) 및 시간적 요인을 고려한 기계학습 모델을 도출하고 이를 실시간으로 활용하여 데이터 품질 저하 가능성을 최소화하고 에너지사용량 데이터의 분석 용이성을 확보할 수 있어, 건물의 에너지사용량 데이터의 전처리 과정 중 결측 또는 잡음(Noise)을 효과적으로 처리할 수 있다는 이점이 있다.
이상에서 설명된 시스템 또는 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(Field Programmable Gate Array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
100: BEMS 내 고품질 데이터 확보를 위한 건물 에너지사용량 실시간 전처리 장치
110: 전처리부
120: 모델 형성부
130: 모델 활용부

Claims (12)

  1. 원천데이터의 수집에서부터 전체 에너지사용량 및 외부환경(기상)변수의 극단치 제거 및 취합하는 데이터 전처리부;
    복수의 후보 회귀모델을 생성하여, 상기 전처리부에서 도출된 데이터의 학습 성능의 책정 및 보팅방식을 통한 최종모델을 도출하여 사전학습하는 모델 형성부;
    상기 데이터 전처리부에서 도출된 데이터를 상기 모델 형성부에서 도출된 대체 모델에 학습하여 적합된 값을 미결측 구간에 대체하여 정제하는 모델 활용부를 포함하고,
    상기 데이터 전처리부는
    에너지사용량 데이터의 극단치 식별 및 처리 과정은 실제 이상 사용량의 구분이 아닌, 계측기기의 오류 및 통신 불량 등에 따른 극단 값을 하기의 식 1을 통해 식별하여, 제외하기 위함임에 따라, 시간대별 분포를 가정하여, 계수를 1.722로 설정한 Tukey 기법을 통해 상하한 임계치의 산출 및 임계 범위(상·하한 임계치)를 이탈하였을 경우 잡음(또는 이상치)으로 간주하여 결측으로 처리하고,
    오·결측치 판단 시, 이에 대한 처리는 식별된 기간이 1시간 이하일 경우, 통계처리(전후 평균 또는 최근값 대체)를 진행하며,
    1시간을 초과할 경우, 인접한 기상청 지점 데이터를 활용하여 0.7 이상의 상관성(피어슨 상관 계수 (Pearson Correlation Coefficient: PCC))을 가진 지점 중, 가장 높은 상관성을 가진 지점의 값으로 대체하나, 0.7을 넘는 지점이 존재하지 않을 경우, 역거리 가중 보간법(Inverse Distance Weighted; IDW)을 활용하는 것을 특징으로 하는,
    BEMS 내 고품질 데이터 확보를 위한 건물 에너지사용량 실시간 전처리 장치.
    [식 1]

    여기서, Tukey 기법은 인자별 집단데이터의 사분위 범위를 활용하여 IQR(3분위수 - 1분위수)를 산출 및 상*하한 임계치를 도출하는 기법이다.
  2. 삭제
  3. 제1항에 있어서,
    상기 데이터 전처리부는
    극단치 식별 시, 판단 근거는 기상관측자료의 품질등급 기준 및 절차(제 2022-9호) 제4조 제 2항에 기준하여 이뤄지는 것을 특징으로 하는,
    BEMS 내 고품질 데이터 확보를 위한 건물 에너지사용량 실시간 전처리 장치.
  4. 삭제
  5. 제1항에 있어서,
    상기 모델 형성부는
    상기 복수의 후보 회귀모델을 학습시에 출력변수는 데이터 내, 에너지사용량 컬럼을 사용하고, 입력변수는 환경변수(외기 온도/습도/일사량) 및 시간 특성 컬럼을 활용하는 것을 특징으로 하는,
    BEMS 내 고품질 데이터 확보를 위한 건물 에너지사용량 실시간 전처리 장치.
  6. 제5항에 있어서,
    상기 모델 형성부는
    교차검증을 통한 모델별 회귀성능 도출시에, 교차검증 방식을 통하여 도출된 k개의 성능지표를 평균하여 책정하고, 회귀성능 지표는 RMSE를 사용하고,
    교차검증을 통해 도출된 복수의 회귀모형별 평균 RMSE 리스트를 기반으로 보팅 방식을 통해 최종모델을 형성하는 것을 특징으로 하는,
    BEMS 내 고품질 데이터 확보를 위한 건물 에너지사용량 실시간 전처리 장치.
  7. 제6항에 있어서,
    상기 모델 활용부는
    상기 데이터 전처리부에서 이동된 데이터의 결측 행을 추출하고, 결측된 구간의 입력변수만을 입력하였을 시의 출력된 적합 값을 BEMS 서버의 데이터베이스(DB)로 삽입하여 결측된 구간을 전처리하는 구성인 것을 특징으로 하는,
    BEMS 내 고품질 데이터 확보를 위한 건물 에너지사용량 실시간 전처리 장치.
  8. 데이터 전처리부에서 원천데이터의 수집에서부터 전체 에너지사용량 및 외부환경(기상)변수의 극단치 제거 및 취합하는 단계;
    모델 형성부에서 복수의 후보 회귀모델을 생성하여, 상기 전처리부에서 도출된 데이터의 학습 성능의 책정 및 보팅방식을 통한 최종모델을 도출하여 사전학습하는 단계; 및
    모델 활용부가 상기 데이터 전처리부에서 도출된 데이터를 상기 모델 형성부에서 도출된 대체 모델에 학습하여 적합된 값을 미결측 구간에 대체하여 정제하는 단계를 포함하고,
    상기 극단치 제거 및 취합하는 단계는
    실제 이상 사용량의 구분이 아닌, 계측기기의 오류 및 통신 불량 등에 따른 극단 값을 하기의 식 1을 통해 식별하여, 제외하기 위함임에 따라, 시간대별 분포를 가정하여, 계수를 1.722로 설정한 Tukey 기법을 통해 상·하한 임계치의 산출 및 임계 범위(상·하한 임계치)를 이탈하였을 경우 잡음(또는 이상치)으로 간주하여 결측으로 처리하고,
    상기 데이터 전처리부가 오·결측치 판단 시, 이에 대한 처리는 식별된 기간이 1시간 이하일 경우, 통계처리(전후 평균 또는 최근값 대체)를 진행하며,
    1시간을 초과할 경우, 인접한 기상청 지점 데이터를 활용하여 0.7 이상의 상관성(피어슨 상관 계수 (Pearson Correlation Coefficient: PCC))을 가진 지점 중, 가장 높은 상관성을 가진 지점의 값으로 대체하나, 0.7을 넘는 지점이 존재하지 않을 경우, 역거리 가중 보간법(Inverse Distance Weighted; IDW)을 활용하는,
    BEMS 내 고품질 데이터 확보를 위한 건물 에너지사용량 실시간 전처리 방법.
    [식 1]

    여기서, Tukey 기법은 인자별 집단데이터의 사분위 범위를 활용하여 IQR(3분위수 - 1분위수)를 산출 및 상*하한 임계치를 도출하는 기법이다.
  9. 삭제
  10. 삭제
  11. 제8항에 있어서,
    상기 최종모델을 도출하여 사전학습하는 단계는
    상기 모델 형성부에서 상기 복수의 후보 회귀모델을 학습시에 출력변수는 데이터 내, 에너지사용량 컬럼을 사용하고, 입력변수는 환경변수(외기 온도/습도/일사량) 및 시간 특성 컬럼을 활용하는 단계를 포함하는 것을 특징으로 하는,
    BEMS 내 고품질 데이터 확보를 위한 건물 에너지사용량 실시간 전처리 방법.
  12. 제11항에 있어서,
    상기 최종모델을 도출하여 사전학습하는 단계는
    상기 모델 형성부에서 교차검증을 통한 모델별 회귀성능 도출시에, 교차검증 방식을 통하여 도출된 k개의 성능지표를 평균하여 책정하고, 회귀성능 지표는 RMSE를 사용하고,
    교차검증을 통해 도출된 복수의 회귀모형별 평균 RMSE 리스트를 기반으로 보팅 방식을 통해 최종모델을 형성하는 단계를 포함하는 것을 특징으로 하는,
    BEMS 내 고품질 데이터 확보를 위한 건물 에너지사용량 실시간 전처리 방법.
KR1020230141976A 2023-10-23 2023-10-23 Bems 내 고품질 데이터 확보를 위한 건물 에너지사용량 실시간 전처리 장치 및 방법 KR102645672B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230141976A KR102645672B1 (ko) 2023-10-23 2023-10-23 Bems 내 고품질 데이터 확보를 위한 건물 에너지사용량 실시간 전처리 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230141976A KR102645672B1 (ko) 2023-10-23 2023-10-23 Bems 내 고품질 데이터 확보를 위한 건물 에너지사용량 실시간 전처리 장치 및 방법

Publications (1)

Publication Number Publication Date
KR102645672B1 true KR102645672B1 (ko) 2024-03-11

Family

ID=90248833

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230141976A KR102645672B1 (ko) 2023-10-23 2023-10-23 Bems 내 고품질 데이터 확보를 위한 건물 에너지사용량 실시간 전처리 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102645672B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102470763B1 (ko) 2022-10-13 2022-11-25 주식회사 비플컨설팅 데이터 이상치 탐색 장치 및 방법
KR102521808B1 (ko) * 2022-10-12 2023-04-14 세종대학교산학협력단 합성곱 신경망과 회귀 신경망을 활용한 하이브리드 에너지 소비 및 생산 예측 방법 및 그 장치
US20230117088A1 (en) * 2021-10-20 2023-04-20 Jingdong City (Beijing) Digits Technology Co.,Ltd. Method and device for improving performance of data processing model, storage medium and electronic device
KR102557876B1 (ko) * 2022-12-20 2023-07-24 엔라이튼 주식회사 태양광 발전소 이상 탐지를 위한 데이터 전처리 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230117088A1 (en) * 2021-10-20 2023-04-20 Jingdong City (Beijing) Digits Technology Co.,Ltd. Method and device for improving performance of data processing model, storage medium and electronic device
KR102521808B1 (ko) * 2022-10-12 2023-04-14 세종대학교산학협력단 합성곱 신경망과 회귀 신경망을 활용한 하이브리드 에너지 소비 및 생산 예측 방법 및 그 장치
KR102470763B1 (ko) 2022-10-13 2022-11-25 주식회사 비플컨설팅 데이터 이상치 탐색 장치 및 방법
KR102557876B1 (ko) * 2022-12-20 2023-07-24 엔라이튼 주식회사 태양광 발전소 이상 탐지를 위한 데이터 전처리 방법 및 장치

Similar Documents

Publication Publication Date Title
CN105467975B (zh) 一种设备故障诊断方法
CN105279365B (zh) 用于学习异常检测的样本的方法
WO2018126984A2 (zh) 一种基于mea-bp神经网络wsn异常检测方法
WO2019080367A1 (zh) 一种机械设备健康状态评估方法
CN116559598B (zh) 一种智慧配电网故障定位方法及***
CN105471659A (zh) 一种故障根因分析方法和分析设备
CN111325410B (zh) 基于样本分布的通用故障预警***及其预警方法
CN113378990B (zh) 基于深度学习的流量数据异常检测方法
CN106485089B (zh) 谐波用户典型工况的区间参数获取方法
CN111414703B (zh) 一种滚动轴承剩余寿命预测方法及装置
CN110444011B (zh) 交通流高峰识别方法、装置、电子设备及存储介质
CN108647707B (zh) 概率神经网络创建方法、故障诊断方法及装置、存储介质
CN113822418A (zh) 一种风电场功率预测方法、***、设备和存储介质
CN115659665A (zh) 一种基于野马优化算法的电压暂降源信号降噪与识别的方法
CN115275990A (zh) 一种用于区域电网宽频振荡风险的评估方法与***
CN116956189A (zh) 一种电流异常检测***、方法、电子设备及介质
CN114563671A (zh) 一种基于CNN-LSTM-Attention神经网络的高压电缆局部放电诊断方法
KR102645672B1 (ko) Bems 내 고품질 데이터 확보를 위한 건물 에너지사용량 실시간 전처리 장치 및 방법
CN113884807A (zh) 基于随机森林和多层架构聚类的配电网故障预测方法
Rosato et al. Takagi-Sugeno fuzzy systems applied to voltage prediction of photovoltaic plants
CN112422546A (zh) 一种基于变邻域算法和模糊聚类的网络异常检测方法
CN116401561B (zh) 一种设备级运行状态序列的时间关联聚类方法
CN111988192A (zh) 一种基于机器学习的列车通信网络故障诊断方法
CN112711913B (zh) 基于粒度支持向量机的冷热电短期负荷预测***及方法
Zhou et al. Study on Optimization of Data-Driven Anomaly Detection

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant