KR102605929B1 - 서로 다른 프로세서 자원을 할당하여 정형 데이터와 비정형 데이터를 처리하는 방법 및 이러한 방법을 제공하는 데이터 처리 시스템 - Google Patents

서로 다른 프로세서 자원을 할당하여 정형 데이터와 비정형 데이터를 처리하는 방법 및 이러한 방법을 제공하는 데이터 처리 시스템 Download PDF

Info

Publication number
KR102605929B1
KR102605929B1 KR1020220124301A KR20220124301A KR102605929B1 KR 102605929 B1 KR102605929 B1 KR 102605929B1 KR 1020220124301 A KR1020220124301 A KR 1020220124301A KR 20220124301 A KR20220124301 A KR 20220124301A KR 102605929 B1 KR102605929 B1 KR 102605929B1
Authority
KR
South Korea
Prior art keywords
query
cost
data
gpu
cpu
Prior art date
Application number
KR1020220124301A
Other languages
English (en)
Inventor
이상수
임정택
윤준영
백인욱
Original Assignee
스마트마인드 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 스마트마인드 주식회사 filed Critical 스마트마인드 주식회사
Priority to KR1020220124301A priority Critical patent/KR102605929B1/ko
Priority to PCT/KR2022/015608 priority patent/WO2024071504A1/ko
Application granted granted Critical
Publication of KR102605929B1 publication Critical patent/KR102605929B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/24569Query processing with adaptation to specific hardware, e.g. adapted for using GPUs or SSDs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24532Query optimisation of parallel queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 서로 다른 프로세서 자원을 할당하여 정형 데이터와 비정형 데이터를 처리하는 방법 및 이러한 방법을 제공하는 데이터 처리 시스템에 관한 것이다. 서로 다른 프로세서 자원을 할당하여 정형 데이터와 비정형 데이터를 처리하는 방법은 데이터 처리 시스템의 파서부가 네스티드 쿼리를 일반 쿼리와 확장 쿼리로 파싱하는 단계와 데이터 처리 시스템의 클라우즈 아날라이즈부가 일반 쿼리 및 확장 쿼리의 처리를 위해 사용될 컴퓨팅 자원을 결정하는 단계를 포함하되, 네스티드 쿼리는 비정형 데이터에 대한 확장 쿼리 및 정형 데이터에 대한 일반 쿼리를 혼합한 쿼리일 수 있다.

Description

서로 다른 프로세서 자원을 할당하여 정형 데이터와 비정형 데이터를 처리하는 방법 및 이러한 방법을 제공하는 데이터 처리 시스템{Method for processing structured data and unstructured data by allocating different processor resource and data processing system providing the method}
본 발명은 서로 다른 프로세서 자원을 할당하여 정형 데이터와 비정형 데이터를 처리하는 방법 및 이러한 방법을 제공하는 데이터 처리 시스템에 관한 것이다. 보다 상세하게는 컴퓨팅 자원의 효율적인 활용과 데이터 처리 스피드를 향상시키기 위한 서로 다른 프로세서 자원을 할당하여 정형 데이터와 비정형 데이터를 처리하는 방법 및 이러한 방법을 제공하는 데이터 처리 시스템에 관한 것이다.
급속한 비대면 환경과 모바일 우선 전략에 따라 해마다 많은 정형 데이터 및 비정형 데이터의 폭발적인 증가와 생성은 모든 분야에서 빅데이터를 활용한 새로운 의사 결정과 서비스를 요구하고 있다.
이와 같이 데이터의 급격한 증가와 소비는 향후 더욱 가속화될 예정이며, 이러한 정형 데이터 뿐만 아니라, 비정형 데이터에 포함되어 있는 다양한 패턴들을 수집하고 정제하고 분석하여 미래의 성장동력을 찾는 것이 기업들의 새로운 비즈니스 모델이 되고 있다.
기존 선행 기술로는 국내출원번호10-2014-0036626건이 있다.
본 발명은 상술한 문제점을 모두 해결하는 것을 그 목적으로 한다.
또한, 본 발명은, 확장된 SQL(structured query language) 및 하나의 플랫폼을 기반으로 하나의 언어를 사용하여 정형 데이터와 비정형 데이터를 처리하고, 정형 데이터와 비정형 데이터의 처리에 있어서 서로 다른 컴퓨팅 자원을 기반으로 데이터를 처리하여 효율적으로 컴퓨팅 자원을 활용하고, 데이터 처리 속도를 높이는 것을 목적으로 한다.
또한, 본 발명은, 별도의 배치 프로세싱 없이 정형 데이터 및 비정형 데이터를 기반으로 한 데이터 처리 및 인공 지능 모델의 모델링 기능을 제공하되, CPU(central processing unit)와 GPU(graphics processing unit)를 선택적으로 사용함으로써 효율적으로 컴퓨팅 자원을 활용하고, 데이터 처리 속도를 높이는 것을 목적으로 한다.
상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.
본 발명의 일 실시예에 따르면, 서로 다른 프로세서 자원을 할당하여 정형 데이터와 비정형 데이터를 처리하는 방법은 데이터 처리 시스템의 파서부가 네스티드 쿼리를 일반 쿼리와 확장 쿼리로 파싱하는 단계, 상기 데이터 처리 시스템의 클라우즈 아날라이즈부가(워딩 체크 필요) 상기 일반 쿼리 및 상기 확장 쿼리의 처리를 위해 사용될 컴퓨팅 자원을 결정하는 단계를 포함하되, 상기 네스티드 쿼리는 비정형 데이터에 대한 상기 확장 쿼리 및 정형 데이터에 대한 상기 일반 쿼리를 혼합한 쿼리일 수 있다.
한편, 상기 일반 쿼리는 PostgreSQL(structured query language) 엔진을 기반으로 처리되고, 상기 확장 쿼리는 확장 SQL 엔진을 기반으로 처리되고, 상기 컴퓨팅 자원은 CPU(central processing unit) 또는 GPU(graphics processing unit)일 수 있다.
또한, 상기 일반 쿼리 및 상기 확장 쿼리는 GPU 필수 사용 모델 기반의 처리가 필요한지 여부 및 CPU 실행 능력과 GPU 실행 능력을 기반으로 상기 CPU 또는 상기 GPU를 통해 처리될 수 있다.
본 발명의 다른 실시예에 따르면, 서로 다른 프로세서 자원을 할당하여 정형 데이터와 비정형 데이터를 처리하는 데이터 처리 시스템은 네스티드 쿼리를 일반 쿼리와 확장 쿼리로 파싱하도록 구현되는 파서부와 상기 일반 쿼리 및 상기 확장 쿼리의 처리를 위해 사용될 컴퓨팅 자원을 결정하도록 구현되는 클라우즈 아날라이즈부를 포함하되, 상기 네스티드 쿼리는 비정형 데이터에 대한 상기 확장 쿼리 및 정형 데이터에 대한 상기 일반 쿼리를 혼합한 쿼리일 수 있다.
한편, 상기 일반 쿼리는 PostgreSQL(structured query language) 엔진을 기반으로 처리되고, 상기 확장 쿼리는 확장 SQL 엔진을 기반으로 처리되고, 상기 컴퓨팅 자원은 CPU(central processing unit) 또는 GPU(graphics processing unit)일 수 있다.
또한, 상기 일반 쿼리 및 상기 확장 쿼리는 GPU 필수 사용 모델 기반의 처리가 필요한지 여부 및 CPU 실행 능력과 GPU 실행 능력을 기반으로 상기 CPU 또는 상기 GPU를 통해 처리될 수 있다.
본 발명에 의하면, 확장된 SQL(structured query language) 및 하나의 플랫폼을 기반으로 하나의 언어를 통해 정형 데이터와 비정형 데이터가 처리되고, 정형 데이터와 비정형 데이터의 처리에 있어서 서로 다른 컴퓨팅 자원을 기반으로 데이터를 처리하여 효율적으로 컴퓨팅 자원이 활용되고, 데이터 처리 속도가 향상될 수 있다.
또한, 본 발명에 의하면, 별도의 배치 프로세싱 없이 정형 데이터 및 비정형 데이터를 기반으로 한 데이터 처리 및 인공 지능 모델의 모델링 기능이 제공되되, CPU(central processing unit)와 GPU(graphics processing unit)이 선택적으로 사용됨으로써 효율적으로 컴퓨팅 자원이 활용되고, 데이터 처리 속도가 향상될 수 있다.
도 1은 기존 데이터 처리 시스템을 나타낸 개념도이다.
도 2는 본 발명의 실시예에 따른 하나의 플랫폼 상에서 정형 데이터와 비정형 데이터를 처리하기 위한 데이터 처리 시스템을 나타낸 개념도이다.
도 3은 본 발명의 실시예에 따른 하나의 플랫폼 상에서 정형 데이터와 비정형 데이터를 처리하기 위한 데이터 처리 시스템을 나타낸 개념도이다.
도 4는 본 발명의 실시예에 따른 데이터 처리 시스템의 동작을 나타낸 개념도이다.
도 5는 본 발명의 실시예에 따른 데이터 처리 시스템의 동작을 나타낸 개념도이다.
도 6은 본 발명의 실시예에 따른 데이터 처리 시스템을 기반으로 한 데이터 처리 방법을 나타낸 개념도이다.
도 7은 본 발명의 실시예에 따른 데이터 처리 시스템에서 쿼리를 분석하여 데이터를 처리하는 방법을 나타낸 개념도이다.
도 8은 본 발명의 실시예에 따른 자원 분배 알고리즘을 나타낸 개념도이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여 지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다.
이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 바람직한 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 1은 기존 데이터 처리 시스템을 나타낸 개념도이다.
도 1에서는 기존에 정형 데이터와 비정형 데이터를 처리하는 데이터 처리 시스템이 개시된다.
도 1을 참조하면, 기존 데이터 처리 시스템의 정형 데이터(100) 및 비정형 데이터(120)에 대한 데이터 처리 방식이 개시된다.
정형 데이터(100)는 스키마에 따라 테이블에 저장되고 관계를 통해 테이블 간에 연결이 가능한 데이터이다. 정형 데이터(100)는 보유하고 있는 정보에 대한 적절히 정의된 스키마를 가지고 행과 열로 표시될 수 있다. 각 열은 다른 속성을 나타내는 반면, 각 행에는 단일 인스턴스의 속성과 연결된 데이터가 있다. 행과 열은 쉽게 참조할 수 있는 테이블을 형성할 수 있고, 서로 다른 테이블들은 연결될 수 있고, 여러 테이블이 연속적으로 연결되어 있으면 관계형 데이터베이스(140)가 형성될 수 있다.
비정형 데이터(120)는 정형 데이터(100)와 반대되는 데이터로서 정해진 규칙이 없어서 값의 의미를 쉽게 파악하기 힘든 데이터로서 음성, 이미지, 영상과 같은 데이터를 포함할 수 있다.
기존 데이터 처리 시스템은 SQL(structured query language)을 기반으로 정형 데이터(100)에 대한 쿼리만이 가능하였고, 비정형 데이터(120)에 대한 처리를 위해서는 특정 스키마가 없는 NoSQL 데이터베이스가 사용되었다.
또한, 기존의 데이터 처리 시스템은 정형 데이터(100)에 대한 실시간 쿼리가 가능하였으나, 비정형 데이터(120)에 대한 실시간 쿼리가 불가능하였다. 기존 데이터베이스 처리 시스템에서 비정형 데이터(120)는 실시간 처리(real time processing) 대신 배치 처리(batch processing)을 통해 처리되었다. 이로 인해, 기존의 데이터 처리 시스템에서 이미지, 영상, 음성에 대한 실시간 검색이 불가하였다. 보다 구체적으로 기존의 데이터 처리 시스템에서 비정형 데이터(120)는 대량의 데이터를 실시간으로 분석하기 어렵다. 따라서, 실시간으로 획득이 가능한 데이터 테이블과 정해진 시간에 계산을 미리 해놓은 배치(Batch) 테이블을 결합하는 람다 아키텍처(150) 기반의 처리가 수행되었고, 정형 데이터(100)와 비정형 데이터(120)가 별도의 DBMS(database management system)를 기반으로 처리되었다.
또한, 기존의 데이터 처리 시스템은 비정형 데이터(120)에 대한 배치 프로세싱을 위해 다양한 파이프라인, 다양한 프레임워크, 다양한 언어를 사용하였다. 따라서, 하나의 가버넌스를 기반으로 한 데이터의 처리가 불가능하였고, 개발 이후 유지 보수가 어려웠다.
또한, 기존의 데이터 처리 시스템에서 비정형 데이터(120)에 대한 학습을 위해서는 데이터베이스 내에서의 인공 지능 학습이 불가하였다. 기존의 데이터 처리 시스템은 정형 데이터(100)에 대한 학습을 데이터베이스에 구현된 AI 엔진을 기반으로 수행하였으나, 비정형 데이터(120)에 대한 학습은 데이터베이스 내에서 SQL 기반으로 처리되지 않았기 때문에 데이터베이스 안에서 비정형 데이터를 기반으로 한 AI 엔진 모델링은 불가능하였다.
또한, 기존의 데이터 처리 시스템은 AI 엔진에 대한 모델링을 수행시 운영계의 모수 테이블에서 샘플링을 통해 샘플 테이블(160)을 생성하여 모델링을 수행하게 되고, 모델링을 수행하는 모델링 플랫폼과 실제 운영을 수행하는 운영 플랫폼이 서로 상이하다. 이러한 경우, 모델링 플랫폼과 운영 플랫폼의 차이로 인해 모델링 결과가 정확하지 않은 문제점이 발생된다.
기존 데이터 처리 시스템에서는 샘플 데이터를 활용하여 AI 모델링 하는데까지 정말 많은 시간이 소요된다.
기존 데이터 처리 시스템에서는 모수 테이블에서 샘플 데이터를 추출해오는 과정이 수행된다. 모수 데이터가 테이블 형태가 아닌 다양한 형태로 존재할 수 있기 때문에 데이터를 변형 및 추출해오는 과정에서 시간이 소요되고, 또 모델링 하기 위해 데이터를 전처리 하는 과정에서도 상당한 시간이 요구된다.
또한, 기존 데이터 처리 시스템의 AI 모델링 과정에서 샘플 데이터는 정형과 비정형 데이터를 모두 포함하고 있고 정형/비정형 AI모델링을 하기 위해 기존 데이터 처리 시스템에서는 람다 아키텍처를 필수로 적용해야 한다. 람다 아키텍처를 통해서 개발을 하게 된다면 다양한 플랫폼과 언어를 사용하게 되는데 플랫폼 간의 특성 차이, 연동 문제 등으로 접목시키는데 시간을 많이 허비하게 된다.
이뿐만 아니라, 모수 테이블에서 데이터를 추출하고 람다 아키텍처 상에서 AI 모델링을 하는 동안 모수 테이블/데이터에 실시간으로 새로운 데이터들이 쌓이게 되는데 그렇게 되면 기존 데이터 처리 시스템에서 만들어진 AI 모델을 적용했을 때 예측 결과(모델의 결과 값)가 정확하지 않다는 문제점이 있다. 그렇다면 다시 한번 모델링을 하기 위해서 1번 프로세스와 2번 프로세스를 거치는 등 많은 시간이 소요된다.
본 발명의 실시예에 따른 데이터 처리 시스템이 사용되는 경우, 모수 데이터가 하나의 형태(테이블)로 관리되고, 샘플 데이터를 추출해 오는 과정도 간단한 쿼리문을 통해 가능하고 람다 아키텍처를 필요로 하지 않기 때문에 정형 데이터 및 비정형 데이터에 대한 AI 모델링 또한 하나의 플랫폼과 하나의 언어를 사용하여 연동 문제없이 쉽게 프로세스 할 수 있다는 장점이 있다.
따라서, 본 발명의 실시예에 따른 데이터 처리 플랫폼은 하나의 플랫폼을 기반으로 하나의 언어를 기초로 정형 데이터(100)와 비정형 데이터(120)를 처리할 수 있다.
또한, 본 발명의 실시예에 따른 데이터 처리 플랫폼은 하나의 플랫폼 상에 운영 플랫폼과 모델링 플랫폼이 위치하여 보다 정확한 모델링이 가능할 뿐만 아니라, 별도의 배치 프로세싱 없이 정형 데이터(100) 및 비정형 데이터(120)를 기반으로 한 AI 모델링 기능을 제공할 수 있다.
이하, 보다 구체적인 본 발명의 실시예에 따른 데이터 처리 플랫폼의 기능이 개시된다.
도 2는 본 발명의 실시예에 따른 하나의 플랫폼 상에서 정형 데이터와 비정형 데이터를 처리하기 위한 데이터 처리 시스템을 나타낸 개념도이다.
도 2에서는 정형 데이터 및 비정형 데이터를 하나의 플랫폼 상에서 처리하기 위한 데이터 처리 시스템이 개시된다.
도 2를 참조하면, 데이터 처리 시스템은 비정형 데이터(220)와 정형 데이터(210)를 하나의 플랫폼 상에서 처리 가능하다. 본 발명에서는 비정형 데이터(220)를 정형 데이터(210)와 함께 하나의 플랫폼에서 처리하기 위한 데이터 처리 신택스(syntax)가 새롭게 정의되고, 새롭게 정의된 데이터 처리 신택스의 사용이 가능한 확장(extended) SQL(240)이 정의될 수 있다.
정형 데이터(210)에 대한 일반 쿼리는 PostgreSQL과 같은 기존의 SQL을 기반으로 처리되고 비정형 데이터에 대한 쿼리는 본 발명에서 새롭게 정의된 확장 SQL(240)을 기반으로 처리될 수 있다.
확장 SQL(240) 상에서 새롭게 정의된 데이터 처리 신택스를 처리하기 위한 확장 SQL 엔진(250)이 정의될 수 있다. 확장 SQL 엔진(250)은 새롭게 정의된 데이터 처리 신택스를 처리 가능하도록 하기 위한 엔진일 수 있다.
기존의 데이터 처리 시스템과 다르게 확장 SQL 엔진(250)을 기반으로 네스티드 쿼리(nested query)(230)가 가능하다. 네스티드 쿼리(230)는 정형 데이터(210) 및 비정형 데이터(220)에 대한 혼합적인 쿼리로서 데이터베이스에 저장된 정형 데이터(210)와 비정형 데이터(220)에 대한 순차적인 처리 또는 복합적인 처리를 가능하게 할 수 있다.
즉, 기존에 정형 데이터(210)와 비정형 데이터(220)가 별도의 DBMS(database management system)를 기반으로 처리되는 것과 다르게 본 발명에서는 정형 데이터(210)와 비정형 데이터(220)가 하나의 플랫폼 상에서 확장 SQL 엔진(250)을 기반으로 처리되고, 네스티드 쿼리(nested query)(230)를 기반으로 정형 데이터(210)와 비정형 데이터(220)에 대한 데이터 프로세싱이 하나의 데이터 베이스(260) 상에서 동시에 이루어질 수 있다. 이를 기반으로 정형 데이터(210)와 비정형 데이터(220)에 대한 AI 모델링도 데이터 처리 시스템의 AI 엔진(270) 상에서 이루어진다.
AI 엔진은 분류 모델, 회귀 모델, 추천 모델, 음성 인식 모델 등 다양한 AI 엔진이 미리 제공될 수도 있고, 사용자가 직접 생성한 모델, 오픈 소스로 제공되는 AI 엔진 등 제한 없이 사용될 수 있다.
본 발명의 데이터 처리 시스템은 비정형 데이터(220)에 대한 별도의 배치 프로세싱, 별도의 언어, 별도의 플랫폼 없이 하나의 플랫폼 내에서 처리 가능하다. 본 발명의 데이터 처리 시스템은 정형 데이터(210)와 비정형 데이터(220) 모두 SQL 만으로 쿼리 가능하고 정형 데이터(210)와 비정형 데이터(220)에 대한 AI 모델링을 가능하게 하는 통합 플랫폼이다. 따라서 모델링 플랫폼과 운영 플랫폼이 동일하므로 모수가 달라져서 모델링의 정확도가 떨어지는 문제도 줄어들 수 있다.
또한, 본 발명의 데이터 처리 시스템은 RDB(relational database), AI 그리고 빅데이터 플랫폼(big data platform)의 기능을 하나의 플랫폼에서 적용할 수 있으며 AI 기반의 디지털 전환시 발생하는 비효율성을 획기적으로 줄일 수 있고, 빅데이터 처리 및 분산 병렬 처리 기술을 기반으로 하여 기존 대비 2배 이상 빠른 데이터 처리를 가능하게 한다.
즉, 본 발명의 실시예에 따르면, 데이터베이스 상에서 정형 데이터와 비정형 데이터를 처리하는 방법은 데이터 처리 시스템이 네스티드 쿼리를 수신하는 단계와 데이터 처리 시스템이 네스티드 쿼리에 대한 처리를 수행하는 단계를 포함할 수 있다. 네스티드 쿼리는 비정형 데이터에 대한 제1 쿼리 및 정형 데이터에 대한 제2 쿼리를 혼합한 쿼리일 수 있다.
네스티드 쿼리에 대한 처리를 수행하는 단계는, 데이터 처리 시스템이 확장된 SQL(extended structured query language)을 처리하는 확장 SQL 엔진을 기반으로 비정형 데이터에 대한 처리를 수행하는 단계와 데이터 처리 시스템이 PostgreSQL(structured query language)을 처리하는 일반 SQL 엔진을 기반으로 정형 데이터에 대한 처리를 수행하는 단계를 포함할 수 있다.
데이터 처리 시스템은 정형 데이터에 대한 데이터 테이블 및 비정형 데이터에 대한 데이터 테이블을 생성하여 하나의 데이터베이스 상에서 처리하고, 데이터 처리 시스템은 정형 데이터 및 비정형 데이터를 기반으로 한 인공 지능 엔진 모델링을 하나의 데이터베이스 상에서 지원할 수 있다.
또한, 본 발명의 실시예에 따르면, 데이터 처리 시스템은 정형 데이터 및 비정형 데이터 각각에 대한 개별적인 처리를 수행할 수도 있다. 데이터 처리 시스템은 비정형 데이터 처리 쿼리 및 정형 데이터 처리 쿼리를 수신하고, 비정형 데이터 처리 쿼리 및 정형 데이터 처리 쿼리를 처리하도록 구현될 수 있다. 비정형 데이터 처리 쿼리는 비정형 데이터만을 처리하기 위한 쿼리이고, 정형 데이터 처리 쿼리는 정형 데이터만을 처리하기 위한 쿼리일 수 있다.
비정형 데이터 처리 쿼리는 확장 SQL 및 확장 SQL 엔진을 기반으로 처리 되고, 정형 데이터 처리 쿼리는 일반 SQL(PostgreSQL) 및 일반 SQL 엔진을 기반으로 처리될 수 있다.
도 3은 본 발명의 실시예에 따른 하나의 플랫폼 상에서 정형 데이터와 비정형 데이터를 처리하기 위한 데이터 처리 시스템을 나타낸 개념도이다.
도 3에서는 기존에 정의된 일반 쿼리와 비정형 데이터를 위해 확장된 SQL을 기반으로 정의된 확장 쿼리가 네스티드 쿼리를 형성하고, 네스티드 쿼리가 데이터 처리 시스템에서 처리되는 방법이 개시된다.
도 3을 참조하면, 입력 쿼리(300)로서 비정형 데이터 및 정형 데이터에 대한 처리를 위한 네스티드 쿼리가 입력될 수 있다.
예를 들어, 네스티드 쿼리는 제1 쿼리(310), 제2 쿼리(320) 및 제3 쿼리(330)를 포함할 수 있고, 제1 쿼리(310) 및 제3 쿼리(330)는 확장 쿼리(350)이고, 제2 쿼리(320)는 일반 쿼리(360)일 수 있다.
제1 쿼리(310)는 PRINT IMAGE, 제2 쿼리(320)는 SELECT, 제3 쿼리(330)는 SEARCH IMAGE일 수 있다. 제1 쿼리(310), 제2 쿼리(320) 및 제3 쿼리(330)는 네스티드 구조로 입력 쿼리를 형성할 수 있다.
입력 쿼리(300)는 파서를 통해 파싱될 수 있다. 렉서(lexer)를 기반으로 네스티트 쿼리는 일반 쿼리(360)와 확장 쿼리(350)로 구분되고, 파서는 일반 쿼리(360)와 확장 쿼리(350)를 분할할 수 있다.
제1 쿼리(310), 제2 쿼리(320) 및 제3 쿼리(330)는 클라우즈 아날라이즈(clause analyze) 및 쿼리 트리(query tree)를 통해 해석되어 처리될 수 있다. 제3 쿼리(330), 제2 쿼리(320) 및 제1 쿼리(310)의 순서로 처리될 수 있다.
제1 쿼리(310) 및 제3 쿼리(330)는 확장 쿼리(350)로서 확장 SQL 엔진을 기반으로 처리될 수 있고, 제2 쿼리(320)는 일반 쿼리로서 일반 쿼리 처리를 위한 SQL 엔진인 PostgreSQL 엔진을 기반으로 처리될 수 있다.
표준화 SQL 엔진과 PostgreSQL 엔진은 하나의 데이터베이스와 연결되어 쿼리를 처리할 수 있다. 하나의 데이터베이스를 기반으로 정형 데이터 및 비정형 데이터를 기반으로 한 인공 지능 학습이 가능하다.
도 4는 본 발명의 실시예에 따른 데이터 처리 시스템의 동작을 나타낸 개념도이다.
도 4에서는 하나의 플랫폼 상에서 정형 데이터와 비정형 데이터를 동시에 처리하기 위한 확장된 SQL 중 쿼리 기능이 개시된다.
도 4를 참조하면, 비정형 데이터에 대한 쿼리 기능은 아래와 같은 확장된 SQL을 기반으로 수행될 수 있다.
(1) 저장 모델 확인(LIST)(410)
사용자는 "LIST" 구문을 사용하여 비정형 데이터를 프로세싱하기 위한 비정형 데이터 테이블을 위해 미리 생성된 모델(pre-built model)과 사용자가 생성한 사용자 생성 모델을 확인할 수 있다.
예를 들어, LIST MODEL 기능을 통해 사용자에 의해 생성된 사용자 생성 모델에 대한 확인이 가능하고, LIST PREBUILT MODEL 기능을 사용하여 미리 생성된 모델에 대한 확인이 가능하다.
(2) 비정형 데이터 변환(CREATE TABLE)(420)
"CREATE TABLE" 구문을 사용하여 비정형 데이터(이미지, 오디오, 비디오 등)는 수치화 알고리즘을 기초로 사용자형 벡터 형식으로 변환한 비정형 데이터 테이블로 생성될 수 있다.
아래의 표 1은 CREATE TABLE 구문의 예시이다
<표 1>
CREATE TABLE [사용자 지정 데이터 테이블의 이름]
USING [사용할 인공지능 모델]
AS [사용할 데이터 세트]
예를 들어, CREATE TABLE기능을 사용하여 특정 경로에 존재하는 이미지 파일을 속성 추출 인공지능 모델을 사용하여 비정형 데이터 테이블로서 데이터베이스 상에 생성할 수 있다
(3) 비정형 특성 추가(CONVERT USING)(430)
사용자는 "CONVERT USING" 구문을 사용하여 이미지, 비디오, 음성 등 비정형 데이터의 정보를 이용해서 수치화 알고리즘을 사용하여 벡터 형식으로 변환하고 이값을 사용할 데이터 세트에 추가할 수 있다.
아래의 표 2는 CONVERT USING 구문의 예시이다
<표 2>
CONVERT USING [사용할 인공지능 모델]
OPTIONS(
Table_name=[저장될 테이블명]
)
AS
[사용할 데이터 세트]
예를 들어, CONVERT USING 기능을 사용하여 특정 경로에 존재하는 이미지 파일을 추가적인 속성 추출 인공지능 모델을 사용하여 데이터 테이블로서 데이터베이스 상에 생성할 수 있다
(4) 비정형 데이터 검색(SEARCH)(440)
SEARCH 구문은 비정형 데이터에서 내용이나 의미 또는 유사도 등을 검색하기 위해 사용될 수 있다.
아래의 표 3은 SEARCH 구문의 예시이다.
<표 3>
SEARCH [사용자 지정 데이터 테이블 이름]
USING [사용할 인공지능 모델]
AS [사용할 데이터 세트]
예를 들어, 이미지 수치화 인공 지능 모델을 기반으로 유사 이미지에 대한 검색을 진행하기 위해 SEARCH 구문이 활용될 수 있다.
(5) 결과 출력(PRINT)(450)
사용자는 "PRINT" 구문을 사용하여 이미지, 오디오 및 비디오 파일을 출력할 수 있다. 또한, 서브 쿼리를 사용하여 "PRINT" 구문을 통해 나온 결과를 바로 출력할 수 있다.
아래의 표 4는 "PRINT" 구문의 예시이다.
<표 4>
PRINT IMAGE, AUDIO, VIDEO
AS [출력할 데이터 세트]
예를 들어, PRINT 쿼리문을 사용하여 데이터 테이블에 있는 이미지 파일/비디오 파일/오디오파일들을 출력할 수 있다.
위의 쿼리 신택스(syntax)는 본 발명에서 확정된 SQL을 위해 새롭게 정의된 신택스이다.
위와 같은 쿼리 신텍스를 기반으로 만들어진 비정형 데이터 테이블을 기반으로 키워드 또는 텍스트를 기반으로 한 이미지 데이터, 오디오 데이터, 비디오 데이터의 검색이 가능하다. 또한, 이미지 데이터, 오디오 데이터, 비디오 데이터를 기반으로 한 이미지 데이터, 오디오 데이터, 비디오 데이터의 검색도 가능하다.
즉, 본 발명의 실시예에 따른 데이터 처리 시스템에서는 기존의 정형 데이터에 대한 실시간 검색에 추가하여 위와 같은 비정형 데이터에 대한 실시간 검색이 가능하다. 또한, 위와 같은 확장된SQL을 기반으로 비정형 데이터 및 정형 데이터에 대한 쿼리의 조합인 네스티드 쿼리(nested query)도 가능하여 비정형 데이터 및 정형 데이터를 모두 활용한 모델링도 가능하다.
도 5는 본 발명의 실시예에 따른 데이터 처리 시스템의 동작을 나타낸 개념도이다.
도 5에서는 하나의 플랫폼 상에서 정형 데이터와 비정형 데이터를 동시에 처리하기 위한 확장된 SQL 중 ML(machine learning) 기능이 개시된다.
도 5를 참조하면, 비정형 데이터에 대한 ML 기능은 아래와 같은 확장된 SQL을 기반으로 수행될 수 있다.
(1) 모델 학습(BUILD MODEL)(510)
사용자는 "BUILD MODEL" 구문을 사용하여 인공지능모델을 개발할 수 있다.
아래의 표 5는 "BUILD MODEL" 구문의 예시이다.
<표 5>
BUILD MODEL [사용자 지정 모델 이름]
USING [사용할 인공지능모델]
OPTIONS([인공지능모델을 만들 때 필요한 옵션값])
AS [사용할 데이터 세트]
예를 들어, 사용자는 "BUILD MODEL" 구문을 사용하여 인공지능모델을 사용하여 영화를 추천하는 영화추천모델을 만들 수 있다.
(2) 모델 평가(EVALUATE USING)(520)
사용자는 "EVALUATE USING" 구문을 사용하여 인공지능모델에 대한 성능 평가를 수행할 수 있다.
아래의 표 6은 "EVALUATE USING" 구문의 예시이다.
<표 6>
EVALUATE USING [기존 학습한 모델 이름]
OPTIONS ([모델별 평가시 필요한 옵션값])
AS
[사용할 데이터 세트]
예를 들어, "EVALUATE USING" 구문을 사용하여 사용자가 모델 학습하기에서 만들었던 분류 모델에 대한 평가가 수행될 수 있다.
(3) 모델 재학습(FIT MODEL)(530)
사용자는 "FIT MODEL" 구문을 사용하여 모델에 새롭게 추가된 데이터세트를 기반으로 한 학습을 수행할 수 있다.
아래의 표 7은 "FIT MODEL" 구문의 예시이다.
<표 7>
FIT MODEL [사용자 지정 모델 이름]
USING [기존 학습한 모델 이름 | 사전 학습된 인공지능모델 이름]
OPTIONS ([인공지능모델을 만들 때 필요한 옵션값])
AS
[사용할 데이터세트]
예를 들어, "FIT MODEL"을 사용하여 사용자가 이전에 만들었던 모델에 새롭게 추가된 데이터세트를 사용하여 학습한 새로운 모델이 생성될 수 있다.
(4) 데이터 전처리(TRANSFORM USING)(540)
사용자는 "TRANSFORM USING" 구문을 사용하여 테스트 데이터 세트에 인공지능 모델 생성시 사용한 동일한 전처리 방법을 적용할 수 있다.
아래의 표 8은 "TRANSFORM USING" 구문의 예시이다.
<표 8>
TRANSFORM USING [기존 학습한 모델 이름]
AS
[사용할 테스트 데이터 세트]
예를 들어, "TRANSFORM USING" 구문을 사용하여 모델 학습하기에서 기존에 생성된 분류 모델에서 사용한 데이터 전처리가 다른 모델의 학습을 위한 데이터 세트의 데이터 전처리에 적용될 수 있다.
(5) 모델 적용하기(PREDICT USING)(550)
사용자는 "PREDICT UDING" 구문을 사용하여 테스트 데이터 세트에 인공지능 모델을 적용하여 예측, 분류, 추천 등의 작업을 수행할 수 있다.
아래의 표 9는 "PREDICT UDING" 구문의 예시이다.
<표 9>
PREDICT USING [기존 학습한 모델 이름]
OPTIONS ([모델별 추론시 필요한 옵션값])
AS
[사용할 테스트 데이터 세트]
예를 들어, "PREDICT USING" 구문을 사용하여 기존에 모델 학습하기에서 만들어었던 기존 추천 모델을 사용하여 사용자 ID 31인 사용자가 좋아할만한 영화 목록에 대한 추천이 가능할 수 있다.
(6) 모델 삭제하기(DELETE MODEL)(560)
사용자는 "DELETE MODEL" 구문을 사용하여 데이터베이스에 만들어진 모델을 삭제할 수 있다.
아래의 표 10은 "DELETE MODEL" 구문의 예시이다.
<표 10>
DELETE MODEL [삭제할 모델 이름]
예를 들어, "DELETE MODEL" 구문을 기반으로 사용자가 모델 학습하기에서 만들었던 영화추천모델이 데이터베이스에서 삭제될 수 있다.
위와 같은 확장된SQL을 기반으로 비정형 데이터 및 정형 데이터를 기반으로 한 AI 모델링이 별도의 배치 프로세스 없이 하나의 플랫폼인 데이터 처리 시스템 상에서 수행될 수 있다.
데이터 처리 시스템 상에서는 미리 생성된 AI 모델 및 사용자에 의해 생성된 AI 모델이 위치할 수 있다. 이러한 AI 모델 생성을 통해 분류 모델, 회귀 모델, 추천 시스템, 음성 인식 모델 등 다양한 AI 모델에 대한 생성이 이루어질 수 있다.
도 6은 본 발명의 실시예에 따른 데이터 처리 시스템을 기반으로 한 데이터 처리 방법을 나타낸 개념도이다.
도 6에서는 전술한 데이터 처리 시스템을 기반으로 한 별도의 데이터베이스 상의 데이터 처리 방법이 개시된다.
도 6를 참조하면, 도 1에서 도 5에서 전술한 바와 같이 데이터 처리 시스템 자체 데이터베이스를 기반으로 한 정형 데이터 및 비정형 데이터의 처리가 수행될 수도 있다. 하지만, 사용자는 사용자의 데이터베이스를 사용하되, 데이터 처리 시스템에서 제공하는 확장 SQL 및 확장 SQL 엔진의 기능을 API를 기반으로 활용할 수 있다.
데이터 처리 시스템의 자체 데이터베이스를 기반으로 한 정형 데이터 및 비정형 데이터의 처리는 내부 데이터 처리라는 용어로 표현될 수 있다. 데이터 처리 시스템의 자체 데이터베이스가 아닌 외부 데이터베이스를 기반으로 한 정형 데이터 및 비정형 데이터의 처리는 외부 데이터 처리라는 용어로 표현될 수 있다.
내부 데이터 처리의 경우 전술한 도 1 내지 도 5에서 개시된 프로세스를 기반으로 처리될 수 있다.
외부 데이터 처리를 위해 외부에서 본 발명의 실시예에 따른 데이터 처리 시스템을 사용하기 위해서는 제공된 'API' 또는 '데이터 이전 방법'을 사용하여 외부 데이터를 본 발명의 데이터 처리 시스템에 저장 및 변환시켜줘야 한다. 저장 및 변환이 완료된 데이터들에 대해서는 API를 사용하여 본 발명의 데이터 처리 시스템을 활용할 수 있다. 즉, 자체 엔진과 PostgreSQL 엔진 모두 외부 데이터베이스가 아닌 본 발명의 실시예에 따른 데이터베이스를 액세스하여 데이터 처리를 수행할 수 있다.
외부 데이터 처리의 경우, 사용자는 사용자의 데이터베이스에 저장된 별도의 비정형 데이터를 기반으로 한 학습을 API를 통해 확장된 SQL 및 확장 SQL 엔진의 기능을 기반으로 수행할 수 있다.
예를 들어, 특정 사용자는 보안 업체로서 CCTV 영상을 저장하는 사용자 데이터베이스를 운영할 수 있다. 사용자는 본 발명의 데이터 처리 시스템의 확장된 SQL을 기반으로 CCTV 영상에 대한 인공지능학습을 사용자 데이터베이스에 저장된 데이터를 기반으로 수행할 수 있다. 외부 데이터베이스에서 본 발명의 데이터 처리 시스템의 데이터베이스로 정형 데이터 및 본 발명에서 정의된 비정형 데이터를 처리하기 위한 비정형 데이터에 대한 쿼리문을 기반으로 정형 데이터와 비정형 데이터가 삽입될 수 있다. 본 발명의 실시예에 따른 데이터 처리 시스템에 입력된 정형 데이터와 비정형 데이터에 대한 AI 모델링이 본 발명의 실시예에 따른 데이터 처리 시스템의 AI 엔진을 기반으로 수행될 수 있다.
즉, 복수의 서로 다른 데이터베이스 상의 정형 데이터와 비정형 데이터를 처리하는 방법은 데이터 처리 시스템이 외부 데이터베이스로부터 외부 데이터를 수신하는 단계, 상기 데이터 처리 시스템이 상기 외부 데이터를 변환하는 단계와 데이터 처리 시스템이 변환된 상기 외부 데이터를 처리하는 단계를 포함할 수 있다.
이때, 외부 데이터는 정형 데이터와 비정형 데이터를 포함하고, 데이터 처리 시스템은 네스티드 쿼리를 기반으로 정형 데이터 및 비정형 데이터를 처리하고, 네스티드 쿼리는 비정형 데이터에 대한 제1 쿼리 및 정형 데이터에 대한 제2 쿼리를 혼합한 쿼리일 수 있다.
데이터 처리 시스템은 비정형 데이터 처리 쿼리를 기반으로 비정형 데이터를 처리하고, 데이터 처리 시스템은 정형 데이터 처리 쿼리를 기반으로 정형 데이터를 처리할 수 있다.
네스티드 쿼리는 비정형 데이터에 대한 제1 쿼리 및 정형 데이터에 대한 제2 쿼리를 혼합한 쿼리이고, 비정형 데이터 처리 쿼리는 상기 비정형 데이터만을 처리하기 위한 쿼리이고, 정형 데이터 처리 쿼리는 정형 데이터만을 처리하기 위한 쿼리일 수 있다.
데이터 처리 시스템은 정형 데이터에 대한 데이터 테이블 및 비정형 데이터에 대한 데이터 테이블을 생성하여 하나의 데이터베이스 상에서 처리하고, 데이터 처리 시스템은 정형 데이터 및 비정형 데이터를 기반으로 한 인공 지능 엔진 모델링을 하나의 데이터베이스 상에서 지원할 수 있다.
도 7은 본 발명의 실시예에 따른 데이터 처리 시스템에서 쿼리를 분석하여 데이터를 처리하는 방법을 나타낸 개념도이다.
도 7에서는 입력된 쿼리를 분석하여 비정형 데이터 및 정형 데이터를 하나의 데이터 처리 시스템에서 처리를 수행하되 쿼리를 처리함에 있어 서로 다른 프로세싱 자원을 활용하는 방법이 개시된다.
도 7을 참조하면, 입력 쿼리로서 비정형 데이터 및/또는 정형 데이터에 대한 처리를 위한 쿼리가 입력될 수 있다. 입력된 쿼리는 비정형 데이터 또는 정형 데이터에 대한 일반 쿼리일 수도 있고, 비정형 데이터 및 정형 데이터에 대한 혼합적인 처리를 위한 네스티드 쿼리일 수도 있다.
입력 쿼리는 파서부(700)를 통해 파싱될 수 있다. 네스티트 쿼리는 일반 쿼리와 확장 쿼리로 구분되고, 파서부(700)는 일반 쿼리와 확장 쿼리를 분할할 수 있다.
입력 쿼리에 포함되는 복수의 쿼리는 클라우즈 아날라이즈부(clause analyze) (710) 및 쿼리 트리부(query tree)(720)를 통해 해석되어 처리될 수 있다.
본 발명에서는 설명의 편의상 입력 쿼리로서 네스티드 쿼리가 입력되고, 네스티드 쿼리는 제1 쿼리(715), 제2 쿼리(725) 및 제3 쿼리(735)를 포함할 수 있다. 클라우즈 아날라이즈부(710)는 제1 쿼리(715), 제2 쿼리(725) 및 제3 쿼리(735)에 대하여 어떠한 컴퓨팅 자원을 사용하여 프로세싱되어야 할지를 결정할 수 있다. 보다 구체적으로 클라우즈 아날라이즈부(710)는 네스티드 쿼리에 포함되는 복수의 쿼리에 대한 분석을 통해 쿼리가 CPU(770)에서 실행되어야 할지 GPU(780)에서 실행되어야 할지를 결정할 수 있다. 클라우즈 아날라이즈부(710)는 본 발명의 실시예에 따른 자원 분배 알고리즘을 기반으로 복수의 쿼리 각각의 실행 예상 능률 및 실행 예상 속도를 판단하고 실행 예상 능률 및 실행 예상 속도를 기반으로 복수의 쿼리 각각을 CPU(770) 또는 GPU(780)에 할당할 수 있다.
제1 쿼리(715) 및 제3 쿼리(735)는 확장 쿼리이고, 제2 쿼리(725)는 일반 쿼리인 경우가 가정될 수 있다. 제1 쿼리(715) 및 제3 쿼리(735)는 확장 SQL 엔진(760)을 기반으로 처리될 수 있고, 제2 쿼리(725)는 일반 쿼리로서 일반 쿼리 처리를 위한 SQL 엔진인 PostgreSQL 엔진(750)을 기반으로 처리될 수 있다.
이때, 자원 분배 알고리즘을 기반으로 제1 쿼리(715)는 GPU(780), 제3 쿼리(735)는 CPU(770), 제2 쿼리(725)는 GPU(780)를 기반으로 처리될 수 있다. 자원 분배 알고리즘을 기반으로 네스티드 쿼리의 처리 속도는 향상되고 컴퓨팅 자원은 보다 효율적으로 활용될 수 있다.
이러한 자원 분배 알고리즘은 일반 쿼리를 위한 SQL 엔진인 PostgreSQL 엔진(750)과 확장 쿼리를 위한 확장 SQL 엔진(760)에 모두 적용되어 활용될 수 있고, 모델링 역시 GPU를 사용하여 진행하기 때문에 빠른 모델링 결과가 도출될 수 있다.
도 8은 본 발명의 실시예에 따른 자원 분배 알고리즘을 나타낸 개념도이다.
도 8에서는 자원 분배 알고리즘을 기반으로 쿼리를 처리시 CPU 또는 GPU를 선택하기 위한 방법이 개시된다.
도 8을 참조하면, 확장 쿼리(800)와 일반 쿼리(820)를 처리시 CPU(860) 또는 GPU(850)를 사용할지 여부를 결정하는 방법이 개시된다.
(1) 확장 쿼리(800)
1) 확장 쿼리(800) 중 확장 엔진 상에서 GPU(850)를 필수적으로 사용해야 하는 모델을 기반으로 처리되어야 하는 제1 타입 확장 쿼리(803)는 GPU(850)를 기반으로 처리될 수 있다.
2) 확장 쿼리(800) 중 확장 엔진 상에서 GPU(850)를 필수적으로 사용하지 않아도 처리 가능한 제2 타입 확장 쿼리(806)는 컴퓨팅 리소스 중 CPU 실행 능력과 GPU 실행 능력을 고려하여 CPU(860) 또는 GPU(850)를 기반으로 처리될 수 있다.
CPU 실행 능력은 CPU를 기반으로 쿼리를 처리시 쿼리 처리 속도, 리소스 사용량, 쿼리 비용을 기반으로 결정될 수 있다. GPU 실행 능력은 GPU를 기반으로 쿼리를 처리시 쿼리 처리 속도, 리소스 사용량, 쿼리 비용을 기반으로 결정될 수 있다. CPU 실행 능력을 결정하기 위한 쿼리 비용은 데이터 처리량(row processed), CPU 연산 비용을 기반으로 결정되고, GPU 실행 능력을 결정하기 위한 쿼리 비용은 데이터 처리량(row processed), GPU 연산 비용을 기반으로 결정될 수 있다.
쿼리 처리 속도가 상대적으로 빠르고 리소스 사용량이 상대적으로 작고, 쿼리 비용이 상대적으로 작을 수록 실행 능력은 높게 판단될 수 있다.
(2) 일반 쿼리
일반 쿼리는 컴퓨팅 리소스 중 CPU 실행 능력과 GPU 실행 능력을 고려하여 CPU 또는 GPU를 기반으로 처리될 수 있다.
보다 구체적으로 확장 쿼리 및 일반 쿼리에 대한 CPU 실행 능력과 GPU 실행 능력은 전체 비용을 고려하여 결정될 수 있다. 전체 비용이 작을수록 더 유리한 자원일 수 있다.
전체 비용(total cost)은 스타트업 코스트(start-up cost)와 런 코스트(run cost)의 합일 수 있다. 전체 비용이 작을수록 사용시 더 유리한 자원일 수 있다.
스타트업 코스트는 첫번째 튜플(tuple)이 페치(fetch)되기 전에 발생되는 비용일 수 있다. 튜플은 데이터베이스 내의 주어진 목록과 관계있는 속성값의 모음이다. 예를 들어, 인덱스 노드 스캔(index node scan)의 스타트업 코스트는 타겟 테이블의 첫번째 튜플에 액세스하기 위해 인덱스 페이지를 읽기 위한 코스트이다.
런 코스트는 모든 튜플에 액세스하기 위한 비용일 수 있다.
보다 구체적으로 CPU 런 코스트와 GPU 런 코스트는 아래의 수학식과 같이 결정될 수 있다.
<수학식>
GPU run cost = (gpu_tuple_cost + gpu_operator_cost) x Ntuple + seq_page_cost x Npage
CPU run cost = (cpu_tuple_cost + cpu_operator_cost) x Ntuple + seq_page_cost x Npage
gpu_tuple_cost는 GPU가 연산시 테이블 행들을 프로세스하는 비용이다.
gpu_operator_cost는 GPU가 테이블 튜플을 오퍼레이터나 함수로 프로세스하는 비용이다.
cpu_tuple_cost는 CPU가 연산시 테이블 행들을 프로세스하는 비용이다
cpu_operator_cost는 CPU가 테이블 튜플을 오퍼레이터나 함수로 프로세스하는 비용이다.
Ntuple은 테이블 튜플의 개수이다.
seq_page_cost는 페이지를 가지고 오는 비용이다.
Npage는 인덱스 페이지의 개수이다.
이상 설명된 본 발명에 따른 실시예는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위하여 하나 이상의 소프트웨어 모듈로 변경될 수 있으며, 그 역도 마찬가지이다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항과 한정된 실시예 및 도면에 의하여 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위하여 제공된 것일 뿐, 본 발명이 상기 실시예에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정과 변경을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.

Claims (6)

  1. 서로 다른 프로세서 자원을 할당하여 정형 데이터와 비정형 데이터를 처리하는 방법은,
    데이터 처리 시스템의 파서부가 네스티드 쿼리를 일반 쿼리와 확장 쿼리로 파싱하는 단계; 및
    상기 데이터 처리 시스템의 클라우즈 아날라이즈부가 상기 일반 쿼리 및 상기 확장 쿼리의 처리를 위해 사용될 컴퓨팅 자원을 결정하는 단계를 포함하되,
    상기 네스티드 쿼리는 비정형 데이터에 대한 상기 확장 쿼리 및 정형 데이터에 대한 상기 일반 쿼리를 혼합한 쿼리이고,
    상기 일반 쿼리는 PostgreSQL(structured query language) 엔진을 기반으로 처리되고,
    상기 확장 쿼리는 확장 SQL 엔진을 기반으로 처리되고,
    상기 컴퓨팅 자원은 CPU(central processing unit) 또는 GPU(graphics processing unit)이고,
    상기 데이터 처리 시스템은 상기 정형 데이터에 대한 데이터 테이블 및 상기 비정형 데이터에 대한 데이터 테이블을 생성하여 하나의 데이터베이스 상에서 처리하고,
    상기 데이터 처리 시스템은 상기 정형 데이터 및 상기 비정형 데이터를 기반으로 한 인공 지능 엔진 모델링을 상기 하나의 데이터베이스 상에서 지원하는 것을 특징으로 하는 방법.
  2. 제1항에 있어서,
    상기 일반 쿼리 및 상기 확장 쿼리는 GPU 필수 사용 모델 기반의 처리가 필요한지 여부 및 CPU 실행 능력과 GPU 실행 능력을 기반으로 상기 CPU 또는 상기 GPU를 통해 처리되고,
    상기 확장 쿼리는 제1 타입 확장 쿼리 및 제2 타입 확장 쿼리를 포함하고,
    상기 제1 타입 확장 쿼리는 상기 확장 SQL 엔진 상에서 상기 GPU를 필수적으로 사용해야 하는 모델을 기반으로 처리되어야 하는 쿼리이고,
    상기 제2 타입 확장 쿼리는 상기 확장 SQL 엔진 상에서 상기 GPU를 필수적으로 사용하지 않아도 처리 가능한 쿼리이고,
    상기 제1 타입 확장 쿼리는 상기 GPU를 기반으로 처리되고,
    상기 제2 타입 확장 쿼리는 상기 CPU 실행 능력과 상기 GPU 실행 능력을 고려하여 상기 CPU 또는 상기 GPU를 기반으로 처리되고,
    상기 일반 쿼리는 상기 CPU 실행 능력과 상기 GPU 실행 능력을 고려하여 상기 CPU 또는 상기 GPU를 기반으로 처리되고,
    상기 확장 쿼리 및 상기 일반 쿼리에 대한 상기 CPU 실행 능력과 상기 GPU 실행 능력은 전체 비용을 고려하여 결정되고,
    상기 전체 비용은 스타트업 코스트(start-up cost)와 런 코스트(run cost)의 합이고,
    상기 스타트업 코스트는 첫번째 튜플(tuple)이 페치(fetch)되기 전에 발생되는 비용이고,
    상기 튜플은 데이터베이스 내의 주어진 목록과 관계있는 속성값의 모음이고,
    상기 런 코스트는 모든 튜플에 액세스하기 위한 비용인 것을 특징으로 하는 방법.
  3. 제2항에 있어서,
    상기 런 코스트는 CPU 런 코스트와 GPU 런 코스트를 포함하고,
    상기 CPU 런 코스트는 아래의 수학식 1을 기반으로 결정되고,
    <수학식1>
    CPU run cost = (cpu_tuple_cost + cpu_operator_cost) x Ntuple + seq_page_cost x Npage
    상기 GPU 런 코스트는 아래의 수학식 2를 기반으로 결정되고,
    GPU run cost = (gpu_tuple_cost + gpu_operator_cost) x Ntuple + seq_page_cost x Npage
    gpu_tuple_cost는 GPU가 연산시 테이블 행들을 프로세스하는 비용이고,
    gpu_operator_cost는 GPU가 테이블 튜플을 오퍼레이터나 함수로 프로세스하는 비용이고,
    cpu_tuple_cost는 CPU가 연산시 테이블 행들을 프로세스하는 비용이고,
    cpu_operator_cost는 CPU가 테이블 튜플을 오퍼레이터나 함수로 프로세스하는 비용이고,
    Ntuple은 테이블 튜플의 개수이고,
    seq_page_cost는 페이지를 가지고 오는 비용이고,
    Npage는 인덱스 페이지의 개수인 것을 특징으로 하는 방법.
  4. 서로 다른 프로세서 자원을 할당하여 정형 데이터와 비정형 데이터를 처리하는 데이터 처리 시스템은,
    네스티드 쿼리를 일반 쿼리와 확장 쿼리로 파싱하도록 구현되는 파서부; 및
    상기 일반 쿼리 및 상기 확장 쿼리의 처리를 위해 사용될 컴퓨팅 자원을 결정하도록 구현되는 클라우즈 아날라이즈부를 포함하되,
    상기 네스티드 쿼리는 비정형 데이터에 대한 상기 확장 쿼리 및 정형 데이터에 대한 상기 일반 쿼리를 혼합한 쿼리이고,
    상기 일반 쿼리는 PostgreSQL(structured query language) 엔진을 기반으로 처리되고,
    상기 확장 쿼리는 확장 SQL 엔진을 기반으로 처리되고,
    상기 컴퓨팅 자원은 CPU(central processing unit) 또는 GPU(graphics processing unit)이고,
    상기 데이터 처리 시스템은 상기 정형 데이터에 대한 데이터 테이블 및 상기 비정형 데이터에 대한 데이터 테이블을 생성하여 하나의 데이터베이스 상에서 처리하고,
    상기 데이터 처리 시스템은 상기 정형 데이터 및 상기 비정형 데이터를 기반으로 한 인공 지능 엔진 모델링을 상기 하나의 데이터베이스 상에서 지원하는 것을 특징으로 하는 데이터 처리 시스템.
  5. 제4항에 있어서,
    상기 일반 쿼리 및 상기 확장 쿼리는 GPU 필수 사용 모델 기반의 처리가 필요한지 여부 및 CPU 실행 능력과 GPU 실행 능력을 기반으로 상기 CPU 또는 상기 GPU를 통해 처리되고,
    상기 확장 쿼리는 제1 타입 확장 쿼리 및 제2 타입 확장 쿼리를 포함하고,
    상기 제1 타입 확장 쿼리는 상기 확장 SQL 엔진 상에서 상기 GPU를 필수적으로 사용해야 하는 모델을 기반으로 처리되어야 하는 쿼리이고,
    상기 제2 타입 확장 쿼리는 상기 확장 SQL 엔진 상에서 상기 GPU를 필수적으로 사용하지 않아도 처리 가능한 쿼리이고,
    상기 제1 타입 확장 쿼리는 상기 GPU를 기반으로 처리되고,
    상기 제2 타입 확장 쿼리는 상기 CPU 실행 능력과 상기 GPU 실행 능력을 고려하여 상기 CPU 또는 상기 GPU를 기반으로 처리되고,
    상기 일반 쿼리는 상기 CPU 실행 능력과 상기 GPU 실행 능력을 고려하여 상기 CPU 또는 상기 GPU를 기반으로 처리되고,
    상기 확장 쿼리 및 상기 일반 쿼리에 대한 상기 CPU 실행 능력과 상기 GPU 실행 능력은 전체 비용을 고려하여 결정되고,
    상기 전체 비용은 스타트업 코스트(start-up cost)와 런 코스트(run cost)의 합이고,
    상기 스타트업 코스트는 첫번째 튜플(tuple)이 페치(fetch)되기 전에 발생되는 비용이고,
    상기 튜플은 데이터베이스 내의 주어진 목록과 관계있는 속성값의 모음이고,
    상기 런 코스트는 모든 튜플에 액세스하기 위한 비용인 것을 특징으로 하는 데이터 처리 시스템.
  6. 제5항에 있어서,
    상기 런 코스트는 CPU 런 코스트와 GPU 런 코스트를 포함하고,
    상기 CPU 런 코스트는 아래의 수학식 1을 기반으로 결정되고,
    <수학식1>
    CPU run cost = (cpu_tuple_cost + cpu_operator_cost) x Ntuple + seq_page_cost x Npage
    상기 GPU 런 코스트는 아래의 수학식 2를 기반으로 결정되고,
    GPU run cost = (gpu_tuple_cost + gpu_operator_cost) x Ntuple + seq_page_cost x Npage
    gpu_tuple_cost는 GPU가 연산시 테이블 행들을 프로세스하는 비용이고,
    gpu_operator_cost는 GPU가 테이블 튜플을 오퍼레이터나 함수로 프로세스하는 비용이고,
    cpu_tuple_cost는 CPU가 연산시 테이블 행들을 프로세스하는 비용이고,
    cpu_operator_cost는 CPU가 테이블 튜플을 오퍼레이터나 함수로 프로세스하는 비용이고,
    Ntuple은 테이블 튜플의 개수이고,
    seq_page_cost는 페이지를 가지고 오는 비용이고,
    Npage는 인덱스 페이지의 개수인 것을 특징으로 하는 데이터 처리 시스템.
KR1020220124301A 2022-09-29 2022-09-29 서로 다른 프로세서 자원을 할당하여 정형 데이터와 비정형 데이터를 처리하는 방법 및 이러한 방법을 제공하는 데이터 처리 시스템 KR102605929B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020220124301A KR102605929B1 (ko) 2022-09-29 2022-09-29 서로 다른 프로세서 자원을 할당하여 정형 데이터와 비정형 데이터를 처리하는 방법 및 이러한 방법을 제공하는 데이터 처리 시스템
PCT/KR2022/015608 WO2024071504A1 (ko) 2022-09-29 2022-10-14 서로 다른 프로세서 자원을 할당하여 정형 데이터와 비정형 데이터를 처리하는 방법 및 이러한 방법을 제공하는 데이터 처리 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220124301A KR102605929B1 (ko) 2022-09-29 2022-09-29 서로 다른 프로세서 자원을 할당하여 정형 데이터와 비정형 데이터를 처리하는 방법 및 이러한 방법을 제공하는 데이터 처리 시스템

Publications (1)

Publication Number Publication Date
KR102605929B1 true KR102605929B1 (ko) 2023-11-30

Family

ID=88968400

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220124301A KR102605929B1 (ko) 2022-09-29 2022-09-29 서로 다른 프로세서 자원을 할당하여 정형 데이터와 비정형 데이터를 처리하는 방법 및 이러한 방법을 제공하는 데이터 처리 시스템

Country Status (2)

Country Link
KR (1) KR102605929B1 (ko)
WO (1) WO2024071504A1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050000342A (ko) * 2003-06-23 2005-01-03 마이크로소프트 코포레이션 분산 쿼리 엔진 파이프라인 방법 및 시스템
KR20160096258A (ko) * 2015-02-04 2016-08-16 주식회사 유누스 데이터베이스 시스템 통합관리방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101542195B1 (ko) * 2014-03-28 2015-08-05 주식회사 솔트룩스 비정형 데이터로부터 특성을 추출하여 지식 베이스를 구축하는 시스템 및 방법
CN114116856A (zh) * 2022-01-25 2022-03-01 中电云数智科技有限公司 基于数据治理全链路的字段级血缘关系分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050000342A (ko) * 2003-06-23 2005-01-03 마이크로소프트 코포레이션 분산 쿼리 엔진 파이프라인 방법 및 시스템
KR20160096258A (ko) * 2015-02-04 2016-08-16 주식회사 유누스 데이터베이스 시스템 통합관리방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
S. Floratos et al., NestGPU: Nested Query Processing on GPU, 2021 IEEE 37th International Conference on Data Engineering, pp1008-1019(2021)* *

Also Published As

Publication number Publication date
WO2024071504A1 (ko) 2024-04-04

Similar Documents

Publication Publication Date Title
US11776084B2 (en) Patent mapping
CN111026671B (zh) 测试用例集构建方法和基于测试用例集的测试方法
Sakr et al. A framework for querying graph-based business process models
CN106202207A (zh) 一种基于HBase‑ORM的索引及检索***
CN111914534B (zh) 构建知识图谱语义映射方法及***
CN115576984A (zh) 中文自然语言生成sql语句及跨数据库查询方法
Jayaram et al. A review: Information extraction techniques from research papers
CN113254630A (zh) 一种面向全球综合观测成果的领域知识图谱推荐方法
CN117093599A (zh) 面向异构数据源的统一sql查询方法
CN107818181A (zh) 基于Plcient交互式引擎的索引方法及其***
CN114625748A (zh) Sql查询语句的生成方法、装置、电子设备及可读存储介质
CN113297251A (zh) 多源数据检索方法、装置、设备及存储介质
CN111831624A (zh) 数据表创建方法、装置、计算机设备及存储介质
CN117827881A (zh) 一种基于历史信息的Spark SQL Shuffle任务数优化***
CN110008448B (zh) 将SQL代码自动转换为Java代码的方法和装置
KR102605929B1 (ko) 서로 다른 프로세서 자원을 할당하여 정형 데이터와 비정형 데이터를 처리하는 방법 및 이러한 방법을 제공하는 데이터 처리 시스템
KR102599008B1 (ko) 멀티-쿼리 스케줄러를 기반으로 멀티-쿼리를 처리하는 방법 및 이러한 방법을 제공하는 데이터 처리 시스템
KR102605930B1 (ko) 데이터베이스 상에서 정형 데이터와 비정형 데이터를 처리하는 방법 및 이러한 방법을 제공하는 데이터 처리 플랫폼
KR102605931B1 (ko) 복수의 서로 다른 데이터베이스 상의 정형 데이터와 비정형 데이터를 처리하는 방법 및 이러한 방법을 제공하는 데이터 처리 플랫폼
KR102605932B1 (ko) 워크 스페이스 기반으로 비정형 데이터 및 정형 데이터에 대한 데이터 처리 서비스를 제공하는 방법 및 이러한 방법을 수행하는 서버
KR102605933B1 (ko) 인스턴스 특성을 고려하여 서버 상의 워크 스페이스를 할당하는 방법 및 이러한 방법을 수행하는 장치
KR102675553B1 (ko) 워크스페이스 백업 방법 및 이러한 방법을 수행하는 장치
KR102635613B1 (ko) 비정형 데이터에 대한 임베딩 방법 및 이러한 방법을수행하는 장치
KR102668905B1 (ko) 서버 마이그레이션 방법 및 이러한 방법을 수행하는 장치
KR102680768B1 (ko) 비정형 데이터에 대한 바이너리화를 수행하는 방법 및 이러한 방법을 수행하는 장치

Legal Events

Date Code Title Description
GRNT Written decision to grant