KR20220116028A - 피처 저장소에 저장하고 기계 학습에 사용하기 위한 데이터를 처리하기 위한 시스템 및 방법 - Google Patents

피처 저장소에 저장하고 기계 학습에 사용하기 위한 데이터를 처리하기 위한 시스템 및 방법 Download PDF

Info

Publication number
KR20220116028A
KR20220116028A KR1020227024922A KR20227024922A KR20220116028A KR 20220116028 A KR20220116028 A KR 20220116028A KR 1020227024922 A KR1020227024922 A KR 1020227024922A KR 20227024922 A KR20227024922 A KR 20227024922A KR 20220116028 A KR20220116028 A KR 20220116028A
Authority
KR
South Korea
Prior art keywords
features
feature
request
data
curated
Prior art date
Application number
KR1020227024922A
Other languages
English (en)
Inventor
티모시 슈엔할
차오슈 샤
샨샨 첸
미아오 왕
Original Assignee
쿠팡 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 쿠팡 주식회사 filed Critical 쿠팡 주식회사
Publication of KR20220116028A publication Critical patent/KR20220116028A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0641Shopping interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Human Resources & Organizations (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Educational Administration (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

기계 학습 모델에서 사용하기 위한 데이터를 처리하기 위한 시스템 및 방법은, 둘 이상의 작업을 포함하는 파이프라인을 생성하라는 요청을 수신하는 단계 - 상기 요청은 어느 피처를 수집하고 출력할지 그리고 피처를 처리하기 위한 명령어를 정의함 -; 요청에 기초하여 파이프라인을 생성하는 단계; 하나 이상의 생산자 작업에 대해: 하나 이상의 데이터베이스로부터 수집 가능한 피처를 리트리브하고, 피처를 처리하고, 큐레이팅된 피처를 출력하는 단계; 하나 이상의 소비자 작업에 대해: 소비자 작업이 의존하는 파이프라인의 이전 작업으로부터 수집 가능한 피처를 리트리브하고, 피처를 처리하고, 큐레이팅된 피처를 출력하는 단계; 둘 이상의 작업 중 하나 이상의 작업과 연관된 큐레이팅된 피처를 피처 저장소에 저장하는 단계; 및 둘 이상의 작업 중 하나 이상의 작업과 연관된 저장된 큐레이팅된 피처를 수집을 위해 기계 학습 모델에 제공하는 단계를 포함한다.

Description

피처 저장소에 저장하고 기계 학습에 사용하기 위한 데이터를 처리하기 위한 시스템 및 방법
관련 출원에 대한 상호 참조
본 출원은 2020년 12월 10일에 출원된 미국 가출원 제63/123,925호에 대한 우선권의 이익을 구하며, 상기 출원의 내용은 그 전체가 본원에 포함된다.
기술분야
본 개시는 일반적으로 피처 저장소를 유지하기 위한 컴퓨터화된 방법 및 시스템에 관한 것이다. 특히, 본 개시의 실시형태는 기계 학습 모델에서 사용하기 위한 데이터를 처리하기 위한 피처 저장소를 구축하고 유지하기 위한 독창적이고 비전통적인 시스템에 관한 것이다.
기계 학습은 데이터 분석을 세계에 대한 과거 이력에 따른 이해로부터 세계에 대한 예측 모델링으로 이동시킬 수 있는 잠재력을 가진 강력한 도구이다. 그러나 기계 학습 시스템을 구축하는 것은 곤란하며 전문화된 플랫폼, 도구 및 사용자의 기술에 대한 깊은 이해를 필요로 한다. 기계 학습 모델을 위해 특별히 설계된 피처 엔지니어링 및 훈련 파이프라인은 데이터 과학자가 기계 학습 모델을 실험하는 빠른 방법일 수 있지만, 시간이 지남에 따라 이러한 파이프라인은 데이터 과학자가 취급하기에 너무 복잡해지는 경향이 있다. 모델과 피처의 수가 증가함에 따라 이를 관리하는 것이 빠르게 불가능해진다.
전통적인 시스템 및 방법은 모델 서빙 중 피처에 접근하기 불가능한 점, 다수의 기계 학습 파이프라인 간에 피처를 재사용하는 비효율성, 협업 또는 재사용 없이 이루어지는 데이터 과학 프로젝트의 격리, 훈련 및 서빙에 사용되는 피처의 비일관성, 새 데이터가 도달할 때 어느 피처가 재계산될 필요가 있는지 결정하기 불가능한 점을 포함하여 결과적으로 피처를 업데이트하기 위해 전체 파이프라인이 실행될 필요가 있다는 기술 부채의 집합으로 인해 곤란함을 겪는다.
따라서, 리트리벌의 용이함을 위해 피처 저장소에 저장하고 기계 학습 모델에서 사용하기 위한 데이터를 처리하는 시스템 및 방법이 필요하다. 본 개시의 실시형태는 복수의 기계 학습 모델에 대한 피처 큐레이팅을 표준화하고 많은 수의 모델 및 보다 복잡한 파이프라인을 갖는 복잡성을 감소시키는 시스템 및 방법을 포함한다. 이 실시형태는 또한 새로운 기계 학습 모델을 개발하는 데 드는 기술 비용 및 시간을 감소시키는 데 도움이 된다.
본 개시의 일 측면은 기계 학습 모델에서 사용하기 위한 데이터를 처리하기 위한 컴퓨터 구현 시스템에 관한 것이다. 상기 시스템은 명령어를 저장하는 메모리; 및 동작을 실행하도록 구성된 하나 이상의 프로세서를 포함할 수 있고, 상기 동작은: 둘 이상의 작업을 포함하는 파이프라인을 생성하라는 요청을 수신하는 것 - 상기 요청은 둘 이상의 작업 각각에 대해 어느 피처를 수집할지, 어느 피처를 출력할지, 그리고 피처를 처리하기 위한 명령어를 정의함 -; 요청에 기초하여 둘 이상의 작업을 포함하는 파이프라인을 생성하는 것; 둘 이상의 작업 중 하나 이상의 생산자 작업에 대해: 하나 이상의 데이터베이스로부터 수집 가능한 피처를 리트리브하는 것, 수신된 명령어를 기반으로 피처를 처리하는 것, 및 큐레이팅된 피처를 출력하는 것; 둘 이상의 작업 중 하나 이상의 소비자 작업에 대해: 소비자 작업이 의존하는 파이프라인의 이전 작업으로부터 수집 가능한 피처를 리트리브하는 것, 수신된 명령어를 기반으로 피처를 처리하는 것, 및 큐레이팅된 피처를 출력하는 것; 피처 저장소에 둘 이상의 작업 중 하나 이상의 작업과 연관된 큐레이팅된 피처를 저장하는 것; 및 둘 이상의 작업 중 하나 이상의 작업과 연관된 저장된 큐레이팅된 피처를 수집을 위해 기계 학습 모델에 제공하는 것을 포함한다.
본 개시의 또 다른 측면은 기계 학습 모델에서 사용하기 위한 데이터를 처리하기 위한 컴퓨터 구현 방법에 관한 것이다. 상기 방법은: 둘 이상의 작업을 포함하는 파이프라인을 생성하라는 요청을 수신하는 단계 - 상기 요청은 둘 이상의 작업 각각에 대해 어느 피처를 수집할지, 어느 피처를 출력할지, 그리고 피처를 처리하기 위한 명령어를 정의함 -; 요청에 기초하여 둘 이상의 작업을 포함하는 파이프라인을 생성하는 단계; 둘 이상의 작업 중 하나 이상의 생산자 작업에 대해: 하나 이상의 데이터베이스로부터 수집 가능한 피처를 리트리브하는 단계, 수신된 명령어를 기반으로 피처를 처리하는 단계, 및 큐레이팅된 피처를 출력하는 단계; 둘 이상의 작업 중 하나 이상의 소비자 작업에 대해: 소비자 작업이 의존하는 파이프라인의 이전 작업으로부터 수집 가능한 피처를 리트리브하는 단계, 수신된 명령어를 기반으로 피처를 처리하는 단계, 및 큐레이팅된 피처를 출력하는 단계; 피처 저장소에 둘 이상의 작업 중 하나 이상의 작업과 연관된 큐레이팅된 피처를 저장하는 단계; 및 둘 이상의 작업 중 하나 이상의 작업과 연관된 저장된 큐레이팅된 피처를 수집을 위해 기계 학습 모델에 제공하는 단계를 포함할 수 있다.
나아가, 본 개시의 다른 측면은 기계 학습 모델에 사용하기 위한 데이터를 처리하기 위한 컴퓨터 구현 시스템에 관한 것이다. 상기 시스템은: 명령어를 저장하는 메모리; 및 동작을 실행하도록 구성된 하나 이상의 프로세서를 포함할 수 있고, 상기 동작은: 둘 이상의 작업과 하나 이상의 센서를 포함하는 파이프라인을 생성하라는 요청을 수신하는 것 - 상기 요청은 둘 이상의 작업 각각에 대해 어느 피처를 수집할지, 어느 피처를 출력할지, 그리고 피처를 처리하기 위한 명령어를 정의하고, 상기 센서는 적어도 하나의 외부 트리거를 모니터링하도록 구성됨 -; 요청에 기초하여 둘 이상의 작업을 포함하는 파이프라인을 생성하는 것; 미리 결정된 시간 간격으로, 둘 이상의 작업 중 하나 이상의 생산자 작업에 대해: 하나 이상의 데이터베이스로부터 수집 가능한 피처를 리트리브하는 것, 수신된 명령어를 기반으로 피처를 처리하는 것, 및 큐레이팅된 피처를 출력하는 것; 미리 결정된 시간 간격으로, 둘 이상의 작업 중 하나 이상의 소비자 작업에 대해: 소비자 작업이 의존하는 파이프라인의 이전 작업으로부터 수집 가능한 피처를 리트리브하는 것, 수신된 명령어를 기반으로 피처를 처리하는 것, 및 큐레이팅된 피처를 출력하는 것; 피처 저장소에 둘 이상의 작업 중 하나 이상의 작업과 연관된 큐레이팅된 피처를 저장하는 것; 요청에 기반하여 사용자 인터페이스를 렌더링하는 것 - 상기 사용자 인터페이스는 사용자-편집 가능 방향성 비순환 그래프(Directed Acyclic Graph; DAG) 및 저장된 큐레이팅된 피처에 관한 데이터를 명시하는 메타데이터 브라우저를 포함함 -; 및 둘 이상의 작업 중 하나 이상의 작업과 연관된 저장된 큐레이팅된 피처를 수집을 위해 기계 학습 모델에 제공하는 것을 포함한다.
다른 시스템, 방법, 및 컴퓨터 판독 가능 매체가 또한 본 명세서에서 논의된다.
도 1a는 개시된 실시형태와 일치하는, 운송, 수송 및 물류 작업을 가능하게 하는 통신을 위한 컴퓨터화된 시스템을 포함하는 네트워크의 예시적인 실시형태를 도시하는 개략적인 블록도이다.
도 1b는 개시된 실시형태와 일치하는, 대화형 사용자 인터페이스 요소와 함께, 검색 요청을 만족시키는 하나 이상의 검색 결과를 포함하는 샘플 검색 결과 페이지(SRP)를 도시한다.
도 1c는 개시된 실시형태와 일치하는, 대화형 사용자 인터페이스 요소와 함께, 제품 및 제품에 관한 정보를 포함하는 샘플 단일 디스플레이 페이지(SDP)를 도시한다.
도 1d는 개시된 실시형태와 일치하는, 대화형 사용자 인터페이스 요소와 함께, 물품을 가상의 쇼핑 카트에 포함하는 샘플 카트 페이지를 도시한다.
도 1e는 개시된 실시형태와 일치하는, 대화형 사용자 인터페이스 요소와 함께, 구매 및 운송에 관한 정보와 함께 가상의 쇼핑 카트로부터의 물품을 포함하는 샘플 주문 페이지를 도시한다.
도 2는 개시된 실시형태와 일치하는, 개시된 컴퓨터화된 시스템을 활용하도록 구성되는 예시적인 풀필먼트 센터의 개략도이다.
도 3은 개시된 실시형태와 일치하는, 기계 학습 모델에서 사용하기 위한 데이터를 처리하도록 구성된 피처 저장소를 포함하는 시스템의 예시적인 실시형태를 도시하는 개략적인 블록도이다.
도 4는 개시된 실시형태와 일치하는, 기계 학습 모델에서 사용하기 위한 데이터를 처리하기 위한 예시적인 컴퓨터화된 방법의 흐름도이다.
도 5는 개시된 실시형태와 일치하는, 기계 학습 모델에서 사용하기 위한 데이터를 처리하기 위한 예시적인 파이프라인의 방향성 비순환 그래프이다.
도 6은 개시된 실시형태와 일치하는, 기계 학습 모델에서 사용하기 위한 데이터를 처리하기 위한 예시적인 작업의 블록도이다.
도 7a는 개시된 실시형태와 일치하는, 파이프라인의 생성을 요청하기 위한 사용자에 대한 예시적인 요청을 도시한다.
도 7b는 개시된 실시형태와 일치하는, 작업의 생성을 요청하기 위한 사용자에 대한 예시적인 요청을 도시한다.
도 7c는 개시된 실시형태와 일치하는, 센서의 생성을 요청하기 위한 사용자에 대한 예시적인 요청을 도시한다.
도 8은 개시된 실시형태와 일치하는, 하나 이상의 큐레이팅된 피처에 관한 데이터를 사용자에게 제공하기 위해 피처 저장소 내에 포함될 수 있고 사용자 디바이스를 통해 디스플레이될 수 있는 데이터 표현의 일례를 도시한다.
다음의 상세한 설명은 첨부 도면을 참조한다. 어디서든 가능하다면, 도면과 다음의 설명에서 동일한 참조 번호가 동일하거나 유사한 부분을 지칭하기 위해 사용된다. 수개의 예시적 실시형태가 본 명세서에 설명되지만, 수정, 개조 및 다른 구현예가 가능하다. 예를 들어, 도면에 도시된 구성 요소 및 단계에 대한 대체, 추가 또는 수정이 이루어질 수 있고, 본 명세서에 설명된 예시적인 방법은 개시된 방법에서 단계를 대체하거나, 재정렬하거나, 제거하거나 추가함으로써 수정될 수 있다. 따라서, 다음의 상세한 설명은 개시된 실시형태 및 예시에 제한되지 않는다. 대신에, 본 발명의 적절한 범위는 첨부된 청구항에 의해 규정된다.
본 개시의 실시형태는 피처 저장소(feature store)에 저장하고 기계 학습 모델(machine learning model)에서 사용하기 위한 데이터를 처리하는 컴퓨터화된 방법 및 시스템에 관한 것이다.
도 1a를 참조하여, 운송, 수송 및 물류 작업을 가능하게 하는 통신을 위한 컴퓨터화된 시스템을 포함하는 시스템의 예시적인 실시형태를 도시한 개략적인 블록도(100)가 도시된다. 도 1a에 도시된 바와 같이, 시스템(100)은 다양한 시스템들을 포함할 수 있고, 이들 시스템 각각은 하나 이상의 네트워크를 통해 서로 연결될 수 있다. 시스템들은 또한, 예를 들어, 케이블을 사용하여 직접 연결을 통해 서로 연결될 수 있다. 도시된 시스템은, 선적 권한 기술(shipment authority technology, SAT) 시스템(101), 외부 프론트 엔드 시스템(external front end system)(103), 내부 프론트 엔드 시스템(internal front end system)(105), 수송 시스템(transportation system)(107), 모바일 디바이스(107A, 107B 및 107C), 판매자 포털(109), 선적 및 주문 추적(shipment and order tracking, SOT) 시스템(111), 풀필먼트 최적화(fulfillment optimization, FO) 시스템(113), 풀필먼트 메시징 게이트웨이(fulfillment messaging gateway, FMG)(115), 공급 체인 관리(supply chain management, SCM) 시스템(117), 창고 관리 시스템(warehouse management system, 119), 모바일 디바이스(119A, 119B 및 119C)(풀필먼트 센터(FC)(200)의 내부에 있는 것으로 도시됨), 제3자의 풀필먼트 시스템(121A, 121B 및 121C), 풀필먼트 센터 인증 시스템(fulfillment center authorization system, FC Auth)(123) 및 노동 관리 시스템(labor management system, LMS)(125)을 포함한다.
일부 실시형태에서, SAT 시스템(101)은 주문 상태(order status) 및 배송 상태(delivery status)를 모니터링하는 컴퓨터 시스템으로서 구현될 수 있다. 예를 들어, SAT 시스템(101)은 주문이 그 약속된 배송 날짜(Promised Delivery Date, PDD)를 경과한 것인지를 결정할 수 있고, 새로운 주문을 개시하는 것, 미배송의 주문의 물품들을 재운송하는 것, 미배송의 주문을 취소하는 것, 주문한 고객과의 연락(contact)을 개시하는 것 등을 포함하여, 적절한 액션을 취할 수 있다. SAT 시스템(101)은 또한, (특정 기간 동안 운송된 다수의 패키지와 같은) 출력 및 (운송에 사용하기 위해 수신된 빈 판지 박스(empty cardboard boxes)의 수와 같은) 입력을 포함하는, 기타 데이터를 모니터링할 수 있다. SAT 시스템(101)은 또한, 시스템(100)에서 상이한 디바이스들 간에 게이트웨이로서 동작하여, (예를 들어, 저장-및-전달(store-and-forward) 또는 다른 기술들을 사용하여) 외부 프론트 엔드 시스템(103) 및 FO 시스템(113)과 같은 디바이스들 사이의 통신을 가능하게 한다.
일부 실시형태에서, 외부 프론트 엔드 시스템(103)은 외부 사용자가 시스템(100) 내의 하나 이상의 시스템과 상호 작용할 수 있게 하는 컴퓨터 시스템으로서 구현될 수 있다. 예를 들어, 시스템(100)이 시스템들에 대한 프리젠테이션을 가능하게 하여 사용자가 물품을 주문할 수 있게 하는 실시형태에서, 외부 프론트 엔드 시스템(103)은 검색 요청을 수신하고, 물품 페이지를 제시하고, 결제 정보를 요구(solicit)하는 웹 서버로서 구현될 수 있다. 예를 들어, 외부 프론트 엔드 시스템(103)은 Apache HTTP 서버, 마이크로소프트 인터넷 정보 서비스(Microsoft Internet Information Services, IIS), NGINX 등과 같은 소프트웨어를 실행하는 컴퓨터 또는 컴퓨터들로서 구현될 수 있다. 다른 실시형태에서, 외부 프론트 엔드 시스템(103)은 외부 디바이스(예를 들어, 모바일 디바이스(102A) 또는 컴퓨터(102B))로부터 요청을 수신하고 처리하도록 설계된 고객 웹 서버 소프트웨어를 실행하고, 이들 요청에 기초하여 데이터베이스들 및 기타 데이터 저장소로부터 정보를 획득하고, 획득된 정보에 기초하여 수신된 요청에 대한 응답들을 제공할 수 있다.
일부 실시형태에서, 외부 프론트 엔드 시스템(103)은 웹 캐싱 시스템(web caching system), 데이터베이스, 검색 시스템 또는 지불 시스템 중 하나 이상을 포함할 수 있다. 일 측면에서, 외부 프론트 엔드 시스템(103)은 이들 시스템 중 하나 이상을 포함할 수 있고, 반면에 다른 측면에서, 외부 프론트 엔드 시스템(103)은 이들 시스템 중 하나 이상에 연결된 인터페이스(예를 들어, 서버-대-서버, 데이터베이스-대-데이터베이스, 또는 다른 네트워크 연결)를 포함할 수 있다.
도 1b, 도 1c, 도 1d 및 도 1e에 의해 도시된 단계들의 예시적인 세트는 외부 프론트 엔드 시스템(103)의 일부 동작을 설명하는 데에 도움이 될 것이다. 외부 프론트 엔드 시스템(103)은 프리젠테이션 및/또는 디스플레이를 위해 시스템(100) 내의 시스템들 또는 디바이스들로부터 정보를 수신할 수 있다. 예를 들어, 외부 프론트 엔드 시스템(103)은 검색 결과 페이지(SRP)(예를 들어, 도 1b), 단일 상세 페이지(SDP)(예를 들어, 도 1c), 카트 페이지(예를 들어, 도 1d) 또는 주문 페이지(예를 들어, 도 1e)를 포함하여, 하나 이상의 웹 페이지를 호스팅하거나 제공할 수 있다. 사용자 디바이스(예를 들어, 모바일 디바이스(102A) 또는 컴퓨터(102B)를 사용함)는, 외부 프론트 엔드 시스템(103)을 탐색하고, 검색 박스에 정보를 입력함으로써 검색을 요청할 수 있다. 외부 프론트 엔드 시스템(103)은 시스템(100) 내의 하나 이상의 시스템으로부터 정보를 요청할 수 있다. 예를 들어, 외부 프론트 엔드 시스템(103)은 검색 요청을 만족시키는 FO 시스템(113)으로부터 정보를 요청할 수 있다. 외부 프론트 엔드 시스템(103)은 또한, 검색 결과에 포함된 각 제품에 대한 약속된 배송 날짜 즉 "PDD"를 (FO 시스템(113)으로부터) 요청하고 수신할 수 있다. 일부 실시형태에서, PDD는, 특정 기간 내에, 예를 들어, 하루가 끝날 때까지(오후 11시 59분), 주문된 경우, 제품을 포함하는 패키지가 사용자의 원하는 위치에 도착할 때, 또는 제품이 사용자의 원하는 위치에 배송될 것으로 약속된 날짜에 대한 추정(estimate)을 나타낼 수 있다. (PDD는 FO 시스템(113)과 관련하여 아래에 더 논의된다.)
외부 프론트 엔드 시스템(103)은 정보에 기초하여 SRP(예를 들어, 도 1b)를 준비할 수 있다. SRP는 검색 요청을 만족시키는 정보를 포함할 수 있다. 예를 들어, 이는 검색 요청을 만족시키는 제품들의 사진(pictures of products)을 포함할 수 있다. SRP는 또한, 각 제품의 각각의 가격, 또는 각 제품에 대한 향상된 배송 옵션, PDD, 무게, 크기, 제안(offers), 할인 등에 관한 정보를 포함할 수 있다. 외부 프론트 엔드 시스템(103)은 (예를 들어, 네트워크를 통해) 요청측 사용자 디바이스(requesting user device)에 SRP를 전송할 수 있다.
그 후, 사용자 디바이스는, 예를 들어, 사용자 인터페이스를 클릭(clicking) 또는 탭(tapping)하거나, 다른 입력 디바이스를 사용함으로써, SRP 상에 나타내어진 제품을 선택하여, SRP로부터 제품을 선택할 수 있다. 사용자 디바이스는 선택된 제품에 관한 정보 요청(request for information on the selected product)을 공식화하여(formulate) 그것을 외부 프론트 엔드 시스템(103)에 전송할 수 있다. 이에 응답하여, 외부 프론트 엔드 시스템(103)은 선택된 제품과 관련된 정보를 요청할 수 있다. 예를 들어, 정보는 각각의 SRP 상에 제품에 대해 제시된 것 이외의 추가 정보를 포함할 수 있다. 이는, 예를 들어, 유통 기한(shelf life), 원산지(country of origin), 무게, 크기, 포장된 물품의 수(number of items in package), 취급 지시(handling instructions) 또는 제품에 대한 기타 정보를 포함할 수 있다. 이 정보는 (예를 들어, 이 제품 및 적어도 하나의 다른 제품을 구매한 고객들에 대한 빅 데이터 및/또는 기계 학습 분석에 기초하여) 유사한 제품들에 대한 추천사항(recommendations), 자주 묻는 질문에 대한 답변, 고객으로부터의 리뷰, 제조자 정보, 사진 등을 포함할 수 있다.
외부 프론트 엔드 시스템(103)은 수신된 제품 정보에 기초하여 SDP(Single Detail Page)(예를 들어, 도 1c)를 준비할 수 있다. SDP는 또한, "바로 구매(Buy Now)" 버튼, "카트에 추가(Add to Cart)" 버튼, 수량 필드, 물품의 사진 등과 같은 기타 대화형 요소를 포함할 수 있다. SDP는 제품을 제안하는 판매자의 목록을 더 포함할 수 있다. 목록은 각 판매자가 제안하는 가격에 기초하여 순서화될(ordered) 수 있어, 최저 가격으로 제품을 판매하겠다고 제안한 판매자가 맨 위(the top)에 나열될 수 있다. 목록은 또한, 최고 랭킹의 판매자(highest ranked seller)가 맨 위에 나열될 수 있도록 판매자 랭킹에 기초하여 순서화될 수 있다. 판매자 랭킹은, 예를 들어, 약속된 PDD를 충족한 판매자의 과거 추적 기록을 포함하여, 다수의 인자(factor)에 기초하여 공식화될 수 있다. 외부 프론트 엔드 시스템(103)은 (예를 들어, 네트워크를 통해) 요청측 사용자 디바이스에 SDP를 전달할 수 있다.
요청측 사용자 디바이스는 제품 정보를 나열한 SDP를 수신할 수 있다. SDP를 수신하면, 사용자 디바이스는 SDP와 상호 작용할 수 있다. 예를 들어, 요청측 사용자 디바이스의 사용자는 SDP 상의 "카트에 담기(Place in Cart)" 버튼을 클릭하거나 다른 방식으로 상호 작용할 수 있다. 이로써 그 제품이 사용자와 연관된 쇼핑 카트(shopping cart)에 추가된다. 사용자 디바이스는 제품을 쇼핑 카트에 추가하라는 이 요청을 외부 프론트 엔드 시스템(103)에 송신할 수 있다.
외부 프론트 엔드 시스템(103)은 카트 페이지(예를 들어, 도 1d)를 생성할 수 있다. 일부 실시형태에서, 카트 페이지는, 사용자가 가상의 "쇼핑 카트"에 추가한 제품들을 나열한다. 사용자 디바이스는 SRP, SDP 또는 기타 페이지들 상의 아이콘을 클릭하거나 다른 방식으로 상호 작용함으로써 카트 페이지를 요청할 수 있다. 일부 실시형태에서, 카트 페이지는, 사용자가 쇼핑 카트에 추가한 모든 제품을 나열할 뿐만 아니라, 각 제품의 수량, 각 제품의 물품당 가격, 각 제품의 관련 수량에 기초한 가격, PDD에 관한 정보, 배송 방법, 운송비(shipping cost), 쇼핑 카트 내의 제품들을 수정하기 위한 사용자 인터페이스 요소들(예를 들어, 수량 삭제 또는 수정), 다른 제품을 주문하거나 제품들의 정기 배송(periodic delivery)을 설정하기 위한 옵션들, 이자 결제(interest payment)를 설정하기 위한 옵션들, 구매를 진행하기 위한 사용자 인터페이스 요소들 등과 같이 카트에 있는 제품들에 관한 정보를 나열할 수 있다. 사용자 디바이스에서 사용자는, 쇼핑 카트에서 제품의 구매를 개시하기 위해 사용자 인터페이스 요소(예를 들어, "바로 구매"를 판독하는 버튼)를 클릭하거나 다른 방식으로 상호 작용할 수 있다. 그렇게 하면, 사용자 디바이스는 구매를 개시하라는 이 요청을 외부 프론트 엔드 시스템(103)에 송신할 수 있다.
외부 프론트 엔드 시스템(103)은 구매를 개시하라는 요청을 수신한 것에 응답하여 주문 페이지(예를 들어, 도 1e)를 생성할 수 있다. 일부 실시형태에서, 주문 페이지는, 쇼핑 카트로부터 물품들을 재나열하고(re-list), 결제 및 운송 정보의 입력을 요청한다. 예를 들어, 주문 페이지는, 쇼핑 카트에 있는 물품들의 구매자에 관한 정보를 요청하는 섹션(예를 들어, 이름, 주소, 이메일 주소, 전화 번호), 받는 사람에 관한 정보(예를 들어, 이름, 주소, 전화 번호, 배송 정보), 운송 정보(예를 들어, 배송 속도/방법 및/또는 픽업(pickup), 결제 정보(예를 들어, 신용 카드, 은행 송금, 수표, 저장된 신용카드(stored credit)), 현금 영수증을 요청하기 위한 사용자 인터페이스 요소(예를 들어, 세금 목적으로) 등을 포함할 수 있다. 외부 프론트 엔드 시스템(103)은 주문 페이지를 사용자 디바이스에 전송할 수 있다.
사용자 디바이스는, 주문 페이지 상에 정보를 입력하고, 정보를 외부 프론트 엔드 시스템(103)에 전송하는 사용자 인터페이스 요소를 클릭하거나 다른 방식으로 상호 작용할 수 있다. 거기서부터, 외부 프론트 엔드 시스템(103)은 정보를 시스템(100) 내의 상이한 시스템들에 전송하여 쇼핑 카트에 있는 제품들을 갖는 새로운 주문의 생성 및 처리를 가능하게 할 수 있다.
일부 실시형태에서, 외부 프론트 엔드 시스템(103)은 판매자들이 주문들에 관한 정보를 송신하고 수신할 수 있도록 더 구성될 수 있다.
일부 실시형태에서, 내부 프론트 엔드 시스템(105)은 내부 사용자들(예를 들어, 시스템(100)을 소유, 운영 또는 임대하는 조직의 직원들)이 시스템(100) 내의 하나 이상의 시스템과 상호 작용할 수 있게 하는 컴퓨터 시스템으로서 구현될 수 있다. 예를 들어, 시스템(100)이 사용자들이 물품을 주문할 수 있게 하는 시스템들의 프리젠테이션을 가능하게 하는 실시형태에서, 내부 프론트 엔드 시스템(105)은 내부 사용자들이 주문들에 대한 진단 및 통계 정보를 보거나(view), 물품 정보를 수정하거나, 주문들에 관한 통계를 검토(review)할 수 있게 하는 웹 서버로서 구현될 수 있다. 예를 들어, 내부 프론트 엔드 시스템(105)은 Apache HTTP 서버, 마이크로소프트 인터넷 정보 서비스(IIS), NGINX 등과 같은 소프트웨어를 실행하는 컴퓨터 또는 컴퓨터들로서 구현될 수 있다. 다른 실시형태에서, 내부 프론트 엔드 시스템(105)은 시스템(100)에 도시된 시스템들 또는 디바이스들(도시되지 않은 다른 디바이스들뿐만 아니라)로부터 요청들을 수신하고 처리하도록 설계된 고객 웹 서버 소프트웨어를 실행할 수 있고, 이들 요청에 기초하여 데이터베이스들 및 기타 데이터 저장소들로부터 정보를 획득하고, 획득된 정보에 기초하여 수신된 요청들에 대한 응답들을 제공할 수 있다.
일부 실시형태에서, 내부 프론트 엔드 시스템(105)은 웹 캐싱 시스템, 데이터베이스, 검색 시스템, 결제 시스템, 분석 시스템, 주문 모니터링 시스템 등 중 하나 이상을 포함할 수 있다. 일 측면에서, 내부 프론트 엔드 시스템(105)은 이들 시스템 중 하나 이상을 포함할 수 있고, 반면에 다른 측면에서, 내부 프론트 엔드 시스템(105)은 이들 시스템 중 하나 이상에 연결된 인터페이스들(예를 들어, 서버-대-서버, 데이터베이스-대-데이터베이스, 또는 다른 네트워크 연결들)을 포함할 수 있다.
일부 실시형태에서, 수송 시스템(107)은 시스템(100) 내의 시스템들 또는 디바이스들과 모바일 디바이스(107A 내지 107C) 사이의 통신을 가능하게 하는 컴퓨터 시스템으로서 구현될 수 있다. 일부 실시형태에서, 수송 시스템(107)은 하나 이상의 모바일 디바이스(107A 내지 107C)(예를 들어, 모바일 폰, 스마트 폰, PDA 등)로부터 정보를 수신할 수 있다. 예를 들어, 일부 실시형태에서, 모바일 디바이스(107A 내지 107C)는 배송 작업자(delivery worker)들에 의해 운영되는 디바이스들을 포함할 수 있다. 정규직(permanent) 직원, 임시(temporary) 직원 또는 교대(shift) 직원일 수 있는 배송 작업자들은 모바일 디바이스(107A 내지 107C)를 활용하여 사용자들에 의해 주문된 제품들을 포함하는 패키지들의 배송을 행할 수 있다. 예를 들어, 패키지를 배송하기 위해, 배송 작업자는 어느 패키지를 배송할 것인지와 그 패키지를 어디로 배송할 것인지를 나타내는 통지를 모바일 디바이스 상에 수신할 수 있다. 배송 위치에 도착하면, 배송 작업자는 패키지를 (예를 들어, 트럭의 후면에, 혹은 패키지들의 상자(crate)에) 위치시키거나, 모바일 디바이스를 사용하여 패키지 상의 식별자(identifier)(예를 들어, 바코드, 이미지, 텍스트 스트링(text string), RFID 태그 등)와 연관된 데이터를 스캔하거나 다른 방식으로 캡처하고, 패키지를 (예를 들어, 문 앞에 두거나, 경비원에게 맡겨 두거나, 받는 사람에게 건네주는 등으로써) 전달할 수 있다. 일부 실시형태에서, 배송 작업자는 모바일 디바이스를 사용하여 패키지의 사진(들)을 캡처하고, 및/또는 서명을 얻을 수 있다. 모바일 디바이스는, 예를 들어, 시간, 날짜, GPS 위치, 사진(들), 배송 작업자와 관련된 식별자, 모바일 디바이스와 관련된 식별자 등을 포함하는 배송에 관한 정보를 포함하는 정보를 수송 시스템(107)에 전송할 수 있다. 수송 시스템(107)은 시스템(100) 내의 다른 시스템들에 의해 액세스되도록 이 정보를 데이터베이스(도시되지 않음)에 저장할 수 있다. 일부 실시형태에서, 수송 시스템(107)은 이 정보를 사용하여 특정 패키지의 위치를 나타내는 추적 데이터를 준비하여 다른 시스템들에 전송할 수 있다.
일부 실시형태에서, 특정 사용자들은 한 종류의 모바일 디바이스를 사용할 수 있으며(예를 들어, 정규직 작업자들은 바코드 스캐너, 스타일러스 및 기타 디바이스들과 같은 맞춤형 하드웨어(custom hardware)를 갖는 전용 PDA(specialized PDA)를 사용할 수 있고), 반면에 다른 사용자들은 다른 종류의 모바일 디바이스들을 사용할 수 있다(예를 들어, 임시 또는 교대 작업자들은 기성품의(off-the-shelf) 모바일 폰 및/또는 스마트 폰을 활용할 수 있다).
일부 실시형태에서, 수송 시스템(107)은 사용자를 각 디바이스와 연관시킬 수 있다. 예를 들어, 수송 시스템(107)은, 사용자(예를 들어, 사용자 식별자, 직원 식별자 또는 전화 번호로 나타내어짐)와 모바일 디바이스(예를 들어, IMEI(International Mobile Equipment Identity), IMSI(International Mobile Subscription Identifier), 전화 번호, UUID(Universal Unique Identifier) 또는 GUID(Globally Unique Identifier)로 나타내어짐) 사이의 연관성을 저장할 수 있다. 수송 시스템(107)은, 무엇보다도, 작업자의 위치, 작업자의 효율성 또는 작업자의 속도를 결정하기 위해, 배송시 수신된 데이터와 함께 이 연관성을 사용하여 데이터베이스에 저장된 데이터를 분석할 수 있다.
일부 실시형태에서, 판매자 포털(109)은, 판매자들 또는 다른 외부 개체들이 시스템(100) 내의 하나 이상의 시스템과 전자적으로 통신할 수 있게 하는 컴퓨터 시스템으로서 구현될 수 있다. 예를 들어, 판매자는, 판매자 포털(109)을 사용하여, 판매자가 시스템(100)을 통해 판매하고 싶어하는 제품들에 대한 제품 정보, 주문 정보, 연락처 정보 등을 업로드하거나 제공하기 위해 컴퓨터 시스템(도시되지 않음)을 활용할 수 있다.
일부 실시형태에서, 선적 및 주문 추적 시스템(111)은, 고객들에 의해(예를 들어, 디바이스(102A 및 102B)를 사용하는 사용자에 의해) 주문된 제품들을 포함하는 패키지들의 위치에 관한 정보를 수신하고, 저장하고, 전달하는 컴퓨터 시스템으로서 구현될 수 있다. 일부 실시형태에서, 선적 및 주문 추적 시스템(111)은, 고객들에 의해 주문된 제품들을 포함하는 패키지들을 배송하는 운송 회사들에 의해 운영되는 웹 서버들(도시되지 않음)로부터, 정보를 요청하거나 저장할 수 있다.
일부 실시형태에서, 선적 및 주문 추적 시스템(111)은 시스템(100) 내에 도시된 시스템들로부터 정보를 요청하고 저장할 수 있다. 예를 들어, 선적 및 주문 추적 시스템(111)은 수송 시스템(107)으로부터 정보를 요청할 수 있다. 위에서 논의된 바와 같이, 수송 시스템(107)은, 하나 이상의 사용자(예를 들어, 배송 작업자) 또는 차량(예를 들어, 배송 트럭)과 연관된 하나 이상의 모바일 디바이스(107A 내지 107C)(예를 들어, 모바일 폰, 스마트 폰, PDA 등)로부터 정보를 수신할 수 있다. 일부 실시형태에서, 선적 및 주문 추적 시스템(111)은 또한, 풀필먼트 센터(예를 들어, 풀필먼트 센터(200)) 내부의 개별 제품의 위치를 결정하기 위해, 창고 관리 시스템(WMS)(119)으로부터 정보를 요청할 수 있다. 선적 및 주문 추적 시스템(111)은, 수송 시스템(107) 또는 WMS(119) 중 하나 이상으로부터 데이터를 요청하고, 데이터를 처리하고, 요청 시 데이터를 디바이스(예를 들어, 사용자 디바이스(102A 및 102B))에 제시할 수 있다.
일부 실시형태에서, 풀필먼트 최적화(FO) 시스템(113)은, 다른 시스템들(예를 들어, 외부 프론트 엔드 시스템(103) 및/또는 선적 및 주문 추적 시스템(111))로부터의 고객 주문들에 관한 정보를 저장하는 컴퓨터 시스템으로서 구현될 수 있다. FO 시스템(113)은 또한, 특정 물품들이 어디에 보유되거나 저장되는지를 설명하는 정보를 저장할 수 있다. 예를 들어, 특정 물품들은 하나의 풀필먼트 센터에만 저장될 수 있고, 반면에 특정 다른 물품들은 다수의 풀필먼트 센터에 저장될 수 있다. 또 다른 실시형태에서, 특정 풀필먼트 센터들은 특정 세트의 물품들(예를 들어, 신선 제품 또는 냉동 제품)만을 저장하도록 설계될 수 있다. FO 시스템(113)은, 이 정보뿐만 아니라 관련 정보(예를 들어, 수량, 크기, 영수증의 날짜, 만료일 등)를 저장한다.
FO 시스템(113)은 또한, 각 제품의 대응하는 PDD(promised delivery date)를 계산할 수 있다. 일부 실시형태에서, PDD는 하나 이상의 인자에 기초할 수 있다. 예를 들어, FO 시스템(113)은, 제품에 대한 과거 수요(예를 들어, 한 기간 동안 제품이 얼마나 자주 주문되었는지), 제품에 대한 예상 수요(다가오는 기간 동안 얼마나 많은 고객들이 해당 제품을 주문할 것으로 예측되는지), 한 기간 동안 얼마나 많은 제품들이 주문되었는지를 나타내는 네트워크-전역(network-wide) 과거 수요, 다가오는 기간 동안 얼마나 많은 제품들이 주문될 것인지 예상되는 것을 나타내는 네트워크-전역 예상 수요, 각 풀필먼트 센터(200)에 저장되는 제품에 대한, 풀필먼트 센터가 각 제품마다 저장하는 하나 이상의 카운트, 해당 제품에 대한 예상 주문 또는 현재 주문 등에 기초하여, 제품에 대한 PDD를 계산할 수 있다.
일부 실시형태에서, FO 시스템(113)은, 주기적으로(예를 들어, 시간마다) 각 제품에 대한 PDD를 결정하고, 이를 리트리벌(retrieval)을 위해 데이터베이스에 저장하거나, 다른 시스템들(예를 들어, 외부 프론트 엔드 시스템(103), SAT 시스템(101), 선적 및 주문 추적 시스템(111))에 전송할 수 있다. 다른 실시형태에서, FO 시스템(113)은, 하나 이상의 시스템(예를 들어, 외부 프론트 엔드 시스템(103), SAT 시스템(101), 선적 및 주문 추적 시스템(111))으로부터 전자식 요청들(electronic requests)을 수신하고, 요구 시(on demand) PDD를 계산할 수 있다.
일부 실시형태에서, 풀필먼트 메시징 게이트웨이(FMG)(115)는, 시스템(100) 내의 하나 이상의 시스템, 예를 들어, FO 시스템(113)으로부터 하나의 포맷 또는 프로토콜로 요청 또는 응답을 수신하고, 요청 또는 응답을 다른 포맷 또는 프로토콜로 변환하고, 변환된 포맷 또는 프로토콜로 요청 또는 응답을 다른 시스템, 예를 들어, WMS(119) 또는 제3자의 풀필먼트 시스템(121A, 121B 또는 121C), 에 전달하거나, 그 반대도 성립하는 컴퓨터 시스템으로서 구현될 수 있다.
일부 실시형태에서, 공급 체인 관리(SCM) 시스템(117)은 예측 기능들을 수행하는 컴퓨터 시스템으로서 구현될 수 있다. 예를 들어, SCM 시스템(117)은, 예를 들어, 제품들에 대한 과거 수요, 제품에 대한 예상 수요, 네트워크-전역 과거 수요, 네트워크-전역 예상 수요, 각 풀필먼트 센터(200)에 저장되는 제품들 카운트(count products), 각 제품에 대한 예상 주문 또는 현재 주문 등에 기초하여 특정 제품에 대한 수요 레벨(level of demand)을 예측할 수 있다. 모든 풀필먼트 센터에 걸쳐 각 제품에 대한 이 예측된 레벨 및 양에 응답하여, SCM 시스템(117)은, 특정 제품에 대한 예측된 수요를 만족시키기에 충분한 수량을 구매하고 비축(stock)하기 위해서 하나 이상의 구매 주문을 생성할 수 있다.
일부 실시형태에서, 창고 관리 시스템(WMS)(119)은 작업 흐름을 모니터링하는 컴퓨터 시스템으로서 구현될 수 있다. 예를 들어, WMS(119)는 개별 이벤트(discrete events)를 나타내는 개별 디바이스(예를 들어, 디바이스(107A 내지 107C 또는 119A 내지 119C))로부터 이벤트 데이터를 수신할 수 있다. 예를 들어, WMS(119)는 패키지를 스캔하기 위해 이들 디바이스 중 하나의 사용을 나타내는 이벤트 데이터를 수신할 수 있다. 풀필먼트 센터(200) 및 도 2에 관련하여 아래에 논의되는 바와 같이, 풀필먼트 프로세스 동안, 패키지 식별자(예를 들어, 바코드 또는 RFID 태그 데이터)는 특정 단계에서 기계들(예를 들어, 자동화되거나 휴대형의 바코드 스캐너, RFID 판독기, 고속 카메라, 태블릿(119A), 모바일 디바이스/PDA(119B), 컴퓨터(119C) 등과 같은 디바이스)에 의해 스캐닝되거나 판독될 수 있다. WMS(119)는, 패키지 식별자, 시간, 날짜, 위치, 사용자 식별자 또는 기타 정보와 함께 대응하는 데이터베이스(도시되지 않음)에 패키지 식별자의 스캔 또는 판독을 나타내는 각 이벤트를 저장할 수 있고, 이 정보를 다른 시스템(예를 들어, 선적 및 주문 추적 시스템(111))에 제공할 수 있다.
일부 실시형태에서, WMS(119)는 하나 이상의 디바이스(예를 들어, 디바이스(107A 내지 107C 또는 119A 내지 119C))를 시스템(100)과 연관된 하나 이상의 사용자와 관련시킨 정보를 저장할 수 있다. 예를 들어, 일부 상황에서, 사용자(예를 들어, 시간제 또는 전일제 직원)는, 사용자가 모바일 디바이스(예를 들어, 모바일 디바이스는 스마트 폰임)를 소유한다는 점에서, 모바일 디바이스와 연관될 수 있다. 다른 상황에서, 사용자는, 사용자가 일시적으로 모바일 디바이스를 소유하고 있다(예를 들어, 사용자는 하루의 시작 시에 모바일 디바이스를 체크 아웃하고, 하루 동안 사용할 것이고, 하루가 끝나면 반환할 것이다)는 점에서, 모바일 디바이스와 연관될 수 있다.
일부 실시형태에서, WMS(119)는 시스템(100)과 연관된 각 사용자에 대한 작업 로그(work log)를 유지할 수 있다. 예를 들어, WMS(119)는, 임의의 할당된 프로세스(예를 들어, 트럭 하역하기(unloading trucks), 픽 구역(pick zone)으로부터 물품 피킹하기, 리빈 월 작업(rebin wall work), 물품 포장하기), 사용자 식별자, 위치(예를 들어, 풀필먼트 센터(200) 내의 층 또는 구역), 직원에 의해 시스템을 통해 이동된 다수의 유닛(예를 들어, 피킹된 물품의 수, 포장된 물품의 수), 디바이스(예를 들어, 디바이스(119A 내지 119C))와 관련된 식별자 등을 포함하여, 각 직원과 연관된 정보를 저장할 수 있다. 일부 실시형태에서, WMS(119)는 디바이스(119A 내지 119C)상에서 운영되는 시간 기록 시스템(timekeeping system)과 같은 시간 기록 시스템으로부터 체크 인 및 체크 아웃 정보를 수신할 수 있다.
일부 실시형태에서, 제3자의 풀필먼트(3PL) 시스템(121A 내지 121C)은 물류 및 제품의 제3자 제공자와 연관된 컴퓨터 시스템을 나타낸다. 예를 들어, 일부 제품은 (도 2와 관련하여 후술되는 바와 같이) 풀필먼트 센터(200)에 저장되지만, 다른 제품들은 장외(off-site)에 저장될 수 있거나, 요구 시 생산될 수 있거나, 달리 풀필먼트 센터(200)에 저장되어 이용 가능하지 않을 수 있다. 3PL 시스템(121A 내지 121C)은, (예를 들어, FMG(115)를 통해) FO 시스템(113)으로부터 주문을 수신하도록 구성될 수 있고, 제품 및/또는 서비스(예를 들어, 배송 또는 설치)를 고객들에게 직접 제공할 수 있다. 일부 실시형태에서, 3PL 시스템(121A 내지 121C) 중 하나 이상은 시스템(100)의 일부일 수 있고, 반면에 다른 실시형태에서, 3PL 시스템(121A 내지 121C) 중 하나 이상은 시스템(100) 외부에 있을 수 있다(예를 들어, 제3자 제공자에 의해 소유되거나 운영된다).
일부 실시형태에서, 풀필먼트 센터 인증 시스템(FC Auth)(123)은 다양한 기능들을 갖는 컴퓨터 시스템으로서 구현될 수 있다. 예를 들어, 일부 실시형태에서, FC Auth(123)은 시스템(100) 내의 하나 이상의 다른 시스템에 대한 SSO(single-sign on) 서비스로서 작용할 수 있다. 예를 들어, FC Auth(123)은 사용자가 내부 프론트 엔드 시스템(105)을 통해 로그인할 수 있게 하고, 사용자가 선적 및 주문 추적 시스템(111)에서 리소스들에 액세스할 수 있는 유사한 권한들(privileges)을 가지고 있는 것으로 결정하고, 사용자가 제2 로그 인 프로세스(second log in process)를 필요로 하지 않고 이들 권한에 액세스할 수 있게 한다. 다른 실시형태에서, FC Auth(123)은 사용자들(예를 들어, 직원들)이 그들 자신을 특정 작업과 연관시킬 수 있게 한다. 예를 들어, 일부 직원은 전자 디바이스(예를 들어, 디바이스(119A 내지 119C))를 갖지 않을 수 있고, 대신에 하루의 일과에서(during the course of a day), 풀필먼트 센터(200) 내에서, 작업별로, 그리고 구역별로, 이동할 수 있다. FC Auth(123)은 이들 직원이 어떤 작업을 행하고 있는지와, 그들이 하루 중 서로 다른 시각에 어느 구역에 있는지를 나타낼 수 있도록 구성될 수 있다.
일부 실시형태에서, 노동 관리 시스템(LMS)(125)은 직원들(전일제 및 시간제 직원들을 포함)에 대한 출근 및 초과 근무 정보(attendance and overtime information)를 저장하는 컴퓨터 시스템으로서 구현될 수 있다. 예를 들어, LMS(125)는 FC Auth(123), WMS(119), 디바이스(119A 내지 119C), 수송 시스템(107) 및/또는 디바이스(107A 내지 107C)로부터 정보를 수신할 수 있다.
도 1a에 도시된 특정 컨피겨레이션은 단지 예시이다. 예를 들어, 도 1a는 FO 시스템(113)에 연결된 FC Auth 시스템(123)을 도시하지만, 모든 실시형태가 이 특정 컨피겨레이션을 요구하는 것은 아니다. 실제로, 일부 실시형태에서, 시스템(100) 내의 시스템들은, 인터넷, 인트라넷, WAN(Wide-Area Network), MAN(Metropolitan-Area Network), IEEE 802.11a/b/g/n 표준과 호환되는 무선 네트워크, 전용 회선(leased line) 등을 포함하는 하나 이상의 공개 또는 비공개 네트워크를 통해 서로 연결될 수 있다. 일부 실시형태에서, 시스템(100) 내의 시스템들 중 하나 이상은 데이터 센터, 서버 팜(server farm) 등에 구현되는 하나 이상의 가상 서버로서 구현될 수 있다.
도 2는 풀필먼트 센터(200)를 도시한다. 풀필먼트 센터(200)는 주문 시 고객들에게 운송되기 위한 물품들을 저장하는 물리적 위치의 예이다. 풀필먼트 센터(FC)(200)는 다수의 구역으로 분할될 수 있고, 이들 구역 각각은 도 2에 도시되어 있다. 일부 실시형태에서, 이들 "구역"은 물품들을 수신하고, 물품들을 저장하고, 물품들을 리트리브(retrieve)하고, 물품들을 운송하는 프로세스의 상이한 단계들 사이의 가상 분할(virtual divisions)로 여겨질 수 있다. 따라서, "구역들"이 도 2에 도시되어 있지만, 구역들에 대한 다른 분할이 가능하고, 일부 실시형태에서, 도 2의 구역들이 생략되거나, 복제되거나, 수정될 수 있다.
인바운드 구역(203)은 도 1a로부터 시스템(100)을 사용하여 제품들을 판매하고 싶어하는 판매자들로부터 물품들이 수신되는 FC(200)의 영역을 나타낸다. 예를 들어, 판매자는 트럭(201)을 사용하여 물품(202A 및 202B)을 배송할 수 있다. 물품(202A)은 그 자체의 운송 팔레트(shipping pallet)를 점유하기에 충분히 큰 단일 물품을 나타낼 수 있고, 반면에 물품(202B)은 공간을 절약하기 위해 동일한 팔레트 상에 함께 적재된 물품들의 세트를 나타낼 수 있다.
작업자는 인바운드 구역(203)에서 물품을 수신하고, 선택적으로 컴퓨터 시스템(도시되지 않음)을 사용하여 물품들의 손상 및 정확성에 대해 체크할 수 있다. 예를 들어, 작업자는 컴퓨터 시스템을 사용하여 물품(202A 및 202B)의 수량을 물품의 주문 수량과 비교할 수 있다. 수량이 매칭되지(match) 않으면, 그 작업자는 물품(202A 또는 202B) 중 하나 이상을 거부할 수 있다. 수량이 매칭되면, 작업자는 (예를 들어, 돌리(dolly), 핸드 트럭, 지게차(forklift)를 이용하거나 수동으로) 이들 물품을 버퍼 구역(205)으로 이동시킬 수 있다. 버퍼 구역(205)은, 예를 들어, 피킹 구역에 예측된 수요를 충족시키기에 매우 충분한 수량의 해당 물품이 있기 때문에, 피킹 구역에서 현재 필요하지 않은 물품들에 대한 임시 스토리지 영역일 수 있다. 일부 실시형태에서, 지게차(206)는 버퍼 구역(205) 주위에서, 그리고 인바운드 구역(203)과 드롭 구역(207) 사이에서 물품들을 이동시키도록 동작된다. 피킹 구역에서 물품(202A 또는 202B)이 필요하다면(예를 들어, 예측된 수요로 인함), 지게차는 물품(202A 또는 202B)을 드롭 구역(207)으로 이동시킬 수 있다.
드롭 구역(207)은, 물품들이 피킹 구역(209)으로 이동되기 전에 물품들을 저장하는 FC(200)의 영역일 수 있다. 피킹 작업에 할당된 작업자("피커(picker)")는, 피킹 구역에서 물품(202A 및 202B)에 접근하고, 피킹 구역에 대한 바코드를 스캔하고, 모바일 디바이스(예를 들어, 디바이스 (119B))를 사용하여 물품(202A 및 202B)과 연관된 바코드를 스캔할 수 있다. 그 후, 피커는 (예를 들어, 물품을 카트에 담거나 운반함으로써) 물품을 피킹 구역(209)으로 가져갈 수 있다.
피킹 구역(209)은 물품(208)이 스토리지 유닛(210) 상에 저장되는 FC(200)의 영역일 수 있다. 일부 실시형태에서, 스토리지 유닛(210)은 물리적 선반, 책장, 박스, 토트(totes), 냉장고, 냉동고, 냉장 창고(cold stores) 등 중 하나 이상을 포함할 수 있다. 일부 실시형태에서, 피킹 구역(209)은 다수의 층으로 구성될 수 있다. 일부 실시형태에서, 작업자 또는 기계는, 예를 들어, 지게차, 엘리베이터, 컨베이어 벨트, 카트, 핸드 트럭, 돌리, 자동화된 로봇 또는 디바이스를 포함하여 여러 방식으로, 또는 수동으로 물품을 피킹 구역(209)으로 이동시킬 수 있다. 예를 들어, 피커는 드롭 구역(207)에서 핸드 트럭 또는 카트 상에 물품(202A 및 202B)을 담고, 물품(202A 및 202B)을 피킹 구역(209)까지 걸어서 운반할 수 있다.
피커는, 스토리지 유닛(210)상의 특정 공간과 같이, 피킹 구역(209)의 특정 지점(particular spots)에 물품을 배치(또는 "수납")하라는 명령어(instruction)를 수신할 수 있다. 예를 들어, 피커는 모바일 디바이스(예를 들어, 디바이스(119B))를 사용하여 물품(202A)을 스캔할 수 있다. 디바이스는, 예를 들어, 통로(aisle), 선반 및 위치를 나타내는 시스템을 사용하여 피커가 물품(202A)을 수납해야 하는 위치를 나타낼 수 있다. 그 후, 디바이스는 그 위치에 물품(202A)을 수납하기 전에 피커가 그 위치에서 바코드를 스캔하도록 촉구할 수 있다. 디바이스는, 디바이스(119B)를 사용하는 사용자에 의해 그 위치에 물품(202A)이 수납되었음을 나타내는 데이터를, (예를 들어, 무선 네트워크를 통해) 도 1a의 WMS(119)와 같은 컴퓨터 시스템에 전송할 수 있다.
사용자가 주문을 하면, 피커는 스토리지 유닛(210)으로부터 하나 이상의 물품(208)을 리트리브하라는 명령어를 디바이스(119B)상에 수신할 수 있다. 피커는, 물품(208)을 리트리브하고, 물품(208)상의 바코드를 스캔하고, 물품을 수송 메커니즘(transport mechanism)(214) 상에 배치할 수 있다. 수송 메커니즘(214)은, 슬라이드로 나타내어져 있지만, 일부 실시형태에서, 수송 메커니즘은 컨베이어 벨트, 엘리베이터, 카트, 지게차, 핸드 트럭, 돌리, 카트 등 중 하나 이상으로서 구현될 수 있다. 그 후, 물품(208)은 포장 구역(packing zone)(211)에 도착할 수 있다.
포장 구역(211)은, 물품이 피킹 구역(209)으로부터 수신되어 고객에게 최종 운송되기 위해 박스 또는 백(bags)에 포장되는 FC(200)의 영역일 수 있다. 포장 구역(211)에서, 물품 수신에 할당된 작업자("리빈 작업자")는 피킹 구역(209)으로부터 물품(208)을 수신하고 그것이 어느 주문에 대응하는지를 결정할 것이다. 예를 들어, 리빈 작업자는 컴퓨터(119C)와 같은 디바이스를 사용하여 물품(208)상의 바코드를 스캔할 수 있다. 컴퓨터(119C)는 물품(208)이 어느 주문과 연관되는지를 시각적으로 나타낼 수 있다. 이는, 예를 들어, 주문에 대응하는 공간 또는 벽(216)의 "셀"을 포함할 수 있다. 일단 주문이 완료되면 (예를 들어, 셀은 주문에 대한 모든 물품을 포함하기 때문에), 리빈 작업자는 주문이 완료된 것을 포장 작업자(packing worker)(또는 "패커(packer)")에게 나타낼 수 있다. 패커는 셀로부터 물품들을 리트리브하여 운송을 위해 박스 또는 백에 담을 수 있다. 그 후, 패커는 예를 들어, 지게차, 카트, 돌리, 핸드 트럭, 컨베이어 벨트를 통해, 박스 또는 백을 허브 구역(213)으로 수동으로 또는 다른 방식으로 전송할 수 있다.
허브 구역(213)은 포장 구역(211)으로부터 모든 박스 또는 백("패키지")을 수신하는 FC(200)의 영역일 수 있다. 허브 구역(213)의 작업자 및/또는 기계는, 패키지(218)를 리트리브하고, 각 패키지가 배송 지역 중 어느 부분으로 가고자 의도되는지를 결정하고, 패키지를 적절한 캠프 구역(215)으로 라우팅할 수 있다. 예를 들어, 배송 지역이 2개의 더 작은 하위-지역(sub-areas)을 갖는 경우, 패키지는 2개의 캠프 구역(215) 중 하나로 갈 것이다. 일부 실시형태에서, 작업자 또는 기계는 (예를 들어, 디바이스(119A 내지 119C) 중 하나를 사용하여) 패키지를 스캔하여 그 최종 목적지를 결정할 수 있다. 패키지를 캠프 구역(215)으로 라우팅하는 것은, 예를 들어, (예를 들어, 우편 번호에 기초하여) 패키지가 예정되어 있는 지리적 지역의 일부를 결정하는 것, 및 지리적 지역의 일부와 연관된 캠프 구역(215)을 결정하는 것을 포함할 수 있다.
일부 실시형태에서, 캠프 구역(215)은 하나 이상의 건물, 하나 이상의 물리적 공간 또는 하나 이상의 지역을 포함할 수 있고, 패키지는 루트 및/또는 서브-루트로 분류되기 위해 허브 구역(213)으로부터 수신된다. 일부 실시형태에서, 캠프 구역(215)은 FC(200)로부터 물리적으로 분리되고, 반면에 다른 실시형태에서, 캠프 구역(215)은 FC(200)의 일부를 형성할 수 있다.
캠프 구역(215) 내의 작업자 및/또는 기계는, 예를 들어, 목적지를 기존의 루트 및/또는 서브-루트와 비교하는 것, 각 루트 및/또는 서브-루트에 대한 작업 부하를 계산하는 것, 하루 중 시각(the time of day), 운송 방법, 패키지(220)를 운송하기 위한 비용, 패키지(220) 내의 물품과 연관된 PDD 등에 기초하여, 패키지(220)가 어느 루트 및/또는 서브-루트와 연관되어야 하는지를 결정할 수 있다. 일부 실시형태에서, 작업자 또는 기계는 (예를 들어, 디바이스(119A 내지 119C) 중 하나를 사용하여) 패키지를 스캔하여 그 최종 목적지를 결정할 수 있다. 일단 패키지(220)가 특정 루트 및/또는 서브-루트에 할당되면, 작업자 및/또는 기계는, 운송될 패키지(220)를 이동시킬 수 있다. 예시적인 도 2에서, 캠프 구역(215)은 트럭(222), 자동차(226) 및 배송 작업자(224A 및 224B)를 포함한다. 일부 실시형태에서, 트럭(222)은 배송 작업자(224A)에 의해 구동될 수 있고, 배송 작업자(224A)는 FC(200)를 위한 패키지를 배달하는 전일제 직원이고, 트럭(222)은, FC(200)를 소유하거나, 임대하거나, 운영하는 동일한 회사에 의해 소유되거나, 임대되거나, 운영된다. 일부 실시형태에서, 자동차(226)는 배송 작업자(224B)에 의해 운전될 수 있고, 배송 작업자(224B)는 필요에 따라(on an as-needed basis)(예를 들어, 계절에 따라) 배달하는 "가변적인(flex)" 또는 비정기적인 작업자(occasional worker)이다. 자동차(226)는 배송 작업자(224B)에 의해 소유되거나, 임대되거나, 운영될 수 있다.
도 3은 기계 학습 모델에서 사용하기 위한 데이터를 처리하도록 구성된 피처 저장소를 포함하는 시스템(300)의 예시적인 실시형태를 도시하는 개략적인 블록도이다. 시스템(300)은 다양한 컴퓨터화된 시스템을 포함할 수 있고, 이들 각각은 하나 이상의 네트워크를 통해 서로 연결될 수 있다. 일부 실시형태에서, 도 3에 도시된 요소들 각각은 시스템의 그룹, 시스템의 네트워크 내의 개별 시스템, 시스템 내부의 기능 유닛 또는 모듈, 또는 이들의 임의의 조합을 나타낼 수 있다. 그리고 일부 실시형태에서, 각각의 요소는 인터넷, 인트라넷, WAN(Wide-Area Network)(광역 네트워크), MAN(Metropolitan-Area Network)(도시권 네트워크), IEEE 802.11a/b/g/n 표준과 호환되는 무선 네트워크, 유선 네트워크 등을 포함하는 하나 이상의 공개 또는 비공개 네트워크 연결을 통해 서로 통신할 수 있다. 개별 시스템은 또한 하나의 지리적 위치 내에 위치하거나 지리적으로 분산되어 있을 수 있다.
일부 실시형태에서, 도시된 시스템은 피처 저장소(310), 사용자 디바이스(320), 작업 데이터베이스(330), 센서 데이터베이스(340), 복수의 원시(raw) 피처 데이터베이스(350), 및 기계 학습 모델(360)을 포함할 수 있다. 여러 개의 데이터베이스, 기계 학습 모델 및 사용자 디바이스가 도 3에 도시되어 있는데, 그 수는 예시일 뿐이며 더 적은 수의 또는 추가적인 데이터베이스, 기계 학습 모델 및 사용자 디바이스가 구현될 수 있다.
도 3에 도시된 각 시스템은 서버, 범용 컴퓨터, 메인프레임 컴퓨터, 그래픽 처리 유닛(GPU)과 같은 특수 목적 컴퓨팅 디바이스, 랩톱 또는 이러한 컴퓨팅 디바이스의 임의의 조합의 형태를 취할 수 있다. 다른 실시형태에서, 각각의 시스템 또는 시스템의 서브세트는 단일 시스템의 하나 이상의 기능 유닛으로서 구현될 수 있다. 추가적으로 또는 대안적으로, 각각의 시스템 또는 그 서브세트는 독립형(standalone) 시스템이거나 보다 큰 시스템의 일부일 수 있는 서브시스템의 일부일 수 있다.
일부 실시형태에서, 피처 저장소(310)는 기계 학습 모델에서 사용하기 위한 데이터를 처리하고 저장하도록 구성된 임의의 컴퓨터화된 시스템일 수 있다. 일부 실시형태에서, 데이터는 데이터 샘플의 측정 가능한 속성을 지칭할 수 있는 피처를 포함할 수 있다. 예를 들어, 피처는 이미지 픽셀, 텍스트 스트링으로부터의 단어, 사람의 나이, 센서로부터 방출되는 좌표, 지난 1시간 내의 평균 구매 수와 같은 집계 값 등일 수 있다. 피처는 파일 및/또는 데이터베이스 테이블에서 직접 추출되거나 하나 이상의 데이터 소스로부터 계산된 유도된 값일 수 있다. 피처는 기계 학습 모델이 아직 존재하지 않는 피처 값에 대한 예측을 행할 수 있도록 훈련을 위해 기계 학습 모델에 의해 사용될 수 있다. 피처 저장소(310)는 하나 이상의 프로세서(312) 및 데이터 저장소(316)를 포함할 수 있는 메모리(314)를 포함할 수 있다. 메모리(314)는 프로세서(312)에 의한 실행을 위해 복수의 프로그램 및/또는 명령어를 저장하도록 구성될 수 있고, 일부 실시형태에서, 랜덤 액세스 메모리, 플래시 메모리, 하드 디스크 등을 포함할 수 있다. 프로그램 및/또는 명령어는 도 4를 참조하여 아래에서 보다 상세히 설명된다.
프로세서(312)는 예를 들어 Intel™에 의해 제조된 Pentium™ 또는 Xeon™ 제품군, 또는 AMD™에 의해 제조된 Turion™ 제품군으로부터의 마이크로프로세서와 같은 하나 이상의 알려진 처리 디바이스를 포함할 수 있다. 개시된 실시형태는 피처 저장소(310)의 상이한 구성요소에 필요되는 컴퓨팅 요구를 충족시키도록 달리 구성된 임의의 유형의 프로세서(들)에 제한되지 않는다. 프로세서(312)는 기계 학습 모델에서 사용하기 위한 데이터를 처리하고 저장하기 위해 메모리(314)에 포함된 프로그램 또는 명령어를 실행할 수 있다.
일부 실시형태에서, 사용자 디바이스(320)는, 적어도 사용자에게, 파이프라인을 생성하고, 사용자 인터페이스를 디스플레이하고, 사용자 인터페이스를 통해 사용자로부터 입력을 수신하라는 요청을 전송할 수 있게 허용하도록 구성되는 임의의 컴퓨터화된 시스템일 수 있다. 사용자 디바이스(320)는 모바일 디바이스(102A), 컴퓨터(102B), 모바일 디바이스(107A-107C), 외부 프론트 엔드 시스템(103), 내부 프론트 엔드 시스템(105), 모바일 디바이스(119A-119C), 또는 도 1a에 도시된 임의의 다른 시스템 중 하나 이상일 수 있다. 일부 실시형태에서, 사용자 디바이스(320)는 개시된 네트워크를 통해 피처 저장소(310)에 대해 데이터를 전송하고 수신하도록 구성될 수 있다. 사용자 디바이스(320)는 스마트폰, 랩톱 또는 노트북 컴퓨터, 태블릿, 다기능 시계, 한 쌍의 다기능 안경, 컴퓨팅 능력을 구비한 임의의 모바일 또는 웨어러블 디바이스, 또는 이들 컴퓨터의 임의의 조합 및/또는 연계된 구성요소를 포함하지만 이에 국한되지 않는 개인용 컴퓨팅 디바이스일 수 있다.
일부 실시형태에서, 작업 데이터베이스(330)는 기계 학습 모델에서 사용하기 위한 데이터를 처리하기 위해 프로세서(312)에 의해 사용될 수 있는 하나 이상의 작업을 저장하는 데 사용될 수 있다. 작업 데이터베이스(330)는 정보를 저장하고 시스템(300)의 하나 이상의 구성요소에 의해 액세스 및/또는 관리될 수 있는 하나 이상의 메모리 디바이스를 포함할 수 있다. 예를 들어, 작업 데이터베이스(330)는 Oracle™ 데이터베이스, Sybase™ 데이터베이스, 또는 기타 관계형 데이터베이스 또는 Hadoop 시퀀스 파일, HBase 또는 Cassandra와 같은 비관계형 데이터베이스를 포함할 수 있다. 작업 데이터베이스(330)는 작업 데이터베이스(330)의 메모리 디바이스에 저장된 데이터에 대한 요청을 수신 및 처리하고 작업 데이터베이스(330)로부터 데이터를 제공하도록 구성된 컴퓨팅 구성요소(예컨대, 데이터베이스 관리 시스템, 데이터베이스 서버 등)를 포함할 수 있다. 일부 실시형태에서, 작업 데이터베이스(330)는 개시된 네트워크를 통해 피처 저장소(310)에 대해 데이터를 전송하고 수신하도록 구성될 수 있다. 다른 실시형태에서, 피처 저장소(310)는 그 안에 국부적으로 작업 데이터베이스(330)를 저장할 수 있다. 예를 들어, 작업 데이터베이스(330)는 메모리(314)에 저장될 수 있다. 일부 실시형태에서, 작업 데이터베이스(330)는 적어도 사전에 결정된 작업 및/또는 사용자 디바이스(320)를 조작하는 사용자에 의해 규정된 작업을 포함할 수 있다.
일부 실시형태에서, 센서 데이터베이스(340)는 외부 트리거를 모니터링하기 위해 프로세서(312)에 의해 사용될 수 있는 하나 이상의 센서를 저장하는 데 사용될 수 있다. 일부 실시형태에서, 센서는 프로세서(312)가 피처의 조기(premature) 판독을 취하는 것을 보호할 수 있다. 일부 실시형태에서, 센서는 외부 트리거의 상태를 샘플링함으로써 적어도 하나의 외부 트리거를 모니터링 및/또는 대기하는 소프트웨어를 지칭할 수 있다. 센서 데이터베이스(340)는 정보를 저장하고 시스템(300)의 하나 이상의 구성요소에 의해 액세스 및/또는 관리될 수 있는 하나 이상의 메모리 디바이스를 포함할 수 있다. 예를 들어, 센서 데이터베이스(340)는 Oracle™ 데이터베이스, Sybase™ 데이터베이스, 또는 기타 관계형 데이터베이스 또는 Hadoop 시퀀스 파일, HBase 또는 Cassandra와 같은 비관계형 데이터베이스를 포함할 수 있다. 센서 데이터베이스(340)는 센서 데이터베이스(340)의 메모리 디바이스에 저장된 데이터에 대한 요청을 수신 및 처리하고 센서 데이터베이스(340)로부터 데이터를 제공하도록 구성된 컴퓨팅 구성요소(예를 들어, 데이터베이스 관리 시스템, 데이터베이스 서버 등)를 포함할 수 있다. 일부 실시형태에서, 센서 데이터베이스(340)는 개시된 네트워크를 통해 피처 저장소(310)에 대해 데이터를 전송하고 수신하도록 구성될 수 있다. 다른 실시형태에서, 피처 저장소(310)는 그 안에 국부적으로 센서 데이터베이스(340)를 저장할 수 있다. 예를 들어, 센서 데이터베이스(340)는 메모리(314)에 저장될 수 있다. 일부 실시형태에서, 센서 데이터베이스(340)는 적어도 사전에 결정된 센서 및/또는 사용자 디바이스(320)를 조작하는 사용자에 의해 규정된 센서를 포함할 수 있다.
일부 실시형태에서, 원시 피처 데이터베이스(350)는 기계 학습 모델에서 사용하기 위한 큐레이팅된(curated) 피처를 생성하기 위해 파이프라인 내의 하나 이상의 작업에 대한 입력으로서 프로세서(312)에 의해 사용될 수 있는 복수의 원시 피처를 저장하는 데 사용될 수 있다. 원시 피처 데이터베이스(350)는 정보를 저장하고 시스템(300)의 하나 이상의 구성요소에 의해 액세스 및/또는 관리될 수 있는 하나 이상의 메모리 디바이스를 포함할 수 있다. 예를 들어, 원시 피처 데이터베이스(350)는 Oracle™ 데이터베이스, Sybase™ 데이터베이스, 또는 기타 관계형 데이터베이스 또는 Hadoop 시퀀스 파일, HBase 또는 Cassandra와 같은 비관계형 데이터베이스를 포함할 수 있다. 원시 피처 데이터베이스(350)는 원시 피처 데이터베이스(350)의 메모리 디바이스에 저장된 데이터에 대한 요청을 수신 및 처리하고 원시 피처 데이터베이스(350)로부터 데이터를 제공하도록 구성된 컴퓨팅 구성요소(예컨대, 데이터베이스 관리 시스템, 데이터베이스 서버 등)를 포함할 수 있다. 일부 실시형태에서, 원시 피처 데이터베이스(350)는 개시된 네트워크를 통해 피처 저장소(310)에 대해 데이터를 전송하고 수신하도록 구성될 수 있다. 다른 실시형태에서, 피처 저장소(310)는 그 안에 원시 피처 데이터베이스(350)를 저장할 수 있다. 예를 들어, 원시 피처 데이터베이스(350)는 메모리(314)에 저장될 수 있다. 일부 실시형태에서, 원시 피처 데이터베이스(350)는 외부 시스템에 의해, 프로세서(312)에 의해 및/또는 사용자 디바이스(320)를 조작하는 사용자에 의해 자동으로 생성된 원시 피처를 적어도 포함할 수 있다.
일부 실시형태에서, 기계 학습 모델(360)은 분류 모델, 신경망(neural network) 모델, 랜덤 포레스트(random forest) 모델, 컨볼루션(Convolutional) 신경망 모델, 딥 러닝(deep learning) 모델, 재귀(recurrent) 신경망 모델, 지원 벡터 기계(support vector machine) 모델, 지원 벡터 기계 학습(support vector machine learning) 모델, 앙상블 예측(ensemble prediction) 모델, 적응형 네트워크 기반 추론(Adaptive Network Based Inference) 시스템 또는 임의의 기타 기계 학습 모델 중 임의의 것을 포함할 수 있지만 이에 제한되지는 않는다. 일부 실시형태에서, 기계 학습 모델(360)은 서버, 범용 컴퓨터, 메인프레임 컴퓨터, 그래픽 처리 유닛(GPU)과 같은 특수 목적 컴퓨팅 디바이스, 랩톱, 또는 이러한 컴퓨팅 디바이스들의 임의의 조합에서 작동 가능한 소프트웨어로 구현될 수 있다. 당해 기술 분야의 통상의 기술자가 이해하는 바와 같이, 기계 학습은 작업을 수행하기 위해 모델을 훈련시키는 것을 포함할 수 있고, 훈련은 모델에 예시적인 훈련 데이터를 제공하고 훈련 기준이 만족될 때까지 모델 파라미터(parameter)를 반복적으로 최적화하는 것을 포함할 수 있다. 예를 들어, 모델은 레이블이 지정된(labelled) 데이터 세트를 사용하여 데이터를 분류하도록 훈련될 수 있다. 일부 실시형태에서, 모델은 훈련 출력 데이터와 밀접하게 매칭(match)하는 출력을 생성하기 위해 훈련 입력 데이터를 사용하도록 훈련될 수 있다. 모델 훈련은 하이퍼파라미터 튜닝(hyperparameter tuning), 미니 배치 크기 조정(sizing of mini-batch), 정규화 또는 네트워크 아키텍처(network architecture)에서의 변경을 포함할 수 있다. 본 명세서에 상정되는 시스템 및 방법은 사용 가능한 기계 학습 플랫폼 및/또는 라이브러리를 사용하여 모델(예컨대, TENSORFLOW, PYTHON, MATLAB, KERAS, MICROSOFT COGNITIVE TOOLKIT 및/또는 임의의 기타 기계 학습 플랫폼)을 훈련 및/또는 관리하는 것을 포함하는 것으로 이해해야 한다. 일부 실시형태에서, 기계 학습 모델의 훈련은 감독 및/또는 비감독될 수 있다. 일부 실시형태에서, 기계 학습 모델(360)은 개시된 네트워크를 통해 피처 저장소(310)에 대해 데이터를 전송하고 수신하도록 구성될 수 있다.
도 4는 기계 학습 모델에서 사용하기 위한 데이터를 처리하기 위한 예시적인 컴퓨터화된 방법(400)의 흐름도이다. 방법(400)은 예를 들어 SAT 시스템(101), 외부 프론트 엔드 시스템(103), 내부 프론트 엔드 시스템(105), 수송 시스템(107), SOT 시스템(111), FO 시스템(113), SCM 시스템(117), 창고 관리 시스템(119), 제3자의 풀필먼트 시스템(121A, 121B 및 121C), FC Auth(123) 및/또는 LMS(125)와 같이 (도 3과 관련하여 앞서 논의된 바와 같이 시스템에서 구현되는) 기계 학습 모델에 데이터를 제공할 수 있는 임의의 시스템에 저장된 데이터를 활용하여 구현될 수 있다. 그러한 시스템은 도 3에서 전술한 바와 같이 네트워크화된 시스템을 포함할 수 있다. 방법(400)은 도 3의 네트워크화된 시스템을 참조하여 아래에서 설명되지만, 방법(400)을 수행하기 위해 시스템, 서브시스템 또는 모듈의 임의의 기타 컨피겨레이션이 사용될 수 있다.
단계 410에서, 프로세서(312)는 파이프라인을 생성하라는 요청을 수신할 수 있다. 일부 실시형태에서, 사용자 디바이스(350)는 개시된 네트워크를 통해 신호를 전송할 수 있다. 일부 실시형태에서, 요청은 하나 이상의 작업 및/또는 하나 이상의 센서를 포함할 수 있다. 작업은 입력 데이터를 소모하고 및/또는 출력 데이터를 생성하는 하나 이상의 작업일 수 있다. 입력 데이터는 원시 피처 데이터베이스(350)로부터의 원시 피처 및/또는 파이프라인의 이전 작업으로부터 큐레이팅된 피처일 수 있다. 일부 실시형태에서, 요청은 하나 이상의 작업 중 각각의 작업에 대해, 수집할 피처, 출력할 피처, 및 피처를 처리하기 위한 명령어를 정의할 수 있다. 일부 실시형태에서, 요청은 (예컨대, 원시 피처 데이터베이스(350) 또는 이전 작업으로부터) 리트리벌을 위해 수집 가능한 피처를 찾을 위치, 데이터 품질 기대치(예컨대, 누락되거나 사용할 수 없는 데이터, 충돌하는 데이터, 중복 레코드 및/또는 데이터 간의 누락된 링크의 식별을 포함하는 데이터 값의 유효성 측정), 센서, 소유자(예컨대, 요청을 제출하거나 다른 방식으로 요청과 관련된 사용자), 또는 타임프레임(timeframe)(예컨대, 파이프라인이 작동할 동안의 기간) 중 하나 이상을 명시하는 정보를 포함할 수 있다.
센서는 개시된 네트워크를 통해 변수 또는 외부 디바이스의 상태에 관한 정보를 수집함으로써 적어도 하나의 외부 트리거를 모니터링 및/또는 대기하는 폴러(poller)를 지칭할 수 있다. 센서는 작업이 아직 소모될 준비가 되지 않은 조기 피처(premature feature)를 입력으로서 취하는 것으로부터 보호하기 위해 작업과 커플링될 수 있다. 예를 들어, 센서는 외부 시스템에 주기적 요청을 전송하여 특정 변수를 되돌려 보내도록 요청하고 수신된 특정 변수가 특정 임계값(threshold)을 초과하는지 또는 그렇지 않으면 센서를 '트리거'하는 것으로 간주되는지 확인하는 소프트웨어일 수 있다. 프로세서(312)에 의해 사용되는 하나 이상의 센서는 센서 데이터베이스(340)에 저장될 수 있다.
일부 실시형태에서, 요청은 피처 저장소(310)에 저장하기 위해 어느 큐레이팅된 피처가 파이프라인의 작업에 의해 생성되는지, 그리고 기계 학습 모델(360)에 어느 큐레이팅된 피처가 제공되는지를 정의할 수 있다. 파이프라인을 생성하라는 요청은 도 7a를 참조하여 아래에서 보다 자세히 설명된다. 이에 더하여, 사용자 디바이스(350)는 도 7b 및 도 7c 각각을 참조하여 아래에서 보다 상세히 설명되는 바와 같이, 작업 또는 센서를 생성하라는 요청을 전송할 수 있다.
단계 420에서, 프로세서(312)는 요청에 기초하여 파이프라인을 생성할 수 있다. 파이프라인은 하나 이상의 작업 및/또는 하나 이상의 센서를 포함할 수 있다. 프로세서(312)는 작업 데이터베이스(330) 및 센서 데이터베이스(340) 각각으로부터 하나 이상의 작업 및/또는 하나 이상의 센서를 리트리브할 수 있다. 프로세서(312)는 도 5에 도시된 바와 같이 방향성 비순환 그래프(directed acyclic graph; DAG)로서 파이프라인을 생성할 수 있고, 도 5는 데이터 센서(505 및 515) 그리고 작업(510, 520, 530, 540, 550, 560 및 570)을 포함하는 예시적인 파이프라인(500)을 도시한다. 도 5는 도 4의 방법(400)의 설명을 돕기 위해 비제한적인 예시로서 본 명세서에 사용될 수 있다. 일부 실시형태에서, 프로세서(312)는 사용자-편집 가능(user-editable) DAG를 포함하는 요청에 기초하여 사용자 디바이스(320) 상에 사용자 인터페이스를 렌더링(render)할 수 있다. 사용자 인터페이스는 작업, 센서, 수집 가능한 피처, 큐레이팅된 피처, 소유자, 타임프레임 및 커맨드(command) 중 하나 이상을 기반으로 렌더링될 수 있다.
단계 430에서, 프로세서(312)는 생성된 파이프라인의 다음 객체가 작업인지 센서인지, 또는 다음 객체가 없는지의 여부를 결정할 수 있다. 예를 들어, 도 5의 파이프라인(500)의 시작에서, 프로세서(312)는 단계 430에서 제1 객체가 데이터 센서(505)이고 방법(400)의 센서 경로(431)를 따를 수 있음을 결정할 수 있다. 나중의 시점에서, 데이터 센서(505)에 대한 트리거의 검출에 이어, 단계 435와 관련하여 아래에 보다 상세히 설명되는 바와 같이, 방법(400)은 단계 430으로 돌아가 파이프라인(500)의 다음 객체가 작업(510)임을 결정할 수 있다. 일부 실시형태에서, 프로세서(312)는 DAG의 다수의 노드에서 동시에 단계 430의 결정을 내릴 수 있다. 예를 들어, 프로세서(430)는 2개의 센서, 데이터 센서(505 및 515)에 대한 동작이 동시에 수행될 수 있다고 결정할 수 있다. 이로 인해 한 센서에서는 트리거가 검출되고 다른 센서에서는 트리거가 검출되지 않을 수 있다. 예를 들어, 데이터 센서(505)에서의 트리거의 검출은 데이터 센서(515)가 여전히 그 트리거를 모니터링하는 동안 프로세서(312)가 적어도 작업(510, 520, 550 및 560)의 동작을 수행하도록 할 수 있다.
다른 시점에서, 방법(400)은 단계 430으로 돌아가 프로세서(312)가 처리할 추가 센서 또는 작업이 없다고 결정할 수 있고, 방법(400)은 단계 440으로 진행할 수 있다. 추가적으로 또는 대안적으로, 방법(400)은 프로세서(312)가 센서 경로(431) 및 작업 경로(432)의 단계를 수행했는지 여부와 무관하게 단계 440으로 진행할 수 있고, 센서 경로(431) 및 작업 경로(432)의 단계 이전 또는 이후에 단계 440, 단계 450 및 단계 460 중 하나 이상을 동시에 수행할 수 있다.
단계 430에서 파이프라인의 다음 객체가 센서라는 결정에 이어, 방법(400)은 단계 433 및 단계 435를 포함하는 센서 경로(431)로 진행할 수 있다. 단계 433에서, 프로세서(312)는 외부 트리거를 모니터링할 수 있다. 예를 들어, 프로세서(312)는 외부 시스템에 주기적 요청을 전송하여 특정 변수를 되돌려 보내도록 요청하고 수신된 특정 변수가 특정 임계값을 초과하는지 또는 그렇지 않으면 센서를 '트리거'하는 것으로 간주되는지 확인할 수 있다. 일부 실시형태에서, 외부 트리거는 이벤트가 검출될 때마다 호출되는 절차를 참조할 수 있고, 검출된 이벤트는 센서가 저장된 센서 데이터베이스(340) 외부에서 발생한다. 예를 들어, 외부 트리거는 특정 임계값을 초과하는 원시 피처 데이터베이스(350)의 피처 값, 수행 중인 작업의 동작, 사용자 디바이스(320)로부터의 사용자 입력, 충족되는 시스템(300) 구성 요소에서의 조건, 충족되는 시스템(300)에 대한 시스템 외부에서의 조건, 또는 센서 데이터베이스(340) 외부에서 발생할 수 있는 임의의 다른 적절한 이벤트일 수 있다.
단계 435에서, 프로세서(435)는 모니터링된 외부 트리거가 검출되었는지 여부를 결정할 수 있다. 트리거가 검출되지 않은 경우, 방법(400)은 트리거 모니터링을 계속하기 위해 단계 433으로 돌아갈 수 있다. 그러나, 트리거가 검출된 경우, 방법(400)은 단계 430으로 돌아가 파이프라인의 다음 객체가 다른 센서 또는 작업인지를 결정할 수 있다.
예를 들어, 도 5를 참조하면, 프로세서(312)는 파이프라인(500)의 제1 객체가 데이터 센서(505)라고 결정할 수 있다. 그 후, 프로세서(312)는 트리거가 검출될 때까지 데이터 센서(505)의 외부 트리거를 모니터링할 수 있고, 트리거가 검출되는 시점에서 프로세서(312)는 적어도 작업(510, 520, 550 및 560)의 동작을 수행하도록 진행할 수 있다. 대안적으로, 프로세서(312)는 파이프라인(500), 즉 데이터 센서(515)에 하나 이상의 제1 객체가 있음을 결정할 수 있다. 이 경우, 프로세서(312)는 트리거가 데이터 센서(505 및 515) 중 하나 또는 둘 모두에 대해 검출될 때까지 데이터 센서(505 및 515) 둘 모두의 외부 트리거를 동시에 모니터링할 수 있다. 외부 트리거가 데이터 센서(505 또는 515) 중 적어도 하나에 대해 검출되면, 프로세서(312)는 다음 객체에 대한 동작을 수행할 수 있다. 예를 들어, 데이터 센서(505)의 외부 트리거만 검출되면, 프로세서(312)는 작업(510, 520, 550 및 560)의 동작을 수행할 수 있다. 다른 경우에, 데이터 센서(515)의 외부 트리거만이 검출되면, 프로세서(312)는 작업(530 및 540)의 동작을 수행할 수 있다. 또 다른 경우에, 데이터 센서(505 및 515)의 외부 트리거가 모두 검출되면, 프로세서(312)는 모든 작업(510, 520, 530, 540, 550, 560 및 570)의 동작을 수행할 수 있다.
단계 430에서 파이프라인의 다음 객체가 작업이라는 결정에 이어, 방법(400)은 단계 434, 단계 436 및 단계 438을 포함하는 작업 경로(432)로 진행할 수 있다. 작업은 입력 데이터를 소모하고 출력 데이터를 생성하는 하나 이상의 동작을 포함할 수 있다. 단계 434에서, 프로세서(312)는 적어도 원시 피처 데이터베이스(350) 및/또는 파이프라인의 이전 작업을 포함하는 하나 이상의 데이터베이스로부터 수집 가능한 피처를 리트리브할 수 있다. 예를 들어, 도 500의 작업(510)에서, 프로세서(312)는 원시 피처 데이터베이스(350)로부터 수집 가능한 피처를 리트리브할 수 있는 반면, 작업(550)에서 프로세서(312)는 적어도 작업(510) 및 선택적으로 원시 피처 데이터베이스(350)로부터 수집 가능한 피처를 리트리브할 수 있다. 다른 예시로서, 작업(570)에서, 프로세서(312)는 적어도 작업(520 및 530) 및 선택적으로 원시 피처 데이터베이스(350)로부터 수집 가능한 피처를 리트리브할 수 있다. 일부 실시형태에서, 프로세서(312)는 사전에 결정된 시간 간격으로, 하루 중 미리 결정된 시간에, 또는 트리거 이후에 수집 가능한 피처를 리트리브할 수 있다.
단계 436에서, 프로세서(312)는 수신된 명령어에 기초하여 수집 가능한 피처를 처리할 수 있다. 즉, 명령어는 바라는 결과를 생성하기 위해 수집 가능한 피처에 적용할 동작에 관한 정보를 포함할 수 있다. 일부 실시형태에서, 피처를 처리하는 것은 집계(aggregation)(예컨대, 요약된 형식(format)으로 데이터를 수집하고 제공함, 예를 들어, 하나의 SKU와 관련된 다수의 항목을 단일 항목으로 전환함과 함께 초기 데이터를 손실하지 않거나 초기 데이터의 일부만 손실함), 데이터 품질 개선(예컨대, 누락되거나 사용할 수 없는 데이터, 충돌하는 데이터, 중복 기록 및/또는 데이터 간의 누락된 링크를 식별하고 해결하는 것 중 하나 이상), 데이터 클렌징(data cleansing)(예컨대, 데이터의 불완전하거나, 올바르지 않거나, 부정확하거나, 관련 없는 부분을 식별함으로써 손상되거나 부정확한 피처를 검출하여 수정하고, 지저분하거나 조악한(coarse) 데이터를 교체, 수정 또는 삭제함), 데이터 전처리(data preprocessing)(예컨대, 원시 피처를 기계 학습 모델에서 사용하기 위한 유용하고 효율적인 형식으로 변환함), 조이닝(joining)(예컨대, 공통 데이터 포인트, 즉 조인 키(join key)를 기반으로 데이터를 결합함), 필터링(예컨대, 하나 이상의 규칙에 기초하여 데이터 세트의 보다 작은 부분을 선택함), 인코딩(예컨대, 효율적인 송신 또는 저장을 위해 일련의 문자(글자, 숫자 구두점 및 특정 기호)를 특수 형식으로 설정함), 정규화(normalizing)(예컨대, 명시된 범위(예컨대, -1.0 내지 1.0, 0.0 내지 1.0 등)의 값을 스케일링(scale)하도록 피처를 변환함), 비닝(binning)(예컨대, 분류된 데이터를 동일한 크기의 세그먼트로 분할하고 각 세그먼트를 평활화(smoothing)함), 해싱(hashing)(예컨대, 공식을 통해 데이터를 전달하여 결과를 생성함), 다항(polynomial) 피처 계산(예컨대, 원시 피처를 지수로 올림), 표현 학습(representation learning)(예컨대, 패턴과 이상(anomaly)을 보다 쉽게 찾기 위해 고차원 데이터를 저차원 데이터로 축소시킴), 회귀(regression)(예컨대, 회귀 함수에 데이터를 피팅(fit)하여 데이터를 평활화함), 클러스터링(clustering)(예컨대, 클러스터의 유사한 데이터를 그룹화함), 피처 선택(예컨대, 주어진 피처 세트로부터 새로운 피처를 구성함), 이산화(discretization)(예컨대, 수치적 피처의 원시 값을 간격 수준 또는 개념 수준으로 대체함), 개념 계층 생성(concept hierarchy generation)(예컨대, 하위 수준에서 상위 수준으로 피처를 변환함, 예를 들어 "도시"의 피처는 "국가"로 변환될 수 있음), 데이터 큐브 집계(data cube aggregation)(예컨대, 데이터 큐브를 구성하기 위해 집계 동작을 적용함), 차원 축소(dimensionality reduction)(예컨대, 손실 또는 무손실 메커니즘을 통해 데이터의 크기를 축소시킴), 피처 서브세트 선택(예컨대, 관련성이 높은 피처를 선택하고 나머지는 폐기함) 및/또는 기계 학습 모델에 의해 수집될 피처를 큐레이팅할 수 있는 임의의 기타 데이터 처리 기법 중 하나 이상을 포함할 수 있다.
단계 438에서, 프로세서(312)는 수집 가능한 피처를 처리함으로써 생성된 큐레이팅된 피처를 출력할 수 있다. 일부 실시형태에서, 출력된 큐레이팅된 피처는 다음 작업에 제공될 수 있다. 추가적으로 또는 대안적으로, 출력된 큐레이팅된 피처는 단계 440, 단계 450 및 단계 460과 각각 관련하여 본 명세서에 보다 자세히 설명되는 바와 같이, 데이터 저장소(316)에 저장되고, 사용자 디바이스(320)의 사용자 인터페이스를 통해 사용자에게 제공되고 및/또는 기계 학습 모델(360)에 제공될 수 있다.
예시로서, 프로세서(312)는 도 5의 파이프라인(500)에서 다음 객체가 작업(510)이라고 결정할 수 있다. 그 후, 프로세서(312)는 원시 피처 데이터베이스(350)로부터 사용자 디바이스(320)에 의해 전송된 요청에 명시된 수집 가능한 피처를 리트리브하고, 요청에 명시된 동작에 기초하여 수집 가능한 피처를 처리하고, 수집 가능한 피처를 처리하여 생성된 큐레이팅된 피처를 출력할 수 있다. 이어서 프로세서(312)는 작업(550), 작업(560), 또는 작업(550 및 560) 모두를 병렬로 진행할 수 있다. 예를 들어, 프로세서(312)가 작업(550)으로 진행하는 경우, 프로세서(312)는 사용자 디바이스(320)에 의해 전송된 요청에 명시된 수집 가능한 피처를 리트리브할 수 있고, 상기 피처는 작업(510)으로부터 출력된 큐레이팅된 피처를 포함할 수 있고 그리고 선택적으로는 원시 피처 데이터베이스(350)로부터의 원시 피처를 포함할 수 있으며, 요청에 명시된 동작에 기초하여 수집 가능한 피처를 처리하고 수집 가능한 피처를 처리하여 생성된 큐레이팅된 피처를 출력할 수 있다. 작업(550)을 통해 프로세서(312)에 의해 생성된 큐레이팅된 피처는 기계 학습 모델(360)에 제공될 수 있는 최종으로 큐레이팅된 피처일 수 있다. 추가적으로, 작업(510)을 통해 프로세서(312)에 의해 생성된 하나 이상의 큐레이팅된 피처는 기계 학습 모델(360)에 제공될 수 있는 최종으로 큐레이팅된 피처일 수 있다.
일부 실시형태에서, 프로세서(312)는 작업(520 및 530)으로부터의 피처를 포함하는 작업(570)의 예시에 도시된 바와 같이, 2개의 개별 작업으로부터 수집 가능한 피처를 리트리브할 수 있다. 여기서, 프로세서(312)는 작업(520 및 530) 모두의 출력이 작업(570)을 완료하는 데 필요하기 때문에 작업(570)을 완료하기 전에 작업(520 및 530) 모두에서 큐레이팅된 피처를 처리할 때까지 기다릴 수 있다. 이에 더하여, 작업(570)의 수집 가능한 피처는 또한 원시 피처 데이터베이스(350)로부터의 원시 피처를 포함할 수 있다.
일부 실시형태에서, 프로세서(312)는 결정된 기간 동안 지속적으로 작업의 동작을 수행할 수 있다. 이러한 실시형태에서, 프로세서(312)는 이전 작업의 지속적으로 생성된 출력에 기초하여 이전 작업에 의존하는 다른 작업의 동작을 수행하기 시작할 수 있다. 예를 들어, 프로세서(312)는 한 달 동안 지속해서 작업(510)의 동작을 수행하도록 구성될 수 있다. 이 경우, 프로세서(312)는 작업(510)의 롤링 출력(rolling output)에 기초하여 작업(550)의 동작을 수행하기 시작할 수 있다. 프로세서(312)는 시간 간격, 예를 들어, 0.1초마다, 1초마다, 10초마다, 1분마다, 1시간마다, 1일마다 또는 임의의 기타 적절한 시간 간격마다의 작업(510)의 출력으로 작업(550)을 업데이트할 수 있다.
일부 실시형태에서, 작업은 작업(510, 520, 530 및 540)과 같이 임의의 다른 작업의 출력에 의존하지 않을 수 있고 생산자 작업으로 지칭될 수 있다. 다른 실시형태에서, 작업은 작업(550, 560 및 570)과 같이 다른 작업의 출력에 의존할 수 있고 소비자 작업으로 지칭될 수 있다. 소비자 작업은, 이들이 의존하는 파이프라인의 적어도 이전 작업, 그리고 선택적으로는 원시 피처 데이터베이스(350)와 같은 하나 이상의 다른 데이터베이스로부터 입력 피처를 수신할 수 있다.
단계 440에서, 프로세서(312)는 피처 저장소(310)의 적어도 하나의 작업과 연관된 큐레이팅된 피처를 저장할 수 있다. 예를 들어, 프로세서(312)는 큐레이팅된 피처를 데이터 저장소(316)에 저장할 수 있다. 일부 실시형태에서, 프로세서(312)는 큐레이팅된 피처를 작업 완료 후 또는 작업을 처리하는 동시에 저장할 수 있다. 다른 실시형태에서, 프로세서(312)는 파이프라인의 작업의 일부 또는 전부가 완료된 후에 큐레이팅된 피처를 저장할 수 있다. 예시로서, 프로세서(312)는 도 5의 작업(510)의 큐레이팅된 피처를 작업(510)을 완료한 후 또는 작업(510)을 처리하는 동시에 데이터 저장소(316)에 저장할 수 있다. 예를 들어, 작업(510)은 사전에 결정된 양의 시간 동안 처리를 요구할 수 있다. 이 경우에, 프로세서(312)는 작업(510)이 완료될 때까지 지속적으로 또는 시간 간격으로 작업(510)의 출력된 큐레이팅된 피처를 저장할 수 있다. 일부 실시형태에서, 프로세서(312)는 파이프라인의 각 작업에 의해 출력된 큐레이팅된 피처 모두를 저장할 수 있다. 다른 실시형태에서, 프로세서(312)는 파이프라인의 작업에 의해 출력된 큐레이팅된 피처의 일부를 저장할 수 있다. 큐레이팅된 피처의 일부는 사용자 디바이스(320)를 조작하는 사용자에 의해 또는 내장된 규칙 또는 기계 학습 모델을 통해 피처 저장소(310)에 의해 결정될 수 있다.
단계 450에서, 프로세서(312)는 사용자 디바이스(320)에 의해 전송된 요청에 기초하여 사용자 인터페이스를 렌더링할 수 있다. 일부 실시형태에서, 사용자 인터페이스는 사용자-편집 가능 DAG 및/또는 데이터 저장소(316)에 저장된 큐레이팅된 피처에 관한 데이터를 명시하는 메타데이터 브라우저를 포함할 수 있다. 사용자 인터페이스는 사용자 디바이스(320)에서 렌더링될 수 있다. 예를 들어, 사용자-편집 가능 DAG는 파이프라인(500)을 도시하는 도 5의 DAG를 참조할 수 있다. 일부 실시형태에서, 도 7a와 관련하여 보다 상세히 설명되는 바와 같이, 사용자는 파이프라인과 관련된 코드를 수정함으로써 DAG를 편집할 수 있다. 추가적으로 또는 대안적으로, 사용자는 DAG를 디스플레이하는 웹 기반 편집기(editor)를 통해 DAG를 편집할 수 있으며, 이는 사용자가 드래그 앤 드롭, 클릭, 타이핑 등과 같은 적절한 입력을 제공함으로써 파이프라인을 생성하거나 수정하도록 허용할 수 있다. 예를 들어, 사용자는 하나 이상의 작업을 작업 창에서 캔버스 창으로 드래그하여 필요에 따라 하나 이상의 작업 간의 링크 및 속성을 편집할 수 있다. 단계 450은 방법(400)의 단계들 중 임의의 단계와 동시에, 이전에 또는 이후에 수행될 수 있다.
다른 예시로, 메타데이터 브라우저는 피처 저장소(310)의 데이터 저장소(316)에 포함될 수 있는 데이터의 표현의 예를 도시하는 도 8의 메타데이터 브라우저(800)를 참조할 수 있다. 예를 들어, 데이터 저장소(316)는 피처를 생성하기 위한 5개의 파이프라인 "winter_index_dev", "winter_index", "summer_index", "forecast_sale" 및 "sku_unitsold"과 관련된 피처를 포함할 수 있다. 메타데이터 브라우저(800)는 각 파이프라인과 관련된 데이터, 예를 들어 "색인(Index)", "생성자(Creator)", "설명(Description)" 및 "태그(Tag)"를 명시할 수 있다. 나아가 각각의 파이프라인은 선택되어 선택된 파이프라인에 대해 보다 많은 데이터를 제공할 수 있다. 예를 들어, 선택된 파이프라인 "forecast_sale"은 두 개의 출력된 큐레이팅된 피처 "forecast_daily_sale_result" 및 "forecast_weekly_sale_result"를 포함한다. 메타데이터 브라우저(800)는 큐레이팅된 피처 각각에 관한 데이터, 예를 들어, 이들의 "데이터 유형(Data Type)", "설명" 및 각각의 큐레이팅된 피처에 취해질 수 있는 "액션(Action)", 즉 "삭제(Delete)"의 "업데이트(Update)"를 더 포함한다. 메타데이터 브라우저(800)는 또한 큐레이팅된 피처와 연관된 "생성자", "생성된 시간(Created Time)" 및 "마지막 액세스 시간(Last Access Time)"에 관한 데이터를 포함할 수 있다. 이에 더하여, 메타데이터 브라우저(800)는 수치적 피처에 대해 "최소(Minimum)", "최대(Maximum)" 및 "평균(Average)"에 관한 데이터 및 범주형 피처에 대해 구별되는 값에 대한 "카운트" 및 "히스토그램(Histogram)"에 관한 데이터를 포함할 수 있다. 메타데이터 브라우저(800)로부터의 피처는 또한 사용자 디바이스(320)에 의해 다운로드되거나 기계 학습 모델(360)에 직접 제공될 수 있다.
단계 460에서, 프로세서(312)는 수집을 위해 기계 학습 모델(360)에 하나 이상의 작업과 연관된 큐레이팅된 피처를 제공할 수 있다. 일부 실시형태에서, 큐레이팅된 피처는 기계 학습 모델(360)을 훈련하기 위해 제공될 수 있다. 다른 실시형태에서, 큐레이팅된 피처는 데이터 분석 및/또는 예측을 위해 기계 학습 모델(360)에 제공된다.
일부 실시형태에서, 기계 학습 모델은 예를 들어, 아래에서 설명되는 경우에서의 훈련 예시를 사용하여 훈련될 수 있다. 이러한 기계 학습 모델의 일부 비제한적 예시는 분류 알고리즘, 데이터 회귀 알고리즘, 수학적 임베딩 알고리즘(mathematical embedding algorithm), 자연어 처리 알고리즘, 지원 벡터 기계, 랜덤 포레스트, 최근접 이웃 알고리즘(nearest neighbors algorithm), 딥 러닝 알고리즘, 인공 신경망 알고리즘, 컨볼루션 신경망 알고리즘, 재귀(recursive) 신경망 알고리즘, 선형 기계 학습 모델, 비선형 기계 학습 모델, 앙상블 알고리즘 등을 포함할 수 있다. 일부 예시에서, 훈련 예시는 예시적인 입력에 대응하는 원하는 출력과 함께 예시적인 입력을 포함할 수 있다. 나아가, 일부 예시에서, 훈련 예시를 사용하는 훈련 기계 학습 알고리즘은 훈련된 기계 학습 모델을 생성할 수 있고, 훈련된 기계 학습 모델은 훈련 예시에 포함되지 않은 입력에 대한 출력을 추정하는데 사용될 수 있다. 일부 예시에서 기계 학습 모델을 훈련시키는 엔지니어, 과학자, 프로세스 및 기계는 검증 예시 및/또는 테스트 예시를 추가로 사용할 수 있다. 예를 들어, 검증 예시 및/또는 테스트 예시는 예시적인 입력에 대응하는 원하는 출력과 함께 예시적인 입력을 포함할 수 있고, 훈련된 기계 학습 모델 및/또는 중간 훈련된 기계 학습 모델은 검증 예시 및/또는 테스트 예시의 예시적인 입력에 대한 출력을 추정하는데 사용될 수 있고, 추정된 출력은 대응하는 원하는 출력과 비교될 수 있고, 훈련된 기계 학습 모델 및/또는 중간 훈련된 기계 학습 모델은 비교 결과에 기초하여 평가될 수 있다. 일부 예시에서, 기계 학습 모델은 파라미터 및 하이퍼 파라미터를 가질 수 있고, 하이퍼 파라미터는 사람에 의해 수동으로 설정되거나 (예컨대, 하이퍼 파라미터 검색 알고리즘과 같은) 기계 학습 모델 외부의 프로세스에 의해 자동으로 설정되고, 기계 학습 모델의 파라미터는 훈련 예시에 따라 기계 학습 모델에 의해 설정된다. 일부 구현에서, 하이퍼 파라미터는 훈련 예시 및 검증 예시에 따라 설정되고, 파라미터는 훈련 예시 및 선택된 하이퍼-파라미터에 따라 설정된다.
일부 실시형태에서, 훈련된 기계 학습 모델은 예를 들어, 아래에 설명되는 경우에서 입력을 분석하고 출력을 생성하는 데 사용될 수 있다. 일부 예시에서, 훈련된 기계 학습 알고리즘은 입력이 제공될 때 추론된 출력을 생성하는 추론 모델로 사용될 수 있다. 예를 들어, 훈련된 기계 학습 알고리즘은 분류 알고리즘을 포함할 수 있고, 입력은 샘플을 포함할 수 있으며, 추론된 출력은 (추론된 레이블, 추론된 태그 등과 같이) 샘플의 분류를 포함할 수 있다. 다른 예시에서, 훈련된 기계 학습 알고리즘은 회귀 모델을 포함할 수 있고, 입력은 샘플을 포함할 수 있으며, 추론된 출력은 샘플에 대해 추론된 값을 포함할 수 있다. 또 다른 예시에서, 훈련된 기계 학습 알고리즘은 클러스터링 모델을 포함할 수 있고, 입력은 샘플을 포함할 수 있고, 추론된 출력은 적어도 하나의 클러스터에 대한 샘플의 할당을 포함할 수 있다. 일부 예시에서, 훈련된 기계 학습 알고리즘은 하나 이상의 공식 및/또는 하나 이상의 기능 및/또는 하나 이상의 규칙 및/또는 하나 이상의 절차를 포함할 수 있고, 입력은 공식 및/또는 기능 및/또는 규칙 및/또는 절차에 대한 입력으로 사용될 수 있으며, 추론된 출력은 공식 및/또는 기능 및/또는 규칙 및/또는 절차의 출력에 기초할 수 있다(예컨대, 공식 및/또는 기능 및/또는 규칙 및/또는 절차 등의 출력에 대한 통계적 측정을 사용하여 공식 및/또는 기능 및/또는 규칙 및/또는 절차의 출력 중 하나를 선택함).
다른 예시로서, 작업의 예시가 도 6에 도시된다. 여기서, 작업 시작(610)은 도 5의 작업(510)의 시작에 대응할 수 있다. 작업(510)은 입력 데이터(602, 604 및 606)에 대응하는 3개의 입력 데이터 세트를 입력으로서 수신한다. 프로세서(312)는 도 4의 단계(436)와 관련하여 위에서 논의된 바와 같이 작업(510)이 작업 종료(630)에서 완료될 때까지 데이터 처리(620)를 수행할 수 있다. 그 후, 프로세서(312)는 처리된 데이터를 출력 데이터(632 및 634)로서 출력할 수 있으며, 이 중 출력 데이터(632)는 작업 시작(640)에서 작업(550)에 의해 수집될 수 있다.
도 7a, 도 7b 및 도 7c는 각각 파이프라인, 작업 및 센서의 예시적인 요청 생성을 도시한다. 일부 실시형태에서, 요청은 Python, Scala, Java, JavaScript MySQL, C, C++, C#, Ruby, YAML, 또는 임의의 다른 적절한 코딩 언어로 작성될 수 있다. 다른 실시형태에서, 요청은 코딩할 필요 없이 예를 들어, 양식을 작성함으로써 사용자 인터페이스를 거쳐 사용자 디바이스(320)를 통해 전송될 수 있다. 예를 들어, 도 7a는 파이프라인의 "이름", (예컨대, 생성될 객체의 유형을 지칭하는) "종류", 파이프라인에 포함될 "작업", ("forecast_sale"에 대해 도 8에 도시된 설명과 매칭하는) 파이프라인의 "설명", ("forecast_sale"에 대해 도 8에 도시된 "생성자"와 매칭하는) "소유자" 및 "이메일" 그리고 "start_date"를 포함하는 파이프라인의 생성을 요청하기 위해 사용자 디바이스(320)를 조작하는 사용자에 대한 예시적인 요청(700)을 도시한다. 도시된 필드는 예시일 뿐이며 비제한적이다. 예를 들어, 추가적인 "end_date" 필드가 요청(700)에 포함될 수 있다. 일부 실시형태에서, 사용자 스스로에 의해 선택된 작업은 출력할 큐레이팅된 피처를 명시할 수 있다. 다른 실시형태에서, 사용자는 출력할 큐레이팅된 피처를 명시할 수 있다.
도 7b는 작업의 "이름", "소유자" 또는 작업, 작업의 수집 가능한 피처에 대응하는 "입력", 작업이 생성할 큐레이팅된 피처에 대응하는 출력", (예컨대, 생성될 객체의 유형을 지칭하는) "종류", 작업이 수행할 하나 이상의 동작을 지칭하는 "커맨드" 및 작업에 연결되고 트리거가 검출되기 전에 작업이 수행되는 것을 방지하는 "센서"를 포함하는 작업의 생성을 요청하기 위해 사용자 디바이스(320)를 조작하는 사용자에 대한 예시적인 요청(710)을 도시한다. 도시된 필드는 예시일 뿐이며 비제한적이다. 예를 들어, 사용자는 작업이 그 동안 수행되는 타임프레임을 요청(710)에 명시할 수 있거나 작업 유형을 명시할 수 있다. 예를 들어 작업 유형의 예시는 Airflow DAG의 경우 "dag", Oozie 워크플로(Oozie workflow)의 경우 "oozie", 원격 SSH 작업(Remote SSH task)의 경우 "ssh" 등일 수 있다.
도 7c는 센서의 "이름", 센서의 "유형"(예컨대, 플래그 센서(flag sensor)), (예컨대, 생성될 객체의 유형을 지칭하는) "종류" 및 "bucket_key"를 포함하는 센서의 생성을 요청하기 위해 사용자 디바이스(320)를 조작하는 사용자에 대한 예시적인 요청(720)을 도시한다. 버킷 키(bucket key)는 센서를 정의하는 코드를 포함하는 파일의 위치를 지칭할 수 있다.
본 개시는 그의 특정 실시형태를 참조하여 도시되고 설명되었지만, 본 개시는 다른 환경에서 수정없이 실시될 수 있음이 이해될 것이다. 전술한 설명은 예시 목적으로 제시되었다. 이는 망라적인(exhaustive) 것이 아니며, 개시된 정확한 형태 또는 실시형태에 제한되는 것이 아니다. 개시된 실시형태의 명세서 및 실시를 고려하여 당해 기술 분야의 통상의 기술자에게 수정 및 개조가 명백할 것이다. 추가적으로, 개시된 실시형태의 측면들이 메모리에 저장되는 것으로 설명되지만, 본 분야의 통상의 기술자는, 이러한 측면들이 또한 제2 스토리지 디바이스, 예를 들어, 하드 디스크 또는 CD ROM 또는 다른 형태의 RAM 또는 ROM, USB 매체, DVD, Blu-ray 또는 기타 광학 드라이브 매체와 같은 다른 타입의 컴퓨터 판독 가능한 매체에 저장될 수 있음을 이해할 것이다.
기재된 설명 및 개시된 방법에 기초한 컴퓨터 프로그램은 숙련된 개발자의 기술 내에 있다. 다양한 프로그램 또는 프로그램 모듈은 해당 기술 분야의 통상의 기술자에게 공지된 임의의 기술을 사용하여 생성될 수 있거나 기존 소프트웨어와 관련하여 설계될 수 있다. 예를 들어, 프로그램 섹션 또는 프로그램 모듈은 .Net Framework, .Net Compact Framework(및 Visual Basic, C 등과 같은 관련 언어), Java, C++, Objective-C, HTML, HTML/AJAX 조합, XML, 또는 Java 애플릿(applet)이 포함된 HTML에서, 또는 이들에 의해 설계될 수 있다.
또한, 예시적인 실시형태가 본 명세서에 설명되었지만, (예를 들어, 다양한 실시형태에 걸친 측면의) 동등한 요소, 수정, 생략, 조합, 개조 및/또는 변경을 갖는 임의의 및 모든 실시형태의 범위는 본 개시에 기초하여 당해 기술 분야의 통상의 기술자에 의해 인식될 것이다. 청구범위에서 제한사항은 청구범위에 사용된 언어에 기초하여 광범위하게 해석되어야 하고, 본 명세서에 설명된 예시 또는 출원의 진행 중으로 제한되는 것은 아니다. 예시는 비배타적인 것으로 해석될 것이다. 나아가, 개시된 방법의 단계는 단계를 재순서화하고, 및/또는 단계를 삽입하거나 삭제하는 것을 포함하여 임의의 방식으로 수정될 수 있다. 그러므로, 본 명세서 및 예시는 단지 예시적인 것으로 간주되도록 의도되며 진정한 범위 및 사상은 다음의 청구범위 및 그들의 등가물의 전체 범위에 의해 나타내어진다.

Claims (20)

  1. 기계 학습 모델(machine learning model)에서 사용하기 위한 데이터를 처리하기 위한 컴퓨터 구현 시스템으로서, 상기 시스템은:
    명령어를 저장하는 메모리; 및
    동작을 실행하도록 구성된 하나 이상의 프로세서를 포함하고,
    상기 동작은:
    둘 이상의 작업을 포함하는 파이프라인을 생성하라는 요청을 수신하는 것 - 상기 요청은 상기 둘 이상의 작업 각각에 대해 어느 피처(feature)를 수집할지, 어느 피처를 출력할지, 그리고 상기 피처를 처리하기 위한 명령어를 정의함 -;
    상기 요청에 기초하여 상기 둘 이상의 작업을 포함하는 상기 파이프라인을 생성하는 것;
    상기 둘 이상의 작업 중 하나 이상의 생산자 작업에 대해:
    하나 이상의 데이터베이스로부터 상기 수집 가능한 피처를 리트리브(retrieve)하는 것,
    상기 수신된 명령어를 기반으로 상기 피처를 처리하는 것, 및
    큐레이팅된(curated) 피처를 출력하는 것;
    상기 둘 이상의 작업 중 하나 이상의 소비자 작업에 대해:
    상기 소비자 작업이 의존하는 상기 파이프라인의 이전 작업으로부터 상기 수집 가능한 피처를 리트리브하는 것,
    상기 수신된 명령어를 기반으로 상기 피처를 처리하는 것, 및
    큐레이팅된 피처를 출력하는 것;
    피처 저장소에 상기 둘 이상의 작업 중 하나 이상의 작업과 연관된 상기 큐레이팅된 피처를 저장하는 것; 및
    상기 둘 이상의 작업 중 상기 하나 이상의 작업과 연관된 상기 저장된 큐레이팅된 피처를 수집을 위해 기계 학습 모델에 제공하는 것을 포함하는, 시스템.
  2. 제1항에 있어서,
    상기 요청은 리트리벌(retrieval)을 위해 상기 수집 가능한 피처를 찾을 위치, 데이터 품질 기대치, 센서, 소유자 또는 타임프레임(timeframe) 중 적어도 하나를 명시하는 정보를 포함하는, 시스템.
  3. 제1항에 있어서,
    상기 파이프라인은 하나 이상의 센서를 포함하고, 상기 하나 이상의 센서는 적어도 하나의 외부 트리거(external trigger)를 모니터링하도록 구성되는, 시스템.
  4. 제1항에 있어서,
    상기 파이프라인의 이전 작업으로부터 상기 수집 가능한 피처를 리트리브하는 것은 상기 하나 이상의 데이터베이스로부터 피처를 리트리브하는 것을 더 포함하는, 시스템.
  5. 제1항에 있어서,
    상기 동작은 상기 요청에 기초하여 사용자 인터페이스를 렌더링(render)하는 것을 더 포함하고, 상기 사용자 인터페이스는 사용자-편집 가능(user-editable) 방향성 비순환 그래프(Directed Acyclic Graph; DAG)를 포함하는, 시스템.
  6. 제1항에 있어서,
    상기 큐레이팅된 피처를 제공하는 것은 상기 저장된 큐레이팅된 피처에 관한 데이터를 명시하는 메타데이터 브라우저를 포함하는 사용자 인터페이스를 렌더링하는 것을 포함하는, 시스템.
  7. 제1항에 있어서,
    상기 피처를 처리하는 것은 집계(aggregation), 데이터 품질 개선, 데이터 클렌징(data cleansing), 데이터 전처리(data preprocessing), 조이닝(joining), 필터링, 인코딩, 정규화(normalizing), 비닝(binning), 해싱(hashing), 다항 피처(polynomial feature) 계산, 및 표현 학습(representation learning) 중 적어도 하나를 포함하는, 시스템.
  8. 제1항에 있어서,
    상기 요청은 상기 피처 저장소에 저장하고 상기 기계 학습 모델에 제공하기 위한, 상기 둘 이상의 작업 중 상기 하나 이상의 작업과 연관된 어느 큐레이팅된 피처를 추가로 정의하는, 시스템.
  9. 제1항에 있어서,
    상기 둘 이상의 작업은 사전에 결정된 시간 간격으로, 하루 중 미리 결정된 시간에, 또는 트리거 이후에 상기 수집 가능한 피처를 리트리브하는, 시스템.
  10. 제1항에 있어서,
    상기 수집 가능한 피처 및 상기 큐레이팅된 피처는 데이터 샘플의 측정 가능한 속성을 포함하는, 시스템.
  11. 기계 학습 모델에서 사용하기 위한 데이터를 처리하기 위한 컴퓨터 구현 방법으로서, 상기 방법은:
    둘 이상의 작업을 포함하는 파이프라인을 생성하라는 요청을 수신하는 단계 - 상기 요청은 상기 둘 이상의 작업 각각에 대해 어느 피처를 수집할지, 어느 피처를 출력할지, 그리고 상기 피처를 처리하기 위한 명령어를 정의함 -;
    상기 요청에 기초하여 상기 둘 이상의 작업을 포함하는 상기 파이프라인을 생성하는 단계;
    상기 둘 이상의 작업 중 하나 이상의 생산자 작업에 대해:
    하나 이상의 데이터베이스로부터 상기 수집 가능한 피처를 리트리브하는 단계,
    상기 수신된 명령어를 기반으로 상기 피처를 처리하는 단계, 및
    큐레이팅된 피처를 출력하는 단계;
    상기 둘 이상의 작업 중 하나 이상의 소비자 작업에 대해:
    상기 소비자 작업이 의존하는 상기 파이프라인의 이전 작업으로부터 상기 수집 가능한 피처를 리트리브하는 단계,
    상기 수신된 명령어를 기반으로 상기 피처를 처리하는 단계, 및
    큐레이팅된 피처를 출력하는 단계;
    피처 저장소에 상기 둘 이상의 작업 중 하나 이상의 작업과 연관된 상기 큐레이팅된 피처를 저장하는 단계; 및
    상기 둘 이상의 작업 중 상기 하나 이상의 작업과 연관된 상기 저장된 큐레이팅된 피처를 수집을 위해 기계 학습 모델에 제공하는 단계를 포함하는, 방법.
  12. 제11항에 있어서,
    상기 요청은 리트리벌을 위해 상기 수집 가능한 피처를 찾을 위치, 데이터 품질 기대치, 센서, 소유자, 또는 타임프레임 중 적어도 하나를 명시하는 정보를 포함하는, 시스템.
  13. 제11항에 있어서,
    상기 파이프라인은 하나 이상의 센서를 포함하고, 상기 하나 이상의 센서는 적어도 하나의 외부 트리거를 모니터링하도록 구성되는, 시스템.
  14. 제11항에 있어서,
    상기 파이프라인의 이전 작업으로부터 상기 수집 가능한 피처를 리트리브하는 단계는 상기 하나 이상의 데이터베이스로부터 피처를 리트리브하는 단계를 더 포함하는, 시스템.
  15. 제11항에 있어서,
    동작은 상기 요청에 기초하여 사용자 인터페이스를 렌더링하는 단계를 더 포함하고, 상기 사용자 인터페이스는 사용자-편집 가능 방향성 비순환 그래프(Directed Acyclic Graph; DAG) 및 상기 제공된 큐레이팅된 피처에 대한 정보를 명시하는 메타데이터 브라우저를 포함하는, 시스템.
  16. 제11항에 있어서,
    상기 피처를 처리하는 단계는 집계, 데이터 품질 개선, 데이터 클렌징, 데이터 전처리, 조이닝, 필터링, 인코딩, 정규화, 비닝, 해싱, 다항 피처 계산, 및 표현 학습 중 적어도 하나를 포함하는, 시스템.
  17. 제11항에 있어서,
    상기 요청은 상기 피처 저장소에 저장하고 상기 기계 학습 모델에 제공하기 위한, 상기 둘 이상의 작업 중 상기 하나 이상의 작업과 연관된 어느 큐레이팅된 피처를 추가로 정의하는, 시스템.
  18. 제11항에 있어서,
    상기 둘 이상의 작업은 사전에 결정된 시간 간격으로, 하루 중 미리 결정된 시간에, 또는 트리거 이후에 상기 수집 가능한 피처를 리트리브하는, 시스템.
  19. 제11항에 있어서,
    상기 수집 가능한 피처 및 상기 큐레이팅된 피처는 데이터 샘플의 측정 가능한 속성을 포함하는, 시스템.
  20. 기계 학습 모델에서 사용하기 위한 데이터를 처리하기 위한 컴퓨터 구현 시스템으로서, 상기 시스템은:
    명령어를 저장하는 메모리; 및
    동작을 실행하도록 구성된 하나 이상의 프로세서를 포함하고,
    상기 동작은:
    둘 이상의 작업과 하나 이상의 센서를 포함하는 파이프라인을 생성하라는 요청을 수신하는 것 - 상기 요청은 상기 둘 이상의 작업 각각에 대해 어느 피처를 수집할지, 어느 피처를 출력할지, 그리고 상기 피처를 처리하기 위한 명령어를 정의하고, 상기 센서는 적어도 하나의 외부 트리거를 모니터링하도록 구성됨 -;
    상기 요청에 기초하여 상기 둘 이상의 작업을 포함하는 상기 파이프라인을 생성하는 것;
    사전에 결정된 시간 간격으로, 상기 둘 이상의 작업 중 하나 이상의 생산자 작업에 대해:
    하나 이상의 데이터베이스로부터 상기 수집 가능한 피처를 리트리브하는 것,
    상기 수신된 명령어를 기반으로 상기 피처를 처리하는 것, 및
    큐레이팅된 피처를 출력하는 것;
    사전에 결정된 시간 간격으로, 상기 둘 이상의 작업 중 하나 이상의 소비자 작업에 대해:
    상기 소비자 작업이 의존하는 상기 파이프라인의 이전 작업으로부터 상기 수집 가능한 피처를 리트리브하는 것,
    상기 수신된 명령어를 기반으로 상기 피처를 처리하는 것, 및
    큐레이팅된 피처를 출력하는 것;
    피처 저장소에 상기 둘 이상의 작업 중 하나 이상의 작업과 연관된 상기 큐레이팅된 피처를 저장하는 것;
    상기 요청에 기반하여 사용자 인터페이스를 렌더링하는 것 - 상기 사용자 인터페이스는 사용자-편집 가능 방향성 비순환 그래프(Directed Acyclic Graph; DAG) 및 상기 저장된 큐레이팅된 피처에 관한 데이터를 명시하는 메타데이터 브라우저를 포함함 -; 및
    상기 둘 이상의 작업 중 상기 하나 이상의 작업과 연관된 상기 저장된 큐레이팅된 피처를 수집을 위해 기계 학습 모델에 제공하는 것을 포함하는, 시스템.
KR1020227024922A 2020-12-10 2021-12-09 피처 저장소에 저장하고 기계 학습에 사용하기 위한 데이터를 처리하기 위한 시스템 및 방법 KR20220116028A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063123925P 2020-12-10 2020-12-10
US63/123,925 2020-12-10
PCT/IB2021/061525 WO2022123492A1 (en) 2020-12-10 2021-12-09 Systems and methods for processing data for storing in a feature store and for use in machine learning

Publications (1)

Publication Number Publication Date
KR20220116028A true KR20220116028A (ko) 2022-08-19

Family

ID=81942590

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227024922A KR20220116028A (ko) 2020-12-10 2021-12-09 피처 저장소에 저장하고 기계 학습에 사용하기 위한 데이터를 처리하기 위한 시스템 및 방법

Country Status (3)

Country Link
US (1) US20220188660A1 (ko)
KR (1) KR20220116028A (ko)
WO (1) WO2022123492A1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11593705B1 (en) * 2019-06-28 2023-02-28 Amazon Technologies, Inc. Feature engineering pipeline generation for machine learning using decoupled dataset analysis and interpretation
US11477678B2 (en) * 2019-11-21 2022-10-18 Verizon Patent And Licensing Inc. Systems and methods for utilizing machine learning and neural network models to identify issues in wireless networks
US20220028267A1 (en) * 2020-07-22 2022-01-27 Here Global B.V. Method, apparatus, and computer program product for anonymizing trajectories
US11703337B2 (en) 2020-07-22 2023-07-18 Here Global B.V. Method, apparatus, and computer program product for anonymizing trajectories
US11567915B2 (en) * 2021-02-01 2023-01-31 Capital One Services, Llc Maintaining a dataset based on periodic cleansing of raw source data
KR20240017694A (ko) * 2022-08-01 2024-02-08 한국전자기술연구원 시계열 데이터의 품질 검증을 수행하는 전자장치 및 그 수행 방법
CN116028038B (zh) * 2023-03-28 2023-06-09 深圳市奥思网络科技有限公司 基于dag图表的可视化流水线编排方法及相关组件

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10733010B2 (en) * 2017-05-11 2020-08-04 Vmware, Inc. Methods and systems that verify endpoints and external tasks in release-pipeline prior to execution
US11694066B2 (en) * 2017-10-17 2023-07-04 Xilinx, Inc. Machine learning runtime library for neural network acceleration
US10725827B2 (en) * 2018-06-14 2020-07-28 Accenture Global Solutions Limited Artificial intelligence based virtual automated assistance
US11501185B2 (en) * 2019-01-30 2022-11-15 Walmart Apollo, Llc System and method for real-time modeling inference pipeline
US10657018B1 (en) * 2019-08-26 2020-05-19 Coupang Corp. Systems and methods for dynamic aggregation of data and minimization of data loss

Also Published As

Publication number Publication date
US20220188660A1 (en) 2022-06-16
WO2022123492A1 (en) 2022-06-16

Similar Documents

Publication Publication Date Title
KR102354395B1 (ko) 인공 지능을 이용한 제품 통합 및 중복제거를 위한 컴퓨터 시스템 및 방법
US20220188660A1 (en) Systems and methods for processing data for storing in a feature store and for use in machine learning
KR102578114B1 (ko) 인공지능을 사용하여 데이터베이스 파라미터를 최적화하기 위한 컴퓨터화된 시스템 및 방법
KR102350982B1 (ko) 인공 지능을 이용한 제품 분류를 위한 컴퓨터 시스템 및 방법
US10817665B1 (en) Systems and methods for word segmentation based on a competing neural character language model
US20220215452A1 (en) Systems and method for generating machine searchable keywords
KR20240007737A (ko) 제품 추천을 생성하기 위해 인공 지능을 사용하는 컴퓨터 시스템 및 방법
TW202341041A (zh) 電腦實施的系統以及電腦實施的方法
KR102359352B1 (ko) 실험 플랫폼 엔진
KR102459120B1 (ko) 제품 타이틀을 이용한 지능적 제품 분류를 위한 시스템 및 방법
KR102354732B1 (ko) 제품 타이틀 부정확성을 검출하기 위한 컴퓨터화된 시스템 및 방법
TWI760043B (zh) 詐欺偵測與使用者帳號去除重複之電腦化系統以及方法
US20230316369A1 (en) Systems and methods for selecting and presenting products based on past purchases
KR20240108184A (ko) 기계 학습 및 해싱 알고리즘을 사용하여 제품 추천을 최적화하기 위한 컴퓨터 시스템 및 방법
KR20220122715A (ko) 스크랩을 예측 및 관리하기 위한 컴퓨터화된 시스템 및 방법

Legal Events

Date Code Title Description
A201 Request for examination