KR102143889B1 - 메타데이터 관리를 위한 시스템 - Google Patents

메타데이터 관리를 위한 시스템 Download PDF

Info

Publication number
KR102143889B1
KR102143889B1 KR1020157029852A KR20157029852A KR102143889B1 KR 102143889 B1 KR102143889 B1 KR 102143889B1 KR 1020157029852 A KR1020157029852 A KR 1020157029852A KR 20157029852 A KR20157029852 A KR 20157029852A KR 102143889 B1 KR102143889 B1 KR 102143889B1
Authority
KR
South Korea
Prior art keywords
version
data
node
data lineage
receiving
Prior art date
Application number
KR1020157029852A
Other languages
English (en)
Other versions
KR20150132858A (ko
Inventor
그레그 요스트
듀산 라디보제빅
Original Assignee
아브 이니티오 테크놀로지 엘엘시
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아브 이니티오 테크놀로지 엘엘시 filed Critical 아브 이니티오 테크놀로지 엘엘시
Publication of KR20150132858A publication Critical patent/KR20150132858A/ko
Application granted granted Critical
Publication of KR102143889B1 publication Critical patent/KR102143889B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/219Managing data history or versioning

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Software Systems (AREA)

Abstract

메타데이터 관리를 위한, 컴퓨터 저장 매체 상에 인코딩된 컴퓨터 프로그램을 포함하는, 방법, 시스템 및 장치를 개시한다. 이러한 방법 중의 하나는, 제1 노드를 선택하는 사용자 입력을 수신하는 단계를 포함한다. 이 방법은 또한 제1 오브젝트의 제1 데이터 계보(data lineage)를 수신하는 단계를 포함하며, 제1 오브젝트가 타입을 갖고, 제1 데이터 계보가 제1 오브젝트와 하나 이상의 데이터세트 또는 트랜스폼(transform) 간의 관계를 기술한다. 이 방법은 또한 제2 노드를 선택하는 사용자 입력을 수신하는 단계를 포함한다. 이 방법은 또한 제2 오브젝트의 제2 데이터 계보를 수신하는 단계를 포함하며, 제2 오브젝트가 제1 오브젝트와 동일한 타입을 갖는다. 이 방법은 또한 제1 노드 및 제1 데이터 계보를 제2 노드 및 제2 데이터 계보와 비교하는 것을 수행하는 단계를 포함한다. 이 방법은 또한 비교에 기초하여 리포트를 발생하는 단계를 포함한다.

Description

메타데이터 관리를 위한 시스템{SYSTEM FOR METADATA MANAGEMENT}
우선권의 주장
본 출원은 2013년 3월 15일자로 출원된 미국 특허 출원 번호 61/790,074를 우선권으로 주장하며, 이 특허 출원의 전체 내용은 원용에 의해 본 명세서에 통합되어 있다.
본 발명은 데이터 처리 시스템의 복수의 버전을 유지하고 비교하기 위한 시스템에 관한 것이다.
기업은 데이터를 관리하기 위해 데이터 웨어하우징(data warehousing), 고객 관계 관리(customer relationship management), 및 데이터 마이닝(data mining)과 같은 복잡한 데이터 처리 시스템을 사용한다. 다수의 데이터 처리 시스템에서는, 데이터를 데이터베이스 파일, 운영 체제, 플랫 파일(flat file), 인터넷 등과 같은 다수의 상이한 데이터 소스로부터 중앙 레포지터리(central repository)로 끌어온다. 데이터가 데이터 시스템에 로딩되기 전에 데이터가 변환되는 경우가 종종 있다. 변환(transformation)은 정화(cleansing), 통합(integration) 및 추출(extraction)을 포함할 수 있다. 데이터, 데이터의 소스, 및 데이터 시스템에 저장된 데이터에 대해 발생한 변환을 계속해서 파악하기 위해, 메타데이터가 사용될 수 있다. 메타데이터(간혹 "데이터에 대한 데이터"로 지칭됨)는 다른 데이터의 속성, 포맷, 원본(origin), 히스토리, 연관성(inter-relationship) 등을 기술하는 데이터이다. 메타데이터 관리는 복잡한 데이터 처리 시스템에서의 중심 역할을 할 수 있다.
간혹 데이터베이스 사용자는 어떠한 데이터가 상이한 데이터 소스로부터 어떻게 검색되는지를 확인하고자 할 수도 있다. 예컨대, 데이터베이스 사용자는 데이터세트 또는 데이터 오브젝트가 어떻게 발생되는지 또는 데이터세트 또는 데이터 오브젝트가 어느 소스로부터 임포트(import)되는지를 알고자 할 수도 있다. 데이터세트를 그 데이터세트가 얻어지는 소스에 대해 역으로 추적하는 것은 데이터 계보 추적(data lineage tracing)(또는 "상류 데이터 계보 추적")으로 지칭된다. 간혹, 데이터베이스 사용자는 예컨대 어느 어플리케이션이 소정의 데이터세트를 판독하였는지와 같이 어떤 데이터세트가 어떻게 사용되었는지를 확인하기를 원할 수도 있다("하류 데이터 계보 추적" 또는 "영향 분석"). 데이터베이스 사용자는 또한 데이터세트가 다른 데이터세트에 어떻게 관련되는지에 관심을 보일 수도 있다. 예컨대, 사용자는 데이터세트가 수정된 경우 어떤 출력 테이블이 영향을 받을지에 대해 알고자 할 수도 있다.
전반적으로, 본 명세서에서 설명되는 발명의 대상의 한 가지 혁신적 양태는, 노드를 포함하는 제1 그래프에서의 제1 노드를 선택하는 사용자 입력을 수신하는 동작을 포함하는 방법으로 구체화될 수 있다. 또한, 상기 방법은 상기 제1 노드에 연관된 제1 오브젝트의 제1 데이터 계보(data lineage)를 수신하는 동작으로서, 상기 제1 오브젝트가 타입을 갖고, 상기 제1 데이터 계보가 상기 제1 오브젝트와 하나 이상의 데이터세트 또는 트랜스폼(transform) 간의 관계를 기술하는, 제1 데이터 계보를 수신하는 동작을 포함한다. 또한, 상기 방법은 노드를 포함하는 제2 그래프로부터 제2 노드를 선택하는 사용자 입력을 수신하는 동작을 포함한다. 또한, 상기 방법은 상기 제2 노드에 연관된 제2 오브젝트의 제2 데이터 계보를 수신하는 동작으로서, 상기 제2 오브젝트가 상기 제1 오브젝트와 동일한 타입을 갖고, 상기 제2 데이터 계보가 상기 제2 오브젝트와 하나 이상의 다른 데이터세트 또는 트랜스폼 간의 관계를 기술하는, 제2 데이터 계보를 수신하는 동작을 포함한다. 또한, 상기 방법은 상기 제1 노드 및 상기 제1 데이터 계보를 상기 제2 노드 및 상기 제2 데이터 계보와 비교하는 것을 수행하는 동작을 포함한다. 또한, 상기 방법은 비교에 기초하여 리포트를 발생하는 동작을 포함한다.
이 양태의 다른 실시예는, 각각 위의 방법의 동작을 수행하도록 구성된, 대응하는 컴퓨터 시스템, 장치, 및 하나 이상의 컴퓨터 저장 디바이스 상에 기록된 컴퓨터 프로그램을 포함한다. 하나 이상의 컴퓨터의 시스템은 작동 시에 시스템으로 하여금 동작을 수행하도록 하는 시스템 상에 설치된 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합을 통해 특정 동작을 수행하도록 구성될 수 있다. 하나 이상의 컴퓨터 프로그램은 데이터 처리 장치에 의해 실행되는 때에 장치로 하여금 동작을 수행하도록 하는 명령을 포함함으로써 특정 동작을 수행하도록 구성될 수 있다.
전술한 실시예 및 기타 실시예는 필요한 경우 이하의 특징 중의 하나 이상을 단독으로 조합하여 포함할 수 있다. 상기 제1 노드의 타입은 데이터세트의 필드, 데이터세트의 컬럼, 데이터세트, 또는 변환으로 이루어진 군(group) 중 하나이어도 된다. 상기 그래프는, 데이터 처리 시스템의 컴포넌트를 표시하는 노드와, 상기 데이터 처리 시스템의 컴포넌트들 간의 데이터 흐름을 표시하는 방향성 에지(directed edge)를 포함할 수 있다. 차이가 상기 제1 오브젝트와 상기 제2 오브젝트 간에서의 구조적 차이로 한정될 수 있다. 상기 제1 오브젝트는 오브젝트의 제1 버전이고, 상기 제2 오브젝트는 오브젝트의 제2 버전이어도 된다. 상기 방법은, 상기 오브젝트의 제1 버전을 상기 오브젝트의 제1 버전을 위한 고유 태그와 룩업 테이블을 이용하여 액세스하는 단계를 더 포함할 수도 있다. 상기 방법은 상기 오브젝트의 제2 버전을 상기 오브젝트의 제2 버전을 위한 고유 태그와 룩업 테이블을 이용하여 액세스하는 단계를 더 포함할 수도 있다. 상기 오브젝트의 제1 버전과 상기 오브젝트의 제2 버전은 리비전 히스토리(revision history)에서 조상-후손 관계(ancestor-descendant relationship)를 가질 수 있다. 상기 오브젝트의 제1 버전과 상기 오브젝트의 제2 버전은 리비전 히스토리에서 공통의 조상을 갖지만, 상기 오브젝트의 둘 중 어떠한 버전도 상기 오브젝트의 다른 버전의 후손이 아닌다. 상기 오브젝트의 제1 버전 및 상기 오브젝트의 제2 버전은 상기 데이터 처리 시스템의 현재 채용된 구현(implementation)을 기술할 수 있다.
본 발명의 양태는 이하의 장점들 중의 하나 이상을 가질 수 있다. 몇몇 구현은 복수-컴포넌트 데이터 처리 시스템에서의 변경의 영향 분석을 가능하게 할 수 있다. 몇몇 구현은 복수-컴포넌트 데이터 처리 시스템의 대안의 버전의 비교를 용이하게 할 수 있다. 몇몇 구현은 복잡한 복수-컴포넌트 데이터 처리 시스템의 유지를 용이하게 할 수 있다. 몇몇 구현은 복수-컴포넌트 데이터 처리 시스템에 대한 개발 및 유지 비용을 감소시킬 수 있다.
본 발명의 기타 특징 및 장점은 이하의 설명 및 청구항들로부터 명백하게 될 것이다.
도 1은 데이터 처리 시스템의 복수의 버전의 메타데이터를 관리하기 위한 시스템의 블록도이다.
도 2a 내지 도 2c는 데이터 처리 시스템을 기술하는 2개 버전의 메타데이터들 간의 차이를 반영하는 데이터 계보 그래프의 예를 예시하는 도면이다.
도 3a는 2개의 상이한 어플리케이션의 데이터세트를 비교하는 리포트의 예를 예시하는 도면이다.
도 3b는 2개의 데이터세트를 비교하는 리포트의 예를 예시하는 도면이다.
도 3c는 디렉토리를 비교하는 리포트의 예를 예시하는 도면이다.
도 3d는 필드 또는 컬럼을 비교하는 리포트의 예를 예시하는 도면이다.
도 3e는 데이터 처리 시스템을 기술하는 2개 버전의 메타데이터들 간의 차이를 반영하는 데이터 계보 테이블의 예를 예시하는 도면이다.
도 4는 데이터 처리 시스템의 데이터 계보 비교 버전의 표시를 발생하기 위한 일례의 프로세스의 흐름도이다.
메타데이터는 데이터를 기술하는 데이터이다. 메타데이터는 기술적인 것일 수 있다. 즉, 메타데이터는 예컨대 데이터 구조의 레코드 포맷, 이미지의 크기, 또는 이미지의 색심도(color depth)와 같은 데이터 구조의 상세를 기술할 수 있다. 메타데이터는 또한 비지니스 관련의 것일 수 있다. 즉, 메타데이터는 예컨대 데이터 구조를 위한 레코드의 시스템, 이미지가 취해진 시간, 포토그래퍼의 성명 등과 같은 데이터에 대한 비-구조적 정보를 제공할 수 있다.
메타데이터는 하부 시스템 또는 데이터 소스에 대한 변경에 응답하여 변경될 수도 있다. 시스템은 메타데이터의 복수의 버전을 저장할 수도 있다. 사용자는 변경된 메타데이터를 이전 버전의 메타데이터 또는 복수 버전의 메타데이터들 간에 비교하고자 할 수도 있다.
몇몇 구현예는 복수-컴포넌트 컴퓨팅 시스템을 위한 메타데이터의 복수의 버전을 컴포넌트간 의존성(inter-component dependency)과 비교하는 것을 제공한다. 사용자는 버전들 간의 변경의 전시스템에 걸친 영향(system-wide impact)을 평가할 수 있다. 메타데이터의 분기된 또는 동시발생적(예컨대, 상이한 지리 영역에 채용되는 데이터 처리 시스템의 예를 표현하는) 버전은 이러한 기술들 중의 몇몇 기술을 사용하여 비교될 수 있다. 메타데이터의 복수 버전에 대한 데이터 계보는 단일 인터페이스에서 비교될 수 있다. 예컨대, 데이터 계보의 지리적 표시는 메타데이터 버전에 의해 기술된 컴퓨팅 시스템에서의 어느 컴포넌트가 이들 버전들 간에 동일한지 또는 상이한지를 지시하기 위해 컬러 코딩될 수 있다. 시스템-레벨 영향은 컴포넌트 자체가 아닌 컴포넌트의 출력이 상류측 변경에 의해 변경되는 때를 지시하기 위해 코딩(예컨대, 컬러 코딩)으로 추가로 강조될 수 있다.
데이터 계보의 비교는 또한 컴포넌트 간의 의존성을 반영하는 시스템 컴포넌트의 도표 나열(tabular listing)로 표시될 수도 있다. 메타데이터의 구조적 비교(예컨대, 영향력이 큰 변경을 코멘트에 대한 변경과 구별하기 위한) 또한 가능하게 될 수 있다. 몇몇 구현예에서, 메타데이터의 각각의 버전은 룩업 테이블을 사용하여 다양한 시스템 컴포넌트에 맵핑되는 고유 버전 태그(unique version tag)를 갖는다.
도 1은 데이터 처리 시스템의 복수의 버전의 메타데이터를 관리하기 위한 시스템의 블록도이다. 환경(100)은 온라인 데이터 스트림에의 접속 또는 저장 장치와 같은 데이터의 하나 이상의 소스를 포함할 수 있는 데이터 소스(102)를 포함하며, 이들의 각각은 데이터를 다양한 저장 포맷(예컨대, 데이터베이스 테이블, 스프레드시트 파일, 플랫 텍스트 파일(flat text file), 또는 메인프레임에 의해 사용된 네이티브 포맷(native format)) 중의 어떠한 포맷으로도 저장할 수 있다. 데이터 처리 시스템(120)은 데이터 처리 컴포넌트(처리 컴포넌트 A(122),..., 처리 컴포넌트 Z(124))를 포함한다. 데이터 처리 시스템(120)은 UNIX 운영 체제와 같은 적합한 운영 체제의 제어 하에서 하나 이상의 범용 컴퓨터 상에 호스팅될 수 있다. 예컨대, 데이터 처리 시스템(120)에서의 처리 컴포넌트(예컨대, 처리 컴포넌트 A(122))는 근거리의(local)(예컨대, SMP 컴퓨터와 같은 멀티프로세서 시스템) 또는 근거리에 분산된(예컨대, 클러스터 또는 MPP로서 결합된 복수의 프로세서), 또는 원격의 또는 원격으로 분산된(예컨대, 근거리 통신망(LAN) 및/또는 광역 통신망(WAN)을 통해 결합된 복수의 프로세서), 또는 이들의 임의의 조합 중의 어느 하나의 복수의 중앙 처리 장치(CPU)를 사용하는 컴퓨터 시스템의 구성을 포함한 복수-노드 병렬 컴퓨팅 환경을 포함할 수 있다.
몇몇 구현예에서, 데이터 처리 시스템은 상이한 기술을 기반으로 하는 처리 컴포넌트(예컨대, 상이한 프로그래밍 언어로 작성된 소프트웨어 또는 상이한 운영 체제를 실행하는 별도의 컴퓨팅 디바이스에 의해 호스팅되는 모듈 등)들을 포함한다는 점에서 이질적(heterogeneous)이라 할 수 있다.
데이터 처리 시스템(120)은 데이터 소스(102)로부터 데이터를 액세스하고, 출력 데이터를 발생하기 위해 데이터 처리 시스템의 처리 컴포넌트(예컨대, 122, 124)를 이용하여 데이터를 처리한다. 출력 데이터는 데이터 처리 시스템(120)의 사용자에 의해 직접 저장되거나 및/또는 소모될 수 있다. 몇몇 구현예에서, 출력 데이터는 예컨대 데이터 소스(102) 중 하나 이상의 데이터 소스에 다시 기록되거나 또는 임의의 다른 데이터 싱크에 기록되는 것과 같이 익스포트(export)될 수 있다.
메타데이터 관리 시스템(130)은 데이터 처리 시스템(120) 및/또는 외부 데이터 소스(102)의 작동을 기술하는 메타데이터를 수집한다. 데이터 처리 시스템(120)의 컴포넌트(예컨대, 처리 컴포넌트 A(122) 및/또는 외부 메인프레임 데이터 소스(110))를 기술하는 메타데이터는 데이터 저장 시스템(140) 상의 관계형 데이터베이스(142)에 메타데이터 오브젝트 레코드로서 저장될 수 있다. 메타데이터 관리 시스템(130)은 외부 데이터 소스(102)에 대한 기술(description)을 포함한 데이터 처리 시스템의 하나 이상의 버전을 기술하는 메타데이터를 유지하며, 사용자(예컨대, 사용자 150)로 하여금 사용자 단말기(152)의 사용자 인터페이스를 통해 메타데이터와 상호작용하도록 한다. 예컨대, 사용자 단말기(152)는 사용자(150)가 메타데이터 관리 시스템(130)과 상호작용하기 위해 사용하는 그래픽 사용자 인터페이스를 포함할 수 있다. 사용자는 다양한 버전의 데이터 처리 시스템(120)의 컴포넌트를 기술하는 메타데이터를 질의 및/또는 편집할 수도 있다.
메타데이터 관리 시스템(130)이 사용자(150)에게 제공하는 기능 중의 하나는 데이터 계보 표시(예컨대, 데이터 계보 그래프, 데이터 계보 테이블, 또는 데이터 처리 시스템(120)의 컴포넌트들 간의 의존성을 반영하는 기타 표시)를 발생하고 검토하는 능력이다.
몇몇 예에서, 데이터 저장장치(140)는 기본 데이터 저장부 및 인터페이스 데이터 저장부 둘 모두를 포함할 수 있다. 기본 데이터 저장부는 기술적인 메타데이터를 저장할 수 있고, 어플리케이션을 그래프 및 트랜스폼(transform)과 같은 이들의 연관된 메타데이터와 함께 포함할 수 있다. 기술적인 메타데이터를 저장하는 것에 부가하여, 기본 데이터 저장부는 또한 의존성 분석을 포함하는 다양한 종류의 분석(예컨대, 아래에 보다 상세하게 설명되는 바와 같이 데이터 계보를 계산하는 것)을 수행할 수 있거나, 또는 이러한 분석의 결과를 수신하고 저장할 수 있다. 몇몇 예에서, 기본 데이터 저장부 및 인터페이스 데이터 저장부는 합쳐져서 단일 데이터 저장부로서 구현될 수도 있다.
기술적인 메타데이터가 다양한 기능에서 개발자에게 유용하지만, 더 높은 레벨의 메타데이터가 분석되고 조작될 필요가 있는 많은 경우가 있다. 간혹 "기업" 또는 "사업" 메타데이터로 지칭되는 이러한 더 높은 레벨의 메타데이터는 데이터 분석에서 유용한 경우가 많다. 사업 메타데이터의 몇몇 예는 어느 고용인이 데이터를 담당하는지를 지시하는 데이터 스튜워드십(data stewardship)과, 파일 및 파일 내의 필드에 대한 비지니스 정의(business definition)인 데이터 사전을 포함한다. 사업 메타데이터는 데이터의 기술적인 기술(technical description)을 넘어서고 있으며, 기본 데이터 저장부와는 별도의 인터페이스 데이터 저장부와 같은 플랫폼 상에 저장될 수 있다.
메타데이터 오브젝트 형태로 데이터 저장장치(140)에 저장된 정보는 어플리케이션 및 이들 어플리케이션에 의해 처리된 데이터에 대한 다양한 종류의 분석을 가능하게 한다. 예컨대, 아래에 추가로 설명되는 바와 같이, 사용자는 데이터 계보에 대한 질문(소정의 값이 어디로부터 온 것인가? 출력값이 어떻게 계산되었는가? 어느 어플리케이션이 이 데이터를 발생하고 의존하는가?)에 대한 대답을 획득할 수 있다. 개발자는 제안된 수정의 결과를 이해할 수 있다(예컨대, 이 부분이 변경되면, 그 밖의 무엇이 영향을 받게 될 것인가? 이 소스 포맷이 변경되면, 어느 어플리케이션이 영향을 받게 될 것인가?). 사용자/개발자는 또한 기술적인 메타데이터 및 사업 메타데이터 둘 모두를 수반하는 질문-응답을 획득할 수 있다(예컨대, 어느 그룹이 이 데이터를 발생하고 사용하는 것을 담당하는지? 누가 이 어플리케이션을 마지막으로 변경하였는지? 이들이 어떠한 변경을 행하였는지?).
데이터 저장장치(140)는 저장된 메타데이터 오브젝트의 상태를 추적할 수 있다. 데이터 저장장치(140)에 저장된 오브젝트는 여러 버전으로 되어(versioned), 어떠한 것의 지난주, 지난달 또는 작년과 같은 시점에서의 상태를 검사하고, 이것을 어떠한 것의 현재의 상태와 비교하는 것을 가능하게 한다. 데이터 저장장치(140)는 잡-트래킹(job-tracking), 또는 추세 분석(예컨대, 우리의 데이터 성장이 얼마나 빠른지?) 및 용량 계획(capacity planning)(예컨대, 그 어플리케이션이 얼마나 오래 실행되었는지? 얼마나 많은 데이터를 처리하였는지, 그리고 어떤 속도로 처리하였는지? 어플리케이션이 어떤 자원을 소모하였는지? 또 다른 서버를 추가할 필요가 있을지?)을 가능하게 하는 실행 정보를 수집할 수 있다.
몇몇 경우에, 데이터 저장장치(140)로부터 또는 다른 데이터 소스로부터 관계(계보 정보와 같은)가 추출될 수 있다. 인터페이스 데이터 저장부는 데이터 계보 하이-레벨 개요(summary)를 유지할 수 있다. 계보 정보(또는 다른 데이터 의존성 분석)는 시스템(100) 내에서 자동으로 계산될 수 있거나, 또는 외부 시스템으로부터 또는 수동 입력으로부터 수신될 수 있다. 예컨대, 시스템(100)은 코드를 분석하는 사람에 의해 모아지고 작성되는 계보 정보를 수신할 수 있다. 계보 정보는 다양한 사전 결정된 포맷들 중의 임의의 포맷의(예컨대, 스프레드시트의) 파일로부터 데이터 저장장치(140)에 임포트될 수 있다.
예컨대, 데이터 계보 표시는 데이터 저장장치(140)에 저장된 메타데이터 오브젝트를 표시하는 데이터 및/또는 처리 노드에 대한 단대단 계보(end-to-end lineage)를 보여준다; 즉, 소정의 개시 오브젝트가 의존하는 오브젝트(소정의 개시 오브젝트의 소스) 및 소정의 개시 오브젝트가 영향을 주는 오브젝트(소정의 개시 오브젝트의 타겟). 몇몇 구현예에서, 데이터 처리 시스템(120)을 기술하는 메타데이터의 2개 이상의 버전들 간의 차이를 반영하는 데이터 계보 표시가 생성될 수 있다. 예컨대, 컴포넌트(예컨대, 그래프에서의 노드 또는 테이블에서의 하나 이상의 셀)의 표시는 그 컴포넌트에 대한 2개의 버전들 간의 차이를 반영하기 위해 컬러 코딩될 수 있다. 예컨대, 데이터 계보의 표시 위에 2개의 버전에 대한 차이 정보를 오버레이하는 것은, 사용자로 하여금, 데이터 처리 시스템(120)의 2개의 버전들 간의 스위칭의 전시스템에 걸친 영향을 보다 용이하게 평가하도록 할 수 있다. 이것은 데이터 처리 시스템에 대한 유지 비용 및 잠재적인 시스템 정지 시간(down time)을 감소시킬 수 있다.
데이터 소스(102)를 제공하는 저장장치 디바이스는 예컨대 데이터 처리 시스템(120)의 하나 이상의 처리 컴포넌트를 실행하는 컴퓨터에 연결된 저장 매체(예컨대, 하드 드라이브(108)) 상에 저장되는 것과 같이 데이터 처리 시스템(120)에 대해 근거리에 있을 수도 있고, 또는 예컨대 원격 접속을 통해 데이터 처리 시스템(120)의 하나 이상의 처리 컴포넌트를 실행하는 컴퓨터와 통신하는 원격 시스템(예컨대, 메인프레임(110)) 상에 호스팅되는 것과 같이 데이터 처리 시스템(120)에 대해 원격으로 위치되어 있어도 된다. 몇몇 구현예에서, 데이터 소스(102)의 하나 이상의 데이터 소스 디바이스는, 이들이 별개의 엔티티에 의해 작동되고, 이들 소스 디바이스에 대해 이용 가능한 메타데이터가 데이터 소스를 식별하기 위해 요구된 정보만을 기술하고, 데이터 처리 시스템(120)으로 하여금 데이터 소스로부터 데이터를 추출하도록 한다는 점에서(예컨대, 식별 및 어플리케이션 프로그래밍 인터페이스(API) 정보로 제한된), 데이터 처리 시스템(120)에 대해 외부의 것이라 할 수 있다.
도 2a는 일례의 데이터 계보 그래프(200)의 제1 버전에 대한 개략도를 도시하고 있다. 그래프는 데이터 저장부와 트랜스폼 간의 의존성 관계를 예시하고 있다. 데이터가 하나 이상의 데이터 소스로부터 하나 이상의 데이터 싱크(통칭하여, 데이터 저장부)로의 데이터의 흐름을 처리하는 데이터 계보 그래프의 노드에 의해 표시된 데이터 처리 컴포넌트의 시퀀스에 통과된다. 하부 데이터 처리 시스템에서의 다양한 데이터 처리 컴포넌트 중 임의의 데이터 처리 컴포넌트가 별도의 처리 디바이스 상에서 실행되는 프로세스에 의해 구현될 수도 있거나, 복수의 데이터 처리 컴포넌트가 단일 처리 디바이스 상에서 실행되는 하나 이상의 프로세스에 의해 구현될 수도 있다. 몇몇 구현예에서, 입력 데이터 레코드는 이들 입력 데이터 레코드가 도착하는 때에 지속적으로 처리될 수도 있다(예컨대, 신용 카드 트랜잭션을 위한 요청에 응답하여). 몇몇 구현예에서, 데이터는 데이터 계보 그래프(200)에 의해 반영된 시스템에 의해 처리될 입력 데이터 레코드의 세트를 식별하는 일괄처리(batch)에서 처리될 수 있다.
이 예에서, 데이터 소스 "미국 피드(U.S. Feed)"(202)는 데이터를 "트랜스폼 A(Transform A)"(204) 트랜스폼에 제공한다. 트랜스폼 A(204)는 "미국 피드(U.S. Feed)"(202)에 의해 제공된 데이터에 대해 연산을 수행하고, 그 결과를 "중간 데이터 세트 1(Intermediate Dataset 1)"(206) 데이터 저장부에 저장한다. 중간 데이터 세트 1(206) 데이터 저장부 및 "멕시코 피드(Mexico Feed)"(208) 데이터 저장부는 데이터를 "트랜스폼 B(Transform B)"(210) 트랜스폼에 제공한다. 트랜스폼 B(210) 트랜스폼은 멕시코 피드(208) 및 중간 데이터세트 1(206)로부터 제공된 데이터를 사용하고, 그 결과를 "출력 데이터세트(Output DataSet)"(212) 데이터 저장부에 저장한다.
도 2b는 일례의 데이터 계보 그래프(220)의 제2 버전에 대한 개략도를 도시하고 있다. 제2 버전은 도 2a를 참조하여 위에서 설명한 데이터 계보 그래프의 제1 버전의 나중 버전 또는 업데이트된 버전이어도 된다. 제2 버전은 또한 데이터 계보의 제1 버전과 병행할 수도 있는 데이터 계보이어도 된다.
이 예에서, 데이터 소스 "미국 피드(U.S. Feed)"(222)는 데이터를 "트랜스폼 A(Transform A)"(224) 트랜스폼에 제공한다. 트랜스폼 A(224)는 "미국 피드(U.S. Feed)"(222)에 의해 제공된 데이터에 대해 연산을 수행하고, 그 결과를 "중간 데이터세트 1(Intermediate Dataset 1)"(226) 데이터 저장부에 저장한다. 데이터 소스 "멕시코 피드(Mexico Feed)"(228) 및 "브라질 피드(Brazil Feed)"(238)는 데이터를 "트랜스폼 C(Transform C)"(230) 트랜스폼에 제공한다. 트랜스폼 C(230) 트랜스폼은 "멕시코 피드(Mexico Feed)"(228)에 의해 제공된 데이터에 대해 연산을 수행하고, 그 결과를 "중간 데이터세트 2(Intermediate Dataset 2)"(232) 데이터 저장부에 저장한다.
"중간 데이터세트 1"(226) 데이터 저장부 및 "중간 데이터세트 2"(232) 데이터 저장부는 데이터를 "트랜스폼 B(Transform B)"(234) 트랜스폼에 제공한다. 트랜스폼 B(234) 트랜스폼은 중간 데이터세트 1(226) 및 중간 데이터세트 2(232)로부터 제공된 데이터를 사용하고, 그 결과를 "출력 데이터세트(Output DataSet)"(236) 데이터 저장부에 저장한다.
도 2c는 데이터 처리 시스템을 기술하는 메타데이터의 2개의 버전에 대한 일례의 데이터 계보 그래프(240)의 개략도를 도시하고 있다. 이 예는 전술한 제1 버전과 제2 버전의 비교를 나타내고 있다. 데이터 계보 그래프(240)는 메타데이터의 2개의 버전들 간의 차이의 지시를 포함한다. 예시된 예에서, 그 차이는 컬러 코딩과 등가의 것인 음영 패턴에 의해 나타내어져 있다.
이 예에서, 데이터 소스 "미국 피드(U.S. Feed)"(242)는 데이터를 "트랜스폼 A(Transform A)"(246) 트랜스폼에 제공한다. 트랜스폼 A(246)는 "미국 피드(U.S. Feed)"(242)에 의해 제공된 데이터에 대해 연산을 수행하고, 그 결과를 "중간 데이터세트 1(Intermediate Dataset 1)"(248) 데이터 저장부에 저장한다. 데이터 소스 "멕시코 피드(Mexico Feed)"(250) 및 "브라질 피드(Brazil Feed)"(260)는 데이터를 "트랜스폼 C(Transform C)"(252) 트랜스폼에 제공한다. 트랜스폼 C(252) 트랜스폼은 "멕시코 피드(Mexico Feed)"(250)에 의해 제공된 데이터에 대해 연산을 수행하고, 그 결과를 "중간 데이터세트 2(Intermediate Dataset 2)"(254) 데이터 저장부에 저장한다.
"중간 데이터세트 1"(248) 데이터 저장부 및 "중간 데이터세트 2"(254) 데이터 저장부는 데이터를 "트랜스폼 B(Transform B)"(256) 트랜스폼에 제공한다. "트랜스폼 B"(256) 트랜스폼은 "중간 데이터세트 1"(248) 데이터 저장부 및 "중간 데이터세트 2"(254) 데이터 저장부로부터 제공된 데이터를 사용하고, 그 결과를 "출력 데이터세트(Output DataSet)"(258) 데이터 저장부에 저장한다.
노드 252, 254, 260의 음영(shading)은 데이터 처리 시스템의 대응하는 컴포넌트 및 데이터 저장부가 데이터 계보의 이 표시에서 비교되고 있는 2개의 버전 중의 하나(예컨대, 제2 버전)에만 존재한다는 것을 나타낸다. 예컨대, 하부 데이터 처리 시스템의 제2 버전에서, 트랜스폼 C는 어떠한 기준에 부합하지 못하는 어떠한 레코드를 데이터 흐름으로부터 제거할 수 있다(예컨대, Mexico City에 거주하지 않는 고객에 대한 모든 레코드를 제거할 수 있다). 하부 데이터 처리 시스템의 제1 버전에서는, Mexico City 고객에 대한 레코드를 포함한 모든 레코드가 데이터 처리 시스템을 통해 데이터흐름에서의 다음 컴포넌트 상으로 통과되도록 트랜스폼 C가 존재하지 않는다. 통과된 레코드는 데이터 저장부 2에 저장될 수 있다. 노드 248에 의해 반영된 트랜스폼 B 컴포넌트는 음영되어 있지 않으며, 이것은 이 컴포넌트가 둘 모두의 버전에서 발생하고 있다는 것을 나타낸다. 각각의 버전에서, 트랜스폼 B는 출력 데이터세트를 팝퓰레이트(populate)하기 위해 미국 피드(U.S. Feed), 멕시코 피드(Mexico Feed) 및 브라질 피드(Bazil Feed)로부터 발원하는 레코드에 대해 연산을 수행할 것이다. 트랜스폼 B 컴포넌트 자체는 멕시코 피드(버전 1에 대한) 또는 중간 데이터세트 2(버전 2에 대한) 중의 어느 하나와 중간 데이터세트 1로부터 수신된 데이터를 저장 또는 디스플레이를 위해 포맷화할 수 있다. 예컨대, 리포트는 제1 버전에서의 제품 주문으로부터의 모든 수입의 총계를 포함할 수 있으며, 리포트는 제2 버전에서의 Mexico City의 거주자에 의한 제품 주문으로부터의 모든 수입의 총계를 포함할 수 있다. 트랜스폼 C 및 출력 데이터세트가 변경되지 않지만, 이들의 각자의 출력은 상류측 컴포넌트인 트랜스폼 C가 하나의 버전에 삽입되어 있고 다른 버전에는 삽입되어 있지 않기 때문에 2개의 버전들 간에 차이가 있을 수 있다. 데이터 계보 그래프(240)를 검토하는 사용자는, 트랜스폼 C가 비교되고 있는 2개의 버전들 간의 차이점이라는 것을 쉽게 판단할 수 있고, 더 나아가 노드로부터의 하류측에 있는 노드에 의해 반영된 모든 컴포넌트의 출력이, 이들 노드 자체가 2개의 버전들 간에 동일한 경우에도, 잠재적으로는 마찬가지로 변경될 수 있다는 것을 쉽게 판단할 수 있다. 그러므로, 2개의 버전들 간의 변경의 영향의 범위가 신속하게 평가될 수 있다.
몇몇 구현예(도시하지 않음)에서, 그 자체가 변경되지 않았던 데이터 계보에서의 상류측 변경으로 인해 대응하는 컴포넌트의 출력이 변경될 수 있는 노드는 이들의 상태에 대한 추가의 지시를 추가하여 더 명확하게 하이라이트될 수도 있다. 예컨대, 변경된 노드의 하류측의 이들 노드는 이들의 상태를 보다 명시적으로 반영하기 위해 제2 음영 또는 컬러로 음영되거나 컬러 코딩될 수도 있다.
예컨대, 트랜스폼 B(노드 256에 의해 반영된)는 중간 데이터세트 1로부터의 정보를 중간 데이터세트 2와 조합할 수 있다. 이 시퀀스의 레코드가 데이터 저장부(258)에 저장된다. 노드 246 및 248의 줄무늬 음영은 이들 노드들에 의해 반영되는 컴포넌트가 비교되고 있는 버전 둘 모두에 존재하지만 이들 노드가 2개의 버전에서 다르다는 것을 지시한다. 데이터 계보 그래프(200)를 검토하는 사용자는 이들 차이가 어디에서 발생하는지와 2개의 버전 간의 차이의 영향의 범위를 용이하게 판단할 수 있다.
예컨대, 데이터 계보 그래프(240)는 메타데이터 관리 시스템(130)에 의해 발생되고, 도 1의 사용자 단말기(152)의 그래픽 사용자 인터페이스를 통해 사용자(150)에게 디스플레이될 수 있다.
시스템에서의 상이한 컴포넌트에 대한 메타데이터들 간의 차이를 식별하고 하이라이트하는 리포트가 발생될 수 있다. 아래에 추가로 설명되는 바와 같이, 데이터 소스, 데이터세트, 디렉토리, 및 필드와 컬럼에 기초하여 데이터세트를 비교하는 리포트가 발생될 수 있다. 또한, 전술한 바와 같이 데이터 계보에 의해 식별된 데이터 처리 시스템을 기술하는 2개 버전의 메타데이터들 간의 차이를 식별하고 하이라이트하는 리포트가 발생될 수도 있다. 몇몇 구현예에서, 리포트는 데이터 계보 그래프의 사전 결정된 섹션에 기초하여 데이터세트, 데이터 컴포넌트, 및 트랜스폼을 식별할 수 있다. 예컨대, 제1 섹션(262)은 "궁극적인 데이터 소스(Ultimate Data Source)"로서 식별될 수 있고, 제2 섹션(264)은 "초기 트랜스폼(Initial Transforms)"으로서 식별될 수 있으며, 제3 섹션(266)은 "중간 데이터세트(Intermediate Datasets)"로서 식별될 수 있고, 제4 섹션(268)은 "2차 트랜스폼(Secondary Transforms)"으로서 식별될 수 있으며, 제5 섹션(270)은 "리포트(Reports)"로서 식별될 수 있다.
도 3a는 데이터 소스에 기초하여 2개의 상이한 어플리케이션의 데이터세트를 비교하는 리포트의 예를 예시하고 있다. 리포트(300)는 데이터 처리 시스템에서의 어플리케이션을 기술하는 데이터세트들 간의 차이를 식별한다. 리포트(300)의 행(row)은 각각 어플리케이션에 의해 사용되는 데이터세트를 반영한다. 리포트(300)의 열(column)은 각각 어플리케이션, 즉 이 예에서는 "U.S. Feed" 데이터 소스(302) 및 "Mexico Feed" 데이터 소스(304)를 반영한다.
리포트(300)에 의해 비교되는 데이터 처리 시스템의 어플리케이션에서 존재하는 데이터세트의 2개의 버전들 간의 차이는 음영에 의해 지시되어 있다. 줄무늬의 행(예컨대, 줄무늬 행 306 및 310)은 그 행 또는 열에 대응하는 데이터세트(예컨대, "City-name.rej" 데이터세트 및 "Customer.err" 데이터세트)가 둘 모두의 버전에 존재하지만 2개의 버전들 간에 상이하다(예컨대, 수정됨)는 것을 지시한다. 음영 행 및 열(예컨대, 음영 행 308 및 312)은 그 행에 대응하는 데이터세트(예컨대, "Bogo_promos.dat" 데이터세트 및 "Dg_Issues" 데이터세트)가 비교되는 2개의 버전 중의 하나의 버전에만 존재한다는 것을 지시한다.
도 3b는 2개의 데이터세트를 비교하는 리포트의 예를 예시하고 있다. 리포트(320)는 데이터 처리 시스템에서 어플리케이션을 기술하는 데이터세트들 간의 차이를 식별한다. 리포트(320)의 각각의 행은 각각의 데이터 세트에서의 데이터 엘레멘트를 반영한다. 리포트(320)의 각각의 열은 이 예에서는 데이터세트, 즉 이 예에서는 "customer.dat"(322) 및 "customer.dat(2)"(324)로 표기된 고객 데이터 세트의 2개의 버전을 반영한다.
리포트(320)에 의해 비교된 데이터세트의 2개의 버전들 간의 차이는 음영에 의해 지시되어 있다. 줄무늬 행(예컨대, 줄무늬 행 330)은 그 행 또는 열에 대응하는 데이터 엘레멘트(예컨대, "Cust_birthday" 데이터 엘레멘트)가 데이터 세트 둘 모두에 존재하지만, 2개의 버전들 간에 다르다(예컨대, 수정됨)는 것을 나타낸다. 음영 행 및 열(예컨대, 음영 행 328 및 332)은 그 행에 대응하는 데이터 엘레멘트(예컨대, "Main_postcode" 데이터세트 및 "Main_zipcode" 데이터 엘레멘트)가 비교되는 2개의 버전들 중의 하나의 버전에만 존재한다는 것을 나타낸다.
도 3c는 디렉토리를 비교하는 리포트의 예를 도시하고 있다. 리포트(340)는 컴퓨터 시스템에 의해 사용되는 디렉토리들 간의 차이를 식별한다. 리포트(340)의 행은 각각 디렉토리에 저장된 파일을 반영한다. 리포트(340)의 열은 각각 이 예에서는 "Workarea(1)" 디렉토리(342) 및 "Workarea(2)" 디렉토리(344)인 디렉토리 내의 파일을 반영한다.
2개의 디렉토리들 간의 차이는 음영에 의해 지시된다. 줄무늬 행(예컨대, 줄무늬 행 346 및 350)은 그 행 또는 열에 대응하는 파일(예컨대, "Promotions.rej" 파일 및 "Customers.rej" 파일)이 둘 모두의 버전에 존재하지만 이들 디렉토리 간에 다르다(예컨대, 수정됨)는 것을 지시한다. 음영 행 및 열(예컨대, 음영 행 348 및 352)은 그 행에 대응하는 파일(예컨대, "Cust_payments.dat" 파일 및 "Promotions.dat" 파일)이 2개의 디렉토리들 중의 하나의 디렉토리에만 존재한다는 것을 나타낸다.
도 3d는 필드 또는 컬럼을 비교하는 리포트의 예를 도시하고 있다. 리포트(360)는 하나 이상의 데이터 세트에서의 필드들 또는 컬럼들 간의 차이를 식별한다. 리포트(360)의 행은 필드 또는 컬럼의 특징을 표시한다. 특징은 추가의 컬럼(361)에 의해 식별될 수 있다. 리포트(360)의 컬럼은 각각 데이터 세트에서의 필드 또는 컬럼, 즉 이 예에서는 "Cust_Birthday" 필드(362) 및 "Cust_Birthday(2)" 필드(364)를 반영한다.
2개의 필드들 또는 컬럼들 간의 차이는 음영에 의해 지시되어 있다. 줄무늬 행(예컨대, 줄무늬 행 366 및 370)은 행 또는 열에 대응하는 각각의 특징(예컨대, "데이터세트(DataSet)" 특징 및 "네이티브 타입(Native Type)" 특징)에 대한 값이 둘 모두의 필드에 존재하지만 2개의 필드들 간에 다르다는 것을 지시한다. 음영 행 및 열(예컨대, 음영 행 368 및 372)은 그 행에 대응하는 특징(예컨대, "디폴트값(Default Value)" 특징 및 "사업 기간(Business Term)" 특징)이 2개의 필드 중의 하나의 필드에만 존재한다는 것을 지시한다.
도 3e는 데이터 처리 시스템을 기술하는 2개 버전의 메타데이터들 간의 차이를 반영하는 데이터 계보 테이블(380)의 예를 도시하고 있다. 이 예에서, 데이터 계보 테이블(380)은 도 2c의 데이터 계보 다이아그램(240)에서 반영된 바와 같이 도 2a의 데이터 계보 다이아그램(200)과 도 2b의 데이터 계보 다이아그램(220) 간의 차이를 반영한다.
데이터 계보 테이블의 제목 행(382)은 도 2c에 대하여 전술한 바와 같이 데이터 계보 다이아그램의 섹션을 식별한다. 제1 열(286)은 데이터 계보 다이아그램의 리포트 영역(262)에 관련된 데이터 계보 다이아그램의 컴포넌트를 식별하며, 제2 열(287)은 데이터 계보 다이아그램의 2차 변환 섹션(268)에 관련되는 데이터 계보 다이아그램의 컴포넌트를 식별한다. 제3 열(288)은 중간 데이터세트 섹션(266)에 관련되는 데이터 계보 다이아그램의 컴포넌트를 식별한다. 제4 열(289)은 초기 변환 섹션(264)에 관련되는 데이터 계보 다이아그램의 컴포넌트를 식별한다. 제5 열(290)은 궁극적인 데이터 소스 섹션(262)에 관련되는 데이터 계보 다이아그램의 컴포넌트를 식별한다.
행 284는 출력 데이터 세트에 연관된 컴포넌트를 예시한다. 이 예에서, 출력 데이터 세트의 필드의 크기는 트랜스폼 B(Transform B), 중간 데이터 1(Intermediate Dataset 1), 중간 데이터 2(Intermediate Dataset 2), 트랜스폼 A(Transform A), 트랜스폼 C(Transform C), 미국 피드(U.S. Feed), 멕시코 피드(Mexico Feed), 및 브라질 피드(Brazil Feed)에 연관된 것으로서 시각적으로 식별 가능하게 되도록 확장된다. 각각의 필드에 대해, 필드의 크기는 컴포넌트들 간의 관계를 분명하게 보여주도록 조정된다. 예컨대, 멕시코 피드(Mexico Feed)와 브라질 피드(Brazil Feed)는 트랜스폼 C(Transform C)와 연관된다. 즉, 도 2c를 참조하면, 멕시코 피드(Mexico Feed)(250)와 브라질 피드(Brazil Feed)(260)는 트랜스폼 C(Transform C)(252)에 데이터를 공급한다. 이와 같이, 트랜스폼 C(Transform C)에 대한 필드(294)의 크기는 멕시코 피드(Mexico Feed)를 위한 필드 및 브라질 피드(Brazil Feed)를 위한 필드(296)에 시각적으로 연관되기에 충분한 정도로 크다.
데이터 계보의 2개의 컴포넌트들 간의 차이는 음영에 의해 지시될 수 있다. 줄무늬 필드(예컨대, 줄무늬 필드 291, 292)는 컴포넌트가 데이터 계보 다이아그램의 둘 모두의 버전에 존재하지만 동일한 양상으로 변경되었다는 것을 지시한다. 예컨대, 중간 데이터세트 1(Intermediate Dataset 1)은 도 2a의 데이터 계보 다이아그램(200)에서 중간 데이터세트 1(Intermediate Dataset 1)(206)로서 제공되어 있고, 또한 도 2b의 데이터 계보 다이아그램(220)에서는 중간 데이터세트 1(Intermediate Dataset 1)(226)로서 제공되어 있지만, 여기에는 리포트에서 반영되는 데이터세트에 대한 몇몇 변경이 있다.
음영 필드(예컨대, 음영 필드 293, 294, 296)는 컴포넌트가 데이터 계보 다이아그램 중의 하나에만 제공된다는 것을 지시하거나, 또는 복수의 버전들이 비교되고 있다면 데이터 선형 다이아그램들 중의 적어도 하나에 제공되지 않는다는 것을 지시한다. 예컨대, 트랜스폼 C는 도 2b의 데이터 계보 다이아그램(220)에는 제공되지만, 도 2a의 데이터 선형 다이아그램(200)에는 제공되지 않는다.
데이터 계보의 어떠한 엘레멘트를 위한 메타데이터가 비교될 수 있다. 예컨대, 데이터세트 및 데이터 변환 컴포넌트의 버전들이 비교될 수 있다. 도 4는 일례의 메타데이터 버전 비교 프로세스(400)를 위한 흐름도를 도시하고 있다. 예컨대, 프로세스(400)는 도 1의 메타데이터 관리 시스템(130)에 의해 수행될 수 있다.
프로세스(400)는 버전 비교를 위한 요청이 수신되는 때에(402) 개시될 수 있다. 몇몇 구현예에서, 이 요청은 비교될 어떠한 다른 버전에 대한 기본 버전 또는 기준 버전의 명시적인 또는 암묵적인 식별을 포함할 수 있다. 이 요청은 또한 메타데이터가 이용 가능한 데이터 처리 시스템의 하나 이상의 추가의 버전의 식별을 포함할 수 있다. 몇몇 구현예에서, 이 요청은 기본 버전을 지정하지 않고 데이터 처리 시스템을 기술하는 메타데이터의 2개 이상의 버전을 식별하는 정보를 포함한다. 예컨대, 버전을 식별하는 정보는 데이터 처리 시스템의 버전에 연관된 고유 버전 태그(unique version tag)를 포함할 수 있다.
비교를 위한 요청에 의해 식별된 버전들은 서로에 대해 다양한 관계를 가질 수 있다. 몇몇 구현예에서, 메타데이터의 제1 버전과 메타데이터의 제2 버전은 리비전 히스토리(revision history)에서 조상-후손 관계(ancestor-descendant relationship)를 갖는다. 예컨대, 제1 버전이 제2 버전의 나중 버전일 수 있거나, 또는 제2 버전이 제1 버전의 나중 버전일 수도 있다. 몇몇 구현예에서, 메타데이터의 제1 버전과 메타데이터의 제2 버전은 리비전 히스토리에서 공통의 조상을 갖지만, 이 둘 중의 어떠한 것도 메타데이터의 다른 버전의 후손이 아니다. 예컨대, 제1 버전과 제2 버전은 둘 모두가 더 이전의 제3 버전으로부터 구해지는 병렬의 대안적 개발 경로(parallel alternate development path)에 대응할 수 있다. 몇몇 구현예에서, 메타데이터의 제1 버전과 메타데이터의 제2 버전은 데이터 처리 시스템의 현재 채용된 구현을 기술한다. 예컨대, 메타데이터의 제1 버전은 제1 지리 영역(예컨대, 북미)에 배치되는 데이터 처리 시스템의 인스턴스를 기술하고, 메타데이터의 제2 버전은 제2 지리 영역(예컨대, 유럽)에 배치되는 데이터 처리 시스템의 인스턴스를 기술할 수 있다. 또 다른 예에서, 메타데이터의 제1 버전은 데이터 처리 시스템의 테스트 모드 인스턴스를 기술할 수 있고, 메타데이터의 제2 버전은 데이터 처리 시스템의 생산 모드 인스턴스를 기술할 수 있다.
몇몇 구현예에서, 요청을 수신하는 처리 디바이스의 근거리에서 연결되는 하드웨어(예컨대, 컴퓨터 모니터 및 키보드 및/또는 마우스)를 포함한 사용자 인터페이스(예컨대, 그래픽 사용자 인터페이스)를 통해 요청이 수신된다. 예컨대, 요청은 도 1의 메타데이터 관리 시스템(130)의 사용자 인터페이스를 통해 수신될 수 있다(402). 몇몇 구현예에서, 요청은 원격 처리 디바이스로부터 네트워크 인터페이스를 통해 서버에 의해 수신된다. 예컨대, 요청은 원격 처리 디바이스 상에서 작동하는 사용자 단말기(152)로부터 메타데이터 관리 시스템(130)의 네트워크 인터페이스를 통해 수신될 수 있다(402).
데이터 처리 시스템을 기술하는 메타데이터의 제1 버전이 검색된다(404). 몇몇 구현예에서, 메타데이터의 제1 버전을 위한 메타데이터는 메타데이터의 제1 버전을 위한 고유 태그와 룩업 테이블을 이용하여 액세스된다. 예컨대, 관계형 데이터베이스는 데이터 처리 시스템의 컴포넌트에 연관된 메타데이터 오브젝트를 가리키는(pointing) 외래 키(foreign key)를 나열하는 룩업 테이블을 포함할 수 있다. 몇몇 구현예에서, 데이터 처리 시스템의 컴포넌트를 기술하는 메타데이터 오브젝트는 외래 키로서 하나 이상의 버전 태그를 포함할 수 있다. 메타데이터의 제1 버전을 검색하는(404) 때에, 관계형 데이터베이스는 제1 버전을 위한 버전 태그를 포함하는 모든 메타데이터 오브젝트를 리턴하도록 질의(query)될 수도 있다. 예컨대, 메타데이터의 제1 버전은 도 1의 메타데이터 관리 시스템(130)에 의해 데이터 저장장치(140)에 존재하는 관계형 데이터베이스(142)로부터 검색될 수 있다(404).
데이터 처리 시스템에서의 컴포넌트들 간의 의존성의 표시가 발생된다(406). 이 표시는 데이터 처리 시스템을 기술하는 메타데이터의 제1 버전을 기반으로 하는 제1 데이터 계보를 반영할 수 있다. 몇몇 구현예에서, 표시는 그래프를 포함하며, 이 그래프는 데이터 처리 시스템의 컴포넌트를 표시하는 노드와, 데이터 처리 시스템의 컴포넌트들 간의 데이터 흐름을 표시하는 방향성 에지를 갖는다. 예컨대, 도 2는 데이터 처리 시스템의 컴포넌트들 간의 의존성을 반영하는 데이터 계보 그래프의 예를 예시한다. 몇몇 구현예에서, 표시는 데이터 처리 시스템의 컴포넌트를 나열하는 테이블을 포함할 수 있다. 예컨대, 도 3은 데이터 처리 시스템의 컴포넌트들 간의 의존성을 반영하는 데이터 계보 테이블의 예를 예시한다. 몇몇 구현예에서, 표시는 저장된 파일, 네트워크를 통해 송신된 데이터의 패킷, 또는 데이터 처리 시스템의 컴포넌트들 간의 의존성을 반영하는 기타 데이터를 포함할 수 있다. 예컨대, 표시는 도 1의 메타데이터 관리 시스템(130)에 의해 발생될 수 있다(406).
데이터 처리 시스템을 기술하는 메타데이터의 제2 버전이 검색된다(408). 몇몇 구현예에서, 메타데이터의 제2 버전을 위한 메타데이터는 메타데이터의 제2 버전을 위한 고유 태그와 룩업 테이블을 이용하여 액세스된다. 예컨대, 관계형 데이터베이스는 데이터 처리 시스템의 컴포넌트에 연관된 메타데이터 오브젝트를 가리키는 외래 키를 나열하는 룩업 테이블을 포함할 수 있다. 외래 키의 몇몇은 데이터 처리 시스템을 기술하는 메타데이터의 기본 버전 또는 기준 버전에 연관되는 메타데이터 오브젝트를 가리킬 수 있다. 데이터 처리 시스템의 대응하는 컴포넌트를 위한 메타데이터 오브젝트가 버전 태그에 연관된 버전과 상이하기 때문에, 또는 메타데이터 오브젝트가 기본 버전 또는 기준 버전에 존재하지 않는 컴포넌트에 대응하기 때문에, 다른 외래 키는 기본 버전 또는 기준 버전과는 상이한 메타데이터 오브젝트를 가리킬 수 있다. 몇몇 경우에, 기본 버전 또는 기준 버전에 존재하는 메타데이터 오브젝트는 버전 태그에 연관된 버전에는 존재하지 않을 수도 있다.
몇몇 구현예에서, 버전 태그는, 버전 태그에 연관된 룩업 테이블에서의 값에 의해 명시적으로(explicitly) 오버라이드되지 않는다면, 기본 버전 또는 기준 버전의 모든 메타데이터 오브젝트에 암묵적으로(implicitly) 연관된다. 예컨대, 버전 태그를 위한 룩업 테이블 엔트리는 기본 버전과의 차이만을 인코딩할 수 있다. 컴포넌트를 기술하는 메타데이터 오브젝트가 기본 버전에서 빠져있는 곳에서, 룩업 테이블은 메타데이터 오브젝트를 가리키는 외래 키를 갖는 엔트리를 포함할 수 있다. 컴포넌트를 기술하는 메타데이터 오브젝트가 버전 태그에 연관된 버전에서 수정되어 있는(기본 버전에 대하여) 곳에서, 룩업 테이블은 기본 버전에 연관된 메타데이터 오브젝트와 버전 태그에 연관된 메타데이터 오브젝트 둘 모두를 가리키는 외래 키를 갖는 엔트리를 포함할 수 있다. 컴포넌트를 기술하는 메타데이터 오브젝트가 버전 태그에 연관된 버전에서 빠져있는 경우에는, 룩업 테이블은 기본 버전에 연관된 메타데이터 오브젝트를 가리키는 외래 키와 삭제를 반영하는 널 키(null key)를 갖는 엔트리를 포함할 수 있다.
몇몇 구현예에서, 기본 버전 또는 기준 버전이 없을 수도 있으며, 각각의 버전 태그가 그 특정 버전에 연관된 메타데이터 오브젝트의 임의의 집합체(collection)를 가리키는 외래 키의 세트에 연관된다.
예컨대, 메타데이터의 제1 버전이 도 1의 메타데이터 관리 시스템(130)에 의해 데이터 저장장치(140) 상에 존재하는 관계형 데이터베이스(142)로부터 검색될 수 있다(404).
데이터 처리 시스템에서의 컴포넌트들 간의 의존성의 표시는 제1 데이터 계보와 데이터 처리 시스템을 기술하는 메타데이터의 제2 버전에 기초하는 제2 데이터 계보 간의 차이를 반영하도록 증가(augment)된다(410). 몇몇 구현예에서, 차이는 2개의 버전의 각자의 버전에 연관된 메타데이터 오브젝트를 가리키는 외래 키의 리스트를 비교함으로써 검출될 수 있다. 몇몇 구현예에서, 차이는 제2 버전만을 위한 메타데이터 오브젝트를 가리키는 외래 키의 리스트를 판독함으로써 검출될 수 있으며, 여기서 리스트는 기본 버전 또는 기준 버전인 제1 버전과의 차이를 명시적으로 지시하는 포맷으로 발생되거나 및/또는 저장된다. 몇몇 구현예에서, 차이는 2개의 각자의 버전 태그에 연관된 메타데이터 오브젝트를 직접 비교함으로써 검출된다.
차이는 표시에서 다양한 방식으로 반영될 수 있다. 예컨대, 표시의 어떠한 엘레멘트는 데이터 처리 시스템의 컴포넌트를 기술하는 메타데이터 오브젝트의 삭제 또는 수정을 반영하기 위해(제1 버전에 대하여) 컬러 코딩될 수 있다. 추가의(예컨대, 새로운) 메타데이터 오브젝트를 반영하는(제1 버전에 대하여) 지시 또는 기타 데이터가 표시에 추가될 수도 있다. 몇몇 구현예에서, 표시는 데이터 계보 그래프를 포함하며, 메타데이터의 2개의 버전들 간의 차이는 메타데이터의 제1 버전과 메타데이터의 제2 버전 간에 어느 컴포넌트가 변경되었는지를 지시하기 위해 노드의 컬러 코딩에 의해 적어도 부분적으로 반영된다. 몇몇 구현예에서, 메타데이터의 2개의 버전들 간의 차이는 데이터 계보에서의 상류측 변경으로 인해 메타데이터의 제1 버전과 메타데이터의 제2 버전 간에 어느 컴포넌트가 출력이 변경될지를 지시하기 위해 노드의 컬러 코딩에 의해 적어도 부분적으로 반영된다. 예컨대, 제2 버전에서 그 자신이 수정되는(제1 버전에 대하여) 메타데이터 오브젝트를 반영하는 노드에 제1 컬러(예컨대, 황색)가 적용될 수 있으며, 그 자신이 수정되지 않지만 데이터 계보에서의 상류측 변경으로 인해 상이한 출력을 발생할 수 있는 메타데이터 오브젝트를 반영하는 노드에는 제2 컬러(예컨대, 적색)가 적용될 수 있다.
몇몇 구현예에서, 표시는 데이터 계보 테이블을 포함하며, 메타데이터의 2개의 버전들 간의 차이는 메타데이터의 제1 버전과 메타데이터의 제2 버전 간에 어느 컴포넌트가 변경되는지를 지시하기 위해 테이블 내의 셀의 컬러 코딩에 의해 적어도 부분적으로 반영된다. 몇몇 구현예에서, 메타데이터의 2개의 버전들 간의 차이는 데이터 계보에서의 상류측 변경으로 인해 메타데이터의 제1 버전과 메타데이터의 제2 버전 간에 어느 컴포넌트가 출력이 변경될지를 지시하기 위해 테이블 내의 셀의 컬러 코딩에 의해 적어도 부분적으로 반영된다. 예컨대, 제2 버전에서 그 자신이 수정되는(제1 버전에 대하여) 메타데이터 오브젝트를 반영하는 셀에는 제1 컬러(예컨대, 황색)가 적용될 수 있고, 그 자신이 수정되지 않지만 데이터 계보에서의 상류측 변경으로 인해 상이한 출력을 발생할 수 있는 메타데이터 오브젝트를 반영하는 셀(예컨대, 영향을 받은 메타데이터에 연관된 셀의 행 또는 열 또는 상류측 의존성을 지시하는 단일 셀)에 제2 컬러(예컨대, 적색)가 적용될 수 있다.
몇몇 구현예에서, 표시에 반영되는 차이는 메타데이터의 제1 버전과 메타데이터의 제2 버전에서의 구조적 차이로 한정된다. 예컨대, 메타데이터 오브젝트의 코멘트 부분에서의 변경은 필터링 제거되고, 표시에 반영되지 않는 한편, 데이터 처리에 영향을 줄 수 있는 메타데이터 오브젝트에서의 구조적(예컨대, 실질적) 변경이 표시에 반영될 수 있다.
예컨대, 표시는 도 1의 메타데이터 관리 시스템(130)에 의해 증가될 수 있다(410).
버전의 비교를 위한 요청의 처리는 요청에 의해 식별된 버전의 전부가 적어도 하나의 다른 버전에 비교되는 때까지 지속될 수 있다(412). 예컨대, 표시는 제1 데이터 계보와 데이터 처리 시스템을 기술하는 메타데이터의 제3 버전에 기초하는 제3 데이터 계보 간의 차이를 반영하도록 추가로 증가될 수도 있다. 몇몇 구현예에서, 제1 버전 이외의 각각의 버전이 제1 버전(지정된 기본 버전 또는 기준 버전)에 비교될 수 있다.
식별된 모든 버전이 비교되고, 표시가 이러한 비교를 반영하도록 증가된 후(412), 표시가 저장되거나, 송신되거나 및/또는 디스플레이될 수 있다(414). 예컨대, 표시는 데이터 계보 그래프 또는 데이터 계보 테이블을 발생하기 위해 판독되고 사용될 수 있는 파일을 포함할 수 있으며, 이 파일은 메타데이터 관리 시스템(130)에 의해 도 1의 데이터 저장장치(140)에 저장될 수 있다. 몇몇 구현예에서, 표시는 전자 통신 네트워크를 통해(예컨대, 메타데이터 관리 시스템(130)의 네트워크 인터페이스를 통해) 송신되는(예컨대, 사용자 단말기(152)에) 하나 이상의 네트워크 프로토콜 메시지의 페이로드(payload)에 인코딩될 수 있다. 몇몇 구현예에서, 표시는 그래픽 사용자 인터페이스를 통해 사용자에게 디스플레이될 수 있다. 예컨대, 표시는 사용자 단말기(152)의 그래픽 사용자 인터페이스를 통해 사용자(150)에게 데이터 계보 그래프 또는 데이터 계보 테이블로서 디스플레이될 수 있다.
전술한 메타데이터 버전 비교 방법은 컴퓨터 상에서의 실행을 위한 소프트웨어를 사용하여 구현될 수 있다. 예컨대, 소프트웨어는 하나 이상의 프로세서, 하나 이상의 데이터 저장 시스템(휘발성 및/또는 비휘발성 메모리 및/또는 저장장치 요소를 포함하는), 하나 이상의 입력 디바이스 또는 포트, 및 하나 이상의 출력 디바이스 또는 포트를 각각 포함하는 하나 이상의 프로그래밍된 또는 프로그래밍 가능한 컴퓨터 시스템(분산, 클라이언트/서버, 또는 그리드(grid)와 같은 다양한 아키텍처로 이루어질 수 있는) 상에서 실행되는 하나 이상의 컴퓨터 프로그램에서의 프로시저(procedure)를 형성한다. 소프트웨어는 예컨대 데이터흐름 그래프의 설계 및 구성에 관련된 기타 서비스를 제공하는 대형 프로그램의 하나 이상의 모듈을 형성할 수도 있다. 그래프의 노드 및 요소는 컴퓨터 판독 가능 매체에 저장된 데이터 구조로서 구현되거나, 또는 데이터 레포지터리에 저장된 데이터 모델에 부합하는 다른 조직화된 데이터로서 구현될 수 있다.
소프트웨어는 범용 또는 전용의 프로그래밍 가능한 컴퓨터에 의해 판독 가능한 CD-ROM과 같은 저장 매체 상에 제공될 수 있거나, 소프트웨어가 실행되는 컴퓨터의 저장 매체에 네트워크의 통신 매체를 통해 전달(예컨대, 전파 신호로 인코딩되어)될 수도 있다. 기능의 전부가 전용 컴퓨터 상에서 수행되거나, 또는 코프로세서와 같은 전용 하드웨어를 사용하여 수행될 수도 있다. 소프트웨어는 소프트웨어에 의해 특정되는 계산의 상이한 부분이 상이한 컴퓨터에 의해 수행되는 분산 방식으로 구현할 수도 있다. 위에 설명한 프로시저를 수행하기 위해 컴퓨터 시스템에 의해 저장 매체 또는 디바이스가 판독되는 때에 컴퓨터를 구성하여 동작시키기 위해, 각각의 이러한 컴퓨터 프로그램은 범용 또는 전용의 프로그래밍 가능한 컴퓨터에 의해 판독 가능한 탠저블한 비일시적(tangible, non-transitory) 저장 매체 또는 디바이스(예컨대, 솔리드 스테이트 메모리, 또는 솔리드 스테이트 매체, 또는 마그네틱 매체 또는 광학 매체)에 저장되거나 다운로드되는 것이 바람직하다. 본 발명의 시스템은 또한 컴퓨터 프로그램과 함께 구성되는 컴퓨터 판독 가능한 저장 매체로서 구현되도록 고려될 수도 있으며, 이 경우, 이와 같이 구성된 저장 매체는 컴퓨터 시스템으로 하여금 특정한 미리 규정된 방법으로 동작하여 본 명세서에서 설명된 기능을 수행하도록 한다.
본 발명의 여러 실시예를 설명하였지만, 본 발명의 사상 및 범위에서 벗어나지 않고 다양한 수정이 이루어질 수 있다는 것을 이해할 것이다. 예컨대, 위에서 설명한 단계들 중 일부는 순서와 무관하게 행해질 수도 있으며, 이에 따라서 설명한 것과는 다른 순서로 수행될 수도 있다.
전술한 설명은 첨부된 청구항들의 범위에 의해 정해지는 본 발명의 범위를 예시하기 위한 것으로 본 발명의 범위를 한정하려는 것이 아니라는 것을 이해할 것이다. 예컨대, 전수한 여러 기능들은 전체적인 처리에 실질적으로 영향을 주지 않고 상이한 순서로 수행될 수도 있다. 도 2 및 도 3의 예에서 설명되고 본 명세서 전반에서 참조되는 제품 주문에 관한 특정한 데이터 처리에 대한 세부내용은 단지 메타데이터 관리 시스템 및 관련 프로세스의 성능을 예시하기 위한 것임을 이해할 것이다. 본 명세서에 제공된 특정한 데이터 처리 시스템의 세부내용은 필수적인 특징이 아니며, 청구항들의 범위를 한정하는 것으로 해석되지 않아야 한다. 그 외의 다른 실시예도 이하의 청구항들의 범위 내에 있다.

Claims (28)

  1. 하나 이상의 데이터 처리 장치에 의해 수행되는 방법에 있어서,
    노드를 포함하는 제1 그래프에서 제1 노드를 선택하는 사용자 입력을 수신하는 단계;
    상기 제1 노드에 연관된 제1 오브젝트의 제1 데이터 계보(data lineage)를 수신하는 단계로서, 상기 제1 오브젝트가 타입을 갖고, 상기 제1 데이터 계보가 상기 제1 오브젝트와 하나 이상의 데이터세트 또는 트랜스폼(transform) 간의 관계를 기술하는, 제1 데이터 계보를 수신하는 단계;
    노드를 포함하는 제2 그래프로부터 제2 노드를 선택하는 사용자 입력을 수신하는 단계;
    상기 제2 노드에 연관된 제2 오브젝트의 제2 데이터 계보를 수신하는 단계로서, 상기 제2 오브젝트가 상기 제1 오브젝트와 동일한 타입을 갖고, 상기 제2 데이터 계보가 상기 제2 오브젝트와 하나 이상의 다른 데이터세트 또는 트랜스폼 간의 관계를 기술하는, 제2 데이터 계보를 수신하는 단계;
    상기 제1 그래프로부터 선택된 상기 제1 노드 및 상기 제1 데이터 계보를 상기 제2 그래프로부터 선택된 상기 제2 노드 및 상기 제2 데이터 계보와 비교하는 것을 수행하는 단계;
    비교에 기초하여 리포트를 발생시키는 단계
    를 포함하는, 데이터 처리 장치에 의해 수행되는 방법.
  2. 제1항에 있어서,
    상기 제1 노드의 타입은 데이터세트의 필드, 데이터세트의 컬럼, 데이터세트, 또는 변환으로 이루어진 군(group) 중 하나인, 데이터 처리 장치에 의해 수행되는 방법.
  3. 제1항에 있어서,
    상기 그래프는, 데이터 처리 장치의 컴포넌트를 표시하는 노드와, 상기 데이터 처리 장치의 컴포넌트들 간의 데이터 흐름을 표시하는 방향성 에지(directed edge)를 포함하는, 데이터 처리 장치에 의해 수행되는 방법.
  4. 제1항에 있어서,
    차이가 상기 제1 오브젝트와 상기 제2 오브젝트 간에서의 구조적 차이로 한정되는, 데이터 처리 장치에 의해 수행되는 방법.
  5. 제1항에 있어서,
    상기 제1 오브젝트는 오브젝트의 제1 버전이고, 상기 제2 오브젝트는 오브젝트의 제2 버전인, 데이터 처리 장치에 의해 수행되는 방법.
  6. 제5항에 있어서,
    상기 오브젝트의 제1 버전을 상기 오브젝트의 제1 버전을 위한 고유 태그와 룩업 테이블을 이용하여 액세스하는 단계; 및
    상기 오브젝트의 제2 버전을 상기 오브젝트의 제2 버전을 위한 고유 태그와 룩업 테이블을 이용하여 액세스하는 단계
    를 더 포함하는, 데이터 처리 장치에 의해 수행되는 방법.
  7. 제5항에 있어서,
    상기 오브젝트의 제1 버전과 상기 오브젝트의 제2 버전은 리비전 히스토리(revision history)에서 조상-후손 관계(ancestor-descendant relationship)를 갖는, 데이터 처리 장치에 의해 수행되는 방법.
  8. 제5항에 있어서,
    상기 오브젝트의 제1 버전과 상기 오브젝트의 제2 버전은 리비전 히스토리에서 공통의 조상을 갖지만, 상기 오브젝트의 둘 중 어떠한 버전도 상기 오브젝트의 다른 버전의 후손이 아닌, 데이터 처리 장치에 의해 수행되는 방법.
  9. 제5항에 있어서,
    상기 오브젝트의 제1 버전 및 상기 오브젝트의 제2 버전은 상기 데이터 처리 장치의 현재 채용된 구현(implementation)을 기술하는, 데이터 처리 장치에 의해 수행되는 방법.
  10. 컴퓨터 프로그램 명령으로 인코딩된 비일시적 컴퓨터 저장 매체(non-transitory computer storage medium)로서,
    상기 명령은 하나 이상의 컴퓨터에 의해 실행되는 때에 상기 하나 이상의 컴퓨터로 하여금,
    노드를 포함하는 제1 그래프에서 제1 노드를 선택하는 사용자 입력을 수신하는 단계;
    상기 제1 노드에 연관된 제1 오브젝트의 제1 데이터 계보를 수신하는 단계로서, 상기 제1 오브젝트가 타입을 갖고, 상기 제1 데이터 계보가 상기 제1 오브젝트와 하나 이상의 데이터세트 또는 트랜스폼 간의 관계를 기술하는, 제1 데이터 계보를 수신하는 단계;
    노드를 포함하는 제2 그래프로부터 제2 노드를 선택하는 사용자 입력을 수신하는 단계;
    상기 제2 노드에 연관된 제2 오브젝트의 제2 데이터 계보를 수신하는 단계로서, 상기 제2 오브젝트가 상기 제1 오브젝트와 동일한 타입을 갖고, 상기 제2 데이터 계보가 상기 제2 오브젝트와 하나 이상의 다른 데이터세트 또는 트랜스폼 간의 관계를 기술하는, 제2 데이터 계보를 수신하는 단계;
    상기 제1 그래프로부터 선택된 상기 제1 노드 및 상기 제1 데이터 계보를 상기 제2 그래프로부터 선택된 상기 제2 노드 및 상기 제2 데이터 계보와 비교하는 것을 수행하는 단계;
    비교에 기초하여 리포트를 발생시키는 단계
    를 포함하는 동작을 수행하도록 하는, 비일시적 컴퓨터 저장 매체.
  11. 제10항에 있어서,
    상기 제1 노드의 타입은 데이터세트의 필드, 데이터세트의 컬럼, 데이터세트, 또는 변환으로 이루어진 군 중 하나인, 비일시적 컴퓨터 저장 매체.
  12. 제10항에 있어서,
    상기 그래프는, 데이터 처리 장치의 컴포넌트를 표시하는 노드와, 상기 데이터 처리 장치의 컴포넌트들 간의 데이터 흐름을 표시하는 방향성 에지를 포함하는, 비일시적 컴퓨터 저장 매체.
  13. 제10항에 있어서,
    차이가 상기 제1 오브젝트와 상기 제2 오브젝트 간에서의 구조적 차이로 한정되는, 비일시적 컴퓨터 저장 매체.
  14. 제10항에 있어서,
    상기 제1 오브젝트는 오브젝트의 제1 버전이고, 상기 제2 오브젝트는 오브젝트의 제2 버전인, 비일시적 컴퓨터 저장 매체.
  15. 제14항에 있어서,
    상기 동작은,
    상기 오브젝트의 제1 버전을 상기 오브젝트의 제1 버전을 위한 고유 태그와 룩업 테이블을 이용하여 액세스하는 단계; 및
    상기 오브젝트의 제2 버전을 상기 오브젝트의 제2 버전을 위한 고유 태그와 룩업 테이블을 이용하여 액세스하는 단계
    를 더 포함하는, 비일시적 컴퓨터 저장 매체.
  16. 제14항에 있어서,
    상기 오브젝트의 제1 버전과 상기 오브젝트의 제2 버전은 리비전 히스토리에서 조상-후손 관계를 갖는, 비일시적 컴퓨터 저장 매체.
  17. 제14항에 있어서,
    상기 오브젝트의 제1 버전과 상기 오브젝트의 제2 버전은 리비전 히스토리에서 공통의 조상을 갖지만, 상기 오브젝트의 둘 중 어떠한 버전도 상기 오브젝트의 다른 버전의 후손이 아닌, 비일시적 컴퓨터 저장 매체.
  18. 제14항에 있어서,
    상기 오브젝트의 제1 버전 및 상기 오브젝트의 제2 버전은 데이터 처리 장치의 현재 채용된 구현을 기술하는, 비일시적 컴퓨터 저장 매체.
  19. 하나 이상의 컴퓨터 및 하나 이상의 저장 디바이스를 포함하는 시스템으로서,
    상기 저장 디바이스는 명령을 저장하며,
    상기 명령은 상기 하나 이상의 컴퓨터에 의해 실행되는 때에 상기 하나 이상의 컴퓨터로 하여금,
    노드를 포함하는 제1 그래프에서 제1 노드를 선택하는 사용자 입력을 수신하는 단계;
    상기 제1 노드에 연관된 제1 오브젝트의 제1 데이터 계보를 수신하는 단계로서, 상기 제1 오브젝트가 타입을 갖고, 상기 제1 데이터 계보가 상기 제1 오브젝트와 하나 이상의 데이터세트 또는 트랜스폼 간의 관계를 기술하는, 제1 데이터 계보를 수신하는 단계;
    노드를 포함하는 제2 그래프로부터 제2 노드를 선택하는 사용자 입력을 수신하는 단계;
    상기 제2 노드에 연관된 제2 오브젝트의 제2 데이터 계보를 수신하는 단계로서, 상기 제2 오브젝트가 상기 제1 오브젝트와 동일한 타입을 갖고, 상기 제2 데이터 계보가 상기 제2 오브젝트와 하나 이상의 다른 데이터세트 또는 트랜스폼 간의 관계를 기술하는, 제2 데이터 계보를 수신하는 단계;
    상기 제1 그래프로부터 선택된 상기 제1 노드 및 상기 제1 데이터 계보를 상기 제2 그래프로부터 선택된 상기 제2 노드 및 상기 제2 데이터 계보와 비교하는 것을 수행하는 단계;
    비교에 기초하여 리포트를 발생시키는 단계
    를 포함하는 동작을 수행하도록 작동할 수 있는, 시스템.
  20. 제19항에 있어서,
    상기 제1 노드의 타입은 데이터세트의 필드, 데이터세트의 컬럼, 데이터세트, 또는 변환으로 이루어진 군 중 하나인, 시스템.
  21. 제19항에 있어서,
    상기 그래프는, 데이터 처리 장치의 컴포넌트를 표시하는 노드와, 상기 데이터 처리 장치의 컴포넌트들 간의 데이터 흐름을 표시하는 방향성 에지를 포함하는, 시스템.
  22. 제19항에 있어서,
    차이가 상기 제1 오브젝트와 상기 제2 오브젝트 간에서의 구조적 차이로 한정되는, 시스템.
  23. 제19항에 있어서,
    상기 제1 오브젝트는 오브젝트의 제1 버전이고, 상기 제2 오브젝트는 오브젝트의 제2 버전인, 시스템.
  24. 제23항에 있어서,
    상기 동작은,
    상기 오브젝트의 제1 버전을 상기 오브젝트의 제1 버전을 위한 고유 태그와 룩업 테이블을 이용하여 액세스하는 단계; 및
    상기 오브젝트의 제2 버전을 상기 오브젝트의 제2 버전을 위한 고유 태그와 룩업 테이블을 이용하여 액세스하는 단계
    를 더 포함하는, 시스템.
  25. 제23항에 있어서,
    상기 오브젝트의 제1 버전과 상기 오브젝트의 제2 버전은 리비전 히스토리에서 조상-후손 관계를 갖는, 시스템.
  26. 제23항에 있어서,
    상기 오브젝트의 제1 버전과 상기 오브젝트의 제2 버전은 리비전 히스토리에서 공통의 조상을 갖지만, 상기 오브젝트의 둘 중 어떠한 버전도 상기 오브젝트의 다른 버전의 후손이 아닌, 시스템.
  27. 제23항에 있어서,
    상기 오브젝트의 제1 버전 및 상기 오브젝트의 제2 버전은 데이터 처리 장치의 현재 채용된 구현을 기술하는, 시스템.
  28. 하나 이상의 컴퓨터 및 하나 이상의 저장 디바이스를 포함하는 시스템으로서,
    상기 저장 디바이스는 명령을 저장하며,
    상기 명령은 상기 하나 이상의 컴퓨터에 의해 실행되는 때에 상기 하나 이상의 컴퓨터로 하여금,
    노드를 포함하는 제1 그래프에서 제1 노드를 선택하는 사용자 입력을 수신하는 수단;
    상기 제1 노드에 연관된 제1 오브젝트의 제1 데이터 계보를 수신하는 수단으로서, 상기 제1 오브젝트가 타입을 갖고, 상기 제1 데이터 계보가 상기 제1 오브젝트와 하나 이상의 데이터세트 또는 트랜스폼 간의 관계를 기술하는, 제1 데이터 계보를 수신하는 수단;
    노드를 포함하는 제2 그래프로부터 제2 노드를 선택하는 사용자 입력을 수신하는 수단;
    상기 제2 노드에 연관된 제2 오브젝트의 제2 데이터 계보를 수신하는 수단으로서, 상기 제2 오브젝트가 상기 제1 오브젝트와 동일한 타입을 갖고, 상기 제2 데이터 계보가 상기 제2 오브젝트와 하나 이상의 다른 데이터세트 또는 트랜스폼 간의 관계를 기술하는, 제2 데이터 계보를 수신하는 수단;
    상기 제1 그래프로부터 선택된 상기 제1 노드 및 상기 제1 데이터 계보를 상기 제2 그래프로부터 선택된 상기 제2 노드 및 상기 제2 데이터 계보와 비교하는 것을 수행하는 수단;
    비교에 기초하여 리포트를 발생시키는 수단
    를 포함하여 이루어지는 동작을 수행하도록 작동할 수 있는, 시스템.
KR1020157029852A 2013-03-15 2014-03-13 메타데이터 관리를 위한 시스템 KR102143889B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361790074P 2013-03-15 2013-03-15
US61/790,074 2013-03-15
PCT/US2014/026133 WO2014151631A1 (en) 2013-03-15 2014-03-13 System for metadata management

Publications (2)

Publication Number Publication Date
KR20150132858A KR20150132858A (ko) 2015-11-26
KR102143889B1 true KR102143889B1 (ko) 2020-08-12

Family

ID=51533026

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157029852A KR102143889B1 (ko) 2013-03-15 2014-03-13 메타데이터 관리를 위한 시스템

Country Status (10)

Country Link
US (1) US9477786B2 (ko)
EP (2) EP3493050A1 (ko)
JP (1) JP6618461B2 (ko)
KR (1) KR102143889B1 (ko)
CN (1) CN105144080B (ko)
AU (1) AU2014233672B2 (ko)
CA (1) CA2902821C (ko)
HK (1) HK1213335A1 (ko)
SG (1) SG11201506510WA (ko)
WO (1) WO2014151631A1 (ko)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010065623A1 (en) 2008-12-02 2010-06-10 Ab Initio Software Llc Visualizing relationships between data elements and graphical representations of data element attributes
US9229952B1 (en) 2014-11-05 2016-01-05 Palantir Technologies, Inc. History preserving data pipeline system and method
US11892913B2 (en) * 2015-01-05 2024-02-06 Rubrik, Inc. Data lineage based multi-data store recovery
KR102054568B1 (ko) * 2015-02-11 2020-01-22 아브 이니티오 테크놀로지 엘엘시 필터링 데이터 계통 다이어그램
US9996595B2 (en) 2015-08-03 2018-06-12 Palantir Technologies, Inc. Providing full data provenance visualization for versioned datasets
US9576015B1 (en) 2015-09-09 2017-02-21 Palantir Technologies, Inc. Domain-specific language for dataset transformations
WO2017112654A2 (en) * 2015-12-21 2017-06-29 Ab Initio Technology Llc Sub-graph interface generation
US9959154B2 (en) * 2016-02-16 2018-05-01 International Business Machines Corporation Identifying defunct nodes in data processing systems
US10007674B2 (en) * 2016-06-13 2018-06-26 Palantir Technologies Inc. Data revision control in large-scale data analytic systems
CN106503168A (zh) * 2016-10-31 2017-03-15 武汉大学 标准化遥感卫星数据集成通用元数据模型的建立方法
CN110140118B (zh) 2016-11-09 2024-02-02 起元技术有限责任公司 用于确定数据元素之间的关系的***和方法
CN110023925A (zh) * 2016-12-01 2019-07-16 起元技术有限责任公司 生成、访问和显示沿袭元数据
US10372761B2 (en) * 2016-12-28 2019-08-06 Sap Se Auto-discovery of data lineage in large computer systems
US10802698B1 (en) * 2017-02-06 2020-10-13 Lucid Software, Inc. Diagrams for structured data
US10956406B2 (en) 2017-06-12 2021-03-23 Palantir Technologies Inc. Propagated deletion of database records and derived data
US10360252B1 (en) * 2017-12-08 2019-07-23 Palantir Technologies Inc. Detection and enrichment of missing data or metadata for large data sets
US10769165B2 (en) * 2017-12-20 2020-09-08 Sap Se Computing data lineage across a network of heterogeneous systems
CN108133000B (zh) * 2017-12-21 2021-05-04 百度在线网络技术(北京)有限公司 一种元数据存储方法、装置和服务器
US10754822B1 (en) 2018-04-18 2020-08-25 Palantir Technologies Inc. Systems and methods for ontology migration
CN109710591A (zh) * 2018-12-27 2019-05-03 福建南威软件有限公司 元数据版本自动管理方法
US10481961B1 (en) 2019-04-02 2019-11-19 Capital One Services, Llc API and streaming solution for documenting data lineage
US11194845B2 (en) * 2019-04-19 2021-12-07 Tableau Software, LLC Interactive lineage analyzer for data assets
JP7026659B2 (ja) 2019-06-20 2022-02-28 本田技研工業株式会社 応答装置、応答方法、およびプログラム
US12008006B1 (en) * 2019-09-04 2024-06-11 Palantir Technologies Inc. Assessments based on data that changes retroactively
US11086602B2 (en) * 2019-11-13 2021-08-10 Palantir Technologies Inc. Workflow application and user interface builder integrating objects, relationships, and actions
US11853304B2 (en) * 2021-08-27 2023-12-26 Striveworks Inc. System and method for automated data and workflow lineage gathering
CN116149724B (zh) * 2023-04-18 2023-09-22 清华大学 ***虚拟样机版本差异分析方法、装置和计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008009550A2 (en) 2006-07-19 2008-01-24 International Business Machines Corporation Method and apparatus for comparing process designs
US20090216728A1 (en) * 2008-02-26 2009-08-27 Jeffrey Brainerd Graphic representations of data relationships
US20120310875A1 (en) * 2011-06-03 2012-12-06 Prashanth Prahlad Method and system of generating a data lineage repository with lineage visibility, snapshot comparison and version control in a cloud-computing platform

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000039944A (ja) * 1998-07-24 2000-02-08 Fuji Electric Co Ltd メンテナンスシステム、メンテナンス方法及び記憶媒体
US6598059B1 (en) * 2000-04-22 2003-07-22 Oracle Corp. System and method of identifying and resolving conflicts among versions of a database table
JP3761156B2 (ja) * 2001-07-27 2006-03-29 三菱電機株式会社 接続図面の編集表示装置、その動作方法およびその方法をコンピュータに実行させるプログラム
US20040255239A1 (en) * 2003-06-13 2004-12-16 Ankur Bhatt Generating electronic reports of data displayed in a computer user interface list view
US7698348B2 (en) * 2003-12-19 2010-04-13 Kinaxis Holdings Inc. Extended database engine providing versioning and embedded analytics
US7469262B2 (en) * 2003-12-29 2008-12-23 Oracle International Corporation Customizable metadata merging framework
US7703027B2 (en) * 2005-01-13 2010-04-20 National Instruments Corporation Merging graphical programs
US7493570B2 (en) * 2005-09-12 2009-02-17 International Business Machines Corporation User interface options of a data lineage tool
US7707183B2 (en) * 2006-07-21 2010-04-27 Netiq Corporation Methods, systems and computer program products for monitoring changes to objects on a computer system using information models and baselines
US8266122B1 (en) 2007-12-19 2012-09-11 Amazon Technologies, Inc. System and method for versioning data in a distributed data store
CN101631430A (zh) 2008-07-14 2010-01-20 华为技术有限公司 一种电路板组及电子设备
WO2010065623A1 (en) * 2008-12-02 2010-06-10 Ab Initio Software Llc Visualizing relationships between data elements and graphical representations of data element attributes
JP2010244157A (ja) * 2009-04-02 2010-10-28 Toshiba Corp 機能ブロック図処理装置,機能ブロック図処理方法,およびプログラム
CN101957816B (zh) * 2009-07-13 2013-03-20 上海华燕置业发展有限公司 基于多页面比较的网页元数据自动抽取方法和***
US8819010B2 (en) * 2010-06-28 2014-08-26 International Business Machines Corporation Efficient representation of data lineage information
US9659042B2 (en) * 2012-06-12 2017-05-23 Accenture Global Services Limited Data lineage tracking
US10089335B2 (en) * 2012-07-10 2018-10-02 Microsoft Technology Licensing, Llc Data lineage across multiple marketplaces
CN102890720A (zh) * 2012-10-16 2013-01-23 南京通达海信息技术有限公司 数据库检查维护方法
US9063998B2 (en) * 2012-10-18 2015-06-23 Oracle International Corporation Associated information propagation system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008009550A2 (en) 2006-07-19 2008-01-24 International Business Machines Corporation Method and apparatus for comparing process designs
US20090216728A1 (en) * 2008-02-26 2009-08-27 Jeffrey Brainerd Graphic representations of data relationships
US20120310875A1 (en) * 2011-06-03 2012-12-06 Prashanth Prahlad Method and system of generating a data lineage repository with lineage visibility, snapshot comparison and version control in a cloud-computing platform

Also Published As

Publication number Publication date
CA2902821A1 (en) 2014-09-25
JP2016520890A (ja) 2016-07-14
AU2014233672B2 (en) 2018-03-01
CN105144080A (zh) 2015-12-09
HK1213335A1 (zh) 2016-06-30
US20140279979A1 (en) 2014-09-18
KR20150132858A (ko) 2015-11-26
EP2972770A4 (en) 2016-11-16
JP6618461B2 (ja) 2019-12-11
EP3493050A1 (en) 2019-06-05
SG11201506510WA (en) 2015-09-29
CA2902821C (en) 2021-06-01
US9477786B2 (en) 2016-10-25
CN105144080B (zh) 2021-05-18
AU2014233672A1 (en) 2015-09-03
EP2972770A1 (en) 2016-01-20
WO2014151631A1 (en) 2014-09-25

Similar Documents

Publication Publication Date Title
KR102143889B1 (ko) 메타데이터 관리를 위한 시스템
KR102627690B1 (ko) Sql 질의 플랜들을 최적화하기 위한 차원 콘텍스트 전파 기술들
US11188556B2 (en) Correlated incremental loading of multiple data sets for an interactive data prep application
CN110168518B (zh) 准备和整理用于后续分析的数据的用户界面
US20210073188A1 (en) System and method for automatic inference of a cube schema from a tabular data for use in a multidimensional database environment
US20090193054A1 (en) Tracking changes to a business object
US11947567B2 (en) System and method for computing and managing datasets using hierarchical analytics
JP2022504205A (ja) インタラクティブなデータプレップアプリケーションのための複数のデータセットの相関増分ロード
CN113962597A (zh) 一种数据分析方法、装置、电子设备及存储介质
Bender et al. A proposal for future data organization in enterprise systems—an analysis of established database approaches
Scherbaum et al. Spline: Spark lineage, not only for the banking industry
US11636421B1 (en) Model driven reporting
US20240012827A1 (en) Cleaning and organizing schemaless semi-structured data for extract, transform, and load processing
US20240078244A1 (en) Methods and Systems for Tracking Data Lineage from Source to Target
Eisa Parallel Processing for Data Retrieval in Odoo Enterprise Resource Planning Reporting System
Buenrostro et al. Single-Setup Privacy Enforcement for Heterogeneous Data Ecosystems

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant