KR102143889B1

KR102143889B1 - 메타데이터 관리를 위한 시스템

Info

Publication number: KR102143889B1
Application number: KR1020157029852A
Authority: KR
Inventors: 그레그 요스트; 듀산 라디보제빅
Original assignee: 아브 이니티오 테크놀로지 엘엘시
Priority date: 2013-03-15
Filing date: 2014-03-13
Publication date: 2020-08-12
Also published as: CA2902821A1; JP2016520890A; AU2014233672B2; CN105144080A; HK1213335A1; US20140279979A1; KR20150132858A; EP2972770A4; JP6618461B2; EP3493050A1; SG11201506510WA; CA2902821C; US9477786B2; CN105144080B; AU2014233672A1; EP2972770A1; WO2014151631A1

Abstract

메타데이터 관리를 위한, 컴퓨터 저장 매체 상에 인코딩된 컴퓨터 프로그램을 포함하는, 방법, 시스템 및 장치를 개시한다. 이러한 방법 중의 하나는, 제1 노드를 선택하는 사용자 입력을 수신하는 단계를 포함한다. 이 방법은 또한 제1 오브젝트의 제1 데이터 계보(data lineage)를 수신하는 단계를 포함하며, 제1 오브젝트가 타입을 갖고, 제1 데이터 계보가 제1 오브젝트와 하나 이상의 데이터세트 또는 트랜스폼(transform) 간의 관계를 기술한다. 이 방법은 또한 제2 노드를 선택하는 사용자 입력을 수신하는 단계를 포함한다. 이 방법은 또한 제2 오브젝트의 제2 데이터 계보를 수신하는 단계를 포함하며, 제2 오브젝트가 제1 오브젝트와 동일한 타입을 갖는다. 이 방법은 또한 제1 노드 및 제1 데이터 계보를 제2 노드 및 제2 데이터 계보와 비교하는 것을 수행하는 단계를 포함한다. 이 방법은 또한 비교에 기초하여 리포트를 발생하는 단계를 포함한다.

Description

메타데이터 관리를 위한 시스템{SYSTEM FOR METADATA MANAGEMENT}

우선권의 주장

본 출원은 2013년 3월 15일자로 출원된 미국 특허 출원 번호 61/790,074를 우선권으로 주장하며, 이 특허 출원의 전체 내용은 원용에 의해 본 명세서에 통합되어 있다.

본 발명은 데이터 처리 시스템의 복수의 버전을 유지하고 비교하기 위한 시스템에 관한 것이다.

기업은 데이터를 관리하기 위해 데이터 웨어하우징(data warehousing), 고객 관계 관리(customer relationship management), 및 데이터 마이닝(data mining)과 같은 복잡한 데이터 처리 시스템을 사용한다. 다수의 데이터 처리 시스템에서는, 데이터를 데이터베이스 파일, 운영 체제, 플랫 파일(flat file), 인터넷 등과 같은 다수의 상이한 데이터 소스로부터 중앙 레포지터리(central repository)로 끌어온다. 데이터가 데이터 시스템에 로딩되기 전에 데이터가 변환되는 경우가 종종 있다. 변환(transformation)은 정화(cleansing), 통합(integration) 및 추출(extraction)을 포함할 수 있다. 데이터, 데이터의 소스, 및 데이터 시스템에 저장된 데이터에 대해 발생한 변환을 계속해서 파악하기 위해, 메타데이터가 사용될 수 있다. 메타데이터(간혹 "데이터에 대한 데이터"로 지칭됨)는 다른 데이터의 속성, 포맷, 원본(origin), 히스토리, 연관성(inter-relationship) 등을 기술하는 데이터이다. 메타데이터 관리는 복잡한 데이터 처리 시스템에서의 중심 역할을 할 수 있다.

간혹 데이터베이스 사용자는 어떠한 데이터가 상이한 데이터 소스로부터 어떻게 검색되는지를 확인하고자 할 수도 있다. 예컨대, 데이터베이스 사용자는 데이터세트 또는 데이터 오브젝트가 어떻게 발생되는지 또는 데이터세트 또는 데이터 오브젝트가 어느 소스로부터 임포트(import)되는지를 알고자 할 수도 있다. 데이터세트를 그 데이터세트가 얻어지는 소스에 대해 역으로 추적하는 것은 데이터 계보 추적(data lineage tracing)(또는 "상류 데이터 계보 추적")으로 지칭된다. 간혹, 데이터베이스 사용자는 예컨대 어느 어플리케이션이 소정의 데이터세트를 판독하였는지와 같이 어떤 데이터세트가 어떻게 사용되었는지를 확인하기를 원할 수도 있다("하류 데이터 계보 추적" 또는 "영향 분석"). 데이터베이스 사용자는 또한 데이터세트가 다른 데이터세트에 어떻게 관련되는지에 관심을 보일 수도 있다. 예컨대, 사용자는 데이터세트가 수정된 경우 어떤 출력 테이블이 영향을 받을지에 대해 알고자 할 수도 있다.

전반적으로, 본 명세서에서 설명되는 발명의 대상의 한 가지 혁신적 양태는, 노드를 포함하는 제1 그래프에서의 제1 노드를 선택하는 사용자 입력을 수신하는 동작을 포함하는 방법으로 구체화될 수 있다. 또한, 상기 방법은 상기 제1 노드에 연관된 제1 오브젝트의 제1 데이터 계보(data lineage)를 수신하는 동작으로서, 상기 제1 오브젝트가 타입을 갖고, 상기 제1 데이터 계보가 상기 제1 오브젝트와 하나 이상의 데이터세트 또는 트랜스폼(transform) 간의 관계를 기술하는, 제1 데이터 계보를 수신하는 동작을 포함한다. 또한, 상기 방법은 노드를 포함하는 제2 그래프로부터 제2 노드를 선택하는 사용자 입력을 수신하는 동작을 포함한다. 또한, 상기 방법은 상기 제2 노드에 연관된 제2 오브젝트의 제2 데이터 계보를 수신하는 동작으로서, 상기 제2 오브젝트가 상기 제1 오브젝트와 동일한 타입을 갖고, 상기 제2 데이터 계보가 상기 제2 오브젝트와 하나 이상의 다른 데이터세트 또는 트랜스폼 간의 관계를 기술하는, 제2 데이터 계보를 수신하는 동작을 포함한다. 또한, 상기 방법은 상기 제1 노드 및 상기 제1 데이터 계보를 상기 제2 노드 및 상기 제2 데이터 계보와 비교하는 것을 수행하는 동작을 포함한다. 또한, 상기 방법은 비교에 기초하여 리포트를 발생하는 동작을 포함한다.

이 양태의 다른 실시예는, 각각 위의 방법의 동작을 수행하도록 구성된, 대응하는 컴퓨터 시스템, 장치, 및 하나 이상의 컴퓨터 저장 디바이스 상에 기록된 컴퓨터 프로그램을 포함한다. 하나 이상의 컴퓨터의 시스템은 작동 시에 시스템으로 하여금 동작을 수행하도록 하는 시스템 상에 설치된 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합을 통해 특정 동작을 수행하도록 구성될 수 있다. 하나 이상의 컴퓨터 프로그램은 데이터 처리 장치에 의해 실행되는 때에 장치로 하여금 동작을 수행하도록 하는 명령을 포함함으로써 특정 동작을 수행하도록 구성될 수 있다.

전술한 실시예 및 기타 실시예는 필요한 경우 이하의 특징 중의 하나 이상을 단독으로 조합하여 포함할 수 있다. 상기 제1 노드의 타입은 데이터세트의 필드, 데이터세트의 컬럼, 데이터세트, 또는 변환으로 이루어진 군(group) 중 하나이어도 된다. 상기 그래프는, 데이터 처리 시스템의 컴포넌트를 표시하는 노드와, 상기 데이터 처리 시스템의 컴포넌트들 간의 데이터 흐름을 표시하는 방향성 에지(directed edge)를 포함할 수 있다. 차이가 상기 제1 오브젝트와 상기 제2 오브젝트 간에서의 구조적 차이로 한정될 수 있다. 상기 제1 오브젝트는 오브젝트의 제1 버전이고, 상기 제2 오브젝트는 오브젝트의 제2 버전이어도 된다. 상기 방법은, 상기 오브젝트의 제1 버전을 상기 오브젝트의 제1 버전을 위한 고유 태그와 룩업 테이블을 이용하여 액세스하는 단계를 더 포함할 수도 있다. 상기 방법은 상기 오브젝트의 제2 버전을 상기 오브젝트의 제2 버전을 위한 고유 태그와 룩업 테이블을 이용하여 액세스하는 단계를 더 포함할 수도 있다. 상기 오브젝트의 제1 버전과 상기 오브젝트의 제2 버전은 리비전 히스토리(revision history)에서 조상-후손 관계(ancestor-descendant relationship)를 가질 수 있다. 상기 오브젝트의 제1 버전과 상기 오브젝트의 제2 버전은 리비전 히스토리에서 공통의 조상을 갖지만, 상기 오브젝트의 둘 중 어떠한 버전도 상기 오브젝트의 다른 버전의 후손이 아닌다. 상기 오브젝트의 제1 버전 및 상기 오브젝트의 제2 버전은 상기 데이터 처리 시스템의 현재 채용된 구현(implementation)을 기술할 수 있다.

본 발명의 양태는 이하의 장점들 중의 하나 이상을 가질 수 있다. 몇몇 구현은 복수-컴포넌트 데이터 처리 시스템에서의 변경의 영향 분석을 가능하게 할 수 있다. 몇몇 구현은 복수-컴포넌트 데이터 처리 시스템의 대안의 버전의 비교를 용이하게 할 수 있다. 몇몇 구현은 복잡한 복수-컴포넌트 데이터 처리 시스템의 유지를 용이하게 할 수 있다. 몇몇 구현은 복수-컴포넌트 데이터 처리 시스템에 대한 개발 및 유지 비용을 감소시킬 수 있다.

본 발명의 기타 특징 및 장점은 이하의 설명 및 청구항들로부터 명백하게 될 것이다.

도 1은 데이터 처리 시스템의 복수의 버전의 메타데이터를 관리하기 위한 시스템의 블록도이다.
도 2a 내지 도 2c는 데이터 처리 시스템을 기술하는 2개 버전의 메타데이터들 간의 차이를 반영하는 데이터 계보 그래프의 예를 예시하는 도면이다.
도 3a는 2개의 상이한 어플리케이션의 데이터세트를 비교하는 리포트의 예를 예시하는 도면이다.
도 3b는 2개의 데이터세트를 비교하는 리포트의 예를 예시하는 도면이다.
도 3c는 디렉토리를 비교하는 리포트의 예를 예시하는 도면이다.
도 3d는 필드 또는 컬럼을 비교하는 리포트의 예를 예시하는 도면이다.
도 3e는 데이터 처리 시스템을 기술하는 2개 버전의 메타데이터들 간의 차이를 반영하는 데이터 계보 테이블의 예를 예시하는 도면이다.
도 4는 데이터 처리 시스템의 데이터 계보 비교 버전의 표시를 발생하기 위한 일례의 프로세스의 흐름도이다.

메타데이터는 데이터를 기술하는 데이터이다. 메타데이터는 기술적인 것일 수 있다. 즉, 메타데이터는 예컨대 데이터 구조의 레코드 포맷, 이미지의 크기, 또는 이미지의 색심도(color depth)와 같은 데이터 구조의 상세를 기술할 수 있다. 메타데이터는 또한 비지니스 관련의 것일 수 있다. 즉, 메타데이터는 예컨대 데이터 구조를 위한 레코드의 시스템, 이미지가 취해진 시간, 포토그래퍼의 성명 등과 같은 데이터에 대한 비-구조적 정보를 제공할 수 있다.

메타데이터는 하부 시스템 또는 데이터 소스에 대한 변경에 응답하여 변경될 수도 있다. 시스템은 메타데이터의 복수의 버전을 저장할 수도 있다. 사용자는 변경된 메타데이터를 이전 버전의 메타데이터 또는 복수 버전의 메타데이터들 간에 비교하고자 할 수도 있다.

몇몇 구현예는 복수-컴포넌트 컴퓨팅 시스템을 위한 메타데이터의 복수의 버전을 컴포넌트간 의존성(inter-component dependency)과 비교하는 것을 제공한다. 사용자는 버전들 간의 변경의 전시스템에 걸친 영향(system-wide impact)을 평가할 수 있다. 메타데이터의 분기된 또는 동시발생적(예컨대, 상이한 지리 영역에 채용되는 데이터 처리 시스템의 예를 표현하는) 버전은 이러한 기술들 중의 몇몇 기술을 사용하여 비교될 수 있다. 메타데이터의 복수 버전에 대한 데이터 계보는 단일 인터페이스에서 비교될 수 있다. 예컨대, 데이터 계보의 지리적 표시는 메타데이터 버전에 의해 기술된 컴퓨팅 시스템에서의 어느 컴포넌트가 이들 버전들 간에 동일한지 또는 상이한지를 지시하기 위해 컬러 코딩될 수 있다. 시스템-레벨 영향은 컴포넌트 자체가 아닌 컴포넌트의 출력이 상류측 변경에 의해 변경되는 때를 지시하기 위해 코딩(예컨대, 컬러 코딩)으로 추가로 강조될 수 있다.

데이터 계보의 비교는 또한 컴포넌트 간의 의존성을 반영하는 시스템 컴포넌트의 도표 나열(tabular listing)로 표시될 수도 있다. 메타데이터의 구조적 비교(예컨대, 영향력이 큰 변경을 코멘트에 대한 변경과 구별하기 위한) 또한 가능하게 될 수 있다. 몇몇 구현예에서, 메타데이터의 각각의 버전은 룩업 테이블을 사용하여 다양한 시스템 컴포넌트에 맵핑되는 고유 버전 태그(unique version tag)를 갖는다.

도 1은 데이터 처리 시스템의 복수의 버전의 메타데이터를 관리하기 위한 시스템의 블록도이다. 환경(100)은 온라인 데이터 스트림에의 접속 또는 저장 장치와 같은 데이터의 하나 이상의 소스를 포함할 수 있는 데이터 소스(102)를 포함하며, 이들의 각각은 데이터를 다양한 저장 포맷(예컨대, 데이터베이스 테이블, 스프레드시트 파일, 플랫 텍스트 파일(flat text file), 또는 메인프레임에 의해 사용된 네이티브 포맷(native format)) 중의 어떠한 포맷으로도 저장할 수 있다. 데이터 처리 시스템(120)은 데이터 처리 컴포넌트(처리 컴포넌트 A(122),..., 처리 컴포넌트 Z(124))를 포함한다. 데이터 처리 시스템(120)은 UNIX 운영 체제와 같은 적합한 운영 체제의 제어 하에서 하나 이상의 범용 컴퓨터 상에 호스팅될 수 있다. 예컨대, 데이터 처리 시스템(120)에서의 처리 컴포넌트(예컨대, 처리 컴포넌트 A(122))는 근거리의(local)(예컨대, SMP 컴퓨터와 같은 멀티프로세서 시스템) 또는 근거리에 분산된(예컨대, 클러스터 또는 MPP로서 결합된 복수의 프로세서), 또는 원격의 또는 원격으로 분산된(예컨대, 근거리 통신망(LAN) 및/또는 광역 통신망(WAN)을 통해 결합된 복수의 프로세서), 또는 이들의 임의의 조합 중의 어느 하나의 복수의 중앙 처리 장치(CPU)를 사용하는 컴퓨터 시스템의 구성을 포함한 복수-노드 병렬 컴퓨팅 환경을 포함할 수 있다.

몇몇 구현예에서, 데이터 처리 시스템은 상이한 기술을 기반으로 하는 처리 컴포넌트(예컨대, 상이한 프로그래밍 언어로 작성된 소프트웨어 또는 상이한 운영 체제를 실행하는 별도의 컴퓨팅 디바이스에 의해 호스팅되는 모듈 등)들을 포함한다는 점에서 이질적(heterogeneous)이라 할 수 있다.

데이터 처리 시스템(120)은 데이터 소스(102)로부터 데이터를 액세스하고, 출력 데이터를 발생하기 위해 데이터 처리 시스템의 처리 컴포넌트(예컨대, 122, 124)를 이용하여 데이터를 처리한다. 출력 데이터는 데이터 처리 시스템(120)의 사용자에 의해 직접 저장되거나 및/또는 소모될 수 있다. 몇몇 구현예에서, 출력 데이터는 예컨대 데이터 소스(102) 중 하나 이상의 데이터 소스에 다시 기록되거나 또는 임의의 다른 데이터 싱크에 기록되는 것과 같이 익스포트(export)될 수 있다.

메타데이터 관리 시스템(130)은 데이터 처리 시스템(120) 및/또는 외부 데이터 소스(102)의 작동을 기술하는 메타데이터를 수집한다. 데이터 처리 시스템(120)의 컴포넌트(예컨대, 처리 컴포넌트 A(122) 및/또는 외부 메인프레임 데이터 소스(110))를 기술하는 메타데이터는 데이터 저장 시스템(140) 상의 관계형 데이터베이스(142)에 메타데이터 오브젝트 레코드로서 저장될 수 있다. 메타데이터 관리 시스템(130)은 외부 데이터 소스(102)에 대한 기술(description)을 포함한 데이터 처리 시스템의 하나 이상의 버전을 기술하는 메타데이터를 유지하며, 사용자(예컨대, 사용자 150)로 하여금 사용자 단말기(152)의 사용자 인터페이스를 통해 메타데이터와 상호작용하도록 한다. 예컨대, 사용자 단말기(152)는 사용자(150)가 메타데이터 관리 시스템(130)과 상호작용하기 위해 사용하는 그래픽 사용자 인터페이스를 포함할 수 있다. 사용자는 다양한 버전의 데이터 처리 시스템(120)의 컴포넌트를 기술하는 메타데이터를 질의 및/또는 편집할 수도 있다.

메타데이터 관리 시스템(130)이 사용자(150)에게 제공하는 기능 중의 하나는 데이터 계보 표시(예컨대, 데이터 계보 그래프, 데이터 계보 테이블, 또는 데이터 처리 시스템(120)의 컴포넌트들 간의 의존성을 반영하는 기타 표시)를 발생하고 검토하는 능력이다.

몇몇 예에서, 데이터 저장장치(140)는 기본 데이터 저장부 및 인터페이스 데이터 저장부 둘 모두를 포함할 수 있다. 기본 데이터 저장부는 기술적인 메타데이터를 저장할 수 있고, 어플리케이션을 그래프 및 트랜스폼(transform)과 같은 이들의 연관된 메타데이터와 함께 포함할 수 있다. 기술적인 메타데이터를 저장하는 것에 부가하여, 기본 데이터 저장부는 또한 의존성 분석을 포함하는 다양한 종류의 분석(예컨대, 아래에 보다 상세하게 설명되는 바와 같이 데이터 계보를 계산하는 것)을 수행할 수 있거나, 또는 이러한 분석의 결과를 수신하고 저장할 수 있다. 몇몇 예에서, 기본 데이터 저장부 및 인터페이스 데이터 저장부는 합쳐져서 단일 데이터 저장부로서 구현될 수도 있다.

기술적인 메타데이터가 다양한 기능에서 개발자에게 유용하지만, 더 높은 레벨의 메타데이터가 분석되고 조작될 필요가 있는 많은 경우가 있다. 간혹 "기업" 또는 "사업" 메타데이터로 지칭되는 이러한 더 높은 레벨의 메타데이터는 데이터 분석에서 유용한 경우가 많다. 사업 메타데이터의 몇몇 예는 어느 고용인이 데이터를 담당하는지를 지시하는 데이터 스튜워드십(data stewardship)과, 파일 및 파일 내의 필드에 대한 비지니스 정의(business definition)인 데이터 사전을 포함한다. 사업 메타데이터는 데이터의 기술적인 기술(technical description)을 넘어서고 있으며, 기본 데이터 저장부와는 별도의 인터페이스 데이터 저장부와 같은 플랫폼 상에 저장될 수 있다.

메타데이터 오브젝트 형태로 데이터 저장장치(140)에 저장된 정보는 어플리케이션 및 이들 어플리케이션에 의해 처리된 데이터에 대한 다양한 종류의 분석을 가능하게 한다. 예컨대, 아래에 추가로 설명되는 바와 같이, 사용자는 데이터 계보에 대한 질문(소정의 값이 어디로부터 온 것인가? 출력값이 어떻게 계산되었는가? 어느 어플리케이션이 이 데이터를 발생하고 의존하는가?)에 대한 대답을 획득할 수 있다. 개발자는 제안된 수정의 결과를 이해할 수 있다(예컨대, 이 부분이 변경되면, 그 밖의 무엇이 영향을 받게 될 것인가? 이 소스 포맷이 변경되면, 어느 어플리케이션이 영향을 받게 될 것인가?). 사용자/개발자는 또한 기술적인 메타데이터 및 사업 메타데이터 둘 모두를 수반하는 질문-응답을 획득할 수 있다(예컨대, 어느 그룹이 이 데이터를 발생하고 사용하는 것을 담당하는지? 누가 이 어플리케이션을 마지막으로 변경하였는지? 이들이 어떠한 변경을 행하였는지?).

데이터 저장장치(140)는 저장된 메타데이터 오브젝트의 상태를 추적할 수 있다. 데이터 저장장치(140)에 저장된 오브젝트는 여러 버전으로 되어(versioned), 어떠한 것의 지난주, 지난달 또는 작년과 같은 시점에서의 상태를 검사하고, 이것을 어떠한 것의 현재의 상태와 비교하는 것을 가능하게 한다. 데이터 저장장치(140)는 잡-트래킹(job-tracking), 또는 추세 분석(예컨대, 우리의 데이터 성장이 얼마나 빠른지?) 및 용량 계획(capacity planning)(예컨대, 그 어플리케이션이 얼마나 오래 실행되었는지? 얼마나 많은 데이터를 처리하였는지, 그리고 어떤 속도로 처리하였는지? 어플리케이션이 어떤 자원을 소모하였는지? 또 다른 서버를 추가할 필요가 있을지?)을 가능하게 하는 실행 정보를 수집할 수 있다.

몇몇 경우에, 데이터 저장장치(140)로부터 또는 다른 데이터 소스로부터 관계(계보 정보와 같은)가 추출될 수 있다. 인터페이스 데이터 저장부는 데이터 계보 하이-레벨 개요(summary)를 유지할 수 있다. 계보 정보(또는 다른 데이터 의존성 분석)는 시스템(100) 내에서 자동으로 계산될 수 있거나, 또는 외부 시스템으로부터 또는 수동 입력으로부터 수신될 수 있다. 예컨대, 시스템(100)은 코드를 분석하는 사람에 의해 모아지고 작성되는 계보 정보를 수신할 수 있다. 계보 정보는 다양한 사전 결정된 포맷들 중의 임의의 포맷의(예컨대, 스프레드시트의) 파일로부터 데이터 저장장치(140)에 임포트될 수 있다.

예컨대, 데이터 계보 표시는 데이터 저장장치(140)에 저장된 메타데이터 오브젝트를 표시하는 데이터 및/또는 처리 노드에 대한 단대단 계보(end-to-end lineage)를 보여준다; 즉, 소정의 개시 오브젝트가 의존하는 오브젝트(소정의 개시 오브젝트의 소스) 및 소정의 개시 오브젝트가 영향을 주는 오브젝트(소정의 개시 오브젝트의 타겟). 몇몇 구현예에서, 데이터 처리 시스템(120)을 기술하는 메타데이터의 2개 이상의 버전들 간의 차이를 반영하는 데이터 계보 표시가 생성될 수 있다. 예컨대, 컴포넌트(예컨대, 그래프에서의 노드 또는 테이블에서의 하나 이상의 셀)의 표시는 그 컴포넌트에 대한 2개의 버전들 간의 차이를 반영하기 위해 컬러 코딩될 수 있다. 예컨대, 데이터 계보의 표시 위에 2개의 버전에 대한 차이 정보를 오버레이하는 것은, 사용자로 하여금, 데이터 처리 시스템(120)의 2개의 버전들 간의 스위칭의 전시스템에 걸친 영향을 보다 용이하게 평가하도록 할 수 있다. 이것은 데이터 처리 시스템에 대한 유지 비용 및 잠재적인 시스템 정지 시간(down time)을 감소시킬 수 있다.

데이터 소스(102)를 제공하는 저장장치 디바이스는 예컨대 데이터 처리 시스템(120)의 하나 이상의 처리 컴포넌트를 실행하는 컴퓨터에 연결된 저장 매체(예컨대, 하드 드라이브(108)) 상에 저장되는 것과 같이 데이터 처리 시스템(120)에 대해 근거리에 있을 수도 있고, 또는 예컨대 원격 접속을 통해 데이터 처리 시스템(120)의 하나 이상의 처리 컴포넌트를 실행하는 컴퓨터와 통신하는 원격 시스템(예컨대, 메인프레임(110)) 상에 호스팅되는 것과 같이 데이터 처리 시스템(120)에 대해 원격으로 위치되어 있어도 된다. 몇몇 구현예에서, 데이터 소스(102)의 하나 이상의 데이터 소스 디바이스는, 이들이 별개의 엔티티에 의해 작동되고, 이들 소스 디바이스에 대해 이용 가능한 메타데이터가 데이터 소스를 식별하기 위해 요구된 정보만을 기술하고, 데이터 처리 시스템(120)으로 하여금 데이터 소스로부터 데이터를 추출하도록 한다는 점에서(예컨대, 식별 및 어플리케이션 프로그래밍 인터페이스(API) 정보로 제한된), 데이터 처리 시스템(120)에 대해 외부의 것이라 할 수 있다.

도 2a는 일례의 데이터 계보 그래프(200)의 제1 버전에 대한 개략도를 도시하고 있다. 그래프는 데이터 저장부와 트랜스폼 간의 의존성 관계를 예시하고 있다. 데이터가 하나 이상의 데이터 소스로부터 하나 이상의 데이터 싱크(통칭하여, 데이터 저장부)로의 데이터의 흐름을 처리하는 데이터 계보 그래프의 노드에 의해 표시된 데이터 처리 컴포넌트의 시퀀스에 통과된다. 하부 데이터 처리 시스템에서의 다양한 데이터 처리 컴포넌트 중 임의의 데이터 처리 컴포넌트가 별도의 처리 디바이스 상에서 실행되는 프로세스에 의해 구현될 수도 있거나, 복수의 데이터 처리 컴포넌트가 단일 처리 디바이스 상에서 실행되는 하나 이상의 프로세스에 의해 구현될 수도 있다. 몇몇 구현예에서, 입력 데이터 레코드는 이들 입력 데이터 레코드가 도착하는 때에 지속적으로 처리될 수도 있다(예컨대, 신용 카드 트랜잭션을 위한 요청에 응답하여). 몇몇 구현예에서, 데이터는 데이터 계보 그래프(200)에 의해 반영된 시스템에 의해 처리될 입력 데이터 레코드의 세트를 식별하는 일괄처리(batch)에서 처리될 수 있다.

이 예에서, 데이터 소스 "미국 피드(U.S. Feed)"(202)는 데이터를 "트랜스폼 A(Transform A)"(204) 트랜스폼에 제공한다. 트랜스폼 A(204)는 "미국 피드(U.S. Feed)"(202)에 의해 제공된 데이터에 대해 연산을 수행하고, 그 결과를 "중간 데이터 세트 1(Intermediate Dataset 1)"(206) 데이터 저장부에 저장한다. 중간 데이터 세트 1(206) 데이터 저장부 및 "멕시코 피드(Mexico Feed)"(208) 데이터 저장부는 데이터를 "트랜스폼 B(Transform B)"(210) 트랜스폼에 제공한다. 트랜스폼 B(210) 트랜스폼은 멕시코 피드(208) 및 중간 데이터세트 1(206)로부터 제공된 데이터를 사용하고, 그 결과를 "출력 데이터세트(Output DataSet)"(212) 데이터 저장부에 저장한다.

도 2b는 일례의 데이터 계보 그래프(220)의 제2 버전에 대한 개략도를 도시하고 있다. 제2 버전은 도 2a를 참조하여 위에서 설명한 데이터 계보 그래프의 제1 버전의 나중 버전 또는 업데이트된 버전이어도 된다. 제2 버전은 또한 데이터 계보의 제1 버전과 병행할 수도 있는 데이터 계보이어도 된다.

이 예에서, 데이터 소스 "미국 피드(U.S. Feed)"(222)는 데이터를 "트랜스폼 A(Transform A)"(224) 트랜스폼에 제공한다. 트랜스폼 A(224)는 "미국 피드(U.S. Feed)"(222)에 의해 제공된 데이터에 대해 연산을 수행하고, 그 결과를 "중간 데이터세트 1(Intermediate Dataset 1)"(226) 데이터 저장부에 저장한다. 데이터 소스 "멕시코 피드(Mexico Feed)"(228) 및 "브라질 피드(Brazil Feed)"(238)는 데이터를 "트랜스폼 C(Transform C)"(230) 트랜스폼에 제공한다. 트랜스폼 C(230) 트랜스폼은 "멕시코 피드(Mexico Feed)"(228)에 의해 제공된 데이터에 대해 연산을 수행하고, 그 결과를 "중간 데이터세트 2(Intermediate Dataset 2)"(232) 데이터 저장부에 저장한다.

"중간 데이터세트 1"(226) 데이터 저장부 및 "중간 데이터세트 2"(232) 데이터 저장부는 데이터를 "트랜스폼 B(Transform B)"(234) 트랜스폼에 제공한다. 트랜스폼 B(234) 트랜스폼은 중간 데이터세트 1(226) 및 중간 데이터세트 2(232)로부터 제공된 데이터를 사용하고, 그 결과를 "출력 데이터세트(Output DataSet)"(236) 데이터 저장부에 저장한다.

도 2c는 데이터 처리 시스템을 기술하는 메타데이터의 2개의 버전에 대한 일례의 데이터 계보 그래프(240)의 개략도를 도시하고 있다. 이 예는 전술한 제1 버전과 제2 버전의 비교를 나타내고 있다. 데이터 계보 그래프(240)는 메타데이터의 2개의 버전들 간의 차이의 지시를 포함한다. 예시된 예에서, 그 차이는 컬러 코딩과 등가의 것인 음영 패턴에 의해 나타내어져 있다.

이 예에서, 데이터 소스 "미국 피드(U.S. Feed)"(242)는 데이터를 "트랜스폼 A(Transform A)"(246) 트랜스폼에 제공한다. 트랜스폼 A(246)는 "미국 피드(U.S. Feed)"(242)에 의해 제공된 데이터에 대해 연산을 수행하고, 그 결과를 "중간 데이터세트 1(Intermediate Dataset 1)"(248) 데이터 저장부에 저장한다. 데이터 소스 "멕시코 피드(Mexico Feed)"(250) 및 "브라질 피드(Brazil Feed)"(260)는 데이터를 "트랜스폼 C(Transform C)"(252) 트랜스폼에 제공한다. 트랜스폼 C(252) 트랜스폼은 "멕시코 피드(Mexico Feed)"(250)에 의해 제공된 데이터에 대해 연산을 수행하고, 그 결과를 "중간 데이터세트 2(Intermediate Dataset 2)"(254) 데이터 저장부에 저장한다.

"중간 데이터세트 1"(248) 데이터 저장부 및 "중간 데이터세트 2"(254) 데이터 저장부는 데이터를 "트랜스폼 B(Transform B)"(256) 트랜스폼에 제공한다. "트랜스폼 B"(256) 트랜스폼은 "중간 데이터세트 1"(248) 데이터 저장부 및 "중간 데이터세트 2"(254) 데이터 저장부로부터 제공된 데이터를 사용하고, 그 결과를 "출력 데이터세트(Output DataSet)"(258) 데이터 저장부에 저장한다.

노드 252, 254, 260의 음영(shading)은 데이터 처리 시스템의 대응하는 컴포넌트 및 데이터 저장부가 데이터 계보의 이 표시에서 비교되고 있는 2개의 버전 중의 하나(예컨대, 제2 버전)에만 존재한다는 것을 나타낸다. 예컨대, 하부 데이터 처리 시스템의 제2 버전에서, 트랜스폼 C는 어떠한 기준에 부합하지 못하는 어떠한 레코드를 데이터 흐름으로부터 제거할 수 있다(예컨대, Mexico City에 거주하지 않는 고객에 대한 모든 레코드를 제거할 수 있다). 하부 데이터 처리 시스템의 제1 버전에서는, Mexico City 고객에 대한 레코드를 포함한 모든 레코드가 데이터 처리 시스템을 통해 데이터흐름에서의 다음 컴포넌트 상으로 통과되도록 트랜스폼 C가 존재하지 않는다. 통과된 레코드는 데이터 저장부 2에 저장될 수 있다. 노드 248에 의해 반영된 트랜스폼 B 컴포넌트는 음영되어 있지 않으며, 이것은 이 컴포넌트가 둘 모두의 버전에서 발생하고 있다는 것을 나타낸다. 각각의 버전에서, 트랜스폼 B는 출력 데이터세트를 팝퓰레이트(populate)하기 위해 미국 피드(U.S. Feed), 멕시코 피드(Mexico Feed) 및 브라질 피드(Bazil Feed)로부터 발원하는 레코드에 대해 연산을 수행할 것이다. 트랜스폼 B 컴포넌트 자체는 멕시코 피드(버전 1에 대한) 또는 중간 데이터세트 2(버전 2에 대한) 중의 어느 하나와 중간 데이터세트 1로부터 수신된 데이터를 저장 또는 디스플레이를 위해 포맷화할 수 있다. 예컨대, 리포트는 제1 버전에서의 제품 주문으로부터의 모든 수입의 총계를 포함할 수 있으며, 리포트는 제2 버전에서의 Mexico City의 거주자에 의한 제품 주문으로부터의 모든 수입의 총계를 포함할 수 있다. 트랜스폼 C 및 출력 데이터세트가 변경되지 않지만, 이들의 각자의 출력은 상류측 컴포넌트인 트랜스폼 C가 하나의 버전에 삽입되어 있고 다른 버전에는 삽입되어 있지 않기 때문에 2개의 버전들 간에 차이가 있을 수 있다. 데이터 계보 그래프(240)를 검토하는 사용자는, 트랜스폼 C가 비교되고 있는 2개의 버전들 간의 차이점이라는 것을 쉽게 판단할 수 있고, 더 나아가 노드로부터의 하류측에 있는 노드에 의해 반영된 모든 컴포넌트의 출력이, 이들 노드 자체가 2개의 버전들 간에 동일한 경우에도, 잠재적으로는 마찬가지로 변경될 수 있다는 것을 쉽게 판단할 수 있다. 그러므로, 2개의 버전들 간의 변경의 영향의 범위가 신속하게 평가될 수 있다.

몇몇 구현예(도시하지 않음)에서, 그 자체가 변경되지 않았던 데이터 계보에서의 상류측 변경으로 인해 대응하는 컴포넌트의 출력이 변경될 수 있는 노드는 이들의 상태에 대한 추가의 지시를 추가하여 더 명확하게 하이라이트될 수도 있다. 예컨대, 변경된 노드의 하류측의 이들 노드는 이들의 상태를 보다 명시적으로 반영하기 위해 제2 음영 또는 컬러로 음영되거나 컬러 코딩될 수도 있다.

예컨대, 트랜스폼 B(노드 256에 의해 반영된)는 중간 데이터세트 1로부터의 정보를 중간 데이터세트 2와 조합할 수 있다. 이 시퀀스의 레코드가 데이터 저장부(258)에 저장된다. 노드 246 및 248의 줄무늬 음영은 이들 노드들에 의해 반영되는 컴포넌트가 비교되고 있는 버전 둘 모두에 존재하지만 이들 노드가 2개의 버전에서 다르다는 것을 지시한다. 데이터 계보 그래프(200)를 검토하는 사용자는 이들 차이가 어디에서 발생하는지와 2개의 버전 간의 차이의 영향의 범위를 용이하게 판단할 수 있다.

예컨대, 데이터 계보 그래프(240)는 메타데이터 관리 시스템(130)에 의해 발생되고, 도 1의 사용자 단말기(152)의 그래픽 사용자 인터페이스를 통해 사용자(150)에게 디스플레이될 수 있다.

시스템에서의 상이한 컴포넌트에 대한 메타데이터들 간의 차이를 식별하고 하이라이트하는 리포트가 발생될 수 있다. 아래에 추가로 설명되는 바와 같이, 데이터 소스, 데이터세트, 디렉토리, 및 필드와 컬럼에 기초하여 데이터세트를 비교하는 리포트가 발생될 수 있다. 또한, 전술한 바와 같이 데이터 계보에 의해 식별된 데이터 처리 시스템을 기술하는 2개 버전의 메타데이터들 간의 차이를 식별하고 하이라이트하는 리포트가 발생될 수도 있다. 몇몇 구현예에서, 리포트는 데이터 계보 그래프의 사전 결정된 섹션에 기초하여 데이터세트, 데이터 컴포넌트, 및 트랜스폼을 식별할 수 있다. 예컨대, 제1 섹션(262)은 "궁극적인 데이터 소스(Ultimate Data Source)"로서 식별될 수 있고, 제2 섹션(264)은 "초기 트랜스폼(Initial Transforms)"으로서 식별될 수 있으며, 제3 섹션(266)은 "중간 데이터세트(Intermediate Datasets)"로서 식별될 수 있고, 제4 섹션(268)은 "2차 트랜스폼(Secondary Transforms)"으로서 식별될 수 있으며, 제5 섹션(270)은 "리포트(Reports)"로서 식별될 수 있다.

도 3a는 데이터 소스에 기초하여 2개의 상이한 어플리케이션의 데이터세트를 비교하는 리포트의 예를 예시하고 있다. 리포트(300)는 데이터 처리 시스템에서의 어플리케이션을 기술하는 데이터세트들 간의 차이를 식별한다. 리포트(300)의 행(row)은 각각 어플리케이션에 의해 사용되는 데이터세트를 반영한다. 리포트(300)의 열(column)은 각각 어플리케이션, 즉 이 예에서는 "U.S. Feed" 데이터 소스(302) 및 "Mexico Feed" 데이터 소스(304)를 반영한다.

리포트(300)에 의해 비교되는 데이터 처리 시스템의 어플리케이션에서 존재하는 데이터세트의 2개의 버전들 간의 차이는 음영에 의해 지시되어 있다. 줄무늬의 행(예컨대, 줄무늬 행 306 및 310)은 그 행 또는 열에 대응하는 데이터세트(예컨대, "City-name.rej" 데이터세트 및 "Customer.err" 데이터세트)가 둘 모두의 버전에 존재하지만 2개의 버전들 간에 상이하다(예컨대, 수정됨)는 것을 지시한다. 음영 행 및 열(예컨대, 음영 행 308 및 312)은 그 행에 대응하는 데이터세트(예컨대, "Bogo_promos.dat" 데이터세트 및 "Dg_Issues" 데이터세트)가 비교되는 2개의 버전 중의 하나의 버전에만 존재한다는 것을 지시한다.

도 3b는 2개의 데이터세트를 비교하는 리포트의 예를 예시하고 있다. 리포트(320)는 데이터 처리 시스템에서 어플리케이션을 기술하는 데이터세트들 간의 차이를 식별한다. 리포트(320)의 각각의 행은 각각의 데이터 세트에서의 데이터 엘레멘트를 반영한다. 리포트(320)의 각각의 열은 이 예에서는 데이터세트, 즉 이 예에서는 "customer.dat"(322) 및 "customer.dat(2)"(324)로 표기된 고객 데이터 세트의 2개의 버전을 반영한다.

리포트(320)에 의해 비교된 데이터세트의 2개의 버전들 간의 차이는 음영에 의해 지시되어 있다. 줄무늬 행(예컨대, 줄무늬 행 330)은 그 행 또는 열에 대응하는 데이터 엘레멘트(예컨대, "Cust_birthday" 데이터 엘레멘트)가 데이터 세트 둘 모두에 존재하지만, 2개의 버전들 간에 다르다(예컨대, 수정됨)는 것을 나타낸다. 음영 행 및 열(예컨대, 음영 행 328 및 332)은 그 행에 대응하는 데이터 엘레멘트(예컨대, "Main_postcode" 데이터세트 및 "Main_zipcode" 데이터 엘레멘트)가 비교되는 2개의 버전들 중의 하나의 버전에만 존재한다는 것을 나타낸다.

도 3c는 디렉토리를 비교하는 리포트의 예를 도시하고 있다. 리포트(340)는 컴퓨터 시스템에 의해 사용되는 디렉토리들 간의 차이를 식별한다. 리포트(340)의 행은 각각 디렉토리에 저장된 파일을 반영한다. 리포트(340)의 열은 각각 이 예에서는 "Workarea(1)" 디렉토리(342) 및 "Workarea(2)" 디렉토리(344)인 디렉토리 내의 파일을 반영한다.

2개의 디렉토리들 간의 차이는 음영에 의해 지시된다. 줄무늬 행(예컨대, 줄무늬 행 346 및 350)은 그 행 또는 열에 대응하는 파일(예컨대, "Promotions.rej" 파일 및 "Customers.rej" 파일)이 둘 모두의 버전에 존재하지만 이들 디렉토리 간에 다르다(예컨대, 수정됨)는 것을 지시한다. 음영 행 및 열(예컨대, 음영 행 348 및 352)은 그 행에 대응하는 파일(예컨대, "Cust_payments.dat" 파일 및 "Promotions.dat" 파일)이 2개의 디렉토리들 중의 하나의 디렉토리에만 존재한다는 것을 나타낸다.

도 3d는 필드 또는 컬럼을 비교하는 리포트의 예를 도시하고 있다. 리포트(360)는 하나 이상의 데이터 세트에서의 필드들 또는 컬럼들 간의 차이를 식별한다. 리포트(360)의 행은 필드 또는 컬럼의 특징을 표시한다. 특징은 추가의 컬럼(361)에 의해 식별될 수 있다. 리포트(360)의 컬럼은 각각 데이터 세트에서의 필드 또는 컬럼, 즉 이 예에서는 "Cust_Birthday" 필드(362) 및 "Cust_Birthday(2)" 필드(364)를 반영한다.

2개의 필드들 또는 컬럼들 간의 차이는 음영에 의해 지시되어 있다. 줄무늬 행(예컨대, 줄무늬 행 366 및 370)은 행 또는 열에 대응하는 각각의 특징(예컨대, "데이터세트(DataSet)" 특징 및 "네이티브 타입(Native Type)" 특징)에 대한 값이 둘 모두의 필드에 존재하지만 2개의 필드들 간에 다르다는 것을 지시한다. 음영 행 및 열(예컨대, 음영 행 368 및 372)은 그 행에 대응하는 특징(예컨대, "디폴트값(Default Value)" 특징 및 "사업 기간(Business Term)" 특징)이 2개의 필드 중의 하나의 필드에만 존재한다는 것을 지시한다.

도 3e는 데이터 처리 시스템을 기술하는 2개 버전의 메타데이터들 간의 차이를 반영하는 데이터 계보 테이블(380)의 예를 도시하고 있다. 이 예에서, 데이터 계보 테이블(380)은 도 2c의 데이터 계보 다이아그램(240)에서 반영된 바와 같이 도 2a의 데이터 계보 다이아그램(200)과 도 2b의 데이터 계보 다이아그램(220) 간의 차이를 반영한다.

데이터 계보 테이블의 제목 행(382)은 도 2c에 대하여 전술한 바와 같이 데이터 계보 다이아그램의 섹션을 식별한다. 제1 열(286)은 데이터 계보 다이아그램의 리포트 영역(262)에 관련된 데이터 계보 다이아그램의 컴포넌트를 식별하며, 제2 열(287)은 데이터 계보 다이아그램의 2차 변환 섹션(268)에 관련되는 데이터 계보 다이아그램의 컴포넌트를 식별한다. 제3 열(288)은 중간 데이터세트 섹션(266)에 관련되는 데이터 계보 다이아그램의 컴포넌트를 식별한다. 제4 열(289)은 초기 변환 섹션(264)에 관련되는 데이터 계보 다이아그램의 컴포넌트를 식별한다. 제5 열(290)은 궁극적인 데이터 소스 섹션(262)에 관련되는 데이터 계보 다이아그램의 컴포넌트를 식별한다.

행 284는 출력 데이터 세트에 연관된 컴포넌트를 예시한다. 이 예에서, 출력 데이터 세트의 필드의 크기는 트랜스폼 B(Transform B), 중간 데이터 1(Intermediate Dataset 1), 중간 데이터 2(Intermediate Dataset 2), 트랜스폼 A(Transform A), 트랜스폼 C(Transform C), 미국 피드(U.S. Feed), 멕시코 피드(Mexico Feed), 및 브라질 피드(Brazil Feed)에 연관된 것으로서 시각적으로 식별 가능하게 되도록 확장된다. 각각의 필드에 대해, 필드의 크기는 컴포넌트들 간의 관계를 분명하게 보여주도록 조정된다. 예컨대, 멕시코 피드(Mexico Feed)와 브라질 피드(Brazil Feed)는 트랜스폼 C(Transform C)와 연관된다. 즉, 도 2c를 참조하면, 멕시코 피드(Mexico Feed)(250)와 브라질 피드(Brazil Feed)(260)는 트랜스폼 C(Transform C)(252)에 데이터를 공급한다. 이와 같이, 트랜스폼 C(Transform C)에 대한 필드(294)의 크기는 멕시코 피드(Mexico Feed)를 위한 필드 및 브라질 피드(Brazil Feed)를 위한 필드(296)에 시각적으로 연관되기에 충분한 정도로 크다.

데이터 계보의 2개의 컴포넌트들 간의 차이는 음영에 의해 지시될 수 있다. 줄무늬 필드(예컨대, 줄무늬 필드 291, 292)는 컴포넌트가 데이터 계보 다이아그램의 둘 모두의 버전에 존재하지만 동일한 양상으로 변경되었다는 것을 지시한다. 예컨대, 중간 데이터세트 1(Intermediate Dataset 1)은 도 2a의 데이터 계보 다이아그램(200)에서 중간 데이터세트 1(Intermediate Dataset 1)(206)로서 제공되어 있고, 또한 도 2b의 데이터 계보 다이아그램(220)에서는 중간 데이터세트 1(Intermediate Dataset 1)(226)로서 제공되어 있지만, 여기에는 리포트에서 반영되는 데이터세트에 대한 몇몇 변경이 있다.

음영 필드(예컨대, 음영 필드 293, 294, 296)는 컴포넌트가 데이터 계보 다이아그램 중의 하나에만 제공된다는 것을 지시하거나, 또는 복수의 버전들이 비교되고 있다면 데이터 선형 다이아그램들 중의 적어도 하나에 제공되지 않는다는 것을 지시한다. 예컨대, 트랜스폼 C는 도 2b의 데이터 계보 다이아그램(220)에는 제공되지만, 도 2a의 데이터 선형 다이아그램(200)에는 제공되지 않는다.

데이터 계보의 어떠한 엘레멘트를 위한 메타데이터가 비교될 수 있다. 예컨대, 데이터세트 및 데이터 변환 컴포넌트의 버전들이 비교될 수 있다. 도 4는 일례의 메타데이터 버전 비교 프로세스(400)를 위한 흐름도를 도시하고 있다. 예컨대, 프로세스(400)는 도 1의 메타데이터 관리 시스템(130)에 의해 수행될 수 있다.

프로세스(400)는 버전 비교를 위한 요청이 수신되는 때에(402) 개시될 수 있다. 몇몇 구현예에서, 이 요청은 비교될 어떠한 다른 버전에 대한 기본 버전 또는 기준 버전의 명시적인 또는 암묵적인 식별을 포함할 수 있다. 이 요청은 또한 메타데이터가 이용 가능한 데이터 처리 시스템의 하나 이상의 추가의 버전의 식별을 포함할 수 있다. 몇몇 구현예에서, 이 요청은 기본 버전을 지정하지 않고 데이터 처리 시스템을 기술하는 메타데이터의 2개 이상의 버전을 식별하는 정보를 포함한다. 예컨대, 버전을 식별하는 정보는 데이터 처리 시스템의 버전에 연관된 고유 버전 태그(unique version tag)를 포함할 수 있다.

비교를 위한 요청에 의해 식별된 버전들은 서로에 대해 다양한 관계를 가질 수 있다. 몇몇 구현예에서, 메타데이터의 제1 버전과 메타데이터의 제2 버전은 리비전 히스토리(revision history)에서 조상-후손 관계(ancestor-descendant relationship)를 갖는다. 예컨대, 제1 버전이 제2 버전의 나중 버전일 수 있거나, 또는 제2 버전이 제1 버전의 나중 버전일 수도 있다. 몇몇 구현예에서, 메타데이터의 제1 버전과 메타데이터의 제2 버전은 리비전 히스토리에서 공통의 조상을 갖지만, 이 둘 중의 어떠한 것도 메타데이터의 다른 버전의 후손이 아니다. 예컨대, 제1 버전과 제2 버전은 둘 모두가 더 이전의 제3 버전으로부터 구해지는 병렬의 대안적 개발 경로(parallel alternate development path)에 대응할 수 있다. 몇몇 구현예에서, 메타데이터의 제1 버전과 메타데이터의 제2 버전은 데이터 처리 시스템의 현재 채용된 구현을 기술한다. 예컨대, 메타데이터의 제1 버전은 제1 지리 영역(예컨대, 북미)에 배치되는 데이터 처리 시스템의 인스턴스를 기술하고, 메타데이터의 제2 버전은 제2 지리 영역(예컨대, 유럽)에 배치되는 데이터 처리 시스템의 인스턴스를 기술할 수 있다. 또 다른 예에서, 메타데이터의 제1 버전은 데이터 처리 시스템의 테스트 모드 인스턴스를 기술할 수 있고, 메타데이터의 제2 버전은 데이터 처리 시스템의 생산 모드 인스턴스를 기술할 수 있다.

몇몇 구현예에서, 요청을 수신하는 처리 디바이스의 근거리에서 연결되는 하드웨어(예컨대, 컴퓨터 모니터 및 키보드 및/또는 마우스)를 포함한 사용자 인터페이스(예컨대, 그래픽 사용자 인터페이스)를 통해 요청이 수신된다. 예컨대, 요청은 도 1의 메타데이터 관리 시스템(130)의 사용자 인터페이스를 통해 수신될 수 있다(402). 몇몇 구현예에서, 요청은 원격 처리 디바이스로부터 네트워크 인터페이스를 통해 서버에 의해 수신된다. 예컨대, 요청은 원격 처리 디바이스 상에서 작동하는 사용자 단말기(152)로부터 메타데이터 관리 시스템(130)의 네트워크 인터페이스를 통해 수신될 수 있다(402).

데이터 처리 시스템을 기술하는 메타데이터의 제1 버전이 검색된다(404). 몇몇 구현예에서, 메타데이터의 제1 버전을 위한 메타데이터는 메타데이터의 제1 버전을 위한 고유 태그와 룩업 테이블을 이용하여 액세스된다. 예컨대, 관계형 데이터베이스는 데이터 처리 시스템의 컴포넌트에 연관된 메타데이터 오브젝트를 가리키는(pointing) 외래 키(foreign key)를 나열하는 룩업 테이블을 포함할 수 있다. 몇몇 구현예에서, 데이터 처리 시스템의 컴포넌트를 기술하는 메타데이터 오브젝트는 외래 키로서 하나 이상의 버전 태그를 포함할 수 있다. 메타데이터의 제1 버전을 검색하는(404) 때에, 관계형 데이터베이스는 제1 버전을 위한 버전 태그를 포함하는 모든 메타데이터 오브젝트를 리턴하도록 질의(query)될 수도 있다. 예컨대, 메타데이터의 제1 버전은 도 1의 메타데이터 관리 시스템(130)에 의해 데이터 저장장치(140)에 존재하는 관계형 데이터베이스(142)로부터 검색될 수 있다(404).

데이터 처리 시스템에서의 컴포넌트들 간의 의존성의 표시가 발생된다(406). 이 표시는 데이터 처리 시스템을 기술하는 메타데이터의 제1 버전을 기반으로 하는 제1 데이터 계보를 반영할 수 있다. 몇몇 구현예에서, 표시는 그래프를 포함하며, 이 그래프는 데이터 처리 시스템의 컴포넌트를 표시하는 노드와, 데이터 처리 시스템의 컴포넌트들 간의 데이터 흐름을 표시하는 방향성 에지를 갖는다. 예컨대, 도 2는 데이터 처리 시스템의 컴포넌트들 간의 의존성을 반영하는 데이터 계보 그래프의 예를 예시한다. 몇몇 구현예에서, 표시는 데이터 처리 시스템의 컴포넌트를 나열하는 테이블을 포함할 수 있다. 예컨대, 도 3은 데이터 처리 시스템의 컴포넌트들 간의 의존성을 반영하는 데이터 계보 테이블의 예를 예시한다. 몇몇 구현예에서, 표시는 저장된 파일, 네트워크를 통해 송신된 데이터의 패킷, 또는 데이터 처리 시스템의 컴포넌트들 간의 의존성을 반영하는 기타 데이터를 포함할 수 있다. 예컨대, 표시는 도 1의 메타데이터 관리 시스템(130)에 의해 발생될 수 있다(406).

데이터 처리 시스템을 기술하는 메타데이터의 제2 버전이 검색된다(408). 몇몇 구현예에서, 메타데이터의 제2 버전을 위한 메타데이터는 메타데이터의 제2 버전을 위한 고유 태그와 룩업 테이블을 이용하여 액세스된다. 예컨대, 관계형 데이터베이스는 데이터 처리 시스템의 컴포넌트에 연관된 메타데이터 오브젝트를 가리키는 외래 키를 나열하는 룩업 테이블을 포함할 수 있다. 외래 키의 몇몇은 데이터 처리 시스템을 기술하는 메타데이터의 기본 버전 또는 기준 버전에 연관되는 메타데이터 오브젝트를 가리킬 수 있다. 데이터 처리 시스템의 대응하는 컴포넌트를 위한 메타데이터 오브젝트가 버전 태그에 연관된 버전과 상이하기 때문에, 또는 메타데이터 오브젝트가 기본 버전 또는 기준 버전에 존재하지 않는 컴포넌트에 대응하기 때문에, 다른 외래 키는 기본 버전 또는 기준 버전과는 상이한 메타데이터 오브젝트를 가리킬 수 있다. 몇몇 경우에, 기본 버전 또는 기준 버전에 존재하는 메타데이터 오브젝트는 버전 태그에 연관된 버전에는 존재하지 않을 수도 있다.

몇몇 구현예에서, 버전 태그는, 버전 태그에 연관된 룩업 테이블에서의 값에 의해 명시적으로(explicitly) 오버라이드되지 않는다면, 기본 버전 또는 기준 버전의 모든 메타데이터 오브젝트에 암묵적으로(implicitly) 연관된다. 예컨대, 버전 태그를 위한 룩업 테이블 엔트리는 기본 버전과의 차이만을 인코딩할 수 있다. 컴포넌트를 기술하는 메타데이터 오브젝트가 기본 버전에서 빠져있는 곳에서, 룩업 테이블은 메타데이터 오브젝트를 가리키는 외래 키를 갖는 엔트리를 포함할 수 있다. 컴포넌트를 기술하는 메타데이터 오브젝트가 버전 태그에 연관된 버전에서 수정되어 있는(기본 버전에 대하여) 곳에서, 룩업 테이블은 기본 버전에 연관된 메타데이터 오브젝트와 버전 태그에 연관된 메타데이터 오브젝트 둘 모두를 가리키는 외래 키를 갖는 엔트리를 포함할 수 있다. 컴포넌트를 기술하는 메타데이터 오브젝트가 버전 태그에 연관된 버전에서 빠져있는 경우에는, 룩업 테이블은 기본 버전에 연관된 메타데이터 오브젝트를 가리키는 외래 키와 삭제를 반영하는 널 키(null key)를 갖는 엔트리를 포함할 수 있다.

몇몇 구현예에서, 기본 버전 또는 기준 버전이 없을 수도 있으며, 각각의 버전 태그가 그 특정 버전에 연관된 메타데이터 오브젝트의 임의의 집합체(collection)를 가리키는 외래 키의 세트에 연관된다.

예컨대, 메타데이터의 제1 버전이 도 1의 메타데이터 관리 시스템(130)에 의해 데이터 저장장치(140) 상에 존재하는 관계형 데이터베이스(142)로부터 검색될 수 있다(404).

데이터 처리 시스템에서의 컴포넌트들 간의 의존성의 표시는 제1 데이터 계보와 데이터 처리 시스템을 기술하는 메타데이터의 제2 버전에 기초하는 제2 데이터 계보 간의 차이를 반영하도록 증가(augment)된다(410). 몇몇 구현예에서, 차이는 2개의 버전의 각자의 버전에 연관된 메타데이터 오브젝트를 가리키는 외래 키의 리스트를 비교함으로써 검출될 수 있다. 몇몇 구현예에서, 차이는 제2 버전만을 위한 메타데이터 오브젝트를 가리키는 외래 키의 리스트를 판독함으로써 검출될 수 있으며, 여기서 리스트는 기본 버전 또는 기준 버전인 제1 버전과의 차이를 명시적으로 지시하는 포맷으로 발생되거나 및/또는 저장된다. 몇몇 구현예에서, 차이는 2개의 각자의 버전 태그에 연관된 메타데이터 오브젝트를 직접 비교함으로써 검출된다.

차이는 표시에서 다양한 방식으로 반영될 수 있다. 예컨대, 표시의 어떠한 엘레멘트는 데이터 처리 시스템의 컴포넌트를 기술하는 메타데이터 오브젝트의 삭제 또는 수정을 반영하기 위해(제1 버전에 대하여) 컬러 코딩될 수 있다. 추가의(예컨대, 새로운) 메타데이터 오브젝트를 반영하는(제1 버전에 대하여) 지시 또는 기타 데이터가 표시에 추가될 수도 있다. 몇몇 구현예에서, 표시는 데이터 계보 그래프를 포함하며, 메타데이터의 2개의 버전들 간의 차이는 메타데이터의 제1 버전과 메타데이터의 제2 버전 간에 어느 컴포넌트가 변경되었는지를 지시하기 위해 노드의 컬러 코딩에 의해 적어도 부분적으로 반영된다. 몇몇 구현예에서, 메타데이터의 2개의 버전들 간의 차이는 데이터 계보에서의 상류측 변경으로 인해 메타데이터의 제1 버전과 메타데이터의 제2 버전 간에 어느 컴포넌트가 출력이 변경될지를 지시하기 위해 노드의 컬러 코딩에 의해 적어도 부분적으로 반영된다. 예컨대, 제2 버전에서 그 자신이 수정되는(제1 버전에 대하여) 메타데이터 오브젝트를 반영하는 노드에 제1 컬러(예컨대, 황색)가 적용될 수 있으며, 그 자신이 수정되지 않지만 데이터 계보에서의 상류측 변경으로 인해 상이한 출력을 발생할 수 있는 메타데이터 오브젝트를 반영하는 노드에는 제2 컬러(예컨대, 적색)가 적용될 수 있다.

몇몇 구현예에서, 표시는 데이터 계보 테이블을 포함하며, 메타데이터의 2개의 버전들 간의 차이는 메타데이터의 제1 버전과 메타데이터의 제2 버전 간에 어느 컴포넌트가 변경되는지를 지시하기 위해 테이블 내의 셀의 컬러 코딩에 의해 적어도 부분적으로 반영된다. 몇몇 구현예에서, 메타데이터의 2개의 버전들 간의 차이는 데이터 계보에서의 상류측 변경으로 인해 메타데이터의 제1 버전과 메타데이터의 제2 버전 간에 어느 컴포넌트가 출력이 변경될지를 지시하기 위해 테이블 내의 셀의 컬러 코딩에 의해 적어도 부분적으로 반영된다. 예컨대, 제2 버전에서 그 자신이 수정되는(제1 버전에 대하여) 메타데이터 오브젝트를 반영하는 셀에는 제1 컬러(예컨대, 황색)가 적용될 수 있고, 그 자신이 수정되지 않지만 데이터 계보에서의 상류측 변경으로 인해 상이한 출력을 발생할 수 있는 메타데이터 오브젝트를 반영하는 셀(예컨대, 영향을 받은 메타데이터에 연관된 셀의 행 또는 열 또는 상류측 의존성을 지시하는 단일 셀)에 제2 컬러(예컨대, 적색)가 적용될 수 있다.

몇몇 구현예에서, 표시에 반영되는 차이는 메타데이터의 제1 버전과 메타데이터의 제2 버전에서의 구조적 차이로 한정된다. 예컨대, 메타데이터 오브젝트의 코멘트 부분에서의 변경은 필터링 제거되고, 표시에 반영되지 않는 한편, 데이터 처리에 영향을 줄 수 있는 메타데이터 오브젝트에서의 구조적(예컨대, 실질적) 변경이 표시에 반영될 수 있다.

예컨대, 표시는 도 1의 메타데이터 관리 시스템(130)에 의해 증가될 수 있다(410).

버전의 비교를 위한 요청의 처리는 요청에 의해 식별된 버전의 전부가 적어도 하나의 다른 버전에 비교되는 때까지 지속될 수 있다(412). 예컨대, 표시는 제1 데이터 계보와 데이터 처리 시스템을 기술하는 메타데이터의 제3 버전에 기초하는 제3 데이터 계보 간의 차이를 반영하도록 추가로 증가될 수도 있다. 몇몇 구현예에서, 제1 버전 이외의 각각의 버전이 제1 버전(지정된 기본 버전 또는 기준 버전)에 비교될 수 있다.

식별된 모든 버전이 비교되고, 표시가 이러한 비교를 반영하도록 증가된 후(412), 표시가 저장되거나, 송신되거나 및/또는 디스플레이될 수 있다(414). 예컨대, 표시는 데이터 계보 그래프 또는 데이터 계보 테이블을 발생하기 위해 판독되고 사용될 수 있는 파일을 포함할 수 있으며, 이 파일은 메타데이터 관리 시스템(130)에 의해 도 1의 데이터 저장장치(140)에 저장될 수 있다. 몇몇 구현예에서, 표시는 전자 통신 네트워크를 통해(예컨대, 메타데이터 관리 시스템(130)의 네트워크 인터페이스를 통해) 송신되는(예컨대, 사용자 단말기(152)에) 하나 이상의 네트워크 프로토콜 메시지의 페이로드(payload)에 인코딩될 수 있다. 몇몇 구현예에서, 표시는 그래픽 사용자 인터페이스를 통해 사용자에게 디스플레이될 수 있다. 예컨대, 표시는 사용자 단말기(152)의 그래픽 사용자 인터페이스를 통해 사용자(150)에게 데이터 계보 그래프 또는 데이터 계보 테이블로서 디스플레이될 수 있다.

전술한 메타데이터 버전 비교 방법은 컴퓨터 상에서의 실행을 위한 소프트웨어를 사용하여 구현될 수 있다. 예컨대, 소프트웨어는 하나 이상의 프로세서, 하나 이상의 데이터 저장 시스템(휘발성 및/또는 비휘발성 메모리 및/또는 저장장치 요소를 포함하는), 하나 이상의 입력 디바이스 또는 포트, 및 하나 이상의 출력 디바이스 또는 포트를 각각 포함하는 하나 이상의 프로그래밍된 또는 프로그래밍 가능한 컴퓨터 시스템(분산, 클라이언트/서버, 또는 그리드(grid)와 같은 다양한 아키텍처로 이루어질 수 있는) 상에서 실행되는 하나 이상의 컴퓨터 프로그램에서의 프로시저(procedure)를 형성한다. 소프트웨어는 예컨대 데이터흐름 그래프의 설계 및 구성에 관련된 기타 서비스를 제공하는 대형 프로그램의 하나 이상의 모듈을 형성할 수도 있다. 그래프의 노드 및 요소는 컴퓨터 판독 가능 매체에 저장된 데이터 구조로서 구현되거나, 또는 데이터 레포지터리에 저장된 데이터 모델에 부합하는 다른 조직화된 데이터로서 구현될 수 있다.

소프트웨어는 범용 또는 전용의 프로그래밍 가능한 컴퓨터에 의해 판독 가능한 CD-ROM과 같은 저장 매체 상에 제공될 수 있거나, 소프트웨어가 실행되는 컴퓨터의 저장 매체에 네트워크의 통신 매체를 통해 전달(예컨대, 전파 신호로 인코딩되어)될 수도 있다. 기능의 전부가 전용 컴퓨터 상에서 수행되거나, 또는 코프로세서와 같은 전용 하드웨어를 사용하여 수행될 수도 있다. 소프트웨어는 소프트웨어에 의해 특정되는 계산의 상이한 부분이 상이한 컴퓨터에 의해 수행되는 분산 방식으로 구현할 수도 있다. 위에 설명한 프로시저를 수행하기 위해 컴퓨터 시스템에 의해 저장 매체 또는 디바이스가 판독되는 때에 컴퓨터를 구성하여 동작시키기 위해, 각각의 이러한 컴퓨터 프로그램은 범용 또는 전용의 프로그래밍 가능한 컴퓨터에 의해 판독 가능한 탠저블한 비일시적(tangible, non-transitory) 저장 매체 또는 디바이스(예컨대, 솔리드 스테이트 메모리, 또는 솔리드 스테이트 매체, 또는 마그네틱 매체 또는 광학 매체)에 저장되거나 다운로드되는 것이 바람직하다. 본 발명의 시스템은 또한 컴퓨터 프로그램과 함께 구성되는 컴퓨터 판독 가능한 저장 매체로서 구현되도록 고려될 수도 있으며, 이 경우, 이와 같이 구성된 저장 매체는 컴퓨터 시스템으로 하여금 특정한 미리 규정된 방법으로 동작하여 본 명세서에서 설명된 기능을 수행하도록 한다.

본 발명의 여러 실시예를 설명하였지만, 본 발명의 사상 및 범위에서 벗어나지 않고 다양한 수정이 이루어질 수 있다는 것을 이해할 것이다. 예컨대, 위에서 설명한 단계들 중 일부는 순서와 무관하게 행해질 수도 있으며, 이에 따라서 설명한 것과는 다른 순서로 수행될 수도 있다.

전술한 설명은 첨부된 청구항들의 범위에 의해 정해지는 본 발명의 범위를 예시하기 위한 것으로 본 발명의 범위를 한정하려는 것이 아니라는 것을 이해할 것이다. 예컨대, 전수한 여러 기능들은 전체적인 처리에 실질적으로 영향을 주지 않고 상이한 순서로 수행될 수도 있다. 도 2 및 도 3의 예에서 설명되고 본 명세서 전반에서 참조되는 제품 주문에 관한 특정한 데이터 처리에 대한 세부내용은 단지 메타데이터 관리 시스템 및 관련 프로세스의 성능을 예시하기 위한 것임을 이해할 것이다. 본 명세서에 제공된 특정한 데이터 처리 시스템의 세부내용은 필수적인 특징이 아니며, 청구항들의 범위를 한정하는 것으로 해석되지 않아야 한다. 그 외의 다른 실시예도 이하의 청구항들의 범위 내에 있다.

Claims

하나 이상의 데이터 처리 장치에 의해 수행되는 방법에 있어서,
노드를 포함하는 제1 그래프에서 제1 노드를 선택하는 사용자 입력을 수신하는 단계;
상기 제1 노드에 연관된 제1 오브젝트의 제1 데이터 계보(data lineage)를 수신하는 단계로서, 상기 제1 오브젝트가 타입을 갖고, 상기 제1 데이터 계보가 상기 제1 오브젝트와 하나 이상의 데이터세트 또는 트랜스폼(transform) 간의 관계를 기술하는, 제1 데이터 계보를 수신하는 단계;
노드를 포함하는 제2 그래프로부터 제2 노드를 선택하는 사용자 입력을 수신하는 단계;
상기 제2 노드에 연관된 제2 오브젝트의 제2 데이터 계보를 수신하는 단계로서, 상기 제2 오브젝트가 상기 제1 오브젝트와 동일한 타입을 갖고, 상기 제2 데이터 계보가 상기 제2 오브젝트와 하나 이상의 다른 데이터세트 또는 트랜스폼 간의 관계를 기술하는, 제2 데이터 계보를 수신하는 단계;
상기 제1 그래프로부터 선택된 상기 제1 노드 및 상기 제1 데이터 계보를 상기 제2 그래프로부터 선택된 상기 제2 노드 및 상기 제2 데이터 계보와 비교하는 것을 수행하는 단계;
비교에 기초하여 리포트를 발생시키는 단계
를 포함하는, 데이터 처리 장치에 의해 수행되는 방법.
제1항에 있어서,
상기 제1 노드의 타입은 데이터세트의 필드, 데이터세트의 컬럼, 데이터세트, 또는 변환으로 이루어진 군(group) 중 하나인, 데이터 처리 장치에 의해 수행되는 방법.
제1항에 있어서,
상기 그래프는, 데이터 처리 장치의 컴포넌트를 표시하는 노드와, 상기 데이터 처리 장치의 컴포넌트들 간의 데이터 흐름을 표시하는 방향성 에지(directed edge)를 포함하는, 데이터 처리 장치에 의해 수행되는 방법.
제1항에 있어서,
차이가 상기 제1 오브젝트와 상기 제2 오브젝트 간에서의 구조적 차이로 한정되는, 데이터 처리 장치에 의해 수행되는 방법.
제1항에 있어서,
상기 제1 오브젝트는 오브젝트의 제1 버전이고, 상기 제2 오브젝트는 오브젝트의 제2 버전인, 데이터 처리 장치에 의해 수행되는 방법.
제5항에 있어서,
상기 오브젝트의 제1 버전을 상기 오브젝트의 제1 버전을 위한 고유 태그와 룩업 테이블을 이용하여 액세스하는 단계; 및
상기 오브젝트의 제2 버전을 상기 오브젝트의 제2 버전을 위한 고유 태그와 룩업 테이블을 이용하여 액세스하는 단계
를 더 포함하는, 데이터 처리 장치에 의해 수행되는 방법.
제5항에 있어서,
상기 오브젝트의 제1 버전과 상기 오브젝트의 제2 버전은 리비전 히스토리(revision history)에서 조상-후손 관계(ancestor-descendant relationship)를 갖는, 데이터 처리 장치에 의해 수행되는 방법.
제5항에 있어서,
상기 오브젝트의 제1 버전과 상기 오브젝트의 제2 버전은 리비전 히스토리에서 공통의 조상을 갖지만, 상기 오브젝트의 둘 중 어떠한 버전도 상기 오브젝트의 다른 버전의 후손이 아닌, 데이터 처리 장치에 의해 수행되는 방법.
제5항에 있어서,
상기 오브젝트의 제1 버전 및 상기 오브젝트의 제2 버전은 상기 데이터 처리 장치의 현재 채용된 구현(implementation)을 기술하는, 데이터 처리 장치에 의해 수행되는 방법.
컴퓨터 프로그램 명령으로 인코딩된 비일시적 컴퓨터 저장 매체(non-transitory computer storage medium)로서,
상기 명령은 하나 이상의 컴퓨터에 의해 실행되는 때에 상기 하나 이상의 컴퓨터로 하여금,
노드를 포함하는 제1 그래프에서 제1 노드를 선택하는 사용자 입력을 수신하는 단계;
상기 제1 노드에 연관된 제1 오브젝트의 제1 데이터 계보를 수신하는 단계로서, 상기 제1 오브젝트가 타입을 갖고, 상기 제1 데이터 계보가 상기 제1 오브젝트와 하나 이상의 데이터세트 또는 트랜스폼 간의 관계를 기술하는, 제1 데이터 계보를 수신하는 단계;
노드를 포함하는 제2 그래프로부터 제2 노드를 선택하는 사용자 입력을 수신하는 단계;
상기 제2 노드에 연관된 제2 오브젝트의 제2 데이터 계보를 수신하는 단계로서, 상기 제2 오브젝트가 상기 제1 오브젝트와 동일한 타입을 갖고, 상기 제2 데이터 계보가 상기 제2 오브젝트와 하나 이상의 다른 데이터세트 또는 트랜스폼 간의 관계를 기술하는, 제2 데이터 계보를 수신하는 단계;
상기 제1 그래프로부터 선택된 상기 제1 노드 및 상기 제1 데이터 계보를 상기 제2 그래프로부터 선택된 상기 제2 노드 및 상기 제2 데이터 계보와 비교하는 것을 수행하는 단계;
비교에 기초하여 리포트를 발생시키는 단계
를 포함하는 동작을 수행하도록 하는, 비일시적 컴퓨터 저장 매체.
제10항에 있어서,
상기 제1 노드의 타입은 데이터세트의 필드, 데이터세트의 컬럼, 데이터세트, 또는 변환으로 이루어진 군 중 하나인, 비일시적 컴퓨터 저장 매체.
제10항에 있어서,
상기 그래프는, 데이터 처리 장치의 컴포넌트를 표시하는 노드와, 상기 데이터 처리 장치의 컴포넌트들 간의 데이터 흐름을 표시하는 방향성 에지를 포함하는, 비일시적 컴퓨터 저장 매체.
제10항에 있어서,
차이가 상기 제1 오브젝트와 상기 제2 오브젝트 간에서의 구조적 차이로 한정되는, 비일시적 컴퓨터 저장 매체.
제10항에 있어서,
상기 제1 오브젝트는 오브젝트의 제1 버전이고, 상기 제2 오브젝트는 오브젝트의 제2 버전인, 비일시적 컴퓨터 저장 매체.
제14항에 있어서,
상기 동작은,
상기 오브젝트의 제1 버전을 상기 오브젝트의 제1 버전을 위한 고유 태그와 룩업 테이블을 이용하여 액세스하는 단계; 및
상기 오브젝트의 제2 버전을 상기 오브젝트의 제2 버전을 위한 고유 태그와 룩업 테이블을 이용하여 액세스하는 단계
를 더 포함하는, 비일시적 컴퓨터 저장 매체.
제14항에 있어서,
상기 오브젝트의 제1 버전과 상기 오브젝트의 제2 버전은 리비전 히스토리에서 조상-후손 관계를 갖는, 비일시적 컴퓨터 저장 매체.
제14항에 있어서,
상기 오브젝트의 제1 버전과 상기 오브젝트의 제2 버전은 리비전 히스토리에서 공통의 조상을 갖지만, 상기 오브젝트의 둘 중 어떠한 버전도 상기 오브젝트의 다른 버전의 후손이 아닌, 비일시적 컴퓨터 저장 매체.
제14항에 있어서,
상기 오브젝트의 제1 버전 및 상기 오브젝트의 제2 버전은 데이터 처리 장치의 현재 채용된 구현을 기술하는, 비일시적 컴퓨터 저장 매체.
하나 이상의 컴퓨터 및 하나 이상의 저장 디바이스를 포함하는 시스템으로서,
상기 저장 디바이스는 명령을 저장하며,
상기 명령은 상기 하나 이상의 컴퓨터에 의해 실행되는 때에 상기 하나 이상의 컴퓨터로 하여금,
노드를 포함하는 제1 그래프에서 제1 노드를 선택하는 사용자 입력을 수신하는 단계;
상기 제1 노드에 연관된 제1 오브젝트의 제1 데이터 계보를 수신하는 단계로서, 상기 제1 오브젝트가 타입을 갖고, 상기 제1 데이터 계보가 상기 제1 오브젝트와 하나 이상의 데이터세트 또는 트랜스폼 간의 관계를 기술하는, 제1 데이터 계보를 수신하는 단계;
노드를 포함하는 제2 그래프로부터 제2 노드를 선택하는 사용자 입력을 수신하는 단계;
상기 제2 노드에 연관된 제2 오브젝트의 제2 데이터 계보를 수신하는 단계로서, 상기 제2 오브젝트가 상기 제1 오브젝트와 동일한 타입을 갖고, 상기 제2 데이터 계보가 상기 제2 오브젝트와 하나 이상의 다른 데이터세트 또는 트랜스폼 간의 관계를 기술하는, 제2 데이터 계보를 수신하는 단계;
상기 제1 그래프로부터 선택된 상기 제1 노드 및 상기 제1 데이터 계보를 상기 제2 그래프로부터 선택된 상기 제2 노드 및 상기 제2 데이터 계보와 비교하는 것을 수행하는 단계;
비교에 기초하여 리포트를 발생시키는 단계
를 포함하는 동작을 수행하도록 작동할 수 있는, 시스템.
제19항에 있어서,
상기 제1 노드의 타입은 데이터세트의 필드, 데이터세트의 컬럼, 데이터세트, 또는 변환으로 이루어진 군 중 하나인, 시스템.
제19항에 있어서,
상기 그래프는, 데이터 처리 장치의 컴포넌트를 표시하는 노드와, 상기 데이터 처리 장치의 컴포넌트들 간의 데이터 흐름을 표시하는 방향성 에지를 포함하는, 시스템.
제19항에 있어서,
차이가 상기 제1 오브젝트와 상기 제2 오브젝트 간에서의 구조적 차이로 한정되는, 시스템.
제19항에 있어서,
상기 제1 오브젝트는 오브젝트의 제1 버전이고, 상기 제2 오브젝트는 오브젝트의 제2 버전인, 시스템.
제23항에 있어서,
상기 동작은,
상기 오브젝트의 제1 버전을 상기 오브젝트의 제1 버전을 위한 고유 태그와 룩업 테이블을 이용하여 액세스하는 단계; 및
상기 오브젝트의 제2 버전을 상기 오브젝트의 제2 버전을 위한 고유 태그와 룩업 테이블을 이용하여 액세스하는 단계
를 더 포함하는, 시스템.
제23항에 있어서,
상기 오브젝트의 제1 버전과 상기 오브젝트의 제2 버전은 리비전 히스토리에서 조상-후손 관계를 갖는, 시스템.
제23항에 있어서,
상기 오브젝트의 제1 버전과 상기 오브젝트의 제2 버전은 리비전 히스토리에서 공통의 조상을 갖지만, 상기 오브젝트의 둘 중 어떠한 버전도 상기 오브젝트의 다른 버전의 후손이 아닌, 시스템.
제23항에 있어서,
상기 오브젝트의 제1 버전 및 상기 오브젝트의 제2 버전은 데이터 처리 장치의 현재 채용된 구현을 기술하는, 시스템.
하나 이상의 컴퓨터 및 하나 이상의 저장 디바이스를 포함하는 시스템으로서,
상기 저장 디바이스는 명령을 저장하며,
상기 명령은 상기 하나 이상의 컴퓨터에 의해 실행되는 때에 상기 하나 이상의 컴퓨터로 하여금,
노드를 포함하는 제1 그래프에서 제1 노드를 선택하는 사용자 입력을 수신하는 수단;
상기 제1 노드에 연관된 제1 오브젝트의 제1 데이터 계보를 수신하는 수단으로서, 상기 제1 오브젝트가 타입을 갖고, 상기 제1 데이터 계보가 상기 제1 오브젝트와 하나 이상의 데이터세트 또는 트랜스폼 간의 관계를 기술하는, 제1 데이터 계보를 수신하는 수단;
노드를 포함하는 제2 그래프로부터 제2 노드를 선택하는 사용자 입력을 수신하는 수단;
상기 제2 노드에 연관된 제2 오브젝트의 제2 데이터 계보를 수신하는 수단으로서, 상기 제2 오브젝트가 상기 제1 오브젝트와 동일한 타입을 갖고, 상기 제2 데이터 계보가 상기 제2 오브젝트와 하나 이상의 다른 데이터세트 또는 트랜스폼 간의 관계를 기술하는, 제2 데이터 계보를 수신하는 수단;
상기 제1 그래프로부터 선택된 상기 제1 노드 및 상기 제1 데이터 계보를 상기 제2 그래프로부터 선택된 상기 제2 노드 및 상기 제2 데이터 계보와 비교하는 것을 수행하는 수단;
비교에 기초하여 리포트를 발생시키는 수단
를 포함하여 이루어지는 동작을 수행하도록 작동할 수 있는, 시스템.