JP2009509271A - 抽出、変換、及び読み込みタスクの構成に基づくデータプロファイルのための装置及び方法 - Google Patents

抽出、変換、及び読み込みタスクの構成に基づくデータプロファイルのための装置及び方法 Download PDF

Info

Publication number
JP2009509271A
JP2009509271A JP2008532400A JP2008532400A JP2009509271A JP 2009509271 A JP2009509271 A JP 2009509271A JP 2008532400 A JP2008532400 A JP 2008532400A JP 2008532400 A JP2008532400 A JP 2008532400A JP 2009509271 A JP2009509271 A JP 2009509271A
Authority
JP
Japan
Prior art keywords
executable instructions
data
computer
mapping
accepting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008532400A
Other languages
English (en)
Inventor
ロナルド・アマ
サシンダー・エス・ショーラ
アウェズ・サイド
キルバカラン・パキリサミー
Original Assignee
ビジネス・オブジェクツ・ソシエテ・アノニム
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ビジネス・オブジェクツ・ソシエテ・アノニム filed Critical ビジネス・オブジェクツ・ソシエテ・アノニム
Publication of JP2009509271A publication Critical patent/JP2009509271A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Stored Programmes (AREA)

Abstract

コンピュータ読み取り可能な記録媒体は、ソースデータ200に関連する抽出(Extraction)、変換(Transformation)、及び読み込み(Load)(ETL)タスクの指定を受け入れるための実行可能な命令を有する。ソースデータは、プロファイルデータ202を生成するためにプロファイルされる。データ合致規則は、プロファイルデータ204に基づいて定義される。マッピング規則は、共同指定及びデータ合致規則206に従って生成される。マッピング規則は、ETLタスク208の生成に利用される。

Description

この発明は、一般的には、ネットワーク環境でのデータ処理に関する。より詳細には、この発明は、自動データ統合を容易にするための抽出、変換、及び読み込み(ETL)タスクの構成に基づくデータプロファイルに関する。
この出願は、2005年9月23日に出願された「Apparatus and Method for Automated Data Integration」と題する米国特許仮出願第60/719,958号の優先権を主張するものであり、その内容の全てを引用によって本願明細書に組み込む。
ソース(例えば、データベース)からターゲット(例えば、別のデータベース、データマート、又はデータウェアハウス)へのデータ移動の過程は、時に、抽出(Extract)、変換(Transform)、及び読み込み(Load)、又はその頭文字ETLと称される。ETLツールは、ユーザがデータ統合ソリューションを実行する手助けを行う。
データ統合処理系を適切に設計するためには、2つの重要なステップがある。第1のステップは、データ抽出の必要があるソースシステムを完全に理解することである。残念ながら、ソースシステムの綿密な調査に使用可能な制限されたその場限りのツールでは完全な理解は難しい。さらに、一個人は、一般的に、複数のソースシステムの専門知識を有さない。現在のツールは、さまざまなソースシステムに関しての専門知識を共有することの助けにはならない。
データ設計統合における第2の重要なステップは、ソースシステムから対象とするターゲットシステムへマッピングを行うことである。現在のマッピング技術は、データソース内でデータを完全に理解することなく、具体的には、データの異常、不整合、及び重複を完全に把握することなく、実行される。
現存するデータ統合ツールは、プロジェクト管理及び共同のサポートには向かない。一般的なプロジェクト管理ツールが存在するが、それらは、特にETLプロジェクトのために設計されたものではない。さらに、一般的なプロジェクト管理ツールは、ETLタスクプロセッサへ直接適用可能な出力を生成しない。
従来技術に関連する上記問題を考慮すると、ETLタスクを生成するための改善された技術を確立することが望ましい。具体的には、ETLタスクを生成するためのデータソース認識技術を提供することが望ましい。
本発明は、ソースデータに関連する抽出、変換、及び読み込み(ETL)タスクの指定(specification)を受け入れるための実行可能な命令を有するコンピュータ読み取り可能な媒体である。ソースデータは、プロファイルデータを生成するためにプロファイルされる。データ合致規則は、プロファイルデータに基づいて定義される。マッピング規則は、指定及びデータ合致規則に従って生成される。マッピング規則は、ETLタスクの生成に利用される。
本発明は、データ統合過程のためのモデルを構成するための共同(collaborative)システムと、生成されるETLジョブに適用される結合条件のための妥当性検証規則及びロジックを強制するバックエンド機能との両方を提供する。本発明は、データ統合プロジェクトに対して、ETLジョブを効果的に生成するための革新的手法を提供する。本発明は、関係(relational)データ及び階層(hierarchical)データの双方に基づくプロジェクトをサポートする。
本発明は、添付した図面と併せて以下の詳細な記載から十分に理解される。
各図面を通して、同一の参照符号は対応する部分を参照する。
図1は、本発明の実施形態に従って構成されたコンピュータ10を示す。コンピュータ10は、例えば、バス16を介して入力デバイス14に接続された中央演算ユニット12などの標準的な構成要素を具備する。入出力デバイス14は、キーボード、マウス、ディスプレイ、プリンタなどであってもよい。また、ネットワークインタフェース回路18は、バス16に接続される。ネットワークインタフェース回路18は、ネットワーク(図示していない)との通信を手助けする。故に、コンピュータ10は、クライアント−サーバ環境で動作できる。一実施形態において、コンピュータ10は、本発明の実施形態に従って実行されるさまざまなタスクを要求する多数のクライアントによってアクセス可能なアプリケーションサーバである。
また、メモリ20がバス16に接続される。メモリ20は、本発明に関連する動作を実行するためのデータ及び実行可能な命令を有する。メモリ20は、データソース22一式を格納する。データソース22は、カスタムアプリケーション、関係データベース、レガシーデータ、カスタマデータ、サプライヤデータなどを含んでもよい。典型的に、データソース22はネットワークのいたるところに分散しているが、便宜上、それらをただ1つのメモリ20として示す。
また、メモリ20は、プロジェクト指定モジュール24を格納する。プロジェクト指定モジュール24は、ETLタスクの指定又は特徴付けに関するユーザ入力を要請するための実行可能な命令を有する。この指定は、タスク定義及びタスク実行動作を含んでもよい。以下に記載されるように、指定は、実際のETLタスクを構成するために用いられる。
入力は、単独のユーザから受け取ってもよい。しかしながら、多くのアプリケーションにおいて、入力は共同作業を行う多数のユーザから受け取る。例えば、所与のETLジョブに対して、第1データソースに関連する第1専門家が第1データソースの細部に入力を与えると同時に、第2データソースに関連する第2専門家が第2データソースの細部に入力を与える。一実施形態において、プロジェクト指定モジュール24は、ターゲットデータモジュールについての情報を要請及び受信するため、かつソースシステムについての情報を要請及び受信するための実行可能な命令と、ソースシステムを分析するための実行可能な命令とを有する。また、プロジェクト指定モジュール24は、データ統合タスクのためのビジネス要求定義を要請及び受信するための実行可能な命令を有してもよい。一実施形態において、プロジェクト指定モジュール24は、クライアントからのウェブベースの入力をサポートするための実行可能な命令を有する。プロジェクト指定モジュール24に関連するユーザインタフェースのさらなる記載及び実施例が以下に提供される。
また、メモリ20はデータプロファイラ26を格納する。このタスクの実行には、標準的なデータプロファイラ26が使用される。データプロファイラ26は、ソースデータの不備及び異常を文書化するプロファイルデータを生成する。データベースプロファイリングは、その構成及び内部関係を判定するためにデータベースを分析する過程である。データベースプロファイリングは、例えば、使用されるテーブル、それらのキー、及び列数などの問題を評価する。また、データベースプロファイリングは、使用される列及び値を有する行の数、テーブル間の関係、並びに他の列からコピー又は取り出される列を考慮してもよい。また、データベースプロファイリングは、異なるアプリケーションによって使用されるテーブル及び列の分析と、どのようにテーブル及び列が取り込まれかつ変更されるかと、異なるテーブル及び列の重要性とを含んでもよい。本発明は、インテリジェントETL計画を生成するために、データベースプロファイリングからの情報を利用する。例えば、ETLジョブは、範囲外のデータに基づく変換規則を有してもよい。範囲外のデータに基づく変換規則に加えて、論理データマップが、どの列が関係するかを判断するためのデータプロファイルと、論理データマップに実装される結合構造とを適用してもよい。
一実施形態において、プロファイルデータは、データ合致モジュール28によって処理される。データ合致モジュール28は、データソース22内でデータ品質の評価及び特徴付けを行うための実行可能な命令を有する。また、データ合致モジュール28は、データ品質規則を定義するための実行可能な命令を有してもよい。例えば、データ合致モジュール28は、意味のない列、重複した列、又は相互関係のある列を識別するための実行可能な命令を有してもよい。そして、これらの事例のそれぞれにおいて、決定は、データターゲットから上記の列を除外するようになされてもよい。また、データ合致モジュール28は、結合可能なテーブルのキーを決定するため、及びテーブル間の結合関係を決定するための実行可能な命令を有してもよい。データ合致規則を生成するために、さまざまな手法を用いることができる。例えば、性別の列は、その値がM又はFのどちらかとなるものが98%を占め、その他の2%は、NULL、ブランク、又は記号Uのどれかとなる。この場合、規則は、性別の列から読み取られる全てのデータが、「Gender=‘M’ OR Gender=‘F’」の妥当性検証基準に対応しなければならないことを強制するように生成される。別の例では、CUSTOMER_ID列をプロファイルすることは、列中の値の90%が999999のパターンを持つこと、すなわち、それらが6桁の数字であることを判断する。従って、CUSTOMER_IDは100,000から999,999の間でなければならないとアサートする規則が生成される。そして、これらの規則は、データ統合ジョブが生成される時間において、データ統合妥当性検証変換規則として生成される。
データ合致モジュール28は、プロジェクト指定モジュール24によって受信されたビジネス要件定義と一致する合致規則を実行するための実行可能な命令を有してもよい。
また、マッピングモジュール30はメモリ20に格納される。マッピングモジュール30は、プロジェクト指定とデータ合致規則とに従ってマッピング規則を生成するための実行可能な命令を有する。プロジェクト指定がデータソース及びデータターゲットについての情報を含むことを忘れてはならない。また、プロジェクト指定は、マッピング動作に含まれるデータソース及びデータターゲットについての追加的な詳細情報を含んでもよい。
マッピングは、ソース中の1つ以上の列とターゲットテーブル中の列との間の関係を取得する。この関係は、マッピング表現及び記述にある。プロジェクトに対して定義されたターゲットデータ記憶に存在する各テーブルは、典型的に、マッピング又はターゲットテーブルマッピングを有する。マッピングは、プロジェクトに関連するデータソースからのテーブルがターゲットテーブルの列を取り込むことを定義する。ターゲットテーブルの各列は、どのようにそれが取り込まれたかを記述するマッピング表現を有する。ターゲットテーブルは、状況次第で、2つ以上のマッピングを有することが可能である。例えば、第1ベンダからのカスタマテーブルをどのように取り入れるかを記述するためのマッピングと、ソースが第2ベンダからのものである場合に、テーブルをどのように取り入れるかを定義するための別のマッピングとを有してもよい。また、初期読み込みの間にどのようにテーブルを取り入れるかを定義するマッピングと、テーブルに対する差分読み込みを定義する別のマッピングとを生成可能である。
マッピング規則は、ETLタスクを生成するために、ETLタスクジェネレータ32によって処理される。この動作は、ETLタスクジェネレータ32で実行されてもよい。ETLタスクジェネレータは、マッピング規則と一致するETLタスクを定義するための実行可能なコードを有する。
続いて、ETLタスクプロセッサ34がETLタスクを実行する。ETLタスクプロセッサ34は、標準的なデータ統合ツールであってもよい。重要なのは、入力(すなわち、本発明に従って形成されたETLタスク)である。ETLタスクプロセッサ34は、データウェアハウスなどのデータターゲット36を生成する。この実施例では同一のマシン上に示されているが、典型的に、データターゲット36は個別のマシン上にある。実際には、メモリ20のモジュールの多く又は全ては、ネットワークのいたるところに配置される。これらのモジュールの動作が重要なのであり、どのようにして又はネットワークのどこでそれらが実行されるかは重要ではない。
図2は、本発明の実施形態に関連する処理動作を示す。図2の第1処理動作は、プロジェクト指定200である。この動作は、プロジェクト指定モジュール24を用いて実行される。上記のプロジェクト指定タスクに加えて、また、この動作は、(異種の)データソース、データ接続、及びデータターゲットの指定を含んでもよい。プロジェクト指定200は、個々人によって特徴づけられてもよいが、通常は、異なる専門的知識を用いて個人の共同によって特徴づけられる。
ついで、202において、データがプロファイルされる。この動作の実行にはデータプロファイラ26が使用される。プロファイルデータは、データソース中のデータ品質問題を識別するために使用される。ついで、この情報は、データ合致規則に関連して使用される。故に、本発明は、プロファイルデータを使用し、ETLタスクを改善する。
ついで、204において、データ合致規則が定義される。この動作の実行には、データ合致モジュール28が使用される。ついで、206において、マッピングが実行される。この動作の実行には、マッピングモジュール30が使用される。また、上記のマッピング動作に加えて、マッピングは、マッピング規則を特徴づけるための付属文書の受け入れと、結合の指定と、フィルタ条件の指定とを含んでもよい。さらに、システムは、それらの実行に先立って、まず専門家によってマッピング規則の妥当性検証が行われなければならないように構成されてもよい。また、マッピング動作は、以下に記載するように、マッピングモジュール30がマッピング統計を生成するように実行されてもよい。
ついで、208において、ETLタスクが生成される。この動作の実行には、ETLタスクジェネレータ32が使用される。一実施形態において、ETLタスクジェネレータ32は、以下に記載するように、データフロータスク一式を生成する。各実施形態において、ETLタスクジェネレータは、指定されたマッピング規則に従ってETLタスクを生成する。
最後に、210において、データターゲットを形成するために、ETLタスクが処理される。この動作の実行には、ETLタスクプロセッサ34が使用される。通常は、ETLタスクプロセッサ34は、データウェアハウスを生成するように構成される。
図3は、ETLジョブの追加、修正、レビュー、及び生成を可能にするために使用されるグラフィカルユーザインタフェース(GUI)300を示す。GUI300は、プロジェクト指定モジュール24に関連付けられてもよい。実施例として、新しいプロジェクトの追加を選択する場合、「add」アイコン302が選択される。この結果が、図4のGUI400である。また、それらは、プロジェクト指定モジュール24によって提供されてもよい。このGUIは、ソースの指定、ターゲットの指定、及びマッピングの指定又は呼び出しを容易にする。追加的なドキュメントが、プロジェクトに関連してもよい。例えば、プロジェクトの説明、修正、日付、作成者、作成日、名称などの追加的な情報が、GUI400に提供されてもよい。
図5は、ソースを定義するために使用されるGUI500の実施例を示す。この実施例では、ソースは、名称、アプリケーション、データベースタイプ、及び説明を用いて定義される。これによって、ビジネスインテリジェンスプロジェクトに関するソース及びデータを識別及び定義できる。個々のデータソース専門家は、彼らの知る最良のデータソースに対する情報を指定し、それによって、共同的取り組みを容易にする。
図6は、ターゲットを定義するために使用されるGUI600の実施例を示す。この実施例では、GUI600は、名称の指定、説明、及び追加的なドキュメントをターゲットに関連付けることができる。
図7は、ターゲットシステムとの接続を定義するために使用されるGUI700の実施例を示す。この実施例では、ターゲットシステムへの接続は、名称、データベースタイプ、マシン名、データベースポート、及びデータベース名のうちの1つ以上によって指定される。また、ユーザ名及びパスワードは、ユーザを認証するために使用できる。また、当然ながら、ユーザ名及びパスワードは、明細書中に記載された以外のGUIで使用されてもよい。
例えば、図3〜7のGUIを用いて、新しいプロジェクトが指定された後、ユーザは、プロジェクトの修正及びレビューを行える。図3に示すアイコンによって、プロジェクトの修正(アイコン304)及びレビュー(アイコン306)が可能となる。
図8は、本発明の実施形態に従ってレビュー及び修正されるテーブル情報及びメタデータの実施例を提供する。図8のGUI800は、テーブル名、所有者名、テーブルタイプ、説明、インポート情報、行数、及びソース専門家コメントについての情報を提供する。さらに、GUI800は、例えば、キー、列名、データタイプ、無効な機能(nullability)、及び説明などの列情報を提供する。適切な権限を有する個人は、この情報を見ること及び/又は修正することができる。これによって、ユーザは、ETLタスクに関連するデータをより理解できる。本発明の他の実施形態において、ユーザは、系統図(view of lineage)、効果(impact)、及びスタースキーマを検索する。
プロジェクト指定の後、プロファイルデータを生成するために、データプロファイラ26が起動される。図9は、プロファイルデータ表示するGUI900を示す。この実施例では、さまざまな国が占める割合が提供される。「other」に分類される国が相対的に高い割合を占めることが見て取れ、これはデータ品質問題を示唆する。また、データプロファイルは、例えば、低い値、高い値、空白の数、パターンなどの情報を提供する。
図10は、マッピングモジュール30に関連するGUI1000を示す。GUI1000は、マッピング動作をサポートする。この実施例では、マッピングは、ターゲットテーブル「Customer」で指定される。ターゲットテーブル「Customer」は、さまざまな列「Account_Group」、「Account_Group_Name」、及び「Customer_Name」を有する。また、GUI1000は、ソース情報を指定するとともに、注釈のための領域を有する。典型的に、注釈は、ドメイン専門家からのものである。
図11は、追加的な情報がマッピングに関連することを許可するGUI1100を示す。この実施例では、追加的な情報は、注釈及び付属文書の形式となってもよい。付属文書は、スクリーンショット、リンク、及び画像を含んでもよい。
図12は、結合を指定するために用いられるインタフェース1200を示す。具体的には、図はターゲットテーブル「Sales Fact」を指定する。また、ソーステーブル「SalesRG1.VBAP」及び「SalesRG1.VBEP」が指定される。ソーステーブルは、説明及びコメントに関連している。この実施例でのマッピングは、結合動作である。フィルタ条件を指定するために同様のインタフェースが用いられてもよい。
マッピングモジュール30は、マッピング関係を推測するための実行可能な命令を有する。例えば、ソース及びターゲットテーブル中の列の名称(すなわち、プロジェクト指定情報)は、マッピングされたリレーションシップを推測するために用いられる。これらの推測されたリレーションシップは、論理マッピングを生成するためにデータ合致規則に結合される。
図13は、「Validated」列を介して、専門家にマッピングの妥当性検証を求めるためのインタフェース1300を示す。図13では、ターゲットテーブル「Customer」が指定されている。また、図は、ソーステーブル「SalesRG1.KNA1」に関連する列名一式を示す。また、図は、各列に対するマッピングタイプ及びマッピング式を示す。専門家は、この情報を頼りに、提案されているマッピング計画の妥当性検証を行う。
マッピングモジュール30は、マッピング過程を追跡するように構成されてもよい。例えば、図14に示されるように、マッピング計画を提供するためにGUI1400が提供される。また、マッピングモジュール30は、予想達成計画を提供するように構成されてもよい。或いは、レポートは、各列の変換についての詳細を含んで、テーブル毎にマッピングを記述するように生成されてもよい。この情報は、ウェブブラウザを介して提供されるか、又はアプリケーション文書(例えば、Word文書、又はExcel文書)で実装されてもよい。
また、レポートを生成するために、プロジェクト指定モジュール24が用いられてもよい。例えば、プロジェクト指定モジュール24は、プロジェクトと、それらの基本的なプロパティと、上記のターゲットデータ記憶、ソースデータ記憶、タスク、及びサポートする文書といった関連する高位のオブジェクトとを一覧にするために使用されてもよい。また、プロジェクト指定モジュール24は、基本的なプロパティと全データ記憶に関連する重要なテーブルとを要約するレポートを生成するために用いられてもよい。また、特定のデータ記憶の詳細、すなわち、そのテーブル及び列情報が提供されてもよい。
マッピング動作が完了した後、ETLタスクジェネレータ32は、ETLタスクを生成する。例示を目的とし、図15は、ETLタスクジェネレータ32に関連するGUI1500を示す。GUI1500は、ウィンドウ枠1504に示された対応するデータフローを生成するために、どのようにマッピングウィンドウ枠1502内の個々のマッピングが選択されるのかを示す。
データフローが指定されるとすぐに、ETLタスクプロセッサ34はタスクを処理する。図16は、ETLタスクプロセッサ34に関連するGUI1600を示す。ウィンドウ枠1602はデータソースを示し、ウィンドウ枠1604はデータフローを示し、かつウィンドウ枠1606はデータソースへのクエリーを介したデータソースフローを示す。インタフェースにかかわらず、ETLタスクプロセッサは、データターゲットを読み込むために、ETLタスクのマッピング及び構造を取得するように動作する。
本発明の一実施形態において、データ統合ジョブは、生成されたオブジェクトを識別するための隠された識別子を備えたソーストゥターゲットマッピングに基づく。この技術を用いて、後から生成されたオブジェクトを容易に更新することが可能となる。これは、元の設計とのETLコードの往復同期を容易にし、それによって、データウェアハウスの継続的な保守を可能にする。
2つ以上のソーステーブルに関係するマッピングを設計する場合、ユーザは、(i)テーブルが結合されるべきキーと、(ii)用いられる結合の種類(すなわち、単純結合、一方向外部結合、及び双方向外部結合)とを決定するために、ソーステーブルをプロファイル可能である。関係がプロファイルされるとすぐに、適切な結合条件が生成され、ついで、データフローへと変換される。
本発明の実施形態は、関係データ(すなわち、リレーショナルデータベース中のテーブルに格納されたデータ)と、XMLなどの階層型データとをプロファイルする。階層型データの場合、XML中の入れ子状のテーブルは、個別のミニ−テーブルとして扱われる。同様に、妥当性検証規則は、XMLデータに由来する。
本発明の実施形態は、さまざまなコンピュータで実行される動作を実行するため、コンピュータコードを有するコンピュータ読み取り可能な媒体を備えたコンピュータストレージ製品に関する。媒体及びコンピュータコードは、本発明の目的のために特別に設計及び構成されたものであるか、又は既知の及び当業者が入手可能な種類のものであってもよい。コンピュータ読み取り可能な媒体の例としては、それに限定されないが、ハードディスク、フロッピー(登録商標)ディスク、及び磁気テープなどの磁気媒体と、CD−ROM及びホログラフィック装置などの光学媒体と、フロプティカルディスクなどの光磁気媒体と、プログラムコードを格納及び実行するように特別に構成された、ASIC(Application-Specific Integrated Circuit)、プログラマブルロジックデバイス(PLD)、並びにROM及びRAMなどのハードウェア装置とを含む。コンピュータコードの例としては、コンパイラによって生成されるような機械語と、インタプリタを用いてコンピュータによって実行される高位コードを含むファイルとが含まれる。例えば、本発明の実施形態は、Java(登録商標)、C++、又はその他のオブジェクト指向プログラム言語と、開発ツールとを用いて実装されてもよい。本発明の別の実施形態は、装置上で実行可能なソフトウェア命令の代わりに、又はそれと組み合わせて、配線回路で実装されてもよい。
以上の記載は、例示を目的として、発明の十分な理解を提供するために特定の用語を用いた。しかしながら、本発明を実施するために特定の詳細が必須ではないということは、当業者に明白である。故に、本発明の特定の実施形態の先の記載は、例示及び説明を目的として提供される。それらは、網羅すること、又は発明を開示された形態へ限定することを意図するものではなく、上記の教示に照らして、多くの修正及び変形が可能であることは明白である。実施形態は、本発明の原理とその現実的な応用とを最もよく説明するように選択及び記載された。それによって、発明と、期待される特定の使用に適するものとしてのさまざまな変形を伴うさまざまな実施形態とを、当業者が最も好ましく利用できるようにする。添付された特許請求の範囲及びその均等物が本発明の範囲を定義する。
本発明に関連する動作をサポートするように構成されたコンピュータを示す図である。 本発明の実施形態に関連する処理動作を示す図である。 本発明の実施形態に関連するプロジェクト管理GUIを示す図である。 本発明の実施形態に関連するプロジェクト指定GUIを示す図である。 本発明の実施形態に従ってソースを指定するためのGUIを示す図である。 本発明の実施形態に従ってターゲットを指定するためのGUIを示す図である。 本発明の実施形態に従ってデータ接続を指定するためのGUIを示す図である。 本発明の実施形態に従って専門家注釈が付けられるテーブル情報を示す図である。 本発明の実施形態に従って形成されるプロファイルデータを示す図である。 本発明の実施形態に従って形成されるマッピングを示す図である。 マッピング情報を伝達するための補足情報の使用を示す図である。 本発明の実施形態に関連するマッピング情報を示す図である。 本発明の実施形態に関連する有効なマッピングを示す図である。 本発明の実施形態に従って生成されるレポート情報を示す図である。 本発明の実施形態によるマッピングからのデータフローの生成を示す図である。 本発明の実施形態によるETLジョブの生成を示す図である。
符号の説明
10 コンピュータ
12 中央演算ユニット
14 入出力デバイス
16 バス
18 ネットワークインタフェース回路
20 メモリ
22 データソース
24 プロジェクト指定モジュール
26 データプロファイラ
28 データ合致モジュール
30 マッピングモジュール
32 ETLタスクジェネレータ
34 ETLタスクプロセッサ
36 データターゲット

Claims (20)

  1. ソースデータに関連する抽出、変換、及び読み込み(ETL)タスクの指定を受け入れるための実行可能な命令と、
    前記ソースデータをプロファイルしてプロファイルデータを生成するための実行可能な命令と、
    前記プロファイルデータに基づいてデータ合致規則を定義するための実行可能な命令と、
    前記指定及び前記データ合致規則に従ってマッピング規則を生成するための実行可能な命令と、
    前記マッピング規則を利用してETLタスクを生成するための実行可能な命令と
    を有することを特徴とするコンピュータ読み取り可能な記録媒体。
  2. 前記指定を受け入れるための実行可能な命令が、前記ソースデータを形成する複数の異種データソースの指定を受け入れるための実行可能な命令を含むことを特徴とする請求項1に記載のコンピュータ読み取り可能な記録媒体。
  3. 前記指定を受け入れるための実行可能な命令が、前記複数の異種データソースへのデータ接続の指定を受け入れるための実行可能な命令を含むことを特徴とする請求項2に記載のコンピュータ読み取り可能な記録媒体。
  4. 前記指定を受け入れるための実行可能な命令が、複数のユーザによって定義された共同指定を受け入れるための実行可能な命令を含むことを特徴とする請求項1に記載のコンピュータ読み取り可能な記録媒体。
  5. 前記共同指定を受け入れるための実行可能な命令が、各異種データソースに対してデータソース特徴付け情報を受け入れるための実行可能な命令を含むことを特徴とする請求項4に記載のコンピュータ読み取り可能な記録媒体。
  6. 前記指定を受け入れるための実行可能な命令が、データターゲットの指定を受け入れるための実行可能な命令を含むことを特徴とする請求項1に記載のコンピュータ読み取り可能な記録媒体。
  7. データ品質問題を表すプロファイルデータを表示するための実行可能な命令をさらに有することを特徴とする請求項1に記載のコンピュータ読み取り可能な記録媒体。
  8. 前記データ合致規則を定義するための実行可能な命令が、意味のない列、重複した列、又は相互関係がある列を識別するための実行可能な命令を含むことを特徴とする請求項1に記載のコンピュータ読み取り可能な記録媒体。
  9. 前記データ合致規則を定義するための実行可能な命令が、テーブルを結合可能なキーを決定するため、かつテーブル間の結合関係を決定するための実行可能な命令を含むことを特徴とする請求項1に記載のコンピュータ読み取り可能な記録媒体。
  10. 前記マッピング規則を生成するための実行可能な命令が、前記マッピング規則を特徴付ける付属文書を受け入れるための実行可能な命令を含むことを特徴とする請求項1に記載のコンピュータ読み取り可能な記録媒体。
  11. 前記マッピング規則を生成するための実行可能な命令が、結合を指定するための実行可能な命令を含むことを特徴とする請求項1に記載のコンピュータ読み取り可能な記録媒体。
  12. 前記マッピング規則を生成するための実行可能な命令が、フィルタ条件を指定するための実行可能な命令を含むことを特徴とする請求項1に記載のコンピュータ読み取り可能な記録媒体。
  13. 前記マッピング規則を生成するための実行可能な命令が、マッピング規則の専門家妥当性検証を受け入れるための実行可能な命令を含むことを特徴とする請求項1に記載のコンピュータ読み取り可能な記録媒体。
  14. マッピング計画を提供するための実行可能な命令をさらに有することを特徴とする請求項1に記載のコンピュータ読み取り可能な記録媒体。
  15. プロジェクトレポートを提供するための実行可能な命令をさらに有することを特徴とする請求項1に記載のコンピュータ読み取り可能な記録媒体。
  16. データソースレポートを提供するための実行可能な命令をさらに有することを特徴とする請求項1に記載のコンピュータ読み取り可能な記録媒体。
  17. 前記マッピング規則を利用してETLタスクを生成するための実行可能な命令が、複数のデータフロータスクを生成するための実行可能な命令を含むことを特徴とする請求項1に記載のコンピュータ読み取り可能な記録媒体。
  18. ETLタスクを処理してデータターゲットを生成するための実行可能な命令をさらに有することを特徴とする請求項1に記載のコンピュータ読み取り可能な記録媒体。
  19. ETLタスクを処理してデータウェアハウスを生成するための実行可能な命令をさらに有することを特徴とする請求項18に記載のコンピュータ読み取り可能な記録媒体。
  20. マッピングに関連するオブジェクトへ識別子を割り当てるための実行可能な命令をさらに有することを特徴とする請求項1に記載のコンピュータ読み取り可能な記録媒体。
JP2008532400A 2005-09-23 2006-09-22 抽出、変換、及び読み込みタスクの構成に基づくデータプロファイルのための装置及び方法 Pending JP2009509271A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US71995805P 2005-09-23 2005-09-23
PCT/US2006/036907 WO2007038231A2 (en) 2005-09-23 2006-09-22 Apparatus and method for data profile based construction of an extraction, transform, load (etl) task

Publications (1)

Publication Number Publication Date
JP2009509271A true JP2009509271A (ja) 2009-03-05

Family

ID=37900288

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008532400A Pending JP2009509271A (ja) 2005-09-23 2006-09-22 抽出、変換、及び読み込みタスクの構成に基づくデータプロファイルのための装置及び方法

Country Status (4)

Country Link
US (1) US20070074155A1 (ja)
EP (1) EP1934721A2 (ja)
JP (1) JP2009509271A (ja)
WO (1) WO2007038231A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013533995A (ja) * 2010-05-27 2013-08-29 マイクロソフト コーポレーション データ統合のためのスキーマコントラクト
WO2013146086A1 (ja) * 2012-03-28 2013-10-03 日本電気株式会社 変換移行装置、変換移行方法、及びプログラム

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080140694A1 (en) * 2006-12-07 2008-06-12 Yogesh Mangla Data transformation between databases with dissimilar schemes
US8209359B2 (en) 2007-10-06 2012-06-26 International Business Machines Corporation Generating BPEL control flows
US20100280990A1 (en) * 2009-04-30 2010-11-04 Castellanos Maria G Etl for process data warehouse
CN101958987B (zh) * 2009-07-14 2013-06-26 中国电信股份有限公司 电信业务数据动态转换的方法及其***
WO2011056087A1 (en) 2009-11-09 2011-05-12 Netcracker Technology Corp. Declarative and unified data transition
US9053576B2 (en) * 2010-12-21 2015-06-09 International Business Machines Corporation Identifying reroutable data columns in an ETL process
US8719271B2 (en) 2011-10-06 2014-05-06 International Business Machines Corporation Accelerating data profiling process
US8583626B2 (en) * 2012-03-08 2013-11-12 International Business Machines Corporation Method to detect reference data tables in ETL processes
US9292815B2 (en) 2012-03-23 2016-03-22 Commvault Systems, Inc. Automation of data storage activities
US10332010B2 (en) 2013-02-19 2019-06-25 Business Objects Software Ltd. System and method for automatically suggesting rules for data stored in a table
US9323793B2 (en) 2013-03-13 2016-04-26 International Business Machines Corporation Control data driven modifications and generation of new schema during runtime operations
US9892134B2 (en) 2013-03-13 2018-02-13 International Business Machines Corporation Output driven generation of a combined schema from a plurality of input data schemas
US9251226B2 (en) 2013-03-15 2016-02-02 International Business Machines Corporation Data integration using automated data processing based on target metadata
US9633052B2 (en) * 2013-05-17 2017-04-25 Oracle International Corporation System and method for decomposition of code generation into separate physical units though execution units
US9305067B2 (en) * 2013-07-19 2016-04-05 International Business Machines Corporation Creation of change-based data integration jobs
US9449060B2 (en) * 2013-08-06 2016-09-20 International Business Machines Corporation Post-migration validation of ETL jobs and exception management
US9582556B2 (en) * 2013-10-03 2017-02-28 International Business Machines Corporation Automatic generation of an extract, transform, load (ETL) job
US10296499B2 (en) * 2013-11-15 2019-05-21 Sap Se Dynamic database mapping
GB2521198A (en) * 2013-12-13 2015-06-17 Ibm Refactoring of databases to include soft type information
US10275504B2 (en) 2014-02-21 2019-04-30 International Business Machines Corporation Updating database statistics with dynamic profiles
US10169121B2 (en) 2014-02-27 2019-01-01 Commvault Systems, Inc. Work flow management for an information management system
US10877955B2 (en) 2014-04-29 2020-12-29 Microsoft Technology Licensing, Llc Using lineage to infer data quality issues
US20170124154A1 (en) 2015-11-02 2017-05-04 International Business Machines Corporation Establishing governance rules over data assets
US11023483B2 (en) * 2016-08-04 2021-06-01 International Business Machines Corporation Model-driven profiling job generator for data sources
US10754868B2 (en) 2017-01-20 2020-08-25 Bank Of America Corporation System for analyzing the runtime impact of data files on data extraction, transformation, and loading jobs
US10599527B2 (en) 2017-03-29 2020-03-24 Commvault Systems, Inc. Information management cell health monitoring system
CN110019442B (zh) * 2017-09-04 2023-10-13 华为技术有限公司 取数方法及装置
CN107766448A (zh) * 2017-09-25 2018-03-06 上海卫星工程研究所 基于规则的卫星遥测数据分析***
CN109101571B (zh) * 2018-07-17 2020-12-08 新华三大数据技术有限公司 Etl设计过程的处理方法、装置和设备
US11533235B1 (en) 2021-06-24 2022-12-20 Bank Of America Corporation Electronic system for dynamic processing of temporal upstream data and downstream data in communication networks
CN114048195A (zh) * 2022-01-13 2022-02-15 合肥臻谱防务科技有限公司 一种数据迁移方法、***及电子设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6167405A (en) * 1998-04-27 2000-12-26 Bull Hn Information Systems Inc. Method and apparatus for automatically populating a data warehouse system
US6772409B1 (en) * 1999-03-02 2004-08-03 Acta Technologies, Inc. Specification to ABAP code converter
US7673282B2 (en) * 2001-05-25 2010-03-02 International Business Machines Corporation Enterprise information unification
US6968760B2 (en) * 2002-08-09 2005-11-29 Hu Cheng-Tsan Precision screwdriver having a turning head
US20040060038A1 (en) * 2002-09-25 2004-03-25 Duncan Johnston-Watt Verifiable processes in a heterogeneous distributed computing environment
US20040138932A1 (en) * 2003-01-09 2004-07-15 Johnson Christopher D. Generating business analysis results in advance of a request for the results
US20050187756A1 (en) * 2004-02-25 2005-08-25 Nokia Corporation System and apparatus for handling presentation language messages

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013533995A (ja) * 2010-05-27 2013-08-29 マイクロソフト コーポレーション データ統合のためのスキーマコントラクト
WO2013146086A1 (ja) * 2012-03-28 2013-10-03 日本電気株式会社 変換移行装置、変換移行方法、及びプログラム
JPWO2013146086A1 (ja) * 2012-03-28 2015-12-10 日本電気株式会社 変換移行装置、変換移行方法、及びプログラム

Also Published As

Publication number Publication date
WO2007038231A2 (en) 2007-04-05
WO2007038231A3 (en) 2007-11-08
US20070074155A1 (en) 2007-03-29
EP1934721A2 (en) 2008-06-25

Similar Documents

Publication Publication Date Title
JP2009509271A (ja) 抽出、変換、及び読み込みタスクの構成に基づくデータプロファイルのための装置及び方法
JP6434960B2 (ja) フローベースのetlおよびエンティティリレーションシップベースのetlの組合せのサポート
CN101454779B (zh) 基于搜索的应用开发框架
US7293031B1 (en) Report specification generators and interfaces
US7734617B2 (en) Optimization using a multi-dimensional data model
US8479093B2 (en) Metamodel-based automatic report generation
CA2684822C (en) Data transformation based on a technical design document
US11580096B2 (en) System for uploading information into a metadata repository
CN104572072B (zh) 一种对基于mvc模式的程序的语言转换方法与设备
US20080235261A1 (en) Generating a new file using instance information
US20160092554A1 (en) Method and system for visualizing relational data as rdf graphs with interactive response time
EP3732587B1 (en) Systems and methods for context-independent database search paths
Gómez et al. An approach to the co-creation of models and metamodels in Enterprise Architecture Projects.
CN111061733A (zh) 数据处理方法、装置、电子设备和计算机可读存储介质
KR100581687B1 (ko) 이기종의 데이타베이스 관리시스템 통합방법 및 그 방법을실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는기록매체
Dakrory et al. Automated ETL testing on the data quality of a data warehouse
Pettit et al. The MySQL Workshop: A practical guide to working with data and managing databases with MySQL
US20070282804A1 (en) Apparatus and method for extracting database information from a report
US20150363191A1 (en) Configuration-based processing of requests by conditional execution of software code to render regions in a display
EP3401799A1 (en) Data storage method and apparatus
US11526895B2 (en) Method and system for implementing a CRM quote and order capture context service
US20090271439A1 (en) Systems to implement business processes in computing environment
US20240126759A1 (en) Converting an api into a graph api
JP2003122892A (ja) 課題管理システム、ホームページサーバーおよびコンピュータ読み取り可能な課題管理システム用の記録媒体
CN106970971A (zh) 改进型中心锚链模型的描述方法