JP2006065467A

JP2006065467A - データ抽出定義情報生成装置およびデータ抽出定義情報生成方法

Info

Publication number: JP2006065467A
Application number: JP2004245197A
Authority: JP
Inventors: Takeshi Kojima; 剛小島; Tetsuo Tanaka; 哲雄田中
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2004-08-25
Filing date: 2004-08-25
Publication date: 2006-03-09
Also published as: US20060047693A1

Abstract

【課題】
サーバの提供するアプリケーションの複数のユーザインタフェ―スを、クライアント上で一つのユーザインタフェースとして統合する際に、統合の対象となるユーザインタフェースから必要な情報を抽出する定義情報を効率的に生成する。
【解決手段】
対象となるユーザインタフェースの情報のうち、抽出すべき部分に、抽出先のデータ項目を定義した情報を挿入したデータ抽出定義付ユーザインタフェース情報を用意する。データ抽出定義付ユーザインタフェースから情報を抽出するための、抽出箇所や抽出先のデータ項目を定義したデータ抽出定義情報を、前記データ抽出定義付ユーザインタフェース情報に基づいて生成する。
【選択図】図５

Description

本発明は、複数の情報源から取得したデータを統合してユーザに提示するユーザインタフェースの統合時に必要となるデータ抽出定義情報を生成する技術に関し、特にネットワークなどを介し、サーバからクライアントに送付される複数のアプリケーションを、クライアントが利用する場合に好適な技術に関する。

インターネットなどのネットワークにおいて、ＷＷＷ（World Wide Web）をユーザインタフェースとして利用したアプリケーションのサービスが行われている。ＷＷＷを利用することによって、アプリケーション毎に専用のクライアントプログラムを用意する必要がなく、ＷＷＷブラウザさえあれば、ＷＷＷを利用したあらゆるアプリケーションを利用することができる。しかしながら、ＷＷＷを利用した個別のアプリケーションは、たとえアプリケーション間で共通のデータを扱う処理を行っていても、アプリケーション間でデータを連携させる仕組みはなく、ユーザが、それぞれのアプリケーション毎にＷＷＷブラウザの別のウィンドウを開き、データ入力操作をしなければならない。

この問題に対処するために、複数のＷＷＷページを一つに統合した統合ページを、ユーザインタフェースとして提供するシステムが開示されている。以下本明細書において、ＷＷＷサーバが提供するコンテンツであって、ＷＷＷブラウザ上で一度に閲覧できるコンテンツの単位をＷＷＷページと呼び、複数のＷＷＷページ内の所望のコンテンツを抽出して新たに生成したひとつのＷＷＷページを統合ページと呼ぶ。

このシステムでは、予め統合ページに統合する対象として定義されたＷＷＷページを提供する既存のＷＷＷサーバにアクセスし、各々のＷＷＷページを取得し、取得したＷＷＷページを予め定義された手順によって解析し、構造をもったデータ形式でデータを抽出し、該抽出したデータを用いて、予め定義された統合ページの出力手順によって統合ページを生成する。統合ページを生成する際、対象となる複数のＷＷＷページの間に共通するデータ項目が存在する場合、該共通するデータ項目をキーとしてマージを行ったテーブルを統合ページ中に出力を行うよう定義することもできる。

この方法によれば、複数のＷＷＷページ内のデータを、一つの統合ページを構成するデータ項目として利用することができる。例えば、統合ページを構成する複数のＷＷＷページがそれぞれテーブルを有し、各テーブルに共通するデータ項目がある場合、それらのテーブルをマージしたテーブルを表示する統合ページを提供することができる。また、既存のＷＷＷページ内のデータを、統合ページを生成する際のデータ項目として利用することができるため、既存のＷＷＷページのレイアウトにとらわれない、柔軟なレイアウトを持つ統合ページを提供することができる。

特開２００３−３４５６９７号公報

このようにユーザインタフェース統合装置を設けることにより、ユーザは、ひとつの統合ページにアクセスするだけで、複数のＷＷＷページにより提供されているサービスを統合したサービスを利用することが出来る。

このシステムでは、ＷＷＷページを統合するために、対象となるＷＷＷページを解析し、統合ページを生成するために必要な情報を抽出する処理が行われる。この解析処理および抽出処理は、データ抽出定義情報と呼ばれる定義情報に従って自動的に行われる。このデータ抽出定義情報は、システムの管理者が作成する必要があるが、データ抽出定義情報は、その形式は複雑であり、正確に定義するのは困難であるという課題がある。

本発明は、上記課題を鑑みてなされたものであり、上記統合ページを生成するために、対象となるＷＷＷページを解析し、必要な情報を抽出するデータ抽出定義情報の作成を自動化することにより、当該データ抽出定義情報の開発効率を高めるとともに、当該データ抽出定義情報を生成するものの労力を軽減することを目的とする。

上記目的を達成するために、本発明のデータ抽出定義情報生成装置では、与えられた所定の形式を有するページから、所定の規則に従って、自動的にデータ抽出定義情報を生成する。

具体的には、データ抽出定義情報に従って、サーバの提供する複数のユーザインタフェースから生成した統合ユーザインタフェースをクライアントに提供するユーザインタフェース統合装置に、前記データ抽出定義情報を提供するデータ抽出定義情報生成装置であって、前記サーバが提供する前記ユーザインタフェースに、前記統合ユーザインタフェースを構成するために必要なデータ項目を抽出するための所定の文字列（以下、マークと呼ぶ。）を付与することにより、マーク付ページを生成するマーク付ページ作成手段と、前記マーク付ページ作成手段において作成されたマーク付ページを解析し、前記データ抽出定義情報を生成するデータ抽出定義情報生成手段と、を備えることを特徴とするデータ抽出定義情報生成装置を提供する。

本発明によれば、統合ページを生成するために必要な情報を抽出するデータ抽出定義情報を自動的に生成することにより、当該データ抽出定義情報の開発効率を高めるとともに、当該データ抽出定義情報を生成するものの労力を軽減することができる。

＜＜第一の実施形態＞＞
以下、本発明の実施形態について図面を参照して説明する。はじめに、本実施形態のデータ抽出定義情報生成装置を含むユーザインタフェース統合システムの構成および機能の概略を述べ、ユーザインタフェース統合システムにおけるデータ抽出定義機能の役割を明らかにした後、当該機能が必要とするデータ抽出定義情報の詳細を述べる。その後、本実施形態の詳細を説明する。

本実施形態のユーザインタフェース統合処理の中で用いられるデータ抽出定義情報は、データ抽出の対象となるＷＷＷページのＨＴＭＬソースのサンプルを用いて、抽出すべき対象の箇所に「マーク」と呼ばれる特別な文字列を挿入することで作成されるマーク付ページから自動的に生成される。マークは抽出すべき位置や抽出先のデータ項目を特定するための情報を含む文字列である。

本実施形態のデータ抽出定義情報生成装置は、このマーク付ページを解析し、まず、マークの箇所を特定し、次に、データ抽出定義情報を生成するために必要な情報をマークおよび前後の文字列から特定することで、データ抽出定義情報を自動生成する。すなわち、本実施形態では、マーク付ページからデータ抽出定義情報を自動生成する環境をユーザインタフェース統合システムの管理者であるユーザに提供する。これにより、ユーザは、統合ページを作成するために必須のデータ抽出定義情報を容易に得ることができる。

従来のユーザインタフェース統合システムの管理者は、ＷＷＷページから、直接データ抽出定義情報を作成する必要があったが、本実施形態では、管理者は、ＷＷＷページから、簡単に作成することができるマーク付ページを、少なくとも作成すれば、データ抽出定義情報は、自動的に生成されることとなる。

図１は本実施形態の全体のシステム構成を表すブロック図である。

本実施形態のシステムは、ユーザインタフェース統合装置１０と、ＷＷＷサービスを提供するＷＷＷサーバ３０と、ＷＷＷサーバ３０によりＷＷＷサービスとして提供されたコンテンツを閲覧するＷＷＷブラウザ２０と、データ抽出定義情報生成装置１００と、を備える。

ユーザインタフェース統合装置１０は、クライアントであるＷＷＷブラウザ２０からの要求に応じて、複数のＷＷＷサーバ３０にアクセスし、ＷＷＷサーバ３０から提供されるＷＷＷページを取得し、取得した複数のＷＷＷページから所望の情報を抽出し、抽出した情報をもとに、ひとつのＷＷＷページを生成し、これを複数ＷＷＷサーバの提供するＷＷＷアプリケーションを統合した、統合ユーザインタフェースとなる統合ページとして要求元のＷＷＷブラウザ２０に返信する。

ユーザインタフェース統合装置１０は、ＷＷＷブラウザ２０とのインタフェースであるクライアント通信部１０１と、ＷＷＷサーバ３０にアクセスし、統合ページの生成に必要な情報を抽出し、蓄積するデータ抽出オブジェクト１０２と、蓄積された抽出データをもとに統合ページを生成する統合ページ生成オブジェクト１０３とを備える。

クライアント通信部１０１は、ＷＷＷブラウザ２０から統合ページの生成の要求を受け、統合ページ生成オブジェクト１０３に通知し、また、統合ページ生成オブジェクト１０３において生成した統合ページをＷＷＷブラウザ２０に送信する。

統合ページ生成オブジェクト１０３は、統合ページを生成する。クライアント通信部１０１を介して受け取った統合ページ生成の要求をデータ抽出オブジェクト１０２に受け渡す。また、統合ページのレイアウト方法を定義してある統合ページ定義情報を有し、統合ページの生成の要求に従って、データ抽出オブジェクト１０２が抽出したデータを利用して統合ページを生成し、生成した統合ページをクライアント通信部１０１を介してＷＷＷブラウザ２０に送信する。

データ抽出オブジェクト１０２は、ユーザインタフェース統合装置１０に接続されるＷＷＷサーバ３０の数だけ用意される。ここでは、その中の一つを代表として取り上げ、説明する。データ抽出オブジェクト１０２は、データ抽出部１０２１と、データ抽出定義情報１０２２と、抽出したデータを保持する抽出データ保持部１０２３と、サーバ通信部１０２４と、を備える。

サーバ通信部１０２４は、ＷＷＷサーバ３０とのインタフェースであり、ＷＷＷサーバ３０にＷＷＷページ取得のリクエストを送信し、その結果、ＷＷＷサーバ３０が生成し返信するＷＷＷページを受信する。

データ抽出定義情報１０２２は、取得したＷＷＷページから必要な情報を抽出する際の抽出方法を示す情報である。

データ抽出部１０２１は、データ抽出定義情報１０２２に従って、取得したＷＷＷページから必要な情報を抽出し、抽出したデータを、抽出データ１０２３に蓄積する。

データ抽出定義情報生成装置１００は、サーバ通信部１０２４が受信したＷＷＷページから、データ抽出定義情報を生成する。すなわち、対象となるユーザインタフェースの情報のうち、抽出すべき部分に、抽出先のデータ項目を定義した情報を挿入したデータ抽出定義付ユーザインタフェース情報を用意する。そして、データ抽出定義付ユーザインタフェースから情報を抽出するための、抽出箇所や抽出先のデータ項目を定義したデータ抽出定義情報を、前記データ抽出定義付ユーザインタフェース情報に基づいて生成する。詳細は、以下に説明する。

データ抽出定義情報生成装置１００の詳細な構成を説明する前に、具体的なＷＷＷページを例にとり、本実施形態のデータ抽出定義情報１０２２および抽出対象となるＷＷＷページの詳細を説明する。

図２は統合ページの対象となる、ＷＷＷサーバ３０の提供する既存ＷＷＷページの一例のＨＴＭＬソース４０である。この既存ＷＷＷページの例は在庫管理システムのユーザインタフェースとして提供されるものであり、管理対象の商品の在庫数を示したものであり、商品ＩＤと在庫数量とのデータ項目からなるレコードを３行持つ表の構造になっている。統合ページを生成する際に必要な情報として、商品ＩＤとその在庫数量との情報を取得するものとする（図２において、下線で示した部分が相当する）。

なお、サーバ通信部１０２４を介して取得したＷＷＷページからデータ抽出部１０２１が抽出したデータは、抽出データ１０２３に蓄積される。図３は、抽出データ１０２３に蓄積されるデータのデータ構造の一例を示す。本実施形態では、在庫数量を示すレコードを”ｉｎｖｅｎｔｏｒｙ”、商品ＩＤを示すデータ項目を”ｇｏｏｄＩＤ”、在庫数量を示すデータ項目を”ｑｕａｎｔｉｔｙ”として蓄積することとする。

図４は、データ抽出定義情報１０２２の一例であり、ＨＴＭＬソース４０から商品ＩＤとその在庫数量とを抽出するための定義がなされたものである。ただし、説明のため左端に行番号を示してある。

１行目は商品ＩＤと在庫数量とのデータ項目をもつレコードを一つずつ繰り返し抽出するための定義がなされている。具体的には、ＦＲＯＭに定義される”在庫数量”の文字列以降で、ＴＯに定義される”＜／ＴＡＢＬＥ＞”の文字列までの範囲内で、ＳＥＰＡＲＡＴＯＲで定義される”＜ＴＲ＞”で示す文字列から始まるレコード部分を、繰り返し、ＲＥＣＯＲＤで定義される”ｉｎｖｅｎｔｏｒｙ”と名付けられた、抽出データ１０２３のレコードに抽出する、という定義がなされている。

２、３行目では繰り返し処理のなかで、商品ＩＤと在庫数量とを抽出するための定義がなされている。２行目は、ＦＲＯＭで定義される文字列”＜ＴＤ＞”とＴＯで定義される文字列”＜／ＴＤ＞”の間にある文字列（すなわち商品ＩＤ情報）を”ｉｎｖｅｎｔｏｒｙ”レコードの”ｇｏｏｄｓＩＤ”と名付けられたデータ項目に抽出する、という定義がなされており、３行目は、ＦＲＯＭで定義される（直前の”＜／ＴＤ＞”の次の位置にある）文字列”＜ＴＤ＞”とＴＯで定義される文字列”＜／ＴＤ＞”の間にある文字列（すなわち在庫数量情報）を”ｉｎｖｅｎｔｏｒｙ”レコードの”ｑｕａｎｔｉｔｙ”と名付けられたデータ項目に抽出する、という定義がなされている。

４行目はレコード内のデータ項目の抽出処理が３行目までで終了することを意味している。

なお、図４で示すデータ抽出定義情報１０２２に従って、データ抽出部１０２１が、ＨＴＭＬソース４０から、抽出データとして、抽出データ保持部１０２３に図３で示すデータ構造で抽出する手順については、特許文献１（特開２００３−３４５６９７号公報）に詳しく記載されているため、ここでは記載しない。ただし、特許文献１では、このデータ抽出定義情報１０２２は、システムの管理者が作成する。

以下、データ抽出定義情報生成装置１００が、このＨＴＭＬソース４０からなるＷＷＷページのサンプルを用いて、データ抽出定義情報１０２２を自動的に生成する方法について説明する。

図５は、データ抽出定義情報生成装置１００の機能構成と、データ抽出定義情報生成装置１００によるデータ抽出定義情報１０２２の自動生成処理を説明するための図である。

本図に示すように、本実施形態のデータ抽出定義情報生成装置１００は、ユーザからの指示および入力を受け付ける入力受付部１００ａと、取得したＷＷＷページサンプルのＨＴＭＬソース４０に、後述する「マーク」を付与するマーク付与部１００ｂと、データ抽出定義情報生成部１００ｃとを備える。

データ抽出定義情報生成部１００ｃは、マーク付与部１００ｂによって生成されたマーク付ページ５０から、データ抽出定義情報１０２２を自動生成する。

ここで、マーク付ページ５０は、既存ＷＷＷページサンプルのＨＴＭＬソース４０に対し、マークと呼ばれる特別な文字列を挿入したものである。

マークは、前述したように、既存ＷＷＷページサンプルのＨＴＭＬソース４０からデータを抽出する位置と、抽出したデータの抽出データ保持部１０２３への蓄積形式とを示すために用いられる文字列である。

このマークを既存ＷＷＷページサンプルのＨＴＭＬソース４０に挿入したマーク付ページ５０の一例を図６に示す。以下、マークの種類および使い方を説明する。ただし、図６には、説明のため左端に行番号を示す。

図６において、マークはＨＴＭＬのコメントタグの形式であり、“＜！−−”と”−−＞”で囲まれる文字列で表現されている。本図においては、該当する文字列に下線を引き、示す。

マークは＄ｆｒｏｍと＄ｔｏの２種類ある。抽出対象の文字列の位置を示す手がかりとなる文字列（四角で囲んである文字列で示している）の直前に＄ｆｒｏｍ形式のマーク、を直後に＄ｔｏ形式のマークを配置するのが基本的なマークの使い方となる。

また、＄ｆｒｏｍ形式のマークには属性がいくつかある。各属性は、＄ｆｒｏｍ形式のマークの後ろにコロン（：）を付して属性情報を付加することにより、記述される。

属性情報がｔｓである場合（以後、ｔｓ属性と呼ぶ。他も同様）、直前の＄ｆｒｏｍ形式のマークが、繰り返しレコードを抽出する際の開始文字列を特定するマークであることを示し、属性情報がｔｅである場合は、繰り返しレコードを抽出する際の終了文字列を特定するマークであることを示し、属性情報がｒｓである場合は、繰り返しレコードを抽出する際のレコードの開始文字列を特定するマークであることを示し、属性情報がｃｓである場合は、レコード中のデータ項目を抽出する際の開始文字列を特定するマークであることを示し、属性情報がｃｅである場合は、レコード中のデータ項目を抽出する際の終了文字列を特定するマークであることを示す。

さらにｒｓ属性である場合、抽出先のレコード名称の情報として保持するマークであることを示し、ｃｓ属性の場合、抽出先のレコード名称およびデータ項目名称の情報として保持するマークであることを示す。

マーク付ページ５０の６行目において、ｔｓ属性の＄ｆｒｏｍマークと＄ｔｏマークで「在庫数量」部分の文字列が囲まれている。これは、図４のデータ抽出定義情報１０２２の１行目のＦＲＯＭにおいて繰り返し処理の開始文字列として「在庫数量」を定義していることに相当する。

マーク付ページ５０の７行目において、ｒｓ属性の＄ｆｒｏｍマークと＄ｔｏマークで「＜ＴＲ＞」部分の文字列が囲まれている。これは、図４のデータ抽出定義情報１０２２の１行目のＳＥＰＡＲＡＴＯＲにおいて、レコードの開始文字列として「＜ＴＲ＞」を定義していることに相当する。

また、同じく７行目の＄ｆｒｏｍマークでは、レコード情報として”ｉｎｖｅｎｔｏｒｙ”が指定されている。これは、図４のデータ抽出定義情報１０２２の１行目のＤＡＴＡにおいて抽出先レコードとして「ｉｎｖｅｎｔｏｒｙ」を定義していることに相当する。

マーク付ページ５０の８行目において、ｃｓ属性の＄ｆｒｏｍマークと＄ｔｏマークで「＜ＴＤ＞」部分の文字列が囲まれている。これは、図４のデータ抽出定義情報１０２２の２行目のＦＲＯＭにおいてデータ項目の読み取り位置の開始文字列として「＜ＴＤ＞」を定義していることに相当する。

また、同じく８行目のｆｒｏｍマークでは、レコードおよびデータ項目の情報として”ｉｎｖｅｎｔｏｒｙ．ｇｏｏｄｓＩＤ”が指定されているが、これは、図４のデータ抽出定義情報１０２２の２行目のＤＡＴＡにおいてレコード”ｉｎｖｅｎｔｏｒｙ”のデータ項目”ｇｏｏｄｓＩＤ”を抽出先として設定していることに相当する。

マーク付ページ５０の９行目において、ｃｓ属性の＄ｆｒｏｍマークと＄ｔｏマークで「＜ＴＤ＞」部分の文字列が囲まれている。これは、図４のデータ抽出定義情報１０２２の２行目のＦＲＯＭにおいてデータ項目の読み取り位置の開始文字列として「＜ＴＤ＞」を定義していることに相当する。

マーク付ページ５０の１０、１１行目では８、９行目と同様に、図４のデータ抽出定義情報１０２２の３行目のデータ項目の読み取りに関する情報が定義されている。

マーク付ページ５０の１４行目においてｔｅ属性の＄ｆｒｏｍマークと＄ｔｏマークで「＜／ＴＡＢＬＥ＞」部分の文字列が囲まれている。これは、図４のデータ抽出定義情報１０２２の１行目のＴＯにおいて繰り返し処理の終了文字列として「＜／ＴＡＢＬＥ＞」を定義していることに相当する。

以上に示すように、マーク付ページ５０によれば、データ抽出定義情報１０２２が持つ情報を過不足なく定義することができる。

図７は、マーク付ページ５０からデータ抽出定義情報１０２２を生成する、データ抽出定義情報生成部１００ｃの処理の流れを示した処理フロー図である。以下、図７の処理フロー図に従い、データ抽出定義情報生成部１００ｃが、上記マーク付ページ５０からデータ抽出定義情報１０２２を生成する処理手順を説明する。

ここで、データ抽出定義情報生成部１００ｃは、後述する、データ抽出定義情報１０２２のＬＯＯＰ：行の行番号を格納するループ情報処理用スタック（不図示）を備える。

はじめに、データ抽出定義情報生成部１００ｃは、マーク付ページ５０を入力とし（ステップ７０１）、初期化処理を行う（ステップ７０２）。初期化処理はループ情報処理用スタックを空にし、マーク付ページ５０を読み取る読み取りカーソルの位置をマーク付ページ５０の先頭部分に置くものである。

その後、現在の読み取りカーソルの位置以降でもっとも近い位置の＄ｆｒｏｍの形式のマークを検出し、その位置まで読み取りカーソルの位置を移動させ、読み取りを開始する（ステップ７０３）。＄ｆｒｏｍの属性によって、その後の処理は以下のように振り分けられる。それぞれ処理が終わったあとは再びステップ７０３から処理を繰り返す。

ｔｓ属性の場合、データ抽出定義情報１０２２に「ＬＯＯＰ：」行を生成し、データ抽出定義情報１０２２の「ＬＯＯＰ：」行の行番号をループ情報処理用スタックに格納する(プッシュする)。次に、現在のカーソルの位置以降で初めて出現する＄ｔｏマークを検出し、元のカーソルの位置から＄ｔｏマークを検出した位置の間の文字列をデータ抽出定義情報１０２２のＦＲＯＭに設定し、現在のカーソルの位置を、＄ｔｏマークの直後の位置に移動させる（ステップ７０４１，７０４２）。

ｔｅ属性の場合、現在のカーソルの位置以降に初めて出現する＄ｔｏマークを検出し、元のカーソルの位置から＄ｔｏマークを検出した位置の間の文字列を読み取る。ループ情報処理用スタックに格納されている行番号を取り出し（ポップし）、データ抽出定義情報１０２２の当該行番号の「ＬＯＯＰ：」行のＴＯに、上記で読み取った文字列を設定し、現在のカーソルの位置を、＄ｔｏマークの直後の位置に移動させる（ステップ７０５１，７０５２）。

ｒｓ属性の場合、現在のカーソルの位置以降に初めて出現する＄ｔｏマークを検出し、元のカーソルの位置から＄ｔｏマークを検出した位置の間の文字列を読み取る。データ抽出定義情報１０２２の、ループ情報処理用スタックに格納されている行番号で特定される「ＬＯＯＰ：」行のＳＥＰＡＲＡＴＯＲに、上記で読み取った文字列を設定し、現在のカーソルの位置を、＄ｔｏマークの直後の位置に移動させる（ステップ７０６１、７０６２）。

ｃｓ属性の場合、現在のカーソルの位置以降に初めて出現する＄ｔｏマークを検出し、元のカーソルの位置から＄マークを検出した位置の間の文字列を、データ抽出定義情報１０２２の、新規データ読み取り行のＦＲＯＭに設定し、現在のカーソルの位置を、＄ｔｏマークの直後の位置に移動させる（ステップ７０７１、７０７２）。

ｃｅ属性の場合、現在のカーソルの位置以降に初めて出現する＄ｔｏマークを検出し、元のカーソルの位置から＄ｔｏマークを検出した位置の間の文字列を、データ抽出定義情報１０２２の、直前で生成したデータ読み取り行のＴＯに設定し、現在のカーソルの位置を、＄ｔｏマークの直後の位置に移動させる（ステップ７０８１、７０８２）。

上記の処理において、＄ｆｒｏｍマークの検出を試みたにも係わらず、該当マークが検出されずマーク付ソース５０の最後に到達した場合、処理を終了し、処理結果として、生成したデータ抽出定義情報１０２２を出力する（ステップ７０９１、ステップ７１０）。

＄ｆｒｏｍマークの属性が上記の属性のどれにもあてはまらない場合や、＄ｔｏマークの検出処理中に＄ｔｏが検出されずマーク付ソース５０の最後まで到達した場合、マーク付の規則に従わないマーク付ソース５０として判定し、データ抽出定義情報１０２２は出力せず、処理を終了する（ステップ７０９２、ステップ７１０）。

以上のように、本実施形態によれば、データ抽出定義情報生成部１００ｃが、マーク付ソース５０を読み取ることにより、付与されているマークに従って、抽出対象の文字列の位置およびデータ抽出定義情報において意味するところを判別することができる。従って、データ抽出定義情報生成部は、この判別結果に基づいて、予め与えられた規則に従って、データ抽出定義情報を生成することができる。

すなわち、本実施形態によれば、ユーザインタフェース統合システムの管理者であるユーザが、マーク付ソース５０を作成し、それをデータ抽出定義情報生成装置１００に入力しさえすれば、データ抽出定義情報生成装置１００により、データ抽出定義情報１０２２は自動的に生成される。

なお、マーク付ソース５０は、ユーザインタフェース統合装置１０の管理者であるユーザが、データ抽出定義情報生成装置１００が備える入力受付部１００ａを介して受け付けたマークを、マーク付与部１００ｂが既存ＷＷＷページサンプルのＨＴＭＬソース４０に付与する等の手段により作成される。

マーク付ソース５０の作成は、既存の技術により平易な処理で行うことができるため、データ抽出定義情報１０２２を直接作成するのに比べはるかに容易である。従って、本実施形態によれば、既存のＷＷＷページサンプルのＨＴＭＬソース４０からデータ抽出定義情報１０２２を容易に開発することができる。

なお、本実施形態では、抽出対象のＷＷＷページは、ＨＴＭＬで作成されたものに限られない。例えば、ＣＳＶファイルなどであってもよい。

また、本実施形態のデータ抽出定義情報生成装置１００は、ＣＰＵ、メモリ等を備える、一般的な情報処理装置により構成される。メモリには、ＷＷＷサーバ３０から取得した既存のＷＷＷページサンプルのＨＴＭＬソース４０、マーク付ページ５０、各機能を実現するプログラム等が格納される。ＣＰＵは、必要に応じて、メモリからプログラムを読み込み、実行することにより、上記機能を実現する。

さらに、本実施形態では、ユーザインタフェース統合装置１０と、データ抽出定義情報生成装置１００とを別個の装置として記載したが、本構成に限られない。例えば、一の情報処理装置内で両装置の機能が実現されていてもよい。

＜＜第二の実施形態＞＞
第一の実施形態では、マーク付ソース５０の作成をユーザインタフェース統合システムの管理者であるユーザが行っていた。抽出対象のＷＷＷページがＨＴＭＬで作成されたものの場合、タグ以外の部分を抽出対象として自動的にマーク付ページ５０を生成することができる。本実施形態では、抽出対象がＨＴＭＬで作成されたＷＷＷページであり、マーク付ソース５０の作成も自動化される場合を例にあげて説明する。

本実施形態のユーザインタフェース統合システムは、基本的に第一の実施形態のユーザインタフェース統合システムと同様の構成を有する。しかし、本実施形態のデータ抽出定義情報生成装置１００は、さらに、マーク付ページ作成部（不図示）を備える。

図８は、既存ＷＷＷページサンプルのＨＴＭＬソース４０から、タグ以外の部分を抽出対象として、自動生成したマーク付ページ５１の一例を示す図である。ただし、説明のため、マーク部分に下線を付けて示し、左端に行番号を示してある。

本実施形態では、データ抽出定義情報生成部１００ｃは、第一の実施形態のマーク付ページ５０の代わりに、このマーク付ページ５１から、データ抽出定義情報を生成する。

図９は、マーク付ページ作成部が、既存ＷＷＷページサンプルのＨＴＭＬソース４０から、タグ以外の部分を抽出対象として、マーク付ページ５１を自動生成する場合の処理の流れを示した処理フロー図である。以下、図９の処理フロー図に従い、マーク付ページ作成部が、タグ以外の部分を抽出対象としてマーク付ページを自動生成する処理手順を説明する。

ここで、マーク付ページ作成部は、後述するレコード名称用のカウンタ（以下、レコード名称カウンタと呼ぶ。）とデータ項目名称用のカウンタ（以下、データ項目名称カウンタと呼ぶ。）とを備える。

はじめに、抽出対象となる既存ＷＷＷページサンプルのＨＴＭＬソース４０を入力とし（ステップ８０１）、初期化処理を行う（ステップ８０２）。初期化処理は既存ＷＷＷページサンプルのＨＴＭＬソース４０を読み取る読み取りカーソルの位置を当該サンプルの先頭部分に置き、レコード名称カウンタとデータ項目名称カウンタとを０にする処理を行う。

現在の読み取りカーソルの位置以降でもっとも近い位置にあるタグ以外の文字列（”＜”と”＞”に囲まれていない文字列）を検出する（ステップ８０３）。

このとき、検出ができなければ本処理は終了とし、ここまでに作成したマーク付ページ５０を出力する（ステップ８０６）。

検出できた場合、直前のタグが「＜ＴＤ＞」であるかどうかを調べる（ステップ８０４）。

直前のタグが「＜ＴＤ＞」でない場合、マーク付ページ５１として、直前のタグをｃｓ属性の$ｆｒｏｍマークと$ｔｏマークで、直後のタグをｃｅ属性の$ｆｒｏｍマークと$ｔｏマークで囲むように定義する。このときｃｓ属性の＄ｆｒｏｍマークには抽出先レコード名称として、”ｒｅｃｏｒｄ”を定義し、抽出先データ項目名称として、”ｄａｔａ”に続き、データ項目名称カウンタの値を文字列にしたものを接続したものを定義する。そののちデータ項目名称カウンタの値を１増加する（ステップ８０５１）。

直前のタグが「＜ＴＤ＞」の場合、マーク付ページ５１として、直前の＜ＴＨ＞、＜／ＴＨ＞で囲まれる文字列もしくは直前の＜ＴＡＢＬＥ＞を繰り返し開始部として、ｔｓ属性の＄ｆｒｏｍマークと＄ｔｏマークで囲むように定義する。また、直前の＜ＴＲ＞をレコード開始部としてｒｓ属性の＄ｆｒｏｍマークと＄ｔｏマークで囲むように定義する。

このときレコード名称として”ｔａｂｌｅ”に続き、レコード名称カウンタの値を文字列にしたものを接続したものを定義する。例えば、図８のマーク付ページ５１の７行目におけるｒｓ属性の＄ｆｒｏｍマークでは、レコード名称を“ｔａｂｌｅ０”として定義している。

そして、直後の＜／ＴＡＢＬＥ＞を繰り返し終了部としてｔｅ属性の＄ｆｒｏｍマークと＄ｔｏマークとで囲むように定義する。上記＜／ＴＡＢＬＥ＞に対する繰り返し終了部としてマークを挿入する処理はすでに同じ文字列に対し所定のマークが設定されている場合は行わない。

最後に当該文字列の直前の＜ＴＤ＞タグをｃｓ属性の$ｆｒｏｍマークと$ｔｏマークで、直後の＜／ＴＤ＞タグをｃｅ属性の$ｆｒｏｍマークと$ｔｏマークで囲むように定義する。

このときｃｓ属性の＄ｆｒｏｍマークには抽出先レコード名称として、”ｔａｂｌｅ”につづき、レコード名称カウンタの値を文字列にしたものを接続したものを定義し、抽出先データ項目名称として、”ｄａｔａ”につづき、データ項目名称カウンタの値を文字列にしたものを接続したものを定義する。例えば、図８のマーク付ページ５１の８行目におけるｃｓ属性の＄ｆｒｏｍマークではレコード名称を”ｔａｂｌｅ０”、データ項目名称を”ｄａｔａ２”として定義している。そののちデータ項目名称用のカウンタの値を１増加する。

そして、現在カーソルの直後の＜／ＴＲ＞より前に＜ＴＤ＞タグがない場合、現在カーソル位置を現在カーソル位置以降の＜／ＴＡＢＬＥ＞タグの直後に配置し、レコード名称カウンタの値を１増加する。

現在カーソルの直後の＜／ＴＲ＞より前に＜ＴＤ＞タグがある場合、現在カーソル位置を現在カーソルの直後の＜／ＴＤ＞の直後の位置に配置する（ステップ８０５２）。

そして再びステップ８０３から処理を繰り返す。

図８に示す自動生成したマーク付ページ５１は、図６に示すマーク付ページ５０と比較して、２行目と４行目に新たにマークが追加され、また、＄ｆｒｏｍマークのレコードやデータ項目の指定が”ｒｅｅｃｏｒｄ”・”ｔａｂｌｅ０”や”ｄａｔａ０”といった自動的に生成された名称になっている。

このように、抽出対象を既存ＷＷＷページサンプルのＨＴＭＬソース４０のタグ以外の部分として自動的にマーク付けをし、マーク付ページ５１を作成する場合、本来必要としない部分が抽出対象とされ、抽出対象の名称が機械的に付されたものとなる、といったデメリットがある。

従って、本実施形態では、マーク付ページ５１を自動生成したのちに、不要な部分の削除やレコードやデータ項目の名称の変更、といった処理をユーザインタフェース統合システムの管理者であるユーザが行うことになる。しかし、非常に項目数の多いＷＷＷページを抽出対象とする場合には、マーク付ページの自動生成は、このような処理を補って余りあるメリットがあり、全体としてこの方式を用いることで、マーク付ページの開発効率が向上すると考えられる。

本実施形態によれば、抽出対象となる既存ＷＷＷページサンプルのＨＴＭＬソースから自動的にマーク付ページを作成することができ、ユーザインタフェース統合システムの管理者であるユーザのマーク付ページ作成の手間を省くことができる。

本実施形態によれば、前述したとおり、不要な部分を抽出対象としたマークの除去や、レコードやデータ項目の名称を所望のものに変更する作業は行う必要があるが、マーク付ページをユーザインタフェース統合システムの管理者であるユーザがはじめから手作業で作成する方式に比べ、マーク付ページの開発効率は高く、従って、ＷＷＷページから、マーク付ページの作成を経て、データ抽出定義情報１０２２を生成する処理全般を鑑みれば、高い開発効率を得ることができる。

なお、本実施形態では、繰り返し処理部分が”＜ＴＡＢＬＥ＞”で始まり、”＜／ＴＡＢＬＥ＞”で終了し、レコード開始部分が”＜ＴＲ＞”で始まることを前提としたが、対象となるＷＷＷページの形式に従って、これらの文字列の候補を予め設定することにより、適切にマーク付ページを生成することができる。設定は、ユーザインタフェース統合システムの管理者であるユーザが、入力受付部１０２５ａを介して行う。

＜＜第三の実施形態＞＞
次に、ＷＷＷページ中の抽出対象を、自動的に決定する実施形態について、説明する。本実施形態では、マーク付ページを自動的に生成するために、抽出対象となるＷＷＷページの複数のサンプルを用い、それらの比較を行い、相違する部分の文字列を抽出対象として、その前後にマークを挿入する。対象となるＷＷＷページは、ＨＴＭＬで作成されたものとする。

本実施形態のユーザインタフェース統合システムは、基本的に第一および第二の実施形態と同様である。また、本実施形態のデータ抽出定義情報生成装置１００のマーク付ページ作成部は、基本的に第二の実施形態と同様である。しかし、第二の実施形態の機能に加え、ＷＷＷページ比較処理機能をさらに備える。

図１０は２つの既存ＷＷＷページサンプルのＨＴＭＬソース４１、４２の比較を説明するための図である。ここで、二つのサンプルを比較したときに異なる文字列部分には、下線が引かれている。

図１１は、マーク付ページ作成部が、ＷＷＷページのＨＴＭＬソースの比較によりマーク付ページを自動的に生成する処理のフロー図である。

以下、図１１の処理フロー図に従い、マーク付ページ作成部が、２つの既存ＷＷＷページサンプルのＨＴＭＬソース４１、４２の比較によりマーク付ページ５２を自動的に生成する方法を説明する。なお、本実施形態では、データ抽出定義情報生成部１００ｃは、マーク付ページ５２を用いて、データ抽出定義情報１０２２を生成する。

マーク付ページ作成部は、２つの既存ＷＷＷページサンプルのＨＴＭＬソース４１、４２を先頭部から順に比較し、共通の文字列部分（固定部）と、そうでない部分（変動部）とに分類する（ステップ９０１）。

その後、マーク付ページ作成部は、それぞれの固定部の直後の変動部を確認する（ステップ９０２）。

固定部の直後の変動部が互いに空文字列でない場合、マーク付ページ作成部は、比較対象である既存ＷＷＷページサンプルのＨＴＭＬソース４１、４２の一方の、変動部の直前の固定部の直前にｃｓ属性の$ｆｒｏｍマーク、直後に$ｔｏマークを挿入し、変動部の直後の固定部の直前にｃｅ属性の＄ｆｒｏｍマーク、直後に＄ｔｏマークを挿入し、マーク付ページ５２を作成する。このとき、すでにマークが挿入されている場合は、その既存の$ｔｏマークの直後に$ｆｒｏｍマークと$ｔｏマークを並べて挿入する（ステップ９０３）。

片方の固定部の直後の変動部が空文字列の場合、マーク付ページ作成部は、もう片方の固定部の直後の変動部に対し、繰り返し表現が含まれているか検出処理を行う。具体的には、図１０に示す既存ＷＷＷページサンプルのＨＴＭＬソース４２の７２行目部分の文字列が検出対象の文字列となる。

マーク付ページ作成部は、検出対象の変動部文字列を後ろ側から、直前の固定部群で後ろ側から前に向かって比較適用する。具体的には、”＜／ＴＤ＞＜／ＴＲ＞”、”＜／ＴＤ＞＜ＴＤ＞”、”＜ＴＲ＞＜ＴＤ＞”の順で固定部が適用されることとなる。対象の変動部の最初の文字列が、固定部とマッチするまで繰り返す。対象の変動部の長さが長く、マッチさせる固定部がなくなった場合は、再び、対象の変動部の直前の固定部から比較適用を繰り返す（ステップ９０４）。

マーク付ページ作成部は、対象となった変動部を切り出した固定部群の中に繰り返しパターンが含まれているか検出し、含まれていれば、それをマーク付ページ５２の繰り返しパターンとする。含まれていなければ、対象となった変動部を切り出した固定部群を、そのままマーク付ページ５２の繰り返しパターンとする（ステップ９０５）。

そして、繰り返しパターンの直前の固定部を、繰り返し開始部として、ｔｓ属性の＄ｆｒｏｍマークと＄ｔｏマークとで囲み、マーク付ページ５２を作成する。繰り返しパターンの最初の固定部を、レコード開始部として、ｒｓ属性の＄ｆｒｏｍマークと＄ｔｏマークとで囲み、マーク付ページ５２を作成する。繰り返しパターンの直後の固定部を、繰り返し終了部として、ｔｅ属性の＄ｆｒｏｍマークと＄ｔｏマークとで囲み、マーク付ページ５２を作成する。その他の繰り返しパターンは、ステップ９０３と同様にマークを挿入し、マーク付ページ５２を作成する。

なお、マーク中に設定すべきレコード名称やデータ項目名称は、第二の実施形態と同様の形式で設定する（ステップ９０６）。

上記の処理を各固定部に対し最初から順に行い、処理すべき固定部がなくなったら、本処理の終了とし、マーク付ページ５２を出力する。

なお、上記では、二つの既存ＷＷＷページサンプルのＨＴＭＬソース４１、４２を入力としているが、より多くのＷＷＷページを入力として比較対象とすることにより、本実施形態のマーク付ページ作成部は、変動部を適切に抽出することができ、より適切なマーク付ページを自動的に生成することができる。

図１２は、図１０の二つの既存ＷＷＷページサンプルのＨＴＭＬソース４１、４２を入力とした場合の、本実施形態により出力されるマーク付ページ５２の例である。

本実施形態によれば、図８に示す第二の実施形態の方法により出力されるマーク付ページ５１と同様に、レコード名称やデータ項目名称は機械的に設定されたものとなる。本実施形態でも、第二の実施形態と同様に、不要部分（例えば、図８の４行目”在庫引当”や図８の６行目の”在庫数量”を囲むマーク）の抽出を行わずにマーク付ページを作成し、出力することができる。

この場合、ユーザインタフェース統合システムの管理者であるユーザは、出力されたマーク付ページ５２の、レコード名称やデータ項目名称を所望の名称に変更するだけで適切なマーク付ページに修正することができる。そして、当該マーク付ページを用い、データ抽出定義情報生成部１００ｃにより、データ抽出定義情報１０２２を得ることができる。

本実施形態によれば、適切なマーク付ページを自動的に生成でき、データ抽出定義情報１０２２を生成する処理全般に渡り、自動化をさらに進めることができる。従って、データ抽出定義情報１０２２の開発効率が高まる。

＜＜第四の実施形態＞＞
抽出対象となるＷＷＷページを提供するＷＷＷサーバの処理に、ＪＳＰ（ＪａｖａＳｅｒｖｅｒＰａｇｅｓ）が用いられている場合、そのＪＳＰソースを利用することにより自動的にマーク付ページを出力することができる。

なお、ＪＳＰについては例えばＷＷＷページの「ＪａｖａＳｅｒｖｅｒＰａｇｅｓ（ＴＭ）Ｔｅｃｈｎｏｌｏｇｙ」（ｈｔｔｐ：／／ｊａｖａ．ｓｕｎ．ｃｏｍ／ｐｒｏｄｕｃｔｓ／ｊｓｐ／）に詳しい記載がなされている。ＪＳＰは、ＨＴＭＬファイルの内部にスクリプトで処理を記述し、ＷＷＷブラウザからのリクエストの度にスクリプトをＷＷＷサーバ側で実行し、ＨＴＭＬファイル中のスクリプト部分をその処理結果で置き換えてＷＷＷブラウザに送り出すものである。ＪＳＰによれば、ＨＴＭＬファイルと処理との関連が分かりやすいため、実際の表示イメージを意識しながら動的なコンテンツを作成することができる。

図１３は、図２に示すＨＴＭＬにより作成されたＷＷＷページと同様のＷＷＷページを出力するＪＳＰソースの一例である。

上述のように、ＪＳＰソースはＨＴＭＬソースに対してプログラム処理が挿入された形式になっている。図１３において”＜％”と”％＞”に囲まれた部分がプログラム処理部分に相当する。プログラム処理部分以外のＨＴＭＬ形式の部分はそのままＨＴＭＬとして出力される。

本実施形態は、基本的に第三の実施形態と同様の構成を有する。しかし、本実施形態のデータ抽出定義情報生成装置１００のマーク付ページ作成部は、マーク付ページ作成にあたり、複数のマーク付ページを比較し、変動部を抽出するのではなく、ＪＳＰソースの特性を利用して、変動部を抽出する。

すなわち、本実施形態では、プログラム処理部分のうち、”＜％＝”と”％＞”で囲まれる部分は、その中身を評価した結果の文字列が出力される部分となる。従って、ＪＳＰソースを元にマーク付ページを出力するためには、マーク付ページ作成部は、この”＜％＝”と”％＞”とで囲まれた部分を第三の実施形態における変動部として処理する。

また、繰り返し処理に関しては、ＪＳＰソースでは、”＜％”と”％＞”とで囲まれたプログラム処理部分で、ループ処理が定義されているため、そのループの内側に”＜％＝”と”％＞”とで囲まれる部分がある場合、当該部分を、繰り返し処理として抽出を行うべき対象と考えることができる。すなわち、ループ処理の直前のＨＴＭＬによる記述の断片を繰り返し処理開始部、ループ内のＨＴＭＬ出力の最初の部分をレコードの開始部、ループの直後のＨＴＭＬによる記述の断片を繰り返し処理終了部としてそれぞれ定義することにより、マーク付ページ作成部は、第三の実施形態と同様の処理を行い、所望のマーク付ページを生成することができる。

本実施形態のデータ抽出定義情報生成装置１００のマーク付ページ作成部によれば、第二および第三の実施形態に比べて、より的確に抽出すべき位置および繰り返し処理の位置を特定したマーク付ページを自動生成できる。従って、データ抽出定義情報１０２２の開発効率は高まる。

以上説明したように、上記の第二、第三、第四の実施形態のデータ抽出定義情報生成装置１００は、それぞれの方法に従ってマーク付ページを自動生成し、それに基づいて、データ抽出定義情報１０２２を生成している。しかし、既存ＷＷＷページサンプルのＨＴＭＬソース４０から、直接データ抽出定義情報１０２２を生成してもよい。

具体的には、繰り返し開始部（＄ｆｒｏｍ：ｔｓと＄ｔｏとに囲まれる部分）に相当するマークを生成する場合は、データ抽出定義における「ＬＯＯＰ」の「ＦＲＯＭ」定義を生成し、繰り返し区切り部（＄ｆｒｏｍ：ｒｓと＄ｔｏとに囲まれる部分）に相当するマークを生成する場合は「ＬＯＯＰ」の「ＳＥＰＡＲＡＴＯＲ」定義を生成し、繰り返し終了部（＄ｆｒｏｍ：ｃｓと＄ｔｏとに囲まれる部分）に相当するマークを生成する場合は「ＦＲＯＭ」定義を生成し、項目終了部（＄ｆｒｏｍ：ｃｅと＄ｔｏとに囲まれる部分）に相当するマークを生成する場合は「ＴＯ」定義を生成する。

さらに、第一〜第四の実施形態では、データ抽出部１０２１が、データ抽出定義情報１０２２に従って、複数のＷＷＷページからデータ抽出処理を行うことを前提としている。しかし、データ抽出定義情報１０２２を生成するかわりに、データ抽出定義情報１０２２に従ってデータ抽出部１０２１が行う処理を、そのままコードとして記述したプログラムを生成することもできる。

具体的には、データ抽出定義情報１０２２のどの位置の文字列をどのデータ項目として読み取るかという定義に従い、その処理を直接プログラム化する。

例えば、「ｒｅａｄ（”a”,”b”,”c.d”）；」というコードが対象となる文字列から、文字列”a”と”b”とに囲まれる文字列をデータ項目c.dに抽出する、という処理がなされるとした場合、「ＦＲＯＭ：＝“＜ＴＤ＞” ＴＯ：＝“＜／ＴＤ＞” ＤＡＴＡ＝ｉｎｖｅｎｔｏｒｙ．ｇｏｏｄｓＩＤ」という定義をするところでは、「ｒｅａｄ（“＜ＴＤ＞”，“＜／ＴＤ＞”，“ｉｎｖｅｎｔｏｒｙ．ｇｏｏｄｓＩＤ”）；」というコードを生成する。

また、上記各実施形態においては、データ抽出定義情報１０２２を作成する環境を提供するデータ抽出定義情報生成装置１００と、ユーザインタフェース統合装置１０とが稼動する環境とのネットワーク上の位置については特に制限は設けていない。すなわち、ともにネットワークに接続された同一の装置内に設けられていてもよいし、データ抽出定義情報１０２２を作成する環境を提供するデータ抽出定義情報生成装置１００と、ユーザインタフェース統合装置１０とを、ネットワーク上で離れた位置に設け、ユーザインタフェース統合装置１０に、データ抽出定義情報１０２２をネットワークを用いて送信するよう構成してもよい。後者のネットワーク上の配置を利用することで、リモートでデータ抽出定義情報１０２２を管理する環境を提供することができる。

複数のＷＷＷサーバに業務上必要な情報が分散した環境においては、ユーザインタフェースを統合した環境を構築することにより、ユーザにとって使い勝手の良い情報アクセス環境を提供することができる。

本発明を適用した上記の各実施形態は、このような統合ユーザインタフェース環境を構築するための開発環境を提供するものであり、開発効率を上げるとともに、開発者の負担を軽減するものである。上記各実施形態によれば、複数の子会社や支店を管理する企業における企業内業務情報システムの統合化や、複数のＷＷＷサーバによる銀行口座紹介システムを一つに統合して提供する資産情報一覧システム等の構築に好適な開発環境を提供することができる。

なお、上記第一の実施形態でも記載したが、各実施形態においては、ＨＴＭＬソースあるいは、ＪＳＰソースをそれぞれ例にあげ、説明しているが、本発明の実施形態はこれに限られない。上述のように、所定のデータを抽出可能な構造を有するものであればよい。

図１は、第一の実施形態の全体のシステム構成を表すブロック図である。図２は、第一の実施形態の統合ページの対象となる既存ＷＷＷページのＨＴＭＬソースの一例を示す図である。図３は、第一の実施形態の抽出データに蓄積されるデータのデータ構造の一例を示す図である。図４は、第一の実施形態のデータ抽出定義情報の一例を示す図である。図５は、第一の実施形態のデータ抽出定義情報生成装置の機能構成と、データ抽出定義情報の自動生成処理を説明するための図である。図６は、第一の実施形態のマーク付ページの一例を示す図である。図７は、第一の実施形態のマーク付ページからデータ抽出定義情報を生成する処理の流れを示した処理フローである。図８は、第二の実施形態の自動生成したマーク付ページの一例を示す図である。図９は、第二の実施形態のマーク付ページを自動生成する処理の流れを示した処理フローである。図１０は、第三の実施形態の２つの既存ＷＷＷページサンプルのＨＴＭＬソースの比較を説明するための図である。図１１は、第三の実施形態のマーク付ページを自動生成する処理の流れを示した処理フローである。図１２は、第三の実施形態の自動生成したマーク付ページの一例を示す図である。図１３は、第四の実施形態のＪＳＰソースの一例を示す図である。

符号の説明

１０：ユーザインタフェース統合装置、１００：データ抽出定義情報生成装置、１００ａ：入力受付部、１００ｂ：マーク付与部、１００ｃ：データ抽出定義情報生成部、１０１：クライアント通信部、１０２：データ抽出オブジェクト、１０２１：データ抽出部、１０２２：データ抽出定義情報、１０２３：抽出データ、１０２４：サーバ通信部、２０：ＷＷＷクライアント、３０：ＷＷＷサーバ、４０：ＨＴＭＬソース、４１：ＨＴＭＬソース、４２：ＨＴＭＬソース、５０：マーク付けページ、５１：マーク付けページ、５２：マーク付けページ

Claims

サーバの提供する複数のユーザインタフェースからデータ抽出定義情報に従って生成した統合ユーザインタフェースをクライアントに提供するユーザインタフェース統合装置に、前記データ抽出定義情報を提供するために当該データ抽出定義情報を生成するデータ抽出定義情報生成装置であって、
前記サーバが提供する前記ユーザインタフェースに、前記統合ユーザインタフェースを構成するために必要なデータ項目を抽出するための所定の文字列（以下、マークと呼ぶ。）を付与することにより、マーク付ページを生成するマーク付ページ作成手段と、
前記マーク付ページ作成手段において作成されたマーク付ページを解析し、前記データ抽出定義情報を生成するデータ抽出定義情報生成手段と、を備えること
を特徴とするデータ抽出定義情報生成装置。
請求項１記載のデータ抽出定義情報生成装置であって、
前記ユーザインタフェースに付与するマークの入力を受け付ける入力手段をさらに備え、
前記マーク付ページ作成手段は、前記入力手段で受け付けたマークを、前記ユーザインタフェースに付与することにより、前記マーク付ページを作成すること
を特徴とするデータ抽出定義情報生成装置。
請求項１記載のデータ抽出定義情報生成装置であって、
前記マーク付ページ作成手段は、
前記ユーザインタフェース内の所定の特徴に従って前記マークを付与する箇所および付与する前記マークの種類を決定し、当該決定した箇所に、当該決定した種類のマークを付与することにより、前記マーク付ページを作成すること
を特徴とするデータ抽出定義情報生成装置。
請求項１記載のデータ抽出定義情報生成装置であって、
前記マーク付ページ作成手段は、
前記サーバの提供するユーザインタフェースを複数取得し、取得した複数の前記ユーザインタフェースそれぞれを比較し、相違箇所および共通箇所を特定し、前記相違箇所の前後に前記マークを付与することにより、前記マーク付ページを作成すること
を特徴とするデータ抽出定義情報生成装置。
クライアント及びサーバと接続し、前記サーバの提供する複数のユーザインタフェースから統合ユーザインタフェースを生成し、前記クライアントに提供するユーザインタフェース統合システムであって、
ユーザインタフェース統合装置と、請求項１から４いずれか一項記載のデータ抽出定義情報生成装置とを備え、
前記ユーザインタフェース統合装置は、
前記クライアントから送られたユーザインタフェース要求に応じて、前記サーバに前記ユーザインタフェースの提供を要求する手段と、
前記データ抽出定義情報生成装置によって生成されたデータ抽出定義情報に従って、前記サーバから転送された複数の前記ユーザインタフェースそれぞれから、前記統合ユーザインタフェースを構成するために必要なデータ項目に関するデータを抽出するデータ抽出手段と、
前記抽出したデータを用いて前記統合ユーザインタフェースを生成する手段と、
前記生成した統合ユーザインタフェースを前記クライアントに送信する手段と、を備えること
を特徴とするユーザインタフェース統合システム。
サーバが提供する複数のユーザインタフェースから統合ユーザインタフェースを生成してクライアントに提供する際に用いられるデータ抽出定義情報を生成するデータ抽出定義情報生成方法であって、
前記サーバが提供する前記ユーザインタフェースに、前記統合ユーザインタフェースを構成するために必要なデータ項目を抽出するための所定の文字列（以下、マークと呼ぶ。）を付与することにより、マーク付ページを生成するマーク付ページ作成ステップと、
前記作成されたマーク付ページを解析し、前記データ抽出定義情報を生成するデータ抽出定義情報生成ステップと、を備えること
を特徴とするデータ抽出定義情報生成方法。
請求項６記載のデータ抽出定義情報生成方法であって、
前記マーク付ページ作成ステップにおいて、ユーザからの入力に従って、前記マークを前記ユーザインタフェースに付与すること
を特徴とするデータ抽出定義情報生成方法。
請求項６記載のデータ抽出定義情報生成装置であって、
前記マーク付ページ作成ステップにおいて、前記ユーザインタフェース内の所定の特徴に従って前記マークを付与する箇所および付与する前記マークの種類を決定し、前記マークを前記ユーザインタフェースに付与すること
を特徴とするデータ抽出定義情報生成方法。
請求項６記載のデータ抽出定義情報生成装置であって、
前記マーク付ページ作成ステップにおいて、前記サーバの提供する前記ユーザインタフェースを複数取得し、取得した複数の前記ユーザインタフェースそれぞれを比較し、相違箇所および共通箇所を特定し、前記マークを前記ユーザインタフェースの前記相違箇所の前後に付与すること
を特徴とするデータ抽出定義情報生成方法。
サーバの提供する複数のユーザインタフェースからデータ抽出定義情報に従って生成した統合ユーザインタフェースをクライアントに提供するユーザインタフェース統合装置に前記データ抽出定義情報を提供するために当該データ抽出定義情報を生成するために、コンピュータを、
前記サーバが提供する前記ユーザインタフェースに、前記統合ユーザインタフェースを構成するために必要なデータ項目を抽出するための所定の文字列（以下、マークと呼ぶ。）を付与することにより、マーク付ページを生成するマーク付ページ作成手段と、
前記マーク付ページ作成手段において作成されたマーク付ページを解析し、前記データ抽出定義情報を生成するデータ抽出定義情報生成手段と、して機能させるためのプログラム。