JP2006065467A5 - - Google Patents

Download PDF

Info

Publication number: JP2006065467A5
Authority: JP; Japan
Prior art keywords: page; mark; data extraction; definition information; data
Prior art date: 2004-08-25
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.): Withdrawn

Application number

JP2004245197A

Other languages

English (en)

Other versions

JP2006065467A (ja

Filing date

2004-08-25

Publication date

2007-01-25

2004-08-25 Application filed filed Critical

2004-08-25 Priority to JP2004245197A priority Critical patent/JP2006065467A/ja

2004-08-25 Priority claimed from JP2004245197A external-priority patent/JP2006065467A/ja

2005-06-16 Priority to US11/153,475 priority patent/US20060047693A1/en

2006-03-09 Publication of JP2006065467A publication Critical patent/JP2006065467A/ja

2007-01-25 Publication of JP2006065467A5 publication Critical patent/JP2006065467A5/ja

Status Withdrawn legal-status Critical Current

Links

238000013075 data extraction Methods 0.000 description 137
238000000034 method Methods 0.000 description 42
230000008569 process Effects 0.000 description 27
238000000605 extraction Methods 0.000 description 25
239000000523 sample Substances 0.000 description 20
238000010586 diagram Methods 0.000 description 16
230000010354 integration Effects 0.000 description 16
238000004891 communication Methods 0.000 description 10
239000000047 product Substances 0.000 description 9
230000006870 function Effects 0.000 description 8
230000010365 information processing Effects 0.000 description 7
239000000284 extract Substances 0.000 description 6
230000003252 repetitive effect Effects 0.000 description 6
238000012804 iterative process Methods 0.000 description 5
238000001514 detection method Methods 0.000 description 2
238000005516 engineering process Methods 0.000 description 2
239000012634 fragment Substances 0.000 description 2
230000000717 retained effect Effects 0.000 description 2
230000008859 change Effects 0.000 description 1
210000001072 colon Anatomy 0.000 description 1
238000010276 construction Methods 0.000 description 1
230000007812 deficiency Effects 0.000 description 1
230000007246 mechanism Effects 0.000 description 1
230000004044 response Effects 0.000 description 1

Description

データ抽出定義情報生成装置およびデータ抽出定義情報生成方法

本発明は、複数の情報源から取得したデータを統合してユーザに提示するユーザインタ
フェースの統合時に必要となるデータ抽出定義情報を生成する技術に関し、特にネットワ
ークなどを介し、サーバからクライアントに送付される複数のアプリケーションを、クラ
イアントが利用する場合に好適な技術に関する。

インターネットなどのネットワークにおいて、ＷＷＷ（World Wide Web）をユーザイン
タフェースとして利用したアプリケーションのサービスが行われている。ＷＷＷを利用す
ることによって、アプリケーション毎に専用のクライアントプログラムを用意する必要が
なく、ＷＷＷブラウザさえあれば、ＷＷＷを利用したあらゆるアプリケーションを利用す
ることができる。しかしながら、ＷＷＷを利用した個別のアプリケーションは、たとえア
プリケーション間で共通のデータを扱う処理を行っていても、アプリケーション間でデー
タを連携させる仕組みはなく、ユーザが、それぞれのアプリケーション毎にＷＷＷブラウ
ザの別のウィンドウを開き、データ入力操作をしなければならない。

この問題に対処するために、複数のＷＷＷページを一つに統合した統合ページを、ユー
ザインタフェースとして提供するシステムが開示されている。以下本明細書において、Ｗ
ＷＷサーバが提供するコンテンツであって、ＷＷＷブラウザ上で一度に閲覧できるコンテ
ンツの単位をＷＷＷページと呼び、複数のＷＷＷページ内の所望のコンテンツを抽出して
新たに生成したひとつのＷＷＷページを統合ページと呼ぶ。

このシステムでは、予め統合ページに統合する対象として定義されたＷＷＷページを提
供する既存のＷＷＷサーバにアクセスし、各々のＷＷＷページを取得し、取得したＷＷＷ
ページを予め定義された手順によって解析し、構造をもったデータ形式でデータを抽出し
、該抽出したデータを用いて、予め定義された統合ページの出力手順によって統合ページ
を生成する。統合ページを生成する際、対象となる複数のＷＷＷページの間に共通するデ
ータ項目が存在する場合、該共通するデータ項目をキーとしてマージを行ったテーブルを
統合ページ中に出力を行うよう定義することもできる。

この方法によれば、複数のＷＷＷページ内のデータを、一つの統合ページを構成するデ
ータ項目として利用することができる。例えば、統合ページを構成する複数のＷＷＷペー
ジがそれぞれテーブルを有し、各テーブルに共通するデータ項目がある場合、それらのテ
ーブルをマージしたテーブルを表示する統合ページを提供することができる。また、既存
のＷＷＷページ内のデータを、統合ページを生成する際のデータ項目として利用すること
ができるため、既存のＷＷＷページのレイアウトにとらわれない、柔軟なレイアウトを持
つ統合ページを提供することができる。

特開２００３−３４５６９７号公報

このようにユーザインタフェース統合装置を設けることにより、ユーザは、ひとつの統
合ページにアクセスするだけで、複数のＷＷＷページにより提供されているサービスを統
合したサービスを利用することが出来る。

このシステムでは、ＷＷＷページを統合するために、対象となるＷＷＷページを解析し
、統合ページを生成するために必要な情報を抽出する処理が行われる。この解析処理およ
び抽出処理は、データ抽出定義情報と呼ばれる定義情報に従って自動的に行われる。この
データ抽出定義情報は、システムの管理者が作成する必要があるが、データ抽出定義情報
は、その形式は複雑であり、正確に定義するのは困難であるという課題がある。

本発明は、上記課題を鑑みてなされたものであり、上記統合ページを生成するために、
対象となるＷＷＷページを解析し、必要な情報を抽出するデータ抽出定義情報の作成を自
動化することにより、当該データ抽出定義情報の開発効率を高めるとともに、当該データ
抽出定義情報を生成するものの労力を軽減することを目的とする。

上記目的を達成するために、本発明のデータ抽出定義情報生成装置では、与えられた所
定の形式を有するページから、所定の規則に従って、自動的にデータ抽出定義情報を生成
する。

具体的には、データ抽出定義情報に従って、サーバの提供する複数のユーザインタフェ
ースから生成した統合ユーザインタフェースをクライアントに提供するユーザインタフェ
ース統合装置に、前記データ抽出定義情報を提供するデータ抽出定義情報生成装置であっ
て、前記サーバが提供する前記ユーザインタフェースに、前記統合ユーザインタフェース
を構成するために必要なデータ項目を抽出するための所定の文字列（以下、マークと呼ぶ
。）を付与することにより、マーク付ページを生成するマーク付ページ作成手段と、前記
マーク付ページ作成手段において作成されたマーク付ページを解析し、前記データ抽出定
義情報を生成するデータ抽出定義情報生成手段と、を備えることを特徴とするデータ抽出
定義情報生成装置を提供する。

本発明によれば、統合ページを生成するために必要な情報を抽出するデータ抽出定義情
報を自動的に生成することにより、当該データ抽出定義情報の開発効率を高めるとともに
、当該データ抽出定義情報を生成するものの労力を軽減することができる。

＜＜第一の実施形態＞＞
以下、本発明の実施形態について図面を参照して説明する。はじめに、本実施形態のデ
ータ抽出定義情報生成装置を含むユーザインタフェース統合システムの構成および機能の
概略を述べ、ユーザインタフェース統合システムにおけるデータ抽出定義機能の役割を明
らかにした後、当該機能が必要とするデータ抽出定義情報の詳細を述べる。その後、本実
施形態の詳細を説明する。

本実施形態のユーザインタフェース統合処理の中で用いられるデータ抽出定義情報は、
データ抽出の対象となるＷＷＷページのＨＴＭＬソースのサンプルを用いて、抽出すべき
対象の箇所に「マーク」と呼ばれる特別な文字列を挿入することで作成されるマーク付ペ
ージから自動的に生成される。マークは抽出すべき位置や抽出先のデータ項目を特定する
ための情報を含む文字列である。

本実施形態のデータ抽出定義情報生成装置は、このマーク付ページを解析し、まず、マ
ークの箇所を特定し、次に、データ抽出定義情報を生成するために必要な情報をマークお
よび前後の文字列から特定することで、データ抽出定義情報を自動生成する。すなわち、
本実施形態では、マーク付ページからデータ抽出定義情報を自動生成する環境をユーザイ
ンタフェース統合システムの管理者であるユーザに提供する。これにより、ユーザは、統
合ページを作成するために必須のデータ抽出定義情報を容易に得ることができる。

従来のユーザインタフェース統合システムの管理者は、ＷＷＷページから、直接データ
抽出定義情報を作成する必要があったが、本実施形態では、管理者は、ＷＷＷページから
、簡単に作成することができるマーク付ページを、少なくとも作成すれば、データ抽出定
義情報は、自動的に生成されることとなる。

図１は本実施形態の全体のシステム構成を表すブロック図である。

本実施形態のシステムは、ユーザインタフェース統合装置１０と、ＷＷＷサービスを提
供するＷＷＷサーバ３０と、ＷＷＷサーバ３０によりＷＷＷサービスとして提供されたコ
ンテンツを閲覧するＷＷＷブラウザ２０と、データ抽出定義情報生成装置１００と、を備
える。

ユーザインタフェース統合装置１０は、クライアントであるＷＷＷブラウザ２０からの
要求に応じて、複数のＷＷＷサーバ３０にアクセスし、ＷＷＷサーバ３０から提供される
ＷＷＷページを取得し、取得した複数のＷＷＷページから所望の情報を抽出し、抽出した
情報をもとに、ひとつのＷＷＷページを生成し、これを複数ＷＷＷサーバの提供するＷＷ
Ｗアプリケーションを統合した、統合ユーザインタフェースとなる統合ページとして要求
元のＷＷＷブラウザ２０に返信する。

ユーザインタフェース統合装置１０は、ＷＷＷブラウザ２０とのインタフェースである
クライアント通信部１０１と、ＷＷＷサーバ３０にアクセスし、統合ページの生成に必要
な情報を抽出し、蓄積するデータ抽出オブジェクト１０２と、蓄積された抽出データをも
とに統合ページを生成する統合ページ生成オブジェクト１０３とを備える。

クライアント通信部１０１は、ＷＷＷブラウザ２０から統合ページの生成の要求を受け
、統合ページ生成オブジェクト１０３に通知し、また、統合ページ生成オブジェクト１０
３において生成した統合ページをＷＷＷブラウザ２０に送信する。

統合ページ生成オブジェクト１０３は、統合ページを生成する。クライアント通信部１
０１を介して受け取った統合ページ生成の要求をデータ抽出オブジェクト１０２に受け渡
す。また、統合ページのレイアウト方法を定義してある統合ページ定義情報を有し、統合
ページの生成の要求に従って、データ抽出オブジェクト１０２が抽出したデータを利用し
て統合ページを生成し、生成した統合ページをクライアント通信部１０１を介してＷＷＷ
ブラウザ２０に送信する。

データ抽出オブジェクト１０２は、ユーザインタフェース統合装置１０に接続されるＷ
ＷＷサーバ３０の数だけ用意される。ここでは、その中の一つを代表として取り上げ、説
明する。データ抽出オブジェクト１０２は、データ抽出部１０２１と、データ抽出定義情
報１０２２と、抽出したデータを保持する抽出データ保持部１０２３と、サーバ通信部１
０２４と、を備える。

サーバ通信部１０２４は、ＷＷＷサーバ３０とのインタフェースであり、ＷＷＷサーバ
３０にＷＷＷページ取得のリクエストを送信し、その結果、ＷＷＷサーバ３０が生成し返
信するＷＷＷページを受信する。

データ抽出定義情報１０２２は、取得したＷＷＷページから必要な情報を抽出する際の
抽出方法を示す情報である。

データ抽出部１０２１は、データ抽出定義情報１０２２に従って、取得したＷＷＷペー
ジから必要な情報を抽出し、抽出したデータを、抽出データ１０２３に蓄積する。

データ抽出定義情報生成装置１００は、サーバ通信部１０２４が受信したＷＷＷページ
から、データ抽出定義情報を生成する。すなわち、対象となるユーザインタフェースの情
報のうち、抽出すべき部分に、抽出先のデータ項目を定義した情報を挿入したデータ抽出
定義付ユーザインタフェース情報を用意する。そして、データ抽出定義付ユーザインタフ
ェースから情報を抽出するための、抽出箇所や抽出先のデータ項目を定義したデータ抽出
定義情報を、前記データ抽出定義付ユーザインタフェース情報に基づいて生成する。詳細
は、以下に説明する。

データ抽出定義情報生成装置１００の詳細な構成を説明する前に、具体的なＷＷＷペー
ジを例にとり、本実施形態のデータ抽出定義情報１０２２および抽出対象となるＷＷＷペ
ージの詳細を説明する。

図２は統合ページの対象となる、ＷＷＷサーバ３０の提供する既存ＷＷＷページの一例
のＨＴＭＬソース４０である。この既存ＷＷＷページの例は在庫管理システムのユーザイ
ンタフェースとして提供されるものであり、管理対象の商品の在庫数を示したものであり
、商品ＩＤと在庫数量とのデータ項目からなるレコードを３行持つ表の構造になっている
。統合ページを生成する際に必要な情報として、商品ＩＤとその在庫数量との情報を取得
するものとする（図２において、下線で示した部分が相当する）。

なお、サーバ通信部１０２４を介して取得したＷＷＷページからデータ抽出部１０２１
が抽出したデータは、抽出データ１０２３に蓄積される。図３は、抽出データ１０２３に
蓄積されるデータのデータ構造の一例を示す。本実施形態では、在庫数量を示すレコード
を”ｉｎｖｅｎｔｏｒｙ”、商品ＩＤを示すデータ項目を”ｇｏｏｄＩＤ”、在庫数量を
示すデータ項目を”ｑｕａｎｔｉｔｙ”として蓄積することとする。

図４は、データ抽出定義情報１０２２の一例であり、ＨＴＭＬソース４０から商品ＩＤ
とその在庫数量とを抽出するための定義がなされたものである。ただし、説明のため左端
に行番号を示してある。

１行目は商品ＩＤと在庫数量とのデータ項目をもつレコードを一つずつ繰り返し抽出す
るための定義がなされている。具体的には、ＦＲＯＭに定義される”在庫数量”の文字列
以降で、ＴＯに定義される”＜／ＴＡＢＬＥ＞”の文字列までの範囲内で、ＳＥＰＡＲＡ
ＴＯＲで定義される”＜ＴＲ＞”で示す文字列から始まるレコード部分を、繰り返し、Ｒ
ＥＣＯＲＤで定義される”ｉｎｖｅｎｔｏｒｙ”と名付けられた、抽出データ１０２３の
レコードに抽出する、という定義がなされている。

２、３行目では繰り返し処理のなかで、商品ＩＤと在庫数量とを抽出するための定義が
なされている。２行目は、ＦＲＯＭで定義される文字列”＜ＴＤ＞”とＴＯで定義される
文字列”＜／ＴＤ＞”の間にある文字列（すなわち商品ＩＤ情報）を”ｉｎｖｅｎｔｏｒ
ｙ”レコードの”ｇｏｏｄｓＩＤ”と名付けられたデータ項目に抽出する、という定義が
なされており、３行目は、ＦＲＯＭで定義される（直前の”＜／ＴＤ＞”の次の位置にあ
る）文字列”＜ＴＤ＞”とＴＯで定義される文字列”＜／ＴＤ＞”の間にある文字列（す
なわち在庫数量情報）を”ｉｎｖｅｎｔｏｒｙ”レコードの”ｑｕａｎｔｉｔｙ”と名付
けられたデータ項目に抽出する、という定義がなされている。

４行目はレコード内のデータ項目の抽出処理が３行目までで終了することを意味してい
る。

なお、図４で示すデータ抽出定義情報１０２２に従って、データ抽出部１０２１が、Ｈ
ＴＭＬソース４０から、抽出データとして、抽出データ保持部１０２３に図３で示すデー
タ構造で抽出する手順については、特許文献１（特開２００３−３４５６９７号公報）に
詳しく記載されているため、ここでは記載しない。ただし、特許文献１では、このデータ
抽出定義情報１０２２は、システムの管理者が作成する。

以下、データ抽出定義情報生成装置１００が、このＨＴＭＬソース４０からなるＷＷＷ
ページのサンプルを用いて、データ抽出定義情報１０２２を自動的に生成する方法につい
て説明する。

図５は、データ抽出定義情報生成装置１００の機能構成と、データ抽出定義情報生成装
置１００によるデータ抽出定義情報１０２２の自動生成処理を説明するための図である。

本図に示すように、本実施形態のデータ抽出定義情報生成装置１００は、ユーザからの
指示および入力を受け付ける入力受付部１００ａと、取得したＷＷＷページサンプルのＨ
ＴＭＬソース４０に、後述する「マーク」を付与するマーク付与部１００ｂと、データ抽
出定義情報生成部１００ｃとを備える。

データ抽出定義情報生成部１００ｃは、マーク付与部１００ｂによって生成されたマー
ク付ページ５０から、データ抽出定義情報１０２２を自動生成する。

ここで、マーク付ページ５０は、既存ＷＷＷページサンプルのＨＴＭＬソース４０に対
し、マークと呼ばれる特別な文字列を挿入したものである。

マークは、前述したように、既存ＷＷＷページサンプルのＨＴＭＬソース４０からデー
タを抽出する位置と、抽出したデータの抽出データ保持部１０２３への蓄積形式とを示す
ために用いられる文字列である。

このマークを既存ＷＷＷページサンプルのＨＴＭＬソース４０に挿入したマーク付ペー
ジ５０の一例を図６に示す。以下、マークの種類および使い方を説明する。ただし、図６
には、説明のため左端に行番号を示す。

図６において、マークはＨＴＭＬのコメントタグの形式であり、“＜！−−”と”−−
＞”で囲まれる文字列で表現されている。本図においては、該当する文字列に下線を引き
、示す。

マークは＄ｆｒｏｍと＄ｔｏの２種類ある。抽出対象の文字列の位置を示す手がかりと
なる文字列（四角で囲んである文字列で示している）の直前に＄ｆｒｏｍ形式のマーク、
を直後に＄ｔｏ形式のマークを配置するのが基本的なマークの使い方となる。

また、＄ｆｒｏｍ形式のマークには属性がいくつかある。各属性は、＄ｆｒｏｍ形式の
マークの後ろにコロン（：）を付して属性情報を付加することにより、記述される。

属性情報がｔｓである場合（以後、ｔｓ属性と呼ぶ。他も同様）、直前の＄ｆｒｏｍ形
式のマークが、繰り返しレコードを抽出する際の開始文字列を特定するマークであること
を示し、属性情報がｔｅである場合は、繰り返しレコードを抽出する際の終了文字列を特
定するマークであることを示し、属性情報がｒｓである場合は、繰り返しレコードを抽出
する際のレコードの開始文字列を特定するマークであることを示し、属性情報がｃｓであ
る場合は、レコード中のデータ項目を抽出する際の開始文字列を特定するマークであるこ
とを示し、属性情報がｃｅである場合は、レコード中のデータ項目を抽出する際の終了文
字列を特定するマークであることを示す。

さらにｒｓ属性である場合、抽出先のレコード名称の情報として保持するマークである
ことを示し、ｃｓ属性の場合、抽出先のレコード名称およびデータ項目名称の情報として
保持するマークであることを示す。

マーク付ページ５０の６行目において、ｔｓ属性の＄ｆｒｏｍマークと＄ｔｏマークで
「在庫数量」部分の文字列が囲まれている。これは、図４のデータ抽出定義情報１０２２
の１行目のＦＲＯＭにおいて繰り返し処理の開始文字列として「在庫数量」を定義してい
ることに相当する。

マーク付ページ５０の７行目において、ｒｓ属性の＄ｆｒｏｍマークと＄ｔｏマークで
「＜ＴＲ＞」部分の文字列が囲まれている。これは、図４のデータ抽出定義情報１０２２
の１行目のＳＥＰＡＲＡＴＯＲにおいて、レコードの開始文字列として「＜ＴＲ＞」を定
義していることに相当する。

また、同じく７行目の＄ｆｒｏｍマークでは、レコード情報として”ｉｎｖｅｎｔｏｒ
ｙ”が指定されている。これは、図４のデータ抽出定義情報１０２２の１行目のＤＡＴＡ
において抽出先レコードとして「ｉｎｖｅｎｔｏｒｙ」を定義していることに相当する。

マーク付ページ５０の８行目において、ｃｓ属性の＄ｆｒｏｍマークと＄ｔｏマークで
「＜ＴＤ＞」部分の文字列が囲まれている。これは、図４のデータ抽出定義情報１０２２
の２行目のＦＲＯＭにおいてデータ項目の読み取り位置の開始文字列として「＜ＴＤ＞」
を定義していることに相当する。

また、同じく８行目のｆｒｏｍマークでは、レコードおよびデータ項目の情報として”
ｉｎｖｅｎｔｏｒｙ．ｇｏｏｄｓＩＤ”が指定されているが、これは、図４のデータ抽出
定義情報１０２２の２行目のＤＡＴＡにおいてレコード”ｉｎｖｅｎｔｏｒｙ”のデータ
項目”ｇｏｏｄｓＩＤ”を抽出先として設定していることに相当する。

マーク付ページ５０の９行目において、ｃｅ属性の＄ｆｒｏｍマークと＄ｔｏマークで
「＜／ＴＤ＞」部分の文字列が囲まれている。これは、図４のデータ抽出定義情報１０２
２の２行目のＴＯにおいて繰り返し処理の終了文字列として「＜／ＴＤ＞」を定義してい
ることに相当する。

マーク付ページ５０の１０、１１行目では８、９行目と同様に、図４のデータ抽出定義
情報１０２２の３行目のデータ項目の読み取りに関する情報が定義されている。

マーク付ページ５０の１４行目においてｔｅ属性の＄ｆｒｏｍマークと＄ｔｏマークで
「＜／ＴＡＢＬＥ＞」部分の文字列が囲まれている。これは、図４のデータ抽出定義情報
１０２２の１行目のＴＯにおいて繰り返し処理の終了文字列として「＜／ＴＡＢＬＥ＞」
を定義していることに相当する。

以上に示すように、マーク付ページ５０によれば、データ抽出定義情報１０２２が持つ
情報を過不足なく定義することができる。

図７は、マーク付ページ５０からデータ抽出定義情報１０２２を生成する、データ抽出
定義情報生成部１００ｃの処理の流れを示した処理フロー図である。以下、図７の処理フ
ロー図に従い、データ抽出定義情報生成部１００ｃが、上記マーク付ページ５０からデー
タ抽出定義情報１０２２を生成する処理手順を説明する。

ここで、データ抽出定義情報生成部１００ｃは、後述する、データ抽出定義情報１０２
２のＬＯＯＰ：行の行番号を格納するループ情報処理用スタック（不図示）を備える。

はじめに、データ抽出定義情報生成部１００ｃは、マーク付ページ５０を入力とし（ス
テップ７０１）、初期化処理を行う（ステップ７０２）。初期化処理はループ情報処理用
スタックを空にし、マーク付ページ５０を読み取る読み取りカーソルの位置をマーク付ペ
ージ５０の先頭部分に置くものである。

その後、現在の読み取りカーソルの位置以降でもっとも近い位置の＄ｆｒｏｍの形式の
マークを検出し、その位置まで読み取りカーソルの位置を移動させ、読み取りを開始する
（ステップ７０３）。＄ｆｒｏｍの属性によって、その後の処理は以下のように振り分け
られる。それぞれ処理が終わったあとは再びステップ７０３から処理を繰り返す。

ｔｓ属性の場合、データ抽出定義情報１０２２に「ＬＯＯＰ：」行を生成し、データ抽
出定義情報１０２２の「ＬＯＯＰ：」行の行番号をループ情報処理用スタックに格納する
(プッシュする)。次に、現在のカーソルの位置以降で初めて出現する＄ｔｏマークを検出
し、元のカーソルの位置から＄ｔｏマークを検出した位置の間の文字列をデータ抽出定義
情報１０２２のＦＲＯＭに設定し、現在のカーソルの位置を、＄ｔｏマークの直後の位置
に移動させる（ステップ７０４１，７０４２）。

ｔｅ属性の場合、現在のカーソルの位置以降に初めて出現する＄ｔｏマークを検出し、
元のカーソルの位置から＄ｔｏマークを検出した位置の間の文字列を読み取る。ループ情
報処理用スタックに格納されている行番号を取り出し（ポップし）、データ抽出定義情報
１０２２の当該行番号の「ＬＯＯＰ：」行のＴＯに、上記で読み取った文字列を設定し、
現在のカーソルの位置を、＄ｔｏマークの直後の位置に移動させる（ステップ７０５１，
７０５２）。

ｒｓ属性の場合、現在のカーソルの位置以降に初めて出現する＄ｔｏマークを検出し、
元のカーソルの位置から＄ｔｏマークを検出した位置の間の文字列を読み取る。データ抽
出定義情報１０２２の、ループ情報処理用スタックに格納されている行番号で特定される
「ＬＯＯＰ：」行のＳＥＰＡＲＡＴＯＲに、上記で読み取った文字列を設定し、現在のカ
ーソルの位置を、＄ｔｏマークの直後の位置に移動させる（ステップ７０６１、７０６２
）。

ｃｓ属性の場合、現在のカーソルの位置以降に初めて出現する＄ｔｏマークを検出し、
元のカーソルの位置から＄ｔｏマークを検出した位置の間の文字列を、データ抽出定義情
報１０２２の、新規データ読み取り行のＦＲＯＭに設定し、現在のカーソルの位置を、＄
ｔｏマークの直後の位置に移動させる（ステップ７０７１、７０７２）。

ｃｅ属性の場合、現在のカーソルの位置以降に初めて出現する＄ｔｏマークを検出し、
元のカーソルの位置から＄ｔｏマークを検出した位置の間の文字列を、データ抽出定義情
報１０２２の、直前で生成したデータ読み取り行のＴＯに設定し、現在のカーソルの位置
を、＄ｔｏマークの直後の位置に移動させる（ステップ７０８１、７０８２）。

上記の処理において、＄ｆｒｏｍマークの検出を試みたにも係わらず、該当マークが検
出されずマーク付ソース５０の最後に到達した場合、処理を終了し、処理結果として、生
成したデータ抽出定義情報１０２２を出力する（ステップ７０９１、ステップ７１０）。

＄ｆｒｏｍマークの属性が上記の属性のどれにもあてはまらない場合や、＄ｔｏマーク
の検出処理中に＄ｔｏが検出されずマーク付ソース５０の最後まで到達した場合、マーク
付の規則に従わないマーク付ソース５０として判定し、データ抽出定義情報１０２２は出
力せず、処理を終了する（ステップ７０９２、ステップ７１０）。

以上のように、本実施形態によれば、データ抽出定義情報生成部１００ｃが、マーク付
ソース５０を読み取ることにより、付与されているマークに従って、抽出対象の文字列の
位置およびデータ抽出定義情報において意味するところを判別することができる。従って
、データ抽出定義情報生成部１００ｃは、この判別結果に基づいて、予め与えられた規則
に従って、データ抽出定義情報を生成することができる。

すなわち、本実施形態によれば、ユーザインタフェース統合システムの管理者であるユ
ーザが、マーク付ソース５０を作成し、それをデータ抽出定義情報生成装置１００に入力
しさえすれば、データ抽出定義情報生成装置１００により、データ抽出定義情報１０２２
は自動的に生成される。

なお、マーク付ソース５０は、ユーザインタフェース統合装置１０の管理者であるユー
ザが、データ抽出定義情報生成装置１００が備える入力受付部１００ａを介して受け付け
たマークを、マーク付与部１００ｂが既存ＷＷＷページサンプルのＨＴＭＬソース４０に
付与する等の手段により作成される。

マーク付ソース５０の作成は、既存の技術により平易な処理で行うことができるため、
データ抽出定義情報１０２２を直接作成するのに比べはるかに容易である。従って、本実
施形態によれば、既存のＷＷＷページサンプルのＨＴＭＬソース４０からデータ抽出定義
情報１０２２を容易に開発することができる。

なお、本実施形態では、抽出対象のＷＷＷページは、ＨＴＭＬで作成されたものに限ら
れない。例えば、ＣＳＶファイルなどであってもよい。

また、本実施形態のデータ抽出定義情報生成装置１００は、ＣＰＵ、メモリ等を備える
、一般的な情報処理装置により構成される。メモリには、ＷＷＷサーバ３０から取得した
既存のＷＷＷページサンプルのＨＴＭＬソース４０、マーク付ページ５０、各機能を実現
するプログラム等が格納される。ＣＰＵは、必要に応じて、メモリからプログラムを読み
込み、実行することにより、上記機能を実現する。

さらに、本実施形態では、ユーザインタフェース統合装置１０と、データ抽出定義情報
生成装置１００とを別個の装置として記載したが、本構成に限られない。例えば、一の情
報処理装置内で両装置の機能が実現されていてもよい。

＜＜第二の実施形態＞＞
第一の実施形態では、マーク付ソース５０の作成をユーザインタフェース統合システム
の管理者であるユーザが行っていた。抽出対象のＷＷＷページがＨＴＭＬで作成されたも
のの場合、タグ以外の部分を抽出対象として自動的にマーク付ページ５０を生成すること
ができる。本実施形態では、抽出対象がＨＴＭＬで作成されたＷＷＷページであり、マー
ク付ソース５０の作成も自動化される場合を例にあげて説明する。

本実施形態のユーザインタフェース統合システムは、基本的に第一の実施形態のユーザ
インタフェース統合システムと同様の構成を有する。しかし、本実施形態のデータ抽出定
義情報生成装置１００は、さらに、マーク付ページ作成部（不図示）を備える。

図８は、既存ＷＷＷページサンプルのＨＴＭＬソース４０から、タグ以外の部分を抽出
対象として、自動生成したマーク付ページ５１の一例を示す図である。ただし、説明のた
め、マーク部分に下線を付けて示し、左端に行番号を示してある。

本実施形態では、データ抽出定義情報生成部１００ｃは、第一の実施形態のマーク付ペ
ージ５０の代わりに、このマーク付ページ５１から、データ抽出定義情報を生成する。

図９は、マーク付ページ作成部が、既存ＷＷＷページサンプルのＨＴＭＬソース４０か
ら、タグ以外の部分を抽出対象として、マーク付ページ５１を自動生成する場合の処理の
流れを示した処理フロー図である。以下、図９の処理フロー図に従い、マーク付ページ作
成部が、タグ以外の部分を抽出対象としてマーク付ページを自動生成する処理手順を説明
する。

ここで、マーク付ページ作成部は、後述するレコード名称用のカウンタ（以下、レコー
ド名称カウンタと呼ぶ。）とデータ項目名称用のカウンタ（以下、データ項目名称カウン
タと呼ぶ。）とを備える。

はじめに、抽出対象となる既存ＷＷＷページサンプルのＨＴＭＬソース４０を入力とし
（ステップ８０１）、初期化処理を行う（ステップ８０２）。初期化処理は既存ＷＷＷペ
ージサンプルのＨＴＭＬソース４０を読み取る読み取りカーソルの位置を当該サンプルの
先頭部分に置き、レコード名称カウンタとデータ項目名称カウンタとを０にする処理を行
う。

現在の読み取りカーソルの位置以降でもっとも近い位置にあるタグ以外の文字列（”＜
”と”＞”に囲まれていない文字列）を検出する（ステップ８０３）。

このとき、検出ができなければ本処理は終了とし、ここまでに作成したマーク付ページ
５０を出力する（ステップ８０６）。

検出できた場合、直前のタグが「＜ＴＤ＞」であるかどうかを調べる（ステップ８０４
）。

直前のタグが「＜ＴＤ＞」でない場合、マーク付ページ５１として、直前のタグをｃｓ
属性の$ｆｒｏｍマークと$ｔｏマークで、直後のタグをｃｅ属性の$ｆｒｏｍマークと$ｔ
ｏマークで囲むように定義する。このときｃｓ属性の＄ｆｒｏｍマークには抽出先レコー
ド名称として、”ｒｅｃｏｒｄ”を定義し、抽出先データ項目名称として、”ｄａｔａ”
に続き、データ項目名称カウンタの値を文字列にしたものを接続したものを定義する。そ
ののちデータ項目名称カウンタの値を１増加する（ステップ８０５１）。

直前のタグが「＜ＴＤ＞」の場合、マーク付ページ５１として、直前の＜ＴＨ＞、＜／
ＴＨ＞で囲まれる文字列もしくは直前の＜ＴＡＢＬＥ＞を繰り返し開始部として、ｔｓ属
性の＄ｆｒｏｍマークと＄ｔｏマークで囲むように定義する。また、直前の＜ＴＲ＞をレ
コード開始部としてｒｓ属性の＄ｆｒｏｍマークと＄ｔｏマークで囲むように定義する。

このときレコード名称として”ｔａｂｌｅ”に続き、レコード名称カウンタの値を文字
列にしたものを接続したものを定義する。例えば、図８のマーク付ページ５１の７行目に
おけるｒｓ属性の＄ｆｒｏｍマークでは、レコード名称を“ｔａｂｌｅ０”として定義し
ている。

そして、直後の＜／ＴＡＢＬＥ＞を繰り返し終了部としてｔｅ属性の＄ｆｒｏｍマーク
と＄ｔｏマークとで囲むように定義する。上記＜／ＴＡＢＬＥ＞に対する繰り返し終了部
としてマークを挿入する処理はすでに同じ文字列に対し所定のマークが設定されている場
合は行わない。

最後に当該文字列の直前の＜ＴＤ＞タグをｃｓ属性の$ｆｒｏｍマークと$ｔｏマークで
、直後の＜／ＴＤ＞タグをｃｅ属性の$ｆｒｏｍマークと$ｔｏマークで囲むように定義す
る。

このときｃｓ属性の＄ｆｒｏｍマークには抽出先レコード名称として、”ｔａｂｌｅ”
につづき、レコード名称カウンタの値を文字列にしたものを接続したものを定義し、抽出
先データ項目名称として、”ｄａｔａ”につづき、データ項目名称カウンタの値を文字列
にしたものを接続したものを定義する。例えば、図８のマーク付ページ５１の８行目にお
けるｃｓ属性の＄ｆｒｏｍマークではレコード名称を”ｔａｂｌｅ０”、データ項目名称
を”ｄａｔａ２”として定義している。そののちデータ項目名称用のカウンタの値を１増
加する。

そして、現在カーソルの直後の＜／ＴＲ＞より前に＜ＴＤ＞タグがない場合、現在カー
ソル位置を現在カーソル位置以降の＜／ＴＡＢＬＥ＞タグの直後に配置し、レコード名称
カウンタの値を１増加する。

現在カーソルの直後の＜／ＴＲ＞より前に＜ＴＤ＞タグがある場合、現在カーソル位置
を現在カーソルの直後の＜／ＴＤ＞の直後の位置に配置する（ステップ８０５２）。

そして再びステップ８０３から処理を繰り返す。

図８に示す自動生成したマーク付ページ５１は、図６に示すマーク付ページ５０と比較
して、２行目と４行目に新たにマークが追加され、また、＄ｆｒｏｍマークのレコードや
データ項目の指定が”ｒｅｃｏｒｄ”・”ｔａｂｌｅ０”や”ｄａｔａ０”といった自
動的に生成された名称になっている。

このように、抽出対象を既存ＷＷＷページサンプルのＨＴＭＬソース４０のタグ以外の
部分として自動的にマーク付けをし、マーク付ページ５１を作成する場合、本来必要とし
ない部分が抽出対象とされ、抽出対象の名称が機械的に付されたものとなる、といったデ
メリットがある。

従って、本実施形態では、マーク付ページ５１を自動生成したのちに、不要な部分の削
除やレコードやデータ項目の名称の変更、といった処理をユーザインタフェース統合シス
テムの管理者であるユーザが行うことになる。しかし、非常に項目数の多いＷＷＷページ
を抽出対象とする場合には、マーク付ページの自動生成は、このような処理を補って余り
あるメリットがあり、全体としてこの方式を用いることで、マーク付ページの開発効率が
向上すると考えられる。

本実施形態によれば、抽出対象となる既存ＷＷＷページサンプルのＨＴＭＬソースから
自動的にマーク付ページを作成することができ、ユーザインタフェース統合システムの管
理者であるユーザのマーク付ページ作成の手間を省くことができる。

本実施形態によれば、前述したとおり、不要な部分を抽出対象としたマークの除去や、
レコードやデータ項目の名称を所望のものに変更する作業は行う必要があるが、マーク付
ページをユーザインタフェース統合システムの管理者であるユーザがはじめから手作業で
作成する方式に比べ、マーク付ページの開発効率は高く、従って、ＷＷＷページから、マ
ーク付ページの作成を経て、データ抽出定義情報１０２２を生成する処理全般を鑑みれば
、高い開発効率を得ることができる。

なお、本実施形態では、繰り返し処理部分が”＜ＴＡＢＬＥ＞”で始まり、”＜／ＴＡ
ＢＬＥ＞”で終了し、レコード開始部分が”＜ＴＲ＞”で始まることを前提としたが、対
象となるＷＷＷページの形式に従って、これらの文字列の候補を予め設定することにより
、適切にマーク付ページを生成することができる。設定は、ユーザインタフェース統合シ
ステムの管理者であるユーザが、入力受付部１０２５ａを介して行う。

＜＜第三の実施形態＞＞
次に、ＷＷＷページ中の抽出対象を、自動的に決定する実施形態について、説明する。
本実施形態では、マーク付ページを自動的に生成するために、抽出対象となるＷＷＷペー
ジの複数のサンプルを用い、それらの比較を行い、相違する部分の文字列を抽出対象とし
て、その前後にマークを挿入する。対象となるＷＷＷページは、ＨＴＭＬで作成されたも
のとする。

本実施形態のユーザインタフェース統合システムは、基本的に第一および第二の実施形
態と同様である。また、本実施形態のデータ抽出定義情報生成装置１００のマーク付ペー
ジ作成部は、基本的に第二の実施形態と同様である。しかし、第二の実施形態の機能に加
え、ＷＷＷページ比較処理機能をさらに備える。

図１０は２つの既存ＷＷＷページサンプルのＨＴＭＬソース４１、４２の比較を説明す
るための図である。ここで、二つのサンプルを比較したときに異なる文字列部分には、下
線が引かれている。

図１１は、マーク付ページ作成部が、ＷＷＷページのＨＴＭＬソースの比較によりマー
ク付ページを自動的に生成する処理のフロー図である。

以下、図１１の処理フロー図に従い、マーク付ページ作成部が、２つの既存ＷＷＷペー
ジサンプルのＨＴＭＬソース４１、４２の比較によりマーク付ページ５２を自動的に生成
する方法を説明する。なお、本実施形態では、データ抽出定義情報生成部１００ｃは、マ
ーク付ページ５２を用いて、データ抽出定義情報１０２２を生成する。

マーク付ページ作成部は、２つの既存ＷＷＷページサンプルのＨＴＭＬソース４１、４
２を先頭部から順に比較し、共通の文字列部分（固定部）と、そうでない部分（変動部）
とに分類する（ステップ９０１）。

その後、マーク付ページ作成部は、それぞれの固定部の直後の変動部を確認する（ステ
ップ９０２）。

固定部の直後の変動部が互いに空文字列でない場合、マーク付ページ作成部は、比較対
象である既存ＷＷＷページサンプルのＨＴＭＬソース４１、４２の一方の、変動部の直前
の固定部の直前にｃｓ属性の$ｆｒｏｍマーク、直後に$ｔｏマークを挿入し、変動部の直
後の固定部の直前にｃｅ属性の＄ｆｒｏｍマーク、直後に＄ｔｏマークを挿入し、マーク
付ページ５２を作成する。このとき、すでにマークが挿入されている場合は、その既存の
$ｔｏマークの直後に$ｆｒｏｍマークと$ｔｏマークを並べて挿入する（ステップ９０３
）。

片方の固定部の直後の変動部が空文字列の場合、マーク付ページ作成部は、もう片方の
固定部の直後の変動部に対し、繰り返し表現が含まれているか検出処理を行う。具体的に
は、図１０に示す既存ＷＷＷページサンプルのＨＴＭＬソース４２の７２行目部分の文字
列が検出対象の文字列となる。

マーク付ページ作成部は、検出対象の変動部文字列を後ろ側から、直前の固定部群で後
ろ側から前に向かって比較適用する。具体的には、”＜／ＴＤ＞＜／ＴＲ＞”、”＜／Ｔ
Ｄ＞＜ＴＤ＞”、”＜ＴＲ＞＜ＴＤ＞”の順で固定部が適用されることとなる。対象の変
動部の最初の文字列が、固定部とマッチするまで繰り返す。対象の変動部の長さが長く、
マッチさせる固定部がなくなった場合は、再び、対象の変動部の直前の固定部から比較適
用を繰り返す（ステップ９０４）。

マーク付ページ作成部は、対象となった変動部を切り出した固定部群の中に繰り返しパ
ターンが含まれているか検出し、含まれていれば、それをマーク付ページ５２の繰り返し
パターンとする。含まれていなければ、対象となった変動部を切り出した固定部群を、そ
のままマーク付ページ５２の繰り返しパターンとする（ステップ９０５）。

そして、繰り返しパターンの直前の固定部を、繰り返し開始部として、ｔｓ属性の＄ｆ
ｒｏｍマークと＄ｔｏマークとで囲み、マーク付ページ５２を作成する。繰り返しパター
ンの最初の固定部を、レコード開始部として、ｒｓ属性の＄ｆｒｏｍマークと＄ｔｏマー
クとで囲み、マーク付ページ５２を作成する。繰り返しパターンの直後の固定部を、繰り
返し終了部として、ｔｅ属性の＄ｆｒｏｍマークと＄ｔｏマークとで囲み、マーク付ペー
ジ５２を作成する。その他の繰り返しパターンは、ステップ９０３と同様にマークを挿入
し、マーク付ページ５２を作成する。

なお、マーク中に設定すべきレコード名称やデータ項目名称は、第二の実施形態と同様
の形式で設定する（ステップ９０６）。

上記の処理を各固定部に対し最初から順に行い、処理すべき固定部がなくなったら、本
処理の終了とし、マーク付ページ５２を出力する。

なお、上記では、二つの既存ＷＷＷページサンプルのＨＴＭＬソース４１、４２を入力
としているが、より多くのＷＷＷページを入力として比較対象とすることにより、本実施
形態のマーク付ページ作成部は、変動部を適切に抽出することができ、より適切なマーク
付ページを自動的に生成することができる。

図１２は、図１０の二つの既存ＷＷＷページサンプルのＨＴＭＬソース４１、４２を入
力とした場合の、本実施形態により出力されるマーク付ページ５２の例である。

本実施形態によれば、図８に示す第二の実施形態の方法により出力されるマーク付ペー
ジ５１と同様に、レコード名称やデータ項目名称は機械的に設定されたものとなる。本実
施形態でも、第二の実施形態と同様に、不要部分（例えば、図８の４行目”在庫引当”や
図８の６行目の”在庫数量”を囲むマーク）の抽出を行わずにマーク付ページを作成し、
出力することができる。

この場合、ユーザインタフェース統合システムの管理者であるユーザは、出力されたマ
ーク付ページ５２の、レコード名称やデータ項目名称を所望の名称に変更するだけで適切
なマーク付ページに修正することができる。そして、当該マーク付ページを用い、データ
抽出定義情報生成部１００ｃにより、データ抽出定義情報１０２２を得ることができる。

本実施形態によれば、適切なマーク付ページを自動的に生成でき、データ抽出定義情報
１０２２を生成する処理全般に渡り、自動化をさらに進めることができる。従って、デー
タ抽出定義情報１０２２の開発効率が高まる。

＜＜第四の実施形態＞＞
抽出対象となるＷＷＷページを提供するＷＷＷサーバの処理に、ＪＳＰ（ＪａｖａＳ
ｅｒｖｅｒＰａｇｅｓ）が用いられている場合、そのＪＳＰソースを利用することによ
り自動的にマーク付ページを出力することができる。

なお、ＪＳＰについては例えばＷＷＷページの「ＪａｖａＳｅｒｖｅｒＰａｇｅｓ（
ＴＭ）Ｔｅｃｈｎｏｌｏｇｙ」（ｈｔｔｐ：／／ｊａｖａ．ｓｕｎ．ｃｏｍ／ｐｒｏｄｕ
ｃｔｓ／ｊｓｐ／）に詳しい記載がなされている。ＪＳＰは、ＨＴＭＬファイルの内部に
スクリプトで処理を記述し、ＷＷＷブラウザからのリクエストの度にスクリプトをＷＷＷ
サーバ側で実行し、ＨＴＭＬファイル中のスクリプト部分をその処理結果で置き換えてＷ
ＷＷブラウザに送り出すものである。ＪＳＰによれば、ＨＴＭＬファイルと処理との関連
が分かりやすいため、実際の表示イメージを意識しながら動的なコンテンツを作成するこ
とができる。

図１３は、図２に示すＨＴＭＬにより作成されたＷＷＷページと同様のＷＷＷページを
出力するＪＳＰソースの一例である。

上述のように、ＪＳＰソースはＨＴＭＬソースに対してプログラム処理が挿入された形
式になっている。図１３において”＜％”と”％＞”に囲まれた部分がプログラム処理部
分に相当する。プログラム処理部分以外のＨＴＭＬ形式の部分はそのままＨＴＭＬとして
出力される。

本実施形態は、基本的に第三の実施形態と同様の構成を有する。しかし、本実施形態の
データ抽出定義情報生成装置１００のマーク付ページ作成部は、マーク付ページ作成にあ
たり、複数のマーク付ページを比較し、変動部を抽出するのではなく、ＪＳＰソースの特
性を利用して、変動部を抽出する。

すなわち、本実施形態では、プログラム処理部分のうち、”＜％＝”と”％＞”で囲ま
れる部分は、その中身を評価した結果の文字列が出力される部分となる。従って、ＪＳＰ
ソースを元にマーク付ページを出力するためには、マーク付ページ作成部は、この”＜％
＝”と”％＞”とで囲まれた部分を第三の実施形態における変動部として処理する。

また、繰り返し処理に関しては、ＪＳＰソースでは、”＜％”と”％＞”とで囲まれた
プログラム処理部分で、ループ処理が定義されているため、そのループの内側に”＜％＝
”と”％＞”とで囲まれる部分がある場合、当該部分を、繰り返し処理として抽出を行う
べき対象と考えることができる。すなわち、ループ処理の直前のＨＴＭＬによる記述の断
片を繰り返し処理開始部、ループ内のＨＴＭＬ出力の最初の部分をレコードの開始部、ル
ープの直後のＨＴＭＬによる記述の断片を繰り返し処理終了部としてそれぞれ定義するこ
とにより、マーク付ページ作成部は、第三の実施形態と同様の処理を行い、所望のマーク
付ページを生成することができる。

本実施形態のデータ抽出定義情報生成装置１００のマーク付ページ作成部によれば、第
二および第三の実施形態に比べて、より的確に抽出すべき位置および繰り返し処理の位置
を特定したマーク付ページを自動生成できる。従って、データ抽出定義情報１０２２の開
発効率は高まる。

以上説明したように、上記の第二、第三、第四の実施形態のデータ抽出定義情報生成装
置１００は、それぞれの方法に従ってマーク付ページを自動生成し、それに基づいて、デ
ータ抽出定義情報１０２２を生成している。しかし、既存ＷＷＷページサンプルのＨＴＭ
Ｌソース４０から、直接データ抽出定義情報１０２２を生成してもよい。

具体的には、繰り返し開始部（＄ｆｒｏｍ：ｔｓと＄ｔｏとに囲まれる部分）に相当す
るマークを生成する場合は、データ抽出定義における「ＬＯＯＰ」の「ＦＲＯＭ」定義を
生成し、繰り返し区切り部（＄ｆｒｏｍ：ｒｓと＄ｔｏとに囲まれる部分）に相当するマ
ークを生成する場合は「ＬＯＯＰ」の「ＳＥＰＡＲＡＴＯＲ」定義を生成し、繰り返し終
了部（＄ｆｒｏｍ：ｃｓと＄ｔｏとに囲まれる部分）に相当するマークを生成する場合は
「ＦＲＯＭ」定義を生成し、項目終了部（＄ｆｒｏｍ：ｃｅと＄ｔｏとに囲まれる部分）
に相当するマークを生成する場合は「ＴＯ」定義を生成する。

さらに、第一〜第四の実施形態では、データ抽出部１０２１が、データ抽出定義情報１
０２２に従って、複数のＷＷＷページからデータ抽出処理を行うことを前提としている。
しかし、データ抽出定義情報１０２２を生成するかわりに、データ抽出定義情報１０２２
に従ってデータ抽出部１０２１が行う処理を、そのままコードとして記述したプログラム
を生成することもできる。

具体的には、データ抽出定義情報１０２２のどの位置の文字列をどのデータ項目として
読み取るかという定義に従い、その処理を直接プログラム化する。

例えば、「ｒｅａｄ（”a”,”b”,”c.d”）；」というコードが対象となる文字列か
ら、文字列”a”と”b”とに囲まれる文字列をデータ項目c.dに抽出する、という処理が
なされるとした場合、「ＦＲＯＭ：＝“＜ＴＤ＞” ＴＯ：＝“＜／ＴＤ＞” ＤＡＴＡ
＝ｉｎｖｅｎｔｏｒｙ．ｇｏｏｄｓＩＤ」という定義をするところでは、「ｒｅａｄ（“
＜ＴＤ＞”，“＜／ＴＤ＞”，“ｉｎｖｅｎｔｏｒｙ．ｇｏｏｄｓＩＤ”）；」というコ
ードを生成する。

また、上記各実施形態においては、データ抽出定義情報１０２２を作成する環境を提供
するデータ抽出定義情報生成装置１００と、ユーザインタフェース統合装置１０とが稼動
する環境とのネットワーク上の位置については特に制限は設けていない。すなわち、とも
にネットワークに接続された同一の装置内に設けられていてもよいし、データ抽出定義情
報１０２２を作成する環境を提供するデータ抽出定義情報生成装置１００と、ユーザイン
タフェース統合装置１０とを、ネットワーク上で離れた位置に設け、ユーザインタフェー
ス統合装置１０に、データ抽出定義情報１０２２をネットワークを用いて送信するよう構
成してもよい。後者のネットワーク上の配置を利用することで、リモートでデータ抽出定
義情報１０２２を管理する環境を提供することができる。

複数のＷＷＷサーバに業務上必要な情報が分散した環境においては、ユーザインタフェ
ースを統合した環境を構築することにより、ユーザにとって使い勝手の良い情報アクセス
環境を提供することができる。

本発明を適用した上記の各実施形態は、このような統合ユーザインタフェース環境を構
築するための開発環境を提供するものであり、開発効率を上げるとともに、開発者の負担
を軽減するものである。上記各実施形態によれば、複数の子会社や支店を管理する企業に
おける企業内業務情報システムの統合化や、複数のＷＷＷサーバによる銀行口座紹介シス
テムを一つに統合して提供する資産情報一覧システム等の構築に好適な開発環境を提供す
ることができる。

なお、上記第一の実施形態でも記載したが、各実施形態においては、ＨＴＭＬソースあ
るいは、ＪＳＰソースをそれぞれ例にあげ、説明しているが、本発明の実施形態はこれに
限られない。上述のように、所定のデータを抽出可能な構造を有するものであればよい。

図１は、第一の実施形態の全体のシステム構成を表すブロック図である。図２は、第一の実施形態の統合ページの対象となる既存ＷＷＷページのＨＴＭＬソースの一例を示す図である。図３は、第一の実施形態の抽出データに蓄積されるデータのデータ構造の一例を示す図である。図４は、第一の実施形態のデータ抽出定義情報の一例を示す図である。図５は、第一の実施形態のデータ抽出定義情報生成装置の機能構成と、データ抽出定義情報の自動生成処理を説明するための図である。図６は、第一の実施形態のマーク付ページの一例を示す図である。図７は、第一の実施形態のマーク付ページからデータ抽出定義情報を生成する処理の流れを示した処理フローである。図８は、第二の実施形態の自動生成したマーク付ページの一例を示す図である。図９は、第二の実施形態のマーク付ページを自動生成する処理の流れを示した処理フローである。図１０は、第三の実施形態の２つの既存ＷＷＷページサンプルのＨＴＭＬソースの比較を説明するための図である。図１１は、第三の実施形態のマーク付ページを自動生成する処理の流れを示した処理フローである。図１２は、第三の実施形態の自動生成したマーク付ページの一例を示す図である。図１３は、第四の実施形態のＪＳＰソースの一例を示す図である。

符号の説明

１０：ユーザインタフェース統合装置、１００：データ抽出定義情報生成装置、１００ａ
：入力受付部、１００ｂ：マーク付与部、１００ｃ：データ抽出定義情報生成部、１０１
：クライアント通信部、１０２：データ抽出オブジェクト、１０２１：データ抽出部、１
０２２：データ抽出定義情報、１０２３：抽出データ、１０２４：サーバ通信部、２０：
ＷＷＷクライアント、３０：ＷＷＷサーバ、４０：ＨＴＭＬソース、４１：ＨＴＭＬソー
ス、４２：ＨＴＭＬソース、５０：マーク付けページ、５１：マーク付けページ、５２：
マーク付けページ

JP2004245197A 2004-08-25 2004-08-25 データ抽出定義情報生成装置およびデータ抽出定義情報生成方法 Withdrawn JP2006065467A (ja)

Priority Applications (2)

Application Number	Priority Date	Filing Date	Title
JP2004245197A JP2006065467A (ja)	2004-08-25	2004-08-25	データ抽出定義情報生成装置およびデータ抽出定義情報生成方法
US11/153,475 US20060047693A1 (en)	2004-08-25	2005-06-16	Apparatus for and method of generating data extraction definition information

Applications Claiming Priority (1)

Application Number	Priority Date	Filing Date	Title
JP2004245197A JP2006065467A (ja)	2004-08-25	2004-08-25	データ抽出定義情報生成装置およびデータ抽出定義情報生成方法

Publications (2)

Publication Number	Publication Date
JP2006065467A JP2006065467A (ja)	2006-03-09
JP2006065467A5 true JP2006065467A5 (ja)	2007-01-25

Family

ID=35944656

Family Applications (1)

Application Number	Title	Priority Date	Filing Date
JP2004245197A Withdrawn JP2006065467A (ja)	2004-08-25	2004-08-25	データ抽出定義情報生成装置およびデータ抽出定義情報生成方法

Country Status (2)

Country	Link
US (1)	US20060047693A1 (ja)
JP (1)	JP2006065467A (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number	Priority date	Publication date	Assignee	Title
CN101094194B (zh) *	2006-06-19	2010-06-23	腾讯科技（深圳）有限公司	一种提取Web页面中用户所需Web信息的方法
US20080033997A1 (en) *	2006-08-04	2008-02-07	Sap Portals (Israel) Ltd.	Transformation tool for migration of web-based content to portal
CN101589408B (zh)	2007-01-23	2014-03-26	日本电气株式会社	标记生成及标记检测的***、方法和程序
US8402373B2 (en) *	2008-10-10	2013-03-19	Sharp Laboratories Of America, Inc.	Device cloning method for non-programmatic interfaces
US8683311B2 (en) *	2009-12-11	2014-03-25	Microsoft Corporation	Generating structured data objects from unstructured web pages
CA2850268A1 (en) *	2011-10-14	2013-04-18	Open Text S.A.	System and method for secure content sharing and synchronization
US9053201B2 (en)	2012-02-29	2015-06-09	Microsoft Technology Licensing, Llc	Communication with a web compartment in a client application
CN103703467B (zh)	2013-08-29	2017-02-08	华为技术有限公司	存储数据的方法和装置
JP6397105B2 (ja) *	2017-10-05	2018-09-26	華為技術有限公司ＨｕａｗｅｉＴｅｃｈｎｏｌｏｇｉｅｓＣｏ．，Ｌｔｄ．	データを記憶する方法及び装置
CN110909228A (zh) *	2019-11-21	2020-03-24	上海建工集团股份有限公司	一种基于网络爬虫机制的数据抽取方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number	Priority date	Publication date	Assignee	Title
JP3476185B2 (ja) *	1999-12-27	2003-12-10	インターナショナル・ビジネス・マシーンズ・コーポレーション	情報抽出システム、情報処理装置、情報収集装置、文字列抽出方法及び記憶媒体
US20030050969A1 (en) *	2001-03-20	2003-03-13	Sant Philip Anthony	Information integration system
JP2003345697A (ja) *	2002-05-27	2003-12-05	Hitachi Ltd	統合インタフェース提供方法、装置及び記憶媒体

2004
- 2004-08-25 JP JP2004245197A patent/JP2006065467A/ja not_active Withdrawn
2005
- 2005-06-16 US US11/153,475 patent/US20060047693A1/en not_active Abandoned

Publication	Publication Date	Title
US11372935B2 (en)	2022-06-28	Automatically generating a website specific to an industry
US10318628B2 (en)	2019-06-11	System and method for creation of templates
CN106682219B (zh)	2020-07-24	关联文档获取方法及装置
US20090019386A1 (en)	2009-01-15	Extraction and reapplication of design information to existing websites
US7240281B2 (en)	2007-07-03	System, method and program for printing an electronic document
US20160283606A1 (en)	2016-09-29	Method for performing webpage loading, device and browser thereof
JP2005339566A (ja)	2005-12-08	コンテンツを開始テンプレートとターゲットテンプレートとの間でマップするための方法およびシステム
JP2010055483A (ja)	2010-03-11	情報再取得手順生成プログラム及び情報再取得手順生成装置
US20060047693A1 (en)	2006-03-02	Apparatus for and method of generating data extraction definition information
JP2006065467A5 (ja)	2007-01-25
JP2008134906A (ja)	2008-06-12	業務プロセス定義生成方法、装置及びプログラム
CN113360106B (zh)	2022-12-09	一种网页打印方法和装置
JP2019040260A (ja)	2019-03-14	情報処理装置及びプログラム
JP5098605B2 (ja)	2012-12-12	アノテーションプログラム、アノテーション装置
CN108388796B (zh)	2021-08-31	动态域名验证方法、***、计算机设备和存储介质
EP0977130A1 (en)	2000-02-02	Facility for selecting and printing web pages
JP2005275488A (ja)	2005-10-06	入力支援方法およびプログラム
EP2711838A1 (en)	2014-03-26	Documentation parser
US20120192046A1 (en)	2012-07-26	Generation of a source complex document to facilitate content access in complex document creation
JP4133549B2 (ja)	2008-08-13	構造化文書ファイル管理装置および構造化文書ファイル管理方法
JP5712496B2 (ja)	2015-05-07	アノテーション復元方法、アノテーション付与方法、アノテーション復元プログラム及びアノテーション復元装置
US8230327B2 (en)	2012-07-24	Identifying statements requiring additional processing when forwarding a web page description
CN109657184B (zh)	2020-05-05	富文本处理方法、装置、服务器及计算机可读介质
JP5391738B2 (ja)	2014-01-15	アノテーションプログラム、アノテーション装置及びアノテーション方法
JP5765452B2 (ja)	2015-08-19	アノテーション付与復元方法及びアノテーション付与復元装置