JP2006065467A - データ抽出定義情報生成装置およびデータ抽出定義情報生成方法 - Google Patents
データ抽出定義情報生成装置およびデータ抽出定義情報生成方法 Download PDFInfo
- Publication number
- JP2006065467A JP2006065467A JP2004245197A JP2004245197A JP2006065467A JP 2006065467 A JP2006065467 A JP 2006065467A JP 2004245197 A JP2004245197 A JP 2004245197A JP 2004245197 A JP2004245197 A JP 2004245197A JP 2006065467 A JP2006065467 A JP 2006065467A
- Authority
- JP
- Japan
- Prior art keywords
- definition information
- data extraction
- user interface
- mark
- extraction definition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】
サーバの提供するアプリケーションの複数のユーザインタフェ―スを、クライアント上で一つのユーザインタフェースとして統合する際に、統合の対象となるユーザインタフェースから必要な情報を抽出する定義情報を効率的に生成する。
【解決手段】
対象となるユーザインタフェースの情報のうち、抽出すべき部分に、抽出先のデータ項目を定義した情報を挿入したデータ抽出定義付ユーザインタフェース情報を用意する。データ抽出定義付ユーザインタフェースから情報を抽出するための、抽出箇所や抽出先のデータ項目を定義したデータ抽出定義情報を、前記データ抽出定義付ユーザインタフェース情報に基づいて生成する。
【選択図】 図5
サーバの提供するアプリケーションの複数のユーザインタフェ―スを、クライアント上で一つのユーザインタフェースとして統合する際に、統合の対象となるユーザインタフェースから必要な情報を抽出する定義情報を効率的に生成する。
【解決手段】
対象となるユーザインタフェースの情報のうち、抽出すべき部分に、抽出先のデータ項目を定義した情報を挿入したデータ抽出定義付ユーザインタフェース情報を用意する。データ抽出定義付ユーザインタフェースから情報を抽出するための、抽出箇所や抽出先のデータ項目を定義したデータ抽出定義情報を、前記データ抽出定義付ユーザインタフェース情報に基づいて生成する。
【選択図】 図5
Description
本発明は、複数の情報源から取得したデータを統合してユーザに提示するユーザインタフェースの統合時に必要となるデータ抽出定義情報を生成する技術に関し、特にネットワークなどを介し、サーバからクライアントに送付される複数のアプリケーションを、クライアントが利用する場合に好適な技術に関する。
インターネットなどのネットワークにおいて、WWW(World Wide Web)をユーザインタフェースとして利用したアプリケーションのサービスが行われている。WWWを利用することによって、アプリケーション毎に専用のクライアントプログラムを用意する必要がなく、WWWブラウザさえあれば、WWWを利用したあらゆるアプリケーションを利用することができる。しかしながら、WWWを利用した個別のアプリケーションは、たとえアプリケーション間で共通のデータを扱う処理を行っていても、アプリケーション間でデータを連携させる仕組みはなく、ユーザが、それぞれのアプリケーション毎にWWWブラウザの別のウィンドウを開き、データ入力操作をしなければならない。
この問題に対処するために、複数のWWWページを一つに統合した統合ページを、ユーザインタフェースとして提供するシステムが開示されている。以下本明細書において、WWWサーバが提供するコンテンツであって、WWWブラウザ上で一度に閲覧できるコンテンツの単位をWWWページと呼び、複数のWWWページ内の所望のコンテンツを抽出して新たに生成したひとつのWWWページを統合ページと呼ぶ。
このシステムでは、予め統合ページに統合する対象として定義されたWWWページを提供する既存のWWWサーバにアクセスし、各々のWWWページを取得し、取得したWWWページを予め定義された手順によって解析し、構造をもったデータ形式でデータを抽出し、該抽出したデータを用いて、予め定義された統合ページの出力手順によって統合ページを生成する。統合ページを生成する際、対象となる複数のWWWページの間に共通するデータ項目が存在する場合、該共通するデータ項目をキーとしてマージを行ったテーブルを統合ページ中に出力を行うよう定義することもできる。
この方法によれば、複数のWWWページ内のデータを、一つの統合ページを構成するデータ項目として利用することができる。例えば、統合ページを構成する複数のWWWページがそれぞれテーブルを有し、各テーブルに共通するデータ項目がある場合、それらのテーブルをマージしたテーブルを表示する統合ページを提供することができる。また、既存のWWWページ内のデータを、統合ページを生成する際のデータ項目として利用することができるため、既存のWWWページのレイアウトにとらわれない、柔軟なレイアウトを持つ統合ページを提供することができる。
このようにユーザインタフェース統合装置を設けることにより、ユーザは、ひとつの統合ページにアクセスするだけで、複数のWWWページにより提供されているサービスを統合したサービスを利用することが出来る。
このシステムでは、WWWページを統合するために、対象となるWWWページを解析し、統合ページを生成するために必要な情報を抽出する処理が行われる。この解析処理および抽出処理は、データ抽出定義情報と呼ばれる定義情報に従って自動的に行われる。このデータ抽出定義情報は、システムの管理者が作成する必要があるが、データ抽出定義情報は、その形式は複雑であり、正確に定義するのは困難であるという課題がある。
本発明は、上記課題を鑑みてなされたものであり、上記統合ページを生成するために、対象となるWWWページを解析し、必要な情報を抽出するデータ抽出定義情報の作成を自動化することにより、当該データ抽出定義情報の開発効率を高めるとともに、当該データ抽出定義情報を生成するものの労力を軽減することを目的とする。
上記目的を達成するために、本発明のデータ抽出定義情報生成装置では、与えられた所定の形式を有するページから、所定の規則に従って、自動的にデータ抽出定義情報を生成する。
具体的には、データ抽出定義情報に従って、サーバの提供する複数のユーザインタフェースから生成した統合ユーザインタフェースをクライアントに提供するユーザインタフェース統合装置に、前記データ抽出定義情報を提供するデータ抽出定義情報生成装置であって、前記サーバが提供する前記ユーザインタフェースに、前記統合ユーザインタフェースを構成するために必要なデータ項目を抽出するための所定の文字列(以下、マークと呼ぶ。)を付与することにより、マーク付ページを生成するマーク付ページ作成手段と、前記マーク付ページ作成手段において作成されたマーク付ページを解析し、前記データ抽出定義情報を生成するデータ抽出定義情報生成手段と、を備えることを特徴とするデータ抽出定義情報生成装置を提供する。
本発明によれば、統合ページを生成するために必要な情報を抽出するデータ抽出定義情報を自動的に生成することにより、当該データ抽出定義情報の開発効率を高めるとともに、当該データ抽出定義情報を生成するものの労力を軽減することができる。
<<第一の実施形態>>
以下、本発明の実施形態について図面を参照して説明する。はじめに、本実施形態のデータ抽出定義情報生成装置を含むユーザインタフェース統合システムの構成および機能の概略を述べ、ユーザインタフェース統合システムにおけるデータ抽出定義機能の役割を明らかにした後、当該機能が必要とするデータ抽出定義情報の詳細を述べる。その後、本実施形態の詳細を説明する。
以下、本発明の実施形態について図面を参照して説明する。はじめに、本実施形態のデータ抽出定義情報生成装置を含むユーザインタフェース統合システムの構成および機能の概略を述べ、ユーザインタフェース統合システムにおけるデータ抽出定義機能の役割を明らかにした後、当該機能が必要とするデータ抽出定義情報の詳細を述べる。その後、本実施形態の詳細を説明する。
本実施形態のユーザインタフェース統合処理の中で用いられるデータ抽出定義情報は、データ抽出の対象となるWWWページのHTMLソースのサンプルを用いて、抽出すべき対象の箇所に「マーク」と呼ばれる特別な文字列を挿入することで作成されるマーク付ページから自動的に生成される。マークは抽出すべき位置や抽出先のデータ項目を特定するための情報を含む文字列である。
本実施形態のデータ抽出定義情報生成装置は、このマーク付ページを解析し、まず、マークの箇所を特定し、次に、データ抽出定義情報を生成するために必要な情報をマークおよび前後の文字列から特定することで、データ抽出定義情報を自動生成する。すなわち、本実施形態では、マーク付ページからデータ抽出定義情報を自動生成する環境をユーザインタフェース統合システムの管理者であるユーザに提供する。これにより、ユーザは、統合ページを作成するために必須のデータ抽出定義情報を容易に得ることができる。
従来のユーザインタフェース統合システムの管理者は、WWWページから、直接データ抽出定義情報を作成する必要があったが、本実施形態では、管理者は、WWWページから、簡単に作成することができるマーク付ページを、少なくとも作成すれば、データ抽出定義情報は、自動的に生成されることとなる。
図1は本実施形態の全体のシステム構成を表すブロック図である。
本実施形態のシステムは、ユーザインタフェース統合装置10と、WWWサービスを提供するWWWサーバ30と、WWWサーバ30によりWWWサービスとして提供されたコンテンツを閲覧するWWWブラウザ20と、データ抽出定義情報生成装置100と、を備える。
ユーザインタフェース統合装置10は、クライアントであるWWWブラウザ20からの要求に応じて、複数のWWWサーバ30にアクセスし、WWWサーバ30から提供されるWWWページを取得し、取得した複数のWWWページから所望の情報を抽出し、抽出した情報をもとに、ひとつのWWWページを生成し、これを複数WWWサーバの提供するWWWアプリケーションを統合した、統合ユーザインタフェースとなる統合ページとして要求元のWWWブラウザ20に返信する。
ユーザインタフェース統合装置10は、WWWブラウザ20とのインタフェースであるクライアント通信部101と、WWWサーバ30にアクセスし、統合ページの生成に必要な情報を抽出し、蓄積するデータ抽出オブジェクト102と、蓄積された抽出データをもとに統合ページを生成する統合ページ生成オブジェクト103とを備える。
クライアント通信部101は、WWWブラウザ20から統合ページの生成の要求を受け、統合ページ生成オブジェクト103に通知し、また、統合ページ生成オブジェクト103において生成した統合ページをWWWブラウザ20に送信する。
統合ページ生成オブジェクト103は、統合ページを生成する。クライアント通信部101を介して受け取った統合ページ生成の要求をデータ抽出オブジェクト102に受け渡す。また、統合ページのレイアウト方法を定義してある統合ページ定義情報を有し、統合ページの生成の要求に従って、データ抽出オブジェクト102が抽出したデータを利用して統合ページを生成し、生成した統合ページをクライアント通信部101を介してWWWブラウザ20に送信する。
データ抽出オブジェクト102は、ユーザインタフェース統合装置10に接続されるWWWサーバ30の数だけ用意される。ここでは、その中の一つを代表として取り上げ、説明する。データ抽出オブジェクト102は、データ抽出部1021と、データ抽出定義情報1022と、抽出したデータを保持する抽出データ保持部1023と、サーバ通信部1024と、を備える。
サーバ通信部1024は、WWWサーバ30とのインタフェースであり、WWWサーバ30にWWWページ取得のリクエストを送信し、その結果、WWWサーバ30が生成し返信するWWWページを受信する。
データ抽出定義情報1022は、取得したWWWページから必要な情報を抽出する際の抽出方法を示す情報である。
データ抽出部1021は、データ抽出定義情報1022に従って、取得したWWWページから必要な情報を抽出し、抽出したデータを、抽出データ1023に蓄積する。
データ抽出定義情報生成装置100は、サーバ通信部1024が受信したWWWページから、データ抽出定義情報を生成する。すなわち、対象となるユーザインタフェースの情報のうち、抽出すべき部分に、抽出先のデータ項目を定義した情報を挿入したデータ抽出定義付ユーザインタフェース情報を用意する。そして、データ抽出定義付ユーザインタフェースから情報を抽出するための、抽出箇所や抽出先のデータ項目を定義したデータ抽出定義情報を、前記データ抽出定義付ユーザインタフェース情報に基づいて生成する。詳細は、以下に説明する。
データ抽出定義情報生成装置100の詳細な構成を説明する前に、具体的なWWWページを例にとり、本実施形態のデータ抽出定義情報1022および抽出対象となるWWWページの詳細を説明する。
図2は統合ページの対象となる、WWWサーバ30の提供する既存WWWページの一例のHTMLソース40である。この既存WWWページの例は在庫管理システムのユーザインタフェースとして提供されるものであり、管理対象の商品の在庫数を示したものであり、商品IDと在庫数量とのデータ項目からなるレコードを3行持つ表の構造になっている。統合ページを生成する際に必要な情報として、商品IDとその在庫数量との情報を取得するものとする(図2において、下線で示した部分が相当する)。
なお、サーバ通信部1024を介して取得したWWWページからデータ抽出部1021が抽出したデータは、抽出データ1023に蓄積される。図3は、抽出データ1023に蓄積されるデータのデータ構造の一例を示す。本実施形態では、在庫数量を示すレコードを”inventory”、商品IDを示すデータ項目を”goodID”、在庫数量を示すデータ項目を”quantity”として蓄積することとする。
図4は、データ抽出定義情報1022の一例であり、HTMLソース40から商品IDとその在庫数量とを抽出するための定義がなされたものである。ただし、説明のため左端に行番号を示してある。
1行目は商品IDと在庫数量とのデータ項目をもつレコードを一つずつ繰り返し抽出するための定義がなされている。具体的には、FROMに定義される”在庫数量”の文字列以降で、TOに定義される”</TABLE>”の文字列までの範囲内で、SEPARATORで定義される”<TR>”で示す文字列から始まるレコード部分を、繰り返し、RECORDで定義される”inventory”と名付けられた、抽出データ1023のレコードに抽出する、という定義がなされている。
2、3行目では繰り返し処理のなかで、商品IDと在庫数量とを抽出するための定義がなされている。2行目は、FROMで定義される文字列”<TD>”とTOで定義される文字列”</TD>”の間にある文字列(すなわち商品ID情報)を”inventory”レコードの”goodsID”と名付けられたデータ項目に抽出する、という定義がなされており、3行目は、FROMで定義される(直前の”</TD>”の次の位置にある)文字列”<TD>”とTOで定義される文字列”</TD>”の間にある文字列(すなわち在庫数量情報)を”inventory”レコードの”quantity”と名付けられたデータ項目に抽出する、という定義がなされている。
4行目はレコード内のデータ項目の抽出処理が3行目までで終了することを意味している。
なお、図4で示すデータ抽出定義情報1022に従って、データ抽出部1021が、HTMLソース40から、抽出データとして、抽出データ保持部1023に図3で示すデータ構造で抽出する手順については、特許文献1(特開2003−345697号公報)に詳しく記載されているため、ここでは記載しない。ただし、特許文献1では、このデータ抽出定義情報1022は、システムの管理者が作成する。
以下、データ抽出定義情報生成装置100が、このHTMLソース40からなるWWWページのサンプルを用いて、データ抽出定義情報1022を自動的に生成する方法について説明する。
図5は、データ抽出定義情報生成装置100の機能構成と、データ抽出定義情報生成装置100によるデータ抽出定義情報1022の自動生成処理を説明するための図である。
本図に示すように、本実施形態のデータ抽出定義情報生成装置100は、ユーザからの指示および入力を受け付ける入力受付部100aと、取得したWWWページサンプルのHTMLソース40に、後述する「マーク」を付与するマーク付与部100bと、データ抽出定義情報生成部100cとを備える。
データ抽出定義情報生成部100cは、マーク付与部100bによって生成されたマーク付ページ50から、データ抽出定義情報1022を自動生成する。
ここで、マーク付ページ50は、既存WWWページサンプルのHTMLソース40に対し、マークと呼ばれる特別な文字列を挿入したものである。
マークは、前述したように、既存WWWページサンプルのHTMLソース40からデータを抽出する位置と、抽出したデータの抽出データ保持部1023への蓄積形式とを示すために用いられる文字列である。
このマークを既存WWWページサンプルのHTMLソース40に挿入したマーク付ページ50の一例を図6に示す。以下、マークの種類および使い方を説明する。ただし、図6には、説明のため左端に行番号を示す。
図6において、マークはHTMLのコメントタグの形式であり、“<!−−”と”−−>”で囲まれる文字列で表現されている。本図においては、該当する文字列に下線を引き、示す。
マークは$fromと$toの2種類ある。抽出対象の文字列の位置を示す手がかりとなる文字列(四角で囲んである文字列で示している)の直前に$from形式のマーク、を直後に$to形式のマークを配置するのが基本的なマークの使い方となる。
また、$from形式のマークには属性がいくつかある。各属性は、$from形式のマークの後ろにコロン(:)を付して属性情報を付加することにより、記述される。
属性情報がtsである場合(以後、ts属性と呼ぶ。他も同様)、直前の$from形式のマークが、繰り返しレコードを抽出する際の開始文字列を特定するマークであることを示し、属性情報がteである場合は、繰り返しレコードを抽出する際の終了文字列を特定するマークであることを示し、属性情報がrsである場合は、繰り返しレコードを抽出する際のレコードの開始文字列を特定するマークであることを示し、属性情報がcsである場合は、レコード中のデータ項目を抽出する際の開始文字列を特定するマークであることを示し、属性情報がceである場合は、レコード中のデータ項目を抽出する際の終了文字列を特定するマークであることを示す。
さらにrs属性である場合、抽出先のレコード名称の情報として保持するマークであることを示し、cs属性の場合、抽出先のレコード名称およびデータ項目名称の情報として保持するマークであることを示す。
マーク付ページ50の6行目において、ts属性の$fromマークと$toマークで「在庫数量」部分の文字列が囲まれている。これは、図4のデータ抽出定義情報1022の1行目のFROMにおいて繰り返し処理の開始文字列として「在庫数量」を定義していることに相当する。
マーク付ページ50の7行目において、rs属性の$fromマークと$toマークで「<TR>」部分の文字列が囲まれている。これは、図4のデータ抽出定義情報1022の1行目のSEPARATORにおいて、レコードの開始文字列として「<TR>」を定義していることに相当する。
また、同じく7行目の$fromマークでは、レコード情報として”inventory”が指定されている。これは、図4のデータ抽出定義情報1022の1行目のDATAにおいて抽出先レコードとして「inventory」を定義していることに相当する。
マーク付ページ50の8行目において、cs属性の$fromマークと$toマークで「<TD>」部分の文字列が囲まれている。これは、図4のデータ抽出定義情報1022の2行目のFROMにおいてデータ項目の読み取り位置の開始文字列として「<TD>」を定義していることに相当する。
また、同じく8行目のfromマークでは、レコードおよびデータ項目の情報として”inventory.goodsID”が指定されているが、これは、図4のデータ抽出定義情報1022の2行目のDATAにおいてレコード”inventory”のデータ項目”goodsID”を抽出先として設定していることに相当する。
マーク付ページ50の9行目において、cs属性の$fromマークと$toマークで「<TD>」部分の文字列が囲まれている。これは、図4のデータ抽出定義情報1022の2行目のFROMにおいてデータ項目の読み取り位置の開始文字列として「<TD>」を定義していることに相当する。
マーク付ページ50の10、11行目では8、9行目と同様に、図4のデータ抽出定義情報1022の3行目のデータ項目の読み取りに関する情報が定義されている。
マーク付ページ50の14行目においてte属性の$fromマークと$toマークで「</TABLE>」部分の文字列が囲まれている。これは、図4のデータ抽出定義情報1022の1行目のTOにおいて繰り返し処理の終了文字列として「</TABLE>」を定義していることに相当する。
以上に示すように、マーク付ページ50によれば、データ抽出定義情報1022が持つ情報を過不足なく定義することができる。
図7は、マーク付ページ50からデータ抽出定義情報1022を生成する、データ抽出定義情報生成部100cの処理の流れを示した処理フロー図である。以下、図7の処理フロー図に従い、データ抽出定義情報生成部100cが、上記マーク付ページ50からデータ抽出定義情報1022を生成する処理手順を説明する。
ここで、データ抽出定義情報生成部100cは、後述する、データ抽出定義情報1022のLOOP:行の行番号を格納するループ情報処理用スタック(不図示)を備える。
はじめに、データ抽出定義情報生成部100cは、マーク付ページ50を入力とし(ステップ701)、初期化処理を行う(ステップ702)。初期化処理はループ情報処理用スタックを空にし、マーク付ページ50を読み取る読み取りカーソルの位置をマーク付ページ50の先頭部分に置くものである。
その後、現在の読み取りカーソルの位置以降でもっとも近い位置の$fromの形式のマークを検出し、その位置まで読み取りカーソルの位置を移動させ、読み取りを開始する(ステップ703)。$fromの属性によって、その後の処理は以下のように振り分けられる。それぞれ処理が終わったあとは再びステップ703から処理を繰り返す。
ts属性の場合、データ抽出定義情報1022に「LOOP:」行を生成し、データ抽出定義情報1022の「LOOP:」行の行番号をループ情報処理用スタックに格納する(プッシュする)。次に、現在のカーソルの位置以降で初めて出現する$toマークを検出し、元のカーソルの位置から$toマークを検出した位置の間の文字列をデータ抽出定義情報1022のFROMに設定し、現在のカーソルの位置を、$toマークの直後の位置に移動させる(ステップ7041,7042)。
te属性の場合、現在のカーソルの位置以降に初めて出現する$toマークを検出し、元のカーソルの位置から$toマークを検出した位置の間の文字列を読み取る。ループ情報処理用スタックに格納されている行番号を取り出し(ポップし)、データ抽出定義情報1022の当該行番号の「LOOP:」行のTOに、上記で読み取った文字列を設定し、現在のカーソルの位置を、$toマークの直後の位置に移動させる(ステップ7051,7052)。
rs属性の場合、現在のカーソルの位置以降に初めて出現する$toマークを検出し、元のカーソルの位置から$toマークを検出した位置の間の文字列を読み取る。データ抽出定義情報1022の、ループ情報処理用スタックに格納されている行番号で特定される「LOOP:」行のSEPARATORに、上記で読み取った文字列を設定し、現在のカーソルの位置を、$toマークの直後の位置に移動させる(ステップ7061、7062)。
cs属性の場合、現在のカーソルの位置以降に初めて出現する$toマークを検出し、元のカーソルの位置から$マークを検出した位置の間の文字列を、データ抽出定義情報1022の、新規データ読み取り行のFROMに設定し、現在のカーソルの位置を、$toマークの直後の位置に移動させる(ステップ7071、7072)。
ce属性の場合、現在のカーソルの位置以降に初めて出現する$toマークを検出し、元のカーソルの位置から$toマークを検出した位置の間の文字列を、データ抽出定義情報1022の、直前で生成したデータ読み取り行のTOに設定し、現在のカーソルの位置を、$toマークの直後の位置に移動させる(ステップ7081、7082)。
上記の処理において、$fromマークの検出を試みたにも係わらず、該当マークが検出されずマーク付ソース50の最後に到達した場合、処理を終了し、処理結果として、生成したデータ抽出定義情報1022を出力する(ステップ7091、ステップ710)。
$fromマークの属性が上記の属性のどれにもあてはまらない場合や、$toマークの検出処理中に$toが検出されずマーク付ソース50の最後まで到達した場合、マーク付の規則に従わないマーク付ソース50として判定し、データ抽出定義情報1022は出力せず、処理を終了する(ステップ7092、ステップ710)。
以上のように、本実施形態によれば、データ抽出定義情報生成部100cが、マーク付ソース50を読み取ることにより、付与されているマークに従って、抽出対象の文字列の位置およびデータ抽出定義情報において意味するところを判別することができる。従って、データ抽出定義情報生成部は、この判別結果に基づいて、予め与えられた規則に従って、データ抽出定義情報を生成することができる。
すなわち、本実施形態によれば、ユーザインタフェース統合システムの管理者であるユーザが、マーク付ソース50を作成し、それをデータ抽出定義情報生成装置100に入力しさえすれば、データ抽出定義情報生成装置100により、データ抽出定義情報1022は自動的に生成される。
なお、マーク付ソース50は、ユーザインタフェース統合装置10の管理者であるユーザが、データ抽出定義情報生成装置100が備える入力受付部100aを介して受け付けたマークを、マーク付与部100bが既存WWWページサンプルのHTMLソース40に付与する等の手段により作成される。
マーク付ソース50の作成は、既存の技術により平易な処理で行うことができるため、データ抽出定義情報1022を直接作成するのに比べはるかに容易である。従って、本実施形態によれば、既存のWWWページサンプルのHTMLソース40からデータ抽出定義情報1022を容易に開発することができる。
なお、本実施形態では、抽出対象のWWWページは、HTMLで作成されたものに限られない。例えば、CSVファイルなどであってもよい。
また、本実施形態のデータ抽出定義情報生成装置100は、CPU、メモリ等を備える、一般的な情報処理装置により構成される。メモリには、WWWサーバ30から取得した既存のWWWページサンプルのHTMLソース40、マーク付ページ50、各機能を実現するプログラム等が格納される。CPUは、必要に応じて、メモリからプログラムを読み込み、実行することにより、上記機能を実現する。
さらに、本実施形態では、ユーザインタフェース統合装置10と、データ抽出定義情報生成装置100とを別個の装置として記載したが、本構成に限られない。例えば、一の情報処理装置内で両装置の機能が実現されていてもよい。
<<第二の実施形態>>
第一の実施形態では、マーク付ソース50の作成をユーザインタフェース統合システムの管理者であるユーザが行っていた。抽出対象のWWWページがHTMLで作成されたものの場合、タグ以外の部分を抽出対象として自動的にマーク付ページ50を生成することができる。本実施形態では、抽出対象がHTMLで作成されたWWWページであり、マーク付ソース50の作成も自動化される場合を例にあげて説明する。
第一の実施形態では、マーク付ソース50の作成をユーザインタフェース統合システムの管理者であるユーザが行っていた。抽出対象のWWWページがHTMLで作成されたものの場合、タグ以外の部分を抽出対象として自動的にマーク付ページ50を生成することができる。本実施形態では、抽出対象がHTMLで作成されたWWWページであり、マーク付ソース50の作成も自動化される場合を例にあげて説明する。
本実施形態のユーザインタフェース統合システムは、基本的に第一の実施形態のユーザインタフェース統合システムと同様の構成を有する。しかし、本実施形態のデータ抽出定義情報生成装置100は、さらに、マーク付ページ作成部(不図示)を備える。
図8は、既存WWWページサンプルのHTMLソース40から、タグ以外の部分を抽出対象として、自動生成したマーク付ページ51の一例を示す図である。ただし、説明のため、マーク部分に下線を付けて示し、左端に行番号を示してある。
本実施形態では、データ抽出定義情報生成部100cは、第一の実施形態のマーク付ページ50の代わりに、このマーク付ページ51から、データ抽出定義情報を生成する。
図9は、マーク付ページ作成部が、既存WWWページサンプルのHTMLソース40から、タグ以外の部分を抽出対象として、マーク付ページ51を自動生成する場合の処理の流れを示した処理フロー図である。以下、図9の処理フロー図に従い、マーク付ページ作成部が、タグ以外の部分を抽出対象としてマーク付ページを自動生成する処理手順を説明する。
ここで、マーク付ページ作成部は、後述するレコード名称用のカウンタ(以下、レコード名称カウンタと呼ぶ。)とデータ項目名称用のカウンタ(以下、データ項目名称カウンタと呼ぶ。)とを備える。
はじめに、抽出対象となる既存WWWページサンプルのHTMLソース40を入力とし(ステップ801)、初期化処理を行う(ステップ802)。初期化処理は既存WWWページサンプルのHTMLソース40を読み取る読み取りカーソルの位置を当該サンプルの先頭部分に置き、レコード名称カウンタとデータ項目名称カウンタとを0にする処理を行う。
現在の読み取りカーソルの位置以降でもっとも近い位置にあるタグ以外の文字列(”<”と”>”に囲まれていない文字列)を検出する(ステップ803)。
このとき、検出ができなければ本処理は終了とし、ここまでに作成したマーク付ページ50を出力する(ステップ806)。
検出できた場合、直前のタグが「<TD>」であるかどうかを調べる(ステップ804)。
直前のタグが「<TD>」でない場合、マーク付ページ51として、直前のタグをcs属性の$fromマークと$toマークで、直後のタグをce属性の$fromマークと$toマークで囲むように定義する。このときcs属性の$fromマークには抽出先レコード名称として、”record”を定義し、抽出先データ項目名称として、”data”に続き、データ項目名称カウンタの値を文字列にしたものを接続したものを定義する。そののちデータ項目名称カウンタの値を1増加する(ステップ8051)。
直前のタグが「<TD>」の場合、マーク付ページ51として、直前の<TH>、</TH>で囲まれる文字列もしくは直前の<TABLE>を繰り返し開始部として、ts属性の$fromマークと$toマークで囲むように定義する。また、直前の<TR>をレコード開始部としてrs属性の$fromマークと$toマークで囲むように定義する。
このときレコード名称として”table”に続き、レコード名称カウンタの値を文字列にしたものを接続したものを定義する。例えば、図8のマーク付ページ51の7行目におけるrs属性の$fromマークでは、レコード名称を“table0”として定義している。
そして、直後の</TABLE>を繰り返し終了部としてte属性の$fromマークと$toマークとで囲むように定義する。上記</TABLE>に対する繰り返し終了部としてマークを挿入する処理はすでに同じ文字列に対し所定のマークが設定されている場合は行わない。
最後に当該文字列の直前の<TD>タグをcs属性の$fromマークと$toマークで、直後の</TD>タグをce属性の$fromマークと$toマークで囲むように定義する。
このときcs属性の$fromマークには抽出先レコード名称として、”table”につづき、レコード名称カウンタの値を文字列にしたものを接続したものを定義し、抽出先データ項目名称として、”data”につづき、データ項目名称カウンタの値を文字列にしたものを接続したものを定義する。例えば、図8のマーク付ページ51の8行目におけるcs属性の$fromマークではレコード名称を”table0”、データ項目名称を”data2”として定義している。そののちデータ項目名称用のカウンタの値を1増加する。
そして、現在カーソルの直後の</TR>より前に<TD>タグがない場合、現在カーソル位置を現在カーソル位置以降の</TABLE>タグの直後に配置し、レコード名称カウンタの値を1増加する。
現在カーソルの直後の</TR>より前に<TD>タグがある場合、現在カーソル位置を現在カーソルの直後の</TD>の直後の位置に配置する(ステップ8052)。
そして再びステップ803から処理を繰り返す。
図8に示す自動生成したマーク付ページ51は、図6に示すマーク付ページ50と比較して、2行目と4行目に新たにマークが追加され、また、$fromマークのレコードやデータ項目の指定が”reecord”・”table0”や”data0”といった自動的に生成された名称になっている。
このように、抽出対象を既存WWWページサンプルのHTMLソース40のタグ以外の部分として自動的にマーク付けをし、マーク付ページ51を作成する場合、本来必要としない部分が抽出対象とされ、抽出対象の名称が機械的に付されたものとなる、といったデメリットがある。
従って、本実施形態では、マーク付ページ51を自動生成したのちに、不要な部分の削除やレコードやデータ項目の名称の変更、といった処理をユーザインタフェース統合システムの管理者であるユーザが行うことになる。しかし、非常に項目数の多いWWWページを抽出対象とする場合には、マーク付ページの自動生成は、このような処理を補って余りあるメリットがあり、全体としてこの方式を用いることで、マーク付ページの開発効率が向上すると考えられる。
本実施形態によれば、抽出対象となる既存WWWページサンプルのHTMLソースから自動的にマーク付ページを作成することができ、ユーザインタフェース統合システムの管理者であるユーザのマーク付ページ作成の手間を省くことができる。
本実施形態によれば、前述したとおり、不要な部分を抽出対象としたマークの除去や、レコードやデータ項目の名称を所望のものに変更する作業は行う必要があるが、マーク付ページをユーザインタフェース統合システムの管理者であるユーザがはじめから手作業で作成する方式に比べ、マーク付ページの開発効率は高く、従って、WWWページから、マーク付ページの作成を経て、データ抽出定義情報1022を生成する処理全般を鑑みれば、高い開発効率を得ることができる。
なお、本実施形態では、繰り返し処理部分が”<TABLE>”で始まり、”</TABLE>”で終了し、レコード開始部分が”<TR>”で始まることを前提としたが、対象となるWWWページの形式に従って、これらの文字列の候補を予め設定することにより、適切にマーク付ページを生成することができる。設定は、ユーザインタフェース統合システムの管理者であるユーザが、入力受付部1025aを介して行う。
<<第三の実施形態>>
次に、WWWページ中の抽出対象を、自動的に決定する実施形態について、説明する。本実施形態では、マーク付ページを自動的に生成するために、抽出対象となるWWWページの複数のサンプルを用い、それらの比較を行い、相違する部分の文字列を抽出対象として、その前後にマークを挿入する。対象となるWWWページは、HTMLで作成されたものとする。
次に、WWWページ中の抽出対象を、自動的に決定する実施形態について、説明する。本実施形態では、マーク付ページを自動的に生成するために、抽出対象となるWWWページの複数のサンプルを用い、それらの比較を行い、相違する部分の文字列を抽出対象として、その前後にマークを挿入する。対象となるWWWページは、HTMLで作成されたものとする。
本実施形態のユーザインタフェース統合システムは、基本的に第一および第二の実施形態と同様である。また、本実施形態のデータ抽出定義情報生成装置100のマーク付ページ作成部は、基本的に第二の実施形態と同様である。しかし、第二の実施形態の機能に加え、WWWページ比較処理機能をさらに備える。
図10は2つの既存WWWページサンプルのHTMLソース41、42の比較を説明するための図である。ここで、二つのサンプルを比較したときに異なる文字列部分には、下線が引かれている。
図11は、マーク付ページ作成部が、WWWページのHTMLソースの比較によりマーク付ページを自動的に生成する処理のフロー図である。
以下、図11の処理フロー図に従い、マーク付ページ作成部が、2つの既存WWWページサンプルのHTMLソース41、42の比較によりマーク付ページ52を自動的に生成する方法を説明する。なお、本実施形態では、データ抽出定義情報生成部100cは、マーク付ページ52を用いて、データ抽出定義情報1022を生成する。
マーク付ページ作成部は、2つの既存WWWページサンプルのHTMLソース41、42を先頭部から順に比較し、共通の文字列部分(固定部)と、そうでない部分(変動部)とに分類する(ステップ901)。
その後、マーク付ページ作成部は、それぞれの固定部の直後の変動部を確認する(ステップ902)。
固定部の直後の変動部が互いに空文字列でない場合、マーク付ページ作成部は、比較対象である既存WWWページサンプルのHTMLソース41、42の一方の、変動部の直前の固定部の直前にcs属性の$fromマーク、直後に$toマークを挿入し、変動部の直後の固定部の直前にce属性の$fromマーク、直後に$toマークを挿入し、マーク付ページ52を作成する。このとき、すでにマークが挿入されている場合は、その既存の$toマークの直後に$fromマークと$toマークを並べて挿入する(ステップ903)。
片方の固定部の直後の変動部が空文字列の場合、マーク付ページ作成部は、もう片方の固定部の直後の変動部に対し、繰り返し表現が含まれているか検出処理を行う。具体的には、図10に示す既存WWWページサンプルのHTMLソース42の72行目部分の文字列が検出対象の文字列となる。
マーク付ページ作成部は、検出対象の変動部文字列を後ろ側から、直前の固定部群で後ろ側から前に向かって比較適用する。具体的には、”</TD></TR>”、”</TD><TD>”、”<TR><TD>”の順で固定部が適用されることとなる。対象の変動部の最初の文字列が、固定部とマッチするまで繰り返す。対象の変動部の長さが長く、マッチさせる固定部がなくなった場合は、再び、対象の変動部の直前の固定部から比較適用を繰り返す(ステップ904)。
マーク付ページ作成部は、対象となった変動部を切り出した固定部群の中に繰り返しパターンが含まれているか検出し、含まれていれば、それをマーク付ページ52の繰り返しパターンとする。含まれていなければ、対象となった変動部を切り出した固定部群を、そのままマーク付ページ52の繰り返しパターンとする(ステップ905)。
そして、繰り返しパターンの直前の固定部を、繰り返し開始部として、ts属性の$fromマークと$toマークとで囲み、マーク付ページ52を作成する。繰り返しパターンの最初の固定部を、レコード開始部として、rs属性の$fromマークと$toマークとで囲み、マーク付ページ52を作成する。繰り返しパターンの直後の固定部を、繰り返し終了部として、te属性の$fromマークと$toマークとで囲み、マーク付ページ52を作成する。その他の繰り返しパターンは、ステップ903と同様にマークを挿入し、マーク付ページ52を作成する。
なお、マーク中に設定すべきレコード名称やデータ項目名称は、第二の実施形態と同様の形式で設定する(ステップ906)。
上記の処理を各固定部に対し最初から順に行い、処理すべき固定部がなくなったら、本処理の終了とし、マーク付ページ52を出力する。
なお、上記では、二つの既存WWWページサンプルのHTMLソース41、42を入力としているが、より多くのWWWページを入力として比較対象とすることにより、本実施形態のマーク付ページ作成部は、変動部を適切に抽出することができ、より適切なマーク付ページを自動的に生成することができる。
図12は、図10の二つの既存WWWページサンプルのHTMLソース41、42を入力とした場合の、本実施形態により出力されるマーク付ページ52の例である。
本実施形態によれば、図8に示す第二の実施形態の方法により出力されるマーク付ページ51と同様に、レコード名称やデータ項目名称は機械的に設定されたものとなる。本実施形態でも、第二の実施形態と同様に、不要部分(例えば、図8の4行目”在庫引当”や図8の6行目の”在庫数量”を囲むマーク)の抽出を行わずにマーク付ページを作成し、出力することができる。
この場合、ユーザインタフェース統合システムの管理者であるユーザは、出力されたマーク付ページ52の、レコード名称やデータ項目名称を所望の名称に変更するだけで適切なマーク付ページに修正することができる。そして、当該マーク付ページを用い、データ抽出定義情報生成部100cにより、データ抽出定義情報1022を得ることができる。
本実施形態によれば、適切なマーク付ページを自動的に生成でき、データ抽出定義情報1022を生成する処理全般に渡り、自動化をさらに進めることができる。従って、データ抽出定義情報1022の開発効率が高まる。
<<第四の実施形態>>
抽出対象となるWWWページを提供するWWWサーバの処理に、JSP(Java Server Pages)が用いられている場合、そのJSPソースを利用することにより自動的にマーク付ページを出力することができる。
抽出対象となるWWWページを提供するWWWサーバの処理に、JSP(Java Server Pages)が用いられている場合、そのJSPソースを利用することにより自動的にマーク付ページを出力することができる。
なお、JSPについては例えばWWWページの「JavaServer Pages(TM)Technology」(http://java.sun.com/products/jsp/)に詳しい記載がなされている。JSPは、HTMLファイルの内部にスクリプトで処理を記述し、WWWブラウザからのリクエストの度にスクリプトをWWWサーバ側で実行し、HTMLファイル中のスクリプト部分をその処理結果で置き換えてWWWブラウザに送り出すものである。JSPによれば、HTMLファイルと処理との関連が分かりやすいため、実際の表示イメージを意識しながら動的なコンテンツを作成することができる。
図13は、図2に示すHTMLにより作成されたWWWページと同様のWWWページを出力するJSPソースの一例である。
上述のように、JSPソースはHTMLソースに対してプログラム処理が挿入された形式になっている。図13において”<%”と”%>”に囲まれた部分がプログラム処理部分に相当する。プログラム処理部分以外のHTML形式の部分はそのままHTMLとして出力される。
本実施形態は、基本的に第三の実施形態と同様の構成を有する。しかし、本実施形態のデータ抽出定義情報生成装置100のマーク付ページ作成部は、マーク付ページ作成にあたり、複数のマーク付ページを比較し、変動部を抽出するのではなく、JSPソースの特性を利用して、変動部を抽出する。
すなわち、本実施形態では、プログラム処理部分のうち、”<%=”と”%>”で囲まれる部分は、その中身を評価した結果の文字列が出力される部分となる。従って、JSPソースを元にマーク付ページを出力するためには、マーク付ページ作成部は、この”<%=”と”%>”とで囲まれた部分を第三の実施形態における変動部として処理する。
また、繰り返し処理に関しては、JSPソースでは、”<%”と”%>”とで囲まれたプログラム処理部分で、ループ処理が定義されているため、そのループの内側に”<%=”と”%>”とで囲まれる部分がある場合、当該部分を、繰り返し処理として抽出を行うべき対象と考えることができる。すなわち、ループ処理の直前のHTMLによる記述の断片を繰り返し処理開始部、ループ内のHTML出力の最初の部分をレコードの開始部、ループの直後のHTMLによる記述の断片を繰り返し処理終了部としてそれぞれ定義することにより、マーク付ページ作成部は、第三の実施形態と同様の処理を行い、所望のマーク付ページを生成することができる。
本実施形態のデータ抽出定義情報生成装置100のマーク付ページ作成部によれば、第二および第三の実施形態に比べて、より的確に抽出すべき位置および繰り返し処理の位置を特定したマーク付ページを自動生成できる。従って、データ抽出定義情報1022の開発効率は高まる。
以上説明したように、上記の第二、第三、第四の実施形態のデータ抽出定義情報生成装置100は、それぞれの方法に従ってマーク付ページを自動生成し、それに基づいて、データ抽出定義情報1022を生成している。しかし、既存WWWページサンプルのHTMLソース40から、直接データ抽出定義情報1022を生成してもよい。
具体的には、繰り返し開始部($from:tsと$toとに囲まれる部分)に相当するマークを生成する場合は、データ抽出定義における「LOOP」の「FROM」定義を生成し、繰り返し区切り部($from:rsと$toとに囲まれる部分)に相当するマークを生成する場合は「LOOP」の「SEPARATOR」定義を生成し、繰り返し終了部($from:csと$toとに囲まれる部分)に相当するマークを生成する場合は「FROM」定義を生成し、項目終了部($from:ceと$toとに囲まれる部分)に相当するマークを生成する場合は「TO」定義を生成する。
さらに、第一〜第四の実施形態では、データ抽出部1021が、データ抽出定義情報1022に従って、複数のWWWページからデータ抽出処理を行うことを前提としている。しかし、データ抽出定義情報1022を生成するかわりに、データ抽出定義情報1022に従ってデータ抽出部1021が行う処理を、そのままコードとして記述したプログラムを生成することもできる。
具体的には、データ抽出定義情報1022のどの位置の文字列をどのデータ項目として読み取るかという定義に従い、その処理を直接プログラム化する。
例えば、「read(”a”,”b”,”c.d”);」というコードが対象となる文字列から、文字列”a”と”b”とに囲まれる文字列をデータ項目c.dに抽出する、という処理がなされるとした場合、「FROM:=“<TD>” TO:=“</TD>” DATA=inventory.goodsID」という定義をするところでは、「read(“<TD>”,“</TD>”,“inventory.goodsID”);」というコードを生成する。
また、上記各実施形態においては、データ抽出定義情報1022を作成する環境を提供するデータ抽出定義情報生成装置100と、ユーザインタフェース統合装置10とが稼動する環境とのネットワーク上の位置については特に制限は設けていない。すなわち、ともにネットワークに接続された同一の装置内に設けられていてもよいし、データ抽出定義情報1022を作成する環境を提供するデータ抽出定義情報生成装置100と、ユーザインタフェース統合装置10とを、ネットワーク上で離れた位置に設け、ユーザインタフェース統合装置10に、データ抽出定義情報1022をネットワークを用いて送信するよう構成してもよい。後者のネットワーク上の配置を利用することで、リモートでデータ抽出定義情報1022を管理する環境を提供することができる。
複数のWWWサーバに業務上必要な情報が分散した環境においては、ユーザインタフェースを統合した環境を構築することにより、ユーザにとって使い勝手の良い情報アクセス環境を提供することができる。
本発明を適用した上記の各実施形態は、このような統合ユーザインタフェース環境を構築するための開発環境を提供するものであり、開発効率を上げるとともに、開発者の負担を軽減するものである。上記各実施形態によれば、複数の子会社や支店を管理する企業における企業内業務情報システムの統合化や、複数のWWWサーバによる銀行口座紹介システムを一つに統合して提供する資産情報一覧システム等の構築に好適な開発環境を提供することができる。
なお、上記第一の実施形態でも記載したが、各実施形態においては、HTMLソースあるいは、JSPソースをそれぞれ例にあげ、説明しているが、本発明の実施形態はこれに限られない。上述のように、所定のデータを抽出可能な構造を有するものであればよい。
10:ユーザインタフェース統合装置、100:データ抽出定義情報生成装置、100a:入力受付部、100b:マーク付与部、100c:データ抽出定義情報生成部、101:クライアント通信部、102:データ抽出オブジェクト、1021:データ抽出部、1022:データ抽出定義情報、1023:抽出データ、1024:サーバ通信部、20:WWWクライアント、30:WWWサーバ、40:HTMLソース、41:HTMLソース、42:HTMLソース、50:マーク付けページ、51:マーク付けページ、52:マーク付けページ
Claims (10)
- サーバの提供する複数のユーザインタフェースからデータ抽出定義情報に従って生成した統合ユーザインタフェースをクライアントに提供するユーザインタフェース統合装置に、前記データ抽出定義情報を提供するために当該データ抽出定義情報を生成するデータ抽出定義情報生成装置であって、
前記サーバが提供する前記ユーザインタフェースに、前記統合ユーザインタフェースを構成するために必要なデータ項目を抽出するための所定の文字列(以下、マークと呼ぶ。)を付与することにより、マーク付ページを生成するマーク付ページ作成手段と、
前記マーク付ページ作成手段において作成されたマーク付ページを解析し、前記データ抽出定義情報を生成するデータ抽出定義情報生成手段と、を備えること
を特徴とするデータ抽出定義情報生成装置。 - 請求項1記載のデータ抽出定義情報生成装置であって、
前記ユーザインタフェースに付与するマークの入力を受け付ける入力手段をさらに備え、
前記マーク付ページ作成手段は、前記入力手段で受け付けたマークを、前記ユーザインタフェースに付与することにより、前記マーク付ページを作成すること
を特徴とするデータ抽出定義情報生成装置。 - 請求項1記載のデータ抽出定義情報生成装置であって、
前記マーク付ページ作成手段は、
前記ユーザインタフェース内の所定の特徴に従って前記マークを付与する箇所および付与する前記マークの種類を決定し、当該決定した箇所に、当該決定した種類のマークを付与することにより、前記マーク付ページを作成すること
を特徴とするデータ抽出定義情報生成装置。 - 請求項1記載のデータ抽出定義情報生成装置であって、
前記マーク付ページ作成手段は、
前記サーバの提供するユーザインタフェースを複数取得し、取得した複数の前記ユーザインタフェースそれぞれを比較し、相違箇所および共通箇所を特定し、前記相違箇所の前後に前記マークを付与することにより、前記マーク付ページを作成すること
を特徴とするデータ抽出定義情報生成装置。 - クライアント及びサーバと接続し、前記サーバの提供する複数のユーザインタフェースから統合ユーザインタフェースを生成し、前記クライアントに提供するユーザインタフェース統合システムであって、
ユーザインタフェース統合装置と、請求項1から4いずれか一項記載のデータ抽出定義情報生成装置とを備え、
前記ユーザインタフェース統合装置は、
前記クライアントから送られたユーザインタフェース要求に応じて、前記サーバに前記ユーザインタフェースの提供を要求する手段と、
前記データ抽出定義情報生成装置によって生成されたデータ抽出定義情報に従って、前記サーバから転送された複数の前記ユーザインタフェースそれぞれから、前記統合ユーザインタフェースを構成するために必要なデータ項目に関するデータを抽出するデータ抽出手段と、
前記抽出したデータを用いて前記統合ユーザインタフェースを生成する手段と、
前記生成した統合ユーザインタフェースを前記クライアントに送信する手段と、を備えること
を特徴とするユーザインタフェース統合システム。 - サーバが提供する複数のユーザインタフェースから統合ユーザインタフェースを生成してクライアントに提供する際に用いられるデータ抽出定義情報を生成するデータ抽出定義情報生成方法であって、
前記サーバが提供する前記ユーザインタフェースに、前記統合ユーザインタフェースを構成するために必要なデータ項目を抽出するための所定の文字列(以下、マークと呼ぶ。)を付与することにより、マーク付ページを生成するマーク付ページ作成ステップと、
前記作成されたマーク付ページを解析し、前記データ抽出定義情報を生成するデータ抽出定義情報生成ステップと、を備えること
を特徴とするデータ抽出定義情報生成方法。 - 請求項6記載のデータ抽出定義情報生成方法であって、
前記マーク付ページ作成ステップにおいて、ユーザからの入力に従って、前記マークを前記ユーザインタフェースに付与すること
を特徴とするデータ抽出定義情報生成方法。 - 請求項6記載のデータ抽出定義情報生成装置であって、
前記マーク付ページ作成ステップにおいて、前記ユーザインタフェース内の所定の特徴に従って前記マークを付与する箇所および付与する前記マークの種類を決定し、前記マークを前記ユーザインタフェースに付与すること
を特徴とするデータ抽出定義情報生成方法。 - 請求項6記載のデータ抽出定義情報生成装置であって、
前記マーク付ページ作成ステップにおいて、前記サーバの提供する前記ユーザインタフェースを複数取得し、取得した複数の前記ユーザインタフェースそれぞれを比較し、相違箇所および共通箇所を特定し、前記マークを前記ユーザインタフェースの前記相違箇所の前後に付与すること
を特徴とするデータ抽出定義情報生成方法。 - サーバの提供する複数のユーザインタフェースからデータ抽出定義情報に従って生成した統合ユーザインタフェースをクライアントに提供するユーザインタフェース統合装置に前記データ抽出定義情報を提供するために当該データ抽出定義情報を生成するために、コンピュータを、
前記サーバが提供する前記ユーザインタフェースに、前記統合ユーザインタフェースを構成するために必要なデータ項目を抽出するための所定の文字列(以下、マークと呼ぶ。)を付与することにより、マーク付ページを生成するマーク付ページ作成手段と、
前記マーク付ページ作成手段において作成されたマーク付ページを解析し、前記データ抽出定義情報を生成するデータ抽出定義情報生成手段と、して機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004245197A JP2006065467A (ja) | 2004-08-25 | 2004-08-25 | データ抽出定義情報生成装置およびデータ抽出定義情報生成方法 |
US11/153,475 US20060047693A1 (en) | 2004-08-25 | 2005-06-16 | Apparatus for and method of generating data extraction definition information |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004245197A JP2006065467A (ja) | 2004-08-25 | 2004-08-25 | データ抽出定義情報生成装置およびデータ抽出定義情報生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006065467A true JP2006065467A (ja) | 2006-03-09 |
JP2006065467A5 JP2006065467A5 (ja) | 2007-01-25 |
Family
ID=35944656
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004245197A Withdrawn JP2006065467A (ja) | 2004-08-25 | 2004-08-25 | データ抽出定義情報生成装置およびデータ抽出定義情報生成方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20060047693A1 (ja) |
JP (1) | JP2006065467A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018026158A (ja) * | 2017-10-05 | 2018-02-15 | 華為技術有限公司Huawei Technologies Co.,Ltd. | データを記憶する方法及び装置 |
US10331642B2 (en) | 2013-08-29 | 2019-06-25 | Huawei Technologies Co., Ltd. | Data storage method and apparatus |
CN110909228A (zh) * | 2019-11-21 | 2020-03-24 | 上海建工集团股份有限公司 | 一种基于网络爬虫机制的数据抽取方法 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101094194B (zh) * | 2006-06-19 | 2010-06-23 | 腾讯科技(深圳)有限公司 | 一种提取Web页面中用户所需Web信息的方法 |
US20080033997A1 (en) * | 2006-08-04 | 2008-02-07 | Sap Portals (Israel) Ltd. | Transformation tool for migration of web-based content to portal |
WO2008090908A1 (ja) | 2007-01-23 | 2008-07-31 | Nec Corporation | マーカ生成及びマーカ検出のシステム、方法とプログラム |
US8402373B2 (en) * | 2008-10-10 | 2013-03-19 | Sharp Laboratories Of America, Inc. | Device cloning method for non-programmatic interfaces |
US8683311B2 (en) * | 2009-12-11 | 2014-03-25 | Microsoft Corporation | Generating structured data objects from unstructured web pages |
US9338158B2 (en) * | 2011-10-14 | 2016-05-10 | Open Text S.A. | System and method for secure content sharing and synchronization |
US9053201B2 (en) | 2012-02-29 | 2015-06-09 | Microsoft Technology Licensing, Llc | Communication with a web compartment in a client application |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3476185B2 (ja) * | 1999-12-27 | 2003-12-10 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報抽出システム、情報処理装置、情報収集装置、文字列抽出方法及び記憶媒体 |
US20030050969A1 (en) * | 2001-03-20 | 2003-03-13 | Sant Philip Anthony | Information integration system |
JP2003345697A (ja) * | 2002-05-27 | 2003-12-05 | Hitachi Ltd | 統合インタフェース提供方法、装置及び記憶媒体 |
-
2004
- 2004-08-25 JP JP2004245197A patent/JP2006065467A/ja not_active Withdrawn
-
2005
- 2005-06-16 US US11/153,475 patent/US20060047693A1/en not_active Abandoned
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10331642B2 (en) | 2013-08-29 | 2019-06-25 | Huawei Technologies Co., Ltd. | Data storage method and apparatus |
JP2018026158A (ja) * | 2017-10-05 | 2018-02-15 | 華為技術有限公司Huawei Technologies Co.,Ltd. | データを記憶する方法及び装置 |
CN110909228A (zh) * | 2019-11-21 | 2020-03-24 | 上海建工集团股份有限公司 | 一种基于网络爬虫机制的数据抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
US20060047693A1 (en) | 2006-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11372935B2 (en) | Automatically generating a website specific to an industry | |
CN109299446B (zh) | 报告生成方法及装置 | |
CN106682219B (zh) | 关联文档获取方法及装置 | |
US7730104B2 (en) | Extraction of information from structured documents | |
US20090019386A1 (en) | Extraction and reapplication of design information to existing websites | |
US20060047693A1 (en) | Apparatus for and method of generating data extraction definition information | |
JP4830637B2 (ja) | 電子文書更新通知装置及び電子文書更新通知方法 | |
US20170109442A1 (en) | Customizing a website string content specific to an industry | |
JP2006065467A5 (ja) | ||
JP5098605B2 (ja) | アノテーションプログラム、アノテーション装置 | |
EP0977130A1 (en) | Facility for selecting and printing web pages | |
US20030167262A1 (en) | Cross-search method and cross-search program | |
JP2005275488A (ja) | 入力支援方法およびプログラム | |
EP2711838A1 (en) | Documentation parser | |
JP5712496B2 (ja) | アノテーション復元方法、アノテーション付与方法、アノテーション復元プログラム及びアノテーション復元装置 | |
JP2009157797A (ja) | データ入力支援システム、データ入力支援方法及びプログラム | |
US8230327B2 (en) | Identifying statements requiring additional processing when forwarding a web page description | |
JP2011128970A (ja) | ウェブページ作成支援装置、ウェブページ作成支援方法、コンピュータプログラム | |
CN112926290B (zh) | 生成展示接口文档的***、方法及介质 | |
US8639732B2 (en) | Method for storing and reading-out data handled by application operating on HTTP client, data storage program, and data read-out program | |
KR100673333B1 (ko) | Html 전자문서 변형기법을 기반으로 하는 북마크 자동형성방법 및 시스템 | |
JP2014081958A (ja) | アノテーション付与方法、アノテーション復元方法、アノテーション付与装置及びアノテーション復元装置 | |
JP2005122504A (ja) | Webアプリケーション開発支援装置及び開発支援方法 | |
JP4887660B2 (ja) | 情報生成装置 | |
JP2019040261A (ja) | 情報処理装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061113 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061201 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20080905 |