JP2001236352A - 半構造化文書検索方法及び装置及び半構造化文書検索プログラムを格納した記憶媒体 - Google Patents

半構造化文書検索方法及び装置及び半構造化文書検索プログラムを格納した記憶媒体

Info

Publication number
JP2001236352A
JP2001236352A JP2000043427A JP2000043427A JP2001236352A JP 2001236352 A JP2001236352 A JP 2001236352A JP 2000043427 A JP2000043427 A JP 2000043427A JP 2000043427 A JP2000043427 A JP 2000043427A JP 2001236352 A JP2001236352 A JP 2001236352A
Authority
JP
Japan
Prior art keywords
semi
search
document
structured document
structured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000043427A
Other languages
English (en)
Other versions
JP3630062B2 (ja
Inventor
Takashi Hayashi
孝志 林
Yuichi Iizuka
裕一 飯塚
Shiro Kasuga
史朗 春日
Gengo Suzuki
源吾 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2000043427A priority Critical patent/JP3630062B2/ja
Publication of JP2001236352A publication Critical patent/JP2001236352A/ja
Application granted granted Critical
Publication of JP3630062B2 publication Critical patent/JP3630062B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 従来のSQLを用いて、検索要求時にSQL
で指定された項目に対して、XML文書から値を取得
し、動的に表を作成し、条件処理を行うことで検索を実
行し得るSQLによるXML文書内情報を検索すること
が可能な半構造化文書検索方法及び装置及び半構造化文
書検索プログラムを格納した記憶媒体を提供する。 【解決手段】 本発明は、入力された表形式で表現され
るリレーショナルデータベースを含むデータベースの検
索を行うための検索言語を解析する検索言語解析手段
と、文書要素及び該文書要素の階層構造で表現される半
構造化文書の構文を解析する半構造化文書解析手段と、
検索言語解析手段で解析された検索条件に合致した半構
造化文書の文書要素の値を取得する全検索手段と、文書
要素の値に基づいて文書要素間の関係を用いて検索結果
を表形式で出力する関係代数演算手段とを有する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、半構造化文書検索
方法及び装置及び半構造化文書検索プログラムを格納し
た記憶媒体に係り、特に、表形式で表現されるリレーシ
ョナルデータベース等を扱う検索言語を用いて文書要素
及びその階層構造で表現される半構造化文書内の情報を
検索するための半構造化文書検索方法及び装置及び半構
造化文書検索プログラムを格納した記憶媒体に関する。
【0002】詳しくは、文書における要素間の関係を保
持することで、検索要求時に検索式で指定された項目に
対して、文書から値を取得し、動的に表を作成し、条件
処理を行うことで検索を実行し得る検索言語による半構
造化文書検索方法及び装置及び半構造化文書検索プログ
ラムを格納した記憶媒体に関する。
【0003】
【従来の技術】近年、XML(eXtensible Markup Lang
uage: 拡張可能なマーク付言語) が、情報流通フォーマ
ットとして注目を集めており、電子商取引への応用が期
待されている。そこで、XML文書を効率良く検索する
技術が必要となってきている。XML文書は、文書要素
及びその階層構造により表現される。XML文書に対す
る検索言語は、XQLや、XML−QLなどが提案され
ているが、標準化されていない。一方、情報を管理・検
索する既存のシステムの中ではデータベースが重要な役
割を果しており、特に、リレーショナルデータベースが
普及している。
【0004】リレーショナルデータベースを扱う言語の
基準規格としてSQLが広く世の中で使われている。
【0005】
【発明が解決しようとする課題】しかしながら、情報源
としてXML文書とリレーショナルデータベースとが共
に存在することは以下のような問題を生じている。
【0006】(1) 検索インタフェースの不統一性 表形式のリレーショナルデータベースが普及しており、
検索言語としてSQLを用いるアプリケーションが多く
存在している。このようなアプリケーションから階層構
造により表現されるXML文書内の情報検索が行えな
い。
【0007】(2) 検索効率の悪化 所望の情報がリレーショナルデータベースとXML文書
に分散している場合、各々の情報源から検索する必要が
あり、効率が非常に悪い。
【0008】(3) 検索結果の不統一性 各々の情報源からの検索結果の形式が不統一なため、検
索結果の比較が困難である。
【0009】本発明は、上記の点に鑑みなされたもの
で、従来のSQLを用いて、検索要求時にSQLで指定
された項目に対して、XML文書から値を取得し、動的
に表を作成し、条件処理を行うことで検索を実行し得る
SQLによるXML文書内情報を検索することが可能な
半構造化文書検索方法及び装置及び半構造化文書検索プ
ログラムを格納した記憶媒体を提供することを目的とす
る。
【0010】
【課題を解決するための手段】図1は、本発明の原理を
説明するための図である。
【0011】本発明(請求項1)は、文書要素及び該文
書要素の階層構造で表現される半構造化文書内情報を検
索するための、半構造化文書検索方法において、文書要
素及び該文書要素の階層構造で表現される半構造化文書
の要素間の関係を保持しておき(ステップ1)、表形式
で表現されるリレーショナルデータベースを含むデータ
ベースの検索を行うための検索言語の検索式と、項目の
指定のための半構造化文書の要素名とを用いて、半構造
化文書の要素の値を取得し(ステップ2)、条件処理を
必要とする場合には(ステップ3)、所定の条件処理を
行い(ステップ4)、半構造化文書内の任意の情報を一
つの表形式で返却する(ステップ5)。
【0012】本発明(請求項2)は、文書要素及び該文
書要素の階層構造で表現される半構造化文書内情報を検
索するための、半構造化文書検索方法において、入力さ
れた表形式で表現されるリレーショナルデータベースを
含むデータベースの検索を行うための検索言語を解析
し、文書要素及び該文書要素の階層構造で表現される半
構造化文書の構文を解析し、検索項目に対応する半構造
化文書の解析結果にグルーピング番号を付与し、解析さ
れた半構造化文書の結果に基づいて、検索言語で指定さ
れた項目に対応する要素の半構造化文書階層構造上の位
置を取得し、グルーピング番号が付与された全項目に共
通する親要素名を検出し、グループ間で直積を取り、結
果リストを生成し、結果リストに対して関係代数演算を
行い、該結果リストに対して条件の比較を行い、条件を
満たした結果のみを検索結果として返却する。
【0013】本発明(請求項3)は、検索言語の検索式
に半構造化文書のJOINを指定し、複数の半構造化文
書における半構造化文書内情報をJOINし、ひとつの
表形式で返却する。
【0014】本発明(請求項4)は、検索言語の検索式
に半構造化文書のUNIONを指定し、複数の半構造化
文書における半構造化文書内情報をUNIONし、ひと
つの表形式で返却する。
【0015】図2は、本発明の原理構成図である。
【0016】本発明(請求項5)は、文書要素及び該文
書要素の階層構造で表現される半構造化文書内情報を検
索するための、半構造化文書検索装置であって、入力さ
れた表形式で表現されるリレーショナルデータベースを
含むデータベースの検索を行うための検索言語を解析す
る検索言語解析手段110と、文書要素及び該文書要素
の階層構造で表現される半構造化文書の構文を解析する
半構造化文書解析手段120と、検索言語解析手段11
0で解析された検索条件に合致した半構造化文書の文書
要素の値を取得する全検索手段140と、文書要素の値
に基づいて文書要素間の関係を用いて検索結果を表形式
で出力する関係代数演算手段150とを有する。
【0017】本発明(請求項6)は、検索言語解析手段
110により解析された検索項目に対応する半構造化文
書の解析結果にグルーピング番号を付与するグルーピン
グ手段を更に有し、全検索手段140において、半構造
化文書解析手段120で解析された半構造化文書の結果
に基づいて、検索言語で指定された項目に対応する要素
の半構造化文書階層構造上の位置を取得し、グルーピン
グ番号が付与された全項目に共通する親要素名を検出
し、グループ間で直積を取り、結果リストを生成する手
段を有し、関係代数演算手段150において、結果リス
トに対して関係代数演算を行い、該結果リストに対して
条件の比較を行い、条件を満たした結果のみを検索結果
として返却する手段を有する。
【0018】本発明(請求項7)は、全検索手段140
において、検索言語の検索式に半構造化文書のJOIN
を指定し、複数の半構造化文書における半構造化文書内
情報をJOINする手段を含む。
【0019】本発明(請求項8)は、全検索手段140
において、検索言語の検索式に半構造化文書のUNIO
Nを指定し、複数の半構造化文書における半構造化文書
内情報をUNIONする手段を含む。
【0020】本発明(請求項9)は、文書要素及び該文
書要素の階層構造で表現される半構造化文書内情報を検
索するための、半構造化文書検索プログラムを格納した
記憶媒体であって、入力された表形式で表現されるリレ
ーショナルデータベースを含むデータベースの検索を行
うための検索言語を解析する検索言語解析プロセスと、
文書要素及び該文書要素の階層構造で表現される半構造
化文書の構文を解析する半構造化文書解析プロセスと、
検索言語解析プロセスで解析された検索条件に合致した
半構造化文書の文書要素の値を取得する全検索プロセス
と、文書要素の値に基づいて文書要素間の関係を用いて
検索結果を表形式で出力する関係代数演算プロセスとを
有する。
【0021】本発明(請求項10)は、検索言語解析プ
ロセスにより解析された検索項目に対応する半構造化文
書の解析結果にグルーピング番号を付与するグルーピン
グプロセスを更に有し、全検索プロセスにおいて、半構
造化文書解析プロセスで解析された半構造化文書の結果
に基づいて、検索言語で指定された項目に対応する要素
の半構造化文書階層構造上の位置を取得し、グルーピン
グ番号が付与された全項目に共通する親要素名を検出
し、グループ間で直積を取り、結果リストを生成するプ
ロセスを有し、関係代数演算プロセスにおいて、結果リ
ストに対して関係代数演算を行い、該結果リストに対し
て条件の比較を行い、条件を満たした結果のみを検索結
果として返却するプロセスを有する。本発明(請求項1
1)は、全検索プロセスにおいて、検索言語の検索式に
半構造化文書のJOINを指定し、複数の半構造化文書
における半構造化文書内情報をJOINするプロセスを
含む。
【0022】本発明(請求項12)は、全検索プロセス
において、検索言語の検索式に半構造化文書のUNIO
Nを指定し、複数の半構造化文書における半構造化文書
内情報をUNIONするプロセスを含む。
【0023】上記のように、本発明では、XML文書に
おける要素間の関係を保持しておき、SQL文で指定さ
れた項目は、XML文書の要素に対応し、検索要求時に
SQLで指定された項目に対して、XML文書から値を
取得し、動的に表を作成し、取得した表において条件処
理を必要とする場合には、条件処理を施し、統一フォー
マットの検索結果を出力するため、XML文書内の情報
を一つの表形式で返却する、XML文書情報の検索を行
うことが可能となる。
【0024】また、本発明では、SQL文で指定された
複数のXML文書に対して、XML文書の要素間の関係
を保持し、それぞれ前述の処理を行い、条件処理を必要
とする場合には、条件処理を施し、動的に作成された複
数の表の間でJOINし、複数のXML文書内の情報を
一つの表形式で返却する、複数XML文書情報の検索を
行うことが可能となる。
【0025】また、本発明では、SQL文で指定された
複数のXML文書に対して、XML文書の要素間の関係
を保持し、それぞれ前述の手段を行い、条件処理を必要
とする場合には、条件処理を施し、動的に作成された表
の間でUNIONし、複数のXML文書内の情報を一つ
の表形式で返却する、複数XML文書情報の検索を行う
ことが可能となる。
【0026】
【発明の実施の形態】まず、以下の説明において使用さ
れる用語について説明する。
【0027】SQL文:リレーショナルデータベースを
扱うための言語であり、同様の文法でXML文書を扱
う。
【0028】要素:<要素名>要素の内容</要素名>
で表されるXML文書の内容の単位 項目:SQL文の句で指定される。以下の説明でのSQ
L文ではXML文書の要素名を指定する。複数のXML
文書に同一の要素名が存在しても、予めファイル名で区
別しておき、一意に指定可能。
【0029】属性:XML文において要素に付けられた
付属情報。
【0030】1対1関係:XML文書の同一階層におい
て、ある要素が存在するときに、必ず対応する要素が存
在する関係。
【0031】グルーピング番号:検索項目に対する関係
を表すグループを識別するために付与された番号、検索
項目のグルーピング番号が同一である場合、その関係は
1対1関係となる。
【0032】本発明では、既存のリレーショナルデータ
ベースで管理されている情報と同様に、XML文書を扱
い、複数のXML文書内の情報をSQLにより効率的に
検索するシステムを構築するために以下の点について解
決する。
【0033】(1) 検索インタフェースの統一:検索
言語としてSQLを用いることで、従来のアプリケーシ
ョンからXML文書内情報の検索を行えるようにする。
【0034】(2) 複数のXML文書からの検索:複
数のXML文書におけるXML文書内情報をJOINや
UNIONし、一つの表形式で返却する検索方法を用い
る。
【0035】(3) 検索結果の統一:XML文書から
の検索結果を表形式とすることで、既存のリレーショナ
ルデータベースから検索結果を統一する。
【0036】上記の内容を行うために、階層構造モデル
をリレーショナルモデルに写像する必要がある。このた
めには、検索する前に一括してXML文書を階層構造に
従い分割し、リレーショナルデータベースに格納する方
式が考えられる。しかし、XML文書を一括してリレー
ショナルモデルに変換する方式では、検索が高速に行え
るといった性能的なメリットがある反面、文書の論理構
造のわずかな変化がデータベーススキーマに影響を及ぼ
すために、構造の変更が多い文書の管理には不向きであ
る。そこで、内容・構造が変更される可能性が高いXM
L文書内の情報をSQLにより検索するシステムを構築
するためには、以下の点を解決する必要がある。
【0037】(4) 動的なリレーショナルモデルへの
写像:検索要求時にSQLで指定された項目に対して、
XML文書から要素の値を取得し、動的にリレーショナ
ルモデルに写像していく。
【0038】図3は、本発明のデータベース検索言語に
よる半構造化文書内情報の検索装置の構成を示す。
【0039】ユーザは、検索装置100にアプリケーシ
ョンプログラム300を介して、SQL検索文を入力
し、検索装置100は、XML文書200内からSQL
検索文に指定された情報を検索し、検索装置100は、
XML文書200内からSQL検索文に指定された情報
を検索し、検索装置100は、アプリケーションプログ
ラム300に検索結果を表形式で返却するものである。
【0040】同図に示す検索装置100は、SQL文解
析モジュール110、XMLパーサ120、グルーピン
グモジュール130、全検索モジュール140、関係代
数演算処理モジュール150から構成される。
【0041】SQL文解析モジュール110は、アプリ
ケーションプログラム300から入力されるSQL文を
解析し、検索結果項目、検索条件項目や関係代数演算項
目、検索対象情報源を抽出する。
【0042】XMLパーサ120は、検索対象情報源に
指定されたXML文書を読み込み、XML文書の構文解
析を行い、要素を階層構造に展開する。
【0043】グルーピングモジュール130は、グルー
ピング番号を付与する。
【0044】全検索処理モジュール140は、検索条件
項目に指定された項目に対応するXML文書の要素の値
を抽出する。
【0045】関係代数演算処理モジュール150は、検
索条件項目や関係代数演算項目に基づいて、抽出された
XML文書の値に対して処理を行い、検索結果を得る。
【0046】上記SQLによるXML文書内情報の検索
装置100は、 (1)SQL文解析処理; (2)XML文書解析処理 (3)グルーピング処理 (4)全検索処理 (5)関係代数演算処理;の5段階の処理を実施する。
【0047】
【実施例】以下、図面と共に本発明の実施例を説明す
る。
【0048】検索装置100の前述の(1)から(5)
の処理を図4に示すXML文書と図5に示すSQL文を
用いて説明する。
【0049】図6は、本発明の検索処理のフローチャー
トである。
【0050】ステップ100) SQL文解析処理:上
記SQL文解析モジュール110にアプリケーションプ
ログラムを介して、図5に示すSQL文が入力される。
SQL文が解析され、検索結果項目を示すSELECT
項目、検索条件項目を示すWHERE項目、検索対象情
報源を示すFROM項目を抽出する。図5のSQL文
は、図4のXML文書の“reciple-book”要素以下の含
まれる情報を検索対象となる表として指定し、ing 要素
が“バター”という検索条件で要素「name」、要素「in
g 」、要素「amount」を結果として並べた表形式で返却
する問い合わせを示す。
【0051】ステップ200) XML文書解析処理:
上記のXMLパーサ120によってSQL文のFROM
項目で指定されたXML文書を読み込み、その構文を解
析する。図4のXML文書の要素を階層構造に展開した
様子を図7に示す。
【0052】ステップ300) グルーピング処理:上
記グルーピングモジュール130によって検索項目に対
してグルーピング番号を付与する。1対1関係はXML
文書の文書型定義で参照される。図5のSQL文の場
合、 文書型定義:<!ELEMENT in-list(ing,amout)+> となっており、検索項目の要素ing と要素amountが1対
1関係である。従って、同一のグルーピング番号が付与
される。
【0053】文書型定義がない場合はXMLパーサ40
0によって解析されたXML文書の階層構造の親子関係
から1対1関係を推定する。これは、図7の階層構造に
おいて同一階層の検索項目の要素ing と要素amountとが
必ず1対1で存在することがわかる。図5のSQL文の
検索項目に対してグルーピング番号を付与した例を表1
に示す。
【0054】
【表1】 図8のXML文書に示すように文書型定義がない場合
は、XMLパーサ120によって解析されたXML文書
の階層構造の親子関係を利用して、検索項目に対してグ
ルーピング番号を付与する。
【0055】以下にその具体的な手順を示す。 ・ SQL文で指定された検索項目に対応するXML文
書の要素に対して、XML文書内での出現順に番号を付
与する。図8のXML文書では、name要素に0、ing 要
素に1、amount要素に2が付与される。 ・ XML文書をXMLパーサ120により解析する。
これは、図8のXML文書では図7のように解析され
る。同一階層の場合、XML文書の要素は、順に左側か
ら並べられる。 ・ 1対1の関係があれば、同じ番号にして、これをグ
ルーピング番号とするing 要素とamount要素は、図7の
階層構造において同一階層上の繰り返しの関係にあり、
必ず1対1で存在することがわかるので、amount要素の
番号を1にしてグルーピング番号とする(表1に示す文
書型定義がある場合のグルーピング番号と同一にな
る)。
【0056】ステップ400) 全検索処理:前述の全
検索処理モジュール140で行われる処理である。図9
は、本発明の一実施例の全検索処理のフローチャートで
ある。
【0057】前述のXMLパーサ120で解析された結
果を元に、SQL文で指定されたSELECT項目とW
HERE項目に対応する要素のXML文書階層構造上の
位置を取得する(ステップ401)。図4のXML文書
の場合、表2に示すようになる。
【0058】
【表2】 以上の取得結果より、全項目に共有する親要素名を検出
する(ステップ402)。表2の場合、/recipe とな
る。次に、グループ中で共通の親を取得する(ステップ
403)。グループ0にとっては、/recipe 、グループ
0 にとっては、/ing-list となる。
【0059】グループ内の共通の親からたどって、SQ
L文で指定された項目に対応するXML文書の要素の値
を取得する処理をグループ内の項目数分繰り返す。この
とき、属性がある場合には、属性を要素と1対1で取得
する。グループの数分、上記処理を繰り返し(ステップ
404)、グループ間で直積をとる(ステップ40
5)。上記処理を共通の親の数分繰り返す。図4のXM
L文書に対して図5のSQL分で値を取得し、直積をと
った結果を表3、表4に示す。
【0060】
【表3】
【0061】
【表4】 直積をとって作られた全レコードから結果リストを生成
する。結果リストの例を表5に示す。
【0062】
【表5】 ステップ500) 関係代数演算処理:前述の関係代数
演算処理モジュール150を用いて、全検索処理(ステ
ップ400)で得られた結果リスト(表5)に対して関
係代数演算を行う。図5のSQL分の場合、SQL分解
析処理(ステップ100)で検索条件項目を示すWHE
RE項目が抽出されているので、全検索処理(ステップ
400)で得られた結果リスト(表5)に対して条件の
比較を行う。条件が「偽」の場合は削除を行い、条件を
満たした結果のみを残す。表6に最終的な結果を示す。
【0063】
【表6】 次に、SQL文で指定された複数のXML文書に対して
検索を行い、一つの表形式で返却する具体例について説
明する。
【0064】(1) JOINの場合:アプリケーショ
ンプログラム300を介して、入力されたSQL文をS
QL文解析モジュール110が解析する。図10にJO
INを含んだSQL文を示す。検索対象情報源を示すF
ROM項目に複数のXML文書名あるいは、別名を付与
された同一のXML文書が指定されている。
【0065】SQL文解析モジュール110は、入力さ
れたSQL文をFROM項目に指定されているXML文
書の数に分解する。図10のSQL文を分解して得られ
た複数のSQL文を図11、図12に示す。
【0066】図11のSQL文は、図4のXML文書の
recipe-book 要素以下に含まれる情報を検索対象となる
表として指定する。
【0067】図12のSQL文は、図13のXML文書
の要素以下に含まれる情報を検索対象となる表として指
定する。
【0068】そして、上記の実施例で述べたSQLによ
るXML文書内情報の検索をそれぞれのXML文書につ
いて行い、動的に表を作成する。
【0069】上記の関係代数演算処理モジュール150
によって、作成された複数の表の間でJOINし、複数
のXML文書内の情報を一つの表形式で返却する。表7
に最終的な結果を示す。
【0070】
【表7】 (2) UNIONの場合:アプリケーションプログラ
ム300を介して入力されたSQL文をSQL文解析モ
ジュール110が解析する。図14にUNIONを含ん
だSQL文を示す。SQL文解析モジュール110は、
UNIONで結ばれた複数のSQL文を分解する。図1
4のSQL文を分解して得られた複数のSQL文を図1
5、図16に示す。
【0071】そして、上記の実施例で述べたSQLによ
るXML文書内情報の検索をそれぞれのSQL文につい
て行い、動的に表を作成する。
【0072】上記、関係代数演算処理モジュール150
によって、作成された複数の表の間でUNIONし、複
数のXML文書内の情報を一つの表形式で返却する。表
8に最終的な結果を示す。
【0073】
【表8】 また、上記の実施例では、図3に示す検索装置の構成に
基づいて説明したが、同図に示す、SQL文解析モジュ
ール110、XMLパーサ120、グルーピングモジュ
ール130、全検索処理モジュール140、関係代数演
算処理モジュール150をプログラムとして構築し、検
索装置として利用されるコンピュータに接続されるディ
スク装置や、フロッピーディスク、CD−ROM等の可
搬記憶媒体に格納しておき、本発明を実施する際にイン
ストールすることにより、容易に本発明を実現できる。
【0074】なお、本発明は、上記の実施例に限定され
ることなく、特許請求の範囲内において、種々変更・応
用が可能である。
【0075】
【発明の効果】上述のように、本発明によれば、検索言
語としてSQLを用いることで、従来のアプリケーショ
ンからXML文書内情報の検索が可能となる。複数のX
ML文書におけるXML文書内情報をJOINやUNI
ONし、一つの表形式で返却する検索が可能となる。ま
た、XML文書からの検索結果を表形式とするとで、既
存のリレーショナルデータベースからの検索結果と統一
することができる。
【0076】また、検索要求時にSQL文で指定された
項目に対応するXML文書要素の値を取得し、動的に表
を作成し、条件処理を行うことで、内容・構造が変更さ
れる可能性が高いXML文書内の情報検索が可能とな
る。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明のデータベース検索言語による半構造化
文書内情報の検索装置の構成図である。
【図4】本発明の一実施例のXML文書の例(その1)
である。
【図5】本発明の一実施例のSQL文の例である。
【図6】本発明の一実施例の検索処理のフローチャート
である。
【図7】本発明の一実施例のXML文書の要素を階層構
造に展開した例である。
【図8】本発明の一実施例の文書型定義がないXML文
書の例である。
【図9】本発明の一実施例の全検索処理のフローチャー
トである。
【図10】本発明の一実施例のJOINを含んだSQL
文の例である。
【図11】本発明の一実施例の図10のSQL文を分解
して得られたSQL文の例(その1)である。
【図12】本発明の一実施例の図10のSQL文を分解
して得られたSQL文の例(その2)である。
【図13】本発明の一実施例のXML文書の例(その
2)である。
【図14】本発明の一実施例のUNIONを含んだSQ
L文の例である。
【図15】本発明の一実施例の図14のSQL文を分解
して得られたSQL文の例(その1)である。
【図16】本発明の一実施例の図14のSQL文を分解
して得られたSQL文の例(その2)である。
【符号の説明】
100 検索装置 110 検索言語解析手段、SQL文解析モジュール 120 半構造化文書解析手段、XMLパーサ 130 グルーピング手段、グルーピングモジュール 140 全検索手段、全検索処理モジュール 150 関係代数演算手段、関係代数演算処理モジュー
ル 200 XML文書 300 アプリケーションプログラム
───────────────────────────────────────────────────── フロントページの続き (72)発明者 春日 史朗 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 (72)発明者 鈴木 源吾 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 Fターム(参考) 5B075 ND03 ND35 PP23 PQ02 PQ60 QS20 QT06 UU06

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 文書要素及び該文書要素の階層構造で表
    現される半構造化文書内情報を検索するための、半構造
    化文書検索方法において、 文書要素及び該文書要素の階層構造で表現される半構造
    化文書の要素間の関係を保持しておき、 表形式で表現されるリレーショナルデータベースを含む
    データベースの検索を行うための検索言語の検索式と、
    項目の指定のための前記半構造化文書の要素名とを用い
    て、半構造化文書の要素の値を取得し、 条件処理を必要とする場合には、所定の条件処理を行
    い、 前記半構造化文書内の任意の情報を一つの表形式で返却
    することを特徴とする半構造化文書検索方法。
  2. 【請求項2】 文書要素及び該文書要素の階層構造で表
    現される半構造化文書内情報を検索するための、半構造
    化文書検索方法において、 入力された表形式で表現されるリレーショナルデータベ
    ースを含むデータベースの検索を行うための検索言語を
    解析し、 文書要素及び該文書要素の階層構造で表現される半構造
    化文書の構文を解析し、 検索項目に対応する前記半構造化文書の解析結果にグル
    ーピング番号を付与し、 解析された半構造化文書の結果に基づいて、前記検索言
    語で指定された項目に対応する要素の半構造化文書階層
    構造上の位置を取得し、前記グルーピング番号が付与さ
    れた全項目に共通する親要素名を検出し、グループ間で
    直積を取り、結果リストを生成し、 前記結果リストに対して関係代数演算を行い、該結果リ
    ストに対して条件の比較を行い、条件を満たした結果の
    みを検索結果として返却することを特徴とする半構造化
    文書検索方法。
  3. 【請求項3】 前記検索言語の検索式に半構造化文書の
    JOINを指定し、 複数の半構造化文書における半構造化文書内情報をJO
    INし、ひとつの表形式で返却する請求項2記載の半構
    造化文書検索方法。
  4. 【請求項4】 前記検索言語の検索式に半構造化文書の
    UNIONを指定し、 複数の半構造化文書における半構造化文書内情報をUN
    IONし、ひとつの表形式で返却する請求項2記載の半
    構造化文書検索方法。
  5. 【請求項5】 文書要素及び該文書要素の階層構造で表
    現される半構造化文書内情報を検索するための、半構造
    化文書検索装置であって、 入力された表形式で表現されるリレーショナルデータベ
    ースを含むデータベースの検索を行うための検索言語を
    解析する検索言語解析手段と、 文書要素及び該文書要素の階層構造で表現される半構造
    化文書の構文を解析する半構造化文書解析手段と、 前記検索言語解析手段で解析された検索条件に合致した
    半構造化文書の文書要素の値を取得する全検索手段と、 前記文書要素の値に基づいて文書要素間の関係を用いて
    検索結果を表形式で出力する関係代数演算手段とを有す
    ることを特徴とする半構造化文書検索装置。
  6. 【請求項6】 前記検索言語解析手段により解析された
    検索項目に対応する前記半構造化文書の解析結果にグル
    ーピング番号を付与するグルーピング手段を更に有し、 前記全検索手段は、 前記半構造化文書解析手段で解析された半構造化文書の
    結果に基づいて、前記検索言語で指定された項目に対応
    する要素の半構造化文書階層構造上の位置を取得し、前
    記グルーピング番号が付与された全項目に共通する親要
    素名を検出し、グループ間で直積を取り、結果リストを
    生成する手段を有し、 前記関係代数演算手段は、 前記結果リストに対して関係代数演算を行い、該結果リ
    ストに対して条件の比較を行い、条件を満たした結果の
    みを検索結果として返却する手段を有する請求項5記載
    の半構造化文書検索装置。
  7. 【請求項7】 前記全検索手段は、 前記検索言語の検索式に半構造化文書のJOINを指定
    し、複数の半構造化文書における半構造化文書内情報を
    JOINする手段を含む請求項5記載の半構造化文書検
    索装置。
  8. 【請求項8】 前記全検索手段は、 前記検索言語の検索式に半構造化文書のUNIONを指
    定し、複数の半構造化文書における半構造化文書内情報
    をUNIONする手段を含む請求項5記載の半構造化文
    書検索装置。
  9. 【請求項9】 文書要素及び該文書要素の階層構造で表
    現される半構造化文書内情報を検索するための、半構造
    化文書検索プログラムを格納した記憶媒体であって、 入力された表形式で表現されるリレーショナルデータベ
    ースを含むデータベースの検索を行うための検索言語を
    解析する検索言語解析プロセスと、 文書要素及び該文書要素の階層構造で表現される半構造
    化文書の構文を解析する半構造化文書解析プロセスと、 前記検索言語解析プロセスで解析された検索条件に合致
    した半構造化文書の文書要素の値を取得する全検索プロ
    セスと、 前記文書要素の値に基づいて文書要素間の関係を用いて
    検索結果を表形式で出力する関係代数演算プロセスとを
    有することを特徴とする半構造化文書検索プログラムを
    格納した記憶媒体。
  10. 【請求項10】 前記検索言語解析プロセスにより解析
    された検索項目に対応する前記半構造化文書の解析結果
    にグルーピング番号を付与するグルーピングプロセスを
    更に有し、 前記全検索プロセスは、 前記半構造化文書解析プロセスで解析された半構造化文
    書の結果に基づいて、前記検索言語で指定された項目に
    対応する要素の半構造化文書階層構造上の位置を取得
    し、前記グルーピング番号が付与された全項目に共通す
    る親要素名を検出し、グループ間で直積を取り、結果リ
    ストを生成するプロセスを有し、 前記関係代数演算プロセスは、 前記結果リストに対して関係代数演算を行い、該結果リ
    ストに対して条件の比較を行い、条件を満たした結果の
    みを検索結果として返却するプロセスを有する請求項9
    記載の半構造化文書検索プログラムを格納した記憶媒
    体。
  11. 【請求項11】 前記全検索プロセスは、 前記検索言語の検索式に半構造化文書のJOINを指定
    し、複数の半構造化文書における半構造化文書内情報を
    JOINするプロセスを含む請求項10記載の半構造化
    文書検索プログラムを格納した記憶媒体。
  12. 【請求項12】 前記全検索プロセスは、 前記検索言語の検索式に半構造化文書のUNIONを指
    定し、複数の半構造化文書における半構造化文書内情報
    をUNIONするプロセスを含む請求項10記載の半構
    造化文書検索プログラムを格納した記憶媒体。
JP2000043427A 2000-02-21 2000-02-21 半構造化文書検索方法及び装置及び半構造化文書検索プログラムを格納した記憶媒体 Expired - Fee Related JP3630062B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000043427A JP3630062B2 (ja) 2000-02-21 2000-02-21 半構造化文書検索方法及び装置及び半構造化文書検索プログラムを格納した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000043427A JP3630062B2 (ja) 2000-02-21 2000-02-21 半構造化文書検索方法及び装置及び半構造化文書検索プログラムを格納した記憶媒体

Publications (2)

Publication Number Publication Date
JP2001236352A true JP2001236352A (ja) 2001-08-31
JP3630062B2 JP3630062B2 (ja) 2005-03-16

Family

ID=18566348

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000043427A Expired - Fee Related JP3630062B2 (ja) 2000-02-21 2000-02-21 半構造化文書検索方法及び装置及び半構造化文書検索プログラムを格納した記憶媒体

Country Status (1)

Country Link
JP (1) JP3630062B2 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271668A (ja) * 2002-03-15 2003-09-26 Toshiba Corp 構造化データ管理プログラム及び方法並びに装置
JP2003316783A (ja) * 2002-04-24 2003-11-07 Nippon Telegr & Teleph Corp <Ntt> 異種半構造化情報源統合検索装置、方法、プログラム及び該プログラムを記録した記録媒体
KR100456027B1 (ko) * 2002-12-10 2004-11-08 한국전자통신연구원 지-에프큐엘을 이용한 이비엑스엠엘 필터질의 변환 장치및 방법
JP2004348479A (ja) * 2003-05-22 2004-12-09 Nippon Telegr & Teleph Corp <Ntt> 検索装置、検索方法、検索プログラム、および検索プログラム記録媒体
KR100487738B1 (ko) * 2001-12-26 2005-05-06 한국전자통신연구원 데이터베이스 질의어와 밀결합된 엑스.엠.엘 질의어를지원하는 엑스.엠.엘 문서 검색장치 및 그 방법
JP2009537906A (ja) * 2006-05-15 2009-10-29 イクスプラダ コーポレイション データの記憶及び検索を行うためのシステム及び方法
JP2010525477A (ja) * 2007-04-26 2010-07-22 エヌエイチエヌ コーポレーション ウェブログの時系列分析のためのデータ格納および照会方法及びその方法を実行するシステム
JP2014056282A (ja) * 2012-09-11 2014-03-27 Konica Minolta Inc データ検索プログラム及びデータ検索装置
CN111078947A (zh) * 2019-11-19 2020-04-28 太极计算机股份有限公司 基于xml的领域要素提取配置语言***
CN111597205A (zh) * 2020-05-26 2020-08-28 北京金堤科技有限公司 模板配置方法、信息提取方法、装置以及电子设备、介质

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100487738B1 (ko) * 2001-12-26 2005-05-06 한국전자통신연구원 데이터베이스 질의어와 밀결합된 엑스.엠.엘 질의어를지원하는 엑스.엠.엘 문서 검색장치 및 그 방법
JP2003271668A (ja) * 2002-03-15 2003-09-26 Toshiba Corp 構造化データ管理プログラム及び方法並びに装置
JP2003316783A (ja) * 2002-04-24 2003-11-07 Nippon Telegr & Teleph Corp <Ntt> 異種半構造化情報源統合検索装置、方法、プログラム及び該プログラムを記録した記録媒体
KR100456027B1 (ko) * 2002-12-10 2004-11-08 한국전자통신연구원 지-에프큐엘을 이용한 이비엑스엠엘 필터질의 변환 장치및 방법
JP2004348479A (ja) * 2003-05-22 2004-12-09 Nippon Telegr & Teleph Corp <Ntt> 検索装置、検索方法、検索プログラム、および検索プログラム記録媒体
JP2009537906A (ja) * 2006-05-15 2009-10-29 イクスプラダ コーポレイション データの記憶及び検索を行うためのシステム及び方法
JP2010525477A (ja) * 2007-04-26 2010-07-22 エヌエイチエヌ コーポレーション ウェブログの時系列分析のためのデータ格納および照会方法及びその方法を実行するシステム
JP2014056282A (ja) * 2012-09-11 2014-03-27 Konica Minolta Inc データ検索プログラム及びデータ検索装置
CN111078947A (zh) * 2019-11-19 2020-04-28 太极计算机股份有限公司 基于xml的领域要素提取配置语言***
CN111078947B (zh) * 2019-11-19 2023-06-02 太极计算机股份有限公司 基于xml的领域要素提取配置语言***
CN111597205A (zh) * 2020-05-26 2020-08-28 北京金堤科技有限公司 模板配置方法、信息提取方法、装置以及电子设备、介质
CN111597205B (zh) * 2020-05-26 2024-02-13 北京金堤科技有限公司 模板配置方法、信息提取方法、装置以及电子设备、介质

Also Published As

Publication number Publication date
JP3630062B2 (ja) 2005-03-16

Similar Documents

Publication Publication Date Title
US8103705B2 (en) System and method for storing text annotations with associated type information in a structured data store
Schmidt et al. Efficient relational storage and retrieval of XML documents
US8862636B2 (en) Scalable algorithms for mapping-based XML transformation
US5884304A (en) Alternate key index query apparatus and method
US5870739A (en) Hybrid query apparatus and method
US10915575B2 (en) Evaluating XML full text search
Jensen et al. Converting XML DTDs to UML diagrams for conceptual data integration
US8145641B2 (en) Managing feature data based on spatial collections
Mani et al. XML to relational conversion using theory of regular tree grammars
JP2001147933A (ja) 構造化文書検索方法、構造化文書検索装置及び構造化文書検索システム
KR101654717B1 (ko) 지식 데이터베이스 기반 구조화된 질의 생성 방법 및 장치
Hassanzadeh et al. Helix: Online enterprise data analytics
JP2001236352A (ja) 半構造化文書検索方法及び装置及び半構造化文書検索プログラムを格納した記憶媒体
KR101221306B1 (ko) 데이터 구조를 항해하기 위한 방법 및 시스템
CN111475534B (zh) 一种数据查询方法及相关设备
Li et al. GML storage: a spatial database approach
Nassiri et al. Integrating xml and relational data
US20060136483A1 (en) System and method of decomposition of multiple items into the same table-column pair
JP2002063165A (ja) 情報検索方法および情報検索システムおよび情報検索プログラムおよび情報検索プログラムを記録した記録媒体
Droop et al. Bringing the XML and semantic web worlds closer: transforming XML into RDF and embedding XPath into SPARQL
Davis et al. An XML/XPath query language and XMark performance study
JP5374456B2 (ja) 文書検索装置の動作方法およびこれをコンピュータに実行させるためのコンピュータプログラム
Krishnamurthy et al. XML views as integrity constraints and their use in query translation
Zaslavsky et al. Query evaluation and presentation planning within a spatial mediator: extending XML-based mediation to heterogeneous sources of GIS and imagery data
Jain Plug-And-Play Web Services

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040817

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041015

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041207

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071224

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081224

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091224

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101224

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101224

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111224

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111224

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121224

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees