JP3754253B2 - 構造化文書検索方法、構造化文書検索装置及び構造化文書検索システム - Google Patents

構造化文書検索方法、構造化文書検索装置及び構造化文書検索システム Download PDF

Info

Publication number
JP3754253B2
JP3754253B2 JP33023699A JP33023699A JP3754253B2 JP 3754253 B2 JP3754253 B2 JP 3754253B2 JP 33023699 A JP33023699 A JP 33023699A JP 33023699 A JP33023699 A JP 33023699A JP 3754253 B2 JP3754253 B2 JP 3754253B2
Authority
JP
Japan
Prior art keywords
search
node
structured document
plan
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP33023699A
Other languages
English (en)
Other versions
JP2001147933A (ja
Inventor
雅一 服部
克彦 野々村
拓也 金輪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP33023699A priority Critical patent/JP3754253B2/ja
Priority to US09/714,627 priority patent/US7054854B1/en
Publication of JP2001147933A publication Critical patent/JP2001147933A/ja
Application granted granted Critical
Publication of JP3754253B2 publication Critical patent/JP3754253B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying
    • G06F16/835Query processing
    • G06F16/8365Query optimisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、論理構造を持つ構造化文書データベースに対して、文書の論理構造を含む検索要求に基づいて検索を行う構造化文書検索方法、構造化文書検索装置及び構造化文書検索システムに関する。
【0002】
【従来の技術】
従来から文書データベースに対する検索要求を指定する方法としてキーワード指定がある。ユーザが検索要求をキーワード列という形式で文書データベースに要求すると、キーワード列を含んでいる文書群を返すというものである。
【0003】
このような素朴で原始的な検索要求方式は、全文検索エンジンなどに広く適用されているが、それゆえ、(1)必要以上の文書群が検索されてしまうという低い精度の問題や、(2)利用部分以外のデータまで含んだ文書がデータ単位であるという粒度の問題がある。
【0004】
近年、SGML(Standard Generalized MarkupLanguage)やXML(eXtensible Markup Language)などの構造化文書のための構造化文書規約が提案され、文書構造に基づいた検索要求の指定により、(1)従来のキーワード検索よりも精度の高い検索と、(2)利用部分だけのデータが得られるという木目細かい検索が可能になっている。しかしながら、この場合、予め文書構造を固定的なものに統一する必要があり、後から文書構造の変更ができない、あるいはデータ毎に文書構造を変えることができないという欠点がある。
【0005】
一方、RDB(Relational DataBase)では、表の構造に基づいた検索要求をSQL言語によって指定することができる。SQLは、ANSI X3,1、およびISO/TC97/SC21/WG3 N117(1987)において標準化されたRDBの問合せ言語である。しかしながら、文書構造はそのまま表形式に変換することは困難であり、RDBを文書データベースとしてそのまま用いることはできない。
【0006】
さらに、SGMLやXMLなどの構造化文書データベースに対するOODB(Object Oriented DataBase)で用いられた検索言語を適用する方法が考えられる。構造化文書は階層的な構造を持つため、各構成要素をオブジェクトとみなしたOODBと親和性が高いと考えられる。しかしながら、OODBでは、文書構造はあらかじめスキーマにより決定されていなければならず、子要素の任意繰り返しなど、オブジェクトモデルでモデル化するのは困難であり、オブジェクト指向データベースを文書データベースとしてそのまま用いることはできない。
【0007】
このような問題を解決するために、文書リポジトリに対して、SQLへ構造化文書に適した拡張機能を追加した言語処理部を装備することが考えられている。構造化文書に適した拡張機能には、階層的な構造上の構成要素を特定するパス指定が第一に挙げられる。さらに、階層的な構造上の構成要素を特定するパスに正規表現などの曖昧性を含んだ曖昧パス指定や、階層的な構造のパターンを指定する構造パターン指定など、構造化文書が持つ構造的な揺らぎを吸収するような機能がSQLをベースに拡張されている。
【0008】
これらの特徴を持った検索要求を指定でき、かつ検索処理できる方式を提案しているものに、特開平6−203078号公報、特開平6−301721号公報、特開平11−15843号公報がある。
【0009】
特開平6−203078号公報(情報検索方法およびその装置)では、階層構造を全展開したパス集合を文字列表としてRDBに格納する方式を提案している。構造化文書を検索するとき、文字列表のパスを検索文の曖昧パスと文字列比較するSQLを発行することで、階層的な構造上の構成要素を特定している。この方式の問題点は、登録された文書数が増大すると、階層構造を全展開した文字列表が膨大なサイズになってしまうことである。
【0010】
特開平6−301721号公報(全文データベース検索方式)では、構成要素タイプをあらかじめ決めておき、その階層構造の親子関係や実データへのリンクなどを構成要素タイプ毎に構造情報としてRDB化する方法を提案している。構造化文書を検索するとき、検索要求をSQL文に変換している。この方式の問題点は、ルート要素から始まって、親要素から子供要素群へと展開して、階層的な構造上の構成要素を特定する検索処理方式であるため、登録された文書数が増大し階層木の深さと幅が増大すると、検索処理に要する計算量が膨大なものになってしまうことである。RDBの結合で展開処理を行っているため、実装システムは想像を超えた応答時間が予想される。特に曖昧パスが指定されたときは、その傾向が激しくなる。
【0011】
特開平11−15843号公報(SGML文書検索装置およびSGML文書検索方法)でも、構成要素タイプをあらかじめ決めておき、構成要素タイプ毎にデータを文字列結合した文書テーブルを作成しておく。構造化文書を検索するとき、検索要求をSQL文に変換している。この方式の問題点は、構成要素タイプ毎にデータをただ単に文字列結合するため、1段レベルのパスしか指定できないことである。さらに、あらかじめ文書構造が決まっていなければならず、文章が持つ階層構造に対する柔軟な検索要求は発行できない、などの問題点も抱えている。
【0012】
これらの方式では、データに対するインデックスと構造に関するインデックスを適切に組み合わせて、検索処理に要する計算量を抑えるようになっておらず、RDBのような最適化を入れにくい仕組みとなっている。
【0013】
【発明が解決しようとする課題】
以上説明したように従来の技術では、(1)(曖昧パスを含む)文書が持つ階層構造に対する多様な検索指定を行うことと、(2)検索処理に要する計算量を膨大なものとしないことというトレードオフの関係にある2つの要求を同時に満足させることは困難であった。
【0014】
本発明は、上記事情を考慮してなされたもので、検索処理に要する計算量の増大を伴わずに、(曖昧パスを含む)文書が持つ階層構造に対する多様な検索指定を行うことを可能とした、構造化文書検索方法、構造化文書検索装置及び構造化文書検索システムを提供することを目的とする。
【0015】
【課題を解決するための手段】
本発明(請求項1)は、論理構造を持つ構造化文書データベースに対して、文書の論理構造を含む検索要求に基づいて検索を行う構造化文書検索方法であって、前記検索要求に基づいて、文書の構造情報を含む検索グラフを生成し、前記構造化文書データベースにおける実データに関するインデックス情報を利用して、前記検索グラフから、前記構造化文書データベースに対する検索処理手順を示す検索プランを生成し、前記構造化文書データベースを検索対象として前記検索プランを実行することによって、前記検索要求を満足する検索結果を求めることを特徴とする。
【0016】
好ましくは、前記検索プランの生成においては、前記インデックス情報を利用しながら前記検索グラフを巡回することによって最適な検索プランを生成するようにしてもよい。
【0017】
好ましくは、前記検索グラフ中において評価可能な部分グラフを優先的に評価する戦略に基づいて前記検索グラフを巡回するようにしてもよい。
【0018】
好ましくは、前記検索プランの生成が全て完了した後に、該検索プランの実行を行うようにしてもよい。
【0019】
好ましくは、前記検索プランの生成および実行を交互に繰り返し行うようにしてもよい。
【0020】
好ましくは、前記構造化文書データベースは、要素名称および要素値に関係する階層構造を含み、前記検索要求は、前記要素名称および前記要素値に関係する検索条件を含み、前記インデックス情報は、前記構造化文書データベースにおける前記要素値の生起位置を特定する情報を含むデータ生起インデックスと前記構造化文書データベースにおける前記要素名称の生起位置を特定する情報を含む要素名称生起インデックスとの少なくとも一方を含むようにしてもよい。
【0021】
好ましくは、前記要素名称生起インデックスは、前記要素名称の生起位置を、前記要素名称の発生する部分構造の一階層上位の親要素によって指し示した情報を含むようにしてもよい。
【0022】
好ましくは、前記検索プランの生成においては、ルール適用条件を示す情報と前記検索プランを構成すべき検索処理の内容を指示する情報とを含むプラン生成ルールが複数登録されたプラン生成ルールベースに基づき、プラン生成ルールを選択し、該プラン生成ルールを前記検索グラフの該当する要素に対して適用するとともに、該プラン生成ルールに含まれる検索処理を、前記検索プランを構成する1つの検索処理として決定し、前記プラン生成ルールが適用された結果として影響が及ぶ前記検索グラフの要素に関して、プラン生成ルールの選択および適用ならびに前記検索プランにおいて後続させる検索処理の決定を行うことを、繰り返し(伝播的に)行うことによって、前記検索プランを生成していくようにしてもよい。
【0023】
好ましくは、前記プラン生成ルールには、前記インデックス情報を加味して決定されるコスト情報が付与されており、前記コスト情報を考慮して、動的に、適用すべきプラン生成ルールを選択するようにしてもよい。
【0024】
好ましくは、前記プラン生成ルールベースにおける前記プラン生成ルールを任意に登録および削除可能とするようにしてもよい。これによって、検索プランの生成をカスタマイズすることができる。
【0025】
好ましくは、前記検索グラフの生成においては、前記検索要求の記述を構文解析した結果に基づいて前記検索グラフの生成を行うようにしてもよい。
【0026】
また、本発明(請求項12)は、論理構造を持つ構造化文書データベースに対して、文書の論理構造を含む検索要求に基づいて検索を行う構造化文書検索装置であって、前記検索要求に基づいて、文書の構造情報を含む検索グラフを生成する手段と、前記構造化文書データベースにおける実データに関するインデックス情報を利用して、前記検索グラフから、前記構造化文書データベースに対する検索処理手順を示す検索プランを生成する手段と、前記構造化文書データベースを検索対象として前記検索プランを実行することによって、前記検索要求を満足する検索結果を求める手段とを備えたことを特徴とする。
【0027】
また、本発明(請求項13)は、論理構造を持つ構造化文書データベースに対して、文書の論理構造を含む検索要求に基づいて検索を行うためのプログラムであって、前記検索要求に基づいて、文書の構造情報を含む検索グラフを生成させ、前記構造化文書データベースにおける実データに関するインデックス情報を利用して、前記検索グラフから、前記構造化文書データベースに対する検索処理手順を示す検索プランを生成させ、前記構造化文書データベースを検索対象として前記検索プランを実行することによって、前記検索要求を満足する検索結果を求めるさせるためのプログラムを記録したコンピュータ読取り可能な記録媒体である。
【0028】
また、本発明(請求項14)は、論理構造を持つ構造化文書データベースに対して、文書の論理構造を含む検索要求に基づいて検索を行う構造化文書検索システムであって、前記構造化文書データベースの実データを記憶する手段と、前記構造化文書データベースにおける実データに関するインデックス情報を記憶する手段と、外部から前記検索要求を受け付ける手段と、受け付けた前記検索要求に基づいて、文書の構造情報を含む検索グラフを生成する手段と、前記構造化文書データベースにおける実データに関するインデックス情報を利用して、前記検索グラフから、前記構造化文書データベースに対する検索処理手順を示す検索プランを生成する手段と、前記構造化文書データベースを検索対象として前記検索プランを実行することによって、前記検索要求を満足する検索結果を求める手段と、前記検索結果を外部へ出力する手段とを備えたことを特徴とする。
【0029】
なお、方法に係る本発明は装置/システムに係る発明としても成立し、装置/システムに係る本発明は方法に係る発明としても成立する。
【0030】
また、方法または装置/システムに係る本発明は、コンピュータに当該発明に相当する手順を実行させるための(あるいはコンピュータを当該発明に相当する手段として機能させるための、あるいはコンピュータに当該発明に相当する機能を実現させるための)プログラムを記録したコンピュータ読取り可能な記録媒体としても成立する。
【0031】
本発明では、必要に応じて(要素名称生起やデータ生起など)様々なインデックス情報や文書の階層構造に関する情報を有効に利用して、(文書の構造情報を含んだ)検索グラフを最適に巡回することで最適な検索プランを生成し、これを実行する。すなわち、本発明によれば、存在するインデックス情報を動的に用いながら、最適な検索プラン生成・実行することが可能になる。また、本発明によれば、(構造照合やデータ比較を組み合わせた)多様な検索指定が行われていても、最適な検索プランを生成することで、検索処理に要する計算量を抑えることができる。
【0032】
このように本発明によれば、(1)(曖昧パスを含む)文書が持つ階層構造に対する多様な検索指定を行いながら、(2)検索処理に要する計算量を膨大なものとしない、という両要求を同時に満足し、論理構造を持った構造化文書データベースに対して文書の論理構造を含めた検索要求文で検索するサービスを実現することができる。
【0033】
【発明の実施の形態】
以下、図面を参照しながら発明の実施の形態を説明する。
【0034】
本発明を適用可能な構造化文章として、例えば、SGML(StandardGeneralized Markup Language)やXML(eXtensible Markup Language)で記述された文書が挙げられる。SGMLとは、ISO(国際標準機構)で定められた規格である。XMLとは、W3C(ワールドワイドウェブコンソーシアム)にて定められた規格である。それぞれ文書を構造化することを可能とする構造化文書規約である。
【0035】
SGMLやXMLを用いた文書の構造の表現にはタグが用いられる。タグには、開始タグと終了タグがあり、文書構造情報の構成要素を開始タグと終了タグで囲むことにより、文書中の文章の区切りと、その文書が構造上どの構成要素に属するのかとを明確にする。ここで、開始タグは「要素名称」を記号「<」と「>」で閉じたものであり、終了タグは「要素名称」を記号記号「<」と「/>」で閉じたものである。タグに続く構成要素の内容が、テキストまたは子供の構成要素の繰り返しである。また、開始タグには「<要素名称 属性=“属性値”>」のように属性情報を設定することができる。
【0036】
以下では具体例としてXMLを用いて説明するものとする。
【0037】
また、データベースの内容の具体例として特許出願に関する情報を用い、検索の具体例として特許出願に関する情報の検索を用いるものとする。なお、具体例を用いた説明で「特許」という場合は、「特許出願に関する(もの)」というような意味で用いているものとする。
【0038】
図1に、本発明の一実施形態に係る構造化文書データベース・システムのシステム構成を示す。
【0039】
本システムは、要求制御部1、格納処理部2、検索処理部3、データファイル4、インデックスファイル5を含む。
【0040】
本システム構成は、ソフトウェアを用いて実現可能である。なお、データファイル4、インデックスファイル5は、例えば外部記憶装置を用いて構成される。
【0041】
要求制御部1は、ユーザからの検索要求や格納要求など構造化文書データベースへの要求を処理し、検索処理部3や格納処理部2へ処理を渡す処理部である。検索要求と格納要求は要求受付部11でメッセージとして受け取る。受け取ったメッセージについて要求処理部12で検索要求か格納要求かの分別を行い、検索処理部3による検索処理あるいは格納処理部2による格納処理を呼び出す。また、検索処理部3から渡された検索結果は、結果処理部13にて整形されて、要求元のユーザに返される。
【0042】
検索処理部3は、検索要求を解析し、検索要求を満足する検索結果を生成する処理部である。検索要求構文解析部31にて、検索要求から字句切り出しや要求文の構造抽出を行い、検索グラフ生成部32にて、検索グラフを生成する。検索プラン生成部33にて、生成された検索グラフから検索プランを生成し、検索プラン実行部34にて、生成された検索プランを実行し、検索要求を満足する検索結果を生成する。検索結果は、要求制御部1に渡される。
【0043】
格納処理部2は、格納要求を解析し、構造化文書を格納する処理部である。格納要求構文解析部21にて、構造化文書から字句切り出しや構造化文書の構造抽出を行う。データ格納部22にて、構造化文書のデータや構造データをデータファイル4に格納し、インデックス格納部23にて、構造化文書のデータや構造データに対するインデックスをインデックスファイル5に格納する。なお、インデックスファイルの作成・更新は、格納すべき構造化文書が入力されるごとに行ってもよいし、適宜まとめて行ってもよい(検索の効率化のためには、前者の方が好ましい)。
【0044】
図2に、構造化文書の一例を示す。
【0045】
図2は、構造化文書の一例として「特許」情報の例を示したものである(XMLで記述した例である)。
【0046】
「特許」タグ(すなわち、<特許>と</特許>の対;他も同様の意味である)で囲まれた内部には、「名称」タグで囲まれた「名称」情報、「出願人」タグで囲まれた「出願人」情報、「出願番号」タグで囲まれた「出願番号」情報、「出願日」タグで囲まれた「出願日」情報、「要約」タグで囲まれた「要約」情報、「キーワード」タグで囲まれた「キーワード」情報が存在する。
【0047】
「出願日」情報は、さらに、「年」タグ囲まれた「年」情報、「月」タグ囲まれた「月」情報、「日」タグで囲まれた「日」情報により構成される。なお、「出願日」情報は、「年号」情報をさらに含んでもよい。あるいは、「年」情報を西暦で表してもよい。
【0048】
また、「キーワード」情報としては、1または複数個のものを指定することができる(図2の例では2個のキーワード「XML」、「検索」が指定されている)。
【0049】
この「キーワード」情報のように、XMLなどの構造化文書では、任意の構成要素の繰り返しを含んでいたり、さらには文書構造があらかじめ決まっていない(RDBやOODBのスキーマ定義では定義できない)のが通常である。
【0050】
なお、「特許」情報には、「公開番号」情報や、「特許番号」情報、あるいはその他の種々の情報を含めることができる。
【0051】
図3および図4に、本実施形態で必要に応じて検索で使用される概念階層を構造化文書で表現した例を示す。図3および図4の例は、「概念」情報をXMLで記述したものである。
【0052】
図3の「概念」情報の例は、いわゆる特許調査における特許文書の内容を分類するための一つの分類軸として用いる「情報モデル」を概念階層で表現している。「概念」タグで囲まれた「概念」情報は、入れ子構造を持った文書構造を持っている。つまり、図3の例では、概念「情報モデル」の子供概念として、概念「ドキュメント」、概念「リレーション」、概念「オブジェクト」が存在している。また、概念「ドキュメント」の子供概念として、概念「構造化ドキュメント」、概念「非構造化ドキュメント」が存在し、さらに、概念「構造化ドキュメント」の子供概念として、概念「XML」、概念「SGML」が存在している。
【0053】
図4の概念階層の記述例は、図3とは異なる分類軸「情報操作」を概念階層で表現している。図4の例では、概念「情報操作」の子供概念として、概念「検索」、概念「格納」、概念「加工」、概念「流通」が存在している。
【0054】
図5に、本実施形態における構造化文書データベースの概念的な構造の例を示す。
【0055】
構造化文書を集めた構造化文書データベースは、例えばUNIXのディレクトリ構造のように階層的に格納されていることを指定している。
【0056】
構造化文書データベースの階層木の各ノード(図5では番号が付され円形で示されたもの)を、ドキュメントノードと呼ぶ。なお、以下では、ドキュメントノードをDノードと呼ぶ。
【0057】
任意のDノード以下の部分階層木は、構造化文書データベースから切り出された構造化文書を示している。
【0058】
各Dノードには、オブジェクトID(図5では円内部に記述されたもの)が割り当てられる。オブジェクトIDは、構造化文書データベース内ではユニークな数値を持つものとする。
【0059】
図5の例では、階層木のルートとなるドキュメントノード(根Dノード)に、それが根Dノードであることを特定可能なオブジェクトID「#0」が割り当てられるものとしている。
【0060】
図5の例において、根Dノードすなわち「#0」のDノードからは、「root」タグを先頭に持つ「#17」のDノードへリンクが張られている。「#17」Dノードからは、「IR特許」タグを先頭に持つ「#21」Dノード、「DB特許」タグを先頭に持つ「#45」Dノード、「概念」タグを先頭に持つ「#78」Dノードへのリンクがそれぞれ張られている。なお、IR特許とは、例えば、IR技術に関係する発明をその明細書中に含む特許出願というような意味である(DB特許、OODB特許、RDB特許についても同様である)。
【0061】
図2に例示された「特許」情報は、「#902」のDノード以下の部分階層木に対応しており、「名称」タグあるいは「キーワードタグ」などを先頭に持つ各々の末端のDノード(#903〜#905、#907〜#912)からは、「情報検索装置」、「T社」、「特願平10−××××××」、「10」、「3」、「12」、「情報の提示形式の変更が〜(以下、省略)」、「XML」、「検索」などの文字列(要素値)へのリンクがそれぞれ張られている。
【0062】
ところで、「#639」のDノード以下の部分階層木も一つの「特許」情報に対応する部分であるが、根Dノードからみて「#902」Dノードと「#639」Dノードとは階層の深さが異なっている。このように、根Dノードから「特許」情報に対応するDノードまでの階層関係は任意に設定することが可能である。
【0063】
すなわち、図5に示されているように「特許」情報は、「#902」Dノードや「#639」Dノードなどのように階層木上の任意の部分に発生し得る。これが構造化文書データベースの特徴である。そのため、階層木上の任意の部分に発生した「特許」情報を検索したいという検索要求がある。
【0064】
なお、本実施形態では、図5に示すように、図3や図4のような「概念」情報も構造化文書データベース内に併せて保持することができる(例えば、「#78」Dノード下位の以下の部分階層木に含まれる)。
【0065】
図6に、本実施形態における構造化文書データベースへの構造化文書の格納コマンドの一例を示す。
【0066】
コマンド名「Insert」の後に、格納先「“root/IR特許”」、格納データ「“<特許>〜(中略)〜</特許>”」の2つのパラメータが存在する。この記述は、格納先として、「root」タグを先頭に持つ部分階層木から辿って、「IR特許」タグを先頭に持つ部分階層木の先頭要素に、格納データ「“<特許>〜(中略)〜</特許>”」を挿入することを意味する。「“root/IR特許”」を文書パスと呼ぶ。
【0067】
図6に例示した格納コマンドを実行した結果として、図5に例示した概念的な構造の「#902」のDノード以下の部分階層木が作られることになる。
【0068】
「Insert」コマンド名を持つ格納要求は、図1の要求制御部1にて受理され、格納処理部2による構文解析(21)を経て、データ格納(22)とインデックス格納(23)が行われる。
【0069】
図7に、構造化文書データベースへの検索コマンドの一例を示す。
【0070】
図7の例は、検索コマンドをSQLに似たSelect文で表現したもので、『構造化文書データベース中に出現する「特許」情報のうちその「キーワード」情報として「検索」を持つものについて、「出願番号」情報を抽出し、それを「文献」情報として出力せよ』という検索要求を意味している。
【0071】
「Where」句が条件部分を示しており、「From」句が文書パス指定部分を示しており、「Select」句が情報抽出部分を示している。「$1」、「$2」はデータが束縛される変数である。
【0072】
「<*/特許>」のように要素名称の前が「*」で始まっていれば、指定された文書パスの任意子孫の「特許」にマッチすることができる。「root/*/特許」のように曖昧な文書パスが、『階層木上の任意の部分に発生した「特許」情報を検索したいという検索要求』に対応する。
【0073】
例えば、図5において、「#902」Dノード以下の部分階層木に対応する「特許」情報について、「#912」Dノードからリンクされた「検索」が条件を満たし、「#905」Dノードからリンクされた「特願平10−××××××」が検索結果となる。
【0074】
図8に、構造化文書データベースへの検索コマンドの他の例を示す。
【0075】
この例は、『構造化文書データベース中に出現する「特許」情報のうち、その「キーワード」情報として、概念「ドキュメント」に属する内容(図3では、概念の名前の属性値(文字列)に一致する要素値を持つ「特許」情報について、「出願番号」情報を抽出し、それを「文献」情報として出力せよ』という検索要求を意味している。
【0076】
この例では、「特許」情報と「概念」情報の2つを参照し、それぞれ「キーワード」と「名前」に対して、同一変数「$x2」が割り当てられている。これは2つの情報の結合処理を意味している。
【0077】
例えば、図5において、「概念」情報が図3のようであるとすると、「#911」のDノードからリンクされた「XML」が図3のように概念「ドキュメント」に属するので、「#905」のDノードからリンクされた「特願平10−××××××」が検索結果となる。
【0078】
図9に、構造化文書データベースへの検索コマンドのさらに他の例を示す。
【0079】
この例は、『構造化文書データベース中に出現する「特許」情報に対して、概念「情報モデル」での分類と概念「情報操作」での分類の2分類軸を設定して、「出願番号」と「情報モデル」軸と「情報操作」軸とを抽出して「文献」情報として検索せよ』を意味している。
【0080】
この例では、「特許」情報と「概念」情報の2つを参照し、それぞれ「キーワード」と「名前」に対して、同一変数「$x2」が割り当てられている。これも2つの情報の結合処理を意味している。
【0081】
「情報モデル」軸を取り出す部分では、「特許」情報の「キーワード」情報「$x2」が文書パス「root」以下の概念「情報モデル」の任意子孫の「概念」情報にマッチするものを探索し、概念「情報モデル」の1つ子供の概念に置き換えて「$x3」とする処理が組み込まれている。「情報操作」軸を取り出す部分も同様に、「特許」情報の「キーワード」情報「$x2」が文書パス「root」以下の概念「情報操作」の任意子孫の「概念」情報にマッチするものを探索し、概念「情報操作」の1つ子供の概念に置き換えて「$x4」とする処理が組み込まれている。
【0082】
例えば、図5において、「概念」情報が図3および図4のようであるとすると、「#911」のDノードからリンクされた「XML」が図3のように概念「情報モデル」に属し、かつ、「#912」のDノードからリンクされた「検索」が図4のように概念「情報操作」に属するので、「#905」のDノードからリンクされた「特願平10−××××××」と、図3の概念「情報モデル」の1つ子供の概念「ドキュメント」と、図4のように概念「情報操作」の1つ子供の概念「検索」とが検索結果となる。
【0083】
図10に、図9の検索要求を処理した検索結果の一例を示す。図10に例示されるように、検索結果もXMLで表現することができる。
【0084】
図9で示された検索要求は、図1の要求制御部1にて受理され、検索処理部3にて構文解析(31)、検索グラフ生成(32)、検索プラン生成(33)、検索プラン実行(34)などの一連の処理を経て、要求制御部1の結果処理部13にて整形されて、図10に示すような検索結果が得られる。
【0085】
先にも述べたように、「特許」情報に対して、概念「情報モデル」での分類と概念「情報操作」での分類の2分類軸を設定して、「出願番号」情報とともにまとめられて「文献」情報のリストとして表示されている。例えば、第一の「文献」情報では、『「特願平10−××××××」の特許が「ドキュメント」×「検索」で分類されている』ことを意味している。
【0086】
以下では、検索処理部3における処理についてより詳しく説明する。
【0087】
図11および図12に、図9の検索要求に対して検索グラフ生成部32が生成する検索グラフの一例を示す(なお、図11、図12は便宜上、同一の検索グラフの一部を省略したものであって、すなわち、図11は同一の検索グラフのCON以下の部分を省略したものであり、図12は同一の検索グラフのAND以下の部分を省略したものである)。
【0088】
図11および図12に示されるように、検索グラフは、双方向リンク(図中の両方向の矢印)とノード(図中の円形、四角形、六角形)を含むネットワークを形成する。
【0089】
図11および図12において、四角形で示されるノードは、具体的なデータ(文字列)を表している。四角形で示されるノードを除く各ノードを、検索グラフノード(以下、Gノード)と呼ぶ。すなわち、Gノードは、六角形で示されるGノードと円形で示されるGノードの2種類から構成される。
【0090】
円形で示されるGノードは、変数を表すGノードであり、「$_」で始まる文字列を持っている。変数を表すGノードは、内部的に生成された変数と、それ以外の「$x1」など検索要求のSelect文に含まれている変数とに分類できる。
【0091】
六角形で示されるGノードは、「QUERY」のGノード、「AND」のGノード、「TAG」のGノード、「ATT」のGノード、「VAL」のGノードなどから構成されている。
【0092】
「Query」Gノードは図9のような検索要求のSelect文全体に対応しており、「AND」GノードはWhere句に対応しており、「CON」GノードはSelect句に対応している。Where句以下の複合的な条件部分は、「AND」Gノードと「AND」Gノードから出ているサブネット群が対応している。
【0093】
一例として、『指定された文書パス「root」以下の任意の「特許」情報』の条件は、3つの「TAG」Gノード(「root」、「*」、「特許」を持つGノード列)で表現されている。2つの「TAG」Gノードを繋ぐ変数Gノード(例えば、「$_1」や「$_2」)は、図5で示されるDノードで束縛可能な変数である。例えば、「$_2」変数のGノードは、右側2つの「TAG」Gノードから解釈すると『指定された文書パス「root」以下の任意の文書」を表し、左の「TAG」Gノードと接続しているため、それも併せて解釈すると『指定された文書パス「root」以下で「特許」タグを先頭に持つ任意の文書』を表す。
【0094】
「ATT」Gノード、「VAL」Gノードは、それぞれ属性、要素データの関係を示している。
【0095】
また、六角形で示されるGノードには複数のリンクが接続する。
【0096】
「QUERY」Gノードには、「AND」に接続するop1リンク、「CON」に接続するop2リンクがある。
【0097】
「AND」Gノードには、「QUERY」に接続するop1リンク、「TAG」群に接続するop2リンク群がある。
【0098】
「TAG」Gノードには、上位Gノードに接続するop1リンク(左側)、データに接続するop2リンク(下側)、下位Gノードに接続するop3リンク(右側)がある。
【0099】
「ATT」Gノードには、上位Gノードに接続するop1リンク(上側)、データに接続するop2リンク(右側)、下位Gノードに接続するop3リンク(下側)がある。
【0100】
「CON」Gノードには、「QUERY」に接続するop1リンク、「TAG」に接続するop2リンクがある。
【0101】
「VAL」Gノードには、上位Gノードに接続するop1リンク(左側)、下位Gノードに接続するop2リンク(下側)がある。
【0102】
また、変数を表すGノード(円形で示されるGノード)には、他のGノード群に接続するopリング群がある。
【0103】
図9の例では、前述したように、「特許」情報と「概念」情報の2つを参照し、それぞれ「キーワード」と「名前」に対して、同一変数「$x2」が割り当てられている。「$x2」の変数Gノードは、3つの「VAL」Gノードへのopリンクとして接続し、逆に3つの「VAL」Gノードからop2リンクとして接続されている。
【0104】
また、Select句に対応している「CON」Gノードより下位のGノードがネットワークを形成している。「特許」情報は、「出願番号」情報、「軸」属性が「情報モデル」の「分類」情報、「軸」属性が「情報操作」の「分類」情報から構成されている。「$x1」、「$x3」、「$x4」などの変数Gノードは「AND」GノードであるWhere句が処理された後に変数値が確定し、束縛されて、図10に示す結果となる。
【0105】
なお、図11および図12に例示された検索グラフは、例えばYacc(Yet Another Compiler−Compiler)/Lex(a LEXical analyzer generator)などの既存の構文解析プログラムジェネレータに、図9のような検索要求の記述を入力することによって生成することができる。
【0106】
次に、本実施形態で用いるインデックスファイルについて説明する。
【0107】
図13に、インデックスファイルの一種である要素名称生起インデックスの概念的な構造の一例を示す。
【0108】
要素名称生起インデックスとは、構造化文書データベースに格納されている要素名称のリストと、各要素名称が先頭に発生する構造化文書の位置とを関連付けてインデックスファイル化したものである。
【0109】
例えば図5の構造化文書データベースのように、(「特許」情報に対応する)「特許」という要素名称が、Dノード群「#902」、「#639」、…により示される構造化文書において発生している場合、これをインデックス化すると、図13に示すように、Dノード群「#902」、「#639」、…の親Dノード「#21」、「#67」、…が要素名称生起インデックスファイルに「特許」キーからのチェーンで格納される。
【0110】
このように親Dノードでインデックス化すると、インデックスファイルサイズを圧縮することができる。すなわち、親Dノードでインデックスすれば、子Dノードが増大しようとも、親Dノードで代用しているのでチェーンサイズは増大しない。これに対して、実Dノードをインデックス化すれば「特許」文書の格納数の増大とともにチェーンサイズはそれに比例して増加してしまう
図14に、インデックスファイルの一種であるデータ生起インデックスの概念的な構造の一例を示す。
【0111】
データ生起インデックスとは、構造化文書データベースに格納されている文字列データのリストと各文字列データが発生する構造化文書の位置とを関連付けてインデックスファイル化したものである。
【0112】
例えば図5の構造化文書データベースのように、「検索」という文字列データが、Dノード群「#912」、「#647」、「#650」、…により示される構造化文書にて発生している場合(なお、「#647」のDノードからリンクされるデータ中に検索という文字列が含まれているものとする)、これをインデックス化すると、図14に示すように、Dノード群「#912」、「#647」、「#650」…がデータ生起インデックスファイルに「検索」キーからのチェーンで格納される。
【0113】
なお、逆階層インデックスなど、その他のインデックスファイルを用いてもよい。逆階層インデックスとは、あるノードとその親ノードとの対応を格納したものである(あるノードからその親ノードを求めることができる)。
【0114】
次に、本実施形態の構造化文書データベースの検索プラン生成部33について説明する。
【0115】
図15に、検索プラン生成部33の構成例を示す。図15は、検索グラフ生成部32にて生成された検索グラフを入力として実行プランリストを出力する検索プラン生成部33の構成を表している。
【0116】
図中6は、後述するプラン生成ルールを格納したプラン生成ルール格納部である(なお、プラン生成ルール格納部6は例えば外部記憶装置を用いて構成される)。
【0117】
候補Gノード登録部331は、図11および図12に例示したような検索グラフを構成する各Gノードを、候補Gノードリストへ登録する。
【0118】
Gノードルール発火チェック部332は、候補Gノードリストを構成するGノードに対してプラン生成ルールの適用をチェックする。
【0119】
プラン生成ルール適用部333は、プラン生成ルールの適用可能な各Gノードについて、コスト最小のGノードとプラン生成ルールとのペアを取り出し、プラン生成ルールを実行する。プラン生成ルールを実行した結果である実行プランが、実行プランリスト335へ追加される。
【0120】
また、プラン生成ルールによって値が具体化される可能性のある変数Gノード群について、候補Gノードリスト334に登録する。候補Gノードリスト334が空になるまで、これを繰り返す。
【0121】
このように、プラン生成ルールベースを使って、検索グラフの各要素に対してプラン生成ルールを適用し、適用された結果として影響のある検索グラフの各要素に対して再度プラン生成ルールを適用すること、すなわち、検索グラフを伝播的に巡回することで、格段に効率的な検索プランを実現することができる。
【0122】
なお、全ての検索プランの生成が完了した後に、生成された検索プランを実行するようにしてもよい。また、1つの検索プランの生成とその検索プランの実行とを一纏まりとして続けて行い、これを繰り返し実行する(すなわち、検索プランの生成とその実行を交互に繰り返し行う)ようにしてもよい。
【0123】
図16に、プラン生成部33で利用するプラン生成ルールの一例を示す。
【0124】
図16のプラン生成ルール例は、11個のルールをテーブル形式で記述したものである。
【0125】
各ルールには、ルール番号、適用可能なGノードのクラス、適用コスト、適用条件(IF)部、アクション(THEN)部の属性が存在する。
【0126】
コストは、0以上1以下のfloat値を持ち、大きい数値を持つほど計算コストが大きくなることを意味するものとする。
【0127】
適用条件(IF)部においては、OP1〜3は前述したリンクを表す。また、図16中の「具」はそのリンクの変数Gノードが具体化されていることを表し、「未」は具体化されていないことを表し、「*」はそのリンクの先のデータが「*」であることを表し、「AND」はそのリンク先が「AND」Gノードであることを表す。なお、変数Gノードが具体化されているとは、『変数Gノードが取りうる値が枚挙可能な状態である』ことと定義する。
【0128】
適用条件(IF)部の「その他」の部分は、その他の適用条件を示す。例えば、ルール番号「03」における「OP2に要素名称生起インデックスが存在」は、そのOP2の具体化されている変数値と一致する要素名称が要素名称生起インデックスに存在することを適用条件とするものである。
【0129】
アクション(THEN)部のオペレータは、詳しくは後述するように検索プラン実行部34で実行されるアクションを示す。
【0130】
図16において、例えば、ルール番号「01」は、「TAG」Gノードに対して適用可能で、コストが1.0であることを示している。さらに、適用条件が『op1リンクの変数Gノードが「AND」であり、op2リンクの変数Gノード(含むデータ)が具体化されていて、op3リンクの変数Gノードが具体化されていない』ことである。またアクションが、『実行プランPATHINSTを生成する』ことを示している。
【0131】
また、例えば、ルール番号「02」は、「TAG」Gノードに対して適用可能で、コストが0.5であることを示している。さらに、適用条件が『op1リンクの変数Gノードが具体化されていて、op2リンクの変数Gノード(含むデータ)が具体化されていて、op3リンクの変数Gノードが具体化されていない』ことである。またアクションが、『実行プランPATHEXPAND1を生成する』ことを示している。
【0132】
図17に、検索プラン実行部34で利用されるオペレータの一例を示す。
【0133】
検索プラン実行部34では、入力された実行プランリストを1つずつ取り出す(フェッチする)処理341と、実行する処理342とを繰り返し、その結果を検索結果として出力とする。
【0134】
各オペレータの処理内容は次の通りである。
【0135】
▲1▼PATHINST : 文書パス「root」を取り出す処理。
▲2▼PATHEXPAND1 : 指定された要素名称をキーにして、上位Dノード群からキーにマッチするDノード群を算出する処理。
▲3▼PATHEXPAND2 : インデックス化されている要素名称をキーにして、構造化文書データベース内で発生する親子Dノード群を算出する処理。 ▲4▼PATHEXPAND3 : インデックス化されている要素名称をキーにして、子供Dノードから親Dノードを算出する処理。
▲5▼PATHCHECK : 2つのDノード集合が与えられたとき、それらが指定された要素名称で親子関係にある2つのDノードの組み合わせを算出する処理。
▲6▼JOIN : 変数Gノードxがopリンクで接続している複数のGノードから具体化が進行して、xで重なり合ったときに行われる結合演算処理。
▲7▼VALUE : 変数Gノードxの要素データの候補を算出する処理。
▲8▼SELECT : 変数Gノードxに対する要素データを選択するときの比較演算処理。
▲9▼FIND : インデックス化されている要素データの候補を算出する処理。
【0136】
図18に、検索プラン生成部33の処理手順の一例を示す。
【0137】
まず、候補Gノードリスト334と実行プランリスト335を空リストとして初期化する(ステップS1)。
【0138】
検索グラフを構成するGノード全部を候補Gノードリスト334に登録する(ステップS2)。
【0139】
中間変数rsetを空リストとして初期化する(ステップS3)。
【0140】
候補Gノードリスト334が空リストであれば(ステップS4)、検索プラン生成部33を終了する(ステップS41)。
【0141】
候補Gノードリスト334が空リストでなければ(ステップS4)、空リストでない候補Gノードリスト334の各々の構成要素xに対して、ステップ51からステップ54まで繰り返す(ステップS5)。
【0142】
構成要素xに適用可能なプラン生成ルール群を検索する(ステップS51)。
【0143】
検索されたプラン生成ルール群からIF部を満足するプラン生成ルール群を選択する(ステップS52)。
【0144】
選択されたプラン生成ルール群がなければ(ステップS53)、候補Gノードリスト334から構成要素xを削除する(ステップS531)。
【0145】
選択されたプラン生成ルール群があれば(ステップS53)、各々のプラン生成ルールrに対してステップS541を適用する(ステップS54)。
【0146】
プラン生成ルールrのコストcを計算し、rsetに<x,r,c>を追加する(ステップS541)。
【0147】
続いて、rsetの各要素<x,r,c>に対して、最小のコストcを持つ要素<x1,r1,c1>を選択する(ステップS6)。ここで、実行プランリスト335に、所定の事項を登録する。
【0148】
候補Gノードリスト334から構成要素x1を削除する(ステップS7)。
【0149】
構成要素x1に対してプラン生成ルールr1を実行し、更新可能性のあるGノード(op1,op2,...などで繋がっている)を候補Gノードリスト334へ追加し、ステップS3に戻る(ステップS8)。
【0150】
以下では、構造化文書データベースへの検索コマンドの具体例を用いて検索グラフの生成から検索プランの生成、実行にわたってより具体的に説明する。
【0151】
図19に、以下で用いる検索コマンド例を示す。この例は、『構造化文書データベース中に出現する「特許」情報に対して、下位の「名称」情報が「検索」という文字列を含んでいるならば、「名称」情報を抽出して「文献」情報として検索せよ』を意味している。
【0152】
図20に、図19の検索要求に対して検索グラフ生成部33が生成する検索グラフの一例を示す。
【0153】
「$1」変数Gノードは、『指定された文書パス「root」以下で「$2」変数Gノードよりも階層で上位に存在するDノードに対するGノード変数』を示している。
【0154】
「$2」変数Gノードは、『「$1」変数Gノードよりも階層で下位に存在し、「特許」要素名称で始まっているDノードに対するGノード変数』を示している。
【0155】
「$3」変数Gノードは、『「$2」変数Gノードから見て「特許」要素名称で始まるDノードの子で『名称』要素名称で始まっているDノードに対するGノード変数』を示している。
【0156】
「$4」変数Gノードは、『「$3」変数Gノードから見て「名称」要素名称で始まるDノードの子で要素データを指すDノードに対するGノード変数「$x1」を持つDノードに対するGノード変数』を示している。
【0157】
「$x1」変数Gノードは、『「$4」変数Gノードから見て要素データを指すDノードで「検索」という文字列を含むDノードに対するGノード変数』を示している。
【0158】
このようにGノード同士は2項以上の多項間の制約関係を持っており、それらの変数Dノード群の取りうる値の組み合わせを制約充足的に解くことになる。
【0159】
図21に、本実施形態の検索プラン生成部33により生成される検索プランの一例を示す。
【0160】
図21の検索プランは、図19の検索要求を入力とし、図16のプラン生成ルールを用いた場合の検索プラン生成部33の出力結果例である。
【0161】
本プラン生成を行うに当たり、構造化文書データベースへの前提として以下のものを想定している。
・要素名称生起インデックスファイルの中に「特許」というキーが存在している。
・データ生起インデックスファイルの中に「検索」というキーが存在している。
【0162】
検索グラフの全Gノードを候補Gノードリスト334に登録した後、図18のフローチャートにしたがってシミュレーションする。ステップS3からステップS7の1処理を1サイクルとして、変数rsetの変化を追ってみると、次のようになる。
【0163】
(第1サイクル)
rset={<TAG01、ルール01、1.0>、<TAG03、ルール03、0.2>、<CMP01、ルール31、1.0>、<CMP01、ルール32、0.1>}
ここで、<CMP01、ルール32、0.1>が選択され、FINDが出力される。
伝播するGノード群は{$x1}である。
(第2サイクル)
rset={<TAG01、ルール01、1.0>、<TAG03、ルール03、0.2>}
ここで、<TAG03、ルール03、0.2>が選択され、PATHEXPAND2が出力される。
伝播するGノード群は{$_2、$_3}である。
【0164】
(第3サイクル)
rset={<TAG01、ルール01、1.0>、<TAG04、ルール02、0.5>、<TAG02、ルール06、0.6>}
ここで、<TAG04、ルール02、0.3>が選択され、PATHEXPAND2が出力される。
伝播するGノード群は{$_4}である。
【0165】
(第4サイクル)
rset={<TAG01、ルール01、1.0>、<VAL01、ルール21、0.2>、<TAG02、ルール06、0.6>}
ここで、<VAL01、ルール21、0.2>が選択され、VALUEが出力される。
伝播するGノード群は{$x1}である。
【0166】
(第5サイクル)
rset={<TAG01、ルール01、1.0>、<$x1、ルール11、0.5>、<TAG02、ルール06、0.6>}
ここで、<$x1、ルール11、0.5>が選択され、JOINが出力される。
伝播するGノード群は{}である。
【0167】
(第6サイクル)
rset={<TAG01、ルール01、1.0>、<TAG02、ルール06、0.6>}
ここで、<TAG02、ルール06、0.6>が選択され、NOPが出力される。
伝播するGノード群は{}である。
【0168】
(第7サイクル)
rset={<CON01、ルール71、1.0>}
ここで、<CON01、ルール71、1.0>が選択され、CONSTRUCTが出力される。
【0169】
この実行プランリスト335の意味は、以下のようなものである。
【0170】
(ステップ1)
「検索」という文字列データを含むDノード群を検索する。データ生起インデックスファイルには「検索」というキーが存在しているため、この情報を優先的に利用する。
(ステップ2)
「特許」要素名称を持つ子供Dノード群を取り出す。要素名称生起インデックスファイルの中に「特許」というキーが存在しているため、この情報を優先的に利用する。
(ステップ3)
上記Dノード群で「名称」要素名称を持つ子供Dノード群を取り出す。
(ステップ4)
上記Dノード群で要素データを持つ子供Dノード群を取り出す。
(ステップ5)
ステップ1で検索したDノード群とステップ4で取り出したDノード群の結合(JOIN)を取る。
(ステップ6)
「特許」より上位の文書パスは「root/*」なので、何もしない。
(ステップ7)
上記Dノード群のデータを使って「文献」情報を作り出す。
【0171】
図22に、図21で示した検索プランの実行イメージを示す。
【0172】
ステップ1において、図14のデータ生起インデックスファイルに「検索」というキーが存在するので、直ちに、Dノード群が得られる。
【0173】
一方、ステップ2において、図13の要素名称生起インデックスファイルに「特許」というキーが存在するので、直ちに、$2と$3が具体化される。そして、ステップ3において、図5から$4が具体化される。そして、ステップ4において、要素データを持つDノード群を取り出す。ステップ5において、ステップ1で検索したDノード群とステップ4で取り出したDノード群の結合(JOIN)を取る。
【0174】
このように、インデックスを用いて効率的に検索プランを生成していることがわかる。
【0175】
図23に、図19の検索要求を処理した検索結果の一例を示す。
【0176】
検索結果もXMLで表現され、「文献」情報のリストとして表示されている。「情報検索装置」など「検索」という文字列を含んでいる。
【0177】
ここで、比較のために従来手法でアプローチした場合について説明する。
【0178】
図24に、従来手法でアプローチした場合の検索プランの一例を示す。
【0179】
この従来手法は、ルート要素から始まって、親要素から子供要素群へと展開して、階層的な構造上の構成要素を特定する検索処理方式である。
【0180】
この実行プランリストの意味は、以下のようなものである。
【0181】
(ステップ1)
rootに相当するDノード群を取り出す。
(ステップ2)
上記Dノード群の子孫Dノード群を取り出す。
(ステップ3)
上記Dノード群で「特許」要素名称を持つ子供Dノード群を取り出す。
(ステップ4)
上記Dノード群で「名称」要素名称を持つ子供Dノード群を取り出す。
(ステップ5)
上記Dノード群で要素データを持つ子供Dノード群を取り出す。
(ステップ6)
上記Dノード群でデータが「検索」という文字列データを含むDノード群を選択する。
(ステップ7)
上記Dノード群のデータを使って「文献」情報を作り出す。
【0182】
このように、登録された文書数が増大し階層木の深さと幅が増大すると、検索処理に要する計算量が膨大なものになってしまう。
【0183】
図25に、図24で示した従来手法でアプローチした場合の検索プランの実行イメージを示す。
【0184】
ステップ2での階層木の展開コストが膨大になってしまうことが容易に想像される。
【0185】
以下では、本実施形態における検索結果をGUI(グラフィカル・ユーザ・インタフェース)的に表示する例について説明する。
【0186】
図26に、図10で示された図9の検索結果をデータ表示用のフィルタープログラムを通してGUI的に表示した一例を示す。
【0187】
「特許」情報に対して、概念「情報モデル」での分類と概念「情報操作」での分類の2分類軸を設定して、「出願番号」と「情報モデル」軸と「情報操作」軸を抽出して「文献」情報として検索した結果であるが、「情報モデル」軸を横軸に、「情報操作」軸に設定して、2軸のクロスしたデータが「出願番号」情報である。
【0188】
XMLにはスタイルシートという表示フォーマットがあり、XMLドキュメントをWWWブラウザに表示したり、プリンタから印刷したりするときに用いる。スタイルシートの言語として、XSL(Extensible Style Language)が標準の規約として用意されており、これを用いれば図26に示すような情報を出力することができる。
【0189】
図27に、図10で示された図9の検索結果をデータ表示用のフィルタープログラムを通してGUI的に表示した他の例を示す。
【0190】
特許の出願件数を年度別に折れ線グラフ表示させたもので、これも同様に、『特許の出願件数を年度別に集計する』検索要求を処理した結果であるXMLデータに対してスタイルシートを適用すれば、図27に示すような情報を出力することができる。
【0191】
ここで、図1の構造化文書データベース・システムの実現方法のバリエーションについて説明する。
【0192】
本システムは、インターネットもしくはLANなどのネットワークを介して他の計算機から検索要求を受け付け、検索を実行し、ネットワークを介して当該他の計算機に検索結果を返すように実現することも可能である。
【0193】
この場合、他の計算機から図7〜図9のような検索要求を受ける代わりに、他の計算機において構文解析し図11/図12のような検索グラフを作成し、これを受けるようにしてもよい。あるいは、図7〜図9のような検索要求と図11/図12のような検索グラフのいずれによっても受け付け可能としてもよい。
【0194】
また、要求制御部1、格納処理部2、検索処理部3を1台の計算機上に実装してもよいし、2台または3台の計算機上に別々に実装してもよい。
【0195】
また、要求制御部1、格納処理部2、検索処理部3のそれぞれを実現するプログラムは、記録媒体または通信媒体によって受け渡すことが可能である。この場合、要求制御部1、格納処理部2、検索処理部3の全てを実現するプログラムを1つまたは1組の記録媒体に格納して受け渡しすることも、要求制御部1、格納処理部2、検索処理部3の一部のみを実現するプログラムを1つまたは1組の記録媒体に格納して受け渡しすることも可能である。
【0196】
また、例えば、検索処理部3を含むシステムと、格納処理部2とデータファイル4とインデックスファイル5を含むシステムとが、互いに独立したシステムであってもよい。また、検索処理部3を含むシステムをサーバとして構成してもよいし、各クライアントに搭載するようにしてもよい。
【0197】
もちろん、本システムは、1つのスタンドアローンのシステムとして実現可能である。
【0198】
なお、以上の各機能は、ソフトウェアとしても実現可能である。
【0199】
また、本実施形態は、コンピュータに所定の手段を実行させるための(あるいはコンピュータを所定の手段として機能させるための、あるいはコンピュータに所定の機能を実現させるための)プログラムを記録したコンピュータ読取り可能な記録媒体としても実施することもできる。
【0200】
本発明は、上述した実施の形態に限定されるものではなく、その技術的範囲において種々変形して実施することができる。
【0201】
【発明の効果】
本発明によれば、構造化文書データベースに関する情報を有効に利用しながら、検索要求から生成した検索グラフを最適に巡回することで最適な検索プランを生成し実行することによって、計算量を増大させずに、(曖昧パスを含む)文書が持つ階層構造に対する多様な検索指定による検索を可能にすることができる。
【図面の簡単な説明】
【図1】本発明をの一実施形態に係る構造化文書データベース・システムのシステム構成例を示す図
【図2】構造化文書の一例を示す図
【図3】概念情報の一例を示す図
【図4】概念情報の一例を示す図
【図5】構造化文書データベースの概念的な構造例を示する図
【図6】構造化文書データベースへの構造化文書の格納コマンドの一例を示す図
【図7】構造化文書データベースへの検索コマンドの一例を示す図
【図8】構造化文書データベースへの検索コマンドの他の例を示す図
【図9】構造化文書データベースへの検索コマンドのさらに他の例を示す図
【図10】検索要求を処理した検索結果の一例を示す図
【図11】検索要求に対して検索グラフ生成部が生成する検索グラフの一例を示す図
【図12】検索要求に対して検索グラフ生成部が生成する検索グラフの一例を示す図
【図13】インデックスファイルの一種である要素名称生起インデックスの概念的な構造例を示す図
【図14】インデックスファイルの一種であるデータ生起インデックスの概念的な構造例を示す図
【図15】検索プラン生成部の構成例を示す図
【図16】検索プラン生成部で利用するプラン生成ルールの一例を示す図
【図17】検索プラン実行部で利用するオペレータの一例を示す図
【図18】検索プラン生成部の処理手順の一例を示すフローチャート
【図19】構造化文書データベースへの検索コマンドのさらに他の例を示す図
【図20】検索要求に対して検索グラフ生成部が生成する検索グラフの他の例を示す図
【図21】検索プラン生成部により生成された検索プランの一例を示す図
【図22】検索プランの実行イメージを示す図
【図23】検索要求を処理した検索結果の他の例を示す図
【図24】従来手法でアプローチした場合の検索プランを示す図
【図25】従来手法でアプローチした場合の検索プランの実行イメージを示す図
【図26】検索結果をデータ表示用のフィルタープログラムを通してGUI的に表示した一例を示す図
【図27】検索結果をデータ表示用のフィルタープログラムを通してGUI的に表示した他の例を示す図
【符号の説明】
1…要求制御部
2…格納処理部
3…検索処理部
4…データファイル
5…インデックスファイル
6…プラン生成ルール
11…要求受付部
12…要求処理部
13…結果処理部
21…格納要求構文解析部
22…データ格納部
23…インデックス格納部
31…検索要求構文解析部
32…検索グラフ生成部
33…検索プラン生成部
34…検索プラン実行部

Claims (7)

  1. 論理構造を持つ構造化文書データベースに対して、文書の論理構造を含む検索要求に基づいて検索を行う構造化文書検索方法であって、
    適用可能な検索グラフノードのクラス、適用コスト、適用条件部、検索プラン実行時に実行されるアクションを表すプラン生成ルールを記憶し、
    前記検索要求の記述を構文解析することにより、前記プラン生成ルールにより具体化可能な変数ノードを含む検索グラフノードを有する検索グラフを生成し、
    前記検索グラフの検索グラフノードにおいて前記適用条件を満たし、かつ前記適用コストが最小の検索グラフノードを選択して前記プラン生成ルールを適用し、前記アクションの実行により前記変数ノードを具体化しながら前記プラン生成ルールの適用を繰り返すことにより前記構造化文書データベースに対する検索処理手順を示す検索プランを生成し、
    前記構造化文書データベースを検索対象として前記検索プランを実行することによって、前記検索要求を満足する検索結果を求めることを特徴とする構造化文書検索方法。
  2. 前記変数ノードの具体化は、該変数ノードが取りうる値を枚挙することである請求項1記載の構造化文書検索方法。
  3. 前記構造化文書データベースにおける実データに関するインデックス情報を利用して前記変数ノードを具体化する請求項1記載の構造化文書検索方法。
  4. 前記構造化文書データベースは、要素名称および要素値に関係する階層構造を含み、
    前記検索要求は、前記要素名称および前記要素値に関係する検索条件を含み、前記インデックス情報は、前記構造化文書データベースにおける前記要素値の生起位置を特定する情報を含むデータ生起インデックスと前記構造化文書データベースにおける前記要素名称の生起位置を特定する情報を含む要素名称生起インデックスとの少なくとも一方を含むことを特徴とする請求項3に記載の構造化文書検索方法。
  5. 論理構造を持つ構造化文書データベースに対して、文書の論理構造を含む検索要求に基づいて検索を行う構造化文書検索装置であって、
    適用可能な検索グラフノードのクラス、適用コスト、適用条件部、検索プラン実行時に実行されるアクションを表すプラン生成ルールを記憶する手段と、
    前記検索要求の記述を構文解析することにより、前記プラン生成ルールにより具体化可能な変数ノードを含む検索グラフノードを有する検索グラフを生成する手段と、
    前記検索グラフの検索グラフノードにおいて前記適用条件を満たし、かつ前記適用コストが最小の検索グラフノードを選択して前記プラン生成ルールを適用し、前記アクションの実行により前記変数ノードを具体化しながら前記プラン生成ルールの適用を繰り返すことにより前記構造化文書データベースに対する検索処理手順を示す検索プランを生成する手段と、
    前記構造化文書データベースを検索対象として前記検索プランを実行することによって、前記検索要求を満足する検索結果を求める手段とを備えたことを特徴とする構造化文書検索装置。
  6. 論理構造を持つ構造化文書データベースに対して、文書の論理構造を含む検索要求に基づいて検索を行うためのプログラムであって、
    適用可能な検索グラフノードのクラス、適用コスト、適用条件部、検索プラン実行時に実行されるアクションを表すプラン生成ルールを記憶させ、前記検索要求の記述を構文解析することにより、前記プラン生成ルールにより具体化可能な変数ノードを含む検索グラフノードを有する検索グラフを生成させ、前記検索グラフの検索グラフノードにおいて前記適用条件を満たし、かつ前記適用コストが最小の検索グラフノードを選択して前記プラン生成ルールを適用し、前記アクションの実行により前記変数ノードを具体化しながら前記プラン生成ルールの適用を繰り返すことにより前記構造化文書データベースに対する検索処理手順を示す検索プランを生成させるためのプログラムを記録したコンピュータ読取り可能な記録媒体。
  7. 論理構造を持つ構造化文書データベースに対して、文書の論理構造を含む検索要求に基づいて検索を行う構造化文書検索システムであって、
    前記構造化文書データベースの実データを記憶する手段と、
    前記構造化文書データベースにおける実データに関するインデックス情報を記憶する手段と、
    適用可能な検索グラフノードのクラス、適用コスト、適用条件部、検索プラン実行時に実行されるアクションを表すプラン生成ルールを記憶する手段と、
    外部から前記検索要求を受け付ける手段と、
    受け付けた前記検索要求の記述を構文解析することにより、前記プラン生成ルールにより具体化可能な変数ノードを含む検索グラフノードを有する検索グラフを生成する手段と、
    前記検索グラフの検索グラフノードにおいて前記適用条件を満たし、かつ前記適用コストが最小の検索グラフノードを選択して前記プラン生成ルールを適用し、前記アクションの実行により前記変数ノードを具体化しながら前記プラン生成ルールの適用を繰り返すことにより前記構造化文書データベースに対する検索処理手順を示す検索プランを生成する手段と、
    前記構造化文書データベースを検索対象として前記検索プランを実行することによって、前記検索要求を満足する検索結果を求める手段と
    前記検索結果を外部へ出力する手段とを備えたことを特徴とする構造化文書検索システム。
JP33023699A 1999-11-19 1999-11-19 構造化文書検索方法、構造化文書検索装置及び構造化文書検索システム Expired - Lifetime JP3754253B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP33023699A JP3754253B2 (ja) 1999-11-19 1999-11-19 構造化文書検索方法、構造化文書検索装置及び構造化文書検索システム
US09/714,627 US7054854B1 (en) 1999-11-19 2000-11-17 Structured document search method, structured document search apparatus and structured document search system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33023699A JP3754253B2 (ja) 1999-11-19 1999-11-19 構造化文書検索方法、構造化文書検索装置及び構造化文書検索システム

Publications (2)

Publication Number Publication Date
JP2001147933A JP2001147933A (ja) 2001-05-29
JP3754253B2 true JP3754253B2 (ja) 2006-03-08

Family

ID=18230394

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33023699A Expired - Lifetime JP3754253B2 (ja) 1999-11-19 1999-11-19 構造化文書検索方法、構造化文書検索装置及び構造化文書検索システム

Country Status (2)

Country Link
US (1) US7054854B1 (ja)
JP (1) JP3754253B2 (ja)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002351892A (ja) * 2001-05-30 2002-12-06 A & D:Kk 商標検索システム及び商標出願支援システム
US6868528B2 (en) * 2001-06-15 2005-03-15 Microsoft Corporation Systems and methods for creating and displaying a user interface for displaying hierarchical data
US7526425B2 (en) * 2001-08-14 2009-04-28 Evri Inc. Method and system for extending keyword searching to syntactically and semantically annotated data
US7398201B2 (en) * 2001-08-14 2008-07-08 Evri Inc. Method and system for enhanced data searching
JP2004046817A (ja) 2002-05-23 2004-02-12 Ricoh Co Ltd プログラム、記憶媒体、データ管理装置及びデータ管理システム
JP4267336B2 (ja) * 2003-01-30 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 構造パターン候補を生成する方法、システムおよびプログラム
US20040236724A1 (en) * 2003-05-19 2004-11-25 Shu-Yao Chien Searching element-based document descriptions in a database
JP4247108B2 (ja) 2003-12-25 2009-04-02 株式会社東芝 構造化文書検索方法、構造化文書検索装置、及びプログラム
JP2005309727A (ja) * 2004-04-21 2005-11-04 Hitachi Ltd ファイルシステム
US20060036451A1 (en) * 2004-08-10 2006-02-16 Lundberg Steven W Patent mapping
JP4189369B2 (ja) 2004-09-24 2008-12-03 株式会社東芝 構造化文書検索装置及び構造化文書検索方法
JP2006185408A (ja) * 2004-11-30 2006-07-13 Matsushita Electric Ind Co Ltd データベース構築装置及びデータベース検索装置及びデータベース装置
WO2006128183A2 (en) 2005-05-27 2006-11-30 Schwegman, Lundberg, Woessner & Kluth, P.A. Method and apparatus for cross-referencing important ip relationships
AU2006272510B8 (en) 2005-07-27 2011-12-08 Schwegman, Lundberg & Woessner, P.A. Patent mapping
JP4314221B2 (ja) * 2005-07-28 2009-08-12 株式会社東芝 構造化文書記憶装置、構造化文書検索装置、構造化文書システム、方法およびプログラム
NZ569107A (en) 2005-11-16 2011-09-30 Evri Inc Extending keyword searching to syntactically and semantically annotated data
US8379841B2 (en) 2006-03-23 2013-02-19 Exegy Incorporated Method and system for high throughput blockwise independent encryption/decryption
US20070282816A1 (en) * 2006-06-05 2007-12-06 Shing-Jung Tsai Method and structure for string partial search
JP2008065543A (ja) * 2006-09-06 2008-03-21 Toshiba Corp 構造化文書検索装置及び構造化文書検索方法
JP4212615B2 (ja) * 2006-09-28 2009-01-21 株式会社東芝 構造化文書検索システム、構造化文書検索方法、検索装置、および文書管理装置
JP4146479B2 (ja) 2006-09-28 2008-09-10 株式会社東芝 構造化文書検索装置、構造化文書検索方法および構造化文書検索プログラム
US7660793B2 (en) 2006-11-13 2010-02-09 Exegy Incorporated Method and system for high performance integration, processing and searching of structured and unstructured data using coprocessors
US8326819B2 (en) 2006-11-13 2012-12-04 Exegy Incorporated Method and system for high performance data metatagging and data indexing using coprocessors
CN101211452A (zh) * 2006-12-29 2008-07-02 鸿富锦精密工业(深圳)有限公司 专利情报服务***及方法
US8954469B2 (en) * 2007-03-14 2015-02-10 Vcvciii Llc Query templates and labeled search tip system, methods, and techniques
JP4825712B2 (ja) * 2007-03-22 2011-11-30 株式会社東芝 クエリ処理装置、プログラムおよびクエリ処理方法
JP4398988B2 (ja) 2007-03-26 2010-01-13 株式会社東芝 構造化文書を管理する装置、方法およびプログラム
WO2009029842A1 (en) 2007-08-31 2009-03-05 Exegy Incorporated Method and apparatus for hardware-accelerated encryption/decryption
EP2031520A1 (en) * 2007-09-03 2009-03-04 Software Ag Method and database system for pre-processing an XQuery
JP5196924B2 (ja) 2007-09-11 2013-05-15 株式会社東芝 データベース処理装置、方法及びプログラム
WO2009052308A1 (en) 2007-10-17 2009-04-23 Roseman Neil S Nlp-based content recommender
US8594996B2 (en) 2007-10-17 2013-11-26 Evri Inc. NLP-based entity recognition and disambiguation
US20100131513A1 (en) 2008-10-23 2010-05-27 Lundberg Steven W Patent mapping
US20100268600A1 (en) * 2009-04-16 2010-10-21 Evri Inc. Enhanced advertisement targeting
WO2011053755A1 (en) * 2009-10-30 2011-05-05 Evri, Inc. Improving keyword-based search engine results using enhanced query strategies
US9710556B2 (en) 2010-03-01 2017-07-18 Vcvc Iii Llc Content recommendation based on collections of entities
US8645125B2 (en) 2010-03-30 2014-02-04 Evri, Inc. NLP-based systems and methods for providing quotations
US8838633B2 (en) 2010-08-11 2014-09-16 Vcvc Iii Llc NLP-based sentiment analysis
US9405848B2 (en) 2010-09-15 2016-08-02 Vcvc Iii Llc Recommending mobile device activities
US8725739B2 (en) 2010-11-01 2014-05-13 Evri, Inc. Category-based content recommendation
US9116995B2 (en) 2011-03-30 2015-08-25 Vcvc Iii Llc Cluster-based identification of news stories
US9904726B2 (en) 2011-05-04 2018-02-27 Black Hills IP Holdings, LLC. Apparatus and method for automated and assisted patent claim mapping and expense planning
US9940363B2 (en) 2011-10-03 2018-04-10 Black Hills Ip Holdings, Llc Systems, methods and user interfaces in a patent management system
US10860657B2 (en) 2011-10-03 2020-12-08 Black Hills Ip Holdings, Llc Patent mapping
US11461862B2 (en) 2012-08-20 2022-10-04 Black Hills Ip Holdings, Llc Analytics generation for patent portfolio management
US9767190B2 (en) 2013-04-23 2017-09-19 Black Hills Ip Holdings, Llc Patent claim scope evaluator

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0738165B2 (ja) * 1985-06-25 1995-04-26 株式会社日立製作所 デ−タベ−ス管理方法
US6182062B1 (en) * 1986-03-26 2001-01-30 Hitachi, Ltd. Knowledge based information retrieval system
JPH03111974A (ja) * 1989-09-26 1991-05-13 Toshiba Corp データベース問い合わせ処理方式
US5537593A (en) * 1990-02-12 1996-07-16 Fmc Corporation Method for solving enumerative search problems using message passing on parallel computers
GB9005697D0 (en) * 1990-03-14 1990-05-09 Digital Equipment Int Data format conversion
JP2745794B2 (ja) * 1990-08-24 1998-04-28 富士ゼロックス株式会社 文書処理装置
CA2048039A1 (en) * 1991-07-19 1993-01-20 Steven Derose Data processing system and method for generating a representation for and random access rendering of electronic documents
FR2696853B1 (fr) * 1992-10-12 1994-12-23 Bull Sa Procédé d'aide à l'optimisation d'une requête d'un système de gestion, de base de données relationnel et procédé d'analyse syntaxique en résultant.
US5381523A (en) * 1992-04-06 1995-01-10 Fuji Xerox Co., Ltd. Document processing device using partial layout templates
JPH06203078A (ja) 1992-12-28 1994-07-22 Sony Corp 情報検索方法およびその装置
JP3573471B2 (ja) 1993-04-19 2004-10-06 株式会社日立製作所 全文デ−タベ−ス検索方法
JPH0765002A (ja) * 1993-08-31 1995-03-10 Fuji Xerox Co Ltd 文書処理装置
US5991751A (en) * 1997-06-02 1999-11-23 Smartpatents, Inc. System, method, and computer program product for patent-centric and group-oriented data processing
JP2618832B2 (ja) * 1994-06-16 1997-06-11 日本アイ・ビー・エム株式会社 文書の論理構造の解析方法及びシステム
JP3724847B2 (ja) * 1995-06-05 2005-12-07 株式会社日立製作所 構造化文書差分抽出方法および装置
JPH09297768A (ja) * 1996-05-07 1997-11-18 Fuji Xerox Co Ltd 文書データベース管理装置及び文書データベース検索方法
JPH1115843A (ja) 1997-06-24 1999-01-22 Toshiba Corp Sgml文書検索装置およびsgml文書検索方法
US5873081A (en) * 1997-06-27 1999-02-16 Microsoft Corporation Document filtering via directed acyclic graphs
JP3692764B2 (ja) * 1998-02-25 2005-09-07 株式会社日立製作所 構造化文書登録方法、検索方法、およびそれに用いられる可搬型媒体
JP3696731B2 (ja) * 1998-04-30 2005-09-21 株式会社日立製作所 構造化文書の検索方法および装置および構造化文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3239845B2 (ja) * 1998-05-18 2001-12-17 富士ゼロックス株式会社 全文検索装置および方法
US6263332B1 (en) * 1998-08-14 2001-07-17 Vignette Corporation System and method for query processing of structured documents
US6519597B1 (en) * 1998-10-08 2003-02-11 International Business Machines Corporation Method and apparatus for indexing structured documents with rich data types
US6496819B1 (en) * 1998-12-28 2002-12-17 Oracle Corporation Rewriting a query in terms of a summary based on functional dependencies and join backs, and based on join derivability
US6714928B1 (en) * 1999-03-19 2004-03-30 Sybase, Inc. Development system providing HTML database control object

Also Published As

Publication number Publication date
US7054854B1 (en) 2006-05-30
JP2001147933A (ja) 2001-05-29

Similar Documents

Publication Publication Date Title
JP3754253B2 (ja) 構造化文書検索方法、構造化文書検索装置及び構造化文書検索システム
JP3842577B2 (ja) 構造化文書検索方法および構造化文書検索装置およびプログラム
JP3842573B2 (ja) 構造化文書検索方法、構造化文書管理装置及びプログラム
CN102693310B (zh) 一种基于关系数据库的资源描述框架查询方法和***
US20060206466A1 (en) Evaluating relevance of results in a semi-structured data-base system
Boukottaya et al. Schema matching for transforming structured documents
WO2001022287A1 (en) System and method for performing similarity searching
JP2007034827A (ja) 構造化文書記憶装置、構造化文書検索装置、構造化文書システム、方法およびプログラム
JP3492246B2 (ja) Xmlデータ検索処理方法および検索処理システム
US20060015809A1 (en) Structured-document management apparatus, search apparatus, storage method, search method and program
US20060161525A1 (en) Method and system for supporting structured aggregation operations on semi-structured data
EP1192561A1 (en) Database management system with capability of fine-grained indexing and querying
US20090307187A1 (en) Tree automata based methods for obtaining answers to queries of semi-structured data stored in a database environment
Elmasri et al. Conceptual modeling for customized XML schemas
Elmasri et al. Conceptual modeling for customized XML schemas
JP3842572B2 (ja) 構造化文書管理方法および構造化文書管理装置およびプログラム
JP3842576B2 (ja) 構造化文書編集方法及び構造化文書編集システム
JP3842574B2 (ja) 情報抽出方法および構造化文書管理装置およびプログラム
JP3910901B2 (ja) 文書構造検索方法、文書構造検索装置および文書構造検索プログラム
Lim et al. WebView: A tool for retrieving internal structures and extracting information from HTML documents
JP3842575B2 (ja) 構造化文書検索方法、構造化文書管理装置及びプログラム
JP2004118543A (ja) 構造化文書検索方法、検索支援方法、検索支援装置および検索支援プログラム
Córcoles et al. A Spatio-Temporal Query Language for a data model based on XML.
Bassiliades et al. Intelligent Querying of Web Documents Using a Deductive XML Repository
Jain Plug-And-Play Web Services

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051215

R151 Written notification of patent or utility model registration

Ref document number: 3754253

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081222

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081222

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091222

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091222

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101222

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101222

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111222

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121222

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131222

Year of fee payment: 8

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term