JP3239845B2 - 全文検索装置および方法 - Google Patents

全文検索装置および方法

Info

Publication number
JP3239845B2
JP3239845B2 JP15195098A JP15195098A JP3239845B2 JP 3239845 B2 JP3239845 B2 JP 3239845B2 JP 15195098 A JP15195098 A JP 15195098A JP 15195098 A JP15195098 A JP 15195098A JP 3239845 B2 JP3239845 B2 JP 3239845B2
Authority
JP
Japan
Prior art keywords
word
tag
document
text
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP15195098A
Other languages
English (en)
Other versions
JPH10283375A (ja
Inventor
昌一 舘野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP15195098A priority Critical patent/JP3239845B2/ja
Publication of JPH10283375A publication Critical patent/JPH10283375A/ja
Application granted granted Critical
Publication of JP3239845B2 publication Critical patent/JP3239845B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、全文検索装置およ
び方法に関し、特に、タグを有する文書において本文中
の単語を登録し、全文の登録語の検索を能率よく行う全
文検索装置および方法に関するものである。
【0002】
【従来の技術】従来から、ワークステーション上の文書
編集装置(ワードプロセッサ)など、文書処理を行う文
書編集装置においては、文書の作成を効率よく行うた
め、タグを用いて文書内容を部分的に区別して、予じ
め、見出し,段落などの複数の文書部品を作成し、その
各々の文書部品の間の関係を定めて、文書を構造化して
編集することが試みられている。
【0003】このような文書に対して構造の概念を取り
入れた構造化文書の例としては、例えば、国際規格のO
DA(ISO8613: Open Document Architectur
e)や、SGML(ISO8879: Standard General
ized Markup Language)の規格による構造化文書が知ら
れている。ODAの規格による構造化文書を用いた文書
処理方法の一例は、特開平5−135054号公報に記
載されている「文書処理方法」が参照できる。
【0004】ところで、SGMLによる構造化文書は、
従来のテキスト処理システムとの親和性が高く、アメリ
カを中心として普及してきており、既に実用の段階に入
っている。このようなSGMLによる構造化文書の手法
では、タグとよばれるマークを文書テキスト中に挿入す
ることで、文書テキストを部分的に区分し(例えば文書
部品として区分し)、その区分の関係を規定して構造化
し、木構造の文書構造を表現する。
【0005】SGMLによる構造化文書を例にとって、
マーク(タグ)付けされた構造化文書の処理例について
説明する。SGMLによる構造化文書では、予じめ文書
の構造のひな型が与えられ、文書の構造は、その与えら
れたひな型の範囲内に制約される。この文書構造のひな
型は、SGMLにおいては、文書型定義(DTD:Docu
ment Type Definition)と呼ばれる。
【0006】SGMLの構造化文書では、まず、文書型
定義を規定して、文書の構造を表現するために、文書テ
キスト内にタグと呼ばれるマークを挿入し、そのタグに
より文書テキストを部分的に区分する。例えば、文書に
おける一つの段落は、名前が“段落”とされたタグ<段
落>を用いて、次のように表現される。 『<段落>これは一つの段落です。</段落>』 ここでのタグ<段落>が段落の開始を意味し、スタート
タグと呼ばれる。タグ</段落>が段落の終了を意味
し、エンドタグと呼ばれる。つまり、ここでは、タグの
名前が“段落”とされたスタートタグ<段落>とエンド
タグ</段落>との2つのタグを用いてマーク付けし、
文書におけるテキストを文書部品として部分的に区分す
る。つまり、2つのタグの間に挾まれたテキスト部分
が、タグで指示された構造の内容部分を示している。
【0007】名前が付けられたタグは各々が区別され
て、文書型定義の中で構造上のその位置付けが定義され
る。その意味では、タグが文書の構造(構成要素)を表
現している。したがって、混合が生じない場合におい
て、以下で言う構造化文書(SGMLによる文書)の構
造とは、タグと同義であることを意味している。
【0008】また、SGMLによる構造化文書(以下、
SGML文書と略称する)においては、一部のタグを省
略できる。その場合の省略の可/不可は、文書型定義
(DTD)により指定する。省略はスタートタグおよび
エンドタグのそれぞれに独立に指定できる。例えば、エ
ンドタグ</段落>が省略可とする場合は、これが文書
型定義内で指定された場合であり、その場合、先の例は 『<段落>これは一つの段落です。』 と記述してもよいことになる。
【0009】SGML文書の文書型定義の具体例は、例
えば、図10に示される。図10に示す文書型定義10
0により規定される文書構造では、名前が“題”とされ
たスタートタグ、“題”のエンドタグ、“段落”のエン
ドタグ、“図”のエンドタグ、および“図本体”のエン
ドタグが省略可能であることが定義されている。
【0010】更に、図10に示す文書型定義100の内
容を具体的に説明すると、ここでの文書型定義(DT
D)はSGMLの表記法に従って記述されているので、
それに従って解釈できる。つまり、文書型定義の内容の
行の最初の“<!”はマークアップ宣言区切り子であ
り、空白なしに続く次の“ELEMENT”は要素宣言
キーワードである。この行の最初の“<!ELEMEN
T”により、次に続く記述によって、その構造の内容
(下部の構造)がどのようになるのかを指定する。そし
て、その次に記述される項目の名前(文書,章,題,段
落,図など)が、対象となるタグの名前を表している。
【0011】更に、次の記号(“− −”,“−
O”,“O O”など)は、その項目の対象のタグが、
スタートタグおよびエンドタグの順でそれぞれ省略可能
かどうかを表す記号である。“−”が省略不可を意味
し、“O”が省略可を意味する。例えば、ここでの記号
が“− O”であれば、スタートタグは省略不可であ
り、エンドタグは省略可であることを意味する。
【0012】更に続く次の項目は、タグの下部の構造を
表す規定の定義である。ここでの記号“,”は項目(タ
グ)が順序立てて出現することを意味し、記号“|”は
どちらかの項目であれば良いことを意味し、記号“*”
は0回以上の繰り返しを意味する。また、記号“?”は
それがあってもなくても良いことを意味している。
【0013】したがって、例えば、タグの下部構造が
“(章題,段落*,章*)”と規定されている場合は
『章題の次に段落の0回以上の繰り返しがあり、更にそ
の次に章の0回以上の繰り返しがある』という順序で下
部の構造が規定されることを意味する。具体例で説明す
ると、図10に示す文書型定義100の第2行目のよう
に、タグの下部構造が“(題,(段落|図)*,章
*)”と規定されている場合、『章の次に段落または図
の0回以上の繰り返しがあり、その次に章の0回以上の
繰り返しがある』順序で下部の構造が規定されることを
意味する。
【0014】また、第3行目および第4行目に記述され
ているタグの下部構造の“#PCDATA”はSGML
の予約語の1つであり、構造の規定で、その内容が文字
データであること意味している。したがって、文書型定
義100の例では、章を構成する「題」と「段落」のタ
グの下部には文字データが来ることを意味している。
【0015】つまり、図10に示す文書型定義(DT
D)の意味するところによる文書構造のひな型では、当
該文書が、「章」の繰り返しからなる“<文書>”とい
うタグから始まる文書であり、その「章」は、「題」の
次に「段落」または「図」の0回以上の繰り返しがあ
り、更にその次に「章」の0回以上の繰り返しがあるも
のから構成されている。そして、ここでの「題」および
「段落」が、文字データから構成される。
【0016】更に細部の規定として、文書構造の「図」
の内容は、「題」とそれに続く「図本体」から構成され
ると定義され、「図本体」は、例えば外部のイメージフ
ァイルを参照するので、下部構造を持たない(“EMP
TY”)と定義される。また、ここでの構造のタグの省
略可/省略不可の指定は、「文書」および「章」はタグ
の省略不可であり、「段落」,「図」,および「図本
体」は、エンドタグのみが省略可であり、「題」は両方
のタグが省略可であるということが定義される。
【0017】このような文書型定義に従っている実際の
文書(以下、対象文書と呼ぶ)の例としては、例えば、
図11に示されているSGML文書110がある。な
お、この図11に示す文書の中では、文書の構造の深さ
に応じてインデンテーションを変えて表記しているが、
この表記は、ここでの構造化文書の文書例の説明上、見
やすくするために行っているものであり、実際の文書で
はインデンテーションされないことが多い。
【0018】図11を参照すると、この例の構造化文書
のSGML文書110を見ると理解されるように、
「章」を構成するその下位の構造の「題」を表すタグ
は、スタートタグおよびエンドタグは共にこの文書中に
は現れていない。しかし、実体的には、第2行目のタグ
“<章>”とその内容部分の“SGMLとは”との間の
スタートタグ“<題>”が省略されている形となってい
る。なお、このようなタグが省略されているかどうか
は、前述の文書型定義100を参照しなければ分からな
い。したがって、対象文書は常にそれに従っている文書
型定義とのセットでないと正確な構造を読み取ることが
できない。
【0019】SGML文書では、このようにタグの省略
が行われるため、SGML文書を処理する際には、ま
ず、文書構造を解析する処理(SGMLパーサによる構
文解析処理)が必要とされる。文書構造の解析の処理で
は、対象文書を解析しながら、文書型定義との照らし合
わせを行い、対象文書において省略されたタグを復元す
る処理が主として行われる。実際の文書処理において実
行される構文解析処理では、これ以外の処理(例えば、
属性の復元やエンティティの展開などの処理)も行われ
る。
【0020】図11に例示したSGML文書110を対
象文書として、タグ(構造)の復元処理を行うと、図1
2に示すようようなSGML文書120が得られる。図
12に示すSGML文書120においては、下線を引い
た部分が復元されたタグ(構造)を示している。この対
象文書は、図10に示すような文書型定義100を参照
して、省略されたタグが復元されたもである。つまり、
「章」の構造の規定から、タグ<章>の次には必ずタグ
<題>が存在しなければならないので、まず、タグ<章
>の次にタグ<題>を復元し、同様に、タグ<図>の次
には必ずタグ<題>が存在しなければならないので、タ
グ<図>の次にタグ<題>を復元する。また、それぞれ
のエンドタグが省略されているので、内容部分の次に
(対応する次のタグの手前の位置に)、それぞれのエン
ドタグ</題>,</段落>などを復元する。このよう
にして下線が引かれたようにタグ(構造)が復元され
る。
【0021】次に、このようにタグが復元され、構造表
現されたSGML文書120において、構造を検索する
場合の処理について説明する。構造化文書においては、
文書編集を行う場合、単なるテキストの文字列の検索だ
けでなく、文書構造における構造の検索も文書処理の重
要な処理となる。これは、構造化文書の処理を行う場合
においては、文書構造の構造を利用した編集処理が積極
的に行われるためである。
【0022】構造化文書の検索においては、従来のよう
な文字列の検索だけではなく、構造を積極的に利用した
検索も有効に利用される。例えば、文書のSGMLに関
連した図を検索したい場合、これまでの検索処理では、
文書内を全文検索(文字列検索)を行い、テキストの文
字列からその「関連した図」の文字列を捜し出してい
た。
【0023】しかし、文書構造の構造自体を検索に用い
ると、例えば、「図のタイトルにSGMLを含んでいる
図」や「図の下部構造の題」のように文書構造における
構造を指示して、検索を行うことができ、より対象を絞
った検索を行うことができることになる。また、その場
合の検索処理も、文書の構造に従って対象範囲が限定し
て検索できるので、検索処理の効率が良くなるという利
点も持つ。
【0024】前述したように、SGML文書は、テキス
ト中にマーク付けを行うだけのタグを埋め込んだ形式の
文書アーキテクチャとなっているため、従来からのテキ
スト処理システムとの親和性が高く、構造がマーク付け
のタグで表現されるため、構造を検索する際にも特別な
装置あるいは処理プログラムを用いなくとも良い。タグ
の文字列を検索するという文字列検索を用いて、文書構
造の検索を行うことができる。つまり、従来からのテキ
スト処理装置(文書エディタなど)により、SGML文
書を作成することができ、基本的にはスタートタグとそ
れに対応するエンドタグを、タグの文字列を検索すると
いう従来の文字列検索のテキスト検索手法を用いて検索
することにより、構造検索を行うことができる。
【0025】
【発明が解決しようとする課題】このように、SGML
などのタグ付き文書の規格が標準化され、多方面で利用
され始めている。このタグ付き文書は、フォーマット情
報や、その他の文書に関する構造の情報を示すマークア
ップをタグにより表現する手法を取り入れた文書である
ため、SGMLの標準化の規格によって、文書の内容が
構造化されて、その内容の利用が容易になる。このた
め、企業、官庁、学校の内外を問わず、この種の文書の
流通が盛んになり始めている。このように、タグ付き文
書が電子化されて、蓄積されていくことにより、大規模
な電子化文書の資源が蓄えられ、利用可能になる。
【0026】しかし、SMGLなどのタグ付き文書の中
から、必要な情報を探す場合、文書構造は、タグを利用
することにより容易に判定されるので、構造の検索は容
易になっているが、文書内容については、これまでのフ
ルテキストサーチなどの手法を利用しなければならず、
十分に効率よく内容の検索までは行えないという問題が
あった。なお、タグを利用することにより、文書構造の
位置関係などが判別できるので、このようなタグを利用
して、タグを検索結果の参照単位の区切りとすることが
でき、文書内容の利用が効率化できる。
【0027】本発明は、上述のような問題を解決するた
めになされたものであり、本発明の目的は、タグを有す
る文書において、タグで区切られる単位を検索結果の参
照単位として利用し、効率よく本文中の単語位置を検索
し、本文の参照単位を得ることができる全文検索装置お
よび方法を提供することにある。
【0028】
【課題を解決するための手段】上記のような目的を達成
するため、本発明の第1の特徴とする全文検索装置は、
タグを有する文書のタグで区切られた参照単位の本文デ
ータ、及び前記文書内の単語が含まれている参照単位の
本文データが格納されている位置と前記単語との対応
記憶している記憶手段と、検索対象の単語を入力する入
力手段と、前記入力手段により入力された検索対象の単
語を前記記憶手段から検索する検索手段と、前記検索手
段により検索された単語に対応する本文データが格納さ
れている位置を前記記憶手段から取り出す本文データ格
納位置取出手段と、前記本文データ格納位置取出手段に
より取り出された本文データが格納されている位置に従
って本文データを取り出す取出手段を具備することを特
徴とする。
【0029】また、本発明の全文検索装置は、第2の特
徴として、前記記憶手段に記憶された本文データは、指
定形式で記述された属性と値の対を含み、前記記憶手
、前記指定形式で記述された属性と値の対を単語とし
て登録ており、前記入力手段が、前記指定形式を入力
し、前記取出手段が、前記入力手段により入力された指
定形式の属性と値の対を取り出すことを特徴とする。
【0030】本発明の第3の特徴とする全文検索方法
は、タグを有する文書のタグで区切られた参照単位の本
文データ、及び前記文書内の単語が含まれている参照単
位のタグの種類を示すフィールドを付加したフィールド
付き単語とその単語が含まれている参照単位の本文デー
タが格納されている位置とを対応付けて記憶手段に記
している全文検索装置において、フィールド及び検索対
象の単語を入力するステップ1と、その入力されたフィ
ールド及び検索対象の単語を前記記憶手段から検索する
ステップ2と、その検索されたフィールド付き単語に対
応する本文データが格納されている位置を前記記憶手
ら取り出すステップ3と、その取り出された本文デー
タが格納されている位置に従って本文データを取り出す
ステップ4とを具備することを特徴とする。
【0031】また、本発明の第4の特徴とする全文検索
方法は、前記記憶手段の本文データには、指定形式で記
述された属性と値の対を含み、前記記憶手段は、前記指
定形式で記述された属性と値の対をフィールド付き単語
として登録ており、前記ステップ1で、前記指定形式
を入力し、前記ステップ4では、前記ステップ1で入力
された指定形式の属性と値の対を取り出すことを特徴と
する。
【0032】このような様々な特徴を有する本発明の全
文検索装置においては、記憶手段が、タグを有する文書
のタグで区切られた参照単位の本文データ、及び前記文
書内の単語が含まれている参照単位の本文データが格納
されている位置と前記単語との対応を記憶しており、入
力手段が、検索対象の単語を入力すると、検索手段が、
入力された検索対象の単語を前記記憶手段から検索し、
検索した単語から、本文データ格納位置取出手段が、単
語に対応する本文データが格納されている位置を記憶手
段から取り出す。そして、取出手段が、本文データ格納
位置取出手段により取り出された本文データが格納され
ている位置に従って本文データを取り出す。
【0033】このようにして、本発明の全文検索装置に
よれば、タグを有する文書において、タグで区切られた
本文データを参照単位とし、本文中の検索対象とする単
語について、例えば、本文中の全ての単語について、そ
の単語を出現する位置の直前にあるタグの位置を全て集
めて、検索インデックスのためのデータとして、文書内
の単語が含まれている参照単位の本文データが格納され
ている位置とを対応付けて記憶しておく。これを検索用
のインデックスとして、検索処理を行う場合、検索対象
の単語を入力すると、その単語が出現する位置の直前に
あるタグの位置の集合が検索結果として出力でき、それ
から本文データが取り出せる。
【0034】つまり、タグを有する文書において、タグ
を検索結果の参照単位の区切りとすると、例えば、文書
内に表われる全ての単語を、その直前のタグの位置と共
に検索インデックスのためのデータとして登録して利用
でき、タグを効果的に検索のために有効利用できる。こ
れにより、文書内の全ての単語に対し、当該単語を含む
タグで区切られた参照単位を即座に検索することが可能
となる。
【0035】
【発明の実施の形態】以下、本発明の一実施例を図面を
用いて具体的に説明する。図1は本発明の実施例の全文
検索装置の装置構成の要部を示すブロック図である。図
1において、1は検索語登録処理部、2は登録語検索処
理部、3はタグを有する文書の本文ファイル、4は本文
ファイルに付加された検索インデックス、11は参照単
位分割部、12は単語位置抽出部、13は分類処理機
構、14は検索インデックス生成部、15は検索単語入
力部、16は検索機構、17は本文参照単位出力部、1
8は検索結果出力表示部である。
【0036】ここでの全文検索装置においては、検索対
象の単語を入力して本文検索の処理を実行する前に、そ
の前処理として、検索語登録処理部1が、タグを有する
文書の本文ファイル3から、検索対象とする単語の登録
を行い、本文ファイルに付加する検索インデックス4を
作成する。検索インデックス4が付加された本文ファイ
ルは、登録語検索処理部2において、本文ファイルに付
加された検索インデックス4を利用して、検索対象の本
文からその登録語を検索する処理が行われる。図1を参
照して説明する。つまり、ここでの検索のための検索イ
ンデックス4として、タグの性質を有効利用するため、
後述するように、例えば、登録する単語を文書内の本文
の単語が含まれている参照単位のタグの種類を示すフィ
ールドを付加したフィールド付き単語として、その単語
が含まれている参照単位の本文データが格納されている
位置とを対応付けて利用る。
【0037】検索語登録処理部1において、まず、参照
単位分割部11にタグを有する文書の本文ファイル3を
入力する。参照単位分割部11は、本文ファイル3が入
力されると、本文をタグで区切られた参照単位に分割す
る。この参照単位の本文を入力として、次に、単語位置
抽出部12が、検索対象とする単語として、単語と当該
単語が出現する本文における参照単位の位置の対を抽出
する。
【0038】次に、分類処理機構13が、抽出された単
語と参照単位の位置の対を単語に従って分類し、後述す
るように、単語に対し当該単語が出現する全ての参照単
位の位置を組とした単語位置集合を生成する。そして、
検索インデックス生成部14が、得られた単語位置集合
に対し、単語から位置集合を得る検索インデックス4を
生成し、本文ファイル3に対して、その対応する検索イ
ンデックス4を付加して、検索インデックス4付きの本
文ファイルを作成する。これにより、ここでの検索イン
デックス4が付加された本文ファイルは、検索インデッ
クス4を用いる登録語検索処理部2の検索処理により、
検索対象の単語から高速に本文ファイルのタグで区切ら
れた参照単位の位置を得ることができ、該当の参照単位
の内容を直ちに表示できる。
【0039】検索対象の単語から本文ファイルの検索を
行う場合、登録語検索処理部2においては、検索単語入
力部15を介して、検索対象とする単語を入力すると、
検索機構16が、本文ファイルに付加された検索インデ
ックス4を用いて、検索対象の単語の検索処理を行い、
その単語の対応の参照単位の位置の集合を検索する。参
照単位の位置が検索できると、次に、本文参照単位出力
部17が、その参照単位の位置から本文ファイルをアク
セスして、該当の参照単位を直ちに出力し、検索結果出
力表示部18を介して、該当の参照単位を出力表示す
る。
【0040】このように、タグを有する文書の本文ファ
イル3を、検索語登録処理部1の参照単位分割部11に
入力すると、参照単位分割部11は、タグで区切られた
参照単位に分割し、参照単位分割部11から参照単位と
その位置を得る。単語位置抽出部12は、この参照単位
を入力とし、この参照単位内に含まれる全ての単語につ
いて、その単語と、当該単語が出現する本文における参
照単位の位置の対を生成する。次に、分類処理機構13
が、それぞれの単語について、その単語が表れる全ての
参照単位に位置の組である(単語・参照単位の位置集
合)対を得る。次に、検索インデックス生成部14によ
り、全ての(単語・参照単位の位置集合)対から、各々
の単語についての参照単位の位置集合を生成し、検索イ
ンデックス4を作成する。
【0041】これにより、文書内の全ての単語は、その
直前のタグ(参照単位)の位置の情報と共に、検索イン
デックス4に登録されるので、検索対象とする単語から
検索インデックス4を用いて検索することにより、文書
中の単語の参照単位のタグ位置が直ちに検索でき、高速
に参照単位の文書内容の部分が表示出力される。
【0042】図2は、第1の実施例の本文ファイルに対
する検索インデックスの作成処理を示す処理フローを示
すPAD(Problem Analysis Diagram)図である。ま
た、図3は、図2に示す処理フローにより検索インデッ
クスを作成する場合の作成プロセスの要部を具体的に説
明する図である。図2および図3を参照して、全文検索
のための検索インデックスの作成処理を説明する。
【0043】まず、図2を参照して、本文ファイルに対
する検索インデックスの作成処理の処理フローを概要を
説明する。処理を開始すると、処理ブロック21におい
て、本文ファイル31をタグの位置で分割し、分割した
部分を参照単位とし、そのタグ位置を一時記憶する処理
を行う。次に、繰り返し処理の制御ブロック22の処理
を行う。この制御ブロック22の処理では、タグで分割
された全てのタグ位置とその本文部分の対に対して、次
の処理ブロック23および処理ブロック24の処理を繰
り返し行う処理制御を行う。
【0044】この制御ブロック22の制御下の繰り返し
処理では、まず、処理ブロック23において、処理対象
の参照単位のタグ位置をAファイルに書き出す。次に、
処理ブロック24において、処理対象の参照単位の本文
の単語を、Aファイルに先に書き出したタグ位置に続い
て、順番にAファイルに書き出す。これにより、Aファ
イルには、1つの参照単位について、タグ位置に続い
て、その本文中の単語が連続して書き出される。このよ
うな処理を全ての参照単位について、制御ブロック22
の処理制御により、繰り返し行う。このため、Aファイ
ルには、図3に示すように、本文ファイル31から各々
の参照単位について、まず、タグ位置が書き出されて、
続いて当該タグ位置に対応する参照単位の本文の中の単
語が順次に書き出される。この結果、Aファイル32の
内容は、タグ位置とそれに続く単語の組32aが、参照
単位の数だけ続くデータが得られる。
【0045】このようにして、Aファイルが作成される
と、次に、繰り返し処理の制御ブロック25の処理を行
う。この制御ブロック25の処理では、Aファイルに含
まれる全ての単語に対して、次の処理ブロック26およ
び処理ブロック27の処理を繰り返し行う処理制御を行
う。
【0046】この制御ブロック25の制御下の繰り返し
処理では、まず、処理ブロック26において、単語をキ
ーとして、当該単語に対応するタグ位置を値とする対を
作成する。続いて、処理ブロック27において、同じキ
ー(単語)を持つ値(タグ位置)の対を集めて、キーと
値の集合から構成されるリストを作成し、これをBファ
イルに書き出す。これにより、Bファイルには、1つの
単語について、その単語が出現する参照単位のタグ位置
のリストが得られる。このような処理を全てのAファイ
ルの単語について、制御ブロック25による処理制御に
より、繰り返し行う。
【0047】この結果、図3に示すように、Bファイル
33には、本文ファイルの各タグに区切られる参照単位
の全ての単語について、当該単語がその出現する各々の
参照単位に対応するタグ位置のリストが得られる。図3
に示すBファイル33の例で説明すると、第1番目の単
語1および第2番目の単語2に対応して、それぞれに
『(単語1,0,…)』および『(単語2,0,10
0,…)』のリストデータが得られている。つまり、こ
れらのリストデータは、それぞれに『単語1が出現する
参照単位のタグ位置がアドレス“0”,…であること』
および『単語2が出現する参照単位のタグ位置がアドレ
ス“0”,アドレス“100”,…であること』を意味
している。
【0048】次に、処理ブロック28の処理を行い、B
ファイルの内容に基づいて、単語からタグ位置の集合を
検索できる検索インデックスを作成し、ここでの処理を
終了する。これにより、各々の単語に対する検索インデ
ックスが作成されると、その検索インデックスを用いる
ことにより、検索対象の単語から直ちに、その単語が出
現する参照単位のタグ位置の集合が得られる。したがっ
て、検索単語から得られたタグ位置の集合に従って、当
該タグ位置の集合からそれぞれの参照単位を表示でき
る。
【0049】以上に説明した全文検索装置の第1の実施
例においては、本文ファイルの参照単位をタグにより区
分し、その位置を指示するタグ位置と、その中に含まれ
る単語を求めて記録する場合(Aファイル)、最初に参
照単位の開始を指示すタグ位置を置き、続いて、その参
照単位に属する単語を書くファイル形式をとっている
が、各々の単語と参照単位(タグのタイプ)の間の関係
を明確にして、同じ種類のタグの参照単位の中の単語を
他と区別するため、各々の単語のデータにタグの種類を
示すフィールドを設けるようにしてもよい。これによ
り、同じ種類のタグの参照単位を検索単位として扱え
る。このような例を第2の実施例として説明する。
【0050】図4は、第2の実施例の全文検索装置の本
文ファイルに対する検索インデックスの作成処理を示す
処理フローを示すPAD図である。また、図5は、図4
に示す処理フローによる検索インデックスの作成プロセ
スの要部を具体的に説明する図である。図4および図5
を参照して、第2の実施例の全文検索のための検索イン
デックスの作成処理を説明する。
【0051】第2の実施例においては、単語から検索さ
れた結果のタグ位置により、表示する参照単位の区切り
のタグの種類が直ちに判別できるように、参照単位ごと
にその本文の検索対象となる単語の前にタグの種類を示
すフィールドの文字列を付加している。これは、例え
ば、単語位置抽出部において、抽出した単語の前にタグ
種別を示すフィールドの文字列を付加する処理を追加す
るように変形することにより、容易に対応できる。この
種のタグの種類を示すフィールドを用いる場合の一例と
して、例えば、本文ファイルの参照単位の内容が、故障
の個々の内容を示している場合に、故障の症状,原因,
対処の3つのフィールドを1レコード中に設けておき、
そのようなレコードが繰返し現われるような文書におい
て、その単語の検索範囲を、症状を示すフィールドだけ
に限定する場合などに利用できる。この場合、タグの種
類を示すフィールドの文字列として、症状,原因,対処
の3つの種類を示す文字列を付加する。
【0052】図4を参照して、本文ファイルに対する検
索インデックスの作成処理の処理フローを概要を説明す
る。処理を開始すると、処理ブロック41において、本
文ファイルをタグの位置で分割し、分割した部分を参照
単位とし、そのタグ位置を一時記憶する処理を行う。次
に、繰り返し処理の制御ブロック42の処理を行う。こ
の制御ブロック42の処理では、タグで分割された全て
のタグ位置とその本文部分の対に対して、次の処理ブロ
ック43および処理ブロック44の処理を繰り返し行う
処理制御を行う。
【0053】この制御ブロック42の制御下の繰り返し
処理では、まず、処理ブロック43において、処理対象
の参照単位のタグ位置をCファイルに書き出す。次に、
処理ブロック44において、処理対象の参照単位の本文
の各々の単語に対して、本文の単語の前にタグの種類を
示すフィールドの文字列を付加したものを、新たな単語
として、Cファイルに先に書き出したタグ位置に続い
て、順番にCファイルに書き出す。これにより、Cファ
イルには、1つの参照単位について、タグ位置に続い
て、タグの種類を示すフィールドの文字列を付加した本
文中の単語が連続して書き出される。
【0054】このような処理を全ての参照単位につい
て、制御ブロック42の処理制御により、繰り返し行
う。この結果、図5に示すように、Cファイル52に
は、本文ファイル51から各々の参照単位について、ま
ず、タグ位置が書き出されて、続いて当該タグ位置に対
応する参照単位のタグの種類を示すフィールドの文字列
(fld1など)を前に付加した本文の中の単語(単語
1,単語2など)が順次に書き出される。この結果、C
ファイル52の内容として、タグ位置とそれに続くタグ
の種類を示すフィールドの文字列を付加した単語の組5
2aが、参照単位の数だけ続くデータが得られる。
【0055】このようにして、Cファイルが作成される
と、次に、繰り返し処理の制御ブロック45の処理を行
う。制御ブロック45の処理では、Cファイルに含まれ
る全ての単語に対して、次の処理ブロック46および処
理ブロック47の処理を繰り返し行う処理制御を行う。
【0056】この制御ブロック45の制御下の繰り返し
処理では、まず、処理ブロック46において、単語をキ
ーとして、当該単語に対応するタグ位置を値とする対を
作成する。続いて、処理ブロック47において、同じキ
ー(単語)を持つ値(タグ位置)の対を集めて、キーと
値の集合から構成されるリストを作成し、これをDファ
イルに書き出す。これにより、Dファイルには、前にタ
グの種類を示すフィールドの文字列を付加した1つの単
語について、その単語が出現する参照単位のタグ位置の
リストが得られる。このような処理を全てのCファイル
に書き出された単語について、制御ブロック45による
処理制御により、繰り返し行う。
【0057】この結果、図5に示すように、Dファイル
53には、本文ファイル51の全ての単語について、前
にタグの種類を示すフィールドの文字列が付加された単
語毎に、当該単語がその出現する個々の参照単位に対応
して、そのタグ位置のリストが得られる。図5に示す例
で説明すると、第1番目の単語1および第2番目の単語
2に対しては、それぞれ『(fld1-単語1,0,…)』
および『(fld1-単語2,100,…)』のリストデー
タが得られている。つまり、これらのリストデータは、
『タグの種類が“fld1”である参照単位で単語1が出
現するタグ位置が、アドレス“0”,…であること』お
よび『タグの種類が“fld1”である参照単位で単語2
が出現するタグ位置がアドレス“0”,アドレス“10
0”,…であること』をそれぞれ意味している。
【0058】次に、処理ブロック48の処理を行い、D
ファイルの内容に基づいて、単語からタグ位置(タグフ
ィールド名)の集合を検索できる検索インデックスを作
成して、ここでの処理を終了する。これにより、各々の
単語に対する検索インデックスが作成されると、その検
索インデックスを用いることにより、タグの種類と検索
対象の単語を指定することにより、タグの種類に応じて
異なる参照単位についての検索対象の単語から直ちに、
その単語が出現する参照単位のタグ位置の集合が得られ
る。したがって、検索単語から得られたタグ位置の集合
に従って、当該タグ位置からそれぞれの参照単位を表示
できる。
【0059】以上に説明した全文検索装置の第2の実施
例においては、本文ファイルの参照単位をタグにより区
分し、タグの種類に応じて、その位置を指示するタグ位
置と、その中に含まれる単語を求めて記録する場合(C
ファイル)、最初に参照単位の開始を指示すタグ位置を
置き、続いて、その参照単位に属する単語に対しては、
タグの種類を示すフィールドの文字列を付加して書くフ
ァイル形式をとっている。これにより、タグの種類に応
じて、それぞれの参照単位の中の検索対象の単語の検索
を、タグで区切る参照単位毎に高速に行うことができ
る。
【0060】また、タグを検索結果の参照単位の区切り
とする全文検索を行う場合において、本文の検索対象と
する単語の中で、属性と値の対の記述が存在するものに
ついては、その属性と値の対を検索対象の登録語とし
て、登録しておくことにより、これらの単語の属性と値
の対を検索対象して、前述の実施例と同様に、高速にタ
グの区切りを参照単位とする検索を行うことができる。
このような実施例を、第3の実施例として説明する。
【0061】第3の実施例の全文検索装置においては、
タグを検索結果の参照単位の区切りとする全文検索を行
う場合、本文ファイルの本文の単語に、属性と値の対の
記述のあるものについては、その対の記述を単語として
登録する。具体的に説明すると、ここでの属性と値の対
の例としては、本文中に、例えば、{売上高=1000
00}などのように、特別な形式により単語が示され、
その単語が他と区別されている場合などがある。
【0062】図6は、第3の実施例の全文検索装置の本
文ファイルに対する検索インデックスの作成処理を示す
処理フローを示すPAD図である。また、図7は、図6
に示す処理フローにより検索インデックスを作成する作
成プロセスの要部を具体的に説明する図である。図6お
よび図7を参照して、第3の実施例の全文検索のための
検索インデックスの作成処理を説明する。
【0063】まず、図6を参照して、第3の実施例の本
文ファイルに対する検索インデックスの作成処理の処理
フローを概要を説明する。処理を開始すると、処理ブロ
ック61において、本文ファイルをタグの位置で分割
し、分割した部分を参照単位とし、そのタグ位置を一時
記憶する処理を行う。次に、繰り返し処理の制御ブロッ
ク62の処理を行う。この制御ブロック62の処理で
は、タグで分割された全てのタグ位置とその本文部分
(参照単位)の対に対して、次の処理ブロック63およ
び処理ブロック64の処理を繰り返し行う処理制御を行
う。
【0064】制御ブロック62の制御下の繰り返し処理
では、まず、処理ブロック63において、処理対象の参
照単位のタグ位置をEファイルに書き出す。次に、処理
ブロック64において、処理対象の参照単位の本文の単
語を、Eファイルに先に書き出したタグ位置に続いて、
順番にEファイルに書き出す。ただし、属性と値の対の
記述のあるものについては、その対も単語として、順番
にEファイルに書き出す。これにより、Eファイルに
は、1つの参照単位について、当該タグ位置に続いて、
その本文中の単語と、あれば属性と値の対とが連続して
書き出される。このような処理を全ての参照単位につい
て、制御ブロック62の処理制御により、繰り返し行
う。
【0065】この結果、図7に示すように、Eファイル
72には、本文ファイル71から各々の参照単位につい
て、まず、タグ位置が書き出されて、続いて当該タグ位
置に対応する参照単位の本文の中の単語と、属性と値の
対とが順次に書き出される。このため、前述の場合と同
様に、Eファイル72の内容は、タグ位置とそれに続く
単語と、属性と値の対との組が、参照単位の数だけ続く
データが得られる。
【0066】このようにして、Eファイルが作成される
と、次に、繰り返し処理の制御ブロック65の処理を行
う。制御ブロック65の処理では、Eファイルに含まれ
る全ての単語(属性と値の対を含む)に対して、次の処
理ブロック66および処理ブロック67の処理を繰り返
し行う処理制御を行う。
【0067】この制御ブロック65の制御下の繰り返し
処理では、まず、処理ブロック65において、単語をキ
ーとして、当該単語に対応するタグ位置を値とする対を
作成する。続いて、処理ブロック67において、同じキ
ー(単語)を持つ値(タグ位置)の対を集めて、キーと
値の集合から構成されるリストを作成し、これをFファ
イルに書き出す。これにより、Fファイルには、1つの
単語について、その単語が出現する参照単位のタグ位置
のリストが得られる。このような処理を全てのEファイ
ルの単語(属性と値の対を含む)について、制御ブロッ
ク65による処理制御により、繰り返し行う。
【0068】この結果、Fファイル73には、図7に示
すように、本文ファイル71における全ての単語(属性
と値の対を含む)について、当該単語がその出現する各
々の参照単位に対応するタグ位置のリストが得られる。
ここで、図7に示すFファイル73の例で説明すると、
第1番目の単語1および第2番目の単語2に対応して、
それぞれに『(単語1,0,…)』および『(単語2,
0,100,220,…)』のリストデータが得られて
いる。つまり、これらのリストデータは、それぞれに
『単語1が出現する参照単位のタグ位置がアドレス
“0”,…であること』および『単語2が出現する参照
単位のタグ位置がアドレス“0”,アドレス“10
0”,アドレス“220”,…であること』を意味して
いる。また、ここでは、属性と値の対についても、単語
の場合と同様に『({××事業規模=1000},0,
…)』のリストデータが得られており、このリストデー
タは、『属性と値の対{××事業規模=1000}が出
現する参照単位のタグ位置がアドレス“0”…であるこ
と』を意味している。
【0069】次に、処理ブロック68の処理を行い、F
ファイルの内容に基づいて、単語からタグ位置の集合を
検索できる検索インデックスを作成し、ここでの処理を
終了する。これにより、各々の単語に対する検索インデ
ックスが作成されると、その検索インデックスを用いる
ことによって、検索対象として単語を指示することによ
り、前述の場合と同様に、検索対象の単語が出現する参
照単位のタグ位置の集合が得られる。また、例えば、検
索対象として属性と値の対を指示することにより、直ち
に、検索対象の属性と値の対が出現する参照単位のタグ
位置の集合が得られる。したがって、検索単語から得ら
れたタグ位置の集合に従って、当該タグ位置の集合から
それぞれの参照単位を表示できる。
【0070】次に、前述した第2の実施例による単語の
前にタグの種類を示すフィールドの文字列を付加し、更
に、第3の実施例による属性と値の対のあるものについ
ては、その属性と値の対を単語として登録する場合の変
形を組合せるようにしても良い。このような実施例につ
いて、第4の実施例として説明する。
【0071】つまり、第4の実施例による全文検索装置
は、タグを検索結果の参照単位の区切りとする全文検索
装置のうち、属性と値の対の記述のあるものについて
は、その対を単語として登録し、その際、単語として登
録する属性と値の対の前にタグの種類を示すフィールド
の文字列を付加して登録する。
【0072】図8は、第4の実施例の全文検索装置の本
文ファイルに対する検索インデックスの作成処理を示す
処理フローを示すPAD図である。また、図9は、図8
に示す処理フローによる検索インデックスの作成プロセ
スの要部を具体的に説明する図である。図8および図9
を参照して、第4の実施例の全文検索のための検索イン
デックスの作成処理を説明する。
【0073】第4の実施例においては、単語または属性
と値の対の指定により、検索された結果のタグ位置によ
り、表示する参照単位の区切りのタグの種類が直ちに判
別できるように、参照単位ごとにその本文の検索対象と
なる単語(属性と値の対を含む)の前にタグの種類を示
すフィールドの文字列を付加する。これも、前述したよ
うに、例えば、単語位置抽出部において、抽出した単語
の前にタグ種別を示すフィールドの文字列を付加する処
理を追加するように変形することにより、容易に対応で
きる。
【0074】図8を参照して、本文ファイルに対する検
索インデックスの作成処理の処理フローの概要を説明す
る。処理を開始すると、処理ブロック81において、本
文ファイルをタグの位置で分割し、分割した部分を参照
単位とし、そのタグ位置を一時記憶する処理を行う。次
に、繰り返し処理の制御ブロック82の処理を行う。こ
の制御ブロック82の処理では、タグで分割された全て
のタグ位置とその本文部分の対に対して、次の処理ブロ
ック83および処理ブロック84の処理を繰り返し行う
処理制御を行う。
【0075】この制御ブロック82の制御下の繰り返し
処理では、まず、処理ブロック83において、処理対象
の参照単位のタグ位置をGファイルに書き出す。次に、
処理ブロック84において、処理対象の参照単位の本文
の各々の単語に対して、本文の単語の前にタグの種類を
示すフィールドの文字列を付加したものを、新たな単語
として、Gファイルに先に書き出したタグ位置に続い
て、順番にGファイルに書き出す。ただし、この場合、
属性と値の対の記述のあるものについても、その対を単
語して、順番にGファイルに書き出す。これにより、G
ファイルには、1つの参照単位について、タグ位置に続
いて、タグの種類を示すフィールドの文字列を前に付加
した本文中の単語または属性と値の対が連続して書き出
される。
【0076】このような処理を全ての参照単位につい
て、制御ブロック82の処理制御により、繰り返し行
う。この結果、図9に示すように、Gファイル92に
は、本文ファイル91から各々の参照単位について、ま
ず、タグ位置が書き出されて、続いて当該タグ位置に対
応する参照単位のタグの種類を示すフィールドの文字列
を前に付加した本文の中の単語が順次に書き出され、ま
たは、タグの種類を示すフィールドの文字列を付加した
本文の中の属性と値の対が書き出される。この結果、G
ファイル92の内容として、タグ位置とそれに続くタグ
の種類を示すフィールドの文字列を付加した単語または
属性と値の対の組が、参照単位の数だけ続くデータが得
られる。
【0077】このようにして、Gファイルが作成される
と、次に、繰り返し処理の制御ブロック85の処理を行
う。制御ブロック85の処理では、Gファイルに含まれ
る全ての単語(属性と値の対を含む)に対して、次の処
理ブロック86および処理ブロック87の処理を繰り返
し行う処理制御を行う。
【0078】この制御ブロック85の制御下の繰り返し
処理では、まず、処理ブロック86において、単語(属
性と値の対を含む)をキーとして、当該単語に対応する
タグ位置を値とする対を作成する。続いて、処理ブロッ
ク87において、同じキー(単語,属性と値の対)を持
つ値(タグ位置)の対を集めて、キーと値の集合から構
成されるリストを作成し、これをHファイルに書き出
す。これにより、Hファイルには、タグの種類を示すフ
ィールドの文字列を前に付加した1つの単語について、
その単語が出現する参照単位のタグ位置のリストが得ら
れる。このような処理を全てのGファイルに書き出され
ている単語(属性と値の対を含む)について、制御ブロ
ック85による処理制御により、繰り返し行う。
【0079】この結果、Hファイル93には、図9に示
すように、本文ファイル91の全ての単語について、タ
グの種類を示すフィールドの文字列を前に付加した1つ
の単語毎に、当該単語がその出現する個々の参照単位に
対応して、そのタグ位置のリストが得られる。図9に示
すHファイル93の例で説明すると、第1番目の単語1
および第2番目の単語2に対しては、それぞれ『(fld
1-単語1,0,…)』および『(fld1-単語2,0,
220,…)』のリストデータが得られている。つま
り、これらのリストデータは、『タグの種類が“fld
1”である参照単位で単語1が出現するタグ位置が、ア
ドレス“0”,…であること』および『タグの種類が
“fld1”である参照単位で単語2が出現するタグ位置
がアドレス“0”,アドレス“220”,…であるこ
と』をそれぞれ意味している。また、属性と値の対につ
いても、単語の場合と同様な形式で『(fld1-{××事
業規模=1000},0,…)』のリストデータが得ら
れており、このリストデータは、『タグの種類が“fld
1”である参照単位で、属性と値の対{××事業規模=
1000}が出現するタグ位置がアドレス“0”…であ
ること』を意味している。
【0080】次に、処理ブロック88の処理を行い、H
ファイルの内容に基づいて、単語からタグ位置(タグフ
ィールド名)の集合を検索できる検索インデックスを作
成して、ここでの処理を終了する。これにより、各々の
単語に対する検索インデックスが作成されると、その検
索インデックスを用いることにより、タグの種類と検索
対象の単語として属性と値の組を指定することにより、
タグの種類に応じて異なる参照単位についての検索対象
の属性の値の組から直ちに、その属性と値の組が出現す
る参照単位のタグ位置の集合が得られる。したがって、
検索単語から得られたタグ位置の集合に従って、当該タ
グ位置からそれぞれの参照単位を表示できる。
【0081】以上、本発明の実施例について説明した
が、本発明は、上述した実施例に限定されるものではな
い。ここでは、全ての単語を抽出して登録語とする例に
ついて示しているが、助詞、助動詞、接続詞など、検索
対象を特定して検索語として登録するようにしてもよい
ことは明らかである。その際、検索対象の特徴を必ずし
も示していないような単語を登録しないことも可能であ
る。
【0082】
【発明の効果】以上、説明したように、本発明の全文検
索装置によれば、本文中の検索対象とする単語につい
て、例えば、本文中の単語について、その単語を出現す
る位置の直前にあるタグの位置を全て集めて、検索イン
デックスを作成して検索装置を構成する。そして、検索
対象の単語を入力とし、その単語が出現する位置の直前
にあるタグの位置の集合を検索結果として出力する。こ
れにより、タグを有する文書において、タグを検索結果
の参照単位の区切りとして、文書内の単語が、その直前
のタグの位置と共に、検索インデックスとして保存され
るので、文書内の単語に対し、当該単語を含むタグで区
切られた参照単位を即座に検索することが可能となる。
【図面の簡単な説明】
【図1】 本発明の実施例の全文検索装置の装置構成の
要部を示すブロック図、
【図2】 第1の実施例の本文ファイルに対する検索イ
ンデックスの作成処理を示す処理フローを示すPAD
(Problem Analysis Diagram)図、
【図3】 図2に示す処理フローにより検索インデック
スを作成する場合の作成プロセスの要部を具体的に説明
する図、
【図4】 第2の実施例の全文検索装置の本文ファイル
に対する検索インデックスの作成処理を示す処理フロー
を示すPAD図、
【図5】 図4に示す処理フローによる検索インデック
スの作成プロセスの要部を具体的に説明する図、
【図6】 第3の実施例の全文検索装置の本文ファイル
に対する検索インデックスの作成処理を示す処理フロー
を示すPAD図、
【図7】 図6に示す処理フローによる検索インデック
スの作成プロセスの要部を具体的に説明する図、
【図8】 第4の実施例の全文検索装置の本文ファイル
に対する検索インデックスの作成処理を示す処理フロー
を示すPAD図、
【図9】 図8に示す処理フローによる検索インデック
スの作成プロセスの要部を具体的に説明する図、
【図10】 SGMLの文書型定義(DTD)の一例を
示す図、
【図11】 タグ付き文書としてのタグが省略されたS
GML文書の一例を説明する図、
【図12】 省略されたタグが復元されたSGML文書
の一例を説明する図である。
【符号の説明】
1…検索語登録処理部、2…登録語検索処理部、3…タ
グを有する文書の本文ファイル、4…本文ファイルに付
加された検索インデックス、11…参照単位分割部、1
2…単語位置抽出部、13…分類処理機構、14…検索
インデックス生成部、15…検索単語入力部、16…検
索機構、17…本文参照単位出力部、18…検索結果出
力表示部。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平2−186476(JP,A) 菊池,小川,高橋,杉本,金田「全文 検索の技術動向とシステム事例」,情報 処理学会研究報告(FI),Vol. 92,No.32,1992,p.1−8 菊池「日本語文書用高速全文検索の一 手法」情報処理学会研究報告(FI), Vol.92,No.32,1992,p9−16 原,根岸,安永「文書の構造に注目し た全文データベース検索システム」京都 大学大型計算機センター研究セミナー報 告,Vol.35th,p.39−56,1992 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 JICSTファイル(JOIS)

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】タグを有する文書のタグで区切られた参照
    単位の本文データ、及び前記文書内の単語が含まれてい
    る参照単位の本文データが格納されている位置と前記単
    語との対応を記憶する記憶手段と、 検索対象の単語を入力する入力手段と、 前記入力手段により入力された検索対象の単語を前記記
    憶手段から検索する検索手段と、 前記検索手段により検索された単語に対応する本文デー
    タが格納されている位置を前記記憶手段から取り出す本
    文データ格納位置取出手段と、 前記本文データ格納位置取出手段により取り出された本
    文データが格納されている位置に従って本文データを取
    り出す取出手段を具備することを特徴とする全文検索装
    置。
  2. 【請求項2】前記記憶手段に記憶された本文データは、
    指定形式で記述された属性と値の対を含み、 前記記憶手段は、前記指定形式で記述された属性と値の
    対を単語として登録しており、 前記入力手段は、前記指定形式を入力し、 前記取出手段は、前記入力手段により入力された指定形
    式の属性と値の対を取り出すことを特徴とする請求項1
    に記載の全文検索装置。
  3. 【請求項3】タグを有する文書のタグで区切られた参照
    単位の本文データ及び前記文書内の単語が含まれている
    参照単位のタグの種類を示すフィールドを付加したフィ
    ールド付き単語とその単語が含まれている参照単位の本
    文データが格納されている位置とを対応付けて記憶手段
    に記憶している全文検索装置において、 フィールド及び検索対象の単語を入力するステップ1
    と、 その入力されたフィールド及び検索対象の単語を前記記
    憶手段から検索するステップ2と、 その検索されたフィールド付き単語に対応する本文デー
    タが格納されている位置を前記記憶手段から取り出すス
    テップ3と、 その取り出された本文データが格納されている位置に従
    って本文データを取り出すステップ4とを具備すること
    を特徴とする全文検索方法。
  4. 【請求項4】前記記憶手段の本文データには、指定形式
    で記述された属性と値の対を含み、前記記憶手段は、前
    記指定形式で記述された属性と値の対をフィールド付き
    単語として登録ており、 前記ステップ1で、前記指定形式を入力し、 前記ステップ4では、前記ステップ1で入力された指定
    形式の属性と値の対を取り出すことを特徴とする前記請
    求項3記載の全文検索方法。
JP15195098A 1998-05-18 1998-05-18 全文検索装置および方法 Expired - Fee Related JP3239845B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP15195098A JP3239845B2 (ja) 1998-05-18 1998-05-18 全文検索装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP15195098A JP3239845B2 (ja) 1998-05-18 1998-05-18 全文検索装置および方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP7066727A Division JP2896634B2 (ja) 1995-03-02 1995-03-02 全文登録語検索装置および全文登録語検索方法

Publications (2)

Publication Number Publication Date
JPH10283375A JPH10283375A (ja) 1998-10-23
JP3239845B2 true JP3239845B2 (ja) 2001-12-17

Family

ID=15529756

Family Applications (1)

Application Number Title Priority Date Filing Date
JP15195098A Expired - Fee Related JP3239845B2 (ja) 1998-05-18 1998-05-18 全文検索装置および方法

Country Status (1)

Country Link
JP (1) JP3239845B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3754253B2 (ja) * 1999-11-19 2006-03-08 株式会社東芝 構造化文書検索方法、構造化文書検索装置及び構造化文書検索システム
JP4728125B2 (ja) * 2006-01-11 2011-07-20 ヤフー株式会社 索引ファイルを用いた文書検索の方法、索引ファイルを用いた文書検索サーバ、及び索引ファイルを用いた文書検索プログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
原,根岸,安永「文書の構造に注目した全文データベース検索システム」京都大学大型計算機センター研究セミナー報告,Vol.35th,p.39−56,1992
菊池,小川,高橋,杉本,金田「全文検索の技術動向とシステム事例」,情報処理学会研究報告(FI),Vol.92,No.32,1992,p.1−8
菊池「日本語文書用高速全文検索の一手法」情報処理学会研究報告(FI),Vol.92,No.32,1992,p9−16

Also Published As

Publication number Publication date
JPH10283375A (ja) 1998-10-23

Similar Documents

Publication Publication Date Title
JP2896634B2 (ja) 全文登録語検索装置および全文登録語検索方法
US7958444B2 (en) Visualizing document annotations in the context of the source document
US7707139B2 (en) Method and apparatus for searching and displaying structured document
JP4656868B2 (ja) 構造化文書作成装置
US8086954B2 (en) Programmable object models for bibliographies and citations
US7130867B2 (en) Information component based data storage and management
JP4365162B2 (ja) 構造化文書のデータを検索する装置および方法
JPH08255155A (ja) 全文登録語検索装置および方法
US20060080361A1 (en) Document information processing apparatus, document information processing method, and document information processing program
JPH11110413A (ja) データベース検索結果を生成するための方法および装置
JP3832693B2 (ja) 構造化文書検索表示方法及び装置
JP3784060B2 (ja) データベース検索システム、その検索方法及びプログラム
JP2010250439A (ja) 検索システム、データ生成方法、プログラムおよびプログラムを記録した記録媒体
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP3239845B2 (ja) 全文検索装置および方法
JP2007011973A (ja) 情報検索装置及び情報検索プログラム
KR101835994B1 (ko) 키워드 맵을 이용한 전자책 검색 서비스 제공 방법 및 장치
KR101251686B1 (ko) 표시 가능 파일의 필드 및 참조 문헌 및 인용문에 대한확장형 마크업 언어 스키마의 결정
JP2000250908A (ja) 電子書籍の作成支援装置
JP2004334382A (ja) 構造化文書要約装置、プログラムおよび記録媒体
JP2003288332A (ja) 構造化文書作成支援方法及び構造化文書作成支援システム
EP1072986A2 (en) System and method for extracting data from semi-structured text
JP3448922B2 (ja) 電子文書記憶装置
JPH1145238A (ja) 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1153400A (ja) 構造化文書検索装置及びプログラムを記録した機械読み取り可能な記録媒体

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071012

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081012

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091012

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101012

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111012

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121012

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121012

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131012

Year of fee payment: 12

LAPS Cancellation because of no payment of annual fees