JP5141560B2 - 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法 - Google Patents

情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法 Download PDF

Info

Publication number
JP5141560B2
JP5141560B2 JP2008554930A JP2008554930A JP5141560B2 JP 5141560 B2 JP5141560 B2 JP 5141560B2 JP 2008554930 A JP2008554930 A JP 2008554930A JP 2008554930 A JP2008554930 A JP 2008554930A JP 5141560 B2 JP5141560 B2 JP 5141560B2
Authority
JP
Japan
Prior art keywords
search
keyword
keywords
character
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008554930A
Other languages
English (en)
Other versions
JPWO2008090606A1 (ja
Inventor
正弘 片岡
啓士郎 田中
祐司 渡部
孝 坪倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2008090606A1 publication Critical patent/JPWO2008090606A1/ja
Application granted granted Critical
Publication of JP5141560B2 publication Critical patent/JP5141560B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、本文ファイル内に項目順に記述されている本文の検索をおこなう情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法に関する。
従来、辞書や用語辞典などの辞書コンテンツでは、『国際環境会議(国際/環境/会議)』のような複数の文節(複文節)で構成された見出し語が多い。また、検索処理では、漢字に加え、かな・カタカナ(読み)のキーワードの文字列を複数(たとえば、2〜3個)入力し、候補の絞込みが実現されている(たとえば、下記特許文献1を参照。)。
この特許文献1の従来技術では、複文節見出しの絞込み検索、漢字かな混じり検索、異体字検索、外来語検索をおこなうことができる。具体的には、漢字に加え、カタカナ/かな(読み)のキーワードを収録しており、漢字やカナなどのキーワードが文字コード順にソートされている。また、検索の高速化のため、先頭文字にもとづいた上位インデックスファイルが作成され、階層形インデックスを構成している。
さらに、カタカナ/かなキーワードの検索に関し、濁音/半濁音、拗音/促音、長音などの対応処理がおこなわれる。また、かな漢字混じり文字列の検索に関し、かな削除など対応処理がおこなわれる。さらに、異体字の検索に関し、正字変換などの対応処理がおこなわれる。また、外来語検索(バイオリン/ヴァイオリン)に関し、ハ行への変換処理などがおこなわれる。
特開2005−158044号公報
しかしながら、上述した特許文献1の従来技術(複文節見出し検索のソート形インデックス)では、複文節で構成される見出し語の検索候補リストの制限数に対し、ヒット件数が正しくない場合があるという問題があった。
たとえば、『馬の耳に念仏』という複文節見出し語を検索する際、『馬』、『耳』、『念仏』という検索キーワードを入力した場合、検索キーワードごとのバッファに例として最大10件分の検索候補が保持できるとすると、文字コード順に検索することで『馬』に対して10件、『耳』に対して10件、『念仏』に対して10件検索される。
ところが、各検索キーワードで検索した場合、『馬の耳に念仏』が11番目以降の検索候補であるとすると、これら都合30件の中に『馬の耳に念仏』という見出し語が含まれないこととなり、検索候補の結果が0件になってしまい、ヒット件数が誤って表示されてしまうという問題があった。
また、辞書の項目数が多くなればなるほど(例えば、広辞苑第5版は23万項目)各検索キーワードに該当する項目が増加し、検索候補の結果が0件になる問題が多発するという問題があった。
また、検索キーワードの数に応じて、複文節見出し語の先頭文字にもとづいた上位インデックスファイルのスキャン回数が増加するため、検索キーワードの数が多くなるほど検索時間が増大するという問題があった。
また、検索キーワードを少なくすると、その分絞込みが十分におこなわれないため、検索候補が多くなり、検索候補リストを保持するためのメモリ容量を大きくしていかなければならないという問題があった。一方、検索キーワードが多いと、検索キーワードごとのバッファを用意しなければならないため、検索キーワードを保持するためのメモリ容量を大きくしていかなければならないという問題があった。
この発明は、上述した従来技術による問題点を解消するため、検索キーワードの入力制限数を撤廃することによる複文節見出し語の検索の高精度化かつ高速化および当該検索に必要なメモリ容量の縮小化を同時に実現することができる情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法を提供することを目的とする。
本発明の一観点によれば、2以上の検索キーワードを受け付け、複数の文字データと、該複数の文字データのそれぞれに対応する1又は複数のキーワードとの対応関係を記憶した記憶手段を参照して、受け付けた前記2以上の検索キーワードのうちの第1の検索キーワードを含むキーワードと対応付けられた第1の文字データ群を抽出し、抽出された該第1の文字データ群から、前記2以上の検索キーワードのうちの第2の検索キーワードを含むキーワードと対応付けられた文字データを抽出する、情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法が提案される。
本情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法によれば、検索キーワードの入力制限数を撤廃することによる複文節見出し語の検索の高精度化かつ高速化および当該検索に必要なメモリ容量の縮小化を同時に実現することができるという効果を奏する。
この発明の実施の形態1にかかる情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法に関する情報検索処理の概要を示す説明図である。 この発明の実施の形態1にかかる情報検索装置のハードウェア構成を示すブロック図である。 図1に示した文字出現マップを示す説明図である。 図1に示した非ソート型インデックスファイル群を示す説明図である。 この発明の実施の形態1にかかる情報検索装置の機能的構成を示すブロック図である。 検索部による検索処理の具体例を示す説明図である。 表示出力された見出し語候補リストを示す説明図である。 見出し語候補の選択例を示す説明図である。 本文データの抽出例を示す説明図である。 この発明の実施の形態1にかかる情報検索処理手順を示すフローチャートである。 図10に示した見出し語検索処理(ステップS1004)の処理手順を示すフローチャートである。 先頭文字出現マップを示す説明図である。 末尾文字出現マップを示す説明図である。 この発明の実施の形態2にかかる情報検索処理手順(前半)を示すフローチャートである。 情報検索処理手順(後半:前方一致検索)を示すフローチャートである。 情報検索処理手順(後半:後方一致検索)を示すフローチャートである。 情報検索処理手順(後半:完全一致検索)を示すフローチャートである。 情報検索処理手順(後半:部分一致検索)を示すフローチャートである。
以下に添付図面を参照して、この発明にかかる情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法の好適な実施の形態を詳細に説明する。
(実施の形態1)
(情報検索処理の概要)
まず、この発明の実施の形態1にかかる情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法に関する情報検索処理の概要について説明する。図1は、この発明の実施の形態1にかかる情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法に関する情報検索処理の概要を示す説明図である。
図1において、検索キーワード(例として、『国際』、『環境』、『会議』)を入力してバッファ101に保持する(S1)。必要に応じて、文字出現マップ102を用いて検索キーワードを構成する文字「国」、「際」、「環」、「境」、「会」、「議」をすべて含む非ソート型インデックスファイルを特定する(S2)。文字出現マップ102とは、文字の存否を非ソート型インデックスファイルごとにあらわすフラグ列を文字ごとに有するビット情報である。
そして、非ソート型インデックスファイル群103の中から検索キーワードをすべて含む非ソート型インデックスファイル104を絞込み結果として抽出する(S3)。そして、非ソート型インデックスファイル(絞込み結果)104の中から、検索キーワードをすべて含む複文節見出し語を検索候補として抽出する(S4)ことで、見出し語候補リスト105を得る。なお、この図1に示した文字出現マップ102および非ソート型インデックスファイル群103の詳細については後述する。
(情報検索装置のハードウェア構成)
つぎに、この発明の実施の形態1にかかる情報検索装置のハードウェア構成について説明する。図2は、この発明の実施の形態1にかかる情報検索装置のハードウェア構成を示すブロック図である。図2において、情報検索装置は、CPU201と、ROM202と、RAM203と、HDD(ハードディスクドライブ)204と、HD(ハードディスク)205と、FDD(フレキシブルディスクドライブ)206と、着脱可能な記録媒体の一例としてのFD(フレキシブルディスク)207と、ディスプレイ208と、I/F(インターフェース)209と、キーボード210と、マウス211と、スキャナ212と、プリンタ213と、を備えている。また、各構成部はバス200によってそれぞれ接続されている。
ここで、CPU201は、情報検索装置の全体の制御を司る。ROM202は、ブートプログラムなどのプログラムを記憶している。RAM203は、CPU201のワークエリアとして使用される。HDD204は、CPU201の制御にしたがってHD205に対するデータのリード/ライトを制御する。HD205は、HDD204の制御で書き込まれたデータを記憶する。
FDD206は、CPU201の制御にしたがってFD207に対するデータのリード/ライトを制御する。FD207は、FDD206の制御で書き込まれたデータを記憶したり、FD207に記憶されたデータを情報検索装置に読み取らせたりする。
また、着脱可能な記録媒体として、FD207のほか、CD−ROM(CD−R、CD−RW)、MO、DVD(Digital Versatile Disk)、メモリーカードなどであってもよい。ディスプレイ208は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。このディスプレイ208は、たとえば、CRT、TFT液晶ディスプレイ、プラズマディスプレイなどを採用することができる。
I/F209は、通信回線を通じてインターネットなどのネットワーク214に接続され、このネットワーク214を介して他の装置に接続される。そして、I/F209は、ネットワーク214と内部のインターフェースを司り、外部装置からのデータの入出力を制御する。I/F209には、たとえばモデムやLANアダプタなどを採用することができる。
キーボード210は、文字、数字、各種指示などの入力のためのキーを備え、データの入力をおこなう。また、タッチパネル式の入力パッドやテンキーなどであってもよい。マウス211は、カーソルの移動や範囲選択、あるいはウィンドウの移動やサイズの変更などをおこなう。ポインティングデバイスとして同様に機能を備えるものであれば、トラックボールやジョイスティックなどであってもよい。
スキャナ212は、画像を光学的に読み取り、情報検索装置内に画像データを取り込む。なお、スキャナ212は、OCR機能を持たせてもよい。また、プリンタ213は、画像データや文書データを印刷する。プリンタ213には、たとえば、レーザプリンタやインクジェットプリンタを採用することができる。
(文字出現マップ)
つぎに、図1に示した文字出現マップ102について説明する。図3は、図1に示した文字出現マップ102を示す説明図である。図3において、文字出現マップ102は、文字ごとにフラグ列を有する。フラグ列を構成するフラグは、非ソート型インデックスファイルのファイルID(i=0〜n)が昇順で配列されており、「1」である場合、その文字がそのファイルIDの非ソート型インデックスファイルに存在することを示している。
一方、「0」である場合、その文字がそのファイルIDの非ソート型インデックスファイルに存在しないことを示している。たとえば、文字『あ』のフラグ列を参照すると、文字『あ』がファイルID:0,3の非ソート型インデックスファイルに存在することがわかる。なお、この文字出現マップは、図2に示したRAM203やHD205などの記録媒体に記録されており、必要に応じて読み出される。
(非ソート型インデックスファイル群)
つぎに、図1に示した非ソート型インデックスファイル群103について説明する。図4は、図1に示した非ソート型インデックスファイル群103を示す説明図である。図4において、非ソート型インデックスファイル群103は、n+1個の非ソート型インデックスファイルF0〜Fnの集合である。
各非ソート型インデックスファイル(以下、単に「インデックスファイル」という場合がある)Fiは、表記キーワード(必要であれば読みに関するキーワード含む。以降、読みに関するキーワードを含む場合、「表記キーワード等」と表記する。)を保持している。ここで、表記キーワードとは、見出し語を検索する際に入力される検索キーワードの漢字表記である。たとえば、ファイルFiにおいて、見出し語が『国際環境会議』である場合、表記キーワードは、たとえば、『国際環境会議』である。また、必要に応じて、『コクサイカンキョウカイギ』といった読みに関するキーワードを収録しておいてもよい。読みに関するキーワードは、ひらがな、カタカナのいずれであってもよい。
また、インデックスファイルFiにおいて、見出し語が『馬の耳に念仏』のような仮名漢字混じり文字列である場合、かなサプレス処理された表記キーワードを収録しておく。かなサプレスとは、文字列中の孤立したかな文字を削除する処理をいい、見出し語が『馬の耳に念仏』をかなサプレスすると、「の」、「に」が削除されて、『馬耳念仏』という表記キーワードが得られる。なお、この場合の読みに関するキーワードは、かなサプレス後の文字列『馬耳念仏』の読みではなく、見出し語『馬の耳に念仏』の読み(ウマノミミニネンブツ)である。
また、インデックスファイルFiには、表記キーワード等に対する見出し語と本文ファイルIDとアンカー名も収録されている。ここで、本文ファイルIDとは、見出し語の解説文などの本文が収録されている本文ファイルのファイルIDであり、アンカー名とは、当該ファイルIDの本文ファイル内における本文の出現位置を示す情報である。この本文ファイルIDおよびアンカー名により見出し語の本文をポイントすることができる。
また、見出し語、本文ファイルID、およびアンカー名は、表記キーワード等とリンクしてあれば、インデックスファイルFiとは別ファイル(見出しファイル)でもよいが、図4に示したように、表記キーワードと一体型のファイルとすることにより、見出しファイルをポイントする必要がないため、検索速度の向上を図ることとができる。
また、このインデックスファイルFiは、表記キーワードが文字コード順にソートされておらず、見出し語の項目順にしたがって収録されている非ソート型のインデックスファイルである。これにより、見出し語の並びに沿って検索候補をヒットさせることができるため、検索効率の向上を図ることができる。
また、インデックスファイルFiは、相互に階層関係を有しないため、上述した特許文献1のような上位インデックスから下位インデックスへポイントする必要がないため、インデックスファイルFiのスキャン処理の高速化を実現することができる。なお、この非ソート型インデックスファイル群103は、図2に示したRAM203やHD205などの記録媒体に記録されており、必要に応じて読み出される。
(情報検索装置の機能的構成)
つぎに、この発明の実施の形態1にかかる情報検索装置の機能的構成について説明する。図5は、この発明の実施の形態1にかかる情報検索装置の機能的構成を示すブロック図である。図5において、情報検索装置500は、本文ファイル群510と、入力部501と、検出部502と、検索部503と、特定部504と、選択部506と、出力部505と、本文抽出部507と、から構成されている。
まず、本文ファイル群510とは、見出し語に関する本文(解説文)を収録した本文ファイルの集合である。本文ファイル群510は、図2に示したRAM203やHD205などの記録媒体に記録されており、必要に応じて読み出される。
また、入力部501は、検索キーワードの入力を受け付ける機能を有する。具体的には、図2に示したキーボード210やマウス211などの入力装置をユーザが操作することで、検索キーワードの入力を受け付け、図2に示したRAM203やHD205などの記録媒体に保持される。検索キーワードは、単一でもよく複数でもよい。また、複数入力する場合にも個数には制限がない。この機能は、図1に示した処理S1に相当する。
また、検出部502は、インデックスファイルFiごとの文字の存否をあらわすフラグ列を文字ごとに有する文字出現マップ102に基づいて、検索キーワードを構成する文字がすべて存在するインデックスファイルを検出する機能を有する。具体的には、入力部501によって入力され、図2に示したRAM203やHD205などの記録媒体に保持されている検索キーワードを一文字ごとに分解し、すべての文字のフラグが「1」となっているインデックスファイルを検出する。
たとえば、検索キーワードが『国際』、『環境』、『会議』である場合、図3を参照すると、検索キーワード『国際』、『環境』、『会議』を構成する文字「国」、「際」、「環」、「境」、「会」、「議」のフラグが「1」に設定されているファイルID:iのインデックスファイルFiが検出される。このように、見出し検索に先立って、検索キーワードを構成するすべての文字を含むインデックスファイルを検出することにより、見出し検索対象となるインデックスファイルを絞り込むことができ、見出し語検索の効率化を図ることができる。この機能は、図1に示した処理S2,S3に相当する。
また、検索部503は、インデックスファイル群103または絞込み結果であるインデックスファイル104の中から、検索キーワードを含む表記キーワードを検索する機能を有する。具体的には、検出部502を用いない場合は、絞り込まれていないインデックスファイル群103の中から、検索キーワードを含む表記キーワードを検索する。一方、検出部502を用いた場合、検出結果である絞り込まれたインデックスファイル104の中から、検索キーワードを含む表記キーワードを検索する。
また、検索処理の効率化のため、検索キーワードが複数存在する場合、まず、インデックスファイルの中から一の検索キーワードを含む表記キーワード(読みに関するキーワードが収録されている場合は、当該キーワードも含む。以下、「表記キーワード等」と称す。)を検出する。つぎに、検出された表記キーワード等の中から一の検索キーワード以外の他の検索キーワードを検出する。
すなわち、他の検索キーワードによる検索をおこなう場合、先頭のインデックスファイルF0からあらためて検索するのではなく、一の検索キーワードがヒットした一の表記キーワード等の中から検索をおこなう。
そして、すべての検索キーワードが一の表記キーワード等でヒットした場合、当該表記キーワード等が図2に示したRAM203やHD205などの記録媒体に保持される。このあと、つぎの行の表記キーワード等を検索対象として同様の検索をおこなう。一方、いずれか一つの検索キーワードでもヒットしなかった場合、その時点でつぎの行の表記キーワード等を検索対象として同様の検索をおこなう。
したがって、インデックスファイル群103,104のスキャン回数は検索キーワードの数に依存せず、1回だけスキャンすればよい。これにより、表記キーワード等の検索処理の効率化を図ることができる。
ここで、検索部503による検索処理の具体例について説明する。図6は、検索部503による検索処理の具体例を示す説明図である。図6において、検索キーワード600として『国際』および『カンキョウ』を入力した場合、まず、検索キーワード『国際』を用いてインデックスファイルF0からスキャンする。そして、図6に示したように、インデックスファイルFiにおいて、表記キーワード等「国際環境会議,コクサイカンキョウカイギ」の「国際」と一致する。
つぎに、検索キーワード『カンキョウ』をインデックスファイルF0からスキャンするのではなく、検索キーワード『国際』がヒットした表記キーワード等の中から、つぎの検索キーワード『カンキョウ』をサーチする。検索キーワード『カンキョウ』は、表記キーワード等の「国際環境会議,コクサイカンキョウカイギ」の「カンキョウ」と一致する。
また、表記キーワード「環境破壊,カンキョウハカイ」については、検索キーワード『国際』が含まれていないため、検索キーワード『カンキョウ』のサーチをおこなうまでもなく、対象外となり、つぎの表記キーワード等のサーチをおこなう。なお、この機能は、図1に示した処理S4に相当する。
また、図5において、特定部504は、検索部503によって検索された表記キーワード等に対応する見出し語を見出し語候補として特定する。具体的には、図2に示したRAM203やHD205などの記録媒体に保持された表記キーワード等の表記元となる見出し語をインデックスファイルFiから読み出すことで、特定することができる。特定された見出し語は、図2に示したRAM203やHD205などの記録媒体に保持される。
図6を用いて説明すると、検索キーワードが『国際』、『カンキョウ』である場合、検索候補となる表記キーワード等「国際環境会議,コクサイカンキョウカイギ」の表記元となる見出し語『国際環境会議』を見出し語候補として読み出す。読み出された見出し語候補は、図2に示したRAM203やHD205などの記録媒体に保持される。そして、この特定部504による処理が終了すると、見出し語候補リスト105が得られる。なお、この機能は、図1に示した処理S4に相当する。
また、図5において、出力部505は、特定部504によって特定された見出し語を出力する。具体的には、図2に示したRAM203やHD205などの記録媒体に保持された見出し語候補リスト105を読み出して出力する。なお、出力形式は、図2に示したディスプレイ208による表示出力やプリンタ213による印刷出力などが挙げられる。また、音声による読み上げであってもよい。図7は、表示出力された見出し語候補リスト105を示す説明図である。図7において、見出し語候補リスト105は、表示画面700に表示されている。
また、図5において、選択部506は、出力部505によって出力された見出し語候補リスト105の中から任意の見出し語候補の選択を受け付ける。たとえば、図7に示したように、見出し語候補リスト105が表示画面700に表示されているとすると、キーボード210やマウス211を操作することで、任意の見出し語候補を選択することができる。
図8は、見出し語候補の選択例を示す説明図である。図8においては、表示画面700に表示された見出し語候補リスト105の中から見出し語候補『国際環境会議』の選択入力が受け付けられた例を示している。
また、図5において、本文抽出部507は、選択部506によって選択された見出し語候補を見出し語とする本文ファイルを本文ファイル群510の中から特定する。そして、その特定された本文ファイルの中から見出し語(候補)とその解説文を含む本文データ520を抽出する。選択された見出し語候補(選択見出し語候補)については、そのインデックスファイル内において本文ファイルIDおよびアンカー名が収録されているため、本文ファイルIDおよびアンカー名をポインタとすることにより、選択見出し語候補の本文データを抽出することができる。
ここで、本文データの抽出例について説明する。図9は、本文データの抽出例を示す説明図である。ここで、選択見出し語候補を『アイ−アイ[<small>aye aye</smaal>]』とすると、そのインデックスファイルF0において記述されている本文ファイルID:1をポイントすることにより、本文ファイル群510の中から本文ファイルH1を抽出する。
そして、インデックスファイルF0において記述されているアンカー名「ai101」をポイントすることにより、見出し語および解説文を含む本文データ900の出現位置を特定して、本文データ900を抽出する。そして、出力部505では、抽出された本文データ900を、見出し語候補リスト105と同様に出力する。
なお、上述した入力部501、検出部502、検索部503、特定部504、選択部506、出力部505、および本文抽出部507は、具体的には、たとえば、図2に示したROM202,RAM203,HD205などの記録媒体に記録されているプログラムを、CPU201に実行させることによって、またはI/F209によって、その機能を実現する。
(情報検索処理手順)
つぎに、この発明の実施の形態1にかかる情報検索処理手順について説明する。図10は、この発明の実施の形態1にかかる情報検索処理手順を示すフローチャートである。図10において、まず、入力部501により、K個(K≧1)の検索キーワードの入力を受け付け(ステップS1001)、検索開始入力を待ち受ける(ステップS1002:No)。
そして、検索開始入力があった場合(ステップS1002:Yes)、検出部502により、文字出現マップ102を用いて、インデックスファイル群103を、検索キーワードを構成するすべての文字が含まれるインデックスファイル104に絞り込む(ステップS1003)。このように絞り込まれたインデックスファイル104を検索対象ファイルと称す。そして、見出し語検索処理を実行する(ステップS1004)。
(見出し語検索処理)
つぎに、図10に示した見出し語検索処理(ステップS1004)の処理手順について説明する。図11は、図10に示した見出し語検索処理(ステップS1004)の処理手順を示すフローチャートである。まず、インデックスファイル群103のファイルID:iをi=0、表記キーワード等番号jをj=1、検索キーワード番号kをk=1とする。(ステップS1101)。
ここで、表記キーワード等番号jとは、各インデックスファイルFiに収録されている表記キーワード等を特定するIDである。各インデックスファイルFiには最大でJ個(たとえば、J=512)の表記キーワード等が収録されている。以降、インデックスファイルFi内の表記キーワード等番号jの表記キーワード等を、「表記キーワード等Vij」と表記する。
また、検索キーワード番号とは、入力された検索キーワードに割り振られた番号である。先頭からk=1,k=2,・・・というように昇順に割り振られる。たとえば、検索キーワードが『国際』、『環境』、『会議』の順に入力された場合、検索キーワード『国際』にはk=1、検索キーワード『環境』にはk=2、検索キーワード『会議』にはk=3が割り振られる。以降、検索キーワード番号kの検索キーワードを、「検索キーワードWk」と表記する。
つぎに、インデックスファイルFiが検索対象ファイルであるか否かを判断する(ステップS1102)。インデックスファイル群103は、検索キーワードW1〜WKを構成するすべての文字を有する検索対象ファイル(インデックスファイル104)に絞り込まれているため、インデックスファイルFiが検索対象ファイル以外のインデックスファイルである場合(ステップS1102:No)、ステップS1110に移行して、ファイルID:iをインクリメントする。
一方、インデックスファイルFiが検索対象ファイルである場合(ステップS1102:Yes)、検索キーワードWkでインデックスファイルFiの表記キーワード等Vijをサーチする(ステップS1103)。そして、検索キーワードWkが表記キーワードVijに含まれていない場合(ステップS1104:No)、ステップS1108に移行して、jをインクリメントする。
一方、検索キーワードWkが表記キーワードVijに含まれている場合(ステップS1104:Yes)、表記キーワード等番号kをインクリメントして(ステップS1105)、k>Kであるか否かを判断する(ステップS1106)。なお、Kは検索キーワード数である。
k>Kでない場合(ステップS1106:No)、ステップS1103に戻って、サーチをおこなう。一方、k>Kである場合(ステップS1106:Yes)、その表記キーワード等Vijの表記元となる見出し語を見出し語候補として特定(抽出)する(ステップS1107)。そして、ステップS1108に移行する。
ステップS1108では、表記キーワード等番号jをインクリメントする。そして、j>Jであるか否かを判断する(ステップS1109)。JはインデックスファイルFiに収録されている表記キーワード等の数である。j>Jでない場合(ステップS1109:No)、ステップS1103に戻って、サーチをおこなう。一方、j>Jである場合(ステップS1109:Yes)、そのインデックスファイルFiでのサーチは終了したこととなるため、ステップS1110に移行する。
ステップS1110では、ファイルID:iをインクリメントする。そして、i>nであるか否かを判断する(ステップS1111)。i>nでない場合(ステップS1111:No)、ステップS1102に戻って、インデックスファイルFiが検索対象ファイルであるか否かを判断する。一方、i>nである場合(ステップS1111:Yes)、ステップS1107で特定された見出し語の集合である見出し語候補リスト105を出力する(ステップS1112)。これにより、一連の見出し語検索処理を終了する。
このように、実施の形態1では、複文節で構成される見出し語検索の候補リストにおけるヒット件数を正しく出力することができる。また、入力する検索キーワード数の制限を撤廃することができ、絞込み検索の効率化を図ることができる。
また、インデックスファイルFiのスキャン(サーチ)について、一の検索キーワードがある表記キーワード等にヒットすると他の検索キーワードもその表記キーワード等に対して続けてサーチすることができるため、検索速度の向上を図るとともに、メモリ容量の縮小化も図ることができる。また、見出し語検索処理に先立って、文字出現マップを用いて検索対象ファイルを絞り込むことができるため、検索速度の向上を図ることができる。
また、インデックスファイル群103を圧縮パラメータ(たとえば、ハフマン木)を用いて圧縮しておき、検索キーワードもその圧縮パラメータで圧縮することにより、圧縮したまま見出し語検索を実現することができる。これによれば、ヒットしたインデックスファイルFi(またはその中の該当するブロックデータ)のみを伸長することにより、見出し語候補リスト105を生成することができる。
このように、インデックスファイル群103を圧縮しておくことにより、より省メモリ化を図ることができる。さらに、圧縮パラメータを、所定のマスターキーを用いて排他的論理和(XOR)形式などで暗号化/復号化することにより、セキュリティの向上を図ることができる。
(実施の形態2)
つぎに、この発明の実施の形態2にかかる情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法に関する情報検索処理の概要について説明する。実施の形態1では、文字出現マップ102を用いて見出し語の絞込み検索をおこなうこととしているため、絞込み検索には有効であるが、実施の形態2では、さらに、前方一致検索、後方一致検索、および完全一致検索の高速化を実現する。たとえば、検索キーワードが一文字(特に、かな一文字)で始まったり終わったりする場合に実施の形態1よりも高速化を実現することができる。なお、この実施の形態2の説明では、実施の形態1との重複部分については説明を省略する。
実施の形態2では、前方一致検索、後方一致検索、および完全一致検索の高速化を実現するため、図3に示した文字出現マップ102のほか、文字出現マップ102とは異なる2種類の文字出現マップを用いる。
図12は、先頭文字出現マップを示す説明図である。文字出現マップ102は、各インデックスファイルFiにおいて表記キーワード等を構成する文字の存否をあらわしているが、先頭文字出現マップ1200は、表記キーワード等の先頭文字の存否をあらわしている。この先頭文字出現マップ1200は、文字出現マップ102と同様、文字ごとにフラグ列を有する。
フラグ列を構成するフラグは、非ソート型インデックスファイルのファイルID(i=1〜n)が昇順で配列されており、「1」である場合、その文字がそのファイルIDの非ソート型インデックスファイルに、表記キーワード等の先頭文字として存在することを示している。
たとえば、図4に示したインデックスファイルFiには、表記キーワード等として『国際環境会議』、『環境破壊』が収録されているため、図12の先頭文字出現マップ1200におけるインデックスファイルFiでは、先頭文字『国』、『環』のフラグが「1」に設定されている。
図13は、末尾文字出現マップを示す説明図である。文字出現マップ102は、各インデックスファイルFiにおいて表記キーワード等を構成する文字の存否をあらわしているが、末尾文字出現マップ1300は、表記キーワード等の末尾文字の存否をあらわしている。この末尾文字出現マップ1300は、文字出現マップ102と同様、文字ごとにフラグ列を有する。
フラグ列を構成するフラグは、非ソート型インデックスファイルのファイルID(i=1〜n)が昇順で配列されており、「1」である場合、その文字がそのファイルIDの非ソート型インデックスファイルに、表記キーワード等の末尾文字として存在することを示している。
たとえば、図4に示したインデックスファイルFiには、表記キーワード等として『国際環境会議』、『環境破壊』が収録されているため、図13の末尾文字出現マップ1300におけるインデックスファイルFiでは、末尾文字『議』、『壊』のフラグが「1」に設定されている。
したがって、単文節見出し語検索において、前方一致検索をおこなう場合、先頭文字出現マップ1200を用い、後方一致検索をおこなう場合、末尾文字出現マップ1300を用い、完全一致検索をおこなう場合、先頭文字出現マップ1200および末尾文字出現マップ1300を用いる。また、必要に応じて、文字出現マップ102を用いてもよい。なお、実施の形態1のような単文節見出し語検索における部分一致検索と複文節見出し語検索における絞込み検索では、文字出現マップ102を用いる。
(情報検索処理手順)
つぎに、この発明の実施の形態2にかかる情報検索処理手順について説明する。図14は、この発明の実施の形態2にかかる情報検索処理手順(前半)を示すフローチャートである。
図14において、まず、K個の検索キーワードの入力を受け付け(ステップS1401)、検索開始入力があるまで待ち受ける(ステップS1402:No)。検索開始入力があった場合(ステップS1402:Yes)、前方一致検索であるか否かを判断する(ステップS1403)。前方一致検索である場合(ステップS1403:Yes)、図15に示すフローチャートに移行する。
一方、前方一致検索でない場合(ステップS1403:No)、後方一致検索であるか否かを判断する(ステップS1404)。後方一致検索である場合(ステップS1404:Yes)、図16に示すフローチャートに移行する。
一方、後方一致検索でない場合(ステップS1404:No)、完全一致検索であるか否かを判断する(ステップS1405)。完全一致検索である場合(ステップS1405:Yes)、図17に示すフローチャートに移行する。
一方、完全一致検索でない場合(ステップS1405:No)、部分一致検索であるか否かを判断する(ステップS1406)。部分一致検索であるか否かの判断は、具体的には、検索キーワード数により判断することができる。たとえば、K=1である場合、単文節見出し語検索となるため、部分一致検索と判断される。一方、K>1である場合、複文節見出し語検索となるため、絞込み検索と判断される。
そして、部分一致検索である場合(ステップS1406:Yes)、図18に示すフローチャートに移行する。一方、部分一致検索でない場合(ステップS1406:No)、複文節見出し語の絞込み検索処理を実行する(ステップS1407)。この絞込み検索処理は、図11に示したステップS1103,S1104の処理と同一処理である。以降、図15〜図18の各フローチャートについて説明する。
図15は、情報検索処理手順(後半:前方一致検索)を示すフローチャートである。まず、検出部502により、先頭文字出現マップ1200を用いて検索キーワードを構成する文字のうち先頭文字を含むインデックスファイルに絞り込む(ステップS1501)。つぎに、文字出現マップ102を用いて残余の文字をすべて含むインデックスファイルに絞り込む(ステップS1502)。
そして、先頭文字および残余の文字が共存するインデックスファイルに絞り込む(ステップS1503)。この処理により、ステップS1501で絞り込まれたインデックスファイルとステップS1502で絞り込まれたインデックスファイルとで共通するインデックスファイルが、検索対象ファイルとして絞り込まれることとなる。
このあと、検索部503および特定部504により、検索対象ファイルを用いて見出し語検索処理を実行する(ステップS1504)。この見出し語検索処理(ステップS1504)は、図10に示した見出し語検索処理(ステップS1004)と同一処理手順である。これにより、検索キーワードと前方一致する表記キーワード等を有するインデックスファイルに絞り込むことができ、前方一致の見出し語検索の高速化を図ることができる。
図16は、情報検索処理手順(後半:後方一致検索)を示すフローチャートである。まず、検出部502により、末尾文字出現マップ1300を用いて検索キーワードを構成する文字のうち末尾文字を含むインデックスファイルに絞り込む(ステップS1601)。つぎに、文字出現マップ102を用いて残余の文字をすべて含むインデックスファイルに絞り込む(ステップS1602)。
そして、末尾文字および残余の文字が共存するインデックスファイルに絞り込む(ステップS1603)。この処理により、ステップS1601で絞り込まれたインデックスファイルとステップS1602で絞り込まれたインデックスファイルとで共通するインデックスファイルが、検索対象ファイルとして絞り込まれることとなる。
このあと、検索部503および特定部504により、検索対象ファイルを用いて見出し語検索処理を実行する(ステップS1604)。この見出し語検索処理(ステップS1604)は、図10に示した見出し語検索処理(ステップS1004)と同一処理手順である。これにより、検索キーワードと後方一致する表記キーワード等を有するインデックスファイルに絞り込むことができ、後方一致の見出し語検索の高速化を図ることができる。
図17は、情報検索処理手順(後半:完全一致検索)を示すフローチャートである。まず、検出部502により、先頭文字出現マップ1200を用いて検索キーワードを構成する文字のうち先頭文字を含むインデックスファイルに絞り込む(ステップS1701)。つぎに、末尾文字出現マップ1300を用いて検索キーワードを構成する文字のうち末尾文字を含むインデックスファイルに絞り込む(ステップS1702)。そして、文字出現マップ102を用いて残余の文字をすべて含むインデックスファイルに絞り込む(ステップS1703)。
つぎに、先頭文字、末尾文字および残余の文字が共存するインデックスファイルに絞り込む(ステップS1704)。この処理により、ステップS1701で絞り込まれたインデックスファイルとステップS1702で絞り込まれたインデックスファイルとステップS1703で絞り込まれたインデックスファイルとで共通するインデックスファイルが、検索対象ファイルとして絞り込まれることとなる。
このあと、検索部503および特定部504により、検索対象ファイルを用いて見出し語検索処理を実行する(ステップS1705)。この見出し語検索処理(ステップS1705)は、図10に示した見出し語検索処理(ステップS1004)と同一処理手順である。これにより、検索キーワードと完全一致する表記キーワード等を有するインデックスファイルに絞り込むことができ、完全一致の見出し語検索の高速化を図ることができる。
図18は、情報検索処理手順(後半:部分一致検索)を示すフローチャートである。まず、検出部502により、文字出現マップ102を用いて単一検索キーワードを構成するすべての文字を含むインデックスファイルに絞り込む(ステップS1801)。ここで、絞り込まれたインデックスファイルが検索対象ファイルとなる。
このあと、検索部503および特定部504により、検索対象ファイルを用いて見出し語検索処理を実行する(ステップS1802)。この見出し語検索処理(ステップS1802)は、図10に示した見出し語検索処理(ステップS1004)と同一処理手順である。これにより、単一検索キーワードと部分一致する表記キーワード等を有するインデックスファイルに絞り込むことができ、部分一致の見出し語検索の高速化を図ることができる。
このように、実施の形態2では、単文節で構成される見出し語の前方一致検索、後方一致検索、完全一致検索の検索速度の高速化を図ることができる。
以上説明したように、この発明の実施の形態1,2にかかる情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置500、および情報検索方法によれば、文字コード順にソートされておらず、本文ファイルの項目順にしたがって表記キーワード等が記述され、かつ、相互に階層関係がない非ソート型・非階層型のインデックスファイル群103を用いている。
したがって、見出し語検索に際し、検索キーワードの入力制限数を撤廃することができ、見出し語の検索の高精度化を図るとともに、当該検索に必要なメモリ容量の縮小化(省メモリ化)を図ることができる。
また、文字出現マップ102を用いることにより、検索対象ファイルの絞込みを効率的におこなうことができ、検索キーワードが記述されていないインデックスファイルのスキャンを防止して、検索速度の高速化を図ることができる。特に、先頭文字出現マップ1200や末尾文字出現マップ1300を用いることにより、単文節で構成される見出し語の前方一致検索、後方一致検索、完全一致検索の検索速度の高速化を図ることができる。
なお、本実施の形態で説明した情報検索方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な伝送媒体であってもよい。
(付記1)本文ファイル内に項目順に記述されている本文の検索をコンピュータに実行させる情報検索プログラムにおいて、
検索キーワードの入力を受け付けさせる入力工程と、
前記本文の項目順にしたがって見出し語の表記キーワードが前記見出し語ごとに記述されたインデックスファイルの中から、前記入力工程によって入力された検索キーワードを含む表記キーワードを検索させる検索工程と、
前記検索工程によって検索された表記キーワードに対応する見出し語を特定させる特定工程と、
前記特定工程によって特定された見出し語を出力させる出力工程と、
を前記コンピュータに実行させることを特徴とする情報検索プログラム。
(付記2)前記インデックスファイルは、前記表記キーワードが文字コード順にソートされていない非ソート型インデックスファイルであることを特徴とする付記1に記載の情報検索プログラム。
(付記3)前記インデックスファイルは、当該インデックスファイル間に階層関係がない非階層型インデックスファイルであることを特徴とする付記1または2に記載の情報検索プログラム。
(付記4)文字の存否を前記インデックスファイルごとにあらわすフラグ列を前記文字ごとに有する文字出現マップに基づいて、前記検索キーワードを構成する文字がすべて存在するインデックスファイルを検出させる検出工程を前記コンピュータに実行させ、
前記検索工程は、
前記検出工程によって検出されたインデックスファイルの中から、前記検索キーワードを含む表記キーワードを検索させることを特徴とする付記1または2に記載の情報検索プログラム。
(付記5)前記検索キーワードとの前方一致検索を前記コンピュータに実行させる場合、文字列中の先頭文字の存否を前記インデックスファイルごとにあらわすフラグ列を前記先頭文字ごとに有する先頭文字出現マップに基づいて、前記検索キーワードを構成する先頭文字が存在するインデックスファイルを検出させる検出工程を、前記コンピュータに実行させ、
前記検索工程は、
前記検出工程によって検出されたインデックスファイルの中から、前記検索キーワードを含む表記キーワードを検索させることを特徴とする付記1または2に記載の情報検索プログラム。
(付記6)前記検出工程(以下、「第1の検出工程」という)のほか、文字の存否を前記インデックスファイルごとにあらわすフラグ列を前記文字ごとに有する文字出現マップに基づいて、前記検索キーワードを構成する前記先頭文字以外の残余の文字がすべて存在するインデックスファイルを検出させる第2の検出工程を、前記コンピュータに実行させ、
前記検索工程は、
前記第1の検出工程によって検出され、かつ前記第2の検出工程によって検出されたインデックスファイルの中から、前記検索キーワードを含む表記キーワードを検索させることを特徴とする付記5に記載の情報検索プログラム。
(付記7)前記検索キーワードとの後方一致検索を前記コンピュータに実行させる場合、文字列中の末尾文字の存否を前記インデックスファイルごとにあらわすフラグ列を前記末尾文字ごとに有する末尾文字出現マップに基づいて、前記検索キーワードを構成する末尾文字が存在するインデックスファイルを検出させる検出工程を、前記コンピュータに実行させ、
前記検索工程は、
前記検出工程によって検出されたインデックスファイルの中から、前記検索キーワードを含む表記キーワードを検索させることを特徴とする付記1または2に記載の情報検索プログラム。
(付記8)前記検出工程(以下、「第1の検出工程」という)のほか、文字の存否を前記インデックスファイルごとにあらわすフラグ列を前記文字ごとに有する文字出現マップに基づいて、前記検索キーワードを構成する前記末尾文字以外の残余の文字がすべて存在するインデックスファイルを検出させる第2の検出工程を、前記コンピュータに実行させ、
前記検索工程は、
前記第1の検出工程によって検出され、かつ前記第2の検出工程によって検出されたインデックスファイルの中から、前記検索キーワードを含む表記キーワードを検索させることを特徴とする付記7に記載の情報検索プログラム。
(付記9)前記検索キーワードとの完全一致検索を前記コンピュータに実行させる場合、文字列中の先頭文字の存否を前記インデックスファイルごとにあらわすフラグ列を前記先頭文字ごとに有する先頭文字出現マップに基づいて、前記検索キーワードを構成する先頭文字が存在するインデックスファイルを検出させる第1の検出工程と、
文字列中の末尾文字の存否を前記インデックスファイルごとにあらわすフラグ列を前記末尾文字ごとに有する末尾文字出現マップに基づいて、前記検索キーワードを構成する末尾文字が存在するインデックスファイルを検出させる第2の検出工程とを、前記コンピュータに実行させ、
前記検索工程は、
前記第1の検出工程によって検出され、かつ前記第2の検出工程によって検出されたインデックスファイルの中から、前記検索キーワードを含む表記キーワードを検索させることを特徴とする付記1または2に記載の情報検索プログラム。
(付記10)文字の存否を前記インデックスファイルごとにあらわすフラグ列を前記文字ごとに有する文字出現マップに基づいて、前記検索キーワードを構成する前記先頭文字および前記末尾文字以外の残余の文字がすべて存在するインデックスファイルを検出させる第3の検出工程を、前記コンピュータに実行させ、
前記検索工程は、
前記第1〜第3のいずれの検出工程によっても検出されたインデックスファイルの中から、前記検索キーワードを含む表記キーワードを検索させることを特徴とする付記9に記載の情報検索プログラム。
(付記11)前記検索工程は、
前記検索キーワードが複数存在する場合、前記インデックスファイルの中から一の検索キーワードを含む表記キーワードを検出させる第1のキーワード検出工程と、
前記第1のキーワード検出工程によって検出された表記キーワードの中から前記一の検索キーワード以外の他の検索キーワードを検出させる第2のキーワード検出工程と、を含み、
前記特定工程は、
前記第1および第2のキーワード検出工程によって検出された検出結果により、前記第1のキーワード検出工程によって検出された表記キーワードにすべての検索キーワードが含まれている場合、当該表記キーワードに対応する見出し語を特定させることを特徴とする付記1または2に記載の情報検索プログラム。
(付記12)前記インデックスファイルには、前記見出し語の表記キーワードとともに、当該見出し語の読みに関するキーワード(以下、「表記キーワード等」という)が記述されており、
前記検索工程は、
前記インデックスファイルの中から、前記検索キーワードを含む表記キーワード等を検索させ、
前記特定工程は、
前記検索工程によって検索された表記キーワード等に対応する見出し語を特定させることを特徴とする付記1または2に記載の情報検索プログラム。
(付記13)文字の存否を前記インデックスファイルごとにあらわすフラグ列を前記文字ごとに有する文字出現マップに基づいて、前記検索キーワードを構成する文字がすべて存在するインデックスファイルを検出させる検出工程を前記コンピュータに実行させ、
前記検索工程は、
前記検出工程によって検出されたインデックスファイルの中から、前記検索キーワードを含む表記キーワード等を検索させることを特徴とする付記12に記載の情報検索プログラム。
(付記14)前記検索キーワードとの前方一致検索を前記コンピュータに実行させる場合、文字列中の先頭文字の存否を前記インデックスファイルごとにあらわすフラグ列を前記先頭文字ごとに有する先頭文字出現マップに基づいて、前記検索キーワードを構成する先頭文字が存在するインデックスファイルを検出させる検出工程を、前記コンピュータに実行させ、
前記検索工程は、
前記検出工程によって検出されたインデックスファイルの中から、前記検索キーワードを含む表記キーワード等を検索させることを特徴とする付記12に記載の情報検索プログラム。
(付記15)前記検出工程(以下、「第1の検出工程」という)のほか、文字の存否を前記インデックスファイルごとにあらわすフラグ列を前記文字ごとに有する文字出現マップに基づいて、前記検索キーワードを構成する前記先頭文字以外の残余の文字がすべて存在するインデックスファイルを検出させる第2の検出工程を、前記コンピュータに実行させ、
前記検索工程は、
前記第1の検出工程によって検出され、かつ前記第2の検出工程によって検出されたインデックスファイルの中から、前記検索キーワードを含む表記キーワード等を検索させることを特徴とする付記14に記載の情報検索プログラム。
(付記16)前記検索キーワードとの後方一致検索を前記コンピュータに実行させる場合、文字列中の末尾文字の存否を前記インデックスファイルごとにあらわすフラグ列を前記末尾文字ごとに有する末尾文字出現マップに基づいて、前記検索キーワードを構成する末尾文字が存在するインデックスファイルを検出させる検出工程を、前記コンピュータに実行させ、
前記検索工程は、
前記検出工程によって検出されたインデックスファイルの中から、前記検索キーワードを含む表記キーワード等を検索させることを特徴とする付記12に記載の情報検索プログラム。
(付記17)前記検出工程(以下、「第1の検出工程」という)のほか、文字の存否を前記インデックスファイルごとにあらわすフラグ列を前記文字ごとに有する文字出現マップに基づいて、前記検索キーワードを構成する前記末尾文字以外の残余の文字がすべて存在するインデックスファイルを検出させる第2の検出工程を、前記コンピュータに実行させ、
前記検索工程は、
前記第1の検出工程によって検出され、かつ前記第2の検出工程によって検出されたインデックスファイルの中から、前記検索キーワードを含む表記キーワード等を検索させることを特徴とする付記16に記載の情報検索プログラム。
(付記18)前記検索キーワードとの完全一致検索を前記コンピュータに実行させる場合、文字列中の先頭文字の存否を前記インデックスファイルごとにあらわすフラグ列を前記先頭文字ごとに有する先頭文字出現マップに基づいて、前記検索キーワードを構成する先頭文字が存在するインデックスファイルを検出させる第1の検出工程と、
文字列中の末尾文字の存否を前記インデックスファイルごとにあらわすフラグ列を前記末尾文字ごとに有する末尾文字出現マップに基づいて、前記検索キーワードを構成する末尾文字が存在するインデックスファイルを検出させる第2の検出工程とを、前記コンピュータに実行させ、
前記検索工程は、
前記第1の検出工程によって検出され、かつ前記第2の検出工程によって検出されたインデックスファイルの中から、前記検索キーワードを含む表記キーワード等を検索させることを特徴とする付記12に記載の情報検索プログラム。
(付記19)文字の存否を前記インデックスファイルごとにあらわすフラグ列を前記文字ごとに有する文字出現マップに基づいて、前記検索キーワードを構成する前記先頭文字および前記末尾文字以外の残余の文字がすべて存在するインデックスファイルを検出させる第3の検出工程を、前記コンピュータに実行させ、
前記検索工程は、
前記第1〜第3のいずれの検出工程によっても検出されたインデックスファイルの中から、前記検索キーワードを含む表記キーワード等を検索させることを特徴とする付記18に記載の情報検索プログラム。
(付記20)前記検索工程は、
前記検索キーワードが複数存在する場合、前記検出工程によって検出されたインデックスファイルの中から一の検索キーワードを含む表記キーワード等を検出させる第1のキーワード検出工程と、
前記第1のキーワード検出工程によって検出された表記キーワード等の中から前記一の検索キーワード以外の他の検索キーワードを検出させる第2のキーワード検出工程と、を含み、
前記特定工程は、
前記第1および第2のキーワード検出工程によって検出された検出結果により、前記第1のキーワード検出工程によって検出された表記キーワード等にすべての検索キーワードが含まれている場合、当該表記キーワード等に対応する見出し語を特定させることを特徴とする付記12に記載の情報検索プログラム。
(付記21)付記1〜付記20のいずれか一つに記載の情報検索プログラムを記録した前記コンピュータに読み取り可能な記録媒体。
(付記22)本文ファイル内に項目順に記述されている本文の検索を実行する情報検索装置において、
検索キーワードの入力を受け付ける入力手段と、
前記本文の項目順にしたがって見出し語の表記キーワードが前記見出し語ごとに記述されたインデックスファイルの中から、前記入力手段によって入力された検索キーワードを含む表記キーワードを検索する検索手段と、
前記検索手段によって検索された表記キーワードに対応する見出し語を特定する特定手段と、
前記特定手段によって特定された見出し語を出力する出力手段と、
を備えることを特徴とする情報検索装置。
(付記23)本文ファイル内に項目順に記述されている本文の検索を実行する情報検索方法において、
検索キーワードの入力を受け付ける入力工程と、
前記本文の項目順にしたがって見出し語の表記キーワードが前記見出し語ごとに記述されたインデックスファイルの中から、前記入力工程によって入力された検索キーワードを含む表記キーワードを検索する検索工程と、
前記検索工程によって検索された表記キーワードに対応する見出し語を特定する特定工程と、
前記特定工程によって特定された見出し語を出力する出力工程と、
を含んだことを特徴とする情報検索方法。
以上のように、本発明にかかる情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法は、各種辞書や用語辞典などの辞書コンテンツの検索に有用であり、デスクトップ型のパーソナル・コンピュータ、ノート型のパーソナル・コンピュータ、携帯電話機、ゲーム機などのコンピュータ装置に適している。
101 バッファ
102 文字出現マップ
103 非ソート型インデックスファイル群
104 非ソート型インデックスファイル
105 見出し語候補リスト
500 情報検索装置
501 入力部
502 検出部
503 検索部
504 特定部
505 出力部
506 選択部
507 本文抽出部
510 本文ファイル群
1200 先頭文字出現マップ
1300 末尾文字出現マップ

Claims (12)

  1. コンピュータに、
    2以上の検索キーワードを受け付け、
    記憶手段に記憶された複数の文字データと該複数の文字データのそれぞれに対応する1又は複数のキーワードとの対応関係に関する文字出現マップであって、複数の文字データのそれぞれに対応する1又は複数のキーワードに含まれる複数の文字のそれぞれの存否をあらわすフラグ列を前記複数の文字のそれぞれについて有する文字出現マップに基づいて、前記記憶手段に記憶された対応関係の中から、受け付けた前記2以上の検索キーワードを構成する文字の各々が存在する対応関係を検出し、
    複数の文字データと、該複数の文字データのそれぞれに対応する1又は複数のキーワードとの対応関係を記憶した前記記憶手段のうちの検出された前記対応関係を参照して、受け付けた前記2以上の検索キーワードのうちの第1の検索キーワードを含むキーワードと対応付けられた第1の文字データ群を抽出し、
    抽出された該第1の文字データ群から、前記2以上の検索キーワードのうちの第2の検索キーワードを含むキーワードと対応付けられた文字データを抽出する、
    処理を実行させることを特徴とする情報検索プログラム。
  2. 前記文字出現マップは、複数の先頭文字のそれぞれの存否を前記複数の対応関係のそれぞれについてあらわすフラグ列を、前記複数の先頭文字のそれぞれについて有しており、
    前記2以上の検索キーワードとの前方一致検索を前記コンピュータに実行させる場合、前記文字出現マップに基づいて、前記2以上の検索キーワードを構成する文字の各々が存在する対応関係を検出する処理を前記コンピュータに実行させことを特徴とする請求項1に記載の情報検索プログラム。
  3. 前記文字出現マップは、複数の末尾文字のそれぞれの存否を前記複数の対応関係のそれぞれについてあらわすフラグ列を、前記複数の末尾文字のそれぞれについて有しており、
    前記2以上の検索キーワードとの後方一致検索を前記コンピュータに実行させる場合、前記文字出現マップに基づいて、前記2以上の検索キーワードを構成する文字の各々が存在する対応関係を検出する処理を前記コンピュータに実行させことを特徴とする請求項1に記載の情報検索プログラム。
  4. 前記文字出現マップは、複数の先頭文字のそれぞれの存否を前記複数の対応関係のそれぞれについてあらわすフラグ列を、前記複数の先頭文字のそれぞれについて有する第1の文字出現マップと、複数の末尾文字のそれぞれの存否を前記複数の対応関係のそれぞれについてあらわすフラグ列を、前記複数の末尾文字のそれぞれについて有する第2の文字出現マップと、を含み、
    前記2以上の検索キーワードとの完全一致検索を前記コンピュータに実行させる場合、前記第1の文字出現マップに基づいて、前記2以上の検索キーワードを構成する文字の各々が存在する対応関係を検出し、前記第2の文字出現マップに基づいて、前記2以上の検索キーワードを構成する文字の各々が存在する対応関係を検出する処理を前記コンピュータに実行させことを特徴とする請求項1に記載の情報検索プログラム。
  5. 見出し語と解説文を含む複数の本文データから構成されるファイルの見出し語を検索する情報検索プログラムであって、
    コンピュータに、
    2以上の検索キーワードを受け付け、
    記憶手段に記憶された、複数の見出し語と該複数の見出し語のそれぞれに対応する1又は複数のキーワードとの対応関係に関する文字出現マップであって、複数の見出し語のそれぞれに対応する1又は複数のキーワードに含まれる複数の文字のそれぞれの存否をあらわすフラグ列を、前記複数の文字のそれぞれについて有する文字出現マップに基づいて、前記記憶手段に記憶された対応関係の中から、受け付けた前記2以上の検索キーワードを構成する文字の各々が存在する対応関係を検出し、
    複数の見出し語と、該複数の見出し語のそれぞれに対応する1又は複数のキーワードとの対応関係を記憶した前記記憶手段のうちの検出された前記対応関係を参照して、受け付けた前記2以上の検索キーワードのうちの第1の検索キーワードを含むキーワードと対応付けられた第1の見出し語群を抽出し、
    抽出された該第1の見出し語群から、前記2以上の検索キーワードのうちの第2の検索キーワードを含むキーワードと対応付けられた見出し語を抽出する、
    処理を実行させることを特徴とする情報検索プログラム。
  6. 前記1又は複数のキーワードは、前記見出し語のそれぞれに対応する表記キーワードまたは前記見出し語の読みに関するキーワードのうち少なくとも表記キーワードを含むことを特徴とする請求項に記載の情報検索プログラム。
  7. 前記文字出現マップは、複数の末尾文字のそれぞれの存否を前記複数の対応関係のそれぞれについてあらわすフラグ列を、前記複数の末尾文字のそれぞれについて有しており、
    前記2以上の検索キーワードとの後方一致検索を前記コンピュータに実行させる場合、前記文字出現マップに基づいて、前記2以上の検索キーワードを構成する文字の各々が存在する対応関係を検出する処理を前記コンピュータに実行させことを特徴とする請求項に記載の情報検索プログラム。
  8. 前記文字出現マップは、複数の先頭文字のそれぞれの存否を前記複数の対応関係のそれぞれについてあらわすフラグ列を、前記複数の先頭文字のそれぞれについて有する第1の文字出現マップと、複数の末尾文字のそれぞれの存否を前記複数の対応関係のそれぞれについてあらわすフラグ列を、前記複数の末尾文字のそれぞれについて有する第2の文字出現マップと、を含み、
    前記2以上の検索キーワードとの完全一致検索を前記コンピュータに実行させる場合、前記第1の文字出現マップに基づいて、前記2以上の検索キーワードを構成する文字の各々が存在する対応関係を検出し、前記第2の文字出現マップに基づいて、前記2以上の検索キーワードを構成する文字の各々が存在する対応関係を検出する処理を前記コンピュータに実行させことを特徴とする請求項に記載の情報検索プログラム。
  9. 2以上の検索キーワードを受け付ける入力手段と、
    記憶手段に記憶された複数の文字データと該複数の文字データのそれぞれに対応する1又は複数のキーワードとの対応関係に関する文字出現マップであって、複数の文字データのそれぞれに対応する1又は複数のキーワードに含まれる複数の文字のそれぞれの存否をあらわすフラグ列を前記複数の文字のそれぞれについて有する文字出現マップに基づいて、前記記憶手段に記憶された対応関係の中から、受け付けた前記2以上の検索キーワードを構成する文字の各々が存在する対応関係を検出する手段と、
    複数の文字データと、該複数の文字データのそれぞれに対応する1又は複数のキーワードとの対応関係を記憶した前記記憶手段のうちの検出された前記対応関係を参照して、受け付けた前記2以上の検索キーワードのうちの第1の検索キーワードを含むキーワードと対応付けられた第1の文字データ群を抽出する手段と、
    抽出された該第1の文字データ群から、前記2以上の検索キーワードのうちの第2の検索キーワードを含むキーワードと対応付けられた文字データを抽出する手段と、
    を有することを特徴とする情報検索装置。
  10. 見出し語と解説文を含む複数の本文データから構成されるファイルの見出し語を検索する情報検索装置であって、
    2以上の検索キーワードを受け付ける入力手段と、
    記憶手段に記憶された、複数の見出し語と該複数の見出し語のそれぞれに対応する1又は複数のキーワードとの対応関係に関する文字出現マップであって、複数の見出し語のそれぞれに対応する1又は複数のキーワードに含まれる複数の文字のそれぞれの存否をあらわすフラグ列を、前記複数の文字のそれぞれについて有する文字出現マップに基づいて、前記記憶手段に記憶された対応関係の中から、受け付けた前記2以上の検索キーワードを構成する文字の各々が存在する対応関係を検出する手段と、
    複数の見出し語と、該複数の見出し語のそれぞれに対応する1又は複数のキーワードとの対応関係を記憶した前記記憶手段のうちの検出された前記対応関係を参照して、受け付けた前記2以上の検索キーワードのうちの第1の検索キーワードを含むキーワードと対応付けられた第1の見出し語群を抽出する手段と、
    抽出された該第1の見出し語群から、前記2以上の検索キーワードのうちの第2の検索キーワードを含むキーワードと対応付けられた見出し語を抽出する手段と、
    を有することを特徴とする情報検索装置。
  11. コンピュータが、
    2以上の検索キーワードを受け付け、
    記憶手段に記憶された複数の文字データと該複数の文字データのそれぞれに対応する1又は複数のキーワードとの対応関係に関する文字出現マップであって、複数の文字データのそれぞれに対応する1又は複数のキーワードに含まれる複数の文字のそれぞれの存否をあらわすフラグ列を前記複数の文字のそれぞれについて有する文字出現マップに基づいて、前記記憶手段に記憶された対応関係の中から、受け付けた前記2以上の検索キーワードを構成する文字の各々が存在する対応関係を検出し、
    複数の文字データと、該複数の文字データのそれぞれに対応する1又は複数のキーワードとの対応関係を記憶した前記記憶手段のうちの検出された前記対応関係を参照して、受け付けた前記2以上の検索キーワードのうちの第1の検索キーワードを含むキーワードと対応付けられた第1の文字データ群を抽出し、
    抽出された該第1の文字データ群から、前記2以上の検索キーワードのうちの第2の検索キーワードを含むキーワードと対応付けられた文字データを抽出する、
    処理を実行することを特徴とする情報検索方法。
  12. コンピュータが、見出し語と解説文を含む複数の本文データから構成されるファイルの見出し語を検索する情報検索方法であって、
    2以上の検索キーワードを受け付け、
    記憶手段に記憶された、複数の見出し語と該複数の見出し語のそれぞれに対応する1又は複数のキーワードとの対応関係に関する文字出現マップであって、複数の見出し語のそれぞれに対応する1又は複数のキーワードに含まれる複数の文字のそれぞれの存否をあらわすフラグ列を、前記複数の文字のそれぞれについて有する文字出現マップに基づいて、前記記憶手段に記憶された対応関係の中から、受け付けた前記2以上の検索キーワードを構成する文字の各々が存在する対応関係を検出し、
    複数の見出し語と、該複数の見出し語のそれぞれに対応する1又は複数のキーワードとの対応関係を記憶した前記記憶手段のうちの検出された前記対応関係を参照して、受け付けた前記2以上の検索キーワードのうちの第1の検索キーワードを含むキーワードと対応付けられた第1の見出し語群を抽出し、
    抽出された該第1の見出し語群から、前記2以上の検索キーワードのうちの第2の検索キーワードを含むキーワードと対応付けられた見出し語を抽出する、
    処理を実行することを特徴とする情報検索方法。
JP2008554930A 2007-01-24 2007-01-24 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法 Expired - Fee Related JP5141560B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2007/051069 WO2008090606A1 (ja) 2007-01-24 2007-01-24 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法

Publications (2)

Publication Number Publication Date
JPWO2008090606A1 JPWO2008090606A1 (ja) 2010-05-13
JP5141560B2 true JP5141560B2 (ja) 2013-02-13

Family

ID=39644188

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008554930A Expired - Fee Related JP5141560B2 (ja) 2007-01-24 2007-01-24 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法

Country Status (3)

Country Link
US (1) US9087118B2 (ja)
JP (1) JP5141560B2 (ja)
WO (1) WO2008090606A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7087537B2 (ja) 2018-03-26 2022-06-21 日本電産トーソク株式会社 電磁弁、および流路装置
JP7293940B2 (ja) 2019-07-22 2023-06-20 ニデックパワートレインシステムズ株式会社 電磁弁、および流路装置
JP7293941B2 (ja) 2019-07-22 2023-06-20 ニデックパワートレインシステムズ株式会社 電磁弁、および流路装置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102053993B (zh) 2009-11-10 2014-04-09 阿里巴巴集团控股有限公司 一种文本过滤方法及文本过滤***
JP5577809B2 (ja) * 2010-04-14 2014-08-27 アイシン・エィ・ダブリュ株式会社 施設検索装置及びプログラム
JP6028392B2 (ja) * 2012-05-24 2016-11-16 富士通株式会社 生成プログラム、生成方法、生成装置、検索プログラム、検索方法および検索装置
JP6065914B2 (ja) * 2012-09-21 2017-01-25 富士通株式会社 制御プログラム、制御方法および制御装置
WO2015025467A1 (ja) * 2013-08-21 2015-02-26 Necソリューションイノベータ株式会社 文字列検索装置、文字列検索方法および文字列検索プログラム
JP6677415B2 (ja) * 2016-03-03 2020-04-08 富士通コネクテッドテクノロジーズ株式会社 文字入力装置及び文字入力プログラム
US10909166B1 (en) * 2017-11-03 2021-02-02 Shutterstock, Inc. Reverse search with manual composition
CN112527949B (zh) * 2020-12-15 2023-01-13 建信金融科技有限责任公司 数据存储与检索方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0931304A (ja) * 1995-07-19 1997-02-04 Alps Electric Co Ltd 導電性樹脂
JPH0991297A (ja) * 1995-09-26 1997-04-04 Nippon Steel Corp 文字列検索方法及び装置
JP2000231563A (ja) * 1999-02-09 2000-08-22 Hitachi Ltd 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2005158044A (ja) * 2003-10-30 2005-06-16 Fujitsu Ltd 情報検索プログラム、当該プログラムを格納するコンピュータ読み取り可能な記録媒体、情報検索方法、および情報検索装置
WO2006123448A1 (ja) * 2005-05-20 2006-11-23 Fujitsu Limited 情報検索プログラム

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5551049A (en) * 1987-05-26 1996-08-27 Xerox Corporation Thesaurus with compactly stored word groups
US4888730A (en) * 1988-01-05 1989-12-19 Smith Corona Corporation Memory typewriter with count of overused words
US5263174A (en) * 1988-04-01 1993-11-16 Symantec Corporation Methods for quick selection of desired items from hierarchical computer menus
US5008810A (en) * 1988-09-29 1991-04-16 Process Modeling Investment Corp. System for displaying different subsets of screen views, entering different amount of information, and determining correctness of input dependent upon current user input
JP2790466B2 (ja) * 1988-10-18 1998-08-27 株式会社日立製作所 文字列検索方法及び装置
US5148366A (en) * 1989-10-16 1992-09-15 Medical Documenting Systems, Inc. Computer-assisted documentation system for enhancing or replacing the process of dictating and transcribing
JPH03185561A (ja) * 1989-12-15 1991-08-13 Ricoh Co Ltd 欧文単語入力方法
US5305205A (en) * 1990-10-23 1994-04-19 Weber Maria L Computer-assisted transcription apparatus
US5235654A (en) * 1992-04-30 1993-08-10 International Business Machines Corporation Advanced data capture architecture data processing system and method for scanned images of document forms
US5530644A (en) * 1992-05-20 1996-06-25 Fuji Xerox Co., Ltd. Data processing device
DE69432575T2 (de) * 1993-01-28 2004-03-18 Kabushiki Kaisha Toshiba, Kawasaki Dokumentenerkennungssystem mit verbesserter Wirksamkeit der Dokumentenerkennung
JPH0877155A (ja) * 1994-07-07 1996-03-22 Sanyo Electric Co Ltd 情報処理装置及び情報処理方法
JP3720882B2 (ja) * 1995-09-26 2005-11-30 新日鉄ソリューションズ株式会社 情報検索方法、情報検索システム及び情報検索装置
US6064383A (en) * 1996-10-04 2000-05-16 Microsoft Corporation Method and system for selecting an emotional appearance and prosody for a graphical character
JP3622503B2 (ja) * 1998-05-29 2005-02-23 株式会社日立製作所 特徴文字列抽出方法および装置とこれを用いた類似文書検索方法および装置並びに特徴文字列抽出プログラムを格納した記憶媒体および類似文書検索プログラムを格納した記憶媒体
JP4253152B2 (ja) * 2000-01-05 2009-04-08 三菱電機株式会社 キーワード抽出装置
JP4006239B2 (ja) * 2002-02-21 2007-11-14 株式会社日立製作所 文書の検索方法および検索システム
JP2003323457A (ja) * 2002-02-28 2003-11-14 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラム及び記録媒体
JP4005425B2 (ja) * 2002-06-28 2007-11-07 富士通株式会社 検索結果ランキング変更処理プログラム、検索結果ランキング変更処理プログラム記録媒体、およびコンテンツ検索処理方法
US7379928B2 (en) * 2003-02-13 2008-05-27 Microsoft Corporation Method and system for searching within annotated computer documents
JP4247026B2 (ja) * 2003-03-28 2009-04-02 日立ソフトウエアエンジニアリング株式会社 キーワード頻度算出方法及びそれを実行するプログラム
JP2004348706A (ja) * 2003-04-30 2004-12-09 Canon Inc 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
US7149748B1 (en) * 2003-05-06 2006-12-12 Sap Ag Expanded inverted index
JP2005006120A (ja) * 2003-06-12 2005-01-06 Nec Saitama Ltd 操作機能の検索手段を有する携帯電話機及び該携帯電話機の操作機能の検索方法
US7644076B1 (en) * 2003-09-12 2010-01-05 Teradata Us, Inc. Clustering strings using N-grams
JP2006134191A (ja) * 2004-11-09 2006-05-25 Hitachi Ltd 文書検索方法およびそのシステム
JP5309480B2 (ja) * 2007-06-14 2013-10-09 沖電気工業株式会社 文字列入力装置、文字列入力方法およびプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0931304A (ja) * 1995-07-19 1997-02-04 Alps Electric Co Ltd 導電性樹脂
JPH0991297A (ja) * 1995-09-26 1997-04-04 Nippon Steel Corp 文字列検索方法及び装置
JP2000231563A (ja) * 1999-02-09 2000-08-22 Hitachi Ltd 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2005158044A (ja) * 2003-10-30 2005-06-16 Fujitsu Ltd 情報検索プログラム、当該プログラムを格納するコンピュータ読み取り可能な記録媒体、情報検索方法、および情報検索装置
WO2006123448A1 (ja) * 2005-05-20 2006-11-23 Fujitsu Limited 情報検索プログラム
WO2006123429A1 (ja) * 2005-05-20 2006-11-23 Fujitsu Limited 情報検索方法、装置、プログラム、該プログラムを記録した記録媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7087537B2 (ja) 2018-03-26 2022-06-21 日本電産トーソク株式会社 電磁弁、および流路装置
JP7293940B2 (ja) 2019-07-22 2023-06-20 ニデックパワートレインシステムズ株式会社 電磁弁、および流路装置
JP7293941B2 (ja) 2019-07-22 2023-06-20 ニデックパワートレインシステムズ株式会社 電磁弁、および流路装置

Also Published As

Publication number Publication date
JPWO2008090606A1 (ja) 2010-05-13
US20090327284A1 (en) 2009-12-31
US9087118B2 (en) 2015-07-21
WO2008090606A1 (ja) 2008-07-31

Similar Documents

Publication Publication Date Title
JP5141560B2 (ja) 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法
CN101369216B (zh) 文字输入方法和文字输入***
JP5241828B2 (ja) 辞書の単語及び熟語の判定
US20160026630A1 (en) Character sequence map generating apparatus, information searching apparatus, character sequence map generating method, information searching method, and computer product
US9501557B2 (en) Information generating computer product, apparatus, and method; and information search computer product, apparatus, and method
JP6107513B2 (ja) 情報処理システム、情報処理方法、および情報処理プログラム
JP2007122403A (ja) 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
US9881001B2 (en) Image processing device, image processing method and non-transitory computer readable recording medium
JP3689954B2 (ja) 異種コード文字列転記装置および電子辞書
JP2008129793A (ja) 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体
CN101655846A (zh) 中文输入法标点关联方法及装置
JP2007025939A (ja) 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム
JP4491389B2 (ja) 電子機器、プログラム、及びプログラムを記録した記録媒体
JP4783563B2 (ja) インデックス生成プログラム、検索プログラム、インデックス生成方法、検索方法、インデックス生成装置および検索装置
JP4682627B2 (ja) 文書検索装置および方法
JP4362492B2 (ja) 文書インデキシング装置、文書検索装置、文書分類装置、並びにその方法及びプログラム
JP3979288B2 (ja) 文書検索装置および文書検索プログラム
JP5184987B2 (ja) 索引情報作成装置、索引情報作成方法及びプログラム
JP2002251401A (ja) 文書検索装置および方法ならびに記憶媒体
US7418442B1 (en) Ink alternates and plain text search
JP4344207B2 (ja) 文書検索装置、文書検索方法、文書検索プログラム、および記録媒体
JPH08115330A (ja) 類似文書検索方法および装置
JP5648360B2 (ja) 文字列検索装置、文字列検索方法および文字列検索プログラム
JP2007087197A (ja) 文書処理装置、文書処理方法およびプログラム
CN118170263A (zh) 一种基于汉语拼音的藏文快速智能输入***及方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111107

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120619

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120919

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20120926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121023

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121105

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151130

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5141560

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees