JPH06162092A - 情報検索装置 - Google Patents

情報検索装置

Info

Publication number
JPH06162092A
JPH06162092A JP4308355A JP30835592A JPH06162092A JP H06162092 A JPH06162092 A JP H06162092A JP 4308355 A JP4308355 A JP 4308355A JP 30835592 A JP30835592 A JP 30835592A JP H06162092 A JPH06162092 A JP H06162092A
Authority
JP
Japan
Prior art keywords
word
index
character
text
heading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP4308355A
Other languages
English (en)
Inventor
Hide Fuji
秀 富士
Toshihiro Kakimoto
俊博 柿元
Makoto Yoshioka
誠 吉岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP4308355A priority Critical patent/JPH06162092A/ja
Publication of JPH06162092A publication Critical patent/JPH06162092A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 本発明は、文書の検索を行う情報検索装置に
関し、辞書のメンテナンスの労力を省き、インデックス
容量を削減してテキストデータの検索を可能にすること
を目的とする。 【構成】 テキストを語分割して単語にし、この単語を
単語見出しとして該当テキストへのリンクを設定する単
語インッデクス3と、これらの単語見出しについて、先
頭から取り出したn文字見出しから該当単語見出しへの
リンクを設定するn文字インッデクス4とを作成するよ
うに構成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書の検索を行う情報
検索装置に関するものである。近年、多量の電子化文書
が出回るようになるにつれ、これらの文書の中から必要
な情報を取り出す検索技術が必要となってきている。
【0002】検索は、インデックスファイルを持つこと
によって高速化できる。このインデックスファイルを最
小化することが検索システムを構築する上で要求されて
いる。また、一方、インデックスファイルに入っている
文字列かどうかにかかわらず、どんな文字列でも検索し
たいという要求がある。これらの際に、単語辞書などの
整備作業が少ないことも要求されている。
【0003】
【従来の技術】従来、文書中の単語などを検索する手法
として以下が用いられていた。 (1) 形態素解析を利用したキーワードインデックス
法:これは、文書を形態素解析して抽出したキーワード
に対してインデックスを付けるので、インデックスファ
イルが小さくて済む。また、各キーワードは辞書属性な
どを持っているので、単語の知識を利用した処理が可能
となる。しかし、単語辞書を整備する必要がある。ま
た、未登録語抽出に失敗すると、この未登録語の文字列
が検索できなくなる。
【0004】(2) n文字インデックス法:文書の全
ての文字に対してインデックスを付けるので、辞書など
の単語の知識が必要なく、結果として辞書メンテナンス
のコストが削減できる。また、出現する文字列全てが検
索対象となるので検索もれがない。しかし、インデック
スの量が膨大になる。
【0005】
【発明が解決しようとする課題】上述した(1)の単語
辞書を利用した形態素解析をベースにしたキーワードイ
ンデックス法は、精度を保つためには単語辞書の整備を
行う必要があり、その労力が大変であるという問題があ
る。また、上述した(2)のn文字インデックス法によ
りn文字単位の転置ファイル(例えば1文字単位)を作
成したのでは、インデックスの量が増加して、元のテキ
ストよりも大きくなり、インデックス容量が膨大となっ
てしまう問題がある。
【0006】本発明は、これらの問題を解決するため、
辞書のメンテナンスの労力を省き、インデックス容量を
削減してテキストデータの検索を可能にすることを目的
としている。
【0007】
【課題を解決するための手段】図1および図2を参照し
て課題を解決するための手段を説明する。図1および図
2において、語分割処理部6は、テキストを語分割して
単語にするものである。
【0008】未登録語処理部7は、単語辞書12に登録
されていない文字列について、文字種情報などでまとめ
るものである。単語インデックス作成部8は、テキスト
を分割した単語を単語見出しとしてテキストの該当する
位置をリンクする単語インデックス3を作成するもので
ある。
【0009】n文字インデックス作成部9は、単語イン
デックス3の単語見出しについて、先頭などから取り出
したn文字見出しからリンクするn文字インデックス4
を作成するものである。
【0010】
【作用】本発明は、図1および図2に示すように、語分
割処理部6がテキストを語分割して単語にし、単語イン
デックス作成部8がこの単語を単語見出しとしてテキス
トをリンクする単語インデックス3を作成し、n文字イ
ンデックス作成部9がこれらの単語見出しについて、先
頭などから取り出したn文字見出しからリンクするn文
字インデックス4を作成するようにしている。この際、
未登録語処理部7が単語辞書12に登録されていない文
字列について、文字種情報をもとにまとめて単語見出し
とするようにしている。
【0011】また、キーワードを指定した検索指示に対
応して、n文字インデックス4の該当するn文字見出し
からリンクする単語インデックス3の該当する単語見出
しを見つけ、これからリンクからテキスト2中の該当す
る文字列を検索して出力するようにしている。
【0012】これらの際に、n文字インデックス4とし
て、1文字インデックスとするようにしている。従っ
て、n文字インデックス4および単語インデックス3を
利用してテキスト2から該当する文字列を検索すること
により、単語辞書12のメンテナンスの労力を省き、イ
ンデックス容量を削減してテキストデータの検索を行う
ことが可能となる。特に、単語インデックス3を作成し
たことによって、単語辞書12に登録されている単語
(2文字、3文字、4文字など)および文字種情報でま
とめた未登録語にインデックスを付与でき、インデック
ス量を削減できる。また、この単語インデックス3の単
語見出しについて、n文字インデックス4、特に1文字
インデックスからリンクすることにより、デキスト中の
文字列の取りこぼしを無くすことが可能となる。
【0013】
【実施例】次に、図1から図3を用いて本発明の実施例
の構成および動作を順次詳細に説明する。
【0014】図1は、本発明の1実施例構成図を示す。
図1において、テキストデータ1は、検索対象のテキス
トデータであって、複数のテキスト2を格納したもので
ある。
【0015】単語インデックス3は、単語見出しおよび
リンクの複数の組から構成され、テキスト2を語分割し
た単語および文字種情報でまとめた未登録語を単語見出
しとし、この単語見出しからテキスト2中の該当する文
字列をリンクしたものである。例えば図示のように、 単語見出し リンク “情報” テキスト2の該当する文字列“情報”へのリンク といように、単語見出し“情報”についてテキスト2中
の該当する文字列“情報”へのリンク(ポインタ)を設
定する。
【0016】n文字インデックス4は、単語インデック
ス3の単語見出しの先頭など(例えば先頭あるいは全
体)からn文字を取り出してn文字見出しとし、このn
文字見出しから該当する単語をリンクするようにしたも
のである。例えば図示のように、 n文字見出し リンク 情 “情報”へのリンク、“情勢”へのリンク “情報検索”へのリンク というように、n文字見出し、ここでは、1文字見出し
“情”について単語インデックス3中の該当する文字列
“情報”、“情勢”、“情報検索”などへのリンクを設
定する。これにより、キーワードの先頭のn文字、特に
1文字の検索を高速に行うことができる。1文字インデ
ックス4でキーワードの先頭の1文字が存在することが
判明したとき、リンクする単語インデックス3の見出し
から先頭の1文字を含む文字列を取り出し、キーワード
との一致を高速に判定できる。一致したときは、更に単
語インデックス3の単語見出しのリンクを辿ってテキス
ト2中の該当する文字列を検索できる。
【0017】キーワードは、検索対象の文字列である。
検索するときは、このキーワードの先頭の1文字“情”
をn文字インデックス4である1文字インデックス4か
ら見つけ、この見つけた1文字のリンクから単語インデ
ックス3の単語に当該キーワードを含むものを見つけ
る。見つかったときは、この単語のリンクによりテキス
ト中から該当する文字列を取り出し、表示などする。
【0018】次に、図2を用いて、図1の単語インデッ
クス3およびn文字インデックス4を作成するインデッ
クス作成系11、および作成したn文字インデックス4
および単語インデックス3を利用して文字列を検索する
ときの検索系21の動作を順次詳細に説明する。
【0019】(1) インデックス作成系11について
説明する。図2において、S1は、テキストデータ1を
取り込む。S2は、前処理部5が前処理を行う。テキス
トデータ1について、改行などを取り、1行1文にす
る。
【0020】S3は、語分割処理部6がテキストデータ
1の語分割を行う。これは、単語辞書12を参照して、
例えば後述する図3の語分割結果に示すように、/の区
切り記号によって、 /に/ついて/の/情報/を/集め/・・・ のように語分割する。
【0021】S4は、未登録語処理部7が未登録語の処
理を行う。これは、単語辞書12にないテキストデータ
1について、文字種情報、例えばカタカナの一連の文字
列を未登録語としたり、一連の漢字のつながりを未登録
語としたりする。
【0022】S5は、語分割処理部6が語分割した単語
および未登録語処理部7が分割した未登録語について、
単語インデックス作成部8がこれら単語および未登録語
を見出しとすると共にリンクによってテキストデータ1
中の該当する位置をリンクする。これらにより、S6の
単語インデックス3が作成できたこととなる。
【0023】S7は、n文字インデックス作成部9が単
語インデックス3の単語見出しについて先頭のn文字
(例えば先頭の1文字)を抽出し、この抽出したn文字
をn文字見出しとすると共に単語見出しをリンクするn
文字インデックス4を作成する。これらにより、一連の
単語インデックス3およびn文字インデックス4が作成
でき、テキストデータ1を検索する準備ができたことと
なる。
【0024】また、辞書エディタ13は、単語インデッ
クス3の効率を向上させるために、単語辞書12をチュ
ーニング(新たな単語を登録したり、修正したり、未登
録語を新たな単語として登録したりなどしてチェーニン
グ)する。
【0025】以上によって、テキストデータ1から任意
の単語および未登録語を検索するための、n文字インデ
ッスク4および単語インデックス3が作成できたことと
なる。
【0026】(2) 検索系21について説明する。こ
こでは、n文字インデックス4は、1文字インデックス
とする。図2において、S11は、キーワードを入力す
る。これは、オペレータが画面上から検索しようとする
キーワードを入力する。
【0027】S12は、キーワードの先頭1文字と1文
字見出しを比較する。これは、例えばキーワード“情
報”について先頭の1文字“情”と、1文字インデック
ス4の1文字見出しと比較し、一致するものを見つけ
る。ない場合には、ない旨のメッセージを画面上に表示
する。ありの場合には、S13に進む。
【0028】S13は、単語インデックス3の単語見出
しとキーワードと比較する。これは、S12のありでキ
ーワードの先頭の1文字例えば“情”が1文字インデッ
クス4の1文字見出しにありと判明したので、この1文
字見出しのリンク先の単語インデックス3の単語と、キ
ーワードとを比較する。ない場合、即ちキーワードと一
致しないあるいは一致する部分を含まない場合には、な
い旨のメッセージを画面上に表示する。ありの場合に
は、S14に進む。
【0029】S14は、テキストとキーワードを比較す
る。これは、S13のありでキーワードと単語見出しと
が一致あるいはキーワードが一部単語見出しに含まれて
いたので、リンク先のテキストとキーワードを比較す
る。ない場合、即ちキーワードがテキストと一致しない
場合には、ない旨のメッセージを画面上に表示する。あ
りの場合には、S15に進む。
【0030】S15は、S14でキーワードとテキスト
の文字列とが一致すると判明したので、このテキストの
位置(単語見出しのリンク先の位置)の内容を画面上に
表示する。これにより、検索指示したキーワードの存在
するテキスト(例えば文単位、段落単位、ページ単位の
テキスト)が画面上に表示されたこととなる。
【0031】以上によって、画面上からキーワードを入
力したことに対応して、キーワードの先頭1文字と一致
する1文字インデックス4の1文字見出しを見つけ、こ
の1文字見出しのリンク先の単語インデックス3の単語
見出しのうち一致するものを見つけ、更にこの一致した
単語見出しのリンク先のテキストとキーワードが一致し
たときに、この範囲のテキストを画面上に検索結果とし
て表示する。これらにより、キーワードが存在するテキ
スト上の文字列が表示されることとなる。
【0032】図3は、本発明の単語インデックスの作成
説明図を示す。テキストデータ1は、文書であって、図
示のT2(文単位、段落単位、あるいはページ単位な
ど)の場合には、“ある事柄についての情報を集め、こ
れをファイルに蓄える。そして必要に応じ・・・・・”
である。
【0033】前処理結果は、ここでは、文単位にまとめ
たものである。語分割結果は、前処理結果について、単
語辞書12を参照して単語に分割し、更に未登録語につ
いては文字種情報をもとに単語に分割したものである。
ここでは、図示の/に示す区切り記号で単語に下記のよ
うに分割する。
【0034】 T2 /に/ついて/の/情報/を/集め/・・・ また、これら分割した単語およびリンクを分かり易く並
べると下記のようになる。
【0035】 単語見出し リンク について T2 の T2 情報 T2 を T2 単語インデックス3は、語分割結果について、単語見出
しおよびリンクとして下記のように重複しないように、
単語インデックス3に格納する。
【0036】 単語見出し リンク 情報 T2、T3、T10・・・ 情勢 T8、T9、T23・・・ そして、これらの単語インデックス3の単語見出しの先
頭の1文字をとりだし、1文字インデックス3の1文字
見出しとすると共にリンクによって単語見出しの位置を
ポイントする。
【0037】以上によって、テキストデータを指定した
ことに対応して、前処理結果を得て、次に語分割結果を
得て、この語分割結果をもとに単語インデックス3の見
出しおよびリンクを登録する。そして、単語見出しの先
頭1文字を1文字インデックス4の1文字見出しとする
と共に単語見出しをリンクする。これらにより、テキス
トデータから自動的に単語インデックス3および1文字
インデックス4を作成することが可能となる。
【0038】
【発明の効果】以上説明したように、本発明によれば、
テキストデータ1から語分割して単語インデックス3を
作成およびこの単語インデックス3の単語見出しのn文
字をn文字インデックス4に設定およりリンクを設定
し、単語インデックス3およびn文字インデックス4を
作成する構成を採用しているため、テキストデータ1か
ら任意文字列の単語および文字種情報でまとめた未登録
語を取り出して単語インデックス3の単語見出しとし、
エントリ数を削減してメモリ容量を小さくできると共
に、単語見出しの先頭n文字(例えば先頭1文字)をn
文字インデックス4に設定し、単語もれを無くすことが
できる。これらにより、単語辞書のメンテナンスの労力
を省き、インデックス容量を削減してテキストデータの
検索を行うことができる。特に、単語インデックス3を
作成したことによって、単語辞書に登録されている単語
(2文字、3文字、4文字など)を1つとしておよび文
字種情報でまとめた未登録語を1つとしてインデックス
を付与でき、インデックス量を削減できる。また、この
単語インデックス3の単語見出しについて、n文字イン
デックス4、特に1文字インデックスからリンクするこ
とにより、テキスト中の文字列の取りこぼしを無くすこ
とが可能となる。
【図面の簡単な説明】
【図1】本発明の1実施例構成図である。
【図2】本発明の動作説明図である。
【図3】本発明の単語インデックスの作成説明図であ
る。
【符号の説明】
1:テキストデータ 2:テキスト 3:単語インデックス 4:n文字インデックス 5:前処理部 6:語分割処理部 7:未登録語処理部 8:単語インデックス作成部 9:n文字インデックス作成部 12:単語辞書 13:辞書エディタ

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】文書の検索を行う情報検索装置において、 テキストを語分割して単語にし、この単語を単語見出し
    として該当テキストへのリンクを設定する単語インデッ
    クス(3)と、 これらの単語見出しについて、先頭などから取り出した
    n文字見出しから該当単語見出しへのリンクを設定する
    n文字インデックス(4)とを作成するように構成した
    ことを特徴とする情報検索装置。
  2. 【請求項2】上記テキストを語分割して単語にする際
    に、単語辞書(12)に登録されていない未登録語を文
    字種情報でまとめて単語見出しとするように構成したこ
    とを特徴とする請求項1記載の情報検索装置。
  3. 【請求項3】キーワードを指定した検索指示に対応し
    て、上記n文字インデックス(4)の該当するn文字見
    出しからリンクする上記単語インデックス(3)の該当
    する単語見出しを見つけ、この単語見出しのリンクから
    該当テキストの文字列を検索し、出力するように構成し
    たことを特徴とする請求項1記載の情報検索装置。
  4. 【請求項4】上記n文字インデックス(4)として、1
    文字インデックスとしたことを特徴とする請求項1記載
    から請求項3記載の情報検索装置。
JP4308355A 1992-11-18 1992-11-18 情報検索装置 Withdrawn JPH06162092A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4308355A JPH06162092A (ja) 1992-11-18 1992-11-18 情報検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4308355A JPH06162092A (ja) 1992-11-18 1992-11-18 情報検索装置

Publications (1)

Publication Number Publication Date
JPH06162092A true JPH06162092A (ja) 1994-06-10

Family

ID=17980068

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4308355A Withdrawn JPH06162092A (ja) 1992-11-18 1992-11-18 情報検索装置

Country Status (1)

Country Link
JP (1) JPH06162092A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08180066A (ja) * 1994-12-26 1996-07-12 Toshiba Corp インデックス作成方法、文書検索方法及び文書検索装置
JPH0991303A (ja) * 1995-09-22 1997-04-04 Fujitsu Ltd データ管理装置
JP2007179329A (ja) * 2005-12-28 2007-07-12 Alps Sha:Kk 住所文字列取得方法および住所文字列取得システム
WO2008023470A1 (fr) * 2006-08-21 2008-02-28 Kyoto University Procédé de recherche de phrase, moteur de recherche de phrase, programme informatique, support d'enregistrement et stockage de document
JP2009134609A (ja) * 2007-11-30 2009-06-18 Seiko Epson Corp 可変長データ格納装置、可変長データ格納方法、可変長データ読出方法及びそのプログラム
JP2009157765A (ja) * 2007-12-27 2009-07-16 Dainippon Printing Co Ltd 検索装置
WO2010095179A1 (ja) * 2009-02-23 2010-08-26 株式会社エスグランツ コード列検索装置、検索方法及びプログラム
WO2010106605A1 (ja) * 2009-03-18 2010-09-23 株式会社エスグランツ コード列検索装置、検索方法及びプログラム
WO2010116435A1 (ja) * 2009-03-29 2010-10-14 株式会社エスグランツ コード列検索装置、検索方法及びプログラム
JP2011138365A (ja) * 2009-12-28 2011-07-14 Yahoo Japan Corp 用語抽出装置、方法及び用語辞書のデータ構造
US8095526B2 (en) 2003-12-02 2012-01-10 Nec Corporation Efficient retrieval of variable-length character string data
US9009655B2 (en) 2008-09-28 2015-04-14 KOUSOKUYA, Inc. Code string search apparatus, search method, and program

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08180066A (ja) * 1994-12-26 1996-07-12 Toshiba Corp インデックス作成方法、文書検索方法及び文書検索装置
JPH0991303A (ja) * 1995-09-22 1997-04-04 Fujitsu Ltd データ管理装置
US8200646B2 (en) 2003-12-02 2012-06-12 Nec Corporation Efficient retrieval of variable-length character string data
US8095526B2 (en) 2003-12-02 2012-01-10 Nec Corporation Efficient retrieval of variable-length character string data
JP2007179329A (ja) * 2005-12-28 2007-07-12 Alps Sha:Kk 住所文字列取得方法および住所文字列取得システム
JPWO2008023470A1 (ja) * 2006-08-21 2010-01-07 国立大学法人京都大学 文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置
WO2008023470A1 (fr) * 2006-08-21 2008-02-28 Kyoto University Procédé de recherche de phrase, moteur de recherche de phrase, programme informatique, support d'enregistrement et stockage de document
JP5167546B2 (ja) * 2006-08-21 2013-03-21 国立大学法人京都大学 文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置
JP2009134609A (ja) * 2007-11-30 2009-06-18 Seiko Epson Corp 可変長データ格納装置、可変長データ格納方法、可変長データ読出方法及びそのプログラム
JP2009157765A (ja) * 2007-12-27 2009-07-16 Dainippon Printing Co Ltd 検索装置
US9009655B2 (en) 2008-09-28 2015-04-14 KOUSOKUYA, Inc. Code string search apparatus, search method, and program
WO2010095179A1 (ja) * 2009-02-23 2010-08-26 株式会社エスグランツ コード列検索装置、検索方法及びプログラム
WO2010106605A1 (ja) * 2009-03-18 2010-09-23 株式会社エスグランツ コード列検索装置、検索方法及びプログラム
WO2010116435A1 (ja) * 2009-03-29 2010-10-14 株式会社エスグランツ コード列検索装置、検索方法及びプログラム
JP2011138365A (ja) * 2009-12-28 2011-07-14 Yahoo Japan Corp 用語抽出装置、方法及び用語辞書のデータ構造

Similar Documents

Publication Publication Date Title
JP3143079B2 (ja) 辞書索引作成装置と文書検索装置
KR100235223B1 (ko) 텍스트 검색에 사용하기 위하여 다중-바이트 문자를 아스키문자의 단일문자 열로 맵핑하는 방법 및 장치
JPH06162092A (ja) 情報検索装置
JPH0628403A (ja) 文書検索装置
JP2000132560A (ja) 中国語テレテキスト処理方法及び装置
JPH07319920A (ja) 文書検索方法及び装置
JP3253657B2 (ja) 文書検索方法
JPH056398A (ja) 文書登録装置及び文書検索装置
JP3325677B2 (ja) 文書検索装置
JPH0773187A (ja) 検索システム
JP2000067070A (ja) 情報検索方法、検索ファイル作成方法及び情報検索装置
JPH05165889A (ja) 文書検索装置
JPH0991305A (ja) 情報処理方法及び装置
JPH08221443A (ja) 漢字を含むテキストの検索方法及び装置
JP4183767B2 (ja) 文字列検索装置およびその検索方法
JP2897191B2 (ja) 日本語形態素解析システム及び形態素解析方式
JP3508312B2 (ja) キーワード抽出装置
JPH0748218B2 (ja) 情報処理装置
JP2967995B2 (ja) 文書処理装置および文書処理方法
JPH06290218A (ja) 文書情報検索装置
JPH041853A (ja) 文書検索装置
JP2000200288A (ja) 検索結果解析方式
JPH09212524A (ja) 全文検索方法および電子化辞書装置
JPH0388070A (ja) フリーワード検索システム
JPH1139346A (ja) 文書検索装置及びインデックス作成装置並びにコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20000201