JPH103481A - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JPH103481A
JPH103481A JP8156764A JP15676496A JPH103481A JP H103481 A JPH103481 A JP H103481A JP 8156764 A JP8156764 A JP 8156764A JP 15676496 A JP15676496 A JP 15676496A JP H103481 A JPH103481 A JP H103481A
Authority
JP
Japan
Prior art keywords
document
keyword
index
unit
noun dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8156764A
Other languages
English (en)
Other versions
JP3707506B2 (ja
Inventor
Shoichi Tateno
昌一 舘野
Hiroshi Masuichi
博 増市
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP15676496A priority Critical patent/JP3707506B2/ja
Publication of JPH103481A publication Critical patent/JPH103481A/ja
Application granted granted Critical
Publication of JP3707506B2 publication Critical patent/JP3707506B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 検索対象の文書中から所望の文書が得られる
可能性を高めた文書検索装置を提供する。 【解決手段】 形態素解析部3は、文書格納部2中の文
書について、名詞辞書格納部11中の名詞辞書を用いて
形態素解析を行なってキーワードを抽出し、インデック
スファイルを作成してインデックス格納部4に追加格納
する。さらに、抽出したキーワードを登録名詞辞書格納
部12中の名詞辞書に追加する。形態素解析部3は、入
力部1から検索対象となる文章が入力されると、まず登
録名詞辞書格納部12中の名詞辞書を用いて形態素解析
を行なってキーワードを抽出する。さらに、名詞辞書格
納部11中の名詞辞書を用いて形態素解析を行なってキ
ーワードを抽出する。特定部5は、抽出されたキーワー
ドを基にインデックス格納部4中のインデックスファイ
ルを用いて検索し、検索結果を出力部6から出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、キーワード検索方
式の文書検索装置に関するものである。
【0002】
【従来の技術】膨大な量の文書を対象とした検索を行な
う検索方式として、キーワード検索方式が一般に用いら
れている。キーワード検索方式では、検索対象となる文
書から予めキーワードとなり得る語を抽出し、通常、イ
ンデックスファイルと呼ばれるファイルに登録する。イ
ンデックスファイルには、キーワードとそのキーワード
が出現する文書名、文書中の位置等の情報が対になって
記録される。検索時には、求める文書を指定すべく入力
された語と一致するキーワードをインデックス中から探
し出し、その文書名あるいは文書中の位置情報を得るこ
とにより、高速に文書を検索することができる。
【0003】文書中からキーワードを抽出する方法とし
ては、人手によって抽出する方法と、形態素解析に代表
されるキーワード抽出手法を用いた自動抽出による方法
とを挙げることができる。キーワード抽出の時間的なコ
ストの観点からは、自動抽出による方法が有利であると
いえる。
【0004】キーワード検索方式の問題は、所望の文書
を指定するために入力する語が、インデックスファイル
に登録されているキーワードと完全に等しいものでなけ
ればならず、適切な入力語の指定が容易でない点であ
る。
【0005】この問題点を解決するため、例えば、特開
平7−182370号公報では、所望の文書を指定する
ための入力として文章を許す。指定された文章からキー
ワードを自動抽出し、得られたキーワードとインデック
スファイル中に登録されているキーワードを比較するこ
とによって、所望の文書を得ることができる。この方式
によれば、所望の文書を指定するための入力がインデッ
クスファイル中の語と完全に一致しない場合でも、入力
文章中に含まれる語が一致すれば所望の文書を得ること
が可能となり、上記の問題点を解決することができる。
例えば、入力として「A社で発売した複写機を知りた
い」を指定した場合、キーワード「A社」、「発売」、
「複写機」が自動抽出され、それらのキーワードをとも
に含む文書を検索する。
【0006】しかしながら、形態素解析を含むキーワー
ドの自動抽出技術では、抽出されるキーワードが文脈に
依存する。そのため、上述の文献のように文書を指定す
る文章から形態素解析によりキーワードを抽出すると、
検索者の意図と異なるキーワードが抽出され、検索漏れ
が多くなるという問題がある。例えば、検索対象文書中
に「A社系列車」という記述が存在し、インデックスフ
ァイルを作成する際のキーワード抽出により、「A社
系」と「列車」が抽出され、登録されているとする。こ
こで、検索者がこの文書を検索したいと考え、「A社系
列」を指定したとする。上述の文献のように形態素解析
を行なえば、これから「A社」と「系列」を自動抽出
し、検索を行なうことがあり得る。この場合、所望の文
書を得ることはできない。
【0007】
【発明が解決しようとする課題】本発明は、上述した事
情に鑑みてなされたもので、検索対象の文書中から所望
の文書が得られる可能性を高めた文書検索装置を提供す
ることを目的とするものである。
【0008】
【課題を解決するための手段】請求項1に記載の発明
は、文書検索装置において、複数の文書を格納する文書
格納手段と、該文書格納手段に格納されている各文書か
ら予め抽出されたキーワードとともに該キーワードが存
在する文書名を記録したインデックスファイルを格納す
るインデックス格納手段と、検索対象を指定すべく入力
された文章を解析してキーワードを抽出する抽出手段
と、該抽出手段により抽出されたキーワードと前記イン
デックス格納手段に格納されているインデックスファイ
ル中のキーワードとを比較して検索対象の文書を特定す
る特定手段と、該特定手段により特定された前記文書を
前記文書格納手段から読み出して出力する出力手段を有
し、前記抽出手段は、前記インデックス格納手段に格納
されているインデックスファイル中に存在するキーワー
ド情報を用いた解析を行なってキーワードを抽出するこ
とを特徴とするものである。
【0009】請求項2に記載の発明は、請求項1に記載
の文書検索装置において、前記抽出手段は、さらに、前
記インデックス格納手段に格納されているインデックス
ファイル中に存在するキーワード情報を用いずに解析を
行なって前記文章からキーワードを抽出することを特徴
とするものである。
【0010】請求項3に記載の発明は、請求項1に記載
の文書検索装置において、第1および第2の語彙辞書
と、該第1の語彙辞書を用いて前記文書格納手段に格納
されている文書を解析してキーワードを抽出し前記イン
デックスファイルを作成するとともに抽出したキーワー
ドを前記第2の語彙辞書に追加するインデックス作成手
段をさらに有し、前記抽出手段は、前記第2の語彙辞書
を用いて前記文章の解析を行ないキーワードを抽出する
ことを特徴とするものである。
【0011】
【発明の実施の形態】図1は、本発明の文書検索装置の
実施の一形態を示す構成図である。図中、1は入力部、
2は文書格納部、3は形態素解析部、4はインデックス
格納部、5は特定部、6は出力部、11は名詞辞書格納
部、12は登録名詞辞書格納部である。この実施の一形
態では、キーワードとして抽出し、インデックスファイ
ルに登録する語を名詞としているが、形容詞、動詞等も
キーワードの対象とすることは容易に可能である。
【0012】入力部1は、検索者が所望の文書を指定す
るための文章を入力することができるユーザインタフェ
ースを有する。入力された文書を指定するための文章は
形態素解析部3に送られる。
【0013】文書格納部2は、検索対象となる複数の文
書を格納する。
【0014】形態素解析部3は、文書格納部2中に格納
されている文書および入力部1に入力された文章に対し
て形態素解析処理を施し、キーワードを抽出する。形態
素解析部3は、文書格納部2中に格納されている文書を
解析する際に用いられる名詞辞書を格納した名詞辞書格
納部11と、文書から抽出したキーワードが格納され、
検索するための文章の解析に用いられる登録名詞辞書格
納部12を有している。このほか、形態素解析部3は、
形態素解析を実行するために必要な、文法辞書および名
詞辞書以外の各種語彙の辞書等も含んでいる。
【0015】形態素解析部3は、文書格納部2中に格納
されている文書を解析する場合は、名詞辞書格納部11
中の名詞辞書を用いて行なう。文書を解析して抽出した
キーワードと、そのキーワードを含む文書名などを記録
してインデックスファイルを作成し、インデックス格納
部4に追加格納する。さらに、インデックスファイル中
に登録したキーワードを登録名詞辞書格納部32に格納
されている辞書に追加する。
【0016】また、入力部1から入力された文章を解析
する際には、まず登録名詞辞書格納部12中の名詞辞書
を用いて解析してキーワードを抽出し、特定部5に送
る。その後、名詞辞書格納部11中の名詞辞書を用いて
解析し、キーワードを抽出して特定部5に送る。
【0017】名詞辞書格納部11は、形態素解析に必要
な名詞語彙を記述した辞書を格納している。格納される
名詞辞書は、形態素解析部3が文書格納部2に格納され
ている文書および入力部1から入力された文章の解析を
行なう際に参照される。
【0018】登録名詞辞書格納部12は、形態素解析部
3が文書格納部2中の文書を解析した結果得られたキー
ワードを記述した辞書が格納される。この名詞辞書は、
入力部1から入力された文章を形態素解析部3が解析を
行なう際に参照される。辞書中に存在する名詞はインデ
ックス格納部4に格納されるインデックスファイル中の
キーワードと一致している。
【0019】インデックス格納部4は、形態素解析部3
の解析処理によって文書格納部2中に格納されている文
書から得られたキーワードと各キーワードを含む文書名
などを記録したインデックスファイルを格納する。
【0020】特定部5は、形態素解析部3の解析処理に
よって入力部1に入力された文章から得られたキーワー
ドをすべて含む文書を、インデックス格納部4中のイン
デックスファイルを参照することによって、文書格納部
2中から特定する。
【0021】出力部6は、特定部5によって特定された
文書を検索結果として検索者に表示するユーザインタフ
ェースを持つ。
【0022】図2は、本発明の文書検索装置の実施の一
形態における形態素解析部3の動作の一例を示すフロー
チャートである。S21において、解析対象となる文を
受け取り、S22において、その文が文書格納部2中の
文書であれば、まずS23で名詞辞書格納部11中の名
詞辞書を用いて形態素解析を行ない、キーワードを抽出
する。次にS24において、得られたキーワードととも
にキーワードを含む文書名を記録してインデックスファ
イルとし、インデックス格納部4に追加格納する。さら
に、S25において、インデックスファイルに登録した
キーワードを登録名詞辞書格納部12に格納されている
名詞辞書に追加する。したがって、登録名詞辞書格納部
32に格納されている辞書中に存在する名詞はインデッ
クス格納部4に格納されるインデックスファイル中のキ
ーワードと一致している。
【0023】S21で受け取った検索対象となる文が入
力部1に入力された文章であれば、まずS26におい
て、登録名詞辞書格納部12中の名詞辞書を用いて形態
素解析を行ない、キーワードを抽出する。そして、S2
7において、その結果を特定部5に通知することによっ
て、検索結果を得る。さらに、S28において、名詞辞
書格納部11中の名詞辞書を用いて形態素解析を行なっ
てキーワードを抽出し、S29でその結果を特定部5に
通知することによって、さらに検索結果を得る。検索結
果は出力部6より出力される。
【0024】このように、登録名詞辞書格納部12中の
名詞辞書を用いて形態素解析を行ない、キーワードを抽
出することによって、キーワード検索のヒット率を高め
留ことができる。また、その後、通常の名詞辞書格納部
11中の名詞辞書を用いて形態素解析を行ない、キーワ
ードを抽出することによって、さらに漏れの少ない検索
が可能となる。
【0025】例えば、検索対象文書中に「A社系列車」
という記述が存在し、インデックスファイル作成時のキ
ーワード抽出により、「A社系」と「列車」が抽出さ
れ、インデックスファイルに登録されているとする。こ
こで、検索者がこの文書を検索したいと考え、入力部1
から「A社系列」を指定したとする。形態素解析部3は
登録名詞辞書格納部12中の名詞辞書を用いて形態素解
析処理を行なう。登録名詞辞書格納部12中の名詞辞書
には、文書から抽出した「A社系」が登録されているの
で、指定された「A社系列」の解析により登録されてい
る語「A社系」と未登録語「列」に分割され、キーワー
ド「A社系」が得られる。これにより、所望の文書を検
索することが可能となる。
【0026】
【発明の効果】以上の説明から明らかなように、本発明
によれば、実際にインデックスファイル中に登録されて
いるキーワードを優先して、入力文章からのキーワード
抽出を行なうことが可能となる。したがって、キーワー
ドの自動抽出による検索の欠点である、キーワード抽出
時の形態素解析の文脈依存による検索漏れを防ぎ、ヒッ
ト率の高い検索を実現することが可能であるという効果
がある。さらに、通常の辞書を用いた入力文章からのキ
ーワード抽出を行なうことにより、検索漏れを減少させ
ることができる。
【図面の簡単な説明】
【図1】 本発明の文書検索装置の実施の一形態を示す
構成図である。
【図2】 本発明の文書検索装置の実施の一形態におけ
る形態素解析部3の動作の一例を示すフローチャートで
ある。
【符号の説明】
1…入力部、2…文書格納部、3…形態素解析部、4…
インデックス格納部、5…特定部、6…出力部、11…
名詞辞書格納部、12…登録名詞辞書格納部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 複数の文書を格納する文書格納手段と、
    該文書格納手段に格納されている各文書から予め抽出さ
    れたキーワードとともに該キーワードが存在する文書名
    を記録したインデックスファイルを格納するインデック
    ス格納手段と、検索対象を指定すべく入力された文章を
    解析してキーワードを抽出する抽出手段と、該抽出手段
    により抽出されたキーワードと前記インデックス格納手
    段に格納されているインデックスファイル中のキーワー
    ドとを比較して検索対象の文書を特定する特定手段と、
    該特定手段により特定された前記文書を前記文書格納手
    段から読み出して出力する出力手段を有し、前記抽出手
    段は、前記インデックス格納手段に格納されているイン
    デックスファイル中に存在するキーワード情報を用いた
    解析を行なってキーワードを抽出することを特徴とする
    文書検索装置。
  2. 【請求項2】 前記抽出手段は、さらに、前記インデッ
    クス格納手段に格納されているインデックスファイル中
    に存在するキーワード情報を用いずに解析を行なって前
    記文章からキーワードを抽出することを特徴とする請求
    項1に記載の文書検索装置。
  3. 【請求項3】 第1および第2の語彙辞書と、該第1の
    語彙辞書を用いて前記文書格納手段に格納されている文
    書を解析してキーワードを抽出し前記インデックスファ
    イルを作成するとともに抽出したキーワードを前記第2
    の語彙辞書に追加するインデックス作成手段をさらに有
    し、前記抽出手段は、前記第2の語彙辞書を用いて前記
    文章の解析を行ないキーワードを抽出することを特徴と
    する請求項1に記載の文書検索装置。
JP15676496A 1996-06-18 1996-06-18 文書検索装置及び文書検索方法 Expired - Fee Related JP3707506B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP15676496A JP3707506B2 (ja) 1996-06-18 1996-06-18 文書検索装置及び文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP15676496A JP3707506B2 (ja) 1996-06-18 1996-06-18 文書検索装置及び文書検索方法

Publications (2)

Publication Number Publication Date
JPH103481A true JPH103481A (ja) 1998-01-06
JP3707506B2 JP3707506B2 (ja) 2005-10-19

Family

ID=15634809

Family Applications (1)

Application Number Title Priority Date Filing Date
JP15676496A Expired - Fee Related JP3707506B2 (ja) 1996-06-18 1996-06-18 文書検索装置及び文書検索方法

Country Status (1)

Country Link
JP (1) JP3707506B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100498574B1 (ko) * 2001-03-08 2005-07-01 주식회사 다이퀘스트 단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템
JP2011090463A (ja) * 2009-10-21 2011-05-06 Fujitsu Ltd 文書検索システム、情報処理装置およびプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04340163A (ja) * 1991-01-28 1992-11-26 Pfu Ltd キーワード検索方式
JPH06124305A (ja) * 1992-10-12 1994-05-06 Hitachi Ltd 文書検索方法
JPH0744567A (ja) * 1993-07-29 1995-02-14 Fujitsu Ltd 文書検索装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04340163A (ja) * 1991-01-28 1992-11-26 Pfu Ltd キーワード検索方式
JPH06124305A (ja) * 1992-10-12 1994-05-06 Hitachi Ltd 文書検索方法
JPH0744567A (ja) * 1993-07-29 1995-02-14 Fujitsu Ltd 文書検索装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100498574B1 (ko) * 2001-03-08 2005-07-01 주식회사 다이퀘스트 단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템
JP2011090463A (ja) * 2009-10-21 2011-05-06 Fujitsu Ltd 文書検索システム、情報処理装置およびプログラム

Also Published As

Publication number Publication date
JP3707506B2 (ja) 2005-10-19

Similar Documents

Publication Publication Date Title
US6904429B2 (en) Information retrieval apparatus and information retrieval method
US6910004B2 (en) Method and computer system for part-of-speech tagging of incomplete sentences
JP2783558B2 (ja) 要約生成方法および要約生成装置
JPH0644296A (ja) 機械翻訳装置
JPH11161682A (ja) 情報検索装置、情報検索方法及び記録媒体
JPH09198395A (ja) 文書検索装置
JPH09204437A (ja) 文書検索装置
KR101069534B1 (ko) 미등록어를 포함한 환경에서 오디오 및 비디오의 음성 데이터 검색 방법 및 장치
JP3707506B2 (ja) 文書検索装置及び文書検索方法
JPH1185766A (ja) キーワード抽出方法及び装置及びキーワード抽出プログラムを格納した記憶媒体
JP4024137B2 (ja) 数量表現検索装置
JPH10149370A (ja) 文脈情報を用いた文書検索方法および装置
JPS61248160A (ja) 文書情報登録方式
JPH06124305A (ja) 文書検索方法
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
KR20200122089A (ko) 지역 색인을 이용한 전자문서 검색 방법 및 장치
Ruiz Domingo et al. FILENG: an automatic English subtitle generator from Filipino video clips using hidden Markov model
JPH07152778A (ja) 文書検索装置
JPH0561902A (ja) 機械翻訳システム
JPS6389976A (ja) 言語解析装置
JPH0262668A (ja) 文章情報解析技法を用いた文章情報検索方式
JPH01126767A (ja) 辞書参照装置
JPH1139347A (ja) テキスト検索システム,インデックス作成装置,テキスト検索装置及びコンピュータ読み取り可能な記録媒体
JPH05225232A (ja) テキスト自動前編集装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041130

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050316

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050510

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050713

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050726

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090812

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100812

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110812

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120812

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120812

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130812

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees