JP3707506B2 - 文書検索装置及び文書検索方法 - Google Patents

文書検索装置及び文書検索方法 Download PDF

Info

Publication number
JP3707506B2
JP3707506B2 JP15676496A JP15676496A JP3707506B2 JP 3707506 B2 JP3707506 B2 JP 3707506B2 JP 15676496 A JP15676496 A JP 15676496A JP 15676496 A JP15676496 A JP 15676496A JP 3707506 B2 JP3707506 B2 JP 3707506B2
Authority
JP
Japan
Prior art keywords
document
keyword
index
search
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP15676496A
Other languages
English (en)
Other versions
JPH103481A (ja
Inventor
昌一 舘野
博 増市
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP15676496A priority Critical patent/JP3707506B2/ja
Publication of JPH103481A publication Critical patent/JPH103481A/ja
Application granted granted Critical
Publication of JP3707506B2 publication Critical patent/JP3707506B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、キーワード検索方式の文書検索装置に関するものである。
【0002】
【従来の技術】
膨大な量の文書を対象とした検索を行なう検索方式として、キーワード検索方式が一般に用いられている。キーワード検索方式では、検索対象となる文書から予めキーワードとなり得る語を抽出し、通常、インデックスファイルと呼ばれるファイルに登録する。インデックスファイルには、キーワードとそのキーワードが出現する文書名、文書中の位置等の情報が対になって記録される。検索時には、求める文書を指定すべく入力された語と一致するキーワードをインデックス中から探し出し、その文書名あるいは文書中の位置情報を得ることにより、高速に文書を検索することができる。
【0003】
文書中からキーワードを抽出する方法としては、人手によって抽出する方法と、形態素解析に代表されるキーワード抽出手法を用いた自動抽出による方法とを挙げることができる。キーワード抽出の時間的なコストの観点からは、自動抽出による方法が有利であるといえる。
【0004】
キーワード検索方式の問題は、所望の文書を指定するために入力する語が、インデックスファイルに登録されているキーワードと完全に等しいものでなければならず、適切な入力語の指定が容易でない点である。
【0005】
この問題点を解決するため、例えば、特開平7−182370号公報では、所望の文書を指定するための入力として文章を許す。指定された文章からキーワードを自動抽出し、得られたキーワードとインデックスファイル中に登録されているキーワードを比較することによって、所望の文書を得ることができる。この方式によれば、所望の文書を指定するための入力がインデックスファイル中の語と完全に一致しない場合でも、入力文章中に含まれる語が一致すれば所望の文書を得ることが可能となり、上記の問題点を解決することができる。例えば、入力として「A社で発売した複写機を知りたい」を指定した場合、キーワード「A社」、「発売」、「複写機」が自動抽出され、それらのキーワードをともに含む文書を検索する。
【0006】
しかしながら、形態素解析を含むキーワードの自動抽出技術では、抽出されるキーワードが文脈に依存する。そのため、上述の文献のように文書を指定する文章から形態素解析によりキーワードを抽出すると、検索者の意図と異なるキーワードが抽出され、検索漏れが多くなるという問題がある。例えば、検索対象文書中に「A社系列車」という記述が存在し、インデックスファイルを作成する際のキーワード抽出により、「A社系」と「列車」が抽出され、登録されているとする。ここで、検索者がこの文書を検索したいと考え、「A社系列」を指定したとする。上述の文献のように形態素解析を行なえば、これから「A社」と「系列」を自動抽出し、検索を行なうことがあり得る。この場合、所望の文書を得ることはできない。
【0007】
【発明が解決しようとする課題】
本発明は、上述した事情に鑑みてなされたもので、検索対象の文書中から所望の文書が得られる可能性を高めた文書検索装置を提供することを目的とするものである。
【0008】
【課題を解決するための手段】
請求項1に記載の発明は、文書検索装置において、複数の文書を格納する文書格納手段と、該文書格納手段に格納されている各文書から予め抽出されたキーワードとともに該キーワードが存在する文書名を記録したインデックスファイルを格納するインデックス格納手段と、検索対象を指定すべく入力された文章を解析してキーワードを抽出する抽出手段と、該抽出手段により抽出されたキーワードと前記インデックス格納手段に格納されているインデックスファイル中のキーワードとを比較して検索対象の文書を特定する特定手段と、該特定手段により特定された前記文書を前記文書格納手段から読み出して出力する出力手段を有し、前記抽出手段は、前記インデックス格納手段に格納されているインデックスファイル中に存在するキーワード情報を用いた解析を行なってキーワードを抽出することを特徴とするものである。
【0009】
請求項2に記載の発明は、請求項1に記載の文書検索装置において、前記抽出手段は、さらに、前記インデックス格納手段に格納されているインデックスファイル中に存在するキーワード情報を用いずに解析を行なって前記文章からキーワードを抽出することを特徴とするものであり、請求項3に記載の発明は、請求項1に記載の文書検索装置において、第1および第2の語彙辞書と、該第1の語彙辞書を用いて前記文書格納手段に格納されている文書を解析してキーワードを抽出し前記インデックスファイルを作成するとともに抽出したキーワードを前記第2の語彙辞書に追加するインデックス作成手段をさらに有し、前記抽出手段は、前記第2の語彙辞書を用いて前記文章の解析を行ないキーワードを抽出することを特徴とするものである。
【0010】
請求項4に記載の発明は、文書検索方法において、文書検索装置による文書検索方法において、前記文書検索装置が備えるインデックス格納手段が文書格納手段に格納されている複数の文書のそれぞれから予め抽出されたキーワードとともに該キーワードが存在する文書名を記録したインデックスファイルを格納しておくステップと、前記文書検索装置が備える抽出手段が検索対象を指定すべく入力された文章について前記インデックス格納手段に格納されている前記インデックスファイル中に存在するキーワード情報を用いた解析を行なってキーワードを抽出するステップと、前記文書検索装置が備える特定手段が抽出された前記キーワードと前記インデックスファイル中のキーワードとを比較して検索対象の文書を特定するステップと、前記文書検索装置が備える出力手段が特定された前記文書を前記文書格納手段から読み出して出力するステップを実行することを特徴とするものである。
【0011】
【発明の実施の形態】
図1は、本発明の文書検索装置の実施の一形態を示す構成図である。図中、1は入力部、2は文書格納部、3は形態素解析部、4はインデックス格納部、5は特定部、6は出力部、11は名詞辞書格納部、12は登録名詞辞書格納部である。この実施の一形態では、キーワードとして抽出し、インデックスファイルに登録する語を名詞としているが、形容詞、動詞等もキーワードの対象とすることは容易に可能である。
【0012】
入力部1は、検索者が所望の文書を指定するための文章を入力することができるユーザインタフェースを有する。入力された文書を指定するための文章は形態素解析部3に送られる。
【0013】
文書格納部2は、検索対象となる複数の文書を格納する。
【0014】
形態素解析部3は、文書格納部2中に格納されている文書および入力部1に入力された文章に対して形態素解析処理を施し、キーワードを抽出する。形態素解析部3は、文書格納部2中に格納されている文書を解析する際に用いられる名詞辞書を格納した名詞辞書格納部11と、文書から抽出したキーワードが格納され、検索するための文章の解析に用いられる登録名詞辞書格納部12を有している。このほか、形態素解析部3は、形態素解析を実行するために必要な、文法辞書および名詞辞書以外の各種語彙の辞書等も含んでいる。
【0015】
形態素解析部3は、文書格納部2中に格納されている文書を解析する場合は、名詞辞書格納部11中の名詞辞書を用いて行なう。文書を解析して抽出したキーワードと、そのキーワードを含む文書名などを記録してインデックスファイルを作成し、インデックス格納部4に追加格納する。さらに、インデックスファイル中に登録したキーワードを登録名詞辞書格納部32に格納されている辞書に追加する。
【0016】
また、入力部1から入力された文章を解析する際には、まず登録名詞辞書格納部12中の名詞辞書を用いて解析してキーワードを抽出し、特定部5に送る。その後、名詞辞書格納部11中の名詞辞書を用いて解析し、キーワードを抽出して特定部5に送る。
【0017】
名詞辞書格納部11は、形態素解析に必要な名詞語彙を記述した辞書を格納している。格納される名詞辞書は、形態素解析部3が文書格納部2に格納されている文書および入力部1から入力された文章の解析を行なう際に参照される。
【0018】
登録名詞辞書格納部12は、形態素解析部3が文書格納部2中の文書を解析した結果得られたキーワードを記述した辞書が格納される。この名詞辞書は、入力部1から入力された文章を形態素解析部3が解析を行なう際に参照される。辞書中に存在する名詞はインデックス格納部4に格納されるインデックスファイル中のキーワードと一致している。
【0019】
インデックス格納部4は、形態素解析部3の解析処理によって文書格納部2中に格納されている文書から得られたキーワードと各キーワードを含む文書名などを記録したインデックスファイルを格納する。
【0020】
特定部5は、形態素解析部3の解析処理によって入力部1に入力された文章から得られたキーワードをすべて含む文書を、インデックス格納部4中のインデックスファイルを参照することによって、文書格納部2中から特定する。
【0021】
出力部6は、特定部5によって特定された文書を検索結果として検索者に表示するユーザインタフェースを持つ。
【0022】
図2は、本発明の文書検索装置の実施の一形態における形態素解析部3の動作の一例を示すフローチャートである。S21において、解析対象となる文を受け取り、S22において、その文が文書格納部2中の文書であれば、まずS23で名詞辞書格納部11中の名詞辞書を用いて形態素解析を行ない、キーワードを抽出する。次にS24において、得られたキーワードとともにキーワードを含む文書名を記録してインデックスファイルとし、インデックス格納部4に追加格納する。さらに、S25において、インデックスファイルに登録したキーワードを登録名詞辞書格納部12に格納されている名詞辞書に追加する。したがって、登録名詞辞書格納部32に格納されている辞書中に存在する名詞はインデックス格納部4に格納されるインデックスファイル中のキーワードと一致している。
【0023】
S21で受け取った検索対象となる文が入力部1に入力された文章であれば、まずS26において、登録名詞辞書格納部12中の名詞辞書を用いて形態素解析を行ない、キーワードを抽出する。そして、S27において、その結果を特定部5に通知することによって、検索結果を得る。さらに、S28において、名詞辞書格納部11中の名詞辞書を用いて形態素解析を行なってキーワードを抽出し、S29でその結果を特定部5に通知することによって、さらに検索結果を得る。検索結果は出力部6より出力される。
【0024】
このように、登録名詞辞書格納部12中の名詞辞書を用いて形態素解析を行ない、キーワードを抽出することによって、キーワード検索のヒット率を高めることができる。また、その後、通常の名詞辞書格納部11中の名詞辞書を用いて形態素解析を行ない、キーワードを抽出することによって、さらに漏れの少ない検索が可能となる。
【0025】
例えば、検索対象文書中に「A社系列車」という記述が存在し、インデックスファイル作成時のキーワード抽出により、「A社系」と「列車」が抽出され、インデックスファイルに登録されているとする。ここで、検索者がこの文書を検索したいと考え、入力部1から「A社系列」を指定したとする。形態素解析部3は登録名詞辞書格納部12中の名詞辞書を用いて形態素解析処理を行なう。登録名詞辞書格納部12中の名詞辞書には、文書から抽出した「A社系」が登録されているので、指定された「A社系列」の解析により登録されている語「A社系」と未登録語「列」に分割され、キーワード「A社系」が得られる。これにより、所望の文書を検索することが可能となる。
【0026】
【発明の効果】
以上の説明から明らかなように、本発明によれば、実際にインデックスファイル中に登録されているキーワードを優先して、入力文章からのキーワード抽出を行なうことが可能となる。したがって、キーワードの自動抽出による検索の欠点である、キーワード抽出時の形態素解析の文脈依存による検索漏れを防ぎ、ヒット率の高い検索を実現することが可能であるという効果がある。さらに、通常の辞書を用いた入力文章からのキーワード抽出を行なうことにより、検索漏れを減少させることができる。
【図面の簡単な説明】
【図1】 本発明の文書検索装置の実施の一形態を示す構成図である。
【図2】 本発明の文書検索装置の実施の一形態における形態素解析部3の動作の一例を示すフローチャートである。
【符号の説明】
1…入力部、2…文書格納部、3…形態素解析部、4…インデックス格納部、
5…特定部、6…出力部、11…名詞辞書格納部、12…登録名詞辞書格納部

Claims (4)

  1. 複数の文書を格納する文書格納手段と、該文書格納手段に格納されている各文書から予め抽出されたキーワードとともに該キーワードが存在する文書名を記録したインデックスファイルを格納するインデックス格納手段と、検索対象を指定すべく入力された文章を解析してキーワードを抽出する抽出手段と、該抽出手段により抽出されたキーワードと前記インデックス格納手段に格納されているインデックスファイル中のキーワードとを比較して検索対象の文書を特定する特定手段と、該特定手段により特定された前記文書を前記文書格納手段から読み出して出力する出力手段を有し、前記抽出手段は、前記インデックス格納手段に格納されているインデックスファイル中に存在するキーワード情報を用いた解析を行なってキーワードを抽出することを特徴とする文書検索装置。
  2. 前記抽出手段は、さらに、前記インデックス格納手段に格納されているインデックスファイル中に存在するキーワード情報を用いずに解析を行なって前記文章からキーワードを抽出することを特徴とする請求項1に記載の文書検索装置。
  3. 第1および第2の語彙辞書と、該第1の語彙辞書を用いて前記文書格納手段に格納されている文書を解析してキーワードを抽出し前記インデックスファイルを作成するとともに抽出したキーワードを前記第2の語彙辞書に追加するインデックス作成手段をさらに有し、前記抽出手段は、前記第2の語彙辞書を用いて前記文章の解析を行ないキーワードを抽出することを特徴とする請求項1に記載の文書検索装置。
  4. 文書検索装置による文書検索方法において、前記文書検索装置が備えるインデックス格納手段が文書格納手段に格納されている複数の文書のそれぞれから予め抽出されたキーワードとともに該キーワードが存在する文書名を記録したインデックスファイルを格納しておくステップと、前記文書検索装置が備える抽出手段が検索対象を指定すべく入力された文章について前記インデックス格納手段に格納されている前記インデックスファイル中に存在するキーワード情報を用いた解析を行なってキーワードを抽出するステップと、前記文書検索装置が備える特定手段が抽出された前記キーワードと前記インデックスファイル中のキーワードとを比較して検索対象の文書を特定するステップと、前記文書検索装置が備える出力手段が特定された前記文書を前記文書格納手段から読み出して出力するステップを実行することを特徴とする文書検索方法。
JP15676496A 1996-06-18 1996-06-18 文書検索装置及び文書検索方法 Expired - Fee Related JP3707506B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP15676496A JP3707506B2 (ja) 1996-06-18 1996-06-18 文書検索装置及び文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP15676496A JP3707506B2 (ja) 1996-06-18 1996-06-18 文書検索装置及び文書検索方法

Publications (2)

Publication Number Publication Date
JPH103481A JPH103481A (ja) 1998-01-06
JP3707506B2 true JP3707506B2 (ja) 2005-10-19

Family

ID=15634809

Family Applications (1)

Application Number Title Priority Date Filing Date
JP15676496A Expired - Fee Related JP3707506B2 (ja) 1996-06-18 1996-06-18 文書検索装置及び文書検索方法

Country Status (1)

Country Link
JP (1) JP3707506B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100498574B1 (ko) * 2001-03-08 2005-07-01 주식회사 다이퀘스트 단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템
JP5418138B2 (ja) * 2009-10-21 2014-02-19 富士通株式会社 文書検索システム、情報処理装置およびプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH081642B2 (ja) * 1991-01-28 1996-01-10 株式会社ピーエフユー キーワード検索方式
JPH06124305A (ja) * 1992-10-12 1994-05-06 Hitachi Ltd 文書検索方法
JP3023943B2 (ja) * 1993-07-29 2000-03-21 富士通株式会社 文書検索装置

Also Published As

Publication number Publication date
JPH103481A (ja) 1998-01-06

Similar Documents

Publication Publication Date Title
US6910004B2 (en) Method and computer system for part-of-speech tagging of incomplete sentences
JP6813591B2 (ja) モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、及びプログラム
KR100453227B1 (ko) 번역 지원 시스템에서의 유사 문장 검색 방법
US6115683A (en) Automatic essay scoring system using content-based techniques
US6662152B2 (en) Information retrieval apparatus and information retrieval method
US20070198511A1 (en) Method, medium, and system retrieving a media file based on extracted partial keyword
JPH0644296A (ja) 機械翻訳装置
JPH09204437A (ja) 文書検索装置
JP3707506B2 (ja) 文書検索装置及び文書検索方法
KR101069534B1 (ko) 미등록어를 포함한 환경에서 오디오 및 비디오의 음성 데이터 검색 방법 및 장치
KR100617317B1 (ko) 복합 명사 전문용어 사전 엔트리의 재분석 방법 및 그 장치
JPS61248160A (ja) 文書情報登録方式
KR20020054254A (ko) 사전구조를 이용한 한국어 형태소 분석방법
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JPH06124305A (ja) 文書検索方法
KR101014661B1 (ko) 멀티미디어 콘텐츠 관리 시스템 및 그 방법
JPS6389976A (ja) 言語解析装置
JPH0262668A (ja) 文章情報解析技法を用いた文章情報検索方式
KR100400222B1 (ko) 선택 제한을 위한 동적 의미 분류 방법 및 장치
Chanod Natural language processing and digital libraries
JPH0749872A (ja) キーワード自動抽出方式
JPH0225973A (ja) 機械翻訳装置
JPH05225232A (ja) テキスト自動前編集装置
JPH03161865A (ja) 文章の検索方法
JPS6395570A (ja) 言語解析方式

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041130

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050316

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050510

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050713

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050726

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090812

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100812

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110812

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120812

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120812

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130812

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees