JPH05298371A - 検索システム - Google Patents

検索システム

Info

Publication number
JPH05298371A
JPH05298371A JP4126848A JP12684892A JPH05298371A JP H05298371 A JPH05298371 A JP H05298371A JP 4126848 A JP4126848 A JP 4126848A JP 12684892 A JP12684892 A JP 12684892A JP H05298371 A JPH05298371 A JP H05298371A
Authority
JP
Japan
Prior art keywords
synonym
word
keyword
search
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4126848A
Other languages
English (en)
Other versions
JP3350556B2 (ja
Inventor
Yoshitane Nishimura
美苗 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP12684892A priority Critical patent/JP3350556B2/ja
Publication of JPH05298371A publication Critical patent/JPH05298371A/ja
Application granted granted Critical
Publication of JP3350556B2 publication Critical patent/JP3350556B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 文書中の丸かっこに注目し、同義語を自動的
に抽出する。 【構成】 入力手段1により入力された日本語文書は、
形態素解析手段2により単語単位に分けられ、各々の単
語には品詞が与えられ、キーワード抽出手段3で定めた
品詞に該当する単語が、キーワードとして抽出される。
この時、同義語の認定も行う。同義語の抽出は文書中の
特殊記号である丸かっこに注目して行う。抽出されたキ
ーワードと同義語情報は、キーワード・同義語ファイル
8に収められる。検索手段4は、検索語によってキーワ
ード・同義語ファイルを検索する。キーワード・同義語
ファイル7を参照したときに、検索語が同義語を持つこ
とがわかれば、その同義語を検索語ファイル7に収め、
新たに検索語とする。

Description

【発明の詳細な説明】
【0001】
【技術分野】本発明は、検索システムに関し、より詳細
には、同義語を文書より自動的に抽出して文書キーワー
ドとする自動同義語抽出手段と、検索語と文書キーワー
ドがマッチし、かつその文書キーワードが同義語を持つ
場合に、その同義語も新たな検索語として他の文書を検
索する検索手段を有する検索システムに関する。
【0002】
【従来技術】例えば、同義語辞書の自動生成同義語によ
る検索を可能にする方法を開示したものとしては、例え
ば、特開平3−14176号公報に「同義語参照による
検索装置」がある。この公報のものは、検索装置があら
かじめ同義語情報を格納している同義語ファイルを持
ち、検索語が入力されたらその同義語ファイルを参照
し、同義語があればそれも検索語とするものである。ま
た、特開平3−15980号公報の「文字列検索のため
の異表記及び同義語展開方法」は、検索装置へのユーザ
の入力語を異表記展開し、また同義語辞書を使って同義
語展開する。それによって違う表記や同義語による検索
可能とするものである。しかしながら、前記2つの公報
のものは、同義語ファイルや同義語辞書が必要である
が、その作成や保守が容易でないという欠点がある。
【0003】また、特開平2−148265号公報の
「自動索引システム」は、文書を形態素解析した後、格
助詞のつく名詞を取り出してキーワードとするものであ
る。しかしながら、品詞情報や文字列の特徴を利用して
キーワードを抽出しているが、キーワードとキーワード
の関係に関する情報は保持していない。
【0004】
【目的】本発明は、上述のごとき実情に鑑みてなされた
もので、文書中の特殊記号である丸かっこに注目し、そ
の前後の語句が同義語であることが多いのを利用して同
義語を自動的に抽出し、また、検索時に同義語ファイル
あるいは辞書を参照するステップ無しで、同義語による
検索を可能にする検索システムを提供することを目的と
してなされたものである。
【0005】
【構成】本発明は、上記目的を達成するために、(1)
日本語文書を入力する入力手段と、該入力手段により入
力された文書を単語単位に分け、各々の単語に品詞を与
える形態素解析手段と、該形態素解析手段により与えら
れた品詞に該当する単語列をキーワードとして抽出し、
同義語の認定を行うキーワード・同義語抽出手段とから
成り、該同義語抽出手段が文書中に現れる特殊記号を用
いることにより同義語候補を抽出すること、更には、
(2)前記(1)において、抽出した同義語候補の素性
情報を用いることにより、同義語の誤認定の候補を少な
くすること、更には、(3)前記(1)又は(2)にお
いて、抽出した語が同義語であることを記憶する記憶手
段を有すること、更には、(4)前記(1)において、
検索語により検索する検索手段を有し、該検索語と文書
キーワードがマッチし、かつ該文書キーワードに同義語
がある場合に、該同義語をあらたに検索語として他の文
書を検索することを特徴としたものである。以下、本発
明の実施例に基づいて説明する。
【0006】図1は、本発明による検索システムの一実
施例を説明するための構成図で、図中、1は文書入力手
段、2は形態素解析手段、3はキーワード・同義語抽出
手段、4は検索手段、5は出力手段、6は検索語入力手
段、7は検索語ファイル、8はキーワード・同義語ファ
イル、9は文書ファイルである。入力装置1により入力
された日本語文書は、形態素解析手段2により単語単位
に分けられ、それぞれの単語には品詞が与えられる。キ
ーワード抽出手段3においては、名詞,固有名詞,複合
名詞構成素など、定めた品詞(列)に該当する単語
(列)がキーワードとして抽出される。この処理中、同
義語の認定も行う。抽出されたキーワードと同義語情報
は、キーワード・同義語ファイル8に文書ごとに収めら
れる。検索手段4においては、検索語入力手段6より入
力された検索語によってキーワード・同義語ファイル8
を検索し、検索結果として文書データファイル9から文
書を出力する。キーワード・同義語ファイル8を参照し
たときに検索語が同義語を持つことがわかれば、その同
義語を検索語ファイル7に収め、新たに検索語とする。
【0007】図2は、キーワード抽出と同義語認定手段
の動作を説明するためのフローチャートである。以下、
各ステップに従って順に説明する。カウンターnの初期
値を0に、同義語認定処理フラグfはオフにしておく
(step1)。一語ずつ語をとり(step2,3)、キーワ
ードになるかは、品詞情報により判断する(step4)。
キーワードとなる語は、一般名詞,固有名詞,複合名詞
と、辞書未登録語だが名詞類と推定された語である。複
合名詞は、一般名詞と接辞などの複合名詞構成素から成
る。語がキーワードになる語である間、その語をスタッ
クに入れ、カウンターnに1を加えることを繰り返す
(step5)。語が名詞類または複合名詞構成素でなくな
ったら、スタックに積まれている語を取り出し、キーワ
ードとする(step7)。
【0008】取った語が開きかっこの時(step12)、
同義認定処理フラグを立て(step13)、次の語を取っ
てキーワード抽出処理を繰り返す。キーワードとして抽
出した語が開きかっこに先立たれている場合(つまり、
同義語処理認定フラグfが1の場合)(step8)、その
キーワードが同義語素性マイナスを持つ語を含むかどう
か辞書情報(図4)を参照して調べ(step9)、マイナ
スの素性があれば同義語とは認定せず、同義語処理フラ
グをオフにする(step11)。同義語素性マイナスの語
は数詞,地名などである。同義語素性マイナスの語が含
まれなければ、同義語と認定する(step10)。その語
を開き丸かっこの直前の語の同義語としてキーワード・
同義語テーブルに記録する。図5に示すように、相互に
同義語であるとわかるように記録する。キーワード抽出
処理を、さらに語を一つずつ取って進める。
【0009】図3は、検索手段の動作を説明するための
フローチャートである。以下、各ステップに従って順に
説明する。検索時には、検索手段が検索者の入力した検
索語と、文書キーワード・同義語ファイル中のキーワー
ド(すなわち、文書インデックス)とのマッチングを行
う。キーワードは文書ごとにつけられ、このファイルに
保持されている。始めに検索語種類識別フラグfを1に
しておく(step1)。マッチングにより、検索語がある
文書のキーワードと一致していることがわかった場合
(step5)、その文書番号を記憶し(step6)、後でそ
の文書を検索結果として文書データから取り出す。ま
た、その文書キーワードが同義語を持つかどうか同義語
の欄をチェックする(step8)。もしあれば、その同義
語を新たな検索語として検索語ファイルに保持する(st
ep9)。検索語種類識別フラグfを2にする(step1
0)。
【0010】検索者の入力した検索語と文書キーワード
とのマッチングが終わった後(step2)、検索語ファイ
ルに同義語があれば(つまり、フラグの値が2であれ
ば)(step3)、その同義語を新たな検索語として(st
ep4)、再び検索を行う(step2,5)。すなわち、新
しい検索語と文書キーワード・同義語ファイル中のキー
ワードとのマッチングを再び行う。この時、すでに最初
の検索語によってマッチされ、検索結果として得られた
文書は、対象から除外する。また、文書キーワード・同
義語ファイルの同義語欄を参照することはしないで、マ
ッチングだけを繰り返す(step7)。もし参照した場
合、得られる同義語は検索者の最初に入力した検索語に
なるからである。以下に同義語認定処理の実施例を示
す。
【0011】実施例1 「RC総合研究所(本社東京、社長高原○×氏、資本金
八億五百万円)」「RC総合研究所」が固有名詞である
ため(図2−step4)、スタックに積みカウンターを1
とする(図2−step6)。次の語が開きかっこで、名詞
類,複合名詞構成要素ではないので、スタックに積んで
ある「RC総合研究所」を取り出し、キーワードとする
(図2−step7)。開きかっこがあったので、同義語認
定処理フラグを立てる(図2−step12,13)。さら
に、次の語「本社」,「東京」が名詞なので、スタック
に順に積み(図2−step4,5)、次の語「、」が名詞
類または複合名詞構成素ではないので(図2−step
4)、スタックに積まれた「本社東京」をキーワードと
して取り出す(図2−step7)。同義語認定処理フラグ
がオンになっているので(図2−step8)、「本社東
京」が同義語素性マイナス(−)を持つ語を含んでいる
か辞書を参照して調べ(図2−step9,図4)、辞書に
同義語素性マイナスが記述されているので同義語としな
い。同義語認定処理フラグをオフにして、同義語認定処
理を終わる(図2−step11)。キーワード抽出処理は
さらに語を一つずつ取って進める(図2−step1)。
【0012】実施例2 「テック・アメリカ社(カリフォルニア州)」「テック
・アメリカ社」が固有名詞であり、キーワードとして抽
出される。次の語が開きかっこなので、同義語認定処理
用フラグを立てる。次の語「カリフォルニア」が名詞で
あり、キーワードとしては抽出するが、地名は同義語候
補とはしないので、同義語とはせず、同義語認定処理を
終わる。
【0013】実施例3 「四千百二十万円(消費税込み)」「四千百二十万円」
は開きかっこに先立つが、数詞や助数詞「円」は名詞類
ではないのでキーワードとしない。同義語認定処理も行
わない。
【0014】実施例4 「ブレイル・ブレーザー(三十八万円、消費税別)」
「ブレイル・ブレーザー」が固有名詞なので、スタック
に入れる。カウンターを1とする。次の語が開きかっこ
なので(図2−step4)、スタックに積んであった「ブ
レイル・ブレーザー」をキーワードとして抽出し、カウ
ンターは0に戻す(図2−step7)。開きかっこがあっ
たので、同義語認定処理用フラグを立てる(図2−step
12,13)。次の語「三十八」は数詞なのでキーワー
ドとしない。カウンターnが0なので(図2−step
6)、図2のstep11に進み、同義語認定処理用フラグ
をオフにし、同義語認定処理は終わる。キーワード抽出
処理は、図2のstep1に戻り続ける。
【0015】実施例5 「公衆網ではATM(非同期転送モード)交換機、企業
向けでは、」「ATM」が一般名詞なのでキーワードと
する(図2−step7)。次の語をとり、開きかっこなの
で同義語認定処理用フラグを立てる(図2−step1
3)。次の語を取り、キーワード条件を満たすか調べ
る。「非」は接辞で、複合名詞の構成素なのでスタック
に入れ、次の語をとる。「同期」,「転送」,「モード」
までが名詞なので、スタックに順に入れる。次の語が閉
じかっこで、名詞類または複合名詞類ではないので、
「非同期転送モード」をスタックから取り出し、キーワ
ードとする(図2−step7)。同義語認定処理フラグが
立っているので、キーワードの構成語が同義語マイナス
素性を持つか辞書を参照して調べる。持たないので「A
TM」の同義語であると認定する。図5に示すように、
キーワード・同義語テーブルにこの関係を記録する。
又、「… 非同期転送モード(ATM)交換機 …」にお
いて、「ATM」が未登録語であるときは同義語マイナ
ス素性があるかどうか判断がつかない。このときは、消
極的意味において同義語マイナス素性を持たないと判断
し、「ATM」を「非同期転送モード」の同義語と認定
するようにする。以下に、上記「ATM(非同期転送モ
ード)」を例にとって、同義語による検索の実施例を示
す。
【0016】「ATM」という検索語に対し、キーワー
ド・同義語ファイルを照合すると(図3−step2,
5)、「非同期転送モード」が同義語であることがわか
る(図3−step8,図5)。これを検索語ファイルに保
持する(図3−step9)。検索語識別フラグfを2にす
る(step10)。「ATM」による検索が終わったら
(図3−step2)、検索語識別フラグfが2になってい
るので、検索語ファイルに保持された同義語「非同期転
送モード」を取り(図3−step4)、文書キーワード・
同義語ファイル中に一致するキーワードがあるかどうか
調べる(図3−step2,5)。この時、検索語識別フラ
グfが1ではないので、「非同期転送モード」に対して
同義語「ATM」があるが、これを再び検索語とするこ
とはしない(図3−step7)。この結果、検索語を「A
TM」と指定するだけで「非同期転送モード」は現われ
るが、「ATM」は現われない文書も検索結果として得
ることができる。キーワード・同義語ファイルに保持し
た同義語を検索者に示し、その語でも検索を行いたいか
確認を求め、行う必要があると検索者が要求したときの
み、その語による検索を実施するようにすることも可能
である。
【0017】
【効果】以上の説明から明らかなように、本発明による
と、以下のような効果がある。 (1)請求項1に対応する効果:文書中に現われる特殊
記号である丸かっこを用いることにより、自動的に同義
語候補を抽出することができるので、同義語辞書をあら
かじめ作成する必要がない。 (2)請求項2に対応する効果:同義語候補を開き丸か
っこに続くキーワードと限定し、しかも、その中から同
義語にはならない語は除外するので、同義語の誤認定を
防ぐことができる。 (3)請求項3に対応する効果:開き丸かっこの両側に
ある語が同義語である場合に、そのことを記憶するの
で、検索語の同義語を自動的に参照することができる。 (4)請求項4に対応する効果:検索者による検索語の
同義語の入力が不要なため、より少ない労力で漏れの少
ない検索結果を得ることができる。
【図面の簡単な説明】
【図1】 本発明による検索システムの一実施例を説明
するための構成図である。
【図2】 本発明によるキーワード抽出と同義語認定処
理手段のフローチャートである。
【図3】 本発明による検索手段のフローチャートであ
る。
【図4】 本発明による辞書の一例を示す図である。
【図5】 本発明によるキーワード・同義語ファイルの
一例を示す図である。
【符号の説明】
1…文書入力手段、2…形態素解析手段、3…キーワー
ド・同義語抽出手段、4…検索手段、5…出力手段、6
…検索語入力手段、7…検索語ファイル、8…キーワー
ド・同義語ファイル、9…文書ファイル。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 日本語文書を入力する入力手段と、該入
    力手段により入力された文書を単語単位に分け、各々の
    単語に品詞を与える形態素解析手段と、該形態素解析手
    段により与えられた品詞に該当する単語列をキーワード
    として抽出し、同義語の認定を行うキーワード・同義語
    抽出手段とから成り、該同義語抽出手段が文書中に現れ
    る特殊記号を用いることにより同義語候補を抽出するこ
    とを特徴とする検索システム。
  2. 【請求項2】 抽出した同義語候補の素性情報を用いる
    ことにより、同義語の誤認定の候補を少なくすることを
    特徴とする請求項1記載の検索システム。
  3. 【請求項3】 抽出した語が同義語であることを記憶す
    る記憶手段を有することを特徴とする請求項1又は2記
    載の検索システム。
  4. 【請求項4】 検索語により検索する検索手段を有し、
    該検索語と文書キーワードがマッチし、かつ該文書キー
    ワードに同義語がある場合に、該同義語をあらたに検索
    語として他の文書を検索することを特徴とする請求項1
    記載の検索システム。
JP12684892A 1992-04-20 1992-04-20 検索システム Expired - Fee Related JP3350556B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP12684892A JP3350556B2 (ja) 1992-04-20 1992-04-20 検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP12684892A JP3350556B2 (ja) 1992-04-20 1992-04-20 検索システム

Publications (2)

Publication Number Publication Date
JPH05298371A true JPH05298371A (ja) 1993-11-12
JP3350556B2 JP3350556B2 (ja) 2002-11-25

Family

ID=14945361

Family Applications (1)

Application Number Title Priority Date Filing Date
JP12684892A Expired - Fee Related JP3350556B2 (ja) 1992-04-20 1992-04-20 検索システム

Country Status (1)

Country Link
JP (1) JP3350556B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07152778A (ja) * 1993-11-29 1995-06-16 Sanyo Electric Co Ltd 文書検索装置
JP2002140330A (ja) * 2001-09-12 2002-05-17 Matsushita Electric Ind Co Ltd 文書検索システム
JP2006190044A (ja) * 2005-01-05 2006-07-20 Ricoh Co Ltd 関連文字列生成装置、プログラム、及び記憶媒体
JP2007233446A (ja) * 2006-02-27 2007-09-13 Oki Electric Ind Co Ltd 同義語対抽出装置及び同義語対抽出方法
JP2009538444A (ja) * 2006-05-25 2009-11-05 マルチモダル テクノロジーズ,インク. 音声認識方法
JP2010267047A (ja) * 2009-05-14 2010-11-25 Ntt Data Corp 類義語辞書構築装置及び方法、コンピュータプログラム
JP2012525645A (ja) * 2009-04-29 2012-10-22 アリババ グループ ホールディング リミテッド 知識ベース構築の方法および装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07152778A (ja) * 1993-11-29 1995-06-16 Sanyo Electric Co Ltd 文書検索装置
JP2002140330A (ja) * 2001-09-12 2002-05-17 Matsushita Electric Ind Co Ltd 文書検索システム
JP2006190044A (ja) * 2005-01-05 2006-07-20 Ricoh Co Ltd 関連文字列生成装置、プログラム、及び記憶媒体
JP2007233446A (ja) * 2006-02-27 2007-09-13 Oki Electric Ind Co Ltd 同義語対抽出装置及び同義語対抽出方法
JP2009538444A (ja) * 2006-05-25 2009-11-05 マルチモダル テクノロジーズ,インク. 音声認識方法
US8515755B2 (en) 2006-05-25 2013-08-20 Mmodal Ip Llc Replacing text representing a concept with an alternate written form of the concept
JP2012525645A (ja) * 2009-04-29 2012-10-22 アリババ グループ ホールディング リミテッド 知識ベース構築の方法および装置
JP2010267047A (ja) * 2009-05-14 2010-11-25 Ntt Data Corp 類義語辞書構築装置及び方法、コンピュータプログラム

Also Published As

Publication number Publication date
JP3350556B2 (ja) 2002-11-25

Similar Documents

Publication Publication Date Title
US6101492A (en) Methods and apparatus for information indexing and retrieval as well as query expansion using morpho-syntactic analysis
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JP2783558B2 (ja) 要約生成方法および要約生成装置
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JP3173411B2 (ja) 関連文書検索装置及び関連文書検索プログラムを記録した記録媒体
JPH05298371A (ja) 検索システム
JP3544749B2 (ja) キーワード自動抽出装置
JP2003150624A (ja) 情報抽出装置および情報抽出方法
US7797152B1 (en) Method of database searching
US7761286B1 (en) Natural language database searching using morphological query term expansion
JPH08171569A (ja) 文書検索装置
JPH09204437A (ja) 文書検索装置
JPH10149370A (ja) 文脈情報を用いた文書検索方法および装置
JPH08263521A (ja) 文書登録検索システム
JP3253657B2 (ja) 文書検索方法
KR20020054254A (ko) 사전구조를 이용한 한국어 형태소 분석방법
JPS5856071A (ja) 日本語による検索システム
JPS61248160A (ja) 文書情報登録方式
JP2002183195A (ja) 概念検索方式
JP3666066B2 (ja) 多言語文書登録検索装置
KR20020003701A (ko) 디지털 문서의 키워드를 자동으로 추출하는 방법
JPH07296005A (ja) 日本語テキスト登録・検索装置
JP2008203997A (ja) 文書検索装置及びプログラム
JPS63136224A (ja) キ−ワ−ド自動抽出装置
JP2001195427A (ja) デジタルドキュメントのキー特徴の自動抽出方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080913

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080913

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090913

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees