JPH01185724A - 検索装置 - Google Patents

検索装置

Info

Publication number
JPH01185724A
JPH01185724A JP63010276A JP1027688A JPH01185724A JP H01185724 A JPH01185724 A JP H01185724A JP 63010276 A JP63010276 A JP 63010276A JP 1027688 A JP1027688 A JP 1027688A JP H01185724 A JPH01185724 A JP H01185724A
Authority
JP
Japan
Prior art keywords
search
word
words
information
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63010276A
Other languages
English (en)
Other versions
JP2854000B2 (ja
Inventor
Motohiko Hasegawa
長谷川 元彦
Tsuguro Sonoda
園田 嗣朗
Toshiaki Bungoya
豊後屋 寿昭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
M C WAADE CENTER KK
Original Assignee
M C WAADE CENTER KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by M C WAADE CENTER KK filed Critical M C WAADE CENTER KK
Priority to JP63010276A priority Critical patent/JP2854000B2/ja
Publication of JPH01185724A publication Critical patent/JPH01185724A/ja
Application granted granted Critical
Publication of JP2854000B2 publication Critical patent/JP2854000B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、文字情報が蓄積された記憶装置から、必要な
情報を自然言語形式の質問文を入力することにより検索
する検索装置に関する。特に自然言語形式の文書情報が
蓄積された記憶装置の検索装置に関する。本発明の検索
装置は文字情報が蓄積されたデータベースの検索に利用
できるだけでなく、一般のワードプロセッサやオフィス
コンビ二一夕等の記憶装置に蓄積された文字情報の検索
に利用できる。
〔概要〕
本発明は、記憶装置に記憶された検索対象となる文字情
報を自然言語形式で入力された質問文から検索を行う検
索装置において、 自然言語形式で入力された質問文から検索に使用すべき
キーワードを抽出し、そのキーワードについて検索対象
情報に対して不用語であるか、同義語、類義語あるいは
異なる形態等があるかの解析処゛理を行ったのち検索を
行うことにより、自然言語形式による検索の精度と効率
を向上させ、さらに、通常のOA用情報処理装置等で作
成され記憶された情報を手軽に検索できるようにするも
のである。
〔従来の技術〕
文字情報あるいは図形情報を含む文字情報を蓄積してデ
ータベースを構成し、これをホストコンピュータに接続
される端末装置から、検索式を入力することにより、必
要なデータを取り出すデータベースシステムが構築され
ている。
このデータベースシステムには、データベースから必要
な情報を検索する場合に、質問式を論理式で構成された
検索式を直接端末装置から入力するのではなく、自然言
語形式で質問式を入力して、その質問式から必要なキー
ワードとなる単語を抽出して検索を行う自然言語情報検
索処理方式のものも存在している。
また、オフィスでは各種の情報処理装置により各種の文
書が作成され、その記憶装置に文字情報の形で蓄積され
ている。
〔発明が解決しようとする問題点〕
しかし、従来の自然言語形式の質問文によるデータベー
ス検索には次の問題があった。
まず、統制語といわれるデータベースに登録済の単語で
しかそのデータベースを検索することができないので、
検索者は、質問文を作成入力する場合に使用可能なキー
ワードは限られており、非統制語といわれる登録されて
いない語によって検索することが困難である問題がある
。特に自然言語には、同義語や類義語、あるいは言い換
えなど異形態の語が数多く存在するため、それらの語が
質問対象情報に存在する場合には、データベースで規定
された統制語に言い換え、あるいはそれらの統制語に当
たるかを調べてから質問式を作成して検索をしなければ
ならず、検索を行う者には専門的な知識と技能を要求さ
れ、検索を簡単にまた効率よく行うことができなかった
また、自然言語形式で質問文を作成すると、こんどは検
索対象には不用であるキーワードが質問式に入ってくる
ことになるため、入力された自然言語形式の質問文で検
索を行うと不用の情報も検索出力され、検索精度が低く
なり、ホストコンピュータの占有時間が多くなり、経費
が高くなる問題があった。
さらに、現在、オフィスには事務処理用オフィスコンビ
コータやワードプロセッサあるいはパーソナルコンピユ
ー夕が普及し、それらの情報処理装置等で支社宛、客先
宛の手紙、報告書等の各種の文書が作成され、記憶装置
に蓄積されているが、その記憶装置に蓄積された文書内
容を検索するには、文書の作成者以外のものは、そのフ
ァイル名で索引して検索できるだけであり、文書の作成
者以外のものが、どのような文書内容が作成され記憶さ
れているかを自然言語形式の質問文を入力して簡便な方
法で検索できるものではなかった。
また、これらのOA機器に記憶された文書を自然言語形
式の質問文で検索しようとしても上述のデータベースの
検索と同じく、不用語や多義語、類義語等の存在により
、効率良く蓄積された文書情報を検索することができな
かった。
本発明は、上述の問題を解決するものであり、各種の記
憶装置に記憶された文字情報を自然言語形式の質問文を
入力して簡便に検索でき、その検索精度の効率を上げる
ことができる検索用装置を提供することを目的とする。
〔問題点を解決するための手段〕
本発明は、記憶装置に記憶された検索対象となる文字情
報を自然言語形式で入力された質問文によって検索を行
う検索装置において、 入力された質問文からその質問文を構成する単語を抽出
し、この抽出された単語がこの検索装置の辞書に存在す
るか否かを判定する辞書マツチング判定手段と、質問す
べき対象には不用な単語であるか否かを判定して検索用
の単語から除く不用語判定処理手段と、検索用の単語に
ついて多義語あるいは類義語あるいは異形態などの関連
性ある単語が構成されているかを検討しこれらの関連性
ある単語を検索用のキーワードとする検討語判定処理手
段とを含み、上記辞書マツチング判定手段または上記不
用語判定処理手段もしくは検討語判定処理手段により処
理された質問文を構成する単語に基づいて検索を行う手
段を備えたことを特徴とする。
また、この検索装置は、ワードプロセッサ、オフィスコ
ンピュータ、パーソナルコンピュータ、ワークステーシ
ョンの一部としてそのワードプロセッサ、オフィスコン
ピュータ、パーソナルコンピュータ、ワークステーショ
ンに実装することができる。
また、不用語判定処理手段は、抽出された単語から不用
語候補を抽出し、その不用語候補の単語を活用形により
活用した活用パターンに合致するかを判定したのち、不
用語判定情報により不用語を確定する手段を含むことが
好ましい。
また、検討語判定処理手段は、質問文から抽出された単
語に多義語、類義語、表記形態の異なる異形態語、意味
的に関連性ある語が存在するかを判定し検討対象語を確
定する手段を含むことが好ましい。
また、質問文の解析の結果により再度質問文の入力を促
し、検索精度を高める手段を含むことが好ましい。
さらに質問文の解析および検索は、対話形式で行うこと
が好ましく、特に、検索を行う手段は、マルチウィンド
ウ形式で検索結果を表示し、検索用キーワードが検索対
象情報のどこに現れたかを表示する画面と、検索対象情
報が表示されその内容を操作者がスクロールできる画面
とを表示する手段を含むことが好ましい。
また、検索を行う手段は、マルチウィンドウ形式で検索
結果を表示し、その表示結果に基づき検索用キーワード
を追加または修正し、検索結果を記憶する手段を含むこ
とが好ましい。
〔作用〕
本発明の検索装置に自然言語形式で入力された質問文は
、この検索装置が備える質問文解析手段により解析され
る。
まず、質問文からキーワードとなる単語を抽出し、この
単語が辞書によって定義されているか否かを判断する。
辞書に定義されている単語については、次の二つの処理
が行われる。
一つは検索対象に対してノイズとなる不用梧を判定し、
検索用のキーワードから削除する処理であり、他の一つ
は自然言語がもつ多義多様性にもとづいて、多義語、類
義語、異形態などの語を判定して関連性ある単語を引き
出し、この関連性ある単語を検索用のキーワードとする
処理である。
この画処理を終えたのち、必要なキーワードのみで検索
対象となる文字情報が蓄積された記憶情報に対して検索
を行う。
〔実施例〕
以下図面を参照して本発明の詳細な説明する。
第1図は本発明の検索装置が備える処理手段を示す図で
ある。
すなわち、自然言語形式により質問文を入力する質問文
入力手段1と、この入力された質問文を解析して、必要
な検索用キーワードを抽出して確定する質問文解析手段
゛2と、質問文解析手段2により解析された質問文のキ
ーワードに基づいて、検索対象となる文字、文書情報が
蓄積された記憶装置にアクセスして検索を行いその結果
を記憶できる検索処理手段3と、この検索結果を表示し
、あるいはプリント出力する検索出力手段4とを備えて
いる。この検索装置では検索出力手段4の結果を評価し
てその評価に基づいて検索用キーワードの追加あるいは
修正を行い、また再度質問文を入力することが可能であ
り、さらに質問文解析手段2の結果により再度質問文の
入力を促すなど、それぞれの手段による処理結果によっ
て前の処理を変更させることができるものである。
次に第2図の本発明実施例の検索装置のシステム構成を
示すブロック図を用いて検索装置の構成を説明する。
本実施例検索装置は、マイクロプロセッサ12を備え、
このマイクロプロセッサ12が接続された共通バス11
には、漢字等を記憶するROM13と、実行するプログ
ラム等を記憶するRAM14と、この検索装置に接続さ
れたフロッピーディスク装置16を接続しその制御を行
うフロッピーディスク制御回路15と、この検索装置で
使用する辞書、質問文解析手段で使用する単語の活用情
報あるいは不用譜となる不用譜候補語等を含む情報を記
憶でき、またその他の文書情報も記憶できるハードディ
スク装置18を接続しこのハードディスク装置を制御す
るハードディスク制御回路17と、R3232C規格に
準拠し外部回線とのインタフェースをとる回線インタフ
ェース回路19と、キーボード21に接続・されキーボ
ード21とのデータ転送を制御するキーボードインタフ
ェース回路20と、テキスト画面に表示される文字情報
を記憶するメモリであるT−VRAM22と、グラフィ
ック表示データを記憶するメモリであるG−VRAM2
5と、これらのT−VRAM22とG−VRAM25が
接続され、専用高解像度のデイスプレィ装置24でのテ
キスト表示とグラフィック表示を制御し、これらの混合
制御データを記憶するCRT制御回路23と、プリンタ
27に接続されこのプリンタ27を制御しインタフェー
スをとるプリンタインタフェース回路26と、検索装置
で使用する辞書等を記憶する増設用RAMボード28と
が接続される構成となっている。
この検索装置は、回線インタフェース回路19を介して
外部回線によりホストコンピュータ29に接続でき、ホ
ストコンピュータ29のデータベースを検索する場合に
は回線インタフェース回路19を介してホストコンピュ
ータにアクセスして、データベースの検索を実行し、必
要に応じてデータをダウンロードする。また、例えば他
のワードプロセッサで作成された文書を記憶しているフ
ロッピーディスク内の文書を検索する場合には、フロッ
ピーディスク装置に対象となるフロッピーディスクを挿
入して検索を実行する。また、ハードディスク装置に記
憶されている文書情報を検索する場合にはハードディス
ク装置の記憶情報に対して検索を実行する。なお、これ
らの検索装置の構成そのものは周知のマイクロプロセッ
サを用いたシステムによって構成することができ、ワー
ドプロセッサ、オフィスコンピュータ、パーソナルコン
ビュ−タあるいはワークステーションの一部として実装
することができる。
次に第3図ないし第6図に基づいてこの検索装置を使用
した検索の処理動作を例に挙げて説明する。
第3図はこの検索装置による検索を行うときのその処理
全体の流れを示すフローチャートを示すものである。
まず、上述の質問文入力手段1により質問文を入力する
(ステップ31)。この質問文の入力はキーボード21
を検索者が操作することにより入力する。この質問文の
入力の際に日本文としての自然言語形式で入力するため
にカナ漢字変換プロセッサを使用し、あるいはこの検索
用端末装置が備えるカナ漢字変換手段により漢字入力の
形式で行うことができる。
次に入力された質問文を解析する。この質問文の解析手
段は本発明の特徴とするところで、この第3図のフロー
チャートではステップ32〜40(なお37〜39は判
定結果を示すもので処理そのものではない。)までの処
理に該当する。
すなわち、入力された質問文から単語を抽出してその質
問文を構成する単語が、この検索装置で使用する辞書に
合致するか否かを判定する辞書マツチングの判定を行う
(ステップ32)。
この辞書マツチング判定により質問文を構成する単語に
ついて辞書にない場合はこれは未知梧として確定させる
(未知語確定37)。確定された未知語についてはその
まま検索用のキーワードとすることができる。
辞書に含まれる単語については不用語であるか否かを検
討し、その判定処理を行う(ステップ33.34)。
この不用語判定結果により不用語であることが確定した
単語は、不用語として確定させる(不用語確定39)。
不用語でないことが確定した単語については、その同義
語、類義語、異形態、意味的な関連性ある語あるいは活
用形による変形等の関連性ある語についての検討語判定
処理を行う(ステップ35.36)。この判定結果によ
り確定した検討語は、検討語として確定させる(検討語
確定38)。確定しない検討語については未知語として
確定させる(未知梧確定)。
以上の処理により、質問文の構成単語に関し、あらかじ
め定めであるレベル程度まで検討して解析し確定したか
を判定する(ステップ40)。一定レベルに達していな
いものについては質問文を構成する単工吾の辞書とのマ
ツチング処理32に戻る。
この一定レベル程度までの解析で十分というのは、質問
文がたとえば長文の場合には全部の単語を検討しなけれ
ば必要な検索情報が得られないことはないので、全ての
単語について判定を行う必要がなく、たとえば90%程
度の単語について解析判定を行ったことにより検索処理
を行ってもよいことを示す。
この判定処理ステップ40で上述の解析判定が一部レベ
ルに達しているものについては、その解析結果に基づい
て検索処理手段3にあたる検索対象情報に対する検索処
理を行う(ステップ41)。
その検索処理結果は、検索出力手段4として該当情報を
出力する(ステップ42)。
なお、上述の不用語判定処理(ステップ33.34)と
、検討語判定処理(ステップ35.36)とは、その処
理順序を変更しても処理結果は変わらないので、先に検
討語判定処理を行ってから不用語判定処理を行ってもよ
い。
次に第4図に基づいて不用語判定処理手順を説明する。
まず、検索対象情報に対してそれぞれの単語が不用すな
わちノイズとなる不用語候補であるか否かを判定する(
ステップ50)。これは不用語候補となる単語として辞
書に登録された見出し語すなわちキーワードと合致する
するか否かを判断するものである。この判定で不用請が
なければ、次の単語の処理に移り順次性の単語について
検討したのち非不用語確定として検討語判定処理ステッ
プ35に入る。
不用語候補となった単語については活用形により他の活
用形が存在することを示す活用情報があるか否かを検討
する。この活用情報とは、単語の活用形からキーワード
を確定するためのもので、活用情報がある場合には、そ
の活用情報として指示される主要な活用パターンに合致
するか否かを単語の活用情報を元にマツチング処理を行
う。その処理結果により、合致しない場合は非不用語と
して確定させ(非不用語確定結果58)、合致する場合
には不用語判定処理ステップ54〜56に入る。
活用情報がない場合には、同じく不用語判定処理ステッ
プ54〜56に入る。
不用語判定処理は、まず、不用語判定情報があるか否か
を検討し、ある場合には不用語判定処理55を行い、不
用語判定情報がない場合には不用語確定とする(不用語
判定結果58)。この不用語判定情報としては、種々の
条件が設定されており、−例として、不用語候補語の前
接の単語の品詞が助動詞あるいは動詞でかつ後接の単語
が“が”、“を”、“は”、“に”、′だ”、“で”の
場合には不用語として判定する。具体的には、「・・・
するときは・・」の場合の“とき”は不用語として判定
する。
この不用語判定処理での判定により、非不用語であれば
非不用語として確定させ、不用語であれば不用語として
確定させる。
この結果、不用語と確定したものについては不用語を検
索用単語として使用しないように検索用キーワードから
除く。
次に検討語判定処理について第5図を用いて説明する。
この検討語判定処理は、自然言語形式の質問文による検
索であるため、その自然言語のもつ特性により使用すべ
き単語を確定する必要があるためである。すなわち、自
然言語の多義性によって一つの単語が複数の意義に使用
されることがあるため、どの意義に使用するのかを決定
する必要があること、同一の意義に使用される類義語が
あり、これらの類義語が存在するかを検討して検索に使
用するかを検討する必要があること、単語としての表記
の形態の違う異形態の表現、例えば「照り返し」と「照
返し」があること、また関連的な表現、例えば「先方」
と「客先」という表現があること、さらに単語の活用形
により、使用する単語を確定する必要があるためである
この検討語判定処理は、まず挙げられた検討語候補につ
いて単語の異形態、類義語形態、同義語形態、関連的な
表現形態および活用形態等の活用情報があるか否かを判
定する。そして、その活用情報により指示される主要な
活用パターンと合致するか否かを判定しくステップ63
.64)、検討語確定(結果65)または非検討語確定
(結果66)とする。それを一定レベルの単語について
行って質問文解析を終える。
これらの活用情報あるいは不用語判定情報等の情報は、
検索装置の増設用RAM28、ハードディスク装置18
等にこの検索装置の辞書とともに記憶させ、それらの情
報に基づいて上述の質問文解析処理を行う。
さらに、第6図を参照して、検索対象情報に対する検索
処理ステップ41を説明する。
質問文解析手段による解析の結果、抽出された未知語、
検討語の評価を行う(ステップ71)。その評価結果に
より、検索式を作成するのに不十分である場合には質問
文再入力要求83を行う。十分″であれば、検索式を生
成する(ステップ73)。この検索式はキーワードによ
って構成された検索式である。
、:、 ノ生成された検索式によりホストコンビ二一夕
よりダウンロードされたデータベースやその他の検索対
象情報に対して検索を実行する(ステップ74)。この
検索は質問文から上述の質問文の解析によって得られた
キーワードについて原則的にアンド条件をとって、条件
を満足する検索対象情報を抽出する方法で行うが、必ず
しもアンド条件に限られるものではない。例えば類義語
については複数ある類義語をオア条件として検索するこ
とも可能である。
この検索結果については、CRT24あるいはプリンタ
27に出力されて表示されるとともに、検索結果評価を
行い、検索者が検索対象情報でないと評価する場合は質
問文再入力要求83に戻る。検索を続行する場合には、
さらに検索式構成キーワードが検索に適合するか否かを
評価する(ステップ76)。ここで、抽出されたキーワ
ードにより検索対象情報を検索し、ヒツトした用語を適
合悟といい、ヒツトしないキーワードを非適合語という
この検索式キーワードの評価(ステップ76.77)に
おいて、適合語であった場合は、検索式を再生成して、
検索を実行する。
評価結果判定(ステップ77)で非適合語が含まれる場
合に当該非適合語が関連語展開禁止語である場合または
非適合語に対する関連語がない場合には、非適合語をキ
ーワードとしない検索式を再生成し、また、当該非適合
語が関連語展開禁止語ではなく、非適合語に対する関連
語が存在する場合には、非適合語の代わりに関連語をキ
ーワードとする検索式を再生成して検索をさらに実行す
る。
なお、ここで関連語とは同義語、類義語を含む概念で検
討語判定対象となる梧のことをいい、関連3展開禁止語
とは、検索者が質問文で関連語への展開を禁止し、完全
一致を指定した場合のキーワードをいう。
したがって、検索者がキーワードの完全一致を指定した
関連3吾展開禁止語である場合には、別の□キーワード
を指定して検索式を再生成し、検索者が完全一致を指定
じておらず、ヒツトしない場合には、別の関連語が存在
するしていれば置き換えを行って検索式を再生成して検
索を続行することになる。
このようにして自然言語形式により入力された質問式を
解析し検索式を生成して検索を行った後に再評価を行っ
て、さらに精度の高い検索を行うようにする。
なお、上述の質問文解析および検索の実行はその解析お
よび検索結果を表示して操作者(検索者)に確認を行い
ながら処理を行う対話形式で行う。
この対話方式では、質問文を入力して解析し、抽出、解
析され、その解析結果によって検索を実行したとき、検
索に使用したキーワードが検索対象情報のどの部分に現
れたかを表示し、操作者が把握するための縮小画面とし
て表示し、また、検索対象の情報を一部拡大画面とし、
その内容を操作者が自由にスクロールできる一部拡大画
面として同時に表示するマルチウィンドウ形式にし、検
索者はこれらの画面をみながらキーワードの増減、修正
を行いながら検索を行うことができる。
例えば、ワードプロセッサで作成された手紙などの文書
内容の検索を実行する場合に、入力された一定範囲の文
字数内で構成された質問文をこの検索装置の画面の下欄
に表示し、この質問文の単語を上述の解析手段により、
抽出、不用語の削除、検討語の確定の処理を行った後、
そのキーワードのアンド条件で、この検索対象の文書、
例えばフロンビイディスク内の文書の内容のキーワード
を検索し、そのキーワードが検索対象としている文書の
どこに現れているかを画面上に縮小画面として表示しな
がら、必要に応じて文書全体をスクロールしながら操作
者が見れるように、画面の別のところに検索対象の文書
を一部拡大画面として表示する。
また、上述の検索用キーワードの追加、修正は検索結果
の表示を見ながら必要に応じてでき、検索結果をハード
ディスク装置等の記憶装置に記憶して保存することもで
きる。
次にこの質問文解析による実際の検索事例について説明
する。なお、この実施例では質問文の最大文字数の約3
0文字程度に限定している。
まず、不用語処理による検索の効果について述べる。
たとえば、必要な検索対象情報が「今週に入り主要通貨
の為替が極めて不安定な為ヨーロッパ向は送金は一時中
断する。」である場合に、検索質問文として「パリを除
く欧州全店への今週の送金通知の内容は?」という入力
をした場合、従来の検索では、「パリ」、「全店」 「
通知」、「今週」のキーワードとの完全一致を採るので
、たとえば「全店通知:パリのホテルは、国際航空ショ
ウの為今週−杯満室状況にあるので、この期間同地出張
を計画される方は至急本店総務部宛ご連絡下さい。」と
いう不用な情報が検索出力されてしまっていたが、この
不用語処理により、「全店」および「通知」を不用語と
して処理し、類義語として「欧州」と「ヨーロッパ」を
処理して、検索対象の情報を検索出力することができる
次に多義語を識別して検索を行う効果を述べる。
質問文が「わが国の米に対する本年度の投資総額は?」
というときに、「米」が、「米国」を意味することもあ
るので、検討語判定処理により「米」を「コメ」である
ことを確認した後、検索を行い、たとえば「わが国の対
米投資総額はX億ドルとなった。」という不要な情報を
検索出力することを防止し、本来の検索対象情報である
「今年の我国の米の生産性向上に向けられる投資はY億
円。」を検索できる。
次に関連的表現路、類義語を用いて検索をする場合を説
明すると、たとえば検索対象の情報がrANAは198
7年頃より米国に乗り入れ出して・・・・」というもの
である場合、検索質問文が「全日空はいつ頃からアメリ
カに入ったか。」というものであると、従来の検索では
一致するキーワードがないため検索が実行できないが、
本実施例では「いつ頃」とr1987年項」とは関連的
表現路とし、「アメリカ」と「米国」、「全日空」とr
ANAJとが類義語として検索を行うことがで″きる。
さらに、異形態、類義語等を機能させて検索する場合を
説明する。たとえば必要な検索対象情報が「イラク向は
発電プラント:客先の申し入れに応じL/Cl8ODA
YSにて応札した。ファイナンスは、わが社で手配し代
金回収リスクは、全額わが社負担とすることでメーカー
と取り決めた。」である場合、質問文が「我社のイラク
向は商談のうち、先方の要請に基づき金融に関する条件
が付いている案件はどれか。」というものである場合、
従来の検索であると、「イラク」、「要請」、「条件」
のキーワードの完全一致から不必要な「わが国はイラク
政府の要請に応じて一千万ドルの条件付き緊急物資援助
を約束した。」という情報を検索出力してしまうが、本
実施例では、「要請」と「申し入れ」、「金融」と「フ
ァイナンス」を類義語として処理し、「我社」と「わが
社」を異形態として処理し、「先方」と「客先」とを関
連的表現路として処理して検索式を生成するので、上述
の不必要な情報は除外され、必要な検索対象情報を検索
することができる。
なお、検索を行うための質問文の文字数は一定限度の文
字数に限定すれば、その解析処理工数が少なくなるため
、上述の実施例では30文字程度にその文字数を限定し
たが、実際には質問文の文字数を限定しなくても本発明
の効果を実現することができる。
また、上記実施例は自然言語形式で入力された質問文か
らキーワードを抽出解析した後、検索式を生成、あるい
はキーワードのアンド条件のみで検索する方式で説明し
たが、データベースシステムの検索は必ずしも論理式で
構成される検索式を用いる必要はな(、文章形態のまま
、ホストコンピュータ側で文法解析を行うことによって
データベースの検索を行う方式であれば、質問文のキー
ワードについて、不用語であるか否か、同義語、類義語
等の関連性についての処理を行った後、文章形態の検索
文のまま検索処理を行う方式にも本発明は適用できる。
〔発明の効果〕
以上説明したように、本発明は、上述のようにデータベ
ースや種々の情報処理装置の記憶装置に記憶された文書
を自然言語形式で入力された質問文の解析処理を行って
から検索を実行するので、検索の精度を上げるとともに
、必要な情報の検索を行うことができる。特に自然言語
形式で蓄積された文書情報の検索を自然言語による問い
合わせの形で実行でき、検索のための専門的知識および
技能を必要としないので、誰でも必要な情報を簡便にま
た違和感をもたずに検索することができる効果がある。
また、ホストコンピュータ側で文法解析を行いデータベ
ースを検索する場合にはホストコンピュータを占有する
時間を短縮できるので、検索費用を経済的にすることが
できる。
さらに、ワードプロセッサ、オフィスコンピュータやパ
ーソナルコンピュータ、ワークステーション等のOA機
器で作成され、記憶された文書を自然言語形式の質問文
を入力するのみで簡便に検索できる検索装置を提供する
ことができ、事務所における手紙等の文書の検索を誰で
も容易に行なうことが可能となった。
【図面の簡単な説明】
第1図は本発明一実施例装置での処理を説明する図。 第2図は実施例装置の構成ブロック図。 第3図は実施例処理フローチャート。 第4図は不用語処理フローチャート。 第5図は検討8吾処理フローチヤート。 第6図は検索処理フローチャート。 1・・・質問文入力手段、2・・・質問文解析手段、3
・・・検索処理手段、4・・・検索出力手段。

Claims (1)

  1. 【特許請求の範囲】 1、記憶装置に記憶された検索対象となる文字情報を自
    然言語形式で入力された質問文によって検索を行う検索
    装置において、 入力された質問文からその質問文を構成する単語を抽出
    し、この抽出された単語がこの検索装置の辞書に存在す
    るか否かを判定する辞書マッチング判定手段と、 質問すべき対象には不用な単語であるか否かを判定して
    検索用の単語から除く不用語判定処理手段と、 検索用の単語について多義語あるいは類義語あるいは異
    形態などの関連性ある単語が構成されているかを検討し
    これらの関連性ある単語を検索用のキーワードとする検
    討語判定処理手段と を含み、 上記辞書マッチング判定手段または不用語判定処理手段
    もしくは上記検討語判定処理手段により処理された質問
    文を構成する単語に基づいて検索を行う手段 を備えたことを特徴とする検索装置。 2、ワードプロセッサ、オフィスコンピュータ、パーソ
    ナルコンピュータまたはワークステーションの一部とし
    てそのワードプロセッサ、オフィスコンピュータ、パー
    ソナルコンピュータまたはワークステーションに実装さ
    れた請求項1に記載の検索装置。 3、不用語判定処理手段は、抽出された単語から不用語
    候補を抽出し、その不用語候補の単語を活用形により活
    用した活用パターンに合致するかを判定したのち、不用
    語判定情報により不用語を確定する手段を含む請求項1
    または2に記載の検索装置。 4、検討語判定処理手段は、質問文から抽出された単語
    に多義語、類義語、表記形態の異なる異形態語、意味的
    に関連性ある語が存在するかを判定し検討用キーワード
    を確定する手段を含む請求項1または2に記載の検索装
    置。 5、質問文から単語を抽出し抽出された単語が辞書に存
    在するか否かを判定する手段、不用語判定処理手段、検
    討語判定処理手段または検索を行う手段の各手段はいず
    れも操作者に確認を行いながらその処理を実行する対話
    形式である請求項1ないし4のいずれかに記載の検索装
    置。 6、検索を行う手段は、マルチウィンドウ形式で検索結
    果を表示し、検索用キーワードが検索対象情報のどこに
    現れたかを表示する画面と、検索対象情報が表示されそ
    の内容を操作者がスクロールできる画面とを表示する手
    段を含む請求項5に記載の検索装置。 7、検索を行う手段は、マルチウィンドウ形式で検索結
    果を表示し、その表示結果に基づき検索用キーワードを
    追加または修正する手段を含む請求項6に記載の検索装
    置。 8、検索を行う手段は、検索結果を記憶する手段を含む
    請求項7に記載の検索装置。
JP63010276A 1988-01-20 1988-01-20 検索装置 Expired - Fee Related JP2854000B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63010276A JP2854000B2 (ja) 1988-01-20 1988-01-20 検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63010276A JP2854000B2 (ja) 1988-01-20 1988-01-20 検索装置

Publications (2)

Publication Number Publication Date
JPH01185724A true JPH01185724A (ja) 1989-07-25
JP2854000B2 JP2854000B2 (ja) 1999-02-03

Family

ID=11745788

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63010276A Expired - Fee Related JP2854000B2 (ja) 1988-01-20 1988-01-20 検索装置

Country Status (1)

Country Link
JP (1) JP2854000B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01265323A (ja) * 1988-04-18 1989-10-23 Sharp Corp 文書ファイル検索方式
JPH03148765A (ja) * 1989-11-06 1991-06-25 Matsushita Electric Ind Co Ltd 文書検索装置
EP0838765A1 (en) * 1996-10-23 1998-04-29 ITI, Inc. A document searching system for multilingual documents
US8005665B2 (en) 1998-09-28 2011-08-23 Schukhaus Group Gmbh, Llc Method and apparatus for generating a language independent document abstract

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01265323A (ja) * 1988-04-18 1989-10-23 Sharp Corp 文書ファイル検索方式
JPH03148765A (ja) * 1989-11-06 1991-06-25 Matsushita Electric Ind Co Ltd 文書検索装置
EP0838765A1 (en) * 1996-10-23 1998-04-29 ITI, Inc. A document searching system for multilingual documents
US8005665B2 (en) 1998-09-28 2011-08-23 Schukhaus Group Gmbh, Llc Method and apparatus for generating a language independent document abstract

Also Published As

Publication number Publication date
JP2854000B2 (ja) 1999-02-03

Similar Documents

Publication Publication Date Title
Habash et al. MADA+ TOKAN: A toolkit for Arabic tokenization, diacritization, morphological disambiguation, POS tagging, stemming and lemmatization
US7890533B2 (en) Method and system for information extraction and modeling
US4829423A (en) Menu-based natural language understanding system
US8972240B2 (en) User-modifiable word lattice display for editing documents and search queries
TWI496012B (zh) 管理電子形式之中文、日文及韓文語言資料的模組系統與方法
US9817821B2 (en) Translation and dictionary selection by context
JPH11110416A (ja) データベースからドキュメントを検索するための方法および装置
KR20040025642A (ko) 확인 문장을 검색하기 위한 방법 및 시스템
Alshalabi et al. Arabic light-based stemmer using new rules
JP4967037B2 (ja) 情報検索装置、情報検索方法、端末装置、およびプログラム
US20210263915A1 (en) Search Text Generation System and Search Text Generation Method
JPH0576067B2 (ja)
JPH01185724A (ja) 検索装置
JP5439028B2 (ja) 情報検索装置、情報検索方法、およびプログラム
JP2003323425A (ja) 対訳辞書作成装置、翻訳装置、対訳辞書作成プログラム、および翻訳プログラム
JP3848014B2 (ja) 文書検索方法および文書検索装置
Dave et al. A Systematic Review of Stemmers of Indian and Non-Indian Vernacular Languages
Vázquez-González et al. Creating a corpus of historical documents for emotions identification
Colton Text classification using Python
Riaz Improving Search via Named Entity Recognition in Morphologically Rich Languages–A Case Study in Urdu
JP2002366556A (ja) 情報検索方法
JPH0793345A (ja) 文書検索装置
JPH0561902A (ja) 機械翻訳システム
JP4110460B2 (ja) 表現抽出装置および方法
Chelamet A Text Summarization System for Faster Data Access

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees