JPH0320866A - テキストベース検索方式 - Google Patents

テキストベース検索方式

Info

Publication number
JPH0320866A
JPH0320866A JP2035832A JP3583290A JPH0320866A JP H0320866 A JPH0320866 A JP H0320866A JP 2035832 A JP2035832 A JP 2035832A JP 3583290 A JP3583290 A JP 3583290A JP H0320866 A JPH0320866 A JP H0320866A
Authority
JP
Japan
Prior art keywords
text
search
analysis
sentence
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2035832A
Other languages
English (en)
Inventor
Tamaki Saito
斎藤 珠喜
Hironobu Fukunaga
福永 博信
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2035832A priority Critical patent/JPH0320866A/ja
Publication of JPH0320866A publication Critical patent/JPH0320866A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
〔産業上の利用分野] 本発明は、自然言語の文章データを文字コード列として
蓄積したデータベース(以下、これを「テキストベース
」という)に対する、自然言語による間合せ文から高精
度な検索を可能とするテキストベース検索力式に関する
。 〔従来の技術〕 従来のこの種の技術としては、例えば、杉山也による「
自然言語理解に基づく情報検索システムIRISJ(情
報処理学会自然言語処理研究会資料NL −58− 8
 . 1986)に記載されている如く、データとして
の各テキストに対して、その内容に適したキーワード(
分野名または言葉)を付与することによって各テキスト
の内容すなわち特徴を表現し、検索時には、利用者の求
めるテキストの内容に関連するキーワード(分野名また
は言葉等)とその論理的結合関係(AND,OR等)を
指定し、その検索条件を満足するテキストを抽出するよ
うに構成されているものが知られている。 上記文献において説明されている如き、自然言語による
質問文を受付けるインタフェースを有する場合も、質問
文を解析することによってユーザの検索要求を対応する
キーワードに展開し、それらキーワードの間の論理的結
合関係を決めて検索を行う.すなわち、自然言語による
インタフェースを有するか否かにかかわらず、前記テキ
ストベースの検索は、キーワード検索となっていた.ま
た、検索精度を向上させることを狙ったものとして、絹
川他による1日本語文構造解析による自動インデクシン
グ方式」(情報処理学会論文誌第21巻3号,1980
)に記載されている如く、各キーワードに意味的役割(
テキスト中での主体,客体等)を付与する方法も提案さ
れているが、検常時の手掛りとしてキーワードを用いる
ことには変わりはない. [発明が解決しようとする課題] 上記従来技術は、いずれも、テキスト中に含まれている
キーワードを手掛りにして検索を行うので、検索の精度
、すなわち、ユーザの求めるテキストがどれだけ正しく
検索できたか、が高くならないという問題があった.こ
こで、検索精度の尺度としては、一般に再現率(ユーザ
の検索要求に関連するテキストの中で、検索された関連
テキストの占める割合)と適合率(検索されたテキスト
の全体の中で検索された関連テキストの占める劃合)が
用いられる. すなわち、テキストの内容にふさわしいキーワードを付
与するということは、そのテキストの主題,要旨等を表
現するような言葉、あるいは、関連する主要な部分を表
わす言葉を、そのテキストを代表する言葉として付与す
るということであるが、ユーザが検索要求時に思い浮か
べるような言い方をすべてキーワードとして付与するこ
とは、検索時に不要なテキストを多数出力する結果にな
り、高い検索精度を確保しながら種々の表現に対応する
ことは難かしい.また、補足的な記述中の情報を検索し
たい場合についても、補足的な部分にキーワードを付与
することは一般的にはないので、キーワード検索によっ
て検索することは不可能である。 本発明は上記事情に鑑みてなされたもので、その目的と
するところは、従来の技術における上述の如き問題を解
消し、キーワード検索に代る、高い検索精度を有し、か
つ、補足的に記述されている事柄をも検索可能なテキス
トベース検索方式を提供することにある。 〔課題を解決するための手段〕 本発明の上述の目的は、見出しの単語とその品詞情報,
文法情報等を記憶した単語辞書と、自然言語で書かれた
文書を蓄積したテキストベースと、自然言語を用いて文
章を入力する入力部と、入力された文章を単語に分割(
形態素解析)し、分割した単語の品詞情報,文法情報か
ら入力された文章の文法的構造の解析(構文解析)を行
う文解析部と、該文解析部の解析結果に基づいて前記テ
キストベースを検索する手段とを有するテキストベース
検索システムにおいて、前記見出しの単語と同義あるい
は類義な意味を有する単語を記憶した類義語辞書と、前
記テキストベースの文章を形態素解析,構文解析するテ
キストベース解析部と、該テキストベース解析部による
文章解析結果と前記文解析部による入力文の解析結果と
を照合する照合部を設けて、入力文中から、検索時に対
象となる一つ以上の単語を選別し、該単語間の格関係を
基に検索の標本となるべき構造(検索構造)を生成する
構造生成ステップと、該構造生成ステップにおいて作成
された検索構造を標本として、前記テキストベース解析
部による文章と解析結果と前記文解析部による入力文の
解析結果とを前記照合部により照合することにより、前
記テキストベース中を検索するテキスト検索ステップと
を備えたことを特徴とするテキストベース検索方式によ
って達成される. 〔作用〕 本発明に係るテキストベース検索方式においては、テキ
ストベース検索のための検索要求、例えば、日本語によ
る質問文を解析し、テキストベース中のすべての文章の
中から、検索要求の内容に合致するものを抽出すること
を特徴とするものであり、キーワード検索ではなく、テ
キストベース中のすべての文章を対象として検索要求に
合致するか否かをチェックする点が特徴である.また、
従来のテキストベースの検索方法が、キーワード検索に
頼らざるを得なかった理由としては、検索時にテキスト
の意味内容を解析することは、意味の解析自体が非常に
困難であること、および,それを実用的な応答時間の中
で実現することは不可能であること等が挙げられる.こ
れに対して、本発明に係るテキストベース検索方式にお
いては、テキストからの意味の抽出は行わず、検索要求
としての質問文の内容に合致するテキストとして質問文
の語およびその類義語とその結合関係(格関係)と同様
の、語または前記類義語のうちの一つおよびその結合関
係を有するものを抽出することで、処理の高速化を図り
、実用的な応答速度を達威するものである. 〔実施例〕 以下、本発明の実施例を図面に基づいて詳細に説明する
. 第l図は、本発明の一実施例を示すテキストベース検索
方式の概略フローである.図において、lは入力部、1
0は解析処理部、3は単語辞書、6は類義語辞書、7は
テキスト検索部、8はテキストベースを示している.な
お、上記解析処理部lOは、後述する文解析ステップ2
,構造生成ステップ4,類義語展開ステップ5の各処理
ステップを実行する機能を有するものである. 上記単語辞書3には、文解析1s2における形態素解析
および構文解析に用いる情報が記憶されている.単語辞
書3の例は、第2図に示す通りで、その内容は、単語の
見出しとその単語の品詞および構文解析に必要な文法情
報から成る.第2図の例では、文法情報は、付属語につ
いてその付属語が接続できる語の種類(格助詞の場合は
「体17!J等)を示してあり、「:jより右には、そ
の付属語が接統する語の格情報が示されている.但し,
ここでは、表層的な格情報で示されている. また、上記類ja語辞書6には、類義な意味を表わす単
語が納められており、後述する類義語展開ステップ5で
参照される.第3図にその一例を示す如く、その内容は
、単語見出しと、その単語と類似な意味を持つ単語の集
まりから成る.テキストベース8は、検索対象となるべ
き文章の集まりであり、何等かの手段により計算機が直
接取扱えるような状態、例えば、磁気ディスクや磁気テ
ープ等の中に納められたものである.入力部lは、テキ
ストを検索するための検索要求(質問)を、自然言語の
文章によって入力するものであり、キー操作入力,音声
入力,文字のバターン認識等の文字符号化処理を介して
自然言語の文章が装置に取込まれる. 文解析ステップ2は、入力部lで入力された文章を解析
し、文章の文法的構造を決定する.これには、文章を構
成する各単語の識別,分解を行う形態素解析と、それら
の単語の結び付き方から、文の構造を決定する構文解析
とがある。本ステップ2で行う構文解析は、文章中の各
用言に対応した格構造を抽出するものである. なお、上述の構文解析としては、格文法に対応する格構
造(格フレーム)を用意して、その文章の内容を抽出す
るもの、例えば、Fill+*ore等によって行われ
たものが利用できる.この処理の概要については、例え
ば、長尾著rit1!工学』(昭晃堂,昭和58年刊)
の記載が参考になる. 構造生成ステップ4は、前述の文解析ステップ2の結果
を受けて検索に用いる単語を取出し、それらの単語相互
間の関係から、検索に用いるための標準となるべき構造
(以下、「検索構造』という)を生成する.この際、同
一内容を表わす複数の自然言語表現が考えられる場合は
、後述する如く、その代表たるべき表現への変換を行う
。 類義語展開ステップ5は、上述の構造生成ステップ4で
生成された検索構造中の単語について、前記類義語辞書
6を参照して、後述する如く、その単語と類似な意味を
表わす単語を選択し、検索構造を補強する. テキスト検索部7は、類義語展開ステップ5までで生成
された検索構造を標本として、テキストベース8を検索
して、標本である検索構造に合致したものを検索結果と
して出力する.この際、前述の文解析ステップ2と同様
に、単語辞書3を用いて形態素解析と構文解析を行う. 上述の如く構成された本実施例のテキストベース検索方
式の動作を、以下、入力部lが入力文「テキストを検索
する』 を、後の処理に送った場合を例として説明する.文解析
ステップ2では、入力文に対し、形態素解析および構文
解析を行い、入力文を 「テキスト/名r4j 「をl格助詞」 「検索するl動詞」 に分解し、更に、この入力文の動作は「検索』であり、
「検索Jの対象は「テキスト」であることを決定する。 なお、このとき、実質的に同一内容を表わす複数の表現
、例えば、能動態と受動態による表現等に関する構文解
析結果は、例えば、第4図に示す如く、各入力文対応に
出力される.構造生成ステップ4では、上述の文解析ス
テップ2の出力結果から、検索対象となる一つ以上の単
語と、それら単語間の関係を示す「検索構造』を生成す
る.すなわち%LISPtlli型の表現で示すならば
、 (検索対象テキスト)) のようになる. なお、前述の如く、実質的に同一内容を表わす複数の表
現がある場合には、その代表となる構造への変換を行う
.すなわち、第4図に示す如く、「テキストを検索する
』,「テキストが検索される」,rテキストの検索』の
各文章からは、I!5rMに示す処理により、ともに、 (検索対象テキスト)) の構造が生成される。 類義語展開ステップ5では、前記類義語辞書6を参照し
て、上述の検索構造に含まれる単語を類ji語に展開す
る。例えば、類義語辞書6の中に,「検索』の類義語と
して「探す』、「テキスト」の類義語として「文書」,
「文章』があった場合、上述の検索構造は、 ((検索探す)(対象(テキスト文書文輩)))の如く
補強される。 次に、テキスト検索部7は、テキストベース解折ステッ
プ71で、テキストベース8中の各文竜の文解析を行い
、照合ステップ72で、単語が類義語JM開ステップ5
から引き渡された検索構造と同様な関係で出現するもの
を、一致した文書として出力する。従って、上述の例で
は、1文書を探す』,「文書が検索されるjは一致した
と判定されるが、「テキストで検索する」は、非一致と
判定されることになる。 上記実施例によれば、自然言語の文書から或るテキスト
ベースを検索対象とし、自然言語で検索するテキストを
指定し、入力文中の各単語の関係を利用して、入力文中
で使用された単語を、その類義語まで展開したもので検
索を行うことができるようになり、以下の如き効果が得
られる.(1)テキストベースに対する事前の処理が不
要となり、これによる情報の欠落を回避できる.(2)
特に専門知識がなくても利用可能になる。 (3)意味的に近いものを検索できる。 (4)多様な入力文に対応可能になる。 なお、前述の実施例は一例として示したものであり,本
発明はこれに限定されるものではないことは、言うまで
もないことである。例えば、テキストベース解析ステッ
プ7■と文解析ステップ72とは同様の機能を実現する
ものであり、同一のブロック(モジュール)で共用する
ことも可能である.更に、上記テキストベース解析ステ
ップ7lと文解析ステップ72との間に、解析処理部1
0の構造生成fi4と同様の,構造生成ステッを有する
如く構成しても良い.
【発明の効果】
以上、詳細に説明した如く、本発明によれば、テキスト
からの意味の抽出を行うのではなく、検索要求としての
質問文の内容に合致するテキストとして質問文の語およ
びその類義語とその結合関係(格関係)と同様の、語ま
たは前記類a語のうちの一つおよびその結合関係を有す
るものを抽出することにより、キーワード検索に代る、
高い検索精度を有し、かつ、補足的に記述されている事
柄をも検索可能なテキストベース検索方式を実現できる
という顕著な効果を奏するものである.
【図面の簡単な説明】
第1図は本発明の一実施例を示すテキストベース検索方
式のフローチャート、第2図は単語辞書の内容の一例を
示す図、第3図は類義語辞書の内容の一例を示す図、第
4図は構文解析結果の一例を示す図、第5図は構造生成
ステップの処理の詳細を示すフローチャートである. 1:入力部、lO:解析処理部、3:単語辞書、6:類
義語辞書、7:テキスト検索部、8:テキストベース、
2:文解析ステップ、4:構造生成ステップ、5:類義
語展開ステップ、7l:テキストベース解析ステップ、
72:照合ステップ・第 2 図 〔見出し〕 〔品詞〕 〔文法情報〕 第 3 図 〔見出し〕 〔類義語〕 文書,文章 探す

Claims (1)

    【特許請求の範囲】
  1. (1)見出しの単語とその品詞情報、文法情報等を記憶
    した単語辞書と、自然言語で書かれた文書を蓄積したテ
    キストベースと、自然言語を用いて文章を入力する入力
    部と、入力された文章を単語に分割(形態素解析)し、
    分割した単語の品詞情報、文法情報から入力された文章
    の文法的構造の解析(構文解析)を行う文解析部と、該
    文解析部の解析結果に基づいて前記テキストベースを検
    索する手段とを有するテキストベース検索システムにお
    いて、前記見出しの単語と同義あるいは類義な意味を有
    する単語を記憶した類義語辞書と、前記テキストベース
    の文章を形態素解析、構文解析するテキストベース解析
    部と、該テキストベース解析部による文章解析結果と前
    記文解析部による入力文の解析結果とを照合する照合部
    を設けて、入力文中から、検索時に対象となる一つ以上
    の単語を選別し、該単語間の格関係を基に検索の標本と
    なるべき構造(検索構造)を生成する構造生成ステップ
    と、該構造生成ステップにおいて作成された検索構造を
    標本として、前記テキストベース解析部による文章と解
    析結果と前記文解析部による入力文の解析結果とを前記
    照合部により照合することにより、前記テキストベース
    中を検索するテキスト検索ステツプとを備えたことを特
    徴とするテキストベース検索方式。
JP2035832A 1989-03-07 1990-02-16 テキストベース検索方式 Pending JPH0320866A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2035832A JPH0320866A (ja) 1989-03-07 1990-02-16 テキストベース検索方式

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP1-54460 1989-03-07
JP5446089 1989-03-07
JP2035832A JPH0320866A (ja) 1989-03-07 1990-02-16 テキストベース検索方式

Publications (1)

Publication Number Publication Date
JPH0320866A true JPH0320866A (ja) 1991-01-29

Family

ID=26374827

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2035832A Pending JPH0320866A (ja) 1989-03-07 1990-02-16 テキストベース検索方式

Country Status (1)

Country Link
JP (1) JPH0320866A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002297592A (ja) * 2001-03-29 2002-10-11 Just Syst Corp 自然文マッチング装置、自然文マッチング方法、及び自然文マッチングプログラム
JP2007087157A (ja) * 2005-09-22 2007-04-05 Fuji Xerox Co Ltd 翻訳システム、翻訳装置、翻訳方法及びプログラム
US7386526B1 (en) * 2001-05-16 2008-06-10 Perot Systems Corporation Method of and system for rules-based population of a knowledge base used for medical claims processing

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002297592A (ja) * 2001-03-29 2002-10-11 Just Syst Corp 自然文マッチング装置、自然文マッチング方法、及び自然文マッチングプログラム
US7386526B1 (en) * 2001-05-16 2008-06-10 Perot Systems Corporation Method of and system for rules-based population of a knowledge base used for medical claims processing
JP2007087157A (ja) * 2005-09-22 2007-04-05 Fuji Xerox Co Ltd 翻訳システム、翻訳装置、翻訳方法及びプログラム

Similar Documents

Publication Publication Date Title
JP3266246B2 (ja) 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
JP2742115B2 (ja) 類似文書検索装置
Silberztein INTEX: an FST toolbox
JPH0242572A (ja) 共起関係辞書生成保守方法
JP2000315216A (ja) 自然言語検索方法および装置
JP2011118689A (ja) 検索方法及びシステム
Silberztein Text indexation with INTEX
JPH0320866A (ja) テキストベース検索方式
JPH10149370A (ja) 文脈情報を用いた文書検索方法および装置
JP4024137B2 (ja) 数量表現検索装置
JP4033093B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
JPH0827803B2 (ja) テキストベース検索方法
JPH1074207A (ja) 情報検索装置及び情報検索方法
JP4635585B2 (ja) 質問応答システム、質問応答方法及び質問応答プログラム
JPH07244669A (ja) 文書検索方式
JPH0561902A (ja) 機械翻訳システム
JP4262529B2 (ja) 全文検索装置、方法、プログラム及び記録媒体
JPH03229367A (ja) テキストベース検索方式
KR20010004090A (ko) 에이치티엠엘 기반 한글 용어/약어 하이퍼링크 생성기
JP3972697B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JPH04182871A (ja) 類似文書検索装置
JP4114580B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP2954592B2 (ja) 言語解析装置
JPH0262668A (ja) 文章情報解析技法を用いた文章情報検索方式