JPH04123264A - 関連語テーブル作成装置及び文書検索装置 - Google Patents

関連語テーブル作成装置及び文書検索装置

Info

Publication number
JPH04123264A
JPH04123264A JP2245126A JP24512690A JPH04123264A JP H04123264 A JPH04123264 A JP H04123264A JP 2245126 A JP2245126 A JP 2245126A JP 24512690 A JP24512690 A JP 24512690A JP H04123264 A JPH04123264 A JP H04123264A
Authority
JP
Japan
Prior art keywords
related word
storage device
word
data
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2245126A
Other languages
English (en)
Inventor
Junichi Matsuda
純一 松田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2245126A priority Critical patent/JPH04123264A/ja
Publication of JPH04123264A publication Critical patent/JPH04123264A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、キーワード又はキーフレーズの関連語テーブ
ル作成装置ならびにキーワード又はキーフレーズ等を用
いた文書検索装置に関する。
[従来の技術] 従来より、同義語や上位概念語、同−分野語などの関連
語を用いて文書検索精度や文書解析精度を向上させる試
みがなされている。
しかしながら、特開平2−41565にみられるように
、関連語データを保守するためのツールはあっても、関
連語データの内容自体の収集は人手により行なうのが一
般的であった。
また、情報処理学会第34口金国大会lX−6に見られ
るように、市販の辞書の語義文がらシソーラスを自動的
に構築する方法が提案されているが、シソーラスが汎用
的なものであって、特定の分野に応じて関連語データを
作ったり、ユーザに応じて関連語を定義することができ
なかった。
[発明が解決しようとする課題] 関連語データを全て人手で入力する方法では効率が悪く
、充分なデータを集めることが困難である。また、関連
語データは、利用者が利用分野、利用目的によって異な
ることがあり、汎用的なデ−夕を作ることによる効果を
大きくない。
本発明の目的は、関連語データを文書中から自動的に抜
き出し、関連語データの収集を効率化すること並びに文
書検索中においても、検索文書中から関連語データを自
動的に抜き出し、関連語データの収集を出来るようにし
たことにある。
[課題を解決するための手段] 上記目的を達成するために、文書中の並列構造や特定語
句を含む構文などの構文情報から、関連する単語を拾い
だし、関連語テーブルに登録する手段を設けており、ま
た、上記目的を達成するために、関連語抽出ルールを登
録する手段を設けている。さらに、文書検索装置に上記
関連語テーブルに登録する手段を組合せ設けている。
[作用コ 文書の構文解析結果からあらかじめ決められた特定の構
文があるかどうかを探し、関連語となる単語を特定し、
関連語テーブルに登録する。文解析処理技術を用いるこ
とにより、特定の構文を、ユーザが自然言語文で指定す
ることもできる。また、文書検索中においても、検索文
書中から関連語データを自動的に抜き出し、関連語デー
タの収集をする。
[実施例] 以下、本発明を、日本語文書に適用した例を図面を用い
て詳細に説明する。
第1図は、関連語テーブル作成処理のフローチャート図
である。
第2図は、関連語テーブル作成装置の構成図である。l
は入力装置であり、関連語抽出対象の文書を読み込む処
理を行なう。2は、中央処理装置であり、関連語を抽出
し、関連語テーブルの作成処理を行なう。3は出力装置
であり、必要があれば処理結果を出力する。4は各種テ
ーブルを蓄える記憶装置である。
第3図は、意味表現の例である。意味表現は、ノードと
アークからなる有向グラフで表される。
第4図は、第3図の意味表現を記憶している複数のレコ
ードからなる意味表現テーブルの例である。レコードは
、ノード番号41、単語42、子ノード番号43関係子
44から構成される。
第5図は、関連語データを記憶している関連語テーブル
の例(既に作成されたもの)であり複数のレコードから
成っている。レコードは、キー単語51.関連語52、
出現頻度53から構成されている。
第6図は、第5図の関連語テーブルが更新された関連語
テーブルである。
次に、第1図に示したフローチャート図に従って、本発
明の関連語テーブルの作成処理を説明する。まず、文書
を入力装置から読み込む(100)。読み込んだ各文を
順に解析しく101) 、意味表現を得る。なお、この
ことは既に公知の事項であるので説明を省略する。意味
表現は、概念を表すノードと関係を意味する関係子とか
らなる有向グラフを用いる。得られた意味表現を意味表
現テーブルとして登録する(102)。意味表現から、
並列を意味する関係子を検索しく103)、並列になっ
ている語すべてを取り出す(104)。各並列語に対し
て、その語がすでに第5図の関連語テーブルのキー単語
欄51に登録されているか否かを調べる(105)。登
録されていなければ、該並列語をキー単語とするレコー
ドを関連語テーブルに追加する(106)。登録されて
いれば何もしない。次に、該並列語に対して同列にある
他の並列要素が関連語テーブルの関連語槽52に登録さ
れているかを調べる(107)。登録されていれば何も
しないが、登録されていなければ、並列要素を関連語テ
ーブルの関連語槽に登録する(108)。さらに、関連
語テーブルの関連語の出現頻度欄53の値に1を加える
(109)。105から1.09までの処理を、すべて
の並列語に対して行なう(110)。すべての並列語に
対して処理を終えたら、読み込んだ全ての文に対して1
01から110までの処理を終えたかどうかを確認し、
読み込んだ全ての文に対して処理を終えるまで101か
ら110までの処理を繰り返す(111)。
実例として、[検索、転記、集計、解析などの操作が簡
単に行える。Jという文を読み込む場合を考える。文書
読み込み前の関連語テーブルの状態は、第5図に示すと
おりである。また、この文の解析結果は、第3図に示す
とおりである。この中から関係子「並列」で結ばれた並
列要素「検索、転記、集計、解析」を取り出す。第5図
の関連語テーブルに示されているように「検索」に対し
ては、既にレコードが存在しているので「転記J、[集
計」、「解析」のうち、「検索」の関連語として登録さ
れていない1転記」、「集計」をキー単語欄41に追加
する。「転記」、「集計」、「解析」に対しては、関連
語テーブルにレコードが存在しないのでレコードを追加
し、各々3単語を関連語欄52に記述する。また、全て
の関連語の8現頻度に1を加える。処理路T後の関連語
テーブルは第6図に示すようになる。
関連語を抽出する際には、並列要素を用いる処理のほか
に、特定の単語を含む特定構文を参照する処理が考えら
れる。
第8図は、関連語抽出ルールのテーブルの内容を表した
ものであり、複数のレコードからなっている。関連語抽
出ルールのテーブルは、条件部と操作部とから構成され
る。さららに、条件部はノード番号81、単語82、子
ノード番号83、関係子84から構成される。また、操
作部は、キー単語85、関連語86、関連種別87 (
同義、L位、同一分野なとの種別かある)から構成され
る、この関連語抽出ルールのテーブルは複数用意されて
いる。
第9図は、関連語データを記憶する第5、第6図の関連
語テーブルとは異なる形式の関連語テーブルであり、複
数のレコードからなる。レコードは、キー単語91.関
連語92、関連種別93からなる。
この処理を、第7図に示すフローチャートに従って説明
する。まず、文章を入力装置から読み込む(700)。
読み込んた各文を順に解析しく701)、意味表現を得
る。得られた意味表現を意味表現デープルとして登録す
る(702)。関連語抽出ルールを順番に読み込み(7
03)、その条件部の構造と一致する構造が意味表現中
にあるかどうかを調べる(704)。一致する部分があ
れば、関連語抽出ルールのテーブル内の操作部のキー単
語がすでに第9図の関連語テーブルのキー単語91に登
録されているか否かを調べる(705)。登録されてい
なければ、操作部のキー単語をキー単語とするレコード
を関連語テーブルに追加する(706)。登録されてい
れば何もしない。
次に、関連語抽出ルールのテーブル内の操作部に示され
た関連語データの内容が第9図の関連語テーブルにすで
に登録済みであるかどうかを調べる(707)。登録さ
れていれば何もしないが、登録されていなければ、関連
語テーブルに、関連語データ92を追加する(708)
。さらに、読み込んだ全ての文に対してこれまでの処理
を終えたかどうかを確認し、読み込んだ全ての文に対し
て処理を終えるまで処理を繰り返す(709)。
上記、関連語抽出ルールは、人手により登録することも
可能である。
第11図は、ルール入力画面の例である。画面には、条
件部入力フィールドと操作部人力フィールドがある。操
作部入力フィールドは、さらにキー単語入力フィールド
、関連詰入カフイールド、関連種別入力フィールドから
なる。第12図は、人力されたルールを記憶するレコー
ドの例である。
レコードは、条件部1201と操作部キー単語1202
、操作部関連語1203、操作部関連種別1204から
成る。
登録処理を第10図に示すフローチャー1・に従って説
明する。まず、人手により関連語抽出ルールの内容を入
力する。条件部にあたる部分のもとになる句または文は
自然言語で入力する。操作部にあたる部分は、キー単語
と関連語を字面で入力し、関係種別は番号を入力する(
1001)。入力された条件部の句または文を構文解析
しく1002)、構文解析結果を関連語抽出ルールのテ
ーブル内の条件部に書き込む(1003)。入力された
操作部は、そのまま関連語抽出ルールの操作部に書き込
む(1004)。
例えば、「A2を含むA1の構造」なる句の構文解析結
果が条件部に入力されると、操作部は、キー単語がA1
、関連語がA2、関連種別が[上位Jと指定される。ル
ールを読み込んだ結果は、第8図に示す状態と同じであ
る。
上で述べた関連語抽出処理を、文書検索システムと組合
せることにより、精度の高い検索が可能である。
第14図は、単語分解結果を記憶する単語分解結果テー
ブルの例であり、複数のレコードからなる。レコードは
単語欄1401からなる。第15図は、検索キーの関連
語を記憶する検索キー関連語テーブルの例であり、複数
のレコードからなる。
レコードは関連語槽1501からなる。
検索処理を第13図に示すフローチャートに従って説明
する。まず、ユーザが検索キーを入力装置より入力する
(1301)。検索キーは複合語でもよい。入力された
キーを単語に分割しく1302)、分割結果を単語分解
結果テーブルの単語欄1401に順に登録する。分割さ
れた各単語について、この単語をキーとするレコードが
あるかどうか関連語テーブルを検索する(1303)。
レコードがあれば、関連語槽にある単語を読み込み(1
304)、検索キーの該単語を関連語に変えたものを検
索キーの関連語を記憶する検索キー関連語テーブルの関
連語槽1501に順に登録する(1305)。次に、検
索対象文書を一つずつ読み込み(1306)、キー単語
および関連語槽1501にある単語が存在するかどうか
検査する(1307)。存在すればその文書を出力する
(1.308)。さらに、第1図で述べた処理と全く同
様にして、検索対象文書から関連語データを抽出し、関
連語テーブルを更新する(1309)。
これにより、次回の文書検索時には、更新された関連語
テーブルを利用することができ、より精度の高い文書検
索ができる。以上の処理をすべての文書について繰り返
す(1310)。
例えば、検索キーとして「データ検索」を入力した場合
、第6図に示す関連語テーブルを用いると、「データ転
記」、「データ集計」、「データ解析」を関連語として
認識し、これらの単語を含む文書を全て取りだすことが
できる。
[発明の効果] 本発明によれば、自然言語文から、関連語データを自動
的に抽出することができる。また、ユーザによる句、文
などの入力に基づき関連語抽出ルールのテーブルを自動
的に作成し、この作成されたテーブルを用いることによ
り、ユーザに適した関連語抽出を効率よく行うことがで
きる。
また、この関連語抽出処理を文書検索システムと結合す
ることにより精度の高い検索が可能となる。
【図面の簡単な説明】
第1図は、本発明に係る関連語テーブル作成処理の1実
施例を示すフローチャート、第2図は本発明装置の基本
的構成を示す構成図、第3図は意味表現の例を示す図、
第4図は意味表現を記憶している意味表現テーブルの例
、第5図、第6図は関連語データを記憶する関連語テー
ブルの例、第7図は本発明に係る関連語テーブル作成処
理の他の実施例を示すフローチャート、第8図は関連語
抽出ルールのテーブルの例、第9図は関連語データを記
憶する関連語テーブルの例、第10図は本発明に係る関
連語抽出ルールのテーブルの作成処理の実施例を示すフ
ローチャート、第11図は関連語抽出ルール入力画面、
第12図は関連語抽出ルールの入力レコードの例である
。第13図は本発明に係る検索処理の実施例を示すフロ
ーチャート、第14図は単語分割結果テーブルの例、第
15図は検索キー関連語テーブルの例である。 1・・・・・・入力装置、2・・・・・・処理装置、3
・・・・・・出力装置、4・・・・・・記憶装置 特許出願人 株式会社 日立製作所

Claims (1)

  1. 【特許請求の範囲】 1、自然言語文から関連語データを抽出して関連語テー
    ブルを作成する装置であって、入力装置、処理装置、記
    憶装置及び出力装置を備え、前記処理装置は、前記入力
    装置から入力された自然言語文を解析して意味表現を得
    て前記記憶装置上に意味表現テーブルを作成する手段と
    、該意味表現テーブルから関連語データを抽出し、該抽
    出した関連語データにより前記記憶装置上の関連語テー
    ブルの内容を作成、更新する関連語テーブル作成、更新
    手段とからなることを特徴とする関連語テーブル作成装
    置。 2、前記関連語テーブル作成、更新手段は自然言語文の
    並列構文中の各並列要素同士を関連語データとして抽出
    することを特徴とする特許請求の範囲第1項記載の関連
    語テーブル作成装置。 3、前記関連語テーブル作成、更新手段は自然言語文か
    ら抽出した関連語データと他の自然言語文から抽出した
    関連語データが共通の単語を含む場合に二つの関連語デ
    ータの和集合を関連語テーブルに登録することを特徴と
    する特許請求の範囲第1項記載の関連語テーブル作成装
    置。 4、上記関連語テーブルは複数のレコードからなり、各
    レコードはキー単語、関連語データ及び出現頻度からな
    ることを特徴とする特許請求の範囲第1項記載の関連語
    テーブル作成装置。 5、自然言語文から関連語データを抽出して関連語テー
    ブルを作成する装置であって、入力装置、処理装置、記
    憶装置及び出力装置を備え、前記処理装置は、前記入力
    装置から入力された自然言語文を解析して意味表現を得
    て前記記憶装置上に意味表現テーブルを作成する手段と
    、前記記憶装置に記憶されている関連語抽出ルールのテ
    ーブル内の条件部に登録されている構造が前記意味表現
    中に存在するか否かを検査し、存在するとき前記関連語
    抽出ルールのテーブル内の操作部に登録されているキー
    単語と関連語データを抽出し、該抽出したキー単語と関
    連語データにより前記記憶装置上の関連語テーブルの内
    容を作成、更新する関連語テーブル作成、更新手段とか
    らなることを特徴とする関連語テーブル作成装置。 6、前記記憶装置には、前記関連語抽出ルールのテーブ
    ルが複数個事前に登録されている特許請求の範囲第4項
    記載の関連語テーブル作成装置。 7、前記関連語テーブル作成、更新手段は、前記抽出さ
    れたキー単語が前記関連語テーブルに登録されていない
    とき、該キー単語をキー単語とするレコードを関連語テ
    ーブルに追加登録することを特徴とする特許請求の範囲
    第4項記載の関連語テーブル作成装置。 8、前記関連語テーブル作成、更新手段は、前記抽出さ
    れた関連語データが前記関連語テーブルに登録されてい
    ないとき、該関連語データを前記関連語テーブルに追加
    登録することを特徴とする特許請求の範囲第4項記載の
    関連語テーブル作成装置。 9、自然言語文から条件部及び操作部からなる関連語抽
    出ルールのテーブルを作成する装置であって、入力装置
    、処理装置、記憶装置及び出力装置を備え、前記処理装
    置は、前記入力装置から入力された自然言語文を解析し
    て意味表現を得て、該意味表現を前記記憶装置上の前記
    テーブルの条件部に書き込むと共に前記入力装置から入
    力された操作部のデータを前記テーブルの操作部に書き
    込む手段を備えることを特徴とする関連語抽出ルールの
    テーブル作成装置。 10、入力キーワードに関連する文書を検索する文書検
    索装置であって、入力装置、処理装置、記憶装置及び出
    力装置を備え、前記処理装置は、前記入力キーワードに
    より前記記憶装置上の関連語テーブルを検索して検索結
    果を前記記憶装置上に検索キー関連語テーブルとして登
    録する手段と、検索対象文書を順次読み込み、該文書中
    に前記入力キーワードまたは検索キー関連語テーブル上
    の関連語データが存在するか否かを検査して存在すると
    きその文書を出力する手段と、前記順次読み込まれた検
    索対象文書を解析して意味表現を得て前記記憶装置上に
    意味表現テーブルを作成する手段と、該意味表現テーブ
    ルから関連語データを抽出し、該抽出した関連語データ
    により前記記憶装置上の関連語テーブルの内容を作成、
    更新する関連語テーブル作成、更新手段とからなること
    を特徴とする文書検索装置。 11、前記処理装置は、前記入力キーワードが複合語の
    とき該複合語を単語に分割して前記記憶装置上に検索キ
    ー関連語テーブルとして登録する手段と、前記入力キー
    ワード及び前記単語により前記記憶装置上の関連語テー
    ブルを検索して検索結果を前記記憶装置上に検索キー関
    連語テーブルとして登録する手段をそなえる特許請求の
    範囲第11項記載の文書検索装置。
JP2245126A 1990-09-14 1990-09-14 関連語テーブル作成装置及び文書検索装置 Pending JPH04123264A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2245126A JPH04123264A (ja) 1990-09-14 1990-09-14 関連語テーブル作成装置及び文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2245126A JPH04123264A (ja) 1990-09-14 1990-09-14 関連語テーブル作成装置及び文書検索装置

Publications (1)

Publication Number Publication Date
JPH04123264A true JPH04123264A (ja) 1992-04-23

Family

ID=17129013

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2245126A Pending JPH04123264A (ja) 1990-09-14 1990-09-14 関連語テーブル作成装置及び文書検索装置

Country Status (1)

Country Link
JP (1) JPH04123264A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0773197A (ja) * 1993-09-03 1995-03-17 Fujitsu Ltd 異表記語辞書作成支援装置
JPH10134077A (ja) * 1996-11-05 1998-05-22 Tokkyo Joho Shuppan:Kk ワード処理システムおよび記憶媒体
JP2006293731A (ja) * 2005-04-12 2006-10-26 Fuji Xerox Co Ltd 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0773197A (ja) * 1993-09-03 1995-03-17 Fujitsu Ltd 異表記語辞書作成支援装置
JPH10134077A (ja) * 1996-11-05 1998-05-22 Tokkyo Joho Shuppan:Kk ワード処理システムおよび記憶媒体
JP2006293731A (ja) * 2005-04-12 2006-10-26 Fuji Xerox Co Ltd 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム

Similar Documents

Publication Publication Date Title
US6957213B1 (en) Method of utilizing implicit references to answer a query
US6493713B1 (en) Dictionary and index creating system and document retrieval system
CN110555153A (zh) 一种基于领域知识图谱的问答***及其构建方法
JPH0242572A (ja) 共起関係辞書生成保守方法
JP2001167087A (ja) 構造化文書検索装置,構造化文書検索方法,構造化文書検索用プログラム記録媒体および構造化文書検索用インデックス作成方法
JP2000315216A (ja) 自然言語検索方法および装置
JP2005251115A (ja) 連想検索システムおよび連想検索方法
KR100835706B1 (ko) 자동 색인을 위한 한국어 형태소 분석 시스템 및 그 방법
JPH0816620A (ja) データ分類装置/方法、データ分類木生成装置/方法、派生語抽出装置/方法、シソーラス構築装置/方法、データ処理システム
CN110119404B (zh) 一种基于自然语言理解的智能取数***及其方法
JP3612769B2 (ja) 情報検索装置および情報検索方法
JP3565239B2 (ja) 情報検索装置
JPH04123264A (ja) 関連語テーブル作成装置及び文書検索装置
CN115617965A (zh) 一种语言结构大数据的快速检索方法
KR100376931B1 (ko) 정보 검색 기술을 이용한 한영번역 데이터베이스 시스템 구축 방법
JP2783622B2 (ja) 複合データベースシステム
JP2535629B2 (ja) 検索システムの入力文字列正規化方式
JP2003303194A (ja) 慣用句辞書作成装置、検索用インデックス作成装置、文書検索装置、それらの方法、プログラム及び記録媒体
JP2005284776A (ja) テキストマイニング装置及びテキスト分析方法
JPH0612451A (ja) 例文検索システム
JPS61187077A (ja) 日本語解析装置
JPH09245051A (ja) 自然言語事例検索装置及び自然言語事例検索方法
JPH02253474A (ja) テキストベース検索方法
Liu The semantic vector space model (SVSM): a text representation and searching technique
Sunne SQL