JPH0973454A - 文書作成装置及び文書作成方法 - Google Patents

文書作成装置及び文書作成方法

Info

Publication number
JPH0973454A
JPH0973454A JP7225379A JP22537995A JPH0973454A JP H0973454 A JPH0973454 A JP H0973454A JP 7225379 A JP7225379 A JP 7225379A JP 22537995 A JP22537995 A JP 22537995A JP H0973454 A JPH0973454 A JP H0973454A
Authority
JP
Japan
Prior art keywords
search
correspondence table
paraphrase
document
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7225379A
Other languages
English (en)
Inventor
Yasuo Tanosaki
康雄 田野崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP7225379A priority Critical patent/JPH0973454A/ja
Publication of JPH0973454A publication Critical patent/JPH0973454A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】自動生成された語彙対応表を用いて検索を行う
ことにより、高度の曖昧検索を実現することができ、大
量な文書データベースの中から所望のものを的確に検索
することが可能な文書作成装置を提供することを目的と
する。 【解決手段】形態素解析部1aと、構文解析部1bと、
言い換え表現抽出部1cと、言い換え表現解析部1dと
を備え、入力データとしては一般的なテキストデータを
与えるのみで、言い換え表現と被言い換え表現語句との
対応表を自動的に作成することができ、又、言い換え表
現に含まれる言い換え語のみではなく、これに付属した
修飾語も被言い換え語に対応づけて格納するため、ここ
で作成された辞書を利用して各種の論理演算を行う曖昧
検索も可能になることを特徴とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、テキストデータベ
ースから自動的に抽出・生成された連想キーデータを用
いて曖昧詮索を行う文書作成装置に関する。
【0002】
【従来の技術】従来、文書作成装置に於ける文書検索で
の曖昧検索を行うためには、類語辞書・シソーラス等を
用いるのが一般的であった。しかし、これらの辞書を整
備するのには時間を要し、特に進歩の速い先端科学の分
野の検索には追従できない状況であった。
【0003】
【発明が解決しようとする課題】上述したように、従
来、曖昧検索を行う際に一般的な既存の類語辞書或いは
シソーラスといったものを利用するのでは効率が悪い。
そのため、自動的にこういった辞書を生成する手段及び
これを参照して文書検索を行う手段が渇望されていた。
更に、文章中には新出語の説明を行う「言い換え表現」
というものが頻繁に現れるが、こういった表現を利用し
て、曖昧検索を行うために必要なデータを自動的に作成
する手段及びこれを利用する手段も渇望されていた。
【0004】そこで、本発明は上記事情を考慮して成さ
れたもので、自動生成された語彙対応表を用いて検索を
行うことにより、高度の曖昧検索を実現することがで
き、大量な文書データベースの中から所望のものを的確
に検索することが可能な文書作成装置を提供することを
目的とする。
【0005】
【課題を解決するための手段】本発明は、上記目的を達
成するため、文書作成装置であって、見出し語に対応づ
けてその言い換え語をその修飾語とともに格納する語彙
対応表格納手段と、検索のためのキーワードを入力する
キーワード入力手段とを具備し、前記語彙対応表格納手
段の格納情報を参照し、前記キーワード入力手段のキー
ワードに対応する言い換え語との修飾語から生成した検
索式を新たな検索キーとして検索を行うようにしたこと
を特徴とする文書作成装置にある。
【0006】又、本発明は上記目的を達成するため、上
記文書作成装置にあって、見出し語に対する言い換え語
が同義語であり、それが、複合語で表わされる場合に
は、当該複合語を構成する各単語を語彙対応表に格納す
るようにし、見出し語に対する類語検索を行う際、各構
成単語の全てが一定の範囲内に包含する文書を検索する
ようにしたことにある。
【0007】更に、本発明は上記目的を達成するため、
上記文書作成装置にあって、見出し語に対する言い換え
語が上位概念語である場合には、その文例データ中に現
れた修飾語とともに格納し、見出し語に対する類語検索
を行う際に、上位概念語とその修飾語の全てを包含する
文書を検索するようにしたことにある。
【0008】更に、本発明は上記目的を達成するため
に、上記文書作成装置にあって、文例テキスト中の言い
換え表現を抽出して作成した語彙対応表辞書を設けたこ
とにある。
【0009】更に、本発明は上記目的を達成するため、
上記文書作成装置にあって、語彙対応表中で、同一見出
し語について、複数の言い換え語で存在する場合には、
その内最も修飾語が少いものを検索キー対象として用い
ることにある。
【0010】更に、本発明は上記目的を達成するため、
上記文書作成装置にあって、語彙対応表中のデータを参
照して検索式を作成するようにしたことにある。上記構
成によれば、入力データとしては一般的なテキストデー
タを与えるのみで、言い換え表現と被言い換え表現語句
との対応表を自動的に作成することができる。言い換え
表現は被言い換え表現の内容を説明する表現であり、こ
れが語句の場合には、一般に、被言い換え表現に対する
同義語或いはシソーラスの上位語からなるものである。
そのため本システムで作成された対応表を文書検索シス
テムで参照することにより曖昧検索が実現できる。又、
言い換え表現に含まれる言い換え語のみではなく、これ
に付属した修飾語も被言い換え語に対応づけて格納する
ため、ここで作成された辞書を利用して各種の論理演算
を行なう曖昧検索も可能になる。
【0011】
【発明の実施の形態】本発明の概略は、次の通りであ
る。即ち、テキストに対して形態素解析を行う手段と、
その結果を用いて言い換え表現および被言い換え表現語
句を抽出する手段と、言い換え表現中の修飾語を抽出す
る手段と、言い換え表現中の被修飾語を抽出する手段
と、被言い換え後と対応付けて言い換え表現中の修飾語
及び被修飾語を格納する手段と抽出した言い換え表現語
句についてこれが修飾語を含む場合には、その被修飾語
を、これに対応する被書き換え表現語句の上位概念語句
としてシソーラスに登録管理する手段と、抽出した言い
換え表現語句についてこれが修飾語を含まない場合に
は、この語句をこれに対応する被書き換え表現語句の同
義語として同義語辞書に登録管理する手段とを具備する
ことを特徴とする語彙対応表作成装置によって作成した
語彙対応表を用いて、検索式を作成する手段と、同義語
に関しては見出し語に対する類語検索を行なう際にその
各構成単語の全てが一定の範囲内に含まれる文書を検索
する検索方式と、見出し語に対する類語検索を行う際に
上位概念語とその修飾語の全てを含む文書を検索する検
索法指揮とを具備したことを特徴とする。
【0012】これにより、入力データとしては一般的な
テキストデータを与えるのみで、言い換え表現と被言い
換え表現語句との対応表を自動的に作成することができ
る。言い換え表現は被言い換え表現の内容を説明する表
現であり、これが語句の場合には、一般に、被言い換え
表現に対する同義語あるいはシソーラスの上位語からな
るものである。そのため本システムで作成された対応表
を文書検索システムで参照することにより曖昧検索が実
現できる。又、言い換え表現に含まれる言い換え語のみ
ではなく、これに付属した修飾語も被言い換え語に対応
づけて格納するため、ここで作成された辞書を利用して
各種の論理演算を行う曖昧検索も可能になる。
【0013】以下、図面を参照して本発明の一実施の形
態を説明する。本装置はCPU及びメモリ・外部記憶装
置等から成るコンピュータ或いはワードプロセッサ中に
組み込まれている。又、本実施装置は、テキストデータ
ベース中から語彙対応表を作成する機能と、語彙対応表
を用いて検索を実行する機能を持つ。
【0014】先ず、本装置で用いる構成要素を図1に示
す。即ち、本装置は形態素解析部1aと、構文解析部1
b、言い換え表現抽出部1c、言い換え表現解析部1
d、同義語データ格納部1e、上位概念データ格納部1
f、テキスト格納バッファ1g、形態素解析結果格納バ
ッファ1h、語彙対応表格納バッファ1h、キーワード
入力部1p、キーワードサーチ部1q、見出し語チェッ
ク部1r、検索式生成部1s、検索実行部1t、キーワ
ード格納バッファ1u、検索式格納バッファ1v、及び
検索結果表示部1wとから成る。
【0015】次に、本装置の処理の流れについて具体的
に説明する。先ず、語彙対応表の作成処理過程について
図4を用いて簡単に説明する。ここでは、先ずテキスト
データをテキストバッファに格納する(ステップ5
a)。次に、形態素解析部1aが駆動しテキストデータ
の内容を処理し、結果を形態素解析結果格納バッファ1
hに格納する(ステップ5b)。形態素解析の結果を原
文書と対応づけて図2の形態素解析結果1及び2に示
す。
【0016】次に、言い換え表現抽出部1cが駆動す
る。ここでは、形態素解析結果格納バッファ1hに格納
されている結果を参照して、テキスト中に名詞に続く丸
括弧或いは名詞に続くコロン及びセミコロンがあるかど
うか調べ(ステップ5c)、あった場合には、丸括弧に
囲まれた部分或いはコロン及びセミコロンに続く部分を
「言い換え表現」とみなし後の処理を行う。この場合、
言い換え表現の直前の名詞を「被言い換え語」と呼ぶ。
【0017】次に、言い換え表現解析部1dが駆動する
(ステップ5d)。ここでは、形態素解析結果格納バッ
ファ1hを参照して、言い換え表現中に名詞以外の要素
が含まれているかを調べる。含まれていれば、言い換え
表現は、被言い換え表現に対する上位概念語とその修飾
語であるとみなし、上位語属性をセットする(ステップ
5f)、言い換え表現中に名詞のみしか含まれない場合
には、言い換え表現は複合語であり、被言い換え語に対
する同義語であるとみなし、同義語属性をセットする
(ステップ5g)。この後、形態素解析結果格納バッフ
ァ1hを参照して、被言い換え語と、その修飾語の組を
すでに解析した属性データとともに語彙対応表格納バッ
ファ1g中に格納する(ステップ5g)。語彙対応表格
納バッファ1g内に格納されている語彙対応表データの
構造を図3に示す。
【0018】語彙対応表格納バッファ1gの内容は、作
成処理終了後に外部記憶装置に格納されるが、検索実行
時には、再び語彙対応表格納バッファ1gにロードされ
るものである。
【0019】次に、検索実行時の語彙対応表を用いて処
理について図6を用いて説明する。キーワード入力1p
が起動し、ユーザが入力した検索用キーワードをキーワ
ード格納バッファ1uに格納する(ステップ6a)。続
いて、見出し語チェック部1qが起動する(ステップ6
b)。ここでは、語彙対応表格納バッファ1g中に格納
されている語彙対応表の見出し語にキーワード格納バッ
ファ1uに格納されているキーワードと等しいものがあ
るか調べる。該当するものがなかった場合には検索処理
を終了する。該当するものがあった場合には、検索指揮
生成部1sが起動し、語彙対応表中で該当する見出し語
に対応する属性・言い換え語・修飾語を参照して検索式
を生成する(ステップ6c)。
【0020】検索式生成部1sでは、先ず該当する見出
し語に対応する語彙対応表の行データの属性の欄を内容
を参照する。これが「同義語」属性ならば、この行の言
い換え語と各修飾語のデータを例えば記号「#」でつな
いだものを検索式格納バッファ1vに格納する。図3の
例では、見出し語「DVD」から生成される検索式は、
「デジタル#ビデオ#ディスク」となる。
【0021】又、見出し語に対応する語彙対応表の行デ
ータの属性の欄の内容が「同義語」属性ならば、この行
の言い換え語と各修飾語のデータを例えば記号「*」で
つないだものを検索式格納バッファ1vに格納する。図
3の例では、見出し語「アロマロカリス」から生成され
る検索式は、「古生代*水中*生物」となる。
【0022】図5に於いて、ステップ6cで、検索式デ
ータを検索式格納バッファ1vに格納したあと、制御は
ステップ6dに移る。ステップ6dでは検索実行部1t
が起動する。
【0023】検索実行1tでは、検索式格納バッファ1
vに格納されている検索式に照合する文書の検索を、全
文検索の手法によって行う。ここで検索式を参照する際
には、一般に検索式が、「キーワード1 * キーワー
ド2」と記述されている場合には、キーワード1とキー
ワード2の何れをも含む文書ならどの文書とでも照合す
る要に検索処理を行ない、検索式が、「キーワード1
# キーワード2」と記述されている場合には、キーワ
ード1とキーワード2の何れをも含み、且つキーワード
1とキーワード2とが一定も字数内に存在する文書のみ
と照合するように検索処理を行う。実施例装置では、こ
の文字数が16に設定してある。
【0024】ステップ6dで検索実行部1tが起動した
後、処理はステップ6eに移り、検索結果表示部1wが
検索結果の表示を行ない、検索処理を終了する。尚、見
出し語チェック部1rでの処理に於いて、該当する見出
し語が複数個ある場合には、その内、それに対応する修
飾語の最も少ないものを含む行のデータを採用すること
にする。
【0025】以上が本発明の一実施形態例である。尚、
本発明は上記の例に限定されるものではない。例えば、
上記の検索法指揮を一般的な検索方式と組み合わせて用
いても良い。一般的な検索方式によって得られた検索件
数が一定数以下の時本検索法指揮を実行するようなこと
も考えられる。その他、本発明はその趣旨を逸脱しない
範囲で各種の変形が可能である。
【0026】
【発明の効果】以上詳記したように、本発明によれば、
自動生成された語彙対応表を用いて検索を行うことによ
り、高度の曖昧検索を実現することができる。これによ
り、大量な文書データベースの中からユーザの目的とす
るものを的確に検索することが可能となり、その実用上
多大なる効果が得られるものである。
【図面の簡単な説明】
【図1】本発明の一実施の形態に係る構成を示すブロッ
ク図。
【図2】同実施の形態に於ける形態素解析結果を示した
図。
【図3】同実施の形態に於ける語彙対応表の例を示した
図。
【図4】同実施の形態に於ける語彙対応表の作成処理の
流れを示したフローチャート。
【図5】同実施の形態に於ける検索実行部の処理の流れ
を示したフローチャート。
【符号の説明】
1a…形態素解析部、1b…構文解析部、1c…言い換
え表現抽出部、1d…言い換え表現解析部、1e…同義
語データ格納部、1f…上位概念データ格納部、1g…
テキスト格納バッファ、1h…形態素解析結果格納バッ
ファ、1g…語彙対応表格納バッファ、1p…キーワー
ド入力部、1q…キーワードサーチ部、1r…見出し語
チェック部、1s…検索式生成部、1t…検索実行部、
1w…検索結果表示部、1u…キーワード格納バッフ
ァ、1v…検索式格納バッファ。

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 文書作成装置であって、 見出し語に対応づけてその言い換え語をその修飾語とと
    もに格納する語彙対応表格納手段と、 検索のためのキーワードを入力するキーワード入力手段
    とを具備し、 前記語彙対応表格納手段の格納情報を参照し、前記キー
    ワード入力手段のキーワードに対応する言い換え語との
    修飾語から生成した検索式を新たな検索キーとして検索
    を行うようにしたことを特徴とする文書作成装置。
  2. 【請求項2】 見出し語に対する言い換え語が同義語で
    あり、それが、複合語で表わされる場合には、当該複合
    語を構成する各単語を語彙対応表に格納するようにし、 見出し語に対する類語検索を行う際、各構成単語の全て
    が一定の範囲内に包含する文書を検索するようにしたこ
    とを特徴とする請求項1記載の文書作成装置。
  3. 【請求項3】 見出し語に対する言い換え語が上位概念
    語である場合には、その文例データ中に現れた修飾語と
    ともに格納し、 見出し語に対する類語検索を行う際に、上位概念語とそ
    の修飾語の全てを包含する文書を検索するようにしたこ
    とを特徴とする請求項1記載の文書作成装置。
  4. 【請求項4】 文例テキスト中の言い換え表現を抽出し
    て作成した語彙対応表辞書を設けたことを特徴とする請
    求項1記載の文書作成装置。
  5. 【請求項5】 語彙対応表中で、同一見出し語につい
    て、複数の言い換え語で存在する場合には、その内最も
    修飾語が少いものを検索キー対象として用いることを特
    徴とする請求項1記載の文書作成装置。
  6. 【請求項6】 語彙対応表中のデータを参照して検索式
    を作成するようにしたことを特徴とする請求項1記載の
    文書作成装置。
JP7225379A 1995-09-01 1995-09-01 文書作成装置及び文書作成方法 Pending JPH0973454A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7225379A JPH0973454A (ja) 1995-09-01 1995-09-01 文書作成装置及び文書作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7225379A JPH0973454A (ja) 1995-09-01 1995-09-01 文書作成装置及び文書作成方法

Publications (1)

Publication Number Publication Date
JPH0973454A true JPH0973454A (ja) 1997-03-18

Family

ID=16828437

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7225379A Pending JPH0973454A (ja) 1995-09-01 1995-09-01 文書作成装置及び文書作成方法

Country Status (1)

Country Link
JP (1) JPH0973454A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006190044A (ja) * 2005-01-05 2006-07-20 Ricoh Co Ltd 関連文字列生成装置、プログラム、及び記憶媒体
WO2021107006A1 (ja) * 2019-11-27 2021-06-03 株式会社東芝 情報処理装置、情報処理方法及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006190044A (ja) * 2005-01-05 2006-07-20 Ricoh Co Ltd 関連文字列生成装置、プログラム、及び記憶媒体
WO2021107006A1 (ja) * 2019-11-27 2021-06-03 株式会社東芝 情報処理装置、情報処理方法及びプログラム
CN114746862A (zh) * 2019-11-27 2022-07-12 株式会社东芝 信息处理装置、信息处理方法以及程序

Similar Documents

Publication Publication Date Title
Levow et al. Dictionary-based techniques for cross-language information retrieval
JP4544674B2 (ja) 選択文字列に関連する情報を提供するシステム
US7523102B2 (en) Content search in complex language, such as Japanese
KR101004515B1 (ko) 문장 데이터베이스로부터 문장들을 사용자에게 제공하는 컴퓨터 구현 방법 및 이 방법을 수행하기 위한 컴퓨터 실행가능 명령어가 저장되어 있는 유형의 컴퓨터 판독가능 기록 매체, 문장 데이터베이스로부터 확인 문장들을 검색하는 시스템이 저장되어 있는 컴퓨터 판독가능 기록 매체
US5278980A (en) Iterative technique for phrase query formation and an information retrieval system employing same
JP2783558B2 (ja) 要約生成方法および要約生成装置
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US7293015B2 (en) Method and system for detecting user intentions in retrieval of hint sentences
US20070011132A1 (en) Named entity translation
JPH10232883A (ja) 多言語対応文書検索システム
JPH0724056B2 (ja) コンピュータによる形態論的テキスト解析方法
JPH02308370A (ja) 機械翻訳システム
JPH05314166A (ja) 電子化辞書および辞書検索装置
JP2008084070A (ja) 構造化文書検索装置およびプログラム
Srinivas et al. An approach to robust partial parsing and evaluation metrics
JPH0973454A (ja) 文書作成装置及び文書作成方法
EP1605371A1 (en) Content search in complex language, such as japanese
JP2004318381A (ja) 類義性計算方法、類義性計算プログラム、類義性計算プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003006191A (ja) 外国語文書作成支援装置及び外国語文書作成支援方法並びにプログラム記録媒体
JPH0793345A (ja) 文書検索装置
JP2840258B2 (ja) 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法
JPH0561902A (ja) 機械翻訳システム
JP4262529B2 (ja) 全文検索装置、方法、プログラム及び記録媒体
JPH1115846A (ja) 情報検索装置および記録媒体
Takeda et al. CRITAC—An experimental system for Japanese text proofreading