JPH07152781A - 文書処理方法とその装置 - Google Patents

文書処理方法とその装置

Info

Publication number
JPH07152781A
JPH07152781A JP5299300A JP29930093A JPH07152781A JP H07152781 A JPH07152781 A JP H07152781A JP 5299300 A JP5299300 A JP 5299300A JP 29930093 A JP29930093 A JP 29930093A JP H07152781 A JPH07152781 A JP H07152781A
Authority
JP
Japan
Prior art keywords
word
sentence
input
dictionary
meaning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5299300A
Other languages
English (en)
Other versions
JP3363552B2 (ja
Inventor
Makoto Hirota
誠 廣田
Tsuyoshi Yagisawa
津義 八木沢
Kazue Kaneko
和恵 金子
Shogo Shibata
昇吾 柴田
Minoru Fujita
稔 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP29930093A priority Critical patent/JP3363552B2/ja
Publication of JPH07152781A publication Critical patent/JPH07152781A/ja
Application granted granted Critical
Publication of JP3363552B2 publication Critical patent/JP3363552B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 ユーザが知りたい文章を入力し、その入力さ
れた文章と辞書中の各単語情報との間で柔軟な比較を行
って、その文章に該当する単語を高速に検索できる文書
処理方法とその装置を提供することを目的とする。 【構成】 単語と該単語に関する単語情報を辞書3に記
憶しておき、検索するための文章が入力されると、単語
検索処理部2は、その入力された文章に含まれる各単語
と辞書3に記憶された単語情報とが一致するかどうかを
判別する。そして、一致すると判別された単語情報に基
づいて、入力された文章に該当する単語を検索して出力
する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は文書処理装置に関し、例
えば単語の語義を入力し、それに最も適当な単語を検索
する文書処理方法とその装置に関するものである。
【0002】
【従来の技術】一般に、語の語義からその語義を持つ単
語を検索する場合は、例えばUNIXのコマンド“gr
ep”やフルテキストサーチ(全文検索)を用いて検索
が行われる。
【0003】
【発明が解決しようとする課題】しかしながら、この種
のコマンド等で実行される検索方式は、ユーザが検索し
たい単語と関連のある単語或いは、その単語の語義文中
に含まれていそうな何らかの語句をキーワードとして入
力している。そして、単に、このキーワードを含む語義
文を探して、その語義文に該当する単語を検索している
ため、その検索の精度があまり良くないという問題があ
った。
【0004】本発明は上記従来例に鑑みてなされたもの
で、ユーザが知りたい単語の語義文を自由に作成して入
力し、その入力された語義文と辞書に記載された各単語
の語義文との表現の間で柔軟な比較を行って、入力され
た語義文に該当する単語を高速に検索できる文書処理方
法とその装置を提供することを目的とする。
【0005】
【課題を解決するための手段】上記目的を達成するため
に本発明の文書処理装置は以下の様な構成を備える。即
ち、単語と該単語に関する単語情報を記憶する辞書記憶
手段と、検索するための文章を入力する入力手段と、前
記入力手段により入力された文章に含まれる単語と前記
辞書記憶手段に記憶された前記単語情報とが一致するか
どうかを判別する判別手段と、前記判別手段により一致
すると判別された単語情報に基づいて前記文章に該当す
る単語を検索する検索手段とを有する。
【0006】上記目的を達成するために本発明の文書処
理方法は以下の様な工程を備える。即ち、文書を入力し
て該当する単語を検索する文書処理方法であって、検索
するための文章を入力する工程と、入力された文章に含
まれる単語のそれぞれと、単語及び該単語に関する単語
情報を記憶している辞書に記憶された単語情報とが一致
するかどうかを判別する工程と、一致すると判別された
単語情報に基づいて、入力された文章に該当する単語を
前記辞書より検索する工程とを有する。
【0007】
【作用】以上の構成において、入力された文章と辞書に
記憶されている単語情報とが完全に一致していなくて
も、それぞれの表記上の差異をある程度吸収して比較す
るので、ユーザは辞書中の単語情報の表記を気にするこ
となく、自由な文章を入力して検索することができる。
【0008】
【実施例】以下、添付図面を参照して本発明の好適な実
施例を詳細に説明する。
【0009】図1は本発明の一実施例に係る自然言語処
理装置の概略構成を示すブロック図である。同図におい
て、1は入力文保持部で、後述するキーボード等より入
力された文を保持している。2は単語検索処理部で、入
力文保持部1に保持された入力文に基づいて該当する単
語を検索する。3は「単語−語義」辞書で、例えば図4
に示すように、単語とその語義文とが対応付けて記憶さ
れている。4は単語出力部で、単語検索処理部4で検索
された単語が出力される。
【0010】図2は本実施例の自然言語処理装置の具体
的な回路構成を示すブロック図である。
【0011】図2において、101は装置全体を制御す
るCPUで、プログラムメモリ104に記憶されている
制御プログラム(例えば、図3のフローチャートで示
す)に従って装置全体を制御している。このCPU10
1及びプログラムメモリ104は図1の単語検索処理部
2に該当している。102はキーボードで、オペレータ
により操作され、後述する入力文や文書データ等の各種
データや各種指示コマンド等が入力される。103は、
例えばマウス等のポインティングデバイスで、コマンド
入力やメニュ選択等に使用される。105はRAMで、
CPU101の動作時、ワークエリアとして使用され、
後述する入力文S、単語A、変数M、カウンタi等の各
種データを一時的に保存している。よって、このRAM
105は入力文保持部1の機能をも有している。106
は、例えばCRTや液晶等の表示部で、キーボード10
2より入力されたコマンドや文書データ、更にはオペレ
ータへのメッセージ等を表示しており、単語出力部4の
機能をも有している。3は図1に示された、単語と語義
との関係を記憶している辞書である。108は、例えば
ハードディスク等の外部記憶装置で、文書データや画像
データ、更には辞書107の内容が記憶されていても良
い。
【0012】次に、図3のフローチャートを参照して、
本実施例の装置の動作を詳しく説明する。
【0013】まずステップS1では、例えばキーボード
102から入力されるユーザからの入力文を受取り、こ
れを入力文保持部1(例えばRAM105の文書データ
記憶エリア:以降、ここに保持されている入力文を入力
文Sと呼ぶ)に保持する。また、後続の検索処理により
取り出される単語を保持する単語出力部4(例えばRA
M105の検索語記憶エリア:以後、ここに保持されて
いる単語を単語Aと呼ぶ)を、最初に空の文字列(例え
ばヌル(null)コード列)としておく。更に、入力文と辞
書中の語義文との整合度の度合いを示す(以後、これを
スコアSCと呼ぶ)の最大値を保持する変数M、チェッ
クした単語の数をカウントするカウンタiの値をそれぞ
れ“0”に初期化する。尚、これらスコアSC、変数
M、カウンタiの値はRAM105のワークエリアに記
憶されている。
【0014】次にステップS2に進み、カウンタiの値
が予め設定された所定値N(例えば辞書中の単語の総
数)を越えたかどうかを調べ、越えていない場合はステ
ップS3に進む。ステップS3では、カウンタiをイン
クリメント(+1)する。そしてステップS4に進み、
まず「単語−語義」辞書3を引く。
【0015】図4は、この「単語−語義」辞書3のデー
タ構成例を示す図である。
【0016】図4では、辞書中のいくつかの単語と、そ
の単語の意味を示す語義文とが対応付けて示されてい
る。
【0017】そこでステップS4において、カウンタi
の値で示されるi番目の単語の語義文(以後、これを語
義文Gi と呼ぶ)を辞書3より読出す。そして入力文S
と語義文Gi とを比較する。図3に示された関数f
(S,Gi )は、入力文Sと語義文Gi との整合度(マ
ッチング)を調べ、そのスコアを返す関数である。この
関数で表されたスコアは、RAM105の変数mに保持
される。次にステップS5に進み、ステップS4で得ら
れたスコアmと、それまでに得られたスコアの最大値M
とを比較し、mがM以下(m≦M)であればステップS
2に戻る。逆にmがMより大きければ(m>M)ステッ
プS6に進む。
【0018】ステップS6では、最大スコアMを今回得
られたスコアmに書き換えるとともに、単語出力部4に
保持されている単語Aを、辞書中のi番目の単語Wi
書き換える。そしてステップS2に戻る。こうしてステ
ップS2で、カウンタiの値がNを越えた場合はステッ
プS7に進み、検索結果として単語Aに記憶されている
単語Wを出力して処理を終了する。
【0019】図5は図3のステップS4における、入力
文Sと語義文Gi の整合度の比較およびスコア付け(関
数fの内容)のための処理を示すフローチャートであ
る。
【0020】図6(A)に示すように、入力文Sの前か
らp番目の文字をXp とし、図6(B)に示すように、
語義文Gi の前からq番目の文字をYq と表わす。また
最初、スコアSCの値は“0”としておく。尚、このス
コアSCの値は、RAM105に記憶されている。
【0021】マッチングの判定は、入力文Sの文字X
1 ,X2 ,…の先頭から順にそれぞれに一致する文字を
語義文Gi の中の(前から順に)探していく。また、入
力文の文字が語義文の何文字目の文字と一致するか(つ
まりqの値)を記憶するためのリスト(list)を用意す
る。最初、このリストの内容は全て空(“0”)にして
おく(ステップS11)。いま、図6(A)の文字Xp
に注目しているとすると、これが文末コードでなければ
ステップS12からステップS13に進み、対応する文
字を語義文Gi (Y1 〜文末まで)の中から探す。但
し、既にリストに記憶されているポインタの指す文字に
ついては(すでに入力文の他の文字と一致しているた
め)一致しているかどうかの判定を行なわない。図5で
は、ステップS12からステップS17の処理がこの処
理に該当している。即ち、最初にステップS13でqの
値を“1”とし(語義文Gi の先頭)、語義文Gi の先
頭より順次文字Xp と比較していく。このとき、qの値
がリストに既に登録されている時はステップS15より
ステップS17に進み、そうでない時のみステップS1
6で文字Xp と語義文のq番目の文字Yq とが比較され
る。この処理が語義文Gi の最後(文末)まで行われ
る。
【0022】こうしてステップS16で、文字Xp と語
義文字Yq とが一致するとステップS18に進み、スコ
アSCをある一定量増やし、語義文Gi 中の一致した文
字の順位を示す値qをリストに追加する。そしてステッ
プS19でpを+1して(p=p+1)、入力文の文字
位置を次の位置に進め、入力文Sの次の文字Xp+1 につ
いて、前述と同様の処理を行なう。
【0023】このような比較処理を行うことにより、入
力文Sと語義文Gi の表記上の差異が吸収され、柔軟な
マッチング処理を行うことができる。
【0024】例えば、入力文Sが『物事をする理由や目
的など』である場合、図4の辞書例にある「趣旨」とい
う単語の語義文『その事をする中心的なねらいや目的』
と文字の比較を行うと、両者の文表記が異なっているに
もかかわらず、“事をする”や“目的”という文字がう
まく一致して、同じ内容を表していると判断され、この
単語「趣旨」の語義文が高いスコアを得ることができ
る。
【0025】また、前述のマッチング処理では、比較す
る文の中での文字の出現順序の制約を受けない(例え
ば、入力文Sの1番目および5番目の各文字が、語義文
i の4番目および2番目の文字とそれぞれ一致すると
いうことが許される)ので、文字列の前後が逆になって
いるような、いわゆるクロス状態にあっても入力文Sと
語義文Gi の表記とがうまく比較される。
【0026】この文字列のクロスとは、例えば入力文S
が、『目下の者に対し、目上の者が言い聞かせること』
である場合を考える。図4の辞書例の「諭旨」という単
語の語義文『目上の者から目下の者にさとして言い聞か
せること』のようになっている場合は、“目上の者”と
いう文字列と“目下の者”という文字列の位置が入力文
と語義文とで逆になっている。このような関係を文字列
のクロスと呼んでいる。本実施例では、このようなクロ
スしている場合であっても、各文字列同士はうまくマッ
チングが取られることになる。
【0027】図7は本実施例の言語処理装置における具
体的な動作例を示す図で、ここでは入力文が「物事をす
る理由や目的など」であるとき、その文に対応する意味
の単語が検索され、単語「趣旨」との整合度がスコア
“8.0”であり、単語「要旨」との整合度が“5.
0”であり、単語「趣旨」との整合度が“3.0”とい
うようにそれぞれ示されている。
【0028】図7における701は、単語「趣旨」の語
義文『その事をする中心的なねらいや目的』と、入力文
との比較例を示したものである。これから明らかなよう
に、その語義文と入力文とでは8文字が一致しており、
従ってスコアは“8.0”となる。
【0029】尚、前述の実施例では、スコアの最も高い
語義文を持つ単語を検索するものとしたが、スコアの高
い順に複数の単語の候補を出力するようにしてもよい。
本実施例では、整合度の度合いをスコアとして定量的に
評価しているため、このようなことが簡単に実現でき
る。
【0030】また上記実施例では、一致する文字が見つ
かるごとにスコアを一定量増加させるというスコア付け
を行なっているが、本発明はこれに限定されるものでな
く、先見的な知識などを利用したさまざまな方法が可能
である。例えば、漢字同士が一致したときは意味的にも
一致している可能性が高いとみなし、漢字が一致したと
きのスコアの増分を、ひらがなやカタカナが一致した場
合よりも多くする方法等が考えられる。その他にも、ス
コアを計算する数式を自由に設定或いは記述できるよう
にすることにより、種々の微調整ができる。
【0031】更にまた本実施例では、日本語の場合を例
にとって説明したが、英語や独語などのように、どのよ
うな言語にも適用できる。
【0032】また本実施例では、マッチングの対象を語
義文として説明したが、語義文以外の情報、例えば市販
辞書に見られるような同義語、反対語、用例文などを辞
書に持たせ、これらの文字列をマッチングの対象にして
も良い。
【0033】更に、実施例では、文字列を対象とした簡
易なマッチングの場合で説明したが、これ以外にも文字
や単語レベルでのDPマッチング(参照:長尾 真,
「言語工学」,昭晃堂)や、文解析を用いた手法を組み
合わせても良い。
【0034】尚、本発明は複数の機器から構成されるシ
ステムに適用しても、1つの機器からなる装置に適用し
ても良い。また、本発明はシステム或は装置に、本発明
を実施するプログラムを供給することによって達成され
る場合にも適用できることは言うまでもない。
【0035】以上説明したように本実施例では、入力さ
れた語義文と辞書中の各語義文との間で文解析を用いず
に、それぞれの表記上の異なりをある程度吸収して、で
きるだけ高速に一致しているかどうかを調べ、その一致
している度合いを定量的に評価できるようにしている。
更に、入力された語義文に、最も整合していると判断さ
れる語義文を有する単語を検索するようにしたので、ユ
ーザはある語義を有する単語を知りたいときに、その語
義を自由に記述した語義文を入力することによって、そ
の単語を辞書から容易に検索できる効果がある。
【0036】
【発明の効果】以上説明したように本発明によれば、ユ
ーザが知りたい文章を入力し、その入力された文章と辞
書中の各単語情報との間で柔軟な比較を行って、その文
章に該当する単語を高速に検索できる効果がある。
【図面の簡単な説明】
【図1】本実施例の自然言語処理装置の基本構成を示す
機能ブロック図である。
【図2】本実施例の自然言語処理装置の具体的な構成を
示すブロック図である。
【図3】本実施例の自然言語処理装置における処理手順
を示すフローチャートである。
【図4】本実施例の「単語−語義」辞書の具体的な内容
例を示す図である。
【図5】図3のステップS4における入力文と辞書語義
文とのマッチング処理およびスコア付けの処理手順を示
すフローチャートである。
【図6】入力文と辞書語義文の各ポインタにより指示さ
れた文字位置を説明するための図である。
【図7】本実施例の自然言語処理装置の動作例を説明す
るための図である。
【符号の説明】
1 入力文保持部 2 単語検索処理部 3 「単語−語義」辞書 4 単語出力部 101 CPU 104 プログラムメモリ 105 プログラムメモリ 106 表示部 108 外部記憶装置
───────────────────────────────────────────────────── フロントページの続き (72)発明者 柴田 昇吾 東京都大田区下丸子3丁目30番2号 キヤ ノン株式会社内 (72)発明者 藤田 稔 東京都大田区下丸子3丁目30番2号 キヤ ノン株式会社内

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 単語と該単語に関する単語情報を記憶す
    る辞書記憶手段と、 検索するための文章を入力する入力手段と、 前記入力手段により入力された文章に含まれる単語と前
    記辞書記憶手段に記憶された前記単語情報とが一致する
    かどうかを判別する判別手段と、 前記判別手段により一致すると判別された単語情報に基
    づいて前記文章に該当する単語を検索する検索手段と、 を有することを特徴とする文書処理装置。
  2. 【請求項2】 前記辞書記憶手段は単語と該単語の語義
    文を記憶していることを特徴とする請求項1に記載の文
    書処理装置。
  3. 【請求項3】 前記検索手段は入力された文章に含まれ
    る単語のそれぞれと前記語義文に含まれる単語とを順次
    比較し、最も一致する単語の多い語義文に対応する単語
    を検索結果として出力することを特徴とする請求項1に
    記載の文書処理装置。
  4. 【請求項4】 文書を入力して該当する単語を検索する
    文書処理方法であって、 検索するための文章を入力する工程と、 入力された文章に含まれる単語のそれぞれと、単語及び
    該単語に関する単語情報を記憶している辞書に記憶され
    た単語情報とが一致するかどうかを判別する工程と、 一致すると判別された単語情報に基づいて、入力された
    文章に該当する単語を前記辞書より検索する工程と、 を有することを特徴とする文書処理方法。
JP29930093A 1993-11-30 1993-11-30 文書処理方法とその装置 Expired - Fee Related JP3363552B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP29930093A JP3363552B2 (ja) 1993-11-30 1993-11-30 文書処理方法とその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP29930093A JP3363552B2 (ja) 1993-11-30 1993-11-30 文書処理方法とその装置

Publications (2)

Publication Number Publication Date
JPH07152781A true JPH07152781A (ja) 1995-06-16
JP3363552B2 JP3363552B2 (ja) 2003-01-08

Family

ID=17870752

Family Applications (1)

Application Number Title Priority Date Filing Date
JP29930093A Expired - Fee Related JP3363552B2 (ja) 1993-11-30 1993-11-30 文書処理方法とその装置

Country Status (1)

Country Link
JP (1) JP3363552B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005258624A (ja) * 2004-03-10 2005-09-22 Fuji Xerox Co Ltd 言語処理装置、言語処理方法およびプログラム
CN110046491A (zh) * 2019-03-05 2019-07-23 北京达佳互联信息技术有限公司 密保问题的校验方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02115974A (ja) * 1988-10-26 1990-04-27 Hitachi Ltd 言語検索装置
JPH02184975A (ja) * 1989-01-11 1990-07-19 Nippon Telegr & Teleph Corp <Ntt> 自然語入力対話型情報検索における文章による知識表現方式
JPH04139580A (ja) * 1990-09-29 1992-05-13 Fujitsu Ltd 見出し語探索システム
JPH04152468A (ja) * 1990-10-17 1992-05-26 Hitachi Ltd 文書検索装置
JPH04357568A (ja) * 1991-01-30 1992-12-10 Mitsubishi Electric Corp テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02115974A (ja) * 1988-10-26 1990-04-27 Hitachi Ltd 言語検索装置
JPH02184975A (ja) * 1989-01-11 1990-07-19 Nippon Telegr & Teleph Corp <Ntt> 自然語入力対話型情報検索における文章による知識表現方式
JPH04139580A (ja) * 1990-09-29 1992-05-13 Fujitsu Ltd 見出し語探索システム
JPH04152468A (ja) * 1990-10-17 1992-05-26 Hitachi Ltd 文書検索装置
JPH04357568A (ja) * 1991-01-30 1992-12-10 Mitsubishi Electric Corp テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005258624A (ja) * 2004-03-10 2005-09-22 Fuji Xerox Co Ltd 言語処理装置、言語処理方法およびプログラム
CN110046491A (zh) * 2019-03-05 2019-07-23 北京达佳互联信息技术有限公司 密保问题的校验方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
JP3363552B2 (ja) 2003-01-08

Similar Documents

Publication Publication Date Title
US5257186A (en) Digital computing apparatus for preparing document text
US7647554B2 (en) System and method for improved spell checking
JP3363552B2 (ja) 文書処理方法とその装置
JP2595934B2 (ja) 仮名漢字変換処理装置
JPH05113964A (ja) 電子辞書
JPH05233600A (ja) ワードプロセッサ
JPH06266769A (ja) 同義語情報作成装置
JPH08235204A (ja) 文書検索方法及び装置
JP2793992B2 (ja) 同音異義語認識装置
JP2685808B2 (ja) 利用者支援型入力文応答処理装置
JPH0728845A (ja) 文書検索装置及びその方法
JPH04290158A (ja) 文書作成装置
JP3041002B2 (ja) 仮名漢字変換方法及び仮名漢字変換装置
JPH0736903A (ja) 翻訳支援装置
JPH03129568A (ja) 文書処理装置
JPH0721186A (ja) 翻訳支援装置
JPH06149790A (ja) 文章作成装置
JP3213991B2 (ja) ワードプロセッサ
JPH1011433A (ja) 仮名漢字変換方式における同音異義語選択方法及びその装置
JPH0623973B2 (ja) 文字処理装置の頻度変更方式
JPS63657A (ja) 日本語ワ−ドプロセツサ
JPH07239859A (ja) 電子機器
JPH0267676A (ja) 漢数字変換処理装置
JPS6210762A (ja) 仮名漢字変換方式
JPH1185751A (ja) 翻訳装置及び翻訳装置制御プログラムを記憶した媒体

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20021004

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071025

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081025

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091025

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees