JPH034358A - 共起データ作成方法 - Google Patents

共起データ作成方法

Info

Publication number
JPH034358A
JPH034358A JP1138868A JP13886889A JPH034358A JP H034358 A JPH034358 A JP H034358A JP 1138868 A JP1138868 A JP 1138868A JP 13886889 A JP13886889 A JP 13886889A JP H034358 A JPH034358 A JP H034358A
Authority
JP
Japan
Prior art keywords
kana
word
kanji
words
kanji conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1138868A
Other languages
English (en)
Inventor
Masaie Amano
天野 真家
Etsuo Ito
悦雄 伊藤
Kazuhiro Kimura
和広 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP1138868A priority Critical patent/JPH034358A/ja
Publication of JPH034358A publication Critical patent/JPH034358A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) この発明は、日本語ワードプロセッサなどに用いられる
かな漢字変換システムに係り、特に同音異義語の選択を
容易にする機能を持ったかな漢字変換システムに関する
(従来の技術) かな漢字変換は、日本語ワードプロセッサの最も重要な
基本技術である。従来のかな漢字変換技術は、同じ読み
の入力に対して複数の変換候補、すなわち同音異義語が
存在する時、それらのうちから適切なものをユーザに選
択させる方式がとられている。同音異義語が多数ある場
合、ユーザの希望する語が最初に表示されればよいが、
そうでない時は次候補キーの操作により他の候補を次々
と表示させなければならず、選択に時間がかかる。
そこで、2語の意味的な結合のし易さに着目し、結合し
易い2語をペアにした、いわゆる共起データを作成して
、それらを多数蓄積した共起表を用意しておき、同音異
義語が発生した場合、その共起表にあるものを優先して
表示したり、自動選択する方法が考えられている。共起
表の中に該当する語のペアがない場合は、従来通りであ
る。
このような共起表を用いる方法により、例えば「熱い」
と「コーヒー」をペアにした共起データを共起表に登録
しておくことにより、「熱い」 「暑い」 「厚い」な
どの同音異義語の中から、「コーヒー」を修゛飾するも
のとして最大の可能性を与える「熱い」を最上位に表示
したり、または「熱い」を自動的に選択したりすること
ができる。
従来考えられている、共起表を用いる方法では、共起表
を予め日本語ワードプロセッサなどのシステム内に格納
しておかなければならない。
ここで、辞書に登録されている語数を10万語とすると
、2語のペアは単純計算で10万語×10万語−100
億ペアとなる。これらの中で共起関係にあるものは遥か
に少ないが、それでも数百万乃至数千刃ペアは存在する
と考えられる。このような多数のペアを全て共起データ
として共起表に予め登録しておくことは、不可能に近い
ところで、日本語ワードプロセッサなどのかな漢字変換
システムにおける辞書は、不特定多数のユーザが使うこ
とを前提にしているため、5〜10万語という多数の語
を登録しておく必要があるが、−人のユーザ、あるいは
一つの部所に限れば、実際に使われる語の数は遥かに少
なく、1〜2万程度に過ぎないことが分かっている。し
かし、辞書が不特定多数を対象にしているように、共起
表も予め用意するとすれば不特定多数を対象にせざるを
得ない。これは共起データの収集および共起表の作成を
困難にすると同時に、膨大な容量のメモリを必要とする
ことになり、現実的でない。
(発明が解決しようとする課題) 上述したように、従来の共起表をかな漢字変換に用いる
方法では、共起表としてメモリに登録できる共起データ
の数に限界があるため、実用的な意味では、同音異義語
の選択を容易にする効果が小さいという問題があった。
本発明はこのような問題を解決し、限られたメモリ容量
の下で、共起データを用いて同音異義語の選択をより容
易に行なうことできる、かな漢字変換システムを提供す
ることを目的とする。
[発明の構成] (課題を解決するための手段) 上記の課題を達成するため、本発明はユーザが文書を作
成している過程で共起データを自動学習的に作成して記
憶するようにしたことを特徴としている。
すなわち、本発明のかな漢字変換システムは、かな漢字
変換時に複数の同音異義語の中から選択された被選択語
とかな漢字変換された文中の他の語とが特定の文法的関
係にあるかどうかを判定し、特定の文法的関係にあると
判定された被選択語と他の語をそれぞれ示す情報を組に
して、共起データとして記憶するようにしたものである
また、より簡単には、複数の同音異義語の中から選択さ
れた一意に決定された被選択語を示す情報と、かな漢字
変換された文中の他の一意に決定された語を示す情報と
を、全ての文法的関係にあるものについて組にして記憶
するか、または被選択語を表わす情報と、かな漢字変換
された文中の該被選択語の直前および直後の少なくとも
一方の語を表わす情報とを組にして共起データとしてt
己を様してもよい。
(作用) このように本発明では、文書作成の過程で共起データが
作成され記憶されることにより、共起表が蓄積されるの
で、予め共起表を作る必要がない。
こうして蓄積される共起表は、従来の不特定多数のユー
ザのために用意されたものと異なり、特定の一人または
数人程度のユーザの語堂使用傾向を学習した結果を反映
しているため、同音異義語の選択が容易となる。
また、特定のユーザが使う語堂には偏りがあり、数万語
に収まるのが普通であることから、共起表として蓄積さ
れる共起データの数は非常に少なくて済むにもかかわら
ず、同音異義語の選択を容易にする効果は大きい。
(実施例) 以下、図面を参照して本発明の詳細な説明する。
第1図は本発明の一実施例に係るかな漢字変換システム
の構成を示すブロック図である。
第1図において、入力部1は例えばキーボードであり、
かな文を入力したり、校正・追加その他の各種編集のた
めのコマンドを人力するためのものである。表示部2は
入力されたかな文や、かな漢字変換結果および同音異義
語リストその他の各種ガイトメ・シセージなどの表示を
行なう。
文節解析部3は人力されたかな文の文節を解析し、文解
析部4は文節間の係り受は関係の解析などの文の文法的
解析を行なう。かな漢字変換部5は文節解析部3および
文解析部4の解析結果を用いて、入力されたかな文を漢
字混じりの文に変換する。文節文法6は文節解析に、辞
書7は文節解析・文解析・かな漢字変換に、また文法8
は文解析にそれぞれ使用される。
編集制御部9はかな漢字変換処理を含めた編集処理を全
体的に制御するものであり、本実施例では後述するよう
に共起データの作成もこの編集制御部9で行なわれる。
文法的関係判定部11は複数の同音異義語から一つの語
が選択されたとき、被選択語とかな漢字変換されたで文
中の他の語との文法的関係(例えば係り受は関係)を文
解析部4の解析結果を利用して検出し、その検出した文
法的関係が特定の関係、すなわち予め文法的関係表によ
って設定されている一つまたは複数の文法的関係に一致
するか否かを判定する。
文法的関係判定部11の判定結果は、編集制御部9に与
えられる。編集υ18部9ではこの判定結果に従って、
共起データを作成する。
共起データ記憶部12は、編集制御部9で作成された共
起データを記憶することによって、共起表を蓄積する。
次に、第2図に示すフローチャートを用いて、本実施例
における共起データの作成・記憶手順を説明する。なお
、第2図はかな漢字変換の結果が表示部2で表示された
以後の処理を示している。かな漢字変換の結果、表示部
2では例えば第3図に示すような表示がなされる。
かな漢字変換結果に同音異義語がある場合、かな漢字変
換された文の表示において、同音異義語の存在する語(
第3図の例では「使用J)の部分に、例えばオーバーラ
インが付加されて表示される。この場合、入力部1に備
えられた“次候補キー”を操作すると、他の同音異義語
が表示される。また、例えば入力部1に備えられた“同
音異義語−括表示キー“を操作すると、第3図に示すよ
うに画面の下方に同音異義語リストが表示される。
ユーザが入力部1に備えられた“同音異義語選択キー 
を用いて複数の同音異義語の中から適切な語を選択する
と、編集制御部9でそれが認識される(ステップSl)
。次に、文法的関係判定部11において、選択された語
(被選択語)と、かな漢字変換された文中の他の語(例
えば「詳細な」 「用いて」など)との文法的関係が検
出され、さらに検出された文法的関係が、文法的関係表
によって予め設定されている文法的関係に一致するかど
うかが判定される(ステップ82〜S3)。
ステップS3での判定の結果、被選択語と他の語との文
法的関係が、予め設定されている文法的関係と一致した
と判定された場合は、編集制御部9がその被選択語の情
報と他の語の情報とを組にして共起データ記憶部12に
送る。これにより共起データ記憶部12で、被選択語と
他の語との組が共起データとして記憶される(ステップ
S4)。
第3図の例を用いてより具体的に説明する。
今、かな漢字変換された文の表示の中で「使用」と表示
されている部分に当たる適切な語として、「仕様」がユ
ーザにより選択されたとする。
「仕様」は「詳細な」という形容動詞で修飾されており
、また「用いて」という動詞の目的語となっている。す
なわち、この場合の被選択語である「仕様」と、同じ文
中の他の語である「詳細な」、「用いて」との文法的関
係(係り受けの関係)は、それぞれ修飾、目的語の関係
となっている。
文法的関係判定部11は、「仕様」と[詳細な」および
「用い」との文法的関係を検出し、これが予め設定され
た特定の関係にあるかどうかを判定する。この場合、こ
れらの文法的関係はいずれも文法的関係表に予め設定さ
れているものとする。編集制御部9では文法的関係判定
部11の判定結果を受lチると、「仕様」と「詳細な」
の組(仕様、詳細な)と、「仕様」と「用い」の組(仕
様、用い)を共起データとして共起データ記憶部12に
記憶させる。
共起データ記憶部12での記憶に際しては、共起データ
を構成する2語の文字コードを組として記憶してもよい
が、文字コードに付される辞書IDとよばれる識別番号
を組として記憶することが望ましい。こうすることによ
り、「用い」という活用形は、より一般に原形の語幹で
記憶される。
第4図は辞書7の一部を示したもので、読み、見出し、
文法情報および辞書IDを組として格納している。ここ
で、(仕様、用い)の組を共起データとして記憶する場
合、第5図に示すように「仕様」を示す辞書IDと、「
用いる」の語幹である「用」を示す辞書IDとを組にし
て記憶すればよい。辞書IDは文字コードよりはるかに
ビット数が少ないので、辞書IDを用いて共起データを
記憶すると、文字コードを用いて共起データを記憶する
場合に比較して共起データ記憶部12の記憶容量は小さ
くてよい。また活用する語は、−膜内に原形の語幹とし
て簡単に記憶できる。
また、共起表としては第6図に示すように共起データを
構成する2つの辞書IDの組に、両者の文法的関係を示
す情報である2項間関係名を付加したものを共起データ
として記憶したものでもよい。
次に、かな漢字変換に際して、複数の変換候補(同音異
義語)を与えるような読みが入力され、且つその変換候
補の一つと文中の他の語との組合わせが、共起データ記
憶部12に共起データとして記憶されているものとする
。この様な場合には、その変換候補か最も高い可能性を
与えるものとして、かな漢字変換された文の表示中に最
初に現れる。また、この場合、第3図中に示すような同
音異義語リストを表示させたとすれば、共起データとし
て記憶されている変換候補は、最上位に表示される。従
って、ユーザは同音異義語の中から適切な語を容易に選
択することができる。
また、このように共起データとして記憶されている変換
候補を候補とせず、自動的に選択するようにしてもよい
本発明は上記実施例に限られず、種々変形して実施する
ことができる。例えば上記実施例では2つの語を組にし
て共起データとしたが、3つまたはそれ以上の語を組に
して共起データとして記憶してもよい。例えば前述の例
に従えば「仕様」と「詳細な」と「用い」の組(仕様。
詳細な、用い)を共起データとして記憶することもでき
る。
また、上記実施例では学習する共起データの信頼度を高
めるために、?U数の同音異義語から選択された被選択
語と、かな漢字変換された文中の他の語との文法的関係
を検出し、特定の文法的関係にある被選択語と他の語と
の組のみを共起データとしたが、特定の文法的関係にあ
るものだけを共起データとする必要はなく、全ての文法
的関係にある一意に決定された被選択語と他の語との組
を共起データとしてもよい。また、このような文法的関
係を判定せず、機械的に被選択語とその直前または直後
の語、あるいは直前および直後両方の語とを組にして共
起データとしてもよい。
その他、本発明は要旨を逸脱しない範囲で種々変形して
実施することが可能である。
[発明の効果] 本発明によれば、かな漢字変換の過程で共起関係を持つ
語を学習して共起データを記憶することによって、共起
表を蓄積することにより、予め多数の共起データを共起
表として大容量のメモリに用意しておくことなく、同音
異義語の選択を容易にすることができる。
また、本発明により蓄積される共起表は、実際にかな漢
字変換システムを使用するユーザの語堂使用傾向を学習
した結果を強く反映したものとなるため、記憶される共
起データの数が少なくとも効果は大きい。
しかも、本発明のかな漢字変換システムは、同音異義語
について選択を行なうにつれて共起データが蓄積されて
ゆき、使い込むほど性能が向上するという特長がある。
【図面の簡単な説明】
第1図は本発明の一実施例に係るかな漢字変換システム
の構成を示すブロック図、第2図は同実施例における共
起データ作成・記憶手順を説明するためのフローチャー
ト、第3図は同実施例におけるかな漢字変換時の画面上
の表示例を示す図、第4図は同実施例における共起デー
タ作成の元となる辞書の一部を示す図、第5図は同実施
例における共起データの具体例を示す図、第6図は共起
データの他の具体例を示す図である。 1・・・入力部     2・・・表示部3・・・文節
解析部   4・・・文解析部5・・・かな漢字変換部
 6・・・文節文法7・・・辞書      8・・・
文法9・・・編集制御部 11・・・文法的関係判定部 12・・・共起データ記憶部

Claims (3)

    【特許請求の範囲】
  1. (1)かな漢字変換時に複数の同音異義語の中から選択
    された被選択語とかな漢字変換された文中の他の語とが
    特定の文法的関係にあるかどうかを判定する判定手段と
    、 この判定手段により特定の文法的関係にあると判定され
    た前記被選択語および前記他の語をそれぞれ示す情報を
    組にして記憶する記憶手段と、 を具備することを特徴とするかな漢字変換システム。
  2. (2)かな漢字変換時に複数の同音異義語の中から選択
    された一意に決定された被選択語を示す情報と、かな漢
    字変換された文中の他の一意に決定された語を示す情報
    とを、全ての文法的関係にあるものについて組にして記
    憶する記憶手段を具備することを特徴とするかな漢字変
    換システム。
  3. (3)かな漢字変換時に複数の同音異義語の中から選択
    された被選択語を示す情報と、かな漢字変換された文中
    の該被選択語の直前および直後の少なくとも一方の語を
    示す情報とを組にして記憶する記憶手段を具備すること
    を特徴とするかな漢字変換システム。
JP1138868A 1989-05-31 1989-05-31 共起データ作成方法 Pending JPH034358A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1138868A JPH034358A (ja) 1989-05-31 1989-05-31 共起データ作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1138868A JPH034358A (ja) 1989-05-31 1989-05-31 共起データ作成方法

Publications (1)

Publication Number Publication Date
JPH034358A true JPH034358A (ja) 1991-01-10

Family

ID=15232002

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1138868A Pending JPH034358A (ja) 1989-05-31 1989-05-31 共起データ作成方法

Country Status (1)

Country Link
JP (1) JPH034358A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05132121A (ja) * 1991-11-12 1993-05-28 Daikin Ind Ltd 部品供給装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05132121A (ja) * 1991-11-12 1993-05-28 Daikin Ind Ltd 部品供給装置

Similar Documents

Publication Publication Date Title
US5303150A (en) Wild-card word replacement system using a word dictionary
EP0370774A2 (en) Machine translation system
US4953088A (en) Sentence translator with processing stage indicator
US5079701A (en) System for registering new words by using linguistically comparable reference words
JPH034358A (ja) 共起データ作成方法
JPH07182333A (ja) 日本語処理装置
JP4843596B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JPH07230472A (ja) 人名誤読補正方法
JP2621999B2 (ja) 文書処理装置
JPH045224B2 (ja)
JP3622841B2 (ja) かな漢字変換装置およびかな漢字変換方法
JPH034364A (ja) 機械翻訳システム
JPH0380363A (ja) 文書処理装置
JPS63163956A (ja) 文書作成・校正支援装置
JPH01114976A (ja) 文書処理装置の辞書構造
JPH0628338A (ja) 文章作成装置
JPS5998236A (ja) 日本文入力装置
JPS63136264A (ja) 機械翻訳装置
JPH06149791A (ja) 漢字文章入力装置
JPH06282567A (ja) 翻訳支援装置
JPH0264859A (ja) 文章処理装置
JPH01114973A (ja) 文書作成・校正支援装置
JPH08241315A (ja) 文書処理装置の単語登録機構
JPH0484360A (ja) 文章検査装置
JPH07249035A (ja) 仮名漢字変換装置及び方法