JPH034358A

JPH034358A - 共起データ作成方法

Info

Publication number: JPH034358A
Application number: JP1138868A
Authority: JP
Inventors: Masaie Amano; 天野　真家; Etsuo Ito; 悦雄伊藤; Kazuhiro Kimura; 和広木村
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1989-05-31
Filing date: 1989-05-31
Publication date: 1991-01-10

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［発明の目的］（産業上の利用分野）この発明は、日本語ワードプロセッサなどに用いられる
かな漢字変換システムに係り、特に同音異義語の選択を
容易にする機能を持ったかな漢字変換システムに関する
。

（従来の技術）かな漢字変換は、日本語ワードプロセッサの最も重要な
基本技術である。従来のかな漢字変換技術は、同じ読み
の入力に対して複数の変換候補、すなわち同音異義語が
存在する時、それらのうちから適切なものをユーザに選
択させる方式がとられている。同音異義語が多数ある場
合、ユーザの希望する語が最初に表示されればよいが、
そうでない時は次候補キーの操作により他の候補を次々
と表示させなければならず、選択に時間がかかる。

そこで、２語の意味的な結合のし易さに着目し、結合し
易い２語をペアにした、いわゆる共起データを作成して
、それらを多数蓄積した共起表を用意しておき、同音異
義語が発生した場合、その共起表にあるものを優先して
表示したり、自動選択する方法が考えられている。共起
表の中に該当する語のペアがない場合は、従来通りであ
る。

このような共起表を用いる方法により、例えば「熱い」
と「コーヒー」をペアにした共起データを共起表に登録
しておくことにより、「熱い」　「暑い」　「厚い」な
どの同音異義語の中から、「コーヒー」を修゛飾するも
のとして最大の可能性を与える「熱い」を最上位に表示
したり、または「熱い」を自動的に選択したりすること
ができる。

従来考えられている、共起表を用いる方法では、共起表
を予め日本語ワードプロセッサなどのシステム内に格納
しておかなければならない。

ここで、辞書に登録されている語数を１０万語とすると
、２語のペアは単純計算で１０万語×１０万語−１００
億ペアとなる。これらの中で共起関係にあるものは遥か
に少ないが、それでも数百万乃至数千刃ペアは存在する
と考えられる。このような多数のペアを全て共起データ
として共起表に予め登録しておくことは、不可能に近い
。

ところで、日本語ワードプロセッサなどのかな漢字変換
システムにおける辞書は、不特定多数のユーザが使うこ
とを前提にしているため、５〜１０万語という多数の語
を登録しておく必要があるが、−人のユーザ、あるいは
一つの部所に限れば、実際に使われる語の数は遥かに少
なく、１〜２万程度に過ぎないことが分かっている。し
かし、辞書が不特定多数を対象にしているように、共起
表も予め用意するとすれば不特定多数を対象にせざるを
得ない。これは共起データの収集および共起表の作成を
困難にすると同時に、膨大な容量のメモリを必要とする
ことになり、現実的でない。

（発明が解決しようとする課題）上述したように、従来の共起表をかな漢字変換に用いる
方法では、共起表としてメモリに登録できる共起データ
の数に限界があるため、実用的な意味では、同音異義語
の選択を容易にする効果が小さいという問題があった。

本発明はこのような問題を解決し、限られたメモリ容量
の下で、共起データを用いて同音異義語の選択をより容
易に行なうことできる、かな漢字変換システムを提供す
ることを目的とする。

［発明の構成］（課題を解決するための手段）上記の課題を達成するため、本発明はユーザが文書を作
成している過程で共起データを自動学習的に作成して記
憶するようにしたことを特徴としている。

すなわち、本発明のかな漢字変換システムは、かな漢字
変換時に複数の同音異義語の中から選択された被選択語
とかな漢字変換された文中の他の語とが特定の文法的関
係にあるかどうかを判定し、特定の文法的関係にあると
判定された被選択語と他の語をそれぞれ示す情報を組に
して、共起データとして記憶するようにしたものである
。

また、より簡単には、複数の同音異義語の中から選択さ
れた一意に決定された被選択語を示す情報と、かな漢字
変換された文中の他の一意に決定された語を示す情報と
を、全ての文法的関係にあるものについて組にして記憶
するか、または被選択語を表わす情報と、かな漢字変換
された文中の該被選択語の直前および直後の少なくとも
一方の語を表わす情報とを組にして共起データとしてｔ
己を様してもよい。

（作用）このように本発明では、文書作成の過程で共起データが
作成され記憶されることにより、共起表が蓄積されるの
で、予め共起表を作る必要がない。

こうして蓄積される共起表は、従来の不特定多数のユー
ザのために用意されたものと異なり、特定の一人または
数人程度のユーザの語堂使用傾向を学習した結果を反映
しているため、同音異義語の選択が容易となる。

また、特定のユーザが使う語堂には偏りがあり、数万語
に収まるのが普通であることから、共起表として蓄積さ
れる共起データの数は非常に少なくて済むにもかかわら
ず、同音異義語の選択を容易にする効果は大きい。

（実施例）以下、図面を参照して本発明の詳細な説明する。

第１図は本発明の一実施例に係るかな漢字変換システム
の構成を示すブロック図である。

第１図において、入力部１は例えばキーボードであり、
かな文を入力したり、校正・追加その他の各種編集のた
めのコマンドを人力するためのものである。表示部２は
入力されたかな文や、かな漢字変換結果および同音異義
語リストその他の各種ガイトメ・シセージなどの表示を
行なう。

文節解析部３は人力されたかな文の文節を解析し、文解
析部４は文節間の係り受は関係の解析などの文の文法的
解析を行なう。かな漢字変換部５は文節解析部３および
文解析部４の解析結果を用いて、入力されたかな文を漢
字混じりの文に変換する。文節文法６は文節解析に、辞
書７は文節解析・文解析・かな漢字変換に、また文法８
は文解析にそれぞれ使用される。

編集制御部９はかな漢字変換処理を含めた編集処理を全
体的に制御するものであり、本実施例では後述するよう
に共起データの作成もこの編集制御部９で行なわれる。

文法的関係判定部１１は複数の同音異義語から一つの語
が選択されたとき、被選択語とかな漢字変換されたで文
中の他の語との文法的関係（例えば係り受は関係）を文
解析部４の解析結果を利用して検出し、その検出した文
法的関係が特定の関係、すなわち予め文法的関係表によ
って設定されている一つまたは複数の文法的関係に一致
するか否かを判定する。

文法的関係判定部１１の判定結果は、編集制御部９に与
えられる。編集υ１８部９ではこの判定結果に従って、
共起データを作成する。

共起データ記憶部１２は、編集制御部９で作成された共
起データを記憶することによって、共起表を蓄積する。

次に、第２図に示すフローチャートを用いて、本実施例
における共起データの作成・記憶手順を説明する。なお
、第２図はかな漢字変換の結果が表示部２で表示された
以後の処理を示している。かな漢字変換の結果、表示部
２では例えば第３図に示すような表示がなされる。

かな漢字変換結果に同音異義語がある場合、かな漢字変
換された文の表示において、同音異義語の存在する語（
第３図の例では「使用Ｊ）の部分に、例えばオーバーラ
インが付加されて表示される。この場合、入力部１に備
えられた“次候補キー”を操作すると、他の同音異義語
が表示される。また、例えば入力部１に備えられた“同
音異義語−括表示キー“を操作すると、第３図に示すよ
うに画面の下方に同音異義語リストが表示される。

ユーザが入力部１に備えられた“同音異義語選択キー　
を用いて複数の同音異義語の中から適切な語を選択する
と、編集制御部９でそれが認識される（ステップＳｌ）
。次に、文法的関係判定部１１において、選択された語
（被選択語）と、かな漢字変換された文中の他の語（例
えば「詳細な」　「用いて」など）との文法的関係が検
出され、さらに検出された文法的関係が、文法的関係表
によって予め設定されている文法的関係に一致するかど
うかが判定される（ステップ８２〜Ｓ３）。

ステップＳ３での判定の結果、被選択語と他の語との文
法的関係が、予め設定されている文法的関係と一致した
と判定された場合は、編集制御部９がその被選択語の情
報と他の語の情報とを組にして共起データ記憶部１２に
送る。これにより共起データ記憶部１２で、被選択語と
他の語との組が共起データとして記憶される（ステップ
Ｓ４）。

第３図の例を用いてより具体的に説明する。

今、かな漢字変換された文の表示の中で「使用」と表示
されている部分に当たる適切な語として、「仕様」がユ
ーザにより選択されたとする。

「仕様」は「詳細な」という形容動詞で修飾されており
、また「用いて」という動詞の目的語となっている。す
なわち、この場合の被選択語である「仕様」と、同じ文
中の他の語である「詳細な」、「用いて」との文法的関
係（係り受けの関係）は、それぞれ修飾、目的語の関係
となっている。

文法的関係判定部１１は、「仕様」と［詳細な」および
「用い」との文法的関係を検出し、これが予め設定され
た特定の関係にあるかどうかを判定する。この場合、こ
れらの文法的関係はいずれも文法的関係表に予め設定さ
れているものとする。編集制御部９では文法的関係判定
部１１の判定結果を受ｌチると、「仕様」と「詳細な」
の組（仕様、詳細な）と、「仕様」と「用い」の組（仕
様、用い）を共起データとして共起データ記憶部１２に
記憶させる。

共起データ記憶部１２での記憶に際しては、共起データ
を構成する２語の文字コードを組として記憶してもよい
が、文字コードに付される辞書ＩＤとよばれる識別番号
を組として記憶することが望ましい。こうすることによ
り、「用い」という活用形は、より一般に原形の語幹で
記憶される。

第４図は辞書７の一部を示したもので、読み、見出し、
文法情報および辞書ＩＤを組として格納している。ここ
で、（仕様、用い）の組を共起データとして記憶する場
合、第５図に示すように「仕様」を示す辞書ＩＤと、「
用いる」の語幹である「用」を示す辞書ＩＤとを組にし
て記憶すればよい。辞書ＩＤは文字コードよりはるかに
ビット数が少ないので、辞書ＩＤを用いて共起データを
記憶すると、文字コードを用いて共起データを記憶する
場合に比較して共起データ記憶部１２の記憶容量は小さ
くてよい。また活用する語は、−膜内に原形の語幹とし
て簡単に記憶できる。

また、共起表としては第６図に示すように共起データを
構成する２つの辞書ＩＤの組に、両者の文法的関係を示
す情報である２項間関係名を付加したものを共起データ
として記憶したものでもよい。

次に、かな漢字変換に際して、複数の変換候補（同音異
義語）を与えるような読みが入力され、且つその変換候
補の一つと文中の他の語との組合わせが、共起データ記
憶部１２に共起データとして記憶されているものとする
。この様な場合には、その変換候補か最も高い可能性を
与えるものとして、かな漢字変換された文の表示中に最
初に現れる。また、この場合、第３図中に示すような同
音異義語リストを表示させたとすれば、共起データとし
て記憶されている変換候補は、最上位に表示される。従
って、ユーザは同音異義語の中から適切な語を容易に選
択することができる。

また、このように共起データとして記憶されている変換
候補を候補とせず、自動的に選択するようにしてもよい
。

本発明は上記実施例に限られず、種々変形して実施する
ことができる。例えば上記実施例では２つの語を組にし
て共起データとしたが、３つまたはそれ以上の語を組に
して共起データとして記憶してもよい。例えば前述の例
に従えば「仕様」と「詳細な」と「用い」の組（仕様。

詳細な、用い）を共起データとして記憶することもでき
る。

また、上記実施例では学習する共起データの信頼度を高
めるために、？Ｕ数の同音異義語から選択された被選択
語と、かな漢字変換された文中の他の語との文法的関係
を検出し、特定の文法的関係にある被選択語と他の語と
の組のみを共起データとしたが、特定の文法的関係にあ
るものだけを共起データとする必要はなく、全ての文法
的関係にある一意に決定された被選択語と他の語との組
を共起データとしてもよい。また、このような文法的関
係を判定せず、機械的に被選択語とその直前または直後
の語、あるいは直前および直後両方の語とを組にして共
起データとしてもよい。

その他、本発明は要旨を逸脱しない範囲で種々変形して
実施することが可能である。

［発明の効果］本発明によれば、かな漢字変換の過程で共起関係を持つ
語を学習して共起データを記憶することによって、共起
表を蓄積することにより、予め多数の共起データを共起
表として大容量のメモリに用意しておくことなく、同音
異義語の選択を容易にすることができる。

また、本発明により蓄積される共起表は、実際にかな漢
字変換システムを使用するユーザの語堂使用傾向を学習
した結果を強く反映したものとなるため、記憶される共
起データの数が少なくとも効果は大きい。

しかも、本発明のかな漢字変換システムは、同音異義語
について選択を行なうにつれて共起データが蓄積されて
ゆき、使い込むほど性能が向上するという特長がある。

【図面の簡単な説明】

第１図は本発明の一実施例に係るかな漢字変換システム
の構成を示すブロック図、第２図は同実施例における共
起データ作成・記憶手順を説明するためのフローチャー
ト、第３図は同実施例におけるかな漢字変換時の画面上
の表示例を示す図、第４図は同実施例における共起デー
タ作成の元となる辞書の一部を示す図、第５図は同実施
例における共起データの具体例を示す図、第６図は共起
データの他の具体例を示す図である。１・・・入力部　　　　　２・・・表示部３・・・文節
解析部　　　４・・・文解析部５・・・かな漢字変換部
　６・・・文節文法７・・・辞書　　　　　　８・・・
文法９・・・編集制御部１１・・・文法的関係判定部１２・・・共起データ記憶部

Claims

【特許請求の範囲】

（１）かな漢字変換時に複数の同音異義語の中から選択
された被選択語とかな漢字変換された文中の他の語とが
特定の文法的関係にあるかどうかを判定する判定手段と
、この判定手段により特定の文法的関係にあると判定され
た前記被選択語および前記他の語をそれぞれ示す情報を
組にして記憶する記憶手段と、を具備することを特徴とするかな漢字変換システム。
（２）かな漢字変換時に複数の同音異義語の中から選択
された一意に決定された被選択語を示す情報と、かな漢
字変換された文中の他の一意に決定された語を示す情報
とを、全ての文法的関係にあるものについて組にして記
憶する記憶手段を具備することを特徴とするかな漢字変
換システム。
（３）かな漢字変換時に複数の同音異義語の中から選択
された被選択語を示す情報と、かな漢字変換された文中
の該被選択語の直前および直後の少なくとも一方の語を
示す情報とを組にして記憶する記憶手段を具備すること
を特徴とするかな漢字変換システム。