JPH01114976A

JPH01114976A - 文書処理装置の辞書構造

Info

Publication number: JPH01114976A
Application number: JP62274158A
Authority: JP
Inventors: Shigeki Kuga; 空閑　茂起; Taro Matsushita; 太朗松下; Masahiro Wada; 和田　正寛; Hiroyuki Kanza; 浩幸勘座
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1987-10-28
Filing date: 1987-10-28
Publication date: 1989-05-08
Also published as: EP0314503A3; EP0314503A2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〈産業上の利用分野〉本発明は、文書作成・校正支援装置、要約装置、検索装
置、機械翻訳装置、ワードブロッセッサなど広く文字列
の解析を必要とする文書処理装置に対し、利用が可能で
ある。

〈従来の技術〉現在、日本語ワードプロセッサ（以下、ワープロと略す
る）が実用化されており、該装置に関連した、日本語の
入出力、編集、仮名漢字変換アルゴリズム、辞書の技術
などの基本技術が確立している。

また、文書校正装置、機械翻訳装置などにおける日本語
処理技術では、仮名漢字変換とは逆の解析に相当する英
字仮名交り文を解析する必要のある場合があるが、この
ための、辞書、アルゴリズムなどの基本技術も確立して
いる。

言語の解析の方法には形態素解析、構文解析、意味解析
などが上げられ、これらに対する基本的な技術が知られ
ている。

以上、言語処理を中心とした従来技術について述べたが
、該技術以外では、ワークステーションに関連した技術
が確立しており、作業の効率を上げるためのマルチウィ
ンドウを用いた装置が実用化されている。

〈発明が解決しようとする問題点〉８年日本語のワープロが普及し、該装置で作成した文書
が多くなっている。ワープロでは、入力の簡便な、仮名
漢字変換方式（以下特に断りがない場合、ローマ字漢字
変換方式を含む）を採用した機種が多くなっている。

仮名漢字変換のアルゴリズムは、かなを漢字に変換する
過程で単語辞書、文法などの言語的な情報、単語の出現
頻度などの確率的な情報を利用するのが一般的である。

また、実用に供することのできる辞書、規則類は、ある
程度の規模が要求され、辞書、規則類を記憶する手段の
記憶容量は大きくなっている。

ところで、広く文書処理装置という場合、現在では、入
力手段として、仮名漢字変換の手段を持ち、その他に、
特定の目的、たとえば、翻訳、校正などの処理を行うの
が一般的な装置の構成となっている。

このような文書処理装置では、漢字かな交り文を解析す
る場合があるが、解析のためには、辞書、規則類が必要
であり、それらを記憶する大きな容ｉ’＋１の手段を必
要としていた。

仮名漢字変換と、漢字仮名交り文の解析は、解析の対象
が異なるため、従来は辞書、規則類を別々に持つ方法が
取られ、大きな記憶手段を必要とするという問題点があ
った。

また、仮名漢字変換用と漢字かな交じり文解析用の辞書
、規則類を共通化することは、原理的には可能であるが
、いずれか一方の解析の処理時間が長くなり、実用に絶
えるものが出来ないという問題点を何していた。

文書処理装置は、ユーザの要求や時代の変化に合わせ、
辞書、規則類のメンテナンスを必要とする場合があるが
、その場合、仮名漢字変換用の辞書、規則類と漢字かな
交じり文解析用の辞書、規則類の双方を更新する必要が
あり、作業時間がかかったり、間違いを引き起こす可能
性が高くなるなどの問題点があった。

本発明は、仮名漢字変換用の辞書、規則類と漢字かな交
じり文解析用の辞書、規則類とを統合化することにより
、かかる問題を解決しようとするものである。

く問題点を解決するための手段〉本発明は、日本語を入力・編集する手段と、該入力され
た日本語を記憶する手段と、辞書を記憶する手段と、文
法を記憶する手段と、該入力されたかな文字列を漢字交
じり文に変換したり、編集したりするマイクロプロセッ
サなどの制御手段と、文字・記号列などを表示する手段
と、校正すべき文字・記号列がある場合に該文字列を修
正する手段から構成される。

く作用〉本発明は、かな文字列からの検索を行いやすくした仮名
漢字変換用の辞書、規則類と漢字仮名交り文の検索を行
いやすくした辞書、規則類を関連する情報で結び付け、
１種類の辞書として統合化するようにイ乍用する。

また、該統合により、仮名漢字変換、漢字仮名交じり文
の解析のお互いの性能、機能を実用レベルの使用が可能
なレベルを保持するように作用する。

更に、該統合化により、共通する情報を共用し、辞書、
規則類を記憶する手段の記憶容量を小さくするように作
用する。

〈実施例〉以下図に基づいて本発明の詳細な説明する。第１図は本
発明に係わる文書処理装置のブロック構成図である。

図において１は日本語の文字列を入力・編集するキーボ
ードなどの手段である。この中には、現在では周知の事
実になっているかなを漢字に変える仮名漢字変換機能、
ある文字列を指定する機能も含まれる。

２は該入力手段により入力された日本語の文字列を記憶
する手段である。入力手段は通常キーボードが用いられ
るが逐次的に入力を行なわないで、たとえばフロッピー
ディスク、磁気テープなどのように入力した日本語の文
字列を記憶する外部記憶手段で代用することも可能であ
る。即ち、ｌの入力手段が省略された構成も存在しうる
。

３は上記２に蓄積された日本語の文字・記号列を解析す
るための辞書を記憶する手段である。

４は文法、その他の文章を解析するための規則類を記憶
する手段である。

５は２に蓄えられた文字列の中の一部分を抽出したり、
途中結果を記憶したり、表示の司令などを行ったりする
制御手段である。該制御手段には制御によって得られる
結果を記憶する手段を含む。

６は入力された文字列、照合の途中結果、校正すべき文
字列、ｒ＜ｗｒｃなどを表示するＣＲＴなどの表示の手
段である。

７は６によって表示された校正すべき部分に対し修正を
加えた結果を原文中に正しく反映するための校正手段で
ある。文書処理装置が校正を主目的としていない場合は
、通常７はｌの手段によって代行することができ、７の
無い構成もありうる。

今まで、辞書と文法などの規則を対にして、述べてきた
が、説明を簡単にするため、辞書を代表にして説明して
いく。また、辞書にも各種の辞書があるが、ここでは、
言語解析の中心になる自立語辞書を取り上げて説明する
。

第２図は仮名漢字変換用自立語辞書の構造を示した図で
ある。

８は、辞書の見出しのＩＤ番号である。ＩＤ番号は該辞
書が格納される番地から割り出すことが出来るため、省
略されることもありうる。

９は見出しの仮名表記であり、読み仮名と呼ばれる部分
である。現在の技術では、もし見出しに活用があれば、
語幹のみを登録するのが普通であり、この説明でも通常
の方法に従っている。

今、見出しとして「ある」、「在る」、「有る」、「空
＜」、「愛」、「行く」の６つのみを取り上げ、具体的
に詳しく説明する。この６つの見出しの中で「ある」、
「在る」、「有る」、「空く」、「行く」は活用があり
、それぞれ９には語幹である「あ」、「い」のみが登録
されている。

ＩＯは見出しの漢字表記であり、仮名表記に相当する漢
字表記の文字列が登録される。

１１は、見出しの品詞情報である。品詞情報はその他の
形態情報、構文情報、意味情報が含まれていても、構わ
ない。これも説明を簡単にするため、本発明の本質にか
かわらないので、品詞の情報のみをあげて説明していく
。図の中で「動詞・５段・う行」は５段動詞のう行活用
であることを表している。

仮名属字変換の技術とは、この辞書を利用して、入力さ
れた仮名文字列を９と比較し、文法などのその他の条件
も加味して、正しい解析が行われたときに、ＩＯを出力
する処理に他ならない。

なお、８から１１までの各要素は図で示したような配列
でなくても本発明に影響はしない。

通常、入力される仮名文字列と辞書との照合を高速に行
うため、二つの工夫がされる。一つは、辞書の読み仮名
９をある基準でソートすることである。５０音の昇順に
ソートした場合が、第２図である。

第２の工夫は、検索の範囲を速く決定するための辞書イ
ンデックスを設けることである。第３図は第２図の辞書
に対応する１文字インデックスの例を示した図である。

１２は読み仮名の１文字目の種類を表す検索のキーとな
る１文字であり、１３はそのキーとなる文字から始まる
見出しが、どの場所に格納されているかを示す値である
。ここでは、説明を簡単にするため、辞書ＩＤｒ０００
０１ｊ番の見出しがｒ　０ＯＯＯＩＪ番地に格納されて
いると１−た例を示している。

第２図の辞書と第３図のインデックスにより、たとえば
、「あいあにおぼれろ」という文字列は、辞書のｒｏｏ
ｏｏｌｊからｒ　００００５Ｊまでを検索すればすむこ
とが分かり、それ以外の場所は検索不要であることから
照合時間を短縮できる。

第４図は漢字仮名交り文解析用の辞書の構造を示した図
である。１４は見出しのＩＤ番号を表す情報であり、１
５は見出しの漢字表記であり、１６は見出しのかな表記
であり、１６は見出しの品詞情報である。仮名漢字変換
用の辞書と同じく活用のある見出しはその語幹のみが登
録されており、品詞情報には他の情報ら含まれている場
合がある。

入力された文字列と辞書との照合時間を短縮するため、
本線７Ｉにおいてら検索の対象になる漢字表記の部分、
１５がある基準でソートされている。

今、ソートをＪＩＳコードの昇順に行った例が第４図で
ある。また、入力された、漢字仮名交り文を解析する目
的の場合は、ＩＤ番号１４や読みの情報１６は省略され
ることもありうる。

本辞書の内容では、意味を持たないが通常実用に絶える
辞書では、漢字仮名交り文の解析用の辞書でも、インデ
ックスが用いられる。その構造を、第５図に示す。

１８は１文字からなるキーのインデックスであり、１９
はそのキー文字列を頭に持つ、見出しの始まる番地を表
したものである。

従来、仮名漢字変換用の辞書第２図、インデックス第３
図と、漢字仮名交り文解析用の辞書第４図、インデック
ス第５図は独立した構造として辞書記憶手段に記憶され
ていた。その理由は、もし仮名漢字変換用の辞書で、漢
字仮名交り文の解析を行う場合を考えてみると分かる。

たとえば「愛の有る生活。」という文章を第２図の辞書
で、照合する場合を例に取ると、まず「愛」という文字
を切り出し第２図の見出しと見比べる。この時、第２図
の漢字表記１０は、漢字コードをキーとしたソートがな
されていないため、結局、１番地から見出しの漢字表記
と「愛」とを順次、照合する必要が生じる。

この結果検索の平均時間ＴＭは辞書の見出しの総数をＮ
とし、一つの見出しの漢字表記部と切り出した文字、た
とえば、この場合であれば「愛」とを照合する時間をｔ
とすれば、ＴＭ＝Ｎｘｔ　／２となり、Ｎが１０，０００を越え、ｔが数マイクロ秒を
要する現代の実用システムでは、使用に絶えうるちのが
できない。

この状況は、漢字仮名交り文解析用の辞書、インデック
スを用いて仮名漢字変換を行う場合も同様である。

これが、従来、仮名漢字変換用の辞書と、漢字仮名交り
実用の辞書を独立に蓄積してきた主な理由であった。

ところが、第２図と第４図は、中の情報は同じであり、
かな表記部でソートしであるか、漢字表記部でソートし
であるかの差のみである。ここに注目したのが本発明で
ある。

第６図は本発明を適用した辞書の構造の例を表す図であ
る。第２図、第４図と同じ見出しを使って説明していく
。

２０は見出しのＩＤ番号であり、２０は見出しの仮名表
記であり、２１は見出しの漢字表記である。２０．２１
は今まで独立していた仮名漢字変換用の辞書と、仮名漢
字交り文解析用の辞書を結合した形になっているのが特
徴である。即ち、２１は仮名漢字変換を行うときに便利
なようにソートされており、２２は漢字仮名交り文解析
のときに便利なようにソートされている。

２３は２１と２２を結合するための情報である。

この情報は、２２の値の見出しの漢字表記が本来の漢字
表記であることを示している。たとえば、見出しＩＤ番
号００００２番の２３は００００６であることから、見
出しＩＤ番号００００６番の表記の部分を検索すること
により「有」を得る。

２４は見出しの品詞情報である。今の場合、この品詞情
報は仮名表記見出しに合わせた情報になっているが、こ
れを漢字表記に合わせた情報にする事もできる。２０か
ら２４までの構造の配置は本発明に影響しないのは第２
図、第４図の場合と同様である。

第７図は本発明による辞書の構造の別の実現例を示した
図である。この図は、第６図の２３の部分の内容が２５
に変化した構造になっている。即ち、第６図の２３は、
仮名見出しをキーとして、漢字表記を見出だしにいくた
めの情報であったが、第７図の２５は漢字表記をキーと
して仮名表記を見出しにいくための情報になっている。

比較のために第６図のその他の番号を、第７図でも用い
ている。

第８図は、本発明による辞書の構造の別の実現例を示し
た図である。この図は第６図と第７図を組み合わせた構
造になっており、第７図の２５を別途２６として第６図
に付加した形になっている。

第９図は本発明の辞書構造の概念図である。２７は、仮
名漢字変換用のインデックスであり、２８は漢字仮名交
り文解析用のインデックスであり、２９が第６図、第７
図、第８図で例として示してきた統合化辞書である。

今まで、統合化辞書で仮名漢字変換の際の辞書を検索す
る方法については若干の説明を加えてきた。今度は、仮
名漢字変換を主とした構造になっている第６図を用い、
漢字仮名交り文の解析を行うための検索の方法について
述べる。第６図の場合、読み仮名と、品詞情報が仮名表
記の部分に対応した構造になっている。再び「愛の育る
生活。」を解析する場合を考える。前と同様、最初は「
愛」の照合である。第５図のインデックスを用いること
により、見出し「愛」は直ぐに検索できる。

この時、見出しのＩＤ番号００００．２をスタックなど
に記憶しておく。００００２の品詞情報は「愛」のもの
と異なるので、文法的な適合条件などの照合ができない
。そこで、正しい「愛」の品詞情報を検索する必要があ
る。まず、見出し表記の関連情報２３を検索することに
より、００００５を得ることが出来る。そこで、０００
０５のｒＤ番号の見出しを検索する。ＩＤ番号００００
５の関連情報２３を調べ、００００２か得られる。先程
、「愛」の検索から始め、スタックに記憶したこの番号
と関連情報をたどって得られた番号が一致した時、関連
情報を連鎖的に検索することを停止する。今の例ではＩ
Ｄ番号００００５を検索したときに、関連情報の連鎖を
停止し、その番号の品詞情報を検索する。それが、求め
る「愛」の品詞情報に他ならない。他の見出しの、品詞
情報も同様の手順で検索することができる。

第８図の場合の品詞情報は簡単に検索することができる
。この場合は、２６で示される数字の■Ｄ番号の品詞情
報を検索するだけで良い。

第１０図は本発明の該略フロー図である。以上の説明で
、個々の処理については述べてきているので、全体的な
処理の流れを示すに止どめる。

まず、説明に使う装置の前提条件から述べる。

装置は、仮名漢字変換の手段を持ち、かつ、漢字仮名交
り文の解析手段を持っているものとする。

また、辞書は、本発明の一つの例である第８図を用いて
説明していく。

まず、仮名漢字変換を行うか漢字仮名交り文の解析を行
うかの選択を行う。この、処理モード選択の処理ブロッ
クを３０とする。

次に、選択された、処理のモードに合わせ、入力文字列
をバッファにセットする。仮名文字をセットする処理ブ
ロックが３１であり、漢字仮名交り文をセットする処理
ブロックが３２である。

始めに、仮名漢字変換処理のフローから説明する。

まず、バッファにセットされた文字列の先頭文字列と、
インデックスとの照合を行う。この処理ブロックを３３
とする。

次に、インデックスにより、辞書の検索の範囲が分かる
ので、その位置から、辞書の仮名表記と入力文字列の照
合をする。この処理ブロックを３４とする。その結果、
照合に成功する場合と失敗する場合に分かれる。照合に
成功した場合は、同じ見出しの品詞情報を検索し、仮名
漢字変換の妥当性を調べる。この処理ブロックが３５で
ある。

ここで、妥当性がある場合と無い場合に分かれ、妥当性
のある場合は、見出しの表記と漢字表記を関連づける関
連情報を利用し、上で述べた方法により、該当する漢字
表記を検索する。この処理ブロックを３６とする。

次に、辞書から漢字表記の情報を引き出し、漢字仮名交
りの変換結果を生成する。この処理ブロックを３７とす
る。

辞書あるいは、品詞情報による仮名漢字変換の条件に失
敗した場合は、未登録語処理が行われる。

この処理ブロックを３７とする。

漢字表記の生成の後は、次の文字列をセットし、３１へ
戻る。この処理は、文字列が無くなるが強制的に処理を
終了、されるまで、繰り返される。次文字をセットした
り、終了させる処理ブロックを３８とする。

次に、３２の処理の説明に移る。３２の後は、漢字仮名
交り文解析用のインデックスと先頭文字との照合を行う
。この処理ブロックが３９である。

次に、インデックスを利用し、該当する辞書の漢字表記
と入力文字列の照合を行う。この処理ブロックが４０で
ある。

照合に成功すれば、関連情報を利用し、上で述べた方法
で品詞情報を検索する。この処理ブロックが４１である
。

辞書の見出しと品詞情報などから言語的な成立条件を調
べる。この処理ブロックが４２である。

ここで、条件を満足すれば解析結果を出力する。

この処理ブロックを４３とする。もし、辞書照合あるい
は、言語的な成立条件を満足しない場合は、仮名漢字変
換と同じく未登録語処理４４に移る。

終了も３８と同じ処理を行う４５の終了処理ブロックが
行い、繰り返しのときは３２へ戻る。　墾〈発明の効果
〉本発明の効果は、仮名漢字変換用の辞書、規則類と漢字
仮名交り文解析用の辞書、規則類をある情報で関連づけ
ることにより、従来の辞書類の蓄積の方法に比べ大幅な
記憶容態の削減をもたらしえた点にある。

又、辞書類の８虫の削減にも拘わらず、失われる情報は
なく、かつ、高速に情報かけんさくできる点でも効果が
ある。

更に、見出しの情報がソートされている点から辞書類の
圧縮効果が上がる点でも効果がある。

【図面の簡単な説明】

第１図は本発明装置の構成ブロック図、第２図は従来の
仮名漢字変換用の辞書の構造の例を示す図、第３図は第
２図用のインデックスの構造の例を示す図、第４図は漢
字仮名交り文解析用辞書の構造図、第５図は第４図の一
部を抜粋した図、第６図は本発明の辞書の構造の図、第
７図及び第８図は本発明の他の実施例別の辞書構造図、
第９図は本発明の辞書の全体構成図、第１０図は本発明
の概略フロー図である。代理人　弁理士　　杉山毅至（他１名）第１図第２図第　　　３　　　図第４図第５図第６図ｔＡ　　　　　７　　　　　図第　　　　８　　　　図第　　　９　　　図

Claims

【特許請求の範囲】

日本語を入力・編集する手段と、該入力された日本語を
記憶する手段と、辞書を記憶する手段と、文法を記憶す
る手段と、該入力された日本語の中から校正すべき文字
・記号列を抽出する手段と、文章及び該候補文字・記号
列などを表示する手段と、校正すべき文字・記号列があ
る場合に該文字を修正する手段を有する文書処理システ
ムにおいて、仮名漢字変換用の辞書と漢字仮名交り文解
析用の辞書を統合化した構造を有することを特徴とする
文書処理装置の辞書構造。