JPH0682370B2

JPH0682370B2 - 文字処理装置

Info

Publication number: JPH0682370B2
Application number: JP62128687A
Authority: JP
Inventors: 康山本; 佳三齋藤
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1987-05-26
Filing date: 1987-05-26
Publication date: 1994-10-19
Anticipated expiration: 2009-10-19
Also published as: DE3852341T2; EP0293161A2; EP0293161A3; DE3852341D1; US4959785A; JPS63292365A; EP0293161B1

Description

【発明の詳細な説明】（イ）産業上の利用分野本発明は、スペルチェックを行うことができる文字処理
装置に関する。

（ロ）従来の技術従来、この種の文字処理装置におけるスペルチェックに
おいては、スペルチェックする欧文用単語辞書内の単語
をその頭文字順、単語を構成する文字数順というように
２次元テーブルで作成し、その２次元テーブルから該当
する単語を検索する方法が取られている。この検索方法
は、第５表ａ及び第５表ｂに示すように“C"から始まる
単語を例に取ると、“C"が先頭で７文字から構成される
単語が1006種あり、同じく“C"が先頭で８文字から構成
される単語では1154種、さらに、“C"が先頭で９文字か
ら構成される単語に至っては1092種もあり、例えば“CO
MPANY"という単語を検索する場合、少なくとも1006回
（２文法であれば503回）比較参照していた。そして、
単に頭文字順のみで分類されている欧文用単語辞書にあ
っては、さらに多くの比較参照を行っていた。

（ハ）発明が解決しようとする問題点しかし、上記の文字処理装置の欧文用単語辞書のスペル
チェックでは、検索のための処理速度が非常に遅くな
り、タイプライター等でリアルタイム処理をするには到
底耐えられないものであった。また、単語をハッシュコ
ードに直して処理速度を速める方法もあるが、スペルチ
ェック機能実現の次に要求されるコレクト機能（誤綴り
訂正）を考慮した場合、ハッシュコード採用辞書は基の
文字配列を再生できないため、精度が低いという問題を
有している。

本発明は以上の事情に鑑みてなされたもので、その目的
は単語の文字発生頻度をハフマンコードに編集し直し、
かつ単語をブロック単位に分けることによって辞書の記
憶容量の削減を図り、単語をスペルチェックするための
処理速度を速めることにある。

（ニ）問題点を解決するための手段第１図は、この発明の構成を示すブロック図であり、１
は文字情報および各種の指示を入力する入力手段、２は
入力手段から入力された文字情報を記憶する記憶手段、
３は文字情報を表示する表示手段、４は入力手段の指示
に基づき記憶手段に記憶されている文字情報を表示手段
に出力する制御手段、５はｎバイト毎に分割されたブロ
ックを一単位として構成され、１つのブロックにそのブ
ロックの先頭第１単語が所定コードに変換された非圧縮
なバイト単位の文字列として格納され、かつ、先頭第１
単語と関連のある第２単語を含むそれ以降の単語のおの
おのが、その単語の１つ前に格納された単語との共通部
分を表わす相対圧縮コードおよび相対圧縮ができなかっ
た非圧縮コードを出現頻度を考慮して割り付けたハフマ
ンコードに置換された情報として格納される辞書本体部
と、辞書本体部の先頭からのオフセットと、同一の所定
の文字列で始まる単語列が格納されるブロックの数とで
構成されるインデックス部とからなる情報が記憶される
圧縮辞書記憶手段、６はキーワードの先頭２文字より圧
縮辞書記憶手段のインデックス情報の格納されるアドレ
スを計算し、そのインデックスのオフセットおよびブロ
ック数を取出し、ブロックの先頭第１単語についてブロ
ック単位で２分検索を行うスペルチェック手段である。

（ホ）作用この発明によれば、スペルチェックを行うと、キーワー
ドの先頭２文字よりインデックス情報の格納されるアド
レスが計算され、インデックスのオフセットおよびブロ
ック数を取出し、次に辞書本体のブロック先頭の先頭第
１単語がブロック単位で２分検索され、キーワードが辞
書本体のどこのブロックに格納されているかを調べて選
択し、選択されたブロックの先頭から順次ハフマンコー
ドを復号し、キーワードを検索するよう作用する。

（ヘ）実施例以下、図に基づいてこの発明の実施例を詳述する。な
お、これによってこの発明は限定されるものではない。
第２図は、この発明の一実施例の構成を示すブロック図
である。同図において、10は文字，単語情報を入力する
ための入力装置で、例えばキーボード，タブレット装
置，光学式文字読み取り装置，磁気テープ装置等からな
る。11は入力装置10から入力された文字情報を記憶する
記憶装置で、例えばコアメモリ,ICメモリ，磁気ディス
ク等からなる。12は記憶装置11において記憶，編集され
た情報を出力する出力装置で、例えばプリンタ，ディス
プレイ装置，磁気テープ，磁気ディスク装置等からな
る。13は記憶装置２に記憶されている文字，単語データ
の綴り情報の間合せに対して適時有効な情報を提供する
スペルチェック辞書装置で、例えばコアメモリ,ICメモ
リ,RAM,磁気ディスク等からなる。14は上記構成の各装
置間の信号のやりとりを制御する制御装置で、例えばコ
ンピュータからなる。次に、この発明の実施例の特徴部
分であるスペルチェック辞書装置について詳述する。第
３図は、スペルチェック辞書手段としての、辞書容量を
圧縮した圧縮辞書の基本構造である。同図において、圧
縮辞書はインデックス部と辞書本体とによって構成され
ている。インデックス部は、先頭２文字が××で始まる
単語列が格納されている辞書本体の先頭からのオフセッ
トとそのインデックス内に収容される後述するブロック
数から構成されており、辞書本体はｎバイト毎に分割さ
れたブロックを単位に構成され、各ブロックの先頭第１
単語は内部コードに変換された非圧縮なバイト単位の文
字列が格納される。

第２単語以降は相対圧縮コード（１つ前の単語との共通
部分を表わすコード）および相対圧縮ができなかった非
圧縮文字コードを出現頻度より割り付けたハフマンコー
ドに置き換えて格納される。

従って××で始まる単語列がブロック長であるｎバイト
を超えたならば、同一のインデックス内に複数のブロッ
クが存在するのでスペルチェックを行なう場合は、キー
ワードの先頭２文字よりインデックス情報の格納される
アドレスを計算し、そのインデックスのオフセットおよ
びブロック数を取出す。次にオフセット、ブロック数、
ブロック長ｎが既知であるため、先程のブロック先端の
非圧縮単語についてブロック単位で２分探索を行なう。
この段階でキーワードがどこのブロックに格納されてい
るかを知ることができるので対象となったブロックの先
頭から順次ハフマンコードを複号しキーワードを検索す
るものである。

取扱う文字種＆，′.0〜9,A〜Z,a〜ｚの64種但し′はハイフォネート
時に特別の意味をもつ。

辞書圧縮を行う原辞書は、複数形や同志の活用形などの変化
形を、原形に対して全く別の単語とみなして登録された
英単語辞書である。また単語長１の英文字は存在するの
で、同様に単語長１の＆および′そして数字も無条件に
存在するものとして辞書には２文字以上の単語を登録す
る。

圧縮の基本アルゴリズム英単語辞書は、アスキーコード順（文字コード順）にリ
ートを行わせると、隣接する単語の相関関係が非常に密
となる。即ち、単語の先頭部分より重複する文字が多数
現れているので、この性質に着目し重複する文字列を特
殊なコードに置き換えるという方法で辞書の圧縮を行う
ことが出来る（第４図参照）。

しかしこの方法で圧縮を行なうと、辞書検索を行なう
際、辞書の先頭から順次検索を行なわなければならない
ので、最悪の場合、辞書に登録されていない単語につい
てスペルチェックを行う際にも、辞書の先頭より末尾ま
で辞書全体にわたって探索が行なわれてしまう。そこで
辞書をある値（ブロック長）ｎバイトのブロックに分割
し、各ブロックの先頭第１単語は相対圧縮しないとすれ
ば、この非相対圧縮文字列に対してブロック単位で２分
探索法を利用することは可能である（第５図参照）。従
って辞書検索は次の３つのステップによって行う。

ｉ）キーワードのインデックス値よりオフセット、ブロ
ック数等のインデックス情報をインデックステーブルよ
り得る。

ii）ｉ）で得たオフセット、ブロック数そしてブロック
長ｎによりブロック単位で２分探索を行ないキーワード
の格納されていると考えられるブロックを特定する。

iii）ii）で特定されたブロックについてのみ、そのブ
ロックの先頭から順次探索を行なう。

以上の方法による辞書探索を行えば、シーケンシャルに
探索を行なわなければならない範囲は、最悪の場合でも
ブロック長ｎとすることができるのでスペルチェック時
の検索時間の高速化を図ることができる。

このような方法を辞書の圧縮と辞書探索の基本的な骨組
とし、さらに圧縮を行なわせるために各ブロック第２単
語以降のコードに対して後述するハフマン符号化技法を
用いて圧縮を行なわせた。

従って、以上の手順で圧縮された辞書の容量およびスペ
ルチェックのための平均探索時間は、ブロック長ｎと後
述するインデックスの構成即ち先頭何文字をインデック
スとするかによって変化する。そこで、この２つのパラ
メータをいくつか選び、そのパラメータにより実際に辞
書圧縮および辞書探索を行なわせ、圧縮辞書の容量と平
均辞書探索速度の関係を調べて目的にあった容量、速度
を得るパラメータを決定する。

インデックス部前述の通り、この辞書で取扱う文字種は64種である。従
って先頭１文字をインデックスとすれば64¹＝64個、先
頭２文字をインデックスとすれば64²＝4,096個、先頭３
文字をインデックスとすれば64³＝262,144個というよう
に先頭ｍの文字をインデックスとした場合64m個のイン
デックスステーブルを容易しなければならない。

しかしながら、辞書には２文字長の単語が登録されてい
るので、またインデックスを先頭３文字以上にすると辞
書の構造が複雑になり、ｍを大きくとると指数関数的に
インデックス部容量が増大するので、ｍは２以下に抑え
るものとする。また、ｍは大なる方がインデックスを絞
り込めるのでスペルチェック速度が高速となる。この様
なことを念頭におき、ｍ＝１およびｍ＝２の場合につい
て、実験を行った結果、圧縮辞書容量とスペルチェック
速度の関係上ｍ＝２を採用することにした。

インデックステーブル参照の方法は、キーワードを第１
表に示す内部コード変換表に基づいて内部コードに変換
し、第１文字目に64の重みを与えた０〜4095のインデッ
クス値を作る。

（＆＆＝0,＆′＝1,……,AA＝80）この値よりインデッ
クステーブルのアドレスを計算して必要なインデックス
情報を得る。

インデックス情報は３つあり、第１はそのインデックス
に属する単語列の格納される辞書本体の先頭からのオフ
セット値で、第２はそのインデックスに収容されるブロ
ック数、そして第３は前述の通り辞書には２文字長の単
語が存在するので、そのインデックスに２文字長の単語
があるかどうかを示すフラグである（例えばABのインデ
ックスにABという２文字長の単語が存在するならばフラ
ッグは“on"となる）。実際には、イッデックス情報部
は第４図の構成であり、インデックステーブルはこの様
な情報が4096個で成り立っており、その１つ１つが０〜
4096のインデックス（値）に対応している。

第６図について、説明を加えるとオフセットは18ビット
であるため、最大2¹⁸−１＝262,143まで表わすことがで
きるが、今回の圧縮法ではオフセット値がこの値を超え
ることはない。また、ブロック数は５ビットで最大2⁵−
１＝31までであるが、実際に圧縮を行った結果、現在の
辞書ではブロック長ｎが約256バイト以上あればブロッ
ク数が31を超えることはない。従って原辞書に変更があ
った場合や、ブロック長ｎを256よりも小さくとった場
合、また、辞書構造を変更した場合などには、注意が必
要である。

このようにして、インデックス部を構成するとインデッ
クス部容量は、4,096×３＝12,288バイトとなる。この
ような構成のインデックス部を所有する辞書では、辞書
検索を行う際、次の２つの特別な場合のみ、辞書本体を
探索せずに速やかに該当単語の有無を判別することがで
きる。

ｉ）キーワードのインデックス値が示すインデックス情
報のブロック数が０ならば、そのインデックスに登録さ
れている単語はない。即ち、キーワードは辞書に登録さ
れていない。

ii）キーワードが２文字長の単語であったならば、イン
デックス値が示すインデックス情報のフラグを調べてフ
ラグが“on"ならば該当する単語は辞書に登録されてい
る。また、フラグが“off"ならば登録されていない。

辞書本体部辞書本体部は、インデックスに使用される先頭２文字を
除いた単語の集合で、ブロックを基本単位とした構成で
あり、各ブロックの先頭は必らずバイト境界である。ま
た、各ブロックの先頭第１単語は、ブロック単語の２分
探索を行なうため第７図で示される内部コード（第１表
参照）にフラグを付加したバイト単位の符号列である。
従ってブロックの先頭第１単語はEOW（End of Word）あ
るいばEOB（End of Block）のフラグが立つまでの符号
列で、もしEOBのフラグが“on"ならば、そのブロックに
はそれ以上単語が登録されていないということである。
それゆえこの様な符号列に対して上位2bitをマスクする
ことで容易に内部コードに復元できる。また、内部コー
ドは対応するアスキーコードの値を正順に配置している
ので、キーワードとの比較も単純な減算のみで行うこと
ができる。

ブロックの第２単語以降は、前述の64種類の文字と相対
圧縮符号及びEOW,EOBに対応するハフマンコードで構成
される。相対圧縮符号とは、１つ前の単語との先頭文字
からの共通部分の長さを示すコードで、インデックスの
ための先頭２文字を削除した後の共通部分が１文字なら
ば相対圧縮符号を用いる必要はないので２文字以上共通
部分があった場合に適用する（第８図参照）。第８図で
は、便宜上各符号を＊４やEOWという形で表わしていた
が、実際にこれらの符号はハフマンコードとして記録さ
れている。このような方法で単語列の符号化圧縮を行な
うが、１つのインデックスに属する単語列（例えばイン
デックスAAならばAAで始まる単語）が符号化されていく
過程でその容量がブロック長ｎを超える可能性がある。
この場合、インデックス内で２分探索を行わせるために
ブロック長ｎを超えて格納されている単語は、次のブロ
ックの先頭第１単語として扱い（即ち相対圧縮をハフマ
ン符号化も行わない）そのブロックの終了としてのEOB
符号を格納する。そして次のブロックの先頭は必らずそ
のインデックスのオフセットの値にブロック長ｎの整数
倍を加えた値になるようにする。従ってこのようなイン
デックスには複数のブロックが存在することになるの
で、オフセット、ブロック数、ブロック長ｎが既知であ
るから、インデックス中の各ブロックの先頭第１単語に
対してブロック単位で２分探索法を試みることができ
る。２分探索法を行なうことでキーワードが登録されて
いると考えられるブロックを特定することができるの
で、そのブロックについてのみハフマンコードを復号
し、順次探索を行えばよい。ただしスペルチェックを行
なうキーワードが辞書に登録されていないものであれ
ば、探索の過程で間違ったハフマンコード展開をする可
能性があるので、各ブロックの最後には、EOWのかわり
にEOBを必ず記録する。このことにより、ハフマンコー
ド展開時（ブロック内探索時）EOB符号を検出しても尚
キーワードが見い出せなかったならばキーワードは辞書
に登録されていないので探索を打ち切る。

以上述べた辞書の構造を第９図に示す。

ハフマンコードの生成ハフマンコードの使用については、圧縮を行なうデータ
である英単語辞書が既知であるためハフマン符号化法に
よる圧縮が効果的である。

ハフマンコードを割当てるにあたって各コードの出現頻
度を求めなければならないが、そのためのデータを作る
にはハフマンコードが決定して始めて完全な圧縮ができ
るので（何故ならハフマンコードは可変長ビット列であ
り辞書の圧縮に相対圧縮を利用しているので）、その上
で出現頻度がわかるという矛盾が生じるので、符号化に
対応するハフマンコードのコード長が全て8bitであるも
のとして実際に圧縮を行い、相対圧縮コードや相対圧縮
できなかった非圧縮文字そして単語間のセパレータコー
ドであるEOWと、ブロック終了コードであるEOBとの各コ
ードの出現頻度をもとにした（第２表及び第３表参
照）。

従って、第２表に示す出現頻度及び出現確率は正確なも
のでないが、統計的には真値からかけ離れた値になるこ
とはないので、このデータをもとにしてハフマンコード
を生成した。但し、ハフマンコードのコード長が8bitを
超えた場合、ハフマンコードの復号の処理が複雑になる
（後述する復号方法による変換テーブルの容量が膨大に
なるのを防ぐため）ので、出現頻度の比較的少ないコー
ドについて全てをまとめて“other"という特別なハフマ
ンコードを割当ることにより生成するハフマンコードの
最大コード長を8bitに押さえた。このotherコードは、
“other"に対応するハフマンコードに続けて6bitの文字
コードを付加するという形で拡張する。従って、このコ
ード系は純粋のハフマンコードではなく修正ハフマンコ
ードである。ハフマンコード変換表を第４表に示す。

ハフマンコード復号化のアルゴリズム実際にスペルチェックを行う場合には、圧縮された辞書
を復号するという処理が必要となるが、ハフマンコード
は可変長ビット列であれため、復号の処理は複雑であ
る。例えば辞書中のデータを１ビットづつ取り出してハ
フマンコードとパターンマッチングを行ない一致しなけ
れば更に１ビット取出して１ビットシフトを行ない、キ
ーを詰めて再度パターンマッチングを行なうということ
を、キーがハフマンコードにマッチするまで繰り返すと
いうような方法で復号を行っていたので復号処理に要す
る時間的ロスが大きくスペルチェックとして役にたたな
い。

そこで辞書中のデータを8bit単位で取出し、この8bitの
データを０〜255の値とみなし、テーブル参照より取込
んだ16bitのデータ中実際にハフマンコードとして有効
なビット長、およびそのハフマンコードに割り付けられ
た内部コードを得る。そして有効ビット長だけ辞書の読
み込みポインターを進め、次の復号処理に備えるという
手順によってハフマンコードを復号する。このような復
号処理では、ハフマンコード展開に要する処理速度は、
高速となる反面、参照テーブルのためのエリアが必要と
なる。今回の修正ハフマンコードでは、ハフマンコード
の最大ビット長が８ビットになるように設けているので
参照テーブルの容量は、2⁸×２バイト＝512バイトとな
る（２バイトとは、有効ビツト長［3bit］および対応す
る内部コード［8bit］の情報を格納するエリアであ
る）。ところがotherコードに対応するハフマンコード
を展開した場合、辞書中よりさらに6bitの拡張コードを
得て、この拡張コードを変換テーブルにより内部コード
に変換しなければならない。このための変換テーブルの
容量は拡張コードに割当てられたコード数である49バイ
トである。

次にこの実施例における辞書検索機能を第10図ａ、及び
第10図ｂに示すフローチャートに従って説明する。

まず、ファイルあるいは入力装置より入力された文字列
から単語を切り出すことにより単語を抽出する（ステッ
プ20）。単語に付随する不要な文字を削減する（××
×′は×××に、×××′Ｓは×××にする）（ステッ
プ21）。探索する単語（以後キーワードと称す）の長さ
を判断し（ステップ22）、単語の長さが１文字ならば辞
書探索を行わず、検索を終了する（ステップ23）。単語
の長さが１文字でない場合、辞書探索が開始され（ステ
ップ24）、キーワードが辞書に登録されているかを判断
し（ステップ25）、登録されていなければ原単語の全て
の変化形について探索が行われ、検索を行う単語がなけ
れば探索を終了する（ステップ26,23）。ステップ26
で、全ての変化形についての探索が行われていない場
合、変化形（ABCの場合Abc、またはabcなどの変化形）
生成が行われ（ステップ27）再び辞書検索が行われる。

次に辞書検索の過程について説明する。まず、キーワー
ドの先頭２文字よりインデックスの値を算出する（ステ
ップ28）。そして、キーワードより先頭２文字を削除す
る。単語長が２文字であるか判断され（ステップ29）、
単語長が２文字の場合は、該当するインデックスの２文
字単語登録フラグをチェックすることにより（ステップ
30）、登録の有無が判別できる。該当するインデックス
の格納ブロック数が“0"とは、そのインデックスに格納
されている単語が無いということであるから（ステップ
31）探索を終了する。ブロック数が“0"でない場合は、
辞書本体での探索を行うため、キーワードを内部コード
に変換し（ステップ32）、探索の第１段階としてブロッ
ク単位での２分探索を行う（ステップ33）。２分探索を
行った段階で、キーワードを発見できたかを判断し、す
なわちキーワードが登録されていたかを判断し（ステッ
プ34）、登録されていなければ、キーワードの未登録が
判断される（ステップ35）。探索中に、キーワードと辞
書の単語の大きさを比較することにより以後の探索を行
っても登録されていないことが判別できる（辞書はアス
キー順に登録されているため）。以後、圧縮辞書の逐次
探索としての第２段階の探索を行う。圧縮された辞書本
体（修正ハフマンコード）より１単語ずつ単語を取り出
し、キーワードと比較するために、取り出した単語を内
部コードに変換する（ステップ36）。EOBを検出した場
合（ステップ37）、それ以上単語が登録されていないた
め探索を終了し、また、EOBが検出されていない場合
は、キーワードが登録されていたかを判断し（ステップ
38）、登録されていなければ、キーワードの未登録が判
断され（ステップ39）、未登録であれば探索を終了し、
未登録と判断されなければステップ36に戻る。

結果 77,240の単語が登録されている辞書を用いてスペルチェ
ックを行ったところ、ブロック長ｎ＝256バイトで１単
語当りの平均スペルチェック速度は69msec/wordとなっ
た。また、辞書圧縮の容量は辞書本体で約182KB、イン
デックスと変換テーブルを含めると約195KBとなりスペ
ルチェックのプログラムも含めて2Mbit以内が可能とな
った。また、この処理速度をより早くするためにはハフ
マンコード復号にともなうビット演算処理をやめ、バイ
ト単位で圧縮を行えばブロック長ｎ＝256バイトで約27m
sec/wordとなる。

与えられた環境で前者を選ぶか後者をえらぶかを判断す
る。

（ト）発明の効果この発明によれば、単語の文字発生頻度をハフマンコー
ドに編集し、かつ単語をブロック単位に分けて記憶して
いるため、スペルチェックとして使われる欧文用単語辞
書の記憶容量の削減を図ることができ、スペルチェック
の際の処理速度を速めることができる。

【図面の簡単な説明】

第１図はこの発明の構成を示すブロック図、第２図はこ
の発明の一実施例の構成を示すブロック図、第３図は同
じく圧縮辞書の構造を示す説明図、第４図は同じく単語
の相対圧縮を示す説明図、第５図は同じく辞書のブロッ
ク化を示す説明図、第６図は同じくインデックス情報部
の構成図、第７図は同じく先頭第１単語の符号列を示す
説明図、第８図は同じく相対圧縮符号を示す説明図、第
９図は同じく辞書構造を示す説明図、第10図ａ並びに第
10図ｂは実施例の作動を示すフローチャートである。１……入力手段、２……記憶手段、３……出力手段、４……制御手段、５……圧縮辞書記憶手段、６……スペルチェック手段。

Claims

【特許請求の範囲】

【請求項１】文字情報および各種の指示を入力する入力
手段と、入力手段から入力された文字情報を記憶する記
憶手段と、文字情報を表示する表示手段と、入力手段の
指示に基づき記憶手段に記憶されている文字情報を表示
手段に出力する制御手段と、ｎバイト毎に分割されたブ
ロックを一単位として構成され、１つのブロックにその
ブロックの先頭第１単語が所定コードに変換された非圧
縮なバイト単位の文字列として格納され、かつ、先頭第
１単語と関連のある第２単語を含むそれ以降の単語のお
のおのが、その１つ前に格納された単語との共通部分を
表す相対圧縮コードおよび相対圧縮ができなかった非圧
縮コードを出現頻度を考慮して割り付けたハフマンコー
ドに置換された情報として格納される辞書本体部と、辞
書本体部の先頭からのオフセットと、同一の所定の文字
列で始まる単語列が格納されるブロックの数とで構成さ
れるインデックス部とからなる情報が記憶される圧縮辞
書記憶手段と、キーワードの先頭２文字より圧縮辞書記
憶手段のインデックス情報の格納されるアドレスを計算
し、そのインデックスのオフセットおよびブロック数を
取出し、ブロックの先頭第１単語についてブロック単位
で２分検索を行うスペルチェック手段とを具備すること
により、辞書容量の削減およびスペルチェックの処理速
度を高めたことを特徴とする文字処理装置。