JPS6268325A

JPS6268325A - 文章圧縮・伸展方式

Info

Publication number: JPS6268325A
Application number: JP60206625A
Authority: JP
Inventors: Etsuaki Kurosaki; 黒崎　悦明
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1985-09-20
Filing date: 1985-09-20
Publication date: 1987-03-28

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は符号化された文章の圧縮・伸展方式に関し、特
に日本語を扱う漢字データ出力機器あるいはデータ送受
信端末において、鍵盤やＯＣＲあるいはファイル装置等
の入力装置から入力される文章の文字符号列を圧縮し、
かつすでに圧縮されている符号列を元の入力文字符号列
に復元するための日本語文章圧縮・伸展方式に関するも
のである。

（従来の技術）文字符号列における文字データ圧縮については、従来か
ら連続文字圧縮方式が一般的である（例えば、「昭和５
５年電気四学会連合大会講演論文集〔５〕」、昭和５５
年１０月、何間、西村他、ネットワーク系のプロトコル
実現のための符号化、Ｐ　５−１０１〜Ｐ５−１０２）
。この方式は圧縮制御符号を用いて、同一の文字がｐヶ
連続している場合に該文字１字とその一つ前にｐ文字連
続する旨を示す制御文字を１字挿入する。連続が終了し
、再び１字毎に異なる文字列にユｆ化した場合にこのこ
とを示す別の制御文字を挿入する方法を採用している。

（発明が解決しようとする問題点）しかしながら、この従来方式では容易に解るように同一
文字が４字以上連続した場合にのみ効果を発揮するので
、一般の文書ではその条件が生ずる確率は低いことから
圧縮効果は極めて低い。

本発明は上記の欠点を除き、文字の連続性には無関係に
任意の文章を効率よく圧縮・伸展し得る文章圧縮・伸展
方式を提供することを目的とする。

（問題点を解決するための手段）特許請求の範囲第１項に記載の発明（以下、第１の発明
という）は、以下の４つの手段を有して構成される。

第１の手段は、所定の文字数からなる語の文字符号列を
当該語に固有の語コードに対応させて予め複数個格納し
ておく。

第２の手段は、圧縮されるべき文章を１文字ごとに符号
化して得られた文字符号列を一時格納する０第３の手段は、第２の手段から前記所定の文字数と同一
の文字分だけ文字符号列を順次取り出し、当該文字符号
列が第１０手段に格納されている語の文字符号列に一致
するかどうかを検索する。

第４の手段は、第３の手段における検索の結果、一致し
た場合には第１の手段から得られる当該文字符号列の語
に固有の語コードを出力し、一致しない場合には当該文
字符号列のうちの先頭の文字符号を第２の手段からその
まま出力する。

また、特許請求の範囲第２項に記載の発明（以下、第２
の発明という）は、以下の４つの手段を有して構成され
る。

第１の手段は、文章を１文字ごとに符号化して得られた
文字符号列のうち所定の文字数からなる予め決められた
語があれば、これを当該語に固有の語コードに置き換え
ることによシ得られた圧縮文字符号列を一時格納する。

第２の手段は、前記所定の文字数からなる語の文字符号
列を当該語に固有の語コードに対応させて予め複数個格
納しておく。

第３の手段は、前記第１の手段に格納された圧縮文字符
号列を符号ごとに取シ出して第２の手段に格納されてい
る語コードに一致するかどうかを検索する。

第４の手段は、第３の手段における検索の結果、一致し
た場合は第２の手段から得られる当該符号に対応する語
の文字符号列を出力し、一致しない場合には当該符号を
第１の手段からそのまま出力する。

（作用）上記第１の発明は次のとおシ動作する。

文章を符号化して得られた文字符号列は第２の手段に一
時格納される。第３の手段は第２の手段に格納された文
字符号列から第１の手段に格納されている語の文字数と
同一数の文字符号列を順次取シ出す。そして、第３の手
段は取シ出した文字符号列の語が第１の手段に予め格納
されている語に一致するかどうかを検索する。第４の手
段は、この検索の結果、一致した場合には当該文字符号
列に対応する語コードを第２の手段から出力し、一致し
ない場合は当該文字符号列のうちの先頭の文字符号をそ
のまま出力する。この結果、符号化された文章が圧縮さ
れる。

上記第２の発明は次のとお！ｌｌ動作する。

第１の発明により圧縮された圧縮文字符号列は第１の手
段に一時格納される。第３の手段は第１の手段に格納さ
れた圧縮文字符号列を符号ごとに取り出して、第２の手
段に格納されている語コードに一致するかどうかを検索
する。第４の手段は、この検索の結果、一致した場合は
第２の手段から得られる当該符号（従って、この場合の
符号は語コードである）に対応する語の文字符号列を出
力し、一致しない場合は当該符号（従って、この場合の
符号は文字符号である）を第１の手段からそのまま出力
する。この結果、圧縮符号化された文章が伸展される。

（実施例）本発明の詳細な説明するのに先立ち、本発明の背景とな
る事項について説明する。

日本語において用いられている漢字字種は数千種以上で
ある。このため、１つの文字は、１０　　ビット以上の
コードによって符号化される。例えば１５　ビットで符
号化した場合には、最大２１５（＝３２．７６８　）種
の文字を符号化することができ、また１６ビツトを用い
た場合には、２′６（＝６５．５３６）種の文字を符号
化することができる。本発明は、ビット数に関係なく構
成できるものであるが、説明を容易にするために１６ビ
ツト構成法によって以下に説明する。

日常用いられている漢字の字種は、仮名や特殊記号を含
めてもせいぜい１万種であるから、もし１６　ビット構
成法を採用するならば６５．５３６種のコードのうち残
りの約５万種余シのコードを他の目的に利用することが
できる。一方、一般の日本語文書においては、１文字の
自立語と付属語（例；家、水、や、が、・・・）および
特殊記号の出現頻度に比べて、２文字以上から構成され
る自立語や付属語（例；会議、ロボット、美しい、らし
い、でした、・・・）の出現頻度は一般にきわめて大き
い。

この性質を利用するならば、入力装置から順次入力され
てくる文字コード列から２文字以上の語を抽出し、その
語を構成する文字コード列の部分を、電子辞書を用いて
語にあらかじめ割シあてられている１６ピツトの語コー
ドに置換し、また語の−構成素と判定されなかった入力
文字コードは何ら変換されずそのまま出力する、文字・
語混合符号列への変換機構を実現することにより、文章
の大福々圧縮を行うことができる。

一方、伸展する側においては、上記文字・語混合符号列
を受信して、単一の文字コードはそのまま出力し、語コ
ードについては送信側と同一の語が登録されている電子
辞書を用いて２文字以上の文字コード列に置換して出力
することによシ、圧縮変換される前の原入力文字列に伸
展することができる。

第１図は第１の発明及び第２の発明のそれぞれの実施例
を示すブロック図である。図中、一点鎖線Ａで囲まれた
部分は圧縮機構であり、二点鎖線Ｂで囲まれた部分は伸
展機構である〇はじめに、圧縮機構について説明する。２は入力レジス
タ部であり、圧縮したい漢字仮名まじシ文章の文字符号
列が入力口】よシ順次供給される。

レジスタの長さは、変換単語単位の長さを選ぶことによ
り、２字、３字、あるいは４字などに定めることができ
る。説明を容易にするために以下では長さを２字として
説明する。

入力レジスタ部２に置かれた２文字の符号列は、語探索
部３に供給され、電子辞書記憶部９に収容された語を検
索して一致するものがあればその単語に付与されている
語コードの内容が読出されて圧縮制御部４を介して出力
レジスタ部５に出力される。一致するものがない場合に
は、入力レジスタ部２は左に１文字分シフトされて次の
１文字を供給口１から供給するとともに、シフトアウト
された最左端の文字は経路７を通り、圧縮制御部５を介
して出力レジスタ部５に無変換のまま送られて出力され
る。

いま、“御要望に答え・・・”という文が圧縮変換され
る場合を考える。電子辞書記憶部９には第２図に示すよ
うな単語・語コード対応を内容とする辞書が収容されて
いるものとする。入力レジスタ部２には、最初の２文字
“御要″が置かれる。語探索部３は電子辞書記憶部９の
見出し部を順次読み出して、入力レジスタ部２の“両便
”と比較していく。第２図から明らかなように、制御部
″という単語は見つからないので、ない旨の信号が圧縮
制御部４に与えられて入力レジスタ部２の最初の文字“
御″が制御部４を介して出力レジスタ部５に出力される
とともに、次の１文字“望″が１から与えられて入力レ
ジスタ部２には１要望”が置かれる。こんどは第２図か
ら明らかなように°要望”が検索されるので、その旨の
信号が圧縮制御部４に与えられ、辞書の“要望″に付加
されている語コード＠０３＃が経路６を通って圧縮制御
部４を介して出力レジスタ部５に出力される。

次に入力レジスタ部２は２文字左にシフトされて今まで
置かれていた“要望“の２文字のかわシに次の２字“に
答″が入力口１から供給されて置かれ、上記と同様の手
順で変換が順次行なわれる。

次に伸展機構について説明する。１２は１６ビツトの圧
縮符号入力レジスタ部であシ、圧縮文の供給口１１から
圧縮符号列が１符号（１６ビツト）ずつ順次に供給され
る。圧縮符号入力レジスタ部１２に置かれた符号は、コ
ード探索部】３に供給されて、電子辞書記憶部９に収容
されている語コードを検索する。一致する語コードがあ
れば、そのコードに対応する見出しの単語２文字が読み
出されて、経路１６から伸展制御部】４を介して原文出
力レジスタ部】５に送られる。

先の例文“両便望に答え・・・”に関する圧縮符号列が
入力口１１から順次供給されてくる場合について説明す
るならば、“御″の語コードは電子辞書記憶部９にない
ので経路１７を介してそのまま原文出力レジスタ部１５
に出力される。次に、語コード″０３＃がレジスタ１２
に供給される。コード探索部１３は電子辞書記憶部９に
収容されている語コードを検索する。一致する語コード
があればそのコードに対応する見出しの単語２文字が読
み出されて、経路１６から伸展制御部】４を介して原文
出力レジスタ部１５に送られる。この場合、第２図から
明らかなように語“０３″が見つかるので、その旨を示
す信号が伸展制御部１４に与えられて、電子辞書記憶部
９の見出し部の“要望”の２文字が読み出されて経路１
６から伸展制御部１４を介して原文出力レジスタ部１５
“要望″の２文字が出力される。以下、同様の手順を繰
シかえずことによシ、圧縮まえの原文“両便望に答え・
・・″に伸展される。

以上、本発明を実施例に基づき説明した。上述の説明で
は電子辞書記憶部９に収容される語長を固定長として説
明したが、たとえば電子辞書記憶部９に収容される語の
最大文字数を４字とした場合に、２字、３字、および４
字までの長さの語を収容し、かつ広く知られている最長
マツチング法を用いて最長の語を優先的に探索して１つ
の１６ビツト符号に置きかえる方法を用いても同様であ
る０尚、文章圧縮に関し、電子辞書記憶部９に収容されてい
ない語は単に無変換のまま出力されるのみであり、した
がって成子辞書記憶部９に収容されるべき語粟の選択は
自由である。とくに高出現頻度の語を優先的に収容する
ならば、よシ効果的な圧縮ができる。

（発明の効果）以上説明したように、本発明によれば文字の連続性には
無関係に任意の文章を効率よく圧縮・伸展し得る文章圧
縮・伸展方式を提供することができる。

【図面の簡単な説明】

第１図は本発明の実施例のブロック図、及び第２図は電
子辞書記憶部内の格納例を示す図である。２・・・入力レジスタ部　吐・・語探索部４・・・圧縮
制御部　　　訃・・出力レジスタ部９・・・電子辞書記
憶部　１２・・・圧縮符号入力レジスタ部１３・・・コード探索部　１４・・・伸展制御部１５・
・・原文出力レジスタ部

Claims

【特許請求の範囲】

（１）所定の文字数からなる語の文字符号列を当該語に
固有の語コードに対応させて予め複数個格納しておく第
１の手段と、圧縮されるべき文章を１文字ごとに符号化して得られた
文字符号列を一時格納する第２の手段と、第２の手段か
ら前記所定の文字数と同一の文字分だけ文字符号列を順
次取り出し、当該文字符号列が第１の手段に格納されて
いる語の語コードに一致するかどうかを検索する第３の
手段と、第３の手段における検索の結果、一致した場合
には第１の手段から得られる当該文字符号列の語に固有
の語コードを出力し、一致しない場合には当該文字符号
列のうちの先頭の文字符号を第２の手段からそのまま出
力する第４の手段と、を有することを特徴とする文章圧縮方式。
（２）文章を１文字ごとに符号化して得られた文字符号
列のうち所定の文字数からなる予め決められた語があれ
ば、これを当該語に固有の語コードに置き換えることに
より得られた圧縮文字符号列を一時格納する第１の手段
と、前記所定の文字数からなる語の文字符号列を当該語に固
有の語コードに対応させて予め複数個格納しておく第２
の手段と、前記第１の手段に格納された圧縮文字符号列を符号ごと
に取り出して第２の手段に格納されている語コードに一
致するかどうかを検索する第３の手段と、第３の手段における検索の結果、一致した場合は第２の
手段から得られる当該符号に対応する語の文字符号列を
出力し、一致しない場合には当該符号を第１の手段から
そのまま出力する第４の手段と、を有することを特徴とする圧縮文章伸展方式。