JPS61500345A

JPS61500345A - デ−タ圧縮方法および装置

Info

Publication number: JPS61500345A
Application number: JP59503813A
Authority: JP
Inventors: タギユー，ルイ　ドン; コツブ，アレン　テイー
Original assignee: テキスト　サイエンセズ　コ−ポレ−シヨン
Priority date: 1983-10-19
Filing date: 1984-10-17
Publication date: 1986-02-27
Also published as: IT1180100B; EP0160672A4; CA1226369A; WO1985001814A1; IT8468039A0; IT8468039A1; EP0160672A1

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】データ圧縮方法および装置発明の背景本発明は英数字データを記憶または伝送する英数字データをコード化するに必要な信号数を減らす方法および装置に関する０本発明は書物などの大冊のテキストをコンピュータ装置に記憶し、またはこれをデータ通信装置で伝送する上で特に有益である。

英数字テキストをコード化するための先行技術は普通バイトと呼ばれる８ビツトの２進コードをテキストの各文字に代用する方法に依拠している。このようなコードの１つは情報交換用米国標準コード（ＡＳＣＩＩ）に基づいてその文字を定義する７ビツトとパリティピット（奇偶検査ビット）としてか、またはゼロに設定される８ビツトよりなる。これらコードの一覧表は。

例えばラルストン（Ｒａｌｓｔｏｎ）ほか著「コンピュータ科学およびエンジニアリング辞典」第２版（ＶａｎＮｏｓｔｒａｎｄ　Ｒｅ１ｎｈｏｌｄ、　１９８３）第１２５および１２６頁に列記されている。

しかしながら、大冊の英数字テキスト中の各文字を表わすために８ビツトを使用することは現代のマイクロコンピュータおよび通信装置の限界に厳しい負担を課することになる０例えば、新約を書には１７０，０００以上の語および１，０３６，０００個の分離した文字が含まれている。したがって、新約を書を記憶するためには、１メガバイト以上のデータ格納が必要である。現代の記憶技術を以ってしても、この種の要件はテキストその他の書物全部を記憶するには比較的費用がかかる。同様に、書物に匹敵するコード化されたテキスト量を伝送することも比較的費用がかかり、また時間がかかる。

データの記憶および伝送要件を少なくするため、２文字の組合わせを一層頻繁に表わす一定の８ビツトコードを使用するように標準コードがこれまで修正されてきた。こうして、二重音字“ｔｈ”は一つが“ｔ”を。

他の一つが“ｈ”を表わす２個の８ビツトコードではなく、１個の８ビツトコードで表わすことができる。

しかしこの技術はそれが達成できるデータの圧縮上、比較的限定される。一般に、英数字テキストを表わすに必要な２進コードの長さを約４０％減らすことができる。対をなす文字が特定のテキストに出現する頻度に発明の概要デジタルコード形成で英数字データを記憶する場合に達成できるデータ圧縮量を著しく改良させる技術を我々は考案した。我々の発明によれば、英数字テキストの異なる各類およびそれに伴う句読点を独特の符号に割当てる辞書が作られる。

英数字テキスト中の各類は、ついで辞書中のその語を指す符号で置き換えられる０例えば、各符号は一連の２進数字でその１ｉ！を識別またはアドレスする１６ビツト（２ビツト）までを含む、従って、辞書は２”＝６５，５３６までの記憶語を含むことができ、これはほとんどの書物に関する語の記憶には十分過ぎる程の量である。これら６５，５３６語のいずれか１つを識別するのに僅か２バイトの情報が必要であるに過ぎないため、テキストの各類を２バイトの情報で置き換えれば、テキストの記憶に要する数字の平均数を約三分の−に減らすことができる。もし辞書が６５．５３６語以上を含んでいるとすると、少なくとも若干の符号中に必要とするビットの数は１６以上でなければならないであろう、逆に、もし辞書中の語の数が１６以下の２の乗数であれば、各符号中のビット数を１６以上にすることができる。好都合なことは、辞書を従来のマイクロコンピュータ装置を用いて極めて迅速に作ることが可能であり、かつ記憶されたテキストを、そのコンピュータ装置により人間が解読できる形式に再構成できることである。

辞書を記憶するのに必要なバイト数は、アルファベット類に語を記憶し、そに伴う文字の冗長性を利用することにより実質的に減らすことができる。こうして、もし２つの記憶語のうち２番目の語が先の語と同じ５文字を含んでいる場合、その５文字を表わす１字を記憶することによってその語を意味づけることができる・句読点を除いては同一の複数形語、所有格、同族語を使用することによる辞書中の大量の語の冗長性の故に、この技術により辞書のサイズを約三分の−に小さくすることができる。

圧縮されたテキストの長さをさらに短くするには、多くの場合、最も頻繁に使用される語を２バイトより短い符号で表わすことにより達成される１通常、テキスト中のすべての語の半分以上は最も頻繁に用いられる少数の語で構成するので、例えば、最も頻繁に使用される語に対して、２バイト符号の代りに１バイト符号を用いることにより、テキストの記憶要件を少なくとも更に２５％、そし多くの場合、５０％以上減らすことができる。

前述の技術は語と語の間の境界を保ちながら重要なデータの圧縮を達成する。新約を書のキングジェームス訳でテストしたところ、これらの技術で新約を書の１．０３６，０００文字を、ある圧縮方法を用いて２２０，０００バイト中に、そして他の圧縮方法を用いて１８３，０００バイト中に、記憶させることが可能であった。また法律家の養成資料中の約９００　、０００文字で実施したテストでは、テキストを１５０，０００バイト以下に圧縮することができた。

辞書は英数字テキスト中の各類を含むため、特定の語または数個の語がテキスト中に用いられているかどうかを確認することができる。さらに、テキスト中の語の場所は辞書中の各類に、その語が出現するテキストの各セグメントを指す確認子を付加することによって指定することができる。この特徴により、テキストの同一のセグメ°ントに出現する語を見つけるために。

異なる語に結合する確認子を比較することが可能である。

図面の簡単な説明我々の発明のこれらおよび他の目的、特徴および長所はその実施の態様に関する以下の詳細な説明から一層明らかになるであろう。

第１図は我々の発明の好適な一実施の態様の−゛般概念を例示するフローチャート。

第２図は第１図に示す実施の態様を更に詳細に例示するフローチャート、第３図は第２図の詳細を例示するフローチャート、第４図は我々の発明の好適な実施の態様の第２の特徴を例示するフローチャート、そして第５図は我々の発明の好適な実施の態様に使用される例示的装置を示す線図である。

発明の好適な実施の態様の説明第１図に示すように、我々の発明における英数字テキストは先ず、該テキストの各類を１６ビツト（２バイト）までの独特の符号に結合する辞書を作ることによって圧縮される０周知のように、１６ビツト中の１またはＯのパターンを用いてゼロから６５，５３６までのどの数でも表わすことができる。圧縮されたテキストを作るため、各類は辞書中のその語を指す符号によって置き換えられる。辞書のサイズは、随時辞書中の語をアルファベット類に記憶し、かつその結果生ずる文字の冗長性を利用することによって縮少することができる。

都合のよいことは、圧縮されたテキストの長さは、最も頻繁に用いられる語を２バイト以下の長さをもつ符号で表わすことによって更に短縮することができる。

これらの手段は従来のマイクロコンピュータにより遂行されることが望ましい。

マイクロコンピュータにおいて、第１図の技術を実施する特別な手段は第２図中に示されている。第１に。

圧縮される書物のテキストまたはその他の資料は語の線状リストに変換される。

実際上、このことはキャリエツジリターン／ライン送りがテキストの各類のあとに挿入されることを要求する。この目的のため１便宜上、各類はテキスト中の連続するスペース間の１句読点を含む全ての英数字記号であると考えられる。このようにして、テキスト中にスペースが出てくるたびにキャリエツジリターン／ライン送りが挿入されるだけであり、英数字テキストの直前の１スペースの一部と考えられる１語と語の間に多数のスペースがみられる場合、テキストの直前のスペースはスペース文字よりなる単一語として取扱う。

線状リストがつくられると、従来の分類法を用いてそれを分類し、その結果、テキストの全単語がアルファベット類に配置される。

アルファベット化されたリストは記憶の重複をさけ、かつ各記憶語の使用頻度計算をするためマイクロコンピュータによって処理される。こうして、アルファベット化された語のリスト全部が最初にアルファベット化されたリストからの各類を識別し、かつ最初の、アルファベット化されたリスト中に現われるその語の出現回数を指定する新しい圧縮リストに置き換えられる。

例えば、この手続は第３図に示すように実行される。

アルファベット化されたリストの各類は、こんどはマイクロコンピュータによって取出される。この場合。

その語を前に取出した語と比較し、それが新しい語であるかどうかを確認する。

もし２つの語が同じであれば１問題の語は古い語であり、頻度カウンタが１つだ１ｔｉ１１分され、前記リストからつぎの語が取出される。

２つの語が異なる場合、問題の語は新語であり、古い語と頻度カウンタの内容が新しいリストに書き込まれ。

頻度カウンタは１にリセットされ、新しい語はっぎの比較のために記憶される。

辞書をつくるために、圧縮されたアルファベット類の各類はそれぞれの符号を割当てられる。しかしながら、記憶要件を減らすためには、２バイト以下の長さをもつ符号を、幾つかの技術のうちのどれか１つを用いてより頻繁に用いられる語に割当てることが望ましい０例えば、１バイトの符号は最も頻繁に用いられる語に割当てることができる。そのためには、まず圧縮されたアルファベット類のリストのコピーをつくり、それを記憶する。ついで、語のリストと頻度計算値が頻度カウンタにより分別され使用頻度の減少順序に語が配置される新しいリストを得る。ある技術においては、あるバイトの８ビツトの１つを、２バイト符号でなく１バイト符号としてそのバイトを識別するのに用いることができる。このような場合、前記バイトの他の７つのビットを１２８の異なる符号をつくるために用いることができる。もしこのバイトが１バイト符号として識別されない場合、２バイト符号中の残りの１７ビツトはテキスト中の３２，７６８に及ぶ異なる語を識別するために用いることができる。

従って、この技術においては、最も頻繁に用いられる１２８の語の各々は１２８の異なる１バイト符号の１つを割当てられ、残りの語は異なった２バイト符号を割当てられる。

別の方法として、１バイト符号の数をテキスト中に用いられている異なる語の数に応じて変えることができる。特に、１および２バイト符号の組合せによって表わすことができる異なる語の最大数はＸ＋２５６（２５６−Ｘ）　（但し又は使用される１バイト符号の数を示す）で与えられる。明らかに、Ｘは２５６以下またはそれと等しい正の整数である。このことから、使用できる１バイト符号の最大数はｘ＜（２５６”　−Ｙ）／２５５　（１）（ただし、Ｙはテキスト中の異なる語の数である）。

例えば、テキスト中に１２，０００の異なる語がある場合、Ｘ＝２０９となる。

このように、２０９の最も頻繁に用いられる語は２０９の１バイト符号によって表わされ、残りの１１，７９１語は２バイト符号で表わされる。

従って、この技術を用いる場合、方程式（１）は使用できる１バイト符号の最大するを計算するのに用いられる。この最も頻繁に用いられる語の数は、ついで。

バイト符号を割当てられる。そしてテキスト中の残りの語は２バイト符号を割当てられる。

１バイト符号の数を定めるためにどの方法が用いられるにしても、最初の語に続く連続した数的順序で各類に符号を割当てることにより、コンピュータを通じて辞書が作られる。これらの符号の数的順序は下位から上位、または上位から下位になり得るが、ここに述べる実施の態様においては単調増減でなければならない、つぎの説明においては、数的順序は上位に向っている。好都合なことは、１バイト符号で表わされる語は第１の辞書に割当てられ、残りの語は第２の辞書に割当てられる。記憶要件を最少にするには、以下詳述するように、各類と２バイト符号を結合する第２の辞書はせいぜい２５６記憶語をもつだけであるから１通常はこの辞書をアルファベット類にする必要はない、しかしながら、この辞書に記憶される語はテキスト中に非常に頻繁に用いられるため、その検索時間を最小にすることが望ましい、この目的で、最も頻繁に用いられる語を最初にしてテキスト中にそれらの語をその使用頻度順に記憶する。

記憶される辞書はそれに含まれる語だけを含み符号は１つも含まないことが望ましい０例えば。

ＡＳＣＩＩによりコード化された記号の形式で、１バイトが各記号を表わすようにして、語が記憶される。

ＡＳＣＩＩコードは僅か９６に過ぎないから、各バイトの１ビツトは他の目的に用いられる。このビットは各類のはじめを識別するのに用いられる。特に、各類のはじめは、その最初のＡＳＣＩＩ文字の８ビツトを“１”に設定し、一方その語の１つ置きのＡＳＣＩＩ文字の８ビツトを“０”に設定することによって識別される。その結果、辞書中の特定の語と結合した符号は、辞書のはじめからその語までの語数を数え、その数とリスト中の最初の語と結合した符号の数値とを加えるだけで決まる。この計算は各バイトの８ビツトをマスクして、コンピュータがリスト中の最初の語から問題の語まで各バイトを走査するに応じてその位置における各“１”ビットの出現を数えることにより簡単に行われる。

例えば、最初の辞書が２０９語を含む場合、ｏｏｏｏ　ｏｏｏ。

から１１０１０００１までの２進数値をもつ符号はこれらの語に割当てられる。

特定の語に割当てられた符号を確認するために、コンピュータは最初のバイトからはじまって、その符号の数値が計算される特定の語の直前のバイトで終る辞書中の各バイトの８ビツトの位置中の各１ビツトの出現を数えるだけである。この辞書中の最初の語に割り当てられた符号の数値はゼロであるから、計算値は符号の値となる０例えば、第２の辞書の語に割当てられた符号は２進数値１１０１００１０００００００００ではじまることになる。従って、その符号の値は第１の辞書と同じ方法で語を教え、第２の辞書の最初の語と結合した２進数値１１０１００１０００００００００を前記計算値に加えることによって決定される。

計算手続きを速くするには、一定の語を結合した符号を識別する調査表が役立つ０例えば、アルファベットの２６文字の各々ではじまる最初の語と結合した符号を記憶することができる。そして符号が計算される語と最初の文字を同じくする最初の語がら計算手続きを開始することができる。

辞書が作られたのち、マイクロコンピュータは最初に生じた線状リストから各類を読み取り、第１または第２の辞書中の語を調べ、その辞書から得た符号で線状リスト中の語を置き換えることによって英数字テキストを圧縮する。この工程において、第１の辞書の各類が調査がまず行われ、それらの語のＡＳＣＩＩコードが符号で置き換えられる語と一致しているかどうかを確認するテストが行われ、確認できなかった各テスト数を計算する。もし１両者が一致していれば、不確認テストの数はその符号の値を示すことになる。但し、最初の語と結合した符号の値はゼロである。もしも第１の辞書中に前記一致が得られなかった場合、コンピュータは第２の辞書に移る。ここで、調査表を用いてその辞書の調査開始点を見つける０例えば、符号が定められる語の最初の文字を、その文字ではじまる最初の語を調査表中で見つけるために用いることができる。

調査表はその語の符号の数値を与えることになる。ついで、前記の文字ではじまる異なる語を調べ、各類のＡＳＣＩＩコードが、各類と一致しているかどうかを確認する。テストできなかった話語にカウンタが１つだけ増分する。そしてその語が見つかった場合、その語の符号を、同じ最初の文字ではじまる最初の語と結合した符号の調査表から得た値にカウンタの計算値を加えて、計算する。この方法で語の線状リスト全体が符号化されたテキストをつくるために符号リストで置き検相を使って圧縮することが可能である。それは、この辞書の語がアルファベット類に配列されており、はとんどすべての語が、辞書の配列順で先行する語の頭文字または文字に共通する頭文字を、少なくとも１個は含んでいることに起因する。配列順で２番目の語が先行する第１の語も頭文字と同一の文字を少なくとも２個含んでいる場合は、その２番目の語を表現するためには、（１）第１の語の頭文字と比較して同じ文字がいくつあるかを示す数と、（２）２番目の語の第１の語と異なる残りの文字を示す文字の列を使うのが便利な方法である。したがって辞書の個々の語は、先行する見出し語の文字と同じ頭文字の数を指定する数と。

異なる残りの文字を表わしたＡＳＣＩＩコードを使って格・納される。処理を促進させるために、その数は１語の頭文字の検索を行う場合にすぐ使用できるように２進数で格納される。１列として、辞書に連続して出てくるｓｔｏｒａｇｅ” 、”５ｔｏｒｅ”、および“５ｔｏｒｅｄ”の３つの語をとってみる。この場合には、”　５ｔｏｒｅ”は、最初の４文字が先行する“ｓｔｏｒａｇｅ”にあり　＆ｅ”が異なるため、１４″に相当する２進数と“ｅ”に相当するＡＳＣＩＩ文字を使って表現される。また“５ｔｏｒｅｄ”は。

最初の５文字が先行する“５ｔｏｒｅ”と同じで“ｄ”が異なるため、５＃に相当する２進数と“ｄ”に相当するＡＳＣＩＩ文字を使って表現される。

このあとに、符号化されたテキスト、辞書、Ｗ４査表。

および符号化されたテキストを読み取るコンピュータのプログラムが、テープ、ディスク、またはＲＯＭのような適当な媒体のいずれかに格納される。またこの同じ情報はデータ通信システムを通して、ある位置から別の位置へ伝送することもできる。我々の発明を利用してデータの圧縮を行うと、実物大のボリュームの　゛書物の完全なテキストを、１個か２個の５１／４インチ（１３ｍｍ）のブロッピー・ディスクに格納することが可能である。一般にテキストの長さは１語を符号に置き換えることによって、　６０〜７０％程度まで縮小することができる。またテキストの中で非常に頻繁に使用される語に対して１バイトの符号をあてることにより、さらに２５％の、場合によっては５０％までの縮小を達成することができる。したがって本発明を実際に行うことによってテキストの長さを、全体として７５％程度まで縮小させることが容易にできる。辞書がテキストの長さを増加させることは明白な事実ではあるが、第２の辞書の長さは、前に述べたように連続した語の同一の頭文字を数値コードを使って表現することにより縮小することができる。これは、３個程度の因数を使って辞書の長さを減らしている１本発明を実行して達成できる圧縮の量を、下の例１に図示しである。また我々の発明を利用して、この種類のテキストを伝送するために必要なチャネルの伝送容量の低減も実際に行うことができる。

図４のフロー・チャートは、符号化されたテキストからコンピュータを使ってもとの英数字のテキストを復元する方法を図示したものである。これに示されているように、コンピュータは１個々の符号を順番に取り出してその符号に関連する語を見つけ出すために。

辞書の１つを探索する。１バイトの符号の場合には。

コンピュータは、その符号の２進数の値をカウンタにロードするだけでよい、そして第１の辞書の中の語を、最も頻繁に使用される語から始めて順に読み、８番目のビット位置が“１”ビットになっているバイトごとに１ずつカウントを減らし、カウンタの示す値がゼロになるまで続ける。この時点で２次に読まれる語が、始めにカウンタにロードされた符号で表現された語に相当する。第２の辞書を探索する場合には、コンピュータは符号をアルファベットの個々の文字で始まる最初の語に関連づけている調査表を有効に用いる。すなわち、コンピュータはテキストに変換される符号の値から表の符号の値を減算しながら、調査表を逆の順序で走査していけばよい、２つの値の差が負の値から正の値に変わる瞬間に、コンピュータは、符号によって表現された語の文字と同じ文字で始まる最初の語に到達する。これによってコンピュータはテキストに変換される符号の値からこの符号の値を差し引き、その文字で始まる異なる語のバイトを読んでいくという同一の処理を繰り返し行う、８番目のビット位置が“１”ビットであるバイトごとにカウントを１ずつ減らし。

カウントがゼロになるまで続ける。ゼロの時点で１次に調べられる語が符号によって識別される語に相当する。第１または第２のいずれの辞書から検索が行われても、このあとにその語は１表示装置、プリンタ、またはその種の他のコンピュータの出力装置に送られる。

そしてコンピュータは次の符号に進む。

以下余白我々の発明は、コンピュータによって実行されるシステムであればあらゆる方式のシステムに適用させることができる。テキストの符号化を行い、符号化されたテキストからもとの英数字のテキストを復元する処理に適した装置としては、適当なプログラムによって稼動するコンピュータであればどれでもよい０図５に示すように、一般にこのようなコンピュータは、プロセッサ（１０）、第１と第２メモリ（２０と３０）、キーボード（４０）および陰極線管ＣＲＴ　（５０）から構成されている。またこのような装置には、任意選択機能としてプリンタ（６０）や通信インタフェース（７０）をも含めることができる。これらの装置は１図に示すようにデータ・バス（９０）によって相互に接続され、マイクロプロセッサ（１０）から信号線（９０）を通して制御される。さらにメモリは、アドレス線（１００）によってアドレス指定することができる。図５に示す構成は、通常のマイクロコンピュータの編成として一般に認められているものである。辞書を作成し、英数字のテキストを符号化するプログラムは、便宜上読取専用メモリである第１のメモリに格納することができる。また同じ装置を符号化されたテキストから英数字のテキストを復元するためにも使用する場合は、そのプログラムもメモリ（２０）に格納することができる０作成された符号化されたテキストは、辞書と調査表とともに通常はメモリ（３０）に格納される。また復元のプログラムはメモリ（２０）が使用できない場合には、メモリ（３０）に格納することができる。これらの符号化されたテキスト、辞書、調査表、および復元のプログラムは、通信インタフェース（７０）を通して遠隔地の別のマイクロコンピュータに伝送することも可能である。

メモリ（３０）は、プログラム可能読取専用メモリ（ＦＲＯＭ）か、磁気テープ、またはフロッピィ・ディスク装置であることが望ましい、これは、これらの装置が十分な大きさの容量を有していて、ある書物のテキスト全体を１合理的なサイズのＦＲＯＭか少数のフロッピィ・ディスクに格納することができるからである。またＦＲＯＭを使用する場合には、ＦＲＯＭに符号化されたテキスト、辞書、ｍ査表、および復元のプログラムを記録するために適当な装置（図には示していない）を使用しなければならない、このような装置は一般によく知られている。また多数の書物を１つのレコードに格納するのが望ましい場合に、本発明を行うためには、非常に容量の大きい固定ディスク装置　。

か大きいＲＯＭのボードを使うことができる８図５の装置が、ディスクに格納されたデータからもとの英数字のテキストを復元するために使用する場合には、ディスクの内容全体を半導体メモリに転送して処理するのが便利である。半導体メモリは非常な高速で処理を行うために、辞書の語の調査を促進させ、処理の時間を短縮することができる。またこの目的のために、通常のマイクロコンピュータのメモリの記憶容量に適合するような大きさまで辞書を圧縮してしまうと便利である。我々は、６４キロバイトの半導体メモリが使用できる状態のときにこれを実行して効果が上がることを確認した。

我々の発明は、広い分野にわたって応用させることが可能である。前にも述べたように本発明を利用して、データの記憶や伝送のため英数字のテキストを圧縮することができる。またもとのテキストの復元を迅速に実行することができるため、圧縮されたデータをもとのテキストを使って行われていた種々の応用分野に役立てることができる。また圧縮されたデータは辞書がないと全く役に立たないために、符号化されたテキストと辞書を生成して、記憶と伝送の目的のためにそれらを分離させることによって、英数字データの確実な記憶および／または伝送を行うことができる。

辞書には英数字のテキストの個々の語が含まれてはいるが、比較的短いものであるため、情報の検索を行う場合に有効なツールとしてこの辞書を使うこともできる。とりわけ、単に辞書を走査するだけで、特定の語が英数字のテキストで使用されているかどうかを容易に確認することができる。また辞書の個々の語にその語が現われるテキストのそれぞれの区分を指定する識別子を追加して、さらに有効に使用することができる０例えば、この識別子が１バイトの長さで、そのバイトの８個のビット位置の１つ１つが、テキストの８個の区分に対応していると仮定してみる。この例ではそのバイトの８個のビット位置のいずれかに１のビットが入っている場合は、テキストの対応する区分に関連の語があることを示している。このように識別子を使用することによって、問題の語を取り囲んでいる英数字テキストの検索の速度を高めることができる。それは語が現われない区分を探索する必要がないからである。

さらに、異なる言葉に関係する識別子のそれぞれのビットを比較することによって、それらの言葉がテキストの同じ部分に使用されているかどうかがわかる。

明らかに、識別子は、言葉の使用をより正確に発見するために必要なので２その大きさを変えることができる。

我々の発明の実習では、多くのバリエーションがまた可能である。今まで、我々は英数字のテキスト、２進数字のトークンおよびアスキーコードが言葉で発明について解説してきたが、この発明は記号の全ての方法で実習することができ、また記号はトークン化できるし、いろいろの方法でコード化することもできる。

例えば、外国語、数学的記号、グラフ記号や句読点等が全てこの発明を実習するのに用意されており、またこれらの記号は、アスキー、拡張したアスキーまたは選ばれたどんなコードによっても表わすことができる。

我々の発明の実習では２進トークンの使用が好ましいが、そのようなトークンを１６進数のような他の基数で表わすのが好ましいかもしれないが、またこの発明は、どんな基数の桁をもつトークンを使用しても実習することができる。

我々は、頻繁に使用される言葉を記憶するのに２バイト以下のコードを使用してトークン化されたテキストの大きさを小さくするための２つの例を揚げて説明してきた。しかし、数多くの他の技術が使用できるのである０例えば、大抵の本の中で使用される用語数は１６ビツトで表わせる６５，５３６語より明らかに少ないので。

アルファベット化されたテキストの言葉のそれぞれを。

１６ビツト以下で表現することは大抵の場合可能である。

例えば、３２，７６８語は１５ビツトで表現できるし、１６，３８４語は１４ビツトで表わすことができる。したがって、ビットにトークンを割当てる他の方法は、それぞれの異なった言葉を、その最低のビット数を持つ異なるトークンで表わすことのできるその最低のビット数を計算し、次にその最低のビット数を持つ異なるトークンをそれぞれの言葉に割当てることである。もし使用されている用語数が６５，５３６語以上であれば、同様の原理で。

１７．１８またはそれ以上のビットのトークンをテキスト中のそれぞれの異なる言葉に割当てることができる。

代替的アプローチとしては、２つのフィールドをもつトークンを小することである。この最初のフィールドは２番目のフィールドの長さを指定する固定長のフィールドである。この技術では、トークンは、それぞれの言葉の頻度計算に厳密に従って言葉に割当てられるので、最も短いトークンは、テキスト中に最も多く現われる言葉に割当てられ５次に短いトークンは、次に多く使用されている言葉に割当てられる、という具合になる。この方法では、辞書は、頻度計算の順番に、最も頻度の高い言葉を辞書の最初に記憶するように。

記憶されるのである。

この技術では、１つのトークンは１２ビツトの長さをもつことができる。しかし、よくあるように、言葉の頻度分布が非常に急な曲線を描くような場合は、テキスト中のそれぞれの言葉を表わすのに必要な平均ビット数は、下に示す例１の場合のように、大幅に減らすことができる。トークン化されたテキストが、２つのフィールドを持つトークンを使用して記憶される場合は、トークンを並列のリストに記憶し、そのリストの１つは最初のフィールドだけのリストであり、もう１つのリストは２番目のフィールドのリストである。というようにすると便利である。データは、２つのリストに同じ順序で記憶される。したがって、トークン化されたテキストを元の英数字テキストに変換するために、計算機は、最初のフィールドから４ビツトを読み取り、この４ビツトから２番目のフィールドリストから読み取るビット数を決定する、そしてこのビットを読み、そこで、言葉を頻度順に記憶している辞書の最初の所から言葉を数えて、そのビットに関連する英数字を発見するのである。このようにして、最も多く使用される言葉は、最初のリストでは００００で表わされ、２番目のリストではゼロビットで表わされる；次の２つの多く使用される言葉は、最初のリストでは０００１で。

また次のリストでは１ビツトで表わされる；次の４つの言葉は、最初のリストでは００１０で、２番目のリストでは２ビツトで表わされる。という具合になる。

計算機が最初のリストで００００を読み取ると、これらビットは、２番目のリストにはエントリーなしであることを示しており、したがって計算機は、辞書の中の最初の言葉である最も頻度数の高い言葉を検索するのである。

計算機が最初のリストで０００１を読み取ると、２番目のリストで次のビットを読み取り、第２のビットのビットがゼロか１であるかによって、辞書中の第２または第３の言葉を検索するのである。

上に述べた。それぞれの言葉をトークンの形で記憶する技術は、また、言葉のグループ（即ち句）の記憶に拡張することができる。普通の句は、全てによって認知される。　ｒｏｆ　ｔｈｅ」、ｒａｎｄ　ｔｈｅＪやｒｔｏ　ｔｈｅＪは。

殆どの英語の英数字テキスト中でがなりの頻度で使用されていると思われる。そういう句は、辞書の中では、自動的に１つの場所が割当てられるが、１つのトークンが、１つのそういう句の１つの出現のために用意されるのである。

逆に１句は英数字のテキストを走査し、最も使用頻度の高い言葉のサブ・セットで言葉を比較し、簡単に発見することができる０例えば、最も使用頻度の高い１００語がこのサブ・セットを構成することもある。この手順では、最も使用頻度の高い句は、それが最も使用頻度の高い言葉の１つであるかどうか決めるのに続いてテキストのそれぞれの言葉を試験することによって簡単にアセンブルすることができる。もし、最も使用頻度の高い言葉でない場合には、次の言葉が取出される。もし、そうであわ、ば、その言葉は、最も使用頻度の高い言葉のリスト上にある直前の言葉とともに使用されるのである。最終的に、最も頻度数の高い言葉のリスト上にない所に来た場合、記憶されている言葉は４句のリストに加えられる。テキスト全体が走査されると、句の記憶リストがアルファベット類に分類され、重複しているものは除かれ１句の使用頻度計算が行われるのである１句を表わすのに使用できるトークンの数によって、トークンは、最もよく使用されるものから始まって、これらの句ｌ；割当てられるのであるが、これらの句は、他の句が割当てられる前に、テキスト中での句の代りをするのである。辞書とトークン化されたテキストから見て、そのトークンが１語を表わすのか言葉のグループを表わすのかで違いはないのである。したがって１元の英数字テキストは１図４のプロセスに従って簡単に再構成することができる。

例１我々の発明の実習で、我々は、トークンをそれぞれの言葉に関係づける辞書を作り、そのトークンで新約を書のそれぞれの言葉を置き換えることによって、新約を書全体を記憶した。辞書を記憶するのに必要なスペースを減らすために、辞書の殆ど全てを、アルファベット類に記憶し、辞書中の先行する言葉の最初の文字と同じ最初の文字を表わすために数字コードを使用して、圧縮した。

テキストをトークン化した形で記憶する最初の努力で、我々は、最も使用頻度の高い言葉を表わすのに１バイトのトークンを使用した。新約を書の中には、約１４　、０００語の異なる言葉があるので、最も使用頻度の高い言葉を約２００を１バイトのトークンで表わし、残りの１３，８００語を２バイトのトークンを表わした。この方法では、新約を書の１７０，０００語の約６５％が１バイトのトークンで表わされている。この１バイト・トークンを使用して、我々は、新約を書の全体の１，０３６，０００の文字を約２２０，０００バイトの記憶容量で記憶したのである。

記憶必要条件をさらに減少させるために、上に述べた型の２フイールド・トークンを使用することが有利であるということがわかった。特に、新約を書での最も使用頻度数の高い５つの言葉、それらが使用されている回数およびそれぞれの言葉を表わすのに使用されているトークン等、を表わしている表１から明らかなように、言葉の使用頻度曲線は非常に急である。０表１　■トークン　■言葉　■ 使用回数　２．フィールド・トークンを使用することにより、新約を書のテキスト全体を記憶するのに必要なバイト数を、約１８３，０００バイトまで減らすことができた。

例２図１の一般的技術の操作を、ｍａｔｔｈｅｗ、　ｃｈａｐｔｅｒ　ＩＩからの２ −３の詩を使って、解説することができる：（略）発明に従って、それぞれの言葉が１つのトークンをもつ、１つの辞書を作る。

■表■ リストは、ここで、テキストの全ての言葉を整理するために１表■に示す如く、アルファベット類に分類される。

■表■ アルファベット類のリストは、そこで、重複エントリーを取除く処理をされ１表 ■に示すように、それぞれのエントリーの頻度計算を出すようにされる。

■表■ 発明の好ましい形では、言葉と頻度計算のリストは。

そこで、言葉が使用頻度の減る順番に整理されている新しいリストを得るために、頻度計算により分類される。例２のテキストは非常に短いので、使用頻度に従ってリストを分類し、使用頻度の高い言葉を表わすのにより小さいトークンを使用する必要が殆どない、しかし、上でも強調したように、そういう分類は、テキストの大きさがかなり長い場合には、有益である。

個々の言葉は、そこで、言葉のアルファベット化されたリスト中で連続エントリーに割当てられているだんだん大きくなる数字をもつトークンを割当てられるのである。このようにして１例２での言葉へのトークンの割当ては１表■に示したようになる。

■表Ｖこの例では、それぞれの異なる言葉をユニークに識別するにはたった６ビツトが必要なだけであることは明らかである。明らかに、ビット数は、トークン化される異なる言葉の数によって変動する。

最後に、計算機は、表■に示すようなトークン化されたテキストを作るために、表■の直線リスト中のそれぞれの言葉を１表■に示す相当するトークンで置き換えるのである。

■表■ 倒２では、言葉の辞書を圧縮する意味はあまりない。

しかし、多くの言葉の最初の文字が同じである大きなテキストでは、辞典は、１つの言葉の全ての最初の文字が、先行する言葉の最初の文字と同じである場合。

それらの文字を１つの数で置き換えることにより、圧縮することができる。

元のテキストの再構成は１図４に示すように、それぞれのトークンを１度に１つ読み取り、相当する言葉を発見、検索しまた適切な出力として準備されるまで、辞書を通して、数えるのに使用されることにより達成されるのである。

上に述べたように、辞書はまた、１つの言葉が英数字テキストで使用されていることを示すために情報検索に使用することもできる。この応用では、言葉が使用されているテキストの部分を示すために識別子を使用することは、その文脈でのその言葉の検索を速める。

新約を書の場合には、４つのＧｏｓｐｅｌｓ、　Ａｃｔ　ｏｆ　ｔｈｅＡｐｏｃｔｔｅｓ、　Ａｐｏｃａｌｙｐｓｅ、　Ｐａｕｌｉｎｅ　Ｅｐｉｓｔｌｅｓと　ｎｏｖ−Ｐａｕｌｉｎｇ　Ｅｐｉｓｔｌｅｓのそれぞれの別／Ｊ（１）識別を１バイトの識別子で行うことができる。

この技術に熟達しているものには明らかなように、上に述べた発明には多くの変形が可能である。

オ　１　図終Ｊｔ　２　図才　３ｒＸＪオ　４　図才　５　図手続補正書動幻昭和６０年１２月　６日特許庁長官　宇　賀　道　部　殿１、事件の表示　ＰＣＴ／ＵＳ８４１０１６６７２、発明の名称　データ圧縮方法および装置３、補正をする者事件との関係　特許出願人名　称　テキスト　サイエンセズ　コーポレーション４、代理人住　所　（〒１００）東京都千代田区丸の内−丁目５番１号３、補正の対象　特許法第１８４条の５第１項の規定による書面及び委任状並びに明細書及び請求の範囲の翻訳文の浄書フ、補正の内容　特許法第１８４条の５第１項の規定による書面の特許出願人の欄の代表者名を補充し。

国際調査報告

Claims

【特許請求の範囲】

１．テキストを記憶または伝送するための機械使用システムにおいて、前記テキストの各々異なる言葉または言葉のグループと１つの異なるトークンを関連させ、前記トークンを代表するために必要なディジットの平均数は、前記システム中で前記言葉を代表するために必要なディジットの平均数よりも少ない辞書を作るステップと、各々の言葉または言葉のグループを前記辞書により前記言葉または言葉のグループと関連したトークンに置き換え、それにより前記テキストを代表するために必要なディジットの数は減少するステップの各ステップから成るテキストを圧縮するための方法。
２．請求の範囲第１項記載の方法において、テキストは英数文字の記号および句読点の言葉から成る。
３．請求の範囲第１項記載の方法において、各言葉は、テキスト中の連続的スペース間に位置する、英数文字の文字および句読点のような１本の記号の連糸である。
４．請求の範囲第１項記載の方法において、辞書を作るステップは、アルファベット表記のテキストの言葉にアルファベット順の配列を作るように指令するステップと、アルファベット順のリスト中の重複する総ての言葉を削除し、簡約されたアルファベット順リストを作るステップと、前記簡約されたアルファベット順リスト中の異なるトークンを割当てるステップの各ステップから成る。
５．請求の範囲第４項記載の方法において、各々の異なるトークンは１つの異なる数値を持ち、異なるトークンを簡約されたアルファベット順リスト中の異なる言葉に割当てるステップは、連続する番号順の異なるトークンをアルファベット順の異なる言葉に割当てるステップから成る。
６．請求の範囲第４項記載の方法において、辞書を作るステップは、さらに次の２つのステップから成っている：１つは、テキスト中で最も多く現われる言葉を決定することであり、もう１つは、最も多く現われる言葉に、より少なく現われる言葉に割当てられるトークンより短いトークンを割当てることである。
７．請求の範囲第６項記載の方法において、トークンを割当てるステップは、最初の最も多く使用される１２８の言葉に１バイトのトークンを割当てることと、残りの言葉に１バイトより長いトークンを割当てることとから成っている。
８．請求の範囲第７項記載の方法において、それぞれの言葉に割当てられるトークンの最初のバイトが、トークンが１バイトの長さか１バイトより長いかを示すビットを含む１つのビット位置をもっている。
９．請求の範囲第６項記載の方法において、トークンを割当てるステップは次のステップから成っている：つまり第１は、残りの言葉が２バイトのトークンで表わされる時、最も多く使用される言葉を表わすのに使用できる１バイト・トークンの最大数を計算することであり、第２は、量も多く使用される言葉の最大数に１バイトのトークンを割当てることであり、第３は、残りの言葉に２バイト・トークンを割当てることである。
１０．請求の範囲第４項記載の方法において、辞書を作るステップはさらに次のステップから成っている：頻度数を作るのにアルファベット化されたリスト中の言葉の重複エントリーを数えること、次に、それぞれの言葉の頻度計算に従って圧縮されたアルファベット・リストを分類すること、最後に、最も多く現われる言葉に、より少なく現われる言葉に割当てられているトークンより短いトークンを割当てることである。
１１．請求の範囲第１０項記載の方法において、トークンを割当てるステップは次のステップから成る：２フィールドを持つ１つのトークンをそれぞれの言葉に割当てるが、その最初のフィールドは、固定長であり、第２のフィールドの長さを規定する、そして上に述べたようにそれぞれの言葉の頻度計算に従ってトークンを言葉に割当てられるので、最も短いトークンはテキストに最も多く現われる言葉に割当てられ、次に短いトークンは、次に多く現われる言葉に割当てられる、というふうに行われる。
１２．請求の範囲第１１項記載の方法において、最初のフィールドは４つの２進数字の長さが同等の長さをもつ。
１３．請求の範囲第４項記載の方法において、辞書を作るステップはさらに次のステップから成る：第１は、その最低のビット数をもつ異なる１つのトークンによって、それぞれの異なる言葉を表わすのに必要な最低のビット数を計算することであり、第２はその最低のビット数をもつ異なるトークンをそれぞれ異なる言葉に割当てることである。
１４．請求の範囲第１項記載の方法は、さらに次のステップから成る、つまり直前に先行する言葉の最初の文字と同じ言葉の最初の文字を、両方の言葉中で幾つの最初の文字が同じであるかを示す１つの数字で置換することで辞書を圧縮することである。
１５．請求の範囲第１項記載の方法において、テキストは、複数セグメントに分けられ、辞書を作る手段は、さらに、それぞれの異なる言葉に、その言葉が現われるテキストの部分を指定する表示器を与える手段から成る。
１６．請求の範囲第１６項記載の方法で作られる１つの辞書。
１７．請求の範囲第１項記載の方法で作られる１つの辞書。
１８．辞書が、テキストのそれぞれの異なる言葉または言葉のグループに、１つ以上の信号を付ける機械を使用したシステムでは、この信号からテキストを再構成する方法は次のステップから成る：上記の信号から次のトークンを取出すこと、上記トークンをもつ言葉を辞書で発見すること、および上記の言葉を上記機械使用システムの出力に準備することである。
１９．テキストの記憶または伝送用の機械使用システムでは、テキストを圧縮または再構成する方法は、次のステップから成る：そのテキストのそれぞれの異なる言葉または言葉のグループに異なるトークン、そのシステムでその言葉を示すのに必要な最低の平均桁数より少ない、そのトークンを表わすのに必要な平均最低桁数を付ける辞書を作ること、次に、そのテキストを表わすのに必要な桁数が減少できる圧縮されたテキストを作るために、その辞書でその言葉または言葉のグループに付与されたトークンで、それぞれの言葉または言葉のグループを置き換えることであり、また、その圧縮テキストから次のトークンを取出すこと、また、そのトークンをもつ言葉を辞書から発見し、そして、その機械付きシステムの出力にその言葉を準備することである。
２０．請求の範囲第１９項記載の方法において、テキストは英数字の記号と句読点の言葉から成っている。
２１．請求の範囲第１９項記載の方法において、辞書を作るステップは次のステップから成る：アルファベット化されたリストを作るためにアルファベット順にテキストの言葉を順序付けること、次に、圧縮されたアルファベット・リストを作るためにアルファベット・リスト中の全ての重複語を取除くこと、最後に、圧縮されたアルファベット・リスト中の異なる言葉に異なるトークンを割当てること、である。
２２．テキストを圧縮する用具は次の手段から成る：そのテキストのそれぞれの異なる言葉または言葉のグループに異なるトークン、そのシステム中のその言葉を表わすのに必要な平均桁数より少ない、そのトークンを表わすのに必要な平均桁数等を付与する辞書を作る手段が１つであり、次に、そのテキストを表わすのに必要な桁数を減らせるような、言葉または言葉のグループをもつトークンで、その辞書で、それぞれの言葉または言葉のグループを置き換えることである。
２３．請求の範囲第２２項記載の用具において、テキストは、英数字記号と句読点の言葉から成る。
２４．請求の範囲第２２項記載の用具において、それぞれの言葉は、英数字や句読点のような、テキストの連続スペース間にある、記号のストリングである。
２５．請求の範囲第２２項記載の用具において、辞書を作る手段は次から成る：アルファベット・リストを作るためにテキスト中の言葉をアルファベット順に順序付ける手段、圧縮アルファベット・リストを作るためにアルファベット・リスト中の全ての重複語を取除く手段、および圧縮アルファベット・リスト中の異なる言葉に異なるトークンを割当てる手段。
２６．請求の範囲第２２項記載の用具において、辞書を作る手段はさらに次から成る：テキスト中でどの言葉が最も多く使用されているか決める手段、および最も多く現われる言葉に、より少なく現われる言葉に割当てられるトークンより短いトークンを割当てる手段。
２７．請求の範囲第２２項記載の用具において、テキストは部分の好評性に分けられ、辞書を作る手段は、それぞれの異なる言葉に、その言葉が現われる部分がどこであるかを指定する指示器を与える手段から成る。