JPS61500345A - デ−タ圧縮方法および装置 - Google Patents

デ−タ圧縮方法および装置

Info

Publication number
JPS61500345A
JPS61500345A JP59503813A JP50381384A JPS61500345A JP S61500345 A JPS61500345 A JP S61500345A JP 59503813 A JP59503813 A JP 59503813A JP 50381384 A JP50381384 A JP 50381384A JP S61500345 A JPS61500345 A JP S61500345A
Authority
JP
Japan
Prior art keywords
words
word
text
dictionary
token
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59503813A
Other languages
English (en)
Inventor
タギユー,ルイ ドン
コツブ,アレン テイー
Original Assignee
テキスト サイエンセズ コ−ポレ−シヨン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テキスト サイエンセズ コ−ポレ−シヨン filed Critical テキスト サイエンセズ コ−ポレ−シヨン
Publication of JPS61500345A publication Critical patent/JPS61500345A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
    • H03M7/42Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code using table look-up for the coding or decoding process, e.g. using read-only memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】 データ圧縮方法および装置 発明の背景 本発明は英数字データを記憶または伝送する英数字データをコード化するに必要 な信号数を減らす方法および装置に関する0本発明は書物などの大冊のテキスト をコンピュータ装置に記憶し、またはこれをデータ通信装置で伝送する上で特に 有益である。
英数字テキストをコード化するための先行技術は普通バイトと呼ばれる8ビツト の2進コードをテキストの各文字に代用する方法に依拠している。このようなコ ードの1つは情報交換用米国標準コード(ASCII)に基づいてその文字を定 義する7ビツトとパリティピット(奇偶検査ビット)としてか、またはゼロに設 定される8ビツトよりなる。これらコードの一覧表は。
例えばラルストン(Ralston)ほか著「コンピュータ科学およびエンジニ アリング辞典」第2版(VanNostrand Re1nhold、 198 3)第125および126頁に列記されている。
しかしながら、大冊の英数字テキスト中の各文字を表わすために8ビツトを使用 することは現代のマイクロコンピュータおよび通信装置の限界に厳しい負担を課 することになる0例えば、新約を書には170,000以上の語および1,03 6,000個の分離した文字が含まれている。したがって、新約を書を記憶する ためには、1メガバイト以上のデータ格納が必要である。現代の記憶技術を以っ てしても、この種の要件はテキストその他の書物全部を記憶するには比較的費用 がかかる。同様に、書物に匹敵するコード化されたテキスト量を伝送することも 比較的費用がかかり、また時間がかかる。
データの記憶および伝送要件を少なくするため、2文字の組合わせを一層頻繁に 表わす一定の8ビツトコードを使用するように標準コードがこれまで修正されて きた。こうして、二重音字“th”は一つが“t”を。
他の一つが“h”を表わす2個の8ビツトコードではなく、1個の8ビツトコー ドで表わすことができる。
しかしこの技術はそれが達成できるデータの圧縮上、比較的限定される。一般に 、英数字テキストを表わすに必要な2進コードの長さを約40%減らすことがで きる。対をなす文字が特定のテキストに出現する頻度に発明の概要 デジタルコード形成で英数字データを記憶する場合に達成できるデータ圧縮量を 著しく改良させる技術を我々は考案した。我々の発明によれば、英数字テキスト の異なる各類およびそれに伴う句読点を独特の符号に割当てる辞書が作られる。
英数字テキスト中の各類は、ついで辞書中のその語を指す符号で置き換えられる 0例えば、各符号は一連の2進数字でその1i!を識別またはアドレスする16 ビツト(2ビツト)までを含む、従って、辞書は2”=65,536までの記憶 語を含むことができ、これはほとんどの書物に関する語の記憶には十分過ぎる程 の量である。これら65,536語のいずれか1つを識別するのに僅か2バイト の情報が必要であるに過ぎないため、テキストの各類を2バイトの情報で置き換 えれば、テキストの記憶に要する数字の平均数を約三分の−に減らすことができ る。もし辞書が65.536語以上を含んでいるとすると、少なくとも若干の符 号中に必要とするビットの数は16以上でなければならないであろう、逆に、も し辞書中の語の数が16以下の2の乗数であれば、各符号中のビット数を16以 上にすることができる。好都合なことは、辞書を従来のマイクロコンピュータ装 置を用いて極めて迅速に作ることが可能であり、かつ記憶されたテキストを、そ のコンピュータ装置により人間が解読できる形式に再構成できることである。
辞書を記憶するのに必要なバイト数は、アルファベット類に語を記憶し、そに伴 う文字の冗長性を利用することにより実質的に減らすことができる。こうして、 もし2つの記憶語のうち2番目の語が先の語と同じ5文字を含んでいる場合、そ の5文字を表わす1字を記憶することによってその語を意味づけることができる ・句読点を除いては同一の複数形語、所有格、同族語を使用することによる辞書 中の大量の語の冗長性の故に、この技術により辞書のサイズを約三分の−に小さ くすることができる。
圧縮されたテキストの長さをさらに短くするには、多くの場合、最も頻繁に使用 される語を2バイトより短い符号で表わすことにより達成される1通常、テキス ト中のすべての語の半分以上は最も頻繁に用いられる少数の語で構成するので、 例えば、最も頻繁に使用される語に対して、2バイト符号の代りに1バイト符号 を用いることにより、テキストの記憶要件を少なくとも更に25%、そし多くの 場合、50%以上減らすことができる。
前述の技術は語と語の間の境界を保ちながら重要なデータの圧縮を達成する。新 約を書のキングジェームス訳でテストしたところ、これらの技術で新約を書の1 .036,000文字を、ある圧縮方法を用いて220,000バイト中に、そ して他の圧縮方法を用いて183,000バイト中に、記憶させることが可能で あった。また法律家の養成資料中の約900 、000文字で実施したテストで は、テキストを150,000バイト以下に圧縮することができた。
辞書は英数字テキスト中の各類を含むため、特定の語または数個の語がテキスト 中に用いられているかどうかを確認することができる。さらに、テキスト中の語 の場所は辞書中の各類に、その語が出現するテキストの各セグメントを指す確認 子を付加することによって指定することができる。この特徴により、テキストの 同一のセグメ°ントに出現する語を見つけるために。
異なる語に結合する確認子を比較することが可能である。
図面の簡単な説明 我々の発明のこれらおよび他の目的、特徴および長所はその実施の態様に関する 以下の詳細な説明から一層明らかになるであろう。
第1図は我々の発明の好適な一実施の態様の−゛般概念を例示するフローチャー ト。
第2図は第1図に示す実施の態様を更に詳細に例示するフローチャート、 第3図は第2図の詳細を例示するフローチャート、第4図は我々の発明の好適な 実施の態様の第2の特徴を例示するフローチャート、そして 第5図は我々の発明の好適な実施の態様に使用される例示的装置を示す線図であ る。
発明の好適な実施の態様の説明 第1図に示すように、我々の発明における英数字テキストは先ず、該テキストの 各類を16ビツト(2バイト)までの独特の符号に結合する辞書を作ることによ って圧縮される0周知のように、16ビツト中の1またはOのパターンを用いて ゼロから65,536までのどの数でも表わすことができる。圧縮されたテキス トを作るため、各類は辞書中のその語を指す符号によって置き換えられる。辞書 のサイズは、随時辞書中の語をアルファベット類に記憶し、かつその結果生ずる 文字の冗長性を利用することによって縮少することができる。
都合のよいことは、圧縮されたテキストの長さは、最も頻繁に用いられる語を2 バイト以下の長さをもつ符号で表わすことによって更に短縮することができる。
これらの手段は従来のマイクロコンピュータにより遂行されることが望ましい。
マイクロコンピュータにおいて、第1図の技術を実施する特別な手段は第2図中 に示されている。第1に。
圧縮される書物のテキストまたはその他の資料は語の線状リストに変換される。
実際上、このことはキャリエツジリターン/ライン送りがテキストの各類のあと に挿入されることを要求する。この目的のため1便宜上、各類はテキスト中の連 続するスペース間の1句読点を含む全ての英数字記号であると考えられる。この ようにして、テキスト中にスペースが出てくるたびにキャリエツジリターン/ラ イン送りが挿入されるだけであり、英数字テキストの直前の1スペースの一部と 考えられる1語と語の間に多数のスペースがみられる場合、テキストの直前のス ペースはスペース文字よりなる単一語として取扱う。
線状リストがつくられると、従来の分類法を用いてそれを分類し、その結果、テ キストの全単語がアルファベット類に配置される。
アルファベット化されたリストは記憶の重複をさけ、かつ各記憶語の使用頻度計 算をするためマイクロコンピュータによって処理される。こうして、アルファベ ット化された語のリスト全部が最初にアルファベット化されたリストからの各類 を識別し、かつ最初の、アルファベット化されたリスト中に現われるその語の出 現回数を指定する新しい圧縮リストに置き換えられる。
例えば、この手続は第3図に示すように実行される。
アルファベット化されたリストの各類は、こんどはマイクロコンピュータによっ て取出される。この場合。
その語を前に取出した語と比較し、それが新しい語であるかどうかを確認する。
もし2つの語が同じであれば1問題の語は古い語であり、頻度カウンタが1つだ 1ti11分され、前記リストからつぎの語が取出される。
2つの語が異なる場合、問題の語は新語であり、古い語と頻度カウンタの内容が 新しいリストに書き込まれ。
頻度カウンタは1にリセットされ、新しい語はっぎの比較のために記憶される。
辞書をつくるために、圧縮されたアルファベット類の各類はそれぞれの符号を割 当てられる。しかしながら、記憶要件を減らすためには、2バイト以下の長さを もつ符号を、幾つかの技術のうちのどれか1つを用いてより頻繁に用いられる語 に割当てることが望ましい0例えば、1バイトの符号は最も頻繁に用いられる語 に割当てることができる。そのためには、まず圧縮されたアルファベット類のリ ストのコピーをつくり、それを記憶する。ついで、語のリストと頻度計算値が頻 度カウンタにより分別され使用頻度の減少順序に語が配置される新しいリストを 得る。ある技術においては、あるバイトの8ビツトの1つを、2バイト符号でな く1バイト符号としてそのバイトを識別するのに用いることができる。このよう な場合、前記バイトの他の7つのビットを128の異なる符号をつくるために用 いることができる。もしこのバイトが1バイト符号として識別されない場合、2 バイト符号中の残りの17ビツトはテキスト中の32,768に及ぶ異なる語を 識別するために用いることができる。
従って、この技術においては、最も頻繁に用いられる128の語の各々は128 の異なる1バイト符号の1つを割当てられ、残りの語は異なった2バイト符号を 割当てられる。
別の方法として、1バイト符号の数をテキスト中に用いられている異なる語の数 に応じて変えることができる。特に、1および2バイト符号の組合せによって表 わすことができる異なる語の最大数はX+256(256−X) (但し又は使 用される1バイト符号の数を示す)で与えられる。明らかに、Xは256以下ま たはそれと等しい正の整数である。このことから、使用できる1バイト符号の最 大数は x<(256” −Y)/255 (1)(ただし、Yはテキスト中の異なる語 の数である)。
例えば、テキスト中に12,000の異なる語がある場合、X=209となる。
このように、209の最も頻繁に用いられる語は209の1バイト符号によって 表わされ、残りの11,791語は2バイト符号で表わされる。
従って、この技術を用いる場合、方程式(1)は使用できる1バイト符号の最大 するを計算するのに用いられる。この最も頻繁に用いられる語の数は、ついで。
バイト符号を割当てられる。そしてテキスト中の残りの語は2バイト符号を割当 てられる。
1バイト符号の数を定めるためにどの方法が用いられるにしても、最初の語に続 く連続した数的順序で各類に符号を割当てることにより、コンピュータを通じて 辞書が作られる。これらの符号の数的順序は下位から上位、または上位から下位 になり得るが、ここに述べる実施の態様においては単調増減でなければならない 、つぎの説明においては、数的順序は上位に向っている。好都合なことは、1バ イト符号で表わされる語は第1の辞書に割当てられ、残りの語は第2の辞書に割 当てられる。記憶要件を最少にするには、以下詳述するように、各類と2バイト 符号を結合する第2の辞書はせいぜい256記憶語をもつだけであるから1通常 はこの辞書をアルファベット類にする必要はない、しかしながら、この辞書に記 憶される語はテキスト中に非常に頻繁に用いられるため、その検索時間を最小に することが望ましい、この目的で、最も頻繁に用いられる語を最初にしてテキス ト中にそれらの語をその使用頻度順に記憶する。
記憶される辞書はそれに含まれる語だけを含み符号は1つも含まないことが望ま しい0例えば。
ASCIIによりコード化された記号の形式で、1バイトが各記号を表わすよう にして、語が記憶される。
ASCIIコードは僅か96に過ぎないから、各バイトの1ビツトは他の目的に 用いられる。このビットは各類のはじめを識別するのに用いられる。特に、各類 のはじめは、その最初のASCII文字の8ビツトを“1”に設定し、一方その 語の1つ置きのASCII文字の8ビツトを“0”に設定することによって識別 される。その結果、辞書中の特定の語と結合した符号は、辞書のはじめからその 語までの語数を数え、その数とリスト中の最初の語と結合した符号の数値とを加 えるだけで決まる。この計算は各バイトの8ビツトをマスクして、コンピュータ がリスト中の最初の語から問題の語まで各バイトを走査するに応じてその位置に おける各“1”ビットの出現を数えることにより簡単に行われる。
例えば、最初の辞書が209語を含む場合、oooo ooo。
から11010001までの2進数値をもつ符号はこれらの語に割当てられる。
特定の語に割当てられた符号を確認するために、コンピュータは最初のバイトか らはじまって、その符号の数値が計算される特定の語の直前のバイトで終る辞書 中の各バイトの8ビツトの位置中の各1ビツトの出現を数えるだけである。この 辞書中の最初の語に割り当てられた符号の数値はゼロであるから、計算値は符号 の値となる0例えば、第2の辞書の語に割当てられた符号は2進数値11010 01000000000ではじまることになる。従って、その符号の値は第1の 辞書と同じ方法で語を教え、第2の辞書の最初の語と結合した2進数値1101 001000000000を前記計算値に加えることによって決定される。
計算手続きを速くするには、一定の語を結合した符号を識別する調査表が役立つ 0例えば、アルファベットの26文字の各々ではじまる最初の語と結合した符号 を記憶することができる。そして符号が計算される語と最初の文字を同じくする 最初の語がら計算手続きを開始することができる。
辞書が作られたのち、マイクロコンピュータは最初に生じた線状リストから各類 を読み取り、第1または第2の辞書中の語を調べ、その辞書から得た符号で線状 リスト中の語を置き換えることによって英数字テキストを圧縮する。この工程に おいて、第1の辞書の各類が調査がまず行われ、それらの語のASCIIコード が符号で置き換えられる語と一致しているかどうかを確認するテストが行われ、 確認できなかった各テスト数を計算する。もし1両者が一致していれば、不確認 テストの数はその符号の値を示すことになる。但し、最初の語と結合した符号の 値はゼロである。もしも第1の辞書中に前記一致が得られなかった場合、コンピ ュータは第2の辞書に移る。ここで、調査表を用いてその辞書の調査開始点を見 つける0例えば、符号が定められる語の最初の文字を、その文字ではじまる最初 の語を調査表中で見つけるために用いることができる。
調査表はその語の符号の数値を与えることになる。ついで、前記の文字ではじま る異なる語を調べ、各類のASCIIコードが、各類と一致しているかどうかを 確認する。テストできなかった話語にカウンタが1つだけ増分する。そしてその 語が見つかった場合、その語の符号を、同じ最初の文字ではじまる最初の語と結 合した符号の調査表から得た値にカウンタの計算値を加えて、計算する。この方 法で語の線状リスト全体が符号化されたテキストをつくるために符号リストで置 き検相を使って圧縮することが可能である。それは、この辞書の語がアルファベ ット類に配列されており、はとんどすべての語が、辞書の配列順で先行する語の 頭文字または文字に共通する頭文字を、少なくとも1個は含んでいることに起因 する。配列順で2番目の語が先行する第1の語も頭文字と同一の文字を少なくと も2個含んでいる場合は、その2番目の語を表現するためには、(1)第1の語 の頭文字と比較して同じ文字がいくつあるかを示す数と、(2)2番目の語の第 1の語と異なる残りの文字を示す文字の列を使うのが便利な方法である。したが って辞書の個々の語は、先行する見出し語の文字と同じ頭文字の数を指定する数 と。
異なる残りの文字を表わしたASCIIコードを使って格・納される。処理を促 進させるために、その数は1語の頭文字の検索を行う場合にすぐ使用できるよう に2進数で格納される。1列として、辞書に連続して出てくるstorage” 、”5tore”、および“5tored”の3つの語をとってみる。この場合 には、” 5tore”は、最初の4文字が先行する“storage”にあり  &e”が異なるため、14″に相当する2進数と“e”に相当するASCII 文字を使って表現される。また“5tored”は。
最初の5文字が先行する“5tore”と同じで“d”が異なるため、5#に相 当する2進数と“d”に相当するASCII文字を使って表現される。
このあとに、符号化されたテキスト、辞書、W4査表。
および符号化されたテキストを読み取るコンピュータのプログラムが、テープ、 ディスク、またはROMのような適当な媒体のいずれかに格納される。またこの 同じ情報はデータ通信システムを通して、ある位置から別の位置へ伝送すること もできる。我々の発明を利用してデータの圧縮を行うと、実物大のボリュームの  ゛書物の完全なテキストを、1個か2個の51/4インチ(13mm)のブロ ッピー・ディスクに格納することが可能である。一般にテキストの長さは1語を 符号に置き換えることによって、 60〜70%程度まで縮小することができる 。またテキストの中で非常に頻繁に使用される語に対して1バイトの符号をあて ることにより、さらに25%の、場合によっては50%までの縮小を達成するこ とができる。したがって本発明を実際に行うことによってテキストの長さを、全 体として75%程度まで縮小させることが容易にできる。辞書がテキストの長さ を増加させることは明白な事実ではあるが、第2の辞書の長さは、前に述べたよ うに連続した語の同一の頭文字を数値コードを使って表現することにより縮小す ることができる。これは、3個程度の因数を使って辞書の長さを減らしている1 本発明を実行して達成できる圧縮の量を、下の例1に図示しである。また我々の 発明を利用して、この種類のテキストを伝送するために必要なチャネルの伝送容 量の低減も実際に行うことができる。
図4のフロー・チャートは、符号化されたテキストからコンピュータを使っても との英数字のテキストを復元する方法を図示したものである。これに示されてい るように、コンピュータは1個々の符号を順番に取り出してその符号に関連する 語を見つけ出すために。
辞書の1つを探索する。1バイトの符号の場合には。
コンピュータは、その符号の2進数の値をカウンタにロードするだけでよい、そ して第1の辞書の中の語を、最も頻繁に使用される語から始めて順に読み、8番 目のビット位置が“1”ビットになっているバイトごとに1ずつカウントを減ら し、カウンタの示す値がゼロになるまで続ける。この時点で2次に読まれる語が 、始めにカウンタにロードされた符号で表現された語に相当する。第2の辞書を 探索する場合には、コンピュータは符号をアルファベットの個々の文字で始まる 最初の語に関連づけている調査表を有効に用いる。すなわち、コンピュータはテ キストに変換される符号の値から表の符号の値を減算しながら、調査表を逆の順 序で走査していけばよい、2つの値の差が負の値から正の値に変わる瞬間に、コ ンピュータは、符号によって表現された語の文字と同じ文字で始まる最初の語に 到達する。これによってコンピュータはテキストに変換される符号の値からこの 符号の値を差し引き、その文字で始まる異なる語のバイトを読んでいくという同 一の処理を繰り返し行う、8番目のビット位置が“1”ビットであるバイトごと にカウントを1ずつ減らし。
カウントがゼロになるまで続ける。ゼロの時点で1次に調べられる語が符号によ って識別される語に相当する。第1または第2のいずれの辞書から検索が行われ ても、このあとにその語は1表示装置、プリンタ、またはその種の他のコンピュ ータの出力装置に送られる。
そしてコンピュータは次の符号に進む。
以下余白 我々の発明は、コンピュータによって実行されるシステムであればあらゆる方式 のシステムに適用させることができる。テキストの符号化を行い、符号化された テキストからもとの英数字のテキストを復元する処理に適した装置としては、適 当なプログラムによって稼動するコンピュータであればどれでもよい0図5に示 すように、一般にこのようなコンピュータは、プロセッサ(10)、第1と第2 メモリ(20と30)、キーボード(40)および陰極線管CRT (50)か ら構成されている。またこのような装置には、任意選択機能としてプリンタ(6 0)や通信インタフェース(70)をも含めることができる。これらの装置は1 図に示すようにデータ・バス(90)によって相互に接続され、マイクロプロセ ッサ(10)から信号線(90)を通して制御される。さらにメモリは、アドレ ス線(100)によってアドレス指定することができる。図5に示す構成は、通 常のマイクロコンピュータの編成として一般に認められているものである。辞書 を作成し、英数字のテキストを符号化するプログラムは、便宜上読取専用メモリ である第1のメモリに格納することができる。また同じ装置を符号化されたテキ ストから英数字のテキストを復元するためにも使用する場合は、そのプログラム もメモリ(20)に格納することができる0作成された符号化されたテキストは 、辞書と調査表とともに通常はメモリ(30)に格納される。また復元のプログ ラムはメモリ(20)が使用できない場合には、メモリ(30)に格納すること ができる。これらの符号化されたテキスト、辞書、調査表、および復元のプログ ラムは、通信インタフェース(70)を通して遠隔地の別のマイクロコンピュー タに伝送することも可能である。
メモリ(30)は、プログラム可能読取専用メモリ(FROM)か、磁気テープ 、またはフロッピィ・ディスク装置であることが望ましい、これは、これらの装 置が十分な大きさの容量を有していて、ある書物のテキスト全体を1合理的なサ イズのFROMか少数のフロッピィ・ディスクに格納することができるからであ る。またFROMを使用する場合には、FROMに符号化されたテキスト、辞書 、m査表、および復元のプログラムを記録するために適当な装置(図には示して いない)を使用しなければならない、このような装置は一般によく知られている 。また多数の書物を1つのレコードに格納するのが望ましい場合に、本発明を行 うためには、非常に容量の大きい固定ディスク装置 。
か大きいROMのボードを使うことができる8図5の装置が、ディスクに格納さ れたデータからもとの英数字のテキストを復元するために使用する場合には、デ ィスクの内容全体を半導体メモリに転送して処理するのが便利である。半導体メ モリは非常な高速で処理を行うために、辞書の語の調査を促進させ、処理の時間 を短縮することができる。またこの目的のために、通常のマイクロコンピュータ のメモリの記憶容量に適合するような大きさまで辞書を圧縮してしまうと便利で ある。我々は、64キロバイトの半導体メモリが使用できる状態のときにこれを 実行して効果が上がることを確認した。
我々の発明は、広い分野にわたって応用させることが可能である。前にも述べた ように本発明を利用して、データの記憶や伝送のため英数字のテキストを圧縮す ることができる。またもとのテキストの復元を迅速に実行することができるため 、圧縮されたデータをもとのテキストを使って行われていた種々の応用分野に役 立てることができる。また圧縮されたデータは辞書がないと全く役に立たないた めに、符号化されたテキストと辞書を生成して、記憶と伝送の目的のためにそれ らを分離させることによって、英数字データの確実な記憶および/または伝送を 行うことができる。
辞書には英数字のテキストの個々の語が含まれてはいるが、比較的短いものであ るため、情報の検索を行う場合に有効なツールとしてこの辞書を使うこともでき る。とりわけ、単に辞書を走査するだけで、特定の語が英数字のテキストで使用 されているかどうかを容易に確認することができる。また辞書の個々の語にその 語が現われるテキストのそれぞれの区分を指定する識別子を追加して、さらに有 効に使用することができる0例えば、この識別子が1バイトの長さで、そのバイ トの8個のビット位置の1つ1つが、テキストの8個の区分に対応していると仮 定してみる。この例ではそのバイトの8個のビット位置のいずれかに1のビット が入っている場合は、テキストの対応する区分に関連の語があることを示してい る。このように識別子を使用することによって、問題の語を取り囲んでいる英数 字テキストの検索の速度を高めることができる。それは語が現われない区分を探 索する必要がないからである。
さらに、異なる言葉に関係する識別子のそれぞれのビットを比較することによっ て、それらの言葉がテキストの同じ部分に使用されているかどうかがわかる。
明らかに、識別子は、言葉の使用をより正確に発見するために必要なので2その 大きさを変えることができる。
我々の発明の実習では、多くのバリエーションがまた可能である。今まで、我々 は英数字のテキスト、2進数字のトークンおよびアスキーコードが言葉で発明に ついて解説してきたが、この発明は記号の全ての方法で実習することができ、ま た記号はトークン化できるし、いろいろの方法でコード化することもできる。
例えば、外国語、数学的記号、グラフ記号や句読点等が全てこの発明を実習する のに用意されており、またこれらの記号は、アスキー、拡張したアスキーまたは 選ばれたどんなコードによっても表わすことができる。
我々の発明の実習では2進トークンの使用が好ましいが、そのようなトークンを 16進数のような他の基数で表わすのが好ましいかもしれないが、またこの発明 は、どんな基数の桁をもつトークンを使用しても実習することができる。
我々は、頻繁に使用される言葉を記憶するのに2バイト以下のコードを使用して トークン化されたテキストの大きさを小さくするための2つの例を揚げて説明し てきた。しかし、数多くの他の技術が使用できるのである0例えば、大抵の本の 中で使用される用語数は16ビツトで表わせる65,536語より明らかに少な いので。
アルファベット化されたテキストの言葉のそれぞれを。
16ビツト以下で表現することは大抵の場合可能である。
例えば、32,768語は15ビツトで表現できるし、16,384語は14ビ ツトで表わすことができる。したがって、ビットにトークンを割当てる他の方法 は、それぞれの異なった言葉を、その最低のビット数を持つ異なるトークンで表 わすことのできるその最低のビット数を計算し、次にその最低のビット数を持つ 異なるトークンをそれぞれの言葉に割当てることである。もし使用されている用 語数が65,536語以上であれば、同様の原理で。
17.18またはそれ以上のビットのトークンをテキスト中のそれぞれの異なる 言葉に割当てることができる。
代替的アプローチとしては、2つのフィールドをもつトークンを小することであ る。この最初のフィールドは2番目のフィールドの長さを指定する固定長のフィ ールドである。この技術では、トークンは、それぞれの言葉の頻度計算に厳密に 従って言葉に割当てられるので、最も短いトークンは、テキスト中に最も多く現 われる言葉に割当てられ5次に短いトークンは、次に多く使用されている言葉に 割当てられる、という具合になる。この方法では、辞書は、頻度計算の順番に、 最も頻度の高い言葉を辞書の最初に記憶するように。
記憶されるのである。
この技術では、1つのトークンは12ビツトの長さをもつことができる。しかし 、よくあるように、言葉の頻度分布が非常に急な曲線を描くような場合は、テキ スト中のそれぞれの言葉を表わすのに必要な平均ビット数は、下に示す例1の場 合のように、大幅に減らすことができる。トークン化されたテキストが、2つの フィールドを持つトークンを使用して記憶される場合は、トークンを並列のリス トに記憶し、そのリストの1つは最初のフィールドだけのリストであり、もう1 つのリストは2番目のフィールドのリストである。というようにすると便利であ る。データは、2つのリストに同じ順序で記憶される。したがって、トークン化 されたテキストを元の英数字テキストに変換するために、計算機は、最初のフィ ールドから4ビツトを読み取り、この4ビツトから2番目のフィールドリストか ら読み取るビット数を決定する、そしてこのビットを読み、そこで、言葉を頻度 順に記憶している辞書の最初の所から言葉を数えて、そのビットに関連する英数 字を発見するのである。このようにして、最も多く使用される言葉は、最初のリ ストでは0000で表わされ、2番目のリストではゼロビットで表わされる;次 の2つの多く使用される言葉は、最初のリストでは0001で。
また次のリストでは1ビツトで表わされる;次の4つの言葉は、最初のリストで は0010で、2番目のリストでは2ビツトで表わされる。という具合になる。
計算機が最初のリストで0000を読み取ると、これらビットは、2番目のリス トにはエントリーなしであることを示しており、したがって計算機は、辞書の中 の最初の言葉である最も頻度数の高い言葉を検索するのである。
計算機が最初のリストで0001を読み取ると、2番目のリストで次のビットを 読み取り、第2のビットのビットがゼロか1であるかによって、辞書中の第2ま たは第3の言葉を検索するのである。
上に述べた。それぞれの言葉をトークンの形で記憶する技術は、また、言葉のグ ループ(即ち句)の記憶に拡張することができる。普通の句は、全てによって認 知される。 rof the」、rand theJやrto theJは。
殆どの英語の英数字テキスト中でがなりの頻度で使用されていると思われる。そ ういう句は、辞書の中では、自動的に1つの場所が割当てられるが、1つのトー クンが、1つのそういう句の1つの出現のために用意されるのである。
逆に1句は英数字のテキストを走査し、最も使用頻度の高い言葉のサブ・セット で言葉を比較し、簡単に発見することができる0例えば、最も使用頻度の高い1 00語がこのサブ・セットを構成することもある。この手順では、最も使用頻度 の高い句は、それが最も使用頻度の高い言葉の1つであるかどうか決めるのに続 いてテキストのそれぞれの言葉を試験することによって簡単にアセンブルするこ とができる。もし、最も使用頻度の高い言葉でない場合には、次の言葉が取出さ れる。もし、そうであわ、ば、その言葉は、最も使用頻度の高い言葉のリスト上 にある直前の言葉とともに使用されるのである。最終的に、最も頻度数の高い言 葉のリスト上にない所に来た場合、記憶されている言葉は4句のリストに加えら れる。テキスト全体が走査されると、句の記憶リストがアルファベット類に分類 され、重複しているものは除かれ1句の使用頻度計算が行われるのである1句を 表わすのに使用できるトークンの数によって、トークンは、最もよく使用される ものから始まって、これらの句l;割当てられるのであるが、これらの句は、他 の句が割当てられる前に、テキスト中での句の代りをするのである。辞書とトー クン化されたテキストから見て、そのトークンが1語を表わすのか言葉のグルー プを表わすのかで違いはないのである。したがって1元の英数字テキストは1図 4のプロセスに従って簡単に再構成することができる。
例1 我々の発明の実習で、我々は、トークンをそれぞれの言葉に関係づける辞書を作 り、そのトークンで新約を書のそれぞれの言葉を置き換えることによって、新約 を書全体を記憶した。辞書を記憶するのに必要なスペースを減らすために、辞書 の殆ど全てを、アルファベット類に記憶し、辞書中の先行する言葉の最初の文字 と同じ最初の文字を表わすために数字コードを使用して、圧縮した。
テキストをトークン化した形で記憶する最初の努力で、我々は、最も使用頻度の 高い言葉を表わすのに1バイトのトークンを使用した。新約を書の中には、約1 4 、000語の異なる言葉があるので、最も使用頻度の高い言葉を約200を 1バイトのトークンで表わし、残りの13,800語を2バイトのトークンを表 わした。この方法では、新約を書の170,000語の約65%が1バイトのト ークンで表わされている。この1バイト・トークンを使用して、我々は、新約を 書の全体の1,036,000の文字を約220,000バイトの記憶容量で記 憶したのである。
記憶必要条件をさらに減少させるために、上に述べた型の2フイールド・トーク ンを使用することが有利であるということがわかった。特に、新約を書での最も 使用頻度数の高い5つの言葉、それらが使用されている回数およびそれぞれの言 葉を表わすのに使用されているトークン等、を表わしている表1から明らかなよ うに、言葉の使用頻度曲線は非常に急である。0表1 ■トークン ■言葉 ■ 使用回数 2.フィールド・トークンを使用することにより、新約を書のテキス ト全体を記憶するのに必要なバイト数を、約183,000バイトまで減らすこ とができた。
例2 図1の一般的技術の操作を、matthew、 chapter IIからの2 −3の詩を使って、解説することができる:(略) 発明に従って、それぞれの言葉が1つのトークンをもつ、1つの辞書を作る。
■表■ リストは、ここで、テキストの全ての言葉を整理するために1表■に示す如く、 アルファベット類に分類される。
■表■ アルファベット類のリストは、そこで、重複エントリーを取除く処理をされ1表 ■に示すように、それぞれのエントリーの頻度計算を出すようにされる。
■表■ 発明の好ましい形では、言葉と頻度計算のリストは。
そこで、言葉が使用頻度の減る順番に整理されている新しいリストを得るために 、頻度計算により分類される。例2のテキストは非常に短いので、使用頻度に従 ってリストを分類し、使用頻度の高い言葉を表わすのにより小さいトークンを使 用する必要が殆どない、しかし、上でも強調したように、そういう分類は、テキ ストの大きさがかなり長い場合には、有益である。
個々の言葉は、そこで、言葉のアルファベット化されたリスト中で連続エントリ ーに割当てられているだんだん大きくなる数字をもつトークンを割当てられるの である。このようにして1例2での言葉へのトークンの割当ては1表■に示した ようになる。
■表V この例では、それぞれの異なる言葉をユニークに識別するにはたった6ビツトが 必要なだけであることは明らかである。明らかに、ビット数は、トークン化され る異なる言葉の数によって変動する。
最後に、計算機は、表■に示すようなトークン化されたテキストを作るために、 表■の直線リスト中のそれぞれの言葉を1表■に示す相当するトークンで置き換 えるのである。
■表■ 倒2では、言葉の辞書を圧縮する意味はあまりない。
しかし、多くの言葉の最初の文字が同じである大きなテキストでは、辞典は、1 つの言葉の全ての最初の文字が、先行する言葉の最初の文字と同じである場合。
それらの文字を1つの数で置き換えることにより、圧縮することができる。
元のテキストの再構成は1図4に示すように、それぞれのトークンを1度に1つ 読み取り、相当する言葉を発見、検索しまた適切な出力として準備されるまで、 辞書を通して、数えるのに使用されることにより達成されるのである。
上に述べたように、辞書はまた、1つの言葉が英数字テキストで使用されている ことを示すために情報検索に使用することもできる。この応用では、言葉が使用 されているテキストの部分を示すために識別子を使用することは、その文脈での その言葉の検索を速める。
新約を書の場合には、4つのGospels、 Act of theApoc ttes、 Apocalypse、 Pauline Epistlesと  nov−Pauling Epistlesのそれぞれの別/J(1)識別を1 バイトの識別子で行うことができる。
この技術に熟達しているものには明らかなように、上に述べた発明には多くの変 形が可能である。
オ 1 図 終J t 2 図 才 3rXJ オ 4 図 才 5 図 手続補正書動幻 昭和60年12月 6日 特許庁長官 宇 賀 道 部 殿 1、事件の表示 PCT/US841016672、発明の名称 データ圧縮方 法および装置3、補正をする者 事件との関係 特許出願人 名 称 テキスト サイエンセズ コーポレーション4、代理人 住 所 (〒100)東京都千代田区丸の内−丁目5番1号3、補正の対象 特 許法第184条の5第1項の規定による書面及び委任状並びに明細書及び請求の 範囲の翻訳文の浄書 フ、補正の内容 特許法第184条の5第1項の規定による書面の特許出願人の 欄の代表者名を補充し。
国際調査報告

Claims (27)

    【特許請求の範囲】
  1. 1.テキストを記憶または伝送するための機械使用システムにおいて、前記テキ ストの各々異なる言葉または言葉のグループと1つの異なるトークンを関連させ 、前記トークンを代表するために必要なディジットの平均数は、前記システム中 で前記言葉を代表するために必要なディジットの平均数よりも少ない辞書を作る ステップと、各々の言葉または言葉のグループを前記辞書により前記言葉または 言葉のグループと関連したトークンに置き換え、それにより前記テキストを代表 するために必要なディジットの数は減少するステップの各ステップから成るテキ ストを圧縮するための方法。
  2. 2.請求の範囲第1項記載の方法において、テキストは英数文字の記号および句 読点の言葉から成る。
  3. 3.請求の範囲第1項記載の方法において、各言葉は、テキスト中の連続的スペ ース間に位置する、英数文字の文字および句読点のような1本の記号の連糸であ る。
  4. 4.請求の範囲第1項記載の方法において、辞書を作るステップは、アルファベ ット表記のテキストの言葉にアルファベット順の配列を作るように指令するステ ップと、アルファベット順のリスト中の重複する総ての言葉を削除し、簡約され たアルファベット順リストを作るステップと、前記簡約されたアルファベット順 リスト中の異なるトークンを割当てるステップの各ステップから成る。
  5. 5.請求の範囲第4項記載の方法において、各々の異なるトークンは1つの異な る数値を持ち、異なるトークンを簡約されたアルファベット順リスト中の異なる 言葉に割当てるステップは、連続する番号順の異なるトークンをアルファベット 順の異なる言葉に割当てるステップから成る。
  6. 6.請求の範囲第4項記載の方法において、辞書を作るステップは、さらに次の 2つのステップから成っている:1つは、テキスト中で最も多く現われる言葉を 決定することであり、もう1つは、最も多く現われる言葉に、より少なく現われ る言葉に割当てられるトークンより短いトークンを割当てることである。
  7. 7.請求の範囲第6項記載の方法において、トークンを割当てるステップは、最 初の最も多く使用される128の言葉に1バイトのトークンを割当てることと、 残りの言葉に1バイトより長いトークンを割当てることとから成っている。
  8. 8.請求の範囲第7項記載の方法において、それぞれの言葉に割当てられるトー クンの最初のバイトが、トークンが1バイトの長さか1バイトより長いかを示す ビットを含む1つのビット位置をもっている。
  9. 9.請求の範囲第6項記載の方法において、トークンを割当てるステップは次の ステップから成っている:つまり第1は、残りの言葉が2バイトのトークンで表 わされる時、最も多く使用される言葉を表わすのに使用できる1バイト・トーク ンの最大数を計算することであり、第2は、量も多く使用される言葉の最大数に 1バイトのトークンを割当てることであり、第3は、残りの言葉に2バイト・ト ークンを割当てることである。
  10. 10.請求の範囲第4項記載の方法において、辞書を作るステップはさらに次の ステップから成っている:頻度数を作るのにアルファベット化されたリスト中の 言葉の重複エントリーを数えること、次に、それぞれの言葉の頻度計算に従って 圧縮されたアルファベット・リストを分類すること、最後に、最も多く現われる 言葉に、より少なく現われる言葉に割当てられているトークンより短いトークン を割当てることである。
  11. 11.請求の範囲第10項記載の方法において、トークンを割当てるステップは 次のステップから成る:2フィールドを持つ1つのトークンをそれぞれの言葉に 割当てるが、その最初のフィールドは、固定長であり、第2のフィールドの長さ を規定する、そして上に述べたようにそれぞれの言葉の頻度計算に従ってトーク ンを言葉に割当てられるので、最も短いトークンはテキストに最も多く現われる 言葉に割当てられ、次に短いトークンは、次に多く現われる言葉に割当てられる 、というふうに行われる。
  12. 12.請求の範囲第11項記載の方法において、最初のフィールドは4つの2進 数字の長さが同等の長さをもつ。
  13. 13.請求の範囲第4項記載の方法において、辞書を作るステップはさらに次の ステップから成る:第1は、その最低のビット数をもつ異なる1つのトークンに よって、それぞれの異なる言葉を表わすのに必要な最低のビット数を計算するこ とであり、第2はその最低のビット数をもつ異なるトークンをそれぞれ異なる言 葉に割当てることである。
  14. 14.請求の範囲第1項記載の方法は、さらに次のステップから成る、つまり直 前に先行する言葉の最初の文字と同じ言葉の最初の文字を、両方の言葉中で幾つ の最初の文字が同じであるかを示す1つの数字で置換することで辞書を圧縮する ことである。
  15. 15.請求の範囲第1項記載の方法において、テキストは、複数セグメントに分 けられ、辞書を作る手段は、さらに、それぞれの異なる言葉に、その言葉が現わ れるテキストの部分を指定する表示器を与える手段から成る。
  16. 16.請求の範囲第16項記載の方法で作られる1つの辞書。
  17. 17.請求の範囲第1項記載の方法で作られる1つの辞書。
  18. 18.辞書が、テキストのそれぞれの異なる言葉または言葉のグループに、1つ 以上の信号を付ける機械を使用したシステムでは、この信号からテキストを再構 成する方法は次のステップから成る:上記の信号から次のトークンを取出すこと 、上記トークンをもつ言葉を辞書で発見すること、および上記の言葉を上記機械 使用システムの出力に準備することである。
  19. 19.テキストの記憶または伝送用の機械使用システムでは、テキストを圧縮ま たは再構成する方法は、次のステップから成る:そのテキストのそれぞれの異な る言葉または言葉のグループに異なるトークン、そのシステムでその言葉を示す のに必要な最低の平均桁数より少ない、そのトークンを表わすのに必要な平均最 低桁数を付ける辞書を作ること、次に、そのテキストを表わすのに必要な桁数が 減少できる圧縮されたテキストを作るために、その辞書でその言葉または言葉の グループに付与されたトークンで、それぞれの言葉または言葉のグループを置き 換えることであり、また、その圧縮テキストから次のトークンを取出すこと、ま た、そのトークンをもつ言葉を辞書から発見し、そして、その機械付きシステム の出力にその言葉を準備することである。
  20. 20.請求の範囲第19項記載の方法において、テキストは英数字の記号と句読 点の言葉から成っている。
  21. 21.請求の範囲第19項記載の方法において、辞書を作るステップは次のステ ップから成る:アルファベット化されたリストを作るためにアルファベット順に テキストの言葉を順序付けること、次に、圧縮されたアルファベット・リストを 作るためにアルファベット・リスト中の全ての重複語を取除くこと、最後に、圧 縮されたアルファベット・リスト中の異なる言葉に異なるトークンを割当てるこ と、である。
  22. 22.テキストを圧縮する用具は次の手段から成る:そのテキストのそれぞれの 異なる言葉または言葉のグループに異なるトークン、そのシステム中のその言葉 を表わすのに必要な平均桁数より少ない、そのトークンを表わすのに必要な平均 桁数等を付与する辞書を作る手段が1つであり、次に、そのテキストを表わすの に必要な桁数を減らせるような、言葉または言葉のグループをもつトークンで、 その辞書で、それぞれの言葉または言葉のグループを置き換えることである。
  23. 23.請求の範囲第22項記載の用具において、テキストは、英数字記号と句読 点の言葉から成る。
  24. 24.請求の範囲第22項記載の用具において、それぞれの言葉は、英数字や句 読点のような、テキストの連続スペース間にある、記号のストリングである。
  25. 25.請求の範囲第22項記載の用具において、辞書を作る手段は次から成る: アルファベット・リストを作るためにテキスト中の言葉をアルファベット順に順 序付ける手段、圧縮アルファベット・リストを作るためにアルファベット・リス ト中の全ての重複語を取除く手段、および圧縮アルファベット・リスト中の異な る言葉に異なるトークンを割当てる手段。
  26. 26.請求の範囲第22項記載の用具において、辞書を作る手段はさらに次から 成る:テキスト中でどの言葉が最も多く使用されているか決める手段、および最 も多く現われる言葉に、より少なく現われる言葉に割当てられるトークンより短 いトークンを割当てる手段。
  27. 27.請求の範囲第22項記載の用具において、テキストは部分の好評性に分け られ、辞書を作る手段は、それぞれの異なる言葉に、その言葉が現われる部分が どこであるかを指定する指示器を与える手段から成る。
JP59503813A 1983-10-19 1984-10-17 デ−タ圧縮方法および装置 Pending JPS61500345A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US54328683A 1983-10-19 1983-10-19
US543286 1983-10-19

Publications (1)

Publication Number Publication Date
JPS61500345A true JPS61500345A (ja) 1986-02-27

Family

ID=24167358

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59503813A Pending JPS61500345A (ja) 1983-10-19 1984-10-17 デ−タ圧縮方法および装置

Country Status (5)

Country Link
EP (1) EP0160672A4 (ja)
JP (1) JPS61500345A (ja)
CA (1) CA1226369A (ja)
IT (1) IT1180100B (ja)
WO (1) WO1985001814A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020061641A (ja) * 2018-10-09 2020-04-16 富士通株式会社 符号化プログラム、符号化方法、符号化装置、復号化プログラム、復号化方法および復号化装置

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU5091485A (en) * 1984-11-08 1986-06-03 Datran Corp. Symbolic tokenizer for words and phrases
US4758955A (en) * 1985-07-19 1988-07-19 Carson Chen Hand-held spelling checker and method for reducing redundant information in the storage of textural material
US4949302A (en) * 1986-11-17 1990-08-14 International Business Machines Corporation Message file formation for computer programs
US4843389A (en) * 1986-12-04 1989-06-27 International Business Machines Corp. Text compression and expansion method and apparatus
AU603453B2 (en) * 1987-05-25 1990-11-15 Megaword International Pty. Ltd. A method of processing a text in order to store the text in memory
US5754847A (en) * 1987-05-26 1998-05-19 Xerox Corporation Word/number and number/word mapping
US5560037A (en) * 1987-12-28 1996-09-24 Xerox Corporation Compact hyphenation point data
US5099426A (en) * 1989-01-19 1992-03-24 International Business Machines Corporation Method for use of morphological information to cross reference keywords used for information retrieval
DE3914589A1 (de) * 1989-05-03 1990-11-08 Bosch Gmbh Robert Verfahren zur datenreduktion bei strassennamen
US5325091A (en) * 1992-08-13 1994-06-28 Xerox Corporation Text-compression technique using frequency-ordered array of word-number mappers
CA2125337A1 (en) * 1993-06-30 1994-12-31 Marlin Jay Eller Method and system for searching compressed data
US6023679A (en) * 1994-10-04 2000-02-08 Amadeus Global Travel Distribution Llc Pre- and post-ticketed travel reservation information management system
GB2305746B (en) * 1995-09-27 2000-03-29 Canon Res Ct Europe Ltd Data compression apparatus
WO1997022112A1 (en) * 1995-12-14 1997-06-19 Motorola Inc. Apparatus and method for storing and presenting text
US6012062A (en) * 1996-03-04 2000-01-04 Lucent Technologies Inc. System for compression and buffering of a data stream with data extraction requirements
US5883906A (en) * 1997-08-15 1999-03-16 Advantest Corp. Pattern data compression and decompression for semiconductor test system
DE19854179A1 (de) * 1998-11-24 2000-05-25 Siemens Ag Verfahren und Anordnung zur Kompression bzw. Expansion von Zeichenketten durch eine DV-Einrichtung
AU2002361224A1 (en) * 2002-12-27 2004-07-22 Nokia Corporation Predictive text entry and data compression method for a mobile communication terminal
DE102008022184A1 (de) * 2008-03-11 2009-09-24 Navigon Ag Verfahren zur Erzeugung einer elektronischen Adressdatenbank, Verfahren zur Durchsuchung einer elektronischen Adressdatenbank und Navigationsgerät mit einer elektronischen Adressdatenbank
WO2014147671A1 (ja) * 2013-03-22 2014-09-25 富士通株式会社 圧縮装置、圧縮方法、伸張装置、伸張方法および情報処理システム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3344405A (en) * 1964-09-30 1967-09-26 Ibm Data storage and retrieval system
US3717851A (en) * 1971-03-03 1973-02-20 Ibm Processing of compacted data
GB1516310A (en) * 1974-10-29 1978-07-05 Data Recording Instr Co Information indexing and retrieval processes
US4270182A (en) * 1974-12-30 1981-05-26 Asija Satya P Automated information input, storage, and retrieval system
US4189781A (en) * 1977-01-25 1980-02-19 International Business Machines Corporation Segmented storage logging and controlling
JPS55108075A (en) * 1979-02-09 1980-08-19 Sharp Corp Data retrieval system
US4356549A (en) * 1980-04-02 1982-10-26 Control Data Corporation System page table apparatus
US4358826A (en) * 1980-06-30 1982-11-09 International Business Machines Corporation Apparatus for enabling byte or word addressing of storage organized on a word basis
US4500955A (en) * 1981-12-31 1985-02-19 International Business Machines Corporation Full word coding for information processing

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020061641A (ja) * 2018-10-09 2020-04-16 富士通株式会社 符号化プログラム、符号化方法、符号化装置、復号化プログラム、復号化方法および復号化装置

Also Published As

Publication number Publication date
IT1180100B (it) 1987-09-23
EP0160672A4 (en) 1986-05-12
CA1226369A (en) 1987-09-01
WO1985001814A1 (en) 1985-04-25
IT8468039A0 (it) 1984-10-19
IT8468039A1 (it) 1986-04-19
EP0160672A1 (en) 1985-11-13

Similar Documents

Publication Publication Date Title
JPS61500345A (ja) デ−タ圧縮方法および装置
EP0083393B1 (en) Method of compressing information and an apparatus for compressing english text
US4782325A (en) Arrangement for data compression
US5680612A (en) Document retrieval apparatus retrieving document data using calculated record identifier
US5745745A (en) Text search method and apparatus for structured documents
US6119120A (en) Computer implemented methods for constructing a compressed data structure from a data string and for using the data structure to find data patterns in the data string
US4955066A (en) Compressing and decompressing text files
US5450580A (en) Data base retrieval system utilizing stored vicinity feature valves
US5109433A (en) Compressing and decompressing text files
EP0584992B1 (en) Text compression technique using frequency ordered array of word number mappers
US5333313A (en) Method and apparatus for compressing a dictionary database by partitioning a master dictionary database into a plurality of functional parts and applying an optimum compression technique to each part
US5778359A (en) System and method for determining and verifying a file record format based upon file characteristics
WO1989006882A1 (en) Method and system for storing and retrieving compressed data
JPH026252B2 (ja)
US5444445A (en) Master + exception list method and apparatus for efficient compression of data having redundant characteristics
JP3333549B2 (ja) 文書検索方式
JPH08287105A (ja) 文書登録検索装置
US6731229B2 (en) Method to reduce storage requirements when storing semi-redundant information in a database
JPH056398A (ja) 文書登録装置及び文書検索装置
JPH0546357A (ja) テキストデータの圧縮方法および復元方法
JPH0546358A (ja) テキストデータの圧縮方法
JPS59112339A (ja) 文書検索高速化方式
Cooper et al. Compression of continuous prose texts using variety generation
JPH05181913A (ja) 昇順整数列データの圧縮および復号システム
WO1992009960A1 (en) Data retrieving device