JPS6268325A - 文章圧縮・伸展方式 - Google Patents

文章圧縮・伸展方式

Info

Publication number
JPS6268325A
JPS6268325A JP60206625A JP20662585A JPS6268325A JP S6268325 A JPS6268325 A JP S6268325A JP 60206625 A JP60206625 A JP 60206625A JP 20662585 A JP20662585 A JP 20662585A JP S6268325 A JPS6268325 A JP S6268325A
Authority
JP
Japan
Prior art keywords
word
code
character
characters
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60206625A
Other languages
English (en)
Inventor
Etsuaki Kurosaki
黒崎 悦明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP60206625A priority Critical patent/JPS6268325A/ja
Publication of JPS6268325A publication Critical patent/JPS6268325A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は符号化された文章の圧縮・伸展方式に関し、特
に日本語を扱う漢字データ出力機器あるいはデータ送受
信端末において、鍵盤やOCRあるいはファイル装置等
の入力装置から入力される文章の文字符号列を圧縮し、
かつすでに圧縮されている符号列を元の入力文字符号列
に復元するための日本語文章圧縮・伸展方式に関するも
のである。
(従来の技術) 文字符号列における文字データ圧縮については、従来か
ら連続文字圧縮方式が一般的である(例えば、「昭和5
5年電気四学会連合大会講演論文集〔5〕」、昭和55
年10月、何間、西村他、ネットワーク系のプロトコル
実現のための符号化、P 5−101〜P5−102)
。この方式は圧縮制御符号を用いて、同一の文字がpヶ
連続している場合に該文字1字とその一つ前にp文字連
続する旨を示す制御文字を1字挿入する。連続が終了し
、再び1字毎に異なる文字列にユf化した場合にこのこ
とを示す別の制御文字を挿入する方法を採用している。
(発明が解決しようとする問題点) しかしながら、この従来方式では容易に解るように同一
文字が4字以上連続した場合にのみ効果を発揮するので
、一般の文書ではその条件が生ずる確率は低いことから
圧縮効果は極めて低い。
本発明は上記の欠点を除き、文字の連続性には無関係に
任意の文章を効率よく圧縮・伸展し得る文章圧縮・伸展
方式を提供することを目的とする。
(問題点を解決するための手段) 特許請求の範囲第1項に記載の発明(以下、第1の発明
という)は、以下の4つの手段を有して構成される。
第1の手段は、所定の文字数からなる語の文字符号列を
当該語に固有の語コードに対応させて予め複数個格納し
ておく。
第2の手段は、圧縮されるべき文章を1文字ごとに符号
化して得られた文字符号列を一時格納する0 第3の手段は、第2の手段から前記所定の文字数と同一
の文字分だけ文字符号列を順次取り出し、当該文字符号
列が第10手段に格納されている語の文字符号列に一致
するかどうかを検索する。
第4の手段は、第3の手段における検索の結果、一致し
た場合には第1の手段から得られる当該文字符号列の語
に固有の語コードを出力し、一致しない場合には当該文
字符号列のうちの先頭の文字符号を第2の手段からその
まま出力する。
また、特許請求の範囲第2項に記載の発明(以下、第2
の発明という)は、以下の4つの手段を有して構成され
る。
第1の手段は、文章を1文字ごとに符号化して得られた
文字符号列のうち所定の文字数からなる予め決められた
語があれば、これを当該語に固有の語コードに置き換え
ることによシ得られた圧縮文字符号列を一時格納する。
第2の手段は、前記所定の文字数からなる語の文字符号
列を当該語に固有の語コードに対応させて予め複数個格
納しておく。
第3の手段は、前記第1の手段に格納された圧縮文字符
号列を符号ごとに取シ出して第2の手段に格納されてい
る語コードに一致するかどうかを検索する。
第4の手段は、第3の手段における検索の結果、一致し
た場合は第2の手段から得られる当該符号に対応する語
の文字符号列を出力し、一致しない場合には当該符号を
第1の手段からそのまま出力する。
(作用) 上記第1の発明は次のとおシ動作する。
文章を符号化して得られた文字符号列は第2の手段に一
時格納される。第3の手段は第2の手段に格納された文
字符号列から第1の手段に格納されている語の文字数と
同一数の文字符号列を順次取シ出す。そして、第3の手
段は取シ出した文字符号列の語が第1の手段に予め格納
されている語に一致するかどうかを検索する。第4の手
段は、この検索の結果、一致した場合には当該文字符号
列に対応する語コードを第2の手段から出力し、一致し
ない場合は当該文字符号列のうちの先頭の文字符号をそ
のまま出力する。この結果、符号化された文章が圧縮さ
れる。
上記第2の発明は次のとお!ll動作する。
第1の発明により圧縮された圧縮文字符号列は第1の手
段に一時格納される。第3の手段は第1の手段に格納さ
れた圧縮文字符号列を符号ごとに取り出して、第2の手
段に格納されている語コードに一致するかどうかを検索
する。第4の手段は、この検索の結果、一致した場合は
第2の手段から得られる当該符号(従って、この場合の
符号は語コードである)に対応する語の文字符号列を出
力し、一致しない場合は当該符号(従って、この場合の
符号は文字符号である)を第1の手段からそのまま出力
する。この結果、圧縮符号化された文章が伸展される。
(実施例) 本発明の詳細な説明するのに先立ち、本発明の背景とな
る事項について説明する。
日本語において用いられている漢字字種は数千種以上で
ある。このため、1つの文字は、10  ビット以上の
コードによって符号化される。例えば15 ビットで符
号化した場合には、最大215(=32.768 )種
の文字を符号化することができ、また16ビツトを用い
た場合には、2′6(=65.536)種の文字を符号
化することができる。本発明は、ビット数に関係なく構
成できるものであるが、説明を容易にするために16ビ
ツト構成法によって以下に説明する。
日常用いられている漢字の字種は、仮名や特殊記号を含
めてもせいぜい1万種であるから、もし16 ビット構
成法を採用するならば65.536種のコードのうち残
りの約5万種余シのコードを他の目的に利用することが
できる。一方、一般の日本語文書においては、1文字の
自立語と付属語(例;家、水、や、が、・・・)および
特殊記号の出現頻度に比べて、2文字以上から構成され
る自立語や付属語(例;会議、ロボット、美しい、らし
い、でした、・・・)の出現頻度は一般にきわめて大き
い。
この性質を利用するならば、入力装置から順次入力され
てくる文字コード列から2文字以上の語を抽出し、その
語を構成する文字コード列の部分を、電子辞書を用いて
語にあらかじめ割シあてられている16ピツトの語コー
ドに置換し、また語の−構成素と判定されなかった入力
文字コードは何ら変換されずそのまま出力する、文字・
語混合符号列への変換機構を実現することにより、文章
の大福々圧縮を行うことができる。
一方、伸展する側においては、上記文字・語混合符号列
を受信して、単一の文字コードはそのまま出力し、語コ
ードについては送信側と同一の語が登録されている電子
辞書を用いて2文字以上の文字コード列に置換して出力
することによシ、圧縮変換される前の原入力文字列に伸
展することができる。
第1図は第1の発明及び第2の発明のそれぞれの実施例
を示すブロック図である。図中、一点鎖線Aで囲まれた
部分は圧縮機構であり、二点鎖線Bで囲まれた部分は伸
展機構である〇 はじめに、圧縮機構について説明する。2は入力レジス
タ部であり、圧縮したい漢字仮名まじシ文章の文字符号
列が入力口】よシ順次供給される。
レジスタの長さは、変換単語単位の長さを選ぶことによ
り、2字、3字、あるいは4字などに定めることができ
る。説明を容易にするために以下では長さを2字として
説明する。
入力レジスタ部2に置かれた2文字の符号列は、語探索
部3に供給され、電子辞書記憶部9に収容された語を検
索して一致するものがあればその単語に付与されている
語コードの内容が読出されて圧縮制御部4を介して出力
レジスタ部5に出力される。一致するものがない場合に
は、入力レジスタ部2は左に1文字分シフトされて次の
1文字を供給口1から供給するとともに、シフトアウト
された最左端の文字は経路7を通り、圧縮制御部5を介
して出力レジスタ部5に無変換のまま送られて出力され
る。
いま、“御要望に答え・・・”という文が圧縮変換され
る場合を考える。電子辞書記憶部9には第2図に示すよ
うな単語・語コード対応を内容とする辞書が収容されて
いるものとする。入力レジスタ部2には、最初の2文字
“御要″が置かれる。語探索部3は電子辞書記憶部9の
見出し部を順次読み出して、入力レジスタ部2の“両便
”と比較していく。第2図から明らかなように、制御部
″という単語は見つからないので、ない旨の信号が圧縮
制御部4に与えられて入力レジスタ部2の最初の文字“
御″が制御部4を介して出力レジスタ部5に出力される
とともに、次の1文字“望″が1から与えられて入力レ
ジスタ部2には1要望”が置かれる。こんどは第2図か
ら明らかなように°要望”が検索されるので、その旨の
信号が圧縮制御部4に与えられ、辞書の“要望″に付加
されている語コード@03#が経路6を通って圧縮制御
部4を介して出力レジスタ部5に出力される。
次に入力レジスタ部2は2文字左にシフトされて今まで
置かれていた“要望“の2文字のかわシに次の2字“に
答″が入力口1から供給されて置かれ、上記と同様の手
順で変換が順次行なわれる。
次に伸展機構について説明する。12は16ビツトの圧
縮符号入力レジスタ部であシ、圧縮文の供給口11から
圧縮符号列が1符号(16ビツト)ずつ順次に供給され
る。圧縮符号入力レジスタ部12に置かれた符号は、コ
ード探索部】3に供給されて、電子辞書記憶部9に収容
されている語コードを検索する。一致する語コードがあ
れば、そのコードに対応する見出しの単語2文字が読み
出されて、経路16から伸展制御部】4を介して原文出
力レジスタ部】5に送られる。
先の例文“両便望に答え・・・”に関する圧縮符号列が
入力口11から順次供給されてくる場合について説明す
るならば、“御″の語コードは電子辞書記憶部9にない
ので経路17を介してそのまま原文出力レジスタ部15
に出力される。次に、語コード″03#がレジスタ12
に供給される。コード探索部13は電子辞書記憶部9に
収容されている語コードを検索する。一致する語コード
があればそのコードに対応する見出しの単語2文字が読
み出されて、経路16から伸展制御部】4を介して原文
出力レジスタ部15に送られる。この場合、第2図から
明らかなように語“03″が見つかるので、その旨を示
す信号が伸展制御部14に与えられて、電子辞書記憶部
9の見出し部の“要望”の2文字が読み出されて経路1
6から伸展制御部14を介して原文出力レジスタ部15
“要望″の2文字が出力される。以下、同様の手順を繰
シかえずことによシ、圧縮まえの原文“両便望に答え・
・・″に伸展される。
以上、本発明を実施例に基づき説明した。上述の説明で
は電子辞書記憶部9に収容される語長を固定長として説
明したが、たとえば電子辞書記憶部9に収容される語の
最大文字数を4字とした場合に、2字、3字、および4
字までの長さの語を収容し、かつ広く知られている最長
マツチング法を用いて最長の語を優先的に探索して1つ
の16ビツト符号に置きかえる方法を用いても同様であ
る0 尚、文章圧縮に関し、電子辞書記憶部9に収容されてい
ない語は単に無変換のまま出力されるのみであり、した
がって成子辞書記憶部9に収容されるべき語粟の選択は
自由である。とくに高出現頻度の語を優先的に収容する
ならば、よシ効果的な圧縮ができる。
(発明の効果) 以上説明したように、本発明によれば文字の連続性には
無関係に任意の文章を効率よく圧縮・伸展し得る文章圧
縮・伸展方式を提供することができる。
【図面の簡単な説明】
第1図は本発明の実施例のブロック図、及び第2図は電
子辞書記憶部内の格納例を示す図である。 2・・・入力レジスタ部 吐・・語探索部4・・・圧縮
制御部   訃・・出力レジスタ部9・・・電子辞書記
憶部 12・・・圧縮符号入力レジスタ部 13・・・コード探索部 14・・・伸展制御部15・
・・原文出力レジスタ部

Claims (2)

    【特許請求の範囲】
  1. (1)所定の文字数からなる語の文字符号列を当該語に
    固有の語コードに対応させて予め複数個格納しておく第
    1の手段と、 圧縮されるべき文章を1文字ごとに符号化して得られた
    文字符号列を一時格納する第2の手段と、第2の手段か
    ら前記所定の文字数と同一の文字分だけ文字符号列を順
    次取り出し、当該文字符号列が第1の手段に格納されて
    いる語の語コードに一致するかどうかを検索する第3の
    手段と、第3の手段における検索の結果、一致した場合
    には第1の手段から得られる当該文字符号列の語に固有
    の語コードを出力し、一致しない場合には当該文字符号
    列のうちの先頭の文字符号を第2の手段からそのまま出
    力する第4の手段と、 を有することを特徴とする文章圧縮方式。
  2. (2)文章を1文字ごとに符号化して得られた文字符号
    列のうち所定の文字数からなる予め決められた語があれ
    ば、これを当該語に固有の語コードに置き換えることに
    より得られた圧縮文字符号列を一時格納する第1の手段
    と、 前記所定の文字数からなる語の文字符号列を当該語に固
    有の語コードに対応させて予め複数個格納しておく第2
    の手段と、 前記第1の手段に格納された圧縮文字符号列を符号ごと
    に取り出して第2の手段に格納されている語コードに一
    致するかどうかを検索する第3の手段と、 第3の手段における検索の結果、一致した場合は第2の
    手段から得られる当該符号に対応する語の文字符号列を
    出力し、一致しない場合には当該符号を第1の手段から
    そのまま出力する第4の手段と、 を有することを特徴とする圧縮文章伸展方式。
JP60206625A 1985-09-20 1985-09-20 文章圧縮・伸展方式 Pending JPS6268325A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60206625A JPS6268325A (ja) 1985-09-20 1985-09-20 文章圧縮・伸展方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60206625A JPS6268325A (ja) 1985-09-20 1985-09-20 文章圧縮・伸展方式

Publications (1)

Publication Number Publication Date
JPS6268325A true JPS6268325A (ja) 1987-03-28

Family

ID=16526470

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60206625A Pending JPS6268325A (ja) 1985-09-20 1985-09-20 文章圧縮・伸展方式

Country Status (1)

Country Link
JP (1) JPS6268325A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5614899A (en) * 1993-12-03 1997-03-25 Matsushita Electric Co., Ltd. Apparatus and method for compressing texts
JP2004511928A (ja) * 2000-07-25 2004-04-15 ペリビット・ネットワークス,インコーポレイテッド 漸進的で連続的なデータ圧縮のためのシステム及び方法
US6834283B1 (en) 1999-01-07 2004-12-21 Fujitsu Limited Data compression/decompression apparatus using additional code and method thereof
JP2015128701A (ja) * 2015-04-14 2015-07-16 株式会社三共 スロットマシン
JP2015155037A (ja) * 2015-06-02 2015-08-27 株式会社三共 スロットマシン
JP2016019781A (ja) * 2015-09-25 2016-02-04 株式会社三共 スロットマシン

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5614899A (en) * 1993-12-03 1997-03-25 Matsushita Electric Co., Ltd. Apparatus and method for compressing texts
US6834283B1 (en) 1999-01-07 2004-12-21 Fujitsu Limited Data compression/decompression apparatus using additional code and method thereof
JP2004511928A (ja) * 2000-07-25 2004-04-15 ペリビット・ネットワークス,インコーポレイテッド 漸進的で連続的なデータ圧縮のためのシステム及び方法
JP4759214B2 (ja) * 2000-07-25 2011-08-31 ジュニパー ネットワークス, インコーポレイテッド 漸進的で連続的なデータ圧縮のためのシステム及び方法
JP2015128701A (ja) * 2015-04-14 2015-07-16 株式会社三共 スロットマシン
JP2015155037A (ja) * 2015-06-02 2015-08-27 株式会社三共 スロットマシン
JP2016019781A (ja) * 2015-09-25 2016-02-04 株式会社三共 スロットマシン

Similar Documents

Publication Publication Date Title
KR100271861B1 (ko) 데이타압축, 신장방법 및 장치와 이것을 사용한 데이타처리장치 및 네트워크시스템
US4814746A (en) Data compression method
Porwal et al. Data compression methodologies for lossless data and comparison between algorithms
CN101783788A (zh) 文件压缩、解压缩方法、装置及压缩文件搜索方法、装置
CN101800556A (zh) 适合数据压缩的方法和设置
JP2979106B2 (ja) データ圧縮
EP0127815B1 (en) Data compression method
JP2003218703A (ja) データ符号化装置及びデータ復号装置
US20160217207A1 (en) Semantic structure search device and semantic structure search method
JPS6268325A (ja) 文章圧縮・伸展方式
KR100326634B1 (ko) 문서정보격납장치,문서정보격납방법,문서정보검색장치및문서정보검색방법
WO2018226221A1 (en) Context-dependent shared dictionaries
Klein Space-and time-efficient decoding with canonical Huffman trees
Klein et al. Using Fibonacci compression codes as alternatives to dense codes
JP2729416B2 (ja) テキストデータの復元方法
Awajan et al. Hybrid technique for Arabic text compression
JPS58184646A (ja) メツセ−ジ通信方式
JPH0546358A (ja) テキストデータの圧縮方法
Jrai et al. Improving LZW Compression of Unicode Arabic Text Using Multi-Level Encoding and a Variable-Length Phrase Code
Nguyen et al. A syllable-based method for vietnamese text compression
JPH05152971A (ja) データ圧縮・復元方法
Aslanyürek et al. A New Method for Short Text Compression
JPH05241776A (ja) データ圧縮方式
Allahverdyan et al. Optimal alphabet for single text compression
Ramanathan Unishox: A hybrid encoder for short unicode strings