JP6531398B2 - プログラム - Google Patents

プログラム Download PDF

Info

Publication number
JP6531398B2
JP6531398B2 JP2015008076A JP2015008076A JP6531398B2 JP 6531398 B2 JP6531398 B2 JP 6531398B2 JP 2015008076 A JP2015008076 A JP 2015008076A JP 2015008076 A JP2015008076 A JP 2015008076A JP 6531398 B2 JP6531398 B2 JP 6531398B2
Authority
JP
Japan
Prior art keywords
character
character code
unit
string
compression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015008076A
Other languages
English (en)
Other versions
JP2016134751A (ja
Inventor
片岡 正弘
正弘 片岡
功 宮下
功 宮下
洋之 川村
洋之 川村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2015008076A priority Critical patent/JP6531398B2/ja
Priority to CN201610017815.XA priority patent/CN105808513B/zh
Priority to US14/995,711 priority patent/US9425821B2/en
Priority to KR1020160004816A priority patent/KR101748982B1/ko
Publication of JP2016134751A publication Critical patent/JP2016134751A/ja
Application granted granted Critical
Publication of JP6531398B2 publication Critical patent/JP6531398B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/146Coding or compression of tree-structured data
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3084Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M5/00Conversion of the form of the representation of individual digits
    • H03M5/02Conversion to or from representation by pulses
    • H03M5/04Conversion to or from representation by pulses the pulses having two levels
    • H03M5/14Code representation, e.g. transition, for a given bit cell depending on the information in one or more adjacent bit cells, e.g. delay modulation code, double density code
    • H03M5/145Conversion to or from block codes or representations thereof
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、プログラムに関する。
圧縮データに対し、文字コード変換が必要な場合、一般的に伸長処理と文字コード変換処理の順に2パスで実施される(例えば、特許文献1参照)。したがって、伸長処理の結果を記憶する記憶領域が準備される必要がある。
圧縮伸長アルゴリズムとしては、LZ77を用いたZIPが主流である。ZIPでは、圧縮対象の文字列に対して、スライド窓を用いて最長一致の文字列を判定し、圧縮データを生成する。一方、伸長対象の圧縮データに対して、スライド窓を用いて最長一致の文字列を判定し、伸長データを生成する。スライド窓を用いた最長一致の文字列の判定は、バイト単位で行われる。
また、静的辞書を用いて、圧縮対象の文字列を静的辞書の日本語の単語やCJK文字に割り当てられた圧縮符号に変換し、圧縮データを生成する技術がある。
特開2003−30030号公報
しかしながら、圧縮データを伸長したデータに対して文字コード変換を行う場合、圧縮データの伸長処理により出力されるデータの単位と、文字コード変換処理が行われるデータの単位が異なるため、一旦、圧縮データを伸長処理により全て展開した後、別個の処理として、展開したデータに対して文字コード変換処理を行う必要がある。このため、一例として、記憶領域に無駄が生じるという問題がある。また、別の例として、処理時間が長くなるという問題がある。
例えば、従来技術で用いる静的辞書には、特定の文字コード系の日本語の単語や、中国語、韓国語、日本語の文字であるCJK文字が登録されているので、登録されている日本語の単語やCJK文字に割り当てられた圧縮符号に変換され、圧縮処理が行われる。このような場合には、図1に示すように、伸長処理では、静的辞書に対応する伸長用のケヤキ木を用いて、圧縮データを全て伸長し、全て伸長した伸長データを記憶領域に記憶する。そして、文字コード変換処理は、記憶領域に記憶された全ての伸長データの文字コードを変換し、変換データを生成する。この結果、伸長処理は、圧縮データ全体の伸長結果を記憶領域に記憶することが必要となり、記憶領域に無駄が生じる。また、伸長処理および文字コード変換処理の処理時間が長くなる。
1つの側面では、伸長処理と文字コード変換処理に用いられる記憶領域の無駄をなくす
ことを目的とする。1つの側面では、伸長処理および文字コード変換処理の処理時間を短縮することを目的とする。
第1の案では、コンピュータに、下記の処理を実行させる。コンピュータに、第1の文字コードによる文字データ列が、一または複数の文字を含む文字列の単位で圧縮符号化された圧縮ファイルを入力する処理を実行させる。コンピュータに、前記圧縮ファイルに含まれ、前記文字データ列の圧縮符号化の単位それぞれに関連づけられた圧縮情報それぞれを、当該圧縮符号化の単位の前記第1の文字コード表記に対応する情報から、当該圧縮符号化の単位の第2の文字コード表記に対応する情報にそれぞれ変換する処理を実行させる。コンピュータに、前記圧縮符号化された前記文字データ列の圧縮符号化の単位それぞれ、および、前記変換された前記文字データ列の圧縮符号化の単位それぞれに関連づけられた圧縮情報それぞれから、変換圧縮ファイルを生成する処理を実行させる。
1つの態様によれば、一括伸長後に変換する場合と比べ伸長処理と文字コード変換処理に用いられる記憶領域の無駄をなくすることができる。また、一括伸長後に変換する場合と比べ伸長処理および文字コード変換処理の処理時間を短縮することができる。
図1は、伸長処理の一例を示す図である。 図2は、本実施例に係る情報処理装置の圧縮処理の流れの一例を示す図である。 図3は、動的辞書部の一例を示す図である。 図4は、圧縮ファイルF2のブロック構成例を示す図である。 図5Aは、本実施例に係る情報処理装置の伸長処理の流れの一例を示す図(1)である。 図5Bは、本実施例に係る情報処理装置の伸長処理の流れの一例を示す図(2)である。 図6は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。 図7は、本実施例に係る文字コードテーブルのデータ構造の一例を示す図である。 図8Aは、圧縮用のケヤキ木のデータ構造の一例を示す図(1)である。 図8Bは、圧縮用のケヤキ木のデータ構造の一例を示す図(2)である。 図9は、伸長用のケヤキのデータ構造の一例を示す図である。 図10は、本実施例に係る圧縮部の構成の一例を示す機能ブロック図である。 図11は、本実施例に係る伸長部の構成の一例を示す機能ブロック図である。 図12は、本実施例に係る圧縮部の処理手順を示すフローチャートである。 図13は、本実施例に係る伸長部の処理手順を示すフローチャートである。 図14は、コンピュータのハードウェア構成例を示す図である。 図15は、コンピュータで動作するプログラムの構成例を示す図である。 図16は、実施形態のシステムにおける装置の構成例を示す図である。
以下に、本願の開示するプログラムの実施例を図面に基づいて詳細に説明する。プログラムは、例えば、圧縮プログラムや伸長プログラムを含む。なお、この実施例によりこの発明が限定されるものではない。
図2は、本実施例に係る情報処理装置の圧縮処理の流れの一例を示す図である。情報処理装置は、圧縮処理のワークエリアとして、メモリに記憶領域A1、記憶領域A2、記憶領域A3、記憶領域A4を設ける。以下の説明では適宜、記憶領域A1、記憶領域A2、記憶領域A3をそれぞれ、符号化部、参照部、動的辞書部と呼ぶ。
情報処理装置は、圧縮対象のファイルF1を読み出し、ファイルF1のテキストに対し、英文字の場合、先頭文字から終端記号を区切りとする文字列を英文字の単語として抽出する。また、情報処理装置は、圧縮対象のファイルF1のテキストに対し、CJK文字または日本語の単語の場合、先頭文字から文字単位にCJK文字または日本語の単語として抽出する。例えば、ファイルF1には、特定の文字コード系である「・・・東・・今日・・Kataoka△・・・」というデータが含まれる。「東」、「今日」や「Kataoka△」などの単語が存在する。「東」は、CJK文字の一例であり、「今日」は、日本語の単語の一例であり、文字コード系によって異なる文字コード列で表わされる。「Kataoka」は、人名の英文字の一例であり、文字コード系によって変わらない文字コード列で表わされる。終端記号は、空白(スペース)、カンマ(,)やピリオド(.)の記号である。本実施例では一例として、終端記号を「△(三角)」で表す。また、本実施例では一例として、ファイルF1のテキストの文字コード系をUTF−8として説明する。
情報処理装置は、ビットフィルタC1と文字コード列とを比較して、文字コード列がビットフィルタC1にヒットするか否かを判定する。ビットフィルタは、静的辞書を用いて圧縮する単語の文字コード列を特定するフィルタである。情報処理装置は、文字コード列がビットフィルタC1にヒットした場合には、静的辞書に基づいて単語の文字コード列に対応する圧縮符号に変換し、圧縮データを出力する。これに対して、情報処理装置は、文字コード列がビットフィルタC1の静的辞書にヒットしない場合には、動的辞書に登録された単語の文字コード列に対応する圧縮符号に変換し、圧縮データを出力する。
ここで、静的辞書とは、一般的な英語辞書、国語辞典や教科書などを基にして文書中に出現する単語や文字の出現頻度を特定し、出現頻度のより高い単語や文字に対して、より短い圧縮符号を割当てた辞書である。また、静的辞書には、日本語の単語単位もしくはCJK文字単位に圧縮符号が割り当てられる。
動的辞書は、ビットフィルタC1にヒットしない文字コード列はスライド窓の符号化部に格納され、蓄積された参照部の文字コード列と照合される。一致した文字コード列は、動的辞書に登録され、その登録番号が圧縮符号に割り当てられる。動的辞書に関する詳しい説明は後述する。
情報処理装置が圧縮対象のファイルF1のCJK文字「東」の圧縮データを生成する場合の処理について説明する。また、CJK文字の文字コード列は、ビットフィルタC1にヒットするものとする。
情報処理装置は、CJK文字「東」とビットフィルタC1とを比較して、CJK文字「東」がビットフィルタC1にヒットするか否かを判定する。情報処理装置は、CJK文字「東」がビットフィルタC1にヒットするため、CJK文字「東」を静的辞書に登録されている圧縮符号に符号化する。情報処理装置は、識別子「0」とCJK文字「東」の圧縮符号とを含む圧縮データd1を生成する。識別子「0」は、文字コード列が静的辞書に基づいて符号化されたことを示す情報である。情報処理装置は、圧縮データd1を記憶領域A4に書き込む。
次に、情報処理装置が圧縮対象のファイルF1の日本語の単語「今日」の圧縮データを生成する場合の処理について説明する。また、日本語の単語の文字コード列は、ビットフィルタC1にヒットするものとする。
情報処理装置は、日本語の単語「今日」とビットフィルタC1とを比較して、日本語の単語「今日」がビットフィルタC1にヒットするか否かを判定する。情報処理装置は、日本語の単語「今日」がビットフィルタC1にヒットするため、日本語の単語「今日」を静的辞書に登録されている圧縮符号に符号化する。情報処理装置は、識別子「0」と日本語の単語「今日」の圧縮符号とを含む圧縮データd3を生成する。識別子「0」は、文字コード列が静的辞書に基づいて符号化されたことを示す情報である。情報処理装置は、圧縮データd3を記憶領域A4に書き込む。
次に、情報処理装置が圧縮対象のファイルF1の英文字の文字列「Kataoka△」の圧縮データを生成する場合の処理について説明する。また、文字列「Kataoka△」は、ビットフィルタC1にヒットしないものとする。
情報処理装置は、文字列「Kataoka△」とビットフィルタC1とを比較して、文字列「Kataoka△」がビットフィルタC1にヒットするか否かを判定する。情報処理装置は、文字列「Kataoka△」がビットフィルタC1にヒットしないため、下記の処理を実行する。
情報処理装置は、文字列「Kataoka△」を記憶領域A1に格納し、記憶領域A2に格納された文字列と、記憶領域A1の文字列とを比較して、最長一致文字列を検索する。最長一致文字列は、記憶領域A1に格納された文字列と、記憶領域A2に格納された文字列のうち、最も長く一致する文字列である。例えば、記憶領域A2に文字列「・・・Kataoka△・・・」が既に格納されている場合には、最長一致文字列は「Kataoka△」となる。情報処理装置は、記憶領域A2に対して「K」の探索を行い、探索により得られた記憶領域A2内の「K」の位置から「a」、「t」、「a」、「o」、「k」、「a」、「△」と連続しているか否か、順次照合する。
情報処理装置は、最長一致文字列が所定の長さLmin以上である場合に、最長一致文字列「Kataoka△」を動的辞書部の記憶領域A3に登録する。情報処理装置は、動的辞書部の登録内容に基づいて圧縮符号を生成する。すなわち、情報処理装置は、動的辞書部に登録した最長一致文字列の登録番号を、文字列「Kataoka△」の圧縮符号として特定する。情報処理装置は、識別子「1」と文字列「Kataoka△」の圧縮符号とを含む圧縮データd2を生成する。識別子「1」は、文字列が動的辞書に基づいて符号化されたことを示す情報である。情報処理装置は、圧縮データd2を記憶領域A4に書き込む。また、情報処理装置は、記憶領域A1に格納された文字列を、記憶領域A2に追記することで、記憶領域A2を更新する。
記憶領域A2は、それぞれのデータサイズが定められたデータ領域である。例えば、記憶領域A2は、例えば64キロバイトの固定長の記憶領域である。情報処理装置は、記憶領域A2に定められたデータサイズ以上のデータを格納する場合には、記憶領域A2の先頭に格納された古いデータの上から新しいデータを格納する。記憶領域A2内に格納されるデータは、データの格納に応じて更新される書き込み位置からの相対的なアドレスにより、先頭位置が示される。
記憶領域A3は、入力ファイルの大きさに応じて、データサイズが定められた記憶領域である。例えば、記憶領域A3は、例えば64キロバイトの固定長の記憶領域である。例えば、情報処理装置は、記憶領域A3に定められたデータサイズ以上のデータを格納する場合には、新たなデータの格納を抑止する。
図3は、動的辞書部の一例を示す図である。図3に示される動的辞書部は、記憶領域A3と参照テーブルT1とを含む。参照テーブルT1は、登録番号と、格納位置と、データ長とを対応づけて保持する。図3に示す例では、登録番号、格納位置、データ長を2進数で表す。登録番号は、記憶領域A3に登録された最長一致の文字コード列が、何番目に登録されたデータであるかを示す情報である。なお、本実施例では、1番目に登録されたデータの登録番号を「00000000」とする。格納位置は、最長一致文字列の先頭文字が格納された記憶領域A3内の位置(バイト)を示す情報である。データ長は、最長一致文字列の長さを示す情報である。
例えば、最長一致文字列「Kataoka△」が記憶領域A3に7番目に登録された最長一致文字列である場合には、情報処理装置は、最長一致文字列「Kataoka△」に対応する登録番号として、参照テーブルT1の登録番号に「00000111」を登録する。また、情報処理装置は、最長一致文字列「Kataoka△」の先頭文字「K」が記憶領域A3の「30」に格納されているため、格納位置に「000000001110」を登録する。情報処理装置は、最長一致文字列「Kataoka△」のデータ長が「8」であるため、データ長に「1000」を登録する。
図3に示すように、最長一致文字列「Kataoka△」が動的辞書部に登録されたものとすると、最長一致文字列「Kataoka△」の登録番号は「00000111」となる。この場合には、情報処理装置は、文字列「Kataoka△」の圧縮符号を「00000111」とする。このため、情報処理装置は、文字列「Kataoka△」の圧縮データd2として、識別子「1」、登録番号「00000111」を含む圧縮データd2を生成する。
図4は、圧縮ファイルF2のブロック構成例を示す図である。図4に示すように、圧縮ファイルF2は、ヘッダ部と、圧縮データと、トレーラ部とを有する。ヘッダ部は、例えば、圧縮ファイルF2の生成に用いられた圧縮アルゴリズムを識別する情報や、圧縮に用いられたパラメータなどの情報を有する。圧縮データは、情報処理装置が生成した各圧縮データに対応する。トレーラ部は、圧縮処理が完了した後の動的辞書部の情報を有する。動的辞書部の情報は、図3に示した動的辞書部の情報に対応する。
図5Aおよび図5Bは、本実施例に係る情報処理装置の伸長処理の流れの一例を示す図である。図5Aでは、CJK文字を圧縮した圧縮データの伸長処理と、英文字の文字列を圧縮した圧縮データの伸長処理の流れを示す。図5Bでは、日本語の単語を圧縮した圧縮データの伸長処理の流れを示す。情報処理装置は、伸長処理のワークエリアとして、メモリに記憶領域B1、記憶領域B2および記憶領域B3を設ける。情報処理装置は、圧縮ファイルF2を記憶領域B1にロードし、順次圧縮データを読み出す。情報処理装置は、読み出した圧縮データに基づいて、伸長データの生成を行う。なお、本実施例に係る伸長処理は、圧縮データの伸長結果を文字コード変換が行われた状態の伸長結果にする。図5Aおよび図5Bでは、UTF−8からUTF−16へ文字コード変換が行われた状態の伸長データにするものとする。
情報処理装置は、圧縮データに含まれる識別子に応じた伸長処理を行う。情報処理装置は、生成した伸長データを記憶領域B3に格納し、記憶領域B3に格納された伸長データに基づいて伸長ファイルF3が生成される。また、情報処理装置は、記憶領域B2に、図4のトレーラ部に格納された動的辞書部の情報をロードする。以下の説明では適宜、記憶領域B1を符号化部と呼び、記憶領域B2を動的辞書部と呼ぶ。なお、伸長ファイルF3は、変換圧縮ファイルの一例である。
図5Aでは、図2に示した圧縮データd1,d2に対する伸長処理を説明する。
情報処理装置は、圧縮データd1を読み出し、圧縮データd1の識別子を判定する。情報処理装置は、圧縮データd1の識別子が「0」である場合には、圧縮データd1が、静的辞書によって符号化されたと判定する。情報処理装置は、圧縮データd1と伸長用ケヤキ木とを比較して、伸長用ケヤキ木に示される伸長データへのポインタを特定する。そして、情報処理装置は、特定した伸長データへのポインタを基に、文字コード変換が行われた伸長データを特定する。すなわち、情報処理装置は、UTF−8からUTF−16へ文字コード変換が行われた伸長データを特定する。
例えば、情報処理装置は、伸長データへのポインタに対応するUTF−8の文字コードテーブルをUTF−16の文字コードテーブルに置換する。ここで、文字コードテーブルとは、CJK文字に対する文字コード列を表すテーブルであり、文字コード系毎に存在する。文字コード系毎の各文字コードテーブルには、予め定められたCJK文字の順に文字コード列が設定される。情報処理装置は、置換されたUTF−16の文字コードテーブルと伸長データへのポインタとを基にして、UTF−16における伸長データを特定する。一例として、伸長用ケヤキ木の伸長データへのポインタが、UTF−8の文字コードテーブルの「E69DB1」を指しているとする。「E69DB1」は、CJK文字「東」のUTF−8の文字コード列である。すると、伸長用ケヤキ木の伸長データへのポインタが、文字コードテーブルの置換後、UTF−16の文字コードテーブルの「6771」を指すため、伸長データへのポインタに対するUTF−16の伸長データが特定される。すなわち、UTF−8からUTF−16に変換された文字コード列「6771」が特定される。
そして、情報処理装置は、文字コード変換が行われた伸長データを、記憶領域B3に書き込む。
情報処理装置は、圧縮データd2を読み出し、圧縮データd2の識別子を判定する。情報処理装置は、圧縮データd2の識別子が「1」である場合には、圧縮データd2が、動的辞書によって符号化されたと判定する。情報処理装置は、圧縮データd2内の圧縮符号に基づいて、動的辞書部を参照し、伸長データを生成する。そして、情報処理装置は、文字コード変換が行われた伸長データを特定する。なお、英文字は、ASCII(American1 standard code for information interchange)などあらゆる文字コード系で同一の文字コード列となるので、生成した伸長データを、UTF−8からUTF−16へ文字コード変換しても、同じ文字コード列となる。
例えば、情報処理装置は、圧縮データd2に含まれる登録番号と、動的辞書部の参照テーブルT1とを比較して、記憶領域B2内の格納位置およびデータ長を特定する。情報処理装置は、格納位置およびデータ長に対応するデータを、記憶領域B2から読み出し、読み出したデータを伸長データとする。例えば、圧縮データd2内の登録番号は、動的辞書部内の「Kataoka△」を示すため、伸長データとして「Kataoka△」が生成される。
そして、情報処理装置は、文字コード変換が行われた伸長データを、記憶領域B3に書き込む。
図5Bでは、図2に示した圧縮データd3に対する伸長処理を説明する。
情報処理装置は、圧縮データd3を読み出し、圧縮データd3の識別子を判定する。情報処理装置は、圧縮データd3の識別子が「0」である場合には、圧縮データd3が、静的辞書によって符号化されたと判定する。情報処理装置は、圧縮データd3と伸長用ケヤキ木とを比較して、伸長用ケヤキ木に示される伸長データへのポインタを特定する。そして、情報処理装置は、特定した伸長データへのポインタを基に、文字コード変換が行われた伸長データを特定する。すなわち、情報処理装置は、UTF−8からUTF−16へ文字コード変換が行われた伸長データを特定する。
例えば、情報処理装置は、伸長データへのポインタに対応するUTF−8の文字コードテーブルをUTF−16の文字コードテーブルに置換する。ここで、文字コードテーブルとは、日本語の単語に対する文字コード列を表すテーブルであり、文字コード系毎に存在する。文字コード系毎の各文字コードテーブルには、予め定められた日本語の単語の順に文字コード列が設定される。情報処理装置は、置換されたUTF−16の文字コードテーブルと伸長データへのポインタとを基にして、UTF−16における伸長データを特定する。一例として、伸長用ケヤキ木の伸長データへのポインタが、UTF−8の文字コードテーブルの「e4bb8ae2bd87」を指しているとする。「e4bb8ae2bd87」は、日本語の単語「今日」のUTF−8の文字コード列である。すると、伸長用ケヤキ木の伸長データへのポインタが、文字コードテーブルの置換後、UTF−16の文字コードテーブルの「4eca65e5」を指すため、伸長データへのポインタに対するUTF−16の伸長データが特定される。すなわち、UTF−8からUTF−16に変換された文字コード列「4eca65e5」が特定される。
そして、情報処理装置は、文字コード変換が行われた伸長データを、記憶領域B3に書き込む。なお、文字コードテーブルの詳細は、後述するものとする。
図6は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。図6に示すように、この情報処理装置100は、圧縮部100aと、伸長部100bと、記憶部100cとを有する。
圧縮部100aは、図2に示した圧縮処理を実行する処理部である。伸長部100bは、図5Aおよび図5Bに示した伸長処理を実行する処理部である。記憶部100cは、文字コードテーブル200を記憶する。文字コードテーブル200は、圧縮データの識別子が「0」である場合に圧縮データが伸長される際に用いられるテーブルであり、文字コード系毎に存在する。また、文字コードテーブル200には、CJK文字に対する伸長文字コード列と、日本語の単語に対する伸長文字コード列が含まれる。
ここで、文字コードテーブルの200のデータ構造を、図7を参照して説明する。図7は、本実施例に係る文字コードテーブルのデータ構造の一例を示す図である。図7では、文字コード系がUTF−8とUTF−16である場合の文字コードテーブル200について説明する。図7に示すように、文字コードテーブル200は、伸長文字コード列200aを長さ200bとともに記憶する。伸長文字コード列200aは、伸長後の文字コード列であり、CJK文字または日本語の単語を文字コード系で表した文字コード列に対応する。長さ200bは、伸長文字コード列200aの長さを示す。伸長文字コード列200aは、異なる文字コード系同士で、同じCJK文字または同じ日本語の単語であれば同じ位置になるように記憶される。つまり、圧縮データの識別子が「0」である場合に、情報処理装置は、圧縮データd1と伸長用ケヤキ木とを比較して、伸長用ケヤキ木に示される伸長データへのポインタを特定するが、この伸長データへのポインタが、文字コード系毎に同じ位置を指すことになる。
一例として、図7左図には、文字コード系がUTF−8である場合の文字コードテーブル200が示されている。図7右図には、文字コード系がUTF−16である場合の文字コードテーブル200が示されている。文字コード系がUTF−8である場合、伸長文字コード列200aとして「E69DB1」、長さ200bとして「3」と記憶している。「E69DB1」は、UTF−8におけるCJK文字「東」の文字コード列である。文字コード系がUTF−16である場合、伸長文字コード列200aとして「6771」、長さ200bとして「2」と記憶している。「6771」は、UTF−16におけるCJK文字「東」の文字コード列である。CJK文字「東」の伸長文字コード列200aが、UTF−8およびUTF−16で同じ位置に記憶されている。CJK文字「神」も同様に、伸長文字コード列200aが、UTF−8およびUTF−16で同じ位置に記憶されている。
図6に戻って、情報処理装置100は、図2、図5Aおよび図5Bなどに示した記憶領域A1,A2,A3,A4、B1,B2,B3を、記憶部100cに設定する。また、記憶部100cは、圧縮用のケヤキ木および伸長用のケヤキ木を記憶する。
図8Aおよび図8Bは、圧縮用のケヤキ木のデータ構造の一例を示す図である。図8Aでは、CJK文字に対応する圧縮用のケヤキ木のデータ構造を示す。図8Bでは、日本語の単語に対応する圧縮用のケヤキ木のデータ構造を示す。なお、圧縮用のケヤキ木は、文字コード系毎に存在する。
図8Aには、一例として、文字コード系がUTF−8である場合の圧縮用のケヤキ木を表している。図8Aに示すように、圧縮用のケヤキ木50には、2グラム、ビットマップ、ポインタ、CJK文字、文字コード列長、出現頻度、圧縮符号および共通文字コード列が含まれる。このうち、2グラム、ビットマップ、ポインタ、CJK文字、文字コード列長は、ビットフィルタC1に対応する。また、CJK文字、文字コード列長、出現頻度、圧縮符号および共通文字コード列は、静的辞書C2に対応する。
2グラムは、2文字の文字コード列を示す情報である。ビットマップは、2グラムの文字コード列に対応するビットマップを示す。すなわち、ビットマップは、2グラムの文字コード列に対応するビットマップを示す。例えば、「00h00h」に対応するビットマップは「0_0_0_0_0」となる。ポインタは、ビットマップに対応するCJK文字の位置を示すポインタである。
CJK文字は、静的辞書C2に登録されたCJK文字であり、文字コード列で表わされる。ここでは、文字コード列を括弧内に示す。文字コード列長は、CJK文字に対応する文字コード列の長さである。出現頻度は、CJK文字の出現頻度である。圧縮符号は、CJK文字に割り当てられた圧縮符号である。共通文字コード列は、CJK文字に割り当てられた内部的な文字コード列であり、文字コード系が異なっても共通する文字コード列である。
図8Bには、一例として、文字コード系がUTF−8である場合の圧縮用のケヤキ木を表している。図8Bに示すように、圧縮用のケヤキ木50には、2グラム、ビットマップ、ポインタ、単語、文字コード列長、出現頻度および圧縮符号が含まれる。このうち、2グラム、ビットマップ、ポインタ、単語、文字コード列長は、ビットフィルタC1に対応する。また、単語、文字コード列長、出現頻度および圧縮符号は、静的辞書C2に対応する。
2グラムは、2文字の文字コード列を示す情報である。ビットマップは、2グラムの文字コード列に対応するビットマップを示す。すなわち、ビットマップは、2グラムの文字コード列に対応するビットマップを示す。例えば、「00h00h」に対応するビットマップは「0_0_0_0_0」となる。ポインタは、ビットマップに対応する単語の位置を示すポインタである。
単語は、静的辞書C2に登録された日本語の単語であり、文字コード列で表わされる。ここでは、文字コード列を括弧内に示す。文字コード列長は、単語に対応する文字コード列の長さである。出現頻度は、単語の出現頻度である。圧縮符号は、単語に割り当てられた圧縮符号である。
図9は、伸長用のケヤキのデータ構造の一例を示す図である。図9に示すように、伸長用のケヤキ60は、複数の枝60−1〜60−nと、葉61−1〜60−mとを有する。各枝60−1〜60−nには、所定のビット列が割り当てられる。情報処理装置100は、圧縮データのビット列と、枝60−1〜60−nに割り当てられたビット列とを比較して、圧縮データのビット列にヒットする枝に接続される葉を特定する。葉には、圧縮データに対応する文字などの情報が格納される。
例えば、葉のデータ構造は、61に示すものとなる。例えば、葉には、葉識別情報と、圧縮符号長と、CJK文字または単語へのポインタとが格納される。葉識別情報は、葉を一意に識別する情報である。圧縮符号長は、各枝60−1〜60−nと比較した圧縮データのビット列の内、有効な長さを示す情報である。CJK文字または単語へのポインタは、圧縮符号を伸長した場合の伸長データを一意に示す情報であり、伸長データへのポインタに対応する。
例えば、ビット列「010111110111101」が枝60−4に割り当てられ、枝60−4に接続される葉61−4の圧縮符号長が「11」であり、基礎単語CJK文字または単語へのポインタで示されるCJK文字が「東」であるとする。この場合には、ビット列の先頭から11ビット目までのビット列「01011111011」が、CJK文字「東」に対応する圧縮符号となる。
図10は、本実施例に係る圧縮部の構成の一例を示す機能ブロック図である。図11に示すように、この圧縮部100aは、ファイルリード部101、判定部102、第1符号化部103、第2符号化部104、更新部105およびファイルライト部106を有する。
ファイルリード部101は、ファイルF1内のコンテンツ部分のデータを読み出す処理部である。ファイルリード部101は、読み出したデータに含まれる文字コード列を先頭から抽出し、抽出した文字コード列を判定部102に順次出力する。例えば、ファイルリード部101は、英文字の場合、先頭文字から終端記号を区切りとする文字コード列を英文字の単語として抽出する。ファイルリード部101は、CJK文字または日本語の単語の場合、先頭文字から文字単位の文字コード列をCJK文字または日本語の単語として抽出する。
判定部102は、文字コード列とビットフィルタC1とを比較して、文字コード列がビットフィルタC1にヒットするか否かを判定する処理部である。判定部102は、文字コード列がビットフィルタC1にヒットした場合には、文字コード列を第1符号化部103に出力する。文字コード列がCJK文字および日本語の単語の文字コード列の場合である。判定部102は、文字コード列がビットフィルタC1にヒットしない場合には、文字コード列を第2符号化部104に出力する。文字コード列が英文字の単語の文字コード列の場合である。
判定対象の文字コード列がCJK文字の文字コード列である場合の判定部102の処理を、図8Aを用いて説明する。判定対象の文字コード列をCJK文字「東」の文字コード列「E69DB1」とする。判定部102は、判定対象の文字コード列を先頭から2グラムずつビットフィルタC1の2グラムと比較し、ビットマップを特定する。例えば、判定部102は、文字コード列が「E69DB1」である場合には、「E69D」、「9DB1」に対応するビットマップをそれぞれ組み合わせる。判定部102は、一例として、ビットマップの各桁において、組み合わせたビットマップの該当する桁を「1」とし、それ以外は「0」に設定することで、ビットマップを組み合わせる。
例えば、「E69D」のビットマップが「1_0_0_0_0」、「9DB1」のビットマップが「0_1_1_0_0」とする。この場合には、各ビットマップを組み合わせたビットマップは「1_1_1_0_0」となる。
判定部102は、組み合わせたビットマップと、ビットフィルタC1のポインタとを比較して、ビットマップに対応するポインタが示す位置のCJK文字を特定する。判定部102は、特定したCJK文字から順に、判定対象の文字コード列に対応するCJK文字を検索する。ここでは、静的辞書には、日本語の単語単位もしくはCJK文字単位が存在するとする。すると、判定部102は、判定対象の文字コード列に対応するCJK文字が存在するので、判定対象の文字コード列がビットフィルタC1にヒットしたと判定する。なお、判定対象の文字コード列が日本語の単語の文字コード列である場合の判定部102の処理は、判定対象の文字コード列がCJK文字の文字コード列である場合の判定部102の処理と同様であるので、その説明を省略する。
第1符号化部103は、判定部102から取得した文字コード列を静的辞書C2に基づいて符号化する処理部である。第1符号化部103は、静的辞書C2を参照し、文字コード列に対応するCJK文字または日本語の単語を、静的辞書C2から特定し、特定したCJK文字または日本語の単語に対応する圧縮符号を特定する。そして、第1符号化部103は、識別子に「0」と、静的辞書C2に登録されているCJK文字または日本語の単語の圧縮符号を含む圧縮データを生成し、圧縮データをファイルライト部106に出力する。
第2符号化部104は、判定部102から取得した文字コード列を動的辞書に基づいて符号化する処理部である。第2符号化部104は、文字コード列を符号化部となる記憶領域A1に格納する。第2符号化部104は、記憶領域A1と、参照部となる記憶領域A2に格納されたデータとを比較して、最長一致文字列を検索する。
第2符号化部104は、最長一致文字列が所定の長さLmin以上である場合に、最長一致文字列を動的辞書部の記憶領域A3に登録する。第2符号化部103は、動的辞書部の登録内容に基づいて圧縮符号を生成する。すなわち、第2符号化部103は、動的辞書部に登録した最長一致文字列の登録番号を、文字列の圧縮符号として特定する。第2符号化部104は、識別子「1」と、動的辞書の登録番号とを含む圧縮データを生成し、圧縮データをファイルライト部106に出力する。
例えば、第2符号化部104は、文字列「Kataoka△」が記憶領域A3に2番目に登録された最長一致文字列である場合には、最長一致文字列「Kataoka△」に対応する登録番号として、参照テーブルT1の登録番号に「00000111」を登録する。また、第2符号化部104は、最長一致文字列「Kataoka△」の先頭文字「K」が記憶領域A3の「30」に格納されているため、格納位置に「000000011110」を登録する。第2符号化部104は、最長一致文字列「Kataoka△」のデータ長が「8」であるため、データ長に「10000」を登録する。
第2符号化部104は、図3に示すように、最長一致文字列「Kataoka△」が動的辞書部に登録されたものとすると、最長一致文字列「Kataoka△」の登録番号は「00000111」となる。この場合には、第2符号化部104は、文字列「Kataoka△」の圧縮符号を「00000111」とする。このため、第2符号化部104は、文字列「Kataoka△」の圧縮データとして、識別子「1」、登録番号「00000111」を含む圧縮データを生成し、ファイルライト部106に出力する。
ところで、第2符号化部104は、符号化対象の文字列と同一の文字列が記憶領域A3に既に登録されている場合には、既に登録されている文字列の登録番号を、文字列の圧縮符号として特定する。例えば、第2符号化部104は、符号化対象となる文字列と、記憶領域A3の各文字列を比較し、符号化対象の文字列と同一の文字列が記憶領域A3に登録されていない場合に、上記最長一致文字列検索を行う。
更新部105は、第2符号化部104によって、最長一致文字列の検索が完了した後に、記憶領域A1に格納された文字列を、記憶領域A2に格納することで、記憶領域A2を更新する処理部である。更新部105は、第2符号化部105による最長一致文字列の検索が完了するたびに、記憶領域A2を更新する。
ファイルライト部106は、第1符号化部103および第2符号化部104から圧縮データを取得し、取得した圧縮データを記憶領域A4に書き込む処理部である。
図11は、本実施例に係る伸長部の構成の一例を示す機能ブロック図である。図11に示すように、この伸長部100bは、ファイルリード部110、識別子判定部111、第1伸長変換部112、第2伸長変換部113、更新部114およびファイルライト部115を有する。
ファイルリード部110は、圧縮ファイルF2内の圧縮データを記憶領域B1に読み出す処理部である。ファイルリード部110は、記憶領域B1に格納された圧縮データに対する処理が終了した場合に、新たな圧縮データを圧縮ファイルF2から読み出し、記憶領域B1に格納された圧縮データを更新する。
また、ファイルリード部110は、圧縮ファイルF2のトレーラ部に格納された動的辞書部の情報を読み出して、記憶領域B2に格納する。
識別子判定部111は、記憶領域B1に格納された圧縮データの識別子を読み出し、識別子が「0」であるか「1」であるかを判定する処理部である。識別子は、圧縮データの先頭ビットに対応する。識別子が「0」である場合には、圧縮データが静的辞書によって符号化されたことを示す。識別子が「1」である場合には、圧縮データが動的辞書によって符号化されたことを示す。
識別子判定部111は、圧縮データの識別子が「0」である場合には、圧縮データを第1伸長変換部112に出力する。識別子判定部111は、圧縮データの識別子が「1」である場合には、圧縮データを第2伸長変換部113に出力する。
第1伸長変換部112は、伸長用のケヤキ木60を用いて圧縮データを文字コード変換が行われた状態に伸長する処理部である。伸長用のケヤキ木60のデータ構造は、図9に示したものに対応する。第1伸長変換部112は、ケヤキ木60の各枝に割り当てられたビット列と、識別子を除いた圧縮データとを比較して、圧縮データと同一のビット列となる枝に対応付けられた葉を特定する。第1伸長変換部112は、特定した葉を参照し、CJK文字または日本語の単語へのポインタを特定する。第1伸長変換部112は、圧縮された際の文字コード系の文字コードテーブル200を文字コード変換対象の文字コード系の文字コードテーブル200に置換し、置換した文字コードテーブル200および特定したポインタを基に、圧縮データの伸長データを文字コード変換が行われた伸長データに変換する。第1伸長変換部112は、変換した伸長データをファイルライト部115に出力する。
第1伸長変換部112は、図9において、例えば、ビット列「010111110111101」が、ケヤキ木60の枝60−4にヒットし、枝60−4に接続される葉61−4の圧縮符号長が「11」であり、CJK文字または単語へのポインタで示されるCJK文字が「東」であるとする。この場合には、第1伸長変換部112は、圧縮データのビット列のうち、先頭から11ビット目までのビット列「01011111011」に対応する伸長データとして、UTF−8からUTF−16に置換された文字コードテーブル200内の伸長文字コード列「6771」を特定する。
第2伸長変換部113は、記憶領域B2に格納された動的辞書部の情報を用いて圧縮データを文字コード変換が行われた状態に伸長する処理部である。第2伸長変換部113は、圧縮データから識別子を取り除くことで、動的辞書部の登録番号を取得する。第2伸長変換部113は、取得した登録番号と、参照テーブルT1とを比較して、記憶領域B2に格納された伸長データの格納位置およびデータ長を特定する。第2伸長変換部113は、格納位置およびデータ長に対応する文字コード列を記憶領域B2から取得し、取得した文字コード列を伸長データとして生成する。そして、第2伸長変換部113は、生成した伸長データを文字コード変換し、文字コード変換が行われた伸長データに変換する。第2伸長変換部113は、変換した伸長データをファイルライト部115に出力する。
例えば、圧縮データから取得した登録番号を「00000111」として、第2伸長変換部113の処理を説明する。第2伸長変換部113は、登録番号「00000111」と参照テーブルT1とを比較して、格納位置「000000011110」とデータ長「1000」を取得する。第2伸長変換部113は、記憶領域B2を参照し、格納位置「000000011110」を先頭とし、データ長「1000」となる文字列「Kataoka△」の文字コード列を取得する。第2伸長変換部113は、取得した文字列「Kataoka△」の文字コード列をUTF−8からUTF−16に文字コード変換し、文字コード変換が行われた伸長データに変換する。なお、英文字は、ASCII(American1 standard code for information interchange)などあらゆる文字コード系で同一の文字コード列となるので、生成した伸長データを、UTF−8からUTF−16へ文字コード変換しても、同じも文字コード列となる。
更新部114は、圧縮データが格納された記憶領域B1を更新する処理部である。更新部114は、圧縮データの識別子が「0」である場合には、第1伸長変換部112に読み出された圧縮データを記憶領域B1から削除する。更新部114は、圧縮データの識別子が「1」である場合には、第2伸長変換部113に読み出された圧縮データを記憶領域B1から削除する。
ファイルライト部115は、第1伸長変換部112および第2伸長変換部113から伸長データを取得し、取得した伸長データを記憶領域B3に書き込む処理部である。
次に、図10および図11に示した圧縮部100aおよび伸長部100bの処理手順について説明する。
図12は、本実施例に係る圧縮部の処理手順を示すフローチャートである。図12に示すように、圧縮部100aは、前処理を実行する(ステップS101)。ステップS101の前処理において、圧縮部100aは、記憶領域A1、記憶領域A2、記憶領域A3を記憶部100cに確保する。
圧縮部100aは、圧縮対象のファイルF1を読み出し(ステップS102)、文字コード列を抽出する(ステップS103)。圧縮部100aは、文字コード列とビットフィルタC1とを比較し、ビットフィルタC1にヒットするか否かを判定する(ステップS104)。
圧縮部100aは、文字コード列がビットフィルタC1にヒットしない場合には(ステップS104,No)、動的辞書を参照し(ステップS105)。そして、圧縮部100aは、文字列が動的辞書に既に存在しているか否かを判定する(ステップS106)。圧縮部100aは、文字列が動的辞書に存在している場合には(ステップS106,Yes)、ステップS109に移行する。
一方、圧縮部100aは、文字列が動的辞書に存在しない場合には(ステップS106,No)、最長一致の文字コード列を検索する(ステップS107)。圧縮部100aは、動的辞書を更新し(ステップS108)、ステップS109に移行する。
ステップS109において、圧縮部100aは、識別子「1」と動的辞書の登録番号とを含む圧縮データを出力する(ステップS109)。圧縮部100aは、圧縮データの書き込みを行い(ステップS110)、ファイルF1の終点か否かを判定する(ステップS111)。圧縮部100aは、ファイルF2の終点でない場合には(ステップS111,No)、ステップS103に移行する。圧縮部100aは、ファイルF2の終点の場合には(ステップS111,Yes)、処理を終了する。
ところで、圧縮部100aは、ステップS104において、文字コード列がビットフィルタC1にヒットした場合には(ステップS104,Yes)、静的辞書C2に登録されている圧縮符号を特定する(ステップS112)。圧縮部100aは、識別子「0」と圧縮符号とを含む圧縮データを出力し(ステップS113)、ステップS110に移行する。
図13は、本実施例に係る伸長部の処理手順を示すフローチャートである。図13に示すように、伸長部100bは、前処理を実行する(ステップS201)。ステップS201の前処理において、伸長部100bは、記憶領域B1、記憶領域B2、記憶領域B3を記憶部100cに確保する。
伸長部100bは、圧縮ファイルF2を読み出し(ステップS202)、伸長用のケヤキ木60および動的辞書を読み出す(ステップS203)。例えば、伸長部100bは、トレーラ部に格納された静的辞書に関する情報を、記憶領域B2に格納する。
伸長部100bは、圧縮データの識別子が「1」であるか否かを判定する(ステップS204)。伸長部100bは、識別子が「0」である場合には(ステップS204,No)、伸長用のケヤキ木60と圧縮データとを比較して、伸長データへのポインタを特定する(ステップS206)。
伸長部100bは、特定したポインタを基に、圧縮データの伸長データを文字コード変換が行われた伸長データに変換する(ステップS207)。例えば、伸長部100bは、圧縮された際の文字コード系の文字コードテーブル200を文字コード変換対象の文字コード系の文字コードテーブル200に置換する。そして、伸長部100bは、置換した文字コードテーブル200および特定したポインタを基に、圧縮データの伸長データを文字コード変換が行われた伸長データに変換する。そして、伸長部100bは、ステップS208に移行する。
伸長部100bは、圧縮データの識別子が「1」である場合には(ステップS204,Yes)、動的辞書の登録番号を基にして伸長データを特定する(ステップS205)。そして、伸長部100bは、特定した伸長データを文字コード変換が行われた伸長データに変換する(ステップS206)。そして、伸長部100bは、ステップS208に移行する。なお、英文字の場合は、ASCII(American1 standard code for information interchange)などあらゆる文字コード系で同一の文字コード列となるので、特定した伸長データを、例えばUTF−8からUTF−16へ文字コード変換しても、同じ文字コード列となる。
ステップS208では、伸長部100bは、記憶領域B3に伸長データの書き込みを行う(ステップS208)。
伸長部100bは、圧縮ファイルF2の終点であるか否かを判定する(ステップS209)。伸長部100bは、圧縮ファイルF2の終点でない場合には(ステップS209,No)、ステップS204に移行する。一方、伸長部100bは、圧縮ファイルF2の終点である場合には(ステップS209,Yes)、圧縮ファイルF2をクローズし(ステップS210)、伸長処理を終了する。
次に、本実施例に係る情報処理装置100の効果について説明する。本実施例に係る情報処理装置100によれば、第1の文字コードによる文字データ列が、一または複数の文字を含む文字列の単位で圧縮符号化された圧縮ファイルF2を入力する。情報処理装置100は、圧縮ファイルF2に含まれ、文字データ列の圧縮符号化の単位それぞれに関連づけられた圧縮符号それぞれを、当該圧縮符号化の単位の第1の文字コード表記に対応する情報から、当該圧縮符号化の単位の第2の文字コード表記に対応する情報にそれぞれ変換する。情報処理装置100は、圧縮符号化された文字データ列の圧縮符号化の単位それぞれ、および、変換された文字データ列の圧縮符号化の単位それぞれに関連づけられた圧縮情報それぞれから、伸長ファイルF3を生成する。かかる構成によれば、情報処理装置100は、圧縮符号化されたデータ(圧縮符号)を伸長して文字コード変換処理を行うのではなく、圧縮符号化に関する変換情報の部分のみに対して、文字コード変換処理を行うことにより、伸長した際に文字コード変換された文字データ列が出力される伸長ファイルF3を生成できる。したがって、情報処理装置100は、一括伸長後に変換する場合と比べ伸長処理と文字コード変換処理に用いられる記憶領域の無駄をなくすることができる。また、情報処理装置100は、一括伸長後に変換する場合と比べ伸長処理および文字コード変換処理の処理時間を短縮することができる。
また、本実施例に係る情報処理装置100によれば、第1の文字コード系の文字のデータ列を圧縮した圧縮符号の識別子が第1識別子であるか第2識別子であるかを判定する。情報処理装置100は、圧縮符号の識別子が第1識別子である場合には、圧縮符号から得られる伸長文字への位置を特定し、第1の文字コード系の文字のデータ列を記憶する文字コードテーブル200を第2の文字コード系の文字のデータ列を記憶する文字コードテーブル200に置換した文字コードテーブル200と伸長文字へのポインタとを基にして、圧縮符号を伸長する。かかる構成によれば、情報処理装置100は、一括伸長後に変換する場合と比べ伸長処理と文字コード変換処理に用いられる記憶領域の無駄をなくすることができる。また、情報処理装置100は、一括伸長後に変換する場合と比べ伸長処理および文字コード変換処理の処理時間を短縮することができる。
また、本実施例に係る情報処理装置100によれば、文字のデータ列および該文字のデータ列に対応する圧縮符号を対応付けた静的辞書C2と、圧縮対象の文字のデータ列とを基にして、圧縮対象の文字のデータ列が静的辞書C2に登録されているか否かを判定する。情報処理装置100は、圧縮対象の文字のデータ列が静的辞書C2に登録されている場合には、静的辞書C2に登録された圧縮対象の文字のデータ列に対応する圧縮符号に、圧縮対象の文字のデータ列を圧縮する。情報処理装置100は、圧縮対象の文字のデータ列が静的辞書C2に登録されていない場合には、圧縮対象の文字のデータ列を動的辞書に登録し、登録位置に基づく情報に、圧縮対象の文字のデータ列を圧縮する。かかる構成によれば、情報処理装置100は、圧縮対象の文字のデータ列を文字単位に圧縮するので、伸長の際伸長と文字コード変換を1パスで行うことができる。
下記に、本実施形態に用いられるハードウェア及びソフトウェアについて説明する。図15は、コンピュータ1のハードウェア構成例を示す図である。コンピュータ1は、例えば、プロセッサ301、RAM(Random Access Memory)302、ROM(Read Only Memory)303、ドライブ装置304、記憶媒体305、入力インターフェース(I/F)306、入力デバイス307、出力インターフェース(I/F)308、出力デバイス309、通信インターフェース(I/F)310、SAN(Storage Area Network)インターフェース(I/F)311およびバス312などを含む。それぞれのハードウェアはバス312を介して接続されている。
RAM302は読み書き可能なメモリ装置であって、例えば、SRAM(Static RAM)やDRAM(Dynamic RAM)などの半導体メモリ、またはRAMでなくてもフラッシュメモリなどが用いられる。ROM303は、PROM(Programmable ROM)なども含む。ドライブ装置304は、記憶媒体305に記録された情報の読み出しか書き込みかの少なくともいずれか一方を行なう装置である。記憶媒体305は、ドライブ装置304によって書き込まれた情報を記憶する。記憶媒体305は、例えば、ハードディスク、SSD(Solid State Drive)などのフラッシュメモリ、CD(Compact Disc)、DVD(Digital Versatile Disc)、ブルーレイディスクなどの記憶媒体である。また、例えば、コンピュータ1は、複数種類の記憶媒体それぞれについて、ドライブ装置304及び記憶媒体305を設ける。
入力インターフェース306は、入力デバイス307と接続されており、入力デバイス307から受信した入力信号をプロセッサ301に伝達する回路である。出力インターフェース308は、出力デバイス309と接続されており、出力デバイス309に、プロセッサ301の指示に応じた出力を実行させる回路である。通信インターフェース310はネットワーク3を介した通信の制御を行なう回路である。通信インターフェース310は、例えばネットワークインターフェースカード(NIC)などである。SANインターフェース311は、ストレージエリアネットワークによりコンピュータ1と接続された記憶装置との通信の制御を行なう回路である。SANインターフェース311は、例えばホストバスアダプタ(HBA)などである。
入力デバイス307は、操作に応じて入力信号を送信する装置である。入力信号は、例えば、キーボードやコンピュータ1の本体に取り付けられたボタンなどのキー装置や、マウスやタッチパネルなどのポインティングデバイスである。出力デバイス309は、コンピュータ1の制御に応じて情報を出力する装置である。出力デバイス309は、例えば、ディスプレイなどの画像出力装置(表示デバイス)や、スピーカーなどの音声出力装置などである。また、例えば、タッチスクリーンなどの入出力装置が、入力デバイス307及び出力デバイス309として用いられる。また、入力デバイス307及び出力デバイス309は、コンピュータ1と一体になっていてもよいし、コンピュータ1に含まれず、例えば、コンピュータ1に外部から接続する装置であってもよい。
例えば、プロセッサ301は、ROM303や記憶媒体305に記憶されたプログラムをRAM302に読み出し、読み出されたプログラムの手順に従って圧縮部100aの処理または伸張部100bの処理を行なう。その際にRAM302はプロセッサ301のワークエリアとして用いられる。記憶部100cの機能は、ROM303および記憶媒体305がプログラムファイル(後述のアプリケーションプログラム24、ミドルウェア23およびOS22など)やデータファイル(圧縮対象のファイルF1、圧縮されたファイルF2など)を記憶し、RAM302がプロセッサ301のワークエリアとして用いられることによって実現される。プロセッサ301が読み出すプログラムについては、図16を用いて説明する。
図16は、コンピュータ1で動作するプログラムの構成例を示す図である。コンピュータ1において、図15に示すハードウェア群21(301〜312)の制御を行なうOS(オペレーティング・システム)22が動作する。OS22に従った手順でプロセッサ301が動作して、ハードウェア群21の制御・管理が行なわれることにより、アプリケーションプログラム24やミドルウェア23に従った処理がハードウェア群21で実行される。さらに、コンピュータ1において、ミドルウェア23またはアプリケーションプログラム24が、RAM302に読み出されてプロセッサ301により実行される。
プロセッサ301が、圧縮機能が呼び出された場合に、ミドルウェア23またはアプリケーションプログラム24の少なくとも一部に基づく処理を行なうことにより、(それらの処理をOS22に基づいてハードウェア群21を制御して)圧縮部100aの機能が実現される。また、プロセッサ301が、伸張機能が呼び出された場合に、ミドルウェア23またはアプリケーションプログラム24の少なくとも一部に基づく処理を行なうことにより、(それらの処理をOS22に基づいてハードウェア群21を制御して)伸張部100bの機能が実現される。圧縮機能および伸張機能は、それぞれアプリケーションプログラム24自体に含まれてもよいし、アプリケーションプログラム24に従って呼び出されることで実行されるミドルウェア23の一部であってもよい。
アプリケーションプログラム24(またはミドルウェア23)の圧縮機能により得られる圧縮ファイルF2は、圧縮ファイルF2内の圧縮辞書D1に基づいて部分的に伸張可能である。圧縮ファイルF2の途中を伸張する場合には、伸張対象の部分までの圧縮データの伸張処理が抑制されるため、プロセッサ301の負荷が抑制される。また、伸張対象の圧縮データを部分的にRAM302上に展開するので、ワークエリアも削減される。
図17は、実施形態のシステムにおける装置の構成例を示す。図17のシステムは、コンピュータ1a、コンピュータ1b、基地局2およびネットワーク3を含む。コンピュータ1aは、無線または有線の少なくとも一方により、コンピュータ1bと接続されたネットワーク3に接続している。
図6に示す圧縮部100aと伸張部100bとは、図17に示すコンピュータ1aとコンピュータ1bとのいずれに含まれてもよい。コンピュータ1bが圧縮部100aを含み、コンピュータ1aが伸張部100bを含んでもよいし、コンピュータ1bが圧縮部100aを含み、コンピュータ1aが伸張部100bを含んでもよい。また、コンピュータ1aとコンピュータ1bとの双方が、圧縮部100aおよび伸張部100bを備えてもよい。
以下、上述の実施形態における変形例の一部を説明する。下記の変形例のみでなく、本発明の本旨を逸脱しない範囲の設計変更は適宜行われうる。圧縮処理の対象は、ファイル内のデータ以外にも、システムから出力される監視メッセージなどでもよい。例えば、バッファに順次格納される監視メッセージを上述の圧縮処理により圧縮し、ログファイルとして格納するなどの処理が行なわれる。また、例えば、データベース内のページ単位に圧縮が行なわれてもよいし、複数のページをまとめた単位で圧縮が行なわれてもよい。
また、上述の圧縮処理の対象となるデータは、上述の通り、CJK文字のみに限定されるものでない。CJK文字と英数字とが混ざったデータであってもよいし、画像・音声などのデータに対して上述の圧縮処理を用いてもよい。
以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)コンピュータに、
第1の文字コードによる文字データ列が、一または複数の文字を含む文字列の単位で圧縮符号化された圧縮ファイルを入力し、
前記圧縮ファイルに含まれ、前記文字データ列の圧縮符号化の単位それぞれに関連づけられた圧縮情報それぞれを、当該圧縮符号化の単位の前記第1の文字コード表記に対応する情報から、当該圧縮符号化の単位の第2の文字コード表記に対応する情報にそれぞれ変換し、
前記圧縮符号化された前記文字データ列の圧縮符号化の単位それぞれ、および、前記変換された前記文字データ列の圧縮符号化の単位それぞれに関連づけられた圧縮情報それぞれから、変換圧縮ファイルを生成する、
処理を行わせることを特徴とするプログラム。
(付記2)前記変換する処理は、
前記第1の文字コードによる文字データ列の圧縮符号化の単位に関連づけられた圧縮情報の識別子が第1識別子であるか第2識別子であるかを判定し、
前記圧縮情報の識別子が第1識別子である場合には、前記圧縮情報から得られる前記第1の文字コード表記に対応する文字データ列への位置を特定し、前記第1の文字コード表記の文字データ列を記憶する第1文字コード表を前記第2の文字コード表記の文字データ列を記憶する第2文字コード表に置換した文字コード表と前記特定した位置とを基にして、前記圧縮情報を前記第1の文字コード表記に対応する情報から前記第2の文字コード表記に対応する情報に変換する
処理を実行させることを特徴とする付記1に記載のプログラム。
(付記3)前記圧縮情報の識別子が第2識別子である場合には、前記圧縮情報に含まれる登録位置に基づく情報に示される位置の情報を基にして、前記圧縮情報を前記第1の文字コード表記に対応する情報から前記第2の文字コード表記に対応する情報に変換することを特徴とする付記2に記載のプログラム。
(付記4)第1の文字コードによる文字データ列が、一または複数の文字を含む文字列の単位で圧縮符号化された圧縮ファイルを入力する入力部と、
前記圧縮ファイルに含まれ、前記文字データ列の圧縮符号化の単位それぞれに関連づけられた圧縮情報それぞれを、当該圧縮符号化の単位の前記第1の文字コード表記に対応する情報から、当該圧縮符号化の単位の第2の文字コード表記に対応する情報にそれぞれ変換する変換部と、
前記圧縮符号化された前記文字データ列の圧縮符号化の単位それぞれ、および、前記変換された前記文字データ列の圧縮符号化の単位それぞれに関連づけられた圧縮情報それぞれから、変換圧縮ファイルを生成する生成部と、
を有することを特徴とする装置。
(付記5)前記変換部は、
前記第1の文字コードによる文字データ列の圧縮符号化の単位に関連づけられた圧縮情報の識別子が第1識別子であるか第2識別子であるかを判定する判定部を含み、
前記判定部によって前記圧縮情報の識別子が第1識別子であると判定された場合には、前記圧縮情報から得られる前記第1の文字コード表記に対応する文字データ列への位置を特定し、前記第1の文字コード表記の文字データ列を記憶する第1文字コード表を前記第2の文字コード表記の文字データ列を記憶する第2文字コード表に置換した文字コード表と前記特定した位置とを基にして、前記圧縮情報を前記第1の文字コード表記に対応する情報から前記第2の文字コード表記に対応する情報に変換する
ことを特徴とする付記4に記載の装置。
(付記6)コンピュータが、
第1の文字コードによる文字データ列が、一または複数の文字を含む文字列の単位で圧縮符号化された圧縮ファイルを入力し、
前記圧縮ファイルに含まれ、前記文字データ列の圧縮符号化の単位それぞれに関連づけられた圧縮情報それぞれを、当該圧縮符号化の単位の前記第1の文字コード表記に対応する情報から、当該圧縮符号化の単位の第2の文字コード表記に対応する情報にそれぞれ変換し、
前記圧縮符号化された前記文字データ列の圧縮符号化の単位それぞれ、および、前記変換された前記文字データ列の圧縮符号化の単位それぞれに関連づけられた圧縮情報それぞれから、変換圧縮ファイルを生成する、
処理を実行することを特徴とする変換方法。
(付記7)前記変換する処理は、
前記第1の文字コードによる文字データ列の圧縮符号化の単位に関連づけられた圧縮情報の識別子が第1識別子であるか第2識別子であるかを判定し、
前記圧縮情報の識別子が第1識別子である場合には、前記圧縮情報から得られる前記第1の文字コード表記に対応する文字データ列への位置を特定し、前記第1の文字コード表記の文字データ列を記憶する第1文字コード表を前記第2の文字コード表記の文字データ列を記憶する第2文字コード表に置換した文字コード表と前記特定した位置とを基にして、前記圧縮情報を前記第1の文字コード表記に対応する情報から前記第2の文字コード表記に対応する情報に変換する
処理を実行することを特徴とする付記6に記載の変換方法。
(付記8)コンピュータに、
文字のデータ列および該文字のデータ列に対応する圧縮符号を対応付けた第1辞書と、圧縮対象の文字のデータ列とを基にして、圧縮対象の文字のデータ列が前記第1辞書に登録されているか否かを判定し、
前記圧縮対象の文字のデータ列が前記第1辞書に登録されている場合には、前記第1辞書に登録された前記圧縮対象の文字のデータ列に対応する圧縮符号に、前記圧縮対象の文字のデータ列を圧縮し、
前記圧縮対象の文字のデータ列が前記第1辞書に登録されていない場合には、前記圧縮対象の文字のデータ列を第2辞書に登録し、登録位置に基づく情報に、前記圧縮対象の文字のデータ列を圧縮する
処理を実行させることを特徴とする圧縮プログラム。
(付記9)文字のデータ列および該文字のデータ列に対応する圧縮符号を対応付けた第1辞書と、圧縮対象の文字のデータ列とを基にして、圧縮対象の文字のデータ列が前記第1辞書に登録されているか否かを判定する判定部と、
前記圧縮対象の文字のデータ列が前記第1辞書に登録されている場合には、前記第1辞書に登録された前記圧縮対象の文字のデータ列に対応する圧縮符号に、前記圧縮対象の文字のデータ列を圧縮する第1圧縮部と、
前記圧縮対象の文字のデータ列が前記第1辞書に登録されていない場合には、前記圧縮対象の文字のデータ列を第2辞書に登録し、登録位置に基づく情報に、前記圧縮対象の文字のデータ列を圧縮する第2圧縮部と、
を有することを特徴とする圧縮装置。
100 情報処理装置
100a 圧縮部
100b 伸長部
100c 記憶部
200 文字コードテーブル

Claims (3)

  1. コンピュータに、
    第1の文字コードによる文字データ列が、一または複数の文字を含む文字列の単位で圧縮符号化された圧縮ファイルを入力し、
    前記圧縮ファイルに含まれ、前記文字データ列の圧縮符号化の単位それぞれに関連づけられた圧縮情報それぞれを、当該圧縮符号化の単位の前記第1の文字コード表記に対応する伸長文字コード列から、当該圧縮符号化の単位の第2の文字コード表記に対応する伸長文字コード列にそれぞれ変換し、
    前記圧縮符号化された前記文字データ列の圧縮符号化の単位それぞれ、および、前記変換された前記文字データ列の圧縮符号化の単位それぞれに関連づけられた圧縮情報それぞれから、変換圧縮ファイルを生成する、
    処理を行わせることを特徴とするプログラム。
  2. 前記変換する処理は、
    前記第1の文字コードによる文字データ列の圧縮符号化の単位に関連づけられた圧縮情報の識別子が第1識別子であるか第2識別子であるかを判定し、
    前記圧縮情報の識別子が第1識別子である場合には、前記圧縮情報から得られる前記第1の文字コード表記に対応する文字データ列への位置を特定し、前記第1の文字コード表記の文字データ列を記憶する第1文字コード表を前記第2の文字コード表記の文字データ列を記憶する第2文字コード表に置換した文字コード表と前記特定した位置とを基にして、前記圧縮情報を前記第1の文字コード表記に対応する情報から前記第2の文字コード表記に対応する情報に変換することを特徴とする請求項1に記載のプログラム。
  3. 前記圧縮情報の識別子が第2識別子である場合には、前記圧縮情報に含まれる登録位置に基づく情報に示される位置の情報を基にして、前記圧縮情報を前記第1の文字コード表記に対応する情報から前記第2の文字コード表記に対応する情報に変換することを特徴とする請求項2に記載のプログラム。
JP2015008076A 2015-01-19 2015-01-19 プログラム Active JP6531398B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2015008076A JP6531398B2 (ja) 2015-01-19 2015-01-19 プログラム
CN201610017815.XA CN105808513B (zh) 2015-01-19 2016-01-12 转换装置和转换方法
US14/995,711 US9425821B2 (en) 2015-01-19 2016-01-14 Converting device and converting method
KR1020160004816A KR101748982B1 (ko) 2015-01-19 2016-01-14 매체에 저장된 프로그램

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015008076A JP6531398B2 (ja) 2015-01-19 2015-01-19 プログラム

Publications (2)

Publication Number Publication Date
JP2016134751A JP2016134751A (ja) 2016-07-25
JP6531398B2 true JP6531398B2 (ja) 2019-06-19

Family

ID=56408599

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015008076A Active JP6531398B2 (ja) 2015-01-19 2015-01-19 プログラム

Country Status (4)

Country Link
US (1) US9425821B2 (ja)
JP (1) JP6531398B2 (ja)
KR (1) KR101748982B1 (ja)
CN (1) CN105808513B (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017017738A1 (ja) * 2015-07-24 2017-02-02 富士通株式会社 符号化プログラム、符号化装置、及び符号化方法
JP2017135613A (ja) * 2016-01-28 2017-08-03 ブラザー工業株式会社 画像処理装置およびコンピュータプログラム
JP6686639B2 (ja) * 2016-03-31 2020-04-22 富士通株式会社 符号化プログラム、符号化装置、符号化方法、復号化プログラム、復号化装置および復号化方法
CN106850141A (zh) * 2017-01-20 2017-06-13 济南浪潮高新科技投资发展有限公司 一种使用deflate算法的物理信息***数据无损压缩传输方法
CN106897259A (zh) * 2017-02-28 2017-06-27 郑州云海信息技术有限公司 一种基于windows平台的ascii码和字符串的转换方法
JP7210130B2 (ja) 2017-04-07 2023-01-23 富士通株式会社 符号化プログラム、符号化方法および符号化装置
CN110110299B (zh) * 2019-04-28 2023-04-07 腾讯科技(上海)有限公司 文本变换方法、装置以及服务器
US11502705B2 (en) * 2019-06-21 2022-11-15 Sap Se Advanced database decompression
CN113138968A (zh) * 2020-01-20 2021-07-20 普天信息技术有限公司 日志压缩方法及日志解压缩方法
US20210105466A1 (en) * 2020-12-18 2021-04-08 Intel Corporation Offloading video coding processes to hardware for better density-quality tradeoffs
CN113162628B (zh) * 2021-04-26 2022-03-18 深圳希施玛数据科技有限公司 一种数据编码方法、数据解码方法、终端和存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63127328A (ja) 1986-11-18 1988-05-31 Mitsubishi Electric Corp コ−ド変換装置
JP2612343B2 (ja) * 1989-08-09 1997-05-21 富士通株式会社 データ圧縮方式
JPH03157021A (ja) * 1989-11-15 1991-07-05 Hitachi Ltd データ圧縮制御方式
US5442350A (en) * 1992-10-29 1995-08-15 International Business Machines Corporation Method and means providing static dictionary structures for compressing character data and expanding compressed data
WO1997010556A1 (en) * 1995-09-13 1997-03-20 Apple Computer, Inc. Unicode converter
JP3566441B2 (ja) 1996-01-30 2004-09-15 シャープ株式会社 テキスト圧縮用辞書作成装置
JP3277792B2 (ja) 1996-01-31 2002-04-22 株式会社日立製作所 データ圧縮方法および装置
JPH10326273A (ja) * 1997-03-26 1998-12-08 Fujitsu Ltd データ圧縮装置及びデータ復元装置及びデータ圧縮方法及びデータ復元方法及びプログラム記録媒体
JP2000269822A (ja) * 1999-03-12 2000-09-29 Fujitsu Ltd データ圧縮装置、及びデータ復元装置
US6606040B2 (en) * 2001-02-13 2003-08-12 Mosaid Technologies, Inc. Method and apparatus for adaptive data compression
JP3832807B2 (ja) 2001-06-28 2006-10-11 インターナショナル・ビジネス・マシーンズ・コーポレーション データ処理方法及びその手法を用いたエンコーダ、デコーダ並びにxmlパーサ
JP4446102B2 (ja) * 2006-04-12 2010-04-07 株式会社エクサ データ圧縮/復元システム、データ圧縮装置、データ復元装置、及びプログラム
US8125364B2 (en) 2007-08-13 2012-02-28 Nec Corporation Data compression/decompression method

Also Published As

Publication number Publication date
JP2016134751A (ja) 2016-07-25
CN105808513B (zh) 2019-01-01
US20160211863A1 (en) 2016-07-21
KR101748982B1 (ko) 2017-06-19
CN105808513A (zh) 2016-07-27
KR20160089279A (ko) 2016-07-27
US9425821B2 (en) 2016-08-23

Similar Documents

Publication Publication Date Title
JP6531398B2 (ja) プログラム
JP6742692B2 (ja) 符号化プログラムおよび伸長プログラム
JP6641857B2 (ja) 符号化プログラム、符号化方法、符号化装置、復号化プログラム、復号化方法および復号化装置
US10360183B2 (en) Encoding device, encoding method, decoding device, decoding method, and computer-readable recording medium
JP6686639B2 (ja) 符号化プログラム、符号化装置、符号化方法、復号化プログラム、復号化装置および復号化方法
JP6540308B2 (ja) 符号化プログラム、符号化方法、符号化装置、復号化プログラム、復号化方法および復号化装置
JP6834327B2 (ja) 符号化プログラム、符号化装置および符号化方法
US11055328B2 (en) Non-transitory computer readable medium, encode device, and encode method
JP6032292B2 (ja) 圧縮プログラム、圧縮装置、伸張プログラムおよび伸張装置
US9479195B2 (en) Non-transitory computer-readable recording medium, compression method, decompression method, compression device, and decompression device
WO2014030189A1 (ja) 圧縮プログラム、圧縮方法、圧縮装置、伸張プログラム、伸張方法、伸張装置およびデータ転送システム
WO2014030180A1 (ja) 格納プログラム、格納方法、格納装置、伸張プログラム、伸張方法及び伸張装置
JP6032291B2 (ja) 圧縮プログラム、圧縮装置、伸張プログラム、伸張装置およびシステム
JP6135788B2 (ja) 圧縮プログラム、圧縮方法、圧縮装置、伸張プログラム、伸張方法、伸張装置およびデータ転送システム
JP2016134754A (ja) 変換処理プログラム、情報処理装置および変換処理方法
JP2017195628A (ja) 符号化プログラム、符号化方法、符号化装置、復号化プログラム、復号化方法及び復号化装置
JP2016171589A (ja) 符号化プログラム、符号化方法、符号化装置、復号化プログラム、復号化方法及び復号化装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180911

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190423

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190506

R150 Certificate of patent or registration of utility model

Ref document number: 6531398

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150