JP2629040B2

JP2629040B2 - 日本語処理システム

Info

Publication number: JP2629040B2
Application number: JP1032449A
Authority: JP
Inventors: 清渡辺; 陽子白石
Original assignee: 株式会社ピーエフユー; ピーエフユー関西ソフトウェア株式会社
Priority date: 1989-02-10
Filing date: 1989-02-10
Publication date: 1997-07-09
Anticipated expiration: 2012-07-09
Also published as: JPH02257276A

Description

【発明の詳細な説明】［概要］半角文字と全角文字が混在する日本語処理システムに
関し，半角文字と全角文字を制御コードを用いることなく容
易に識別することができる日本語処理システムを提供す
ることを目的とし、変換処理部を有する日本語処理システムであって，変
換処理部はコード発生部と文字処理部を有し，コード発
生部は，入力装置から１バイトで表すJISの半角文字コ
ードと,2バイトコードで表すJISの全角文字コードが混
在する信号を入力し,1バイトの半角文字のコードから，
そのコードの８ビットで表す数値が予め設定された所定
数値以下となるビット構成となるコードを発生し,2バイ
トの全角文字のコードから，その上位バイトの８ビット
で表す数値がその所定数値より大きい値をとるビット構
成となる全角文字コードを発生し，文字処理部は，コー
ド発生部の出力信号を入力し，文字コードの１バイトで
表す数値を判別し，所定数値以下の場合は当該バイトを
半角文字と識別し，所定数値より大きい時は当該バイト
と後続する１バイトとを組み合わせた２バイトを全角文
字として識別するように構成する。

［産業上の利用分野］本発明は半角文字と全角文字が混在する日本語処理シ
ステムに関する。

近年、情報処理システム例えば、給与管理，在庫管理
などを行う事務処理システムや、日本語文書作成システ
ムにおいて、アルファベット・数字・カナ文字を表す半
角文字と漢字や図形・記号などを表す全角文字を混在し
て表現することが普通に行われており、全・半角混在文
字の半角文字と全角文字をいかに容易に識別するかが日
本語処理全体の構成、処理性能，内部データ量を決める
上で重大な要素となっている。

［従来の技術］従来技術を第６図乃至第９図を用いて説明する。第６
図は従来のJIS（日本工業規格）により定められた、コ
ード体系を示し、第７図はその中の半角文字コード体系
図、第８図は従来の別のコード体系を示す図、第９図は
制御コードを使用した文字及び文字列を示す図である。

従来、文字の中で、アルファベット，数字，カナ文字
等の半角文字を表すためにJIS8単位コード系を用い、漢
字，記号，図形などの全角文字を表すために１文字が２
バイト（１バイト＝８ビット）のJIS6226コード系が使
用されている。

第６図には、上位バイト（８ビット）を16進数（４ビ
ット）２桁の数字で表した目盛りにより縦軸方向に表示
し、下位バイト（８ビット）を同様に16進数２桁の数字
で表した目盛により横軸方向に表示しており、前記のJI
S6226コード系により使用される２バイトの文字は上位
バイト（第１バイト）と下位バイト（第２バイト）が共
に、16進数の21〜7Eの領域のコードを使用し、第６図に
斜線が施された領域であり、これを（2121〜7E7E）₁₆と
表示する。

一方、JIS8単位の半角文字（アルファベット，数字，
カナ文字）のコードは、８ビット構成であるため、JIS6
226コード系のように平面として表示できないので、そ
の上位バイト（８ビット）の縦軸に並行する直線上に表
現すると、第６図の右端に示すように表示される。すな
わち、８ビットを16進数２桁で表すと、00〜7Fで半角，
英数字を表し、A0〜DFで半角カナ文字を表す。00〜7Fの
うち事務処理で通常使用されるアルファベット記号の範
囲は（20）₁₆〜（7F）₁₆である。

第７図はこのJIS8単位コードを、上位４ビットを表す
縦軸の16進数の目盛と、下位４ビットを表す横軸の16進
数の目盛上で表現したもので、（20）₁₆〜（7F）₁₆と
（A0）₁₆〜（DF）₁₆の各使用領域を表わす。

この内容によれば、全角文字の上位バイトと半角文字
は明らかに同じコードを使用して、重複するため、この
コード体系によっては半角文字と全角文字を区別するこ
とができない。

そこで、全角文字コードにある定数を加えることによ
り半角文字コードとの重複を回避するコード系（シフト
JIS）が考えられている。このコードは、第６図に示す
ように上位バイトのコードとして８単位コード系で使用
しない領域（81〜9FおよびE0〜FC）のコードを割り当て
る。

ところが、この方式ではJISの第１水準，第２水準漢
字及びJIS非漢字（全6802文字）の表現は可能となる
が、それ以上の文字種を表現することができない。

JIS6226コード系を変形した従来の別のコード体系を
第８図に示す。

この体系では、JIS6226コードの上位バイトと下位バ
イトのそれぞれに一定数（16進数の80）を加算して、領
域（A1A1〜FEFE）₁₆を使用するとともに、多数の漢字を
割当てるための拡張文字領域（ユーザが定義して使用す
る文字領域も含む）を設け、図に示すように、拡張領域
として（41A1〜A0FE）₁₆を使用する。そして、半角文字
の領域としては、JIS8単位と同様に00〜7Fで半角，英数
字を表し、A0〜DFで半角カナ文字を表す。

しかし、この従来の別の方式によっても、JIS8単位の
半角文字のコードと全角文字の第１バイトのコードが重
複する点に変わりがない。

このため、JIS6226コード系の場合や、シフトJISにお
いて規定された文字種以上の文字を使用する場合は、全
角文字列の開始と終了時に、半角文字コードと重複しな
い制御コードを付加し、半角文字と全角文字を区別する
方式が従来とられている。

制御コードを使用した時の、文字と文字列のコード長
の説明図を第９図に示す。図において、半角文字“A"は
１バイトで表し、全角文字“花子”はそれぞれ２バイト
で表されるが、前後に１バイトの全角開始制御コード
（CS）と全角終了制御コード（CE）が付加され、合計６
バイトとなる。そして、文例として「ABあい12ァ」と
いう半角文字（５文字）と全角文字（３文字）が混在し
た文字列を表現すると、制御コードCS,CEが何個も使用
されるので、合計15バイトになってしまう。

［発明が解決しようとする課題］上記したように、半角文字と全角文字が混在した場
合、従来は余分に制御コードを付加して半角・全角の識
別を行うため、全角／半角の切替えが頻繁に発生するの
で処理時間が余分にかかるだけでなく、制御コードが増
えるためにデータ量の増大を招いてシステム性能を悪化
させるという問題があった。

本発明は、半角文字と全角文字を制御コードを用いる
ことなく容易に識別することができる日本語処理システ
ムを提供することを目的とする。

［課題を解決するための手段］本発明による基本構成図を第１図に示し、本発明の原
理説明図を第２図に示す。

第１図において,31は入力したJISコードを本発明によ
るコードに変換する変換処理部,10はコード発生部,11
は，文字処理部、12は文字識別手段である。

第２図の原理説明図には、本発明の半角・全角文字識
別方式において使用する文字コードの領域とコード表現
を示し、以下にこの第２図について説明する。

第２図A.に示すように、JIS6226コード系で使用する
文字コードに対して一定の数値を加算して、縦軸（第１
バイト），横軸（第２バイト）ともに16進数A0〜FEで囲
む領域（AOAO〜FEFE）₁₆のコードを使用すると共に、そ
れ以外の多数の漢字や、ユーザが定義する文字領域のた
めに縦軸の16進数A0〜FE,横軸の16進数41〜9Fで囲まれ
る領域（A041〜FE9F）₁₆を使用する。このように、全角
文字については、第８図に示す従来の別の方式のコード
体系を変更したものである。

一方、JIS8単位符号で割り当てられている半角文字の
英数字，カナ文字については、８ビットコードを16進数
２桁の数字で表すと、00〜9Fの範囲のコードを使用し、
第２図A.の右端に示す直線に矢印を付して示す範囲であ
る。この半角文字のコードは、従来の第８図に示す英数
字記号の範囲の文字コードから（20）₁₆を引いたもの
と、カナ文字のコードから（40）₁₆を引いたものを組み
合わせて構成され、第２図のB.にその８ビットコードを
上位デジット（４ビット）と下位デジット（４ビット）
による座標により表される。

第２図から分かるように、本発明で使用するコード体
系の場合、半角文字は、１バイト（８ビット）である文
字コードの値が00〜9F（16進数）の範囲であり、全角文
字は２バイトの文字コードの内の上位バイトのコードの
値がA0〜FEの範囲である。

第２図A.に示す、JIS6226コード系の全角文字の領域
は、第８図として示す従来の別の方式のコード系の場合
と同じ領域であり、第８図に示す領域（A041〜FE9F）₁₆
である点で異なるが、領域内に収容される文字種の数は
同一である。従って、第８図の方式により拡張領域（41
A0〜9FFE）₁₆に割当てられた文字コードの２バイトの上
位バイト，下位バイトの順番を反転することにより、第
２図A.に示す領域（A041〜FE9F）₁₆のコードに変換され
る。

本発明は、半角文字か全角文字かを先頭の１バイトの
コードにより識別して、識別結果に応じて半角文字また
は全角文字の処理を行うものである。

［作用］第１図において、入力装置から入力されたコードまた
は、JIS規格によるコードはコード発生部10において、
第２図A.に示す本発明のコードを発生する。この場合、
JIS規格による入力装置から入力されたコードは所定の
数値を加算してシフトし、８単位符号に対しても同様の
加算または減算を施す。コード発生部10から発生した文
字は第１図の上部にA,Bとして示すもうなコード形式で
あり、その先頭バイト（半角文字は１バイトだけ）のコ
ードは第２図A.に示す数値の範囲に割当てられている。

このようにして、第２図A.に示すコード体系に従った
コードは文字処理部11に入力し、指定された各種の処
理、削除、挿入等が行われる。

文字処理部11内には文字識別手段12が備えられ、コー
ド発生部から入力されたコードは２バイトのコード保持
手段121に格納され、先頭の１バイトについて判別手段1
22により判別する。判別は１バイトのコードを８ビット
の数値として扱い、所定の値（第２図Ａの16進数“A
0"）と比較して、A0未満の場合は半角文字コードと識別
し、その１バイトを取り出して文字処理を行い、それ以
外（A0以上）の場合は全角文字と識別してコード保持手
段121の２バイト（識別したバイトが上位のバイト後続
の１バイトを下位バイトとして）を取り出して文字処理
を行う。

この本発明によるコードにより処理した結果は、その
コードのまま記憶装置（図示しない）に格納され、JIS
規格の出力装置に出力する場合は、元のコードに変換す
ることにより従来の入・出力装置を使用することができ
る。

このように、本発明は常に半角文字を１バイト、全角
文字を２バイトで表すため、表示や印刷時の文字長と実
際のデータ長が一致してずれることがないので処理が簡
便になり、制御コードを用いないのでデータの記憶・処
理するための資源を節約することができる。

なお、第８図に示す従来の別の方式のコードが入力さ
れることが分かっている場合、そのコードが拡張領域の
全角文字のコードであることが識別された場合、その２
バイトのコードの上位と下位を置き換えることにより本
発明のコードに変換することができ、拡張領域でないJI
S規格の領域（A1A1〜FEFE）₁₆の全角文字の場合はその
コードがそのまま本発明のコードとなる。

［実施例］第３図は本発明の実施例構成図、第４図は文字処理の
フロー図、第５図は本発明と従来例の処理の差異を示す
図である。

第３図には本発明によるコード系を用いた日本語処理
システムの実施例構成が示されている。

図の30はJIS規格の文字列を入力するキーボート等の
入力装置、31は入力したJIS規格コードを本発明による
コード（以下，本方式コードという）に変換する変換処
理部,32は本方式のコードに変換されたコードテーダを
保存する記憶装置、33は本方式のコードの文字列に挿
入，削除等の編集を行うデータ編集部（第１図の文字処
理部に対応）、34は本方式コードからJIS規格コードに
復元する復元処理部、35はJIS規格の文字例を表示する
表示装置、36はJIS規格文字列を印字する印刷装置を表
す。

入力装置30によって入力されたJIS規格文字列は、変
換処理部31によって本方式コードに変換される。データ
編集部33は、文字列の挿入・削除等の編集を行うが、そ
の際に半角文字と全角文字の識別を行う。

文字処理のフローを第４図により説明すると、識別動
作が開始すると、文字列から１バイトを取り出し（ステ
ップ40）、その１バイトの値が（AO）₁₆より小さいか判
別される（ステップ41）。この判別の結果YESである場
合は、当該１バイトを半角文字と識別し（ステップ4
2）、NOと判別された場合は当該判別した１バイトと文
字列の次の１バイトを含めて全角文字と識別する（ステ
ップ43）。識別結果は編集処理において利用される。こ
のように１バイトを判別するだけなので高速に実行され
る。

編集が終了した時に、記憶装置32に格納する場合は本
方式コードで保存することにより制御コードを用いた場
合に比べて少ないデータ量となる。またJIS規格コード
を用いる表示装置35や、印刷装置36に日本語文字を表示
したり、印字により出力する場合は、復元処理部34にお
いてデータ編集部33や、記憶装置32から取り出した本方
式コードによる文字コードをJIS規格コードに復元（変
換）して、表示装置35または印刷装置36に出力する。

第５図は、本発明と従来例の処理の違いを示す図であ
る。

第５図のa.は本発明による処理を示し、半角文字と全
角文字が混在している文字列「Ａ全１角文ア字」に対し
て、４桁目（４バイト目）から２桁分を削除する場合
（半角文字１文字が１桁、全角文字１文字で２桁分数え
る）、削除桁および終了桁が、それぞれ全角文字の下位
バイト及び上位バイトの時は、その前の桁及び次の桁を
含めて削除する必要がある。従って、常に半角文字か全
角文字かの識別を行うが、本発明の識別方式により識別
処理を高速に行うことができる。

また、削除した後、削除文字の前に位置する文字列
（図の場合“Ａ全”）と後に位置する文字列（図の場合
“文ア字”）を結合しなければならないが、本発明のコ
ード系では単に削除した桁数分（図の場合は３桁）だけ
後ろの文字列を前に移動するだけでよく、結合処理が容
易である。

第５図のb.は、同様の削除処理を制御コードを使用す
る従来方式で実行した場合の例である。

従来は、制御コードを用いた場合、現在の文字が半角
であるか全角文字であるかを別に設けた全角文字モード
フラグ（フリップフロップにより構成を参照して判断し
なければならない。但し、全角文字モードフラグは全角
開始制御コードが現れた時にオン、全角終了制御コード
が現れた時にオフにされる。また、削除後の文字列の結
合処理においても、削除文字の直前の文字と直後の文字
（図の例では“全”と“文”）を比較して共に全角文字
ならば両者の間に存在する不要な制御コード（図の例で
は“全”の後の全角終了制御コード）を削除する等の複
雑な処理が必要となる。

このように、本発明では従来例で必要とされた複雑な
処理を不要にし、高速処理を実現することができる。

［発明の効果］本発明によれば、JIS規格の全角文字に拡張文字を加
えた豊富な文字種を扱いながら、半角文字と全角文字の
識別を簡単に行うことができるばかりでなく、制御コー
ドを使用しないので、半角文字と全角文字の切替えが頻
繁に発生するような文字列を処理する場合でも、データ
量が増えることなく、常に表示・印刷字の文字長とデー
タ長が一致する。これにより、メモリ資源の節約と日本
語処理性能の向上を計ることができる。

【図面の簡単な説明】

第１図は本発明の基本構成図、第２図は本発明の原理説
明図、第３図は本発明の実施例構成図、第４図は文字処
理のフロー図、第５図は本発明と従来例の処理の違いを
示す図、第６図は従来のJISによるコード体系を示す
図、第７図は従来の半角文字コード体系図、第８図は従
来の別のコード体系を示す図、第９図は制御コードを使
用した文字及び文字列を示す図である。第１図中、 10:コード発生部 11:文字処理部 12:文字識別手段 31:変換処理部

フロントページの続き (72)発明者白石陽子大阪府大阪市北区堂島１丁目５番17号関西パナファコム株式会社内 (56)参考文献特開昭56−145425（ＪＰ，Ａ) 特開昭61−141072（ＪＰ，Ａ)

Claims

(57)【特許請求の範囲】

【請求項１】変換処理部（31）を有する日本語処理シス
テムであって，変換処理部（31）はコード発生部（10）と文字処理部
（11）を有し，コード発生部（10）は，入力装置から１バイトで表すJI
Sの半角文字コードと,2バイトコードで表すJISの全角文
字コードが混在する信号を入力し,1バイトの半角文字の
コードから，そのコードの８ビットで表す数値が予め設
定された所定数値以下となるビット構成となるコードを
発生し,2バイトの全角文字のコードから，その上位バイ
トの８ビットで表す数値がその所定数値より大きい値を
とるビット構成となる全角文字コードを発生し，文字処理部（11）は，コード発生部（10）の出力信号を
入力し，文字コードの１バイトで表す数値を判別し，所
定数値以下の場合は当該１バイトを半角文字と識別し，
所定数値より大きい時は当該バイトと後続する１バイト
とを組み合わせた２バイトを全角文字として識別するこ
とを特徴とする日本語処理システム。