JPH06119391A

JPH06119391A - 漢字文字列抽出方式

Info

Publication number: JPH06119391A
Application number: JP4271533A
Authority: JP
Inventors: Kazuhiro Noguchi; 和宏野口
Original assignee: NEC Solution Innovators Ltd
Current assignee: NEC Solution Innovators Ltd
Priority date: 1992-10-09
Filing date: 1992-10-09
Publication date: 1994-04-28

Abstract

(57)【要約】【目的】漢字データ管理システムにおける文字数からバ
イト数への変換を高速化する。【構成】抽出処理管理部１−１は、対象となる文字列を
示すポインタと文字列中の抽出開始文字位置および抽出
文字数を上位装置より受けとり、開始バイト位置，抽出
バイト数を用いて漢字文字列データから漢字文字列の抽
出を行う。漢字データ管理部１−２は、ポインタの示す
漢字文字列データを取り込む。文字属性テーブル作成部
１−５は、漢字文字列データを左方向より走査し１バイ
トづつデータを切り出し１バイトデータ，２バイトデー
タ全角漢字前半，２バイトデータ全角漢字後半，半角漢
字などの漢字コードの属性と切り出した文字の構成バイ
ト数から成る文字属性テーブルをメモリ上に作成する。
文字数・バイト数変換処理部１−６は、抽出開始文字位
置と前記抽出文字数をもとに文字属性テーブルを参照し
て抽出開始バイト数および抽出バイト数を出力する

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は漢字文字列抽出方式に関
し、特に漢字データ管理システムにおける文字数からバ
イト数への変換方式に関する。

【０００２】

【従来の技術】従来、漢字データ管理システムにおい
て、漢字文字列における特定の文字列を抽出する場合、
文字数をバイト数に変換し、文字列の先頭より文字コー
ドを比較し数え上げるのが一般的な方法である。

【０００３】

【発明が解決しようとする課題】上述した従来の漢字文
字列抽出方式は、文字列内から複数回データを抽出する
場合、毎回データの数え上を行わなければならないた
め、バイト位置を求めるための処理時間がかかるという
欠点があった。

【０００４】本発明の目的は、１度目の数え上げ処理以
外の以降の処理は、文字列の属性管理テーブルを使用す
ることで、処理時間の短縮を計ることにある。

【０００５】

【課題を解決するための手段】第１の発明は、漢字文字
列における特定の文字列を抽出する漢字データ管理シス
テムにおける漢字文字列抽出方式において、対象となる
文字列を示すポインタと前記文字列中の抽出開始文字位
置および抽出文字数を上位装置より受けとり第１の指
示、第２の指示、第３の指示を出力し開始バイト位置，
抽出バイト数を用いて漢字文字列データから漢字文字列
の抽出を行う抽出処理管理部と、前記第１の指示により
前記ポインタの示す前記漢字文字列データを取り込む漢
字データ管理部と、前記第２の指示を受けて前記漢字文
字列データを左方向より走査し１バイトづつデータを切
り出し１バイトデータ，２バイトデータ全角漢字前半，
２バイトデータ全角漢字後半，半角漢字，漢字インコー
ドあるいは漢字アウトコードなどの漢字コードの属性と
前記切り出した文字の構成バイト数から成る文字属性テ
ーブルをメモリ上に作成する文字属性テーブル作成部
と、前記第３の指示を受けて前記抽出開始文字位置と前
記抽出文字数をもとに前記文字属性テーブルを参照して
前記抽出開始バイト数および前記抽出バイト数を出力す
る文字数・バイト数変換処理部とから成ることを特徴と
する。

【０００６】

【実施例】次に、本発明の実施例について図面を参照し
て説明する。

【０００７】図１は本発明の一実施例を示すブロック図
である。

【０００８】１．文字列の抽出処理が開始されると、抽
出処理管理部１−１には、対象となる文字列を示すポイ
ンタと文字列中の抽出開始文字位置、抽出文字数が上位
装置より（図示せず）渡される。抽出処理管理部１−１
は、漢字データ管理部１−２を介して指定されたポイン
タの示す漢字文字列データを取り込み、文字属性テーブ
ルの作成を文字属性管理部１−３を介して文字属性テー
ブル作成部１−５に指示する。

【０００９】２．文字属性テーブル作成部１−５は、図
２に示すように漢字文字列２−１を左方向より走査し、
１バイトづつデータを切り出し漢字コード判定部１−４
を介して文字属性テーブル２−２をメモリ上に作成す
る。

【００１０】３．漢字コード判定部１−４は、与えられ
た漢字コード（１バイト系のＡＮＫコードも含む）の属
性を返却する。返却されるデータとしては、漢字の属
性（１バイトデータ、２バイトデータ全角漢字前半、２
バイトデータ全角漢字後半、半角漢字、漢字インコー
ド、漢字アウトコード）、文字構成バイト数（１バイ
ト系、２バイトデータ全角漢字前半と後半については各
バイト数１、半角漢字、漢字シフトコードについてはバ
イト数２）を返却する。

【００１１】４．文字属性テーブル２−２の構成は図３
の様になっており、文字属性エリア３−１と文字長エリ
ア３−２から構成されている。文字属性テーブルの１バ
イトは文字１文字に相当し、テーブル長は漢字文字列長
と同じ長さとなる。文字属性エリア３−１には漢字コー
ド判定部１−３より返却された漢字属性、また文字長エ
リア３−２には漢字コード判定部１−３より返却された
文字構成バイト数が格納される。この場合、漢字インコ
ードが通知された場合は、次につづく文字の漢字属性に
漢字インデータの開始を示すビットを立て、文字構成バ
イト数に漢字シフトコードのバイト数を加算する。漢字
アウトコードが通知された場合は、直前の文字の漢字属
性に漢字アウトデータの開始を示すビットを立て、文字
構成バイト数に漢字シフトコードのバイト数を加算す
る。

【００１２】５．抽出処理管理部１−１は、文字属性テ
ーブル２−２が作成されたのち、文字数・バイト数変換
処理部１−６を呼び出し、実際の抽出対象文字列の開始
バイト位置、抽出バイト数を獲得する。

【００１３】６．文字数・バイト数変換処理部１−６
は、抽出処理管理部１−１より渡された抽出対象文字開
始位置（開始も文字数）、抽出文字数をもとに文字属性
テーブル２−２を利用して、文字属性テーブル２−２に
文字長エリア３−２を抽出開始文字数分（文字数は文字
属性テーブル２−２のテーブルバイト数に相当する）を
足し込み抽出開始バイト数として返却する。同様に抽出
文字数分、抽出開始位置以降の文字長エリア３−２を足
し込むことにより抽出バイト数を返却する。

【００１４】７．文字数・バイト数変換処理部１−６
は、６．の抽出開始バイト数を求める際に、抽出開始文
字位置の文字が全角の後半部になっていないかチェック
する。チェックは文字属性テーブル２−２の文字属性エ
リア３−１の内容が全角漢字後半になっていないかで判
断する。抽出開始文字位置が全角漢字後半であった場
合、抽出開始文字位置を１文字前（全角漢字前半）にな
るように補正を行う。

【００１５】８．文字数・バイト数変換処理部１−６
は、抽出開始文字位置の文字が２バイト系文字の場合、
開始文字の属性に漢字インシフトコードのビットが設定
されていない場合、漢字インシフトコードの設定が必要
であるむねのステータスを返却する。また、６．の処理
の中で、２バイト系文字が検出されてから、最終抽出文
字の間に漢字アウトシフトコードを検出しなかった場
合、漢字アウトシフトコードの設定が必要であるむねの
ステータスを返却する。抽出文字の最終文字の属性に漢
字アウトシフトコードのビットが立っていた場合は、抽
出文字のバイト数を２バイト増加させる。

【００１６】９．抽出処理管理部１−１は、実際の抽出
対象文字列の開始バイト位置、抽出バイト数を使って、
漢字データ管理部１−２より漢字文字列の抽出を行う。
この時、８．によってステータスが設定されている場合
は、ステータスによって漢字シフトコードの追加を行
う。

【００１７】以上の処理によって、文字数、バイト数を
変換を行う。複数回の抽出を行う場合は、５．の処理以
降を行うのみで変換が可能となり、処理の高速化が可能
となる。

【００１８】

【発明の効果】以上説明したように、本発明は、漢字コ
ードの比較数え上げ処理を、文字属性テーブルを利用す
るようにしたことにより、複数回の文字数、バイト数の
変換処理を高速化できるという効果がある。

【図面の簡単な説明】

【図１】本発明の一実施例を示すブロック図である。

【図２】本実施例における漢字文字列と文字属性テーブ
ルとの関係を示す図である。

【図３】本実施例における文字属性テーブルの構成例を
示す図である。

【符号の説明】

１−１抽出処理管理部１−２漢字データ管理部１−３文字属性管理部１−４漢字コード判定部１−５文字属性テーブル作成部１−６文字数・バイト数変換処理部２−１漢字文字列２−２文字属性テーブル３−１文字属性エリア３−２文字長エリア

Claims

【特許請求の範囲】

【請求項１】漢字文字列における特定の文字列を抽出す
る漢字データ管理システムにおける漢字文字列抽出方式
において、対象となる文字列を示すポインタと前記文字
列中の抽出開始文字位置および抽出文字数を上位装置よ
り受けとり第１の指示、第２の指示、第３の指示を出力
し開始バイト位置，抽出バイト数を用いて漢字文字列デ
ータから漢字文字列の抽出を行う抽出処理管理部と、前
記第１の指示により前記ポインタの示す前記漢字文字列
データを取り込む漢字データ管理部と、前記第２の指示
を受けて前記漢字文字列データを左方向より走査し１バ
イトづつデータを切り出し１バイトデータ，２バイトデ
ータ全角漢字前半，２バイトデータ全角漢字後半，半角
漢字，漢字インコードあるいは漢字アウトコードなどの
漢字コードの属性と前記切り出した文字の構成バイト数
から成る文字属性テーブルをメモリ上に作成する文字属
性テーブル作成部と、前記第３の指示を受けて前記抽出
開始文字位置と前記抽出文字数をもとに前記文字属性テ
ーブルを参照して前記抽出開始バイト数および前記抽出
バイト数を出力する文字数・バイト数変換処理部とから
成ることを特徴とする漢字文字列抽出方式。