JPH06119391A - 漢字文字列抽出方式 - Google Patents

漢字文字列抽出方式

Info

Publication number
JPH06119391A
JPH06119391A JP4271533A JP27153392A JPH06119391A JP H06119391 A JPH06119391 A JP H06119391A JP 4271533 A JP4271533 A JP 4271533A JP 27153392 A JP27153392 A JP 27153392A JP H06119391 A JPH06119391 A JP H06119391A
Authority
JP
Japan
Prior art keywords
character
kanji
character string
data
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP4271533A
Other languages
English (en)
Inventor
Kazuhiro Noguchi
和宏 野口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Solution Innovators Ltd
Original Assignee
NEC Solution Innovators Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Solution Innovators Ltd filed Critical NEC Solution Innovators Ltd
Priority to JP4271533A priority Critical patent/JPH06119391A/ja
Publication of JPH06119391A publication Critical patent/JPH06119391A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】漢字データ管理システムにおける文字数からバ
イト数への変換を高速化する。 【構成】抽出処理管理部1−1は、対象となる文字列を
示すポインタと文字列中の抽出開始文字位置および抽出
文字数を上位装置より受けとり、開始バイト位置,抽出
バイト数を用いて漢字文字列データから漢字文字列の抽
出を行う。漢字データ管理部1−2は、ポインタの示す
漢字文字列データを取り込む。文字属性テーブル作成部
1−5は、漢字文字列データを左方向より走査し1バイ
トづつデータを切り出し1バイトデータ,2バイトデー
タ全角漢字前半,2バイトデータ全角漢字後半,半角漢
字などの漢字コードの属性と切り出した文字の構成バイ
ト数から成る文字属性テーブルをメモリ上に作成する。
文字数・バイト数変換処理部1−6は、抽出開始文字位
置と前記抽出文字数をもとに文字属性テーブルを参照し
て抽出開始バイト数および抽出バイト数を出力する

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は漢字文字列抽出方式に関
し、特に漢字データ管理システムにおける文字数からバ
イト数への変換方式に関する。
【0002】
【従来の技術】従来、漢字データ管理システムにおい
て、漢字文字列における特定の文字列を抽出する場合、
文字数をバイト数に変換し、文字列の先頭より文字コー
ドを比較し数え上げるのが一般的な方法である。
【0003】
【発明が解決しようとする課題】上述した従来の漢字文
字列抽出方式は、文字列内から複数回データを抽出する
場合、毎回データの数え上を行わなければならないた
め、バイト位置を求めるための処理時間がかかるという
欠点があった。
【0004】本発明の目的は、1度目の数え上げ処理以
外の以降の処理は、文字列の属性管理テーブルを使用す
ることで、処理時間の短縮を計ることにある。
【0005】
【課題を解決するための手段】第1の発明は、漢字文字
列における特定の文字列を抽出する漢字データ管理シス
テムにおける漢字文字列抽出方式において、対象となる
文字列を示すポインタと前記文字列中の抽出開始文字位
置および抽出文字数を上位装置より受けとり第1の指
示、第2の指示、第3の指示を出力し開始バイト位置,
抽出バイト数を用いて漢字文字列データから漢字文字列
の抽出を行う抽出処理管理部と、前記第1の指示により
前記ポインタの示す前記漢字文字列データを取り込む漢
字データ管理部と、前記第2の指示を受けて前記漢字文
字列データを左方向より走査し1バイトづつデータを切
り出し1バイトデータ,2バイトデータ全角漢字前半,
2バイトデータ全角漢字後半,半角漢字,漢字インコー
ドあるいは漢字アウトコードなどの漢字コードの属性と
前記切り出した文字の構成バイト数から成る文字属性テ
ーブルをメモリ上に作成する文字属性テーブル作成部
と、前記第3の指示を受けて前記抽出開始文字位置と前
記抽出文字数をもとに前記文字属性テーブルを参照して
前記抽出開始バイト数および前記抽出バイト数を出力す
る文字数・バイト数変換処理部とから成ることを特徴と
する。
【0006】
【実施例】次に、本発明の実施例について図面を参照し
て説明する。
【0007】図1は本発明の一実施例を示すブロック図
である。
【0008】1.文字列の抽出処理が開始されると、抽
出処理管理部1−1には、対象となる文字列を示すポイ
ンタと文字列中の抽出開始文字位置、抽出文字数が上位
装置より(図示せず)渡される。抽出処理管理部1−1
は、漢字データ管理部1−2を介して指定されたポイン
タの示す漢字文字列データを取り込み、文字属性テーブ
ルの作成を文字属性管理部1−3を介して文字属性テー
ブル作成部1−5に指示する。
【0009】2.文字属性テーブル作成部1−5は、図
2に示すように漢字文字列2−1を左方向より走査し、
1バイトづつデータを切り出し漢字コード判定部1−4
を介して文字属性テーブル2−2をメモリ上に作成す
る。
【0010】3.漢字コード判定部1−4は、与えられ
た漢字コード(1バイト系のANKコードも含む)の属
性を返却する。返却されるデータとしては、漢字の属
性(1バイトデータ、2バイトデータ全角漢字前半、2
バイトデータ全角漢字後半、半角漢字、漢字インコー
ド、漢字アウトコード)、文字構成バイト数(1バイ
ト系、2バイトデータ全角漢字前半と後半については各
バイト数1、半角漢字、漢字シフトコードについてはバ
イト数2)を返却する。
【0011】4.文字属性テーブル2−2の構成は図3
の様になっており、文字属性エリア3−1と文字長エリ
ア3−2から構成されている。文字属性テーブルの1バ
イトは文字1文字に相当し、テーブル長は漢字文字列長
と同じ長さとなる。文字属性エリア3−1には漢字コー
ド判定部1−3より返却された漢字属性、また文字長エ
リア3−2には漢字コード判定部1−3より返却された
文字構成バイト数が格納される。この場合、漢字インコ
ードが通知された場合は、次につづく文字の漢字属性に
漢字インデータの開始を示すビットを立て、文字構成バ
イト数に漢字シフトコードのバイト数を加算する。漢字
アウトコードが通知された場合は、直前の文字の漢字属
性に漢字アウトデータの開始を示すビットを立て、文字
構成バイト数に漢字シフトコードのバイト数を加算す
る。
【0012】5.抽出処理管理部1−1は、文字属性テ
ーブル2−2が作成されたのち、文字数・バイト数変換
処理部1−6を呼び出し、実際の抽出対象文字列の開始
バイト位置、抽出バイト数を獲得する。
【0013】6.文字数・バイト数変換処理部1−6
は、抽出処理管理部1−1より渡された抽出対象文字開
始位置(開始も文字数)、抽出文字数をもとに文字属性
テーブル2−2を利用して、文字属性テーブル2−2に
文字長エリア3−2を抽出開始文字数分(文字数は文字
属性テーブル2−2のテーブルバイト数に相当する)を
足し込み抽出開始バイト数として返却する。同様に抽出
文字数分、抽出開始位置以降の文字長エリア3−2を足
し込むことにより抽出バイト数を返却する。
【0014】7.文字数・バイト数変換処理部1−6
は、6.の抽出開始バイト数を求める際に、抽出開始文
字位置の文字が全角の後半部になっていないかチェック
する。チェックは文字属性テーブル2−2の文字属性エ
リア3−1の内容が全角漢字後半になっていないかで判
断する。抽出開始文字位置が全角漢字後半であった場
合、抽出開始文字位置を1文字前(全角漢字前半)にな
るように補正を行う。
【0015】8.文字数・バイト数変換処理部1−6
は、抽出開始文字位置の文字が2バイト系文字の場合、
開始文字の属性に漢字インシフトコードのビットが設定
されていない場合、漢字インシフトコードの設定が必要
であるむねのステータスを返却する。また、6.の処理
の中で、2バイト系文字が検出されてから、最終抽出文
字の間に漢字アウトシフトコードを検出しなかった場
合、漢字アウトシフトコードの設定が必要であるむねの
ステータスを返却する。抽出文字の最終文字の属性に漢
字アウトシフトコードのビットが立っていた場合は、抽
出文字のバイト数を2バイト増加させる。
【0016】9.抽出処理管理部1−1は、実際の抽出
対象文字列の開始バイト位置、抽出バイト数を使って、
漢字データ管理部1−2より漢字文字列の抽出を行う。
この時、8.によってステータスが設定されている場合
は、ステータスによって漢字シフトコードの追加を行
う。
【0017】以上の処理によって、文字数、バイト数を
変換を行う。複数回の抽出を行う場合は、5.の処理以
降を行うのみで変換が可能となり、処理の高速化が可能
となる。
【0018】
【発明の効果】以上説明したように、本発明は、漢字コ
ードの比較数え上げ処理を、文字属性テーブルを利用す
るようにしたことにより、複数回の文字数、バイト数の
変換処理を高速化できるという効果がある。
【図面の簡単な説明】
【図1】本発明の一実施例を示すブロック図である。
【図2】本実施例における漢字文字列と文字属性テーブ
ルとの関係を示す図である。
【図3】本実施例における文字属性テーブルの構成例を
示す図である。
【符号の説明】
1−1 抽出処理管理部 1−2 漢字データ管理部 1−3 文字属性管理部 1−4 漢字コード判定部 1−5 文字属性テーブル作成部 1−6 文字数・バイト数変換処理部 2−1 漢字文字列 2−2 文字属性テーブル 3−1 文字属性エリア 3−2 文字長エリア

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】漢字文字列における特定の文字列を抽出す
    る漢字データ管理システムにおける漢字文字列抽出方式
    において、対象となる文字列を示すポインタと前記文字
    列中の抽出開始文字位置および抽出文字数を上位装置よ
    り受けとり第1の指示、第2の指示、第3の指示を出力
    し開始バイト位置,抽出バイト数を用いて漢字文字列デ
    ータから漢字文字列の抽出を行う抽出処理管理部と、前
    記第1の指示により前記ポインタの示す前記漢字文字列
    データを取り込む漢字データ管理部と、前記第2の指示
    を受けて前記漢字文字列データを左方向より走査し1バ
    イトづつデータを切り出し1バイトデータ,2バイトデ
    ータ全角漢字前半,2バイトデータ全角漢字後半,半角
    漢字,漢字インコードあるいは漢字アウトコードなどの
    漢字コードの属性と前記切り出した文字の構成バイト数
    から成る文字属性テーブルをメモリ上に作成する文字属
    性テーブル作成部と、前記第3の指示を受けて前記抽出
    開始文字位置と前記抽出文字数をもとに前記文字属性テ
    ーブルを参照して前記抽出開始バイト数および前記抽出
    バイト数を出力する文字数・バイト数変換処理部とから
    成ることを特徴とする漢字文字列抽出方式。
JP4271533A 1992-10-09 1992-10-09 漢字文字列抽出方式 Withdrawn JPH06119391A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4271533A JPH06119391A (ja) 1992-10-09 1992-10-09 漢字文字列抽出方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4271533A JPH06119391A (ja) 1992-10-09 1992-10-09 漢字文字列抽出方式

Publications (1)

Publication Number Publication Date
JPH06119391A true JPH06119391A (ja) 1994-04-28

Family

ID=17501394

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4271533A Withdrawn JPH06119391A (ja) 1992-10-09 1992-10-09 漢字文字列抽出方式

Country Status (1)

Country Link
JP (1) JPH06119391A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100351584B1 (ko) * 2000-07-05 2002-09-05 주식회사 팔만시스템 한자의 일자대조에 의한 교정 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100351584B1 (ko) * 2000-07-05 2002-09-05 주식회사 팔만시스템 한자의 일자대조에 의한 교정 시스템

Similar Documents

Publication Publication Date Title
US7984076B2 (en) Document processing apparatus, document processing method, document processing program and recording medium
JP3333549B2 (ja) 文書検索方式
US9734140B2 (en) Method, apparatus and computer program for model-driven message parsing
JPH06119391A (ja) 漢字文字列抽出方式
JP4584359B2 (ja) ユニコード・コンバータ
JPH0969785A (ja) データ圧縮方法及びデータ圧縮装置
JP2967275B2 (ja) 仮名漢字変換装置
JPS6383833A (ja) 文字列検索方法
JP2833871B2 (ja) 外国人名データ判定方式
JPH09114854A (ja) 文書検索システム
JPS61251984A (ja) マルチフオント活字文字認識装置
JPH043243A (ja) かな漢字変換装置
JP2503259B2 (ja) 全角,半角文字の決定方法
JPH0440554A (ja) 文字データ処理装置
JPH04205551A (ja) 記事変換方式
JPH07141347A (ja) 日本語文字列区分け方法
JPH05210629A (ja) 表示制御システム
JPH11149476A (ja) 類似データ抽出システム及びその方法
JPH07225763A (ja) 文書処理装置
JPH0752451B2 (ja) 情報検索装置
JPH07152858A (ja) 共通データ・タイプを有する複数の文書書式イメージの文字認識を管理するための方法およびシステム
JPH0796639A (ja) プリンタ装置
JPS62176354A (ja) フアクシミリ送信方式
JPH035818A (ja) コード変換方法
JPH01277961A (ja) 文字変換方式

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20000104