JPS63257029A - テキストの高速文字列検索方式 - Google Patents

テキストの高速文字列検索方式

Info

Publication number
JPS63257029A
JPS63257029A JP62091710A JP9171087A JPS63257029A JP S63257029 A JPS63257029 A JP S63257029A JP 62091710 A JP62091710 A JP 62091710A JP 9171087 A JP9171087 A JP 9171087A JP S63257029 A JPS63257029 A JP S63257029A
Authority
JP
Japan
Prior art keywords
text
search
character string
string
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62091710A
Other languages
English (en)
Inventor
Hisamitsu Kitakata
北片 久満
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP62091710A priority Critical patent/JPS63257029A/ja
Publication of JPS63257029A publication Critical patent/JPS63257029A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、テキストの文字列の検索に関する。
(従来の技術) 従来、テキスト中に指定された文字列が存在するか否か
の検索においては、テキストの先頭から最後までに現れ
る文字列を検索文字列と1文字ずつ、全テキスト行に対
して比較することによって行っていた。
(発明が解決しようとする問題点) 上述した従来のテキストの文字列検索方式においては、
テキストの先頭から順次現れる文字列を検索文字列と1
文字ずつ比較していたため、検索文字列やテキストの長
さが長くなれば、それだけ文字を比較する時間が長くか
かつてしまうという欠点がある。
また、従来はテキストの比較位置から最後までの長さが
検索文字列よシ短いときでも比較を行っていたため、比
較する時間に無駄があるという欠点がある。
さらに、従来はすべてのテキストに対して文字の比較を
行っているが2例えば英数字だけから成る文字列を検索
するときには9日本語だけから成るテキストは文字列の
比較を行う必要がないので。
テキストと検索文字列とが英数字だけから成っているか
、あるいは日本語だけから成っているかといったことが
判っていないことにより、検索時間に無駄が生ずるとい
う欠点がある。
本発明の目的は、利用者テキストファイルより入力され
たテキストを検索しやすい形式に変換するとともに、デ
ィスプレイ端末より入力されたコマンドから得られた検
索文字列を検索しやすい形式に変換しておき、上記変換
されたテキストを上記変換された検索文字列で検索する
ことによって上記欠点を除去し2時間的に無駄が生ずる
ことのないように構成したテキストの高速文字列検索方
式を提供することにある。
(問題点を解決するための手段) 本発明によるテキストの高速文字列検索方式は入力テキ
スト変換手段と、検索文字列変換手段と。
文字列検索手段とを具備して構成したものである。
入力テキスト変換手段は、利用者テキストファイルより
入力されたテキストを検索しやすい形式に変換するため
のものである。
検索文字列変換手段は、ディスプレイ端末より入力され
たコマンドにより得られた検索文字列を検索しやすい形
式に変換するためのものである。
文字列検索手段は、入力テキスト変換手段により変換さ
れたテキストを検索文字列変換手段により変換された検
索文字列で検索するためのものである。
(実施例) 次に2本発明を図面を参照して詳細に説明する。
第1図を参照すると1本発明の一実施例はエディタ制御
手段1と、入力テキスト変換手段2と。
テキスト保存手段3と、利用者テキストファイル4と2
作業用ファイル5と、コマンド入力手段6と、検索文字
列変換手段7と2文字列検索手段8と、テキスト編集手
段9と、ディスプレイ端末10とから構成されている。
第1図において、コマンド入力手段6により利用者がデ
ィスプレイ端末10から入力されたコマンドの検索文字
列に従って、テキストを文字列検索手段8により検索す
る。読いて、該当するテキストをテキスト編集手段9に
より編集するために。
編集テキストを利用者テキストファイル4から入力する
。そこで、入力テキスト変換手段2がエディタ制御手段
1から起動される。
第2図を参照すると、入力テキスト変換手段2はシステ
ムの入出力処理ステップ2−1を用いて利用者テキスト
ファイル4からテキストを入力し。
ステップ2−3によってテキストを文字列検索しやすい
形式に変換し、テキスト保存手段3を用いて作業用ファ
イル5へ格納する。ここで2文字列の検索しやすい形式
とは、第3図に示すように英数字と日本語とを分けてか
た寸りにし、それぞれの長さと英数字のかた!シか日本
語のかたまりかの種別を、そのひとかたまシの先頭に付
加する。
入力テキストの先頭から、上記のかたtpを作ってつな
げていく。そこで、かたま如の連なりの先頭には2分け
た文字のすべての長さを加えたものを付加しておく。
ここで、テキストのすべての長さは分けたテキストの長
さ01分けたテキストの長さ■、・・・・・・のすべて
の和として定義される。ここで2例えば分けたテキスト
の長さ■は種別により分けたテキスト■の長さに等しい
が2日本語か英数字かの種別■は日本語か英数字かの種
別■とは等しくない。
さらに、テキストのすべての長さが分けたテキストの長
さ■に等しい場合には、このテキストは日本語だけ、あ
るいは英数字だけから成るテキストであることがわかる
このような形式にすれば、全体の文字の長さやテキスト
の文字の種類などがわかシやすくなシ。
文字列を検索しやすくする。作業用ファイル5の内部の
テキストをディスプレイ端末10よシ利用者が入力した
コマンドで編集するため、コマンド入力手段6がエディ
タ制御手段1から起動される。
第4図を参照すると、利用者がディスプレイ端末10へ
入力したコマンドをシステムの入出力処理ステップ6−
1を用いて入力し、ステップ6−2コマンドより検索文
字列を得る。そこで、検索文字列変換手段7を用いて検
索文字列を検索しやすい形に変換する。検索しやすい形
式とは、前述の入力テキストの変換と同様で、第5図に
示すように、英数字と日本語を分けてかたまりとし、か
たまシの前には文字の長さと英数字が日本語かの種別を
つけておく。それらを順につなげて、先頭に文字の長さ
の和をつけておく。
第5図において2文字列のすべての長さは分けた文字列
の長さ01分けた文字列の長さ■、・・曲の和で与えら
れる。分けた文字列の長さ■は種別により分けた文字列
■の長さに等しいが1日本語か英数字かの種別■は日本
語が英数字かの種別■に等しくない。また9文字列のす
べての長さが分けた文字列の長さ■に等しい場合には、
この文字列は日本語だけ、もしくは英数字だけがら成る
文字列であることがわかる。
第4図に戻シ1作業用ファイル5がら19の文字列検索
をしやすい形式に変換しであるテキストをシステムの入
出力処理ステップ6−3を用いて入力し2文字列が存在
するか否かを文字列検索手段8を用いて検索する。ステ
ップ6−5により文字列が存在したならばテキスト編集
手段9を用いてテキストを編集し、ステップ6−6では
システムの入出力処理を用いて編集されたテキストを作
業用ファイル5へ出力スル。
ここで1文字列検索手段8がどのようにして文字列を検
索していくかを詳しく説明する。
まず、第6図に示すように検索を簡単にするため、ステ
ップ8−1で検索文字列が一つのかたまシしがないか、
秦るいは複数のかたまシでできているかで分けて、それ
ぞれで検索処理を行う。
検索文字列が一つのかたまシしかなく、英数字または日
本語の一種類のときの検索ステップ8−2について説明
する。
第7図に示すように、テキストのかたまシを一つずつ、
まずステップ8−2−3とステップ8−2−4とで種別
と長さとに従って振分けてゆき。
種別が同じであって、かつ、テキストのかたまシの方が
検索文字列のかたまりよシ長さが長いかまたは等しいと
いう条件に合ったテキストのかたまシを得る。続いて、
ステップ8−2−5により上記かたまシの文字を検索文
字と比べてゆき、検索を実行してゆく。
次に、検索文字列が複数のかたまシでできている。つま
シ1日本語と英数字との混在文字列の検索ステップ8−
3について説明する。
第8図に示すように、ステップ8−3−1でテキストが
ひとかたま9しかなく、一種類しかないときには、検索
は行わなくても、ステップ8−3−12により始めから
文字列は存在しないことがわかる。そこで、ステップ8
−3−4で先頭のかたまりを分け、ステップ8−3−6
で2番目以降最後の一つ前までのかたまりを分け、ステ
ップ8−3−8で最後のかたまシを分けて、それぞれテ
キストと同じ文字があるか否かを検索する。
検索文字列の先頭のひとかたまりを検索するのは、第9
図に示すようにテキストのかたまりを一つずつ、まず、
ステップ8−3−4−3とステップ8−3−4−4とに
よって種別と長さとに従って振分けてゆく。そこで2種
別が同じであって。
かつ、テキストのかたまυの方が検索文字列のかたまシ
よシ長さが長いか、または等しいという条件に合ったテ
キストのかたまりを得る。ステップ8−3−4−5にお
いて、検索文字列とテキストのかたまシとが、テキスト
のかた1シの右端に合わせて同じであったならば、第6
図のステップ8−3−6で、2番目以降のかたまシにつ
いても同じであるか否かを検索する。
検案文字列の2番目以降、最後の一つ前までのかたまシ
を検索するのは、第10図に示すようにステップ8−3
−6−5およびステップ8−3−6−6でテキストのか
だt、bと検索文字列のかたまりとについて1種別と長
さとが同じであるが否かをみる。同じではない場合には
ステップ8−3−6−11へ進むので9文字列を比較す
る必要はない。種別と、長さとがともに同じであるなら
ば。
ステップ8−3−6−7でテキストのかだ−Hの文字と
、検索文字列のかたまシの文字とが同じであるか否かを
比較する。同じであったならσ、第6図のステップ8=
3−13で、上記文字が検索文字列の最後のかたt、b
と同じであるか否かを検索する。
上記文字が検索文字列の最後のかた一ipと同じである
か否かを検索するには、第9図に示すように、!ず、ス
テップ8−3−8−1およびステップ8−3−8−2で
種別が同じであって、がっ。
テキストのかた一!シの方が検索文字列のがたまシよシ
長さが長いか、または等しいがをみる。この条件にあっ
ていれば、ステップ8−3−8−3で検索文字列のかた
まりとテキストのがたま)とに関して、テキストのかた
まシの左端に合わせて同じであるか否か比べる。これで
、同じ文字であった場合、検索文字列はステップ8−3
−8−5によりこのテキストに存在していたことになる
このようにして、あらかじめテキストと検索文字列とを
、英数字と日本語とに分けてもっているため2文字を比
較する前に長さと種別とを比較することによって比較に
要する時間が短縮できる。
(発明の効果) 以上説明したように本発明は2w6集テキストと検索文
字列とを検索しゃすい形式に変換すること ′により、
テキストを指定された文字列で検索する際に効率よく検
索を行うことができ2文字列検索処理の処理時間を短縮
させることができるという効果がある。
【図面の簡単な説明】
第1図は2本発明によるテキストの高速文字列検索方式
を実現する一実施例を示す構成図である。 第2図は、第1図の入力テキスト変換手段の動作を示す
流れ図である。 第3図は、第2図で検索しやすい形式に変換した入力テ
キストの構造を示す説明図である。 第4図は、第1図のコマンド入力手段の動作を示す流れ
図である。 第5図は、第4図で検索しやすい形式に変換した検索文
字列の構造を示す説明図である。 第6図は、第1図の文字列検索手段の動作を示す流れ図
である。 第7図は、第6図の検索文字列が一種類の場合の検索を
示す流れ図である。 第8図は、第6図の検索文字列が日本語と英数字との混
在した場合の検索を示す流れ図である。 第9図は、第8図の検索文字列の最初の−かたまりを検
索するもようを示す流れ図である。 第10図は、第8図の検索文字列の2番目以降のかたま
シを検索するもようを示す流れ図である。 第11図は、第8図の検索文字列の最後のかたまυを検
索するもようを示す流れ図である。 1・・・エディタ制御手段 2・・・入力テキスト変換手段 3・・・テキスト保存手段 4・・・利用者テキストファイル 5・・・作業用ファイル 6・・・コマンド入力手段 7・・・検索文字列変換手段 8・・・文字列検索手段 9・・・テキスト編集手段 10・・・ディスプレイ端末 2−1〜2−3.6−1〜6−6.8−1〜8−3.8
−2−1〜8−2−8. 8−3−1〜8−3−15.
 8−3−4−1〜8−3−4−8.8−3−6−1〜
8−3−6−12. 8−3−8−1〜8−3−8−6

Claims (1)

    【特許請求の範囲】
  1. 利用者テキストファイルより入力されたテキストを検索
    しやすい形式に変換するための入力テキスト変換手段と
    、ディスプレイ端末より入力されたコマンドにより得ら
    れた検索文字列を検索しやすい形式に変換するための検
    索文字列変換手段と、前記入力テキスト変換手段により
    変換されたテキストを前記検索文字列変換手段により変
    換された検索文字列で検索するための文字列検索手段と
    を具備して構成したことを特徴とするテキストの高速文
    字列検索方式。
JP62091710A 1987-04-14 1987-04-14 テキストの高速文字列検索方式 Pending JPS63257029A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62091710A JPS63257029A (ja) 1987-04-14 1987-04-14 テキストの高速文字列検索方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62091710A JPS63257029A (ja) 1987-04-14 1987-04-14 テキストの高速文字列検索方式

Publications (1)

Publication Number Publication Date
JPS63257029A true JPS63257029A (ja) 1988-10-24

Family

ID=14034068

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62091710A Pending JPS63257029A (ja) 1987-04-14 1987-04-14 テキストの高速文字列検索方式

Country Status (1)

Country Link
JP (1) JPS63257029A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02219176A (ja) * 1989-02-21 1990-08-31 Nec Corp 文字列検索方式

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02219176A (ja) * 1989-02-21 1990-08-31 Nec Corp 文字列検索方式

Similar Documents

Publication Publication Date Title
US7103536B1 (en) Symbol dictionary compiling method and symbol dictionary retrieving method
CN103440232A (zh) 一种科技论文标准化自动检测编辑方法
CN103440233A (zh) 一种科技论文标准化自动检测编辑***
JPH067385B2 (ja) キ−ワ−ド自動抽出方式
JPH06162092A (ja) 情報検索装置
JPS63257029A (ja) テキストの高速文字列検索方式
JP3253657B2 (ja) 文書検索方法
JPH0561758A (ja) 情報リンク装置
JPH1153400A (ja) 構造化文書検索装置及びプログラムを記録した機械読み取り可能な記録媒体
JPH05158984A (ja) 文字列抽出装置
JPH01286020A (ja) プログラム検索方式
JPH0452967A (ja) 集合ファイルに対する論理積演算処理方式
JPH0756937A (ja) 単語抽出システム
JPH0540638A (ja) 語彙解析編集方式
CN117290377A (zh) 一种关系型数据库间sql语句的转换方法以及装置
JPH1097542A (ja) 全文検索装置及び全文検索方法
JPS6325765A (ja) 文書編集装置
JPH08314958A (ja) 議会議事録検索システムにおけるデータ登録方法
JP2001060197A (ja) リレーショナルデータベースにおける検索方法及びそのプログラムを記録した記録媒体
JPH03102565A (ja) 文書作成装置
JPS6259810B2 (ja)
JPS63226765A (ja) 文書処理装置
JP2001109768A (ja) データベースの索引創成装置
JPH02109162A (ja) ライブラリフアイル索引方式
JPS63282821A (ja) コ−ド文字列変換装置