JP3567711B2 - 文字列照合装置 - Google Patents

文字列照合装置 Download PDF

Info

Publication number
JP3567711B2
JP3567711B2 JP00453598A JP453598A JP3567711B2 JP 3567711 B2 JP3567711 B2 JP 3567711B2 JP 00453598 A JP00453598 A JP 00453598A JP 453598 A JP453598 A JP 453598A JP 3567711 B2 JP3567711 B2 JP 3567711B2
Authority
JP
Japan
Prior art keywords
character
chain
special
string
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP00453598A
Other languages
English (en)
Other versions
JPH1185802A (ja
Inventor
修 片山
隆正 小山
忠一 菊池
智子 藤田
安代 白崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP00453598A priority Critical patent/JP3567711B2/ja
Priority to SG9806377A priority patent/SG98366A1/en
Priority to EP98112850A priority patent/EP0890912A3/en
Priority to KR1019980028059A priority patent/KR100300741B1/ko
Priority to US09/114,284 priority patent/US6260051B1/en
Publication of JPH1185802A publication Critical patent/JPH1185802A/ja
Application granted granted Critical
Publication of JP3567711B2 publication Critical patent/JP3567711B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、情報検索処理分野における文書中に記述された文字列を検索する全文検索に利用されるもので、登録した文書中に含まれる全ての文字列と入力する文字列を照合するための全文検索データを記録したコンピュータ読み取り可能な記録媒体、および文字列照合装置に関するものである。
【0002】
【従来の技術】
図36は従来の文字列照合装置の構成図、図37は従来の文字照合の方法、および全文検索データの形式を示している。図37(a)において、801は登録時に入力される文字列「いろaはに」、802は最初に登録されるの2文字連鎖「いろ」、803は802の次の2文字連鎖「ろa」、804は803の次の2文字連鎖「aは」、805は804の次の2文字連鎖「はに」である。ここで、「a」は、文字列に意味の区切りなどのために挿入されている特殊文字を意味しており、例えばハングル語で頻繁に出現するスペースなどがある。
【0003】
図37(c)において、811は検索時の検索文字列「いろaはに」、812は最初に検索される2文字連鎖「いろ」、813は812の次の2文字連鎖「ろa」、814は813の次の2文字連鎖「aは」、815は814の次の2文字連鎖「はに」である。
【0004】
図37(b)において、2文字連鎖802は「い」および「ろ」の出現回数n1、n2を、2文字連鎖803は「ろ」および「a」の出現回数n2、n3を、2文字連鎖804は「a」および「は」の出現回数n3、n4を、2文字連鎖805は「は」および「に」の出現回数n4、n5を記憶する。
【0005】
また、図37(d)は入力された文字列に「いろ」の連鎖が複数存在する場合の記録形式を示す。即ち、「いろ」の連鎖はn1回目に出現した「い」とn2回目に出現した「ろ」、na回目に出現した「い」とnb回目に出現した「ろ」、・・・、nx回目に出現した「い」とny回目に出現した「ろ」からなることを示している。
【0006】
このとき従来の照合方法では、2文字連鎖812の「いろ」に該当する2文字連鎖802を検出し、このときの「ろ」の出現回数n2と、812の次の2文字連鎖813の「ろa」に該当する2文字連鎖803を検出し、このときの「ろ」の出現回数n2が一致するか否か判断する。
【0007】
一致したら、次に803で検出した「a」の出現回数n3と、813の次の2文字連鎖の「aは」に該当する2文字連鎖804を検出し、このときの「a」の出現回数が一致するか否か判断する。
【0008】
一致したら、次に804で検出した「は」の出現回数n4と、814の次の2文字連鎖の「はに」に該当する2文字連鎖805を検出し、このときの「は」の出現回数が一致するか否か判断する。一致したら、文字列811は801に一致したと判断する。以上により、文字列の照合がなされる。
【0009】
図36は図37に示す検索データを用いた従来の文字列照合装置の構成を示したものである。
【0010】
図36において、701は登録する文字列801から登録する2文字連鎖802、803、804、805を検出する2文字連鎖検出器、702は2文字連鎖802、803、804、805およびそれらの文字の出現回数を格納する2文字連鎖メモリ、703は検索する文字列811から検索する2文字連鎖812、813、814、815を検出する2文字連鎖検出器、704は2文字連鎖検出器703より検出された2文字連鎖812、813、814、815を2文字連鎖メモリ702で検出し、検出した2文字連鎖の前の文字の出現回数が直前に検出した2文字連鎖の後の文字の出現回数に一致するか否か判断する比較器、705は2文字連鎖検出器703から検出される全ての2文字連鎖についての比較器704で判断し、文字列の一致を判断する制御部である。
【0011】
【発明が解決しようとする課題】
しかし、以上のような構成では、登録時に入力する文字列に意味の区切りなどのために特殊文字(ハングル語におけるスペース等)が挿入されている場合、例えばそれが入力文字列の3文字に1文字の割合で挿入されていた場合、その文字の出現回数が膨大になりその文字の連鎖メモリのみが異常に膨大し、連鎖メモリを圧迫するという問題点があった。
また、同一の文字連鎖に関し、出現回数の一致により連鎖を抽出する処理が多数繰り返すことになり、時間がかかるという問題があった。
【0012】
本発明は従来技術の以上のような問題を解決するもので、意味区切り等で使用される特定の特殊文字を間に挟む3文字連鎖として連鎖を作成するか、またはその特殊文字に連接する文字により一意に決定される文字に変更するか、またはその特殊文字の前の文字はその前の文字とその前の文字により一意に決定される文字の2文字に、またその特殊文字の後の文字はその後の文字により一意に決定される文字とその後の文字の2文字に変更することにより、特殊文字の出現回数を減らし特殊文字の連鎖メモリの増大を避けるもので、同時に出現回数の一致による連鎖の抽出処理を効率的行うことを目的とするものである。
【0013】
【課題を解決するための手段】
本発明の文字列照合装置は、第1に上記課題を解決するため、検索対象文字列の予め指定された特殊文字を隣接する文字に従い検索の対象とならない文字に変換し、当該変換された文字列に対し、前記検索の対象とならない文字も含め全ての2文字連鎖を検出し、2文字連鎖毎に、2文字連鎖を構成する第1文字と第2文字の検索対象文字列における出現回数を組として記録した検索データを格納する格納部と、検索文字列の予め指定された特殊文字を前記検索データに対し適用された同一の変換規則に従い、前記検索文字列を隣接する文字に基づき検索の対象とならない文字に変換する文字列変換手段と、前記文字列変換手段により変換された文字列に対し、検索の対象とならない文字も含め全ての2文字連鎖を検出する2文字連鎖検出手段と、前記2文字連鎖検出手段により検出された2文字連鎖を、前記検索データから検出し、対応する出現回数の比較により、検索文字列としての文字連鎖の連続の有無を判定する比較手段とを備えたことを特徴とする。
【0014】
本発明の文字列照合装置は、第2に上記課題を解決するため、検索対象文字列の予め指定された特殊文字を隣接する文字に従い検索の対象とならない2文字に変換し、当該変換された文字列に対し、前記検索の対象とならない文字も含め全ての2文字連鎖を検出し、2文字連鎖毎に、2文字連鎖を構成する第1文字と第2文字の検索対象文字列における出現回数を組として記録した検索データを格納する格納部と、検索文字列の予め指定された特殊文字を前記検索データに対し適用された同一の変換規則に従い、前記検索文字列を隣接する文字に基づき検索の対象とならない2文字に変換する文字列変換手段と、前記文字列変換手段により変換された文字列に対し、検索の対象とならない2文字も含め全ての2文字連鎖を検出する2文字連鎖検出手段と、前記2文字連鎖検出手段により検出された2文字連鎖を、前記検索データから検出し、対応する出現回数の比較により、検索文字列としての文字連鎖の連続の有無を判定する比較手段とを備えたことを特徴とする。
【0015】
本発明の文字列照合装置は、第3に上記課題を解決するため、検索対象文字列に対し、全ての文字に対し2文字連鎖を検出し、2文字連鎖毎に2文字連鎖を構成する、予め指定された特殊文字以外の文字連鎖を構成する第1文字と第2文字について、予め指定された特殊文字以外の文字はその出現回数を、予め指定された特殊文字の場合は一定の数値を組として記録した第3のデータと、検索対象文字列に対し、予め指定された特殊文字が間に挿入された3文字からなる全ての3文字連鎖を検出し、3文字連鎖毎に、3文字連鎖を構成する第1文字と第3文字の検索対象文字列における出現回数を組として記録した第4のデータと、前記第3のデータと前記第4のデータとを区別して記録した検索データを格納する格納部と、検索文字列から、予め指定された特殊文字以外の文字からなる全ての2文字連鎖を検出する第1の文字連鎖検出手段と、前記検索文字列から、予め指定された特殊文字が挿入された3文字からなる全ての文字連鎖を検出する第3の文字連鎖検出手段と、前記第1の文字連鎖検出手段により検出された2文字連鎖を、前記第3のデータから検索し、前記第3の文字連鎖検出手段により検出された3文字連鎖を前記第4のデータから検索し、検出された文字連鎖に対応する出現回数の比較により、検索文字列としての文字連鎖の連続の有無を判定する比較手段とを備えたことを特徴とする。
【0016】
本発明の文字列照合装置は、第4に上記課題を解決するため、検索対象文字列に対し、予め指定された特殊文字以外の文字からなる全ての2文字連鎖を検出し、2文字連鎖毎に2文字連鎖を構成する第1文字と第2文字の検索対象文字列における出現回数を組として記録した第5のデータと、検索対象文字列に対し、予め指定された特殊文字が間に挿入された3文字からなる全ての3文字連鎖を検出し、3文字連鎖毎に、3文字連鎖を構成する第1文字の出現回数と値0の組と、値0と第3文字の出現回数を組との2つの組からなる組として記録した第6のデータと、前記第5のデータと前記第6のデータとを区別して記録した検索データを格納する格納部と、検索文字列から、予め指定された特殊文字以外の文字からなる全ての2文字連鎖を検出する第1の文字連鎖検出手段と、前記検索文字列から、予め指定された特殊文字が挿入された3文字からなる全ての文字連鎖を検出する第3の文字連鎖検出手段と、前記第1の文字連鎖検出手段により検出された2文字連鎖を、前記第5のデータから検索し、前記第3の文字連鎖検出手段により検出された3文字連鎖を前記第6のデータから検索し、検出された文字連鎖に対応する出現回数の比較により、検索文字列としての文字連鎖の連続の有無を判定する比較手段とを備えたことを特徴とする。
【0017】
本発明の文字列照合装置は、第5に上記課題を解決するため、検索対象文字列に対し、予め指定された特殊文字以外の文字からなる全ての2文字連鎖を検出し、2文字連鎖毎に2文字連鎖を構成する第1文字と第2文字の検索対象文字列における出現回数を組として記録した第7のデータと、検索対象文字列に対し、予め指定された特殊文字が間に挿入された3文字からなる全ての3文字連鎖を検出し、3文字連鎖毎に、3文字連鎖を構成する第2文字の特殊文字を第3文字と同じ文字に変換し第2文字の出現回数を第3文字の出現回数と同じ値としてから第1文字と第2文字、第2文字と第3文字による2つの2文字連鎖を生成し、各2文字連鎖毎に2文字連鎖を構成する第1文字と第2文字の検索対象文字列における出現回数を組として記録した第8のデータと、前記第7のデータと第8のデータを区別して記録した検索データを格納する格納部と、検索文字列から、予め指定された特殊文字以外の文字からなる全ての2文字連鎖を検出する第1の文字連鎖検出手段と、前記検索文字列から、予め指定された特殊文字が挿入された3文字からなる全ての3文字連鎖を検出する第4の文字連鎖検出手段と、前記第1の文字連鎖検出手段により検出された2文字連鎖を、前記第7のデータから検索し、前記第4の文字連鎖検出手段により検出された特殊文字を変換して2文字連鎖を生成し、前記生成した2文字連鎖を前記第8のデータから検索し、各々の2文字連鎖に対応する出現回数の比較により、検索文字列としての文字連鎖の連続の有無を判定する比較手段とを備えたことを特徴とする。
【0018】
本発明の文字列照合装置は、第6に上記課題を解決するため、検索対象文字列に対し、全ての2文字連鎖を検出し、2文字連鎖毎に2文字連鎖を構成し、2文字連鎖が、予め指定された特殊文字以外の文字連鎖の構成の場合には、第1文字と第2文字について予め指定された特殊文字以外の文字はその出現回数の組を記録した第9のデータと、2文字連鎖が、予め指定された特殊文字を含む文字連鎖の構成の場合には、特殊文字に該当する第1文字または第2文字について、その出現回数を所定の数値で割った余りとし、特殊文字でない文字の出現回数とを組として記憶し、かつ、第1文字が特殊文字の場合、このデータ組は、第2文字種別毎にソートされる第10のデータと、第9のデータと第10のデータとを区別して記録された検索データを格納する格納部と、検索文字列から、特殊文字を含まない全ての2文字連鎖を検出する第5の文字連鎖検出手段と、前記検索文字列から、特殊文字を含む全ての文字連鎖を検出する第6の文字連鎖検出手段と、前記検索文字列が、前記第5の文字連鎖検出手段で検出された2文字連鎖で構成される場合には、検出された2文字連鎖を第9のデータから検索し、対応する出現回数の比較により、検索文字列としての文字連鎖の連続の有無を判定する比較手段と、前記検索文字列が、第6の文字連鎖検出手段で検索された2文字連鎖で構成される場合には、検出した2文字連鎖を第10のデータから検索し、対応する出現回数および特殊文字の出現回数の重複した回数の比較により、検索文字列としての文字連鎖の連続の有無を判定する比較手段とを備えたことを特徴とする。
【0019】
本発明の文字列照合装置は、第7に上記課題を解決するため、検索対象文字列に対し、特殊文字を含まない全ての2文字連鎖を検出し、2文字連鎖毎を構成する、予め指定された特殊文字以外の文字連鎖を構成する第1文字と第2文字について、予め指定された特殊文字以外の文字はその出現回数を組として記録した第11のデータと、検索対象文字列に対して、予め指定された特殊文字をまたぐ2文字連鎖について特殊文字の前にある2文字連鎖の1文字目の文字種の出現回数と、特殊文字の後ろにある2文字連鎖の1文字目の文字種の出現回数を組として記録した第2のデータ、または特殊文字の前にある2文字連鎖の1文字目の文字種の出現回数と、特殊文字の直後の文字の出現回数を組とした第12のデータと、前記第11データと前記第12データを区別して記録した検索データを格納する格納部と、検索文字列から、予め指定された特殊文字以外の文字からなる全ての2文字連鎖を検出する第1の文字連鎖検索手段と、特殊文字列から、予め指定された特殊文字をまたぐ前後の2文字連鎖に対して、特殊文字の前の2文字連鎖の第1文字と特殊文字の後の2文字連鎖の第1文字とを組にした文字連鎖を検出するか、または特殊文字の前にある2文字連鎖の第1文字と特殊文字の直後の文字の文字を組にした文字連鎖を検出する第7の文字連鎖検出手段と、前記第1の文字連鎖検出手段により検出された2文字連鎖を、前記第12のデータから検索し、前記第11のデータから検索した場合は前記第7の文字連鎖検出手段により検出された文字連鎖を検索し、また前記第12のデータから検索した場合は前記第1の文字連鎖検出手段により検出された文字連鎖を検索し、検出された文字連鎖に対応する出現回数の比較により、検索文字列としても文字連鎖の連続の有無を判定する比較手段とを備えたことを特徴とする。
【0020】
本発明の文字列照合装置は、第8に上記課題を解決するため、予め指定された特殊文字を含む文字列で、検索対象文字列の予め指定された特殊文字を隣接する文字に従い検索の対象とならない文字に変換し、当該変換された文字列に対し、前記検索の対象とならない文字も含め全ての2文字連鎖を検出し、2文字連鎖毎に、2文字連鎖を構成する第1文字の出現位置を検索対象文字列における出現位置として記録した検索データを格納する格納部と、検索文字列の予め指定された特殊文字を前記検索データに対し適用された同一の変換規則に従い、隣接する文字に基づき検索の対象とならない文字に変換する文字列変換手段と、前記文字列変換手段により変換された文字列に対し、検索の対象とならない文字も含め全ての2文字連鎖を検出する2文字連鎖検出手段と、前記2文字連鎖検出手段により検出された2文字連鎖を、前記検索データから検出し、対応する出現位置の比較により、検索文字列としての文字連鎖の連続の有無を判定する比較手段とを備えたことを特徴とする。
【0021】
本発明の文字列照合装置は、第9に上記課題を解決するため、予め指定された特殊文字を含む文字列で、検索対象文字列の予め指定された特殊文字を隣接する文字に従い検索の対象とならない2文字に変換し、当該変換された文字列に対し、前記検索の対象とならない文字も含め全ての2文字連鎖を検出し、2文字連鎖毎に、2文字連鎖を構成する第1文字または第2文字の出現位置を検索対象文字列における出現位置として記録した検索データを格納する格納部と、検索文字列の予め指定された特殊文字を前記検索データに対し適用された同一の変換規則に従い、前記検索文字列を隣接する文字に基づき検索の対象とならない2文字に変換する文字列変換手段と、前記文字列変換手段により変換された文字列に対し、検索の対象とならない2文字も含め全ての2文字連鎖を検出する2文字連鎖検出手段と、前記2文字連鎖検出手段により検出された2文字連鎖を、前記検索データから検出し、対応する出現位置の比較により、検索文字列としての文字連鎖の連続の有無を判定する比較手段とを備えたことを特徴とする。
【0022】
本発明の文字列照合装置は、第10に上記課題を解決するため、予め指定された特殊文字を含む文字列で、検索対象文字列に対し、予め指定された特殊文字以外の文字からなる文字列で、全ての2文字連鎖を検出し、2文字連鎖毎に2文字連鎖を構成する第1文字または第2文字の出現位置を検索対象文字列の出現位置としたデータと、検索対象文字列に対し、予め指定された特殊文字が間に挿入された3文字からなる全ての3文字連鎖を検出し、3文字連鎖毎に、3文字連鎖を構成する第2文字の特殊文字を第3文字と同じ文字に変換し、第1文字と第2文字からなる2文字連鎖を検出し、前記2文字連鎖を構成する第1文字または第2文字の出現位置を検索対象文字列の出現位置としたデータとを記録した第15のデータと、前記3文字連鎖の第2文字と第3文字からなる2文字連鎖を検出し、この2文字連鎖の第1文字の出現位置が第2文字の出現位置と同じ値としてから、第1文字または第2文字の出現位置をこの文字連鎖の検索対象文字列における出現位置として記録した第16のデータと、第15データと第16データとが区別して記録された検索データを格納する格納部と、検索文字列から、予め指定された特殊文字以外の文字からなる全ての2文字連鎖を検出する第1の文字連鎖検出手段と、前記検索文字列から、予め指定された特殊文字が挿入された3文字からなる全ての3文字連鎖を検出する第10の文字連鎖検出手段と、前記第1の文字連鎖検出手段により検出された2文字連鎖を、前記第15のデータから検索し、前記第10の文字連鎖検出手段により検出された特殊文字を変換して2文字連鎖を生成し、前記第16のデータから検索し、各々の2文字連鎖に対応する出現位置の比較により、検索文字列としての文字連鎖の連続の有無を判定する比較手段とを備えたことを特徴とする。
【0023】
本発明の文字列照合装置は、第11に上記課題を解決するため、検索対象文字列に対し、2文字連鎖と文字位置を検出し、2文字連鎖毎に検索対象文字列から構成される文書番号と2文字連鎖と文字位置の組を2文字連鎖情報として構成し、2文字連鎖情報の文字位置は、検索対象文字列の先頭を基準として予め指定された特殊文字の位置は除外して昇順に番号付けをし、さらに文字連鎖の第1文字毎に文字連鎖情報を格納している検索データであって、特殊文字を含まない2文字連鎖で第1文字と第2文字の組と、特殊文字を除外した文字位置での第1文字の文字位置、および文書番号を組として記録した第17のデータと、特殊文字の直前の文字と特殊文字を組み合わせた2文字連鎖、特殊文字の文字種により規定される任意の固定値、および文書番号の組から構成される第18のデータと、特殊文字と特殊文字の直後の文字を組合わせた2文字連鎖、特殊文字を除外した文字位置での第2文字の文字位置、および文書番号から構成される第19のデータと、特殊文字の直前と直後の文字を組み合わせた2文字連鎖、特殊文字を除外した文字位置での第1文字の文字位置、および文書番号から構成される第20のデータと、第17のデータ、第18のデータ、第19のデータ、第20のデータの2文字連鎖の第1文字目毎に整列して文字連鎖情報として格納し、前記第17のデータ、前記第18のデータおよび前記第19のデータに対しては、2つの文字連鎖の1文字目が同じで2文字目が特殊文字の場合に前記第17のデータの直後に前記第18のデータを記録した検索データを格納する格納部と、検索文字列から、特殊文字とその前後の文字を除く全ての2文字連鎖を検出する第11の文字連鎖検出手段と、前記検索文字列から、特殊文字の直前の文字と直後の文字からなる2文字連鎖、特殊文字の直前の文字と特殊文字からなる2文字連鎖、特殊文字と特殊文字の直後の文字からなる2文字連鎖を検出する第12の文字連鎖検出手段と、第1の文字連鎖検出手段で検出された2文字連鎖に対応する前記第17のデータと前記第12の文字連鎖検出手段で検出された文字連鎖対応する前記第20のデータ、または前記第19のデータと前記第17のデータから2つのデータの文字位置の差と文書番号の比較により、検索文字列としての連続の有無を判断する比較手段と、前記第20のデータの直後に前記第18のデータが続いていることにより特殊文字を含む検索文字列としての連続の有無を判断する比較手段、とを備えたことを特徴とする。
【0024】
本発明の文字列照合装置は、第12に上記課題を解決するため、検索対象文字列に対し、2文字連鎖と文字位置を検出し、2文字連鎖毎に検索対象文字列から構成される文書番号と2文字連鎖と文字位置の組を2文字連鎖情報として構成し、文字連鎖の第1文字毎に文字連鎖情報を格納している検索データであって、2文字連鎖情報の文字位置は、検索対象文字列の先頭を基準として予め指定された特殊文字の位置は除外して昇順または降順に番号付けをし、特殊文字を含まない文字種の場合には第1文字と第2文字の組と、第1文字の文字位置と、文書番号を組として記録した第21のデータと、特殊文字を含む文字連鎖情報は、特殊文字の直前の文字に対しては、特殊文字の直前の文字と特殊文字の直後の文字を組み合わせた文字連鎖、特殊文字の直前の文字位置および文書番号の組から構成され、また該文字連鎖情報の文字連鎖の第1文字と第2文字が、特殊文字を含まない場合の文字連鎖情報の文字連鎖の第1文字または第2文字が一致する場合には特殊文字を含まない文字連鎖情報の後または前に別個に記録されるように構成される第22のデータと、特殊文字を含む文字連鎖情報は、特殊文字の直後の文字に対しては、特殊文字の直後の文字とその文字に続く文字を組合わせた文字連鎖、特殊文字の直後の文字位置および文書番号から構成され、また該文字連鎖情報の文字連鎖の第1文字が、特殊文字を含まない場合の2文字連鎖の第1文字と一致する場合には特殊文字を含まない文字連鎖情報の後または前に別個に記録されるように構成される第23のデータと、特殊文字を含む文字連鎖情報は、特殊文字の2個前の文字と特殊文字の直後の文字とを組み合わせた文字連鎖、特殊文字の2個前の文字位置および文書番号から構成される第24のデータと、第21データ、第22データ、第23データ、第24データを区別して記録された検索データを格納する格納部と、検索文字列から、特殊文字の前後の文字を除く全ての2文字連鎖を検出する第13の文字連鎖検出手段と、前記検索文字列から、特殊文字を間に挟む検索文字列の場合は特殊文字の直前の文字と直後の文字を文字連鎖として検出し、かつ該文字連鎖の第2文字は特殊文字の直後の文字としてマークし、検索文字列の先頭が特殊文字の場合は特殊文字の直後の文字とその次の文字を文字連鎖として検出し、かつ該文字連鎖の第1文字は特殊文字の直後の文字としてマークし、検索文字列の先頭から3番目以降に特殊文字が出現する場合には、特殊文字の2文字前の文字と特殊文字の直後の文字を文字連鎖として検出し、かつ該文字連鎖の第2文字は特殊文字の直後の文字としてマークし、さらに特殊文字の直後の文字とその次の文字を文字連鎖として検出し、かつ該文字連鎖の第1文字は特殊文字の直後の文字としてマークする第14の文字連鎖検出手段と、検索文字列が、前記第13の文字連鎖検出手段で検出された2文字連鎖で構成される場合には、検出された文字連鎖に対応する文字位置と文書番号の比較により、検索文字列としての文字連鎖の連続の有無を判定する比較手段と、検索文字列が、前記第14の文字連鎖検出手段で検索された2文字連鎖で構成される場合には、前記第21のデータ、前記22のデータ、前記23のデータまたは前記第24のデータの文字連鎖情報に一致するかどうかを文字連鎖と文書番号から検索文字列としての文字連鎖の連続の有無を判定する比較手段、とを特徴とする。
【0041】
【発明の実施の形態】
以下、本発明の実施例について図面を参照しながら説明する。
【0042】
(実施の形態1)
図1(a)は、本発明による記録媒体を用いて計算により文字列照合装置を構成した場合の概略図、図1(b)は、本発明による文字列照合装置のブロック構成図、図2は本発明の第1の方法の文字列照合の方法の概念、及び全文検索データを記憶した記録媒体の記憶形式を示している。
【0043】
図2(a)において、201は登録時に入力される文字列「いろaはに」、202は最初に登録される2文字連鎖「いろ」、203は202の次の3文字連鎖「ろaは」、204は203の次の2文字連鎖「はに」である。ここで「a」は、文字列に意味の区切りなどのために挿入されている特殊文字を示す。
【0044】
図2(c)において、211は検索時の検索文字列「いろaはに」、212は最初に検索される2文字連鎖「いろ」、213は212の次の3文字連鎖「ろaは」、214は213の次の2文字連鎖「はに」である。
【0045】
図2(b)において、2文字連鎖202は「い」および「ろ」の出現回数n1、n2を、3文字連鎖203は「ろ」および「は」の出現回数n2、n3を、2文字連鎖204は「は」および「に」の出現回数n3、n4を記憶する。2文字連鎖202、204と3文字連鎖203は異なる領域に記憶し、2文字連鎖か3文字連鎖かを識別する。
【0046】
検索文字列図2(c)の入力に対し、本発明の第1の方法による照合方法では、2文字連鎖212の「いろ」に該当する2文字連鎖202を2文字連鎖を格納した領域から検出し、このときの「ろ」の出現回数n2と、212の次の3文字連鎖213の「ろaは」に該当する3文字連鎖203「ろは」を3文字連鎖が格納された領域から検出し、このときの「ろ」の出現回数n2が一致するか否か判断する。一致したら、次に203で検出した「は」の出現回数n3と、213の次の2文字連鎖の「はに」に該当する2文字連鎖204を2文字連鎖を格納する領域から検出し、このときの「は」の出現回数が一致するか否か判断する。一致したら、文字列211は201に一致したと判断する。以上により、文字列の照合がなされる。
【0047】
図1(b)は本発明の第1の方法の一実施の形態における文字列照合装置の構成を示したものである。
【0048】
図1(b)において、101は登録する文字列201から登録する2文字連鎖202、204、を検出する2文字連鎖検出器、102は登録する文字列201から登録する3文字連鎖203を検出する3文字連鎖検出器、103は2文字連鎖202、204およびそれらの文字の出現回数を格納する2文字連鎖メモリ、104は3文字連鎖203およびその連鎖の最初と最後の文字の出現回数を格納する3文字連鎖メモリ、111は検索する文字列211から検索する2文字連鎖212、214を検出する2文字連鎖検出器、112は検索する文字列211から検索する3文字連鎖213を検出する3文字連鎖検出器、113は2文字連鎖検出器111より検出された2文字連鎖212、214を2文字連鎖メモリ103で検出するかまたは、3文字連鎖検出器112より検出された3文字連鎖213を3文字連鎖メモリ104で検出し、検出したそれぞれの文字連鎖の前の文字の出現回数が直前に検出した文字連鎖の後の文字の出現回数に一致するか否か判断する比較器、114は2文字連鎖検出器111および3文字連鎖検出器112から検出される全ての2文字または3文字の連鎖についての一致を比較器113で判断し、文字列の一致を判断する制御部である。
【0049】
以上のような構成は、図1(a)の概略図において、2文字連鎖メモリ103、3文字連鎖メモリ104が外部記録装置40のフロッピー、または、ハードディに、他の手段が本体30に対応する。
【0050】
以上ように構成された文字列照合装置において、2文字連鎖メモリ103に図2(b)の202、204の2文字連鎖が、3文字連鎖メモリに図2(b)の203の3文字連鎖が格納されており、検索文字列として図2(c)の「いろaはに」が入力された場合の動作について説明する。
【0051】
検索文字列「いろaはに」が入力されると、2文字連鎖検出手段は、予め特殊文字として指定された「a」を含まない2文字連鎖、「いろ」「はに」を検出し、比較器113に出力する。また、3文字連鎖検出器は、予め特殊文字として指定された「a」を中心に、「a」が挿入された3文字連鎖「ろaは」を検出し比較器113に出力する。
【0052】
このとき、比較器への出力は、連鎖順「いろ」「ろaは」「はに」としてもよいし、また、文字の連鎖情報と共に、「いろ」「ろaは」「はに」を同時に出力してもい。
【0053】
比較器113は、2文字連鎖検出器からの出力か3文字連鎖検出器からの出力かを区別し、それぞれ2文字連鎖メモリ103、3文字連鎖メモリ104から「いろ」「はに」と「ろaは」に対応する「ろは」の連鎖を検出し、出現回数に基づき連鎖を判断する。
【0054】
比較器が2文字連鎖か3文字連鎖かを区別し、それぞれ異なる連鎖メモリから検出することにより、検索対象文字列として「いろaはに」と「いろはに」を区別して検索することが可能となる。
【0055】
以上のように、本実施の形態によれば、予め指定された特定の特殊文字「a」の出現回数に制限を受けること無く、特殊文字による連鎖メモリの増大を避けることができ、同時に出現回数の一致による連鎖の抽出処理を効率的行うことが可能となる。
【0056】
なお、本実施の形態では特殊文字を「a」と表現したが、特殊文字の並び「a、a・・・,a」を「a」と置き換えることにより、特殊文字の出現回数に制限を受けることなく、特殊文字の挿入の有無を区別した文字連鎖による文字列照合を行うことが可能となる。
【0057】
即ち、「いろ(特殊文字1つ以上)はに」と「いろはに」を異なる検索文字とした検索が可能となる。
【0058】
また、本実施の形態では2文字連鎖と3文字連鎖(特殊文字の挿入)を区別するために異なる連鎖メモリを設けたが、同一メモリに2文字連鎖か3文字連鎖かを識別する識別子を設けて、例えば3文字連鎖に対しては図2(d)のようにして、記憶することも可能である。
(実施の形態2)
図3は、本発明の第2の実施の形態における文字列照合装置の構成を示す概念図、図4は本実施の形態における文字列照合の第2の方法の概念、及び全文検索データを記憶した記録媒体の記憶形式を示している。
【0059】
図4(a)において、401は登録時に入力される文字列「いろaはに」、402は文字列401に対して特定の特殊文字「a」をその後の文字「は」により一意に決めた「a1」に変更した文字列「いろa1はに」、403は最初に登録される2文字連鎖「いろ」、404は403の次の2文字連鎖「ろa1」、405は404の次の2文字連鎖「a1は」、406は405の次の2文字連鎖「はに」である。
【0060】
ここで「a」は、文字列に意味の区切りなどのために挿入されている特殊文字、「a1」は、検索対象とならない特定の記号、コードを表す。
【0061】
図4(c)において、411は検索時の検索文字列「いろaはに」、412は文字列411に対して特定の特殊文字「a」をその後の文字「は」により一意に決めた「a1」に変更した文字列「いろa1はに」、413は最初に検索される2文字連鎖「いろ」、414は413の次の2文字連鎖「ろa1」、415は414の次の2文字連鎖「a1は」、416は415の次の2文字連鎖「はに」である。
【0062】
図4(b)において、2文字連鎖403は「い」および「ろ」の検索対象における今までの出現回数n1、n2を、2文字連鎖404は「ろ」および「a1」の出現回数n2、n3を、2文字連鎖405は「a1」および「は」の出現回数n3、n4を、2文字連鎖406は「は」および「に」の出現回数n4、n5を記憶する。
【0063】
このとき本発明の第2の方法による照合方法では、2文字連鎖413の「いろ」に該当する2文字連鎖403を検出し、このときの「ろ」の出現回数n2と、413の次の2文字連鎖414の「ろa1」に該当する2文字連鎖404を検出し、このときの「ろ」の出現回数n2が一致するか否か判断する。一致したら、次に404で検出した「a1」の出現回数n3と、414の次の2文字連鎖の「a1は」に該当する2文字連鎖405を検出し、このときの「a1」の出現回数が一致するか否か判断する。一致したら、次に405で検出した「は」の出現回数n4と、415の次の2文字連鎖の「はに」に該当する2文字連鎖406を検出し、このときの「は」の出現回数が一致するか否か判断する。一致したら、文字列411は401に一致したと判断する。以上により、文字列の照合がなされる。
【0064】
図3は本発明の第2の方法の一実施の形態における文字列照合装置の構成を示したものである。
【0065】
図3において、301は登録する文字列401を特定の特殊文字「a」をその後の文字「は」により一意に決めた「a1」に変更した文字列402に変更する文字列変換器、302は文字列402から登録する2文字連鎖403、404、405、406を検出する2文字連鎖検出器、303は2文字連鎖403、404、405、406およびそれらの文字の出現回数を格納する2文字連鎖メモリ、304は検索する文字列411を特定の特殊文字「a」をその後の文字「は」により一意に決めた「a1」に変更した文字列412に変更する文字列変換器、305は文字列412において検索する2文字連鎖413、414、415、416を検出する2文字連鎖検出器、306は2文字連鎖検出器305より検出された2文字連鎖413、414、415、416を2文字連鎖メモリ303で検出し、検出した2文字連鎖の前の文字の出現回数が直前に検出した2文字連鎖の後の文字の出現回数に一致するか否か判断する比較器、307は2文字連鎖検出器305から検出される全ての2文字連鎖について比較器306で判断し、文字列の一致を判断する制御部である。
【0066】
以上のように構成された文字列照合装置において、その動作について説明する。登録文字列が入力されると文字列変換手段301は、予め指定された特殊文字「a」をその後の文字により予め決められた検索対象とならない記号、コード、即ち、検索文字列以外の記号、コードに変換して出力する。
【0067】
文字列変換手段には、図4(d)のように、特殊記号の後の文字に対応し、どの記号に変換するその対応が格納されている。この対応は421、422のように文字毎に異なる対応でも、また、423のように文字のグループに対応するものでもよい。
【0068】
変換された文字列は、2文字連鎖検出器により実施の形態1と同様に2文字連鎖とその出現回収とが検出され、2文字連鎖メモリに格納される。
【0069】
一方、検索文字列が与えられると文字列変換器304により、文字列変換301で用いた対応と同一の対応に従い、特殊文字を検索文字列以外の記号、コードに変換し、2文字連鎖検出器に出力する。2文字連鎖検出器は2文字連鎖を検出し、比較器306に出力する。
【0070】
比較器306は実施の形態1と同様の手順に従い2文字連鎖メモリの内容に従い文字連鎖の一致を検出する。但し、実施の形態2では、実施の形態1のように比較器が、2文字連鎖か3文字連鎖かを区別する必要はない。
【0071】
以上のように、本実施の形態によれば、出現頻度の高い特殊文字「a」の連鎖メモリの増大を避けることができ、また、同一の特殊文字を後の文字に従い異なる複数の文字に変換することにより、連鎖を抽出するための出現回数の一致を調べる候補が複数に分散されることにより、その処理時間が短くてすむ。
【0072】
なお、本実施の形態では特殊文字「a」を、その後の文字によって変換先を決めたが、特殊文字の前の文字により、変換先を決めた場合でも同様の効果を得られることは明らかでる。
【0073】
なお、計算機として実装した場合の概略図は図1(a)と同じであり、本実施の形態では、2文字連鎖メモリ303が外部記録装置40に対応する。
【0074】
(実施の形態3)
図5は、本発明の第3の実施の形態における文字列照合装置の構成を示すブロック図、図6〜図8は本発明の文字列照合の第3の方法の概念、及び全文検索データを記憶した記録媒体の記憶形式を示している。
【0075】
図6において、601は登録時に入力される文字列「いろaはに」、602は文字列601に対して特定の特殊文字「a」をその前の文字「ろ」は「ろ」および「ろ」により一意に決まる「ろ’」からなる「ろろ’」に、またその後の文字「は」は「は」により一意に決まる「は’」および「は」からなる「は’は」に変更した文字列「いろろ’は’はに」、603は最初に登録される2文字連鎖「いろ」、604は603の次の2文字連鎖「ろろ’」、605は604の次の2文字連鎖「ろ’は’」、606は605の次の2文字連鎖「は’は」、607は606の次の2文字連鎖「はに」である。
【0076】
ここで「a」は、文字列に意味の区切りなどのために挿入されている特殊文字、「ろ’」「は’」は、検索対象とならない特定の記号、コードを表す。
【0077】
図8において、611は検索時の検索文字列「いろaはに」、612は文
字列611に対して特定の特殊文字「a」をそのその前の文字「ろ」は「ろ」および「ろ」により一意に決まる「ろ’」からなる「ろろ’」に、またその後の文字「は」は「は」により一意に決まる「は’」および「は」からなる「は’は」に変更した文字列「いろろ’は’はに」、613は最初に検索される2文字連鎖「いろ」、614は613の次の2文字連鎖「ろろ’」、615は614の次の2文字連鎖「ろ’は’」、616は615の次の2文字連鎖「は’は」、617は616の次の2文字連鎖「はに」である。
【0078】
図7において、2文字連鎖603は「い」および「ろ」の出現回数n1、n2を、2文字連鎖604は「ろ」および「ろ’」の出現回数n2、n3を、2文字連鎖605は「ろ’」および「は’」の出現回数n3、n4を、2文字連鎖606は「は’」および「は」の出現回数n4、n5を、2文字連鎖607は「は」および「に」の出現回数n5、n6を記憶する。
このとき本発明の第3の方法による照合方法では、2文字連鎖613の「いろ」に該当する2文字連鎖603を検出し、このときの「ろ」の出現回数n2と、613の次の2文字連鎖614の「ろろ’」に該当する2文字連鎖604を検出し、このときの「ろ」の出現回数n2が一致するか否か判断する。一致したら、次に604で検出した「ろ’」の出現回数n3と、614の次の2文字連鎖の「ろ’は’」に該当する2文字連鎖605を検出し、このときの「ろ’」の出現回数が一致するか否か判断する。一致したら、次に605で検出した「は’」の出現回数n4と、615の次の2文字連鎖の「は’は」に該当する2文字連鎖606を検出し、このときの「は’」の出現回数が一致するか否か判断する。一致したら、次に606で検出した「は」の出現回数n5と、616の次の2文字連鎖の「はに」に該当する2文字連鎖607を検出し、このときの「は」の出現回数が一致するか否か判断する。一致したら、文字列611は601に一致したと判断する。以上により、文字列の照合がなされる。
【0079】
図5は本発明の第3の方法の一実施の形態における文字列照合装置の構成を示したものである。
【0080】
図5において、501は登録する文字列601に対して特定の特殊文字「a」をその前の文字「ろ」は「ろ」および「ろ」により一意に決まる「ろ’」からなる「ろろ’」に、またその後の文字「は」は「は」により一意に決まる「は’」および「は」からなる「は’は」に変更した文字列602に変更する文字列変換器、502は文字列602から登録する2文字連鎖603、604、605、606、607を検出する2文字連鎖検出器、503は2文字連鎖603、604、605、606、607およびそれらの文字の出現回数を格納する2文字連鎖メモリ、504は検索する文字列611を特定の特殊文字「a」をその前の文字「ろ」は「ろ」および「ろ」により一意に決まる「ろ’」からなる「ろろ’」に、またその後の文字「は」は「は」により一意に決まる「は’」および「は」からなる「は’は」に変更した文字列612に変更する文字列変換器、505は文字列612において検索する2文字連鎖613、614、615、616、617を検出する2文字連鎖検出器、506は2文字連鎖検出器505より検出された2文字連鎖613、614、615、616、617を2文字連鎖メモリ503で検出し、検出した2文字連鎖の前の文字の出現回数が直前に検出した2文字連鎖の後の文字の出現回数に一致するか否か判断する比較器、507は2文字連鎖検出器505から検出される全ての2文字連鎖について比較器506で判断し、文字列の一致を判断する制御部である。
【0081】
以上ように、本実施の形態によれば、特殊文字「a」の出現回数に制限を受けること無く文字連鎖による文字列照合を行うことが可能となる。
【0082】
即ち、実施の形態によれば特殊文字「a」はその前後の文字により別々の文字に変換され、変換された文字の出現回数が記録されるため、実施の形態2に比べ、2文字連鎖ファイルがさらに細かく分散されることにより、使用頻度の高い特殊文字の出現頻度の高い特殊文字「a」の連鎖メモリの増大を避けることができ、同時に、連鎖の抽出処理の効率化が図れる。
【0083】
なお、計算機として実装した場合の概略図は図1(a)と同じであり、この場合、2文字連鎖メモリ503が外部記録装置40に対応する。
(実施の形態4)
第10図は本発明の文字列照合の第4の方法の概念を示している。第10図(a)において、1001は登録時に入力される文字列「いろaはに」、1002は最初に登録される2文字連鎖「いろ」、1003は1002に続く特殊文字「a」をはさむ3文字列「ろaは」から生成される最初の2文字連鎖「ろは」、1004は1003の次に生成する特殊文字を含む2文字連鎖「ろa」、1005は1004の次に生成する特殊文字を含む2文字連鎖「aは」、1006は1005の次の2文字連鎖「はに」である。第10図(c)において、1011は検索時の検索文字列「いろaはに」、1012は最初に検索される2文字連鎖「いろ」、1013は1012に続く特殊文字「a」をはさむ3文字列「ろaは」から生成される最初の2文字連鎖「ろは」、1014は1013の次に生成する特殊文字を含む2文字連鎖「ろa」、1015は1014の次に生成する特殊文字を含む2文字連鎖「aは」、1016は1015の次の2文字連鎖「はに」である。
【0084】
第10図(b)において、2文字連鎖1002は「い」および「ろ」の出現回数n1、n2を、2文字連鎖1003は「ろ」および「は」の出現回数n2、n3を、2文字連鎖1004は「ろ」の出現回数n2および「a」に対しては一定値nを、2文字連鎖1005は「a」に対して一定値nおよび「は」の出現回数n3を、2文字連鎖1006は「は」および「に」の出現回数n3、n4を記憶する。
【0085】
このとき本発明の第4の方法による照合方法では、2文字連鎖1012の「いろ」に該当する2文字連鎖1002を検出し、このときの「ろ」の出現回数n2と、1012の次の「a」をはさむ3文字列「ろaは」より生成する2文字連鎖のうち2文字連鎖1013の「ろは」に該当する2文字連鎖1003を検出し、このときの「ろ」および「は」の出現回数n2、n3を検出する。文字連鎖1002および1003の「ろ」の出現回数がn2で一致するか否か判断する。一致したら、次に文字連鎖1014の「ろa」に該当する文字連鎖1004を検出し「ろ」の出現回数がn2かどうか判断する。次に、文字連鎖1015の「aは」に該当する文字連鎖1005を検出し「は」の出現回数がn3で、2文字連鎖1003で検出した「ろ」の出現回数n3と一致するか判断する。一致したら、次に1005で検出した「は」の出現回数n3と、1015の次の2文字連鎖の「はに」に該当する2文字連鎖1006を検出し、このときの「は」の出現回数が一致するか否か判断する。一致したら、文字列1011は1001に一致したと判断する。以上により、文字列の照合がなされる。
【0086】
第9図は本発明の第4の方法の一実施例における文字列照合装置の構成を示したものである。
【0087】
第9図において、901は登録する文字列1001に対して特定の特殊文字「a」を検出する特殊文字検出器、902は文字列1001から特殊文字がない場合に生成する登録する2文字連鎖1002、1006を検出する2文字連鎖検出器、903は文字列1001から特殊文字「a」をはさむ3文字列「ろaは」から生成する2文字連鎖1003、1004、1005を検出する特殊文字連鎖検出器、904は2文字連鎖検出器902および特殊文字連鎖検出器903で検出された2文字連鎖1002、1003、1004、1005、1006およびそれぞれの連鎖文字で特殊文字は一定値をまたそのほかの文字はその出現回数を格納する2文字連鎖メモリ、911は検索する文字列1011に対して特定の特殊文字「a」を検出する特殊文字検出器、912は文字列1011から特殊文字がない場合に生成する登録する2文字連鎖1012、1016を検出する2文字連鎖検出器、913は文字列1011から特殊文字列「a」をはさむ3文字列「ろaは」から生成する2文字連鎖1013、1014、1015を検出する特殊文字連鎖検出器、914は2文字連鎖検出器912より検出された2文字連鎖1012、1016を2文字連鎖メモリ904で検出し、検出した2文字連鎖の前の文字の出現回数が直前に検出した2文字連鎖の後の文字の出現回数に一致するか否か判断し、また特殊文字連鎖検出器913より検出された2文字連鎖1013、1014、1015を2文字連鎖メモリ904で検出し、特殊文字以外の「ろ」「は」の出現回数が検出した文字連鎖で一致するか否か判断する比較器、915は2文字連鎖検出器912および特殊文字連鎖検出器913から検出される全ての2文字連鎖について比較器914で判断し、文字列の一致を判断する制御部である。
【0088】
よって、この方法では特定の特殊文字「a」はその出現頻度に関係なく前後の文字と連鎖を生成することができるため、特殊文字「a」の出現回数に制限を受けること無く文字連鎖による文字列照合を行うことが可能となる。
【0089】
(実施の形態5)
第12図は本発明の第5の方法の文字列照合の方法の概念を示している。第12図(a)において、1201は登録時に入力される文字列「いろaはに」、1202は最初に登録される2文字連鎖「いろ」、1203は1202の次の3文字連鎖「ろaは」、1204は1203の次の2文字連鎖「はに」である。第12図(c)において、1211は検索時の検索文字列「いろaはに」、1212は最初に検索される2文字連鎖「いろ」、1213は1212の次の3文字連鎖「ろaは」、1214は1213の次の2文字連鎖「はに」である。
【0090】
第12図(b)において、2文字連鎖1202は「い」および「ろ」の出現回数n1、n2を、3文字連鎖1203は「ろ」の出現回数n2および「a」の回数0の組み合わせと、および「a」の回数0と「は」の出現回数n3の組み合わせでn2、0および0、n3を、2文字連鎖1204は「は」および「に」の出現回数n3、n4を記憶する。
【0091】
このとき本発明の第5の方法による照合方法では、2文字連鎖1212の「いろ」に該当する2文字連鎖1202を検出し、このときの「ろ」の出現回数n2と、1212の次の3文字連鎖1213の「ろaは」に該当する3文字連鎖1203を検出し、このときの「ろ」の出現回数n2が一致するか否か判断する。一致したら、次に3文字連鎖の間の「a」に該当する値0を検出する。次に「は」の前の「a」の値0を検出し、1203で検出した「は」の出現回数n3と、1213の次の2文字連鎖の「はに」に該当する2文字連鎖1204を検出し、このときの「は」の出現回数が一致するか否か判断する。一致したら、文字列1211は1201に一致したと判断する。以上により、文字列の照合がなされる。
【0092】
第11図は本発明の第5の方法の一実施例における文字列照合装置の構成を示したものである。
【0093】
第11図において、1101は登録する文字列1201から登録する2文字連鎖1202、1204、を検出する2文字連鎖検出器、1102は登録する文字列1201から登録する3文字連鎖1203を検出する3文字連鎖検出器、1103は2文字連鎖1202、1204およびそれらの文字の出現回数を格納する2文字連鎖メモリ、1104は3文字連鎖1203およびその連鎖の最初と最後の文字の出現回数を格納する3文字連鎖メモリ、1111は検索する文字列1211から検索する2文字連鎖1212、1214を検出する2文字連鎖検出器、1112は検索する文字列1211から検索する3文字連鎖1213を検出する3文字連鎖検出器、1113は2文字連鎖検出器1111より検出された2文字連鎖1212、1214を2文字連鎖メモリ1103で検出するかまたは、3文字連鎖検出器1112より検出された3文字連鎖1213を3文字連鎖メモリ1104で検出し、検出したそれぞれの文字連鎖の前の文字の出現回数が直前に検出した文字連鎖の後の文字の出現回数に一致するか否か判断する比較器、1114は2文字連鎖検出器1111および3文字連鎖検出器1112から検出される全ての2文字または3文字の連鎖についての一致を比較器1113で判断し、文字列の一致を判断する制御部である。
【0094】
よって、この時特定の特殊文字「a」の出現回数に制限を受けること無く文字連鎖による文字列照合を行うことが可能となる。
【0095】
(実施の形態6)
第14図は本発明の第5の方法の文字列照合の方法の概念を示している。第14図(a)において、1401は登録時に入力される文字列「いろaはに」、1402は最初に登録される2文字連鎖「いろ」、1403は1402の次の特殊文字が挿入された3文字連鎖「ろaは」の第2文字で特殊文字「a」を次の第3文字「は」に変換した3文字連鎖「ろはは」、1404は特殊文字「a」を次の文字に変換し3文字連鎖1403の第1文字と第2文字による2文字連鎖「ろは」、1405は3文字連鎖1403の第2文字と第3文字による2文字連鎖「はは」、1406の次の2文字連鎖「はに」である。第14図(c)において、1411は検索時の検索文字列「いろaはに」、1412は最初に検索される2文字連鎖「いろ」、1413は1412の次の特殊文字が挿入された3文字連鎖「ろaは」の第2文字で特殊文字「a」を次の第3文字「は」に変換した3文字連鎖「ろはは」、1414は特殊文字「a」を次の文字に変換し3文字連鎖1413の第1文字と第2文字による2文字連鎖「ろは」、1415は3文字連鎖1413の第2文字と第3文字による2文字連鎖「はは」、1416は1415の次の2文字連鎖「はに」である。
【0096】
第14図(b)において、2文字連鎖1402は「い」および「ろ」の出現回数n1、n2を、2文字連鎖1404は「ろ」の出現回数n2および1403の第3文字「は」の出現回数n3の組み合わせでn2、n3を、2文字連鎖1405は2つの1403の第3文字「は」の出現回数n3の組み合わせでn3、n3を、2文字連鎖1204は「は」および「に」の出現回数n3、n4を記憶する。
【0097】
このとき本発明の第6の方法による照合方法では、2文字連鎖1412の「いろ」に該当する2文字連鎖1402を検出し、このときの「ろ」の出現回数n2と、1412の次の3文字連鎖1413の最初の2文字連鎖1414の「ろは」に該当する2文字連鎖1404を検出し、このときの「ろ」の出現回数n2が一致するか否か判断する。一致したら、次に3文字連鎖の次の2文字連鎖1415「はは」に該当する2文字連鎖1405を検出し、この時の「は」の出現回数n3が一致し、かつ1405の連鎖の第1文字「は」の出現回数と第2文字「は」の出現回数がn3で一致することを検出する。次に2文字連鎖1416の「はに」に該当する2文字連鎖1406を検出し、1405で検出した「は」の出現回数n3と、2文字連鎖1406の「は」の出現回数が一致するか否か判断する。一致したら、文字列1411は1401に一致したと判断する。以上により、文字列の照合がなされる。
【0098】
第13図は本発明の第6の方法の一実施例における文字列照合装置の構成を示したものである。
【0099】
第13図において、1301は登録する文字列1401から登録する2文字連鎖1402、1406、及び各文字の出現回数を検出する2文字連鎖検出器、1302は登録する文字列1401から登録する3文字連鎖1403を検出する3文字連鎖検出器、1303は3文字連鎖1403から挿入された特殊文字を次の文字に変更して1404および1405の2つの2文字連鎖及び各文字の出現回数を検出する特殊2文字連鎖生成器、1304は2文字連鎖1402、1404、1405、1406およびそれらの文字の出現回数を格納する2文字連鎖メモリ、1311は検索する文字列1411から検索する2文字連鎖1412、1416を検出する2文字連鎖検出器、1312は検索する文字列1411から検索する3文字連鎖1413を検出する3文字連鎖検出器、1313は3文字連鎖1413から挿入された特殊文字を次の文字に変更して1414および1415の2つの2文字連鎖及び各文字の出現回数を検出する特殊2文字連鎖生成器、1314は2文字連鎖検出器1311より検出された2文字連鎖1412、1416を2文字連鎖メモリ1304で検出するかまたは、特殊2文字連鎖生成器1313より生成された2文字連鎖1414、1415を2文字連鎖メモリ1304で検出し、検出したそれぞれの文字連鎖の前の文字の出現回数が直前に検出した文字連鎖の後の文字の出現回数に一致するか否か判断し、特殊2文字連鎖1415の場合は第1文字と第2文字の出現回数が一致することを判断する比較器、1315は2文字連鎖検出器1311および3文字連鎖検出器1312から検出される全ての2文字または3文字の連鎖についての一致を比較器1314で判断し、文字列の一致を判断する制御部である。
【0100】
よって、この時特定の特殊文字「a」の出現回数に制限を受けること無く文字連鎖による文字列照合を行うことが可能となる。
【0101】
(実施の形態7)
第15図は本発明の第7の方法の文字列照合の方法の概念を示している。第15図(a)において、1501は登録時に入力される文字列「いろaはにaいろaはとa」、1502は最初に登録される2文字連鎖「いろ」、1503は1502に続く特殊文字「a」を含む2文字連鎖「ろa」、1504は1503を含む次の2文字連鎖「aは」であり、以下1505〜1512まで同じように2文字連鎖を生成する。
【0102】
第15図(b)において、2文字連鎖1502は「い」および「ろ」の出現回数をn1、n2を、2文字連鎖1505は「は」および「に」の出現回数n3、n4を、2文字連鎖1508は「い」「ろ」の出現回数n1+1、n2+1を、2文字連鎖1511は「は」および「と」の出現回数n3+1、n5を記憶する。例えば、第15図(e)において、2文字連鎖「はと」の記憶されている出現回数の組が示されている。
【0103】
次に、特殊文字「a」の出現回数の最大値を予め2と指定し、特殊文字の出現回数を最大値で割ったときの余りが0の場合には最大値をとなるように指定する。この場合、特殊文字の出現回数は、1、2のいずれかとなる。第15図(b)において、2文字連鎖1503の特殊文字「a」は1度目の出現であるから出現回数は1、文字連鎖1504の特殊文字「a」の出現回数も同じく1、2文字連鎖1506の特殊文字「a」は1度目の出現であるから出現回数は2、文字連鎖1507の特殊文字「a」の出現回数も同じく2となる。一方、2文字連鎖1509の特殊文字「a」は出現回数1が2度目の出現であるから出現回数は1、文字連鎖1510の特殊文字「a」の出現回数も同じく1、文字連鎖1512の特殊文字「a」は2度目の出現であるから出現回数は2となる。
【0104】
次に、特殊文字を含む2文字連鎖は第2文字に対して文字種別毎にソートして記憶する。第15図(c)において、2文字連鎖「ろa」の文字連鎖の組は、2文字連鎖1503の組n2、1と2文字連鎖n2+1、1で構成される。一方、第15図(d)において、2文字連鎖「a*」の文字連鎖の組、*は出現される文字種「い」と「は」で構成され、2文字連鎖1504、1507、1510に対して文字種別毎にソートされている。ここで文字種別毎のソートは文字コード順で、出現回数が一致した場合には登録文字列で出現した順番とする。ソートされた結果、文字連鎖は第15図(c)(d)のように記憶される。
【0105】
このとき本発明の第16の方法による照合方法では、第15図(f)にある検索文字列「ろaはと」を例に説明する。
【0106】
先ず、文字連鎖「ろa」と「aは」の連続性の照合を行う。照合が開始されると「ろa」と「aは」の重複カウンタを0にリセットする。文字連鎖1513の「ろa」に該当する2文字連鎖について第15図(c)1503を最初に検出し、このときの「a」の出現回数1から第15図(g)にある「ろa」重複カウンタに出現回数1の重複回数0を記憶する。次に文字連鎖1514の「aは」に該当する2文字連鎖について第15図(d)で「aは」の最初の文字連鎖から順番に出現回数を検出し、さらにその重複回数0を「aは」重複カウンタに記憶する。照合は、2つの文字連鎖1503の第2文字の出現回数と1504の第1文字の出現回数、および、「ろa」と「aは」の重複回数が一致しているかどうかを調べ一致していれば、さらに文字連鎖「はと」の照合を行う。ここでは文字連鎖1504の第2文字の出現回数と文字連鎖1510の第1文字の出現回数が異なるため、次の文字連鎖の照合を行う。文字連鎖1503と文字連鎖1509の特殊文字の出現回数の重複を調べ、重複していれば「ろa」の重複カウンタ1516を1つ増やす。これにより文字連鎖1510に該当する「aは」の重複カウンタ1517を1つ増やす。続いて第15図(d)において「aは」の重複カウンタ1516が1であるから第1文字が1つだけ重複した文字連鎖1510を検出する。文字連鎖「はと」の連続の照合から文字連鎖1509、1510、1511が最終的に連続文字列として検出される。なお、このとき第15図(g)の「ろa」「aは」の重複カウンタ値1(1516、1517)が記憶されている。
【0107】
以上により、文字列の照合がなされる。
なお、特殊文字の最大値は任意に指定できること、また本実施例では、特殊文字の出現回数を、予め指定した出現回数の最大値で割った余りで、余りが0の場合は最大値にする場合を挙げたが、出現回数は最大値以下で重複を無視すればユニークであればよいので、出現回数の最大値以下で割った余り、最大値−余り、昇順の偶数、昇順の奇数、降順の奇数、降順の奇数などがある。例えば、最大値を10として、特殊文字の出現回数が3、5、7、8、6、4、2の繰り返しを出現回数としても構わない。
【0108】
第16図は本発明の第7の方法の一実施例における文字列照合装置の構成を示したものである。
【0109】
第16図において、1601は登録する文字列1501に対して特定の特殊文字「a」を検出する特殊文字検出器、1602は文字列1501から特殊文字がない場合の文字連鎖の文字連鎖と出現回数を算出し、1502、1505、1508、1511を2文字連鎖メモリ1606に格納する2文字連鎖検出器、1603は特殊文字を含む2文字連鎖で特殊文字を含まない文字種の第1文字または第2文字の出現回数を2文字連鎖メモリ1606から求め、さらに特殊文字の出現回数を最大値以下になるように算出し、出現回数の重複回数を出現重複メモリ1604に記憶し、次に出現した特殊文字の出現回数の値を出現重複メモリ1604から算出し、特殊文字を含む文字連鎖と出現回数である1503、1504、1506、1507、159、1510、1512を決定する特殊文字連鎖検出器、1605は前記特殊文字連鎖検出器1605から特殊文字を第1文字としてときに第2文字の文字種毎にソートし、そのソートした結果(第15図(d))を2文字連鎖メモリ1606に格納する特殊文字連鎖ソート器、1607は検索文字列(第15図(f))から特殊文字「a」を検出する特殊文字検出器、1608は前記検索文字列から特殊文字がない場合に2文字連鎖を生成する2文字連鎖検出器、1609は前記検索文字列から特殊文字を含む2文字連鎖を生成する2文字連鎖検出器、1610は2文字連鎖検出器1608と特殊文字連鎖検出器169で検出された文字連鎖1513、1514、1515に該当する文字連鎖と出現回数を2文字連鎖メモリ1606から取り出し、2文字連鎖1513と1514については出現重複カウンタメモリ1612を0にセットし、2文字連鎖1503と第2文字の重複回数が0、2文字連鎖1504と第1文字の重複回数0を算出、続いて2文字連鎖1509と第2文字の重複回数を1、2文字連鎖1510と第1文字の重複回数1を算出、2文字連鎖1515については1511を算出する比較器、1611は2文字連鎖検出器1608および比較器1610で算出した結果から、文字列の一致を判断する制御器である。
【0110】
よって、この時特定の特殊文字「a」の出現回数に制限を受けることなく文字連鎖による文字列照合を行うことが可能となる。
【0111】
(実施の形態8)
第17図は本発明の第8の方法の登録方法と文字列照合の方法の概念を示している。はじめに登録方法について説明する。
【0112】
第17図(d)において、1708は登録時に入力される文字列「あいaあいaあいaあいあい」、1709は最初に登録される2文字連鎖「あい」、1710は1709に続く特殊文字「a」を含む2文字連鎖「いa」、1711は次の2文字連鎖「aあ」であり、以下1712〜1720まで同じように2文字連鎖を生成する。この2文字連鎖から文書番号、第1文字と第2文字の出現回数または数値が格納された組である文字連鎖データを生成する。
【0113】
第17図(a)〜(c)は2文字連鎖を構成する文字種に応じて異なる文字連鎖データを示している。第17図(a)は特殊文字を含まない文字連鎖データで、第1文字の出現回数と第2文字の出現回数を格納するサイズは同じである。一方、第17図(b)(c)では特殊文字を含む文字連鎖データであり、特殊文字に対する出現回数の格納するサイズは、特殊文字でない文字に対する領域に比べて大きい。また特殊文字でない文字に対する領域には指定された値(本実施例では0)を記憶するものとする。
【0114】
第17図(e)において、登録文字列1708に対して文字連鎖データ作成する。ここで「あ」の出現回数をn1、「い」の出現回数をn2とする。2文字連鎖1709は「あい」の文字連鎖データであり、「あ」の出現回数はn1、「い」n2であるが、2文字連鎖「あい」に続く2文字連鎖「いa」1710の文字連鎖データが第17図(c)で構成されることから「いa」の文字連鎖データは「い」に該当する値が0、「a」に該当する値は特殊文字出現回数1となる。従って、文字連鎖データの連続性から「あい」の文字連鎖データは1721のように第2文字に該当部分が0となる。以下同様に1722〜1732のように文字連鎖データを構成することができる。
【0115】
第17図(e)で生成された文字連鎖データは、第17図(f)〜(i)のように出現する2文字連鎖の組み合わせ毎に分けて格納する。
【0116】
以上の文字連鎖データの生成方法は、第18図のフローおよび第20図の文字列照合装置の構成により実現される。第20図において、2001は登録する文字列から2文字連鎖および文書番号を作成する2文字連鎖検出器、2002は2文字連鎖から2文字連鎖の各文字種に対して出現回数または値を算出し、さらに特殊文字を含む2文字連鎖に続く2文字連鎖の場合には、既に出現回数の値を算出した値に置き換えが必要かどうかを2003特殊文字連鎖検出器に問い合わせ、その結果から再度出現回数を算出する出現回数算出器、および前記2002出現回数算出器が文書番号と出現回数の組を文字連鎖データとして格納する2文字連鎖メモリ2004から構成されている。第18図で文字連鎖検出器2001は登録文字列データを読み取り(ステップ1801)、文書番号をセットし(ステップ1802)、最大文書数まで登録文字列を読み取り文書番号を付与し(ステップ1803)、さらに2文字連鎖(Ak,Ak+1)(Ak,Ak+1はk,k+1番目の文字種)の組を作成する(ステップ1804)。続いて出現回数検出器2002は、2文字連鎖に特殊文字列の有無を調べ(ステップ1805)、特殊文字を含む場合は、特殊文字の出現回数N(Ak)またはN(Ak+1)をカウントし、文字連鎖データSkを作成する(ステップ1806、1808)。また特殊文字を含まない場合は出現回数をカウントし文字連鎖データSkを作成する(ステップ1810)。次に特殊文字連鎖検出器2003は、前記文字連鎖データSkに連続する文字連鎖データSk+1に対してSkの第2文字に該当する出現回数または値が、Sk+1の第1文字に該当する出現回数または値に等しくなるよう値を修正する(ステップ1807、1808、1811)。以下全ての2文字連鎖、および登録文字列について実施し(ステップ1812〜1814)、生成された文字連鎖データを2文字連メモリ2004に格納する。
【0117】
次に文字列照合の方法について説明する。
検索文字列として第17図(j)1732の「いaあいa」を例として説明する。検索文字列を2文字連鎖「いa」1733、次の2文字連鎖「aあ」1734、以下同様にして1735〜1736までを作成する。この2文字連鎖に該当する文字連鎖データを2文字連鎖メモリ2004から取り出し、1733から順番に連続性の照合を行う。連続性の照合の概念は第17図(k)示している。2文字連鎖「いa」1733に該当する文字連鎖データを「いa」の文字連鎖データである第17図(g)を先頭から検索し、文字連鎖データ1722を取り出す。文字連鎖データ1722の文字種を調べ、予め指定した特殊文字「a」を第2文字に含んでいるので、「a」の出現回数を特殊文字出現カウンタメモリ(第20図の2007)に格納する。次に2文字連鎖「いa」に続く2文字連鎖「aあ」に該当する文字連鎖データを「aあ」の文字連鎖データである第17図(h)を先頭から検索し、文字連鎖データ1722の第2文字の出現回数と第17図(h)の文字連鎖データの第1文字の出現回数が一致するかを調べ、文字連鎖データ1723を取得する。これにより文字連鎖データ1722と1723は連続と判定する。
【0118】
次に2文字連鎖「aあ」に続く2文字連鎖「あい」に該当する文字連鎖データを「あい」の文字連鎖データである第17図(f)を先頭から検索し、文字連鎖データ1723の第2文字の出現回数と第17図(f)の文字連鎖データの第1文字の出現回数が一致するかを調べ、文字連鎖データ1724を取得する。これにより文字連鎖データ1723と1724は連続と判定する。
【0119】
次に2文字連鎖「あい」に続く2文字連鎖「いa」に該当する文字連鎖データを「いa」の文字連鎖データである第17図(g)を先頭から検索し、文字連鎖データ1724の第2文字の出現回数と第17図(g)の文字連鎖データの第1文字の出現回数が一致するかを調べる。ここで2文字連鎖「いa」には再度特殊文字「a」が出現したため特殊文字出現カウンタ1738の値を1つ増やす(1738)。第17図(g)の先頭から、文字連鎖データ1724の第2文字の出現回数と「いa」の文字連鎖データの第1文字の値と一致する文字連鎖データを調べると1722があるが、特殊文字の出現回数を特殊文字出現カウンタ1738から2であることから、次の文字連鎖データを探し1725を得る。これにより文字連鎖データ1724と1725は連続と判定し、検索文字列を含む登録文字列が存在すると判定する。
【0120】
以上の文字列照合の方法は、第19図のフローおよび第20図の文字列照合装置の構成により実現される。第20図において、2005は検索する文字列から2文字連鎖を作成する2文字連鎖検出器、2006は2文字連鎖を構成する各文字種を調べ、2文字連鎖が特殊文字を含まない場合は、文字連鎖検出器2005で検出された連続した文字連鎖に該当する文字連鎖データに対して、検出された文字連鎖データの第2文字の出現回数と、文字連鎖に続く文字連鎖の文字連鎖データの第1文字の出現回数を比較することにより、検索文字列としての文字連鎖の連続の有無を判定し、2文字連鎖が特殊文字を含む場合は、文字連鎖検出器2005で検索された連続した文字連鎖に該当する文字連鎖データに対して、比較手段と同様に文字の出現回数と比較し、比較する際に指定された特殊文字列の出現回数を特殊文字出現カウンタメモリ2007に記憶し、連続した文字連鎖以外では出現回数が重複しないことを基準として比較する比較器、2008は比較器2007の結果から、文字連鎖データの連続性の連続の有無を判定する制御器で構成されている。第19図で2文字連鎖検出器2005は検索文字列を読み取り(ステップ1901)、2文字連鎖Ak,Ak+1を作成し(ステップ1902)、2文字連鎖を先頭からセットし(ステップ1903)、比較器2006は、2文字連鎖検出器2005から2文字連鎖を、連続性の照合ができなくなるまで取り出し(ステップ1904)、さらに2組の2文字連鎖(Ak,Ak+1)、(Ak+1,Ak+2)(Ak,Ak+1,Ak+2はk,K+1,K+2番目の文字種)に対応する文字連鎖データSl(N(Ak),N(Ak+1))、Sm(M(Ak),M(Ak+1))(Sl,Smはl,m番目の文字連鎖データ、N(Ak),M(Ak+1)は各々文字種Ak,Ak+1の出現回数または値)を先頭から取り出し(ステップ1905)、2文字連鎖に特殊文字が含まれているかを調べる(ステップ1906)。特殊文字が含まれている場合は、特殊文字の出現回数N(Ak)またはN(Ak+1)をTとして格納し、次に文字連鎖データSlの第2文字の出現回数N(Ak+1)と文字連鎖データSmの第1文字の出現回数M(Ak+1)が一致しているかどうかを調べ(ステップ1908)、一致していなければSmの次の文字連鎖データSm+1にセットし(ステップ1910)、ステップ1905に移る。出現回数が一致し、特殊文字を特殊文字を含む文字連鎖データで、かつ特殊文字の出現回数Tに一致しているかを判定し(ステップ1909)、ステップ1909の条件を満たさない場合は、文字連鎖データは連続と判定した結果を制御器2008に返し(ステップ1911)、次の2文字連鎖の連続照合に入る(ステップ1912)。
【0121】
この時特定の特殊文字「a」の出現回数が他の文字種に比べて多い場合に文字連鎖による文字列照合を行うことが可能となる。
なお、本発明の第8の方法で、検索文字列で「aあい」のように先頭に特殊文字を含む検索を行う場合、「あい」の文字連鎖データの第1文字の出現回数は0であることから、「aあ」の文字連鎖データを参照することなく、「あい」の文字連鎖データで第1文字の出現回数が0であるかを最初に判定することで照合処理を短縮することができる。
【0122】
(実施の形態9)
第22図は本発明の第9の方法の文字列照合の方法の概念を示している。第22図(a)において、2201は登録時に入力される文字列「いろaはに」、2202は最初に登録される2文字連鎖「いろ」、2203は2202に続く特殊2文字連鎖であり、2202の第1文字と特殊文字「a」の次の文字「は」の組にした特殊2文字連鎖「いは」、または2003は、特殊文字「a」に続く2文字連鎖「はに」(2204)の第1文字である。第22図(c)において、2205は検索時の検索文字列「いろaはに」、続いて2文字連鎖2206「いろ」、2206の第1文字と特殊文字の直後の文字「は」を組とした文字連鎖2207「いは」、特殊文字「a」の後の2文字連鎖「はに」である。
【0123】
第22図(b)において、2文字連鎖2202は「い」および「ろ」の出現回数n1、n2を、2文字連鎖2203は「い」および「は」の出現回数n1、n3を、2文字連鎖2204は「は」および「に」の出現回数n3、n4を記憶する。
【0124】
このとき本発明の第9の方法による照合方法では、2文字連鎖の個数の少ない方の文字連鎖または特殊2文字連鎖を優先させて図22(b)より検索する。たとえば(1)2文字連鎖「いろ」の個数が2文字連鎖「いは」の個数よりも多い場合には、2文字連鎖「いは」を最初の検索文字連鎖とする、逆の場合は2文字連鎖「いろ」を、または(2)特殊文字の前の2文字連鎖と、特殊文字の前の2文字連鎖の第1文字と特殊文字の直後の文字との組み合わせの2文字連鎖を最初の検索文字連鎖となる。以下文字列の照合は第4の発明と同様に、特殊2文字連鎖2207および2文字連鎖2206を検出し、続けて特殊文字連鎖2207の第2文字「は」の出現回数n3と、2文字連鎖2208の第1文字「は」の出現回数が一致するか否かを判断する。以上により文字列の照合がなされる。
【0125】
第21図は本発明の第9の方法の一実施例における文字列照合装置の構成を示したものである。第21図において、2101は登録する文字列2201から特殊文字「a」を検出する特殊文字検出器、2102は文字列2201から特殊文字がない場合に2文字連鎖を生成し、文字の出現回数を組として2文字連鎖メモリ2104に登録する2文字連鎖2202、2204を検出する2文字連鎖検出器、2103は文字列2201から特殊文字をまたいだ特殊文字連鎖2203を生成し、文字の出現回数を組として2文字連鎖メモリ2104に登録する特殊2文字連鎖検出器、2105は検索する文字列2205から特殊文字「a」を検出する特殊文字検出器、2106は文字列2201から特殊文字がない場合に2文字連鎖を生成し、2文字連鎖2202、2204を検出する2文字連鎖検出器、2107は文字列2205から特殊文字をまたいだ特殊文字連鎖2203を生成する特殊2文字連鎖検出器、2108は、2文字連鎖検出器2106および特殊2文字連鎖検出器2107から2文字連鎖2207または2文字連鎖2206を2文字連鎖メモリ2104から検出し、比較器2108で文字の出現回数から文字連鎖の連続性を判断し、検索文字列の一致を制御部2109で判断する。
【0126】
よって、この方法では特定の特殊文字「a」はその出現回数に関係なく前後の文字と連鎖を生成することができるため、特殊文字「a」の制限を受けることなく文字連鎖による文字列照合を行うことができる。
なお、特殊文字を含む照合、たとえば「aは」の場合は、特殊文字を無視して「は」を第1文字とする文字連鎖の照合を行いことができることはいうまでもない。
【0127】
(実施の形態10)
図23は本発明の第10の実施の形態におけるによる文字列照合装置のブロック構成図、図24は本発明の第10の方法による文字列照合の方法の概念、及び全文検索データを記憶した記録媒体の記憶形式を示している。
【0128】
図24(a)において、2401は登録時に入力される文字列「いろaはに」、2402は最初に登録される2文字連鎖「いろ」、2403は2402の次の3文字連鎖「ろaは」、2404は2403の次の2文字連鎖「はに」である。 ここで「a」は、文字列に意味の区切りなどのために挿入されている特殊文字を示す。
【0129】
図24(c)において、2411は検索時の検索文字列「いろaはに」、2412は最初に検索される2文字連鎖「いろ」、2413は2412の次の3文字連鎖「ろaは」、2414は2413の次の2文字連鎖「はに」である。
【0130】
図24(b)において、2文字連鎖2402は「い」の出現位置nを、3文字連鎖2403は「ろ」の出現位置n+1を、2文字連鎖2404は「は」の出現位置n+2を記憶する。2文字連鎖2402、2404と3文字連鎖2403は異なる領域に記憶し、2文字連鎖か3文字連鎖かを識別する。
検索文字列図24(c)の入力に対し、本発明の第10の方法による照合方法では、2文字連鎖2412の「いろ」に該当する2文字連鎖2402を2文字連鎖を格納した領域から検出し、このときの出現位置nと、2412の次の3文字連鎖2413の「ろaは」に該当する3文字連鎖2403「ろは」を3文字連鎖が格納された領域から検出し、このときの出現位置n+1が前記の2402の出現位置+1と一致するか否か判断する。一致したら、次に2413の次の2文字連鎖2414「はに」に該当する2文字連鎖2404を2文字連鎖を格納する領域から検出し、このときの出現位置n+2が前記の2403の出現位置+1と一致するか否か判断する。一致したら、文字列211は201に一致したと判断する。以上により、文字列の照合がなされる。
【0131】
図23は本発明の第10の方法の一実施の形態における文字列照合装置の構成を示したものである。
【0132】
図23において、2301は登録する文字列2401から登録する2文字連鎖2402、2404、およびそれらの出現位置を検出する2文字連鎖位置検出器、2302は登録する文字列2401から登録する3文字連鎖2403およびその出現位置を検出する3文字連鎖位置検出器、2303は2文字連鎖2402、2404およびそれらの出現位置を格納する2文字連鎖位置メモリ、2304は3文字連鎖2403およびその連鎖の出現位置を格納する3文字連鎖位置メモリ、2311は検索する文字列2411から検索する2文字連鎖2412、2414を検出する2文字連鎖検出器、2312は検索する文字列211から検索する3文字連鎖2413を検出する3文字連鎖検出器、2313は2文字連鎖検出器2311より検出された2文字連鎖2412、2414を2文字連鎖位置メモリ2303で検出するかまたは、3文字連鎖検出器2312より検出された3文字連鎖2413を3文字連鎖位置メモリ2304で検出し、検出したそれぞれの文字連鎖の出現位置が直前に検出した文字連鎖の出現位置+1に一致するか否か判断する比較器、2314は2文字連鎖検出器2311および3文字連鎖検出器2312から検出される全ての2文字または3文字の連鎖についての一致を比較器2313で判断し、文字列の一致を判断する制御部である。
【0133】
以上ように構成された文字列照合装置において、2文字連鎖位置メモリ2303に図24(b)の2402、2404の2文字連鎖が、3文字連鎖位置メモリに図24(b)の2403の3文字連鎖が格納されており、検索文字列として図24(c)の「いろaはに」が入力された場合の動作について説明する。
【0134】
検索文字列「いろaはに」が入力されると、2文字連鎖検出器は、予め特殊文字として指定された「a」を含まない2文字連鎖、「いろ」「はに」を検出し、比較器2313に出力する。また、3文字連鎖検出器は、予め特殊文字として指定された「a」を中心に、「a」が挿入された3文字連鎖「ろaは」を検出し比較器2313に出力する。
【0135】
このとき、比較器への出力は、連鎖順「いろ」「ろaは」「はに」としてもよいし、また、文字の連鎖情報と共に、「いろ」「ろaは」「はに」を同時に出力してもよい
【0136】
比較器2313は、2文字連鎖検出器からの出力か3文字連鎖検出器からの出力かを区別し、それぞれ2文字連鎖メモリ103、3文字連鎖メモリ104から「いろ」「はに」と「ろaは」に対応する「ろは」の連鎖を検出し、出現回数に基づき連鎖を判断する。
【0137】
比較器が2文字連鎖か3文字連鎖かを区別し、それぞれ異なる連鎖メモリから検出することにより、検索対象文字列として「いろaはに」と「いろはに」を区別して検索することが可能となる。
【0138】
以上のように、本実施の形態によれば、予め指定された特定の特殊文字「a」の出現回数に制限を受けることなく、特殊文字による連鎖メモリの増大を避けることができ、同時に出現回数の一致による連鎖の抽出処理を効率的に行うことが可能となる。
【0139】
なお、本実施の形態では特殊文字を「a」と表現したが、特殊文字の並び「a、a・・・,a」を「a」と置き換えることにより、特殊文字の出現回数に制限を受けることなく、特殊文字の挿入の有無を区別した文字連鎖による文字列照合を行うことが可能となる。
【0140】
即ち、「いろ(特殊文字1つ以上)はに」と「いろはに」を異なる検索文字とした検索が可能となる。
【0141】
また、本実施の形態では2文字連鎖と3文字連鎖(特殊文字の挿入)を区別するために異なる連鎖メモリを設けたが、同一メモリに2文字連鎖か3文字連鎖かを識別する変位を設けて、例えば図24(d)のように2文字連鎖と3文字連鎖を記憶することができる。この場合、文字連鎖2402、2403、2404の出現位置をn、n+1、n+3、変位を1、2、1とし、各文字連鎖の連続性を各文字連鎖の出現位置がその文字連鎖の直前の文字連鎖の出現位置+変位と一致するか比較することで、2文字連鎖か3文字連鎖かの識別が変位により識別され、同一の領域にこれらのデータを格納して、本発明の第10の方法により、文字列の照合を行うことができる。
【0142】
(実施の形態11)
図26は、本発明の第11の実施の形態における文字列照合装置の構成を示す概念図、図25は本発明の第11の方法による文字列照合の方法の概念、及び全文検索データを記憶した記録媒体の記憶形式を示している。
【0143】
図26(a)において、2601は登録時に入力される文字列「いろaはに」、2602は文字列2601に対して特定の特殊文字「a」をその後の文字「は」により一意に決めた「a1」に変更した文字列「いろa1はに」、2603は最初に登録される2文字連鎖「いろ」、2604は2603の次の2文字連鎖「ろa1」、2605は2604の次の2文字連鎖「a1は」、2606は2605の次の2文字連鎖「はに」である。
【0144】
ここで「a」は、文字列に意味の区切りなどのために挿入されている特殊文字、「a1」は、検索対象とならない特定の記号、コードを表す。
【0145】
図26(c)において、2611は検索時の検索文字列「いろaはに」、2612は文字列2611に対して特定の特殊文字「a」をその後の文字「は」により一意に決めた「a1」に変更した文字列「いろa1はに」、2613は最初に検索される2文字連鎖「いろ」、2614は2613の次の2文字連鎖「ろa1」、2615は2614の次の2文字連鎖「a1は」、2616は2615の次の2文字連鎖「はに」である。
【0146】
図26(b)において、2文字連鎖2603は「い」の検索対象文字列における出現位置nを、2文字連鎖2604は「ろ」の出現位置n+1を、2文字連鎖2605は「a1」の出現位置n+2を、2文字連鎖2606は「は」の出現位置n+3を記憶する。
【0147】
このとき本発明の第11の方法による照合方法では、2文字連鎖2613の「いろ」に該当する2文字連鎖2603を検出し、また2613の次の2文字連鎖2614の「ろa1」に該当する2文字連鎖2604を検出し、このときの2文字連鎖2604の出現位置n+1が前記検出の2文字連鎖2603の出現位置nに+1したものと一致するか否か判断する。一致したら、次に2604で検出した出現位置n+1に+1した値と、2614の次の2文字連鎖の「a1は」に該当する2文字連鎖2605の出現位置n+2が一致するか否か判断する。一致したら、次に2605で検出した出現位置n+2に+1値と、2615の次の2文字連鎖の「はに」に該当する2文字連鎖2606の出現位置n+3が一致するか否か判断する。一致したら、文字列2611は2601に一致したと判断する。以上により、文字列の照合がなされる。
【0148】
図25は本発明の第11の方法の一実施の形態における文字列照合装置の構成を示したものである。
【0149】
図25において、2501は登録する文字列2601を特定の特殊文字「a」をその後の文字「は」により一意に決めた「a1」に変更した文字列2602に変更する文字列変換器、2502は文字列2602から登録する2文字連鎖2603、2604、2605、2606およびそれらの2文字連鎖の出現位置を検出する2文字連鎖位置検出器、2503は2文字連鎖2603、2604、2605、2606およびそれらの文字連鎖の出現位置を格納する2文字連鎖位置メモリ、2504は検索する文字列2611を特定の特殊文字「a」をその後の文字「は」により一意に決めた「a1」に変更した文字列2612に変更する文字列変換器、2505は文字列2612において検索する2文字連鎖2613、2614、2615、2616を検出する2文字連鎖検出器、2506は2文字連鎖検出器2505より検出された2文字連鎖2613、2614、2615、2616を2文字連鎖位置メモリ2503で検出し、検出した2文字連鎖の出現位置が直前に検出した2文字連鎖の出現位置に+1したものに一致するか否か判断する比較器、2507は2文字連鎖検出器2505から検出される全ての2文字連鎖について比較器2506で判断し、文字列の一致を判断する制御部である。
【0150】
以上ように構成された文字列照合装置において、その動作さについて説明する。登録文字列が入力されると文字列変換手段2501は、予め指定された特殊文字「a」をその後の文字により予め決められた検索対象とならない記号、コード、即ち、検索文字列以外の記号、コードに変換して出力する。
【0151】
文字列変換手段には、図26(d)のように、特殊記号の後の文字に対応し、どの記号に変換するその対応が格納されている。この対応は2621、2622のように文字毎に異なる対応でも、また、2623のように文字のグループに対応するものでもよい。
【0152】
変換された文字列は、2文字連鎖検出器により実施の形態10と同様に2文字連鎖とその出現位置とが検出され、2文字連鎖位置メモリに格納される。
【0153】
一方、検索文字列が与えられると文字列変換器2504により、文字列変換2501で用いした対応と同一の対応に従い、特殊文字を検索文字列以外の記号、コードに変換し、2文字連鎖検出器に出力する。2文字連鎖検出器は2文字連鎖を検出し、比較器2506に出力する。
【0154】
比較器2506は実施の形態10と同様の手順に従い2文字連鎖メモリの内容に従い文字連鎖の一致を検出する。但し、実施の形態11では、実施の形態10のように比較器が、2文字連鎖か3文字連鎖かを区別する必要はない。
【0155】
以上のように、本実施の形態によれば、出現頻度の高い特殊文字「a」の連鎖メモリの増大を避けることができ、また、同一の特殊文字を後の文字に従い異なる複数の文字に変換することにより、連鎖を抽出するための出現回数の一致を調べる候補が複数に分散されることにより、その処理時間が短くてすむ。
【0156】
なお、本実施の形態では特殊文字「a」を、その後の文字によって変換先を決めたが、特殊文字の前の文字により、変換先を決めた場合でも同様の効果を得られることは明らかでる。
【0157】
なお、計算機として実装した場合の概略図は図1(a)と同じであり、本実施の形態では、2文字連鎖位置メモリ2503が外部記録装置40に対応する。
【0158】
また、本実施の形態では図26(b)のような2文字連鎖位置メモリを設けたが、同一メモリに2文字連鎖位置情報として変位を設けて、例えば図26(e)のように2文字連鎖を記憶することができる。この場合、文字連鎖2603、2604、2605、2606の出現位置をn、n+1、n+2、n+3、変位を1、1、1、1として、各文字連鎖の連続性を各文字連鎖の出現位置がその文字連鎖の直前の文字連鎖の出現位置+変位と一致するか比較することで、本発明の第11の方法により、文字列の照合を行うことができる。
【0159】
(実施の形態12)
図27は、本発明の第12の実施の形態における文字列照合装置の構成を示すブロック図、図28は本発明の文字列照合の第12の方法の概念、及び全文検索データを記憶した記録媒体の記憶形式を示している。
【0160】
図28(a)において、2801は登録時に入力される文字列「いろaはに」、2802は文字列601に対して特定の特殊文字「a」をその前の文字「ろ」は「ろ」および「ろ」により一意に決まる「ろ’」からなる「ろろ’」に、またその後の文字「は」は「は」により一意に決まる「は’」および「は」からなる「は’は」に変更した文字列「いろろ’は’はに」、2803は最初に登録される2文字連鎖「いろ」、2804は2803の次の2文字連鎖「ろろ’」、2805は2804の次の2文字連鎖「ろ’は’」、2806は2805の次の2文字連鎖「は’は」、2807は2806の次の2文字連鎖「はに」である。
【0161】
ここで「a」は、文字列に意味の区切りなどのために挿入されている特殊文字、「ろ’」「は’」は、検索対象とならない特定の記号、コードを表す。
【0162】
図28(c)において、2811は検索時の検索文字列「いろaはに」、2812は文字列2811に対して特定の特殊文字「a」をその前の文字「ろ」は「ろ」および「ろ」により一意に決まる「ろ’」からなる「ろろ’」に、またその後の文字「は」は「は」により一意に決まる「は’」および「は」からなる「は’は」に変更した文字列「いろろ’は’はに」、2813は最初に検索される2文字連鎖「いろ」、2814は2813の次の2文字連鎖「ろろ’」、2815は2814の次の2文字連鎖「ろ’は’」、2816は2815の次の2文字連鎖「は’は」、2817は2816の次の2文字連鎖「はに」である。
【0163】
図28(b)において、2文字連鎖2803は「いろ」の出現位置nを、2文字連鎖2804は「ろろ’」の出現位置n+1を、2文字連鎖2805は「ろ’は’」の出現位置n+2を、2文字連鎖2806は「は’は」の出現位置n+3を、2文字連鎖2807は「はに」の出現位置n+4を記憶する。
【0164】
このとき本発明の第12の方法による照合方法では、2文字連鎖2813の「いろ」に該当する2文字連鎖2803を検出し、2803の出現位置nに+1した値と、2813の次の2文字連鎖2814の「ろろ’」に該当する2文字連鎖2804を検出し、2804の出現位置n+1が一致するか否か判断する。一致したら、次に2804で検出した出現位置n+1に+1した値と、2814の次の2文字連鎖の「ろ’は’」に該当する2文字連鎖2805を検出し、2805の出現位置n+2が一致するか否か判断する。一致したら、次に2805で検出した出現位置n+2に+1した値と、2815の次の2文字連鎖の「は’は」に該当する2文字連鎖2806を検出し、2806の出現位置n+3が一致するか否か判断する。一致したら、次に2806で検出した出現位置n+3に+1した値と、2816の次の2文字連鎖の「はに」に該当する2文字連鎖2807を検出し、2807の出現位置n+4が一致するか否か判断する。一致したら、文字列2811は2801に一致したと判断する。以上により、文字列の照合がなされる。
【0165】
図27は本発明の第12の方法の一実施の形態における文字列照合装置の構成を示したものである。
【0166】
図27において、2701は登録する文字列2801に対して特定の特殊文字「a」をその前の文字「ろ」は「ろ」および「ろ」により一意に決まる「ろ’」からなる「ろろ’」に、またその後の文字「は」は「は」により一意に決まる「は’」および「は」からなる「は’は」に変更した文字列2802に変更する文字列変換器、2702は文字列2802から登録する2文字連鎖2803、2804、2805、2806、2807およびそれらの出現位置を検出する2文字連鎖位置検出器、2703は2文字連鎖2803、2804、2805、2806、2807およびそれらの出現位置を格納する2文字連鎖位置メモリ、2704は検索する文字列2811を特定の特殊文字「a」をその前の文字「ろ」は「ろ」および「ろ」により一意に決まる「ろ’」からなる「ろろ’」に、またその後の文字「は」は「は」により一意に決まる「は’」および「は」からなる「は’は」に変更した文字列2812に変更する文字列変換器、2705は文字列2812において検索する2文字連鎖2813、2814、2815、2816、2817を検出する2文字連鎖検出器、2706は2文字連鎖検出器2705より検出された2文字連鎖2813、2814、2815、2816、2817を2文字連鎖位置メモリ2703で検出し、検出した2文字連鎖の出現位置が直前に検出した2文字連鎖の出現位置に+1した値に一致するか否か判断する比較器、2707は2文字連鎖検出器2705から検出される全ての2文字連鎖について比較器2706で判断し、文字列の一致を判断する制御部である。
【0167】
本発明における特殊文字をその前後の隣接する文字により一意に定まる文字に変換する手段として、図28(d)のように、特殊文字がその隣接する文字に対応してどの文字に変換されるか、その対応が格納されている。この対応は2821、2822のように文字毎に異なる対応でも、また、2823のように文字のグループに対応するものでもよい。
【0168】
以上ように、本実施の形態によれば、特殊文字「a」の出現回数に制限を受けること無く文字連鎖による文字列照合を行うことが可能となる。
【0169】
即ち、実施の形態によれば特殊文字「a」はその前後の文字により別々の文字に変換され、変換された文字の出現回数が記録されるため、実施の形態11に比べ、2文字連鎖ファイルがさらに細かく分散されることにより、使用頻度の高い特殊文字の出現頻度の高い特殊文字「a」の連鎖メモリの増大を避けることができ、同時に、連鎖の抽出処理の効率化が図れる。
【0170】
なお、計算機として実装した場合の概略図は図1(a)と同じであり、この場合、2文字連鎖メモリ2703が外部記録装置40に対応する。
【0171】
また、本実施の形態では図28(b)のような2文字連鎖位置メモリを設けたが、同一メモリに2文字連鎖位置情報として変位を設けて、例えば図28(e)のように2文字連鎖を記憶することができる。この場合、文字連鎖2803、2804、2805、2806、2807の出現位置をn、n+1、n+2、n+3、n+4、変位を1、1、1、1、1として、各文字連鎖の連続性を各文字連鎖の出現位置がその文字連鎖の直前の文字連鎖の出現位置+変位と一致するか比較することで、本発明の第12の方法により、文字列の照合を行うことができる。
【0172】
(実施の形態13)
図29は、本発明の第13の実施の形態における文字列照合装置の構成を示すブロック図、図30は本発明の文字列照合の第13の方法の概念、及び全文検索データを記憶した記録媒体の記憶形式を示している。
【0173】
図30は本発明の第13の方法の文字列照合の方法の概念を示している。図30(a)において、3001は登録時に入力される文字列「いろaはに」、3002は最初に登録される2文字連鎖「いろ」、3003は3002の次の特殊文字が挿入された3文字連鎖「ろaは」の第2文字で特殊文字「a」を次の第3文字「は」に変換した3文字連鎖「ろはは」、3004は3文字連鎖3003の第1文字と第2文字による2文字連鎖「ろは」、3005は3文字連鎖3003の第2文字と第3文字による第1文字が特殊文字「a」に対応する特殊2文字連鎖「はは」、3006は3005の次の2文字連鎖「はに」である。図30(c)において、3011は検索時の検索文字列「いろaはに」、3012は最初に検索される2文字連鎖「いろ」、3013は3012の次の特殊文字が挿入された3文字連鎖「ろaは」の第2文字で特殊文字「a」を次の第3文字「は」に変換した3文字連鎖「ろはは」、3014は3文字連鎖3013の第1文字と第2文字による2文字連鎖「ろは」、3015は3文字連鎖3013の第2文字と第3文字による第1文字が特殊文字「a」に対応する特殊2文字連鎖「はは」、3016は3015の次の2文字連鎖「はに」である。
【0174】
図30(b)において、2文字連鎖3002は「いろ」の出現位置nを、2文字連鎖3004は「ろは」の出現位置n+1を、特殊2文字連鎖3005は別の領域に「はは」の出現位置n+2を、特殊2文字連鎖の次の2文字連鎖3006は「はに」の出現位置を特殊2文字連鎖3005の出現位置と同じ値n+2を記憶する。
【0175】
このとき本発明の第13の方法による照合方法では、2文字連鎖3012の「いろ」に該当する2文字連鎖3002を検出し、3002の出現位置nに+1した値と、3012の次の3文字連鎖3013の最初の2文字連鎖3014の「ろは」に該当する2文字連鎖3004の出現位置n+1が一致するか否か判断する。一致したら、次に3004で検出した出現位置n+1に+1した値と、3014の次の特殊2文字連鎖3015「はは」に該当する特殊2文字連鎖3005の出現位置n+2が一致することを検出する。次に3005の出現位置n+2と、3015の次の2文字連鎖3016の「はに」に該当する2文字連鎖3006の出現位置が一致するか否か判断する。一致したら、文字列3011は3001に一致したと判断する。以上により、文字列の照合がなされる。
【0176】
図29は本発明の第13の方法の一実施例における文字列照合装置の構成を示したものである。
【0177】
図29において、2901は登録する文字列3001に対して第2文字が特殊文字の3文字連鎖3003および2文字連鎖3002、3006を識別し、3文字連鎖3003の場合は第2文字の特殊文字を第3文字と同じ文字に変換し、且つ、第2文字の文字位置と第3文字の文字位置を同じにする3文字連鎖検出器、2902は2901より入力される2文字連鎖3002、3006の出現位置を検出する2文字連鎖位置検出器、2903は2901より入力される3文字連鎖3003の第1文字と第2文字からなる2文字連鎖3004と第2文字と第3文字からなる特殊2文字連鎖3005の2つの2文字連鎖及び各文字連鎖の出現位置を検出する特殊2文字連鎖生成器、2904は2文字連鎖3002、3004、3006およびそれらの文字連鎖の出現位置を格納する2文字連鎖位置メモリ、2905は特殊2文字連鎖3005およびその文字連鎖の出現位置を格納する特殊2文字連鎖位置メモリ、2911は検索する文字列3011に対して第2文字が特殊文字の3文字連鎖3013および2文字連鎖3012、3016を識別し、3文字連鎖3013の場合は第2文字の特殊文字を第3文字と同じ文字に変換する3文字連鎖検出器、2912は2911より入力される2文字連鎖3012、3016を検出する2文字連鎖検出器、2913は2911より入力される3文字連鎖3013の第1文字と第2文字からなる2文字連鎖3014と第2文字と第3文字からなる特殊2文字連鎖3015の2つの2文字連鎖を検出する特殊2文字連鎖生成器、2914は2文字連鎖検出器2912より検出された2文字連鎖3012、3014、3016を2文字連鎖メモリ2904で検出するかまたは、特殊2文字連鎖生成器2913より生成された特殊2文字連鎖3015を2文字連鎖メモリ2904で検出し、検出したそれぞれの文字連鎖が特殊2文字連鎖の場合はその出現位置が直前に検出した文字連鎖の出現位置と一致するか、または特殊2文字連鎖でない場合はその出現位置が直前に検出した文字連鎖の出現位置に+1した値と一致するか否か判断する比較器、2915は2文字連鎖検出器2912および特殊2文字連鎖検出器2913から検出される全ての2文字の連鎖についての一致を比較器2914で判断し、文字列の一致を判断する制御部である。
【0178】
よって、この時特定の特殊文字「a」の出現に制限を受けること無く文字連鎖による文字列照合を行うことが可能となる。
【0179】
また、本実施の形態では図30(b)のように2文字連鎖と特殊2文字連鎖(特殊文字の挿入)を区別するために異なる連鎖メモリを設けたが、同一メモリに2文字連鎖か特殊文字連鎖かを識別する変位を設けて、例えば図30(d)のように2文字連鎖と特殊2文字連鎖を記憶することができる。この場合、文字連鎖3002、3004、3005、3006の出現位置をn、n+1、n+2、n+2、変位を1、1、0、1として、各文字連鎖の連続性を各文字連鎖の出現位置がその文字連鎖の直前の文字連鎖の出現位置+変位と一致するか比較することで、2文字連鎖か特殊2文字連鎖かの識別が変位により識別され、同一の領域にこれらのデータを格納して、本発明の第15の方法により、文字列の照合を行うことができる。
【0180】
(実施の形態14)
第32図は本発明の文字列照合の第14の文字列の登録方法の概念を示している。
【0181】
第32図(a)において、3201は登録時に入力される登録文字列「いろaはにbいろaはに」であり、「a」「b」が特殊文字、文書番号はNとなっている。最初の登録文字列に対して番号付けを行う。3216は登録文字列3201の文字位置および固有の番号であり、登録文字列の先頭をnとして特殊文字「a」「b」を除いて昇順に番号付けし、先頭の文字「い」に対して文字位置はn、4文字目の「は」はn+2、以下同様に特殊文字を除いた番号付けがされている。また特殊文字「a」「b」に対しては固有の番号が付けられ、「a」にはm、「b」にはlが番号付けされている。次に2文字連鎖の作成を行う。登録文字列3201において特殊文字「a」「b」を含まない文字連鎖を探し、2文字連鎖「いろ」3202、2文字連鎖「はに」3203、2文字連鎖「いろ」3204、2文字連鎖「はに」3205を作成する。続けて、特殊文字を含む特殊2文字連鎖「ろa」3206、特殊2文字連鎖「aは」3207および特殊文字「a」の直前の文字「ろ」と直後の文字「は」を組合せた特殊2文字連鎖「ろは」3208を作成する。以下同様にして、登録文字列の6文字目の特殊文字「b」に対しては特殊2文字連鎖「にb」3209、「bい」3210、「にい」3210、登録文字列の9文字目の特殊文字「a」に対しては特殊2文字連鎖「ろa」3212、「aは」3213、「ろは」3213を作成する。
【0182】
第32 図(b)(c)は、第32図(a)で作成した2文字連鎖、特殊2文字連鎖から作成される文字連鎖情報を示している。文字連鎖情報は2文字連鎖または特殊2文字連鎖、文字位置、文書番号から構成されており、文字連鎖の第1文字の文字種毎、文書番号順にならぶ。始めに第32図(b)について説明する。2文字連鎖「いろ」に対しては、第32図(a)から3202、3204が並び、各2文字連鎖の文字位置はn、n+1となる。同様に2文字連鎖「はに」に対しては3203、3205が並び文字位置はn+2、n+6となる。特殊文字「a」を含むか挟む特殊2文字連鎖に対しては、登録文字列の2番目の文字「ろ」を特殊2文字連鎖の1番目の文字として特殊2文字連鎖「ろは」3208、および「ろ」の直後の特殊2文字連鎖3209を取り出し連続して並べる。この時の文字位置は「ろは」にはn+1、「ろa」にはmを付ける。同様にして登録文字列の8番目の「ろ」に対しては特殊文字連鎖3214、3212の順番でセットする。また特殊2文字連鎖の第1文字目が「a」に対しては第2文字の文字位置を割りあて、「aは」に対しては特殊2文字連鎖3207、3213の文字位置の順番で割りあてる。続いて特殊文字「b」に対する文字連鎖情報の作成は第32図(b)と同様に、「に」を第1文字として特殊2文字連鎖「にい」3211、「にb]3209の順番でセットし、さらに「b」を第1文字として特殊2文字連鎖「bい」3210をセットする。
【0183】
このとき本発明の14の方法による照合方法について第32図(d)を使って説明する。検索文字列3217「いろaはに」に対して、まず先頭から特殊文字「a」の有無を調べ、含まれていなければ2文字連鎖「いろ」3218を作成する。続けて「ろa」「aは」を作成し特殊2文字連鎖3220、3221として検出する。このとき文字「ろaは」は特殊文字「a」を間に含むので特殊2文字連鎖「ろは」3219を検出する。続いて2文字連鎖「はに」3222を検出する。
【0184】
次に検出した2文字連鎖と特殊2文字連鎖に該当する文字連鎖を第32図(b)の文字連鎖情報から取り出す。2文字連鎖「いろ」3218に対応する文字連鎖は図32図(b)の3202、3204があり、最初に3202を取り出す。続いて特殊2文字連鎖「ろは」3219に対応する文字連鎖は図32(b)の3208、3214があり、最初に3208を取り出す。3202と3208の文書番号はともにNとなり一致し、また2つの文字連鎖の文字位置は各々n、n+1となる連続した文字位置であることから3202と3208は連続していると判定する。続いて第32図(b)の文字連鎖情報において特殊2文字連鎖3208に続く文字連鎖を調べ、文字連鎖3206「ろa」を取り出す。3206は、第1文字が「ろ」、第2文字が特殊文字「a」である、文字位置の値が固有値m、かつ文書番号Mであることから、特殊2文字連鎖「ろは」3208に続く特殊2文字連鎖と判定する。
【0185】
次に特殊2文字連鎖「aは」3221に該当する文字連鎖情報を第32図(b)から調べ、特殊2文字連鎖「aは」3207を取り出す。3207の文書番号はN、文字位置はn+2であることから特殊2文字連鎖「ろは」3208の文字位置n+1に続く特殊2文字連鎖と判定する。
【0186】
次に2文字連鎖「はに」3222に該当する文字連鎖情報を第32図(b)から調べ、2文字連鎖「はに」3203を取り出す。3203の文書番号はN、文字位置はn+2であることから特殊2文字連鎖「ろは」3208の文字位置n+1に続く2文字連鎖と判定する。以上のようにして検索文字列3217は登録文字列3201に含まれていると判断する。
【0187】
また、上記照合方法において、2文字連鎖3218に該当する第32図(b)の文字連鎖情報を取り出した際、2つの文字連鎖3202、3204のうち3204についても上記照合方法と同様の方法により、2文字連鎖「いろ」3204(文字位置n+4、文書番号N)、特殊2文字連鎖「ろは」3214(文字位置n+5、文書番号N)、特殊2文字連鎖「ろa」(文字位置m、文書番号N)、特殊2文字連鎖「aは」(文字位置n+6、文書番号N)、2文字連鎖「はに」(文字位置n+6、文書番号N)を検出し文書番号と文字位置の連続性の比較から一致していると判断することができる。以上のことから検索文字列3217は登録文字列3201の2箇所で含まれていると判断する。
【0188】
以下同様の照合方法により検索文字列に特殊文字「b」を含む検索文字列3223「はにbいろ」に対して、第32図(b)と第32図(c)から文字連鎖情報をもとめ、文書番号の一致と文字位置の連続性の照合を行う。2文字連鎖「はに」3224に対して2文字連鎖「はに」3203(文字位置n+2、文書番号N)、特殊2文字連鎖「にい」3225に対して特殊2文字連鎖「にい」3211(文字位置n+3、文書番号N)、特殊2文字連鎖「にb」3226に対して特殊2文字連鎖「にb」(文字位置l、文書番号N)、特殊2文字連鎖「bい」3227に対して特殊2文字連鎖「bい」(文字位置n+4、文書番号N)、2文字連鎖「いろ」3228に対して2文字連鎖「いろ」(文字位置n+4、文書番号N)を取り出し検索文字列3223が登録文字列3201に含まれていると判断する。
【0189】
第31図は本発明の第14の方法の一実施例における文字列照合装置の構成を示したものである。
【0190】
第31図において、3101は登録文字列3201に対して特定の特殊文字「a」を検出し登録文字列の文字位置3216を与える特殊文字検出器、3102は登録文字列3201から2文字連鎖3202、3203、3204、3205と2文字連鎖の文字位置と文書番号を作成する2文字連鎖符号器、3103は登録文字列3201から特殊2文字連鎖3206、3207、3208、3209、3210、3211、3212、3213、3214と特殊2文字連鎖の文字位置と文書番号を作成する特殊2文字連鎖符号器、3104は2文字連鎖符号器3102と特殊2文字連鎖符号器3203で作成した2文字連鎖、特殊2文字連鎖、文字位置、文書番号から第32図(b)(c)の文字連鎖情報を作成し2文字連鎖メモリ3105に格納する文字連鎖組合せ判定器である。
【0191】
3106は検索文字列3217、3223から特殊文字「a」または「b」を検出する特殊文字検出器、3107は2文字連鎖3218、3222、3224、3228を検出する2文字連鎖検出器、3208は特殊2文字連鎖3219〜3221、3225〜3227を検出する特殊2文字連鎖検出器、3109は2文字連鎖および特殊2文字連鎖から照合順番を決め、検索文字列3217の場合は、3218、3219、3220、3221、3222の順番で、検索文字列3223の場合は、3224、3225、3226、3227、3228も順番で文字連鎖を並べる文字連鎖組合せ判定器、3210は、3109文字連鎖組合せ判定器から送られてきた文字連鎖に対応する文字連鎖を2文字連鎖メモリ3105から2つづつ順番に取り出し、2つの文字連鎖の文書番号、文字位置を取り出し3111制御部にデータを送る比較器、3111は比較器3110から送られてきたデータから文字連鎖の連続性の照合を行い、連続していれば次の文字連鎖のデータを比較器3110から取り出し、連続していなければ照合を終了する制御部である。
【0192】
よって、この方法では特定の特殊文字「a」はその出現頻度に関係なく前後の文字と連鎖を生成することができるため、特殊文字「a」の出現回数に制限を受けること無く文字連鎖による文字列照合を行うことが可能となる。
なお、特殊文字を先頭に含む照合、たとえば「aは」の場合は、特殊文字を無視して「は」を第1文字とする文字連鎖の照合を行うことで照合を高速に行うことができることはいうまでもない。
【0193】
(実施の形態15)
第34図は本発明の文字列照合の第15の文字列の登録方法の概念を示している。
【0194】
第34図(a)において、3401は登録時に入力される登録文字列「いろaはにはに」である。登録文字列3401において「a」が特殊文字、登録文字列の文書番号がMである。3402は登録文字列3401の文字から特殊文字「a」を除去し、特殊文字の直後の文字「は」を特殊文字の直後の文字である「は*」としてマークされた登録文字列である。また3409は登録文字列3401の先頭の文字位置をnとし、特殊文字「a」を除いて順に番号を付けた登録文字位置を示している。最初に3402において特殊文字の直後の文字「は*」を除いた2文字連鎖を作成する。3403は「いろ」の2文字連鎖、「には」の2文字連鎖3405、「はに」の2文字連鎖3406を作成する。次に特殊文字「a」の2文字前、すなわち「は*」の2つ前の文字である「い」と「は*」の2文字連鎖「いは*」3407、「は*」の1つ前の文字である「ろ」と「は*」の2文字連鎖「ろは*」3408、「は*」と直後の文字「に」との特殊2文字連鎖「は*に」を作成する。
【0195】
第34 図(b)は、第34図(a)で作成した2文字連鎖、特殊2文字連鎖から作成される文字連鎖情報の構成図を示している。文字連鎖情報は文書番号、2文字連鎖、特殊2文字連鎖、文字位置、特殊2文字連鎖フラグから構成されており、第1文字の文字種毎に2文字連鎖と特殊文字連鎖が連続してならび、特殊2文字連鎖の開始位置が特殊2文字連鎖フラグで示されている。第34 図(b)では文字連鎖情報3411は、文字連鎖の第1文字が「は」および「は」の直後に特殊文字「a」が入る「は*」に対して、文書番号3412、「は」を含む2文字連鎖3413、「は」の文字位置3414となる文字連鎖情報と、文書番号3412、「は*」を含む特殊2文字連鎖3415、「は*」の文字位置(n)3416となる文字連鎖情報と、特殊2文字連鎖3415の位置を示す特殊2文字連鎖フラグ3417から構成される。なお、ここで「は」を第1文字として含む2文字連鎖がN個存在し、2文字連鎖の直後に特殊2文字連鎖が続くので、特殊2文字連鎖フラグ3417には「は*」の開始位置であるN+1が格納されている。また、第2文字が特殊文字「a」の直後の文字である場合は2文字連鎖「はX」(Xは第2文字)に含まれるものとする。
【0196】
第34図(c)では、第34図(a)の場合の文字連鎖情報の格納例を示している。3418は2文字連鎖の第1文字が「い」の文字連鎖情報3419であり、「いろ」の2文字連鎖3419、「い」を第1文字とする2文字連鎖「いは*」3420に格納されている。この場合、特殊2文字連鎖フラグの値は、第1文字に特殊文字「a」の直後の文字を含まないので「0」となる。以下同様に、「ろ」を第1文字とする文字連鎖情報3422には2文字連鎖が格納され、かつ特殊2文字連鎖フラグ3423には値「0」が格納され、「に」を第1文字とする文字連鎖情報3428には2文字連鎖が格納され、かつ特殊2文字連鎖フラグ3429には値「0」が格納される。一方、第1文字を「は」とする文字連鎖情報3424は、2文字連鎖「はに」34 25と「は」の文字位置である「n+4」が最初に格納され、続いて、「は*」を第1文字とする特殊2文字連鎖3426と「は*」の文字位置である「n+2」が文字連鎖情報として格納される。また、「は*」の特殊2文字連鎖フラグは、「は」を第1文字とする文字連鎖情報の2番目に存在するので値「2」が格納される。
【0197】
このとき本発明の15の方法による照合方法について第35図を使って説明する。
第35(a)は、特殊文字「a」を間に含む検索文字列の場合で、先頭から第2文字目に特殊文字が含まれる場合の照合方法を示している。検索文字列3501「ろaはに」に対して、まず特殊文字「a」の続く文字「は」を「は*」として検索文字列3502を作成し、2文字連鎖3503「ろは*」と特殊文字連鎖3504「は*に」を検出する。続いて第34図(c)における文字連鎖情報から第1文字が「ろ」である2文字連鎖を探し、文字連鎖情報3422から2文字連鎖「ろは*」を検出する。この時、「ろは*」の文字位置n+1および文書番号Mを取り出し記憶しておく。次に特殊2文字連鎖3504「は*に」を第34図(cの文字連鎖情報から取得する。特殊2文字連鎖「は*に」の第1文字が「は*」であるから第1文字「は」の文字連鎖情報3424から検出し、「は*」の位置は特殊2文字連鎖フラグ3427から「2」であることから特殊2文字連鎖3426を検出する。このとき3426の文書番号がM、文字位置がn+2であることから、先に検出した2文字連鎖「ろは*」の文書番号と一致し、かつ文字位置n+1の次の文字位置n+2であることから、文字連鎖「ろは*」と「は*に」は連続していると判断し、検索文字列「ろaはに」が登録文字列に含まれていると判断する。以上により文字列の照合がなされる。
【0198】
次に、第35(b)は、特殊文字「a」を先頭に含む検索文字列の場合の照合方法を示している。検索文字列3505「aはに」に対して、まず特殊文字「a」の続く文字「は」を「は*」として検索文字列3506を作成し、特殊文字連鎖3507「は*に」を検出する。続いて第34図(c)における文字連鎖情報から第1文字が「は*」である特殊2文字連鎖を探し、第35図(a)の特殊2文字連鎖「は*に」の文字列照合と同じ方法で文字連鎖情報の連続しているかどうかの判断を行い、文字連鎖情報3424から特殊2文字連鎖3426を検出する。以上により文字列の照合がなされる。なお、検索文字列が「aは」3508の場合は、検索文字列3509を作成し、かつ特殊2文字連鎖3510を検出するが、この場合特殊2文字連鎖の2文字目が存在しないので、文字連鎖情報から文字連鎖を検出する場合は、1文字目が「は*」である文字連鎖情報があれば検出されたと判断する。
【0199】
次に、第35(c)は、特殊文字「a」を間に含む検索文字列の場合で、先頭から3文字目以降に特殊文字を含む場合の文字列の照合方法を示している。検索文字列3511「いろaはに」に対して、まず特殊文字「a」の直後の文字を「は*」として置き換え検索文字列3512を作成する。次に、特殊文字「a」を含まない2文字連鎖「いろ」3513、2文字連鎖「いは*」3514、特殊2文字連鎖3515「は*に」を検出する。続いて第34図(c)における文字連鎖情報から第1文字が「い」である2文字連鎖「いろ」を探し、文字連鎖情報3418から2文字連鎖「いろ」3419を検出する。この時、「いろ」の文字位置nおよび文書番号Mを取り出し記憶しておく。次に2文字連鎖3514「いは*」を第34図(c)の文字連鎖情報から取得する。2文字連鎖「いは*」の第1文字が「い」であるから文字連鎖情報3418から検出し、第2文字が「は*」の2文字連鎖3420を検出する。このとき3420の文書番号がM、文字位置がnで一致することから、先に検出した2文字連鎖「いろ」は連続していると判断し、「いろaは」までが文書番号Mの登録文字列に含まれると判断する。続いて2文字連鎖「いは*」3514と特殊2文字連鎖「は*に」3515との連続性の照合を行う。この照合は第35(a)と同様の処理であるが、「い」と「は*」の文字位置の差が2であることに注意して、「いは*」の2文字連鎖3420の文字位置n、「は*に」の特殊2文字連鎖3426の文字位置がn+2であり文字位置の差が2であることから、文字連鎖「いは*」と「は*に」は連続していると判断し、検索文字列「いろaはに」が登録文字列に含まれていると判断する。以上により文字列の照合がなされる。
【0200】
第33図は本発明の第15の方法の一実施例における文字列照合装置の構成を示したものである。
【0201】
第33図において、3301は登録する文字列3401に対して特定の特殊文字「a」を検出し登録文字位置3409の文字位置3410を与える特殊文字検出器、3302は登録文字列3401から特殊文字「a」の直後の文字「は」を特別の文字とした登録文字列3402から2文字連鎖3403、3405、3406、3407、3408と特殊文字連鎖3404の組み合わせを判定する文字連鎖組合せ判定器、3303は2文字連鎖と文書番号の組を作成し、文字連鎖情報を2文字連鎖メモリ3305に格納する2文字連鎖符号器、3304は特殊文字連鎖と文書番号の組を作成し、文字連鎖情報と特殊文字連鎖フラグを3305の2文字連鎖メモリに格納する特殊2文字連鎖符号器、3306は検索する文字列3501、3505、3508、3511から特定の特殊文字「a」を検出し検索文字列3502、3506、3509、3512を作成する特殊文字検出器、3307は2文字連鎖3503、3507、3510、3513、3514および特殊2文字連鎖3504、3515の組合せを判定する文字連鎖組合せ判定器、3308は2文字連鎖3503、3507、3510、3513、3514を作成する2文字連鎖検出器、3509は特殊2文字連鎖3504、3515を作成する特殊2文字連鎖検出器、3510は、3508、09からの2文字連鎖、特殊2文字連鎖に一致する2文字連鎖および特殊2文字連鎖を2文字連鎖メモリ3505から取り出し、文字の連続性の照合を行う比較器、3511は比較器3510で照合した文字連鎖が一致しなければ照合をやめ、一致すれば次の文字連鎖との照合を比較器3510に命令し、文字の連続性の照合の判断を行う制御部である。
【0202】
よって、この方法では特定の特殊文字「a」はその出現頻度に関係なく前後の文字と連鎖を生成することができるため、特殊文字「a」の出現回数に制限を受けること無く文字連鎖による文字列照合を行うことが可能となる。
なお、特殊文字を先頭に含む照合、たとえば「aは」の場合は、特殊文字を無視して「は」を第1文字とする文字連鎖の照合を行うことで照合を高速に行うことができることはいうまでもない。
【0203】
【発明の効果】
以上のように本発明は、照合を行う文字列に出現頻度の高い特殊文字が含まれている場合の、特殊文字を含む文字連鎖で、この特殊文字の出現の頻度を無視することができるため、このような文字を含む言語の文字列照合に容易に対応でき、その効果は大きい。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態における文字列照合装置の概念図
【図2】本発明の第1の実施の形態における文字列照合の方法を示す概念図
【図3】本発明の第2の実施の形態における文字列照合装置のブロック構成図
【図4】本発明の第2の実施の形態における文字列照合の方法を示す概念図
【図5】本発明の第3の実施の形態における文字列照合装置のブロック構成図
【図6】本発明の第3の実施の形態における登録時の文字列照合方法を示す概念図
【図7】本発明の第3の実施の形態における2文字連鎖の出現回数により文字列照合方法を示す概念図
【図8】本発明の第3の実施の形態における検索時の文字列照合の方法を示す概念図
【図9】本発明の第4の方法の実施例における文字列照合装置のブロック構成図
【図10】本発明の第4の文字列照合の方法を示す概念図
【図11】本発明の第5の方法の実施例における文字列照合装置のブロック構成図
【図12】本発明の第5の文字列照合の方法を示す概念図
【図13】本発明の第6の方法の実施例における文字列照合装置のブロック構成図
【図14】本発明の第6の文字列照合の方法を示す概念図
【図15】本発明の第7の文字列照合の方法を示す概念図
【図16】本発明の第7の方法の実施例における文字列照合装置のブロック構成図
【図17】本発明の第8の2文字連鎖データ作成の方法と文字列照合の方法を示す概念図
【図18】本発明の第8の方法の実施例における2文字連鎖データ作成のフロー図
【図19】本発明の第8の方法の実施例における検索文字列照合のフロー図
【図20】本発明の第8の方法の実施例における文字列照合装置のブロック構成図
【図21】本発明の第9の2文字連鎖データ作成の方法と文字列照合の方法を示す概念図
【図22】本発明の第9の方法の実施例における文字列照合装置のブロック構成図
【図23】本発明の第10の方法の実施の形態における文字列照合装置の概念図
【図24】本発明の第10の方法による文字列照合の方法を示す概念図
【図25】本発明の第11の方法の実施の形態における文字列照合装置のブロック構成図
【図26】本発明の第11の方法による文字列照合の方法を示す概念図
【図27】本発明の第12の方法の実施の形態における文字列照合装置のブロック構成図
【図28】本発明の第12の方法による文字列照合の方法を示す概念図
【図29】本発明の第13の方法の実施の形態における文字列照合装置のブロック構成図
【図30】本発明の第13の方法による文字列照合の方法を示す概念図
【図31】本発明の第14の方法の実施例における文字列照合装置のブロック構成図
【図32】本発明の第14の方法の実施例における文字列照合装置の文字列の登録方法を示す概念図
【図33】本発明の第15の方法の実施例における文字列照合装置のブロック構成図
【図34】本発明の第15の方法の実施例における文字列照合装置の文字列の登録方法を示す概念図
【図35】本発明の第15の方法の実施例における文字列照合装置の文字列照合の方法を示す概念図
【図36】従来の文字列照合装置のブロック構成図
【図37】従来の文字列照合の方法を示す概念図
【符号の説明】
30 本体
31 入力手段
39 プリンタ
38 ディスプレイ
40 外部記録手段
101 2文字連鎖検出器
102 3文字連鎖検出器
103 2文字連鎖メモリ
104 3文字連鎖メモリ
111 2文字連鎖検出器
112 3文字連鎖検出器
113 比較器
114 制御部
301 文字列変換器
302 2文字連鎖検出器
303 2文字連鎖メモリ
304 文字列変換器
305 2文字連鎖検出器
306 比較器
307 制御部
501 文字列変換器
502 2文字連鎖検出器
503 2文字連鎖メモリ
504 文字列変換器
505 2文字連鎖検出器
506 比較器
507 制御部
901 特殊文字検出器
902 2文字連鎖検出器
903 特殊文字連鎖検出器
904 2文字連鎖メモリ
911 特殊文字検出器
912 2文字連鎖検出器
913 特殊文字連鎖検出器
914 比較器
915 制御部
1101 2文字連鎖検出器
1102 3文字連鎖検出器
1103 2文字連鎖メモリ
1104 3文字連鎖メモリ
1111 2文字連鎖検出器
1112 3文字連鎖検出器
1113 比較器
1114 制御部
1301 2文字連鎖検出器
1302 3文字連鎖検出器
1303 特殊2文字連鎖生成器
1304 2文字連鎖メモリ
1311 2文字連鎖検出器
1312 3文字連鎖検出器
1313 特殊2文字連鎖生成器
1314 比較器
1315 制御部
1501 登録文字列
1502 2文字連鎖
1503 2文字連鎖
1504 2文字連鎖
1505 2文字連鎖
1506 2文字連鎖
1507 2文字連鎖
1508 2文字連鎖
1509 2文字連鎖
1510 2文字連鎖
1511 2文字連鎖
1512 2文字連鎖
1513 2文字連鎖
1514 2文字連鎖
1515 2文字連鎖
1516 出現重複数
1517 出現重複数
1601 特殊文字検出器
1602 2文字連鎖検出器
1603 特殊文字連鎖検出器
1604 出現重複メモリ
1605 特殊文字連鎖ソート器
1606 2文字連鎖メモリ
1607 特殊文字検出器
1608 2文字連鎖検出器
1609 特殊文字連鎖検出器
1610 比較器
1611 制御器
1612 出現重複カウンタメモリ
1701 文書番号
1702 第1文字の出現回数
1703 第2文字の出現回数
1704 第1文字が特殊文字の出現回数
1705 第2文字の指定数値
1706 第1文字の指定数値
1707 第2文字の特殊文字の出現回数
1708 登録文字列
1709 2文字連鎖
1710 2文字連鎖
1711 2文字連鎖
1712 2文字連鎖
1713 2文字連鎖
1714 2文字連鎖
1717 2文字連鎖
1716 2文字連鎖
1717 2文字連鎖
1718 2文字連鎖
1719 2文字連鎖
1720 2文字連鎖
1721 文字連鎖データ
1722 文字連鎖データ
1723 文字連鎖データ
1724 文字連鎖データ
1725 文字連鎖データ
1726 文字連鎖データ
1727 文字連鎖データ
1728 文字連鎖データ
1729 文字連鎖データ
1730 文字連鎖データ
1731 文字連鎖データ
1732 検索文字列
1733 2文字連鎖
1734 2文字連鎖
1735 2文字連鎖
1736 2文字連鎖
1737 特殊文字出現カウンタ
1738 特殊文字出現カウンタ
1801〜1814 ステップ
1901〜1912 ステップ
2001 2文字連鎖検出器
2002 出現回数算出器
2003 特殊文字連鎖検出器
2004 2文字連鎖メモリ
2005 2文字連鎖検出器
2006 比較器
2007 特殊文字出現カウンタメモリ
2008 制御器
2101 特殊文字検出器
2102 2文字連鎖検出器
2103 特殊2文字連鎖検出器
2104 2文字連鎖メモリ
2105 特殊文字検出器
2106 2文字連鎖検出器
2107 特殊2文字連鎖検出器
2108 比較器
2109 制御器
2201 登録文字列
2202 2文字連鎖
2203 特殊2文字連鎖
2204 2文字連鎖
2205 検索文字列
2206 2文字連鎖
2207 特殊2文字連鎖
2208 2文字連鎖
2301 2文字連鎖位置検出器
2302 3文字連鎖位置検出器
2303 2文字連鎖位置メモリ
2304 3文字連鎖位置メモリ
2311 2文字連鎖検出器
2312 3文字連鎖検出器
2313 比較器
2314 制御部
2501 文字列変換器
2502 2文字連鎖位置検出器
2503 2文字連鎖位置メモリ
2504 文字列変換器
2505 2文字連鎖検出器
2506 比較器
2507 制御部
2701 文字列変換器
2702 2文字連鎖位置検出器
2703 2文字連鎖位置メモリ
2704 文字列変換器
2705 2文字連鎖検出器
2706 比較器
2707 制御部
2901 3文字連鎖検出器
2902 2文字連鎖位置検出器
2903 特殊2文字連鎖生成器
2904 2文字連鎖位置メモリ
2905 特殊2文字連鎖位置メモリ
2911 3文字連鎖検出器
2912 2文字連鎖検出器
2913 特殊2文字連鎖生成器
2914 比較器
2915 制御部
3101 特殊文字検出器
3102 2文字連鎖符号器
3103 特殊2文字連鎖符号器
3104 文字連鎖組合せ判定器
3105 2文字連鎖メモリー
3106 特殊文字検出器
3107 2文字連鎖検出器
3108 特殊2文字連鎖検出器
3109 文字連鎖組合せ判定器
3110 比較器
3111 判定部
3201 登録文字列
3202 2文字連鎖
3203 2文字連鎖
3204 2文字連鎖
3205 2文字連鎖
3206 特殊2文字連鎖
3207 特殊2文字連鎖
3208 特殊2文字連鎖
3209 特殊2文字連鎖
3210 特殊2文字連鎖
3211 特殊2文字連鎖
3212 特殊2文字連鎖
3213 特殊2文字連鎖
3214 特殊2文字連鎖
3215 文書番号
3216 登録文字位置
3217 検索文字列
3218 2文字連鎖
3219 特殊2文字連鎖
3220 特殊2文字連鎖
3221 特殊2文字連鎖
3222 2文字連鎖
3223 検索文字列
3224 2文字連鎖
3225 特殊2文字連鎖
3226 特殊2文字連鎖
3227 特殊2文字連鎖
3228 2文字連鎖
3301 特殊文字検出器
3302 文字連鎖組合せ判定器
3303 2文字連鎖符号器
3304 特殊2文字連鎖符号器
3305 特殊2文字連鎖符号器
3306 2文字連鎖メモリー
3307 文字連鎖組合せ判定器
3308 2文字連鎖検出器
3309 特殊2文字連鎖検出器
3310 比較器
3311 判定部
3401 登録文字列
3402 登録文字列
3403 2文字連鎖
3404 特殊2文字連鎖
3405 2文字連鎖
3406 2文字連鎖
3407 2文字連鎖
3408 2文字連鎖
3409 登録文字位置
3410 文字位置
3411 文字連鎖情報
3412 文書番号
3413 2文字連鎖
3414 文字位置
3415 特殊2文字連鎖
3416 文字位置
3417 特殊2文字連鎖フラグ
3418 文字連鎖情報
3419 2文字連鎖
3420 特殊2文字連鎖
3421 特殊2文字連鎖フラグ
3422 文字連鎖情報
3423 特殊2文字連鎖フラグ
3424 文字連鎖情報
3425 2文字連鎖
3426 特殊2文字連鎖
3427 特殊2文字連鎖フラグ
3428 文字連鎖情報
3429 特殊2文字連鎖フラグ
3501 検索文字列
3502 検索文字列
3503 2文字連鎖
3504 特殊2文字連鎖
3505 検索文字列
3506 検索文字列
3507 特殊2文字連鎖
3508 検索文字列
3509 検索文字列
3510 特殊2文字連鎖
3511 検索文字列
3512 検索文字列
3513 2文字連鎖
3514 2文字連鎖
3515 特殊2文字連鎖

Claims (12)

  1. 検索対象文字列の予め指定された特殊文字を隣接する文字に従い検索の対象とならない文字に変換し、当該変換された文字列に対し、前記検索の対象とならない文字も含め全ての2文字連鎖を検出し、2文字連鎖毎に、2文字連鎖を構成する第1文字と第2文字の検索対象文字列における出現回数を組として記録した検索データを格納する格納部と、検索文字列の予め指定された特殊文字を前記検索データに対し適用された同一の変換規則に従い、前記検索文字列を隣接する文字に基づき検索の対象とならない文字に変換する文字列変換手段と、前記文字列変換手段により変換された文字列に対し、検索の対象とならない文字も含め全ての2文字連鎖を検出する2文字連鎖検出手段と、前記2文字連鎖検出手段により検出された2文字連鎖を、前記検索データから検出し、対応する出現回数の比較により、検索文字列としての文字連鎖の連続の有無を判定する比較手段とを備えたことを特徴とする文字列照合装置。
  2. 検索対象文字列の予め指定された特殊文字を隣接する文字に従い検索の対象とならない2文字に変換し、当該変換された文字列に対し、前記検索の対象とならない文字も含め全ての2文字連鎖を検出し、2文字連鎖毎に、2文字連鎖を構成する第1文字と第2文字の検索対象文字列における出現回数を組として記録した検索データを格納する格納部と、検索文字列の予め指定された特殊文字を前記検索データに対し適用された同一の変換規則に従い、前記検索文字列を隣接する文字に基づき検索の対象とならない2文字に変換する文字列変換手段と、前記文字列変換手段により変換された文字列に対し、検索の対象とならない2文字も含め全ての2文字連鎖を検出する2文字連鎖検出手段と、前記2文字連鎖検出手段により検出された2文字連鎖を、前記検索データから検出し、対応する出現回数の比較により、検索文字列としての文字連鎖の連続の有無を判定する比較手段とを備えたことを特徴とする文字列照合装置。
  3. 検索対象文字列に対し、全ての文字に対し2文字連鎖を検出し、2文字連鎖毎に2文字連鎖を構成する、予め指定された特殊文字以外の文字連鎖を構成する第1文字と第2文字について、予め指定された特殊文字以外の文字はその出現回数を、予め指定された特殊文字の場合は一定の数値を組として記録した第3のデータと、検索対象文字列に対し、予め指定された特殊文字が間に挿入された3文字からなる全ての3文字連鎖を検出し、3文字連鎖毎に、3文字連鎖を構成する第1文字と第3文字の検索対象文字列における出現回数を組として記録した第4のデータと、前記第3のデータと前記第4データとを区別して記録した検索データを格納する格納部と、検索文字列から、予め指定された特殊文字以外の文字からなる全ての2文字連鎖を検出する第1の文字連鎖検出手段と、前記検索文字列から、予め指定された特殊文字が挿入された3文字からなる全ての文字連鎖を検出する第3の文字連鎖検出手段と、前記第1の文字連鎖検出手段により検出された2文字連鎖を、前記第3のデータから検索し、前記第3の文字連鎖検出手段により検出された文字連鎖を前記第4のデータから検索し、検出された文字連鎖に対応する出現回数の比較により、検索文字列としての文字連鎖の連続の有無を判定する比較手段とを備えたことを特徴とする文字列照合装置。
  4. 検索対象文字列に対し、予め指定された特殊文字以外の文字からなる全ての2文字連鎖を検出し、2文字連鎖毎に2文字連鎖を構成する第1文字と第2文字の検索対象文字列における出現回数を組として記録した第5のデータと、検索対象文字列に対し、予め指定された特殊文字が間に挿入された3文字からなる全ての3文字連鎖を検出し、3文字連鎖毎に、3文字連鎖を構成する第1文字の出現回数と値0の組と、値0と第3文字の出現回数を組との2つの組からなる組として記録した第6のデータと、前記第5のデータと前記第6のデータとを区別して記録した検索データを格納する格納部と、検索文字列から、予め指定された特殊文字以外の文字からなる全ての2文字連鎖を検出する第1の文字連鎖検出手段と、前記検索文字列から、予め指定された特殊文字が挿入された3文字からなる全ての文字連鎖を検出する第3の文字連鎖検出手段と、前記第1の文字連鎖検出手段により検出された2文字連鎖を、前記第のデータから検索し、前記第3の文字連鎖検出手段により検出された3文字連鎖を前記第6のデータから検索し、検出された文字連鎖に対応する出現回数の比較により、検索文字列としての文字連鎖の連続の有無を判定する比較手段とを備えたことを特徴とする文字列照合装置。
  5. 検索対象文字列に対し、予め指定された特殊文字以外の文字からなる全ての2文字連鎖を検出し、2文字連鎖毎に2文字連鎖を構成する第1文字と第2文字の検索対象文字列における出現回数を組として記録した第7のデータと、検索対象文字列に対し、予め指定された特殊文字が間に挿入された3文字からなる全ての3文字連鎖を検出し、3文字連鎖毎に、3文字連鎖を構成する第2文字の特殊文字を第3文字と同じ文字に変換し第2文字の出現回数を第3文字の出現回数と同じ値としてから第1文字と第2文字、第2文字と第3文字による2つの2文字連鎖を生成し、各2文字連鎖毎に2文字連鎖を構成する第1文字と第2文字の検索対象文字列における出現回数を組として記録した第8のデータと、前記第7のデータと第8のデータを区別して記録した検索データを格納する格納部と、検索文字列から、予め指定された特殊文字以外の文字からなる全ての2文字連鎖を検出する第1の文字連鎖検出手段と、前記検索文字列から、予め指定された特殊文字が挿入された3文字からなる全ての3文字連鎖を検出する第4の文字連鎖検出手段と、前記第1の文字連鎖検出手段により検出された2文字連鎖を、前記第7のデータから検索し、前記第4の文字連鎖検出手段により検出された特殊文字を変換して2文字連鎖を生成し、前記生成した2文字連鎖を前記第8のデータから検索し、各々の2文字連鎖に対応する出現回数の比較により、検索文字列としての文字連鎖の連続の有無を判定する比較手段とを備えたことを特徴とする文字列照合装置。
  6. 検索対象文字列に対し、全ての2文字連鎖を検出し、2文字連鎖毎に2文字連鎖を構成し、2文字連鎖が、予め指定された特殊文字以外の文字連鎖の構成の場合には、第1文字と第2文字について予め指定された特殊文字以外の文字はその出現回数の組を記録した第9のデータと、2文字連鎖が、予め指定された特殊文字を含む文字連鎖の構成の場合には、特殊文字に該当する第1文字または第2文字について、その出現回数を所定の数値で割った余りとし、特殊文字でない文字の出現回数とを組として記憶し、かつ、第1文字が特殊文字の場合、このデータ組は、第2文字種別毎にソートされる第10のデータと、第9データと第10データとを区別して記録された検索データを格納する格納部と、検索文字列から、特殊文字を含まない全ての2文字連鎖を検出する第5の文字連鎖検出手段と、前記検索文字列から、特殊文字を含む全ての文字連鎖を検出する第6の文字連鎖検出手段と、前記検索文字列が、前記第5の文字連鎖検出手段で検出された2文字連鎖で構成される場合には、検出された2文字連鎖を第9のデータから検索し、対応する出現回数の比較により、検索文字列としての文字連鎖の連続の有無を判定する比較手段と、前記検索文字列が、第6の文字連鎖検出手段で検索された2文字連鎖で構成される場合には、検出した2文字連鎖を第10のデータから検索し、対応する出現回数および特殊文字の出現回数の重複した回数の比較により、検索文字列としての文字連鎖の連続の有無を判定する比較手段とを備えたことを特徴とする文字列照合装置。
  7. 検索対象文字列に対し、特殊文字を含まない全ての2文字連鎖を検出し、2文字連鎖毎を構成する、予め指定された特殊文字以外の文字連鎖を構成する第1文字と第2文字について、予め指定された特殊文字以外の文字はその出現回数を組として記録した第11のデータと、検索対象文字列に対して、予め指定された特殊文字をまたぐ2文字連鎖について特殊文字の前にある2文字連鎖の1文字目の文字種の出現回数と、特殊文字の後ろにある2文字連鎖の1文字目の文字種の出現回数を組として記録した第2のデータ、または特殊文字の前にある2文字連鎖の1文字目の文字種の出現回数と、特殊文字の直後の文字の出現回数を組とした第12のデータと、前記第11データと前記第12データを区別して記録した検索データを格納する格納部と、検索文字列から、予め指定された特殊文字以外の文字からなる全ての2文字連鎖を検出する第1の文字連鎖検索手段と、特殊文字列から、予め指定された特殊文字をまたぐ前後の2文字連鎖に対して、特殊文字の前の2文字連鎖の第1文字と特殊文字の後の2文字連鎖の第1文字とを組にした文字連鎖を検出するか、または特殊文字の前にある2文字連鎖の第1文字と特殊文字の直後の文字の文字を組にした文字連鎖を検出する第7の文字連鎖検出手段と、前記第1の文字連鎖検出手段により検出された2文字連鎖を、前記第12のデータから検索し、前記第11のデータから検索した場合は前記第7の文字連鎖検出手段により検出された文字連鎖を検索し、また前記第12のデータから検索した場合は前記第1の文字連鎖検出手段により検出された文字連鎖を検索し、検出された文字連鎖に対応する出現回数の比較により、検索文字列としても文字連鎖の連続の有無を判定する比較手段とを備えたことを特徴とする文字列照合装置。
  8. 予め指定された特殊文字を含む文字列で、検索対象文字列の予め指定された特殊文字を隣接する文字に従い検索の対象とならない文字に変換し、当該変換された文字列に対し、前記検索の対象とならない文字も含め全ての2文字連鎖を検出し、2文字連鎖毎に、2文字連鎖を構成する第1文字の出現位置を検索対象文字列における出現位置として記録した検索データを格納する格納部と、検索文字列の予め指定された特殊文字を前記検索データに対し適用された同一の変換規則に従い、隣接する文字に基づき検索の対象とならない文字に変換する文字列変換手段と、前記文字列変換手段により変換された文字列に対し、検索の対象とならない文字も含め全ての2文字連鎖を検出する2文字連鎖検出手段と、前記2文字連鎖検出手段により検出された2文字連鎖を、前記検索データから検出し、対応する出現位置の比較により、検索文字列としての文字連鎖の連続の有無を判定する比較手段とを備えたことを特徴とする文字列照合装置。
  9. 予め指定された特殊文字を含む文字列で、検索対象文字列の予め指定された特殊文字を隣接する文字に従い検索の対象とならない2文字に変換し、当該変換された文字列に対し、前記検索の対象とならない文字も含め全ての2文字連鎖を検出し、2文字連鎖毎に、2文字連鎖を構成する第1文字または第2文字の出現位置を検索対象文字列における出現位置として記録した検索データを格納する格納部と、検索文字列の予め指定された特殊文字を前記検索データに対し適用された同一の変換規則に従い、前記検索文字列を隣接する文字に基づき検索の対象とならない2文字に変換する文字列変換手段と、前記文字列変換手段により変換された文字列に対し、検索の対象とならない2文字も含め全ての2文字連鎖を検出する2文字連鎖検出手段と、前記2文字連鎖検出手段により検出された2文字連鎖を、前記検索データから検出し、対応する出現位置の比較により、検索文字列としての文字連鎖の連続の有無を判定する比較手段とを備えたことを特徴とする文字列照合装置。
  10. 予め指定された特殊文字を含む文字列で、検索対象文字列に対し、予め指定された特殊文字以外の文字からなる文字列で、全ての2文字連鎖を検出し、2文字連鎖毎に2文字連鎖を構成する第1文字または第2文字の出現位置を検索対象文字列の出現位置としたデータと、検索対象文字列に対し、予め指定された特殊文字が間に挿入された3文字からなる全ての3文字連鎖を検出し、3文字連鎖毎に、3文字連鎖を構成する第2文字の特殊文字を第3文字と同じ文字に変換し、第1文字と第2文字からなる2文字連鎖を検出し、前記2文字連鎖を構成する第1文字または第2文字の出現位置を検索対象文字列の出現位置としたデータとを記録した第15のデータと、
    前記3文字連鎖の第2文字と第3文字からなる2文字連鎖を検出し、この2文字連鎖の第1文字の出現位置が第2文字の出現位置と同じ値としてから、第1文字または第2文字の出現位置をこの文字連鎖の検索対象文字列における出現位置として記録した第16のデータと、第15データと第16データとが区別して記録された検索データを格納する格納部と、検索文字列から、予め指定された特殊文字以外の文字からなる全ての2文字連鎖を検出する第1の文字連鎖検出手段と、前記検索文字列から、予め指定された特殊文字が挿入された3文字からなる全ての3文字連鎖を検出する第10の文字連鎖検出手段と、前記第1の文字連鎖検出手段により検出された2文字連鎖を、前記第15のデータから検索し、前記第10の文字連鎖検出手段により検出された特殊文字を変換して2文字連鎖を生成し、前記第16のデータから検索し、各々の2文字連鎖に対応する出現位置の比較により、検索文字列としての文字連鎖の連続の有無を判定する比較手段とを備えたことを特徴とする文字列照合装置。
  11. 検索対象文字列に対し、2文字連鎖と文字位置を検出し、2文字連鎖 毎に検索対象文字列から構成される文書番号と2文字連鎖と文字位置の組を2文字連鎖情報として構成し、2文字連鎖情報の文字位置は、検索対象文字列の先頭を基準として予め指定された特殊文字の位置は除外して昇順に番号付けをし、さらに文字連鎖の第1文字毎に文字連鎖情報を格納している検索データであって、特殊文字を含まない2文字連鎖で第1文字と第2文字の組と、特殊文字を除外した文字位置での第1文字の文字位置、および文書番号を組として記録した第17のデータと、特殊文字の直前の文字と特殊文字を組み合わせた2文字連鎖、特殊文字の文字種により規定される任意の固定値、および文書番号の組から構成される第18のデータと、特殊文字と特殊文字の直後の文字を組合わせた2文字連鎖、特殊文字を除外した文字位置での第2文字の文字位置、および文書番号から構成される第19のデータと、特殊文字の直前と直後の文字を組み合わせた2文字連鎖、特殊文字を除外した文字位置での第1文字の文字位置、および文書番号から構成される第20のデータと、第17のデータ、第18のデータ、第19のデータ、第20のデータの2文字連鎖の第1文字目毎に整列して文字連鎖情報として格納し、前記第17のデータ、前記第18のデータおよび前記第19のデータに対しては、2つの文字連鎖の1文字目が同じで2文字目が特殊文字の場合に前記第17のデータの直後に前記第18のデータを記録した検索データを格納する格納部と、検索文字列から、特殊文字とその前後の文字を除く全ての2文字連鎖を検出する第11の文字連鎖検出手段と、前記検索文字列から、特殊文字の直前の文字と直後の文字からなる2文字連鎖、特殊文字の直前の文字と特殊文字からなる2文字連鎖、特殊文字と特殊文字の直後の文字からなる2文字連鎖を検出する第12の文字連鎖検出手段と、第1の文字連鎖検出手段で検出された2文字連鎖に対応する前記第17のデータと前記第12の文字連鎖検出手段で検出された文字連鎖対応する前記第20のデータ、または前記第19のデータと前記第17のデータから2つのデータの文字位置の差と文書番号の比較により、検索文字列としての連続の有無を判断する比較手段と、前記第20のデータの直後に前記第18のデータが続いていることにより特殊文字を含む検索文字列としての連続の有無を判断する比較手段、とを特徴とする文字列照合装置。
  12. 検索対象文字列に対し、2文字連鎖と文字位置を検出し、2文字連鎖毎に検索対象文字列から構成される文書番号と2文字連鎖と文字位置の組を2文字連鎖情報として構成し、文字連鎖の第1文字毎に文字連鎖情報を格納している検索データであって、2文字連鎖情報の文字位置は、検索対象文字列の先頭を基準として予め指定された特殊文字の位置は除外して昇順または降順に番号付けをし、特殊文字を含まない文字種の場合には第1文字と第2文字の組と、第1文字の文字位置と、文書番号を組として記録した第21のデータと、特殊文字を含む文字連鎖情報は、特殊文字の直前の文字に対しては、特殊文字の直前の文字と特殊文字の直後の文字を組み合わせた文字連鎖、特殊文字の直前の文字位置および文書番号の組から構成され、また該文字連鎖情報の文字連鎖の第1文字と第2文字が、特殊文字を含まない場合の文字連鎖情報の文字連鎖の第1文字または第2文字が一致する場合には特殊文字を含まない文字連鎖情報の後または前に別個に記録されるように構成される第22のデータと、特殊文字を含む文字連鎖情報は、特殊文字の直後の文字に対しては、特殊文字の直後の文字とその文字に続く文字を組合わせた文字連鎖、特殊文字の直後の文字位置および文書番号から構成され、また該文字連鎖情報の文字連鎖の第1文字が、特殊文字を含まない場合の2文字連鎖の第1文字と一致する場合には特殊文字を含まない文字連鎖情報の後または前に別個に記録されるように構成される第23のデータと、特殊文字を含む文字連鎖情報は、特殊文字の2個前の文字と特殊文字の直後の文字とを組み合わせた文字連鎖、特殊文字の2個前の文字位置および文書番号から構成される第24のデータと、第21データ、第22データ、第23データ、第24データを区別して記録された検索データを格納する格納部と、検索文字列から、特殊文字の前後の文字を除く全ての2文字連鎖を検出する第13の文字連鎖検出手段と、前記検索文字列から、特殊文字を間に挟む検索文字列の場合は特殊文字の直前の文字と直後の文字を文字連鎖として検出し、かつ該文字連鎖の第2文字は特殊文字の直後の文字としてマークし、検索文字列の先頭が特殊文字の場合は特殊文字の直後の文字とその次の文字を文字連鎖として検出し、かつ該文字連鎖の第1文字は特殊文字の直後の文字としてマークし、検索文字列の先頭から3番目以降に特殊文字が出現する場合には、特殊文字の2文字前の文字と特殊文字の直後の文字を文字連鎖として検出し、かつ該文字連鎖の第2文字は特殊文字の直後の文字としてマークし、さらに特殊文字の直後の文字とその次の文字を文字連鎖として検出し、かつ該文字連鎖の第1文字は特殊文字の直後の文字としてマークする第14の文字連鎖検出手段と、検索文字列が、前記第13の文字連鎖検出手段で検出された2文字連鎖で構成される場合には、検出された文字連鎖に対応する文字位置と文書番号の比較により、検索文字列としての文字連鎖の連続の有無を判定する比較手段と、検索文字列が、前記第14の文字連鎖検出手段で検索された2文字連鎖で構成される場合には、前記第21のデータ、前記22のデータ、前記23のデータまたは前記第24のデータの文字連鎖情報に一致するかどうかを文字連鎖と文書番号から検索文字列としての文字連鎖の連続の有無を判定する比較手段、とを備えたことを特徴とする文字列照合装置。
JP00453598A 1997-07-11 1998-01-13 文字列照合装置 Expired - Fee Related JP3567711B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP00453598A JP3567711B2 (ja) 1997-07-11 1998-01-13 文字列照合装置
SG9806377A SG98366A1 (en) 1997-07-11 1998-07-09 Recording medium of character data of full text and character string collating apparatus
EP98112850A EP0890912A3 (en) 1997-07-11 1998-07-10 Recording medium of character data of full text and character string collating apparatus
KR1019980028059A KR100300741B1 (ko) 1997-07-11 1998-07-11 전체 문장의 문자 데이터의 기록매체 및 문자열 대조장치
US09/114,284 US6260051B1 (en) 1997-07-11 1998-07-13 Recording medium and character string collating apparatus for full-text character data

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP9-186329 1997-07-11
JP18632997 1997-07-11
JP00453598A JP3567711B2 (ja) 1997-07-11 1998-01-13 文字列照合装置

Publications (2)

Publication Number Publication Date
JPH1185802A JPH1185802A (ja) 1999-03-30
JP3567711B2 true JP3567711B2 (ja) 2004-09-22

Family

ID=26338339

Family Applications (1)

Application Number Title Priority Date Filing Date
JP00453598A Expired - Fee Related JP3567711B2 (ja) 1997-07-11 1998-01-13 文字列照合装置

Country Status (1)

Country Link
JP (1) JP3567711B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3081093B2 (ja) * 1993-10-08 2000-08-28 松下電器産業株式会社 索引作成方法およびその装置と文書検索装置
JP3649472B2 (ja) * 1995-05-22 2005-05-18 松下電器産業株式会社 情報検索装置

Also Published As

Publication number Publication date
JPH1185802A (ja) 1999-03-30

Similar Documents

Publication Publication Date Title
JP3143079B2 (ja) 辞書索引作成装置と文書検索装置
US9600537B2 (en) Fast identification of complex strings in a data stream
US5745745A (en) Text search method and apparatus for structured documents
JP2790466B2 (ja) 文字列検索方法及び装置
JPH08249354A (ja) 単語索引および単語索引作成装置および文書検索装置
JPS61267885A (ja) 単語辞書照合装置
Sakamoto et al. A detection method for plagiarism reports of students
JPH09288676A (ja) 全文インデックス作成装置および全文データベース検索装置
KR101379128B1 (ko) 사전 생성 장치, 사전 생성 방법 및 사전 생성 프로그램을 기억하는 컴퓨터 판독 가능 기록 매체
KR960018993A (ko) 정보 검색 방법 및 시스템
JP2693914B2 (ja) 検索システム
JPS6120038B2 (ja)
JP3567711B2 (ja) 文字列照合装置
JPH05225238A (ja) データベース検索システム
JP2000231559A (ja) 情報処理装置
US7065517B1 (en) Data processors
Gander et al. Rule based document understanding of historical books using a hybrid fuzzy classification system
JPH04326164A (ja) データベース検索システム
KR100300741B1 (ko) 전체 문장의 문자 데이터의 기록매체 및 문자열 대조장치
JP2004192368A (ja) 関連分類抽出方法及び装置
JP3955410B2 (ja) 類似情報照合装置、類似情報照合方法、及び、類似情報照合プログラムを記録した記録媒体
JP2588261B2 (ja) Ocrによる住所データベース検索装置
JP3719089B2 (ja) 文書処理装置
JP3924899B2 (ja) テキスト検索装置およびテキスト検索方法
JPH10177582A (ja) 最長一致検索方法及び装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040309

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040525

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040607

LAPS Cancellation because of no payment of annual fees