JP2737173B2 - 記号列照合装置とその制御方法 - Google Patents

記号列照合装置とその制御方法

Info

Publication number
JP2737173B2
JP2737173B2 JP63269746A JP26974688A JP2737173B2 JP 2737173 B2 JP2737173 B2 JP 2737173B2 JP 63269746 A JP63269746 A JP 63269746A JP 26974688 A JP26974688 A JP 26974688A JP 2737173 B2 JP2737173 B2 JP 2737173B2
Authority
JP
Japan
Prior art keywords
symbol string
cell
symbol
collation
collated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP63269746A
Other languages
English (en)
Other versions
JPH02115973A (ja
Inventor
真人 本村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP63269746A priority Critical patent/JP2737173B2/ja
Priority to DE68927625T priority patent/DE68927625T2/de
Priority to EP89119841A priority patent/EP0366115B1/en
Publication of JPH02115973A publication Critical patent/JPH02115973A/ja
Priority to US07/958,467 priority patent/US5377349A/en
Application granted granted Critical
Publication of JP2737173B2 publication Critical patent/JP2737173B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/02Comparing digital values
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2207/00Indexing scheme relating to methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F2207/02Indexing scheme relating to groups G06F7/02 - G06F7/026
    • G06F2207/025String search, i.e. pattern matching, e.g. find identical word or best match in a string
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99937Sorting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は情報処理システムの構成要素に係り、より具
体的には複数の被照合記号列の中から照合記号列と特定
の関係にある被照合記号列を抽出する記号列照合装置と
その制御方式に関するものである。
(従来の技術) 記号列照合装置はテキストデータベースの検索や、パ
タン認識システムでの特徴系列の照合、ワープロで作成
された文書からのキーワード抽出、言語翻訳の支援や電
子メールのアドレスフィルタリング等に使われ、これら
の情報処理システムにおいて欠くことの出来ないもので
ある。
記号列照合では、照合記号列と完全に一致する被照合
記号列のみならず、照合記号列とある類似性を持った被
照合記号列をも複数の被照合記号列の中から抽出できる
ことが望まれる。なぜならば、例えば、テキストデータ
ベース検索においては、テキストがミススペルを含む場
所や、あやふやなキーワードで検索を行なう場合にこの
機能が必要であるし、パターン認識において特徴系列同
士の照合を行なう場合には、完全に一致するものが見つ
かることは希で、複数の被照合記号列中より照合記号列
に最もよく似た被照合記号列を選び出すことが必要にな
るからである。
照合記号列と被照合記号列の類似度を測るのには距離
という概念が用いられる。ここで言う距離とは、1記号
の除去、置換、挿入を単位操作として、何回の操作であ
る記号列からある記号列に移れるかを考え、そのうち最
少の回数をこの二つの記号列間の距離とするものであ
る。この距離という概念については、例えば1980年発行
のコンピューティング・サーベイ(Computing Survey
s)誌、第12巻4号、381ページの文献、題名アプロクシ
メイト・ストリング・マッチング(Approximate String
Matching)、著者パトリックホール(Patrick.Hal
l)、ジェオフ・ダウリング(Geoff,Dowling)、に詳し
く記載されている。
第10図(a)〜(c)はそれぞれ上で述べた1記号の
除去、置換、挿入という単位操作の定義を例によって示
したものである。同図では、元の記号列“ABCD"にこれ
らの単位操作を加えて記号列を変化させている。同図に
おいて、はC以外の任意の記号の意味であり、Xは任
意の記号の意味である。なお、これらの記号は以下の文
中において同様の意味で用いる。
第10図(d)は例として記号列“ABCD"から距離3の
範囲内にある記号列の一部を示したものである。同図よ
り、例えば“ABD"は距離1であるから、距離2である
“ACXD"よりも“ABCD"に近いということになる。
照合記号列から距離1の範囲内の被照合記号列を抽出
できる記号列照合装置としては、特開昭59−216808号公
報「記号列照合装置」(以下先行発明と呼ぶ)がある。
第11図に先行発明による記号列照合装置の動作の概念
を示す。同図は一例として“ABCD"を照合記号列とし、
この照合記号列から距離1の範囲内の被照合記号列を抽
出する場合を示している。fikは1ビットの情報を記憶
できるセルを示し、矢印はセル間の記憶データの転送を
示している。各セルは矢印の横に書かれた記号が入力さ
れたときに矢印で示された次のセルに記憶データを転送
する。矢印の横に書かれた記号以外の記号が入力される
と、図示していないが、セルの記憶データによらず0が
転送される。各矢印により転送されてきたデータは、図
示していないが、理論和を取られてセルに入力される。
同図において、初期状態ではセルf11の記憶データの
み1にし、他の全てのセルの記憶データは0にしてお
く。この状態から、被照合記号列として、例えば、“AB
CD"を1記号ずつ順に入力するとセルf15の記憶データが
1になり、“ABD"、“ABD"、“ABXCD"などを入力する
とセルf25の記憶データが1になる。すなわち、セルf15
を監視することにより、入力された被照合記号列が照合
記号列から距離0であるかどうかわかり、セルf25を監
視することにより、入力された被照合記号列が照合記号
列から距離1であるかどうかがわかる。
これにより照合記号列から距離1の範囲内にある被照
合記号列を抽出する記号列照合装置を構成することが可
能になった。しかし、音声認識や手書き文字認識などの
パターン認識への応用においては、抽出する記号列間の
距離は1では足りない。例えば音声認識においては、音
声から抽出された特徴系列(照合記号列にあたる)には
話者の年齢や性別、出身地などの違いにより様々なゆら
ぎが含まれており、あらかじめ用意された特徴系列のテ
ンプレート(被照合記号列にあたる)との距離が距離1
の範囲内に納まることは希である。このような用途に応
用するためには、もっと遠くの距離にある被照合記号列
まで抽出できるようにし、抽出された被照合記号列の中
から最も照合記号列に近いものを選べるようにならなけ
ればならない。このような問題を解決するため前述の先
行発明は別の記号列照合装置を提示している。
第12図は先行発明による記号列照合装置の動作の概念
を示すものである。同図は第11図と同じく例として照合
記号例“ABCD"の場合を示している。同図中のセルと矢
印は第11図と同じ意味を持っており、このような構成に
より照合記号列に対してその記号列長未満の任意数の記
号を挿入、また置換した被照合記号列を抽出することが
できる。
(発明が解決しようとする課題) しかしこの構成では、単位操作の一つである1記号の
除去を考慮にいれていないため、照合記号列から一定の
距離内にある被照合記号列を公平に抽出することができ
ない。具体的にいうと、例えば、距離3である“AXBXCX
D"は抽出できるが、距離2である“AD"は抽出できない
ということになる。これでは、照合記号列と類似度の高
い被照合記号列が抽出できず代わりに類似度の低い被照
合記号列が抽出されるといことになり、パターン認識な
どへの応用は困難である。
以上説明したように従来の記号列照合装置では、照合
記号列から距離1の範囲内にある被照合記号列は抽出で
きるが、それ以上の距離になると有効な抽出を行なうこ
とが出来ないという問題があった。
本発明の目的はこのような問題を解決し、簡易な構成
で照合記号列から任意の距離にある被照合記号列を抽出
することが可能な記号列照合装置とその制御方式を提供
することにある。
(課題を解決しようとするための手段) 上記目的を達成するため、本発明の記号列照合装置
は、長さN(Nは正整数)の照合記号列に対して、記号
列比較結果を記憶するセルをM行(Mは正整数)N+1
列に並べたセルアレイと、照合記号列のj番目(jはN
以下の任意の正整数)の記号と同じ被照合記号が与えら
れたときのみ前記セルアレイのi行(iはM以下の任意
の正整数)j列目であるセルfijの記憶データをセルf
ij+1に転送する第1の転送手段と、照合記号列のj番目
の記号と違う被照合記号が与えられたときのみ前記セル
アレイのh行(hはM未満の任意の正整数)j列目であ
るセルfhjの記憶データをセルfh+1j+1に転送する第2の
転送手段と、被照合記号が与えられると、与えられた被
照合記号の如何にかかわらず前記セルアレイのh行k列
目(kはN+1以下の任意の正整数)であるセルfhk
記憶データをセルfh+1kに転送する第3の転送手段と、
前記第1から第3の転送手段によりセルfikに少なくと
も一つ1が転送されてくるとセルfikの記憶データを1
にし、前記第1から第3の転送手段によりセルfikに1
が一つも転送されてこなければセルfikの記憶データを
0にする入力手段と、セルfhjの記憶データが1になる
と、前記入力手段によりセルfh+1j+1に与えられた入力
によらず、セルfh+1j+1の記憶データを1にセットする
セット手段より構成されており、このような構成におい
て、少なくとも、前記セルアレイの全てのセルの記憶デ
ータを0にした後、セルf11の記憶データを1にセット
することにより初期設定を行なうことと、被照合記号列
を1記号ずつ順に与えることにより記号列照合を実行す
ることと、前記セルアレイのN+1列目のM個のセルの
中から、記憶データが1であり、かついちばん行番号が
小さいセルを探すことにより、照合結果として照合記号
列と被照合記号列との距離を得ることを含むことを特徴
とする制御方式を用いている。
(作用) 第7図は本発明の技術思想を説明するための概念図で
ある。同図は列として4行5列のセルアレイを用い“AB
CD"を照合記号列とした場合を示している。以下詳しく
説明するように、この構成により、“ABCD"から距離3
の範囲内にある任意の被照合記号列を抽出することがで
きる。
同図において、セルは丸印で示され、第一の転送手段
は行方向の実線の矢印、第2の転送手段は対角線方向の
実線の矢印、第3の転送手段は列方向の実線の矢印、セ
ット手段は対角線方向の二重線の矢印で示されている。
第1及び第2の転送手段は、その矢印の横に書いてある
被照合記号が与えられたときだけ、矢印にしたがって各
セルの記憶データを次のセルに転送する。第3の転送手
段は、被照合記号が与えられると、与えられた被照合記
号の如何にかかわらず、矢印にしたがって各セルの記憶
データを次のセルに転送する。図中には明示していない
が、セルにはこれらの転送手段から転送されてきたデー
タを受け取る入力手段であり、少なくとも一つ1が転送
されてくるとセルの記憶データは1になり、一つも1が
転送されてこないとセルの記憶データは0になる。セッ
ト手段は、本発明におけるもっとも特徴的な部分であっ
て、あるセルの記憶データが1になると、入力手段から
入力されたデータに関係なく、二重線の矢印に従って次
のセルの記憶データも1にセットする働きを持つ。つま
り、例えばセルf12が1であると、同時にセルf23
f34、f45も1となり、セルf22が1であると、同時にセ
ルf33、f44も1となる。このような構成において、第5
列目のセルの記憶データを読み取ることにより照合結果
を得ることができる。以下本発明を、第8図、第9図
(a)−(h)に基づいて更に詳細に説明する。
第8図、第9図(a)−(h)はそれぞれ第7図と同
じ構成を示すものであるが、簡単のため一部の記号を省
略して描いてある。以下で用いる記号でこれらの図中に
明示いていないものは、第7図中の対応する部位の記号
を用いている。また図中のセルで斜線を施したものは記
憶データが1であることを示し、白いセルは記憶データ
が0であることを示している。
第8図は、照合を始める前の、本発明による記号列照
合装置の初期状態を示す図である。初期状態ではセルf
11の記憶データを1にセットしておく。するとセット手
段により、セルf22、f33、f44の記憶データも1にセッ
トされる。これら以外のセルの記憶データはすべて0に
しておく。
第9図(a)−(d)は照合記号列“ABCD"に対して
被照合記号列“ABCD"を順にA,B,C,Dと入力していったと
きの本発明による記号列照合装置の動作を、1記号の入
力毎に示したものである。各被照合記号が入力された後
のセルアレイは、それまでに入力された被照合記号列と
照合記号列“ABCD"との照合結果を示している。この照
合結果を知るには、5列目のセルの記憶データを読み取
ればよい。具体的には、5列目のセルで記憶データが1
になっているものの中で、一番行番号が小さいものを探
し、それがセルf15なら、被照合記号列と照合記号列と
の距離は距離0、セルf25なら距離1、セルf35なら距離
2、f45なら距離3、該当するセルがなければ距離4以
上となる。以下、図の順にしたがって各図について詳し
く説明する。
まず初期状態から被照合記号Aが入力されると、各セ
ルの記憶データは、第8図で示した初期状態から第9図
(a)のように変化する。この図は、上で述べたよう
に、被照合記号列“ABCD"の照合の途中経過として、照
合記号列“ABCD"に対する被照合記号列“A"の照合結果
を示している。セルf45の記憶データが1になってお
り、これは“A"が“ABCD"から距離3にあることを示し
ている。
次に被照合記号Bが入力されると、各セルの記憶デー
タは、第9図(a)で示した状態から第9図(b)のよ
うに変化する。この図は照合記号列“ABCD"に対する被
照合記号列“AB"の照合結果を示している。セルf35の記
憶データが1になっており、これは“AB"が“ABCD"から
距離2にあることを示している。
続いて被照合記号Cが入力されると、各セルの記憶デ
ータは、第9図(b)で示した状態から第9図(c)の
ように変化する。この図は照合記号列“ABCD"に対する
被照合記号列“ABC"の照合結果を示している。セルf25
の記憶データが1になっており、これは“ABC"が“ABC
D"から距離1にあることを示している。
最後に被照合記号Dが入力されると、各セルの記憶デ
ータは、第9図(c)で示した状態から第9図(d)の
ように変化する。この図は照合記号“ABCD"に対する被
照合記号列“ABCD"の最終的な照合結果を示している。
セルf15の記憶データが1になっており、これは“ABCD"
が“ABCD"から距離0にあることを示している。
このように、被照合記号列“ABCD"を順に1記号ずつ
入力していくことにより、この被照合記号列に対する照
合の途中経過及び最終結果を順次知ることが出来る。こ
のようにして得られた照合結果は、明らかに被照合記号
列と照合記号列との間の正しい距離を与えている。なぜ
なら、被照合記号列“A"は“ABCD"に単位操作である1
記号の除去を3回行なったものだし、同じく“AB"は2
回、“ABC"は1回、“ABCD"は0回行なったものだから
である。
第9図(e)−(h)は第9図(a)−(d)と同じ
条件で、被照合記号列を“ACXD"にした場合を示したも
のである。簡単に説明すると、第9図(e)は被照合記
号列“A"が照合記号列“ABCD"から距離3であること
を、第9図(f)、(g)、(h)はそれぞれ被照合記
号列“AC"、“ACX"、、“ACXD"が照合記号列“ABCD"か
ら距離2であることを示している。これらの結果がそれ
ぞれの記号列間の正しい距離を与えていることは明らか
である。
このようにして、第7図に示した構成により、ある被
照合記号列が照合記号列“ABCD"から距離3の範囲内に
あるかどうか判別することができる。よって、複数の被
照合記号列を次々に入力していけば、その中から照合記
号列から距離3の範囲内にある全ての被照合記号列を抽
出することが可能になる。他の任意の照合記号列に対し
ても、その記号列長に応じた列数を持ち、抽出したい任
意の距離数に応じた行数を持つセルアレイを構成すれ
ば、同様の記号列照合を行なうことができる。
(実施例) 第1図は、本発明による記号列照合装置の一実施例を
示す構成図である。以下同図について説明する。
まず第1図の構成について説明する。同図において記
号列照合装置は、初期セット端子110と、N本(Nは正
整数)の入力端子120−1〜120Nと、M行(Mは正整
数)N+1列に並べられ、データを入力するD端子、デ
ータを出力するQ端子、データを1にセットするSET端
子を持つレジスタ130と、i行(iはM以下の任意の正
整数)j列(jはN以下の任意の正整数)目のレジスタ
fij130のQ端子と入力端子120−jに入力端子がつなが
り、i=1であれば右横のレジスタfij+1130のD端子に
出力端子がつながる第1のアンドゲート140と、レジス
タfhj130(hはM未満の任意の正整数)のQ端子に入力
がつながり、入力端子120−jに反転入力端子がつなが
る第2のアンドゲート150と、レジスタfhk130(kはN
+1以下の任意の正整数)のQ端子に入力がつながるデ
ータ転送線160と、入力として、レジスタfh+1j130のQ
端子につながる第1のアンドゲート140の出力と、レジ
スタfhj130のQ端子につながる第2のアンドゲート150
の出力と、レジスタfhj+1130のQ端子につながるデータ
転送線160の出力とを受けレジスタfh+1j+1130のD端子
に出力するオアゲート170と、レジスタfhj130のQ端子
の出力をレジスタfh+1j+1130のSET端子に入力するセッ
ト線180と、N+1列目のレジスタ130のQ端子のデータ
を出力するM本の出力端子190−1〜190〜Mとを備えて
いる。
次に請求項1に記載の各構成要素との対応について説
明する。レジスタfik130はセルfikに対応するものであ
る。第1のアンドゲート140、第2のアンドゲート150、
データ転送線160は、それぞれ第1の転送手段、第2の
転送手段、第3の転送手段に対応するものである。ま
た、オアゲート170は入力手段、セット線180はセット手
段に対応するものである。第1図において、入力端子12
0−jには、照合記号列のj番目の記号と被照合記号と
が一致すれば1、一致しなければ0が与えられる。する
と、第1のアンドゲート140は、照合記号列のj番目と
被照合同じ記号が与えられたときだけレジスタfhj130の
記憶データをレジスタfhj+1130に転送し、それ以外は0
を転送する。逆に第2のアンドゲート150は照合記号列
のj番目と違う被照合記号が与えられたときはレジスタ
fhj130の記憶データをレジスタfh+1j+1130に転送し、同
じであれば0を転送する。これらは明らかに特許請求範
囲第1項記載の第1及び第2の転送手段の機能に対応し
ている。
続いて、第1図の実施例の動作について、第2図及び
第3図に基づいて説明する。
第2図は、レジスタ130のD端子に与えられた入力デ
ータとSET端子に与えられたセット信号による、Q端子
の出力データの変化を示したものである。同図は、レジ
スタ130はSET端子が0であればD端子より与えられたデ
ータを1周期遅らせてQ端子より出力し、SET端子が1
であれば、Q端子より与えられたデータによらず、Q端
子から1を出力することを示している。このような機能
を持つものとしては、例えばセット入力付きのマスター
スレーブ型フリップフロップなどがある。
第3図はこの実施例の動作を説明するためのものであ
る。同図は第1図においてN=M=4とし、(作用)の
項の説明で用いたのと同じく、照合記号列を“ABCD"、
被照合記号列を“ABCD"とした場合について、入力端子1
20−1〜120−4に与えられる入力と、出力端子190−1
〜190−4からの出力とを示したものである。
以下、(作用)の項で行なった説明に対応させながら
同図を説明する。まず、これは同図には示していない
が、初期状態を設定するために始めに全てのレジスタ13
0の記憶データを0にリセットする必要がある。これ
は、新たにレジスタ130にリセット端子をもうけるか、
あるいは全てのレジスタ130の記憶データが0になるま
で入力端子120−1〜120−4に0を与える続けることな
どによって実行される。次に、初期セット端子110に1
を与えることによりf11〜f44のレジスタ130のみが1に
セットされる。この状態では第8図に対応する。続いて
Aを入力することに対応して、入力端子120−1のみに
1を与え、他の入力端子には0を与える。この入力後、
出力端子190−4には1が、他の出力端子には0が出力
される。これは第9図(a)におけるN列目のセルの状
態に対応する。同様に、B,C,Dを入力することに対応し
た入力信号を次々に入力端子120−1〜120−4に入力す
ることにより、第9図(b)〜(d)におけるN列目の
セルの状態に対応した出力が出力端子190−1〜190−4
より得られる。これらの出力により、(作用)の項で詳
細に説明したように、照合の途中経過として、照合記号
列“ABCD'と被照合記号列“A"、“AB"、“ABC"との照合
結果が、最終結果として被照合記号列“ABCD"との照合
結果がわかる。
以上説明した実施例では、入力端子120−1〜120−N
には上述のように、被照合記号と照合記号列の各記号と
の一致信号を与える必要がある。また出力端子190−1
〜190−Mの出力は、照合結果がすぐ判るようにはなっ
ていないため、照合結果を直接示すように変換する必要
がある。以下、これらの機能を実現する周辺装置の例を
第4図、第5図第6図に基づいて説明する。
第4図は第1図で示した本発明の実施例に入力を与え
る入力装置の一例である。同図は各記号が1ビットで構
成されている場合を示している。まず照合記号列登録端
子410−1〜410Nから、照合記号列をレジスタ430に登録
する。被照合記号列は、被照合列入力端子420より1記
号ずつ入力され、比較器440で照合記号列の各記号と比
較される。比較の結果、両記号が一致していれば1、一
致していなければ0が一致信号出力端子450−1〜450−
Nから出力される。この450−jの出力を第1図の入力
端子120−jに入力することにより第1図の説明で述べ
たような入力を得ることができる。なお、ここでは1記
号が1ビットで構成されている場合を例として示した
が、1記号が数ビットで構成されている場合も同様の装
置を構成することができることは明らかである。
第5図は第1図で示した本発明の実施例の出力を受け
取り、照合結果を出力する出力装置の一例である。同図
において、入力端子510−1〜510−Mには、第1図の出
力端子190−1〜190−Mの対応する番号の出力が与えら
れる。この回路は公知のものであるので詳しい説明は省
くが、入力端子510−iに与えられた入力データの中に
1が複数あれば、その中でiの値が最も小さいものだけ
残して他の全てを0とし、対応する番号の出力端子580
−iから出力する機能を持っている。また、入力データ
中に1が一つ以下であれば入力をそのまま出力する。こ
れにより、出力端子580−iの出力が1であれば、照合
結果は距離i−1であるとすぐわかるようになる。
第6図は第1図の記号列照合装置、第4図の入力装
置、第5図の出力装置の接続を示したものである。同図
において、照合記号列登録端子610−1〜610−Nから照
合記号列を登録し、初期セット端子630で初期セットを
行なった後、被照合記号列入力端子620から被照合記号
を1記号ずつ入力することにより、照合結果が照合結果
出力端子670−1〜670−Mから出力される。照合結果出
力端子670−iの出力が1であれば、照合結果は距離i
−1であることを示す。
(発明の効果) 以上説明してきたように、本発明による記号列照合装
置は、転送手段とセット手段でセル間が結ばれたセルア
レイにより構成されている。ここで、セット手段を導入
したことが本発明の最大の特徴である。このセット手段
を導入することによって、 A.セル間の結合が局所的なものに限られており、遠いセ
ルとの結合がない。
B.セル間の結合が規則的であり、セルアレイの中でどこ
でも同じである。
という二つの長所を持ったセルアレイで、任意の抽出距
離に対応できる記号列照合装置を構成することが可能に
なった。
この二つの長所は、本発明による記号列照合装置が、
単に照合記号列から任意の距離にある被照合記号列を抽
出できるというだけでなく、以下に示すような効果をも
有することを意味している。
1.任意の長さの照合記号列に対応する記号列照合装置を
簡単に構成できる。
2.任意の抽出距離に対応する記号列照合装置を簡単に構
成することができる。
3.照合記号列長の変更や、抽出距離の変更をきわめて容
易に行なうことができる。
4.集積回路化する際に設計時間が短くてすみ、しかもチ
ップ面積が小さくなる。
1,2の効果は、セルアレイの列数もしくは行数の設定
を変えるだけで、任意の照合記号列長Nや抽出距離Mに
対応できることを指している。つまり本発明による記号
列照合装置のハードウェアー量はNとMの積に比例して
おり、NやMが増えると装置がとたんに複雑化するとい
ったことがない。これは、Aの結合の局所性とBの結合
の規則性の二点による大きな効果である。
3の効果は、1,2と似ているが、本発明による記号列
照合装置を任意の台数だけ行方向や列方向に接続するこ
とにより、1台では対応できなかった長い照合記号列
や、遠い抽出距離に容易に対応できるということを指し
ている。これもやはり、A,Bの二点による効果である。
実際の応用の場面では照合記号列長や抽出距離は固定さ
れず、様々に変化することが考えられるので、このよう
な柔軟性は記号列照合装置に欠くことのできないもので
ある。
4の効果は、本発明の実用性を高めているものであ
る。よく知られているように、集積回路化する際、規則
的な構成をしているものの方が、そうでないものより、
設計時間が短くしかもチップ面積も小さくできる。本発
明による記号列照合装置はBの長所により極めて集積回
路化に適したものになっている。また、Aの長所も配線
の引き回しが短くて済むという点で、集積回路化の際の
利点となる。
以上説明したことから明らかなように、本発明によ
り、高機能で、柔軟性に富み、かつ実用性の高い記号列
照合装置を提供することができる。
なお、以上の実施例の説明において、レジスタ130の
例として、マスタースレーブ型のフリップフロップをあ
げたが、第2図のような入出力関係を満たすものであれ
ばこれはどのようなものでもよく、第1図において第
1、第2の転送手段はそれぞれ、アンドゲート140、150
で構成されているが、被照合記号と照合記号列の各記号
が一致したか否かによって開閉するスイッチの機能をも
つものであればこれらはどのようなものでもよい。ま
た、第3図の波形図では入力が終わった後で対応する出
力が出るようになっているが、入力が終わる前に出力が
出るようになっていてもよい。このように、以上の実施
例は単なる一例であって、何ら本発明を限定するもので
はない。
【図面の簡単な説明】
第1図は本発明の記号列照合装置の実施例を示す構成
図、第2図はレジスタの入出力関係を示す波形図、第3
図は実施例の動作を示す波形図、第4図は実施例の記号
列照合装置に入力を与える入力装置の例を示す構成図、
第5図は実施例の記号列照合装置の出力を変換する出力
装置の例を示す構成図、第6図は、入力装置、記号列照
合装置、出力装置の接続を示す構成図、第7図、第8
図、第9図は本発明の作用を説明する原理図、第10図は
記号列間の距離という概念を説明するための説明図、第
11図、第12図は従来技術を説明するための原理図であ
る。 110……初期セット端子、120−1〜120−N……入力端
子 130……レジスタ、140……第1のアンドゲート 150……第2のアンドゲート、160……データ転送線 170……オアゲート、180……セット線 190−1〜190−M……出力端子

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】複数の被照合記号列の中から照合記号列と
    関係する被照合記号列を抽出する記号列照合装置におい
    て、 長さN(Nは正整数)の照合記号列に対して、記号列比
    較結果を記憶するセルをM行(Mは正整数)N+1列に
    並べたセルアレイと、 照合記号列のj番目(jはN以下の任意の正整数)の記
    号と同じ被照合記号が与えられたときのみ、前記セルア
    レイのi行(iはM以下の任意の正整数)j列目である
    セルfijの記憶データをセルfij+1に転送する第1の転送
    手段と、 照合記号列のj番目の記号と違う被照合記号が与えられ
    たときのみ、前記セルアレイのh行(hはM未満の任意
    の正整数)j列目であるセルfhjの記憶データをセルf
    h+1j+1に転送する第2の転送手段と、 被照合記号が与えられると、与えられた被照合記号の如
    何にかかわらず前記セルアレイのh行k列目(kはN+
    1以下の任意の正整数)であるセルhhkの記憶データを
    セルfh+1kに転送する第3の転送手段と、 前記第1から第3の転送手段によりセルfikに少なくと
    も一つ1が転送されてくるとセルfikの記憶データを1
    にし、前記第1から第3の転送手段によりセルfikに1
    が一つも転送されてこなければセルfikの記憶データを
    0にする入力手段と、 セルfhkの記憶データが1になると、前記入力手段によ
    りセルfh+1j+1に与えられた入力によらず、セルfh+1j+1
    の記憶データを1にセットする動作を再帰的に行うセッ
    ト手段と を備えたことを特徴とする記号列照合装置。
  2. 【請求項2】請求項1に記載の記号列照合装置の制御方
    法であって、 少なくとも、前記セルアレイの全てのセルの記憶データ
    を0にした後、セルf11に1をセットすることにより初
    期設定を行うこと、 被照合記号列を1記号ずつ順に与えることにより記号列
    照合を実行することと、 前記セルアレイのN+1列目のM個のセルの中から、記
    憶データが1であり、 かついちばん行番号が小さいセルを探すことにより、照
    合結果として照合記号列と被照合記号列との距離を得る
    ことと を含むことを特徴とする記号列照合装置の制御方法。
JP63269746A 1988-10-25 1988-10-25 記号列照合装置とその制御方法 Expired - Fee Related JP2737173B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP63269746A JP2737173B2 (ja) 1988-10-25 1988-10-25 記号列照合装置とその制御方法
DE68927625T DE68927625T2 (de) 1988-10-25 1989-10-25 Folgenkollationierungssystem zum Suchen nach einer Charakterfolge willkürlicher Länge innerhalb eines gegebenen Abstands einer Referenzfolge
EP89119841A EP0366115B1 (en) 1988-10-25 1989-10-25 String collating system for searching for character string of arbitrary length within a given distance from reference string
US07/958,467 US5377349A (en) 1988-10-25 1992-10-08 String collating system for searching for character string of arbitrary length within a given distance from reference string

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63269746A JP2737173B2 (ja) 1988-10-25 1988-10-25 記号列照合装置とその制御方法

Publications (2)

Publication Number Publication Date
JPH02115973A JPH02115973A (ja) 1990-04-27
JP2737173B2 true JP2737173B2 (ja) 1998-04-08

Family

ID=17476579

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63269746A Expired - Fee Related JP2737173B2 (ja) 1988-10-25 1988-10-25 記号列照合装置とその制御方法

Country Status (4)

Country Link
US (1) US5377349A (ja)
EP (1) EP0366115B1 (ja)
JP (1) JP2737173B2 (ja)
DE (1) DE68927625T2 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0460871A (ja) * 1990-06-29 1992-02-26 Nec Corp 記号列照合装置の制御方式
US5511159A (en) * 1992-03-18 1996-04-23 At&T Corp. Method of identifying parameterized matches in a string
US5553272A (en) * 1994-09-30 1996-09-03 The University Of South Florida VLSI circuit structure for determining the edit distance between strings
US5864683A (en) * 1994-10-12 1999-01-26 Secure Computing Corporartion System for providing secure internetwork by connecting type enforcing secure computers to external network for limiting access to data based on user and process access rights
US5913024A (en) 1996-02-09 1999-06-15 Secure Computing Corporation Secure server utilizing separate protocol stacks
US6072942A (en) * 1996-09-18 2000-06-06 Secure Computing Corporation System and method of electronic mail filtering using interconnected nodes
US6144934A (en) * 1996-09-18 2000-11-07 Secure Computing Corporation Binary filter using pattern recognition
EP0859332A1 (en) * 1997-02-12 1998-08-19 STMicroelectronics S.r.l. Word recognition device and method
CN1092362C (zh) * 1998-02-10 2002-10-09 北京多思科技工业园股份有限公司 阵列错位比较装置及用来实现查询的方法
US7031002B1 (en) 1998-12-31 2006-04-18 International Business Machines Corporation System and method for using character set matching to enhance print quality
US7039637B2 (en) * 1998-12-31 2006-05-02 International Business Machines Corporation System and method for evaluating characters in an inputted search string against a character table bank comprising a predetermined number of columns that correspond to a plurality of pre-determined candidate character sets in order to provide enhanced full text search
US7191114B1 (en) 1999-08-27 2007-03-13 International Business Machines Corporation System and method for evaluating character sets to determine a best match encoding a message
JP2001291060A (ja) * 2000-04-04 2001-10-19 Toshiba Corp 単語列照合装置および単語列照合方法
JP4740060B2 (ja) * 2006-07-31 2011-08-03 富士通株式会社 重複データ検出プログラム、重複データ検出方法および重複データ検出装置
DE102007010259A1 (de) 2007-03-02 2008-09-04 Volkswagen Ag Sensor-Auswertevorrichtung und Verfahren zum Auswerten von Sensorsignalen
KR101878389B1 (ko) 2010-01-21 2018-07-16 더 아벨 파운데이션, 인크. 해양 온도차 발전소
US8872888B2 (en) 2010-10-01 2014-10-28 Sony Corporation Content transmission apparatus, content transmission method, content reproduction apparatus, content reproduction method, program and content delivery system
US10528556B1 (en) * 2017-12-31 2020-01-07 Allscripts Software, Llc Database methodology for searching encrypted data records
CN112637600B (zh) * 2020-12-14 2024-04-05 绍兴文理学院 对数据进行有损或无损压缩的编码、解码的方法或装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3584205A (en) * 1968-10-14 1971-06-08 Ibm Binary arithmetic and logic manipulator
US4630234A (en) * 1983-04-11 1986-12-16 Gti Corporation Linked list search processor
JPS6195442A (ja) * 1984-10-16 1986-05-14 Nec Corp 記号列照合装置
DE3750277T2 (de) * 1986-02-14 1994-11-17 Hitachi Ltd Verfahren und Vorrichtung zur Rückgewinnung von Symbolketten aus Daten.
US4823306A (en) * 1987-08-14 1989-04-18 International Business Machines Corporation Text search system

Also Published As

Publication number Publication date
DE68927625D1 (de) 1997-02-20
DE68927625T2 (de) 1997-08-14
JPH02115973A (ja) 1990-04-27
US5377349A (en) 1994-12-27
EP0366115A3 (en) 1991-11-21
EP0366115A2 (en) 1990-05-02
EP0366115B1 (en) 1997-01-08

Similar Documents

Publication Publication Date Title
JP2737173B2 (ja) 記号列照合装置とその制御方法
Wilkinson et al. Semantic and verbatim word spotting using deep neural networks
US20140204956A1 (en) Methods and systems for routing in a state machine
JPH0533422B2 (ja)
JP2715465B2 (ja) 記号列照合装置
Burkowski A hardware hashing scheme in the design of a multiterm string comparator
US4979101A (en) Apparatus for retrieving character strings
Nortje et al. Direct multimodal few-shot learning of speech and images
JPH04308B2 (ja)
RU72771U1 (ru) Устройство для параллельного поиска и обработки данных
EP0178651B1 (en) Data retrieving apparatus
Healy A character-oriented context-addressed segment-sequential storage
Yamada et al. A character string search processor
KR100284777B1 (ko) 지도 용어 사전을 위한 트라이 사전과 그 등록 및 검색 방법
JP2839515B2 (ja) 文字読取システム
JPH0460871A (ja) 記号列照合装置の制御方式
JPH0484367A (ja) 記号列照合装置の制御方式
JPH03208172A (ja) 記号列照合装置の制御方式
JPH0268663A (ja) 文字列検索装置
JPS61145798A (ja) 記号列連想メモリ装置とその動作制御方式
JPH0527150B2 (ja)
JPH0340079A (ja) 文字読取装置における文字認識後処理方法
JPH0554148B2 (ja)
Meyer et al. A direct access method using a neural network model
JPH0554147B2 (ja)

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees