JPS60116083A - 文字列判定装置 - Google Patents

文字列判定装置

Info

Publication number
JPS60116083A
JPS60116083A JP58223552A JP22355283A JPS60116083A JP S60116083 A JPS60116083 A JP S60116083A JP 58223552 A JP58223552 A JP 58223552A JP 22355283 A JP22355283 A JP 22355283A JP S60116083 A JPS60116083 A JP S60116083A
Authority
JP
Japan
Prior art keywords
character
comparison
comparison target
final
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP58223552A
Other languages
English (en)
Other versions
JPH0550024B2 (ja
Inventor
Hidemi Suzuki
鈴木 秀美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP58223552A priority Critical patent/JPS60116083A/ja
Publication of JPS60116083A publication Critical patent/JPS60116083A/ja
Publication of JPH0550024B2 publication Critical patent/JPH0550024B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の技術分野〕 この発明は、特に、成る文字列に類似の文字列を捜す場
合に好適する文字列判定装置に関する。
〔発明の技術的背景とその問題点〕
従来は、成る文字列に類似の文字列を捜す場合、成る文
字列(比較文字列)および候補文字列(比較対象文字列
)を各レジスタに格納し、両レジスタの内容を比較する
手段が採用されていた。このため従来方式では、比較文
字列と比較対象文字列との等価関係、大小関係の判定し
かできず、意味のある類似度判定かで@なかった。した
がって、特に電子メール、電子ファイルのようなオフィ
スオートメーション関係の非定型な業務において、オペ
レータが指定した文字列に推論を加える場合に多大な時
間を要し、問題であった。
〔発明の目的〕
この発明は上記事情に鑑みてなされたものでその目的は
、比較文字列と比較対象文字列との類似度判定が精度よ
く行なえる文字列判定装置を提供することにある。
〔発明の概要〕
この発明では、比較文字列およびその文字数を格納する
第1格納部と、比較対象文字列およびその文字数を格納
する第2格納部と、これら第1格納部および第2格納部
から1文字単位で取り出される比較文字および比較対象
文字を比較し、一致/不一致を検出する゛比較手段とが
設けられる。また、この発明では、比較手段の一致検出
結果に応じて一致文字数を計数する計数手段が設けられ
、この計数手段の計数結果を用いて文字列の類似度が判
定されるようになっている。
更に、この発明では、上述のように第1格納部、第2格
納部からそれぞれ1文字の比較文字、比較対象文字を取
り出す第1文字抽出手段、第2文字抽出手段と、上記比
較対象文字が上記比較対象文字列の最終文字であるか否
かを判定する最終比較対象文字判定手段とが設けられる
第1文字抽出手段は、最終比較対象文字判定手段によっ
て上記比較対象文字が上記最終文字であることが判定さ
れた場合、および上記比較手段によって一致が検出され
た場合に、上記第1格納部から次の比較文字を取り出す
ように構成される。また、第2文字抽出手段は、比較手
段の比較結果および最終比較対象文字判定手段の判定結
果に応じて次の比較対象文字を取り出すように構成され
ている。
〔発明の実施例〕
第1図は、この発明の一実施例に係る文字列判定装置の
構成を示す。図中、REG−Aは成る文字列A(与えら
れた文字列A)、即ち比較文字列A1およびその文字数
(構成文字数)を格納するレジスタ、REG−Bは文字
列AK類似の文字列を捜す場合の候補語である比較対象
文字列Bおよびその文字数を格納するレジスタである。
11はレジスタREG−Aから1文字だけ比較文字を取
り出す文字抽出部、12はレジスタREG−Bから1文
字だけ比較文字を取り出1−文字抽出部、13は比較部
である3、比較部13は文字抽出部11.12によって
取り出された比較文字と比較対象文字とを比較し、一致
/不一致を検出する。比較部13は一致検出時に一致出
力端子より論理11“の一致検出信号14を出力し、不
一致検出時に不一致出力端子より論理Jwの不一致検出
信号15を出力する。
16は上記一致検出4i号14に応じてインクリメント
されるカウンタ、17は終了検出部である。終了検出部
17には上記不一致検出信号15および最終文字信号1
8が導かれる。この最終文字信号18は文字抽出部12
から出力されるもので、論理°11のとき、文字抽出部
12から取り出されている文字(比較対象文字)が比較
対象文字列Bの最終文字であることを示す。
終了検出部17は論理″11の不一致検出信号15およ
び最終文字イ菖号18に応じて論理″1″の終了信号1
9または論理”】1の未終了信号20を出力する。この
例において、終了検出部17は、論理”1“の不一致検
出信号15が導かれている場合に、最終文字信号18が
論理”1′であれば論理11wの終了信号19を出力し
、同じく論理”O″であれば論理“1′の未終了信号2
0を出力する。この未終了信号20は文字抽出部12に
導かれる。一方、終了信号19は2人力オアブート21
の一万の入力端子に導かれる1、オアゲート21の他方
の入力端子には上記一致検出信号14が導かれる。
22は、オアグー21の出力信号23」?よび最終文字
信号24が導かれる終了検dj音トである3、この最終
文字信号24は文字抽出@b1175)らuA力される
もので、論理111のとき、文字」I11出音i11か
ら取り出されても)る文字(比較文字) 75E比較文
字列Aの最終文字であることを示す。終了検出部22は
オアグ” −) 2 Jの出ブJ信÷号23および最終
文字信号24が共ICii*理“1″の場合に、論理1
1°の終了信号25を出力1″る。26は論理111の
終了イa号25によって起りのされる類似度計算部であ
る。類似度m+’Ifi部26にシまカウンタ16のカ
ウント値が導力1れると共に、レジスタREG−Bに格
納されてI/)る文字数も図示せぬデータライン経由で
導力為れる。諺1イリ、反言ト藷。
部26はカウンタ16のカラントイ【代、および′比較
対象文字列Bの文字数に基づυ)てM(以度をi1゛算
する。
27はオプション機構である。メ″ゾション機構27は
、文字抽出部12に文1し、先頭文字力・らの“取り出
し、または最新の一致検出文字の次の文字からの取り出
しのいずれかを指定する。
なお、オプション機構27が設けられていない場合、文
字抽出部J2は先頭文字からの取り出し指定を判断する
。文字抽出部12は、終了検出部17からの論理@11
の未終了信号20に応じ、現比較対象文字の次の文字位
置の文字を(新たな比較対象文字として)レジスタRE
G−Bから取り出し、オアr=ト2iからの論理51′
の出力信号23に応じ、オプション機構27による指定
に従り;た文字を(新たな比較対象文字として)レジス
タ■心EG−Bから取り出1機能を有する。
また、文字抽出部12は、現比較対象文字の文字位置、
最新の一致検出文字の文字位11(の管理機能と、最終
文字信号18の出力機能とを有する。一方、文字抽出部
11は、オアゲート21からの論理″l°の出力信号2
3に応じ、現比較文字の次の文字位置の文字を(新たな
比較文字として)レジスタREG−Aから取り出す機能
を有する。また、文字抽出部11は、現比較文字の文字
位置の管理機能と、最終文字信号24の出力4幾能とを
有する。
次に、この発明の一実施例の動作を説明する。
今、レジスタREG−Aに、第2図に示す〃口<比較文
字列AとしてrMICKEL SMITE(J力!格納
され、その文字数としてrlllli格納されてl/)
るものとする。なおブランクは無才兄される。この状態
で、レジスタREG−Hに、第3図に示す如く、比較対
象文字列Bとしてr JONEMARTIN SMIT
HJが格納きれ、その文字数として「15」が格納され
たものとする。し力1して文字抽出部11,12(/C
よi)レジスタBEG−A 。
REG−Bから先頭文字rM」、r、rJd=*iJ出
される。これらの取り出し文字rMJ、rJJ)ま比1
1ffl fff113に供給される。比較部I3は、
これらの取り出し文字rMJ、rJJを比較し、一致/
不一致を検出する。この場合、比較部13しま不一致を
検出し、論理′1″の不一致検出信号15を出力する。
この不一致検出信号15トま終了オ灸山部17に導かれ
る。終了検出部xy(/C’Itま文字抽出部12から
の最終文字信号18も導かれる。この例のように、最終
文字信号18が論理″0′の場合、終了検出部17は論
理”1″の未終了信号20を出力する。この未終了信号
20は文字抽出部12に導かれる。文字抽出部12は論
理11”の未終了信号20に応じ、レジスタIC−Bか
ら現比較対象文字「J」の次の文字位置の文字「0」を
新たな比較対象文字として取り出す。この場合も、比較
部13で不一致が検出きれるので、更に次の文字rNJ
がレジスタREG−Bから取り出される。以下、同様に
してrEJ、r、MJが取り出されたものとする。なお
、「E」の後のブランクは無視される。
比較部13は、比較文字「M」と比較対象文字rMJと
を比較し、論理”1°の一致検出信号14を出力する。
これにより、カウンタ16が「1」インクリメントされ
、そのカウント値は「1」となる。また、オアダート2
ノの出力信号23は論理”1”となる。文字抽出部11
は、オアダート21からの論理111の出力信号23に
応じ、レジスタREG−Aから現比較文字rMJの次の
文字位置の文字rIJを新たな比較文字として取り出し
て比較部13に供給する。また、文字抽出部12は、オ
アゲート21からの論理w1wの出力信号23およびオ
プション機構27の指定に応じ、次の一文字をレジスタ
REG−Bから取り出す。この例では、オプション機構
27によって先頭文字からの取り出しが指定されている
ものとすると、文字抽出部11は、レジスタREG−B
から先頭文字rJJを再び取り出して比較部13に供給
する。この場合には、比較部13で不一致が検出され、
次の文字「0」がレジスタREG−Bから取り出される
。この場合にも、不一致が検出され、以下、同様にして
「N」。
rEJ、rMJ、rAJ、rRJ、rTJ、rIJが取
り出される。比較対象文字がrIJの場合、比較部13
での比較結果は一致となり、カウンタ16が「1」イン
クリメントされると共に、文字抽出部11.12により
レジスタREG−A 、 REG−Bから次の文字「C
」、「JJが取り出される。この例では、比較文字「C
」に一致する比較対象文字はレジスタREG−B内に存
在しないため、レジスタREG−Bからは比較対象文字
列Bが最終文字Hに至るまで全て取り出されることにな
る。
比較部13は、比較文字「C」と最終文字である比較対
象文字rHJとの比較結果として、論理″l″の不一致
検出信号15を出方する。この゛とき、終了検出部17
には、文字抽出部12から論理′l”の最終文字信号1
8が導かれている。終了検出部17は、論1i’l’の
不一致検出信号15および論理”1′の最終文字信号1
8に応じ、論理111の終了信号19をオアダート21
に出力する。しかしてオアゲート2ノの出力信号23は
論理″1°となる。これにより、文字抽出部1ノは、し
・ゾスタREG−Aがら現比較文字「C」の次の文字r
KJを比較文字として取り出し、文字抽出部12は、レ
ジスタREG−Bがら先頭文字「J」を比較対象文字と
して取り出す。なお、オプション機構27によって、最
新の一致検出文字の次の文字の取り出しが指定されてい
る場合には、rMARTINJのrIJの次の文字rN
JがレジスタREG−Bから取り出されることになる。
以下、同様にして文字比較が行なわれ、やがて文字抽出
部11.12により比較文字列A。
比較対象文字列Bそれぞれの最終文字H、H(i2図、
第3図参照)が取り出されたものとする。
この場合、比較部13は一致検出を示す論理“1゜の一
致検出信号14をカウンタ16およびオアダート21に
出力する。これによりカウンタ16は「1」インクリメ
ントされ、そのカウンタ値は「7」から「8」に遷移す
る。また、オアゲート21の出力信号23は論理111
となる。この論理11”の出力信号23は終了検出部2
2に導かれる。終了検出部22には文字抽出部11から
の最終文字信号24も導かれる。この例のように、現比
較文字rHJが最終文字の場合、最終文字信号24は論
理°1”である。終了検出部22は、最終文字信号24
およびオアゲート21の出力信号23が共に論理′1′
の場合、文字比較操作の終了を検出し、論理”1′の終
了信号25を出力する。この論理111の終了信号25
は類似度計算部26に導かれ、これにより類似度計算部
26は起動される。しかして類似度計算部26は、カウ
ンタ16の内容(この例では「8」)をレジスタREG
−B内の文字数(この例ではr15J)で除し、類似度
(百分率表現も可)をめる。このとき、基準値との大小
を比較し、この大小比較結果に応じ、比較対象文字列B
を比較文字列Aの類似文字列として採用するか否かを判
断することも可能である。
なお、前記実施例では、オプション機構27によって先
頭文字からの取り出しが指定されている場合について説
明したが、最新の一致検出文字の次の文字の取り出しが
指定されている場合には、文字列の順序も比較の要素に
加味することが可能となる。この場合、レジスタREG
−A。
REG−Eの内容を前記実施例と同様($2図、第3図
参照)であるものとすると、カウンタ16の最終カウン
ト値は前記実施例より「1」だけ減って「7」となる。
また、前記実施例において、一致検出文字を、繰り返し
比較の際に比較対象外文字とすることも可能である。こ
の方式ホ、ミススペリングのチェックに好適する。
〔発明の効果〕
以上詳述したようにこの発明によれば、比較文字列と比
較対象文字列との類似度判定の精度向上が図れる。した
がって、この発明を電子メールや電子ファイルの如きオ
フィスオートメーション関係の非定型業務に適用するこ
とにより、推論機能およびその性罷向上が図れる。更に
この発明は、第5世代コンピュータに実装され得る、人
工知能、知識データペースの検索性能の向上に寄与し得
る。
【図面の簡単な説明】
第1図はこの発明の一実施例に係る文字列判定装置の構
成を示すブロック図、第2図は第1図に示すレジスタR
EG−Aの内容の一例を示す図、第3図は第2図に示す
レジスタREG−Bの内容の一例を示す図である。 11.12・・・文字抽出部、13・・・比較部、16
・・・カウンタ、17.22・・終了検出部、REG−
A。 REG−B・・・レジスタ。

Claims (1)

  1. 【特許請求の範囲】 (1)比較文字列およびその文字数を格納する第1格納
    部と、比較対象文字列およびその文字数を格納する第2
    格納部と、これら第1および第2格納部から1文字単位
    で取り出される比較文字および比較対象文字を比較し、
    一致/不一致を検出する比較手段と、この比較手段の一
    致検出結果に応じて一致文字数を計数する11数手段と
    、上記比較対象文字が上記比較対象文字列の最終文字で
    あるが否かを判定する最終比較対象文字判定手段と、こ
    の最終比較対象文字判定手段によって上記比較対象文字
    が上記最終文字であることが判定された場合、および上
    記比較手段によって一致が検出された場合に、上記第1
    格納部から次の比較文字を取り出す第1文字抽出手段と
    、上記比較手段の比較結果および上記最終比較対象文字
    判定手段の判定結果に応じて上記第2格納部から次の比
    較対象文字を取り出す第2文字抽出手段とを具備し、少
    なくとも計数手段の計数結果を用いて文字列判定を行な
    9ようにしたことを特徴とする文字列判定装置。 (2)上記第2文字抽出手段は、上記比較手段によって
    不一致が検出され、且つ上記最終比較対象文字判定手段
    によって上記比較対象文字が上記最終文字でないことが
    判定された場合に、渦紋比較対象文字の次の文字位置の
    文字を新たな比較対象文字として上記第2格納部から取
    り出すことを特徴とする特許請求の範囲第1項記載の文
    字判定装置r、t: (1(3)上記第2文字抽出手段
    は、上記比較手段によって一致が検出された場合、およ
    び上記比較手段によって不一致が検出され、且つ上記最
    終比較対象文字1′41定手段によって上記比較対象文
    字が上記最終文字であることが判定された場合に、上記
    比較対象文字列の先頭文字を新たな比較対象文字として
    上記第2格納部から取り出すことを特徴とする特許請求
    の範囲第2項記載の文字列判定装置。 (4)上記第2文字抽出手段は、上記比較手段によって
    一致が検出された場合、および上記比較手段によって不
    一致が検出され、且つ上記最終比較対象文字判定手段に
    よって上記比較対象文字が上記最終文字であることが判
    定された場合に、上記比較対象文字列中の最新の一致検
    出文字の次の文字を新たな比較対象文字として上記第2
    格納部から取り出すことを特徴とする特許請求の範囲第
    2項記載の文字列判定装置。
JP58223552A 1983-11-28 1983-11-28 文字列判定装置 Granted JPS60116083A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58223552A JPS60116083A (ja) 1983-11-28 1983-11-28 文字列判定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58223552A JPS60116083A (ja) 1983-11-28 1983-11-28 文字列判定装置

Publications (2)

Publication Number Publication Date
JPS60116083A true JPS60116083A (ja) 1985-06-22
JPH0550024B2 JPH0550024B2 (ja) 1993-07-27

Family

ID=16799942

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58223552A Granted JPS60116083A (ja) 1983-11-28 1983-11-28 文字列判定装置

Country Status (1)

Country Link
JP (1) JPS60116083A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01181124A (ja) * 1988-01-13 1989-07-19 Nec Corp 誤り検出回路
JPH0736926A (ja) * 1993-06-28 1995-02-07 Nippon Telegr & Teleph Corp <Ntt> 不完全文字列と文字列の照合方法および装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5182536A (ja) * 1974-12-04 1976-07-20 Anvar

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5182536A (ja) * 1974-12-04 1976-07-20 Anvar

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01181124A (ja) * 1988-01-13 1989-07-19 Nec Corp 誤り検出回路
JPH0736926A (ja) * 1993-06-28 1995-02-07 Nippon Telegr & Teleph Corp <Ntt> 不完全文字列と文字列の照合方法および装置

Also Published As

Publication number Publication date
JPH0550024B2 (ja) 1993-07-27

Similar Documents

Publication Publication Date Title
WO2020215563A1 (zh) 用于文本分类的训练样本生成方法、装置和计算机设备
CN109240901B (zh) 性能分析方法、性能分析装置、存储介质和电子设备
US9804838B2 (en) Systems and methods for finding project-related information by clustering applications into related concept categories
WO2019174132A1 (zh) 数据处理方法、服务器及计算机存储介质
US9031935B2 (en) Search system, search method, and program
WO2017020454A1 (zh) 检索方法和装置
JP2005302041A (ja) キーワードとWebサイトのコンテンツとの間の関連性の検証
WO2021082123A1 (zh) 信息推荐方法及装置、电子设备
Wang et al. An Efficient Sliding Window Approach for Approximate Entity Extraction with Synonyms.
CN115630144B (zh) 一种文档搜索方法、装置及相关设备
JP2003281186A (ja) 類似性判断のための例題ベース検索方法及び検索システム
US11615080B1 (en) System, method, and computer program for converting a natural language query to a nested database query
JP2009193219A (ja) インデックス作成装置、その方法、プログラム及び記録媒体
Khanfir et al. Codebert-nt: code naturalness via codebert
US10216792B2 (en) Automated join detection
Sefid et al. Cleaning noisy and heterogeneous metadata for record linking across scholarly big datasets
WO2018205391A1 (zh) 信息检索准确性评估方法、***、装置及计算机可读存储介质
JPS60116083A (ja) 文字列判定装置
JPH10232877A (ja) 文字列の照合装置およびデータベースシステム
Misu et al. An exploratory study on interface similarities in code clones
US11615089B1 (en) System, method, and computer program for converting a natural language query to a structured database query
Li et al. A Deep Learning Based Approach to Detect Code Clones
Sloan et al. Data preparation and fuzzy matching techniques for improved statistical modeling
TWI471739B (zh) A method for identifying a synonym, a device, and a method and apparatus for searching it
WO2022127610A1 (zh) 文本识别结果处理***、方法及装置