JP2821213B2 - Database matching method - Google Patents

Database matching method

Info

Publication number
JP2821213B2
JP2821213B2 JP1328515A JP32851589A JP2821213B2 JP 2821213 B2 JP2821213 B2 JP 2821213B2 JP 1328515 A JP1328515 A JP 1328515A JP 32851589 A JP32851589 A JP 32851589A JP 2821213 B2 JP2821213 B2 JP 2821213B2
Authority
JP
Japan
Prior art keywords
matching
nouns
noun
common
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1328515A
Other languages
Japanese (ja)
Other versions
JPH03189870A (en
Inventor
茂 嶋田
和之 鈴木
直樹 山本
伸行 近田
四郎 武井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tokyo Electric Power Co Inc
Hitachi Ltd
Original Assignee
Tokyo Electric Power Co Inc
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Electric Power Co Inc, Hitachi Ltd filed Critical Tokyo Electric Power Co Inc
Priority to JP1328515A priority Critical patent/JP2821213B2/en
Priority to US07/630,328 priority patent/US5210868A/en
Publication of JPH03189870A publication Critical patent/JPH03189870A/en
Application granted granted Critical
Publication of JP2821213B2 publication Critical patent/JP2821213B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION 【産業上の利用分野】[Industrial applications]

本発明は、地図・図面情報処理などのデータベースシ
ステムにおいて、あいまいな情報から複数のデータベー
ス間のマッチング方式に関する。
The present invention relates to a matching method between a plurality of databases from ambiguous information in a database system such as map / drawing information processing.

【従来の技術】[Prior art]

従来、電話帳データベースと住宅地図データベースの
2つのデータベースを結合させ、より高度な付加価値を
持った情報案内用データベースの作成方法に関する報告
がなされている。ここでは2つのデータベース間名義部
の結合率を向上させるため、名義部を単語に分解し、さ
らにそれらの単語を属性別に分類して各単語を比較する
方法について述べている(電子情報通信学会創立70周年
記念総合全国大会予稿,pp6−91「電話帳DBと住宅地図DB
の結合方法の検討」)。さらに結合率を向上させるた
め、各属性別単語に関する類語や省略語に対処可能な階
層的辞書を用いる方法について述べている(電子情報通
信学会情報システム部門全国大会予稿,pp1−111「電話
帳DBと住宅地図DBの結合方法の検討(その2)」)。
Conventionally, there has been a report on a method of creating an information guide database having a higher added value by combining two databases, a telephone directory database and a house map database. Here, a method is described in which the nominal part is decomposed into words, the words are classified by attribute, and each word is compared in order to improve the connection ratio of the nominal part between the two databases. Proceedings of the 70th anniversary national convention, pp6-91 `` Telephone Directory DB and Housing Map DB
Examination of the joining method of "). In order to further improve the connection rate, a method of using a hierarchical dictionary that can handle synonyms and abbreviations for each attribute-based word is described. (Preprints of the IEICE Information System Division National Convention, pp1-111 "Phonebook DB Of a method for combining a map with a house map DB (Part 2) ”).

【発明が解決しようとしている課題】[Problems to be solved by the invention]

ところが上記従来技術では、階層的な同義語辞書の構
造を述べているだけで、キーワードから類語や省略語を
推定するための具体的な方法については十分考えられて
いない。本発明の目的は、ある1つのキーワードから類
語や省略語を推定してデータベース間の対応キーワード
に含まれるあいまいさを吸収し、複数のデータベース間
のマッチング率を向上させることにある。
However, the above-mentioned conventional technology only describes the structure of a hierarchical synonym dictionary, but does not sufficiently consider a specific method for estimating synonyms and abbreviations from keywords. An object of the present invention is to estimate synonyms and abbreviations from a single keyword to absorb ambiguity included in corresponding keywords between databases, and improve the matching rate between a plurality of databases.

【課題を解決するための手段】[Means for Solving the Problems]

上記目的を達成するために本発明では、マッチングの
対象とするキーワードを、普通名詞部と固有名詞部とに
分け、それぞれプロダクション形式の類語を推定するた
めのルールと、省略語を推定するためのルールとを作成
し、更にこれらのルールを用いて推定した結果を最適に
組合せるための組合せルールを作成し、以上のルール群
を用いてマッチング処理用のキーワードを多数推定する
ことにある。
In order to achieve the above object, in the present invention, a keyword to be matched is divided into a common noun part and a proper noun part, and a rule for estimating a production form synonym and a rule for estimating an abbreviation are respectively provided. A rule is created, a combination rule for optimally combining the results of estimation using these rules is created, and a large number of keywords for matching processing are estimated using the above rule group.

【作用】[Action]

以上の手段により、結合処理の対象となるキーワード
間の曖昧性を補うための候補キーワードを多数推定でき
ることになり、データベース間の結合率が大幅に向上す
る。
By the above means, a large number of candidate keywords for compensating for ambiguity between keywords to be combined can be estimated, and the combination rate between databases is greatly improved.

【実施例】【Example】

以下、本発明の一実施例におけるデータベースのマッ
チング・結合方法の全体の構成について説明する。第1
図はその全体の処理の構成を示すブロック図である。 第1図において、100はマッチングの条件となるデー
タが格納されているデータベース(A)、101はデータ
ベース(A)からマッチングの条件キーを入力するため
のマッチングキー入力部、102は入力されたマッチング
キーを普通名詞部と固有名詞部に分離するための普通・
固有名詞分離部、103は上記普通名詞部と固有名詞部と
に分離する場合に参照される普通名詞辞書、104は分離
されたマッチングキーのうちあいまいさの含まれる普通
名詞から類語ルールを用いて類似の普通名詞を推論する
普通名詞類語推論部、105は上記普通名詞の類語を推論
するための類語ルールを記憶する普通名詞類語ルール、
106は分離されたマッチングキーのうちあいまいさの含
まれる固有名詞から類語ルールを用いて類似の固有名詞
を推論する固有名詞類語推論部、107は上記固有名詞の
類語を推論するための類語ルールを記憶する固有名詞類
語ルール、108は普通・固有それぞれ別に類語を推論さ
れている結果から、マッチングキーとしての最適な組合
せを推論する組合せ推論部、109はマッチングキーとし
ての最適な組合せルールを記憶する組合せルール、110
は推論されたマッチングキーを用いてデータベースから
該当するデータをマッチングするためのマッチング処理
部、111はマッチングの対象となるキーをデータベース
からマッチング処理系に入力するためのマッチング対象
キー入力部、200はマッチング対象となるデータベース
(B)、及び112はマッチングされた結果をファイルと
してデータベース(C)に格納するデータを作成するた
めのマッチング出力作成部、300はマッチング処理後の
結果を格納するためのデータベース(C)である。 以上のように構成された本実施例のデータベースのマ
ッチング・結合方法の処理の流れについて、以下具体的
な例を用いて説明する。 第2図においてデータベースのマッチングキーの例と
して、101のマッチングキー入力部から「平電本店」を
入力されたとする。このとき102の普通名詞分離部は、
上記入力されたマッチングキーを固有名詞部と普通名詞
部とに分解する。この分離処理には、103の普通名詞辞
書が使われる。この分離されたマッチングキーの普通名
詞部及び固有名詞部それぞれに対して、104,106の普通
・固有各推論部により、普通名詞部類語と固有名詞部類
語とを推論する。この推論過程には、105,107の普通・
固有の各類語推論用のルールが使用される。次に108の
組合せ推論部によって、各々推論された普通・固有名詞
部の類語を最適に組合せ、データベースとのマッチング
処理を行うためのマッチングキー候補を推論する。この
推論過程には109の組合せルールが使用される。そして
最後にこれらマッチングキーの候補とデータベースの内
容との部分マッチング処理を行い、最終的なマッチング
効果を得る。 一方110のマッチング処理過程が文献(Knuth,D.E et
c,“Fast Pattern Matching in Strings SIAM J.Comput
ing,"vol.6,no.2,pp323−350 1977)で示されるような
多項目並列部分マッチング機能など高い能力を備えてい
る場合には、データベースとのマッチングを行う処理過
程を次のように変えても実現可能である。即ちマッチン
グ過程は、まず固有名詞部類語を使って部分マッチリス
トを得る。次にこの部分マッチリストとして得られてい
る多数のマッチング候補を対象に、普通名詞部の類語を
使って部分マッチング機能により最終的なマッチング結
果を得る。 以上のようなマッチング処理において、以下各処理部
を構成する要素の詳細について順に説明する。まず最初
に101のマッチングキー入力部では、マッチング対象を
指定するためのキー項目を、データベース(A)から検
索し、マッチング処理系に入力する。又はデータベース
(A)が無い場合にはワークステーション等のキーボー
ドからユーザが入力したデータでもよい。この場合、具
体的なマッチングキーとしては、ローマ字・カナ・漢字
等指定キーの種類には限定されないが、後段の処理をよ
り簡素化するために、上記ローマ字・カナ・ひらかな等
の指定によるキーの場合には、あらかじめカナ漢字変換
機能により、全て漢字に変換しておくものとする。 次に102の普通・固有名詞分離部では、上記入力され
た漢字によるマッチングキーを普通名詞部と固有名詞部
とに分離する。ここで普通名詞と固有名詞を区分する主
な目的は、マッチングのための類語辞書を極力小さくす
ることにある。例えばこの普通名詞の例としては、「会
社」「学校」「建設」など一般の機関名称や職業名称に
該当し、普通名詞の種類が電話番号帳の職業欄で示され
る種類のように数百程度であり、そのデータ内容は特殊
な企業名称や個人名称などの固有名詞のデータ容量に比
べかなり小さい。そこで分離の基本方式としては、103
の形式で記憶される普通名詞辞書の内容と、入力マッチ
ングキーの文字例の内容とを、文献(Aho,G etc,“Effi
cient String Matching;An Aid to Bibliographic Sear
ch"Comm.ACM,vol.18,no.6,pp333−340 1975)で示され
るストリング列の部分マッチング機能により比較し、マ
ッチングのとれる最長のストリング列を抽出する。この
場合、普通名詞部の抽出を優先させるのは、普通名詞の
種類が電話番号帳の職業欄で示される種類のように数百
程度であり、固有名詞の数に比較すれば圧倒的に少ない
ことによる。なおこの103の普通名詞辞書の構造として
は、単純に普通名詞を並べただけの型式から、共有可能
なキャラクタをポインタで結合した辞書式ポインタ方式
などが考えられ、特に型式上の限定はない。しかし、後
者の辞書式ポインタ型式では、第3図の例で示すよう
に、例えば{株},{株式},{株式会社},{株式商
事}等のキャラクタ列が、{株},{式},{会},
{社},{商},{事}といった個別のキャラクタをポ
インタで結び付ける方式により、普通名詞をキャラクタ
列として単純に並べただけの場合と等価なアクセスが可
能で、しかも大幅な記憶容量の削減とアクセス時間の高
速化が期待できる。 次に104の普通名詞部推論部が、105の普通名詞類語ル
ールを使って類語をマッチングする方式について説明す
る。まず105の類語ルール部には、第4図に示すような
普通名詞に関する類語規則を、if部とthen部とに分けて
格納する。即ちif部に入力キーワードを、then部に推論
される連想キーワード群を確信度付きでリスト化される
ようなルール形式の構造で記憶させる。この場合の推論
メカニズムとしては、文献(安信他、「検索型エキスパ
ートシステムとその基本構造に関する一考察」昭和63年
度人工知能学会全国大会予稿,pp6−27)に示される方式
による前向き推論方式を用い、与えられた入力キーワー
ドに対して連想されるキーワードが、再び入力キーワー
ドとして使用されるいわゆるプロダクションシステムの
挙動を示す。例えば「本社」をキーとすると、連想キー
ワードとして「本店」「本部」が得られ、更に「本部」
を入力キーワードとして「センター」が推論される。こ
れらのプロダクション挙動から得られる連想キーワード
は全てリストとして記憶され、108に示す組合せ推論部
に送る。 一方、106の固有名詞類語推論部における類語の推論
方式についても、普通名詞部の場合と同様にプロダクシ
ョンシステムによる前向き推論方式を用いて行う。この
場合の107の固有名詞類語ルールは、第5図に示すよう
に固有名詞の省略語に関し、正式名称を連想するための
ルールである。例えば「平電」をキーとすると、連想キ
ーワードとして、「平成電力」「平電設計」などがそれ
ぞれ確信度付きで推論される。これらの連想キーワード
は、全てリストとして記憶され、108の組合せ推論部に
送る。 但し以上のようなプロダクションの連携を複数個たど
った場合の推論結果の確信度としては、現段階までにた
どったルール確信度を用いた各種の計算方法が考えられ
る。例えば、現段階までにたどったルール確信度全体の
最大値・最小値・積・和など多数の方式考えられるが、
ここでは積を用いる。例べばルールAとルールBの2段
階プロダクションによる推論の場合、ルールAによる推
論確信度をpa、ルールBによる推論確信度をpbとする
と、2つのルールA,Bのプロダクションから推論される
結果の確信度pmは、pm=pa・pbで計算する。 次に組合せ推論方式の内容を説明する。固有名詞部推
論結果をaN、そのときの推論確信度をpa、かつ普通名詞
推論結果をbN、その時の推論確信度をpbとすると、それ
ぞれの推論確信度に対して2つのスレッショルド値thu,
thlを設け、これらの確信度の値の比較を最適に制御す
る組合せルールを参照して、固有名詞部と普通名詞部の
組合せを求め、キーワード推定リストに追加する。例え
ば第6図に示した組合せルールでは、if部の内容として
固有名詞部推論結果aNの確信度paがthu以上かつ普通名
詞部推論結果bNの確信度pbがthl以上ならば、組合せキ
ーリストにaNbNを追加することを示している。更に次の
ルールでは、固有名詞推論結果aNの確信度paがthl以上t
hu以下、かつ普通名詞部推論結果bNの確信度pbがthu以
上ならば、組合せキーリストにbNaNを追加することを示
している。この後者の具体的な例としては、固有名詞部
として「東西電気」、普通名詞部として「株式会社」が
推論されたとすると、この場合固有名詞部に比べ普通名
詞部の推論確信度が高いので、普通名詞部が先行した
「株式会社東西電気」がマッチングキーワードの候補と
して考えられることを示している。以上推定されたマッ
チングキーワードはリスト化して、後段のマッチング処
理部にわたす。 以上マッチングキーワードの推論方式についてのべた
が、以降、マッチングキーワード指定からの推論マッチ
と地理上の位置を限定するコード情報(例えば、住所コ
ード・街区番号・地番・郵便番号・建物番号・部屋番号
など)などのマッチング範囲を限定する項目を使った限
定処理とを階層的に組合せて、マッチングの速度と精度
とを向上させる方式について説明する。この場合のマッ
チングキーワードの形式としては、例えば第7図に示す
ように、住所コード部,住居名義部,住宅コード部,個
人名義部の4つの部分に分かれており、このうち住所コ
ード部と住宅コード部には、数値データが記憶され、住
居名義部と個人名義部には文字コードが記憶される。こ
のデータの型式はマッチング対称キーワードに関しても
同一の型式であるとする。 このような状態での階層的マッチング処理全体の流れ
は第8図のようになる。この場合、大きく4つのステッ
プのマッチング処理で構成される。第1ステップの処理
としては、マッチングキーおよびマッチング対象キーと
の間の住所コードに関する完全一致性を判定する。もし
この段階で一意的なマッチングが可能であるならば、マ
ッチング結果を用いたデータの作成を行いその結果を第
3のデータベースに記憶する。反対に全く該当するもの
がない場合にはエラー処理を行った後、次のマッチング
処理に移る。一方マッチング項目が多数存在する場合に
は、この段階でのマッチング処理は不完全であると判断
し、次のステップの処理に移行する。 第2ステップの処理としては、マッチングキー及びマ
ッチング対象キーとの間の住所名義に関する一致性を判
定する。この場合のマッチングキーである住所名義は名
称データであり、あいまいさが含まれるので、一旦住所
名義の類語に関する推論を行い、住所名義類語リストを
求める。この住所名義類語リストとマッチング対象キー
の住居名義部との多項目一致性を判定する。この段階で
一位的なマッチングが可能ならば、マッチング結果を用
いたデータの作成を行いその結果を第3のデータベース
に記憶する。逆に全く該当するものが無い場合にはエラ
ー処理を行った後、次のマッチング処理に移る。一方マ
ッチング項目が多数存在する場合には、この段階でのマ
ッチング処理は不完全であると判断し、次のステップの
処理に移行する。 第3ステップの処理としては、マッチングキーおよび
マッチング対象キーとの間の住宅コードに関する一致性
を判定する。この住宅コードは数値データであり完全一
致性の判定が可能であるので、第1ステップでの処理と
同様な流れで処理可能である。 第4ステップの処理としては、マッチングキーおよび
マッチング対象キーとの間の個人名義に関する一致性を
判定する。この場合のマッチングキーである個人名義は
名称データであり、あいまいさが含まれるので、一旦個
人名義の類語に関する推論を行い、個人名義類語リスト
を求める。そいて以下、第2ステップでの処理と同様の
流れで処理可能である。
Hereinafter, an overall configuration of a database matching / joining method according to an embodiment of the present invention will be described. First
The figure is a block diagram showing the configuration of the entire process. In FIG. 1, reference numeral 100 denotes a database (A) in which data serving as a matching condition is stored; 101, a matching key input unit for inputting a matching condition key from the database (A); Ordinary to separate keys into common nouns and proper nouns
Proper noun separation unit, 103 is a common noun dictionary that is referred to when separating into the above common noun part and proper noun part, 104 is using a synonym rule from common nouns containing ambiguity among separated matching keys A common noun synonym inference unit that infers similar common nouns, 105 is a common noun synonym rule that stores synonym rules for inferring synonyms of the common noun,
106 is a proper noun synonym inference part that infers similar proper nouns from the proper nouns containing ambiguity in the separated matching keys using synonym rules, and 107 is a synonym rule for inferring synonyms of the above proper nouns. A proper noun synonym rule to be stored, 108 is a combination inference unit that infers an optimal combination as a matching key from a result of inferring a synonym for each of ordinary and proper, and 109 stores an optimal combination rule as a matching key. Combination rules, 110
Is a matching processing unit for matching the corresponding data from the database using the inferred matching key, 111 is a matching target key input unit for inputting a key to be matched from the database to the matching processing system, 200 is The matching target database (B) and 112 are matching output creating units for creating data for storing matching results as files in the database (C), and 300 is a database for storing matching results. (C). The processing flow of the database matching / combining method of the present embodiment configured as described above will be described below using a specific example. In FIG. 2, it is assumed that "Heiden Honten" is input from the matching key input unit 101 as an example of the matching key of the database. At this time, the 102 common noun separator is
The input matching key is decomposed into a proper noun part and a common noun part. For this separation process, 103 common noun dictionaries are used. For each of the common noun part and proper noun part of the separated matching key, common noun and synonymous synonyms are inferred by 104 and 106 ordinary and proper inference units. In this inference process, 105,107 ordinary and
Specific rules for each synonym inference are used. Next, the combination inference unit 108 optimally combines the synonyms of the inferred ordinary and proper noun parts, and infers a matching key candidate for performing a matching process with the database. In this inference process, 109 combination rules are used. Finally, a partial matching process is performed between these matching key candidates and the contents of the database to obtain a final matching effect. On the other hand, 110 matching processes are described in the literature (Knuth, DE et
c, “Fast Pattern Matching in Strings SIAM J. Comput
ing, "vol.6, no.2, pp323-350 1977), if it has a high capability such as a multi-item parallel partial matching function, the process of matching with a database is as follows. In other words, the matching process can be realized by first obtaining a partial match list using proper noun synonyms. Then, using a large number of matching candidates obtained as the partial match list, The final matching result is obtained by the partial matching function using a synonym of. In the above matching processing, the details of the elements constituting each processing unit will be described in order below. , A key item for designating a matching target is searched from the database (A) and input to the matching processing system, or if there is no database (A), May be data input by the user from a keyboard such as a workstation, etc. In this case, a specific matching key is not limited to a type of a designation key such as a Roman character, a kana, a kanji, etc., but further simplifies the subsequent processing. For this reason, in the case of a key specified by the above Roman characters, kana, hiragana, etc., it is assumed that all keys are converted into kanji by the kana kanji conversion function in advance. The input key of the Chinese character is separated into a common noun part and a proper noun part, and the main purpose of distinguishing the common noun and proper noun is to minimize the thesaurus for matching. For example, the common nouns correspond to general institution names and occupational names such as "company", "school", and "construction". Is is is several hundred about as kind, the data content is much smaller than that of the proper names of data capacity, such as special corporate name or personal name. Therefore, the basic method of separation is 103
The contents of the common noun dictionary stored in the form of "." And the contents of character examples of the input matching key are described in the literature (Aho, G etc., "Effi
cient String Matching; An Aid to Bibliographic Sear
ch "Comm.ACM, vol.18, no.6, pp333-340 1975) to compare by the partial string matching function and extract the longest matching string string. In this case, the common noun part The reason for giving priority to the extraction is that the types of common nouns are about several hundred as shown in the occupation column of the telephone number book, and are overwhelmingly small compared to the number of proper nouns. The structure of the common noun dictionary may be a simple type in which common nouns are simply arranged, or a dictionary-type pointer system in which sharable characters are connected by pointers, and there is no particular limitation on the type. In the dictionary type pointer type, as shown in the example of FIG. 3, for example, a character string such as {share}, {share}, {share}, {stock trade}, etc. },
By combining individual characters such as “company”, “commercial”, and “business” with pointers, access equivalent to simply arranging common nouns as character strings is possible, and significant storage capacity is reduced. And faster access times can be expected. Next, a method in which the common noun inference unit 104 matches synonyms using the common noun synonym rule 105 will be described. First, in the synonym rule section 105, synonym rules for common nouns as shown in FIG. 4 are stored separately for an if section and a then section. That is, the input keyword is stored in the if part in a rule format structure in which the associative keyword group inferred in the then part is listed with certainty. As the inference mechanism in this case, a forward inference method based on the method shown in the literature (Anshin et al., “A Study on Search-Type Expert Systems and Their Basic Structure”, Proceedings of the 1988 National Convention of the Japan Society for Artificial Intelligence, pp. 6-27) was used. The behavior of a so-called production system in which a keyword associated with a given input keyword is used again as an input keyword. For example, if "Head Office" is the key, "Head Office" and "Head Office" are obtained as associative keywords, and "Head Office"
Is used as an input keyword to infer “center”. All the associative keywords obtained from these production behaviors are stored as a list and sent to the combination inference unit 108. On the other hand, the inference method of synonyms in the proper noun synonym inference unit 106 is also performed by using the forward inference method by the production system as in the case of ordinary noun parts. The proper noun synonym rule 107 in this case is a rule for associating a proper name with an abbreviation of a proper noun as shown in FIG. For example, if "hiraden" is used as a key, "Heisei Electric Power", "hiraden design", etc. are inferred with certainty as associated keywords. These associative keywords are all stored as a list and sent to the combination inference unit 108. However, as a certainty factor of the inference result when a plurality of such production linkages are traced, various calculation methods using the rule certainty factors traced up to the present stage can be considered. For example, there are many methods such as the maximum value, minimum value, product, and sum of the rule certainty that has been traced up to this stage.
Here, the product is used. For example, in the case of inference by two-step production of rules A and B, if the inference certainty by rule A is pa and the inference certainty by rule B is pb, the result inferred from the production of two rules A and B Is calculated by pm = pa · pb. Next, the contents of the combination inference method will be described. Assuming that the proper noun part inference result is aN, the inference certainty at that time is pa, the common noun inference result is bN, and the inference certainty at that time is pb, two threshold values thu, thu,
With reference to a combination rule that optimally controls the comparison of these confidence values, a combination of proper noun part and common noun part is obtained and added to the keyword estimation list. For example, in the combination rule shown in FIG. 6, if the certainty pa of the proper noun part inference result aN is greater than thu and the certainty pb of the common noun part inference result bN is greater than thl as the contents of the if part, the combination key list This shows that aNbN is added. Furthermore, in the next rule, the certainty degree pa of the proper noun inference result aN is not less than thl and t
If it is less than hu and the confidence pb of the common noun part inference result bN is more than thu, it indicates that bNaN is added to the combination key list. As a specific example of this latter, if "Tozai Denki" was inferred as a proper noun part and "stock company" was inferred as a common noun part, the inference confidence of the common noun part is higher than the proper noun part in this case. This indicates that “Tozai Electric Co., Ltd.” preceded by a common noun part can be considered as a candidate for the matching keyword. The matching keywords estimated as described above are listed and passed to a subsequent matching processing unit. The inference method of the matching keyword has been described above. Hereinafter, the inference match based on the specification of the matching keyword and the code information for limiting the geographical position (for example, address code, block number, lot number, postal code, building number, room number, etc.) A method for improving the speed and accuracy of matching by hierarchically combining limiting processing using items that limit the matching range, such as ()), will be described. The format of the matching keyword in this case is, as shown in FIG. 7, divided into four parts: an address code part, a house name part, a house code part, and a personal name part. Numeric data is stored in the code part, and character codes are stored in the house name part and the personal name part. It is assumed that the type of the data is the same for the matching symmetric keyword. The flow of the entire hierarchical matching process in such a state is as shown in FIG. In this case, it is roughly composed of a matching process of four steps. As the process of the first step, complete matching regarding the address code between the matching key and the matching target key is determined. If unique matching is possible at this stage, data is created using the matching result, and the result is stored in the third database. On the other hand, if there is no corresponding item, an error process is performed, and then the process proceeds to the next matching process. On the other hand, if there are many matching items, it is determined that the matching process at this stage is incomplete, and the process proceeds to the next step. In the process of the second step, the matching between the matching key and the matching target key regarding the name of the address is determined. In this case, the name of the address, which is a matching key, is name data and includes ambiguity. Therefore, inference regarding synonyms of the name of the address is performed once, and an address name synonym list is obtained. Multi-item matching between the address name synonym list and the house name part of the matching target key is determined. At this stage, if top-level matching is possible, data is created using the matching result, and the result is stored in the third database. On the other hand, if there is no corresponding item, an error process is performed, and then the process proceeds to the next matching process. On the other hand, if there are many matching items, it is determined that the matching process at this stage is incomplete, and the process proceeds to the next step. In the process of the third step, the matching between the matching key and the matching target key regarding the house code is determined. Since this house code is numerical data and can be determined for complete coincidence, it can be processed in the same flow as the processing in the first step. In the process of the fourth step, the matching between the matching key and the matching target key regarding the personal name is determined. In this case, the personal name, which is the matching key, is name data and includes ambiguity. Therefore, inference regarding a synonym of the personal name is performed once to obtain a personal name synonym list. Thereafter, processing can be performed in the same flow as the processing in the second step.

【発明の効果】【The invention's effect】

以上説明したごとく、本発明によれば、複数のデータ
ベース間のマッチング処理を、マッチングを媒介するキ
ーの中にあいまいな情報が含まれ、直接的にマッチング
がとれない場合でも、知識ベースを使った推論によりマ
ッチングがとれるようになり、複数のデータベース間の
内容を融合させた付加価値の高いデータベースを自動的
に作成することが可能となる。
As described above, according to the present invention, a matching process between a plurality of databases uses a knowledge base even when ambiguous information is included in a key that mediates matching and matching cannot be directly achieved. Matching can be obtained by inference, and a high value-added database in which the contents of a plurality of databases are integrated can be automatically created.

【図面の簡単な説明】[Brief description of the drawings]

第1図は、マッチング処理の中で推論処理を行う部分の
ブロック図、第2図は推論処理のデータの処理過程を示
す図、第3図はマッチングキーから普通名詞を抽出する
ための辞書の構造を示す図、第4図は普通名詞から類語
を推論するための普通名詞類語ルールの内容例、第5図
は固有名詞の省略キーワードから類語を推論するための
固有名詞類語ルールの内容例、第6図は普通名詞と固有
名詞にそれぞれ分解して推論されている類語を組合せる
ための組合せルールの具体例。第7図はマッチングキー
及びマッチング対象キーにコードデータと名称データと
が混在した形式で存在することを示す例図、第8図はコ
ードデータによるマッチング範囲の限定と、類語の推論
とを組合せてマッチング速度を向上させるための処理の
流れを示す図。 符号の説明 100……マッチングを取るデータベース、101……マッチ
ングキー入力部、102……普通・固有名詞分離部、103…
…普通名詞辞書、104……普通名詞類語推論部、105……
普通名詞類語ルール、106……固有名詞類語推論部、107
……固有名詞類語ルール、108……組合せ推論部、109…
…組合せルール、110……マッチング処理部、111……マ
ッチング対象キー入力部、112……マッチング出力作成
部、200……マッチング対象となるデータベース、300…
…マッチング処理結果を格納するデータベース。
FIG. 1 is a block diagram of a part for performing inference processing in the matching processing, FIG. 2 is a view showing a data processing process of the inference processing, and FIG. 3 is a dictionary for extracting common nouns from a matching key. FIG. 4 shows a structure example, FIG. 4 shows an example of contents of a common noun synonym rule for inferring a synonym from a common noun, FIG. 5 shows an example of contents of a proper noun synonym rule for inferring a synonym from an abbreviated keyword of a proper noun, FIG. 6 is a specific example of a combination rule for combining synonyms inferred by being decomposed into common nouns and proper nouns. FIG. 7 is an example diagram showing that code data and name data are present in a mixed form in a matching key and a matching target key, and FIG. 8 is a combination of limiting a matching range by code data and inferring synonyms. The figure which shows the flow of a process for improving a matching speed. Explanation of reference numerals 100: database for matching, 101: matching key input unit, 102: ordinary / proper noun separation unit, 103:
… Common noun dictionary, 104 …… Common noun synonymous inference part, 105 ……
Common Noun Synonym Rules, 106 ... Proper Noun Synonym Reasoning Unit, 107
…… Proper noun synonym rule, 108 …… Combination inference part, 109…
... combination rules, 110 matching processing unit, 111 matching target key input unit, 112 matching output creating unit, 200 matching target database, 300
... A database that stores the results of the matching process.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 山本 直樹 東京都千代田区神田駿河台4丁目6番地 株式会社日立製作所システム事業部内 (72)発明者 近田 伸行 東京都千代田区内幸町1丁目1番3号 東京電力株式会社内 (72)発明者 武井 四郎 東京都千代田区内幸町1丁目1番3号 東京電力株式会社内 (56)参考文献 特開 昭63−40938(JP,A) 武崎,戸部,神原,「電話帳DBと住 宅地図DBの結合方法の検討」,電子情 報通信学会創立70周年記念総合全国大会 (昭62),No.6,p91(昭62−5− 26) 岩瀬,大山,橋田,「企業名の普通名 詞分割」,電子情報通信学会論文誌,V ol.J70−D,No.4,1987,p 832−835(昭62−4−25) 有山,長峰,池浜,「電子番号案内シ ステム検索方式」,NTT電気通信研究 所研究実用化報告,Vol.36,No. 4,1987,p545−552(昭62−4) (58)調査した分野(Int.Cl.6,DB名) G06F 17/30 JICST科学技術文献ファイル──────────────────────────────────────────────────続 き Continued on the front page (72) Inventor Naoki Yamamoto 4-6, Kanda Surugadai, Chiyoda-ku, Tokyo In the System Division, Hitachi, Ltd. (72) Inventor Nobuyuki Chikada 1-3-1 Uchisaiwaicho, Chiyoda-ku, Tokyo Tokyo Inside Electric Power Company (72) Inventor Shiro Takei 1-3-1 Uchisaiwaicho, Chiyoda-ku, Tokyo Tokyo Electric Power Company (56) References JP-A-63-40938 (JP, A) Takezaki, Tobe, Kamihara, "Examination of a method of combining a telephone directory DB and a house map DB", the 70th anniversary general meeting of the Institute of Electronics, Information and Communication Engineers (Showa 62), 6, p91 (Showa 62-5-26) Iwase, Oyama, Hashida, "Common noun segmentation of company name", IEICE Transactions, Vol. J70-D, No. 4, 1987, pp. 832-835 (Showa 62-4-25) Ariyama, Nagamine, Ikehama, "Electronic Numbering System Search Method", NTT Telecommunications Research Laboratory, Research and Application Report, Vol. 36, No. 4, 1987, pp. 545-552 (Showa 62-4) (58) Fields investigated (Int. Cl. 6 , DB name) G06F 17/30 JICST scientific and technical literature file

Claims (4)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】第1のデータベースで検索したマッチング
用のキーから、普通名詞辞書を用いて普通名詞を抽出
し、上記マッチング用のキーを上記普通名詞と固有名詞
とに分離するステップと、 普通名詞類語ルールに従って、上記分離された普通名詞
から連想される第1の名詞を複数推定するステップと、 固有名詞類語ルールに従って、上記分離された固有名詞
かれ連想される第2の名詞を複数推定するステップと、 複数の上記第1の名詞と複数の上記第2の名詞とを、組
み合わせルールに従って組み合わせ、上記マッチング用
のキーの類語を複数推定するステップと、 複数の上記類語と、第2のデータベース内のマッチング
対象とのマッチング処理を行うステップとを有すること
を特徴とするデータベースのマッチング方法。
A step of extracting common nouns from the matching keys searched in the first database using a common noun dictionary, and separating the matching keys into the common nouns and proper nouns; Estimating a plurality of first nouns associated with the separated common noun according to the noun synonym rule; and estimating a plurality of the separated proper nouns or associated second nouns according to the proper noun synonym rule Combining a plurality of the first nouns and a plurality of the second nouns according to a combination rule, and estimating a plurality of synonyms of the key for matching; a plurality of the above synonyms; and a second database Performing a matching process with a matching target in the database.
【請求項2】マッチング用のキーを入力するステップ
と、 上記マッチング用のキーから、普通名詞辞書を用いて普
通名詞を抽出し、上記マッチング用のキーを上記普通名
詞と固有名詞とに分離するステップと、 普通名詞類語ルールに従って、上記分離された普通名詞
から連想される第1の名詞を複数推定するステップと、 固有名詞類語ルールに従って、上記分離された固有名詞
から連想される第2の名詞を複数推定するステップと、 複数の上記第1の名詞と複数の上記第2の名詞とを、組
み合わせルールに従って組み合わせ、上記マッチング用
のキーの類語を複数推定するステップと、 複数の上記類語と、データベース内のマッチング対象と
のマッチング処理を行うステップとを有することを特徴
とするデータベースのマッチング方法。
2. A step of inputting a key for matching, extracting common nouns from the matching keys using a common noun dictionary, and separating the matching keys into the common nouns and proper nouns. A step of estimating a plurality of first nouns associated with the separated common noun according to the common noun synonym rule; and a second noun associated with the separated proper noun according to the proper noun synonym rule. Estimating a plurality of the first nouns and a plurality of the second nouns according to a combination rule, and estimating a plurality of synonyms of the key for matching; a plurality of the synonyms; Performing a matching process with a matching target in the database.
【請求項3】上記マッチング用のキーにコード情報が含
まれている場合には、複数の上記類語と、上記マッチン
グ対象とのマッチング処理を行う前に、上記コード情報
と、上記マッチング対象とのマッチング処理を行うこと
を特徴とする請求項1又は請求項2の何れかに記載のデ
ータベースのマッチング方法。
3. When the matching key includes code information, the code information and the matching target are compared with each other before performing a matching process between the plurality of synonyms and the matching target. 3. The database matching method according to claim 1, wherein a matching process is performed.
【請求項4】上記コード情報は、住所コード、街区番
号、地番、郵便番号、建物番号、又は部屋番号であるこ
とを特徴とする請求項3に記載のデータベースのマッチ
ング方法。
4. The database matching method according to claim 3, wherein the code information is an address code, a block number, a lot number, a postal code, a building number, or a room number.
JP1328515A 1989-12-20 1989-12-20 Database matching method Expired - Fee Related JP2821213B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP1328515A JP2821213B2 (en) 1989-12-20 1989-12-20 Database matching method
US07/630,328 US5210868A (en) 1989-12-20 1990-12-19 Database system and matching method between databases

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1328515A JP2821213B2 (en) 1989-12-20 1989-12-20 Database matching method

Publications (2)

Publication Number Publication Date
JPH03189870A JPH03189870A (en) 1991-08-19
JP2821213B2 true JP2821213B2 (en) 1998-11-05

Family

ID=18211140

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1328515A Expired - Fee Related JP2821213B2 (en) 1989-12-20 1989-12-20 Database matching method

Country Status (1)

Country Link
JP (1) JP2821213B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06162115A (en) * 1992-11-25 1994-06-10 Hitachi Ltd Fuzzy retrieval system of map information system
JPH10162008A (en) * 1996-11-28 1998-06-19 Nippon Telegr & Teleph Corp <Ntt> Method and device for information retrieval
JP2006195637A (en) * 2005-01-12 2006-07-27 Toyota Motor Corp Voice interaction system for vehicle
JP4912142B2 (en) * 2006-12-27 2012-04-11 富士フイルム株式会社 Search system
US20120191746A1 (en) * 2007-12-26 2012-07-26 Tomoko Tashiro Dictionary system

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
岩瀬,大山,橋田,「企業名の普通名詞分割」,電子情報通信学会論文誌,Vol.J70−D,No.4,1987,p832−835(昭62−4−25)
有山,長峰,池浜,「電子番号案内システム検索方式」,NTT電気通信研究所研究実用化報告,Vol.36,No.4,1987,p545−552(昭62−4)
武崎,戸部,神原,「電話帳DBと住宅地図DBの結合方法の検討」,電子情報通信学会創立70周年記念総合全国大会(昭62),No.6,p91(昭62−5−26)

Also Published As

Publication number Publication date
JPH03189870A (en) 1991-08-19

Similar Documents

Publication Publication Date Title
Park et al. Hybrid text mining for finding abbreviations and their definitions
JP3041268B2 (en) Chinese Error Checking (CEC) System
US5706496A (en) Full-text search apparatus utilizing two-stage index file to achieve high speed and reliability of searching a text which is a continuous sequence of characters
EP0597630B1 (en) Method for resolution of natural-language queries against full-text databases
US5210868A (en) Database system and matching method between databases
US6321191B1 (en) Related sentence retrieval system having a plurality of cross-lingual retrieving units that pairs similar sentences based on extracted independent words
JP2742115B2 (en) Similar document search device
JP3195752B2 (en) Search device
Zhou et al. Resolving surface forms to wikipedia topics
JP2002312365A (en) Document image retrieval device
US20040122660A1 (en) Creating taxonomies and training data in multiple languages
WO2020037794A1 (en) Index building method for english geographical name, and query method and apparatus therefor
JP4687089B2 (en) Duplicate record detection system and duplicate record detection program
JP2821213B2 (en) Database matching method
JP3258063B2 (en) Database search system and method
JPH0782504B2 (en) Information retrieval processing method and retrieval file creation device
JP2872706B2 (en) Information retrieval device
JPH10232877A (en) Collation device for character string and data base system
JPH09319767A (en) Synonym dictionary registering method
JPH09198396A (en) Document retrieval device
JP2519129B2 (en) Multi-word information retrieval processing method and retrieval file creation device
JP2002183194A (en) Device and method for generating retrieval expression
JP2500680B2 (en) Data name assignment registration device
JP2003288366A (en) Similar text retrieval device
Jena et al. A Framework for English-Odia Cross-Language Information Retrieval System

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees