JP3803961B2 - Database generation apparatus, database generation processing method, and database generation program - Google Patents

Database generation apparatus, database generation processing method, and database generation program Download PDF

Info

Publication number
JP3803961B2
JP3803961B2 JP2001371636A JP2001371636A JP3803961B2 JP 3803961 B2 JP3803961 B2 JP 3803961B2 JP 2001371636 A JP2001371636 A JP 2001371636A JP 2001371636 A JP2001371636 A JP 2001371636A JP 3803961 B2 JP3803961 B2 JP 3803961B2
Authority
JP
Japan
Prior art keywords
data
database
information
identification
update
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001371636A
Other languages
Japanese (ja)
Other versions
JP2003173280A (en
Inventor
克人 別所
成人 岩瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2001371636A priority Critical patent/JP3803961B2/en
Publication of JP2003173280A publication Critical patent/JP2003173280A/en
Application granted granted Critical
Publication of JP3803961B2 publication Critical patent/JP3803961B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、インターネット等のネットワーク上に分散配置され、店などの案内情報等を独立に管理・運営している複数のサーバ等からデータを収集し、検索・案内するためのデータベースを生成する装置及び方法、並びにそのプログラムに関する。
【0002】
【従来の技術】
店の案内情報などのデータは、いくつかの組織において独立に作成され、必要に応じて更新される場合が多い。一つの組織が所有しているデータ集合が全ての店の案内情報をカバーしているわけではないので、独立に作成・更新されているこれらのデータ集合を統合すれば、より充実した情報検索サービスを行うことができる。各組織が保有するデータ集合は、インターネット等のネットワークに接続されたコンピュータ内に保管され、閲覧に供される。以後、このようなコンピュータを情報サーバと呼ぶことにする。
【0003】
複数の情報サーバからデータ集合を収集し、データベースを生成する従来の技術においては、複数の情報サーバから収集したデータ集合を単純にマージしたものをデータベースとしていた。生成されたデータベース中の各データには、該データが存在する情報サーバ内の元データへのリンク情報が付与されており、ユーザが端末を用いてデータベースからデータを検索した際は、端末に表示されたデータに付随するリンク情報により、該データの元データにアクセスを行うことができる。図11は、データベースから、例えば業種が「中華」で住所が「新宿区神楽坂」である店を検索したときの、従来の検索結果表示画面の一例を示したものである。ユーザがリンク情報を画面上でクリックすることにより、リンク先の店の詳細画面が表示される。
【0004】
【発明が解決しようとする課題】
いくつかの組識において独立に作成されたデータ集合では、同一店舗でも名義や住所が異なる形式、表現で登録されることが多い。従って、複数の情報サーバから収集したデータ集合を単純にマージしてデータベースを生成する従来の技術では、重複する同一店舗を一つにまとめることができず、検索結果の店舗群の中に、同一店舗が複数混在して表示されることがある。このような場合、検索結果が冗長に多くなり、ユーザは不必要なデータの中身まで吟味し、それが既に見たデータと同じかどうか判断するといった煩雑な作業を強いられることになる。例えば、図11の検索結果表示画面では、1番目の店舗と4番目の店舗が同一であり、3番目の店舗と6番目の店舗が同一である。
【0005】
また、店などの情報を検索するユーザにとって特に興味のあるのは、店の新しい情報や、新規に出来たお店などの情報である。このため、データ集合の収集とデータベースの生成を定期的に実行する場合、生成されたデータベースからデータを検索するユーザにとっては、表示されたデータの内、どのデータが更新されたものであるか、または新規のものであるかの情報がついていると、新しい情報を迅速に取得することが出来る。しかしながら、従来技術においては、各データにこのような更新情報は付与されない。
【0006】
本発明の目的は、ネットワーク上に分散して存在している複数の情報サーバ等からデータ集合を収集して、冗長性がないようにデータを統合し、かつデータの更新情報が付加されたデータベースを生成することを可能とするデータベース生成装置及び方法、並びにそのためのデータベース生成プログラムを提供することにある。
【0007】
【課題を解決するための手段】
本発明のデータベース生成装置は、過去に生成されたデータベース(旧データベース)を記憶する記憶手段と、複数地点から、名義や住所などの属性の値を含むデータ、該データの識別ID、更新日時などの情報を収集するデータ収集手段と、前記収集された各データから属性の値を抽出し、各データが、前記抽出した属性の値、識別ID、更新日時などからなる構成のデータベース(新データベース)を生成する属性情報抽出手段と、前記生成された新データベース内の属性の値が同一とみなせるデータ集合を同一グループに分類する名寄せ手段と、新データベースと前記旧データベースとの間で、属性の値が同一とみなせるデータ同士を同一と判断して両データベース間の各データを対応付けする結合手段と、前記新データベース中のデータの識別IDや更新日時などの情報と、前記データと対応付けされた前記旧データベース中のデータの識別IDや更新日時などの情報とを比較することによって、前記新データベース内の該当データに更新情報を付与する更新情報付与手段とを有することを特徴とする。
【0008】
名寄せ手段では、生成された新データベースにおいて、重複するデータが一つにされている。このため、このデータベースからユーザの要求に合致するデータを検索し表示したとき、同一店舗のデータが複数個表示されることはなく、検索結果の把握がより容易に行える。また、結合手段は、生成した新データベースと、前回生成した旧データベースとの間で、同一店舗等のデータを特定し、更新情報付与手段では、それらの識別ID(例えば名称)や更新日時などを比較することにより、データの更新情報を導出するので、最終的に生成されたデータベースは、データの更新情報が付与された上で、データを表示することが可能である。
【0009】
次に、本発明のデータベース生成処理方法は、過去に生成されたデータベース(旧データベース)を記憶する記憶装置を備えたデータベース生成装置が、複数地点から、名義や住所などの属性の値を含むデータ、該データの識別ID、更新日時などの情報を収集するデータ収集過程と、前記収集された各データから属性の値を抽出し、各データが、前記抽出した属性の値、識別ID、更新日時などからなる構成のデータベース(新データベース)を生成して記憶装置に格納する属性情報抽出過程と、前記記憶装置に格納された新データベース内の属性の値が同一とみなせるデータ集合を同一グループに分類する名寄せ過程と、前記記憶装置に格納された新データベースと過去に生成して記憶装置に保持されている旧データベースとの間で、属性の値が同一とみなせるデータ同士を同一と判断して両データベース間の各データを対応付けする結合過程と、前記新データベース中のデータの識別IDや更新日時などの情報と、前記データと対応付けされた前記旧データベース中のデータの識別IDや更新日時などの情報とを比較することによって、記憶装置に格納された新データベース内の該当データに更新情報を付与する更新情報付与過程とを実行することを特徴とする。
【0010】
次に、本発明のデータベース生成プログラムは、複数地点から、名義や住所などの属性の値を含むデータ、該データの識別ID、更新日時などの情報を収集するデータ収集プロセスと、前記収集された各データから属性の値を抽出し、各データが、前記抽出した属性の値、識別ID、更新日時などからなる構成のデータベース(新データベース)を生成する属性情報抽出プロセスと、前記属性情報抽出プロセスで生成された新データベース内の属性の値が同一とみなせるデータ集合を同一グループに分類する名寄せプロセスと、前記新データベースと過去に生成した旧データベースとの間で、属性の値が同一とみなせるデータ同士を同一と判断して両データベース間の各データを対応付けする結合プロセスと、前記新データベース中のデータの識別IDや更新日時などの情報と、前記データと対応付けされた前記旧データベース中のデータの識別IDや更新日時などの情報とを比較することによって、前記新データベース内の該当データに更新情報を付与する更新情報付与プロセスとをコンピュータに実行させるプログラムであることを特徴とする。
【0011】
【発明の実施の形態】
以下に、本発明の一実施例について、図面を参照して説明する。
図1は、本発明の一実施の形態のデータベース生成装置の構成例を示す図である。データベース生成装置10は、インターネット等のネットワーク40に接続されるものであり、該ネットワーク40を介して、店の案内情報などのデータ集合を管理・運営している複数の情報サーバ20と、ユーザが使用するユーザ端末30とに接続している。ネットワーク40に接続された個々の情報サーバ20はそのURL(uniform resource locator)によって識別される。各情報サーバ20は、その内部にデータ集合をもち、当該データ集合を、他の情報サーバとは独立して管理・運営している。したがって、同一店舗の案内情報などが、複数の情報サーバ20内に存在することが多々ある。データベース生成装置10自体も、その内部にデータ集合をもって、管理・運営するという形態をとっていてもよい。ユーザ端末30としては、典型的には、WWWソフトウェア(WWWブラウザ)が組み込まれたパーソナルコンピュータ(パソコン)や携帯端末が使用される。各ユーザは、該ユーザ端末30を用いて情報検索などを行うほか、必要ならデータベース生成装置10に対して要望等を通知する。
【0012】
データベース生成装置10は、データ収集手段11、属性情報抽出手段12、名寄せ手段13、結合手段14、更新情報付与手段15の各処理手段、及び、データベース格納部16を具備する。データベース格納部16には、過去(ここでは前回とする)に生成したデータベース(旧データベース)17と新規に生成したデータベース(新データベース)18が格納される。データベース生成装置10は、所謂コンピュータで実現されるものであり、各処理手段11〜15はCPUやその内蔵メモリ(RAM、ROM等)が受け持ち、データベース格納部16はハードディスク、その他の外部記憶装置などが受け持つ。
【0013】
なお、データベース生成装置10自体、ユーザ端末30から検索要求を受けて情報検索サービスを実施してもよい。この場合、図1では省略したが、データベース生成装置10は情報検索手段も具備することになる。また、情報検索装置は該データベース生成装置10とは別構成として、データベース生成装置10で生成したデータベースを別の情報検索装置で利用することでもよい。
【0014】
図2は、本発明の一実施形態のデータベース生成方法のフローチャートを示す図である。以下、図2のフローチャートに従って、本データベース生成装置10の動作を詳しく説明する。
【0015】
データベース生成装置10では、データ収集手段11において、一定期間や特定日時ごと(例えば、1日、1週間、毎月曜日など)に、各情報サーバ20にアクセスし、各情報サーバ20内のデータ(データ集合)を収集する(ステップ111)。ここで、各データは一つのファイルであり、全てのファイルがあるディレクトリ配下にあるものとする。このディレクトリの所在は、データベース生成装置10の管理者と各情報サーバ20の管理者との間であらかじめ取り決めがなされており、データ収集手段11は、各情報サーバ20の該ディレクトリ配下のファイル群をダウンロードし、例えばRAMやハードディスク等に一時的に格納する。ここで、ファイルとともに、データの名称となるファイル名(これが当該データのリンク情報となる)とファイルの更新日時の情報も取得する。
【0016】
図3は、情報サーバA及びBからダウンロードしたデータの一例を示したものである。この例では、同一店舗「紅蘭亭」のデータが情報サーバAにもBにも登録されているものとし、そのデータを示したものである。図3に示すように、情報サーバAとBでは、同一店舗「紅蘭亭」でも、名義や住所等が異なる形式、表現で登録されている。
【0017】
次に、属性情報抽出手段12において、上記データ収集手段11で収集した各データから名義や住所などの該データを特徴付ける属性の値を抽出する(ステップ112)。各データファイルは典型的にはHTML文書やXML文書であり、ユーザはユーザ端末30を用いてWWWソフトウェア(WWWブラウザ)から該当ファイルのURLにアクセスすることにより、その内容を閲覧することができるものである。各データファイルの内容が、どういった属性からなり、各属性がどのようなフォーマットで記述されているかといったフォーマット情報は、各情報サーバ20ごとに決められている。ここでは、各情報サーバに対応したデータファイルフォーマット解析ルーチンを属性情報抽出手段12が保持しているとする。属性情報抽出手段12は、各情報サーバに対応したデータファイルフォーマット解析ルーチンにより、データファイルから名義や住所などの属性値を抽出する。次に、属性情報抽出手段12では、抽出した名義や住所などの属性値と該データが存在する情報サーバ名及び該データのリンク情報及び更新日時の情報等からなるデータ(レコード)を作成し、このようなデータが集積したデータベースを生成してデータベース格納部16に格納する。この新たに生成されたデータベースを新データベース18とする。また、前回(1日前、1週間前など)、同様に各情報サーバ20からデータを収集して生成し、後述の名寄せ、結合、更新情報付与等の処理を施したデータベースを旧データベース17とする。
【0018】
図4は、新たに生成されたデータベース(新データベース)18の一例を示したもので、(a)は情報サーバAのデータ、(b)は情報サーバBのデータである。ここでは、抽出する属性として業種、名義、住所をとっている。業種体系は情報サーバ20ごとに一般に異なっている。また、同一店舗のデータでも、情報サーバが異なれば、名義や住所の表記には揺れがある。
【0019】
なお、情報サーバ20が、店のデータファイルの他に、各店の名義や住所、電話番号、リンク情報などの基本情報のみが記載されているデータのリストからなるファイルをもっている場合、データ収集手段11において、データファイル群の代わりに、そのようなリストファイルをダウンロードしてもよい。この場合、属性情報抽出手段12においては、リストファイルの各データから名義、住所、リンク情報などを抽出し、抽出したリンク情報をもとに、再び情報サーバ20にアクセスし、データファイルの更新日時情報を取得する。そして、同様に図4のような新データベース18を生成する。
【0020】
次に、名寄せ手段13において、新データベース18内の名義や住所などの属性の値が同一とみなせるデータ(レコード)を同一グループに分類する(ステップ113)。即ち、同一店舗として名寄せする。
【0021】
例えば、図4に示した新データベース18の任意の2データ間において、名義及び住所の属性の値同士を照合し、マッチしたレコード同士を同一グループに分類する。名義文字列や住所文字列の照合方法には例えば次のようなものが考えられる。一つには完全一致したときマッチするとみなす方法(完全一致と呼ぶ)があり、また、両方に共通して含まれる文字の数の割合がある閾値以上のときマッチするとみなす方法(文字単位一致と呼ぶ)がある。他には、文字列を単語分割して両方に共通して含まれる単語の数の割合がある閾値以上のときマッチするとみなす方法(単語単位一致と呼ぶ)がある。いずれの方法も、漢数字を算用数字に変換したり、英字を大文字に統一化するといった表記の揺れを解消する処理を事前に行うことにより、より照合の精度を高めることが可能である。 照合の結果、図4の例では、1番目と4番目のデータ(レコード)がマッチし、3番目と6番目のデータがマッチする。このマッチしたレコード同士を同一グループに分類する。ここで、各グループを通常のデータと区別して、名寄せデータと呼ぶことにする。
【0022】
名寄せ手段13では、各名寄せデータの名義や住所の属性値として、例えば当該名寄せデータに含まれるデータの名義や住所の属性値から一つだけ選んで、その値そのものを用いるか、あるいは正規化した値に変換する。また、各データの業種名は、データベース生成装置10独自の業種体系における対応する業種名に変換する。
【0023】
図4について、こうして更新された新データベース18の一例を図5に示す。例えば、データベース生成装置10独自の業種体系では、業種として「和食」、「中華」などがあり、図4におけるデータの業種名はいずれも「中華」に変換される。図5において、同一グループに分類された1番目と4番目のデータの業種名はともに「中華」に変換されるので、名寄せデータとしての業種名も「中華」となる。3番目と6番目のデータに関しても同様である。また、名寄せデータの名義や住所の属性値としては、1番目と4番目のデータでは、名義は「紅蘭亭」を選択し、住所は「新宿区神楽坂1−2−3」を選択している。同様に、3番目と6番目のデータでは、名義は「大竹亭」を選択し、住所は「新宿区神楽坂3−8−6」を選択している。なお、図5中の新データベース18の「更新情報」の欄は後述の更新情報付与手段15で書き替えられるもので、ここでは全て空(NULL)としておく。
【0024】
ここで、どの属性値同士をどの照合方法で照合させるかといった照合ルールは、名寄せ手段13を実現するプログラム内に記述してもよいし、データベース生成装置10内の、プログラムが参照する外付けテーブルに記述して、データベース生成装置10の管理者が、この外付けテーブルを自由に変更できるようにしておいてもよい。
【0025】
図6は、このような外付けテーブルの内容の一例である。図6(a)では、データが一致する基準を記述する。この例では、照合項目として名義と住所を指定している。名義の照合結果の評価値が90点以上かつ住所の照合結果の評価値が80点以上の場合、あるいは名義の照合結果の評価値が80点以上かつ住所の照合結果の評価値が90点以上の場合、2データが一致すると判定する。図6(b)では、名義の照合方法を記述する。ここでは、照合方法として完全一致、文字単位一致、単語単位一致を指定しており、各方法による照合を行う。完全一致の照合処理で一致したならば評価値100とし、一致しなければ評価値0とする。文字単位一致の照合結果の評価値は一致した文字の数の割合に100を乗じたものとする。単語単位一致の照合結果の評価値も一致した単語の数の割合に100を乗じたものとする。一番高い評価値を返した照合方法の評価値を名義の評価値とする。図6(c)では、住所の照合方法を同様に記述する。ここでは、照合方法として完全一致、単語単位一致を指定している。一番高い評価値を返した照合方法の評価値を住所の評価値とする。
【0026】
次に、結合手段14において、データベース格納部16にある、名寄せ後の新データベース18と、前回各情報サーバ20からデータを収集して、生成した旧データベース17との間で、名義や住所などの属性の値が同一とみなせる名寄せデータ同士を同一と判断してリンク付けし、対応付けする(ステップ114)。例えば、新旧データベース17、18内の同一と判断された両データに、同一なデータであることを示す情報を付与するなどしてリンク付けし、対応付けする。
【0027】
ここでは、情報サーバ20において、同一データのリンク情報が時の経過とともに変わり得るという前提であるものとする。各データの更新情報を導出するにあたっては、新データと旧データの更新日時などを比較する必要があり、そのためには、新旧データベースにおいて、どのデータが同一かを判断しなけれならない。リンク情報が不変であれば、リンク情報が同一かで判断できるが、リンク情報が変わり得るという前提のもとでは、データがもつ名義や住所の属性値が同一かで判断する必要があるわけである。ここで、同一データであっても時の経過とともに、名義などが微妙に変更される場合もありうるので、照合は、表記の揺れを考慮して行う。具体的には、例えば完全一致以外に文字端単位一致や単語単位一致といった照合方法で行う。基本的には名寄せの場合と同様である。また、照合の対象となる項目を、例えば名義のみにすると、同一店の住所が変更しても、新旧のデータはマッチすることになる。このように、どのような条件で新旧のデータを同一視するかは、照合ルールを変更することにより調節可能である。図7に、外付けテーブルに記述する照合ルールにおけるデータ一致基準の一例を示す。ここでは照合項目として名義のみを指定した例を示している。名義の照合方法の記述は、例えば図6と同様にすればよい。
【0028】
図8は、旧データベース17の一例である。便宜上、図8では、各データは前々回から更新がなかったとしている。結合手段14では、図5に示した新データベース18の各名寄せデータと同一な旧データベース17の名寄せデータを、名義のみあるいは名義及び住所の属性値同士を照合することによって特定する。その結果、図5の新データベース18の1番目、2番目、3番目の名寄せデータがそれぞれ、図8の旧データベース17の1番目、2番目、3番目の名寄せデータにリンク付けされる。図5の新データベース18の4番目の名寄せデータにリンク付けされる名寄せデータは、図8の旧データベース17には存在しない。なお、リンク付けされた名寄せデータ内の同一の対応情報サーバをもつデータ同士も、同一のデータとしてリンク付けされる。以後、図5、図8の各データを上から何番目かで表現する。
【0029】
次に、更新情報付与手段15において、新データベース18のデータのリンク情報や更新日時の情報と、結合手段14により該データと同一と判断された旧データベース17中のデータのリンク情報や更新日時の情報とを比較することにより、新データベース18中の該当データに更新情報を設定・付与する(ステップ115)。即ち、新データベース18中のデータとリンク付けされた旧データベース17のデータがあり、かつリンク情報または更新日時が変更されているとき、該データは更新されたものと判断し、いずれも変更されていないとき、該データは更新なしと判断し、新データベース18中の該当データの更新情報を「更新」あるいは「更新なし」とする。また、新データベース18中のデータとリンク付けされた旧データベース17のデータがない場合、該データは新規に作成されたものと判断し、新データベース18中の該当データの更新情報を「新規」とする。
【0030】
例えば、図5の新データベース18の1番目のデータは、リンク付けされた図8の旧データベース17の1番目のデータと、リンク情報が同じで、更新日時が変わっているので、当該データは更新されたものと判断する。
【0031】
図5の新データベース18の2番目のデータは、リンク付けされた図8の旧データベース17の2番目のデータと比べ、リンク情報も更新日時も不変なので、当該データは更新されていないものと判断する。図5の新データベース18の4番目のデータについても同様である。
【0032】
図5の新データベース18の3番目のデータは、リンク付けされた図8の旧データベース17の3番目のデータと比べ、更新日時は変わらないが、リンク情報が変わっているので、当該データは更新されたものと判断する。
【0033】
図5の新データベース18の5番目のデータは、名寄せデータとしては、図8の旧データベース17の3番目の名寄せデータとリンクしているが、データとしてリンク付けされたデータは図8の旧データベース17にないので、新規に作成されたものと判断する。
【0034】
図5の新データベース18の6番目のデータにリンク付けされたデータは、図8の旧データベース17にないので、当該データは新規に作成されたものと判断する。
【0035】
このようにして、図5の新データベース18と図8の旧データベース17の場合、図9に示すような更新情報の付与された新データベース18が最終的に生成される。更新情報付与手段15では、この最終的に生成された新データベース18でもって旧データベース17を上書きする。
【0036】
以上によりデータベースの生成が終了する。最終的に生成されたデータベースにユーザ端末30からアクセスし、ユーザの要求に合致するデータを検索し表示したときには、名寄せデータの業種、名義、住所の情報と、該データが存在する情報サーバ20内のファイルへのリンク情報及び更新情報が表示される。図10は、図9の生成データベースにより、業種が「中華」で住所が「新宿区神楽坂」である店を検索したときの検索結果の表示例である。ユーザはこのリンク情報を画面上でクリックすることにより、リンク先のファイルの内容である店の詳細情報にアクセスすることができる。
【0037】
以上、本発明の典型的な一実施例について述べたが、名寄せ前の旧データベースを保持しておき、結合手段14のリンク付けを、名寄せ後の新旧データベース(図5及び図8)間で実行するのではなく、名寄せ前の新旧データベース(図4及び図4相当の古いデータベース)間で実行してもよい。例えば、この場合、対応情報サーバが同一なデータ同士を照合させる。
【0038】
情報サーバ20において、同一データのリンク情報が時の経過とともに変わりえても、各データにとって恒久的に不変なID情報がデータ中に含まれている場合は次のように処理を行うこともできる。属性情報抽出手段12において、このID情報を抽出し、結合手段14におけるリンク付けを、新データベース中の各データに対し、当該データと同一のID情報をもつ旧データベース中のデータをリンク付けることによって行う。
【0039】
また、情報サーバ20において、同一データのリンク情報が常に不変であれば、結合手段14のリンク付けは必要でない。更新情報付与手段15において、生成したデータベース(名寄せ前のものでも名寄せ後のものでもよい)中のデータの更新日時が、前にデータ集合を収集した時点以降ならば、該データは更新されたデータか新規データであることが分かる。さらに、該データの対応情報サーバとリンク情報がともに同一であるデータが、前に生成したデータベース中にあれば、該データは更新されたデータであり、なければ新規データであることが判明する。
【0040】
上記に挙げた以外にも、本発明は特許請求の範囲の記載内で、様々な変更や拡張が可能である。例えば、名寄せ手段や名寄せ過程をなくして、各データの更新情報のみを付与する構成も考えられる。
【0041】
なお、図1で示した装置における各部の一部もしくは全部での処理機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、あるいは、図2で示した処理手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもない。また、コンピュータでその処理機能を実現するためのプログラム、あるいは、コンピュータにその処理手順を実行させるためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えば、FDや、MO、ROM、メモリカード、CD、DVD、リムーバブルディスクなどに記録して、保存したり、提供したりすることができるとともに、インターネット等のネットワークを通してそのプログラムを配布したりすることが可能である。
【0042】
【発明の効果】
以上説明したように、本発明によれば、生成されたデータベースからユーザの要求に合致するデータを検索したとき、重複データがなく、かつデータの更新情報が付加された形で検索結果を表示することが可能となる。
【図面の簡単な説明】
【図1】本発明の一実施形態のデータベース生成装置の構成を示す図である。
【図2】本発明の一実施形態のデータベース生成方法のフローチャート図である。
【図3】情報サーバからダウンロードしたデータの一例を示す図である。
【図4】属性情報抽出手段で生成された新データベースの一例を示す図である。
【図5】名寄せ手段で更新された新データベースの一例を示す図である。
【図6】名寄せ手段で適用される照合ルールの一例を示す図である。
【図7】結合手段で適用される照合ルールの一例を示す図である。
【図8】前回生成した旧データベースの一例を示す図である。
【図9】更新情報付与手段で更新情報が付与された新データベースの一例を示す図である。
【図10】本発明により生成されたデータベースからの検索結果の表示画面の一例を示す図である。
【図11】従来のデータベース生成技術により生成したデータベースからの検索結果の表示画面の例を示す図である。
【符号の説明】
10 データベース生成装置
11 データ収集手段
12 属性情報抽出手段
13 名寄せ手段
14 結合手段
15 更新情報付与手段
16 データベース格納部
17 旧データベース
18 新データベース
20 情報サーバ
30 ユーザ端末
40 ネットワーク
[0001]
BACKGROUND OF THE INVENTION
The present invention is an apparatus that collects data from a plurality of servers and the like that are distributed and arranged on a network such as the Internet and that independently manage and operate guidance information for stores and the like, and generate a database for searching and guiding And a method and a program thereof.
[0002]
[Prior art]
In many cases, data such as store guide information is created independently in some organizations and updated as necessary. Since the data set owned by one organization does not cover all store information, integrating these data sets that have been created and updated independently will provide a more complete information retrieval service. It can be performed. A data set held by each organization is stored in a computer connected to a network such as the Internet and is used for browsing. Hereinafter, such a computer is referred to as an information server.
[0003]
In the conventional technique of collecting a data set from a plurality of information servers and generating a database, a database obtained by simply merging data sets collected from a plurality of information servers is used as the database. Each data in the generated database is given link information to the original data in the information server where the data exists, and when the user searches for data from the database using the terminal, it is displayed on the terminal The original data of the data can be accessed by the link information attached to the data. FIG. 11 shows an example of a conventional search result display screen when, for example, a store having a business type “Chinese” and an address “Shinjuku-ku Kagurazaka” is searched from the database. When the user clicks on the link information on the screen, the details screen of the linked store is displayed.
[0004]
[Problems to be solved by the invention]
Data sets created independently in some organizations are often registered in different formats and expressions even at the same store. Therefore, in the conventional technique in which a database is generated by simply merging data sets collected from a plurality of information servers, it is not possible to combine the same identical stores into one, and the same store group of search results A plurality of stores may be displayed together. In such a case, the search results are redundantly increased, and the user is forced to perform complicated work such as examining the contents of unnecessary data and determining whether the data is the same as the data that has already been seen. For example, in the search result display screen of FIG. 11, the first store and the fourth store are the same, and the third store and the sixth store are the same.
[0005]
Further, a user who searches for information on a store or the like is particularly interested in new information on a store or information on a newly created store. For this reason, when collecting a data set and generating a database on a regular basis, for users who search for data from the generated database, which of the displayed data is updated, Or, if there is information on whether it is new, new information can be acquired quickly. However, in the prior art, such update information is not given to each data.
[0006]
An object of the present invention is to collect a data set from a plurality of information servers distributed on a network, integrate the data so that there is no redundancy, and to which data update information is added The present invention provides a database generation apparatus and method capable of generating a database, and a database generation program therefor.
[0007]
[Means for Solving the Problems]
The database generation device of the present invention includes a storage means for storing a database (old database) generated in the past, data including attribute values such as name and address from a plurality of points, identification ID of the data, update date and time, etc. A data collection means for collecting the information, and an attribute value is extracted from each collected data, and each data is composed of the extracted attribute value, identification ID, update date and the like (new database) Between the new database and the old database, the attribute information extracting means for generating the attribute information, the name identification means for classifying the data sets in which the attribute values in the generated new database can be regarded as the same group, and the attribute value between the new database and the old database A means for associating data that can be regarded as identical to each other and associating each data between both databases, and a data in the new database Update the corresponding data in the new database by comparing the information such as the identification ID and update date of the data with the information such as the identification ID and update date of the data in the old database associated with the data. And an update information adding means for adding information.
[0008]
In the name identification means, duplicate data is combined into one in the generated new database. Therefore, when data matching the user's request is searched from this database and displayed, a plurality of data of the same store is not displayed, and the search result can be grasped more easily. Further, the combining means specifies data of the same store or the like between the generated new database and the previously generated old database, and the update information providing means indicates their identification ID (for example, name) and update date and time. Since the data update information is derived by the comparison, the finally generated database can display the data after the data update information is given.
[0009]
Next, the database generation of the present invention processing The method is A database generation device including a storage device that stores a database (old database) generated in the past, From a plurality of points, data including attribute values such as name and address, data collection process for collecting information such as identification ID of the data, update date and time, and extracting attribute values from each collected data, Generates a database (new database) whose data consists of the extracted attribute value, identification ID, update date, etc. And store in storage Attribute information extraction process, and Store in storage A name identification process for classifying data sets that have the same attribute values in the new database into the same group; Stored in the storage device Generate a new database and the past In storage A process of combining the data that can be regarded as the same in the attribute value with the old database being held as the same, and associating the data between the two databases, and the identification ID of the data in the new database By comparing information such as update date and time with information such as identification ID and update date and time of data in the old database associated with the data, Stored in storage An update information addition process for adding update information to the corresponding data in the new database Execution It is characterized by doing.
[0010]
Next, the present invention Database generation The program extracts data including attribute values such as name and address from multiple points, a data collection process for collecting information such as the identification ID of the data, update date and time, and attribute values from the collected data And each data includes an attribute information extraction process for generating a database (new database) having a configuration including the extracted attribute value, identification ID, update date and time, and the like in the new database generated by the attribute information extraction process. Between the name identification process for classifying data sets that can be regarded as having the same attribute value into the same group and the data that can be regarded as having the same attribute value between the new database and the old database generated in the past, both A process for associating each data between databases and information such as identification ID and update date / time of data in the new database By comparing the data with such identification ID and update time of the data in correspondence to said old database information, and update information imparting process for imparting update information in the appropriate data in the new database A program to be executed by a computer It is characterized by that.
[0011]
DETAILED DESCRIPTION OF THE INVENTION
An embodiment of the present invention will be described below with reference to the drawings.
FIG. 1 is a diagram illustrating a configuration example of a database generation device according to an embodiment of the present invention. The database generation apparatus 10 is connected to a network 40 such as the Internet. Via the network 40, a plurality of information servers 20 that manage and operate a set of data such as store guide information, and a user It is connected to the user terminal 30 to be used. Each information server 20 connected to the network 40 is identified by its URL (uniform resource locator). Each information server 20 has a data set therein, and manages and operates the data set independently of other information servers. Therefore, there are many cases where guidance information of the same store exists in a plurality of information servers 20. The database generation device 10 itself may take the form of managing and operating a data set therein. As the user terminal 30, a personal computer (personal computer) or a portable terminal in which WWW software (WWW browser) is incorporated is typically used. Each user uses the user terminal 30 to perform information retrieval and notifies the database generation device 10 of a request or the like if necessary.
[0012]
The database generation apparatus 10 includes a data collection unit 11, an attribute information extraction unit 12, a name identification unit 13, a combination unit 14, an update information addition unit 15, and a database storage unit 16. The database storage unit 16 stores a database (old database) 17 generated in the past (here, the previous time) and a newly generated database (new database) 18. The database generation device 10 is realized by a so-called computer. The processing units 11 to 15 are handled by a CPU and its built-in memory (RAM, ROM, etc.), the database storage unit 16 is a hard disk, other external storage devices, and the like. Is responsible.
[0013]
Note that the database generation apparatus 10 itself may receive a search request from the user terminal 30 and implement an information search service. In this case, although omitted in FIG. 1, the database generation device 10 also includes an information search means. In addition, the information search apparatus may be configured separately from the database generation apparatus 10 to use a database generated by the database generation apparatus 10 in another information search apparatus.
[0014]
FIG. 2 is a diagram showing a flowchart of the database generation method according to the embodiment of the present invention. Hereinafter, the operation of the database generation apparatus 10 will be described in detail according to the flowchart of FIG.
[0015]
In the database generation apparatus 10, the data collection unit 11 accesses each information server 20 for a certain period or every specific date and time (for example, one day, one week, every Monday, etc.), and data (data) in each information server 20 (Set) is collected (step 111). Here, it is assumed that each data is one file and all the files are under a certain directory. The location of this directory is determined in advance between the administrator of the database generation device 10 and the administrator of each information server 20, and the data collection means 11 stores the files under the directory of each information server 20. Download and temporarily store in, for example, a RAM or a hard disk. Here, along with the file, the file name that is the name of the data (this is the link information of the data) and the update date / time information of the file are also acquired.
[0016]
FIG. 3 shows an example of data downloaded from the information servers A and B. In this example, it is assumed that data of the same store “Koran-tei” is registered in both the information server A and B, and the data is shown. As shown in FIG. 3, in the information servers A and B, the same store “Koran-tei” is registered with different names and addresses in different formats and expressions.
[0017]
Next, the attribute information extraction unit 12 extracts attribute values characterizing the data such as name and address from each data collected by the data collection unit 11 (step 112). Each data file is typically an HTML document or an XML document, and the user can browse the contents by accessing the URL of the corresponding file from the WWW software (WWW browser) using the user terminal 30. It is. The format information such as what attribute the contents of each data file is and what format each attribute is described in is determined for each information server 20. Here, it is assumed that the attribute information extraction unit 12 holds a data file format analysis routine corresponding to each information server. The attribute information extraction unit 12 extracts attribute values such as names and addresses from the data file by a data file format analysis routine corresponding to each information server. Next, the attribute information extraction means 12 creates data (record) composed of the attribute value such as the extracted name and address, the information server name where the data exists, the link information of the data, the information of the update date and the like, A database in which such data is accumulated is generated and stored in the database storage unit 16. This newly generated database is referred to as a new database 18. In addition, the previous database (one day ago, one week ago, etc.) is collected and generated from each information server 20 in the same manner, and a database that has been subjected to processing such as name identification, combination, and update information addition described later is referred to as the old database 17. .
[0018]
FIG. 4 shows an example of a newly generated database (new database) 18, where (a) is data of the information server A and (b) is data of the information server B. Here, industry, name, and address are taken as attributes to be extracted. The industry system generally differs for each information server 20. In addition, even in the same store data, if the information server is different, the name and address notation may be shaken.
[0019]
If the information server 20 has a file including a list of data in which only basic information such as the name, address, telephone number, and link information of each store is described in addition to the store data file, the data collection means 11 In such a case, such a list file may be downloaded instead of the data file group. In this case, the attribute information extraction unit 12 extracts the name, address, link information, and the like from each data of the list file, accesses the information server 20 again based on the extracted link information, and updates the date and time of the data file Get information. Similarly, a new database 18 as shown in FIG. 4 is generated.
[0020]
Next, the name identification means 13 classifies data (records) that can be regarded as having the same attribute value such as name and address in the new database 18 into the same group (step 113). In other words, names are collected as the same store.
[0021]
For example, between two arbitrary data in the new database 18 shown in FIG. 4, the values of the name and address attributes are collated, and the matched records are classified into the same group. For example, the following collation methods of nominal character strings and address character strings are conceivable. One is a method that considers a match when it is a perfect match (referred to as a perfect match), and a method that considers a match when the percentage of the number of characters that are included in both is greater than a certain threshold (character match and character match). Called). In addition, there is a method of dividing a character string into words (referred to as “word unit match”) that matches when the ratio of the number of words included in both is greater than a certain threshold. In any of the methods, it is possible to further improve the accuracy of collation by performing in advance a process for eliminating the fluctuation of the notation such as conversion of Chinese numerals into arithmetic numerals or unification of English letters into capital letters. As a result of the collation, in the example of FIG. 4, the first and fourth data (records) match, and the third and sixth data match. The matched records are classified into the same group. Here, each group is called name identification data in distinction from normal data.
[0022]
The name identification means 13 selects, for example, only one of the name and address attribute values of the data included in the name identification data as the name or address attribute value of each name identification data, and uses the value itself or is normalized. Convert to value. In addition, the industry name of each data is converted into a corresponding industry name in the industry system unique to the database generation apparatus 10.
[0023]
FIG. 5 shows an example of the new database 18 updated in this way with respect to FIG. For example, in the business type system unique to the database generation apparatus 10, there are “Japanese food”, “Chinese” and the like as business types, and the business name of the data in FIG. 4 is converted to “Chinese”. In FIG. 5, the business name of the first and fourth data classified into the same group is both converted to “Chinese”, so the business name as the name identification data is also “Chinese”. The same applies to the third and sixth data. In addition, as the name of the name identification data and the attribute value of the address, in the first and fourth data, the name is “Koran-tei” and the address is “Shinjuku-ku Kagurazaka 1-2-3”. . Similarly, in the third and sixth data, the name is “Otaketei” and the address is “Shinjuku-ku Kagurazaka 3-8-6”. Note that the “update information” column of the new database 18 in FIG. 5 is rewritten by the update information adding means 15 described later, and is all left empty here.
[0024]
Here, a collation rule such as which attribute value is collated with which collation method may be described in a program that realizes the name collation unit 13, or an external table that is referred to by the program in the database generation device 10. The administrator of the database generation device 10 may be able to freely change this external table.
[0025]
FIG. 6 is an example of the contents of such an external table. In FIG. 6 (a), the criteria for matching data are described. In this example, a name and an address are specified as collation items. When the evaluation value of the name matching result is 90 points or more and the evaluation value of the address matching result is 80 points or more, or the evaluation value of the name matching result is 80 points or more and the evaluation value of the address matching result is 90 points or more. In this case, it is determined that the two data match. FIG. 6B describes a name verification method. Here, complete matching, character unit matching, and word unit matching are designated as the collation methods, and collation is performed by each method. The evaluation value is 100 if they match in the complete matching process, and the evaluation value is 0 if they do not match. Assume that the evaluation value of the matching result of character unit matching is obtained by multiplying the ratio of the number of matched characters by 100. It is also assumed that the evaluation value of the matching result of word unit matching is obtained by multiplying the ratio of the number of matched words by 100. The evaluation value of the collation method that returned the highest evaluation value is the nominal evaluation value. In FIG. 6C, an address matching method is described in the same manner. Here, complete matching and word unit matching are specified as the matching method. The evaluation value of the matching method that returned the highest evaluation value is set as the evaluation value of the address.
[0026]
Next, in the combining means 14, between the new database 18 after name identification in the database storage unit 16 and the old database 17 that has been collected from the previous information server 20 and generated, the name, address, etc. Name identification data that can be regarded as having the same attribute value are determined to be the same, linked, and associated (step 114). For example, the data that are determined to be the same in the old and new databases 17 and 18 are linked and associated by adding information indicating that the data is the same.
[0027]
Here, it is assumed that the link information of the same data can change with time in the information server 20. In deriving the update information of each data, it is necessary to compare the update date and time of the new data and the old data. For this purpose, it is necessary to determine which data is the same in the old and new databases. If the link information is unchanged, it can be determined whether the link information is the same, but under the assumption that the link information can change, it is necessary to determine whether the data has the same name and address attribute values. is there. Here, even with the same data, the name may be changed slightly with the passage of time, so the collation is performed in consideration of fluctuations in the notation. Specifically, for example, a matching method such as character end unit matching or word unit matching is used in addition to perfect matching. This is basically the same as in the case of name identification. Further, if the item to be verified is only the name, for example, the old and new data will match even if the address of the same store changes. Thus, under what conditions the old and new data are identified can be adjusted by changing the matching rule. FIG. 7 shows an example of data matching criteria in the matching rule described in the external table. Here, an example is shown in which only the name is specified as the collation item. The description of the name verification method may be the same as in FIG.
[0028]
FIG. 8 is an example of the old database 17. For convenience, in FIG. 8, it is assumed that each data has not been updated since the last time. The combination means 14 specifies name identification data in the old database 17 that is the same as each name identification data in the new database 18 shown in FIG. 5 by comparing only the name or the attribute values of the name and address. As a result, the first, second, and third name identification data in the new database 18 in FIG. 5 are linked to the first, second, and third name identification data in the old database 17 in FIG. 8, respectively. The name identification data linked to the fourth name identification data in the new database 18 in FIG. 5 does not exist in the old database 17 in FIG. Note that data having the same correspondence information server in the linked name identification data is also linked as the same data. Hereinafter, each data in FIG. 5 and FIG. 8 is expressed by the number from the top.
[0029]
Next, in the update information giving means 15, the link information and update date information of the data in the new database 18, and the link information and update date information of the data in the old database 17 determined to be the same as the data by the combining means 14. By comparing with the information, update information is set and assigned to the corresponding data in the new database 18 (step 115). That is, when there is data in the old database 17 linked to the data in the new database 18 and the link information or update date / time has been changed, it is determined that the data has been updated and both have been changed. When there is no data, it is determined that the data is not updated, and the update information of the corresponding data in the new database 18 is set to “update” or “no update”. If there is no data in the old database 17 linked to the data in the new database 18, it is determined that the data has been newly created, and the update information of the corresponding data in the new database 18 is set to “new”. To do.
[0030]
For example, the first data in the new database 18 in FIG. 5 has the same link information as the first data in the old database 17 in FIG. 8 linked, and the update date / time has changed. Judge that it was done.
[0031]
Since the second data in the new database 18 in FIG. 5 is the same as the second data in the old database 17 in FIG. 8 that is linked, the link information and the update date / time are unchanged, so it is determined that the data has not been updated. To do. The same applies to the fourth data in the new database 18 of FIG.
[0032]
The third data in the new database 18 in FIG. 5 does not change the update date and time compared with the third data in the old database 17 in FIG. 8 linked, but the link information has changed, so the data is updated. Judge that it was done.
[0033]
The fifth data in the new database 18 in FIG. 5 is linked to the third name identification data in the old database 17 in FIG. 8 as name identification data, but the data linked as data is the old database in FIG. Since it is not in 17, it is determined that it was newly created.
[0034]
Since the data linked to the sixth data in the new database 18 in FIG. 5 is not in the old database 17 in FIG. 8, it is determined that the data has been newly created.
[0035]
In this way, in the case of the new database 18 in FIG. 5 and the old database 17 in FIG. 8, the new database 18 to which update information is given as shown in FIG. 9 is finally generated. The update information giving means 15 overwrites the old database 17 with the finally generated new database 18.
[0036]
This completes the database generation. When the database finally generated is accessed from the user terminal 30 and data matching the user's request is retrieved and displayed, information on the type, name, and address of the name identification data and the information server 20 where the data exists The link information and update information to the file are displayed. FIG. 10 is a display example of a search result when a store having a business type of “Chinese” and an address of “Shinjuku-ku Kagurazaka” is searched using the generated database of FIG. By clicking the link information on the screen, the user can access the detailed information of the store as the contents of the linked file.
[0037]
As mentioned above, the typical embodiment of the present invention has been described. However, the old database before the name identification is held, and the linking of the combining means 14 is executed between the old and new databases after the name identification (FIGS. 5 and 8). Instead, it may be executed between old and new databases (old databases corresponding to FIGS. 4 and 4) before name identification. For example, in this case, the correspondence information servers collate the same data.
[0038]
Even if the link information of the same data can change over time in the information server 20, if ID information that is permanently unchanged for each data is included in the data, the following processing can be performed. The attribute information extraction means 12 extracts this ID information, and links in the combining means 14 by linking the data in the old database having the same ID information as the data to each data in the new database. Do.
[0039]
Further, in the information server 20, if the link information of the same data is always unchanged, the linking of the coupling means 14 is not necessary. If the update date and time of data in the generated database (which may be the one before or after name identification) is later than the time when the data set was previously collected in the update information adding means 15, the data is updated data. It turns out that it is new data. Further, if data whose link information is the same as the corresponding information server of the data is found in the previously generated database, it is determined that the data is updated data, and if it is new data.
[0040]
In addition to the above, the present invention can be variously modified and expanded within the scope of the claims. For example, a configuration in which name update means and a name identification process are eliminated and only update information of each data is given is also conceivable.
[0041]
The processing functions of some or all of the components in the apparatus shown in FIG. 1 can be configured by a computer program, and the program can be executed using the computer to implement the present invention, or FIG. Needless to say, the processing procedure shown in FIG. 5 can be constituted by a computer program, and the program can be executed by the computer. In addition, a computer-readable recording medium such as an FD, an MO, a ROM, a memory card, a program for realizing the processing function by the computer, or a program for causing the computer to execute the processing procedure, The program can be recorded on a CD, DVD, removable disk, etc., stored, provided, and the program can be distributed through a network such as the Internet.
[0042]
【The invention's effect】
As described above, according to the present invention, when data that matches the user's request is searched from the generated database, the search result is displayed in a form in which there is no duplicate data and data update information is added. It becomes possible.
[Brief description of the drawings]
FIG. 1 is a diagram showing a configuration of a database generation apparatus according to an embodiment of the present invention.
FIG. 2 is a flowchart of a database generation method according to an embodiment of the present invention.
FIG. 3 is a diagram illustrating an example of data downloaded from an information server.
FIG. 4 is a diagram showing an example of a new database generated by attribute information extraction means.
FIG. 5 is a diagram showing an example of a new database updated by name identification means.
FIG. 6 is a diagram illustrating an example of a collation rule applied by a name identification unit.
FIG. 7 is a diagram illustrating an example of a collation rule applied by a combining unit.
FIG. 8 is a diagram showing an example of an old database generated last time.
FIG. 9 is a diagram showing an example of a new database to which update information is added by update information adding means.
FIG. 10 is a diagram showing an example of a search result display screen from a database generated according to the present invention.
FIG. 11 is a diagram showing an example of a search result display screen from a database generated by a conventional database generation technique.
[Explanation of symbols]
10 Database generator
11 Data collection means
12 Attribute information extraction means
13 name identification
14 coupling means
15 Update information giving means
16 Database storage
17 Old database
18 New database
20 Information server
30 user terminals
40 network

Claims (5)

複数地点からデータを収集してデータベースを生成する装置であって、
過去に生成されたデータベース(以下、旧データベース)を記憶する記憶手段と、
前記複数地点から、名義や住所などの属性の値を含むデータ、該データの識別ID、更新日時情報を収集するデータ収集手段と、
前記収集された各データから属性の値を抽出し、各データが、少なくとも前記抽出した属性の値、識別ID、更新日時からなる構成のデータベース(以下、新データベース)を生成する属性情報抽出手段と、
前記生成された新データベース内の属性の値が同一とみなせるデータ集合を同一グループに分類する名寄せ手段と、
前記新データベースと前記旧データベースとの間で、属性の値が同一とみなせるデータ同士を同一と判断して両データベース間の各データを対応付けする結合手段と、
前記新データベース中のデータの識別IDや更新日時などの情報と、前記データと対応付けされた前記旧データベース中のデータの識別IDや更新日時などの情報とを比較することによって、前記新データベース内の該当データに更新情報を付与する更新情報付与手段と、
を有することを特徴とするデータベース生成装置。
A device that collects data from multiple points and generates a database,
Storage means for storing a database generated in the past (hereinafter referred to as an old database);
Data collecting means for collecting data including attribute values such as name and address, identification ID of the data, and update date and time information from the plurality of points ;
Attribute information extraction means for extracting an attribute value from each collected data and generating a database (hereinafter referred to as a new database) in which each data is composed of at least the extracted attribute value, identification ID, and update date and time; ,
Name identification means for classifying data sets in which the attribute values in the generated new database are considered to be the same into the same group;
Between the new database and the old database, combining means for determining that the data that can be regarded as the same attribute values are the same and associating each data between the two databases,
By comparing information such as the identification ID and update date and time of data in the new database with information such as the identification ID and update date and time of data in the old database associated with the data, Update information giving means for giving update information to the corresponding data,
A database generation device characterized by comprising:
請求項1記載のデータベース生成装置において、更新情報付与手段は、新データベースのデータの識別IDや更新日時の情報が、旧データベースの対応するデータの識別IDや更新日時の情報と不一致の場合は更新あり、一致の場合は更新なしを表わす更新情報を新データベースの該当データに付与し、旧データベースに新データベースのデータと対応付けられたデータが存在しない場合には、新データベースの該当データに新規を表わす更新情報を付与することを特徴とするデータベース生成装置。  2. The database generation device according to claim 1, wherein the update information adding means updates the data ID of the new database and the update date / time information if they do not match the corresponding data ID / update date / time information of the old database. If there is a match, update information indicating no update is assigned to the corresponding data in the new database, and if there is no data associated with the data in the new database in the old database, new data is added to the corresponding data in the new database. A database generation apparatus characterized by giving update information to be expressed. 過去に生成されたデータベースを記憶する記憶装置を備え、複数地点からデータを収集して新たにデータベースを自動生成して前記記憶装置に格納するデータベース生成装置におけるデータベース生成処理方法であって、
前記データベース生成装置は、
前記複数地点から、名義や住所などの属性の値を含むデータ、該データの識別ID、更新日時情報を収集するデータ収集過程と、
前記収集された各データから属性の値を抽出し、各データが、少なくとも前記抽出した属性の値、識別ID、更新日時からなる構成のデータベース(以下、新データベース)を生成して前記記憶装置に格納する属性情報抽出過程と、
前記記憶装置に格納された新データベース内の属性の値が同一とみなせるデータ集合を同一グループに分類する名寄せ過程と、
前記記憶装置に格納された新データベースと過去に生成して記憶装置に保持されている旧データベースとの間で、属性の値が同一とみなせるデータ同士を同一と判断して両データベース間の各データを対応付けする結合過程と、
前記新データベース中のデータの識別IDや更新日時などの情報と、前記データと対応付けされた前記旧データベース中のデータの識別IDや更新日時などの情報とを比較することによって、記憶装置に格納された新データベース内の該当データに更新情報を付与する更新情報付与過程と、
実行することを特徴とするデータベース生成処理方法。
A database generation processing method in a database generation device comprising a storage device for storing a database generated in the past, collecting data from a plurality of points, automatically generating a new database and storing it in the storage device,
The database generation device includes:
A data collection process for collecting data including attribute values such as name and address, identification ID of the data, and update date / time information from the plurality of points ,
An attribute value is extracted from each of the collected data, and each data generates a database (hereinafter referred to as a new database) having at least the extracted attribute value, identification ID, and update date and time in the storage device. A process of extracting attribute information to be stored ;
A name identification process for classifying data sets that can be regarded as having the same attribute value in the new database stored in the storage device into the same group;
Between the new database stored in the storage device and the old database generated in the past and held in the storage device, the data that can be regarded as the same in attribute values are determined to be the same, and each data between both databases A combining process that associates
The information such as the identification ID and update date / time of the data in the new database is stored in the storage device by comparing the information such as the identification ID and update date / time of the data in the old database associated with the data update information imparting step of imparting the update information in the appropriate data in the new database that is,
The database generation processing method characterized by performing this .
請求項3記載のデータベース生成処理方法において、
前記データベース生成装置は、前記名寄せ過程あるいは前記結合過程の少なくとも一方を省略し、前記更新情報付与過程では、少なくとも前記結合過程が省略された場合には、データ中の不変情報にもとづいて新データベースのデータと旧データベースのデータとの対応を認識することを特徴とするデータベース生成処理方法。
The database generation processing method according to claim 3, wherein
The database generation device omits at least one of the name identification process or the combining process, and in the update information adding process, if at least the combining process is omitted, a new database is created based on invariant information in the data. A database generation processing method characterized by recognizing correspondence between data and data in an old database.
複数地点からデータを収集してデータベースを生成する処理を、コンピュータに実行させるプログラムであって、
前記複数地点から、名義や住所などの属性の値を含むデータ、該データの識別ID、更新日時情報を収集するデータ収集プロセスと、
前記収集された各データから属性の値を抽出し、各データが、少なくとも前記抽出した属性の値、識別ID、更新日時からなる構成のデータベース(以下、新データベース)を生成する属性情報抽出プロセスと、
前記生成された新データベース内の属性の値が同一とみなせるデータ集合を同一グループに分類する名寄せプロセスと、
前記新データベースと過去に生成した旧データベースとの間で、属性の値が同一とみなせるデータ同士を同一と判断して両データベース間の各データを対応付けする結合プロセスと、
前記新データベース中のデータの識別IDや更新日時などの情報と、前記データと対応付けされた前記旧データベース中のデータの識別IDや更新日時などの情報とを比較することによって、前記新データベース内の該当データに更新情報を付与する更新情報付与プロセスと、
コンピュータに実行させるデータベース生成プログラム。
A program that causes a computer to execute a process of collecting data from multiple points and generating a database,
A data collection process for collecting data including attribute values such as name and address, identification ID of the data, and update date and time information from the plurality of points ;
An attribute information extraction process for extracting an attribute value from each collected data and generating a database (hereinafter referred to as a new database) in which each data includes at least the extracted attribute value, identification ID, and update date and time; ,
A name identification process for classifying data sets that can be regarded as having the same attribute value in the generated new database into the same group;
Between the new database and the old database generated in the past, a data combination process that associates data between both databases by determining that the data that can be regarded as having the same attribute value is the same;
By comparing information such as the identification ID and update date and time of data in the new database with information such as the identification ID and update date and time of data in the old database associated with the data, An update information grant process for assigning update information to the corresponding data,
Database generation program that causes a computer to execute .
JP2001371636A 2001-12-05 2001-12-05 Database generation apparatus, database generation processing method, and database generation program Expired - Fee Related JP3803961B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001371636A JP3803961B2 (en) 2001-12-05 2001-12-05 Database generation apparatus, database generation processing method, and database generation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001371636A JP3803961B2 (en) 2001-12-05 2001-12-05 Database generation apparatus, database generation processing method, and database generation program

Publications (2)

Publication Number Publication Date
JP2003173280A JP2003173280A (en) 2003-06-20
JP3803961B2 true JP3803961B2 (en) 2006-08-02

Family

ID=19180654

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001371636A Expired - Fee Related JP3803961B2 (en) 2001-12-05 2001-12-05 Database generation apparatus, database generation processing method, and database generation program

Country Status (1)

Country Link
JP (1) JP3803961B2 (en)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006059107A (en) * 2004-08-19 2006-03-02 Kitakyushu City Method for analyzing health in each area
US7516149B2 (en) * 2004-08-30 2009-04-07 Microsoft Corporation Robust detector of fuzzy duplicates
US20060149800A1 (en) 2004-12-30 2006-07-06 Daniel Egnor Authoritative document identification
JP2008122183A (en) * 2006-11-10 2008-05-29 Denso Corp Facility information processing apparatus and program
JP2008250861A (en) * 2007-03-30 2008-10-16 Fujitsu Ltd Code conversion system, code conversion method, code correspondence relationship information generation method and computer program
JP5423470B2 (en) * 2010-02-24 2014-02-19 富士通株式会社 Name identification check support device, name identification check support program, and name identification check support method
JP5221630B2 (en) * 2010-12-07 2013-06-26 楽天株式会社 Server, information management method, information management program, and computer-readable recording medium for recording the program
JP4869448B1 (en) * 2011-07-08 2012-02-08 株式会社ぐるなび Name identification management system
JP2013164773A (en) * 2012-02-13 2013-08-22 Nec Casio Mobile Communications Ltd Information service system, communication device, information service method, and program
JP6028657B2 (en) 2013-03-28 2016-11-16 富士通株式会社 Verification program, verification method, and verification apparatus
CN105988988A (en) * 2015-02-13 2016-10-05 阿里巴巴集团控股有限公司 Method and device for processing text address
JP6837739B2 (en) * 2015-08-03 2021-03-03 株式会社リブセンス Real estate information processing equipment, real estate information processing methods, and programs
CN110582759B (en) * 2017-06-06 2024-01-12 欧姆龙株式会社 Score calculating unit, search device, score calculating method, and score calculating program
JP2019003285A (en) * 2017-06-12 2019-01-10 トヨタ自動車株式会社 Information display device and information display system
JP6655582B2 (en) * 2017-08-09 2020-02-26 株式会社日立製作所 Data integration support system and data integration support method
JP6415668B1 (en) * 2017-10-13 2018-10-31 株式会社大和総研ビジネス・イノベーション Name identification system and program
JP7211992B2 (en) * 2020-02-28 2023-01-24 ユーソナー株式会社 Business operator information management system and server
WO2022060809A1 (en) * 2020-09-17 2022-03-24 Mastercard International Incorporated Continuous learning for seller disambiguation, assessment, and onboarding to electronic marketplaces
JP2022129639A (en) * 2021-02-25 2022-09-06 株式会社日立製作所 Computer system and information cooperation control method

Also Published As

Publication number Publication date
JP2003173280A (en) 2003-06-20

Similar Documents

Publication Publication Date Title
JP3803961B2 (en) Database generation apparatus, database generation processing method, and database generation program
KR100883261B1 (en) Content information analysis method, system and recording medium
US8117177B2 (en) Apparatus and method for searching information based on character strings in documents
US10366154B2 (en) Information processing device, information processing method, and computer program product
US8161056B2 (en) Database constructing apparatus and method
JP4118580B2 (en) Arrangement information recommendation device, method and program
JP2007102767A (en) Information processor
JP4200834B2 (en) Information search system, information search method, and information search program
JP4042830B2 (en) Content attribute information normalization method, information collection / service provision system, and program storage recording medium
JPH10143519A (en) Url ordering method and device therefor
US20110252313A1 (en) Document information selection method and computer program product
JP5447484B2 (en) Information processing device
KR100616152B1 (en) Control method for automatically sending to other web site news automatically classified on internet
JP4649036B2 (en) Category reporting method, record reporting method, search service device by search server
JP4189387B2 (en) Knowledge search system, knowledge search method and program
JP3702268B2 (en) Information search system, information search method and program
JP5613536B2 (en) Method, system, and computer-readable recording medium for dynamically extracting and providing the most suitable image according to a user's request
JP3531344B2 (en) Information retrieval device
KR20080028031A (en) System extracting and displaying keyword and contents related with the keyword and method using the system
US7386794B2 (en) Apparatus and method for performing the management of operation history
JP2004341942A (en) Content classification method, content classification device, content classification program, and storage medium storing content classification program
JPH117452A (en) Method and device for collecting information through network and recording medium recording program for executing the method
JP2011086156A (en) System and program for tracking of leaked information
JPH10162011A (en) Information retrieval method, information retrieval system, information retrieval terminal equipment, and information retrieval device
KR100371805B1 (en) Method and system for providing related web sites for the current visitting of client

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060117

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060320

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060426

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060426

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090519

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100519

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100519

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110519

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees