JP2003256757A - 空間データ分析装置、空間データ分析方法、及び空間データ分析プログラム - Google Patents

空間データ分析装置、空間データ分析方法、及び空間データ分析プログラム

Info

Publication number
JP2003256757A
JP2003256757A JP2002059735A JP2002059735A JP2003256757A JP 2003256757 A JP2003256757 A JP 2003256757A JP 2002059735 A JP2002059735 A JP 2002059735A JP 2002059735 A JP2002059735 A JP 2002059735A JP 2003256757 A JP2003256757 A JP 2003256757A
Authority
JP
Japan
Prior art keywords
virtual
record
record group
group
condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002059735A
Other languages
English (en)
Inventor
Akihiko Nakase
明彦 仲瀬
Toshiaki Hatano
寿昭 波田野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2002059735A priority Critical patent/JP2003256757A/ja
Priority to US10/379,919 priority patent/US7139770B2/en
Publication of JP2003256757A publication Critical patent/JP2003256757A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/918Location
    • Y10S707/921Spatial
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/953Organization of data
    • Y10S707/957Multidimensional
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【課題】 本発明は、空間属性を持つデータの密集する
場所とその密集場所を探すための条件を併せて見つけ出
すことを目的とする。 【解決手段】 2次元以上の空間属性とこの説明属性を
含むレコード群から、空間的に集中している場所とその
集中場所を探すための条件とを併せて分析する空間デー
タ分析装置であって、レコード群を説明属性に応じた分
割条件で仮想的に分割することによって、複数の仮想レ
コード群を生成するレコード仮想分割部(120)と、
複数の仮想レコード群の空間的な分散度を求めることに
よって、最も分散度の低い分割条件及び仮想レコード群
を選択する判定部(130)と、選択した分割条件及び
仮想レコード群の履歴を格納する格納部(150)と、
選択した仮想レコード群を一時記憶する一時記憶部(1
40)とを備え、レコード仮想分割部が一時記憶してい
る仮想レコード群を再び仮想的に分割させる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、2次元以上の空間
データを分析する空間データ分析装置に関し、特に、空
間的に集中している場所とその集中場所を探すための条
件とを併せて分析する空間データ分析装置に関する。
【0002】
【従来の技術】GIS(Geographic Information System;地
理情報システム)データや地図データのような2次元以
上の空間座標を属性として持つデータにおいて、ある条
件(空間座標に関するものは除く)でデータの各レコー
ドを選択した時に、選択されたレコード群が空間上で密
集しているような条件を見つけ出すことは、空間データ
分析における重要な応用である。
【0003】図1に、データベースの各レコードに2次
元の位置情報が含まれる例として、タクシーの顧客乗車
記録データを示す。このデータは、タクシーが顧客を拾
った場所、時間、その時の天候を記録したもので、顧客
を拾った場所のデータはX座標、Y座標で示してある。
【0004】このデータの各点をXY座標空間に記入する
と図2のような図になる。この図からは、顕著な傾向は
見つけ出すことができないが、例えば「晴れの日で12
時以前」という空間座標以外の条件を満たすデータのみ
をXY座標空間に記入すると、図3のようになり、図の上
部の方にデータが集中しているという傾向が分かる。こ
の傾向を利用すると、晴れの日の午前中は図の上部の方
で顧客が拾い易いので、空車タクシーをその地域に集中
させると良いなど、効率的な配車計画が実現できる。
【0005】一方、大量のデータを分析してそのデータ
内に隠されている知識を見つけ出す手法はデータマイニ
ング技術として広く知られている。一例として、従来の
データマイニング手法の代表的手法であるクラス分類に
よる決定木生成方法の場合を図4を用いて説明する。
【0006】決定木生成方法では、入力としてトレーニ
ングセットと呼ばれるレコードの集合が与えられる(同
図(a))。このトレーニングセットの各レコードは、
複数の属性(Attribute)と1次元のクラス(Class)を持
つ。属性は、連続値を取る場合(Age)とカテゴリ値と呼
ばれる離散値を取る場合(Gender)がある。同図(b)
は、同図(a)のトレーニングセットから生成された決
定木である。決定木はノードと葉からなる。各ノードに
は、属性値を用いた分岐条件が与えられ、葉にはクラス
が与えられる。
【0007】そして、決定木は、テストセットと呼ばれ
るレコード(複数の属性だけを持ちクラスを持たない)
のクラス値を属性値から予測するために用いられる。す
なわち、テストセットの各レコードに対して、決定木の
分岐条件がノードから葉方向に向かって適用され、各レ
コードはいずれかの葉へと分類される。そして、分類さ
れた葉のクラスが予測値となる。
【0008】このクラス分類による決定木生成方法によ
れば、「ある条件を指定した場合には、どのクラスに属
するか」が視覚的にわかりやすく表現できる。
【0009】ところで、空間データを含む情報をクラス
分類による決定木生成手法でデータマイニングする場
合、すなわち、「ある条件(空間座標に関するものは除
く)を指定した場合に、どの空間領域に属するか」をク
ラス分類による決定木生成方法でデータマイニングする
場合には、2次元以上の空間領域を1次元のクラスに前
処理する必要がある。
【0010】以下に、空間データに対して前処理を行な
い、クラス分類による決定木生成方法を用いて分析を行
なう例を述べる。
【0011】クラス分類による決定木生成方法では、前
述したように、地図上の位置などの2次元データを扱え
ないので、2次元データを1次元データ(クラス)に前
処理する必要がある。まず、地図の区域に名前をつけて
(すなわち、クラス分類して)各レコードがどの地域
(クラス)に入るかを位置属性(X,Y座標)から判定
する。図5に地図の地域にA,B,C,Dの名前をつけ
た例を示す。このA,B,C,Dが1次元のクラスとな
る。図1の各データに、位置の名前を付加する前処理を
行なった例を図6に示す。図6のデータを決定木生成方
法で分析すると図7の決定木が生成される。
【0012】この分析結果では、「時刻10時以前なら
地域Aでよく顧客を獲得できる」などの大まかな結果が
得られるが、時刻10時以前でも地域B、地域Cでの顧
客獲得記録(レコード4,5参照)もあり、正確な規則
は得られない。
【0013】以上説明したように、空間データに対して
前処理を行ない、クラス分類による決定木生成方法で分
析を行なうと、結果として得られる規則の精度が悪くな
るという問題点がある。
【0014】
【発明が解決しようとする課題】このように、空間情報
を前処理で記号化して分析すると、空間情報の記号化段
階で情報量が削減されてしまうので精度の良いデータマ
イニングが不可能であった。これは、前処理によって密
集している場所の範囲が固定されているためだと考えら
れる。上述したA,B,C,Dとクラス分類すると、例
えばBとCとの間の場所を選ぶことはできない。また、
密集した場所を探すのだから、密集が成立する程度にし
かクラス分類できず、クラスを細かくするのにも限界が
ある。
【0015】また、従来のクラス分類による決定木生成
方法では、「ある条件(空間座標に関するものは除く)
を満たすデータはある空間領域に集中する」という規則
の「ある条件(空間座標に関するものは除く)」を設定
しないと、「ある空間領域」を見つけ出すことができ
ず、「ある条件(空間座標に関するものは除く)」と
「ある空間領域」とを併せて見つけ出す方法は知られて
いない。
【0016】本発明は、空間属性を持つデータの密集す
る場所とその密集場所を探すための条件とを併せて見つ
け出すデータマイニング方式を実現することを目的とす
る。
【0017】
【課題を解決するための手段】第1の発明は、2次元以
上の空間属性とこの説明属性を含むレコード群から、空
間的に集中している場所とその集中場所を探すための条
件とを併せて分析する空間データ分析装置であって、前
記レコード群を前記説明属性に応じた分割条件で仮想的
に分割することによって、複数の仮想レコード群を生成
するレコード仮想分割部(120)と、前記複数の仮想
レコード群の空間的な分散度を求めることによって、最
も分散度の低い分割条件及び仮想レコード群を選択する
判定部(130)と、前記選択した分割条件及び仮想レ
コード群の履歴を格納する格納部(150)と、前記選
択した仮想レコード群を一時記憶する一時記憶部(14
0)と、を備え、前記レコード仮想分割部が前記一時記
憶している仮想レコード群を再び仮想的に分割すること
によって、前記格納部に格納されるレコード群及び分割
条件が、前記空間的に集中している場所及びその集中場
所を探すための条件になることを特徴とする空間データ
分析装置である。
【0018】第2の発明は、前記分散度は、前記仮想レ
コード群の重心と分析対象となる全レコード群の重心と
の距離に対応していることを特徴とする第1の発明記載
の空間データ分析装置である。
【0019】第3の発明は、前記分割条件で分割される
二つの仮想レコード群のレコードの数は両方とも2個以
上であることを特徴とする第1の発明記載の空間データ
分析装置である。
【0020】第4の発明は、2次元以上の空間属性とこ
の説明属性を含むレコード群から、空間的に集中してい
る場所とその集中場所を探すための条件とを併せて分析
する空間データ分析方法であって、前記レコード群を前
記説明属性に応じた分割条件で仮想的に分割することに
よって、複数の仮想レコード群を生成するレコード仮想
分割ステップと、前記複数の仮想レコード群の空間的な
分散度を求めることによって、最も分散度の低い分割条
件及び仮想レコード群を選択する判定ステップと、前記
選択した分割条件及び仮想レコード群の履歴を格納部へ
格納させるステップと、前記選択した仮想レコード群を
一時記憶部へ一時記憶させるステップと、を備え、前記
レコード仮想分割ステップが前記一時記憶している仮想
レコード群を再び仮想的に分割することによって、前記
格納部に格納されるレコード群及び分割条件が、前記空
間的に集中している場所及びその集中場所を探すための
条件になることを特徴とする空間データ分析方法であ
る。
【0021】第5の発明は、2次元以上の空間属性とこ
の説明属性を含むレコード群から、空間的に集中してい
る場所とその集中場所を探すための条件とを併せて分析
することをコンピュータに実行させるための空間データ
分析プログラムであって、前記レコード群を前記説明属
性に応じた分割条件で仮想的に分割することによって、
複数の仮想レコード群を生成するレコード仮想分割ステ
ップと、前記複数の仮想レコード群の空間的な分散度を
求めることによって、最も分散度の低い分割条件及び仮
想レコード群を選択する判定ステップと、前記選択した
分割条件及び仮想レコード群の履歴を格納部へ格納させ
るステップと、前記選択した仮想レコード群を一時記憶
部へ一時記憶させるステップと、を備え、前記レコード
仮想分割ステップが前記一時記憶している仮想レコード
群を再び仮想的に分割することによって、前記格納部に
格納されるレコード群及び分割条件が、前記空間的に集
中している場所及びその集中場所を探すための条件にな
ることを特徴とする空間データ分析プログラムである。
【0022】
【発明の実施の形態】以下、本発明の実施形態について
図面を参照しながら説明する。
【0023】図8は、本発明の実施形態に係る空間デー
タ分析装置のブロック図である。分析対象レコード群用
記憶部110は分析対象である2次元以上の空間属性と
この説明属性を持つレコード群を記憶しており、レコー
ド仮想分割部120はレコード群を説明属性に応じた分
割条件でレコード毎に仮想的に分割する。続いて、判定
部130では、仮想的に分割された仮想レコード群が空
間的に分散度が低い、すなわち、集中した場所に配置さ
れているかを計算し、最も空間的にレコードが集中する
分割条件を選択する。選択された仮想レコード群は、一
時記憶部140に一時記憶され、再帰的にレコード仮想
分割部120で分割を繰り返される。
【0024】判定部130では、これ以上分割できない
と判定されたレコード群の分割は中止され、また、すべ
てのレコード群が分割できなくなると、データ分析処理
が終了する。
【0025】レコード仮想分割部120及び判定部13
0での操作履歴は、レコード群分割履歴格納部150に
格納され、結果として得られる知識となる。
【0026】(実施例)以下、本発明の実施例として、
図1に示すタクシーの顧客乗車記録を分析対象として、
顧客のタクシー乗車動向に関する知識を見つけ出す。す
なわち、「ある条件(空間座標に関するものは除く)を
満たすタクシー乗車データはある空間領域に集中する」
という規則の「ある条件(空間座標に関するものは除
く)」と「ある空間領域」とを併せて見つけ出す。
【0027】図1のタクシー顧客乗車記録データが、図
8の分析対象レコード群用記憶部110に記憶されてい
る。このデータでは、空間属性として顧客がタクシーを
拾った場所のX座標、Y座標、その他の説明属性として、
顧客がタクシーを拾った時間、その時点での天気が記録
されている。このデータをレコード仮想分割部120で
仮想的に分割し、仮想レコード群に対して判定部130
でレコードの分散度合を計算する。
【0028】ここで、分析対象とするn個のレコード群
をR1,R2,,,Rnとし、これら全部のレコード群の重心をP
とすると、重心PのX座標とY座標は、n個のレコードのX
座標、Y座標をそれぞれ(Xn,Yn)とした時、 Px = ΣXn/n, Py = ΣYn/n で示されるとする。
【0029】また、重心Pから各レコードk(k=1〜
n)への距離Lkの自乗の合計は、各レコードのX属性,Y
属性で示される位置(Xk、Yk)と重心PのX属性,Y属性で
示される位置(Px , Py)との距離の自乗の合計とす
る。
【0030】尚、レコード群を形成する最小のnは2とす
る。つまり2レコード以上存在しない場所は、レコード
が集中しているとは定義しないこととする。
【0031】図1のタクシー顧客乗車記録では、10地点
での乗車記録があり、全地点の重心は、(56,64)であ
る。
【0032】そして、全レコードの分散度は、各地点か
ら重心までの距離の自乗を総和したものであり、11090
となる。
【0033】次にレコード仮想分割部120で図1のタ
クシー顧客乗車記録を分割する例を示す。レコード仮想
分割部120では、分析対象データの位置を示すX座標Y
座標以外の属性(説明属性)でレコード群を分割するこ
とを試みる。図1のタクシー顧客乗車記録では、天気属
性、時刻属性で分割することが可能である。まず、天気
属性で分割することを試みる。
【0034】天気属性は、'晴れ', '雨'の2種類の属性
値を持つ離散値属性なので、天気='晴れ'のレコード群
と、天気='雨'のレコード群に仮想的に分割する。分割
された2つの仮想レコード群は、図9に示す通り、両方
とも2つ以上のレコードを有するので、第一の分割候補
となる。
【0035】次に、時刻属性で分割することを試みる。
時刻属性は0時から24時の間の連続値属性なので、分割
するポイントは多く存在する。
【0036】ここでは、まず図10に示すように時刻属
性で全レコードを並び替える。そして、レコード群を形
成する最小のnは2であることを考慮し、また、同じ時刻
のレコードを分割しないと設定すると、9時と10時の間
で仮想的に分割する第二の分割候補(図11)、10時と
12時の間で仮想的に分割する第三の分割候補(図1
2)、12時と18時の間で仮想的に分割する第四の分割候
補(図13)を作成する。
【0037】続いて各分割候補に関して、判定部130
でレコード群の分散度合を判定する。
【0038】第一の分割候補(図9)では、天候='晴
れ'の仮想レコード群の重心は(52,82)で、この仮想レコ
ード群の重心から全レコードの重心Pまでの距離の自乗
の総和は1760である。一方、天候='雨'の仮想レコード
群の重心は(60,46)で、全レコードの重心Pまでの距離の
自乗の総和は6280である。これにより、第一の分割候補
のレコード分散度は、1760 + 6280 = 8040となる。
【0039】第二の分割候補(図11)では、時刻≦'9
時'の仮想レコード群の重心は(35,82.5)で、全レコード
の重心Pまでの距離の自乗の総和は1575である。時刻≧'
10時'の仮想レコード群の重心は(70,51.7)で、全レコー
ドの重心Pまでの距離の自乗の総和は4533である。これ
により、第二の分割候補のレコード分散度は、1575 +45
33 = 6108となる。
【0040】第三の分割候補(図12)では、時刻≦'1
0時'の仮想レコード群の重心は(36,72)で、全レコード
の重心Pまでの距離の自乗の総和は3040である。時刻≧'
12時'の仮想レコード群の重心は(70,51.7)で、全レコー
ドの重心Pまでの距離の自乗の総和は3240である。これ
により、第三の分割候補のレコード分散度は、3040 + 3
240 = 6280となる。
【0041】第四の分割候補(図13)では、時刻≦'1
2時'のレコードの重心は(42,75)で、全レコードの重心
までの距離の自乗の総和は4217である。時刻≧'18時'の
レコードの重心は(70,51.7)で、全レコードの重心まで
の距離の自乗の総和は1750である。これにより、第四の
分割候補のレコード分散度は、4217 + 1750 = 5967とな
る。
【0042】四つの分割候補の中で、最もレコードの分
散度の値が低いもの(すなわち、最もレコードが集中し
ていると思われるもの)は第四の分割候補であるので、
第四の分割候補で分割された仮想レコード群が選択さ
れ、一時記憶部に一時記憶される。
【0043】この選択された段階で、時刻≦'12時'の条
件を満たす仮想レコード群(第四の分割候補(図13)
の上側)は、はじめて図14のような分割されたタクシ
ー顧客乗車記録(1)となり、時刻≧'18時'の条件を満
たす仮想レコード群(第四の分割候補(図13)の下
側)は、図15のような分割されたタクシー顧客乗車記
録(2)となる。また、レコード分割履歴格納部150
には、時刻≦'12時'と時刻≧'18時'の条件で分割された
旨が1番目の分割として記録される。
【0044】次に、分割されたタクシー顧客乗車記録
(1)(図14)と分割されたタクシー顧客乗車記録
(2)(図15)について、再帰的に、レコード仮想分
割部120及び判定部130での処理が行なわれる。
【0045】タクシー顧客乗車記録(1)(図14)の
データは、図16に示す天気属性で分割する候補と、図
17に示す時刻属性で分割する候補が試される。
【0046】図16に示すデータでは、天気='晴れ'を
満たす仮想レコード群の重心は(50,87.5)で、全レコー
ドの重心までの距離の自乗の総和は1075である。また、
天気='雨'を満たす仮想レコード群の重心は(25,55)で、
全レコードの重心までの距離の自乗の総和は900であ
る。これによりレコード分散度は、1075+900=1975とな
る。
【0047】図17に示すデータでは、時刻≦'9時'を
満たす仮想レコード群の重心は(35,82.5)で、全レコー
ドの重心までの距離の自乗の総和は1575である。また、
時刻≦'10時'を満たす仮想レコード群の重心は(55,65)
で、全レコードの重心までの距離の自乗の総和は1700で
ある。これによりレコード分散度は、1575+1700=3275と
なる。
【0048】以上により、図16の分割候補は図17の
分割候補よりレコードの分散度の値が低い(よりレコー
ドが集中していると思われる)ので、図16の分割候補
が2番目の分割として選択される。そして、レコード分
割履歴格納部150には、図14のデータが、天気='晴
れ'と天気='雨'の条件で分割された旨が記録される。
【0049】図15のデータ、及び図16のデータは、
レコード群を形成する最小のレコード数nは2であるこ
と、同じ時刻のレコードを分割しない条件の下では、さ
らなる分割が不可能なので、この時点で処理を終了す
る。
【0050】また、上記の実施例で、分割する前のレコ
ード群のレコード分散度が分割後のレコード群のレコー
ド分散度より小さい場合は、分割によって集中していた
レコードが分散してしまうと考えられるので、レコード
の分割は行なわないという条件を設定しても良い。
【0051】以上の操作によって、レコード分割履歴格
納部150にはレコード群をどのような分割条件(ノー
ド)で分割してゆくと密集したレコード群(葉)を見つ
け出すことができるかの決定木構造が記録される。上記
実施例で生成された決定木構造を図18に示す。
【0052】この木構造の葉のレコード位置と葉に至る
までの条件(ノード)を列挙すると、「時刻18時以降
では、地図(図2)の右下部分でよく顧客を獲得す
る」、「時刻12時以前で天候が晴れなら、地図(図
2)の上部分でよく顧客を獲得する。」、及び「時刻1
2時以前で天候が雨なら、地図(図2)の左下部分でよ
く顧客を獲得する。」という規則が生成される。
【0053】すなわち、本実施例によれば、「ある条件
を満たすデータはある領域に集中する」という規則の「あ
る条件」と「ある領域」とを併せて見つけ出すことができ
る。
【0054】(記録媒体への適用)また、本実施形態に
おける処理をコンピュータで実行可能なプログラムで実
現し、このプログラムをコンピュータで読み取り可能な
記憶媒体として実現することも可能である。
【0055】なお、本記憶媒体としては、磁気ディス
ク、フレキシブルディスク、ハードディスク、光ディス
ク(CD−ROM,CD−R,DVD等)、光磁気ディ
スク(MO等)、半導体メモリ等、プログラムを記憶で
き、かつコンピュータが読み取り可能な記憶媒体であれ
ば、その記憶形式は何れの形態であってもよい。
【0056】また、記憶媒体からコンピュータにインス
トールされたプログラムの指示に基づきコンピュータ上
で稼動しているOS(オペレーションシステム)や、デ
ータベース管理ソフト、ネットワーク等のMW(ミドル
ウェア)等が本実施形態を実現するための各処理の一部
を実行してもよい。
【0057】さらに、本記憶媒体は、コンピュータと独
立した媒体に限らず、LANやインターネット等により
伝送されたプログラムをダウンロードして記憶または一
時記憶した記憶媒体も含まれる。
【0058】また、記憶媒体は1つに限らず、複数の媒
体から本実施形態における処理が実行される場合も、本
発明における記憶媒体に含まれ、媒体の構成は何れの構
成であってもよい。
【0059】なお、上記コンピュータは、記憶媒体に記
憶されたプログラムに基づき、本実施形態における各処
理を実行するものであって、パソコン等の1つからなる
装置、複数の装置がネットワーク接続されたシステム等
の何れの構成であってもよい。
【0060】また、上記コンピュータとは、パソコンに
限らず、情報処理機器に含まれる演算処理装置、マイコ
ン等も含み、プログラムによって本実施形態の機能を実
現することが可能な機器、装置を総称している。
【0061】
【発明の効果】本発明によれば、空間属性を持つデータ
の密集する場所とその密集場所を探すための条件とを併
せて見つけ出すことができる。
【図面の簡単な説明】
【図1】 タクシー顧客乗車記録(レコード群)のデー
タ。
【図2】 図1のレコード群をXY座標空間に記入した
図。
【図3】 図1のレコード群で「晴れの日で12時以
前」という条件(空間座標に関するものは除く)を満た
すレコードのみをXY座標空間に記入した図。
【図4】 従来のクラス分類による決定木生成方法を説
明する図。
【図5】 図1のレコード群を従来のクラス分類による
決定木生成方法でデータマイニングするために前処理し
た図1のデータをXY座標空間に記入した図。
【図6】 図1のレコード群を前処理して、各レコード
に地域(クラス)を付加した図。
【図7】 図6の前処理をしてから、従来のクラス分類
による決定木生成方法で分析した結果の図。
【図8】 本発明の実施形態に係る空間データ分析装置
のブロック図。
【図9】 図1のレコード群の第1の分割候補(天気属
性で分割)を説明する図。
【図10】 図1のレコード群を時刻属性で並び替えた
図。
【図11】 図1のレコード群の第2の分割候補(9時
と10時の間で分割)を説明する図。
【図12】 図1のレコード群の第3の分割候補(10時
と12時の間で分割)を説明する図。
【図13】 図1のレコード群の第4の分割候補(12時
と18時の間で分割)を説明する図。
【図14】 第4の分割候補で分割されたタクシー顧客
乗車記録(1)のレコード群のデータ。
【図15】 第4の分割候補で分割されたタクシー顧客
乗車記録(2)のレコード群のデータ。
【図16】 図14のレコード群を天気属性で分割する
候補を説明する図。
【図17】 図14のレコード群を時刻属性で分割する
候補を説明する図。
【図18】 本実施形態に係る空間データ分析装置によ
って生成された決定木構造を示す図。
【符号の説明】
110 分析対象レコード群用記憶部 120 レコード仮想分割部 130 判定部 140 一時記憶部 150 レコード分割履歴格納部

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 2次元以上の空間属性とこの説明属性を
    含むレコード群から、空間的に集中している場所とその
    集中場所を探すための条件とを併せて分析する空間デー
    タ分析装置であって、 前記レコード群を前記説明属性に応じた分割条件で仮想
    的に分割することによって、複数の仮想レコード群を生
    成するレコード仮想分割部と、 前記複数の仮想レコード群の空間的な分散度を求めるこ
    とによって、最も分散度の低い分割条件及び仮想レコー
    ド群を選択する判定部と、 前記選択した分割条件及び仮想レコード群の履歴を格納
    する格納部と、 前記選択した仮想レコード群を一時記憶する一時記憶部
    と、を備え、 前記レコード仮想分割部が前記一時記憶している仮想レ
    コード群を再び仮想的に分割することによって、前記格
    納部に格納されるレコード群及び分割条件が、前記空間
    的に集中している場所及びその集中場所を探すための条
    件になることを特徴とする空間データ分析装置。
  2. 【請求項2】 前記分散度は、前記仮想レコード群の重
    心と分析対象となる全レコード群の重心との距離に対応
    していることを特徴とする請求項1記載の空間データ分
    析装置。
  3. 【請求項3】 前記分割条件で分割される二つの仮想レ
    コード群のレコードの数は両方とも2個以上であること
    を特徴とする請求項1記載の空間データ分析装置。
  4. 【請求項4】 2次元以上の空間属性とこの説明属性を
    含むレコード群から、空間的に集中している場所とその
    集中場所を探すための条件とを併せて分析する空間デー
    タ分析方法であって、 前記レコード群を前記説明属性に応じた分割条件で仮想
    的に分割することによって、複数の仮想レコード群を生
    成するレコード仮想分割ステップと、 前記複数の仮想レコード群の空間的な分散度を求めるこ
    とによって、最も分散度の低い分割条件及び仮想レコー
    ド群を選択する判定ステップと、 前記選択した分割条件及び仮想レコード群の履歴を格納
    部へ格納させるステップと、 前記選択した仮想レコード群を一時記憶部へ一時記憶さ
    せるステップと、を備え、 前記レコード仮想分割ステップが前記一時記憶している
    仮想レコード群を再び仮想的に分割することによって、
    前記格納部に格納されるレコード群及び分割条件が、前
    記空間的に集中している場所及びその集中場所を探すた
    めの条件になることを特徴とする空間データ分析方法。
  5. 【請求項5】 2次元以上の空間属性とこの説明属性を
    含むレコード群から、空間的に集中している場所とその
    集中場所を探すための条件とを併せて分析することをコ
    ンピュータに実行させるための空間データ分析プログラ
    ムであって、 前記レコード群を前記説明属性に応じた分割条件で仮想
    的に分割することによって、複数の仮想レコード群を生
    成するレコード仮想分割ステップと、 前記複数の仮想レコード群の空間的な分散度を求めるこ
    とによって、最も分散度の低い分割条件及び仮想レコー
    ド群を選択する判定ステップと、 前記選択した分割条件及び仮想レコード群の履歴を格納
    部へ格納させるステップと、 前記選択した仮想レコード群を一時記憶部へ一時記憶さ
    せるステップと、を備え、 前記レコード仮想分割ステップが前記一時記憶している
    仮想レコード群を再び仮想的に分割することによって、
    前記格納部に格納されるレコード群及び分割条件が、前
    記空間的に集中している場所及びその集中場所を探すた
    めの条件になることを特徴とする空間データ分析プログ
    ラム。
JP2002059735A 2002-03-06 2002-03-06 空間データ分析装置、空間データ分析方法、及び空間データ分析プログラム Pending JP2003256757A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2002059735A JP2003256757A (ja) 2002-03-06 2002-03-06 空間データ分析装置、空間データ分析方法、及び空間データ分析プログラム
US10/379,919 US7139770B2 (en) 2002-03-06 2003-03-06 Spatial data analysis apparatus and spatial data analysis method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002059735A JP2003256757A (ja) 2002-03-06 2002-03-06 空間データ分析装置、空間データ分析方法、及び空間データ分析プログラム

Publications (1)

Publication Number Publication Date
JP2003256757A true JP2003256757A (ja) 2003-09-12

Family

ID=28449043

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002059735A Pending JP2003256757A (ja) 2002-03-06 2002-03-06 空間データ分析装置、空間データ分析方法、及び空間データ分析プログラム

Country Status (2)

Country Link
US (1) US7139770B2 (ja)
JP (1) JP2003256757A (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020002039A1 (en) 1998-06-12 2002-01-03 Safi Qureshey Network-enabled audio device
US7840691B1 (en) 2000-09-07 2010-11-23 Zamora Radio, Llc Personal broadcast server system for providing a customized broadcast
US8028323B2 (en) 2004-05-05 2011-09-27 Dryden Enterprises, Llc Method and system for employing a first device to direct a networked audio device to obtain a media item
JP2006031442A (ja) * 2004-07-16 2006-02-02 Toshiba Corp 空間データ分析装置、空間データ分析方法及び空間データ分析プログラム
EP1794691A1 (en) * 2004-09-27 2007-06-13 Travelocity.com LP System, method and computer program product for searching amd retrieving ranked points of interest within a polygonal area of interest
US20060101072A1 (en) * 2004-10-21 2006-05-11 International Business Machines Corproation System and method for interpreting scan data
US9015147B2 (en) 2007-12-20 2015-04-21 Porto Technology, Llc System and method for generating dynamically filtered content results, including for audio and/or video channels
US8316015B2 (en) 2007-12-21 2012-11-20 Lemi Technology, Llc Tunersphere
US8117193B2 (en) 2007-12-21 2012-02-14 Lemi Technology, Llc Tunersphere
US8494899B2 (en) 2008-12-02 2013-07-23 Lemi Technology, Llc Dynamic talk radio program scheduling
US9304009B2 (en) * 2014-02-04 2016-04-05 Here Global B.V. Method and apparatus for providing passenger embarkation points for points of interests
US10078801B2 (en) * 2015-09-03 2018-09-18 Ali Abbas System, method and software for representing decision trees

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5394521A (en) * 1991-12-09 1995-02-28 Xerox Corporation User interface with multiple workspaces for sharing display system objects
US6732120B1 (en) * 1998-09-03 2004-05-04 Geojet Information Solutions Inc. System and method for processing and display of geographical data
US6408292B1 (en) * 1999-08-04 2002-06-18 Hyperroll, Israel, Ltd. Method of and system for managing multi-dimensional databases using modular-arithmetic based address data mapping processes on integer-encoded business dimensions
US6611751B2 (en) * 2001-03-23 2003-08-26 981455 Alberta Ltd. Method and apparatus for providing location based data services
US6606621B2 (en) * 2001-05-30 2003-08-12 Oracle International Corp. Methods and apparatus for aggregating sparse data

Also Published As

Publication number Publication date
US20030187875A1 (en) 2003-10-02
US7139770B2 (en) 2006-11-21

Similar Documents

Publication Publication Date Title
CN110245981B (zh) 一种基于手机信令数据的人群类型识别方法
EP3241370B1 (en) Analyzing semantic places and related data from a plurality of location data reports
CN106844781B (zh) 数据处理的方法及装置
CN106919957B (zh) 处理数据的方法及装置
CN100383812C (zh) 信息处理装置和方法
US20020184212A1 (en) Information use frequency prediction program, information use frequency prediction method, and information use frequency prediction apparatus
JP6888484B2 (ja) 検索プログラム、検索方法、及び、検索プログラムが動作する情報処理装置
US20040064450A1 (en) Method for preparing data to be analyzed, data analysis method, data analysis device, data preparation program, data analysis program, data prediction device, data prediction method, data prediction program and computer
JP2003256757A (ja) 空間データ分析装置、空間データ分析方法、及び空間データ分析プログラム
CN110084627A (zh) 预测目标变量的方法和装置
CN107918657A (zh) 一种数据源的匹配方法和装置
Zhao et al. Path $ k\hbox {NN} $ Query Processing in Mobile Systems
JP6943242B2 (ja) 分析装置、分析方法、およびプログラム
KR101182126B1 (ko) 단일 차원 군집 분석의 분산처리를 이용한 대용량 데이터의 군집 분석 시스템, 방법 및 이를 위한 기록 매체
CN112598405A (zh) 一种基于大数据的商业项目数据管理方法及***
CN111164622A (zh) 作业分析装置以及作业分析方法
JP4234841B2 (ja) データ分析装置
Xia et al. Predicting human mobility using sina weibo check-in data
CN113407835A (zh) 应用于大数据在线业务的用户画像处理方法及服务器
KR100478792B1 (ko) 2차원 젤 이미지를 이용한 유사 단백질 검색 장치 및 방법
JP2001312419A (ja) ソフトウェア重複度評価装置およびソフトウェア重複度評価プログラムを記録した記録媒体
CN113052642B (zh) 用于线下作业的方法及装置
KR20150110039A (ko) 연구 개발 프로젝트 관리 장치 및 방법
KR102361663B1 (ko) 인공지능을 이용한 사용자 참여형 인식 플랫폼에서 건물 용도 파악 방법 및 그 장치
CN116308190B (zh) 基于能源物联网服务***的工单全生命周期监控方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040601

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050414

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050606

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061121

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070424