JP2002024251A - 時系列データの分類方法及び装置並びに時系列データの分類プログラムを記録した記録媒体 - Google Patents

時系列データの分類方法及び装置並びに時系列データの分類プログラムを記録した記録媒体

Info

Publication number
JP2002024251A
JP2002024251A JP2000207208A JP2000207208A JP2002024251A JP 2002024251 A JP2002024251 A JP 2002024251A JP 2000207208 A JP2000207208 A JP 2000207208A JP 2000207208 A JP2000207208 A JP 2000207208A JP 2002024251 A JP2002024251 A JP 2002024251A
Authority
JP
Japan
Prior art keywords
cluster
data
clustering
nearest
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000207208A
Other languages
English (en)
Other versions
JP3650572B2 (ja
Inventor
Mariko Yoshida
万里子 吉田
Toshiko Shiobara
寿子 塩原
Masanori Ishiguro
正典 石黒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2000207208A priority Critical patent/JP3650572B2/ja
Publication of JP2002024251A publication Critical patent/JP2002024251A/ja
Application granted granted Critical
Publication of JP3650572B2 publication Critical patent/JP3650572B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【課題】本発明の課題は、時系列データのクラスタリン
グをサンプル数を考慮した高い精度で行え、かつ対象と
なるデータの時間間隔に応じて適切なクラスタリングが
行える時系列データの分類方法及び装置並びに時系列デ
ータの分類プログラムを記録した記録媒体を提供するこ
とにある。 【解決手段】本発明は、クラスタリングする時、クラス
タリング精度を各クラスタについて事象が生じる時間間
隔に応じて設定するようにし、また被クラスタリングデ
ータを既存のどのクラスタに含めるか、あるいは新しい
クラスタを起すかの判断をするときの判断尺度として、
クラスタ内に存在するデータ数を考慮するようにし、ま
たクラスタの中心値と被クラスタリングデータとの時間
間隔の差分や上記クラスタ内のデータ数を考慮した評価
値を上記クラスタリング精度との比較により行うように
するものである。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、時系列的に生じる
種々の要因を含むデータの分析に関するもので、分析の
ためにデータをクラスタリングするための時系列データ
の分類方法及びそれに用いる装置並びに時系列データの
分類プログラムを記録した記録媒体に関するものであ
る。
【0002】このような時系列データとしては、例えば
コンビニエンスストアや商店等における特定顧客がA商
品購入後一定期間内にB商品を購入する場合、医療分野
で、ある患者が病気Aを罹患後に、一定期間後に病気B
を罹患する場合等がある。それぞれ分野毎で事象の発生
する間隔が異なる他、同じ分野例えば商品購入の場合で
も短い間隔で発生する場合や、長い間隔で発生する場合
等、様々のケースがある。これらのデータを分析するこ
とによって、事前に次回商品購入案内のダイレクトメー
ルを発送する、病気の早期発見・予防のための検査を受
ける等が可能となり、その効果は大きい。
【0003】本発明は、このように時系列的に生じる種
々の要因を含むデータについて、時間間隔が短い場合か
ら長い場合まで幅広いデータについて、高い精度で適切
なクラスタリングが行え相関関係の解析に有効で、様々
の分野に広く応用できるデータ分析の方法を提供するも
のである。
【0004】
【従来の技術】時系列的に生じる種々の要因を含むデー
タについて、事象毎にデータを抽出し、クラスタリング
する手法は、例えば文献1(Mariko Yoshida,Tetsuya I
izuka,Hisako Shiohara:Mining Sequential Patterns
Including Time Intervals/Proceedings of SPIE Vol.4
057 p213〜p220,April 2000)に開示されている。
【0005】はじめに、従来の手法について説明する。
図7は、時系列データの一例でUserIDは個人を識別する
記号、Timeはある時点を基準とした時にその事象が生じ
た時刻、Itemは事象を識別する番号である。これを具体
例におきかえて説明すると、データ番号1は、Aさんが
4月19日に(基準点を4月1日とした場合)商品2を
購入した。データ番号7は、Bさんが4月20日に商品
4を購入したことを表わしている。このようなデータが
多数存在する。
【0006】図8は、図7のデータのうち特定の事象列
に着目した説明図で、具体例で説明すると、商品1を購
入してから、次に商品4を購入する場合について、デー
タをプロットしたもので、図7のデータ番号4、5に示
されるように、Aさんが商品1を購入した後、10日後
に(47−37=10)商品4を購入している。図8の
1→4欄のの10はこの事象を表現したもので、図8
において丸付き数字は図7のデータにおいて、1→4が
生じる順番を、その下の数字は事象がおきた時間間隔を
示し、事例を時間間隔の短い順にプロットしている。
【0007】図8においては、図7のデータ番号13
および15をプロットしたもので、Cさんが商品1を購
入してから8日後に(35−27=8)商品4を購入し
ていることによるデータである。
【0008】同様にして、このようなデータが多数プロ
ットされる。
【0009】図9は、図8に示したデータを従来の手法
を用いてクラスタリングする場合の説明図である。
【0010】図9は、事象がおきる時間間隔をクラスタ
リングする精度を表わすパラメータMaxDiameterを3と
した場合で、このMaxDiameterは、このデータの利用者
(ユーザ)が有意と思う時間間隔から設定される。
【0011】図8のデータ(10)を図9においてク
ラスタリングすると、最初のデータなので、クラスタの
区分を表わすCi は0とし、データ数は1、クラスタ区
分C i=0 の中心値は10、データ欄は10となる。
【0012】次に図8のデータ(8)をクラスタリン
グする場合は、 |8−10|≦3(MaxDiameter)(centeri=0 (C
i=0 の中心値)は10) であり、新しいデータ8とクラスタCi=0 の中心値10
との差の絶対値は、MaxDiameter=3より小さいので、
このデータはクラスタCi=0 にクラスタリングされる。
【0013】従って、クラスタCi=0は、データ数が1
→2となり、Ci=0 の中心値(Ccenteri=0 )は(10
+8)/2=9であるから10→9となる。
【0014】さらに図8のデータ(20)をクラスタ
リングする場合は、|20−9|≧3(MaxDiameter)
なので、これはクラスタCi=0 には含まれず新しいクラ
スタCi=1 となり、クラスタCi=1 の欄にデータ数
1、Ci=1 の中心値20、データ欄は20となる。
【0015】次に図8のデータ(18)も同様にクラ
スタリングされ、図9に例示するように区分される。こ
のような手法により多数のデータがクラスタリングされ
る。
【0016】従来の手法は、上記のような方法としてい
るため以下のような欠点があった。
【0017】 新しいデータをクラスタリングする
時、既存のCi の中心値と新しいデータの時間間隔dと
の距離がユーザが設定した閾値(MaxDiameter)より大
きいか小さいかだけで評価しており、クラスタ内のデー
タ数については、考慮されていなかったので、データ数
が多いクラスタと、データ数が少ないクラスタを同じよ
うに評価していた。
【0018】 どのような値の時間間隔データについ
ても、同じ閾値(MaxDiameter)で評価していたので、
例えば前記したコンビニや商店での商品購入間隔と、医
療分野での病気罹患の間隔とでは時間間隔が大きく異な
るので、閾値と対象データの関係が適切でない場合、す
なわち閾値に対し対象データの時間間隔が長い場合は近
視眼的な評価をすることになり、また反対の場合にはマ
クロ的な評価しかできないことになり、適切なクラスタ
リングが行えないという欠点があった。
【0019】
【発明が解決しようとする課題】本発明は上記の事情に
鑑みてなされたもので、データのクラスタリングをサン
プル数を考慮した高い精度で行え、かつ対象となるデー
タの時間間隔に応じて適切なクラスタリングが行え、相
関関係の解析に有効なクラスタリングが行える時系列デ
ータの分類方法及び装置並びに時系列データの分類プロ
グラムを記録した記録媒体を提供することを目的とす
る。
【0020】
【課題を解決するための手段】上記目的を達成するため
に本発明は、時系列的に生じる複数のデータをクラスタ
リングする時系列データの分類方法において、クラスタ
リング条件を利用者の指定に基づき設定するクラスタリ
ング条件設定ステップと、被クラスタリングデータをど
のクラスタに含めるか最も近いクラスタを探すクラスタ
検索ステップと、被クラスタリングデータについてクラ
スタリングのための評価尺度を計算する計算ステップ
と、前記計算ステップの結果と前記クラスタリング条件
設定ステップの条件に基づきクラスタ分けを決定する判
定ステップとから構成されることを特徴とする。
【0021】また本発明は、前記時系列データの分類方
法のクラスタ検索ステップにおいて、被クラスタリング
データについて、各クラスタの中心値と入力データの距
離を各クラスタの中心値で正規化した値を各クラスタに
ついて求め、その値が最小となるクラスタを最も近いク
ラスタCnearestとして抽出するようにしたこと
を特徴とする。
【0022】また本発明は、前記時系列データの分類方
法のクラスタリング条件設定ステップにおいて、各クラ
スタのクラスタリングの精度を表わすパラメータMaxDia
meterを、クラスタ検索ステップで得られたクラスタC
nearestの中心値centernearestを含む関
数とするようにしたことを特徴とする。
【0023】また本発明は、前記時系列データの分類方
法の計算ステップにおいて、クラスタリングのための各
クラスタの評価値Diameterを新しく挿入する被クラスタ
リングデータを含めたそのクラスタ内の各データd
i (i=1〜N,j=1〜N)とそのクラスタ内の全デ
ータ数Nとの関係を
【0024】
【数4】
【0025】としたことを特徴とする。これは、クラス
タ内のデータの各ペアの距離の2乗和を組合せの数で割
ったもので、文献2(Tian Zhang,Raghu,Ramakrishnan,
MironLivny/BIRCH: An Efficient Data Clustering Met
hod for Very Large Databases/ Proceedings of the 1
996 ACM SIGMOD international conference on Mana
gement of data June 3-6,1996,Montreal Canada
p.103〜114)等に記載されている。
【0026】また本発明は、前記時系列データの分類方
法の判定ステップにおいて、クラスタCnearest
の中心値centernearestとパラメータMaxDiamete
rと評価値Diameterとの関係が、Diameter(C
nearest)≦MaxDiameter(center
nearest)であるとき、被クラスタリングデータ
dをクラスタCne arestに含め、上記関係が成立
しないとき、dを新しいクラスタに含めるようにしたこ
とを特徴とする。
【0027】また本発明は、時系列的に生じる複数のデ
ータをクラスタリングする時系列データの分類装置にお
いて、クラスタリング条件を利用者の指定に基づき設定
するクラスタリング条件設定手段と、被クラスタリング
データをどのクラスタに含めるか最も近いクラスタを探
すクラスタ検索手段と、被クラスタリングデータについ
てクラスタリングのための評価尺度を計算する計算手段
と、前記計算手段の結果と前記クラスタリング条件設定
手段の条件に基づきクラスタ分けを決定する判定手段と
から構成されることを特徴とするものである。
【0028】また本発明は、前記時系列データの分類装
置のクラスタ検索手段において、被クラスタリングデー
タについて、各クラスタの中心値と入力データの距離を
各クラスタの中心値で正規化した値を各クラスタについ
て求め、その値が最小となるクラスタを最も近いクラス
タCnearestとして抽出するようにしたことを特
徴とするものである。
【0029】また本発明は、前記時系列データの分類装
置のクラスタリング条件設定手段において、各クラスタ
のクラスタリングの精度を表わすパラメータMaxDiamete
rを、クラスタ検索手段で得られたクラスタC
nearestの中心値centernea restを含む関
数とするようにしたことを特徴とするものである。
【0030】また本発明は、前記時系列データの分類装
置の計算手段において、クラスタリングのための各クラ
スタの評価値Diameterを新しく挿入する被クラスタリン
グデータを含めたそのクラスタ内の各データdi (i=
1〜N,j=1〜N)とそのクラスタ内の全データ数N
との関係を
【0031】
【数5】
【0032】としたことを特徴とするものである。
【0033】また本発明は、前記時系列データの分類装
置の判定手段において、クラスタC nearestの中
心値centernearestとパラメータMaxDiameterと
評価値Diameterとの関係が、Diameter(C
nearest)≦MaxDiameter(center
nearest)であるとき、被クラスタリングデータ
dをクラスタCnear estに含め、上記関係が成立
しないとき、dを新しいクラスタに含めるようにしたこ
とを特徴とするものである。
【0034】また本発明は、時系列的に生じる複数のデ
ータをクラスタリングする時系列データの分類プログラ
ムを記録した記録媒体において、クラスタリング条件を
利用者の指定に基づき設定するクラスタリング条件設定
手順、被クラスタリングデータをどのクラスタに含める
か最も近いクラスタを探すクラスタ検索手順、被クラス
タリングデータについてクラスタリングのための評価尺
度を計算する計算手順、前記計算手順の結果と前記クラ
スタリング条件設定手順の条件に基づきクラスタ分けを
決定する判定手順をコンピュータに実行させるためのも
のである。
【0035】また本発明は、前記記録媒体に記録された
時系列データの分類プログラムのクラスタ検索手順にお
いて、被クラスタリングデータについて、各クラスタの
中心値と入力データの距離を各クラスタの中心値で正規
化した値を各クラスタについて求め、その値が最小とな
るクラスタを最も近いクラスタCnearestとして
抽出するようにしたことを特徴とするものである。
【0036】また本発明は、前記記録媒体に記録された
時系列データの分類プログラムのクラスタリング条件設
定手順において、各クラスタのクラスタリングの精度を
表わすパラメータMaxDiameterを、クラスタ検索手順で
得られたクラスタCnear estの中心値center
nearestを含む関数とするようにしたことを特徴
とするものである。
【0037】また本発明は、前記記録媒体に記録された
時系列データの分類プログラムの計算手順において、ク
ラスタリングのための各クラスタの評価値Diameterを新
しく挿入する被クラスタリングデータを含めたそのクラ
スタ内の各データdi (i=1〜N,j=1〜N)とそ
のクラスタ内の全データ数Nとの関係を
【0038】
【数6】
【0039】としたことを特徴とするものである。
【0040】また本発明は、前記記録媒体に記録された
時系列データの分類プログラムの判定手順において、ク
ラスタCnearestの中心値centernearest
とパラメータMaxDiameterと評価値Diameterとの関係
が、Diameter(Cneares )≦MaxDiameter(cen
ternearest)であるとき、被クラスタリングデ
ータdをクラスタCnearestに含め、上記関係が
成立しないとき、dを新しいクラスタに含めるようにし
たことを特徴とするものである。
【0041】本発明は、クラスタリングする時、クラス
タリング精度を各クラスタについて事象が生じる時間間
隔に応じて設定するようにし、また被クラスタリングデ
ータを既存のどのクラスタに含めるか、あるいは新しい
クラスタを起すかの判断をするときの判断尺度として、
クラスタ内に存在するデータ数を考慮するようにし、ま
たクラスタの中心値と被クラスタリングデータとの時間
間隔の差分や上記クラスタ内のデータ数を考慮した評価
値を上記クラスタリング精度との比較により行うように
するものである。
【0042】
【発明の実施の形態】以下図面を参照して本発明の実施
形態例を詳細に説明する。
【0043】本発明を実現するための構成手段の実施形
態例を図1に示す。
【0044】図1において、1は時系列データを蓄積
し、後述するクラスタリング処理を行うための前処理を
行うための情報蓄積・処理部、11は、時系列の生デー
タを蓄積する情報蓄積部、12は図7に例示したように
情報蓄積部11のデータをクラスタリングの前処理とし
てデータを整理する情報変換部、13は図8に例示した
ように事象Aの次に事象Bが生じたデータを抽出する等
クラスタリングの前処理を行う候補パターン生成部であ
る。
【0045】2は候補パターン生成部13のデータをク
ラスタリング処理するクラスタリング処理部で、21は
クラスタリングする条件を設定するためのパラメータMa
xDiameter設定部、22はMaxDiameter設定部21の条件
の下に後述するクラスタリング処理を行うクラスタリン
グ制御部、23はクラスタリング制御部22での処理過
程ならびに処理結果を蓄積するクラスタリングデータ部
である。
【0046】3はユーザとのインタフェースをとる入出
力部で、31はクラスタリング処理部2でのクラスタリ
ングの条件を指定するための条件設定部、32はクラス
タリングデータ部23の内容を表示する表示部である。
【0047】このように構成された本発明の動作を以下
に説明する。
【0048】図9に示した従来のクラスタリング手法に
対して、本発明は図2ならびに図3に示すように処理す
るものである。(図2および後述する図3の処理は、考
え方を説明するためのもので、このような考え方の処理
を実行するプログラムを含んでいる)図2、図3の処理
を行うときの条件設定として、ユーザは条件指定部31
において、MaxDiameter設定部21に対して、例えば
【0049】
【数7】
【0050】のように条件設定を行う。
【0051】ここで、centernearestは、クラス
タリングされるデータ(被クラスタリングデータ)dを
クラスタリングするのに最も適しているクラスタ(C
nea rest)の中心値であり、例えば図9のクラス
タCi=1では19に相当する。Cnearestについ
ては後述する。
【0052】各クラスタの中心値Ccenter が、例えば
図4左欄のような場合、MaxDiameterは、それぞれ同右
欄のようになる。
【0053】これは、事象が起きる時間間隔に応じてMa
xDiameterを変化させることにより、時間間隔が比較的
長いデータに対しては、小さなMaxDiameterで処理する
と近視眼的尺度でクラスタリングする、もしくは無用な
精度でクラスタリングすることになり、これをさけるた
めである。また時間間隔が短いデータの場合も同様に、
それに見合った精度でクラスタリングできるようにする
もので、従来はMaxDiameterが固定であることによる欠
点を改善するものである。
【0054】なおMaxDiameterとcenternearest
の関係は、上記式(1)に限定されることはなく、分析
対象データに応じて経験則やユーザの都合に応じて設定
すればよい。
【0055】次に、個々の被クラスタリングデータdi
(i=0〜n)についてクラスタリングを行う手法につ
いて、図2ならびに図1により説明する。
【0056】入力される被クラスタリングデータdi
ついて、クラスタリング制御部22は、クラスタリング
データ部23から、di と最も近いクラスタC
neares を探し、ユーザが設定したMaxDiameter
に基づいて、以下の論理によりdi をCnearest
に挿入するか、新しいクラスタをつくるかを決定する。
【0057】つまり、 Diameter(Cnearest)≦ MaxDiameter(centernearest) 式(2) であれば、di をCnearestに挿入し、式(2)
が成立しなければ新しいクラスタを作成する。
【0058】ここでDiameter(Ci )は、クラスタリン
グする時の精度を表わす他のパラメータで、次式で表わ
される。
【0059】
【数8】
【0060】Diameter(Ci )は、新しく挿入するデー
タdi を含むクラスタのクラスタ内距離であり、詳細に
ついては後述する。
【0061】このようにして、個々のデータのクラスタ
リングを行う。
【0062】ここで、上記において被クラスタリングデ
ータdjと最も近いクラスタCne arestを選択す
る手順を図3に示す。
【0063】Cnearestを決定するための評価値
としてDj を設定する。
【0064】 Dj =|Cjcenter −dj |/Cjcenter 式(4) を各クラスタについて計算し、Dj が最小となるクラス
タCjをCneares として選択する。ここで、式
(4)は各クラスタの中心値Cjcenter とdj との距離
をCjcenter で正規化することを意味し、距離として差
分絶対値ではなく、差分自乗値の平方根を用いてもよ
い。
【0065】また上記説明において、クラスタリング時
の精度を表わす他のパラメータDiameter(Ci )の意義
について図5を例にとり説明する。
【0066】時間間隔d=7.0というデータをクラス
タリングする場合、これに最も近いクラスタに含まれる
既存のデータがcase1の場合とcase2の場合を想定す
る。
【0067】データの数はcase1では10個、case2で
は3個、クラスタの中心はcase1,2ともに10.0、
新しいデータd=7.0に対するクラスタ中心との距離
は、case1,2ともに3である。
【0068】従って、従来の手法でMaxDiameter=3と
すると、|7.0−10.0|≦MaxDiameter=3であ
るから、dはcase1,2ともこのクラスタに含まれる。
またMaxDiameter=4とすると、case1,2とも、この
クラスタには含まれず、新しいクラスタを生成すること
になる。
【0069】これに対し、本発明による手法によれば、
式(3)からcase2(図5(b))の場合は、
【0070】
【数9】
【0071】case1(図5(a))の場合については、
同様にしてDiameter=2.21となる。MaxDiameterを
例えば3とするとcase1ではこのクラスタに含まれる
が、case2では、このクラスタに含まれず新しいクラス
タを生成することになり、従来の手法と結果が異なって
くる。
【0072】すなわち、本発明ではそのクラスタに含ま
れるデータの数を考慮して、クラスタリングを行うの
で、より精度の高いクラスタリングが行えることを示し
ている。
【0073】本発明では、時系列データのクラスタリン
グにおいて、クラスタリングの精度を表わすMaxDiamete
rを固定ではなく、被クラスタリングデータdをクラス
タリングするのに最も適したクラスタ(C
nearest)の中心値centernear estの関数
とし、ユーザが設定できるようにした。
【0074】またCnearestを探すとき、dとC
nearestの中心との距離を、クラスタ中心値cent
ernearestで基準化した値Dを評価値とし、この
Dが最小になるクラスタをCnearestとするよう
にした。
【0075】また、データdをクラスタリングする際、
クラスタCnearestを探しユーザが設定したMaxD
iameterに基づいて、dをCnearestに入れる
か、新しいクラスタを作るかの決定をDiameter(C
nearest)≦ MaxDiameter(center
nearest)であれば、dをCnearestに挿
入し、そうでなければ新しいクラスタを作成する。ここ
でDiameterは、新しく挿入するデータを含めたクラスタ
内距離とし、クラスタ内のデータ数が反映されるように
した。
【0076】このように構成した本発明の効果を図6に
より説明する。
【0077】図6は、図8の説明図と同様に事象Aの後
にBが生じたデータを時間間隔の長さを横軸としてプロ
ットしたもので、横軸に対応した数字は、基準時からデ
ータが生じるまでの時間間隔の例で、図6では時間間隔
の短いもの(例えば、3日前後から)長いもの(例え
ば、360日前後)のデータがある場合を示している。
(説明の都合上、データの部分的な集合を図6(a)に
示すようにそれぞれイ〜ニ部とする) 図6(a)および(b)は、従来の手法でクラスタリン
グした場合で、(a)はMaxDiameter=5、(b)はMax
Diameter=30で、それぞれ横長の楕円で囲んだ範囲が
注目するクラスタとして抽出された場合を示している。
【0078】図6(a)の場合では、データの部分的な
集合としてイ部が抽出される他、事象Aの1〜5日後に
事象Bが出現する例えばロ部のような集合も抽出されて
しまう。反面ハ部、ニ部にも、データの部分集合がある
が、これらは抽出されない。
【0079】また図6(b)の場合では、イ部とロ部が
一緒になって抽出されてしまう。
【0080】これに対し、本発明では図6(C)部に示
すように、イ部、ハ部、ニ部が抽出され、同図の楕円の
大きさが示すようにデータの時間間隔に見合った適切な
精度でクラスタリングすることができる。
【0081】すなわち、短い時間間隔で事象が生じる場
合は、短い間隔の高い精度でクラスタリングし、長い時
間間隔で事象が生じる場合は、その時間間隔に見合った
適切な精度でクラスタリングし、近視眼的なクラスタリ
ングによる見落しがないようにすることができる。
【0082】また、図5で説明したように、クラスタリ
ングにおいて、クラスタ内のデータ数も考慮してクラス
タリングできるようにしたので、より精度の高いクラス
タリングが可能となった。
【0083】尚、本発明における時系列データの分類方
法は、具体的にはパーソナルコンピュータ(PC)等の
コンピュータにより、予め所定のコンピュータ読み取り
可能な記録媒体に記録された時系列データの分類プログ
ラムに基づいて実行される。
【0084】すなわち、時系列的に生じる複数のデータ
をクラスタリングする時系列データの分類プログラムを
記録した記録媒体において、クラスタリング条件を利用
者の指定に基づき設定するクラスタリング条件設定手
順、被クラスタリングデータをどのクラスタに含めるか
最も近いクラスタを探すクラスタ検索手順、被クラスタ
リングデータについてクラスタリングのための評価尺度
を計算する計算手順、前記計算手順の結果と前記クラス
タリング条件設定手順の条件に基づきクラスタ分けを決
定する判定手順をコンピュータに実行させる。
【0085】また、前記クラスタ検索手順において、被
クラスタリングデータについて、各クラスタの中心値と
入力データの距離を各クラスタの中心値で正規化した値
を各クラスタについて求め、その値が最小となるクラス
タを最も近いクラスタCne arestとして抽出する
ようにしたことを特徴とする。
【0086】また、前記クラスタリング条件設定手順に
おいて、各クラスタのクラスタリングの精度を表わすパ
ラメータMaxDiameterを、クラスタ検索手順で得られた
クラスタCnearestの中心値center
nearestを含む関数とするようにしたことを特徴
とする。
【0087】また、前記計算手順において、クラスタリ
ングのための各クラスタの評価値Diameterを新しく挿入
する被クラスタリングデータを含めたそのクラスタ内の
各データdi (i=1〜N,j=1〜N)とそのクラス
タ内の全データ数Nとの関係を
【0088】
【数10】
【0089】としたことを特徴とする。
【0090】また、前記判定手順において、クラスタC
nearestの中心値centerne arestとパラメ
ータMaxDiameterと評価値Diameterとの関係が、Diamete
r(Cnearest)≦MaxDiameter(center
nearest)であるとき、被クラスタリングデータ
dをクラスタCnearestに含め、上記関係が成立
しないとき、dを新しいクラスタに含めるようにしたこ
とを特徴とする。
【0091】
【発明の効果】以上述べたように本発明によれば、時系
列データを時間間隔が短い場合から長い場合まで、適切
にかつ高い精度でクラスタリングすることができるの
で、広い範囲の分野のデータに対して適用することがで
きる。これによりデータの分析・相関関係の解析を適切
に行うことができる。
【図面の簡単な説明】
【図1】本発明の実施形態例を示す構成説明図である。
【図2】本発明の実施形態例に係るクラスタリング処理
の一例を示すフローチャートである。
【図3】本発明の実施形態例に係るクラスタリング処理
の部分例を示すフローチャートである。
【図4】本発明の実施形態例に係るMaxDiameterの設定
例を示す説明図である。
【図5】本発明の実施形態例に係るDiameterの一例を示
す説明図である。
【図6】本発明の実施形態例に係る効果を示す説明図で
ある。
【図7】従来の時系列データのサンプル例を示す説明図
である。
【図8】従来の特定の事象例を示す説明図である。
【図9】従来の手法によるクラスタリングの例を示す説
明図である。
【符号の説明】
1 情報蓄積・処理部 2 クラスタリング処理部 3 入出力部 11 情報蓄積部 12 情報変換部 13 候補パターン生成部 21 MaxDiameter設定部 22 クラスタリング制御部 23 クラスタリングデータ部 31 条件指定部 32 表示部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 石黒 正典 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 Fターム(参考) 5B049 AA06 GG00 GG09 5B075 NR12 QM05

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 時系列的に生じる複数のデータをクラス
    タリングする時系列データの分類方法において、クラス
    タリング条件を利用者の指定に基づき設定するクラスタ
    リング条件設定ステップと、被クラスタリングデータを
    どのクラスタに含めるか最も近いクラスタを探すクラス
    タ検索ステップと、被クラスタリングデータについてク
    ラスタリングのための評価尺度を計算する計算ステップ
    と、前記計算ステップの結果と前記クラスタリング条件
    設定ステップの条件に基づきクラスタ分けを決定する判
    定ステップとから構成されることを特徴とする時系列デ
    ータの分類方法。
  2. 【請求項2】 クラスタ検索ステップにおいて、被クラ
    スタリングデータについて、各クラスタの中心値と入力
    データの距離を各クラスタの中心値で正規化した値を各
    クラスタについて求め、その値が最小となるクラスタを
    最も近いクラスタCnearestとして抽出するよう
    にしたことを特徴とする請求項1記載の時系列データの
    分類方法。
  3. 【請求項3】 クラスタリング条件設定ステップにおい
    て、各クラスタのクラスタリングの精度を表わすパラメ
    ータMaxDiameterを、クラスタ検索ステップで得られた
    クラスタCnearestの中心値center
    nearestを含む関数とするようにしたことを特徴
    とする請求項2記載の時系列データの分類方法。
  4. 【請求項4】 計算ステップにおいて、クラスタリング
    のための各クラスタの評価値Diameterを新しく挿入する
    被クラスタリングデータを含めたそのクラスタ内の各デ
    ータdi (i=1〜N,j=1〜N)とそのクラスタ内
    の全データ数Nとの関係を 【数1】 としたことを特徴とする請求項3記載の時系列データの
    分類方法。
  5. 【請求項5】 判定ステップにおいて、クラスタC
    nearestの中心値centernearestとパラメ
    ータMaxDiameterと評価値Diameterとの関係が、Diamete
    r(Cnearest)≦MaxDiameter(center
    nearest)であるとき、被クラスタリングデータ
    dをクラスタCnearestに含め、上記関係が成立
    しないとき、dを新しいクラスタに含めるようにしたこ
    とを特徴とする請求項4記載の時系列データの分類方
    法。
  6. 【請求項6】 時系列的に生じる複数のデータをクラス
    タリングする時系列データの分類装置において、クラス
    タリング条件を利用者の指定に基づき設定するクラスタ
    リング条件設定手段と、被クラスタリングデータをどの
    クラスタに含めるか最も近いクラスタを探すクラスタ検
    索手段と、被クラスタリングデータについてクラスタリ
    ングのための評価尺度を計算する計算手段と、前記計算
    手段の結果と前記クラスタリング条件設定手段の条件に
    基づきクラスタ分けを決定する判定手段とから構成され
    ることを特徴とする時系列データの分類装置。
  7. 【請求項7】 クラスタ検索手段において、被クラスタ
    リングデータについて、各クラスタの中心値と入力デー
    タの距離を各クラスタの中心値で正規化した値を各クラ
    スタについて求め、その値が最小となるクラスタを最も
    近いクラスタCnearestとして抽出するようにし
    たことを特徴とする請求項6記載の時系列データの分類
    装置。
  8. 【請求項8】 クラスタリング条件設定手段において、
    各クラスタのクラスタリングの精度を表わすパラメータ
    MaxDiameterを、クラスタ検索手段で得られたクラスタ
    nearestの中心値centernearestを含む
    関数とするようにしたことを特徴とする請求項7記載の
    時系列データの分類装置。
  9. 【請求項9】 計算手段において、クラスタリングのた
    めの各クラスタの評価値Diameterを新しく挿入する被ク
    ラスタリングデータを含めたそのクラスタ内の各データ
    i (i=1〜N,j=1〜N)とそのクラスタ内の全
    データ数Nとの関係を 【数2】 としたことを特徴とする請求項8記載の時系列データの
    分類装置。
  10. 【請求項10】 判定手段において、クラスタC
    nearestの中心値centernearestとパラメ
    ータMaxDiameterと評価値Diameterとの関係が、Diamete
    r(Cnearest)≦MaxDiameter(center
    nearest)であるとき、被クラスタリングデータ
    dをクラスタCnearestに含め、上記関係が成立
    しないとき、dを新しいクラスタに含めるようにしたこ
    とを特徴とする請求項9記載の時系列データの分類装
    置。
  11. 【請求項11】 時系列的に生じる複数のデータをクラ
    スタリングする時系列データの分類プログラムを記録し
    た記録媒体において、クラスタリング条件を利用者の指
    定に基づき設定するクラスタリング条件設定手順、被ク
    ラスタリングデータをどのクラスタに含めるか最も近い
    クラスタを探すクラスタ検索手順、被クラスタリングデ
    ータについてクラスタリングのための評価尺度を計算す
    る計算手順、前記計算手順の結果と前記クラスタリング
    条件設定手順の条件に基づきクラスタ分けを決定する判
    定手順をコンピュータに実行させるための時系列データ
    の分類プログラムを記録した記録媒体。
  12. 【請求項12】 クラスタ検索手順において、被クラス
    タリングデータについて、各クラスタの中心値と入力デ
    ータの距離を各クラスタの中心値で正規化した値を各ク
    ラスタについて求め、その値が最小となるクラスタを最
    も近いクラスタCnearestとして抽出するように
    したことを特徴とする請求項11記載の時系列データの
    分類プログラムを記録した記録媒体。
  13. 【請求項13】 クラスタリング条件設定手順におい
    て、各クラスタのクラスタリングの精度を表わすパラメ
    ータMaxDiameterを、クラスタ検索手順で得られたクラ
    スタCnearestの中心値centernearest
    含む関数とするようにしたことを特徴とする請求項12
    記載の時系列データの分類プログラムを記録した記録媒
    体。
  14. 【請求項14】 計算手順において、クラスタリングの
    ための各クラスタの評価値Diameterを新しく挿入する被
    クラスタリングデータを含めたそのクラスタ内の各デー
    タdi (i=1〜N,j=1〜N)とそのクラスタ内の
    全データ数Nとの関係を 【数3】 としたことを特徴とする請求項13記載の時系列データ
    の分類プログラムを記録した記録媒体。
  15. 【請求項15】 判定手順において、クラスタC
    nearestの中心値centernearestとパラメ
    ータMaxDiameterと評価値Diameterとの関係が、Diamete
    r(Cnearest)≦MaxDiameter(center
    nearest)であるとき、被クラスタリングデータ
    dをクラスタCnearestに含め、上記関係が成立
    しないとき、dを新しいクラスタに含めるようにしたこ
    とを特徴とする請求項14記載の時系列データの分類プ
    ログラムを記録した記録媒体。
JP2000207208A 2000-07-07 2000-07-07 時系列データの分類装置 Expired - Fee Related JP3650572B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000207208A JP3650572B2 (ja) 2000-07-07 2000-07-07 時系列データの分類装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000207208A JP3650572B2 (ja) 2000-07-07 2000-07-07 時系列データの分類装置

Publications (2)

Publication Number Publication Date
JP2002024251A true JP2002024251A (ja) 2002-01-25
JP3650572B2 JP3650572B2 (ja) 2005-05-18

Family

ID=18704008

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000207208A Expired - Fee Related JP3650572B2 (ja) 2000-07-07 2000-07-07 時系列データの分類装置

Country Status (1)

Country Link
JP (1) JP3650572B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007519993A (ja) * 2003-12-31 2007-07-19 ノキア コーポレイション 周期的事象のためのクラスタリング技術
JP2009009302A (ja) * 2007-06-27 2009-01-15 Hitachi Ltd ストリームデータ処理方法およびストリームデータ処理システム
JP2009009304A (ja) * 2007-06-27 2009-01-15 Hitachi Ltd ストリームデータの処理方法およびストリームデータ処理システム
US7516368B2 (en) 2004-06-21 2009-04-07 Fujitsu Limited Apparatus, method, and computer product for pattern detection
WO2012117966A1 (ja) * 2011-02-28 2012-09-07 日本電気株式会社 データ判別装置、方法及びプログラム
JP2019105883A (ja) * 2017-12-08 2019-06-27 富士通株式会社 判別プログラム、判別方法および判別装置
CN110036402A (zh) * 2016-12-02 2019-07-19 真实眼私人有限公司 用于媒体内容表现的预测的数据处理方法
CN111461171A (zh) * 2020-03-04 2020-07-28 中南大学 一种用于构建高炉铁水硅含量预测模型的数据优选方法及***
US11423298B2 (en) * 2017-12-08 2022-08-23 Fujitsu Limited Computer-readable recording medium, determination method, and determination apparatus

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09325890A (ja) * 1996-06-04 1997-12-16 Toshiba Corp パターン発見方法およびパターン発見装置
JPH10240716A (ja) * 1997-02-21 1998-09-11 Nec Corp 時系列データ解析装置及びプログラムを記録した機械読み取り可能な記録媒体
JPH11250094A (ja) * 1998-03-04 1999-09-17 Nippon Telegr & Teleph Corp <Ntt> 2相データクラスタ方法および装置と2相データクラスタプログラムを記録した記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09325890A (ja) * 1996-06-04 1997-12-16 Toshiba Corp パターン発見方法およびパターン発見装置
JPH10240716A (ja) * 1997-02-21 1998-09-11 Nec Corp 時系列データ解析装置及びプログラムを記録した機械読み取り可能な記録媒体
JPH11250094A (ja) * 1998-03-04 1999-09-17 Nippon Telegr & Teleph Corp <Ntt> 2相データクラスタ方法および装置と2相データクラスタプログラムを記録した記録媒体

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007519993A (ja) * 2003-12-31 2007-07-19 ノキア コーポレイション 周期的事象のためのクラスタリング技術
US7516368B2 (en) 2004-06-21 2009-04-07 Fujitsu Limited Apparatus, method, and computer product for pattern detection
JP2009009302A (ja) * 2007-06-27 2009-01-15 Hitachi Ltd ストリームデータ処理方法およびストリームデータ処理システム
JP2009009304A (ja) * 2007-06-27 2009-01-15 Hitachi Ltd ストリームデータの処理方法およびストリームデータ処理システム
WO2012117966A1 (ja) * 2011-02-28 2012-09-07 日本電気株式会社 データ判別装置、方法及びプログラム
CN110036402A (zh) * 2016-12-02 2019-07-19 真实眼私人有限公司 用于媒体内容表现的预测的数据处理方法
JP2019105883A (ja) * 2017-12-08 2019-06-27 富士通株式会社 判別プログラム、判別方法および判別装置
US11423298B2 (en) * 2017-12-08 2022-08-23 Fujitsu Limited Computer-readable recording medium, determination method, and determination apparatus
CN111461171A (zh) * 2020-03-04 2020-07-28 中南大学 一种用于构建高炉铁水硅含量预测模型的数据优选方法及***

Also Published As

Publication number Publication date
JP3650572B2 (ja) 2005-05-18

Similar Documents

Publication Publication Date Title
US7346600B2 (en) Data analyzer
Ravikumar et al. Machine learning approach for automated visual inspection of machine components
US6191792B1 (en) Scheme for automatic data conversion definition generation according to data feature in visual multidimensional data analysis tool
US20040205461A1 (en) System and method for hierarchical segmentation with latent semantic indexing in scale space
EP0802489A2 (en) Multimedia database retrieval system
JPWO2010053160A1 (ja) コンテンツ検索装置およびコンテンツ検索プログラム
JP3204154B2 (ja) 時系列データ解析装置
US7836059B2 (en) System and method for minimally predictive feature identification
JP2002024251A (ja) 時系列データの分類方法及び装置並びに時系列データの分類プログラムを記録した記録媒体
JPH11167581A (ja) 情報分類方法、装置及びシステム
TWI556128B (zh) Forensic system, forensic method and evidence collection program
KR102560276B1 (ko) 이미지 검색 기반 감성 색채 배색 추천 장치 및 방법
JP2010092432A (ja) データ類似度計算システム、データ類似度計算方法およびデータ類似度計算プログラム
WO2008062822A1 (fr) Dispositif d&#39;exploration de texte, procédé d&#39;exploration de texte et programme d&#39;exploration de texte
CN117057942B (zh) 一种智能财务决策大数据分析***
Díaz et al. A comparative approach between different computer vision tools, including commercial and open-source, for improving cultural image access and analysis
CN108647629A (zh) 一种图像识别定位方法、视频中图像轨迹识别方法和装置
Kuo et al. Study on mask R-CNN with data augmentation for retail product detection
JP2007249600A (ja) 目的データをカテゴリに分類する方法
JPH11110409A (ja) 情報分類方法及び装置
KR20210100389A (ko) 유사 특허 검색 방법
JP4234841B2 (ja) データ分析装置
CN115983468A (zh) 一种基于大数据的信息预测分析方法及***
JP3929418B2 (ja) 情報探索プログラム及び情報探索プログラムを記録した媒体
JPH08287086A (ja) 適合度順画像強調表示方法及び装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040727

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050218

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080225

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090225

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090225

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100225

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110225

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110225

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120225

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130225

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees