JP2009003534A - 時系列データ分類装置、時系列データ分類方法および時系列データ処理装置 - Google Patents

時系列データ分類装置、時系列データ分類方法および時系列データ処理装置 Download PDF

Info

Publication number
JP2009003534A
JP2009003534A JP2007161399A JP2007161399A JP2009003534A JP 2009003534 A JP2009003534 A JP 2009003534A JP 2007161399 A JP2007161399 A JP 2007161399A JP 2007161399 A JP2007161399 A JP 2007161399A JP 2009003534 A JP2009003534 A JP 2009003534A
Authority
JP
Japan
Prior art keywords
time
series data
peak
peak feature
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007161399A
Other languages
English (en)
Other versions
JP4686505B2 (ja
Inventor
Ken Ueno
野 研 植
Ryohei Orihara
原 良 平 折
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007161399A priority Critical patent/JP4686505B2/ja
Priority to US12/142,070 priority patent/US20080319951A1/en
Publication of JP2009003534A publication Critical patent/JP2009003534A/ja
Application granted granted Critical
Publication of JP4686505B2 publication Critical patent/JP4686505B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】時系列データを高精度に分類する。
【解決手段】本発明の方法は、観測対象から観測された観測値を時系列に記録した時系列データと、前記観測対象の状態または種別を表す分類ラベルとを含む事例を複数格納した第1のデータベースを用意し、各前記時系列データを時間軸および前記観測値を表す軸により構成される座標系に展開し、展開された時系列データに交差する基準線を時間軸に沿って設定し、前記展開された時系列データと前記基準線との交点を検出し、隣接する交点により形成される各区間から前記展開された時系列データのピーク点を検出して、検出したピーク点の集合を含むピーク特徴列を生成し、生成した各前記ピーク特徴列を、各前記ピーク特徴列を生成するもととなった時系列データの分類ラベルと関連づけて第2のデータベースに格納し、分類ラベルを予測するべき時系列データを入力し、入力された時系列データに付与すべき分類ラベルを前記第2のデータベースに基づき予測する。
【選択図】図1

Description

本発明は、時系列データを分類する時系列データ分類装置および時系列データ分類方法ならびに時系列データを処理する時系列データ処理装置に関する。
センサから得られる時系列データは膨大かつ冗長であり、判定結果が既知の時系列データを用いて学習訓練する高精度なデータマイニング技術を適用しても高精度に分類することは困難であることが知られている。この問題を回避するには、個々の問題に特化した特徴抽出が必要であると言われている。しかしながら、時系列波形の特徴があらかじめ明確に定まっていない場合に、既存の特徴抽出方法では不適切で分類精度が下がってしまう場合がある。また、従来からよく使われる、固定窓幅の波形分割を使った特徴計算は、窓幅が小さすぎる場合には任意の位相の組み合わせが発生し、元の波形の特徴が保存できない問題が知られている(非特許文献3)。固定窓幅を離散化して、窓幅単位で時系列データに記号ラベルを与えることで記号列に変換する方法もあるが、振幅変化が激しい場合は記号化が分類判別にとって適切でない可能性もある。
特開平7-141384号公報 特開2007-49509号公報 特開2006-338373号公報 [植野05]植野 研、古川 康一:ピークタイミングシナジーによる動作スキル理解--シーケンシャルパターンマイニングによるアプローチ、pp.237-246、人工知能学会論文誌、2005. [ueno 06] Ken Ueno、 Xiaopeng Xi、 Eamonn Keogh、 Dah-Jye Lee: "Anytime Classification Using the Nearest Neighbor Algorithm with Applications to Stream Mining"、 pp.623-632、 In Proc. of the Sixth International Conference on Data Mining (ICDM'06)、 2006. [Keogh 05] Eamonn J. Keogh, Jessica Lin: Clustering of time-series subsequences is meaningless: implications for previous and future research. Knowl. Inf. Syst. 8(2): 154-177 (2005)
本発明は、時系列データを高精度に分類することを可能とした時系列データ分類装置および時系列データ分類方法、並びに時系列データ処理装置を提供する。
本発明の一態様としての時系列データ分類装置は、
観測対象から観測された観測値を時系列に記録した時系列データと、前記時系列データが得られたときの前記観測対象の状態または種別を表す分類ラベルとを含む事例を複数格納した第1のデータベースと、
各前記時系列データを時間軸および前記観測値を表す軸により構成される座標系に展開し、展開された時系列データに交差する基準線を時間軸に沿って設定し、前記展開された時系列データと前記基準線との交点を検出し、隣接する交点により形成される各区間から前記展開された時系列データのピーク点を検出して、検出したピーク点の集合を含むピーク特徴列を生成するピーク特徴抽出部と、
前記ピーク特徴抽出部によって生成された各前記ピーク特徴列を、各前記ピーク特徴列を生成するもととなった時系列データの分類ラベルと関連づけて格納する第2のデータベースと、
分類ラベルを予測するべき時系列データを入力するデータ入力部と、
前記データ入力部により入力された時系列データに付与すべき分類ラベルを前記第2のデータベースに基づき予測する予測部と、
を備える。
本発明の一態様としての時系列データ処理装置は、
観測対象から観測された観測値を時系列に記録した時系列データと、前記時系列データが得られたときの前記観測対象の状態または種別を表す分類ラベルとを含む事例を複数格納した第1のデータベースと、
各前記時系列データを時間軸および前記観測値を表す軸により構成される座標系に展開し、展開された時系列データに交差する基準線を時間軸に沿って設定し、前記展開された時系列データと前記基準線との交点を検出し、隣接する交点により形成される各区間から前記展開された時系列データのピーク点を検出して、検出したピーク点の集合を含むピーク特徴列を生成するピーク特徴抽出部と、
前記ピーク特徴抽出部によって生成された各前記ピーク特徴列を、各前記ピーク特徴列を生成するもととなった時系列データの分類ラベルと関連づけて格納する第2のデータベースと、
を備える。
本発明の一態様としての時系列データ分類方法は、
観測対象から観測された観測値を時系列に記録した時系列データと、前記時系列データが得られたときの前記観測対象の状態または種別を表す分類ラベルとを含む事例を複数格納した第1のデータベースを用意し、
各前記時系列データを時間軸および前記観測値を表す軸により構成される座標系に展開し、展開された時系列データに交差する基準線を時間軸に沿って設定し、前記展開された時系列データと前記基準線との交点を検出し、隣接する交点により形成される各区間から前記展開された時系列データのピーク点を検出して、検出したピーク点の集合を含むピーク特徴列を生成し、
前記ピーク特徴抽出部によって生成された各前記ピーク特徴列を、各前記ピーク特徴列を生成するもととなった時系列データの分類ラベルと関連づけて第2のデータベースに格納し、
分類ラベルを予測するべき時系列データを入力し、
入力された時系列データに付与すべき分類ラベルを前記第2のデータベースに基づき予測する、ことを特徴とする。
本発明により、時系列データを高精度に分類することが可能になる。
(第1の実施形態)
図1は、本発明の第1の実施形態としての時系列データ分類装置の構成を示すブロック図である。
訓練用時系列データ集合データベース(第1のデータベース)11は、たとえばセンサにより観測対象を観測することにより得られる観測値を時系列に記録した時系列データと、時系列データを得たときの観測対象の状態または種別を表す分類ラベルとを含む事例を複数格納している。時系列データは、センサを通して得られたアナログ信号を、AD変換を通してディジタル信号に変換したものである。
図2は、訓練用時系列データ集合データベース11の一例を示す。
データベース11には、簡易型モーションキャプチャにより得られた時系列データと、時系列データを得たときのモーション(動作)を表す分類ラベルとを含む事例が複数格納されている。時系列データは、一定間隔で取得される観測値(時刻t、振幅値)を所定時間記録したものである。ここでは1つの時系列データはL個の観測値から構成される。また時系列データは観測対象の2つの状態から取得されている。1つ目の状態は、太極拳のときの手首の動作であり、この状態を表す分類ラベルとして「太極拳動作」が付されている。2つ目の状態は、旧式ロボットのモーションを模擬したときの手首の動作であり、この状態を表す分類ラベルとして「ロボット模擬動作」が付されている。太極拳のときの手首の動作軌跡を示す時系列データの一例を図3(A)に波形Aとして示す。また、旧式ロボットのモーションを模擬したときの手首の動作軌跡を示す時系列データの一例を図3(B)に波形Bとして示す。
本実施形態の目的は、図2のような状態(動作)の結果の分かっている時系列データを使って、どちらの動作か不明な時系列データが入力されたときに、入力された時系列データの動作が動作A(太極拳動作)なのか動作B(ロボット模擬動作)なのかを正しく予測し判別することである。
本実施形態では、簡易型モーションキャプチャによる動作判別を例に挙げて説明を行うが、本発明は、動作認識だけでなく、装置のモニタリングや故障予測、異常発見などにも適用可能である。
図1における訓練データ入力部12は、訓練用時系列データ集合データベース11から訓練用の事例(時系列データならびにこれらに対応する分類ラベル)を読み出し、波形選定部13に入力する。訓練データ入力部12では、明らかなノイズ、あらかじめ分かっているノイズについては、平滑化フィルタを用いて時系列データからそのノイズの影響を軽減する処理(前処理)を行ってもよい。すなわち、訓練データ入力部12は、時系列データからノイズを除去するノイズ除去部を備えていても良い。また、単位をそろえたり、波形データから計算した平均値、標準偏差(分散)、最小値、最大値などを用いてデータを正規化してもよい。時系列データからノイズを除去する例を図4に示す。
波形選定部(事例選定部)13は、訓練データ入力部12から入力される事例集合から誤分類を導きにくい事例を選定し、選択した事例を選定波形データベース(第4のデータベース)14に記録する。選定波形データベース14の一例を図5に示す。波形選定部13は、たとえば、Leave One Out法とk-最近傍法(k-Nearest Neighbor Classifier)により事例の選定を行う。選定の具体例を図6に示す。図6の例では、1-最近傍法を用いている。事例集合から1つの事例を選定候補波形として取り出し、取り出した選定候補波形にもっとも近い距離をもつ時系列データ(比較波形)を、選定候補波形を除く上記事例集合に含まれる各時系列データ(比較波形)から検出する。検出した比較波形の分類ラベルが、取り出した選定候補波形と同一であれば、選定候補波形を採択し、選定候補波形とこれに対応する分類ラベルとを含む事例を波形選定部13に記録する。同一でなければ、取り出した選定候補波形およびこれに分類ラベルを含む事例は選定波形データベース14に格納しない。事例集合に含まれるすべての時系列データを対象として上記と同様の処理を繰り返し行うことにより選定波形データベース14を得る。
ピーク特徴抽出部15は、波形選定データベース14内の各時系列データを、時間軸および観測値を表す軸により構成される座標系に展開し、展開された時系列データと交差する基準線を時間軸に沿って設定し、展開された時系列データと基準線との交点を検出し、隣接する交点により形成される各区間から展開された時系列データのピーク点(特徴点)を検出して、各区間から検出したピーク点の集合であるピーク特徴列を生成する。以下さらに詳細に説明する。
(1)時系列データを上記座標系に展開し、時系列データにおける振幅方向の基準値(たとえば平均値)を求め、求めた基準値を通る時間軸に平行な直線を時系列データに引く(基準化する)。これは、基準値を通る直線と時系列データとで囲まれる面積が、直線の上側と下側とで同じになるように該直線を引くことに対応する。図3(A)および図3(B)の時系列データ(波形)Aおよび時系列データ(波形)Bを基準化した例を図7(A)および図7(B)に示す。
(2)振幅の基準値を通る上記基準線と、時系列データ(振幅波形)とのすべての交点を波形分割点として取得する。AD変換後のデータの概形が基準線と交差してはいるが、実際には基準線上にはぴったりと一致していない場合は、たとえば、データの概形を示す波形と基準線との交点に最も近い点を交点とみなす。すなわち、上記座標系に展開された時系列データを横切る上記基準線が観測点間を通過するときは、基準線を挟む2つの観測点のうち基準線に近い観測点を交点とみなす。このほか、当該2つの観測点を通過する直線を求め、求めた直線と基準線との交点を採用してもよい。または、時系列データにおける各観測値を通る曲線を補完により求め求めた曲線と基準線との交点を採用してもよい。また波形分割点の他に、波形の始点および終点も取得する。この様子を図8に示す。○が波形分割点または波形の始点または波形の終点である。
そして、各隣り合う2つの波形分割点間(波形分割区間)において、3種類のピーク点を求める。具体的に、「振幅絶対値最大時刻」とこの時刻における振幅値、「境界付近前部振幅絶対値最大時刻」とこの時刻における振幅値、「境界付近後部振幅絶対値最大時刻」とこの時刻における振幅値を求める。
「振幅絶対値最大時刻」は、波形分割区間において最大の振幅値(最大のピーク)を与える時刻であり、以下の式で表される。
Figure 2009003534
「境界付近前部振幅絶対値最大時刻」は、波形分割区間において、時間的に前方にある波形分割点(区間開始点)から、時間的に後方にある波形分割点(区間終了点)に向けて探索を行うことにより最初に見つかるピーク(局所ピーク)を与える時刻である。
「境界付近後部振幅絶対値最大時刻」は、区間終了点から区間開始点に向けて探索を行うことにより最初に見つかるピーク(局所ピーク)を与える時刻である。
図9〜図12はピーク点の算出例(例1〜例3)を示す。
図9に示す例1では、「境界付近前部振幅絶対値最大時刻」(tabsmax1)と「境界付近後部振幅絶対値最大時刻」(tabsmax2)が一致する場合を示す。「境界付近前部振幅絶対値最大時刻」と「境界付近後部振幅絶対値最大時刻」が一致する場合、「振幅絶対値最大時刻」(tabsmax3)も、「境界付近前部振幅絶対値最大時刻」および「境界付近後部振幅絶対値最大時刻」と一致する。したがって、図示の波形分割区間からは1つのピーク点のみが検出される。
図10に示す例2では、「境界付近後部振幅絶対値最大時刻」が「振幅絶対値最大時刻」と一致するが、「境界付近前部振幅絶対値最大時刻」とは一致しない場合を示す。したがって、図示の波形分割区間からは2つのピーク点が検出される。
図11に示す例3では、「境界付近後部振幅絶対値最大時刻」、「振幅絶対値最大時刻」、「境界付近前部振幅絶対値最大時刻」がいずれも一致しない場合を示す。したがって、図示の波形分割区間からは3つのピーク点が検出される。
図8(A)の波形Aにおける各波形分割区間から得られたピーク点を図13に示す。図8(A)の波形Aから4つの波形分割区間が得られており、1,2、4つ目の波形分割区間では上記3種類の時刻が一致するためそれぞれ1つのピーク点が検出されている。3つ目の波形分割区間では「境界付近後部振幅絶対値最大時刻」が「振幅絶対値最大時刻」と一致し、「境界付近前部振幅絶対値最大時刻」とは一致せず、したがって2つのピーク点が検出されている。
なお、ピーク検出に関して、非特許文献1には基本的な特徴点抽出方法と規則性の発見方法が記載されているが、この文献では、順方向と逆方向からピークを探索していく点はかかれていない。また、分類器としての重要なピークを取り出すことは言及されておらず、あくまでも頻度の高い共通性のあるピークのみを残す方法となっているため、本発明とは異なるものである。
このように、本実施形態では、時系列データと基準線とが交差する交点間を1つの区間として時系列データを分割するため、あらかじめ振幅変化の周波数が不明な場合、周波数が時間軸上で変化する場合、または非定常波形の場合でも、波形の特徴に応じて可変長窓幅(窓幅は本実施形態での交点間の区間幅に相当)で波形を分割することができる。
(3)各波形分割区間からそれぞれピーク点を検出したら、各ピーク点(特徴点)と、時系列データの開始点(特徴点)および終了点(特徴点)とを時系列に並べることによりピーク特徴ベクトル(ピーク特徴列)を生成する。
たとえば図13に示した波形Aの各ピーク点、開始点および終了点を時系列に並べて得られる、波形Aに対応するピーク特徴列は
[(0.0、 8.5)、 (1.2、 -20.3)、 (1.6、 56.0)、 (2.1、 -21.9)、 (2.8、 -23.1)、 (3.4、 52.1)、 (4.0、-15.6)]
となる。これを図示すると図12のようになる。
また波形Bに対応するピーク特徴列は
[(0.0、 0.0)、(1.4、 58.2)、 (1.7、 76.9)、 (2.4、 -31.4)、(3.6、 -59.1)、 (4.0、 52.1)]
となる。これを図示すると図14のようになる。
選定波形データベース14内の各時系列データから生成されたピーク特徴列はこれに対応する分類ラベルとともに各事例としてピーク特徴列集合データベース(第2のデータベース)16に格納される。ピーク特徴列集合データベース16の一例を図15に示す。図において、特徴点1は、ピーク特徴ベクトルの1番目の要素、特徴点2はピーク特徴ベクトルの2番目の要素、・・・・、特徴点8はピーク特徴ベクトルの8番目の要素である。
図16は、ピーク特徴抽出部15により行われるピーク特徴列の検出処理の一例を示すフローチャートである。
基準線に基づき時系列データ(時系列データ)を基準化し(S11)、基準線と時系列波形とのすべての交点を求める(S12)。隣接する交点間(波形分割区間)で、時間軸上を順方向に探索し、局所的なピークを与える時刻(境界付近前部振幅絶対値最大時刻)を検出し、時刻Aとする(S13)。同様に、隣接する交点間(波形分割区間)で、時間軸上を逆方向に探索し、局所的なピークを与える時刻(境界付近後部振幅絶対値最大時刻)を検出し、時刻Bとする(S14)。
時刻A=時刻Bのときは(S15のYES)、ピーク特徴列に時刻Aと時刻Aに対応する振幅値との組を追加し、すべての隣接する交点間(波形分割区間)での探索を行ったならば(S21のYES)処理を終了し、そうでないならば(S21のNO)S13に戻る。
一方、時刻A≠時刻Bのときは(S15のNO)、波形分割区間において最大の振幅を与える時刻を検出し、時刻Cとする(S17)。
時刻Cが時刻Aおよび時刻Bのいずれか一方に等しいときは(S18のYES)、ピーク特徴列に、時刻Aと時刻Aに対応する振幅値との組と、時刻Bと時刻Bに対応する振幅値との組とを加える(S19)。すべての隣接する交点間(波形分割区間)での探索を行ったならば(S21のYES)処理を終了し、そうでないならば(S21のNO)S13に戻る。
時刻Cが時刻Aおよび時刻Bのいずれにも等しくないときは(S18のNO)、ピーク特徴列に時刻Aと時刻Aに対応する振幅値との組と、時刻Bと時刻Bに対応する振幅値との組と、時刻Cと時刻Cに対応する振幅値との組とを加える。すべての隣接する交点間(波形分割区間)での探索を行ったならば(S21のYES)処理を終了し、そうでないならば(S21のNO)S13に戻る。
ピーク選定部17は、たとえばLeave One Outとk-最近傍法を用いて、各ピーク特徴列のそれぞれから、分類時に重要な役割を果たすピーク点(特徴点)集合を選定した、重要ピーク特徴列(重要ピーク特徴ベクトル)を生成する。すなわち、ピーク選定部17は、訓練用時系列データ集合データベース11、選定波形データベース14、またはピーク特徴列集合データベース16に基づき得られる分類器に与えたときに、正解の分類ラベルが所望の精度で得られるピーク点の集合を含む重要ピーク特徴列を、各ピーク特徴列の各々から複数のピーク点を選択することにより生成する。そしてピーク選定部17は、生成した重要ピーク特徴列を、重要ピーク特徴列を生成するもととなったピーク特徴列の分類ラベルと対応づけて重要ピーク特徴列集合データベース(第3のデータベース)18に記録する。重要ピーク特徴列集合データベース18の一例を図17に示す。以下、ピーク選定部17の処理の例について詳細に説明する。
ピーク特徴列集合データベース16(ここでは説明のためM個の事例が含まれているとする)から検査対象のピーク特徴列を1つ選択し、選択したピーク特徴列と、選択したピーク特徴列を生成するもととなった時系列データを除く選定波形データベース14内のM−1個の時系列データ(または選択したピーク特徴列を除くM−1個のピーク特徴列)とを比較してそれぞれの距離を求める。1-最近傍法の場合は、図18に示すように、最も距離の小さい時系列データ(またはピーク特徴列)を検出する。kが2以上のときのk-最近傍法の場合は、距離が小さい時系列データまたはピーク特徴列を上位k個検出する。3-最近傍法の場合の例を図19に示す。また、ここで、比較波形は、後述するように、選択したピーク特徴列を生成するもととなった時系列データを除く訓練用時系列データ集合データベース11内のN−1個の時系列データとの距離を求めてもよい(訓練用時系列データ集合データベース11内にはN個の時系列データが格納されているとする)。
1-最近傍法の場合、検出した時系列データ(またはピーク特徴列)の分類ラベルが、選択したピーク特徴列の分類ラベルと一致するかどうかを判定し、一致するときは(正解の場合)、選択したピーク特徴列をそのまま重要ピーク特徴列として採択し、これに対応する分類ラベルとともに重要ピーク特徴列集合データベース18に記録する。k-最近傍法の場合、検出した上位k個の時系列データまたはピーク特徴列の分類ラベルから正解率(精度)を計算し、計算した精度が足きり基準を満たすときは、正解と判定して、選択したピーク特徴列をそのまま重要ピーク特徴列として採択し、正解の場合、採択した重要ピーク特徴列をこれに対応する分類ラベルとともに重要ピーク特徴列集合データベース18に記録する。図19に示す例では、ユーザがあらかじめ与えておいた足きり基準が0.7で、計算された精度が2/3≒0.67であるため、不正解となる。
一方、1-最近傍法の場合に2つの分類ラベルが不一致のとき、またはk-最近傍法の場合に精度が足きり基準を満たさないときは(不正解の場合)、選択したピーク特徴列から任意のピーク点1つを取り外した特徴列と、上記M−1個の時系列データ(またはピーク特徴列)との比較を行い正解か不正解かを同様に判定することを、選択したピーク特徴列に含まれる各ピーク点について行う(すなわちピーク点の数だけの正解および不正解が、上記選択したピーク特徴列から得られる)。
正解が得られた特徴列についてはこれを重要ピーク特徴列として得る。この時点で正解が得られた特徴列の一例を図20の下段に示す。不正解が得られた特徴列については、この不正解が得られた特徴列から任意のピーク特徴点1つをさらに取り外した特徴列と、上記M−1個の時系列データ(またはピーク特徴列)との比較を行い正解か不正解かを判定することを、該特徴列に含まれる各ピーク点について同様に行う。これでも正解が得られない特徴列については、開始点と終了点の2つの点になるまで、以上の処理を繰り返す。この時点でも不正解の特徴列については、捨ててしまうこととする。
ここで、距離の計算方法の一例について簡単に説明する。図21および図22は、距離の計算例をそれぞれ示す。ここでは波形Aから得られたピーク特徴列から1番目のピーク点(点2)を除いた特徴列と、時系列データとの距離を求める例が示されている。
図21の例では、特徴列に含まれる各点(ピーク点、開始点または終了点)から、比較対象となる時系列データに対する部分距離をそれぞれ求め、これを合計した値を距離として得ている。具体的に、比較対照となる時系列データの点集合において、特徴列の点(ピーク、開始点または終了点)と同一の時刻と、この時刻の前後の時刻との3つの時刻の各点に対する部分距離を、特徴列の点から計算し(後述する図24も参照されたい)、計算した3つの点のうち最も部分距離の小さいものを選択する。そして特徴列の各点について選択した部分距離を合計した値を距離として得る。つまり、特徴列の点の時刻から所定の時間範囲Rに含まれる、上記時系列データの各点に対する部分距離をそれぞれ計算して最も小さい部分距離を選択し、特徴列の各点について選択した部分距離を合計した値を距離として得る。
図22の例では、特徴列に含まれる点(ピーク、開始点または終了点)から、所定の時間範囲R内で、この特徴列を生成するもととなった時系列データの点を選択し、選択した各点から、比較対象となる時系列データにおける同じ時刻の点までの部分距離を計算する。仮に比較対象となる時系列データに同一時刻の点がないときは該時刻に一番近い点同士の間を補完処理することにより該同一時刻の点を仮想的に算出し、部分距離を計算すればよい。具体的に、図22では、時間範囲R=3の例が示されている(観測時刻3つ分だけを含む時間範囲)。特徴列に含まれる点自身と、その点より1観測時刻後の点と、その点より1観測時刻前の点との3つの点を選択している(ただし開始点jについては自身の点と、1および2観測時刻後の点、終了点については自身の点と1および2観測時刻前の点とを選択している)(後述する図25も参照されたい)。選択した点からの部分距離が最小のものを選択し、選択した部分距離を特徴列の各点について合計した値を最終的な距離として得る。
ここではピーク特徴列と時系列データとの距離を計算する例を示したが、ピーク特徴列間の距離についても同様の考え方により計算できる。たとえば、一方のピーク特徴列における点から所定の時間範囲に入る他方のピーク特徴列の点までの部分距離を計算し(所定の時間範囲に入る点が複数あるときは最も近い部分距離を選択する)、計算した部分距離を上記一方のピーク特徴列の各点について合計した値を距離として得ればよい。所定の時間範囲に入る他方の特徴列の点が存在しない場合は、所定のペナルティ値をその点については与えればよい。
ここで、以上に述べたようなピーク選定部の計算処理は、ピーク特徴列集合データベース16内のピーク特徴列の数と、ピーク特徴列に含まれる点の数との増大に応じて計算量が増大することが予測される。この計算量を削減し改良する方法として、ピーク特徴列集合データベース16からランダムに限定された個数だけを取り出して比較処理を行うことで、すなわち乱数を用いて比較対照のピーク特徴列を所定数だけ取り出すことで、計算量を削減し、処理時間を短縮することができる。
分類未知時系列データ集合データベース19は分類ラベルが未知の時系列データ(分類未知時系列データ)の集合を格納している。分類未知時系列データ集合データベース19の一例を図23に示す。
分類未知データ入力部20は、分類未知時系列データ集合データベース19から分類未知時系列データを読み出して、予測部21に入力する。
予測部21は、k-最近傍法に基づき、重要ピーク特徴列集合データベース18内の各重要ピーク特徴列を用いて、分類未知データ入力部20から入力された分類未知時系列データに対する分類ラベルを判別する。たとえば未知の時系列データ(時系列波形)Cが与えられたとき、時系列データCと、各重要ピーク特徴列との距離を図ることにより、時系列データCの分類ラベル(すなわち時系列波形Cの動作が、太極拳の動作か、ロボット模擬動作のいずれであるか)を判定する。たとえば、1-最近傍法の場合、未知の波形Cとの距離が最も近い時系列データの分類ラベルを予測結果とする。図24および図25に予測の例を示す。図24は前述した図21と同様の方法により距離を求める例を示している。図25は前述した図22と同様の方法により距離を求める例を示している。
ここでは未知の時系列データそのものを用いて各重要ピーク特徴列との距離を計算したが、分類ラベルが未知の時系列データに対してピーク特徴抽出部15およびピーク選定部17のうち少なくとも前者による処理を行ってピーク特徴列または重要ピーク特徴列を生成し、分類ラベルが未知の時系列データから生成したピーク特徴列または重要ピーク特徴列と、重要ピーク特徴列集合データベース18内の各重要ピーク特徴列との比較を行うことにより距離を計算するようにしても良い。この場合の距離の計算は、たとえば前述したピーク選定部17と同様にして行うことができる。
結果表示部22は、予測部21によって判別された判別結果(分類ラベル)および判別の対象となった時系列データを図示しないディスプレイに表示する。
本実施形態の効果として、分類精度を落とすことなく大幅なデータ量の削減が可能である。たとえば、波形Aの場合、図20の例に示すように、 元の時系列データの観測点(サンプリング点)はたとえば40個あるが、この波形Aから得られた重要ピーク特徴列における特徴点(ピーク点、開始点、終了点)は6個であり、波形Aに代えて重要ピーク特徴列を記憶することで、85%(40→6)もサンプリング点を削減できる。1つの波形から複数の重要ピーク特徴列が生成される場合も、波形のサンプリング点のデータ量が実際には膨大であるため、十分にデータ量削減の効果を得ることができる。また、波形ではなく、サンプリング点が削減されたデータ(重要ピーク特徴列)を用いることにより予測部21での判別にかかる処理時間を短縮することもできる。場合によっては、すべての点(波形)を使ったものよりも判別が頑健となり、精度が向上する可能性がある。
(第2の実施形態)
第1の本実施形態では、ピーク特徴抽出部15において、各波形分割区間を対象にピーク点の検出を行ったが、さらに細かいピーク検出を行うこともできる。すなわち、波形分割区間で2つ以上のピーク点が検出された場合、検出されたピーク点のうちの2つで囲まれる区間を対象として、上述したピーク検出をさらに行う。これを、あらかじめ決めておいた最大繰り返し段数を限度として行う。以下本実施形態について詳細に説明する。
図26は、図10に示した部分時系列波形においてさらに細かくピーク検出を行う例(例4)を示す。
境界付近前部振幅絶対値最大時刻と、振幅絶対値最大時刻(=境界付近後部振幅絶対値最大時刻)とで囲まれる区間を対象として、ピーク検出がさらに行われている。本例において、最大繰り返し段数を2段以上にしておいた場合、2段目の処理では、ピーク点が1つのみ検出されるため、ここで処理は完了する。
つまり、最初の繰り返しステップ(1段目)では、基準線と波形との交点を区間の開始点および終了点としてピーク検出を行うが、次回以降の繰り返しステップ(2段目以降)では、1段目で検出した区間の境界付近前部振幅絶対値最大時刻および境界付近後部振幅絶対値最大時刻をそれぞれ区間の開始点および終了点として、区間をさらに狭めていく。この狭まった区間の中で、1段目と同様に、振幅絶対値最大時刻、境界付近前部振幅絶対値最大時刻、境界付近後部振幅絶対値最大時刻およびこれらの振幅値を求める。アルゴリズムの停止条件(たとえばピーク点が1つのみ検出される)に当てはまったら、現在の繰り返し段数があらかじめユーザが決めた最大繰り返し段数を下回っていても、その時点でその区間の繰り返し処理を停止する。
(第3の実施形態)
本実施形態は、第1および第2の実施形態の方法では検出できない特徴点をも抽出しようとするものである。たとえば図27に示すような点(曲がり角)は、第1および第2の実施形態の方法では抽出することができない。本実施形態ではこのような点も波形(時系列データ)の特徴点として抽出する。
図28は本実施形態におけるピーク特徴抽出部15の処理の一例を説明する図である。
ピーク特徴抽出部15は、時系列データの開始点および終了点、時系列データと基準線との交点、および、各区間から抽出したピーク点の点集合において、隣接する任意の点同士を線分で結ぶ。そして、結んだ線分から、時系列データに対する垂線を引き、垂線の長さが最大になるときの該垂線と時系列データとの交点を特徴点として検出する。垂線の長さはたとえば図29に示す計算式より計算することができる。ピーク特徴抽出部15はこのようにして抽出した特徴点をピーク特徴列に含める。このような方法により、時系列データにおいて特徴ある曲がり角を特徴点として抽出することが出来るようになる。
図30および図31は本実施形態におけるピーク特徴抽出部15の他の処理例を説明する図である。
図30および図31(A)に示すように、区間の開始点tbgn(または終了点tend)、または、検出したあるピーク点tabsmax3を通る時間軸に平行な移動直線を、ピーク点tabsmax3または区間開始点tbgnの方向に時間軸に垂直な方向に平行移動させていく。平行移動は、波形におけるデータ点(観測点)を1点ずつ移動する、または、等間隔で移動することとする。図31(B)のように、区間開始点(または区間終了点)を通り時間軸に垂直な直線と、基準線と、移動直線と、ピーク点を通り時間軸に垂直な線とで囲まれる矩形領域を、時系列波形(時系列データ)があらかじめ定められた比率で2分するときにおける移動直線と時系列波形との交点を、図31(C)のように特徴点として検出する。ピーク特徴抽出部15は、このようにして抽出した特徴点をピーク特徴列に含める。このような方法により、時系列データにおいて特徴ある曲がり角を特徴点として抽出することが出来るようになる。
図32のような上に凸の波形の場合も、図30および図31と同様の方法で、特徴ある曲がり角を特徴点として抽出できる。つまり、区間から検出したピーク点を通る時間軸に平行な第1および第2の直線を設定し、第2の直線を区間の区間開始点または区間終了点の方向に時間軸に垂直に移動させていく。そして、区間開始点または区間終了点を通り時間軸に垂直な直線と、第1の直線と、第2の直線と、ピーク点を通り時間軸に垂直な線とで囲まれる領域を時系列データがあらかじめ定められた比率で分割するときにおける、第2の直線と時系列データとの交点を検出する。ピーク抽出部15は、検出した交点をピーク特徴列に含める。
なお、特徴点を増やしたい場合は、図33のように、ピーク特徴列にて見つけた隣り合う特徴点ではさまれる区間の長さが波形中の中で最も長い部分の点を全て採用してもよい。こうすることで、データ削減効果を少し犠牲にすることにはなるが、ピーク特徴列同士の距離が元の波形同士の距離と近くなり、距離計算がより正確になるとい効果が得られる。
(第4の実施形態)
本実施形態は、第1の実施形態で述べたピーク選定部17および予測部21の処理を拡張したことを特徴とする。
本実施形態におけるピーク選定部17は、重要ピーク特徴列を重要ピーク特徴列集合データベース18に格納する際に、重要ピーク特徴列の精度(または精度に応じて決まる精度クラス)をキーとした並び替えを行う。これは、精度自体を計算できる必要があることから、ピーク選定部17にてk>1の最近傍法を用いた場合(図19参照)に限られる。予測部21は、予測の際、このように精度(または精度クラス)をキーとして並べられた重要ピーク特徴列のうち、たとえば精度の高いデータのみを用いて予測を行う。たとえば処理時間に閾値が与えられているとき、閾値の時間に達するまで、精度の高い重要ピーク特徴列から順番に用いて処理を行い、閾値の時間に達したら処理を終了し、その時点までの処理結果に基づいて、判別結果を得る。これにより、短時間かつ高精度の予測結果を得ることができる。
また、ピーク選定部17は、各重要ピーク特徴列の精度に基づいて各重要ピーク特徴列に含まれるピーク点の重要度を計算する。予測部21は、重要度の大きいピーク点だけ(たとえば上位X個)を先に用いて(開始点と終了点は常に用いるようにしてもよい)、分類ラベルの予測を行い、時間が許す限り、順次重要度の高い順にピーク点を追加して予測を行うことで、単調に分類精度を向上させることができる。これは、分類のエニィタイムアルゴリズム化が可能になることを示しており、短時間でほぼ最高の分類精度を達成できるという効果が予想される(非特許文献2を参照)。
以下、重要度の計算方法について説明する。
ピーク選定部17は、同じ分類ラベルをもつ各重要ピーク特徴列を、時間軸と観測値の軸とをもつ座標系に配置し、時間軸を所定の時間長ごとに区切り、同じ時間範囲内に固まって存在する、各重要ピーク特徴列のピーク点の重要度wjを計算する。
図34は、5つの重要ピーク特徴列を上記座標系に配置し、時間幅R=3で時間軸を区切った例を示す。R=3は、たとえば3つの観測時刻を含む時間幅(=隣接する観測時刻の間隔×3)に相当する。ここで、2つ以上のピーク点が含まれている区間のみピーククラスタpcとすると、6個のピーククラスタpc1〜pc6が得られる。pc1={4,5},pc2={1,2,3,4,5}、・・・pc6={1,2,4}である。{}の中の数値は重要ピーク特徴列のIDである。各ピーククラスタpcjに含まれているピーク点の数をfpj、各重要ピーク特徴列の精度をacci(iは重要ピーク特徴列のID)、同じ分類ラベルをもつ重要ピーク特徴列の個数をNとすると、ピーククラスタpcjに含まれている各ピーク点の重要度wjは以下の式で計算できる。ただしいずれのピーククラスタにも含まれないピーク点の重要度は0とする。
Figure 2009003534
たとえばピーククラスタpc1に含まれている各ピーク点の重要度w1は図35に示すように0.167になる。ただし、各重要ピーク特徴列の精度は図36のようにあらかじめ計算済みであるとする。
(第5の実施形態)
図37は、本実施形態としての時系列データ削減装置(時系列データ処理装置)の構成を示すブロック図である。
本装置は、図1の時系列データ分類装置から予測部21と分類未知時系列データ集合データベース19を取り除いたものに相当する。訓練用時系列データ集合データベース11から読み出した時系列データから重要ピーク特徴列を生成して保存し、重要ピーク特徴列を生成するもととなった時系列データを含む事例をたとえば訓練用時系列データ集合データベース11から消去することで、時系列データの重要な特徴を落とすことなく大幅なデータ量の削減が可能である。本装置は、ピーク特徴列または重要ピーク特徴列が生成された時系列データを訓練用時系列データ集合データベース11から消去する時系列データ消去手段を備えてもよい。
ピーク選定部17は、各重要ピーク列の精度を求め、あらかじめ決められた足切り基準を上回る精度の重要ピーク列のみを選択して、重要ピーク特徴列集合データベース18に格納してもよい。これにより、あらかじめデータの格納領域のサイズが制限されている場合に、このサイズに合わせて、時系列データがもつ特徴をなるべく失うことなく、記憶すべきデータ量を削減できる。
また第1の実施形態で述べたように、ピーク選定部17における計算処理は、ピーク特徴列集合データベース16内のピーク特徴列の数と、ピーク特徴列に含まれる点の数との増大に応じて計算量が増大することが予測される。したがって、この計算量を削減し改良する方法として、ピーク特徴列集合データベース16からランダムに限定された個数だけを取り出して比較処理を行うことで、すなわち乱数を用いて比較対照のピーク特徴列を所定数だけ取り出すことで、計算量を削減し、処理時間を短縮することができる。また、前述したように、ピーク特徴列と時系列データとを比較して距離を求める場合は、訓練用時系列データ集合データベース11からランダムに限定された個数だけを取り出して比較処理を行うことで、同様の効果が期待できる。
なお、背景技術の欄に掲げた特許文献1〜3について本願発明との関係を簡単に説明しておくと以下の通りである。
特許文献1(特開平7-141384号公報)は,入力される(時系列)数値データに基づいて記号ラベルを割り当てて分かりやすくユーザにデータパターンを提示することが主な目的であり、この方法を利用すると自動分類が容易になるとあるが,(時系列)数値データを有限の記号ラベルに変換した時点で、情報の粒度が非常に大きくなり、データに含まれるノイズや位相のずれなどに結果が影響されて分類精度が低下する可能性があることが予測されるなどの問題がある。本提案では、記号化を行わず、この特許文献に記載されている方式とは異なる。
特許文献2(特開2007-49509号公報)は、紙幣識別装置などにおいて、識別精度を落とさずに、時系列データのデータ削減を行うものであり、判別を目的としたデータ削減という点は類似しているものの、基本的には平均計算による圧縮方法であり、本提案における方式とは異なる。
特許文献3(特開2006-338373号公報)は、あらかじめ決められた分割窓幅で最小区間を定義してから特徴量を計算する。部分波形ごとにこの特徴量を使って記号ラベル付けし、複数波形の規則性を求めるものであり、本特許提案で取り扱っている問題とは異なる。
本発明の第1の実施形態としての時系列データ分類装置の構成を示す。 訓練用時系列データ集合データベースの一例を示す。 異なる分類ラベルをもつ時系列データ(波形)A、Bの例を示す。 ノイズ処理の例を示す。 選定波形データベースの一例を示す。 波形選定部の処理の例を示す。 波形A、Bに対し基準線を引くことにより波形A、Bを基準化する例を示す。 基準線と波形A、Bとの交点を示す。 ピークの検出例1を示す。 ピークの検出例2を示す。 ピークの検出例3を示す。 波形Aから得られたピーク特徴列の例を示す。 波形Aから検出されたピーク点を示す。 波形Bから得られたピーク特徴列の例を示す。 ピーク特徴列集合データベースの一例を示す。 ピーク特徴抽出部の処理フローを示す。 重要ピーク特徴列集合データベースの一例を示す。 ピークの選定における計算(重要ピーク特徴列の算出)例1を示す。 ピークの選定における計算(重要ピーク特徴列の算出)例2を示す。 時系列データから選定された特徴点(重要ピーク特徴列)の例を示す。 ピーク選定部における距離の計算の一例を示す。 ピーク選定部における距離の計算の他の例を示す。 分類未知時系列データ集合データベースの一例を示す。 予測部における距離の計算の一例を示す。 予測部における距離の計算の他の例を示す。 詳細なピーク検出の例(検出例4)を示す。 垂線長最大の性質を利用した特徴点抽出の例を示す。 垂線を利用した特徴点抽出の例を示す。 垂線長の計算方法を示す。 移動直線の平行移動を利用した特徴点抽出の例を示す。 図30に続いて特徴点抽出の例を示す。 移動直線の平行移動を利用した特徴点抽出の他の例を示す。 波形Aにおけるピーク特徴ベクトルの例2を示す。 ピーク点の重要度の計算例を説明する。 図34に続いて、ピーク点の重要度の計算例を説明する。 各重要ピーク特徴列の精度を示す。 本発明の第5の実施形態としての時系列データ削減装置の構成を示す。
符号の説明
11:訓練用時系列データ集合データベース(第1のデータベース)
12:訓練データ入力部
13:波形選定部(事例選定部)
14:選定波形データベース(第4のデータベース)
15:ピーク特徴抽出部
16:ピーク特徴列集合データベース(第2のデータベース)
17:ピーク選定部
18:重要ピーク特徴列集合データベース(第3のデータベース)
19:分類未知時系列データ集合データベース
20:分類未知データ入力部(データ入力部)
21:予測部
22:結果表示部

Claims (25)

  1. 観測対象から観測された観測値を時系列に記録した時系列データと、前記時系列データが得られたときの前記観測対象の状態または種別を表す分類ラベルとを含む事例を複数格納した第1のデータベースと、
    各前記時系列データを時間軸および前記観測値を表す軸により構成される座標系に展開し、展開された時系列データに交差する基準線を時間軸に沿って設定し、前記展開された時系列データと前記基準線との交点を検出し、隣接する交点により形成される各区間から前記展開された時系列データのピーク点を検出して、検出したピーク点の集合を含むピーク特徴列を生成するピーク特徴抽出部と、
    前記ピーク特徴抽出部によって生成された各前記ピーク特徴列を、各前記ピーク特徴列を生成するもととなった時系列データの分類ラベルと関連づけて格納する第2のデータベースと、
    分類ラベルを予測するべき時系列データを入力するデータ入力部と、
    前記データ入力部により入力された時系列データに付与すべき分類ラベルを前記第2のデータベースに基づき予測する予測部と、
    を備えた時系列データ分類装置。
  2. 前記ピーク特徴抽出部は、前記展開された時系列データの振幅方向の基準値を求め、求めた基準値を通る、時間軸に平行な線を引くことにより前記基準線を設定することを特徴とする請求項1に記載の時系列データ分類装置。
  3. 前記ピーク特徴抽出部は、前記隣接する交点のうち時間的に前方にある区間開始点から、時間的に後方にある区間終了点に向けて探索を行うことにより最初に見つかる第1ピーク点と、前記区間終了点から前記区間開始点に向けて探索を行うことにより最初に見つかる第2ピーク点とを検出することを特徴とする請求項1または2に記載の時系列データ分類装置。
  4. 前記ピーク特徴抽出部は、さらに、前記隣接する交点により形成される区間において最も振幅が大きい第3ピーク点を検出することを特徴とする請求項3に記載の時系列データ分類装置。
  5. 前記ピーク特徴抽出部は、前記第1ピーク点と前記第2ピーク点が同一であるときは前記第3ピーク点の検出を省略することを特徴とする請求項4に記載の時系列データ分類装置。
  6. 前記ピーク特徴抽出部は、1つの区間から複数のピーク点を検出したとき、前記複数のピーク点のうちの2つを開始点および終了点とする新たな区間においてさらにピーク点検出を行うことを特徴とする請求項1ないし5のいずれか一項に記載の時系列データ分類装置。
  7. 前記ピーク特徴抽出部は、前記展開された時系列データの始点および終点と、前記展開された時系列データと前記基準線との交点と、各前記区間から抽出したピーク点とを含む点集合から選択した隣接する任意の点同士を結ぶ線分から、前記展開された時系列データに対する長さが最大になる垂線と前記展開された時系列データとの交点を検出し、検出した交点を前記ピーク特徴列に含めることを特徴とする請求項1ないし6のいずれか一項に記載の時系列データ分類装置。
  8. 前記ピーク特徴抽出部は、
    前記区間の区間開始点または区間終了点を通る時間軸に平行な移動直線を、前記区間内のピーク点の方向に時間軸に垂直に移動させていき、
    前記区間開始点または前記区間終了点を通り時間軸に垂直な直線と、前記基準線と、前記移動直線と、前記ピーク点を通り時間軸に垂直な線とで囲まれる領域を前記展開された時系列データがあらかじめ定められた比率で分割するときにおける、前記移動直線と前記展開された時系列データと交点を検出し、検出した交点を前記ピーク特徴列に含めることを特徴とする請求項1ないし6のいずれか一項に記載の時系列データ分類装置。
  9. 前記ピーク特徴抽出部は、
    前記区間から検出したピーク点を通る時間軸に平行な第1および第2の直線を設定し、
    前記第2の直線を前記区間の区間開始点または区間終了点の方向に時間軸に垂直に移動させていき、
    前記区間開始点または前記区間終了点を通り時間軸に垂直な直線と、前記第1の直線と、前記第2の直線と、前記ピーク点を通り時間軸に垂直な線とで囲まれる領域を前記展開された時系列データがあらかじめ定められた比率で分割するときにおける、前記第2の直線と前記展開された時系列データとの交点を検出し、検出した交点を前記ピーク特徴列に含めることを特徴とする請求項1ないし6のいずれか一項に記載の時系列データ分類装置。
  10. 前記第1のデータベースまたは前記第2のデータベースに基づき得られる分類器に与えたときに、正解の分類ラベルが所望の精度で得られるピーク点の集合を含む重要ピーク特徴列を、各前記ピーク特徴列の各々から複数のピーク点を選定することにより生成するピーク選定部と、
    前記ピーク選定部によって生成された各重要ピーク特徴列を、前記重要ピーク特徴列を生成するもととなったピーク特徴列の分類ラベルと対応づけて格納する第3のデータベースとをさらに備え、
    前記予測部は、前記データ入力部により入力された時系列データに付与すべき分類ラベルを前記第3のデータベースに基づき予測する、
    ことを特徴とする請求項1ないし9のいずれか一項に記載の時系列データ分類装置。
  11. 前記ピーク選定部は、前記各重要ピーク特徴列の分類精度を計算し、
    前記予測部は、あらかじめ与えられた閾値時間内で、前記分類精度の高い重要ピーク特徴列から優先的に用いて、前記分類ラベルの予測を行う、
    ことを特徴とする請求項10に記載の時系列データ分類装置。
  12. 前記ピーク選定部は、前記各重要ピーク特徴列の分類精度を計算し、
    前記第3のデータベースは、前記分類精度があらかじめ与えられた足切り基準を満たす重要ピーク特徴列のみ格納することを特徴とする請求項10または11に記載の時系列データ分類装置。
  13. 前記ピーク選定部は、前記各重要ピーク特徴列の分類精度を計算し、前記各重要ピーク特徴列の分類精度を利用して前記各重要ピーク特徴列に含まれる点の重要度を計算し、
    前記予測部は、あらかじめ与えられた閾値時間内で、前記各重要ピーク特徴列において重要度の高い点から徐々に使用する点の数を増やしながら前記分類ラベルの予測を行うことを特徴とする請求項10ないし12のいずれか一項に記載の時系列データ分類装置。
  14. 前記ピーク選定部は、前記各重要ピーク特徴列に含まれる点を所定の時間間隔で区分し、区分による各区間に含まれる点の重要度を、前記区間に含まれる点の個数と、前記各重要ピーク特徴列の個数と、前記各重要ピーク特徴列の分類精度とに基づき計算する、ことを特徴とする請求項13に記載の時系列データ分類装置。
  15. 前記ピーク選定部は、前記ピーク特徴列から任意の複数の点を選択し、選択した複数の点からなる点列と前記第1のデータベース内の各時系列データまたは前記第2のデータベース内の各ピーク特徴列との距離を計算し、距離がもっとも近い上位k(kは1以上の整数)個の時系列データまたはピーク特徴列の各分類ラベルに基づき計算される分類精度が前記所望の精度を満たすとき、前記複数の点からなる点列を前記重要ピーク特徴列として採択することを特徴とする請求項10ないし14に記載の時系列データ分類装置。
  16. 前記ピーク選定部は、前記選択した複数の点からなる点列との距離を計算するべき時系列データまたはピーク特徴列を、乱数を用いて前記第1または第2のデータベースから所定数選択することを特徴とする請求項15に記載の時系列データ分類装置。
  17. 前記第1のデータベースに基づき得られる分類器に与えたときに、正解の分類ラベルが所望の精度で得られる時系列データを含む事例を前記第1のデータベースから選定する事例選定部と、
    前記事例選定部によって選定された事例を格納する第4のデータベースと、をさらに備え、
    前記ピーク特徴部は、前記第4のデータベースに含まれる各事例の時系列データから前記ピーク特徴列を生成する、ことを特徴とする請求項1ないし16のいずれか一項に記載の時系列データ分類装置。
  18. 前記第1のデータベース内の各時系列データに含まれるノイズを除去するノイズ除去部をさらに備えたことを特徴とする請求項1ないし17のいずれか一項に記載の時系列データ分類装置。
  19. 前記予測部により予測された分類ラベルを表示する表示部をさらに備えたことを特徴とする請求項1ないし18のいずれか一項に記載の時系列データ分類装置。
  20. 観測対象から観測された観測値を時系列に記録した時系列データと、前記時系列データが得られたときの前記観測対象の状態または種別を表す分類ラベルとを含む事例を複数格納した第1のデータベースと、
    各前記時系列データを時間軸および前記観測値を表す軸により構成される座標系に展開し、展開された時系列データに交差する基準線を時間軸に沿って設定し、前記展開された時系列データと前記基準線との交点を検出し、隣接する交点により形成される各区間から前記展開された時系列データのピーク点を検出して、検出したピーク点の集合を含むピーク特徴列を生成するピーク特徴抽出部と、
    前記ピーク特徴抽出部によって生成された各前記ピーク特徴列を、各前記ピーク特徴列を生成するもととなった時系列データの分類ラベルと関連づけて格納する第2のデータベースと、
    を備えた時系列データ処理装置。
  21. 前記ピーク特徴列が生成された時系列データを含む事例を前記第1のデータベースから消去する時系列データ消去手段をさらに備えたことを特徴とする請求項20に記載の辞意系列データ処理装置。
  22. 前記第1のデータベースまたは前記第2のデータベースに基づき得られる分類器に与えたときに、正解の分類ラベルが所望の精度で得られるピーク点の集合を含む重要ピーク特徴列を、各前記ピーク特徴列の各々から複数のピーク点を選択することにより生成するピーク選定部と、
    前記ピーク選定部によって生成された各重要ピーク特徴列を、前記重要ピーク特徴列を生成するもととなったピーク特徴列の分類ラベルと対応づけて格納する第3のデータベースと、
    をさらに備えたことを特徴とする請求項20または21に記載の時系列データ処理装置。
  23. 前記ピーク選定部は、前記各重要ピーク特徴列の分類精度を計算し、
    前記第3のデータベースは、前記分類精度があらかじめ与えられた足切り基準を満たす重要ピーク特徴列のみ格納することを特徴とする請求項22に記載の時系列データ処理装置。
  24. 前記ピーク選定部は、前記ピーク特徴列から任意の複数の点を選択し、選択した複数の点からなる点列と前記第1のデータベース内の各時系列データまたは前記第2のデータベース内の各ピーク特徴列との距離を計算し、距離がもっとも近い上位k(kは1以上の整数)個の時系列データまたはピーク特徴列の分類ラベルに基づき計算される分類精度が前記所望の精度が得られるとき、前記複数の点からなる点列を前記重要ピーク特徴列として採択するものであり、
    前記選択した複数の点からなる点列との距離を計算するべき時系列データまたはピーク特徴列を、乱数を用いて前記第1または第2のデータベースから所定数選択することを特徴とする請求項21ないし23のいずれか一項に記載の時系列データ処理装置。
  25. 観測対象から観測された観測値を時系列に記録した時系列データと、前記時系列データが得られたときの前記観測対象の状態または種別を表す分類ラベルとを含む事例を複数格納した第1のデータベースを用意し、
    各前記時系列データを時間軸および前記観測値を表す軸により構成される座標系に展開し、展開された時系列データに交差する基準線を時間軸に沿って設定し、隣接する交点により形成される各区間から前記展開された時系列データのピーク点を検出して、検出したピーク点の集合を含むピーク特徴列を生成し、
    前記ピーク特徴抽出部によって生成された各前記ピーク特徴列を、各前記ピーク特徴列を生成するもととなった時系列データの分類ラベルと関連づけて第2のデータベースに格納し、
    分類ラベルを予測するべき時系列データを入力し、
    入力された時系列データに付与すべき分類ラベルを前記第2のデータベースに基づき予測する、
    時系列データ分類方法。
JP2007161399A 2007-06-19 2007-06-19 時系列データ分類装置、時系列データ分類方法および時系列データ処理装置 Expired - Fee Related JP4686505B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007161399A JP4686505B2 (ja) 2007-06-19 2007-06-19 時系列データ分類装置、時系列データ分類方法および時系列データ処理装置
US12/142,070 US20080319951A1 (en) 2007-06-19 2008-06-19 Apparatus and method for classifying time-series data and time-series data processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007161399A JP4686505B2 (ja) 2007-06-19 2007-06-19 時系列データ分類装置、時系列データ分類方法および時系列データ処理装置

Publications (2)

Publication Number Publication Date
JP2009003534A true JP2009003534A (ja) 2009-01-08
JP4686505B2 JP4686505B2 (ja) 2011-05-25

Family

ID=40137550

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007161399A Expired - Fee Related JP4686505B2 (ja) 2007-06-19 2007-06-19 時系列データ分類装置、時系列データ分類方法および時系列データ処理装置

Country Status (2)

Country Link
US (1) US20080319951A1 (ja)
JP (1) JP4686505B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011138191A (ja) * 2009-12-25 2011-07-14 Honda Motor Co Ltd 相関分析システム
CN104750837A (zh) * 2015-04-03 2015-07-01 北京工商大学 增长型时间序列数据的可视化方法和***
JP2018530804A (ja) * 2015-07-16 2018-10-18 ブラスト モーション インコーポレイテッドBlast Motion Inc. 多センサ事象検出およびタグづけシステム
JP2022048774A (ja) * 2020-09-15 2022-03-28 株式会社東芝 情報処理装置、情報処理方法、およびプログラム

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4670885B2 (ja) * 2008-03-28 2011-04-13 ブラザー工業株式会社 時系列データ管理装置及びプログラム
US8730242B2 (en) 2010-05-17 2014-05-20 Hewlett-Packard Development Company, L.P. Performing time slice-based visual prediction
US8868345B2 (en) * 2011-06-30 2014-10-21 General Electric Company Meteorological modeling along an aircraft trajectory
US20130030759A1 (en) * 2011-07-26 2013-01-31 Hao Ming C Smoothing a time series data set while preserving peak and/or trough data points
US9355357B2 (en) 2011-10-21 2016-05-31 Hewlett Packard Enterprise Development Lp Computing predicted data according to weighted peak preservation and time distance biasing
CN103020643B (zh) * 2012-11-30 2015-05-13 武汉大学 基于提取核特征早期预测多变量时间序列类别的分类方法
EP2916260A1 (en) * 2014-03-06 2015-09-09 Tata Consultancy Services Limited Time series analytics
JP5984153B2 (ja) * 2014-09-22 2016-09-06 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、プログラム、及び情報処理方法
US10643138B2 (en) 2015-01-30 2020-05-05 Micro Focus Llc Performance testing based on variable length segmentation and clustering of time series data
CN104809226B (zh) * 2015-05-07 2018-01-12 武汉大学 一种早期分类不平衡多变量时间序列数据的方法
WO2016183552A1 (en) 2015-05-14 2016-11-17 Walleye Software, LLC A memory-efficient computer system for dynamic updating of join processing
US10373070B2 (en) * 2015-10-14 2019-08-06 International Business Machines Corporation Anomaly detection model selection and validity for time series data
US10605842B2 (en) 2016-06-21 2020-03-31 International Business Machines Corporation Noise spectrum analysis for electronic device
CN107644047B (zh) * 2016-07-22 2021-01-15 华为技术有限公司 标签预测生成方法及装置
US10915558B2 (en) * 2017-01-25 2021-02-09 General Electric Company Anomaly classifier
US10482382B2 (en) 2017-05-09 2019-11-19 Palantir Technologies Inc. Systems and methods for reducing manufacturing failure rates
US10002154B1 (en) 2017-08-24 2018-06-19 Illumon Llc Computer data system data source having an update propagation graph with feedback cyclicality
CN109508594B (zh) * 2017-09-15 2021-01-01 中国石油天然气股份有限公司 图形特征提取方法及装置
JP6950744B2 (ja) * 2017-10-26 2021-10-13 日本電気株式会社 トラヒック分析装置、システム、方法及びプログラム
US11720814B2 (en) * 2017-12-29 2023-08-08 Samsung Electronics Co., Ltd. Method and system for classifying time-series data
WO2020121409A1 (ja) * 2018-12-11 2020-06-18 株式会社ファーストスクリーニング サーバ及び情報処理方法
US11294921B2 (en) * 2019-03-12 2022-04-05 General Electric Company Multivariate time-series data search
US11455322B2 (en) * 2020-05-12 2022-09-27 International Business Machines Corporation Classification of time series data
CN112256791A (zh) * 2020-10-27 2021-01-22 北京微步在线科技有限公司 一种网络攻击事件的展示方法及存储介质
CN118094338A (zh) * 2024-03-28 2024-05-28 东海实验室 一种适应性混合多元时间序列数据预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0696052A (ja) * 1992-09-14 1994-04-08 Toshiba Corp 時系列データ分類・予測装置
JP2005512172A (ja) * 2001-09-28 2005-04-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 顔画像の時系列からの顔認識
JP2006163521A (ja) * 2004-12-02 2006-06-22 Research Organization Of Information & Systems 時系列データ分析装置および時系列データ分析プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5245587A (en) * 1990-12-14 1993-09-14 Hutson William H Multi-dimensional signal processing and display
US7065416B2 (en) * 2001-08-29 2006-06-20 Microsoft Corporation System and methods for providing automatic classification of media entities according to melodic movement properties
GB2414369B (en) * 2004-05-21 2007-08-01 Hewlett Packard Development Co Processing audio data
US20180146879A9 (en) * 2004-08-30 2018-05-31 Kalford C. Fadem Biopotential Waveform Data Fusion Analysis and Classification Method
US7076402B2 (en) * 2004-09-28 2006-07-11 General Electric Company Critical aperture convergence filtering and systems and methods thereof

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0696052A (ja) * 1992-09-14 1994-04-08 Toshiba Corp 時系列データ分類・予測装置
JP2005512172A (ja) * 2001-09-28 2005-04-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 顔画像の時系列からの顔認識
JP2006163521A (ja) * 2004-12-02 2006-06-22 Research Organization Of Information & Systems 時系列データ分析装置および時系列データ分析プログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011138191A (ja) * 2009-12-25 2011-07-14 Honda Motor Co Ltd 相関分析システム
CN104750837A (zh) * 2015-04-03 2015-07-01 北京工商大学 增长型时间序列数据的可视化方法和***
CN104750837B (zh) * 2015-04-03 2019-07-16 北京工商大学 增长型时间序列数据的可视化方法和***
JP2018530804A (ja) * 2015-07-16 2018-10-18 ブラスト モーション インコーポレイテッドBlast Motion Inc. 多センサ事象検出およびタグづけシステム
JP7005482B2 (ja) 2015-07-16 2022-01-21 ブラスト モーション インコーポレイテッド 多センサ事象相関システム
JP2022048774A (ja) * 2020-09-15 2022-03-28 株式会社東芝 情報処理装置、情報処理方法、およびプログラム
JP7414678B2 (ja) 2020-09-15 2024-01-16 株式会社東芝 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
JP4686505B2 (ja) 2011-05-25
US20080319951A1 (en) 2008-12-25

Similar Documents

Publication Publication Date Title
JP4686505B2 (ja) 時系列データ分類装置、時系列データ分類方法および時系列データ処理装置
Mishra et al. Local interpretable model-agnostic explanations for music content analysis.
Povinelli et al. A new temporal pattern identification method for characterization and prediction of complex time series events
CN111611847B (zh) 基于尺度注意力空洞卷积网络的视频动作检测方法
Chan et al. Modeling multiple time series for anomaly detection
JP4308785B2 (ja) デジタルインク質疑検索装置及びその方法
KR100737176B1 (ko) 신호 처리 방법 및 영상 음성 처리 장치
JP5141767B2 (ja) サンプルの帰属クラス予測方法、帰属クラス予測プログラムおよび帰属クラス予測装置
TWI533145B (zh) 控制方法、控制程式及控制裝置
JP2000235585A (ja) トピックに基づくテキストと音声とのクロスインデックスの方法及びシステム
Wang et al. Supervised chorus detection for popular music using convolutional neural network and multi-task learning
Kota et al. Automated detection of handwritten whiteboard content in lecture videos for summarization
CN115169403A (zh) 用于识别机械设备作业模式的方法及装置
EP3336746A1 (en) System and method of video content filtering
JP4939349B2 (ja) トレンド検出方法、トレンド検出プログラムおよびトレンド検出装置
CN112989105B (zh) 一种音乐结构的分析方法及***
CN111428589B (zh) 一种渐变转场的识别方法及***
Narimatsu et al. Duration and interval hidden Markov model for sequential data analysis
JP2009157770A (ja) 行動判定装置、行動判定方法および行動判定プログラム
Bhuyan et al. Finite state representation of hand gesture using key video object plane
Thanh et al. Automatic extraction of semantic action features
JP3623394B2 (ja) 手話認識装置および該装置を実現させるためのプログラムを記録した記録媒体
Feng et al. Time Series Segmentation of Flood Flow Based on Bi-LG-LSTM Neural Network
CN117633328B (zh) 基于数据挖掘的新媒体内容监测方法及***
JP4398907B2 (ja) 特徴系列パターン発見装置及び特徴系列パターン発見装置の作動方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100528

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20100928

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20101019

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110118

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110214

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140218

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4686505

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140218

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees