JP2009003534A

JP2009003534A - 時系列データ分類装置、時系列データ分類方法および時系列データ処理装置

Info

Publication number: JP2009003534A
Application number: JP2007161399A
Authority: JP
Inventors: Ken Ueno; 野研植; Ryohei Orihara; 原良平折
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-06-19
Filing date: 2007-06-19
Publication date: 2009-01-08
Anticipated expiration: 2027-06-19
Also published as: JP4686505B2; US20080319951A1

Abstract

【課題】時系列データを高精度に分類する。
【解決手段】本発明の方法は、観測対象から観測された観測値を時系列に記録した時系列データと、前記観測対象の状態または種別を表す分類ラベルとを含む事例を複数格納した第１のデータベースを用意し、各前記時系列データを時間軸および前記観測値を表す軸により構成される座標系に展開し、展開された時系列データに交差する基準線を時間軸に沿って設定し、前記展開された時系列データと前記基準線との交点を検出し、隣接する交点により形成される各区間から前記展開された時系列データのピーク点を検出して、検出したピーク点の集合を含むピーク特徴列を生成し、生成した各前記ピーク特徴列を、各前記ピーク特徴列を生成するもととなった時系列データの分類ラベルと関連づけて第２のデータベースに格納し、分類ラベルを予測するべき時系列データを入力し、入力された時系列データに付与すべき分類ラベルを前記第２のデータベースに基づき予測する。
【選択図】図１

Description

本発明は、時系列データを分類する時系列データ分類装置および時系列データ分類方法ならびに時系列データを処理する時系列データ処理装置に関する。

センサから得られる時系列データは膨大かつ冗長であり、判定結果が既知の時系列データを用いて学習訓練する高精度なデータマイニング技術を適用しても高精度に分類することは困難であることが知られている。この問題を回避するには、個々の問題に特化した特徴抽出が必要であると言われている。しかしながら、時系列波形の特徴があらかじめ明確に定まっていない場合に、既存の特徴抽出方法では不適切で分類精度が下がってしまう場合がある。また、従来からよく使われる、固定窓幅の波形分割を使った特徴計算は、窓幅が小さすぎる場合には任意の位相の組み合わせが発生し、元の波形の特徴が保存できない問題が知られている（非特許文献３）。固定窓幅を離散化して、窓幅単位で時系列データに記号ラベルを与えることで記号列に変換する方法もあるが、振幅変化が激しい場合は記号化が分類判別にとって適切でない可能性もある。
特開平7-141384号公報特開2007-49509号公報特開2006-338373号公報 [植野05]植野研、古川康一：ピークタイミングシナジーによる動作スキル理解--シーケンシャルパターンマイニングによるアプローチ、pp.237-246、人工知能学会論文誌、2005. [ueno 06] Ken Ueno、 Xiaopeng Xi、 Eamonn Keogh、 Dah-Jye Lee: "Anytime Classification Using the Nearest Neighbor Algorithm with Applications to Stream Mining"、 pp.623-632、 In Proc. of the Sixth International Conference on Data Mining (ICDM'06)、 2006. [Keogh 05] Eamonn J. Keogh, Jessica Lin: Clustering of time-series subsequences is meaningless: implications for previous and future research. Knowl. Inf. Syst. 8(2): 154-177 (2005)

本発明は、時系列データを高精度に分類することを可能とした時系列データ分類装置および時系列データ分類方法、並びに時系列データ処理装置を提供する。

本発明の一態様としての時系列データ分類装置は、
観測対象から観測された観測値を時系列に記録した時系列データと、前記時系列データが得られたときの前記観測対象の状態または種別を表す分類ラベルとを含む事例を複数格納した第１のデータベースと、
各前記時系列データを時間軸および前記観測値を表す軸により構成される座標系に展開し、展開された時系列データに交差する基準線を時間軸に沿って設定し、前記展開された時系列データと前記基準線との交点を検出し、隣接する交点により形成される各区間から前記展開された時系列データのピーク点を検出して、検出したピーク点の集合を含むピーク特徴列を生成するピーク特徴抽出部と、
前記ピーク特徴抽出部によって生成された各前記ピーク特徴列を、各前記ピーク特徴列を生成するもととなった時系列データの分類ラベルと関連づけて格納する第２のデータベースと、
分類ラベルを予測するべき時系列データを入力するデータ入力部と、
前記データ入力部により入力された時系列データに付与すべき分類ラベルを前記第２のデータベースに基づき予測する予測部と、
を備える。

本発明の一態様としての時系列データ処理装置は、
観測対象から観測された観測値を時系列に記録した時系列データと、前記時系列データが得られたときの前記観測対象の状態または種別を表す分類ラベルとを含む事例を複数格納した第１のデータベースと、
各前記時系列データを時間軸および前記観測値を表す軸により構成される座標系に展開し、展開された時系列データに交差する基準線を時間軸に沿って設定し、前記展開された時系列データと前記基準線との交点を検出し、隣接する交点により形成される各区間から前記展開された時系列データのピーク点を検出して、検出したピーク点の集合を含むピーク特徴列を生成するピーク特徴抽出部と、
前記ピーク特徴抽出部によって生成された各前記ピーク特徴列を、各前記ピーク特徴列を生成するもととなった時系列データの分類ラベルと関連づけて格納する第２のデータベースと、
を備える。

本発明の一態様としての時系列データ分類方法は、
観測対象から観測された観測値を時系列に記録した時系列データと、前記時系列データが得られたときの前記観測対象の状態または種別を表す分類ラベルとを含む事例を複数格納した第１のデータベースを用意し、
各前記時系列データを時間軸および前記観測値を表す軸により構成される座標系に展開し、展開された時系列データに交差する基準線を時間軸に沿って設定し、前記展開された時系列データと前記基準線との交点を検出し、隣接する交点により形成される各区間から前記展開された時系列データのピーク点を検出して、検出したピーク点の集合を含むピーク特徴列を生成し、
前記ピーク特徴抽出部によって生成された各前記ピーク特徴列を、各前記ピーク特徴列を生成するもととなった時系列データの分類ラベルと関連づけて第２のデータベースに格納し、
分類ラベルを予測するべき時系列データを入力し、
入力された時系列データに付与すべき分類ラベルを前記第２のデータベースに基づき予測する、ことを特徴とする。

本発明により、時系列データを高精度に分類することが可能になる。

（第１の実施形態）
図１は、本発明の第１の実施形態としての時系列データ分類装置の構成を示すブロック図である。

訓練用時系列データ集合データベース（第１のデータベース）１１は、たとえばセンサにより観測対象を観測することにより得られる観測値を時系列に記録した時系列データと、時系列データを得たときの観測対象の状態または種別を表す分類ラベルとを含む事例を複数格納している。時系列データは、センサを通して得られたアナログ信号を、ＡＤ変換を通してディジタル信号に変換したものである。

図２は、訓練用時系列データ集合データベース１１の一例を示す。

データベース１１には、簡易型モーションキャプチャにより得られた時系列データと、時系列データを得たときのモーション（動作）を表す分類ラベルとを含む事例が複数格納されている。時系列データは、一定間隔で取得される観測値（時刻ｔ、振幅値）を所定時間記録したものである。ここでは１つの時系列データはＬ個の観測値から構成される。また時系列データは観測対象の２つの状態から取得されている。１つ目の状態は、太極拳のときの手首の動作であり、この状態を表す分類ラベルとして「太極拳動作」が付されている。２つ目の状態は、旧式ロボットのモーションを模擬したときの手首の動作であり、この状態を表す分類ラベルとして「ロボット模擬動作」が付されている。太極拳のときの手首の動作軌跡を示す時系列データの一例を図３（Ａ）に波形Ａとして示す。また、旧式ロボットのモーションを模擬したときの手首の動作軌跡を示す時系列データの一例を図３（Ｂ）に波形Ｂとして示す。

本実施形態の目的は、図２のような状態（動作）の結果の分かっている時系列データを使って、どちらの動作か不明な時系列データが入力されたときに、入力された時系列データの動作が動作A（太極拳動作）なのか動作B（ロボット模擬動作）なのかを正しく予測し判別することである。

本実施形態では、簡易型モーションキャプチャによる動作判別を例に挙げて説明を行うが、本発明は、動作認識だけでなく、装置のモニタリングや故障予測、異常発見などにも適用可能である。

図１における訓練データ入力部１２は、訓練用時系列データ集合データベース１１から訓練用の事例（時系列データならびにこれらに対応する分類ラベル）を読み出し、波形選定部１３に入力する。訓練データ入力部１２では、明らかなノイズ、あらかじめ分かっているノイズについては、平滑化フィルタを用いて時系列データからそのノイズの影響を軽減する処理（前処理）を行ってもよい。すなわち、訓練データ入力部１２は、時系列データからノイズを除去するノイズ除去部を備えていても良い。また、単位をそろえたり、波形データから計算した平均値、標準偏差（分散）、最小値、最大値などを用いてデータを正規化してもよい。時系列データからノイズを除去する例を図４に示す。

波形選定部（事例選定部）１３は、訓練データ入力部１２から入力される事例集合から誤分類を導きにくい事例を選定し、選択した事例を選定波形データベース（第４のデータベース）１４に記録する。選定波形データベース１４の一例を図５に示す。波形選定部１３は、たとえば、Leave One Out法とk-最近傍法（k-Nearest Neighbor Classifier）により事例の選定を行う。選定の具体例を図６に示す。図６の例では、１-最近傍法を用いている。事例集合から１つの事例を選定候補波形として取り出し、取り出した選定候補波形にもっとも近い距離をもつ時系列データ（比較波形）を、選定候補波形を除く上記事例集合に含まれる各時系列データ（比較波形）から検出する。検出した比較波形の分類ラベルが、取り出した選定候補波形と同一であれば、選定候補波形を採択し、選定候補波形とこれに対応する分類ラベルとを含む事例を波形選定部１３に記録する。同一でなければ、取り出した選定候補波形およびこれに分類ラベルを含む事例は選定波形データベース１４に格納しない。事例集合に含まれるすべての時系列データを対象として上記と同様の処理を繰り返し行うことにより選定波形データベース１４を得る。

ピーク特徴抽出部１５は、波形選定データベース１４内の各時系列データを、時間軸および観測値を表す軸により構成される座標系に展開し、展開された時系列データと交差する基準線を時間軸に沿って設定し、展開された時系列データと基準線との交点を検出し、隣接する交点により形成される各区間から展開された時系列データのピーク点（特徴点）を検出して、各区間から検出したピーク点の集合であるピーク特徴列を生成する。以下さらに詳細に説明する。

（１）時系列データを上記座標系に展開し、時系列データにおける振幅方向の基準値（たとえば平均値）を求め、求めた基準値を通る時間軸に平行な直線を時系列データに引く（基準化する）。これは、基準値を通る直線と時系列データとで囲まれる面積が、直線の上側と下側とで同じになるように該直線を引くことに対応する。図３（Ａ）および図３（Ｂ）の時系列データ（波形）Ａおよび時系列データ（波形）Ｂを基準化した例を図７（Ａ）および図７（Ｂ）に示す。

（２）振幅の基準値を通る上記基準線と、時系列データ（振幅波形）とのすべての交点を波形分割点として取得する。ＡＤ変換後のデータの概形が基準線と交差してはいるが、実際には基準線上にはぴったりと一致していない場合は、たとえば、データの概形を示す波形と基準線との交点に最も近い点を交点とみなす。すなわち、上記座標系に展開された時系列データを横切る上記基準線が観測点間を通過するときは、基準線を挟む２つの観測点のうち基準線に近い観測点を交点とみなす。このほか、当該２つの観測点を通過する直線を求め、求めた直線と基準線との交点を採用してもよい。または、時系列データにおける各観測値を通る曲線を補完により求め求めた曲線と基準線との交点を採用してもよい。また波形分割点の他に、波形の始点および終点も取得する。この様子を図８に示す。○が波形分割点または波形の始点または波形の終点である。

そして、各隣り合う２つの波形分割点間（波形分割区間）において、３種類のピーク点を求める。具体的に、「振幅絶対値最大時刻」とこの時刻における振幅値、「境界付近前部振幅絶対値最大時刻」とこの時刻における振幅値、「境界付近後部振幅絶対値最大時刻」とこの時刻における振幅値を求める。

「振幅絶対値最大時刻」は、波形分割区間において最大の振幅値（最大のピーク）を与える時刻であり、以下の式で表される。

「境界付近前部振幅絶対値最大時刻」は、波形分割区間において、時間的に前方にある波形分割点（区間開始点）から、時間的に後方にある波形分割点（区間終了点）に向けて探索を行うことにより最初に見つかるピーク（局所ピーク）を与える時刻である。

「境界付近後部振幅絶対値最大時刻」は、区間終了点から区間開始点に向けて探索を行うことにより最初に見つかるピーク（局所ピーク）を与える時刻である。

図９〜図１２はピーク点の算出例（例１〜例３）を示す。

図９に示す例１では、「境界付近前部振幅絶対値最大時刻」（t_absmax1）と「境界付近後部振幅絶対値最大時刻」（t_absmax2）が一致する場合を示す。「境界付近前部振幅絶対値最大時刻」と「境界付近後部振幅絶対値最大時刻」が一致する場合、「振幅絶対値最大時刻」（t_absmax3）も、「境界付近前部振幅絶対値最大時刻」および「境界付近後部振幅絶対値最大時刻」と一致する。したがって、図示の波形分割区間からは１つのピーク点のみが検出される。

図１０に示す例２では、「境界付近後部振幅絶対値最大時刻」が「振幅絶対値最大時刻」と一致するが、「境界付近前部振幅絶対値最大時刻」とは一致しない場合を示す。したがって、図示の波形分割区間からは２つのピーク点が検出される。

図１１に示す例３では、「境界付近後部振幅絶対値最大時刻」、「振幅絶対値最大時刻」、「境界付近前部振幅絶対値最大時刻」がいずれも一致しない場合を示す。したがって、図示の波形分割区間からは３つのピーク点が検出される。

図８（Ａ）の波形Ａにおける各波形分割区間から得られたピーク点を図１３に示す。図８（Ａ）の波形Ａから４つの波形分割区間が得られており、１，２、４つ目の波形分割区間では上記３種類の時刻が一致するためそれぞれ１つのピーク点が検出されている。３つ目の波形分割区間では「境界付近後部振幅絶対値最大時刻」が「振幅絶対値最大時刻」と一致し、「境界付近前部振幅絶対値最大時刻」とは一致せず、したがって２つのピーク点が検出されている。

なお、ピーク検出に関して、非特許文献１には基本的な特徴点抽出方法と規則性の発見方法が記載されているが、この文献では、順方向と逆方向からピークを探索していく点はかかれていない。また、分類器としての重要なピークを取り出すことは言及されておらず、あくまでも頻度の高い共通性のあるピークのみを残す方法となっているため、本発明とは異なるものである。

このように、本実施形態では、時系列データと基準線とが交差する交点間を１つの区間として時系列データを分割するため、あらかじめ振幅変化の周波数が不明な場合、周波数が時間軸上で変化する場合、または非定常波形の場合でも、波形の特徴に応じて可変長窓幅（窓幅は本実施形態での交点間の区間幅に相当）で波形を分割することができる。

（３）各波形分割区間からそれぞれピーク点を検出したら、各ピーク点（特徴点）と、時系列データの開始点（特徴点）および終了点（特徴点）とを時系列に並べることによりピーク特徴ベクトル（ピーク特徴列）を生成する。

たとえば図１３に示した波形Aの各ピーク点、開始点および終了点を時系列に並べて得られる、波形Ａに対応するピーク特徴列は
[(0.0、 8.5)、 (1.2、 -20.3)、 (1.6、 56.0)、 (2.1、 -21.9)、 (2.8、 -23.1)、 (3.4、 52.1)、 (4.0、-15.6)]
となる。これを図示すると図１２のようになる。

また波形Ｂに対応するピーク特徴列は
[(0.0、 0.0)、(1.4、 58.2)、 (1.7、 76.9)、 (2.4、 -31.4)、(3.6、 -59.1)、 (4.0、 52.1)]
となる。これを図示すると図１４のようになる。

選定波形データベース１４内の各時系列データから生成されたピーク特徴列はこれに対応する分類ラベルとともに各事例としてピーク特徴列集合データベース（第２のデータベース）１６に格納される。ピーク特徴列集合データベース１６の一例を図１５に示す。図において、特徴点１は、ピーク特徴ベクトルの１番目の要素、特徴点２はピーク特徴ベクトルの２番目の要素、・・・・、特徴点８はピーク特徴ベクトルの８番目の要素である。

図１６は、ピーク特徴抽出部１５により行われるピーク特徴列の検出処理の一例を示すフローチャートである。

基準線に基づき時系列データ（時系列データ）を基準化し（Ｓ１１）、基準線と時系列波形とのすべての交点を求める（Ｓ１２）。隣接する交点間（波形分割区間）で、時間軸上を順方向に探索し、局所的なピークを与える時刻（境界付近前部振幅絶対値最大時刻）を検出し、時刻Ａとする（Ｓ１３）。同様に、隣接する交点間（波形分割区間）で、時間軸上を逆方向に探索し、局所的なピークを与える時刻（境界付近後部振幅絶対値最大時刻）を検出し、時刻Ｂとする（Ｓ１４）。

時刻Ａ＝時刻Ｂのときは（Ｓ１５のＹＥＳ）、ピーク特徴列に時刻Ａと時刻Ａに対応する振幅値との組を追加し、すべての隣接する交点間（波形分割区間）での探索を行ったならば（Ｓ２１のＹＥＳ）処理を終了し、そうでないならば（Ｓ２１のＮＯ）Ｓ１３に戻る。

一方、時刻Ａ≠時刻Ｂのときは（Ｓ１５のＮＯ）、波形分割区間において最大の振幅を与える時刻を検出し、時刻Ｃとする（Ｓ１７）。

時刻Ｃが時刻Ａおよび時刻Ｂのいずれか一方に等しいときは（Ｓ１８のＹＥＳ）、ピーク特徴列に、時刻Ａと時刻Ａに対応する振幅値との組と、時刻Ｂと時刻Ｂに対応する振幅値との組とを加える（Ｓ１９）。すべての隣接する交点間（波形分割区間）での探索を行ったならば（Ｓ２１のＹＥＳ）処理を終了し、そうでないならば（Ｓ２１のＮＯ）Ｓ１３に戻る。

時刻Ｃが時刻Ａおよび時刻Ｂのいずれにも等しくないときは（Ｓ１８のＮＯ）、ピーク特徴列に時刻Ａと時刻Ａに対応する振幅値との組と、時刻Ｂと時刻Ｂに対応する振幅値との組と、時刻Ｃと時刻Ｃに対応する振幅値との組とを加える。すべての隣接する交点間（波形分割区間）での探索を行ったならば（Ｓ２１のＹＥＳ）処理を終了し、そうでないならば（Ｓ２１のＮＯ）Ｓ１３に戻る。

ピーク選定部１７は、たとえばLeave One Outとk-最近傍法を用いて、各ピーク特徴列のそれぞれから、分類時に重要な役割を果たすピーク点（特徴点）集合を選定した、重要ピーク特徴列（重要ピーク特徴ベクトル）を生成する。すなわち、ピーク選定部１７は、訓練用時系列データ集合データベース１１、選定波形データベース１４、またはピーク特徴列集合データベース１６に基づき得られる分類器に与えたときに、正解の分類ラベルが所望の精度で得られるピーク点の集合を含む重要ピーク特徴列を、各ピーク特徴列の各々から複数のピーク点を選択することにより生成する。そしてピーク選定部１７は、生成した重要ピーク特徴列を、重要ピーク特徴列を生成するもととなったピーク特徴列の分類ラベルと対応づけて重要ピーク特徴列集合データベース（第３のデータベース）１８に記録する。重要ピーク特徴列集合データベース１８の一例を図１７に示す。以下、ピーク選定部１７の処理の例について詳細に説明する。

ピーク特徴列集合データベース１６（ここでは説明のためＭ個の事例が含まれているとする）から検査対象のピーク特徴列を１つ選択し、選択したピーク特徴列と、選択したピーク特徴列を生成するもととなった時系列データを除く選定波形データベース１４内のＭ−１個の時系列データ（または選択したピーク特徴列を除くＭ−１個のピーク特徴列）とを比較してそれぞれの距離を求める。1-最近傍法の場合は、図１８に示すように、最も距離の小さい時系列データ（またはピーク特徴列）を検出する。kが２以上のときのk-最近傍法の場合は、距離が小さい時系列データまたはピーク特徴列を上位ｋ個検出する。3-最近傍法の場合の例を図１９に示す。また、ここで、比較波形は、後述するように、選択したピーク特徴列を生成するもととなった時系列データを除く訓練用時系列データ集合データベース１１内のＮ−１個の時系列データとの距離を求めてもよい（訓練用時系列データ集合データベース１１内にはＮ個の時系列データが格納されているとする）。

1-最近傍法の場合、検出した時系列データ（またはピーク特徴列）の分類ラベルが、選択したピーク特徴列の分類ラベルと一致するかどうかを判定し、一致するときは（正解の場合）、選択したピーク特徴列をそのまま重要ピーク特徴列として採択し、これに対応する分類ラベルとともに重要ピーク特徴列集合データベース１８に記録する。k-最近傍法の場合、検出した上位ｋ個の時系列データまたはピーク特徴列の分類ラベルから正解率（精度）を計算し、計算した精度が足きり基準を満たすときは、正解と判定して、選択したピーク特徴列をそのまま重要ピーク特徴列として採択し、正解の場合、採択した重要ピーク特徴列をこれに対応する分類ラベルとともに重要ピーク特徴列集合データベース１８に記録する。図１９に示す例では、ユーザがあらかじめ与えておいた足きり基準が0.7で、計算された精度が2/3≒0.67であるため、不正解となる。

一方、1-最近傍法の場合に２つの分類ラベルが不一致のとき、またはk-最近傍法の場合に精度が足きり基準を満たさないときは（不正解の場合）、選択したピーク特徴列から任意のピーク点１つを取り外した特徴列と、上記Ｍ−１個の時系列データ（またはピーク特徴列）との比較を行い正解か不正解かを同様に判定することを、選択したピーク特徴列に含まれる各ピーク点について行う（すなわちピーク点の数だけの正解および不正解が、上記選択したピーク特徴列から得られる）。

正解が得られた特徴列についてはこれを重要ピーク特徴列として得る。この時点で正解が得られた特徴列の一例を図２０の下段に示す。不正解が得られた特徴列については、この不正解が得られた特徴列から任意のピーク特徴点１つをさらに取り外した特徴列と、上記Ｍ−１個の時系列データ（またはピーク特徴列）との比較を行い正解か不正解かを判定することを、該特徴列に含まれる各ピーク点について同様に行う。これでも正解が得られない特徴列については、開始点と終了点の２つの点になるまで、以上の処理を繰り返す。この時点でも不正解の特徴列については、捨ててしまうこととする。

ここで、距離の計算方法の一例について簡単に説明する。図２１および図２２は、距離の計算例をそれぞれ示す。ここでは波形Ａから得られたピーク特徴列から１番目のピーク点（点２）を除いた特徴列と、時系列データとの距離を求める例が示されている。

図２１の例では、特徴列に含まれる各点（ピーク点、開始点または終了点）から、比較対象となる時系列データに対する部分距離をそれぞれ求め、これを合計した値を距離として得ている。具体的に、比較対照となる時系列データの点集合において、特徴列の点（ピーク、開始点または終了点）と同一の時刻と、この時刻の前後の時刻との３つの時刻の各点に対する部分距離を、特徴列の点から計算し（後述する図２４も参照されたい）、計算した３つの点のうち最も部分距離の小さいものを選択する。そして特徴列の各点について選択した部分距離を合計した値を距離として得る。つまり、特徴列の点の時刻から所定の時間範囲Ｒに含まれる、上記時系列データの各点に対する部分距離をそれぞれ計算して最も小さい部分距離を選択し、特徴列の各点について選択した部分距離を合計した値を距離として得る。

図２２の例では、特徴列に含まれる点（ピーク、開始点または終了点）から、所定の時間範囲Ｒ内で、この特徴列を生成するもととなった時系列データの点を選択し、選択した各点から、比較対象となる時系列データにおける同じ時刻の点までの部分距離を計算する。仮に比較対象となる時系列データに同一時刻の点がないときは該時刻に一番近い点同士の間を補完処理することにより該同一時刻の点を仮想的に算出し、部分距離を計算すればよい。具体的に、図２２では、時間範囲Ｒ＝３の例が示されている（観測時刻３つ分だけを含む時間範囲）。特徴列に含まれる点自身と、その点より１観測時刻後の点と、その点より１観測時刻前の点との３つの点を選択している（ただし開始点ｊについては自身の点と、１および２観測時刻後の点、終了点については自身の点と１および２観測時刻前の点とを選択している）（後述する図２５も参照されたい）。選択した点からの部分距離が最小のものを選択し、選択した部分距離を特徴列の各点について合計した値を最終的な距離として得る。

ここではピーク特徴列と時系列データとの距離を計算する例を示したが、ピーク特徴列間の距離についても同様の考え方により計算できる。たとえば、一方のピーク特徴列における点から所定の時間範囲に入る他方のピーク特徴列の点までの部分距離を計算し（所定の時間範囲に入る点が複数あるときは最も近い部分距離を選択する）、計算した部分距離を上記一方のピーク特徴列の各点について合計した値を距離として得ればよい。所定の時間範囲に入る他方の特徴列の点が存在しない場合は、所定のペナルティ値をその点については与えればよい。

ここで、以上に述べたようなピーク選定部の計算処理は、ピーク特徴列集合データベース１６内のピーク特徴列の数と、ピーク特徴列に含まれる点の数との増大に応じて計算量が増大することが予測される。この計算量を削減し改良する方法として、ピーク特徴列集合データベース１６からランダムに限定された個数だけを取り出して比較処理を行うことで、すなわち乱数を用いて比較対照のピーク特徴列を所定数だけ取り出すことで、計算量を削減し、処理時間を短縮することができる。

分類未知時系列データ集合データベース１９は分類ラベルが未知の時系列データ（分類未知時系列データ）の集合を格納している。分類未知時系列データ集合データベース１９の一例を図２３に示す。

分類未知データ入力部２０は、分類未知時系列データ集合データベース１９から分類未知時系列データを読み出して、予測部２１に入力する。

予測部２１は、k-最近傍法に基づき、重要ピーク特徴列集合データベース１８内の各重要ピーク特徴列を用いて、分類未知データ入力部２０から入力された分類未知時系列データに対する分類ラベルを判別する。たとえば未知の時系列データ（時系列波形）Ｃが与えられたとき、時系列データＣと、各重要ピーク特徴列との距離を図ることにより、時系列データＣの分類ラベル（すなわち時系列波形Ｃの動作が、太極拳の動作か、ロボット模擬動作のいずれであるか）を判定する。たとえば、1-最近傍法の場合、未知の波形Ｃとの距離が最も近い時系列データの分類ラベルを予測結果とする。図２４および図２５に予測の例を示す。図２４は前述した図２１と同様の方法により距離を求める例を示している。図２５は前述した図２２と同様の方法により距離を求める例を示している。

ここでは未知の時系列データそのものを用いて各重要ピーク特徴列との距離を計算したが、分類ラベルが未知の時系列データに対してピーク特徴抽出部１５およびピーク選定部１７のうち少なくとも前者による処理を行ってピーク特徴列または重要ピーク特徴列を生成し、分類ラベルが未知の時系列データから生成したピーク特徴列または重要ピーク特徴列と、重要ピーク特徴列集合データベース１８内の各重要ピーク特徴列との比較を行うことにより距離を計算するようにしても良い。この場合の距離の計算は、たとえば前述したピーク選定部１７と同様にして行うことができる。

結果表示部２２は、予測部２１によって判別された判別結果（分類ラベル）および判別の対象となった時系列データを図示しないディスプレイに表示する。

本実施形態の効果として、分類精度を落とすことなく大幅なデータ量の削減が可能である。たとえば、波形Ａの場合、図２０の例に示すように、元の時系列データの観測点（サンプリング点）はたとえば４０個あるが、この波形Ａから得られた重要ピーク特徴列における特徴点（ピーク点、開始点、終了点）は６個であり、波形Ａに代えて重要ピーク特徴列を記憶することで、85%（40→6）もサンプリング点を削減できる。１つの波形から複数の重要ピーク特徴列が生成される場合も、波形のサンプリング点のデータ量が実際には膨大であるため、十分にデータ量削減の効果を得ることができる。また、波形ではなく、サンプリング点が削減されたデータ（重要ピーク特徴列）を用いることにより予測部２１での判別にかかる処理時間を短縮することもできる。場合によっては、すべての点（波形）を使ったものよりも判別が頑健となり、精度が向上する可能性がある。

（第２の実施形態）
第１の本実施形態では、ピーク特徴抽出部１５において、各波形分割区間を対象にピーク点の検出を行ったが、さらに細かいピーク検出を行うこともできる。すなわち、波形分割区間で２つ以上のピーク点が検出された場合、検出されたピーク点のうちの２つで囲まれる区間を対象として、上述したピーク検出をさらに行う。これを、あらかじめ決めておいた最大繰り返し段数を限度として行う。以下本実施形態について詳細に説明する。

図２６は、図１０に示した部分時系列波形においてさらに細かくピーク検出を行う例（例４）を示す。

境界付近前部振幅絶対値最大時刻と、振幅絶対値最大時刻（＝境界付近後部振幅絶対値最大時刻）とで囲まれる区間を対象として、ピーク検出がさらに行われている。本例において、最大繰り返し段数を2段以上にしておいた場合、2段目の処理では、ピーク点が１つのみ検出されるため、ここで処理は完了する。

つまり、最初の繰り返しステップ（１段目）では、基準線と波形との交点を区間の開始点および終了点としてピーク検出を行うが、次回以降の繰り返しステップ（２段目以降）では、１段目で検出した区間の境界付近前部振幅絶対値最大時刻および境界付近後部振幅絶対値最大時刻をそれぞれ区間の開始点および終了点として、区間をさらに狭めていく。この狭まった区間の中で、１段目と同様に、振幅絶対値最大時刻、境界付近前部振幅絶対値最大時刻、境界付近後部振幅絶対値最大時刻およびこれらの振幅値を求める。アルゴリズムの停止条件（たとえばピーク点が１つのみ検出される）に当てはまったら、現在の繰り返し段数があらかじめユーザが決めた最大繰り返し段数を下回っていても、その時点でその区間の繰り返し処理を停止する。

（第３の実施形態）
本実施形態は、第１および第２の実施形態の方法では検出できない特徴点をも抽出しようとするものである。たとえば図２７に示すような点（曲がり角）は、第１および第２の実施形態の方法では抽出することができない。本実施形態ではこのような点も波形（時系列データ）の特徴点として抽出する。

図２８は本実施形態におけるピーク特徴抽出部１５の処理の一例を説明する図である。

ピーク特徴抽出部１５は、時系列データの開始点および終了点、時系列データと基準線との交点、および、各区間から抽出したピーク点の点集合において、隣接する任意の点同士を線分で結ぶ。そして、結んだ線分から、時系列データに対する垂線を引き、垂線の長さが最大になるときの該垂線と時系列データとの交点を特徴点として検出する。垂線の長さはたとえば図２９に示す計算式より計算することができる。ピーク特徴抽出部１５はこのようにして抽出した特徴点をピーク特徴列に含める。このような方法により、時系列データにおいて特徴ある曲がり角を特徴点として抽出することが出来るようになる。

図３０および図３１は本実施形態におけるピーク特徴抽出部１５の他の処理例を説明する図である。

図３０および図３１（Ａ）に示すように、区間の開始点t_bgn（または終了点t_end）、または、検出したあるピーク点t_absmax3を通る時間軸に平行な移動直線を、ピーク点t_absmax3または区間開始点t_bgnの方向に時間軸に垂直な方向に平行移動させていく。平行移動は、波形におけるデータ点（観測点）を１点ずつ移動する、または、等間隔で移動することとする。図３１（Ｂ）のように、区間開始点（または区間終了点）を通り時間軸に垂直な直線と、基準線と、移動直線と、ピーク点を通り時間軸に垂直な線とで囲まれる矩形領域を、時系列波形（時系列データ）があらかじめ定められた比率で２分するときにおける移動直線と時系列波形との交点を、図３１（Ｃ）のように特徴点として検出する。ピーク特徴抽出部１５は、このようにして抽出した特徴点をピーク特徴列に含める。このような方法により、時系列データにおいて特徴ある曲がり角を特徴点として抽出することが出来るようになる。

図３２のような上に凸の波形の場合も、図３０および図３１と同様の方法で、特徴ある曲がり角を特徴点として抽出できる。つまり、区間から検出したピーク点を通る時間軸に平行な第１および第２の直線を設定し、第２の直線を区間の区間開始点または区間終了点の方向に時間軸に垂直に移動させていく。そして、区間開始点または区間終了点を通り時間軸に垂直な直線と、第１の直線と、第２の直線と、ピーク点を通り時間軸に垂直な線とで囲まれる領域を時系列データがあらかじめ定められた比率で分割するときにおける、第２の直線と時系列データとの交点を検出する。ピーク抽出部１５は、検出した交点をピーク特徴列に含める。

なお、特徴点を増やしたい場合は、図３３のように、ピーク特徴列にて見つけた隣り合う特徴点ではさまれる区間の長さが波形中の中で最も長い部分の点を全て採用してもよい。こうすることで、データ削減効果を少し犠牲にすることにはなるが、ピーク特徴列同士の距離が元の波形同士の距離と近くなり、距離計算がより正確になるとい効果が得られる。

（第４の実施形態）
本実施形態は、第１の実施形態で述べたピーク選定部１７および予測部２１の処理を拡張したことを特徴とする。

本実施形態におけるピーク選定部１７は、重要ピーク特徴列を重要ピーク特徴列集合データベース１８に格納する際に、重要ピーク特徴列の精度（または精度に応じて決まる精度クラス）をキーとした並び替えを行う。これは、精度自体を計算できる必要があることから、ピーク選定部１７にてk>1の最近傍法を用いた場合（図１９参照）に限られる。予測部２１は、予測の際、このように精度（または精度クラス）をキーとして並べられた重要ピーク特徴列のうち、たとえば精度の高いデータのみを用いて予測を行う。たとえば処理時間に閾値が与えられているとき、閾値の時間に達するまで、精度の高い重要ピーク特徴列から順番に用いて処理を行い、閾値の時間に達したら処理を終了し、その時点までの処理結果に基づいて、判別結果を得る。これにより、短時間かつ高精度の予測結果を得ることができる。

また、ピーク選定部１７は、各重要ピーク特徴列の精度に基づいて各重要ピーク特徴列に含まれるピーク点の重要度を計算する。予測部２１は、重要度の大きいピーク点だけ（たとえば上位Ｘ個）を先に用いて（開始点と終了点は常に用いるようにしてもよい）、分類ラベルの予測を行い、時間が許す限り、順次重要度の高い順にピーク点を追加して予測を行うことで、単調に分類精度を向上させることができる。これは、分類のエニィタイムアルゴリズム化が可能になることを示しており、短時間でほぼ最高の分類精度を達成できるという効果が予想される（非特許文献２を参照）。

以下、重要度の計算方法について説明する。

ピーク選定部１７は、同じ分類ラベルをもつ各重要ピーク特徴列を、時間軸と観測値の軸とをもつ座標系に配置し、時間軸を所定の時間長ごとに区切り、同じ時間範囲内に固まって存在する、各重要ピーク特徴列のピーク点の重要度wjを計算する。

図３４は、５つの重要ピーク特徴列を上記座標系に配置し、時間幅Ｒ＝３で時間軸を区切った例を示す。Ｒ＝３は、たとえば３つの観測時刻を含む時間幅（＝隣接する観測時刻の間隔×３）に相当する。ここで、２つ以上のピーク点が含まれている区間のみピーククラスタpcとすると、６個のピーククラスタpc1〜pc6が得られる。pc1={4,5},pc2={1,2,3,4,5}、・・・pc6={1,2,4}である。{}の中の数値は重要ピーク特徴列のIDである。各ピーククラスタpcjに含まれているピーク点の数をfpj、各重要ピーク特徴列の精度をacci(iは重要ピーク特徴列のID)、同じ分類ラベルをもつ重要ピーク特徴列の個数をＮとすると、ピーククラスタpcjに含まれている各ピーク点の重要度wjは以下の式で計算できる。ただしいずれのピーククラスタにも含まれないピーク点の重要度は０とする。

たとえばピーククラスタpc1に含まれている各ピーク点の重要度w1は図３５に示すように0.167になる。ただし、各重要ピーク特徴列の精度は図３６のようにあらかじめ計算済みであるとする。

（第５の実施形態）
図３７は、本実施形態としての時系列データ削減装置（時系列データ処理装置）の構成を示すブロック図である。

本装置は、図１の時系列データ分類装置から予測部２１と分類未知時系列データ集合データベース１９を取り除いたものに相当する。訓練用時系列データ集合データベース１１から読み出した時系列データから重要ピーク特徴列を生成して保存し、重要ピーク特徴列を生成するもととなった時系列データを含む事例をたとえば訓練用時系列データ集合データベース１１から消去することで、時系列データの重要な特徴を落とすことなく大幅なデータ量の削減が可能である。本装置は、ピーク特徴列または重要ピーク特徴列が生成された時系列データを訓練用時系列データ集合データベース１１から消去する時系列データ消去手段を備えてもよい。

ピーク選定部１７は、各重要ピーク列の精度を求め、あらかじめ決められた足切り基準を上回る精度の重要ピーク列のみを選択して、重要ピーク特徴列集合データベース１８に格納してもよい。これにより、あらかじめデータの格納領域のサイズが制限されている場合に、このサイズに合わせて、時系列データがもつ特徴をなるべく失うことなく、記憶すべきデータ量を削減できる。

また第１の実施形態で述べたように、ピーク選定部１７における計算処理は、ピーク特徴列集合データベース１６内のピーク特徴列の数と、ピーク特徴列に含まれる点の数との増大に応じて計算量が増大することが予測される。したがって、この計算量を削減し改良する方法として、ピーク特徴列集合データベース１６からランダムに限定された個数だけを取り出して比較処理を行うことで、すなわち乱数を用いて比較対照のピーク特徴列を所定数だけ取り出すことで、計算量を削減し、処理時間を短縮することができる。また、前述したように、ピーク特徴列と時系列データとを比較して距離を求める場合は、訓練用時系列データ集合データベース１１からランダムに限定された個数だけを取り出して比較処理を行うことで、同様の効果が期待できる。

なお、背景技術の欄に掲げた特許文献１〜３について本願発明との関係を簡単に説明しておくと以下の通りである。

特許文献１（特開平7-141384号公報）は，入力される（時系列）数値データに基づいて記号ラベルを割り当てて分かりやすくユーザにデータパターンを提示することが主な目的であり、この方法を利用すると自動分類が容易になるとあるが，（時系列）数値データを有限の記号ラベルに変換した時点で、情報の粒度が非常に大きくなり、データに含まれるノイズや位相のずれなどに結果が影響されて分類精度が低下する可能性があることが予測されるなどの問題がある。本提案では、記号化を行わず、この特許文献に記載されている方式とは異なる。

特許文献２（特開2007-49509号公報）は、紙幣識別装置などにおいて、識別精度を落とさずに、時系列データのデータ削減を行うものであり、判別を目的としたデータ削減という点は類似しているものの、基本的には平均計算による圧縮方法であり、本提案における方式とは異なる。

特許文献３（特開2006-338373号公報）は、あらかじめ決められた分割窓幅で最小区間を定義してから特徴量を計算する。部分波形ごとにこの特徴量を使って記号ラベル付けし、複数波形の規則性を求めるものであり、本特許提案で取り扱っている問題とは異なる。

本発明の第１の実施形態としての時系列データ分類装置の構成を示す。訓練用時系列データ集合データベースの一例を示す。異なる分類ラベルをもつ時系列データ（波形）A、Bの例を示す。ノイズ処理の例を示す。選定波形データベースの一例を示す。波形選定部の処理の例を示す。波形A、Bに対し基準線を引くことにより波形A、Bを基準化する例を示す。基準線と波形A、Bとの交点を示す。ピークの検出例１を示す。ピークの検出例２を示す。ピークの検出例３を示す。波形Ａから得られたピーク特徴列の例を示す。波形Aから検出されたピーク点を示す。波形Ｂから得られたピーク特徴列の例を示す。ピーク特徴列集合データベースの一例を示す。ピーク特徴抽出部の処理フローを示す。重要ピーク特徴列集合データベースの一例を示す。ピークの選定における計算（重要ピーク特徴列の算出）例１を示す。ピークの選定における計算（重要ピーク特徴列の算出）例２を示す。時系列データから選定された特徴点（重要ピーク特徴列）の例を示す。ピーク選定部における距離の計算の一例を示す。ピーク選定部における距離の計算の他の例を示す。分類未知時系列データ集合データベースの一例を示す。予測部における距離の計算の一例を示す。予測部における距離の計算の他の例を示す。詳細なピーク検出の例（検出例４）を示す。垂線長最大の性質を利用した特徴点抽出の例を示す。垂線を利用した特徴点抽出の例を示す。垂線長の計算方法を示す。移動直線の平行移動を利用した特徴点抽出の例を示す。図３０に続いて特徴点抽出の例を示す。移動直線の平行移動を利用した特徴点抽出の他の例を示す。波形Aにおけるピーク特徴ベクトルの例２を示す。ピーク点の重要度の計算例を説明する。図３４に続いて、ピーク点の重要度の計算例を説明する。各重要ピーク特徴列の精度を示す。本発明の第５の実施形態としての時系列データ削減装置の構成を示す。

符号の説明

１１：訓練用時系列データ集合データベース（第１のデータベース）
１２：訓練データ入力部
１３：波形選定部（事例選定部）
１４：選定波形データベース（第４のデータベース）
１５：ピーク特徴抽出部
１６：ピーク特徴列集合データベース（第２のデータベース）
１７：ピーク選定部
１８：重要ピーク特徴列集合データベース（第３のデータベース）
１９：分類未知時系列データ集合データベース
２０：分類未知データ入力部（データ入力部）
２１：予測部
２２：結果表示部

Claims

観測対象から観測された観測値を時系列に記録した時系列データと、前記時系列データが得られたときの前記観測対象の状態または種別を表す分類ラベルとを含む事例を複数格納した第１のデータベースと、
各前記時系列データを時間軸および前記観測値を表す軸により構成される座標系に展開し、展開された時系列データに交差する基準線を時間軸に沿って設定し、前記展開された時系列データと前記基準線との交点を検出し、隣接する交点により形成される各区間から前記展開された時系列データのピーク点を検出して、検出したピーク点の集合を含むピーク特徴列を生成するピーク特徴抽出部と、
前記ピーク特徴抽出部によって生成された各前記ピーク特徴列を、各前記ピーク特徴列を生成するもととなった時系列データの分類ラベルと関連づけて格納する第２のデータベースと、
分類ラベルを予測するべき時系列データを入力するデータ入力部と、
前記データ入力部により入力された時系列データに付与すべき分類ラベルを前記第２のデータベースに基づき予測する予測部と、
を備えた時系列データ分類装置。
前記ピーク特徴抽出部は、前記展開された時系列データの振幅方向の基準値を求め、求めた基準値を通る、時間軸に平行な線を引くことにより前記基準線を設定することを特徴とする請求項１に記載の時系列データ分類装置。
前記ピーク特徴抽出部は、前記隣接する交点のうち時間的に前方にある区間開始点から、時間的に後方にある区間終了点に向けて探索を行うことにより最初に見つかる第１ピーク点と、前記区間終了点から前記区間開始点に向けて探索を行うことにより最初に見つかる第２ピーク点とを検出することを特徴とする請求項１または２に記載の時系列データ分類装置。
前記ピーク特徴抽出部は、さらに、前記隣接する交点により形成される区間において最も振幅が大きい第３ピーク点を検出することを特徴とする請求項３に記載の時系列データ分類装置。
前記ピーク特徴抽出部は、前記第１ピーク点と前記第２ピーク点が同一であるときは前記第３ピーク点の検出を省略することを特徴とする請求項４に記載の時系列データ分類装置。
前記ピーク特徴抽出部は、１つの区間から複数のピーク点を検出したとき、前記複数のピーク点のうちの２つを開始点および終了点とする新たな区間においてさらにピーク点検出を行うことを特徴とする請求項１ないし５のいずれか一項に記載の時系列データ分類装置。
前記ピーク特徴抽出部は、前記展開された時系列データの始点および終点と、前記展開された時系列データと前記基準線との交点と、各前記区間から抽出したピーク点とを含む点集合から選択した隣接する任意の点同士を結ぶ線分から、前記展開された時系列データに対する長さが最大になる垂線と前記展開された時系列データとの交点を検出し、検出した交点を前記ピーク特徴列に含めることを特徴とする請求項１ないし６のいずれか一項に記載の時系列データ分類装置。
前記ピーク特徴抽出部は、
前記区間の区間開始点または区間終了点を通る時間軸に平行な移動直線を、前記区間内のピーク点の方向に時間軸に垂直に移動させていき、
前記区間開始点または前記区間終了点を通り時間軸に垂直な直線と、前記基準線と、前記移動直線と、前記ピーク点を通り時間軸に垂直な線とで囲まれる領域を前記展開された時系列データがあらかじめ定められた比率で分割するときにおける、前記移動直線と前記展開された時系列データと交点を検出し、検出した交点を前記ピーク特徴列に含めることを特徴とする請求項１ないし６のいずれか一項に記載の時系列データ分類装置。
前記ピーク特徴抽出部は、
前記区間から検出したピーク点を通る時間軸に平行な第１および第２の直線を設定し、
前記第２の直線を前記区間の区間開始点または区間終了点の方向に時間軸に垂直に移動させていき、
前記区間開始点または前記区間終了点を通り時間軸に垂直な直線と、前記第１の直線と、前記第２の直線と、前記ピーク点を通り時間軸に垂直な線とで囲まれる領域を前記展開された時系列データがあらかじめ定められた比率で分割するときにおける、前記第２の直線と前記展開された時系列データとの交点を検出し、検出した交点を前記ピーク特徴列に含めることを特徴とする請求項１ないし６のいずれか一項に記載の時系列データ分類装置。
前記第１のデータベースまたは前記第２のデータベースに基づき得られる分類器に与えたときに、正解の分類ラベルが所望の精度で得られるピーク点の集合を含む重要ピーク特徴列を、各前記ピーク特徴列の各々から複数のピーク点を選定することにより生成するピーク選定部と、
前記ピーク選定部によって生成された各重要ピーク特徴列を、前記重要ピーク特徴列を生成するもととなったピーク特徴列の分類ラベルと対応づけて格納する第３のデータベースとをさらに備え、
前記予測部は、前記データ入力部により入力された時系列データに付与すべき分類ラベルを前記第３のデータベースに基づき予測する、
ことを特徴とする請求項１ないし９のいずれか一項に記載の時系列データ分類装置。
前記ピーク選定部は、前記各重要ピーク特徴列の分類精度を計算し、
前記予測部は、あらかじめ与えられた閾値時間内で、前記分類精度の高い重要ピーク特徴列から優先的に用いて、前記分類ラベルの予測を行う、
ことを特徴とする請求項１０に記載の時系列データ分類装置。
前記ピーク選定部は、前記各重要ピーク特徴列の分類精度を計算し、
前記第３のデータベースは、前記分類精度があらかじめ与えられた足切り基準を満たす重要ピーク特徴列のみ格納することを特徴とする請求項１０または１１に記載の時系列データ分類装置。
前記ピーク選定部は、前記各重要ピーク特徴列の分類精度を計算し、前記各重要ピーク特徴列の分類精度を利用して前記各重要ピーク特徴列に含まれる点の重要度を計算し、
前記予測部は、あらかじめ与えられた閾値時間内で、前記各重要ピーク特徴列において重要度の高い点から徐々に使用する点の数を増やしながら前記分類ラベルの予測を行うことを特徴とする請求項１０ないし１２のいずれか一項に記載の時系列データ分類装置。
前記ピーク選定部は、前記各重要ピーク特徴列に含まれる点を所定の時間間隔で区分し、区分による各区間に含まれる点の重要度を、前記区間に含まれる点の個数と、前記各重要ピーク特徴列の個数と、前記各重要ピーク特徴列の分類精度とに基づき計算する、ことを特徴とする請求項１３に記載の時系列データ分類装置。
前記ピーク選定部は、前記ピーク特徴列から任意の複数の点を選択し、選択した複数の点からなる点列と前記第１のデータベース内の各時系列データまたは前記第２のデータベース内の各ピーク特徴列との距離を計算し、距離がもっとも近い上位ｋ（ｋは１以上の整数）個の時系列データまたはピーク特徴列の各分類ラベルに基づき計算される分類精度が前記所望の精度を満たすとき、前記複数の点からなる点列を前記重要ピーク特徴列として採択することを特徴とする請求項１０ないし１４に記載の時系列データ分類装置。
前記ピーク選定部は、前記選択した複数の点からなる点列との距離を計算するべき時系列データまたはピーク特徴列を、乱数を用いて前記第１または第２のデータベースから所定数選択することを特徴とする請求項１５に記載の時系列データ分類装置。
前記第１のデータベースに基づき得られる分類器に与えたときに、正解の分類ラベルが所望の精度で得られる時系列データを含む事例を前記第１のデータベースから選定する事例選定部と、
前記事例選定部によって選定された事例を格納する第４のデータベースと、をさらに備え、
前記ピーク特徴部は、前記第４のデータベースに含まれる各事例の時系列データから前記ピーク特徴列を生成する、ことを特徴とする請求項１ないし１６のいずれか一項に記載の時系列データ分類装置。
前記第１のデータベース内の各時系列データに含まれるノイズを除去するノイズ除去部をさらに備えたことを特徴とする請求項１ないし１７のいずれか一項に記載の時系列データ分類装置。
前記予測部により予測された分類ラベルを表示する表示部をさらに備えたことを特徴とする請求項１ないし１８のいずれか一項に記載の時系列データ分類装置。
観測対象から観測された観測値を時系列に記録した時系列データと、前記時系列データが得られたときの前記観測対象の状態または種別を表す分類ラベルとを含む事例を複数格納した第１のデータベースと、
各前記時系列データを時間軸および前記観測値を表す軸により構成される座標系に展開し、展開された時系列データに交差する基準線を時間軸に沿って設定し、前記展開された時系列データと前記基準線との交点を検出し、隣接する交点により形成される各区間から前記展開された時系列データのピーク点を検出して、検出したピーク点の集合を含むピーク特徴列を生成するピーク特徴抽出部と、
前記ピーク特徴抽出部によって生成された各前記ピーク特徴列を、各前記ピーク特徴列を生成するもととなった時系列データの分類ラベルと関連づけて格納する第２のデータベースと、
を備えた時系列データ処理装置。
前記ピーク特徴列が生成された時系列データを含む事例を前記第１のデータベースから消去する時系列データ消去手段をさらに備えたことを特徴とする請求項２０に記載の辞意系列データ処理装置。
前記第１のデータベースまたは前記第２のデータベースに基づき得られる分類器に与えたときに、正解の分類ラベルが所望の精度で得られるピーク点の集合を含む重要ピーク特徴列を、各前記ピーク特徴列の各々から複数のピーク点を選択することにより生成するピーク選定部と、
前記ピーク選定部によって生成された各重要ピーク特徴列を、前記重要ピーク特徴列を生成するもととなったピーク特徴列の分類ラベルと対応づけて格納する第３のデータベースと、
をさらに備えたことを特徴とする請求項２０または２１に記載の時系列データ処理装置。
前記ピーク選定部は、前記各重要ピーク特徴列の分類精度を計算し、
前記第３のデータベースは、前記分類精度があらかじめ与えられた足切り基準を満たす重要ピーク特徴列のみ格納することを特徴とする請求項２２に記載の時系列データ処理装置。
前記ピーク選定部は、前記ピーク特徴列から任意の複数の点を選択し、選択した複数の点からなる点列と前記第１のデータベース内の各時系列データまたは前記第２のデータベース内の各ピーク特徴列との距離を計算し、距離がもっとも近い上位ｋ（ｋは１以上の整数）個の時系列データまたはピーク特徴列の分類ラベルに基づき計算される分類精度が前記所望の精度が得られるとき、前記複数の点からなる点列を前記重要ピーク特徴列として採択するものであり、
前記選択した複数の点からなる点列との距離を計算するべき時系列データまたはピーク特徴列を、乱数を用いて前記第１または第２のデータベースから所定数選択することを特徴とする請求項２１ないし２３のいずれか一項に記載の時系列データ処理装置。
観測対象から観測された観測値を時系列に記録した時系列データと、前記時系列データが得られたときの前記観測対象の状態または種別を表す分類ラベルとを含む事例を複数格納した第１のデータベースを用意し、
各前記時系列データを時間軸および前記観測値を表す軸により構成される座標系に展開し、展開された時系列データに交差する基準線を時間軸に沿って設定し、隣接する交点により形成される各区間から前記展開された時系列データのピーク点を検出して、検出したピーク点の集合を含むピーク特徴列を生成し、
前記ピーク特徴抽出部によって生成された各前記ピーク特徴列を、各前記ピーク特徴列を生成するもととなった時系列データの分類ラベルと関連づけて第２のデータベースに格納し、
分類ラベルを予測するべき時系列データを入力し、
入力された時系列データに付与すべき分類ラベルを前記第２のデータベースに基づき予測する、
時系列データ分類方法。