JP2001282819A - データマイニング装置、データマイニング処理プログラムを格納したコンピュータ可読の記憶媒体、及びデータマイニング処理プログラム - Google Patents

データマイニング装置、データマイニング処理プログラムを格納したコンピュータ可読の記憶媒体、及びデータマイニング処理プログラム

Info

Publication number
JP2001282819A
JP2001282819A JP2001016875A JP2001016875A JP2001282819A JP 2001282819 A JP2001282819 A JP 2001282819A JP 2001016875 A JP2001016875 A JP 2001016875A JP 2001016875 A JP2001016875 A JP 2001016875A JP 2001282819 A JP2001282819 A JP 2001282819A
Authority
JP
Japan
Prior art keywords
processing unit
data
classification
data mining
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001016875A
Other languages
English (en)
Inventor
Masaki Iwamoto
昌己 岩本
Masato Honda
正人 本多
Koichi Tsuzuki
康一 都築
Toshihiko Fushimi
俊彦 伏見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2001016875A priority Critical patent/JP2001282819A/ja
Publication of JP2001282819A publication Critical patent/JP2001282819A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【課題】データマイニングにより発見した法則の表示を
改善して利用者が理解しやすくし、また発見した法則を
外部アプリケーションで活用する。 【解決手段】表示処理部36は、クラスタリング処理部
30による複数の分析項目毎の分類結果を各分析項目の
軸にプロットして折れ線とした平行座標グラフに、各分
割軸を並べて分割数と分類結果のつながりを同時に折れ
線で表示する。また厚いほど適切な分割数を示す年輪図
形52を表示する。表示処理部42は、クラシフィケー
ション処理部32の処理結果として得られた樹状図を折
り畳みやソート等により分り易く表示する。出力処理部
44はクラシフィケーションにより発見した未知の規則
を外部アプリケーションで利用可能な形態に変換して出
力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、クラスタリング又
はクラシフィケーションといった数学的手法によりデー
タに隠された未知の法則を発見するデータマイニング装
置及びデータマイニング処理プログラムを格納した記憶
媒体に関し、特に、データマイニングで発見された未知
の法則を利用者が理解し易いように表示し、且つ外部的
に未知の法則を活用可能とするデータマイニング装置及
びデータマイニング処理プログラムを格納した記憶媒体
に関する。
【0002】
【従来の技術】近年、これまでの長期にわたり蓄積され
てきたギガバイトやテラバイトにおよぶ大量データか
ら、数学的手法で自動的にデータから未知の法則を発見
するデータマイニングが注目を浴びている。
【0003】データマイニングには、情報をある隠され
た法則のもとに分類、精製し、人手では見つけることが
できない情報を自動的に見つけ出す「発見的アプロー
チ」と、不確かな既知の情報を分析し、確かさを加える
「検証的アプローチ」がある。
【0004】従来、データマイニングはアプリケーショ
ンインタフェースを持つエンジンを呼び出し、その結果
をレポートするものである。この時、結果のレポート方
法は様々であり、分析アルゴリズム毎の視認性の高い表
示形式は未だ確立されていない。そのためデータマイニ
ングは、インテリジェンスの高いエンジン機能、性能を
持ちながら、一般のシステムに導入されるケースが少な
いという状況にある。
【0005】
【発明が解決しようとする課題】データマイニングに
は、類似した特性のデータをクラスタ(層)に分類して
未知の法則を抽出するクラスタリング(Clustering)
と、複数の分析項目をもつデータ群を対象に、特定の分
析項目の特性を他の分析項目を条件値に使った関数又は
プロフィールで表現することにより、未知の法則を抽出
するクラシフィケーション(Classification)とがあ
る。
【0006】クラスタリングは、従来、ワード(Ward)
手法と呼ばれるアルゴリズムなどを用いて、類似したデ
ータを同じグループに自動的にまとめていく。この場
合、ユーザの指定に応じ、何分割にもグループ分けをす
ることができる。
【0007】特開平11−15897号では、ある分割
数を指定してクラスタリングした結果を、平行座標グラ
フの複数の分析項目の軸にプロットしてレコード毎の折
れ線を重ね合せて表示している。
【0008】しかし、クラスタリングは指定された分割
数によりデータをグループ分けするが、何分割すれば一
番適切かは、平行座標グラフにクラスタリング結果を表
現してもすぐには分からない。このためには複数の分析
項目の各軸に注目し、データの傾向を分析していってど
の分割がよいかを判断することで、はじめて適切な分割
数を知ることができる。しかし、分割数が大きい場合や
分割の範囲が広い場合には、適切な分割数を決めるため
に大変な手間を必要とする。
【0009】一方、クラシフィケーションでは、決定木
や回帰木が一般的に採用されている。この決定木や回帰
木のアルゴリズムを利用して抽出された法則は、自動的
に生成される条件値によって分岐する樹状図の形式で可
視化されることが多い。
【0010】しかしながら、クラシフィケーションの結
果を表現する樹状図は、ルートを始点として多段階のノ
ードで分岐して最終的にリーフに至る複雑な多階層の表
示になりがちであり、このような樹状図から有意性のあ
る法則を把握することが困難である。
【0011】また、クラシフィケーションの結果として
得られる樹状図に表現された情報は、単に描画情報とし
て生成され、その中からユーザが有意な法則を発見する
ために利用されるに留まっている。
【0012】本発明の目的は、データマイニングにより
発見した法則の表示を改善して利用者が理解しやすく
し、有意性のある法則が見つけやすいようにしたデータ
マイニング装置、データマイニング処理プログラムを格
納したコンピュータ可読の記憶媒体、及びデータマイニ
ング処理プログラムを提供する。
【0013】また本発明の目的は、データマイニングに
より発見した法則を外部アプリケーションで活用できる
ようにしたデータマイニング装置、データマイニング処
理プログラムを格納したコンピュータ可読の記憶媒体、
及びデータマイニング処理プログラムを提供する。
【0014】
【課題を解決するための手段】図1は本発明の原理説明
図である。
【0015】本発明は、データ群に含まれた未知の法則
を発見するデータマイニング装置であり、図1(A)の
ように、データマイニングエンジンとして機能するクラ
スタリング処理部30とクラシフィケーション処理部3
2を備える。 1.クラスタリング まず本発明は、クラスタリング処理につき次の点を特徴
とする。
【0016】(分類結果と分割数の同時表示)本発明の
データマイニング装置は、2分割から任意の分割数Nま
での分割範囲を指定する分割数指定部34と、複数の分
析項目をもつデータ群を対象に2分割から指定分割数N
までの各分割数ごとに、類似した特性のデータを複数の
クラスタ(層)に分類するクラスタリング処理部30
と、クラスタリング処理部30による複数の処理結果を
同時に表示する表示処理部38とを備える。
【0017】特に表示処理部38は、図1(B)のよう
に、指定分割数Nの分類結果を各分析項目の軸にプロッ
トして折れ線とした平行座標グラフに表示する共に、2
分割から指定分割数N、例えばN=5分割まで各分割軸
を並べて分割の推移と分類結果のつながりを同時に折れ
線で表示する。
【0018】このように2分割から例えば5分割の指定
分割数まで分割軸の表示による分割の推移と指定分割数
におけるクラスタリングした結果を並べて同時に表示す
ることで、何故、データが分割された中の特定のグルー
プに分類されたのかを、再度別の視点から分析する必要
ができ、適切な分割数の判断を行いやすくする。
【0019】即ち、同時に複数の分析項目を比較するこ
とにより、顧客情報などをグルーピングする際に、どの
ようなグルーピングが妥当なのかを知ることができ、ク
ラスタリングを具体的なビジネス分野で利用することが
可能となる。
【0020】(分類結果と分割数の年輪表示)表示処理
部38は、図1(C)のように、2分割から指定分割数
Nまでの各分割数毎の分類結果を、年輪図形に変換して
表示する。この年輪図形は、内側の年輪から外側の年輪
に向けて分割数を順番に大きくなるように表現すると共
に、年輪の半径方向の幅(厚さ)に分割したクラスタ間
のデータ距離を表現し、最も幅の大きい年輪の分割数を
適切分割数と認識させることを特徴とする。
【0021】クラスタリングの特徴は、大量のデータを
独自のアルゴリズムによって、傾向が似通っているグル
ープに分割することであるが、分割する際の分割数は利
用者が指定する。また、指定した分割数が妥当か否かに
ついても、利用者が判断する。本発明の年輪図形は、分
割数ごとに分割の有意性を表示することにより、利用者
に妥当な分割数を提示することができる。これにより、
顧客情報などの複数の分析項目によるグルーピングを有
意に行うことが可能となる。
【0022】2.クラシフィケーション 次に本発明はクラシフィケーションとして次の特徴を備
える。
【0023】(ノードの折り畳み)本発明のデータマイ
ニング装置は、図1(A)のように、複数の分析項目を
もつデータ群を対象に、複数の分析項目の中の特定の分
析項目の特性を、他の分析項目を条件値とした未知の法
則を予測して生成するクラシフィケーション処理部32
と、クラシフィケーション処理部32の生成結果を樹状
図で表現して表示する際に、有意性のないノードを非表
示とした樹状図に変換して表示する表示処理部42とを
備える。
【0024】ここでデータ群の各々がもつ複数の分析項
目は、データの属性とかセグメントと言われており、例
えば属性の場合、クラシフィケーションとは、特定の属
性を他の属性群の値から予測する関数やプロフィールを
生成する手法ということができる。
【0025】クラシフィケーションとして決定木のアル
ゴリズムによって生成される樹状図は、確信度を元に機
械的に行われる枝狩りによってノードやリーフの重要性
が情報として提示される。しかし、多岐にわたる分析項
目の情報を決定木によって分類する場合には、ノードや
リーフの数が膨大なものになり、目視によって重要な情
報を見つけ出すことは不可能となる。この時、本発明
は、樹状図の中の不要な分岐条件を非表示とし、ノード
とリーフの関係を簡潔に表示する。
【0026】これにより、特性を知りたいある項目化さ
れた情報が、他の分析項目を条件とするどのような法則
に従って分類されているかを容易に把握することがで
き、顧客情報などにおける顧客の特性を把握することを
支援することが可能となる。
【0027】(絞り込み条件)本発明のクラシフィケー
ション処理部で取り扱うデータの範囲をユーザ指定によ
り絞り込む絞込み条件指定部40を設ける。絞込み条件
指定部40は、クラシフィケーションにおける階層数の
範囲、レコード数の範囲、各項目値の範囲などをユーザ
指定により絞り込む。
【0028】データマイニングを行うデータは、ギガバ
イトやテラバイトなど大量であり、全てのデータを使っ
た場合、データ分析や結果表示に膨大な時間がかかって
しまう。
【0029】本発明は、マイニングで取り扱うデータ範
囲を指定できることで、大量データを絞り込み、短時間
でマイニング分析できる。またマイニング結果から必要
な条件に該当するものだけを取り出せるため、有意性の
あるルールを抽出しやすくなる。
【0030】この絞り込み条件のユーザ指定は、クラス
タリングにも適用される。クラスタリングにおいて絞込
み条件指定部36は、レコード数の範囲、各項目値の範
囲なをユーザ指定して絞り込む。
【0031】(樹状図の改善)表示処理部42は、クラ
シフィケーション処理部32によりデータから抽出した
未知の法則の生成結果を樹状図で表現して表示する際
に、ノードやリーフの形、色、及び又は大きさに複数の
属性に基づいた変化を持たせる。表示処理部42は、例
えばレコード数と確信度を属性として樹状図のノードと
リーフを表現する図形、色、及び又は大きさを変化させ
る。
【0032】決定木として生成される法則やレコード
数、確信度などの数値情報は、基本的に樹状図内に文字
情報として提示されることが多い。本発明は、分岐節の
ノードやリーフの形状や色彩などによって数値情報を表
現することにより、より直感的にデータの傾向を捉える
ことが可能になる。
【0033】(樹状図のソート)表示処理部42は、ク
ラシフィケーション処理部32によりデータから抽出し
た未知の法則の生成結果を樹状図で表現して表示する際
に、ノードやリーフの有意性を評価し、有意性に基づい
て樹状図をソートする。このようにレコード数や確信度
によりノードとリーフの有意性を評価し、樹状図を有意
性の昇順又は降順にソートし、樹状図を分かりやく表現
し、隠れた法則の発見を容易にする。これにより、文字
情報として提示される条件文や、χ2 検定値などを検証
しなくても、似通った分類に属するデータをソートし、
絞込みなどを行うことが可能となる。
【0034】(データマイニング結果の活用)本発明の
データマイニング装置は、更に、クラシフィケーション
処理部32の処理結果を外部で利用可能な形態に変換し
て出力する出力処理部44を設けたことを特徴とする。
【0035】(データベース問合せ)出力処理部44
は、クラシフィケーション処理部32の結果から抽出し
た特定の法則を条件式に変換して外部に出力することを
特徴とする。この場合、出力処理部は、抽出法則を「I
F〜THEN〜」形式で生成し、この抽出法則をデータ
ベースで使用しているデータ抽出言語に変換して出力す
る。
【0036】出力処理部44は、抽出法則をデータベー
スで使用しているSQL文、LODQL文、MDBコマ
ンド等を制御するアプリケーションに対する問い合わせ
条件式に変換して出力する。
【0037】これによってデータマイニングの決定木、
回帰木によって生成されたデータの法則を、リレーショ
ナルデータベース、多次元データベース、マルチメディ
アデータベースへのデータ抽出条件文に指定してデータ
を抽出することを可能とする。
【0038】データマイニングの法則生成は、クラシフ
ィケーションのアルゴリズムが発見する未知の分類条件
を樹状図として表示するが、これをデータベースへのデ
ータ抽出条件として提示することにより、未知の条件の
切り口によりデータベースからデータ抽出が可能とな
る。
【0039】この結果、これまで発見できなかった新し
い分析項目条件の法則を利用した、顧客のランキング
や、マーケティング対象顧客の選別などに利用すること
ができる。
【0040】(スプレッドシート用マクロ)出力処理部
44は、抽出法則をスプレッドシートのマクロモジュー
ル(マクロ)に変換して出力する。このためデータマイ
ニングによって生成された「IF〜THEN〜」形式の
条件文をマイクロソフト・エクセル(Microsoft Excel
)等の著名なスプレッドシート製品で利用可能なフィ
ルタとして機能するマクロを生成する。
【0041】このようにデータマイニング結果から抽出
した一部の法則を、スプレッドシートのマクロモジュー
ルにフィードバックすることにより、データベースを分
析するツールの1つとしてデータマイニングの結果を活
用できる。
【0042】クラシフィケーションのアルゴリズムを利
用して生成されるデータの特徴を示す条件文を、エクセ
ル(Excel )などのスプレッドシートからデータ抽出す
るためのマクロモジュールとして生成することによっ
て、未知の切り口によるパソコン上での簡易的なデータ
抽出が可能となる。
【0043】これにより、マクロモジュールが再配布が
可能であるという特徴から、顧客情報から顧客を選別す
る際に、データマイニングが発見した未知の分析項目条
件を情報分析の切り口として利用することが可能とな
る。
【0044】(樹状図のテキスト化)出力処理部44
は、クラシフィケーション処理部32で得られた樹状図
を、外部アプリケーションで描画可能な描画情報に変換
して出力する。このようにクラシフィケーションの結果
として得られた樹状図の描画情報をテキスト化すること
により、本来、樹状図として表現される情報の分岐節の
条件、分岐条件に含まれるレコードの割合、条件の確信
度などを、ファイルに情報として出力し、他のアプリケ
ーションで樹状図を表示して利用できる。
【0045】クラシフィケーションのアルゴリズムのう
ち、最も一般的なものに決定木の結果表示としての樹状
図があるが、本発明は、決定木のアルゴリズムを使用し
た分析結果として得られた樹状図をユーザが利用可能な
描画情報に変換することにより、独立系ソフトウエア・
ベンダ(ISV:Independent Software Vender)の製品
や、利用者独自の樹状図を描画することを可能とする。
【0046】これにより、決定木のマイニングエンジン
を組み込んだ他製品を開発、利用することが可能とな
り、決定木利用の幅が広がる。
【0047】(抽出法則のカスタマイズ)出力処理部4
4は、クラシフィケーション処理部の結果から抽出した
「IF〜THEN〜」形式の法則を、ユーザが指定した
フォーマット形式に変換して出力する。これにより「I
F〜THEN〜」形式の法則であってもユーザが希望す
る形式にカスタマイズして表示できるインタフェース機
能を提供される。
【0048】このようにデータマイニングで発見した
「IF〜THEN〜」形式の法則をユーザの要望する形
式にカスタマイズできることで、データマイニングの結
果をフィードバックして実業務のデータ管理などで活用
できる。
【0049】また本発明は、データ群に含まれた未知の
法則を発見するデータマイニング処理プログラムを格納
したコンピュータ可読の記憶媒体を提供するものであ
り、この場合、データマイニング処理プログラムは装置
構成の場合と同じ機能を備えている。
【0050】(データマイニング処理プログラム)本発
明は、データ群に含まれた未知の法則を発見するデータ
マイニング処理プログラムを提供する。
【0051】本発明のデータマイニング処理プログラム
は、コンピュータに、2分割から任意の指定分割数Nま
での分割数の範囲を指定し、複数の分析項目をもつデー
タ群を対象に、2分割から前記指定分割数Nまでの各分
割数ごとに、類似した特性のデータを複数のクラスタ
(層)に分類し、前記分類による複数の処理結果を同時
に表示する、ことを実行させるまたデータマイニング処
理プログラムは、コンピュータに、複数の分析項目をも
つデータ群を対象に、複数の分析項目の中の特定の分析
項目の特性を、他の分析項目を条件値とした未知の法則
を予測して生成し、前記生成結果を樹状図で表現して表
示する際に、有意性のないノードを非表示とした樹状図
に変換して表示する、ことを実行させる。
【0052】またデータマイニング処理プログラムは、
コンピュータに、取り扱うデータ群の範囲をユーザ指定
により絞り込む絞み、複数の分析項目をもつデータ群を
対象に任意の分割数を指定し、類似した特性のデータを
前記分割数のクラスタ(層)に分類して分類結果を表示
し、複数の分析項目をもつデータ群を対象に、複数の分
析項目の中の特定の分析項目の特性を、他の分析項目を
条件値とした未知の法則を予測して生成し、ことを実行
させる。
【0053】またデータマイニング処理プログラムは、
コンピュータに、複数の分析項目をもつデータ群を対象
に、複数の分析項目の中の特定の分析項目の特性を、他
の分析項目を条件値とした未知の法則を予測して生成
し、前記生成結果を樹状図で表現して表示する際に、ノ
ードやリーフの形、色、及び又は大きさに複数の属性に
基づいた変化を持たせて表示させる、ことを実行させ
る。
【0054】またデータマイニング処理プログラムは、
コンピュータに、複数の分析項目をもつデータ群を対象
に、複数の分析項目の中の特定の分析項目の特性を、他
の分析項目を条件値とした未知の法則を予測して生成
し、前記生成結果を樹状図で表現して表示する際に、ノ
ードやリーフの有意性を評価し、該有意性に基づいて樹
状図をソートして表示させる、ことを実行させる。
【0055】更にデータマイニング処理プログラムは、
コンピュータに、複数の分析項目をもつデータ群を対象
に、複数の分析項目の中の特定の分析項目の特性を、他
の分析項目を条件値とした未知の法則を予測して生成
し、前記処理結果を外部で利用可能な形態に変換して出
力する、ことを実行させる。
【0056】
【発明の実施の形態】<目 次> 1.システム構成 2.クラスタリングの最適分割数 3.クラシフィケーションの結果表示改善 4.クラシフィケーションの出力処理 1.システム構成 図2はオンライン分析処理システム(OLAP: Online
Analytical Pricessing)と組み合わせた本発明のデー
タマイニング装置の機能ブロック図である。
【0057】図2において、クライアント10はユーザ
に対するグラフィックユーザインタフェース(GUI)
を提供し、サーバ12との間でオンライン分析処理シス
テム14と本発明のデータマイニング装置の処理機能を
実現する。
【0058】クライアント10にはオンライン分析処理
ツール16、GUIとしての表示部を構成するビジュア
ライザ18及びマイニングツール26が設けられてい
る。一方、サーバ12にはオンライン分析処理部20、
分析辞書22、及び分析対象となる大量データを格納し
たデータウェアハウス(DWH)24、更にデータマイ
ニング処理部28が設けられる。
【0059】オンライン分析処理システム14は、クラ
イアント10のオンライン分析処理ツール16とサーバ
12のオンライン分析処理部20及び分析辞書22で構
成される。
【0060】このオンライン分析処理システム14は、
データウェアハウス24に格納された大量のデータを、
帳票イメージをもつクロス集計表として整理した分析結
果を生成し、このクロス集計表を見ながらユーザで問題
点を見つけ、問題点の原因を突き止めるために使用す
る。具体的にはオンライン分析処理システム14は、情
報の切り口を管理ポインタとして定義し、この定義した
切り口ごとに集計処理を行ってクロス集計表の形でデー
タを整理している。
【0061】オンライン分析処理システム14による分
析処理の手順は、例えば次のようになる。ユーザは、オ
ンライン分析処理ツール16がビジュアライザ18によ
って提供する分析要求画面を使用し、オンライン分析処
理部20に分析要求を行う。この分析要求には管理ポイ
ンタとして分析するデータの切り口を定義する。
【0062】例えばデータウェアハウス24に車の販売
データとして車種を1レコードとしてそのフィールド
に、年、国、燃費(MPG)、シリンダ数、馬力、重
量、加速性といった項目(セグメント)を含むデータが
大量に格納されていた場合、例えば複数の項目のうちの
「年の値」を分析要求の切り口に定義する。
【0063】オンライン分析処理部20は、オンライン
分析処理ツール16からのユーザによる分析要求を受け
て、分析辞書22により具体的な分析項目をフィルタと
して抽出し、データウェアハウス24のデータを対象に
集計と加工処理を行い、集計結果をオンライン分析処理
ツール16に対し分析シート(明細データまたは集計
表)の形態で出力する。
【0064】オンライン分析処理ツール16はオンライ
ン分析処理部20からの分析結果を受けて、ビジュアラ
イザ18に分析シート(明細データまたは集計表)を表
示する。またビジュアライザ18には、分析結果として
得られた分析シートの各分析項目を軸として、各データ
の値をプロットして折れ線とした平行座標グラフを合わ
せて表示する。
【0065】本発明のデータマイニング装置は、クライ
アント10のマイニングツール26とサーバ12のデー
タマイニング処理部28で構成される。クライアント1
0のマイニングツール26は、ビジュアライザ18によ
る表示処理によってユーザに対するグラフィカル・ユー
ザ・インタフェースGUIとして機能する。
【0066】サーバ12にはデータマイニング処理部2
8が設けられている。この実施形態にあっては、データ
マイニング処理部28にクラスタリング処理部30とク
ラシフィケーション処理部32を設けている。
【0067】データマイニング処理部28はマイニング
ツール26からマイニング分析要求を受けた際に、オン
ライン分析処理システム14におけるクライアント10
のオンライン分析処理ツール16に分析結果として保存
されている分析シート(明細データまたは集計表)を対
象データとしてデータマイニングを行う。
【0068】このためマイニングツール26は、ユーザ
のデータマイニング処理部28に対するマイニング分析
要求に伴って、オンライン分析処理ツール16に保存さ
れている分析結果をマイニング対象データとしてオンラ
イン分析処理部20を経由して転送する。
【0069】データマイニング処理部28に設けたクラ
スタリング処理部30は、Word手法と呼ばれるアル
ゴリズム等を用いて、類似したデータを同じグループに
自動的にまとめていく分類処理を行う。このクラスタリ
ング処理における分割数はユーザが指定する。
【0070】本発明のクラスタリング処理部30にあっ
ては、クラスタリングにおける分割数は2分割から任意
のN分割までの分割数の範囲を分割数指定部34により
指定する。この分割数の範囲の指定は、マイニングツー
ル26側からのユーザ指定により任意の分割数Nの値を
設定することもできる。この実施形態にあっては、2分
割からN=5分割の分割数の範囲を指定した場合を例に
とっている。
【0071】分割数指定部34による分割数の範囲2〜
N=5の指定に基づき、クラスタリング処理部30は2
分割から5分割までの各分割数ごとに類似した特性のデ
ータを複数のクラスタ(層)、即ちグループに分類する
クラスタリングを行う。クラスタリング処理部30によ
る各分割数ごとの処理結果に基づき、表示処理部38が
クライアント10側のビジュアライザ18に各分割数ご
との複数の処理結果を同時に表示する。
【0072】またクラスタリング処理部30には絞り込
み条件指定部36が設けられる。絞り込み条件指定部3
6は、クラスタリング処理部30で取り扱うデータの範
囲をユーザ指定により絞り込む。クラスタリング処理に
おける絞り込み条件としては例えば次のものがある。 (1)対象データ群のレコード数の範囲 (2)各分析項目の値の範囲 クラスタリング処理部30に設けている表示処理部38
は、2分割から5分割までの複数のクラスタリング処理
結果の同時表示として、オンライン分析処理システム1
4の分析結果の表示に使用していると同様な平行座標グ
ラフを使用して、各分析項目ごとの分類結果を各分析項
目の軸にプロットして折れ線した平行座標グラフの表示
と共に、2分割から5分割までの各分割軸を並べて分割
の推移と分類の結果との繋がりを同時に折れ線で表示す
る。
【0073】また本発明のクラスタリング処理部30に
設けた表示処理部38は、クラスタリングによる2分割
から5分割までの分類結果を最適な分割数を判断するた
めの年輪図形に変換して表示する。
【0074】一方、データマイニング処理部28に設け
たクラシフィケーション処理部32は、オンライン分析
処理システム14の分析結果として得られた複数の分析
項目を持つ分析シートのデータ群を対象に、決定木のア
ルゴリズムに従って、複数の分析項目の中の特定の分析
項目の特性を他の分析項目を条件値として表現する未知
の法則を予測して生成する。
【0075】クラシフィケーション処理部32には、絞
り込み条件指定部40、表示処理部42及び出力処理部
44が設けられている。絞り込み条件指定部40はクラ
スタリング処理部30の絞り込み条件指定部36と同
様、クラシフィケーション処理部で取り扱うデータの範
囲をユーザ指定により絞り込む絞り込み条件を指定す
る。この絞り込み条件としては(1)処理結果として表
示される樹状図の階層数の範囲、(2)対象データのレ
コード数の範囲、(3)各分析項目の値の範囲、等があ
る。
【0076】クラシフィケーション処理部32の表示処
理部42は、クラシフィケーション処理結果を樹状図で
表現してビジュアライザ18によりユーザに対し表示す
る際に、有意性のあるデータをユーザが見つけ易いよう
に表示方法の改善を行う。このクラシフィケーション処
理結果の樹状図による表示の改善には、(1)有意性の
ないノードを非表示とする折り畳み処理、(2)有意性
のあるノードをノードの形や大きさ等によって表現する
処理、(3)有意性のあるノードを評価し、その評価結
果に基づき樹状図をソートする処理、等が含まれる。
【0077】更にクラシフィケーション処理部32には
出力処理部44が設けられる。出力処理部44は、クラ
シフィケーション処理部32の処理結果から発見された
未知の法則を単なるビジュアライザ18によるユーザに
対する表示情報として提供する以外に、この処理結果を
外部のアプリケーションで利用可能な形態に変換して出
力する機能を有する。
【0078】この出力処理部44による処理内容として
は、例えば(1)オンライン分析処理システム14等で
使用されるデータベース問合せ条件式への変換出力、
(2)オンライン分析処理システム14等のスプレッド
シートの分析フィルタとして使用されるマクロモジュー
ルへの変換出力、(3)樹状図を外部アプリケーション
で利用可能な描画情報とする変換出力、(4)処理結果
から抽出した未知の法則をユーザの希望フォーマットに
変換する編集出力、を含む。
【0079】図3は、オンライン分析処理システム14
に組み合わせた図2の本発明のデータマイニング装置に
おけるデータ処理の一例を示している。
【0080】オンライン分析処理システム14は、例え
ば集計シート46を分析結果として得るための分析要求
をオンライン分析処理ツール16からオンライン分析処
理部20に行う。
【0081】この分析要求に対応して分析辞書22で具
体的な分析項目のフィルタが生成され、データウェアハ
ウス24のデータファイル24−1,24−2,24−
3,24−4に格納されている大量のデータを対象に、
集計シート46の分析結果を得るための集計と加工が行
われ、処理結果がオンライン分析処理ツール16に通知
され、帳票イメージの集計シート46の作成が行われ
る。
【0082】オンライン分析処理システム14で生成さ
れる集計シート46は図4に取り出して示される。この
集計シート46を作成するために、データウェアハウス
24のデータファイル24−1〜24−4側には、例え
ば販売車両1台ごとに1レコードのデータが保存されて
いる。
【0083】このレコードのフィールドには属性情報と
して「年、国、MPG(燃費)、シリンダ数、馬力、重
量、加速性」を含んでおり、これらのフィールドの値が
集計シート46における上欄に並んだ分析項目の内容と
なる。この集計シート46は、分析要求における情報の
切り口として複数項目の中の「年の値」を定義して分析
要求を行った場合の分析結果である。
【0084】この切り口の定義は、必要に応じて他の項
目である「国」「MPG(燃費)」「シリンダ数」「馬
力」「重量」または「加速性」について定義することが
できる。定義する項目は1つであってもよいし複数であ
ってもよい。
【0085】本発明のデータマイニング装置は、図4に
示すようなオンライン分析処理システム14の分析結果
として得られた集計シート46のデータを対象に、デー
タの中に含まれている未知の法則を発見するためのデー
タマイニングを行う。
【0086】図3のクライアント10に設けているマイ
ニングツール26は、集計シート46の先頭項目にある
切り口としての「年の値」の特性が他の項目群の値によ
りどのような特性(関数又はプロフィール)として表わ
すことができるかのデータマイニング分析要求をデータ
マイニング処理部28に対し行う。
【0087】このデータマイニング分析要求は、例えば
「年の値はどのような特性か」となる形式で記述され
る。データマイニング分析要求の内容は「年の値」以外
に「国」「MPG(燃費)」「シリンダ数」「馬力」
「重量」または「加速性」のいずれを定義して要求する
こともできる。
【0088】例えば「国はどのような特性か」、「MP
G(燃費)はどのような特性か」、「シリンダ数はどの
ような特性か」、「馬力はどのような特性か」、「重量
はどのような特性か」または「加速性はどのような特性
か」といった分析要求をデータマイニング処理部28に
対し行うことができる。
【0089】このデータマイニング分析要求において
も、1つの特性のみならず複数の特性の組合せについて
分析要求を行うこともできる。またデータマイニング分
析要求における特定の項目の特性は、オンライン分析処
理システム14による集計シート46の切り口の項目に
対応していることから、オンライン分析処理システム1
4における分析要求の切り口の項目に対応してデータマ
イニング分析要求で求めようとする特性の項目をユーザ
は指定する必要がある。
【0090】マイニングツール26からのマイニング分
析要求を受けたデータマイニング処理部28のクラスタ
リング処理部30は、分割数指定部34により指定され
ている2分割からN分割例えば5分割の複数の分割数の
範囲を指定し、また絞り込み条件指定部36によりユー
ザからの指定された絞り込み条件を使用し、オンライン
分析処理システム14の分析結果として得られている集
計シート46のデータを対象に、類似した特性のデータ
を複数のクラスタ(層)即ちグループに分類するクラス
タリングを実行する。このクラスタリングによる処理結
果は、ビジュアライザ18により平行座標グラフ48と
して表示される。
【0091】図5は、図3のビジュアライザ18で表示
されたクラスタリング処理結果としての平行座標グラフ
48を取り出している。この平行座標グラフ48は、ク
ラスタリング処理の対象となる集計シート46の分析項
目である「年」「国」「MPG(燃費)」「シリンダ
数」「馬力」「重量」「加速性」に対応した7つの軸を
平行に配置し、各軸にレコードごとの値をプロットし、
同じレコードに属する各項目の値を直線で繋げた折れ線
のグラフで表現している。
【0092】また平行座標グラフ48の表示における分
割数は、5分割の指定に基づくクラスタリング結果の表
示である。この平行座標グラフ48によるクラスタリン
グ結果の表示によって、マイニング分析要求である「年
はどのような特性を持つか」について、左端に示す分析
項目「年」に対し、その右側に並べて示す「国、MPG
(燃費)、シリンダ数、馬力、重量、加速性」の各分析
項目におけるグループ分けの状態を視覚的に捉えること
ができる。
【0093】本発明にあっては、このようなクラスタリ
ング結果としての平行座標グラフ48の各分析項目の表
示に加え、分割数指定部34によって指定した2分割か
ら例えば5分割の各クラスタリング結果を、後の説明で
明らかにするように同時に表示することで、最適な分割
数が何であるかをユーザに認識させる。
【0094】再び図3を参照するに、マイニングツール
26より「年の値はどのような特性を持つか」となるマ
イニング分析要求を受けたクラシフィケーション処理部
32は、オンライン分析処理システム14の処理結果と
して得られている集計シート46のデータを対象に、決
定木のアルゴリズムに従って、分析要求により指定され
た分析項目「年の値の特性」は、他の分析項目となる
「国、MPG(燃費)、シリンダ数、馬力、重量及び加
速性」を条件とした未知の法則を予測して生成し、この
処理結果をビジュアライザ18により樹状図50として
表示する。
【0095】図6は、図3のビジュアライザ18に表示
したクラシフィケーション結果としての樹状図50を取
り出している。この樹状図50は、総レコード数をパラ
メータとして記述したルートSを起点に複数階層のノー
ドを含み、最後にリーフで終わっている。
【0096】即ちルートSを起点に、まずノードA0
1,B01,C01に分類される。このうちノードA0
1は、それ以下のノードがないことからリーフとなる。
ノードB01は更に、ノードB11,B12に分離す
る。このうちノードB12は下位のノードがないことか
らリーフとなる。
【0097】ノードB11はノードB21,B22に分
類され、更にノードB22はノードB31,B32とな
る。ここでノードB21,ノードB31,B32は最終
ノードであることからリーフとなる。更にノードC01
は、ノードC11,C12,C13,C14に分類さ
れ、これが最終ノードであることからノードC11〜C
14はリーフとなる。
【0098】この樹状図50におけるリーフB21,ノ
ードB22,リーフB31の部分を下側に取り出して拡
大している。ここでリーフB21は項目「クラスタリン
グで4分割したグループ=1グループ」の条件であり、
ここから「1グループの車の特性はMPG(燃費)が3
3.65以下」とする未知の法則を発見することができ
る。
【0099】またノードB22とリーフB31は「クラ
スタリングで4分割したグループ=3グループ」の条件
であることから、ここから「3グループの車の特性はM
PGは33.65より大きくて重量が2137を超え
る」とする未知の法則を発見することができる。ここで
リーフB21,B31及びノードB22に示された分析
項目「加速性」の下側に記述された数値は、全レコード
数=390に対する該当レコードの数を(該当レコー
ド)/(レコード総数)%の形で表現している。
【0100】本発明のクラシフィケーション処理部32
に設けた表示処理部42にあっては、図6のような処理
結果として得られた樹状図50のビジュアライザ18に
おける表現を改善して未知の法則をユーザに分かり易く
提示する。また図3のクラシフィケーション処理部32
に設けた出力処理部44は、図6の処理結果としての樹
状図50について外部アプリケーションで利用可能な形
態に変換して出力することになる。
【0101】図7は、図3のサーバ12側に設けたデー
タマイニング処理部28による処理動作のフローチャー
トである。まずステップS1で、クライアント10に設
けたマイニングツール26によるユーザのマイニング分
析要求を解析し、クラスタリング要求か否かをチェック
する。クラスタリング要求であればステップS2からス
テップS3に進み、クラスタリング処理を行う。
【0102】一方、クラシフィケーション処理であった
場合にはステップS4でそれを判別し、ステップS5に
進み、クラシフィケーション処理を実行する。またユー
ザ要求がステップS6でその他の要求であった場合に
は、ステップS7に進み、その他の処理として相関分析
や類似予測等を行う。 2.クラスタリングの最適分割数 図8は、図3のクラスタリング処理部30に設けた表示
処理部38による2分割から例えば5分割の分割数の範
囲の指定による複数のクラスタリング結果の同時表示を
行った平行座標グラフ52である。
【0103】平行座標グラフ52は、クラスタリングに
よる分類結果を表示する分類表示部54と、2分割から
5分割のグループ分けの状態を示す分割表示部56で構
成される。分類表示部54には分割数の範囲の最大分割
数である5分割を指定した場合のクラスタリング結果、
即ち図5に示した分析項目「年」の値を他の分析項目
「国、MPG(燃費)、シリンダ数、馬力、重量及び加
速性」を条件値として表わした平行座標グラフとして表
示される。
【0104】この分類表示部54の右側には分割範囲を
示す軸が5分割軸、4分割軸、3分割軸、2分割軸の順
番に並んで平行配置され、各分割軸には5分割を示す値
G51〜G55、4分割を示す値G41〜G44、3分
割を示す値G31〜G33、及び2分割を示す値G21
〜G22がプロットされている。
【0105】分割表示部56の2分割軸から5分割軸に
向けて、破線で示すように対象データのグループ分けの
折れ線が表示される。この分割軸におけるグループ分け
の折れ線は、例えば図9に示すような2分割から5分割
のクラスタリングによるグループ分けに基づいてプロッ
トされる。
【0106】図9(A)は対象データを2分割の指定で
クラスタリングした場合であり、グループG21とG2
2に分類される。図9(B)は3分割の指定であり、図
9(A)における2分割のうちのグループG22が2つ
に分けられてグループG33,G32となっている。
【0107】図9(C)は4分割の指定であり、図9
(B)の3分割におけるグループG33が2つに分けら
れてグループG43,G44となっている。更に図9
(D)は5分割の指定であり、図9(C)の4分割にお
けるグループG44が2つに分かれてグループG55,
G54となっている。
【0108】この図9に示した2分割から5分割までの
クラスタリングによるグループ分けに対応して、図8の
分割表示部56における2分割軸から5分割軸への破線
の折れ線によってグループ分けの様子が表示され、5分
割軸による5つのG51〜G55から、左の分析項目
「加速性」のレコードに対し折れ線が繋がっている。
【0109】このような分類表示部54と分割表示部5
6を同時に表示した平行座標グラフ52をユーザが見る
ことで、2分割から5分割に分割数が増えた場合に、5
分割のグループG51〜G55がどの分析項目から派生
しているかが明確に分かり、特にグループG51〜G5
5から派生する線を5つに色分けしておくことで各項目
における妥当な分割数を容易に発見することができる。
【0110】このため、クラスタリングによる分類の際
にどのような分割数が妥当であるかがユーザにおいて容
易に分かり、一番適切な分割数を認識することでクラス
タリング結果のビジネス分野での利用を更に有益なもの
とする。
【0111】図10は、図3のクラスタリング処理部3
0に設けた表示処理部38による最適分割数を判断する
ための年輪図形の説明図である。最適分割数の判断に使
用される年輪図形58は、中心円に対し例えば指定され
た分割数の範囲となる2分割から5分割について、各分
割数の指定によるクラスタリング結果のグループ分けの
状態を1つの年輪で表現する。
【0112】ここで年輪は、外へ行くほど分割数が大き
くなる。即ち、中心が分割なし、続いて2分割、3分
割、4分割、5分割の年輪となる。2分割から5分割の
各年輪は、半径方向で2分割、3分割、4分割、5分割
されている。
【0113】この場合の各年輪の分割は、図9の2分割
から5分割のクラスタリングによるグループ分けに対応
している。即ち、2分割にあっては左右のグループG2
1,G22に分割され、3分割にあっては2分割のグル
ープG22が3分割のグループG32とG33に分割さ
れる。
【0114】また4分割にあっては、3分割のグループ
G33が4分割のグループG43,G44に分割され
る。更に5分割にあっては、4分割のグループG44が
5分割のグループG54,G55に分割されている。
【0115】各分割の年輪の幅、即ち半径方向の厚みと
なる幅W2,W3,W4,W5は、グループ分けした際
のグループ間のデータ距離を表わしている。例えば2分
割の年輪におけるグループG21,G22は、図9
(A)のようなグループ分けとなっていることから、グ
ループG21,G22のそれぞれに含まれるレコードに
ついてデータ距離を算出する。データ距離の算出は、グ
ループG21,G22の平均座標位置を求め、この座標
位置からデータ距離を求めればよい。
【0116】したがって、ユーザは、年輪図形58を見
て、その幅が最も大きい分割数が最適分割数と判断する
ことができる。この場合、2分割の年輪の幅W2が最も
大きいことから、ユーザは年輪図形58を見て2分割が
適切な分割数であることを直ちに判断できる。
【0117】ここで図8の平行座標グラフによる適切分
割数の表示、または図10の年輪図形58による適切分
割数の表示は、両者を同時に行ってもよいしユーザ指定
により選択的に行うようにしてもよい。
【0118】図11は本発明のクラスタリング処理部の
処理動作のフローチャートである。まずステップS1で
ユーザからのデータマイニング分析要求を解析し、求め
ようとする特性の項目及びその項目の特性を表現する条
件値となる他の項目を認識する。例えばデータマイニン
グ分析要求が「年の値はどのような特性か」であれば、
特定項目を「年の値」し、この特性を表現する条件値の
項目を「MPG(燃費)、シリンダ数、馬力、重量、加
速性」とする。
【0119】次にユーザ指定の絞込み条件を設定する。
これは、レコード数の範囲、項目値の範囲等である。勿
論、全データを対象とする場合は設定なしとなる。次に
ステップS3で適切分割数の判断処理を伴うクラスタリ
ングを実行し、ステップS4でクラスタリングの結果と
して図5のような平行座標グラフを表示する。
【0120】図12は、図11のステップS3における
分割判断を伴うクラスタリング処理のフローチャートで
ある。まずステップS1で分割範囲の最大値となる分割
数Nを指定する。この最大分割数Nの指定は、装置に予
め設定したディフォルトの値を使用してもよいしユーザ
が任意に指定することもできる。
【0121】次にステップS2で、分割数2,3,・・
・Nの複数の分割数ごとにクラスタリングを行う。続い
てステップS3で、分割数Nのクラスタリング結果と分
割数2〜Nの分割数の繋がりを、図8のように平行座標
グラフ52に同時表示する。続いてステップS4で分割
数2〜Nの各々につき、各グループ間のデータ距離を計
算する。
【0122】続いてステップS5で、図10のように年
輪図形58を生成して表示する。最終的にユーザは、ス
テップS3で表示した平行座標グラフ及びまたはステッ
プS5で表示した年輪図形を参照して最適な分割数を判
断し、ユーザが選択した最適な分割数のクラスタリング
結果を例えば図5のように平行座標グラフ48で表示す
る。 3.クラシフィケーションの結果表示改善 図13は、図2のデータマイニング処理部28に設けた
クラシフィケーション処理部32による処理動作のフロ
ーチャートである。このクラシフィケーション処理にあ
っては、まずステップS1でマイニングツール26から
のユーザによるデータマイニング分析要求を解析する。
【0123】このマイニング解析要求は、例えば「年の
値はどのような特性を持つか」であり、分析項目「年の
値」を他の分析項目を条件値とする未知の法則で表現す
る分析要求であることを認識する。
【0124】次にステップS2で絞り込み条件の設定を
ユーザ指定に基づいて行う。ユーザはクラシフィケーシ
ョン結果として表示される樹状図の階層数の範囲、対象
データのレコード数の範囲、各分析項目における値の範
囲を指定することができる。もちろん、指定なしであれ
ば、全てのデータを対象にクラシフィケーションを行う
ことになる。
【0125】続いてステップS3でユーザのマイニング
分析要求と絞り込み条件の指定に基づき対象データを読
み込み、例えば分析項目「年の値」の特性を他の分析項
目である「国、MPG、シリンダ数、馬力、重量及び加
速性」を条件値とする未知の法則で表現するため、決定
時のアルゴリズムに従って分類するクラシフィケーショ
ン処理を実行する。
【0126】次にステップS4で、クラシフィケーショ
ン結果を樹状図として表示する表示処理を行う。この表
示処理の際に本発明にあっては、樹状図の有意性のある
部分をユーザに分かりやすく表示するため、有意性のな
いノードを非表示とする折り畳み処理、有意性のあるノ
ードをノードの大きさや形で表示する処理、更にはノー
ドの有意性の評価に基づいてソートした樹状図の表示を
必要に応じて行う。
【0127】続いてステップS5で、ユーザがクラシフ
ィケーション結果として表示された樹状図から、データ
に隠されている未知の法則の発見と抽出を行う。最終的
にステップS6で、クラシフィケーション結果の外部ア
プリケーションでの利用を可能とする出力処理を行う。
【0128】この出力処理は、ユーザが発見した未知の
法則をデータベース問合せ条件式に変換する出力処理、
スプレッドシート等のマクロモジュールに変換してオン
ライン分析処理システムで利用する出力処理、樹状図を
描画情報としてユーザが他のアプリケーションで利用可
能な形態にテキスト化する出力処理、及びユーザが発見
した未知の法則をユーザの希望するフォーマットに編集
して利用させる出力処理を含む。
【0129】図14は、図13のステップS4における
クラシフィケーション結果の表示改善処理の第1実施形
態であり、この第1実施形態にあっては有意性のないノ
ードを非表示とした樹状図を表示することを特徴とす
る。
【0130】クラシフィケーションの決定木アルゴリズ
ムによって生成される例えば図6に示したような樹状図
50は、確信度を元に機械的に行われる枝刈りによって
ノードやリーフの重要性が情報として提示される。しか
しながら、図4に示した集計シート46における複数の
分析項目を決定木によって分類するクラシフィケーショ
ンの場合にはノードやリーフの数が膨大なものとなり、
ユーザが目視によって重要な情報を見つけ出すことは不
可能となる。
【0131】そこで本発明にあっては、クラシフィケー
ション結果として得られた例えば図14(A)のような
樹状図60について、有意性のないノード例えばノード
A11,A12,B11,B12に対する分岐条件を非
表示とする折り畳み処理により、図14(B)のような
樹状図62に変換し、ノードA01,B01とリーフA
21〜A24、B21〜B23の関係を簡潔に表示す
る。
【0132】ここで図14(A)の樹状図60における
有意性のないノード、例えばノードA11,A12及び
B11,B12としては、決定木によるクラシフィケー
ション結果として提示されるχ2 検定値等を参照し、ノ
ードA01,B01からの分岐に有意性がない場合に
は、その下位のノードA11,A12及びB11,B1
2にも有意性がなくなるので、この場合に有意性のない
ノードA11,A12及びB11,B12を折り畳みに
よる非表示として、図14(B)の樹状図62のように
表示する。
【0133】このようにクラシフィケーション結果とし
ての樹状図の中の有意性のないノードを折り畳みによる
非表示とすることで、あるセグメント化された情報即ち
複数の分析項目を条件値とする情報がどのような法則に
従って分類されているかを容易に把握することができ、
マイニング対象データに含まれている未知の特性をユー
ザが発見することを支援することができる。
【0134】図15は、図13のステップS4における
クラシフィケーション結果の表示改善処理の第2実施形
態であり、この第2実施形態にあっては、決定木のアル
ゴリズムに従ったクラシフィケーション結果として表示
される樹状図におけるノードやリーフに、それぞれにつ
いて数値情報として与えられるレコード数や確信度に基
づいて形、大きさ、色に変化を持たせることにより、樹
状図の階層構造内における有意ノードや有意リーフを視
覚的に表現するようにしたことを特徴とする。
【0135】図15の樹状図64は、車両レコードのフ
ィールドに属性として含まれる交通事故に関する項目
を、それに関連する他の項目を条件値として分析したク
ラシフィケーション結果の樹状図について、数値情報か
らノードやリーフの形と大きさを変化させている。
【0136】即ち、ルートSは「性別=男」であり、次
のノードA01,B01で「年齢=高/低」に分類す
る。ノードA01に続くリーフA11,A12では「地
区=東/西」に分けて事故無し件数を求めている。ノー
ドB01の「年齢=低」についても、同様にリーフB1
1,B12で「地区=東/西」に分けて事故無し件数を
表わしている。
【0137】ここでリーフA11,A12,B11,B
12について、それぞれの条件を多角形で表わしてい
る。このリーフの多角形は出現度(レコード数)が多い
ほど多角形の面積を大きくする。また確信度が高くなる
ほど多角形の角数を増やしている。即ち確信度が最も低
いときは三角形であり、確信度の増加に応じて四角形、
五角形、八角形と画数を増やし、信頼度100%で円に
している。
【0138】図15のようなリーフの有意性の表示は、
クラシフィケーション結果として得られた階層の深い複
雑な樹状図をプレビュー等によって全体表示し、その中
のリーフについて有意性を示す多角形表示とすること
で、どの条件が多く出現しているのか、またどの条件が
確信度が高いのかをユーザが視覚的に把握し、これによ
ってクラシフィケーション結果として表示された樹状図
に含まれているデータの傾向を直観的に把握し、隠され
た法則を効率よく抽出することが可能となる。
【0139】図16は、図15の処理結果表示処理のフ
ローチャートである。まずステップS1で、クラシフィ
ケーション結果として得られた樹状図について、各条件
ごとのレコード数と確信度を計算する。続いてステップ
S2で確信度の割合により多角形の画数Xを計算する。
この場合、100%を円、例えば30%以下は三角形と
する。続いてステップS3で1ウィンドウ(1画面でも
よい)に描画する条件数を決定する。
【0140】続いてステップS4で、描画するウィンド
ウサイズとレコード数によりX角形の面積Sを計算す
る。続いてステップS5で全ての条件から描画するウィ
ンドウサイズにおける最大レコード数、最小レコード
数、平均レコード数を計算し、相違する種類のX角形の
図の比率を計算する。最終的にステップS6で樹状図の
ノードにX角形を例えば図15のリーフのように描画す
る。
【0141】図17は、図13のステップS4における
クラシフィケーション結果の表示改善処理の第3実施形
態であり、この第3実施形態にあってはクラシフィケー
ション結果の樹状図において描画されるノードやリーフ
の有意性を判断した後に、その有意性の判断結果に基づ
いて樹状図をソートすることを特徴とする。
【0142】図17の有意性判定図66は、クラシフィ
ケーション結果として得られた樹状図のリーフについ
て、レコード件数を円で表現している。即ちレコード件
数が多いほど面積を大きくし、少ないほど面積を小さく
している。このうち有意なノードとして、面積の多い順
に例えばリーフA01,B21,C14,C11が有意
リーフとして選択される。
【0143】図18は、樹状図におけるノードの有意性
を、レコード件数を円の面積で表示すると同時に確信度
を色の濃淡で表現している。この場合に、確信度が高い
ほど色が濃く、確信度が低いほど色を薄く表現する。こ
の有意性判定図68にあっては、レコード数による面積
の大きさはリーフC11,C14,A01,B21とな
るが、色の濃さによる確信度はリーフC11,C14,
A01,B21の順番となる。この場合にも有意リーフ
としてA01,B21,C14,C11を選択してい
る。
【0144】図19は、図17の有意性判定図66また
は図18の有意性判定図68で選択した有意リーフC1
1,C14,A01,B31に絞り込んで昇順にソート
する前の樹状図70であり、図19(B)がソート後の
樹状図72である。
【0145】このような有意性判定図に基づいた昇順の
ソートによって、ソート前の樹状図70にあっては、リ
ーフの有意性は視覚的には分からず、リーフに記述され
ているレコード数や確信度の数値を見て判断せざるを得
なかったものが、図19(B)のソート後の樹状図72
にあっては、有意性の高いリーフC11,C14が上部
に移動し、優位性の低いB31は下側に移り、これによ
ってユーザは上部に位置するリーフに着目してデータの
特徴を把握することができる。
【0146】図20は、図18のように有意性をノード
の円の面積と色の濃淡で表わしてソートする場合の処理
結果表示処理のフローチャートである。この処理結果表
示処理にあっては、ステップS1で各条件ごとのレコー
ド数と確信度を計算する。次のステップS2で確信度の
割合により色の濃淡度を決定する。即ち、確信度が高い
ほど色を濃くし、低いほど色を薄くする。
【0147】ステップS3にあっては、描画するウィン
ドウサイズ(画面サイズでもよい)とレコード数により
円の面積を計算する。続いてステップS4で色付きの円
を描画し、図18のような有意性判断図68をユーザに
表示する。この有意性判断図を見て、ステップS5でユ
ーザが有意性のあるノードとリーフを高い順に指定する
と、その指定結果に基づき、ステップS6で有意性の指
定に応じた樹状図のソートを行う。
【0148】尚、図19にあっては、有意性の高いリー
フの順番となる昇順にソートする場合を例に取っている
が、逆に有意性の低いリーフの順番となる降順にソート
してもよい。 4.クラシフィケーションの出力処理 図2のデータマイニング処理部28に設けたクラシフィ
ケーション処理部32による処理結果として得られた樹
状図に表現された情報は、ビジュアライザ18によりユ
ーザに対し視覚的に表示されるが、本発明にあっては、
これに加えて樹状図及びまたは樹状図からユーザが抽出
した未知の法則を、出力処理部44によって他のアプリ
ケーションで活用する形態に変換して出力する。
【0149】図21は、図13のステップS6における
出力処理の第1実施形態であり、決定木のアルゴリズム
により生成されたクラシフィケーション結果としての樹
状図からユーザが発見した未知の法則となる分類条件
を、リレーショナルデータベース、多次元データベース
を含むオンライン分析処理システム14側で利用可能な
データベース抽出条件文に変換して利用可能としたこと
を特徴とする。
【0150】即ち、クラシフィケーション結果として得
られた樹状図よりユーザが発見した法則を「IF〜TH
EN〜」形式で生成し、各種データベースのデータ抽出
条件文に変換する出力処理である。この場合の「IF〜
THEN〜」形式のデータ抽出条件文の受け渡し先は、
SQL文、LODQL文、MDBコマンドを制御する全
てのアプリケーションを対象とし、各アプリケーション
は「IF〜THEN〜」形式の条件文文字列をファイル
に格納した辞書形式あるいはプログラムインタフェース
(API)の両方から獲得することができる。
【0151】図21(A)は図6に示したようなクラシ
フィケーション結果としての樹状図50からユーザが抽
出した発見法則74であり、発見法則74は「IF〜T
HEN〜」形式で図示のように表現される。このような
発見法則74の「IF〜THEN〜」形式から図21
(B)のように条件名と条件式で定義される条件文文字
列76を生成する。
【0152】このようにして生成された条件文文字列7
6は、図21(C)に示すように、図2に示したオンラ
イン分析処理システム14側の分析辞書22にファイル
形式で格納され、データウェアハウス24に対するSQ
Lデータベース問合せ文78のWHERE文として使用
される。
【0153】即ちSQLデータベース問合せ文78にお
いて「WHERE 条件式」を記述することで、分析辞
書22の参照により図21(B)の条件文文字列76を
分析に使用するフィルタとして取り出し、この条件文文
字列76の条件式を使用してデータウェアハウス24の
データを分析することで、分析項目「年=70」及び
「年=76」のデータ「レコード」を検索することがで
きる。
【0154】図22は、図21におけるデータベースを
条件文文字列に変換する外部出力処理のフローチャート
である。まずステップS1で、クラシフィケーション結
果としての樹状図の中から発見した法則、例えば図21
(A)の発見法則74から条件式を切り出し、ステップ
S2で図21(B)の条件文文字列76のようにデータ
ベースに問い合わせできるように条件式をデータベース
上の項目名に変換する。続いてステップS3で条件ラベ
ルと条件式の型式でファイル出力し、データベースの分
析辞書22に登録する。
【0155】このようにクラシフィケーション結果とし
て得られた発見した法則における分類条件をデータベー
スへの抽出条件文として提供することにより、オンライ
ン分析処理システムにデータマイニング処理の結果をフ
ィードバックし、未知の切り口によるデータ抽出による
分析処理を可能とする。
【0156】これによって、従来の分析処理では発見で
きなかった新たな項目を条件とする法則を利用した顧客
のランキングやマーケティング対象顧客の選別等のデー
タ分析等に利用することができる。
【0157】図23は、図13のステップS6における
クラシフィケーションの出力処理の第2実施形態であ
り、この第2実施形態にあってはクラシフィケーション
結果からユーザが発見した未知の法則の条件文を、例え
ば図3のオンライン分析処理システム14のオンライン
分析処理ツール16側で処理している集計シート46の
生成に使用するエクセル等のスプレッドシートからデー
タを抽出するためのマクロモジュールに変換するように
したことを特徴とする。
【0158】図23の外部出力処理にあっては、まずス
テップS1で例えば図21(A)と同様、クラシフィケ
ーション結果として得られた樹状図側からユーザが発見
した未知の発見法則74に「IF〜THEN〜」が含ま
れていることから、この中から条件式を切り出す。この
ようにして発見法則から切り出した条件式を、ステップ
S2でエクセル等のスプレッドシートのマクロモジュー
ルに変換して、例えば図2のオンライン分析処理ツール
16に登録する。
【0159】図24は、図23の外部出力処理によりス
プレッドシートのマクロモジュールとして登録されたク
ラシフィケーション結果の条件式を利用したエクセルシ
ートのデータの絞り込み処理である。
【0160】図24(A)は絞り込み前のエクセルシー
ト82であり、この絞り込み前のエクセルシート82に
対し、クラシフィケーション結果から発見した法則の条
件式を登録しているマクロモジュールを適用すること
で、例えば図24(B)の絞り込み後のエクセルシート
84に示すように、クラシフィケーション結果のルール
の適用によってエクセルデータを絞り込むことができ
る。
【0161】このようにクラシフィケーション結果から
得られた未知の法則の条件式をエクセル等のスプレッド
シートからのデータ抽出に使用するマクロモジュールに
変換することで、未知の切り口によるパソコン上での簡
易的なデータ抽出が可能となる。このため例えば顧客情
報から特定の顧客を選別するような際に、データマイニ
ングで発見した条件式による未知の切り口を利用するこ
とが可能となる。
【0162】図25は、図13のステップS6における
クラシフィケーション結果の出力処理における第3実施
形態であり、この第3実施形態にあっては、クラシフィ
ケーション結果として表示される樹状図を他のアプリケ
ーション上で表現できるようにテキスト化するようにし
たことを特徴とする。
【0163】即ち、この第3実施形態にあっては、クラ
シフィケーション結果における樹状図を描画するための
テキスト化された描画情報を生成し、これによって他の
アプリケーションに受け渡し可能なファイルインタフェ
ースの機能を実現する。
【0164】図25の第3実施形態の外部出力処理にあ
っては、まずステップS1で例えば図6のように、クラ
シフィケーション結果として得られた樹状図50に基づ
き、ルートからノードを経てリーフに至る条件文字列や
レコード件数等の条件情報を、例えばCSV形式に変換
する。
【0165】ここでCSVとは、Comma Sepa
rated Valueの略であり、レコードとレコー
ドを改行コードで区切り、レコードのフィールドをカン
マコードで区切るデータ形式をもったデータフォーマッ
トの1つである。次にステップS2で、樹状図について
ルートからノードを経てリーフに至る論理的位置情報を
同じくCSV形式に変換する。最終的にステップS3
で、CSV形式に変換した条件情報と論理位置情報を併
せてCSVファイルに出力する。
【0166】このため、従来はクラシフィケーション結
果として得られた樹状図はハードコピーくらいしか活用
する手法がなかったものが、本発明によればテキスト化
された描画情報として外部に提供することができ、この
CSVファイルを使用してISV製品やユーザ独自の樹
状図の描画処理を他のアプリケーションにより作成する
ことが可能となる。
【0167】この結果、本発明のデータマイニング装置
により得られた樹状図を決定木のマイニングエンジンを
組み込んだ他の製品の開発に活用することが可能とな
り、データマイニング結果の利用幅が広がる。
【0168】図26は、図13のステップS6のクラシ
フィケーション結果の出力処理における第4実施形態で
あり、この第4実施形態にあっては、クラシフィケーシ
ョン結果として得られた樹状図の中からユーザが発見し
た「IF〜THEN〜」形式の表示結果をユーザの希望
するフォーマットに変換して出力するようにしたことを
特徴とする。これによってクラシフィケーション結果の
樹状図から発見された「IF〜THEN〜」形式の法則
をユーザが希望する形式にカスタマイズして表示できる
インタフェースとしての機能を提供することができる。
【0169】図26の出力処理の第4実施形態にあって
は、ユーザの希望するフォーマット形式に変換するため
のフォーマット変換部90に対し、クラシフィケーショ
ン結果の樹状図から発見した発見法則86を例えば「I
F 条件1 条件2 THEN 結果」の形式で入力す
る。一方、フォーマット変換部90に対しては、ユーザ
が希望するユーザ指定フォーマット88が設定されてい
る。このためフォーマット変換部90は、ユーザ指定フ
ォーマット88をクラシフィケーション結果として入力
された発見法則86により編集し、フォーマット変換後
の編集データ92を生成する。
【0170】ここで発見法則86として、図21(A)
の発見法則74の1行目の「IF13.5<MPG 馬
力≦227.5 加速性≦11.05 THEN 7
0」を入力したとすると、編集データ92にはクラス値
=70、レコード数=11が格納され、(開始条件)と
して「13.5<MPG and 馬力≦227.5a
nd 加速性≦11.05」が格納される。
【0171】図27は、図26のユーザの希望するフォ
ーマットに編集する外部出力処理のフローチャートであ
る。まずステップS1で「IF〜THEN〜」フォーマ
ットの発見法則を入力し、次にステップS2で「IF〜
THEN〜」フォーマットの文法チェックを行う。
【0172】続いてステップS3で「IF〜THEN
〜」をユーザ指定のフォーマットと照合して編集し、ス
テップS4で、フォーマット編集した「IF〜THEN
〜」をユーザファイルに登録する。
【0173】このようにクラシフィケーション結果とし
て樹状図からユーザが発見した「IF〜THEN〜」形
式の法則をユーザの希望するフォーマット形式に編集す
るカスタマイズを行うことで、データマイニングの結果
をユーザ側のアプリケーションにフィードバックして業
務データの管理等に活用することができる。
【0174】次に本発明によるデータマイニング処理プ
ログラムを格納したコンピュータ可読の記憶媒体につい
て説明する。
【0175】本発明のデータマイニング処理プログラム
は、図2のデータマイニング処理部28に設けているク
ラスタリング処理部30とクラシフィケーション処理部
32で構成される。クラスタリング処理部30は、分割
数指定部34、絞込み条件指定部36及び表示処理部3
8の機能を含む。
【0176】またクラシフィケーション処理部32は、
絞込み条件指定部40、表示処理部42及び出力処理部
44の機能を含む。各処理部の詳細は、図2から図27
までの実施形態に示した通りである。
【0177】このような本発明のデータマイニング処理
プログラムは、CD−ROM、フロッピディスク、DV
D光磁気ディスク、ICカード等の可搬型記憶媒体に格
納されたり、あるいはモデムやLANインタフェースを
利用してデータベースや他のコンピュータシステムから
インストールされ、このようにインストールされた本発
明の情報仲介プログラムはコンピュータシステムに入力
され、例えば仲介業者サーバ10として実行される。コ
ンピュータにインストールされる本発明の情報仲介プロ
グラムは、そのハードディスクHDDに記憶され、RA
M等を利用してCPUにより実行される。
【0178】尚、本発明のデータマイニング装置は上記
の実施形態に限定されず、その利点と目的を損なわない
適宜の変形を含む。また本発明は上記の実施形態に示し
た数値による限定は受けない。
【0179】
【発明の効果】以上説明してきたように本発明のデータ
マイニング装置によれば、次に列挙する効果が得られ
る。
【0180】(クラスタリングの分類結果と分割数の同
時表示)本発明のデータマイニング装置は、2分割から
任意の分割数までの各分割数ごとにクラスタリングした
複数の処理結果を同時に表示することで、クラスタリン
グの分割数が適切かどうか判断できる。即ち、複数の分
割数のクラシフィケーション結果の分類表示と分割表示
を平行座標グラフに同時に表示することで、分割数が増
えた場合に分割グループのどこから複数の分析項目に派
生しているかが明確に分かり、これによって適切な分割
数をユーザが容易に発見することができる。
【0181】また複数の分割数のクラシフィケーション
結果によるグループ分けの状況を年輪図で表示し、各分
割数におけるグループ間のデータ距離が年輪の幅(厚
さ)で表示されることによって、幅の最も大きな分割数
が適切であることがユーザによって簡単に判断すること
ができる。
【0182】(クラシフィケーション結果のノード折り
畳み処理)本発明のデータマイニング装置は、クラシフ
ィケーション結果として生成された樹状図について、そ
の中の不要な分岐条件に従ったノードを非表示とするこ
とでノードとリーフの関係を簡潔に表示することがで
き、これによって、ある項目化されたデータがどのよう
な法則に従って分類されているかをユーザが容易に把握
することができ、顧客情報等のクラシフィケーション結
果から隠された法則を発見するユーザの判断を強力に支
援することができる。
【0183】(データマイニングの絞り込み条件)本発
明のデータマイニングで取り扱うデータの範囲をユーザ
が指定して絞り込むことで、大量データであっても、絞
り込まれた範囲についてクラスタリングやクラシフィケ
ーション等の分析処理ができ、またこれらの処理結果か
ら必要な絞り込み条件に該当する分析結果だけを取り出
すことができるため、有意性のある法則の抽出がより行
い易くなる。
【0184】(樹状図の表示改善)クラシフィケーショ
ン結果として生成される樹状図のノードやリーフには分
析結果として得られた数値情報を表示しているが、この
ノードやリーフの数値情報例えばレコード数や確信度
を、ノードやリーフの大きさ、形状、色彩によって変え
ることにより、より直感的にデータの傾向を捉えること
ができる。
【0185】(樹状図のソート)クラシフィケーション
結果の樹状図について、ノードやリーフの有意性を大き
さ、形状、色を変えることにより判断し、この有意性の
判断結果に基づいて樹状図のノードやリーフを絞り込む
ソートを行うことで、ノードやリーフに文字情報として
表示される条件文のχ2 検定値等をユーザが検証するこ
となく、似通った分類に属するデータを集約するソート
や絞り込みを行って樹状図をより見易くできる。
【0186】(データベース問合せ条件への出力処理)
本発明のデータマイニング装置は、クラシフィケーショ
ン結果として得られた樹状図からユーザが発見した法則
の条件式をデータベースに対するデータベース問合せ分
の条件式として変換出力することにより、クラシフィケ
ーション結果から発見された未知の法則による切り口で
のデータ分析が可能となり、これまで発見できなかった
新しい分析項目を条件とする法則を利用した顧客のラン
キングやマーケティング対象顧客の選別等のデータ分析
に利用することができる。
【0187】(スプレッドシート用マクロの出力処理)
本発明のデータマイニング装置は、クラシフィケーショ
ン結果として得られた樹状図の中から発見した法則の
「IF〜THEN〜」形式の条件文をエクセル等のスプ
レッドシートからデータを抽出するために使用するマク
ロモジュールに変換して出力することで、未知の切り口
によるパソコン情報の簡易的なデータ抽出処理ができ
る。これによってデータマイニングで発見した未知の法
則に基づく切り口をマクロモジュールとしてユーザに提
供し、スプレッドシートからのデータ抽出にデータマイ
ニングの結果を利用することができる。
【0188】(樹状図のテキスト化)本発明のデータマ
イニング装置は、クラシフィケーション結果として得ら
れる樹状図をテキスト化された描画情報として出力する
ことでISV製品やユーザ独自の樹状図の描画ができ、
その結果、本発明のデータマイニング結果を同様な決定
木のアルゴリズムのマイニングエンジンを組み込んだ他
の製品の開発に利用することができる。
【0189】(抽出法則のカスタマイズ)本発明のデー
タマイニング装置は、クラシフィケーション結果の樹状
図から発見した「IF〜THEN〜」形式の法則をユー
ザの要望する形式にカスタマイズすることで、データマ
イニングの結果をユーザの他のアプリケーションにフィ
ードバックして、例えば業務データの管理等に活用する
ことができる。
【図面の簡単な説明】
【図1】本発明の原理説明図
【図2】オンライン分析処理システムと組合わせた本発
明の機能ブロック図
【図3】図2のデータ処理の説明図
【図4】図2の分析結果として生成された分析シートの
説明図
【図5】図2でクラスタリング結果として表示される平
行座標グラフの説明図
【図6】図2でデータマイニング結果として表示される
樹状図の説明図
【図7】本発明によるデータマイニング処理のフローチ
ャート
【図8】クラスタリング結果と分割数との関係を同時に
表示した平行座標グラフの説明図
【図9】図8の平行座標グラフに表示した分割表示に対
応した分類グループの説明図
【図10】分類結果と分割数の関係を表現する年輪図形
の説明図
【図11】本発明によるクラスタリング処理のフローチ
ャート
【図12】分割数判断処理を伴うクラスタリングのフロ
ーチャート
【図13】本発明によるクラシフィケーション処理のフ
ローチャート
【図14】有意性のないノード非表示とする折り畳み処
理の説明図
【図15】ノードやリーフに属性情報に基づく形と大き
さの変化を持たせて有意性を表現す樹状図の説明図
【図16】図15の処理結果表示処理のフローチャート
【図17】樹状図のソートに使用する有意ノードや有意
リーフの形をレコード数による大きさにより表現した絞
込み判定図の説明図
【図18】樹状図のソートに使用する有意ノードや有意
リーフを形のレコード数による大きさと確信度による色
の濃さで表現した絞込み判定図の説明図
【図19】図18の絞込み判定図を使用したソート前と
ソート後の樹状図の説明図
【図20】図18の処理結果表示処理のフローチャート
【図21】クラシフィケーション結果から抽出された規
則をデータベース問い合せに使用する外部出力処理の説
明図
【図22】図21の外部出力処理のフローチャート
【図23】データマイニング結果をスプレッドシートの
マクロモジュールに使用する外部出力処理のフローチャ
ート
【図24】図23で生成したマクロモジュールを使用し
た絞込み前と絞込み後の分析シートの説明図
【図25】クラシフィケーション結果として得られた樹
状図をCSV形式にテキスト化する外部出力処理のフロ
ーチャート
【図26】データマイニング結果の「IF〜THEN
〜」形式の法則をユーザが編集加工可能なファイル形式
に変換する出力処理の説明図
【図27】図26の外部出力処理のフローチャート
【符号の説明】
10:クライアント 12:サーバ 14:オンライン分析処理システム(OLAPシステ
ム) 16:オンライン分析処理ツール 18:ビジュアライザ(表示処理部) 20:オンライン分析処理部 22:分析辞書 24:データウェアハウス(DWH) 26:マイニングツール 28:データマイニング処理部 30:クラスタリング処理部 32:クラシフィケーション処理部 34:分割数指定部 36,40:絞込み条件指定部 38,42:表示処理部 44:出力処理部 46:分析シート(明細データまたは集計表) 48:平行座標グラフ 50,60,62,64:樹状図 52:分割表示付き平行座標グラフ 54:分類表示部 56:分割表示部 58:年輪図形 66,68:有意性判定図 70:ソート前樹状図 72:ソート後樹状図 74:発見法則 76:条件文文字列 78:SQLデータベース問合せ文 82:絞込み前エクセルシート 84:絞込み後エクセルシート 86:発見法則 88:ユーザ指定フォーマット 90:フォーマット変換部(エディタ) 92:編集データ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 本多 正人 神奈川県横浜市港北区新横浜二丁目15番16 株式会社富士通ハイパーソフトテクノロ ジ内 (72)発明者 都築 康一 神奈川県横浜市港北区新横浜二丁目15番16 株式会社富士通ハイパーソフトテクノロ ジ内 (72)発明者 伏見 俊彦 神奈川県横浜市港北区新横浜二丁目15番16 株式会社富士通ハイパーソフトテクノロ ジ内 Fターム(参考) 5B075 KK07 NR12 PQ02 PQ13

Claims (32)

    【特許請求の範囲】
  1. 【請求項1】データ群に含まれた未知の法則を発見する
    データマイニング装置に於いて、 2分割から任意の指定分割数Nまでの分割数の範囲を指
    定する分割数指定部と、 複数の分析項目をもつデータ群を対象に、2分割から前
    記指定分割数Nまでの各分割数ごとに、類似した特性の
    データを複数のクラスタ(層)に分類するクラスタリン
    グ処理部と、 前記クラスタリング処理部による複数の処理結果を同時
    に表示する表示処理部と、を備えたことを特徴とするデ
    ータマイニング装置。
  2. 【請求項2】請求項1記載のデータマイニング装置に於
    いて、前記表示処理部は、前記指定分割数Nによる分析
    項目毎の分類結果を各分析項目の軸にプロットして折れ
    線とした平行座標グラフを表示すると共に、2分割から
    前記指定分割数まで各分割軸を並べ分割の推移と分類結
    果のつながりを同時に折れ線で表示することを特徴とす
    るデータマイニング装置。
  3. 【請求項3】請求項1記載のデータマイニング装置に於
    いて、前記表示処理部は、2分割から指定分割数Nまで
    の分類結果を、年輪図形に変換して表示することを特徴
    とするデータマイニング装置。
  4. 【請求項4】データ群に含まれた未知の法則を発見する
    データマイニング装置に於いて、 複数の分析項目をもつデータ群を対象に、複数の分析項
    目の中の特定の分析項目の特性を、他の分析項目を条件
    値とした未知の法則を予測して生成するクラシフィケー
    ション処理部と、 前記クラシフィケーション処理部の生成結果を樹状図で
    表現して表示する際に、有意性のないノードを非表示と
    した樹状図に変換して表示する表示処理部と、を備えた
    ことを特徴とするデータマイニング装置。
  5. 【請求項5】データ群に含まれた未知の法則を発見する
    データマイニング装置に於いて、 複数の分析項目をもつデータ群を対象に任意の分割数を
    指定し、類似した特性のデータを前記分割数のクラスタ
    (層)に分類して分類結果を表示するクラスタリング処
    理部と、 複数の分析項目をもつデータ群を対象に、複数の分析項
    目の中の特定の分析項目の特性を、他の分析項目を条件
    値とした未知の法則を予測して生成するクラシフィケー
    ション処理部と、 前記クラスタリング処理部及びクラシフィケーション処
    理部で取り扱うデータの範囲をユーザ指定により絞り込
    む絞込み条件指定部と、を備えたことを特徴とするデー
    タマイニング装置。
  6. 【請求項6】データ群に含まれた未知の法則を発見する
    データマイニング装置に於いて、 複数の分析項目をもつデータ群を対象に、複数の分析項
    目の中の特定の分析項目の特性を、他の分析項目を条件
    値とした未知の法則を予測して生成するクラシフィケー
    ション処理部と、 前記クラシフィケーション処理部の生成結果を樹状図で
    表現して表示する際に、ノードやリーフの形、色、及び
    又は大きさに複数の属性に基づいた変化を持たせる表示
    処理部と、を備えたことを特徴とするデータマイニング
    装置。
  7. 【請求項7】データ群に含まれた未知の法則を発見する
    データマイニング装置に於いて、 複数の分析項目をもつデータ群を対象に、複数の分析項
    目の中の特定の分析項目の特性を、他の分析項目を条件
    値とした未知の法則を予測して生成するクラシフィケー
    ション処理部と、 前記クラシフィケーション処理部の生成結果を樹状図で
    表現して表示する際に、ノードやリーフの有意性を評価
    し、該有意性に基づいて樹状図をソートして表示する表
    示処理部と、を備えたことを特徴とするデータマイニン
    グ装置。
  8. 【請求項8】データ群に含まれた未知の法則を発見する
    データマイニング装置に於いて、 複数の分析項目をもつデータ群を対象に、複数の分析項
    目の中の特定の分析項目の特性を、他の分析項目を条件
    値として表わした未知の法則を生成するクラシフィケー
    ション処理部と、 前記クラシフィケーション処理部の処理結果を外部で利
    用可能な形態に変換して出力する出力処理部と、を設け
    たことを特徴とするデータマイニング装置。
  9. 【請求項9】請求項8記載のデータマイニング装置に於
    いて、前記出力処理部は、前記クラシフィケーション処
    理部の結果から抽出した特定の法則を条件式に変換して
    外部に出力することを特徴とするデータマイニング装
    置。
  10. 【請求項10】請求項8記載のデータマイニング装置に
    於いて、前記出力処理部は、前記抽出法則をスプレッド
    シートのマクロモジュールに変換して出力することを特
    徴とするデータマイニング装置。
  11. 【請求項11】請求項8記載のデータマイニング装置に
    於いて、前記出力処理部は、前記クラシフィケーション
    処理部で得られた樹状図を、外部アプリケーションで描
    画可能な描画情報に変換して出力することを特徴とする
    データマイニング装置。。
  12. 【請求項12】請求項8記載のデータマイニング装置に
    於いて、前記出力処理部は、前記クラシフィケーション
    処理部の処理結果から抽出した「IF THEN」形式
    の法則を、ユーザが指定したフォーマット形式に変換し
    て出力することを特徴とするデータマイニング装置。
  13. 【請求項13】データ群に含まれた未知の法則を発見す
    るデータマイニング処理プログラムを格納したコンピュ
    ータ可読の記憶媒体に於いて、 前記データマイニング処理プログラムは、 2分割から任意の指定分割数Nまでの分割数の範囲を指
    定する分割数指定部と、 複数の分析項目をもつデータ群を対象に、2分割から前
    記指定分割数Nまでの各分割数ごとに、類似した特性の
    データを複数のクラスタ(層)に分類するクラスタリン
    グ処理部と、 前記クラスタリング処理部による複数の処理結果を同時
    に表示する表示処理部と、を格納したことを特徴とする
    特徴とする記憶媒体。
  14. 【請求項14】請求項13記載の記憶媒体に於いて、前
    記表示処理部は、前記指定分割数Nによる分析項目毎の
    分類結果を各分析項目の軸にプロットして折れ線とした
    平行座標グラフを表示すると共に、2分割から前記指定
    分割数まで各分割軸を並べ分割の推移と分類結果のつな
    がりを同時に折れ線で表示することを特徴とする記憶媒
    体。
  15. 【請求項15】請求項13記載の記憶媒体に於いて、前
    記表示処理部は、2分割から指定分割数Nまでの分類結
    果を、年輪図形に変換して表示することを特徴とする記
    憶媒体。
  16. 【請求項16】データ群に含まれた未知の法則を発見す
    るデータマイニング処理プログラムを格納したコンピュ
    ータ可読の記憶媒体に於いて、 前記データマイニング処理プログラムは、 複数の分析項目をもつデータ群を対象に、複数の分析項
    目の中の特定の分析項目の特性を、他の分析項目を条件
    値とした未知の法則を予測して生成するクラシフィケー
    ション処理部と、 前記クラシフィケーション処理部の生成結果を樹状図で
    表現して表示する際に、有意性のないノードを非表示と
    した樹状図に変換して表示する表示処理部と、を格納し
    たことを特徴とする記憶媒体。
  17. 【請求項17】データ群に含まれた未知の法則を発見す
    るデータマイニング処理プログラムを格納したコンピュ
    ータ可読の記憶媒体に於いて、 前記データマイニング処理プログラムは、 複数の分析項目をもつデータ群を対象に任意の分割数を
    指定し、類似した特性のデータを前記分割数のクラスタ
    (層)に分類して分類結果を表示するクラスタリング処
    理部と、 複数の分析項目をもつデータ群を対象に、複数の分析項
    目の中の特定の分析項目の特性を、他の分析項目を条件
    値とした未知の法則を予測して生成するクラシフィケー
    ション処理部と、 前記クラスタリング処理部及びクラシフィケーション処
    理部で取り扱うデータの範囲をユーザ指定により絞り込
    む絞込み条件指定部と、を備えたことを特徴とする記憶
    媒体。
  18. 【請求項18】請求項17記載の記憶媒体に於いて、前
    記絞込み条件指定部は、前記クラスタリング処理部にお
    ける対象データ群のレコード数の範囲、各分析項目値の
    範囲等をユーザ指定により絞り込み、前記クラシフィケ
    ーション処理部における階層数の範囲、対象データのレ
    コード数の範囲、各分析項目値の範囲等をユーザ指定に
    より絞り込むことを特徴とする記憶媒体。
  19. 【請求項19】データ群に含まれた未知の法則を発見す
    るデータマイニング処理プログラムを格納したコンピュ
    ータ可読の記憶媒体に於いて、 前記データマイニング処理プログラムは、 複数の分析項目をもつデータ群を対象に、複数の分析項
    目の中の特定の分析項目の特性を、他の分析項目を条件
    値とした未知の法則を予測して生成するクラシフィケー
    ション処理部と、 前記クラシフィケーション処理部の生成結果を樹状図で
    表現して表示する際に、ノードやリーフの形、色、及び
    又は大きさに複数の属性に基づいた変化を持たせる表示
    処理部と、を備えたことを特徴とする記憶媒体。
  20. 【請求項20】請求項19記載の記憶媒体に於いて、前
    記表示処理部は、レコード数と確信度を属性として前記
    ノードとリーフを表現する図形、色、及び又は大きさを
    変化させることを特徴とする記憶媒体。
  21. 【請求項21】データ群に含まれた未知の法則を発見す
    るデータマイニング処理プログラムを格納したコンピュ
    ータ可読の記憶媒体に於いて、 前記データマイニング処理プログラムは、 複数の分析項目をもつデータ群を対象に、複数の分析項
    目の中の特定の分析項目の特性を、他の分析項目を条件
    値とした未知の法則を予測して生成するクラシフィケー
    ション処理部と、 前記クラシフィケーション処理部の生成結果を樹状図で
    表現して表示する際に、ノードやリーフの有意性を評価
    し、該有意性に基づいて樹状図をソートして表示する表
    示処理部と、を備えたことを特徴とする記憶媒体。
  22. 【請求項22】データ群に含まれた未知の法則を発見す
    るデータマイニング処理プログラムを格納したコンピュ
    ータ可読の記憶媒体に於いて、 前記データマイニング処理プログラムは、 複数の分析項目をもつデータ群を対象に、複数の分析項
    目の中の特定の分析項目の特性を、他の分析項目を条件
    値とした未知の法則を予測して生成するクラシフィケー
    ション処理部と、 前記クラシフィケーション処理部の処理結果を外部で利
    用可能な形態に変換して出力する出力処理部と、を設け
    たことを特徴とする記憶媒体。
  23. 【請求項23】請求項22記載の記憶媒体に於いて、前
    記出力処理部は、前記クラシフィケーション処理部の結
    果から抽出した特定の法則を条件式に変換して外部に出
    力することを特徴とする記憶媒体。
  24. 【請求項24】請求項22記載の記憶媒体に於いて、前
    記出力処理部は、前記抽出法則をスプレッドシートのマ
    クロモジュールに変換して出力することを特徴とする記
    憶媒体。
  25. 【請求項25】請求項22記載の記憶媒体に於いて、前
    記出力処理部は、前記クラシフィケーション処理部で得
    られた樹状図を、外部アプリケーションで描画可能な描
    画情報に変換して出力することを特徴とする記憶媒体。
  26. 【請求項26】請求項22記載の記憶媒体に於いて、前
    記出力処理部は、前記クラシフィケーション処理部の処
    理結果から抽出した「IF THEN」形式の法則を、
    ユーザが指定したフォーマット形式に変換して出力する
    ことを特徴とする記憶媒体。
  27. 【請求項27】コンピュータに、 2分割から任意の指定分割数Nまでの分割数の範囲を指
    定し、 複数の分析項目をもつデータ群を対象に、2分割から前
    記指定分割数Nまでの各分割数ごとに、類似した特性の
    データを複数のクラスタ(層)に分類し、 前記分類による複数の処理結果を同時に表示する、こと
    を実行させるデータマイニング処理プログラム。
  28. 【請求項28】コンピュータに、 複数の分析項目をもつデータ群を対象に、複数の分析項
    目の中の特定の分析項目の特性を、他の分析項目を条件
    値とした未知の法則を予測して生成し、 前記生成結果を樹状図で表現して表示する際に、有意性
    のないノードを非表示とした樹状図に変換して表示す
    る、ことを実行させるデータマイニング処理プログラ
    ム。
  29. 【請求項29】コンピュータに、 取り扱うデータ群の範囲をユーザ指定により絞り込む絞
    み、 複数の分析項目をもつデータ群を対象に任意の分割数を
    指定し、類似した特性のデータを前記分割数のクラスタ
    (層)に分類して分類結果を表示し、 複数の分析項目をもつデータ群を対象に、複数の分析項
    目の中の特定の分析項目の特性を、他の分析項目を条件
    値とした未知の法則を予測して生成し、ことをさせるこ
    とを特徴とするデータマイニング処理プログラム。
  30. 【請求項30】コンピュータに、 複数の分析項目をもつデータ群を対象に、複数の分析項
    目の中の特定の分析項目の特性を、他の分析項目を条件
    値とした未知の法則を予測して生成し、 前記生成結果を樹状図で表現して表示する際に、ノード
    やリーフの形、色、及び又は大きさに複数の属性に基づ
    いた変化を持たせて表示させる、ことを実行させること
    を特徴とするデータマイニング処理プログラム。
  31. 【請求項31】コンピュータに、 複数の分析項目をもつデータ群を対象に、複数の分析項
    目の中の特定の分析項目の特性を、他の分析項目を条件
    値とした未知の法則を予測して生成し、 前記生成結果を樹状図で表現して表示する際に、ノード
    やリーフの有意性を評価し、該有意性に基づいて樹状図
    をソートして表示させる、ことを実行させることを特徴
    とするデータマイニング処理プログラム。
  32. 【請求項32】コンピュータに、 複数の分析項目をもつデータ群を対象に、複数の分析項
    目の中の特定の分析項目の特性を、他の分析項目を条件
    値とした未知の法則を予測して生成し、 前記処理結果を外部で利用可能な形態に変換して出力す
    る、ことを実行させることを特徴とするデータマイニン
    グ処理プログラム。
JP2001016875A 2000-01-28 2001-01-25 データマイニング装置、データマイニング処理プログラムを格納したコンピュータ可読の記憶媒体、及びデータマイニング処理プログラム Pending JP2001282819A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001016875A JP2001282819A (ja) 2000-01-28 2001-01-25 データマイニング装置、データマイニング処理プログラムを格納したコンピュータ可読の記憶媒体、及びデータマイニング処理プログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2000-19565 2000-01-28
JP2000019565 2000-01-28
JP2001016875A JP2001282819A (ja) 2000-01-28 2001-01-25 データマイニング装置、データマイニング処理プログラムを格納したコンピュータ可読の記憶媒体、及びデータマイニング処理プログラム

Publications (1)

Publication Number Publication Date
JP2001282819A true JP2001282819A (ja) 2001-10-12

Family

ID=26584341

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001016875A Pending JP2001282819A (ja) 2000-01-28 2001-01-25 データマイニング装置、データマイニング処理プログラムを格納したコンピュータ可読の記憶媒体、及びデータマイニング処理プログラム

Country Status (1)

Country Link
JP (1) JP2001282819A (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007207113A (ja) * 2006-02-03 2007-08-16 Hitachi Software Eng Co Ltd 系統樹表示システム
JP2007323526A (ja) * 2006-06-02 2007-12-13 Matsushita Electric Works Ltd 環境制御システム及び入力装置
JP2013512502A (ja) * 2009-11-24 2013-04-11 アリババ・グループ・ホールディング・リミテッド データウェアハウスのための効率的なデータ逆流処理
WO2013114509A1 (ja) * 2012-02-03 2013-08-08 日本電気株式会社 多次元データ可視化装置、方法およびプログラム
JP2014182750A (ja) * 2013-03-21 2014-09-29 Fujitsu Ltd データ分析装置、及びデータ分析方法
JP2016114987A (ja) * 2014-12-11 2016-06-23 株式会社東芝 情報処理装置、情報処理方法及びプログラム
CN106709507A (zh) * 2016-11-29 2017-05-24 北京林业大学 一种力导向分段骨骼的平行坐标系视图聚类数据绑定方法
KR20180105566A (ko) * 2017-03-15 2018-09-28 가부시키가이샤 스크린 홀딩스 텍스트 마이닝 지원 방법 및 장치
US20220327122A1 (en) * 2013-06-14 2022-10-13 Open Text Holdings, Inc Performing data mining operations within a columnar database management system
US11768816B2 (en) 2013-06-20 2023-09-26 Open Text Holdings, Inc. Generating a Venn diagram using a columnar database management system
US11921723B2 (en) 2013-06-21 2024-03-05 Open Text Holdings, Inc. Performing cross-tabulation using a columnar database management system

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007207113A (ja) * 2006-02-03 2007-08-16 Hitachi Software Eng Co Ltd 系統樹表示システム
JP2007323526A (ja) * 2006-06-02 2007-12-13 Matsushita Electric Works Ltd 環境制御システム及び入力装置
JP2013512502A (ja) * 2009-11-24 2013-04-11 アリババ・グループ・ホールディング・リミテッド データウェアハウスのための効率的なデータ逆流処理
WO2013114509A1 (ja) * 2012-02-03 2013-08-08 日本電気株式会社 多次元データ可視化装置、方法およびプログラム
JP2013161226A (ja) * 2012-02-03 2013-08-19 Nec Corp 多次元データ可視化装置、方法およびプログラム
JP2014182750A (ja) * 2013-03-21 2014-09-29 Fujitsu Ltd データ分析装置、及びデータ分析方法
US20220327122A1 (en) * 2013-06-14 2022-10-13 Open Text Holdings, Inc Performing data mining operations within a columnar database management system
US11768816B2 (en) 2013-06-20 2023-09-26 Open Text Holdings, Inc. Generating a Venn diagram using a columnar database management system
US11921723B2 (en) 2013-06-21 2024-03-05 Open Text Holdings, Inc. Performing cross-tabulation using a columnar database management system
JP2016114987A (ja) * 2014-12-11 2016-06-23 株式会社東芝 情報処理装置、情報処理方法及びプログラム
CN106709507A (zh) * 2016-11-29 2017-05-24 北京林业大学 一种力导向分段骨骼的平行坐标系视图聚类数据绑定方法
CN106709507B (zh) * 2016-11-29 2019-11-08 北京林业大学 一种力导向分段骨骼的平行坐标系视图聚类数据绑定方法
KR20180105566A (ko) * 2017-03-15 2018-09-28 가부시키가이샤 스크린 홀딩스 텍스트 마이닝 지원 방법 및 장치
CN108628928B (zh) * 2017-03-15 2021-12-07 株式会社斯库林集团 文本挖掘支援方法及装置
KR102230102B1 (ko) * 2017-03-15 2021-03-18 가부시키가이샤 스크린 홀딩스 텍스트 마이닝 지원 방법 및 장치
CN108628928A (zh) * 2017-03-15 2018-10-09 株式会社斯库林集团 文本挖掘支援方法及装置

Similar Documents

Publication Publication Date Title
US6671680B1 (en) Data mining apparatus and storage medium storing therein data mining processing program
US6915308B1 (en) Method and apparatus for information mining and filtering
US11853281B2 (en) Methods and systems for data management and analysis
US12013832B2 (en) Methods and systems for data management and analysis
JP3303926B2 (ja) 構造化文書分類装置及び方法
US6499030B1 (en) Apparatus and method for information retrieval, and storage medium storing program therefor
JP3577819B2 (ja) 情報探索装置及び情報探索方法
CA2751295C (en) Analysis of object structures such as benefits and provider contracts
JPH11224345A (ja) ドキュメント画像の一部の識別方法
JPH11224346A (ja) ドキュメント画像のソート方法
JPH11242654A (ja) ドキュメント画像のクライアント・ワークステーションへの送信方法
JPH0877010A (ja) データ分析方法および装置
WO2003077162A1 (en) System and method for classification of documents
EP1563416A1 (en) System and method for classification of documents
EP3239863A1 (en) System and method for interactive discovery of inter-data set relationships
EP3232342B1 (en) Methods and systems for bidirectional indexing summary
CN108664509A (zh) 一种即席查询的方法、装置及服务器
JP2001282819A (ja) データマイニング装置、データマイニング処理プログラムを格納したコンピュータ可読の記憶媒体、及びデータマイニング処理プログラム
JP3577822B2 (ja) 情報提示装置及び情報提示方法
JPH09231238A (ja) テキスト検索結果表示方法及び装置
JP2002342117A (ja) テスト仕様生成支援装置、方法、プログラム及び記録媒体
KR100809751B1 (ko) 문서분석 시스템 및 그 방법
US20080228725A1 (en) Problem/function-oriented searching method for a patent database system
JP2000305948A (ja) 文書群分類装置および文書群分類方法
JPH11224267A (ja) ドキュメント画像の要約方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040326

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070130

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070626