WO2024069729A1

WO2024069729A1 - クラスタリング支援システム、方法およびプログラム

Info

Publication number: WO2024069729A1
Application number: PCT/JP2022/035834
Authority: WO
Inventors: 哲孝山下; 康博水越; 憲人大井; 秋紗子藤井
Original assignee: 日本電気株式会社
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2024-04-04

Abstract

分類手段１８１は、対象データを機械学習により分類することで複数のクラスタを生成する。表示手段１８２は、生成されたクラスタに含まれる対象データを、その対象データの特徴量に応じて、対応するグラフ上の位置に所定の態様で表示する。その際、表示手段１８２は、特徴量ごとの数値情報に応じて、対象データをグラフ上に表示する前記態様を変化させる。

Description

クラスタリング支援システム、方法およびプログラム

　本発明は、データのクラスタリングを支援するクラスタリング支援システム、クラスタリング支援方法およびクラスタリング支援プログラムに関する。

　ＩｏＴ（Internet of Things）社会において、様々な機器からデータを収集することが可能になっている。そして、収集される大量のデータを用いて行われるデータの検索やＡＩ（Artificial Intelligence ）の学習には、データの分類が重要になる。

　このような状況において、データの分類を支援する方法が各種提案されている。例えば、特許文献１には、教師データの生成を効率化する教師データ生成システムが記載されている。特許文献１に記載されたシステムは、行動履歴をクラスタリングし、クラスタに属する一部の行動履歴の内容を解析者に提示してラベルを指定させる。そして、上記システムは、指定されたラベルをクラスタ内のデータに付与して、教師データを生成する。

特開２０２１－５６５９１号公報

　例えば、特許文献１に記載された方法を用いることで、近い特徴を有するデータをクラスタ化して、その集合を理解することは可能である。しかし、データが有する特徴（データ項目）の種類が多い場合、どのデータ項目がクラスタ化に寄与したのか把握することは一般的に難しい。

　特許文献１に記載されたシステムでは、クラスタに属する一部の行動履歴の内容を解析者に提示してラベルを指定させるが、行動履歴に含まれるデータ項目の種類が多い場合、その内容から指定すべきラベルを判断することは困難である。そのため、このような状況で仮に何らかのラベルが付与されたとしても、どのような意味を有するクラスタなのか（すなわち、なぜそのように分類されたのか）が不明になってしまうおそれもある。

　そこで、本発明は、対象データのクラスタリングに寄与した特徴量の把握を支援するクラスタリング支援システム、クラスタリング支援方法およびクラスタリング支援プログラムを提供することを目的とする。

　本発明によるクラスタリング支援システムは、対象データを機械学習により分類することで複数のクラスタを生成する分類手段と、生成されたクラスタに含まれる対象データを、その対象データの特徴量に応じて、対応するグラフ上の位置に所定の態様で表示する表示手段とを備え、表示手段が、特徴量ごとの数値情報に応じて、対象データをグラフ上に表示する態様を変化させることを特徴とする。

　本発明によるクラスタリング支援方法は、対象データを機械学習により分類することで複数のクラスタを生成し、生成されたクラスタに含まれる対象データを、その対象データの特徴量に応じて、対応するグラフ上の位置に所定の態様で表示し、その表示の際、特徴量ごとの数値情報に応じて、対象データをグラフ上に表示する態様を変化させることを特徴とする。

　本発明によるクラスタリング支援プログラムは、コンピュータに、対象データを機械学習により分類することで複数のクラスタを生成する分類処理、および、生成されたクラスタに含まれる対象データを、その対象データの特徴量に応じて、対応するグラフ上の位置に所定の態様で表示する表示処理を実行させ、表示処理で、特徴量ごとの数値情報に応じて、対象データをグラフ上に表示する態様を変化させることを特徴とする。

　本発明によれば、クラスタリングに寄与したデータ項目の把握を支援できる。

本発明によるクラスタリング支援システムの一実施形態の構成例を示すブロック図である。クラスタリング支援システムで利用されるデータの例を示す説明図である。特徴量の例を示す説明図である。次元削減されたデータをグラフで可視化した例を示す説明図である。次元削減されたデータをグラフで可視化した他の例を示す説明図である。特徴量ごとの数値情報に応じてグラフ上に表示する態様を変化させた例を示す説明図である。特徴量間の相関を表示した例を示す説明図である。グラフ上の分類対象データを指定して統計量を再計算する処理の例を示す説明図である。クラスタリング支援システムの動作例を示すフローチャートである。本発明によるクラスタリング支援システムの概要を示すブロック図である。少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。

　以下、本発明の実施形態を図面を参照して説明する。以下の説明では、分類対象のデータの一例として、動画（映像データ）を例示する。ただし、分類対象のデータは、動画に限られず、例えば、静止画や、音楽データ、テキストデータなどであってもよい。また、分類対象のデータは、ラベル付けされていてもよく、ラベル付けされていなくてもよい。

　図１は、本発明によるクラスタリング支援システムの一実施形態の構成例を示すブロック図である。本実施形態のクラスタリング支援システム１は、データ取得部１０と、関連情報取得部２０と、物体識別部３０と、データ加工部４０と、テキスト情報入力部５０と、特徴抽出部６０と、特徴記憶部７０と、可視化処理部８０と、入出力装置９０とを備えている。

　データ取得部１０は、分類対象のデータ、すなわち、クラスタリングの対象とするデータを取得する。例えば、カメラ（図示せず）によって動物が撮像されている場合、データ取得部１０は、分類対象のデータとして、そのカメラが撮影した動物の動画を取得してもよい。なお、データ取得部１０が取得するデータは、リアルタイムで取得されるデータに限られない。データ取得部１０は、例えば、分類対象のデータが記憶されたストレージサーバ（図示せず）から、分類対象のデータを取得してもよい。

　関連情報取得部２０は、分類対象のデータに関連する情報（以下、関連情報と記す。）を取得する。本実施形態では、関連情報は、分類対象のデータの生成された状況を示す情報であり、例えば、データが生成された場所（撮像された場所）や時間を表わす情報、センサにより取得されたデータ（以下、センサデータと記す。）である。

　例えば、分類対象のデータとして火力発電所の稼働状況を示す映像が用いられる場合、センサデータとして、例えば、燃料の流量、圧力、温度、回転数、発電量などが挙げられる。他にも、分類対象のデータとして農場の状況を示す映像が用いられる場合、センサデータとして、時間や温度、湿度、ｐＨ、土壌水分量、日射量、風向・風速、水位などが挙げられる。

　また、分類対象のデータが、車載カメラ（ドライブレコーダ）で撮像された映像データである場合、関連情報として車両位置を表わすＧＰＳ（Global Positioning System ）情報や、ＣＡＮ（Controller Area Network ）に基づいて取得される情報などが挙げられる。この場合に取得されるセンサデータの例が、速度や加速度、位置（緯度、経度、高度など）である。

　物体識別部３０は、取得されたデータに含まれる物体を識別し、識別した物体を特定する情報（以下、オブジェクトリストと記す。）を生成する。例えば、識別対象の物体が車両の場合、物体識別部３０は、データ取得部１０が取得したデータから、車両を識別し、その車両を特定する情報（例えば、画像中の位置を示す座標等）をオブジェクトリストとして生成してもよい。なお、画像や映像から物体を識別する方法は広く知られており、ここでは詳細な説明は省略する。

　データ加工部４０は、後述する特徴抽出部６０が処理を行う際に用いることができる態様にデータ（より具体的には、オブジェクトリスト）を加工する。具体的には、データ加工部４０は、特徴抽出やクラスタリングの精度を向上させられるようにデータを加工する。データ加工部４０は、例えば、データの間引きや、欠損値の補間、外れ値の除外、不要なデータ項目の削除などを行う。また、例えば、分類対象のデータが映像データの場合、データ加工部４０は、映像データを数値時系列データへ変換してもよい。

　また、データ加工部４０は、複数のデータに基づいてデータを加工してもよい。例えば、上述する動画データの場合、複数のサンプリングデータからデータを加工してもよい。以下の説明では、複数のデータに基づいて加工されたデータまたはデータ項目を、統計量と記すこともある。

　例えば、１秒サンプリングのデータに基づいて、データ加工部４０は、５秒分のデータを用いた統計量を算出してもよい。なお、算出される統計量の内容は任意である。データ加工部４０は、例えば、５点分のデータの平均値を算出してもよく、５点分のデータの中から最大値や最小値、中央値、最初（１秒目）のデータの値、最後（５秒目）のデータの値を特定してもよい。他にも、データ加工部４０は、最大値と最小値の差分や、最初（１秒目）のデータと最後（５秒目）のデータの差分を算出してもよい。

　また、データ加工部４０は、統計量を算出する予め設定された計算式を用いて統計量を算出してもよい。例えば、分類対象のデータに、速度および加速度が含まれている場合、データ加工部４０は、「統計量＝速度＊５＋加速度＊２－１００」のような計算式に基づいて統計量を算出してもよい。

　他にも、データ加工部４０は、既知の変換式に基づいて統計量を算出してもよい。変換式として、例えば、自動車関連のデータについて、車方向データとヨーレートとの変換式、速度と加速度との変換式、などが挙げられる。

　なお、本実施形態では、統計量の算出処理をデータ加工部４０が行う場合について例示しているが、後述する可視化処理部８０が、可視化処理の前に統計量を算出してもよい。

　テキスト情報入力部５０は、分類対象の各データに付加する情報（以下、付加情報と記す。）を含むテキストデータの入力を受け付ける。付加情報は、関連情報以外で取得し得る分類対象のデータの内容を示す情報である。付加情報を示すカテゴリとして、例えば、天気や植物の種類、被写体などが挙げられる。天気のカテゴリ値の例として、晴れ・曇り・雨・雪などが挙げられ、植物の種類のカテゴリ値の例として、米・小麦・大麦などが挙げられ、被写体の例として、犬・猫・人・自動車・自転車などが挙げられる。

　なお、テキストデータの入力は任意である。すなわち、分類対象のデータに対する付加情報が入力されていなくてもよい。ただし、分類対象のデータに付加情報が増えるほど、分類の精度を向上できるため、入力されることが好ましい。以下の説明では、付加情報が対応付けられた分類対象のデータも、単に分類対象のデータと記す。

　図２は、本実施形態のクラスタリング支援システム１で利用されるデータの例を示す説明図である。図２に示す例では、データ取得部１０が分類対象のデータとして映像１１を取得し、関連情報取得部２０は、映像１１が撮影された場所等に関する関連情報２１を取得したことを示す。また、図２に示す例では、データ加工部４０が、映像１１および関連情報２１（より具体的には、物体識別部３０により生成されたオブジェクトリスト）を加工して数値時系列データ４１を生成したことを示す。さらに、図２に示す例では、テキスト情報入力部５０が、付加情報として、天気、シーン、時間帯および物体に関する情報を含むテキストデータ５１の入力を受け付けたことを示す。

　特徴抽出部６０は、分類対象の各データから特徴を抽出する。本実施形態の特徴抽出部６０は、付加情報を含む分類対象の各データを機械学習により自動的に分類することで複数のクラスタを生成する。機械学習によりクラスタを生成する方法は任意であり、教師あり学習であってもよく、教師なし学習であってもよい。教師なし学習の例として、例えば、ｋ－ｍｅａｎｓ法や、混合ガウスモデルなどが挙げられる。

　そして、特徴抽出部６０は、生成したクラスタに含まれる各データの特徴量を抽出する。特徴抽出部６０は、例えば、テキストデータに含まれている付加情報や、各データ項目、算出した統計量を特徴量として抽出してもよい。他にも、特徴抽出部６０は、数値時系列データが示す特徴量を抽出してもよい。具体的には、特徴抽出部６０は、分類対象のデータ（より具体的には、数値時系列データ）に含まれる情報（具体的には、センサ値など）に基づいて特徴量を抽出してもよい。

　なお、数値時系列データから特徴量を抽出する方法は任意である。例えば、ｋ－ｍｅａｎｓ法により生成された各クラスタについて、特徴抽出部６０は、クラスタに含まれる数値時系列データの重心点から各データまでの距離（cluster distance feature）という特徴量を抽出してもよい。

　このように、特徴抽出部６０は、分類対象のデータを教師なし学習などにより分類する処理を行うことから、分類手段ということもできる。また、本実施形態では、データ取得部１０と関連情報取得部２０により取得された情報から物体識別部３０が物体を識別し、識別結果に対してデータ加工部４０が、特徴抽出部６０が用いる形式にデータを加工する場合について説明した。ただし、データ取得部１０が、直接、特徴抽出部６０が用いる形式のデータを取得し、取得したデータを特徴抽出部６０に入力してもよい。この場合、クラスタリング支援システム１は、関連情報取得部２０、物体識別部３０およびデータ加工部４０を備えていなくてもよい。

　特徴記憶部７０は、特徴抽出部６０が抽出した各分類対象のデータの特徴量を記憶する。特徴記憶部７０が分類対象のデータごとの特徴量を記憶する態様は任意である。図３は、特徴記憶部７０が記憶する特徴量の例を示す説明図である。図３に示す例では、縦方向が１つの特徴点を表わし、横方向が各カテゴリ（例えば、天気、被写体、植物の種類など）の特徴量（カテゴリ値）を表わしている。特徴記憶部７０は、例えば、磁気ディスク等により実現される。

　可視化処理部８０は、分類対象のデータをグラフ上に可視化する処理を行う。ここで、分類対象のデータには、複数の特徴量が含まれることが一般的である。そこで、可視化処理部８０は、分類対象のデータをクラスタ化した様子を人間が観察できるように、分類対象のデータを次元削減（低次元化）したものを、入出力装置９０にグラフ描画することで表示する。

　ここで、分類対象のデータの次元削減とは、分類対象データに含まれる特徴量を各次元とする高次元データを、できる限り重要な情報を保持したまま低次元データに変換する処理を示す。次元削減の方法として、ＰＣＡ（主成分分析：principal component analysis）や、ｔ－ＳＮＥ（t-distributed Stochastic Neighbor Embedding ）、ＵＭＡＰ（Uniform Manifold Approximation and Projection ）などが挙げられる。

　可視化処理部８０は、例えば、上述するＵＭＡＰにより、２次元または３次元に分類対象のデータを次元削減し、次元削減されたデータを、分布図などのグラフとして可視化してもよい。

　図４は、次元削減されたデータをグラフで可視化した例を示す説明図である。図４に例示するグラフは、ＵＭＡＰにより２次元に次元削減した分類対象のデータを、点の集合で表示した例を示す。また、図５は、次元削減されたデータをグラフで可視化した他の例を示す説明図である。図５に例示するグラフは、ＵＭＡＰにより３次元に次元削減した分類対象のデータを、点の集合で表示した例を示す。

　なお、可視化処理部８０は、入出力装置９０を介してユーザに指定された分類対象データについて、その分類対象データの特徴量や統計量をグラフとは別に表示してもよい。さらに、複数の分類対象データが指定された場合、可視化処理部８０は、指定された全ての分類対象データについて、特徴量や統計量を表示してもよい。なお、このときの表示方法は任意であり、可視化処理部８０は、それぞれの情報を並べて表示してもよく、切り替え可能に表示してもよい。

　このような複数の情報を表示することで、例えば、同一クラスタ内の異なるデータ間（例えば、クラスタの左側と右側）や、別クラスタのデータ間で特徴量にどのような違いがあるのかを確認することが可能になる。

　一方、次元削減により可視化されたグラフは、分類対象のデータをクラスタ化した様子を容易に把握できる一方、そのクラスタがどのような意味を有するクラスタなのか（すなわち、なぜそのように分類されたのか）把握することが困難な場合がある。そこで、本実施形態では、可視化処理部８０は、生成されたクラスタに含まれる分析対象のデータを、その分類対象のデータの特徴量に応じて、対応するグラフ上の位置に所定の態様で入出力装置９０に表示する。所定の態様として、点や記号などが挙げられる。

　さらに、本実施形態では、可視化処理部８０は、特徴量ごとの数値情報に応じてグラフ上に表示する態様を変化させる。なお、分類対象のデータには複数の特徴量が含まれるため、対象とする特徴量は入出力装置９０を介してユーザ等により選択される。ここで、本実施形態における特徴量の数値情報には、「速度」や「加速度」など、特徴量として直接的に得られる値だけでなく、「車体の向き」のように、その特徴量に応じて得られる値（例えば、角度など）が含まれる。さらに、特徴量の数値情報には、特徴量の抽出元の各データ（すなわち、特徴抽出部６０に入力された分類対象の各データ）や、可視化処理前に特徴抽出部６０から得られた特徴量、分類対象の各データを使って算出された統計量なども含まれる。

　また、特徴量の数値情報に応じて態様を変化させる方法として、数値に応じて色の濃淡を変化させる方法や、輝度を変化させる方法などが挙げられる。なお、変化させる方法は、濃度や輝度を変化させる方法に限定されない。可視化処理部８０は、例えば、特徴量の数値情報に応じて、表示する態様の大きさ（例えば、点の大きさ）を変化させたり、態様そのものを変化させたり（例えば、記号自体を変化させる）してもよい。

　図６は、特徴量ごとの数値情報に応じてグラフ上に表示する態様を変化させた例を示す説明図である。図６に示す例は、図４に例示するグラフに対し、指定された特徴量（例えば、自車速度の平均値、など）の数値情報に応じて、網掛けの濃さを変化させたものである。なお、図６に例示するグラフは、表示の関係上、図４に例示するグラフにおけるいくつかの点をサンプリングして拡大表示したものである。また、図６に例示するグラフの右側に示すバーは、表示の関係上、範囲を区切って網掛けの濃さが変化しているが、値に応じたグラデーション表示されることが好ましい。

　なお、図６に例示するように、特徴量（例えば、自車速度の平均）に応じてグラフが表示されることから、図６に例示するグラフは、自車速度の平均値の分布を示すグラフであるとも言える。例えば、濃淡で特徴量の数値情報の大小が表わされている場合、クラスタによって色の濃淡が区別できる場合には、その特徴量がクラスタ化に大きな影響を与えていると判断でき、逆に、濃淡の区別ができない場合には、その特徴量がクラスタ化に与える影響は小さいと判断できる。

　このような判断を可視化処理部８０が自動で行ってもよい。可視化処理部８０は、例えば、表示したグラフから、クラスタを構成している分類対象データの集合を特定し、特定した分類対象データを示す画素の画素値（濃淡）について平均値および分散などの統計量を算出してもよい。この場合、例えば、平均値が所定の値より小さく、かつ、分散が所定の値より小さい場合、可視化処理部８０は、画素値が小さい値が多く集まっていると判断し、その特徴量がクラスタ化に寄与していると判断してもよい。

　また、上記説明では、入出力装置９０がユーザから１つの特徴量の指定を受け付け、可視化処理部８０が、その特徴量の数値情報に応じてグラフ上に表示する態様を変化させる場合について説明した。ただし、特徴量の指定は１つに限られず、複数であってもよい。特徴量が複数指定された場合、可視化手段８０は、２以上の特徴量の数値情報を同時に示すように態様を変化させて表示してもよい。

　具体的には、可視化処理部８０は、受け付けた特徴量の数値情報ごとに態様を変化させたグラフを、それぞれ表示してもよい。この場合、可視化処理部８０は、それぞれのグラフを並列表示、または、切替表示してもよい。

　他にも、可視化処理部８０は、２以上の特徴量の数値情報を１つのグラフ上に同時に示すようにしてもよい。例えば、可視化処理部８０は、特徴量ごとに表示する色を決定し、特徴量の数値情報ごとに各色の濃淡を決定し、決定した各色を重ね合わせて混色表示してもよい。

　なお、混色表示する際に用いる色の種類は、予め定めておけばよい。例えば、３種類ほどの色を混色表示することを想定し、互いに独立な色光（例えば、赤・緑・青）がそれぞれ定められ、可視化処理部８０は、これらの混色（例えば、シアン・マゼンダ・イエロー）を表示してもよい。

　なお、２以上の特徴量の数値情報を１つのグラフ上に同時に示す方法は、混色表示する方法に限定されない。可視化処理部８０は、他にも、例えば、記号の大きさと、色の濃淡または網掛けの組み合わせに基づいて分類対象のデータを表示してもよい。

　また、２以上の特徴量が指定された場合、可視化処理部８０は、指定された特徴量間の相関や類似性に基づいて、特徴量の態様を変化させて表示してもよい。例えば、指定された２以上の特徴量のうち一の特徴量が選択された場合、可視化処理部８０は、選択された一の特徴量と他の残りの特徴量との相関の強さに応じて、他の残りの特徴量の表示態様を変化させてもよい。

　図７は、特徴量間の相関を表示した例を示す説明図である。図７に示す例では、特徴量Ａ、特徴量Ｂ、特徴量Ｃおよび特徴量Ｄが指定された場合に、特徴量Ａが選択されると、可視化処理部８０が、特徴量Ａとの相関の強さに応じて、他の残りの特徴量Ｂ～Ｄの網掛け表示を変化させた例を示す。

　なお、相関を表示する方法は、図７に例示するような網掛けに限定されない。可視化処理部８０は、例えば、網掛け表示の代わりに、指定された色に変更（相関の強い項目を赤色、相関の弱い項目を青色、など）して特徴量を表示してもよい。

　さらに、可視化処理部８０は、表示したグラフ上で指定された範囲の分類対象データについて統計量を再計算し、再計算された統計量に応じて、指定された範囲の分類対象データをグラフ上に表示する態様を変化させてもよい。可視化処理部８０は、例えば、指定された範囲内の分類対象データの特徴量について平均値を再計算し、再計算された平均値に応じて表示する態様を変化させてもよい。このとき、可視化処理部８０は、指定された範囲の分類対象データのみを対象としたグラフを再描画してもよく、指定された範囲内のみ分類対象データの態様を変化させて表示してもよい。

　図８は、グラフ上の分類対象データを指定して統計量を再計算する処理の例を示す説明図である。図８に示す例は、図６に例示するグラフの中から破線で示す範囲の分類対象データを指定し、その指定した範囲内で統計量を再計算した結果を表示した例を示す。図８に例示するように、範囲を指定して再計算することで、例えばクラスタ内のデータに限定した詳細な分布を把握することが可能になる。

　また、可視化処理部８０は、指定された範囲の分類対象データに対して複数の統計量を再計算してもよい。そして、可視化処理部８０は、複数の統計量の指定を受け付け、受け付けた複数の統計量を１つのグラフ上に同時に示すようにしてもよく、指定された統計量の相関や類似性に基づいて、特徴量の態様を変化させて表示してもよい。

　このように指定された範囲内の分類対象データを対象として表示を行うことで、クラスタ内や近傍のクラスタにおけるデータ分布を詳細に確認することや、指定した範囲内の統計量やデータ間の相関を表示することも可能になる。

　入出力装置９０は、可視化処理部８０による処理結果を表示する。また、入出力装置９０は、上述するような、表示した結果に対するユーザからの入力を受け付け、入力に応じた処理を可視化処理部８０に実行させる。入出力装置９０は、例えば、タブレット端末などにより実現されてもよい。他にも、入出力装置９０は、ディスプレイ装置とポインティングデバイスを有する装置等により実現されてもよい。

　データ取得部１０と、関連情報取得部２０と、物体識別部３０と、データ加工部４０と、テキスト情報入力部５０と、特徴抽出部６０と、可視化処理部８０とは、プログラム（クラスタリング支援プログラム）に従って動作するコンピュータのプロセッサ（例えば、ＣＰＵ（Central Processing Unit ））によって実現される。

　例えば、プログラムは、クラスタリング支援システム１の記憶部（図示せず）に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、データ取得部１０、関連情報取得部２０、物体識別部３０、データ加工部４０、テキスト情報入力部５０、特徴抽出部６０、および、可視化処理部８０として動作してもよい。また、クラスタリング支援システム１の機能がＳａａＳ（Software as a Service ）形式で提供されてもよい。

　データ取得部１０と、関連情報取得部２０と、物体識別部３０と、データ加工部４０と、テキスト情報入力部５０と、特徴抽出部６０と、可視化処理部８０とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路（circuitry ）、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。

　また、クラスタリング支援システム１の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

　次に、本実施形態のクラスタリング支援システム１の動作を説明する。図９は、クラスタリング支援システム１の動作例を示すフローチャートである。図９に例示する動作例は、データ取得部１０が、直接、特徴抽出部６０が用いる形式のデータを取得し、取得したデータを特徴抽出部６０に入力した場合の動作例である。

　特徴抽出部６０は、分類対象のデータを機械学習により分類することで複数のクラスタを生成する（ステップＳ１１）。そして、可視化処理部８０は、特徴量ごとの数値情報に応じて変化させた態様で、生成されたクラスタに含まれる分類対象のデータを対応するグラフ上の位置に表示する（ステップＳ１２）。

　以上のように、本実施形態では、特徴抽出部６０が、分類対象のデータを機械学習により分類することで複数のクラスタを生成し、可視化処理部８０が、生成されたクラスタに含まれる分類対象のデータを、その分類対象のデータの特徴量に応じて、対応するグラフ上の位置に所定の態様で表示する。その際、可視化処理部８０が、特徴量ごとの数値情報に応じて、分類対象のデータを上記グラフ上に表示する態様を変化させる。そのような構成により、クラスタリングに寄与したデータ項目の把握を支援できる。

　例えば、ＡＩを単純に用いてデータをクラスタに分類しただけでは、その分類した理由が不明確な場合が多い。このような場合、一般的な方法では、目視でデータや動画を確認して、主観的に共通点を見出すことが行われる。しかし、全データを目視や表計算ソフトなどで確認することは現実的ではないため、サンプリングしたデータを対象に理由が判断される。しかし、このような方法では、サンプリングするデータに大きく依存してしまうため、クラスタ化された理由を適切に判断することは難しい。

　一方、本実施形態では、可視化処理部８０が、特徴量ごとの数値情報に応じて変化させた態様で、生成されたクラスタに含まれる分類対象のデータをグラフに一覧表示する。そのため、データの分布を特徴量ごとに俯瞰して確認できるため、クラスタリングに寄与したデータ項目の把握が容易になる。

　次に、本発明の概要を説明する。図１０は、本発明によるクラスタリング支援システムの概要を示すブロック図である。本発明によるクラスタリング支援システム１８０（例えば、クラスタリング支援システム１）は、対象データ（例えば、分類対象のデータ）を機械学習により分類することで複数のクラスタを生成する分類手段１８１（例えば、特徴抽出部６０）と、生成されたクラスタに含まれる対象データを、その対象データの特徴量に応じて、対応するグラフ上の位置に所定の態様（例えば、点や記号など）で表示する表示手段１８２（例えば、可視化処理部８０）とを備えている。

　そして、表示手段１８２は、特徴量ごとの数値情報に応じて、対象データをグラフ上に表示する前記態様を変化させる。

　そのような構成により、クラスタリングに寄与したデータ項目の把握を支援できる。

　また、表示手段１８２は、２以上の特徴量の数値情報を同時に示すように態様を変化させて表示してもよい。

　具体的には、表示手段１８２は、各特徴量の数値情報が示す色を重ね合わせて混色表示してもよい。

　また、表示手段１８２は、数値情報に応じて態様の濃淡または輝度を変化させてもよい。

　また、表示手段１８２は、表示したグラフ上で指定された範囲の対象データについて統計量を再計算し、再計算された統計量に応じて、その指定された範囲の分類対象データをグラフ上に表示する態様を変化させてもよい。

　また、表示手段１８２は、指定された特徴量間の相関に基づいて、特徴量の態様を変化させて表示してもよい。

　また、表示手段１８２は、対象データを次元削減（例えば、２次元や３次元に次元を圧縮）してグラフ上に表示してもよい。

　図１１は、少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ１０００は、プロセッサ１００１、主記憶装置１００２、補助記憶装置１００３、インタフェース１００４を備える。

　上述のクラスタリング支援システム８０は、コンピュータ１０００に実装される。そして、上述した各処理部の動作は、プログラム（クラスタリング支援プログラム）の形式で補助記憶装置１００３に記憶されている。プロセッサ１００１は、プログラムを補助記憶装置１００３から読み出して主記憶装置１００２に展開し、当該プログラムに従って上記処理を実行する。

　なお、少なくとも１つの実施形態において、補助記憶装置１００３は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース１００４を介して接続される磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ（Compact Disc Read-only memory ）、ＤＶＤ－ＲＯＭ（Read-only memory）、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ１０００に配信される場合、配信を受けたコンピュータ１０００が当該プログラムを主記憶装置１００２に展開し、上記処理を実行してもよい。

　また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置１００３に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル（差分プログラム）であってもよい。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

（付記１）対象データを機械学習により分類することで複数のクラスタを生成する分類手段と、
　生成されたクラスタに含まれる前記対象データを、当該対象データの特徴量に応じて、対応するグラフ上の位置に所定の態様で表示する表示手段とを備え、
　前記表示手段は、前記特徴量ごとの数値情報に応じて、前記対象データを前記グラフ上に表示する前記態様を変化させる
　ことを特徴とするクラスタリング支援システム。

（付記２）表示手段は、２以上の特徴量の数値情報を同時に示すように態様を変化させて表示する
　付記１記載のクラスタリング支援システム。

（付記３）表示手段は、各特徴量の数値情報が示す色を重ね合わせて混色表示する
　付記２記載のクラスタリング支援システム。

（付記４）表示手段は、数値情報に応じて態様の濃淡または輝度を変化させる
　付記１から付記３のうちのいずれか１つに記載のクラスタリング支援システム。

（付記５）表示手段は、表示したグラフ上で指定された範囲の対象データについて統計量を再計算し、再計算された統計量に応じて、当該指定された範囲の分類対象データをグラフ上に表示する態様を変化させる
　付記１から付記４のうちのいずれか１つに記載のクラスタリング支援システム。

（付記６）表示手段は、指定された特徴量間の相関に基づいて、特徴量の態様を変化させて表示する
　付記１から付記５のうちのいずれか１つに記載のクラスタリング支援システム。

（付記７）表示手段は、対象データを次元削減してグラフ上に表示する
　付記１から付記６のうちのいずれか１つに記載のクラスタリング支援システム。

（付記８）対象データを機械学習により分類することで複数のクラスタを生成し、
　生成されたクラスタに含まれる前記対象データを、当該対象データの特徴量に応じて、対応するグラフ上の位置に所定の態様で表示し、
　前記表示の際、前記特徴量ごとの数値情報に応じて、前記対象データを前記グラフ上に表示する前記態様を変化させる
　ことを特徴とするクラスタリング支援方法。

（付記９）２以上の特徴量の数値情報を同時に示すように態様を変化させて表示する
　付記８記載のクラスタリング支援方法。

（付記１０）コンピュータに、
　対象データを機械学習により分類することで複数のクラスタを生成する分類処理、および、
　生成されたクラスタに含まれる前記対象データを、当該対象データの特徴量に応じて、対応するグラフ上の位置に所定の態様で表示する表示処理を実行させ、
　前記表示処理で、前記特徴量ごとの数値情報に応じて、前記対象データを前記グラフ上に表示する前記態様を変化させる
　ためのクラスタリング支援プログラムを記憶するプログラム記憶媒体。

（付記１１）コンピュータに、
　表示処理で、２以上の特徴量の数値情報を同時に示すように態様を変化させて表示させるためのクラスタリング支援プログラムを記憶する
　付記１０記載のプログラム記憶媒体。

（付記１２）コンピュータに、
　対象データを機械学習により分類することで複数のクラスタを生成する分類処理、および、
　生成されたクラスタに含まれる前記対象データを、当該対象データの特徴量に応じて、対応するグラフ上の位置に所定の態様で表示する表示処理を実行させ、
　前記表示処理で、前記特徴量ごとの数値情報に応じて、前記対象データを前記グラフ上に表示する前記態様を変化させる
　ためのクラスタリング支援プログラム。

（付記１３）コンピュータに、
　表示処理で、２以上の特徴量の数値情報を同時に示すように態様を変化させて表示させる
　付記１２記載のクラスタリング支援プログラム。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　１　クラスタリング支援システム
　１０　データ取得部
　２０　関連情報取得部
　３０　物体識別部
　４０　データ加工部
　５０　テキスト情報入力部
　６０　特徴抽出部
　７０　特徴記憶部
　８０　可視化処理部
　９０　入出力装置

Claims

　対象データを機械学習により分類することで複数のクラスタを生成する分類手段と、
　生成されたクラスタに含まれる前記対象データを、当該対象データの特徴量に応じて、対応するグラフ上の位置に所定の態様で表示する表示手段とを備え、
　前記表示手段は、前記特徴量ごとの数値情報に応じて、前記対象データを前記グラフ上に表示する前記態様を変化させる
　ことを特徴とするクラスタリング支援システム。
　表示手段は、２以上の特徴量の数値情報を同時に示すように態様を変化させて表示する
　請求項１記載のクラスタリング支援システム。
　表示手段は、各特徴量の数値情報が示す色を重ね合わせて混色表示する
　請求項２記載のクラスタリング支援システム。
　表示手段は、数値情報に応じて態様の濃淡または輝度を変化させる
　請求項１から請求項３のうちのいずれか１項に記載のクラスタリング支援システム。
　表示手段は、表示したグラフ上で指定された範囲の対象データについて統計量を再計算し、再計算された統計量に応じて、当該指定された範囲の分類対象データをグラフ上に表示する態様を変化させる
　請求項１から請求項４のうちのいずれか１項に記載のクラスタリング支援システム。
　表示手段は、指定された特徴量間の相関に基づいて、特徴量の態様を変化させて表示する
　請求項１から請求項５のうちのいずれか１項に記載のクラスタリング支援システム。
　表示手段は、対象データを次元削減してグラフ上に表示する
　請求項１から請求項６のうちのいずれか１項に記載のクラスタリング支援システム。
　対象データを機械学習により分類することで複数のクラスタを生成し、
　生成されたクラスタに含まれる前記対象データを、当該対象データの特徴量に応じて、対応するグラフ上の位置に所定の態様で表示し、
　前記表示の際、前記特徴量ごとの数値情報に応じて、前記対象データを前記グラフ上に表示する前記態様を変化させる
　ことを特徴とするクラスタリング支援方法。
　２以上の特徴量の数値情報を同時に示すように態様を変化させて表示する
　請求項８記載のクラスタリング支援方法。
　コンピュータに、
　対象データを機械学習により分類することで複数のクラスタを生成する分類処理、および、
　生成されたクラスタに含まれる前記対象データを、当該対象データの特徴量に応じて、対応するグラフ上の位置に所定の態様で表示する表示処理を実行させ、
　前記表示処理で、前記特徴量ごとの数値情報に応じて、前記対象データを前記グラフ上に表示する前記態様を変化させる
　ためのクラスタリング支援プログラムを記憶するプログラム記憶媒体。
　コンピュータに、
　表示処理で、２以上の特徴量の数値情報を同時に示すように態様を変化させて表示させるためのクラスタリング支援プログラムを記憶する
　請求項１０記載のプログラム記憶媒体。