JP6943242B2

JP6943242B2 - 分析装置、分析方法、およびプログラム

Info

Publication number: JP6943242B2
Application number: JP2018524061A
Authority: JP
Inventors: 三橋　秀男; 秀男三橋
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2016-06-21
Filing date: 2017-06-19
Publication date: 2021-09-29
Anticipated expiration: 2037-06-19
Also published as: WO2017221856A1; JPWO2017221856A1

Description

本開示は、データの分析および予測に関する。

教師データを用いた機械学習に基づく、データの予測において、教師データのうちの目的変数の値ごとにサンプルの個数が大きく異なると、予測の正確度が低下するという問題がある。

たとえば、あるエリアにおける１日当たりのある事象（たとえば、事故など）の発生件数を目的変数として機械学習を実行する場合、一般的には、過去の１日当たりの発生件数と説明変数の組が、教師データとして使われる。このとき、その教師データのうちの大多数において、目的変数の値は「０件」や「１件」であり、「２件」以上の目的変数の値を有する教師データは少ないことが考えられうる。すなわち、上述のような教師データでは、目的変数の値ごとにサンプルの個数が大きく異なる。このように、目的変数の値ごとのサンプル数が偏った教師データは、不均衡データ（ＩｍｂａｌａｎｃｅｄＤａｔａ）と呼ばれることがある。不均衡データに基づいて機械学習および予測を行うと、目的変数の値の出現頻度が比較的低いサンプルデータの影響が小さくなり、予測の正確度が悪くなる。

特に、上述の発生件数の予測においては、発生件数が多いエリアを特定することが所望されるにも関わらず、発生件数の値が大きいサンプルは数が比較的少ないため、そのサンプルの特徴が機械学習において無視されやすい。その結果、たとえば発生件数を予測する式が、発生件数が多い地域の特徴を反映した式にならず、正確な予測ができないおそれがある。

上述の問題を解決するための技術の一例として、特許文献１に記載される、ＲａｎｄｏｍＯｖｅｒＳａｍｐｌｉｎｇ（ＲＯＳ）やＲａｎｄｏｍＵｎｄｅｒＳａｍｐｌｉｎｇ（ＲＵＳ）という方法がある。

ＲＯＳは、教師データに含まれる２つのクラスのうち、目的変数の値の出現頻度が高い方のクラスのサンプル数に合わせて、頻度が低い方のクラスのサンプル数を増加させる方法である。ＲＵＳは、教師データに含まれる２つのクラスのうち、頻度が低い方のクラスのサンプル数に合わせて、頻度が高い方のクラスのサンプル数を減少させる方法である。

特開２０１０−２０４９６６号公報

ＲＯＳでは意味のないノイズデータを生成してしまう場合がある。一方、ＲＵＳでは有用なサンプルデータを除外してしまう場合がある。その理由は、サンプルデータを人為的に削減したり追加したりするためである。

本発明は、サンプルデータを削減することも追加することもなく、サンプル数の偏りの影響を低減したデータ分析を行うことができる分析装置および方法を提供することを目的の１つとする。

本発明の一態様に係る分析装置は、説明変数と目的変数とが関連づけられる複数の分析対象を分類する組分けによって生成する複数のグループについて、前記複数のグループの説明変数と目的変数との関係を導出する機械学習分析を、前記組分けごとに実行する解析手段と、前記複数のグループの説明変数の値と前記関係とに基づいて、前記複数のグループの目的変数の値である予測値の算出を、前記組分けごとに実行する予測手段と、前記分析対象に関するスコアを、前記組分けごとに算出された、当該分析対象が属する前記グループの前記予測値に基づく演算によって、算出する算出手段と、を備える。

本発明の一態様に係る分析方法は、説明変数と目的変数とが関連づけられる複数の分析対象を分類する組分けによって生成する複数のグループについて、前記複数のグループの説明変数と目的変数との関係を導出する機械学習分析を、前記組分けごとに実行し、前記複数のグループの説明変数の値と前記関係とに基づいて、前記複数のグループの目的変数の値である予測値の算出を、前記組分けごとに実行し、前記分析対象に関するスコアを、前記組分けごとに算出された、当該分析対象が属する前記グループの前記予測値に基づく演算によって、算出する。

本発明の一態様に係るプログラムは、コンピュータに、説明変数と目的変数とが関連づけられる複数の分析対象を分類する組分けによって生成する複数のグループについて、前記複数のグループの説明変数と目的変数との関係を導出する機械学習分析を、前記組分けごとに実行する解析処理と、前記複数のグループの説明変数の値と前記関係とに基づいて、前記複数のグループの目的変数の値である予測値の算出を、前記組分けごとに実行する予測処理と、前記分析対象に関するスコアを、前記組分けごとに算出された、当該分析対象が属する前記グループの前記予測値に基づく演算によって、算出する算出処理と、を実行させる。

本発明によれば、サンプルデータを削減することも追加することもなく、サンプル数の偏りの影響を低減したデータ分析を行うことができる。

サンプルデータの例を表すデータ構造の図である。本発明の第１の実施形態に係る分析装置の構成を示すブロック図である。第１の実施形態に係る分析装置の主要な動作の流れを示すフローチャートである。本発明の第２の実施形態に係る分析装置の構成を示すブロック図である。それぞれのセルにおける、ある一日の事故の発生件数の例を示す図である。図５の例のデータの発生件数の分布を表すヒストグラムである。それぞれのセルにおける、一日の事故の発生件数の数百日分にわたるデータの、発生件数の分布を表すヒストグラムである。縦方向にグループを作成する概念を表す図である。グループの目的変数の値の分布を表すヒストグラムである。横方向にグループを作成する概念を表す図である。縦方向の組分けおよび横方向の組分けにより生成するグループのそれぞれの目的変数の値の例を説明する図である。各グループの予測値の例と、その予測値から算出される各セルのスコアの例を示す図である。第２の実施形態に係る分析装置の動作の流れを示すフローチャートである。組分け法の第３の例を表す図である。組分け法の第４の例を表す図である。組分け法の第５の例を表す図である。組分け法の第６の例を表す図である。セルのデータと組分け法とから、その組分け法により生成するグループのそれぞれの目的変数の値を導出する例を示す図である。３つの組分け法により各セルのスコアを算出する例を示す図である。５つの組分け法により生成する各グループの目的変数の予測値の例を示す図である。変形例３によって算出される各セルのスコアの例を示す図である。本発明の各実施形態の各部を構成するハードウェアの例を示すブロック図である。

以下、図面を参照しながら、本発明の実施形態を詳細に説明する。

＜＜第１の実施形態＞＞
まず、本発明の第１の実施形態について説明する。

第１の実施形態に係る分析装置１１は、分析対象について蓄積された説明変数と目的変数とのデータの組である、サンプルデータを扱う。分析対象とは、目的変数の値または値の目安を導出する対象である。分析対象は、識別番号によって識別されてもよいし、分析装置１１が表示する画面上の位置によって識別されてもよい。なお、分析対象にはそれぞれ説明変数の値が関連付けられる。分析装置１１は、後述する処理によって、その説明変数の値に基づいて分析対象の目的変数の値の目安となるスコアを算出する。

目的変数は、たとえば、ユーザが値を予測したい変数として選択した変数である。目的変数は、たとえば、あるエリアにおける、１日あたりの事故件数、１週間あたりの事件件数、または、１日あたりの救急車の出動件数、等でもよい。たとえば、ユーザがあるエリアにおける翌日の事故の発生件数を予測したい場合、目的変数は、そのエリアにおける１日あたりの事故の発生件数に設定されればよい。なお、この場合の分析対象は、そのエリアである。

説明変数は、目的変数の値に影響を与える要因であると考えられる変数である。たとえば、目的変数が、あるエリア内の１日あたりの事故の発生件数であれば、説明変数として考えられる変数は、例えば、各日における交通量、自動車保有率、自転車保有台数、信号機の数、標識の数、交差点の数、過去の事故の発生件数、天候、道路の幅員の平均、および、平日であるか休日であるか、等である。

図１に、サンプルデータの例を示す。図１に示されるように、サンプルデータは、分析対象（この例ではエリア）ごとの、その分析対象に関連する説明変数と目的変数との組である。図１に示す例では、Ｘ年Ｙ月Ｚ日の事故の発生件数と、その日の交通量や天気等の情報とが、サンプルデータに含まれている。

分析装置１１は、たとえば図示しない記憶装置から、分析対象に関するサンプルデータを取得する。そして、分析装置１１は、複数の分析対象のそれぞれについて、分析対象に関連づけられた説明変数に基づいて目的変数の値の目安となるスコアを算出する。以下、分析装置１１の制御構造について説明する。

＜構成＞
図２は、第１の実施形態の分析装置１１の構成を示すブロック図である。分析装置１１は、解析部１１３と、予測部１１４と、算出部１１５と、を備える。

解析部１１３は、分析対象に対する組分けによって生成する複数のグループについて、それぞれのグループの説明変数と目的変数との関係を導出する機械学習分析を実行する。なお、組分けとは、分析対象を複数のグループに分類することである。

組分けは、たとえば図示しない組分け部がそれぞれの分析対象にグループを識別する番号等を関連づけることにより、行われればよい。組分けによって、例えば、１００個の分析対象が、それぞれ１０個のグループのいずれかに関連づけられる。

解析部１１３は、この組分けにより生成するグループを教師データの単位とした、機械学習分析を行う。

具体的には、解析部１１３はまず、グループごとに、グループに含まれる分析対象に関連づけられるサンプルデータに基づいて、グループデータを作成する。グループデータとは、そのグループを１つのまとまりとして捉えた場合の説明変数と目的変数との組み合わせである。

たとえば、解析部１１３は、グループに含まれる分析対象に関連づけられるサンプルデータの目的変数の値を統合する。値を統合するとは、各々の値に基づく代表値を設定することである。すなわち、解析部１１３は、グループに含まれる分析対象に関連づけられるサンプルデータの各々の目的変数の値に基づく代表値を設定し、その代表値をグループの目的変数の値と見なす。値を統合するとは、具体的には、たとえば、それらの値を合計することである。あるいは、値を統合するとは、それらの値の平均を算出することでもよい。

同様に、解析部１１３は、それぞれの説明変数の値を統合する。なお、数値で表されない説明変数の値を統合する場合は、解析部１１３は、たとえばその説明変数の値の導出の仕方に基づいて、改めてそのグループにおける代表値を決定してもよい。

なお、解析部１１３は、異なる日における目的変数（または説明変数）を、別々に統合してよい。したがって、たとえば、数百日にわたるサンプルデータがある場合は、解析部１１３は、［分析対象の分類数×数百（個）］のグループデータを作成しうる。

そして、解析部１１３は、作成したグループデータを教師データとして使用した機械学習分析を実行する。機械学習分析は、たとえば、教師データに基づいて説明変数と目的変数との間の関係を導出する分析である。たとえば、機械学習分析では、説明変数と目的変数との間の関係を表す関数が導出される。この導出される関数は、帰納的に導出されるものであるから、いわば説明変数の値から目的変数の値を予測する関数である。以下、機械学習分析により導出される関数を「予測式」と呼ぶ。

すなわち、一例として、解析部１１３は、上記の教師データを使用した解析により、目的変数の値を予測する予測式を導出する。

解析部１１３は、２以上の組分けのそれぞれについて、予測式を導出する。たとえば、解析部１１３は、まず１つの組分けにより生成する全てのグループのグループデータを教師データとした機械学習分析により、１つの組分けに対する１つの予測式を導出する。そして、解析部１１３は、さらに、別の組分けにより生成する全てのグループのグループデータを教師データとした機械学習分析により、別の予測式を導出する。

予測部１１４は、組分けごとに、解析部１１３が導出した予測式とグループごとの説明変数の値とに基づいて、グループごとの目的変数の値である予測値を算出する。たとえば、予測部１１４は、翌日におけるグループの目的変数の値を、予測式と、翌日におけるグループの説明変数とに基づいて、算出する。グループの説明変数の値は、ユーザによって入力されてもよい。グループの説明変数の値は、データベース３２０に含まれる情報に基づいて設定されてもよい。

算出部１１５は、組分けごとに算出されたグループの目的変数の値に基づく演算によって、分析対象に関する値を算出する。算出部１１５によって算出される値を、「スコア」と呼ぶ。スコアは、目的変数の値の大きさの目安となる。

たとえば、ある組分け（第１の組分け）によって生成するグループの目的変数の値と、その組分けとは異なる組分け（第２の組分け）によって生成するグループの目的変数の値とがあるとする。算出部１１５は、分析対象のスコアとして、第１の組分けにおいてその分析対象が属するグループの予測値と、第２の組分けにおいてその分析対象が属するグループの予測値とを、乗算した値を算出する。算出部１１５は、分析対象のスコアとして、分析対象が属するグループの予測値の平均を算出してもよい。

＜主要な動作＞
分析装置１１の主要な動作の流れを、図３のフローチャートに沿って説明する。

ステップＳ２１において、解析部１１３は、分析対象に対する組分けによって生成する複数のグループについて、複数のグループの説明変数と目的変数との関係を導出する機械学習分析を、組分けごとに実行する。

ステップＳ２２において、予測部１１４は、グループの説明変数の値と、解析部１１３が導出した関係とに基づいた、グループの目的変数の値である予測値の算出を、組分けごとに実行する。

ステップＳ２３において、算出部１１５は、分析対象に関するスコアを、組分けごとに算出された、その分析対象が属するグループの予測値に基づく演算によって、算出する。

＜効果＞
第１の実施形態の構成によれば、サンプルデータを削減することも追加することもなく、目的変数の値ごとのサンプル数の偏りの影響を低減したデータ分析を行うことができる。その理由は、各サンプルデータがグループにまとめられることによって、教師データにおける目的変数の値ごとのサンプル数の偏りが軽減されるからである。かつ、この分析においては、サンプルデータは削減も追加もされていない。

＜＜第２の実施形態＞＞
次に、本発明の第２の実施形態について説明する。

＜構成＞
図４は、第２の実施形態に係る分析装置１２の構成を示すブロック図である。

分析装置１２は、データベース３２０を記憶する記憶装置３２と通信可能に接続されている。分析装置１２は、記憶装置３２からデータベース３２０が含む情報を読み出す。分析装置１２が読み出す情報は、たとえば、ユーザによる指定に基づいて読み出されてもよい。

本実施形態のデータベース３２０は、ある地域における事故に関連する情報を含む。たとえば、データベース３２０は、その地域における、事故が発生した日時および場所、ならびに、日ごとの交通量、天気、降雨量、交差点の数、信号機の数、道路の幅員の平均、および平日であるか休日であるかの区別等の情報を含む、所定期間（たとえば過去数百日分）にわたるデータを記憶する。

分析装置１２は、分割部１１１、組分け部１１２、解析部１１３、予測部１１４、算出部１１５、および、出力部１１６を備える。

＝＝＝分割部１１１＝＝＝
分割部１１１は、分析の範囲（すなわち、地域の範囲）を特定する。範囲の特定において、分割部１１１は、たとえば、ユーザから地域の範囲を指定する情報を取得する。分割部１１１は、データベース３２０から、地域の範囲を指定する情報を読み出してもよい。分割部１１１は、地域の範囲を指定する情報に基づいて、分析の範囲を特定すればよい。

分割部１１１は、分析の範囲を複数の区画にメッシュ分割する。分割する際のメッシュのサイズは、目的に応じて適宜選択されてよい。例えば、メッシュのサイズは、ユーザが指定してもよい。この場合、たとえばユーザが「１キロメートル四方」を示す情報を分析装置１２に入力することにより、分割部１１１は、地域を１キロメートル四方のメッシュサイズで分割してもよい。あるいは、メッシュのサイズは、特定された地域の大きさやデータ数に応じて、分析装置１２によって適宜設定されてもよい。

以下、分割によって生成する区画の１つ１つを、「セル」と呼ぶ。１つのセルのサイズは、たとえば数十メートル四方でも、数キロメートル四方でもよい。セルの形は四角形でなくともよい。全てのセルのサイズが同一である必要はない。

なお、このようにして生成したセルが、本実施形態の分析装置１２の算出部１１５によるスコアの算出の対象、すなわち分析対象である。

分割部１１１は、セルごとに、サンプルデータを特定してもよい。すなわち、分割部１１１は、セルごとに、これまでに測定された目的変数の値および説明変数の値の組を特定してもよい。目的変数は、たとえば、ユーザによって設定される。例として、目的変数は１日あたりの事故の発生件数である。分割部１１１は、例えば、サンプルとなる目的変数および説明変数の値を、データベース３２０に記憶されるデータに基づいて特定する。例えば、分析装置１２が目的変数を１日あたりの事故の発生件数とする分析を行う場合には、分割部１１１は、データベース３２０に記憶される、これまでに記録された事故のデータに基づき、各セルにおける日ごとの発生件数と説明変数の値とを算出してもよい。

図５は、ある日のそれぞれのセルの事故の発生件数の一例を示す図である。事故の発生件数のような、単位期間（例えば１日間）における１つのセル（例えば１キロメートル四方）における事象の発生回数を表す変数は、その値が、１以下の値をとる場合と比較して、２以上の値をとることが少ない場合がある。そのような変数が目的変数である場合、図５に示されるように、目的変数の値が０件や１件であるセルが多く、値が２件以上であるセルは少なくなる。

図６は、図５に示した例の、各セルの目的変数の値の度数分布を表すヒストグラムである。図６で明白なように、目的変数の値（発生件数）ごとのサンプルデータ数は、大きく偏っていることがわかる。

分析装置１２が扱うデータは、特定の１日のデータのみである必要はない。分析装置１２は、複数の日のデータを扱ってもよい。図７は、数百日にわたってデータベース３２０に蓄積された各日のデータの、目的変数の値の度数分布を示すヒストグラムの一例である。一般的には、数百日分のデータを使用することによりサンプルデータ数は増えるため、予測の精度（precision、すなわち、予測結果のばらつきの小ささ）は向上すると考えられる。しかしながら、サンプルデータ数の増加によっても、目的変数の値ごとのサンプルデータ数の不均衡は依然として改善されないため、正確度（accuracy、すなわち、真の値への近さ）が向上するとはいえない。

＝＝＝組分け部１１２＝＝＝
組分け部１１２は、同じ列のセルを１つのグループにまとめる。図８は、組分け部１１２が同じ列のセルを１つのグループのまとめる様子を示す概念図である。図８に示す例では、組分け部１１２は、縦方向に並ぶセルが同じグループになるよう、５つのグループＡ_１，Ａ_２，Ａ_３、Ａ_４，およびＡ_５にまとめる。すなわち、組分け部１１２は、セルを５つのグループに分類する。

図９は、それぞれのグループにおける目的変数の値の度数分布を示すヒストグラムの一例である。図９で示されるように、図７に示される例に比べ、目的変数の値が広範囲にわたって分布し、目的変数の値ごとのサンプルデータ数のばらつきは抑えられる。

組分け部１１２は、同様に、横方向の行が同じセルを１つのグループにまとめる。すなわち、組分け部１１２は、図１０のように、組分け部１１２は、各セルを、グループＢ_１，Ｂ_２，Ｂ_３、Ｂ_４，およびＢ_５に分類する。

＝＝＝解析部１１３＝＝＝
解析部１１３は、組分けごとに、グループを教師データの単位として機械学習を行う。具体的には、解析部１１３は、機械学習を以下のように行う。

解析部１１３は、まず、グループを１つの単位とした教師データを取得する。すなわち、解析部１１３は、各グループの目的変数の値および説明変数の値を取得する。

グループの目的変数の値は、たとえば、グループに含まれるセルの目的変数の総和である。たとえば、図８によれば、グループＡ_１の目的変数の値は、０＋１＋１＋１＋０＝３である。グループの目的変数の値は、グループに含まれるセルの目的変数の平均でもよい。

図１１は、図５に示したサンプルの例において、セルを縦方向および横方向にまとめることによって生成したグループの、それぞれの目的変数の値の例を示す図である。

解析部１１３は、各グループの説明変数の値を算出する。グループの説明変数の値は、たとえば、グループに含まれるセルの説明変数の総和でもよいし、平均でもよい。

こうして、解析部１１３は、グループを１つの単位とした教師データ（すなわち、グループの目的変数の値および説明変数の値の組）を取得する。

そして、解析部１１３は、得られた教師データを用いて、機械学習分析を行う。

解析部１１３は、たとえば、縦方向にまとめられたグループの、たとえば過去数百日分のデータに基づいて、機械学習分析を行い、１つの予測式を導出する。この予測式は、グループの説明変数の値からグループの目的変数の値を予測する式である。

解析部１１３は、同様に、横方向にまとめられたグループの過去数百日分のデータに基づいて、機械学習分析を行い、さらに別の予測式を導出する。なお、この機械学習分析において基となる過去のデータは、縦方向にまとめられたグループに対する機械学習分析で用いたデータと同じ期間のデータであってもよいし、異なる期間のデータであってもよい。

これにより、不均衡性が低減された教師データに基づく予測式が算出される。

＝＝＝予測部１１４＝＝＝
予測部１１４は、解析部１１３が導出した予測式に基づいて、各グループの目的変数の予測値を算出する。具体的には、予測部１１４は、各グループの説明変数の値を予測式に代入することにより、そのグループの目的変数の予測値を得る。このとき用いられる各グループの説明変数の値は、たとえば、予測値を算出したい日の、説明変数の実測値もしくは予測値である。たとえば、信号機数や交差点数の値は、前日と同一の値が設定されてよい。自転車保有台数の値は、前日と同一の値または増減率を考慮した値が設定されればよい。天候は、天気予報等の情報から、尤もらしい値が設定されればよい。

以下、グループの目的変数の予測値を、単に「グループの予測値」と呼ぶことがある。

＝＝＝算出部１１５＝＝＝
算出部１１５は、予測部１１４が導出したグループの予測値に基づき、各セルの目的変数の値の目安となるスコアを算出する。

たとえば、算出部１１５は、それぞれのセルについて、そのセルを含むグループのそれぞれの予測値をかけ合わせた値を、そのセルにおけるスコアとして算出する。

図１２は、予測部１１４が算出した各グループの予測値から、各セルのスコアを算出する一例を示す図である。なお、表の左に付されたアラビア数字および表の上に付されたローマ数字は、説明の便宜上付された記号であり、それぞれ表における行または列を識別する記号である。

図１２に示されるように、予測部１１４は、グループＡ_１〜Ａ_５の予測値としてそれぞれ［３，０，４，７，１］を算出し、グループＢ_１〜Ｂ_５の予測値としてそれぞれ［０，２，７，４，２］を算出したとする。この場合、例えば第１行第Ｉ列に相当するセルのスコアは［０×３］で［０］、第２行第Ｉ列に相当するセルのスコアは［２×３］で［６］、第３行第ＩＶ列に相当するセルのスコアは［７×７］で［４９］となる。ただし、「×」は掛け算を表す演算子である。

本実施形態の例における各セルのスコアの算出の方法は、次のようにも表せる。すなわち、セルの列番号を左から順にｉ（ｉ＝１，２，３，４，５）、行番号を上から順にｊ（ｊ＝１，２，３，４，５）で表すとすると、第ｊ行第ｉ列のセルのスコアはＢ_ｊ×Ａ_ｉである。

算出部１１５は、以上のようにして、各セルのスコアを算出し、算出した値をセルに関連づける。

＝＝＝出力部１１６＝＝＝
出力部１１６は、スコアに基づいた情報を出力する。たとえば、出力部１１６は、スコアが算出されたセルのうち、スコアの値が大きいセルを、事故が多く発生すると予測される場所として示す情報を出力する。

たとえば、出力部１１６は、スコアの値が最も大きいセルから順に所定の数のセルを抽出し、抽出されたセルを他のセルとは異なる態様で表示してもよい。たとえば、出力部１１６は、分析対象の地域の地図において抽出されたセルに相当するエリアを強調した画像を出力してもよい。出力部１１６は、セルとスコアの値とを関連づけたデータを出力してもよい。

＜動作＞
第２の実施形態に係る分析装置１２の動作の流れを、図１３に沿って説明する。

まず、分割部１１１が、分析の範囲を特定する（ステップＳ９１）。そして、分割部１１１は、分析の範囲を複数のセルに分割する（ステップＳ９２）。

次に、組分け部１１２が、縦方向に並ぶセルを同じグループとした組分けを行う（ステップＳ９３）。そして、解析部１１３が、縦方向のグループのデータを教師データとした機械学習分析を実行する（ステップＳ９４）。そして、予測部１１４が、予測式と縦方向のグループのそれぞれの説明変数の値とに基づいて、グループのそれぞれの目的変数の予測値を算出する（ステップＳ９５）。

組分け部１１２は、横方向に並ぶセルを同じグループとした組分けも行う（ステップＳ９６）。解析部１１３は、横方向のグループのデータを教師データとした機械学習分析を実行する（ステップＳ９７）。予測部１１４は、予測式と横方向のグループのそれぞれの説明変数の値とに基づいて、グループのそれぞれの目的変数の予測値を算出する（ステップＳ９８）。

ステップＳ９３からステップＳ９８の処理の順序は、上述の例に限られない。たとえば、ステップＳ９３からステップＳ９５の処理と、ステップＳ９６からステップＳ９８の処理とは、並行して行われてもよい。

そして、算出部１１５は、縦方向のグループの目的変数の予測値と、横方向のグループの目的変数の予測値とに基づいて、各セルのスコアを算出する（ステップＳ９９）。

最後に、出力部１１６が、スコアに基づいた情報を出力する（ステップＳ１００）。

＜効果＞
第２の実施形態に係る分析装置１２によれば、分析の範囲を複数に分割することにより生成したセルの、予測したい目的変数の値の目安となるスコアを算出することができる。

たとえば、上述した具体的な例に従えば、分析装置１２は、翌日における、エリアごとの事故の発生件数の多さの目安となるスコアを算出できる。また、分析装置１２は、分析の範囲の地域のうちの、事故の発生件数が高いと予測されるエリアを特定することができる。また、特定した結果を出力することにより、ユーザは、そのエリアを事故の発生リスクが高い場所として認識することができる。

この分析において、分析装置１２は、データベース３２０に含まれる、機械学習分析に用いることができるデータを不必要に選別したり捨てたりする必要がない。また、分析装置１２は、データベース３２０に含まれていないデータを新たに生成したり追加したりする必要はない。

すなわち、分析装置１２は、サンプルデータを削減することも追加することもなく、データ分析を行うことができる。

上記に加え、この分析では目的変数の値ごとのサンプル数の偏りの影響が低減される。その理由は、各サンプルデータがグループにまとめられることによって、教師データにおける目的変数の値ごとのサンプル数の偏りが軽減されるからである。偏りが低減されることにより、目的変数の値が出現頻度の低い値であるサンプルの特徴が、機械学習分析において無視されにくくなる。

＜＜変形例＞＞
分析装置１２が扱う説明変数および目的変数は、機械学習の対象となりうる変数であれば何でもよい。目的変数は特定の種類の事件や事故の件数でもよい。その他、目的変数は、落雷件数、落とし物の届け出件数、小動物の死骸の発見件数、または公共物の破損があった数等でもよい。

分析対象は、地域である必要はない。分析対象は、交差点でもよいし、交番、または建物でもよい。分析対象は、目的変数に応じて設定されればよい。

以下、組分けの方法およびスコアの算出の方法に関する変形例を紹介する。

（変形例１）
上記第２の実施形態の説明では、組分け部１１２は、同じ列または行に並ぶセルを同一のグループとする組分けを行うが、組分けの方法（以下、「組分け法」と呼ぶ。）はこれらに限られない。

図１４Ｃ、図１４Ｄ、図１４Ｅ、および図１４Ｆは、それぞれ、上に示した組分け法以外の組分け法の例（それぞれ、組分け法Ｃ、組分け法Ｄ、組分け法Ｅ、および組分け法Ｆ）を示す図である。なお、図１４Ｃ〜１４Ｆに示される表のそれぞれの左側に付されたアラビア数字および上側に付されたローマ数字は、説明の便宜上付された記号であり、それぞれ表における行または列を識別する記号である。なお、図８で説明された縦方向の組分け法を組分け法Ａ、図１０で説明された横方向の組分け法を組分け法Ｂ、とする。

図１４Ｃを参照すると、たとえば、組分け法Ｃでは、１行Ｉ列、２行ＩＩ列、３行ＩＩＩ列、４行ＩＶ列、５行Ｖ列、が同じグループＣ_１となる。

組分け部１１２は、組分け法Ｃ〜Ｆのような組分け法を採用してもよい。たとえば、組分け部１１２は、組分け法Ａを第１の組分けに採用し、組分け法Ｃを第２の組分けに採用してもよい。

なお、図１５は、組分け法Ｃによって生成するグループのそれぞれの、統合された目的変数の値の算出例を示す図である。たとえば、図１５の左に示されるセルが、図１５の右に示される組分け法で組分けされる場合、グループＣ_１の説明変数の値は０＋０＋２＋２＋０＝４である。

解析部１１３は、第１の組分けに基づく機械学習分析と、第２の組分けに基づく機械学習分析とを行い、それぞれ予測式を導出する。予測部１１４がそれぞれの予測式に基づく各グループの予測値を算出し、算出部１１５が、各セルが属するグループの乗算値をスコアとして算出する。この方法によっても、各セルのスコアは算出される。算出されるスコアは、セルに特有の計算式に基づく。その理由は、どのセルも、そのセルを含むグループの組み合わせが、他のセルのそれと異なるからである。

組分け部１１２は、セルごとにセルを含むグループの組み合わせが異なるような、２つの組分け法であれば、どのような２つの組分け法を用いてもよい。

なお、上述した組分け法Ａ，Ｂ，Ｃ，Ｄ，Ｅ，Ｆは、どの２つのセルも、任意の２つ以上の組分けにおいて異なるグループに属するように、設計されている。このように設計された６種類の組分けに対して、算出部１１５は、任意の２つの組分けに基づくデータを用いて、各セルに対応するスコアを算出してよい。

（変形例２）
組分け部１１２は３種類以上の組分けを実行してもよい。そして、解析部１１３は、組分け部１１２が行った組分けのそれぞれに対して、予測式を導出してもよい。予測部１１４は、３種類以上の予測値を算出してもよい。

たとえば、組分け部１１２は、図８、図１０および図１４Ｃ〜１４Ｆで示される組分け法のうち、組分け法Ａ、組分け法Ｂ、および組分け法Ｃを実行したとする。解析部１１３は、それぞれの組分けに基づく予測式を導出する。それぞれのグループの予測値が、図１６の、各グループ名が付されたデータ列の値のように、予測部１１４によって算出されたとする。算出部１１５は、各セルのスコアを、当該セルが属するグループの予測値を乗算することにより算出する。すると、図１６の左上の表に示されるような結果が得られる。

このように、３種類以上の組分けを用いて分析を行うことによっても、分析装置１２は各セルのスコアを算出できる。組分けの種類を増やして分析することにより、スコアの算出に用いる予測値の個数が増え、各セルのスコアの値はより大きくばらつく。たとえば、図１６で示される本変形例のスコアの算出例では、第３行第Ｉ列のセルのスコアが４２、第３行第ＩＩＩ列のセルのスコアが１１２であり、両者の値には明確な差がある。この差は、図１２で示された、２種類の組分けに基づいたスコアの算出例における両者の差（第３行第Ｉ列のセルのスコアが２１、第３行第ＩＩＩ列のセルのスコアが２８）に比べ、はるかに大きい。このように、組分けの種類を増やして分析することにより、各セルのスコアの値はより大きくばらつき、それにより発生リスクが大きい箇所をより特定しやすくなる。なお、この効果は、スコアを乗算によって算出する場合に特に顕著に表れる。

また、乗算によるスコアの算出では、ある組分けにおける特定のグループの予測値が０であった場合、そのグループに含まれるセルのスコアはすべて０となるため、そのセルにおける事故の発生のリスクが少ないことが明らかになる。

また、３種類以上の組分けに基づいて分析を行うことによって、発生リスクが小さいセルのスコアが偶発的に大きく算出されるというリスクが低減されうる。

なお、組分け部１１２は、教師データの目的変数の値がなるべく不均衡でない組分け法を採用してもよい。たとえば、組分け部１１２は、行った組分けによって生成したグループの教師データの目的変数の値のばらつきが、所定の基準を外れるか（たとえば、分散が所定の値を下回るか）を判定してもよい。そして、組分け部１１２は、ばらつきが所定の基準を外れる場合に、もう一度異なる組分けを行ってもよい。この構成によって、ばらつきが所定の基準を外れない組分けによるグループでの機械学習分析が可能となる。

以上の変形例１および２に示した組分けの方法は、地域を複数のセルにメッシュ分割した場合以外にも用いることができる。たとえば、上述した組分けの方法は、既に識別された複数個の分析対象に対して用いてもよい。

また、上述の例では、分析対象の数が５×５個であったが、分析対象の数はこれに限られない。分析対象の個数が整数の２乗でない場合は、組分けごとにグループを構成する分析対象の数が異なっていてもよい。たとえば、分析対象が３０個である場合は、組分け部１１２は、分析対象が５つずつであるグループに分割する第１の組分けと、分析対象が６つずつであるグループに分割する第２の組分けと、分析対象が５つずつであるグループに分割する第３の組分けとを行ってもよい。このように、分析対象の個数が整数の２乗でなくとも、複数の組分けおよびスコアの算出は可能である。

（変形例３）
ｎ×ｎ個（ｎは２以上の整数）の分析対象に対して、変形例１で示されるような、「どの２つの分析対象も、任意の２つ以上の組分けにおいて異なるグループに属するような組分け法」が、ｎ＋１個作れる場合、算出部１１５は、分析対象（以下の説明では、セル）のスコアを、以下に示す方法で算出してもよい。以下、変形例３として、算出部１１５がセルのスコアを前述の方法とは異なる方法で算出する構成を説明する。

まず、分割部１１１が、地域をｎ×ｎのセルに分割したとする。

組分け部１１２は、ｎ×ｎ個のセルに対し、どの２つのセルも、任意の２つ以上の組分けにおいて属するグループの組み合わせが異なるような、ｎ＋１種類の組分け法を実行する。（たとえばｎ＝５である場合、上述した組分け法Ａ〜Ｆの６つが、上記ｎ＋１種類の組分け法の一例である。）言い換えれば、組分け部１１２は、任意の２つのセルが、いずれかただ１つの組分けにおいて同一のグループに属するような、ｎ＋１回の組分けを行う。

解析部１１３は、それぞれの組分けに基づく機械学習分析を行い、それぞれの予測式を導出する。

予測部１１４は、それぞれの予測式に基づく各グループの予測値を算出する。

そして、算出部１１５は、セルのスコアを次のように算出する。すなわち、
・当該セルが属するグループのすべての予測値の総和を算出し、
・算出された総和から、任意の組分けに基づいたグループの予測値の総和（Ｓとする）を減算し、
・減算された値をｎで除する。

なお、総和Ｓは、各セルのスコアの計算において同一であってよい。また、総和Ｓの値は、任意の複数の組分けのそれぞれに基づいたグループの予測値の総和の、平均や中央値でもよい。

以下、具体例を、図５に示される例を用いて説明する。図５に示される場合では、ｎ＝５である。

組分け部１１２は、図８、１０および１４Ｃ〜１４Ｆに示される組分け法Ａ〜Ｆを行い、各グループの説明変数および目的変数を算出する。

解析部１１３は、それぞれの組分けに基づく機械学習分析を行い、それぞれの予測式を導出する。予測部１１４は、それぞれの予測式に基づく各グループの予測値を算出する。その結果、それぞれの組分け法に基づくグループの予測値が、図１７に示すような値になったとする。すなわち、組分け法Ａに基づくグループＡ_１〜Ａ_５の予測値［ａ_１，ａ_２，ａ_３，ａ_４，ａ_５］は［３，０，４，７，１］となり、組分け法Ｂに基づくグループＢ_１〜Ｂ_５の予測値［ｂ_１，ｂ_２，ｂ_３，ｂ_４，ｂ_５］は［０，２，７，４，２］となり、組分け法Ｃに基づくグループＣ_１〜Ｃ_５の予測値［ｃ_１，ｃ_２，ｃ_３，ｃ_４，ｃ_５］は［４，３，３，２，３］となり、組分け法Ｄに基づくグループＤ_１〜Ｄ_５の予測値［ｄ_１，ｄ_２，ｄ_３，ｄ_４，ｄ_５］は［２，３，２，３，５］となり、組分け法Ｅに基づくグループＥ_１〜Ｅ_５の予測値［ｅ_１，ｅ_２，ｅ_３，ｅ_４，ｅ_５］は［２，４，４，２，３］となり、組分け法Ｆに基づくグループＦ_１〜Ｆ_５の予測値［ｆ_１，ｆ_２，ｆ_３，ｆ_４，ｆ_５］は［４，５，２，１，３］となったとする。

算出部１１５は、各セルのスコアを算出する。なお、スコアを算出するにあたり、算出部１１５は、任意の組分け法に基づくグループの予測値の総和Ｓの値を求める。総和Ｓの値は、たとえば、ａ_１＋ａ_２＋ａ_３＋ａ_４＋ａ_５である。

算出部１１５は、ターゲットのセルが属するグループのすべての予測値の総和からＳを減算した値をｎで除した値を、ターゲットのセルのスコアの値として算出する。

たとえば、１行Ｉ列に相当するセルは、グループＡ_１，Ｂ_１，Ｃ_１，Ｄ_１，Ｅ_１，Ｆ_１に属するから、このセルのスコアは、
｛（ａ_１＋ｂ_１＋ｃ_１＋ｄ_１＋ｅ_１＋ｆ_１）−Ｓ｝／５
で算出される。

同様に、たとえば、３行ＩＶ列に相当するセルのスコアは、
｛（ａ_４＋ｂ_３＋ｃ_２＋ｄ_５＋ｅ_３＋ｆ_１）−Ｓ｝／５
で算出される。

図１８は、図１７に示される予測値に基づいて上記の方法で算出された各セルのスコアの値を示す図である。

このようにして算出されたスコアの値は、そのセルの目的変数の予測値と見なすことができる。その理由は、ターゲットのセルが属するグループのすべての予測値の総和の値は、すべてのセルが１つ分ずつ寄与した値と、ターゲットのセルがｎ個分寄与した値とを足し合わせた値と見なせるからである。

なお、教師データに用いられたグループの目的変数が各セルの目的変数の平均によって算出されていた場合は、上述したスコアの算出の工程において、ｎで除する工程を省略してもよい。

以上説明した方法により、分析装置１２は、目的変数の予測値としてより確度の高い値を算出することができる。

（ハードウェアについて）
以上、説明した本発明の各実施形態において、各装置の各構成要素は、機能単位のブロックを示している。各装置の各構成要素の一部または全部は、例えば図１９に示すようなコンピュータ１９００とプログラムとの可能な組み合わせにより実現される。コンピュータ１９００は、一例として、以下のような構成を含む。

・ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１９０１
・ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１９０２
・ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１９０３
・ＲＡＭ１９０３にロードされるプログラム１９０４Ａおよび記憶情報１９０４Ｂ
・プログラム１９０４Ａおよび記憶情報１９０４Ｂを格納する記憶装置１９０５
・記録媒体１９０６の読み書きを行うドライブ装置１９０７
・通信ネットワーク１９０９と接続する通信インタフェース１９０８
・データの入出力を行う入出力インタフェース１９１０
・各構成要素を接続するバス１９１１
各実施形態における各装置の各構成要素は、これらの機能を実現するプログラム１９０４ＡをＣＰＵ１９０１がＲＡＭ１９０３にロードして実行することで実現される。各装置の各構成要素の機能を実現するプログラム１９０４Ａは、例えば、予め記憶装置１９０５やＲＯＭ１９０２に格納されており、必要に応じてＣＰＵ１９０１が読み出す。なお、プログラム１９０４Ａは、通信ネットワーク１９０９を介してＣＰＵ１９０１に供給されてもよいし、予め記録媒体１９０６に格納されており、ドライブ装置１９０７が当該プログラムを読み出してＣＰＵ１９０１に供給してもよい。

各装置の実現方法には、様々な変形例がある。例えば、各装置は、構成要素毎にそれぞれ別個のコンピュータ１９００とプログラムとの可能な組み合わせにより実現されてもよい。また、各装置が備える複数の構成要素が、一つのコンピュータ１９００とプログラムとの可能な組み合わせにより実現されてもよい。

また、各装置の各構成要素の一部または全部は、その他の汎用または専用の回路、コンピュータ等やこれらの組み合わせによって実現される。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。

各装置の各構成要素の一部または全部が複数のコンピュータや回路等により実現される場合には、複数のコンピュータや回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、コンピュータや回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

本願発明は以上に説明した実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

本出願は、２０１６年６月２１日に出願された日本出願特願２０１６−１２２８４３を基礎とする優先権を主張し、その開示の全てをここに取り込む。

上記実施形態の一部または全部は以下の付記のようにも記載され得るが、以下には限られない。

＜＜付記＞＞
［付記１］
説明変数と目的変数とが関連づけられる複数の分析対象を分類する組分けによって生成する複数のグループについて、前記複数のグループの説明変数と目的変数との関係を導出する機械学習分析を、前記組分けごとに実行する解析手段と、
前記複数のグループの説明変数の値と前記関係とに基づいて、前記複数のグループの目的変数の値である予測値の算出を、前記組分けごとに実行する予測手段と、
前記分析対象に関するスコアを、前記組分けごとに算出された、当該分析対象が属する前記グループの前記予測値に基づく演算によって、算出する算出手段と、
を備える分析装置。
［付記２］
前記組分けにおいて同一のグループに属する前記分析対象のうちの任意の２つが、他の前記組分けにおいて異なるグループに属する、
付記１に記載の分析装置。
［付記３］
前記解析手段は、前記機械学習分析を、３つ以上の前記組分けごとに実行し、
前記予測手段は、前記予測値の算出を、前記３つ以上の組分けごとに実行し、
前記算出手段は、前記スコアを、前記３つ以上の組分けごとに算出された、当該分析対象が属する前記グループの前記予測値のそれぞれを乗算することによって算出する、
付記１または２に記載の分析装置。
［付記４］
前記組分けについて、当該組分けによって生成するグループの目的変数の値のばらつきが所定の基準を外れるかを判定し、前記ばらつきが前記所定の基準を外れた場合に、新たに前記組分けを実行する、組分け手段をさらに備え、
前記解析手段は、前記ばらつきが所定の基準を外れないと判定された前記組分けによって生成する複数のグループについて前記機械学習分析を実行する、
付記１から付記３のいずれか一項に記載の分析装置。
［付記５］
ｎ×ｎ個（ｎは２以上の整数）の前記分析対象に対し、任意の２つの前記分析対象がいずれかただ１つの組分けにおいて同一のグループに属するようなｎ＋１回の前記組分けを行う組分け手段をさらに備え、
前記算出手段は、前記分析対象のそれぞれの前記スコアを、当該分析対象が属するすべての前記グループについて算出された前記予測値の総和から、前記組分けのいずれかに基づいて算出された各グループの前記予測値の総和を引いた値を用いて、算出する、
付記１に記載の分析装置。
［付記６］
前記分析対象のうち前記スコアが高い方から所定数の前記分析対象を、他の前記分析対象とは異なる態様で表示する出力手段をさらに備える、
付記１から付記５のいずれか一項に記載の分析装置。
［付記７］
説明変数と目的変数とが関連づけられる複数の分析対象を分類する組分けによって生成する複数のグループについて、前記複数のグループの説明変数と目的変数との関係を導出する機械学習分析を、前記組分けごとに実行し、
前記複数のグループの説明変数の値と前記関係とに基づいて、前記複数のグループの目的変数の値である予測値の算出を、前記組分けごとに実行し、
前記分析対象に関するスコアを、前記組分けごとに算出された、当該分析対象が属する前記グループの前記予測値に基づく演算によって、算出する、
分析方法。
［付記８］
前記組分けにおいて同一のグループに属する前記分析対象のうちの任意の２つが、他の前記組分けにおいて異なるグループに属する、
付記７に記載の分析方法。
［付記９］
前記機械学習分析を、３つ以上の前記組分けごとに実行し、
前記予測値の算出を、前記３つ以上の組分けごとに実行し、
前記スコアを、前記３つ以上の組分けごとに算出された、当該分析対象が属する前記グループの前記予測値のそれぞれを乗算することによって算出する、
付記７または８に記載の分析方法。
［付記１０］
前記組分けについて、当該組分けによって生成するグループの目的変数の値のばらつきが所定の基準を外れるかを判定し、前記ばらつきが前記所定の基準を外れた場合に、新たに前記組分けを実行し、
前記ばらつきが所定の基準を外れないと判定された前記組分けによって生成する複数のグループについて前記機械学習分析を実行する、
付記７から付記９のいずれか一項に記載の分析方法。
［付記１１］
ｎ×ｎ個（ｎは２以上の整数）の前記分析対象に対し、任意の２つの前記分析対象がいずれかただ１つの組分けにおいて同一のグループに属するようなｎ＋１回の前記組分けを行い、
前記分析対象の前記スコアを、当該分析対象が属するすべての前記グループについて算出された前記予測値の総和から、前記組分けのいずれかに基づいて算出された各グループの前記予測値の総和を引いた値を用いて、算出する、
付記７に記載の分析方法。
［付記１２］
前記分析対象のうち前記スコアが高い方から所定数の前記分析対象を、他の前記分析対象とは異なる態様で表示する、
付記７から付記１１のいずれか一項に記載の分析方法。
［付記１３］
コンピュータに、
説明変数と目的変数とが関連づけられる複数の分析対象を分類する組分けによって生成する複数のグループについて、前記複数のグループの説明変数と目的変数との関係を導出する機械学習分析を、前記組分けごとに実行する解析処理と、
前記複数のグループの説明変数の値と前記関係とに基づいて、前記複数のグループの目的変数の値である予測値の算出を、前記組分けごとに実行する予測処理と、
前記分析対象に関するスコアを、前記組分けごとに算出された、当該分析対象が属する前記グループの前記予測値に基づく演算によって、算出する算出処理と、
を実行させるプログラム。
［付記１４］
前記組分けにおいて同一のグループに属する前記分析対象のうちの任意の２つが、他の前記組分けにおいて異なるグループに属する、
付記１３に記載のプログラム。
［付記１５］
前記解析処理は、前記機械学習分析を、３つ以上の前記組分けごとに実行し、
前記予測処理は、前記予測値の算出を、前記３つ以上の組分けごとに実行し、
前記算出処理は、前記スコアを、前記３つ以上の組分けごとに算出された、当該分析対象が属する前記グループの前記予測値のそれぞれを乗算することによって算出する、
付記１３または１４に記載のプログラム。
［付記１６］
コンピュータに、
前記組分けについて、当該組分けによって生成するグループの目的変数の値のばらつきが所定の基準を外れるかを判定し、前記ばらつきが前記所定の基準を外れた場合に、新たに前記組分けを実行する、組分け処理を実行させ、
前記解析処理は、前記ばらつきが所定の基準を外れないと判定された前記組分けによって生成する複数のグループについて前記機械学習分析を実行する、
付記１３から付記１５のいずれか一項に記載のプログラム。
［付記１７］
コンピュータに、ｎ×ｎ個（ｎは２以上の整数）の前記分析対象に対し、任意の２つの前記分析対象がいずれかただ１つの組分けにおいて同一のグループに属するようなｎ＋１回の前記組分けを行う組分け処理を実行させ、
前記算出処理は、前記分析対象のそれぞれの前記スコアを、当該分析対象が属するすべての前記グループについて算出された前記予測値の総和から、前記組分けのいずれかに基づいて算出された各グループの前記予測値の総和を引いた値を用いて、算出する、
付記１３に記載のプログラム。
［付記１８］
コンピュータに、前記分析対象のうち前記スコアが高い方から所定数の前記分析対象を、他の前記分析対象とは異なる態様で表示する出力処理を実行させる、
付記１３から付記１７のいずれか一項に記載のプログラム。

１１、１２分析装置
３２記憶装置
１１１分割部
１１２組分け部
１１３解析部
１１４予測部
１１５算出部
１１６出力部
３２０データベース
１９００コンピュータ
１９０１ＣＰＵ
１９０２ＲＯＭ
１９０３ＲＡＭ
１９０４Ａプログラム
１９０４Ｂ記憶情報
１９０５記憶装置
１９０６記録媒体
１９０７ドライブ装置
１９０８通信インタフェース
１９０９通信ネットワーク
１９１０入出力インタフェース
１９１１バス

Claims

説明変数と目的変数とが関連づけられる複数の分析対象を分類する組分けによって生成する複数のグループについて、前記複数のグループの説明変数と目的変数との関係を導出する機械学習分析を、前記組分けごとに実行する解析手段と、
前記複数のグループの説明変数の値と前記関係とに基づいて、前記複数のグループの目的変数の値である予測値の算出を、前記組分けごとに実行する予測手段と、
前記分析対象に関するスコアを、前記組分けごとに算出された、当該分析対象が属する前記グループの前記予測値に基づく演算によって、算出する算出手段と、
を備える分析装置。
前記組分けにおいて同一のグループに属する前記分析対象のうちの任意の２つが、他の前記組分けにおいて異なるグループに属する、
請求項１に記載の分析装置。
前記解析手段は、前記機械学習分析を、３つ以上の前記組分けごとに実行し、
前記予測手段は、前記予測値の算出を、前記３つ以上の組分けごとに実行し、
前記算出手段は、前記スコアを、前記３つ以上の組分けごとに算出された、当該分析対象が属する前記グループの前記予測値のそれぞれを乗算することによって算出する、
請求項１または２に記載の分析装置。
前記組分けについて、当該組分けによって生成するグループの目的変数の値のばらつきが所定の基準を外れるかを判定し、前記ばらつきが前記所定の基準を外れた場合に、新たに前記組分けを実行する、組分け手段をさらに備え、
前記解析手段は、前記ばらつきが所定の基準を外れないと判定された前記組分けによって生成する複数のグループについて前記機械学習分析を実行する、
請求項１から３のいずれか一項に記載の分析装置。
ｎ×ｎ個（ｎは２以上の整数）の前記分析対象に対し、任意の２つの前記分析対象がいずれかただ１つの組分けにおいて同一のグループに属するようなｎ＋１回の前記組分けを行う組分け手段をさらに備え、
前記算出手段は、前記分析対象のそれぞれの前記スコアを、当該分析対象が属するすべての前記グループについて算出された前記予測値の総和から、前記組分けのいずれかに基づいて算出された各グループの前記予測値の総和を引いた値を用いて、算出する、
請求項１に記載の分析装置。
前記分析対象のうち前記スコアが高い方から所定数の前記分析対象を、他の前記分析対象とは異なる態様で表示する出力手段をさらに備える、
請求項１から５のいずれか一項に記載の分析装置。
説明変数と目的変数とが関連づけられる複数の分析対象を分類する組分けによって生成する複数のグループについて、前記複数のグループの説明変数と目的変数との関係を導出する機械学習分析を、前記組分けごとに実行し、
前記複数のグループの説明変数の値と前記関係とに基づいて、前記複数のグループの目的変数の値である予測値の算出を、前記組分けごとに実行し、
前記分析対象に関するスコアを、前記組分けごとに算出された、当該分析対象が属する前記グループの前記予測値に基づく演算によって、算出する、
分析方法。
前記組分けにおいて同一のグループに属する前記分析対象のうちの任意の２つが、他の前記組分けにおいて異なるグループに属する、
請求項７に記載の分析方法。
コンピュータに、
説明変数と目的変数とが関連づけられる複数の分析対象を分類する組分けによって生成する複数のグループについて、前記複数のグループの説明変数と目的変数との関係を導出する機械学習分析を、前記組分けごとに実行する解析処理と、
前記複数のグループの説明変数の値と前記関係とに基づいて、前記複数のグループの目的変数の値である予測値の算出を、前記組分けごとに実行する予測処理と、
前記分析対象に関するスコアを、前記組分けごとに算出された、当該分析対象が属する前記グループの前記予測値に基づく演算によって、算出する算出処理と、
を実行させるプログラム。
前記組分けにおいて同一のグループに属する前記分析対象のうちの任意の２つが、他の前記組分けにおいて異なるグループに属する、
請求項９に記載のプログラム。