JP6943242B2 - 分析装置、分析方法、およびプログラム - Google Patents

分析装置、分析方法、およびプログラム Download PDF

Info

Publication number
JP6943242B2
JP6943242B2 JP2018524061A JP2018524061A JP6943242B2 JP 6943242 B2 JP6943242 B2 JP 6943242B2 JP 2018524061 A JP2018524061 A JP 2018524061A JP 2018524061 A JP2018524061 A JP 2018524061A JP 6943242 B2 JP6943242 B2 JP 6943242B2
Authority
JP
Japan
Prior art keywords
grouping
analysis
groups
value
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018524061A
Other languages
English (en)
Other versions
JPWO2017221856A1 (ja
Inventor
三橋 秀男
秀男 三橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2017221856A1 publication Critical patent/JPWO2017221856A1/ja
Application granted granted Critical
Publication of JP6943242B2 publication Critical patent/JP6943242B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本開示は、データの分析および予測に関する。
教師データを用いた機械学習に基づく、データの予測において、教師データのうちの目的変数の値ごとにサンプルの個数が大きく異なると、予測の正確度が低下するという問題がある。
たとえば、あるエリアにおける1日当たりのある事象(たとえば、事故など)の発生件数を目的変数として機械学習を実行する場合、一般的には、過去の1日当たりの発生件数と説明変数の組が、教師データとして使われる。このとき、その教師データのうちの大多数において、目的変数の値は「0件」や「1件」であり、「2件」以上の目的変数の値を有する教師データは少ないことが考えられうる。すなわち、上述のような教師データでは、目的変数の値ごとにサンプルの個数が大きく異なる。このように、目的変数の値ごとのサンプル数が偏った教師データは、不均衡データ(Imbalanced Data)と呼ばれることがある。不均衡データに基づいて機械学習および予測を行うと、目的変数の値の出現頻度が比較的低いサンプルデータの影響が小さくなり、予測の正確度が悪くなる。
特に、上述の発生件数の予測においては、発生件数が多いエリアを特定することが所望されるにも関わらず、発生件数の値が大きいサンプルは数が比較的少ないため、そのサンプルの特徴が機械学習において無視されやすい。その結果、たとえば発生件数を予測する式が、発生件数が多い地域の特徴を反映した式にならず、正確な予測ができないおそれがある。
上述の問題を解決するための技術の一例として、特許文献1に記載される、Random Over Sampling(ROS)やRandom Under Sampling(RUS)という方法がある。
ROSは、教師データに含まれる2つのクラスのうち、目的変数の値の出現頻度が高い方のクラスのサンプル数に合わせて、頻度が低い方のクラスのサンプル数を増加させる方法である。RUSは、教師データに含まれる2つのクラスのうち、頻度が低い方のクラスのサンプル数に合わせて、頻度が高い方のクラスのサンプル数を減少させる方法である。
特開2010−204966号公報
ROSでは意味のないノイズデータを生成してしまう場合がある。一方、RUSでは有用なサンプルデータを除外してしまう場合がある。その理由は、サンプルデータを人為的に削減したり追加したりするためである。
本発明は、サンプルデータを削減することも追加することもなく、サンプル数の偏りの影響を低減したデータ分析を行うことができる分析装置および方法を提供することを目的の1つとする。
本発明の一態様に係る分析装置は、説明変数と目的変数とが関連づけられる複数の分析対象を分類する組分けによって生成する複数のグループについて、前記複数のグループの説明変数と目的変数との関係を導出する機械学習分析を、前記組分けごとに実行する解析手段と、前記複数のグループの説明変数の値と前記関係とに基づいて、前記複数のグループの目的変数の値である予測値の算出を、前記組分けごとに実行する予測手段と、前記分析対象に関するスコアを、前記組分けごとに算出された、当該分析対象が属する前記グループの前記予測値に基づく演算によって、算出する算出手段と、を備える。
本発明の一態様に係る分析方法は、説明変数と目的変数とが関連づけられる複数の分析対象を分類する組分けによって生成する複数のグループについて、前記複数のグループの説明変数と目的変数との関係を導出する機械学習分析を、前記組分けごとに実行し、前記複数のグループの説明変数の値と前記関係とに基づいて、前記複数のグループの目的変数の値である予測値の算出を、前記組分けごとに実行し、前記分析対象に関するスコアを、前記組分けごとに算出された、当該分析対象が属する前記グループの前記予測値に基づく演算によって、算出する。
本発明の一態様に係るプログラムは、コンピュータに、説明変数と目的変数とが関連づけられる複数の分析対象を分類する組分けによって生成する複数のグループについて、前記複数のグループの説明変数と目的変数との関係を導出する機械学習分析を、前記組分けごとに実行する解析処理と、前記複数のグループの説明変数の値と前記関係とに基づいて、前記複数のグループの目的変数の値である予測値の算出を、前記組分けごとに実行する予測処理と、前記分析対象に関するスコアを、前記組分けごとに算出された、当該分析対象が属する前記グループの前記予測値に基づく演算によって、算出する算出処理と、を実行させる。
本発明によれば、サンプルデータを削減することも追加することもなく、サンプル数の偏りの影響を低減したデータ分析を行うことができる。
サンプルデータの例を表すデータ構造の図である。 本発明の第1の実施形態に係る分析装置の構成を示すブロック図である。 第1の実施形態に係る分析装置の主要な動作の流れを示すフローチャートである。 本発明の第2の実施形態に係る分析装置の構成を示すブロック図である。 それぞれのセルにおける、ある一日の事故の発生件数の例を示す図である。 図5の例のデータの発生件数の分布を表すヒストグラムである。 それぞれのセルにおける、一日の事故の発生件数の数百日分にわたるデータの、発生件数の分布を表すヒストグラムである。 縦方向にグループを作成する概念を表す図である。 グループの目的変数の値の分布を表すヒストグラムである。 横方向にグループを作成する概念を表す図である。 縦方向の組分けおよび横方向の組分けにより生成するグループのそれぞれの目的変数の値の例を説明する図である。 各グループの予測値の例と、その予測値から算出される各セルのスコアの例を示す図である。 第2の実施形態に係る分析装置の動作の流れを示すフローチャートである。 組分け法の第3の例を表す図である。 組分け法の第4の例を表す図である。 組分け法の第5の例を表す図である。 組分け法の第6の例を表す図である。 セルのデータと組分け法とから、その組分け法により生成するグループのそれぞれの目的変数の値を導出する例を示す図である。 3つの組分け法により各セルのスコアを算出する例を示す図である。 5つの組分け法により生成する各グループの目的変数の予測値の例を示す図である。 変形例3によって算出される各セルのスコアの例を示す図である。 本発明の各実施形態の各部を構成するハードウェアの例を示すブロック図である。
以下、図面を参照しながら、本発明の実施形態を詳細に説明する。
<<第1の実施形態>>
まず、本発明の第1の実施形態について説明する。
第1の実施形態に係る分析装置11は、分析対象について蓄積された説明変数と目的変数とのデータの組である、サンプルデータを扱う。分析対象とは、目的変数の値または値の目安を導出する対象である。分析対象は、識別番号によって識別されてもよいし、分析装置11が表示する画面上の位置によって識別されてもよい。なお、分析対象にはそれぞれ説明変数の値が関連付けられる。分析装置11は、後述する処理によって、その説明変数の値に基づいて分析対象の目的変数の値の目安となるスコアを算出する。
目的変数は、たとえば、ユーザが値を予測したい変数として選択した変数である。目的変数は、たとえば、あるエリアにおける、1日あたりの事故件数、1週間あたりの事件件数、または、1日あたりの救急車の出動件数、等でもよい。たとえば、ユーザがあるエリアにおける翌日の事故の発生件数を予測したい場合、目的変数は、そのエリアにおける1日あたりの事故の発生件数に設定されればよい。なお、この場合の分析対象は、そのエリアである。
説明変数は、目的変数の値に影響を与える要因であると考えられる変数である。たとえば、目的変数が、あるエリア内の1日あたりの事故の発生件数であれば、説明変数として考えられる変数は、例えば、各日における交通量、自動車保有率、自転車保有台数、信号機の数、標識の数、交差点の数、過去の事故の発生件数、天候、道路の幅員の平均、および、平日であるか休日であるか、等である。
図1に、サンプルデータの例を示す。図1に示されるように、サンプルデータは、分析対象(この例ではエリア)ごとの、その分析対象に関連する説明変数と目的変数との組である。図1に示す例では、X年Y月Z日の事故の発生件数と、その日の交通量や天気等の情報とが、サンプルデータに含まれている。
分析装置11は、たとえば図示しない記憶装置から、分析対象に関するサンプルデータを取得する。そして、分析装置11は、複数の分析対象のそれぞれについて、分析対象に関連づけられた説明変数に基づいて目的変数の値の目安となるスコアを算出する。以下、分析装置11の制御構造について説明する。
<構成>
図2は、第1の実施形態の分析装置11の構成を示すブロック図である。分析装置11は、解析部113と、予測部114と、算出部115と、を備える。
解析部113は、分析対象に対する組分けによって生成する複数のグループについて、それぞれのグループの説明変数と目的変数との関係を導出する機械学習分析を実行する。なお、組分けとは、分析対象を複数のグループに分類することである。
組分けは、たとえば図示しない組分け部がそれぞれの分析対象にグループを識別する番号等を関連づけることにより、行われればよい。組分けによって、例えば、100個の分析対象が、それぞれ10個のグループのいずれかに関連づけられる。
解析部113は、この組分けにより生成するグループを教師データの単位とした、機械学習分析を行う。
具体的には、解析部113はまず、グループごとに、グループに含まれる分析対象に関連づけられるサンプルデータに基づいて、グループデータを作成する。グループデータとは、そのグループを1つのまとまりとして捉えた場合の説明変数と目的変数との組み合わせである。
たとえば、解析部113は、グループに含まれる分析対象に関連づけられるサンプルデータの目的変数の値を統合する。値を統合するとは、各々の値に基づく代表値を設定することである。すなわち、解析部113は、グループに含まれる分析対象に関連づけられるサンプルデータの各々の目的変数の値に基づく代表値を設定し、その代表値をグループの目的変数の値と見なす。値を統合するとは、具体的には、たとえば、それらの値を合計することである。あるいは、値を統合するとは、それらの値の平均を算出することでもよい。
同様に、解析部113は、それぞれの説明変数の値を統合する。なお、数値で表されない説明変数の値を統合する場合は、解析部113は、たとえばその説明変数の値の導出の仕方に基づいて、改めてそのグループにおける代表値を決定してもよい。
なお、解析部113は、異なる日における目的変数(または説明変数)を、別々に統合してよい。したがって、たとえば、数百日にわたるサンプルデータがある場合は、解析部113は、[分析対象の分類数×数百(個)]のグループデータを作成しうる。
そして、解析部113は、作成したグループデータを教師データとして使用した機械学習分析を実行する。機械学習分析は、たとえば、教師データに基づいて説明変数と目的変数との間の関係を導出する分析である。たとえば、機械学習分析では、説明変数と目的変数との間の関係を表す関数が導出される。この導出される関数は、帰納的に導出されるものであるから、いわば説明変数の値から目的変数の値を予測する関数である。以下、機械学習分析により導出される関数を「予測式」と呼ぶ。
すなわち、一例として、解析部113は、上記の教師データを使用した解析により、目的変数の値を予測する予測式を導出する。
解析部113は、2以上の組分けのそれぞれについて、予測式を導出する。たとえば、解析部113は、まず1つの組分けにより生成する全てのグループのグループデータを教師データとした機械学習分析により、1つの組分けに対する1つの予測式を導出する。そして、解析部113は、さらに、別の組分けにより生成する全てのグループのグループデータを教師データとした機械学習分析により、別の予測式を導出する。
予測部114は、組分けごとに、解析部113が導出した予測式とグループごとの説明変数の値とに基づいて、グループごとの目的変数の値である予測値を算出する。たとえば、予測部114は、翌日におけるグループの目的変数の値を、予測式と、翌日におけるグループの説明変数とに基づいて、算出する。グループの説明変数の値は、ユーザによって入力されてもよい。グループの説明変数の値は、データベース320に含まれる情報に基づいて設定されてもよい。
算出部115は、組分けごとに算出されたグループの目的変数の値に基づく演算によって、分析対象に関する値を算出する。算出部115によって算出される値を、「スコア」と呼ぶ。スコアは、目的変数の値の大きさの目安となる。
たとえば、ある組分け(第1の組分け)によって生成するグループの目的変数の値と、その組分けとは異なる組分け(第2の組分け)によって生成するグループの目的変数の値とがあるとする。算出部115は、分析対象のスコアとして、第1の組分けにおいてその分析対象が属するグループの予測値と、第2の組分けにおいてその分析対象が属するグループの予測値とを、乗算した値を算出する。算出部115は、分析対象のスコアとして、分析対象が属するグループの予測値の平均を算出してもよい。
<主要な動作>
分析装置11の主要な動作の流れを、図3のフローチャートに沿って説明する。
ステップS21において、解析部113は、分析対象に対する組分けによって生成する複数のグループについて、複数のグループの説明変数と目的変数との関係を導出する機械学習分析を、組分けごとに実行する。
ステップS22において、予測部114は、グループの説明変数の値と、解析部113が導出した関係とに基づいた、グループの目的変数の値である予測値の算出を、組分けごとに実行する。
ステップS23において、算出部115は、分析対象に関するスコアを、組分けごとに算出された、その分析対象が属するグループの予測値に基づく演算によって、算出する。
<効果>
第1の実施形態の構成によれば、サンプルデータを削減することも追加することもなく、目的変数の値ごとのサンプル数の偏りの影響を低減したデータ分析を行うことができる。その理由は、各サンプルデータがグループにまとめられることによって、教師データにおける目的変数の値ごとのサンプル数の偏りが軽減されるからである。かつ、この分析においては、サンプルデータは削減も追加もされていない。
<<第2の実施形態>>
次に、本発明の第2の実施形態について説明する。
<構成>
図4は、第2の実施形態に係る分析装置12の構成を示すブロック図である。
分析装置12は、データベース320を記憶する記憶装置32と通信可能に接続されている。分析装置12は、記憶装置32からデータベース320が含む情報を読み出す。分析装置12が読み出す情報は、たとえば、ユーザによる指定に基づいて読み出されてもよい。
本実施形態のデータベース320は、ある地域における事故に関連する情報を含む。たとえば、データベース320は、その地域における、事故が発生した日時および場所、ならびに、日ごとの交通量、天気、降雨量、交差点の数、信号機の数、道路の幅員の平均、および平日であるか休日であるかの区別等の情報を含む、所定期間(たとえば過去数百日分)にわたるデータを記憶する。
分析装置12は、分割部111、組分け部112、解析部113、予測部114、算出部115、および、出力部116を備える。
===分割部111===
分割部111は、分析の範囲(すなわち、地域の範囲)を特定する。範囲の特定において、分割部111は、たとえば、ユーザから地域の範囲を指定する情報を取得する。分割部111は、データベース320から、地域の範囲を指定する情報を読み出してもよい。分割部111は、地域の範囲を指定する情報に基づいて、分析の範囲を特定すればよい。
分割部111は、分析の範囲を複数の区画にメッシュ分割する。分割する際のメッシュのサイズは、目的に応じて適宜選択されてよい。例えば、メッシュのサイズは、ユーザが指定してもよい。この場合、たとえばユーザが「1キロメートル四方」を示す情報を分析装置12に入力することにより、分割部111は、地域を1キロメートル四方のメッシュサイズで分割してもよい。あるいは、メッシュのサイズは、特定された地域の大きさやデータ数に応じて、分析装置12によって適宜設定されてもよい。
以下、分割によって生成する区画の1つ1つを、「セル」と呼ぶ。1つのセルのサイズは、たとえば数十メートル四方でも、数キロメートル四方でもよい。セルの形は四角形でなくともよい。全てのセルのサイズが同一である必要はない。
なお、このようにして生成したセルが、本実施形態の分析装置12の算出部115によるスコアの算出の対象、すなわち分析対象である。
分割部111は、セルごとに、サンプルデータを特定してもよい。すなわち、分割部111は、セルごとに、これまでに測定された目的変数の値および説明変数の値の組を特定してもよい。目的変数は、たとえば、ユーザによって設定される。例として、目的変数は1日あたりの事故の発生件数である。分割部111は、例えば、サンプルとなる目的変数および説明変数の値を、データベース320に記憶されるデータに基づいて特定する。例えば、分析装置12が目的変数を1日あたりの事故の発生件数とする分析を行う場合には、分割部111は、データベース320に記憶される、これまでに記録された事故のデータに基づき、各セルにおける日ごとの発生件数と説明変数の値とを算出してもよい。
図5は、ある日のそれぞれのセルの事故の発生件数の一例を示す図である。事故の発生件数のような、単位期間(例えば1日間)における1つのセル(例えば1キロメートル四方)における事象の発生回数を表す変数は、その値が、1以下の値をとる場合と比較して、2以上の値をとることが少ない場合がある。そのような変数が目的変数である場合、図5に示されるように、目的変数の値が0件や1件であるセルが多く、値が2件以上であるセルは少なくなる。
図6は、図5に示した例の、各セルの目的変数の値の度数分布を表すヒストグラムである。図6で明白なように、目的変数の値(発生件数)ごとのサンプルデータ数は、大きく偏っていることがわかる。
分析装置12が扱うデータは、特定の1日のデータのみである必要はない。分析装置12は、複数の日のデータを扱ってもよい。図7は、数百日にわたってデータベース320に蓄積された各日のデータの、目的変数の値の度数分布を示すヒストグラムの一例である。一般的には、数百日分のデータを使用することによりサンプルデータ数は増えるため、予測の精度(precision、すなわち、予測結果のばらつきの小ささ)は向上すると考えられる。しかしながら、サンプルデータ数の増加によっても、目的変数の値ごとのサンプルデータ数の不均衡は依然として改善されないため、正確度(accuracy、すなわち、真の値への近さ)が向上するとはいえない。
===組分け部112===
組分け部112は、同じ列のセルを1つのグループにまとめる。図8は、組分け部112が同じ列のセルを1つのグループのまとめる様子を示す概念図である。図8に示す例では、組分け部112は、縦方向に並ぶセルが同じグループになるよう、5つのグループA,A,A、A,およびAにまとめる。すなわち、組分け部112は、セルを5つのグループに分類する。
図9は、それぞれのグループにおける目的変数の値の度数分布を示すヒストグラムの一例である。図9で示されるように、図7に示される例に比べ、目的変数の値が広範囲にわたって分布し、目的変数の値ごとのサンプルデータ数のばらつきは抑えられる。
組分け部112は、同様に、横方向の行が同じセルを1つのグループにまとめる。すなわち、組分け部112は、図10のように、組分け部112は、各セルを、グループB,B,B、B,およびBに分類する。
===解析部113===
解析部113は、組分けごとに、グループを教師データの単位として機械学習を行う。具体的には、解析部113は、機械学習を以下のように行う。
解析部113は、まず、グループを1つの単位とした教師データを取得する。すなわち、解析部113は、各グループの目的変数の値および説明変数の値を取得する。
グループの目的変数の値は、たとえば、グループに含まれるセルの目的変数の総和である。たとえば、図8によれば、グループAの目的変数の値は、0+1+1+1+0=3である。グループの目的変数の値は、グループに含まれるセルの目的変数の平均でもよい。
図11は、図5に示したサンプルの例において、セルを縦方向および横方向にまとめることによって生成したグループの、それぞれの目的変数の値の例を示す図である。
解析部113は、各グループの説明変数の値を算出する。グループの説明変数の値は、たとえば、グループに含まれるセルの説明変数の総和でもよいし、平均でもよい。
こうして、解析部113は、グループを1つの単位とした教師データ(すなわち、グループの目的変数の値および説明変数の値の組)を取得する。
そして、解析部113は、得られた教師データを用いて、機械学習分析を行う。
解析部113は、たとえば、縦方向にまとめられたグループの、たとえば過去数百日分のデータに基づいて、機械学習分析を行い、1つの予測式を導出する。この予測式は、グループの説明変数の値からグループの目的変数の値を予測する式である。
解析部113は、同様に、横方向にまとめられたグループの過去数百日分のデータに基づいて、機械学習分析を行い、さらに別の予測式を導出する。なお、この機械学習分析において基となる過去のデータは、縦方向にまとめられたグループに対する機械学習分析で用いたデータと同じ期間のデータであってもよいし、異なる期間のデータであってもよい。
これにより、不均衡性が低減された教師データに基づく予測式が算出される。
===予測部114===
予測部114は、解析部113が導出した予測式に基づいて、各グループの目的変数の予測値を算出する。具体的には、予測部114は、各グループの説明変数の値を予測式に代入することにより、そのグループの目的変数の予測値を得る。このとき用いられる各グループの説明変数の値は、たとえば、予測値を算出したい日の、説明変数の実測値もしくは予測値である。たとえば、信号機数や交差点数の値は、前日と同一の値が設定されてよい。自転車保有台数の値は、前日と同一の値または増減率を考慮した値が設定されればよい。天候は、天気予報等の情報から、尤もらしい値が設定されればよい。
以下、グループの目的変数の予測値を、単に「グループの予測値」と呼ぶことがある。
===算出部115===
算出部115は、予測部114が導出したグループの予測値に基づき、各セルの目的変数の値の目安となるスコアを算出する。
たとえば、算出部115は、それぞれのセルについて、そのセルを含むグループのそれぞれの予測値をかけ合わせた値を、そのセルにおけるスコアとして算出する。
図12は、予測部114が算出した各グループの予測値から、各セルのスコアを算出する一例を示す図である。なお、表の左に付されたアラビア数字および表の上に付されたローマ数字は、説明の便宜上付された記号であり、それぞれ表における行または列を識別する記号である。
図12に示されるように、予測部114は、グループA〜Aの予測値としてそれぞれ[3,0,4,7,1]を算出し、グループB〜Bの予測値としてそれぞれ[0,2,7,4,2]を算出したとする。この場合、例えば第1行第I列に相当するセルのスコアは[0×3]で[0]、第2行第I列に相当するセルのスコアは[2×3]で[6]、第3行第IV列に相当するセルのスコアは[7×7]で[49]となる。ただし、「×」は掛け算を表す演算子である。
本実施形態の例における各セルのスコアの算出の方法は、次のようにも表せる。すなわち、セルの列番号を左から順にi(i=1,2,3,4,5)、行番号を上から順にj(j=1,2,3,4,5)で表すとすると、第j行第i列のセルのスコアはB×Aである。
算出部115は、以上のようにして、各セルのスコアを算出し、算出した値をセルに関連づける。
===出力部116===
出力部116は、スコアに基づいた情報を出力する。たとえば、出力部116は、スコアが算出されたセルのうち、スコアの値が大きいセルを、事故が多く発生すると予測される場所として示す情報を出力する。
たとえば、出力部116は、スコアの値が最も大きいセルから順に所定の数のセルを抽出し、抽出されたセルを他のセルとは異なる態様で表示してもよい。たとえば、出力部116は、分析対象の地域の地図において抽出されたセルに相当するエリアを強調した画像を出力してもよい。出力部116は、セルとスコアの値とを関連づけたデータを出力してもよい。
<動作>
第2の実施形態に係る分析装置12の動作の流れを、図13に沿って説明する。
まず、分割部111が、分析の範囲を特定する(ステップS91)。そして、分割部111は、分析の範囲を複数のセルに分割する(ステップS92)。
次に、組分け部112が、縦方向に並ぶセルを同じグループとした組分けを行う(ステップS93)。そして、解析部113が、縦方向のグループのデータを教師データとした機械学習分析を実行する(ステップS94)。そして、予測部114が、予測式と縦方向のグループのそれぞれの説明変数の値とに基づいて、グループのそれぞれの目的変数の予測値を算出する(ステップS95)。
組分け部112は、横方向に並ぶセルを同じグループとした組分けも行う(ステップS96)。解析部113は、横方向のグループのデータを教師データとした機械学習分析を実行する(ステップS97)。予測部114は、予測式と横方向のグループのそれぞれの説明変数の値とに基づいて、グループのそれぞれの目的変数の予測値を算出する(ステップS98)。
ステップS93からステップS98の処理の順序は、上述の例に限られない。たとえば、ステップS93からステップS95の処理と、ステップS96からステップS98の処理とは、並行して行われてもよい。
そして、算出部115は、縦方向のグループの目的変数の予測値と、横方向のグループの目的変数の予測値とに基づいて、各セルのスコアを算出する(ステップS99)。
最後に、出力部116が、スコアに基づいた情報を出力する(ステップS100)。
<効果>
第2の実施形態に係る分析装置12によれば、分析の範囲を複数に分割することにより生成したセルの、予測したい目的変数の値の目安となるスコアを算出することができる。
たとえば、上述した具体的な例に従えば、分析装置12は、翌日における、エリアごとの事故の発生件数の多さの目安となるスコアを算出できる。また、分析装置12は、分析の範囲の地域のうちの、事故の発生件数が高いと予測されるエリアを特定することができる。また、特定した結果を出力することにより、ユーザは、そのエリアを事故の発生リスクが高い場所として認識することができる。
この分析において、分析装置12は、データベース320に含まれる、機械学習分析に用いることができるデータを不必要に選別したり捨てたりする必要がない。また、分析装置12は、データベース320に含まれていないデータを新たに生成したり追加したりする必要はない。
すなわち、分析装置12は、サンプルデータを削減することも追加することもなく、データ分析を行うことができる。
上記に加え、この分析では目的変数の値ごとのサンプル数の偏りの影響が低減される。その理由は、各サンプルデータがグループにまとめられることによって、教師データにおける目的変数の値ごとのサンプル数の偏りが軽減されるからである。偏りが低減されることにより、目的変数の値が出現頻度の低い値であるサンプルの特徴が、機械学習分析において無視されにくくなる。
<<変形例>>
分析装置12が扱う説明変数および目的変数は、機械学習の対象となりうる変数であれば何でもよい。目的変数は特定の種類の事件や事故の件数でもよい。その他、目的変数は、落雷件数、落とし物の届け出件数、小動物の死骸の発見件数、または公共物の破損があった数等でもよい。
分析対象は、地域である必要はない。分析対象は、交差点でもよいし、交番、または建物でもよい。分析対象は、目的変数に応じて設定されればよい。
以下、組分けの方法およびスコアの算出の方法に関する変形例を紹介する。
(変形例1)
上記第2の実施形態の説明では、組分け部112は、同じ列または行に並ぶセルを同一のグループとする組分けを行うが、組分けの方法(以下、「組分け法」と呼ぶ。)はこれらに限られない。
図14C、図14D、図14E、および図14Fは、それぞれ、上に示した組分け法以外の組分け法の例(それぞれ、組分け法C、組分け法D、組分け法E、および組分け法F)を示す図である。なお、図14C〜14Fに示される表のそれぞれの左側に付されたアラビア数字および上側に付されたローマ数字は、説明の便宜上付された記号であり、それぞれ表における行または列を識別する記号である。なお、図8で説明された縦方向の組分け法を組分け法A、図10で説明された横方向の組分け法を組分け法B、とする。
図14Cを参照すると、たとえば、組分け法Cでは、1行I列、2行II列、3行III列、4行IV列、5行V列、が同じグループCとなる。
組分け部112は、組分け法C〜Fのような組分け法を採用してもよい。たとえば、組分け部112は、組分け法Aを第1の組分けに採用し、組分け法Cを第2の組分けに採用してもよい。
なお、図15は、組分け法Cによって生成するグループのそれぞれの、統合された目的変数の値の算出例を示す図である。たとえば、図15の左に示されるセルが、図15の右に示される組分け法で組分けされる場合、グループCの説明変数の値は0+0+2+2+0=4である。
解析部113は、第1の組分けに基づく機械学習分析と、第2の組分けに基づく機械学習分析とを行い、それぞれ予測式を導出する。予測部114がそれぞれの予測式に基づく各グループの予測値を算出し、算出部115が、各セルが属するグループの乗算値をスコアとして算出する。この方法によっても、各セルのスコアは算出される。算出されるスコアは、セルに特有の計算式に基づく。その理由は、どのセルも、そのセルを含むグループの組み合わせが、他のセルのそれと異なるからである。
組分け部112は、セルごとにセルを含むグループの組み合わせが異なるような、2つの組分け法であれば、どのような2つの組分け法を用いてもよい。
なお、上述した組分け法A,B,C,D,E,Fは、どの2つのセルも、任意の2つ以上の組分けにおいて異なるグループに属するように、設計されている。このように設計された6種類の組分けに対して、算出部115は、任意の2つの組分けに基づくデータを用いて、各セルに対応するスコアを算出してよい。
(変形例2)
組分け部112は3種類以上の組分けを実行してもよい。そして、解析部113は、組分け部112が行った組分けのそれぞれに対して、予測式を導出してもよい。予測部114は、3種類以上の予測値を算出してもよい。
たとえば、組分け部112は、図8、図10および図14C〜14Fで示される組分け法のうち、組分け法A、組分け法B、および組分け法Cを実行したとする。解析部113は、それぞれの組分けに基づく予測式を導出する。それぞれのグループの予測値が、図16の、各グループ名が付されたデータ列の値のように、予測部114によって算出されたとする。算出部115は、各セルのスコアを、当該セルが属するグループの予測値を乗算することにより算出する。すると、図16の左上の表に示されるような結果が得られる。
このように、3種類以上の組分けを用いて分析を行うことによっても、分析装置12は各セルのスコアを算出できる。組分けの種類を増やして分析することにより、スコアの算出に用いる予測値の個数が増え、各セルのスコアの値はより大きくばらつく。たとえば、図16で示される本変形例のスコアの算出例では、第3行第I列のセルのスコアが42、第3行第III列のセルのスコアが112であり、両者の値には明確な差がある。この差は、図12で示された、2種類の組分けに基づいたスコアの算出例における両者の差(第3行第I列のセルのスコアが21、第3行第III列のセルのスコアが28)に比べ、はるかに大きい。このように、組分けの種類を増やして分析することにより、各セルのスコアの値はより大きくばらつき、それにより発生リスクが大きい箇所をより特定しやすくなる。なお、この効果は、スコアを乗算によって算出する場合に特に顕著に表れる。
また、乗算によるスコアの算出では、ある組分けにおける特定のグループの予測値が0であった場合、そのグループに含まれるセルのスコアはすべて0となるため、そのセルにおける事故の発生のリスクが少ないことが明らかになる。
また、3種類以上の組分けに基づいて分析を行うことによって、発生リスクが小さいセルのスコアが偶発的に大きく算出されるというリスクが低減されうる。
なお、組分け部112は、教師データの目的変数の値がなるべく不均衡でない組分け法を採用してもよい。たとえば、組分け部112は、行った組分けによって生成したグループの教師データの目的変数の値のばらつきが、所定の基準を外れるか(たとえば、分散が所定の値を下回るか)を判定してもよい。そして、組分け部112は、ばらつきが所定の基準を外れる場合に、もう一度異なる組分けを行ってもよい。この構成によって、ばらつきが所定の基準を外れない組分けによるグループでの機械学習分析が可能となる。
以上の変形例1および2に示した組分けの方法は、地域を複数のセルにメッシュ分割した場合以外にも用いることができる。たとえば、上述した組分けの方法は、既に識別された複数個の分析対象に対して用いてもよい。
また、上述の例では、分析対象の数が5×5個であったが、分析対象の数はこれに限られない。分析対象の個数が整数の2乗でない場合は、組分けごとにグループを構成する分析対象の数が異なっていてもよい。たとえば、分析対象が30個である場合は、組分け部112は、分析対象が5つずつであるグループに分割する第1の組分けと、分析対象が6つずつであるグループに分割する第2の組分けと、分析対象が5つずつであるグループに分割する第3の組分けとを行ってもよい。このように、分析対象の個数が整数の2乗でなくとも、複数の組分けおよびスコアの算出は可能である。
(変形例3)
n×n個(nは2以上の整数)の分析対象に対して、変形例1で示されるような、「どの2つの分析対象も、任意の2つ以上の組分けにおいて異なるグループに属するような組分け法」が、n+1個作れる場合、算出部115は、分析対象(以下の説明では、セル)のスコアを、以下に示す方法で算出してもよい。以下、変形例3として、算出部115がセルのスコアを前述の方法とは異なる方法で算出する構成を説明する。
まず、分割部111が、地域をn×nのセルに分割したとする。
組分け部112は、n×n個のセルに対し、どの2つのセルも、任意の2つ以上の組分けにおいて属するグループの組み合わせが異なるような、n+1種類の組分け法を実行する。(たとえばn=5である場合、上述した組分け法A〜Fの6つが、上記n+1種類の組分け法の一例である。)言い換えれば、組分け部112は、任意の2つのセルが、いずれかただ1つの組分けにおいて同一のグループに属するような、n+1回の組分けを行う。
解析部113は、それぞれの組分けに基づく機械学習分析を行い、それぞれの予測式を導出する。
予測部114は、それぞれの予測式に基づく各グループの予測値を算出する。
そして、算出部115は、セルのスコアを次のように算出する。すなわち、
・当該セルが属するグループのすべての予測値の総和を算出し、
・算出された総和から、任意の組分けに基づいたグループの予測値の総和(Sとする)を減算し、
・減算された値をnで除する。
なお、総和Sは、各セルのスコアの計算において同一であってよい。また、総和Sの値は、任意の複数の組分けのそれぞれに基づいたグループの予測値の総和の、平均や中央値でもよい。
以下、具体例を、図5に示される例を用いて説明する。図5に示される場合では、n=5である。
組分け部112は、図8、10および14C〜14Fに示される組分け法A〜Fを行い、各グループの説明変数および目的変数を算出する。
解析部113は、それぞれの組分けに基づく機械学習分析を行い、それぞれの予測式を導出する。予測部114は、それぞれの予測式に基づく各グループの予測値を算出する。その結果、それぞれの組分け法に基づくグループの予測値が、図17に示すような値になったとする。すなわち、組分け法Aに基づくグループA〜Aの予測値[a,a,a,a,a]は[3,0,4,7,1]となり、組分け法Bに基づくグループB〜Bの予測値[b,b,b,b,b]は[0,2,7,4,2]となり、組分け法Cに基づくグループC〜Cの予測値[c,c,c,c,c]は[4,3,3,2,3]となり、組分け法Dに基づくグループD〜Dの予測値[d,d,d,d,d]は[2,3,2,3,5]となり、組分け法Eに基づくグループE〜Eの予測値[e,e,e,e,e]は[2,4,4,2,3]となり、組分け法Fに基づくグループF〜Fの予測値[f,f,f,f,f]は[4,5,2,1,3]となったとする。
算出部115は、各セルのスコアを算出する。なお、スコアを算出するにあたり、算出部115は、任意の組分け法に基づくグループの予測値の総和Sの値を求める。総和Sの値は、たとえば、a+a+a+a+aである。
算出部115は、ターゲットのセルが属するグループのすべての予測値の総和からSを減算した値をnで除した値を、ターゲットのセルのスコアの値として算出する。
たとえば、1行I列に相当するセルは、グループA,B,C,D,E,Fに属するから、このセルのスコアは、
{(a+b+c+d+e+f)−S}/5
で算出される。
同様に、たとえば、3行IV列に相当するセルのスコアは、
{(a+b+c+d+e+f)−S}/5
で算出される。
図18は、図17に示される予測値に基づいて上記の方法で算出された各セルのスコアの値を示す図である。
このようにして算出されたスコアの値は、そのセルの目的変数の予測値と見なすことができる。その理由は、ターゲットのセルが属するグループのすべての予測値の総和の値は、すべてのセルが1つ分ずつ寄与した値と、ターゲットのセルがn個分寄与した値とを足し合わせた値と見なせるからである。
なお、教師データに用いられたグループの目的変数が各セルの目的変数の平均によって算出されていた場合は、上述したスコアの算出の工程において、nで除する工程を省略してもよい。
以上説明した方法により、分析装置12は、目的変数の予測値としてより確度の高い値を算出することができる。
(ハードウェアについて)
以上、説明した本発明の各実施形態において、各装置の各構成要素は、機能単位のブロックを示している。各装置の各構成要素の一部または全部は、例えば図19に示すようなコンピュータ1900とプログラムとの可能な組み合わせにより実現される。コンピュータ1900は、一例として、以下のような構成を含む。
・CPU(Central Processing Unit)1901
・ROM(Read Only Memory)1902
・RAM(Random Access Memory)1903
・RAM1903にロードされるプログラム1904Aおよび記憶情報1904B
・プログラム1904Aおよび記憶情報1904Bを格納する記憶装置1905
・記録媒体1906の読み書きを行うドライブ装置1907
・通信ネットワーク1909と接続する通信インタフェース1908
・データの入出力を行う入出力インタフェース1910
・各構成要素を接続するバス1911
各実施形態における各装置の各構成要素は、これらの機能を実現するプログラム1904AをCPU1901がRAM1903にロードして実行することで実現される。各装置の各構成要素の機能を実現するプログラム1904Aは、例えば、予め記憶装置1905やROM1902に格納されており、必要に応じてCPU1901が読み出す。なお、プログラム1904Aは、通信ネットワーク1909を介してCPU1901に供給されてもよいし、予め記録媒体1906に格納されており、ドライブ装置1907が当該プログラムを読み出してCPU1901に供給してもよい。
各装置の実現方法には、様々な変形例がある。例えば、各装置は、構成要素毎にそれぞれ別個のコンピュータ1900とプログラムとの可能な組み合わせにより実現されてもよい。また、各装置が備える複数の構成要素が、一つのコンピュータ1900とプログラムとの可能な組み合わせにより実現されてもよい。
また、各装置の各構成要素の一部または全部は、その他の汎用または専用の回路、コンピュータ等やこれらの組み合わせによって実現される。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。
各装置の各構成要素の一部または全部が複数のコンピュータや回路等により実現される場合には、複数のコンピュータや回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、コンピュータや回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
本願発明は以上に説明した実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
本出願は、2016年6月21日に出願された日本出願特願2016−122843を基礎とする優先権を主張し、その開示の全てをここに取り込む。
上記実施形態の一部または全部は以下の付記のようにも記載され得るが、以下には限られない。
<<付記>>
[付記1]
説明変数と目的変数とが関連づけられる複数の分析対象を分類する組分けによって生成する複数のグループについて、前記複数のグループの説明変数と目的変数との関係を導出する機械学習分析を、前記組分けごとに実行する解析手段と、
前記複数のグループの説明変数の値と前記関係とに基づいて、前記複数のグループの目的変数の値である予測値の算出を、前記組分けごとに実行する予測手段と、
前記分析対象に関するスコアを、前記組分けごとに算出された、当該分析対象が属する前記グループの前記予測値に基づく演算によって、算出する算出手段と、
を備える分析装置。
[付記2]
前記組分けにおいて同一のグループに属する前記分析対象のうちの任意の2つが、他の前記組分けにおいて異なるグループに属する、
付記1に記載の分析装置。
[付記3]
前記解析手段は、前記機械学習分析を、3つ以上の前記組分けごとに実行し、
前記予測手段は、前記予測値の算出を、前記3つ以上の組分けごとに実行し、
前記算出手段は、前記スコアを、前記3つ以上の組分けごとに算出された、当該分析対象が属する前記グループの前記予測値のそれぞれを乗算することによって算出する、
付記1または2に記載の分析装置。
[付記4]
前記組分けについて、当該組分けによって生成するグループの目的変数の値のばらつきが所定の基準を外れるかを判定し、前記ばらつきが前記所定の基準を外れた場合に、新たに前記組分けを実行する、組分け手段をさらに備え、
前記解析手段は、前記ばらつきが所定の基準を外れないと判定された前記組分けによって生成する複数のグループについて前記機械学習分析を実行する、
付記1から付記3のいずれか一項に記載の分析装置。
[付記5]
n×n個(nは2以上の整数)の前記分析対象に対し、任意の2つの前記分析対象がいずれかただ1つの組分けにおいて同一のグループに属するようなn+1回の前記組分けを行う組分け手段をさらに備え、
前記算出手段は、前記分析対象のそれぞれの前記スコアを、当該分析対象が属するすべての前記グループについて算出された前記予測値の総和から、前記組分けのいずれかに基づいて算出された各グループの前記予測値の総和を引いた値を用いて、算出する、
付記1に記載の分析装置。
[付記6]
前記分析対象のうち前記スコアが高い方から所定数の前記分析対象を、他の前記分析対象とは異なる態様で表示する出力手段をさらに備える、
付記1から付記5のいずれか一項に記載の分析装置。
[付記7]
説明変数と目的変数とが関連づけられる複数の分析対象を分類する組分けによって生成する複数のグループについて、前記複数のグループの説明変数と目的変数との関係を導出する機械学習分析を、前記組分けごとに実行し、
前記複数のグループの説明変数の値と前記関係とに基づいて、前記複数のグループの目的変数の値である予測値の算出を、前記組分けごとに実行し、
前記分析対象に関するスコアを、前記組分けごとに算出された、当該分析対象が属する前記グループの前記予測値に基づく演算によって、算出する、
分析方法。
[付記8]
前記組分けにおいて同一のグループに属する前記分析対象のうちの任意の2つが、他の前記組分けにおいて異なるグループに属する、
付記7に記載の分析方法。
[付記9]
前記機械学習分析を、3つ以上の前記組分けごとに実行し、
前記予測値の算出を、前記3つ以上の組分けごとに実行し、
前記スコアを、前記3つ以上の組分けごとに算出された、当該分析対象が属する前記グループの前記予測値のそれぞれを乗算することによって算出する、
付記7または8に記載の分析方法。
[付記10]
前記組分けについて、当該組分けによって生成するグループの目的変数の値のばらつきが所定の基準を外れるかを判定し、前記ばらつきが前記所定の基準を外れた場合に、新たに前記組分けを実行し、
前記ばらつきが所定の基準を外れないと判定された前記組分けによって生成する複数のグループについて前記機械学習分析を実行する、
付記7から付記9のいずれか一項に記載の分析方法。
[付記11]
n×n個(nは2以上の整数)の前記分析対象に対し、任意の2つの前記分析対象がいずれかただ1つの組分けにおいて同一のグループに属するようなn+1回の前記組分けを行い、
前記分析対象の前記スコアを、当該分析対象が属するすべての前記グループについて算出された前記予測値の総和から、前記組分けのいずれかに基づいて算出された各グループの前記予測値の総和を引いた値を用いて、算出する、
付記7に記載の分析方法。
[付記12]
前記分析対象のうち前記スコアが高い方から所定数の前記分析対象を、他の前記分析対象とは異なる態様で表示する、
付記7から付記11のいずれか一項に記載の分析方法。
[付記13]
コンピュータに、
説明変数と目的変数とが関連づけられる複数の分析対象を分類する組分けによって生成する複数のグループについて、前記複数のグループの説明変数と目的変数との関係を導出する機械学習分析を、前記組分けごとに実行する解析処理と、
前記複数のグループの説明変数の値と前記関係とに基づいて、前記複数のグループの目的変数の値である予測値の算出を、前記組分けごとに実行する予測処理と、
前記分析対象に関するスコアを、前記組分けごとに算出された、当該分析対象が属する前記グループの前記予測値に基づく演算によって、算出する算出処理と、
を実行させるプログラム。
[付記14]
前記組分けにおいて同一のグループに属する前記分析対象のうちの任意の2つが、他の前記組分けにおいて異なるグループに属する、
付記13に記載のプログラム。
[付記15]
前記解析処理は、前記機械学習分析を、3つ以上の前記組分けごとに実行し、
前記予測処理は、前記予測値の算出を、前記3つ以上の組分けごとに実行し、
前記算出処理は、前記スコアを、前記3つ以上の組分けごとに算出された、当該分析対象が属する前記グループの前記予測値のそれぞれを乗算することによって算出する、
付記13または14に記載のプログラム。
[付記16]
コンピュータに、
前記組分けについて、当該組分けによって生成するグループの目的変数の値のばらつきが所定の基準を外れるかを判定し、前記ばらつきが前記所定の基準を外れた場合に、新たに前記組分けを実行する、組分け処理を実行させ、
前記解析処理は、前記ばらつきが所定の基準を外れないと判定された前記組分けによって生成する複数のグループについて前記機械学習分析を実行する、
付記13から付記15のいずれか一項に記載のプログラム。
[付記17]
コンピュータに、n×n個(nは2以上の整数)の前記分析対象に対し、任意の2つの前記分析対象がいずれかただ1つの組分けにおいて同一のグループに属するようなn+1回の前記組分けを行う組分け処理を実行させ、
前記算出処理は、前記分析対象のそれぞれの前記スコアを、当該分析対象が属するすべての前記グループについて算出された前記予測値の総和から、前記組分けのいずれかに基づいて算出された各グループの前記予測値の総和を引いた値を用いて、算出する、
付記13に記載のプログラム。
[付記18]
コンピュータに、前記分析対象のうち前記スコアが高い方から所定数の前記分析対象を、他の前記分析対象とは異なる態様で表示する出力処理を実行させる、
付記13から付記17のいずれか一項に記載のプログラム。
11、12 分析装置
32 記憶装置
111 分割部
112 組分け部
113 解析部
114 予測部
115 算出部
116 出力部
320 データベース
1900 コンピュータ
1901 CPU
1902 ROM
1903 RAM
1904A プログラム
1904B 記憶情報
1905 記憶装置
1906 記録媒体
1907 ドライブ装置
1908 通信インタフェース
1909 通信ネットワーク
1910 入出力インタフェース
1911 バス

Claims (10)

  1. 説明変数と目的変数とが関連づけられる複数の分析対象を分類する組分けによって生成する複数のグループについて、前記複数のグループの説明変数と目的変数との関係を導出する機械学習分析を、前記組分けごとに実行する解析手段と、
    前記複数のグループの説明変数の値と前記関係とに基づいて、前記複数のグループの目的変数の値である予測値の算出を、前記組分けごとに実行する予測手段と、
    前記分析対象に関するスコアを、前記組分けごとに算出された、当該分析対象が属する前記グループの前記予測値に基づく演算によって、算出する算出手段と、
    を備える分析装置。
  2. 前記組分けにおいて同一のグループに属する前記分析対象のうちの任意の2つが、他の前記組分けにおいて異なるグループに属する、
    請求項1に記載の分析装置。
  3. 前記解析手段は、前記機械学習分析を、3つ以上の前記組分けごとに実行し、
    前記予測手段は、前記予測値の算出を、前記3つ以上の組分けごとに実行し、
    前記算出手段は、前記スコアを、前記3つ以上の組分けごとに算出された、当該分析対象が属する前記グループの前記予測値のそれぞれを乗算することによって算出する、
    請求項1または2に記載の分析装置。
  4. 前記組分けについて、当該組分けによって生成するグループの目的変数の値のばらつきが所定の基準を外れるかを判定し、前記ばらつきが前記所定の基準を外れた場合に、新たに前記組分けを実行する、組分け手段をさらに備え、
    前記解析手段は、前記ばらつきが所定の基準を外れないと判定された前記組分けによって生成する複数のグループについて前記機械学習分析を実行する、
    請求項1から3のいずれか一項に記載の分析装置。
  5. n×n個(nは2以上の整数)の前記分析対象に対し、任意の2つの前記分析対象がいずれかただ1つの組分けにおいて同一のグループに属するようなn+1回の前記組分けを行う組分け手段をさらに備え、
    前記算出手段は、前記分析対象のそれぞれの前記スコアを、当該分析対象が属するすべての前記グループについて算出された前記予測値の総和から、前記組分けのいずれかに基づいて算出された各グループの前記予測値の総和を引いた値を用いて、算出する、
    請求項1に記載の分析装置。
  6. 前記分析対象のうち前記スコアが高い方から所定数の前記分析対象を、他の前記分析対象とは異なる態様で表示する出力手段をさらに備える、
    請求項1から5のいずれか一項に記載の分析装置。
  7. 説明変数と目的変数とが関連づけられる複数の分析対象を分類する組分けによって生成する複数のグループについて、前記複数のグループの説明変数と目的変数との関係を導出する機械学習分析を、前記組分けごとに実行し、
    前記複数のグループの説明変数の値と前記関係とに基づいて、前記複数のグループの目的変数の値である予測値の算出を、前記組分けごとに実行し、
    前記分析対象に関するスコアを、前記組分けごとに算出された、当該分析対象が属する前記グループの前記予測値に基づく演算によって、算出する、
    分析方法。
  8. 前記組分けにおいて同一のグループに属する前記分析対象のうちの任意の2つが、他の前記組分けにおいて異なるグループに属する、
    請求項7に記載の分析方法。
  9. コンピュータに、
    説明変数と目的変数とが関連づけられる複数の分析対象を分類する組分けによって生成する複数のグループについて、前記複数のグループの説明変数と目的変数との関係を導出する機械学習分析を、前記組分けごとに実行する解析処理と、
    前記複数のグループの説明変数の値と前記関係とに基づいて、前記複数のグループの目的変数の値である予測値の算出を、前記組分けごとに実行する予測処理と、
    前記分析対象に関するスコアを、前記組分けごとに算出された、当該分析対象が属する前記グループの前記予測値に基づく演算によって、算出する算出処理と、
    を実行させるプログラム
  10. 前記組分けにおいて同一のグループに属する前記分析対象のうちの任意の2つが、他の前記組分けにおいて異なるグループに属する、
    請求項9に記載のプログラム
JP2018524061A 2016-06-21 2017-06-19 分析装置、分析方法、およびプログラム Active JP6943242B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016122843 2016-06-21
JP2016122843 2016-06-21
PCT/JP2017/022439 WO2017221856A1 (ja) 2016-06-21 2017-06-19 分析装置、分析方法、および記憶媒体

Publications (2)

Publication Number Publication Date
JPWO2017221856A1 JPWO2017221856A1 (ja) 2019-04-11
JP6943242B2 true JP6943242B2 (ja) 2021-09-29

Family

ID=60783279

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018524061A Active JP6943242B2 (ja) 2016-06-21 2017-06-19 分析装置、分析方法、およびプログラム

Country Status (2)

Country Link
JP (1) JP6943242B2 (ja)
WO (1) WO2017221856A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6857332B2 (ja) * 2018-03-13 2021-04-14 オムロン株式会社 演算装置、演算方法、及びそのプログラム
JP7292838B2 (ja) * 2018-09-04 2023-06-19 株式会社日立製作所 事案発生抑止効果予測システム
JP6775055B2 (ja) * 2019-03-29 2020-10-28 株式会社Nttドコモ リスク推定装置
JP6961312B2 (ja) * 2019-09-03 2021-11-05 東芝情報システム株式会社 状態変動検出補助装置、状態変動検出装置、状態変動検出補助用プログラム、及び状態変動検出用プログラム

Also Published As

Publication number Publication date
WO2017221856A1 (ja) 2017-12-28
JPWO2017221856A1 (ja) 2019-04-11

Similar Documents

Publication Publication Date Title
JP6943242B2 (ja) 分析装置、分析方法、およびプログラム
CN110796284B (zh) 细颗粒物污染等级的预测方法、装置及计算机设备
US20210192586A1 (en) Systems and Methods for Detecting and Responding to Anomalous Traffic Conditions
CN107657267B (zh) 产品***挖掘方法及装置
CN106844781B (zh) 数据处理的方法及装置
US20200074486A1 (en) Information processing system, information processing device, prediction model extraction method, and prediction model extraction program
CN106919957B (zh) 处理数据的方法及装置
WO2021169174A1 (zh) 道路拥堵程度预测方法、装置、计算机设备及可读存储介质
CN111784022A (zh) 一种基于Wrapper方法与SVM方法结合的短时邻近大雾预测方法
CN108806254B (zh) 城市交通走廊的识别方法、装置及计算机可读存储介质
CN116034379A (zh) 使用深度学***测量
JP6879749B2 (ja) 支援装置および支援方法
Kalair et al. Dynamic and interpretable hazard-based models of traffic incident durations
US20170337259A1 (en) Visualizing device, visualizing method and visualizing program
JP2003256757A (ja) 空間データ分析装置、空間データ分析方法、及び空間データ分析プログラム
CN110852322B (zh) 感兴趣区域的确定方法及装置
CN111121803B (zh) 获取道路常用停靠点的方法及装置
CN112151185A (zh) 一种儿童呼吸疾病与环境数据关联分析方法及***
CN110597990A (zh) 一种基于智能分类的财务分析方法和***
CN113688506B (zh) 基于微站等多维数据的潜在大气污染源识别方法
CN113723860B (zh) 一种土地资源资产离任审计评价方法、装置及存储介质
CN109063944A (zh) 基于大数据分析技术的城市金融指数分析方法及装置
CN114360735A (zh) 传染病时空聚集性探测分析方法、***及电子设备
CN109165842B (zh) 一种基建热度指数统计方法及装置
CN112766567A (zh) 一种城市路网规划实施效果的评价方法、***以及存储介质

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181206

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200515

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210810

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210823

R150 Certificate of patent or registration of utility model

Ref document number: 6943242

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150