JP6611068B1

JP6611068B1 - 企業情報処理装置、企業のイベント予測方法及び予測プログラム

Info

Publication number: JP6611068B1
Application number: JP2019028276A
Authority: JP
Inventors: 大介宮川
Original assignee: 国立大学法人一橋大学; 株式会社東京商工リサーチ
Priority date: 2019-02-20
Filing date: 2019-02-20
Publication date: 2019-11-27
Anticipated expiration: 2039-02-20
Also published as: JP2020135434A

Abstract

【課題】企業のイベント発生を精度よく予測するモデルを構築する。【解決手段】計算処理部１は、各企業の定量及び定性データにより属性ベクトルを生成し、選択した項目について異なる２つの期間での差分を算出して各企業の属性ベクトルに追加する。相関処理部２は、定性データのうちで各企業の実物取引関係を示すデータから、各企業と取引先及び株主とが形成するネットワークのネットワーク統計量を算出して各企業の属性ベクトルに追加する。イベント抽出部３は、定量及び定性データから各企業の既出イベントの発生を示すデータを抽出して各企業の属性ベクトルに追加する。欠損値処理部４は、各企業の属性ベクトルを構成するデータの欠損値を所定の値に置換し、置換後の複数の企業の属性ベクトルにより機械学習により学習される学習用データセットを生成する。【選択図】図９

Description

本発明は、企業情報処理装置、学習用データセットとその生成方法、学習済みモデル、企業のイベント予測方法及び予測プログラムに関する。

企業レベルで観察される将来のイベント（例えば、倒産など）発生を予測するため、企業の財務データや決算データに含まれる定量データ（売上、利益など）を用いて予測を行うことが一般に行われている。こうした予測結果は、企業の信用評点などに加工され、利用者に提供される。

また、企業の定量データを用いずとも、定性データ（例えば、経営者の属性など）に基づく統計モデルを利用して、企業の倒産確率を予測する手法が提案されている（特許文献１）。

特開２００３−２１６８０４号公報

企業レベルで観察される将来のイベント発生の予測精度を向上させるためには、可能な限り多くの企業データを学習した予測モデルを用いることが望ましい。この場合、個々の企業の定量データ及び定性データを収集し、定量データと定性データとで構成される高次元の属性ベクトルを企業ごとに生成することで、企業のデータ量を増加させることが可能である。

しかし、こうした目的のために、標準的な計量経済学的手法（例えば、ロジスティック回帰）を用いてパラメトリックなモデルを推定しようとして、極めて高次元のベクトルを用いて予測モデルを推定することは、原理的に困難である。これは、各ベクトルに共通して含まれる情報が存在している可能性（いわゆる、多重共線性の問題）がある状況下で、上記の標準的な計量経済学的手法が、モデルに投入するベクトルの構成要素を事前に選択するという手順を想定していないためである。

本発明は上記の事情に鑑みて成されたものであり、企業のイベント発生を精度よく予測するモデルを構築することを目的とする。

一実施の形態にかかる企業情報処理装置は、
複数の期間について収集された、複数の企業に含まれる各企業の複数項目の定量データと各企業の定性情報のそれぞれを分類して数値化した複数項目の定性データと、が格納されたデータベースの前記定量データ及び前記定性データから、特定の項目を読み込んで各企業の属性ベクトルを生成し、かつ、読み込んだ各企業の前記定量データ及び定性データから選択した項目について異なる２つの期間での差分を算出し、各企業の前記属性ベクトルに追加する計算処理部と、
前記定性データに含まれる各企業の実物取引関係を示すデータから、各企業と取引先及び株主とが形成するネットワークのネットワーク統計量を算出して、各企業の属性ベクトルに追加する相関処理部と、
前記定量データ及び定性データから各企業の既出イベントの発生を示すデータを抽出して、各企業の属性ベクトルに追加するイベント抽出部と、
各企業の属性ベクトルを構成するデータに欠損値が存在する場合、前記欠損値を所定の値に置換し、前記欠損値が前記所定の値に置換された前記複数の企業の前記属性ベクトルから、機械学習により学習することで企業の将来のイベントの発生を予測するモデルの学習に用いられる学習用データセットを構築する欠損値処理部と、を有するものである。

一実施の形態にかかる学習用データセットは、
複数の期間について収集された、複数の企業に含まれる各企業の複数項目の定量データと各企業の定性情報のそれぞれを分類して数値化した複数項目の定性データと、が格納されたデータベースの前記定量データ及び前記定性データから、特定の項目を読み込んで各企業の属性ベクトルを生成し、かつ、読み込んだ各企業の前記定量データ及び定性データから選択した項目について異なる２つの期間での差分を算出し、各企業の前記属性ベクトルに追加し、
前記定性データに含まれる各企業の実物取引関係を示すデータから、各企業と取引先及び株主とが形成するネットワークのネットワーク統計量を算出して、各企業の属性ベクトルに追加し、
前記定量データ及び定性データから各企業の既出イベントの発生を示すデータを抽出して、各企業の属性ベクトルに追加し、
各企業の属性ベクトルを構成するデータに欠損値が存在する場合、前記欠損値を所定の値に置換し、前記欠損値が前記所定の値に置換された前記複数の企業の前記属性ベクトルにより構築される、機械学習により学習することで企業の将来のイベントの発生を予測するモデルの学習に用いられるものである。

一実施の形態にかかる学習済みモデルは、
複数の期間について収集された、複数の企業に含まれる各企業の複数項目の定量データと各企業の定性情報のそれぞれを分類して数値化した複数項目の定性データと、が格納されたデータベースの前記定量データ及び前記定性データから、特定の項目を読み込んで各企業の属性ベクトルを生成し、かつ、読み込んだ各企業の前記定量データ及び定性データから選択した項目について異なる２つの期間での差分を算出し、各企業の前記属性ベクトルに追加し、
前記定性データに含まれる各企業の実物取引関係を示すデータから、各企業と取引先及び株主とが形成するネットワークのネットワーク統計量を算出して、各企業の属性ベクトルに追加し、
前記定量データ及び定性データから各企業の既出イベントの発生を示すデータを抽出して、各企業の属性ベクトルに追加し、
各企業の属性ベクトルを構成するデータに欠損値が存在する場合、前記欠損値を所定の値に置換し、前記欠損値が前記所定の値に置換された前記複数の企業の前記属性ベクトルにより構築される学習用データセットを、機械学習により学習することで、企業の将来のイベントの発生の予測に用いられるものである。

一実施の形態にかかる企業のイベント予測方法は、
複数の期間について収集された、複数の企業に含まれる各企業の複数項目の定量データと各企業の定性情報のそれぞれを分類して数値化した複数項目の定性データと、が格納されたデータベースの前記定量データ及び前記定性データから、特定の項目を読み込んで各企業の属性ベクトルを生成し、かつ、読み込んだ各企業の前記定量データ及び定性データから選択した項目について異なる２つの期間での差分を算出し、各企業の前記属性ベクトルに追加し、
前記定性データに含まれる各企業の実物取引関係を示すデータから、各企業と取引先及び株主とが形成するネットワークのネットワーク統計量を算出して、各企業の属性ベクトルに追加し、
前記定量データ及び定性データから各企業の既出イベントの発生を示すデータを抽出して、各企業の属性ベクトルに追加し、
各企業の属性ベクトルを構成するデータに欠損値が存在する場合、前記欠損値を所定の値に置換し、前記欠損値が前記所定の値に置換された前記複数の企業の前記属性ベクトルにより構築される学習用データセットを機械学習により学習した学習済みモデルを用いて、
企業の将来のイベントの発生を予測するものである。

一実施の形態にかかる学習用データセット生成方法は、
複数の期間について収集された、複数の企業に含まれる各企業の複数項目の定量データと各企業の定性情報のそれぞれを分類して数値化した複数項目の定性データと、が格納されたデータベースの前記定量データ及び前記定性データから、特定の項目を読み込んで各企業の属性ベクトルを生成し、かつ、読み込んだ各企業の前記定量データ及び定性データから選択した項目について異なる２つの期間での差分を算出し、各企業の前記属性ベクトルに追加し、
前記定性データに含まれる各企業の実物取引関係を示すデータから、各企業と取引先及び株主とが形成するネットワークのネットワーク統計量を算出して、各企業の属性ベクトルに追加し、
前記定量データ及び定性データから各企業の既出イベントの発生を示すデータを抽出して、各企業の属性ベクトルに追加し、
各企業の属性ベクトルを構成するデータに欠損値が存在する場合、前記欠損値を所定の値に置換し、前記欠損値が前記所定の値に置換された前記複数の企業の前記属性ベクトルにより、機械学習により学習することで企業の将来のイベントの発生を予測するモデルの学習に用いられる、学習用データセット構築するものである。

一実施の形態にかかる企業のイベント予測プログラムは、
複数の期間について収集された、複数の企業に含まれる各企業の複数項目の定量データと各企業の定性情報のそれぞれを分類して数値化した複数項目の定性データと、が格納されたデータベースの前記定量データ及び前記定性データから、特定の項目を読み込んで各企業の属性ベクトルを生成し、かつ、読み込んだ各企業の前記定量データ及び定性データから選択した項目について異なる２つの期間での差分を算出し、各企業の前記属性ベクトルに追加する処理と、
前記定性データに含まれる各企業の実物取引関係を示すデータから、各企業と取引先及び株主とが形成するネットワークのネットワーク統計量を算出して、各企業の属性ベクトルに追加する処理と、
前記定量データ及び定性データから各企業の既出イベントの発生を示すデータを抽出して、各企業の属性ベクトルに追加する処理と、
各企業の属性ベクトルを構成するデータに欠損値が存在する場合、前記欠損値を所定の値に置換し、前記欠損値が前記所定の値に置換された前記複数の企業の前記属性ベクトルにより構築される学習用データセットを機械学習により学習した学習済みモデルを用いて、企業の将来のイベントの発生を予測する処理と、をコンピュータに実行させるものである。

本発明によれば、企業のイベント発生を精度よく予測するモデルを構築することができる。

実施の形態１にかかる企業情報処理装置を実現するためのシステム構成の一例を示す図である。企業データベースに格納される情報を模式的に示す図である。決算データベースの例を示す図である。定量企業情報データベースの例を示す図である。定性企業情報データベースの例を示す図である。事業承継データベースの例を示す図である。相関データベースの例を示す図である。企業状況データベースの例を示す図である。実施の形態１にかかる企業情報処理装置の構成を模式的に示す図である。実施の形態１にかかる企業情報処理装置の学習用データセット構築処理を示すフローチャートである。相関データベースでの企業間の相関の例を示す。実施の形態１にかかる企業情報処理装置の構成をより詳細に示す図である。学習済みモデルにテストデータを入力したイベント予測結果とこれに対応するＲＯＣ曲線とを示す。

以下、図面を参照して本発明の実施の形態について説明する。各図面においては、同一要素には同一の符号が付されており、必要に応じて重複説明は省略される。

実施の形態１
実施の形態１にかかる企業情報処理装置１００について説明する。企業情報処理装置１００は、企業の状態を示すデータから、将来的に企業で起こりうる、比較的発生確率が低いイベント（後述する成長イベントや退出イベントなどのレアイベント）を予測するものとして構成される。

図１に、実施の形態１にかかる企業情報処理装置１００を実現するためのシステム構成の一例を示す。企業情報処理装置１００は、専用コンピュータ、パーソナルコンピュータ（ＰＣ）などのコンピュータ１１０により実現可能である。但し、コンピュータは、物理的に単一である必要はなく、分散処理を実行する場合には、複数であってもよい。図１に示すように、コンピュータ１１０は、ＣＰＵ（Central Processing Unit）１１、ＲＯＭ（Read Only Memory）１２及びＲＡＭ（Random Access Memory）１３を有し、これらがバス１４を介して相互に接続されている。尚、コンピュータを動作させるためのＯＳソフトなどは、説明を省略するが、この企業情報処理装置を構築するコンピュータも当然有しているものとする。

バス１４には、入出力インターフェイス１５が接続されている。入出力インターフェイス１５には、入力部１６、出力部１７、通信部１８及び記憶部１９が接続される。

入力部１６は、例えば、キーボード、マウス、センサなどより構成される。出力部１７は、例えば、ＬＣＤなどのディスプレイ装置やヘッドフォン及びスピーカなどの音声出力装置により構成される。通信部１８は、例えば、ルータやターミナルアダプタなどにより構成される。記憶部１９は、ハードディスク、フラッシュメモリなどの記憶装置により構成される。

ＣＰＵ１１は、ＲＯＭ１２に記憶されている各種プログラム、又は記憶部１９からＲＡＭ１３にロードされた各種プログラムに従って各種の処理を行うことが可能である。本実施の形態においては、ＣＰＵ１１は、例えば後述する企業情報処理装置１００の各部の処理を実行する。ＲＡＭ１３には、ＣＰＵ１１が各種の処理を実行する上において必要なデータや、ＣＰＵ１１の処理の結果として得られたデータなどを記憶してもよい。

通信部１８は、ネットワーク３０を介して、サーバ４０と双方向の通信を行うことが可能である。通信部１８は、ＣＰＵ１１から提供されたデータをサーバ４０へ送信したり、サーバ４０から受信したデータをＣＰＵ１１、ＲＡＭ１３及び記憶部１９などへ出力することができる。通信部１８は、他の装置との間で、アナログ信号又はディジタル信号による通信を行ってもよい。記憶部１９はＣＰＵ１１との間でデータのやり取りが可能であり、情報の保存及び消去を行う。

入出力インターフェイス１５には、必要に応じてドライブ２０が接続されてもよい。ドライブ２０には、例えば、磁気ディスク２１、光ディスク２２、フレキシブルディスク２３又は半導体メモリ２４などの記憶媒体が適宜装着可能である。各記憶媒体から読み出されたコンピュータプログラムは、必要に応じて記憶部１９にインストールされてもよい。また、必要に応じて、ＣＰＵ１１が各種の処理を実行する上において必要なデータや、ＣＰＵ１１の処理の結果として得られたデータなどを各記憶媒体に記憶してもよい。

続いて、本実施の形態にかかる企業情報処理装置１００の構成及び処理について説明する。本実施の形態では、企業情報処理装置１００は、企業の状態を示す複数項目の元データが格納された企業データベース（以下、ＤＢ）から、特定の項目のデータを選択的に読み込み、かつ、読み込んだデータを用いて新たな項目のデータを生成する。そして、読み込んだデータと、生成した新たな項目のデータと、を結合して、学習用データセットを生成する。

後述するように、本実施の形態において構築される学習用データセットには、複数の期間のそれぞれでの各企業の状態を示す複数項目のデータと、各企業で実際に（過去に）生じたイベントの発生を示すデータと、が含まれる。以下では、各企業で実際に（過去に）生じたイベントの発生を示すデータを、既出イベントデータと称することとする。

例えば、学習用アルゴリズム（プログラム）がこのような学習済みデータセットを学習することで、企業の状態に対応した既出イベントの種類ごとの発生確率を予測する学習済みモデルを得ることができる。こうして得た学習済みモデルに、将来のイベント発生確率を予測する対象となる分析対象企業のデータを入力することで、分析対象企業の将来におけるイベントの発生確率を予測することができる。

図２に、企業ＤＢに格納される情報を模式的に示す。企業ＤＢには、企業を識別するための情報として固有の企業コードＦＩＤが含まれており、各企業の定量データ及び定性データは、この企業コードＦＩＤに紐付けられている。これにより、企業とデータとの対応関係が確保される。企業情報処理装置１００は、企業コードＦＩＤを指定し、かつ、データ項目を指定することで、企業コードＦＩＤの対応する１つの企業の所望のデータを読み込むことが可能である。

企業ＤＢから読み込んだ各企業のデータは、企業コードＦＩＤと、企業コードＦＩＤに紐付けられた複数の項目のデータと、で構成される。すなわち、読み込んだ１つの企業のデータは、企業コードＦＩＤと複数項目のデータとを要素とするベクトルとして表現することが可能である。ここでは、１つの企業のデータからなるベクトルを企業の属性ベクトルと称する。

企業ＤＢには、複数の期間の企業の状態を示す計量可能な定量データと、計量できない企業の状態を示す定性データと、が含まれる。本実施の形態では、定性データには、例えば企業の名称などを示すテキストデータや、企業の状態を示す定量データ以外の各種のデータが含まれる。但し、本実施の形態では、各項目の定性データは、定性データを所定の基準で分類し、分類結果に応じて数値コードを割り当てた数値データであるカテゴリ数や、１又は０で表されるダミー変数として表現される。これにより、定性データに含まれる情報を擬似的に数値データとして取り扱うことが可能となる。例えば、企業の業種については業種コード、企業の取引銀行については取引銀行コード、企業の所在地については住所コードや郵便番号によって表してもよい、この分類については、企業ＤＢの提供時に数値コードが割り当てられていてもよいし、企業情報処理装置１００が特定の項目の定性データを読み込んで分類処理を行うことで、読み込んだデータを数値データに変換してもよい。

企業ＤＢが収集された時点に最も近い期間を当期とすると、企業ＤＢには、当期、当期の前の期間に対応する前期、前々期及びそれ以前の期間の企業のデータが含まれている。企業情報処理装置１００は、読み込むデータの対象期間を特定して、１つ又は複数の期間のデータを必要に応じて読み込むことが可能である。

企業ＤＢに含まれる定量データ（図２の定量ＤＢ）には、複数の期間（会計年度）のそれぞれの決算データを示す決算ＤＢが少なくとも含まれる。図３に、決算ＤＢの例を示す。決算ＤＢには、賃借対照表、損益計算書、株主資本等変動計算書（２００６年よりも前においては利益処分計算書）に記載された標準的な事項、例えば、売上（図２のＳＡＬＥ）、利益金（図２のＰＲＯＦ）、総資産、負債、配当などの項目が含まれる。

また、定量ＤＢには、各期間の企業の資本金、従業員数、工場数、事業所数、取引金融機関数などの、決算データ以外の計量可能な数値データが含まれている定量企業情報ＤＢが含まれてもよい。図４に、定量企業情報ＤＢの例を示す。

企業ＤＢに含まれる定性データ（図２の定性ＤＢ）には、定性企業情報ＤＢ、事業承継ＤＢ、相関ＤＢ及び企業状況ＤＢが少なくとも含まれる。

定性企業情報ＤＢには、商号（図２のＴＮ）、住所（図２のＡＤＲ）、電話番号、創業年、設立年月、取引金融機関名、取引金融機関店舗名、業種、取り扱い品、代表者に関する情報、役員に関する情報、決算期間、決算年月、上場区分、などのデータが含まれる。図５に、定性企業情報ＤＢの例を示す。これらのデータは、テキスト情報として表現されるものが含まれる。このようなテキストデータについては、上述したように、項目ごとに分類処理を行い、分類結果によって数値コードを付与することで、数値データに変換することが可能である。例えば、商号は企業コードＦＩＤに変換してもよいし、住所は郵便番号などに変換してもよい。また、例えば、取引金融機関は金融機関コードで表してもよいし、業種は業種コードで表してもよい。

事業承継ＤＢには、企業の後継者が存在するかについての情報が含まれる。図６に、事業承継ＤＢの例を示す。後継者の有無が不明である場合には、後継者が不詳であると定義してもよい。既に後継者が存在する場合には、例えば同族継承、内部昇進、外部招聘などの後継者の属性を示す情報を含んでもよい。未だ後継者が存在しない場合には、今後後継者が企業内で育成される、後継者が外部招聘される、対象企業が他の企業に合併される予定がある、廃業又は解散の予定がある、現在の代表者が若年であるため近い将来の後継者が必要ないなどの事情、後継者については未定である、又は、その他の事情などを示す情報を含んでもよい。後継者が存在しない場合であって、将来的に後継者を外部招聘する場合には、後継者となる人材のみを招聘するのか、又は、後継者の出身元が資本参加もするのかなどの情報を含んでいてもよい。これらの事業承継に関する情報は分類され、例えば分類結果に応じて承継コード値ＢＣが付与される。

相関ＤＢには、企業間の販売関係及び仕入関係からなる実物取引にかかる情報と、企業間の資本関係を示す情報と、が含まれる。図７に、相関ＤＢの例を示す。ここでは、相関ＤＢは、企業間の実物取引にかかる情報として、取引先コードＴＩＤと、販売関係、仕入関係及び株主関係を示す相関区分ＳＯＫと、を含む。例えば、企業コードＦＩＤで示される企業にとって、取引先が製品やサービスの供給者（サプライヤ）である場合には、相関区分ＳＯＫの値は１となる。企業コードＦＩＤで示される企業にとって、取引先の顧客（カスタマー）である場合には、相関区分ＳＯＫの値は２となる。取引先が企業コードＦＩＤで示される企業の株主である場合には、相関区分ＳＯＫの値は３となる。なお、ここで説明した相関区分ＳＯＫの値は例示に過ぎず、企業と取引先との他の相関に相関区分ＳＯＫの値を割り当ててもよい。

企業状況ＤＢは、企業の各期について、企業の状態を示すステータスＳＴが企業コードＦＩＤと結びつけられて格納されている。図８に、企業状況ＤＢの例を示す。本実施の形態では、企業の状況を分類するために、ステータスＳＴには０〜６の値が割り当てられる。例えば、各企業のステータスは、以下のように定義される。

ＳＴ＝０：存続
ＳＴ＝１：倒産（負債額小）
ＳＴ＝２：倒産（負債額大）
ＳＴ＝３：自主廃業
ＳＴ＝４：休眠
ＳＴ＝５：他の企業に合併（被合併）
ＳＴ＝６：解散

以上の定義によれば、ある企業が存続している場合のステータスＳＴの値は０であるが、何らかのネガティブベントが生じている場合にはステータスＳＴの値は１〜６となる。

企業情報処理装置１００は、企業ＤＢの定量データ（定量ＤＢ）及び定性データ（定性ＤＢ）から、学習用データセットを構築するために複数の項目のデータを読み込む。ここで、各企業の属性ベクトルに含まれる定量データの項目数（次元）をＮ１、定性データの項目数（次元）をＮ２とすると、各企業の属性ベクトルの次元は（Ｎ１＋Ｎ２）となる。

属性ベクトルによって企業の実態をなるべく詳細に表現するには、当然のことながら、属性ベクトルの次元を増やすことが望ましい。属性ベクトルを高次元化できれば、企業の複雑な実態を表現する特徴をより多く取り込むことができ、機械学習により得られる学習済みモデルによるイベント予測精度の向上が期待される。

そのため、企業情報処理装置１００は、読み込んだデータを用いて新たなデータを生成して属性ベクトルに追加することで、属性ベクトルの次元を増加させる処理を行う。以下、具体的に説明する。

図９に、実施の形態１にかかる企業情報処理装置１００の構成を模式的に示す。企業情報処理装置１００は、ハードウェア上では、各処理は実際にはソフトウェアと上記ＣＰＵ１１などのハードウェア資源とが協働して実現される。企業情報処理装置１００は、計算処理部１、相関処理部２、イベント抽出部３及び欠損値処理部４を有する。

図１０に、実施の形態１にかかる企業情報処理装置１００の学習用データセット構築処理を示すフローチャートを示す。企業情報処理装置１００は、例えば記憶部１９に格納された定性データ及び定量データを必要に応じて読み出すことが可能に構成される。ここでは、必要な定性データ及び定量データを予め読み出す（図１０のステップＳ０）ものとして説明する。

ステップＳ１；計算処理
計算処理部１は、定量データ及び数値化された定性データに含まれるデータの各項目について、２つの期間の間での各項目の差分を計算する。計算対象となる期間を対象期間Ｔ１とすると、計算処理部１は、対象期間Ｔ１の定量データの所定の項目と、対象期よりも前の期間Ｔ２の同一項目のデータとを参照し、２つの期間の間での各項目の差分を計算する。

例えば、対象期間Ｔ１の定量データの各項目には、売上などの数値計算が可能なｎ個のデータ項目ＤＡＴ１＿１〜ＤＡＴ１＿ｎが含まれる。但し、ｎは１以上の整数である。なお、対象期間Ｔ１の定量データには、ＤＡＴ１＿１〜ＤＡＴ１＿ｎ以外の、差分計算に用いられない項目の数値データが含まれてもよいことは言うまでもない。

同様に、期間Ｔ２の定量データには、売上などの数値計算が可能なｎ個のデータ項目ＤＡＴ２＿１〜ＤＡＴ２＿ｎが含まれる。なお、期間Ｔ２の定量データにも、ＤＡＴ２＿１〜ＤＡＴ２＿ｎ以外の、差分計算に用いられない項目の数値データが含まれてもよいことは言うまでもない。

計算処理部１は、対象期間Ｔ１に追加されるデータとして、差分ΔＤ１（Ｔ１）＿１〜ΔＤ１（Ｔ１）＿ｎを計算する。ｋを１以上ｎ以下の整数（１≦ｋ≦ｎ）とすると、差分ΔＤ１（Ｔ１）＿ｋは、以下の式で表される。

ΔＤ１（Ｔ１）＿ｋ＝ＤＡＴ１＿ｋ−ＤＡＴ２＿ｋ［１］

計算処理部１は、各期間について、式［１］を用いて差分を計算する。そして、算出した差分を、対応する企業の属性ベクトルに新たな項目のデータとして追加する。これにより、属性ベクトルの次元を増加させることができる。

また、計算処理部１は、算出した差分の差分を、２つの期間の間でさらに算出してもよい。ここでは、期間Ｔ２よりも更に前の期間をＴ３とする。つまり、計算処理部１は、対象期間Ｔ１のデータに追加された差分ΔＤ１（Ｔ１）＿１〜ΔＤ１（Ｔ１）＿ｎと、前の期間Ｔ２のデータに追加されたΔＤ１（Ｔ２）＿１〜ΔＤ１（Ｔ２）＿ｎとの差分ΔＤ２（Ｔ１）＿１〜ΔＤ２（Ｔ１）＿ｎをそれぞれ計算する。

なお、期間Ｔ３のｎ個のデータ項目をＤＡＴ３＿１〜ＤＡＴ３＿ｎとすると、期間Ｔ２に追加された差分ΔＤ１（Ｔ２）＿ｋは、当然のことながら、以下の式で表される。

ΔＤ１（Ｔ２）＿ｋ＝ＤＡＴ２＿ｋ−ＤＡＴ３＿ｋ［２］

この場合、差分ΔＤ２（Ｔ１）＿ｋは、以下の式で表される。

ΔＤ２（Ｔ１）＿ｋ＝ΔＤ１（Ｔ１）＿ｋ−ΔＤ１（Ｔ２）＿ｋ［３］

計算処理部１は、各期間について、式［３］を用いて差分を更に計算する。そして、更に算出した差分を、対応する企業の属性ベクトルに新たな項目のデータとして追加する。これにより、定量ベクトルの次元を更に増加させることができる。

以上の差分計算処理により、各企業の属性ベクトルには、期間ごとに取得した定量データだけでなく、期間を跨いだ各項目の値の変動を示す新たな項目のデータが追加されることとなる。これにより、直近の企業の情報だけではなく、そこに至る時間的経緯を、観察可能な値の変化（一次微分値）と、観察可能な変化の変化（二次微分値）とを算出して、属性の時系列情報を余すところなく予測に用いることが可能となる。その結果、期間の相違による、売上などの定量データの変動が表現する企業の状態の経時変化を示す情報を、属性ベクトルに取り込むことができる。

なお、計算処理部１は、上述の差分計算の他にも、以下の計算処理を行ってもよい。計算処理部１は、読み込んだ定量データ及び定性データを用いて、例えば同一市区町村内に所在する企業の平均的な売上高成長率及び同一産業に属する企業の平均的な売上高成長率を算出し、対応する属性ベクトルに新たな項目のデータとして追加してもよい。

これにより、対象企業の周辺に所在する企業や同業他社の動向が対象企業の動向に対して影響する場合を考慮した情報を属性ベクトルに加えることができる。これは、対象企業のみに着目しては得られない情報であり、その結果、モデル学習のときに対象企業の立地及び業種による影響を反映させる加味することができる。

ステップＳ２：相関処理
相関処理部２は、相関情報に含まれるデータ参照し、各企業と取引先企業との相関を示す情報を属性ベクトルに取り込む。

まず、相関処理部２は、相関データを参照して、ある対象企業の取引先を、仕入れ先、顧客、株主に分類する。そして、仕入れ先、顧客及び株主のそれぞれに属する取引先の定量データを参照する。つまり、相関処理部２は、取引先コードＴＩＤと同じ企業コードＦＩＤを検索し、検索した企業コードＦＩＤに対応する企業の定量データを参照する。そして、仕入れ先、顧客及び株主のそれぞれに属する複数の取引先の定量データの各項目について、最大値、最小値、平均値及び合計値などの統計量を計算する。そして、計算した値を、対象企業の定量データに追加する。

なお、相関ＤＢでは、対象企業のコードが取引先コードＴＩＤに含まれる場合も考え得る。図１１に、相関ＤＢでの企業間の相関の例を示す。図１１では、対象企業を企業Ａ（ＦＩＤ＝１）とし、対象企業と取引関係又は資本関係を有する２つの企業Ｂ（ＦＩＤ＝２）及び企業Ｃ（ＦＩＤ＝３）を想定する。

図１１に示すように、企業Ａが企業Ｂに製品を販売している場合、矢印線ＡＲ１で表される取引は、ＦＩＤ＝１（企業Ａ）、ＴＩＤ＝２（企業Ｂ）及びＳＯＫ＝２（販売先）で定義される。これに対し、企業Ｃが企業Ａに製品を販売している場合、矢印線ＡＲ２で表される取引は、ＦＩＤ＝３（企業Ｃ）、ＴＩＤ＝１（企業Ａ）及びＳＯＫ＝２（販売先）で定義される。

この場合、矢印線ＡＲ２にかかる取引を企業Ａの側から見た場合、企業Ｂは製品の仕入れ先となる。よって、矢印線ＡＲ２にかかる取引は、ＦＩＤ＝１（企業Ａ）、ＴＩＤ＝３（企業Ｃ）及びＳＯＫ＝１（仕入先）とで定義される矢印線ＡＲ３に変換することができる。

この取引関係の変換は、以下のような意義を有する。矢印線ＡＲ２で示される取引関係が存在する場合、理想的には、企業Ａの企業コードＦＩＤ＝１を参照したときに、矢印線ＡＲ３で示される取引データ（ＴＩＤ＝３、ＳＯＫ＝１）が相関ＤＢに含まれると考えられる。しかしながら、企業Ａの企業規模が大きい場合には、相関ＤＢは企業Ａの全取引関係及び資本関係を網羅することは難しい。そのため、企業Ａについては大規模な取引が優先的に相関ＤＢに取り込まれ、例えば企業Ｃとの間の小規模の取引は相関ＤＢでは省略されることが考え得る。この場合、企業Ｃとの間の小規模な取引は実際に存在する取引であるにもかかわらず、学習用データセットには反映されないこととなる。

しかし、企業Ａにとっては企業Ｃとの取引は無視し得るほど小規模であっても、企業Ｃの企業規模が小さい場合には、企業Ａとの取引は企業Ｃにとっては無視し得ない規模であることが考え得る。この場合、企業ＤＢにおいて企業Ｃの企業コードＦＩＤ＝３を参照すると、矢印線ＡＲ３の取引が存在することを検知できる。

このとき、矢印線ＡＲ２の取引を矢印線ＡＲ３に変換することで、企業ＤＢで省略されていた企業Ａの企業コードＦＩＤを参照しても検知できなかった企業Ｃとの取引関係を、企業の属性ベクトルに追加することが可能となる。その結果、対象企業と取引関係が存在する企業をさらに抽出することが可能となり、より広い範囲での相関関係を解析することが可能となる。

これにより、属性ベクトルの次元を拡張できるとともに、属性ベクトル空間に対象企業自体の属性とは異なる、取引企業に起因する外的要因を取り込むことが可能となる。その結果、対象企業の属性と取引関係にある企業の動向が対象企業の動向への影響を、モデルの学習に反映させ得ることができる。

また、相関処理部２は、相関データを参照し、対象企業の取引先を１次取引先と定義すし、取引先の取引先を２次取引先と定義する。なお、相関処理部２は、取引先コードＴＩＤと同じ企業コードＦＩＤを検索し、検索した企業コードＦＩＤの取引先を２次取引先として定義することができる。これにより、相関処理部２は、対象企業、１次取引先及び２次取引先で構成されるネットワークを分析することが可能となる。

例えば、販売先に着目することで企業の販売ネットワークを構築したり、仕入先に着目することで企業間のサプライチェーンを構築したり、株主に着目することで企業間の資本関係を把握することが可能となる。さらに、分析対象のネットワークにおいて、一時取引先群および二次取引先群の平均的な属性、属性の最大値及び最小値などを計算することで取引ネットワークの属性を代理する変数を構築できるほか、個々の対象企業に関する次数中心性や固有ベクトル中心性などのネットワーク統計量を計算することで、新たな定量データを得ることができる。相関処理部２は、対象企業の定量データに、算出したネットワーク統計量を新たな定量データとして追加してもよい。これにより、取引関係を示すネットワークにおける対象企業の位置を示す情報を属性ベクトルに取り込むことができる。

さらに、相関処理部２は、事業承継ＤＢ（例えば、コードＢＣ）を読み込み、各企業の属性ベクトルに追加する。これにより、後継者の有無などの将来の企業のイベントの発生に大きく影響すると考え得る特徴を、各企業の属性ベクトルに取り込むことができる。

ステップＳ３：イベント抽出
イベント抽出部３は、対象企業の定量データから特定のデータを読み込み、企業の成長イベントと退出イベントとを抽出する。

まず、成長イベントの抽出について説明する。イベント抽出部３は、対象企業の定量データから、特定のデータ（例えば、売上、利益、従業員数及び労働生産性）を読み込み、期を跨いで値の変動が所定値よりも大きいかを判定する。

イベント抽出部３は、２つの期の対象データを読み込み、２つの期の間の差分ΔＧを計算する。また、イベント抽出部３は、対象データに含まれる企業での平均値ＡＶＥと標準偏差σを計算する。なお、平均値ＡＶＥと標準偏差σの算出に用いられる企業は、例えば対象企業と同じ業種の企業など、特定の分類に属する企業を選択してもよい。そして、差分ΔＧが、算出した平均値ＡＶＥと標準偏差σとを加算した値よりも大きい場合（ΔＧ＞ＡＶＥ＋σ）には、対象企業の対象データについて顕著な成長イベントが発生したものとして、対象データについての成長イベント発生を示す成長フラグデータを生成する。例えば、ΔＧ＞ＡＶＥ＋σの場合には成長フラグデータを「１」とし、それ以外の場合には成長フラグデータを「０」としてもよい。イベント抽出部３は、対象データに対応する成長フラグデータを、企業の属性ベクトルに追加する。

なお、データを読み込む２つの期は、例えば隣接する２つの期であってもよい。この場合には、例えば売上、利益、従業員数及び労働生産性などの短期間での成長イベントを抽出することができる。また、データを読み込む２つの期は、例えば２期以上離れた２つの期であってもよい。この場合には、例えば売上、利益、従業員数及び労働生産性などの長期間での成長イベントを抽出することができる。

更に、短期間の成長イベントと長期間の成長イベントとを併せて抽出してもよい。例えば、短期間の成長イベント及び長期間の成長イベントが両方とも抽出された場合、比較的急激に、かつ、継続的に成長したことが予想される。また、例えば、短期間の成長イベントが抽出されず、かつ、長期間の成長イベントが抽出された場合、緩やかな成長が継続したことが予想される。さらに、短期間の成長イベントが抽出され、かつ、長期間の成長イベントが抽出されない場合、成長は一時的なものであったことが予想される。

次いで、退出イベントの抽出について説明する。イベント抽出部３は、企業状況ＤＢから、各企業について、隣接する２つの期のステータスＳＴを読み込み、２つの期の間でのステータスＳＴの変化を抽出する。上述の通り、本実施の形態では、ステータスＳＴには０〜６の値が割り当てられる。

この場合、ある企業が存続している場合のステータスＳＴの値は０であるが、その後にイベントが発生すると、翌期のステータスＳＴの値は１〜６となる。よって、ステータスＳＴの値の変化を検出することで、イベントの種類と発生時期とを特定することができる。

イベント抽出部３は、読み込んだステータスを企業コードＦＩＤと結びつけて、各企業の属性ベクトルに追加する。

本実施の形態では、倒産を負債額の多寡によって別のイベントとして分けている。これは、学習済みモデルを用いて企業の将来のイベント予測を行うに際し、生じ得る企業の倒産のインパクトをも予測できる点で有用である。

ステップＳ４：欠損値処理
欠損値処理部４は、各企業の属性ベクトルに含まれるデータ項目のうち、値が欠損している項目（ＮＵＬＬが入っている項目など）を抽出する。欠損値処理部４は、抽出した項目のデータとして所定の値を割り当てることで、欠損データを補完する。本実施の形態においては、欠損値処理部４は、抽出した項目の値として「０」を割り当てるものとする。これにより、欠損値の存在にかかわらず、全企業の属性ベクトルの全データを数値データとして扱うことができるので、欠損値によるエラー発生を防止することができる。

また、欠損値処理部４は、抽出した項目が欠損値であるか否かを示すダミー変数（フラグデータ）を生成する。例えば、欠損値を有するものとして抽出された項目についてはダミー変数として「１」を割り当て、データが欠損していない項目についてはダミー変数として「０」を割り当てる。そして、欠損値処理部４は、各項目について生成したダミー変数を、各企業の属性ベクトルに追加する。これにより、欠損値が含まれるデータをも分析に使用できるようできるだけでなく、「データが存在しない（欠損値が有る）」という事実自体を企業の特徴付けに用いることができる。例えば、対象企業の業種によっては、特定に項目についてデータが得られにくいケースが考え得る。この場合、欠損値の存在と属性として取り込むことで、こうした業種特有の影響を考慮した解析を行うことができる。なお、ここでは例として企業の業種を挙げたが、欠損値の存在を検出する項目はこれに限られるものではない。

欠損値処理部４は、欠損値の補完とダミー変数の生成及び追加を完了したならば、複数の企業の属性ベクトルの集合からなるデータセットを、学習用データセットＬＤＳとして出力する。このとき、学習用データセットＬＤＳは、ＲＯＭ１２又は記憶部１９に格納されてもよいし、必要に応じてＲＡＭ１３に一時的に格納されてもよい。また、学習用データセットＬＤＳは、必要に応じて、ドライブ２０を介して磁気ディスク２１、光ディスク２２、フレキシブルディスク２３及び半導体メモリ２４などに書き込まれてもよい。

続いて、学習用データセットＬＤＳを学習した予測モデルついて説明する。図１２は、実施の形態１にかかる企業情報処理装置１００の構成をより詳細に示す図である。図２においては、企業情報処理装置１００のうちで学習用データセットＬＤＳの構築かかる構成について示したが、図１２では、企業情報処理装置１００は機械学習部５及び予測処理部６を更に有する。

上述したように、学習用データセットＬＤＳでは、企業ＤＢから読み込んだデータから差分などのデータを生成して、各企業のベクトルに追加した。これにより、属性ベクトルの高次元化がなされている。こうした高次元の属性ベクトルからパラメトリックな予測モデルを推定するのは、上述した多重共線性の問題のために、原理的に困難である。

そこで、本実施の形態では、高次元ベクトルからなる独立変数について、どの変数に対してどの程度のウェイトを置くべきかを、ノンパラメトリックモデルを前提として自動的に探索する機械学習手法を用いることで、イベントの予測モデルを同定する。

また、本実施の形態では、予測する対象がレアイベントであるため、予測モデルの同定に用いる学習用データセットＬＤＳに含まれるポジティブデータ数（予測対象のレアイベントに直面した企業の数）が、ネガティブデータ数（予測対象のレアイベントに直面していない企業の数）よりも圧倒的に少ない。そのため、ポジティブデータ数とネガティブデータ数の不均衡を放置したまま機械学習手法を用いてモデルを同定したとしても、予測対象のレアイベントの将来の発生を検出するには不十分なモデルが得られることが予想される。例えば、モデルの予測精度に寄与するポジティブデータの影響が圧倒的となるため、予測対象イベントが将来にわたって発生しないことを予測するモデルが得られてしまうことが考え得る。

そこで、本実施の形態では、レアイベントの将来の発生を検出する精度を向上させるため、予測対象イベントに直面した企業のデータに所定の重みを与える。これにより、ポジティブデータ数とネガティブデータ数を均衡させて（揃えて）から、機械学習を行う。

具体的には、学習用データセットＬＤＳを構成している属性ベクトルの総数（すなわち、対象企業数）をＮ_{ｔｏｔａｌ}、そのうちでレアイベントが生じている企業の数をＮ_ｒａｒｅ、
レアイベントが生じていない企業の数をＮ_{ｎｏｎｒａｒｅ}とする。ここでは、レアイベントとして衰退イベントを検出するものとし、企業コードＦＩＤに紐付けられた企業のステータスＦＳが１〜６である場合をレアイベント発生として取り扱う。

Ｎ_{ｎｏｎｒａｒｅ}＝Ｎ_{ｔｏｔａｌ}−Ｎ_ｒａｒｅ

本実施の形態では、レアイベントが発生した企業に付与する重みをＷ_ｒａｒｅ＿ｉ（ｉは、１〜Ｎ_ｒａｒｅの整数）、レアイベントが発生していない企業に付与する重みをＷ _{ｎｏｎｒａｒｅ}＿ｊ（ｊは、１〜Ｎ_{ｎｏｎｒａｒｅ}の整数）としたときに、重みの合計Ｗ_ｓｕｍが１となるように重みを設定する。

以上説明したように重みを設定することで、予測モデルにおいて、レアイベントが生じている企業のデータによる影響と、レアイベントが生じていない企業のデータによる影響と、を同等にすることが可能となる。

本実施の形態では、機械学習アルゴリズムとして、いわゆるランダムフォレストを用いて、更に上述した重みを適用して学習済みモデルを構築する。但し、機械学習アルゴリズムはこれに限られるものではなく、分類器（学習済みモデル）を提供できる各種の機械学習アルゴリズムを適宜適用できることは言うまでもない。

上述の通り、構築した学習様データセットには、各企業について様々な項目のデータが含まれている。よって、学習を行うにあたっては、学習に用いるデータを適宜選択し、異なる条件を適用した学習済みモデルを複数構築することができる。

学習済みモデルについては、各種の評価手法を用いて評価（テスト）することができる。例えば、企業ＤＢに含まれるデータを、学習に用いるデータセットの構築に供するトレーニングデータと、テストに用いるテストデータとに分け、学習済みモデルにテストデータを入力する。そして、学習済みモデルによる対象企業のイベント発生の予測結果と、テストデータに含まれる実際のイベント発生とを比較し、予測精度を評価することができる。

例えば、異なる条件で構築した学習済みモデルに対して同じテストデータを入力して、イベント予測精度を比較することで、用途に対応した学習済みモデルを選択することができる。このように選択した学習済みモデルを用いて企業のイベント発生を予測することで、予測対象企業のイベント予測精度を向上させることができる。

予測処理部６は、別途収集した予測対象企業のデータを、選択された学習済モデルに適用して、予測対象企業のレアイベント発生を予測する。例えば、本実施の形態では、退出イベントを予測するものとし、退出イベントについては倒産（負債額小）、倒産（負債額大）、自主廃業、休眠、他の企業に合併（被合併）及び解散の各イベントに分類した。したがって、学習済モデルを発生する退出イベントの分類器として用いることで、退出イベントごとの発生確率を算出することが可能である。

次いで、本実施の形態にかかる企業情報処理装置１００による企業の将来イベント予測の効果について検討する。本実施の形態では、企業ＤＢに元々含まれているデータだけでなく、与えられたデータを加工して得られた新たなデータを企業の属性ベクトルに加えている。ここでは、企業ＤＢに元々含まれているデータを原データ、計算処理部１によって求められた差分や差分の差分などのデータを差分データ、相関ＤＢによって求められてネットワーク統計量をネットワークデータと称する。

上記の学習モデルを用いて企業の廃業予測を行い、予測精度に対する各データ項目の寄与度（importance）を調査した。そのうち、予測精度への寄与が大きい上位１００個の項目を抽出したところ、原データが６８項目、差分データが１３項目、ネットワークデータが１９項目となった。このように、上位１００項目のうち、本実施の形態にかかる企業情報処理装置１００によって新たに導入されたデータ項目が３２項目含まれていることが確認できた。よって、企業の廃業予測において、原データのみならず、企業情報処理装置１００によって新たに導入されたデータ項目が予測精度の向上に貢献していることが理解できる。

本実施の形態にかかる企業情報処理装置１００による企業の将来イベント予測の予測精度についてさらに検討する。ここでは、本実施の形態にかかる学習済みデータにテストデータを入力してイベント予測を行った結果を、ＲＯＣ（Receiver Operating Characteristics ：受信者操作特性）曲線及びＲＯＣ曲線下の面積（ＡＵＣ：Area Under the Curve）によって評価する。

図１３に、学習済みモデルにテストデータを入力したイベント予測結果とこれに対応するＲＯＣ曲線とを示す。図１３では、予測の結果得られたイベント発生なしの場合（陰性：negative）を破線Ｎで示し、イベントが発生する場合（陽性：positive）を実線Ｐで示した。

ＲＯＣ曲線は、真陽性の割合と偽陽性の割合とて定義される点が描く軌跡に対応する曲線である。ＲＯＣ曲線の縦軸は真陽性の割合（True Positive Rate）であり、予測結果の横軸上に設定した閾値以上の範囲におけるpositiveを示す実線Ｐと横軸とに囲まれる部分の面積に対応する。ＲＯＣ曲線の横軸は偽陽性の割合（False Positive Rate）であり、予測結果の横軸上に設定した閾値以上の範囲におけるnegativeを示す破線Ｎと横軸とに囲まれる部分の面積に対応する。

例として、ＲＯＣ曲線の横軸上に閾値ＴＨを設定し、閾値ＴＨに対応するＲＯＣ曲線上の点Ｐを示した。点Ｐにおける真陽性の割合（True Positive Rate）ＴＰＲ１は、予測結果の横軸上に設定した閾値ＴＨ以上の範囲におけるpositiveを示す実線Ｐと横軸とに囲まれる部分（細線ハッチングが施された部分）の面積に対応する。点Ｐにおける偽陽性の割合（False Positive Rate）ＦＰＲ１は、予測結果の横軸上に設定した閾値ＴＨ以上の範囲におけるnegativeを示す破線Ｎと横軸とに囲まれる部分（太線ハッチングが施された部分）の面積に対応する。

ＡＵＣは、ＲＯＣ曲線よりも下の部分（ハッチングが施された部分）の面積である。一般に、事象の発生がランダムである場合には０．５となり、イベントの発生及び未発生の予測精度が高くなるほど１に近づく。

ＡＵＣを用いて本実施の形態にかかる学習済みモデルによる企業の将来イベントの予測精度を評価すると、ＡＵＣの値は概ね０．８０〜０．８５となり、良好な精度であることが確認された。

これに対し、比較例として、企業の信用評点を用いたプロビットモデルによるイベント予測結果を検討した。この場合のＡＵＣは０．６０〜０．６５程度となった。

以上より、本実施の形態にかかる企業情報処理装置１００によれば、企業の将来イベント発生の予測を高精度に行えることが理解できる。

なお、ＡＵＣによる予測精度の評価については、複数の学習済みモデル間の予測精度の比較にも適用できることは、言うまでもない。

その他の実施の形態
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上述の実施の形態では、欠損値を置換する値として「０」を用いたが、これは例示に過ぎず、適宜他の値で欠損値を置換してもよい。

上記で説明した企業情報処理装置が実行する処理は、ＡＳＩＣ（Application Specific Integrated Circuit）を含む半導体処理装置を用いて実現されてもよい。また、これらの処理は、少なくとも１つのプロセッサ（e.g. マイクロプロセッサ、ＭＰＵ、ＤＳＰ（Digital Signal Processor））を含むコンピュータシステムにプログラムを実行させることによって実現されてもよい。具体的には、これらの送信信号処理又は受信信号処理に関するアルゴリズムをコンピュータシステムに行わせるための命令群を含む１又は複数のプログラムを作成し、当該プログラムをコンピュータに供給すればよい。

これらのプログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ−ＲＯＭ（Read Only Memory）、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（random access memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

１計算処理部
２相関処理部
３イベント抽出部
４欠損値処理部
５機械学習部
６予測処理部
１１ＣＰＵ
１２ＲＯＭ
１３ＲＡＭ
１４バス
１５入出力インターフェイス
１６入力部
１７出力部
１８通信部
１９記憶部
２０ドライブ
２１磁気ディスク
２２光ディスク
２３フレキシブルディスク
２４半導体メモリ
３０ネットワーク
４０サーバ
１００企業情報処理装置
１１０コンピュータ
ＢＣコード値
ＦＩＤ企業コード
ＬＤＳ学習用データセット
ＳＯＫ相関区分
ＴＩＤ取引先コード

Claims

複数の期間について収集された、複数の企業に含まれる各企業の複数項目の定量データと各企業の定性情報のそれぞれを分類して数値化した複数項目の定性データと、が格納されたデータベースの前記定量データ及び前記定性データから、特定の項目を読み込んで各企業の属性ベクトルを生成し、かつ、読み込んだ各企業の前記定量データ及び定性データから選択した項目について異なる２つの期間での差分を算出し、各企業の前記属性ベクトルに追加する計算処理部と、
前記定性データに含まれる各企業の実物取引関係を示すデータから、各企業と取引先及び株主とが形成するネットワークのネットワーク統計量を算出して、各企業の属性ベクトルに追加する相関処理部と、
前記定量データ及び定性データから各企業の既出イベントの発生を示すデータを抽出して、各企業の属性ベクトルに追加するイベント抽出部と、
各企業の属性ベクトルを構成するデータに欠損値が存在する場合、前記欠損値を所定の値に置換し、前記欠損値が前記所定の値に置換された前記複数の企業の前記属性ベクトルから、機械学習により学習することで企業の将来のイベントの発生を予測するモデルの学習に用いられる学習用データセットを構築する欠損値処理部と、を備える、
企業情報処理装置。
前記計算処理部は、前記定量データ及び定性データから選択した項目について、異なる２つの期間での第１の差分を算出し、前記第１の差分の算出に用いたのとは異なる２つの期間での第２の差分を算出し、かつ、前記第１の差分と前記第２の差分との間の第３の差分を算出して、各企業の前記属性ベクトルに追加する、
請求項１に記載の企業情報処理装置。
前記欠損値処理部は、各企業の属性ベクトルの各項目が欠損値であるかを示す新たな項目のデータを生成し、生成した項目のデータを各企業の前記属性ベクトルに追加する、
請求項１又は２に記載の企業情報処理装置。
前記学習用データセットを機械学習する機械学習部を更に備え、
前記機械学習部は、前記既出イベントが発生した企業の前記属性ベクトルに第１の重みを付与し、前記既出イベントが発生していない企業の前記属性ベクトルに前記第１の重みよりも小さな第２の重みを付与して、機械学習を行う、
請求項１乃至３のいずれか一項に記載の企業情報処理装置。
前記既出イベントが発生した企業の数に前記第１の重みを乗じた値と、前記既出イベントが発生していない企業の数に前記第２の重みを乗じた値と、の和は１である、
請求項４に記載の企業情報処理装置。
前記第１の重みは、前記既出イベントが発生した企業の数に２を乗じた値の逆数であり、
前記第２の重みは、前記既出イベントが発生していない企業の数に２を乗じた値の逆数である、
請求項５に記載の企業情報処理装置。
前記モデルを用いて企業の将来のイベントの発生を予測する予測処理部を更に有する、
請求項４乃至６のいずれか一項に記載の企業情報処理装置。
計算処理部によって、複数の期間について収集された、複数の企業に含まれる各企業の複数項目の定量データと各企業の定性情報のそれぞれを分類して数値化した複数項目の定性データと、が格納されたデータベースの前記定量データ及び前記定性データから、特定の項目を読み込んで各企業の属性ベクトルを生成し、かつ、読み込んだ各企業の前記定量データ及び定性データから選択した項目について異なる２つの期間での差分を算出し、各企業の前記属性ベクトルに追加し、
相関処理部によって、前記定性データに含まれる各企業の実物取引関係を示すデータから、各企業と取引先及び株主とが形成するネットワークのネットワーク統計量を算出して、各企業の属性ベクトルに追加し、
イベント抽出部によって、前記定量データ及び定性データから各企業の既出イベントの発生を示すデータを抽出して、各企業の属性ベクトルに追加し、
各企業の属性ベクトルを構成するデータに欠損値が存在する場合、欠損値処理部によって、前記欠損値を所定の値に置換し、前記欠損値が前記所定の値に置換された前記複数の企業の前記属性ベクトルから、機械学習により学習することで企業の将来のイベントの発生を予測するモデルの学習に用いられる学習用データセットを構築し、
予測処理部が、機械学習部による機械学習によって前記学習用データセットを学習した学習済みモデルを用いて、企業の将来のイベントの発生を予測する、
企業のイベント予測方法。
複数の期間について収集された、複数の企業に含まれる各企業の複数項目の定量データと各企業の定性情報のそれぞれを分類して数値化した複数項目の定性データと、が格納されたデータベースの前記定量データ及び前記定性データから、特定の項目を読み込んで各企業の属性ベクトルを生成し、かつ、読み込んだ各企業の前記定量データ及び定性データから選択した項目について異なる２つの期間での差分を算出し、各企業の前記属性ベクトルに追加する処理と、
前記定性データに含まれる各企業の実物取引関係を示すデータから、各企業と取引先及び株主とが形成するネットワークのネットワーク統計量を算出して、各企業の属性ベクトルに追加する処理と、
前記定量データ及び定性データから各企業の既出イベントの発生を示すデータを抽出して、各企業の属性ベクトルに追加する処理と、
各企業の属性ベクトルを構成するデータに欠損値が存在する場合、前記欠損値を所定の値に置換し、前記欠損値が前記所定の値に置換された前記複数の企業の前記属性ベクトルにより構築される学習用データセットを機械学習により学習した学習済みモデルを用いて、企業の将来のイベントの発生を予測する処理と、をコンピュータに実行させる、
企業のイベント予測プログラム。
複数の期間について収集された、複数の企業に含まれる各企業の複数項目の定量データと各企業の定性情報のそれぞれを分類して数値化した複数項目の定性データと、が格納されたデータベースの前記定量データ及び前記定性データから、特定の項目を読み込んで各企業の属性ベクトルを生成し、かつ、読み込んだ各企業の前記定量データ及び定性データから選択した項目について異なる２つの期間での差分を算出し、各企業の前記属性ベクトルに追加する処理と、
前記定性データに含まれる各企業の実物取引関係を示すデータから、各企業と取引先及び株主とが形成するネットワークのネットワーク統計量を算出して、各企業の属性ベクトルに追加する処理と、
前記定量データ及び定性データから各企業の既出イベントの発生を示すデータを抽出して、各企業の属性ベクトルに追加する処理と、
各企業の属性ベクトルを構成するデータに欠損値が存在する場合、前記欠損値を所定の値に置換し、前記欠損値が前記所定の値に置換された前記複数の企業の前記属性ベクトルにより構築される学習用データセットを機械学習により学習した学習済みモデルを用いて、企業の将来のイベントの発生を予測する処理と、をコンピュータに実行させる、
企業のイベント予測方法。