JP6611068B1 - 企業情報処理装置、企業のイベント予測方法及び予測プログラム - Google Patents

企業情報処理装置、企業のイベント予測方法及び予測プログラム Download PDF

Info

Publication number
JP6611068B1
JP6611068B1 JP2019028276A JP2019028276A JP6611068B1 JP 6611068 B1 JP6611068 B1 JP 6611068B1 JP 2019028276 A JP2019028276 A JP 2019028276A JP 2019028276 A JP2019028276 A JP 2019028276A JP 6611068 B1 JP6611068 B1 JP 6611068B1
Authority
JP
Japan
Prior art keywords
company
data
attribute vector
event
qualitative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019028276A
Other languages
English (en)
Other versions
JP2020135434A (ja
Inventor
大介 宮川
大介 宮川
Original Assignee
国立大学法人一橋大学
株式会社東京商工リサーチ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=68691993&utm_source=***_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP6611068(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 国立大学法人一橋大学, 株式会社東京商工リサーチ filed Critical 国立大学法人一橋大学
Priority to JP2019028276A priority Critical patent/JP6611068B1/ja
Application granted granted Critical
Publication of JP6611068B1 publication Critical patent/JP6611068B1/ja
Publication of JP2020135434A publication Critical patent/JP2020135434A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】企業のイベント発生を精度よく予測するモデルを構築する。【解決手段】計算処理部1は、各企業の定量及び定性データにより属性ベクトルを生成し、選択した項目について異なる2つの期間での差分を算出して各企業の属性ベクトルに追加する。相関処理部2は、定性データのうちで各企業の実物取引関係を示すデータから、各企業と取引先及び株主とが形成するネットワークのネットワーク統計量を算出して各企業の属性ベクトルに追加する。イベント抽出部3は、定量及び定性データから各企業の既出イベントの発生を示すデータを抽出して各企業の属性ベクトルに追加する。欠損値処理部4は、各企業の属性ベクトルを構成するデータの欠損値を所定の値に置換し、置換後の複数の企業の属性ベクトルにより機械学習により学習される学習用データセットを生成する。【選択図】図9

Description

本発明は、企業情報処理装置、学習用データセットとその生成方法、学習済みモデル、企業のイベント予測方法及び予測プログラムに関する。
企業レベルで観察される将来のイベント(例えば、倒産など)発生を予測するため、企業の財務データや決算データに含まれる定量データ(売上、利益など)を用いて予測を行うことが一般に行われている。こうした予測結果は、企業の信用評点などに加工され、利用者に提供される。
また、企業の定量データを用いずとも、定性データ(例えば、経営者の属性など)に基づく統計モデルを利用して、企業の倒産確率を予測する手法が提案されている(特許文献1)。
特開2003−216804号公報
企業レベルで観察される将来のイベント発生の予測精度を向上させるためには、可能な限り多くの企業データを学習した予測モデルを用いることが望ましい。この場合、個々の企業の定量データ及び定性データを収集し、定量データと定性データとで構成される高次元の属性ベクトルを企業ごとに生成することで、企業のデータ量を増加させることが可能である。
しかし、こうした目的のために、標準的な計量経済学的手法(例えば、ロジスティック回帰)を用いてパラメトリックなモデルを推定しようとして、極めて高次元のベクトルを用いて予測モデルを推定することは、原理的に困難である。これは、各ベクトルに共通して含まれる情報が存在している可能性(いわゆる、多重共線性の問題)がある状況下で、上記の標準的な計量経済学的手法が、モデルに投入するベクトルの構成要素を事前に選択するという手順を想定していないためである。
本発明は上記の事情に鑑みて成されたものであり、企業のイベント発生を精度よく予測するモデルを構築することを目的とする。
一実施の形態にかかる企業情報処理装置は、
複数の期間について収集された、複数の企業に含まれる各企業の複数項目の定量データと各企業の定性情報のそれぞれを分類して数値化した複数項目の定性データと、が格納されたデータベースの前記定量データ及び前記定性データから、特定の項目を読み込んで各企業の属性ベクトルを生成し、かつ、読み込んだ各企業の前記定量データ及び定性データから選択した項目について異なる2つの期間での差分を算出し、各企業の前記属性ベクトルに追加する計算処理部と、
前記定性データに含まれる各企業の実物取引関係を示すデータから、各企業と取引先及び株主とが形成するネットワークのネットワーク統計量を算出して、各企業の属性ベクトルに追加する相関処理部と、
前記定量データ及び定性データから各企業の既出イベントの発生を示すデータを抽出して、各企業の属性ベクトルに追加するイベント抽出部と、
各企業の属性ベクトルを構成するデータに欠損値が存在する場合、前記欠損値を所定の値に置換し、前記欠損値が前記所定の値に置換された前記複数の企業の前記属性ベクトルから、機械学習により学習することで企業の将来のイベントの発生を予測するモデルの学習に用いられる学習用データセットを構築する欠損値処理部と、を有するものである。
一実施の形態にかかる学習用データセットは、
複数の期間について収集された、複数の企業に含まれる各企業の複数項目の定量データと各企業の定性情報のそれぞれを分類して数値化した複数項目の定性データと、が格納されたデータベースの前記定量データ及び前記定性データから、特定の項目を読み込んで各企業の属性ベクトルを生成し、かつ、読み込んだ各企業の前記定量データ及び定性データから選択した項目について異なる2つの期間での差分を算出し、各企業の前記属性ベクトルに追加し、
前記定性データに含まれる各企業の実物取引関係を示すデータから、各企業と取引先及び株主とが形成するネットワークのネットワーク統計量を算出して、各企業の属性ベクトルに追加し、
前記定量データ及び定性データから各企業の既出イベントの発生を示すデータを抽出して、各企業の属性ベクトルに追加し、
各企業の属性ベクトルを構成するデータに欠損値が存在する場合、前記欠損値を所定の値に置換し、前記欠損値が前記所定の値に置換された前記複数の企業の前記属性ベクトルにより構築される、機械学習により学習することで企業の将来のイベントの発生を予測するモデルの学習に用いられるものである。
一実施の形態にかかる学習済みモデルは、
複数の期間について収集された、複数の企業に含まれる各企業の複数項目の定量データと各企業の定性情報のそれぞれを分類して数値化した複数項目の定性データと、が格納されたデータベースの前記定量データ及び前記定性データから、特定の項目を読み込んで各企業の属性ベクトルを生成し、かつ、読み込んだ各企業の前記定量データ及び定性データから選択した項目について異なる2つの期間での差分を算出し、各企業の前記属性ベクトルに追加し、
前記定性データに含まれる各企業の実物取引関係を示すデータから、各企業と取引先及び株主とが形成するネットワークのネットワーク統計量を算出して、各企業の属性ベクトルに追加し、
前記定量データ及び定性データから各企業の既出イベントの発生を示すデータを抽出して、各企業の属性ベクトルに追加し、
各企業の属性ベクトルを構成するデータに欠損値が存在する場合、前記欠損値を所定の値に置換し、前記欠損値が前記所定の値に置換された前記複数の企業の前記属性ベクトルにより構築される学習用データセットを、機械学習により学習することで、企業の将来のイベントの発生の予測に用いられるものである。
一実施の形態にかかる企業のイベント予測方法は、
複数の期間について収集された、複数の企業に含まれる各企業の複数項目の定量データと各企業の定性情報のそれぞれを分類して数値化した複数項目の定性データと、が格納されたデータベースの前記定量データ及び前記定性データから、特定の項目を読み込んで各企業の属性ベクトルを生成し、かつ、読み込んだ各企業の前記定量データ及び定性データから選択した項目について異なる2つの期間での差分を算出し、各企業の前記属性ベクトルに追加し、
前記定性データに含まれる各企業の実物取引関係を示すデータから、各企業と取引先及び株主とが形成するネットワークのネットワーク統計量を算出して、各企業の属性ベクトルに追加し、
前記定量データ及び定性データから各企業の既出イベントの発生を示すデータを抽出して、各企業の属性ベクトルに追加し、
各企業の属性ベクトルを構成するデータに欠損値が存在する場合、前記欠損値を所定の値に置換し、前記欠損値が前記所定の値に置換された前記複数の企業の前記属性ベクトルにより構築される学習用データセットを機械学習により学習した学習済みモデルを用いて、
企業の将来のイベントの発生を予測するものである。
一実施の形態にかかる学習用データセット生成方法は、
複数の期間について収集された、複数の企業に含まれる各企業の複数項目の定量データと各企業の定性情報のそれぞれを分類して数値化した複数項目の定性データと、が格納されたデータベースの前記定量データ及び前記定性データから、特定の項目を読み込んで各企業の属性ベクトルを生成し、かつ、読み込んだ各企業の前記定量データ及び定性データから選択した項目について異なる2つの期間での差分を算出し、各企業の前記属性ベクトルに追加し、
前記定性データに含まれる各企業の実物取引関係を示すデータから、各企業と取引先及び株主とが形成するネットワークのネットワーク統計量を算出して、各企業の属性ベクトルに追加し、
前記定量データ及び定性データから各企業の既出イベントの発生を示すデータを抽出して、各企業の属性ベクトルに追加し、
各企業の属性ベクトルを構成するデータに欠損値が存在する場合、前記欠損値を所定の値に置換し、前記欠損値が前記所定の値に置換された前記複数の企業の前記属性ベクトルにより、機械学習により学習することで企業の将来のイベントの発生を予測するモデルの学習に用いられる、学習用データセット構築するものである。
一実施の形態にかかる企業のイベント予測プログラムは、
複数の期間について収集された、複数の企業に含まれる各企業の複数項目の定量データと各企業の定性情報のそれぞれを分類して数値化した複数項目の定性データと、が格納されたデータベースの前記定量データ及び前記定性データから、特定の項目を読み込んで各企業の属性ベクトルを生成し、かつ、読み込んだ各企業の前記定量データ及び定性データから選択した項目について異なる2つの期間での差分を算出し、各企業の前記属性ベクトルに追加する処理と、
前記定性データに含まれる各企業の実物取引関係を示すデータから、各企業と取引先及び株主とが形成するネットワークのネットワーク統計量を算出して、各企業の属性ベクトルに追加する処理と、
前記定量データ及び定性データから各企業の既出イベントの発生を示すデータを抽出して、各企業の属性ベクトルに追加する処理と、
各企業の属性ベクトルを構成するデータに欠損値が存在する場合、前記欠損値を所定の値に置換し、前記欠損値が前記所定の値に置換された前記複数の企業の前記属性ベクトルにより構築される学習用データセットを機械学習により学習した学習済みモデルを用いて、企業の将来のイベントの発生を予測する処理と、をコンピュータに実行させるものである。
本発明によれば、企業のイベント発生を精度よく予測するモデルを構築することができる。
実施の形態1にかかる企業情報処理装置を実現するためのシステム構成の一例を示す図である。 企業データベースに格納される情報を模式的に示す図である。 決算データベースの例を示す図である。 定量企業情報データベースの例を示す図である。 定性企業情報データベースの例を示す図である。 事業承継データベースの例を示す図である。 相関データベースの例を示す図である。 企業状況データベースの例を示す図である。 実施の形態1にかかる企業情報処理装置の構成を模式的に示す図である。 実施の形態1にかかる企業情報処理装置の学習用データセット構築処理を示すフローチャートである。 相関データベースでの企業間の相関の例を示す。 実施の形態1にかかる企業情報処理装置の構成をより詳細に示す図である。 学習済みモデルにテストデータを入力したイベント予測結果とこれに対応するROC曲線とを示す。
以下、図面を参照して本発明の実施の形態について説明する。各図面においては、同一要素には同一の符号が付されており、必要に応じて重複説明は省略される。
実施の形態1
実施の形態1にかかる企業情報処理装置100について説明する。企業情報処理装置100は、企業の状態を示すデータから、将来的に企業で起こりうる、比較的発生確率が低いイベント(後述する成長イベントや退出イベントなどのレアイベント)を予測するものとして構成される。
図1に、実施の形態1にかかる企業情報処理装置100を実現するためのシステム構成の一例を示す。企業情報処理装置100は、専用コンピュータ、パーソナルコンピュータ(PC)などのコンピュータ110により実現可能である。但し、コンピュータは、物理的に単一である必要はなく、分散処理を実行する場合には、複数であってもよい。図1に示すように、コンピュータ110は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12及びRAM(Random Access Memory)13を有し、これらがバス14を介して相互に接続されている。尚、コンピュータを動作させるためのOSソフトなどは、説明を省略するが、この企業情報処理装置を構築するコンピュータも当然有しているものとする。
バス14には、入出力インターフェイス15が接続されている。入出力インターフェイス15には、入力部16、出力部17、通信部18及び記憶部19が接続される。
入力部16は、例えば、キーボード、マウス、センサなどより構成される。出力部17は、例えば、LCDなどのディスプレイ装置やヘッドフォン及びスピーカなどの音声出力装置により構成される。通信部18は、例えば、ルータやターミナルアダプタなどにより構成される。記憶部19は、ハードディスク、フラッシュメモリなどの記憶装置により構成される。
CPU11は、ROM12に記憶されている各種プログラム、又は記憶部19からRAM13にロードされた各種プログラムに従って各種の処理を行うことが可能である。本実施の形態においては、CPU11は、例えば後述する企業情報処理装置100の各部の処理を実行する。RAM13には、CPU11が各種の処理を実行する上において必要なデータや、CPU11の処理の結果として得られたデータなどを記憶してもよい。
通信部18は、ネットワーク30を介して、サーバ40と双方向の通信を行うことが可能である。通信部18は、CPU11から提供されたデータをサーバ40へ送信したり、サーバ40から受信したデータをCPU11、RAM13及び記憶部19などへ出力することができる。通信部18は、他の装置との間で、アナログ信号又はディジタル信号による通信を行ってもよい。記憶部19はCPU11との間でデータのやり取りが可能であり、情報の保存及び消去を行う。
入出力インターフェイス15には、必要に応じてドライブ20が接続されてもよい。ドライブ20には、例えば、磁気ディスク21、光ディスク22、フレキシブルディスク23又は半導体メモリ24などの記憶媒体が適宜装着可能である。各記憶媒体から読み出されたコンピュータプログラムは、必要に応じて記憶部19にインストールされてもよい。また、必要に応じて、CPU11が各種の処理を実行する上において必要なデータや、CPU11の処理の結果として得られたデータなどを各記憶媒体に記憶してもよい。
続いて、本実施の形態にかかる企業情報処理装置100の構成及び処理について説明する。本実施の形態では、企業情報処理装置100は、企業の状態を示す複数項目の元データが格納された企業データベース(以下、DB)から、特定の項目のデータを選択的に読み込み、かつ、読み込んだデータを用いて新たな項目のデータを生成する。そして、読み込んだデータと、生成した新たな項目のデータと、を結合して、学習用データセットを生成する。
後述するように、本実施の形態において構築される学習用データセットには、複数の期間のそれぞれでの各企業の状態を示す複数項目のデータと、各企業で実際に(過去に)生じたイベントの発生を示すデータと、が含まれる。以下では、各企業で実際に(過去に)生じたイベントの発生を示すデータを、既出イベントデータと称することとする。
例えば、学習用アルゴリズム(プログラム)がこのような学習済みデータセットを学習することで、企業の状態に対応した既出イベントの種類ごとの発生確率を予測する学習済みモデルを得ることができる。こうして得た学習済みモデルに、将来のイベント発生確率を予測する対象となる分析対象企業のデータを入力することで、分析対象企業の将来におけるイベントの発生確率を予測することができる。
図2に、企業DBに格納される情報を模式的に示す。企業DBには、企業を識別するための情報として固有の企業コードFIDが含まれており、各企業の定量データ及び定性データは、この企業コードFIDに紐付けられている。これにより、企業とデータとの対応関係が確保される。企業情報処理装置100は、企業コードFIDを指定し、かつ、データ項目を指定することで、企業コードFIDの対応する1つの企業の所望のデータを読み込むことが可能である。
企業DBから読み込んだ各企業のデータは、企業コードFIDと、企業コードFIDに紐付けられた複数の項目のデータと、で構成される。すなわち、読み込んだ1つの企業のデータは、企業コードFIDと複数項目のデータとを要素とするベクトルとして表現することが可能である。ここでは、1つの企業のデータからなるベクトルを企業の属性ベクトルと称する。
企業DBには、複数の期間の企業の状態を示す計量可能な定量データと、計量できない企業の状態を示す定性データと、が含まれる。本実施の形態では、定性データには、例えば企業の名称などを示すテキストデータや、企業の状態を示す定量データ以外の各種のデータが含まれる。但し、本実施の形態では、各項目の定性データは、定性データを所定の基準で分類し、分類結果に応じて数値コードを割り当てた数値データであるカテゴリ数や、1又は0で表されるダミー変数として表現される。これにより、定性データに含まれる情報を擬似的に数値データとして取り扱うことが可能となる。例えば、企業の業種については業種コード、企業の取引銀行については取引銀行コード、企業の所在地については住所コードや郵便番号によって表してもよい、この分類については、企業DBの提供時に数値コードが割り当てられていてもよいし、企業情報処理装置100が特定の項目の定性データを読み込んで分類処理を行うことで、読み込んだデータを数値データに変換してもよい。
企業DBが収集された時点に最も近い期間を当期とすると、企業DBには、当期、当期の前の期間に対応する前期、前々期及びそれ以前の期間の企業のデータが含まれている。企業情報処理装置100は、読み込むデータの対象期間を特定して、1つ又は複数の期間のデータを必要に応じて読み込むことが可能である。
企業DBに含まれる定量データ(図2の定量DB)には、複数の期間(会計年度)のそれぞれの決算データを示す決算DBが少なくとも含まれる。図3に、決算DBの例を示す。決算DBには、賃借対照表、損益計算書、株主資本等変動計算書(2006年よりも前においては利益処分計算書)に記載された標準的な事項、例えば、売上(図2のSALE)、利益金(図2のPROF)、総資産、負債、配当などの項目が含まれる。
また、定量DBには、各期間の企業の資本金、従業員数、工場数、事業所数、取引金融機関数などの、決算データ以外の計量可能な数値データが含まれている定量企業情報DBが含まれてもよい。図4に、定量企業情報DBの例を示す。
企業DBに含まれる定性データ(図2の定性DB)には、定性企業情報DB、事業承継DB、相関DB及び企業状況DBが少なくとも含まれる。
定性企業情報DBには、商号(図2のTN)、住所(図2のADR)、電話番号、創業年、設立年月、取引金融機関名、取引金融機関店舗名、業種、取り扱い品、代表者に関する情報、役員に関する情報、決算期間、決算年月、上場区分、などのデータが含まれる。図5に、定性企業情報DBの例を示す。これらのデータは、テキスト情報として表現されるものが含まれる。このようなテキストデータについては、上述したように、項目ごとに分類処理を行い、分類結果によって数値コードを付与することで、数値データに変換することが可能である。例えば、商号は企業コードFIDに変換してもよいし、住所は郵便番号などに変換してもよい。また、例えば、取引金融機関は金融機関コードで表してもよいし、業種は業種コードで表してもよい。
事業承継DBには、企業の後継者が存在するかについての情報が含まれる。図6に、事業承継DBの例を示す。後継者の有無が不明である場合には、後継者が不詳であると定義してもよい。既に後継者が存在する場合には、例えば同族継承、内部昇進、外部招聘などの後継者の属性を示す情報を含んでもよい。未だ後継者が存在しない場合には、今後後継者が企業内で育成される、後継者が外部招聘される、対象企業が他の企業に合併される予定がある、廃業又は解散の予定がある、現在の代表者が若年であるため近い将来の後継者が必要ないなどの事情、後継者については未定である、又は、その他の事情などを示す情報を含んでもよい。後継者が存在しない場合であって、将来的に後継者を外部招聘する場合には、後継者となる人材のみを招聘するのか、又は、後継者の出身元が資本参加もするのかなどの情報を含んでいてもよい。これらの事業承継に関する情報は分類され、例えば分類結果に応じて承継コード値BCが付与される。
相関DBには、企業間の販売関係及び仕入関係からなる実物取引にかかる情報と、企業間の資本関係を示す情報と、が含まれる。図7に、相関DBの例を示す。ここでは、相関DBは、企業間の実物取引にかかる情報として、取引先コードTIDと、販売関係、仕入関係及び株主関係を示す相関区分SOKと、を含む。例えば、企業コードFIDで示される企業にとって、取引先が製品やサービスの供給者(サプライヤ)である場合には、相関区分SOKの値は1となる。企業コードFIDで示される企業にとって、取引先の顧客(カスタマー)である場合には、相関区分SOKの値は2となる。取引先が企業コードFIDで示される企業の株主である場合には、相関区分SOKの値は3となる。なお、ここで説明した相関区分SOKの値は例示に過ぎず、企業と取引先との他の相関に相関区分SOKの値を割り当ててもよい。
企業状況DBは、企業の各期について、企業の状態を示すステータスSTが企業コードFIDと結びつけられて格納されている。図8に、企業状況DBの例を示す。本実施の形態では、企業の状況を分類するために、ステータスSTには0〜6の値が割り当てられる。例えば、各企業のステータスは、以下のように定義される。

ST=0:存続
ST=1:倒産(負債額小)
ST=2:倒産(負債額大)
ST=3:自主廃業
ST=4:休眠
ST=5:他の企業に合併(被合併)
ST=6:解散

以上の定義によれば、ある企業が存続している場合のステータスSTの値は0であるが、何らかのネガティブベントが生じている場合にはステータスSTの値は1〜6となる。
企業情報処理装置100は、企業DBの定量データ(定量DB)及び定性データ(定性DB)から、学習用データセットを構築するために複数の項目のデータを読み込む。ここで、各企業の属性ベクトルに含まれる定量データの項目数(次元)をN1、定性データの項目数(次元)をN2とすると、各企業の属性ベクトルの次元は(N1+N2)となる。
属性ベクトルによって企業の実態をなるべく詳細に表現するには、当然のことながら、属性ベクトルの次元を増やすことが望ましい。属性ベクトルを高次元化できれば、企業の複雑な実態を表現する特徴をより多く取り込むことができ、機械学習により得られる学習済みモデルによるイベント予測精度の向上が期待される。
そのため、企業情報処理装置100は、読み込んだデータを用いて新たなデータを生成して属性ベクトルに追加することで、属性ベクトルの次元を増加させる処理を行う。以下、具体的に説明する。
図9に、実施の形態1にかかる企業情報処理装置100の構成を模式的に示す。企業情報処理装置100は、ハードウェア上では、各処理は実際にはソフトウェアと上記CPU11などのハードウェア資源とが協働して実現される。企業情報処理装置100は、計算処理部1、相関処理部2、イベント抽出部3及び欠損値処理部4を有する。
図10に、実施の形態1にかかる企業情報処理装置100の学習用データセット構築処理を示すフローチャートを示す。企業情報処理装置100は、例えば記憶部19に格納された定性データ及び定量データを必要に応じて読み出すことが可能に構成される。ここでは、必要な定性データ及び定量データを予め読み出す(図10のステップS0)ものとして説明する。
ステップS1;計算処理
計算処理部1は、定量データ及び数値化された定性データに含まれるデータの各項目について、2つの期間の間での各項目の差分を計算する。計算対象となる期間を対象期間T1とすると、計算処理部1は、対象期間T1の定量データの所定の項目と、対象期よりも前の期間T2の同一項目のデータとを参照し、2つの期間の間での各項目の差分を計算する。
例えば、対象期間T1の定量データの各項目には、売上などの数値計算が可能なn個のデータ項目DAT1_1〜DAT1_nが含まれる。但し、nは1以上の整数である。なお、対象期間T1の定量データには、DAT1_1〜DAT1_n以外の、差分計算に用いられない項目の数値データが含まれてもよいことは言うまでもない。
同様に、期間T2の定量データには、売上などの数値計算が可能なn個のデータ項目DAT2_1〜DAT2_nが含まれる。なお、期間T2の定量データにも、DAT2_1〜DAT2_n以外の、差分計算に用いられない項目の数値データが含まれてもよいことは言うまでもない。
計算処理部1は、対象期間T1に追加されるデータとして、差分ΔD1(T1)_1〜ΔD1(T1)_nを計算する。kを1以上n以下の整数(1≦k≦n)とすると、差分ΔD1(T1)_kは、以下の式で表される。

ΔD1(T1)_k=DAT1_k−DAT2_k [1]
計算処理部1は、各期間について、式[1]を用いて差分を計算する。そして、算出した差分を、対応する企業の属性ベクトルに新たな項目のデータとして追加する。これにより、属性ベクトルの次元を増加させることができる。
また、計算処理部1は、算出した差分の差分を、2つの期間の間でさらに算出してもよい。ここでは、期間T2よりも更に前の期間をT3とする。つまり、計算処理部1は、対象期間T1のデータに追加された差分ΔD1(T1)_1〜ΔD1(T1)_nと、前の期間T2のデータに追加されたΔD1(T2)_1〜ΔD1(T2)_nとの差分ΔD2(T1)_1〜ΔD2(T1)_nをそれぞれ計算する。
なお、期間T3のn個のデータ項目をDAT3_1〜DAT3_nとすると、期間T2に追加された差分ΔD1(T2)_kは、当然のことながら、以下の式で表される。

ΔD1(T2)_k=DAT2_k−DAT3_k [2]
この場合、差分ΔD2(T1)_kは、以下の式で表される。

ΔD2(T1)_k=ΔD1(T1)_k−ΔD1(T2)_k [3]
計算処理部1は、各期間について、式[3]を用いて差分を更に計算する。そして、更に算出した差分を、対応する企業の属性ベクトルに新たな項目のデータとして追加する。これにより、定量ベクトルの次元を更に増加させることができる。
以上の差分計算処理により、各企業の属性ベクトルには、期間ごとに取得した定量データだけでなく、期間を跨いだ各項目の値の変動を示す新たな項目のデータが追加されることとなる。これにより、直近の企業の情報だけではなく、そこに至る時間的経緯を、観察可能な値の変化(一次微分値)と、観察可能な変化の変化(二次微分値)とを算出して、属性の時系列情報を余すところなく予測に用いることが可能となる。その結果、期間の相違による、売上などの定量データの変動が表現する企業の状態の経時変化を示す情報を、属性ベクトルに取り込むことができる。
なお、計算処理部1は、上述の差分計算の他にも、以下の計算処理を行ってもよい。計算処理部1は、読み込んだ定量データ及び定性データを用いて、例えば同一市区町村内に所在する企業の平均的な売上高成長率及び同一産業に属する企業の平均的な売上高成長率を算出し、対応する属性ベクトルに新たな項目のデータとして追加してもよい。
これにより、対象企業の周辺に所在する企業や同業他社の動向が対象企業の動向に対して影響する場合を考慮した情報を属性ベクトルに加えることができる。これは、対象企業のみに着目しては得られない情報であり、その結果、モデル学習のときに対象企業の立地及び業種による影響を反映させる加味することができる。
ステップS2:相関処理
相関処理部2は、相関情報に含まれるデータ参照し、各企業と取引先企業との相関を示す情報を属性ベクトルに取り込む。
まず、相関処理部2は、相関データを参照して、ある対象企業の取引先を、仕入れ先、顧客、株主に分類する。そして、仕入れ先、顧客及び株主のそれぞれに属する取引先の定量データを参照する。つまり、相関処理部2は、取引先コードTIDと同じ企業コードFIDを検索し、検索した企業コードFIDに対応する企業の定量データを参照する。そして、仕入れ先、顧客及び株主のそれぞれに属する複数の取引先の定量データの各項目について、最大値、最小値、平均値及び合計値などの統計量を計算する。そして、計算した値を、対象企業の定量データに追加する。
なお、相関DBでは、対象企業のコードが取引先コードTIDに含まれる場合も考え得る。図11に、相関DBでの企業間の相関の例を示す。図11では、対象企業を企業A(FID=1)とし、対象企業と取引関係又は資本関係を有する2つの企業B(FID=2)及び企業C(FID=3)を想定する。
図11に示すように、企業Aが企業Bに製品を販売している場合、矢印線AR1で表される取引は、FID=1(企業A)、TID=2(企業B)及びSOK=2(販売先)で定義される。これに対し、企業Cが企業Aに製品を販売している場合、矢印線AR2で表される取引は、FID=3(企業C)、TID=1(企業A)及びSOK=2(販売先)で定義される。
この場合、矢印線AR2にかかる取引を企業Aの側から見た場合、企業Bは製品の仕入れ先となる。よって、矢印線AR2にかかる取引は、FID=1(企業A)、TID=3(企業C)及びSOK=1(仕入先)とで定義される矢印線AR3に変換することができる。
この取引関係の変換は、以下のような意義を有する。矢印線AR2で示される取引関係が存在する場合、理想的には、企業Aの企業コードFID=1を参照したときに、矢印線AR3で示される取引データ(TID=3、SOK=1)が相関DBに含まれると考えられる。しかしながら、企業Aの企業規模が大きい場合には、相関DBは企業Aの全取引関係及び資本関係を網羅することは難しい。そのため、企業Aについては大規模な取引が優先的に相関DBに取り込まれ、例えば企業Cとの間の小規模の取引は相関DBでは省略されることが考え得る。この場合、企業Cとの間の小規模な取引は実際に存在する取引であるにもかかわらず、学習用データセットには反映されないこととなる。
しかし、企業Aにとっては企業Cとの取引は無視し得るほど小規模であっても、企業Cの企業規模が小さい場合には、企業Aとの取引は企業Cにとっては無視し得ない規模であることが考え得る。この場合、企業DBにおいて企業Cの企業コードFID=3を参照すると、矢印線AR3の取引が存在することを検知できる。
このとき、矢印線AR2の取引を矢印線AR3に変換することで、企業DBで省略されていた企業Aの企業コードFIDを参照しても検知できなかった企業Cとの取引関係を、企業の属性ベクトルに追加することが可能となる。その結果、対象企業と取引関係が存在する企業をさらに抽出することが可能となり、より広い範囲での相関関係を解析することが可能となる。
これにより、属性ベクトルの次元を拡張できるとともに、属性ベクトル空間に対象企業自体の属性とは異なる、取引企業に起因する外的要因を取り込むことが可能となる。その結果、対象企業の属性と取引関係にある企業の動向が対象企業の動向への影響を、モデルの学習に反映させ得ることができる。
また、相関処理部2は、相関データを参照し、対象企業の取引先を1次取引先と定義すし、取引先の取引先を2次取引先と定義する。なお、相関処理部2は、取引先コードTIDと同じ企業コードFIDを検索し、検索した企業コードFIDの取引先を2次取引先として定義することができる。これにより、相関処理部2は、対象企業、1次取引先及び2次取引先で構成されるネットワークを分析することが可能となる。
例えば、販売先に着目することで企業の販売ネットワークを構築したり、仕入先に着目することで企業間のサプライチェーンを構築したり、株主に着目することで企業間の資本関係を把握することが可能となる。さらに、分析対象のネットワークにおいて、一時取引先群および二次取引先群の平均的な属性、属性の最大値及び最小値などを計算することで取引ネットワークの属性を代理する変数を構築できるほか、個々の対象企業に関する次数中心性や固有ベクトル中心性などのネットワーク統計量を計算することで、新たな定量データを得ることができる。相関処理部2は、対象企業の定量データに、算出したネットワーク統計量を新たな定量データとして追加してもよい。これにより、取引関係を示すネットワークにおける対象企業の位置を示す情報を属性ベクトルに取り込むことができる。
さらに、相関処理部2は、事業承継DB(例えば、コードBC)を読み込み、各企業の属性ベクトルに追加する。これにより、後継者の有無などの将来の企業のイベントの発生に大きく影響すると考え得る特徴を、各企業の属性ベクトルに取り込むことができる。
ステップS3:イベント抽出
イベント抽出部3は、対象企業の定量データから特定のデータを読み込み、企業の成長イベントと退出イベントとを抽出する。
まず、成長イベントの抽出について説明する。イベント抽出部3は、対象企業の定量データから、特定のデータ(例えば、売上、利益、従業員数及び労働生産性)を読み込み、期を跨いで値の変動が所定値よりも大きいかを判定する。
イベント抽出部3は、2つの期の対象データを読み込み、2つの期の間の差分ΔGを計算する。また、イベント抽出部3は、対象データに含まれる企業での平均値AVEと標準偏差σを計算する。なお、平均値AVEと標準偏差σの算出に用いられる企業は、例えば対象企業と同じ業種の企業など、特定の分類に属する企業を選択してもよい。そして、差分ΔGが、算出した平均値AVEと標準偏差σとを加算した値よりも大きい場合(ΔG>AVE+σ)には、対象企業の対象データについて顕著な成長イベントが発生したものとして、対象データについての成長イベント発生を示す成長フラグデータを生成する。例えば、ΔG>AVE+σの場合には成長フラグデータを「1」とし、それ以外の場合には成長フラグデータを「0」としてもよい。イベント抽出部3は、対象データに対応する成長フラグデータを、企業の属性ベクトルに追加する。
なお、データを読み込む2つの期は、例えば隣接する2つの期であってもよい。この場合には、例えば売上、利益、従業員数及び労働生産性などの短期間での成長イベントを抽出することができる。また、データを読み込む2つの期は、例えば2期以上離れた2つの期であってもよい。この場合には、例えば売上、利益、従業員数及び労働生産性などの長期間での成長イベントを抽出することができる。
更に、短期間の成長イベントと長期間の成長イベントとを併せて抽出してもよい。例えば、短期間の成長イベント及び長期間の成長イベントが両方とも抽出された場合、比較的急激に、かつ、継続的に成長したことが予想される。また、例えば、短期間の成長イベントが抽出されず、かつ、長期間の成長イベントが抽出された場合、緩やかな成長が継続したことが予想される。さらに、短期間の成長イベントが抽出され、かつ、長期間の成長イベントが抽出されない場合、成長は一時的なものであったことが予想される。
次いで、退出イベントの抽出について説明する。イベント抽出部3は、企業状況DBから、各企業について、隣接する2つの期のステータスSTを読み込み、2つの期の間でのステータスSTの変化を抽出する。上述の通り、本実施の形態では、ステータスSTには0〜6の値が割り当てられる。
この場合、ある企業が存続している場合のステータスSTの値は0であるが、その後にイベントが発生すると、翌期のステータスSTの値は1〜6となる。よって、ステータスSTの値の変化を検出することで、イベントの種類と発生時期とを特定することができる。
イベント抽出部3は、読み込んだステータスを企業コードFIDと結びつけて、各企業の属性ベクトルに追加する。
本実施の形態では、倒産を負債額の多寡によって別のイベントとして分けている。これは、学習済みモデルを用いて企業の将来のイベント予測を行うに際し、生じ得る企業の倒産のインパクトをも予測できる点で有用である。
ステップS4:欠損値処理
欠損値処理部4は、各企業の属性ベクトルに含まれるデータ項目のうち、値が欠損している項目(NULLが入っている項目など)を抽出する。欠損値処理部4は、抽出した項目のデータとして所定の値を割り当てることで、欠損データを補完する。本実施の形態においては、欠損値処理部4は、抽出した項目の値として「0」を割り当てるものとする。これにより、欠損値の存在にかかわらず、全企業の属性ベクトルの全データを数値データとして扱うことができるので、欠損値によるエラー発生を防止することができる。
また、欠損値処理部4は、抽出した項目が欠損値であるか否かを示すダミー変数(フラグデータ)を生成する。例えば、欠損値を有するものとして抽出された項目についてはダミー変数として「1」を割り当て、データが欠損していない項目についてはダミー変数として「0」を割り当てる。そして、欠損値処理部4は、各項目について生成したダミー変数を、各企業の属性ベクトルに追加する。これにより、欠損値が含まれるデータをも分析に使用できるようできるだけでなく、「データが存在しない(欠損値が有る)」という事実自体を企業の特徴付けに用いることができる。例えば、対象企業の業種によっては、特定に項目についてデータが得られにくいケースが考え得る。この場合、欠損値の存在と属性として取り込むことで、こうした業種特有の影響を考慮した解析を行うことができる。なお、ここでは例として企業の業種を挙げたが、欠損値の存在を検出する項目はこれに限られるものではない。
欠損値処理部4は、欠損値の補完とダミー変数の生成及び追加を完了したならば、複数の企業の属性ベクトルの集合からなるデータセットを、学習用データセットLDSとして出力する。このとき、学習用データセットLDSは、ROM12又は記憶部19に格納されてもよいし、必要に応じてRAM13に一時的に格納されてもよい。また、学習用データセットLDSは、必要に応じて、ドライブ20を介して磁気ディスク21、光ディスク22、フレキシブルディスク23及び半導体メモリ24などに書き込まれてもよい。
続いて、学習用データセットLDSを学習した予測モデルついて説明する。図12は、実施の形態1にかかる企業情報処理装置100の構成をより詳細に示す図である。図2においては、企業情報処理装置100のうちで学習用データセットLDSの構築かかる構成について示したが、図12では、企業情報処理装置100は機械学習部5及び予測処理部6を更に有する。
上述したように、学習用データセットLDSでは、企業DBから読み込んだデータから差分などのデータを生成して、各企業のベクトルに追加した。これにより、属性ベクトルの高次元化がなされている。こうした高次元の属性ベクトルからパラメトリックな予測モデルを推定するのは、上述した多重共線性の問題のために、原理的に困難である。
そこで、本実施の形態では、高次元ベクトルからなる独立変数について、どの変数に対してどの程度のウェイトを置くべきかを、ノンパラメトリックモデルを前提として自動的に探索する機械学習手法を用いることで、イベントの予測モデルを同定する。
また、本実施の形態では、予測する対象がレアイベントであるため、予測モデルの同定に用いる学習用データセットLDSに含まれるポジティブデータ数(予測対象のレアイベントに直面した企業の数)が、ネガティブデータ数(予測対象のレアイベントに直面していない企業の数)よりも圧倒的に少ない。そのため、ポジティブデータ数とネガティブデータ数の不均衡を放置したまま機械学習手法を用いてモデルを同定したとしても、予測対象のレアイベントの将来の発生を検出するには不十分なモデルが得られることが予想される。例えば、モデルの予測精度に寄与するポジティブデータの影響が圧倒的となるため、予測対象イベントが将来にわたって発生しないことを予測するモデルが得られてしまうことが考え得る。
そこで、本実施の形態では、レアイベントの将来の発生を検出する精度を向上させるため、予測対象イベントに直面した企業のデータに所定の重みを与える。これにより、ポジティブデータ数とネガティブデータ数を均衡させて(揃えて)から、機械学習を行う。
具体的には、学習用データセットLDSを構成している属性ベクトルの総数(すなわち、対象企業数)をNtotal、そのうちでレアイベントが生じている企業の数をNrare
レアイベントが生じていない企業の数をNnonrareとする。ここでは、レアイベントとして衰退イベントを検出するものとし、企業コードFIDに紐付けられた企業のステータスFSが1〜6である場合をレアイベント発生として取り扱う。

nonrare=Ntotal−Nrare
本実施の形態では、レアイベントが発生した企業に付与する重みをWrare_i(iは、1〜Nrareの整数)、レアイベントが発生していない企業に付与する重みを nonrare_j(jは、1〜Nnonrareの整数)としたときに、重みの合計Wsumが1となるように重みを設定する。
Figure 0006611068
以上説明したように重みを設定することで、予測モデルにおいて、レアイベントが生じている企業のデータによる影響と、レアイベントが生じていない企業のデータによる影響と、を同等にすることが可能となる。
本実施の形態では、機械学習アルゴリズムとして、いわゆるランダムフォレストを用いて、更に上述した重みを適用して学習済みモデルを構築する。但し、機械学習アルゴリズムはこれに限られるものではなく、分類器(学習済みモデル)を提供できる各種の機械学習アルゴリズムを適宜適用できることは言うまでもない。
上述の通り、構築した学習様データセットには、各企業について様々な項目のデータが含まれている。よって、学習を行うにあたっては、学習に用いるデータを適宜選択し、異なる条件を適用した学習済みモデルを複数構築することができる。
学習済みモデルについては、各種の評価手法を用いて評価(テスト)することができる。例えば、企業DBに含まれるデータを、学習に用いるデータセットの構築に供するトレーニングデータと、テストに用いるテストデータとに分け、学習済みモデルにテストデータを入力する。そして、学習済みモデルによる対象企業のイベント発生の予測結果と、テストデータに含まれる実際のイベント発生とを比較し、予測精度を評価することができる。
例えば、異なる条件で構築した学習済みモデルに対して同じテストデータを入力して、イベント予測精度を比較することで、用途に対応した学習済みモデルを選択することができる。このように選択した学習済みモデルを用いて企業のイベント発生を予測することで、予測対象企業のイベント予測精度を向上させることができる。
予測処理部6は、別途収集した予測対象企業のデータを、選択された学習済モデルに適用して、予測対象企業のレアイベント発生を予測する。例えば、本実施の形態では、退出イベントを予測するものとし、退出イベントについては倒産(負債額小)、倒産(負債額大)、自主廃業、休眠、他の企業に合併(被合併)及び解散の各イベントに分類した。したがって、学習済モデルを発生する退出イベントの分類器として用いることで、退出イベントごとの発生確率を算出することが可能である。
次いで、本実施の形態にかかる企業情報処理装置100による企業の将来イベント予測の効果について検討する。本実施の形態では、企業DBに元々含まれているデータだけでなく、与えられたデータを加工して得られた新たなデータを企業の属性ベクトルに加えている。ここでは、企業DBに元々含まれているデータを原データ、計算処理部1によって求められた差分や差分の差分などのデータを差分データ、相関DBによって求められてネットワーク統計量をネットワークデータと称する。
上記の学習モデルを用いて企業の廃業予測を行い、予測精度に対する各データ項目の寄与度(importance)を調査した。そのうち、予測精度への寄与が大きい上位100個の項目を抽出したところ、原データが68項目、差分データが13項目、ネットワークデータが19項目となった。このように、上位100項目のうち、本実施の形態にかかる企業情報処理装置100によって新たに導入されたデータ項目が32項目含まれていることが確認できた。よって、企業の廃業予測において、原データのみならず、企業情報処理装置100によって新たに導入されたデータ項目が予測精度の向上に貢献していることが理解できる。
本実施の形態にかかる企業情報処理装置100による企業の将来イベント予測の予測精度についてさらに検討する。ここでは、本実施の形態にかかる学習済みデータにテストデータを入力してイベント予測を行った結果を、ROC(Receiver Operating Characteristics :受信者操作特性)曲線及びROC曲線下の面積(AUC:Area Under the Curve)によって評価する。
図13に、学習済みモデルにテストデータを入力したイベント予測結果とこれに対応するROC曲線とを示す。図13では、予測の結果得られたイベント発生なしの場合(陰性:negative)を破線Nで示し、イベントが発生する場合(陽性:positive)を実線Pで示した。
ROC曲線は、真陽性の割合と偽陽性の割合とて定義される点が描く軌跡に対応する曲線である。ROC曲線の縦軸は真陽性の割合(True Positive Rate)であり、予測結果の横軸上に設定した閾値以上の範囲におけるpositiveを示す実線Pと横軸とに囲まれる部分の面積に対応する。ROC曲線の横軸は偽陽性の割合(False Positive Rate)であり、予測結果の横軸上に設定した閾値以上の範囲におけるnegativeを示す破線Nと横軸とに囲まれる部分の面積に対応する。
例として、ROC曲線の横軸上に閾値THを設定し、閾値THに対応するROC曲線上の点Pを示した。点Pにおける真陽性の割合(True Positive Rate)TPR1は、予測結果の横軸上に設定した閾値TH以上の範囲におけるpositiveを示す実線Pと横軸とに囲まれる部分(細線ハッチングが施された部分)の面積に対応する。点Pにおける偽陽性の割合(False Positive Rate)FPR1は、予測結果の横軸上に設定した閾値TH以上の範囲におけるnegativeを示す破線Nと横軸とに囲まれる部分(太線ハッチングが施された部分)の面積に対応する。
AUCは、ROC曲線よりも下の部分(ハッチングが施された部分)の面積である。一般に、事象の発生がランダムである場合には0.5となり、イベントの発生及び未発生の予測精度が高くなるほど1に近づく。
AUCを用いて本実施の形態にかかる学習済みモデルによる企業の将来イベントの予測精度を評価すると、AUCの値は概ね0.80〜0.85となり、良好な精度であることが確認された。
これに対し、比較例として、企業の信用評点を用いたプロビットモデルによるイベント予測結果を検討した。この場合のAUCは0.60〜0.65程度となった。
以上より、本実施の形態にかかる企業情報処理装置100によれば、企業の将来イベント発生の予測を高精度に行えることが理解できる。
なお、AUCによる予測精度の評価については、複数の学習済みモデル間の予測精度の比較にも適用できることは、言うまでもない。
その他の実施の形態
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上述の実施の形態では、欠損値を置換する値として「0」を用いたが、これは例示に過ぎず、適宜他の値で欠損値を置換してもよい。
上記で説明した企業情報処理装置が実行する処理は、ASIC(Application Specific Integrated Circuit)を含む半導体処理装置を用いて実現されてもよい。また、これらの処理は、少なくとも1つのプロセッサ(e.g. マイクロプロセッサ、MPU、DSP(Digital Signal Processor))を含むコンピュータシステムにプログラムを実行させることによって実現されてもよい。具体的には、これらの送信信号処理又は受信信号処理に関するアルゴリズムをコンピュータシステムに行わせるための命令群を含む1又は複数のプログラムを作成し、当該プログラムをコンピュータに供給すればよい。
これらのプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
1 計算処理部
2 相関処理部
3 イベント抽出部
4 欠損値処理部
5 機械学習部
6 予測処理部
11 CPU
12 ROM
13 RAM
14 バス
15 入出力インターフェイス
16 入力部
17 出力部
18 通信部
19 記憶部
20 ドライブ
21 磁気ディスク
22 光ディスク
23 フレキシブルディスク
24 半導体メモリ
30 ネットワーク
40 サーバ
100 企業情報処理装置
110 コンピュータ
BC コード値
FID 企業コード
LDS 学習用データセット
SOK 相関区分
TID 取引先コード

Claims (10)

  1. 複数の期間について収集された、複数の企業に含まれる各企業の複数項目の定量データと各企業の定性情報のそれぞれを分類して数値化した複数項目の定性データと、が格納されたデータベースの前記定量データ及び前記定性データから、特定の項目を読み込んで各企業の属性ベクトルを生成し、かつ、読み込んだ各企業の前記定量データ及び定性データから選択した項目について異なる2つの期間での差分を算出し、各企業の前記属性ベクトルに追加する計算処理部と、
    前記定性データに含まれる各企業の実物取引関係を示すデータから、各企業と取引先及び株主とが形成するネットワークのネットワーク統計量を算出して、各企業の属性ベクトルに追加する相関処理部と、
    前記定量データ及び定性データから各企業の既出イベントの発生を示すデータを抽出して、各企業の属性ベクトルに追加するイベント抽出部と、
    各企業の属性ベクトルを構成するデータに欠損値が存在する場合、前記欠損値を所定の値に置換し、前記欠損値が前記所定の値に置換された前記複数の企業の前記属性ベクトルから、機械学習により学習することで企業の将来のイベントの発生を予測するモデルの学習に用いられる学習用データセットを構築する欠損値処理部と、を備える、
    企業情報処理装置。
  2. 前記計算処理部は、前記定量データ及び定性データから選択した項目について、異なる2つの期間での第1の差分を算出し、前記第1の差分の算出に用いたのとは異なる2つの期間での第2の差分を算出し、かつ、前記第1の差分と前記第2の差分との間の第3の差分を算出して、各企業の前記属性ベクトルに追加する、
    請求項1に記載の企業情報処理装置。
  3. 前記欠損値処理部は、各企業の属性ベクトルの各項目が欠損値であるかを示す新たな項目のデータを生成し、生成した項目のデータを各企業の前記属性ベクトルに追加する、
    請求項1又は2に記載の企業情報処理装置。
  4. 前記学習用データセットを機械学習する機械学習部を更に備え、
    前記機械学習部は、前記既出イベントが発生した企業の前記属性ベクトルに第1の重みを付与し、前記既出イベントが発生していない企業の前記属性ベクトルに前記第1の重みよりも小さな第2の重みを付与して、機械学習を行う、
    請求項1乃至3のいずれか一項に記載の企業情報処理装置。
  5. 前記既出イベントが発生した企業の数に前記第1の重みを乗じた値と、前記既出イベントが発生していない企業の数に前記第2の重みを乗じた値と、の和は1である、
    請求項4に記載の企業情報処理装置。
  6. 前記第1の重みは、前記既出イベントが発生した企業の数に2を乗じた値の逆数であり、
    前記第2の重みは、前記既出イベントが発生していない企業の数に2を乗じた値の逆数である、
    請求項5に記載の企業情報処理装置。
  7. 前記モデルを用いて企業の将来のイベントの発生を予測する予測処理部を更に有する、
    請求項4乃至6のいずれか一項に記載の企業情報処理装置。
  8. 計算処理部によって、複数の期間について収集された、複数の企業に含まれる各企業の複数項目の定量データと各企業の定性情報のそれぞれを分類して数値化した複数項目の定性データと、が格納されたデータベースの前記定量データ及び前記定性データから、特定の項目を読み込んで各企業の属性ベクトルを生成し、かつ、読み込んだ各企業の前記定量データ及び定性データから選択した項目について異なる2つの期間での差分を算出し、各企業の前記属性ベクトルに追加し、
    相関処理部によって、前記定性データに含まれる各企業の実物取引関係を示すデータから、各企業と取引先及び株主とが形成するネットワークのネットワーク統計量を算出して、各企業の属性ベクトルに追加し、
    イベント抽出部によって、前記定量データ及び定性データから各企業の既出イベントの発生を示すデータを抽出して、各企業の属性ベクトルに追加し、
    各企業の属性ベクトルを構成するデータに欠損値が存在する場合、欠損値処理部によって、前記欠損値を所定の値に置換し、前記欠損値が前記所定の値に置換された前記複数の企業の前記属性ベクトルから、機械学習により学習することで企業の将来のイベントの発生を予測するモデルの学習に用いられる学習用データセットを構築し、
    予測処理部が、機械学習部による機械学習によって前記学習用データセットを学習した学習済みモデルを用いて、企業の将来のイベントの発生を予測する、
    企業のイベント予測方法。
  9. 複数の期間について収集された、複数の企業に含まれる各企業の複数項目の定量データと各企業の定性情報のそれぞれを分類して数値化した複数項目の定性データと、が格納されたデータベースの前記定量データ及び前記定性データから、特定の項目を読み込んで各企業の属性ベクトルを生成し、かつ、読み込んだ各企業の前記定量データ及び定性データから選択した項目について異なる2つの期間での差分を算出し、各企業の前記属性ベクトルに追加する処理と、
    前記定性データに含まれる各企業の実物取引関係を示すデータから、各企業と取引先及び株主とが形成するネットワークのネットワーク統計量を算出して、各企業の属性ベクトルに追加する処理と、
    前記定量データ及び定性データから各企業の既出イベントの発生を示すデータを抽出して、各企業の属性ベクトルに追加する処理と、
    各企業の属性ベクトルを構成するデータに欠損値が存在する場合、前記欠損値を所定の値に置換し、前記欠損値が前記所定の値に置換された前記複数の企業の前記属性ベクトルにより構築される学習用データセットを機械学習により学習した学習済みモデルを用いて、企業の将来のイベントの発生を予測する処理と、をコンピュータに実行させる、
    企業のイベント予測プログラム。
  10. 複数の期間について収集された、複数の企業に含まれる各企業の複数項目の定量データと各企業の定性情報のそれぞれを分類して数値化した複数項目の定性データと、が格納されたデータベースの前記定量データ及び前記定性データから、特定の項目を読み込んで各企業の属性ベクトルを生成し、かつ、読み込んだ各企業の前記定量データ及び定性データから選択した項目について異なる2つの期間での差分を算出し、各企業の前記属性ベクトルに追加する処理と、
    前記定性データに含まれる各企業の実物取引関係を示すデータから、各企業と取引先及び株主とが形成するネットワークのネットワーク統計量を算出して、各企業の属性ベクトルに追加する処理と、
    前記定量データ及び定性データから各企業の既出イベントの発生を示すデータを抽出して、各企業の属性ベクトルに追加する処理と、
    各企業の属性ベクトルを構成するデータに欠損値が存在する場合、前記欠損値を所定の値に置換し、前記欠損値が前記所定の値に置換された前記複数の企業の前記属性ベクトルにより構築される学習用データセットを機械学習により学習した学習済みモデルを用いて、企業の将来のイベントの発生を予測する処理と、をコンピュータに実行させる、
    企業のイベント予測方法。
JP2019028276A 2019-02-20 2019-02-20 企業情報処理装置、企業のイベント予測方法及び予測プログラム Active JP6611068B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019028276A JP6611068B1 (ja) 2019-02-20 2019-02-20 企業情報処理装置、企業のイベント予測方法及び予測プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019028276A JP6611068B1 (ja) 2019-02-20 2019-02-20 企業情報処理装置、企業のイベント予測方法及び予測プログラム

Publications (2)

Publication Number Publication Date
JP6611068B1 true JP6611068B1 (ja) 2019-11-27
JP2020135434A JP2020135434A (ja) 2020-08-31

Family

ID=68691993

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019028276A Active JP6611068B1 (ja) 2019-02-20 2019-02-20 企業情報処理装置、企業のイベント予測方法及び予測プログラム

Country Status (1)

Country Link
JP (1) JP6611068B1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023119460A1 (ja) * 2021-12-22 2023-06-29 日本電気株式会社 質問予測システム、質問予測方法およびプログラム記録媒体
JP7286121B1 (ja) 2022-09-20 2023-06-05 国立大学法人一橋大学 情報処理装置、モデル構築方法及びモデル構築プログラム

Also Published As

Publication number Publication date
JP2020135434A (ja) 2020-08-31

Similar Documents

Publication Publication Date Title
Chen et al. Predicting customer churn from valuable B2B customers in the logistics industry: a case study
JP4358475B2 (ja) 信用評価システム
Antunes et al. Firm default probabilities revisited
JP6667865B1 (ja) 会計情報処理装置、会計情報処理方法及び会計情報処理プログラム
CN104321794A (zh) 一种使用多维评级来确定一实体的未来商业可行性的***和方法
CN113283795B (zh) 基于二分类模型的数据处理方法及装置、介质、设备
JP6611068B1 (ja) 企業情報処理装置、企業のイベント予測方法及び予測プログラム
JP2016522933A (ja) 債務不履行となる企業の蓋然性の計算
Urazbaeva et al. The analysis of COVID-19 impact on the internet and telecommunications service sector through modelling the dependence of shares of Russian companies on the American stock market
KR20180013102A (ko) 신용도를 평가하는 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
CN113506173A (zh) 一种信用风险评估方法及其相关设备
Kakad et al. Employee attrition prediction system
CA3069987A1 (en) System and method for detecting and responding to transaction patterns
CN117114812A (zh) 一种针对企业的金融产品推荐方法及装置
US20210117828A1 (en) Information processing apparatus, information processing method, and program
Ramezanzadeh Zeidi et al. The Role of Earnings Management in Theoretical Development and Improving the Efficiency of Accounting-Based Financial Distress Prediction Models
US20230385936A1 (en) Information processing device, information processing method, and program
Kazemi et al. Estimation of optimum thresholds for binary classification using genetic algorithm: An application to solve a credit scoring problem
Baroud et al. Data-driven methods for the risk analysis of global supply chains
JP7286121B1 (ja) 情報処理装置、モデル構築方法及びモデル構築プログラム
Khedr et al. A New Prediction Approach for Preventing Default Customers from Applying Personal Loans Using Machine Learning
Kubenka et al. Implementation of standards into predictors of financial stability
Kanimozhi et al. Predicting Mortgage-Backed Securities Prepayment Risk Using Machine Learning Models
WO2023144949A1 (ja) リスク対処支援装置、学習装置、リスク対処支援方法、学習方法及びプログラム
JP2002197268A (ja) ローン管理システム、その方法及びコンピュータシステムにローンの管理を行わせるためのコンピュータソフトウエアプログラム製品

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190313

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190327

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190327

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20190313

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20190508

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190709

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191008

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191018

R150 Certificate of patent or registration of utility model

Ref document number: 6611068

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250