JP7286121B1

JP7286121B1 - 情報処理装置、モデル構築方法及びモデル構築プログラム

Info

Publication number: JP7286121B1
Application number: JP2022149139A
Authority: JP
Inventors: 大介宮川; 優希柳岡; 風香三浦; 禎之荒田
Original assignee: 国立大学法人一橋大学; 株式会社東京商工リサーチ
Priority date: 2022-09-20
Filing date: 2022-09-20
Publication date: 2023-06-05
Anticipated expiration: 2042-09-20
Also published as: JP2024043903A

Abstract

【課題】企業間の取引を推定することができる情報処理装置、モデル構築方法及びモデル構築プログラムを提供する。【解決手段】データ読込部１は、企業データＣＰＲと、取引データＴＲＤと、を読み込む。データ構築部２は、企業データＣＰＲに含まれるデータのうち、取引データＴＲＤの取引元企業に関するデータと、取引データＴＲＤの前記取引先企業に関するデータと、を取引データＴＲＤに接続して、学習用データＬＤを構築する。学習処理部３は、学習用データＬＤを学習し、学習済みモデルＭを構築する。【選択図】図２

Description

本開示は、情報処理装置、モデル構築方法及びモデル構築プログラムに関する。

企業の将来の動向を予測するため、企業の財務データや決算データに含まれるデータ（売上、利益など）を用いて予測を行うことが一般に行われている。こうして得られた予測結果は、企業の評価情報として、利用者に提供される。こうした予測手法としては、例えば、定性的な企業情報に基づく統計モデルを利用して、企業の倒産確率を予測する手法が提案されている（特許文献１）。

このような予測を行うにあたっては、企業活動や経済に関する分析などにおいては企業間の取引関係は重要な要素であり、そのために、企業間ネットワークの分析に対する関心は高い。特に、その具体的な企業間の取引の量、すなわち企業間の繋がりの強さを知ることは、企業間の関係をより詳細に表すものと考えられる。したがって、企業間の取引量を推定することで、より精度よくサプライチェーンや将来の企業動向を予測できるものと期待される。

特開２００３－２１６８０４号公報

一方で、企業間の取引量を推定しようとしても、モデル構築のための学習用データとして使用できる企業間の取引量を表すデータがそもそも得がたいという問題がある。したがって、企業間の取引量を補足できない場合でも、企業間の取引量の推定が可能な手法の確立が望まれている。

本開示は上記の事情に鑑みて成されたものであり、企業間の取引量を推定することができる情報処理装置、モデル構築方法及びモデル構築プログラムを提供することを目的とする。

一実施の形態にかかる情報処理装置は、
各企業の会計情報及び属性情報を含む企業データと、取引元企業と取引先企業との間の取引量を示すデータを含む取引データと、を読み込むデータ読込部と、
前記企業データに含まれるデータのうち、前記取引データの前記取引元企業に関するデータと、前記取引データの前記取引先企業に関するデータと、を前記取引データに接続して、学習用データを構築するデータ構築部と、
前記学習用データを学習し、学習済みモデルを構築する学習処理部と、を備えるものである。

一実施の形態にかかるモデル構築方法は、
各企業の会計情報及び属性情報を含む企業データと、取引元企業と取引先企業との間の取引量を示すデータを含む取引データと、を読み込み、
前記企業データに含まれるデータのうち、前記取引データの前記取引元企業に関するデータと、前記取引データの前記取引先企業に関するデータと、を前記取引データに接続して、学習用データを構築し、
前記学習用データを学習し、学習済みモデルを構築するものである。

一実施の形態にかかるモデル構築プログラムは、
各企業の会計情報及び属性情報を含む企業データと、取引元企業と取引先企業との間の取引量を示すデータを含む取引データと、を読み込み処理と、
前記企業データに含まれるデータのうち、前記取引データの前記取引元企業に関するデータと、前記取引データの前記取引先企業に関するデータと、を前記取引データに接続して、学習用データを構築する処理と、
前記学習用データを学習し、学習済みモデルを構築する処理と、をコンピュータに実行させるものである。

一実施の形態によれば、企業間の取引を推定することができる情報処理装置、モデル構築方法及びモデル構築プログラムを提供することができる。

実施の形態１にかかる情報処理装置を実現するためのシステム構成の一例を示す。実施の形態１にかかる情報処理装置の構成を模式的に示す図である。実施の形態１にかかる情報処理装置の構成の変形例を模式的に示す図である。実施の形態１にかかる企業データベースの構成例を示す図である。実施の形態１にかかる企業データの例を表形式にて示す図である。実施の形態１にかかる属性データの例を表形式にて示す図である。実施の形態１にかかる取引データの例を表形式にて示す図である。実施の形態１にかかる情報処理装置の学習用データ構築処理のフローチャートである。企業データＣＰＲの会計データＤＡ及び属性データＤＰから読み出したデータの取引データＴＲＤへの接続の概要を示す図である。学習用データＬＤを表形式にて示す図である。実施の形態１にかかる情報処理装置の取引先構成比率の推定処理のフローチャートである。実験条件ＥＡでの取引データと企業データのとの接続の概要を示す。実験条件ＥＢでの取引データと企業データのとの接続の概要を示す。実験条件ＥＣでの取引データと企業データのとの接続の概要を示す。実験結果を示す図である。

以下、図面を参照して本発明の実施の形態について説明する。各図面においては、同一要素には同一の符号が付されており、必要に応じて重複説明は省略される。

実施の形態１
まず、実施の形態１にかかる情報処理装置１００を理解するための前提として、情報処理装置１００を実現するためのシステム構成について説明する。図１に、実施の形態１にかかる情報処理装置１００を実現するためのシステム構成の一例を示す。情報処理装置１００は、専用コンピュータ、パーソナルコンピュータ（ＰＣ）などのコンピュータ１０００により実現可能である。但し、コンピュータは、物理的に単一である必要はなく、分散処理を実行する場合には、複数であってもよい。図１に示すように、コンピュータ１０００は、ＣＰＵ（Central Processing Unit）１００１、ＲＯＭ（Read Only Memory）１００２及びＲＡＭ（Random Access Memory）１００３を有し、これらがバス１００４を介して相互に接続されている。尚、コンピュータを動作させるためのＯＳソフトなどは、説明を省略するが、この情報処理装置を構築するコンピュータも当然有しているものとする。

バス１００４には、入出力インターフェイス１００５が接続されている。入出力インターフェイス１００５には、入力部１００６、出力部１００７、通信部１００８及び記憶部１００９が接続される。

入力部１００６は、例えば、キーボード、マウス、センサなどより構成される。出力部１００７は、例えば、ＬＣＤなどのディスプレイ装置やヘッドフォン及びスピーカなどの音声出力装置により構成される。通信部１００８は、例えば、ルータやターミナルアダプタなどにより構成される。記憶部１００９は、ハードディスク、フラッシュメモリなどの記憶装置により構成される。

ＣＰＵ１００１は、ＲＯＭ１００２に記憶されている各種プログラム、又は記憶部１００９からＲＡＭ１００３にロードされた各種プログラムに従って各種の処理を行うことが可能である。本実施の形態においては、ＣＰＵ１００１は、例えば後述する情報処理装置１００の各部の処理を実行する。ＣＰＵ１００１とは別にＧＰＵ（Graphics Processing Unitを設け、ＣＰＵ１００１と同様に、ＲＯＭ１００２に記憶されている各種プログラム、又は記憶部１００９からＲＡＭ１００３にロードされた各種プログラムに従って各種の処理、本実施の形態においては、例えば後述する情報処理装置１００の各部の処理を実行してもよい。なお、ＧＰＵは、定型的な処理を並列的に行う用途に適しており、後述するニューラルネットワークにおける処理などに適用することで、ＣＰＵ１００１に比べて処理速度を向上させることも可能である。ＲＡＭ１００３には又、ＣＰＵ１００１及びＧＰＵが各種の処理を実行する上において必要なデータなども適宜記憶される。

通信部１００８は、ネットワーク１０２０を介して、サーバ１０３０と双方向の通信を行うことが可能である。通信部１００８は、ＣＰＵ１００１から提供されたデータをサーバ１０３０へ送信したり、サーバ１０３０から受信したデータをＣＰＵ１００１、ＲＡＭ１００３及び記憶部１００９などへ出力することができる。通信部１００８は、他の装置との間で、アナログ信号又はディジタル信号による通信を行ってもよい。記憶部１００９はＣＰＵ１００１との間でデータのやり取りが可能であり、情報の保存及び消去を行う。

入出力インターフェイス１００５には、必要に応じてドライブ１０１０が接続されてもよい。ドライブ１０１０には、例えば、磁気ディスク１０１１、光ディスク１０１２、フレキシブルディスク１０１３又は半導体メモリ１０１４などの記憶媒体が適宜装着可能である。各記憶媒体から読み出されたコンピュータプログラムは、必要に応じて記憶部１００９にインストールされてもよい。また、必要に応じて、ＣＰＵ１００１が各種の処理を実行する上において必要なデータや、ＣＰＵ１００１の処理の結果として得られたデータなどを各記憶媒体に記憶してもよい。

続いて、本実施の形態にかかる情報処理装置１００の構成及び処理について説明する。本実施の形態では、情報処理装置１００は、企業にかかる情報を示す企業データベース（以下、ＤＢ）１１０から、特定の項目のデータを選択的に読み込み、かつ、読み込んだデータを用いて新たな項目のデータを生成する。そして、読み込んだデータと、生成した新たな項目のデータと、を結合して、推定のためのモデルの構築に用いる学習用データを生成することができる。

後述するように、本実施の形態において構築される学習用データには、複数の期間のそれぞれでの各企業の属性や状態を示す１つ以上のデータ項目からなる第１の特徴量と、各企業と他の企業との取引状態を示す第２の特徴量と、が含まれる。

学習用アルゴリズム（プログラム）がこのような学習用データを学習することで、企業の属性や状態を説明変数、取引状態を目的変数として学習してモデルを構築することができる。このように構築したモデルに、取引状態が未知である推定対象企業の属性や状態を示す情報をモデルに入力することで、推定対象企業の取引状態を推定することが可能となる。

図２に、実施の形態１にかかる情報処理装置１００の構成を模式的に示す。情報処理装置１００の各処理は、ハードウェア上では、実際にはソフトウェアと上記のＣＰＵ１００１などのハードウェア資源とが協働して実現される。情報処理装置１００は、データ読込部１、データ構築部２、学習処理部３及び推定部４を有する。

データ読込部１は、例えば、外部の記憶装置１０に格納された企業データベース１１０から、必要に応じて、企業データＣＰＲ及び取引データＴＲＤを読み込むことができる。

図２では、外部の記憶装置１０に企業データベース１１０が格納されるものとして説明したが、企業データベース１１０は、情報処理装置１００に設けられた記憶部に格納されていてもよい。図３に、実施の形態１にかかる情報処理装置１００の構成の変形例を模式的に示す。図１０では、図２と比べて、情報処理装置１００に記憶部５が追加されている。この場合、データ読込部１は、記憶部５に格納された企業データベース１１０から、必要に応じて、企業データＣＰＲ及び取引データＴＲＤを読み込むことができる。

データ構築部２は、データ読込部１が読み込んだデータを参照して、学習用データＬＤ及び入力データＩＮを構築可能に構成される。そして、学習用データＬＤは学習処理部３へ出力され、入力データＩＮは推定部４へ出力される。

学習処理部３は、データ構築部２から受け取った学習用データＬＤをモデルに入力して学習処理を行い、学習済みモデルＭを構築する。

推定部４は、学習処理部３が構築した学習済みモデルＭに、入力データＩＮを入力することで、企業間の未知の取引量を推定する。

次に、学習用データの生成の基礎となる、企業データＣＰＲ及び取引データＴＲＤについて説明する。図４に、実施の形態１にかかる企業データベース１１０の構成例を示す。企業データＣＰＲ及び取引データＴＲＤは、予め収集され、企業データベース１１０に格納されるものである。

企業データＣＰＲについて説明する。企業データＣＰＲは、企業識別情報に、各企業に関する情報（例えば、売上、従業員数及び業種など）が紐付けられたレコードが複数含まれるものとして構成される。ここでいう各企業に関する情報は、売上や純利益などの財務諸表に含まれる情報からなる会計データＤＡ、及び、従業員数、業種、取扱品又は取扱役務などの各企業の属性を示す情報からなる属性データＤＰを少なくとも含む。

ここで、会計データＤＡは、企業の決算日に作成される財務諸表に含まれる情報であり、したがって、年ごとに取得されるデータである。これに応じて、属性データＤＰについても、年ごとに取得してもよい。財務諸表が取得されるタイミングは、各企業の決算日が基準となり、通常は１年に１回であるが、場合によっては１年以内に２回など変則的に決算日が設定される場合もある。

ここでは、説明の簡略化のため、１年に１回だけ決算日が到来するものとして説明する。この場合、会計データＤＡを含む企業データＣＰＲについても、年ごとに作成されるデータであることが理解できる。換言すれば、Ｔ年の企業データＣＰＲ（Ｔ）は、Ｔ年の会計データＤＡ（Ｔ）と属性データＤＰ（Ｔ）とを含むデータとして構成される。なお、当然のことながら、データが取得される年数は２年以上であってもよい。すなわち、企業データは、Ｎを任意の正の整数とすると、ＣＰＲ（１）～ＣＰＲ（Ｎ）のように、任意の複数年の企業データが存在してもよいことは、言うまでも無い。

また、各年の企業データＣＰＲに対して、対応して取引データＴＲＤが取得される。したがって、企業データＣＰＲの年数分だけ取引データＴＲＤが存在する。換言すれば、Ｎ年分の企業データＣＰＲ（１）～ＣＰＲ（Ｎ）が存在する場合には、Ｎ年分の取引データＴＲＤ（１）～ＴＲＤ（Ｎ）が存在することとなる。

Ｔ年の企業データＣＰＲ（Ｔ）に対応する取引データＴＲＤ（Ｔ）については、任意の時点に収集することが可能である。例えば、取引データＴＲＤ（Ｔ）は、企業データＣＰＲ（Ｔ）の基準となる決算日よりも後の特定の期間に収集してもよい。また、企業データＣＰＲ（Ｔ）は、企業データＣＰＲ（Ｔ）の基準となる決算日よりも前の特定の期間に収集されたものであってもよい。

但し、Ｔ年の企業データＣＰＲ（Ｔ）に対応する取引データＴＲＤ（Ｔ）には、特定の企業について２つ以上のレコードが存在する場合があり得る。具体的には、企業Ａの決算日（例えば、２０２１年３月）よりも後の第１のタイミング（例えば２０２１年５月１日）に取得したデータと、さらに後の第２のタイミング（例えば２０２１年１０月１日）に取得したデータと、が含まれてもよい。換言すれば、１つの企業の１つの決算日に着目した場合、その決算日から１年以内又は１年以内の期間内において、複数のタイミングで取引データが取得されてもよい。

以下では、説明の簡略化のため、ある１年分の企業データＣＰＲ及び取引データＴＲＤについて説明する。

図５に、実施の形態１にかかる企業データＣＰＲの例を表形式にて示す。企業データＣＰＲの１つのレコードに関連付けられるフィールド、すなわち表の列方向には、会計データＤＡ及び属性データＤＰが配列される。なお、以下では、各フィールドを、単にデータ項目と称する。

企業ＩＤは、企業を識別するために各企業に割り当てられるものである。データ読込部１は、企業ＩＤを指定することで、指定した企業ＩＤを含むレコード、すなわち指定した企業ＩＤに紐付けられた各データ項目を読み込むことが可能である。このとき、データ読込部１は、企業ＩＤに紐付けられた全データ項目を読み込んでもよいし、必要なデータ項目のみを読み込んでもよい。

つまり、企業データＣＰＲから読み込んだ各企業のデータを示すレコードは、企業ＩＤと、企業ＩＤに紐付けられた複数のデータ項目と、で構成される。換言すれば、読み込んだ１つの企業のデータは、企業ＩＤと１つ以上のデータ項目とを要素とするベクトルとして表現することが可能である。

企業ＩＤは、企業名などのテキストデータでもよいし、変数などの数値データであってもよい。なお、図４及び図５では、企業ＩＤとして変数を用いている。この場合、企業ＩＤは、必要に応じて、例えば企業の業種などの情報を示す他の変数を含んでもよい。

会計データＤＡについて説明する。会計データＤＡには、財務諸表に掲載される売上及び純利益などの各種の数値データが含まれる。但し、会計データＤＡには、財務諸表に含まれるもの以外の情報や、必要に応じてテキストデータが含まれてもよい。

属性データＤＰについて説明する。図６に、実施の形態１にかかる属性データＤＰの例を表形式にて示す。属性データＤＰには、例えば、従業員数など数値データ、及び、業種、取扱品又は取扱役務、商号、住所、電話番号、創業年、設立年月、取引金融機関名、取引金融機関店舗名、代表者に関する情報、役員に関する情報、決算年月、上場区分などのテキストデータが含まれる。テキストデータについては、データ項目ごとに分類処理を行い、分類結果に応じて数値コードを付与することで数値データに変換してもよい。例えば、商号は企業ＩＤに変換してもよいし、住所は郵便番号などに変換してもよい。また、例えば、取引金融機関は金融機関コードで表してもよいし、業種は業種コードで表してもよい。

業種は、１つではなく、例えば業種１、業種２、．．．のように、複数であってもよい。取扱品又は取扱役務は、１つではなく、例えば取扱品又は取扱役務１、取扱品又は取扱役務２、．．．のように、複数であってもよい。一般に、企業は複数の業種にわたって複数の取扱品及び役務を取り扱うことが常態であるため、このように、業種の区分や取扱品又は取扱役務の区分を複数とすることで、各企業の実態を企業データＣＰＲにより反映させることが可能となる。

次に、取引データＴＲＤについて説明する。ここでは、財又は役務を提供する行為と、これに対して対価の支払いが行われる行為とがなされる関係を、取引関係と定義する。取引データＴＲＤには、複数の取引関係を示す情報が記録される。図７に、実施の形態１にかかる取引データＴＲＤの例を表形式にて示す。取引データＴＲＤは、１つの取引関係を示すレコードが複数含まれ、各レコードには、企業ＩＤ、取引関係を調査した調査年月日、財や役務の提供を行う取引元企業を示す取引元ＩＤ、財や役務の提供に対して対価を支払う取引先企業を示す取引先ＩＤ、株主フラグ、取引先構成比率、取引先順位が少なくとも記録されている。

取引の実情に鑑みれば、取引先企業が取引元企業の株主である場合、すなわち株主関係にある場合が想定できる。株主関係がある場合には、株主関係がない場合と比べて、取引先企業と取引元企業との関係はより密接であることが予想される。よって、ここでは、株主関係を表現するために取引データＴＲＤに株主フラグを含めている。ここでは、株主フラグは、取引先企業が取引元企業の株主である場合に「１」、株主でない場合に「０」となる。なお、株主関係にある場合に「１」、株主関係にない場合に「０」を記録するのはあくまで例示であり、株主関係にある場合に「０」、株主関係にない場合に「１」を記録してもよく、又は、株主関係の有無に応じて他の値や情報を記録してもよい。

取引の実情に鑑みれば、１つの取引元企業が複数の取引先企業と取引を行うのが一般的である。よって、各レコードには、取引元企業にとって個々の取引先企業との取引関係の重要度を補足する情報として、調査時点（取得日）における取引元企業の売上高Ｓに占める取引先企業ｓに対する売上高を示す取引先構成比率（すなわち、売上高の割合であるＳａ／Ｓ）、と、取引先構成比率の順位を示す取引先順位と、が格納されている。なお、取引元ＩＤ及び取引先ＩＤは、企業ＩＤと同様であるので、説明を省略する。

次に、本実施の形態における学習用データの構築について説明する。図８に、実施の形態１にかかる情報処理装置１００の学習用データ構築処理のフローチャートを示す。データ構築部２は、以下の手順で、取引データＴＲＤに企業データＣＰＲを接続して、学習用データを構築する。図９に、企業データＣＰＲの会計データＤＡ及び属性データＤＰから読み出したデータの取引データＴＲＤへの接続の概要を示す。図１０に、学習用データＬＤを表形式にて示す。

ステップＳ１１
データ読込部１は、企業データベース１１０から、学習用データの構築に用いる企業データＣＰＲ及び取引データＴＲＤを読み込む。

ステップＳ１２
データ構築部２は、取引データＴＲＤに企業データＣＰＲの会計データＤＡ及び属性データＤＰから読み出したデータを接続する。具体的には、データ構築部２は、企業データＣＰＲから、取引元企業及び取引先企業の売上、純利益、従業員数、業種、取扱品又は取扱役務を読み込み、それぞれの企業ＩＤに後続するフィールドとして挿入する。ここでは、取引元ＩＤ、取引元企業の売上、純利益、従業員数、業種、取扱品又は取扱役務を取引元データ、取引先ＩＤ、取引先企業の売上、純利益、従業員数、業種、取扱品又は取扱役務を取引先データと呼称する。

データ接続においては、取引データＴＲＤの各レコードの取得日を基準として、所定期間の企業データを参照して、参照可能な期間に含まれる各企業の決算日の中から選択した１つの決算日にかかる取引元データ及び取引先データを接続する。また、参照期間は、例えば、取引データＴＲＤの１つのレコードに注目した場合、取引データＴＲＤの注目する１つのレコードの取得日よりも前の期間でもよく、後の期間でもよく、１つのレコードの取得日を含む過去及び将来の期間であってもよい。また、取引元データを参照する期間と、取引先データを参照する期間とは、同じであってもよいし、異なっていてもよい。

参照期間に含まれる各企業の決算日が複数存在する場合、例えば、参照期間のうちで最も新しい１つの決算日の企業データを選択してもよいし、参照期間のうちで最も古い１つの決算日の企業データを選択してもよい。また、過去又は将来に限らず、取引データＴＲＤの注目する１つのレコードの取得日に最も近い決算日の企業データを選択してもよい。

なお、取引データＴＲＤの２つの以上のレコードに同じ決算日の取引元データ又は取引先データが接続可能である場合には、いずれか取引データＴＲＤの２つの以上のレコードを接続することが望ましい。例えば、１つの決算日の取引元データ又は取引先データに対して接続可能な取引データＴＲＤの２つの以上のレコードのうち、決算日に最も近いレコードのみを接続してもよいし、最も遠いレコードを接続してもよい。

なお、以下では、ステップＳ１２以降における取引データＴＲＤに所定のデータ項目が挿入されたデータを中間データＩＮＴと呼称する。

ステップＳ１３
データ構築部２は、企業データＣＰＲ及び取引データＴＲＤを参照して、対比データを構成するデータを算出して、中間データＩＮＴに挿入する。ここでは、対比データを構成するデータとして、取引先該当数、取引元該当数、取引元企業と取引先企業との売上比、従業員数比及び純利益比、都道府県コードの差、及び、地域コードの差を算出する。

取引元該当数は、取引元企業がいくつの企業に対して販売しているかを示す特徴量である。データ構築部２は、取引データＴＲＤの全レコードを参照して、各企業の企業ＩＤが取引元ＩＤとしていくつ記録されているかカウントし、カウント結果を各企業にかかる取引元該当数として取得する。換言すれば、ある取引元企業に着目した場合、着目した取引元企業がいくつの取引先企業に対して売上があるかを示すのが、取引元該当数である。例えば、取引データＴＲＤにおいて、企業Ａの企業ＩＤが、１０個のレコードで取引元ＩＤとして記録されている場合には、企業Ａの取引元該当数は１０となる。

取引先元該当数は、取引元企業がいくつの企業から販売されているか、すなわち仕入れているか、を示す特徴量である。データ構築部２は、取引データＴＲＤの全レコードを参照して、各企業の企業ＩＤが取引先ＩＤとしていくつ記録されているかカウントし、カウント結果を各企業にかかる取引先該当数として取得する。換言すれば、ある取引先企業に着目した場合、着目した取引先企業に対して、いくつの取引元企業が売上があるかを示すのが、取引先該当数である。例えば、取引データＴＲＤにおいて、企業Ａの企業ＩＤが、５個のレコードで取引先ＩＤとして記録されている場合には、企業Ａの取引先該当数は５となる。

売上比について説明する。データ構築部２は、取引元情報及び取引先情報を参照して、取引元企業の売上に対する取引先企業の売上の比率、すなわち、取引元企業の売上をＳａ、取引先企業の売上をＳｂとすると、Ｓｂ／Ｓａを売上比として算出する。

従業員数比について説明する。データ構築部２は、取引元情報及び取引先情報を参照して、取引元企業の従業員数に対する取引先企業の従業員数の比率、すなわち、取引元企業の従業員数をＮａ、取引先企業の従業員数をＮｂとすると、Ｎｂ／Ｎａを従業員数比として算出する。

純利益比について説明する。データ構築部２は、取引元情報及び取引先情報を参照して、取引元企業の純利益に対する取引先企業の純利益の比率、すなわち、取引元企業の純利益をＰａ、取引先企業の純利益をＰｂとすると、Ｐｂ／Ｐａを純利益比として算出する。

都道府県コードの差について説明する。データ構築部２は、企業データＣＰＲを参照して、取引元企業のＪＩＳコードのうちで都道府県を示すコードと、取引先企業のＪＩＳコードのうちで都道府県を示すコードと、を取得する。そして、取得した２つの都道府県を示すコード間の差を算出する。ここでは、都道府県を示すコードは、企業データＣＰＲに予め含まれているものとする。なお、都道府県を示すコードは、予め企業データＣＰＲに含まれる都道府県を示すコードなどの各企業の所在地を示す情報に基づいて、データ構築部２が付与してもよい。

地域コードの差について説明する。データ構築部２は、企業データＣＰＲを参照して、取引元企業の地域コードと、取引先企業の地域コードと、を取得する。地域コードについては、例えば、各企業の所在地を参照し、北海道、東北、関東、中部、関西、中国、四国、九州、沖縄の順に、１～９の番号を割り当てる。そして、取得した２つの地域コード間の差を算出する。ここでは、予め企業データＣＰＲに含まれる住所や都道府県を示すコードなどの各企業の所在地を示す情報に基づいて、地域コードを付与するものとする。なお、地域コードは、予め企業データＣＰＲに含まれていてもよい。

そして、データ構築部２は、算出した取引先該当数、取引元該当数、売上比、従業員数比及び純利益比、都道府県コードの差、及び、地域コードの差を、中間データＩＮＴの取引先該当数及び取引元該当数に後続するフィールドに挿入して、学習用データＬＤを構築する。

また、学習用データの基礎となる企業データＣＰＲ及び取引データＴＲＤには、欠測値が存在する場合が考え得る。こうした欠測値については、モデル構築の障害にならないような値で補完してもよい。例えば、ある閾値に対する大小判定を行うデータ項目については、閾値から大きく離れた値で欠測値を補完してもよい。また、必要に応じて、各データ項目の平均値や中央値などの統計量によって、欠測値を補完してもよい。また、欠測値が存在する場合には、欠測値が存在するデータ項目について欠測値の有無を示すフィールドを設け、欠測値の有無を示すフラグを記録してもよい。この場合、後述するモデル構築のときに、欠測値フラグを参照して、欠測値を有するレコードを除外するなどの処理を行ってもよい。

ステップＳ１４
データ構築部２は、ステップＳ１１～Ｓ１３によって構築した学習用データＬＤを、学習処理部３へ出力する。

ステップＳ１５
学習処理部３は、受け取った学習用データを入力データとして学習を行う。学習手法としては、例えば、ランダムフォレストを用いることができる。この場合、学習等データからサンプリングを行い、サンプルサイズｎのサンプルをｍ個生成して、決定木を作成する。そして、ｍ個のサンプルのそれぞれにおいて変数の一部をサンプリングして変数の候補として用い、変数の候補からデータを最もよく分割する変数及び閾値を選んで分岐条件を決定することで、学習器を作成する。最後に、各学習器の学習結果を統合することで、分類器として機能する学習済みモデルＭを構築することができる。ここでは、学習処理部３は、構築した学習済みモデルＭを推定部４に渡す。

これにより、情報処理装置１００は、取引先構成比率が未知である特定の取引元企業及び取引先企業の組み合わせについて、取引先構成比率を推定する。

次いで、本実施の形態における取引先構成比率の推定処理について説明する。推定処理においては、推定部４が、未知の入力データを学習済みの分類器に入力することで、取引構成先比率の推定結果を出力する。言うまでもないが、この場合の入力データは、図１０に示すデータ形式から、推定対象となる取引構成先比率を除いたデータとなる。図１１に、実施の形態１にかかる情報処理装置１００の取引先構成比率の推定処理のフローチャートを示す。

ステップＳ２１
データ読込部１は、企業データベース１１０から、取引構成先比率の推定対象となる企業データＣＰＲ及び取引データＴＲＤを読み込む。なお、ここで読み込まれる取引データＴＲＤの各レコードは、図７に示すデータ形式から、推定対象となる取引構成先比率を除いたレコードとなっている。

ステップＳ２２
ステップＳ２２は、ステップＳ１２と同様であるので、説明を省略する。

ステップＳ２３
ステップＳ２３の処理は、ステップＳ１３の学習用データＬＤに代えて、推定対象の入力データＩＮが構築されることを除き、ステップＳ２３と同様であるので、重複する説明を省略する。なお、上述したように、構築された入力データは、図１０に示すデータ形式から、推定対象となる取引構成先比率を除いたデータとなる。

ステップＳ２４
データ構築部２は、ステップＳ２１～Ｓ２３によって構築した入力データＩＮを、推定部４へ出力する。

ステップＳ２５
推定部４は、入力データＩＮを学習済みモデルＭによって構成される分類器に入力することで、取引構成先比率の推定結果ＲＥＳを出力する。これにより、情報処理装置１００は、取引先構成比率が未知である特定の取引元企業及び取引先企業の組み合わせについて、取引先構成比率を推定する。

以上、本構成によれば、企業データと取引データとを接続することで学習用データを取得し、これを学習することで、ある取引先企業と取引元企業との組み合わせについて、取引構成先比率を推定することが可能となる。

次いで、本実施の形態における推定方法の推定精度について、実験により検証を行った。実験にあたっては、企業データとして、ここでは、２０１２年１０月１日から２０２１年９月３０日までの期間のクロスセクションデータを含むパネルデータとして構築し、これに対応する取引データを構築した。ここでは、構築した学習用データのうち、取引元の売上が０のレコード及び取引先構成比率が０のレコードは除外した。また、構築したデータのうち、各年について、学習用データが８割、テストデータが２割となるようにデータを分割した。

取引データに接続するときに参照する企業データの収集期間の影響を比較するため、以下の３つの実験条件ＥＡ～ＥＣを設定した。

実験条件ＥＡ
図１２に、実験条件ＥＡでの取引データと企業データのとの接続の概要を示す。図１２では、説明の簡略ため、取引先データの決算日は、取引元データの決算日と同じＤ１～Ｄ７とし、決算日の間隔は１年とする。取引データＴＲＤの注目する１つのレコードの取得日は、決算日Ｄ４と次の決算日Ｄ５との間とする。

本条件では、１つの取引データのレコードに対して接続する企業データの参照期間は、取引元データについては対象となる取引データのレコードの取得日よりも前の１年以内のものを参照し、このうちで最新の決算日の取引元データを接続対象として選択する。よって、図１２の例では、決算日Ｄ４の取引データが、取引データＴＤＲの注目レコードと接続される。なお、図１２の例に限らず、１年以内に適切な決算日の取引元データが存在しない場合には、データの接続を中止してもよい。

取引先データについては対象となる取引データのレコードの取得日よりも前の３年以内のものを参照し、このうちで最新の決算日の取引先データを接続対象として選択する。よって、図１２の例では、決算日Ｄ４の取引先データが、取引データＴＤＲの注目レコードと接続される。なお、図１２の例に限らず、３年以内に適切な決算日の取引データが存在しない場合には、データの接続を中止してもよい。また、例えば、決算日Ｄ４において取引先データが収集されていない場合には、最新の決算日Ｄ３の取引先データを接続対象として選択される。

実験条件ＥＢ
図１３に、実験条件ＥＢでの取引データと企業データのとの接続の概要を示す。図１３における決算日及び取引データＴＲＤの注目レコードの取得日は、図１２と同様である。

取引元データについては対象となる取引データのレコードの取得日よりも前の期間を参照し、このうちで最新の決算日の取引元データを接続対象として選択する。よって、図１３の例では、決算日Ｄ４の取引元データが、取引データＴＤＲの注目レコードと接続される。例えば、決算日Ｄ４において取引元データが収集されていない場合には、最新の決算日Ｄ３の取引元データを接続対象とすることになる。つまり、参照期間において実際に存在する取引元データのうち、最新の決算日のものが選択される。

取引先データについては対象となる取引データのレコードの取得日よりも前の期間を参照し、このうちで最新の決算日の取引先データを接続対象として選択する。よって、図１３の例では、決算日Ｄ４の取引先データが、取引データＴＤＲの注目レコードと接続される。例えば、決算日Ｄ４において取引先データが収集されていない場合には、最新の決算日Ｄ３の取引先データを接続対象とすることになる。つまり、参照期間において実際に存在する取引先データのうち、最新の決算日のものが選択される。

実験条件ＥＣ
図１４に、実験条件ＥＣでの取引データと企業データのとの接続の概要を示す。図１４における決算日及び取引データＴＲＤの注目レコードの取得日は、図１３及び図１４と同様である。

取引元データについては、対象となる取引データのレコードの取得日を含む全期間の取引元データを参照し、このうちで最新の決算日の取引元データを接続対象として選択する。よって、図１４の例では、決算日Ｄ７の取引元データが、取引データＴＤＲの注目レコードと接続される。例えば、決算日Ｄ７において取引元データが収集されていない場合には、最新の決算日Ｄ６の取引元データを接続対象とすることになる。つまり、参照期間において実際に存在する取引元データのうち、最新の決算日のものが選択される。

取引先データについては、対象となる取引データのレコードの取得日を含む全期間の取引先データを参照し、このうちで最新の決算日の取引先データを接続対象として選択する。よって、図１４の例では、決算日Ｄ７の取引先データが、取引データＴＤＲの注目レコードと接続される。例えば、決算日Ｄ７において取引先データが収集されていない場合には、最新の決算日Ｄ６の取引先データを接続対象とすることになる。つまり、参照期間において実際に存在する取引先データのうち、最新の決算日のものが選択される。

以上の各条件において、学習済みモデルＭを構築し、その学習済みモデルＭにテストデータを入力して、取引構成先比率を推定した。そして、推定した取引先構成比率とテストデータの取引先構成比率とを比較して、推定精度を評価した。推定精度の評価にあたっては、二乗平均平方根誤差（ＲＭＳＥ：Root Mean Squared Error)及び平均絶対誤差（ＭＡＥ：Mean Absolute Error）を算出した。

図１５に、実験結果を示す。学習用データとテストデータとへの分割前のデータのレコード数は、実験条件ＥＡが４７７，９９９、実験条件ＥＢが５０９，３７５、実験条件ＥＣが７１６，２８７であった。ＲＭＳＥについては、実験条件ＥＡが０．０９８２、実験条件ＥＢが０．０９８０、実験条件ＥＣが０．０８１７となった。ＭＡＥについては、実験条件ＥＡが０．０６１６、実験条件ＥＢが０．０６１０、実験条件ＥＣが０．０４７１となった。

このように、実験条件ＥＡ～ＥＣのいずれにおいても、良好な推定結果が得られることが理解できる。また、取引データの１つのレコードに対する企業データの参照期間を長くすることで、推定精度の向上が認められた。

以上、本構成によれば、条件による変動はあるものの、学習済みモデルＭに取引元企業と取引先企業とを指定した入力データを入力することで、取引先構成比率を高い精度で推定できることが理解できる。

その他の実施の形態
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上述の実施の形態にかかる情報処理装置が実行する処理は、ＡＳＩＣ（Application Specific Integrated Circuit）を含む半導体処理装置を用いて実現されてもよい。また、これらの処理は、少なくとも１つのプロセッサ（e.g. マイクロプロセッサ、ＣＰＵ、ＧＰＵ、ＭＰＵ、ＤＳＰ（Digital Signal Processor））を含むコンピュータシステムにプログラムを実行させることによって実現されてもよい。具体的には、これらの送信信号処理又は受信信号処理に関するアルゴリズムをコンピュータシステムに行わせるための命令群を含む１又は複数のプログラムを作成し、当該プログラムをコンピュータに供給すればよい。

これらのプログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（random access memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

上述の実施の形態では、学習用データの学習手法としてランダムフォレストを用いる例について説明したが、学習手法はこれに限られず、適宜、各種の手法を用いてもよい。例えば、学習用データの学習手法として勾配ブースティング決定木(Gradient Boosting Decision Tree:ＧＢＤＴ)を用いてもよい。

ＣＰＲ企業データ
ＤＡ会計データ
ＤＰ属性データ
ＤＣ相関データ
ＩＮ入力データ
ＩＮＴ中間データ
ＬＤ学習用データ
Ｍ学習済みモデル
ＴＲＤ取引データ
１データ読込部
２データ構築部
３学習処理部
４推定部
５記憶部
１００情報処理装置
１００１ＣＰＵ
１００２ＲＯＭ
１００３ＲＡＭ
１００４バス
１００５入出力インターフェイス
１００６入力部
１００７出力部
１００８通信部
１００９記憶部
１０１０ドライブ
１０１１磁気ディスク
１０１２光ディスク
１０１３フレキシブルディスク
１０１４半導体メモリ
１０２０ネットワーク
１０３０サーバ
１０００コンピュータ

Claims

各企業の会計情報及び属性情報を含む企業データと、取引元企業と取引先企業との間の取引量を示すデータを含む取引データと、を読み込むデータ読込部と、
前記企業データに含まれるデータのうち、前記取引データの前記取引元企業に関するデータと、前記取引データの前記取引先企業に関するデータと、を前記取引データに接続して、学習用データを構築するデータ構築部と、
機械学習により前記学習用データを学習し、推定対象の取引元企業及び取引先企業に関する取引量以外のデータが入力データとして入力された場合に、前記推定対象の取引元企業と取引先企業との間の取引量の推定値を出力する学習済みモデルを構築する学習処理部と、を備える、
情報処理装置。
前記入力データを前記学習済みモデルに入力して、前記推定対象の取引元企業と取引先企業との間の前記取引量の推定値を出力する推定部を更に備え、
前記データ構築部は、前記企業データに含まれる、前記推定対象の取引元企業に関するデータと前記推定対象の取引先企業に関するデータとを接続して、前記入力データを生成する、
請求項１に記載の情報処理装置。
前記取引元企業と取引先企業との間の取引量を示すデータは、前記取引元企業の売上に占める、前記取引先企業に対する売り上げの比率を示す取引先構成比率であり、
前記推定部は、前記取引量の推定値として取引先構成比率を推定する、
請求項２に記載の情報処理装置。
前記取引データは、前記取引先構成比率の順位を示す取引先順位を含む、
請求項３に記載の情報処理装置。
前記取引データは、前記取引先企業が前記取引元企業の株主であるか否かを示す株主情報を含む、
請求項１又は２に記載の情報処理装置。
前記データ構築部は、前記取引データに基づいて、
各取引元企業について、各取引元企業がいくつの取引先企業に対して売上があるかを示す取引元該当数を算出して、前記取引データの各取引元企業のデータに接続する、
請求項１又は２に記載の情報処理装置。
前記データ構築部は、前記取引データに基づいて、各取引元企業について、各取引元企業がいくつの取引先企業に対して売上があるかを示す取引元該当数を算出して、前記取引データの各取引元企業のデータに接続する、
請求項１又は２に記載の情報処理装置。
前記データ構築部は、前記取引データに基づいて、各取引先企業について、各取引先企業に対していくつの取引元企業が売上があるかを示す取引先元該当数を算出して、前記取引データの各取引元企業のデータに接続する、
請求項１又は２に記載の情報処理装置。
前記データ構築部は、前記企業データに基づいて、前記取引元企業の売上に対する前記取引先企業の売上の比率を示す売上比を算出して、前記取引データの各取引元企業のデータに接続する、
請求項１又は２に記載の情報処理装置。
前記データ構築部は、前記企業データに基づいて、前記取引元企業の従業員数に対する前記取引先企業の従業員数の比率を示す従業員数比を算出して、前記取引データの各取引元企業のデータに接続する、
請求項１又は２に記載の情報処理装置。
前記データ構築部は、前記企業データに基づいて、前記取引元企業の純利益に対する前記取引先企業の純利益の比率を示す純利益比を算出して、前記取引データの各取引元企業のデータに接続する、
請求項１又は２に記載の情報処理装置。
前記データ構築部は、前記取引元企業の所在地を示す情報と、前記取引元企業の所在地を示す情報と、を、前記取引データに接続する、
請求項１又は２に記載の情報処理装置。
データ読込部が、各企業の会計情報及び属性情報を含む企業データと、取引元企業と取引先企業との間の取引量を示すデータを含む取引データと、を読み込み、
データ構築部が、前記企業データに含まれるデータのうち、前記取引データの前記取引元企業に関するデータと、前記取引データの前記取引先企業に関するデータと、を前記取引データに接続して、学習用データを構築し、
学習処理部が、機械学習により前記学習用データを学習し、推定対象の取引元企業及び取引先企業に関する取引量以外のデータが入力データとして入力された場合に、前記推定対象の取引元企業と取引先企業との間の取引量の推定値を出力する学習済みモデルを構築する、
モデル構築方法。
各企業の会計情報及び属性情報を含む企業データと、取引元企業と取引先企業との間の取引量を示すデータを含む取引データと、を読み込む処理と、
前記企業データに含まれるデータのうち、前記取引データの前記取引元企業に関するデータと、前記取引データの前記取引先企業に関するデータと、を前記取引データに接続して、学習用データを構築する処理と、
機械学習により前記学習用データを学習し、推定対象の取引元企業及び取引先企業に関する取引量以外のデータが入力データとして入力された場合に、前記推定対象の取引元企業と取引先企業との間の取引量の推定値を出力する学習済みモデルを構築する処理と、をコンピュータに実行させる、
モデル構築プログラム。