JP2020154828A - データ補完プログラム、データ補完方法及びデータ補完装置 - Google Patents

データ補完プログラム、データ補完方法及びデータ補完装置 Download PDF

Info

Publication number
JP2020154828A
JP2020154828A JP2019053455A JP2019053455A JP2020154828A JP 2020154828 A JP2020154828 A JP 2020154828A JP 2019053455 A JP2019053455 A JP 2019053455A JP 2019053455 A JP2019053455 A JP 2019053455A JP 2020154828 A JP2020154828 A JP 2020154828A
Authority
JP
Japan
Prior art keywords
data
value
missing
correlation
complement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019053455A
Other languages
English (en)
Inventor
雄介 大木
Yusuke Oki
雄介 大木
佑太 寺西
Yuta Teranishi
佑太 寺西
裕一郎 早田
Yuichiro Hayata
裕一郎 早田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2019053455A priority Critical patent/JP2020154828A/ja
Priority to US16/819,259 priority patent/US11562275B2/en
Publication of JP2020154828A publication Critical patent/JP2020154828A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

【課題】データの欠損値の補完精度を向上すること。【解決手段】相関行列計算部が、全学習レコードを用いて、属性間の相関行列を計算する。そして、回帰補完部が、欠損属性について、相関値の絶対値が相関閾値より大きい属性がある場合に、相関値の絶対値が相関閾値より大きい属性を用いて回帰補完を行う。そして、統計量補完部が、欠損属性について、統計補完を行う。そして、削除部が、補完が行われなかった欠損値を含むレコードを削除して補完済学習レコードを出力する。【選択図】図4

Description

本発明は、データ補完プログラム、データ補完方法及びデータ補完装置に関する。
データには欠損値が含まれる場合があり、例えば、機械学習において、学習データに欠損値が含まれる場合がある。図7は、欠損値の例を示す図である。図7は、データの例として金融の財務諸表データを示す。図7において、一つのレコードは一つのデータである。各レコードは、企業No.、決算月、売上高、輸出売上高、従業員数、人件費、売上原価、売上総利益等の複数の属性について属性値を有する。
図7では、取り消し線がつけられた属性値が欠損値である。例えば、企業No.が「1」であるレコードでは、売上純利益の値が得られておらず欠損値である。金融の財務諸表データには約400の属性がある。これらの属性の間には高い相関がある場合もある。例えば、従業員数と人件費は相関が高い。
学習データに欠損値が多いと、学習精度が低下する。このため、機械学習では、欠損値の補完が行われる。例えば、レコード内の他の属性値を用いて欠損値を補完する回帰補完がある。回帰補完では、回帰式を用いて欠損値を他の属性値から計算する。回帰補完では、欠損値の属性と相関の高い属性がないと、補完精度が低い。
また、欠損値の属性について他のレコードの属性値の平均値や中央値等の統計量を計算し、計算した統計量を用いて欠損値を補完する統計量補完がある。統計量補完では、欠損値の属性の欠損率が高いと、補完精度が低い。また、複数のレコードが同じ統計量で補完されるため、学習データとしては適さない。
また、レコード内の他の属性値と他のレコードの同じ属性の属性値との両方を用いる多重代入法(MI:Multiple Imputation)及び完全情報最尤推定法(FIML:Full Information Maximum Likelihood)がある。
MIは、観測データから、欠損データの事後分布を構築して、欠損値をM個のシミュレーション値に置き換えてM個の補完済データセットを作成する。そして、MIは、M個の補完済データセットそれぞれを用いて回帰係数を計算し、M組の回帰係数の平均値を計算することで回帰補完に用いる回帰係数を決定する。MIは、回帰係数を用いるので回帰補完の一例である。
FIMLは、レコード毎に欠損値を無視した尤度を計算し、全レコードの尤度の合計を最大にする平均と分散共分散を計算する。そして、FIMLは、計算した平均で欠損値を補完する。FIMLは、平均で欠損値を補完するので統計量補完の一例である。
なお、関連する従来技術として、訓練データに含まれている説明変数の一部が欠損していても、精度の高い予測を可能にするモデルを生成する予測モデル学習装置がある。この予測モデル学習装置は、目的変数と説明変数ベクトルとの組であるサンプルが集められている訓練データを複数にグループ分けする。そして、この予測モデル学習装置は、各グループに対して設定された予測モデルを複数使用するモデルを機械学習する。
機械学習する場合に、この予測モデル学習装置は、説明変数ベクトルにおける成分の欠損状態を示す欠損パターンに対する出力対象のモデルを構成する各予測モデルの使用割合を、推定したパラメータを利用して計算する。また、この予測モデル学習装置は、欠損パターンに対する各予測モデルの使用割合を利用して、各予測モデルのパラメータを推定する。そして、この予測モデル学習装置は、各予測モデルの使用割合の計算と各予測モデルのパラメータの推定を交互に繰り返す。
また、関連する従来技術として、サンプルデータの欠損個所の補完データを自動的に算出する欠損データ補完システムがある。この欠損データ補完システムは、データベースに蓄積されているサンプルデータ群の中から、一部の特徴の欠損が存在する欠損データを検出し、当該欠損データと欠損のない正常データとに分割する。そして、この欠損データ補完システムは、欠損データに類似する正常データを所定の類似尺度を用いて求め、求めた正常データにおける欠損データの欠損特徴に対応する特徴のデータを補完データとして、欠損データの欠損特徴に代入して補完する。
また、関連する従来技術として、行列形データにおける欠損値の予測精度を向上する欠損値予測装置がある。この欠損値予測装置は、因子行列を変換する関数のパラメータのうち、当該関数が因子行列を変換したときのデータが行列形データである尤もらしさを最大にするパラメータを推定する。ここで、因子行列は、2つの因子を含む行列形データにおける一方の因子の因子要素毎に定義される行列であって、当該行列形データにおけるもう一方の因子の各因子要素の特徴を表す行列である。そして、この欠損値予測装置は、推定したパラメータ及び行列形データにおける既知の行列要素の値を用いて、行列形データにおける行列要素の欠損値を予測する。
特開2015−60237号公報 特開2002−215646号公報 特開2011−154554号公報
高橋将宜、伊藤孝之、様々な多重代入法アルゴリズムの比較〜大規模経済系データを用いた分析〜、統計研究彙報 第71号 2014年3月、pp.39〜82 「欠損データ分析(missing data analysis)-完全情報最尤推定法と多重代入法-」、[平成31年1月30日検索]、インターネット<URL:http://koumurayama.com/koujapanese/missing_data.pdf>
MIやFIML等の一つの補完方法を各レコードに対して一律に適用した場合、どの補完方法を用いたとしても、補完精度が低下するという問題がある。例えば、MIの場合には、欠損率が高いとM個のシミュレーション値の精度が低く、また、低相関な属性のみのレコードは回帰補完の精度が低い。
図8は、MIを適用した場合の補完精度の低下例を示す図である。図8では、取り消し線がつけられた属性値は欠損値であり、欠損値の下の値が補完値である。「売上高」と「輸出売上高」と「売上原価」と「売上総利益」は相関が高く、「人件費」と「従業員数」は相関が高い。このため、「人件費」と「従業員数」に欠損が生じている企業No.「3」のレコードは補完精度が低い。また、「売上高」と「輸出売上高」と「売上原価」と「売上総利益」に欠損が生じている企業No.「Y」のレコードは補完精度が低い。
FIMLの場合には、欠損率が高いと、推定した統計量の精度が低く、属性毎に全ての欠損値を低精度な統計量により補完するため補完精度が低い。図9は、FIMLを適用した場合の補完精度の低下例を示す図である。例えば、「売上高」は全て「2000」で補完され、補完精度が低い。
なお、欠損を一つでも含むレコードを除去してしまうと、欠損率が高い場合に、学習に必要なレコード数が確保できない。図10は、欠損を一つでも含むレコードを除去する場合を示す図である。図10に示すように、欠損を一つでも含むレコードを除去してしまうと、学習レコードの数が限られてしまう。
本発明は、一つの側面では、欠損値の補完精度を向上し、例えば欠損が学習精度に与える影響を最小限に抑えることを目的とする。
一つの態様では、データ補完プログラムは、コンピュータに、相関の度合を算出する処理と、回帰的手法による補完を実行する処理と、統計的手法による補完を実行する処理とを実行させる。相関の度合を算出する処理は、複数のデータ項目それぞれに対応するデータ値をそれぞれに含む複数のデータレコード中に欠損データ値が存在する場合、前記欠損データ値に対応するデータ項目の、他のデータ項目との相関の度合いを算出する。回帰的手法による補完を実行する処理は、前記相関の度合いが所定の相関閾値より大きい場合、前記他のデータ項目のデータ項目値に基づいて、前記欠損データ値の回帰的手法による補完を実行する。統計的手法による補完を実行する処理は、前記相関の度合いが前記相関閾値より大きくない場合、前記欠損データ値に対応するデータ項目の前記欠損データ値以外のデータ値に基づいて、前記欠損データ値の統計的手法による補完を実行する。
一つの側面では、本発明は、欠損値の補完精度を向上し、例えば欠損が学習精度に与える影響を最小限に抑えることができる。
図1は、実施例に係るデータ補完装置の機能構成を示す図である。 図2は、入力データの一例を示す図である。 図3は、データ補完装置によるデータ補完処理のフローを示すフローチャートである。 図4は、補完結果の一例を示す図である。 図5は、機械学習への適用例を示す図である。 図6は、実施例に係るデータ補完プログラムを実行するコンピュータのハードウェア構成を示す図である。 図7は、欠損値の例を示す図である。 図8は、MIを適用した場合の補完精度の低下例を示す図である。 図9は、FIMLを適用した場合の補完精度の低下例を示す図である。 図10は、欠損を一つでも含むレコードを除去する場合を示す図である。
以下に、本願の開示するデータ補完プログラム、データ補完方法及びデータ補完装置の実施例を図面に基づいて詳細に説明する。なお、この実施例は開示の技術を限定するものではない。
まず、実施例に係るデータ補完装置の機能構成について説明する。図1は、実施例に係るデータ補完装置の機能構成を示す図である。図1に示すように、実施例に係るデータ補完装置1は、相関行列計算部11と、回帰補完部12と、統計量補完部13と、削除部14とを有する。
相関行列計算部11は、全学習レコード2と欠損閾値を入力し、属性間の相関を示す相関行列を計算する。欠損域値は設定閾値3に含まれる。相関行列計算部11は、例えば、ユーザが端末のメニュー画面からマウスを用いて選択したデータ補完指示を受け付け、ファイルから全学習レコード2や欠損閾値を読み込む。相関行列計算部11は、端末からユーザによりマウスやキーボードを使って入力された欠損閾値を受け付けてもよい。
図2は、入力データの一例を示す図である。図2に示すように、Xijは、レコードiにおける属性jの属性値を表す。i(0≦i≦N)はレコード番号であり、j(1≦j≦J)は属性番号である。入力データには欠損値が含まれる。式(1)及び式(2)は、相関行列計算部11により計算される相関行列Cを示す。
Figure 2020154828
Figure 2020154828
式(2)において、E[Xij1]は属性j1の平均値であり、E[Xij2]は属性j2の平均値であり、E[(Xij1−E[Xij1])(Xij2−E[Xij2])]は属性j1の偏差と属性j2の偏差の積の平均値である。(E[(Xij1−E[Xij1])2]E[(Xij2−E[Xij2])2])1/2は、属性j1の標準偏差と属性j2の標準偏差の積である。
j1は属性j1の欠損率(欠損値の出現割合)であり、Kj2は属性j2の欠損率である。Tkは欠損閾値である。Tkが大きいほど、補完精度が上がり、レコード数が減る。Tkを調整することで、補完精度とレコード数との間のトレードオフを調整することができる。相関行列計算部11は、非欠損率(1−Kj)が欠損閾値以下の属性に関係する相関値(1−Kj1≦Tk又は1−Kj2≦Tkの場合)を、補完精度が低くなるため、0とする。
なお、相関行列計算部11は、式(2)の代わりに、例えば欠損率で重みづけした式(3)〜式(6)を用いて相関行列を計算してもよい。式(3)〜式(6)においては、欠損率で重みづけされているため、1−Kj1≦Tk又は1−Kj2≦Tkの場合でも、相関行列計算部11は、相関値を0としない。
Figure 2020154828
Figure 2020154828
Figure 2020154828
Figure 2020154828
回帰補完部12は、欠損を含む学習レコードの集まりである欠損学習レコード4を読み込んで、回帰補完を行う。回帰補完部12は、相関値の絶対値(相関の度合い)が相関閾値より大きい属性のみを用いて回帰補完を行う。相関閾値は、設定閾値3に含まれる。回帰補完部12は、例えば、欠損学習レコード4や相関閾値をファイルから読み込む。回帰補完部12は、端末からユーザによりマウスやキーボードを使って入力された相関閾値を受け付けてもよい。
回帰補完部12は、Xik1を補完する場合、ρk1j2>Tcを満たすj2が例えばnとmの2属性の場合、以下の式(7)を用いて補完値を計算する。なお、Tcは相関閾値である。
Figure 2020154828
ここで、b0、b1、b2は、以下の式(8)においてQを最小にする値である。
Figure 2020154828
ただし、属性k1、n及びmの一つ以上の属性値が欠損値であるレコードiは除かれる。
統計量補完部13は、回帰補完部12による処理が行われた欠損学習レコード4を読み込んで、FIMLを用いて統計量補完を行う。ただし、統計量補完部13は、非欠損率が欠損閾値以下の属性については、補完精度が低くなるため、補完を行わない。欠損閾値は、設定閾値3に含まれる。回帰補完部12は、例えば、欠損閾値をファイルから読み込む。回帰補完部12は、端末からユーザによりマウスやキーボードを使って入力された欠損閾値を受け付けてもよい。
統計量補完部13は、1−Kk2>Tkであれば、Xik2を補完する。統計量補完部13は、レコード毎に欠損値を無視した尤度を式(9)を用いて計算し、全レコードの合計尤度を式(10)を用いて計算する。
Figure 2020154828
Figure 2020154828
ここで、μは平均であり、Σは分散共分散である。|Σ|はΣの行列式であり、(Xi−μ)′は(Xi−μ)の転置ベクトルであり、Σ-1はΣの逆行列である。
そして、統計量補完部13は、合計尤度を最大にする平均μと分散共分散Σを計算し、以下の式(11)に示すように、平均μで欠損値を補完する。
Figure 2020154828
削除部14は、回帰補完部12及び統計量補完部13による処理が行われた欠損学習レコード4を読み込んで、回帰補完部12でも統計量補完部13でも補完が行われず欠損値を含むレコードを削除し、欠損のない補完済学習レコード5を作成する。補完済学習レコード5は欠損値のなかった学習レコードとともに機械学習へ適用される。
次に、データ補完装置1によるデータ補完処理のフローについて説明する。図3は、データ補完装置1によるデータ補完処理のフローを示すフローチャートである。図3に示すように、データ補完装置1は、欠損閾値と相関閾値を読み込み(ステップS1)、全学習レコード2を用いて属性間の相関行列を計算する(ステップS2)。
そして、データ補完装置1は、(1−欠損率)が欠損閾値以下の属性の相関値を0に変換する(ステップS3)。なお、相関値の計算に式(3)〜式(6)を用いた場合には、ステップS3の処理は行われない。そして、データ補完装置1は、全欠損学習レコード4からレコードを一つ取り出し、レコードの有無を判定する(ステップS4)。
そして、レコード有の場合には、データ補完装置1は、欠損属性について相関値の絶対値が相関閾値より大である属性を探索し、相関閾値より大である属性の有無を判定する(ステップS5)。そして、データ補完装置1は、相関閾値より大である属性有の場合には、回帰補完を行って(ステップS6)、ステップS4に戻り、相関閾値より大である属性無の場合には、ステップS4に戻る。
ステップS4においてレコード無の場合には、データ補完装置1は、全欠損学習レコード4からレコードを一つ取り出し、レコードの有無を判定する(ステップS7)。そして、レコード有の場合には、データ補完装置1は、欠損属性について(1−欠損率)が欠損閾値より大である属性を探索し、欠損閾値より大である属性の有無を判定する(ステップS8)。そして、データ補完装置1は、欠損閾値より大である属性有の場合には、統計量補完を行って(ステップS9)、ステップS7に戻り、欠損閾値より大である属性無の場合には、ステップS7に戻る。
ステップS7においてレコード無の場合には、データ補完装置1は、全欠損学習レコード4からレコードを一つ取り出し、レコードの有無を判定する(ステップS10)。そして、レコード有の場合には、データ補完装置1は、レコードの欠損有無を判定する(ステップS11)。そして、データ補完装置1は、欠損有の場合には、レコードを削除して(ステップS12)、ステップS10に戻り、欠損無の場合には、学習データへ追加し(ステップS13)、ステップS10に戻る。
ステップS10においてレコード無の場合には、データ補完装置1は、学習データを補完済学習レコード5として出力する(ステップS14)。
このように、データ補完装置1は、レコード毎属性毎の欠損状況に応じて回帰補完又は統計量補完を行うので、適切な補完を行うことができる。
図4は、補完結果の一例を示す図である。図4において、下段の枠がない属性値は回帰補完による補完値であり、下段の長方形枠の属性値は統計補完による補完値であり、下段の楕円枠の属性値は補完不可の場合である。
図4に示すように、企業No.が「1」、「2」及び「Z」のレコードに対しては、相関が高い属性が見つかったため、回帰補完が行われている。企業No.が「3」のレコードの欠損率が低い「従業員数」と「人件費」に対しては、統計量補完が行われている。企業No.が「Y」のレコードは、回帰補完も統計量補完も行われなかったため、レコードが削除される。
図5は、機械学習への適用例を示す図である。図5では、補完済学習レコード5が、会社の翌年の成長(売上が20%以上増加)予測に用いられる。図5に示すように、例えば、企業No.が「1」のレコードは、正解ラベルとして「成長企業」がつけられ、学習データとして利用される。企業No.が「Y」のレコードは、学習データとして利用されない。
上述してきたように、実施例では、相関行列計算部11が、属性間の相関行列を計算する。そして、回帰補完部12が、欠損属性について、相関値の絶対値が相関閾値より大きい属性がある場合に、回帰補完を行う。そして、統計量補完部13が、欠損属性について、非欠損率が欠損閾値より大きい場合に、統計補完を行う。このため、データ補完装置1は、欠損値の補完精度を向上することができる。したがって、データ補完装置1は、データの欠損が機械学習の学習精度に与える影響を最小限に抑えることができる。
また、実施例では、回帰補完も統計補完も行われなかった欠損値を含むレコードを学習レコードから削除するので、データ補完装置1は、補完精度を向上することができる。
また、実施例では、相関行列計算部11は、相関値を欠損率で重みづけこともでき、補完精度と学習レコード数との間のトレードオフを調整することができる。
なお、データ補完装置1は、補完済学習レコード5の数が十分であるか否かを判定し、十分でない場合に、相関閾値や欠損閾値を小さくしてもよい。相関閾値や欠損閾値を調整することで、データ補完装置1は、補完精度と学習レコード数との間のトレードオフを調整することができる。
なお、実施例では、データ補完装置1について説明したが、データ補完装置1が有する構成をソフトウェアによって実現することで、同様の機能を有するデータ補完プログラムを得ることができる。そこで、データ補完プログラムを実行するコンピュータについて説明する。
図6は、実施例に係るデータ補完プログラムを実行するコンピュータのハードウェア構成を示す図である。図22に示すように、コンピュータ50は、メインメモリ51と、CPU(Central Processing Unit)52と、LAN(Local Area Network)インタフェース53と、HDD(Hard Disk Drive)54とを有する。また、コンピュータ50は、スーパーIO(Input Output)55と、DVI(Digital Visual Interface)56と、ODD(Optical Disk Drive)57とを有する。
メインメモリ51は、プログラムやプログラムの実行途中結果等を記憶するメモリである。CPU52は、メインメモリ51からプログラムを読み出して実行する中央処理装置である。CPU52は、メモリコントローラを有するチップセットを含む。
LANインタフェース53は、コンピュータ50をLAN経由で他のコンピュータに接続するためのインタフェースである。HDD54は、プログラムやデータを格納するディスク装置であり、スーパーIO55は、マウスやキーボード等の入力装置を接続するためのインタフェースである。DVI56は、液晶表示装置を接続するインタフェースであり、ODD57は、DVDの読み書きを行う装置である。
LANインタフェース53は、PCIエクスプレス(PCIe)によりCPU52に接続され、HDD54及びODD57は、SATA(Serial Advanced Technology Attachment)によりCPU52に接続される。スーパーIO55は、LPC(Low Pin Count)によりCPU52に接続される。
そして、コンピュータ50において実行されるデータ補完プログラムは、コンピュータ50により読み出し可能な記録媒体の一例であるDVDに記憶され、ODD57によってDVDから読み出されてコンピュータ50にインストールされる。あるいは、データ補完プログラムは、LANインタフェース53を介して接続された他のコンピュータシステムのデータベース等に記憶され、これらのデータベースから読み出されてコンピュータ50にインストールされる。そして、インストールされたデータ補完プログラムは、HDD54に記憶され、メインメモリ51に読み出されてCPU52によって実行される。
また、実施例では、学習レコードの欠損値を補完する場合について説明したが、データ補完装置1は、他のデータを補完してもよい。
1 データ補完装置
2 全学習レコード
3 設定閾値
4 欠損学習レコード
5 補完済学習レコード
11 相関行列計算部
12 回帰補完部
13 統計量補完部
14 削除部
50 コンピュータ
51 メインメモリ
52 CPU
53 LANインタフェース
54 HDD
55 スーパーIO
56 DVI
57 ODD

Claims (8)

  1. コンピュータに、
    複数のデータ項目それぞれに対応するデータ値をそれぞれに含む複数のデータレコード中に欠損データ値が存在する場合、前記欠損データ値に対応するデータ項目の、他のデータ項目との相関の度合いを算出し、
    前記相関の度合いが所定の相関閾値より大きい場合、前記他のデータ項目のデータ項目値に基づいて、前記欠損データ値の回帰的手法による補完を実行し、
    前記相関の度合いが前記相関閾値より大きくない場合、前記欠損データ値に対応するデータ項目の前記欠損データ値以外のデータ値に基づいて、前記欠損データ値の統計的手法による補完を実行する、
    処理を実行させることを特徴とするデータ補完プログラム。
  2. 前記統計的手法による補完を実行する処理を、データ項目の非欠損率が所定の欠損閾値より大きい場合に前記コンピュータに実行させることを特徴とする請求項1に記載のデータ補完プログラム。
  3. 補完を実行する処理が行われなかった欠損データ値を含むデータレコードを削除する処理を前記コンピュータにさらに実行させることを特徴とする請求項2に記載のデータ補完プログラム。
  4. 削除したデータレコードの数に基づいて、前記相関閾値と前記欠損閾値の少なくとも一方を調整する処理を前記コンピュータにさらに実行させることを特徴とする請求項3に記載のデータ補完プログラム。
  5. 前記相関の度合を算出する処理は、非欠損率が前記欠損閾値以下の属性を含む属性間の相関値を0とすることを特徴とする請求項1〜4のいずれか一つに記載のデータ補完プログラム。
  6. 前記相関の度合を算出する処理は、データ項目の欠損率を用いて重みづけを行うことを特徴とする請求項1〜4のいずれか一つに記載のデータ補完プログラム。
  7. コンピュータが、
    複数のデータ項目それぞれに対応するデータ値をそれぞれに含む複数のデータレコード中に欠損データ値が存在する場合、前記欠損データ値に対応するデータ項目の、他のデータ項目との相関の度合いを算出し、
    前記相関の度合いが所定の相関閾値より大きい場合、前記他のデータ項目のデータ項目値に基づいて、前記欠損データ値の回帰的手法による補完を実行し、
    前記相関の度合いが前記相関閾値より大きくない場合、前記欠損データ値に対応するデータ項目の前記欠損データ値以外のデータ値に基づいて、前記欠損データ値の統計的手法による補完を実行する、
    処理を実行することを特徴とするデータ補完方法。
  8. 複数のデータ項目それぞれに対応するデータ値をそれぞれに含む複数のデータレコード中に欠損データ値が存在する場合、前記欠損データ値に対応するデータ項目の、他のデータ項目との相関の度合いを算出する算出部と、
    前記算出部により算出された相関の度合いが所定の相関閾値より大きい場合、前記他のデータ項目のデータ項目値に基づいて、前記欠損データ値の回帰的手法による補完を実行する回帰補完部と、
    前記算出部により算出された相関の度合いが前記相関閾値より大きくない場合、前記欠損データ値に対応するデータ項目の前記欠損データ値以外のデータ値に基づいて、前記欠損データ値の統計的手法による補完を実行する統計量補完部と、
    を有することを特徴とするデータ補完装置。
JP2019053455A 2019-03-20 2019-03-20 データ補完プログラム、データ補完方法及びデータ補完装置 Pending JP2020154828A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019053455A JP2020154828A (ja) 2019-03-20 2019-03-20 データ補完プログラム、データ補完方法及びデータ補完装置
US16/819,259 US11562275B2 (en) 2019-03-20 2020-03-16 Data complementing method, data complementing apparatus, and non-transitory computer-readable storage medium for storing data complementing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019053455A JP2020154828A (ja) 2019-03-20 2019-03-20 データ補完プログラム、データ補完方法及びデータ補完装置

Publications (1)

Publication Number Publication Date
JP2020154828A true JP2020154828A (ja) 2020-09-24

Family

ID=72515824

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019053455A Pending JP2020154828A (ja) 2019-03-20 2019-03-20 データ補完プログラム、データ補完方法及びデータ補完装置

Country Status (2)

Country Link
US (1) US11562275B2 (ja)
JP (1) JP2020154828A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113918555A (zh) * 2021-10-29 2022-01-11 桂林航天工业学院 一种用于提升数据质量的数据治理方法
WO2023073837A1 (ja) * 2021-10-27 2023-05-04 富士通株式会社 データ修正プログラム、装置、及び方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115145906B (zh) * 2022-09-02 2023-01-03 之江实验室 一种面向结构化数据的预处理和补全方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006350923A (ja) * 2005-06-20 2006-12-28 Ricoh Co Ltd 交換部品推定システム、交換部品推定方法および交換部品推定プログラム
JP2008128781A (ja) * 2006-11-20 2008-06-05 Qol Kk 装着式温度測定装置および体温推定方法
US20160081645A1 (en) * 2014-09-19 2016-03-24 Fujifilm Corporation Tomographic image generation device and method, and recording medium
JP2016064119A (ja) * 2014-09-19 2016-04-28 富士フイルム株式会社 断層画像生成装置、方法およびプログラム
JP2017076205A (ja) * 2015-10-13 2017-04-20 株式会社セラク 環境監視システム及び同システムのネットワーク接続方法

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3654193B2 (ja) 2001-01-22 2005-06-02 日本電気株式会社 欠損データ補完方法及び欠損データ補完システム
EP1393196A4 (en) * 2001-05-07 2007-02-28 Health Discovery Corp CORES AND METHODS FOR SELECTING CORES FOR USE IN TEACHING MACHINES
AU2003253860A1 (en) * 2002-07-10 2004-01-23 The Regents Of The University Of Michigan Expression profile of lung cancer
US7225113B2 (en) * 2002-09-11 2007-05-29 Datarevelation, Inc Systems and methods for statistical modeling of complex data sets
US7043476B2 (en) * 2002-10-11 2006-05-09 International Business Machines Corporation Method and apparatus for data mining to discover associations and covariances associated with data
AU2003296939A1 (en) * 2002-12-10 2004-06-30 Stone Investments, Inc Method and system for analyzing data and creating predictive models
EP1614140A4 (en) * 2003-04-02 2008-05-07 Merck & Co Inc MASS DATA ANALYSIS TECHNIQUES
JP4676498B2 (ja) * 2005-10-07 2011-04-27 株式会社日立製作所 相関ルールを抽出する方法及びシステム
JP2011154554A (ja) 2010-01-27 2011-08-11 Nec Corp 欠損値予測装置、欠損値予測方法及び欠損値予測プログラム
JP5577793B2 (ja) * 2010-03-30 2014-08-27 ソニー株式会社 画像処理装置および方法、並びにプログラム
EP2579156B1 (en) * 2010-06-07 2019-08-28 Nec Corporation Malfunction detection device, obstacle detection method, and program recording medium
US8745058B1 (en) * 2012-02-21 2014-06-03 Google Inc. Dynamic data item searching
US20140180755A1 (en) * 2012-12-21 2014-06-26 Fluor Technologies Corporation Identifying, Assessing, And Tracking Black Swan Risks For An Engineering And Construction Program
JP6201556B2 (ja) 2013-09-17 2017-09-27 日本電気株式会社 予測モデル学習装置、予測モデル学習方法およびコンピュータプログラム
US9477781B2 (en) * 2014-04-08 2016-10-25 International Business Machines Corporation Adaptive variable selection for data clustering
US10572836B2 (en) * 2015-10-15 2020-02-25 International Business Machines Corporation Automatic time interval metadata determination for business intelligence and predictive analytics
JP6164311B1 (ja) * 2016-01-21 2017-07-19 日本電気株式会社 情報処理装置、情報処理方法、及び、プログラム
CN106991423B (zh) * 2016-01-21 2019-06-07 腾讯科技(深圳)有限公司 识别规格图片中是否包含水印的方法及装置
US20170330109A1 (en) * 2016-05-16 2017-11-16 Purepredictive, Inc. Predictive drift detection and correction
US11016730B2 (en) * 2016-07-28 2021-05-25 International Business Machines Corporation Transforming a transactional data set to generate forecasting and prediction insights
CN106557546B (zh) * 2016-10-20 2021-03-02 中国电力科学研究院 一种对特高压在线监测数据进行挖掘并评价的方法及***
CA3079209A1 (en) * 2017-10-16 2019-04-25 Massachusetts Institute Of Technology Systems, devices and methods for non-invasive hematological measurements
CN107992536B (zh) * 2017-11-23 2020-10-30 中山大学 基于张量分解的城市交通缺失数据填补方法
CN108650065B (zh) * 2018-03-15 2021-09-10 西安电子科技大学 基于窗口的流式数据缺失处理方法
US10565229B2 (en) * 2018-05-24 2020-02-18 People.ai, Inc. Systems and methods for matching electronic activities directly to record objects of systems of record
US20220093271A1 (en) * 2019-01-25 2022-03-24 Children's Hospital Medical Center Bayesian causal inference models for healthcare treatment using real world patient data
EP3686756A1 (en) * 2019-01-25 2020-07-29 Sage (UK) Limited Method and apparatus for grouping data records

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006350923A (ja) * 2005-06-20 2006-12-28 Ricoh Co Ltd 交換部品推定システム、交換部品推定方法および交換部品推定プログラム
JP2008128781A (ja) * 2006-11-20 2008-06-05 Qol Kk 装着式温度測定装置および体温推定方法
US20160081645A1 (en) * 2014-09-19 2016-03-24 Fujifilm Corporation Tomographic image generation device and method, and recording medium
JP2016064119A (ja) * 2014-09-19 2016-04-28 富士フイルム株式会社 断層画像生成装置、方法およびプログラム
JP2017076205A (ja) * 2015-10-13 2017-04-20 株式会社セラク 環境監視システム及び同システムのネットワーク接続方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023073837A1 (ja) * 2021-10-27 2023-05-04 富士通株式会社 データ修正プログラム、装置、及び方法
CN113918555A (zh) * 2021-10-29 2022-01-11 桂林航天工业学院 一种用于提升数据质量的数据治理方法
CN113918555B (zh) * 2021-10-29 2024-05-10 桂林航天工业学院 一种用于提升数据质量的数据治理方法

Also Published As

Publication number Publication date
US11562275B2 (en) 2023-01-24
US20200302324A1 (en) 2020-09-24

Similar Documents

Publication Publication Date Title
US20180047071A1 (en) System and methods for aggregating past and predicting future product ratings
US8024207B2 (en) Attribute modeler
US11562275B2 (en) Data complementing method, data complementing apparatus, and non-transitory computer-readable storage medium for storing data complementing program
JP7000766B2 (ja) 学習データ選択プログラム、学習データ選択方法、および、学習データ選択装置
JP6251383B2 (ja) 債務不履行となる企業の蓋然性の計算
JP4140915B2 (ja) 利用者の行動を支援するシステム
KR20180013102A (ko) 신용도를 평가하는 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
AU2020326407B2 (en) Extending finite rank deep kernel learning to forecasting over long time horizons
CN111598580A (zh) 一种基于XGBoost算法的区块链产品检测方法、***及装置
KR20240029504A (ko) 금융 서비스를 위한 데이터 이코노미 설정 방법 및 이러한 방법을 수행하는 장치
JP7451935B2 (ja) 予測プログラム、予測方法及び予測装置
JP7476715B2 (ja) 情報処理装置及び重複率見積もりプログラム
JP2016532949A (ja) 従来の予測子の将来的変化を予測するためにある期間にわたって精選され、分析されたデータシグナルから重大変化属性を導出するためのシステム及び方法
WO2020250810A1 (ja) 情報処理装置、情報処理方法およびプログラム
CA3160715A1 (en) Systems and methods for business analytics model scoring and selection
JP2022186541A (ja) ソースコード解析装置およびソースコード解析方法
WO2020054819A1 (ja) データ解析装置、データ解析方法及びプログラム
KR20210090902A (ko) Rnn-gan 시뮬레이션을 이용한 시장리스크 관리 시스템
WO2023084710A1 (ja) 推計システム、推計方法、及びプログラム
JP6002588B2 (ja) 曲線推定方法及び装置
KR102587477B1 (ko) 데이터 이코노미를 기반으로 금융 서비스를 제공하는 방법 및 이러한 방법을 수행하는 장치
Sun et al. Regularization for stationary multivariate time series
JP5826893B1 (ja) 変化点予測装置、変化点予測方法、及びコンピュータプログラム
KR102587476B1 (ko) 금융 서비스를 위한 금융 서비스 매트릭스 조정 방법 및 이러한 방법을 수행하는 장치
WO2021192196A1 (ja) 成長性推定システム、成長性推定装置、成長性推定方法、及び、成長性推定プログラムが格納された記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221115

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230509