JP2018068752A - 機械学習装置、機械学習方法及びプログラム - Google Patents

機械学習装置、機械学習方法及びプログラム Download PDF

Info

Publication number
JP2018068752A
JP2018068752A JP2016213482A JP2016213482A JP2018068752A JP 2018068752 A JP2018068752 A JP 2018068752A JP 2016213482 A JP2016213482 A JP 2016213482A JP 2016213482 A JP2016213482 A JP 2016213482A JP 2018068752 A JP2018068752 A JP 2018068752A
Authority
JP
Japan
Prior art keywords
values
data
input
value
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016213482A
Other languages
English (en)
Inventor
健太 大野
Kenta Ono
健太 大野
雄輔 木村
Yusuke Kimura
雄輔 木村
雅昭 三柴
Masaaki Mishiba
雅昭 三柴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LSI Medience Corp
Preferred Networks Inc
Original Assignee
LSI Medience Corp
Preferred Networks Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LSI Medience Corp, Preferred Networks Inc filed Critical LSI Medience Corp
Priority to JP2016213482A priority Critical patent/JP2018068752A/ja
Publication of JP2018068752A publication Critical patent/JP2018068752A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

【課題】欠損値の多いデータセットを用いてニューラルネットワークによる機械学習を行う場合において、出力の精度を向上させることや疾病予測に有用なマーカーを臨床検査データから予測する機械学習装置を提供する。【解決手段】機械学習装置は、複数の入力ユニットを含む入力層と、1以上の出力ユニットを含む出力層とを備えたニューラルネットワーク部と、複数の値を含む所定の入力データを整形し、入力層へ入力するための整形入力データを出力する前処理部12とを備える。また、前処理部12は、複数の値が欠損値であるか否かを示す情報、又は前記複数の値が欠損値である場合に用いる代替値を生成し、前記複数の値が欠損値であるか否かを示す情報、又は前記代替値を整形入力データとして出力する。【選択図】図1

Description

本技術は、機械学習装置、機械学習方法及びプログラムに関する。
従来、医療分野における治療効果については、多重ロジスティック回帰分析等の線形解析による評価が試みられてきた。しかしながら、様々な患者背景をもつ患者と、その治療効果については非線形な関係が存在するという報告もあった。
また、近年はNN(Neural Network:ニューラルネットワーク)を用いる技術も提案されている。例えば、潰瘍性大腸炎患者において、サイタフェレシスを施行した場合の予後を予測する方法であって、NNを利用するものが提案されている(例えば、特許文献1)。また、核酸アレイハイブリダゼーション情報を取得及び解析するNNも提案されている(例えば、特許文献2)。
特開2012−130408号公報 特開2014−96183号公報
Nair, V., & Hinton, G. E. (2010). Rectified linear units improve restricted boltzmann machines. In Proceedings of the 27th International Conference on Machine Learning (ICML-10) (pp. 807-814). Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems (pp. 1097-1105). Ioffe, S., & Szegedy, C. (2015). Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv:1502.03167. Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., & Salakhutdinov, R. (2014). Dropout: A simple way to prevent neural networks from overfitting. The Journal of Machine Learning Research, 15(1), 1929-1958.
ところで、臨床検査のデータは、一般的に統計解析には利用し難いという問題がある。臨床検査は、医師が病気を診断し治療していくために利用され、一般臨床検査、血液検査、生化学検査、免疫血清検査、細菌検査、病理検査、腫瘍関連検査、その他検査など、多くの検査項目がある。個々の患者に対しては項目を選択して検査されるため、患者全体(サンプル)の数は多いが、個々の患者においては未測定項目が大量に存在する(すなわち、欠損値の多い)データセットといえる。このようなデータは、統計解析には利用し難い。
一方、定期的に受診する特定健康診査や企業の健康診断においては一般的な検査しかされておらず、悪性腫瘍等の罹患を判定するためには画像検査や腫瘍マーカー等の特殊項目の検査を別途受診する必要がある。これは受診者にとっては複数回の検査を受診する手間がかかることや早期発見の障害となっている。
本発明は、欠損値の多いデータセットを用いてニューラルネットワークによる機械学習を行う場合において、出力の精度を向上させることや罹病予測に有用なマーカーを臨床検査データから予測することの、両方またはいずれか一方を目的とする。
本発明に係る機械学習装置は、複数の入力ユニットを含む入力層と、1以上の出力ユニットを含む出力層とを備えたニューラルネットワーク部と、複数の値を含む所定の入力データを整形し、入力層へ入力するための整形入力データを出力する前処理部とを備える。また、前処理部は、複数の値が欠損値であるか否かを示す情報、又は複数の値が欠損値である場合に用いる代替値を生成し、複数の値が欠損値であるか否かを示す情報、又は代替値を整形入力データとして出力する。
このようにすれば、欠損値であるか否かを示すフラグを入力することで、欠損値の多いデータセットを用いてニューラルネットワークによる機械学習を行う場合においても、出力の精度を向上させることができる。
また、所定の入力データは、量的データを含む統計データであり、前処理部は、量的データに対し所定の確率分布に従うように正規化するようにしてもよい。このようにすれば、NNの入力値として取り得る範囲に入力データをマッピングし、適切に学習できるようになる。
また、所定の入力データは、質的データを含む統計データであり、前処理部は、質的データに対し、当該質的データが取り得る値を識別するための識別情報に変換するようにしてもよい。このようにすれば、このような処理を行うことにより、質的データについてもNNを用いて適切に学習できるようになる。
また、所定の入力データは臨床検査の結果を示す臨床検査データであると共に、出力ユニットが出力する出力データは所定の疾病への羅病を予測する指標値であり、前処理部は、所定の疾病への罹病の可能性の程度を示す臨床検査データに1を加算した値の対数に正規化した値を指標値の教師値として求めるようにしてもよい。このようにすれば、測定値がゼロに近い分布になっている場合であっても偏りを緩和することができる。また、所定の疾病として、悪性腫瘍への罹病を予測するようにしてもよく、また、腫瘍マーカーの測定値を教師値としてもよい。このようにすれば、悪性腫瘍の存在を予測し得る。
なお、課題を解決するための手段に記載の内容は、本発明の課題や技術的思想を逸脱しない範囲で可能な限り組み合わせることができる。また、課題を解決するための手段の内容は、コンピュータ等の装置若しくは複数の装置を含むシステム、コンピュータが実行する方法、又はコンピュータに実行させるプログラムとして提供することができる。該プログラムはネットワーク上で実行されるようにすることも可能である。また、当該プログラムを保持する記録媒体を提供するようにしてもよい。
本発明によれば、欠損値の多いデータセットを用いてニューラルネットワークによる機械学習を行う場合において、出力の精度を向上させることや罹病予測に有用なマーカーを臨床検査データから予測することの、両方またはいずれか一方を可能にする。
罹病予測装置の機能ブロック図である。 コンピュータの一例を示す装置構成図である。 罹病予測処理の一例を示す処理フロー図である。 臨床検査データを説明するための図である。 予測モデルとして利用するNNの構造の概要を示す図である。 全結合層を説明するための図である。 ReLU層、ソフトプラス層、及びドロップアウト層を説明するための図である。 バッチ正規化層を説明するための図である。 ミニバッチを説明するための図である。 訓練の流れを説明するための図である。 腫瘍マーカーの一種であるフェリチンについて、特定健診項目に基づいて予測した結果を示す散布図である。
以下、本発明の実施形態について図面を用いて説明する。なお、実施形態は例示であり、本発明は下記の構成には限定されない。
<装置の機能構成>
図1は、本実施形態に係る罹病予測装置の機能ブロック図である。罹病予測装置1は、検査データ記憶部11と、前処理部12と、整形データ記憶部13と、学習処理部14と、予測モデル記憶部15と、予測処理部16と、結果記憶部17と、検証処理部18とを備える。罹病予測装置1は、後に詳述する通り、コンピュータが所定のプログラムを実行することにより実現される。検査データ記憶部11、整形データ記憶部13、予測モデル記憶部15及び結果記憶部17は、コンピュータが備える主記憶装置又は補助記憶装置である。また、前処理部12、学習処理部14、予測処理部16及び検証処理部18は、コンピュータが備えるプロセッサが所定のプログラムに従って動作することにより実現される。
検査データ記憶部11は、臨床検査の結果を示すデータ(以下、「臨床検査データ」とも呼ぶ)を記憶する。ここで、臨床検査とは、患者や傷病の状態を評価するための検査である。臨床検査は、患者から採取した血液、尿、便、細胞等を化学的又は形態学的に調べる検体検査と、心電図や脳波等を波形として表したり、超音波や磁力線等を利用して体内の状態を画像に表したりして患者を直接調べる生理機能検査とを含む。また、臨床検査データは、一般的に複数の項目を含み、検査結果を示すデータは、統計データにおける量的データ(数値データとも呼ぶ)と質的データ(カテゴリデータとも呼ぶ)とを含む。量的データは数量を表し四則演算ができる、間隔尺度や比例尺度等のデータである。また、質的データは、分類や種類を表す名義尺度や順序尺度等のデータである。質的データは、数値であるが値はカテゴリを意味し大小に意味がないデータと、数値でないデータとを含む。
前処理部12は、本実施形態に係る処理を行うために、臨床検査データを所定の形式に正規化する。正規化については、後に詳述する。また、正規化された臨床検査データ(「整形データ」とも呼ぶ)は、整形データ記憶部13に保持される。
学習処理部14は、整形データを用いて所定の学習処理を行う。具体的には、ニューラルネットワーク(NN: Neural Network)を利用して、臨床検査の結果を示すデータと
、所定の疾病の罹病の可能性の程度を示すデータとの関係を学習する。例えば、所定の疾病は悪性腫瘍であり、所定の疾病の罹病の可能性の程度を示すデータは、いわゆる腫瘍マーカーの値である。学習処理部14は、臨床検査の腫瘍マーカー以外の項目の結果を示す値から、腫瘍マーカーの値を予測するための予測モデルを生成する。予測モデルは、採用するNNの層数や各層に含まれるユニット数といった構造、各層に含まれるユニット(「
ノード」とも呼ぶ)の間の重み等のパラメータにより規定される。また、生成された予測モデルは、予測モデル記憶部15に保持される。
なお、本実施形態では、整形データのうち、所定の腫瘍マーカーの検査を行ったデータ群をラベル有りデータセットに、所定の腫瘍マーカーの検査を行っていないデータ群をラベルなしデータセットに分類する。また、ラベル有りデータセットのうち、予測モデルの生成に用いるものを訓練データセットに、予測モデルの評価に用いるものをテストデータセットに分類する。なお、訓練データセットには、ラベルなしデータセットを用いてもよい。すなわち、上述した学習処理部14は、整形データのうち訓練データセットを用いて予測モデルを生成する。なお、訓練データセットと、テストデータセットとは、無作為に分類するものとする。
予測処理部16は、学習処理部14が生成した予測モデルと、対象者の臨床検査の結果を正規化した整形データとを用いて、所定の疾病について罹病の可能性の程度を予測する予測処理を行う。本実施形態に係る予測処理は、テストデータセットを用いて行う。また、予測処理では、所定の腫瘍マーカーの予測値を求めることができる。予測処理で求められた、所定の疾病について罹病の可能性の程度を示す予測値は、結果記憶部17に保持される。なお、学習処理部14及び予測処理部16を、本発明に係るニューラルネットワーク部とも呼ぶ。
検証処理部18は、予測モデルの精度を評価する。具体的には、テストデータセットを用いて求めた腫瘍マーカーの予測値について、実測値との相関を検証する。このようにして所定の精度を有すると評価された予測モデルは、ラベルなしデータセットを用いて予測処理を行った場合にも所定の精度で腫瘍マーカーの値を予測できると考えられる。
<装置構成>
図2は、コンピュータの一例を示す装置構成図である。罹病予測装置1は、例えば図2に示すようなコンピュータである。図2に示すコンピュータ1000は、CPU(Central Processing Unit)1001、主記憶装置1002、補助記憶装置1003、通信IF
(Interface)1004、入出力IF(Interface)1005、ドライブ装置1006、通信バス1007を備えている。CPU1001は、プログラム(「ソフトウェア」又は「アプリケーション」とも呼ぶ)を実行することにより本実施の形態に係る処理等を行う。主記憶装置1002は、CPU1001が読み出したプログラムやデータをキャッシュしたり、CPUの作業領域を展開したりする。主記憶装置は、具体的には、RAM(Random
Access Memory)やROM(Read Only Memory)等である。補助記憶装置1003は、CPU1001により実行されるプログラムや、本実施の形態で用いる設定情報などを記憶する。補助記憶装置1003は、具体的には、HDD(Hard-disk Drive)やSSD(Solid State Drive)、フラッシュメモリ等である。主記憶装置1002や補助記憶装置1003は、検査データ記憶部11、整形データ記憶部13、予測モデル記憶部15及び結果記憶部17として働く。なお、説明の便宜上、図1では複数の記憶部(検査データ記憶部11、整形データ記憶部13、予測モデル記憶部15及び結果記憶部17)を示したが、物理的には1つの記憶装置でも複数の記憶装置でもよい。通信IF1004は、他のコンピュータとの間でデータを送受信する。罹病予測装置1は、通信IF1004を介して接続された図示していないコンピュータから健診情報やレセプト情報を受信するようにしてもよい。通信IF1004は、具体的には、有線又は無線のネットワークカード等である。入出力IF1005は、入出力装置と接続され、ユーザから入力を受け付けたり、ユーザへ情報を出力したりする。入出力装置は、具体的には、キーボード、マウス、ディスプレイ、タッチパネル等である。ドライブ装置1006は、磁気ディスク、光磁気ディスク、光ディスク等の記憶媒体に記録されたデータを読み出したり、記憶媒体にデータを書き込んだりする。そして、以上のような構成要素が、通信バス1007で接続されている。
なお、これらの構成要素はそれぞれ複数設けられていてもよいし、一部の構成要素(例えば、ドライブ装置1006)を設けないようにしてもよい。また、入出力装置がコンピュータと一体に構成されていてもよい。また、ドライブ装置1006で読み取り可能な可搬性の記憶媒体や、フラッシュメモリのような可搬性の補助記憶装置1003、通信IF1004などを介して、本実施の形態で実行されるプログラムが提供されるようにしてもよい。そして、CPU1001がプログラムを実行することにより、上記のようなコンピュータを図1に示した罹病予測装置1として働かせる。
なお、図1に例示した機能ブロックの一部を複数のコンピュータによって分担したり、処理するデータセットの一部を複数のコンピュータによって並列に処理したりしてもよい。また、コンピュータは、ネットワーク上のいわゆるクラウドサービスを提供するものであってもよい。
<罹病予測処理>
図3は、罹病予測処理の一例を示す処理フロー図である。まず、罹病予測装置1の前処理部12は、検査データ記憶部11の臨床検査データに対し所定の前処理を行い、正規化されたデータを整形データ記憶部13に記憶させる(図3:S1)。
図4は、臨床検査データを説明するための図である。臨床検査データは、データ管理項目、特定健診項目、腫瘍マーカー等の項目を列に含む。データ管理項目は、顧客コード、受付日、固有ID、性別、年齢等、ある患者が受診した1回の健康診断を一意に特定するための項目を含む。特定健診項目は、AST(GOT)、ALT(GPT)、γ−GT(γ−GTP)、中性脂肪、HDL−コレステロール、LDL−コレステロール、空腹時血糖、HbA1c、糖、蛋白、ヘマトクリット、血色素量(ヘモグロビン)、赤血球数、クレアチニン、eGFR、推算値、尿酸検査等の項目を含む。また、腫瘍マーカーは、AFP、CEA、CA15−3、CA19−9、CA125、CA602、TPA、PSA、CYFRA、SCC、NSE、SLX、hCG、PIVKA−II、フェリチン、エラスターゼ1、p53抗体等の項目を含む。なお、図4の検査項目は一例であり、その他の項目を含んでいてもよい。受診者が健康診断を受診すると、図4に示すデータの1レコードが生成される。一般的に、受診するのは一部の項目であり、未測定の項目は欠損値となっている。
本実施形態では、図4に示した項目のうち、特定健診項目の測定値を要素とする特徴ベクトルを入力値とし、所定の腫瘍マーカーの測定値を教師値(ラベル)として、NNによる機械学習を行う。前処理では、入力値に対して例えば以下に示す3種の正規化を行うものとする。
まず、検査項目の結果を示すデータのうち量的データに対し、いわゆる白色化を行う。白色化は、訓練データセットにおける平均が0、分散が1となるように測定値を変換する処理である。d番目の検査項目について訓練データセットの測定値の算術平均をm、共分散をsとすると、受診者nのd番目の検査項目の測定値vndは以下の式(1)により求められる。ただしここで、Vndは変換前の測定値を、Vnd’は変換後の測定値を、それぞれ表す。
nd’=(vnd−m)/s ・・・(1)
また、検査項目の結果を示すデータのうち質的データについて、検査項目ごとに出現し得る値を識別するためのone−hotベクトルに変換する。具体的には、ラベル有りデータ及びラベルなしデータに出現し得る値の種類と同数の桁を有する固定長のビット列を定義し、値に対応する桁が1、他の桁が0となるビット列(one−hotベクトル)に変換する。具体的には、出現し得る値に非負整数の連続番号のIDを割り当て、当該ID
をone−hotベクトルに変換する。例えば、ある検査項目の結果として、ラベル有りデータ及びラベルなしデータに、「A」、「B」、「(+)」及び「20」という4種類の質的データが出現する場合、これらの検査結果を4桁のone−hotベクトル「0001」、「0010」、「0100」及び「1000」に変換することができる。そして、各桁の値を特徴ベクトルの要素として、NNの入力ユニットに与える。
また、各検査項目について、測定されたか否かを示す情報を生成する。具体的には、検査結果を示すデータとは別に、各データが欠損値であるか否かを示すフラグを検査項目ごとに生成する。この処理により、NNへの入力データは検査項目の数の2倍になる。このような入力値を生成することにより、入力値に欠損値が多い場合であっても予測モデルの精度を向上させることができる。
また、教師値については、測定値に1を加えた値の対数を教師値として正規化する。すなわち、腫瘍マーカーの値をtとすると、正規化後の値t’は、以下の式(2)により求められる。
t’=log(1+t) ・・・(2)
このような関数を「log1p」とも呼ぶ。log1pを用いることで、測定値の値がゼロに近い場合でも精度を保つことができる。ここで、腫瘍マーカーの多くは、ゼロ以上の値であって所定の閾値以上の場合に異常であると判定される指標である。サンプルの多くはゼロに近い正常値に偏っているところ、log1pを用いることで分布の偏りを緩和することができる。
前処理の後、学習処理部14は、整形データ記憶部13が保持している正規化後のデータを用いて所定の学習処理を行い、生成した予測モデルを予測モデル記憶部15に記憶させる(図3:S2)。
図5は、予測モデルとして利用するNNの構造の概要を示す図である。図5では、長方形でデータの変換を行う層群を示し、他の平行四辺形で入出力データを示している。入出力データに記した値は入出力データの数であり、Dは検査項目の数である。また、矢印はデータの流れを示している。すなわち、図5の予測モデルは、入力データから出力データに向かって、5つの層群(Composite A1〜Composite A4、Composite B)を介し、D×2
次元、1024次元、256次元、64次元、16次元、1次元の順にデータ(ユニット数)を変換している。なお、ここでは、複数のユニット群の間での変換処理についても「層」と呼んでいる。
また、図5に示すように、層群Composite A1〜A4は、全結合処理を行う全結合層「Linear」、バッチ正規化処理を行うバッチ正規化層「BN(Batch Normalization)」
、ドロップアウト処理を行うドロップアウト層「Dropout」、ReLU処理を行うReLU層「ReLU」を含み、層群Composite Bは、全結合層、バッチ正規化層、ソフ
トプラス処理を行うソフトプラス層「SoftPlus」を含む。層群Composite A1の全結合層の入力ユニットが入力層、層群Composite Bのドロップアウト層の出力ユニットが
出力層、これらの間にあるユニットが中間層(隠れ層)に相当する。
図6は、全結合層を説明するための図である。全結合層は、入力側層に属するD個のユニットxに対して重みに応じた処理を行い、出力側の層に属するE個のユニットyの値を算出する。図6の例では、入力側の層に属するユニットxよりも、出力側の層に属するユニットyの方が少ない(D>E)が、入力側から出力側へユニット数が増加する構成や入力側と出力側とでユニット数が同数の構成を採用してもよい。また、入力側の層に属するユニットxの各々と、出力側の層に属するユニットyの各々とは、それぞれ結合されてい
る。x〜xは、要素数Dのベクトルであり、行列で表すことができる。また、y〜yは、要素数Eのベクトルであり、以下の式(3)で求められる。
y=Wx+b ・・・(3)
ここで、Wは重みであり、D×Eの行列で表される。また、bはバイアス項であり、要素数Dのベクトルで表すことができる。学習処理においては、NNの最終的な出力値と教師値とに応じて重みWのパラメータを適宜修正することにより、NNに特定健診項目の結果と腫瘍マーカーの測定値との関係を学習させる。パラメータの修正については、バックプロパゲーション等、既存の技術を利用することができる。
また、図7は、ReLU層、ソフトプラス層、及びドロップアウト層を説明するための図である。ReLU層は、入力側の層に属するD個のユニットxに入力される値の各々に対し、非線形関数σを適用したテンソルを算出し、出力側のユニットyの値とする。当該関数はReLUと呼ばれる活性化関数の一種であり、yは以下の式(4)で求められる。y=σ(x) (i=1,2,・・・,D) ・・・(4)
また、ソフトプラス層における層間の接続は、図7に示す通りReLU層と同様の構造である。入力側の層に属するD個のユニットxに入力される値の各々に対し、以下の式(5)で表される関数の値を算出し、出力側のユニットyの値とする。
y=softplus(x)
=log(1+exp(ax))/a ・・・(5)
なお、aはソフトプラスの勾配の大きさを決めるパラメータである。ソフトプラス層の出力は、正の値になる。腫瘍マーカーの値は前処理においてゼロ以上となるように正規化されており、これに合わせてソフトプラス層により予測モデルの出力を正の値としている。なお、ソフトプラス層はゼロを出力することができないが、腫瘍マーカー等、臨床検査の測定値を予測する上では影響は少ないといえる。
また、ドロップアウト層における層間の接続も、図7に示す通りであるが、ドロップアウト層の処理は訓練時(学習時)とテスト時(予測モデルの評価時)とで異なる。訓練時においては、入力側の層に属するD個のユニットxに入力される値について、所定の確率αでゼロにする。ここでは、各ユニットに入力される値は独立に確率αで0に置換される。すなわち、入力されるデータの順序や患者の同否に関わらず、独立に判断される。出力側のユニットyの値は、次の式(6)で表すことができる。
=0(確率α)、又は
(確率1−α) ・・・(6)
また、テスト時においては、以下の式(7)に示す通り、入力側の層に属するユニットxに入力される値をそのまま出力側のユニットyの値とする。
y=x ・・・(7)
このようなドロップアウト層を取り入れることで、過学習を防ぐ効果がある。
図8は、バッチ正規化層を説明するための図である。バッチ正規化層も、訓練時とテスト時とで一部異なる処理を行う。また、バッチ正規化層は3層を含み、2段階の処理を行う。訓練時においては、1段階目として、入力側の層に属するD個のユニットについて次元ごとに平均が0、分散が1となるように値を正規化する。例えば、n番目の受診者の入力データをx=(xn1,xn2,・・・,xnD)、n番目の受診者の正規化後の値をy=(yn1,yn2,・・・,ynD)とすると、すべての訓練データを用いて求めたd番目の次元の特徴値の平均μ及び標準偏差σを用いて、ユニットyndの値は以下の式(8)で求められる。
nd=(xnd−μ)/σ ・・・(8)
また、2段階目として、各次元の値に対し、所定のアフィン変換を行う。n番目のユニットの値をz=(zn1,zn2,・・・,znD)とすると、ユニットzndの値は以
下の式(9)で求められる。
nd=αnd+β ・・・(9)
なお、α及びβは所定のパラメータであり、訓練によってチューニングされる対象である。また、テスト時は、訓練時とほぼ同様の処理を行うが、平均及び標準偏差は、訓練時に求めた値を用いる。このようなバッチ正規化層によれば、学習を早める効果がある。
なお、入力データは、所定数をいわゆるミニバッチにまとめて処理するようにしてもよい。ミニバッチは、所定のサイズの行列であり、ある検査項目についての複数の患者の検査値を要素として含む。このような行列を用いることで、複数のデータに対してまとめて同一の処理を行うことができるため処理速度を向上させることができる。
図9は、ミニバッチを説明するための図である。図9の例では、上述した全結合層の処理を行っている。具体的には、3×5の2次元行列で表される入力層側のユニットに対し、5×4の2次元行列で表される重みWを乗じ、3×4の2次元行列で表される出力層側のユニットの値を算出している。ミニバッチのサイズは、例えば使用するGPUのメモリ容量に応じて適宜設定することができる。
また、学習処理においては、訓練データセットを複数回繰り返し入力してもよい。図10は、訓練の流れを説明するための図である。図10の例では、訓練データセットをN回繰り返しNNに入力している。なお、訓練データセットを一巡させることをEpochという単位で表している。また、一回のEpochにおいては、図10の右に示すような処理を行う。すなわち、まず訓練データセットに含まれるデータの入力順をランダムに並べ替え、上述したミニバッチによるデータの入力とパラメータ更新とを、訓練データセットに含まれる全データ分繰り返す。
以上のようにして、NNを用いた学習処理(図3:S2)を行う。
また、罹病予測装置1の予測処理部16は、生成された予測モデルを評価するモデル評価処理を行う(図3:S3)。モデル評価処理は、テストデータセットと、学習処理で生成された予測モデルとを用いて所定の疾病について罹病の可能性の程度を予測する。すなわち、図5に示したNNにより所定の腫瘍マーカーの値を予測する。なお、モデル評価処理においては、パラメータの更新は行わない。
また、モデル評価処理においては、罹病予測装置1の検証処理部18が、予測値と実測値とを用いて予測精度を評価する。精度評価は、例えば二乗平均誤差(MSE:Mean Square Error)を用いて行うことができる。m番目のテストデータに対する腫瘍マーカーの
予測値をt、実測値をyとすると、MSEは以下の式(10)で求めることができる。
Figure 2018068752
なお、Mはテストデータセットのサンプル数である。
その後、罹病予測装置1の予測処理部16は、生成された予測モデルとラベルなしデータとを用いて、予測処理を行う(図3:S4)。すなわち、図5に示したNNにより所定の腫瘍マーカーの値を予測する。なお、予測処理においても、パラメータの更新は行わない。モデル評価処理においてある程度の精度を有すると評価された予測モデルによれば、ラベルなしデータに対しても同程度の精度で所定の疾病について罹病の可能性を予測でき
ると期待できる。
<効果>
本実施形態では、学習処理部14及び予測処理部16は、NNを用いた学習処理及び予測処理を行う。具体的には、複数の入力ユニットを含む入力層と、1以上の出力ユニットを含む出力層とを備えたニューラルネットワークを用いることで、複数の独立変数の組み合わせと従属変数との相関や、独立変数と従属変数との非線形な関係性がある場合であっても、特徴を学習して予測し得る。なお、ニューラルネットワークは、入力層及び出力層の間に、1以上の隠れユニットを含む中間層を備えるものであってもよい。このようなニューラルネットワークを採用することで、学習の性能が向上し得る。また、図5〜図8に示したように、ニューラルネットワークは、段階的に複数のユニット群を含み、ユニット群の間において所定の関数に基づく値の変換を行うものであってもよい。
また、前処理において、入力データとなる検査項目の各々について当該値が欠損値であるか否かを示す情報を生成し、検査項目の測定値と、各値が欠損値であるか否かを示す情報(フラグ)とを入力ユニットに入力する。欠損値の多いデータセットを用いて機械学習を行うのは一般的に困難であるが、本実施形態では欠損値であるか否かを示すフラグを入力することで予測精度を向上させている。すなわち、欠損値の多いデータセットを用いてニューラルネットワークによる機械学習を行う場合において、出力の精度を向上させることができる。
また、特定健診項目は受診者が比較的多いため、特定健診項目を入力データとすることで、入力データにおける欠損値の占める割合を低く抑えることができる。ただし、入力データに用いる臨床検査データは、特定健診項目に限定されず、予測モデルの精度が向上するように適宜選択すればよい。なお、特定健診項目であっても必ずしも受診される項目ではなく、上述した「欠損値の多いデータセット」に当たるものとする。
また、前処理においては、入力データのうちいわゆる量的データに対して所定の確率分布に従うようにいわゆる白色化を行っている。このようにすることで、NNの入力値として取り得る範囲に測定データをマッピングし、適切に学習できるようにしている。
また、前処理においては、入力データのうちいわゆる質的データに対して、これを示すカテゴリを一意に特定できる識別情報に変換している。なお、本実施形態では、具体的にはOne−hotベクトルに変換したが、このような例には限定されない。このような処理を行うことにより、質的データについてもNNを用いて適切に学習できるようになる。
また、前処理においては、教師値である腫瘍マーカーについて、log1pの値に変換した。すなわち、測定値に1を加算した値の対数をとることにより、測定値がゼロに近い分布になっている場合であっても偏りを緩和するようにしている。
<実施例>
図11は、腫瘍マーカーの一種であるフェリチンについて、特定健診項目に基づいて予測した結果を示す散布図である。横軸は実測値、縦軸は予測値である。また、(A)は、訓練データセットでの散布図である。(B)は、テストデータセットのうち、検査項目数が11以上のサンプルをプロットした散布図である。(C)は、テストデータセットのうち、検査項目数が10以下のサンプルをプロットした散布図である。なお、フェリチンの値は、log1p関数による変換を行っている。
データセットとして、2015年に測定された検査結果を利用し、学習処理と予測処理を行った。測定された検査項目数は、231851140件であった。また、ラベル有り
データセットの90%を訓練データセットとし、10%をテストデータセットとした。テストデータにおける実測値と予測地との相関係数は0.68であった。また、実測値と特定健診項目の各々の値との相関係数はせいぜい0.2弱(図示せず)であり、上述した実施形態に係るNNにより特定健診項目とフェリチンとの関係を学習できたと評価できる。
<欠損値フラグの変形例>
上述の例では、各測定値に対し欠損値であるか否かを示す欠損値フラグを加え、NNの入力値とした。欠損値フラグを追加する代わりに、測定されなかった検査項目に対して、所定の代替値を補って入力値としてもよい。代替値は、検査項目の測定値としてとり得る値を、例えば他者の測定値に基づいて決定して用いるようにしてもよいし、欠損値であることを示す他の情報を用いるようにしてもよい。例えば、次のような値を用いることができる。
(1)測定値の統計値
検査項目について測定した他者の測定値の平均値、中央値、分位値(四分位値)、最大値、最小値等といった、標本の代表値を、当該項目について測定しなかった者の欠損値に代入し、入力値としてもよい。また、代表値には乱数によって生成されたノイズをさらに加え、入力値として用いるようにしてもよい。
(2)確率分布を利用した値
例えばガウス分布やベルヌーイ分布等の所定の確率分布、または複数の確率分布の組合せに従う値を欠損値に代入し、入力値としてもよい。
(3)他者の測定値
検査項目について測定した他者の測定値を、そのまま用いるようにしてもよい。例えば、他者の測定値を無作為に抽出し、欠損値の代替値として用いる。
(4)所定の値
例えばゼロ等、所定の値を欠損値の代替値として用いるようにしてもよい。測定値としてゼロはあり得ないような検査項目の場合、実質的にゼロは欠損値であることを表す情報といえる。また、欠損値の代替値として、欠損値であることを示す特別な情報(例えば、NaN(Not a Number))を用いてもよい。
なお、測定値が質的データであるような検査項目の場合は、上述のone−hotベクトルに欠損値であるか否かを表す桁(ビット)をさらに設けることにより、欠損値フラグと同様の情報を付加することができる。
<その他の変形>
NNの構造は、図3に示した例には限定されない。上述したNNは、入力層と出力層との間に1層以上の中間層を備えているが、層の数や、各層に属するユニットの数等は、適宜変更することができる。例えば、中間層を備えないNNであってもよい。また、入力データは、特定健診項目には限定されず、任意の臨床検査データの組み合わせを採用することができる。同様に、予測データも腫瘍マーカーには限定されない。
また、図1に示した罹病予測装置1は、上述した処理の一部を実行するものであってもよい。例えば、図1のすべての機能部を有し、主として予測モデルの生成を行う装置であってもよいし、例えば図1の学習処理部14を備えず、予め生成し予測モデル記憶部15に記憶させた予測モデルと、腫瘍マーカーの検査を行っていない患者の健診データとを用いて悪性腫瘍の有無を予測する装置であってもよい。学習処理を行い予測モデルを生成する装置、及び学習処理により生成した予測モデルを利用して予測処理を行う装置を含めて
本発明における機械学習装置とも呼ぶ。
本発明は、上述した処理を実行するコンピュータプログラムや、当該プログラムを記録した、コンピュータ読み取り可能な記録媒体を含む。当該プログラムが記録された記録媒体は、プログラムをコンピュータに実行させることにより、上述の処理が可能となる。
ここで、コンピュータ読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータから読み取ることができる記録媒体をいう。このような記録媒体のうちコンピュータから取り外し可能なものとしては、フレキシブルディスク、光磁気ディスク、光ディスク、磁気テープ、メモリカード等がある。また、コンピュータに固定された記録媒体としては、HDDやSSD(Solid State Drive)、ROM等がある。
1 罹病予測装置
11 検査データ記憶部
12 前処理部
13 整形データ記憶部
14 学習処理部
15 予測モデル記憶部
16 予測処理部
17 結果記憶部
18 検証処理部

Claims (7)

  1. 複数の入力ユニットを含む入力層と、1以上の出力ユニットを含む出力層とを備えたニューラルネットワーク部と、
    複数の値を含む所定の入力データを整形し、前記入力層へ入力するための整形入力データを出力する前処理部と、
    を備え、
    前記前処理部は、前記複数の値が欠損値であるか否かを示す情報、又は前記複数の値が欠損値である場合に用いる代替値を生成し、前記複数の値が欠損値であるか否かを示す情報、又は前記代替値を前記整形入力データとして出力する
    機械学習装置。
  2. 前記所定の入力データは、量的データを含む統計データであり、
    前記前処理部は、前記量的データに対し所定の確率分布に従うように正規化する
    請求項1に記載の機械学習装置。
  3. 前記所定の入力データは、質的データを含む統計データであり、
    前記前処理部は、前記質的データに対し、当該質的データが取り得る値を識別するための識別情報に変換する
    請求項1又は2に記載の機械学習装置。
  4. 前記所定の入力データは臨床検査の結果を示す臨床検査データであると共に、前記出力ユニットが出力する出力データは所定の疾病への羅病を予測する指標値であり、
    前記前処理部は、前記所定の疾病への罹病の可能性の程度を示す臨床検査データに1を加算した値の対数に正規化した値を前記指標値の教師値として求める
    請求項1から3の何れか一項に記載の機械学習装置。
  5. 前記所定の疾病は悪性腫瘍である
    請求項4に記載の機械学習装置。
  6. 複数の入力ユニットを含む入力層と、1以上の出力ユニットを含む出力層とを備えたニューラルネットワークを用いて予測モデルを生成すると共に、当該予測モデルを用いて予測処理を行うステップと、
    複数の値を含む所定の入力データを整形し、前記入力層へ入力するための整形入力データを出力する前処理ステップと、
    をコンピュータが実行し、
    前記前処理ステップにおいて、前記複数の値が欠損値であるか否かを示す情報、又は前記複数の値が欠損値である場合に用いる代替値を生成し、前記複数の値が欠損値であるか否かを示す情報、又は前記代替値を前記整形入力データとして出力する
    機械学習方法。
  7. 複数の入力ユニットを含む入力層と、1以上の出力ユニットを含む出力層とを備えたニューラルネットワークを用いて予測モデルを生成すると共に、当該予測モデルを用いて予測処理を行うステップと、
    複数の値を含む所定の入力データを整形し、前記入力層へ入力するための整形入力データを出力する前処理ステップと、
    をコンピュータに実行させ、
    前記前処理ステップにおいて、前記複数の値が欠損値であるか否かを示す情報、又は前記複数の値が欠損値である場合に用いる代替値を生成し、前記複数の値が欠損値であるか否かを示す情報、又は前記代替値を前記整形入力データとして出力する
    プログラム。
JP2016213482A 2016-10-31 2016-10-31 機械学習装置、機械学習方法及びプログラム Pending JP2018068752A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016213482A JP2018068752A (ja) 2016-10-31 2016-10-31 機械学習装置、機械学習方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016213482A JP2018068752A (ja) 2016-10-31 2016-10-31 機械学習装置、機械学習方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2018068752A true JP2018068752A (ja) 2018-05-10

Family

ID=62111791

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016213482A Pending JP2018068752A (ja) 2016-10-31 2016-10-31 機械学習装置、機械学習方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2018068752A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019165123A (ja) * 2018-03-20 2019-09-26 株式会社日立ハイテクノロジーズ 探索装置、探索方法及びプラズマ処理装置
JP2020160590A (ja) * 2019-03-25 2020-10-01 合同会社H.U.グループ中央研究所 学習モデル生成方法、コンピュータプログラム及び情報処理装置
WO2021019789A1 (ja) 2019-08-01 2021-02-04 富士通株式会社 制御方法、制御プログラムおよび情報処理装置
CN112370339A (zh) * 2020-11-10 2021-02-19 四川大学华西医院 基于机器学习的手部刺激训练装置的实现方法
CN112370340A (zh) * 2020-11-10 2021-02-19 四川大学华西医院 基于机器学习的足部刺激训练装置的实现方法
CN112370341A (zh) * 2020-11-10 2021-02-19 四川大学华西医院 基于机器学习的耳部刺激训练装置的实现方法
US20210295173A1 (en) * 2020-03-23 2021-09-23 Samsung Electronics Co., Ltd. Method and apparatus for data-free network quantization and compression with adversarial knowledge distillation
JP2022512023A (ja) * 2019-07-19 2022-02-01 深▲セン▼市商▲湯▼科技有限公司 バッチ正規化データの処理方法及び装置、電子機器及び記憶媒体
JP2022517898A (ja) * 2018-11-14 2022-03-11 キナプス 予測モデルを決定するための方法、mkマーカのkアプレットの進展を予測するための方法および関連デバイス
KR20220109529A (ko) * 2021-01-28 2022-08-05 주식회사 피씨티 복수의 기계학습모델에 기반한 고위험 선종 관련 정보 예측 방법 및 시스템
KR20220109527A (ko) * 2021-01-28 2022-08-05 주식회사 피씨티 기계학습모델에 기반한 선종 관련 정보 예측 방법 및 시스템
WO2023228405A1 (ja) * 2022-05-27 2023-11-30 日本電信電話株式会社 処理装置、処理方法およびプログラム

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019165123A (ja) * 2018-03-20 2019-09-26 株式会社日立ハイテクノロジーズ 探索装置、探索方法及びプラズマ処理装置
JP7137943B2 (ja) 2018-03-20 2022-09-15 株式会社日立ハイテク 探索装置、探索方法及びプラズマ処理装置
JP2022517898A (ja) * 2018-11-14 2022-03-11 キナプス 予測モデルを決定するための方法、mkマーカのkアプレットの進展を予測するための方法および関連デバイス
JP2020160590A (ja) * 2019-03-25 2020-10-01 合同会社H.U.グループ中央研究所 学習モデル生成方法、コンピュータプログラム及び情報処理装置
JP7299047B2 (ja) 2019-03-25 2023-06-27 合同会社H.U.グループ中央研究所 学習モデル生成方法、コンピュータプログラム及び情報処理装置
JP2022512023A (ja) * 2019-07-19 2022-02-01 深▲セン▼市商▲湯▼科技有限公司 バッチ正規化データの処理方法及び装置、電子機器及び記憶媒体
WO2021019789A1 (ja) 2019-08-01 2021-02-04 富士通株式会社 制御方法、制御プログラムおよび情報処理装置
US20210295173A1 (en) * 2020-03-23 2021-09-23 Samsung Electronics Co., Ltd. Method and apparatus for data-free network quantization and compression with adversarial knowledge distillation
CN112370340A (zh) * 2020-11-10 2021-02-19 四川大学华西医院 基于机器学习的足部刺激训练装置的实现方法
CN112370341A (zh) * 2020-11-10 2021-02-19 四川大学华西医院 基于机器学习的耳部刺激训练装置的实现方法
CN112370339A (zh) * 2020-11-10 2021-02-19 四川大学华西医院 基于机器学习的手部刺激训练装置的实现方法
KR20220109529A (ko) * 2021-01-28 2022-08-05 주식회사 피씨티 복수의 기계학습모델에 기반한 고위험 선종 관련 정보 예측 방법 및 시스템
KR20220109527A (ko) * 2021-01-28 2022-08-05 주식회사 피씨티 기계학습모델에 기반한 선종 관련 정보 예측 방법 및 시스템
KR102490077B1 (ko) 2021-01-28 2023-01-18 주식회사 피씨티 복수의 기계학습모델에 기반한 고위험 선종 관련 정보 예측 방법 및 시스템
KR102577294B1 (ko) * 2021-01-28 2023-09-13 주식회사 피씨티 기계학습모델에 기반한 선종 관련 정보 예측 방법 및 시스템
WO2023228405A1 (ja) * 2022-05-27 2023-11-30 日本電信電話株式会社 処理装置、処理方法およびプログラム

Similar Documents

Publication Publication Date Title
JP2018068752A (ja) 機械学習装置、機械学習方法及びプログラム
Ghaderzadeh et al. Deep convolutional neural network–based computer-aided detection system for COVID-19 using multiple lung scans: design and implementation study
Rangarajan et al. A preliminary analysis of AI based smartphone application for diagnosis of COVID-19 using chest X-ray images
Köse et al. Effect of missing data imputation on deep learning prediction performance for vesicoureteral reflux and recurrent urinary tract infection clinical study
Erdaw et al. Machine learning model applied on chest X-ray images enables automatic detection of COVID-19 cases with high accuracy
Ghaderzadeh et al. Efficient framework for detection of COVID‐19 omicron and delta variants based on two intelligent phases of CNN models
Ciu et al. Logistic regression prediction model for cardiovascular disease
Wang et al. Semantic-powered explainable model-free few-shot learning scheme of diagnosing COVID-19 on chest x-ray
Kumar et al. LiteCovidNet: A lightweight deep neural network model for detection of COVID‐19 using X‐ray images
Oloko-Oba et al. Tuberculosis abnormality detection in chest X-rays: a deep learning approach
Ranjan et al. Transfer learning based approach for pneumonia detection using customized VGG16 deep learning model
Wang et al. Bone metabolic biomarker-based diagnosis of type 2 diabetes osteoporosis by support vector machine
Yağın et al. A computer-assisted diagnosis tool for classifying COVID-19 based on Chest X-Ray images
Shahbandegan et al. Developing a machine learning model to predict patient need for computed tomography imaging in the emergency department
US20230215571A1 (en) Automated classification of immunophenotypes represented in flow cytometry data
Jafarzadeh et al. Bayesian modeling and inference for diagnostic accuracy and probability of disease based on multiple diagnostic biomarkers with and without a perfect reference standard
Li et al. Multi-category diagnostic accuracy based on logistic regression
Guvakova Improving patient classification and biomarker assessment using Gaussian Mixture Models and Bayes’ rule
US20090006055A1 (en) Automated Reduction of Biomarkers
Bhatia et al. Severity and mortality prediction models to triage Indian COVID-19 patients. PLOS Digit Health 1 (3): e0000020
Qi et al. Development and validation a nomogram prediction model for early diagnosis of bloodstream infections in the intensive care unit
Latif et al. Improving Thyroid Disorder Diagnosis via Ensemble Stacking and Bidirectional Feature Selection.
Kim et al. Machine learning-based risk prediction model for canine myxomatous mitral valve disease using electronic health record data
Ghaderzadeh et al. Deep CNN-based CAD system for COVID-19 detection using multiple lung CT scans
Zamzami et al. Diagnosis of COVID-19 in x-ray and ct images using online clustering framework