WO2020222287A1

WO2020222287A1 - 訓練装置、罹患判定装置、機械学習方法、およびプログラム

Info

Publication number: WO2020222287A1
Application number: PCT/JP2020/003421
Authority: WO
Inventors: 信行大田; 脩司鈴木; 幹阿部
Original assignee: 株式会社ＰｒｅｆｅｒｒｅｄＮｅｔｗｏｒｋｓ
Priority date: 2019-04-29
Filing date: 2020-01-30
Publication date: 2020-11-05
Also published as: US20220172801A1; JPWO2020222287A1

Abstract

時間のかかるマッピングを行うことなく、また、ヒト以外の様々な生物で簡単に適用可能な訓練装置、罹患判定装置、機械学習方法、およびプログラムを提供する。所定の疾患について、学習対象から採取した訓練用サンプルから得た塩基配列における複数種類の部分文字列の出現頻度に基づく訓練用特徴ベクトルを入力とし、前記学習対象が、前記所定の疾患に罹患した対象であるのか、あるいは、罹患していない対象であるのかを示すラベル情報を出力としてモデルを学習する機械学習部を備える。

Description

訓練装置、罹患判定装置、機械学習方法、およびプログラム

　本開示は、訓練装置、罹患判定装置、機械学習方法、およびプログラムの技術に関する。

　従来、血中や皮膚などの組織のＲＮＡを利用したがんの罹患判定を行う技術としては、マイクロアレイやＤＮＡシーケンサにより特定のマイクロＲＮＡの発現量を測定し、その発現量を入力としてがんになっているかどうかなどを罹患判定する技術が開発されている。

Shimomura, A., Shiino, S., Kawauchi, J., Takizawa, S., Sakamoto, H., Matsuzaki, J., … Ochiya, T. (2016). Novel combination of serum microRNA for detecting breast cancer in the early stage. Cancer Science, 107(3), 326-34. https://doi.org/10.1111/cas.12880

　ＤＮＡシーケンサを用いてマイクロＲＮＡの発現量を解析する場合は、ＤＮＡシーケンサで読み取られたマイクロＲＮＡの配列がヒトのゲノムのどの位置のものであるかを特定するマッピングという処理を行う必要があるが、マッピングは、ＤＮＡシーケンサが出力するデータ量が大きい場合には、計算に時間がかかるという問題がある。

　そこで、本開示は、前記課題を解決し、時間のかかるマッピングを行うことなく適用可能な訓練装置、罹患判定装置、機械学習方法、およびプログラムを提供することを目的とする。

　本開示の訓練装置の一態様は、
　所定の疾患について、学習対象から採取した訓練用サンプルから得た塩基配列における複数種類の部分文字列の出現頻度に基づく訓練用特徴ベクトルを入力とし、前記学習対象が、前記所定の疾患に罹患した対象であるのか、あるいは、罹患していない対象であるのかを示すラベル情報を出力としてモデルを訓練する機械学習部を備える。

　本開示によれば、時間のかかるマッピングを行うことなく、適用できる訓練装置、罹患判定装置、機械学習方法、およびプログラムが提供される。

本開示の第１実施形態における罹患判定装置の概略構成を示すブロック図である。罹患判定装置のハードウェア構成の概略を示す図である。罹患判定装置における処理の流れを示すフローチャートである。ＦａｓｔａフォーマットのＲＮＡシーケンスデータの一例を示す図である。ラベル情報の一例を示す図である。 k-merの作成例を示す図である。図６に示すk-merの出現頻度の計算例を示す図である。ランダムフォレストのアルゴリズムを説明するための図である。実施例における評価結果を示す図である。本開示の第２実施形態におけるspaced seedによる部分文字列の作成例を示す図である。本開示の第２実施形態における部分文字列に対して誤り訂正符号を用いて代表文字列を作成する例を示す図である。本開示の第３実施形態におけるラベル情報の一例を示す図である。本開示の第３実施形態におけるラベル情報の他の例を示す図である。本開示の一実施形態におけるハードウェア構成の一例を示すブロック図である。本開示の第１実施形態における他の罹患判定装置の概略構成を示すブロック図である。図１５に示す他の罹患判定装置における処理の流れを示すフローチャートである。

　本開示の一態様によれば、機械学習部は、学習対象から採取した訓練用サンプルから得た塩基配列において、複数種類の部分文字列の出現頻度を求める。また、機械学習部は、前記出現頻度に基づいて訓練用特徴ベクトルとする。さらに、機械学習部は、前記訓練用特徴ベクトルを入力とし、前記学習対象が、前記所定の疾患に罹患した対象であるのか、あるいは、罹患していない対象であるのかを示すラベル情報を出力としてモデルを訓練する。したがって、時間のかかるマッピングを行うことなく、遺伝子変異に起因する所定の疾患についての罹患判定のためのモデルが得られる。また、マッピングを行わないので、ヒト以外の様々な生物に対して、遺伝子変異に起因する所定の疾患についての罹患判定のためのモデルが得られる。

　本開示の罹患判定装置の実施形態について添付図面を参照しつつ説明する。

（第１実施形態）
　まず、本開示の罹患判定装置の第1実施形態について図１ないし図９を参照しつつ説明する。

＜罹患判定装置の概略構成＞
　図１は、第１実施形態における罹患判定装置の概略構成を示すブロック図である。図１に示すように、本実施形態の罹患判定装置１００は、分類装置としての訓練装置１０、罹患判定部２０、および記憶部３０を備えている。

　本実施形態の訓練装置１０は、機械学習部１１を備えている。機械学習部１１は、所定の疾患（臨床状態）について、訓練用特徴ベクトルを得る。本実施形態では、所定の疾患の一例としてがんを取り上げ、がんに罹患している対象と、がんに罹患していない対象を学習対象とする。学習対象（参照対象）は、ヒトである対象の他、ヒト以外の動物などの対象であってもよい。機械学習部１１は、このような学習対象から採取した訓練用サンプルから得られる塩基配列において、複数種類の部分文字列の出現頻度を求める。そして、求めた出現頻度に基づいて訓練用特徴ベクトルを得る。さらに、機械学習部１１は、訓練用特徴ベクトルを入力として、学習対象の臨床状態が、所定の疾患に罹患した対象であるのか、あるいは、罹患していない対象であるのかを示すラベル情報を出力としてモデルを訓練する。

　本実施形態の罹患判定部２０は、判定対象から採取した判定用生体サンプルから得た塩基配列の部分文字列の出現頻度に基づく判定用特徴ベクトルを入力とし、判定対象の罹患判定を行う。すなわち、判定対象から得た塩基配列の部分文字列の出現頻度を入力として、判定対象が所定の疾患に罹患しているか否かを出力する。判定対象は、学習対象と同様に、ヒトである対象の他、ヒト以外の動物などの対象であってもよい。

　本実施形態の記憶部３０は、後述する訓練用のＲＮＡシーケンスデータ２０１、および後述するラベル情報２０４などを記憶する。また、記憶部３０は、機械学習部１１によって訓練されるモデルを記憶するようにしてもよい。

　図２は、本実施形態の罹患判定装置１００のハードウェア構成の概略を示す図である。罹患判定装置１００は、ハードウェアとしては通常の情報処理装置の基本構成と同様である。例えば、図２に示すように、罹患判定装置１００は、ＣＰＵ１０１、ＲＡＭ１０２、ＲＯＭ１０３、およびキーボードやマウス等の入力装置１０４を備える。また、罹患判定装置１００は、外部との通信を行う通信インターフェース１０５、ハードディスク等の補助記憶装置１０６、および、ディスプレイやプリンタ等の出力装置１０７を備える。

＜罹患判定装置における処理＞
　次に、罹患判定装置１００における処理の流れについて図３を参照しつつ説明する。図３は、本実施形態の罹患判定装置１００における処理の流れを示すフローチャートである。

　図３に示すように、本実施形態の罹患判定装置１００における処理は、例えば、訓練フェーズ２００と判定フェーズ３００に分かれている。まず、訓練フェーズ２００について説明する。

　本実施形態においては、訓練用のデータとして、ＲＮＡシーケンスデータ２０１を用いる。ＲＮＡシーケンスデータ２０１は、一例として、記憶部３０に記憶されている。ＲＮＡシーケンスデータ２０１は、がんに罹患した対象および健常な対象から採取した生体サンプル（血液、唾液、皮脂など）のＲＮＡから、ＤＮＡシーケンサを用いてＤＮＡ配列として取得する。ＲＮＡシーケンスデータ２０１のデータ形式は、例えば、ＦａｓｔａフォーマットおよびＦａｓｔｑフォーマットのいずれも利用することができる。一例として、標準的なＦａｓｔａフォーマットのＲＮＡシーケンスデータ２０１の例を図４に示す。図４は、ＦａｓｔａフォーマットのＲＮＡシーケンスデータ２０１の一例を示す図である。

　Ｆａｓｔａフォーマットは、プレーンテキストである。１つのＲＮＡシーケンスのデータは、“＞”で始まる１行のヘッダ行２０２と、２行目以降の実際のシーケンス文字列２０３で構成される。ヘッダ行２０２では、“＞”の次にシーケンスデータを識別するためのＩＤを記述する。図４においては、一例として、ＳＥＱ＿０およびＳＥＱ＿１というＩＤが記述されている。

　シーケンスデータを識別するための文字列に続けて、シーケンス文字列２０３として、ＤＮＡシーケンサで読み取られた塩基配列を表す文字列（シーケンスリード。以下、単にリードと称する）を記述する。図４においては、一例として、ＧＡＴＴＴ・・・で始まるリードが記述されている。

　シーケンス文字列２０３の次に“＞”で始まる別の行が出現すると、シーケンスデータが区切られ、別のシーケンスデータが始まる。

　また、本実施形態においては、ＲＮＡシーケンスデータ２０１のラベル情報として、図５に示すようなラベル情報２０４を用いる。図５は、本実施形態におけるラベル情報の一例を示す図である。図５に示すように、ラベル情報２０４は、生体サンプルごとに付したサンプルＩＤ２０５と、サンプルＩＤ２０５によって識別される生体サンプルががんに罹患した対象のものであるか、または健常な対象のものであるかを示すラベル２０６が、ペアになったファイルである。図５においては、「サンプル０」および「サンプル１」のサンプルＩＤ２０５には「健常」というラベル２０６がペアになっており、これらの生体サンプルが健常の対象のものであることを示している。また、「サンプル２」のサンプルＩＤ２０５には「がん」というラベル２０６がペアになっており、この生体サンプルががんに罹患した対象のものであることを示している。ラベル情報２０４は、一例として記憶部３０に記憶されている。

　本実施形態の訓練フェーズ２００においては、以上のようなＲＮＡシーケンスデータ２０１と、ＲＮＡシーケンスデータ２０１に対応するラベル情報２０４を用いる。本実施形態においては、機械学習部１１は、ＲＮＡシーケンスデータ２０１を以下の手順で訓練用特徴ベクトルに変換する。

（１）まず、機械学習部１１は、訓練用のＲＮＡシーケンスデータ２０１を入力する（図３：Ｓ１）。機械学習部１１は、記憶部３０に予め記憶させておいた訓練用のＲＮＡシーケンスデータ２０１を記憶部３０から入力してもよいし、外部の記憶媒体等から訓練用のＲＮＡシーケンスデータ２０１を入力してもよい。

　機械学習部１１は、訓練用のＲＮＡシーケンスデータ２０１を入力した後に、ＤＮＡシーケンサのエラーチェックや後処理を行ったり、ＲＮＡシーケンスデータ自体にエラーが多い部分はＲＮＡシーケンスデータ２０１から削除したりするなど所定の処理を行ってもよい。例えば、ＤＮＡシーケンサが出力するＤＮＡの読み取り信頼度であるquality scoreに基づいてトリミングを行ったり、あるいは、完全に同じ配列のＲＮＡシーケンスデータ２０１を除去したりしてもよい。また、機械学習部１１は、ＲＮＡをＤＮＡシーケンサで読み取る際に、ＲＮＡに付けるadapter配列の除去を行ってもよい。

（２）次に、機械学習部１１は、入力したＦａｓｔａフォーマットのＲＮＡシーケンスデータ２０１から、リードごとにk-merを生成する（図３：Ｓ２）。k-merとは、ＤＮＡシーケンサが出力したリードを文字数k（ｋは１以上の整数）ごとに切り出した連続塩基（核酸残基）からなる部分文字列である。文字数kは任意の数を設定することができる。本実施形態では、一例として、k＝３として説明する。

　図６にk-merの作成例を示す。図６は、本実施形態におけるk-merの作成例を示す図である。図６に示す例では、“ＴＧＡＡＧＴＴＴＴ”というリード２０７から、“ＴＧＡ”，“ＧＡＡ”．．．，“ＴＴＴ”というk-mer２０８を作成する。また、“ＧＡＧＡＴＡＧＡＣ”というリード２０７から、“ＧＡＧ”，“ＡＧＡ”．．．，“ＧＡＣ”というk-merを作成する。

（３）次に、機械学習部１１は、1つのサンプルごとに各k-merがどれくらいの頻度（回数）で出現しているかを計算する（図３：Ｓ３）。図７は、図６に示すk-merの出現頻度の計算例を示す図である。図７に示す例では、“ＡＡＧ”というk-mer２０８の出現頻度２０９が１回であり、“ＡＧＡ”というk-mer２０８の出現頻度２０９が２回というように計算される。

（４）次に、機械学習部１１は、サンプルごとに以下の式によりk-mer２０８の出現頻度２０９を正規化する（図３：Ｓ４）。同一のサンプルのＲＮＡシーケンスデータ２０１であってもリード２０７の本数が異なり、結果としてk-mer２０８の出現頻度２０９が変わる場合がある。このため、正規化することで、リード２０７の本数の違いによるk-mer２０８の出現頻度２０９の違いを補正し、出現頻度の判定を適切に行うことができる。

上記式において、

は、サンプルｉのｊ番目のk-merの正規化した出現頻度を示す。

は、サンプルｉのｊ番目のk-merの出現頻度を示す。
また、上記式の右辺における分母は、サンプルｉの全てのk-merの出現頻度を示す。

（５）次に、機械学習部１１は、記憶部３０に予め記憶させておいたラベル情報２０４を入力する（図３：Ｓ５）。機械学習部１１は、外部の記憶媒体等からラベル情報２０４を入力するようにしてもよい。

（６）次に、機械学習部１１は、以上のように全てのサンプルにおいて正規化したk-mer２０８の出現頻度２０９と、全てのサンプルに対応するラベル情報２０４を利用し、モデルを訓練する（図３：Ｓ６）。この際、モデルとしては線形分類、決定木、SVM、ランダムフォレスト、多層パーセプトロンなどを用いることができる。

　図８は、ランダムフォレストのアルゴリズムを説明するための図である。図８に示すように、全サンプルにおける正規化したk-mer２０８の出現頻度２０９およびを訓練用データとし、ステップＳ２０では、例えば、全体の２／３の訓練用データからM（Mは１以上の整数）個のブートストラップ標本を抽出する。Mがフォレストの大きさである。１個のブートストラップ標本の大きさn（nは１以上の整数）は、原則として、例えば、訓練用データ（全体の２／３）の大きさである。１／３は評価・検証用データとして残す。

　図８に示すステップＳ２１では、各ブートストラップ標本において、全てのk-mer２０８の出現頻度２０９を全変数とし、全変数のうちからd（dは１以上の整数）個の説明変数としてd 個のk-mer２０８の出現頻度２０９をランダムに選択したうえで、がんに罹患した対象と健常な対象とを分類し、決定木を成長させる。説明変数の個数は適宜設定することができる。

　図８に示すステップＳ２２では、得られた各決定木の結果を統合する。本実施形態では、結果を多数決で統合し、がんに罹患した対象と健常な対象とを分類して、訓練された分類としての訓練器を構築する。評価・検証用データに対して、訓練用データで構築したモデルを当てはめ、推定誤差を求める。本実施形態では、例えば、誤判別率を指標とする。この推定誤差から説明変数としてのk-mer２０８の出現頻度２０９と、がんに罹患した対象および健常な対象との相関関係を求めることができる。

（７）機械学習部１１は、以上のように訓練したモデルを訓練済みモデルとして記憶部３０に記憶させる（図３：Ｓ７）。

　次に、本実施形態の判定フェーズ３００について説明する。本実施形態においては、罹患判定部２０は、がんの罹患判定を行うＲＮＡシーケンスデータ２０１を以下の手順で判定用特徴ベクトルに変換し、罹患判定部２０は、以下のようにしてがんの罹患判定を行う。

（１）まず、罹患判定部２０は、がんの罹患判定を行うＲＮＡシーケンスデータ（以下、罹患判定用ＲＮＡシーケンスデータとする。）を入力する（図３：Ｓ８）。罹患判定部２０は、記憶部３０に予め記憶させておいた罹患判定用ＲＮＡシーケンスデータを記憶部３０から入力してもよいし、外部の記憶媒体等から罹患判定用ＲＮＡシーケンスデータを入力してもよい。

（２）次に、罹患判定部２０は、入力したＦａｓｔａフォーマットの罹患判定用ＲＮＡシーケンスデータから、リードごとにk-mer２０８を生成する（図３：Ｓ９）。本実施形態では、一例として、訓練フェーズと同様にk＝３として説明する。

（３）次に、罹患判定部２０は、罹患判定用の１つのサンプルごとに各k-mer２０８がどれくらいの頻度（回数）で出現しているかを計算する（図３：Ｓ１０）。

（４）次に、罹患判定部２０は、罹患判定用のサンプルごとに、訓練フェーズで用いた上記の式によりk-mer２０８の出現頻度２０９を正規化する（図３：Ｓ１１）。正規化する理由は、訓練フェーズで説明した理由と同様である。

（５）次に、罹患判定部２０は、罹患判定用のサンプルにおいて以上のように正規化したk-mer２０８の出現頻度２０９を入力し、記憶部３０に記憶させた訓練済みモデルとの同定を行う（図３：Ｓ１２）。そして、罹患判定部２０は、罹患判定用のサンプルががんに罹患した対象のものであるか、あるいは健常な対象のものであるかの予測を行い、予測結果を出力する（図３：Ｓ１３）。

　なお、本開示の罹患判定装置１００においては、図１５に示すように、すでに訓練された訓練済みモデル２２０を記憶部３０に記憶させ、この訓練済みモデル２２０を利用することができる。すなわち、罹患判定装置１００、は訓練済みモデル２２０を利用可能な罹患判定部２０を有し、判定フェーズを行ってもよい。つまりこの場合においては、機械学習部１１を備える必要はなく、上記の訓練フェーズを行う必要はない。図１６のフローチャートに示すように、罹患判定部２０は、訓練済みモデル２２０を記憶部３０から読み出し（Ｓ３０：図１６）、判定フェーズ３００を実行する（Ｓ８～Ｓ１３：図１６）

＜実施例＞
　次に、本実施形態の罹患判定装置１００を検証するために行った実施例について説明する。実施例では、健常な犬とがんに罹患した犬の血液サンプルを、それぞれ９６検体、および５２検体用意し、ＤＮＡシーケンサで読み取った。そして、読み取ったサンプルを、訓練用と検証用にそれぞれ１１８と３０に分割し、１１８サンプルを用いて訓練を行い、残りの３０サンプルで評価を行った。訓練モデルとしてはランダムフォレストを用いた。評価の結果を図９に示す。図９は、実施例における評価結果を示す図である。

　図９に示すように、評価方法２１０は、Ｐｒｅｃｉｓｉｏｎ，Ｒｅｃａｌｌ，Ａｃｃｕｒａｃｙの３つの方法を用いた。これらの評価方法は、以下のような評価パターンにより求められる。

　罹患判定装置１００によりがんに罹患した対象のサンプルであると判定し、実際にがんに罹患した対象のサンプルであった場合をＴｒｕｅ　Ｐｏｓｉｔｉｖｅ（ＴＰ）、罹患判定装置１００によりがんに罹患した対象のサンプルであると判定したが、実際には健常な対象のサンプルであった場合をＦａｌｓｅ　Ｐｏｓｉｔｉｖｅ（ＦＰ）とする。また、罹患判定装置１００により健常な対象のサンプルであると判定したが、実際にはがんに罹患した対象のサンプルであった場合をＦａｌｓｅ　Ｎｅｇａｔｉｖｅ（ＦＮ）、罹患判定装置１００により健常な対象のサンプルであると判定し、実際に健常な対象のサンプルであった場合をＴｒｕｅ　Ｎｅｇａｔｉｖｅ（ＴＮ）とする。

　評価パターンを以上のように定義するとき、各評価方法２１０のスコア２１１は以下のように求められる。
Ｐｒｅｃｉｓｉｏｎ＝ＴＰ／（ＴＰ＋ＦＰ）
Ｒｅｃａｌｌ＝ＴＰ／（ＴＰ＋ＦＮ）
Ａｃｃｕｒａｃｙ＝（ＴＰ＋ＴＮ）／（ＴＰ＋ＴＮ＋ＦＰ＋ＦＮ）

　図９に示すように、評価方法２１０がＰｒｅｃｉｓｉｏｎの場合のスコア２１１は１．００、評価方法２１０がＲｅｃａｌｌの場合のスコア２１１は０．８１、および、評価方法２１０がＡｃｃｕｒａｃｙの場合のスコア２１１は０．９３であった。

　このように、本実施形態の罹患判定装置１００によれば、評価方法２１０をＡｃｃｕｒａｃｙとした場合には、高い精度でがんの罹患判定ができていることがわかる。

　以上説明したように、本実施形態によれば、訓練用サンプルの塩基配列であるＲＮＡシーケンスデータにおいて、複数種類の部分文字列としてのk-merの出現頻度を求め、当該k-merの出現頻度に基づく訓練用特徴ベクトルを用いる。また、判定用サンプルから得た塩基配列であるＲＮＡシーケンスデータにおいて、複数種類の部分文字列としてのk-merの出現頻度を求め、当該k-merの出現頻度に基づく判定用特徴ベクトルを用いる。そして、本実施形態では、判定用特徴ベクトルを入力とし、判定対象の罹患判定を行う。

　したがって、本実施形態は、がんの罹患判定においてＲＮＡシーケンスデータを用いるが、ＲＮＡをマッピングする必要がなく、つまり、どの遺伝子、どのマイクロＲＮＡがどれくらい発現しているかを計算する必要がなく、計算時間を短縮することが可能となる。

　また、従来は、リファレンスゲノムがないヒト以外の生物に適用する場合には、そもそもマッピングができないために、マイクロＲＮＡの発現量を測定できないという問題があった。しかしながら、本実施形態によれば、ＲＮＡをマッピングする必要がないため、リファレンスゲノムが不要であり、ヒト以外の様々な生物にも適用が可能である。

（第２実施形態）
　次に、本開示の第２実施形態について図１０および図１１を参照しつつ説明する。図１０は、本実施形態におけるspaced seedによる部分文字列の作成例を示す図である。図１１は、長さが５のk-merやspaced seedで作った部分文字列に対して誤り訂正符号の一つである4-ary (5,3)ハミング符号を適用した例を示す図である。

　第１実施形態で説明したk-merの生成は、入力したＲＮＡシーケンスデータの文字列から、部分文字列を計算することに相当する。このような部分文字列を生成する方法は様々なものがあり、以下のようなものをk-merの代わりに使うことができる。

（１）連続した文字列ではなく、いくつかの文字（一部の文字）を飛ばして文字列を生成する方法（spaced seed）

　ｋ－ｍｅｒでは、連続するk文字の部分文字列を使用した。これに対してspaced seedでは１
と０から成るスペースシードパターンを予め定めておき、スペースシードパターンに沿って、１になっている部分の文字のみを使うようにして新しい文字列を順番に生成する。ｋ－ｍｅｒはスペースシードパターンが全て１になっている場合に相当する。

　図１０にスペースシードパターンが“１０１１”の場合における文字列の作成例を示す。スペースシードパターンが“１０１１”の場合には、２番目の文字が０になっているので、２番目の文字の部分を飛ばすことになる。図１０では、リード２０７から作成される部分文字列２１２のうち、“＊”の部分が飛ばした文字を表している。図１０に示す例では、“ＴＧＡＡＧＴＴＴＴ”というリード２０７から、“Ｔ*ＡＡ”，“Ｇ*ＡＧ”．．．，“Ｔ*ＴＴ”という部分文字列２１２を作成する。また、“ＧＡＧＡＴＡＧＡＣ”というリード２０７から、“Ｇ*ＧＡ”，“Ａ*ＧＡ”．．．，“Ａ*ＡＣ”という部分文字列２１２を作成する。

　このように文字を一部飛ばすことで、似ている配列から生成される文字列の一部を一致させることができる。これにより、サンプルの個体差によるＲＮＡシーケンスの違いやシーケンシングエラーに対して疾患の罹患判定を頑健にすることができる。

　（２）k-merやspaced seedで作った部分文字列に対して誤り訂正符号を用いて一部が異なる文字列を同一の文字列に変換する方法

　spaced seedを利用することでもある程度サンプルの個体差によるＲＮＡシーケンスの違いやシーケンシングエラーにも対処できるが、これに加えて、誤り訂正符号を適用することで一部の文字、例えば数文字の違いをさらに吸収することができる。

　誤り訂正符号は、誤りが含まれる配列に対して誤っている部分を訂正し、正しい配列に変換する技術である。これを応用し、一部が異なる、例えば数文字違いの文字列をある代表文字列に変換するということができる。

　図１１は、長さが５のk-merやspaced seedで作った部分文字列に対して誤り訂正符号の一つである4-ary (5,3)ハミング符号を適用した例を示す図である。図１１に示すように、例えば、長さが５のｋ－ｍｅｒやspaced seedで作った部分文字列２１３が生成された場合に、部分文字列２１３に対して誤り訂正符号の一つである4-ary (5,3)ハミング符号を適用する例について説明する。この場合には、k-merやspaced seedで作った部分文字列２１３には、ＣＡＡＡＡやＡＡＴＡＡなどの部分文字列が含まれるが、これらの部分文字列は、4-ary (5,3)ハミング符号を適用することにより、代表文字列２１４としてAAAAAに変換される。

　このような処理を行うことで、spaced seedの場合よりもサンプルの個体差によるRNAシーケンスの違いやシーケンシングエラーに対して、疾患の罹患判定を頑健にすることができる。

（第３実施形態）
　次に、本開示の第３実施形態について図１２および図１３を参照しつつ説明する。図１２は、本実施形態におけるラベル情報の一例を示す図であり、図１３は、本実施形態におけるラベル情報の他の例を示す図である。

　第１実施形態においては、健常かがんかの２値分類を行った。しかし、がんである場合には、どの部位にがんがあるかを知りたい場合もある。これに対応するために、本実施形態においては、がんである場合はどの部位にあるがんかも予測できるようにする。すなわち、入力を複数に分類する。

　図１２に、本実施形態における各サンプルＩＤ２０５と、どの部位にがんがあるかのラベルとをペアにしたラベル情報２０４の一例を示す。図１２に示すように、ラベル情報２０４は、生体サンプルごとに付したサンプルＩＤ２０５と、サンプルＩＤ２０５によって識別される生体サンプルが健常な対象のものであるか、またはがんに罹患した対象のものである場合にはどの部位のがんかを示すラベル２０６が、ペアになったファイルである。図１２においては、「サンプル０」のサンプルＩＤ２０５には「健常」というラベル２０６がペアになっており、この生体サンプルが健常な対象のものであることを示している。また、「サンプル１」のサンプルＩＤ２０５には「肺がん」というラベル２０６がペアになっており、この生体サンプルががんに罹患した対象のものであり、肺にがんがあることを示している。さらに、「サンプル２」のサンプルＩＤ２０５には「胃がん」というラベル２０６がペアになっており、この生体サンプルががんに罹患した対象のものであり、胃にがんがあることを示している。

　この場合には、モデルの訓練を行う際にマルチクラス学習を用いることで、健常な対象のサンプルであるのか、あるいは、がんに罹患した対象のサンプルである場合にどの部位にがんがあるかをまとめて予測することができる。また、腫瘍の種類として良性の腫瘍と悪性の腫瘍（がん）を分けてラベル２０６を振ることで、良性と悪性についても区別して判定するモデルとすることができる。

　上述した例では、１サンプルあたり、１種類のがんにしか罹患していないことを前提にしていた。しかし、転移性のがんなどにより、対象が複数種のがんに罹患している場合もある。この場合は、サンプルデータのラベルの作り方を変えることにより、上述と同様の手法を適用することで、罹患判定を行うことができる。

　図１３に、対象が肺がんと胃がんに罹患している場合に対応したラベル情報の一例を示す。図１３に示す例では、肺がんに対応するラベル２１５と、胃がんに対応するラベル２１６とを用いる。対象が肺がんに罹患している場合にはラベル２１５を１とし、対象が肺がんに罹患していない場合にはラベル２１５を０とする。また、対象胃がんに罹患している場合にはラベル２１６を１とし、対象が胃がんに罹患していない場合にはラベル２１６を０とする。

　したがって、対象が肺がんと胃がんの両方に罹患している場合には、肺がんに対応するラベル２１５と胃がんに対応するラベル２１６の両方が１となる。また、対象が肺がんと胃がんのいずれかに罹患している場合には、肺がんに対応するラベル２１５と胃がんに対応するラベル２１６のいずれかが１となる。さらに、対象が健常である場合には、肺がんに対応するラベル２１５と胃がんに対応するラベル２１６の両方が０となる。

　この場合には、モデルの訓練を行う際にマルチラベル学習を用いることで、健常な対象のサンプルであるのか、あるいは、がんに罹患した対象のサンプルである場合に肺がんと胃がんの両方に罹患しているのか、もしくは対象が肺がんと胃がんのいずれかに罹患しているのかをまとめて予測可能なモデルとすることができる。

　図１３に示す例では、「サンプル０」のサンプルＩＤ２０５には、肺がんのラベル２１５および胃がんのラベル２１６として０がペアになっており、この生体サンプルが健常な対象のものであることを示している。「サンプル１」のサンプルＩＤ２０５には、肺がんのラベル２１５として１が、また、胃がんのラベル２１６として０がペアになっており、この生体サンプルが肺がんという１種類のがんに罹患した対象のものであることを示している。「サンプル２」のサンプルＩＤ２０５には、肺がんのラベル２１５として０が、また、胃がんのラベル２１６として１がペアになっており、この生体サンプルが胃がんという１種類のがんに罹患した対象のものであることを示している。「サンプル３」のサンプルＩＤ２０５には、肺がんのラベル２１５および胃がんのラベル２１６として共に１がペアになっており、この生体サンプルが肺がんと胃がんという２種類のがんに罹患した対象のものであることを示している。

　この手法はマルチラベルと呼ばれる手法である。この手法によれば、訓練用サンプルデータに複数の異なるがん罹患を示すラベルを付与したラベル情報を適用し、上述したような機械学習を行って訓練済みモデルを作成することで、1度の判定により、1つ以上のがんについて罹患判定を行うことができる。また、マルチクラス学習の場合と同様に、腫瘍の種類として良性の腫瘍と悪性の腫瘍（がん）を分けてラベルを振ることで、良性と悪性についても区別して判定することができる。

（変形例）
　上述した実施形態では、臨床状態の一例として、共通の原発性部位からのがんを挙げ、がんの罹患判定に本開示を適用した態様について説明した。しかし、本開示は例えば、二以上の共通の原発性部位からのがんにも適用可能である。本開示が適用可能ながんとしては、乳がん、肺がん、前立腺がん、結腸直腸がん、腎臓がん、子宮がん、膵臓がん、食道がん、リンパ腫、頭部／頸部がん、卵巣がん、肝胆道がん、黒色腫、子宮頸がん、多発性骨髄腫、白血病、甲状腺がん、膀胱がん、胃がん、または、これらの組み合わせが挙げられる。

　また、本開示における臨床状態は、乳がんの所定のステージ、肺がんの所定のステージ、前立腺がんの所定のステージ、結腸直腸がんの所定のステージ、腎臓がんの所定のステージ、子宮がんの所定のステージ、膵臓がんの所定のステージ、食道がんの所定のステージ、リンパ腫の所定のステージ、頭部／頸部がんの所定のステージ、卵巣がんの所定のステージ、肝胆道がんの所定のステージ、黒色腫の所定のステージ、子宮頸がんの所定のステージ、多発性骨髄腫の所定のステージ、白血病の所定のステージ、甲状腺がんの所定のステージ、膀胱がんの所定のステージ、または、胃がんの所定のステージであってもよい。

　また、本開示における臨床状態は、がんの所定の亜型であってもよい。さらに、本開示は例えば、臨床状態として、ホルモン系の異常による疾患など、他の疾患の罹患判定にも適用可能である。特に、遺伝子変異等のＤＮＡシークエンスの変異に起因する疾患の罹患判定に適切に適用することができる。ここで、遺伝子変異等のＤＮＡシークエンスの変異とは、マイクロＲＮＡの発現量が健常な対象のものとは異なることを言う。また、本開示は、微生物のＤＮＡを検出して、感染症の判定に適用することも可能である。

　本開示における臨床状態には、健康な状態も含まれる。

　本開示における生体サンプルとしては、血液、全血、リンパ液、血清、唾液、尿、脳脊髄液、穿刺吸引による液、組織標本、母乳、乳頭分泌、または、判定対象の管内の液を用いることができる。

　また、上述した第１実施形態では、モデルを訓練した後に当該訓練済みモデルにより罹患判定を行う態様について説明した。しかし、本開示は、例えば事前に訓練されて準備された訓練済みモデルを用いて罹患の判定を行う罹患判定装置としてもよい。

　上述した実施形態において、複数のシーケンスリードは、判定対象の生体サンプルについてのシングルエンド次世代シーケンシングまたはペアエンド次世代シーケンシングから得ることができる。
　また、上述した実施形態では、k-merの一例として、k＝３の場合について説明したが、kの値としては、１、２、３、４、５、６、７、８、９、１０、１１、１２、１５のいずれかを用いることができる。

　上述した実施形態では、学習対象（参照対象）として、１１８のサンプルを用いる例について説明したが、少なくとも２０、または、少なくとも１００のサンプルがあれば適用可能である。

　訓練された分類としての訓練済みモデルとしては、ニューラルネットワークアルゴリズム、サポートベクターマシンアルゴリズム、決定木アルゴリズム、教師なしクラスタリングモデルアルゴリズム、教師ありクラスタリングモデルアルゴリズム、または、回帰モデルを用いることができる。

　前述した実施形態における罹患判定装置１００において、各機能は、アナログ回路、デジタル回路またはアナログ・デジタル混合回路で構成された回路であってもよい。また、各機能の制御を行う制御回路を備えていてもよい。各回路の実装は、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）等によるものであってもよい。

　上記の全ての記載において、装置、システム等の少なくとも一部はハードウェアで構成されていてもよいし、ソフトウェアで構成され、ソフトウェアの情報処理によりＣＰＵ（Central Processing Unit）等が実施をしてもよい。ソフトウェアで構成される場合には、装置、システム等及びその少なくとも一部の機能を実現するプログラムをフレキシブルディスクやＣＤ－ＲＯＭ等の記憶媒体に収納し、コンピュータに読み込ませて実行させるものであってもよい。記憶媒体は、磁気ディスクや光ディスク等の着脱可能なものの他、ハードディスク装置やメモリなどの固定型の記憶媒体であってもよい。すなわち、ソフトウェアによる情報処理がハードウェア資源を用いて具体的に実装されるものであってもよい。さらに、ソフトウェアによる処理は、ＦＰＧＡ等の回路に実装され、ハードウェアが実行するものであってもよい。ジョブの実行は、例えば、ＧＰＵ（Graphics Processing Unit）等のアクセラレータを使用して行ってもよい。

　例えば、コンピュータが読み取り可能な記憶媒体に記憶された専用のソフトウェアをコンピュータが読み出すことにより、コンピュータを上記の実施形態の装置とすることができる。記憶媒体はどのようなものも用いることができる。また、通信ネットワークを介してダウンロードされた専用のソフトウェアをコンピュータがインストールすることにより、コンピュータを上記の実施形態の装置とすることができる。こうして、ソフトウェアによる情報処理が、ハードウェア資源を用いて、具体的に実装される。

　上述した実施形態では、１個のプロセッサによりプログラムを実行する場合について説明したが、プログラムは、二以上のプロセッサにより実行されるものでもよい。したがって、プログラムは、一つのプログラムだけでなく、いくつかのプログラムが集合的に用いられる態様であってもよい。

　図１４は、本開示の一実施形態におけるハードウェア構成の一例を示すブロック図である。前述の実施形態に係る装置、システム等は、プロセッサ７１と、主記憶装置７２と、補助記憶装置７３と、ネットワークインターフェース７４と、デバイスインターフェース７５と、を備え、これらがバス７６を介して接続されたコンピュータ装置７として実現できる。

　なお、図１４のコンピュータ装置７は、各構成要素を一つ備えているが、同じ構成要素を複数備えていてもよい。また、１台のコンピュータ装置７が示されているが、ソフトウェアが複数のコンピュータ装置にインストールされて、当該複数のコンピュータ装置それぞれがソフトウェアの異なる一部の処理を実行してもよい。

　プロセッサ７１は、コンピュータの制御装置および演算装置を含む電子回路（処理回路、Processing circuit、Processing circuitry）である。プロセッサ７１は、コンピュータ装置７の内部構成の各装置などから入力されたデータやプログラムに基づいて演算処理を行い、演算結果や制御信号を各装置などに出力する。具体的には、プロセッサ７１は、コンピュータ装置７のＯＳ（Operating System）や、アプリケーションなどを実行することにより、コンピュータ装置７を構成する各構成要素を制御する。プロセッサ７１は、上記の処理を行うことができればどのようなものも用いることができる。装置、システム等及びそれらの各構成要素は、プロセッサ７１により実現される。ここで、処理回路とは、１チップ上に配置された１又は複数の電気回路を指してもよいし、２つ以上のチップあるいはデバイス上に配置された１または複数の電気回路を指してもよい。

　主記憶装置７２は、プロセッサ７１が実行する命令および各種データなどを記憶する記憶装置であり、主記憶装置７２に記憶された情報がプロセッサ７１により直接読み出される。補助記憶装置７３は、主記憶装置７２以外の記憶装置である。なお、これらの記憶装置は、電子情報を格納可能な任意の電子部品を意味するものとし、メモリでもストレージでもよい。また、メモリには、揮発性メモリと、不揮発性メモリがあるが、いずれでもよい。装置、システム等において各種データを保存するためのメモリ、例えば、記憶部３０は、主記憶装置７２または補助記憶装置７３により実現されてもよい。例えば、前述した各記憶部の少なくとも一部は、この主記憶装置７２又は補助記憶装置７３に実装されていてもよい。別の例として、アクセラレータが備えられている場合には、前述した各記憶部の少なくとも一部は、当該アクセラレータに備えられているメモリ内に実装されていてもよい。

　ネットワークインターフェース７４は、無線または有線により、通信ネットワーク８に接続するためのインターフェースである。ネットワークインターフェース７４は、既存の通信規格に適合したものを用いればよい。ネットワークインターフェース７４により、通信ネットワーク８を介して通信接続された外部装置９Ａと情報のやり取りが行われてもよい。

　外部装置９Ａは、例えば、カメラ、モーションキャプチャ、出力先デバイス、外部のセンサ、入力元デバイスなどが含まれる。また、外部装置９Ａは、罹患判定装置１００の構成要素の一部の機能を有する装置でもよい。そして、コンピュータ装置７は、罹患判定装置１００の処理結果の一部を、クラウドサービスのように通信ネットワーク８を介して受け取ってもよい。また、外部装置９Ａとしてサーバを通信ネットワーク８に接続し、訓練済みモデルを外部装置９Ａとしてのサーバに記憶させるようにしてもよい。この場合には、罹患判定装置１００は、通信ネットワーク８を介して外部装置９Ａとしてのサーバにアクセスし、罹患判定を行ってもよい。

　デバイスインターフェース７５は、外部装置９Ｂと直接接続するＵＳＢ（Universal Serial Bus）などのインターフェースである。外部装置９Ｂは、外部記憶媒体でもよいし、ストレージ装置でもよい。各記憶部は、外部装置９Ｂにより実現されてもよい。

　外部装置９Ｂは出力装置でもよい。出力装置は、例えば、画像を表示するための表示装置でもよいし、音声などを出力する装置などでもよい。例えば、ＬＣＤ（Liquid Crystal Display）、ＣＲＴ（Cathode Ray Tube）、ＰＤＰ（Plasma Display Panel）、スピーカなどがあるが、これらに限られるものではない。

　なお、外部装置９Ｂは入力装置でもよい。入力装置は、キーボード、マウス、タッチパネルなどのデバイスを備え、これらのデバイスにより入力された情報をコンピュータ装置７に与える。入力装置からの信号はプロセッサ７１に出力される。

（実施形態の概要）
　（１）本開示の訓練装置は、所定の疾患について、学習対象から採取した訓練用サンプルから得た塩基配列における複数種類の部分文字列の出現頻度に基づく訓練用特徴ベクトルを入力とし、前記学習対象が、前記所定の疾患に罹患した対象であるのか、あるいは、罹患していない対象であるのかを示すラベル情報を出力としてモデルを訓練する機械学習部を備える。

　以上のような訓練用特徴ベクトルを入力とし、上述のラベル情報を出力としてモデルを訓練するので、時間のかかるマッピングを行うことなく、所定の疾患についての罹患判定のためのモデルが得られる。また、マッピングを行わないので、ヒト以外の様々な生物に対して、所定の疾患についての罹患判定のためのモデルが得られる。

　（２）（１）の訓練装置において、前記塩基配列は、前記訓練用サンプルから対応するＤＮＡまたはＲＮＡを得て、ＤＮＡシーケンサを用いてＤＮＡ配列として取得されるようにしてもよい。この場合には、ＤＮＡシーケンサの出力として、塩基配列であるＲＮＡシーケンスデータが得られる。したがって、ＲＮＡシーケンスデータにおける複数種類の部分文字列の出現頻度を求めることが可能となり、前記出現頻度に基づいて訓練用特徴ベクトルとすることが可能となる。

　（３）（１）または（２）の訓練装置において、前記複数種類の部分文字列は、前記塩基配列を表す所定長の文字列である訓練用のリードから抜き出されるようにしてもよい。この場合には、訓練用のリードが前記塩基配列を表す所定長の文字列であるため、リードにおける複数種類の部分文字列の出現頻度を求めることが可能となり、前記出現頻度に基づいて訓練用特徴ベクトルとすることが可能となる。

　（４）（１）ないし（３）のいずれかの訓練装置において、前記複数種類の部分文字列の出現頻度は、正規化されていてもよい。この場合には、訓練用サンプルのデータ量がサンプルごとに異なる場合であっても、前記複数種類の部分文字列の出現頻度が正規化されているので、データ量の違いによる前記出現頻度の違いが補正される。

　（５）（１）ないし（４）のいずれかの訓練装置において、前記部分文字列は、ｋ－ｍｅｒであってもよい。この場合には、所定長の文字列として表される塩基配列において、文字数kごとに切り出した連続塩基からなる部分文字列が得られる。前記部分文字列は前記塩基配列において繰り返し出現することがあるため、前記部分文字列の出現頻度を求めることが可能となり、前記出現頻度に基づいて訓練用特徴ベクトルとすることが可能となる。

　（６）（１）ないし（４）のいずれかの訓練装置において、前記部分文字列は、前記訓練用サンプルから得た塩基配列に含まれる連続した文字のうち、一部の文字を飛ばした部分文字列であってもよい。この場合には、部分文字列は、連続した文字の一部、つまりいくつかの文字が飛ばされているので、サンプルの個体差によるＲＮＡシーケンスの違いやシーケンシングエラーに対して疾患の罹患判定が頑健に行われる。

　（７）（５）または（６）の訓練装置において、前記部分文字列は、誤り訂正符号を用いて一部が異なる文字列を同一の文字列に変換した部分文字列であってもよい。この場合には、サンプルの個体差によるＲＮＡシーケンスの違いやシーケンシングエラーをさらに吸収し、疾患の罹患判定が頑健に行われる。

　（８）本開示の罹患判定装置は、所定の疾患について、判定対象から採取した判定用生体サンプルから得た塩基配列における複数種類の部分文字列の出現頻度に基づく判定用特徴ベクトルを入力とし、前記判定対象の罹患判定を行う罹患判定部を備える。

　以上のような判定用特徴ベクトルを入力とし、判定対象の罹患判定を行うので、時間のかかるマッピングを行うことなく、所定の疾患についての罹患判定が行われる。また、マッピングを行わないので、ヒト以外の様々な生物に対して、所定の疾患についての罹患判定が行われる。

　（９）（８）の罹患判定装置において、前記塩基配列は、前記判定用サンプルから対応するＤＮＡまたはＲＮＡを得て、ＤＮＡシーケンサを用いてＤＮＡ配列として取得されるようにしてもよい。この場合には、ＤＮＡシーケンサの出力として、塩基配列であるＲＮＡシーケンスデータが得られる。したがって、ＲＮＡシーケンスデータにおける複数種類の部分文字列の出現頻度を求めることが可能となり、前記出現頻度に基づいて判定用特徴ベクトルとすることが可能となる。

　（１０）（８）の罹患判定装置において、前記複数種類の部分文字列の出現頻度は、正規化されていてもよい。この場合には、判定用サンプルのデータ量がサンプルごとに異なる場合であっても、前記複数種類の部分文字列の出現頻度が正規化されているので、データ量の違いによる前記出現頻度の違いが補正される。

　（１１）（８）ないし（１０）のいずれかの罹患判定装置において、前記部分文字列は、ｋ－ｍｅｒであってもよい。この場合には、所定長の文字列として表される塩基配列において、文字数kごとに切り出した連続塩基からなる部分文字列が得られる。前記部分文字列は前記塩基配列において繰り返し出現することがあるため、前記部分文字列の出現頻度を求めることが可能となり、前記出現頻度に基づいて判定用特徴ベクトルとすることが可能となる。

　（１２）本開示の機械学習方法は、所定の疾患について、学習対象から採取した訓練用サンプルから得た塩基配列における複数種類の部分文字列の出現頻度に基づく訓練用特徴ベクトルを入力するステップと、前記学習対象が、前記所定の疾患に罹患した対象であるのか、あるいは、罹患していない対象であるのかを示すラベル情報を出力としてモデルを訓練するステップと、を備える。

　以上のような訓練用特徴ベクトルを入力とし、上述のラベル情報を出力としてモデルを学習するので、時間のかかるマッピングを行うことなく、所定の疾患についての罹患判定のためのモデルの訓練が行われる。また、マッピングを行わないので、ヒト以外のリファレンスゲノムのない様々な生物に対して、所定の疾患についての罹患判定のためのモデルの訓練が行われる。

　（１３）本開示は、コンピュータを前記訓練装置として機能させるためのプログラムとして実現される。本開示のプログラムをコンピュータに実行させることによって、前記訓練装置が実施される。

　（１４）本開示は、コンピュータを前記罹患判定装置として機能させるためのプログラムとして実現される。本開示のプログラムをコンピュータに実行させることによって、前記罹患判定装置が実施される。

　上記の全ての記載に基づいて、本開示の追加、効果又は種々の変形を当業者であれば想到できるかもしれないが、本開示の態様は、上記した個々の実施形態に限定されるものではない。特許請求の範囲に規定された内容及びその均等物から導き出される本開示の概念的な思想と趣旨を逸脱しない範囲において種々の追加、変更及び部分的削除が可能である。例えば、前述した全ての実施形態において、説明に用いた数値は、一例として示したものであり、これらに限られるものではない。

　本開示は、上述した実施形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において、種々の改良及び設計上の変更が可能である。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

＜付記＞
　また、例えば、本開示の実施形態は、下記のような方法又は記録媒体であってもよい。
（１）判定対象を第１の臨床状態に分類する方法であって、
　一以上のプロセッサと、一以上のプログラムを記憶する一以上のメモリとを備えるコンピュータシステムにおいて、前記一以上のプログラムは、
　ａ）前記判定対象の生体サンプルにおける符号化されていないリボ核酸分子から、複数のシーケンスリードを電子的形態で得る命令と、
　ｂ）前記複数のシーケンスリードにおける各シーケンスリードから、一以上の部分文字列を抽出し、複数の部分文字列を得る命令と、
　ｃ）一連の部分文字列タイプにおける各部分文字列タイプの観測された出現頻度を決定する命令と、
　ｄ）各部分文字列タイプの前記観測された出現頻度を、訓練された分類に適用する命令と、単独でまたは集合的に備え、
　前記訓練された分類は、前記判定対象が前記第１の臨床状態を有する可能性を提供する、
方法。
（２）前記ｃ）の命令は、さらに、前記一連の部分文字列タイプにおける各部分文字列タイプに位置する相当量の前記複数の部分文字列を決定する命令を備える、
　付記（１）に記載の方法。
（３）前記ｄ）の命令は、さらに、前記一連の部分文字列タイプにおける個々の部分文字列タイプの前記観測された出現頻度と、前記個々の部分文字列タイプについての対応する参照部分文字列の出現頻度とを比較する命令を備える、
　付記（１）に記載の方法。
（４）前記複数のシーケンスリードは、前記判定対象の前記生体サンプルについてのシングルエンド次世代シーケンシングまたはペアエンド次世代シーケンシングから得られる、
　付記（１）に記載の方法。
（５）前記複数のシーケンスリードにおける各シーケンスリードは、前記生体サンプルからの全てのまたは部分的なマイクロＲＮＡのシーケンスリードである、
　付記（１）に記載の方法。
（６）前記一連の部分文字列タイプにおける個々の部分文字列タイプの前記観測された出現頻度は、正規化されている、
　付記（１）に記載の方法。
（７）前記一連の部分文字列タイプにおける各部分文字列は、第１の所定長さの核酸残基のk-merである、
　付記（１）ないし付記（６）のいずれか１つに記載の方法。
（８）前記複数のタイプの部分文字列は、前記複数のシーケンスリードにおける各シーケンスリードについて、第１の所定の長さの一以上の部分文字列、および、第２の所定の長さの一以上の部分文字列を備える、
　付記（１）ないし付記（６）のいずれか１つに記載の方法。
（９）前記第１の所定の長さ、および、前記第２の所定の長さは、少なくとも１個の残基、少なくとも２個の残基、少なくとも３個の残基、少なくとも４個の残基、少なくとも５個の残基、少なくとも６個の残基、少なくとも７個の残基、少なくとも８個の残基、少なくとも９個の残基、少なくとも１０個の残基、少なくとも１１個の残基、少なくとも１２個の残基、または少なくとも１５個の残基から、それぞれ個別に選択される、
　付記（７）または付記（８）に記載の方法。
（１０）前記一連の部分文字列タイプにおける各部分文字列タイプは、複数のシーケンスリードにおける前記個別のシーケンスリードからの核酸残基の非連続文字列を備える、
　付記（１）ないし付記（６）のいずれか１つに記載の方法。
（１１）前記一連の部分文字列タイプにおける各部分文字列タイプは、エラー訂正符号を用いて同種の文字列に変換された異種の文字列を備える、
　付記（１）ないし付記（６）のいずれか１つに記載の方法。
（１２）判定対象は、人間である、
　付記（１）ないし付記（１１）のいずれか１つに記載の方法。
（１３）前記第１の臨床状態は、共通の原発性部位からのがんである、
　付記（１）ないし付記（１２）のいずれか１つに記載の方法。
（１４）前記第１の臨床状態は、二以上の共通の原発性部位からのがんである、
　付記（１）ないし付記（１２）のいずれか１つに記載の方法。
（１５）前記第１の臨床状態は、乳がん、肺がん、前立腺がん、結腸直腸がん、腎臓がん、子宮がん、膵臓がん、食道がん、リンパ腫、頭部／頸部がん、卵巣がん、肝胆道がん、黒色腫、子宮頸がん、多発性骨髄腫、白血病、甲状腺がん、膀胱がん、胃がん、または、これらの組み合わせである、
　付記（１）ないし付記（１２）のいずれか１つに記載の方法。
（１６）前記第１の臨床状態は、乳がんの所定のステージ、肺がんの所定のステージ、前立腺がんの所定のステージ、結腸直腸がんの所定のステージ、腎臓がんの所定のステージ、子宮がんの所定のステージ、膵臓がんの所定のステージ、食道がんの所定のステージ、リンパ腫の所定のステージ、頭部／頸部がんの所定のステージ、卵巣がんの所定のステージ、肝胆道がんの所定のステージ、黒色腫の所定のステージ、子宮頸がんの所定のステージ、多発性骨髄腫の所定のステージ、白血病の所定のステージ、甲状腺がんの所定のステージ、膀胱がんの所定のステージ、または、胃がんの所定のステージである、
　付記（１）ないし付記（１３）のいずれか１つに記載の方法。
（１７）前記第１の臨床状態は、がんの所定の亜型である、
　付記（１）ないし付記（１３）のいずれか１つに記載の方法。
（１８）前記がんは、乳がん、肺がん、前立腺がん、結腸直腸がん、腎臓がん、子宮がん、膵臓がん、食道がん、リンパ腫、頭部／頸部がん、卵巣がん、肝胆道がん、黒色腫、子宮頸がん、多発性骨髄腫、白血病、甲状腺がん、膀胱がん、または、胃がんである、
　付記（１７）に記載の方法。
（１９）前記生体サンプルは、血液、全血、リンパ液、血清、唾液、尿、脳脊髄液、穿刺吸引による液、組織標本、母乳、乳頭分泌、または、判定対象の管内の液である、
　付記（１）ないし付記（１８）のいずれか１つに記載の方法。
（２０）一以上のプロセッサと、前記一以上のプロセッサにより実行される一以上のプログラムを記憶する一以上のメモリとを備える分類装置であって、
　前記一以上のプログラムは、
　ａ）前記判定対象の生体サンプルにおける符号化されていないリボ核酸分子から、複数のシーケンスリードを電子的形態で得る命令と、
　ｂ）前記複数のシーケンスリードにおける各シーケンスリードから、一以上の部分文字列を抽出し、複数の部分文字列を得る命令と、
　ｃ）一連の部分文字列タイプにおける各部分文字列タイプの観測された出現頻度を決定する命令と、
　ｄ）各部分文字列タイプの前記観測された出現頻度を、訓練された分類に適用する命令と、単独でまたは集合的に備え、
　前記訓練された分類は、前記判定対象が前記第１の臨床状態を有する可能性を提供する、
分類装置。
（２１）分類のために一以上のコンピュータプログラムが埋め込まれた非一過性のコンピュータ読み取り可能な記録媒体であって、前記一以上のプログラムは、コンピュータシステムにより実行される際、前記コンピュータシステムに、分類のための方法を実行させ、
　ａ）前記判定対象の生体サンプルにおける符号化されていないリボ核酸分子から、複数のシーケンスリードを電子的形態で得る命令と、
　ｂ）前記複数のシーケンスリードにおける各シーケンスリードから、一以上の部分文字列を抽出し、複数の部分文字列を得る命令と、
　ｃ）一連の部分文字列タイプにおける各部分文字列タイプの観測された出現頻度を決定する命令と、
　ｄ）各部分文字列タイプの前記観測された出現頻度を、訓練された分類に適用する命令とを、単独でまたは集合的に備え、
　前記訓練された分類は、前記判定対象が前記第１の臨床状態を有する可能性を提供する、
記録媒体。
（２２）分類方法であって、一以上のプロセッサと、前記一以上のプロセッサによって実行される一以上のプログラムを記憶する一以上のメモリとを備えるコンピュータシステムにおいて、
　前記分類方法は、
　ａ）複数の参照対象におけるそれぞれの参照対象が、複数の臨床状態ラベルから対応する臨床状態ラベルを備える、前記複数の参照対象におけるそれぞれの個別の参照対象について、
　　前記個別の参照対象の生体サンプルにおける符号化されていないリボ核酸分子から、複数のシーケンスリードを電子的形態で獲得し、
　　それぞれの前記複数のシーケンスリードにおける各シーケンスリードについて、一以上の部分文字列を抽出し、対応する複数の参照部分文字列を獲得し、
　　前記対応する複数の参照部分文字列を用いて、一連の部分文字列タイプにおける各部分文字列タイプの参照出現頻度を決定し、
　ｂ）各部分文字列タイプの個別の前記参照出現頻度、および、前記複数の参照対象における各参照対象の前記対応する臨床状態ラベルに対して、訓練されていない、または、部分的に訓練された分類を訓練し、多数の符号化されていないリボ核酸分子に基づいて、前記複数の臨床状態ラベルを識別する訓練された分類を獲得する、
分類方法。
（２３）前記複数の参照対象における各参照対象は、人間である、
　付記（２２）に記載の分類方法。
（２４）前記複数の参照対象は、少なくとも２０の対象を備える、
　付記（２２）または付記（２３）に記載の分類方法。
（２５）前記複数の参照対象は、少なくとも１００の対象を備える、
　付記（２２）または付記（２３）に記載の分類方法。
（２６）電子的形態で前記複数のシーケンスリードを獲得することは、さらに、前記参照対象の前記生体サンプルを獲得し、前記対応する複数のシーケンスリードを生成することである、
　付記（２２）ないし付記（２５）のいずれか１つに記載の分類方法。
（２７）前記複数の臨床状態ラベルは、乳がん、肺がん、前立腺がん、結腸直腸がん、腎臓がん、子宮がん、膵臓がん、食道がん、リンパ腫、頭部／頸部がん、卵巣がん、肝胆道がん、黒色腫、子宮頸がん、多発性骨髄腫、白血病、甲状腺がん、膀胱がん、または、胃がん、から成るグループから選択した二以上の臨床状態を備える、
　付記（２２）ないし付記（２６）のいずれか１つに記載の分類方法。
（２８）前記複数の臨床状態ラベルは、乳がんの所定のステージ、肺がんの所定のステージ、前立腺がんの所定のステージ、結腸直腸がんの所定のステージ、腎臓がんの所定のステージ、子宮がんの所定のステージ、膵臓がんの所定のステージ、食道がんの所定のステージ、リンパ腫の所定のステージ、頭部／頸部がんの所定のステージ、卵巣がんの所定のステージ、肝胆道がんの所定のステージ、黒色腫の所定のステージ、子宮頸がんの所定のステージ、多発性骨髄腫の所定のステージ、白血病の所定のステージ、甲状腺がんの所定のステージ、膀胱がんの所定のステージ、または、胃がんの所定のステージ、から成るグループから選択した二以上の臨床状態を備える、
　付記（２２）ないし付記（２６）のいずれか１つに記載の分類方法。
（２９）前記複数の臨床状態ラベルは、さらに、健康な状態を含む、
　付記（２７）または付記（２８）に記載の分類方法。
（３０）前記訓練された分類は、ニューラルネットワークアルゴリズム、サポートベクターマシンアルゴリズム、決定木アルゴリズム、教師なしクラスタリングモデルアルゴリズム、教師ありクラスタリングモデルアルゴリズム、または、回帰モデル、である、
　付記（２２）ないし付記（２９）のいずれか１つに記載の分類方法。
（３１）前記訓練された分類は、２以上である、
　付記（２２）ないし付記（３０）のいずれか１つに記載の分類方法。
（３２）前記訓練された分類は、２つである、
　付記（２２）ないし付記（３０）のいずれか１つに記載の分類方法。

（３３）一以上のプロセッサと、前記一以上のプロセッサによって実行される一以上のプログラムを記憶する一以上のメモリとを備える分類装置であって、
　前記一以上のプログラムは、
　ａ）複数の参照対象におけるそれぞれの参照対象が、複数の臨床状態ラベルから対応する臨床状態ラベルを備える、前記複数の参照対象におけるそれぞれの個別の参照対象について、
　　前記個別の参照対象の生体サンプルにおける符号化されていないリボ核酸分子から、複数のシーケンスリードを電子的形態で獲得する命令と、
　　それぞれの前記複数のシーケンスリードにおける各シーケンスリードについて、一以上の部分文字列を抽出し、対応する複数の参照部分文字列を獲得する命令と、
　　前記対応する複数の参照部分文字列を用いて、一連の部分文字列タイプにおける各部分文字列タイプの参照出現頻度を決定する命令と、
　ｂ）各部分文字列タイプの個別の前記参照出現頻度、および、前記複数の参照対象における各参照対象の前記対応する臨床状態ラベルに対して、訓練されていない、または、部分的に訓練された分類を訓練し、多数の符号化されていないリボ核酸分子に基づいて、前記複数の臨床状態ラベルを識別する訓練された分類を獲得する命令と、を備える、
分類装置。
（３４）分類のために一以上のコンピュータプログラムが埋め込まれ非一過性のコンピュータ読み取り可能な記録媒体であって、前記一以上のプログラムは、コンピュータシステムにより実行される際、前記コンピュータシステムに、分類のための方法を実行させ、
　前記分類のための方法は、
　ａ）複数の参照対象におけるそれぞれの参照対象が、複数の臨床状態ラベルから対応する臨床状態ラベルを備える、前記複数の参照対象におけるそれぞれの個別の参照対象について、
　　前記個別の参照対象の生体サンプルにおける符号化されていないリボ核酸分子から、複数のシーケンスリードを電子的形態で獲得し、
　　それぞれの前記複数のシーケンスリードにおける各シーケンスリードについて、一以上の部分文字列を抽出し、対応する複数の参照部分文字列を獲得し、
　　前記対応する複数の参照部分文字列を用いて、前記一連の部分文字列タイプにおける各部分文字列タイプの参照出現頻度を決定し、
　ｂ）各部分文字列タイプの個別の前記参照出現頻度、および、前記複数の参照対象における各参照対象の前記対応する臨床状態ラベルに対して、訓練されていない、または、部分的に訓練された分類を訓練し、多数の符号化されていないリボ核酸分子に基づいて、前記複数の臨床状態ラベルを識別する訓練された分類を獲得する、方法である、
記録媒体。

１０　　訓練装置
１１　　機械学習部
２０　　罹患判定部
３０　　記憶部
１００　罹患判定装置
１０１　ＣＰＵ
１０２　ＲＡＭ
１０３　ＲＯＭ
１０４　入力装置
１０５　通信インターフェース
１０６　補助記憶装置
１０７　出力装置
２００　訓練フェーズ
２０１　ＲＮＡシーケンスデータ
２０２　ヘッダ行
２０３　シーケンス文字列
２０４　ラベル情報
２０５　サンプルＩＤ
２０６　ラベル
２０７　リード
２０８　ｋ－ｍｅｒ
２０９　出現頻度
２１０　評価方法
２１１　スコア
２１２　部分文字列
２１３　部分文字列
２１４　代表文字列
２１５　ラベル
２１６　ラベル
３００　判定フェーズ

Claims

　所定の疾患について、学習対象から採取した訓練用サンプルから得た塩基配列における複数種類の部分文字列の出現頻度に基づく訓練用特徴ベクトルを入力とし、前記学習対象が、前記所定の疾患に罹患した対象であるのか、あるいは、罹患していない対象であるのかを示すラベル情報を出力としてモデルを訓練する機械学習部を備える、
訓練装置。
　判定対象を第１の臨床状態に分類する方法であって、
　一以上のプロセッサと、一以上のプログラムを記憶する一以上のメモリとを備えるコンピュータシステムにおいて、前記一以上のプログラムは、
　ａ）前記判定対象の生体サンプルにおける符号化されていないリボ核酸分子から、複数のシーケンスリードを電子的形態で得る命令と、
　ｂ）前記複数のシーケンスリードにおける各シーケンスリードから、一以上の部分文字列を抽出し、複数の部分文字列を得る命令と、
　ｃ）一連の部分文字列タイプにおける各部分文字列タイプの観測された出現頻度を決定する命令と、
　ｄ）各部分文字列タイプの前記観測された出現頻度を、訓練された分類に適用する命令とを、単独でまたは集合的に備え、
　前記訓練された分類は、前記判定対象が前記第１の臨床状態を有する可能性を提供する、
方法。
　前記ｃ）の命令は、さらに、前記一連の部分文字列タイプにおける各部分文字列タイプに位置する相当量の前記複数の部分文字列を決定する命令を備える、
　請求項２に記載の方法。
　前記ｄ）の命令は、さらに、前記一連の部分文字列タイプにおける個々の部分文字列タイプの前記観測された出現頻度と、前記個々の部分文字列タイプについての対応する参照部分文字列の出現頻度とを比較する命令を備える、
　請求項２に記載の方法。
　前記複数のシーケンスリードは、前記判定対象の前記生体サンプルについてのシングルエンド次世代シーケンシングまたはペアエンド次世代シーケンシングから得られる、
　請求項２に記載の方法。
　前記複数のシーケンスリードにおける各シーケンスリードは、前記生体サンプルからの全てのまたは部分的なマイクロＲＮＡのシーケンスリードである、
　請求項２に記載の方法。
　前記一連の部分文字列タイプにおける個々の部分文字列タイプの前記観測された出現頻度は、正規化されている、
　請求項２に記載の方法。
　前記一連の部分文字列タイプにおける各部分文字列は、第１の所定長さの核酸残基のk-merである、
　請求項２ないし請求項７のいずれか１項に記載の方法。
　前記複数のタイプの部分文字列は、前記複数のシーケンスリードにおける各シーケンスリードについて、第１の所定の長さの一以上の部分文字列、および、第２の所定の長さの一以上の部分文字列を備える、
　請求項２ないし請求項７のいずれか１項に記載の方法。
　前記第１の所定の長さ、および、前記第２の所定の長さは、少なくとも１個の残基、少なくとも２個の残基、少なくとも３個の残基、少なくとも４個の残基、少なくとも５個の残基、少なくとも６個の残基、少なくとも７個の残基、少なくとも８個の残基、少なくとも９個の残基、少なくとも１０個の残基、少なくとも１１個の残基、少なくとも１２個の残基、または少なくとも１５個の残基から、それぞれ個別に選択される、
　請求項８または請求項９に記載の方法。
　前記一連の部分文字列タイプにおける各部分文字列タイプは、複数のシーケンスリードにおける前記個別のシーケンスリードからの核酸残基の非連続文字列を備える、
　請求項２ないし請求項７のいずれか１項に記載の方法。
　前記一連の部分文字列タイプにおける各部分文字列タイプは、エラー訂正符号を用いて同種の文字列に変換された異種の文字列を備える、
　請求項２ないし請求項７のいずれか１項に記載の方法。
　判定対象は、人間である、
　請求項２ないし請求項１２のいずれか１項に記載の方法。
　前記第１の臨床状態は、共通の原発性部位からのがんである、
　請求項２ないし請求項１３のいずれか１項に記載の方法。
　前記第１の臨床状態は、二以上の共通の原発性部位からのがんである、
　請求項２ないし請求項１３のいずれか１項に記載の方法。
　前記第１の臨床状態は、乳がん、肺がん、前立腺がん、結腸直腸がん、腎臓がん、子宮がん、膵臓がん、食道がん、リンパ腫、頭部／頸部がん、卵巣がん、肝胆道がん、黒色腫、子宮頸がん、多発性骨髄腫、白血病、甲状腺がん、膀胱がん、胃がん、または、これらの組み合わせである、
　請求項２ないし請求項１３のいずれか１項に記載の方法。
　前記第１の臨床状態は、乳がんの所定のステージ、肺がんの所定のステージ、前立腺がんの所定のステージ、結腸直腸がんの所定のステージ、腎臓がんの所定のステージ、子宮がんの所定のステージ、膵臓がんの所定のステージ、食道がんの所定のステージ、リンパ腫の所定のステージ、頭部／頸部がんの所定のステージ、卵巣がんの所定のステージ、肝胆道がんの所定のステージ、黒色腫の所定のステージ、子宮頸がんの所定のステージ、多発性骨髄腫の所定のステージ、白血病の所定のステージ、甲状腺がんの所定のステージ、膀胱がんの所定のステージ、または、胃がんの所定のステージである、
　請求項２ないし請求項１４のいずれか１項に記載の方法。
　前記第１の臨床状態は、がんの所定の亜型である、
　請求項２ないし請求項１４のいずれか１項に記載の方法。
　前記がんは、乳がん、肺がん、前立腺がん、結腸直腸がん、腎臓がん、子宮がん、膵臓がん、食道がん、リンパ腫、頭部／頸部がん、卵巣がん、肝胆道がん、黒色腫、子宮頸がん、多発性骨髄腫、白血病、甲状腺がん、膀胱がん、または、胃がんである、
　請求項１８に記載の方法。
　前記生体サンプルは、血液、全血、リンパ液、血清、唾液、尿、脳脊髄液、穿刺吸引による液、組織標本、母乳、乳頭分泌、または、判定対象の管内の液である、
　請求項２ないし請求項１９のいずれか１項に記載の方法。
　一以上のプロセッサと、前記一以上のプロセッサにより実行される一以上のプログラムを記憶する一以上のメモリとを備える分類装置であって、
　前記一以上のプログラムは、
　ａ）前記判定対象の生体サンプルにおける符号化されていないリボ核酸分子から、複数のシーケンスリードを電子的形態で得る命令と、
　ｂ）前記複数のシーケンスリードにおける各シーケンスリードから、一以上の部分文字列を抽出し、複数の部分文字列を得る命令と、
　ｃ）一連の部分文字列タイプにおける各部分文字列タイプの観測された出現頻度を決定する命令と、
　ｄ）各部分文字列タイプの前記観測された出現頻度を、訓練された分類に適用する命令と、単独でまたは集合的に備え、
　前記訓練された分類は、前記判定対象が前記第１の臨床状態を有する可能性を提供する、
分類装置。
　分類のために一以上のコンピュータプログラムが埋め込まれた非一過性のコンピュータ読み取り可能な記録媒体であって、前記一以上のプログラムは、コンピュータシステムにより実行される際、前記コンピュータシステムに、分類のための方法を実行させ、
　ａ）前記判定対象の生体サンプルにおける符号化されていないリボ核酸分子から、複数のシーケンスリードを電子的形態で得る命令と、
　ｂ）前記複数のシーケンスリードにおける各シーケンスリードから、一以上の部分文字列を抽出し、複数の部分文字列を得る命令と、
　ｃ）一連の部分文字列タイプにおける各部分文字列タイプの観測された出現頻度を決定する命令と、
　ｄ）各部分文字列タイプの前記観測された出現頻度を、訓練された分類に適用する命令と、単独でまたは集合的に備え、
　前記訓練された分類は、前記判定対象が前記第１の臨床状態を有する可能性を提供する、
記録媒体。
　分類方法であって、一以上のプロセッサと、前記一以上のプロセッサによって実行される一以上のプログラムを記憶する一以上のメモリとを備えるコンピュータシステムにおいて、
　前記分類方法は、
　ａ）複数の参照対象におけるそれぞれの参照対象が、複数の臨床状態ラベルから対応する臨床状態ラベルを備える、前記複数の参照対象におけるそれぞれの個別の参照対象について、
　　前記個別の参照対象の生体サンプルにおける符号化されていないリボ核酸分子から、複数のシーケンスリードを電子的形態で獲得し、
　　それぞれの前記複数のシーケンスリードにおける各シーケンスリードについて、一以上の部分文字列を抽出し、対応する複数の参照部分文字列を獲得し、
　　前記対応する複数の参照部分文字列を用いて、一連の部分文字列タイプにおける各部分文字列タイプの参照出現頻度を決定し、
　ｂ）各部分文字列タイプの個別の前記参照出現頻度、および、前記複数の参照対象における各参照対象の前記対応する臨床状態ラベルに対して、訓練されていない、または、部分的に訓練された分類を訓練し、多数の符号化されていないリボ核酸分子に基づいて、前記複数の臨床状態ラベルを識別する訓練された分類を獲得する、
分類方法。
　前記複数の参照対象における各参照対象は、人間である、
　請求項２３に記載の分類方法。
　前記複数の参照対象は、少なくとも２０の対象を備える、
　請求項２３または請求項２４に記載の分類方法。
　　前記複数の参照対象は、少なくとも１００の対象を備える、
　請求項２３または請求項２４に記載の分類方法。
　電子的形態で前記複数のシーケンスリードを獲得することは、さらに、前記参照対象の前記生体サンプルを獲得し、前記対応する複数のシーケンスリードを生成することである、
　請求項２３ないし請求項２６のいずれか１項に記載の分類方法。
　前記複数の臨床状態ラベルは、乳がん、肺がん、前立腺がん、結腸直腸がん、腎臓がん、子宮がん、膵臓がん、食道がん、リンパ腫、頭部／頸部がん、卵巣がん、肝胆道がん、黒色腫、子宮頸がん、多発性骨髄腫、白血病、甲状腺がん、膀胱がん、または、胃がん、から成るグループから選択した二以上の臨床状態を備える、
　請求項２３ないし請求項２７のいずれか１項に記載の分類方法。
　前記複数の臨床状態ラベルは、乳がんの所定のステージ、肺がんの所定のステージ、前立腺がんの所定のステージ、結腸直腸がんの所定のステージ、腎臓がんの所定のステージ、子宮がんの所定のステージ、膵臓がんの所定のステージ、食道がんの所定のステージ、リンパ腫の所定のステージ、頭部／頸部がんの所定のステージ、卵巣がんの所定のステージ、肝胆道がんの所定のステージ、黒色腫の所定のステージ、子宮頸がんの所定のステージ、多発性骨髄腫の所定のステージ、白血病の所定のステージ、甲状腺がんの所定のステージ、膀胱がんの所定のステージ、または、胃がんの所定のステージ、から成るグループから選択した二以上の臨床状態を備える、
　請求項２３ないし請求項２７のいずれか１項に記載の分類方法。
　前記複数の臨床状態ラベルは、さらに、健康な状態を含む、
　請求項２８または請求項２９に記載の分類方法。
　前記訓練された分類は、ニューラルネットワークアルゴリズム、サポートベクターマシンアルゴリズム、決定木アルゴリズム、教師なしクラスタリングモデルアルゴリズム、教師ありクラスタリングモデルアルゴリズム、または、回帰モデル、である、
　請求項２３ないし請求項３０のいずれか１項に記載の分類方法。
　前記訓練された分類は、２以上である、
　請求項２３ないし請求項３１のいずれか１項に記載の分類方法。
　前記訓練された分類は、２つである、
　請求項２３ないし請求項３１のいずれか１項に記載の分類方法。
　一以上のプロセッサと、前記一以上のプロセッサによって実行される一以上のプログラムを記憶する一以上のメモリとを備える分類装置であって、
　前記一以上のプログラムは、
　ａ）複数の参照対象におけるそれぞれの参照対象が、複数の臨床状態ラベルから対応する臨床状態ラベルを備える、前記複数の参照対象におけるそれぞれの個別の参照対象について、
　　前記個別の参照対象の生体サンプルにおける符号化されていないリボ核酸分子から、複数のシーケンスリードを電子的形態で獲得する命令と、
　　それぞれの前記複数のシーケンスリードにおける各シーケンスリードについて、一以上の部分文字列を抽出し、対応する複数の参照部分文字列を獲得する命令と、
　　前記対応する複数の参照部分文字列を用いて、一連の部分文字列タイプにおける各部分文字列タイプの参照出現頻度を決定する命令と、
　ｂ）各部分文字列タイプの個別の前記参照出現頻度、および、前記複数の参照対象における各参照対象の前記対応する臨床状態ラベルに対して、訓練されていない、または、部分的に訓練された分類を訓練し、多数の符号化されていないリボ核酸分子に基づいて、前記複数の臨床状態ラベルを識別する訓練された分類を獲得する命令と、を備える、
分類装置。
　分類のために一以上のコンピュータプログラムが埋め込まれ非一過性のコンピュータ読み取り可能な記録媒体であって、前記一以上のプログラムは、コンピュータシステムにより実行される際、前記コンピュータシステムに、分類のための方法を実行させ、
　前記分類のための方法は、
　ａ）複数の参照対象におけるそれぞれの参照対象が、複数の臨床状態ラベルから対応する臨床状態ラベルを備える、前記複数の参照対象におけるそれぞれの個別の参照対象について、
　　前記個別の参照対象の生体サンプルにおける符号化されていないリボ核酸分子から、複数のシーケンスリードを電子的形態で獲得し、
　　それぞれの前記複数のシーケンスリードにおける各シーケンスリードについて、一以上の部分文字列を抽出し、対応する複数の参照部分文字列を獲得し、
　　前記対応する複数の参照部分文字列を用いて、一連の部分文字列タイプにおける各部分文字列タイプの参照出現頻度を決定し、
　ｂ）各部分文字列タイプの個別の前記参照出現頻度、および、前記複数の参照対象における各参照対象の前記対応する臨床状態ラベルに対して、訓練されていない、または、部分的に訓練された分類を訓練し、多数の符号化されていないリボ核酸分子に基づいて、前記複数の臨床状態ラベルを識別する訓練された分類を獲得する、方法である、
記録媒体。
　前記塩基配列は、前記訓練用サンプルから対応するＤＮＡを得て、ＤＮＡシーケンサを用いてＤＮＡ配列として取得される、
請求項１に記載の訓練装置。
　前記複数種類の部分文字列は、前記塩基配列を表す所定長の文字列である訓練用のリードから抜き出される、
請求項１または請求項３６に記載の訓練装置。
　前記複数種類の部分文字列の出現頻度は、正規化されている、
請求項１、請求項３６、および請求項３７のいずれか１項に記載の訓練装置。
　前記部分文字列は、ｋ－ｍｅｒである、
請求項１、および請求項３６ないし請求項３８のいずれか１項に記載の訓練装置。
　前記部分文字列は、前記訓練用サンプルから得た塩基配列に含まれる連続した文字のうち、一部の文字を飛ばした部分文字列である、
請求項１、および請求項３６ないし請求項３８のいずれか１項に記載の訓練装置。
　前記部分文字列は、誤り訂正符号を用いて一部が異なる文字列を同一の文字列に変換した部分文字列である、
請求項３９または請求項４０に記載の訓練装置。
　所定の疾患について、
　判定対象から採取した判定用生体サンプルから得た塩基配列における複数種類の部分文字列の出現頻度に基づく判定用特徴ベクトルを入力とし、前記判定対象の前記所定の疾患についての罹患判定を行う罹患判定部を備える、
罹患判定装置。
　前記塩基配列は、前記判定用サンプルから対応するＤＮＡを得て、ＤＮＡシーケンサを用いてＤＮＡ配列として取得される、
請求項４２に記載の罹患判定装置。
　前記複数種類の部分文字列の出現頻度は、正規化されている、
請求項４２または請求項４３に記載の罹患判定装置。
　前記部分文字列は、ｋ－ｍｅｒである、
請求項４２ないし請求項４４のいずれか１項に記載の罹患判定装置。
　所定の疾患について、学習対象から採取した訓練用サンプルから得た塩基配列における複数種類の部分文字列の出現頻度に基づく訓練用特徴ベクトルを入力するステップと、
　前記学習対象が、前記所定の疾患に罹患した対象であるのか、あるいは、罹患していない対象であるのかを示すラベル情報を出力としてモデルを訓練するステップと、を備える、
機械学習方法。
　訓練装置におけるプログラムであって、前記プログラムは、コンピュータを、
　所定の疾患について、学習対象から採取した訓練用サンプルから得た塩基配列における複数種類の部分文字列の出現頻度に基づく訓練用特徴ベクトルを入力とし、前記学習対象が、前記所定の疾患に罹患した対象であるのか、あるいは、罹患していない対象であるのかを示すラベル情報を出力としてモデルを訓練する機械学習部、として機能させる、
プログラム。
　罹患判定装置におけるプログラムであって、前記プログラムは、コンピュータを、
　所定の疾患について、判定対象から採取した判定用生体サンプルから得た塩基配列における部分文字列の出現頻度に基づく判定用特徴ベクトルを入力とし、前記所定の疾患に関する前記判定対象の罹患判定を行う罹患判定部、として機能させる、
プログラム。