WO2020222287A1 - 訓練装置、罹患判定装置、機械学習方法、およびプログラム - Google Patents

訓練装置、罹患判定装置、機械学習方法、およびプログラム Download PDF

Info

Publication number
WO2020222287A1
WO2020222287A1 PCT/JP2020/003421 JP2020003421W WO2020222287A1 WO 2020222287 A1 WO2020222287 A1 WO 2020222287A1 JP 2020003421 W JP2020003421 W JP 2020003421W WO 2020222287 A1 WO2020222287 A1 WO 2020222287A1
Authority
WO
WIPO (PCT)
Prior art keywords
cancer
substring
substrings
classification
stage
Prior art date
Application number
PCT/JP2020/003421
Other languages
English (en)
French (fr)
Inventor
信行 大田
脩司 鈴木
幹 阿部
Original Assignee
株式会社Preferred Networks
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Preferred Networks filed Critical 株式会社Preferred Networks
Priority to JP2021517160A priority Critical patent/JPWO2020222287A1/ja
Publication of WO2020222287A1 publication Critical patent/WO2020222287A1/ja
Priority to US17/512,810 priority patent/US20220172801A1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Definitions

  • This disclosure relates to training equipment, morbidity determination equipment, machine learning methods, and program technology.
  • RNA of tissues such as blood and skin
  • the expression level of a specific microRNA is measured by a microarray or a DNA sequencer, and the expression level is used as an input for cancer.
  • Technology has been developed to determine whether or not the disease has occurred.
  • mapping When analyzing the expression level of microRNA using a DNA sequencer, it is necessary to perform a process called mapping that identifies the position of the microRNA sequence read by the DNA sequencer in the human genome. , Mapping has a problem that it takes time to calculate when the amount of data output by the DNA sequencer is large.
  • One aspect of the training device of the present disclosure is For a predetermined disease, a training feature vector based on the appearance frequency of a plurality of types of substrings in a base sequence obtained from a training sample collected from a learning target was input, and the learning target suffered from the predetermined disease. It is provided with a machine learning unit that trains a model by outputting label information indicating whether the subject is a target or an unaffected subject.
  • the present disclosure provides training devices, morbidity determination devices, machine learning methods, and programs that can be applied without time-consuming mapping.
  • FIG. 1st Embodiment of this disclosure It is a block diagram which shows the schematic structure of the morbidity determination apparatus in 1st Embodiment of this disclosure. It is a figure which shows the outline of the hardware structure of the morbidity determination device. It is a flowchart which shows the flow of processing in the morbidity determination apparatus. It is a figure which shows an example of the RNA sequence data of FASTA format. It is a figure which shows an example of the label information. It is a figure which shows the creation example of k-mer. It is a figure which shows the calculation example of the appearance frequency of k-mer shown in FIG. It is a figure for demonstrating the algorithm of a random forest. It is a figure which shows the evaluation result in an Example.
  • the machine learning unit determines the frequency of appearance of a plurality of types of substrings in the base sequence obtained from the training sample collected from the learning target.
  • the machine learning unit uses the training feature vector based on the frequency of appearance.
  • the machine learning unit inputs the training feature vector and outputs label information indicating whether the learning target is a target suffering from the predetermined disease or a target not suffering from the disease. Train the model. Therefore, a model for determining morbidity for a given disease caused by a gene mutation can be obtained without time-consuming mapping. In addition, since mapping is not performed, a model for determining the morbidity of a predetermined disease caused by a gene mutation can be obtained for various organisms other than humans.
  • FIG. 1 is a block diagram showing a schematic configuration of an morbidity determination device according to the first embodiment.
  • the morbidity determination device 100 of the present embodiment includes a training device 10, a morbidity determination unit 20, and a storage unit 30 as classification devices.
  • the training device 10 of this embodiment includes a machine learning unit 11.
  • the machine learning unit 11 obtains a training feature vector for a predetermined disease (clinical state).
  • cancer is taken up as an example of a predetermined disease, and a subject suffering from cancer and a subject not suffering from cancer are targeted for learning.
  • the learning target (reference target) may be a human target or a non-human animal or the like.
  • the machine learning unit 11 obtains the frequency of appearance of a plurality of types of substrings in the base sequence obtained from the training sample collected from such a learning target. Then, a training feature vector is obtained based on the obtained frequency of appearance. Further, the machine learning unit 11 inputs the training feature vector and outputs label information indicating whether the clinical state of the learning target is a target suffering from a predetermined disease or a target not suffering from the disease. Train the model as.
  • the morbidity determination unit 20 of the present embodiment inputs the determination feature vector based on the appearance frequency of the partial character string of the base sequence obtained from the determination biological sample collected from the determination target, and determines the morbidity of the determination target. That is, the frequency of appearance of the sub-character string of the base sequence obtained from the determination target is input, and whether or not the determination target suffers from a predetermined disease is output. Similar to the learning target, the determination target may be a human target or a non-human animal or the like.
  • the storage unit 30 of the present embodiment stores RNA sequence data 201 for training described later, label information 204 described later, and the like.
  • the storage unit 30 may also store the model trained by the machine learning unit 11.
  • FIG. 2 is a diagram showing an outline of the hardware configuration of the morbidity determination device 100 of the present embodiment.
  • the morbidity determination device 100 has the same hardware as the basic configuration of a normal information processing device.
  • the morbidity determination device 100 includes a CPU 101, a RAM 102, a ROM 103, and an input device 104 such as a keyboard and a mouse.
  • the morbidity determination device 100 includes a communication interface 105 for communicating with the outside, an auxiliary storage device 106 such as a hard disk, and an output device 107 such as a display or a printer.
  • FIG. 3 is a flowchart showing a processing flow in the morbidity determination device 100 of the present embodiment.
  • the processing in the morbidity determination device 100 of the present embodiment is divided into, for example, a training phase 200 and a determination phase 300.
  • the training phase 200 will be described.
  • RNA sequence data 201 is used as training data.
  • the RNA sequence data 201 is stored in the storage unit 30 as an example.
  • the RNA sequence data 201 is obtained as a DNA sequence from the RNA of a biological sample (blood, saliva, sebum, etc.) collected from a cancer-affected subject and a healthy subject using a DNA sequencer.
  • a biological sample blood, saliva, sebum, etc.
  • the data format of the RNA sequence data 201 for example, both the Fasta format and the Fastq format can be used.
  • FIG. 4 is a diagram showing an example of RNA sequence data 201 in FASTA format.
  • the Fasta format is plain text.
  • the data of one RNA sequence is composed of one header line 202 starting with ">" and the actual sequence character string 203 of the second and subsequent lines.
  • the ID for identifying the sequence data is described next to the “>”.
  • IDs of SEQ_0 and SEQ_1 are described as an example.
  • sequence read a character string (sequence read, hereinafter simply referred to as read) representing the base sequence read by the DNA sequencer is described as the sequence character string 203.
  • sequence character string 203 a character string representing the base sequence read by the DNA sequencer.
  • sequence data is separated and another sequence data starts.
  • the label information 204 as shown in FIG. 5 is used as the label information of the RNA sequence data 201.
  • FIG. 5 is a diagram showing an example of label information in the present embodiment.
  • the label information 204 is a sample ID 205 attached to each biological sample, and the biological sample identified by the sample ID 205 is a subject suffering from cancer or a healthy subject.
  • the label 206 indicating the existence is a paired file.
  • the sample ID 205 of "Sample 0" and “Sample 1" is paired with the label 206 "Healthy”, indicating that these biological samples are healthy subjects.
  • the sample ID 205 of "Sample 2" is paired with the label 206 "Cancer", indicating that this biological sample is a subject suffering from cancer.
  • the label information 204 is stored in the storage unit 30 as an example.
  • the RNA sequence data 201 as described above and the label information 204 corresponding to the RNA sequence data 201 are used.
  • the machine learning unit 11 converts the RNA sequence data 201 into a training feature vector by the following procedure.
  • the machine learning unit 11 inputs RNA sequence data 201 for training (FIG. 3: S1).
  • the machine learning unit 11 may input the training RNA sequence data 201 previously stored in the storage unit 30 from the storage unit 30, or input the training RNA sequence data 201 from an external storage medium or the like. You may.
  • the machine learning unit 11 After inputting the RNA sequence data 201 for training, the machine learning unit 11 performs error checking and post-processing of the DNA sequencer, and deletes a part having many errors in the RNA sequence data itself from the RNA sequence data 201.
  • a predetermined process may be performed. For example, trimming may be performed based on the quality score, which is the reading reliability of the DNA output by the DNA sequencer, or RNA sequence data 201 of the exact same sequence may be removed. Further, the machine learning unit 11 may remove the adapter sequence attached to the RNA when reading the RNA with the DNA sequencer.
  • the machine learning unit 11 generates k-mer for each read from the input Fasta format RNA sequence data 201 (FIG. 3: S2).
  • the k-mer is a substring consisting of continuous bases (nucleic acid residues) obtained by cutting out a read output by a DNA sequencer for each character number k (k is an integer of 1 or more).
  • FIG. 6 shows an example of creating k-mer.
  • FIG. 6 is a diagram showing an example of creating k-mer in the present embodiment.
  • the lead 207 "TGAAGTTTT” is referred to as "TGA", "GAA”. .. .. , Create a k-mer208 called “TTT”.
  • TGA the lead 207
  • GAA the lead 207
  • GAGATAGAC the lead 207
  • GAG "AGA”
  • AGA AGA
  • .. .. Create a k-mer called "GAC”.
  • FIG. 7 is a diagram showing a calculation example of the appearance frequency of k-mer shown in FIG.
  • the appearance frequency 209 of the k-mer 208 called “AAG” is calculated to be once
  • the appearance frequency 209 of the k-mer 208 called “AGA” is calculated to be twice, and so on.
  • the machine learning unit 11 normalizes the appearance frequency 209 of k-mer208 for each sample by the following formula (FIG. 3: S4). Even in the RNA sequence data 201 of the same sample, the number of reads 207 may be different, and as a result, the appearance frequency 209 of k-mer 208 may change. Therefore, by normalizing, the difference in the appearance frequency 209 of the k-mer 208 due to the difference in the number of the leads 207 can be corrected, and the appearance frequency can be appropriately determined.
  • the machine learning unit 11 inputs the label information 204 stored in advance in the storage unit 30 (FIG. 3: S5).
  • the machine learning unit 11 may input the label information 204 from an external storage medium or the like.
  • the machine learning unit 11 trains the model by using the appearance frequency 209 of k-mer 208 normalized in all the samples as described above and the label information 204 corresponding to all the samples (6).
  • FIG. 3 S6.
  • a model a linear classification, a decision tree, an SVM, a random forest, a multi-layer perceptron, or the like can be used.
  • FIG. 8 is a diagram for explaining a random forest algorithm.
  • the occurrence frequency 209 and the normalized k-mer208 in all the samples are used as training data, and in step S20, for example, M (M is 1 or more) from the training data of 2/3 of the whole.
  • M is the size of the forest.
  • the size n of one bootstrap sample (n is an integer of 1 or more) is, in principle, the size of training data (2/3 of the total), for example. 1/3 is left as evaluation / verification data.
  • step S21 shown in FIG. 8 in each bootstrap sample, the appearance frequency 209 of all k-mer208 is set as all variables, and d (d is an integer of 1 or more) of all variables are used as explanatory variables. After randomly selecting the appearance frequency 209 of k-mer208, a subject suffering from cancer and a healthy subject are classified, and a decision tree is grown. The number of explanatory variables can be set as appropriate.
  • step S22 shown in FIG. 8 the results of each decision tree obtained are integrated.
  • the results are integrated by majority vote, the subject suffering from cancer and the subject healthy are classified, and a training device as a trained classification is constructed.
  • the model constructed from the training data is applied to the evaluation / verification data, and the estimation error is calculated.
  • the erroneous discrimination rate is used as an index. From this estimation error, it is possible to determine the correlation between the frequency of occurrence of k-mer208 as an explanatory variable 209 and the subject suffering from cancer and the healthy subject.
  • the machine learning unit 11 stores the model trained as described above in the storage unit 30 as a trained model (FIG. 3: S7).
  • the morbidity determination unit 20 converts the RNA sequence data 201 for determining the morbidity of cancer into a determination feature vector by the following procedure, and the morbidity determination unit 20 converts the cancer into a determination feature vector as follows. Determine the morbidity.
  • the morbidity determination unit 20 inputs RNA sequence data for determining the morbidity of cancer (hereinafter referred to as morbidity determination RNA sequence data) (FIG. 3: S8).
  • the morbidity determination unit 20 may input the morbidity determination RNA sequence data previously stored in the storage unit 30 from the storage unit 30, or input the morbidity determination RNA sequence data from an external storage medium or the like. May be good.
  • the morbidity determination unit 20 generates k-mer208 for each read from the input Fasta format morbidity determination RNA sequence data (FIG. 3: S9).
  • k 3 will be described as in the training phase.
  • the morbidity determination unit 20 calculates how often (number of times) each k-mer 208 appears for each sample for morbidity determination (FIG. 3: S10).
  • the morbidity determination unit 20 normalizes the appearance frequency 209 of k-mer208 by the above formula used in the training phase for each sample for morbidity determination (FIG. 3: S11). The reasons for normalization are the same as those explained in the training phase.
  • the morbidity determination unit 20 inputs the appearance frequency 209 of the k-mer 208 normalized as described above in the morbidity determination sample, and identifies it as a trained model stored in the storage unit 30. (Fig. 3: S12). Then, the morbidity determination unit 20 predicts whether the sample for morbidity determination is for a target suffering from cancer or a healthy target, and outputs the prediction result (FIG. 3: S13). ).
  • the already trained trained model 220 can be stored in the storage unit 30, and the trained model 220 can be used. That is, the morbidity determination device 100 may have a morbidity determination unit 20 that can use the trained model 220 and perform a determination phase. That is, in this case, it is not necessary to provide the machine learning unit 11, and it is not necessary to perform the above training phase. As shown in the flowchart of FIG. 16, the morbidity determination unit 20 reads the trained model 220 from the storage unit 30 (S30: FIG. 16) and executes the determination phase 300 (S8 to S13: FIG. 16).
  • FIG. 9 is a diagram showing the evaluation results in the examples.
  • evaluation method 210 As shown in FIG. 9, as the evaluation method 210, three methods of Precision, Recall, and Accuracy were used. These evaluation methods are obtained by the following evaluation patterns.
  • the sample of the subject who suffered from cancer was determined by the morbidity determination device 100, and when the sample was the subject who actually suffered from cancer, the sample suffered from cancer by True Positive (TP) and the morbidity determination device 100.
  • the case where the sample is determined to be the target sample but is actually a healthy target sample is defined as False Positive (FP).
  • FP False Positive
  • FN False Negative
  • the morbidity determination device 100 determined that the sample was a healthy subject.
  • it is determined that the sample is a sample and the sample is actually a healthy target it is defined as True Negative (TN).
  • the score 211 when the evaluation method 210 is Precision is 1.00
  • the score 211 when the evaluation method 210 is Recall is 0.81
  • the score 211 when the evaluation method 210 is Accuracy It was 0.93.
  • the morbidity determination device 100 of the present embodiment it can be seen that when the evaluation method 210 is Accuracy, the morbidity determination of cancer can be performed with high accuracy.
  • the appearance frequency of k-mer as a plurality of types of subcharacter strings is obtained, and the appearance frequency of the k-mer is obtained.
  • the training feature vector is used.
  • the appearance frequency of k-mer as a plurality of types of subcharacter strings is obtained, and the judgment feature vector based on the appearance frequency of the k-mer is used.
  • the determination feature vector is used as an input to determine the morbidity of the determination target.
  • this embodiment uses RNA sequence data in determining cancer morbidity, but does not require RNA mapping, that is, it is not necessary to calculate which gene, which microRNA is expressed, and how much. It is possible to shorten the time.
  • FIG. 10 is a diagram showing an example of creating a subcharacter string by the spaced seed in the present embodiment.
  • FIG. 11 is a diagram showing an example in which a 4-ary (5,3) Hamming code, which is one of the error correction codes, is applied to a substring created by a k-mer or a spaced seed having a length of 5. is there.
  • the generation of k-mer described in the first embodiment corresponds to calculating a sub-character string from the input character string of RNA sequence data.
  • k-mer can be used instead of k-mer.
  • kmer In kmer, a continuous k-character substring was used.
  • 1 for spaced seed A space seed pattern consisting of and 0 is defined in advance, and new character strings are sequentially generated along the space seed pattern by using only the characters of the part that is 1. kmer corresponds to the case where all the space seed patterns are 1.
  • FIG. 10 shows an example of creating a character string when the space seed pattern is “1011”.
  • the second character is 0, so the part of the second character is skipped.
  • the “*” part represents the skipped character.
  • from the lead 207 called “TGAAGTTTT”, “T * AA”, “G * AG”. .. .. , "T * TT" substring 212 is created.
  • GATAGAC "G * GA”
  • a * GA .. ..
  • Error correction code is a technology that corrects the incorrect part of an array containing errors and converts it into a correct array. By applying this, it is possible to convert a character string that is partially different, for example, a few characters different, into a certain representative character string.
  • FIG. 11 is a diagram showing an example in which a 4-ary (5,3) Hamming code, which is one of the error correction codes, is applied to a substring created by k-mer or spaced seed having a length of 5. is there.
  • a 4-ary (5,3) Hamming code which is one of the error correction codes
  • FIG. 11 for example, when a substring 213 made of kmer or spaced seed having a length of 5 is generated, it is one of the error correction codes for the substring 213.
  • -ary (5,3) An example of applying a Hamming code will be described.
  • the substring 213 created by k-mer or spaced seed includes substrings such as CAAAA and AATAA, but these substrings are 4-ary (5,3) Hamming.
  • the code is converted to AAAAA as the representative character string 214.
  • FIG. 12 is a diagram showing an example of label information in the present embodiment
  • FIG. 13 is a diagram showing another example of label information in the present embodiment.
  • binary classification of healthy or cancer was performed. However, if you have cancer, you may want to know where the cancer is. In order to deal with this, in the present embodiment, in the case of cancer, it is possible to predict at which site the cancer is located. That is, the input is classified into a plurality of types.
  • FIG. 12 shows an example of label information 204 in which each sample ID 205 in this embodiment and a label indicating which site has cancer are paired.
  • the label information 204 refers to the sample ID 205 attached to each biological sample and the biological sample identified by the sample ID 205 being a healthy subject or a subject suffering from cancer.
  • the label 206 indicating which site of the cancer is the paired file.
  • the sample ID 205 of “Sample 0” is paired with the label 206 “Healthy”, indicating that this biological sample is a healthy subject.
  • the sample ID 205 of "Sample 1" is paired with the label 206 "lung cancer", indicating that this biological sample is a subject suffering from cancer and has cancer in the lung. ..
  • the sample ID 205 of "Sample 2" is paired with the label 206 "stomach cancer", indicating that this biological sample is a subject suffering from cancer and has cancer in the stomach. ..
  • each sample was affected by only one type of cancer.
  • the subject may be affected by multiple types of cancer due to metastatic cancer or the like.
  • the morbidity can be determined by applying the same method as described above by changing the method of creating the label of the sample data.
  • FIG. 13 shows an example of label information corresponding to the case where the subject has lung cancer and gastric cancer.
  • the label 215 corresponding to lung cancer and the label 216 corresponding to gastric cancer are used. If the subject has lung cancer, the label 215 is set to 1, and if the subject does not have lung cancer, the label 215 is set to 0. If the subject has gastric cancer, the label 216 is set to 1, and if the subject does not have gastric cancer, the label 216 is set to 0.
  • both the label 215 corresponding to lung cancer and the label 216 corresponding to gastric cancer become 1.
  • either the label 215 corresponding to lung cancer or the label 216 corresponding to gastric cancer becomes 1.
  • both the label 215 corresponding to lung cancer and the label 216 corresponding to gastric cancer are 0.
  • the sample ID 205 of "Sample 0" has a pair of 0 as a label 215 for lung cancer and a label 216 for gastric cancer, indicating that this biological sample is a healthy subject.
  • 1 is paired as the label 215 of lung cancer and 0 is paired as the label 216 of gastric cancer, and this biological sample is a subject suffering from one type of cancer called lung cancer. It shows that.
  • 0 is paired as the label 215 of lung cancer and 1 is paired as the label 216 of gastric cancer, and this biological sample is a subject suffering from one type of cancer called gastric cancer. It shows that.
  • the sample ID 205 of “Sample 3” 1 is paired as the label 215 for lung cancer and the label 216 for gastric cancer, and this biological sample is a subject suffering from two types of cancer, lung cancer and gastric cancer. It is shown that.
  • This method is called multi-label.
  • label information with labels indicating multiple different cancer morbidity is applied to the training sample data, and machine learning as described above is performed to create a trained model.
  • the determination can be used to determine morbidity for one or more cancers.
  • benign tumors and malignant tumors can be classified and labeled as different types of tumors, so that benign and malignant tumors can be determined separately.
  • cancer from a common primary site is taken as an example of a clinical condition, and an embodiment in which the present disclosure is applied to the determination of cancer morbidity has been described.
  • the disclosure is also applicable, for example, to cancers from two or more common primary sites.
  • Cancers to which this disclosure is applicable include breast cancer, lung cancer, prostate cancer, colorectal cancer, kidney cancer, uterine cancer, pancreatic cancer, esophageal cancer, lymphoma, head / neck cancer, etc.
  • Examples include ovarian cancer, hepatobiliary tract cancer, melanoma, cervical cancer, multiple myeloma, leukemia, thyroid cancer, bladder cancer, gastric cancer, or a combination thereof.
  • the clinical conditions in the present disclosure include a predetermined stage of breast cancer, a predetermined stage of lung cancer, a predetermined stage of prostate cancer, a predetermined stage of colonic rectal cancer, a predetermined stage of kidney cancer, and a predetermined stage of cervical cancer.
  • Predetermined stage of pancreatic cancer predetermined stage of esophageal cancer, predetermined stage of lymphoma, predetermined stage of head / cervical cancer, predetermined stage of ovarian cancer, hepatobiliary cancer
  • Predetermined stage of melanoma predetermined stage of cervical cancer, predetermined stage of multiple myeloma, predetermined stage of leukemia, predetermined stage of thyroid cancer, predetermined stage of bladder cancer It may be a stage or a predetermined stage of gastric cancer.
  • the clinical condition in the present disclosure may be a predetermined subtype of cancer.
  • the present disclosure is also applicable to determine the prevalence of other diseases, such as diseases caused by hormonal abnormalities, as a clinical condition.
  • it can be appropriately applied to the determination of the morbidity of diseases caused by mutations in DNA sequences such as gene mutations.
  • a mutation in a DNA sequence such as a gene mutation means that the expression level of microRNA is different from that of a healthy subject.
  • the present disclosure can also be applied to the determination of infectious diseases by detecting the DNA of microorganisms.
  • the clinical condition in the present disclosure includes a healthy condition.
  • blood whole blood, lymph, serum, saliva, urine, cerebrospinal fluid, fine needle aspiration fluid, tissue specimen, breast milk, nipple discharge, or in vitro fluid to be determined may be used. it can.
  • the present disclosure may be, for example, an morbidity determination device that determines morbidity using a pre-trained and prepared trained model.
  • the plurality of sequence reads can be obtained from single-ended next-generation sequencing or pair-ended next-generation sequencing for the biological sample to be determined.
  • a neural network algorithm As the trained model as a trained classification, a neural network algorithm, a support vector machine algorithm, a decision tree algorithm, an unsupervised clustering model algorithm, a supervised clustering model algorithm, or a regression model can be used.
  • each function may be a circuit composed of an analog circuit, a digital circuit, or an analog / digital mixed circuit. Further, a control circuit for controlling each function may be provided. The implementation of each circuit may be by ASIC (Application Specific Integrated Circuit), FPGA (Field Programmable Gate Array) or the like.
  • ASIC Application Specific Integrated Circuit
  • FPGA Field Programmable Gate Array
  • the device, system, etc. may be composed of hardware, or may be composed of software, and may be executed by a CPU (Central Processing Unit) or the like by information processing of the software.
  • a device, a system, or a program that realizes at least a part of the functions is stored in a storage medium such as a flexible disk or a CD-ROM, and is read by a computer and executed. May be good.
  • the storage medium may be a removable storage medium such as a magnetic disk or an optical disk, or may be a fixed storage medium such as a hard disk device or a memory. That is, information processing by software may be concretely implemented using hardware resources. Further, the processing by software may be implemented in a circuit such as FPGA and executed by hardware. The job may be executed by using an accelerator such as a GPU (Graphics Processing Unit), for example.
  • a GPU Graphics Processing Unit
  • the computer can be used as the device of the above embodiment by reading the dedicated software stored in the storage medium that can be read by the computer. Any storage medium can be used. Further, by installing the dedicated software downloaded via the communication network on the computer, the computer can be used as the device of the above embodiment. In this way, information processing by software is concretely implemented using hardware resources.
  • the program may be executed by two or more processors. Therefore, the program may be a mode in which not only one program but several programs are collectively used.
  • FIG. 14 is a block diagram showing an example of the hardware configuration according to the embodiment of the present disclosure.
  • the device, system, or the like according to the above-described embodiment includes a processor 71, a main storage device 72, an auxiliary storage device 73, a network interface 74, and a device interface 75, and these are connected via a bus 76. It can be realized as a computer device 7.
  • the computer device 7 of FIG. 14 includes one component, a plurality of the same components may be provided. Further, although one computer device 7 is shown, software may be installed on a plurality of computer devices, and each of the plurality of computer devices may execute a part of processing different from the software.
  • the processor 71 is an electronic circuit (processing circuit, Processing circuitry) including a computer control device and an arithmetic unit.
  • the processor 71 performs arithmetic processing based on data and programs input from each apparatus of the internal configuration of the computer apparatus 7, and outputs the arithmetic result and the control signal to each apparatus and the like.
  • the processor 71 controls each component constituting the computer device 7 by executing an OS (Operating System) of the computer device 7, an application, or the like.
  • OS Operating System
  • any processor 71 can be used as long as it can perform the above processing.
  • the device, system, etc. and their respective components are realized by the processor 71.
  • the processing circuit may refer to one or more electric circuits arranged on one chip, or may refer to one or more electric circuits arranged on two or more chips or devices. Good.
  • the main storage device 72 is a storage device that stores instructions executed by the processor 71, various data, and the like, and the information stored in the main storage device 72 is directly read by the processor 71.
  • the auxiliary storage device 73 is a storage device other than the main storage device 72. Note that these storage devices mean arbitrary electronic components capable of storing electronic information, and may be memory or storage. Further, the memory includes a volatile memory and a non-volatile memory, but either of them may be used. A memory for storing various data in a device, a system, or the like, for example, a storage unit 30, may be realized by a main storage device 72 or an auxiliary storage device 73.
  • each of the above-mentioned storage units may be mounted on the main storage device 72 or the auxiliary storage device 73.
  • at least a part of each of the above-mentioned storage units may be mounted in the memory provided in the accelerator.
  • the network interface 74 is an interface for connecting to the communication network 8 wirelessly or by wire. As the network interface 74, one conforming to the existing communication standard may be used. Information may be exchanged by the network interface 74 with the external device 9A which is communicated and connected via the communication network 8.
  • the external device 9A includes, for example, a camera, motion capture, an output destination device, an external sensor, an input source device, and the like. Further, the external device 9A may be a device having some functions of the components of the morbidity determination device 100. Then, the computer device 7 may receive a part of the processing result of the morbidity determination device 100 via the communication network 8 like a cloud service. Further, the server may be connected to the communication network 8 as the external device 9A, and the trained model may be stored in the server as the external device 9A. In this case, the morbidity determination device 100 may access the server as the external device 9A via the communication network 8 to perform the morbidity determination.
  • the device interface 75 is an interface such as USB (Universal Serial Bus) that directly connects to the external device 9B.
  • the external device 9B may be an external storage medium or a storage device. Each storage unit may be realized by an external device 9B.
  • the external device 9B may be an output device.
  • the output device may be, for example, a display device for displaying an image, a device for outputting sound, or the like.
  • a display device for displaying an image for example, there are LCD (Liquid Crystal Display), CRT (Cathode Ray Tube), PDP (Plasma Display Panel), speaker, etc., but the present invention is not limited to these.
  • the external device 9B may be an input device.
  • the input device includes devices such as a keyboard, a mouse, and a touch panel, and gives the information input by these devices to the computer device 7.
  • the signal from the input device is output to the processor 71.
  • the training device of the present disclosure inputs a training feature vector based on the appearance frequency of a plurality of types of substrings in a base sequence obtained from a training sample collected from a learning target for a predetermined disease, and the learning It is provided with a machine learning unit that trains a model by outputting label information indicating whether the target is a target suffering from the predetermined disease or a target not suffering from the predetermined disease.
  • a model for determining the morbidity of a predetermined disease can be obtained without performing time-consuming mapping.
  • a model for determining the morbidity of a predetermined disease can be obtained for various organisms other than humans.
  • the base sequence may be obtained as a DNA sequence by obtaining a corresponding DNA or RNA from the training sample and using a DNA sequencer.
  • RNA sequence data which is a base sequence, is obtained as the output of the DNA sequencer. Therefore, it is possible to obtain the appearance frequency of a plurality of types of substrings in the RNA sequence data, and it is possible to use the training feature vector based on the appearance frequency.
  • the plurality of types of subcharacter strings may be extracted from a training lead which is a character string having a predetermined length representing the base sequence.
  • the training read is a character string having a predetermined length representing the base sequence, it is possible to obtain the appearance frequency of a plurality of types of subcharacter strings in the read, and training is performed based on the appearance frequency. It can be a feature vector.
  • the frequency of appearance of the plurality of types of substrings may be normalized. In this case, even if the data amount of the training sample is different for each sample, the appearance frequency of the plurality of types of substrings is normalized, so that the appearance frequency is different due to the difference in the data amount. Is corrected.
  • the subcharacter string may be kmer.
  • a sub-character string composed of continuous bases cut out for each k of characters can be obtained. Since the sub-character string may appear repeatedly in the base sequence, the appearance frequency of the sub-character string can be obtained, and a training feature vector can be used based on the appearance frequency.
  • the sub-character string is a portion of the continuous characters included in the base sequence obtained from the training sample, in which some characters are skipped. It may be a character string. In this case, since the substring is a part of consecutive characters, that is, some characters are skipped, it is possible to determine the disease morbidity against differences in RNA sequences due to individual differences in samples and sequencing errors. It is done stubbornly.
  • the sub-character string may be a sub-character string obtained by converting a partially different character string into the same character string using an error correction code.
  • the difference in RNA sequence due to the individual difference of the sample and the sequencing error are further absorbed, and the disease morbidity determination is performed robustly.
  • the morbidity determination device of the present disclosure inputs a determination feature vector based on the appearance frequency of a plurality of types of substrings in a base sequence obtained from a determination biological sample collected from a determination target for a predetermined disease. It is provided with an morbidity determination unit that determines the morbidity of the determination target.
  • the morbidity determination for a predetermined disease is performed without performing time-consuming mapping.
  • mapping since mapping is not performed, morbidity determination for a predetermined disease is performed on various organisms other than humans.
  • the base sequence may be obtained as a DNA sequence by obtaining the corresponding DNA or RNA from the determination sample and using a DNA sequencer.
  • RNA sequence data which is a base sequence, is obtained as the output of the DNA sequencer. Therefore, it is possible to obtain the appearance frequency of a plurality of types of subcharacter strings in the RNA sequence data, and it is possible to use the determination feature vector based on the appearance frequency.
  • the frequency of appearance of the plurality of types of substrings may be normalized. In this case, even if the data amount of the judgment sample is different for each sample, the appearance frequency of the plurality of types of substrings is normalized, so that the appearance frequency is different due to the difference in the data amount. Is corrected.
  • the sub-character string may be kmer.
  • a sub-character string composed of continuous bases cut out for each k of characters can be obtained. Since the sub-character string may repeatedly appear in the base sequence, it is possible to determine the appearance frequency of the sub-character string, and it is possible to use it as a determination feature vector based on the appearance frequency.
  • the machine learning method of the present disclosure includes a step of inputting a training feature vector based on the frequency of appearance of a plurality of types of substrings in a base sequence obtained from a training sample collected from a learning target for a predetermined disease.
  • a step of training a model by outputting label information indicating whether the learning target is a target suffering from the predetermined disease or a target not suffering from the predetermined disease is provided.
  • mapping since mapping is not performed, various organisms other than humans having no reference genome are trained as a model for determining the morbidity of a predetermined disease.
  • the present disclosure is realized as a program for making a computer function as the training device.
  • the training device is implemented by causing a computer to execute the program of the present disclosure.
  • the present disclosure is realized as a program for making a computer function as the morbidity determination device.
  • the morbidity determination device is implemented by causing a computer to execute the program of the present disclosure.
  • the embodiment of the present disclosure may be the following method or recording medium.
  • the one or more programs a) An instruction to obtain a plurality of sequence reads in electronic form from an unencoded ribonucleic acid molecule in the biological sample to be determined.
  • the instruction in c) further includes an instruction for determining a considerable amount of the plurality of substrings located in each substring type in the series of substring types.
  • the method described in Appendix (1) The instruction d) further comprises the observed frequency of occurrence of the individual substring types in the series of substring types and the corresponding reference substrings for the individual substring types. With instructions to compare with the frequency of occurrence of The method described in Appendix (1).
  • the plurality of sequence reads are obtained from single-ended next-generation sequencing or pair-ended next-generation sequencing for the biological sample to be determined.
  • the method described in Appendix (1) (5)
  • Each sequence read in the plurality of sequence reads is a sequence read of all or partial microRNAs from the biological sample.
  • the method described in Appendix (1) (6)
  • the observed frequency of occurrence of each substring type in the series of substring types is normalized.
  • Each substring in the series of substring types is k-mer of a nucleic acid residue having a first predetermined length. The method according to any one of Supplementary Note (1) to Supplementary Note (6).
  • the plurality of types of substrings are one or more substrings of a first predetermined length and one of a second predetermined length for each sequence read in the plurality of sequence reads.
  • the first predetermined length and the second predetermined length are at least one residue, at least two residues, at least three residues, and at least four residues. Group, at least 5 residues, at least 6 residues, at least 7 residues, at least 8 residues, at least 9 residues, at least 10 residues, at least 11 residues , Each individually selected from at least 12 residues, or at least 15 residues, The method according to Appendix (7) or Appendix (8).
  • Each substring type in the series of substring types comprises a discontinuous string of nucleic acid residues from the individual sequence reads in a plurality of sequence reads.
  • Each substring type in the series of substring types includes different character strings converted into the same type of character string using an error correction code.
  • the judgment target is a human being.
  • the first clinical condition is cancer from a common primary site.
  • the first clinical condition is cancer from two or more common primary sites.
  • the first clinical condition is breast cancer, lung cancer, prostate cancer, colonic rectal cancer, kidney cancer, uterine cancer, pancreatic cancer, esophageal cancer, lymphoma, head / neck cancer, Ovarian cancer, hepatobiliary cancer, melanoma, cervical cancer, multiple myeloma, leukemia, thyroid cancer, bladder cancer, gastric cancer, or a combination thereof, The method according to any one of Supplementary Note (1) to Supplementary Note (12).
  • the first clinical condition includes a predetermined stage of breast cancer, a predetermined stage of lung cancer, a predetermined stage of prostate cancer, a predetermined stage of colorectal cancer, a predetermined stage of kidney cancer, and a uterus.
  • Predetermined stage of leukemia predetermined stage of pancreatic cancer, predetermined stage of esophageal cancer, predetermined stage of lymphoma, predetermined stage of head / cervical cancer, predetermined stage of ovarian cancer, hepatobiliary tract
  • Predetermined stage of cancer predetermined stage of melanoma, predetermined stage of cervical cancer, predetermined stage of multiple myeloma, predetermined stage of leukemia, predetermined stage of thyroid cancer, predetermined stage of bladder cancer
  • a predetermined stage, or a predetermined stage of gastric cancer The method according to any one of Supplementary Note (1) to Supplementary Note (13).
  • the first clinical condition is a predetermined subtype of cancer.
  • the cancers include breast cancer, lung cancer, prostate cancer, colorectal cancer, kidney cancer, uterine cancer, pancreatic cancer, esophageal cancer, lymphoma, head / neck cancer, and ovarian cancer. , Hepatobiliary cancer, melanoma, cervical cancer, multiple myeloma, leukemia, thyroid cancer, bladder cancer, or gastric cancer, The method described in Appendix (17).
  • the biological sample is blood, whole blood, lymph, serum, saliva, urine, cerebrospinal fluid, fine needle aspiration fluid, tissue specimen, breast milk, nipple discharge, or in vitro fluid to be determined.
  • the method according to any one of Supplementary Note (1) to Supplementary Note (18).
  • a classification device including one or more processors and one or more memories for storing one or more programs executed by the one or more processors. The one or more programs mentioned above a) An instruction to obtain a plurality of sequence reads in electronic form from an unencoded ribonucleic acid molecule in the biological sample to be determined. b) An instruction to extract one or more substrings from each sequence read in the plurality of sequence reads to obtain a plurality of substrings.
  • a classification method in a computer system including one or more processors and one or more memories for storing one or more programs executed by the one or more processors.
  • the classification method is a) For each individual reference in the plurality of references, where each reference in the plurality of references comprises a corresponding clinical status label from the plurality of clinical status labels. Multiple sequence reads are obtained in electronic form from unencoded ribonucleic acid molecules in the individual reference biological samples. For each sequence read in each of the plurality of sequence reads, one or more substrings are extracted to obtain a plurality of corresponding reference substrings. Using the corresponding plurality of reference substrings, the frequency of reference occurrence of each substring type in a series of substring types is determined. b) Untrained or partially trained for the individual reference frequency of each substring type and for the corresponding clinical status label of each reference in the plurality of references.
  • Each reference object in the plurality of reference objects is a human being.
  • the plurality of reference objects include at least 20 objects.
  • the plurality of reference objects include at least 100 objects.
  • Acquiring the plurality of sequence reads in electronic form is to further acquire the biological sample of the reference target and generate the corresponding plurality of sequence reads.
  • the plurality of clinical status labels include breast cancer, lung cancer, prostate cancer, colorectal cancer, kidney cancer, uterine cancer, pancreatic cancer, esophageal cancer, lymphoma, head / neck cancer, and the like.
  • two or more clinical conditions selected from the group consisting of ovarian cancer, hepatobiliary cancer, melanoma, cervical cancer, multiple myeloma, leukemia, thyroid cancer, bladder cancer, or gastric cancer.
  • the plurality of clinical status labels include a predetermined stage of breast cancer, a predetermined stage of lung cancer, a predetermined stage of prostate cancer, a predetermined stage of colonic rectal cancer, a predetermined stage of kidney cancer, and a uterus.
  • Predetermined stage of thyroid cancer predetermined stage of pancreatic cancer, predetermined stage of esophageal cancer, predetermined stage of lymphoma, predetermined stage of head / cervical cancer, predetermined stage of ovarian cancer, hepatobiliary tract
  • Predetermined stage of cancer predetermined stage of melanoma, predetermined stage of cervical cancer, predetermined stage of multiple myeloma, predetermined stage of leukemia, predetermined stage of thyroid cancer, predetermined stage of bladder cancer It comprises two or more clinical conditions selected from a group consisting of a predetermined stage or a predetermined stage of gastric cancer.
  • the classification method according to any one of Supplementary Note (22) to Supplementary Note (26).
  • the plurality of clinical condition labels further include a healthy condition.
  • the trained classification is a neural network algorithm, a support vector machine algorithm, a decision tree algorithm, an unsupervised clustering model algorithm, a supervised clustering model algorithm, or a regression model.
  • the trained classification is 2 or more.
  • the trained classification is two.
  • a classification device including one or more processors and one or more memories for storing one or more programs executed by the one or more processors.
  • each reference in the plurality of references comprises a corresponding clinical status label from the plurality of clinical status labels.
  • It comprises an instruction to train a classification and obtain a trained classification that identifies the plurality of clinical condition labels based on a large number of unencoded ribonucleic acid molecules.
  • Sorting device (34) A non-transient computer-readable recording medium in which one or more computer programs are embedded for classification, the one or more programs being executed by the computer system in the computer system. Run the method for classification, The method for the classification is a) For each individual reference in the plurality of references, where each reference in the plurality of references comprises a corresponding clinical status label from the plurality of clinical status labels. Multiple sequence reads are obtained in electronic form from unencoded ribonucleic acid molecules in the individual reference biological samples.
  • one or more substrings are extracted to obtain a plurality of corresponding reference substrings.
  • the reference occurrence frequency of each substring type in the series of substring types is determined.
  • Untrained or partially trained for the individual reference frequency of each substring type and for the corresponding clinical status label of each reference in the plurality of references is determined.
  • Training device 11
  • Machine learning unit 20
  • Disease determination unit 30
  • Storage unit 100
  • Disease determination device 101
  • CPU 102
  • RAM 103
  • ROM 104
  • Input device 105
  • Communication interface 106
  • Auxiliary storage device 107
  • Output device 200
  • Training phase 201
  • RNA sequence data 202
  • Header line 203
  • Sequence string 204
  • Sample ID 206
  • Label 207
  • Lead 208 k-mer 209
  • Appearance frequency 210
  • Evaluation method 211
  • Sub-character string 213 Sub-character string 214
  • Representative character string 215
  • Label 300

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Genetics & Genomics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Epidemiology (AREA)
  • Mathematical Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

時間のかかるマッピングを行うことなく、また、ヒト以外の様々な生物で簡単に適用可能な訓練装置、罹患判定装置、機械学習方法、およびプログラムを提供する。所定の疾患について、学習対象から採取した訓練用サンプルから得た塩基配列における複数種類の部分文字列の出現頻度に基づく訓練用特徴ベクトルを入力とし、前記学習対象が、前記所定の疾患に罹患した対象であるのか、あるいは、罹患していない対象であるのかを示すラベル情報を出力としてモデルを学習する機械学習部を備える。

Description

訓練装置、罹患判定装置、機械学習方法、およびプログラム
 本開示は、訓練装置、罹患判定装置、機械学習方法、およびプログラムの技術に関する。
 従来、血中や皮膚などの組織のRNAを利用したがんの罹患判定を行う技術としては、マイクロアレイやDNAシーケンサにより特定のマイクロRNAの発現量を測定し、その発現量を入力としてがんになっているかどうかなどを罹患判定する技術が開発されている。
Shimomura, A., Shiino, S., Kawauchi, J., Takizawa, S., Sakamoto, H., Matsuzaki, J., … Ochiya, T. (2016). Novel combination of serum microRNA for detecting breast cancer in the early stage. Cancer Science, 107(3), 326-34. https://doi.org/10.1111/cas.12880
 DNAシーケンサを用いてマイクロRNAの発現量を解析する場合は、DNAシーケンサで読み取られたマイクロRNAの配列がヒトのゲノムのどの位置のものであるかを特定するマッピングという処理を行う必要があるが、マッピングは、DNAシーケンサが出力するデータ量が大きい場合には、計算に時間がかかるという問題がある。
 そこで、本開示は、前記課題を解決し、時間のかかるマッピングを行うことなく適用可能な訓練装置、罹患判定装置、機械学習方法、およびプログラムを提供することを目的とする。
 本開示の訓練装置の一態様は、
 所定の疾患について、学習対象から採取した訓練用サンプルから得た塩基配列における複数種類の部分文字列の出現頻度に基づく訓練用特徴ベクトルを入力とし、前記学習対象が、前記所定の疾患に罹患した対象であるのか、あるいは、罹患していない対象であるのかを示すラベル情報を出力としてモデルを訓練する機械学習部を備える。
 本開示によれば、時間のかかるマッピングを行うことなく、適用できる訓練装置、罹患判定装置、機械学習方法、およびプログラムが提供される。
本開示の第1実施形態における罹患判定装置の概略構成を示すブロック図である。 罹患判定装置のハードウェア構成の概略を示す図である。 罹患判定装置における処理の流れを示すフローチャートである。 FastaフォーマットのRNAシーケンスデータの一例を示す図である。 ラベル情報の一例を示す図である。 k-merの作成例を示す図である。 図6に示すk-merの出現頻度の計算例を示す図である。 ランダムフォレストのアルゴリズムを説明するための図である。 実施例における評価結果を示す図である。 本開示の第2実施形態におけるspaced seedによる部分文字列の作成例を示す図である。 本開示の第2実施形態における部分文字列に対して誤り訂正符号を用いて代表文字列を作成する例を示す図である。 本開示の第3実施形態におけるラベル情報の一例を示す図である。 本開示の第3実施形態におけるラベル情報の他の例を示す図である。 本開示の一実施形態におけるハードウェア構成の一例を示すブロック図である。 本開示の第1実施形態における他の罹患判定装置の概略構成を示すブロック図である。 図15に示す他の罹患判定装置における処理の流れを示すフローチャートである。
 本開示の一態様によれば、機械学習部は、学習対象から採取した訓練用サンプルから得た塩基配列において、複数種類の部分文字列の出現頻度を求める。また、機械学習部は、前記出現頻度に基づいて訓練用特徴ベクトルとする。さらに、機械学習部は、前記訓練用特徴ベクトルを入力とし、前記学習対象が、前記所定の疾患に罹患した対象であるのか、あるいは、罹患していない対象であるのかを示すラベル情報を出力としてモデルを訓練する。したがって、時間のかかるマッピングを行うことなく、遺伝子変異に起因する所定の疾患についての罹患判定のためのモデルが得られる。また、マッピングを行わないので、ヒト以外の様々な生物に対して、遺伝子変異に起因する所定の疾患についての罹患判定のためのモデルが得られる。
 本開示の罹患判定装置の実施形態について添付図面を参照しつつ説明する。
(第1実施形態)
 まず、本開示の罹患判定装置の第1実施形態について図1ないし図9を参照しつつ説明する。
<罹患判定装置の概略構成>
 図1は、第1実施形態における罹患判定装置の概略構成を示すブロック図である。図1に示すように、本実施形態の罹患判定装置100は、分類装置としての訓練装置10、罹患判定部20、および記憶部30を備えている。
 本実施形態の訓練装置10は、機械学習部11を備えている。機械学習部11は、所定の疾患(臨床状態)について、訓練用特徴ベクトルを得る。本実施形態では、所定の疾患の一例としてがんを取り上げ、がんに罹患している対象と、がんに罹患していない対象を学習対象とする。学習対象(参照対象)は、ヒトである対象の他、ヒト以外の動物などの対象であってもよい。機械学習部11は、このような学習対象から採取した訓練用サンプルから得られる塩基配列において、複数種類の部分文字列の出現頻度を求める。そして、求めた出現頻度に基づいて訓練用特徴ベクトルを得る。さらに、機械学習部11は、訓練用特徴ベクトルを入力として、学習対象の臨床状態が、所定の疾患に罹患した対象であるのか、あるいは、罹患していない対象であるのかを示すラベル情報を出力としてモデルを訓練する。
 本実施形態の罹患判定部20は、判定対象から採取した判定用生体サンプルから得た塩基配列の部分文字列の出現頻度に基づく判定用特徴ベクトルを入力とし、判定対象の罹患判定を行う。すなわち、判定対象から得た塩基配列の部分文字列の出現頻度を入力として、判定対象が所定の疾患に罹患しているか否かを出力する。判定対象は、学習対象と同様に、ヒトである対象の他、ヒト以外の動物などの対象であってもよい。
 本実施形態の記憶部30は、後述する訓練用のRNAシーケンスデータ201、および後述するラベル情報204などを記憶する。また、記憶部30は、機械学習部11によって訓練されるモデルを記憶するようにしてもよい。
 図2は、本実施形態の罹患判定装置100のハードウェア構成の概略を示す図である。罹患判定装置100は、ハードウェアとしては通常の情報処理装置の基本構成と同様である。例えば、図2に示すように、罹患判定装置100は、CPU101、RAM102、ROM103、およびキーボードやマウス等の入力装置104を備える。また、罹患判定装置100は、外部との通信を行う通信インターフェース105、ハードディスク等の補助記憶装置106、および、ディスプレイやプリンタ等の出力装置107を備える。
<罹患判定装置における処理>
 次に、罹患判定装置100における処理の流れについて図3を参照しつつ説明する。図3は、本実施形態の罹患判定装置100における処理の流れを示すフローチャートである。
 図3に示すように、本実施形態の罹患判定装置100における処理は、例えば、訓練フェーズ200と判定フェーズ300に分かれている。まず、訓練フェーズ200について説明する。
 本実施形態においては、訓練用のデータとして、RNAシーケンスデータ201を用いる。RNAシーケンスデータ201は、一例として、記憶部30に記憶されている。RNAシーケンスデータ201は、がんに罹患した対象および健常な対象から採取した生体サンプル(血液、唾液、皮脂など)のRNAから、DNAシーケンサを用いてDNA配列として取得する。RNAシーケンスデータ201のデータ形式は、例えば、FastaフォーマットおよびFastqフォーマットのいずれも利用することができる。一例として、標準的なFastaフォーマットのRNAシーケンスデータ201の例を図4に示す。図4は、FastaフォーマットのRNAシーケンスデータ201の一例を示す図である。
 Fastaフォーマットは、プレーンテキストである。1つのRNAシーケンスのデータは、“>”で始まる1行のヘッダ行202と、2行目以降の実際のシーケンス文字列203で構成される。ヘッダ行202では、“>”の次にシーケンスデータを識別するためのIDを記述する。図4においては、一例として、SEQ_0およびSEQ_1というIDが記述されている。
 シーケンスデータを識別するための文字列に続けて、シーケンス文字列203として、DNAシーケンサで読み取られた塩基配列を表す文字列(シーケンスリード。以下、単にリードと称する)を記述する。図4においては、一例として、GATTT・・・で始まるリードが記述されている。
 シーケンス文字列203の次に“>”で始まる別の行が出現すると、シーケンスデータが区切られ、別のシーケンスデータが始まる。
 また、本実施形態においては、RNAシーケンスデータ201のラベル情報として、図5に示すようなラベル情報204を用いる。図5は、本実施形態におけるラベル情報の一例を示す図である。図5に示すように、ラベル情報204は、生体サンプルごとに付したサンプルID205と、サンプルID205によって識別される生体サンプルががんに罹患した対象のものであるか、または健常な対象のものであるかを示すラベル206が、ペアになったファイルである。図5においては、「サンプル0」および「サンプル1」のサンプルID205には「健常」というラベル206がペアになっており、これらの生体サンプルが健常の対象のものであることを示している。また、「サンプル2」のサンプルID205には「がん」というラベル206がペアになっており、この生体サンプルががんに罹患した対象のものであることを示している。ラベル情報204は、一例として記憶部30に記憶されている。
 本実施形態の訓練フェーズ200においては、以上のようなRNAシーケンスデータ201と、RNAシーケンスデータ201に対応するラベル情報204を用いる。本実施形態においては、機械学習部11は、RNAシーケンスデータ201を以下の手順で訓練用特徴ベクトルに変換する。
(1)まず、機械学習部11は、訓練用のRNAシーケンスデータ201を入力する(図3:S1)。機械学習部11は、記憶部30に予め記憶させておいた訓練用のRNAシーケンスデータ201を記憶部30から入力してもよいし、外部の記憶媒体等から訓練用のRNAシーケンスデータ201を入力してもよい。
 機械学習部11は、訓練用のRNAシーケンスデータ201を入力した後に、DNAシーケンサのエラーチェックや後処理を行ったり、RNAシーケンスデータ自体にエラーが多い部分はRNAシーケンスデータ201から削除したりするなど所定の処理を行ってもよい。例えば、DNAシーケンサが出力するDNAの読み取り信頼度であるquality scoreに基づいてトリミングを行ったり、あるいは、完全に同じ配列のRNAシーケンスデータ201を除去したりしてもよい。また、機械学習部11は、RNAをDNAシーケンサで読み取る際に、RNAに付けるadapter配列の除去を行ってもよい。
(2)次に、機械学習部11は、入力したFastaフォーマットのRNAシーケンスデータ201から、リードごとにk-merを生成する(図3:S2)。k-merとは、DNAシーケンサが出力したリードを文字数k(kは1以上の整数)ごとに切り出した連続塩基(核酸残基)からなる部分文字列である。文字数kは任意の数を設定することができる。本実施形態では、一例として、k=3として説明する。
 図6にk-merの作成例を示す。図6は、本実施形態におけるk-merの作成例を示す図である。図6に示す例では、“TGAAGTTTT”というリード207から、“TGA”,“GAA”...,“TTT”というk-mer208を作成する。また、“GAGATAGAC”というリード207から、“GAG”,“AGA”...,“GAC”というk-merを作成する。
(3)次に、機械学習部11は、1つのサンプルごとに各k-merがどれくらいの頻度(回数)で出現しているかを計算する(図3:S3)。図7は、図6に示すk-merの出現頻度の計算例を示す図である。図7に示す例では、“AAG”というk-mer208の出現頻度209が1回であり、“AGA”というk-mer208の出現頻度209が2回というように計算される。
(4)次に、機械学習部11は、サンプルごとに以下の式によりk-mer208の出現頻度209を正規化する(図3:S4)。同一のサンプルのRNAシーケンスデータ201であってもリード207の本数が異なり、結果としてk-mer208の出現頻度209が変わる場合がある。このため、正規化することで、リード207の本数の違いによるk-mer208の出現頻度209の違いを補正し、出現頻度の判定を適切に行うことができる。
Figure JPOXMLDOC01-appb-M000001
上記式において、
Figure JPOXMLDOC01-appb-I000002
は、サンプルiのj番目のk-merの正規化した出現頻度を示す。
Figure JPOXMLDOC01-appb-I000003
は、サンプルiのj番目のk-merの出現頻度を示す。
また、上記式の右辺における分母は、サンプルiの全てのk-merの出現頻度を示す。
(5)次に、機械学習部11は、記憶部30に予め記憶させておいたラベル情報204を入力する(図3:S5)。機械学習部11は、外部の記憶媒体等からラベル情報204を入力するようにしてもよい。
(6)次に、機械学習部11は、以上のように全てのサンプルにおいて正規化したk-mer208の出現頻度209と、全てのサンプルに対応するラベル情報204を利用し、モデルを訓練する(図3:S6)。この際、モデルとしては線形分類、決定木、SVM、ランダムフォレスト、多層パーセプトロンなどを用いることができる。
 図8は、ランダムフォレストのアルゴリズムを説明するための図である。図8に示すように、全サンプルにおける正規化したk-mer208の出現頻度209およびを訓練用データとし、ステップS20では、例えば、全体の2/3の訓練用データからM(Mは1以上の整数)個のブートストラップ標本を抽出する。Mがフォレストの大きさである。1個のブートストラップ標本の大きさn(nは1以上の整数)は、原則として、例えば、訓練用データ(全体の2/3)の大きさである。1/3は評価・検証用データとして残す。
 図8に示すステップS21では、各ブートストラップ標本において、全てのk-mer208の出現頻度209を全変数とし、全変数のうちからd(dは1以上の整数)個の説明変数としてd 個のk-mer208の出現頻度209をランダムに選択したうえで、がんに罹患した対象と健常な対象とを分類し、決定木を成長させる。説明変数の個数は適宜設定することができる。
 図8に示すステップS22では、得られた各決定木の結果を統合する。本実施形態では、結果を多数決で統合し、がんに罹患した対象と健常な対象とを分類して、訓練された分類としての訓練器を構築する。評価・検証用データに対して、訓練用データで構築したモデルを当てはめ、推定誤差を求める。本実施形態では、例えば、誤判別率を指標とする。この推定誤差から説明変数としてのk-mer208の出現頻度209と、がんに罹患した対象および健常な対象との相関関係を求めることができる。
(7)機械学習部11は、以上のように訓練したモデルを訓練済みモデルとして記憶部30に記憶させる(図3:S7)。
 次に、本実施形態の判定フェーズ300について説明する。本実施形態においては、罹患判定部20は、がんの罹患判定を行うRNAシーケンスデータ201を以下の手順で判定用特徴ベクトルに変換し、罹患判定部20は、以下のようにしてがんの罹患判定を行う。
(1)まず、罹患判定部20は、がんの罹患判定を行うRNAシーケンスデータ(以下、罹患判定用RNAシーケンスデータとする。)を入力する(図3:S8)。罹患判定部20は、記憶部30に予め記憶させておいた罹患判定用RNAシーケンスデータを記憶部30から入力してもよいし、外部の記憶媒体等から罹患判定用RNAシーケンスデータを入力してもよい。
(2)次に、罹患判定部20は、入力したFastaフォーマットの罹患判定用RNAシーケンスデータから、リードごとにk-mer208を生成する(図3:S9)。本実施形態では、一例として、訓練フェーズと同様にk=3として説明する。
(3)次に、罹患判定部20は、罹患判定用の1つのサンプルごとに各k-mer208がどれくらいの頻度(回数)で出現しているかを計算する(図3:S10)。
(4)次に、罹患判定部20は、罹患判定用のサンプルごとに、訓練フェーズで用いた上記の式によりk-mer208の出現頻度209を正規化する(図3:S11)。正規化する理由は、訓練フェーズで説明した理由と同様である。
(5)次に、罹患判定部20は、罹患判定用のサンプルにおいて以上のように正規化したk-mer208の出現頻度209を入力し、記憶部30に記憶させた訓練済みモデルとの同定を行う(図3:S12)。そして、罹患判定部20は、罹患判定用のサンプルががんに罹患した対象のものであるか、あるいは健常な対象のものであるかの予測を行い、予測結果を出力する(図3:S13)。
 なお、本開示の罹患判定装置100においては、図15に示すように、すでに訓練された訓練済みモデル220を記憶部30に記憶させ、この訓練済みモデル220を利用することができる。すなわち、罹患判定装置100、は訓練済みモデル220を利用可能な罹患判定部20を有し、判定フェーズを行ってもよい。つまりこの場合においては、機械学習部11を備える必要はなく、上記の訓練フェーズを行う必要はない。図16のフローチャートに示すように、罹患判定部20は、訓練済みモデル220を記憶部30から読み出し(S30:図16)、判定フェーズ300を実行する(S8~S13:図16)
<実施例>
 次に、本実施形態の罹患判定装置100を検証するために行った実施例について説明する。実施例では、健常な犬とがんに罹患した犬の血液サンプルを、それぞれ96検体、および52検体用意し、DNAシーケンサで読み取った。そして、読み取ったサンプルを、訓練用と検証用にそれぞれ118と30に分割し、118サンプルを用いて訓練を行い、残りの30サンプルで評価を行った。訓練モデルとしてはランダムフォレストを用いた。評価の結果を図9に示す。図9は、実施例における評価結果を示す図である。
 図9に示すように、評価方法210は、Precision,Recall,Accuracyの3つの方法を用いた。これらの評価方法は、以下のような評価パターンにより求められる。
 罹患判定装置100によりがんに罹患した対象のサンプルであると判定し、実際にがんに罹患した対象のサンプルであった場合をTrue Positive(TP)、罹患判定装置100によりがんに罹患した対象のサンプルであると判定したが、実際には健常な対象のサンプルであった場合をFalse Positive(FP)とする。また、罹患判定装置100により健常な対象のサンプルであると判定したが、実際にはがんに罹患した対象のサンプルであった場合をFalse Negative(FN)、罹患判定装置100により健常な対象のサンプルであると判定し、実際に健常な対象のサンプルであった場合をTrue Negative(TN)とする。
 評価パターンを以上のように定義するとき、各評価方法210のスコア211は以下のように求められる。
Precision=TP/(TP+FP)
Recall=TP/(TP+FN)
Accuracy=(TP+TN)/(TP+TN+FP+FN)
 図9に示すように、評価方法210がPrecisionの場合のスコア211は1.00、評価方法210がRecallの場合のスコア211は0.81、および、評価方法210がAccuracyの場合のスコア211は0.93であった。
 このように、本実施形態の罹患判定装置100によれば、評価方法210をAccuracyとした場合には、高い精度でがんの罹患判定ができていることがわかる。
 以上説明したように、本実施形態によれば、訓練用サンプルの塩基配列であるRNAシーケンスデータにおいて、複数種類の部分文字列としてのk-merの出現頻度を求め、当該k-merの出現頻度に基づく訓練用特徴ベクトルを用いる。また、判定用サンプルから得た塩基配列であるRNAシーケンスデータにおいて、複数種類の部分文字列としてのk-merの出現頻度を求め、当該k-merの出現頻度に基づく判定用特徴ベクトルを用いる。そして、本実施形態では、判定用特徴ベクトルを入力とし、判定対象の罹患判定を行う。
 したがって、本実施形態は、がんの罹患判定においてRNAシーケンスデータを用いるが、RNAをマッピングする必要がなく、つまり、どの遺伝子、どのマイクロRNAがどれくらい発現しているかを計算する必要がなく、計算時間を短縮することが可能となる。
 また、従来は、リファレンスゲノムがないヒト以外の生物に適用する場合には、そもそもマッピングができないために、マイクロRNAの発現量を測定できないという問題があった。しかしながら、本実施形態によれば、RNAをマッピングする必要がないため、リファレンスゲノムが不要であり、ヒト以外の様々な生物にも適用が可能である。
(第2実施形態)
 次に、本開示の第2実施形態について図10および図11を参照しつつ説明する。図10は、本実施形態におけるspaced seedによる部分文字列の作成例を示す図である。図11は、長さが5のk-merやspaced seedで作った部分文字列に対して誤り訂正符号の一つである4-ary (5,3)ハミング符号を適用した例を示す図である。
 第1実施形態で説明したk-merの生成は、入力したRNAシーケンスデータの文字列から、部分文字列を計算することに相当する。このような部分文字列を生成する方法は様々なものがあり、以下のようなものをk-merの代わりに使うことができる。
(1)連続した文字列ではなく、いくつかの文字(一部の文字)を飛ばして文字列を生成する方法(spaced seed)
 k-merでは、連続するk文字の部分文字列を使用した。これに対してspaced seedでは1
と0から成るスペースシードパターンを予め定めておき、スペースシードパターンに沿って、1になっている部分の文字のみを使うようにして新しい文字列を順番に生成する。k-merはスペースシードパターンが全て1になっている場合に相当する。
 図10にスペースシードパターンが“1011”の場合における文字列の作成例を示す。スペースシードパターンが“1011”の場合には、2番目の文字が0になっているので、2番目の文字の部分を飛ばすことになる。図10では、リード207から作成される部分文字列212のうち、“*”の部分が飛ばした文字を表している。図10に示す例では、“TGAAGTTTT”というリード207から、“T*AA”,“G*AG”...,“T*TT”という部分文字列212を作成する。また、“GAGATAGAC”というリード207から、“G*GA”,“A*GA”...,“A*AC”という部分文字列212を作成する。
 このように文字を一部飛ばすことで、似ている配列から生成される文字列の一部を一致させることができる。これにより、サンプルの個体差によるRNAシーケンスの違いやシーケンシングエラーに対して疾患の罹患判定を頑健にすることができる。
 (2)k-merやspaced seedで作った部分文字列に対して誤り訂正符号を用いて一部が異なる文字列を同一の文字列に変換する方法
 spaced seedを利用することでもある程度サンプルの個体差によるRNAシーケンスの違いやシーケンシングエラーにも対処できるが、これに加えて、誤り訂正符号を適用することで一部の文字、例えば数文字の違いをさらに吸収することができる。
 誤り訂正符号は、誤りが含まれる配列に対して誤っている部分を訂正し、正しい配列に変換する技術である。これを応用し、一部が異なる、例えば数文字違いの文字列をある代表文字列に変換するということができる。
 図11は、長さが5のk-merやspaced seedで作った部分文字列に対して誤り訂正符号の一つである4-ary (5,3)ハミング符号を適用した例を示す図である。図11に示すように、例えば、長さが5のk-merやspaced seedで作った部分文字列213が生成された場合に、部分文字列213に対して誤り訂正符号の一つである4-ary (5,3)ハミング符号を適用する例について説明する。この場合には、k-merやspaced seedで作った部分文字列213には、CAAAAやAATAAなどの部分文字列が含まれるが、これらの部分文字列は、4-ary (5,3)ハミング符号を適用することにより、代表文字列214としてAAAAAに変換される。
 このような処理を行うことで、spaced seedの場合よりもサンプルの個体差によるRNAシーケンスの違いやシーケンシングエラーに対して、疾患の罹患判定を頑健にすることができる。
(第3実施形態)
 次に、本開示の第3実施形態について図12および図13を参照しつつ説明する。図12は、本実施形態におけるラベル情報の一例を示す図であり、図13は、本実施形態におけるラベル情報の他の例を示す図である。
 第1実施形態においては、健常かがんかの2値分類を行った。しかし、がんである場合には、どの部位にがんがあるかを知りたい場合もある。これに対応するために、本実施形態においては、がんである場合はどの部位にあるがんかも予測できるようにする。すなわち、入力を複数に分類する。
 図12に、本実施形態における各サンプルID205と、どの部位にがんがあるかのラベルとをペアにしたラベル情報204の一例を示す。図12に示すように、ラベル情報204は、生体サンプルごとに付したサンプルID205と、サンプルID205によって識別される生体サンプルが健常な対象のものであるか、またはがんに罹患した対象のものである場合にはどの部位のがんかを示すラベル206が、ペアになったファイルである。図12においては、「サンプル0」のサンプルID205には「健常」というラベル206がペアになっており、この生体サンプルが健常な対象のものであることを示している。また、「サンプル1」のサンプルID205には「肺がん」というラベル206がペアになっており、この生体サンプルががんに罹患した対象のものであり、肺にがんがあることを示している。さらに、「サンプル2」のサンプルID205には「胃がん」というラベル206がペアになっており、この生体サンプルががんに罹患した対象のものであり、胃にがんがあることを示している。
 この場合には、モデルの訓練を行う際にマルチクラス学習を用いることで、健常な対象のサンプルであるのか、あるいは、がんに罹患した対象のサンプルである場合にどの部位にがんがあるかをまとめて予測することができる。また、腫瘍の種類として良性の腫瘍と悪性の腫瘍(がん)を分けてラベル206を振ることで、良性と悪性についても区別して判定するモデルとすることができる。
 上述した例では、1サンプルあたり、1種類のがんにしか罹患していないことを前提にしていた。しかし、転移性のがんなどにより、対象が複数種のがんに罹患している場合もある。この場合は、サンプルデータのラベルの作り方を変えることにより、上述と同様の手法を適用することで、罹患判定を行うことができる。
 図13に、対象が肺がんと胃がんに罹患している場合に対応したラベル情報の一例を示す。図13に示す例では、肺がんに対応するラベル215と、胃がんに対応するラベル216とを用いる。対象が肺がんに罹患している場合にはラベル215を1とし、対象が肺がんに罹患していない場合にはラベル215を0とする。また、対象胃がんに罹患している場合にはラベル216を1とし、対象が胃がんに罹患していない場合にはラベル216を0とする。
 したがって、対象が肺がんと胃がんの両方に罹患している場合には、肺がんに対応するラベル215と胃がんに対応するラベル216の両方が1となる。また、対象が肺がんと胃がんのいずれかに罹患している場合には、肺がんに対応するラベル215と胃がんに対応するラベル216のいずれかが1となる。さらに、対象が健常である場合には、肺がんに対応するラベル215と胃がんに対応するラベル216の両方が0となる。
 この場合には、モデルの訓練を行う際にマルチラベル学習を用いることで、健常な対象のサンプルであるのか、あるいは、がんに罹患した対象のサンプルである場合に肺がんと胃がんの両方に罹患しているのか、もしくは対象が肺がんと胃がんのいずれかに罹患しているのかをまとめて予測可能なモデルとすることができる。
 図13に示す例では、「サンプル0」のサンプルID205には、肺がんのラベル215および胃がんのラベル216として0がペアになっており、この生体サンプルが健常な対象のものであることを示している。「サンプル1」のサンプルID205には、肺がんのラベル215として1が、また、胃がんのラベル216として0がペアになっており、この生体サンプルが肺がんという1種類のがんに罹患した対象のものであることを示している。「サンプル2」のサンプルID205には、肺がんのラベル215として0が、また、胃がんのラベル216として1がペアになっており、この生体サンプルが胃がんという1種類のがんに罹患した対象のものであることを示している。「サンプル3」のサンプルID205には、肺がんのラベル215および胃がんのラベル216として共に1がペアになっており、この生体サンプルが肺がんと胃がんという2種類のがんに罹患した対象のものであることを示している。
 この手法はマルチラベルと呼ばれる手法である。この手法によれば、訓練用サンプルデータに複数の異なるがん罹患を示すラベルを付与したラベル情報を適用し、上述したような機械学習を行って訓練済みモデルを作成することで、1度の判定により、1つ以上のがんについて罹患判定を行うことができる。また、マルチクラス学習の場合と同様に、腫瘍の種類として良性の腫瘍と悪性の腫瘍(がん)を分けてラベルを振ることで、良性と悪性についても区別して判定することができる。
(変形例)
 上述した実施形態では、臨床状態の一例として、共通の原発性部位からのがんを挙げ、がんの罹患判定に本開示を適用した態様について説明した。しかし、本開示は例えば、二以上の共通の原発性部位からのがんにも適用可能である。本開示が適用可能ながんとしては、乳がん、肺がん、前立腺がん、結腸直腸がん、腎臓がん、子宮がん、膵臓がん、食道がん、リンパ腫、頭部/頸部がん、卵巣がん、肝胆道がん、黒色腫、子宮頸がん、多発性骨髄腫、白血病、甲状腺がん、膀胱がん、胃がん、または、これらの組み合わせが挙げられる。
 また、本開示における臨床状態は、乳がんの所定のステージ、肺がんの所定のステージ、前立腺がんの所定のステージ、結腸直腸がんの所定のステージ、腎臓がんの所定のステージ、子宮がんの所定のステージ、膵臓がんの所定のステージ、食道がんの所定のステージ、リンパ腫の所定のステージ、頭部/頸部がんの所定のステージ、卵巣がんの所定のステージ、肝胆道がんの所定のステージ、黒色腫の所定のステージ、子宮頸がんの所定のステージ、多発性骨髄腫の所定のステージ、白血病の所定のステージ、甲状腺がんの所定のステージ、膀胱がんの所定のステージ、または、胃がんの所定のステージであってもよい。
 また、本開示における臨床状態は、がんの所定の亜型であってもよい。さらに、本開示は例えば、臨床状態として、ホルモン系の異常による疾患など、他の疾患の罹患判定にも適用可能である。特に、遺伝子変異等のDNAシークエンスの変異に起因する疾患の罹患判定に適切に適用することができる。ここで、遺伝子変異等のDNAシークエンスの変異とは、マイクロRNAの発現量が健常な対象のものとは異なることを言う。また、本開示は、微生物のDNAを検出して、感染症の判定に適用することも可能である。
 本開示における臨床状態には、健康な状態も含まれる。
 本開示における生体サンプルとしては、血液、全血、リンパ液、血清、唾液、尿、脳脊髄液、穿刺吸引による液、組織標本、母乳、乳頭分泌、または、判定対象の管内の液を用いることができる。
 また、上述した第1実施形態では、モデルを訓練した後に当該訓練済みモデルにより罹患判定を行う態様について説明した。しかし、本開示は、例えば事前に訓練されて準備された訓練済みモデルを用いて罹患の判定を行う罹患判定装置としてもよい。
 上述した実施形態において、複数のシーケンスリードは、判定対象の生体サンプルについてのシングルエンド次世代シーケンシングまたはペアエンド次世代シーケンシングから得ることができる。
 また、上述した実施形態では、k-merの一例として、k=3の場合について説明したが、kの値としては、1、2、3、4、5、6、7、8、9、10、11、12、15のいずれかを用いることができる。
 上述した実施形態では、学習対象(参照対象)として、118のサンプルを用いる例について説明したが、少なくとも20、または、少なくとも100のサンプルがあれば適用可能である。
 訓練された分類としての訓練済みモデルとしては、ニューラルネットワークアルゴリズム、サポートベクターマシンアルゴリズム、決定木アルゴリズム、教師なしクラスタリングモデルアルゴリズム、教師ありクラスタリングモデルアルゴリズム、または、回帰モデルを用いることができる。
 前述した実施形態における罹患判定装置100において、各機能は、アナログ回路、デジタル回路またはアナログ・デジタル混合回路で構成された回路であってもよい。また、各機能の制御を行う制御回路を備えていてもよい。各回路の実装は、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等によるものであってもよい。 
 上記の全ての記載において、装置、システム等の少なくとも一部はハードウェアで構成されていてもよいし、ソフトウェアで構成され、ソフトウェアの情報処理によりCPU(Central Processing Unit)等が実施をしてもよい。ソフトウェアで構成される場合には、装置、システム等及びその少なくとも一部の機能を実現するプログラムをフレキシブルディスクやCD-ROM等の記憶媒体に収納し、コンピュータに読み込ませて実行させるものであってもよい。記憶媒体は、磁気ディスクや光ディスク等の着脱可能なものの他、ハードディスク装置やメモリなどの固定型の記憶媒体であってもよい。すなわち、ソフトウェアによる情報処理がハードウェア資源を用いて具体的に実装されるものであってもよい。さらに、ソフトウェアによる処理は、FPGA等の回路に実装され、ハードウェアが実行するものであってもよい。ジョブの実行は、例えば、GPU(Graphics Processing Unit)等のアクセラレータを使用して行ってもよい。 
 例えば、コンピュータが読み取り可能な記憶媒体に記憶された専用のソフトウェアをコンピュータが読み出すことにより、コンピュータを上記の実施形態の装置とすることができる。記憶媒体はどのようなものも用いることができる。また、通信ネットワークを介してダウンロードされた専用のソフトウェアをコンピュータがインストールすることにより、コンピュータを上記の実施形態の装置とすることができる。こうして、ソフトウェアによる情報処理が、ハードウェア資源を用いて、具体的に実装される。 
 上述した実施形態では、1個のプロセッサによりプログラムを実行する場合について説明したが、プログラムは、二以上のプロセッサにより実行されるものでもよい。したがって、プログラムは、一つのプログラムだけでなく、いくつかのプログラムが集合的に用いられる態様であってもよい。
 図14は、本開示の一実施形態におけるハードウェア構成の一例を示すブロック図である。前述の実施形態に係る装置、システム等は、プロセッサ71と、主記憶装置72と、補助記憶装置73と、ネットワークインターフェース74と、デバイスインターフェース75と、を備え、これらがバス76を介して接続されたコンピュータ装置7として実現できる。 
 なお、図14のコンピュータ装置7は、各構成要素を一つ備えているが、同じ構成要素を複数備えていてもよい。また、1台のコンピュータ装置7が示されているが、ソフトウェアが複数のコンピュータ装置にインストールされて、当該複数のコンピュータ装置それぞれがソフトウェアの異なる一部の処理を実行してもよい。 
 プロセッサ71は、コンピュータの制御装置および演算装置を含む電子回路(処理回路、Processing circuit、Processing circuitry)である。プロセッサ71は、コンピュータ装置7の内部構成の各装置などから入力されたデータやプログラムに基づいて演算処理を行い、演算結果や制御信号を各装置などに出力する。具体的には、プロセッサ71は、コンピュータ装置7のOS(Operating System)や、アプリケーションなどを実行することにより、コンピュータ装置7を構成する各構成要素を制御する。プロセッサ71は、上記の処理を行うことができればどのようなものも用いることができる。装置、システム等及びそれらの各構成要素は、プロセッサ71により実現される。ここで、処理回路とは、1チップ上に配置された1又は複数の電気回路を指してもよいし、2つ以上のチップあるいはデバイス上に配置された1または複数の電気回路を指してもよい。 
 主記憶装置72は、プロセッサ71が実行する命令および各種データなどを記憶する記憶装置であり、主記憶装置72に記憶された情報がプロセッサ71により直接読み出される。補助記憶装置73は、主記憶装置72以外の記憶装置である。なお、これらの記憶装置は、電子情報を格納可能な任意の電子部品を意味するものとし、メモリでもストレージでもよい。また、メモリには、揮発性メモリと、不揮発性メモリがあるが、いずれでもよい。装置、システム等において各種データを保存するためのメモリ、例えば、記憶部30は、主記憶装置72または補助記憶装置73により実現されてもよい。例えば、前述した各記憶部の少なくとも一部は、この主記憶装置72又は補助記憶装置73に実装されていてもよい。別の例として、アクセラレータが備えられている場合には、前述した各記憶部の少なくとも一部は、当該アクセラレータに備えられているメモリ内に実装されていてもよい。 
 ネットワークインターフェース74は、無線または有線により、通信ネットワーク8に接続するためのインターフェースである。ネットワークインターフェース74は、既存の通信規格に適合したものを用いればよい。ネットワークインターフェース74により、通信ネットワーク8を介して通信接続された外部装置9Aと情報のやり取りが行われてもよい。 
 外部装置9Aは、例えば、カメラ、モーションキャプチャ、出力先デバイス、外部のセンサ、入力元デバイスなどが含まれる。また、外部装置9Aは、罹患判定装置100の構成要素の一部の機能を有する装置でもよい。そして、コンピュータ装置7は、罹患判定装置100の処理結果の一部を、クラウドサービスのように通信ネットワーク8を介して受け取ってもよい。また、外部装置9Aとしてサーバを通信ネットワーク8に接続し、訓練済みモデルを外部装置9Aとしてのサーバに記憶させるようにしてもよい。この場合には、罹患判定装置100は、通信ネットワーク8を介して外部装置9Aとしてのサーバにアクセスし、罹患判定を行ってもよい。
 デバイスインターフェース75は、外部装置9Bと直接接続するUSB(Universal Serial Bus)などのインターフェースである。外部装置9Bは、外部記憶媒体でもよいし、ストレージ装置でもよい。各記憶部は、外部装置9Bにより実現されてもよい。 
 外部装置9Bは出力装置でもよい。出力装置は、例えば、画像を表示するための表示装置でもよいし、音声などを出力する装置などでもよい。例えば、LCD(Liquid Crystal Display)、CRT(Cathode Ray Tube)、PDP(Plasma Display Panel)、スピーカなどがあるが、これらに限られるものではない。
 なお、外部装置9Bは入力装置でもよい。入力装置は、キーボード、マウス、タッチパネルなどのデバイスを備え、これらのデバイスにより入力された情報をコンピュータ装置7に与える。入力装置からの信号はプロセッサ71に出力される。
(実施形態の概要)
 (1)本開示の訓練装置は、所定の疾患について、学習対象から採取した訓練用サンプルから得た塩基配列における複数種類の部分文字列の出現頻度に基づく訓練用特徴ベクトルを入力とし、前記学習対象が、前記所定の疾患に罹患した対象であるのか、あるいは、罹患していない対象であるのかを示すラベル情報を出力としてモデルを訓練する機械学習部を備える。
 以上のような訓練用特徴ベクトルを入力とし、上述のラベル情報を出力としてモデルを訓練するので、時間のかかるマッピングを行うことなく、所定の疾患についての罹患判定のためのモデルが得られる。また、マッピングを行わないので、ヒト以外の様々な生物に対して、所定の疾患についての罹患判定のためのモデルが得られる。
 (2)(1)の訓練装置において、前記塩基配列は、前記訓練用サンプルから対応するDNAまたはRNAを得て、DNAシーケンサを用いてDNA配列として取得されるようにしてもよい。この場合には、DNAシーケンサの出力として、塩基配列であるRNAシーケンスデータが得られる。したがって、RNAシーケンスデータにおける複数種類の部分文字列の出現頻度を求めることが可能となり、前記出現頻度に基づいて訓練用特徴ベクトルとすることが可能となる。
 (3)(1)または(2)の訓練装置において、前記複数種類の部分文字列は、前記塩基配列を表す所定長の文字列である訓練用のリードから抜き出されるようにしてもよい。この場合には、訓練用のリードが前記塩基配列を表す所定長の文字列であるため、リードにおける複数種類の部分文字列の出現頻度を求めることが可能となり、前記出現頻度に基づいて訓練用特徴ベクトルとすることが可能となる。
 (4)(1)ないし(3)のいずれかの訓練装置において、前記複数種類の部分文字列の出現頻度は、正規化されていてもよい。この場合には、訓練用サンプルのデータ量がサンプルごとに異なる場合であっても、前記複数種類の部分文字列の出現頻度が正規化されているので、データ量の違いによる前記出現頻度の違いが補正される。
 (5)(1)ないし(4)のいずれかの訓練装置において、前記部分文字列は、k-merであってもよい。この場合には、所定長の文字列として表される塩基配列において、文字数kごとに切り出した連続塩基からなる部分文字列が得られる。前記部分文字列は前記塩基配列において繰り返し出現することがあるため、前記部分文字列の出現頻度を求めることが可能となり、前記出現頻度に基づいて訓練用特徴ベクトルとすることが可能となる。
 (6)(1)ないし(4)のいずれかの訓練装置において、前記部分文字列は、前記訓練用サンプルから得た塩基配列に含まれる連続した文字のうち、一部の文字を飛ばした部分文字列であってもよい。この場合には、部分文字列は、連続した文字の一部、つまりいくつかの文字が飛ばされているので、サンプルの個体差によるRNAシーケンスの違いやシーケンシングエラーに対して疾患の罹患判定が頑健に行われる。
 (7)(5)または(6)の訓練装置において、前記部分文字列は、誤り訂正符号を用いて一部が異なる文字列を同一の文字列に変換した部分文字列であってもよい。この場合には、サンプルの個体差によるRNAシーケンスの違いやシーケンシングエラーをさらに吸収し、疾患の罹患判定が頑健に行われる。
 (8)本開示の罹患判定装置は、所定の疾患について、判定対象から採取した判定用生体サンプルから得た塩基配列における複数種類の部分文字列の出現頻度に基づく判定用特徴ベクトルを入力とし、前記判定対象の罹患判定を行う罹患判定部を備える。
 以上のような判定用特徴ベクトルを入力とし、判定対象の罹患判定を行うので、時間のかかるマッピングを行うことなく、所定の疾患についての罹患判定が行われる。また、マッピングを行わないので、ヒト以外の様々な生物に対して、所定の疾患についての罹患判定が行われる。
 (9)(8)の罹患判定装置において、前記塩基配列は、前記判定用サンプルから対応するDNAまたはRNAを得て、DNAシーケンサを用いてDNA配列として取得されるようにしてもよい。この場合には、DNAシーケンサの出力として、塩基配列であるRNAシーケンスデータが得られる。したがって、RNAシーケンスデータにおける複数種類の部分文字列の出現頻度を求めることが可能となり、前記出現頻度に基づいて判定用特徴ベクトルとすることが可能となる。
 (10)(8)の罹患判定装置において、前記複数種類の部分文字列の出現頻度は、正規化されていてもよい。この場合には、判定用サンプルのデータ量がサンプルごとに異なる場合であっても、前記複数種類の部分文字列の出現頻度が正規化されているので、データ量の違いによる前記出現頻度の違いが補正される。
 (11)(8)ないし(10)のいずれかの罹患判定装置において、前記部分文字列は、k-merであってもよい。この場合には、所定長の文字列として表される塩基配列において、文字数kごとに切り出した連続塩基からなる部分文字列が得られる。前記部分文字列は前記塩基配列において繰り返し出現することがあるため、前記部分文字列の出現頻度を求めることが可能となり、前記出現頻度に基づいて判定用特徴ベクトルとすることが可能となる。
 (12)本開示の機械学習方法は、所定の疾患について、学習対象から採取した訓練用サンプルから得た塩基配列における複数種類の部分文字列の出現頻度に基づく訓練用特徴ベクトルを入力するステップと、前記学習対象が、前記所定の疾患に罹患した対象であるのか、あるいは、罹患していない対象であるのかを示すラベル情報を出力としてモデルを訓練するステップと、を備える。
 以上のような訓練用特徴ベクトルを入力とし、上述のラベル情報を出力としてモデルを学習するので、時間のかかるマッピングを行うことなく、所定の疾患についての罹患判定のためのモデルの訓練が行われる。また、マッピングを行わないので、ヒト以外のリファレンスゲノムのない様々な生物に対して、所定の疾患についての罹患判定のためのモデルの訓練が行われる。
 (13)本開示は、コンピュータを前記訓練装置として機能させるためのプログラムとして実現される。本開示のプログラムをコンピュータに実行させることによって、前記訓練装置が実施される。
 (14)本開示は、コンピュータを前記罹患判定装置として機能させるためのプログラムとして実現される。本開示のプログラムをコンピュータに実行させることによって、前記罹患判定装置が実施される。
 上記の全ての記載に基づいて、本開示の追加、効果又は種々の変形を当業者であれば想到できるかもしれないが、本開示の態様は、上記した個々の実施形態に限定されるものではない。特許請求の範囲に規定された内容及びその均等物から導き出される本開示の概念的な思想と趣旨を逸脱しない範囲において種々の追加、変更及び部分的削除が可能である。例えば、前述した全ての実施形態において、説明に用いた数値は、一例として示したものであり、これらに限られるものではない。
 本開示は、上述した実施形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において、種々の改良及び設計上の変更が可能である。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。  
<付記>
 また、例えば、本開示の実施形態は、下記のような方法又は記録媒体であってもよい。
(1)判定対象を第1の臨床状態に分類する方法であって、
 一以上のプロセッサと、一以上のプログラムを記憶する一以上のメモリとを備えるコンピュータシステムにおいて、前記一以上のプログラムは、
 a)前記判定対象の生体サンプルにおける符号化されていないリボ核酸分子から、複数のシーケンスリードを電子的形態で得る命令と、
 b)前記複数のシーケンスリードにおける各シーケンスリードから、一以上の部分文字列を抽出し、複数の部分文字列を得る命令と、
 c)一連の部分文字列タイプにおける各部分文字列タイプの観測された出現頻度を決定する命令と、
 d)各部分文字列タイプの前記観測された出現頻度を、訓練された分類に適用する命令と、単独でまたは集合的に備え、
 前記訓練された分類は、前記判定対象が前記第1の臨床状態を有する可能性を提供する、
方法。
(2)前記c)の命令は、さらに、前記一連の部分文字列タイプにおける各部分文字列タイプに位置する相当量の前記複数の部分文字列を決定する命令を備える、
 付記(1)に記載の方法。
(3)前記d)の命令は、さらに、前記一連の部分文字列タイプにおける個々の部分文字列タイプの前記観測された出現頻度と、前記個々の部分文字列タイプについての対応する参照部分文字列の出現頻度とを比較する命令を備える、
 付記(1)に記載の方法。
(4)前記複数のシーケンスリードは、前記判定対象の前記生体サンプルについてのシングルエンド次世代シーケンシングまたはペアエンド次世代シーケンシングから得られる、
 付記(1)に記載の方法。
(5)前記複数のシーケンスリードにおける各シーケンスリードは、前記生体サンプルからの全てのまたは部分的なマイクロRNAのシーケンスリードである、
 付記(1)に記載の方法。
(6)前記一連の部分文字列タイプにおける個々の部分文字列タイプの前記観測された出現頻度は、正規化されている、
 付記(1)に記載の方法。
(7)前記一連の部分文字列タイプにおける各部分文字列は、第1の所定長さの核酸残基のk-merである、
 付記(1)ないし付記(6)のいずれか1つに記載の方法。
(8)前記複数のタイプの部分文字列は、前記複数のシーケンスリードにおける各シーケンスリードについて、第1の所定の長さの一以上の部分文字列、および、第2の所定の長さの一以上の部分文字列を備える、
 付記(1)ないし付記(6)のいずれか1つに記載の方法。
(9)前記第1の所定の長さ、および、前記第2の所定の長さは、少なくとも1個の残基、少なくとも2個の残基、少なくとも3個の残基、少なくとも4個の残基、少なくとも5個の残基、少なくとも6個の残基、少なくとも7個の残基、少なくとも8個の残基、少なくとも9個の残基、少なくとも10個の残基、少なくとも11個の残基、少なくとも12個の残基、または少なくとも15個の残基から、それぞれ個別に選択される、
 付記(7)または付記(8)に記載の方法。
(10)前記一連の部分文字列タイプにおける各部分文字列タイプは、複数のシーケンスリードにおける前記個別のシーケンスリードからの核酸残基の非連続文字列を備える、
 付記(1)ないし付記(6)のいずれか1つに記載の方法。
(11)前記一連の部分文字列タイプにおける各部分文字列タイプは、エラー訂正符号を用いて同種の文字列に変換された異種の文字列を備える、
 付記(1)ないし付記(6)のいずれか1つに記載の方法。
(12)判定対象は、人間である、
 付記(1)ないし付記(11)のいずれか1つに記載の方法。
(13)前記第1の臨床状態は、共通の原発性部位からのがんである、
 付記(1)ないし付記(12)のいずれか1つに記載の方法。
(14)前記第1の臨床状態は、二以上の共通の原発性部位からのがんである、
 付記(1)ないし付記(12)のいずれか1つに記載の方法。
(15)前記第1の臨床状態は、乳がん、肺がん、前立腺がん、結腸直腸がん、腎臓がん、子宮がん、膵臓がん、食道がん、リンパ腫、頭部/頸部がん、卵巣がん、肝胆道がん、黒色腫、子宮頸がん、多発性骨髄腫、白血病、甲状腺がん、膀胱がん、胃がん、または、これらの組み合わせである、
 付記(1)ないし付記(12)のいずれか1つに記載の方法。
(16)前記第1の臨床状態は、乳がんの所定のステージ、肺がんの所定のステージ、前立腺がんの所定のステージ、結腸直腸がんの所定のステージ、腎臓がんの所定のステージ、子宮がんの所定のステージ、膵臓がんの所定のステージ、食道がんの所定のステージ、リンパ腫の所定のステージ、頭部/頸部がんの所定のステージ、卵巣がんの所定のステージ、肝胆道がんの所定のステージ、黒色腫の所定のステージ、子宮頸がんの所定のステージ、多発性骨髄腫の所定のステージ、白血病の所定のステージ、甲状腺がんの所定のステージ、膀胱がんの所定のステージ、または、胃がんの所定のステージである、
 付記(1)ないし付記(13)のいずれか1つに記載の方法。
(17)前記第1の臨床状態は、がんの所定の亜型である、
 付記(1)ないし付記(13)のいずれか1つに記載の方法。
(18)前記がんは、乳がん、肺がん、前立腺がん、結腸直腸がん、腎臓がん、子宮がん、膵臓がん、食道がん、リンパ腫、頭部/頸部がん、卵巣がん、肝胆道がん、黒色腫、子宮頸がん、多発性骨髄腫、白血病、甲状腺がん、膀胱がん、または、胃がんである、
 付記(17)に記載の方法。
(19)前記生体サンプルは、血液、全血、リンパ液、血清、唾液、尿、脳脊髄液、穿刺吸引による液、組織標本、母乳、乳頭分泌、または、判定対象の管内の液である、
 付記(1)ないし付記(18)のいずれか1つに記載の方法。
(20)一以上のプロセッサと、前記一以上のプロセッサにより実行される一以上のプログラムを記憶する一以上のメモリとを備える分類装置であって、
 前記一以上のプログラムは、
 a)前記判定対象の生体サンプルにおける符号化されていないリボ核酸分子から、複数のシーケンスリードを電子的形態で得る命令と、
 b)前記複数のシーケンスリードにおける各シーケンスリードから、一以上の部分文字列を抽出し、複数の部分文字列を得る命令と、
 c)一連の部分文字列タイプにおける各部分文字列タイプの観測された出現頻度を決定する命令と、
 d)各部分文字列タイプの前記観測された出現頻度を、訓練された分類に適用する命令と、単独でまたは集合的に備え、
 前記訓練された分類は、前記判定対象が前記第1の臨床状態を有する可能性を提供する、
分類装置。
(21)分類のために一以上のコンピュータプログラムが埋め込まれた非一過性のコンピュータ読み取り可能な記録媒体であって、前記一以上のプログラムは、コンピュータシステムにより実行される際、前記コンピュータシステムに、分類のための方法を実行させ、
 a)前記判定対象の生体サンプルにおける符号化されていないリボ核酸分子から、複数のシーケンスリードを電子的形態で得る命令と、
 b)前記複数のシーケンスリードにおける各シーケンスリードから、一以上の部分文字列を抽出し、複数の部分文字列を得る命令と、
 c)一連の部分文字列タイプにおける各部分文字列タイプの観測された出現頻度を決定する命令と、
 d)各部分文字列タイプの前記観測された出現頻度を、訓練された分類に適用する命令とを、単独でまたは集合的に備え、
 前記訓練された分類は、前記判定対象が前記第1の臨床状態を有する可能性を提供する、
記録媒体。
(22)分類方法であって、一以上のプロセッサと、前記一以上のプロセッサによって実行される一以上のプログラムを記憶する一以上のメモリとを備えるコンピュータシステムにおいて、
 前記分類方法は、
 a)複数の参照対象におけるそれぞれの参照対象が、複数の臨床状態ラベルから対応する臨床状態ラベルを備える、前記複数の参照対象におけるそれぞれの個別の参照対象について、
  前記個別の参照対象の生体サンプルにおける符号化されていないリボ核酸分子から、複数のシーケンスリードを電子的形態で獲得し、
  それぞれの前記複数のシーケンスリードにおける各シーケンスリードについて、一以上の部分文字列を抽出し、対応する複数の参照部分文字列を獲得し、
  前記対応する複数の参照部分文字列を用いて、一連の部分文字列タイプにおける各部分文字列タイプの参照出現頻度を決定し、
 b)各部分文字列タイプの個別の前記参照出現頻度、および、前記複数の参照対象における各参照対象の前記対応する臨床状態ラベルに対して、訓練されていない、または、部分的に訓練された分類を訓練し、多数の符号化されていないリボ核酸分子に基づいて、前記複数の臨床状態ラベルを識別する訓練された分類を獲得する、
分類方法。
(23)前記複数の参照対象における各参照対象は、人間である、
 付記(22)に記載の分類方法。
(24)前記複数の参照対象は、少なくとも20の対象を備える、
 付記(22)または付記(23)に記載の分類方法。
(25)前記複数の参照対象は、少なくとも100の対象を備える、
 付記(22)または付記(23)に記載の分類方法。
(26)電子的形態で前記複数のシーケンスリードを獲得することは、さらに、前記参照対象の前記生体サンプルを獲得し、前記対応する複数のシーケンスリードを生成することである、
 付記(22)ないし付記(25)のいずれか1つに記載の分類方法。
(27)前記複数の臨床状態ラベルは、乳がん、肺がん、前立腺がん、結腸直腸がん、腎臓がん、子宮がん、膵臓がん、食道がん、リンパ腫、頭部/頸部がん、卵巣がん、肝胆道がん、黒色腫、子宮頸がん、多発性骨髄腫、白血病、甲状腺がん、膀胱がん、または、胃がん、から成るグループから選択した二以上の臨床状態を備える、
 付記(22)ないし付記(26)のいずれか1つに記載の分類方法。
(28)前記複数の臨床状態ラベルは、乳がんの所定のステージ、肺がんの所定のステージ、前立腺がんの所定のステージ、結腸直腸がんの所定のステージ、腎臓がんの所定のステージ、子宮がんの所定のステージ、膵臓がんの所定のステージ、食道がんの所定のステージ、リンパ腫の所定のステージ、頭部/頸部がんの所定のステージ、卵巣がんの所定のステージ、肝胆道がんの所定のステージ、黒色腫の所定のステージ、子宮頸がんの所定のステージ、多発性骨髄腫の所定のステージ、白血病の所定のステージ、甲状腺がんの所定のステージ、膀胱がんの所定のステージ、または、胃がんの所定のステージ、から成るグループから選択した二以上の臨床状態を備える、
 付記(22)ないし付記(26)のいずれか1つに記載の分類方法。
(29)前記複数の臨床状態ラベルは、さらに、健康な状態を含む、
 付記(27)または付記(28)に記載の分類方法。
(30)前記訓練された分類は、ニューラルネットワークアルゴリズム、サポートベクターマシンアルゴリズム、決定木アルゴリズム、教師なしクラスタリングモデルアルゴリズム、教師ありクラスタリングモデルアルゴリズム、または、回帰モデル、である、
 付記(22)ないし付記(29)のいずれか1つに記載の分類方法。
(31)前記訓練された分類は、2以上である、
 付記(22)ないし付記(30)のいずれか1つに記載の分類方法。
(32)前記訓練された分類は、2つである、
 付記(22)ないし付記(30)のいずれか1つに記載の分類方法。

(33)一以上のプロセッサと、前記一以上のプロセッサによって実行される一以上のプログラムを記憶する一以上のメモリとを備える分類装置であって、
 前記一以上のプログラムは、
 a)複数の参照対象におけるそれぞれの参照対象が、複数の臨床状態ラベルから対応する臨床状態ラベルを備える、前記複数の参照対象におけるそれぞれの個別の参照対象について、
  前記個別の参照対象の生体サンプルにおける符号化されていないリボ核酸分子から、複数のシーケンスリードを電子的形態で獲得する命令と、
  それぞれの前記複数のシーケンスリードにおける各シーケンスリードについて、一以上の部分文字列を抽出し、対応する複数の参照部分文字列を獲得する命令と、
  前記対応する複数の参照部分文字列を用いて、一連の部分文字列タイプにおける各部分文字列タイプの参照出現頻度を決定する命令と、
 b)各部分文字列タイプの個別の前記参照出現頻度、および、前記複数の参照対象における各参照対象の前記対応する臨床状態ラベルに対して、訓練されていない、または、部分的に訓練された分類を訓練し、多数の符号化されていないリボ核酸分子に基づいて、前記複数の臨床状態ラベルを識別する訓練された分類を獲得する命令と、を備える、
分類装置。
(34)分類のために一以上のコンピュータプログラムが埋め込まれ非一過性のコンピュータ読み取り可能な記録媒体であって、前記一以上のプログラムは、コンピュータシステムにより実行される際、前記コンピュータシステムに、分類のための方法を実行させ、
 前記分類のための方法は、
 a)複数の参照対象におけるそれぞれの参照対象が、複数の臨床状態ラベルから対応する臨床状態ラベルを備える、前記複数の参照対象におけるそれぞれの個別の参照対象について、
  前記個別の参照対象の生体サンプルにおける符号化されていないリボ核酸分子から、複数のシーケンスリードを電子的形態で獲得し、
  それぞれの前記複数のシーケンスリードにおける各シーケンスリードについて、一以上の部分文字列を抽出し、対応する複数の参照部分文字列を獲得し、
  前記対応する複数の参照部分文字列を用いて、前記一連の部分文字列タイプにおける各部分文字列タイプの参照出現頻度を決定し、
 b)各部分文字列タイプの個別の前記参照出現頻度、および、前記複数の参照対象における各参照対象の前記対応する臨床状態ラベルに対して、訓練されていない、または、部分的に訓練された分類を訓練し、多数の符号化されていないリボ核酸分子に基づいて、前記複数の臨床状態ラベルを識別する訓練された分類を獲得する、方法である、
記録媒体。
10  訓練装置
11  機械学習部
20  罹患判定部
30  記憶部
100 罹患判定装置
101 CPU
102 RAM
103 ROM
104 入力装置
105 通信インターフェース
106 補助記憶装置
107 出力装置
200 訓練フェーズ
201 RNAシーケンスデータ
202 ヘッダ行
203 シーケンス文字列
204 ラベル情報
205 サンプルID
206 ラベル
207 リード
208 k-mer
209 出現頻度
210 評価方法
211 スコア
212 部分文字列
213 部分文字列
214 代表文字列
215 ラベル
216 ラベル
300 判定フェーズ

Claims (48)

  1.  所定の疾患について、学習対象から採取した訓練用サンプルから得た塩基配列における複数種類の部分文字列の出現頻度に基づく訓練用特徴ベクトルを入力とし、前記学習対象が、前記所定の疾患に罹患した対象であるのか、あるいは、罹患していない対象であるのかを示すラベル情報を出力としてモデルを訓練する機械学習部を備える、
    訓練装置。
  2.  判定対象を第1の臨床状態に分類する方法であって、
     一以上のプロセッサと、一以上のプログラムを記憶する一以上のメモリとを備えるコンピュータシステムにおいて、前記一以上のプログラムは、
     a)前記判定対象の生体サンプルにおける符号化されていないリボ核酸分子から、複数のシーケンスリードを電子的形態で得る命令と、
     b)前記複数のシーケンスリードにおける各シーケンスリードから、一以上の部分文字列を抽出し、複数の部分文字列を得る命令と、
     c)一連の部分文字列タイプにおける各部分文字列タイプの観測された出現頻度を決定する命令と、
     d)各部分文字列タイプの前記観測された出現頻度を、訓練された分類に適用する命令とを、単独でまたは集合的に備え、
     前記訓練された分類は、前記判定対象が前記第1の臨床状態を有する可能性を提供する、
    方法。
  3.  前記c)の命令は、さらに、前記一連の部分文字列タイプにおける各部分文字列タイプに位置する相当量の前記複数の部分文字列を決定する命令を備える、
     請求項2に記載の方法。
  4.  前記d)の命令は、さらに、前記一連の部分文字列タイプにおける個々の部分文字列タイプの前記観測された出現頻度と、前記個々の部分文字列タイプについての対応する参照部分文字列の出現頻度とを比較する命令を備える、
     請求項2に記載の方法。
  5.  前記複数のシーケンスリードは、前記判定対象の前記生体サンプルについてのシングルエンド次世代シーケンシングまたはペアエンド次世代シーケンシングから得られる、
     請求項2に記載の方法。
  6.  前記複数のシーケンスリードにおける各シーケンスリードは、前記生体サンプルからの全てのまたは部分的なマイクロRNAのシーケンスリードである、
     請求項2に記載の方法。
  7.  前記一連の部分文字列タイプにおける個々の部分文字列タイプの前記観測された出現頻度は、正規化されている、
     請求項2に記載の方法。
  8.  前記一連の部分文字列タイプにおける各部分文字列は、第1の所定長さの核酸残基のk-merである、
     請求項2ないし請求項7のいずれか1項に記載の方法。
  9.  前記複数のタイプの部分文字列は、前記複数のシーケンスリードにおける各シーケンスリードについて、第1の所定の長さの一以上の部分文字列、および、第2の所定の長さの一以上の部分文字列を備える、
     請求項2ないし請求項7のいずれか1項に記載の方法。
  10.  前記第1の所定の長さ、および、前記第2の所定の長さは、少なくとも1個の残基、少なくとも2個の残基、少なくとも3個の残基、少なくとも4個の残基、少なくとも5個の残基、少なくとも6個の残基、少なくとも7個の残基、少なくとも8個の残基、少なくとも9個の残基、少なくとも10個の残基、少なくとも11個の残基、少なくとも12個の残基、または少なくとも15個の残基から、それぞれ個別に選択される、
     請求項8または請求項9に記載の方法。
  11.  前記一連の部分文字列タイプにおける各部分文字列タイプは、複数のシーケンスリードにおける前記個別のシーケンスリードからの核酸残基の非連続文字列を備える、
     請求項2ないし請求項7のいずれか1項に記載の方法。
  12.  前記一連の部分文字列タイプにおける各部分文字列タイプは、エラー訂正符号を用いて同種の文字列に変換された異種の文字列を備える、
     請求項2ないし請求項7のいずれか1項に記載の方法。
  13.  判定対象は、人間である、
     請求項2ないし請求項12のいずれか1項に記載の方法。
  14.  前記第1の臨床状態は、共通の原発性部位からのがんである、
     請求項2ないし請求項13のいずれか1項に記載の方法。
  15.  前記第1の臨床状態は、二以上の共通の原発性部位からのがんである、
     請求項2ないし請求項13のいずれか1項に記載の方法。
  16.  前記第1の臨床状態は、乳がん、肺がん、前立腺がん、結腸直腸がん、腎臓がん、子宮がん、膵臓がん、食道がん、リンパ腫、頭部/頸部がん、卵巣がん、肝胆道がん、黒色腫、子宮頸がん、多発性骨髄腫、白血病、甲状腺がん、膀胱がん、胃がん、または、これらの組み合わせである、
     請求項2ないし請求項13のいずれか1項に記載の方法。
  17.  前記第1の臨床状態は、乳がんの所定のステージ、肺がんの所定のステージ、前立腺がんの所定のステージ、結腸直腸がんの所定のステージ、腎臓がんの所定のステージ、子宮がんの所定のステージ、膵臓がんの所定のステージ、食道がんの所定のステージ、リンパ腫の所定のステージ、頭部/頸部がんの所定のステージ、卵巣がんの所定のステージ、肝胆道がんの所定のステージ、黒色腫の所定のステージ、子宮頸がんの所定のステージ、多発性骨髄腫の所定のステージ、白血病の所定のステージ、甲状腺がんの所定のステージ、膀胱がんの所定のステージ、または、胃がんの所定のステージである、
     請求項2ないし請求項14のいずれか1項に記載の方法。
  18.  前記第1の臨床状態は、がんの所定の亜型である、
     請求項2ないし請求項14のいずれか1項に記載の方法。
  19.  前記がんは、乳がん、肺がん、前立腺がん、結腸直腸がん、腎臓がん、子宮がん、膵臓がん、食道がん、リンパ腫、頭部/頸部がん、卵巣がん、肝胆道がん、黒色腫、子宮頸がん、多発性骨髄腫、白血病、甲状腺がん、膀胱がん、または、胃がんである、
     請求項18に記載の方法。
  20.  前記生体サンプルは、血液、全血、リンパ液、血清、唾液、尿、脳脊髄液、穿刺吸引による液、組織標本、母乳、乳頭分泌、または、判定対象の管内の液である、
     請求項2ないし請求項19のいずれか1項に記載の方法。
  21.  一以上のプロセッサと、前記一以上のプロセッサにより実行される一以上のプログラムを記憶する一以上のメモリとを備える分類装置であって、
     前記一以上のプログラムは、
     a)前記判定対象の生体サンプルにおける符号化されていないリボ核酸分子から、複数のシーケンスリードを電子的形態で得る命令と、
     b)前記複数のシーケンスリードにおける各シーケンスリードから、一以上の部分文字列を抽出し、複数の部分文字列を得る命令と、
     c)一連の部分文字列タイプにおける各部分文字列タイプの観測された出現頻度を決定する命令と、
     d)各部分文字列タイプの前記観測された出現頻度を、訓練された分類に適用する命令と、単独でまたは集合的に備え、
     前記訓練された分類は、前記判定対象が前記第1の臨床状態を有する可能性を提供する、
    分類装置。
  22.  分類のために一以上のコンピュータプログラムが埋め込まれた非一過性のコンピュータ読み取り可能な記録媒体であって、前記一以上のプログラムは、コンピュータシステムにより実行される際、前記コンピュータシステムに、分類のための方法を実行させ、
     a)前記判定対象の生体サンプルにおける符号化されていないリボ核酸分子から、複数のシーケンスリードを電子的形態で得る命令と、
     b)前記複数のシーケンスリードにおける各シーケンスリードから、一以上の部分文字列を抽出し、複数の部分文字列を得る命令と、
     c)一連の部分文字列タイプにおける各部分文字列タイプの観測された出現頻度を決定する命令と、
     d)各部分文字列タイプの前記観測された出現頻度を、訓練された分類に適用する命令と、単独でまたは集合的に備え、
     前記訓練された分類は、前記判定対象が前記第1の臨床状態を有する可能性を提供する、
    記録媒体。
  23.  分類方法であって、一以上のプロセッサと、前記一以上のプロセッサによって実行される一以上のプログラムを記憶する一以上のメモリとを備えるコンピュータシステムにおいて、
     前記分類方法は、
     a)複数の参照対象におけるそれぞれの参照対象が、複数の臨床状態ラベルから対応する臨床状態ラベルを備える、前記複数の参照対象におけるそれぞれの個別の参照対象について、
      前記個別の参照対象の生体サンプルにおける符号化されていないリボ核酸分子から、複数のシーケンスリードを電子的形態で獲得し、
      それぞれの前記複数のシーケンスリードにおける各シーケンスリードについて、一以上の部分文字列を抽出し、対応する複数の参照部分文字列を獲得し、
      前記対応する複数の参照部分文字列を用いて、一連の部分文字列タイプにおける各部分文字列タイプの参照出現頻度を決定し、
     b)各部分文字列タイプの個別の前記参照出現頻度、および、前記複数の参照対象における各参照対象の前記対応する臨床状態ラベルに対して、訓練されていない、または、部分的に訓練された分類を訓練し、多数の符号化されていないリボ核酸分子に基づいて、前記複数の臨床状態ラベルを識別する訓練された分類を獲得する、
    分類方法。
  24.  前記複数の参照対象における各参照対象は、人間である、
     請求項23に記載の分類方法。
  25.  前記複数の参照対象は、少なくとも20の対象を備える、
     請求項23または請求項24に記載の分類方法。
  26.   前記複数の参照対象は、少なくとも100の対象を備える、
     請求項23または請求項24に記載の分類方法。
  27.  電子的形態で前記複数のシーケンスリードを獲得することは、さらに、前記参照対象の前記生体サンプルを獲得し、前記対応する複数のシーケンスリードを生成することである、
     請求項23ないし請求項26のいずれか1項に記載の分類方法。
  28.  前記複数の臨床状態ラベルは、乳がん、肺がん、前立腺がん、結腸直腸がん、腎臓がん、子宮がん、膵臓がん、食道がん、リンパ腫、頭部/頸部がん、卵巣がん、肝胆道がん、黒色腫、子宮頸がん、多発性骨髄腫、白血病、甲状腺がん、膀胱がん、または、胃がん、から成るグループから選択した二以上の臨床状態を備える、
     請求項23ないし請求項27のいずれか1項に記載の分類方法。
  29.  前記複数の臨床状態ラベルは、乳がんの所定のステージ、肺がんの所定のステージ、前立腺がんの所定のステージ、結腸直腸がんの所定のステージ、腎臓がんの所定のステージ、子宮がんの所定のステージ、膵臓がんの所定のステージ、食道がんの所定のステージ、リンパ腫の所定のステージ、頭部/頸部がんの所定のステージ、卵巣がんの所定のステージ、肝胆道がんの所定のステージ、黒色腫の所定のステージ、子宮頸がんの所定のステージ、多発性骨髄腫の所定のステージ、白血病の所定のステージ、甲状腺がんの所定のステージ、膀胱がんの所定のステージ、または、胃がんの所定のステージ、から成るグループから選択した二以上の臨床状態を備える、
     請求項23ないし請求項27のいずれか1項に記載の分類方法。
  30.  前記複数の臨床状態ラベルは、さらに、健康な状態を含む、
     請求項28または請求項29に記載の分類方法。
  31.  前記訓練された分類は、ニューラルネットワークアルゴリズム、サポートベクターマシンアルゴリズム、決定木アルゴリズム、教師なしクラスタリングモデルアルゴリズム、教師ありクラスタリングモデルアルゴリズム、または、回帰モデル、である、
     請求項23ないし請求項30のいずれか1項に記載の分類方法。
  32.  前記訓練された分類は、2以上である、
     請求項23ないし請求項31のいずれか1項に記載の分類方法。
  33.  前記訓練された分類は、2つである、
     請求項23ないし請求項31のいずれか1項に記載の分類方法。
  34.  一以上のプロセッサと、前記一以上のプロセッサによって実行される一以上のプログラムを記憶する一以上のメモリとを備える分類装置であって、
     前記一以上のプログラムは、
     a)複数の参照対象におけるそれぞれの参照対象が、複数の臨床状態ラベルから対応する臨床状態ラベルを備える、前記複数の参照対象におけるそれぞれの個別の参照対象について、
      前記個別の参照対象の生体サンプルにおける符号化されていないリボ核酸分子から、複数のシーケンスリードを電子的形態で獲得する命令と、
      それぞれの前記複数のシーケンスリードにおける各シーケンスリードについて、一以上の部分文字列を抽出し、対応する複数の参照部分文字列を獲得する命令と、
      前記対応する複数の参照部分文字列を用いて、一連の部分文字列タイプにおける各部分文字列タイプの参照出現頻度を決定する命令と、
     b)各部分文字列タイプの個別の前記参照出現頻度、および、前記複数の参照対象における各参照対象の前記対応する臨床状態ラベルに対して、訓練されていない、または、部分的に訓練された分類を訓練し、多数の符号化されていないリボ核酸分子に基づいて、前記複数の臨床状態ラベルを識別する訓練された分類を獲得する命令と、を備える、
    分類装置。
  35.  分類のために一以上のコンピュータプログラムが埋め込まれ非一過性のコンピュータ読み取り可能な記録媒体であって、前記一以上のプログラムは、コンピュータシステムにより実行される際、前記コンピュータシステムに、分類のための方法を実行させ、
     前記分類のための方法は、
     a)複数の参照対象におけるそれぞれの参照対象が、複数の臨床状態ラベルから対応する臨床状態ラベルを備える、前記複数の参照対象におけるそれぞれの個別の参照対象について、
      前記個別の参照対象の生体サンプルにおける符号化されていないリボ核酸分子から、複数のシーケンスリードを電子的形態で獲得し、
      それぞれの前記複数のシーケンスリードにおける各シーケンスリードについて、一以上の部分文字列を抽出し、対応する複数の参照部分文字列を獲得し、
      前記対応する複数の参照部分文字列を用いて、一連の部分文字列タイプにおける各部分文字列タイプの参照出現頻度を決定し、
     b)各部分文字列タイプの個別の前記参照出現頻度、および、前記複数の参照対象における各参照対象の前記対応する臨床状態ラベルに対して、訓練されていない、または、部分的に訓練された分類を訓練し、多数の符号化されていないリボ核酸分子に基づいて、前記複数の臨床状態ラベルを識別する訓練された分類を獲得する、方法である、
    記録媒体。
  36.  前記塩基配列は、前記訓練用サンプルから対応するDNAを得て、DNAシーケンサを用いてDNA配列として取得される、
    請求項1に記載の訓練装置。
  37.  前記複数種類の部分文字列は、前記塩基配列を表す所定長の文字列である訓練用のリードから抜き出される、
    請求項1または請求項36に記載の訓練装置。
  38.  前記複数種類の部分文字列の出現頻度は、正規化されている、
    請求項1、請求項36、および請求項37のいずれか1項に記載の訓練装置。
  39.  前記部分文字列は、k-merである、
    請求項1、および請求項36ないし請求項38のいずれか1項に記載の訓練装置。
  40.  前記部分文字列は、前記訓練用サンプルから得た塩基配列に含まれる連続した文字のうち、一部の文字を飛ばした部分文字列である、
    請求項1、および請求項36ないし請求項38のいずれか1項に記載の訓練装置。
  41.  前記部分文字列は、誤り訂正符号を用いて一部が異なる文字列を同一の文字列に変換した部分文字列である、
    請求項39または請求項40に記載の訓練装置。
  42.  所定の疾患について、
     判定対象から採取した判定用生体サンプルから得た塩基配列における複数種類の部分文字列の出現頻度に基づく判定用特徴ベクトルを入力とし、前記判定対象の前記所定の疾患についての罹患判定を行う罹患判定部を備える、
    罹患判定装置。
  43.  前記塩基配列は、前記判定用サンプルから対応するDNAを得て、DNAシーケンサを用いてDNA配列として取得される、
    請求項42に記載の罹患判定装置。
  44.  前記複数種類の部分文字列の出現頻度は、正規化されている、
    請求項42または請求項43に記載の罹患判定装置。
  45.  前記部分文字列は、k-merである、
    請求項42ないし請求項44のいずれか1項に記載の罹患判定装置。
  46.  所定の疾患について、学習対象から採取した訓練用サンプルから得た塩基配列における複数種類の部分文字列の出現頻度に基づく訓練用特徴ベクトルを入力するステップと、
     前記学習対象が、前記所定の疾患に罹患した対象であるのか、あるいは、罹患していない対象であるのかを示すラベル情報を出力としてモデルを訓練するステップと、を備える、
    機械学習方法。
  47.  訓練装置におけるプログラムであって、前記プログラムは、コンピュータを、
     所定の疾患について、学習対象から採取した訓練用サンプルから得た塩基配列における複数種類の部分文字列の出現頻度に基づく訓練用特徴ベクトルを入力とし、前記学習対象が、前記所定の疾患に罹患した対象であるのか、あるいは、罹患していない対象であるのかを示すラベル情報を出力としてモデルを訓練する機械学習部、として機能させる、
    プログラム。
  48.  罹患判定装置におけるプログラムであって、前記プログラムは、コンピュータを、
     所定の疾患について、判定対象から採取した判定用生体サンプルから得た塩基配列における部分文字列の出現頻度に基づく判定用特徴ベクトルを入力とし、前記所定の疾患に関する前記判定対象の罹患判定を行う罹患判定部、として機能させる、
    プログラム。
PCT/JP2020/003421 2019-04-29 2020-01-30 訓練装置、罹患判定装置、機械学習方法、およびプログラム WO2020222287A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021517160A JPWO2020222287A1 (ja) 2019-04-29 2020-01-30
US17/512,810 US20220172801A1 (en) 2019-04-29 2021-10-28 Training Device, Disease Affection Determination Device, Classification Device, Machine Learning Method, and Classification Method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201962840156P 2019-04-29 2019-04-29
US62/840,156 2019-04-29

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/512,810 Continuation US20220172801A1 (en) 2019-04-29 2021-10-28 Training Device, Disease Affection Determination Device, Classification Device, Machine Learning Method, and Classification Method

Publications (1)

Publication Number Publication Date
WO2020222287A1 true WO2020222287A1 (ja) 2020-11-05

Family

ID=73029372

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/003421 WO2020222287A1 (ja) 2019-04-29 2020-01-30 訓練装置、罹患判定装置、機械学習方法、およびプログラム

Country Status (3)

Country Link
US (1) US20220172801A1 (ja)
JP (1) JPWO2020222287A1 (ja)
WO (1) WO2020222287A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023192227A3 (en) * 2022-03-29 2023-11-09 The Regents Of The University Of California Methods for determining the presence, type, grade, classification of a tumor, cyst, lesion, mass, and/or cancer

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2955232A1 (en) * 2014-06-12 2015-12-16 Peer Bork Method for diagnosing adenomas and/or colorectal cancer (CRC) based on analyzing the gut microbiome
WO2018079840A1 (ja) * 2016-10-31 2018-05-03 株式会社Preferred Networks 疾患の罹患判定装置、疾患の罹患判定方法及び疾患の罹患判定プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2955232A1 (en) * 2014-06-12 2015-12-16 Peer Bork Method for diagnosing adenomas and/or colorectal cancer (CRC) based on analyzing the gut microbiome
WO2018079840A1 (ja) * 2016-10-31 2018-05-03 株式会社Preferred Networks 疾患の罹患判定装置、疾患の罹患判定方法及び疾患の罹患判定プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MORI G. ET AL.: "Shifts of Faecal Microbiota During Sporadic Colorectal Carcinogenesis", SCIENTIFIC REPORTS, vol. 8, no. 10329, 9 July 2018 (2018-07-09), pages 1 - 11, XP055704844 *
ZACKULAR J. P . ET AL.: "The Human Gut Microbiome as a Screening Tool for Colorectal Cancer", CANCER PREVENTION RESEARCH, vol. 7, no. 11, 2014, pages 1112 - 1121, XP055333767, DOI: 10.1158/1940-6207.CAPR-14-0129 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023192227A3 (en) * 2022-03-29 2023-11-09 The Regents Of The University Of California Methods for determining the presence, type, grade, classification of a tumor, cyst, lesion, mass, and/or cancer

Also Published As

Publication number Publication date
US20220172801A1 (en) 2022-06-02
JPWO2020222287A1 (ja) 2020-11-05

Similar Documents

Publication Publication Date Title
ES2970286T3 (es) Plantillas de control de calidad para garantizar la validez de ensayos basados en secuenciación
JP6253644B2 (ja) 統合バイアス補正およびクラス予測を用いてバイオマーカシグネチャを生成するためのシステムおよび方法
JP6313757B2 (ja) 統合デュアルアンサンブルおよび一般化シミュレーテッドアニーリング技法を用いてバイオマーカシグネチャを生成するためのシステムおよび方法
JP7041614B2 (ja) 生体データにおけるパターン認識のマルチレベルアーキテクチャ
JP6208227B2 (ja) バイオマーカシグネチャを生成するためのシステムおよび方法
JP2003021630A (ja) 臨床診断サービスを提供するための方法
KR20170000744A (ko) 유전자의 복제수 변이(cnv)를 분석하는 방법 및 장치
CN112951327A (zh) 药物敏感预测方法、电子设备及计算机可读存储介质
US20180196924A1 (en) Computer-implemented method and system for diagnosis of biological conditions of a patient
KR101765999B1 (ko) 암 바이오마커의 성능 평가 장치 및 방법
WO2020222287A1 (ja) 訓練装置、罹患判定装置、機械学習方法、およびプログラム
CN114530203A (zh) 用于临床决策支持的途径可视化
JP6932080B2 (ja) 非コード−コード遺伝子共発現ネットワークを生成する方法及びシステム
US20200024658A1 (en) Method and apparatus for intra- and inter-platform information transformation and reuse in predictive analytics and pattern recognition
JP5658671B2 (ja) 臨床データから得られるシグネチャに対する信頼度を決める方法、及びあるシグネチャを他のシグネチャより優遇するための信頼度の使用
Lung et al. Maximizing the reusability of gene expression data by predicting missing metadata
CN113862371A (zh) 一种酒精相关性肝细胞癌疾病进展和预后风险的预测装置及其预测模型的训练方法
Seah et al. Significant directed walk framework to increase the accuracy of cancer classification using gene expression data
US12014831B2 (en) Approaches to reducing dimensionality of genetic information used for machine learning and systems for implementing the same
Hsu et al. Deep Learning Approach for Pathogen Detection Through Shotgun Metagenomics Sequence Classification
US11935627B2 (en) System and method for text-based biological information processing with analysis refinement
CN115359040B (zh) 预测待测对象的组织样本属性的方法、设备和介质
Abdullah et al. Molecular Classification of Breast Cancer Subtypes Based on Proteome Data
WO2023129687A1 (en) Multiclass classification model and multitier classification scheme for comprehensive determination of cancer presence and type based on analysis of genetic information and systems for implementing the same
TW202401453A (zh) 將藉由不同類型提取套組導出的基因資訊正規化以用於對患者進行篩查、診斷及分層的方法及其實施系統

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20798170

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021517160

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20798170

Country of ref document: EP

Kind code of ref document: A1