JP7025216B2 - トランスクリプトーム解析装置及び解析方法 - Google Patents
トランスクリプトーム解析装置及び解析方法 Download PDFInfo
- Publication number
- JP7025216B2 JP7025216B2 JP2018003697A JP2018003697A JP7025216B2 JP 7025216 B2 JP7025216 B2 JP 7025216B2 JP 2018003697 A JP2018003697 A JP 2018003697A JP 2018003697 A JP2018003697 A JP 2018003697A JP 7025216 B2 JP7025216 B2 JP 7025216B2
- Authority
- JP
- Japan
- Prior art keywords
- gene
- data
- list
- expression level
- genes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Genetics & Genomics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Bioethics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Description
(1)目的変数データと遺伝子発現量データとを含む複数のデータセットに対して、遺伝子発現量データをランダムに削減した第1~第mのサブデータセット(m≧2)を生成するデータセット生成手段と、第1~第mのサブデータセットのそれぞれに対して正則化項を有する回帰分析法を適用して、目的変数データを目的変数とし遺伝子発現量データを説明変数とする第1~第mの予測式を算出する予測式算出手段と、第1~第mの予測式に含まれる遺伝子発現量データに対応する遺伝子のリストを生成する遺伝子リスト生成手段とを備えるトランスクリプトーム解析装置。
(2)上記予測式算出手段は、上記回帰分析法としてLASSO(least absolute shrinkage and selection operator)を適用することを特徴とする(1)記載のトランスクリプトーム解析装置。
(3)上記データセット生成手段は、1000~20000通りのサブデータセット(m=1000~20000)を生成することを特徴とする(1)記載のトランスクリプトーム解析装置。
(4)上記遺伝子リスト生成手段は、第1~第mの予測式に基づいて遺伝子の出現確率を算出し、算出した出現確率と関連付けて遺伝子のリストを生成することを特徴とする(1)記載のトランスクリプトーム解析装置。
(5)上記遺伝子リスト生成手段は、遺伝子のアノテーション情報が格納されたデータベースから、リストに含まれる遺伝子のアノテーション情報を読み出し、読み出したアノテーション情報と関連づけて遺伝子のリストを生成することを特徴とする(1)記載のトランスクリプトーム解析装置。
(6)上記遺伝子リスト生成手段により生成したリストに含まれる複数の遺伝子について、上記複数のデータセットに含まれる目的変数データと遺伝子発現量データとを用いた重回帰分析により、所定の目的変数に関する予測モデル式を生成する予測モデル式生成手段を更に有することを特徴とする(1)記載のトランスクリプトーム解析装置。
(8)上記予測式算出工程では、上記正則化法としてLASSO(least absolute shrinkage and selection operator)を適用することを特徴とする(7)記載のトランスクリプトーム解析方法。
(9)上記サブデータセット生成工程では、1000~20000通りのサブデータセット(n=1000~20000)を生成することを特徴とする(7)記載のトランスクリプトーム解析方法。
(10)上記遺伝子リスト生成工程では、第1~第m回の繰り返しで生成した第1~第mの予測式に基づいて遺伝子の出現確率を算出し、算出した出現確率と関連付けて遺伝子のリストを生成することを特徴とする(7)記載のトランスクリプトーム解析方法。
(11)上記遺伝子リスト生成工程では、遺伝子のアノテーション情報が格納されたデータベースから、リストに含まれる遺伝子のアノテーション情報を読み出し、読み出したアノテーション情報と関連づけて遺伝子のリストを生成することを特徴とする(7)記載のトランスクリプトーム解析方法。
(12)上記遺伝子リスト生成工程の後、生成したリストに含まれる複数の遺伝子について、上記複数のデータセットに含まれる目的変数データと遺伝子発現量データとを用いた重回帰分析により、所定の目的変数に関する予測モデル式を生成する予測モデル式生成工程を更に有することを特徴とする(7)記載のトランスクリプトーム解析方法。
本発明に係るトランスクリプトーム解析装置1は、図1に示すように、所定の目的変数データについて多数の遺伝子発現量データ(p次元、但しpは転写産物の数に相当する)を含むデータセットから第1~第mのデータセット(2≦m≦p-1)を生成するデータセット生成部2と、データセット生成部2で生成した第1~第mのデータセットのそれぞれに対して正則化法を適用して、目的変数データを目的変数とし遺伝子発現量データを説明変数とする第1~第mの予測式を算出する予測式算出部3と、予測式算出部3で算出した第1~第mの予測式に含まれる遺伝子発現量データに対応する遺伝子のリストを生成する遺伝子リスト生成部4とを備えている。また、トランスクリプトーム解析装置1は、遺伝子のアノテーション情報が格納された外部のデータベース5にアクセスできるものであっても良い。
ところで、本発明に係るトランスクリプトーム解析装置及び解析方法は、上述した第1の実施形態に限定されず、図5及び6に示すように、所定の目的変数データに関して作成した遺伝子のリストを利用して、当該目的変数データに関する予測モデル式を作成するものであっても良い。なお、図5及び6に示すトランスクリプトーム解析装置10及び解析方法において、図1及び2に示したトランスクリプトーム解析装置及び解析方法と同一の構成及び工程に対しては、図1及び2と同一の符号を付すことにより、その詳細な説明は省略する。
1.材料および方法
1-1.実験材料イネ系統と栽培条件
本実施例において、Ouu 365/Arroz da Terra//Ouu 365戻し交配自殖系統(BILs)は、Fukuda et al., 2014, Plant Production Science 17:41-46.に記述した系統を使用した。系統種子を50倍希釈次亜塩素酸で消毒し、水道水で3回洗浄したのち、30℃水中で2日間浸漬して発芽させた。1系統あたり24粒の発芽種子を水耕栽培用フローターに播種し(Fukuda et al., 2012, Plant Production Science 15:183-191.)、水耕栽培用溶液上で生育させた(Hayashi and Chino, 1986, Plant and Cell Physiology 27:1387-1393.)。水耕液は2日おきに作り替え、20℃、12時間明暗周期のグロースチャンバー内で14日間生育させた。
1-2-1.QTL解析
発芽14日後のBIL104系統と親2系統の苗を採取し、乾燥機で80℃2日間乾燥させた後、種子と根部分を取り除き、秤量した。実験は3反復のBiological replicatesにて行い、苗地上部乾物重量の平均値をQTL解析に用いた。BILの遺伝子型は124種のSSRマーカーを用いて解析し(Fukuda et al., 2014, Plant Production Science 17:41-46.)、MAPMAKER/EXP 3.0 (Lander et al., 1987, Genomics 1:174-181. doi:10.1016/0888-7543(87)90010-3)とQTL Cartographer 2.5 (Wang et al., 2010, Statistical Genetics & Bioinformatics, North Carolina State Universityにて提供)を用いてQTL解析を行った。
親品種のOuu365とArroz da Terra、ならびにそれぞれ初期生育量の異なるBIL20系統を選出し、RNA-seq解析に用いた。発芽14日後の苗について、種子と根部分を取り除き、苗地上部の生鮮重量を測定した後、液体窒素中で凍結し、解析に用いるまで-80℃で保存した。RNeasy mini Kit (Qiagen社製)を用いてRNAを抽出した後、RNA-seq解析を行った。RNAの定量・定性を2100-Bioanalyzer (Agilent Technologies社製)を用いて行った後、TruSeq RNA LT Sample Preparation Kit v2 (Illumina Inc社製)を用いてシークエンス用ライブラリーを作成した。Illumina Hiseq 2000により、100bp, single-end readにて、ライブラリーのシークエンスを行った。シークエンス結果のFastqファイルをDDBJ Sequence Read Archive (DRA) 、 accession no. DRA006312に示した。
シークエンスデータはOryza sativa-Nipponbare-Reference-IRGSP-1.0 genome (Oryza sativa.IRGSP-1.0.24.dna.toplevel.fa.gz, ftp://ftp.ensemblgenomes.org/pub/release-24/plants/fasta/oryza_sativa/dna/) およびgene set (Oryza sativa.IRGSP-1.0.24.gtf.gz, ftp://ftp.ensemblgenomes.org/pub/release-24/plants/gtf/oryza_sativa/) を参照配列として、 TopHat2 (Kim et al., 2013, Genome Biology 14:13. doi:10.1186/gb-2013-14-4-r36; Trapnell et al., 2009, Bioinformatics 25:1105-1111. doi:10.1093/bioinformatics/btp120)を用いてマッピングを行った。各遺伝子の発現量について、 FPKM (Fragments Per Kilobase Million)値として算出した。
苗地上部生鮮重を表す発現量バイオマーカーと、遺伝子の選出頻度について、以下の方法で算出した。発現量の平均値が0.01以上の遺伝子37043種について、以下のように解析に用いた。各遺伝子の発現量について、FPKM値に0.01を加えた後にLog2値に変換した。発現量バイオマーカーについて、LASSO法を用い、L1線形回帰モデルにより選出を行った(Tibshirani, 1996, Journal of the Royal Statistical Society Series B-Methodological 58:267-288. )。バイオマーカー遺伝子の選出頻度を計算するため、トランスクリプトームの部分集団(subset)を用いてのバイオマーカーの選出を繰り返し行った。37043遺伝子の中から10%の遺伝子をランダムに選択し、変数としてLASSO解析に用いた。インプットした変数の中から8遺伝子を、適切な、係数がゼロでない説明変数として選出し、発現量バイオマーカーとした。部分集団(subset)の選出と、発現量バイオマーカーの算出は10000回繰り返し行った。各遺伝子の選出頻度を、10000回のトライアルでバイオマーカーに使用された割合として決定した。解析はRのglmnet package (R Core Team, 2015, R: A language and environment for statistical computing. https://www.R-project.org/)を用いて行った。
Ouu365とArroz da TerraのSG1遺伝子のコード領域、および上流-2108bpの領域について、PCRにより、以下のプライマーを用いて増幅した(5’-GGGACGTGATAACCGACTCA-3’(配列番号1)および5’-CCCCACTGTACGTTCTCTCC-3’(配列番号2))。PCR産物をillustra ExoProStar kitを用いて精製し、Fasmac社に送付してシークエンシングを行った。
翻訳開始点より-1948bp上流の1塩基置換について検出するため、以下のプライマーを用いてPCR差物を増幅し(5’-GGGACGTGATAACCGACTCA-3’(配列番号3)及び5’-TTCAGGTCACCTAGCCCATC-3’(配列番号4))、制限酵素HaeIIIにより切断を行った。Arroz da Terra型の配列GGCCはHaeIIIにより切断されるが、Ouu365型の配列AGCCは切断されなかった。
苗地上部から、トータルRNAを、上記の通り抽出した。1μgのトータルRNAを用いてPrimeScript RT reagent Kit with gDNA Eraser (Takara Bio社)によって、cDNAの合成を行った。Thermal Cycler Dice Real Time System IIIを用い、SYBR Premix Ex TaqとプライマーセットOA045647 (Takara Bio社)によって、SG1 cDNA量の定量をリアルタイムPCRにより行った。リアルタイムPCRの測定は3反復のtechnical replicatesにより行った。SG1mRNAのコピー数の算出のため、Ouu365のcDNAを鋳型として、SG1のPCR産物を以下のプライマーを用いて増幅し(5’-CGACCAGCTGATCTCCAA-G3’(配列番号5)及び5’-CATTTTTACTGGCCCTTCCA-3’(配列番号6))、リアルタイム定量PCRのスタンダードとして用いた。スタンダード用PCR産物は、Qubit fluorometer (Thermo Fisher Scientific社)を用いて定量を行い、その分子量からコピー数を算出した。SG1発現量(copies per ng RNA)はLog2値に変換した後、QTL解析に用いた。
2-1.戻し交雑自殖系統(BIL)のQTL解析
Arroz da TerraとOuu365の発芽14日後の地上部乾物重の平均はそれぞれ5.11mg、2.91mgであり、Arroz da Terraが有意に重かった(t-test, 5%水準)。BIL104系統の地上部乾物重量は、2.52から5.47mgの間に分布した(図9)。BIL104系統を用いて地上部乾物重のQTL解析を行った結果、第3,7及び10染色体上にArroz da Terra型で地上部乾物重を増加させるQTLが検出された(表1、図10)。なお、図10中、黒四角は、地上部乾物重を増加させるQTLの位置を示している。白抜き楕円は、SG1発現量を低下させるeQTLの位置を示している。
初期生育量と関連を持つ転写産物の探索のため、親品種2品種と、BILの中から異なる初期生育量を持つ20系統を用いて(図11)、発芽14日後の苗地上部からRNAを抽出し、RNA-seq解析に用いた。なお、図11中の白抜き三角形は、RNA-seq分析に使用したBIL系統それぞれについて地上部乾物重の平均値を示している。苗地上部生鮮重は、図12に示した。
サンプル当たり平均41.6Mのリード数が得られ、96.1%にあたる40.0Mリード/サンプルがOs-Nipponbare-Reference-IRGSP-1.0 genome上にマッピングされた。遺伝子発現量はFPKM値(fragments per kilobase of coding sequence per million reads)として算出した。苗地上部生鮮重を表すバイオマーカーとなる遺伝子の選出頻度について、上記「1-2-3.発現量バイオマーカーと遺伝子選出頻度の算出」に示した方法を用いて以下のように決定した。全発現遺伝子の中から10%の遺伝子をランダムに選択して部分集団(subset)とし、LASSO解析を用いて部分集団内から8遺伝子を、苗地上部生鮮重を表す説明変数(発現量バイオマーカー)として算出した。部分集団(subset)の選出と、発現量バイオマーカーの算出を10000回繰り返し、各遺伝子が発現量バイオマーカーとして選出される頻度を決定した。高頻度で選出された遺伝子は、その発現量が苗地上部生鮮重と連動していることを示す。高頻度(1%以上の確立)で158遺伝子が選出された。これら選出された158遺伝子のリストを図13に示した。選出された158遺伝子の発現量は、すべて地上部生鮮重と有意な相関を持っていた(5%水準)。
選出された高頻度遺伝子と苗地上部重量QTLとを比較すると、第3、7及び10染色体上QTL内に含まれる遺伝子が、それぞれ5個、6個及び4個あった。そのうち第3染色体上遺伝子の中に、既存の低温発芽遺伝子、qLTG3-1が含まれていた(RAP ID: Os03g0103300, Fujino et al., 2008, Theoretical and Applied Genetics 108:794-799. doi:10.1007/s00122-003-1509-4)。RNA-seqに用いた系統のqLTG3-1発現量と地上部生鮮重との間には、有意な正の相関が見られた(図14)。親品種のひとつArroz da Terraは、機能型のqLTG3-1遺伝子を有していることが報告されているが(Fujino and Iwata, 2011, Theoretical and Applied Genetics 123:1089-1097. doi:10.1007/s00122-011-1650-4)、もう一方の親品種Ouu365は、qLTG3-1遺伝子コード領域内に71bpの欠損を持ち、その機能を失っていることが確認されている(Fukuda et al., 2014, Plant Production Science 17:41-46)。RNA-seqに用いたBIL系統のqLTG3-1遺伝子型を調査した結果、Arroz da Terra型のqLTG3-1を持つ系統の地上部生鮮重とqLTG3-1発現量は、Ouu365型のqLTG3-1を持つ系統に比べ、有意に高かった(t-test, 1% level)。
苗地上部重量QTL内に含まれなかった高頻度選出遺伝子の中に、既存の組織伸長抑制遺伝子SG1(Short Grain 1, RAP ID: Os09g0459200, Nakagawa et al., 2012, Plant Physiology 158:1208-1219. doi:10.1104/pp.111.187567)が含まれていた。RNA-seqに用いた系統のSG1遺伝子発現量と、地上部生鮮重は、有意な負の相関を持っていた(図15)。SG1は、過剰発現形質転換体において、植物ホルモンのブラシノステロイドへの応答性を低下させ、植物体を矮化させることが知られている(Nakagawa et al., 2012, Plant Physiology 158:1208-1219. doi:10.1104/pp.111.187567)。しかし、SG1が自然変異を持つかどうかは、今まで報告されていない。親品種のArroz da TerraとOuu365のSG1遺伝子の塩基配列を比較した結果、コード領域内に塩基置換や欠失・挿入変異は無かった。翻訳開始点の上流-1948bと-2038bの位置に単塩基置換があったが、RNA-seq解析に用いた系統のSG1遺伝子発現量は、この位置の遺伝子型によって差は見られなかった。
RNA-seq解析に用いた以外のBIL系統においても、SG1発現量と苗地上部重量とが相関を持つか確認するため、BIL104系統すべてと親品種について、定量リアルタイムPCRによるSG1発現量の測定を行った。その結果、BIL104系統と親品種のSG1発現量と地上部生鮮重は、有意な負の相関を示した(図16)。翻訳開始点の上流-1948bの遺伝子型によるSG1の発現量の違いは見られなかった。SG1発現量に影響する染色体領域を調査するため、BIL104系統のSG1発現量を用いて発現量QTL解析(eQTL解析)を行った結果、第3染色体上と第7染色体上の2か所に、Arroz da Terra型でSG1発現量を低下させるeQTLが検出された(表2及び図10)。このうち、作用力の強い第7染色体上のeQTLは、苗重量QTLと同位置にあった(図10)。一方で、SG1遺伝子が存在する第9染色体上には、eQTLは検出されなかった。
転写産物の網羅解析(トランスクリプトーム解析)は、様々な形態的・生理的性質に影響する転写産物を検出できる強力な手段であるが、一方で、転写産物は多くの環境要因・遺伝要因の影響を複雑に受ける。そのため、特定の性質を表す発現量バイオマーカーを統計的に選出するには、ノイズを取り除くため、数百以上の多数のサンプル数を用いることが望ましいと考えられている。しかしながら、数百以上の多数のサンプル数を準備し、RNA-Seq等の遺伝子発現解析を行うことは困難な場合が多い。
本実施例に示したトランスクリプトーム解析においては、BIL20系統および親品種2系統の22系統という、比較的小さいサンプルサイズを用いて苗重量をあらわす発現量バイオマーカーの検出を試みた。その結果、本実施例に示したトランスクリプトーム解析によれば、候補バイオマーカーとして、qLTG3-1とSG1という、ゲノム変異を持つものと持たないもの、2種の既存の遺伝子を検出することができた。この結果より、本実施例に示したトランスクリプトーム解析は、比較的小さいサンプルサイズの解析でも、効果的に発現量バイオマーカーの選出を行える可能性を示している。
本実施例では、実施例1で作成した高頻度遺伝子リスト(図13)を使用して、苗地上部生鮮重の予測値を算出した。
実施例1で作成した高頻度遺伝子リスト(図13)158遺伝子のうち上位100遺伝子の遺伝子発現量及び苗地上部生鮮重(図12)を用いてrandom forest法(Breiman, L., 2001, Machine Learning 45: 5-32)により、遺伝子発現量から苗地上部生鮮重を予測した。random forestでは、これら100遺伝子に関する、実施例1で測定した発現量データと苗地上部生鮮重量を入力値として決定木の形式で予測モデル式を作成し、当該予測モデル式に基づいて上記100遺伝子に関する発現量データから予測値を算出するものである。
5分割交差検証(cross validation)を20回繰り返し、苗地上部生鮮重の予測値を求めた。横軸を苗地上部生鮮重の実測値とし、縦軸を上記予測モデル式により算出された予測値(平均値)としてデータをプロットしたグラフを図17に示した。図17に示したデータについてR2(自由度調整済決定係数)を算出したところ0.8554となり、非常に高い適合度を示した。すなわち、実施例1で作成したリストに含まれる遺伝子に関する遺伝子発現量データ及び苗地上部生鮮重を用いて策した予測モデル式は、実際のデータに当てはまっていることを表しており、説明変数(遺伝子発現量データ)が目的変数(苗地上部生鮮重)をよく説明していると言える。
Claims (12)
- 目的変数データと遺伝子発現量データとを含む複数のデータセットに対して、遺伝子発現量データをランダムに削減した第1~第mのサブデータセット(m≧2)を生成するデータセット生成手段と、
第1~第mのサブデータセットのそれぞれに対して正則化項を有する回帰分析法を適用して、目的変数データを目的変数とし遺伝子発現量データを説明変数とする第1~第mの予測式を算出する予測式算出手段と、
第1~第mの予測式に含まれる遺伝子発現量データに対応する遺伝子のリストを生成する遺伝子リスト生成手段と
を備えるトランスクリプトーム解析装置。 - 上記予測式算出手段は、上記回帰分析法としてLASSO(least absolute shrinkage and selection operator)を適用することを特徴とする請求項1記載のトランスクリプトーム解析装置。
- 上記データセット生成手段は、1000~20000通りのサブデータセット(m=1000~20000)を生成することを特徴とする請求項1記載のトランスクリプトーム解析装置。
- 上記遺伝子リスト生成手段は、第1~第mの予測式に基づいて遺伝子の出現確率を算出し、算出した出現確率と関連付けて遺伝子のリストを生成することを特徴とする請求項1記載のトランスクリプトーム解析装置。
- 上記遺伝子リスト生成手段は、遺伝子のアノテーション情報が格納されたデータベースから、リストに含まれる遺伝子のアノテーション情報を読み出し、読み出したアノテーション情報と関連づけて遺伝子のリストを生成することを特徴とする請求項1記載のトランスクリプトーム解析装置。
- 上記遺伝子リスト生成手段により生成したリストに含まれる複数の遺伝子について、上記複数のデータセットに含まれる目的変数データと遺伝子発現量データとを用いた重回帰分析により、所定の目的変数に関する予測モデル式を生成する予測モデル式生成手段を更に有することを特徴とする請求項1記載のトランスクリプトーム解析装置。
- 中央処理装置が、目的変数データと遺伝子発現量データとを含む複数のデータセットに対して、遺伝子発現量データをランダムに削減したサブデータセットを生成するサブデータセット生成工程と、
中央処理装置が、サブデータセットに対して正則化法を適用して、目的変数データを目的変数とし遺伝子発現量データを説明変数とする予測式を算出する予測式算出工程と、
記憶装置が、予測式に含まれる遺伝子発現量データに対応する遺伝子を記録する遺伝子記録工程と、
上記サブデータセット生成工程、上記予測式算出工程及び上記遺伝子記録工程をm回(m≧2)繰り返し、中央処理装置が、記録された遺伝子のリストを生成する遺伝子リスト生成工程と
を含むトランスクリプトーム解析方法。 - 上記予測式算出工程では、中央処理装置が、上記正則化法としてLASSO(least absolute shrinkage and selection operator)を適用することを特徴とする請求項7記載のトランスクリプトーム解析方法。
- 上記サブデータセット生成工程では、中央処理装置が、1000~20000通りのサブデータセット(n=1000~20000)を生成することを特徴とする請求項7記載のトランスクリプトーム解析方法。
- 上記遺伝子リスト生成工程では、中央処理装置が、第1~第m回の繰り返しで生成した第1~第mの予測式に基づいて遺伝子の出現確率を算出し、算出した出現確率と関連付けて遺伝子のリストを生成することを特徴とする請求項7記載のトランスクリプトーム解析方法。
- 上記遺伝子リスト生成工程では、遺伝子のアノテーション情報が格納されたデータベースから、中央処理装置が、リストに含まれる遺伝子のアノテーション情報を読み出し、読み出したアノテーション情報と関連づけて遺伝子のリストを生成することを特徴とする請求項7記載のトランスクリプトーム解析方法。
- 上記遺伝子リスト生成工程の後、生成したリストに含まれる複数の遺伝子について、上記複数のデータセットに含まれる目的変数データと遺伝子発現量データとを用いた重回帰分析により、中央処理装置が、所定の目的変数に関する予測モデル式を生成する予測モデル式生成工程を更に有することを特徴とする請求項7記載のトランスクリプトーム解析方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018003697A JP7025216B2 (ja) | 2018-01-12 | 2018-01-12 | トランスクリプトーム解析装置及び解析方法 |
BR102019000485-1A BR102019000485A2 (pt) | 2018-01-12 | 2019-01-10 | Aparelho e método para análise de transcriptoma |
US16/244,459 US20190221283A1 (en) | 2018-01-12 | 2019-01-10 | Apparatus and method for transcriptome analysis |
CN201910022338.XA CN110033823A (zh) | 2018-01-12 | 2019-01-10 | 转录组解析装置及解析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018003697A JP7025216B2 (ja) | 2018-01-12 | 2018-01-12 | トランスクリプトーム解析装置及び解析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019125045A JP2019125045A (ja) | 2019-07-25 |
JP7025216B2 true JP7025216B2 (ja) | 2022-02-24 |
Family
ID=67214243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018003697A Active JP7025216B2 (ja) | 2018-01-12 | 2018-01-12 | トランスクリプトーム解析装置及び解析方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20190221283A1 (ja) |
JP (1) | JP7025216B2 (ja) |
CN (1) | CN110033823A (ja) |
BR (1) | BR102019000485A2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7370519B2 (ja) * | 2019-11-18 | 2023-10-30 | 国立研究開発法人農業・食品産業技術総合研究機構 | 予測プログラム、予測方法及び予測装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003085548A (ja) | 2001-09-07 | 2003-03-20 | Canon Inc | 情報処理装置、情報処理装置の画像処理方法、画像処理システム、記憶媒体、及びプログラム |
JP2004355174A (ja) | 2003-05-28 | 2004-12-16 | Ishihara Sangyo Kaisha Ltd | データ解析方法及びそのシステム |
JP2016045801A (ja) | 2014-08-25 | 2016-04-04 | ケーディーアイコンズ株式会社 | 情報処理装置及びプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2591043C (en) * | 2004-12-17 | 2012-01-10 | The University Of Tokyo | Method for identifying gene with varying expression levels |
JP5854346B2 (ja) * | 2010-07-21 | 2016-02-09 | 公立大学法人秋田県立大学 | トランスクリプトーム解析方法、疾病判定方法、コンピュータプログラム、記憶媒体、及び解析装置 |
CN102409099A (zh) * | 2011-11-29 | 2012-04-11 | 浙江大学 | 一种利用测序技术分析猪乳腺组织基因表达差异的方法 |
CN104657628A (zh) * | 2015-01-08 | 2015-05-27 | 深圳华大基因科技服务有限公司 | 基于Proton的转录组测序数据的比较分析方法和*** |
CN106967728B (zh) * | 2017-04-13 | 2020-04-24 | 华中农业大学 | 一种南瓜抗逆基因CmNAC1及其应用 |
-
2018
- 2018-01-12 JP JP2018003697A patent/JP7025216B2/ja active Active
-
2019
- 2019-01-10 BR BR102019000485-1A patent/BR102019000485A2/pt not_active Application Discontinuation
- 2019-01-10 CN CN201910022338.XA patent/CN110033823A/zh active Pending
- 2019-01-10 US US16/244,459 patent/US20190221283A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003085548A (ja) | 2001-09-07 | 2003-03-20 | Canon Inc | 情報処理装置、情報処理装置の画像処理方法、画像処理システム、記憶媒体、及びプログラム |
JP2004355174A (ja) | 2003-05-28 | 2004-12-16 | Ishihara Sangyo Kaisha Ltd | データ解析方法及びそのシステム |
JP2016045801A (ja) | 2014-08-25 | 2016-04-04 | ケーディーアイコンズ株式会社 | 情報処理装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
BR102019000485A2 (pt) | 2019-07-30 |
JP2019125045A (ja) | 2019-07-25 |
CN110033823A (zh) | 2019-07-19 |
US20190221283A1 (en) | 2019-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Todesco et al. | Massive haplotypes underlie ecotypic differentiation in sunflowers | |
Molero et al. | Elucidating the genetic basis of biomass accumulation and radiation use efficiency in spring wheat and its role in yield potential | |
Frachon et al. | Intermediate degrees of synergistic pleiotropy drive adaptive evolution in ecological time | |
Su et al. | Identification of favorable SNP alleles and candidate genes for traits related to early maturity via GWAS in upland cotton | |
Alves‐Carvalho et al. | Full‐length de novo assembly of RNA‐seq data in pea (P isum sativum L.) provides a gene expression atlas and gives insights into root nodulation in this species | |
Prince et al. | Genetic variants in root architecture-related genes in a Glycine soja accession, a potential resource to improve cultivated soybean | |
Qiu et al. | Genome-wide association study of grain appearance and milling quality in a worldwide collection of indica rice germplasm | |
Yang et al. | Mapping of quantitative trait loci underlying cold tolerance in rice seedlings via high-throughput sequencing of pooled extremes | |
Keurentjes et al. | Development of a near-isogenic line population of Arabidopsis thaliana and comparison of mapping power with a recombinant inbred line population | |
Casu et al. | Genomics approaches for the identification of genes determining important traits in sugarcane | |
Sebastiani et al. | Recent developments in olive (Olea europaea L.) genetics and genomics: applications in taxonomy, varietal identification, traceability and breeding | |
Mabry et al. | Phylogeny and multiple independent whole‐genome duplication events in the Brassicales | |
Li et al. | Favorable alleles for stem water-soluble carbohydrates identified by association analysis contribute to grain weight under drought stress conditions in wheat | |
Morris et al. | Day length dependent restructuring of the leaf transcriptome and metabolome in potato genotypes with contrasting tuberization phenotypes | |
Pace et al. | Genomic prediction of seedling root length in maize (Zea mays L.) | |
Que et al. | Genome-wide identification, expansion, and evolution analysis of homeobox genes and their expression profiles during root development in carrot | |
Mirzaei | Application of molecular markers in plant sciences; An overview | |
Zhou et al. | Genome-wide identification and characterization of long noncoding RNAs during peach (Prunus persica) fruit development and ripening | |
JP7025216B2 (ja) | トランスクリプトーム解析装置及び解析方法 | |
Wei et al. | Time-sequential detection of quantitative trait loci and candidate genes underlying the dynamic growth of Salix suchowensis | |
Bekele et al. | Genome-wide association studies and genomic selection assays made in a large sample of cacao (Theobroma cacao L.) germplasm reveal significant marker-trait associations and good predictive value for improving yield potential | |
Angelin-Bonnet et al. | Investigating the genetic components of tuber bruising in a breeding population of tetraploid potatoes | |
Liu et al. | Selection and validation of suitable reference genes for qRT-PCR analysis in pear leaf tissues under distinct training systems | |
Bellin et al. | EST sequencing, annotation and macroarray transcriptome analysis identify preferentially root-expressed genes in sugar beet | |
Mei et al. | Dissecting genetic network of fruit branch traits in upland cotton by association mapping using SSR markers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200807 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210803 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211004 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220118 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220210 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7025216 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |