JP2004013573A - Processing method for gene expression data, and processing program - Google Patents
Processing method for gene expression data, and processing program Download PDFInfo
- Publication number
- JP2004013573A JP2004013573A JP2002166946A JP2002166946A JP2004013573A JP 2004013573 A JP2004013573 A JP 2004013573A JP 2002166946 A JP2002166946 A JP 2002166946A JP 2002166946 A JP2002166946 A JP 2002166946A JP 2004013573 A JP2004013573 A JP 2004013573A
- Authority
- JP
- Japan
- Prior art keywords
- value
- data
- values
- background
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000014509 gene expression Effects 0.000 title claims abstract description 43
- 238000003672 processing method Methods 0.000 title claims description 8
- 238000012545 processing Methods 0.000 claims abstract description 56
- 238000009826 distribution Methods 0.000 claims abstract description 22
- 238000003860 storage Methods 0.000 claims description 91
- 238000000034 method Methods 0.000 claims description 82
- 238000004364 calculation method Methods 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 31
- 238000000018 DNA microarray Methods 0.000 abstract description 43
- 238000004519 manufacturing process Methods 0.000 abstract description 4
- 238000005070 sampling Methods 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 25
- 238000012937 correction Methods 0.000 description 23
- 108020004414 DNA Proteins 0.000 description 14
- 108090000623 proteins and genes Proteins 0.000 description 13
- 238000005259 measurement Methods 0.000 description 12
- 238000007781 pre-processing Methods 0.000 description 11
- 238000002474 experimental method Methods 0.000 description 9
- 239000000758 substrate Substances 0.000 description 8
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 6
- 108020004707 nucleic acids Proteins 0.000 description 6
- 102000039446 nucleic acids Human genes 0.000 description 6
- 150000007523 nucleic acids Chemical class 0.000 description 6
- 239000011521 glass Substances 0.000 description 5
- 238000009396 hybridization Methods 0.000 description 5
- 238000002493 microarray Methods 0.000 description 5
- 239000002299 complementary DNA Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 102000004169 proteins and genes Human genes 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 239000000020 Nitrocellulose Substances 0.000 description 2
- 239000004677 Nylon Substances 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 2
- 238000003705 background correction Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000000576 coating method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 239000012510 hollow fiber Substances 0.000 description 2
- 238000004020 luminiscence type Methods 0.000 description 2
- 239000011325 microbead Substances 0.000 description 2
- 229920001220 nitrocellulos Polymers 0.000 description 2
- 229920001778 nylon Polymers 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 235000019750 Crude protein Nutrition 0.000 description 1
- 102000053602 DNA Human genes 0.000 description 1
- 241000269435 Rana <genus> Species 0.000 description 1
- 108020004682 Single-Stranded DNA Proteins 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010291 electrical method Methods 0.000 description 1
- 239000007850 fluorescent dye Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 239000007769 metal material Substances 0.000 description 1
- 150000002739 metals Chemical class 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000001179 sorption measurement Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
- Complex Calculations (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
【0001】
【産業上の技術分野】
本発明は、遺伝子発現データを統計的に解析する手法に関する。
【0002】
【従来の技術】
遺伝子発現データを取得するために、DNAチップを利用することが知られている。DNAチップとは、スライドガラスなどの基材上に複数の遺伝子を異なるスポットとして固定させたものである。たとえば、マイクロアレイには、数千から数万の遺伝子がターゲットとして固定されている。ターゲットとして、一重鎖のDNAやmRNAなどが利用される。
【0003】
DNAチップの基材として、種々のコーティングを施したガラスなどからなる板、ナイロンやニトロセルロースからなる膜、中空糸、半導体材料、金属材料、有機物質など核酸を保持できる種々のものが利用できる。また、ターゲットとして、cDNAの全部或いはその一部を複製したもの、ゲノムDNAの一部を複製したもの、合成DNAおよび/または合成RNAが利用され得る。基材にターゲットを固定するために、フォトリソグラフ法によりガラス板上にオリゴDNAを合成する手法と、スポッタ等を利用して基材にターゲットを取り付ける手法とが知られている。
【0004】
このようなDNAチップに、たとえば、蛍光標識をつけたDNAやRNA(解析対象)をハイブリタイズさせる。ターゲットと相補的な解析対象が二重鎖を形成する。解析対象には蛍光標識が付されているため、ハイブリダイゼーションの後に、蛍光スキャナにてDNAチップを操作した画像データを取得することができる。このようにして取得された画像データに基づき、何れかのスポットに二重鎖が形成されているかを知ることが可能となる。より具体的には、得られた画像は、ハイブリダイゼーションの結果、各々のDNAに由来するスポットが表示される。したがって、スポットの位置を含む所定の領域のシグナル強度を積算することにより、各スポットのシグナル強度を示す値からなるアレイデータを得ることができる。
【0005】
たとえば、数千から数万のターゲットが固定されているマイクロアレイにより、多数の遺伝子発現を示すアレイデータを一度の実験操作で得ることができる。この結果、ある一つの遺伝子発現のデータの増減を測定する際に、その対象として多数の遺伝子発現を示すデータ(シグナル強度を示す値)の平均を算出し、これに基づいてデータを標準化するのが一般的である。より具体的には、実験ごとの発現データを比較する前にデータを標準化する。たとえば、Johhanes Schuchhardtらによる「Normalization strategies for cDNA microarrays(Nucleic Acids Research
(2000) Vol.28 No.10)」には、その標準化の一例が開示されている。
【0006】
【発明が解決しようとする課題】
取得されたデータの確率分布はノンパラメトリックである。しかしながら、たとえば、Todd Richmondらによる「Chasing the dream: plant EST microarrays (Current Opinion in Plant
Biology (2000) Vol.3 pp108−116)」に開示されているように、取得されたデータを標準化するために、Z−標準やt−標準、或いは、各スポットのシグナル強度の積算値を全体の数値の算術平均で除するというような手法が用いられている。
【0007】
これらはノンパラメトリックな手法ではないため、このような標準化がデータの精度を著しく損ねているという問題点があった。
また、蛍光スキャナにより取得された画像に基づくアレイデータは、必ず、バックグラウンド成分を含む。これは、画像データ全体に存在するバックグラウンドのシグナル強度、および、測定範囲と実際のスポットの大きさや形状が必ずしも一致しないことに起因する。したがって、取得した画像データの数値からバックグラウンド成分を差し引き、真のシグナル値からなるデータを取得することが正確な解析のために重要となる。他の手法、たとえば、電気信号の検出、放射線の検出により取得されたアレイデータでも同様である。
【0008】
従来、バックグラウンド成分を、特定のスポットやスポットされない部分のシグナル強度をあらわす数値に基づき、画素あたりの平均値や中央値を求め、この値に測定領域の画素数を乗ずることにより推定していた。
或いは、Michael Eisenが、「ScanAlyze User Manual(http://rana.lbl.gov/EisenSoftware.htm)」において提案しているように、スポットごとに、測定範囲の外側近傍の値からバックグラウンド成分を推定する手法も知られている。
しかしながら、上記従来の補正法においては、バックグラウンド値算出のために利用されるスポットや画像中の領域の相違により、上記バックグラウンドの推定値は変化する。つまり、上記相違から種々のバックグラウンド値が推定される可能性があり、何れが適切であるかを判断することができないという問題点があった。特に、DNAをスポットした領域と、そうでない領域との間で、バックグラウンド値の差が大きくなることがあった。
【0009】
そこで、本発明者は、DNAチップから得られるデータ(遺伝子発現による発光量を示すデータ)の対数値が3パラメータ正規分布することを知見し、上記データを対数変換し、さらに標準化(たとえば、z−標準化)することを提案した。上記手法により、異なる実験の結果や同種の実験結果を正確に比較することが可能となった。
本発明は、さらに、DNAチップなどから得られる遺伝子発現データに基づき、より精度の良い解析を施すことが可能なデータ処理方法を提供することを目的とする。
【0010】
【課題を解決するための手段】
本発明の目的は、遺伝子の発現量に基づき得られたアレイデータ、たとえば、DNAチップやタンパクチップのハイブリダイゼーションなどにより、チップ上に配置された各スポットのシグナル強度を示す値から構成されるアレイデータを処理して、解析可能なデータを取得する遺伝子発現データの処理方法であって、前記アレイデータを取得して、取得されたアレイデータのデータ値をソートし、前記ソートされたデータ値から、所定間隔で所定数のデータ値を抽出し、これを一時的に記憶手段に記憶するステップと、複数のバックグラウンド候補を選択して、これを一時的に記憶手段に記憶するステップと、前記抽出されたデータ値のそれぞれから、各バックグラウンド候補の値を減じて、減算値を取得し、かつ、各減算値を対数変換した対数値を得て、当該対数値を一時的に記憶手段に記憶するステップと、前記対数値のそれぞれに対応する、正規分布の標準値を算出するステップと、前記各バックグラウンド候補について、各対数値と標準値との間の差異を示す指標を算出するステップと、前記指標に基づき、前記バックグラウンド候補の値の範囲を絞り込むステップと、前記減算値および対数値の取得、差異を示す指標の算出、バックグラウンド候補の値の絞込みを繰り返すことにより、バックグラウンド値を決定するステップと、前記決定されたバックグラウンド値に関連して一時的に記憶された対数値を、それぞれ標準化し、標準化された値を、それぞれ、記憶手段に記憶するステップとを備えたことを特徴とする遺伝子発現データの処理方法により達成される。
【0011】
本発明によれば、ソートされた値の対数値と、対応する標準値との差異に基づいて、その差異が最小となるようなバックグラウンド値が定められるため、より適切なバックグランド値を決定することができ、その結果、他のデータとの比較を含む解析の対象となるデータをより適切なものとすることが可能となる。
【0012】
なお、上記差異の指標として、差異の絶対値の総和、差異の二乗(二乗誤差)の総和、最小二乗法の「r」などを利用することができる。前記ソートされたデータ値から、所定間隔で所定数のデータ値を抽出する際の所定間隔は、間隔が「0」であること、つまり、全てのデータを抽出することも含む。また、抽出されたn個のデータのうちの、第i番目のデータ値に対応する標準値は、正規分布の第i番目のn分位数とすれば良い。
【0013】
また、本発明の目的は、遺伝子の発現量に基づき得られたアレイデータを処理して、解析可能なデータを取得する遺伝子発現データの処理方法であって、前記アレイデータを取得して、取得されたアレイデータのデータ値をソートし、前記ソートされたデータ値から、所定間隔で所定数のデータ値を抽出し、これを一時的に記憶手段に記憶するステップと、バックグラウンド値γを決定して、これを記憶手段に記憶するステップと、前記バックグランド値を減じたデータ値である減算値を対数化して、対数値を取得し、これを記憶手段に一時的に記憶するステップと、前記対数値を参照して、中心的傾向の特性値μおよび変動の特性値σを算出し、これらを記憶手段に記憶するステップと、各データ値xについて、標準値zとして、z=(log(x−γ)−μ)/σを算出して、算出された標準値zを、それぞれ記憶手段に記憶するステップとを備えたことを特徴とする遺伝子発現データの処理方法によっても達成される。
【0014】
本発明によれば、算出されたパラメータγ、μおよびσを用いて、アレイデータのデータ値xを、それぞれ、z=(log(x−γ)−μ)/σと標準化し、より解析に適したものを得ることが可能となる。
好ましい実施対応においては、前記バックグラウンド値γを決定するステップが、複数のバックグラウンド候補を選択して、これを一時的に記憶手段に記憶するステップと、前記抽出されたデータ値のそれぞれから、各バックグラウンド候補の値を減じて、減算値を取得し、かつ、各減算値を対数変換した対数値を得て、当該対数値を一時的に記憶手段に記憶するステップと、前記対数値のそれぞれに対応する、正規分布の標準値を算出するステップと、前記各バックグラウンド候補について、各対数値と標準値との間の差異を示す指標を算出するステップと、前記指標に基づき、前記バックグラウンド候補の値の範囲を絞り込むステップとを有し、前記減算値および対数値の取得、差異を示す指標の算出、バックグラウンド候補の値の絞込みを繰り返すことにより、バックグラウンド値を決定するように構成されている。
【0015】
より好ましい実施態様においては、前記中心的傾向の特性値μおよび変動の特性値σを求めるステップが、前記対数値のそれぞれに対応する標準値を算出するステップと、前記対数値と標準値とを比較し、両者の比がほぼ一定に推移する範囲を求めるステップと、前記標準値をx軸、対数値をy軸と考えた場合に、前記範囲において形成される直線の傾きおよびy切片を算出するステップと、算出されたy切片を中心的傾向の特性値μと決定し、傾きを変動の特性値σと決定するステップとを有する。ここでは、いわゆる正規確率プロット(Normal Probability plot:NPP)を利用して、直線性が担保された領域を見出し、当該領域から導き出される直線の傾きおよび切片を、それぞれ、σおよびμと決定する。これにより、よりロバストな標準化を実現することが可能となる。
【0016】
別の好ましい実施態様においては、さらに、前記データ値を、前記チップ上に配置されたスポットの順に並べ替え、その順序で記憶手段に一時的に記憶するステップと、前記チップにおいてスポットが配置された列或いは行に関して、当該列或いは行ごとのデータ値の傾向を示す指標を算出するステップと、前記指標に基づき、列或いは行ごとに特徴がある場合に、各列或いは各行について、それぞれ、そのデータ値の中央値を算出するステップと、前記データ値を、対応する中央値で除して、除算値を取得して、これを記憶手段に一時的に記憶するステップとを備え、前記一時的に記憶された除算値を、アレイデータのデータ値に対応する値として、演算対象とする。
【0017】
この実施態様によれば、アレイチップの精度に問題がある場合、特に、打刻機の精度の問題や、チップ自体のスポットに配置されるクローンの出自などにより、列や行が特異となっている場合であっても、その特異性を解消し、ロバストな標準化を施し得る状態にすることができる。
前記傾向を示す指標を算出するステップが、特定の列或いは行に関する移動平均を算出するステップを含んでいても良い。
【0018】
また、別の好ましい実施態様においては、さらに、前記データ値を、前記チップ上に配置されたスポットの順に並べ替え、その順序で記憶手段に一時的に記憶するステップと、前記順序で、データ値の周期性を見出すステップと、前記周期性のある場合に、各データ値から、当該周期の中心的傾向の特性値を減じて減算値を算出し、これを記憶手段に一時的に記憶するステップとを備え、前記一時的に記憶された減算値を、アレイデータのデータ値に対応する値として、演算対象とする。ここでは、アレイデータの値が、一定の周期性を持つ場合に、周期性をもつ要素を排除しておくことで、解析対象としてより適切なデータを得ることができる。
【0019】
また、別の実施態様においては、さらに、前記データ値を、前記チップ上に配置されたスポットの順に並べ替えるステップと、前記チップにおいてスポットが配置された列或いは行に関して、当該列または行ごとに、データ値の中心的傾向の特性値を算出するステップと、前記中心的傾向の特性値に基づき、当該列或いは行に属するスポットに関するバックグラウンド値を設定し、当該スポットに関するデータ値のそれぞれから、バックグラウンド値を減じて減算値を算出するステップと、前記減算値を、それぞれ対数化して、対数値を取得するステップと、前記列或いは行に関して、前記対数値の中心的傾向の特性値を減算し、前記減算値を、記憶手段に一時的に記憶するステップとを備え、前記一時的に記憶された減算値を、アレイデータのデータ値に対応する値として、演算対象とする。
【0020】
さらに、本発明の目的は、遺伝子の発現量に基づき得られたアレイデータを処理して、解析可能なデータを取得する遺伝子発現データの処理方法であって、前記チップにおいてスポットが配置された列或いは行に関して、当該列または行ごとに、データ値の中心的傾向の特性値を算出するステップと、前記中心的傾向の特性値に基づき、当該列或いは行に属するスポットに関するバックグラウンド値の候補を設定し、当該スポットに関するデータ値のそれぞれから、バックグラウンド候補値を減じて減算値を算出するステップと、前記減算値を、それぞれ対数化して、対数値を取得するステップと、前記列或いは行に関して、前記対数値の中心的傾向の特性値を算出し、前記対数値のそれぞれから減じて第2の減算値を算出するステップと、前記列或いは行に関して、前記データ値を、前記第2の減算値に基づき算出される変動の特性値で除して、除算値を取得し、これを記憶手段に一時的に記憶するステップと、前記除算値と、対応する標準値とを比較し、これらの間の差異の指標が最も小さくなるような、バックグラウンド候補値をバックグラウンド値γと決定するステップと、前記バックグラウンド値γ、当該バックグラウンド値γと関連する中心的傾向の特性値μおよび変動の特性値σを、それぞれ記憶手段に記憶するステップとを備えたことを特徴とする遺伝子発現データの処理方法によっても達成される。
【0021】
本発明によれば、列或いは行ごとの中心的傾向の特性値に基づいてバックグランド値が決定される。たとえば、列ごとのバックグラウンド値は、当該列の中心的傾向の特性値の、ある比例定数倍と考えることができる。これにより、列や行の特異性を排除することが可能となる。
【0022】
また、本発明の目的は、遺伝子の発現量に基づき得られたアレイデータを処理して、解析可能なデータを取得する遺伝子発現データの処理方法であって、前記アレイデータを取得して、取得されたアレイデータのデータ値をソートし、ソートされたデータを、記憶手段に一時的に記憶するステップと、前記ソートされたデータ値に対応する、正規分布の標準値を算出するステップと、前記データ値に関して、その変動の特性値sを設定して、これを記憶手段に記憶するとともに、前記標準値のそれぞれに乗じて、乗算値を得るステップと、前記データ値と乗算値とを比較し、両者の比が一定に推移する範囲を求めるステップと、前記乗算値をx軸、対数値をy軸と考えた場合に、前記範囲において形成される直線の傾きおよびy切片を算出するステップと、前記傾きの自然対数を中心的傾向の特性値u、切片をバックグラウンド値gと決定して、これらを記憶手段に記憶するステップとを備えたことを特徴とする遺伝子発現データの処理方法によっても達成される。
【0023】
たとえば、ウェット実験の不良などが原因で、ハイブリダイゼーション全体のノイズレベルが高くなり、そのレベルが無視できない場合に、チップとサンプルのデータの組み合わせから、ノイズがなければ対数正規分布となることが期待できる場合には、上記手法を利用した標準化を適用することができる。
ここでは、さらに、xi=(10u)*(10(s*Zi))+g
(ただし、Ziは、第i番目の標準値)を用いて、xiを解き、これを、記憶手段に一時的に記憶するステップと、前記xiとして利用することができる値の下限値を求め、これを前記記憶手段に記憶するステップとを備えているのが望ましい。これにより、解析対象として利用できるデータの範囲を知ることができる。
【0024】
また、本発明の目的は、遺伝子の発現量に基づき得られたアレイデータを処理して、解析可能なデータを取得するようにコンピュータを動作させる、コンピュータにより読み取り可能なプログラムであって、前記アレイデータを取得して、取得されたアレイデータのデータ値をソートし、前記ソートされたデータ値から、所定間隔で所定数のデータ値を抽出し、これを一時的に記憶手段に記憶するステップと、複数のバックグラウンド候補を選択して、これを一時的に記憶手段に記憶するステップと、前記抽出されたデータ値のそれぞれから、各バックグラウンド候補の値を減じて、減算値を取得し、かつ、各減算値を対数変換した対数値を得て、当該対数値を一時的に記憶手段に記憶するステップと、前記対数値のそれぞれに対応する、正規分布の標準値を算出するステップと、前記各バックグラウンド候補について、各対数値と標準値との間の差異を示す指標を算出するステップと、前記指標に基づき、前記バックグラウンド候補の値の範囲を絞り込むステップと、前記減算値および対数値の取得、差異を示す指標の算出、バックグラウンド候補の値の絞込みを繰り返すことにより、バックグラウンド値を決定するステップと、前記決定されたバックグラウンド値に関連して一時的に記憶された対数値を、それぞれ標準化し、標準化された値を、それぞれ、記憶手段に記憶するステップとを、前記コンピュータに実行させることを特徴とするプログラムにより達成される。
【0025】
さらに、本発明の目的は、遺伝子の発現量に基づき得られたアレイデータを処理して、解析可能なデータを取得するようにコンピュータを動作させる、コンピュータにより読み取り可能なプログラムであって、前記アレイデータを取得して、取得されたアレイデータのデータ値をソートし、前記ソートされたデータ値から、所定間隔で所定数のデータ値を抽出し、これを一時的に記憶手段に記憶するステップと、バックグラウンド値γを決定して、これを記憶手段に記憶するステップと、前記バックグランド値を減じたデータ値である減算値を対数化して、対数値を取得し、これを記憶手段に一時的に記憶するステップと、前記対数値を参照して、中心的傾向の特性値μおよび変動の特性値σを算出し、これらを記憶手段に記憶するステップと、各データ値xについて、標準値zとして、z=(log(x−γ)−μ)/σを算出して、算出された標準値zを、それぞれ記憶手段に記憶するステップとを、前記コンピュータに実行させることを特徴とするプログラムによっても達成される。
【0026】
或いは、本発明の目的は、遺伝子の発現量に基づき得られたアレイデータを処理して、解析可能なデータを取得するようにコンピュータを動作させる、コンピュータにより読み取り可能なプログラムであって、前記チップにおいてスポットが配置された列或いは行に関して、当該列または行ごとに、データ値の中心的傾向の特性値を算出するステップと、前記中心的傾向の特性値に基づき、当該列或いは行に属するスポットに関するバックグラウンド値の候補を設定し、当該スポットに関するデータ値のそれぞれから、バックグラウンド候補値を減じて減算値を算出するステップと、前記減算値を、それぞれ対数化して、対数値を取得するステップと、前記列或いは行に関して、前記対数値の中心的傾向の特性値を算出し、前記対数値のそれぞれから減じて第2の減算値を算出するステップと、前記列或いは行に関して、前記データ値を、前記第2の減算値に基づき算出される変動の特性値で除して、除算値を取得し、これを記憶手段に一時的に記憶するステップと、前記除算値と、対応する標準値とを比較し、これらの間の差異の指標が最も小さくなるような、バックグラウンド候補値をバックグラウンド値γと決定するステップと、前記バックグラウンド値γ、当該バックグラウンド値γと関連する中心的傾向の特性値μおよび変動の特性値σを、それぞれ記憶手段に記憶するステップとを、前記コンピュータに実行させることを特徴とするプログラムによっても達成される。
【0027】
また、本発明の目的は、遺伝子の発現量に基づき得られたアレイデータを処理して、解析可能なデータを取得するようにコンピュータを動作させる、コンピュータにより読み取り可能なプログラムであって、前記アレイデータを取得して、取得されたアレイデータのデータ値をソートし、ソートされたデータを、記憶手段に一時的に記憶するステップと、前記ソートされたデータ値に対応する、正規分布の標準値を算出するステップと、前記データ値に関して、その変動の特性値sを設定して、これを記憶手段に記憶するとともに、前記標準値のそれぞれに乗じて、乗算値を得るステップと、前記データ値と乗算値とを比較し、両者の比が一定に推移する範囲を求めるステップと、前記乗算値をx軸、対数値をy軸と考えた場合に、前記範囲において形成される直線の傾きおよびy切片を算出するステップと、前記傾きの自然対数を中心的傾向の特性値u、切片をバックグラウンド値gと決定して、これらを記憶手段に記憶するステップとを、前記コンピュータに実行させることを特徴とするプログラムによっても達成される。
【0028】
DNAチップの基材として、種々のコーティングを施したガラスなどから作られた板、ナイロンやニトロセルロースなどを基材とする膜、中空糸、半導体、金属、有機物質など、表面に核酸を保持できる任意のものを利用できる。また、DNAチップ上には、ターゲットとして、cDNAの全部或いは一部の複製、ゲノムDNAの複製、合成DNA、合成RNAなどが配置される。
【0029】
また、チップを作製するには、核酸を用意しておき、これを、吸着、静電気による結合、共有結合により基材上に配置する手法や、基材上で核酸を合成する手法がある。シグナル強度を示す信号の検出には、半導体チップを利用した電気的な手法、蛍光や放射能を検出する手法などが含まれる。
【0030】
本発明は、上記何れの基材の上に何れのターゲットが形成されたDNAチップからのアレイデータにも適用することができる。また、何れの手法を用いて取得したアレイデータに対しても適用することができる。また、固定化されたDNAなどの遺伝子を固定化したマイクロビーズなど、他の媒体から得られたデータについても同様である。
【0031】
なお、本明細書において、DNAチップとは、基材上にRNAを形成したRNAチップ、マイクロアレイ、マクロアレイ、ドットブロット、リバースト・ノーザンなど、基材の上に核酸が配置された任意のものを含む。
【0032】
【発明の実施の形態】
以下、添付図面を参照して、本発明の実施の形態につき説明を加える。図1は、本発明の第1の実施の形態にかかる解析装置のハードウェア構成図である。図1に示すように、解析装置10は、CPU12と、マウスやキーボードなどの入力装置14と、CRTなどから構成される表示装置16と、RAM(Random Access Memory)18と、ROM(Read Only Memory)20と、CD−ROMやDVD−ROMなどの可搬記憶媒体23をアクセスする可搬記憶媒体ドライバ22と、ハードディスク装置24と、外部とのデータ授受を制御するインタフェース(I/F)26とを備えている。図1から理解できるように、本実施の形態にかかる解析装置10として、パーソナルコンピュータなどを利用することができる。
【0033】
I/F26は、ハイブリタイズされたDNAチップ上のスポットの発光量を計測して、計測された発光量に基づくデータを生成するリーダまたはスキャナ(図示せず)や通信回路に接続されている。通信回路は、さらに、外部ネットワーク(たとえば、インターネット)に接続されている。
本実施の形態において、可搬記憶媒体23には、リーダまたはスキャナからのデータを受け入れて、当該データに対して後述する必要なデータ変換処理を実行するプログラム、および、処理が施されたデータを解析するためのプログラムが記憶されている。したがって、可搬記憶媒体ドライバ22が、可搬記憶媒体23から、上記プログラムを読み出して、これをハードディスク装置24に記憶して、これを起動することにより、パーソナルコンピュータが、解析装置10として作動することが可能となる。或いは、インターネットなどの外部ネットワークを介して、上記プログラムをダウンロードしても良い。
【0034】
図2は、第1の実施の形態にかかる解析装置10の要部の機能ブロックダイヤグラムである。図2においては、遺伝子発現データの解析結果を導き出すための処理を実行する構成部分が示されている。図2に示すように、解析装置10は、データバッファ30と、データバッファ30に一時的に記憶されたデータ(原でーた)に基づき、DNAチップ上のスポットの発光量のうち、ノイズ成分に対応するバックグラウンド値の候補を算出するバックグラウンド候補算出部32と、原でーたに対して所定の前処理を施すとともに、バックグラウンド候補の値と原データとの間で演算を施す前処理部34と、演算を施されたデータに対して後述する変換を施すとともに、変換されたデータを標準化する変換/標準化処理部36と、標準化された値と理想値との間の差異を算出し、また、複数のバックグラウンド候補のそれぞれの差異を比較するとともに、比較結果に基づくグラフの補正値を算出する差異算出/比較処理部38と、ユーザに提示する画像を形成する画像形成処理部40と、得られた種々のデータを記憶する結果記憶部42とを有している。
【0035】
前処理部34は、原データに関して、DNAチップの列や位置(領域)による規則性があるような場合に、そのランダムネスを高めるための処理を施すデータ補正部44、および、必要に応じてデータ補正部44にて補正されたデータをソートして、ソートされたデータ群から所定のものを抽出するソート/抽出処理部46とを有している。
【0036】
データバッファ30は、RAM18、場合によってはハードディスク装置24によりその機能が実現される。データバッファには、リーダまたはスキャナから伝達された、各スポットの発光量を示すデータ、或いは、リーダまたはスキャナから伝達されハードディスク装置24の所定の領域に予め記憶されていた、各スポットの発光量を示すデータが一時的に記憶される。また、データバッファ30は、バックグランド候補算出部32にて算出されたバックグラウンド候補値や、前処理部34にて処理が施されたデータ、場合によっては、対数変換されたデータや演算に利用する標準値ないし理想値などを一時的に記憶することもできる。
【0037】
リーダまたはスキャナからは、DNAチップをCCDカメラなどで撮影し、スポットごとのシグナル強度を積算したものが、アレイデータとして出力される。或いは、リーダまたはスキャナにおいて、CCDカメラにて撮影した画像の画像データの値に基づき、バックグラウンド値が決定され、各画素のシグナル強度からバックグラウンド値が差し引かれ、既にバックグラウンド補正がなされた画像データから、スポットごとのシグナル強度が積算されて、アレイデータとして出力される場合もある。本実施の形態においては、未処理のアレイデータ、上記リーダやスキャナまたは付随するソフトウェアにより補正処理(バックグラウンド補正)が施されたデータの何れをも利用することができる。なお、本明細書において、リーダまたはスキャナから伝達される、上記スポットごとのシグナルを累算したデータを、アレイデータ、或いは、本実施の形態にかかるバックグラウンド処理を施すための基礎となるデータという意味で原データと称する。
【0038】
上記解析装置10におけるDNAチップに現れた発光量を示すデータに基づく、他のデータとの比較が可能な指標を算出する処理につき、以下に詳細に説明を加える。図3は、本実施の形態にかかる解析装置10による処理の概略を示すフローチャートである。図3に示すように、まず、解析装置10は、データバッファ30からあるDNAチップにかかる原データを取得し(ステップ301)、これに対して、前処理を施す(ステップ310参照)。本実施の形態において、前処理には、原データの状態に基づいて必要に応じて実行される任意的な初期的補正処理(ステップ302)、取得した原データのソート処理(ステップ303)、および、ソートされたデータ群において、所定順位に位置するデータ値の抽出(ステップ304)が含まれる。初期的補正処理については、後に詳述する。
【0039】
ソート処理により、値が昇順或いは降順で並べ替えられたデータに対して、前処理部34中のソート/抽出処理部46は、所定の間隔の順位に位置しているデータを抽出する。たとえば、大きい順から10番目、20番目、30番目、・・・というように所定間隔で、所定の順位の値を抽出しても良い。或いは、第1百分位数、第2百分位数、・・・というように、所定の分位数を抽出しても良い。ソートされたデータや抽出されたデータは、データバッファ30の所定の領域に記憶される。
【0040】
次いで、バックグラウンド値が算出され(ステップ305)、また、他のパラメータが算出される(ステップ306)。本実施の形態においては、DNAチップから得られるデータ(遺伝子発現による発光量を示すデータ)の対数値が正規分布するという知見、および、これをz−標準化することにより、異なる実験の結果や同種の実験結果を正確に比較することが可能となることに基づき、あるDNAチップのデータから、よりロバストに標準化されたデータ群を求めている。
【0041】
ここで、本実施の形態においては、
z=(log(x−γ)−μ)/δのうち、算出されたバックグラウンド値をγとし、また、後述する演算により、残りのパラメータμおよびδを算出している。まず、バックグラウンド値の算出について、より詳細に説明し、その後、残りのパラメータの算出について詳細に説明する。
【0042】
図4は、バックグラウンド値算出処理(ステップ305)をより詳細に示すフローチャートである。バックグラウンド候補算出部32は、オペレータの入力装置の操作等による入力にしたがって、バックグラウンド値の候補(バックグランド候補値)の範囲、および、当該範囲中の複数のバックグラウンド候補値を決定する。たとえば、ユーザがバックグラウンド候補値の始点(たとえば、「0(ゼロ)」)と、終点(たとえば、中央値や、第1四分位数)が指定されると、始点と終点との間で等間隔な(或いは等比的な)所定数の値が決定される。たとえば、「0」と中央値が指定された場合に、その間で等間隔に8つの値が取られ、始点および終点を含めて、10個のバックグラウンド候補値が決定される。本処理において、バックグラウンド候補値は、データバッファ30に記憶され、また、必要に応じて、値が読み出され、また、更新される。
【0043】
次いで、抽出された原データの値(原データ値)から、あるバックグラウンド候補値が減じられ(ステップ402)、変換/標準化処理部36により、バックグランド候補値が減じられた原データ値が対数変換される(ステップ403)。ここで取得された対数変換されたデータも、後の処理に利用するため、データバッファ30に記憶される。ステップ402および403は、選択された全て(たとえば、10個)のバックグランド候補値に関して実行される。
【0044】
次いで、あるバックグラウンド候補値に関する対数変換されたデータ値(変換値)と、以下の手法で算出され、かつ、データバッファ30に記憶されている、対応する標準値とが比較され、値の差異を表す指標が算出される(ステップ404)。ここで、本実施の形態においては、標準値を以下のように求めている。
分位数が幅を有しているため、統計的な中央値を補正するために、以下の数値を算出する。
m(i)=(i−0.3175)/(n+0.365)
ここに、n:データ個数、i:1からnまでの自然数
【0045】
次いで、求められたm(i)のそれぞれについて、正規分布関数の逆関数F−1(r)を施す。求められた値のそれぞれが、データ値に対応する標準値となる。
次いで、差異算出/比較処理部38により、各バックグラウンド候補値について、たとえば、差異(データ値と標準値との差)の絶対値の総和、或いは、差異の二乗の総和が算出される。ここで求められた値が、各バックグラウンド候補値の差異指標となる。無論、差異指標として、最小二乗法の「r」を利用しても良い。実際に、最小二乗法の「r」を利用した場合が、精度の高いバックグラウンド値を求めるという観点から望ましい。
【0046】
次いで、差異算出/比較処理部38は、たとえば、バックグラウンド候補値を横軸、差異指標を縦軸としたグラフを生成し、これを表示装置16の画面上に表示する(ステップ405)。
【0047】
オペレータは、表示装置16の画面上に表示されたグラフを参照して、望ましいバックグラウンド候補値の範囲、或いは、バックグラウンド値を選択する(ステップ406)。選択した値が、バックグラウンド値として十分に満足なものと考えられれば(ステップ407でイエス(Yes))、処理は終了する。その一方、十分に満足なものではない場合には、新たに選択された、より狭められたバックグラウンド候補値の範囲から、所定数の新たなバックグラウンド候補値が決定され(ステップ408)、ステップ402〜407の処理が繰り返される。新たなバックグラウンド候補値も、バックグラウンド候補値の範囲の始点と終点との間を等間隔に分割したような値であっても良いし、等比的に分割したような値であっても良い。最終的に得られたバックグラウンド値は、結果記憶部42に記憶される。
【0048】
たとえば、図12に示すように、バックグラウンド候補の値の範囲が横軸、差異の指標が縦軸であるようなグラフが生成される。図12の例では、バックグランド候補値として、1800から2700までの100きざみの値(1800、1900、2000、・・・、2700)を採用している。観察者は、これを参照して、バックグラウンド候補の範囲を絞り込み、再度、新たな範囲でのバックグラウンド候補の値に関する差異の指標を取得することができる(図13参照)。図13の例では、バックグラウンド値として、「2363」とするのが、この時点で、もっとも適切なものであると理解することができる。
【0049】
次に、残りのパラメータ算出のための処理につき説明を加える。一般に、対数正規分布においては、対数をとったデータのμ(中心的傾向の特性値)として平均値、δ(変動の特性値)として標準偏差が利用される。しかしながら、DNAチップから得られるデータにおいては、強いシグナル(比較的データ値の大きなもの)は正確に、弱いシグナル(比較的データ値の小さなもの)は相対的に大きなノイズを含む。ノイズに隠されて負値となったデータは、対数値を求めることができないため、これら弱いシグナルの多くは切り捨てられることになる。このような場合に、上記算出方法を利用することができない。
【0050】
通常、中心的傾向の特性値として平均値をもって求められる。ところが、平均はいわゆるロバストな手法ではなく、特に、弱いシグナルが選択的に抜け落ちる状況では高めに算出される。こうした場合には、中央値がより有効であることは知られている。
その一方、変動の特性値は標準偏差をもって表される。しかしながら、標準偏差もロバストな手法ではなく、上述したような、弱いシグナルが選択的に抜け落ちる状況では小さめに算出される。その一方、ロバストな手法として、変動の特性値を、四分位レンジから求めるiqrが知られている(たとえば、http://infoshako.sk.tsukuba.ac.jp/InfoRes/jdoc/MATLAB5/jhelp/toolbox/stats/iqr.html参照)。
【0051】
しかしながら、中央値はデータ群のうちの一点、iqrもデータ群のうちの二点から求めるもので、その精度に難点がある。特に、少ないスポット数から取得したデータや、補正のためのデータ数に限りがある場合には、その問題が深刻となる。そこで、本実施の形態においては、以下の手法により、比較的データ数に限りのある場合でも、精度の高いパラメータ算出法を採用している。
【0052】
図5は、本実施の形態にかかるパラメータ算出処理を示すフローチャートである。図5に示すように、まず、理想値およびバックグラウンド値が減じられた実測値が取得される(ステップ501)。理想値は、先のステップ404で求めた標準値と同様である。次いで、理想値(理論値)を横軸にとり、実測値に基づくデータ値を縦軸にとったグラフが作成され、表示装置の画面上に表示される(ステップ502)。このグラフにおいて、実測値が正確に正規対数分布していれば、このグラフは、y=xにほぼ一致する。しかしながら、実際には図14に示すように、実測値をプロットしたことにより得られたグラフは、1以外の傾き(=a:図14ではa≒0.56)およびy切片(=b;図14ではb≒2.80)をもち、かつ、xの値が比較的小くなる部分では、直線性を失う。
【0053】
しかしながら、図14のグラフにおいても、ほぼ直線と認められる部分が存在する(たとえば、xが正となる部分)。そこで、本実施の形態においては、ユーザがグラフを参照して、入力装置を操作して、直線性を持っていると判断する範囲を指定すると(ステップ503)、指定された範囲の実測値を用いて、当該実測値と理論値との間を表す1次式が、たとえば、最小二乗法により求められる。求められた1次式「ax+b」における傾き「a」が、変動の特性値「σ」に対応し、y切片「b」が、中心的傾向の特性値「μ」に対応する(ステップ504)。
【0054】
たとえば、解析装置10の画像形成処理部40が、求められた「a」および「b」を用いて、理想値を横軸にとり、実測値z=(log(x−γ)−μ)/δを縦軸にとったグラフを生成して、これを表示装置38の画面上に表示しても良い。図15は、図14におけるプロットされた値について、μを減じた後に、σで除した値を再度プロットしたグラフの例である。ユーザは、表示されたグラフを参照して、満足のいくものでなければ(ステップ505でノー(No))、もとのグラフ中の範囲指定に戻り、ステップ503以降の処理が再度実行される。
【0055】
その一方、満足のいくものであれば(ステップ505でイエス(Yes))、先に求められたバックグラウンド値が「γ」、切片が「μ」、傾きが「σ」として、DNAチップを特定する情報と関連付けられて、結果記憶部42に記憶される。このようにして取得されたパラメータを用いて、DNAチップから得られたデータ値xのそれぞれについて、
z=(log(x−γ)−μ)/σ
という式を用いて、標準化することが可能となる。
【0056】
このように、本実施の形態によれば、適切なバックグラウンド値を算出して、ノイズの影響を排除し、かつ、標準化のための中心的傾向の特性値および変動の特性値を、実測値をプロットしたグラフの直線部分から求める。これにより、よりロバストな標準化を実現することが可能となる。
【0057】
次に、本実施の形態にかかる初期的補正処理(ステップ302)につき、より詳細に説明を加える。本実施の形態においては、DNAチップからのデータの特性によって、2種類の補正を施すことができるようになっている。
DNAチップは、DNAをガラスなどの表面に打刻するなどの方法で形成されている。この際に、打刻機(アレイヤないしスポッタ)の精度の問題から、ある規則を持ってデータ値が「強め」或いは「弱め」に出ることがあった。
このような傾向は、アレイヤのピンごと、或いは、スポットされたグリッドの横列ごと、或いは、DNA試料を保持するマイクロタイタープレートのグリッド列・行ごとに出ることがあった。
【0058】
たとえば、グリッドの横一列ごとにデータの強弱に特徴がある場合に、横一列の単位でデータを標準化することが考えられる。しかしながら、この場合に、一つのデータの集合を構成するデータ数nが小さくなる(たとえば、32個)。このように少ない数のデータからバックグラウンド値を予測し、また、中心的傾向の特性値および変動の特性値を算出すると、その精度は著しく低くなる。ランダムな数の平均値のもつ標準偏差は、nの平方根の逆数に比例することが知られている。これは少数のデータから中心的傾向の特性値を正確に予見することが困難であることを示している。
【0059】
そこで、初期的補正処理においては、DNAチップの横列や縦行の移動平均を算出し、列や行ごとに特性を持っていれば、当該列ごとに値を補正する(第1の前処理:符号600参照)。また、それ以外の場合であっても、スポットごとの値の変遷が周期性を持っていれば、周期性を考慮したデータ補正を実行している(第2の補正処理:図7参照)。
【0060】
以下、横列について説明を加えるが、縦行においても同様の処理が実行され得ることは言うまでもない。まず、DNAチップをスポッタが作製する際に、実際にスポットした順にデータを並べておき、そのデータ群のうち、DNAチップ上のある列、および、その前後所定数の列(たとえば、前後2列)に関するデータ値の平均値が算出される(ステップ601、602)。平均値の算出は列の末尾まで繰り返され(ステップ603、604参照)、その後、列ごとの平均値に特徴があるか否かが判断される(ステップ605)。図16は、あるDNAチップから取得したデータの対数値について、スポットごとの対数値値およびその移動平均値を示すグラフである。図16に示す例では、DNAチップは、横一列で32個のスポットを有している。前後所定数の列のデータ値をもって平均値をとることにより、もとのデータ値がランダムであれば、上記平均値はほぼ一致する。図16において、実線にて示すスポットごとの対数値のグラフでは、値の傾向を見ることはできないが、ある列の32個のスポットに対応するデータの対数値の平均値は、破線にて示すように、大きくばらついている。このような場合にはDNAチップの列ごとに特徴があると判断され(ステップ605でイエス( Yes))、第1の前処理がデータ値に施される。
【0061】
なお、ステップ605において、移動平均値のばらつきが有意であるか否かにつき検定を行ってもよい。
第1の前処理においては、DNAチップの列のスポットに対応するデータ値の中央値が求められ(ステップ607)、当該列のスポットに対応するデータ値が、それぞれ中央値で除算される(ステップ607)。これが各列について実行される(ステップ609、610参照)。
【0062】
次に、第2の前処理につき説明を加える。ここでは、各スポットに対応するデータ値が振動しているか否かを考慮した補正を施す。まず、スポットの順に並べられたデータ値が取得され(ステップ701)、データ群に対してFFT(Fast Fourier Transfer)処理が実行される(ステップ702)。FFTの結果、周期性のある成分(信号成分)があれば、各データ値から、周期を考慮して、その位相に対応する成分の値が減じられる(ステップ703、704)。オペレータは、満足のいく結果が得られるまで、ステップ703、704の処理を繰り返させても良い。第1の補正処理或いは第2の補正処理が施されたデータは、データバッファ30に記憶される。このデータに対して、データソート(図3のステップ303参照)以下の処理が施される。
このように、本実施の形態にかかる初期的補正処理によれば、スポット作製の際の規則性を排除することが可能となる。
【0063】
次に、本発明の第2の実施の形態につき説明を加える。第2の実施の形態においては、第2の実施の形態においては、周期性の排除をしつつ、適切なパラメータを算出している。図8および図9は、第2の実施の形態にかかる処理の概略を示すフローチャートである。第2の実施の形態においても、図6を参照して説明した初期的補正と同様に、あらかじめ、DNAチップをスポッタが作製する際に、実際にスポットした順にデータを並べておく。また、横列に限定されず、縦行についても同様の処理を実行し得ることも、図6の例と同様である。
【0064】
この処理においては、所定の列のデータが取得され(ステップ801)、当該列のデータ値から、その列の中心的傾向の特性値が算出される(ステップ802)。ここでは、中央値を用いても良いし、或いは、上限および下限を除去した残りのデータ値の対数値の平均値から求めても良い。次いで、当該列のバックグラウンド値が設定される(ステップ803)。設定されるバックグラウンド値は、ステップ802にて求められた中心的傾向の特性値に比例すると考える。つまり、バックグラウンド値は、ある列の中心的傾向の特性値Mi(iは、列の番号)に対して、αMiと考える。
【0065】
次いで、バックグラウンド値が減じられたデータ値が、それぞれ対数化される(ステップ804、805)。なお、データ値が、バックグランド値以下である場合には、当該値を対数値に変換することができない。このようなデータについては、測定限界以下として、表示装置の画面上に表示するのが望ましい。その後、対数値から、中央的傾向の特性値Mi或いは中央的傾向の特性値からバックグラウンド値が引いたものを減算される(ステップ806)。さらに、減算された値に関して、変動の特性値(第2の特性値)が設定され、減算された値が第2の特性値で除算される(ステップ807)。なお、変動の特性値は、たとえば、対応する標準値をx軸に、除算値をソートしたものをy軸にとったグラフを作成し、プロットされた点のうち、ある範囲(たとえば、上位60%から90%の範囲)がy=xに最も近似するような値を、変動の特性値(第2の特性値)σとするのが望ましい。
【0066】
つまり、ステップ801からステップ808により、ある列iに関して、
(log(X−αMi)−Mi)/σ
が算出されることになる。このような処理が、それぞれの列について実行される(ステップ809、810)。また、これらのデータ値は、データバッファ30に一時的に記憶される。
【0067】
その後、一時的に記憶されたデータ値がソートされ、対応する標準値と比較される(ステップ901、902)。ここでも、対応する標準値をx軸、ソートされたデータ値をy軸としたグラフを生成し、プロットされた点がy=xに近似しているか否かを判断し、十分であれば(ステップ903でイエス(Yes))、それぞれの列のバックグラウンド値(αMi)、中心的傾向の特性値(Mi)および変動の特性値(σ)が、結果記憶部42に記憶される(ステップ904)。なお、十分か否かは、対応する標準値とデータ値の差異の二乗(二乗誤差)の総和や、差異の絶対値の総和から判断しても良い。
【0068】
差異が所定の範囲を超えている場合(つまり、プロットされた点を結ぶ線が、y=xから所定以上逸脱している場合)には(ステップ903でノー(No))には、再度、比例定数αを変更し、また、それに伴って、変動の特性値σを変更して、ステップ801からの処理を実行する。この実施態様によれば、DNAチップの第i列に関するバックグラウンド値を、αMiとすること、および、中心的傾向の特性値をMiとすることで、列ごとに特異な値となるような、チップの製造ムラを解消することが可能となる。
【0069】
次に、本発明の第3の実施の形態につき説明を加える。第1の実施の形態においては、実際にDNAチップから得られたデータ値(実測値)ベースで、バックグラウンド値(γ)、中心的傾向の特性値(μ)、および、変動の特性値(σ)を算出している。しかしながら、中央値へのノイズが無視できない場合も考えられる。つまり、たとえば、ウェット実験の不良などの原因で、ハイブリダイゼーション全体のノイズレベルが高くなることがある。ノイズレベルが、中央値に迫る程度のものになると、第1の実施の形態にかかるロバストな手法も適用することが困難となる。ここで、ノイズとは、個々のデータに含まれる偶然に起因する成分をいい、測定誤差やスポット量の誤差などが成因と考えられる。ノイズとは、シグナルに対応する概念であり、DNAチップから得られる生のデータは、ノイズとシグナルとの和と考えることができる。また、バックグラウンドとは、個々のデータのシグナルに含まれる、サンプル中のRNAに由来しない部分と定義できる。したがって、シグナルは、RNA由来部分とバックグラウンドとの和と捉えることができる。
【0070】
上述したように、ノイズレベルが高い場合であっても、上位のデータは、対数正規分布の性質から、ノイズレベルよりも十分に大きいことになる。これらデータは、適切な、本来の中心的傾向の特性値を見つけることができれば解析可能になるはずである。バックグラウンドを取得できれば、トライアンドインプルーブの手法で、上記中心的傾向の特性値を見出すことも可能である。しかしながら、バックグラウンドと、中心的傾向の特性値との関係は不明である。本発明にて導入した3つのパラメータを用いた対数正規分布のうち、2つのパラメータを上記手法で見出すことは、計算量や、一義的に求まらない解の選択の問題のため、困難である。
【0071】
そこで、チップとサンプルとの組み合わせから、ノイズがなければ対数正規分布となることが期待できる場合には、以下の手法により、値を得ることが可能となる。図10は、第3の実施の形態にかかる処理を示すフローチャートである。第3の実施の形態においては、図10に示すように、データバッファ30から、DNAチップにかかる原データが取得され(ステップ1001)、当該データがソート処理により、値が昇順或いは降順となるように並べ替えられる(ステップ1002)。ソートされたデータも、データバッファ30に記憶される。次いで、ソートされたデータ値のそれぞれに、理想的な対数正規分布の値Zi(i=1,2,・・・)が割り当てられる(ステップ1003)。この理想値Ziは、第1の実施の形態における標準値の算出(ステップ403参照)とほぼ同様の手法により求めることができる。再度、簡単に説明すると、まず、以下に示すm(i)が算出される。
m(i)=(i−0.3175)/(n+0.365)
ここに、n:データ個数、i:1からnまでの自然数
【0072】
次いで、求められたm(i)のそれぞれについて、正規分布関数の逆関数F−1(r)を施す。求められた値のそれぞれが、データ値に対応するZiとなる。この標準値も、後の処理に利用されるため、データバッファ30に記憶される。このようにして、理想値Ziが求められると、各Ziに予想される変動の特性値(s)が乗じられる(ステップ1004)。なお、変動の特性値は、実験ごとにばらつかないと考えることもできるため、ある程度予想することもできる。
【0073】
次いで、乗算により得られた値の10のべき乗(つまり、10(s*Zi))をx軸、実測値xiをy軸としたグラフが生成される(ステップ1005)。このグラフにおいて、直線部分が信頼できる領域(信頼域)であると考えることができる。そこで、たとえば、ユーザが表示されたグラフを参照して、直線部分を選択(その範囲を指定)すると(ステップ1006)、グラフの切片および傾きが算出される(ステップ1007)。得られた傾きを対数化したものが、中心的傾向の特性値(u)として、また、切片がバックグラウンド値(g)として記憶される。
【0074】
このようにして得られた中心的傾向の特性値およびバックグラウンドの有効性について以下に簡単に説明を加える。本発明にかかる3パラメータによる標準化(Z標準化)では、Ziは以下の式で表すことができる。
Zi={log(xi−g)−u}/s
Ziは理想値、xiは対応する実測値、g、u、sは、それぞれ、バックグラウンド値、中心的傾向の特性値、変動の特性値である。
上記式をxiについて解くと、
xi=(10u)*(10(s*Zi))+g
となる。(10(s*Zi))をx軸に、xiをy軸として値をプロットすれば、一定の範囲が直線状となった線が得られる。この直線において、10uが傾きであるため、傾きの対数をとれば、中心的傾向の特性値uを得ることができる。上述したように取得されたバックグラウンド値g、中心的傾向の特性値uおよび変動の特性値sは、それぞれ、結果記憶部42に記憶される(ステップ1008)。
【0075】
なお、第3の実施の形態においては、先に述べたように、ノイズレベルが高いため、ロバストな手法を適用した解析が困難となっている状態のデータに適用している。そこで、利用可能なデータ値の範囲(下限値)を以下のように算出している。ここでは、ステップ1005にて得た(10(s*Zi))をx軸、xiをy軸として値をプロットしたグラフにおいて、直線性が維持される範囲(ないし下限値)を見出せばよい(ステップ1009)。このようにして決定された下限値も、結果記憶部42に記憶される。図17は、あるDNA由来のデータに関して、(10(s*Zi))をx軸、xiをy軸として値をプロットしたグラフの例を示す図である。図17においては、12本のピンで打たれたデータについて、12個のデータ値のまとまりが、1つのグラフを示す。ここでは、(10(s*Zi))として、約3.5のところで、直線性が失われている。この例では、s≒0.78であったため、Ziの下限値が、約0.7であることがわかった。
【0076】
次いで、データ値に割り当てられた理想値が範囲内(つまり、下限以上であること)であるものを取り出す。範囲内にないものについては、測定限界以下として、表示装置の画面上に表示することが望ましい。その一方、取り出された理想値は、標準化されたデータ値とされる(ステップ1010)。
【0077】
第3の実施の形態によれば、ノイズレベルが高く、第1の実施の形態にかかる手法を適用できない場合であっても、対数正規分布をとるという前提のもと、データを標準化することが可能となる。また、データ値として利用可能な下限を特定することも可能となる。
本発明は、以上の実施の形態に限定されることなく、特許請求の範囲に記載された発明の範囲内で、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
【0078】
たとえば、初期的補正処理は、上述したものに限定されない。図11は、初期的補正処理の他の例を示すフローチャートである。図11に示す例においても、列或いは行ごとのデータの傾向を排除するために利用される。ここでは、列ごとに、その中心的傾向の特性値に基づいてバックグラウンド値が決定され(ステップ1101〜ステップ1103参照)、データ値から設定されたバックグラウンド値を減じた減算値が対数化される(ステップ1104)。次いで、対数値から、中心的傾向の特性値が減算される(ステップ1105)。なお、ここでも、中心的傾向の特性値として、列ごとのデータ値の中央値を用いても良いし、或いは、上限および下限を除去した残りのデータ値の平均値を用いても良い。また、バックグラウンド値として、前記特性値に比例定数を乗じたものを利用するのが望ましい。このような処理を、列の末尾まで実行することにより(ステップ1106およびステップ1107参照)、チップの製造ムラが解決されたと考えることが可能となる。
【0079】
また、前記実施の形態においては、DNAチップから取得したデータに対して、処理を施し、比較など解析可能なデータを得ているが、DNAチップに限定されるものではなく、いわゆるタンパクチップにも適用可能である。つまり、タンパクチップのサンプル中の粗たんぱく質をラベルして抗体チップにかけることで得られたデータに対しても、本発明を適用することが可能となる。
さらに、本発明は、DNAチップやタンパクチップに限定されるものではなく、マイクロビーズにDNAなど遺伝子を固定したものから取得されるデータなど、任意の手法で取得した遺伝子発現量を表すデータに対しても、同様に適用することができる。
【0080】
なお、本発明にかかるデータ処理方法を施すデータを提供するDNAチップとして、cDNAのクローンのスポット位置をそのクローンの出自や発現の強さと切り離してランダムであるようなものを利用する望ましい。また、単一の組織由来のクローンをスポットする場合、また、限られた種類のクローンをスポットする場合には、データの中心的傾向の特性値(や変動の特性値)を測定するためのコントロールとして、ランダムに選択したクローンを複数種類スポットしておくのが望ましい。
【0081】
【発明の効果】
本発明によれば、DNAチップから得られるデータに、より精度のよい解析を可能とするためのデータ処理方法を提供することが可能となる。
【図面の簡単な説明】
【図1】図1は、本発明の第1の実施の形態にかかる解析装置のハードウェア構成図である。
【図2】図2は、第1の実施の形態にかかる解析装置の要部の機能ブロックダイヤグラムである。
【図3】図3は、本実施の形態にかかる解析装置による処理の概略を示すフローチャートである。
【図4】図4は、第1の実施の形態にかかるバックグラウンド値算出処理をより詳細に示すフローチャートである。
【図5】図5は、本実施の形態にかかるパラメータ算出処理を示すフローチャートである。
【図6】図6は、本実施の形態にかかる初期的補正処理の一例を示すフローチャートである。
【図7】図7は、本実施の形態にかかる初期的補正処理の一例を示すフローチャートである。
【図8】図8は、第2の実施の形態にかかる処理の概略を示すフローチャートである。
【図9】図9は、第2の実施の形態にかかる処理の概略を示すフローチャートである。
【図10】図10は、第3の実施の形態にかかる解析装置により実行される処理を概略的に示すフローチャートである。
【図11】図11は、本発明にかかる初期的補正処理の他の例を示すフローチャートである。
【図12】図12は、バックグランド候補値ごとの差異の指標の例を示すグラフである。
【図13】図13は、バックグランド候補値ごとの差異の指標の例を示すグラフである。
【図14】図14は、理想値(理論値)を横軸に、実測値に基づくデータ値を縦軸にとり、値をプロットしたグラフの例である。
チャートである。
【図15】図15は、理想値(理論値)を横軸に、実測値に基づくデータ値を縦軸にとり、値をプロットしたグラフの他の例である。
【図16】図16は、あるDNAチップから取得したデータのスポットごとのデータ値および移動平均値を示すグラフである。
【図17】図17は、あるDNA由来のデータに関して、(10(s*Zi))をx軸、xiをy軸として値をプロットしたグラフの例を示す図である。
【符号の説明】
10 解析装置
30 データバッファ
32 バックグラウンド候補算出部
34 前処理部
36 変換/標準化処理部
38 差異算出/比較処理部
40 画像形成処理部
42 結果記憶部
44 データ修正部
46 ソート/抽出処理部[0001]
[Industrial technical field]
The present invention relates to a technique for statistically analyzing gene expression data.
[0002]
[Prior art]
In order to acquire gene expression data, it is known to use a DNA chip. A DNA chip is obtained by fixing a plurality of genes as different spots on a substrate such as a slide glass. For example, thousands to tens of thousands of genes are fixed as targets in the microarray. As a target, single-stranded DNA or mRNA is used.
[0003]
Various substrates capable of holding nucleic acids, such as a plate made of glass with various coatings, a film made of nylon or nitrocellulose, a hollow fiber, a semiconductor material, a metal material, an organic substance, or the like can be used as a DNA chip substrate. In addition, as a target, a product obtained by duplicating all or part of cDNA, a product obtained by duplicating a part of genomic DNA, synthetic DNA and / or synthetic RNA can be used. In order to fix the target to the base material, a method of synthesizing oligo DNA on a glass plate by a photolithographic method and a method of attaching the target to the base material using a spotter or the like are known.
[0004]
For example, DNA or RNA (analysis target) with a fluorescent label is hybridized to such a DNA chip. Analytes that are complementary to the target form a duplex. Since the analysis target is fluorescently labeled, image data obtained by operating the DNA chip with a fluorescent scanner can be obtained after hybridization. Based on the image data acquired in this way, it is possible to know at which spot a double strand is formed. More specifically, the obtained image displays spots derived from each DNA as a result of hybridization. Therefore, by integrating the signal intensity of a predetermined region including the spot position, array data including values indicating the signal intensity of each spot can be obtained.
[0005]
For example, array data showing a large number of gene expressions can be obtained by a single experimental operation using a microarray in which thousands to tens of thousands of targets are fixed. As a result, when measuring the increase / decrease in the data of a single gene expression, the average of the data indicating the gene expression (value indicating the signal intensity) is calculated as the target, and the data is normalized based on this. Is common. More specifically, the data is standardized before comparing the expression data from experiment to experiment. For example, “Normalization strategies for cDNA microarrays (Nucleic Acids Research) by John Schuchhardt et al.
(2000) Vol. No. 28 10) "discloses an example of the standardization.
[0006]
[Problems to be solved by the invention]
The probability distribution of the acquired data is nonparametric. However, for example, “Chatting the dream: plant EST microarrays (Current Opinion in Plant” by Todd Richmond et al.
Biology (2000) Vol. 3 pp 108-116) ", in order to standardize the acquired data, the Z-standard, t-standard, or the integrated value of the signal intensity of each spot is the arithmetic average of the whole numbers. The technique of removing is used.
[0007]
Since these are not non-parametric methods, there is a problem that such standardization significantly impairs data accuracy.
Moreover, the array data based on the image acquired by the fluorescent scanner always includes a background component. This is because the background signal intensity existing in the entire image data and the measurement range and the actual spot size and shape do not always match. Therefore, it is important for accurate analysis to subtract the background component from the numerical value of the acquired image data and acquire data consisting of true signal values. The same applies to array data obtained by other methods, for example, detection of electrical signals and detection of radiation.
[0008]
Conventionally, the background component was estimated by obtaining the average value or median value per pixel based on the numerical value representing the signal intensity of a specific spot or non-spotted part, and multiplying this value by the number of pixels in the measurement area. .
Alternatively, as suggested by Michael Eisen in “ScanAlyze User Manual (http://rana.lbl.gov/EisenSoftware.htm)”, for each spot, the background component is calculated from the value outside the measurement range. An estimation method is also known.
However, in the conventional correction method, the estimated value of the background changes due to differences in spots used for calculating the background value and areas in the image. That is, there is a possibility that various background values may be estimated from the above differences, and it is impossible to determine which one is appropriate. In particular, the difference in the background value may be large between the area where DNA is spotted and the area where DNA is not.
[0009]
Therefore, the present inventor has found that the logarithmic value of data obtained from a DNA chip (data indicating the amount of luminescence by gene expression) has a three-parameter normal distribution, logarithmically transforms the data, and further normalizes (for example, z -Proposed standardization. By the above method, it became possible to accurately compare the results of different experiments and the same kind of experiments.
Another object of the present invention is to provide a data processing method capable of performing more accurate analysis based on gene expression data obtained from a DNA chip or the like.
[0010]
[Means for Solving the Problems]
An object of the present invention is an array composed of values indicating the signal intensity of each spot arranged on a chip by array data obtained based on the expression level of a gene, for example, hybridization of a DNA chip or a protein chip. A method of processing gene expression data for processing data to obtain analyzable data, acquiring the array data, sorting data values of the acquired array data, and from the sorted data values Extracting a predetermined number of data values at predetermined intervals and temporarily storing them in the storage means; selecting a plurality of background candidates and temporarily storing them in the storage means; From each of the extracted data values, each background candidate value is subtracted to obtain a subtraction value, and each subtraction value is logarithmically transformed. Obtaining a logarithmic value, temporarily storing the logarithmic value in a storage means, calculating a standard value of a normal distribution corresponding to each of the logarithmic values, and for each background candidate, A step of calculating an index indicating a difference between a numerical value and a standard value, a step of narrowing a range of values of the background candidates based on the index, acquisition of the subtraction value and logarithmic value, and an index indicating the difference The step of determining the background value by repeating the calculation and the selection of the background candidate value and the logarithm value temporarily stored in relation to the determined background value are respectively standardized and standardized. The method is achieved by a method of processing gene expression data, comprising the step of storing each value in a storage means.
[0011]
According to the present invention, based on the difference between the logarithmic value of the sorted value and the corresponding standard value, the background value that minimizes the difference is determined, so a more appropriate background value is determined. As a result, the data to be analyzed including comparison with other data can be made more appropriate.
[0012]
In addition, as the index of the difference, a sum of absolute values of differences, a sum of squares of differences (square error), a least-square method “r”, and the like can be used. The predetermined interval when a predetermined number of data values are extracted from the sorted data values at a predetermined interval includes that the interval is “0”, that is, all data is extracted. The standard value corresponding to the i-th data value of the extracted n pieces of data may be the i-th n quantile of the normal distribution.
[0013]
Another object of the present invention is a gene expression data processing method for processing the array data obtained based on the gene expression level to obtain analyzable data, and acquiring and acquiring the array data Sorting the array array data values, extracting a predetermined number of data values from the sorted data values at predetermined intervals, and temporarily storing them in the storage means; and determining a background value γ A step of storing this in the storage means, a step of logarithmically subtracting the data value obtained by subtracting the background value, obtaining a logarithmic value, and temporarily storing it in the storage means; Referring to the logarithmic value, the characteristic value μ of the central tendency and the characteristic value σ of fluctuation are calculated and stored in the storage means, and z = (lo as the standard value z for each data value x (X−γ) −μ) / σ is calculated, and the calculated standard value z is stored in the storage means, respectively. .
[0014]
According to the present invention, using the calculated parameters γ, μ, and σ, the data value x of the array data is normalized to z = (log (x−γ) −μ) / σ, respectively, for further analysis. A suitable product can be obtained.
In a preferred implementation, the step of determining the background value γ selects a plurality of background candidates and temporarily stores them in the storage means, and from each of the extracted data values, Subtracting each background candidate value to obtain a subtraction value, obtaining a logarithmic value obtained by logarithmically converting each subtraction value, and temporarily storing the logarithmic value in a storage means; A step of calculating a standard value of a normal distribution corresponding to each, a step of calculating an index indicating a difference between each logarithmic value and a standard value for each background candidate, and the background based on the index Narrowing the range of ground candidate values, obtaining the subtraction value and logarithmic value, calculating an index indicating the difference, and narrowing the background candidate value By repeating, it is configured to determine the background value.
[0015]
In a more preferred embodiment, the step of calculating the characteristic value μ of the central tendency and the characteristic value σ of variation includes calculating a standard value corresponding to each of the logarithmic values, and the logarithmic value and the standard value. Comparing and calculating the range in which the ratio of both is substantially constant, and calculating the slope and y intercept of the straight line formed in the range when the standard value is considered as the x axis and the logarithmic value as the y axis And determining the calculated y-intercept as the characteristic value μ of the central tendency and determining the slope as the characteristic value σ of the fluctuation. Here, using a so-called normal probability plot (NPP), a region in which linearity is ensured is found, and the slope and intercept of the straight line derived from the region are determined as σ and μ, respectively. As a result, more robust standardization can be realized.
[0016]
In another preferred embodiment, the step of rearranging the data values in the order of the spots arranged on the chip and temporarily storing them in the storage means in that order, and the spots are arranged on the chip With respect to a column or row, a step of calculating an index indicating a tendency of a data value for the column or row, and if there is a feature for each column or row based on the index, the data for each column or each row A step of calculating a median value, and a step of dividing the data value by a corresponding median value to obtain a division value and temporarily storing it in a storage means. The stored division value is set as a calculation target as a value corresponding to the data value of the array data.
[0017]
According to this embodiment, when there is a problem with the accuracy of the array chip, the column or row becomes unique due to the accuracy of the stamping machine or the origin of the clone placed in the spot of the chip itself. Even in such a case, it is possible to eliminate the specificity and make it possible to perform robust standardization.
The step of calculating the index indicating the tendency may include a step of calculating a moving average related to a specific column or row.
[0018]
In another preferred embodiment, the data values are further rearranged in the order of the spots arranged on the chip and temporarily stored in the storage means in that order, and the data values in the order A step of finding the periodicity of the data, and a step of subtracting a characteristic value of the central tendency of the cycle from each data value when there is the periodicity, and temporarily storing it in the storage means The temporarily stored subtraction value is set as a calculation target as a value corresponding to the data value of the array data. Here, when the value of the array data has a certain periodicity, more appropriate data can be obtained as an analysis target by eliminating elements having periodicity.
[0019]
In another embodiment, the data value is rearranged in the order of the spots arranged on the chip, and the column or row where the spot is arranged on the chip is further arranged for each column or row. , Calculating a characteristic value of the central tendency of the data value, and setting a background value relating to the spot belonging to the column or row based on the characteristic value of the central tendency, and from each of the data values relating to the spot, Subtracting a background value, calculating a subtraction value, logarithmizing the subtraction value to obtain a logarithmic value, and subtracting a characteristic value of a central tendency of the logarithmic value for the column or row And temporarily storing the subtraction value in a storage means, and the subtraction value stored temporarily is stored in the array data. As a value corresponding to the data values, the calculation target.
[0020]
Furthermore, an object of the present invention is a gene expression data processing method for processing array data obtained on the basis of gene expression levels to obtain analyzable data, wherein a row in which spots are arranged in the chip Alternatively, with respect to a row, for each column or row, calculating a characteristic value of a central tendency of a data value, and based on the characteristic value of the central tendency, background value candidates relating to spots belonging to the column or row are calculated. Setting, subtracting a background candidate value from each of the data values related to the spot, calculating a subtraction value, logarithmizing each of the subtraction values to obtain a logarithmic value, and the column or row Calculating a characteristic value of a central tendency of the logarithmic value and subtracting from each of the logarithmic values to calculate a second subtraction value; Dividing the data value by the characteristic value of the fluctuation calculated based on the second subtraction value for a column or row, obtaining a division value, and temporarily storing it in a storage means; Comparing the division value with a corresponding standard value and determining a background candidate value γ as a background value γ such that an indicator of the difference between them is minimized; It is also achieved by a method of processing gene expression data, characterized by comprising a step of storing the characteristic value μ of the central tendency and the characteristic value σ of the fluctuation associated with the background value γ in the storage means.
[0021]
According to the present invention, the background value is determined based on the characteristic value of the central tendency for each column or row. For example, the background value for each column can be considered as a proportional constant multiple of the characteristic value of the central tendency of the column. This makes it possible to eliminate column and row specificity.
[0022]
Another object of the present invention is a gene expression data processing method for processing the array data obtained based on the gene expression level to obtain analyzable data, and acquiring and acquiring the array data Sorting the array array data values, temporarily storing the sorted data in storage means, calculating a standard value of a normal distribution corresponding to the sorted data values, and For the data value, the characteristic value s of the variation is set and stored in the storage means, and the standard value is multiplied by each to obtain a multiplication value, and the data value and the multiplication value are compared. And calculating the slope and y intercept of the straight line formed in the range when the step of obtaining a range where the ratio of both is constant and the multiplication value is considered as the x-axis and the logarithmic value as the y-axis A step of determining the natural logarithm of the slope as the characteristic value u of the central tendency and the intercept as the background value g and storing them in a storage means. It is also achieved by the method.
[0023]
For example, if the noise level of the entire hybridization is high due to a wet experiment failure, etc., and that level cannot be ignored, a lognormal distribution is expected from the combination of chip and sample data if there is no noise. If possible, standardization using the above technique can be applied.
Here, xi = (10 u ) * (10 (S * Zi) ) + G
(Where Zi is the i-th standard value), xi is solved, this is temporarily stored in the storage means, and a lower limit value of a value that can be used as the xi is obtained, It is desirable to include a step of storing this in the storage means. Thereby, it is possible to know the range of data that can be used as an analysis target.
[0024]
Another object of the present invention is a computer-readable program for operating a computer so as to obtain data that can be analyzed by processing array data obtained based on the expression level of a gene. Acquiring data, sorting the data values of the acquired array data, extracting a predetermined number of data values at predetermined intervals from the sorted data values, and temporarily storing them in a storage means; Selecting a plurality of background candidates, temporarily storing them in the storage means, and subtracting the value of each background candidate from each of the extracted data values to obtain a subtraction value; And obtaining a logarithmic value obtained by logarithmically converting each subtraction value and temporarily storing the logarithmic value in a storage unit, and corresponding to each of the logarithmic values. A step of calculating a standard value of the distribution; a step of calculating an index indicating a difference between each logarithmic value and the standard value for each background candidate; and a range of values of the background candidate based on the index A step of determining a background value by repeatedly obtaining the subtracted value and logarithmic value, calculating an index indicating a difference, and narrowing down the values of background candidates, and the determined background value. It is achieved by a program characterized by causing the computer to execute a step of standardizing logarithm values temporarily stored in association with each other and storing the standardized values in storage means.
[0025]
Furthermore, an object of the present invention is a computer-readable program for operating a computer so as to obtain data that can be analyzed by processing array data obtained based on the expression level of a gene, Acquiring data, sorting the data values of the acquired array data, extracting a predetermined number of data values at predetermined intervals from the sorted data values, and temporarily storing them in a storage means; Determining a background value γ and storing it in the storage means; and subtracting the data value obtained by subtracting the background value from the logarithm to obtain a logarithmic value, which is temporarily stored in the storage means. And storing the characteristic value μ of the central tendency and the characteristic value σ of the fluctuation with reference to the logarithmic value, and storing them in the storage means, For each data value x, z = (log (x−γ) −μ) / σ is calculated as the standard value z, and the calculated standard value z is stored in the storage means, respectively. It is also achieved by a program characterized by having the program executed.
[0026]
Alternatively, an object of the present invention is a computer-readable program for operating a computer so as to obtain data that can be analyzed by processing array data obtained based on the expression level of a gene. And calculating a characteristic value of the central tendency of the data value for each column or row, and a spot belonging to the column or row based on the characteristic value of the central tendency Setting a background value candidate for the spot, subtracting the background candidate value from each of the data values for the spot, calculating a subtraction value, and logarithmizing the subtraction value to obtain a logarithmic value And calculating a characteristic value of the central tendency of the logarithmic value for the column or row, Subtracting the second subtraction value and calculating the division value by dividing the data value by the characteristic value of the fluctuation calculated based on the second subtraction value for the column or row. And temporarily storing it in the storage means, comparing the divided value with the corresponding standard value, and selecting a background candidate value that minimizes the index of the difference between them. Determining the value γ, and storing the background value γ, the characteristic value μ of the central tendency associated with the background value γ, and the characteristic value σ of variation in the storage unit, respectively, in the computer It is also achieved by a program characterized by being executed.
[0027]
Another object of the present invention is a computer-readable program for operating a computer so as to obtain data that can be analyzed by processing array data obtained based on the expression level of a gene. Obtaining data, sorting the data values of the obtained array data, temporarily storing the sorted data in a storage means, and a standard value of a normal distribution corresponding to the sorted data values Calculating a characteristic value s of the fluctuation of the data value, storing it in the storage means, multiplying each of the standard values to obtain a multiplication value, and the data value And a multiplication value, a step of obtaining a range in which the ratio of both is constant, and the range when the multiplication value is considered as an x-axis and a logarithmic value as a y-axis, Calculating the slope and y-intercept of the straight line formed in the above, and determining the natural logarithm of the slope as the characteristic value u of the central tendency and the intercept as the background value g and storing them in the storage means Is also achieved by a program that causes the computer to execute the above.
[0028]
Nucleic acids can be retained on the surface of DNA chips, such as plates made of glass with various coatings, membranes based on nylon or nitrocellulose, hollow fibers, semiconductors, metals, organic substances, etc. Anything can be used. Further, on the DNA chip, as a target, all or a part of the cDNA, genomic DNA, synthetic DNA, synthetic RNA and the like are arranged.
[0029]
In order to produce a chip, there are a method of preparing a nucleic acid and arranging it on a substrate by adsorption, electrostatic binding, and covalent bonding, and a method of synthesizing a nucleic acid on the substrate. The detection of the signal indicating the signal intensity includes an electrical method using a semiconductor chip, a method of detecting fluorescence and radioactivity, and the like.
[0030]
The present invention can also be applied to array data from a DNA chip in which any target is formed on any of the above-mentioned substrates. Further, the present invention can be applied to array data acquired using any method. The same applies to data obtained from other media such as microbeads on which genes such as immobilized DNA are immobilized.
[0031]
In this specification, the DNA chip is any chip in which a nucleic acid is arranged on a substrate, such as an RNA chip formed with RNA on a substrate, a microarray, a macroarray, a dot blot, or a reburst northern. Including.
[0032]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the accompanying drawings. FIG. 1 is a hardware configuration diagram of an analysis apparatus according to the first embodiment of the present invention. As shown in FIG. 1, the
[0033]
The I /
In the present embodiment, the
[0034]
FIG. 2 is a functional block diagram of the main part of the
[0035]
The
[0036]
The function of the
[0037]
From the reader or the scanner, a DNA chip taken by a CCD camera or the like and the signal intensity for each spot integrated is output as array data. Alternatively, the background value is determined based on the image data value of the image captured by the CCD camera in the reader or scanner, and the background value is subtracted from the signal intensity of each pixel, and the background correction has already been performed. In some cases, the signal intensity for each spot is integrated from the data and output as array data. In the present embodiment, any of unprocessed array data and data that has been subjected to correction processing (background correction) by the reader, scanner, or accompanying software can be used. In this specification, data accumulated from the signal for each spot transmitted from the reader or scanner is referred to as array data or data serving as a basis for performing background processing according to the present embodiment. This is referred to as original data.
[0038]
The processing for calculating an index that can be compared with other data based on the data indicating the light emission amount appearing on the DNA chip in the
[0039]
The sort /
[0040]
A background value is then calculated (step 305) and other parameters are calculated (step 306). In the present embodiment, the knowledge that the logarithmic value of data obtained from a DNA chip (data indicating the amount of luminescence by gene expression) is normally distributed, and the results of different experiments or the same kind by z-standardizing this Based on the fact that the experimental results can be accurately compared, a more robust standardized data group is obtained from the data of a certain DNA chip.
[0041]
Here, in the present embodiment,
Of z = (log (x−γ) −μ) / δ, the calculated background value is γ, and the remaining parameters μ and δ are calculated by an operation described later. First, calculation of the background value will be described in more detail, and then calculation of the remaining parameters will be described in detail.
[0042]
FIG. 4 is a flowchart showing the background value calculation process (step 305) in more detail. The background
[0043]
Next, a certain background candidate value is subtracted from the extracted original data value (original data value) (step 402), and the original data value from which the background candidate value is subtracted by the conversion /
[0044]
Next, the logarithmically transformed data value (transformed value) relating to a certain background candidate value is compared with the corresponding standard value calculated by the following method and stored in the
Since the quantiles have a range, the following numerical values are calculated to correct the statistical median.
m (i) = (i−0.3175) / (n + 0.365)
Where n is the number of data and i is a natural number from 1 to n.
[0045]
Next, for each of the determined m (i), the inverse function F of the normal distribution function -1 (R) is applied. Each of the obtained values becomes a standard value corresponding to the data value.
Next, the difference calculation /
[0046]
Next, for example, the difference calculation /
[0047]
The operator refers to the graph displayed on the screen of the
[0048]
For example, as shown in FIG. 12, a graph is generated in which the range of background candidate values is on the horizontal axis and the difference index is on the vertical axis. In the example of FIG. 12, values in increments of 100 from 1800 to 2700 (1800, 1900, 2000,..., 2700) are adopted as background candidate values. The observer can refer to this to narrow down the range of the background candidates, and obtain again the index of the difference regarding the value of the background candidate in the new range (see FIG. 13). In the example of FIG. 13, it can be understood that “2363” as the background value is most appropriate at this point.
[0049]
Next, a description will be given of processing for calculating the remaining parameters. In general, in the lognormal distribution, an average value is used as μ (characteristic value of central tendency) of log data, and a standard deviation is used as δ (characteristic value of fluctuation). However, in the data obtained from the DNA chip, a strong signal (with a relatively large data value) is accurate and a weak signal (with a relatively small data value) contains relatively large noise. Since data that is hidden by noise and has a negative value cannot be obtained as a logarithmic value, many of these weak signals are discarded. In such a case, the calculation method cannot be used.
[0050]
Usually, the characteristic value of the central tendency is obtained with an average value. However, the average is not a so-called robust method, and is calculated to be high particularly in a situation where a weak signal is selectively lost. In these cases, the median is known to be more effective.
On the other hand, the characteristic value of the fluctuation is expressed with a standard deviation. However, the standard deviation is not a robust method, and is calculated to be smaller in the situation where a weak signal is selectively dropped as described above. On the other hand, as a robust method, iqr for obtaining a characteristic value of variation from a quartile range is known (for example, http://infoshako.sk.tsukuba.ac.jp/InfoRes/jdoc/MATLAB5/jhelp) /Toolbox/stats/iqr.html).
[0051]
However, the median is obtained from one point in the data group, and iqr is obtained from two points in the data group, and there is a difficulty in its accuracy. In particular, when the data acquired from a small number of spots or the number of data for correction is limited, the problem becomes serious. Therefore, in the present embodiment, a highly accurate parameter calculation method is employed by the following method even when the number of data is relatively limited.
[0052]
FIG. 5 is a flowchart showing parameter calculation processing according to the present embodiment. As shown in FIG. 5, first, an actual measurement value obtained by subtracting the ideal value and the background value is acquired (step 501). The ideal value is the same as the standard value obtained in the
[0053]
However, even in the graph of FIG. 14, there is a portion that is recognized as a substantially straight line (for example, a portion where x is positive). Therefore, in this embodiment, when the user refers to the graph and operates the input device to specify a range that is determined to have linearity (step 503), the measured value in the specified range is obtained. By using this, a linear expression representing between the actually measured value and the theoretical value is obtained by, for example, the least square method. The slope “a” in the obtained linear expression “ax + b” corresponds to the characteristic value “σ” of the fluctuation, and the y-intercept “b” corresponds to the characteristic value “μ” of the central tendency (step 504). .
[0054]
For example, the image
[0055]
On the other hand, if it is satisfactory (Yes in step 505), the DNA chip is identified with the previously obtained background value as “γ”, the intercept as “μ”, and the slope as “σ”. The information is stored in the
z = (log (x−γ) −μ) / σ
It is possible to standardize using the equation.
[0056]
Thus, according to the present embodiment, an appropriate background value is calculated to eliminate the influence of noise, and the characteristic value of the central tendency and the characteristic value of fluctuation for standardization are measured values. Is obtained from the straight line portion of the plotted graph. As a result, more robust standardization can be realized.
[0057]
Next, the initial correction process (step 302) according to the present embodiment will be described in more detail. In the present embodiment, two types of correction can be performed according to the characteristics of data from the DNA chip.
The DNA chip is formed by a method such as stamping DNA on a surface such as glass. At this time, the data value may appear “strong” or “weak” with a certain rule due to the accuracy of the stamping machine (arrayer or spotter).
Such a tendency may occur for each pin of the array, for each row of the spotted grid, or for each grid column / row of the microtiter plate holding the DNA sample.
[0058]
For example, when there is a feature in the strength of data for each horizontal row of the grid, it is conceivable to standardize the data in units of horizontal rows. However, in this case, the number n of data constituting one data set is reduced (for example, 32). When the background value is predicted from such a small number of data, and the characteristic value of the central tendency and the characteristic value of the fluctuation are calculated, the accuracy is remarkably lowered. It is known that the standard deviation of the average value of random numbers is proportional to the reciprocal of the square root of n. This indicates that it is difficult to accurately predict the characteristic value of the central tendency from a small number of data.
[0059]
Therefore, in the initial correction process, the moving average of the horizontal and vertical rows of the DNA chip is calculated, and if each column or row has a characteristic, the value is corrected for each column (first preprocessing: Reference numeral 600). Even in other cases, if the transition of values for each spot has periodicity, data correction is performed in consideration of the periodicity (second correction process: see FIG. 7).
[0060]
Hereinafter, a description will be given with respect to the row, but it goes without saying that the same processing can be executed in the vertical row. First, when a spotter is produced by a spotter, data is arranged in the order in which the spot is actually spotted. Among the data group, a certain column on the DNA chip and a predetermined number of columns before and after the column (for example, two columns before and after) The average value of the data values is calculated (
[0061]
In step 605, a test may be performed as to whether or not the variation of the moving average value is significant.
In the first preprocessing, the median value of the data values corresponding to the spots of the DNA chip column is obtained (step 607), and the data values corresponding to the spots of the column are respectively divided by the median value (step 607). 607). This is performed for each column (see
[0062]
Next, the second pre-processing will be described. Here, correction is performed in consideration of whether or not the data value corresponding to each spot vibrates. First, data values arranged in the order of spots are acquired (step 701), and FFT (Fast Fourier Transfer) processing is executed on the data group (step 702). If there is a periodic component (signal component) as a result of the FFT, the value of the component corresponding to the phase is subtracted from each data value in consideration of the cycle (
As described above, according to the initial correction process according to the present embodiment, it is possible to eliminate regularity in spot production.
[0063]
Next, the second embodiment of the present invention will be described. In the second embodiment, appropriate parameters are calculated while eliminating periodicity in the second embodiment. 8 and 9 are flowcharts showing an outline of the processing according to the second embodiment. Also in the second embodiment, similarly to the initial correction described with reference to FIG. 6, data is arranged in advance in the order of spotting when a DNA chip is prepared by a spotter. Further, the present invention is not limited to rows, and the same processing can be executed for vertical rows as in the example of FIG.
[0064]
In this process, data of a predetermined column is acquired (step 801), and the characteristic value of the central tendency of the column is calculated from the data value of the column (step 802). Here, the median value may be used, or it may be obtained from the average value of the logarithmic values of the remaining data values from which the upper limit and the lower limit are removed. Next, the background value of the column is set (step 803). The background value to be set is considered to be proportional to the characteristic value of the central tendency obtained in
[0065]
Next, the data values with the background value reduced are respectively logarithmized (
[0066]
That is, from
(Log (X−αMi) −Mi) / σ
Will be calculated. Such processing is executed for each column (
[0067]
Thereafter, the temporarily stored data values are sorted and compared with the corresponding standard values (
[0068]
When the difference exceeds a predetermined range (that is, when the line connecting the plotted points deviates from y = x by a predetermined value or more) (No in step 903), again, The proportional constant α is changed, and the change characteristic value σ is changed accordingly, and the processing from
[0069]
Next, the third embodiment of the present invention will be described. In the first embodiment, the background value (γ), the central tendency characteristic value (μ), and the fluctuation characteristic value (based on the data value (actual measurement value) actually obtained from the DNA chip σ) is calculated. However, there may be a case where noise to the median cannot be ignored. That is, for example, the noise level of the entire hybridization may become high due to, for example, a defective wet experiment. If the noise level is close to the median value, it is difficult to apply the robust method according to the first embodiment. Here, noise refers to a component caused by chance included in individual data, and is considered to be caused by a measurement error, a spot amount error, or the like. Noise is a concept corresponding to a signal, and raw data obtained from a DNA chip can be considered as the sum of noise and signal. The background can be defined as a portion that is not derived from RNA in a sample and is included in the signal of each data. Therefore, the signal can be regarded as the sum of the RNA-derived portion and the background.
[0070]
As described above, even if the noise level is high, the upper data is sufficiently larger than the noise level due to the nature of the lognormal distribution. These data should be analyzable if an appropriate characteristic value of the original central tendency can be found. If the background can be obtained, it is possible to find the characteristic value of the central tendency by a trial and improve method. However, the relationship between the background and the characteristic value of the central tendency is unknown. Of the lognormal distribution using the three parameters introduced in the present invention, it is difficult to find two parameters by the above method due to the problem of calculation amount and solution selection that cannot be uniquely determined. is there.
[0071]
Therefore, if the logarithmic normal distribution can be expected from the combination of the chip and the sample if there is no noise, the value can be obtained by the following method. FIG. 10 is a flowchart illustrating processing according to the third embodiment. In the third embodiment, as shown in FIG. 10, the original data relating to the DNA chip is acquired from the data buffer 30 (step 1001), and the data is sorted in ascending or descending order by the sorting process. (Step 1002). The sorted data is also stored in the
m (i) = (i−0.3175) / (n + 0.365)
Where n is the number of data and i is a natural number from 1 to n.
[0072]
Next, for each of the determined m (i), the inverse function F of the normal distribution function -1 (R) is applied. Each of the obtained values becomes Zi corresponding to the data value. This standard value is also stored in the
[0073]
Then, the value obtained by multiplication is a power of 10 (that is, 10 (S * Zi) ) X-axis, measured value x i Is generated on the y-axis (step 1005). In this graph, it can be considered that the straight line portion is a reliable region (confidence region). Therefore, for example, when the user selects a straight line portion (specifies the range) with reference to the displayed graph (step 1006), the intercept and inclination of the graph are calculated (step 1007). The logarithm of the obtained slope is stored as the characteristic value (u) of the central tendency, and the intercept is stored as the background value (g).
[0074]
The characteristic value of the central tendency thus obtained and the effectiveness of the background will be briefly described below. In standardization by three parameters according to the present invention (Z standardization), Zi can be expressed by the following equation.
Zi = {log (xi-g) -u} / s
Zi is an ideal value, xi is a corresponding actually measured value, and g, u, and s are a background value, a characteristic value of a central tendency, and a characteristic value of variation, respectively.
Solving the above equation for xi,
xi = (10 u ) * (10 (S * Zi) ) + G
It becomes. (10 (S * Zi) ) On the x-axis, x i If the value is plotted with y as the y-axis, a line in which a certain range is linear is obtained. In this straight line, 10 u Is the slope, the characteristic value u of the central tendency can be obtained by taking the logarithm of the slope. The background value g, the central tendency characteristic value u, and the fluctuation characteristic value s acquired as described above are stored in the result storage unit 42 (step 1008).
[0075]
In the third embodiment, as described above, since the noise level is high, the third embodiment is applied to data in a state where analysis using a robust method is difficult. Therefore, the range of data values that can be used (lower limit value) is calculated as follows. Here, obtained in step 1005 (10 (S * Zi) ) X axis, x i It is only necessary to find a range (or lower limit value) in which linearity is maintained in a graph in which values are plotted with y as the y-axis (step 1009). The lower limit value determined in this way is also stored in the
[0076]
Next, those whose ideal value assigned to the data value is within the range (that is, not less than the lower limit) are taken out. Those not within the range are desirably displayed on the screen of the display device as being below the measurement limit. On the other hand, the retrieved ideal value is a standardized data value (step 1010).
[0077]
According to the third embodiment, even if the noise level is high and the method according to the first embodiment cannot be applied, the data can be standardized on the assumption that a lognormal distribution is taken. It becomes possible. It is also possible to specify a lower limit that can be used as a data value.
The present invention is not limited to the above embodiments, and various modifications can be made within the scope of the invention described in the claims, and these are also included in the scope of the present invention. Needless to say.
[0078]
For example, the initial correction process is not limited to that described above. FIG. 11 is a flowchart illustrating another example of the initial correction process. The example shown in FIG. 11 is also used to eliminate the tendency of data for each column or row. Here, for each column, the background value is determined based on the characteristic value of the central tendency (see
[0079]
In the above embodiment, the data obtained from the DNA chip is processed to obtain data that can be analyzed, such as comparison. However, the present invention is not limited to the DNA chip, but also to a so-called protein chip. Applicable. That is, the present invention can also be applied to data obtained by labeling a crude protein in a protein chip sample and applying it to an antibody chip.
Furthermore, the present invention is not limited to a DNA chip or a protein chip. For data representing gene expression levels obtained by any method, such as data obtained from DNA or other genes immobilized on microbeads. However, the same can be applied.
[0080]
In addition, it is desirable to use a DNA chip that provides data subjected to the data processing method according to the present invention in which the spot position of a cDNA clone is separated from the origin of the clone and the strength of expression. Also, when spotting clones from a single tissue, or when spotting a limited number of clones, a control to measure the characteristic value (or characteristic value of variation) of the central tendency of the data It is desirable to spot a plurality of types of randomly selected clones.
[0081]
【The invention's effect】
According to the present invention, it is possible to provide a data processing method for enabling more accurate analysis of data obtained from a DNA chip.
[Brief description of the drawings]
FIG. 1 is a hardware configuration diagram of an analysis apparatus according to a first embodiment of the present invention.
FIG. 2 is a functional block diagram of the main part of the analyzing apparatus according to the first embodiment;
FIG. 3 is a flowchart illustrating an outline of processing performed by the analysis apparatus according to the present embodiment;
FIG. 4 is a flowchart illustrating in more detail a background value calculation process according to the first embodiment;
FIG. 5 is a flowchart illustrating a parameter calculation process according to the present embodiment.
FIG. 6 is a flowchart illustrating an example of an initial correction process according to the present embodiment.
FIG. 7 is a flowchart illustrating an example of an initial correction process according to the present embodiment.
FIG. 8 is a flowchart illustrating an outline of processing according to the second embodiment;
FIG. 9 is a flowchart illustrating an outline of processing according to the second embodiment;
FIG. 10 is a flowchart schematically illustrating a process executed by an analysis apparatus according to a third embodiment.
FIG. 11 is a flowchart showing another example of the initial correction process according to the present invention.
FIG. 12 is a graph illustrating an example of an index of difference for each background candidate value.
FIG. 13 is a graph illustrating an example of an index of difference for each background candidate value.
FIG. 14 is an example of a graph in which values are plotted with ideal values (theoretical values) on the horizontal axis and data values based on measured values on the vertical axis.
It is a chart.
FIG. 15 is another example of a graph in which values are plotted with ideal values (theoretical values) on the horizontal axis and data values based on measured values on the vertical axis.
FIG. 16 is a graph showing a data value and a moving average value for each spot of data acquired from a certain DNA chip.
FIG. 17 shows (10 (S * Zi) ) X axis, x i It is a figure which shows the example of the graph which plotted the value on the y-axis.
[Explanation of symbols]
10 Analysis device
30 data buffer
32 Background candidate calculator
34 Pre-processing section
36 Conversion / standardization processing part
38 Difference calculation / comparison processing unit
40 Image formation processing unit
42 Result storage
44 Data correction part
46 Sort / Extract Processing Unit
Claims (22)
前記アレイデータを取得して、取得されたアレイデータのデータ値をソートし、前記ソートされたデータ値から、所定間隔で所定数のデータ値を抽出し、これを一時的に記憶手段に記憶するステップと、
複数のバックグラウンド候補を選択して、これを一時的に記憶手段に記憶するステップと、
前記抽出されたデータ値のそれぞれから、各バックグラウンド候補の値を減じて、減算値を取得し、かつ、各減算値を対数変換した対数値を得て、当該対数値を一時的に記憶手段に記憶するステップと、
前記対数値のそれぞれに対応する、正規分布の標準値を算出するステップと、
前記各バックグラウンド候補について、各対数値と標準値との間の差異を示す指標を算出するステップと、
前記指標に基づき、前記バックグラウンド候補の値の範囲を絞り込むステップと、
前記減算値および対数値の取得、差異を示す指標の算出、バックグラウンド候補の値の絞込みを繰り返すことにより、バックグラウンド値を決定するステップと、
前記決定されたバックグラウンド値に関連して一時的に記憶された対数値を、それぞれ標準化し、標準化された値を、それぞれ、記憶手段に記憶するステップとを備えたことを特徴とする遺伝子発現データの処理方法。A method of processing gene expression data to process the array data obtained based on the gene expression level to obtain analyzable data,
The array data is acquired, the data values of the acquired array data are sorted, a predetermined number of data values are extracted from the sorted data values at predetermined intervals, and this is temporarily stored in the storage means. Steps,
Selecting a plurality of background candidates and temporarily storing them in storage means;
From each of the extracted data values, the value of each background candidate is subtracted to obtain a subtraction value, and a logarithmic value obtained by logarithmically converting each subtraction value is obtained, and the logarithmic value is temporarily stored. The step of storing in
Calculating a standard value of a normal distribution corresponding to each of the logarithmic values;
Calculating an index indicating a difference between each logarithmic value and a standard value for each background candidate;
Narrowing a range of values of the background candidates based on the indicator;
Determining the background value by repeatedly obtaining the subtraction value and logarithmic value, calculating the index indicating the difference, and narrowing down the background candidate values;
Standardizing logarithm values temporarily stored in relation to the determined background value, and storing the standardized values in storage means, respectively. How to process the data.
前記アレイデータを取得して、取得されたアレイデータのデータ値をソートし、前記ソートされたデータ値から、所定間隔で所定数のデータ値を抽出し、これを一時的に記憶手段に記憶するステップと、
バックグラウンド値γを決定して、これを記憶手段に記憶するステップと、
前記バックグランド値を減じたデータ値である減算値を対数化して、対数値を取得し、これを記憶手段に一時的に記憶するステップと、
前記対数値を参照して、中心的傾向の特性値μおよび変動の特性値σを算出し、これらを記憶手段に記憶するステップと、
各データ値xについて、標準値zとして
z=(log(x−γ)−μ)/σを算出して、算出された標準値zを、それぞれ記憶手段に記憶するステップとを備えたことを特徴とする遺伝子発現データの処理方法。A method of processing gene expression data to process the array data obtained based on the gene expression level to obtain analyzable data,
The array data is acquired, the data values of the acquired array data are sorted, a predetermined number of data values are extracted from the sorted data values at predetermined intervals, and this is temporarily stored in the storage means. Steps,
Determining a background value γ and storing it in a storage means;
Logarithmically the subtraction value, which is a data value obtained by subtracting the background value, obtaining a logarithmic value, and temporarily storing it in a storage means;
Calculating the characteristic value μ of the central tendency and the characteristic value σ of the fluctuation with reference to the logarithmic value, and storing them in the storage means;
For each data value x, a step of calculating z = (log (x−γ) −μ) / σ as a standard value z and storing the calculated standard value z in a storage unit respectively is provided. A characteristic gene expression data processing method.
複数のバックグラウンド候補を選択して、これを一時的に記憶手段に記憶するステップと、
前記抽出されたデータ値のそれぞれから、各バックグラウンド候補の値を減じて、減算値を取得し、かつ、各減算値を対数変換した対数値を得て、当該対数値を一時的に記憶手段に記憶するステップと、
前記対数値のそれぞれに対応する、正規分布の標準値を算出するステップと、
前記各バックグラウンド候補について、各対数値と標準値との間の差異を示す指標を算出するステップと、
前記指標に基づき、前記バックグラウンド候補の値の範囲を絞り込むステップとを有し、
前記減算値および対数値の取得、差異を示す指標の算出、バックグラウンド候補の値の絞込みを繰り返すことにより、バックグラウンド値を決定するように構成されたことを特徴とする請求項2に記載の方法。Determining the background value γ,
Selecting a plurality of background candidates and temporarily storing them in storage means;
From each of the extracted data values, the value of each background candidate is subtracted to obtain a subtraction value, and a logarithmic value obtained by logarithmically converting each subtraction value is obtained, and the logarithmic value is temporarily stored. The step of storing in
Calculating a standard value of a normal distribution corresponding to each of the logarithmic values;
Calculating an index indicating a difference between each logarithmic value and a standard value for each background candidate;
Narrowing a range of values of the background candidates based on the index,
The background value is determined by repeating the acquisition of the subtraction value and logarithmic value, the calculation of an index indicating a difference, and the narrowing down of background candidate values. Method.
前記対数値のそれぞれに対応する標準値を算出するステップと、
前記対数値と標準値とを比較し、両者の比がほぼ一定に推移する範囲を求めるステップと、
前記標準値をx軸、対数値をy軸と考えた場合に、前記範囲において形成される直線の傾きおよびy切片を算出するステップと、
算出されたy切片を中心的傾向の特性値μと決定し、傾きを変動の特性値σと決定するステップとを有することを特徴とする請求項2または3に記載の方法。Obtaining the central tendency characteristic value μ and the fluctuation characteristic value σ;
Calculating a standard value corresponding to each of the logarithmic values;
Comparing the logarithmic value with a standard value, and determining a range in which the ratio of the two changes substantially constant;
Calculating the slope and y intercept of a straight line formed in the range when the standard value is considered as the x axis and the logarithmic value as the y axis;
4. The method according to claim 2, further comprising the step of: determining the calculated y-intercept as the characteristic value μ of the central tendency and determining the slope as the characteristic value σ of the fluctuation.
前記チップにおいてスポットが配置された列或いは行に関して、当該列或いは行ごとのデータ値の傾向を示す指標を算出するステップと、
前記指標に基づき、列或いは行ごとに特徴がある場合に、各列或いは各行について、それぞれ、そのデータ値の中央値を算出するステップと、
前記データ値を、対応する中央値で除して、除算値を取得して、これを記憶手段に一時的に記憶するステップとを備え、
前記一時的に記憶された除算値を、アレイデータのデータ値に対応する値として、演算対象とすることを特徴とする請求項1ないし4の何れか一項に記載の方法。Furthermore, rearranging the data values in the order of the spots arranged on the chip, and temporarily storing them in the storage means in that order;
Calculating an index indicating a tendency of a data value for each column or row with respect to a column or row in which spots are arranged in the chip;
Calculating the median of the data values for each column or each row when there is a feature for each column or row based on the index; and
Dividing the data value by the corresponding median value to obtain a division value and temporarily storing it in storage means,
The method according to any one of claims 1 to 4, wherein the temporarily stored division value is set as a calculation target as a value corresponding to a data value of array data.
前記順序で、データ値の周期性を見出すステップと、
前記周期性のある場合に、各データ値から、当該周期の中心的傾向の特性値を減じて減算値を算出し、これを記憶手段に一時的に記憶するステップとを備え、
前記一時的に記憶された減算値を、アレイデータのデータ値に対応する値として、演算対象とすることを特徴とする請求項1ないし6の何れか一項に記載の方法。Furthermore, rearranging the data values in the order of the spots arranged on the chip, and temporarily storing them in the storage means in that order;
Finding the periodicity of the data values in said order;
A step of subtracting a characteristic value of the central tendency of the period from each data value when the periodicity is present, and temporarily storing it in a storage means,
7. The method according to claim 1, wherein the temporarily stored subtraction value is set as a calculation target as a value corresponding to the data value of the array data.
前記チップにおいてスポットが配置された列或いは行に関して、当該列または行ごとに、データ値の中心的傾向の特性値を算出するステップと、
前記中心的傾向の特性値に基づき、当該列或いは行に属するスポットに関するバックグラウンド値を設定し、当該スポットに関するデータ値のそれぞれから、バックグラウンド値を減じて減算値を算出するステップと、
前記減算値を、それぞれ対数化して、対数値を取得するステップと、
前記列或いは行に関して、前記対数値の中心的傾向の特性値を減算し、前記減算値を、記憶手段に一時的に記憶するステップとを備え、
前記一時的に記憶された減算値を、アレイデータのデータ値に対応する値として、演算対象とすることを特徴とする請求項1ないし4の何れか一項に記載の方法。Reordering the data values in the order of the spots arranged on the chip;
Calculating the characteristic value of the central tendency of the data value for each column or row with respect to the column or row where the spot is arranged in the chip;
Setting a background value for a spot belonging to the column or row based on the characteristic value of the central tendency, subtracting the background value from each of the data values for the spot, and calculating a subtraction value;
Logarithmically each of the subtraction values to obtain a logarithmic value;
Subtracting the characteristic value of the central tendency of the logarithmic value with respect to the column or row, and temporarily storing the subtracted value in storage means,
The method according to any one of claims 1 to 4, wherein the temporarily stored subtraction value is set as a calculation target as a value corresponding to the data value of the array data.
前記チップにおいてスポットが配置された列或いは行に関して、当該列または行ごとに、データ値の中心的傾向の特性値を算出するステップと、
前記中心的傾向の特性値に基づき、当該列或いは行に属するスポットに関するバックグラウンド値の候補を設定し、当該スポットに関するデータ値のそれぞれから、バックグラウンド候補値を減じて減算値を算出するステップと、
前記減算値を、それぞれ対数化して、対数値を取得するステップと、
前記列或いは行に関して、前記対数値の中心的傾向の特性値を算出し、前記対数値のそれぞれから減じて第2の減算値を算出するステップと、
前記列或いは行に関して、前記データ値を、前記第2の減算値に基づき算出される変動の特性値で除して、除算値を取得し、これを記憶手段に一時的に記憶するステップと、
前記除算値と、対応する標準値とを比較し、これらの間の差異の指標が最も小さくなるような、バックグラウンド候補値をバックグラウンド値γと決定するステップと、
前記バックグラウンド値γ、当該バックグラウンド値γと関連する中心的傾向の特性値μおよび変動の特性値σを、それぞれ記憶手段に記憶するステップとを備えたことを特徴とする遺伝子発現データの処理方法。A method of processing gene expression data to process the array data obtained based on the gene expression level to obtain analyzable data,
Calculating the characteristic value of the central tendency of the data value for each column or row with respect to the column or row where the spot is arranged in the chip;
Setting a candidate for a background value relating to a spot belonging to the column or row based on the characteristic value of the central tendency, and calculating a subtraction value by subtracting the background candidate value from each of the data values relating to the spot; ,
Logarithmically each of the subtraction values to obtain a logarithmic value;
Calculating a characteristic value of a central tendency of the logarithmic value for the column or row, and subtracting from each of the logarithmic values to calculate a second subtraction value;
Dividing the data value with respect to the column or row by the characteristic value of the fluctuation calculated based on the second subtraction value, obtaining a division value, and temporarily storing it in a storage means;
Comparing the division value with a corresponding standard value and determining a background candidate value as a background value γ such that an indicator of the difference between them is minimized;
Storing the background value γ, the characteristic value μ of the central tendency associated with the background value γ, and the characteristic value σ of fluctuation in a storage means, respectively, Method.
前記アレイデータを取得して、取得されたアレイデータのデータ値をソートし、ソートされたデータを、記憶手段に一時的に記憶するステップと、
前記ソートされたデータ値に対応する、正規分布の標準値を算出するステップと、
前記データ値に関して、その変動の特性値sを設定して、これを記憶手段に記憶するとともに、前記標準値のそれぞれに乗じて、乗算値を得るステップと、
前記データ値と乗算値とを比較し、両者の比が一定に推移する範囲を求めるステップと、
前記乗算値をx軸、対数値をy軸と考えた場合に、前記範囲において形成される直線の傾きおよびy切片を算出するステップと、
前記傾きの自然対数を中心的傾向の特性値u、切片をバックグラウンド値gと決定して、これらを記憶手段に記憶するステップとを備えたことを特徴とする遺伝子発現データの処理方法。A method of processing gene expression data to process the array data obtained based on the gene expression level to obtain analyzable data,
Obtaining the array data, sorting the data values of the obtained array data, and temporarily storing the sorted data in a storage means;
Calculating a standard value of a normal distribution corresponding to the sorted data values;
Setting a characteristic value s of the fluctuation for the data value, storing the characteristic value s in a storage unit, and multiplying each of the standard values to obtain a multiplication value;
Comparing the data value and the multiplication value to obtain a range in which the ratio of the two values is constant;
Calculating the slope and y-intercept of the straight line formed in the range when the multiplication value is considered as the x-axis and the logarithmic value as the y-axis;
And determining the natural logarithm of the slope as the characteristic value u of the central tendency and the intercept as the background value g and storing them in a storage means.
xi=(10u)*(10(s*Zi))+g
(ただし、Ziは、第i番目の標準値)を用いて、xiを解き、これを、記憶手段に一時的に記憶するステップと、
前記xiとして利用することができる値の下限値を求め、これを前記記憶手段に記憶するステップとを備えたことを特徴とする請求項10に記載の方法。further,
xi = (10 u ) * (10 (s * Zi) ) + g
(Where Zi is the i-th standard value), xi is solved, and this is temporarily stored in the storage means;
The method according to claim 10, further comprising: obtaining a lower limit value of a value that can be used as the xi, and storing the lower limit value in the storage unit.
前記アレイデータを取得して、取得されたアレイデータのデータ値をソートし、前記ソートされたデータ値から、所定間隔で所定数のデータ値を抽出し、これを一時的に記憶手段に記憶するステップと、
複数のバックグラウンド候補を選択して、これを一時的に記憶手段に記憶するステップと、
前記抽出されたデータ値のそれぞれから、各バックグラウンド候補の値を減じて、減算値を取得し、かつ、各減算値を対数変換した対数値を得て、当該対数値を一時的に記憶手段に記憶するステップと、
前記対数値のそれぞれに対応する、正規分布の標準値を算出するステップと、
前記各バックグラウンド候補について、各対数値と標準値との間の差異を示す指標を算出するステップと、
前記指標に基づき、前記バックグラウンド候補の値の範囲を絞り込むステップと、
前記減算値および対数値の取得、差異を示す指標の算出、バックグラウンド候補の値の絞込みを繰り返すことにより、バックグラウンド値を決定するステップと、
前記決定されたバックグラウンド値に関連して一時的に記憶された対数値を、それぞれ標準化し、標準化された値を、それぞれ、記憶手段に記憶するステップとを、前記コンピュータに実行させることを特徴とするプログラム。A computer-readable program for operating the computer to process the array data obtained based on the gene expression level to obtain analyzable data,
The array data is acquired, the data values of the acquired array data are sorted, a predetermined number of data values are extracted from the sorted data values at predetermined intervals, and this is temporarily stored in the storage means. Steps,
Selecting a plurality of background candidates and temporarily storing them in storage means;
From each of the extracted data values, the value of each background candidate is subtracted to obtain a subtraction value, and a logarithmic value obtained by logarithmically converting each subtraction value is obtained, and the logarithmic value is temporarily stored. The step of storing in
Calculating a standard value of a normal distribution corresponding to each of the logarithmic values;
Calculating an index indicating a difference between each logarithmic value and a standard value for each background candidate;
Narrowing a range of values of the background candidates based on the indicator;
Determining the background value by repeatedly obtaining the subtraction value and logarithmic value, calculating the index indicating the difference, and narrowing down the background candidate values;
Standardizing logarithm values temporarily stored in relation to the determined background value, and storing the standardized values in storage means, respectively, to cause the computer to execute. Program.
前記アレイデータを取得して、取得されたアレイデータのデータ値をソートし、前記ソートされたデータ値から、所定間隔で所定数のデータ値を抽出し、これを一時的に記憶手段に記憶するステップと、
バックグラウンド値γを決定して、これを記憶手段に記憶するステップと、
前記バックグランド値を減じたデータ値である減算値を対数化して、対数値を取得し、これを記憶手段に一時的に記憶するステップと、
前記対数値を参照して、中心的傾向の特性値μおよび変動の特性値σを算出し、これらを記憶手段に記憶するステップと、
各データ値xについて、標準値zとして
z=(log(x−γ)−μ)/σを算出して、算出された標準値zを、それぞれ記憶手段に記憶するステップとを、前記コンピュータに実行させることを特徴とするプログラム。A computer-readable program for operating the computer to process the array data obtained based on the gene expression level to obtain analyzable data,
The array data is acquired, the data values of the acquired array data are sorted, a predetermined number of data values are extracted from the sorted data values at predetermined intervals, and this is temporarily stored in the storage means. Steps,
Determining a background value γ and storing it in a storage means;
Logarithmically the subtraction value, which is a data value obtained by subtracting the background value, obtaining a logarithmic value, and temporarily storing it in a storage means;
Calculating the characteristic value μ of the central tendency and the characteristic value σ of the fluctuation with reference to the logarithmic value, and storing them in the storage means;
For each data value x, z = (log (x−γ) −μ) / σ is calculated as the standard value z, and the calculated standard value z is stored in the storage unit. A program characterized by being executed.
複数のバックグラウンド候補を選択して、これを一時的に記憶手段に記憶するステップと、
前記抽出されたデータ値のそれぞれから、各バックグラウンド候補の値を減じて、減算値を取得し、かつ、各減算値を対数変換した対数値を得て、当該対数値を一時的に記憶手段に記憶するステップと、
前記対数値のそれぞれに対応する、正規分布の標準値を算出するステップと、
前記各バックグラウンド候補について、各対数値と標準値との間の差異を示す指標を算出するステップと、
前記指標に基づき、前記バックグラウンド候補の値の範囲を絞り込むステップとを、前記コンピュータに実行させ、
前記減算値および対数値の取得、差異を示す指標の算出、バックグラウンド候補の値の絞込みを繰り返すことにより、バックグラウンド値を決定するように、前記コンピュータを動作させることを特徴とする請求項13に記載のプログラム。In determining the background value γ,
Selecting a plurality of background candidates and temporarily storing them in storage means;
From each of the extracted data values, the value of each background candidate is subtracted to obtain a subtraction value, and a logarithmic value obtained by logarithmically converting each subtraction value is obtained, and the logarithmic value is temporarily stored. The step of storing in
Calculating a standard value of a normal distribution corresponding to each of the logarithmic values;
Calculating an index indicating a difference between each logarithmic value and a standard value for each background candidate;
Narrowing the range of values of the background candidates based on the indicator, causing the computer to execute,
14. The computer is operated so as to determine a background value by repeatedly obtaining the subtraction value and logarithmic value, calculating an index indicating a difference, and narrowing down background candidate values. The program described in.
前記対数値のそれぞれに対応する標準値を算出するステップと、
前記対数値と標準値とを比較し、両者の比がほぼ一定に推移する範囲を求めるステップと、
前記標準値をx軸、対数値をy軸と考えた場合に、前記範囲において形成される直線の傾きおよびy切片を算出するステップと、
算出されたy切片を中心的傾向の特性値μと決定し、傾きを変動の特性値σと決定するステップとを、前記コンピュータに実行させることを特徴とする請求項13または14に記載のプログラム。In the step of determining the characteristic value μ of the central tendency and the characteristic value σ of fluctuation,
Calculating a standard value corresponding to each of the logarithmic values;
Comparing the logarithmic value with a standard value, and determining a range in which the ratio of the two changes substantially constant;
Calculating the slope and y intercept of a straight line formed in the range when the standard value is considered as the x axis and the logarithmic value as the y axis;
15. The program according to claim 13, further comprising: causing the computer to execute a step of determining the calculated y-intercept as a characteristic value μ of a central tendency and determining a slope as a characteristic value σ of variation. .
前記チップにおいてスポットが配置された列或いは行に関して、当該列或いは行ごとのデータ値の傾向を示す指標を算出するステップと、
前記指標に基づき、列或いは行ごとに特徴がある場合に、各列或いは各行について、それぞれ、そのデータ値の中央値を算出するステップと、
前記データ値を、対応する中央値で除して、除算値を取得して、これを記憶手段に一時的に記憶するステップとを、前記コンピュータに実行させ、
前記一時的に記憶された除算値を、アレイデータのデータ値に対応する値として、演算対象とすることを特徴とする請求項12ないし15の何れか一項に記載のプログラム。Furthermore, rearranging the data values in the order of the spots arranged on the chip, and temporarily storing them in the storage means in that order;
Calculating an index indicating a tendency of a data value for each column or row with respect to a column or row in which spots are arranged in the chip;
Calculating the median of the data values for each column or each row when there is a feature for each column or row based on the index; and
Dividing the data value by the corresponding median value to obtain a division value and temporarily storing it in a storage means, causing the computer to execute,
The program according to any one of claims 12 to 15, wherein the temporarily stored division value is a calculation target as a value corresponding to a data value of array data.
前記順序で、データ値の周期性を見出すステップと、
前記周期性のある場合に、各データ値から、当該周期の中心的傾向の特性値を減じて減算値を算出し、これを記憶手段に一時的に記憶するステップとを、前記コンピュータに実行させ、
前記一時的に記憶された減算値を、アレイデータのデータ値に対応する値として、演算対象とすることを特徴とする請求項12ないし17の何れか一項に記載のプログラム。Furthermore, rearranging the data values in the order of the spots arranged on the chip, and temporarily storing them in the storage means in that order;
Finding the periodicity of the data values in said order;
In the case of the periodicity, the computer is caused to execute a step of calculating a subtraction value by subtracting the characteristic value of the central tendency of the cycle from each data value and temporarily storing the subtraction value in the storage means. ,
The program according to any one of claims 12 to 17, wherein the temporarily stored subtraction value is a calculation target as a value corresponding to a data value of array data.
前記チップにおいてスポットが配置された列或いは行に関して、当該列または行ごとに、データ値の中心的傾向の特性値を算出するステップと、
前記中心的傾向の特性値に基づき、当該列或いは行に属するスポットに関するバックグラウンド値を設定し、当該スポットに関するデータ値のそれぞれから、バックグラウンド値を減じて減算値を算出するステップと、
前記減算値を、それぞれ対数化して、対数値を取得するステップと、
前記列或いは行に関して、前記対数値の中心的傾向の特性値を減算し、前記減算値を、記憶手段に一時的に記憶するステップとを、前記コンピュータに実行させ、
前記一時的に記憶された減算値を、アレイデータのデータ値に対応する値として、演算対象とすることを特徴とする請求項12ないし15の何れか一項に記載のプログラム。Reordering the data values in the order of the spots arranged on the chip;
Calculating the characteristic value of the central tendency of the data value for each column or row with respect to the column or row where the spot is arranged in the chip;
Setting a background value for a spot belonging to the column or row based on the characteristic value of the central tendency, subtracting the background value from each of the data values for the spot, and calculating a subtraction value;
Logarithmically each of the subtraction values to obtain a logarithmic value;
Subtracting the characteristic value of the central tendency of the logarithmic value with respect to the column or row, and temporarily storing the subtracted value in a storage means;
The program according to any one of claims 12 to 15, wherein the temporarily stored subtraction value is a calculation target as a value corresponding to a data value of array data.
前記チップにおいてスポットが配置された列或いは行に関して、当該列または行ごとに、データ値の中心的傾向の特性値を算出するステップと、
前記中心的傾向の特性値に基づき、当該列或いは行に属するスポットに関するバックグラウンド値の候補を設定し、当該スポットに関するデータ値のそれぞれから、バックグラウンド候補値を減じて減算値を算出するステップと、
前記減算値を、それぞれ対数化して、対数値を取得するステップと、
前記列或いは行に関して、前記対数値の中心的傾向の特性値を算出し、前記対数値のそれぞれから減じて第2の減算値を算出するステップと、
前記列或いは行に関して、前記データ値を、前記第2の減算値に基づき算出される変動の特性値で除して、除算値を取得し、これを記憶手段に一時的に記憶するステップと、
前記除算値と、対応する標準値とを比較し、これらの間の差異の指標が最も小さくなるような、バックグラウンド候補値をバックグラウンド値γと決定するステップと、
前記バックグラウンド値γ、当該バックグラウンド値γと関連する中心的傾向の特性値μおよび変動の特性値σを、それぞれ記憶手段に記憶するステップとを、前記コンピュータに実行させることを特徴とするプログラム。A computer-readable program for operating the computer to process the array data obtained based on the gene expression level to obtain analyzable data,
Calculating the characteristic value of the central tendency of the data value for each column or row with respect to the column or row where the spot is arranged in the chip;
Setting a candidate for a background value relating to a spot belonging to the column or row based on the characteristic value of the central tendency, and calculating a subtraction value by subtracting the background candidate value from each of the data values relating to the spot; ,
Logarithmically each of the subtraction values to obtain a logarithmic value;
Calculating a characteristic value of a central tendency of the logarithmic value for the column or row, and subtracting from each of the logarithmic values to calculate a second subtraction value;
Dividing the data value with respect to the column or row by the characteristic value of the fluctuation calculated based on the second subtraction value, obtaining a division value, and temporarily storing it in a storage means;
Comparing the division value with a corresponding standard value and determining a background candidate value as a background value γ such that an indicator of the difference between them is minimized;
Storing the background value γ, the characteristic value μ of the central tendency associated with the background value γ, and the characteristic value σ of fluctuation in the storage unit, respectively, in the computer. .
前記アレイデータを取得して、取得されたアレイデータのデータ値をソートし、ソートされたデータを、記憶手段に一時的に記憶するステップと、
前記ソートされたデータ値に対応する、正規分布の標準値を算出するステップと、
前記データ値に関して、その変動の特性値sを設定して、これを記憶手段に記憶するとともに、前記標準値のそれぞれに乗じて、乗算値を得るステップと、
前記データ値と乗算値とを比較し、両者の比が一定に推移する範囲を求めるステップと、
前記乗算値をx軸、対数値をy軸と考えた場合に、前記範囲において形成される直線の傾きおよびy切片を算出するステップと、
前記傾きの自然対数を中心的傾向の特性値u、切片をバックグラウンド値gと決定して、これらを記憶手段に記憶するステップとを、前記コンピュータに実行させることを特徴とするプログラム。A computer-readable program for operating the computer to process the array data obtained based on the gene expression level to obtain analyzable data,
Obtaining the array data, sorting the data values of the obtained array data, and temporarily storing the sorted data in a storage means;
Calculating a standard value of a normal distribution corresponding to the sorted data values;
Setting a characteristic value s of the fluctuation for the data value, storing the characteristic value s in a storage unit, and multiplying each of the standard values to obtain a multiplication value;
Comparing the data value and the multiplication value to obtain a range in which the ratio of the two values is constant;
Calculating the slope and y-intercept of the straight line formed in the range when the multiplication value is considered as the x-axis and the logarithmic value as the y-axis;
A program for causing the computer to execute a step of determining a natural logarithm of the slope as a characteristic value u of a central tendency and an intercept as a background value g and storing them in a storage means.
xi=(10u)*(10(s*Zi))+g
(ただし、Ziは、第i番目の標準値)を用いて、xiを解き、これを、記憶手段に一時的に記憶するステップと、
前記xiとして利用することができる値の下限値を求め、これを前記記憶手段に記憶するステップとを前記コンピュータに実行させることを特徴とする請求項21に記載のプログラム。further,
xi = (10 u ) * (10 (s * Zi) ) + g
(Where Zi is the i-th standard value), xi is solved, and this is temporarily stored in the storage means;
The program according to claim 21, wherein the computer is caused to execute a step of obtaining a lower limit value of a value that can be used as the xi and storing the lower limit value in the storage unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002166946A JP4266575B2 (en) | 2002-06-07 | 2002-06-07 | Gene expression data processing method and processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002166946A JP4266575B2 (en) | 2002-06-07 | 2002-06-07 | Gene expression data processing method and processing program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004013573A true JP2004013573A (en) | 2004-01-15 |
JP4266575B2 JP4266575B2 (en) | 2009-05-20 |
Family
ID=30434337
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002166946A Expired - Fee Related JP4266575B2 (en) | 2002-06-07 | 2002-06-07 | Gene expression data processing method and processing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4266575B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006030822A1 (en) * | 2004-09-14 | 2006-03-23 | Toudai Tlo, Ltd. | Gene expression data processing method and processing program |
WO2008056693A1 (en) * | 2006-11-08 | 2008-05-15 | Akita Prefectural University | Dna micro array data processing method, processing device, and processing program |
JP2010510557A (en) * | 2006-11-21 | 2010-04-02 | 公立大学法人秋田県立大学 | Method for detecting defects in DNA microarray data |
KR101717141B1 (en) * | 2016-06-13 | 2017-03-16 | 한국과학기술정보연구원 | Apparatus and method of survival analysis for patients using genetic switch threshold |
-
2002
- 2002-06-07 JP JP2002166946A patent/JP4266575B2/en not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006030822A1 (en) * | 2004-09-14 | 2006-03-23 | Toudai Tlo, Ltd. | Gene expression data processing method and processing program |
WO2008056693A1 (en) * | 2006-11-08 | 2008-05-15 | Akita Prefectural University | Dna micro array data processing method, processing device, and processing program |
JP5147073B2 (en) * | 2006-11-08 | 2013-02-20 | 公立大学法人秋田県立大学 | DNA microarray data processing method, processing apparatus, and processing program |
JP2010510557A (en) * | 2006-11-21 | 2010-04-02 | 公立大学法人秋田県立大学 | Method for detecting defects in DNA microarray data |
KR101717141B1 (en) * | 2016-06-13 | 2017-03-16 | 한국과학기술정보연구원 | Apparatus and method of survival analysis for patients using genetic switch threshold |
Also Published As
Publication number | Publication date |
---|---|
JP4266575B2 (en) | 2009-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20030182066A1 (en) | Method and processing gene expression data, and processing programs | |
US20040166522A1 (en) | Microarray, method for producing the same, and method for correcting inter-PIN spotting amount error of the same | |
CN102395977B (en) | Methods for nucleic acid quantification | |
Bajcsy | An overview of DNA microarray image requirements for automated processing | |
JP4266575B2 (en) | Gene expression data processing method and processing program | |
EP1190762B1 (en) | Method for displaying result of hybridization experiment using biochip | |
WO2006030822A1 (en) | Gene expression data processing method and processing program | |
CN102576389B (en) | Analytical tool for amplified reaction | |
KR20070086080A (en) | Method, program and system for the standardization of gene expression amount | |
JP6280910B2 (en) | Method for measuring the performance of a spectroscopic system | |
US20030004939A1 (en) | Search scheduling apparatus, program and recording medium having the same program recorded therein | |
US20050096850A1 (en) | Method of processing gene expression data and processing program | |
KR20020047038A (en) | Mathematical Analysis for the Estimation of Changes in the Level of Gene Expression | |
JP2003028862A (en) | Dna microarray data correcting method | |
EP1691311A1 (en) | Method, system and software for carrying out biological interpretations of microarray experiments | |
EP1134687A2 (en) | Method for displaying results of hybridization experiments | |
CN117672343B (en) | Sequencing saturation evaluation method and device, equipment and storage medium | |
CN109920474A (en) | Absolute quantification method, device, computer equipment and storage medium | |
Lauren | Algorithm to model gene expression on Affymetrix chips without the use of MM cells | |
EP4190886A1 (en) | Information provision device, information provision system, information provision method, and program | |
KR100469608B1 (en) | Method and system for analyzing dna microarray data | |
US20080108510A1 (en) | Method for estimating error from a small number of expression samples | |
JP2006191844A (en) | Method, program and system for estimating target nucleic acid content | |
Podila et al. | 24 Microarray Data Collection | |
Bengtsson et al. | Identifying differentially expressed genes in cDNA microarray experiments: making aging visible” |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050603 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050620 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080701 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080828 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081021 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090210 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090217 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4266575 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120227 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120227 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120227 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130227 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |