JP2023544647A

JP2023544647A - 多次元時系列データのためのデータ圧縮

Info

Publication number: JP2023544647A
Application number: JP2023537885A
Authority: JP
Inventors: クレッター，ドロン
Original assignee: プロテイン・メトリクス・エルエルシー
Priority date: 2020-08-31
Filing date: 2021-08-31
Publication date: 2023-10-24
Also published as: EP4204948A1; US20220067980A1; WO2022047368A1; US11276204B1; US11790559B2; US20220207778A1; US20240070923A1

Abstract

本明細書に説明されるのは、疎の多次元順序付き系列データを圧縮するためのコンピュータ実装方法である。特に、それらを実施するためのこれらの方法および装置（ソフトウェアを含む）は、分光データを効率的に圧縮するのに特によく適している場合がある。

Description

関連出願の相互参照
[0001]本特許出願は、参照により本明細書に全体が組み込まれる、２０２０年８月３１日出願の「ＤＡＴＡＣＯＭＰＲＥＳＳＩＯＮＦＯＲＭＵＬＴＩＤＩＭＥＮＳＩＯＮＡＬＴＩＭＥＳＥＲＩＥＳＤＡＴＡ（多次元時系列データのためのデータ圧縮）」という名称の米国仮特許出願第６３／０７２，８９０号に対する優先権を主張するものである。
参照による組み込み
[0002]本明細書内で述べられるすべての刊行物および特許出願は、各々個々の刊行物または特許出願が参照により組み込まれるように具体的かつ個々に示される場合と同程度まで、それらの全体が参照により本明細書に組み込まれる。

[0003]本明細書に説明されるのは、質量分析法、顕微鏡法および蛍光顕微鏡法における分光分析データ、ならびに病理組織データなど（これらに限定されるものではないが）大きな多次元データセットを圧縮するためのシステムおよび方法である。

[0004]生物学、化学、天文学、物理学、地質学、および物体追跡など、理工学の多くの領域において、大量の分光分析データがしばしば収集および格納される。技術が進歩するにつれて、デジタル顕微鏡および質量分析センサを用いてますます高いレベルの詳細部を捕捉するための感度および能力が増大し、獲得され得るデータの量が、それに応じて増加する。例えば、質量分析は、数時間以内に、最大で３０ＧＢ以上のサイズになり得る単一のデータセットを頻繁に生成する。現在利用可能な機器を使用すると、１０^６のデータ点および１０^６の質量強度値を伴う１０^４の質量分析データセットが容易に取得され得、結果として４ＴＢの生ファイルサイズをもたらす。

[0005]同様に、現代の明視野顕微鏡機器は、顕微鏡ガラス上の組織の薄い５ミクロン片の全スライド多重画像をスキャンすることができ、最大１２０，０００×５０，０００画素のフルカラー画像を生成し、結果として各組織片ごとに６ＧＢの生ファイルサイズをもたらす。組織は、手術、生検、または剖検によって取り出され、薄片へとスライスされ、目的とする下層の細胞および生物学的構造を視覚化できるようにするために１つまたは複数の顔料によって染色され、背景の定着薬とは区別される。このような顕微鏡画像は、がんを含む疾患検出および監視のために、ならびに積極的な疾患研究および効果的な疾患バイオマーカの識別のために、臨床医学において日常的に使用される。

[0006]医用画像の分野において、組織片全体は、各約１～５ミクロンの多くの薄片へとスライスされ得、各組織片は、デジタル顕微鏡を使用してスキャンされ、結果として生じる画像は、閲覧者が、一度に１片ではなく、組織全体を３次元でまとめて視覚化および調査することを可能にする画像のスタックを作成するために互いの上に層化される。この技術は、Ｚスタックとして知られる。典型的な直径５～１０ミリメートルの単一の腫瘍は、所望のスライス分解および切断ブレード厚さに応じて、数千の組織片を提供し得る。１０００片では、結果として生じるＺスタックファイルサイズは、６ＴＢもの大きさになり得る。

[0007]単一の顕微鏡画像、またはＺスタックは、単一の時間点における組織状態の静止視野のみを提供する。研究者および疾病病理学者は、多くの場合、どのように所与の薬物または治療が経時的に組織に影響を及ぼすか、およびどのくらいの間、薬物が、身体から取り除かれる前に、組織内で効果的なままであるかについて関心がある。動的な挙動を理解するために、複数の画像が経時的に取られ、映画のフレームのように、時間的に連続して層化される。閲覧者は、次いで、従来のビデオプレイヤーを使用して、経時的に画像シーケンス再生を見ることができる。ここでも、時系列データの結果として生じるファイルサイズは、人間の目による時系列データのスムーズな観察に必要な、１秒あたり３０再生フレーム以上で捕捉されるときは特に、非常に大きくなる。

[0008]蛍光顕微鏡法の分野において、試料は、特定の波長の励起光によって照明され、これにより、試料内に自然に存在するか、または特定のタンパク質、生物学的細胞構造体、もしくは複合抗体への結合により特にもたらされるかのいずれかである蛍光色素分子に、光を、通常は異なる波長で放出させ、この放出光が、画像として顕微鏡により捕捉される。

[0009]現代の多重化蛍光顕微鏡の近年の進歩は、現在、複数の属性を同時に視覚化するために、各々が異なる波長を放出し、各々が異なる細胞構造体または生物学的特性に結合する蛍光色素分子染料のセットを用いることができる。例えば、１つのタイプの蛍光染料は、細胞核にのみ結合し得るが、別の染料は、外側の細胞膜に結合し得、さらに第３のタイプの染料は、がん細胞にのみ結合するために使用され得る。

[0010]各染料が異なる波長を使用することから、多重化蛍光顕微鏡は、典型的には、各染料につき１つ、互いの上に層化される（垂直方向が異なる染料を反映することを除き、Ｚスタックと同様の）一連の画像を出力する。蛍光顕微鏡法は、疾病検出および予防のために、ならびに臨床医学およびバイオマーカ発見において、日常的に使用される。ＡｌｅｘａＦｌｏｕｒシリーズおよびＣｙ５染料など、市販の染料は容易に入手可能である。所与の実験における染料の数は、最大１０個の染料またはそれ以上など、様々であり得る。共焦点蛍光顕微鏡は、典型的には、各染料に約３ＧＢ、合計で最大３０ＧＢファイルサイズの複数のスタック画像からなる大きいファイルを生成する。

米国特許第７３９７９６１号明細書米国特許第８０２３７５０号明細書米国特許第９３８５７５１号明細書

[0011]データセットのサイズが増加すると、これらのより大きいデータセットを迅速かつ効率的に管理する（例えば、格納、転送、および分析する）ことがそれに応じて困難になる。本明細書に説明されるのは、これらの問題に対処するシステムおよび方法である。

[0012]本明細書に説明される装置および方法は、分光分析データを取り扱うときに特に重大である大量のデータを格納および転送する必要性に対処する。この問題への従来の手法は、データサイズ全体を低減するために、圧縮のいくつかの手段をデータに適用しなければならなかった。本明細書に説明される方法および装置（例えば、システム）は、最大で３３０倍もの高忠実度画像圧縮を提供する。これらの技術は、多次元分光分析（例えば、質量分析）、多次元撮像データセットなどの多次元データセットを含む極端に大きいデータセットに適用され得る。処理および圧縮されたデータセットは、高倍率（例えば、撮像データセットでは最大４０Ｘの倍率）で見たとき元のデータ／画像とほとんど区別ができない高忠実度で復元され得る。提案された方法は、このタイプのデータを格納および転送する費用の大幅な減少、ならびに、画像のオンデマンド処理および閲覧を含む、著しくより速い処理時間を結果としてもたらし得る。

[0013]既存の圧縮方法は、大きな多次元分光分析データを取り扱うことにおいてあまり効果的ではない。本明細書で使用される場合、大きいデータセットは、非圧縮形式で１ＧＢ超（例えば、１０ＧＢ超、５０ＧＢ超、１００ＧＢ超、１～１００ＧＢなど）を有するものを含み得る。本明細書に説明される方法および装置は、高い度合いの圧縮が達成されるにもかかわらず、元のデータセットからの忠実度の著しい損失を防ぎ得る。ＢＺＩＰ２、ＬＺＷ、およびＺＩＰなどの無損失圧縮方法が、一般的に使用されるが、これは主に、元のデータが情報のいかなる損失もなしに完全に復元され得るからである。しかしながら、無損失圧縮で獲得され得る圧縮の量は、通常限られており、典型的には、分光分析データでは２未満であり、場合によっては、結果として生じる圧縮ファイルサイズは、特定の無損失圧縮方法に応じて、拡大して元のファイルよりも大きくなることさえある。

[0014]多くの状況において、限られた量の損失に耐えることができるシステムにおいて不可逆圧縮方法を使用することは、多くの場合容認される。この文脈における不可逆圧縮とは、復元されたデータが、解凍後、圧縮に入力される元のデータと全く同じではない場合がある圧縮方法を指す。復元されたデータと元のデータとの間の絶対差、すなわち復元誤差、が十分に小さい限り、いくつかのシステムにおいて、その状況は容認され得る。しかしながら、損失が許されると、誤差の主観的性質に起因して、結果の精度を補償することは、多くの場合困難である。不可逆圧縮方法は、従来、データ内に本質的な冗長性が存在する状況において、例えば、肉眼では局部近傍における高周波数変動を区別することができない、デジタルおよび携帯電話カメラ画像処理において、適用されており、故に、高周波数成分をフィルタアウトすることがノイズを低減するための手段として望ましい。

[0015]放射線またはｘ線検出器および分光計、加速度計、質量分光計、顕微鏡および蛍光顕微鏡、ならびに病理組織撮像素子を含むがこれらに限定されない、多くのセンサおよび分析器は、可能な限り高い精度を保持するために、バイナリおよび倍精度浮動小数点値を使用してデータを収集および格納する。そのようなセンサを使用して獲得される大きいデータセットは、多くの場合、既存の従来の圧縮システムを利用して認識され効果的に圧縮され得る繰り返しパターンを含まない。倍精度浮動小数点数、および、さもなければ既存の従来の方法による圧縮には適さない高ダイナミックレンジ、例えば、最大で６４ビット／画素の整数データ、からなる大きいデータセットを圧縮することができる方法およびシステムが必要とされている。本明細書に説明される方法および装置によって対処される基本原理は、データの圧縮であるが、本明細書において説明および特許請求される特定の実施形態は、疎の多次元順序付き系列データの大きいセット、および特に、分光分析データの大きいセットが直面する固有の問題に合うように調整される特定の様式でこの広範な原理を適用し得る。

[0016]疎の多次元順序付き系列データからの個々のデータ系列は、他のデータ系列とは独立して圧縮され得る。しかしながら、特に質量分析法および顕微鏡法を含む、多くの状況では、高レベルの相関が、後続のデータ系列の中に頻繁に存在し得る。

[0017]本明細書に説明されるデータ（例えば、多次元時系列データ）を圧縮するための方法およびシステムは、いくつかのデータ系列を一緒に圧縮することを含む、以前に説明された圧縮方法に勝る利点を有し得る。一度に、例えば、同時または順次に、２つ以上のデータ系列を圧縮すること、および異なるデータセット内のデータ同士の関係（例えば、相関）を使用することによって、第１または現在のデータ系列内の相関部分が、１つまたは複数の以前に処理されたデータ系列から予測され得、以て、相関部分は、現在の系列データから予測部分を減算することによって除去され得る。この手法の利点は、現在の系列データのために符号化および伝送されなければならないデータの量を著しく低減することにある。符号化情報の量におけるこのような低減は、相関した現在の系列データごとに、著しくより高い圧縮を提供する。

[0018]解凍中、現在のデータ系列の相関部分は、元のコンテンツを復元するために、同様の様式で以前のデータ系列から生成され、現在の解凍データ系列に自動的に追加され得る。したがって、相関部分は、符号化ストリーム内にいかなる追加のビットも要求することなく完全に復元され得る。

[0019]１つまたは複数のデータ系列を一緒に圧縮することは、系列データ全体を一度に圧縮することに限定されない。各々の所与の系列データは、重複または非重複ローカルデータ領域へと分割され得、これにより、相関のレベルが、現在の系列データおよび１つまたは複数の以前の系列データの対応するローカル領域の間で演算され得る。特に、これらの方法およびシステムは、現在の系列データ内の現在のローカル領域と１つまたは複数の以前の系列データ内の同じローカル領域との相関のレベルを識別し得る（本明細書における使用のため）。例えば、現在のローカル領域内の相関したローカルピークのセットは、１つまたは複数の以前の系列データのローカル領域内の対応するピークのセットから予測され得る。

[0020]それらを実施するためのこれらの方法およびシステムのいずれかは、著しいレベル（例えば、しきい値レベル）の相関が現在の系列データと１つまたは複数の以前の系列データのローカル領域との間に存在するときにのみ、相関部分を除去し得る。これは、弱い相関レベルではあまり信頼性の高くない予測および除去ステップにおけるノイズおよび丸め誤差の導入を防ぎ得るか、またはこれを低減し得る。

[0021]相関予測が特定のローカル領域で使用され他では使用されないとき、解凍時間中、デコーダに、ローカル領域ごとに、相関予測復元を適用するように、場合によっては適用しないように指示するために、追加のビットを圧縮ストリームに導入することが役立ち得る。例えば、各ローカル領域あたりの、追加のビットは、圧縮ファイルサイズを増加させ得、圧縮を低減し得る。

[0022]さらに本明細書に説明されるのは、圧縮を損なうことなく、各ローカル領域あたりのそのような追加のビットの必要性を除去または低減するための方法およびシステムである。現在の系列データと１つまたは複数の以前の系列データとの相関のレベルは、演算され、所与のしきい値と比較され得る。現在のローカル領域における相関レベルが所与のしきい値に等しいか、これを超える場合、予測アルゴリズムが、相関レベルを予測してそこから現在の系列データを減算するために適用され得る。そうではなく、現在のローカル領域における計算された相関レベルが所与のしきい値を下回る場合、予測は適用されない。本プロセスは、ローカル領域ごとに順に繰り返され得、相関部分の存在を自動的に検出し、各ローカル領域において、著しいレベルの相関が存在するときはいつでも、いかなる追加のビットも圧縮ストリームに導入することなく、相関部分を除去する。

[0023]解凍時、各ローカル領域内の相関のレベルは、再度、復元されたデータから演算され得る。現在のローカル領域における相関レベルが所与のしきい値に等しいか、またはこれを超える場合、現在のデータ系列の相関部分は、元のコンテンツを復元するために、同様の様式で以前のデータ系列から生成され、現在の解凍されるデータ系列に自動的に追加され得る。したがって、相関部分は、符号化ストリーム内にいかなる追加のビットも要求することなく完全に復元され得る。

[0024]例えば、これらのデータ圧縮方法およびシステムは、質量分析（ＭＳ）データに特に有用であり得る。故に、これらの変形のいずれかにおいて、データは、多次元質量分析系列データを含み得、データは、インデックス付きデータセットを含み、各インデックス付きデータセットは、保持時間インデックスを表すインデックス（ｎ）、インデックスｎにおける質量／電荷ｍ／ｚを表す第１の変数（ｘ_ｎ）、および機器によって観察されるイオンフラグメントの強度または数を表す第２の変数（ｙ_ｎ）を含む。

[0025]いくつかの変形において、データは、多次元質量分析系列データであり得、データは、インデックス付きデータセットからなり、各インデックス付きデータセットは、保持時間インデックスを表すインデックス（ｎ）、インデックスｎにおける質量／電荷ｍ／ｚを表す第１の変数（ｘ_ｎ）、機器によって観察されるイオンフラグメントの強度または数を表す第２の変数（ｙ_ｎ）、およびイオン移動度ドリフト管を通って進むイオンの観察されたイオン移動度を表す第３の変数（ｚ_ｎ）を含む。

[0026]特に多次元撮像データを含む、任意の他のタイプの多次元データが、これらの方法およびシステムによって処理され得る。例えば、いくつかの変形において、データは、多次元明視野顕微鏡画像系列データであり得、データは、インデックス付きデータセットを含み得、各インデックス付きデータセットは、画像の所与のローカル領域内の画素インデックスを表すインデックス（ｎ）、および顕微鏡によって捕捉される画素強度を表す第１の変数（ｘ_ｎ）を含む。

[0027]例えば、データは、多次元明視野顕微鏡画像系列データであり得、データは、インデックス付きデータセットからなり、各インデックス付きデータセットは、画像の所与のローカル領域内の画素インデックスを表すインデックス（ｎ）、第１の色成分の強度を表す第１の変数（ｘ_ｎ）、第２の色成分の強度を表す第２の変数（ｙ_ｎ）、および画像の第３の色成分の強度を表す第３の変数（ｚ_ｎ）を含む。一般性を失うことなく、任意の数の変数、例えば、任意の数の色成分が使用され得ること、および成分は、例えば、標準ＲＧＢまたはＹＣｂＣｒ輝度－クロミナンス表現など、規定の色空間の任意の色成分であり得るということに留意されたい。

[0028]いくつかの変形において、データは、多次元多重化蛍光顕微鏡系列データであり得、データは、インデックス付きデータセットからなり、各インデックス付きデータセットは、画像の所与のローカル領域内のインデックス（ｎ）画素インデックス、特定の蛍光染料層を表す第２のインデックス変数（ｋ）、第１の色成分の強度を表す第１の変数（ｘ_ｎ）、第２の色成分の強度を表す第２の変数（ｙ_ｎ）、および画像の第３の色成分の強度を表す第３の変数（ｚ_ｎ）を含む。述べられるように、任意の数の変数（例えば、次元）が、一般性を失うことなく、含まれ、使用され得る。例えば、蛍光顕微鏡データでは、変数の数は、色成分の任意の数であり得、成分は、例えば、標準ＲＧＢまたはＹＣｂＣｒ輝度－クロミナンス表現など、規定の色空間の任意の色成分であり得る。

[0029]例えば、データは、多次元多重化蛍光顕微鏡系列データであり得、第１、第２、および第３の色成分は、フルカラー画像であり、各画像の色は、互いの上にいくつかの複数の染料からの情報を層化することによって複雑な細胞またはバイオマーカ相互作用を可視化するために、顕微鏡オペレータによって人工的に割り当てられる疑似カラーである。例えば、ＤＡＰＩ（４’，６－ジアミジノ－２－フェニルインドール）は、蛍光顕微鏡法、フローサイトメトリ、および染色体着色において核対比染色として一般的に使用される青色蛍光ＤＮＡ着色剤である一方、ＡｌｅｘａＦｏｕｒ５４６は、様々な細胞ラベリングおよび検出のために最適化され得る明るい黄色の染料である。各染料の観察された蛍光発光は、単色像として表現され、これにより、顕微鏡オペレータは、典型的には、各単色像に特定の色を割り当て、互いの上に疑似カラー化された画像を層化することによって複数の染料の相互作用を一緒に同時に視覚化するために、ＤＡＰＩの場合は、色のパレットから選択される特定の色合いの青色を、またＡｌｅｘａＦｏｕｒ５４６の場合は、これも色のパレットから選択される特定の色合いの黄色をなど割り当てて、典型的な多重化蛍光顕微鏡画像を形成し得る。

[0030]本明細書に説明される方法およびシステムは、例えば、インデックス付きデータセットを伴って使用され得、各インデックスインデックス付きデータセットは、画像の所与のローカル領域内の画素インデックスを表すインデックス（ｎ）を含み、これにより、系列データ全体は、Ｎ個の重複または非重複ローカル領域へと分割され、各ローカル領域は、後続画素の長さからなり、圧縮は、各ローカル領域に順に適用される。

[0031]いくつかの変形において、データは、インデックス付きデータセットを含み、各インデックス付きデータセットは、画像の所与のローカル領域内の画素インデックスを表すインデックス（ｎ）を含み、これにより、系列データ全体は、Ｎ個の重複または非重複ローカル領域へと分割され、各ローカル領域は、特定の幅および高さの矩形局部近傍からなり、圧縮は、各ローカル領域に順に適用される。

[0032]本明細書に説明される方法および装置（例えば、システム）は、以前には可能ではなかった様式で、データの疎の多次元順序付き系列を著しく圧縮し得る。例えば、ファイルサイズの約２～３倍の低減しか提供しない場合がある、「ＺＩＰ」ファイル圧縮など、質量分析（ＭＳ）データのための標準ファイル圧縮と比較して、本明細書に説明される圧縮方法は、ファイルサイズの３００倍低減を結果としてもたらし得る。

[0033]簡便性のため、本明細書に説明されるデータセットは、前モチーフ圧縮（ＰＭ圧縮）または前相関領域（ＰＣＲ）圧縮のいずれかと称され得る。
[0034]例えば、疎の多次元順序付き系列データを圧縮するためのコンピュータ実装方法は、多次元順序付き系列データを複数のローカル領域へと分割するステップであって、各ローカル領域内のデータは、１つまたは複数のインデックス付きデータセットを含み、各インデックス付きデータセットは、画像の所与のローカル領域内のインデックス（ｎ）、およびインデックス（ｎ）によってインデックス化される１つまたは複数の変数を含む、ステップと、インデックス（ｎ）、現在のローカル領域データ、および少なくとも１つの以前のローカル領域データの関数として、１つまたは複数の変数の各々を計算する予測因子を識別するステップと、しきい値を超える相関のレベルが現在のローカル領域データと以前のローカル領域データとの間に存在するとき、スケーリングされた予測相関データを、少なくとも１つの以前のローカル領域データに基づいて減算することによって現在のローカル領域データを調節するステップと、最適倍率を含む調節された現在のローカル領域データを、圧縮ストリーム内へ符号化するステップと、を含み得る。

[0035]多次元順序付き系列データは、任意のタイプのデータ、特に撮像および／または分光データであり得る。データは、複数の重複ローカル領域、または複数の非重複ローカル領域へと分割され得る。

[0036]これらの方法（またはそれらを実施するための装置）のいずれかは、現在のローカル領域と以前のローカル領域との相関レベルを演算し得る。例えば、ＭＳデータでは、相関レベルは、現在のローカル領域データと前記少なくとも１つの以前のローカル領域データとの間に存在する一連の類似ピークから演算され得る。類似ピークの連続サブセットは、類似ピークのサブセットからのピークの大半が、ほぼ同じ質量／電荷比、後続のピーク間の間隔から決定されるような、ほぼ同じ電荷状態、およびａｖｅｒｇｉｎｅモデルに一致する類似ピーク強度存在度分布のうちの１つまたは複数を有する場合に、類似とみなされ得る。

[0037]一般に、圧縮ストリームは、最善の倍率（本明細書では等価に、最適化された倍率または最適倍率とも称される）と一緒に、上に説明されるような修正されたローカル領域を含み得る。最適化倍率は、典型的には、一連のピークについてローカル領域サブセットにつき１つの値を含み得る（ピーク値あたりの個々の倍率に対立するものとして）。

[0038]以前のローカル領域（本明細書では前のローカル領域またはテンプレート領域とも称され得る）は、エンコーダとデコーダとの間の合意によって設定され得る。いくつかの変形において、以前のローカル領域は、スキャン順に以前のローカル領域（例えば、ラスタースキャン順にすぐ左側の領域）に対応するように設定され得る。別の変形において、以前のローカル領域は、本明細書に説明されるように、（ａ）すぐ左、（ｂ）すぐ上、または（ｃ）すぐ上かつ左（斜め）のうちの１つであり得る。いくつかの変形において、エンコーダは、３つすべてを検査し得、最も高い相関レベルを有するものを選択し得る。デコーダは、データ自体から以前のローカル領域を決定し得る（例えば、それは、コンテンツを復元した後、３つすべての可能な領域を検査し得る）か、それは、圧縮ストリーム内で符号化される以前のローカル領域の識別情報を提供され得る。いくつかの変形において、以前のローカル領域は、上記の（ａ）、（ｂ）、および（ｃ）などの平均であり得る。故に、一般に、エンコーダおよびデコーダは、同じ参照された以前のローカル領域を使用する。

[0039]例えば、エンコーダおよびデコーダは共に、上記の（ａ）に説明されるように、現在のローカル領域のすぐ左にある領域を以前のローカル領域として使用するように設定され得る。これは、特定の圧縮結果を提供し得る。いくつかの変形において、圧縮は、例えば、上記の（ａ）、（ｂ）、または（ｃ）に対応する、現在のローカル領域からすぐ左、上、および／または斜めの１つの以前のローカル領域（またはその組み合わせ）を選択することによって増加され得る。エンコーダが２つ以上を見ている（例えば、それは、これらの領域ａ、ｂ、および／またはｃの３つすべてを見ることができる）変形において、それは、これらの領域のうちの１つにおいて、これらの領域の他のものと比較してより高い相関を見出し得る。述べられるように、所与の実装形態において、エンコーダおよびデコーダは、例えば、これらの前ローカル領域（ａ、ｂ、および／またはｃ）のうちの１つまたは複数を常に使用する、同じ（例えば、固定の）方法に設定され得る。

[0040]いくつかの実装形態において、ヘッダ（例えば、１バイトのヘッダ）が、例えば、現在のローカル領域からすぐ左、すぐ上、および／またはすぐ上かつ左（例えば、斜め）の前ローカル領域を示すことなど、利用可能な方法の予め規定されたリストの中から、使用されるべき特定の前ローカル領域を特定するために使用され得る。故に、エンコーダ（このヘッダを符号化し得る）は、例えば、特定のヘッダバイト内にコードを送信することによって、予め規定された前ローカル領域のうちのどれを使用すべきかを、デコーダ（このヘッダを読み出し得る）に伝え得る。

[0041]さらに本明細書に説明されるのは、疎の多次元順序付き系列データを圧縮するためのシステムである。これらのシステムは、命令が格納された非一時的なコンピュータ可読媒体を含み得、該命令は、プロセッサによって実行されるとき、プロセッサに、本明細書に説明される方法のいずれかを実施させる。例えば、命令が格納された非一時的なコンピュータ可読媒体は、多次元順序付き系列データを複数のローカル領域へと分割することであって、各ローカル領域内のデータは、１つまたは複数のインデックス付きデータセットを含み、各インデックス付きデータセットは、画像の所与のローカル領域内のインデックス（ｎ）、およびインデックス（ｎ）によってインデックス化される１つまたは複数の変数を含む、分割することと、インデックス（ｎ）、現在のローカル領域データ、および少なくとも１つの以前のローカル領域データの関数として、１つまたは複数の変数の各々を計算する予測因子を識別することと、しきい値を超える相関のレベルが現在のローカル領域データと以前のローカル領域データとの間に存在するとき、スケーリングされた予測相関データを、少なくとも１つの以前のローカル領域データに基づいて減算することによって現在のローカル領域データを調節することと、最適倍率を含む調節された現在のローカル領域データを、圧縮ストリーム内へ符号化することと、を行うように構成され得る。

[0042]述べられるように、さらに本明細書に説明されるのは、本明細書に説明される圧縮データ（例えば、疎の多次元順序付き系列データ）のいずれかを解凍する方法である。例えば、本明細書に説明されるのは、圧縮データファイルまたはストリームから疎の多次元順序付き系列データを解凍するためのコンピュータ実装方法であり、本方法は、圧縮データファイルまたはストリームを受信するステップと、圧縮データファイルまたはストリームから調節されたローカル領域データを復号するステップであって、復号した調節されたローカル領域データは、復元されるべき標的ローカル領域に対応する、ステップと、最適倍率によってスケーリングされる予測ローカル領域ピークを生成するために、調節されたローカル領域データを１つまたは複数の以前のローカル領域と比較することによって、圧縮データファイルまたはストリームから予測因子倍率を復号するステップと、復元されたローカル領域データを提供するために、予測ローカル領域ピークおよび復号した調節されたローカル領域データを一緒に追加するステップと、復元されたローカル領域データを出力するステップと、を含む。

[0043]例えば、圧縮データファイルまたはストリームから疎の多次元順序付き系列データを解凍するためのコンピュータ実装方法は、圧縮データファイルまたはストリームを受信するステップと、圧縮データファイルまたはストリームから調節されたローカル領域データを復号するステップであって、復号した調節されたローカル領域データは、復元されるべき標的ローカル領域に対応する、ステップと、調節されたローカル領域データからのピークのサブセットを識別するために、調節されたローカル領域データを、調節されたローカル領域データからオフセットされる１つまたは複数の以前のローカル領域データと比較すること、および予測ローカル領域ピークを生成するために、圧縮データファイルまたはストリームから抽出される最適倍率によってピークのサブセットをスケーリングすることによって、圧縮データファイルまたはストリームから予測因子倍率を復号するステップと、復元されたローカル領域データを生成するために、予測ローカル領域ピークおよび復号した調節されたローカル領域データを一緒に追加するステップと、復元されたローカル領域データを出力するステップと、を含む。

[0044]さらに本明細書に説明されるのは、プロセッサによって実行されるとき、プロセッサに、本明細書に説明されるコンピュータ実装方法のいずれかを実施させる命令が格納された非一時的なコンピュータ可読媒体、および／またはこれらの非一時的なコンピュータ可読媒体を含むシステムである。

[0045]これらの方法および装置（例えば、システム、媒体など）のいずれかは、データを符号化するために使用されるエンコードを適用するデコーダを使用して、ローカル領域データおよび予測因子倍率を調節することを含み得る。

[0046]述べられるように、予測因子倍率を復号するステップは、調節されたローカル領域データからのピークのサブセットを識別するために、調節されたローカル領域データを、調節されたローカル領域データからオフセットされる１つまたは複数の以前のローカル領域と比較すること、および予測ローカル領域ピークを生成するために、最適倍率によってピークのサブセットをスケーリングすることを含み得る。

[0047]一般に、これらの方法および装置は、いつ予測ローカル領域ピークおよび復号した調節されたローカル領域データを一緒に追加するべきかを動的に決定し得る（閾値化を使用して）。例えば、復元されたローカル領域データを提供するために、予測ローカル領域ピークおよび復号した調節されたローカル領域データを一緒に追加するステップは、調節されたローカル領域データと１つまたは複数の以前のローカル領域との相関がしきい値レベルを超えるとき、予測ローカル領域ピークおよび復号した調節されたローカル領域データを一緒に追加し、そうでなければ、復元されたローカル領域データを復号した調節されたローカル領域データに設定することを含む。いくつかの例において、予測ローカル領域ピークおよび復号した調節されたローカル領域データを一緒に追加するステップは、調節されたローカル領域データと１つまたは複数の以前のローカル領域との相関レベルを演算し、相関レベルがしきい値を超えるときにのみ、予測ローカル領域ピークおよび復号した調節されたローカル領域データを一緒に追加し、そうでなければ、復元されたローカル領域データを復号した調節されたローカル領域データに設定することを含む。

[0048]符号化のように、一般に、復号は、圧縮データストリームが受信されると、圧縮データストリームを連続的に使用することによって行われ得るか、または、圧縮データファイルを受信した後、および場合によっては、圧縮データファイルを格納した後に行われ得る。故に、いくつかの例において、圧縮データファイルまたはストリームの一部分のみが復元される。いくつかの例において、圧縮データファイルまたはストリームを受信することは、圧縮データストリームを受信すること、およびストリームが受信されると（同時に）処理することを含む。

[0049]さらに、これらの方法または装置のいずれかは、圧縮データファイルまたは圧縮データストリームの一部分を復号するために使用され得る。例えば、これらの方法または装置のいずれかは、圧縮データファイルまたは圧縮データストリームをその全体において復元するために復号、追加、および出力ステップを反復的に繰り返し得る。

[0050]これらの方法のいずれかは、圧縮データファイルまたはストリームから最適倍率を取得するステップをさらに含み得る。最適倍率は、圧縮データファイルまたは圧縮データストリーム内の予め決定された、またはマークされた場所において、圧縮データファイルストリーム内で符号化され得る。

[0051]これらの方法または装置（例えば、システム）のいずれかは、複数の現在のローカル領域を順次に処理するために、復号するステップおよび調節されたローカル領域データ、ならびに予測ローカル領域ピークおよび復号されたローカル領域データを追加するステップをさらに含み得る。

[0052]本明細書に説明される方法および装置の特徴および利点のより良好な理解は、例証的な実施形態を明記する以下の詳細な説明、および添付の図面を参照して得られるものとする。

[0053]多次元データ圧縮方法の一例を例証するブロック図の一例を示す図である。 [0054]本明細書に説明される方法を使用して圧縮され得るＭＳデータの一例を例証する図であり、図２では、ＭＳデータは、インデックス付き系列データのセットを示す現在のローカル領域データを示し、各インデックス付き系列データは、インデックス（ｎ）、第１の変数（ｘ_ｎ）（この例では、質量／電荷比、ｍ／ｚ）、および第２の変数（ｙ_ｎ）（この例では、所与のｍ／ｚを有するイオンフラグメントの強度存在度数）からなり、水平軸は、質量／電荷比であり、垂直軸は、強度イオンフラグメント数である、図である。 [0055]インデックス付き系列データのセットを示す対応する以前のローカル領域データの例を示す図であって、各インデックス付き系列データは、インデックス（ｎ）、第１の変数（ｘ_ｎ）（質量／電荷比、ｍ／ｚ）、および第２の変数（ｙ_ｎ）（所与のｍ／ｚを有するイオンフラグメントの強度存在度数）からなる、図である。 [0056]図２からの現在のローカル領域データと図３内の特定の以前のローカル領域データとの相関データのセットの例を示す図であって、データのうちのいくつかのみ、図２内のピークのうちのいくつかが、図３内のピークのうちのいくつかと相関し、図２および図３内の他のピークは相関せず、一般に、相関したピークは、機器精度以内で、ほぼ同じ質量／電荷比ｍ／ｚ値；特定の電荷状態を確認する、後続のピーク間のほぼ等しい間隔；および平均化モデルに概して従うべきである観察された強度分布など、特定の特性を共通して有さなければならず、図３からのデータは、単に例証の目的のために、図２からのデータに対して離れてわずかにシフトして描写されるが、実際には、ピークは、典型的に約１ｐｐｍの機器ｍ／ｚ精度以内で、互いのほぼ上に位置することに留意されたい、図である。 [0057]図４内の予測される相関データの減算後の、調節された現在のローカル領域データの例を示す図であり、調節されたデータは、図４に示されるように元の現在のローカル領域ピーク（図２）からの予測される相関した以前のピーク（図３）の減算後の、剰余（丸で囲まれた）からなり、非相関の現在のローカル領域ピーク（両側の）は、調節されず、調節の結果は、点線４５０によって強調され、図２および図５を比較することによって見ることができるような、はるかにより小さい剰余４０５との高強度ピーク（図２に示されるような）の置き換えであり、調節されたデータは、圧縮ストリーム内へ符号化される、図である。 [0058]経時的に典型的な質量分析データの３次元（３Ｄ）溶出プロファイルの一例を示す図であって、各イオンフラグメントは、典型的な釣鐘型の曲線を呈し、各曲線の強度は、開始時は低く、その後次第に上昇して頂点に達し、その後次第にゼロまで下がり、時間分および頂点強度高さは、フラグメント組成に基づいて変化し得、検出器までの経路上の共溶出イオンフラグメントの間には何らかの重複が存在し得る、図である。 [0059]全イオン電流（ＴＩＣ）としても知られる、経時的な、質量／電荷比ｍ／ｚ軸上での統合後の、図６内の例となる「典型的な」質量分析データの観察された２次元溶出プロファイルを示す図であって、全イオン電流は、溶出プロファイルエンベロープ、任意の所与の時間における個々の曲線の最大値、に比例し、イオンが帯電しているため、検出器電流の直接測定は、溶出エンベロープに比例し、溶出エンベロープの最小点は、１つのイオンフラグメント種から別のものへのクロスオーバー遷移時点ｔ２、ｔ３、ｔ４を規定する、図である。 [0060]未処理で示される（非常に大きいファイルサイズ、例えば、１．７６４ＧＢを有する）病理組織データセットを形成する画像の小さい領域の一例を例証する図である。 [0061]本明細書に説明される方法を使用して圧縮および復元される、図８Ａのデータセットを例証する図である。 [0062]本明細書に説明されるように、多次元データセットのすべてまたは一部分を復元する（例えば、解凍する）方法の一例のブロック図を概略的に例証する図である。 [0063]本明細書に説明される方法および／または装置を使用した、圧縮ストリーム内の多次元データセットの一部分の直接アクセスを例証する図である。 [0064]図１１Ａは、本明細書に説明されるように圧縮され得るデータセットの別の例を示す図であって、データセット全体を表す画像を示す、図である。図１１Ｂは、本明細書に説明されるように圧縮され得るデータセットの別の例を示す図であって、データセットの部分領域（領域「Ｂ」）の拡大図を示す、図である。 [0065] 図１２Ａは多次元明視野顕微鏡画像データに対応する、未圧縮の多次元データセットの一例を例証する図である。 [0066]図１２Ｂは、本明細書に説明されるような方法を使用した圧縮および従来のＪＰＥＧ圧縮の品質を比較する図であって、本明細書に説明される方法を使用して圧縮および復元されている図１２Ａの多次元明視野顕微鏡画像データの拡大部分（領域Ｚ）を示す、図である。図１２Ｃは、本明細書に説明されるような方法を使用した圧縮および従来のＪＰＥＧ圧縮の品質を比較する図であって、高圧縮比でＪＰＥＧ圧縮を使用して圧縮および復元されている、図１２Ａの同じ領域の拡大画像を示す、図である。

[0067]本明細書に説明されるのは、疎の多次元順序付き系列データおよび具体的には分光データを圧縮するためのコンピュータ実装方法である。これらの方法は、概して、多次元順序付き系列データを受信するステップであって、データは、重複または非重複ローカル領域に分割され、各ローカル領域内のデータは、インデックス付きデータセットを含み、各インデックス付きデータセットは、画像の所与のローカル領域内のインデックスを表すインデックス（ｎ）、第１の変数（ｘ_ｎ）、任意選択の第２の変数（ｙ_ｎ）、任意選択の第３の変数（ｚ_ｎ）、および任意選択の追加の変数（例えば、多重化蛍光顕微鏡の場合）を含む、ステップと、インデックス（ｎ）および少なくとも１つまたは複数の以前のローカル領域データの関数として、各第１の変数（ｘ_ｎ）、各追加の変数（例えば、多重化蛍光顕微鏡の場合、第２の変数（ｙ_ｎ）、および第３の変数（ｚ_ｎ）など）を計算する予測因子を規定するステップと、予め規定されたしきい値よりも大きい、高レベルの相関が現在と以前のローカル領域データとの間に存在するとき、スケーリングされた予測相関データを、１つまたは複数の以前のローカル領域データに基づいて減算することによって、現在のローカル領域データを調節するステップと、（ｄ）最適倍率を含む調節された現在のローカル領域データを、圧縮ストリーム内へ符号化するステップと、を含み得る。

[0068]一般に、本明細書に説明される方法および装置は、高い強度変化を伴う比較的少ない画素、およびより低い強度変化を伴う多くの画素を含み得る、ＭＳデータおよび病理組織撮像データなど、ログ密度データ分布を有する疎のデータセットに特によく適している（しかしながら、これに限定されない）。本明細書に説明される方法および装置は、高圧縮阻止アーチファクトを回避することを含む、データの詳細（例えば、撮像詳細）を損なうことのない高圧縮比、および／または量子化を達成し得る。これらの方法および装置は、最大６４ビットのダイナミックレンジまたはそれ以上を用いて使用され得る。これらの方法および装置は、高速の、例えば、オンザフライの（または局所的な）解凍のために使用され得、画像が取られているときを含め、圧縮画像のストリーミングを可能にし得る。

[0069]図１は、本明細書に説明されるような圧縮方法の一例のブロック図を示す。多次元入力データ２０５は、順序付き系列データからなり、データは、インデックス付きデータセットからなり、各インデックス付きデータセットは、インデックス（ｎ）、少なくとも１つの変数、第１の変数（ｘ_ｎ）、任意選択の第２の変数（ｙ_ｎ）、任意選択の第３の変数（ｚ_ｎ）などを含む。任意選択の変数の数は、入力次元性によって決定され得る。

[0070]１つの例において、データは、多次元質量分析データで構成され、データは、インデックス付きデータセットからなり、各インデックス付きデータセットは、現在のローカル領域内のインデックスを表すインデックス（ｎ）、観察された質量／電荷比ｍ／ｚを表す第１の変数（ｘ_ｎ）、および機器によって観察されるイオンフラグメント存在度の観察された強度または数を表す第２の変数（ｙ_ｎ）を含む。別の例において、データは、多次元質量分析系列データで構成され、データは、インデックス付きデータセットからなり、各インデックスインデックス付きデータセットは、現在のローカル領域内のインデックスを表すインデックス（ｎ）、観察された質量／電荷比ｍ／ｚを表す第１の変数（ｘ_ｎ）、機器によって観察されるイオンフラグメント存在度の観察された強度または数を表す第２の変数（ｙ_ｎ）、およびイオン移動度ドリフト管を通って進むイオンの観察されたイオン移動度を表す第３の変数（ｚ_ｎ）を含む。

[0071]さらに別の例において、データは、多次元明視野顕微鏡画像データ、または全スライド顕微鏡撮像データで構成され、データは、インデックス付きデータセットを含み、各インデックス付きデータセットは、画像の現在のローカル領域内の画像画素のインデックス（ｎ）、および顕微鏡によって捕捉される画像画素の観察された強度を表す第１の変数（ｘ_ｎ）を含む。さらに別の例において、データは、多次元明視野顕微鏡画像系列データで構成され、データは、インデックス付きデータセットからなり、各インデックス付きデータセットは、画像の現在のローカル領域内の画像画素のインデックス（ｎ）、第１の色成分の強度を表す第１の変数（ｘ_ｎ）、第２の色成分の強度を表す第２の変数（ｙ_ｎ）、および画像の第３の色成分の強度を表す第３の変数（ｚ_ｎ）を含む。一般性を失うことなく、変数の数は、任意の数の色成分であり得ること、および成分は、例えば、標準ＲＧＢまたはＹＣｂＣｒ輝度－クロミナンス表現など、規定の色空間の任意の色成分であり得るということに留意されたい。

[0072]さらに別の例において、データは、単色顕微鏡画像データの画像スタックで構成され、データは、インデックス付きデータセットからなり、各インデックス付きデータセットは、画像の現在のローカル領域内の画像画素のインデックス（ｎ）、および変数（ｘ_ｎ、ｙ_ｎ、ｚ_ｎ）のセットを含み、各変数は、画像スタックの特定の画像層における画像画素の観察された強度を表す。例えば、一片の組織が、特定の方向に沿って、約１～５マイクロメートル離して、薄い切片へとスライスされ得る。各々の薄い切片は、別個に処置および処理され、結果として生じる画像は、組織全体の視覚化を提供するために、画像層として互いの上に積層される。本技術の一般名称は、Ｚスタックとして知られる。

[0073]さらに別の例において、データは、カラー顕微鏡画像データの画像スタックで構成され、データは、インデックス付きデータセットからなり、各インデックス付きデータセットは、画像の現在のローカル領域内の画像画素のインデックス（ｎ）、ならびに第１、第２、および第３の変数（ｘ_ｎ、ｙ_ｎ、ｚ_ｎ）のセットを含み、セット内の各々の第１、第２、および第３の変数は、画像スタック、またはＺスタックの特定の画像層における画像画素の観察された色強度を表す。一般性を失うことなく、変数の数は、任意の数の色成分であり得ること、および成分は、例えば、標準ＲＧＢまたはＹＣｂＣｒ輝度－クロミナンス表現など、規定の色空間の任意の色成分であるということに留意されたい。

[0074]さらに別の例において、入力データは、単色顕微鏡画像データの時系列で構成され、データは、インデックス付きデータセットからなり、各インデックス付きデータセットは、画像の現在のローカル領域内の画像画素のインデックス（ｎ）、および第１の変数（ｘ_ｎ、ｙ_ｎ、ｚ_ｎ…）のセットを含み、各変数は、シーケンスの特定の時間点における画像画素の観察された強度を表す。例えば、一片の組織は、経時的に薬物摂取または吸収のレベルについて監視され得る。顕微鏡画像のシーケンスが経時的に取られ、結果として生じる画像は、映画のフレームのように、時間的に連続して層化される。閲覧者は、次いで、従来のビデオプレイヤーを使用して、経時的に画像シーケンス再生を見ることができる。

[0075]１つの例において、入力データは、カラー顕微鏡画像データの時系列で構成され、データは、インデックス付きデータセットからなり、各インデックス付きデータセットは、画像の現在のローカル領域内の画像画素のインデックス（ｎ）、ならびに第１、第２、および第３の変数（ｘ_ｎ、ｙ_ｎ、ｚ_ｎ）のセットを含み、セット内の各々の第１、第２、および第３の変数は、シーケンスの特定の時間点における画像画素の第１、第２、および第３の色成分の観察された強度を表す。一般性を失うことなく、変数の数は、任意の数の色成分であり得ること、および成分は、（例えば）標準ＲＧＢまたはＹＣｂＣｒ輝度－クロミナンス表現など、規定の色空間の任意の色成分であり得るということに留意されたい。

[0076]別の例において、データは、多重化マルチチャネルカラー蛍光顕微鏡データで構成され、データは、インデックス付きデータセットからなり、各インデックス付きデータセットは、画像の現在のローカル領域内の画像画素のインデックス（ｎ）、および少なくとも１つまたは複数の変数（ｘ_ｎ、ｙ_ｎ、ｚ_ｎ…）を含み、各変数は、画像画素位置における特定の蛍光染料または着色剤の観察された強度を表す。変数の数は、使用されている異なるチャネルまたは染料の数を反映する。特定の多重化蛍光顕微鏡画像は、異なる色の特別な染料または着色剤の組み合わせを使用して、最大１０またはそれ以上の複数の染料を伴い得、染料または着色剤の各々は、細胞部分境界、薬物レベル濃度、内部生体状態、または陽性の生物学的マーカを識別することが意図される。

[0077]別の例において、データは、多次元多重化蛍光顕微鏡系列データで構成され、データは、インデックス付きデータセットからなり、各インデックス付きデータセットは、画像の現在のローカル領域内の画像画素のインデックス（ｎ）、特定の蛍光染料層を表す第２のインデックス変数（ｋ）、第１の色成分の強度を表す第１の変数（ｘ_ｎ）、第２の色成分の強度を表す第２の変数（ｙ_ｎ）、および画像の第３の色成分の強度を表す第３の変数（ｚ_ｎ）を含む。一般性を失うことなく、変数の数は、任意の数の色成分であり得ること、および成分は、（例えば）標準ＲＧＢまたはＹＣｂＣｒ輝度－クロミナンス表現など、規定の色空間の任意の色成分であり得るということに留意されたい。

[0078]さらに別の例において、データは、多次元多重化蛍光顕微鏡系列データで構成され、第１、第２、および第３の色成分は、フルカラー画像であり、各画像の色は、互いの上にいくつかの複数の染料からの情報を層化することによって複雑な細胞またはバイオマーカ相互作用を可視化するために、色のパレットから顕微鏡オペレータによって人工的に選択される。例えば、ＤＡＰＩ（４’，６－ジアミジノ－２－フェニルインドール）は、蛍光顕微鏡法、フローサイトメトリ、および染色体着色において核着色剤として一般的に使用される青色蛍光ＤＮＡ着色剤である一方、ＡｌｅｘａＦｏｕｒ５４６は、様々な細胞ラベリングおよび検出のために最適化され得る明るい黄色の染料である。各染料の観察された蛍光発光は、単色像として捕捉され、これにより、顕微鏡オペレータは、各単色像に特定の色を割り当て、互いの上に疑似カラー化された画像を層化することによって複数の染料の相互作用の組み合わせを同時に視覚化するために、例えば、ＤＡＰＩの場合は、色のパレットから選択される特定の青色を、またＡｌｅｘａＦｏｕｒ５４６の場合は、これも色のパレットから選択される特定の黄色をなど割り当てて、典型的な多重化蛍光顕微鏡画像を形成し得る。

[0079]データは、インデックス付きデータセットで構成され得、各インデックスインデックス付きデータセットは、画像の所与のローカル領域内の画素インデックスを表すインデックス（ｎ）を含み、これにより、系列データ全体は、Ｎ個の重複または非重複ローカル領域へと分割され、各ローカル領域は、後続の画素の長さからなり、圧縮は、各ローカル領域に順に適用される。

[0080]いくつかの変形において、データは、インデックス付きデータセットで構成され得、各インデックスインデックス付きデータセットは、画像の所与のローカル領域内の画素インデックスを表すインデックス（ｎ）を含み、これにより、系列データ全体は、Ｎ個の重複または非重複ローカル領域へと分割され、各ローカル領域は、特定の幅および高さの矩形局部近傍からなり、圧縮は、各ローカル領域に順に適用される。

[0081]多次元入力データは、Ｎ個の重複または非重複ローカル領域のセットへと分割され得、これらは、一度に１つのローカル領域で、ラスタースキャン順に、連続して処理され得る。ローカル領域は、インデックス付きセットの連続グループなどのインデックス付きデータセットの局部近傍、またはインデックス付きセットの矩形領域に関して規定され得、ローカル領域のすべてのメンバは、互いに密接している。

[0082]本明細書に説明される圧縮方法の一例のブロック図は、図１に示される。図１は、本明細書に説明される方法の少なくとも１つの変形を実施することが確証される提案された多次元データ圧縮システムの単に一例を例証するブロック図を示す。図１において、インデックス付きデータセットを含み得るデータ２１０の現在のローカル領域は、機器入力データ２０５から受信され、各インデックス付きデータセットは、インデックス（ｎ）、第１の変数（ｘ_ｎ）、任意選択の追加の変数（例えば、第２の変数（ｙ_ｎ）、および第３の変数（ｚ_ｎ）など）を含む。現在のローカル領域２１０データは、圧縮ストリーム内へ符号化されるべき現在のデータ片であり得る。

[0083]入力データ２０５がＺスタックまたは時系列データからなるとき、入力データは、データの複数の層を含み、各層は、Ｚスタック内の特定の組織スライス画像層、または時系列データの特定の時間点画像層に対応する。図１の二重矩形表記は、データ内の複数層の存在を示す。

[0084]現在のローカル領域データ２１０が処理および符号化されると、ローカル領域データは、例えば、以前のローカル領域データ）としての後の使用のためにメモリ内（例えば、循環バッファ内）に保持され、必要とされなくなると最終的に破棄され得る。現在のローカル領域２１０に距離が最も近い１つまたは複数の以前のローカル領域２２０のデータは、メモリ（例えば、循環バッファ）から取得され得る。これは、現在のローカル領域範囲と同じ質量／電荷比（第１の変数ｘ_ｎ）範囲を有する、１つまたは複数の以前のスキャンの対応するローカル領域データであり得る。またはそれは、例えば、現在のローカル領域のすぐ左、現在のローカル領域のすぐ上、もしくは現在の領域のすぐ上かつ左の、隣接矩形ローカル領域データであり得る。すべての以前のデータは、メモリ（例えば、循環バッファ）内に利用可能に保持され得、ローカル領域ごとに容易にアクセスされ得る。

[0085]この方法は、次いで、以下により詳細に開示されるように、ピーク位置および強度を比較し、一般的なａｖｅｒｇｉｎｅモデルに従う強度分布を用いて、各々がほぼ均一に離間したピークのサブセットに対応する高強度同位体パターンの１つまたは複数の連続サブセットを探すことによって、現在のローカル領域データ２１０と以前の１つまたは複数のローカル領域データ２２０との相関２３０のレベルを演算し得る。

[0086]２つ以上の以前のローカル領域（「前ローカル領域」）が使用されるとき、いくつかの以前のローカル領域のデータは、ノイズの多いデータの場合、信号対ノイズ比を改善するために、一緒に平均化され得る。代替的に、各々の以前のローカル領域間の相関のレベルは、いくつかの以前のローカル領域のうちのどれが現在のローカル領域データと最も高い相関を有するかを決定するために、個々に演算され得、この情報は次いで、最も高い相関または他の基準を有する１つの以前の領域を、使用するべき好ましい以前のローカル領域として選択するために後で使用される。

[0087]例えば、これらの方法または装置のうちのいずれかは、現在のローカル領域ごとに、（１）現在のローカル領域の左、（２）現在のローカル領域のすぐ上、および（３）現在の領域のすぐ上かつ左、という３つの以前のローカル領域について相関のレベルを個々に計算することを含み得る。３つの以前のローカル領域のうちの１つ、現在のローカル領域に対して最も高い相関を有するものは、次いで、すべての後続処理において使用するために以前のローカル領域として選択され得る。

[0088]現在と以前のローカル領域データとの相関２３０の演算されたレベルは、予め規定されたしきい値２４０と比較され得る２５０。相関２３０のレベルが、しきい値２４０よりも高いか、これに等しい場合、予測因子２６０が有効化される。そうではなく、相関２３０のレベルがしきい値２４０よりも低い場合、予測因子２６０は使用されず、マルチプレクサ２７０出力はゼロへと強いられる。

[0089]予測因子２６０は、有効化されるとき、以前のローカル領域データに基づいてローカル領域データの相関部分を予測することを試みる。以前のローカル領域データの相関部分は、現在のローカル領域データの対応する相関部分にできる限り一致するように最適倍率を用いてスケーリングされる。

[0090]例えば、以前のローカル領域データの相関ピークは各々、同じ倍率によってスケーリングされ得る。予測因子２６０出力は、予測因子が有効化されるときに有効化されるマルチプレクサ２７０を通って、加算ノード２８０へと渡される。最適スケーラ値もまた、領域あたりに１つの倍率で、圧縮ストリーム内へ符号化される。

[0091]相関２３０の演算されたレベルが、しきい値２４０よりも高い、またはこれに等しいとき、現在のローカル領域データは、加算ノード２８０を通じて、予測因子２６０出力２６５を減算することによって、調節され、結果は、元のローカル領域データの代わりに、圧縮ストリーム内へ符号化される。この調節は、本質的に、できる限り以前のローカル領域データから予測され得るデータの相関部分を取り除く。以前および現在のローカル領域が互いに密接しているため、それらは頻繁に、類似データを含み、これは大抵の場合、確実に予測され得る。調節後、不完全な予測の剰余のみがデータ内に残る。剰余は、元のデータよりも数桁小さい場合がある。

[0092]本明細書に説明される方法および装置の提案された方法の、既存の特許に勝る主要な利点は、既存の技術（例えば、米国特許第７３９７９６１号明細書、米国特許第８０２３７５０号明細書を参照）においては、各ローカル領域が独立して圧縮され得ることである。したがって、各ローカル領域の相関部分は、各ローカル領域において順に、何度も繰り返し符号化される。これは、圧縮ストリーム内の多数の繰り返し可能なビットを消費する。対照的に、本明細書に説明される方法および装置は、第１のローカル領域に遭遇した際に、データの相関部分のみを一度だけ符号化する。これ以降、相関部分を再度送る必要性はなく、予測部分とは異なる剰余のみが圧縮ストリーム内に符号化される。これは、ローカル領域ごとに符号化されるべき情報の量における実質的低減を提供し、以て、優れた圧縮結果をもたらす。

[0093]相関２３０の演算されたレベルがしきい値２４０よりも低いとき、以前のローカル領域のコンテンツは、現在のローカル領域データに類似するものとされない場合があり、予測の品質は劣化し始め得、極端な場合、現在のローカル領域データ内にランダム予測を注入することによって、ノイズおよびわずかな不安定性を追加することを結果としてもたらし得る。発生を防ぐため、比較器２５０出力は、予測因子をオフにし、マルチプレクサ２７０出力をゼロへ強いることによって、現在のローカル領域データに対するいかなる調節も無効にする。次いで、エンコーダは、既存の特許に開示されるように、元の未修正の現在のローカル領域データを代わりに使用する。エンコーダ２９０は、例えば、ウェーブレット圧縮、ＬＺＷ圧縮、ＤＣＴ圧縮、ハフマン符号化などの任意の他の圧縮技術と共に使用されるようなＰＭまたはＰＣＲ圧縮を含む圧縮アルゴリズム（無損失または不可逆のいずれか）など、任意の適切な符号化を使用し得る。圧縮の形態の一例は、米国特許第９３８５７５１号明細書に説明され、その全体が参照により本明細書に組み込まれる。

[0094]述べられるように、バッファは、循環バッファであってもよい。循環バッファは、手順の開始時にゼロデータに初期化され得る。これは、演算された相関レベル２３０がしきい値２４０を下回ること、およびエンコーダが以前のローカル領域データが利用可能になるまで未修正の最初のいくつかのローカル領域データを使用すること（最初のいくつかの現在のローカル領域については、以前のローカル領域データがまだ利用可能でないため）を確実にし得る。

[0095]図２～図５は、現在のローカル領域系列データと以前のローカル領域データとの相関のレベルを決定するプロセスの一例、および本明細書に開示されるように、圧縮における著しい改善を提供するために、符号化ストリーム内の情報の量を実質的に低減するための予測因子の使用を例証する。質量分析データが、これらの例において方法を例証するために使用されるが、これらの技術および装置がこれらの方法に限定されないことを理解されたい。実際、これらの方法は、本明細書に説明されるように、他の多次元順序付き系列データセットのために使用され得る。

[0096]図２は、インデックス付き系列データ４０３および４０４のセットを示す、質量分析データの「典型的な」現在のローカル領域データの一例を単に示し、各インデックス付きデータは、インデックス（ｎ）、この例では質量／電荷比ｍ／ｚである第１の変数（ｘ_ｎ）、およびこの例では所与のｍ／ｚを有するイオンフラグメントの強度存在度数である第２の変数（ｙ_ｎ）からなる。図２内の水平軸は、質量／電荷比であり、垂直軸は、強度イオンフラグメント数である。

[0097]図２に示されるように、プロット４２０は、質量分光計によって記録される典型的な順序付き系列データを示す。記録されたデータは、質量対電荷比（ｍ／ｚ）の関数としての荷電イオンの相対的な強度存在度の、１つのスペクトルの一部分を表す。この図内の水平軸は、質量／電荷比（ｍ／ｚ）であり、垂直軸は、観察された強度値、または相対的なイオン存在度を示す。本明細書に説明されるように圧縮され得る順序付きの系列データの他の例は、顕微鏡データ、多重化蛍光顕微鏡データ、および、水平軸が時間軸、または、場合によっては、波長もしくは周波数軸である任意のデータを含み得る（が、これらに限定されない）。

[0098]典型的な質量分析実験において、試料（固体、液体、または気体であり得る）、例えば、一片の細胞組織または一滴の血液は、電子流または他の手段によって蒸発し、その結果として、試料がイオン化され、電磁場が印加されて、荷電イオンを加速させ、それらの質量／電荷比に従ってそれらを分離させる。同じ質量／電荷比のイオンは、同じ偏向量を経験することになる。最後に、イオンは、荷電粒子を検出することができる検出器によって検出される。結果は、通常、質量／電荷比の関数としての検出されたイオンの相対的な存在度のスペクトルとして表示される。次いで、試料の分子組成が、既知の元素質量と組み合わせて、特徴的なフラグメンテーションパターンから識別され得る。

[0099]各実験において、質量分光計は、多くのそのようなスペクトルを経時的に生成することができ、結果として大量のデータをもたらす。プロファイルモードでの典型的な出力は、１つの単一実験から数十あるいは数百ＧＢものデータを容易に超えることができる（１ＧＢ＝１０２４×１０２４Ｋバイト）。質量分光計は、遺伝子およびアミノ酸ペプチド鎖を配列するため、ならびに化合物の分子組成を決定するため、ならびにがんにおけるグリコシル化の変化などの異常疾患パターンを識別するため、ゲノミクスおよびプロテオミクスにおいて使用され得る。

[0100]各質量分光計スキャンは、順序付き系列データからなり、データは、特定のｍ／ｚ位置における変化する強度の一連のピーク４０３および４０４からなる。４２０におけるピークのシーケンスの各々は、一対の倍精度浮動小数点数（ｘ，ｙ）からなり、ｙ値は、観察された強度存在度、または特定のピークの振幅であり、ｘ値は、観察された質量／電荷比ｍ／ｚである。例えば、一対の倍精度浮動小数点数（３４１．２，１６０．０）によって表されるように、第２のピークの強度存在度は、約１６０．０であり、約３４１．２ｍ／ｚの質量／電荷比において観察される。荷電イオンは、イオントラップに閉じ込められ、特定の時間に放出され、その際、それらは、電磁場の影響下で検出器の方へ進み、経時的に一連のｍ／ｚおよびイオン存在度値として観察される。メタデータおよび実験セットアップ情報を除き、記録されるほぼすべてのデータは、インデックス付きの対の倍精度浮動小数点数のシーケンスからなる。

[0101]質量分析データの各スキャンは、（ｘ，ｙ）倍精度ピークの可変数からなり、機器は、通常、目的とする所与の最小および最大ｍ／ｚ値の間、例えば、ｍ／ｚ＝１００～ｍ／ｚ＝５０００ダルトンの、質量対電荷値の所与の範囲内のピークを記録するようにプログラムされる。最小および最大ｍ／ｚ値は、通常、同じレベルスペクトルに属するすべてのスキャンについて変化しないままである。最小ｍ／ｚ値よりも低い、または最大ｍ／ｚ値よりも大きいｍ／ｚ値を伴う、所与の質量対電荷範囲外のいかなるピークも、破棄される。

[0102]スキャン範囲全体（例えば、ｍ／ｚ＝１００～ｍ／ｚ＝５０００ダルトン）は、次いで、Ｎ個の重複または非重複ローカル領域へと分割され得、スキャンの一部分を表す各ローカル領域は、一度に１つ、順次処置される。例えば、１００～５０００ダルトンの範囲全体は、各々７００ダルトンの範囲を有する７つの非重複ローカル領域へと分割され得る。上で述べられるように、これらの異なる重複または非重複領域の数（Ｎ）および／またはサイズは、任意の適切な様式で設定され得、また、例えば、範囲のサイズ、あるいは、予め決定される、ユーザ定義の、および／または自動的もしくは半自動的に調節する数および／またはサイズに基づき得る。図２内のプロット４２０は、１００～８００ダルトンの質量／電荷比の範囲を有する、所与のスキャンの第１のローカル領域からのデータの例を示す。

[0103]この例では、１００～５０００ダルトンの質量／電荷比範囲全体は、各々が７００ダルトン質量／電荷比の範囲スパンを有する、７つの非重複ローカル領域からなる。しかしながら、実際には、後続のローカル領域間にいくらかの重複を有することが望ましい場合があり、各ローカル領域のスパンは、５％から最大５０％程度の重複で、両側において特定の量だけ、例えば、両側において１００～１５０ダルトンだけ延長される。重複は、ローカル領域境界に沿ったアーチファクトを作成することなく、ローカル領域間のスムーズな遷移を提供し得る。加えて、重複は、著しく高い強度ピークがちょうどローカル領域境界に位置するときなど、極限ケースを除外するのに有用であり得、極限ケースでは、小さい丸み誤差さえもローカル領域境界の反対側をまたいで位置をシフトし得、故に、それは現在の領域に常に一定して含まれるわけではなく、そのことが、予測になんらかの不安定性をもたらし得る。したがって、しばしば、不安定性および小さいアーチファクトを防ぐためには、ローカル領域スパンを両側で延長することによって、いくらかの重複を含むことが好ましい。

[0104]図３内のプロット４１０は、現在のスキャンデータの前の直近の時間において機器によって捕捉される、対応する以前のスキャンデータの、１００～８００ダルトンの質量／電荷比の範囲を有する、第１のローカル領域データの例を示す。インデックス付き系列データ４０１および４０２のセットを含む対応する以前のローカル領域データの例を示す図３において、各インデックス付きデータは、インデックス（ｎ）、第１の変数（ｘ_ｎ）（質量／電荷比ｍ／ｚ）、および第２の変数（ｙ_ｎ）（所与のｍ／ｚを有するイオンフラグメントの強度存在度数）を含む。水平軸は、質量／電荷比であり、垂直軸は、強度イオンフラグメント数である。現在のスキャンおよび以前のスキャンは時間的に密接して取られるため、イオン含有量は、ある程度類似している可能性が高く、共通して少なくともいくつかの類似ピークを有する可能性が高い。プロット４１０データは、特定のｍ／ｚ位置における変化する強度の一連のピーク４０１および４０２からなる。

[0105]図２および図３のピークを比較すると、図２の現在のローカル領域内の一連の４０４ピークが、図３の以前のローカル領域内の一連のピーク４０２に類似していることを容易に認めることができる。ピークは、ほぼ同じｍ／ｚ位置（機器許容レベル以内、これは、特定の機器において１ｐｐｍまで非常に正確であり得る）、および類似の強度パターンを有するように見え、強度は、典型的には、ｍ／ｚよりも精度が低い。加えて、現在のローカル領域４２０内には多くのピーク４０３、および以前のローカル領域４１０内には他のピーク４０１が存在し、これらは明らかに整列しない。無相関のピークが互いの１ｐｐｍ質量／電荷比内にたまたま入る可能性は極端に小さい。

[0106]一連のピーク４０２および４０４の間の一致のさらなる確認は、各ピーク連続内のピークの間隔および数によって得られ得る。同位体連続では、後続のピーク間の間隔は、ほぼ一定であり、分子の電荷状態を示す。ピークの数および同位体ピークの強度分布は、一般的に、観察された分子の元素組成に基づくａｖｅｒｇｉｎｅモデルに従う。故に、同じ全体的な質量、間隔、および強度分布パターンを有する一連のピーク４０２および４０４の類似性は、同じ分子が両方のスキャンにおいて観察されるという強い兆候を提供する。

[0107]相関のレベルは、現在と以前のローカル領域との間に存在する一連の類似ピークから演算され得る。例えば、ピーク４０２および４０４は、ピークの大半が、（１）機器精度限界以内で、ほぼ同じ質量／電荷比ｍ／ｚ、（２）後続のピーク間のほぼ等しい間隔から決定されるような同じ電荷状態、および（３）ａｖｅｒｇｉｎｅモデルに一致する類似のピーク強度存在度分布、のうちの１つまたは複数を有する場合に、類似とみなされる。加えて、検討中のピークの各々は、ランダムな低強度ノイズピークに対する誤トリガーを防ぐために、機器信号対ノイズフロアを十分に上回る著しい強度のものでなければならない。これらの因子の組み合わせは、別個の同位体分解されたパターンと一緒に、相関レベルのロバストかつ非常に信頼性の高い尺度を提供し得る。他のシステムにおいて、相関は、強度、波長、相対的な間隔／位置などの類似の特徴に基づき得る。

[0108]現在と１つまたは複数の以前のローカル領域との相関の結果として生じるレベルは、次いで、しきい値と比較され得る。しきい値は、予め決定され得るか、計算され得る。相関のレベルがしきい値よりも大きいか、これに等しい場合、予測因子が、以前のローカル領域データに基づいて、現在のローカル領域データを調節するために使用されて、現在のデータを符号化する前に情報の量を低減する。そうではなく、相関のレベルがしきい値よりも小さい場合、予測は使用されず、現在のローカル領域データは、調節なしに直接符号化されるが、それは、低い相関レベルが関連の弱いピークを示し得るためであり、これは、確実に予測されるものとされない場合があり、おそらくは、より多くのノイズを追加し、圧縮を低減するという結果をもたらす。相関レベルしきい値は、しきい値を超えるときに著しい圧縮改善を確実にするように注意深く選択される。

[0109]予測因子は、相関のレベルがしきい値を満たすか、これを超えるとき、１つまたは複数の対応する以前のローカル領域データから現在のローカル領域データを予測するために使用され得る。２つ以上の対応する以前のローカル領域データの使用は、データを平均化することによってピーク信号対ノイズ比を改善し、ピーク強度における変動を低減し、概して予測品質を改善することができる。しかしながら、これは、追加のスキャンの複数の以前のローカル領域データを格納するためにより多くのメモリを必要とするという代償を伴い得る。

[0110]図４は、プロット４３０に示される、以前のローカル領域データから現在のローカル領域の相関部分を予測する方法の一例を例証する。
[0111]図４において、例証図は、現在のローカル領域データ４１０（例えば、図３に示されるような）と以前のローカル領域データ４２０（図２に示されるような）との相関データのセットを示す。図２内のピーク４０４など、データのうちのいくつかのみが、図３内のピーク４０２と相関する。図２および図３内の他の無相関ピーク４０３および４０１は破棄されている。相関したピークは、例えば、図２～図４に示されるＭＳデータにおいて、共通して特定の特性を有さなければならず、相関したピークは、（１）機器精度以内で、ほぼ同じ質量／電荷比ｍ／ｚ値、（２）特定の電荷状態を確認する、後続のピーク間のほぼ等しい間隔、および（３）ａｖｅｒｇｉｎｅモデルに概して従うべきである観察された強度分布を示す。データ４０２は、単に例証の目的のために、データ４０４から離れてわずかにシフトして描写されるが、実際には、ピーク４０２は、典型的に約１ｐｐｍの機器ｍ／ｚ精度許容以内で、４０４のほぼ上に位置することに留意されたい。

[0112]図４内のプロット４３０に示されるように、高レベルの相関４０２および４０４を有するピークのみが、以前および現在のローカル領域データからそれぞれ保持される。図３の以前のローカル領域データまたは図２の現在のローカル領域データのいずれかからのすべての無相関ピーク４０１および４０３は、破棄されている。予測因子は、相関した以前のローカル領域ピークを、相関した現在のローカル領域ピークのセットに一致するように、すなわちこれを予測するように、できる限り近くに持ってくるために最適倍率を計算する。個々のピーク強度は、それほど正確ではなく、一般的にはスキャン間である程度逸脱し、すべての高相関ピークをまとめて完璧に整列させることは、一般的には不可能であるということに留意されたい。

[0113]いくつかの変形において、最適倍率は、（１）高相関ピーク強度のうちの少なくとも１つに一致すると同時に、（２）すべての他の高相関ピーク強度の間の差の合計を最小限にし、（３）個々の高相関ピーク強度差がゼロより大きいか、これに等しくなければならないことを確実にするように選択され得る。いくつかの変形において、倍率は、すべての他の高相関ピーク強度間の差の合計を最小限にするように選択され得る。いくつかの変形において、倍率は、すべての他の高相関ピーク強度の間の差の合計を最小限にし、かつ、各々個々の高相関ピーク強度差がゼロより大きいか、これに等しくなければならないことを確実にするように選択され得る。

[0114]１つの例による予測は、図４のプロット４３０に例証される。述べられるように、高相関ピークのみが示される。現在のローカル領域の相関ピーク４０４は、スケーリングされずに、図２と全く同じように、実線で示される。予測因子は、点線で示される以前の高相関ローカル領域ピーク４０２（図３）を、現在の４０４ピークにできる限り一致するようにスケーリングする。この例における最適倍率は、左から３番目の４０２ピークが、対応する現在の第３の４０４ピーク強度と同じ高さにスケーリングされるときである。左から１番目、２番目、および４番目の他の４０２ピークは、第３のピークと同じ量だけスケーリングされるが、一般に、それらの対応する４０４ピーク強度と正確には一致しない可能性が高い。プロット４３０内の４０４および４０２ピークは、例証の目的のために意図的に横並びに描写されるが、実際には、それらは、約１ｐｐｍの機器精度許容以内で、互いに極めて近接している可能性が高いということに留意されたい。

[0115]最適しきい値は、この例では左から３番目のピークの強度を一致させることによって獲得され得ることがプロット４３０から理解されるものとする。すべての他の４０２強度（例えば、左から１番目、２番目、および４番目のピーク）は、他のスケーリングされた４０２ピークの各々について、それらの対応する４０４ピーク強度よりも低い。これは、４０４ピークと対応するスケーリングされた４０２ピークとの間の個々の差が常に、条件（３）に従って、ゼロよりも大きいか、またはこれに等しいことを確実にする。本手順および／または装置が、この例では左から３番目以外のいかなるピークの強度も一致させる場合、第３の４０２ピークは、その対応する４０４ピークよりも高くなるようにスケーリングされ、少なくとも、第３の４０４ピークと対応するスケーリングされた４０２ピークとの差は、マイナスになり、以て、本方法における条件（３）を無効にする。条件（３）は、質量分析強度データが、典型的にはマイナスになることができないプラスのイオン存在度数を表すため、予測剰余が、予測強度の減算後、プラスに留まることを確実にするのに有用である。

[0116]データがプラスまたはマイナスのいずれかであることが許される、データが浮動小数点表示を使用する顕微鏡データである別の変形においては、より厳しい最適倍率が、上記の条件（１）および（３）を除去すること、ならびに個々の４０４ピーク強度および対応するスケーリングされた４０２ピーク強度との差が、プラスの値またはマイナスの値のいずれかを前提とすることを可能にすることによって見出され得る。

[0117]故に、予測因子は、以前のローカル領域内の相関したピーク４０２の強度に基づいて、現在のローカル領域４０４内の高相関ピークのサブセットを予測するために単一の倍率を利用し得る。最適倍率は、解凍中の使用のため、各ローカル領域につき単一の値で、圧縮ストリーム内へ符号化され得る。ローカル領域データは、次いで、符号化の前に、予測された相関したピーク４０２を現在のローカルデータから減算することによって調節される。この結果の例は、図５のプロット４４０に示される。

[0118]図５は、図４に示されるデータを使用した予測される相関データ４３０の減算後の、調節された現在のローカル領域データの例を示す。調節されたデータは、図４に示されるように元の現在のローカル領域ピーク４０４からの予測される相関した以前のピーク４０２の減算後の、剰余４０５からなる。非相関の現在のローカル領域ピーク４０３は、調節されない。調節の結果は、点線４５０によって強調され、図２および図５を比較することによって見ることができるような、はるかにより小さい剰余４０５との高強度ピーク４０４の置き換えである。調節されたデータは、次いで、任意の適切な圧縮技術を使用して圧縮ストリーム内へ符号化され得る。例えば、「ＰＭＩ圧縮」について説明する米国特許第９３８５７５１号明細書を参照されたい。

[0119]減算後のローカル領域データは、無相関ローカル領域ピーク４０３（図２）、および、以前のローカル領域データに基づいて予測強度を減算した後に残っている相関ピークの剰余強度４０５を含み得る。この差は、プロット４２０（図２）内の元のローカル領域データを図５のプロット４４０内の調節されたローカル領域データと比較することによって明らかになる。図２内の背の高い高強度ピーク４０４の群は、楕円４５０によって強調されるような、強度剰余４０５のかなりより小さい群によって置き換えられている。強度の大きさの差は、典型的な質量分析データにおいては最大数桁に及ぶほど大きい場合がある。剰余４０５強度の結果として生じる大きさは、予測精度に依存し、これは、このタイプのデータにはかなりよくあるように、分子が機器上で繰り返しスキャンされるのにかなり効果的であり得る。

[0120]この例では、予測剰余４０５は、元の高強度ピーク４０４ではなく、圧縮ストリーム内へ符号化されている。予測が効果的であるとき、４０５ピークの結果として生じる強度は、非常に小さく、これが圧縮における著しい改善につながる。

[0121]解凍中、以前のローカル領域データは、現在の領域データが処理される前に、すでに復元されている。同一の予測因子が、次いで、復号された倍率によって以前のローカル領域の相関ピークをスケーリングし、それらを現在のローカル領域データに追加し直すために使用され得る。調節された現在のローカル領域データは、次いで、４０３ピークおよび４０５剰余からなる調節された現在のローカル領域データを復元するために、解凍される。以前のローカル領域のスケーリングされた予測ピークは、次いで、元のローカル領域データ４２０（例えば、図２に示されるような）を復元するために、調節された現在のローカル領域データに追加され得る。

[0122]所与のしきい値よりも小さいことが示されるような、相関のレベルが弱い場合、予測は使用されず、ローカル領域データは、データを調節することなく、そのまま符号化される。

[0123]図６は、経時的に典型的な質量分析データの３次元溶出プロファイルを示す。各イオンフラグメントは、典型的な釣鐘型の曲線を呈する。強度は、開始時は低く、その後次第に上昇して頂点に達し、その後次第にゼロまで下がる。時間分および頂点強度高さは、フラグメント組成に基づいて変化し得る。検出器までの経路上の共溶出イオンフラグメントの間には何らかの重複が存在し得る。

[0124]図６を参照すると、プロット５１０は、液体クロマトグラフィを用いた質量分析機器内のイオンフラグメントの典型的な溶出プロファイルを例証する。フラグメント化されたイオンは、イオントラップ内に保持され、それらの質量／電荷比ｍ／ｚに従って検出器の方へ特定の順に放出される。例えば、まずイオンフラグメント５０１がやがて放出されることになり、その後にイオンフラグメント５０２、次いで５０３が続き、最終的に５０４が、プロット５１０において最後に放出される。

[0125]各イオンフラグメントの典型的な溶出プロファイルは、近似ガウス曲線である。観察された強度は、開始時は低く、その後、より多くの分子がフラグメント化されるにつれて次第に増加し、溶出プロファイルの中央において頂点に達し、次いで減少して戻る。各分子５０１～５０４の時間分および頂点強度は、各分子の組成に基づいて様々であり得る。任意の所与の時間点において検出器によって観察されるような結合信号は、図７のプロット５２０に示される。

[0126]図７は、全イオン電流（ＴＩＣ）としても知られる、経時的な、質量／電荷比ｍ／ｚ軸上での統合後の、図６に示されるものなどの典型的な質量分析データの観察された２次元溶出プロファイルを示す。全イオン電流は、溶出プロファイルエンベロープ、任意の所与の時間における個々の曲線５０１～５０４の最大値、に比例する。イオンが帯電しているため、検出器電流の直接測定は、典型的には、溶出エンベロープに比例する。溶出エンベロープの最小点は、１つのイオンフラグメント種から別のものへのクロスオーバー遷移時点ｔ２、ｔ３、ｔ４を規定する。

[0127]図７のプロット５２０から理解され得るように、１つのタイプのイオンフラグメントが、大半の時間にわたって優勢である。イオンフラグメント５０１は、ｔ１からｔ２まで優勢である。最初、イオンフラグメント５０１のみの純粋な濃度が存在するが、終了時間ｔ２に向かって、イオンフラグメント５０２の量が次第に増加し、時間ｔ２において、それはイオンフラグメント５０１に等しい量に達し、５０１はもはや優位に立たない。イオンフラグメント５０２は、時間ｔ２からｔ３まで優位に立つ、というように続く。各イオン群は、イオン群の頂点近くで強力に優位に立ち、時間ｔ１、ｔ２、ｔ３、およびｔ４においては、遷移点により近い混合スペクトルの度合いを強めていく。

[0128]典型的な質量分光計ランは、１～２時間かかるが、任意の特定のイオンフラグメント５０１～５０４の典型的な溶出持続時間は、実験および目的の分子の特定の材料組成に応じて数分から最大２５分程続き得る。ますます、質量分析機器は、感度または分解能を失うことなく、１秒あたり１００スキャンよりも高い、高速でスキャンを捕捉することができる。これは、後続スキャンが、溶出イオンフラグメントが１つのタイプから別のタイプへ遷移する間のいくつかの小間隔を除き、大部分は、機器ラン全体を通じて非常に類似している可能性が高いことを意味する。本明細書に説明される提案された方法および装置は、以前のデータから相関した現在のローカル領域データを高精度で首尾よく予測し、各スキャンを独立して圧縮することによって可能であるものよりもはるかに高い圧縮を達成し得る。故に、各スキャンの独立圧縮の場合にあるように、各後続スキャンの同様のコンテンツを何度も繰り返し符号化することに多くのビットを費やす代わりに、相関部分は、開始時に一度のみ圧縮され得、後続スキャンにおいては、剰余変化のみが、存在する場合に、無相関ピークと一緒に、圧縮ストリーム内へ符号化され、本明細書に説明される方法および装置による圧縮における著しい増加をもたらす。

[0129]本明細書に説明される方法（ユーザインタフェースを含む）のいずれかは、ソフトウェア、ハードウェア、またはファームウェアとして実装され得、プロセッサ（例えば、コンピュータ、タブレット、スマートフォンなど）によって実行され得る命令のセットを格納する非一時的なコンピュータ可読媒体として説明され得、該命令は、プロセッサによって実行されるとき、プロセッサに、表示すること、ユーザと通信すること、分析すること、パラメータ（タイミング、周波数、強度などを含む）を修正すること、決定すること、警告すること、または同様のことを含むが、これらに限定されないステップのいずれかを制御実施させる。

[0130]図８Ａ～８Ｂは、本明細書に説明されるように圧縮されるデータ（図８Ｂ）と比較した未圧縮データ（図８Ａ）からの撮像（病理組織）データの横並びの比較の一例を例証する。この例では、画像の小さい部分が、本技術の高忠実度を示すために、元々捕捉された画像と比較して、４０ｘの倍率で示される。２つの画像は、この高倍率レベルでさえ、視覚的に区別不可能である。元の（図８Ａ）ファイルサイズは、およそ１７６４ＭＢ（メガバイト）であり、例えば、１５．９ＭＢの圧縮ファイルサイズへと、本明細書に説明されるように圧縮された（１１１：１の圧縮比）。例えば、元のデータは、撮像データセット（多次元順序付き系列データである）をまず複数のローカル領域へと分割することによって、本明細書に説明されるように圧縮され得る。この例では、ローカル領域は、部分領域であり得る（例えば、正方形または矩形部分領域であるが、任意の２次元形状が使用され得る）。これらの領域は、重複または非重複であり得る。各ローカル領域内の撮像（例えば、画素）データは、画像の所与のローカル領域内のインデックス（この場合、ｘ、ｙインデックスなど、空間インデックス）が使用され得る）と、インデックス（画素強度、輝度、色など）によってインデックス化される１つまたは複数の変数とを含む少なくとも１つのインデックス付きデータセットを含む。

[0131]各ローカル領域は、データセットが処理される際に、現在のローカル領域を、一度に１つのローカル領域、処理するために順に（例えば、左から右、上から下などのラスタ順、または任意の他の一貫性のある順序）処理され得る。本明細書に説明されるように、ローカル領域ごとに、本方法／装置は、現在のローカル領域を識別し、次いで、この現在のローカル領域を識別し、以前の現在のローカル領域と比較し得る（最初の、または最初のいくつかの始めの現在のローカル領域は調節されないままであってもよい）。例えば、以前の現在のローカル領域は、左から右、上から下へ処理するとき、例えば、画像データセット内の現在のローカル領域の上および／または左の、すでに処理されたオフセット領域に対応する領域であり得る。異なる順序またはパターンで処理する場合、以前のローカル領域は、すでに処理された異なる部分から選択され得る。いくつかの変形において、２つ以上の以前のローカル領域は、比較され得るか、異なる順であり得る。例えば、いくつかの変形において、２つ以上の以前のローカル領域は、信号対ノイズ比を改善するために、組み合わされる（例えば、平均化される）などであり得る。現在のローカル領域は、（１つまたは複数の）以前のローカル領域（またはその組み合わせ）と比較され得、相関レベルが、この比較について決定（例えば、演算）され得る。例えば、異なる、および場合によっては部分的に重複する）領域間の対応するインデックス領域（例えば、ｘ、ｙ値）は比較され得、値（例えば、相関レベル）が決定され得る。相関レベルは、ローカル領域内の各対応する領域（例えば、ｘ、ｙ位置などのインデックス）の強度を比較することによって決定され得る。値が、１つまたは複数の変数において、インデックス値について高相関される場合、相関レベルは、設定量だけ増大され得る。

[0132]この演算された相関レベルは、次いで、現在のローカル領域のデータをさらに処理するために使用され得る。例えば、この比較／相関レベルまたは値が、予め設定され得るか調節可能であり得るしきい値を超える場合、予測因子が、識別され、現在のローカル領域を修正するために使用され得る。予測因子は、現在のローカル領域データおよび少なくとも１つの以前のローカル領域データの間で、インデックスの関数として１つまたは複数の変数の各々を計算し得る。例えば、予測因子は、以前のローカル領域内に十分に高いレベルの相関を有する現在のローカル領域のうちのスケーリングされたバージョンの領域（インデックス値）であり得る。各インデックスにおける値は、０（例えば、対応しない領域の場合）、または以前のローカル領域からの対応するインデックス付き値のいくらかスケーリングされた値であり得る。スケーリングされた値は、ローカル領域全体に基づいてスケーリングされ得、インデックス付きピーク（例えば、画像データセット内の、画素強度など）のうちの１つの最も近い予測値に対応する値へスケーリングされ得る。

[0133]現在のローカル領域は、このスケーリングされた予測因子を使用して調節され得る。例えば、現在のローカル領域は、相関のレベル（例えば、現在のローカル領域データと以前のローカル領域データとの）がしきい値を超えるとき、以前のローカル領域データに基づいて、スケーリングされた予測相関データを減算するために、現在のローカル領域データを調節することによって処理され得る。

[0134]修正された（例えば、調節された）現在のローカル領域は、次いで、ＰＭＩもしくはＰＣＲエンコーダなど、エンコーダによって、または標準ＺＩＰもしくは他の圧縮エンコーダを使用することによって、符号化され得る。現在のローカル領域データは、倍率および／または予測因子に関連した他のデータと一緒に、圧縮ストリーム内へ符号化され得る。

[0135]画像は、圧縮データを復号し、復元されるべきローカル領域を（処理／圧縮されたデータから）識別し、データセットの部分を修正するために使用される予測因子を（処理／圧縮されたデータから）識別し、スケーリングされた予測因子を復元されるべきローカル領域へと追加し直して復元されたローカル領域を形成することによって、（図８Ｂに示されるように）解凍および復元され得る。図９は、本明細書に説明されるような圧縮されるデータセットのすべてまたは一部分を復元するための方法（および装置）の一例を概略的に例証する。

[0136]図９において、圧縮データ９０５は、圧縮入力データ、ならびに予測因子データ（例えば、倍率９７５または予測因子倍率）から、圧縮データから、調節されたローカル領域情報９１０を復号することによって、解凍され得る。復元すべき調節されたローカル領域および予測因子データの両方が、データを符号化するために使用されるエンコードのタイプ（図１を参照）に対応するデコーダ９０７を使用して復号され得る。故に、デコーダは、復元されるべき復号された現在のローカル領域データ９１０、および復元されるべきこの標的ローカル領域に対応する復号された予測因子倍率９７５を提供し得る。図１において圧縮するための説明される手順を逆にすることによって、予測因子および復号されたローカル領域は、次いで、例えば、出力、表示、保存などされ得る復元された標的（「復元されたローカル」）領域データ９９０を提供するために一緒に追加され得る９８０。このプロセスは、ファイル全体を解凍および復元するために反復的に使用され得、ならびに／またはそれは、データセットの一部分を復元するためだけに使用され得る。

[0137]ローカル領域ごとに順に、圧縮データは、復号され、図５に示される調節されたローカル領域データを復元するために適用される。最適倍率９７５もまた、圧縮データから取得される。各ローカル領域は、データセットが処理される際に、現在のローカル領域を、一度に１つのローカル領域、処理するために順に（例えば、左から右、上から下などのラスタ順、または任意の他の一貫性のある順序）処理され得る。本明細書に説明されるように、ローカル領域ごとに、本方法／装置は、現在のローカル領域を識別し、次いで、この現在のローカル領域を識別し、以前の（すでに処理された）ローカル領域とおよび比較し得る。例えば、以前のローカル領域は、左から右、上から下へ処理するとき、例えば、画像データセット内の現在のローカル領域の上および／または左の、すでに処理されたオフセット領域に対応する領域であり得る。異なる順序またはパターンで処理する場合、以前のローカル領域は、すでに処理された異なる部分から選択され得る。いくつかの変形において、２つ以上の以前のローカル領域は、比較され得るか、または異なる順であり得る。例えば、いくつかの変形において、２つ以上の以前のローカル領域は、信号対ノイズ比を改善するために、組み合わされる（例えば、平均化される）などであり得る。

[0138]現在のローカル領域９１０は、本明細書に開示されるように調節されている場合のあるピークのサブセットを識別するために、（１つまたは複数の）以前のローカル領域９２０（または、その組み合わせ）と比較され得る。識別＆予測モジュール９６０は、剰余ピークｍ／ｚ位置（図５内のピーク４０５）に一致する以前の領域データ内の比較的高い強度候補ピークのシーケンス（図３内のピーク４０２）を求めて、ローカルおよび以前の領域データのコンテンツを検索する。識別は、質量分析機器の高いｍ／ｚ精度、典型的には１ｐｐｍ許容にまで及ぶ精度を活用することによって、高い信頼性を伴って行われ得る。識別されたピークは、剰余位置に一致しなければならず、後続のピーク間の均一な間隔は、以前のローカル領域データ内のピークの対応する電荷状態に一致しなければならない。加えて、以前のローカル領域内のピークの強度は、本明細書にすでに開示されるような予想されるａｖｅｒｇｉｎｅ分布に一致しなければならない。

[0139]現在の調節された領域データ内のｍ／ｚ剰余位置に一致する以前のローカル領域内の候補ピークシーケンスの識別がモジュール９６０によって行われると、同一の予測因子（符号化中に使用されるものと）が、以前のローカル領域データ内の識別されたピークに基づいてローカル領域ピークを予測するために適用される。以前のローカル領域内の識別されたピークの各々は、圧縮ストリームデータから抽出および復号される最適倍率によってスケーリングされる。スケーリングされたピーク９６５は、図９に示される。

[0140]ピーク９６５の予測したスケーリングされたシーケンスは、マルチプレクサ９７０および加算ノード９８０を通じて、調節されたローカル領域データ９１０に追加される。予測したスケーリングされたピーク（予測ローカル領域ピーク、図４内の４０２）を調節されたローカル剰余（調節されたローカル領域データ、図５内のピーク４０５）に追加することによって、元のローカルデータ（図２内のピーク４０４）は、元のローカル領域値へと効果的に復元される。復元されたローカル領域データは、これより加算ノード出力９９０において利用可能であり、復元されたローカル領域データが実際に正しくかつ正確であることを検証するために相関レベルモジュール９３０に提供される。

[0141]復元された現在のローカル領域データ９９０は、（１つまたは複数の）以前のローカル領域（またはその組み合わせ）と比較され得、相関レベルが、この比較について決定（例えば、演算）され得る。例えば、異なる、および場合によっては部分的に重複する）領域間の対応するインデックス領域（例えば、ｘ、ｙ値）が比較され得、値（例えば、相関レベル）が決定され得る。相関レベルは、ローカル領域内の各対応する領域（例えば、ｘ、ｙ位置などのインデックス）の強度を比較することによって決定され得る。値が、１つまたは複数の変数において、インデックス値について高相関される場合、相関レベルは、設定量だけ増大され得る。

[0142]演算された相関レベルは、次いで、現在のローカル領域のデータを検証するために使用され得る。例えば、この比較／相関レベルまたは値が、予め設定され得るか調節可能であり得るしきい値９４０を超える場合、マルチプレクサ９７０が、現在のローカル領域データを保持するためにオンにされ得る。しかしながら、現在のローカル領域データと以前のローカル領域データとの相関のレベルがしきい値９４０を下回る場合、マルチプレクサ９７０は、オフにされ、以て、スケーリングされたピーク補正が追加されることを無効にし、補正されていない調節されたローカル領域データ９１０を出力９９０に渡すだけである。故に、デコーダ出力９９０における復元されたローカル領域データは、エンコーダへの元の入力を正確に反映する（相関のレベルが設定されたしきい値を超えるとき、予測ピークピークに基づいて調節されたローカル領域データを使用するか、または相関のレベルがしきい値を下回るとき、未調節のローカルデータを使用することによって）。

[0143]ローカル領域データ９９０は、故に、高忠実度で復元され、閲覧または格納のため、または任意の後続の下流処理のために利用可能にされる。
[0144]例えば、図１０は、どのようにして本明細書に説明される圧縮方法および装置が、圧縮データストリームからの直接（例えば、ランダム）アクセスを提供するために使用され得るかを例証する。例えば、図１０において、大きいデータセット（例えば、示される大きい画像などの画像データ）は、圧縮され、データストリーム（圧縮されたビットストリーム）内へマッピングされ得る。この大きいデータセットのほんの一部分が分析または操作され得る。例えば、ある領域が、データセット全体を解凍する必要なしに抽出され得、特定の１つまたは複数の標的領域のみの処理を可能にする。これは、特定の領域へのアクセスを有するためにはデータセット全体（例えば、画像）を解凍する必要がある他の圧縮技術と対照的である。目的の画像の部分を含むローカル領域のみが復元される必要があり、画像の残りは解凍されない。

[0145]図１１Ａ～１１Ｂは、本明細書に説明されるように圧縮され得るデータセットの別の例を例証する。この例では、データセットは、多重化蛍光データセットであり、（５つの異なるバイオマーカ染料の）５つの色移りを示す。疎の多次元順序付き系列データセット全体が、本明細書に説明されるように圧縮され得、領域は、１５％～１６００％のズームから、詳細の著しい損失なしに解凍領域を拡大することを含め、復号および調査され得る。例えば、図１１Ａにおいて、囲まれた領域Ｂは、解凍され、図１１Ｂに示されるように拡大され得る。図１１Ｂは、１５％ズームの拡大を示す。図１１Ｂ内の画像の元のファイルサイズは、３２１ＭＢであり、本明細書に使用される方法が、少なくとも３９：１の圧縮比でこのデータセットを圧縮するために使用され得、およそ８．２ＭＢの圧縮ファイルサイズを提供する。処理および解凍された画像領域は、元の領域と区別不可能である。例えば、この例における画素あたりの平均２乗誤差（ＰＭＳＥ）は、４．２４ｅ－４であり、ピーク信号対ノイズ比（ＰＳＮＲ）は、およそ５６．２５ｄＢである。これは、ＪＰＥＧ（Ｑ＝９０で約４５ｄＢの典型的なＰＳＮＲを有する）などの他の一般的に使用される圧縮技術と比べて非常に有利である。平均して、他の画像タイプは、同等の品質で、類似のまたはより良好な圧縮比を有しており、例えば、サイズが１ＧＢを超える画像のデータセットは、本明細書に説明される方法および装置を使用して、１５０：１超（例えば、１，６２８ＭＢ～１４．４ＧＢ未満、約１５４：１の比を提供する）まで圧縮された。

[0146]図１２Ａは、本明細書に説明されるように有利に圧縮され得る大きい撮像データセットの別の例を例証する。図１２Ａに示される元の画像は、高圧縮で標準ＪＰＥＧ画像圧縮技術を使用して、および本明細書に説明される方法（ＰＭＩ圧縮またはＰＣＲ圧縮と称される）を使用して圧縮された。拡大下で、本明細書に説明される方法は、ＪＰＥＧを含む他の既知の圧縮技術よりも著しく少ないアーチファクトおよび損失をもたらした。例えば、図１２Ａの画像の小さい領域を、本明細書に説明される方法を使用した圧縮および復元の後に調査し（図１２Ｂに示される）、図１２Ｃに示されるＪＰＥＧを使用した圧縮および復元の後の同じ領域と比較した。この比較により分かるように、図１２ＣのＪＰＥＧ圧縮は、本明細書に説明される、および図１２Ｂに示されるように処理されるときには存在しない著しいアーチファクトをもたらした。

[0147]特徴または要素が、別の特徴または要素の「上」にあると本明細書内で言及されるとき、それは、他の特徴もしくは要素の直接上にあり得るか、または介在する特徴および／もしくは要素も存在し得る。対照的に、特徴または要素が、別の特徴または要素の「直接上」にあると言及されるとき、介在する特徴または要素は存在しない。特徴または要素が、別の特徴または要素に「接続される」、「装着される」、または「結合される」と言及されるとき、それは、他の特徴もしくは要素に直接的に接続、装着、もしくは結合され得るか、または介在する特徴もしくは要素が存在し得るということも理解されたい。対照的に、特徴または要素が、別の特徴または要素に「直接的に接続される」、「直接的に装着される」、または「直接的に結合される」と言及されるとき、介在する特徴または要素は存在しない。１つの実施形態に関して説明される、または示されるが、そのように説明される、または示される特徴および要素は、他の実施形態にも適用することができる。別の特徴に「隣接して」配設される構造または特徴に対する言及は、隣接する特徴に重複するか、またはその下にある部分を有し得るということも当業者によって理解されるものとする。

[0148]本明細書で使用される用語は、特定の実施形態のみを説明するという目的のためであり、本発明の限定であることは意図されない。例えば、本明細書で使用される場合、単数形「１つの（ａ）」、「１つの（ａｎ）」、および「その（ｔｈｅ）」は、複数形も同様に含むことが意図されるが、文脈が明白に別のことを示す場合はその限りではない。用語「備える（ｃｏｍｐｒｅｉｓｅｓ）」および／または「備える（ｃｏｍｐｒｉｓｉｎｇ）」は、本明細書において使用されるとき、述べられた特徴、ステップ、動作、要素、および／または構成要素の存在を特定するが、１つまたは複数の他の特徴、ステップ、動作、要素、構成要素、および／またはその群の存在または追加を除外しないということもさらに理解されたい。本明細書で使用される場合、用語「および／または」は、関連した列挙項目のうちの１つまたは複数の任意およびすべての組み合わせを含み、「／」と短縮され得る。

[0149]「下（ｕｎｄｅｒ）」、「下方（ｂｅｌｏｗ）」、「より低い（ｌｏｗｅｒ）」、「上（ｏｖｅｒ）」、「上方（ｕｐｐｅｒ）」、および同様のものなど、空間関連の用語は、１つの要素または特徴の、図内に例証されるような別の要素および特徴に対する関係を説明するために、説明しやすくするために本明細書で使用され得る。空間関連の用語は、図に描写される配向に加えて、使用または動作中のデバイスの異なる配向を包含することが意図されることを理解されたい。例えば、図内のデバイスが反転される場合、他の要素または特徴の「下」または「真下」として説明される要素は、他の要素または特徴の「上」に配向される。故に、例示的な用語「下」は、上および下の配向の両方を包含し得る。デバイスは、（９０度回転されて、または他の配向に）別途配向され得、本明細書で使用される空間関連の記述子は、それに応じて解釈される。同様に、用語「上方に」、「下方に」、「垂直」、「水平」、および同様のものは、別途具体的に示されない限り、説明の目的のためだけに本明細書で使用される。

[0150]用語「第１の」および「第２の」は、様々な特徴／要素（ステップを含む）を説明するために本明細書で使用され得るが、これらの特徴／要素は、文脈が別途示さない限り、これらの用語によって限定されるべきではない。これらの用語は、１つの特徴／要素を別の特徴／要素と区別するために使用され得る。故に、本明細書に説明される方法および装置の教示から逸脱することなく、以下で論じられる第１の特徴／要素は、第２の特徴／要素と呼ばれてもよく、同様に、以下で論じられる第２の特徴／要素は、第１の特徴／要素と呼ばれてもよい。

[0151]本明細書および以下に続く特許請求の範囲の全体を通して、文脈が別のことを要求しない限り、用語「備える（ｃｏｍｐｒｉｓｅ）」、ならびに「備える（ｃｏｍｐｒｉｓｅｓ）」および「備える（ｃｏｍｐｒｉｓｉｎｇ）」などの変形は、様々な構成要素が、本方法および物品（例えば、組成物、およびデバイスを含む装置、および方法）において共に連帯して用いられ得ることを意味する。例えば、用語「備える」は、任意の述べられた要素またはステップの包含を示唆するが、任意の他の要素またはステップの除外は示唆しないものと理解される。

[0152]一般に、本明細書に説明される装置および方法のいずれかは、包括的であると理解されるべきであるが、構成要素および／またはステップのすべてまたはサブセットは、代替的に、排他的であり得、様々な構成要素、ステップ、副構成要素、またはサブステップから「なる」または代替的に「本質的になる」と表現され得る。

[0153]本明細書および特許請求の範囲において、ここで使用される場合、例で使用されるものを含め、また別途明示的に記載のない限り、すべての数字は、用語「約」または「およそ」があたかも前に置かれているかのように、たとえそれらの用語が明示的に登場しないとしても、読まれ得る。表現「約」または「およそ」は、説明される値および／または位置が値および／または位置の合理的な予想範囲以内であることを示すために、大きさおよび／または位置を説明するときに使用され得る。例えば、数値は、述べられた値（または値の範囲）の＋／－０．１％、述べられた値（または値の範囲）の＋／－１％、述べられた値（または値の範囲）の＋／－２％、述べられた値（または値の範囲）の＋／－５％、述べられた値（または値の範囲）の＋／－１０％などである値を有し得る。本明細書に提供される任意の数値は、文脈が別途示さない限り、約またはおよそのその値を含むということも理解されるべきである。例えば、値「１０」が開示される場合、「約１０」も開示される。本明細書に列挙される任意の数範囲は、本明細書に組み入れられるすべての部分範囲を含むことが意図される。ある値が開示されるとき、その値「よりも小さいか、またはこれに等しい」、「その値よりも大きいか、またはこれに等しい」、および値の間の可能な範囲もまた、当業者によって理解されるように、開示されるということを理解されたい。例えば、値「Ｘ」が開示される場合、「Ｘよりも小さいか、またはこれに等しい」ならびに「Ｘよりも大きいか、またはこれに等しい」も開示される（例えば、Ｘが数値である場合）。本出願全体を通して、データはいくつかの異なる形式で提供されること、また、このデータは、終点および開始点、ならびにデータ点の任意の組み合わせのための範囲を表すことを理解されたい。例えば、特定のデータ点「１０」および特定のデータ点「１５」が開示される場合、１０および１５より大きい、１０および１５以上、１０および１５未満、１０および１５以下、ならびに１０および１５に等しいが、１０～１５と同様に、開示されるとみなされるということを理解されたい。２つの特定の単数の間の各単数も開示されるということも理解されたい。例えば、１０および１５が開示される場合、１１、１２、１３、および１４も開示される。

[0154]様々な例証的な実施形態が上に説明されるが、いくつかの変更のうちのいずれかが、特許請求の範囲によって説明されるような本発明の範囲から逸脱することなく、様々な実施形態に対してなされ得る。例えば、様々な説明された方法ステップが実施される順序は、多くの場合、代替の実施形態においては変更され得、また他の代替の実施形態においては、１つまたは複数の方法ステップは、まとめてスキップされ得る。様々なデバイスおよびシステム実施形態の任意選択の特徴は、一部の実施形態においては含まれ得るが、他では含まれない。したがって、先述の説明は、主に例示の目的で提供され、特許請求の範囲に明記されるような本発明の範囲を制限すると解釈されるべきではない。

[0155]本明細書に含まれる例および例証は、主題が実践され得る特定の実施形態を、限定ではなく例証の目的で示す。述べられるように、他の実施形態が、構造的および論理的置換および変更が本開示の範囲から逸脱することなくなされ得るように、利用され、またそこから派生され得る。発明の主題のそのような実施形態は、単に簡便性のため、および本出願の範囲を、実際には２つ以上が開示される場合、任意の単一の発明または発明の概念に自発的に限定することを意図せずに、用語「発明」で、個々にまたはまとめて本明細書では言及される。故に、特定の実施形態が本明細書に例証および説明されているが、同じ目的を達成するために計算される任意の構成が、示される特定の実施形態の代わりとなり得る。本開示は、様々な実施形態の任意およびすべての適応または変形を網羅することが意図される。上の実施形態の組み合わせ、および本明細書に具体的に説明されない他の実施形態は、上の説明を読む際に当業者には明白であるものとする。

Claims

疎の多次元順序付き系列データを圧縮するためのコンピュータ実装方法であって、
多次元順序付き系列データを複数のローカル領域へと分割するステップであって、各ローカル領域内の前記データは、１つまたは複数のインデックス付きデータセットを含み、各インデックス付きデータセットは、前記疎の多次元順序付き系列データの所与のローカル領域内のインデックス（ｎ）、および前記インデックス（ｎ）によってインデックス化される１つまたは複数の変数を含む、ステップと、
前記インデックス（ｎ）、現在のローカル領域データ、および少なくとも１つの以前のローカル領域データの関数として、前記１つまたは複数の変数の各々を計算する予測因子を識別するステップと、
しきい値を超える相関のレベルが前記現在のローカル領域データと前記以前のローカル領域データとの間に存在するとき、スケーリングされた予測相関データを、少なくとも１つの以前のローカル領域データに基づいて減算することにより、前記現在のローカル領域データを調節するステップと、
最適倍率を含む、前記調節された現在のローカル領域データを、圧縮ストリーム内へ符号化するステップと、
を含む、コンピュータ実装方法。
前記多次元順序付き系列データは、分光データである、請求項１に記載の方法。
分割するステップは、前記データを複数の重複ローカル領域へと分割することを含む、請求項１に記載の方法。
分割するステップは、前記データを複数の非重複ローカル領域へと分割することを含む、請求項１に記載の方法。
前記現在のローカル領域データと前記以前のローカル領域データとの相関レベルを演算することをさらに含む、請求項１に記載の方法。
前記相関レベルは、前記現在のローカル領域データと前記少なくとも１つの以前のローカル領域データとの間に存在する一連の類似ピークから演算される、請求項５に記載の方法。
前記一連の類似ピークは、前記一連の類似ピークからのピークの大半が、ほぼ同じ質量／電荷比、後続のピーク間の間隔から決定されるような、ほぼ同じ電荷状態、およびａｖｅｒｇｉｎｅモデルに一致する類似のピーク強度存在度分布のうちの１つまたは複数を有する場合に、類似とみなされる、請求項６に記載の方法。
エンコーダが、前記少なくとも１つの以前のローカル領域データを識別する識別子を符号化する、請求項１に記載の方法。
前記複数のローカル領域を順番に処理するステップをさらに含み、前記予測因子を識別するステップ、前記現在のローカル領域データを調節するステップ、および前記調節された現在のローカル領域データを符号化するステップは、ローカル領域ごとに前記順番に繰り返される、請求項１に記載の方法。
前記順番は、スキャン順またはラスタースキャン順である、請求項９に記載の方法。
前記順番は、最も高い相関レベルを有する順番から選択される、請求項９に記載の方法。
疎の多次元順序付き系列データを圧縮するためのコンピュータ実装方法であって、
病理組織撮像データを含む多次元順序付き系列データを複数のローカル領域へと分割するステップであって、各ローカル領域内の前記データは、１つまたは複数のインデックス付きデータセットを含み、各インデックス付きデータセットは、病理組織撮像データの所与のローカル領域内の空間インデックス（ｎ）、および前記空間インデックス（ｎ）によってインデックス化される１つまたは複数の変数を含む、ステップと、
前記空間インデックス（ｎ）、現在のローカル領域データ、および少なくとも１つの以前のローカル領域データの関数として、前記１つまたは複数の変数の各々を計算する予測因子を識別するステップ、
しきい値を超える相関のレベルが前記現在のローカル領域データと前記以前のローカル領域データとの間に存在するとき、スケーリングされた予測相関データを、前記少なくとも１つの以前のローカル領域データに基づいて減算することによって、前記現在のローカル領域データを調節するステップ、ならびに
最適倍率を含む前記調節された現在のローカル領域データを、圧縮ストリーム内へ符号化するステップ
によって前記複数のローカル領域を順番に処理するステップと、
を含む、コンピュータ実装方法。
疎の多次元順序付き系列データを圧縮するためのシステムであって、前記システムは、命令が格納された非一時的なコンピュータ可読媒体を備え、前記命令は、プロセッサによって実行されるとき、前記プロセッサに、
多次元順序付き系列データを複数のローカル領域へと分割することであって、各ローカル領域内の前記データは、１つまたは複数のインデックス付きデータセットを含み、各インデックス付きデータセットは、前記疎の多次元順序付き系列データの所与のローカル領域内のインデックス（ｎ）、および前記インデックス（ｎ）によってインデックス化される１つまたは複数の変数を含む、分割することと、
前記インデックス（ｎ）、現在のローカル領域データ、および少なくとも１つの以前のローカル領域データの関数として、前記１つまたは複数の変数の各々を計算する予測因子を識別することと、
しきい値を超える相関のレベルが前記現在のローカル領域データと前記以前のローカル領域データとの間に存在するとき、スケーリングされた予測相関データを、前記少なくとも１つの以前のローカル領域データに基づいて減算することによって、前記現在のローカル領域データを調節することと、
最適倍率を含む前記調節された現在のローカル領域データを、圧縮ストリーム内へ符号化することと、
を行わせるシステム。
前記多次元順序付き系列データは、分光データである、請求項１３に記載のシステム。
前記プロセッサは、前記以前のローカル領域データのインジケータを前記圧縮ストリーム内へ符号化するように構成される、請求項１３に記載のシステム。
分割することは、前記データを複数の重複ローカル領域へと分割することを含む、請求項１３に記載のシステム。
分割することは、前記データを複数の非重複ローカル領域へと分割することを含む、請求項１３に記載のシステム。
前記プロセッサは、前記現在のローカル領域データと前記以前のローカル領域データとの相関レベルを演算するようにさらに構成される、請求項１３に記載のシステム。
前記相関レベルは、前記現在のローカル領域データと前記少なくとも１つの以前のローカル領域データとの間に存在する一連の類似ピークから演算される、請求項１８に記載のシステム。
前記一連の類似ピークは、前記一連の類似ピークからのピークの大半が、ほぼ同じ質量／電荷比、後続のピーク間の間隔から決定されるような、ほぼ同じ電荷状態、およびａｖｅｒｇｉｎｅモデルに一致する類似のピーク強度存在度分布のうちの１つまたは複数を有する場合に、類似とみなされる、請求項１９に記載のシステム。
圧縮データファイルまたはストリームから疎の多次元順序付き系列データを解凍するためのコンピュータ実装方法であって、
前記圧縮データファイルまたはストリームを受信するステップと、
前記圧縮データファイルまたはストリームから、調節されたローカル領域データを復号するステップであって、前記復号した調節されたローカル領域データは、復元されるべき標的ローカル領域に対応する、ステップと、
最適倍率によってスケーリングされる予測ローカル領域ピークを生成するために、前記調節されたローカル領域データを１つまたは複数の以前のローカル領域と比較することによって、前記圧縮データファイルまたはストリームから予測因子倍率を復号するステップと、
復元されたローカル領域データを提供するために、前記予測ローカル領域ピークおよび前記復号した調節されたローカル領域データを一緒に追加するステップと、
前記復元されたローカル領域データを出力するステップと、
を含む、コンピュータ実装方法。
前記調節されたローカル領域データおよび前記予測因子倍率は、前記データを符号化するために使用されるエンコードを適用するデコーダを使用して復号される、請求項２１に記載の方法。
前記予測因子倍率を復号するステップは、前記調節されたローカル領域データからのピークのサブセットを識別するために、前記調節されたローカル領域データを、前記調節されたローカル領域データからオフセットされる１つまたは複数の以前のローカル領域と比較すること、および前記予測ローカル領域ピークを生成するために、前記最適倍率によって前記ピークのサブセットをスケーリングすることを含む、請求項２１に記載の方法。
前記復元されたローカル領域データを提供するために、前記予測ローカル領域ピークおよび前記復号した調節されたローカル領域データを一緒に追加するステップは、前記調節されたローカル領域データと１つまたは複数の以前のローカル領域との相関がしきい値レベルを超えるとき、前記予測ローカル領域ピークおよび前記復号した調節されたローカル領域データを一緒に追加し、そうでなければ、前記復元されたローカル領域データを前記復号した調節されたローカル領域データに設定することを含む、請求項２１に記載の方法。
前記圧縮データファイルをその全体において復元するために前記復号、追加、および出力ステップを反復的に繰り返すステップをさらに含む、請求項２１に記載の方法。
前記圧縮データファイルまたはストリームの一部分のみが復元される、請求項２１に記載の方法。
前記圧縮データファイルまたはストリームから前記最適倍率を取得するステップをさらに含む、請求項２１に記載の方法。
複数の現在のローカル領域を順次に処理するために、復号するステップおよび調節されたローカル領域データ、ならびに前記予測ローカル領域ピークおよび復号されたローカル領域データを追加するステップをさらに含む、請求項２１に記載の方法。
前記圧縮データファイルまたはストリームを受信するステップは、圧縮データストリームを受信することを含む、請求項２１に記載の方法。
圧縮データファイルまたはストリームから疎の多次元順序付き系列データを解凍するためのコンピュータ実装方法であって、
前記圧縮データファイルまたはストリームを受信するステップと、
前記圧縮データファイルまたはストリームから、調節されたローカル領域データを復号するステップであって、前記復号した調節されたローカル領域データは、復元されるべき標的ローカル領域に対応する、ステップと、
前記調節されたローカル領域データからのピークのサブセットを識別するために、前記調節されたローカル領域データを、前記調節されたローカル領域データからオフセットされる１つまたは複数の以前のローカル領域データと比較すること、および予測ローカル領域ピークを生成するために、圧縮データファイルまたはストリームから抽出される最適倍率によって前記ピークのサブセットをスケーリングすることによって、前記圧縮データファイルまたはストリームから予測因子倍率を復号するステップと、
復元されたローカル領域データを生成するために、前記予測ローカル領域ピークおよび前記復号した調節されたローカル領域データを一緒に追加するステップと、
前記復元されたローカル領域データを出力するステップと、
を含む、コンピュータ実装方法。
前記予測ローカル領域ピークおよび前記復号した調節されたローカル領域データを一緒に追加するステップは、前記調節されたローカル領域データと１つまたは複数の以前のローカル領域との相関レベルを演算し、前記相関レベルがしきい値を超えるときにのみ、前記予測ローカル領域ピークおよび前記復号した調節されたローカル領域データを一緒に追加し、そうでなければ、前記復元されたローカル領域データを前記復号した調節されたローカル領域データに設定することを含む、請求項３０に記載の方法。