JP2010520471A - 材料の分類および混合物の成分の定量化のためのアンサンブル方法ならびに装置 - Google Patents

材料の分類および混合物の成分の定量化のためのアンサンブル方法ならびに装置 Download PDF

Info

Publication number
JP2010520471A
JP2010520471A JP2009552205A JP2009552205A JP2010520471A JP 2010520471 A JP2010520471 A JP 2010520471A JP 2009552205 A JP2009552205 A JP 2009552205A JP 2009552205 A JP2009552205 A JP 2009552205A JP 2010520471 A JP2010520471 A JP 2010520471A
Authority
JP
Japan
Prior art keywords
model
spectrum
training set
mixture
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2009552205A
Other languages
English (en)
Inventor
ケニス ヘネシー,
マイケル ジェラルド マッデン,
アラン ジョージ ライダー,
トム ホウリー,
Original Assignee
ナショナル ユニバーシティー オブ アイルランド, ゴールウェイ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ナショナル ユニバーシティー オブ アイルランド, ゴールウェイ filed Critical ナショナル ユニバーシティー オブ アイルランド, ゴールウェイ
Publication of JP2010520471A publication Critical patent/JP2010520471A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/65Raman scattering
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2201/00Features of devices classified in G01N21/00
    • G01N2201/12Circuits of general importance; Signal processing
    • G01N2201/129Using chemometrical methods
    • G01N2201/1293Using chemometrical methods resolving multicomponent spectra

Landscapes

  • Health & Medical Sciences (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

スペクトルデータに基づいて複雑な混合物の中の標的検体の特異的同定または定量化を可能とするために、化合物の未知の混合物のスペクトルを分類または定量化するために用いられるモデルを生成するための方法およびシステムが提供される。該方法は、訓練用スペクトルの訓練セットを提供するステップであって、各スペクトルは、既知の化合物の混合物を表し、かつ各々がそれぞれ異なる波長で複数のスペクトル属性を有する、ステップと、複数の波長を選択するステップと、訓練セットの各訓練用スペクトルの中の各選択された波長で、少なくともスペクトル属性の値を決定するステップと、該選択された波長での決定された属性値の関連性を調べることによって、各選択された波長に対するモデルを構築するステップとを含む。上記モデルを使用する、未知の化合物の混合物のスペクトルを分類ならびに定量化する方法およびシステムが提供される。

Description

本発明は、分光分析データの機械学習分析に基づく、システムまたは材料の定量分析および定性分析に関する。「分光分析データ」という用語は、本明細書において、FT−IR吸収、ラマン、NIR吸収、蛍光、NMR、などの技術を含む。
分光分析データに対する本発明の応用は、ラマン分光法におけるその使用を含む。ラマン分光法は、歴史的には、多数の化学システムからの振動分光分析データを得るために使用されてきた。ガラスを介したサンプリング能力と関連して、光ファイバおよび顕微鏡との連結によるサンプリングの容易性に起因して、その多用途性は当該技術をして、違法材料の検出において取締機関によって使用される非常に実用的な技術とした。それはまた、非侵襲的であり、非破壊的であり、かつ非常に多くの場合極めて選択的であるという、極めて望ましい特性を有する。ラマン分光法の分析応用は増加し続けており、典型的な応用分野は、構造決定、多成分の定性分析および定量分析への応用である。
標的検体のラマンスペクトルは、既知物質の参照スペクトルと比較されて、検体の存在を同定し得る。より複雑な(または分解能の低い)スペクトルでは、同定のプロセスはより困難である。現在の標準は、既知試料の試験セットを確立し、主成分分析(PCA)および多変数回帰のような計量化学的な(chemometric)方法を使用して統計モデルを生成し、分光分析データから検体を分類および/または定量化することである。しかしながら、これらの統計に基づくモデルには、分解能の低いピークを有する、および/または複雑な複合混合物を含む複雑なシステムに対しては、性能の面において制約がある。
機械学習技術は、これらの課題を克服するためのより強固な方法を提供する。これらの技術は、IRスペクトルから細菌を同定するためのニューラルネットワークの使用や、質量スペクトルから植物抽出物を分類するためのニューラルネットワークの使用のような他の分光学領域から、化合物を同定および定量化するために過去に成功裏に使用されてきた。
スペクトル分析に特化した機械学習パッケージは、市場にはごく限られた数しか存在しない。Gmax−bio(Aber Genomic Computing)は、分光学を含む多くの科学領域における使用のために設計されている。これは、遺伝的プログラムを使用して、課題に対する解決法を引き出している。その開発者らは、他のほとんどの機械学習技術を凌ぐと主張しているが、しかしながら、広範な課題への適用性の故に、ユーザは、遺伝的プログラムおよび分光学の両方の予備的知識をいくつか必要とする。Neurodeveloper(Synthon GmBH)は、特にスペクトルの分析用に設計されており、スペクトルの解析のために、計量化学的なツール、前処理技術、およびニューラルネットワークを使用する。
機械学習における近年の進歩は、これらの計量化学的な方法を凌ぐことができる新しい技術へとつながった。
特許文献1および特許文献2は、スペクトル分析のためのPCAの使用を開示している。特許文献3、特許文献4、および特許文献5は、スペクトル分析のための部分最小二乗法(PLS)および古典的最小二乗法技術、ならびにこれらの技術の融合の使用を開示している。特許文献6は、有機材料および構造の分析のための人工ニューラルネットワーク(ANN)およびスペクトルデータの使用を開示している。特許文献7は、ラマンスペクトルデータから生物学的物質の濃度を決定するためのANNの特定的な実装の使用を開示している。ANN実装は、ファジー適応共鳴理論−マッピング(ARTMAP)を使用する。
特許文献8は、スペクトルデータを分類するための、主成分分析(PCA)と組み合わせたANNの使用を開示している。特許文献9は、有機および無機化合物のリアルタイム分析のためのANNの使用を開示している。特許文献10、特許文献11および特許文献12もまた、分光分析のためのANNの使用を開示している。特許文献13は、試験試料の(既知の条件の)訓練用試料のセットからの距離に基づきスペクトルデータを分類するためのシステムを開示している。試験試料は、少なくとも2つの試料との距離関係に基づき分類されるが、ただし、少なくとも1つの距離は、所定の最大距離未満である。この方法の好適な実施形態は、マハラノビス距離を使用するが、ユークリッド距離もまた考慮される。特許文献14は、複数のサポートベクタマシンを使用した知識発見を高めるためのシステムを開示している。
ANNおよびSVMに基づく既存の技術の限界は、それらが、特に容易に解釈され得ない予測を生成することである。したがって、それらは多くの場合「ブラックボックス」技術としてみなされ、手作業でスペクトルを検査する分析者は、ピークの位置およびサイズに基づきスペクトルを分類する。したがって、その分野の専門家(例えば分析化学者)は、使用される分類モデル、または分析中のデータに対する見識が与えられないという点で不利であった。ANNは、スペクトルの分類のための、特許取得済みの一般的な機械学習技術である。分類の正確性に悪影響を及ぼさずに、ANN決定プロセスの明確性を改善することが、本発明の目標である。SVMのような他の機械学習技術に対する改良もまた望まれる。
ノイズに強い分類方法を提供し、特許文献15、特許文献16、特許文献17、特許文献18、特許文献19、および特許文献20に記載のような、スペクトル前処理技術の必要性を除去することも、また本発明の目標である。
スペクトル分析の領域でのソフトウェアは、以下の4つの主要な領域に細分化され得る。
・データベースのライブラリ検索を実行してスペクトル特性を照合するソフトウェア
・標準の数学的および統計学的ツールを使用してスペクトルを処理するソフトウェア
・スペクトルのモデリングおよび定量化に使用され得る一般的統計パッケージ
・機械学習技術を利用してスペクトルを分類および定量化する、市販のソフトウェア
機械学習技術として、本発明の技術の方法を利用するソフトウェアは、上記の最後の群と直接的に競合することが想定される。
米国特許第6,675,137号明細書 米国特許第5,822,219号明細書 米国特許第6,415,233号明細書 米国特許第6,711,503号明細書 米国特許第6,096,533号明細書 米国特許第5,631,469号明細書 米国特許第5,553,616号明細書 米国特許第5,660,181号明細書 米国特許第5,900,634号明細書 米国特許第5,218,529号明細書 米国特許第6,135,965号明細書 米国特許第6,477,516号明細書 米国特許第6,421,553号明細書 米国特許第6,427,141号明細書 米国特許第4,783,754号明細書 米国特許第5,311,445号明細書 米国特許第5,435,309号明細書 米国特許第5,652,653号明細書 米国特許第6,683,455号明細書 米国特許第6,754,543号明細書
本発明の目的は、ラマンスペクトル分析、関連する分光技術、およびより一般的には、単変数逐次データの任意の形態に関連する、ANNおよびSVM方法を使用するものを含む、ML分類および回帰決定の明確性および正確性を増加することが可能な方法および装置を提供することである。単変数逐次データの例は、分光分析データ、音響データ、および地震データを含む。
スペクトルデータの逐次的性質を利用することによる、スペクトル分析用に設計された機械学習技術が必要とされている。
以下の説明および添付の特許請求の範囲において、スペクトルのそれぞれの周波数(または波数)は、属性またはスペクトル属性と称される。同様に、スペクトルの特定の周波数で記録された強度は、属性の値またはスペクトル属性の値と称される。
本発明の第1の局面に従って、スペクトルデータに基づく複雑な混合物中の標的検体の特異的同定または定量化を可能とするために、化合物の未知の混合物のスペクトルを分類または定量化するために用いるモデルを生成する方法が提供され、その方法は、
訓練用スペクトルの訓練セットを提供するステップであって、各スペクトルは、既知の化合物の混合物を表し、各々がそれぞれ異なる波長の複数のスペクトル属性を有する、ステップと、
複数の波長を選択するステップと、
訓練セットの各訓練用スペクトルの中の各選択された波長において、少なくともスペクトル属性の値を決定するステップと、
前記選択された波長での決定された属性値の関連性を調べることによって、各選択された波長に対するモデルを構築するステップと、を含む。
言い換えると、各選択された波長に対して、方法は、前記属性に対するモデルを構築するために、前記選択された波長での決定された属性値の関連性を調べるステップを含む。
方法は、訓練セットの各訓練用スペクトルの中の各選択された波長において、スペクトル属性の局面を決定するステップであって、各属性の局面は、周囲のスペクトルと関連するその位置である、ステップと、各モデルを構築するときに、各選択された波長での決定された局面の関連性を調べるステップと、をさらに含み得る。
さらに、化合物の未知の混合物のスペクトルを分類または定量化するために用いるモデルを生成する方法が提供され、その方法は、
訓練用スペクトルの訓練セットを提供するステップであって、各スペクトルは、既知の化合物の混合物を表し、各々がそれぞれ異なる波長の複数のスペクトル属性を有する、ステップと、
少なくとも各訓練用スペクトルの中の各スペクトル属性の値を決定するステップと、
前記特定の波長での前記属性に対するモデルを構築するために、特定の波長を有する訓練セットの中のすべての属性の属性値の関連性を調べるステップと、を含む。
この方法は、各訓練用スペクトルの各スペクトル属性の局面を決定するステップであって、各属性の局面は、周囲のスペクトルと関連するその位置である、ステップと、前記モデルを構築するときに、前記特定の波長を有する訓練セットのすべての属性の局面の関連性を調べるステップと、をさらに含み得る。
好ましくは、各属性の局面を決定するステップは、属性の値と少なくとも1つの先行属性または後続属性の値との間の、値の差を計算するステップを含む。
本明細書においてモデルの構築に関連して使用されるときの、関連性を調べるという用語は、結合する、収集する、照合する、集める、および同様のものを包含することが、留意されるべきである。
本発明の第2の局面に従って、未知の化合物の混合物のスペクトルを分類する方法が提供され、その方法は、
複数のモデルを提供するステップであって、各モデルは、化合物の未知の混合物のスペクトルを分類または定量化するために用いられる、モデルを生成する上述の方法のいずれかを使用して生成される、ステップと、
その上にモデルが構築された訓練セットを分類する際の、その正確性に基づいて各モデルの適合性を計算するステップと、
未知の化合物の前記混合物のスペクトルを分類するために、前記複数のモデルのうちの少なくとも1つを選択するステップであって、各モデルは、前記学習セットの中の各スペクトルからの特定の波長でのスペクトル属性を使用して構築されている、ステップと、
未知の化合物の前記混合物のスペクトルの中のどの属性が、前記特定の波長を有するかを同定するステップと、
未知の化合物の前記混合物に対するクラス予測を生成するために、前記同定された属性を、前記少なくとも1つの選択されたモデルに入力するステップと、を含む。
好ましくは、前記複数のモデルのうちの少なくとも1つを選択するステップは、訓練セットを最も正確に分類したモデルのうちの一定の割合を選択するステップを含む。好ましくは、訓練セットを最も正確に分類したモデルのうちの一定の割合を選択するステップは、訓練セットを正しく分類する際のその正確性に基づいて、各モデルの適合性を計算するステップと、それら適合性に従ってモデルをランク付けするステップと、最高ランクのモデルのうちの一定の割合を選択するステップとを含む。好ましくは、各モデルの適合性を計算する方法は、訓練セットの中の各スペクトルに対する正確性の値を割り当てるステップと、モデルに対する整数の適合性値を提供するために、前記正確性の値の関連性を調べるステップとを含む。各モデルのクラス予測は、モデルの適合性値によって重み付けされ得る。好ましくは、方法は、選択されたモデルの重み付けされたクラス予測を合計するステップをさらに含む。
本明細書において正確性の値に関連して使用されるときの、関連性を調べるという用語は、結合することによって要約することを意味することが、留意されるべきである。
本発明の第3の局面に従って、その中の濃度を決定するために未知の化合物の混合物のスペクトルを定量化する方法が提供され、その方法は、
複数のモデルを提供するステップであって、各モデルは、化合物の未知の混合物のスペクトルを分類または定量化するために用いられるモデルを生成する上述の方法(本発明の第1の局面による)を使用して生成される、ステップと、
未知の化合物の前記混合物のスペクトルを定量化するために、前記複数のモデルのうちの少なくとも1つを選択するステップであって、前記少なくとも1つのモデルは、前記訓練セットの中の各スペクトルからの特定の波長でのスペクトル属性を使用して構築されている、ステップと、
未知の化合物の前記混合物のスペクトルの中のどの属性が、前記特定の波長を有するかを同定するステップと、
未知の化合物の前記混合物に対する濃度予測を生成するために、前記同定された属性を前記少なくとも1つの選択されたモデルに入力するステップと、を含む。
好ましくは、前記複数のモデルのうちの少なくとも1つを選択するステップは、訓練セットを最も正確に定量化したモデルのうちの一定の割合を選択するステップを含む。好ましくは、訓練セットを最も正確に定量化したモデルのうちの一定の割合を選択するステップは、訓練セットを正しく定量化する際のその正確性に基づいて、各モデルの適合性を計算するステップと、それらの適合性に従ってモデルをランク付けするステップと、最高ランクのモデルのうちの一定の割合を選択するステップとを含む。
各モデルの適合性を計算する方法は、好ましくは、訓練セットの中の各スペクトルに対する正確性の値を割り当てるステップと、モデルに対して整数の適合性値を提供するために、前記正確性の値の関連性を調べるステップとを含む。未知の化合物の前記混合物に対する濃度予測を生成するステップは、前記少なくとも1つの選択されたモデルのそれぞれからの濃度予測の平均を計算するステップを含み得る。
本発明の第4の局面に従って、化合物の未知の混合物のスペクトルを分類または定量化するために用いられるモデルを生成するためのシステムが提供され、そのシステムは、
訓練用スペクトルの訓練セットを記憶するための記憶デバイスであって、各スペクトルは、既知の化合物の混合物を表し、各々が、それぞれ異なる波長の複数のスペクトル属性を有する、記憶デバイスと、
プロセッサであって、
訓練用スペクトルの訓練セットを提供し、
複数の波長を選択し、
訓練セットの各訓練用スペクトルの中の各選択された波長で、少なくともスペクトル属性の値を決定し、
前記選択された波長での決定された属性値の関連性を調べることによって、各選択された波長に対するモデルを構築するように、動作可能なプロセッサと、
を備える。
本システムは、好ましくは、訓練セットの各訓練用スペクトルの中の各選択された波長でのスペクトル属性の局面を決定するための手段であって、各属性の局面は、周囲のスペクトルと関連するその位置である、手段と、各モデルを構築するときに、各選択された波長での決定された局面の関連性を調べるための手段と、をさらに備える。
さらに、化合物の未知の混合物のスペクトルを分類または定量化するために用いられるモデルを生成するためのシステムが提供され、そのシステムは、
訓練用スペクトルの訓練セットを記憶するための記憶デバイスであって、各スペクトルは、既知の化合物の混合物を表し、各々が、それぞれ異なる波長の複数のスペクトル属性を有する、記憶デバイスと、
プロセッサであって、
訓練用スペクトルの訓練セットを提供し、各訓練用スペクトルの中の、少なくとも各スペクトル属性の値を決定し、
前記特定の波長での前記属性に対するモデルを構築するために、特定の波長を有する訓練セットの中のすべての属性の属性値の関連性を調べるように、動作可能なプロセッサと、を備える。
このシステムは、好ましくは、各訓練用スペクトルの中の各スペクトル属性の局面を決定するための手段であって、各属性の局面は、周囲のスペクトルと関連するその位置である、手段と、前記モデルを構築するときに、前記特定の波長を有する訓練セットのすべての属性の局面の関連性を調べるための手段と、をさらに備える。好ましくは、各属性の局面を決定するための手段は、属性の値と少なくとも1つの先行属性または後続属性の値との間の、値の差を計算するための手段を備える。
本発明の第5の局面に従って、未知の化合物の混合物のスペクトルを分類するためのシステムが提供され、そのシステムは、
複数のモデルを提供するための手段であって、各モデルは、化合物の未知の混合物のスペクトルを分類または定量化するために用いられるモデルを生成する上述の方法(本発明の第1の局面による)を使用して生成される、手段と、
その上にモデルが構築された訓練セットを分類する際の、その正確性に基づいて各モデルの適合性を計算するための手段と、
未知の化合物の前記混合物のスペクトルを定量化するために、前記複数のモデルのうちの少なくとも1つを選択するための手段であって、前記少なくとも1つのモデルは、前記訓練セットの中の各スペクトルからの特定の波長でのスペクトル属性を使用して構築されている、手段と、
未知の化合物の前記混合物のスペクトルの中のどの属性が、前記特定の波長を有するかを同定するための手段と、
未知の化合物の前記混合物に対する濃度予測を生成するために、前記同定された属性を前記少なくとも1つの選択されたモデルに入力するための手段と、を備える。
好ましくは、前記複数のモデルのうちの少なくとも1つを選択するための手段は、訓練セットを最も正確に分類したモデルのうちの一定の割合を選択するための手段を備える。好ましくは、訓練セットを最も正確に分類したモデルのうちの一定の割合を選択するための手段は、訓練セットを正しく分類する際のその正確性に基づいて、各モデルの適合性を計算するための手段と、それらの適合性に従ってモデルをランク付けするための手段と、最高ランクのモデルのうちの一定の割合を選択するための手段とを備える。
各モデルの適合性を計算するための手段は、訓練セットの中の各スペクトルに対する正確性の値を割り当てるための手段と、モデルに対して整数の適合性値を提供するために、前記正確性の値の関連性を調べるための手段とをさらに備え得る。各モデルのクラス予測は、モデルの適合性値によって重み付けされ得る。システムは、選択されたモデルの重み付けされたクラス予測を合計するための手段をさらに備え得る。
本発明の第6の局面に従って、その中の濃度を決定するために未知の化合物の混合物のスペクトルを定量化するためのシステムが提供され、そのシステムは、
複数のモデルを提供するための手段であって、各モデルは、化合物の未知の混合物のスペクトルを分類または定量化するために用いられるモデルを生成する上述の方法(本発明の第1の局面による)を使用して生成される、手段と、
未知の化合物の前記混合物のスペクトルを定量化するために、前記複数のモデルのうちの少なくとも1つを選択するための手段であって、前記少なくとも1つのモデルは、前記訓練セットの中の各スペクトルからの特定の波長でのスペクトル属性を使用して構築されている、手段と、
未知の化合物の前記混合物のスペクトルのどの属性が、前記特定の波長を有するかを同定するための手段と、
未知の化合物の前記混合物に対する濃度予測を生成するために、前記同定された属性を、前記少なくとも1つの選択されたモデルに入力するための手段と、を備える。
好ましくは、前記複数のモデルのうちの少なくとも1つを選択するための手段は、訓練セットを最も正確に定量化したモデルのうちの一定の割合を選択するための手段を備える。好ましくは、訓練セットを最も正確に定量化したモデルのうちの一定の割合を選択するための手段は、訓練セットを正しく定量化する際のその正確性に基づいて、各モデルの適合性を計算するための手段と、それらの適合性に従ってモデルをランク付けするための手段と、最高ランクのモデルのうちの一定の割合を選択するための手段とを備える。各モデルの適合性を計算するための手段は、好ましくは、訓練セットの各スペクトルに対する正確性の値を割り当てるための手段と、モデルに対して整数の適合性値を提供するために、前記正確性の値の関連性を調べるための手段とをさらに備える。未知の化合物の前記混合物に対する濃度予測を生成するための手段は、前記少なくとも1つの選択されたモデルのそれぞれからの濃度予測の平均を計算するための手段を備え得る。
本発明は、さらに、標的材料の試験スペクトルを分類する方法を提供し、その方法は、
m個の変数/属性を有するn個の試料の訓練セットを提供するステップと、
すべてのn個の試料にわたり、各属性に対してモデルを構築するステップと、
最高ランクのモデルのうちの一定の割合のものが、標的材料の試験スペクトルのクラスについて投票できるようにするステップと、
各モデルの投票を、前記訓練セットにおけるその分類の正確性に基づいて重み付けするステップと、
前記最高ランクのモデルからの総意に基づいて、標的材料の組成を決定するステップと、を含む。
方法は、さらに、訓練セットにおけるその分類性能に基づいて、構築された各モデルの適合性を計算するステップと、その適合性に従ってモデルをランク付けするステップと、を含み得る。
各属性に対してモデルを構築するステップは、a)第1の訓練用スペクトルの中の各属性に対して訓練データを生成するステップと、b)訓練セットの中の各訓練用スペクトルに対してステップ(a)を繰り返すステップと、(c)各訓練用スペクトルから生成された訓練データを使用して各属性に対するモデルを構築するステップと、を含み得る。
各属性の訓練データを生成するステップは、その値、その局面(その局面とは、周囲のスペクトルと関連するその位置である)、および、訓練用スペクトルのそのクラス値(存在/不在)を、計算するステップを含み得る。属性の局面を計算するステップは、属性の値と、少なくとも1つのその前または後の属性の値との間の、関係を計算するステップを含み得る。
訓練セットにおけるその性能に基づいて各モデルの適合性を計算する方法は、訓練セットの各スペクトルに対して正確性の値を割り当てるステップと、モデルに対して整数の適合性の値を提供するために、aにおいて正確性について計算を行うステップとを含み得る。モデルの適合性を計算する代替の方法、またはモデルの能力を評価する他の方法が使用され得ることが、理解される。
最高ランクのモデルのうちの一定の割合のものが、未知試料を予測できるようにするステップは、訓練用スペクトルの中のどの属性から、各モデルが構築されたかを決定するステップと、対応する属性および局面データを、試験スペクトルから最高ランクのモデルの各々に提供するステップと、未知のスペクトルに対して最高ランクのモデルの重み付けされた投票を使用するステップと、を含み得る。
各モデルの投票をその適合性に基づいて重み付けするステップは、各モデルの投票に、分類におけるモデルの適合性の値を乗じるステップを含み得る。選択されたモデルの過半数の投票に基づいてデータを分類するステップは、次いで、選択されたモデルの重み付けされた投票を合計するステップを含み得る。標的材料の組成を決定するステップは、この決定に当たり、分類において最高の選択されたモデルの過半数の重み付けされた投票に依拠するステップをさらに含み得る。
本発明は、さらに、標的材料の試験スペクトルを定量化する方法を提供し、その方法は、
m個の変数/属性を有するn個の試料の訓練セットを提供するステップと、
すべてのn個の試料にわたり、各属性に対してモデルを構築するステップと、
最高ランクのモデルのうちの一定の割合のものが、試験スペクトルにおける標的材料の濃度を予測できるようにするステップと、
前記最高ランクのモデルの平均予測に基づいて、標的材料の組成を決定するステップと、を含む。
方法は、さらに、訓練セットにおけるその定量化性能に基づいて、構築された各モデルの適合性を計算するステップと、その適合性に従ってモデルをランク付けするステップとを含み得る。各属性に対してモデルを構築するステップは、第1の訓練用スペクトルの中の各属性に対して訓練データを生成するステップと、訓練セットの中の各訓練用スペクトルに対して、ステップa)を繰り返すステップと、各訓練用スペクトルから生成された訓練データを使用して各属性に対するモデルを構築するステップと、を含み得る。
各属性の訓練データを生成するステップは、その値、その局面(その局面とは、周囲のスペクトルと関連するその位置である)、および、訓練用スペクトルのそのクラス値(濃度)を、計算するステップを含み得る。属性の局面を計算するステップは、属性の値と、少なくとも1つのその前または後の属性の値との間の、関係を計算するステップを含み得る。
訓練セットにおけるその性能に基づいて各モデルの適合性を計算する方法は、訓練セットの中の各スペクトルに対して正確性の値を割り当てるステップと、モデルに対する整数の適合性の値を提供するために、a)において正確性について計算を行うステップとを含み得る。
最高ランクのモデルのうちの一定の割合のものが、未知試料を予測できるようにするステップは、訓練用スペクトルの中のどの属性から、各モデルが構築されたかを決定するステップと、対応する属性および局面データを、試験スペクトルから最高ランクのモデルの各々に提供するステップと、未知のスペクトルに対して、最高ランクのモデルの平均を定量化に使用するステップと、を含み得る。最高ランクモデルの平均予測が、定量化に使用され得る。
標的材料の組成を決定するステップは、この決定に当たって、定量化における平均予測に依拠するステップをさらに含み得る。
本発明の任意の方法が、コンピュータ制御され得ることが理解される。したがって、本発明は、上述の本発明の任意の方法を実行するための、コンピュータ可読媒体上に記憶されたコンピュータ実行可能命令を有する、コンピュータ可読媒体をさらに提供する。
本発明は、上述の本発明の任意の方法を実行するための、検出器上に記憶されたコンピュータ実行可能命令を有する、検出器をさらに提供する。検出器は、好ましくは、現場での使用のための携帯型であり、しかしながら、非携帯型の検出器が、代替案として提供され得る。単一の検出器が、上述の方法のすべてを実行可能であり得ることが理解される。
本発明に従った検出器は、
上述の任意の方法を実行するために動作可能なプロセッサと、
少なくとも1つのモデルを記憶するための記憶デバイスと、
標的材料の少なくとも1つの試料を受けとるための手段と、
ユーザに出力を提供するための手段と、を備え得る。
検出器は、標的材料の試験スペクトルを分類する上述の方法と、標的材料の試験スペクトルを定量化する上述の方法との、両方を実行するように動作可能であり得ることが理解される。検出器は、好ましくは、モデルの構築に使用するための訓練データを記憶するための手段をさらに備える。訓練データは、モデルが構築されるまで一時的にのみ記憶され得、その時点でそのモデルのみが記憶される。検出器は、記憶デバイスに記憶されたモデルを、更新されたモデルのような代替のモデルと置き換えるための手段をさらに備え得る。既存のモデルは、異なるデータまたはより広範囲なデータを使用して構築された別のモデルで更新され得ることが理解される。
本発明は、任意の標準的分類または回帰手法と併用され得る、「スペクトル属性投票(Spectral Attribute Voting)」(SAV)と名付けたれたメタ学習「ラッパー(wrapper)」手法を提供する。
本質的に、このシステムは、それがデータ分析のための既存の手法を修正し、いくつかの方法で既存の手法を改善するということに貢献する。本発明は、アンサンブルベースの分析方法において以前に行われたことのない、分析結果を可視化する新しい方法を提供する。材料の複数試料からのスペクトル分析(例えば、ラマン分光法または赤外分光法)から生成されたデータが与えられると、本発明の方法は、データの重要な局面のコンパクトな概要を生成し、その結果として、それは、分類、定量化、可視化などの目的のために効率的に使用され得る。
本発明の利点は、分類/回帰プロセスにおいて最も大きな重要性が与えられた点が、その分野における専門家にとって有意義な方法で提示され、その結果として、専門家が、システムによって特定の決断がなされる理由に関する見識を得るという点である。それはまた、決定プロセスを検証するための方法を提供する。これは、ニューラルネットワーク(米国特許第5,946,640号)またはサポートベクタマシン(米国特許第6,427,141号)のような、分類プロセスを使用するこの分野における既存の特許に対する改良である。
本発明の方法の第1段階は、データセットにおける各属性に対してモデルを構築することである。
第1の属性に対する訓練データの生成は、以下のとおりである。第1の訓練用スペクトルを使用して、第1の属性に対して、属性の値および局面を用いて訓練データが生成され、ここで局面とは、周囲のスペクトルと関連するその位置である。第1の属性に対する局面データは、第1の属性の値と、第1の属性の前および後のいくつかの属性の値との間の、差として計算される。
局面データは、訓練用スペクトルの、第1の属性の値および分類タスクのクラス値(存在/不在)、または定量化タスクの濃度と併せて使用され、第1の訓練用スペクトル上の第1の属性に対する訓練データを生成する。上記プロセスは、次いで、第2の、および後続の各訓練用スペクトルを使用して繰り返され、データセットの中の第1の属性に対するモデルを構築するための訓練データを生成する。上記の訓練データ生成プロセスが、第2の属性に対して繰り返され、訓練用スペクトルの第2の属性に基づいてモデルを生成する。訓練セットの中の属性の、それぞれまたは一部に対して、異なるモデルが構築される。
第2段階は、各モデルの適合性(すなわち、どれ程よく学習したか)を計算し、それらの性能(それらの適合性)に基づいてすべてのモデルをランク付けする。
(分類タスク)
第3段階は、未知試料のクラスについて投票するために、最も成績の良いモデルのうちの一定割合のものを選択することである。第4段階は、各モデルの投票を、訓練セットにおけるその分類の正確性によって重み付けすることである。各モデルの投票は、その適合性が乗じられる。選択された一定の割合のモデルの過半数の投票は、将来の試験試料の分類結果である。
(定量化タスク)
第3段階は、最も成績の良いモデルのうちの一定割合のものを選択することである。選択された各モデルは、試験スペクトルの濃度を予測し、平均が、最終的なスペクトル属性投票結果である。
ノイズおよび高次元性は、ラマン分光分類および定量化に対する2つの大きな障害である。SAVは、特徴の選択およびノイズの低減のために、系統的手順を使用する。SAVの大きな利点は、最終決定において重要な特徴が保持されるという点であり、これは、一方では依然として正確性を維持しつつ、スペクトル分類における解釈可能性の課題を克服する。
本発明の実施形態が、添付の図面を参照しながら、単なる一例として説明される。
図1は、1つの属性に対するモデルの生成の該略図である。 図2は、SAVアンサンブルの形成の該略図である。 図3は、システムを使用した新たなスペクトルの分類の該略図である。 図4は、Ripper(従来技術における分類アルゴリズム)で使用されるデータ点を示す、純粋な1,1,1−トリクロロエタンのラマンスペクトルである。 図5は、ANNで使用されるデータ点を示す、純粋なアセトンのラマンスペクトルである。 図6は、C4.5で使用されるデータ点を示す、純粋なアセトニトリルのラマンスペクトルである。 図7は、クロロホルムの定量化のためにk近傍法で使用されるデータ点を示す、20%クロロホルムと80%アセトンとの混合物試料のラマンスペクトルである。 図8は、本発明に従った、未知試料中の既知物質の存在を決定するためのシステムを表す図である。
(図面の詳細な説明)
この説明は、本発明の1つの実施形態を反映する。しかしながら、性能、ランク、適合性、などを計算するその他の方法が、本発明の請求項に影響を与えることなく、置き換えられ得る。
本発明は、機械学習モデルのアンサンブルを使用してスペクトルを分類する。データセットの中のいくつかの属性(スペクトルデータ点)に対してモデルが生成され、訓練データを最も良く分類または定量化するモデルが、検証試料を分類または定量化するために選択される。図1は、1つの属性に対するモデル生成の図表現を示す。モデルが構築される属性に対する訓練データは、訓練用スペクトルのそれぞれの中の属性の値および局面を使用して生成される。
属性の局面が、所与のスペクトルに対して、スペクトルの中の属性の値と、その前および後のいくつかの属性の値との間の、差として計算される。(属性の正確な数は、アプリケーションに依存する。)スペクトルの中の属性の値、および訓練用スペクトルの中のクラス値(ラマンスペクトルデータの分類の場合は存在/不在、およびラマンスペクトルデータの定量化の場合は濃度)がまた、属性の訓練データを生成するために使用される。この手順は、訓練セットの中のすべてのスペクトルに対して繰り返され、その属性に対してモデルが生成される。
これは、データセットの中の属性のすべてまたは一部に対し繰り返され、各属性またはある特定の属性に対する別個のモデルを生成する。これは図2に示されている。
(分類タスク)
次いで、最も正確なモデルのうちの一定割合のものが、投票のために選択され、各モデルの投票は、訓練セットにおけるその分類の正確性によって重み付けされる。この選択された一定割合のものの過半数の投票は、将来の試験試料の分類結果である。
分類にSAVが使用されるときには、属性(i)に基づく各分類モデル(M)の主要な目標は、当然ながら、すべての訓練用スペクトル(S)を正確に分類することができることである。したがって、モデルの適合性F(M(i))(例えば、パーセンテージで表される)は、訓練データに対する分類性能に関して定義される必要がある。これは、以下のように計算される。
Figure 2010520471
ここで、ACC(M(i)(P))は、スペクトルS(p)に対するモデルM(i)の分類の正確性であり、nは、訓練件数である。かくして、正確に分類された各スペクトルに対してスコア1が与えられ、不正確に分類された各スペクトルに対してスコア0が与えられる。
各モデルは適合性に基づいて区分され、最適モデルのうち一部のもの(アプリケーションに応じて)が、最終アンサンブルを形成する。
式2が、試験スペクトルを分類するために使用される。
Figure 2010520471
ここで、ACC(M(i)(i))は、モデルM(i)による試験スペクトルS(i)の分類であり、cは、投票するモデルの数である。標的検体が試験スペクトル中に存在するとして分類する各モデルに対して、Vote(M(i)(t))に1の値が与えられ、溶媒が不在であるとして分類する各モデルに対して、−1の値が与えられる。各モデルは、モデルが構築された属性および局面に対応する検証サンプルにおける属性の値および局面のみに基づいて、未知試料を予測することが留意されるべきである。各モデルの投票は、訓練用スペクトルに対するその性能によって重み付けされる。試験スペクトルの実際の分類は、以下のように行われる。
Figure 2010520471
新しいスペクトルの分類のための手順は、図3に図式的に示されている。
(定量化タスク)
定量化のためにSAVが使用される場合には、生成されたモデルの適合性F(M(i))は、以下のように記述され得る。
Figure 2010520471
ここで、P(M(i)(P))は、訓練試料スペクトルpに対してモデルM(i)によって予測された値であり、T(S(P))は、訓練試料スペクトルpの目標値である。訓練が完了すると、それぞれの属性に対してモデルが生成されている。
各モデルは適合性に基づいて区分され、最適モデルのうちの一部のもの(アプリケーションに応じて)が、最終アンサンブルを形成する。
式5が、検証スペクトルを定量化するために使用される。
Figure 2010520471
ここで、Conc(M(i)(t))は、モデルM(i)による試験スペクトルS()の定量化であり、cは、投票する最高モデルの数である。式5は、試験スペクトルに対するc個の最高モデルの平均予測である。
(可視化の実証)
図4〜図7は、本発明のスペクトル属性投票の方法の可視化局面の実施例を示す。図4を参照すると、この実施例は、混合物中の塩素系溶媒を、そのラマンスペクトルから同定する際の、本発明の方法の使用を調査するものである。調査対象の塩素系溶媒は、1,1,1−トリクロロエタン、クロロホルム、およびジクロロメタンである。この実施例が基づいているデータセットは、種々の溶媒の混合物で構成される230スペクトルを含有していた。図4において、Ripperと呼ばれる機械学習方法を使用して、1,1,1−トリクロロエタンに対して本発明の方法によって選択された点は、主として、520cm−1の大きなピークおよび720cm−1のより小さなピークに集中する傾向がある。520cm−1バンドは、C−Cl伸縮振動であり、第一の識別要素であることが予想される。3000cm−1の大きなピークは、この領域がスペクトルのC−H結合領域に対応しており、溶媒はすべてC−H結合を含有するために、これは分類には比較的有用でないことから、概して無視される。また、720cm−1の小さなピークにおけるいくつかの点が、スペクトルを不正確に分類することは興味深い。
ラマンスペクトルの分類のために、ML技術と併せて本発明の方法を使用することの利点をさらに実証するために、2種類の非塩素系溶媒、アセトンおよびアセトニトリルが調査された。
図5は、純粋なアセトンのラマンスペクトルを示しており、アセトンの分類のために、ニューラルネットワークと併せたSAVによって、その構造および点が選択された。アセトンの1700cm−1付近のピークは、C=O官能基の存在に対応しており、これは、データセットの中のその他の溶媒のうちの2つのみ(酢酸エチルおよびジメチルホルムアミド)と共通している。
同様に、アセトニトリルは、主に2255cm−1のピーク付近の点を使用して分類された(図6を参照)。これは、アセトニトリルの中の
Figure 2010520471
結合の存在に対応しており、これは、その他の溶媒のいずれにも存在しないものである。アセトンおよびアセトニトリルの分類のために、本発明の方法によって使用されたすべての点は、純粋な溶媒を正確に分類した。
本発明の方法は、定量化タスクに適用されたときに、ML技術の有効性を低下させず、また図7に示されるように、行われた決定をより良く理解するという利点を提供する。クロロホルムの定量化のために、属性投票でk近傍法によって選択された点は、C−Cl結合に対応するスペクトルの部分に集中しており、予想されるように、アセトンに特異的な790cm−1および1700cm−1のピークを無視している。
図8は、本発明に従った、未知試料の中の既知物質の存在を決定するためのシステムを表した図である。既知物質の、例えばコカインの、調製試料2が、実験室分析4において使用され、試料スペクトル6の形態で訓練データを生成する。訓練データは、SAVモデルを構築する(8)ために使用される。未知試料10が提供されると、例えば取締担当官によって、現場でのスペクトル分析12が行われ、未知試料6のスペクトル14が生成される。次いで、SAVモデル16は、未知試料スペクトル14からスペクトルデータを提供され、何らかの既知物質(例えばコカイン)が未知試料の中に存在するかどうかを予測する。示された実施例では、決定ステップ12においてコカインが存在することが判明している。
本発明は、スペクトル分析に特定して設計された、新規のアンサンブル技術を提供することが理解される。SAVの訓練ステップは、スペクトルの訓練セットにおけるいくつかのスペクトル波長に対する、別個の予測モデルの自動生成を含む(すべての訓練用スペクトルが同一セットの波長に揃えられていると仮定する)。予測ステップにおいて、未知スペクトルが各属性モデルによって評価される。すなわち各モデルが独立して投票し、その結果として、N個の予測のセットを得る(Nはスペクトル波長の数である)。これらのN個の予測は、特別な方法で結合され(訓練セットに対するモデルの適合性によって重み付けされ)、最終予測に達する。
分類タスク(すなわち、カテゴリーを予測することを目的とするタスク)にSAVが適用されるときには、それぞれの別個の予測モデルがカテゴリーについて予測を行い、これらの予測のすべてが、重み付けプロセスにおいて結合され、最終予測に達する。
複数の属性モデルのアンサンブルを使用することの1つの利点は、実験評価によって実証されたように、それが、より強固な性能へと導くということである。
本発明のSAVアンサンブルにおけるN個のスペクトル属性モデルの使用の、別の重要な利点は、それが、特定の予測の課題に対して、各モデルの適合性に基づいて有用な可視化を生成することを示しているということである。そのような可視化は、特定の標的検体の同定/定量化にはどの波長が重要であるかを、専門家に知らせる。さらに、SAVは、(個々の予測モデルに基づいているために)特定の標的に対するスペクトルの波長にスコアを割り当てる新規の手法を表す。
本発明に従ったSAVは、混合物の中の標的検体の分類と定量化との、両方に使用され得る。本発明は、スペクトルデータに基づいて、複合混合物の中の標的検体の特異的同定または定量化を可能とする。
SAVは、多くの場合、ML技術の分類および回帰の正確性を改善し、分光分析に関連する機械学習決定プロセスの明確性を向上させた。これは、「ブラックボックス」技術による誤分類のトラブルシューティングが困難であるために、ML技術の現実世界での実用化において非常に重要である。本発明の方法は、人間と機械の両方の意見を考慮した決定を行うことを可能とし、また、選択された点は、その存在が調査されている化合物の化学構造と併せて考察されたときに、有益な情報を与える。
本発明は、分光分析データ以外の他の種類のデータにも適用され得ることが理解される。その例は、一般には、音響データまたは地震データのような、単変数データシーケンスを含む。
本発明に関して本明細書において使用されるときの、「備える/備えている」および「有する/含む」という語は、述べられた特徴、整数、ステップまたは構成要素の存在を規定するために使用されるが、1つ以上の他の特徴、整数、ステップ、構成要素またはそれらの群の存在または追加を除外するものではない。
明確にするために、別個の実施形態の文脈の中で記述されている、本発明のある特定の特徴は、また、単一の実施形態の中で組み合わせて提供され得ることが理解される。反対に、簡潔にするために、単一の実施形態の文脈の中で記述されている、本発明の種々の特徴は、また、別個にまたは任意の適切な部分的組み合わせとして提供され得る。

Claims (38)

  1. スペクトルデータに基づいて複雑な混合物の中の標的検体の特異的同定または定量化を可能にするために、化合物の未知の混合物のスペクトルを分類または定量化するために用いられるモデルを生成する方法であって、
    訓練用スペクトルの訓練セットを提供するステップであって、各スペクトルは、既知の化合物の混合物を表し、各々が、それぞれ異なる波長での複数のスペクトル属性を有する、ステップと、
    複数の波長を選択するステップと、
    該訓練セットの各訓練用スペクトルの中の各選択された波長で、少なくともスペクトル属性の値を決定するステップと、
    該選択された波長での決定された属性値の関連性を調べることによって、各選択された波長に対するモデルを構築するステップと、
    を包含する方法。
  2. 前記訓練セットの各訓練用スペクトルの中の各選択された波長で、前記スペクトル属性の局面を決定するステップであって、各属性の局面は周囲のスペクトルと関連するその位置である、ステップと、
    各モデルを構築するときに、各選択された波長での該決定された局面の関連性を調べるステップと、
    をさらに包含する、請求項1に記載の方法。
  3. 各属性の前記局面を決定する前記ステップは、該属性の値と、少なくとも1つの先行または後続属性の値との間の、値の差を計算するステップを包含する、請求項2に記載の方法。
  4. 未知の化合物の混合物のスペクトルを分類する方法であって、
    複数のモデルを提供するステップであって、各モデルは、請求項1に記載の方法を使用して生成される、ステップと、
    それに基づきモデルが構築された前記訓練セットを、分類する際のその正確性に基づいて、各モデルの適合性を計算するステップと、
    未知の化合物の前記混合物の前記スペクトルを分類するために、前記複数のモデルのうちの少なくとも1つを選択するステップであって、各モデルは、前記訓練セットの各スペクトルからの特定の波長でのスペクトル属性を使用して構築されている、ステップと、
    未知の化合物の前記混合物の前記スペクトルにおけるどの属性が、前記特定の波長を有するかを同定するステップと、
    未知の化合物の前記混合物に対するクラス予測を生成するために、前記同定された属性を、前記少なくとも1つの選択されたモデルに入力するステップと、
    を包含する方法。
  5. 前記複数のモデルのうちの少なくとも1つを選択する前記ステップは、前記訓練セットを最も正確に分類したモデルのうちの一定の割合を選択するステップを包含する、請求項4に記載の方法。
  6. 前記訓練セットを最も正確に分類した前記モデルのうちの一定の割合を選択する前記ステップは、
    前記訓練セットを正しく分類する際のその正確性に基づいて、各モデルの適合性を計算するステップと、
    それらの適合性に従って、該モデルをランク付けするステップと、
    最高ランクのモデルのうちの一定の割合を選択するステップと、
    を包含する、請求項5に記載の方法。
  7. 各モデルの前記適合性を計算する前記方法は、
    前記訓練セットの各スペクトルに対して正確性の値を割り当てるステップと、
    該モデルに対して整数の適合性値を提供するために、該正確性の値の関連性を調べるステップと、
    を包含する、請求項6に記載の方法。
  8. 各モデルのクラス予測を、該モデルの適合性値によって重み付けするステップをさらに包含する、請求項4に記載の方法。
  9. 前記選択されたモデルの前記重み付けされたクラス予測を合計するステップをさらに包含する、請求項4〜請求項8のうちのいずれか一項に記載の方法。
  10. その中の濃度を決定するために、未知の化合物の混合物のスペクトルを定量化する方法であって、
    複数のモデルを提供するステップであって、各モデルは、請求項1に記載の方法を使用して生成される、ステップと、
    未知の化合物の該混合物の該スペクトルを定量化するために、該複数のモデルのうちの少なくとも1つを選択するステップであって、該少なくとも1つのモデルは、前記訓練セットの中の各スペクトルからの特定の波長でのスペクトル属性を使用して構築されている、ステップと、
    未知の化合物の該混合物の該スペクトルの中のどの属性が、該特定の波長を有するかを同定するステップと、
    未知の化合物の該混合物に対する濃度予測を生成するために、該同定された属性を、該少なくとも1つの選択されたモデルに入力するステップと、
    を包含する、方法。
  11. 前記複数のモデルのうちの少なくとも1つを選択する前記ステップは、前記訓練セットを最も正確に定量化したモデルのうちの一定の割合を選択するステップを包含する、請求項10に記載の方法。
  12. 前記訓練セットを最も正確に定量化した前記モデルのうちの一定の割合を選択する前記ステップは、
    該訓練セットを正しく定量化する際のその正確性に基づいて、各モデルの適合性を計算するステップと、
    それらの適合性に従って、該モデルをランク付けするステップと、
    最高ランクのモデルのうちの一定の割合を選択するステップと、
    を包含する、請求項11に記載の方法。
  13. 各モデルの前記適合性を計算する前記方法は、
    前記訓練セットの中の各スペクトルに対して正確性の値を割り当てるステップと、
    該モデルに対して整数の適合性値を提供するために、前記正確性の値の関連性を調べるステップと、
    を包含する、請求項12に記載の方法。
  14. 未知の化合物の前記混合物に対する濃度予測を生成する前記ステップは、前記少なくとも1つの選択されたモデルの、それぞれからの該濃度予測の平均を計算するステップを包含する、請求項10〜請求項13のうちのいずれか一項に記載の方法。
  15. 化合物の未知の混合物のスペクトルを分類または定量化するために用いられるモデルを生成するためのシステムであって、該システムは、
    訓練用スペクトルの訓練セットを記憶するための記憶デバイスであって、各スペクトルは、既知の化合物の混合物を表し、かつ各々がそれぞれ異なる波長で複数のスペクトル属性を有する、記憶デバイスと、
    プロセッサであって、
    訓練用スペクトルの訓練セットを提供し、
    複数の波長を選択し、
    該訓練セットの各訓練用スペクトルの中の各選択された波長で、少なくともスペクトル属性の値を決定し、
    該選択された波長での決定された属性値の関連性を調べることによって、各選択された波長に対するモデルを構築するために、
    動作可能なプロセッサと、
    を備える、システム。
  16. 前記訓練セットの各訓練用スペクトルの中の各選択された波長で、前記スペクトル属性の局面を決定するための手段であって、各属性の該局面は、周囲のスペクトルと関連するその位置である、手段と、
    各モデルを構築するときに、各選択された波長での該決定された局面の関連性を調べるための手段と、
    をさらに備える、請求項15に記載のシステム。
  17. 各属性の前記局面を決定するための前記手段は、該属性の値と、少なくとも1つの先行または後続属性の値との間の、値の差を計算するための手段を備える、請求項16に記載のシステム。
  18. 未知の化合物の混合物のスペクトルを分類するためのシステムであって、
    複数のモデルを提供するための手段であって、各モデルは、請求項1に記載の方法を使用して生成される、手段と、
    それに基づいてモデルが構築された前記訓練セットを、分類する際のその正確性に基づいて、各モデルの適合性を計算するための手段と、
    未知の化合物の該混合物のスペクトルを定量化するために、該複数のモデルのうちの少なくとも1つを選択するための手段であって、該少なくとも1つのモデルは、該訓練セットの中の各スペクトルからの特定の波長でのスペクトル属性を使用して構築されている、手段と、
    未知の化合物の該混合物の前記スペクトルの中のどの属性が、該特定の波長を有するかを同定するための手段と、
    未知の化合物の該混合物に対する濃度予測を生成するために、該同定された属性を、該少なくとも1つの選択されたモデルに入力するための手段と、
    を備える、システム。
  19. 前記複数のモデルのうちの少なくとも1つを選択するための前記手段は、前記訓練セットを最も正確に分類したモデルのうちの一定の割合を選択するための手段を備える、請求項18に記載のシステム。
  20. 前記訓練セットを最も正確に分類した前記モデルのうちの一定の割合を選択するための前記手段は、
    該訓練セットを正しく分類する際のその正確性に基づいて、各モデルの適合性を計算するための手段と、
    それらの適合性に従って、該モデルをランク付けするための手段と、
    最高ランクのモデルのうちの一定の割合を選択するための手段と、
    を備える、請求項19に記載のシステム。
  21. 各モデルの前記適合性を計算するための前記手段は、
    前記訓練セットの中の各スペクトルに対して正確性の値を割り当てるための手段と、
    該モデルに対して整数の適合性値を提供するために、該正確性の値の関連性を調べるための手段と、
    を備える、請求項20に記載のシステム。
  22. 各モデルのクラス予測を、該モデルの適合性値によって重み付けするための手段をさらに備える、請求項21に記載のシステム。
  23. 前記選択されたモデルの前記重み付けされたクラス予測を合計するための手段をさらに備える、請求項18〜請求項22のいずれか一項に記載のシステム。
  24. 未知の化合物の混合物の中の濃度を決定するために、未知の化合物の混合物のスペクトルを定量化するためのシステムであって、該システムは、
    複数のモデルを提供するための手段であって、各モデルは、請求項1に記載の方法を使用して生成される、手段と、
    未知の化合物の該混合物のスペクトルを定量化するために、該複数のモデルのうちの少なくとも1つを選択するための手段であって、該少なくとも1つのモデルは、前記訓練セットの中の各スペクトルからの特定の波長でのスペクトル属性を使用して構築されている、手段と、
    未知の化合物の該混合物のスペクトルの中のどの属性が、該特定の波長を有するかを同定するための手段と、
    未知の化合物の該混合物に対する濃度予測を生成するために、該同定された属性を、該少なくとも1つの選択されたモデルに入力するための手段と、
    を備える、システム。
  25. 前記複数のモデルのうちの少なくとも1つを選択するための前記手段は、前記訓練セットを最も正確に定量化したモデルのうちの一定の割合を選択するための手段を備える、請求項24に記載のシステム。
  26. 前記訓練セットを最も正確に定量化した前記モデルのうちの一定の割合を選択するための前記手段は、
    該訓練セットを正しく定量化する際のその正確性に基づいて、各モデルの適合性を計算するための手段と、
    それらの適合性に従って、該モデルをランク付けするための手段と、
    最高ランクのモデルのうちの一定の割合を選択するための手段と、
    を備える、請求項25に記載のシステム。
  27. 各モデルの前記適合性を計算するための前記手段は、
    前記訓練セットの中の各スペクトルに対して正確性の値を割り当てるための手段と、
    該モデルに対して整数適合性値を提供するために、該正確性の値の関連性を調べるための手段と、
    を備える、請求項26に記載のシステム。
  28. 未知の化合物の前記混合物に対する濃度予測を生成するための前記手段は、前記少なくとも1つの選択されたモデルの、それぞれからの該濃度予測の平均を計算するための手段を備える、請求項24〜請求項27のうちのいずれか一項に記載のシステム。
  29. 請求項1〜請求項14のうちのいずれか一項に記載の方法を実行するための、コンピュータ実行可能命令を記憶している、コンピュータ可読媒体。
  30. 請求項4〜請求項14のうちのいずれか一項に記載の方法を実行するための、コンピュータ実行可能命令を記憶している、検出器。
  31. 添付図面を参照して実質的に本明細書において記載されたような、モデルを生成する方法。
  32. 添付図面を参照して実質的に本明細書において記載されたような、未知の化合物の混合物のスペクトルを分類する方法。
  33. 添付図面を参照して実質的に本明細書において記載されたような、未知の化合物の混合物のスペクトルを定量化する方法。
  34. 添付図面を参照して実質的に本明細書において記載されたような、モデルを生成するためのシステム。
  35. 添付図面を参照して実質的に本明細書において記載されたような、未知の化合物の混合物のスペクトルを分類するためのシステム。
  36. 添付図面を参照して実質的に本明細書において記載されたような、未知の化合物の混合物のスペクトルを定量化するためのシステム。
  37. 添付図面を参照して実質的に本明細書において記載されたような、コンピュータ可読媒体。
  38. 添付図面を参照して実質的に本明細書において記載されたような、検出器。
JP2009552205A 2007-03-05 2008-03-05 材料の分類および混合物の成分の定量化のためのアンサンブル方法ならびに装置 Withdrawn JP2010520471A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP07103535A EP1967846A1 (en) 2007-03-05 2007-03-05 En ensemble method and apparatus for classifying materials and quantifying the composition of mixtures
PCT/EP2008/052695 WO2008107465A1 (en) 2007-03-05 2008-03-05 An ensemble method and apparatus for classifying materials and quantifying the composition of mixtures

Publications (1)

Publication Number Publication Date
JP2010520471A true JP2010520471A (ja) 2010-06-10

Family

ID=38282816

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009552205A Withdrawn JP2010520471A (ja) 2007-03-05 2008-03-05 材料の分類および混合物の成分の定量化のためのアンサンブル方法ならびに装置

Country Status (4)

Country Link
US (1) US20100153323A1 (ja)
EP (2) EP1967846A1 (ja)
JP (1) JP2010520471A (ja)
WO (1) WO2008107465A1 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013178232A (ja) * 2012-01-30 2013-09-09 Canon Inc 生体組織画像の再構成方法、取得方法及び装置
JP2014513805A (ja) * 2011-05-16 2014-06-05 レニショウ パブリック リミテッド カンパニー 試料に存在する成分を決定するための分光装置と分光法
JP2014513799A (ja) * 2011-04-29 2014-06-05 アヴォロンテ ヘルス リミテッド ライアビリティ カンパニー 可変角ラマン分光法により検体を評価するための方法及び装置
US9041923B2 (en) 2009-04-07 2015-05-26 Rare Light, Inc. Peri-critical reflection spectroscopy devices, systems, and methods
WO2016035626A1 (ja) * 2014-09-05 2016-03-10 株式会社分光科学研究所 分光定量方法、分光定量装置及びプログラム
JP2020514681A (ja) * 2018-03-29 2020-05-21 深▲セン▼▲達▼▲闥▼科技控股有限公司Cloudminds (Shenzhen) Holdings Co., Ltd. 物質検出方法、装置、電子機器、およびコンピュータ可読記憶媒体
WO2020105566A1 (ja) * 2018-11-19 2020-05-28 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、プログラム、算出装置、及び算出方法
JP2020091872A (ja) * 2018-12-06 2020-06-11 インダストリー アカデミー コーオペレーション ファウンデーション オブ セジョン ユニバーシティー 物質の判別および分析方法
WO2021064924A1 (ja) * 2019-10-02 2021-04-08 株式会社島津製作所 波形解析方法及び波形解析装置
WO2022038852A1 (ja) * 2020-08-18 2022-02-24 株式会社島津製作所 データ解析装置、データ解析方法、学習済みモデルの生成方法、システム、及びプログラム

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9052263B2 (en) * 2009-04-15 2015-06-09 General Electric Company Methods for analyte detection
US10914698B2 (en) 2006-11-16 2021-02-09 General Electric Company Sensing method and system
US9589686B2 (en) 2006-11-16 2017-03-07 General Electric Company Apparatus for detecting contaminants in a liquid and a system for use thereof
US9538657B2 (en) 2012-06-29 2017-01-03 General Electric Company Resonant sensor and an associated sensing method
US9536122B2 (en) 2014-11-04 2017-01-03 General Electric Company Disposable multivariable sensing devices having radio frequency based sensors
US9658178B2 (en) 2012-09-28 2017-05-23 General Electric Company Sensor systems for measuring an interface level in a multi-phase fluid composition
CN101949834B (zh) * 2010-08-02 2012-05-30 扬州福尔喜果蔬汁机械有限公司 水果内部品质检测分级方法
US8542023B2 (en) 2010-11-09 2013-09-24 General Electric Company Highly selective chemical and biological sensors
US10598650B2 (en) 2012-08-22 2020-03-24 General Electric Company System and method for measuring an operative condition of a machine
AU2013305814B2 (en) 2012-08-22 2017-04-13 Ge Global Sourcing Llc Wireless system and method for measuring an operative condition of a machine
US10684268B2 (en) 2012-09-28 2020-06-16 Bl Technologies, Inc. Sensor systems for measuring an interface level in a multi-phase fluid composition
CN105373800A (zh) * 2014-08-28 2016-03-02 百度在线网络技术(北京)有限公司 分类方法及装置
US10670514B2 (en) * 2014-10-01 2020-06-02 Water Optics Technology Pte. Ltd. Sensor for particle detection in a fluid
US9958327B2 (en) * 2014-10-01 2018-05-01 Nanometrics Incorporated Deconvolution to reduce the effective spot size of a spectroscopic optical metrology device
WO2018060967A1 (en) * 2016-09-29 2018-04-05 Inesc Tec - Instituto De Engenharia De Sistemas E Computadores, Tecnologia E Ciência Big data self-learning methodology for the accurate quantification and classification of spectral information under complex varlability and multi-scale interference
CN108254351B (zh) * 2016-12-29 2023-08-01 同方威视技术股份有限公司 用于物品查验的拉曼光谱检测方法
CN108414471B (zh) * 2018-01-10 2020-07-17 浙江中烟工业有限责任公司 一种基于近红外光谱与感官评吸互信息判别感官表征信息的方法
JP7273844B2 (ja) * 2018-04-05 2023-05-15 イーエニエーエスセー テック - インスティチュート デ エンゲンハリア デ システマス エ コンピュータドレス テクノロジア エ シエンシア 試料からの成分の定量化値を予測する分光測光方法及び装置
EP3605062A1 (en) 2018-07-31 2020-02-05 INESC TEC - Instituto de Engenharia de Sistemas e Computadores, Tecnologia e Ciência A method and apparatus for characterisation of constituents in a physical sample from electromagnetic spectral information
WO2020096774A1 (en) * 2018-11-05 2020-05-14 Battelle Energy Alliance, Llc Hyperdimensional scanning transmission electron microscopy and examinations and related systems, methods, and devices
US20220027797A1 (en) * 2020-07-23 2022-01-27 International Business Machines Corporation Hybrid data chunk continuous machine learning
CN112444500B (zh) * 2020-11-11 2022-06-24 东北大学秦皇岛分校 一种基于光谱的阿尔茨海默症智能检测装置
AU2022249851A1 (en) * 2021-03-31 2023-10-12 University Of Lancaster Detection of micro-organisms
CN114460033B (zh) * 2022-02-07 2024-03-15 北京理工大学 一种用于检测外墙保温材料中阻燃元素的手持设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6118850A (en) * 1997-02-28 2000-09-12 Rutgers, The State University Analysis methods for energy dispersive X-ray diffraction patterns
US6405065B1 (en) * 1999-01-22 2002-06-11 Instrumentation Metrics, Inc. Non-invasive in vivo tissue classification using near-infrared measurements
EP1329716A1 (en) * 2002-01-16 2003-07-23 Roche Diagnostics GmbH Method for screening biological samples for presence of the metabolic syndrome
US20070184455A1 (en) * 2003-05-16 2007-08-09 Cheryl Arrowsmith Evaluation of spectra
US8301584B2 (en) * 2003-12-16 2012-10-30 International Business Machines Corporation System and method for adaptive pruning
US20060043300A1 (en) * 2004-09-02 2006-03-02 Decagon Devices, Inc. Water activity determination using near-infrared spectroscopy
EP1904826B1 (en) * 2005-07-14 2019-02-20 Battelle Memorial Institute Systems and methods for biological and chemical detection
US7410763B2 (en) * 2005-09-01 2008-08-12 Intel Corporation Multiplex data collection and analysis in bioanalyte detection
EP1977205A4 (en) * 2006-01-23 2010-06-09 Chemimage Corp RAMAN + LIBS COMBINED DETECTION METHOD AND SYSTEM

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9041923B2 (en) 2009-04-07 2015-05-26 Rare Light, Inc. Peri-critical reflection spectroscopy devices, systems, and methods
JP2014513799A (ja) * 2011-04-29 2014-06-05 アヴォロンテ ヘルス リミテッド ライアビリティ カンパニー 可変角ラマン分光法により検体を評価するための方法及び装置
US8970838B2 (en) 2011-04-29 2015-03-03 Avolonte Health LLC Method and apparatus for evaluating a sample through variable angle Raman spectroscopy
JP2014513805A (ja) * 2011-05-16 2014-06-05 レニショウ パブリック リミテッド カンパニー 試料に存在する成分を決定するための分光装置と分光法
JP2013178232A (ja) * 2012-01-30 2013-09-09 Canon Inc 生体組織画像の再構成方法、取得方法及び装置
WO2016035626A1 (ja) * 2014-09-05 2016-03-10 株式会社分光科学研究所 分光定量方法、分光定量装置及びプログラム
JP2016057065A (ja) * 2014-09-05 2016-04-21 株式会社分光科学研究所 分光定量方法、分光定量装置及びプログラム
US9791373B2 (en) 2014-09-05 2017-10-17 Spectroscopic Science Laboratory Co., Ltd. Method for quantitative spectrometry, quantitative spectrometry apparatus, and program
JP2020514681A (ja) * 2018-03-29 2020-05-21 深▲セン▼▲達▼▲闥▼科技控股有限公司Cloudminds (Shenzhen) Holdings Co., Ltd. 物質検出方法、装置、電子機器、およびコンピュータ可読記憶媒体
WO2020105566A1 (ja) * 2018-11-19 2020-05-28 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、プログラム、算出装置、及び算出方法
JP2020091872A (ja) * 2018-12-06 2020-06-11 インダストリー アカデミー コーオペレーション ファウンデーション オブ セジョン ユニバーシティー 物質の判別および分析方法
WO2021064924A1 (ja) * 2019-10-02 2021-04-08 株式会社島津製作所 波形解析方法及び波形解析装置
JPWO2021064924A1 (ja) * 2019-10-02 2021-04-08
JP7334788B2 (ja) 2019-10-02 2023-08-29 株式会社島津製作所 波形解析方法及び波形解析装置
WO2022038852A1 (ja) * 2020-08-18 2022-02-24 株式会社島津製作所 データ解析装置、データ解析方法、学習済みモデルの生成方法、システム、及びプログラム
JP7452667B2 (ja) 2020-08-18 2024-03-19 株式会社島津製作所 データ解析装置、データ解析方法、学習済みモデルの生成方法、システム、及びプログラム

Also Published As

Publication number Publication date
EP2122332B1 (en) 2012-10-17
WO2008107465A1 (en) 2008-09-12
US20100153323A1 (en) 2010-06-17
EP1967846A1 (en) 2008-09-10
EP2122332A1 (en) 2009-11-25

Similar Documents

Publication Publication Date Title
EP2122332B1 (en) An ensemble method and apparatus for classifying materials and quantifying the composition of mixtures
JP5852097B2 (ja) レーザ誘起ブレークダウン分光のための認識アルゴリズムを形成するための方法
US8452716B2 (en) Kernel-based method and apparatus for classifying materials or chemicals and for quantifying the properties of materials or chemicals in mixtures using spectroscopic data
Bae et al. Design of fuzzy radial basis function neural network classifier based on information data preprocessing for recycling black plastic wastes: comparative studies of ATR FT-IR and Raman spectroscopy
US20190294757A1 (en) Identification and assignment of rotational spectra using artificial neural networks
Al‐Hetlani et al. Differentiating smokers and nonsmokers based on Raman spectroscopy of oral fluid and advanced statistics for forensic applications
CN112712108A (zh) 一种拉曼光谱多元数据分析方法
Möller et al. Random forests for functional covariates
Nalla et al. Priority based functional group identification of organic molecules using machine learning
Madden et al. Machine learning methods for quantitative analysis of Raman spectroscopy data
Giguere et al. A fully customized baseline removal framework for spectroscopic applications
Shao et al. A new approach to discriminate varieties of tobacco using vis/near infrared spectra
Sem Interpretability of selected variables and performance comparison of variable selection methods in a polyethylene and polypropylene NIR classification task
Huang et al. The application of wavelet transform of Raman spectra to facilitate transfer learning for gasoline detection and classification
Linker Soil classification via mid-infrared spectroscopy
Negoita et al. Artificial intelligence application designed to screen for new psychoactive drugs based on their ATR-FTIR spectra
Burlacu et al. Convolutional Neural Network detecting synthetic cannabinoids
US20230009725A1 (en) Use of genetic algorithms to determine a model to identity sample properties based on raman spectra
Xia et al. Non-destructive analysis the dating of paper based on convolutional neural network
US20220252516A1 (en) Spectroscopic apparatus and methods for determining components present in a sample
US20220223235A1 (en) Spectral classification systems and methods
Ratle et al. Pattern analysis in illicit heroin seizures: a novel application of machine learning algorithms.
Macek-Kamińska et al. Application of neural networks in diagnostics of chemical compounds based on their infrared spectra
US20240194302A1 (en) Systems and Methods to Predict Biological Receptor Signal Response
Grissa et al. A hybrid data mining approach for the identification of biomarkers in metabolomic data

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20110510