JP7095805B2

JP7095805B2 - 理論質量の外れ値検出方法

Info

Publication number: JP7095805B2
Application number: JP2021519267A
Authority: JP
Inventors: 達樹大久保
Original assignee: Shimadzu Corp
Current assignee: Shimadzu Corp
Priority date: 2019-05-10
Filing date: 2020-02-20
Publication date: 2022-07-05
Anticipated expiration: 2040-02-20
Also published as: CN113711026A; US20220230708A1; CN113711026B; WO2020230397A1; JPWO2020230397A1

Description

本発明は、理論質量の外れ値検出方法に関する。

近年、質量分析を利用した微生物の識別手法が開発されている（例えば、特許文献１を参照）。この手法では、まず、被検微生物から抽出したタンパク質を含む溶液又は被検微生物の懸濁液等を、ＭＡＬＤＩ－ＭＳ（マトリックス支援レーザ脱離イオン化質量分析）等のソフトなイオン化法を用いた質量分析装置で分析する。なお「ソフトな」イオン化法とは、高分子量化合物の分解を生じにくいイオン化法をいう。そして、得られたマススペクトルを、既知微生物のマススペクトルと照合することによって、被検微生物の微生物種又は微生物株を特定する。

上記のような質量分析を利用した微生物の識別手法では、微生物の種間又は株間で質量が相違するマススペクトルピークに着目して微生物の識別が行われる。このようなマススペクトルピークはマーカーピークとよばれ、例えば、リボソームタンパク質のように比較的保存性の高いタンパク質に由来するピークがマーカーピークとして利用される。

マーカーピークの質量に基づいて未知微生物の識別を行うためには、予め、微生物の種毎又は株毎にマーカーピークの質量を特定してデータベース化しておく必要がある。しかしながら、種又は株の異なる多数の微生物を入手し、それぞれについて実際に質量分析を行ってマーカーピークの質量を測定するのは現実的でない。そこで、公共のデータベース（例えば、GenBank、EMBL、又はDDBJ等）に収録されている種々の微生物のアミノ酸配列データ又は塩基配列データ（以下「アミノ酸配列データ等」とよぶ）に基づいてマーカーピークの理論質量（計算質量）を算出し、これを上記のような質量分析による未知微生物の識別に利用することが考えられる。

国際公開第2017/168742号

しかしながら、公共データベースに収録されているアミノ酸配列データ等から算出された理論質量は、同種のタンパク質に由来する理論質量であっても、微生物株によってその値に大きなばらつきがみられることがある。このような場合において、理論質量の値が他と大きく異なっているものは、その理論質量の基になったアミノ酸配列データ等に誤り（シーケンスのミスなどに起因するもの）が含まれている可能性が高い。そのため、このような理論質量をマーカーピークの質量として採用すると、微生物識別の精度低下を引き起こすおそれがある。そこで、何らかの判断基準を以て外れ値（すなわち、前記識別の精度低下の原因となる異常な値を持ったデータ）を除去する必要があるが、そのための適当な判断基準が定まっていないという問題があった。

本発明は上記の点に鑑みてなされたものであり、その目的とするところは、複数の微生物の同種のタンパク質に関する理論質量データから成るデータ集合から外れ値を適切に検出する方法を提供することにある。

上記課題を解決するために成された本発明に係る理論質量の外れ値検出方法は、
複数の微生物の同種のタンパク質に関する理論質量の集合である理論質量群の中から代表値を決定し、
前記代表値に対応するアミノ酸配列又は塩基配列である基準配列を特定し、
前記理論質量群に含まれる各理論質量に対応するアミノ酸配列又は塩基配列と、前記基準配列との編集距離をそれぞれ算出し、
前記理論質量群に含まれる理論質量のうち、前記編集距離が予め定められた閾値以上であったアミノ酸配列又は塩基配列に対応する理論質量を外れ値として決定するものである。

上記本発明に係る理論質量の外れ値検出方法によれば、複数の微生物の同種のタンパク質に関する理論質量データから成るデータ集合から外れ値を適切に検出することができる。

本発明の一実施形態に係る理論質量の外れ値検出装置を備えたシステムの要部構成を示すブロック図。前記理論質量の外れ値検出装置における処理の流れを示すフローチャート。実施例における外れ値検出結果を示す図。図３の配列パターンＡ～Ｆに対応するアミノ酸配列を示す図。

以下、本発明を実施するための形態について図面を参照しつつ説明する。図１は、本実施形態に係る理論質量の外れ値検出装置（以下、「外れ値検出装置１０」とよぶ）を備えたシステムの要部構成を示すブロック図である。このシステムは、外れ値検出装置１０と、記憶部２０と、表示部３１と、入力部３２とを備えている。

外れ値検出装置１０は、データ取得部１１と、代表値決定部１２と、配列特定部１３と、編集距離算出部１４と、外れ値判定部１５と、外れ値除去部１６と、表示制御部１７とを機能ブロックとして備えている。この外れ値検出装置１０は、ＣＰＵ及びメモリ等を備えたパーソナルコンピュータをハードウェア資源とし、該パーソナルコンピュータにインストールされた専用のソフトウェアを前記ＣＰＵで実行することにより具現化される。

記憶部２０は、外れ値検出の対象とする理論質量のデータ（オリジナルデータ）が記憶されるオリジナルデータ記憶部２１と、前記オリジナルデータから外れ値を除去したデータ（処理済データ）が記憶される処理済データ記憶部２２とを備えている。この記憶部２０は、外れ値検出装置１０を構成する前記パーソナルコンピュータに内蔵された又は外付けされたＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等の大容量記憶装置によって実現することができる。

表示部３１は液晶ディスプレイ装置等から成り、入力部３２はキーボード及びマウス等のポインティングデバイスから成るものであって、いずれも外れ値検出装置１０を構成する前記パーソナルコンピュータに接続されている。

図２は、本実施形態に係る外れ値検出装置１０による外れ値検出の実行手順を示すフローチャートである。外れ値の検出に際しては、予め、外れ値検出の対象とする複数の理論質量（複数の微生物の同種のタンパク質に関するもの。本発明における「理論質量群」に相当）と、各理論質量の基となったアミノ酸配列と、その由来（前記理論質量がどの微生物株のどのタンパク質に関するものであるか）に関する情報とを互いに関連づけてオリジナルデータ記憶部２１に記憶させておく。なお、前記複数の理論質量は、既存のデータベース（例えば、GenBank、EMBL、又はDDBJ等の公共データベース）から複数の微生物株における同種のタンパク質（例えば、リボソームタンパク質のいずれか）のアミノ酸配列を取得し、該アミノ酸配列から計算によって各タンパク質の計算分子量を求めると共に、該計算分子量を各タンパク質のイオン質量に変換することによって求めることができる。生体試料をＭＡＬＤＩ－ＭＳで分析した際には、主に［Ｍ＋Ｈ］^＋（Ｍは分子、Ｈは水素原子）、［Ｍ－Ｈ］^－、又は［Ｍ＋Ｎａ］^＋（Ｎａはナトリウム原子）等の分子量関連イオンが検出されることが知られている。したがって、質量分析条件が定まっていれば、前記計算分子量からイオン質量への変換は容易に行うことができる。また、前記既存のデータベースに各種微生物株に含まれるタンパク質の計算分子量が収録されている場合は、これを用いて理論質量を算出するようにしてもよい。

本実施形態に係る外れ値検出装置１０による外れ値の検出においては、まず、代表値決定部１２が、データ取得部１１を介して記憶部２０にアクセスすることにより、オリジナルデータ記憶部２１に記憶されている前記複数の理論質量Ｍ１、Ｍ２、…Ｍｎ（ｎは自然数）を読み出してそれらの最頻値Ｍｆを特定し、該最頻値Ｍｆを代表値として決定する（ステップＳ１）。続いて、配列特定部１３が、データ取得部１１を介して記憶部２０にアクセスすることにより、オリジナルデータ記憶部２１を参照して最頻値Ｍｆに対応するアミノ酸配列（以下、「基準配列Ａｒ」とよぶ）を特定する（ステップＳ２）。次に、編集距離算出部１４が、データ取得部１１を介して記憶部２０にアクセスすることにより、前記複数の理論質量Ｍ１、Ｍ２、…Ｍｎの各々に対応するアミノ酸配列Ａ１、Ａ２、…Ａｎを、オリジナルデータ記憶部２１から読み出し、各アミノ酸配列Ａ１、Ａ２、…Ａｎと前記基準配列Ａｒとの編集距離ｄ１、ｄ２…、ｄｎを算出する（ステップＳ３）。ここで、編集距離（レーベンシュタイン距離）は、２つの文字列がどの程度異なっているかを表す値であり、具体的には、１文字の挿入、削除、又は置換によって、一方の文字列を他方の文字列に変形するのに必要な手順の最小回数として定義される。

続いて、外れ値判定部１５が、各アミノ酸配列Ａ１、Ａ２、…Ａｎに関してステップＳ３で求められた編集距離ｄ１、ｄ２…、ｄｎの各々について、その値が予め定められた閾値ｄｔを超えているか否かを判定し、超えていた場合には該アミノ酸配列に対応する理論質量を外れ値と判定する（ステップＳ４）。なお、前記閾値ｄｔは、例えば、予めユーザが入力部３２を介して設定して記憶部２０に記憶させておく。その後、外れ値除去部１６が、データ取得部１１を介して記憶部２０にアクセスすることにより、オリジナルデータ記憶部２１に記憶されているデータ集合（すなわち、外れ値検出の対象とされた複数の理論質量、各理論質量の基になったアミノ酸配列、及びその由来に関する情報）を取得し、該データ集合から、ステップＳ４で外れ値と判定された理論質量に関するデータを除去して、除去後のデータ集合を処理済データ記憶部２２に記憶させる（ステップＳ５）。更に、上記一連の処理が完了すると、外れ値と判定された理論質量に関するデータが、表示制御部１７の制御の下に表示部３１に表示されて、ユーザに提示される（ステップＳ６）。

以上の通り、本実施形態に係る外れ値検出装置では、基準配列と各アミノ酸配列との差異に基づいて理論質量の外れ値を検出するため、アミノ酸配列データを考慮した適切な外れ値検出を行うことができる。これにより、残った理論質量（すなわち、処理済データ記憶部２２に記憶されているデータ集合）は、互いに類似したアミノ酸配列（すなわち信頼性の高いアミノ酸配列）に由来するものとなる。したがって、これらの理論質量を各微生物株のマーカーピークの質量として採用し、被検微生物の質量分析結果を前記各微生物株のマーカーピークの質量と照合することにより、高精度な微生物株識別を行うことが可能となる。また、本実施形態に係る外れ値検出装置は、上記の通り、数値データである理論質量に基づいて代表値を決定し、該代表値に対応するアミノ酸配列を基準配列とするものであるため、例えば、文字列データであるアミノ酸配列同士を比較して最も出現頻度の高かった配列を基準配列とするような場合に比べて、計算量を抑えて処理速度を向上させることができる。

以上、本発明を実施するための形態について具体例を挙げて説明を行ったが、本発明は上記実施形態に限定されるものではなく、本発明の趣旨の範囲で適宜変更が許容される。例えば、上記実施形態では、代表値決定部１２が複数の理論質量のうちの最頻値を代表値として決定するものとしたが、最頻値に代えて中央値を代表値とするものとしてもよい。

また、上記実施形態では、配列特定部１３が前記代表値に対応するアミノ酸配列を基準配列として決定し、編集距離算出部１４が、該基準配列と複数の理論質量の各々に対応するアミノ酸配列との編集距離をそれぞれ求めるものとしたが、これに代えて、配列特定部１３が前記代表値に対応する塩基配列を基準配列として決定し、編集距離算出部１４が、該基準配列と複数の理論質量の各々に対応する塩基配列との編集距離をそれぞれ求めるものとしてもよい。

また、上記実施形態では、記憶部２０が、外れ値検出装置１０を構成する前記パーソナルコンピュータに内蔵又は外付けされているものとしたが、記憶部２０は、外れ値検出装置１０を構成する前記パーソナルコンピュータに直接又はインターネット又はＬＡＮ（Local Area Network）等を介して接続された別のコンピュータに設けられていてもよい。この場合、データ取得部１１は、前記インターネット又はＬＡＮを介して記憶部２０にアクセス可能なものとする。

また、上記実施形態では、外れ値検出のためのプログラムがコンピュータに予めインストールされているものとしたが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

アクネ菌（Cutibacterium acnes）８９株のリボソームタンパク質Ｌ１５のアミノ酸配列を、公共のデータベースから取得し、それぞれの理論質量を算出して、その中から外れ値を検出した。

前記理論質量は、15347.58～20635.62までの範囲に分布しており、最頻値は15384.69であった。前記８９株のアミノ酸配列のうち、前記最頻値に対応するアミノ酸配列を基準配列とし、該基準配列と前記８９株のアミノ酸配列の各々との編集距離を計算した。外れ値判定のための閾値は２とし、前記編集距離が当該閾値を超えていた株に関する理論質量を、外れ値と判定した。

前記外れ値の検出結果を図３に示す。なお、簡略化のため、ここでは前記８９株のうちの２０株に関する結果のみを示している。同図において、左から４番目の列は各株のリボソームタンパク質Ｌ１５のアミノ酸配列パターンを示している。アミノ酸配列パターンＡ～Ｆに対応するアミノ酸配列を図４に示す。図４に示されたアミノ酸配列パターンのうち、パターンＡの配列が、前記最頻値に対応するアミノ酸配列（すなわち基準配列）である。前記基準配列のアミノ酸配列と、各株のリボソームタンパク質Ｌ１５のアミノ酸配列との編集距離は、図３の左から３番目の列に示した通りであり、編集距離が２を超えていた株（すなわち、理論質量が外れ値であると判定された株）は、同図で＊を付した４株であった。

［態様］
上述した例示的な実施形態は、以下の態様の具体例であることが当業者により理解される。

（第１項）一態様に係る理論質量の外れ値検出方法は、
複数の微生物の同種のタンパク質に関する理論質量の集合である理論質量群の中から代表値を決定し、
前記代表値に対応するアミノ酸配列又は塩基配列である基準配列を特定し、
前記理論質量群に含まれる各理論質量に対応するアミノ酸配列又は塩基配列と、前記基準配列との編集距離をそれぞれ算出し、
前記理論質量群に含まれる理論質量のうち、前記編集距離が予め定められた閾値以上であったアミノ酸配列又は塩基配列に対応する理論質量を外れ値として決定するものである。

第１項に記載の理論質量の外れ値検出方法によれば、アミノ酸配列又は塩基配列を考慮して理論質量の外れ値検出を行うことができるため、信頼性の高い外れ値検出を実現することができる。

（第２項）第１項に記載の理論質量の外れ値検出方法において、前記代表値は最頻値であってもよい。

理論質量の最頻値に対応するアミノ酸配列又は塩基配列は、前記理論質量群に含まれる理論質量の各々に対応するアミノ酸配列又は塩基配列の中で、最も出現頻度の高い配列といえる。そのため、該最頻値を理論質量の代表値とすることにより、最も出現頻度の高い配列を基準配列とすることができ、該基準配列からの距離（編集距離）に基づいて外れ値判定を行うことによって、より適切な外れ値判定を実現することができる。

（第３項）第１項又は第２項に記載の理論質量の外れ値検出方法において、前記同種のタンパク質は、リボソームタンパク質であってもよい。

（第４項）一態様に係るプログラムは、コンピュータに、第１項～第３項のいずれかに記載の理論質量の外れ値検出方法を実行させるものである。

（第５項）一態様に係る非一時的なコンピュータ可読媒体は、第４項に記載のプログラムを記憶したものである。

１０…外れ値検出装置
１１…データ取得部
１２…代表値決定部
１３…配列特定部
１４…編集距離算出部
１５…外れ値判定部
１６…外れ値除去部
１７…表示制御部
２０…記憶部
２１…オリジナルデータ記憶部
２２…処理済データ記憶部
３１…表示部
３２…入力部

Claims

複数の微生物の同種のタンパク質に関する理論質量の集合である理論質量群の中から代表値を決定し、
前記代表値に対応するアミノ酸配列又は塩基配列である基準配列を特定し、
前記理論質量群に含まれる各理論質量に対応するアミノ酸配列又は塩基配列と、前記基準配列との編集距離をそれぞれ算出し、
前記理論質量群に含まれる理論質量のうち、前記編集距離が予め定められた閾値以上であったアミノ酸配列又は塩基配列に対応する理論質量を外れ値として決定する理論質量の外れ値検出方法。
前記代表値が最頻値である請求項１に記載の理論質量の外れ値検出方法。
前記同種のタンパク質が、リボソームタンパク質である請求項１に記載の理論質量の外れ値検出方法。
コンピュータに、請求項１に記載の理論質量の外れ値検出方法を実行させるプログラム。