JP7095805B2 - 理論質量の外れ値検出方法 - Google Patents

理論質量の外れ値検出方法 Download PDF

Info

Publication number
JP7095805B2
JP7095805B2 JP2021519267A JP2021519267A JP7095805B2 JP 7095805 B2 JP7095805 B2 JP 7095805B2 JP 2021519267 A JP2021519267 A JP 2021519267A JP 2021519267 A JP2021519267 A JP 2021519267A JP 7095805 B2 JP7095805 B2 JP 7095805B2
Authority
JP
Japan
Prior art keywords
theoretical mass
amino acid
theoretical
acid sequence
mass
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021519267A
Other languages
English (en)
Other versions
JPWO2020230397A1 (ja
Inventor
達樹 大久保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shimadzu Corp
Original Assignee
Shimadzu Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shimadzu Corp filed Critical Shimadzu Corp
Publication of JPWO2020230397A1 publication Critical patent/JPWO2020230397A1/ja
Application granted granted Critical
Publication of JP7095805B2 publication Critical patent/JP7095805B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/26Mass spectrometers or separator tubes

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioethics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Signal Processing (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Description

本発明は、理論質量の外れ値検出方法に関する。
近年、質量分析を利用した微生物の識別手法が開発されている(例えば、特許文献1を参照)。この手法では、まず、被検微生物から抽出したタンパク質を含む溶液又は被検微生物の懸濁液等を、MALDI-MS(マトリックス支援レーザ脱離イオン化質量分析)等のソフトなイオン化法を用いた質量分析装置で分析する。なお「ソフトな」イオン化法とは、高分子量化合物の分解を生じにくいイオン化法をいう。そして、得られたマススペクトルを、既知微生物のマススペクトルと照合することによって、被検微生物の微生物種又は微生物株を特定する。
上記のような質量分析を利用した微生物の識別手法では、微生物の種間又は株間で質量が相違するマススペクトルピークに着目して微生物の識別が行われる。このようなマススペクトルピークはマーカーピークとよばれ、例えば、リボソームタンパク質のように比較的保存性の高いタンパク質に由来するピークがマーカーピークとして利用される。
マーカーピークの質量に基づいて未知微生物の識別を行うためには、予め、微生物の種毎又は株毎にマーカーピークの質量を特定してデータベース化しておく必要がある。しかしながら、種又は株の異なる多数の微生物を入手し、それぞれについて実際に質量分析を行ってマーカーピークの質量を測定するのは現実的でない。そこで、公共のデータベース(例えば、GenBank、EMBL、又はDDBJ等)に収録されている種々の微生物のアミノ酸配列データ又は塩基配列データ(以下「アミノ酸配列データ等」とよぶ)に基づいてマーカーピークの理論質量(計算質量)を算出し、これを上記のような質量分析による未知微生物の識別に利用することが考えられる。
国際公開第2017/168742号
しかしながら、公共データベースに収録されているアミノ酸配列データ等から算出された理論質量は、同種のタンパク質に由来する理論質量であっても、微生物株によってその値に大きなばらつきがみられることがある。このような場合において、理論質量の値が他と大きく異なっているものは、その理論質量の基になったアミノ酸配列データ等に誤り(シーケンスのミスなどに起因するもの)が含まれている可能性が高い。そのため、このような理論質量をマーカーピークの質量として採用すると、微生物識別の精度低下を引き起こすおそれがある。そこで、何らかの判断基準を以て外れ値(すなわち、前記識別の精度低下の原因となる異常な値を持ったデータ)を除去する必要があるが、そのための適当な判断基準が定まっていないという問題があった。
本発明は上記の点に鑑みてなされたものであり、その目的とするところは、複数の微生物の同種のタンパク質に関する理論質量データから成るデータ集合から外れ値を適切に検出する方法を提供することにある。
上記課題を解決するために成された本発明に係る理論質量の外れ値検出方法は、
複数の微生物の同種のタンパク質に関する理論質量の集合である理論質量群の中から代表値を決定し、
前記代表値に対応するアミノ酸配列又は塩基配列である基準配列を特定し、
前記理論質量群に含まれる各理論質量に対応するアミノ酸配列又は塩基配列と、前記基準配列との編集距離をそれぞれ算出し、
前記理論質量群に含まれる理論質量のうち、前記編集距離が予め定められた閾値以上であったアミノ酸配列又は塩基配列に対応する理論質量を外れ値として決定するものである。
上記本発明に係る理論質量の外れ値検出方法によれば、複数の微生物の同種のタンパク質に関する理論質量データから成るデータ集合から外れ値を適切に検出することができる。
本発明の一実施形態に係る理論質量の外れ値検出装置を備えたシステムの要部構成を示すブロック図。 前記理論質量の外れ値検出装置における処理の流れを示すフローチャート。 実施例における外れ値検出結果を示す図。 図3の配列パターンA~Fに対応するアミノ酸配列を示す図。
以下、本発明を実施するための形態について図面を参照しつつ説明する。図1は、本実施形態に係る理論質量の外れ値検出装置(以下、「外れ値検出装置10」とよぶ)を備えたシステムの要部構成を示すブロック図である。このシステムは、外れ値検出装置10と、記憶部20と、表示部31と、入力部32とを備えている。
外れ値検出装置10は、データ取得部11と、代表値決定部12と、配列特定部13と、編集距離算出部14と、外れ値判定部15と、外れ値除去部16と、表示制御部17とを機能ブロックとして備えている。この外れ値検出装置10は、CPU及びメモリ等を備えたパーソナルコンピュータをハードウェア資源とし、該パーソナルコンピュータにインストールされた専用のソフトウェアを前記CPUで実行することにより具現化される。
記憶部20は、外れ値検出の対象とする理論質量のデータ(オリジナルデータ)が記憶されるオリジナルデータ記憶部21と、前記オリジナルデータから外れ値を除去したデータ(処理済データ)が記憶される処理済データ記憶部22とを備えている。この記憶部20は、外れ値検出装置10を構成する前記パーソナルコンピュータに内蔵された又は外付けされたHDD(Hard Disk Drive)やSSD(Solid State Drive)等の大容量記憶装置によって実現することができる。
表示部31は液晶ディスプレイ装置等から成り、入力部32はキーボード及びマウス等のポインティングデバイスから成るものであって、いずれも外れ値検出装置10を構成する前記パーソナルコンピュータに接続されている。
図2は、本実施形態に係る外れ値検出装置10による外れ値検出の実行手順を示すフローチャートである。外れ値の検出に際しては、予め、外れ値検出の対象とする複数の理論質量(複数の微生物の同種のタンパク質に関するもの。本発明における「理論質量群」に相当)と、各理論質量の基となったアミノ酸配列と、その由来(前記理論質量がどの微生物株のどのタンパク質に関するものであるか)に関する情報とを互いに関連づけてオリジナルデータ記憶部21に記憶させておく。なお、前記複数の理論質量は、既存のデータベース(例えば、GenBank、EMBL、又はDDBJ等の公共データベース)から複数の微生物株における同種のタンパク質(例えば、リボソームタンパク質のいずれか)のアミノ酸配列を取得し、該アミノ酸配列から計算によって各タンパク質の計算分子量を求めると共に、該計算分子量を各タンパク質のイオン質量に変換することによって求めることができる。生体試料をMALDI-MSで分析した際には、主に[M+H](Mは分子、Hは水素原子)、[M-H]、又は[M+Na](Naはナトリウム原子)等の分子量関連イオンが検出されることが知られている。したがって、質量分析条件が定まっていれば、前記計算分子量からイオン質量への変換は容易に行うことができる。また、前記既存のデータベースに各種微生物株に含まれるタンパク質の計算分子量が収録されている場合は、これを用いて理論質量を算出するようにしてもよい。
本実施形態に係る外れ値検出装置10による外れ値の検出においては、まず、代表値決定部12が、データ取得部11を介して記憶部20にアクセスすることにより、オリジナルデータ記憶部21に記憶されている前記複数の理論質量M1、M2、…Mn(nは自然数)を読み出してそれらの最頻値Mfを特定し、該最頻値Mfを代表値として決定する(ステップS1)。続いて、配列特定部13が、データ取得部11を介して記憶部20にアクセスすることにより、オリジナルデータ記憶部21を参照して最頻値Mfに対応するアミノ酸配列(以下、「基準配列Ar」とよぶ)を特定する(ステップS2)。次に、編集距離算出部14が、データ取得部11を介して記憶部20にアクセスすることにより、前記複数の理論質量M1、M2、…Mnの各々に対応するアミノ酸配列A1、A2、…Anを、オリジナルデータ記憶部21から読み出し、各アミノ酸配列A1、A2、…Anと前記基準配列Arとの編集距離d1、d2…、dnを算出する(ステップS3)。ここで、編集距離(レーベンシュタイン距離)は、2つの文字列がどの程度異なっているかを表す値であり、具体的には、1文字の挿入、削除、又は置換によって、一方の文字列を他方の文字列に変形するのに必要な手順の最小回数として定義される。
続いて、外れ値判定部15が、各アミノ酸配列A1、A2、…Anに関してステップS3で求められた編集距離d1、d2…、dnの各々について、その値が予め定められた閾値dtを超えているか否かを判定し、超えていた場合には該アミノ酸配列に対応する理論質量を外れ値と判定する(ステップS4)。なお、前記閾値dtは、例えば、予めユーザが入力部32を介して設定して記憶部20に記憶させておく。その後、外れ値除去部16が、データ取得部11を介して記憶部20にアクセスすることにより、オリジナルデータ記憶部21に記憶されているデータ集合(すなわち、外れ値検出の対象とされた複数の理論質量、各理論質量の基になったアミノ酸配列、及びその由来に関する情報)を取得し、該データ集合から、ステップS4で外れ値と判定された理論質量に関するデータを除去して、除去後のデータ集合を処理済データ記憶部22に記憶させる(ステップS5)。更に、上記一連の処理が完了すると、外れ値と判定された理論質量に関するデータが、表示制御部17の制御の下に表示部31に表示されて、ユーザに提示される(ステップS6)。
以上の通り、本実施形態に係る外れ値検出装置では、基準配列と各アミノ酸配列との差異に基づいて理論質量の外れ値を検出するため、アミノ酸配列データを考慮した適切な外れ値検出を行うことができる。これにより、残った理論質量(すなわち、処理済データ記憶部22に記憶されているデータ集合)は、互いに類似したアミノ酸配列(すなわち信頼性の高いアミノ酸配列)に由来するものとなる。したがって、これらの理論質量を各微生物株のマーカーピークの質量として採用し、被検微生物の質量分析結果を前記各微生物株のマーカーピークの質量と照合することにより、高精度な微生物株識別を行うことが可能となる。また、本実施形態に係る外れ値検出装置は、上記の通り、数値データである理論質量に基づいて代表値を決定し、該代表値に対応するアミノ酸配列を基準配列とするものであるため、例えば、文字列データであるアミノ酸配列同士を比較して最も出現頻度の高かった配列を基準配列とするような場合に比べて、計算量を抑えて処理速度を向上させることができる。
以上、本発明を実施するための形態について具体例を挙げて説明を行ったが、本発明は上記実施形態に限定されるものではなく、本発明の趣旨の範囲で適宜変更が許容される。例えば、上記実施形態では、代表値決定部12が複数の理論質量のうちの最頻値を代表値として決定するものとしたが、最頻値に代えて中央値を代表値とするものとしてもよい。
また、上記実施形態では、配列特定部13が前記代表値に対応するアミノ酸配列を基準配列として決定し、編集距離算出部14が、該基準配列と複数の理論質量の各々に対応するアミノ酸配列との編集距離をそれぞれ求めるものとしたが、これに代えて、配列特定部13が前記代表値に対応する塩基配列を基準配列として決定し、編集距離算出部14が、該基準配列と複数の理論質量の各々に対応する塩基配列との編集距離をそれぞれ求めるものとしてもよい。
また、上記実施形態では、記憶部20が、外れ値検出装置10を構成する前記パーソナルコンピュータに内蔵又は外付けされているものとしたが、記憶部20は、外れ値検出装置10を構成する前記パーソナルコンピュータに直接又はインターネット又はLAN(Local Area Network)等を介して接続された別のコンピュータに設けられていてもよい。この場合、データ取得部11は、前記インターネット又はLANを介して記憶部20にアクセス可能なものとする。
また、上記実施形態では、外れ値検出のためのプログラムがコンピュータに予めインストールされているものとしたが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
アクネ菌(Cutibacterium acnes)89株のリボソームタンパク質L15のアミノ酸配列を、公共のデータベースから取得し、それぞれの理論質量を算出して、その中から外れ値を検出した。
前記理論質量は、15347.58~20635.62までの範囲に分布しており、最頻値は15384.69であった。前記89株のアミノ酸配列のうち、前記最頻値に対応するアミノ酸配列を基準配列とし、該基準配列と前記89株のアミノ酸配列の各々との編集距離を計算した。外れ値判定のための閾値は2とし、前記編集距離が当該閾値を超えていた株に関する理論質量を、外れ値と判定した。
前記外れ値の検出結果を図3に示す。なお、簡略化のため、ここでは前記89株のうちの20株に関する結果のみを示している。同図において、左から4番目の列は各株のリボソームタンパク質L15のアミノ酸配列パターンを示している。アミノ酸配列パターンA~Fに対応するアミノ酸配列を図4に示す。図4に示されたアミノ酸配列パターンのうち、パターンAの配列が、前記最頻値に対応するアミノ酸配列(すなわち基準配列)である。前記基準配列のアミノ酸配列と、各株のリボソームタンパク質L15のアミノ酸配列との編集距離は、図3の左から3番目の列に示した通りであり、編集距離が2を超えていた株(すなわち、理論質量が外れ値であると判定された株)は、同図で*を付した4株であった。
[態様]
上述した例示的な実施形態は、以下の態様の具体例であることが当業者により理解される。
(第1項)一態様に係る理論質量の外れ値検出方法は、
複数の微生物の同種のタンパク質に関する理論質量の集合である理論質量群の中から代表値を決定し、
前記代表値に対応するアミノ酸配列又は塩基配列である基準配列を特定し、
前記理論質量群に含まれる各理論質量に対応するアミノ酸配列又は塩基配列と、前記基準配列との編集距離をそれぞれ算出し、
前記理論質量群に含まれる理論質量のうち、前記編集距離が予め定められた閾値以上であったアミノ酸配列又は塩基配列に対応する理論質量を外れ値として決定するものである。
第1項に記載の理論質量の外れ値検出方法によれば、アミノ酸配列又は塩基配列を考慮して理論質量の外れ値検出を行うことができるため、信頼性の高い外れ値検出を実現することができる。
(第2項)第1項に記載の理論質量の外れ値検出方法において、前記代表値は最頻値であってもよい。
理論質量の最頻値に対応するアミノ酸配列又は塩基配列は、前記理論質量群に含まれる理論質量の各々に対応するアミノ酸配列又は塩基配列の中で、最も出現頻度の高い配列といえる。そのため、該最頻値を理論質量の代表値とすることにより、最も出現頻度の高い配列を基準配列とすることができ、該基準配列からの距離(編集距離)に基づいて外れ値判定を行うことによって、より適切な外れ値判定を実現することができる。
(第3項)第1項又は第2項に記載の理論質量の外れ値検出方法において、前記同種のタンパク質は、リボソームタンパク質であってもよい。
(第4項)一態様に係るプログラムは、コンピュータに、第1項~第3項のいずれかに記載の理論質量の外れ値検出方法を実行させるものである。
(第5項)一態様に係る非一時的なコンピュータ可読媒体は、第4項に記載のプログラムを記憶したものである。
10…外れ値検出装置
11…データ取得部
12…代表値決定部
13…配列特定部
14…編集距離算出部
15…外れ値判定部
16…外れ値除去部
17…表示制御部
20…記憶部
21…オリジナルデータ記憶部
22…処理済データ記憶部
31…表示部
32…入力部

Claims (4)

  1. 複数の微生物の同種のタンパク質に関する理論質量の集合である理論質量群の中から代表値を決定し、
    前記代表値に対応するアミノ酸配列又は塩基配列である基準配列を特定し、
    前記理論質量群に含まれる各理論質量に対応するアミノ酸配列又は塩基配列と、前記基準配列との編集距離をそれぞれ算出し、
    前記理論質量群に含まれる理論質量のうち、前記編集距離が予め定められた閾値以上であったアミノ酸配列又は塩基配列に対応する理論質量を外れ値として決定する理論質量の外れ値検出方法。
  2. 前記代表値が最頻値である請求項1に記載の理論質量の外れ値検出方法。
  3. 前記同種のタンパク質が、リボソームタンパク質である請求項1に記載の理論質量の外れ値検出方法。
  4. コンピュータに、請求項1に記載の理論質量の外れ値検出方法を実行させるプログラム。
JP2021519267A 2019-05-10 2020-02-20 理論質量の外れ値検出方法 Active JP7095805B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019089764 2019-05-10
JP2019089764 2019-05-10
PCT/JP2020/006834 WO2020230397A1 (ja) 2019-05-10 2020-02-20 理論質量の外れ値検出方法

Publications (2)

Publication Number Publication Date
JPWO2020230397A1 JPWO2020230397A1 (ja) 2021-12-09
JP7095805B2 true JP7095805B2 (ja) 2022-07-05

Family

ID=73290278

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021519267A Active JP7095805B2 (ja) 2019-05-10 2020-02-20 理論質量の外れ値検出方法

Country Status (4)

Country Link
US (1) US20220230708A1 (ja)
JP (1) JP7095805B2 (ja)
CN (1) CN113711026B (ja)
WO (1) WO2020230397A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100248298A1 (en) 2009-02-03 2010-09-30 Bruker Daltonik Gmbh Mass spectrometric identification of microorganisms in complex samples
JP2015500466A (ja) 2011-12-02 2015-01-05 ビオメリュー・インコーポレイテッド 質量分析法により微生物を特定するための方法
JP2015509182A (ja) 2011-12-02 2015-03-26 ビオメリュー・インコーポレイテッド 質量分析法とスコア正規化による微生物の特定方法
WO2017168742A1 (ja) 2016-03-31 2017-10-05 株式会社島津製作所 微生物の識別方法
JP2018119897A (ja) 2017-01-27 2018-08-02 株式会社島津製作所 質量分析を用いた物質同定方法及び質量分析データ処理装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NZ535231A (en) * 2000-05-12 2006-05-26 Univ Cardiff Method for detecting growth hormone variations in humans, the variations and their uses
JP6136770B2 (ja) * 2013-08-30 2017-05-31 株式会社島津製作所 質量分析データ解析装置及び解析方法
CN107727727B (zh) * 2017-11-13 2020-11-20 复旦大学 一种蛋白质鉴定方法及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100248298A1 (en) 2009-02-03 2010-09-30 Bruker Daltonik Gmbh Mass spectrometric identification of microorganisms in complex samples
JP2015500466A (ja) 2011-12-02 2015-01-05 ビオメリュー・インコーポレイテッド 質量分析法により微生物を特定するための方法
JP2015509182A (ja) 2011-12-02 2015-03-26 ビオメリュー・インコーポレイテッド 質量分析法とスコア正規化による微生物の特定方法
WO2017168742A1 (ja) 2016-03-31 2017-10-05 株式会社島津製作所 微生物の識別方法
JP2018119897A (ja) 2017-01-27 2018-08-02 株式会社島津製作所 質量分析を用いた物質同定方法及び質量分析データ処理装置

Also Published As

Publication number Publication date
CN113711026A (zh) 2021-11-26
US20220230708A1 (en) 2022-07-21
CN113711026B (zh) 2024-07-23
WO2020230397A1 (ja) 2020-11-19
JPWO2020230397A1 (ja) 2021-12-09

Similar Documents

Publication Publication Date Title
Bağcı et al. DIAMOND+ MEGAN: fast and easy taxonomic and functional analysis of short and long microbiome sequences
Murray et al. kWIP: The k-mer weighted inner product, a de novo estimator of genetic similarity
Gainaru et al. Event log mining tool for large scale HPC systems
JP5750676B2 (ja) 細胞識別装置及びプログラム
WO2014060305A1 (en) Database-driven primary analysis of raw sequencing data
WO2018218788A1 (zh) 一种基于全局种子打分优选的三代测序序列比对方法
CN108921424B (zh) 一种电力数据异常检测方法、装置、设备及可读存储介质
CN107229839B (zh) 一种基于新一代测序数据的Indel检测方法
US20090182994A1 (en) Two-level representative workload phase detection method, apparatus, and computer usable program code
Vyverman et al. A long fragment aligner called ALFALFA
Morisse et al. Long-read error correction: a survey and qualitative comparison
US20190266136A1 (en) Data sampling in a storage system
JP7095805B2 (ja) 理論質量の外れ値検出方法
US20220229721A1 (en) Selection of outlier-detection programs specific to dataset meta-features
JP7057973B2 (ja) 微生物識別装置および微生物識別方法
US9390163B2 (en) Method, system and software arrangement for detecting or determining similarity regions between datasets
CN115905373B (zh) 一种数据查询以及分析方法、装置、设备及存储介质
Agrawal et al. Pairwise statistical significance of local sequence alignment using multiple parameter sets and empirical justification of parameter set change penalty
Vallat et al. Building and assessing atomic models of proteins from structural templates: learning and benchmarks
JP5516925B2 (ja) 信頼度計算装置、信頼度計算方法、及びプログラム
CN114816518A (zh) 基于simhash的源代码中开源成分筛选识别方法及***
AlEisa et al. K‐Mer Spectrum‐Based Error Correction Algorithm for Next‐Generation Sequencing Data
CN104050070B (zh) 一种分布式***中高维流量数据变化点检测方法
JP7151556B2 (ja) 微生物同定システム及び微生物同定用プログラム
Tapinos et al. Alignment by numbers: sequence assembly using compressed numerical representations

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210810

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220524

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220606

R151 Written notification of patent or utility model registration

Ref document number: 7095805

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151