CN116248680B - 一种从头肽段测序方法、装置及相关设备 - Google Patents

一种从头肽段测序方法、装置及相关设备 Download PDF

Info

Publication number
CN116248680B
CN116248680B CN202310526160.9A CN202310526160A CN116248680B CN 116248680 B CN116248680 B CN 116248680B CN 202310526160 A CN202310526160 A CN 202310526160A CN 116248680 B CN116248680 B CN 116248680B
Authority
CN
China
Prior art keywords
data
mass spectrum
equipment
score
spectrogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310526160.9A
Other languages
English (en)
Other versions
CN116248680A (zh
Inventor
文艳华
张子怡
李闯
何成文
南苏琴
魏建好
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University of Technology
Original Assignee
Hunan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University of Technology filed Critical Hunan University of Technology
Priority to CN202310526160.9A priority Critical patent/CN116248680B/zh
Publication of CN116248680A publication Critical patent/CN116248680A/zh
Application granted granted Critical
Publication of CN116248680B publication Critical patent/CN116248680B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6818Sequencing of polypeptides
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6848Methods of protein analysis involving mass spectrometry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5066Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Biotechnology (AREA)
  • Hematology (AREA)
  • Immunology (AREA)
  • Medical Informatics (AREA)
  • Urology & Nephrology (AREA)
  • Analytical Chemistry (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Signal Processing (AREA)
  • Microbiology (AREA)
  • Cell Biology (AREA)
  • Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Computing Systems (AREA)

Abstract

本发明公开了一种基于边缘计算的从头肽段测序方法、装置、计算机设备及存储介质,该方法包括:边缘设备向中心发送第一数据请求消息和第二数据请求消息,第一数据请求消息用于请求质谱数据,第二数据请求消息用于请求候选肽段;边缘设备接收所述中心设备发送的质谱数据并进行预处理,将得到的结果数据返回给中心设备;边缘设备接收中心设备根据结果数据生成的候选肽段,并基于打分算法对候选肽段进行打分计算,得到打分结果;边缘设备将打分结果返回给中心设备,以使中心设备根据打分结果输出符合要求的肽段。采用本发明可以减少中心设备的数据处理压力和测序成本,提高质谱数据的处理效率。

Description

一种从头肽段测序方法、装置及相关设备
技术领域
本发明涉及边缘计算技术领域,尤其涉及一种基于边缘计算的从头肽段测序方法、装置、计算机设备及存储介质。
背景技术
基于串联质谱的肽段测序中,常用的分析方法包括数据库搜索测序方法和从头测序方法。从头测序方法是一种不需要借助任何蛋白质序列数据库信息,直接根据肽段的碎裂规律来解释串联质谱数据的肽段测序方法。
目前的从头肽段测序算法主要部署在服务器(中心设备)上,随着质谱数据规模的急剧增长,将对服务器造成较大的能耗和算力消耗,服务器将无法满足大规模质谱数据的计算及测序要求。
因此,如何实现高效、实时的质谱数据处理和分析是目前亟待解决的技术问题。
发明内容
本发明实施例提供一种基于边缘计算的从头肽段测序方法、装置、计算机设备和存储介质,以减少中心设备的数据处理压力和测序成本,提高质谱数据的处理效率。
为了解决上述技术问题,本申请实施例提供一种从头肽段测序方法,包括以下步骤:
边缘设备向中心设备发送第一数据请求消息,所述第一数据请求消息用于请求质谱数据;
所述边缘设备接收所述中心设备发送的质谱数据,所述质谱数据包括肽段碎裂的串联质谱数据;
所述边缘设备对所述质谱数据进行预处理,得到预处理之后的结果数据,将所述结果数据返回给所述中心设备。
在一种可能的实现方式中,所述边缘设备向所述中心设备发送第二数据请求消息,所述第二数据请求消息用于请求候选肽段,所述候选肽段为所述中心设备根据所述结果数据得到的肽段;所述边缘设备基于打分算法对所述候选肽段进行打分计算,得到打分结果,所述打分算法基于同类型离子的连续性、离子匹配误差和路径原始得分设计得到;所述边缘设备将所述打分结果返回给所述中心设备,以使得所述中心设备根据所述打分结果输出符合要求的肽段。
在另一种可能的实现方式中,所述边缘设备对所述质谱数据进行预处理包括去除同位素峰、谱峰电荷判别、噪音峰的去除、强度归一化得到相对强度中的至少一项。
在另一种可能的实现方式中,所述边缘设备对实验谱图和理论谱图进行采集和量化,得到所述实验谱图对应的向量和所述理论谱图对应的向量;计算所述实验谱图对应的向量和所述理论谱图对应的向量之间的点积,将所述点积作为所述打分结果。
在另一种可能的实现方式中,所述打分结果包括第一分数和第二分数,所述第一分数为所述候选肽段与质谱峰连接图匹配打分,所述第二分数为所述候选肽段对应的序列与肽段谱图匹配打分;所述中心设备根据所述第一分数和所述第二分数之和与打分阈值的大小关系,将所述候选肽段进行排序,筛选得到名次高于预设阈值的肽段,并输出所述肽段。
为了解决上述技术问题,本申请实施例还提供一种从头肽段测序装置,包括:
发送模块,用于向中心设备发送第一数据请求消息,所述第一数据请求消息用于请求质谱数据;
接收模块,用于接收所述中心设备发送的质谱数据,所述质谱数据包括肽段碎裂的串联质谱数据;
处理模块,用于对所述质谱数据进行预处理,得到预处理之后的结果数据,将所述结果数据返回给所述中心设备。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明实施例提供的从头肽段测序方法、装置、计算机设备及存储介质,通过将部分海量数据应用到边缘设备,利用边缘设备进行谱图预处理以及打分计算,并将得到的结果返回给中心设备,从而可以减少中心设备的数据处理压力,减少延迟时间,提高数据效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性***架构图。
图2是本申请的从头肽段测序方法的一个实施例的流程图。
图3是本申请的一种多肽裂解示意图。
图4是本申请的一种候选肽段生成示意图。
图5是根据本申请的从头肽段测序装置的一个实施例的结构示意图。
图6是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,如图1所示,***架构100可以包括边缘设备110、120、130,通信网络140和中心设备150。边缘设备110、120、130和中心设备150可以自由进入和离开网络140,边缘设备110、120、130可以通过网络140向中心设备150发送数据请求,中心设备150将部分或全部的质谱数据发送给边缘设备110、120、130,边缘设备对接收到的质谱数据进行预处理以及后续的打分计算,并将处理后所得到的数据再回传给中心设备,中心设备根据边缘设备的处理结果,输出符合要求的肽段,从而完成从头测序。
中心设备150可以是数据中心内的提供各种服务的服务器,例如数据库服务器、文件服务器等。边缘设备110、120、130可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器( Moving Picture EpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3 )、MP4( Moving PictureEperts Group Audio Layer IV,动态影像专家压缩标准音频层面4 )播放器、膝上型便携计算机和台式计算机等等。
应该理解,图1中的边缘设备和中心设备的数目仅仅是示意性的。根据实现需要,可以具有任意数目的边缘设备和中心设备。
请参阅图2,图2示出本发明实施例提供的一种从头肽段测序方法,详述如下。
S201、边缘设备向中心设备发送第一数据请求消息,所述第一数据请求消息用于请求质谱数据。
具体地,边缘设备可以是具有低延迟、低能耗、快速处理并行计算的设备,例如FPGA、智能手机等,中心设备可以是存储了全部质谱数据的服务器。
进一步的,边缘设备可以主动向数据中心的中心设备发送数据请求消息,从而指示中心设备将相应的质谱数据发送给边缘设备,从而针对该部分质谱数据的处理由边缘设备在本地完成,或者是,边缘设备也可以直接接收中心设备发送的质谱数据从而在本地完成相应的处理过程。
可选的,边缘设备可以请求处理全部的质谱数据,也可以仅处理部分质谱数据,本申请对此不作限定。
S202、边缘设备接收中心设备发送的质谱数据,所述质谱数据包括肽段碎裂的串联质谱数据。
具体地,中心设备在接收到边缘设备的数据请求之后,将筛选出相应的质谱数据,然后通过网络发送给边缘设备。
S203、边缘设备对所述质谱数据进行预处理,得到预处理之后的结果数据。
具体地,谱图预处理是从头测序中的一个重要过程,特别是基于图论的方法中的必要操作,若要完成肽段测序,则必须进行谱图预处理,而谱图预处理需要较高的能耗和算力,因此为了提高预处理效率,缓解中心设备的数据处理压力,边缘设备将完成谱图预处理的相关流程。
进一步的,谱图预处理主要包括去除同位素峰、谱峰电荷判别、噪音峰的去除,强度归一化得到相对强度等。例如,通过同位素的识别能够判断谱峰的电荷,将谱峰转化为单电荷峰,从而可以删除掉一部分同位素峰。
此外,由于在进行数据采集时,各数据单位并不一致,因而需要对肽段碎裂的串联质谱数据内的谱峰按照强度进行{-1,1}归一化处理。在肽段碎裂的串联质谱数据中,横轴表示波长,纵轴表示谱峰强度,在进行归一化时,把总谱峰强度看做1,那么纵轴的谱峰强度就为0到1区间的一个小数,这里可以使用下述线性函数完成上述的转换过程,其线性函数表达式为:y=(x-MAX)/(MAX-MIN)
其中,x表示归一化前的值,y表示归一化后的值,MAX为所有样本中的最大值,MIN为所有样本中的最小值。同理,归一化频率就是把采样的频率设为1,其它的频率按其百分比进行表示,容易理解,若频率范围相差过大,将不方便直观看到结果,将数据归一化后,就将范围限制在了0到1之间的小数,实现了一个统一的标准,有利于比较各个频率的分布情况,直观的分析数据结果,还能有效的防止数据的溢出(即数值的溢出)。
在完成数据归一化处理之后,根据数值进行排序,过滤掉部分低峰度的谱峰,从而减少噪声带来的影响,然后将处理之后的数据传回给中心设备。
S204、中心设备完成质谱峰连接图的构建和离子类型的确定。
具体地,中心设备在接收到边缘设备传回的数据后,为质谱中的每一个谱峰建立特征(由于串联质谱数据的特殊性,这里可以利用肽碎裂产生的离子类型设计特征),在质谱数据上构建谱峰连接图。应理解,质谱数据中的关键信息包括母离子的质荷比、肽所带电荷、谱峰,谱峰是碎片离子质荷比及其强度组成的对。需要说明的是,构建谱峰关系图(也称谱峰连接图)是基于图论方法的核心内容,其包含生成结点、合并结点、连接结点、设置边权重四个步骤。
示例性的,参见图3,图3是本申请实施例提供的一种多肽裂解示意图,其中,(a)是裂解过程的示意图,(b)是裂解后所得到的序列离子的示意图。如图3所示,假设肽段P的质量为W,在串联质谱中产生k个质量为w1、w2、…、wk的碎片离子I1、I2、…、Ik,在构建质谱峰连接图时,首先生成两个顶点z0和zm,z0表示的质量为0,zm表示的质量为W-18(即除去一个氧和两个氢),其中m=2k+1。然后将顶点z0和zm用一条直线连接起来,z0和zm之间的线段长度表示肽段P的质量,对于每个肽段离子峰(Ij),由于无法确定它是N端(即氨基端)离子还是C端(即羧基端)离子,所以生成一对质量互补的顶点zj和zm-j与之对应,它们分别表示质量为wj-1的N端离子或质量为W-wj+2的C端离子。如果Ij为N端的b离子,则zj表示质量为wj-1的b离子;如果Ij是C端y离子,则zm-j表示与它互补的质量为W-wj+2的b离子。在实际质谱峰连接图中,zj和zm-j两者之间只有一个表示真实的b离子(即氨基酸残基离子)。
可以看出,质谱中的每个峰都被表示成图中的一对顶点,这些顶点都分布在z0和zm之间的直线上,每个顶点到z0的距离表示它所代表的碎片离子的质量,对于 顶点zi和zj来说,如果zj-zi是某些氨基酸残基的质量之和,则zi和zj之间由一条方向从zi至zj的边连接起来,每条边的权重为两个顶点的质量差,将两个氨基酸的两个残基点连接起来,边的方向为质荷比值(m/z)从小到大,生成的图是一个有向无环图,如图4所示,可以通过该图将质谱中的每个峰的数据以及它们之间的关系进行清晰的展示。
进一步的,为了确定离子类型,先在质谱中的低质量区找到亚氨离子,再找到a2离子对(即a2和x2,它们是肽段水解得到的产物,多肽裂解一端为C段离子,另一端为N端离子)和b2离子对,再由同种类型的两个碎片离子(例如b离子和y离子)的质量往往是一个氨基酸质量或几个氨基酸质量之和的规律依次推断出质谱峰连接图中的b离子和y离子,分析算法(例如PRIME算法)将质谱峰连接图分成三个部分,即b离子、y离子和其他类型离子,从而将离子类型的区分问题变成图的划分问题,简化了分析步骤,提高了分析效率。
S205、中心设备生成候选肽段。
具体地,中心设备在完成质谱峰连接图的构建和离子类型的确定之后,其肽段测序问题就转化为在有向不循环图中寻找最优路径的问题,其一般思路都是基于动态规划完成相关测序算法。
进一步的,中心设备首先将顶点最佳分数定义为路径中每条边的权重,算法只生成反对称路径,然后将顶点最佳分数定义为从该顶点到目标顶点的预期最高分数,即可以通过算式:最佳分数=max{best score(v),weight(v)},best score(v)表示顶点到目标顶点的预期最高分数,weight(v)表示权重;接着利用DFS算法从频谱图中检索所有最优路径,并记录从源顶点到目标顶点的最高路径;对于下一个顶点v´,只有当preserve(v´)+bestscore(v´)>记录的分数才更新走该顶点v´,preserve(v´)表示已保存分数,否则在后续需要记录分数时,需要再走v´这个顶点时,直接回退到上一个顶点,以该方式将所有顶点全部遍历完。
需要说明的是,每个候选肽序列都对应有一个打分,但在质谱峰连接图中存在一条边对应两个氨基酸组合的情况,路径的权重仍有多种因素未能全部考虑到,遍历得到的候选序列中排名靠前的不一定是正确序列,因此需要对候选肽序列进行更细致的区分,
S206、中心设备将候选肽段发送给边缘设备。
具体地,边缘设备可以向中心设备发送第二数据请求消息,该数据请求消息用于请求中心设备将候选肽段发送给该边缘设备,边缘设备对候选肽段进行筛选,最后将筛选得到的合理范围数据返回给中心设备。
S207、边缘设备运行打分算法得到打分结果,并将打分结果返回给中心设备。
具体地,边缘设备根据肽谱匹配峰的强度,同类型离子的连续性、离子匹配误差以及路径原始得分重新设计打分函数。
需要说明的是,为了确定实验谱图的肽段序列,需要从理论谱图中去搜索与之相似的谱图,需要对实验谱图与理论谱图的匹配程度进行打分量化,不同工具所使用的数据库搜索方法不同,主要为基于计算谱向量点积(SDP)来对谱图匹配进行打分(例如SEQUEST、X!Tandem等),该类方法首先将谱图进行数据采集和量化,得到谱图的向量表示,再计算两个谱向量之间的点积作为谱图匹配的打分;或者是以概率角度对谱图匹配进行打分(例如MASCOT),该类方法将谱图匹配看成一个随机事件,然后通过对谱图匹配建立概率模型,得到谱图匹配的概率来给谱图匹配进行打分。本申请选用第一类方法来实现打分计算,从而节约中心设备的算力资源,并将打分计算后的合理范围内的数据返回给中心设备。
进一步的,边缘设备接收到中心设备发送的候选肽段之后,将排名靠前的候选肽段与从蛋白质数据库中提前计算出的肽段列表进行匹配,如果有候选肽段匹配到肽段列表中的某个肽段就会生成报告,如果所有排名靠前的候选肽段都没有匹配到显著相关的额肽段,那么就认为该图谱对应的肽段是数据库中不存在的新肽段,在进行匹配处理之后,就可以计算分析得到正常合理范围内的数据。
边缘设备在进行打分计算时,首先将所有候选肽段与质谱峰连接图进行匹配打分,同时再将候选肽段对应的序列与肽段谱图进行匹配打分,将这两个分数进行求和,所得的值作为该候选肽段的最终分数。
中心设备在接收到边缘设备返回的数据之后,根据打分阈值,将在合理范围内的肽段序列进行排名,将所有候选肽段进行排序,并筛选出排名较高的肽段作为最终输出。
在本实施例中,通过将质谱数据传输给边缘设备进行处理,可以去除部分冗余的质谱信息,将有用的、经过筛选的合理范围内的质谱信息传回至中心设备,可以大大减轻中心设备计算的工作量,节省中心设备的算力资源,提高了处理效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图5示出与上述实施例对应的从头肽段测序装置500的原理框图。如图5所示,该装置500包括节点发送模块510、接收模块520和处理模块530。各功能模块详细说明如下。
发送模块510,用于向中心设备发送第一数据请求消息,所述第一数据请求消息用于请求质谱数据。
接收模块520,用于接收所述中心设备发送的质谱数据,所述质谱数据包括肽段碎裂的串联质谱数据。
处理模块530,用于对所述质谱数据进行预处理,得到预处理之后的结果数据,将所述结果数据返回给所述中心设备。
关于从头肽段测序装置的具体限定可以参见上文中对于从头肽段测序方法的限定,在此不再赘述。上述从头肽段测序装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图6,图6为本实施例计算机设备基本结构框图。
所述计算机设备600包括通过***总线相互通信连接存储器610、处理器620、网络接口630。需要指出的是,图中仅示出了具有组件连接存储器610、处理器620、网络接口630的计算机设备600,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field Programmable Gate Array,FPGA)、数字处理器 (Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器610至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器610可以是所述计算机设备600的内部存储单元,例如该计算机设备600的硬盘或内存。在另一些实施例中,所述存储器610也可以是所述计算机设备600的外部存储设备,例如该计算机设备600上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器610还可以既包括所述计算机设备600的内部存储单元也包括其外部存储设备。本实施例中,所述存储器610通常用于存储安装于所述计算机设备600的操作***和各类应用软件,例如电子文件的控制的程序代码等。此外,所述存储器610还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器620在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器620通常用于控制所述计算机设备600的总体操作。本实施例中,所述处理器620用于运行所述存储器610中存储的程序代码或者处理数据,例如运行电子文件的控制的程序代码。
所述网络接口630可包括无线网络接口或有线网络接口,该网络接口630通常用于在所述计算机设备600与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有界面显示程序,所述界面显示程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (6)

1.一种从头肽段测序方法,其特征在于,所述方法包括:
边缘设备向中心设备发送第一数据请求消息,所述第一数据请求消息用于请求质谱数据;
所述边缘设备接收所述中心设备发送的质谱数据,所述质谱数据包括肽段碎裂的串联质谱数据;
所述边缘设备对所述质谱数据进行预处理,得到预处理之后的结果数据,将所述结果数据返回给所述中心设备;
所述边缘设备向所述中心设备发送第二数据请求消息,所述第二数据请求消息用于请求候选肽段,所述候选肽段为所述中心设备根据所述结果数据得到的肽段;
所述边缘设备对实验谱图和理论谱图进行采集和量化,得到所述实验谱图对应的向量和所述理论谱图对应的向量,计算所述实验谱图对应的向量和所述理论谱图对应的向量之间的点积,将所述点积作为打分结果,所述打分结果包括第一分数和第二分数,所述第一分数为所述候选肽段与质谱峰连接图匹配打分,所述第二分数为所述候选肽段对应的序列与肽段谱图匹配打分;
所述边缘设备将所述打分结果返回给所述中心设备,以使得所述中心设备根据所述第一分数和所述第二分数之和与打分阈值的大小关系,将所述候选肽段进行排序,筛选得到名次高于预设阈值的肽段并输出所述肽段。
2.如权利要求1所述的方法,其特征在于,所述边缘设备对所述质谱数据进行预处理包括去除同位素峰、谱峰电荷判别、噪音峰的去除、强度归一化得到相对强度中的至少一项。
3.一种从头肽段测序装置,其特征在于,所述装置包括:
发送模块,用于向中心设备发送第一数据请求消息,所述第一数据请求消息用于请求质谱数据;
接收模块,用于接收所述中心设备发送的质谱数据,所述质谱数据包括肽段碎裂的串联质谱数据;
处理模块,用于对所述质谱数据进行预处理,得到预处理之后的结果数据,将所述结果数据返回给所述中心设备;
所述发送模块,还用于向中心设备发送第二数据请求消息,所述第二数据请求消息用于请求候选肽段,所述候选肽段为所述中心设备根据所述结果数据得到的肽段;
所述接收模块,还用于接收所述中心设备发送的所述候选肽段;
所述处理模块,还用于对实验谱图和理论谱图进行采集和量化,得到所述实验谱图对应的向量和所述理论谱图对应的向量,计算所述实验谱图对应的向量和所述理论谱图对应的向量之间的点积,将所述点积作为打分结果,所述打分结果包括第一分数和第二分数,所述第一分数为所述候选肽段与质谱峰连接图匹配打分,所述第二分数为所述候选肽段对应的序列与肽段谱图匹配打分;
所述发送模块,还用于将所述打分结果返回给所述中心设备,以使得所述中心设备根据所述第一分数和所述第二分数之和与打分阈值的大小关系,将所述候选肽段进行排序,筛选得到名次高于预设阈值的肽段并输出所述肽段。
4.如权利要求3所述的装置,其特征在于,所述处理模块,具体用于:
去除同位素峰、谱峰电荷判别、噪音峰的去除、强度归一化得到相对强度中的至少一项。
5.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至2任一项所述的方法。
6.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至2任一项所述的方法。
CN202310526160.9A 2023-05-11 2023-05-11 一种从头肽段测序方法、装置及相关设备 Active CN116248680B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310526160.9A CN116248680B (zh) 2023-05-11 2023-05-11 一种从头肽段测序方法、装置及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310526160.9A CN116248680B (zh) 2023-05-11 2023-05-11 一种从头肽段测序方法、装置及相关设备

Publications (2)

Publication Number Publication Date
CN116248680A CN116248680A (zh) 2023-06-09
CN116248680B true CN116248680B (zh) 2023-08-01

Family

ID=86629920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310526160.9A Active CN116248680B (zh) 2023-05-11 2023-05-11 一种从头肽段测序方法、装置及相关设备

Country Status (1)

Country Link
CN (1) CN116248680B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003040171A2 (en) * 2001-11-09 2003-05-15 Basf Plant Science Gmbh Protein kinase stress-related polypeptides and methods of use in plants
CN103910893A (zh) * 2014-03-18 2014-07-09 清华大学 聚多肽-dna水凝胶及其制备方法
CN115083518A (zh) * 2022-07-20 2022-09-20 湖南工商大学 一种snp双通道编码方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013173826A2 (en) * 2012-05-18 2013-11-21 Georgetown University Methods and systems for populating and searching a drug informatics database
CN103852513B (zh) * 2012-11-29 2016-01-06 中国科学院计算技术研究所 一种基于hcd与etd质谱图的肽段从头测序方法及***
US20180358125A1 (en) * 2017-06-13 2018-12-13 Alexander Bagaev Systems and methods for identifying cancer treatments from normalized biomarker scores
CN110336875B (zh) * 2019-07-05 2022-12-02 深圳市九链科技有限公司 一种提高物联网应用的计算和存储速度的方法
CN110277136A (zh) * 2019-07-05 2019-09-24 湖南大学 蛋白质序列数据库并行搜索鉴定方法与装置
CN112185460B (zh) * 2020-09-23 2022-07-08 谱度众合(武汉)生命科技有限公司 一种异构数据不依赖型蛋白质组学质谱分析***及方法
CN114283884A (zh) * 2021-08-17 2022-04-05 腾讯科技(深圳)有限公司 原始谱图处理方法、装置、计算机设备及存储介质
CN113705443A (zh) * 2021-08-27 2021-11-26 湖南工商大学 综合利用知识图谱和深度残差网络的掌纹图像识别方法
CN114721835A (zh) * 2022-06-10 2022-07-08 湖南工商大学 边缘数据中心服务器能耗预测方法、***、设备及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003040171A2 (en) * 2001-11-09 2003-05-15 Basf Plant Science Gmbh Protein kinase stress-related polypeptides and methods of use in plants
CN103910893A (zh) * 2014-03-18 2014-07-09 清华大学 聚多肽-dna水凝胶及其制备方法
CN115083518A (zh) * 2022-07-20 2022-09-20 湖南工商大学 一种snp双通道编码方法

Also Published As

Publication number Publication date
CN116248680A (zh) 2023-06-09

Similar Documents

Publication Publication Date Title
CN112527816B (zh) 数据血缘关系解析方法、***、计算机设备及存储介质
CN112035549B (zh) 数据挖掘方法、装置、计算机设备及存储介质
CN112766649B (zh) 基于多评分卡融合的目标对象评价方法及其相关设备
WO2022110444A1 (zh) 云原生资源动态预测方法、装置、计算机设备及存储介质
US20210157851A1 (en) Graph updating apparatus, graph updating method and program
CN112988753B (zh) 一种数据搜索方法和装置
CA3052846A1 (en) Character recognition method, device, electronic device and storage medium
CN112836521A (zh) 问答匹配方法、装置、计算机设备及存储介质
CN111209351B (zh) 对象关系预测、对象推荐方法及装置、电子设备、介质
CN112686053A (zh) 一种数据增强方法、装置、计算机设备及存储介质
CN110889009B (zh) 一种声纹聚类方法、装置、处理设备以及计算机存储介质
CN112417875B (zh) 配置信息的更新方法、装置、计算机设备及介质
CN116248680B (zh) 一种从头肽段测序方法、装置及相关设备
WO2021169110A1 (zh) 运输路线生成方法、装置、计算机设备和存储介质
CN112860850A (zh) 人机交互方法、装置、设备及存储介质
CN112100491A (zh) 基于用户数据的信息推荐方法、装置、设备及存储介质
CN115146653B (zh) 对话剧本构建方法、装置、设备及存储介质
CN111046010A (zh) 日志储存方法、装置、***、电子设备和计算机可读介质
CN110782310A (zh) 从第三方平台异步获取用户属性信息的方法、装置和***
EP4332791A1 (en) Blockchain address classification method and apparatus
CN114912003A (zh) 文档搜索方法、装置、计算机设备及存储介质
CN113505595A (zh) 文本短语抽取方法、装置、计算机设备及存储介质
CN111782374A (zh) 可信云计算基础下基于边缘计算的任务处理***
CN113590935B (zh) 信息推荐方法、装置、计算机设备及存储介质
CN108536362B (zh) 用于识别操作的方法、装置及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant