CN110059228B - 一种dna数据集植入模体搜索方法及其装置与存储介质 - Google Patents

一种dna数据集植入模体搜索方法及其装置与存储介质 Download PDF

Info

Publication number
CN110059228B
CN110059228B CN201910181475.8A CN201910181475A CN110059228B CN 110059228 B CN110059228 B CN 110059228B CN 201910181475 A CN201910181475 A CN 201910181475A CN 110059228 B CN110059228 B CN 110059228B
Authority
CN
China
Prior art keywords
mer
mers
obtaining
dna sequence
big data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910181475.8A
Other languages
English (en)
Other versions
CN110059228A (zh
Inventor
于强
张晓�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201910181475.8A priority Critical patent/CN110059228B/zh
Publication of CN110059228A publication Critical patent/CN110059228A/zh
Application granted granted Critical
Publication of CN110059228B publication Critical patent/CN110059228B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90348Query processing by searching ordered data, e.g. alpha-numerically ordered data

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种DNA数据集植入模体搜索方法及其装置与存储介质,其方法包括:获取DNA序列大数据集、获取所述DNA序列大数据集的植入模体搜索参数;根据所述DNA序列大数据集、所述植入模体搜索参数得到第一k‑mer集,根据所述第一k‑mer集得到第一l‑mer集,根据所述第一l‑mer集得到第二l‑mer集;根据第一得分模型从所述第二l‑mer集确定所述植入模体。本发明通过APMS方法,不仅能够从DNA序列大数据集中搜索出植入模体,同时在找出植入模体的运行时间数量级地快速于其它植入模体搜索方法。

Description

一种DNA数据集植入模体搜索方法及其装置与存储介质
技术领域
本发明属于DNA序列大数据处理领域,具体涉及一种DNA数据集植入模体搜索方法及其装置与存储介质。
背景技术
DNA是遗传信息的载体,遗传信息存储在DNA四种字符组成的序列中,生物体的生长发育本质就是遗传信息的传递和表达。作为遗传信息表达的第一步,转录是调控机制的中心。转录因子结合在DNA序列中的特定位点(长度约为5~20个碱基对),启动基因的转录和控制基因的转录效率。这些位点称为转录因子结合位点(Transcription FactorBinding Sites,简称TFBS),定位TFBS对研究基因的转录调控有着重要意义。
Quorum植入模体搜索(Quorum Protein Motifs Sequences,简称qPMS)是用于在DNA序列中定位TFBS的著名计算模型之一。常见的qPMS方法包括样本模式驱动的精确方法和后缀树的精确方法,其中,基于样本模式驱动的精确方法,例如PMSprune、StemFinder、qPMS7、TravStrR、PMS8和qPMS9,包含样本驱动和模式驱动两个阶段,样本驱动阶段是用选取一些参考DNA序列作为约束来生成尽可能少的候选模体,模式驱动阶段是对候选模体进行验证;基于后缀树的精确方法,例如Weeder,RISOTTO和FMotif,建立输入序列的后缀树索引来加速候选模体的验证。近似qPMS方法的目标是在较短的时间内找出最优或接近最优的模体,最典型的近似qPMS方法包括期望最大化、Gibbs采样和遗传方法等,对初始模体进行求精,在这些方法中,基于期望最大化的方法MEME-ChIP是最有名的模体发现方法之一。为了高效处理大数据集,又提出了一些基于新策略的模体发现方法,比如PairMotifChIP方法,PairMotifChIP方法是从输入的DNA序列中挖掘和合并相似的子串对来得出模体。
然而,qPMS方法和近似qPMS方法、PairMotifChIP方法存在共同的问题:计算问题,导致运行时间太长,在处理DNA序列大数据集时存在着瓶颈。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种DNA数据集植入模体搜索方法及其装置与存储介质。
本发明实施例提供了一种DNA数据集植入模体搜索方法,该方法包括:
获取DNA序列大数据集、获取所述DNA序列大数据集的植入模体搜索参数;
根据所述DNA序列大数据集、所述植入模体搜索参数得到第一k-mer集,根据所述第一k-mer集得到第一l-mer集,根据所述第一l-mer集得到第二l-mer集;
根据第一得分模型从所述第二l-mer集确定所述植入模体。
在本发明的一个实施例中,根据所述DNA序列大数据集、所述植入模体搜索参数得到第一k-mer集,包括:
获取长度k,根据所述长度k从所述DNA序列大数据集中获取若干k-mer;
获取第一阈值,根据所述第一阈值、所述k-mer得到所述第一k-mer集。
在本发明的一个实施例中,获取所述长度k,包括:
根据所述DNA序列大数据集得到第一期望值;
根据所述DNA序列大数据集、所述植入模体搜索参数得到第二期望值;
根据所述第一期望值、所述第二期望值得到所述长度k。
在本发明的一个实施例中,获取所述第一阈值,包括:
从所述DNA序列大数据集中获取DNA序列的数量;
根据所述第二期望值、所述DNA序列数量得到所述第一阈值。
在本发明的一个实施例中,根据所述第一k-mer集得到所述第一l-mer集,包括:
从所述第一k-mer集中获取k-mer;
对所述DNA序列大数据集中的每个所述k-mer进行扩展处理,得到扩展的第一k-mer集;
根据第二得分模型对所述扩展的第一k-mer集进行去冗余处理,得到扩展的第二k-mer集;
对所述扩展的第二k-mer集进行截取处理,得到第一l-mer;
根据所述第一l-mer,得到所述第一l-mer集。
在本发明的一个实施例中,对扩展的所述第二k-mer集进行截取处理,得到第一l-mer,包括:
根据扩展的所述第二k-mer集得到比对序列;
根据预设规则对所述比对序列进行截取处理,得到所述第一l-mer。
在本发明的一个实施例中,根据所述第一l-mer集得到第二l-mer集,包括:
对所述第一l-mer集中的第一l-mer构建二项树;
根据所述第一得分模型对构建的所述二项树的所有结点计算得分,将所述得分最高的结点作为第二l-mer;
根据所述第二l-mer对所述第一k-mer集进行去冗余处理,得到第二k-mer集;
根据所述第二k-mer集处理所述第一l-mer集,得到所述第二l-mer集。
在本发明的一个实施例中,根据所述第二l-mer对所述第一k-mer集进行去冗余处理,得到第二k-mer集,包括:
从所述DNA序列大数据集中获取第四l-mer;
获取所述第二l-mer的k-mer与所述第四l-mer的k-mer之间的第三期望值;
根据所述第三期望值判断所述第一k-mer集中的k-mer是否为冗余,当所述第一k-mer集中的k-mer与所述第二l-mer中的k-mer的海明距离d小于等于所述第三期望值,所述第一k-mer集中的k-mer为冗余,将k-mer从所述第一k-mer集中删除,得到第二k-mer集,否则将k-mer保留在第一k-mer集,得到第二k-mer集。
本发明的另一个实施例提供了一种DNA数据集植入模体搜索装置,该装置包括:
数据获取模块,获取所述DNA序列大数据集、获取所述DNA序列大数据集的植入模体搜索参数;
数据处理模块,根据所述DNA序列大数据集、所述植入模体搜索参数得到所述第一k-mer集,根据所述第一k-mer集得到所述第一l-mer集,根据所述第一l-mer集得到所述第二l-mer集;
数据确定模块,根据所述第一得分模型从所述第二l-mer集确定所述植入模体。
本发明的再一个实施例提供了一种计算机可读存储介质,所述计算机程序被处理器执行时实现上述任一项所述的方法。
与现有技术相比,本发明的有益效果:
本发明通过APMS方法,不仅能够从DNA序列大数据集中搜索出植入模体,同时在找出植入模体的运行时间数量级地快速于其它植入模体搜索方法。
附图说明
图1为本发明实施例提供的一种DNA数据集植入模体搜索方法的流程示意图;
图2为本发明实施例提供的传统二项树的植入模体搜索示意图;
图3为本发明实施例提供的一种DNA数据集植入模体搜索装置的结构示意图;
图4为本发明实施例提供的APMS、PairMotifChIP和MEME-ChIP方法在模拟数据的不同DNA序列下的比较结果意图;
图5为本发明实施例提供的一种高效求解DNA序列大数据集植入模体搜索方法在真实数据的实验结果示意图。
具体实施方式
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
实施例一
请参见图1,图1为本发明实施例提供的一种DNA数据集植入模体搜索方法的流程示意图。本发明实施例提供了一种DNA数据集植入模体搜索方法,该方法包括如下步骤:
步骤1、获取DNA序列大数据集、获取DNA序列大数据集的植入模体搜索参数。
步骤1.1、获取DNA序列大数据集。
具体地,本实施例中获取的DNA序列大数据集D,包括t条DNA序列,则DNA序列大数据集D可以表示为D={s1,s2,…st},其中,si表示第i条DNA序列;每条DNA序列包括n个字符。其中,每条DNA序列si是字符表Σ={A,C,G,T}上的一个字符串,即每条DNA序列由A、C、G、T组成长度为n的字符串。si[j]表示第i条DNA序列的第j个字符,si[j..j']表示第i条DNA序列中起始于位置j终止于位置j'的字符串。其中,i的取值为0~t-1,j的取值为0~n-1。
步骤1.2、获取DNA序列大数据集的植入模体搜索参数。
具体地,本实施例中,植入模体(l,d)搜索参数包括植入模体(l,d)的长度l、植入模体(l,d)的海明距离d、植入模体(l,d)搜索占比q、保守性参数g。
本实施例中,对于植入模体(l,d),APMS方法解决的问题是:给定t条长度为n的DNA序列大数据集D={s1,s2,…,st}和满足0<l<n、0≤d<l和0<q≤1的三个参数l、d和q,目标是找到一个l-mer(长为l的字符串)m,使得至少qt(q≤t)条DNA序列si中都含有一个与l-merm存在至多d个位置差异(突变)的l-mer mi,该位置差异(突变)即定义为海明距离:dH(m,mi)=|{i:1≤i≤l,m[i]!=mi[i]}|。其中,l-mer m称为一个植入模体(l,d),DNA序列大数据集中的一个l-mer mi称为模体实例,DNA序列大数据集中不满足上述海明距离的序列称为背景序列。其中,APMS方法为本发明的一种DNA数据集植入模体搜索方法。
DNA序列大数据集有利于找出高质量植入模体(l,d),但是大多数现有的qPMS方法太耗时而不能在合理时间内完成qPMS的计算,找出植入模体(l,d)。而本实施例中APMS方法在qPMS方法的基础上,应对于DNA序列大数据集,不仅能找出植入模体(l,d),而且运行时间数量级地快速于现有模体搜索方法。
步骤2、根据DNA序列大数据集、植入模体搜索参数得到第一k-mer集,根据第一k-mer集得到第一l-mer集,根据第一l-mer集得到第二l-mer集。
步骤2.1、根据DNA序列大数据集、植入模体(l,d)搜索参数得到第一k-mer集,第一k-mer集包括若干k-mer,每个k-mer包括k个字符。
具体地,根据DNA序列大数据集、植入模体(l,d)搜索参数得到第一k-mer集,包括:
获取长度k,根据长度k从DNA序列大数据集中获取若干k-mer;
获取第一阈值
Figure GDA0002997852320000082
根据第一阈值
Figure GDA0002997852320000083
k-mer得到第一k-mer集。
进一步地,获取长度k,包括:
根据DNA序列大数据集得到第一期望值;
根据DNA序列大数据集、植入模体(l,d)搜索参数得到第二期望值;
根据第一期望值、第二期望值得到长度k。
具体地,本实施例采用概率分析法来确定合适的k值,使得其能够较好地区分背景序列和模体实例中的k-mer。令fr(k)为第一期望值,第一期望值fr(k)表示任意背景序列中的k-mer在DNA序列大数据集D中出现频次的期望值;令fm(k)为第二期望值,第二期望值fm(k)表示任意模体实例中的k-mer在DNA序列大数据集D中出现频次的期望值。其中,第二期望值fm(k)与第一期望值fr(k)的比值越大,则背景序列中和模体实例中的k-mer从出现频次的角度看,越具备可区分性。因此,本实施例采用如下公式来确定k的值:
Figure GDA0002997852320000081
其中,kmin表示k的最小取值,ε是用于应对第一期望值fr(k)小于1的情况的因子。kmin优选为5,因为k值很小的时候,难以区分背景序列和模体实例中的k-mer。ε根据经验设定为1。
本实施例中,根据DNA序列大数据集获取公式(1)中的第一期望值fr(k),具体设计如下:
Figure GDA0002997852320000091
假定搜索的植入模体(l,d)为m,存在模体实例m1和模体实例m2,在DNA序列大数据集D中,对于一个任意模体实例m1中任意起始位置的一个k-mer x1和另一个任意模体实例m2中相同起始位置的一个k-mer x2,令pk表示k-mer x1和k-mer x2相等的概率,则公式(1)中的第二期望值fm(k)设计如下:
Figure GDA0002997852320000092
对于公式(3)中,pk表示k-mer x1和k-mer x2相等的概率,根据全概率公式,pk设计如下:
Figure GDA0002997852320000093
其中,Pri表示植入模体(l,d)m与模体实例m1的海明距离dH(m,m1)=i(0≤i≤d)的概率,Prj表示植入模体(l,d)m与模体实例m2的海明距离dH(m,m2)=j(0≤j≤d)的概率,Pri设计如下:
Figure GDA0002997852320000094
其中,g表示保守性参数,取值范围为0≤g≤1。
同理,Prj设计如下:
Figure GDA0002997852320000101
而pij表示在dH(m,m1)=i和dH(m,m2)=j的条件下,k-mer x1和k-mer x2相等的概率,pij设计如下:
Figure GDA0002997852320000102
由公式(7)可见,pij是在a取0到min{i,j}的范围内对三个因子相乘的积进行累加。其中,第一个因子表示模体实例m1中一个任意k-mer x1中有a个突变的概率;第二个因子表示k-mer x2和k-mer x1突变位置相同的概率;第三个因子表示在k-mer x2和k-mer x1突变位置相同的情况下,突变成的碱基完全一样的概率。
由上述公式(2)~(3)计算得到第一期望值fr(k)和第二期望值fm(k),k的取值范围为0~l,再根据公式(1)计算第二期望值fm(k)与第一期望值fr(k)的比值中最大的值作为本实施例第一k-mer集中每个k-mer的长度k。
从DNA序列大数据集D中,获取若干长度为k的k-mer。
进一步地,获取第一阈值
Figure GDA0002997852320000103
包括:
从DNA序列大数据集中获取DNA序列的数量;
根据第二期望值、DNA序列的数量得到第一阈值
Figure GDA0002997852320000104
具体地,本实施例并未从DNA序列大数据集D中获取所有长度为k的k-mer,而是取用了在DNA序列大数据集D中出现频次大于等于第一阈值
Figure GDA0002997852320000111
的k-mer作为高频k-mer,生成第一k-mer集。如上所述,fm(k)表示一个任意的模体实例中的一个任意k-mer在DNA序列大数据集D中出现频次的期望,如果将
Figure GDA0002997852320000112
直接设定为fm(k),那么可能会获取多个对应于同一模体的高频k-mer。因此,第一阈值
Figure GDA0002997852320000113
的设计是在fm(k)的基础上加了一个与DNA序列条数t成正比的变量,以避免得到过多冗余的高频k-mer。本实施例第一阈值
Figure GDA0002997852320000114
的设计如下:
Figure GDA0002997852320000115
进一步地,根据公式(8)得到的第一阈值
Figure GDA0002997852320000116
从每条DNA序列中获取满足大于等于该第一阈值的k-mer作为高频k-mer,生成第一k-mer集。
步骤2.2、根据第一k-mer集得到第一l-mer集,第一l-mer集包括若干第一l-mer,每个第一l-mer包括l个字符。
具体地,根据第一k-mer集得到第一l-mer集,包括:
从第一k-mer集中获取k-mer;
对DNA序列大数据集中的每个k-mer进行扩展处理,得到扩展的第一k-mer集,扩展的第一k-mer集中每个扩展的k-mer长度为2l-k;
根据第二得分模型对扩展的第一k-mer集进行去冗余处理,得到扩展的第二k-mer集;
对扩展的第二k-mer集进行截取处理,得到第一l-mer;
根据第一l-mer,得到所述第一l-mer集。
进一步地,对DNA序列大数据集中的k-mer进行扩展处理,得到扩展的第一k-mer集,扩展的第一k-mer集中的每个扩展的k-mer长度为2l-k。
具体地,通过第一k-mer集搜索植入模体(l,d),首先从第一k-mer集中获取k-merx,因为k-mer x在植入模体(l,d)中的起始位置未知,因此,本实施例在DNA序列大数据集D中找到k-mer x后,将k-mer x在DNA序列大数据集D中向左和向右分别扩展l–k个字符,扩展的k-mer x变成长度为2l–k的字符串。通过这样处理,扩展的k-mer x在DNA序列大数据集D中的模体实例能够覆盖植入模体(l,d)。
例如,假设si[j..j+k–1]是k-mer x在DNA序列大数据集D中的一个精确出现,那么由此得到的k-mer x在DNA序列大数据集D中扩展的k-mer x的模体实例为si[j–l+k..j+l–1]。
进一步地,对DNA序列大数据集D中的每个k-mer x进行扩展处理,得到扩展的第一k-mer集。
进一步地,根据第二得分模型对扩展的第一k-mer集进行去冗余处理,得到扩展的第二k-mer集,扩展的第二k-mer集中的每个扩展的k-mer长度为2l-k。
具体地,如果扩展的第一k-mer集中的扩展的k-mer x在DNA序列大数据集D中不含有模体实例,即它完全由背景序列组成,这样扩展的k-mer x将影响第一l-mer集的质量。因此,本实施例在生成第一l-mer集之前,根据设计的第二得分模型scorei(y),对扩展的k-mer x进行评估,评估扩展的k-mer x是否由背景序列组成。由上述可知,因为第一期望值fr(k)表示一个任意的背景序列中的k-mer在DNA序列大数据集D中出现频次的期望,所以本实施例,第二得分模型设计如下:
Figure GDA0002997852320000131
由公式(9)可见,第二得分模型scorei(y)的得分越小,扩展的k-mer x越可能是由背景序列组成,从而从扩展的第一k-mer集中滤除得分最小的扩展的k-mer x,得到扩展的第二k-mer集。
本实施例通过设计第二得分模型,从扩展的第一k-mer集中滤除可能是背景序列的扩展的k-mer x,减少了后续植入模体(l,d)搜索的计算量,降低了APMS方法的运行时间。
进一步地,对扩展的第二k-mer集进行截取处理,得到第一l-mer,包括:
根据扩展的第二k-mer集得到比对序列;
根据预设规则对比对序列进行截取处理,得到第一l-mer。
具体地,本实施例对DNA序列大数据集D中的扩展的第一k-mer集去冗余处理后,剩余扩展的k-mer形成扩展的第二k-mer集,将扩展的第二k-mer集中扩展的k-mer形成长度为2l-k的比对序列align,r(align[i])表示比对序列align中第i列的信息量,然后根据预设规则进行截取,得到第一l-mer。其中,信息量采用的是位置权值矩阵(Position WeightMatrices,简称PWM),位置权值矩阵中每一列为扩展的k-mer中四个字符的占比,四个字符分别为A、C、G、T。
其中,本实施例中的预设规则为将扩展的第二k-mer集中的扩展k-mer右对齐形成比对序列align后,根据比对序列align中每列r(align[i])的信息量,首先获取长度为2l-k的一致序列,然后反复对比去除一致序列中左右两端信息量较小的列r(align[i]),直到得到一个长度为l的一致序列,该长度为l的一致序列即为第一l-mer。
例如,本实施例中,若植入模体(l,d)长度l为6,k-mer中的长度k为3,其中,DNA序列大数据集包括6个扩展的k-mer,分别为{AGATTGCAG},{CGATTGCAG},{CGATTGCAC},{CGCTTGCAG},{CGCTTGCAG},{CTATTGTAG},首先将该6个扩展的k-mer右对齐排列:
{AGATTGCAG,
CGATTGCAG,
CGATTGCAC,
CGCTTGCAC,
CGCTTGCAG,
CTATTGTAG},形成比对序列align,其中,比对序列align的每一列r(align[i])的信息量为:
{A:0.17,0.00,0.67,0.17,0.00,0.17,0.00,1.00,0.00
C:0.83,0.00,0.33,0.00,0.00,0.00,0.83,0.00,0.33
G:0.00,0.83,0.00,0.00,0.00,0.66,0.00,0.00,0.67
T:0.00,0.17,0.00,083,1.00,0.17,0.17,0.00,0.00},然后根据每一列r(align[i])信息量,得到一致序列,该一致序列为{CGATTGCAG}。从左边开始,观察一致序列{CGATTGCAG}的每一列字符A、C、G、T的占比,左边第一列中C的占比最大,左边选择字符C,然后右边第一列中G的占比最大,右边选择字符G,对比左边第一列字符C的占比和右边第一列字符G的占比,第一列字符C的占比大于第一列字符G的占比,则保留左边第一列字符C,删除右边第一列所有字符;接着,左边第一列选择保留的字符C,然后右边第一列中A的占比最大,右边选择字符A,对比左边第一列字符C的占比和右边第一列字符A的占比,第一列字符C的占比小于第一列字符A的占比,则保留右边第一列字符A,删除左边第一列所有字符;以此类推,直到一致序列截取为长度l的l-mer,该l-mer为{ATTGCA}且该l-mer为第一l-mer。
进一步地,遍历第一k-mer集中的k-mer,找出每个k-mer在DNA序列大数据集中的第一l-mer,形成第一l-mer集。
步骤2.3、根据第一l-mer集得到第二l-mer集,第二l-mer集包括若干第二l-mer,每个第二l-mer包括l个字符。
具体地,根据第一l-mer集得到第二l-mer集,包括:
对第一l-mer集中的第一l-mer构建二项树;
根据第一得分模型对二项树所有结点计算得分,将得分最高的结点作为第二l-mer;
根据第二l-mer对第一k-mer集去冗余处理,得到第二k-mer集;
根据第二k-mer集处理第一l-mer集,得到第二l-mer集。
进一步地,对第一l-mer集中的第一l-mer构建二项树,包括:
选取第一l-mer作为二项树的根结点;
依次根据二项树的第i层生成二项树的第i+1层,判断二项树的第i+1层的结点的数量是否大于第二阈值,若第i+1层的结点的数量大于第二阈值,根据第一得分模型得到最终二项树的第i+1层的结点,第i+1层的结点的数量等于第二阈值,若第i+1层的结点的数量小于等于第二阈值,保持二项树的第i+1层的结点,i的取值为0<i<d;
判断二项树的第i层的结点是否为植入模体(l,d),若该结点是植入模体(l,d),则将该结点存储于第一数组M中,若该结点不是植入模体(l,d),则不需要存储该结点于第一数组M中,i的取值为0<i<d;
根据第一数组M中的结点得分,将得分最高的结点作为第二l-mer。
具体地,请参见图2,图2为本发明实施例提供的传统二项树的植入模体搜索示意图。由图2可见,传统构建二项树的方法,二项树的根结点为第一l-mer集中的第一l-mer,二项树的第i层的内部结点或叶子结点是与根结点第一l-mer的海明距离为i的结点,i的取值范围为0<i≤d,该二项树的深度为d。二项树的每一层对应若干扩展结点,若干扩展结点是根结点第一l-mer的d邻居,它们与第一l-mer从根结点到内部结点或叶子结点的路径上标出的位置上存在着差异。这样,二项树中各个结点表示了与第一l-mer海明距离为i(0≤i≤d)的d邻居。其中,扩展结点均是长度为l的l-mer。
而本实施例构建二项树,根结点为第一l-mer集中的第一l-mer,然后依次根据二项树的第i层生成二项树的第i+1层,判断二项树的第i+1层的结点的数量是否大于第二阈值,若该层结点的数量大于第二阈值,根据第一得分模型得到二项树的第i+1层的结点,该层结点的数量等于第二阈值,若该层结点的数量小于等于第二阈值,保持二项树的第i+1层的结点,i的取值为0<i<d。
具体地,令第二阈值为Nmm(i),Nmm(i)表示二项树的第i(0<i<d)层结点的数量,为了避免丢失二项树每一层的扩展结点,计算Nmm(i)时,对第i层结点的数量乘以一个安全因子α(α≥1)。在APMS方法的实现中,根据经验将α优选设置值为2,则Nmm(i)设计如下:
Figure GDA0002997852320000171
例如,本实施例构建二项树时,已知植入模体长(l,d)度为5,海明距离d为3,其中,二项树根结点为第一l-mer,二项树第一层的结点为与根结点第一l-mer的海明距离为1的l-mer,则结点的数目共15个,因为植入模体(l,d)是长度为5的l-mer,每个位置都有3种突变情况,本实施例二项树第一层的结点取用根结点第一l-mer的所有突变情况,即二项树第一层的结点的数目是15;二项树第二层的结点是在二项树第一层的结点是植入模体(l,d)的基础上,对该二项树第一层的结点进行扩展,该结点与该结点的扩展结点的海明距离为1,并通过公式(11)确定二项树第二层结点的数目共C3 2*2=6;同理,二项树第三层结点是在二项树第二层的结点(结点数目为6)是植入模体(l,d)的基础上,对该二项树第二层的结点进行扩展,该结点与该结点的扩展结点的海明距离为1,并通过公式(11)确定二项树第三层结点的数目共C3 3*2=2。则最后构建的二项树是以第一l-mer为根结点,二项树第一层为15个结点,二项树第二层为6个结点,二项树第三层为2个结点的树型结构。
进一步地,根据第一得分模型得到最终二项树的第i+1层的结点,该层结点的数量等于第二阈值。
具体地,本实施例在qPMS模型下,设计第一得分模型来评估构建的二项树的每个结点y的得分。其中,D'(y)是从DNA序列大数据集D中选出的用来计算二项树的每个结点y得分的含有qt条DNA序列的集合,s是某一条DNA序列中和结点y的海明距离最小的l-mer。一般来讲,二项树的结点y的得分越高,该结点y越接近于植入模体(l,d)。本实施例第一得分模型设计如下:
Figure GDA0002997852320000181
由公式(11)可知,对于任意一个第一l-mer构建的二项树中,传统方法评估二项树中每个结点y的得分,都是先计算该结点y在DNA序列大数据集中t条DNA序列的得分,从每条DNA序列中找到一个跟与第一l-mer海明距离最小的l-mer的得分作为本条DNA序列的得分,再取得分最高的前qt条DNA序列,将该qt条DNA序列的得分进行相加,得到的最终得分作为该结点y的得分。对于每个结点y,对应都有scoren(y),选取这些结点y中得分最高的结点y作为第二l-mer。
但传统的方法存在的缺点是每次计算结点y得分的时候,都要重新去扫描一遍DNA序列大数据集,计算成本大。本实施例为了解决此问题,将每条DNA序列中的所有l-mer,根据该l-mer跟第一l-mer的海明距离从小到大进行升序排列,得到排队序列,根据这样的排队序列,可以判断排队序列中比较靠前的l-mer极有可能是最终求得的第二l-mer。通过这样的排队序列再求取第二l-mer中计算成本降低,基本上只需扫描排队序列中前几个l-mer就会找到本条DNA序列中得分最好的l-mer。其中,公式(11)中的D'(y)是从DNA序列大数据集D中选取的用来计算结点y的得分的含有qt条DNA序列的集合,本实施例中,D'(y)集合表示为:
Figure GDA0002997852320000191
因为每条DNA序列中的所有l-mer与第一l-mer的海明距离从小到大进行升序排列,得到排队序列后,每条DNA序列中的所有l-mer与第一l-mer海明距离最小的l-mer都已经排在了排队序列最前面。将从每条DNA序列中获取的得分最小的l-mer,重新按海明距离从小到大进行升序排列,排列后得到新的排队序列,该新的排队序列中的某一行叫做Ci,则本实施例中,对于一个第一l-mer m'和第一l-mer m'的一个d邻居y,存在Ci和Ci中一个位置j(1≤j≤|Ci|),如果dH(Ci[j],m')–dH(y,m')≥0,那么dH(Ci[j],m')–dH(y,m')是dH(y,Ci[j])的最小可能的值。因此,在新的排队序列的基础上扫描并计算得分的时候,在新的排队序列中某一行Ci,当遇到dH(Ci[j],m')–dH(y,m')≥dis(y,Ci[j])这种情况时,即可完成本行Ci扫描,当前行Ci的最小海明距离为dis(y,Ci[j]),将dis(y,Ci[j])代入公式(11),得到结点y的在该Ci行的得分scoren(y),并且开始下一行Ci+1行的扫描,直到新的排队序列中所有行扫描完毕,将新的排队序列中每一行的得分中最高得分作为结点y的得分scoren(y)。
对二项树的第i+1层的所有结点分别进行如上得分scoren(y)的计算,对得到的得分进行从小到大升序排序,选择排序中前第二阈值个较大的得分的结点作为最终二项树的第i+1层的结点,该层结点的数量等于第二阈值。
本实施例在第一l-mer集中的第一l-mer构建二项树中,按第一得分模型计算选择得分高的结点去生成扩展结点,因为得分高的结点更可能是植入模体(l,d),所以本实施例是从植入模体(l,d)的方向生成扩展结点,从而减少后续植入模体(l,d)的计算量,降低了APMS方法的运行时间。
进一步地,判断二项树的第i层的结点是否为植入模体(l,d),若该结点是植入模体(l,d),则将该结点存储于第一数组M中,若该结点不是植入模体(l,d),则不需要存储该结点于第一数组M中;
具体地,本实施例并未像传统方法一样,取用二项树的所有d邻居结点去搜索植入模体(l,d),而是取用与植入模体(l,d)相似的结点去搜索。在判断二项树的第i层的结点是否为植入模体(l,d)时,是把这个结点代入到DNA序列大数据集中,判断是否至少存在qt条DNA序列里都包含一个l-mer与该结点的海明距离小于等于d,如果存在,则判定该结点是植入模体(l,d),将该结点存储于第一数组M中,如果不存在,则该结点不是植入模体(l,d),不需要将该结点存储于第一数组M中。其中,第i层的结点与该结点第i+1层的扩展结点的海明距离为1。其中,i的取值为0<i<d。
进一步地,根据第一数组M中的结点得分,将得分最高的结点作为第二l-mer。
具体地,第一数组M中的结点是对第一l-mer选择出的接近植入模体(l,d)的结点集合,从第一数组M中选择其中得分最高的结点为最可能是搜索的植入模体,将该得分最高的结点作为第二l-mer。
进一步地,遍历第一l-mer集中每个第一l-mer,构建如上所述二项树模型得到第二l-mer,根据第二l-mer得到第二l-mer集,通过第二l-mer集得到最终的植入模体(l,d)。
具体地,对第一l-mer集中每个第一l-mer构建如上所述二项树模型,按第一得分模型计算每个以第一l-mer为根结点的二项树模型的第一数组M,选择第一数组M中得分最高的结点作为该第一l-mer的第二l-mer,然后对第一l-mer集中的每个第一l-mer得到的第二l-mer,由第二l-mer构成第二l-mer集,将第二l-mer集中的第二l-mer再按第一得分模型计算得分,将这些得分重新进行从高到低的排序,输出该重新排序的结点集合作为最终的植入模体(l,d)。
综上所述,本实施例基于二项树方法搜索植入模体(l,d)是从根结点第一l-mer开始逐层地进行搜索。对于根结点第一l-mer,首先判断根结点第一l-mer是否为一个植入模体(l,d),并由与根结点第一l-mer的海明距离为1的所有结点作为第1层的扩展结点。对于第i(0<i<d)层,首先从该层的扩展结点中选择Nmm(i)个得分高的结点作为该层最终的结点,由分别与这Nmm(i)个选择出来的结点的海明距离为1的扩展结点作为第i+1层的结点。对于第d层,直接判断该层结点是否为一个植入模体(l,d)。判断每一层的每个扩展结点是否为一个植入模体(l,d),如果该扩展结点是植入模体(l,d),则存储于第一数组M中,如果该扩展结点不是植入模体(l,d),则不需要存储于第一数组M中。在此搜索过程中,如果第一l-mer构建的二项树中第一数组M中有多个植入模体(l,d),则从第一数组M中选择得分最高的结点作为第二l-mer。对第一l-mer集中的每个第一l-mer获取第二l-mer,由这些第二l-mer得到第二l-mer集,将第二l-mer集中的第二l-mer再按其得分重新进行从高到低的排序,输出该重新排序的结点集合作为最终的植入模体(l,d)。
进一步地,根据第二l-mer对第一k-mer集进行去冗余处理,得到第二k-mer集,包括:
从DNA序列大数据集中获取第四l-mer;
获取第二l-mer的k-mer与第四l-mer的k-mer之间的第三期望值;
根据第三期望值判断第一k-mer集中的k-mer是否为冗余,当第一k-mer集中的k-mer与第二l-mer中的k-mer的海明距离d小于等于第三期望值,第一k-mer集中的k-mer为冗余,将k-mer从第一k-mer集中删除,得到第二k-mer集,否则将k-mer保留在第一k-mer集,得到第二k-mer集。
具体地,对于第一k-mer集,第一k-mer集中可能存在冗余的k-mer,k-mer是第二l-mer中同一起始位置的子串,或者k-mer与第二l-mer存在着长为k'(kmin≤k'<k)的交叠。基于此,本实施例在每次通过第一k-mer集中的k-mer获取第一l-mer时,首先采用上一次生成的第二l-mer来判别第一k-mer集中的k-mer是否为一个冗余的k-mer,如果该k-mer为冗余,将k-mer从第一k-mer集中删除,得到第二k-mer集;如果该k-mer为不冗余,将k-mer保留在第一k-mer集,得到第二k-mer集,第二k-mer集包括若干k-mer,每个k-mer包括k个字符。
令第三期望值e(k)表示一个任意模体实例中的一个任意起始位置的k-mer与植入模体(l,d)中相同起始位置的k-mer的海明距离的期望值。本实施例从DNA序列大数据集D中获取第四l-mer,第四l-mer包括l个字符,将第四l-mer作为第三期望值e(k)计算的模体实例,第二l-mer作为第三期望值e(k)计算的植入模体(l,d)。e(l)基于全概率公式计算而得,任取第四l-mer与第二l-mer之间的一个突变位置,假设这个突变随机地出现于l个位置中的一个位置上,那么第三期望值e(k)等于e(l)乘以k/l。本实施例第三期望值e(k)设计如下:
Figure GDA0002997852320000231
本实施例中,对于第一k-mer集中的k-mer x是一个冗余的k-mer定义为:第二l-mer中存在一个k-mer z使得dH(z,x)≤e(k),即第一k-mer集中的k-mer x与第二l-mer中的k-mer z的海明距离d小于等于第三期望值e(k),则第一k-mer集中的k-mer为冗余,将k-mer从第一k-mer集中删除,不需要对该k-mer进行如上植入模体(l,d)搜索流程,否则将k-mer保留在第一k-mer集,进行如上植入模体(l,d)搜索流程。其中,对于第一k-mer集中的k-merx是一个冗余的k-mer还可以定义为:令pf(x,k')和sf(x,k')分别表示一个字符串k-mer x的长度为k'的前缀和长度为k'的后缀,存在kmin≤k'<k使得dH(pf(z,k'),sf(x,k'))≤e(k')或者dH(sf(z,k'),pf(x,k'))≤e(k')。
本实施例中,通过设计第三期望值e(k),对第一k-mer集进行去冗余处理,减少了后续植入模体(l,d)的计算量,降低了APMS方法的运行时间。
进一步地,根据第二k-mer集处理第一l-mer集,得到第二l-mer集。
具体地,通过上述对第一k-mer集进行去冗余处理后,得到了第二k-mer集,用第二k-mer集更新第一k-mer集。因为第二k-mer集,将冗余的k-mer从第一k-mer集中删除后,不需从第一k-mer集获取该冗余的k-mer,进而获取第一l-mer操作,所以本实施例APMS方法每一次都是从第一k-mer集获取k-mer,通过该k-mer获取第一l-mer,通过第一l-mer再构建二项树,通过二项树获取第二l-mer,然后通过该第二l-mer从第一k-mer集将冗余的k-mer去除,得到第二k-mer集,用第二k-mer集更新第一k-mer集,进而从更新后的第一k-mer集中获取k-mer,通过该k-mer获取第一l-mer,进行如上反复的流程。对于第一l-mer集,第一l-mer集中的每个第一l-mer构建二项树,计算二项树中每个结点的得分,将二项树中得分最高的结点作为该第一l-mer对应的第二l-mer,每个第一l-mer集中的第一l-mer对应存在一个第二l-mer,得到第二l-mer集。
步骤3、根据第一得分模型从第二l-mer集确定植入模体(l,d)。
具体地,对第二l-mer集中的第二l-mer按第一得分模型的得分,从高到低进行排序,输出该重新排序后的第二l-mer集,从而获取植入模体(l,d)。
请参见图3,图3为本发明实施例提供的一种DNA数据集植入模体搜索装置的结构示意图。本发明另一实施例提供的一种DNA数据集植入模体搜索装置,该装置包括:
数据获取模块,获取DNA序列大数据集、获取DNA序列大数据集的植入模体搜索参数;
数据处理模块,根据DNA序列大数据集、植入模体搜索参数得到第一k-mer集,根据第一k-mer集得到第一l-mer集,根据第一l-mer集得到第二l-mer集;
数据确定模块,根据第一得分模型从第二l-mer集确定植入模体。
本发明实施例提供的DNA数据集植入模体搜索装置装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
本发明再一实施例提供的一种计算机可读存储介质,其上存储有计算机程序,上述计算机程序被处理器执行时实现以下步骤:
获取DNA序列大数据集、获取DNA序列大数据集的植入模体搜索参数;
根据DNA序列大数据集、植入模体搜索参数得到第一k-mer集,根据第一k-mer集得到第一l-mer集,根据第一l-mer集得到第二l-mer集;
根据第一得分模型从第二l-mer集确定植入模体。
本发明实施例提供的计算机可读存储介质,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
为了说明本发明的优势,本实施例分别在模拟数据和真实数据上验证本发明APMS方法的优势。模拟数据主要用于通过与现有方法在运行时间的比较来测试APMS方法的效率,同时验证APMS方法能否找到植入模体(l,d);真实数据主要用于验证APMS方法的有效性,验证APMS方法能否在现实世界的生物数据中高效地找到真实的模体。
其中,在模拟数据上,为了进行综合性测试,本实施例中生成了三组模拟数据集,在三组模拟数据集下与现有方法相比,验证本方法APMS的优势。其中,选取比较的现有方法包括FMotif、PairMotifChIP和MEME-ChIP:FMotif是应对DNA序列大数据集的效率最高的精确PMS方法;PairMotifChIP是最新提出的能够应对DNA序列大数据集的近似PMS方法;MEME-ChIP是最有名的模体发现方法之一。
本实施例采用性能系数mPC来衡量预测模体(l,d)mp与植入模体(l,d)mk的相似性。其中,lenoverlap(mp,mk)表示预测模体(l,d)mp与植入模体(l,d)mk交叠的字符个数,mPC计算如下:
Figure GDA0002997852320000261
(1)第一组模拟数据集用于在具有不同模体(l,d)的数据上进行验证测试,其中,在DNA序列大数据集中,DNA序列条数t=3000,每条DNA序列的字符数n=200,第一组模拟数据机测试中植入模体(l,d)搜索占比为q=0.5,即第一组模拟数据集测试中需要的DNA序列的条数为3000*0.5=1500,保守性参数g=0.5,则在不同l和d取值下,比较APMS、FMotif、PairMotifChIP和MEME-ChIP方法。
表1、第一组模拟数据集上的比较结果
Figure GDA0002997852320000271
表1中,time表示运行时间,s表示秒,m表示分钟,h表示小时,N表示运行时间超过48小时而作不出预测。由表1可见,给定t,n,q,g,在不同l和d的取值下,APMS方法运行时间均比APMS、FMotif、PairMotifChIP和MEME-ChIP方法快。在l和d取值比较大的时候,FMotif方法存在运行时间超过48小时而作不出预测的情况;PairMotifChIP和MEME-ChIP方法在l和d有所增加时,运行时间相对比较稳定,虽然APMS方法的运行时间随着l和d增加而有所增加,但仍然是s级别,比PairMotifChIP方法运行时间快,比MEME-ChIP方法运行时间更快。
(2)第二组模拟数据集用于在模体信号强度不同的数据上进行验证测试:其中,在DNA序列大数据集中,DNA序列条数t=3000,每条DNA序列的字符数n=200,植入模体(l,d)=(15,5),在第二组模拟数据测试中植入模体(l,d)搜索占比q和保守性参数g在不同取值下,比较APMS、FMotif、PairMotifChIP和MEME-ChIP方法。其中,模体信号强度取决于q和g,q取值小和g取值大时,模体信号强度小;q取值大和g取值小时,模体信号强度大。
表2、第二组模拟数据集上的比较结果
Figure GDA0002997852320000281
表2中,time表示运行时间,s表示秒,m表示分钟,h表示小时,N表示运行时间超过48小时而作不出预测。由表2可见,给定t,n,l,d,在不同q和g的取值下,APMS方法运行时间均比APMS、FMotif、PairMotifChIP和MEME-ChIP方法快。在模体信号强度比较小时,FMotif方法存在运行时间超过48小时而作不出预测的情况;APMS、PairMotifChIP、MEME-ChIP方法运行时间相对比较稳定,APMS比PairMotifChIP方法运行时间快,比MEME-ChIP方法运行时间更快。
(3)第三组模拟数据集用于在不同规模的DNA序列大数据集上进行验证测试:每条DNA序列的字符数n=200,植入模体(l,d)=(15,5),在第三组模拟数据测试中植入模体(l,d)搜索占比q=0.5和保守性参数g=0.5,则在DNA序列条数t在不同取值下,比较APMS、FMotif、PairMotifChIP和MEME-ChIP方法。
表3、第三组模拟数据集上的比较结果
Figure GDA0002997852320000291
表3中,time表示运行时间,s表示秒,m表示分钟,h表示小时,N表示运行时间超过48小时而作不出预测。由表3可见,给定n,q,g,l,d,在不同t的取值下,APMS方法运行时间均比APMS、FMotif、PairMotifChIP和MEME-ChIP方法快。在DNA序列大数据集的数据比较大的时候,MEME-ChIP方法存在运行时间超过48小时而作不出预测的情况,PairMotifChIP方法运行时间增长的级别大于APMS方法。其中,因为FMotif限定处理的最大DNA序列数量集是3000,所以FMotif没有参与第三组数据集上的比较。
由表1、表2和表3可见,APMS方法在所有情况下都可以在最短的时间内完成植入模体(l,d)的预测,数量级地快速于FMotif、PairMotifChIP和MEME-ChIP方法。其中,对于所有方法,性能系数mPC的值均为1,说明它们都能精准地找出植入模体(l,d),主要是原因三组模拟数据集中含有的模体信息量相当充足,即使在模体信号强度很小的时候,仍然可以精准地找出植入模体(l,d)。
请参见图4,图4为本发明实施例提供的APMS、PairMotifChIP和MEME-ChIP方法在模拟数据的不同DNA序列下的比较结果意图。可见,APMS方法的运行时间随着DNA序列数量集的增大而大约呈线性增长,而PairMotifChIP的运行时间随着DNA序列数量集的增大大约呈平方级增长,而MEME-ChIP方法在DNA序列条数为12000已经存在运行时间超过48小时而作不出预测的情况。
其中,在真实数据上,本实施例采用老鼠胚胎干细胞(Mouse Embryonic StemCell,简称mESC)的ChIP-seq数据,该ChIP-seq数据是最为广泛地被用于验证模体搜索方法有效性的数据。mESC数据包含12组数据集(c-Myc、CTCF、Esrrb、Klf4、Nanog、n-Myc、Oct4、Smad1、Sox2、STAT3、Tcfcp2I1、Zfx),其中每一组数据集由ChIP-ed转录因子来命名。在APMS方法搜索模体时,对12组不同的数据集采用统一的植入模体(l,d)搜索参数,植入模体(l,d)=(13,4),植入模体(l,d)搜索占比q=0.3,保守性参数g=0.5,对于每个数据集,取前3000条DNA序列作为APMS方法的输入。
请参见图5,图5为本发明实施例提供的一种高效求解DNA序列大数据集植入模体搜索方法在真实数据的实验结果示意图。由图可见,对于每个数据集,图中展示了含有的DNA序列数量、运行时间、序列logo形式的公布模体和预测模体,其中,序列logo中上边的为公布模体,下边的为预测模体。对于每个数据集,通过比较预测模体和公布模体,可以发现APMS方法可以在12组数据集上找到与公布模体相似的预测模体;而且在所有数据集上的运行时间都在6分钟之内。
可见,APMS方法可以用于高效且有效地处理真实的DNA序列大数据集。
综上所述,APMS方法不管在模拟数据集,还是真实数据集,都可以高效且有效地处理DNA序列大数据集,APMS方法不仅能够成功地找出植入模体(l,d)或真实的模体,而且比现有植入模体(l,d)搜索方法运行快速得多,在模拟数据集中,可见,APMS方法运行时间随着DNA序列数据集规模的增大呈线性增长。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (8)

1.一种DNA数据集植入模体搜索方法,其特征在于,包括:
获取DNA序列大数据集、获取所述DNA序列大数据集的植入模体搜索参数,其中,所述DNA序列大数据集包括若干条DNA序列,每条DNA序列包括若干字符,所述植入模体搜索参数包括植入模体的长度l、植入模体的海明距离d;
根据所述DNA序列大数据集、所述植入模体搜索参数得到第一k-mer集,根据所述第一k-mer集得到第一l-mer集,根据所述第一l-mer集得到第二l-mer集,其中,所述第一k-mer集包括若干k-mer,每个k-mer包括k个字符,所述第一l-mer集包括若干第一l-mer,每个第一l-mer包括l个字符,所述第二l-mer集包括若干第二l-mer,每个第二l-mer包括l个字符;
根据第一得分模型从所述第二l-mer集确定所述植入模体;
其中,根据所述第一k-mer集得到所述第一l-mer集,包括:
从所述第一k-mer集中获取k-mer;
对所述DNA序列大数据集中的每个所述k-mer进行扩展处理,得到扩展的第一k-mer集;
根据第二得分模型对所述扩展的第一k-mer集进行去冗余处理,得到扩展的第二k-mer集,其中,第二得分模型用于对扩展的第一k-mer集中的每个扩展的第一k-mer进行评估,评估扩展的第一k-mer是否由背景序列组成;
对所述扩展的第二k-mer集进行截取处理,得到第一l-mer;
根据所述第一l-mer,得到所述第一l-mer集;
其中,根据所述第一l-mer集得到第二l-mer集,包括:
对所述第一l-mer集中的第一l-mer构建二项树;
根据所述第一得分模型对构建的所述二项树的所有结点计算得分,将所述得分最高的结点作为第二l-mer;
根据所述第二l-mer对所述第一k-mer集进行去冗余处理,得到第二k-mer集,所述第二k-mer集包括若干k-mer,每个k-mer包括k个字符;
根据所述第二k-mer集处理所述第一l-mer集,得到所述第二l-mer集;
其中,所述第一得分模型表示二项树模型中每个结点的得分,根据所述DNA序列大数据集、所述植入模体搜索 参数得到所述第一得分模型,包括:
从所述DNA序列大数据集中获取若干l-mer,每个l-mer包括l个字符;
根据所述若干l-mer与所述第一l-mer之间的海明距离,得到一排序队列;
根据所述排序队列得到所述第一得分模型。
2.根据权利要求1所述的方法,其特征在于,根据所述DNA序列大数据集、所述植入模体搜索参数得到第一k-mer集,包括:
获取长度k,根据所述长度k从所述DNA序列大数据集中获取若干k-mer;
获取第一阈值,根据所述第一阈值、所述k-mer得到所述第一k-mer集。
3.根据权利要求2所述的方法,其特征在于,获取所述长度k,包括:
根据所述DNA序列大数据集得到第一期望值;
根据所述DNA序列大数据集、所述植入模体搜索参数得到第二期望值;
根据所述第一期望值、所述第二期望值得到所述长度k。
4.根据权利要求3所述的方法,其特征在于,获取所述第一阈值,包括:
从所述DNA序列大数据集中获取DNA序列的数量;
根据所述第二期望值、所述DNA序列数量得到所述第一阈值。
5.根据权利要求1所述的方法,其特征在于,对所述扩展的第二k-mer集进行截取处理,得到第一l-mer,包括:
根据所述扩展的第二k-mer集得到比对序列;
根据预设规则对所述比对序列进行截取处理,得到所述第一l-mer。
6.根据权利要求2所述的方法,其特征在于,根据所述第二l-mer对所述第一k-mer集进行去冗余处理,得到第二k-mer集,包括:
从所述DNA序列大数据集中获取第四l-mer,所述第四l-mer包括l个字符;
获取第二l-mer的k-mer与第四l-mer的k-mer之间的第三期望值;
根据所述第三期望值判断第一k-mer集中的k-mer是否为冗余,当所述第一k-mer集中的k-mer与所述第二l-mer中的k-mer的海明距离d小于等于所述第三期望值,所述第一k-mer集中的k-mer为冗余,将k-mer从所述第一k-mer集中删除,得到所述第二k-mer集,否则将k-mer保留在所述第一k-mer集,得到所述第二k-mer集。
7.一种DNA数据集植入模体搜索装置,其特征在于,所述装置包括:
数据获取模块,获取DNA序列大数据集、获取所述DNA序列大数据集的植入模体搜索参数,其中,所述DNA序列大数据集包括若干条DNA序列,每条DNA序列包括若干字符,所述植入模体搜索参数包括植入模体的长度l、植入模体的海明距离d;
数据处理模块,根据所述DNA序列大数据集、所述植入模体搜索参数得到第一k-mer集,根据所述第一k-mer集得到第一l-mer集,根据所述第一l-mer集得到第二l-mer集,其中,所述第一k-mer集包括若干k-mer,每个k-mer包括k个字符,所述第一l-mer集包括若干第一l-mer,每个第一l-mer包括l个字符,所述第二l-mer集包括若干第二l-mer,每个第二l-mer包括l个字符;
数据确定模块,根据第一得分模型从所述第二l-mer集确定所述植入模体;
其中,所述数据处理模块,具体用于:
从所述第一k-mer集中获取k-mer;
对所述DNA序列大数据集中的每个所述k-mer进行扩展处理,得到扩展的第一k-mer集;
根据第二得分模型对所述扩展的第一k-mer集进行去冗余处理,得到扩展的第二k-mer集,其中,第二得分模型用于对扩展的第一k-mer集中的每个扩展的第一k-mer进行评估,评估扩展的第一k-mer是否由背景序列组成;
对所述扩展的第二k-mer集进行截取处理,得到第一l-mer;
根据所述第一l-mer,得到所述第一l-mer集;
其中,所述数据处理模块,还具体用于:
对所述第一l-mer集中的第一l-mer构建二项树;
根据所述第一得分模型对构建的所述二项树的所有结点计算得分,将所述得分最高的结点作为第二l-mer;
根据所述第二l-mer对所述第一k-mer集进行去冗余处理,得到第二k-mer集,所述第二k-mer集包括若干k-mer,每个k-mer包括k个字符;
根据所述第二k-mer集处理所述第一l-mer集,得到所述第二l-mer集;
其中,所述第一得分模型表示二项树模型中每个结点的得分,所述数据确定模块,具体用于:
从所述DNA序列大数据集中获取若干l-mer,每个l-mer包括l个字符;
根据所述若干l-mer与所述第一l-mer之间的海明距离,得到一排序队列;
根据所述排序队列得到所述第一得分模型。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法。
CN201910181475.8A 2019-03-11 2019-03-11 一种dna数据集植入模体搜索方法及其装置与存储介质 Active CN110059228B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910181475.8A CN110059228B (zh) 2019-03-11 2019-03-11 一种dna数据集植入模体搜索方法及其装置与存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910181475.8A CN110059228B (zh) 2019-03-11 2019-03-11 一种dna数据集植入模体搜索方法及其装置与存储介质

Publications (2)

Publication Number Publication Date
CN110059228A CN110059228A (zh) 2019-07-26
CN110059228B true CN110059228B (zh) 2021-11-30

Family

ID=67316070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910181475.8A Active CN110059228B (zh) 2019-03-11 2019-03-11 一种dna数据集植入模体搜索方法及其装置与存储介质

Country Status (1)

Country Link
CN (1) CN110059228B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933215B (zh) * 2020-06-08 2024-04-05 西安电子科技大学 一种转录因子结合位点搜索方法、***、存储介质、终端

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102651030A (zh) * 2012-04-09 2012-08-29 华中科技大学 一种基于gpu多序列比对算法的社交网络关联搜索方法
CN103995988A (zh) * 2014-05-30 2014-08-20 周家锐 一种高通量dna测序质量分数无损压缩***及压缩方法
CN107729762A (zh) * 2017-08-31 2018-02-23 徐州医科大学 一种基于差分隐私保护模型的dna闭频繁模体识别方法
CN108664807A (zh) * 2018-04-03 2018-10-16 徐州医科大学 基于随机采样及模体压缩的差分隐私dna模体识别的方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425900A (zh) * 2012-05-21 2013-12-04 上海聚类生物科技有限公司 一种基于统计显著性能快速识别基因组转录因子结合位点的***
CN103514381B (zh) * 2013-07-22 2016-05-18 湖南大学 整合拓扑属性和功能的蛋白质生物网络模体识别方法
US10339096B2 (en) * 2014-09-26 2019-07-02 British Telecommunications Public Limited Company Efficient pattern matching
US10726110B2 (en) * 2017-03-01 2020-07-28 Seven Bridges Genomics, Inc. Watermarking for data security in bioinformatic sequence analysis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102651030A (zh) * 2012-04-09 2012-08-29 华中科技大学 一种基于gpu多序列比对算法的社交网络关联搜索方法
CN103995988A (zh) * 2014-05-30 2014-08-20 周家锐 一种高通量dna测序质量分数无损压缩***及压缩方法
CN107729762A (zh) * 2017-08-31 2018-02-23 徐州医科大学 一种基于差分隐私保护模型的dna闭频繁模体识别方法
CN108664807A (zh) * 2018-04-03 2018-10-16 徐州医科大学 基于随机采样及模体压缩的差分隐私dna模体识别的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种新的DNA模体发现聚类求精算法;张懿璞;《西安电子科技大学学报》;20140404;第95-99页 *

Also Published As

Publication number Publication date
CN110059228A (zh) 2019-07-26

Similar Documents

Publication Publication Date Title
CN110070909B (zh) 一种基于深度学习的融合多特征的蛋白质功能预测方法
CN111192631A (zh) 用于构建用于预测蛋白质-rna相互作用结合位点模型的方法和***
CA2424031C (en) System and process for validating, aligning and reordering genetic sequence maps using ordered restriction map
CN107403075B (zh) 比对方法、装置及***
CN112232413A (zh) 基于图神经网络与谱聚类的高维数据特征选择方法
Kolpakov et al. Searching for gapped palindromes
CN112489723B (zh) 基于局部进化信息的dna结合蛋白预测方法
CN114093422B (zh) 一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法及其***
CN113539372A (zh) 一种LncRNA和疾病关联关系的高效预测方法
CN110059228B (zh) 一种dna数据集植入模体搜索方法及其装置与存储介质
CN110070908B (zh) 一种二项树模型的模体搜索方法、装置、设备与存储介质
Paul et al. Identification of weak motifs in multiple biological sequences using genetic algorithm
Orzechowski et al. Propagation-based biclustering algorithm for extracting inclusion-maximal motifs
CN111048145B (zh) 蛋白质预测模型的生成方法、装置、设备和存储介质
Gohardani et al. A multi-objective imperialist competitive algorithm (MOICA) for finding motifs in DNA sequences
US20040153307A1 (en) Discriminative feature selection for data sequences
CN117012282A (zh) 一种基于图注意力网络的rna-疾病相关性预测方法
CN109033746B (zh) 一种基于节点向量的蛋白质复合物识别方法
CN116153396A (zh) 一种基于迁移学习的非编码变异预测方法
CN109918659B (zh) 一种基于不保留最优个体遗传算法优化词向量的方法
Liu et al. Discovery of deep order-preserving submatrix in DNA microarray data based on sequential pattern mining
CN111755074A (zh) 一种酿酒酵母菌中dna复制起点的预测方法
CN111383710A (zh) 基于粒子群优化双子支持向量机的基因剪接位点识别模型构建方法
CN115910216B (zh) 一种基于机器学习识别基因组序列分类错误的方法和***
Hu et al. Detecting motifs from sequences

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant