CN101561845A - 一种染色体同线性同源区域的检测方法和*** - Google Patents

一种染色体同线性同源区域的检测方法和*** Download PDF

Info

Publication number
CN101561845A
CN101561845A CNA2008102183393A CN200810218339A CN101561845A CN 101561845 A CN101561845 A CN 101561845A CN A2008102183393 A CNA2008102183393 A CN A2008102183393A CN 200810218339 A CN200810218339 A CN 200810218339A CN 101561845 A CN101561845 A CN 101561845A
Authority
CN
China
Prior art keywords
gene
locus
fuzzy
collinearity
seat
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008102183393A
Other languages
English (en)
Inventor
李俊
白寅琪
李瑞强
王俊
杨焕明
汪建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Shenzhen Co Ltd
Original Assignee
BGI Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Shenzhen Co Ltd filed Critical BGI Shenzhen Co Ltd
Priority to CNA2008102183393A priority Critical patent/CN101561845A/zh
Publication of CN101561845A publication Critical patent/CN101561845A/zh
Priority to CN2009102524655A priority patent/CN101794346B/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明适用于基因工程领域,提供了一种染色体同线性同源区域的检测方法和***,所述方法包括下述步骤:将参考基因集中的所有参考基因定位到目标基因组上,构成基因拷贝座位;根据所述基因拷贝座位,将重叠的基因拷贝聚类到一起,形成模糊位点基因代表座位;根据所述模糊位点代表基因座位,利用动态规划模糊位点定位算法检测染色体的同线性同源区域。本发明实施例提供的染色体同线性同源区域的检测方法可自动检测到染色体同线性同源区域,且敏感度高,复杂度低,避免了目测时主观因素对染色体同线性同源区域检测的影响。

Description

一种染色体同线性同源区域的检测方法和***
技术领域
本发明属于基因工程领域,尤其涉及一种染色体同线性同源区域的检测方法和***。
背景技术
基因复制是指DNA片段在基因组中复制出一个或更多的拷贝,这种DNA片段可以是一小段基因组序列、整条染色体、甚至是整个基因组。基因复制是基因组进化最主要的驱动力之一,是产生具有新功能的基因和进化出新物种的主要原因之一。
基因复制现象广泛存在,据估计,酵母基因组在1亿年前发生过一次全基因组的复制。全基因复制现象在脊椎动物体内非常罕见,但是在植物体内却非常普遍。很多植物都在祖先阶段或是近期发生过全基因组复制,如双子叶植物中的祖先基因组复制事件和杨树近期的全基因组复制事件。从化石记录来看,被子植物是在地球上某一时期产生之后,迅速蔓延发展的。呈现出一系列突发的进化特点,包括产生新的组织结构,如原始花瓣,心皮和萼片等。一些研究结果显示,大豆、马铃薯、烟草都发生过近期的全基因组复制事件,而在玉米和葡萄中发生的全基因组复制事件却极其古老。现在人们期望能够通过人工选择农作物品种的基因复制,生产出具有快生长、产量高、个头大等特性的作物。
通过检测基因组序列的同线性同源区域,可以掌握物种基因复制事件。目前,检测基因组序列的同线性同源区域的方法主要是对完整的基因组序列同线性同源区域定位的直接观察(即采用目测的方式),其复杂程度如图4a所示,其中图4a中的每条线表示一对基因的同源关系。比如,拟南芥是第一个基因组完全测序植物,把具有同源关系的一对关系用一个点来代表,沿着染色体具有许多同线性同源区域,这就是全基因组复制的遗留物,然而,由于全基因组复制经常发生在几百万至几亿年之前,其产成的基因的快速和大规模缺失,以及后来又发生的其他复制事件(串联重复和随机转座事件),通过目测从点图或线图中(复杂程度参见图4a)去识别祖先发生的全基因组复制事件变得极其困难。如果在物种内部通过目测识别同线性同源区域已经足够困难的话,那么在物种之间进行同线性同源区域的识别就变得更为困难,而且在一些情况下是完全不可行的。
发明内容
本发明的目的在于提供一种染色体同线性同源区域的检测方法,旨在解决现有的采用目测方式检测染色体同线性同源区域时复杂度高、检测效率低的问题。
本发明是这样实现的,一种染色体同线性同源区域的检测方法,所述方法包括下述步骤:
将参考基因集中的所有参考基因定位到目标基因组上,构成基因拷贝座位;
根据所述基因拷贝座位,将重叠的基因拷贝聚类到一起,形成模糊位点基因代表座位;
根据所述模糊位点代表基因座位,利用动态规划模糊位点定位算法检测染色体的同线性同源区域。
本发明的另一目的在于提供一种染色体同线性同源区域检测***,所述***包括:
参考基因定位单元,用于将参考基因集中的所有参考基因定位到目标基因组上,构成基因拷贝座位;
基因拷贝聚类单元,用于根据所述参考基因定位单元得到的基因拷贝座位,将重叠的基因拷贝聚类到一起,形成模糊位点基因代表座位;
同线性检测单元,用于根据所述基因拷贝聚类单元得到的模糊位点代表基因座位,利用动态规划模糊位点定位算法检测染色体的同线性同源区域。
在本发明实施例中,通过将参考基因集中的参考基因定位到目标基因组上,得到基因拷贝座位,再将有重叠的基因拷贝聚类到一起,形成模糊位点代表基因座位,最后根据得到的模糊位点代表基因座位,利用动态规划模糊位点定位算法即可自动检测到染色体的同线性同源区域,且本发明实施例提供的检测方法敏感度高,复杂度低,避免了目测时主观因素对染色体同线性同源区域检测的影响。
附图说明
图1是本发明实施例提供的染色体同线性同源区域的检测方法的实现流程图;
图2是本发明实施例提供的将参考基因集中的所有参考基因定位到目标基因组上的示意图;
图3a是本发明实施例提供的原始的在两个染色体上的模糊位点代表基因座位的示意图;
图3b是本发明实施例提供的根据图3a所示的原始的在两个染色体上的模糊位点代表基因座位进行打分的实现示意图;
图3c是本发明实施例提供的根据图3b所示得打分过程得到的分值和打分路径示意图;
图3d是本发明实施例提供的根据图3c所示的最优打分路径得到的染色体同线性同源的基因示意图;
图4a是现有技术提供的通过目测方式检测染色体同线性同源区域的结果示意图;
图4b是本发明实施例提供的染色体同线性同源区域检测方法的检测结果示意图;
图5是本发明实施例提供的检测葡萄与杨树基因组所发生的全基因复制事件的效果图;
图6是本发明实施例提供的染色体同线性同源区域检测***的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明实施例中,将参考基因集中的参考基因定位到目标基因组上,得到基因拷贝座位,再将目标基因组上有重叠的基因拷贝聚类到一起,形成模糊位点代表基因座位,最后根据得到的模糊位点代表基因座位,利用动态规划模糊位点定位算法自动检测到染色体的同线性同源区域。
图1示出了本发明实施例提供的染色体同线性同源区域的检测方法的实现流程,详述如下:
在步骤S101中,将参考基因集中的所有参考基因定位到目标基因组上,构成基因拷贝座位。
在本发明实施例中,通过将参考基因集中的所有参考基因定位到目标基因组上,可以搜索到参考基因在目标基因组上的基因拷贝。当检测种内染色体之间的同线性同源区域时,采用物种内的两条染色体中的基因组作为目标基因组,采用物种自身的基因集作为参考基因集,即可敏感的搜索到所有基因拷贝;当检测物种之间染色体的同线性同源区域时,采用物种间的两个染色体中的基因组作为目标基因组,为了敏感的搜索到所有的基因拷贝,需要将两个物种的基因集混和起来作为参考基因集。
其中将参考基因集中的所有参考基因定位到目标基因组上的具体过程如图2所示,当参考基因集包括参考基因A和参考基因B时,则将参考基因A定位到目标基因组上时,参考基因A可以与目标基因组上的两个基因片段比对上,从而搜索到与参考基因A对应的基因拷贝;将参考基因B定位到目标基因组上时,参考基因B可以与目标基因组上的多个基因片段比对上,从而搜索到多个与参考基因B对应的基因拷贝。在本发明实施例中,可以直接通过NCBI-blast软件包中的tblastn把参考基因集定位到目标基因组上,以搜索基因拷贝。其中tblastn能够比对上低度同源的区域。在使用上述软件时,一般将期望值(e值)设置为1-10或者更小,其他参数采用默认值。
将参考基因集中的所有参考基因定位到目标基因组上,搜索到基因拷贝后,采用solar程序将一个参考基因在目标基因组上定位的相邻区域连接起来,构成该参考基因在对应的基因拷贝座位,对于参考基因集中的每个参考基因均进行上述过程,即可构成参考基因集在目标基因组上的基因拷贝座位。其中solar程序的过程简述如下:
将连续的小的比对片段,按照得到最大覆盖度(相对于基因长度)的原则,提出一些最佳组合的小片段,从而构成一个拷贝座位。如当A基因(长度为1000bp)在基因组上比对出来的三个片段是1-200bp(对应A基因的1-200bp)、100-220bp(对应A基因的100-220bp)和600-800bp(对应A基因上200-400bp),那么经过solar处理之后,去除掉了基本被片段1完全包含的2片段,最终保留了基因组的1-200bp,600-800bp两个片段,构成了A基因的一个基因拷贝座位。
利用solar处理多个参考基因的过程是独立的,就是说,用solar处理每个基因的座位的时候,和其他基因在基因组上的比对是没有关系的。
由于定位到目标基因组上的基因拷贝可能不完整或者可信度低,为了避免目标基因组上的不完整或者可信度低的基因拷贝造成的检测的运算复杂度大,检测效果不精确的问题,在本发明另一实施例中,在步骤S101之后还包括下述步骤:
在步骤S102中,计算基因拷贝覆盖对应的参考基因区域的百分含量,当该百分含量低于预设值时,过滤掉该基因拷贝座位。
其具体过程如下:计算基因拷贝覆盖对应的参考基因区域的百分含量,过滤掉百分含量低于预设值(如50%)的基因拷贝座位,以过滤掉不完整或者可信度低的基因拷贝。其中计算基因拷贝覆盖对应的参考基因区域的百分含量的过程如下:将定位到目标基因组上的基因片段投射到参考基因上,计算出该参考基因对应的基因拷贝覆盖整个参考基因的百分含量。
请参阅图2,如果参考基因A长1000bp,把参考基因A定位到1号染色体上,定位出两个区域,一个是染色体上1-305bp(对应参考基因A的1-300bp,长度差异为碱基的***删除导致),另一个是染色体上1001-1300bp(对应参考基因A上299-600bp),这样,将所有定位区域(1-300bp和299-600bp)投射到参考基因A上,即为1-600bp定位到1号染色体的1-1300bp这个区间,则该参考基因A对应的基因拷贝覆盖参考基因A的百分比为:600/1000=60%,因此,参考基因A对应的基因拷贝座位是完整的;当该百分比小于50%时,则参考基因A对应的基因拷贝座位为不完整的或者可信度低的,将被过滤掉。
在步骤S103中,根据基因拷贝座位,将目标基因组上重叠的基因拷贝聚类到一起,形成模糊位点基因代表座位。
由于同源基因在基因组上的拷贝存在着重叠区域甚至完全重叠的情况,所以在本发明实施例中,采用perl脚本对基因拷贝进行位置判断,检测重叠的基因拷贝,当重叠区域占每个重叠的基因拷贝的百分比大于预设值时,将重叠的基因拷贝聚合到一起,形成模糊位点代表基因座位,每个模糊位点代表基因座位表示与一个或者多个基因同源。
举例说明如下:如果参考基因A定位到了1号染色体的1Kbp至3Kbp区域,而参考基因B定位到1号染色体的1.2Kbp至3.3Kbp区域,则二者的重叠区域是1.2Kbp至3Kbp,总长为1.8Kbp,当重叠区域占两个参考基因对应的基因拷贝的百分比均大于预设值(如50%)时,则将两个参考基因对应的基因拷贝聚合到一起,形成模糊位点代表基因座位,由于重叠区域占参考基因A对应的基因拷贝的百分比为:1.8/(3-1)=90%,重叠区域占参考基因B对应的基因拷贝的百分比为:1.8/(3.3-1.2)=86%,均大于50%。按照每相邻两个基因拷贝至少有50%的重叠区域(相对于较短的基因拷贝来说)才会聚到一起的原则,把所有的满足上述条件的基因拷贝聚合到一起,形成模糊位点代表基因座位,如1号染色体上的1Kbp至3.3Kbp的模糊位点代表基因座位就是A/B,每个模糊位点代表基因座位至少和一个基因同源,同时可以和多个基因同源。经上述步骤处理后,原始的在两个染色体上的模糊位点代表基因座位的效果如图3a所示。
在步骤S104中,根据得到的模糊位点代表基因座位,利用动态规划模糊位点定位算法检测染色体的同线性同源区域。
其中利用动态规划模糊位点定位算法检测染色体的同线性同源区域的具体步骤如下:将两条染色体上的模糊位点代表基因座位中的每连续预设个(该预设个可以根据经验进行设定,如10个或者其他数量个)模糊位点代表基因座位作为一组,将整个染色体拆分为若干小的片段,然后利用动态规划模糊位点比对算法对每组模糊位点代表基因座位中的两两模糊位点代表基因座位进行比对,并根据比对结果进行打分,得到打分路径。当某组模糊位点代表基因座位存在分值超过预设分值的打分路径时,则认为在染色体的该组模糊位点代表基因座位区域检测到染色体的同线性同源区域,否则认为在染色体的该组模糊位点代表基因座位区域未检测到染色体的同线性同源区域。
其中打分的原则可以根据经验设置,在本发明实施例中,打分原则为当两个模糊位点代表基因座位具有相同的基因(称为匹配)时,则得2分;当两个模糊位点代表基因座位不具有相同的基因(称为错配)时,则得-3分;当相邻模糊位点代表基因座位之间需添加一个虚拟的座位才能令前后比对一致(称为空位)时,则得-1分。
请参阅图3b和图3c,其中图3b为根据图3a所示的原始的在两个染色体上的模糊位点代表基因座位进行打分的过程,图3c为根据图3b所示得打分过程得到的分值和打分路径示意图。将一条染色体上的模糊位点代表基因座位A/B与另一条染色体上的模糊位点代表基因座位A/T进行比对,由于两个模糊位点代表基因座位包括相同的基因A(即匹配),从而得2分;由于一条染色体上的相邻两个模糊位点代表基因座位A/B和C之间需要添加一个虚拟的座位才能令模糊位点代表基因座位A/B和A/T的比对结果与模糊位点代表基因座位C和C/S的比对结果一致,从而得-1分;将得到的分值累加得到分值为1分。根据上述原理,即可根据图3b所示的打分过程得到图3c所示的打分路径,包括多条打分路径,其中分值最高的打分路径为最优路径。
当根据上述动态规划模糊位点定位算法得到的打分路径中至少有一条路径的分值高于预设分值(如6分)时,则认为在染色体的上述区域(从其中一条染色体的模糊位点代表基因座位A/B到模糊位点代表基因座位J/K/L与另一条染色体的模糊位点代表基因座位A/T到模糊位点代表基因座位K的区域内)检测到同线性同源区域,否则认为在染色体的上述区域内未检测到同线性同源区域。
一般来说,根据每连续预设个模糊位点代表基因座位,采用动态规划模糊位点定位算法就已经可以检测倒染色体同线性同源区域,但考虑到预设个数的模糊位点代表基因座位中的基因拷贝不足以代表整个染色体的复制,如当将每10个模糊位点代表基因座位中的基因拷贝作为一组进行同线性同源区域的检测时,由于10个模糊位点代表基因座位中的基因拷贝跨越的基因组范围一般为100Kbp到1M,这不足以代表整个染色体的复制,为了使染色体同线性同源区域的检测结果更接近实际结果,在本发明另一实施例中,该方法还包括下述步骤:
将每组模糊位点代表基因座位作为一个新的座位,并将每组模糊位点代表座位的最优打分路径的分值作为新的座位的分值,采用动态规划模糊位点定位算法在每连续预设个新的座位区域检测染色体的同线性同源区域。
在本发明实施例中,当将每组模糊位点代表基因座位作为一个新的座位时,将该组模糊位点代表基因座位的最优路径的得分值作为该新的座位的分值。
如将连续预设个模糊位点代表基因座位ABCDEFGH定义为新的座位,命名为1a,且将连续预设个模糊位点代表基因座位ABCDEFGH经步骤S104后得到的最优路径的分值作为该新的座位A’的分值,这样,可以将步骤S104后得到的连续预设个模糊位点代表基因座位都定义为新的座位,再采用动态规划模糊位点比对算法从染色体的每连续预设个新的座位区域检测染色体的同线性同源区域。
当在染色体的上述区域内检测到同线性同源区域时,为了得到染色体上述区域内具体的哪些基因之间是同线性同源的,在本发明另一实施例中,该方法还包括下述步骤:
根据动态规划模糊位点定位算法得到的最优打分路径得到染色体同线性同源的基因。
当根据动态规划模糊位点定位算法得到的打分路径如图3c所示,其中箭头标记为最优打分路径,纵向箭头表示包括横向的模糊位点代表基因座位的染色体序列需加一个空位(用“-”代替),横向街头表示包括纵向的模糊位点代表基因座位的染色体序列需加一个空位,对角线走向的箭头代表匹配或者错配。则根据图3c所示的最优打分路径得到的染色体同线性同源的基因如图3d所示。
由于染色体经常发生倒置现象,如座位顺序为A、B、C发生倒置后就变成座位顺序为C、B、A了,为了使染色体同线性同源区域的检测结果更加精确,在本发明另一实施例中,该方法还包括下述步骤:
将染色体上的模糊位点代表基因座位进行倒序操作,并重新执行步骤S104检测染色体同线性同源区域。
本发明实施例提供的染色体同线性同源区域的检测方法的检测结果如图4b所示,与图4a所示的通过目测检测染色体同线性同源区域的结果相比较,复杂度明显下降,同时避免了目测时主观因素对染色体同线性同源的判断的影响。
请参阅图5,为采用染色体同线性同源区域检测方法检测葡萄与杨树基因组所发生的全基因复制事件的效果图。其中编号为1、2、3的染色体分别为葡萄的6、8、13号染色体,编号为P1到P13的染色体分别为杨树的1-19号染色体。图中的每条线表示一对同线性同源区域。因为葡萄染色体(图中1,2,3号)中有相当多区域都能比对到杨树4个区域,即1对4的关系,说明在杨树和葡萄分化之后,杨树又发生了两次全基因组复制(2*2)。
图6示出了本发明实施例提供的染色体同线性同源区域检测***的结构,为了便于说明,仅示出了与本发明实施例相关的部分。其中:
参考基因定位单元61将参考基因集中的所有参考基因定位到目标基因组上,构成基因拷贝座位。当检测种内染色体之间的同线性同源区域时,采用物种内的两条染色体中的基因组作为目标基因组,采用物种自身的基因集作为参考基因集,即可敏感的搜索到所有基因拷贝;当检测物种之间染色体的同线性同源区域时,采用物种间的两个染色体中的基因组作为目标基因组,为了敏感的搜索到所有的基因拷贝,需要将两个物种的基因集混和起来作为参考基因集。
基因拷贝聚类单元62将定位到目标基因组上重叠的基因拷贝聚类到一起,形成模糊位点基因代表座位。由于同源基因在基因组上的拷贝存在着重叠区域甚至完全重叠的情况,所以在本发明实施例中,采用perl脚本对基因拷贝进行位置判断,并将有重叠的基因拷贝聚合到一起,形成模糊位点代表基因座位,每个模糊位点代表基因座位表示与一个或者多个基因同源。其具体实现流程如上,在此不再赘述。
同线性检测单元63根据得到的模糊位点代表基因座位,利用动态规划模糊位点定位算法检测染色体的同线性同源区域。该同线性检测单元63包括基因座位分组模块631、基因座位比对模块632和同线性判断模块633。
其中基因座位分组模块631将两条染色体上的模糊位点代表基因座位中每连续预设个模糊位点代表基因座位作为一组,将整个染色体拆分为若干小的片段。
基因座位比对模块632利用动态规划模糊位点比对算法对每组模糊位点代表基因座位中的两两模糊位点代表基因座位进行比对,并根据比对结果和预设的打分原则进行打分,得到对应的打分路径。
同线性判断模块633在染色体的一组区域内至少有一条打分路径的分值超过预设分值时,判定在染色体的所述组区域检测到染色体的同线性同源区域,否则认为在染色体的所述组区域未检测到染色体的同线性同源区域。其具体过程如上所述,在此不再赘述。
一般来说,根据每组预设个模糊位点代表基因座位,采用动态规划模糊位点定位算法就已经可以检测倒染色体同线性同源区域,但考虑到一组模糊位点代表基因座位中的基因拷贝不足以代表整个染色体的复制,如当将每10个模糊位点代表基因座位中的基因拷贝作为一组进行同线性同源区域的检测时,由于10个模糊位点代表基因座位中的基因拷贝跨越的基因组范围一般为100Kbp到1M,这不足以代表整个染色体的复制,为了使染色体同线性同源区域的检测结果更接近实际结果,在本发明另一实施例中,该***还包括基因座位重定义单元64,其将基因座位分组模块631得到的每组模糊位点代表基因座位定义为一个新的座位,并将基因座位比对模块632得到的每组模糊位点代表座位的最优打分路径的得分值作为新的座位的分值。此时,同线性检测单元63还用于根据基因座位重定义单元64重新定义的新的座位,采用动态规划模糊位点定位算法在每连续预设个新的座位检测染色体的同线性同源区域。
当同线性检测单元63在染色体的每组模糊位点代表基因座位区域内检测到同线性同源区域,或者在染色体的每连续预设个新的座位区域内检测到同线性同源区域时,为了得到染色体上述区域内具体的哪些基因之间是同线性同源的,在本发明另一实施例中,该***还包括同线性基因确定单元65,其根据动态规划模糊位点定位算法得到的最优打分路径得到染色体同线性同源的基因。
当根据动态规划模糊位点定位算法得到的打分路径如图3c所示,其中箭头标记为最优打分路径,纵向箭头表示包括横向的模糊位点代表基因座位的染色体序列需加一个空位(用“-”代替),横向街头表示包括纵向的模糊位点代表基因座位的染色体序列需加一个空位,对角线走向的箭头代表匹配或者错配。则根据图3c所示的最优打分路径得到的染色体同线性同源的基因如图3d所示。
由于染色体经常发生倒置现象,如座位顺序为A、B、C发生倒置后就变成座位顺序为C、B、A了,为了使染色体同线性同源区域的检测结果更加精确,在本发明另一实施例中,该***还包括基因座位倒置单元66,其将基因拷贝聚类单元62得到染色体上的模糊位点代表基因座位进行倒序操作。在进行倒序操作后,同线性检测单元63重新检测染色体同线性同源区域。
由于定位到目标基因组上的基因拷贝可能不完整或者可信度低,为了避免目标基因组上的不完整或者可信度低的基因拷贝造成的检测的运算复杂度大,检测效果不精确的问题,在本发明另一实施例中,基因拷贝过滤单元67,其当参考基因对应的基因拷贝覆盖该参考基因区域的百分含量低于预设值时,过滤掉该参考基因对应的基因拷贝座位。过滤的具体过程如下:计算参考基因对应的基因拷贝覆盖该参考基因区域的百分含量,过滤掉百分含量低于预设值(如50%)的基因拷贝的座位信息,以过滤掉不完整或者可信度低的基因拷贝。其中计算参考基因对应的基因拷贝覆盖该参考基因区域的百分含量的过程如下:将定位到目标基因组上的基因片段投射到参考基因上,计算出覆盖整个参考基因的百分含量。
在本发明实施例中,通过将参考基因集中的参考基因定位到目标基因组上,得到基因拷贝座位,再将有重叠的基因拷贝聚类到一起,形成模糊位点代表基因座位,最后根据得到的模糊位点代表基因座位,利用动态规划模糊位点定位算法即可自动检测到染色体的同线性同源区域,且本发明实施例提供的检测方法敏感度高,复杂度下降,避免了目测时主观因素对染色体同线性同源的判断的影响;同时本发明实施例通过过滤掉不完整或者可信度低的基因拷贝,从而降低了检测时的运算量,提高了检测准确性;另外本发明实施例在进行第一轮检测后,将第一轮的检测结果作为新的座位,进行第二轮检测,从而进一步提高了染色体同线性同源区域的检测准确性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (14)

1、一种染色体同线性同源区域的检测方法,其特征在于,所述方法包括下述步骤:
将参考基因集中的所有参考基因定位到目标基因组上,构成基因拷贝座位;
根据所述基因拷贝座位,将重叠的基因拷贝聚类到一起,形成模糊位点基因代表座位;
根据所述模糊位点代表基因座位,利用动态规划模糊位点定位算法检测染色体的同线性同源区域。
2、如权利要求1所述的方法,其特征在于,在所述将参考基因集中的所有参考基因定位到目标基因组上,构成基因拷贝座位的步骤之后,所述方法还包括下述步骤:
计算参考基因对应的基因拷贝覆盖所述参考基因区域的百分含量,并在所述百分含量低于预设值时,过滤掉所述参考基因对应的基因拷贝座位。
3、如权利要求1所述的方法,其特征在于,所述根据所述基因拷贝座位,将重叠的基因拷贝聚类到一起,形成模糊位点基因代表座位的步骤具体为:
根据所述基因拷贝座位检测重叠的基因拷贝;
当重叠区域占每个重叠的基因拷贝的百分比均大于预设值时,将重叠的基因拷贝聚类到一起,形成模糊位点基因代表座位。
4、如权利要求1所述的方法,其特征在于,所述根据所述模糊位点代表基因座位,利用动态规划模糊位点定位算法检测染色体的同线性同源区域的步骤具体为:
将所述模糊位点代表基因座位中每连续预设个模糊位点代表基因座位作为一组;
利用动态规划模糊位点比对算法对每组模糊位点代表基因座位中的两两模糊位点代表基因座位进行比对,并根据比对结果和预设的打分原则进行打分,得到对应的打分路径;
当染色体的一组区域内至少有一条打分路径的分值超过预设分值时,则认为在染色体的所述组区域检测到染色体的同线性同源区域,否则认为在染色体的所述组区域未检测到染色体的同线性同源区域。
5、如权利要求4所述的方法,其特征在于,所述比对结果包括匹配、错配和空位,所述预设的打分原则为如果比对结果为匹配,则得2分;如果比对结果为错配,则得-1分;如果比对结果为错配,则得-3分。
6、如权利要求4所述的方法,其特征在于,所述方法还包括下述步骤:
将每组模糊位点代表基因座位作为一个新的座位,并将每组模糊位点代表座位的最优打分路径的得分值作为新的座位的分值;
采用动态规划模糊位点定位算法检测染色体的每连续预设个新的座位区域中的同线性同源区域。
7、如权利要求4所述的方法,其特征在于,所述方法还包括下述步骤:
根据所述打分路径中的最优打分路径得到染色体同线性同源的基因。
8、如权利要求1至4任一权利要求所述的方法,其特征在于,所述方法还包括下述步骤:
将染色体上的模糊位点代表基因座位进行倒序操作;
采用动态规划模糊位点定位算法检测染色体的每连续预设个模糊位点代表基因座位区域中的同线性同源区域。
9、一种染色体同线性同源区域检测***,其特征在于,所述***包括:
参考基因定位单元,用于将参考基因集中的所有参考基因定位到目标基因组上,构成基因拷贝座位;
基因拷贝聚类单元,用于根据所述参考基因定位单元得到的基因拷贝座位,将重叠的基因拷贝聚类到一起,形成模糊位点基因代表座位;
同线性检测单元,用于根据所述基因拷贝聚类单元得到的模糊位点代表基因座位,利用动态规划模糊位点定位算法检测染色体的同线性同源区域。
10、如权利要求9所述的***,其特征在于,所述***还包括:
基因拷贝过滤单元,用于计算参考基因对应的基因拷贝覆盖所述参考基因区域的百分含量,并在所述百分含量低于预设值时,过滤掉所述参考基因对应的基因拷贝座位。
11、如权利要求9所述的***,其特征在于,所述同线性检测单元包括:
基因座位分组模块,用于将所述模糊位点代表基因座位中每连续预设个模糊位点代表基因座位作为一组;
基因座位比对模块,用于利用动态规划模糊位点比对算法对每组模糊位点代表基因座位中的两两模糊位点代表基因座位进行比对,并根据比对结果和预设的打分原则进行打分,得到对应的打分路径;
同线性判断模块,用于在染色体的一组区域内至少有一条打分路径的分值超过预设分值时,判定在染色体的所述组区域检测到染色体的同线性同源区域,否则认为在染色体的所述组区域未检测到染色体的同线性同源区域。
12、如权利要求11所述的***,其特征在于,所述***还包括:
基因座位重定义单元,用于将所述基因座位分组模块得到的每组模糊位点代表基因座位作为一个新的座位,并将所述基因座位比对模块得到的每组模糊位点代表座位的最优打分路径的得分值作为新的座位的分值;此时,
所述同线性检测单元还用于根据所述基因座位重定义单元重新定义的新的座位,采用动态规划模糊位点定位算法检测染色体的每连续预设个新的座位区域内的同线性同源区域。
13、如权利要求11所述的***,其特征在于,所述***还包括:
同线性基因确定单元,用于根据所述基因座位比对模块得到的打分路径中的最优打分路径得到染色体同线性同源的基因。
14、如权利要求9所述的***,其特征在于,所述***还包括:
基因座位倒置单元,用于将染色体上的模糊位点代表基因座位进行倒序操作;此时,
所述同线性检测单元重新采用动态规划模糊位点定位算法检测染色体的每连续预设个模糊位点代表基因座位区域中的同线性同源区域。
CNA2008102183393A 2008-12-12 2008-12-12 一种染色体同线性同源区域的检测方法和*** Pending CN101561845A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CNA2008102183393A CN101561845A (zh) 2008-12-12 2008-12-12 一种染色体同线性同源区域的检测方法和***
CN2009102524655A CN101794346B (zh) 2008-12-12 2009-12-11 一种染色体同线性同源区域的检测方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2008102183393A CN101561845A (zh) 2008-12-12 2008-12-12 一种染色体同线性同源区域的检测方法和***

Publications (1)

Publication Number Publication Date
CN101561845A true CN101561845A (zh) 2009-10-21

Family

ID=41220647

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008102183393A Pending CN101561845A (zh) 2008-12-12 2008-12-12 一种染色体同线性同源区域的检测方法和***

Country Status (1)

Country Link
CN (1) CN101561845A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101930502A (zh) * 2010-09-03 2010-12-29 深圳华大基因科技有限公司 表型基因的检测及生物信息分析的方法及***
WO2014183270A1 (zh) * 2013-05-15 2014-11-20 深圳华大基因科技有限公司 一种检测染色体结构异常的方法及装置
CN109887547A (zh) * 2019-03-06 2019-06-14 苏州浪潮智能科技有限公司 一种基因序列比对滤波加速处理方法、***及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101930502A (zh) * 2010-09-03 2010-12-29 深圳华大基因科技有限公司 表型基因的检测及生物信息分析的方法及***
CN101930502B (zh) * 2010-09-03 2011-12-21 深圳华大基因科技有限公司 表型基因的检测及生物信息分析的方法及***
WO2014183270A1 (zh) * 2013-05-15 2014-11-20 深圳华大基因科技有限公司 一种检测染色体结构异常的方法及装置
CN104302781A (zh) * 2013-05-15 2015-01-21 深圳华大基因科技有限公司 一种检测染色体结构异常的方法及装置
CN104302781B (zh) * 2013-05-15 2016-09-14 深圳华大基因股份有限公司 一种检测染色体结构异常的方法及装置
US11004538B2 (en) 2013-05-15 2021-05-11 Bgi Genomics Co., Ltd. Method and device for detecting chromosomal structural abnormalities
CN109887547A (zh) * 2019-03-06 2019-06-14 苏州浪潮智能科技有限公司 一种基因序列比对滤波加速处理方法、***及装置

Similar Documents

Publication Publication Date Title
Clark et al. A footprint of past climate change on the diversity and population structure of Miscanthus sinensis
CN105740650B (zh) 一种快速准确鉴定高通量基因组数据污染源的方法
Grimm et al. ITS evolution in Platanus (Platanaceae): homoeologues, pseudogenes and ancient hybridization
Bossa‐Castro et al. Allelic variation for broad‐spectrum resistance and susceptibility to bacterial pathogens identified in a rice MAGIC population
Duitama et al. Improved linkage analysis of Quantitative Trait Loci using bulk segregants unveils a novel determinant of high ethanol tolerance in yeast
Mancera et al. Evolution of the complex transcription network controlling biofilm formation in Candida species
CN103388025A (zh) 基于克隆dna混合池的全基因组测序方法
CN101561845A (zh) 一种染色体同线性同源区域的检测方法和***
Hu et al. Cascade of chromosomal rearrangements caused by a heterogeneous T‐DNA integration supports the double‐stranded break repair model for T‐DNA integration
CN107862863A (zh) 一种交通数据质量提升的方法及装置
CN105404793A (zh) 基于概率框架和重测序技术快速发现表型相关基因的方法
Brown et al. Efficient strategies for genomic searching using the affected-pedigree-member method of linkage analysis.
Willi et al. Demographic processes linked to genetic diversity and positive selection across a species' range
CN101794346B (zh) 一种染色体同线性同源区域的检测方法和***
JP2006039786A (ja) プラントデータ評価システムと方法、復水器真空度監視方法、データマイニング方法、および、プログラム
CN109949866A (zh) 病原体操作组的检测方法、装置、计算机设备和存储介质
Zhou et al. Genetic structure and recent population demographic history of Taihangshan macaque (Macaca mulatta tcheliensis), North China
CN107784198A (zh) 一种二代序列和三代单分子实时测序序列联合组装方法和***
Njuguna et al. Genetic diversity of diploid Japanese strawberry species based on microsatellite markers
CN110021365A (zh) 确定检测靶点的方法、装置、计算机设备和存储介质
CN108229100A (zh) Dna重排区域及相应rna产物检测方法、设备以及存储介质
CN106023225A (zh) 生物样本显微成像的自动修改成像区间方法
CN103184275A (zh) 一种水稻基因组基因标识的新方法
CN109768545A (zh) 一种基于Vague集的黑启动方案优选方法
JP2007049126A (ja) 半導体ウエハ上の局所性不良を検出するテスト方法及びこれを用いるテストシステム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication