CN102724997A

CN102724997A - 在原核细胞中产生免疫原性多糖的生物合成***

Info

Publication number: CN102724997A
Application number: CN201080061239XA
Authority: CN
Inventors: M·瓦克; 查尔斯·韦克特
Original assignee: Glycovaxyn AG
Current assignee: GlaxoSmithKline Biologicals SA
Priority date: 2009-11-19
Filing date: 2010-11-16
Publication date: 2012-10-10
Anticipated expiration: 2030-11-16
Also published as: IL219733A; AU2010322454A1; PL2501406T3; JP5968784B2; EP2501406B1; JP2017018098A; CA2780487C; HUE038456T2; AU2010322454B2; US9764018B2; HRP20180338T1; EP2501406B8; EP2501406A1; PT2501406T; IL219733A0; CN102724997B; EP2501406A4; WO2011062615A1; KR20120102086A; SI2501406T1

Abstract

本发明涉及包含N-糖基化蛋白的生物缀合物疫苗。此外，本发明涉及一种重组原核生物合成***，包含编码差向异构酶的核酸，该差向异构酶合成在还原末端具有N-乙酰基半乳糖胺的寡糖或多糖。本发明还涉及含有在还原末端具有N-乙酰基半乳糖胺的寡糖或多糖的N-糖基化蛋白及用于产生这类N-糖基化蛋白的表达***和方法。

Description

在原核细胞中产生免疫原性多糖的生物合成***

相关申请的交叉引用

根据35 U.S.C.§119(e)，本申请要求于2009年11月19日提交的美国临时专利申请第61/272,931号的权益，该美国临时专利申请通过引用其全部结合到本文中。

发明领域

本发明涉及生物合成***和蛋白质在制备疫苗中的应用。另外，本发明涉及重组原核生物合成***，该***具有启动在还原末端具有特定单糖的寡糖或多糖(oligo- or polysaccharide)的合成的差向异构酶。本发明还涉及在表达***中用聚糖产生的N-糖基化蛋白及由包含免疫原性聚糖的所述N-糖基化蛋白制成的生物缀合物疫苗（bioconjugate vaccines），并且提供用于产生N-糖基化蛋白的方法。

发明背景

糖蛋白是具有一个或多个共价连接的糖聚合体的蛋白质。N-联蛋白质糖基化是在真核生物的内质网中发生的一种必需和保守的过程。它对于分泌蛋白和膜蛋白的蛋白质折叠、寡聚化、稳定性、质量控制、分选(sorting)和转运来说是十分重要的(Helenius,A.和Aebi,M.(2004).Roles of N-linked glycans in the endoplasmic reticulum(N-联聚糖在内质网中的作用).Annu.Rev.Biochem.73,1019-1049)。

蛋白质糖基化对于蛋白质的免疫原性、稳定性和半寿期具有深远的影响。另外，糖基化可有助于蛋白质的纯化，即利用与固相结合并与蛋白质的糖基化部分相互作用的凝集素配体进行层析(例如亲和层析)来纯化蛋白质。因此，为了提供生物学和药学上有用的糖基化模式，惯例是在真核细胞中重组产生许多糖基化蛋白。

WO 2003/07467(Aebi等人)证明了经食物传播的病原体空肠弯曲杆菌(Campylobacter jejuni)(它是一种细菌)可以使其蛋白质N-糖基化，除了古生菌(archaea)的某些种以外，在已知的原核生物中，这是一种独特的特征。糖基化所需要的机器由12个基因编码，这12个基因在所谓的pgl基因座中是成簇的。N-糖基化的破坏会影响空肠弯曲杆菌(C.jejuni)的侵袭和致病机制但并不是致死的，正如在大多数真核生物中(Burda P.和M.Aebi,(1999).The dolichol pathway of N-linkedglycosylation(N-联糖基化的多萜醇途径).Biochem Biophys Acta1426(2):239-57)。在大肠杆菌(E.coli)中通过同时重组表达pgl基因座和受体糖蛋白来重建空肠弯曲杆菌蛋白的N-糖基化是可能的(Wacker等人(2002).N-linked glycosylation in Campylobacter jejuni and itsfunctional transfer into E.coli(空肠弯曲杆菌中的N-联糖基化及其功能性转移到大肠杆菌中).Science 298,1790-1793)。

N-聚糖具有一种与蛋白质中的共有序列连接的聚糖。蛋白质中已知的N-糖基化共有序列允许原核生物中重组靶蛋白的N-糖基化。这类生物体包含寡糖基转移酶(“OT”;“OTase”)，例如空肠弯曲杆菌的寡糖基转移酶，寡糖基转移酶是一种将聚糖转移到蛋白质的共有序列上的酶。

WO 2003/07467(Aebi等人)教导了一种被导入了编码以下(i)、(ii)和(iii)的核酸的原核生物：(i)在脂质载体上装配寡糖的特定糖基转移酶，(ii)包含共有序列“N-X-S/T”的重组靶蛋白，其中X可以为除脯氨酸以外的任何氨基酸，和(iii)寡糖基转移酶，例如将所述寡糖与靶蛋白的共有序列共价连接的空肠弯曲杆菌寡糖基转移酶。所述原核生物产生具有由特定糖基转移酶类型限定的特定结构的N-聚糖。

WO 2006/119987(Aebi等人)描述了用于在原核生物体内(in vivo)高效N-糖基化的蛋白质，以及高效产生N-糖基化蛋白质的手段(means)和方法。它进一步描述了将N-聚糖有效引入到重组蛋白中以改变所述蛋白的免疫原性、稳定性、生物活性、预防和/或治疗活性，并且提供了在其表面有效地展示本发明的重组N-糖基化蛋白的宿主细胞。另外，它描述了一种重组N-糖基化蛋白，其包含以下N-糖基化最优化氨基酸序列中的一个或多个：

D/E-X-N-Z-S/T(最优化共有序列),

其中X和Z可以为除Pro以外的任何天然氨基酸，并且其中所述N-糖基化部分氨基酸序列中的至少一个被引入。将特定部分氨基酸序列(最优化共有序列)引入到蛋白质会导致产生在这些引入的位置中被寡糖基转移酶有效地N-糖基化的蛋白质。

不同多糖的生物合成在细菌细胞中是保守的。多糖在载体脂质(carrier lipid)上从细胞质膜上的共同前体(活化糖核苷酸)由具有确定特异性的不同糖基转移酶进行装配。脂多糖(“LPS”)仅在革兰氏阴性菌例如志贺氏菌(Shigella spp.)、假单胞菌(Pseudomonas spp.)和大肠杆菌(E.coli)(ExPEC,EHEC)中提供。

LPS的合成始于在膜的细胞质一侧将单糖添加到载体脂质十一异戊二烯基磷酸(undecaprenyl phosphate,“Und-P-P”)上。通过不同糖基转移酶序贯添加来自活化糖核苷酸的单糖构建抗原，而脂质-连接的多糖通过翻转酶(flippase)穿过膜转向。抗原-重复单位通过酶反应进行聚合。然后多糖通过连接酶(Ligase)WaaL转移到脂质A，形成LPS，再输出到表面，而荚膜多糖在聚合后从载体脂质中释放出来并输出到表面。这些多糖的生物合成途径使得LPS生物缀合物能够在体内(invivo)产生，俘获周质中的多糖到蛋白载体。

寡糖或多糖(即糖残基)和蛋白(即蛋白载体)的这类合成复合物可以用作缀合物疫苗以抵抗多种细菌感染。缀合物疫苗已经成功地用于抵抗细菌感染。抗原性多糖与蛋白载体的缀合需要保护性记忆应答，因为多糖是不依赖T-细胞的免疫原。利用多糖以及蛋白载体中的活化反应基团，通过不同的化学方法已经使多糖与蛋白载体缀合。

缀合物疫苗可以给予儿童以抵抗细菌感染并且也可以给成年人提供长时间持续的免疫应答。WO 2009/104074(Fernandez等人)的构建体已经发现在动物中产生IgG应答。在人类中，已经发现针对志贺氏菌属O-特异性多糖-蛋白缀合物疫苗的IgG应答与人体内的免疫保护有关(Passwell,J.H.等人,“Safety and Immunogenicity of ImprovedShigella O-Specific Polysaccharide-Protein Conjugate Vaccines in Adultsin Israel(改进的志贺氏菌属O-特异性多糖-蛋白缀合物疫苗在以色列成年人中的安全性和免疫原性)”Infection and Immunity,69(3):1351-1357(2001年3月))。据信多糖(即糖残基)触发糖特异性的短期免疫应答。事实上，人体的免疫***对细菌的特定多糖表面结构例如O-抗原和荚膜多糖会产生强烈应答。然而，由于对多糖的免疫应答是依赖IgM的，因此免疫***不产生记忆。携带多糖的蛋白载体能触发IgG应答，IgG应答是依赖T-细胞的并提供长时间持续的保护作用，因为免疫***产生了记忆。

大肠杆菌O157是一种引起溶血性尿毒综合征所有当前病例三分之二左右的肠出血性菌株并造成严重的人类健康担忧(Law,D.(2000)J.App.Microbiol.,88,729-745;Wang,L.和Reeves,P.R.(1998)Infect.Immun.66,3545-3551)。

大肠杆菌菌株O157(Escherichia coli strain O157)产生含有重复四糖单元(4-N-乙酰基 perosamine→岩藻糖→葡萄糖→GalNAc)(α-D-PerNAc-α-L-Fuc-β-D-Glc-α-D-GalNAc)的O-抗原(Perry,M.B.,MacLean,L.和Griffith,D.W.(1986)Biochem.Cell.Biol.,64,21-28)。该四糖在十一异戊二烯基焦磷酸上预装配。大肠杆菌细胞被膜含有内浆膜即带有应力的(stress-bearing)肽聚糖层和由磷质内单层和外单层组成的不对称外膜，这构成了细菌LPS。LPS含有脂质A锚形体、含有3-脱氧-D-甘露-辛-2-酮糖酸的核心和O-抗原区三个组分(参见:Raetz,C.R.H.和Whitfield,C.(2002)Annu.Rev.Biochem.,71,635-700;Whitfield,C.(2006)Ann.Rev.Biochem.75,39-68;Samuel,G.和Reeves,P.R.(2003)Carbohydrate Research,338,2503-2519;及其中关于细菌LPS的O-抗原装配综述的参考文献)。

细菌LPS的O-抗原组分是大的、极度多变的多糖，可以是同聚的，由单一重复单糖组成，或者杂聚的，含有3-6个糖单元的10-30个重复(Reeves,P.R.,Hobbs,M.,Valvano,M.A.,Skurnik,M.,Whitfield,C.,Coplin,D.,Kido,N.,Klena,J.,Maskell,D.,Raetz,C.R.H.和Rick，P.D.(1996)Trends Microbiol.,4,495-503)。因此，O-抗原是细菌细胞表面的主要特征并构成毒力和致病性的重要决定因子(Law,D.(2000)J.App.Microbiol.,88,729-745;Spears,K.J.,Roe,A.J.和Gally,D.L.(2006)FEMS Microbiol.Lett.,255,187-202;Liu,B.,Knirel,Y.A.,Feng,L.,Perepelov,A.V.,Senchenkova,S.N.,Wang,Q.,Reeves,P.R.和Wang,L(2008)FEMS Microbiol.Rev.32,627-653;Stenutz,R.,Weintraub,A.和Widmalm,G.(2006)FEMS Microbiol.Rev.30,382-403)。已经鉴定出具有超过180个独立O-血清型(属于独特的O-抗原结构)的大肠杆菌菌株(Stenutz,R.,Weintraub,A.和Widmalm,G.(2006)FEMS Microbiol.Rev.30,382-403)。

O-抗原重复单位在与十一异戊二烯基焦磷酸连接的内膜细胞溶质面上进行预装配。脂质-连接的重复单位横向地扩散(翻转(flip-flop))到内膜的周质表面并在转运到外膜和连接到LPS之前聚合。大多数杂聚合O-抗原重复单位在还原末端或者具有N-乙酰基葡萄糖胺(“GlcNAc”)或者具有N-乙酰基半乳糖胺(“GalNAc”)。

已假定通过被WecA催化的GlcNAc-P或GalNAc-P从其相应的糖核苷酸衍生物转移到十一异戊二烯基单磷酸(“Und-P”)上，启动脂质中间体的生物合成(Samuel,G.和Reeves,P.R.(2003)CarbohydrateResearch,338,2503-2519;Alexander,D.C.和Valvano,M.A.(1994)J.Bacteriol.,176,7079-7084;Zhang,L.,Radziejewska-Lebrecht,J.,Krajewska-Pietrasik,D.,Tolvanen,P.和Skurkik,M.(1997)Mol.Microbiol.23,63-76;Amor,P.A.和Whitfield,C.(1997)Mol.Microbiol.26(145-161);Wang,L.和Reeves,P.R.(1998)Infect.Immun.66,3545-3551)。虽然已经表征了WecA的GlcNAc-磷酸转移酶活性的性质和特异性(Rush,J.S.,Rick,P.D.和Waechter,C.J.(1997)Glycobiology,7,315-322)，但是WecA催化GalNAc-P-P-Und合成的结论是基于遗传学研究(Wang,L.和Reeves,P.R.(1998)Infect.Immun.66,3545-3551)。这样的较早遗传学研究表明通过被WecA催化的GalNAc-P从UDP-GalNAc酶促转移到Und-P上启动脂质-连接的四糖中间体的生物合成(Wang,L.和Reeves,P.R.(1998)Infect.Immun.66,3545-3551)。然而，没有直接的酶学证据证明WecA利用UDP-GalNAc作为GalNAc-P供体。

此外，先前已提出大肠杆菌O55 gne和gne1基因编码UDP-GlcNAc 4-差向异构酶(Wang,L.,Huskic,S.,Cisterne,A.,Rothemund,D.和Reeves,P.R.(2002)J.Bacteriol.184,2620-2625;Guo,H.,Yi,W.,Li,L.和Wang,P.G.(2007)Biochem.Biophys.Res.Commun.,356,604-609)。先前的报导鉴定了分别来自大肠杆菌O55(Wang,L.,Huskic,S.,Cisterne,A.,Rothemund,D.和Reeves,P.R.(2002)J.Bacteriol.184,2620-2625)和大肠杆菌O86(Guo,H.,Yi,W.,Li,L.和Wang,P.G.(2007)Biochem.Biophys.Res.Commun.,356,604-609)的两个基因，分别为大肠杆菌O55 gne和大肠杆菌O86 gne1，它们与同一基因家族内的Z3206基因有100%同一性。

因此，将会一直导致技术人员相信Z3206基因也编码UDP-GlcNAc/UDP-GalNAc差向异构酶。

发明简述

现在令人惊奇地发现，由大肠杆菌O157中的Z3206基因编码的差向异构酶能催化在十一异戊二烯基焦磷酸上合成N-乙酰基半乳糖胺(“GalNAc”)的反应，从而启动寡糖或多糖的形成。

在一个方面，本发明涉及一种重组原核生物合成***，其产生多糖的全部或一部分，包含在十一异戊二烯基焦磷酸上合成GalNAc的差向异构酶。本发明进一步包括合成在还原末端具有GalNAc的多糖的全部或一部分的糖基转移酶，并且再进一步包括合成在还原末端具有GalNAc的抗原性多糖的全部或一部分的糖基转移酶。

在另一个方面，本发明涉及在十一异戊二烯基焦磷酸上产生GalNAc的差向异构酶，和在一个进一步方面，该差向异构酶由Z3206基因编码。

在一个另外的方面，本发明涉及用于产生N-糖基化蛋白的表达***，包含：编码寡糖基转移酶的核苷酸序列；编码蛋白载体的核苷酸序列；来自至少一种细菌的至少一种寡糖或多糖基因簇；其中该多糖在还原末端含有GalNAc；和编码差向异构酶的核酸序列。

在一个再进一步方面，本发明涉及一种包含Z3206基因的重组原核生物合成***，该Z3206基因编码将GlcNAc-P-P-Und转变成GalNAc-P-P-Und的差向异构酶。

在又一个另外的方面，本发明涉及一种包含大肠杆菌O55 gne基因或大肠杆菌O86 gne1基因的重组原核生物合成***，该基因编码将GlcNAc-P-P-Und转变成GalNAc-P-P-Und的差向异构酶。

在再一个方面，本发明涉及一种N-糖基化蛋白，其包含至少一种引入的共有序列D/E-X-N-Z-S/T，其中X和Z可以为除脯氨酸以外的任何天然氨基酸，和在还原末端具有N-乙酰基半乳糖胺的聚糖。

在还另一个方面，本发明涉及一种生物缀合物疫苗，其包含具有至少一种引入的共有序列D/E-X-N-Z-S/T的N-糖基化蛋白，其中X和Z可以为除脯氨酸以外的任何天然氨基酸；在还原末端具有N-乙酰基半乳糖胺的免疫原性聚糖；和佐剂。

在一个另外的方面，本发明涉及在宿主细胞中产生N-联糖基化蛋白的方法，该宿主细胞包含：编码由在还原末端含有GalNAc的至少一种细菌装配至少一种寡糖或多糖的糖基转移酶的核酸；编码蛋白载体的核酸；编码寡糖基转移酶的核酸；和编码差向异构酶的核酸。

在一个进一步方面，本发明涉及生物合成***和蛋白质在制备生物缀合物疫苗中的应用。

在一个另外的方面，本发明涉及用于产生单糖、寡糖和多糖的方法，和在一个再进一步方面，本发明涉及用于产生抗原性聚糖和N-糖基化蛋白的方法。

附图简述

图1显示由来自大肠杆菌O157的膜部分合成[³H]GlcNAc/GalNAc-P-P-Und的时程。将来自大肠杆菌菌株O157的膜部分与UDP-[³H]GlcNAc一起于37℃孵育指定时间。按实施例2中描述的方法提取[³H]脂质产物并测定[³H]GlcNAc掺入到[³H]GlcNAc-P-P-Und(O)和[³H]GalNAc-P-P-Und(●)中。

图2显示由GlcNAc-P-P-Und形成GalNAc-P-P-Und的提出的生物合成途径。

图3显示由来自大肠杆菌菌株O157的膜部分合成[³H]GalNAc-P-P-Und的纯化和表征。将来自大肠杆菌O157的膜部分与UDP-[³H]GlcNAc一起孵育，并按实施例3中描述的方法纯化[³H]GalNAc脂质。图3A显示在硼酸盐浸渍的硅胶G(Quantum 1)上经DEAE-纤维素纯化后[³H]HexNAc脂质的制备型薄层层析图。图3B显示从小图A中制备板中回收后在硼酸盐浸渍的硅胶G(Baker,Si250)上经纯化的[³H]GalNAc-P-P-Und的薄层层析图。图3C显示在图3B中纯化的[³H]GalNAc-P-P-Und经温和的酸水解后回收的[³H]-氨基糖的下行纸层析图(硼酸盐浸渍的瓦特曼1号纸(Whatman No.1paper))。图3D显示用NaBH₄还原来自图3C的[³H]氨基糖产生的[³H]HexNAc-糖醇的下行纸层析图(Whatman No.3MM)。

图4显示大肠杆菌21546细胞和大肠杆菌21546细胞在用pMLBAD:Z3206转化后的代谢性标记。大肠杆菌21546(图4A)和大肠杆菌21546:pMLBAD/Z3206(图4B)用[³H]GlcNAc于37℃进行代谢性标记5分钟。按实施例3中描述的方法提取[³H]GlcNAc/GalNAc-P-P-Und，使其不含水溶性污染物后在硼酸盐浸渍的硅胶板(Baker Si250)上通过薄层层析进行分离。使用Bioscan层析扫描仪检测放射性脂质。GalNAc-P-P-Und和GlcNAc-P-P-Und的层析位置用箭头表示。

图5显示由来自大肠杆菌菌株的膜部分与UDP-[³H]GlcNAc一起孵育形成的[³H]GlcNAc/GalNAc-P-P-Und的薄层层析图。将来自大肠杆菌菌株K12(图5A)、O157(图5B)、21546(图5C)和21546:pMLBAD/Z3206(图5D)的膜部分与UDP-[³H]GlcNAc一起于37℃孵育10分钟，按实施例3中描述的方法提取[³H]脂质产物，通过分配使其不含水溶性污染物，然后在硼酸盐浸渍的硅胶板(BakerSi250)上通过薄层层析进行分离。GalNAc-P-P-Und和GlcNAc-P-P-Und的层析位置用箭头表示。

图6显示GlcNAc-P与UMP孵育后的卸载(discharge)。将来自大肠杆菌21546:Z3206的膜部分与UDP-[³H]GlcNAc一起于37℃预孵育至将GlcNAc-P-P-Und酶标记10分钟(图6A)，然后与1mM UMP一起进行第二个孵育期，包括或1min(图6B)或2min(图6C)。在指定的孵育期后，按实施例3中描述的方法提取[³H]GlcNAc/GalNAc-P-P-Und，并在硼酸盐浸渍的硅胶板(Baker Si250)上通过薄层层析进行解析。GalNAc-P-P-Und和GlcNAc-P-P-Und的层析位置用箭头表示。

图7显示由来自表达Z3206的菌株21546的膜催化的外源[³H]GlcNAc-P-P-Und和[³H]GalNAc-P-P-Und转变成直接有关的[³H]HexNAc-P-P-Und产物。将来自大肠杆菌菌株21546(图7B和图7E)和21546:pMLBAD/Z3206(图7C和图7F)的膜部分与纯化的[³H]GlcNAc-P-P-Und(图7A,图7B和图7C)或[³H]GalNAc-P-P-Und(图7D,图7E和图7F的分小图)(在1%曲通X-100(Triton X-100)中超声处理进行分散)一起于37℃孵育1分钟。按实施例3中描述的方法提取[³H]GlcNAc/GalNAc-P-P-Und，在硼酸盐浸渍的硅胶板(BakerSi250)上通过薄层层析进行解析并用Bioscan AR2000放射性层析扫描仪进行检测。

图8显示未糖基化和糖基化AcrA蛋白的SDS-PAGE分析。由携带AcrA表达质粒和与pMLBAD:Z3206(第1泳道)、pMLBAD:gne(第2泳道)或载体对照pMLBAD(第3泳道)互补的pgl操纵子Δgne的大肠杆菌DH5α细胞制备的周质提取物用10%SDS-PAGE分离后转移到硝化纤维素膜上。用抗AcrA抗血清检测AcrA及其糖基化形式。显示了对应于未糖基化(AcrA)和糖基化AcrA(gAcrA)的条带位置。

图9显示已经由Liu B等人鉴定的基因(Liu B等人,Structure andgenetics of Shigella O antigens(志贺氏菌O抗原的结构和遗传学)FEMS Microbiology Review,2008.32:p.27)。

图10是显示含有合成弗氏志贺氏菌6(S.flexneri 6)O抗原所需基因的DNA区的方案。

图11显示弗氏志贺氏菌6 O抗原在大肠杆菌中的表达。LPS通过银染色或者通过转移到硝化纤维素膜和通过抗弗氏志贺氏菌6的抗体检测予以显现。

图12显示O抗原的HPLC。含有弗氏志贺氏菌-Z3206的大肠杆菌细胞(SCM3)、含有弗氏志贺氏菌+Z3206的大肠杆菌细胞(SCM3)或空大肠杆菌(SCM3)细胞的LLO分析。

图13显示来自表达EPA、pglB和弗氏志贺氏菌6O-抗原+/-Z3206的大肠杆菌细胞的经镍纯化的蛋白的蛋白质印迹图。

发明详述

本发明包括一种重组原核生物合成***，其包含编码差向异构酶的核酸，该差向异构酶合成在还原末端具有N-乙酰基半乳糖胺的寡糖或多糖和在聚糖的还原末端具有N-乙酰基半乳糖胺的N-糖基化蛋白。

术语“部分氨基酸序列”也称为“最优化共有序列”或“共有序列”。最优化共有序列被寡糖基转移酶(“OST,”“OTase”)进行N-糖基化，其效率比常规共有序列“N-X-S/T”高得多。

一般而言，术语“重组N-糖基化蛋白”是指在天然不包含所述蛋白编码核酸的宿主细胞中产生的任何多肽或寡肽。在本发明的正文中，该术语是指在原核宿主细胞例如埃希氏菌(Escherichia spp.)、弯曲杆菌(Campylobacter spp.)、沙门氏菌(Salmonella spp.)、志贺氏菌(Shigellaspp.)、螺杆菌(Helicobacter spp.)、假单胞菌(Pseudomonas spp.)、芽孢杆菌(Bacillus spp.)中，和在进一步实施方案大肠杆菌(Escherichiacoli)、空肠弯曲杆菌(Campylobacter jejuni)、鼠伤寒沙门氏菌(Salmonella typhimurium)等中重组产生的蛋白质，其中将所述蛋白编码核酸导入到所述宿主细胞中并且其中所编码的蛋白被OTase进行N-糖基化，所述转移酶天然存在于或者被重组地导入到所述宿主细胞中。

根据氨基酸的国际上接受的单字母代码，缩写词D、E、N、S和T分别表示天冬氨酸、谷氨酸、天冬酰胺、丝氨酸和苏氨酸。

根据本发明所述的蛋白质包含被引入到蛋白质并被N-糖基化的最优化共有序列D/E-X-N-Z-S/T中的一个或多个。因此，本发明的蛋白质不同于也含有该最优化共有序列但不包含任何额外的(引入的)最优化共有序列的天然存在的空肠弯曲杆菌N-糖蛋白。

最优化共有序列的引入可以通过一个或多个氨基酸的添加、缺失和/或取代来完成。可通过化学合成策略(例如固相辅助的化学肽合成)完成一个或多个氨基酸的添加、缺失和/或取代以引入最优化共有序列，根据本发明，这项技术对于本领域技术人员来说是众所周知的。对于较大的多肽来说可选和优选的是，根据本发明，可通过作为本领域标准技术的重组技术来制备本发明的蛋白质。

本发明的蛋白质具有它们可以以高效和在任何宿主中产生的优点。在本发明的一个实施方案中，宿主包含来自弯曲杆菌、例如来自空肠弯曲杆菌的功能性pgl操纵子。在进一步实施方案中，来自弯曲杆菌并用于实施本发明的寡糖基转移酶是来自大肠弯曲杆菌(Campylobacter coli)或海欧弯曲杆菌(Campylobacter lari)。根据本发明，寡糖基转移酶对于本领域技术人员来说是显而易见的。例如，寡糖基转移酶公开于诸如以下的参考文献中：Szymanski,C.M.和Wren,B.W.(2005)Protein glycosylation in bacterial mucosal pathogens(细菌粘膜病原体中的蛋白质糖基化),Nat.Rev.Microbiol.3:225-237。当所述原核宿主是弯曲杆菌，或者例如空肠弯曲杆菌时，功能性pgl操纵子可天然存在。然而，根据本领域之前所证明的及以上提及的，pgl操纵子可以被转移到细胞中并在所述新的细胞环境中仍保留有功能。

术语“来自弯曲杆菌、优选空肠弯曲杆菌的功能性pgl操纵子”意指编码弯曲杆菌、例如空肠弯曲杆菌的功能性寡糖基转移酶(OTase)和能够在脂质载体上装配寡糖的一个或多个特异性糖基转移酶的核酸簇，并且其中所述寡糖可以通过OTase从脂质载体转移到具有一个或多个最优化氨基酸序列D/E-X N-Z-S/T的靶蛋白上。应当理解，术语“来自弯曲杆菌、优选空肠弯曲杆菌的功能性pgl操纵子”在本发明的正文中不一定就是指作为一个转录单位的操纵子。该术语只是要求在一个宿主细胞中重组蛋白N-糖基化的功能性组分存在。这些组分可以转录成为一个或多个独立的mRNA并且可以被一起或单独地调节。例如，该术语也包括位于一个宿主细胞中基因组DNA和质粒上的功能性组分。为了效率，在一个实施方案中，功能性pgl操纵子的所有组分都可以被同时调节和表达。

寡糖基转移酶，在有些实施方案中可来源于弯曲杆菌，而在其它实施方案中可来源于空肠弯曲杆菌。在另外的实施方案中，寡糖基转移酶可来源于本领域技术人员已知的具有寡糖基转移酶的其它生物体，例如沃林氏菌(Wolinella spp.)和真核生物。

能够在脂质载体上装配寡糖的一个或多个特异性糖基转移酶可来源于宿主细胞或被重组地引入到所述宿主细胞中，唯一的功能性限制是由所述糖基转移酶装配的寡糖可以通过OTase从脂质载体转移到具有一个或多个最优化共有序列的靶蛋白上。因此，天然包含特异性糖基转移酶的宿主细胞的选择和/或替代所述宿主中天然存在的特异性糖基转移酶以及异源特异性糖基转移酶的引入都将能够使本领域技术人员去改变与本发明蛋白质中的最优化N-糖基化共有位点结合的N-聚糖。

根据以上结果，本发明提供本发明蛋白质上N-聚糖模式的个体设计。因此，所述蛋白在它们的N-聚糖模式上可以是个性化的以满足生物学、药学和纯化的要求。

在本发明的实施方案中，所述蛋白可包含所述N-糖基化最优化氨基酸序列中的一个但也可不止一个，例如至少两个、至少3个或至少5个。

本发明蛋白质中一个或多个N-糖基化最优化氨基酸序列的存在可具有增加其免疫原性、增加其稳定性、影响其生物活性、延长其生物半寿期和/或使其纯化简化的优点。

最优化共有序列在位置X和Z上可包括除脯氨酸以外的任何氨基酸。术语“任何氨基酸”意指包括常用和稀有天然氨基酸以及合成氨基酸衍生物和类似物，它们都将仍然允许最优化共有序列被OTase进行N-糖基化。天然存在的常用和稀有氨基酸对于X和Z是优选的。X和Z可以相同或不同。

需要注意的是，对于根据本发明所述的蛋白质中的每个最优化共有序列，X和Z可以是不同的。

可以通过特异性糖基转移酶及其当在脂质载体上通过OTase进行转移来装配寡糖时相互作用来决定与最优化共有序列结合的N-聚糖。根据本发明，本领域技术人员通过改变所需宿主细胞中存在的特异性糖基转移酶的类型和数量将能够设计出N-聚糖。

本文所用的“单糖”是指一个糖残基。“寡糖和多糖”是指两个或更多个糖残基。本文所用的术语“聚糖”是指单糖、寡糖或多糖。“N-聚糖”在本文中定义为蛋白质中通过N-糖苷键与天冬酰胺残基的ε-酰胺氮连接的可变组成的单糖、寡糖或多糖。在一个实施方案中，通过OTase转移的N-聚糖在革兰氏阴性或阳性细菌的细胞质膜中存在的十一异戊烯醇焦磷酸(“Und-P-P”)脂质-锚形体上进行装配。它们参与O抗原、O多糖和肽聚糖的合成(Bugg,T.D.和Brandish,P.E.(1994).From peptidoglycan to glycoproteins:common features of lipid-linkedoligosaccharide biosynthesis(从肽聚糖到糖蛋白：脂质连接的寡糖生物合成的共同特征).FEMS Microbiol Lett 119,255-262;Valvano,M.A.(2003).Export of O-specific lipopolysaccharide(O-特异性脂多糖的输出).Front Biosci 8,s452-471)。

进行了多项研究以决定脂质连接的重复四糖(4-N-乙酰基perosamine→岩藻糖→葡萄糖→GalNAc)的生物合成是否是通过WecA形成GalNAc-P-P-Und启动的。当来自大肠杆菌菌株K12、O157和PR4019(一种WecA-过量表达菌株)的膜部分与UDP-[³H]GalNAc一起孵育时，既未检测到[³H]GlcNAc-P-P-Und也未检测到[³H]GalNAc-P-P-Und的酶促合成。然而，当来自菌株O157的膜部分与UDP-[³H]GlcNAc一起孵育时，观察到两种酶标记的产物具有[³H]GlcNAc-P-P-Und和[³H]GalNAc-P-P-Und的化学和层析特性，证实菌株O157含有能够使GlcNAc-P-P-Und和GalNAc-P-P-Und相互转变的差向异构酶。当外源[³H]GlcNAc-P-P-Und与来自菌株O157的膜一起孵育时，外源[³H]GlcNAc-P-P-Und被转变成[³H]GalNAc-P-P-Und也证实了差向异构酶的存在。当菌株O157用[³H]GlcNAc进行代谢性标记时，[³H]GlcNAc-P-P-Und和[³H]GalNAc-P-P-Und两者都被检出。用Z3206基因转化大肠杆菌菌株21546能够使这些细胞在体内(in vivo)和体外(in vitro)合成GalNAc-P-P-Und。当来自菌株O157的膜与外源[³H]GalNAc-P-P-Und一起孵育时重新形成[³H]GlcNAc-P-P-Und，证明了差向异构酶反应的可逆性。在空肠弯曲杆菌N-糖基化***在大肠杆菌中的表达中，Z3206不能代偿gne基因的损失，表明它没有作为UDP-GlcNAc/UDP-GalNAc差向异构酶起作用。基于这些结果，证实了在大肠杆菌O157中，GalNAc-P-P-Und通过GlcNAc-P-P-Und差向异构酶可逆地合成后通过WecA形成GlcNAc-P-P-Und。

对大肠杆菌O157 O-抗原亚基装配的起始反应进行研究证实GalNAc-P-P-Und合成是被有些先前未知的机制而不是被WecA催化的。本文给出的证据说明在大肠杆菌O157中，GalNAc-P-P-Und不是由WecA催化的GalNAc-P从UDP-GalNAc转移合成的，而是由Z3206基因编码的差向异构酶催化的GlcNAc-P-P-Und的4-OH可逆差向异构化合成的。

因此，本发明包括用于装配重要的细菌细胞表面组分的一种新的生物合成途径以及用于合成GalNAc-P-P-Und的一种新的生物合成途径。本发明的一个进一步实施方案包括作为抗微生物剂新靶标的细菌差向异构酶。

大肠杆菌O157合成具有重复四糖结构(4-N-乙酰基perosamine→岩藻糖→葡萄糖→GalNAc)的O-抗原。本文说明了脂质连接的四糖中间体的生物合成不是通过由WecA催化的GalNAc-P从UDP-GalNAc酶促转移到Und-P而启动的，这与较早的遗传学研究正好相反(Wang,L.和Reeves,P.R.(1998)Infect.Immun.66,3545-3551)。本文描述的发明是通过同源性检索获得后再通过遗传学、酶学和代谢性标记实验的结果来验证的，证明WecA没有利用UDP-GalNAc作为底物，而是需要WecA来合成GlcNAc-P-P-Und，然后通过菌株O157中Z3206基因编码的差向异构酶将其可逆地转变成GalNAc-P-P-Und。

本发明的Z3206基因属于产生在其还原末端含有GalNAc残基的表面O-抗原重复单位的几个菌株中存在的基因家族(表1)。Z3206基因序列示于SEQ ID NO:1。先前的报导鉴定了分别来自大肠杆菌O55(Wang,L.,Huskic,S.,Cisterne,A.,Rothemund,D.和Reeves,P.R.(2002)J.Bacteriol.184,2620-2625)和大肠杆菌O86(Guo,H.,Yi,W.,Li,L.和Wang,P.G.(2007)Biochem.Biophys.Res.Comm.,356,604-609)的两个基因即大肠杆菌O55gne和大肠杆菌O86 gne1，这两个基因与Z3206基因有100%同一性(表1)。大肠杆菌O55gne基因序列显示为SEQ ID NO:3，而大肠杆菌O86 gne1基因序列显示为SEQ ID NO:5。

表1

Z3206基因在表达在还原末端具有GalNAc的O-抗原链的细菌菌株中的相关性

因此，我们得出的结论是大肠杆菌O55gne和大肠杆菌O86gne1分别在菌株O55和O86中也编码能够将GlcNAc-P-P-Und转变成GalNAc-P-P-Und的差向异构酶，这也产生了在还原末端具有GalNAc的O-抗原重复单位(表1)。

在本研究中的两个实验方法表明Z3206蛋白不催化菌株O157中UDP-GlcNAc向UDP-GalNAc的差向异构化。首先，当将来自菌株O157的膜与[³H]UDP-GalNAc一起孵育时，既未检测到[³H]GlcNAc-P-P-Und也未检测到[³H]GalNAc-P-P-Und(表3)。如果Z3206催化[³H]UDP-GalNAc向[³H]UDP-GlcNAc的转变，将预期观察到[³H]GlcNAc-P-P-Und。其次，我们已经表明血凝素标记的Z3206不能代偿依赖UDP-GalNAc的空肠弯曲杆菌N-糖基化报道***(图8)。

来自菌株O55的大肠杆菌O55gne基因(Wang,L.,Huskic,S.,Cisterne,A.,Rothemund,D.和Reeves,P.R.(2002)J.Bacteriol.184,2620-2625)也测定了差向异构酶活性，即将粗提取物与UDP-GalNAc一起孵育并通过测定酸水解后与对二甲氨基苯甲醛的反应性增加来间接测定向UDP-GlcNAc的转变。在两个研究中，产物的形成是基于与对二甲氨基苯甲醛的反应性变化并且不是糖核苷酸终产物的决定性特征。在偶联测定中，相对于Gne2，90%纯的多聚组氨酸标记的大肠杆菌O86 gne1也显示具有低水平的UDP-葡萄糖差向异构酶活性。

因此，本发明的一个实施方案涉及一种重组原核生物合成***，其含有将GlcNAc-P-P-Und转变成GalNAc-P-P-Und的Z3206基因、大肠杆菌O55 gne基因或大肠杆菌O86 gne1基因。

显然，大肠杆菌O86(其合成含有两个GalNAc残基的O-抗原，其假定需要UDP-GalNAc作为额外非还原末端GalNAc的糖基供体)，也具有额外的GlcNAc 4-差向异构酶基因，称为gne2，在O-抗原基因簇内(Guo,H.,Yi,W.,Li,L.和Wang,P.G.(2007)Biochem.Biophys.Res.Commun.,356,604-609)。这个额外的差向异构酶基因与荚膜异多糖酸(colanic acid)基因簇的galE基因有高同源性并且似乎是能够合成UDP-GalNAc的UDP-GlcNAc 4-差向异构酶。

Z3206基因似乎在用GalNAc起始的大肠杆菌O-血清型中是高度保守的。在最近的一项研究中，通过基于聚合酶链式反应的方法，利用针对特异性检测大肠杆菌O157 Z3206基因设计的核苷酸引物，根据Z3206的表达筛选出62个具有建立的O-抗原重复单位结构的大肠杆菌菌株(Wang,L.,Huskic,S.,Cisterne,A.,Rothemund,D.和Reeves,P.R.(2002)J.Bacteriol.184,2620-2625)。在该项研究中，在已知含有GalNAc的22个大肠杆菌菌株中有16个检测到Z3206，而在缺乏GalNAc的40个菌株中只有4个检测到Z3206。而且，用设计检测具有UDP-GlcNAc 4-差向异构酶活性的替代差向异构酶的引物类似筛选22个含GalNAc的菌株(大肠杆菌O113的GalE基因)没有检测到携带该基因的菌株，表明Z3206是大肠杆菌的O-抗原重复单位中与还原末端GalNAc的存在最常见相关的GlcNAc 4-差向异构酶基因。

通过多种基于web的拓扑预测算法分析Z3206蛋白质序列表明Z3206蛋白不是高度疏水性的。绝大多数拓扑预测算法表明Z3206是一种可溶性37kDa蛋白，尽管TMPred(Hofmann,K.和Stoffel,W.(1993)Biol.Chem.Hoppe-Seyler 374,166(摘要))预测有一个弱的N-端跨膜螺旋。然而，来自表达血凝素标记的Z3206的大肠杆菌细胞的细胞馏份的SDS-PAGE后的蛋白质转印清楚地显示标记的蛋白与细胞低渗裂解后的颗粒部分缔合。初步实验表明该蛋白质在膜部分与1MKCl孵育后，仍保留与颗粒部分缔合，但是与0.1%Triton X-100孵育呈有活性的形式增溶。

大肠杆菌O157Z3206与氧化还原酶的短链脱氢酶/还原酶家族具有显著序列同源性，包括GXXGXXG基序(罗斯曼折叠(Rossmanfold))，与NAD(P)结合口袋(Allard,S.T.M.,Giraud,M.F.和Naismith,J.H.(2001)Cell.Mol.Life Sci.58,1650-1655)和保守的S X₂4YX₃K序列相一致，参与质子夺取和供给(Field,R.A.和Naismith,J.H.(2003)Biochemistry 42,7637-7647)。基于UDP-Glc 4-差向异构酶即短链脱氢酶/还原酶家族的另一个成员的晶体结构的分子建模，提示在氢化物夺取之后，4-酮基中间体围绕UDP的β磷酸旋转以呈现该酮基中间体的相反一面并允许从该相反一侧重***氢化物，因此在碳4上羟基的构型发生颠倒。这些保守序列的存在提示Z3206很可能通过类似的机制起作用。虽然图7中见到的差向异构酶产物的平衡分布好像有利于GlcNAc-P-P-Und的形成，但是利用GalNAc-P-P-Und进行O-抗原重复单位装配将按GalNAc-P-P-Und的方向通过质量作用驱动差向异构化反应。

自然界中聚类异戊二烯脂质中间体的糖基部分的差向异构化一直未广泛报道。在一个先前的研究中，报道了核糖基-P-十异戊烯醇的2-差向异构化形成***糖基-P-十异戊烯醇，分枝杆菌中***半乳聚糖生物合成的一种***糖基供体(Mikusová,K.,Huang,H.,Yagi,T.,Holsters,M.,Vereecke,D.,D’Haeze,W.,Scherman,M.S.,Brennan,P.J.,McNeil,M.R.和Crick,D.C.(2005)J.Bacteriol.187,8020-8025)。***糖基-P-十异戊烯醇通过两步氧化/还原反应来形成，需要Rv3790和Rv3791两个分枝杆菌蛋白。虽然加入NAD和NADP能适度地刺激差向异构化，但是Rv3790和Rv3791两者都不含有罗斯曼折叠或SX₂₄YXXXK基序，即短链脱氢酶/还原酶家族的特征(Allard,S.T.M.,Giraud,M.-F.和Naismith,J.H.(2001)Cell.Mol.Life Sci.58,1650-1655;Field,R.A.和Naismith,J.H.(2003)Biochemistry 42,7637-7647)。

总之，描述了通过GlcNAc-P-P-Und差向异构化形成GalNAc-P-P-Und的一种新的生物合成途径。

已经表明有若干抗生素能抑制GlcNAc-P-P-Und的合成，但是在其应用中有限制，因为它们也阻断GlcNAc-P-P-多萜醇(蛋白质N-糖基化途径的起始多萜醇连接的中间体)的合成。虽然GlcNAc-P-P-多萜醇是细菌糖脂中间体GlcNAc-P-P-Und的一种结构上相关的哺乳动物对应物(counterpart)，但是没有关于在真核细胞中将GlcNAc-P-P-多萜醇转变成GalNAc-P-P-多萜醇的类似差向异构化反应的证据。因此，这提高了在其中在还原末端含有GalNAc的表面O-抗原参与病理过程的菌株中，O-抗原合成可以潜在地通过抑制细菌差向异构酶来阻断的可能性。

本发明的一个实施方案涉及在大肠杆菌O157中将GlcNAc-P-P-Und(N-乙酰基葡糖胺基焦磷酰基十一异戊烯醇)转变成GalNAc-P-P-Und(N-乙酰基半乳糖胺基焦磷酰基十一异戊烯醇)的差向异构酶。本发明的一个再进一步的示例性方面涉及在还原末端具有GalNAc的脂质结合的重复四糖合成的起始。

本发明另一个方面的基础包括发现了空肠弯曲杆菌含有通用的N-联蛋白质糖基化***。已经表明空肠弯曲杆菌的各种蛋白都被七糖进行了修饰。这种七糖在十一异戊二烯基焦磷酸即载体脂质上在内膜的细胞质一侧进行装配，即通过逐步加入特异性糖基转移酶催化的核苷酸活化单糖。然后，该脂质连接的寡糖通过翻转酶(例如PglK)翻转(横向地扩散)到周质间隙。在N-联蛋白质糖基化的最后一步，寡糖基转移酶(例如PglB)催化寡糖从载体脂质转移到具有共有序列D/E-X-N-Z-S/T的天冬酰胺(Asn)残基上，其中X和Z可以为除Pro以外的任何氨基酸。七糖的糖基化簇已成功地转移到大肠杆菌中并产生了弯曲杆菌(Campylobacter)的N-联糖蛋白。

已经证明PglB对于脂质连接的糖底物没有严格的特异性。在十一异戊二烯基焦磷酸上装配的抗原性多糖通过周质中的PglB俘获并转移到蛋白载体上(Feldman,2005;Wacker,M.等人,Substratespecificity of bacterial oligosaccharyltransferase suggests a commontransfer mechanism for the bacterial and eukaryotic systems(细菌寡糖基转移酶的底物特异性提示细菌和真核***的一种共同转移机制).ProcNatl Acad Sci U S A,2006.103(18):p.7088-93)。该酶也将转移各式各样的十一异戊二烯基焦磷酸(UPP)连接的寡糖，如果它们在还原末端含有N-乙酰基化己糖胺的话。在WO2009/104074中公布了pglB的核苷酸序列和PglB的氨基酸序列。

因此，本发明的一个实施方案涉及一种重组N-糖基化蛋白，其包含：引入的共有序列D/E-X-N-Z-S/T中的一个或多个，其中X和Z可以为除脯氨酸以外的任何天然氨基酸；和在还原末端具有N-乙酰基半乳糖胺和并且与所述一个或多个引入的共有序列的每一个通过N-糖苷键N-连接的寡糖或多糖。

在一个进一步实施方案中，本发明涉及一种用于产生多糖的全部或一部分的重组原核生物合成***，其包含在十一异戊二烯基焦磷酸上合成N-乙酰基半乳糖胺(“GalNAc”)的差向异构酶。在一个进一步实施方案中，多糖的全部或一部分是有抗原性的。

在另一个实施方案中，本发明涉及一种重组原核生物合成***，其包含：在十一异戊二烯基焦磷酸上合成GalNAc的差向异构酶；和合成在还原末端具有GalNAc的多糖的糖基转移酶。

本发明的一个实施方案进一步包含一种重组原核生物合成***，其包含在十一异戊二烯基焦磷酸上合成GalNAc的差向异构酶和合成多糖的糖基转移酶，其中所述多糖具有以下结构：α-D-PerNAc-α-L-Fuc-β-D-Glc-α-D-GalNAc；并且其中GalNAc是在所述多糖的还原末端。

重组原核生物合成***可以产生各种来源的单糖、寡糖或多糖。本发明的实施方案涉及各种来源的寡糖和多糖。这样的寡糖和多糖可以是原核或真核生物来源的。原核生物来源的寡糖或多糖可以来自革兰氏阴性或***。在本发明的一个实施方案中，寡糖或多糖是来自大肠杆菌。在本发明的一个进一步方面中，所述寡糖或多糖是来自大肠杆菌O157。在另一个实施方案中，所述寡糖或多糖包含以下结构：α-D-PerNAc-α-L-Fuc-β-D-Glc-α-D-GalNAc。在本发明的一个进一步实施方案中，寡糖或多糖是来自弗氏志贺氏菌。在一个再进一步实施方案中，寡糖或多糖是来自弗氏志贺氏菌6。在一个再进一步方面，所述寡糖或多糖包含以下结构：

本发明的实施方案进一步包括各种来源的蛋白质。这样的蛋白质包括对原核和真核生物来说是天然的蛋白质。蛋白载体可以是例如AcrA或者经修饰含有蛋白质糖基化的共有序列即D/E-X-N-Z-S/T的蛋白载体，其中X和Z可以为除脯氨酸以外的任何氨基酸(例如修饰的外毒素铜绿假单胞菌(Pseudomonas aeruginosa)(“EPA”))。在本发明的一个实施方案中，蛋白质是铜绿假单胞菌EPA。

本发明的一个进一步方面涉及在N-聚糖的还原末端具有GalNAc的新的生物缀合物疫苗。本发明的一个另外的实施方案涉及用于产生这类生物缀合物疫的一种新方法，该方法使用含有在十一异戊二烯基焦磷酸上产生GalNAc的差向异构酶的重组细菌细胞。在一个实施方案中，生物缀合物疫苗可以用来治疗或预防细菌疾病。在进一步实施方案中，生物缀合物疫苗可具有治疗和/或预防癌症或其它疾病的潜力。

用于人体的典型接种剂量为约1-25μg，优选约1μg至约10μg，最优选约10μg。任选地，疫苗，例如本发明的生物缀合物疫苗包括佐剂。

在一个另外的实施方案中，本发明涉及用于产生抵抗至少一种细菌的生物缀合物疫苗的表达***，其包含：编码寡糖基转移酶的核苷酸序列；编码蛋白载体的核苷酸序列；来自至少一种细菌的至少一种多糖基因簇，其中该多糖在还原末端含有GalNAc；和编码差向异构酶的核酸序列。在一个进一步实施方案中，多糖基因簇编码抗原性多糖。

在又一个进一步实施方案中，本发明涉及用于产生抵抗至少一种细菌的生物缀合物疫苗的表达***，其包含：编码寡糖基转移酶的核苷酸序列；编码包含至少一种***的共有序列D/E-X-N-Z-S/T的蛋白载体的核苷酸序列，其中X和Z可以为除脯氨酸以外的任何天然氨基酸；来自至少一种细菌的至少一种多糖基因簇，其中该多糖在还原末端含有GalNAc；和Z3206基因。在一个进一步实施方案中，多糖基因簇编码抗原性多糖。

在又一个实施方案中，本发明涉及一种生物缀合物疫苗，其包含：蛋白载体；至少一种与蛋白载体连接的免疫原性多糖链，其中所述多糖在还原末端具有GalNAc，和进一步其中所述GalNAc直接与蛋白载体连接；和佐剂。

在还一个另外的实施方案中，本发明涉及一种生物缀合物疫苗，其包含：包含至少一种***的共有序列D/E-X-N-Z-S/T的蛋白载体，其中X和Z可以为除脯氨酸以外的任何天然氨基酸；来自至少一种细菌并与蛋白载体连接的至少一种免疫原性多糖，其中该至少一种免疫原性多糖在还原末端含有直接与蛋白载体连接的GalNAc；和任选地，佐剂。

本发明的另一个实施方案涉及产生生物缀合物疫苗的方法，所述方法包括：在重组生物体中通过使用糖基转移酶装配在还原末端具有GalNAc的多糖；在所述重组生物体中将所述GalNAc与一个或多个靶蛋白的天冬酰胺残基相连接，其中所述一个或多个靶蛋白含有一个或多个T-细胞表位。

在一个进一步实施方案中，本发明涉及产生生物缀合物疫苗的方法，所述方法包括：将编码执行靶蛋白N-糖基化的代谢装置(apparatus)的遗传信息导入原核生物中，产生修饰的原核生物；其中将一个或多个重组靶蛋白表达所需的遗传信息导入所述原核生物中；其中将大肠杆菌菌株O157差向异构酶表达所需的遗传信息导入所述原核生物中；和其中该代谢装置包含将在还原末端具有GalNAc的多糖装配在脂质载体上的类型的糖基转移酶，和寡糖基转移酶，该寡糖基转移酶将多糖的GalNAc与靶蛋白的天冬酰胺残基共价连接，和含有至少一种T-细胞表位的靶蛋白；产生经修饰的原核生物的培养物；和从培养基中获得糖基化蛋白。

本发明的一个进一步方面涉及一种药物组合物。本发明的一个另外的方面涉及一种药物组合物，其包含根据本发明所述的至少一种N-糖基化蛋白。根据本文的公开内容，包含蛋白的药物的制备在本领域是众所周知的。本发明的一个再进一步方面涉及一种药物组合物，其包含抑制将GlcNAc-P-P-Und转变成GalNAc-P-P-Und的差向异构酶的抗生素。在一个优选的实施方案中，本发明的药物组合物包含药学上可接的赋形剂、稀释剂和/或佐剂。

合适的赋形剂、稀释剂和/或佐剂在本领域是众所周知的。赋形剂或稀释剂可以是固体、半固体或可用作活性成分的溶媒或介质的液体材料。本领域普通技术人员在制备组合物的领域中根据所选产品的特殊性质、待治疗疾病或病症、疾病或病症的阶段以及其它相关情况，可以容易地选出适当的给药形式和给药方式(Remington’sPharmaceutical Sciences,Mack Publishing Co.(1990))。药学上可接的稀释剂或赋形剂的比例和性质由所选药用活性化合物的溶解度和化学特性、精选的给药途径及标准药学实践来决定。药物制剂可适合于口服、胃肠外或局部使用并且可以按片剂、胶囊剂、栓剂、溶液剂、混悬剂等形式给予患者。本发明的药用活性化合物当它们本身有效时，为了稳定性、结晶方便、溶解度增加等目的，可以进行配制并按其药学上可接的盐(例如酸加成盐或碱加成盐)的形式给予。

在标注特定核苷酸或氨基酸序列的情况下，应当理解，本发明包括同源序列，该同源序列仍然执行与所标注序列相同的功能性。在本发明的一个实施方案中，这样的序列有至少85%同源性。在另一个实施方案中，这样的序列有至少90%同源性。在再进一步实施方案中，这样的序列有至少95%同源性。

两个核苷酸或氨基酸序列间百分同一性的测定方法是本领域技术人员已知的。

本文描述的核酸序列，例如以下序列表描述的核酸序列都仅仅是实例，对本领域技术人员来说显而易见的是，这些序列可以按不同的方式进行组合。本发明另外的实施方案包括核酸的变异体。核酸的变异体(例如密码子优化核酸)可以是实质上相同的，即与SEQ ID NO:1、SEQ ID NO:3、SEQ ID NO:5、SEQ ID NO:7、SEQ ID NO:9、SEQ ID NO:11、SEQ ID NO:13、SEQ ID NO:15、SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22、SEQ ID NO:23、SEQ ID NO:24、SEQ ID NO:27、SEQ ID NO:28或SEQ ID NO:29有至少80%同一性，例如80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或99.5%同一性。含有SEQ ID NO:1、SEQ ID NO:3、SEQ ID NO:5、SEQ IDNO:7、SEQ ID NO:9、SEQ ID NO:11、SEQ ID NO:13、SEQ ID NO:15、SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22、SEQ ID NO:23、SEQ ID NO:24、SEQ ID NO:27、SEQ ID NO:28或SEQ ID NO:29的序列的核酸变异体包括相对含有SEQ ID NO:1、SEQ ID NO:3、SEQ ID NO:5、SEQID NO:7、SEQ ID NO:9、SEQ ID NO:11、SEQ ID NO:13、SEQ IDNO:15、SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22、SEQ ID NO:23、SEQ ID NO:24、SEQ ID NO:27、SEQ ID NO:28或SEQ ID NO:29或其部分的序列来说具有一个或多个核苷酸(例如2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175或200个核苷酸)的取代、变异、修饰、置换、缺失和/或添加的核酸。

例如，在本发明的一个实施方案中，这样的变异体包括编码将GlcNAc-P-P-Und转变成GalNAc-P-P-Und的差向异构酶并且i)在宿主细胞例如大肠杆菌中表达和ii)与SEQ ID NO:1,SEQ ID NO:3,SEQID NO:5,SEQ ID NO:7或SEQ ID NO:9或其部分实质上相同的核酸。

本文描述的核酸包括重组DNA和合成(例如化学合成)DNA。核酸可以是双链或单链的。就单链核酸而论，核酸可以是有义链或反义链。核酸可以利用寡核苷酸类似物或衍生物来合成。

包括本文所述核酸的质粒可以转染或转化到宿主细胞中进行表达。用于转染和转化的技术是本领域技术人员已知的。

本文提及的所有出版物都通过引用其全部作为参考。应当理解，本文所用的术语“或”表示可选择，适当的时候可以组合；也就是说，术语“或”包括所列举的独立选择的每一个以及它们的组合。除非文中清楚地描绘，否则本文所用的单数术语包括它们的复数形式，并且提及复数时包括单数。

参照以下实施例对本发明作了进一步限定，以下实施例进一步描述了本发明的组合物和方法，以及它的实用性。对本领域技术人员显而易见的是，在本发明的范围内可以实施对组合物和方法两者的修改。

实施例

细菌菌株和质粒-大肠杆菌菌株PR4019(Rush,J.S.,Rick,P.D.和Waechter,C.J.(1997)Glycobiology,7,315-322)和PR21546(Meier-Dieter,U.,Starman,R.,Barr,K.,Mayer,H.和Rick,P.D.(1990)J.Biol.Chem.,265,13490-13497)是由Paul Rick博士(Bethesda,MD)慷慨馈赠的礼物，而大肠杆菌O157:H45(Stephan,R.,Borel,N.,Zweifel,C.,Blanco,M.和Blanco,J.E.(2004)BMC Microbiol 4:10)是得自Claudio Zweifel博士(苏黎世大学兽医研究所(Veterinary Institute,University of Zurich))的礼物。使用大肠杆菌DH5α(Invitrogen)作为克隆实验和蛋白质糖基化分析的宿主。使用的质粒列于表2。

表2

实施例中使用的质粒

材料-[1,6-³H]GlcNAc(30Ci/mmol)、UDP-[1-³H]GlcNAc(20Ci/mmol)和UDP-[6-³H]GalNAc(20Ci/mmol)得自AmericanRadiolabeled Chemicals公司(St.Louis,MO)。Quantum 1硅胶G薄层板是Quantum Industries公司(Fairfield,NJ)的产品，而Baker Si250硅胶G板由Mallinckrodt Chemical Works公司制造。酵母膏和细菌用蛋白胨是BD Biosciences公司的产品。所有其它化学品都从标准商业来源获取。甲氧苄啶(50μg/ml)、氯霉素(20μg/ml)、氨苄青霉素(100μg/ml)和卡那霉素(50μg/ml)都按需要加到培养基中。

重组质粒的构建—使用大肠杆菌菌株DH5α进行DNA克隆实验，所构建的质粒通过DNA测序进行验证。用寡核苷酸Z3206-Fw和Z3206-RvHA(AAACCCGGGATGAACGATAACG TTTTGCTC(SEQID NO:17)和AAATCTAGATTAAGCGTAATCTGGAACATCGTATGGGTACTCAGAAACAAACGTTATGTC(SEQ ID NO:18)；限制位点加上下画线)，通过PCR从大肠杆菌O157:H45扩增Z3206基因。PCR片段用SmaI和XbaI消化后，连接到经SmaI-XbaI切割的pMLBAD载体中(Lefebre,M.D.和Valvano M.A.(2002)Appl Environ Microbiol 68:5956-5964)。这导致得到质粒pMLBAD:Z3206(SEQ ID NO:23)，其编码具有C-端血凝素标签的Z3206。

用寡核苷酸gne-Fw和gne-RV(AAACCATGGATGAAAATTCTTATTAGCGG(SEQ ID NO:19)和AAATCTAGATTAAGCGTAATCTGGAACATCGTATGGGTAGCACTGTTTTTCCCAATC(SEQ ID NO:20)；限制位点加上下画线)，从pACYCpgl扩增gne基因(Wacker,M.,Linton,D.,Hitchen,P.G.,Nita-Lazar,M.,Haslam,S.M.,North,S.J.,Panico,M.,Morris,H.R.,Dell,A.,Wrenn,B.W.,Aebi,M.(2002)Science 298,1790-1793),编码空肠弯曲杆菌pgl簇。PCR产物用NcoI和XbaI消化后，连接到pMLBAD的相同位点，得到质粒pMLBAD:gne(SEQ ID NO:24)，其编码具有C-端血凝素标签的Gne(表2)。

生长条件、蛋白质表达和免疫检测—大肠杆菌菌株在Luria-Bertani培养基(1%酵母膏,2%细菌用蛋白胨,0.6%NaCl)中于37℃进行培养并剧烈摇动。通过向生长至A₆₀₀为0.05-0.4的大肠杆菌细胞中加入终浓度为0.02-0.2%(w/v)的***糖实现***糖诱导的表达。诱导后5小时再次加入相同数量的***糖，并继续培养4-15小时。

分析程序—根据Pierce公司的生物技术最新报告“EliminateInterfering Substances from Samples for BCA Protein Assay(消除BCA蛋白质测定中来自样品的干扰物质)”，在用脱氧胆酸和三氯乙酸使膜蛋白沉淀之后，利用BCA蛋白质测定法(Pierce)测出蛋白质浓度。在加入0.5ml 1%SDS和4ml Econosafe Economical BiodegradableCounting混合物(Research Products International,Corp.,Mount Prospect,IL)之后，在Packard Tri-Carb 2100TR液体闪烁分光计中，通过闪烁光谱测定法分析样品的放射性。

实施例1：编码GlcNAc-P-P-Und 4-差向异构酶的大肠杆菌O157基因的鉴定

我们在本文中描述了一种新生物合成途径的惊奇发现，其中，通过4-差向异构酶先前未知的作用催化的GlcNAc-P-P-Und的4-OH差向异构化形成了GalNAc-P-P-Und。在这个途径中，GlcNAc-P-P-Und如下形成：从UDP-GlcNAc转移GlcNAc-P，由WecA催化，然后通过GlcNAc-P-P-Und-4-差向异构酶将GlcNAc-P-P-Und差向异构化成为GalNAc-P-P-Und，这是一个先前未知的途径(图2)。

通过DNA同源性检索鉴定出GlcNAc-P-P-Und 4-差向异构酶候选物的编码基因。利用在http://blast.ncbi.nlm.nih.gov/Blast.cgi上找到的美国国家医学数据库的文库(the U.S.National Library of Medicinedatabases)进行同源性检索。筛选出编码在还原末端具有GalNAc的O抗原重复单位的不同细菌的基因组序列。将一个在还原末端含有GalNAc的重复单位的组和第二个在重复单位中缺乏末端GalNAc的组进行比较以鉴定潜在的差向异构酶。使用这些标准，Z3206鉴定为候选GlcNAc-P-P-Und 4-差向异构酶(表1)。

在具有含GalNAc的O-抗原重复单位的大肠杆菌菌株中存在的GlcNAc 4-差向异构酶基因可以分成两个同源性组，如表1所示。令人惊奇地发现一个同源性组(含有gne1)明显地与GalNAc的存在相关联，因为O-抗原重复单位上的起始糖。进一步令人惊奇地发现第二组(含有gne2)表现出与UDP-Glc差向异构酶GalE高度的相似性，并存在于不起始O-抗原重复单位合成并具有GalNAc的大肠杆菌菌株中。大肠杆菌O157中的Z3206，一种与gne1具有高度同源性的基因，鉴定为候选GlcNAc-P-P-Und 4-差向异构酶。Z3206基因的基因组位置与该途径中的作用相一致，因为它位于O-抗原簇的galF和属于荚膜异多糖酸簇的wcaM之间。

实施例2-11描述的研究进一步证实了以上的发现，包括将GlcNAc 4-差向异构酶(大肠杆菌O157 Z3206)鉴定为催化GalNAc-P-P-Und的形成。

实施例2：UDP-GalNAc不是大肠杆菌WecA(GlcNAc-磷酸转移酶)的底物

为了确定大肠杆菌WecA将是否利用UDP-GalNAc作为GalNAc-P供体来形成GalNAc-P-P-Und，将来自大肠杆菌菌株K12、PR4019(一种WecA-过量表达菌株)和O157的膜部分与UDP-[³H]GalNAc一起孵育，该膜部分能合成据推测由GalNAc-P-P-Und的合成起始的在还原末端具有GalNAc的四糖O-抗原重复单位。

大肠杆菌膜的制备—通过以1,000Xg离心10分钟收集细菌细胞，依次在冰冷的磷酸缓冲盐水中洗涤一次，用冷水洗涤一次，用10mM Tris-HCl(pH 7.4)、0.25M蔗糖洗涤一次。将细胞重新悬浮至在10mM Tris-HCl(pH 7.4)、0.25M蔗糖、10mM EDTA(含有0.2mg/ml溶菌酶)中密度为～200 A₆₀₀单位/ml，再于30℃孵育30分钟。通过以1,000Xg离心10分钟回收细菌细胞，快速重新悬浮在40体积的冰冷的10mM Tris-HCl(pH 7.4)中，再放置在冰上。10分钟后，用紧扣的杜恩斯匀浆器(tight-fitting Dounce homogenizer)将细胞匀浆15个冲程后，补充0.1mM苯甲基磺酰基氟和蔗糖至终浓度为0.25M。通过以1,000Xg离心10分钟去除未破碎的细胞，通过以40,000Xg离心20分钟回收细胞被膜。将膜部分重新悬浮于10mM Tris-HCl(pH 7.4)、0.25M蔗糖、1mM EDTA中，再次以40,000Xg沉降后，重新悬浮于相同缓冲液至蛋白质浓度为～20mg/ml。将膜部分保存在-20℃备用。

在大肠杆菌膜中[³H]GlcNAc-P-P-Und和[³H]GalNAc-P-P-Und生物合成的体外测定—用于合成GlcNAc-P-P-Und和GalNAc-P-P-Und的反应混合物含有50mM Tris-HCl(pH 8)、40mM MgCl₂、5mM二硫苏糖醇、5mM 5′AMP、大肠杆菌膜部分(50-200μg膜蛋白和任一个5μM UDP-[³H]GlcNAc/GalNAc(500-2500dpm/pmol)，总体积为0.05ml。于37℃孵育后，加入40体积的CHCl₃/CH₃OH(2:1)终止反应，按先前所述方法(Waechter,C.J.,Kennedy,J.L.和Harford,J.B.(1976)Arch.Biochem.Biophys.174,726-737)，制备含有[³H]HexNAc-P-P-十一异戊烯醇的总脂质提取物。在分配之后，将有机相在氮气流下干燥，再重新溶解于1ml CHCl₃/CH₃OH(2:1)，取出等分试样(0.2ml)，在闪烁小瓶中干燥后，在Packard Tri-Carb 2100TR液体闪烁分光计中通过液体闪烁光谱测定法分析其放射性。为了测定[³H]GlcNAc-P-P-Und或[³H]GalNAc-P-P-Und的合成速率，将脂质提取物在氮气流下干燥，再重新溶解于小体积的CHCl₃/CH₃OH(2:1)中，点样到10X 20cm硼酸盐浸渍的Baker Si250硅胶板上，该板用CHCl₃,CH₃OH,H₂O,0.2M硼酸钠(65:25:2:2)展层。各个糖脂用Bioscan AR2000成像扫描仪(Bioscan,Washington,D.C.)进行检测。把[³H]GlcNAc/GalNAc-P-P-Und中的放射性总量乘以各个[³H]糖脂的百分率，计算出各糖脂的生物合成速率。

将来自不同大肠杆菌菌株(K12、PR4019和O157)的膜部分与或者UDP-[³H]GlcNAc或者UDP-[³H]GalNAc一起孵育，如上所述测定[³H]GlcNAc/GalNAc-P-P-Und中的掺入。如表3所示，在与UDP-[³H]GalNAc一起孵育后未检测出标记的糖脂，当膜部分与UDP-[³H]GlcNAc一起孵育时仅GlcNAc-P-P-Und是可检测的。

表3

利用UDP-[³H]GlcNAc或者UDP-[³H]GalNAc作为底物在大肠杆菌膜部分中[³H]GlcNAc/GalNAc-P-P-十一异戊烯醇的合成

此外，加入外源Und-P后再与来自PR4019(WecA-过量表达菌株)的膜一起孵育和加入来自O157细胞的细胞溶质部分两者都没有导致由UDP-GalNAc形成GalNAc-P-P-Und。这些结果证明UDP-GalNAc不是WecA的底物，提示GalNAc-P-P-Und是由替代机制形成。

当来自菌株K12的膜与UDP-[³H]GlcNAc一起孵育时，按预期合成了[³H]GlcNAc-P-P-Und(Rush,J.S.,Rick，P.D.和Waechter,C.J.(1997)Glycobiology,7,315-322)。然而，当来自菌株O157的膜与UDP-[³H]GlcNAc一起孵育时，除了[³H]GlcNAc-P-P-Und之外，还观察到显示为[³H]GalNAc-P-P-Und的第二种标记脂质(参见下文)。当检查两种糖脂的形成时程时，[³H]GlcNAc-P-P-Und(图1,O)中放射性的掺入比[³H]GalNAc-P-P-Und(图1,●)中放射性的掺入发生更快，程度更高，这与前体-产物关系相匹配(图2)。

大肠杆菌O157膜不利用UDP-GalNAc作为GalNAc-P供体进行GalNAc-P-P-Und合成的观察结果是一个实例，它证实了图2中说明的GalNAc-P-P-Und形成的生物合成途径。在该方案中，GlcNAc-P-P-Und如下形成：从UDP-GlcNAc转移GlcNAc-P，由WecA催化，然后通过先前未知的4-差向异构酶的作用使GlcNAc-P-P-Und差向异构化产生GalNAc-P-P-Und。

实施例3：用来自大肠杆菌菌株O157的膜部分在体外形成的[³H]GalNAc-P-P-Und的表征

与图1检测到的额外O157-特异性糖脂产物相一致，作为GalNAc-P-P-Und，它对温和的碱甲醇解(甲苯/甲醇1:3,含有0.1NKOH,0℃,60min)是稳定的，通过在CHCl₃/CH₃OH/H₂O(10:10:3)中平衡的DEAE-纤维素保留，再用含有20mM乙酸铵的CHCl₃/CH₃OH/H₂O(10:10:3)洗脱，按先前关于[³H]GlcNAc_1-2-P-P-Dol报道的(Waechter,C.J.和Harford,J.B.(1977)Arch.Biochem.Biophys.181,185-198)。

[³H]GalNAc-P-P-Und在硼酸盐浸渍的硅胶G上通过薄层层析法从[³H]GlcNAc-P-P-Und中清楚地解析出来(Kean,E.L.(1966)J.LipidRes.7,449-452)并通过制备型TLC纯化，如图3A和图3B所示。

硼酸盐浸渍的薄层板和瓦特曼1号纸的制备—硅胶薄层板用硼酸钠浸透，即按照Kean的所述方法(Kean,E.L.(1966)J.Lipid Res.7,449-452)，将硅胶薄层板短暂浸入2.5%Na₂B₄O₇·10H₂O的95%甲醇中。将该硼酸盐浸渍的TLC板在室温下干燥过夜后，放在Drierite上的真空干燥器内保存备用。刚好在层析之前，将板在短时间(～10-15min)加热至100℃而把板活化。将20X 30cm的瓦特曼1号(Whatman1)纸片浸渍在0.2M Na₂B₄O₇·10H₂O中而把瓦特曼1号纸用硼酸钠浸渍。按照Cardini和Leloir的所述方法(Cardini,C.E.和Leloir,L.F.(1957)J.Biol.Chem.225,317-324)，把Whatman No.1纸片紧紧地压在两块Whatman No.3MM纸片之间并让其在室温下干燥数天。

在体外反应中形成的聚糖产物的表征—个体糖脂([³H]GalNAc-P-P-Und和[³H]GlcNAc-P-P-Und)的聚糖在温和的酸水解释放之后通过下行纸层析法来表征。将GlcNAc/GalNAc脂质在氮气流下在带螺旋帽的锥形管中干燥并在0.2ml 0.01M HCl中加热到100℃达15分钟。水解后，将样品加到含有0.4ml的AG50WX8(H⁺)和0.4ml AG1X8(乙酸盐形式)的0.8ml混合床离子交换柱中，用1.5ml水洗脱。洗脱液在氮气流下干燥，重新溶解于小体积的H₂O(0.02ml)中，点样在一条长30cm的硼酸盐浸渍的瓦特曼1号纸条上，用丁醇/吡啶/水(6:4:3)按下行模式展开40-50小时。干燥后，把纸条切割成1cm的小长带，用闪烁光谱测定法分析放射性。GlcNAc和GalNAc标准品用苯胺-二苯胺蘸浸(dip)试剂检测(Schwimmer,S.和Benvenue,A.(1956)Science 123,543-544)。

按照上述方法，在温和的酸水解之后，聚糖产物用0.1M NaBH₄的0.1M NaOH(终体积0.1ml)还原而转变成它们的相应糖醇。在室温下温育过夜后，反应物用几滴冰醋酸猝灭，在氮气流下干燥使甲醇不含1滴醋酸，重复几次。将糖醇溶于水，过AG50WX8(H+)和AG1X8(乙酸盐)的0.5ml柱脱盐，在氮气下干燥，点样到长30cm的WhatmanNo.3MM纸条上。Whatman No.3MM纸条用乙酸乙酯、吡啶、0.1M硼酸(65:25:20)按下行模式展开过夜，干燥，切割成1cm的小长带，用闪烁光谱测定法分析放射性。GlcNAcitol和GalNAcitol标准品用改进的高碘酸盐-联苯胺(periodate-benzidine)蘸浸(dip)程序显现(Gordon,H.T.,Thornburg,W.和Werum,L.N.(1956)Anal.Chem.28,849-855)。将纸条浸渍在丙酮、0.1MNaIO₄(95:5)中，让其风干3分钟，然后浸渍在丙酮/乙酸/H₂O/o-联甲苯胺(96:0.6:4.4:0.2gm)中，含顺式二醇的糖醇在蓝色背景上染色成黄色斑点。

糖脂的质谱测定法(“MS”)—用带有ABI Turbo V电喷雾离子源的ABI/MDS Sciex 4000Q-Trap混合式三节四极线性离子阱质谱仪(ABI/MDS-Sciex,Toronto,Canada)分析纯化的糖脂。简而言之，将样品按10μl/min灌到凭经验确定的离子源装置中，通过将分子离子以线性离子阱模式碎裂获得了MS/MS(呈二维的质谱)信息。

当糖脂用温和的酸(0.01N HCl,100℃,15min)处理时，水溶性产物与[³H]GalNAc一起在下行纸层析上用硼酸盐浸渍的瓦特曼1号纸进行共层析分析(图3C)。另外，当标记的糖还原时，它被转变成[³H]糖醇GalNAc-OH(图3D)。此外，负离子MS分析得出[M-H]-离子为m/z=1128，对于GalNAc-P-P-Und的预期，MS/MS子离子谱显示突出离子在m/z=907，对于含P-P-Und的糖脂的预期(Guan,Z.,Breazeale,S.D.和Raetz,C.R.(2005)Anal.Biochem.345,336-339)。由菌株O157形成的糖脂产物鉴定为GalNAc-P-P-Und也得到了其形成来自外源GlcNAc-P-P-Und的支持(参见实施例7)。

实施例4：在表达Z3206基因的大肠杆菌细胞中用[³H]GlcNAc代谢性标记[³H]GalNAc-P-P-Und(体内)

为了研究大肠杆菌O157 Z3206基因的表达是否能够使细胞合成GalNAc-P-P-Und，表达Z3206基因的大肠杆菌菌株21546(Meier-Dieter,U.,Starman,R.,Barr,K.,Mayer,H.和Rick,P.D.(1990)J.Biol.Chem.,265,13490-13497)用[³H]GlcNAc进行代谢性标记并分析[³H]GlcNAc/GalNAc-P-P-Und的形成。

细菌细胞的代谢性标记—大肠杆菌细胞在剧烈摇动下在Luria-Bertani培养基中于37℃培养至A₆₀₀为0.5-1。加入[³H]GlcNAc至终浓度为1μCi/ml，继续于37℃温育5分钟。加入0.5gm/ml碎冰终止放射性标记掺入到糖脂中，将培养物充分混合。以4000Xg离心10分钟来回收细菌细胞，弃去上清液。细胞用冰冷的磷酸缓冲盐水洗涤两次，通过剧烈涡旋混合而重新悬浮在10体积(细胞沉淀物)的甲醇中，用探测超声器按40%全功率短暂超声处理。超声处理后，加入20体积的氯仿，将提取物剧烈混合后，让其静置在室温下15分钟。不溶性物质通过离心沉淀出来，沉淀用小体积的CHCl₃/CH₃OH(2:1)反萃取两次。合并的有机提取物如下所述进行加工处理。

GlcNAc-P-P-Und和GalNAc-P-P-Und的纯化-GlcNAc/GalNAc-P-P-Und用CHCl₃/CH₃OH(2:1)抽提，按文献中描述的方法进行分配(Waechter,C.J.,Kennedy,J.L.和Harford,J.B.(1976)Arch.Biochem.Biophys.174,726-737)使其没有水溶性物质。然后将有机提取物在氮气流下干燥，通过在含有0.1N KOH的甲苯/甲醇(1:3)于0℃脱酰基达60分钟使甘油磷酸脂质破坏。脱酰化反应用乙酸中和，用4体积的CHCl₃/CH₃OH(2:1)稀释，用1/5体积的0.9%NaCl洗涤。有机(下层)相用1/3体积的CHCl₃、CH₃OH、0.9%NaCl(3:48:47)洗涤，弃去水相。有机相用足够的甲醇稀释以在有机相中容纳残留的水相，上样到用CHCl₃/CH₃OH(2:1)平衡的DEAE-纤维素柱(5ml)上。柱子用20柱体积的CHCl₃/CH₃OH/H₂O(10:10:3)洗涤，然后用含有20mM乙酸铵的CHCl₃/CH₃OH/H₂O(10:10:3)洗脱。在硼酸盐浸渍的硅胶板上通过薄层层析解析(如较早所述)后，收集馏份(2ml)，用茴香醛喷雾试剂监测放射性或GlcNAc/GalNAc-P-P-Und(Dunphy,P.J.,Kerr,J.D.,Pennock,J.F.,Whittle,K.J.和Feeney,J.(1967)Biochim.Biophys.Acta 136,136-147)。

选择大肠杆菌菌株21546作为Z3206表达研究的宿主，因为UDP-ManNAcA合成中的突变导致利用GlcNAc-P-P-Und合成肠细菌共同抗原时出现阻断。因为大肠杆菌21546来源于大肠杆菌K12，所以它也不合成O-抗原重复片段(Stevenson,G.,Neal,B.,Liu,D.,Hobbs,M.,Packer,N.H.,Batley,M.,Redmond,J.W.,Lindquist,L.和Reeves,P.(1994)J.Bacteriol.,176,4144-4156)，因此，较大量的GlcNAc-P-P-Und累积用于转化成GalNAc-P-P-Und。当表达Z3206基因的菌株21546和转化体用[³H]GlcNAc标记并且放射性标记脂质用薄层层析在硼酸盐浸渍的硅胶板上分析时，母菌株(图4A)仅合成一种标记的脂质GlcNAc-P-P-Und。然而，表达Z3206基因的21546细胞(图4B)也合成另外的标记脂质，显示为GalNAc-P-P-Und。

实施例5：来自表达Z3206基因的大肠杆菌细胞的膜部分在体外合成GalNAc-P-P-Und

为了证实由大肠杆菌O157 Z3206基因编码的蛋白质能催化GalNAc-P-P-Und的合成，将来自表达Z3206基因的大肠杆菌细胞的膜部分与[³H]UDP-GlcNAc一起孵育，通过薄层层析(色谱制备和表征方法在实施例3中描述)在硼酸盐浸渍的硅胶板上分析[³H]糖脂产物，如图5所示。当来自大肠杆菌K12或宿主菌株大肠杆菌21546细胞的膜部分与UDP-[³H]GlcNAc一起孵育时，仅仅观察到[³H]GlcNAc-P-P-Und(图5A和图5C)。然而，来自大肠杆菌O157和表达Z3206的大肠杆菌21546的膜部分也形成了GalNAc-P-P-Und(图5B和图5D)。

实施例6：GlcNAc-P-P-Und但不是GalNAc-P-P-Und的形成在UMP存在下被逆转

为了提供GalNAc-P-P-Und是从GlcNAc-P-P-Und而不是通过WecA的作用利用UDP-GalNAc作为糖基供体合成的另外证据，检查了用UMP卸载内源预标记的[³H]GlcNAc-P-P-Und和[³H]GalNAc-P-P-Und的作用。被WecA催化的GlcNAc-磷酸转移酶反应通过加入过量的UMP而自由地逆转，即重新合成UDP-GlcNAc并释放Und-P。

在这个实验当中，来自表达Z3206的大肠杆菌菌株21546的膜部分用UDP-[³H]GlcNAc预先标记10分钟，然后加入1mM UMP，测定各标记的糖脂的剩余量。图6A所示结果表明在10分钟标记期结束时[³H]GlcNAc-P-P-Und和[³H]GalNAc-P-P-Und的相对量。在与1mM UMP一起孵育1分钟后，可以见到[³H]GlcNAc-P-P-Und的明显损失，而[³H]GalNAc-P-P-Und峰相对来说无变化(图6B)(色谱制备和表征方法在实施例5中描述)。这一观察结果与表3中的结果相一致，说明WecA不催化从UDP-GalNAc将GalNAc-P转移到GalNAc-P-P-Und上。值得关注的是，在与UMP一起孵育的第2分钟(图6C)，GlcNAc-P-P-Und的损失慢下来，并且在[³H]GalNAc-P-P-Und的峰中有略微减少，提示[³H]GalNAc-P-P-Und通过差向异构酶反应的逆转用[³H]GlcNAc-P-P-Und库重新平衡(参见实施例7)。

实施例7：由来自表达Z3206的大肠杆菌细胞的膜催化的外源纯化[³H]GlcNAc-P-P-Und和[³H]GalNAc-P-P-Und的相互转化

为了提供GlcNAc-P-P-Und和GalNAc-P-P-Und可以通过来自表达Z3260的大肠杆菌细胞的膜部分直接相互转化的直接证据，将纯化的[³H]GlcNAc-P-P-Und和[³H]GalNAc-P-P-Und作为外源底物进行了测试。

纯化的[³H]GlcNAc-P-P-Und/[³H]GalNAc-P-P-Und按实施例4中描述的方法(细菌细胞的代谢性标记和GlcNAc-P-P-Und和GalNAc-P-P-Und的纯化)来制备。按实施例2中关于在大肠杆菌膜中[³H]GlcNAc-P-P-Und和[³H]GalNAc-P-P-Und生物合成的体外测定，将[³H]HexNAc-P-P-十一异戊烯醇(2000dpm/pmol,在1%TritonX-100中分散,终浓度0.1%)与大肠杆菌膜一起孵育。

初步实验表明当将外源[³H]GlcNAc-P-P-Und加入到在TritonX-100、CHAPS(3-[(3-胆酰胺丙基)二甲基铵基]-1-丙烷磺酸)、NonidetP-40或辛基葡糖苷中分散的反应混合物中时，差向异构酶是有活性的，并表现出pH最大在7-8.5的范围内。在与膜部分孵育之前纯化[³H]GlcNAc-P-P-Und和[³H]GalNAc-P-P-Und的色谱迁移率示于图7A和图7D。如图7B和图7E中见到的，与来自大肠杆菌21546的膜部分孵育不影响糖脂。然而，纯化糖脂与来自表达Z3206的大肠杆菌21546的膜部分的孵育能催化外源[³H]GlcNAc-P-P-Und向[³H]GalNAc-P-P-Und的转变(图7C)和[³H]GalNAc-P-P-Und向[³H]GlcNAc-P-P-Und的转变(图7F)。这些结果直接证明GlcNAc-P-P-Und和GalNAc-P-P-Und在表达Z3206的大肠杆菌菌株中经酶催化而相互转变。

实施例8:大肠杆菌Z3206不是UDP-GlcNAc 4-差向异构酶

为了确定Z3206是否可以催化UDP-GalNAc的形成，使来自空肠弯曲杆菌的N-糖基化器(apparatus)在大肠杆菌中表达。在这个报道***中，靶蛋白AcrA的糖基化依赖于pgl基因座的存在(Wacker,M.,Linton,D.,Hitchen,P.G.,Nita-Lazar,M.,Haslam,S.M.,North,S.J.,Panico,M.,Morris,H.R.,Dell,A.,Wrenn,B.W.,Aebi,M.(2002)Science 298,1790-1793)，包括功能性Gne UDP-Glc/UDP-GlcNAc差向异构酶(Bernatchez,S.,Szymanski,C.M.,Ishiyama,N.,Li,J.,Jarrell,H.C.,Lau,P.C.,Berghuis,A.M.,Young,N.M.,Wakarchuk,W.W.(2005)J.Biol.Chem.280,4792-4802)。如果pgl簇含有gne的缺失，那么AcrA的糖基化就失去了(Linton,D.,Dorrell,N.,Hitchen,P.G.,Amber,S.,Karlyshev,A.V.,Morris,H.R.,Dell,A.,Valvano,M.A.,Aebi,M.和Wren,B.W.(2005)Mol Microbiol.55,1695-1703)。通过表达AcrA(pWA2)以及由Gne(pMLBAD:gne)或Z3206(pMLBAD:Z3206)代偿的pgl基因座Δgne研究了体外情况下在pgl操纵子Δgne存在下Z3206恢复AcrA-糖基化的能力。

使用重新悬浮于100μl的上样缓冲液中浓度等于1 A₆₀₀单位的细胞，制备出总的大肠杆菌细胞提取物进行了免疫检测分析(Laemmli,U.(1970)Nature 227,680-685)。将10μl的等分试样上样到10%SDS-PAGE上。通过溶菌酶处理制备大肠杆菌细胞的周质提取物(Feldman,M.F.,Wacker,M.,Hernandez,M.,Hitchen,P.G.,Marolda,C.L.,Kowarik,M.,Morris,H.R.,Dell,A.,Valvano,M.A.,Aebi,M.(2005)Proc Natl Acad Sci USA 102,3016-3021)，最终样品取10μl(相当于细胞的0.2 A₆₀₀单位)通过SDS-PAGE进行分析。在硝化纤维素膜上转印后，样品用特异性抗血清进行免疫染色(Aebi,M.,Gassenhuber,J.,Domdey,H.和te Heesen,S.(1996)Glycobiology 6,439-444)。使用抗AcrA(Wacker,M.,Linton,D.,Hitchen,P.G.,Nita-Lazar,M.,Haslam,S.M.,North,S.J.,Panico,M.,Morris,H.R.,Dell,A.,Wrenn,B.W.,Aebi,M.(2002)Science 298,1790-1793)抗体。使用抗兔IgG-HRP(Bio-Rad)作为第二抗体。用ECL^TM蛋白质印迹分析检测试剂(AmershamBiosciences)进行检测。

如图8所示，糖基化蛋白，它比非糖基化形式迁移慢，仅当表达pgl基因座Δgne的细胞被Gne代偿时才形成(第2泳道)。Z3206无法恢复报道糖蛋白的糖基化(图8,第1泳道)。因此，在依赖Gne的糖基化***中，Z3206不会代偿AcrA的糖基化。Gne和膜缔合Z3206的表达通过免疫检测予以证实。

实施例9：弗氏志贺氏菌6+/-Z3206LPS的分析

在图9显示了弗氏志贺氏菌6 O-抗原生物合成所需要的一些基因：编码核苷酸糖前体生物合成的酶的基因；编码糖基转移酶的基因；编码O抗原加工蛋白的基因；和编码负责O-乙酰化的蛋白的基因。O抗原的结构由Dmitriev,B.A等人进行了阐述(Dmitriev,B.A.等人,Somatic Antigens of Shigella(志贺氏菌属的菌体抗原)Eur JBiochem,1979.98:p.8;Liu B等人,Sructure and genetics of Shigella O antigens(志贺氏菌属O抗原的结构和遗传学)FEMS Microbiology Review,2008.32:p.27)。

为了鉴定弗氏志贺氏菌6 O-抗原生物合成所需要的所有基因，构建了基因组文库。

弗氏志贺氏菌6基因组DNA的克隆根据来自细菌的DNA分离方案，使用Macherey-Nagel NucleoSpin

Tissue试剂盒，分离出弗氏志贺氏菌6基因组DNA。从5个弗氏志贺氏菌6过夜培养物(各2ml)中分离出DNA，用100μl洗脱缓冲液(5mM Tris/HCl,pH 8.5)进行最后的洗脱。根据CopyControlTM Fosmid文库产生试剂盒(EPICENTRE)给出的方案所述，将洗脱的馏份合并，用异丙醇沉淀，将最终的沉淀物重新悬浮于52μl TE缓冲液，其总体积经历了终点修复。根据试剂盒方案所述，用1X TAE缓冲液，在1%低熔点琼脂糖凝胶上跑胶，来将终点修复的DNA纯化，回收后用乙醇沉淀。在7μl TE缓冲液中进行沉淀DNA的重新悬浮，再按照EPICENTRE方案，将其中的0.15μl DNA连接到pCC1FOS(SEQ ID NO:27)中。按照方案所述进行连接产物包装到噬菌体中。经包装的噬菌体在噬菌体稀释缓冲液中进行1:1稀释，取10μl用来感染100μl EPI300-T1细胞，该细胞先前按EPICENTRE所述进行生长。该细胞(110μl)接种6块板，每板约100个菌落，使得6块板均含有完整弗氏志贺氏菌6基因组文库。板通过菌落转印来显现，阳性/阴性菌落进行蛋白质印迹分析和银染色。

菌落转印法对于菌落转印，把硝化纤维素膜放在固体琼脂板上面，再取下来，放入1X PBST中洗涤三次并按同样的方式进行处理。将膜首先在10%乳中在室温下封闭1小时，然后在室温下在2ml 1%乳(在PBST中)中与抗VI型抗血清(第一抗体)一起保温。在PBST中洗涤三次(每次10分钟)后，将膜与第二抗体、1:20000过氧化物酶缀合的山羊-抗兔IgG(BioRad)(在2ml 1%乳(在PBST中)中)在室温下再保温另外1小时。用PBST进行最后三次洗涤(每次10分钟)后，将膜在由SuperSignal

West Dura Extended Duration底物试剂盒(Thermo Scientific)提供的具有鲁米诺(luminol)和过氧化物缓冲液的1:1混合物的UVP Chemi Doc成像***中显影。

在产生弗氏志贺氏菌6基因组文库之后，与弗氏志贺氏菌6抗血清反应的克隆用Liu等人(Liu等人,2008)先前测序的区域的引物步查从rmlB到wfbZ进行测序(图9)。引物rmlB_rev和wfbZ_fwd(弗氏志贺氏菌-Z3206)在rmlB和wfbZ中退火并用来测定克隆***片段的序列直至分别达到wcaM和hisI/F(弗氏志贺氏菌+Z3206)(图10)。

为了建立O抗原合成是否在缺乏Z3206(因此阻碍und-GlcNAc向und-GalNAc的差向异构化)的克隆中保持，构建了两种质粒(SEQID NO.28和SEQ ID NO.29)(图10)，转化到大肠杆菌细胞中并通过银染色和蛋白质印迹进行分析。

如图11所示，在大肠杆菌细胞+或-Z3206中产生了LPS。O抗原在没有Z3206时可以产生，然而产量较低，这表明没有差向异构酶(Z3206)的多糖产生效率较低。

实施例10：弗氏志贺氏菌6+/-Z3206LLO的分析

通过C18柱层析纯化十一异戊烯醇-PP-O抗原使表达弗氏志贺氏菌(S.flexeneri)抗原+/-Z3206的大肠杆菌细胞沉淀，在50ml 0.9%NaCl中洗涤一次，将终沉淀物冻干过夜。该沉淀物在30ml 85-95%甲醇中洗涤一次，用10:10:3氯仿-甲醇-水(v/v/v)反萃取，通过加水将提取物转变成两相Bligh/Dyer***，导致最终比率为10:10:9(C:M:W)。通过离心分离各相，上层水相分别上样到用10ml甲醇调节并用10ml 3:48:47(C:M:W)平衡的C18 Sep-Pak柱体上。上样后，柱体用10ml 3:48:47(C:M:W)洗涤并用5ml 10:10:3(C:M:W)洗脱。将C18柱的上样、流通、洗涤和洗脱的20个OD样品在EppendorfConcentrator Plus管中干燥，用250μl甲醇洗涤，重蒸发后用30μlddH₂O多洗涤三次。

糖脂水解。来自C18柱洗涤的糖脂样品如下水解：将干燥的样品溶解在2ml正丙醇:2M三氟乙酸(1:1)中，加热到50℃达15分钟并在N₂下蒸发至干。

用氨基苯甲酸盐和HPLC进行寡糖标记。按照Bigge等人(Bigge,1995)中描述的方法进行标记，按照Merry等人(2002)(Merry等人,2002)所述的纸盘方法进行聚糖提纯(cleanup)。按照Royle等人(Royle,2002)中描述的方法但修改到三个溶剂***，采用GlycoSep-N正相柱，通过HPLC进行2-AB标记的聚糖的分离。溶剂A是10mM甲酸铵pH 4.4的80%乙腈。溶剂B是30mM甲酸铵pH 4.4.的40%乙腈。溶剂C是0.5%甲酸。柱温为30℃，并通过荧光(λex=330nm,λem=420nm)检测2-AB标记的聚糖。梯度条件是100%A至100%B的线性梯度，历经160分钟，流速为0.4ml/min，然后2分钟100%B至100%C，流速至1ml/min。柱用100%C洗涤5分钟，回到100%A历经2分钟后，用100%A按流速为1ml/min流过15分钟，然后回到流速至0.4ml/min达5分钟。所有样品都在水中注射。

将表达有(SEQ ID NO:29)或无(SEQ ID NO:28)Z3206的弗氏志贺氏菌O抗原的质粒转化到SCM3细胞中(图10)。迟洗脱体积的痕迹显示含有弗氏志贺氏菌O抗原+/-Z3206的两个样品曲线间的差异(图12)。这种在洗脱模式中的差异可以用在还原端带有不同单糖的不同寡糖结构进行解释：GlcNAc或GalNAc取决于差向异构酶(Z3206)的存在。

实施例11：通过由弗氏志贺氏菌6+/-Z3206产生的生物缀合物的制备和表征分析pglB的特异性

为了评价PglB是否可以将在还原端具有GlcNAc(弗氏志贺氏菌6O-抗原)的寡糖转移到载体蛋白EPA Nickel上，使用抗EPA和抗VI型抗体，通过蛋白质印迹法分析来自表达EPA(SEQ ID NO:25)、PglB(SEQ ID NO:26)和弗氏志贺氏菌6O-抗原+/-Z3206(SEQ IDNO:29/SEQ ID NO:28)的大肠杆菌细胞的纯化提取物。将在还原端有和无GalNAc的弗氏志贺氏菌O6抗原通过PglB转移到EPA上并用抗EPA和抗VI抗血清进行检测(图13)。

O抗原仍可产生和检出，但产量较低，这表明没有差向异构酶的多糖产生效率较低。

尽管本发明参照其实施方案进行了具体地说明和描述，但是本领域技术人员应当理解，在不偏离由权利要求书涵盖的发明范围的情况下，可以在形式和细节上对本发明进行各种变化。本领域技术人员将理解为落入本发明的范围之内的这些各种变化，特别是包括含有除来自在还原末端具有GalNAc的大肠杆菌和弗氏志贺氏菌以外的聚糖的N-糖基化蛋白和生物缀合物。

序列表

申请人:GlycoVaxyn AG

名称：在原核细胞中产生免疫原性多糖的生物合成***

SEQ ID NO的数目:29

SEQ ID NO:1-大肠杆菌O157 Z3206的核苷酸序列

长度:993

类型:DNA

生物体:大肠杆菌O157

序列:

ATGAACGATAACGTTTTGCTCATAGGAGCTTCCGGATTCGTAGGAACCCGACTACTT

GAAACGGCAATTGCTGACTTTAATATCAAGAACCTGGACAAACAGCAGAGCCACTTT

TATCCAGAAATCACACAGATTGGCGATGTTCGCGATCAACAGGCACTCGACCAGGCG

TTAGTCGGTTTTGACACTGTTGTACTACTGGCAGCGGAACACCGCGATGACGTCAGC

CCTACTTCTCTCTATTATGATGTCAACGTTCAGGGTACCCGCAATGTGCTGGCGGCC

ATGGAAAAAAATGGCGTTAAAAATATCATCTTTACCAGTTCCGTTGCTGTTTATGGT

TTGAACAAACACAACCCTGACGAAAACCATCCACACGACCCTTTCAACCACTACGGC

AAAAGTAAGTGGCAGGCAGAGGAAGTGCTGCGTGAATGGTATAACAAAGCACCAACA

GAACGTTCATTAACCATCATCCGTCCTACCGTTATCTTCGGTGAACGCAACCGCGGT

AACGTCTATAACTTGCTGAAACAGATCGCTGGCGGCAAGTTTATGATGGTGGGCGCA

GGGACTAACTATAAGTCCATGGCTTATGTTGGAAACATTGTTGAGTTTATCAAGTAC

AAACTGAAGAATGTTGCCGCAGGTTATGAGGTTTATAACTACGTTGATAAGCCAGAC

CTGAACATGAACCAGTTGGTTGCTGAAGTTGAACAAAGCCTGAACAAAAAGATCCCT

TCTATGCACTTGCCTTACCCACTAGGAATGCTGGGTGGATATTGCTTTGATATCCTG

AGCAAAATTACGGGCAAAAAATACGCTGTCAGCTCAGTGCGCGTGAAAAAATTCTGC

GCAACAACACAGTTTGACGCAACGAAAGTGCATTCTTCAGGTTTTGTGGCACCGTAT

ACGCTGTCGCAAGGTCTGGATCGAACACTGCAGTATGAATTCGTTCATGCCAAAAAA

GACGACATAACGTTTGTTTCTGAG

SEQ ID NO:2-Z3206的氨基酸序列

长度:331

类型:PRT

生物体:大肠杆菌O157

序列:

MNDNVLLIGASGFVGTRLLETAIADFNIKNLDKQQSHFYPEITQIGDVRDQQALDQALVGFDTVVLLAAEHRDDVSPTSLYYDVNVQGTRNVLAAMEKNGVKNIIFTSSVAVYGLNKHNPDENHPHDPFNHYGKSKWQAEEVLREWYNKAPTERSLTIIRPTVIFGERNRGNVYNLLKQIAGGKFMMVGAGTNYKSMAYVGNIVEFIKYKLKNVAAGYEVYNYVDKPDLNMNQLVAEVEQSLNKKIPSMHLPYPLGMLGGYCFDILSKITGKKYAVSSVRVKKFCATTQFDATKVHSSGFVAPYTLSQGLDRTLQYEFVHAKKDDITFVSE

SEQ ID NO:3-大肠杆菌O55gne的核苷酸序列

基因座 AF461121_1 BCT 02-MAY-2002

定义(UDP-GlcNAc 4-差向异构酶Gne[大肠杆菌(Escherichia coli)])

检索号AAL67550

长度:993

类型:DNA

生物体:大肠杆菌O55

序列:

ATGAACGATA ACGTTTTGCT CATAGGAGCT TCCGGATTCG TAGGAACCCGACTACTTGAA ACGGCAATTG CTGACTTTAA TATCAAGAAC CTGGACAAAC AGCAGAGCCACTTTTATCCA GAAATCACAC AGATTGGTGA TGTTCGTGAT CAACAGGCAC TCGACCAGGCGTTAGCCGGT TTTGACACTG TTGTGCTACT GGCAGCGGAA CACCGCGATG ACGTCAGCCCTACTTCTCTC TATTATGATG TCAACGTTCA GGGTACCCGC AATGTGCTGG CGGCCATGGAAAAAAATGGC GTTAAAAATA TCATCTTTAC CAGTTCCGTT GCTGTTTATG GTTTGAACAAACACAACCCT GACGAAAACC ATCCACACGA TCCTTTCAAC CACTACGGCA AAAGTAAGTGGCAGGCAGAG GAAGTGCTGC GTGAATGGTA TAACAAAGCA CCAACAGAAC GTTCATTAACCATCATCCGT CCTACCGTTA TCTTCGGTGA ACGGAACCGC GGTAACGTCT ATAACTTGCTGAAACAGATC GCTGGCGGCA AGTTTATGAT GGTGGGCGCA GGGACTAACT ATAAGTCCATGGCTTATGTT GGAAACATTG TTGAGTTTAT CAAGTACAAA CTGAAGAATG TTGCCGCAGGTTACGAGGTT TATAACTACG TTGATAAGCC AGACCTGAAC ATGAACCAGT TGGTTGCTGAAGTTGAACAA AGCCTGAACA AAAAGATCCC TTCTATGCAC TTGCCTTACC CACTAGGAATGCTGGGTGGA TATTGCTTTG ATATCCTGAG CAAAATTACG GGCAAAAAAT ACGCTGTCAGCTCTGTGCGC GTGAAAAAAT TCTGCGCAAC AACACAGTTT GACGCAACGA AAGTGCATTCTTCAGGTTTT GTGGCACCGT ATACGCTGTC GCAAGGTCTG GATCGAACTC TGCAGTATGAATTCGTCCAT GCCAAAAAAG ACGACATAAC GTTTGTTTCT GAG

SEQ ID NO:4-大肠杆菌O55UDP-GlcNAc 4-差向异构酶Gne的氨基酸序列

基因座 AF461121_1

定义(UDP-GlcNAc 4-差向异构酶Gne[大肠杆菌])

检索号AAL67550

长度:331aa线性

类型:PRT

生物体:大肠杆菌O55

序列:

mndnvlliga sgfvgtrlle taiadfnikn ldkqqshfyp eitqigdvrd

qqaldqalag fdtvvllaae hrddvsptsl yydvnvqgtr nvlaamekng

vkniiftssv avyglnkhnp denhphdpfn hygkskwqae evlrewynka

ptersltiir ptvifgernr gnvynllkqi aggkfmmvga gtnyksmayv

gnivefikyk lknvaagyev ynyvdkpdln mnqlvaeveq slnkkipsmh

lpyplgmlgg ycfdilskit gkkyavssvr vkkfcattqf datkvhssgf

vapytlsqgl drtlqyefvh akkdditfvs e

SEQ ID NO.5-大肠杆菌O86gne1的核苷酸序列

基因座 AAO37706 BCT 06-DEC-2005

定义UDP-GlcNAc C4-差向异构酶[大肠杆菌O86]。

检索号AAO37706

长度:993

类型:DNA

生物体:大肠杆菌O86

序列:

ATGAACGATA ACGTTTTGCT CATAGGAGCT TCCGGATTCG TAGGAACCCG ACTACTTGAA

ACGGCAATTG CTGACTTTAA TATCAAGAAC CTGGACAAAC AGCAGAGCCA CTTTTATCCA

GAAATCACAC AGATTGGTGA TGTTCGTGAT CAACAGGCAC TCGACCAGGC GTTAGCCGGT

TTTGACACTG TTGTACTACT GGCAGCGGAA CACCGCGATG ACGTCAGCCC TACTTCTCTC

TATTATGATG TCAACGTTCA GGGTACCCGC AATGTGCTGG CGGCCATGGA AAAAAATGGC

GTTAAAAATA TCATCTTTAC CAGTTCCGTT GCTGTTTATG GTTTGAACAA ACACAACCCT

GACGAAAACC ATCCACACGA CCCTTTCAAC CACTACGGCA AAAGCAAGTG GCAGGCGGAG

GAAGTGCTGC GTGAATGGTA TAACAAAGCA CCAACAGAAC GTTCATTAAC TATCATCCGT

CCTACCGTTA TCTTCGGTGA ACGCAACCGC GGTAACGTCT ATAACTTGCT GAAACAGATC

GCTGGCGGCA AGTTTATGAT GGTGGGCGCA GGGACTAACT ATAAGTCCAT GGCTTATGTT

GGAAACATTG TTGAGTTTAT CAAGTACAAA CTGAAGAATG TTGCCGCAGG TTACGAGGTT

TATAACTACG TTGATAAGCC AGACCTGAAC ATGAACCAGT TGGTTGCTGA AGTTGAACAA

AGCCTGAACA AAAAGATCCC TTCTATGCAC TTGCCTTACC CACTAGGAAT GCTGGGTGGA

TATTGCTTTG ATATCCTGAG CAAAATTACG GGCAAAAAAT ACGCTGTCAG CTCTGTGCGC

GTGAAAAAAT TCTGCGCAAC AACACAGTTT GACGCAACGA AAGTGCATTC TTCAGGTTTT

GTGGCACCGT ATACGCTGTC GCAAGGTCTG GATCGAACTC TGCAGTATGA ATTCGTCCAT

GCCAAAAAAG ACGACATAAC GTTTGTTTCT GAG

SEQ ID NO:6-大肠杆菌O86UDP-GlcNAc C4-差向异构酶的氨基酸序列

基因座 AAO37706

定义UDP-GlcNAc C4-差向异构酶[大肠杆菌O86]。

检索号AAO37706

长度:331aa线性

类型:PRT

生物体:大肠杆菌O86

序列:

mndnvlliga sgfvgtrlle taiadfnikn ldkqqshfyp eitqigdvrd

qqaldqalag fdtvvllaae hrddvsptsl yydvnvqgtr nvlaamekng

vkniiftssv avyglnkhnp denhphdpfn hygkskwqae evlrewynka

ptersltiir ptvifgernr gnvynllkqi aggkfmmvga gtnyksmayv

gnivefikyk lknvaagyev ynyvdkpdln mnqlvaeveq slnkkipsmh

lpyplgmlgg ycfdilskit gkkyavssvr vkkfcattqf datkvhssgf

vapytlsqgl drtlqyefvh akkdditfvs e

SEQ ID NO:7-鲍氏志贺氏菌(Shigella boydii)O18gne的核苷酸序列

基因座ACD09753 BCT 05-MAY-2008

定义UDP-N-乙酰基葡萄糖胺4-差向异构酶[鲍氏志贺氏菌(Shigellaboydii)CDC3083-94]。

检索号ACD09753

长度:993

类型:DNA

生物体:鲍氏志贺氏菌(Shigella boydii)O18

序列:

ATGAACGATA ACGTTTTGCT CATAGGAGCT TCCGGATTCG TAGGAACCCG ACTACTTGAA

ACGGCAATTG CTGACTTTAA TATCAAGAAC CTGGACAAAC AGCAGAGCCA TTTTTATCCA

GCAATCACAC AGATTGGCGA TGTTCGTGAT CAACAGGCAC TCGACCAGGC GTTAGCCGGT

TTTGACACTG TTGTACTACT GGCAGCGGAA CACCGCGATG ACGTCAGCCC TACTTCTCTC

TATTATGATG TCAACGTTCA GGGTACCCGC AATGTGCTGG CGGCCATGGA AAAAAATGGC

GTTAAAAATA TCATCTTTAC CAGTTCCGTT GCTGTTTATG GTTTGAACAA ACACAACCCT

GACGAAAACC ATCCACACGA CCCTTTCAAC CACTACGGCA AAAGTAAGTG GCAGGCAGAG

GAAGTGCTGC GTGAATGGTA TAACAAAGCA CCAACAGAAC GTTCATTAAC CATCATCCGT

CCTACCGTTA TCTTCGGTGA ACGCAACCGC GGTAACGTCT ATAACTTGCT GAAACAGATC

GCTGGCGGCA AGTTTATGAT GGTGGGCGCA GGGACTAACT ATAAGTCCAT GGCTTATGTT

GGAAACATTG TTGAGTTTAT CAAGTACAAA CTGAAGAATG TTGCCGCAGG TTATGAGGTT

TATAACTATG TTGATAAGCC AGACCTGAAC ATGAACCAGT TGGTTGCTGA AGTTGAACAA

AGCCTGAACA AAAAGATCCC TTCTATGCAC TTGCCTTACC CACTAGGAAT GCTGGGTGGA

TATTGCTTTG ATATCCTGAG CAAAATTACG GGCAAAAAAT ACGCTGTCAG CTCTGTGCGC

GTGAAAAAAT TCTGCGCAAC AACACAGTTT GACGCAACGA AAGTGCATTC TTCAGGTTTT

GTGGCACCGT ATACGCTGTC GCAAGGTCTG GATCGAACTC TGCAGTATGA ATTCGTCCAT

GCCAAAAAAG ACGACATAAC GTTTGTTTCT GAG

SEQ ID NO:8-鲍氏志贺氏菌(Shigella boydii)O18UDP-N-乙酰基葡萄糖胺4-差向异构酶的氨基酸序列

基因座ACD09753

检索号ACD09753

长度:331aa线性

类型:PRT

生物体:鲍氏志贺氏菌(Shigella boydii)O18

序列:

mndnvlliga sgfvgtrlle taiadfnikn ldkqqshfyp aitqigdvrd qqaldqalag

fdtvvllaae hrddvsptsl yydvnvqgtr nvlaamekng vkniiftssv avyglnkhnp

denhphdpfn hygkskwqae evlrewynka ptersltiir ptvifgernr gnvynllkqi

aggkfmmvga gtnyksmayv gnivefikyk lknvaagyev ynyvdkpdln mnqlvaeveq

slnkkipsmh lpyplgmlgg ycfdilskit gkkyavssvr vkkfcattqf datkvhssgf

vapytlsqgl drtlqyefvh akkdditfvs e

SEQ ID NO:9-肠沙门氏菌(Salmonella enterica)O30gne的核苷酸序列

基因座 AAV34516 BCT 25-OCT-2004

定义UDP-GlcNAc 4-差向异构酶[肠沙门氏菌(Salmonella enterica)亚种salamae serovar Greenside]。

检索号AAV34516

长度:993

类型:DNA

生物体:肠沙门氏菌(Salmonella enterica)O30

序列:

ATGAACGATA ACGTTTTGCT CATTGGTGCT TCCGGATTCG TAGGAACCCG ACTCCTTGAA

ACGGCAGTGG ATGATTTTAA TATCAAGAAC CTGGATAAAC AGCAAAGCCA TTTCTACCCA

GAGATTACAC ACATTGGCGA TGTTCGTGAC CAACAAATCC TTGACCAGAC GTTGGTGGGT

TTTGACACCG TAGTACTATT GGCTGCGGAG CATCGTGATG ATGTTAGTCC TACCTCGCTT

TATTATGATG TCAACGTCCA GGGAACGCGT AATGTACTGG CGGCGATGGA AAAAAATGGT

GTAAAAAATA TCATTTTTAC CAGTTCCGTT GCAGTTTATG GACTCAACAA GAAAAATCCT

GACGAAACGC ACCCTCACGA TCCCTTTAAT CATTACGGAA AAAGTAAATG GCAAGCAGAA

GAAGTTCTGC GTGAGTGGCA TGCTAAAGCG CCGAATGAGC GTTCTTTGAC CATAATTCGT

CCTACCGTTA TTTTCGGGGA GCGTAACCGC GGTAATGTAT ACAATCTCTT GAAACAGATC

GCTGGTGGTA AATTTGCGAT GGTTGGTCCG GGAACTAACT ATAAATCAAT GGCTTATGTT

GGTAATATCG TTGAGTTTAT CAAATTCAAA CTCAAGAATG TTACGGCGGG CTATGAAGTT

TATAATTATG TTGATAAACC TGATCTGAAT ATGAATCAAT TGGTTGCTGA AGTAGAGCAG

AGCCTGGGCA AAAAAATACC ATCGATGCAC CTTCCATATC CATTAGGTAT GCTGGGGGGT

TACTGTTTCG ATATCCTGAG CAAAGTAACG GGCAAGAAGT ACGCTGTAAG TTCGGTTCGT

GTTAAAAAAT TCTGTGCGAC AACGCAGTTT GATGCAACAA AAGTGCATTC TTCTGGTTTT

GTTGCGCCAT ACACCTTATC TCAGGGGTTG GATCGTACAC TGCAATATGA ATTTGTTCAT

GCAAAGAAAG ATGACATTAC ATTCGTTTCA GAG

SEQ ID NO:10-肠沙门氏菌(Salmonella enterica)O30UDP-GlcNAc 4-差向异构酶的氨基酸序列

基因座 AAV34516

定义UDP-GlcNAc 4-差向异构酶[肠沙门氏菌(Salmonella enterica)亚种salamaeserovar Greenside]。

检索号AAV34516

长度:331aa线性

类型:PRT

生物体:肠沙门氏菌(Salmonella enterica)O30

序列:

mndnvlliga sgfvgtrlle tavddfnikn ldkqqshfyp eithigdvrd qqildqtlvg

fdtvvllaae hrddvsptsl yydvnvqgtr nvlaamekng vkniiftssv avyglnkknp

dethphdpfn hygkskwqae evlrewhaka pnersltiir ptvifgernr gnvynllkqi

aggkfamvgp gtnyksmayv gnivefikfk lknvtagyev ynyvdkpdln mnqlvaeveq

slgkkipsmh lpyplgmlgg ycfdilskvt gkkyavssvr vkkfcattqf datkvhssgf

vapytlsqgl drtlqyefvh akkdditfvs e

SEQ ID NO:11-空肠弯曲杆菌(C.jejuni)gne的核苷酸序列

基因座 YP_002344524 BCT 14-SEP-2010

定义UDP-GlcNAc/Glc 4-差向异构酶[空肠弯曲杆菌空肠亚种(Campylobacterjejuni subsp.jejuni)

检索号 YP_002344524

长度:987

类型:DNA

生物体:空肠弯曲杆菌(C.jejuni)

序列:

ATGAAAATTCTTATTAGCGGTGGTGCAGGTTATATAGGTTCTCATACTTTAAGACAAT

TTTTAAAAACAGATCATGAAATTTGTGTTTTAGATAATCTTTCTAAGGGTTCTAAAAT

CGCAATAGAAGATTTGCAAAAAACAAGAGCTTTTAAATTTTTCGAACAAGATTTAAGT

GATTTTCAAGGCGTAAAAGCATTGTTTGAGAGAGAAAAATTTGACGCTATTGTGCATT

TTGCAGCAAGCATTGAAGTTTTTGAAAGTATGCAAAATCCTTTAAAATATTATATGAA

CAACACTGTTAATACGACAAATCTCATCGAAACTTGTTTGCAAACTGGAGTGAATAAA

TTTATATTTTCTTCAACGGCGGCCACTTATGGCGAACCACAAACTCCCGTTGTGAGCG

AAACAAGTCCTTTAGCACCTATTAATCCTTATGGGCGTAGTAAGCTTATGAGTGAAGA

AGTTTTGCGTGATGCAAGTATGGCAAATCCTGAATTTAAGCATTGTATTTTAAGATAT

TTTAATGTTGCAGGTGCTTGTATGGATTATACTTTAGGACAACGCTATCCAAAAGCGA

CTTTGCTTATAAAAGTTGCAGCTGAATGTGCCGCAGGAAAACGTGATAAACTTTTCAT

ATTTGGCGATGATTATGATACAAAAGATGGTACTTGCATAAGAGATTTTATCCATGTA

GATGATATTTCAAGTGCACATTTAGCGGCTTTGGATTATTTAAAAGAGAATGAAAGCA

ATGTTTTTAATGTAGGTTATGGACATGGTTTTAGCGTAAAAGAAGTGATTGAAGCGAT

GAAAAAAGTTAGCGGAGTGGATTTTAAAGTAGAACTTGCCCCACGCCGTGCGGGTGAT

CCTAGTGTATTGATTTCTGATGCAAGTAAAATCAGAAATCTTACTTCTTGGCAGCCTA

AATATGATGATTTAGAGCTTATTTGTAAATCTGCTTTTGATTGGGAAAAACAGTGTTA

A

SEQ ID NO:12-空肠弯曲杆菌(C.jejuni)UDP-GlcNAc/Glc 4-差向异构酶的氨基酸序列

基因座 YP_002344524

检索号 YP_002344524

长度:328aa线性

类型:PRT

生物体:空肠弯曲杆菌(C.jejuni)

序列:

mkilisggag yigshtlrqf lktdheicvl dnlskgskia iedlqktraf

kffeqdlsdf qgvkalfere kfdaivhfaa sievfesmqn plkyymnntv

nttnlietcl qtgvnkfifs

staatygepq tpvvsetspl apinpygrsk lmseevlrda smanpefkhc

ilryfnvaga cmdytlgqry pkatllikva aecaagkrdk lfifgddydt

kdgtcirdfi hvddissahl

aaldylkene snvfnvgygh gfsvkeviea mkkvsgvdfk velaprragd

psvlisdask irnltswqpk yddlelicks

afdwekqc

SEQ ID NO:13-大肠杆菌K12galE的核苷酸序列

基因座 AP_001390 BCT 30-APR-2010

定义UDP-半乳糖-4-差向异构酶[大肠杆菌菌株K-12亚菌株W3110]。

检索号 AP_001390

长度:1,017

类型:DNA

生物体:大肠杆菌K12

序列:

ATGAGAGTTCTGGTTACCGGTGGTAGCGGTTACATTGGAAGTCATACCTGTGTGCAAT

TACTGCAAAACGGTCATGATGTCATCATTCTTGATAACCTCTGTAACAGTAAGCGCAG

CGTACTGCCTGTTATCGAGCGTTTAGGCGGCAAACATCCAACGTTTGTTGAAGGCGAT

ATTCGTAACGAAGCGTTGATGACCGAGATCCTGCACGATCACGCTATCGACACCGTGA

TCCACTTCGCCGGGCTGAAAGCCGTGGGCGAATCGGTACAAAAACCGCTGGAATATTA

CGACAACAATGTCAACGGCACTCTGCGCCTGATTAGCGCCATGCGCGCCGCTAACGTC

AAAAACTTTATTTTTAGCTCCTCCGCCACCGTTTATGGCGATCAGCCCAAAATTCCAT

ACGTTGAAAGCTTCCCGACCGGCACACCGCAAAGCCCTTACGGCAAAAGCAAGCTGAT

GGTGGAACAGATCCTCACCGATCTGCAAAAAGCCCAGCCGGACTGGAGCATTGCCCTG

CTGCGCTACTTCAACCCGGTTGGCGCGCATCCGTCGGGCGATATGGGCGAAGATCCGC

AAGGCATTCCGAATAACCTGATGCCATACATCGCCCAGGTTGCTGTAGGCCGTCGCGA

CTCGCTGGCGATTTTTGGTAACGATTATCCGACCGAAGATGGTACTGGCGTACGCGAT

TACATCCACGTAATGGATCTGGCGGACGGTCACGTCGTGGCGATGGAAAAACTGGCGA

ACAAGCCAGGCGTACACATCTACAACCTCGGCGCTGGCGTAGGCAACAGCGTGCTGGA

CGTGGTTAATGCCTTCAGCAAAGCCTGCGGCAAACCGGTTAATTATCATTTTGCACCG

CGTCGCGAGGGCGACCTTCCGGCCTACTGGGCGGACGCCAGCAAAGCCGACCGTGAAC

TGAACTGGCGCGTAACGCGCACACTCGATGAAATGGCGCAGGACACCTGGCACTGGCA

GTCACGCCATCCACAGGGATATCCCGATTAA

SEQ ID NO:14-大肠杆菌K12UDP-半乳糖-4-差向异构酶的氨基酸序列

基因座 AP_001390

定义UDP-半乳糖-4-差向异构酶[大肠杆菌菌株K-12亚菌株W3110]。

检索号 AP_001390

长度:338aa线性

类型:PRT

生物体:大肠杆菌K12

序列:

mrvlvtggsgyigshtcvqllqnghdviildnlcnskrsvlpvierlggkhptfvegd

irnealmteilhdhaidtvihfaglkavgesvqkpleyydnnvngtlrlisamraanv

knfifsssatvygdqpkipyvesfptgtpqspygksklmveqiltdlqkaqpdwsial

lryfnpvgahpsgdmgedpqgipnnlmpyiaqvavgrrdslaifgndyptedgtgvrd

yihvmdladghvvameklankpgvhiynlgagvgnsvldvvnafskacgkpvnyhfap

rregdlpaywadaskadrelnwrvtrtldemaqdtwhwqsrhpqgypd

SEQ ID NO:15-大肠杆菌O86gne2的核苷酸序列

基因座 AAV85952 BCT 27-MAR-2005

定义Gne[大肠杆菌O86]。

检索号AAV85952

长度:1,020

类型:DNA

生物体:大肠杆菌O86

序列:

ATGGTGATTT TCGTAACAGG CGGTGCAGGA TATATTGGAT CCCATACCAT ACTTGAGTTA

CTTAATAATG GTCATGATGT CGTTTCGATA GATAATTTTG TCAATTCCTC TATAGAATCA

TTAAAAAGAG TAGAGCAAAT AACTAATAAG AAAATTATTT CTTATCAAGG TGATATCCGT

GATAAAAATC TACTTGATGA GATTTTTTCA AGACACCATA TCGATGCTGT AATTCACTTT

GCATCGTTAA AATCTGTAGG TGAGTCTAAG TTAAAGCCCT TAGAGTATTA TTCTAATAAT

GTTGGTGGAA CTTTAGTATT ACTTGAATGC ATGAAGAGAT ATAACATTAA TAAAATGATA

TTTAGCTCTT CTGCTACTGT TTATGGGAGT AACAGTATCC CTCCCCATAC GGAAGATAGA

CGAATTGGTG AAACTACAAA CCCATATGGG ACATCGAAAT TTATAATAGA AATAATTTTG

AGTGATTATT GTGATAGTGA TAATAATAAA TCAGTAATTG CACTGCGTTA CTTTAATCCA

ATCGGAGCAC ATAAGTCCGG GATGATTGGT GAAAATCCTA ACGGGATCCC TAATAATCTG

GTTCCTTATA TATCTAAAGT TGCACAAAAT CAACTTCCTG TATTAAATAT TTATGGCAAC

GATTATCCAA CTAAAGATGG TACAGGAGTA AGAGACTATA TACATGTCTG TGATTTGGCT

AAAGGGCATG TTAAAGCATT AGAATATATG TTTTTAAATG ATGTCAATTA TGAAGCTTTT

AATTTAGGTA CTGGTCAAGG TTATTCTGTT TTAGAGATTG TAAAAATGTT TGAGATAGTC

ACTAAAAAGA GTATACCTGT TGCTATTTGT AATAGACGTG AGGGGGATGT TGCGGAGTCA

TGGGCGTCTG CTGATTTGGC ACATAAAAAG CTTTCCTGGA AAGCGGAAAA AAATTTGAAA

GAAATGATCG AAGATGTATG GCGTTGGCAA ACAAACAATC CAAATGGATA TAAAAAATAA

SEQ ID NO:16-大肠杆菌O86Gne的氨基酸序列

基因座 AAV85952

定义Gne[大肠杆菌O86]。

检索号AAV85952

长度:339aa(gne2)线性

类型:PRT

生物体:大肠杆菌O86

序列:

mvifvtggag yigshtilel lnnghdvvsi dnfvnssies lkrveqitnk kiisyqgdir

dknlldeifs rhhidavihf aslksvgesk lkpleyysnn vggtlvllec mkryninkmi

fsssatvygs nsipphtedr rigettnpyg tskfiieiil sdycdsdnnk svialryfnp

igahksgmig enpngipnnl vpyiskvaqn qlpvlniygn dyptkdgtgv rdyihvcdla

kghvkaleym flndvnyeaf nlgtgqgysv leivkmfeiv tkksipvaic nrregdvaes

wasadlahkk lswkaeknlk emiedvwrwq tnnpngykk

SEQ ID NO:17-编码Z3206的末端的合成寡核苷酸Z3206-Fw(引物)的核苷酸

序列;限制位点加下画线

长度:30

类型:DNA

序列:AAACCCGGGATGAACGATAACGTTTTGCTC

SEQ ID NO:18-编码Z3206的末端的合成寡核苷酸Z3206-RvHA(引物)并具有血凝素标签(HA标签)的核苷酸序列;限制位点加下画线

长度:60

类型:DNA

生物体:

序列:AAATCTAGATTAAGCGTAATCTGGAAC

ATCGTATGGGTACTCAGAAACAAACGTTATGTC

SEQ ID NO:19-合成寡核苷酸gne-Fw(引物)的核苷酸序列，其中限制位点加下画线

长度:29

类型:DNA

生物体:

序列:AAACCATGGATGAAAATTCTTATTAGCGG

SEQ ID NO:20-合成寡核苷酸gne-RV(引物)的核苷酸序列，其中限制位点加下画线

长度:57

类型:DNA

生物体:

序列:AAATCTAGATTAAGCGTAATCTGGAAC

ATCGTATGGGTAGCACTGTTTTTCCCAATC

SEQ ID NO:21-含有NheI限制酶的限制位点的寡核苷酸的核苷酸序列

长度:11

类型:DNA

生物体:

序列:AAAAAGCTAGC

SEQ ID NO:22-含有AscI限制酶的限制位点的寡核苷酸的核苷酸序列

长度:8

类型:DNA

生物体:

序列:CCGCGCGG

SEQ ID NO:23-编码Z3206的质粒pMLBAD:Z3206(质粒中的大肠杆菌O157***片段)并具有C-端血凝素标签的核苷酸序列

定义产物连接到Z3206-pMLBAD*

特征位置/合格者

CDS 2105..3098

/标记物=Z3206

CDS 3098..3127

/标记物=HA

长度:7794bp

类型:DNA 环状UNA

序列:

1 TCTACGGGGT CTGACGCTCA GTGGAACGAA ATCGATGAGC TCGCACGAAC CCAGTTGACA

61 TAAGCCTGTT CGGTTCGTAA ACTGTAATGC AAGTAGCGTA TGCGCTCACGCAACTGGTCC

121 AGAACCTTGA CCGAACGCAG CGGTGGTAAC GGCGCAGTGG CGGTTTTCATGGCTTGTTAT

181 GACTGTTTTT TTGTACAGTC TAGCCTCGGG CATCCAAGCT AGCTAAGCGCGTTACGCCGT

241 GGGTCGATGT TTGATGTTAT GGAACAGCAA CGATGTTACG CAGCAGGGTAGTCGCCCTAA

301 AACAAAGTTA GGCAGCCGTT GTGCTGGTGC TTTCTAGTAG TTGTTGTGGGGTAGGCAGTC

361 AGAGCTCGAT TTGCTTGTCG CCATAATAGA TTCACAAGAA GGATTCGACATGGGTCAAAG

421 TAGCGATGAA GCCAACGCTC CCGTTGCAGG GCAGTTTGCG CTTCCCCTGAGTGCCACCTT

481 TGGCTTAGGG GATCGCGTAC GCAAGAAATC TGGTGCCGCT TGGCAGGGTCAAGTCGTCGG

541 TTGGTATTGC ACAAAACTCA CTCCTGAAGG CTATGCGGTC GAGTCCGAATCCCACCCAGG

601 CTCAGTGCAA ATTTATCCTG TGGCTGCACT TGAACGTGTG GCCTAAGCGATATCTTAGGA

661 TCTCCCATCG GTGATGTCGG CGATATAGGC GCCAGCAACC GCACCTGTGGCGCCGGTGAT

721 GCCGGCCACG ATGCGTCCGG CGTAGAGGAT CTGCTCATGT TTGACAGCTTATCATCGATG

781 CATAATGTGC CTGTCAAATG GACGAAGCAG GGATTCTGCA AACCCTATGCTACTCCGTCA

841 AGCCGTCAAT TGTCTGATTC GTTACCAATT ATGACAACTT GACGGCTACATCATTCACTT

901 TTTCTTCACA ACCGGCACGG AACTCGCTCG GGCTGGCCCC GGTGCATTTTTTAAATACCC

961 GCGAGAAATA GAGTTGATCG TCAAAACCAA CATTGCGACC GACGGTGGCGATAGGCATCC

1021 GGGTGGTGCT CAAAAGCAGC TTCGCCTGGC TGATACGTTG GTCCTCGCGCCAGCTTAAGA

1081 CGCTAATCCC TAACTGCTGG CGGAAAAGAT GTGACAGACG CGACGGCGACAAGCAAACAT

1141 GCTGTGCGAC GCTGGCGATA TCAAAATTGC TGTCTGCCAG GTGATCGCTGATGTACTGAC

1201 AAGCCTCGCG TACCCGATTA TCCATCGGTG GATGGAGCGA CTCGTTAATCGCTTCCATGC

1261 GCCGCAGTAA CAATTGCTCA AGCAGATTTA TCGCCAGCAG CTCCGAATAGCGCCCTTCCC

1321 CTTGCCCGGC GTTAATGATT TGCCCAAACA GGTCGCTGAA ATGCGGCTGGTGCGCTTCAT

1381 CCGGGCGAAA GAACCCCGTA TTGGCAAATA TTGACGGCCA GTTAAGCCATTCATGCCAGT

1441 AGGCGCGCGG ACGAAAGTAA ACCCACTGGT GATACCATTC GCGAGCCTCCGGATGACGAC

1501 CGTAGTGATG AATCTCTCCT GGCGGGAACA GCAAAATATC ACCCGGTCGGCAAACAAATT

1561 CTCGTCCCTG ATTTTTCACC ACCCCCTGAC CGCGAATGGT GAGATTGAGAATATAACCTT

1621 TCATTCCCAG CGGTCGGTCG ATAAAAAAAT CGAGATAACC GTTGGCCTCAATCGGCGTTA

1681 AACCCGCCAC CAGATGGGCA TTAAACGAGT ATCCCGGCAG CAGGGGATCATTTTGCGCTT

1741 CAGCCATACT TTTCATACTC CCGCCATTCA GAGAAGAAAC CAATTGTCCATATTGCATCA

1801 GACATTGCCG TCACTGCGTC TTTTACTGGC TCTTCTCGCT AACCAAACCGGTAACCCCGC

1861 TTATTAAAAG CATTCTGTAA CAAAGCGGGA CCAAAGCCAT GACAAAAACGCGTAACAAAA

1921 GTGTCTATAA TCACGGCAGA AAAGTCCACA TTGATTATTT GCACGGCGTCACACTTTGCT

1981 ATGCCATAGC ATTTTTATCC ATAAGATTAG CGGATCCTAC CTGACGCTTTTTATCGCAAC

2041 TCTCTACTGT TTCTCCATAC CCGTTTTTTT GGGCTAGCAG GAGGAATTCACCATGGTACC

2101 CGGGATGAAC GATAACGTTT TGCTCATAGG AGCTTCCGGA TTCGTAGGAACCCGACTACT

2161 TGAAACGGCA ATTGCTGACT TTAATATCAA GAACCTGGAC AAACAGCAGAGCCACTTTTA

2221 TCCAGAAATC ACACAGATTG GCGATGTTCG CGATCAACAG GCACTCGACCAGGCGTTAGT

2281 CGGTTTTGAC ACTGTTGTAC TACTGGCAGC GGAACACCGC GATGACGTCAGCCCTACTTC

2341 TCTCTATTAT GATGTCAACG TTCAGGGTAC CCGCAATGTG CTGGCGGCCATGGAAAAAAA

2401 TGGCGTTAAA AATATCATCT TTACCAGTTC CGTTGCTGTT TATGGTTTGAACAAACACAA

2461 CCCTGACGAA AACCATCCAC ACGACCCTTT CAACCACTAC GGCAAAAGTAAGTGGCAGGC

2521 AGAGGAAGTG CTGCGTGAAT GGTATAACAA AGCACCAACA GAACGTTCATTAACCATCAT

2581 CCGTCCTACC GTTATCTTCG GTGAACGCAA CCGCGGTAAC GTCTATAACTTGCTGAAACA

2641 GATCGCTGGC GGCAAGTTTA TGATGGTGGG CGCAGGGACT AACTATAAGTCCATGGCTTA

2701 TGTTGGAAAC ATTGTTGAGT TTATCAAGTA CAAACTGAAG AATGTTGCCGCAGGTTATGA

2761 GGTTTATAAC TACGTTGATA AGCCAGACCT GAACATGAAC CAGTTGGTTGCTGAAGTTGA

2821 ACAAAGCCTG AACAAAAAGA TCCCTTCTAT GCACTTGCCT TACCCACTAGGAATGCTGGG

2881 TGGATATTGC TTTGATATCC TGAGCAAAAT TACGGGCAAA AAATACGCTGTCAGCTCAGT

2941 GCGCGTGAAA AAATTCTGCG CAACAACACA GTTTGACGCA ACGAAAGTGCATTCTTCAGG

3001 TTTTGTGGCA CCGTATACGC TGTCGCAAGG TCTGGATCGA ACACTGCAGTATGAATTCGT

3061 TCATGCCAAA AAAGACGACA TAACGTTTGT TTCTGAGTAC CCATACGATGTTCCAGATTA

3121 CGCTTAATCT AGAGTCGACC TGCAGGCATG CAAGCTTGGC TGTTTTGGCGGATGAGAGAA

3181 GATTTTCAGC CTGATACAGA TTAAATCAGA ACGCAGAAGC GGTCTGATAAAACAGAATTT

3241 GCCTGGCGGC AGTAGCGCGG TGGTCCCACC TGACCCCATG CCGAACTCAGAAGTGAAACG

3301 CCGTAGCGCC GATGGTAGTG TGGGGTCTCC CCATGCGAGA GTAGGGAACTGCCAGGCATC

3361 AAATAAAACG AAAGGCTCAG TCGAAAGACT GGGCCTTTCG TTTTATCTGTTGTTTGTCGG

3421 TGAACGCTCT CCTGAGTAGG ACAAATCCGC CGGGAGCGGA TTTGAACGTTGCGAAGCAAC

3481 GGCCCGGAGG GTGGCGGGCA GGACGCCCGC CATAAACTGC CAGGCATCAAATTAAGCAGA

3541 AGGCCATCCT GACGGATGGC CTTTTTGCGT TTCTACAAAC TCTTCCACTCACTACAGCAG

3601 AGCCATTTAA ACAACATCCC CTCCCCCTTT CCACCGCGTC AGACGCCCGTAGCAGCCCGC

3661 TACGGGCTTT TTCATGCCCT GCCCTAGCGT CCAAGCCTCA CGGCCGCGCTCGGCCTCTCT

3721 GGCGGCCTTC TGGCGCTGAG GTCTGCCTCG TGAAGAAGGT GTTGCTGACTCATACCAGGC

3781 CTGAATCGCC CCATCATCCA GCCAGAAAGT GAGGGAGCCA CGGTTGATGAGAGCTTTGTT

3841 GTAGGTGGAC CAGTTGGTGA TTTTGAACTT TTGCTTTGCC ACGGAACGGTCTGCGTTGTC

3901 GGGAAGATGC GTGATCTGAT CCTTCAACTC AGCAAAAGTT CGATTTATTCAACAAAGCCG

3961 CCGTCCCGTC AAGTCAGCGT AATGCTCTGC CAGTGTTACA ACCAATTAACCAATTCTGAT

4021 TAGAAAAACT CATCGAGCAT CAAATGAAAC TGCAATTTAT TCATATCAGGATTATCAATA

4081 CCATATTTTT GAAAAAGCCG TTTCTGTAAT GAAGGAGAAA ACTCACCGAGGCAGTTCCAT

4141 AGGATGGCAA GATCCTGGTA TCGGTCTGCG ATTCCGACTC GTCCAACATCAATACAACCT

4201 ATTAATTTCC CCTCGTCAAA AATAAGGTTA TCAAGCGAGA AATCACCATGAGTGACGACT

4261 GAATCCGGTG AGAATGGCAA AAGCTAAAAA GGCCGTAATA TCCAGCTGAACGGTCTGGTT

4321 ATAGGTACAT TGAGCAACTG ACTGAAATGC CTCAAAATGT TCTTTACGATGCCATTGGGA

4381 TATATCAACG GTGGTATATC CAGTGATTTT TTTCTCCATT TTAGCTTCCTTAGCTCCTGA

4441 AAATCTCGAT AACTCAAAAA ATACGCCCGG TAGTGATCTT ATTTCATTATGGTGAAAGTT

4501 GGAACCTCTT ACGTGCCGAT CAACGTCTCA TTTTCGCCAA AAGTTGGCCCAGGGCTTCCC

4561 GGTATCAACA GGGACACCAG GATTTATTTA TTCTGCGAAG TGATCTTCCGTCACAGGTAT

4621 TTATTCGAAG ACGAAAGGGC CTCGTGATAC GCCTATTTTT ATAGGTTAATGTCATGATAA

4681 TAATGGTTTC TTAGACGTCA GGTGGCACTT TTCGGGGAAA TGTGCGCGCCCGCGTTCCTG

4741 CTGGCGCTGG GCCTGTTTCT GGCGCTGGAC TTCCCGCTGT TCCGTCAGCAGCTTTTCGCC

4801 CACGGCCTTG ATGATCGCGG CGGCCTTGGC CTGCATATCC CGATTCAACGGCCCCAGGGC

4861 GTCCAGAACG GGCTTCAGGC GCTCCCGAAG GTCTCGGGCC GTCTCTTGGGCTTGATCGGC

4921 CTTCTTGCGC ATCTCACGCG CTCCTGCGGC GGCCTGTAGG GCAGGCTCATACCCCTGCCG

4981 AACCGCTTTT GTCAGCCGGT CGGCCACGGC TTCCGGCGTC TCAACGCGCTTTGAGATTCC

5041 CAGCTTTTCG GCCAATCCCT GCGGTGCATA GGCGCGTGGC TCGACCGCTTGCGGGCTGAT

5101 GGTGACGTGG CCCACTGGTG GCCGCTCCAG GGCCTCGTAG AACGCCTGAATGCGCGTGTG

5161 ACGTGCCTTG CTGCCCTCGA TGCCCCGTTG CAGCCCTAGA TCGGCCACAGCGGCCGCAAA

5221 CGTGGTCTGG TCGCGGGTCA TCTGCGCTTT GTTGCCGATG AACTCCTTGGCCGACAGCCT

5281 GCCGTCCTGC GTCAGCGGCA CCACGAACGC GGTCATGTGC GGGCTGGTTTCGTCACGGTG

5341 GATGCTGGCC GTCACGATGC GATCCGCCCC GTACTTGTCC GCCAGCCACTTGTGCGCCTT

5401 CTCGAAGAAC GCCGCCTGCT GTTCTTGGCT GGCCGACTTC CACCATTCCGGGCTGGCCGT

5461 CATGACGTAC TCGACCGCCA ACACAGCGTC CTTGCGCCGC TTCTCTGGCAGCAACTCGCG

5521 CAGTCGGCCC ATCGCTTCAT CGGTGCTGCT GGCCGCCCAG TGCTCGTTCTCTGGCGTCCT

5581 GCTGGCGTCA GCGTTGGGCG TCTCGCGCTC GCGGTAGGCG TGCTTGAGACTGGCCGCCAC

5641 GTTGCCCATT TTCGCCAGCT TCTTGCATCG CATGATCGCG TATGCCGCCATGCCTGCCCC

5701 TCCCTTTTGG TGTCCAACCG GCTCGACGGG GGCAGCGCAA GGCGGTGCCTCCGGCGGGCC

5761 ACTCAATGCT TGAGTATACT CACTAGACTT TGCTTCGCAA AGTCGTGACCGCCTACGGCG

5821 GCTGCGGCGC CCTACGGGCT TGCTCTCCGG GCTTCGCCCT GCGCGGTCGCTGCGCTCCCT

5881 TGCCAGCCCG TGGATATGTG GACGATGGCC GCGAGCGGCC ACCGGCTGGCTCGCTTCGCT

5941 CGGCCCGTGG ACAACCCTGC TGGACAAGCT GATGGACAGG CTGCGCCTGCCCACGAGCTT

6001 GACCACAGGG ATTGCCCACC GGCTACCCAG CCTTCGACCA CATACCCACCGGCTCCAACT

6061 GCGCGGCCTG CGGCCTTGCC CCATCAATTT TTTTAATTTT CTCTGGGGAAAAGCCTCCGG

6121 CCTGCGGCCT GCGCGCTTCG CTTGCCGGTT GGACACCAAG TGGAAGGCGGGTCAAGGCTC

6181 GCGCAGCGAC CGCGCAGCGG CTTGGCCTTG ACGCGCCTGG AACGACCCAAGCCTATGCGA

6241 GTGGGGGCAG TCGAAGGCGA AGCCCGCCCG CCTGCCCCCC GAGCCTCACGGCGGCGAGTG

6301 CGGGGGTTCC AAGGGGGCAG CGCCACCTTG GGCAAGGCCG AAGGCCGCGCAGTCGATCAA

6361 CAAGCCCCGG AGGGGCCACT TTTTGCCGGA GGGGGAGCCG CGCCGAAGGCGTGGGGGAAC

6421 CCCGCAGGGG TGCCCTTCTT TGGGCACCAA AGAACTAGAT ATAGGGCGAAATGCGAAAGA

6481 CTTAAAAATC AACAACTTAA AAAAGGGGGG TACGCAACAG CTCATTGCGGCACCCCCCGC

6541 AATAGCTCAT TGCGTAGGTT AAAGAAAATC TGTAATTGAC TGCCACTTTTACGCAACGCA

6601 TAATTGTTGT CGCGCTGCCG AAAAGTTGCA GCTGATTGCG CATGGTGCCGCAACCGTGCG

6661 GCACCCTACC GCATGGAGAT AAGCATGGCC ACGCAGTCCA GAGAAATCGGCATTCAAGCC

6721 AAGAACAAGC CCGGTCACTG GGTGCAAACG GAACGCAAAG CGCATGAGGCGTGGGCCGGG

6781 CTTATTGCGA GGAAACCCAC GGCGGCAATG CTGCTGCATC ACCTCGTGGCGCAGATGGGC

6841 CACCAGAACG CCGTGGTGGT CAGCCAGAAG ACACTTTCCA AGCTCATCGGACGTTCTTTG

6901 CGGACGGTCC AATACGCAGT CAAGGACTTG GTGGCCGAGC GCTGGATCTCCGTCGTGAAG

6961 CTCAACGGCC CCGGCACCGT GTCGGCCTAC GTGGTCAATG ACCGCGTGGCGTGGGGCCAG

7021 CCCCGCGACC AGTTGCGCCT GTCGGTGTTC AGTGCCGCCG TGGTGGTTGATCACGACGAC

7081 CAGGACGAAT CGCTGTTGGG GCATGGCGAC CTGCGCCGCA TCCCGACCCTGTATCCGGGC

7141 GAGCAGCAAC TACCGACCGG CCCCGGCGAG GAGCCGCCCA GCCAGCCCGGCATTCCGGGC

7201 ATGGAACCAG ACCTGCCAGC CTTGACCGAA ACGGAGGAAT GGGAACGGCGCGGGCAGCAG

7261 CGCCTGCCGA TGCCCGATGA GCCGTGTTTT CTGGACGATG GCGAGCCGTTGGAGCCGCCG

7321 ACACGGGTCA CGCTGCCGCG CCGGTAGCAC TTGGGTTGCG CAGCAACCCGTAAGTGCGCT

7381 GTTCCAGACT ATCGGCTGTA GCCGCCTCGC CGCCCTATAC CTTGTCTGCCTCCCCGCGTT

7441 GCGTCGCGGT GCATGGAGCC GGGCCACCTC GACCTGAATG GAAGCCGGCGGCACCTCGCT

7501 AACGGATTCA CCGTTTTTAT CAGGCTCTGG GAGGCAGAAT AAATGATCATATCGTCAATT

7561 ATTACCTCCA CGGGGAGAGC CTGAGCAAAC TGGCCTCAGG CATTTGAGAAGCACACGGTC

7621 ACACTGCTTC CGGTAGTCAA TAAACCGGTA AACCAGCAAT AGACATAAGCGGCTATTTAA

7681 CGACCCTGCC CTGAACCGAC GACCGGGTCG AATTTGCTTT CGAATTTCTGCCATTCATCC

7741 GCTTATTATC ACTTATTCAG GCGTAGCACC AGGCGTTTAA GTCGACCAAT AACC

SEQ ID NO:24-编码Gne的pMLBAD:gne(质粒中的大肠杆菌O157***片段)并具有C-端血凝素标签的核苷酸序列

基因座 gne-pMLBAD

定义dig galE连接到pmlbad did(NcoI-XbaI)

特征位置/合格者

CDS 2097..3080

/标记物=galE

CDS 3081..3107

/标记物=HA

区域 3108..3110

/标记物=stop

长度:7776bp

类型:DNA 环状UNA

序列:

1 TCTACGGGGT CTGACGCTCA GTGGAACGAA ATCGATGAGC TCGCACGAAC CCAGTTGACA

61 TAAGCCTGTT CGGTTCGTAA ACTGTAATGC AAGTAGCGTA TGCGCTCACGCAACTGGTCC

121 AGAACCTTGA CCGAACGCAG CGGTGGTAAC GGCGCAGTGG CGGTTTTCATGGCTTGTTAT

181 GACTGTTTTT TTGTACAGTC TAGCCTCGGG CATCCAAGCT AGCTAAGCGCGTTACGCCGT

241 GGGTCGATGT TTGATGTTAT GGAACAGCAA CGATGTTACG CAGCAGGGTAGTCGCCCTAA

301 AACAAAGTTA GGCAGCCGTT GTGCTGGTGC TTTCTAGTAG TTGTTGTGGGGTAGGCAGTC

361 AGAGCTCGAT TTGCTTGTCG CCATAATAGA TTCACAAGAA GGATTCGACATGGGTCAAAG

421 TAGCGATGAA GCCAACGCTC CCGTTGCAGG GCAGTTTGCG CTTCCCCTGAGTGCCACCTT

481 TGGCTTAGGG GATCGCGTAC GCAAGAAATC TGGTGCCGCT TGGCAGGGTCAAGTCGTCGG

541 TTGGTATTGC ACAAAACTCA CTCCTGAAGG CTATGCGGTC GAGTCCGAATCCCACCCAGG

601 CTCAGTGCAA ATTTATCCTG TGGCTGCACT TGAACGTGTG GCCTAAGCGATATCTTAGGA

661 TCTCCCATCG GTGATGTCGG CGATATAGGC GCCAGCAACC GCACCTGTGGCGCCGGTGAT

721 GCCGGCCACG ATGCGTCCGG CGTAGAGGAT CTGCTCATGT TTGACAGCTTATCATCGATG

781 CATAATGTGC CTGTCAAATG GACGAAGCAG GGATTCTGCA AACCCTATGCTACTCCGTCA

841 AGCCGTCAAT TGTCTGATTC GTTACCAATT ATGACAACTT GACGGCTACATCATTCACTT

901 TTTCTTCACA ACCGGCACGG AACTCGCTCG GGCTGGCCCC GGTGCATTTTTTAAATACCC

961 GCGAGAAATA GAGTTGATCG TCAAAACCAA CATTGCGACC GACGGTGGCGATAGGCATCC

1021 GGGTGGTGCT CAAAAGCAGC TTCGCCTGGC TGATACGTTG GTCCTCGCGCCAGCTTAAGA

1081 CGCTAATCCC TAACTGCTGG CGGAAAAGAT GTGACAGACG CGACGGCGACAAGCAAACAT

1141 GCTGTGCGAC GCTGGCGATA TCAAAATTGC TGTCTGCCAG GTGATCGCTGATGTACTGAC

1201 AAGCCTCGCG TACCCGATTA TCCATCGGTG GATGGAGCGA CTCGTTAATCGCTTCCATGC

1261 GCCGCAGTAA CAATTGCTCA AGCAGATTTA TCGCCAGCAG CTCCGAATAGCGCCCTTCCC

1321 CTTGCCCGGC GTTAATGATT TGCCCAAACA GGTCGCTGAA ATGCGGCTGGTGCGCTTCAT

1381 CCGGGCGAAA GAACCCCGTA TTGGCAAATA TTGACGGCCA GTTAAGCCATTCATGCCAGT

1441 AGGCGCGCGG ACGAAAGTAA ACCCACTGGT GATACCATTC GCGAGCCTCCGGATGACGAC

1501 CGTAGTGATG AATCTCTCCT GGCGGGAACA GCAAAATATC ACCCGGTCGGCAAACAAATT

1561 CTCGTCCCTG ATTTTTCACC ACCCCCTGAC CGCGAATGGT GAGATTGAGAATATAACCTT

1621 TCATTCCCAG CGGTCGGTCG ATAAAAAAAT CGAGATAACC GTTGGCCTCAATCGGCGTTA

1681 AACCCGCCAC CAGATGGGCA TTAAACGAGT ATCCCGGCAG CAGGGGATCATTTTGCGCTT

1741 CAGCCATACT TTTCATACTC CCGCCATTCA GAGAAGAAAC CAATTGTCCATATTGCATCA

1801 GACATTGCCG TCACTGCGTC TTTTACTGGC TCTTCTCGCT AACCAAACCGGTAACCCCGC

1861 TTATTAAAAG CATTCTGTAA CAAAGCGGGA CCAAAGCCAT GACAAAAACGCGTAACAAAA

1921 GTGTCTATAA TCACGGCAGA AAAGTCCACA TTGATTATTT GCACGGCGTCACACTTTGCT

1981 ATGCCATAGC ATTTTTATCC ATAAGATTAG CGGATCCTAC CTGACGCTTTTTATCGCAAC

2041 TCTCTACTGT TTCTCCATAC CCGTTTTTTT GGGCTAGCAG GAGGAATTCACCATGGATGA

2101 AAATTCTTAT TAGCGGTGGT GCAGGTTATA TAGGTTCTCA TACTTTAAGACAATTTTTAA

2161 AAACAGATCA TGAAATTTGT GTTTTAGATA ATCTTTCTAA GGGTTCTAAAATCGCAATAG

2221 AAGATTTGCA AAAAATAAGA ACTTTTAAAT TTTTTGAACA AGATTTAAGTGATTTTCAAG

2281 GCGTAAAAGC ATTGTTTGAG AGAGAAAAAT TTGACGCTAT TGTGCATTTTGCAGCGAGCA

2341 TTGAAGTTTT TGAAAGTATG CAAAACCCTT TAAAGTATTA TATGAATAACACTGTTAATA

2401 CGACAAATCT CATCGAAACT TGTTTGCAAA CTGGAGTGAA TAAATTTATATTTTCTTCAA

2461 CGGCAGCCAC TTATGGCGAA CCACAAACTC CCGTTGTGAG CGAAACAAGTCCTTTAGCAC

2521 CTATTAATCC TTATGGGCGT AGTAAGCTTA TGAGCGAAGA GGTTTTGCGTGATGCAAGTA

2581 TGGCAAATCC TGAATTTAAG CATTGTATTT TAAGATATTT TAATGTTGCAGGTGCTTGCA

2641 TGGATTATAC TTTAGGACAA CGCTATCCAA AAGCGACTTT GCTTATAAAAGTTGCAGCTG

2701 AATGTGCCGC AGAAAAACGT AATAAACTTT TCATATTTGG CGATGATTATGATACAAAAG

2761 ATGGCACTTG CATAAGAGAT TTTATCCATG TGGATGATAT TTCAAGTGCGCATTTATCGG

2821 CTTTGGATTA TTTAAAAGAG AATGAAAGCA ATGTTTTTAA TGTAGGTTATGGACATGGTT

2881 TTAGCGTAAA AGAAGTGATT GAAGCGATGA AAAAAGTTAG CGGAGTGGATTTTAAAGTAG

2941 AACTTGCCCC ACGCCGTGCG GGTGATCCTA GTGTATTGAT TTCTGATGCAAGTAAAATCA

3001 GAAATCTTAC TTCTTGGCAG CCTAAATATG ATGATTTAGG GCTTATTTGTAAATCTGCTT

3061 TTGATTGGGA AAAACAGTGC TACCCATACG ATGTTCCAGA TTACGCTTAATCTAGAGTCG

3121 ACCTGCAGGC ATGCAAGCTT GGCTGTTTTG GCGGATGAGA GAAGATTTTCAGCCTGATAC

3181 AGATTAAATC AGAACGCAGA AGCGGTCTGA TAAAACAGAA TTTGCCTGGCGGCAGTAGCG

3241 CGGTGGTCCC ACCTGACCCC ATGCCGAACT CAGAAGTGAA ACGCCGTAGCGCCGATGGTA

3301 GTGTGGGGTC TCCCCATGCG AGAGTAGGGA ACTGCCAGGC ATCAAATAAAACGAAAGGCT

3361 CAGTCGAAAG ACTGGGCCTT TCGTTTTATC TGTTGTTTGT CGGTGAACGCTCTCCTGAGT

3421 AGGACAAATC CGCCGGGAGC GGATTTGAAC GTTGCGAAGC AACGGCCCGGAGGGTGGCGG

3481 GCAGGACGCC CGCCATAAAC TGCCAGGCAT CAAATTAAGC AGAAGGCCATCCTGACGGAT

3541 GGCCTTTTTG CGTTTCTACA AACTCTTCCA CTCACTACAG CAGAGCCATTTAAACAACAT

3601 CCCCTCCCCC TTTCCACCGC GTCAGACGCC CGTAGCAGCC CGCTACGGGCTTTTTCATGC

3661 CCTGCCCTAG CGTCCAAGCC TCACGGCCGC GCTCGGCCTC TCTGGCGGCCTTCTGGCGCT

3721 GAGGTCTGCC TCGTGAAGAA GGTGTTGCTG ACTCATACCA GGCCTGAATCGCCCCATCAT

3781 CCAGCCAGAA AGTGAGGGAG CCACGGTTGA TGAGAGCTTT GTTGTAGGTGGACCAGTTGG

3841 TGATTTTGAA CTTTTGCTTT GCCACGGAAC GGTCTGCGTT GTCGGGAAGATGCGTGATCT

3901 GATCCTTCAA CTCAGCAAAA GTTCGATTTA TTCAACAAAG CCGCCGTCCCGTCAAGTCAG

3961 CGTAATGCTC TGCCAGTGTT ACAACCAATT AACCAATTCT GATTAGAAAAACTCATCGAG

4021 CATCAAATGA AACTGCAATT TATTCATATC AGGATTATCA ATACCATATTTTTGAAAAAG

4081 CCGTTTCTGT AATGAAGGAG AAAACTCACC GAGGCAGTTC CATAGGATGGCAAGATCCTG

4141 GTATCGGTCT GCGATTCCGA CTCGTCCAAC ATCAATACAA CCTATTAATTTCCCCTCGTC

4201 AAAAATAAGG TTATCAAGCG AGAAATCACC ATGAGTGACG ACTGAATCCGGTGAGAATGG

4261 CAAAAGCTAA AAAGGCCGTA ATATCCAGCT GAACGGTCTG GTTATAGGTACATTGAGCAA

4321 CTGACTGAAA TGCCTCAAAA TGTTCTTTAC GATGCCATTG GGATATATCAACGGTGGTAT

4381 ATCCAGTGAT TTTTTTCTCC ATTTTAGCTT CCTTAGCTCC TGAAAATCTCGATAACTCAA

4441 AAAATACGCC CGGTAGTGAT CTTATTTCAT TATGGTGAAA GTTGGAACCTCTTACGTGCC

4501 GATCAACGTC TCATTTTCGC CAAAAGTTGG CCCAGGGCTT CCCGGTATCAACAGGGACAC

4561 CAGGATTTAT TTATTCTGCG AAGTGATCTT CCGTCACAGG TATTTATTCGAAGACGAAAG

4621 GGCCTCGTGA TACGCCTATT TTTATAGGTT AATGTCATGA TAATAATGGTTTCTTAGACG

4681 TCAGGTGGCA CTTTTCGGGG AAATGTGCGC GCCCGCGTTC CTGCTGGCGCTGGGCCTGTT

4741 TCTGGCGCTG GACTTCCCGC TGTTCCGTCA GCAGCTTTTC GCCCACGGCCTTGATGATCG

4801 CGGCGGCCTT GGCCTGCATA TCCCGATTCA ACGGCCCCAG GGCGTCCAGAACGGGCTTCA

4861 GGCGCTCCCG AAGGTCTCGG GCCGTCTCTT GGGCTTGATC GGCCTTCTTGCGCATCTCAC

4921 GCGCTCCTGC GGCGGCCTGT AGGGCAGGCT CATACCCCTG CCGAACCGCTTTTGTCAGCC

4981 GGTCGGCCAC GGCTTCCGGC GTCTCAACGC GCTTTGAGAT TCCCAGCTTTTCGGCCAATC

5041 CCTGCGGTGC ATAGGCGCGT GGCTCGACCG CTTGCGGGCT GATGGTGACGTGGCCCACTG

5101 GTGGCCGCTC CAGGGCCTCG TAGAACGCCT GAATGCGCGT GTGACGTGCCTTGCTGCCCT

5161 CGATGCCCCG TTGCAGCCCT AGATCGGCCA CAGCGGCCGC AAACGTGGTCTGGTCGCGGG

5221 TCATCTGCGC TTTGTTGCCG ATGAACTCCT TGGCCGACAG CCTGCCGTCCTGCGTCAGCG

5281 GCACCACGAA CGCGGTCATG TGCGGGCTGG TTTCGTCACG GTGGATGCTGGCCGTCACGA

5341 TGCGATCCGC CCCGTACTTG TCCGCCAGCC ACTTGTGCGC CTTCTCGAAGAACGCCGCCT

5401 GCTGTTCTTG GCTGGCCGAC TTCCACCATT CCGGGCTGGC CGTCATGACGTACTCGACCG

5461 CCAACACAGC GTCCTTGCGC CGCTTCTCTG GCAGCAACTC GCGCAGTCGGCCCATCGCTT

5521 CATCGGTGCT GCTGGCCGCC CAGTGCTCGT TCTCTGGCGT CCTGCTGGCGTCAGCGTTGG

5581 GCGTCTCGCG CTCGCGGTAG GCGTGCTTGA GACTGGCCGC CACGTTGCCCATTTTCGCCA

5641 GCTTCTTGCA TCGCATGATC GCGTATGCCG CCATGCCTGC CCCTCCCTTTTGGTGTCCAA

5701 CCGGCTCGAC GGGGGCAGCG CAAGGCGGTG CCTCCGGCGG GCCACTCAATGCTTGAGTAT

5761 ACTCACTAGA CTTTGCTTCG CAAAGTCGTG ACCGCCTACG GCGGCTGCGGCGCCCTACGG

5821 GCTTGCTCTC CGGGCTTCGC CCTGCGCGGT CGCTGCGCTC CCTTGCCAGCCCGTGGATAT

5881 GTGGACGATG GCCGCGAGCG GCCACCGGCT GGCTCGCTTC GCTCGGCCCGTGGACAACCC

5941 TGCTGGACAA GCTGATGGAC AGGCTGCGCC TGCCCACGAG CTTGACCACAGGGATTGCCC

6001 ACCGGCTACC CAGCCTTCGA CCACATACCC ACCGGCTCCA ACTGCGCGGCCTGCGGCCTT

6061 GCCCCATCAA TTTTTTTAAT TTTCTCTGGG GAAAAGCCTC CGGCCTGCGGCCTGCGCGCT

6121 TCGCTTGCCG GTTGGACACC AAGTGGAAGG CGGGTCAAGG CTCGCGCAGCGACCGCGCAG

6181 CGGCTTGGCC TTGACGCGCC TGGAACGACC CAAGCCTATG CGAGTGGGGGCAGTCGAAGG

6241 CGAAGCCCGC CCGCCTGCCC CCCGAGCCTC ACGGCGGCGA GTGCGGGGGTTCCAAGGGGG

6301 CAGCGCCACC TTGGGCAAGG CCGAAGGCCG CGCAGTCGAT CAACAAGCCCCGGAGGGGCC

6361 ACTTTTTGCC GGAGGGGGAG CCGCGCCGAA GGCGTGGGGG AACCCCGCAGGGGTGCCCTT

6421 CTTTGGGCAC CAAAGAACTA GATATAGGGC GAAATGCGAA AGACTTAAAAATCAACAACT

6481 TAAAAAAGGG GGGTACGCAA CAGCTCATTG CGGCACCCCC CGCAATAGCTCATTGCGTAG

6541 GTTAAAGAAA ATCTGTAATT GACTGCCACT TTTACGCAAC GCATAATTGTTGTCGCGCTG

6601 CCGAAAAGTT GCAGCTGATT GCGCATGGTG CCGCAACCGT GCGGCACCCTACCGCATGGA

6661 GATAAGCATG GCCACGCAGT CCAGAGAAAT CGGCATTCAA GCCAAGAACAAGCCCGGTCA

6721 CTGGGTGCAA ACGGAACGCA AAGCGCATGA GGCGTGGGCC GGGCTTATTGCGAGGAAACC

6781 CACGGCGGCA ATGCTGCTGC ATCACCTCGT GGCGCAGATG GGCCACCAGAACGCCGTGGT

6841 GGTCAGCCAG AAGACACTTT CCAAGCTCAT CGGACGTTCT TTGCGGACGGTCCAATACGC

6901 AGTCAAGGAC TTGGTGGCCG AGCGCTGGAT CTCCGTCGTG AAGCTCAACGGCCCCGGCAC

6961 CGTGTCGGCC TACGTGGTCA ATGACCGCGT GGCGTGGGGC CAGCCCCGCGACCAGTTGCG

7021 CCTGTCGGTG TTCAGTGCCG CCGTGGTGGT TGATCACGAC GACCAGGACGAATCGCTGTT

7081 GGGGCATGGC GACCTGCGCC GCATCCCGAC CCTGTATCCG GGCGAGCAGCAACTACCGAC

7141 CGGCCCCGGC GAGGAGCCGC CCAGCCAGCC CGGCATTCCG GGCATGGAACCAGACCTGCC

7201 AGCCTTGACC GAAACGGAGG AATGGGAACG GCGCGGGCAG CAGCGCCTGCCGATGCCCGA

7261 TGAGCCGTGT TTTCTGGACG ATGGCGAGCC GTTGGAGCCG CCGACACGGGTCACGCTGCC

7321 GCGCCGGTAG CACTTGGGTT GCGCAGCAAC CCGTAAGTGC GCTGTTCCAGACTATCGGCT

7381 GTAGCCGCCT CGCCGCCCTA TACCTTGTCT GCCTCCCCGC GTTGCGTCGCGGTGCATGGA

7441 GCCGGGCCAC CTCGACCTGA ATGGAAGCCG GCGGCACCTC GCTAACGGATTCACCGTTTT

7501 TATCAGGCTC TGGGAGGCAG AATAAATGAT CATATCGTCA ATTATTACCTCCACGGGGAG

7561 AGCCTGAGCA AACTGGCCTC AGGCATTTGA GAAGCACACG GTCACACTGCTTCCGGTAGT

7621 CAATAAACCG GTAAACCAGC AATAGACATA AGCGGCTATT TAACGACCCTGCCCTGAACC

7681 GACGACCGGG TCGAATTTGC TTTCGAATTT CTGCCATTCA TCCGCTTATTATCACTTATT

7741 CAGGCGTAGC ACCAGGCGTT TAAGTCGACC AATAAC

SEQ ID NO:25-具有信号序列的修饰EPA的氨基酸序列

公开于WO 2009/104074(作为SEQ ID NO.6)

类型:PRT

生物体:人工的

/注释=″人工序列的描述:合成多肽″

长度:643

序列:

SEQ ID NO:26-PglB的氨基酸序列

公开于WO 2009/104074(作为SEQ ID NO.2)

长度:722

类型:PRT

生物体:空肠弯曲杆菌(Campylobacter jejuni)

序列:

SEQ ID NO:27-pCC1FOS空质粒的核苷酸序列

ORIGIN

长度:8171bp

类型:DNA 环状UNA

生物体:人工的

序列:

1 GCGGCCGCAA GGGGTTCGCG TCAGCGGGTG TTGGCGGGTG TCGGGGCTGGCTTAACTATG

61 CGGCATCAGA GCAGATTGTA CTGAGAGTGC ACCATATGCG GTGTGAAATACCGCACAGAT

121 GCGTAAGGAG AAAATACCGC ATCAGGCGCC ATTCGCCATT CAGCTGCGCAACTGTTGGGA

181 AGGGCGATCG GTGCGGGCCT CTTCGCTATT ACGCCAGCTG GCGAAAGGGGGATGTGCTGC

241 AAGGCGATTA AGTTGGGTAA CGCCAGGGTT TTCCCAGTCA CGACGTTGTAAAACGACGGC

301 CAGTGAATTG TAATACGACT CACTATAGGG CGAATTCGAG CTCGGTACCCGGGGATCCCA

361 CGTGGCGCGC CACTAGTGCT AGCGACGTCG TGGGATCCTC TAGAGTCGACCTGCAGGCAT

421 GCAAGCTTGA GTATTCTATA GTCTCACCTA AATAGCTTGG CGTAATCATGGTCATAGCTG

481 TTTCCTGTGT GAAATTGTTA TCCGCTCACA ATTCCACACA ACATACGAGCCGGAAGCATA

541 AAGTGTAAAG CCTGGGGTGC CTAATGAGTG AGCTAACTCA CATTAATTGCGTTGCGCTCA

601 CTGCCCGCTT TCCAGTCGGG AAACCTGTCG TGCCAGCTGC ATTAATGAATCGGCCAACGC

661 GAACCCCTTG CGGCCGCCCG GGCCGTCGAC CAATTCTCAT GTTTGACAGCTTATCATCGA

721 ATTTCTGCCA TTCATCCGCT TATTATCACT TATTCAGGCG TAGCAACCAGGCGTTTAAGG

781 GCACCAATAA CTGCCTTAAA AAAATTACGC CCCGCCCTGC CACTCATCGCAGTACTGTTG

841 TAATTCATTA AGCATTCTGC CGACATGGAA GCCATCACAA ACGGCATGATGAACCTGAAT

901 CGCCAGCGGC ATCAGCACCT TGTCGCCTTG CGTATAATAT TTGCCCATGGTGAAAACGGG

961 GGCGAAGAAG TTGTCCATAT TGGCCACGTT TAAATCAAAA CTGGTGAAACTCACCCAGGG

1021 ATTGGCTGAG ACGAAAAACA TATTCTCAAT AAACCCTTTA GGGAAATAGGCCAGGTTTTC

1081 ACCGTAACAC GCCACATCTT GCGAATATAT GTGTAGAAAC TGCCGGAAATCGTCGTGGTA

1141 TTCACTCCAG AGCGATGAAA ACGTTTCAGT TTGCTCATGG AAAACGGTGTAACAAGGGTG

1201 AACACTATCC CATATCACCA GCTCACCGTC TTTCATTGCC ATACGAAATTCCGGATGAGC

1261 ATTCATCAGG CGGGCAAGAA TGTGAATAAA GGCCGGATAA AACTTGTGCTTATTTTTCTT

1321 TACGGTCTTT AAAAAGGCCG TAATATCCAG CTGAACGGTC TGGTTATAGGTACATTGAGC

1381 AACTGACTGA AATGCCTCAA AATGTTCTTT ACGATGCCAT TGGGATATATCAACGGTGGT

1441 ATATCCAGTG ATTTTTTTCT CCATTTTAGC TTCCTTAGCT CCTGAAAATCTCGATAACTC

1501 AAAAAATACG CCCGGTAGTG ATCTTATTTC ATTATGGTGA AAGTTGGAACCTCTTACGTG

1561 CCGATCAACG TCTCATTTTC GCCAAAAGTT GGCCCAGGGC TTCCCGGTATCAACAGGGAC

1621 ACCAGGATTT ATTTATTCTG CGAAGTGATC TTCCGTCACA GGTATTTATTCGCGATAAGC

1681 TCATGGAGCG GCGTAACCGT CGCACAGGAA GGACAGAGAA AGCGCGGATCTGGGAAGTGA

1741 CGGACAGAAC GGTCAGGACC TGGATTGGGG AGGCGGTTGC CGCCGCTGCTGCTGACGGTG

1801 TGACGTTCTC TGTTCCGGTC ACACCACATA CGTTCCGCCA TTCCTATGCGATGCACATGC

1861 TGTATGCCGG TATACCGCTG AAAGTTCTGC AAAGCCTGAT GGGACATAAGTCCATCAGTT

1921 CAACGGAAGT CTACACGAAG GTTTTTGCGC TGGATGTGGC TGCCCGGCACCGGGTGCAGT

1981 TTGCGATGCC GGAGTCTGAT GCGGTTGCGA TGCTGAAACA ATTATCCTGAGAATAAATGC

2041 CTTGGCCTTT ATATGGAAAT GTGGAACTGA GTGGATATGC TGTTTTTGTCTGTTAAACAG

2101 AGAAGCTGGC TGTTATCCAC TGAGAAGCGA ACGAAACAGT CGGGAAAATCTCCCATTATC

2161 GTAGAGATCC GCATTATTAA TCTCAGGAGC CTGTGTAGCG TTTATAGGAAGTAGTGTTCT

2221 GTCATGATGC CTGCAAGCGG TAACGAAAAC GATTTGAATA TGCCTTCAGGAACAATAGAA

2281 ATCTTCGTGC GGTGTTACGT TGAAGTGGAG CGGATTATGT CAGCAATGGACAGAACAACC

2341 TAATGAACAC AGAACCATGA TGTGGTCTGT CCTTTTACAG CCAGTAGTGCTCGCCGCAGT

2401 CGAGCGACAG GGCGAAGCCC TCGGCTGGTT GCCCTCGCCG CTGGGCTGGCGGCCGTCTAT

2461 GGCCCTGCAA ACGCGCCAGA AACGCCGTCG AAGCCGTGTG CGAGACACCGCGGCCGGCCG

2521 CCGGCGTTGT GGATACCTCG CGGAAAACTT GGCCCTCACT GACAGATGAGGGGCGGACGT

2581 TGACACTTGA GGGGCCGACT CACCCGGCGC GGCGTTGACA GATGAGGGGCAGGCTCGATT

2641 TCGGCCGGCG ACGTGGAGCT GGCCAGCCTC GCAAATCGGC GAAAACGCCTGATTTTACGC

2701 GAGTTTCCCA CAGATGATGT GGACAAGCCT GGGGATAAGT GCCCTGCGGTATTGACACTT

2761 GAGGGGCGCG ACTACTGACA GATGAGGGGC GCGATCCTTG ACACTTGAGGGGCAGAGTGC

2821 TGACAGATGA GGGGCGCACC TATTGACATT TGAGGGGCTG TCCACAGGCAGAAAATCCAG

2881 CATTTGCAAG GGTTTCCGCC CGTTTTTCGG CCACCGCTAA CCTGTCTTTTAACCTGCTTT

2941 TAAACCAATA TTTATAAACC TTGTTTTTAA CCAGGGCTGC GCCCTGTGCGCGTGACCGCG

3001 CACGCCGAAG GGGGGTGCCC CCCCTTCTCG AACCCTCCCG GTCGAGTGAGCGAGGAAGCA

3061 CCAGGGAACA GCACTTATAT ATTCTGCTTA CACACGATGC CTGAAAAAACTTCCCTTGGG

3121 GTTATCCACT TATCCACGGG GATATTTTTA TAATTATTTT TTTTATAGTTTTTAGATCTT

3181 CTTTTTTAGA GCGCCTTGTA GGCCTTTATC CATGCTGGTT CTAGAGAAGGTGTTGTGACA

3241 AATTGCCCTT TCAGTGTGAC AAATCACCCT CAAATGACAG TCCTGTCTGTGACAAATTGC

3301 CCTTAACCCT GTGACAAATT GCCCTCAGAA GAAGCTGTTT TTTCACAAAGTTATCCCTGC

3361 TTATTGACTC TTTTTTATTT AGTGTGACAA TCTAAAAACT TGTCACACTTCACATGGATC

3421 TGTCATGGCG GAAACAGCGG TTATCAATCA CAAGAAACGT AAAAATAGCCCGCGAATCGT

3481 CCAGTCAAAC GACCTCACTG AGGCGGCATA TAGTCTCTCC CGGGATCAAAAACGTATGCT

3541 GTATCTGTTC GTTGACCAGA TCAGAAAATC TGATGGCACC CTACAGGAACATGACGGTAT

3601 CTGCGAGATC CATGTTGCTA AATATGCTGA AATATTCGGA TTGACCTCTGCGGAAGCCAG

3661 TAAGGATATA CGGCAGGCAT TGAAGAGTTT CGCGGGGAAG GAAGTGGTTTTTTATCGCCC

3721 TGAAGAGGAT GCCGGCGATG AAAAAGGCTA TGAATCTTTT CCTTGGTTTATCAAACGTGC

3781 GCACAGTCCA TCCAGAGGGC TTTACAGTGT ACATATCAAC CCATATCTCATTCCCTTCTT

3841 TATCGGGTTA CAGAACCGGT TTACGCAGTT TCGGCTTAGT GAAACAAAAGAAATCACCAA

3901 TCCGTATGCC ATGCGTTTAT ACGAATCCCT GTGTCAGTAT CGTAAGCCGGATGGCTCAGG

3961 CATCGTCTCT CTGAAAATCG ACTGGATCAT AGAGCGTTAC CAGCTGCCTCAAAGTTACCA

4021 GCGTATGCCT GACTTCCGCC GCCGCTTCCT GCAGGTCTGT GTTAATGAGATCAACAGCAG

4081 AACTCCAATG CGCCTCTCAT ACATTGAGAA AAAGAAAGGC CGCCAGACGACTCATATCGT

4141 ATTTTCCTTC CGCGATATCA CTTCCATGAC GACAGGATAG TCTGAGGGTTATCTGTCACA

4201 GATTTGAGGG TGGTTCGTCA CATTTGTTCT GACCTACTGA GGGTAATTTGTCACAGTTTT

4261 GCTGTTTCCT TCAGCCTGCA TGGATTTTCT CATACTTTTT GAACTGTAATTTTTAAGGAA

4321 GCCAAATTTG AGGGCAGTTT GTCACAGTTG ATTTCCTTCT CTTTCCCTTCGTCATGTGAC

4381 CTGATATCGG GGGTTAGTTC GTCATCATTG ATGAGGGTTG ATTATCACAGTTTATTACTC

4441 TGAATTGGCT ATCCGCGTGT GTACCTCTAC CTGGAGTTTT TCCCACGGTGGATATTTCTT

4501 CTTGCGCTGA GCGTAAGAGC TATCTGACAG AACAGTTCTT CTTTGCTTCCTCGCCAGTTC

4561 GCTCGCTATG CTCGGTTACA CGGCTGCGGC GAGCGCTAGT GATAATAAGTGACTGAGGTA

4621 TGTGCTCTTC TTATCTCCTT TTGTAGTGTT GCTCTTATTT TAAACAACTTTGCGGTTTTT

4681 TGATGACTTT GCGATTTTGT TGTTGCTTTG CAGTAAATTG CAAGATTTAATAAAAAAACG

4741 CAAAGCAATG ATTAAAGGAT GTTCAGAATG AAACTCATGG AAACACTTAACCAGTGCATA

4801 AACGCTGGTC ATGAAATGAC GAAGGCTATC GCCATTGCAC AGTTTAATGATGACAGCCCG

4861 GAAGCGAGGA AAATAACCCG GCGCTGGAGA ATAGGTGAAG CAGCGGATTTAGTTGGGGTT

4921 TCTTCTCAGG CTATCAGAGA TGCCGAGAAA GCAGGGCGAC TACCGCACCCGGATATGGAA

4981 ATTCGAGGAC GGGTTGAGCA ACGTGTTGGT TATACAATTG AACAAATTAATCATATGCGT

5041 GATGTGTTTG GTACGCGATT GCGACGTGCT GAAGACGTAT TTCCACCGGTGATCGGGGTT

5101 GCTGCCCATA AAGGTGGCGT TTACAAAACC TCAGTTTCTG TTCATCTTGCTCAGGATCTG

5161 GCTCTGAAGG GGCTACGTGT TTTGCTCGTG GAAGGTAACG ACCCCCAGGGAACAGCCTCA

5221 ATGTATCACG GATGGGTACC AGATCTTCAT ATTCATGCAG AAGACACTCTCCTGCCTTTC

5281 TATCTTGGGG AAAAGGACGA TGTCACTTAT GCAATAAAGC CCACTTGCTGGCCGGGGCTT

5341 GACATTATTC CTTCCTGTCT GGCTCTGCAC CGTATTGAAA CTGAGTTAATGGGCAAATTT

5401 GATGAAGGTA AACTGCCCAC CGATCCACAC CTGATGCTCC GACTGGCCATTGAAACTGTT

5461 GCTCATGACT ATGATGTCAT AGTTATTGAC AGCGCGCCTA ACCTGGGTATCGGCACGATT

5521 AATGTCGTAT GTGCTGCTGA TGTGCTGATT GTTCCCACGC CTGCTGAGTTGTTTGACTAC

5581 ACCTCCGCAC TGCAGTTTTT CGATATGCTT CGTGATCTGC TCAAGAACGTTGATCTTAAA

5641 GGGTTCGAGC CTGATGTACG TATTTTGCTT ACCAAATACA GCAATAGTAATGGCTCTCAG

5701 TCCCCGTGGA TGGAGGAGCA AATTCGGGAT GCCTGGGGAA GCATGGTTCTAAAAAATGTT

5761 GTACGTGAAA CGGATGAAGT TGGTAAAGGT CAGATCCGGA TGAGAACTGTTTTTGAACAG

5821 GCCATTGATC AACGCTCTTC AACTGGTGCC TGGAGAAATG CTCTTTCTATTTGGGAACCT

5881 GTCTGCAATG AAATTTTCGA TCGTCTGATT AAACCACGCT GGGAGATTAGATAATGAAGC

5941 GTGCGCCTGT TATTCCAAAA CATACGCTCA ATACTCAACC GGTTGAAGATACTTCGTTAT

6001 CGACACCAGC TGCCCCGATG GTGGATTCGT TAATTGCGCG CGTAGGAGTAATGGCTCGCG

6061 GTAATGCCAT TACTTTGCCT GTATGTGGTC GGGATGTGAA GTTTACTCTTGAAGTGCTCC

6121 GGGGTGATAG TGTTGAGAAG ACCTCTCGGG TATGGTCAGG TAATGAACGTGACCAGGAGC

6181 TGCTTACTGA GGACGCACTG GATGATCTCA TCCCTTCTTT TCTACTGACTGGTCAACAGA

6241 CACCGGCGTT CGGTCGAAGA GTATCTGGTG TCATAGAAAT TGCCGATGGGAGTCGCCGTC

6301 GTAAAGCTGC TGCACTTACC GAAAGTGATT ATCGTGTTCT GGTTGGCGAGCTGGATGATG

6361 AGCAGATGGC TGCATTATCC AGATTGGGTA ACGATTATCG CCCAACAAGTGCTTATGAAC

6421 GTGGTCAGCG TTATGCAAGC CGATTGCAGA ATGAATTTGC TGGAAATATTTCTGCGCTGG

6481 CTGATGCGGA AAATATTTCA CGTAAGATTA TTACCCGCTG TATCAACACCGCCAAATTGC

6541 CTAAATCAGT TGTTGCTCTT TTTTCTCACC CCGGTGAACT ATCTGCCCGGTCAGGTGATG

6601 CACTTCAAAA AGCCTTTACA GATAAAGAGG AATTACTTAA GCAGCAGGCATCTAACCTTC

6661 ATGAGCAGAA AAAAGCTGGG GTGATATTTG AAGCTGAAGA AGTTATCACTCTTTTAACTT

6721 CTGTGCTTAA AACGTCATCT GCATCAAGAA CTAGTTTAAG CTCACGACATCAGTTTGCTC

6781 CTGGAGCGAC AGTATTGTAT AAGGGCGATA AAATGGTGCT TAACCTGGACAGGTCTCGTG

6841 TTCCAACTGA GTGTATAGAG AAAATTGAGG CCATTCTTAA GGAACTTGAAAAGCCAGCAC

6901 CCTGATGCGA CCACGTTTTA GTCTACGTTT ATCTGTCTTT ACTTAATGTCCTTTGTTACA

6961 GGCCAGAAAG CATAACTGGC CTGAATATTC TCTCTGGGCC CACTGTTCCACTTGTATCGT

7021 CGGTCTGATA ATCAGACTGG GACCACGGTC CCACTCGTAT CGTCGGTCTGATTATTAGTC

7081 TGGGACCACG GTCCCACTCG TATCGTCGGT CTGATTATTA GTCTGGGACCACGGTCCCAC

7141 TCGTATCGTC GGTCTGATAA TCAGACTGGG ACCACGGTCC CACTCGTATCGTCGGTCTGA

7201 TTATTAGTCT GGGACCATGG TCCCACTCGT ATCGTCGGTC TGATTATTAGTCTGGGACCA

7261 CGGTCCCACT CGTATCGTCG GTCTGATTAT TAGTCTGGAA CCACGGTCCCACTCGTATCG

7321 TCGGTCTGAT TATTAGTCTG GGACCACGGT CCCACTCGTA TCGTCGGTCTGATTATTAGT

7381 CTGGGACCAC GATCCCACTC GTGTTGTCGG TCTGATTATC GGTCTGGGACCACGGTCCCA

7441 CTTGTATTGT CGATCAGACT ATCAGCGTGA GACTACGATT CCATCAATGCCTGTCAAGGG

7501 CAAGTATTGA CATGTCGTCG TAACCTGTAG AACGGAGTAA CCTCGGTGTGCGGTTGTATG

7561 CCTGCTGTGG ATTGCTGCTG TGTCCTGCTT ATCCACAACA TTTTGCGCACGGTTATGTGG

7621 ACAAAATACC TGGTTACCCA GGCCGTGCCG GCACGTTAAC CGGGCTGCATCCGATGCAAG

7681 TGTGTCGCTG TCGACGAGCT CGCGAGCTCG GACATGAGGT TGCCCCGTATTCAGTGTCGC

7741 TGATTTGTAT TGTCTGAAGT TGTTTTTACG TTAAGTTGAT GCAGATCAATTAATAC GATA

7801 CCTGCGTCAT AATTGATTAT TTGACGTGGT TTGATGGCCT CCACGCACGTTGTGATATGT

7861 AGATGATAAT CATTATCACT TTACGGGTCC TTTCCGGTGA TCCGACAGGTTACGGGGCGG

7921 CGACCTCGCG GGTTTTCGCT ATTTATGAAA ATTTTCCGGT TTAAGGCGTTTCCGTTCTTC

7981 TTCGTCATAA CTTAATGTTT TTATTTAAAA TACCCTCTGA AAAGAAAGGAAACGACAGGT

8041 GCTGAAAGCG AGCTTTTTGG CCTCTGTCGT TTCCTTTCTC TGTTTTTGTCCGTGGAATGA

8101 ACAATGGAAG TCCGAGCTCA TCGCTAATAA CTTCGTATAG CATACATTATACGAAGTTAT

8161 ATTCGATCCA C

SEQ ID NO:28-pCC1FOS cut(pFOS)和弗氏志贺氏菌(S.flexneri)6O-抗原无

Z3206的核苷酸序列

基因座 pFOS cut和O-抗原cut(-Z3206)

定义具有MCS盒并用NheI和AscI切割的反向pCC1FOS连接到用galFNheI

和wzzAscI扩增并用NheI和AscI切割的弗氏志贺氏菌(S.flexneri)6O抗原簇

长度:20982bp

类型:DNA 环状UNA

序列:

1 CTAGCGGCAA AACGTATGCC GGGTGACCTC TCTGAATACT CCGTCATCCA GACCAAAGAA

61 CCGCTGGATC GCGAAGGTAA AGTCAGCCGC ATTGTTGAAT TTATCGAAAAACCGGATCAG

121 CCGCAGACGC TGGACTCAGA CATCATGGCC GTTGGTCGCT ATGTGCTTTCTGCCGATATT

181 TGGCCGGAAC TTGAACGTAC TCAGCCTGGT GCATGGGGAC GTATTCAGCTGACTGATGCC

241 ATTGCCGAGC TGGCGAAAAA ACAGTCCGTT GATGCAATGC TGATGACCGGCGACAGCTAC

301 GACTGCGGTA AAAAAATGGG CTATATGCAG GCGTTTGTGA AGTATGGGCTGCGCAACCTG

361 AAAGAAGGGG CGAAGTTCCG TAAAGGTATT GAGAAGCTGT TAAGCGAATAATGAAAATCT

421 GACCGGATGT AACGGTTGAT AAGAAAATTA TAACGGCAGT GAAGATTCGTGGTGAAAGTA

481 ATTTGTTGCG AATATTCCTG CCGTTGTTTT ATATAAACAA TCAGAATAACAACGAGTTAG

541 CAATAGGATT TTAGTCAAAG TTTTCCAGGA TTTTCCTTGT TTCCAGAGCGGATTGGTAAG

601 ACAATTAGCT TTTGAATTTT TCGGGTTTAG CGCGAGTGGG TAACGCTCGTCACATCGTAG

661 GCATGCATGC AGTGCTCTGG TAGCTGTAAA GCCAGGGGCG GTAGCGTGCATTAATACTTC

721 TATTAATCAA ACTGAGAGCC GCTTATTTCA CAGCATGCTC TGAAGCAATATGGAATAAAT

781 TAGGTGAAAA TACTTGTTAC TGGTGGCGCA GGATTTATTG GTTTTGCTGTAGTTCGTCAC

841 ATTATAAATA ATACGCAGGA TAGTGTTGTT AATGTCGATA AATTAACGTACGCCGGAAAC

901 CTGGAATCAC TTGCTGATGT TTCTGATTCT GAACGCTATG TTTTTGAACATGCGGATATT

961 TGCGATGCAG CTGCAATGGC ACGGATTTTT GCTCAGCATC AGCCAGATGCAGTGATGCAC

1021 CTGGCTGCTG AAAGCCATGT TGACCGTTCA ATTACAGGTC CTGCGGCATTTATTGAAACC

1081 AATATTGTTG GTACATATGT CCTTTTGGAA GCCGCTCGCA ATTATTGGTCTGCTCTTGAT

1141 AGCGACAAGA AAACTAGATT CCGTTTTCAT CATATTTCTA CTGACGAAGTCTATGGTGAT

1201 TTGCCTCATC CTGACGAGGT AAATAATACA GAAGAATTAC CCTTATTTACAGAGACAACA

1261 GCTTACGCGC CAAGCAGCCC TTATTCCGCT TCAAAAGCAT CCAGCGATCATTTAGTCCGC

1321 GCGTGGAAAC GTACCTATGG TTTACCAACC ATTGTGACTA ATTGCTCTAATAATTATGGT

1381 CCTTATCATT TCCCGGAAAA ATTGATTCCA TTGGTTATTC TGAATGCTCTGGAAGGTAAG

1441 GCATTACCTA TTTATGGCAA AGGGGATCAA ATTCGTGACT GGCTGTATGTTGAAGATCAT

1501 GCGCGTGCGT TATATACCGT CGTAACCGAA GGTAAAGCGG GTGAAACTTATAACATTGGT

1561 GGACACAACG AAAAGAAAAA CATCGATGTA GTGCTCACTA TTTGTGATTTGCTGGATGAG

1621 ATTGTACCGA AAGAGAAATC TTACCGCGAG CAAATTACTT ATGTTGCCGATCGCCCGGGA

1681 CACGATCGCC GTTATGCGAT TGATGCAGAG AAGATTAGCC GCGAATTGGGCTGGAAACCG

1741 CAGGAAACGT TTGAGAGCGG GATTCGGAAG ACATTGGAAT GGTACCTGTCCAATACAAAA

1801 TGGGTTGATA ATGTGAAAAG TGGTGCTTAT CAATCGTGGA TTGAACAGAACTATGAGGGC

1861 CGCCAGTAAT GAATATCCTC CTTTTCGGCA AAACAGGGCA GGTAGGTTGGGAACTACAGC

1921 GTGCTCTGGC ACCTTTGGGT AATTTGATTG CTCTTGATGT TCACTCCACTGATTATTGTG

1981 GTGATTTTAG TAATCCTGAA GGTGTAGCTG AAACAGTCAA AAGAATTCGACCTGATGTTA

2041 TTGTTAATGC TGCGGCTCAC ACCGCAGTAG ATAAGGCTGA GTCAGAACCCGAATTTGCAC

2101 AATTACTCAA TGCGACTAGT GTTGAATCAA TTGCAAAAGA GGCTAATGAAGTTGGGGCTT

2161 GGGTAATTCA TTACTCAACT GACTACGTAT TCCCTGGAAA TGGCGACACGCCATGGCTGG

2221 AGACGGATGC AACCGCACCG CTAAATGTTT ACGGTGAAAC CAAGTTAGCCGGAGAAAAAG

2281 CGTTACAGGA ACATTGCGCG AAGCATCTTA TTTTCCGTAC CAGCTGGGTATACGCAGCTA

2341 AAGGAAATAA CTTCGCCAAA ACGATGTTGC GTCTGGCAAA AGAGCGCGAAGAACTGGCTG

2401 TGATAAATGA TCAATTTGGT GCGCCAACAG GTGCTGAGCT GCTGGCTGATTGTACGGCAC

2461 ATGCTATTCG TGTGGCACTG AATAAACCGG AAGTCGCAGG TTTGTACCATCTGGTAGCCA

2521 GTGGTACCAC AACCTGGCAC GATTATGCTG CGCTGGTTTT TGAAGAGGCGCGCAAAGCAG

2581 GTATTCCCCT TGCACTCAAC AAGCTCAACG CAGTACCAAC AACAGCCTATCCTACACCAG

2641 CTCGTCGTCC ACATAACTCT CGCCTTAATA CAGAAAAATT TCAGCAGAACTTTGCGCTTG

2701 TCTTGCCTGA CTGGCAGGTT GGTGTGAAAC GAATGCTCAA CGAATTAATTACGACTACAG

2761 CAATTTAATA GTTTTTGCAT CTTGTTCGTG ATGGTGGAGC AAGATGAATTAAAAGGAATG

2821 ATGAAATGAA AACGCGTAAA GGTATTATTT TAGCGGGTGG TTCTGGTACACGTCTTTATC

2881 CTGTGACTAT GGCTGTCAGT AAACAGCTAT TACCTATTTA TGATAAGCCGATGATCTATT

2941 ACCCGCTCTC TACACTGATG TTGGCGGGTA TTCGCGATAT TCTGATTATTAGTACGCCAC

3001 AGGATACTCC TCGTTTTCAA CAACTGCTAG GTGACGGTAG CCAGTGGGGGCTAAATCTTC

3061 AGTACAAAGT GCAACCGACT CCAGATGGGC TTGCGCAGGC GTTTATTATCGGTGAAGAGT

3121 TTATCGGTGG TGATGATTGT GCTTTGGTTC TTGGTGATAA TATCTTCTACGGTCATGATC

3181 TGCCGAAGTT AATGGATGTC GCTGTTAACA AAGAAAGTGG TGCAACGGTATTTGCCTATC

3241 ACGTTAATGA TCCTGAACGC TACGGCGTCG TTGAGTTTGA TAAAAACGGTACGGCAATAA

3301 GCCTGGAAGA AAAACCGCTA CAACCAAAAA GTAATTATGC GGTAACCGGGCTTTATTTCT

3361 ATGATAACGA CGTTGTCGAA ATGGCGAAAA ACCTTAAGCC TTCTGCCCGTGGTGAACTGG

3421 AAATTACCGA TATTAACCGT ATTTATATGG AACAGGGGCG TTTATCCGTTGCCATGATGG

3481 GGCGTGGTTA TGCATGGCTG GATACGGGGA CACATCAGAG TCTTATTGAAGCAAGCAACT

3541 TCATTGCCAC CATTGAAGAG CGCCAGGGAC TAAAGGTTTC CTGCCCAGAAGAAATTGCTT

3601 ACCGTAAAGG GTTTATTGAT GCTGAACAGG TGAAAGCATT AGCGGAGCCGCTGAAAAAAA

3661 ATGCTTATGG ACAGTATCTG CTGAAAATGA TTAAAGGTTA TTAATAAAATGAACGTAATT

3721 AAAACAGAAA TTCCTGATGT GTTAATTTTC GAGCCGAAAG TTTTTGGTGATGAGCGTGGT

3781 TTCTTTATGG AAAGCTTTAA TCAGAAAGTT TTCGAAGAAG CTGTAGGACGTAAGGTTGAA

3841 TTTGTTCAGG ATAACCATTC GAAGTCTAGT AAAGGTGTTT TACGCGGGCTGCATTATCAG

3901 TTAGAACCTT ATGCGCAAGG GAAACTGGTA CGTTGCGTTG TTGGTGAGGTTTTTGATGTA

3961 GCTGTTGATA TTCGTAAATC GTCGCCTACC TTTGGTAAAT GGGTTGGGGTGAATTTATCT

4021 GCTGAGAATA AGCGGCAATT GTGGATCCCT GAGGGATTTG CACATGGTTTTTTGGTGCTG

4081 AGCGAGACTG CGGAATTTTT ATATAAAACG ACGAACTATT ATCATCCTGATAGTGATAGA

4141 GGGATTGTAT GGAATGATCC TATTCTGAGC ATAAAATGGC CGACGATAGAACATAATAAT

4201 TATATTTTAT CGATTAAAGA TGCAAGGGCT AAAGAATTGC ATAACATGAAGGAATTATTT

4261 TTGTGAGTAT TGTAAAGAAT ACTTTATGGA ATATAAGTGG GTATATTATACCATCATTAA

4321 TAGCAATTCC TGCGTTAGGT ATACTGTCTA GAATTCTAGG GACCGAGCAATTTGGCCTTT

4381 TTACGTTAGC TATTGCCTTA GTTGGATATG CAAGTATTTT TGATGCTGGATTGACCAGAG

4441 CTGTTATAAG AGAAGTATCA ATATATAAAA ATGTTCATAA AGAATTAAGAGCGATCATTT

4501 CAACTTCAAC GGTAATTCTA ACTATATTGG GCTTGATTGG CGGTAGTGTACTATTTTTGA

4561 GTAGCAATGT AATTGTTAAA TTATTAAACA TTAACGCGAA TCATGTTGTAGAATCTGTCA

4621 AAGCAATATA TATTATTTCA GCTACCATAC CCTTATACTT GTTAAACCAAGTCTGGTTGG

4681 GGATTTTTGA GGGGATGGAA AAGTTCAGAA AAGTAAATTT AATAAAATCAATTAACAACT

4741 CTTTTGTGGC TGGATTACCA GTGATTTTCT GTTTTTTTCA TGGAGGATTACTAAGTGCTA

4801 TATATGGTTT AGTTATGGCA AGAGTCTTAT CACTTATAGT GACCTTTATATTTAGTCGAA

4861 AACTAATAAT ATCATCTGGG CTGTCTGTAA AAATTGTAAC AGTTAAAAGATTAATCGGCT

4921 TTGGAAGCTG GATAACAGTT AGCAATATTA TTAGCCCTAT TATGACATATATGGATCGTT

4981 TTATTCTTTC ACACATTGTG GGGGCTGATA AAGTTTCTTT TTATACTGCTCCGTCTGAAG

5041 GTATACAACG CTTAACGATA TTACCAAGTG CGTTGTCCAG AGCTATTTTTCCAAGATTAA

5101 GTTCAGAATT GCAATCGGTA AAGCAAACTA AAATATTATC ATATTTTATAATGGTTATTG

5161 GTATACTTCC AATTGTAATG TTGATAATTA TTTTATCAGA TTTTATAATGTCCGCTTGGA

5221 TGGGACCTAC ATATCATGGG ACGCCAGGTA TAGTATTAAA AATTCTTGCAATAGGTTTCT

5281 TTTTTAATTG CATTGCACAA ATCCCATTTG TTTCAGTTCA GGCTAGTGGAAGATCAAAAA

5341 TTACAGCTAT TATTCATTTG CTCGAAGTTA TCCCATATTT ATGCATATTATATATTTTTA

5401 TTTATCATTG GGGAATTGTT GGAGCCGCAA TAGCATGGTC TGTAAGAACATCGTTAGATT

5461 TTTTGATATT ATTATTAATT GATACGAAAT ATTAATAGCG AATTGATTTTAGGGATTACT

5521 TCCTCAAGCC CATCTAATTA GAGTGCAAAC ATGACTTCTG ATTTTTATAACTCAAAAGAC

5581 AAAAGTTTAA GTGTTCTTTT GTTTTTTGGG TTTATATTTT TCCTTACACGTAGCTTTCCA

5641 TTTATTCAAT ATAGTTGGAT TATGGAGGGG TTTTTATGTC TTTGTATCATGTCATTTACA

5701 AAGAAAATTG CAAACGGAAT ATATCACTAT CCTGTTATTT TAATATTTCTATTAGCTCTT

5761 TTTATAAATT TTATTTATTC CTATATCAAG GGTAACGATA TAGCGATAATAATTAGGTTT

5821 TATATTATCA TATTATTTAT ATTATGTGCT TATTTCTGCT CTTATGGAACCATCTCGATT

5881 GTTAAAATAT TTTTATATTT AATGGTATTA CAGGCGGTTA TTATATCCATCATTAGTATT

5941 TATATGACAA AAACATATGG TATTGGTGAT TATTCAGCAC TAAGACATTATTTTTTGGAG

6001 AATGATTATG GTGATGTTTA TACATATGGA AGTGGTTTCT ATAGAGTTCAAATTAAAGGA

6061 AATGCTCTCA TTCCATTTGC CTTTATGTTG CATATAGTCA TAAAAGATTATTTCTATTAT

6121 CGATTCAAAA ATACAATAAC CGTTATTCTG GCTATAGGTA CTATAGTGGCTGGTAATTTT

6181 GCATATTTTG TTTCGATATG CTTGTTTTTT ATGTATATTA TACTATGTTCTAAATCTAAC

6241 TCACGATACG CTAAATTAAG GAAAATTATT TTTGGGGTTT TTCTTACTGTGATTCTCCCT

6301 TTTTTTATTA CATATTCAAT TGAGTTGATA ATCATGAAAT CAAATGGAGCTGATTCTTCT

6361 TTAGGAGTTA GATGGGATCA GTTTACTGTA TTAATTAATG ATCTTACAGAGTCTGTATCA

6421 AATTTTGTTA TAGGTTCTGG TTTGGGTAAT GTCATCAAAA TTCAAACTCCTATCCGTGAT

6481 TATAGTGCAT ATATATATTA TGAATTGCAG TCAGTTTATT TTTTAAATCAACTTGGCGTT

6541 ATTTTATTTA CTTTGTTTTT ATTAATTAAT CTCCTTCTCA CGATTAAAATCATAAAATAC

6601 AGTGAGTTGT GTGTGCTATA TTTTCTATAT GTTTCTTATG CAATTACTAATCCTTATATT

6661 TTAGACTCTA ACCATGTTGC TGTAATAATT GTATTAGTGA CATTAAGTAATGTTCTAAAA

6721 AAGATGAAAG CTAAATGAAG GTTTTAAGGT GAAGATGGAC ACTGTATATGCCGTTTTGGT

6781 TGCTTACAAC CCAGAACATA ATGATTTAAA AAATGCGGTT GAATTATTGTTGAGACAAGT

6841 TACTAAAGTT GTCGTTTGCA ATAACTCTAC AAATGGTTAT AAATATGCTGAAAATTCTTC

6901 AGGCGATGTA AAAATATTCA ATTTCAATGA TAATTTAGGC ATAGCAGAAGCCCAAAGTAT

6961 AGGAATGAAA TGGGCTTTTG AAAATGGCGC TGATTTTATA TTGCAAATGGATCAGGATAG

7021 TATTCCTGAT CCTAAGATGG TAGAGCAGTT ACTTACTTGT TACAAAAAATTGCTTAAACA

7081 AAATGTCAAT GTTGGTTTAG TTGGTTCACA AGATTTTGAT AAAGTAACTGGTGAATTAAA

7141 TAAAGCAAGG GTAAAAAAAG GGAAACCACT TACAGAAGTT TATTATGAGGTAGATAGTAC

7201 ATTAAGTTCT GGCAGTCTAA TACCAAAAAA TAGTTGGTTG ATTGTTGGAGGAATGAAAGA

7261 TGAGCTTTTT ATCGATGCGG TAGACCATGA ATATTGTTGG AGATTAAGAGCTGCTGGGTT

7321 TAAAGTAATT AGGAATAAAA ATGCGTTACT TGCACATAGA CTTGGAGATGGGCGATTTAA

7381 GATCTTAAAT ATTCTTTCTG TCGGTTTGCC AAGCCCATTT CGTCATTATTATGCTACTCG

7441 AAATATCTTT CTTTTATTAA ATAAAAATTA TGTACCCATC TACTGGAAAATTTCTAGTCT

7501 GGTTAAATTA ATTGGAAAGG TTTTTTTATA TCCTATTTTC CTTCCAAATGGTAATAAAAG

7561 GTTATATTTT TTTTTAAAAG GCATTAATGA CGGTTTAATG GGTCGAAGTGGTAAAATGAA

7621 ATGAATCATA GATTAGAAAA ATTCTCAGTT TTAATTAGCA TTTATAAAAATGATCTACCG

7681 CAATTTTTTG AGGTGGCTCT ACGCTCTATT TTTCACGATC AAACACTTAAGCCAGATCAA

7741 ATAGTAATTG TTGCAGATGG AGAACTCCAT CAAACACACA TCGATATTATAAATTCATTC

7801 ATTGATGATG TTGGCAATAA AATAGTAACA TTTGTACCTT TACCTAGAAATGTTGGATTG

7861 GCTAATGCCT TAAATGAAGG ATTAAAGGCT TGTAGGAATG AGTTAGTGGCAAGAATGGAT

7921 GCTGATGATA TTTCTTTGCC TCATCGGTTT GAGAAACAAA TTTCTTTTATGATTAATAAT

7981 TCAGAAATAG ATGTATGTGG CAGTTTTATT GATGAAATTG AAACTGTTACTGAGGAGTTT

8041 ATTTCAACAC GCAAAGTGCC TCTCGAACAT AGAGAAATAG TTAAATTCGCGAGGAAACGA

8101 AGCGCAGTTA GCCATCCTTC TGTAATTTTT AGAAAGAATA CAGTATTAGCTGTTGGTGGT

8161 TATCCTCCAT TCAGAAAATC TCAAGATTTT GCATTGTGGA GCCTATTAATTGTACATAAT

8221 GCAAGATTTG CAAATCTTCC AGATATTTTA TTAAAAATGC GAACTGGTCGTAATCTTATG

8281 GCTCGACGTG GATTGTCATA TTTATTGTAC GAGTATAAAG TATTGTATTATCAATATAAA

8341 ATTGGTTTTA TTCGAAAAAA TGAATTAATA AGTAATGCTA TGTTGAGAACATTTTTTCGT

8401 ATAATGCCAT CTAAATTAAA GGAGCTGATG TATTCAATCG TTAGGAATCGATAATAATAA

8461 TTTTCTGATT AAGTGTTATG GATTTATTTT TATTAGGCAT ATTCTATAATTAAGCATAAC

8521 CCGCATACCA CCCAGCGGTA TCCTGACAGG AGTAAACAAT GTCAAAGCAACAGATCGGCG

8581 TCGTCGGTAT GGCAGTGATG GGGCGCAACC TTGCGCTCAA TATCGAAAGCCGTGGTTATA

8641 CCGTCTCTAT TTTCAACCGT TCCCGTGAAA AGACCGAAGA AGTGATTACCGAAAATCCAG

8701 GCAAGAAACT GGTTCCTTAC TATACGGTGA AAGAATTTGT TGAATCTCTGGAAACGCCTC

8761 GTCGCATCCT GTTAATGGTG AAAGCAGGTG CTGGCACGGA TGCTGCTATTGATTCCCTCA

8821 AGCCATACCT CGATAAAGGT GACATCATCA TTGATGGTGG TAACACCTTCTTCCATGACA

8881 CCATTCGTCG TAACCGTGAG CTTTCTGCAG AAGGCTTTAA CTTTATCGGTACCGGTGTTT

8941 CCGGTGGTGA AGAAGGTGCG CTGAAAGGTC CTTCCATTAT GCCTGGTGGGCAGAAAGAAG

9001 CTTATGAACT GATTGCGCCG ATCCTGACCA AAATCGCCGC TGTGGCTGAAGACGGCGAAC

9061 CGTGCGTTAC CTATATTGGT GCCGATGGTG CAGGTCATTA TGTGAAGATGGTTCACAACG

9121 GTATTGAATA CGGTGATATG CAGCTGATTG CTGAAGCCTA TTCTCTGCTTAAAGGTGGCT

9181 TGAACCTCAC CAACGAAGAA CTGGCGCAGA CCTTTACCGA GTGGAATAACGGTGAACTGA

9241 GCAGCTACCT GATCGACATC ACCAAAGATA TCTTCACCAA AAAAGATGAAGAGGGTAACT

9301 ACCTGGTTGA TGTGATTCTG GATGAAGCAG CAAACAAAGG TACGGGCAAATGGACCAGCC

9361 AGAGCGCGCT GGATCTCGGC GAACCGCTGT CGCTGATTAC CGAGTCTGTGTTTGCACGTT

9421 ATATCTCTTC TCTGAAAGAG CAGCGTGTTG CCGCATCTAA AGTTCTCTCTGGCCCGCAAG

9481 CGCAGCCAGC TGGCGACAAT GCTGAGTTCA TCGAAAAAGT TCGCCGTGCGCTGTATCTGG

9541 GCAAAATCGT TTCTTACGCT CAGGGCTTCT CTCAGCTACG CGCTGCGTCTGAAGAGTACA

9601 ACTGGGATCT GAACTACGGT GAAATCGCGA AGATTTTCCG TGCTGGCTGCATCATCCGTG

9661 CGCAGTTCCT GCAGAAAATC ACCGATGCTT ATGCCGAAAA TCCGCAGATCGCTAACCTGT

9721 TGCTGGCTCC TTACTTCAAG CAAATTGCCG ATGACTACCA GCAGGCGCTGCGCGATGTCG

9781 TCGCTTACGC AGTACAGAAC GGTATCCCGG TGCCGACCTT CGCCGCTGCGGTTGCCTATT

9841 ACGACAGCTA CCGCGCCGCT GTTCTGCCTG CGAACCTGAT CCAGGCACAGCGTGACTATT

9901 TCGGTGCGCA TACTTATAAG CGCATTGATA AAGAAGGTGT GTTCCATACCGAATGGCTGG

9961 ATTAATCTGA TTTAAATCAA TTAATCAAAG CAAGGCCCGG AGAAACCCTCCGGGCTTTTT

10021 TATTATACAA AGCGGCAGGT TAGGGCCTTT TTTTATAATT TATAGTTAAAAACGCGATAT

10081 AATACAGCGC CGCACAGCAG GATCGCTGCC TTGACAGTTC ATCTACATCAGCGTTAAAAA

10141 TCCCGCAGTA GATGAAGCTG TGGTGGTGGA TTAATGACCA CTCTAAATGTTTAACCGGAA

10201 GAAGTCAGAG CTAATGAAAA TAACAATTTC AGGAACAGGT TATGTTGGTCTTTCAAATGG

10261 TATTCTGATT GCGCAAAACC ACGAAGTGGT TGCACTGGAT ATCGTTCAGGCCAAAGTGGA

10321 CATGCTTAAC AAGAGGCAGT CACCGCTTGT TGATAAGGAG ATTGAAGAGTATCTGGCGAC

10381 TAAAGATCTC AATTTCCGCG CTACGACAGA TAAGTATGAC GCGTATAAAAATGCCGATTA

10441 CGTTATTATT GCCACACCTA CCGATTATGA TCCGAAAACA AATTATTTTAATACCTCAAG

10501 CGTGGAAGCG GTCATTCGTG ATGTGACAGA AATTAATCCC AACGCGGTAATGATTATAAA

10561 ATCAACTATC CCTGTTGGTT TTACAGAGTC CATTAAAGAA CGTTTTGGTATTGAAAATGT

10621 GATCTTTTCG CCTGAGTTTT TGCGTGAAGG TAAAGCACTT TATGATAACTTACACCCATC

10681 ACGCATTGTG ATTGGCGAGC AGTCTGAACG CGCTAAACGT TTTGCTGCGTTATTACAGGA

10741 AGGCGCCATT AAGCAAGACA TACCAACATT GTTTACTGAC TCAACCGAGGCTGAGGCGAT

10801 TAAACTTTTT GCGAACACTT ATCTGGCGAT GCGTGTAGCG TATTTCAATGAACTTGATAG

10861 TTATGCTGAA AGCCTGGGAC TTAATTCACG CCAGATTATT GAGGGCGTATGCCTTGACCC

10921 GCGTATCGGT AATCACTACA ACAACCCGTC ATTCGGTTAT GGTGGTTATTGTCTGCCGAA

10981 AGATACTAAG CAGTTACTGG CAAATTACCA GTCTGTGCCG AATAACCTGATCTCGGCAAT

11041 TGTTGACGCC AACCGCACGC GCAAAGATTT TATTGCCGAT TCTATCCTTGCACGTAAACC

11101 GAAAGTTGTT GGCGTCTATC GTTTGATTAT GAAGAATGGT TCAGACAATTTTCGTGCTTC

11161 CTCGATTCAG GGTATTATGA AGCGAATCAA GGCGAAAGGT GTGCCTGTAATCGTTTATGA

11221 GCCAGCTATG AAAGAGGACG ATTTTTTCCG GTCGCGCGTG GTACGTGATCTGGATGCGTT

11281 CAAACAAGAA GCTGATGTTA TTATTTCTAA CCGTATGTCT GCCGATCTGGCTGATGTAGC

11341 AGATAAAGTT TATACGCGCG ACTTGTTTGG CAATGATTAA TTATTTTGTTTCATTCTAAG

11401 AAAAGGCCCT AATAAATTAG GGCCTTTTCT TATGGTTTTG TAAAATCAAACTTTATAGAA

11461 GTTACGATAC CATTCTACAA AGTTCTTTAC CCCTTCTTTA ACTGACGTTTCAGGTTTGAA

11521 TCCTATTACG TCATACAGTG CTTTTGTATC AGCACTGGTT TCCAGTACATCACCGGGTTG

11581 GAGAGGCATC ATATTTTTGT TGGCTTCAAT ACCCAGAGCC TCTTCTAACGCATTGATATA

11641 GTCCATCAAC TCCACAGGCG AACTATTACC AATGTTATAG ACACGATATGGTGCTGAACT

11701 TGTTGCAGGC GAGCCTGTTT CTACAGCCCA CTGTGGGTTT TTTTCTGGAATAACATCCTG

11761 TAAGCGAATA ATAGCTTCGG CAATATCATC AATGTAAGTA AAGTCACGCTTCATTTTGCC

11821 GAAGTTGTAA ACATCAATGC TTTTACCTTC CAGCATGGCT TTAGTGAATTTAAATAATGC

11881 CATATCCGGA CGTCCCCATG GACCATAAAC CGTAAAGAAA CGCAGCCCTGTGGTCGGTAA

11941 GCCATACAAA TGAGAATATG TATGGGCCAT GAGTTCATTC GCTTTTTTAGTTGCTGCATA

12001 AAGCGAAACA GGATGATCTA CAGAGTCATC TGTAGAGAAA GGCATCTTGCGGTTCATGCC

12061 ATAAACAGAA CTGGAGGAAG CGTAAAGTAG ATGCTGAACA TTATTATGGCGACATCCTTC

12121 TAGTATGTTC AGGAATCCAA TCAGGTTTGC ATCTGCATAT GCATTGGGATTTTCAAGAGA

12181 GTAACGTACA CCGGCTTGCG CAGCGAGGTT TATTACGCGT TCGAACCGCTCGTCTGCAAA

12241 CAGTGCCGCC ATTTTCTCAC GATCGGCCAG GTCAATTTTA TAAAAACTGAAGTTGTCGTG

12301 CTTGAGTAAA TCAAGTCGTG CTTGTTTGAG GTTGACATCG TAATAATCATTTAAGTTGTC

12361 AATGCCTACA ACCTGATGAC CAGCTGCAAG AAGCCGTTTA CTTAGATAGAAACCGATAAA

12421 GCCAGCAGCT CCCGTAACCA GAAATTTCAT TTATAATCCT CGCTCAGGCTAGAATATAGC

12481 CAATCTTCAT CTGGCATAAC TGAAAGTTAA ATTATACCGT TAGACAAGAAAAAAAGATAA

12541 TCGGTATCAG TTCTAAACTT GGCTGTTTTT TCTGGTAACG TGCTCATTTTACAATCAAAG

12601 CTGTTCTAAG CTGACTATAC AAGCCGACGT CATTATCTCC AACCGTATGGCAGAAGAGCT

12661 TAAGGATGTG GCAGACAAAG TCTACACCCG CGATCTCTTT GGCAGTGACTAACATCCTGT

12721 TATCATGGCG ATTTTCGCCC TGATTCTCTT ATGTTCCCTT TGTAATAATTCATTATTTTT

12781 ATCATTTATC CTATAGCATT CATGGCGATT ATCGCTAAAC TATGGCGGCGCGCCACGTGG

12841 GATCCCCGGG TACCGAGCTC GAATTCGCCC TATAGTGAGT CGTATTACAATTCACTGGCC

12901 GTCGTTTTAC AACGTCGTGA CTGGGAAAAC CCTGGCGTTA CCCAACTTAATCGCCTTGCA

12961 GCACATCCCC CTTTCGCCAG CTGGCGTAAT AGCGAAGAGG CCCGCACCGATCGCCCTTCC

13021 CAACAGTTGC GCAGCTGAAT GGCGAATGGC GCCTGATGCG GTATTTTCTCCTTACGCATC

13081 TGTGCGGTAT TTCACACCGC ATATGGTGCA CTCTCAGTAC AATCTGCTCTGATGCCGCAT

13141 AGTTAAGCCA GCCCCGACAC CCGCCAACAC CCGCTGACGC GAACCCCTTGCGGCCGCATC

13201 GAATATAACT TCGTATAATG TATGCTATAC GAAGTTATTA GCGATGAGCTCGGACTTCCA

13261 TTGTTCATTC CACGGACAAA AACAGAGAAA GGAAACGACA GAGGCCAAAAAGCTCGCTTT

13321 CAGCACCTGT CGTTTCCTTT CTTTTCAGAG GGTATTTTAA ATAAAAACATTAAGTTATGA

13381 CGAAGAAGAA CGGAAACGCC TTAAACCGGA AAATTTTCAT AAATAGCGAAAACCCGCGAG

13441 GTCGCCGCCC CGTAACCTGT CGGATCACCG GAAAGGACCC GTAAAGTGATAATGATTATC

13501 ATCTACATAT CACAACGTGC GTGGAGGCCA TCAAACCACG TCAAATAATCAATTATGACG

13561 CAGGTATCGT ATTAATTGAT CTGCATCAAC TTAACGTAAA AACAACTTCAGACAATACAA

13621 ATCAGCGACA CTGAATACGG GGCAACCTCA TGTCCGAGCT CGCGAGCTCGTCGACAGCGA

13681 CACACTTGCA TCGGATGCAG CCCGGTTAAC GTGCCGGCAC GGCCTGGGTAACCAGGTATT

13741 TTGTCCACAT AACCGTGCGC AAAATGTTGT GGATAAGCAG GACACAGCAGCAATCCACAG

13801 CAGGCATACA ACCGCACACC GAGGTTACTC CGTTCTACAG GTTACGACGACATGTCAATA

13861 CTTGCCCTTG ACAGGCATTG ATGGAATCGT AGTCTCACGC TGATAGTCTGATCGACAATA

13921 CAAGTGGGAC CGTGGTCCCA GACCGATAAT CAGACCGACA ACACGAGTGGGATCGTGGTC

13981 CCAGACTAAT AATCAGACCG ACGATACGAG TGGGACCGTG GTCCCAGACTAATAATCAGA

14041 CCGACGATAC GAGTGGGACC GTGGTTCCAG ACTAATAATC AGACCGACGATACGAGTGGG

14101 ACCGTGGTCC CAGACTAATA ATCAGACCGA CGATACGAGT GGGACCATGGTCCCAGACTA

14161 ATAATCAGAC CGACGATACG AGTGGGACCG TGGTCCCAGT CTGATTATCAGACCGACGAT

14221 ACGAGTGGGA CCGTGGTCCC AGACTAATAA TCAGACCGAC GATACGAGTGGGACCGTGGT

14281 CCCAGACTAA TAATCAGACC GACGATACGA GTGGGACCGT GGTCCCAGTCTGATTATCAG

14341 ACCGACGATA CAAGTGGAAC AGTGGGCCCA GAGAGAATAT TCAGGCCAGTTATGCTTTCT

14401 GGCCTGTAAC AAAGGACATT AAGTAAAGAC AGATAAACGT AGACTAAAACGTGGTCGCAT

14461 CAGGGTGCTG GCTTTTCAAG TTCCTTAAGA ATGGCCTCAA TTTTCTCTATACACTCAGTT

14521 GGAACACGAG ACCTGTCCAG GTTAAGCACC ATTTTATCGC CCTTATACAATACTGTCGCT

14581 CCAGGAGCAA ACTGATGTCG TGAGCTTAAA CTAGTTCTTG ATGCAGATGACGTTTTAAGC

14641 ACAGAAGTTA AAAGAGTGAT AACTTCTTCA GCTTCAAATA TCACCCCAGCTTTTTTCTGC

14701 TCATGAAGGT TAGATGCCTG CTGCTTAAGT AATTCCTCTT TATCTGTAAAGGCTTTTTGA

14761 AGTGCATCAC CTGACCGGGC AGATAGTTCA CCGGGGTGAG AAAAAAGAGCAACAACTGAT

14821 TTAGGCAATT TGGCGGTGTT GATACAGCGG GTAATAATCT TACGTGAAATATTTTCCGCA

14881 TCAGCCAGCG CAGAAATATT TCCAGCAAAT TCATTCTGCA ATCGGCTTGCATAACGCTGA

14941 CCACGTTCAT AAGCACTTGT TGGGCGATAA TCGTTACCCA ATCTGGATAATGCAGCCATC

15001 TGCTCATCAT CCAGCTCGCC AACCAGAACA CGATAATCAC TTTCGGTAAGTGCAGCAGCT

15061 TTACGACGGC GACTCCCATC GGCAATTTCT ATGACACCAG ATACTCTTCGACCGAACGCC

15121 GGTGTCTGTT GACCAGTCAG TAGAAAAGAA GGGATGAGAT CATCCAGTGCGTCCTCAGTA

15181 AGCAGCTCCT GGTCACGTTC ATTACCTGAC CATACCCGAG AGGTCTTCTCAACACTATCA

15241 CCCCGGAGCA CTTCAAGAGT AAACTTCACA TCCCGACCAC ATACAGGCAAAGTAATGGCA

15301 TTACCGCGAG CCATTACTCC TACGCGCGCA ATTAACGAAT CCACCATCGGGGCAGCTGGT

15361 GTCGATAACG AAGTATCTTC AACCGGTTGA GTATTGAGCG TATGTTTTGGAATAACAGGC

15421 GCACGCTTCA TTATCTAATC TCCCAGCGTG GTTTAATCAG ACGATCGAAAATTTCATTGC

15481 AGACAGGTTC CCAAATAGAA AGAGCATTTC TCCAGGCACC AGTTGAAGAGCGTTGATCAA

15541 TGGCCTGTTC AAAAACAGTT CTCATCCGGA TCTGACCTTT ACCAACTTCATCCGTTTCAC

15601 GTACAACATT TTTTAGAACC ATGCTTCCCC AGGCATCCCG AATTTGCTCCTCCATCCACG

15661 GGGACTGAGA GCCATTACTA TTGCTGTATT TGGTAAGCAA AATACGTACATCAGGCTCGA

15721 ACCCTTTAAG ATCAACGTTC TTGAGCAGAT CACGAAGCAT ATCGAAAAACTGCAGTGCGG

15781 AGGTGTAGTC AAACAACTCA GCAGGCGTGG GAACAATCAG CACATCAGCAGCACATACGA

15841 CATTAATCGT GCCGATACCC AGGTTAGGCG CGCTGTCAAT AACTATGACATCATAGTCAT

15901 GAGCAACAGT TTCAATGGCC AGTCGGAGCA TCAGGTGTGG ATCGGTGGGCAGTTTACCTT

15961 CATCAAATTT GCCCATTAAC TCAGTTTCAA TACGGTGCAG AGCCAGACAGGAAGGAATAA

16021 TGTCAAGCCC CGGCCAGCAA GTGGGCTTTA TTGCATAAGT GACATCGTCCTTTTCCCCAA

16081 GATAGAAAGG CAGGAGAGTG TCTTCTGCAT GAATATGAAG ATCTGGTACCCATCCGTGAT

16141 ACATTGAGGC TGTTCCCTGG GGGTCGTTAC CTTCCACGAG CAAAACACGTAGCCCCTTCA

16201 GAGCCAGATC CTGAGCAAGA TGAACAGAAA CTGAGGTTTT GTAAACGCCACCTTTATGGG

16261 CAGCAACCCC GATCACCGGT GGAAATACGT CTTCAGCACG TCGCAATCGCGTACCAAACA

16321 CATCACGCAT ATGATTAATT TGTTCAATTG TATAACCAAC ACGTTGCTCAACCCGTCCTC

16381 GAATTTCCAT ATCCGGGTGC GGTAGTCGCC CTGCTTTCTC GGCATCTCTGATAGCCTGAG

16441 AAGAAACCCC AACTAAATCC GCTGCTTCAC CTATTCTCCA GCGCCGGGTTATTTTCCTCG

16501 CTTCCGGGCT GTCATCATTA AACTGTGCAA TGGCGATAGC CTTCGTCATTTCATGACCAG

16561 CGTTTATGCA CTGGTTAAGT GTTTCCATGA GTTTCATTCT GAACATCCTTTAATCATTGC

16621 TTTGCGTTTT TTTATTAAAT CTTGCAATTT ACTGCAAAGC AACAACAAAATCGCAAAGTC

16681 ATCAAAAAAC CGCAAAGTTG TTTAAAATAA GAGCAACACT ACAAAAGGAGATAAGAAGAG

16741 CACATACCTC AGTCACTTAT TATCACTAGC GCTCGCCGCA GCCGTGTAACCGAGCATAGC

16801 GAGCGAACTG GCGAGGAAGC AAAGAAGAAC TGTTCTGTCA GATAGCTCTTACGCTCAGCG

16861 CAAGAAGAAA TATCCACCGT GGGAAAAACT CCAGGTAGAG GTACACACGCGGATAGCCAA

16921 TTCAGAGTAA TAAACTGTGA TAATCAACCC TCATCAATGA TGACGAACTAACCCCCGATA

16981 TCAGGTCACA TGACGAAGGG AAAGAGAAGG AAATCAACTG TGACAAACTGCCCTCAAATT

17041 TGGCTTCCTT AAAAATTACA GTTCAAAAAG TATGAGAAAA TCCATGCAGGCTGAAGGAAA

17101 CAGCAAAACT GTGACAAATT ACCCTCAGTA GGTCAGAACA AATGTGACGAACCACCCTCA

17161 AATCTGTGAC AGATAACCCT CAGACTATCC TGTCGTCATG GAAGTGATATCGCGGAAGGA

17221 AAATACGATA TGAGTCGTCT GGCGGCCTTT CTTTTTCTCA ATGTATGAGAGGCGCATTGG

17281 AGTTCTGCTG TTGATCTCAT TAACACAGAC CTGCAGGAAG CGGCGGCGGAAGTCAGGCAT

17341 ACGCTGGTAA CTTTGAGGCA GCTGGTAACG CTCTATGATC CAGTCGATTTTCAGAGAGAC

17401 GATGCCTGAG CCATCCGGCT TACGATACTG ACACAGGGAT TCGTATAAACGCATGGCATA

17461 CGGATTGGTG ATTTCTTTTG TTTCACTAAG CCGAAACTGC GTAAACCGGTTCTGTAACCC

17521 GATAAAGAAG GGAATGAGAT ATGGGTTGAT ATGTACACTG TAAAGCCCTCTGGATGGACT

17581 GTGCGCACGT TTGATAAACC AAGGAAAAGA TTCATAGCCT TTTTCATCGCCGGCATCCTC

17641 TTCAGGGCGA TAAAAAACCA CTTCCTTCCC CGCGAAACTC TTCAATGCCTGCCGTATATC

17701 CTTACTGGCT TCCGCAGAGG TCAATCCGAA TATTTCAGCA TATTTAGCAACATGGATCTC

17761 GCAGATACCG TCATGTTCCT GTAGGGTGCC ATCAGATTTT CTGATCTGGTCAACGAACAG

17821 ATACAGCATA CGTTTTTGAT CCCGGGAGAG ACTATATGCC GCCTCAGTGAGGTCGTTTGA

17881 CTGGACGATT CGCGGGCTAT TTTTACGTTT CTTGTGATTG ATAACCGCTGTTTCCGCCAT

17941 GACAGATCCA TGTGAAGTGT GACAAGTTTT TAGATTGTCA CACTAAATAAAAAAGAGTCA

18001 ATAAGCAGGG ATAACTTTGT GAAAAAACAG CTTCTTCTGA GGGCAATTTGTCACAGGGTT

18061 AAGGGCAATT TGTCACAGAC AGGACTGTCA TTTGAGGGTG ATTTGTCACACTGAAAGGGC

18121 AATTTGTCAC AACACCTTCT CTAGAACCAG CATGGATAAA GGCCTACAAGGCGCTCTAAA

18181 AAAGAAGATC TAAAAACTAT AAAAAAAATA ATTATAAAAA TATCCCCGTGGATAAGTGGA

18241 TAACCCCAAG GGAAGTTTTT TCAGGCATCG TGTGTAAGCA GAATATATAAGTGCTGTTCC

18301 CTGGTGCTTC CTCGCTCACT CGACCGGGAG GGTTCGAGAA GGGGGGGCACCCCCCTTCGG

18361 CGTGCGCGGT CACGCGCACA GGGCGCAGCC CTGGTTAAAA ACAAGGTTTATAAATATTGG

18421 TTTAAAAGCA GGTTAAAAGA CAGGTTAGCG GTGGCCGAAA AACGGGCGGAAACCCTTGCA

18481 AATGCTGGAT TTTCTGCCTG TGGACAGCCC CTCAAATGTC AATAGGTGCGCCCCTCATCT

18541 GTCAGCACTC TGCCCCTCAA GTGTCAAGGA TCGCGCCCCT CATCTGTCAGTAGTCGCGCC

18601 CCTCAAGTGT CAATACCGCA GGGCACTTAT CCCCAGGCTT GTCCACATCATCTGTGGGAA

18661 ACTCGCGTAA AATCAGGCGT TTTCGCCGAT TTGCGAGGCT GGCCAGCTCCACGTCGCCGG

18721 CCGAAATCGA GCCTGCCCCT CATCTGTCAA CGCCGCGCCG GGTGAGTCGGCCCCTCAAGT

18781 GTCAACGTCC GCCCCTCATC TGTCAGTGAG GGCCAAGTTT TCCGCGAGGTATCCACAACG

18841 CCGGCGGCCG GCCGCGGTGT CTCGCACACG GCTTCGACGG CGTTTCTGGCGCGTTTGCAG

18901 GGCCATAGAC GGCCGCCAGC CCAGCGGCGA GGGCAACCAG CCGAGGGCTTCGCCCTGTCG

18961 CTCGACTGCG GCGAGCACTA CTGGCTGTAA AAGGACAGAC CACATCATGGTTCTGTGTTC

19021 ATTAGGTTGT TCTGTCCATT GCTGACATAA TCCGCTCCAC TTCAACGTAACACCGCACGA

19081 AGATTTCTAT TGTTCCTGAA GGCATATTCA AATCGTTTTC GTTACCGCTTGCAGGCATCA

19141 TGACAGAACA CTACTTCCTA TAAACGCTAC ACAGGCTCCT GAGATTAATAATGCGGATCT

19201 CTACGATAAT GGGAGATTTT CCCGACTGTT TCGTTCGCTT CTCAGTGGATAACAGCCAGC

19261 TTCTCTGTTT AACAGACAAA AACAGCATAT CCACTCAGTT CCACATTTCCATATAAAGGC

19321 CAAGGCATTT ATTCTCAGGA TAATTGTTTC AGCATCGCAA CCGCATCAGACTCCGGCATC

19381 GCAAACTGCA CCCGGTGCCG GGCAGCCACA TCCAGCGCAA AAACCTTCGTGTAGACTTCC

19441 GTTGAACTGA TGGACTTATG TCCCATCAGG CTTTGCAGAA CTTTCAGCGGTATACCGGCA

19501 TACAGCATGT GCATCGCATA GGAATGGCGG AACGTATGTG GTGTGACCGGAACAGAGAAC

19561 GTCACACCGT CAGCAGCAGC GGCGGCAACC GCCTCCCCAA TCCAGGTCCTGACCGTTCTG

19621 TCCGTCACTT CCCAGATCCG CGCTTTCTCT GTCCTTCCTG TGCGACGGTTACGCCGCTCC

19681 ATGAGCTTAT CGCGAATAAA TACCTGTGAC GGAAGATCAC TTCGCAGAATAAATAAATCC

19741 TGGTGTCCCT GTTGATACCG GGAAGCCCTG GGCCAACTTT TGGCGAAAATGAGACGTTGA

19801 TCGGCACGTA AGAGGTTCCA ACTTTCACCA TAATGAAATA AGATCACTACCGGGCGTATT

19861 TTTTGAGTTA TCGAGATTTT CAGGAGCTAA GGAAGCTAAA ATGGAGAAAAAAATCACTGG

19921 ATATACCACC GTTGATATAT CCCAATGGCA TCGTAAAGAA CATTTTGAGGCATTTCAGTC

19981 AGTTGCTCAA TGTACCTATA ACCAGACCGT TCAGCTGGAT ATTACGGCCTTTTTAAAGAC

20041 CGTAAAGAAA AATAAGCACA AGTTTTATCC GGCCTTTATT CACATTCTTGCCCGCCTGAT

20101 GAATGCTCAT CCGGAATTTC GTATGGCAAT GAAAGACGGT GAGCTGGTGATATGGGATAG

20161 TGTTCACCCT TGTTACACCG TTTTCCATGA GCAAACTGAA ACGTTTTCATCGCTCTGGAG

20221 TGAATACCAC GACGATTTCC GGCAGTTTCT ACACATATAT TCGCAAGATGTGGCGTGTTA

20281 CGGTGAAAAC CTGGCCTATT TCCCTAAAGG GTTTATTGAG AATATGTTTTTCGTCTCAGC

20341 CAATCCCTGG GTGAGTTTCA CCAGTTTTGA TTTAAACGTG GCCAATATGGACAACTTCTT

20401 CGCCCCCGTT TTCACCATGG GCAAATATTA TACGCAAGGC GACAAGGTGCTGATGCCGCT

20461 GGCGATTCAG GTTCATCATG CCGTTTGTGA TGGCTTCCAT GTCGGCAGAATGCTTAATGA

20521 ATTACAACAG TACTGCGATG AGTGGCAGGG CGGGGCGTAA TTTTTTTAAGGCAGTTATTG

20581 GTGCCCTTAA ACGCCTGGTT GCTACGCCTG AATAAGTGAT AATAAGCGGATGAATGGCAG

20641 AAATTCGATG ATAAGCTGTC AAACATGAGA ATTGGTCGAC GGCCCGGGCGGCCGCAAGGG

20701 GTTCGCGTTG GCCGATTCAT TAATGCAGCT GGCACGACAG GTTTCCCGACTGGAAAGCGG

20761 GCAGTGAGCG CAACGCAATT AATGTGAGTT AGCTCACTCA TTAGGCACCCCAGGCTTTAC

20821 ACTTTATGCT TCCGGCTCGT ATGTTGTGTG GAATTGTGAG CGGATAACAATTTCACACAG

20881 GAAACAGCTA TGACCATGAT TACGCCAAGC TATTTAGGTG AGACTATAGAATACTCAAGC

20941 TTGCATGCCT GCAGGTCGAC TCTAGAGGAT CCCACGACGT CG

SEQ ID NO:29-pCC1FOS cut(pFOS)和弗氏志贺氏菌(S.flexneri)6O-抗原(有Z3206)的核苷酸序列

基因座 pFOS cut和O-抗原cut(Z3206+)

定义用Z3206Nhe和wzzAscI扩增并用NheI和AscI切割的反向弗氏志贺氏菌(S.flexneri)6 O抗原簇连接到具有MCS盒并用NheI和AscI切割的pCC1FOS

长度:22887bp

类型:DNA 环状UNA

序列:

1 GCGGCCGCAA GGGGTTCGCG TCAGCGGGTG TTGGCGGGTG TCGGGGCTGG CTTAACTATG

61 CGGCATCAGA GCAGATTGTA CTGAGAGTGC ACCATATGCG GTGTGAAATACCGCACAGAT

121 GCGTAAGGAG AAAATACCGC ATCAGGCGCC ATTCGCCATT CAGCTGCGCAACTGTTGGGA

181 AGGGCGATCG GTGCGGGCCT CTTCGCTATT ACGCCAGCTG GCGAAAGGGGGATGTGCTGC

241 AAGGCGATTA AGTTGGGTAA CGCCAGGGTT TTCCCAGTCA CGACGTTGTAAAACGACGGC

301 CAGTGAATTG TAATACGACT CACTATAGGG CGAATTCGAG CTCGGTACCCGGGGATCCCA

361 CGTGGCGCGC CGCCATAGTT TAGCGATAAT CGCCATGAAT GCTATAGGATAAATGATAAA

421 AATAATGAAT TATTACAAAG GGAACATAAG AGAATCAGGG CGAAAATCGCCATGATAACA

481 GGATGTTAGT CACTGCCAAA GAGATCGCGG GTGTAGACTT TGTCTGCCACATCCTTAAGC

541 TCTTCTGCCA TACGGTTGGA GATAATGACG TCGGCTTGTA TAGTCAGCTTAGAACAGCTT

601 TGATTGTAAA ATGAGCACGT TACCAGAAAA AACAGCCAAG TTTAGAACTGATACCGATTA

661 TCTTTTTTTC TTGTCTAACG GTATAATTTA ACTTTCAGTT ATGCCAGATGAAGATTGGCT

721 ATATTCTAGC CTGAGCGAGG ATTATAAATG AAATTTCTGG TTACGGGAGCTGCTGGCTTT

781 ATCGGTTTCT ATCTAAGTAA ACGGCTTCTT GCAGCTGGTC ATCAGGTTGTAGGCATTGAC

841 AACTTAAATG ATTATTACGA TGTCAACCTC AAACAAGCAC GACTTGATTTACTCAAGCAC

901 GACAACTTCA GTTTTTATAA AATTGACCTG GCCGATCGTG AGAAAATGGCGGCACTGTTT

961 GCAGACGAGC GGTTCGAACG CGTAATAAAC CTCGCTGCGC AAGCCGGTGTACGTTACTCT

1021 CTTGAAAATC CCAATGCATA TGCAGATGCA AACCTGATTG GATTCCTGAACATACTAGAA

1081 GGATGTCGCC ATAATAATGT TCAGCATCTA CTTTACGCTT CCTCCAGTTCTGTTTATGGC

1141 ATGAACCGCA AGATGCCTTT CTCTACAGAT GACTCTGTAG ATCATCCTGTTTCGCTTTAT

1201 GCAGCAACTA AAAAAGCGAA TGAACTCATG GCCCATACAT ATTCTCATTTGTATGGCTTA

1261 CCGACCACAG GGCTGCGTTT CTTTACGGTT TATGGTCCAT GGGGACGTCCGGATATGGCA

1321 TTATTTAAAT TCACTAAAGC CATGCTGGAA GGTAAAAGCA TTGATGTTTACAACTTCGGC

1381 AAAATGAAGC GTGACTTTAC TTACATTGAT GATATTGCCG AAGCTATTATTCGCTTACAG

1441 GATGTTATTC CAGAAAAAAA CCCACAGTGG GCTGTAGAAA CAGGCTCGCCTGCAACAAGT

1501 TCAGCACCAT ATCGTGTCTA TAACATTGGT AATAGTTCGC CTGTGGAGTTGATGGACTAT

1561 ATCAATGCGT TAGAAGAGGC TCTGGGTATT GAAGCCAACA AAAATATGATGCCTCTCCAA

1621 CCCGGTGATG TACTGGAAAC CAGTGCTGAT ACAAAAGCAC TGTATGACGTAATAGGATTC

1681 AAACCTGAAA CGTCAGTTAA AGAAGGGGTA AAGAACTTTG TAGAATGGTATCGTAACTTC

1741 TATAAAGTTT GATTTTACAA AACCATAAGA AAAGGCCCTA ATTTATTAGGGCCTTTTCTT

1801 AGAATGAAAC AAAATAATTA ATCATTGCCA AACAAGTCGC GCGTATAAACTTTATCTGCT

1861 ACATCAGCCA GATCGGCAGA CATACGGTTA GAAATAATAA CATCAGCTTCTTGTTTGAAC

1921 GCATCCAGAT CACGTACCAC GCGCGACCGG AAAAAATCGT CCTCTTTCATAGCTGGCTCA

1981 TAAACGATTA CAGGCACACC TTTCGCCTTG ATTCGCTTCA TAATACCCTGAATCGAGGAA

2041 GCACGAAAAT TGTCTGAACC ATTCTTCATA ATCAAACGAT AGACGCCAACAACTTTCGGT

2101 TTACGTGCAA GGATAGAATC GGCAATAAAA TCTTTGCGCG TGCGGTTGGCGTCAACAATT

2161 GCCGAGATCA GGTTATTCGG CACAGACTGG TAATTTGCCA GTAACTGCTTAGTATCTTTC

2221 GGCAGACAAT AACCACCATA ACCGAATGAC GGGTTGTTGT AGTGATTACCGATACGCGGG

2281 TCAAGGCATA CGCCCTCAAT AATCTGGCGT GAATTAAGTC CCAGGCTTTCAGCATAACTA

2341 TCAAGTTCAT TGAAATACGC TACACGCATC GCCAGATAAG TGTTCGCAAAAAGTTTAATC

2401 GCCTCAGCCT CGGTTGAGTC AGTAAACAAT GTTGGTATGT CTTGCTTAATGGCGCCTTCC

2461 TGTAATAACG CAGCAAAACG TTTAGCGCGT TCAGACTGCT CGCCAATCACAATGCGTGAT

2521 GGGTGTAAGT TATCATAAAG TGCTTTACCT TCACGCAAAA ACTCAGGCGAAAAGATCACA

2581 TTTTCAATAC CAAAACGTTC TTTAATGGAC TCTGTAAAAC CAACAGGGATAGTTGATTTT

2641 ATAATCATTA CCGCGTTGGG ATTAATTTCT GTCACATCAC GAATGACCGCTTCCACGCTT

2701 GAGGTATTAA AATAATTTGT TTTCGGATCA TAATCGGTAG GTGTGGCAATAATAACGTAA

2761 TCGGCATTTT TATACGCGTC ATACTTATCT GTCGTAGCGC GGAAATTGAGATCTTTAGTC

2821 GCCAGATACT CTTCAATCTC CTTATCAACA AGCGGTGACT GCCTCTTGTTAAGCATGTCC

2881 ACTTTGGCCT GAACGATATC CAGTGCAACC ACTTCGTGGT TTTGCGCAATCAGAATACCA

2941 TTTGAAAGAC CAACATAACC TGTTCCTGAA ATTGTTATTT TCATTAGCTCTGACTTCTTC

3001 CGGTTAAACA TTTAGAGTGG TCATTAATCC ACCACCACAG CTTCATCTACTGCGGGATTT

3061 TTAACGCTGA TGTAGATGAA CTGTCAAGGC AGCGATCCTG CTGTGCGGCGCTGTATTATA

3121 TCGCGTTTTT AACTATAAAT TATAAAAAAA GGCCCTAACC TGCCGCTTTGTATAATAAAA

3181 AAGCCCGGAG GGTTTCTCCG GGCCTTGCTT TGATTAATTG ATTTAAATCAGATTAATCCA

3241 GCCATTCGGT ATGGAACACA CCTTCTTTAT CAATGCGCTT ATAAGTATGCGCACCGAAAT

3301 AGTCACGCTG TGCCTGGATC AGGTTCGCAG GCAGAACAGC GGCGCGGTAGCTGTCGTAAT

3361 AGGCAACCGC AGCGGCGAAG GTCGGCACCG GGATACCGTT CTGTACTGCGTAAGCGACGA

3421 CATCGCGCAG CGCCTGCTGG TAGTCATCGG CAATTTGCTT GAAGTAAGGAGCCAGCAACA

3481 GGTTAGCGAT CTGCGGATTT TCGGCATAAG CATCGGTGAT TTTCTGCAGGAACTGCGCAC

3541 GGATGATGCA GCCAGCACGG AAAATCTTCG CGATTTCACC GTAGTTCAGATCCCAGTTGT

3601 ACTCTTCAGA CGCAGCGCGT AGCTGAGAGA AGCCCTGAGC GTAAGAAACGATTTTGCCCA

3661 GATACAGCGC ACGGCGAACT TTTTCGATGA ACTCAGCATT GTCGCCAGCTGGCTGCGCTT

3721 GCGGGCCAGA GAGAACTTTA GATGCGGCAA CACGCTGCTC TTTCAGAGAAGAGATATAAC

3781 GTGCAAACAC AGACTCGGTA ATCAGCGACA GCGGTTCGCC GAGATCCAGCGCGCTCTGGC

3841 TGGTCCATTT GCCCGTACCT TTGTTTGCTG CTTCATCCAG AATCACATCAACCAGGTAGT

3901 TACCCTCTTC ATCTTTTTTG GTGAAGATAT CTTTGGTGAT GTCGATCAGGTAGCTGCTCA

3961 GTTCACCGTT ATTCCACTCG GTAAAGGTCT GCGCCAGTTC TTCGTTGGTGAGGTTCAAGC

4021 CACCTTTAAG CAGAGAATAG GCTTCAGCAA TCAGCTGCAT ATCACCGTATTCAATACCGT

4081 TGTGAACCAT CTTCACATAA TGACCTGCAC CATCGGCACC AATATAGGTAACGCACGGTT

4141 CGCCGTCTTC AGCCACAGCG GCGATTTTGG TCAGGATCGG CGCAATCAGTTCATAAGCTT

4201 CTTTCTGCCC ACCAGGCATA ATGGAAGGAC CTTTCAGCGC ACCTTCTTCACCACCGGAAA

4261 CACCGGTACC GATAAAGTTA AAGCCTTCTG CAGAAAGCTC ACGGTTACGACGAATGGTGT

4321 CATGGAAGAA GGTGTTACCA CCATCAATGA TGATGTCACC TTTATCGAGGTATGGCTTGA

4381 GGGAATCAAT AGCAGCATCC GTGCCAGCAC CTGCTTTCAC CATTAACAGGATGCGACGAG

4441 GCGTTTCCAG AGATTCAACA AATTCTTTCA CCGTATAGTA AGGAACCAGTTTCTTGCCTG

4501 GATTTTCGGT AATCACTTCT TCGGTCTTTT CACGGGAACG GTTGAAAATAGAGACGGTAT

4561 AACCACGGCT TTCGATATTG AGCGCAAGGT TGCGCCCCAT CACTGCCATACCGACGACGC

4621 CGATCTGTTG CTTTGACATT GTTTACTCCT GTCAGGATAC CGCTGGGTGGTATGCGGGTT

4681 ATGCTTAATT ATAGAATATG CCTAATAAAA ATAAATCCAT AACACTTAATCAGAAAATTA

4741 TTATTATCGA TTCCTAACGA TTGAATACAT CAGCTCCTTT AATTTAGATGGCATTATACG

4801 AAAAAATGTT CTCAACATAG CATTACTTAT TAATTCATTT TTTCGAATAAAACCAATTTT

4861 ATATTGATAA TACAATACTT TATACTCGTA CAATAAATAT GACAATCCACGTCGAGCCAT

4921 AAGATTACGA CCAGTTCGCA TTTTTAATAA AATATCTGGA AGATTTGCAAATCTTGCATT

4981 ATGTACAATT AATAGGCTCC ACAATGCAAA ATCTTGAGAT TTTCTGAATGGAGGATAACC

5041 ACCAACAGCT AATACTGTAT TCTTTCTAAA AATTACAGAA GGATGGCTAACTGCGCTTCG

5101 TTTCCTCGCG AATTTAACTA TTTCTCTATG TTCGAGAGGC ACTTTGCGTGTTGAAATAAA

5161 CTCCTCAGTA ACAGTTTCAA TTTCATCAAT AAAACTGCCA CATACATCTATTTCTGAATT

5221 ATTAATCATA AAAGAAATTT GTTTCTCAAA CCGATGAGGC AAAGAAATATCATCAGCATC

5281 CATTCTTGCC ACTAACTCAT TCCTACAAGC CTTTAATCCT TCATTTAAGGCATTAGCCAA

5341 TCCAACATTT CTAGGTAAAG GTACAAATGT TACTATTTTA TTGCCAACATCATCAATGAA

5401 TGAATTTATA ATATCGATGT GTGTTTGATG GAGTTCTCCA TCTGCAACAATTACTATTTG

5461 ATCTGGCTTA AGTGTTTGAT CGTGAAAAAT AGAGCGTAGA GCCACCTCAAAAAATTGCGG

5521 TAGATCATTT TTATAAATGC TAATTAAAAC TGAGAATTTT TCTAATCTATGATTCATTTC

5581 ATTTTACCAC TTCGACCCAT TAAACCGTCA TTAATGCCTT TTAAAAAAAAATATAACCTT

5641 TTATTACCAT TTGGAAGGAA AATAGGATAT AAAAAAACCT TTCCAATTAATTTAACCAGA

5701 CTAGAAATTT TCCAGTAGAT GGGTACATAA TTTTTATTTA ATAAAAGAAAGATATTTCGA

5761 GTAGCATAAT AATGACGAAA TGGGCTTGGC AAACCGACAG AAAGAATATTTAAGATCTTA

5821 AATCGCCCAT CTCCAAGTCT ATGTGCAAGT AACGCATTTT TATTCCTAATTACTTTAAAC

5881 CCAGCAGCTC TTAATCTCCA ACAATATTCA TGGTCTACCG CATCGATAAAAAGCTCATCT

5941 TTCATTCCTC CAACAATCAA CCAACTATTT TTTGGTATTA GACTGCCAGAACTTAATGTA

6001 CTATCTACCT CATAATAAAC TTCTGTAAGT GGTTTCCCTT TTTTTACCCTTGCTTTATTT

6061 AATTCACCAG TTACTTTATC AAAATCTTGT GAACCAACTA AACCAACATTGACATTTTGT

6121 TTAAGCAATT TTTTGTAACA AGTAAGTAAC TGCTCTACCA TCTTAGGATCAGGAATACTA

6181 TCCTGATCCA TTTGCAATAT AAAATCAGCG CCATTTTCAA AAGCCCATTTCATTCCTATA

6241 CTTTGGGCTT CTGCTATGCC TAAATTATCA TTGAAATTGA ATATTTTTACATCGCCTGAA

6301 GAATTTTCAG CATATTTATA ACCATTTGTA GAGTTATTGC AAACGACAACTTTAGTAACT

6361 TGTCTCAACA ATAATTCAAC CGCATTTTTT AAATCATTAT GTTCTGGGTTGTAAGCAACC

6421 AAAACGGCAT ATACAGTGTC CATCTTCACC TTAAAACCTT CATTTAGCTTTCATCTTTTT

6481 TAGAACATTA CTTAATGTCA CTAATACAAT TATTACAGCA ACATGGTTAGAGTCTAAAAT

6541 ATAAGGATTA GTAATTGCAT AAGAAACATA TAGAAAATAT AGCACACACAACTCACTGTA

6601 TTTTATGATT TTAATCGTGA GAAGGAGATT AATTAATAAA AACAAAGTAAATAAAATAAC

6661 GCCAAGTTGA TTTAAAAAAT AAACTGACTG CAATTCATAA TATATATATGCACTATAATC

6721 ACGGATAGGA GTTTGAATTT TGATGACATT ACCCAAACCA GAACCTATAACAAAATTTGA

6781 TACAGACTCT GTAAGATCAT TAATTAATAC AGTAAACTGA TCCCATCTAACTCCTAAAGA

6841 AGAATCAGCT CCATTTGATT TCATGATTAT CAACTCAATT GAATATGTAATAAAAAAAGG

6901 GAGAATCACA GTAAGAAAAA CCCCAAAAAT AATTTTCCTT AATTTAGCGTATCGTGAGTT

6961 AGATTTAGAA CATAGTATAA TATACATAAA AAACAAGCAT ATCGAAACAAAATATGCAAA

7021 ATTACCAGCC ACTATAGTAC CTATAGCCAG AATAACGGTT ATTGTATTTTTGAATCGATA

7081 ATAGAAATAA TCTTTTATGA CTATATGCAA CATAAAGGCA AATGGAATGAGAGCATTTCC

7141 TTTAATTTGA ACTCTATAGA AACCACTTCC ATATGTATAA ACATCACCATAATCATTCTC

7201 CAAAAAATAA TGTCTTAGTG CTGAATAATC ACCAATACCA TATGTTTTTGTCATATAAAT

7261 ACTAATGATG GATATAATAA CCGCCTGTAA TACCATTAAA TATAAAAATATTTTAACAAT

7321 CGAGATGGTT CCATAAGAGC AGAAATAAGC ACATAATATA AATAATATGATAATATAAAA

7381 CCTAATTATT ATCGCTATAT CGTTACCCTT GATATAGGAA TAAATAAAATTTATAAAAAG

7441 AGCTAATAGA AATATTAAAA TAACAGGATA GTGATATATT CCGTTTGCAATTTTCTTTGT

7501 AAATGACATG ATACAAAGAC ATAAAAACCC CTCCATAATC CAACTATATTGAATAAATGG

7561 AAAGCTACGT GTAAGGAAAA ATATAAACCC AAAAAACAAA AGAACACTTAAACTTTTGTC

7621 TTTTGAGTTA TAAAAATCAG AAGTCATGTT TGCACTCTAA TTAGATGGGCTTGAGGAAGT

7681 AATCCCTAAA ATCAATTCGC TATTAATATT TCGTATCAAT TAATAATAATATCAAAAAAT

7741 CTAACGATGT TCTTACAGAC CATGCTATTG CGGCTCCAAC AATTCCCCAATGATAAATAA

7801 AAATATATAA TATGCATAAA TATGGGATAA CTTCGAGCAA ATGAATAATAGCTGTAATTT

7861 TTGATCTTCC ACTAGCCTGA ACTGAAACAA ATGGGATTTG TGCAATGCAATTAAAAAAGA

7921 AACCTATTGC AAGAATTTTT AATACTATAC CTGGCGTCCC ATGATATGTAGGTCCCATCC

7981 AAGCGGACAT TATAAAATCT GATAAAATAA TTATCAACAT TACAATTGGAAGTATACCAA

8041 TAACCATTAT AAAATATGAT AATATTTTAG TTTGCTTTAC CGATTGCAATTCTGAACTTA

8101 ATCTTGGAAA AATAGCTCTG GACAACGCAC TTGGTAATAT CGTTAAGCGTTGTATACCTT

8161 CAGACGGAGC AGTATAAAAA GAAACTTTAT CAGCCCCCAC AATGTGTGAAAGAATAAAAC

8221 GATCCATATA TGTCATAATA GGGCTAATAA TATTGCTAAC TGTTATCCAGCTTCCAAAGC

8281 CGATTAATCT TTTAACTGTT ACAATTTTTA CAGACAGCCC AGATGATATTATTAGTTTTC

8341 GACTAAATAT AAAGGTCACT ATAAGTGATA AGACTCTTGC CATAACTAAACCATATATAG

8401 CACTTAGTAA TCCTCCATGA AAAAAACAGA AAATCACTGG TAATCCAGCCACAAAAGAGT

8461 TGTTAATTGA TTTTATTAAA TTTACTTTTC TGAACTTTTC CATCCCCTCAAAAATCCCCA

8521 ACCAGACTTG GTTTAACAAG TATAAGGGTA TGGTAGCTGA AATAATATATATTGCTTTGA

8581 CAGATTCTAC AACATGATTC GCGTTAATGT TTAATAATTT AACAATTACATTGCTACTCA

8641 AAAATAGTAC ACTACCGCCA ATCAAGCCCA ATATAGTTAG AATTACCGTTGAAGTTGAAA

8701 TGATCGCTCT TAATTCTTTA TGAACATTTT TATATATTGA TACTTCTCTTATAACAGCTC

8761 TGGTCAATCC AGCATCAAAA ATACTTGCAT ATCCAACTAA GGCAATAGCTAACGTAAAAA

8821 GGCCAAATTG CTCGGTCCCT AGAATTCTAG ACAGTATACC TAACGCAGGAATTGCTATTA

8881 ATGATGGTAT AATATACCCA CTTATATTCC ATAAAGTATT CTTTACAATACTCACAAAAA

8941 TAATTCCTTC ATGTTATGCA ATTCTTTAGC CCTTGCATCT TTAATCGATAAAATATAATT

9001 ATTATGTTCT ATCGTCGGCC ATTTTATGCT CAGAATAGGA TCATTCCATACAATCCCTCT

9061 ATCACTATCA GGATGATAAT AGTTCGTCGT TTTATATAAA AATTCCGCAGTCTCGCTCAG

9121 CACCAAAAAA CCATGTGCAA ATCCCTCAGG GATCCACAAT TGCCGCTTATTCTCAGCAGA

9181 TAAATTCACC CCAACCCATT TACCAAAGGT AGGCGACGAT TTACGAATATCAACAGCTAC

9241 ATCAAAAACC TCACCAACAA CGCAACGTAC CAGTTTCCCT TGCGCATAAGGTTCTAACTG

9301 ATAATGCAGC CCGCGTAAAA CACCTTTACT AGACTTCGAA TGGTTATCCTGAACAAATTC

9361 AACCTTACGT CCTACAGCTT CTTCGAAAAC TTTCTGATTA AAGCTTTCCATAAAGAAACC

9421 ACGCTCATCA CCAAAAACTT TCGGCTCGAA AATTAACACA TCAGGAATTTCTGTTTTAAT

9481 TACGTTCATT TTATTAATAA CCTTTAATCA TTTTCAGCAG ATACTGTCCATAAGCATTTT

9541 TTTTCAGCGG CTCCGCTAAT GCTTTCACCT GTTCAGCATC AATAAACCCTTTACGGTAAG

9601 CAATTTCTTC TGGGCAGGAA ACCTTTAGTC CCTGGCGCTC TTCAATGGTGGCAATGAAGT

9661 TGCTTGCTTC AATAAGACTC TGATGTGTCC CCGTATCCAG CCATGCATAACCACGCCCCA

9721 TCATGGCAAC GGATAAACGC CCCTGTTCCA TATAAATACG GTTAATATCGGTAATTTCCA

9781 GTTCACCACG GGCAGAAGGC TTAAGGTTTT TCGCCATTTC GACAACGTCGTTATCATAGA

9841 AATAAAGCCC GGTTACCGCA TAATTACTTT TTGGTTGTAG CGGTTTTTCTTCCAGGCTTA

9901 TTGCCGTACC GTTTTTATCA AACTCAACGA CGCCGTAGCG TTCAGGATCATTAACGTGAT

9961 AGGCAAATAC CGTTGCACCA CTTTCTTTGT TAACAGCGAC ATCCATTAACTTCGGCAGAT

10021 CATGACCGTA GAAGATATTA TCACCAAGAA CCAAAGCACA ATCATCACCACCGATAAACT

10081 CTTCACCGAT AATAAACGCC TGCGCAAGCC CATCTGGAGT CGGTTGCACTTTGTACTGAA

10141 GATTTAGCCC CCACTGGCTA CCGTCACCTA GCAGTTGTTG AAAACGAGGAGTATCCTGTG

10201 GCGTACTAAT AATCAGAATA TCGCGAATAC CCGCCAACAT CAGTGTAGAGAGCGGGTAAT

10261 AGATCATCGG CTTATCATAA ATAGGTAATA GCTGTTTACT GACAGCCATAGTCACAGGAT

10321 AAAGACGTGT ACCAGAACCA CCCGCTAAAA TAATACCTTT ACGCGTTTTCATTTCATCAT

10381 TCCTTTTAAT TCATCTTGCT CCACCATCAC GAACAAGATG CAAAAACTATTAAATTGCTG

10441 TAGTCGTAAT TAATTCGTTG AGCATTCGTT TCACACCAAC CTGCCAGTCAGGCAAGACAA

10501 GCGCAAAGTT CTGCTGAAAT TTTTCTGTAT TAAGGCGAGA GTTATGTGGACGACGAGCTG

10561 GTGTAGGATA GGCTGTTGTT GGTACTGCGT TGAGCTTGTT GAGTGCAAGGGGAATACCTG

10621 CTTTGCGCGC CTCTTCAAAA ACCAGCGCAG CATAATCGTG CCAGGTTGTGGTACCACTGG

10681 CTACCAGATG GTACAAACCT GCGACTTCCG GTTTATTCAG TGCCACACGAATAGCATGTG

10741 CCGTACAATC AGCCAGCAGC TCAGCACCTG TTGGCGCACC AAATTGATCATTTATCACAG

10801 CCAGTTCTTC GCGCTCTTTT GCCAGACGCA ACATCGTTTT GGCGAAGTTATTTCCTTTAG

10861 CTGCGTATAC CCAGCTGGTA CGGAAAATAA GATGCTTCGC GCAATGTTCCTGTAACGCTT

10921 TTTCTCCGGC TAACTTGGTT TCACCGTAAA CATTTAGCGG TGCGGTTGCATCCGTCTCCA

10981 GCCATGGCGT GTCGCCATTT CCAGGGAATA CGTAGTCAGT TGAGTAATGAATTACCCAAG

11041 CCCCAACTTC ATTAGCCTCT TTTGCAATTG ATTCAACACT AGTCGCATTGAGTAATTGTG

11101 CAAATTCGGG TTCTGACTCA GCCTTATCTA CTGCGGTGTG AGCCGCAGCATTAACAATAA

11161 CATCAGGTCG AATTCTTTTG ACTGTTTCAG CTACACCTTC AGGATTACTAAAATCACCAC

11221 AATAATCAGT GGAGTGAACA TCAAGAGCAA TCAAATTACC CAAAGGTGCCAGAGCACGCT

11281 GTAGTTCCCA ACCTACCTGC CCTGTTTTGC CGAAAAGGAG GATATTCATTACTGGCGGCC

11341 CTCATAGTTC TGTTCAATCC ACGATTGATA AGCACCACTT TTCACATTATCAACCCATTT

11401 TGTATTGGAC AGGTACCATT CCAATGTCTT CCGAATCCCG CTCTCAAACGTTTCCTGCGG

11461 TTTCCAGCCC AATTCGCGGC TAATCTTCTC TGCATCAATC GCATAACGGCGATCGTGTCC

11521 CGGGCGATCG GCAACATAAG TAATTTGCTC GCGGTAAGAT TTCTCTTTCGGTACAATCTC

11581 ATCCAGCAAA TCACAAATAG TGAGCACTAC ATCGATGTTT TTCTTTTCGTTGTGTCCACC

11641 AATGTTATAA GTTTCACCCG CTTTACCTTC GGTTACGACG GTATATAACGCACGCGCATG

11701 ATCTTCAACA TACAGCCAGT CACGAATTTG ATCCCCTTTG CCATAAATAGGTAATGCCTT

11761 ACCTTCCAGA GCATTCAGAA TAACCAATGG AATCAATTTT TCCGGGAAATGATAAGGACC

11821 ATAATTATTA GAGCAATTAG TCACAATGGT TGGTAAACCA TAGGTACGTTTCCACGCGCG

11881 GACTAAATGA TCGCTGGATG CTTTTGAAGC GGAATAAGGG CTGCTTGGCGCGTAAGCTGT

11941 TGTCTCTGTA AATAAGGGTA ATTCTTCTGT ATTATTTACC TCGTCAGGATGAGGCAAATC

12001 ACCATAGACT TCGTCAGTAG AAATATGATG AAAACGGAAT CTAGTTTTCTTGTCGCTATC

12061 AAGAGCAGAC CAATAATTGC GAGCGGCTTC CAAAAGGACA TATGTACCAACAATATTGGT

12121 TTCAATAAAT GCCGCAGGAC CTGTAATTGA ACGGTCAACA TGGCTTTCAGCAGCCAGGTG

12181 CATCACTGCA TCTGGCTGAT GCTGAGCAAA AATCCGTGCC ATTGCAGCTGCATCGCAAAT

12241 ATCCGCATGT TCAAAAACAT AGCGTTCAGA ATCAGAAACA TCAGCAAGTGATTCCAGGTT

12301 TCCGGCGTAC GTTAATTTAT CGACATTAAC AACACTATCC TGCGTATTATTTATAATGTG

12361 ACGAACTACA GCAAAACCAA TAAATCCTGC GCCACCAGTA ACAAGTATTTTCACCTAATT

12421 TATTCCATAT TGCTTCAGAG CATGCTGTGA AATAAGCGGC TCTCAGTTTGATTAATAGAA

12481 GTATTAATGC ACGCTACCGC CCCTGGCTTT ACAGCTACCA GAGCACTGCATGCATGCCTA

12541 CGATGTGACG AGCGTTACCC ACTCGCGCTA AACCCGAAAA ATTCAAAAGCTAATTGTCTT

12601 ACCAATCCGC TCTGGAAACA AGGAAAATCC TGGAAAACTT TGACTAAAATCCTATTGCTA

12661 ACTCGTTGTT ATTCTGATTG TTTATATAAA ACAACGGCAG GAATATTCGCAACAAATTAC

12721 TTTCACCACG AATCTTCACT GCCGTTATAA TTTTCTTATC AACCGTTACATCCGGTCAGA

12781 TTTTCATTAT TCGCTTAACA GCTTCTCAAT ACCTTTACGG AACTTCGCCCCTTCTTTCAG

12841 GTTGCGCAGC CCATACTTCA CAAACGCCTG CATATAGCCC ATTTTTTTACCGCAGTCGTA

12901 GCTGTCGCCG GTCATCAGCA TTGCATCAAC GGACTGTTTT TTCGCCAGCTCGGCAATGGC

12961 ATCAGTCAGC TGAATACGTC CCCATGCACC AGGCTGAGTA CGTTCAAGTTCCGGCCAAAT

13021 ATCGGCAGAA AGCACATAGC GACCAACGGC CATGATGTCT GAGTCCAGCGTCTGCGGCTG

13081 ATCCGGTTTT TCGATAAATT CAACAATGCG GCTGACTTTA CCTTCGCGATCCAGCGGTTC

13141 TTTGGTCTGG ATGACGGAGT ATTCAGAGAG GTCACCCGGC ATACGTTTTGCCAGCACCTG

13201 GCTACGGCCC GTTTCATTGA AGCGCGCAAT CATGGCAGCA AGGTTGTAGCGTAGCGGGTC

13261 GGCGCTGGCG TCGTCGATCA CAACGTCTGG CAGCACCACG ACAAATGGATTGTCACCAAT

13321 GGCGGGTCGT GCACACAAAA TGGAGTGACC TAAACCTAAA GGTTCGCCCTGACGCACGTT

13381 CATAATAGTC ACGCCCGGCG GGCAGATAGA TTGCACTTCC GCCAGTAGTTGACGCTTCAC

13441 GCGCTGCTCA AGGAGAGATT CTAATTCATA AGAGGTGTCG AAGTGGTTTTCGACCGCGTT

13501 CTTGGACGCA TGAGTTACCA GGAGGATTTC TTTGATCCCT GCAGCCACAATCTCGTCAAC

13561 AATGTACTGA ATCATTGGCT TGTCGACGAT CGGTAGCATC TCTTTGGGTATCGCCTTAGT

13621 GGCAGGCAAC ATATGCATCC CAAGACCCGC TACCGGTATA ACTGCTTTTAAATTCGTCAT

13681 TATTTTCCTA CCTCTAAGGG GCTGATAGTG CGTAAATTAT TGTCATAGGTTAGCCAAACG

13741 GTATGGCTAT ATACCAAGCA TAACTTTGAT TAAACCTTAC GATAACACTACACACCATCA

13801 GCATCTGGGT TACTCGGATT ACTCGGAAAT CCACATACTG ATAATTTAATCAGTACCTCT

13861 TTCCGAATAA TCGTAGTCCA ACCTGGTCCT TTTTTCTCTG ACTCGTCTGCATTACTCAGA

13921 AACAAACGTT ATGTCGTCTT TTTTGGCATG GACGAATTCA TACTGCAGAGTTCGATCCAG

13981 ACCTTGCGAC AGCGTATACG GTGCAACAAA ACCTGAAGAA TGCACTTTCGTTGCGTCAAA

14041 CTGTGTTGTT GCGCAGAATT TTTTCACGCG CACAGAGCTG ACAGCGTATTTTTTGCCCGT

14101 AATTTTGCTC AGGATATCAA AGCAATATCC ACCCAGCATT CCTAGTGGGTAAGGCAAGTG

14161 CATAGAAGGG ATCTTTTTGT TCAGGCTTTG TTCAACTTCA GCAACCAACTGGTTCATGTT

14221 CAGGTCTGGC TTATCAACAT AGTTATAAAC CTCATAACCT GCGGCAACATTCTTCAGTTT

14281 GTACTTGATA AACTCAACAA TGTTTCCAAC ATAAGCCATG GACTTATAGTTAGTCCCTGC

14341 GCCCACCATC ATAAACTTGC CGCCAGCGAT CTGTTTCAGC AAGTTATAGACGTTACCGCG

14401 GTTGCGTTCA CCGAAGATAA CGGTAGGACG GATGATGGTT AATGAACGTTCTGTTGGTGC

14461 TTTGTTATAC CATTCACGCA GCACTTCCTC TGCCTGCCAC TTACTTTTGCCGTAGTGGTT

14521 GAAAGGGTCG TGTGGATGGT TTTCGTCAGG GTTGTGTTTG TTCAAACCATAAACAGCAAC

14581 GGAACTGGTA AAGATGATAT TTTTAACGCC ATTTTTTTCC ATGGCCGCCAGCACATTGCG

14641 GGTACCCTGA ACGTTGACAT CATAATAGAG AGAAGTAGGG CTGACGTCATCGCGGTGTTC

14701 CGCTGCCAGT AGTACAACAG TGTCAAAACC GGCTAACGCC TGGTCGAGTGCCTGTTGATC

14761 ACGAACATCA CCAATCTGTG TGATTTCTGG ATAAAAGTGG CTCTGCCGTTTGTCCAGGTT

14821 CTTGATATTA AAGTCAGCAA TTGCCGTTTC AAGTAGTCGG GTTCCTACGAATCCGGAAGC

14881 TCCTATGAGC AAAACGTTAT TGTTCATAAA TCACTTTAGT CTGGTTGTTACGTAAGAAAC

14941 ACAAGATAAA GATGAGTACC TTCCCTGAGT AGTCAATGCT GCCCAGCCCCAGCTTTAACA

15001 GTTAGTGTGA GGATTATAAT CTTTTAGAAC ATTATATCCA GTAAGTTTATGAATGGTCGC

15061 AAATCTACTC TCTCCGTTCC GGCAATCTAA AGTTAATGCT AGCGACGTCGTGGGATCCTC

15121 TAGAGTCGAC CTGCAGGCAT GCAAGCTTGA GTATTCTATA GTCTCACCTAAATAGCTTGG

15181 CGTAATCATG GTCATAGCTG TTTCCTGTGT GAAATTGTTA TCCGCTCACAATTCCACACA

15241 ACATACGAGC CGGAAGCATA AAGTGTAAAG CCTGGGGTGC CTAATGAGTGAGCTAACTCA

15301 CATTAATTGC GTTGCGCTCA CTGCCCGCTT TCCAGTCGGG AAACCTGTCGTGCCAGCTGC

15361 ATTAATGAAT CGGCCAACGC GAACCCCTTG CGGCCGCCCG GGCCGTCGACCAATTCTCAT

15421 GTTTGACAGC TTATCATCGA ATTTCTGCCA TTCATCCGCT TATTATCACTTATTCAGGCG

15481 TAGCAACCAG GCGTTTAAGG GCACCAATAA CTGCCTTAAA AAAATTACGCCCCGCCCTGC

15541 CACTCATCGC AGTACTGTTG TAATTCATTA AGCATTCTGC CGACATGGAAGCCATCACAA

15601 ACGGCATGAT GAACCTGAAT CGCCAGCGGC ATCAGCACCT TGTCGCCTTGCGTATAATAT

15661 TTGCCCATGG TGAAAACGGG GGCGAAGAAG TTGTCCATAT TGGCCACGTTTAAATCAAAA

15721 CTGGTGAAAC TCACCCAGGG ATTGGCTGAG ACGAAAAACA TATTCTCAATAAACCCTTTA

15781 GGGAAATAGG CCAGGTTTTC ACCGTAACAC GCCACATCTT GCGAATATATGTGTAGAAAC

15841 TGCCGGAAAT CGTCGTGGTA TTCACTCCAG AGCGATGAAA ACGTTTCAGTTTGCTCATGG

15901 AAAACGGTGT AACAAGGGTG AACACTATCC CATATCACCA GCTCACCGTCTTTCATTGCC

15961 ATACGAAATT CCGGATGAGC ATTCATCAGG CGGGCAAGAA TGTGAATAAAGGCCGGATAA

16021 AACTTGTGCT TATTTTTCTT TACGGTCTTT AAAAAGGCCG TAATATCCAGCTGAACGGTC

16081 TGGTTATAGG TACATTGAGC AACTGACTGA AATGCCTCAA AATGTTCTTTACGATGCCAT

16141 TGGGATATAT CAACGGTGGT ATATCCAGTG ATTTTTTTCT CCATTTTAGCTTCCTTAGCT

16201 CCTGAAAATC TCGATAACTC AAAAAATACG CCCGGTAGTG ATCTTATTTCATTATGGTGA

16261 AAGTTGGAAC CTCTTACGTG CCGATCAACG TCTCATTTTC GCCAAAAGTTGGCCCAGGGC

16321 TTCCCGGTAT CAACAGGGAC ACCAGGATTT ATTTATTCTG CGAAGTGATCTTCCGTCACA

16381 GGTATTTATT CGCGATAAGC TCATGGAGCG GCGTAACCGT CGCACAGGAAGGACAGAGAA

16441 AGCGCGGATC TGGGAAGTGA CGGACAGAAC GGTCAGGACC TGGATTGGGGAGGCGGTTGC

16501 CGCCGCTGCT GCTGACGGTG TGACGTTCTC TGTTCCGGTC ACACCACATACGTTCCGCCA

16561 TTCCTATGCG ATGCACATGC TGTATGCCGG TATACCGCTG AAAGTTCTGCAAAGCCTGAT

16621 GGGACATAAG TCCATCAGTT CAACGGAAGT CTACACGAAG GTTTTTGCGCTGGATGTGGC

16681 TGCCCGGCAC CGGGTGCAGT TTGCGATGCC GGAGTCTGAT GCGGTTGCGATGCTGAAACA

16741 ATTATCCTGA GAATAAATGC CTTGGCCTTT ATATGGAAAT GTGGAACTGAGTGGATATGC

16801 TGTTTTTGTC TGTTAAACAG AGAAGCTGGC TGTTATCCAC TGAGAAGCGAACGAAACAGT

16861 CGGGAAAATC TCCCATTATC GTAGAGATCC GCATTATTAA TCTCAGGAGCCTGTGTAGCG

16921 TTTATAGGAA GTAGTGTTCT GTCATGATGC CTGCAAGCGG TAACGAAAACGATTTGAATA

16981 TGCCTTCAGG AACAATAGAA ATCTTCGTGC GGTGTTACGT TGAAGTGGAGCGGATTATGT

17041 CAGCAATGGA CAGAACAACC TAATGAACAC AGAACCATGA TGTGGTCTGTCCTTTTACAG

17101 CCAGTAGTGC TCGCCGCAGT CGAGCGACAG GGCGAAGCCC TCGGCTGGTTGCCCTCGCCG

17161 CTGGGCTGGC GGCCGTCTAT GGCCCTGCAA ACGCGCCAGA AACGCCGTCGAAGCCGTGTG

17221 CGAGACACCG CGGCCGGCCG CCGGCGTTGT GGATACCTCG CGGAAAACTTGGCCCTCACT

17281 GACAGATGAG GGGCGGACGT TGACACTTGA GGGGCCGACT CACCCGGCGCGGCGTTGACA

17341 GATGAGGGGC AGGCTCGATT TCGGCCGGCG ACGTGGAGCT GGCCAGCCTCGCAAATCGGC

17401 GAAAACGCCT GATTTTACGC GAGTTTCCCA CAGATGATGT GGACAAGCCTGGGGATAAGT

17461 GCCCTGCGGT ATTGACACTT GAGGGGCGCG ACTACTGACA GATGAGGGGCGCGATCCTTG

17521 ACACTTGAGG GGCAGAGTGC TGACAGATGA GGGGCGCACC TATTGACATTTGAGGGGCTG

17581 TCCACAGGCA GAAAATCCAG CATTTGCAAG GGTTTCCGCC CGTTTTTCGGCCACCGCTAA

17641 CCTGTCTTTT AACCTGCTTT TAAACCAATA TTTATAAACC TTGTTTTTAACCAGGGCTGC

17701 GCCCTGTGCG CGTGACCGCG CACGCCGAAG GGGGGTGCCC CCCCTTCTCGAACCCTCCCG

17761 GTCGAGTGAG CGAGGAAGCA CCAGGGAACA GCACTTATAT ATTCTGCTTACACACGATGC

17821 CTGAAAAAAC TTCCCTTGGG GTTATCCACT TATCCACGGG GATATTTTTATAATTATTTT

17881 TTTTATAGTT TTTAGATCTT CTTTTTTAGA GCGCCTTGTA GGCCTTTATCCATGCTGGTT

17941 CTAGAGAAGG TGTTGTGACA AATTGCCCTT TCAGTGTGAC AAATCACCCTCAAATGACAG

18001 TCCTGTCTGT GACAAATTGC CCTTAACCCT GTGACAAATT GCCCTCAGAAGAAGCTGTTT

18061 TTTCACAAAG TTATCCCTGC TTATTGACTC TTTTTTATTT AGTGTGACAATCTAAAAACT

18121 TGTCACACTT CACATGGATC TGTCATGGCG GAAACAGCGG TTATCAATCACAAGAAACGT

18181 AAAAATAGCC CGCGAATCGT CCAGTCAAAC GACCTCACTG AGGCGGCATATAGTCTCTCC

18241 CGGGATCAAA AACGTATGCT GTATCTGTTC GTTGACCAGA TCAGAAAATCTGATGGCACC

18301 CTACAGGAAC ATGACGGTAT CTGCGAGATC CATGTTGCTA AATATGCTGAAATATTCGGA

18361 TTGACCTCTG CGGAAGCCAG TAAGGATATA CGGCAGGCAT TGAAGAGTTTCGCGGGGAAG

18421 GAAGTGGTTT TTTATCGCCC TGAAGAGGAT GCCGGCGATG AAAAAGGCTATGAATCTTTT

18481 CCTTGGTTTA TCAAACGTGC GCACAGTCCA TCCAGAGGGC TTTACAGTGTACATATCAAC

18541 CCATATCTCA TTCCCTTCTT TATCGGGTTA CAGAACCGGT TTACGCAGTTTCGGCTTAGT

18601 GAAACAAAAG AAATCACCAA TCCGTATGCC ATGCGTTTAT ACGAATCCCTGTGTCAGTAT

18661 CGTAAGCCGG ATGGCTCAGG CATCGTCTCT CTGAAAATCG ACTGGATCATAGAGCGTTAC

18721 CAGCTGCCTC AAAGTTACCA GCGTATGCCT GACTTCCGCC GCCGCTTCCTGCAGGTCTGT

18781 GTTAATGAGA TCAACAGCAG AACTCCAATG CGCCTCTCAT ACATTGAGAAAAAGAAAGGC

18841 CGCCAGACGA CTCATATCGT ATTTTCCTTC CGCGATATCA CTTCCATGACGACAGGATAG

18901 TCTGAGGGTT ATCTGTCACA GATTTGAGGG TGGTTCGTCA CATTTGTTCTGACCTACTGA

18961 GGGTAATTTG TCACAGTTTT GCTGTTTCCT TCAGCCTGCA TGGATTTTCTCATACTTTTT

19021 GAACTGTAAT TTTTAAGGAA GCCAAATTTG AGGGCAGTTT GTCACAGTTGATTTCCTTCT

19081 CTTTCCCTTC GTCATGTGAC CTGATATCGG GGGTTAGTTC GTCATCATTGATGAGGGTTG

19141 ATTATCACAG TTTATTACTC TGAATTGGCT ATCCGCGTGT GTACCTCTACCTGGAGTTTT

19201 TCCCACGGTG GATATTTCTT CTTGCGCTGA GCGTAAGAGC TATCTGACAGAACAGTTCTT

19261 CTTTGCTTCC TCGCCAGTTC GCTCGCTATG CTCGGTTACA CGGCTGCGGCGAGCGCTAGT

19321 GATAATAAGT GACTGAGGTA TGTGCTCTTC TTATCTCCTT TTGTAGTGTTGCTCTTATTT

19381 TAAACAACTT TGCGGTTTTT TGATGACTTT GCGATTTTGT TGTTGCTTTGCAGTAAATTG

19441 CAAGATTTAA TAAAAAAACG CAAAGCAATG ATTAAAGGAT GTTCAGAATGAAACTCATGG

19501 AAACACTTAA CCAGTGCATA AACGCTGGTC ATGAAATGAC GAAGGCTATCGCCATTGCAC

19561 AGTTTAATGA TGACAGCCCG GAAGCGAGGA AAATAACCCG GCGCTGGAGAATAGGTGAAG

19621 CAGCGGATTT AGTTGGGGTT TCTTCTCAGG CTATCAGAGA TGCCGAGAAAGCAGGGCGAC

19681 TACCGCACCC GGATATGGAA ATTCGAGGAC GGGTTGAGCA ACGTGTTGGTTATACAATTG

19741 AACAAATTAA TCATATGCGT GATGTGTTTG GTACGCGATT GCGACGTGCTGAAGACGTAT

19801 TTCCACCGGT GATCGGGGTT GCTGCCCATA AAGGTGGCGT TTACAAAACCTCAGTTTCTG

19861 TTCATCTTGC TCAGGATCTG GCTCTGAAGG GGCTACGTGT TTTGCTCGTGGAAGGTAACG

19921 ACCCCCAGGG AACAGCCTCA ATGTATCACG GATGGGTACC AGATCTTCATATTCATGCAG

19981 AAGACACTCT CCTGCCTTTC TATCTTGGGG AAAAGGACGA TGTCACTTATGCAATAAAGC

20041 CCACTTGCTG GCCGGGGCTT GACATTATTC CTTCCTGTCT GGCTCTGCACCGTATTGAAA

20101 CTGAGTTAAT GGGCAAATTT GATGAAGGTA AACTGCCCAC CGATCCACACCTGATGCTCC

20161 GACTGGCCAT TGAAACTGTT GCTCATGACT ATGATGTCAT AGTTATTGACAGCGCGCCTA

20221 ACCTGGGTAT CGGCACGATT AATGTCGTAT GTGCTGCTGA TGTGCTGATTGTTCCCACGC

20281 CTGCTGAGTT GTTTGACTAC ACCTCCGCAC TGCAGTTTTT CGATATGCTTCGTGATCTGC

20341 TCAAGAACGT TGATCTTAAA GGGTTCGAGC CTGATGTACG TATTTTGCTTACCAAATACA

20401 GCAATAGTAA TGGCTCTCAG TCCCCGTGGA TGGAGGAGCA AATTCGGGATGCCTGGGGAA

20461 GCATGGTTCT AAAAAATGTT GTACGTGAAA CGGATGAAGT TGGTAAAGGTCAGATCCGGA

20521 TGAGAACTGT TTTTGAACAG GCCATTGATC AACGCTCTTC AACTGGTGCCTGGAGAAATG

20581 CTCTTTCTAT TTGGGAACCT GTCTGCAATG AAATTTTCGA TCGTCTGATTAAACCACGCT

20641 GGGAGATTAG ATAATGAAGC GTGCGCCTGT TATTCCAAAA CATACGCTCAATACTCAACC

20701 GGTTGAAGAT ACTTCGTTAT CGACACCAGC TGCCCCGATG GTGGATTCGTTAATTGCGCG

20761 CGTAGGAGTA ATGGCTCGCG GTAATGCCAT TACTTTGCCT GTATGTGGTCGGGATGTGAA

20821 GTTTACTCTT GAAGTGCTCC GGGGTGATAG TGTTGAGAAG ACCTCTCGGGTATGGTCAGG

20881 TAATGAACGT GACCAGGAGC TGCTTACTGA GGACGCACTG GATGATCTCATCCCTTCTTT

20941 TCTACTGACT GGTCAACAGA CACCGGCGTT CGGTCGAAGA GTATCTGGTGTCATAGAAAT

21001 TGCCGATGGG AGTCGCCGTC GTAAAGCTGC TGCACTTACC GAAAGTGATTATCGTGTTCT

21061 GGTTGGCGAG CTGGATGATG AGCAGATGGC TGCATTATCC AGATTGGGTAACGATTATCG

21121 CCCAACAAGT GCTTATGAAC GTGGTCAGCG TTATGCAAGC CGATTGCAGAATGAATTTGC

21181 TGGAAATATT TCTGCGCTGG CTGATGCGGA AAATATTTCA CGTAAGATTATTACCCGCTG

21241 TATCAACACC GCCAAATTGC CTAAATCAGT TGTTGCTCTT TTTTCTCACCCCGGTGAACT

21301 ATCTGCCCGG TCAGGTGATG CACTTCAAAA AGCCTTTACA GATAAAGAGGAATTACTTAA

21361 GCAGCAGGCA TCTAACCTTC ATGAGCAGAA AAAAGCTGGG GTGATATTTGAAGCTGAAGA

21421 AGTTATCACT CTTTTAACTT CTGTGCTTAA AACGTCATCT GCATCAAGAACTAGTTTAAG

21481 CTCACGACAT CAGTTTGCTC CTGGAGCGAC AGTATTGTAT AAGGGCGATAAAATGGTGCT

21541 TAACCTGGAC AGGTCTCGTG TTCCAACTGA GTGTATAGAG AAAATTGAGGCCATTCTTAA

21601 GGAACTTGAA AAGCCAGCAC CCTGATGCGA CCACGTTTTA GTCTACGTTTATCTGTCTTT

21661 ACTTAATGTC CTTTGTTACA GGCCAGAAAG CATAACTGGC CTGAATATTCTCTCTGGGCC

21721 CACTGTTCCA CTTGTATCGT CGGTCTGATA ATCAGACTGG GACCACGGTCCCACTCGTAT

21781 CGTCGGTCTG ATTATTAGTC TGGGACCACG GTCCCACTCG TATCGTCGGTCTGATTATTA

21841 GTCTGGGACC ACGGTCCCAC TCGTATCGTC GGTCTGATAA TCAGACTGGGACCACGGTCC

21901 CACTCGTATC GTCGGTCTGA TTATTAGTCT GGGACCATGG TCCCACTCGTATCGTCGGTC

21961 TGATTATTAG TCTGGGACCA CGGTCCCACT CGTATCGTCG GTCTGATTATTAGTCTGGAA

22021 CCACGGTCCC ACTCGTATCG TCGGTCTGAT TATTAGTCTG GGACCACGGTCCCACTCGTA

22081 TCGTCGGTCT GATTATTAGT CTGGGACCAC GATCCCACTC GTGTTGTCGGTCTGATTATC

22141 GGTCTGGGAC CACGGTCCCA CTTGTATTGT CGATCAGACT ATCAGCGTGAGACTACGATT

22201 CCATCAATGC CTGTCAAGGG CAAGTATTGA CATGTCGTCG TAACCTGTAGAACGGAGTAA

22261 CCTCGGTGTG CGGTTGTATG CCTGCTGTGG ATTGCTGCTG TGTCCTGCTTATCCACAACA

22321 TTTTGCGCAC GGTTATGTGG ACAAAATACC TGGTTACCCA GGCCGTGCCGGCACGTTAAC

22381 CGGGCTGCAT CCGATGCAAG TGTGTCGCTG TCGACGAGCT CGCGAGCTCGGACATGAGGT

22441 TGCCCCGTAT TCAGTGTCGC TGATTTGTAT TGTCTGAAGT TGTTTTTACGTTAAGTTGAT

22501 GCAGATCAAT TAATACGATA CCTGCGTCAT AATTGATTAT TTGACGTGGTTTGATGGCCT

22561 CCACGCACGT TGTGATATGT AGATGATAAT CATTATCACT TTACGGGTCCTTTCCGGTGA

22621 TCCGACAGGT TACGGGGCGG CGACCTCGCG GGTTTTCGCT ATTTATGAAAATTTTCCGGT

22681 TTAAGGCGTT TCCGTTCTTC TTCGTCATAA CTTAATGTTT TTATTTAAAATACCCTCTGA

22741 AAAGAAAGGA AACGACAGGT GCTGAAAGCG AGCTTTTTGG CCTCTGTCGTTTCCTTTCTC

22801 TGTTTTTGTC CGTGGAATGA ACAATGGAAG TCCGAGCTCA TCGCTAATAACTTCGTATAG

22861 CATACATTAT ACGAAGTTAT ATTCGAT

Claims

1.一种重组N-糖基化蛋白，其包含：

引入的共有序列D/E–X–N–Z–S/T中的一个或多个，其中X和Z可以为除脯氨酸以外的任何天然氨基酸；和

在还原末端具有N-乙酰基半乳糖胺的聚糖，其与至少所述一个或多个引入的共有序列通过N-糖苷键连接。

2.权利要求1的重组N-糖基化蛋白，其中所述蛋白是铜绿假单胞菌胞外蛋白。

3.权利要求1的重组N-糖基化蛋白，其中所述聚糖包含来自革兰氏阴性菌的寡糖或多糖。

4.权利要求3的重组N-糖基化蛋白，其中所述寡糖或多糖是来自弗氏志贺氏菌。

5.权利要求4的重组N-糖基化蛋白，其中所述寡糖或多糖是来自弗氏志贺氏菌6。

6.权利要求1的重组N-糖基化蛋白，其中所述聚糖包含寡糖或多糖，其包含以下结构：

7.权利要求3的重组N-糖基化蛋白，其中所述寡糖或多糖是来自大肠杆菌。

8.权利要求7的重组N-糖基化蛋白，其中所述寡糖或多糖是来自大肠杆菌O157。

9.权利要求1的重组N-糖基化蛋白，其中所述聚糖包含寡糖或多糖，其包含结构α-D-PerNAc-α-L-Fuc-β-D-Glc-α-D-GalNAc。

10.一种生物缀合物疫苗，其包含权利要求1的重组N-糖基化蛋白和佐剂。

11.一种重组原核生物合成***，其包含编码以下酶和蛋白的核酸：

在十一异戊二烯基焦磷酸上合成N-乙酰基半乳糖胺的差向异构酶；

在脂质载体上装配寡糖或多糖的糖基转移酶；

寡糖基转移酶；和

包含引入的共有序列D/E–X-N–Z–S/T中的一个或多个的蛋白，其中X和Z可以为除脯氨酸以外的任何天然氨基酸。

12.权利要求11的重组原核生物合成***，其中编码差向异构酶的所述核酸包含SEQ ID NO.1。

13.权利要求11的重组原核生物合成***，其中所述寡糖基转移酶是来自空肠弯曲杆菌。

14.权利要求11的重组原核生物合成***，其中所述蛋白是铜绿假单胞菌胞外蛋白。

15.权利要求11的重组原核生物合成***，其中所述寡糖或多糖是来自革兰氏阴性菌。

16.权利要求15的重组原核生物合成***，其中所述寡糖或多糖是来自弗氏志贺氏菌。

17.权利要求16的重组原核生物合成***，其中所述寡糖或多糖是来自弗氏志贺氏菌6。

18.权利要求11的重组原核生物合成***，其中所述寡糖或多糖包含以下结构：

19.权利要求15的重组原核生物合成***，其中所述寡糖或多糖是来自大肠杆菌。

20.权利要求19的重组原核生物合成***，其中所述寡糖或多糖是来自大肠杆菌O157。

21.权利要求11的重组原核生物合成***，其中所述寡糖或多糖包含结构α-D-PerNAc-α-L-Fuc-β-D-Glc-α-D-GalNAc。

22.一种产生N-联糖基化蛋白的方法，包括：

a.)将编码i.)～iv.)的核酸导入宿主生物中：

i.)在十一异戊二烯基焦磷酸上合成N-乙酰基半乳糖胺的差向异构酶；

ii.)在脂质载体上装配寡糖或多糖的糖基转移酶；

iii.)寡糖基转移酶；和

iv.)包含引入的共有序列D/E–X-N–Z–S/T中的一个或多个的蛋白质，其中X和Z可以为除脯氨酸以外的任何天然氨基酸；和

b.)培养所述宿主生物直到至少一种N-糖基化蛋白产生。

23.权利要求22的方法，其中编码差向异构酶的所述核酸包含SEQ IDNO.1。

24.权利要求22的方法，其中所述寡糖基转移酶是来自空肠弯曲杆菌。

25.权利要求22的方法，其中所述蛋白是铜绿假单胞菌胞外蛋白。

26.权利要求22的方法，其中所述寡糖或多糖是来自革兰氏阴性菌。

27.权利要求26的方法，其中所述寡糖或多糖是来自弗氏志贺氏菌。

28.权利要求27的方法，其中所述寡糖或多糖是来自弗氏志贺氏菌6。

29.权利要求22的方法，其中所述寡糖或多糖包含以下结构：

30.权利要求26的方法，其中所述寡糖或多糖是来自大肠杆菌。

31.权利要求30的方法，其中所述寡糖或多糖是来自大肠杆菌O157。

32.权利要求22的方法，其中所述寡糖或多糖包含结构α-D-PerNAc-α-L-Fuc-β-D-Glc-α-D-GalNAc。