CN111902541A - 增加细胞中感兴趣的核酸分子表达水平的方法 - Google Patents

增加细胞中感兴趣的核酸分子表达水平的方法 Download PDF

Info

Publication number
CN111902541A
CN111902541A CN201980022113.2A CN201980022113A CN111902541A CN 111902541 A CN111902541 A CN 111902541A CN 201980022113 A CN201980022113 A CN 201980022113A CN 111902541 A CN111902541 A CN 111902541A
Authority
CN
China
Prior art keywords
promoter
nucleic acid
interest
expression
acid molecule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980022113.2A
Other languages
English (en)
Inventor
C·施特赖内尔
F·韦尔特迈尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KWS SAAT SE and Co KGaA
Original Assignee
KWS SAAT SE and Co KGaA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KWS SAAT SE and Co KGaA filed Critical KWS SAAT SE and Co KGaA
Publication of CN111902541A publication Critical patent/CN111902541A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/82Vectors or expression systems specially adapted for eukaryotic hosts for plant cells, e.g. plant artificial chromosomes (PACs)
    • C12N15/8216Methods for controlling, regulating or enhancing expression of transgenes in plant cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6897Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids involving reporter genes operably linked to promoters
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2800/00Nucleic acids vectors
    • C12N2800/80Vectors containing sites for inducing double-stranded breaks, e.g. meganuclease restriction sites
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2830/00Vector systems having a special element relevant for transcription
    • C12N2830/15Vector systems having a special element relevant for transcription chimeric enhancer/promoter combination
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A40/00Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
    • Y02A40/10Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in agriculture
    • Y02A40/146Genetically Modified [GMO] plants, e.g. transgenic plants

Landscapes

  • Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Plant Pathology (AREA)
  • Cell Biology (AREA)
  • Immunology (AREA)
  • Analytical Chemistry (AREA)
  • Breeding Of Plants And Reproduction By Means Of Culturing (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供通过启动子激活核酸序列增加细胞,优选植物细胞,中感兴趣的核酸分子表达水平的方法,所述启动子激活核酸序列能在位点特异性引入控制感兴趣的核酸分子表达的受体启动子后,增加细胞或生物体中的感兴趣的核酸分子表达。本发明还提供鉴定这类启动子激活元件的方法以及将其引入生物体或细胞以特异性增加感兴趣的核酸分子表达的方法。此外,本发明还涉及启动子激活元件在增加感兴趣的核酸分子表达中的应用。

Description

增加细胞中感兴趣的核酸分子表达水平的方法
技术领域
本发明涉及新的启动子激活元件。这些短核酸序列能够在位点特异性引入控制感兴趣的核酸分子表达的受体启动子后,增加细胞或生物体中感兴趣的核酸分子表达。采用此新技术能使内源或外源核酸分子表达增加到多至未引入激活元件时启动子控制下所达到的许多倍。本发明还提供鉴定这类启动子激活元件的方法以及将其引入生物体或细胞以特异性增加感兴趣的核酸分子表达的方法。此外,本发明还涉及启动子激活元件在增加感兴趣的核酸分子表达中的应用。
发明背景
许多基因在生物体中的表达水平取决于不同因素,如发育阶段或生理和环境条件。一个基因的表达能在某些情况下诱导且如果情况变化则完全关闭。基因表达、基因转录的起始点由一定范围的不同机制调节,其通常涉及携带转录起始位点(TSS)的启动子区域。一些启动子在所有情况下有活性(组成型启动子),其他则受到严格调节并仅相应某些刺激。转录因子结合特异DNA序列并激活或阻遏转录(反式作用因子)。因此,启动子序列携带若干反式作用因子结合位点,称为顺式调节元件,但启动子中发现的一些序列延伸段(stretch)的功能尚未完全被理解。
能够调节某些基因在生物体中的表达,开创了一系列机会来改善生物技术工艺或农业产量。因此,不断寻求允许特异控制靶基因表达水平的新技术。启动子是这些方法的明显靶标,但迄今,关于通过最小修饰激活内源启动子的可能性仍所知甚少。目前没有通过添加例如≤20bp元件来激活基因表达的一般方法。
已知通过使用强启动子如35S启动子能实现表达增加。描述了不同翻译增强元件用于在植物细胞中作为转基因的部分或在病毒表达载体中表达高水平蛋白(如烟草花叶病毒RNA的5'未翻译前导序列,由68-碱基序列组成(参见Ofoghi等,2005.《就人降钙素基因在转基因马铃薯植株中的表达来比较烟草蚀纹病毒与烟草花叶病毒增强子》(Comparison oftobacco etch virus and tobacco mosaic virus enhancers for expression of humancalcitonin gene in transgenic potato plant).收录于《关键工程材料》(KeyEngineering Materials)(卷277,第7-11页).Trans Tech Publications.))。然而,这些元件相对较大。同样的情况也适用于增强启动子元件如35S增强子或据报道增加表达的内含子如来自玉米的adh1内含子(Callis等,1987.《内含子增加经培养玉米细胞中的基因表达》(Introns increase gene expression in cultured maize cells).Genes&development,1(10),1183-1200.)。
作物性状能通过增加性状基因异位表达来改善。例如,Sun等(Nature comm.,2017,doi:10.1038/ncomms14752)报告了玉米PLASTOCHRON1表达增加可提高生物量和种子产量。其通过转基因方法用GA2ox启动子增加表达。所述增加性状基因异位表达的转基因方法存在转基因植物种植管理要求高的限制。
近期,Zhang等在苹果属中发现铁调节转运蛋白1(IRT1)启动子的等位基因变异,其中鉴定了TATA盒***(Plant Physiology,2017,卷173,715-727,doi:10.1104/pp.16.01504)。更多结果表明此***似乎导致启动子活性略微上调(~1.5倍)。也有可能该启动子活性提高由潜在TATA盒结合蛋白TFIID表达增加而导致,其也激活IRT1启动子。然而,***元件未得到分离且尚未研究其是否能引入不同启动子并仍显示增强子活性。此外,上调水平相对低,因而不足以用于许多应用,其中需要显著增加的表达水平以获得感兴趣的表型或代谢效应。
本发明的一个目的是提供广泛适用的技术,从而以显著方式提高细胞或生物体中任何感兴趣的特定基因表达。
因此,本发明的一个目的是感兴趣基因表达应比本领域已知强启动子控制下所达到的表达增加至少2倍,优选至少5倍,至少10倍,至少20倍,至少30倍或至少40倍。
此外,本发明的一个目的是提供的技术应仅需要最少修饰所涉及序列,优选应添加、缺失或取代20个核苷酸或少于20个核苷酸。
发明内容
本发明涉及建立新技术的数个方面,用于通过向启动子引入启动子激活序列使内源或外源核酸分子表达增加多至数倍。
上面鉴定的目标如下实现:第一方面,提供启动子激活核酸序列,配置成用于靶向位点特异性***控制细胞或生物体中感兴趣的核酸分子表达的受体启动子,其中位点特异性***后启动子激活核酸序列引起感兴趣的核酸分子表达增加,优选其中感兴趣的核酸分子对受体启动子而言是异源或天然的和/或对细胞或生物体而言是内源或外源核酸分子。
在一个实施方案中,所述启动子激活核酸序列的长度为6-70个核苷酸,优选7-60个核苷酸,更优选8-40个核苷酸,最优选9-20个核苷酸。
在另一实施方案中,上面实施方案中任一项所述的启动子激活核酸序列包括一个或多个连续核苷酸延伸段,或由其组成,所述核苷酸分离自供体启动子,其中该供体启动子是具有高表达水平的基因的启动子。
在另一实施方案中,上述一个或多个连续延伸段各自与供体启动子的核心启动子序列在所述一个或多个连续延伸段全长上至少90%、91%、92%、93%、94%、95%、96%、97%、98%或99%相同,或与之相同。
在另一实施方案中,上面实施方案中任一项所述的一个或多个连续延伸段各自与相对于供体启动子转录起始位点-50位到+20位的相同长度序列在各延伸段全长上至少90%、91%、92%、93%、94%、95%、96%、97%、98%或99%相同,或与之相同。
在另一实施方案中,上面实施方案中任一项所述的一个或多个连续延伸段各自具有6个或更多核苷酸的长度。
在另一实施方案中,上面实施方案中任一项所述的启动子激活核酸序列包括供体启动子的一个或多个TATA盒基序,或者当将一个或多个TATA盒基序与TATA盒共有序列匹配或比对时,相对分大于0.8、大于0.81、大于0.81、大于0.82、大于0.83、大于0.84、大于0.85、大于0.86、大于0.87、大于0.88、大于0.89、大于0.90、大于0.91、大于0.92、大于0.93、大于0.94、大于0.95、大于0.96、大于0.97、大于0.98或大于0.99的一个或多个TATA盒基序。
在一个实施方案中,上面实施方案中任一项所述的启动子激活核酸序列包括供体启动子的一个或多个嘧啶斑(patch)(Y斑)启动子元件。在另一实施方案中,上面实施方案中任一项所述的启动子激活核酸序列包括供体启动子的一个或多个TATA盒基序,或者当将一个或多个TATA盒基序与TATA盒共有序列匹配或比对时,相对分大于0.8、大于0.81、大于0.81、大于0.82、大于0.83、大于0.84、大于0.85、大于0.86、大于0.87、大于0.88、大于0.89、大于0.90、大于0.91、大于0.92、大于0.93、大于0.94、大于0.95、大于0.96、大于0.97、大于0.98或大于0.99的一个或多个TATA盒基序,以及供体启动子的一个或多个Y斑启动子元件。
在另一实施方案中,上面实施方案中任一项所述的启动子激活核酸序列与SEQ IDNO:1-30、GTATAAAAG(E59)、CTATAAATA(E59a)、CTATATATA(E59b)、CTATAAAAA(E59c)和CTATATAAA(E59d)序列之一,优选在全长启动子激活核酸序列上,优选SEQ ID NO:1、SEQ IDNO:2、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ IDNO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ IDNO:21、SEQ ID NO:22、SEQ ID NO:23、SEQ ID NO:24、SEQ ID NO:25、SEQ ID NO:26、SEQ IDNO:27、SEQ ID NO:28、SEQ ID NO:29、SEQ ID NO:30、GTATAAAAG(E59)、CTATAAATA(E59a)、CTATATATA(E59b)、CTATAAAAA(E59c)和CTATATAAA(E59d),尤其优选SEQ ID NO:15、SEQ IDNO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ IDNO:22、SEQ ID NO:23、SEQ ID NO:24、SEQ ID NO:25、SEQ ID NO:26、SEQ ID NO:27、SEQ IDNO:28、SEQ ID NO:29、SEQ ID NO:30、GTATAAAAG(E59)、CTATAAATA(E59a)、CTATATATA(E59b)、CTATAAAAA(E59c)和CTATATAAA(E59d)有至少75%、80%、85%、90%、95%、96%、97%、98%或99%的序列相同性,或与之相同。
在一个实施方案中,提供上面实施方案中任一项所述的启动子激活核酸序列,其中所述细胞或生物体是植物细胞或植物。
在另一实施方案中,所述受体启动子和/或供体启动子是植物启动子。
在另一实施方案中,所述受体启动子和供体启动子不同和/或源自同一物种或来自不同物种。
在一个实施方案中,上面实施方案中任一项所述的植物或植物细胞或植物启动子源自选自以下的属:大麦属(Hordeum)、高粱属(Sorghum)、甘蔗属(Saccharum)、玉蜀黍属(Zea)、狗尾草属(Setaria)、水稻属(Oryza)、小麦属(Triticum)、黑麦属(Secale)、黑小麦属(Triticale)、苹果属(Malus)、短柄草属(Brachypodium)、山羊草属(Aegilops)、胡萝卜属(Daucus)、甜菜属(Beta)、桉属(Eucalyptus)、烟草属(Nicotiana)、茄属(Solanum)、咖啡属(Coffea)、葡萄属(Vitis)、Erythrante、螺旋狸藻属(Genlisea)、黄瓜属(Cucumis)、Marus、拟南芥属(Arabidopsis)、须弥芥属(Crucihimalaya)、碎米荠属(Cardamine)、独行菜属(Lepidium)、荠属(Capsella)、Olmarabidopsis、筷子芥属(Arabis)、芸苔属(Brassica)、芝麻菜属(Eruca)、萝卜属(Raphanus)、柑橘属(Citrus)、麻风树属(Jatropha)、杨属(Populus)、苜蓿属(Medicago)、鹰咀豆属(Cicer)、木豆属(Cajanus)、菜豆属(Phaseolus)、大豆属(Glycine)、棉属(Gossypium)、黄芪属(Astragalus)、莲属(Lotus)、蝴蝶草属(Torenia)、葱属(Allium)或向日葵属(Helianthus),优选所述植物或植物细胞或植物启动子源自选自以下的物种:大麦(Hordeum vulgare)、球茎大麦(Hordeumbulbusom)、两色高粱(Sorghum bicolor)、甘蔗(Saccharum officinarium)、包括玉米(Zeamays)在内的玉蜀黍属物种(Zea spp.,)、小米(Setaria italica)、小粒稻(Oryzaminuta)、水稻(Oryza sativa)、澳洲野生稻(Oryza australiensis)、高秆野生稻(Oryzaalta)、小麦(Triticum aestivum)、硬粒小麦(Triticum durum)、黑麦(Secale cereale)、黑小麦(Triticale)、苹果(Malus domestica)、紫短柄草(Brachypodium distachyon)、海滨大麦(Hordeum marinum)、节节麦(Aegilops tauschii)、Daucus glochidiatus、包括甜菜(Beta vulgaris)在内的甜菜属物种(Beta spp.)、小胡萝卜(Daucus pusillus)、Daucusmuricatus、胡萝卜(Daucus carota)、巨桉(Eucalyptus grandis)、美花烟草(Nicotianasylvestris)、绒毛状烟草(Nicotiana tomentosiformis)、烟草(Nicotiana tabacum)、本氏烟草(Nicotiana benthamiana)、番茄(Solanum lycopersicum),马铃薯(Solanumtuberosum)、中果咖啡(Coffea canephora)、葡萄(Vitis vinifera)、Erythranteguttata、螺旋狸藻(Genlisea aurea)、黄瓜(Cucumis sativus)、Marus notabilis、Arabidopsis arenosa、深山南芥(Arabidopsis lyrata)、拟南芥(Arabidopsisthaliana)、喜马拉雅鼠耳芥(Crucihimalaya himalaica)、卵叶须弥芥(Crucihimalayawallichii)、弯曲碎米荠(Cardamine nexuosa)、北美独行菜(Lepidium virginicum)、荠菜(Capsella bursa pastoris)、Olmarabidopsis pumila、筷子芥(Arabis hirsute)、欧洲油菜(Brassica napus)、甘蓝(Brassica oleracea)、芜菁(Brassica rapa)、萝卜(Raphanussativus)、芥菜(Brassica juncacea)、黑芥(Brassica nigra)、芝麻菜亚种sativa(Erucavesicaria subsp.Sativa)、甜橙(Citrus sinensis)、麻风树(Jatropha curcas)、毛果杨(Populus trichocarpa)、蒺藜状苜蓿(Medicago truncatula)、山下鹰嘴豆(Ciceryamashitae)、Cicer bijugum、鹰嘴豆(Cicer arietinum)、网状鹰嘴豆(Cicerreticulatum)、Cicer judaicum、木豆(Cajanus cajanifolius)、蔓草虫豆(Cajanusscarabaeoides)、菜豆(Phaseolus vulgaris),大豆(Glycine max)、棉花(Gossypiumsp.)、紫云英(Astragalus sinicus)、百脉根(Lotus japonicas)、夏堇(Toreniafournieri)、洋葱(Allium cepa)、葱(Allium fistulosum)、蒜(Allium sativum)、向日葵(Helianthus annuus)、菊芋(Helianthus tuberosus)和/或韭菜(Allium tuberosum)。
在另一实施方案中,向受体启动子位点特异性***或引入启动子激活核酸序列后,相较于无***或引入时受体启动子控制下的感兴趣的核酸分子表达水平,所述感兴趣的核酸分子表达水平增加至少2倍、至少3倍、至少4倍或至少5倍,优选至少6倍、至少7倍、至少8倍、至少9倍或至少10倍,更优选至少12倍、至少14倍、至少16倍、至少18倍或至少20倍,甚至更优选至少25倍、至少30倍、至少35倍或至少40倍且最优选大于40倍。
另一方面,本发明提供嵌合启动子,包括受体启动子和在所述受体启动子转录起始位点的上游或下游位置***或引入的上面实施方案中任一项所述的至少一种启动子激活核酸序列。
在一个实施方案中,提供上述嵌合启动子,其中在以下位置向受体启动子***或通过添加和/或缺失和/或取代一个或多个核苷酸引入启动子激活核酸序列:
i.转录起始位点上游的500个核苷酸或更少,优选150个核苷酸或更少,和/或
ii.起始密码子上游的50个或更多核苷酸;和/或
iii.其中***或引入位点下游没有上游开放阅读框(uORF)。
另一方面,本发明提供递送***,包括启动子激活核酸序列和/或上面实施方案中任一项所述的嵌合启动子,和/或用于将上述启动子激活核酸序列位点特异性***或引入受体启动子的装置(means)。
另一方面,本发明提供核酸构建体或表达盒,包括上面实施方案中任一项所述的启动子激活核酸序列和/或上面实施方案中任一项所述的嵌合启动子。
另一方面,本发明还提供载体,包括上面实施方案中任一项所述的启动子激活核酸序列和/或上面实施方案中任一项所述的嵌合启动子,或者上述核酸构建体和/或表达盒,和/或用于将上述启动子激活核酸序列位点特异性***或引入受体启动子的装置。
另一方面,本发明提供细胞或生物体或其后代或者部分生物体或其后代,
a)其中向控制细胞或生物体中感兴趣的核酸分子表达的受体启动子***或通过添加和/或缺失和/或取代一个或多个核苷酸引入上面实施方案中任一项所述的启动子激活核酸,优选在受体启动子转录起始位点的上游或下游位置***或引入,更优选在以下位置
i.感兴趣的核酸分子转录起始位点上游的500个核苷酸或更少,优选150个核苷酸或更少,和/或
ii.感兴趣的核酸分子起始密码子上游的50个或更多核苷酸;和/或
iii.其中***位点下游没有上游开放阅读框(uORF),或
b)包括上面实施方案中任一项所述的嵌合启动子,上面实施方案中任一项所述的递送***,上述核酸构建体或表达盒或上述载体。
在一个实施方案中,在上述细胞或生物体或其后代或者部分生物体或其后代中,受体启动子是植物启动子。
在另一实施方案中,在上述细胞或生物体或其后代或者部分生物体或其后代中,感兴趣的核酸分子对受体启动子而言是异源或天然的和/或对细胞或生物体而言是内源或外源核酸分子。
在另一实施方案中,上面实施方案中任一项所述的细胞或生物体或其后代或者部分生物体或其后代,是植物细胞或植物或其部分,优选其中植物源自选自以下的属:大麦属、高粱属、甘蔗属、玉蜀黍属、狗尾草属、水稻属、小麦属、黑麦属、黑小麦属、苹果属、短柄草属、山羊草属、胡萝卜属、甜菜属、桉属、烟草属、茄属、咖啡属、葡萄属、Erythrante、螺旋狸藻属、黄瓜属、Marus、拟南芥属、须弥芥属、碎米荠属、独行菜属、荠属、Olmarabidopsis、筷子芥属、芸苔属、芝麻菜属、萝卜属、柑橘属、麻风树属、杨属、苜蓿属、鹰咀豆属、木豆属、菜豆属、大豆属、棉属、黄芪属、莲属、蝴蝶草属、葱属或向日葵属,优选植物或植物细胞源自选自以下的种:大麦、球茎大麦、两色高粱、甘蔗、包括玉米在内的玉蜀黍、小米、小粒稻、水稻、澳洲野生稻、高秆野生稻、普通小麦、硬粒小麦、黑麦、黑小麦、苹果、紫短柄草、海滨大麦、节节麦、Daucus glochidiatus、包括甜菜在内的甜菜种、小胡萝卜、Daucus muricatus、胡萝卜(Daucus carota)、巨桉、美花烟草、绒毛状烟草、烟草、本氏烟草、番茄,马铃薯、中果咖啡、葡萄、Erythrante guttata、螺旋狸藻、黄瓜、Marus notabilis、Arabidopsisarenosa、深山南芥、拟南芥、喜马拉雅鼠耳芥、卵叶须弥芥、弯曲碎米荠、北美独行菜、荠菜、Olmarabidopsis pumila、筷子芥、欧洲油菜、甘蓝、芜菁、萝卜、芥菜、黑芥、芝麻菜亚种sativa、甜橙、麻风树、毛果杨、蒺藜状苜蓿、山下鹰嘴豆、Cicer bijugum、鹰嘴豆、网状鹰嘴豆、Cicer judaicum、木豆、蔓草虫豆、菜豆,大豆、棉花、紫云英、百脉根、夏堇、洋葱、葱、蒜、向日葵、菊芋和/或韭菜。
另一方面,本发明提供鉴定启动子激活核酸序列或嵌合启动子的方法,包括:
i)鉴定细胞或生物体中具有高表达水平的基因,
ii)从步骤i)所鉴定基因启动子分离一个或多个连续延伸段,其中一个或多个连续延伸段源自a)所述供体启动子的核心启动子,或b)相对于所述供体启动子转录起始位点-50位到+20位的序列,
iii)在受体启动子转录起始位点上游或下游位置向控制感兴趣的核酸分子表达的受体启动子***或通过添加和/或缺失和/或取代一个或多个核苷酸引入所述一个或多个连续延伸段,
iv)相对于无步骤iii)的***或引入时受体启动子控制下的感兴趣相同或另一核酸分子的表达水平,或在给定环境和/或给定基因组和/或环境条件下的另一参照启动子,在细胞或生物体中或体内确定包括步骤iii)的***或引入的受体启动子控制下的感兴趣的核酸分子表达水平,其中感兴趣的核酸分子对受体启动子而言是异源或天然的和/或对细胞或生物体而言是内源或外源的,和
v)当观察到步骤iv)中感兴趣的核酸分子的表达增加时,鉴定并因而提供上面实施方案中任一项所述的启动子激活核酸序列或上面实施方案中任一项所述的嵌合启动子。
vi)任选地,逐步缩短步骤v)所鉴定的启动子激活核酸序列并重复步骤iv)和v)至少一次,和/或通过添加和/或取代和/或缺失一个或多个核苷酸修饰步骤v)所鉴定的启动子激活核酸序列或受体启动子中存在的一个或多个TATA盒基序,使得当将一个或多个经修饰TATA盒基序与TATA盒共有序列匹配或比对时,所述一个或多个TATA盒基序转变成相对分增加或更高的一个或多个TATA盒基序;并且重复步骤iv)和v)至少一次。
在上述方法的一个实施方案中,在步骤iii)中,一个或多个连续延伸段在以下位置***或引入受体启动子
(a)感兴趣的核酸分子转录起始位点上游的500个核苷酸或更少,优选150个核苷酸或更少;和/或
(b)感兴趣的核酸分子起始密码子上游的50个以上核苷酸;和/或
(c)其中***或引入位点下游没有上游开放阅读框(uORF)。
另一方面,本发明提供增加细胞中感兴趣的核酸分子表达水平的方法,包括:
ia)向所述细胞引入上面实施方案中任一项所述的启动子激活核酸序列、上述嵌合启动子、上面实施方案中任一项所述的递送***或者上述核酸构建体或表达盒;或
ib)向所述细胞引入用于位点特异性修饰控制感兴趣的核酸分子表达的受体启动子的核酸序列的装置,和
ii)任选地,向细胞引入位点特异性核酸酶或其活性片段,或提供编码其的序列,所述位点特异性核酸酶诱导预定位置的双链断裂,优选地,其中所述位点特异性核酸酶或其活性片段包括锌指核酸酶、转录激活因子样效应物核酸酶、CRISPR/Cas***,包括CRISPR/Cas9***、CRISPR/Cpf1***、CRISPR/C2C2***、CRISPR/CasX***、CRISPR/CasY***、CRISPR/Cmr***,工程化的归位内切酶、重组酶、转座酶和大范围核酸酶和/或其任何组合、变体或催化活性片段;以及任选地,当位点特异性核酸酶或其活性片段是CRISPR核酸酶时:提供至少一种向导RNA或至少一种向导RNA***,或编码其的核酸;和
iiia)在控制感兴趣的核酸分子表达的受体启动子转录起始位点上游或下游位置向控制细胞中的感兴趣的核酸分子表达的受体启动子***上面实施方案中任一项所定义的启动子激活核酸序列,或
iiib)在控制感兴趣的核酸分子表达的受体启动子转录起始位点上游或下游位置通过添加和/或缺失和/或取代修饰控制细胞中感兴趣的核酸分子表达的受体启动子序列,从而形成上面实施方案中任一项所定义的启动子激活核酸序列,和
iiic)任选地,修饰步骤iiia)所***或通过添加和/或取代和/或缺失一个或多个核苷酸引入启动子激活核酸序列中存在的或受体启动子中存在的一个或多个TATA盒基序,使得当将一个或多个经修饰TATA盒基序与TATA盒共有序列匹配或比对时,所述一个或多个TATA盒基序转变成相对分增加或更高的一个或多个TATA盒基序。
另一方面,本发明提供生成感兴趣的核酸分子表达水平增加的细胞或生物体的方法,所述方法包括:
ia)向细胞引入上面实施方案中任一项所述的启动子激活核酸序列、上述嵌合启动子、上述递送***或者上述核酸构建体或表达盒;或
ib)向所述细胞引入用于位点特异性修饰控制感兴趣的核酸分子表达的受体启动子的核酸序列的装置,和
ii)任选地,向细胞引入位点特异性核酸酶或其活性片段,或提供编码其的序列,所述位点特异性核酸酶诱导预定位置的双链断裂,优选地,其中所述位点特异性核酸酶或其活性片段包括锌指核酸酶、转录激活因子样效应物核酸酶、CRISPR/Cas***,包括CRISPR/Cas9***、CRISPR/Cpf1***、CRISPR/C2C2***、CRISPR/CasX***、CRISPR/CasY***、CRISPR/Cmr***,工程化的归位内切酶、重组酶、转座酶和大范围核酸酶和/或其任何组合、变体或催化活性片段;以及任选地,当位点特异性核酸酶或其活性片段是CRISPR核酸酶时:提供至少一种向导RNA或至少一种向导RNA***,或编码其的核酸;和
iiia)在控制感兴趣的核酸分子表达的受体启动子转录起始位点上游或下游位置向控制细胞中的感兴趣的核酸分子表达的受体启动子***上面实施方案中任一项所定义的启动子激活核酸序列或上面实施方案中任一项所定义的嵌合启动子,或
iiib)在控制感兴趣的核酸分子表达的受体启动子转录起始位点上游或下游位置通过添加和/或缺失和/或取代修饰控制细胞中感兴趣的核酸分子表达的受体启动子序列,从而形成上面实施方案中任一项所定义的启动子激活核酸序列,和
iiic)任选地,修饰步骤iiia)或iiib)所***或通过添加和/或取代和/或缺失一个或多个核苷酸引入启动子激活核酸序列或嵌合启动子中存在的或受体启动子中存在的一个或多个TATA盒基序,使得当将一个或多个经修饰TATA盒基序与TATA盒共有序列匹配或比对时,所述一个或多个TATA盒基序转变成相对分增加或更高的一个或多个TATA盒基序。
iv)获得细胞或生物体,其在***上面实施方案中任一项所定义的启动子激活核酸序列后或修饰以形成上面实施方案中任一项所定义的启动子激活核酸序列后,感兴趣的核酸分子的表达水平增加。
另一方面,本发明提供生成感兴趣的核酸分子表达水平增加的转基因细胞或转基因生物体的方法,所述方法包括:
i)用上面实施方案中任一项所述的启动子激活核酸序列、上述嵌合启动子、上述递送***、或上述核酸构健体或表达盒、或上述载体转化或转染细胞,;和
ii)任选地,从转基因细胞或其转基因后代再生转基因生物体。
在上述方法的一个实施方案中,所述细胞或生物体是植物细胞或植物或其后代,优选其中植物源自选自以下的属:大麦属、高粱属、甘蔗属、玉蜀黍属、狗尾草属、水稻属、小麦属、黑麦属、黑小麦属、苹果属、短柄草属、山羊草属、胡萝卜属、甜菜属、桉属、烟草属、茄属、咖啡属、葡萄属、Erythrante、螺旋狸藻属、黄瓜属、Marus、拟南芥属、须弥芥属、碎米荠属、独行菜属、荠属、Olmarabidopsis、筷子芥属、芸苔属、芝麻菜属、萝卜属、柑橘属、麻风树属、杨属、苜蓿属、鹰咀豆属、木豆属、菜豆属、大豆属、棉属、黄芪属、莲属、蝴蝶草属、葱属或向日葵属,优选植物或植物细胞源自选自以下的种:大麦、球茎大麦、两色高粱、甘蔗、包括玉米在内的玉蜀黍、小米、小粒稻、水稻、澳洲野生稻、高秆野生稻、普通小麦、硬粒小麦、黑麦、黑小麦、苹果、紫短柄草、海滨大麦、节节麦、Daucus glochidiatus、包括甜菜在内的甜菜种、小胡萝卜、Daucus muricatus、胡萝卜(Daucus carota)、巨桉、美花烟草、绒毛状烟草、烟草、本氏烟草、番茄,马铃薯、中果咖啡、葡萄、Erythrante guttata、螺旋狸藻、黄瓜、Marus notabilis、Arabidopsis arenosa、深山南芥、拟南芥、喜马拉雅鼠耳芥、卵叶须弥芥、弯曲碎米荠、北美独行菜、荠菜、Olmarabidopsis pumila、筷子芥、欧洲油菜、甘蓝、芜菁、萝卜、芥菜、黑芥、芝麻菜亚种sativa、甜橙、麻风树、毛果杨、蒺藜状苜蓿、山下鹰嘴豆、Cicer bijugum、鹰嘴豆、网状鹰嘴豆、Cicer judaicum、木豆、蔓草虫豆、菜豆,大豆、棉花、紫云英、百脉根、夏堇、洋葱、葱、蒜、向日葵、菊芋和/或韭菜。
在上述方法的另一个实施方案中,所述感兴趣核酸选自编码非生物胁迫(包括干旱胁迫、渗透胁迫、高温胁迫、低温胁迫、氧化胁迫、重金属胁迫、氮缺乏、磷缺乏、盐胁迫或水浸、除草剂抗性,包括抗草甘膦、草铵膦/草丁膦、潮霉素、2,4-D抗性或耐受性、原卟啉原氧化酶(PPO)抑制剂、ALS抑制剂和麦草畏)抗性或耐受性的核酸分子、编码生物胁迫抗性或耐受的核酸分子(包括病毒抗性基因、真菌抗性基因、细菌抗性基因、昆虫抗性基因)或编码产量相关性状(包括耐倒伏性、花期、抗脱粒性、种子颜色、胚乳组成或营养成分)的核酸分子。
另一方面,本发明提供细胞或生物体或其后代,优选植物细胞或植物或其后代,可通过上述方法获得。
一方面,本发明还涉及上面实施方案中任一项所述的启动子激活核酸序列、上述递送***、上述核酸构健体或表达盒或上述载体用于在位点特异性***或引入控制感兴趣的核酸分子表达的受体启动子后,增加细胞或生物体中感兴趣的核酸分子的表达水平的用途。
本发明的其他方面和实施方案能获自后续详细描述、附图、序列表以及所附一系列权利要求。
附图简要说明
图1显示向受体启动子引入本发明启动子激活核酸序列的示范性可能方法。A1:含TATA盒基序的启动子激活序列在核心启动子上游***受体启动子。A2:含TATA盒基序的启动子激活序列在TSS下游***受体启动子。B1:通过在核心启动子上游碱基编辑受体启动子的核苷酸引入含TATA盒基序的启动子激活序列。B2:通过在TSS下游碱基编辑受体启动子的核苷酸引入含TATA盒基序的启动子激活序列。C:通过碱基编辑修饰受体的核心启动子以形成激活序列。D1:含Y斑的启动子激活序列在核心启动子下游***受体启动子。D2:含TATA盒基序和Y斑的启动子激活序列在核心启动子下游***受体启动子。E1:通过在核心启动子下游碱基编辑受体启动子的核苷酸引入含Y斑的启动子激活序列。E2:通过在核心启动子下游碱基编辑受体启动子的核苷酸引入含TATA盒基序和Y斑的启动子激活序列。
图2显示激活表达鉴定和测试≤20bp DNA元件的策略的概述图。
图3显示用于实施例1所述的瞬时表达试验的载体。
图4显示通过***DNA元件E53、E55、E56、E61、E62、E63、E64、E65、E66、E67、E68、E69、E70和E71激活靶基因启动子Zm-prom1。启动子活性相对于未修饰的启动子Zm-prom 1的活性定量,其因而活性为1。
图5显示通过***DNA元件E53b激活靶启动子Zm-prom1、Zm-prom2和Zm-prom3。启动子活性相对于未修饰的启动子的活性定量,其因而活性为1。
图6显示构建体pKWS399_35S:Luci_Zm-prom1:NLuc,用于实施例2中的玉米转化。
图7显示构建体pKWS399_35S:Luci_Zm-prom1+E55a:NLuc,用于实施例2中的玉米转化。
图8显示构建体pKWS399_35S:Luci_Zm-prom1:Zm1-基因组,用于实施例3中的玉米转化。
图9显示构建体pKWS399_35S:Luci_Zm-prom1+E55a:Zm1-基因组,用于实施例3中的玉米转化。
图10在A中显示通过转变成E59(Zm-prom1v3)和向初始TSS下游进一步***E59(Zm-prom1+E59)激活靶基因Zm-prom1,如实施例6所测定。启动子活性相对于未修饰的启动子Zm-prom1的活性定量,其因而活性为1。B:通过与TATA盒共有序列比对来优化元件E59。激活效果在基于玉米叶轰击的瞬时试验***中测量,用各启动子-报告基因构建体,然后是荧光素酶检测。C:感兴趣的启动子(如ZmZEP1)的初始TATA盒通过碱基修饰(ZmZEP1v1、ZmZEP1v2和ZmZEP1v3)方式分别根据所鉴定的DNA区段E59、E53f、E55a来修饰。另外,元件E53b***ZmZEP1。激活效果在基于玉米叶轰击的瞬时试验***中测量,用各启动子-报告基因构建体,然后是荧光素酶检测。
图11显示脊椎动物(A)(获自http://jaspar.genereg.net/matrix/MA0108.1/)、双子叶植物(B)和单子叶植物(C)(Shahmuradov等.(2003).《PlantProm:植物启动子序列的数据库》(PlantProm:a database of plant promoter sequences).Nucleic acidsresearch,31(1),114-117.;http://linux1.softberry.com/berry.phtml/freedownloadhelp/viewers/gmv/berry.phtml?topic=pla ntprom&group=data&subgroup=plantprom)的TATA盒共有序列的核苷酸频率矩阵和基序标志。
图12显示在基因组背景下表达激活性DNA元件的鉴定结果。A:实施例2所述的稳定转化的玉米植株的荧光素酶试验。B:实施例3所述的稳定转化的玉米植株的表达分析。C:实施例2和实施例3所述的转基因玉米植株的qRT-PCR数据比较。
图13在A中显示瞬时测试***内通过交换2(ZmSBPase_v1)或1碱基对(ZmSBPase_4and ZmSBPase_v5)激活ZmSBPase启动子活化。B显示基因组编辑的愈伤组织的ZmSBPase表达分析以及C是实施例7所述的基因组编辑的玉米芽(shoot)。
图14显示***源自玉米启动子的20bp DNA元件E55a可导致多个玉米和甜菜启动子在瞬时测试***中活化(叶轰击,然后是荧光素酶检测),如实施例9所述。
定义
“启动子”指能够控制和/或调节编码序列(基因或其部分)或功能性RNA(即未翻译时有活性的RNA,例如miRNA、siRNA、反向重复RNA或形成发夹的RNA)表达的DNA序列。启动子通常位于基因5'部分。启动子可具有广泛活性,但其也能有组织或发育阶段特异活性。例如,其可在根、种子的细胞以及分生组织细胞等中具有活性。启动子能以组成型方式具有活性,或可以是诱导型。诱导可通过多种环境条件和刺激物来刺激。通常,启动子高度受控。本公开的启动子可包括细胞中天然存在的内源启动子,或人工或转基因启动子,来自另一物种,或人工或嵌合启动子,即自然界中不以此组合天然存在且由不同启动子元件构成的启动子。转录过程开始于RNA聚合酶(RNAP)结合启动子区中的DNA,其紧邻处于+1位的转录起始位点(TSS)。根据拟南芥分析,在该位置最常观察到的序列是CA,其次是TA。在-1/+1位强烈偏好二聚体序列。显然大部分TSS是A或G,-1位可能是C或T。此YR规则(Y:C或T,R:A或G)适用于多至77%拟南芥启动子,该频率远高于预期的随机出现(25%)(Yamamoto等.(2007).《通过分析短序列局部分布来鉴定植物启动子成分》(Identification of plantpromoterconstituents by analysis of local distribution of short sequences).BMC genomics,8(1),67.)。认为典型启动子序列包括相对于TSS位于特定位点的一些调节序列基序。这些顺式调节元件是,例如,反式作用因子,如转录因子,的结合位点。真核启动子的结构可能相当复杂,因为它们有数个不同序列基序,如TATA盒、INR盒、BRE、CCAAT盒和GC盒(Bucher P.,J.Mol.Biol.1990年4月20日;212(4):563-78.)或Y斑启动子元件(Yamamoto等.(2007).《通过分析短序列局部分布来鉴定植物启动子成分》.BMCgenomics,8(1),67;Civáň,P.,&
Figure BDA0002700662040000091
M.(2009).《全基因组分析稻(粳稻)TATA盒和Y斑启动子元件》(Genome-wide analysis of rice(Oryza sativa L.subsp.japonica)TATA boxand YPatch promoter elements).Genome,52(3),294-297.)。启动子可具有不同长度且跨度超过1000个核苷酸。最终,不同类群中的启动子架构和功能有差异。具体地,真核与原核启动子之间有巨大差异,但真核启动子如植物启动子和哺乳动物细胞启动子也在结构、功能和细胞内调控网络方面不同。因此,用哺乳动物细胞启动子的研究得到的发现可能不必定适用于植物细胞环境内的植物启动子。
“核心启动子”一般指起始转录必需且至少包括起始前复合物结合位点的启动子区域。其长度小于100个核苷酸且相对于转录起始位点跨越约-45到+15位。
“供体启动子”指某一细胞或生物体中发现的天然启动子,其包括使核酸分子在所述启动子控制下可以高表达的核心启动子序列。能鉴定核心启动子或者核心启动子的一个或多个连续延伸段,其在位点特异性引入如***“受体启动子”后,增加受体启动子控制下的核酸分子表达。
因此,“受体启动子”是一种启动子,其能通过引入供体启动子的核心启动子序列或核心启动子的一个或多个连续延伸段来修饰,使得受体启动子控制下的核酸分子表达增加。
“启动子激活核酸序列”指核酸序列或核苷酸的一个或多个连续延伸段,其在位点特异性引入如***启动子后,增加所述启动子控制下的核酸分子表达。
“嵌合启动子”是不以其特定配置天然存在的启动子。如本文所用,其指含供体和受体启动子中一个或多个核苷酸序列的启动子。所述术语具体指受体启动子或受体启动子的核心启动子,其包括一种或多种启动子激活核酸序列或者一个或多个连续延伸段,代表在一个或多个特定位点引入受体启动子序列的启动子激活核酸序列。引入一种或多种启动子激活核酸序列可通过向受体启动子序列***或修饰受体启动子序列(即向受体启动子序列添加一个或多个连续或非连续核苷酸,或者取代或删除受体启动子序列的一个或多个连续或非连续核苷酸)实现。
“配置成用于位点特异性***的”核酸序列指这样的核酸序列,从其基因组背景中取出(即其不包括细胞或生物体中发现的相邻或侧翼区或染色体的部分,所述序列是内源的或作为递送***的部分、***构建体或表达构建体提供,所述***或构建体能通过已知用于***的技术采用),进入给定启动子序列的特定位点。其可以是合成或生物序列或者包括两者的部分。
“引入(introducing)”核酸或者“引入(introduction)”核酸或核酸序列到第二核酸或核酸序列指第二核酸的任意修饰,导致第二核酸的核酸序列内存在第一核酸的核酸序列,在该处其在修饰前不存在。特别地,这种修饰能通过添加、取代或缺失一个或多个核苷酸或这些的任意组合来实现。
在本发明上下文中,“修饰(核酸)序列”指任何(核酸)序列变化,导致至少一种(核酸)序列差异,使其不同于初始序列。特别地,修饰能通过***或添加一个或多个核苷酸或者取代或缺失初始序列的一个或多个核苷酸或这些的任意组合来实现。
“添加”指一个或多个核苷酸添加到核酸序列,其可以是在核酸序列内一个或多个位置添加的连续或单一核苷酸。
“取代”指核酸序列的一个或多个核苷酸由一个或多个不同核苷酸交换。取代可以是替代一个或多个核苷酸或者修饰一个或多个核苷酸,产生不同核苷酸,例如通过核碱基转变成不同核碱基。
“缺失”指从核酸序列中去除一个或多个核苷酸。
本文的术语“异源”指诸如核酸等元件被移至其天然不出现的一定环境,即生物体或基因组位置。对某一启动子异源的核酸分子因而指该启动子内天然不发现的核酸分子。另一方面,术语“天然”指诸如核酸等元件在其天然出现的一定环境下存在,即生物体或基因组位置。因此,对某一启动子天然的核酸分子因而指天然发现是该启动子结构部分的核酸分子。
对细胞或生物体而言“内源”的核酸分子指在该细胞或生物体基因组中天然存在的核酸分子。另一方面,对细胞或生物体而言“外源”的核酸分子指在该细胞或生物体中不天然存在但被***或引入的核酸分子。
本文所用的“基因”指编码基因产物的DNA区以及调节基因产物生成的DNA区,无论这种调节序列是否毗邻编码和/或转录序列。因此,基因包括但不必定限于启动子序列、终止子、翻译调节序列如核糖体结合位点和内部核糖体进入位点、增强子、沉默子、绝缘子、边界元件、复制起点、基质结合位点和基因座控制区。
本文所用的术语“基因表达”或“表达”指基因或核酸分子所含信息转化成“基因产物”或“表达产物”。“基因产物”或“表达产物”可以是基因或核酸分子的直接转录产物(如mRNA、tRNA、rRNA、反义RNA、核酶、结构RNA或任何其他类型的RNA)或由mRNA翻译生成的蛋白。基因产物或表达产物还包括RNA和蛋白,前者通过诸如加帽、聚腺苷酸化、甲基化和编辑等过程修饰,后者通过例如甲基化、乙酰化、磷酸化、泛素化、ADP-核糖基化、豆蔻酰化和糖基化修饰。
当控制表达的启动子被修饰情况下的感兴趣的核酸分子表达高于无修饰如***情况下同一启动子控制的相同感兴趣的核酸分子表达时,观察到“感兴趣的核酸分子表达增加”,所述修饰是通过在特定位置引入如***启动子激活序列进行的。“感兴趣的核酸分子表达增加”意味着感兴趣的核酸分子的表达水平相较于没有***或引入启动子激活序列时受体启动子控制下的感兴趣的核酸分子表达水平,提高至少2倍、至少3倍、至少4倍或至少5倍,优选至少6倍、至少7倍、至少8倍、至少9倍或至少10倍,更优选至少12倍、至少14倍、至少16倍、至少18倍或至少20倍,甚至更优选至少25倍、至少30倍、至少35倍或至少40倍且最优选大于40倍。
本文所用的“高表达水平”指表达水平与约250个最活跃基因的表达水平相当,如S-腺苷甲硫氨酸脱羧酶2(SAM2,GRMZM2G154397)。优选地,本公开所述有高表达水平的基因在不同组织或不同基因组和/或环境条件下具有>1000的平均FPKM值。FPKM(每千碱基转录物每百万映射读取的片段数)指转录物的测序片段,通过除以转录物总长来标准化。此结果采用每千碱基的转录物每百万映射读取的片段数度量。
“环境”或“环境条件”指外部条件如营养物浓度、细胞或组织暴露的温度或pH。“基因组条件”指细胞或组织经历的内部条件,如发育阶段、细胞***或分化期。
“参照基因”指某一基因,其表达水平用作参考以评估感兴趣基因的表达水平。合适的参照基因是表达水平变化不大,而是在任何给定环境或基因组条件下保持恒定的基因。
“连续延伸段”指核酸序列,即核苷酸特定序列顺序(例如在启动子中出现)。一个供体启动子能携带数个形成启动子激活核酸序列的连续延伸段,其可以彼此毗邻或不毗邻并且可以彼此完全或部分重叠或不重叠。通常,各连续延伸段包括至少6个、至少7个、至少8个、至少9个或至少10个核苷酸,或者6个或更多核苷酸。
“TATA盒基序”指真核生物的许多核心启动子区中发现的序列。TATA盒基序通常在转录起始位点上游的100个核苷酸内发现。其一般包含共有序列5`-TATA(A/T)A(A/T)-3。优选地,其包含的序列在匹配或比对核心启动子区所发现序列与如下进一步所定义TATA盒共有序列时,显示相对分高于0.8。相对分优选高于0.85或高于0.9,更优选高于0.95、高于0.96、高于0.97、高于0.98或高于0.99。为了对含TATA盒基序的DNA输入序列打分,序列能通过软件工具(如http://jaspar.genereg.net/(Mathelier,A.,Zhao,X.,Zhang,A.W.,Parcy,F.,Worsley-Hunt,R.,Arenillas,D.J.,...&Lim,J.(2013).JASPAR 2014:《广泛扩展和更新的转录因子结合概况开放获取数据库》(an extensively expanded and updatedopen-access database of transcription factor binding profiles).Nucleic acidsresearch,42(D1),D142-D147.))分析。在此,得分用BioPython(http://biopython.org/DIST/docs/api/Bio.motifs.matrix.PositionSpecificScoringMatrix-class.ht ml#search)可获得的pssm.搜索功能计算。相对分是0-1范围的阈值得分,如下计算:relative_score=(score-min_score)/(max_score-min_score)(http://biopython.org/DIST/docs/tutorial/Tutorial.html#htoc214)。根据DNA输入序列的起点,不同“TATA盒共有序列”用于打分。用于脊椎动物、双子叶植物和单子叶植物的“TATA盒共有序列”在图11中定义为核苷酸频率矩阵和基序标志。TATA盒基序在分析的60bp候选物中。相对分为1指示完美的TATA盒共有序列,而相对分≤0.8指示没有TATA盒存在。
“Y斑启动子元件”或“嘧啶斑启动子元件”或“Y斑”或“嘧啶斑”指许多高等植物启动子中发现的序列。典型的Y斑由C和T(嘧啶)构成(Yamamoto等.(2007).《通过分析短序列局部分布来鉴定植物启动子成分》.BMC genomics,8(1),67.)。Y斑能通过我们的LDSS分析以及搜索来自植物启动子优选核心启动子的共有序列来检测,通过MEME和AlignACE进行(用于拟南芥的示范性基序:TTTCTTCTTC(SEQ ID NO:41))(Molina&Grotewold.《全基因组分析拟南芥核心启动子》(Genome wide analysis of Arabidopsis core promoters).BMCGenomics.2005;6:25.)。Y斑通常在转录起始位点上游100个核苷酸(相对于TSS的-1到-100位)内发现,优选相对于TSS的-10到-60位。
“转录起始位点”指所转录DNA序列的第一核苷酸。此核苷酸被赋予启动子内的+1位。
“上游”和“下游”涉及RNA转录发生的5'到3'方向。上游靠近RNA分子的5'末端且下游靠近3'末端。在转录发生的DNA上,上游靠近所谈论基因编码序列的5'末端且下靠近3'末端。
“上游开放阅读框(uORF)”指位于主要编码区起始密码子上游的开放阅读框。uORF通常参与下游主要编码区表达的调节。
术语“一个或多个”包括“一个或二个”、“一个、二个或三个”、“一个、二个、三个或四个”和“一个、二个、三个、四个或五个”,但一般具有“至少一个”的含义。例如,一个或多个TATA盒基序可以是一个或二个TATA盒基序,一个、二个或三个TATA盒基序,一个、二个、三个或四个TATA盒基序,一个、二个、三个、四个或五个TATA盒基序,或至少一个TATA盒基序。
本文所用的术语“植物”或“植物细胞”指植物生物体、植物器官、分化或未分化的植物组织、植物细胞、种子以及其衍生物和后代。例如,植物细胞包括但不限于来自种子,成熟和未成熟的细胞或器官(包括胚胎、分生组织、籽苗、不同分化状态的愈伤组织、叶、花、根、芽、雄或雌配子体、孢子体、花粉、花粉管和小孢子、原生质体、大型藻和微藻)的细胞。细胞能具有任意倍性程度,即其可以是单倍体、二倍体、四倍体、六倍体或多倍体。
本文在真核细胞优选动物细胞且更优选本公开所述植物或植物细胞或植物材料背景下所用的术语“后代”涉及这种细胞或材料由自然繁殖传播产生的后代,包括有性繁殖和无性繁殖。本领域技术人员熟知所述繁殖能导致自然现象造成的突变引入生物体基因组,这使得后代或后裔基因组不同于亲代生物体或细胞,但仍属于同一属/种且具有与亲代重组宿主细胞大致相同的特性。因而,这种产生自繁殖或再生期间自然现象的后代被本公开术语所包括且易由技术人员在比较“后代”与各亲代或祖先时鉴定。
术语“递送***”、“核酸构建体”、“表达盒”或“载体”指用于向细胞***引入至少一种核酸序列的元件。待引入的核酸序列可靶向用于细胞***中的位点特异性***基因组DNA和/或瞬时表达。或者,其可通过修饰引入,如添加、缺失或取代序列如基因组序列的一个或多个核苷酸,所述序列存在于靶细胞或细胞***。引入也可通过上面修饰的任意组合实现,即***、添加、缺失和取代。元件包括一个或多个质粒或质粒载体、粘粒、人工酵母-或细菌人工染色体(YAC和BAC)、噬菌粒、基于噬菌体的载体、分离的单链或双链核酸序列,包括线性或环形的DNA和RNA序列,或者氨基酸序列,病毒载体,包括经修饰的病毒,以及其组合或混合物,用于引入或转化、转染或转导入任何原核或真核靶细胞,包括本公开所述植物、植物细胞、组织、器官或材料。所述元件的任一种可携带核酸构建体或表达盒和/或位点特异性引入的工具。
“位点特异性修饰核酸序列的装置”和更特定的“位点特异性引入启动子激活核酸序列的装置”指实现受体启动子序列修饰所需的任何工具,从而形成之前不存在的本文所述的启动子激活序列。这种装置包括技术人员已知的用于位点特异性修饰,即***、添加、取代或缺失核酸序列的任何工具。示例具体是“位点特异性效应物”如核酸酶、切口酶、重组酶、转座酶、碱基编辑蛋白或包括这些工具的分子复合物。这些效应物具有向基因组靶位点引入单链或双链切口的能力,或具有向感兴趣的基因组靶位点引入靶修饰的能力,包括点突变、***或缺失。位点特异性效应物可自身或联合其他分子作为分子复合物的一部分发挥作用。位点特异性效应物能作为融合分子或单独分子存在,与至少一种共价或非共价相互作用相关或被关联,从而位点特异性效应物复合物的组分在物理距离上极为接近。复合物可包括修复模板以在靶位点形成靶向序列转换或取代。修复模板(RT)代表单链或双链核酸序列,其能在导致双链或单链DNA断裂的任何基因组编辑期间提供以协助靶向修复所述DNA断裂,这是通过提供RT作为协助同源介导修复的已知序列模板。
“位点特异性核酸酶”指能够在某一位置特异识别和切割DNA的核酸酶或其活性片段。此位置在本文中也称为“预定位置”。这种核酸酶通常生成双链断裂(DSB),其随后通过非同源末端连接(NHEJ)或同源重组(HR)修复。核酸酶包括锌指核酸酶、转录激活因子样效应物核酸酶、CRISPR/Cas***,包括CRISPR/Cas9***、CRISPR/Cpf1***、CRISPR/C2C2***、CRISPR/CasX***、CRISPR/CasY***、CRISPR/Cmr***,工程化的归位内切酶、重组酶、转座酶和大范围核酸酶和/或其任何组合、变体或催化活性片段。
本文所用的“CRISPR核酸酶”是在天然产生CRISPR***中鉴定的任何核酸酶,其随后从其天然环境中分离,优选修饰或组合到适合作为靶向基因组工程工具的感兴趣重组构建体中。能使用任何CRISPR核酸酶,任选重编程或另外突变以适合本发明所述多个实施方案,只要初始野生型CRISPR核酸酶提供DNA识别,即结合特性。所述DNA识别可以是PAM(前间区序列邻近基序)依赖性的。能使用具有优化和改造PAM识别模式的CRISPR核酸酶,并建立用于特定应用。PAM识别代码的扩增能适合引导位点特异性效应物复合物到感兴趣靶位点,独立于野生型CRISPR基核酸酶的初始PAM特异性。Cpf1变体可包括至少一种S542R、K548V、N552R或K607R突变,优选来自氨基酸球菌属(Acidaminococcus)的AsCpf1中S542R/K607R或S542R/K548V/N552R突变。此外,经修饰Cas或Cpf1变体或任何其他修饰CRISPR效应物变体如Cas9变体能根据本发明方法使用,作为碱基编辑复合物的一部分,例如BE3、VQR-BE3、EQR-BE3、VRER-BE3、SaBE3、SaKKH-BE3(参见Kim等,Nat.Biotech.,2017,doi:10.1038/nbt.3803)。因此,根据本发明,设想人工修饰CRISPR核酸酶,其在双链切割酶意义上可能确实不是任何“核酸酶”,但却是切口酶或核酸酶失活变体,仍具有内在的DNA识别和因而结合的能力。用于本发明方法的合适Cpf1基效应物获自毛螺菌科(Lachnospiraceae)细菌(LbCpf1,如NCBI参照序列:WP_051666128.1)或土拉弗朗西斯菌(Francisellatularensis)(FnCpf1,如UniProtKB/Swiss-Prot:A0Q7Q2.1)。已知Cpf1变体(cf.Gao等,BioRxiv,dx.doi.org/10.1101/091611)。带有突变S542R/K607R和S542R/K548V/N552R,体外和体内活性提高的AsCpf1变体因而被预期为本发明所述位点特异性效应物,所述突变可分别切割带TYCV/CCCC和TATV PAM的靶位点。全基因组评估脱靶活性表明,这些变体保留高水平DNA靶向特异性,其能通过在非PAM相互作用结构域引入突变来进一步改善。总之,这些变体使AsCpf1靶向范围增加到人基因组非重复区中每~8.7bp一个切割位点,为CRISPR/Cas基因组工程工具箱提供有用补充(参见Gao等,同上)。
本文所用的“碱基编辑蛋白”指蛋白或其片段,该片段与其来源的蛋白具有相同催化活性,蛋白或其片段单独或作为分子复合物(称为本文的碱基编辑复合物)提供时,具有介导靶向碱基修饰的能力,即转换感兴趣的碱基引起感兴趣的点突变。优选地,本发明背景下的至少一个碱基编辑蛋白暂时或永久连接至少一个位点特异性效应物,或任选至少一个位点特异性效应物复合物的组分。所述连接可以是共价和/或非共价。
当本公开涉及核酸或氨基酸序列彼此相同性百分比时,这些值定义获得的那些值,使用EMBOSS Water两两序列比对(核苷酸)程序(www.ebi.ac.uk/Tools/psa/emboss_water/nucleotide.html)用于核酸或EMBOSS Water两两序列比对(蛋白)程序(www.ebi.ac.uk/Tools/psa/emboss_water/)用于氨基酸序列。本文所用的比对或序列比较指在2种序列全长上彼此比较的比对。由欧洲分子生物学实验室(EMBL)欧洲生物信息研究所(EBI)提供用于局部序列比对的这些工具采用改良的Smith-Waterman算法(参见www.ebi.ac.uk/Tools/psa/和Smith,T.F.&Waterman,M.S."鉴定共同分子序列(Identification of common molecular subsequences)"Journal of MolecularBiology,1981 147(1):195-197)。进行比对时,使用EMBL-EBI定义的默认参数。这些参数是(i)用于氨基酸序列:矩阵=BLOSUM62,空位开放罚分=10且空位延伸罚分=0.5或(ii)用于氨基酸序列:矩阵=DNAfull,空位开放罚分=10且空位延伸罚分=0.5。技术人员深深了解到例如,若各序列用于相较分子所来源初始生物体的另一生物体,则编码蛋白的序列可以是“密码子优化”。
发明详述
本发明涉及建立新技术的若干方面以增加内源或外源核酸分子表达多至许多倍,这是通过向控制内源或外源核酸分子表达的启动子***或引入启动子激活序列进行的。
第一方面,提供启动子激活序列,配置成用于靶向位点特异性***控制细胞或生物体中感兴趣的核酸分子表达的受体启动子,其中启动子激活核酸序列在位点特异性***后引起感兴趣的核酸分子表达增加,优选其中感兴趣的核酸分子对受体启动子而言是异源或天然的和/或对细胞或生物体而言是内源或外源核酸分子。
本发明提供的启动子激活核酸序列能广泛地应用于在细胞背景下增加任何感兴趣的核酸分子表达。启动子激活核酸序列通常是双链DNA分子,其能***控制感兴趣的核酸分子表达的启动子(图1A1、A2、D1和D2)。
本申请不限于某些启动子或感兴趣的核酸分子或两者的组合。在一个实施方案中,所述感兴趣的核酸分子对在其中表达的细胞或生物体而言是内源的。此情况中,待激活的启动子可以是天然控制细胞或生物体中该感兴趣的核酸分子表达的启动子,但也可能该感兴趣的内源核酸分子在异源启动子控制下,后者天然不控制其表达。或者,感兴趣的核酸分子对在其中表达的细胞或生物体而言是外源的。此情况中,启动子也可能对细胞或生物体而言是外源的,但其可以是感兴趣的核酸分子在其天然细胞环境中受控制的启动子。另一方面,启动子也可能对细胞或生物体而言是外源的,其中所述启动子待激活且同时对感兴趣的核酸分子而言是异源的。
因此,本发明提供技术指南以首先鉴定待优化的启动子。其次,教导了如何基于对本文所示启动子激活核酸分子的研究发现以靶向方式通过最合适的方法修饰所述启动子。此外,呈现了实施修饰的策略。
在一个实施方案中,上述启动子激活核酸序列的长度为6-70个核苷酸,优选7-60个核苷酸,更优选8-40个核苷酸且最优选9-20个核苷酸。
本发明提供的启动子激活核酸序列可代表供体启动子的核心启动子区,发现其在大部分组织和大部分条件下具有高活性,即高水平基因表达。然而,如下列描述所证明,这类约60个核苷酸长度的核心启动子区可显著缩短,而不丧失其活化特性。发现20个或更少核苷酸的序列能够在***或引如后使受体启动子活性增加许多倍。因此,受体启动子序列的极少修饰能引起感兴趣的核酸分子表达显著增加。有利地,受体启动子的初始结构因而不以可能导致不需要副作用的方式受破坏。
在另一实施方案中,上述启动子激活核酸序列包括分离自供体启动子的一个或多个连续核苷酸延伸段,其中供体启动子是具有高表达水平的基因的启动子。
具有高表达水平的基因表达水平与某一生物体中约250个最活跃基因的表达水平相当,如S-腺苷甲硫氨酸脱羧酶2(SAM2,GRMZM2G154397)。优选地,基因在不同组织或不同基因组和/或环境条件下具有>1000的平均FPKM值。
上述一个或多个连续延伸段各自可与供体启动子的核心启动子序列在一个或多个连续延伸段全长上至少90%、91%、92%、93%、94%、95%、96%、97%、98%或99%相同,或可与之相同。
一个连续延伸段可响应供体启动子的整个核心启动子序列。然而,其也可能仅代表核心启动子的较短部分或者核心启动子序列的2个或更多较短部分,所述序列在随后的供体启动子中不相邻。
在另一实施方案中,上述一个或多个连续延伸段各自与相对于供体启动子转录起始位点-50位到+20位的相同长度序列在各延伸段全长上至少90%、91%、92%、93%、94%、95%、96%、97%、98%或99%相同,或与之相同。
如下所证明,一个或多个连续延伸段能取自供体启动子序列并且***或引入受体启动子以激活后者。来自核心启动子的核苷酸的一个连续延伸段也能2次或更多次***或引入一个受体启动子,引起想要的活化。
在一个实施方案中,上述一个或多个连续延伸段各自包括至少6个、至少7个、至少8个、至少9个或至少10个核苷酸或者具有6个或更多核苷酸的长度。
还优选启动子激活核酸序列由2、3、4、5个或更多连续延伸段组成,所述延伸段具有各20个或更少核苷酸的长度,优选各15个或更少核苷酸的长度,更优选各10个或更少核苷酸的长度,其分离自供体启动子。这些延伸段可相同或不同,其可在不同位置并以不同顺序***和/或引入受体启动子。
如果仅使用短的延伸段,可能通过仅极小修饰受体启动子使感兴趣的核酸分子表达提高许多倍。连续延伸段优选是20个核苷酸或更短,更优选10个核苷酸或更短。
在另一实施方案中,上述启动子激活核酸序列包括供体启动子的一个或多个TATA盒基序,或者当将启动子激活核酸序列与TATA盒共有序列匹配或比对时,相对分大于0.8、大于0.81、大于0.81、大于0.82、大于0.83、大于0.84、大于0.85、大于0.86、大于0.87、大于0.88、大于0.89或大于0.90,优选大于0.91、大于0.92、大于0.93、大于0.94或大于0.95,更优选大于0.96、大于0.97、大于0.98或大于0.99的一个或多个TATA盒基序。在一个优选实施方案中,供体启动子的一个或多个TATA盒基序通过添加、取代或缺失一个或多个核苷酸修饰,使得当将一个或多个经修饰TATA盒基序与TATA盒共有序列匹配或比对时,所述一个或多个TATA盒基序转变成相对分增加或更高的一个或多个TATA盒基序。TATA盒基序也可在上述任何或所有连续延伸段中存在。在本发明背景下证明,具有20个或更少核苷酸长度、含TATA盒基序的启动子激活序列有最强的活化特性。然而,无TATA盒基序的序列也显示明显活化特性,因而TATA盒基序不严格要求存在于本文所述启动子激活核酸序列。
在另一实施方案中,上述启动子激活核酸序列包括供体启动子的一个或多个Y斑启动子元件。
在另一实施方案中,上述启动子激活核酸序列包括供体启动子的一个或多个TATA盒基序,或者将启动子激活核酸序列与TATA盒共有序列匹配或比对时,相对分大于0.8、大于0.81、大于0.81、大于0.82、大于0.83、大于0.84、大于0.85、大于0.86、大于0.87、大于0.88、大于0.89或大于0.90,优选大于0.91、大于0.92、大于0.93、大于0.94或大于0.95,更优选大于0.96、大于0.97、大于0.98或大于0.99的一个或多个TATA盒基序。
在一个实施方案中,上述启动子激活核酸序列与SEQ ID NO:1-30、GTATAAAAG(E59)、CTATAAATA(E59a)、CTATATATA(E59b)、CTATAAAAA(E59c)和CTATATAAA(E59d)序列之一,优选在全长启动子激活核酸序列上,优选SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:9、SEQID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:15、SEQ ID NO:16、SEQID NO:17、SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22、SEQID NO:23、SEQ ID NO:24、SEQ ID NO:25、SEQ ID NO:26、SEQ ID NO:27、SEQ ID NO:28、SEQID NO:29、SEQ ID NO:30、GTATAAAAG(E59)、CTATAAATA(E59a)、CTATATATA(E59b)、CTATAAAAA(E59c)和CTATATAAA(E59d),尤其优选SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22、SEQ IDNO:23、SEQ ID NO:24、SEQ ID NO:25、SEQ ID NO:26、SEQ ID NO:27、SEQ ID NO:28、SEQ IDNO:29、SEQ ID NO:30、GTATAAAAG(E59)、CTATAAATA(E59a)、CTATATATA(E59b)、CTATAAAAA(E59c)和CTATATAAA(E59d)有至少75%、80%、85%、90%、95%、96%、97%、98%或99%的序列相同性。
上面所列序列如下面实施例上下文中所述选择,并测试其启动子活性。序列SEQID NO 1-14和20-30代表约60个核苷酸长的核心启动子序列,如下表1所示。选定序列的所实现的激活部分如图4所示。
表1:从核心启动子分离并测试的~60个核苷酸长度启动子激活核酸序列的序列
Figure BDA0002700662040000151
Figure BDA0002700662040000161
序列SEQ ID NO 15-17和GTATAAAAG代表表1所示序列的缩短元件,各包括一个TATA盒基序且维持活化特性。序列如下表2所示。
表2:缩短元件作为启动子激活核酸序列
名称 SEQ ID NO 序列 实现的激活
E53b 15 TATAAAGACAAGCCAAACGA 12-26倍
E55a 16 GCTATAAAATATCCCCACGC 42倍
E56a 17 GTATAAAAAGCGGAAACCCT 26倍
E59 GTATAAAAG 20倍
序列SEQ ID NO 18和19是获自表1所示E53的进一步优化序列。下表3显示E53优化如何实现更好的活化特性。
表3:元件E53的优化
Figure BDA0002700662040000162
序列CTATAAATA(E59a)、CTATATATA(E59b)、CTATAAAAA(E59c)和CTATATAAA(E59d)是获自表2所示E59的进一步优化序列。下表4显示E59的TATA盒基序优化如何实现更好的活化特性。TATA盒形式E59a代表用于单子叶植物TATA盒的完美TATA盒共有序列且形式E59b-d略加修饰。
表4:不同形式的缩短激活元件E59具有相对分更高或增加的修饰TATA盒基序
名称 SEQ ID NO 序列 实现激活
E59 GTATAAAAG 12-37倍
E59a CTATAAATA 62倍
E59b CTATATATA 44倍
E59c CTATAAAAA 38倍
E59d CTATATAAA 46倍
上述启动子激活核酸序列能用于活化任何选定的靶基因。此外,其可应用于任何选定的细胞、生物体或组织。在本发明背景下,优选其在植物细胞或植物,更优选作物中激活启动子。
因此,在一个实施方案中,本发明提供上述启动子激活核酸序列,其中细胞或生物体是植物细胞或植物。
在另一实施方案中,所述受体启动子和/或供体启动子是植物启动子。
在另一实施方案中,上述受体启动子和供体启动子不同和/或源自相同物种或不同物种。
能使用来自一个物种供体启动子的激活序列并将其引入另一物种受体启动子以提供明显增强。这在用不同植物物种时尤其可能。
在一个实施方案中,上面实施方案中任一项所述的植物或植物细胞或植物启动子,源自选自以下的属:大麦属、高粱属、甘蔗属、玉蜀黍属、狗尾草属、水稻属、小麦属、黑麦属、黑小麦属、苹果属、短柄草属、山羊草属、胡萝卜属、甜菜属、桉属、烟草属、茄属、咖啡属、葡萄属、Erythrante、螺旋狸藻属、黄瓜属、Marus、拟南芥属、须弥芥属、碎米荠属、独行菜属、荠属、Olmarabidopsis、筷子芥属、芸苔属、芝麻菜属、萝卜属、柑橘属、麻风树属、杨属、苜蓿属、鹰咀豆属、木豆属、菜豆属、大豆属、棉属、黄芪属、莲属、蝴蝶草属、葱属或向日葵属,优选植物或植物细胞或植物启动子源自选自以下的种:大麦、球茎大麦、两色高粱、甘蔗、包括玉米在内的玉蜀黍、小米、小粒稻、水稻、澳洲野生稻、高秆野生稻、普通小麦、硬粒小麦、黑麦、黑小麦、苹果、紫短柄草、海滨大麦、节节麦、Daucus glochidiatus、包括甜菜在内的甜菜种、小胡萝卜、Daucus muricatus、胡萝卜(Daucus carota)、巨桉、美花烟草、绒毛状烟草、烟草、本氏烟草、番茄,马铃薯、中果咖啡、葡萄、Erythrante guttata、螺旋狸藻、黄瓜、Marus notabilis、Arabidopsis arenosa、深山南芥、拟南芥、喜马拉雅鼠耳芥、卵叶须弥芥、弯曲碎米荠、北美独行菜、荠菜、Olmarabidopsis pumila、筷子芥、欧洲油菜、甘蓝、芜菁、萝卜、芥菜、黑芥、芝麻菜亚种sativa、甜橙、麻风树、毛果杨、蒺藜状苜蓿、山下鹰嘴豆、Cicer bijugum、鹰嘴豆、网状鹰嘴豆、Cicer judaicum、木豆、蔓草虫豆、菜豆,大豆、棉花、紫云英、百脉根、夏堇、洋葱、葱、蒜、向日葵、菊芋和/或韭菜。
感兴趣的核酸分子优选是单基因或多基因作物属性编码基因且任选自编码非生物胁迫(包括干旱胁迫、渗透胁迫、高温胁迫、低温胁迫、氧化胁迫、重金属胁迫、氮缺乏、磷缺乏、盐胁迫或水浸、除草剂抗性,包括抗草甘膦、草铵膦/草丁膦、潮霉素、2,4-D抗性或耐受性、原卟啉原氧化酶(PPO)抑制剂、ALS抑制剂和麦草畏)抗性或耐受性的核酸分子、编码生物胁迫抗性或耐受的核酸分子(包括病毒抗性基因、真菌抗性基因、细菌抗性基因、昆虫抗性基因)或编码产量相关性状(包括耐倒伏性、花期、抗脱粒性、种子颜色、胚乳组成或营养成分)的核酸分子。特定优选示例是ZmZEP1(SEQ ID NO 31),ZmRCA-beta(SEQ ID NO32),BvEPSPS(SEQ ID NO 33)和BvFT2(SEQ ID NO 34)(还参见表5)。
表5:感兴趣的核酸分子与潜在受体启动子
Figure BDA0002700662040000181
如以下进一步详细描述所证明的,通过***或引入和任选进一步修饰上述启动子激活核酸序列,能使感兴趣的核酸分子表达水平相较于无操作的受体启动子控制下的感兴趣的核酸分子表达水平增加若干倍。此发现提供显著优势。此外,先前未证明这类启动子激活元件能转移至其他启动子。
在一个实施方案中,向受体启动子位点特异性***或引入和任选进一步修饰上述启动子激活核酸序列后,所述感兴趣的核酸分子表达水平相较于无***或引入启动子激活核酸序列的受体启动子控制下的感兴趣的核酸分子表达水平,增加至少2倍、至少3倍、至少4倍或至少5倍,优选至少6倍、至少7倍、至少8倍、至少9倍或至少10倍,更优选至少12倍、至少14倍、至少16倍、至少18倍或至少20倍,甚至更优选至少25倍、至少30倍、至少35倍或至少40倍且最优选大于40倍。
另一方面,本发明提供嵌合启动子,包括受体启动子或其核心启动子和上面实施方案中任一项所述的至少一种启动子激活核酸序列,该序列在受体启动子转录起始位点的上游或下游位置***或引入。
本发明所述的嵌合启动子包括启动子中未天然发现的激活核酸序列。激活核酸序列可通过任何受体启动子序列修饰方式***或引入,如***一个或多个代表启动子激活核酸序列的连续延伸段,或向受体启动子添加一个或多个核苷酸,或缺失或取代受体启动子的一个或多个核苷酸或者上面修饰的任意组合,其导致启动子激活核酸序列被引入。***或引入激活序列的5种可能选择如图1所示。启动子激活核酸序列的存在使得置于嵌合启动子控制下的任何基因表达水平相对于无操作时启动子控制下的同一基因表达水平增加。值得注意的是,表达水平增加为至少2倍,但能多至4倍和更高。
在一个实施方案中,提供上述嵌合启动子,其中在以下位置***或通过向受体启动子添加和/或缺失和/或取代一个或多个核苷酸引入启动子激活核酸序列:
i.转录起始位点上游的500个核苷酸或更少,优选150个核苷酸或更少,和/或
ii.起始密码子上游的50个或更多核苷酸;和/或
iii.其中***或引入位点下游没有上游开放阅读框(uORF)。
上述指定位置i.-iii.应理解为指未修饰受体启动子序列。位置i.的转录起始位点代表受体启动子控制下的核酸分子转录起始位点,位置ii.的起始密码子代表此核酸分子的起始密码子。
在本发明背景下,测试不同引入位点和***位点且发现特定位点对启动子激活序列的活化效果有影响并因而不是完全随意。在这些测试中阐明上面的规则i.-iii.以实现活化效果。
在另一实施方案中,所述嵌合启动子包括受体启动子或其核心启动子以及至少一种上述启动子激活核酸序列,所述序列于受体启动子转录起始位点上游位置***或引入,在-91到-1、-53到-1或-43到-1之间,或于受体启动子转录起始位点下游位置***或引入,在+1到+91、+1到+50或+1到+42之间。
在一个优选实施方案中,所述嵌合启动子包括受体启动子或其核心启动子以及在受体启动子转录起始位点上游或下游位置***或引入的至少一种上述启动子激活核酸序列,其中启动子激活核酸序列与起始密码子之间的距离是至少70个核苷酸,优选至少100个核苷酸,更优选至少120个核苷酸。
另一方面,本发明提供递送***,包括启动子激活核酸序列和/或上面实施方案中任一项所述的嵌合启动子,和/或用于将启动子激活核酸序列位点特异性***或引入受体启动子的装置。
本文公开的启动子激活核酸序列需要引入细胞或生物体基因组,其中需要它们以增加靶基因表达。技术人员了解大量递送技术和相应的***,用于以靶向方式向细胞或生物体基因组引入启动子激活核酸序列或嵌合启动子,从而其能行使想要的功能。可***或通过添加和/或缺失和/或取代序列延伸段或单一核苷酸或任何上面修饰的组合引入启动子激活核酸序列。位点特异性修饰核酸序列以实现***或引入启动子激活核酸序列的工具包括位点特异性核酸酶、重组酶、转座酶或碱基编辑蛋白。如果仅极少核苷酸需要修饰,基于化学诱导(如EMS(甲磺酸乙酯)或ENU(N-乙基-N-亚硝基脲))或物理诱变(如用UV或伽马射线辐射)的其他突变技术也能应用于使现有序列变为上述启动子激活核酸序列。在植物发育中,熟知TILLING可引入小修饰如SNP。这些工具和相应技术如下更详细描述。
另一方面,本发明提供核酸构建体或表达盒,包括上面实施方案中任一项所述的启动子激活核酸序列和/或上面实施方案中任一项所述的嵌合启动子。
其导入后,例如通过生物或物理方式转化或转染,核酸构建体或表达盒能保持染色体外,即不整合入靶细胞基因组,例如采用双链或单链DNA、双链或单链RNA形式。或者,本公开所述构建体或其部分能稳定整合入靶细胞基因组,包括靶细胞的核基因组或更多遗传元件,包含质体如线粒体或叶绿体的基因组。核酸构建体或表达盒也可整合入载体以递送到靶细胞或生物体内。
另一方面,本发明提供载体,包括上面实施方案中任一项所述的启动子激活核酸序列和/或上面实施方案中任一项所述的嵌合启动子和/或上述核酸构建体或表达盒,和/或用于将上述启动子激活核酸序列位点特异性引入受体启动子的装置。
除了基于生物学方式的转化方法如农杆菌(Agrobacterium)转化或病毒载体介导的植物转化,基于物理递送方式的方法如粒子轰击或微注射发展为将遗传物质输入感兴趣植物细胞或组织的卓越技术。Helenius等.("用HeliosTM基因枪向完整植物递送基因(Genedelivery into intact plants using the HeliosTM Gene Gun)",Plant MolecularBiology Reporter,2000,18(3):287-288)公开了粒子轰击作为转移材料到植物细胞内的物理方法。目前,有多种植物转化方法将遗传物质以基因构建体形式引入感兴趣植物细胞,包括植物生物技术领域技术人员已知且能应用的生物和物理手段。显然,所述用于转化和转染的递送方法能应用于同时引入所需的工具。普通生物学手段是用农杆菌(Agrobacterium spp.)转化,该手段数十年来用于多种不同植物材料。病毒载体介导的植物转化代表向感兴趣细胞引入遗传物质的进一步策略。在植物生物学中发现应用的物理手段是粒子轰击,也称为基因枪转染或微粒介导的基因转移,指将经包被的微粒或纳米颗粒到靶细胞或组织的物理递送方法,所述微粒或纳米颗粒包括感兴趣核酸或基因构建体。物理引入手段适合引入核酸,即RNA和/或DNA以及蛋白。同样,存在特定转化或转染方法以向植物细胞特异性引入感兴趣的核酸或氨基酸构建体,包括电穿孔、微注射、纳米颗粒和细胞穿透肽(CPP)。此外,存在基于化学的转染方法以引入基因构建体和/或核酸和/或蛋白,包括用磷酸钙转染,用脂质体如阳离子脂质体转染,或用阳离子聚合物转染,包括DEAD-葡聚糖或聚乙烯亚胺,或其组合。各递送方法必须具体精细调整并优化,从而感兴趣构建体能以全功能和活性方式引入感兴趣的靶细胞的特定区室。上述递送技术单独或组合,能用于向靶细胞体内或体外引入本发明所述的启动子激活序列或者携带所需工具的构建体、表达盒或载体,所述工具即位点特异性效应物复合物或其至少一个子部分,即本发明所述至少一种位点特异性核酸酶、至少一种向导RNA、至少一种修复模板或至少一种碱基编辑蛋白或编码上述子部分的序列。
另一方面,本发明提供细胞或生物体或其后代或者生物体或其后代的部分,
a)其中***或通过向控制细胞或生物体中感兴趣的核酸分子表达的受体启动子添加和/或缺失和/或取代一个或多个核苷酸引入上面实施方案中任一项所述的启动子激活核酸,优选在受体启动子转录起始位点的上游或下游位置***或引入,更优选在以下位置引入:
i.感兴趣的核酸分子转录起始位点上游的500个核苷酸或更少,优选150个核苷酸或更少,和/或
ii.感兴趣的核酸分子起始密码子上游的50个或更多核苷酸;和/或
iii.其中***或引入位点下游没有上游开放阅读框(uORF),或
b)包括上面实施方案中任一项所述的嵌合启动子,上面实施方案中任一项所述的递送***,上述核酸构建体或表达盒和/或上述载体。
在细胞或生物体或其后代或者部分生物体或其后代的一个实施方案中,所述启动子激活核酸于受体启动子转录起始位点上游位置***或引入,在-91到-1、-53到-1或-43到-1之间,或于受体启动子转录起始位点下游位置***或引入,在+1到+91、+1到+50或+1到+42之间。
在细胞或生物体或其后代或者部分生物体或其后代的一个优选实施方案中,所述启动子激活核酸序列在受体启动子转录起始位点上游或下游位置***或引入,其中启动子激活核酸序列与感兴趣的核酸分子起始密码子之间的距离是至少70个核苷酸,优选至少100个核苷酸,更优选至少120个核苷酸。
上述细胞或生物体能够表达感兴趣分子的量数倍于用未操作受体启动子所实现的表达。因此,例如显著改善生物体中的某些性状是可能的。在本发明上下文中,尤其优选细胞或生物体是植物细胞或植物。
在一个实施方案中,上述细胞或生物体或其后代或者部分生物体或其后代中的受体启动子是植物启动子。
有利地,能通过使用启动子激活核酸序列来增加感兴趣内源或外源核酸分子表达,其可在其天然或异源启动子控制下。因此,内源性状能特异性增强或外源性状能引入并高水平表达。
在另一实施方案中,上述细胞或生物体或其后代或者部分生物体或其后代中,感兴趣的核酸分子因而对受体启动子而言是异源或天然的和/或对细胞或生物体而言是内源或外源核酸分子。
在本发明上下文中,尤其优选增加植物细胞或植物尤其是作物中的感兴趣的核酸分子表达。
在另一实施方案中,上面实施方案中任一项所述的细胞或生物体或其后代或者部分生物体或其后代是植物细胞或植物或其部分,优选其中植物源自选自以下的属:大麦属、高粱属、甘蔗属、玉蜀黍属、狗尾草属、水稻属、小麦属、黑麦属、黑小麦属、苹果属、短柄草属、山羊草属、胡萝卜属、甜菜属、桉属、烟草属、茄属、咖啡属、葡萄属、Erythrante、螺旋狸藻属、黄瓜属、Marus、拟南芥属、须弥芥属、碎米荠属、独行菜属、荠属、Olmarabidopsis、筷子芥属、芸苔属、芝麻菜属、萝卜属、柑橘属、麻风树属、杨属、苜蓿属、鹰咀豆属、木豆属、菜豆属、大豆属、棉属、黄芪属、莲属、蝴蝶草属、葱属或向日葵属,优选植物或植物细胞源自选自以下的种:大麦、球茎大麦、两色高粱、甘蔗、包括玉米在内的玉蜀黍、小米、小粒稻、水稻、澳洲野生稻、高秆野生稻、普通小麦、硬粒小麦、黑麦、黑小麦、苹果、紫短柄草、海滨大麦、节节麦、Daucus glochidiatus、包括甜菜在内的甜菜种、小胡萝卜、Daucus muricatus、胡萝卜(Daucus carota)、巨桉、美花烟草、绒毛状烟草、烟草、本氏烟草、番茄,马铃薯、中果咖啡、葡萄、Erythrante guttata、螺旋狸藻、黄瓜、Marus notabilis、Arabidopsis arenosa、深山南芥、拟南芥、喜马拉雅鼠耳芥、卵叶须弥芥、弯曲碎米荠、北美独行菜、荠菜、Olmarabidopsis pumila、筷子芥、欧洲油菜、甘蓝、芜菁、萝卜、芥菜、黑芥、芝麻菜亚种sativa、甜橙、麻风树、毛果杨、蒺藜状苜蓿、山下鹰嘴豆、Cicer bijugum、鹰嘴豆、网状鹰嘴豆、Cicer judaicum、木豆、蔓草虫豆、菜豆,大豆、棉花、紫云英、百脉根、夏堇、洋葱、葱、蒜、向日葵、菊芋和/或韭菜。
另一方面,本发明提供鉴定上面实施方案中任一项所述的启动子激活核酸序列或嵌合启动子的方法。因此,本发明允许技术人员鉴定启动子激活核酸序列,该序列能用于增加感兴趣基因的表达水平。
因此,本发明涉及鉴定启动子激活核酸序列或嵌合启动子的方法,优选上面实施方案中任一项所述的启动子激活核酸序列或嵌合启动子,所述方法包括:
i)鉴定细胞或生物体中具有高表达水平的基因,
ii)从步骤i)所鉴定的基因启动子分离一个或多个连续延伸段,其中一个或多个连续延伸段源自a)所述供体启动子的核心启动子,或b)相对于所述供体启动子转录起始位点-50位到+20位的序列,
iii)在受体启动子转录起始位点上游或下游位置向控制感兴趣的核酸分子表达的受体启动子***或通过添加和/或缺失和/或取代一个或多个核苷酸引入所述一个或多个连续延伸段,
iv)相对于无步骤iii)的***或引入时受体启动子控制下的感兴趣相同或另一核酸分子表达水平,或在给定环境和/或给定基因组和/或环境条件下的另一参照启动子,在细胞或生物体中或体内确定包括步骤iii)的***或引入的受体启动子控制下的感兴趣的核酸分子表达水平,其中感兴趣的核酸分子对受体启动子而言是异源或天然的和/或对细胞或生物体而言是内源或外源的,和
v)观察到步骤iv)中感兴趣的核酸分子的表达增加时,鉴定并因而提供上面实施方案中任一项所述的启动子激活核酸序列或上面实施方案中任一项所述的嵌合启动子,
vi)任选地,逐步缩短步骤v)所鉴定的启动子激活核酸序列,并重复步骤iv)和v)至少一次,和/或通过添加和/或取代和/或缺失一个或多个核苷酸修饰步骤v)所鉴定的启动子激活核酸序列或受体启动子中存在的一个或多个TATA盒基序,使得当将一个或多个经修饰TATA盒基序与TATA盒共有序列匹配或比对时,所述一个或多个TATA盒基序转变成相对分增加或更高的一个或多个TATA盒基序,并且重复步骤iv)和v)至少一次。
步骤i)所鉴定基因具有的表达水平与约250个最活跃基因的表达水平相当,如S-腺苷甲硫氨酸脱羧酶2(SAM2,GRMZM2G154397)。优选地,所述基因在不同组织或不同基因组和/或环境条件下具有>1000的平均FPKM值。
上述一个或多个连续延伸段各自与供体启动子的核心启动子序列在一个或多个连续延伸段全长上至少90%、91%、92%、93%、94%、95%、96%、97%、98%或99%相同,或与之相同。
在另一实施方案中,上述一个或多个连续延伸段各自与相对供体启动子转录起始位点-50位到+20位的相同长度序列在各延伸段全长上至少90%、91%、92%、93%、94%、95%、96%、97%、98%或99%相同,或与之相同。
位点特异性***或引入受体启动子后,测试一个或多个连续延伸段的启动子激活特性。测试能在体内或体外完成,比较感兴趣的核酸分子如报告基因在含***或引入的受体启动子控制下的表达水平与无***或引入时受体启动子控制下的感兴趣的相同或另一核酸分子表达水平,或是在给定环境和/或给定基因组和/或环境条件下的另一参照启动子,从而能确定表达水平的差异。受体启动子可以是天然控制感兴趣的核酸分子表达的启动子,或感兴趣的核酸分子可置于异源受体启动子控制下,该启动子不天然控制其表达。如果测试在体内进行,感兴趣的核酸分子可能对在其中表达的细胞或生物体而言是内源的。此情况中,启动子可以是天然控制细胞或生物体中该感兴趣的核酸分子表达的启动子,但也可能该感兴趣的内源核酸分子在异源受体启动子控制下,其不天然控制其表达。或者,感兴趣的核酸分子对在其中测试的细胞或生物体而言是外源的。此情况中,受体启动子也可能对细胞或生物体而言是外源的,但其可以是感兴趣的核酸分子在其天然细胞环境中受控制的启动子。另一方面,受体启动子也可能对细胞或生物体而言是外源的,因为其被测试且同时对感兴趣的核酸分子而言是异源的。
如果在步骤iv)中观察到感兴趣的核酸分子于有***或引入的启动子控制下的表达水平增加,则连续延伸段被鉴定为上述启动子激活核酸序列,或携带连续延伸段的受体启动子被鉴定为上述嵌合启动子。
步骤v)所鉴定启动子激活核酸序列任选地缩短或优化,这是通过从序列末端或内部逐步移出核苷酸,将其***或引入受体启动子,重复步骤iv)和v)来测试启动子激活特性损失或增加。因此,可提供极短但高效的启动子激活核酸序列,其能通过最少修饰受体启动子来引入。缩短的序列或连续延伸段优选具有6-40个核苷酸的长度,更优选9-20个核苷酸。
步骤v)所鉴定的启动子激活核酸序列可任选地如下优化:通过添加和/或取代和/或缺失一个或多个核苷酸修饰步骤v)所鉴定的启动子激活核酸序列或受体启动子中存在的一个或多个TATA盒基序使得当将一个或多个经修饰TATA盒基序与TATA盒共有序列匹配或比对时,所述一个或多个TATA盒基序转变成相对分增加或更高的一个或多个TATA盒基序。
在上述方法的一个实施方案中,步骤iii)中,所述一个或多个连续延伸段在以下位置***或引入受体启动子
(a)感兴趣的核酸分子转录起始位点上游的500个核苷酸或更少,优选150个核苷酸或更少;和/或
(b)感兴趣的核酸分子起始密码子上游的50个或更多核苷酸;和/或
(c)其中***或引入位点下游没有上游开放阅读框(uORF)。
在上述方法的另一实施方案中,所述一个或多个连续延伸段于受体启动子转录起始位点上游位置***或引入,在-91到-1、-53到-1或-43到-1之间,或于受体启动子转录起始位点下游位置***或引入,在+1到+91、+1到+50或+1到+42之间。
在上述方法的一个优选实施方案中,所述一个或多个连续延伸段在受体启动子转录起始位点上游或下游位置***或引入,其中一个或多个连续延伸段与感兴趣的核酸分子起始密码子之间的距离是至少70个核苷酸,优选至少100个核苷酸,更优选至少120个核苷酸。
在(a)、(b)和/或(c)所述位置向受体启动子***或引入分离自步骤ii)的一个或多个连续延伸段,最可能引起如上所解释的成功激活。
另一方面,本发明提供增加细胞中感兴趣的核酸分子表达水平的方法,包括:
ia)向细胞引入上面实施方案中任一项所述的启动子激活核酸序列、上述嵌合启动子、上述递送***或者上述核酸构建体或表达盒,或
ib)向细胞引入用于位点特异性修饰控制感兴趣的核酸分子表达的受体启动子的核酸序列的装置,和
ii)任选地,向细胞引入位点特异性核酸酶或其活性片段,或提供编码其的序列,位点特异性核酸酶诱导预定位置的双链断裂,优选其中位点特异性核酸酶或其活性片段包括锌指核酸酶、转录激活因子样效应物核酸酶、CRISPR/Cas***,包括CRISPR/Cas9***、CRISPR/Cpf1***、CRISPR/C2C2***、CRISPR/CasX***、CRISPR/CasY***、CRISPR/Cmr***,工程化的归位内切酶、重组酶、转座酶和大范围核酸酶和/或其任何组合、变体或催化活性片段;以及任选地,当位点特异性核酸酶或其活性片段是CRISPR核酸酶时:提供至少一种向导RNA或至少一种向导RNA***,或编码其的核酸;和
iiia)在控制感兴趣的核酸分子表达的受体启动子转录起始位点上游或下游位置向控制细胞中的感兴趣的核酸分子表达的受体启动子***上面实施方案中任一项所定义的启动子激活核酸序列,或
iiib)在控制感兴趣的核酸分子表达的受体启动子转录起始位点上游或下游位置通过添加和/或缺失和/或取代修饰控制细胞中感兴趣的核酸分子表达的受体启动子序列,从而形成上面实施方案中任一项所定义的启动子激活核酸序列,和
iiic)任选地,通过添加和/或取代和/或缺失一个或多个核苷酸修饰步骤iiia)所***或引入启动子激活核酸序列中存在的或受体启动子中存在的一个或多个TATA盒基序,使得当将一个或多个经修饰TATA盒基序与TATA盒共有序列匹配或比对时,所述一个或多个TATA盒基序转变成相对分增加或更高的一个或多个TATA盒基序。
步骤iiib)的修饰可包括任何受体启动子序列修饰,通过向受体启动子序列添加一个或多个单一核苷酸或核苷酸序列,或者缺失或取代受体启动子序列的一个或多个单一核苷酸或核苷酸序列进行修饰。
步骤iiic)的修饰可包括受体启动子序列或启动子激活核酸序列的任何修饰,通过向受体启动子序列或启动子激活核酸序列添加一个或多个单一核苷酸或核苷酸序列,或者缺失或取代受体启动子序列或启动子激活核酸序列的一个或多个单一核苷酸或核苷酸序列进行修饰。
例如,步骤i)的引入可通过转化、转染或转导方式经生物学方法实现,包括农杆菌(Agrobacterium)转化,或经物理方法,包括如上更详细所解释的粒子轰击。
在受体启动子中靶向***或引入或修饰启动子激活核酸序列可通过另外引入位点特异性核酸酶或其活性片段来实现。大范围核酸酶、锌指核酸酶(ZFN)、转录激活因子样效应物核酸酶(TALEN)或成簇的规律间隔的短回文重复序列(CRISPR)主要是CRISPR/Cas9技术的位点特异性DNA切割活性被广泛用于位点特异性修饰动物和植物基因组。所述核酸酶导致特定切割位点的双链断裂(DSB),其通过非同源末端连接(NHEJ)或同源重组(HR)修复,这允许例如在切割位点引入***。最近发现的CRISPR/Cas***包括CRISPR/Cpf1、CRISPR/C2c2、CRISPR/CasX、CRISPR/CasY和CRISPR/Cmr。重组酶和转座酶催化特定靶序列的交换或重定位,因而还能用于产生靶修饰。
在其天然环境中的CRISPR(成簇的规律间隔的短回文重复序列)最初于细菌内进化,其中CRISPR***实现适应性免疫***的作用以抵御病毒攻击。暴露于病毒后,病毒DNA的短区段整合入CRISPR基因座。RNA转录自含病毒序列的部分CRISPR基因座。含病毒基因组互补序列的RNA介导CRISPR效应蛋白靶向病毒基因组的靶序列。CRISPR效应蛋白切割并因而干扰病毒靶标复制。过去几年中,CRISPR***还成功适应了真核细胞中的基因编辑或基因组工程。
在其天然环境中的CRISPR描述分子复合物,包括至少一种小型个体非编码RNA与Cas核酸酶或另一CRISPR核酸酶如Cpf1核酸酶的组合(Zetsche等,"Cpf1是2类CRISPR-Cas***的单RNA-引导内切核酸酶(Cpf1 Is a Single RNA-Guides Endonuclease of aClass 2CRISPR-Cas System)",Cell,163,第1-13页,2015年10月),其能生成特定DNA双链断裂。目前,CRISPR***分成2类,包含5种CRISPR***类型,例如,II型***采用Cas9作为效应物且V型***采用Cpf1作为效应分子(Makarova等,Nature Rev.Microbial.,2015)。在人工CRISPR***中,合成的非编码RNA和CRISPR核酸酶和/或任选修饰CRISPR核酸酶,修饰成用作切口酶或缺乏任何核酸酶功能,能与至少一种合成或人工引导RNA或gRNA联用,gRNA组合crRNA和/或tracrRNA功能(Makarova等,2015,同上)。天然***中由CRISPR/Cas介导的免疫应答需要CRISPR-RNA(crRNA),其中所述控制CRISPR核酸酶特异激活的向导RNA的成熟,在迄今鉴定的多个CRISPR***之间显著不同。首先,入侵DNA也称为间隔子,在CRISPR基因座近端的2个相邻重复区之间整合。II型CRISPR***编码Cas9核酸酶作为干扰步骤的关键酶,该***包含crRNA以及反式作用RNA(tracrRNA)作为引导基序。这些杂交并形成由RNAsellI识别的双链(ds)RNA区,可切割以形成成熟crRNA。这些进而与Cas分子关联以将核酸酶特异指向靶核酸区。重组gRNA分子能包括两者、可变DNA识别区以及Cas相互作用区,并能特定设计,独立于特定靶核酸和所需Cas核酸酶。作为进一步的安全机制,PAM(前间区序列邻近基序)必须存在于靶核酸区;这些是直接来自Cas9/RNA复合物识别DNA的后续DNA序列。用于酿脓链球菌(Streptococcus pyogenes)Cas9的PAM序列被描述成“NGG”或“NAG”(标准IUPAC核苷酸代码)(Jinek等,"适应性细菌免疫中的可编程双重RNA-引导的DNA内切核酸酶(A programmable dual-RNA-guided DNA endonuclease in adaptive bacterialimmunity)",Science 2012,337:816-821)。用于金黄色葡萄球菌(Staphylococcusaureus)的Cas9的PAM序列是“NNGRRT”或“NNGRR(N)”。已知其他变体CRISPR/Cas9***。因此,脑膜炎奈瑟氏菌(Neisseria meningitidis)Cas9在PAM序列NNNNGATT处切割。嗜热链球菌(Streptococcus thermophilus)Cas9在PAM序列NNAGAAW处切割。近期,另一PAM基序NNNNRYAC被描述用于弯曲杆菌(Campylobacter)的CRISPR***(WO 2016/021973A1)。对于Cpf1核酸酶,描述Cpf1-crRNA复合物有效切割靶DNA,由短的T富集PAM进行,相反,普通G富集PAM由Cas9***识别(Zetsche等,同上)。此外,通过使用经修饰CRISPR多肽,可获得特异单链断裂。Cas切口酶与多种重组gRNA联用也能通过双DNA切口方式诱导高特异DNA双链断裂。此外,通过使用2种gRNA,可优选DNA结合的特异性和因而的DNA切割。
目前,例如,II型***依赖于Cas9或其变体或嵌合形式,作为内切核酸酶,被修饰用于基因组工程。合成CRISPR***由2个组分组成,即向导RNA(gRNA)也称为单向导RNA(sgRNA)和非特异CRISPR相关内切核酸酶,该***能用于通过共表达基因特异性gRNA来产生敲除细胞或动物,所述基因待靶向且能够与内切核酸酶Cas9相关联。显然,gRNA是人工分子,包括与Cas或任何其他CRISPR效应蛋白或其变体或催化活性片段相互作用的一个结构域以及与感兴趣靶核酸相互作用并因而代表crRNA和tracrRNA融合功能的另一结构域("单向导RNA(single guide RNA)"(sgRNA)或简单的"gRNA";Jinek等,2012,同上)。基因组靶标可以是任何~20核苷酸DNA序列,只要靶标紧接着存在于PAM上游。PAM序列对靶结合具有突出重要性,实际序列取决于Cas9种类且例如读取5'NGG 3'或5'NAG 3'(标准IUPAC核苷酸代码)(Jinek等,2012,同上)用于酿脓链球菌源性Cas9。使用经修饰Cas核酸酶,靶向单链断裂能引入感兴趣靶序列
一旦表达,通过gRNA“骨架”结构域与Cas9上表面暴露、带正电荷的沟糟相互作用,Cas9蛋白和gRNA形成核糖核蛋白复合物。重要的是,gRNA的“间隔”序列保持游离以与靶DNA相互作用。Cas9-gRNA复合物会结合带PAM的任意基因组序列,但gRNA间隔子与靶DNA匹配的程度决定Cas9是否会切割。一旦Cas9-gRNA复合物结合假定DNA靶标,在gRNA靶向序列3'末端的“种子”序列开始与靶DNA退火。如果种子和靶DNA序列匹配,则gRNA会继续以3'到5'方向(相对于gRNA极性)与靶DNA退火。
近期,除了CRISPR/Cas9***,改造的CRISPR/Cpf1***对靶向基因组工程日益重要(参见Zetsche等,同上和EP 3 009 511A2)。V型***与II型***属于2类CRISPR***(Makarova和Koonin Methods.Mol.Biol.,2015,1311:47-753)。Cpf1效应蛋白是大蛋白(约1,300个氨基酸),包含与Cas9的对应结构域同源的RuvC样核酸酶结构域,以及Cas9特征性精氨酸富集簇的对应物。然而,Cpf1缺乏所有Cas9蛋白中存在的HNH核酸酶结构域,且RuvC样结构域在Cpf1序列中连续,与包括含HNH结构域的长***物的Cas9不同(Chylinski等.(2014).《II型CRISPR-Cas***的分类演化》(Classification and evolution of type IICRISPR-Cas systems).Nucleic acids research,42(10),6091-6105.;Makarova,2015)。Cpf1效应物相比Cas9效应物有某些差异,即不需要CRISPR阵列处理的额外反式作用crRNA(tracrRNA),通过短的富含T的PAM的靶DNA有效切割(与Cas9相反,其中PAM后面是G富集序列),通过Cpf1引入交错DNA双链切割。最近,鉴定了基于CasX和CasY的额外新的CRISPR-Cas***,因为就许多基因编辑或基因组工程方法而言,对相对小尺寸的效应蛋白特别感兴趣(Burstein等,"来自未培养微生物的新CRISPR-Cas***(New CRISPR-Cas systems fromuncultivated microbes)",Nature,2016年12月)。
此外,碱基编辑技术能用于向受体启动子引入启动子激活核酸。如图1B1、B2、C、E1和E2所示,能通过仅编辑一些核苷酸来激活受体启动子。任何碱基编辑蛋白或位点特异性效应物或其催化活性片段,或本文所公开碱基编辑蛋白复合物或位点特异性效应物复合物的任何组分,能作为核酸片段引入细胞,所述核酸片段代表或编码DNA、RNA或蛋白效应物,或其能作为DNA、RNA和/或蛋白或其任何组合引入。
消除了对用内切核酸酶、DSB和修复模板进行选择性修饰需求的关键工具集是采用碱基编辑蛋白或靶向诱变结构域。多个出版物显示靶向碱基转换,主要是胞苷(C)转换成胸腺嘧啶(T),使用CRISPR/Cas9切口酶或连接胞苷脱氨酶结构域的无功能核酸酶,载脂蛋白B mRNA编辑催化多肽(APOBEC1),如衍生自大鼠的APOBEC。胞嘧啶(C)由胞苷脱氨酶催化并产生尿嘧啶(U),其具有胸腺嘧啶(T)的碱基配对特性。大部分已知胞苷脱氨酶在RNA上运转,且已知接受DNA的较少示例需要单链(ss)DNA。关于dCas9-靶DNA复合物的研究显示,被取代DNA链的至少9个核苷酸(nt)在形成Cas9-向导RNA-DNA‘R-环’复合物后未配对(Jore等,Nat.Struct.Mol.Biol.,18,529-536(2011))。确实,Cas9 R-环复合物的结构中,被取代DNA链上前间隔序列的前11nt无序,表明其移动并非高度受限。还推测在非模板链胞嘧啶处Cas9切口酶诱导的突变可能由其对细胞胞嘧啶脱氨酶的可及性引起。推断R-环中该ssDNA延伸段子集可用作dCas9系锁的胞苷脱氨酶的有效底物以实现DNA中C到U的直接、可编程转换(Komor等,同上)。近期,Goudelli等((2017).《无DNA切割时基因组DNA中A·T到G·C的可编程碱基编辑》(Programmable base editing of A·T to G·C in genomic DNAwithout DNA cleavage).Nature,551(7681),464.)描述介导基因组DNA中A·T到G·C转换的腺嘌呤碱基编辑蛋白(ABE)。
本发明所述的任何碱基编辑复合物因而能包括至少一种胞苷脱氨酶或其催化活性片段。所述至少一种碱基编辑复合物可包括胞苷脱氨酶或其采用催化活性片段形式的结构域,作为碱基编辑蛋白。
在另一实施方案中,所述至少一种第一靶向碱基修饰是任意核苷酸C、A、T或G转换成任意其他核苷酸。C、A、T或G核苷酸的任何一种能以定点方式交换成另一核苷酸,由碱基编辑蛋白或其催化活性片段介导。所述至少一种碱基编辑复合物因而能包括任何碱基编辑蛋白或碱基编辑结构域或其催化活性片段,它们能使感兴趣的核苷酸以靶向方式转换成任何其他感兴趣的核苷酸。
感兴趣的核酸分子对在其中表达的细胞或生物体而言可以是内源的。此情况中,受体启动子可以是天然控制细胞或生物体中该感兴趣的核酸分子表达的启动子,但也可能该感兴趣的内源核酸分子在异源启动子控制下,后者不天然控制其表达。或者,感兴趣的核酸分子对在其中表达的细胞或生物体而言是外源的。此情况中,启动子也可能对细胞或生物体而言是外源的,但其可以是感兴趣的核酸分子在其天然细胞环境中受控制的启动子。另一方面,启动子也可能对细胞或生物体而言是外源的,其中所述启动子待激活且同时对感兴趣的核酸分子而言是异源的
在上述方法中,相较于没有***或引入启动子激活核酸序列的受体启动子控制下的感兴趣的核酸分子表达水平,所述感兴趣的核酸分子表达水平增加至少2倍、至少3倍、至少4倍或至少5倍,优选至少6倍、至少7倍、至少8倍、至少9倍或至少10倍,更优选至少12倍、至少14倍、至少16倍、至少18倍或至少20倍,甚至更优选至少25倍、至少30倍、至少35倍或至少40倍且最优选大于40倍。
在方法的步骤iiia)或iiib)中,向受体启动子引入启动子激活核酸序列的***或修饰优选在以下位置
(a)感兴趣的核酸分子转录起始位点上游的500个核苷酸或更少,优选150个核苷酸或更少;和/或
(b)感兴趣的核酸分子起始密码子上游的50个以上核苷酸;和/或
(c)其中***或引入位点下游没有上游开放阅读框(uORF)。
位置(a)、(b)和(c)参考无***或修饰的受体启动子给出。
在上述增加表达水平方法的另一实施方案中,所述启动子激活核酸序列于受体启动子转录起始位点上游位置***或引入,在-91到-1、-53到-1或-43到-1之间,或于受体启动子转录起始位点下游位置***或引入,在+1到+91、+1到+50或+1到+42之间。
在上述增加表达水平方法的一个优选实施方案中,所述启动子激活核酸序列在受体启动子转录起始位点上游或下游位置***或引入,其中一个或多个连续延伸段与感兴趣的核酸分子起始密码子之间的距离是至少70个核苷酸,优选至少100个核苷酸,更优选至少120个核苷酸。
在一个实施方案中,所述启动子激活核酸序列的长度为6-70个核苷酸,优选7-60个核苷酸,更优选8-40个核苷酸且最优选9-20个核苷酸。
在一个实施方案中,所述启动子激活核酸序列通过上面实施方案中任一项所述步骤iiia)或iiib)的修饰来***或引入,包括一个或多个连续核苷酸延伸段,或由其组成,所述核苷酸分离自供体启动子,其中该供体启动子是具有高表达水平的基因启动子。
具有高表达水平的基因表达水平与约250个最活跃基因的表达水平相当,如S-腺苷甲硫氨酸脱羧酶2(SAM2,GRMZM2G154397)。优选地,基因在不同组织或不同基因组和/或环境条件下具有>1000的平均FPKM值。
在另一实施方案中,上述一个或多个连续延伸段各自与供体启动子的核心启动子序列在一个或多个连续延伸段全长上相同,或至少90%、91%、92%、93%、94%、95%、96%、97%、98%或99%相同。
在另一实施方案中,上面实施方案中任一项所述的一个或多个连续延伸段各自与相对供体启动子转录起始位点-50位到+20位的相同长度序列在各延伸段全长上相同,或至少90%、91%、92%、93%、94%、95%、96%、97%、98%或99%相同。
在另一实施方案中,上面实施方案中任一项所述的一个或多个连续延伸段各自包括至少6个、至少7个、至少8个、至少9个或至少10个核苷酸或者具有6个或更多核苷酸的长度。
在另一实施方案中,上面实施方案中任一项所述步骤iiia)或iiib)中***或引入的启动子激活核酸序列包括供体启动子的一个或多个TATA盒基序。
在另一实施方案中,上面实施方案中任一项所述步骤iiia)或iiib)中***或引入的启动子激活核酸序列与SEQ ID NO:1-30、GTATAAAAG(E59)、CTATAAATA(E59a)、CTATATATA(E59b)、CTATAAAAA(E59c)和CTATATAAA(E59d)序列之一,优选在全长启动子激活核酸序列上,优选SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ IDNO:12、SEQ ID NO:13、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ IDNO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22、SEQ ID NO:23、SEQ ID NO:24、SEQ IDNO:25、SEQ ID NO:26、SEQ ID NO:27、SEQ ID NO:28、SEQ ID NO:29、SEQ ID NO:30、GTATAAAAG(E59)、CTATAAATA(E59a)、CTATATATA(E59b)、CTATAAAAA(E59c)和CTATATAAA(E59d),尤其优选SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22、SEQ ID NO:23、SEQ ID NO:24、SEQ IDNO:25、SEQ ID NO:26、SEQ ID NO:27、SEQ ID NO:28、SEQ ID NO:29、SEQ ID NO:30、GTATAAAAG(E59)、CTATAAATA(E59a)、CTATATATA(E59b)、CTATAAAAA(E59c)和CTATATAAA(E59d)有至少75%、80%、85%、90%、95%、96%、97%、98%或99%的序列相同性。
在上述方法的另一实施方案中,所述受体启动子和/或供体启动子是植物启动子。
在另一实施方案中,所述受体启动子和供体启动子不同和/或源自同一物种或来自不同物种。
在一个实施方案中,上述方法的实施方案中任一项所述植物或植物细胞或植物启动子,源自选自以下的属:大麦属、高粱属、甘蔗属、玉蜀黍属、狗尾草属、水稻属、小麦属、黑麦属、黑小麦属、苹果属、短柄草属、山羊草属、胡萝卜属、甜菜属、桉属、烟草属、茄属、咖啡属、葡萄属、Erythrante、螺旋狸藻属、黄瓜属、Marus、拟南芥属、须弥芥属、碎米荠属、独行菜属、荠属、Olmarabidopsis、筷子芥属、芸苔属、芝麻菜属、萝卜属、柑橘属、麻风树属、杨属、苜蓿属、鹰咀豆属、木豆属、菜豆属、大豆属、棉属、黄芪属、莲属、蝴蝶草属、葱属或向日葵属,优选植物或植物细胞或植物启动子源自选自以下的种:大麦、球茎大麦、两色高粱、甘蔗、包括玉米在内的玉蜀黍、小米、小粒稻、水稻、澳洲野生稻、高秆野生稻、普通小麦、硬粒小麦、黑麦、黑小麦、苹果、紫短柄草、海滨大麦、节节麦、Daucus glochidiatus、包括甜菜在内的甜菜种、小胡萝卜、Daucus muricatus、胡萝卜(Daucus carota)、巨桉、美花烟草、绒毛状烟草、烟草、本氏烟草、番茄,马铃薯、中果咖啡、葡萄、Erythrante guttata、螺旋狸藻、黄瓜、Marus notabilis、Arabidopsis arenosa、深山南芥、拟南芥、喜马拉雅鼠耳芥、卵叶须弥芥、弯曲碎米荠、北美独行菜、荠菜、Olmarabidopsis pumila、筷子芥、欧洲油菜、甘蓝、芜菁、萝卜、芥菜、黑芥、芝麻菜亚种sativa、甜橙、麻风树、毛果杨、蒺藜状苜蓿、山下鹰嘴豆、Cicer bijugum、鹰嘴豆、网状鹰嘴豆、Cicer judaicum、木豆、蔓草虫豆、菜豆,大豆、棉花、紫云英、百脉根、夏堇、洋葱、葱、蒜、向日葵、菊芋和/或韭菜。
另一方面,本发明提供生成感兴趣的核酸分子表达水平增加的细胞或生物体的方法,所述方法包括:
ia)向细胞引入上面实施方案中任一项所述的启动子激活核酸序列、上述嵌合启动子、上述递送***或者上述核酸构建体或表达盒;或
ib)向细胞引入用于位点特异性修饰控制感兴趣的核酸分子表达的受体启动子的核酸序列的装置,和
ii)任选地,向细胞引入位点特异性核酸酶或其活性片段,或提供编码其的序列,位点特异性核酸酶诱导预定位置的双链断裂,优选其中位点特异性核酸酶或其活性片段包括锌指核酸酶、转录激活因子样效应物核酸酶、CRISPR/Cas***,包括CRISPR/Cas9***、CRISPR/Cpf1***、CRISPR/C2C2***、CRISPR/CasX***、CRISPR/CasY***、CRISPR/Cmr***,工程化的归位内切酶、重组酶、转座酶和大范围核酸酶和/或其任何组合、变体或催化活性片段;以及任选地,当位点特异性核酸酶或其活性片段是CRISPR核酸酶时:提供至少一种向导RNA或至少一种向导RNA***,或编码其的核酸;和
iiia)在控制感兴趣的核酸分子表达的受体启动子转录起始位点上游或下游位置向控制细胞中的感兴趣的核酸分子表达的受体启动子***上面实施方案中任一项所定义的启动子激活核酸序列或如上所定义的嵌合启动子,或
iiib)在控制感兴趣的核酸分子表达的受体启动子转录起始位点上游或下游位置通过添加和/或缺失和/或取代修饰控制细胞中感兴趣的核酸分子表达的受体启动子序列,从而形成上面实施方案中任一项所定义的启动子激活核酸序列,和
iiic)任选地,修饰步骤iiia)或iiib)所***或通过添加和/或取代和/或缺失一个或多个核苷酸引入启动子激活核酸序列或嵌合启动子中存在的或受体启动子中存在的一个或多个TATA盒基序,用于使一个或多个TATA盒基序转变成当将一个或多个经修饰TATA盒基序与TATA盒共有序列匹配或比对时,相对分增加或更高的一个或多个TATA盒基序,和
iv)获得细胞或生物体,其在***上面实施方案中任一项所述启动子激活核酸序列后或修饰以形成上面实施方案中任一项所定义的启动子激活核酸序列后,感兴趣的核酸分子的表达水平增加。
例如,步骤i)的引入可通过转化、转染或转导方式经生物学方法实现,包括农杆菌转化,或经物理方法实现,包括如上更详细所解释的粒子轰击。
感兴趣的核酸分子可能对在其中表达的细胞或生物体而言是内源的。此情况中,启动子可以是天然控制细胞或生物体中该感兴趣的核酸分子表达的启动子,但也可能该感兴趣的内源核酸分子在异源受体启动子控制下,后者不天然控制其表达。或者,感兴趣的核酸分子对在其中表达的细胞或生物体而言是外源的。此情况中,启动子也可能对细胞或生物体而言是外源的,但其可以是感兴趣的核酸分子在其天然细胞环境中受控制的启动子。另一方面,启动子也可能对细胞或生物体而言是外源的,其中所述启动子被激活且同时对感兴趣的核酸分子而言是异源的
在上述方法中,所述感兴趣的核酸分子表达水平相较无***或引入启动子激活核酸序列时受体启动子控制下的感兴趣的核酸分子表达水平,增加至少2倍、至少3倍、至少4倍或至少5倍,优选至少6倍、至少7倍、至少8倍、至少9倍或至少10倍,更优选至少12倍、至少14倍、至少16倍、至少18倍或至少20倍,甚至更优选至少25倍、至少30倍、至少35倍或至少40倍且最优选大于40倍。
在方法的步骤iiia)或iiib))中,优选在以下位置向受体启动子***或引入启动子激活核酸序列:
(a)感兴趣的核酸分子转录起始位点上游的500个核苷酸或更少,优选150个核苷酸或更少;和/或
(b)感兴趣的核酸分子起始密码子上游的50个或更多核苷酸;和/或
(c)其中***或引入位点下游没有上游开放阅读框(uORF)。
在上述生成感兴趣的核酸分子表达水平增加的细胞或生物体方法的另一实施方案中,所述启动子激活核酸序列于受体启动子转录起始位点上游位置***或引入,在-91到-1、-53到-1或-43到-1之间,或于受体启动子转录起始位点下游位置***或引入,在+1到+91、+1到+50或+1到+42之间。
在上述生成感兴趣的核酸分子表达水平增加的细胞或生物体方法的一个优选实施方案中,在受体启动子转录起始位点上游或下游位置***或引入所述启动子激活核酸序列,其中所述一或多个连续延伸段与起始密码子之间的距离是至少70个核苷酸,优选至少100个核苷酸,更优选至少120个核苷酸。
在一个实施方案中,所述启动子激活核酸序列的长度为6-70个核苷酸,优选7-60个核苷酸,更优选8-40个核苷酸且最优选9-20个核苷酸。
在一个实施方案中,在步骤iiia)或iiib)中如上面实施方案中任一项所述***或引入的启动子激活核酸序列包括分离自供体启动子的一个或多个连续核苷酸延伸段,或由其组成,其中该供体启动子是具有高表达水平的基因启动子。
具有高表达水平的基因表达水平与约250个最活跃基因的表达水平相当,如S-腺苷甲硫氨酸脱羧酶2(SAM2,GRMZM2G154397)。优选地,基因在不同组织或不同基因组和/或环境条件下具有>1000的平均FPKM值。
在另一个实施方案中,上述一个或多个连续延伸段各自与供体启动子的核心启动子序列在核心启动子全长上相同或至少90%、91%、92%、93%、94%、95%、96%、97%、98%或99%相同。
在另一实施方案中,上面实施方案中任一项所述的一个或多个连续延伸段各自与相对供体启动子转录起始位点-50位到+20位的相同长度序列在各延伸段全长上相同或至少90%、91%、92%、93%、94%、95%、96%、97%、98%或99%相同。
在另一实施方案中,上面实施方案中任一项所述的一个或多个连续延伸段各自包括至少6个、至少7个、至少8个、至少9个或至少10个核苷酸或者具有6个或更多核苷酸的长度。
在另一实施方案中,上面实施方案中任一项所述步骤iiia)或iiib)中***或引入的启动子激活核酸序列包括供体启动子的一个或多个TATA盒基序。
在另一实施方案中,上面实施方案中任一项所述步骤iiia)或iiib)中***或引入的启动子激活核酸序列与SEQ ID NO:1-30、GTATAAAAG(E59)、CTATAAATA(E59a)、CTATATATA(E59b)、CTATAAAAA(E59c)和CTATATAAA(E59d)序列之一,优选在全长启动子激活核酸序列上,优选SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ IDNO:12、SEQ ID NO:13、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ IDNO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22、SEQ ID NO:23、SEQ ID NO:24、SEQ IDNO:25、SEQ ID NO:26、SEQ ID NO:27、SEQ ID NO:28、SEQ ID NO:29、SEQ ID NO:30、GTATAAAAG(E59)、CTATAAATA(E59a)、CTATATATA(E59b)、CTATAAAAA(E59c)和CTATATAAA(E59d),尤其优选SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22、SEQ ID NO:23、SEQ ID NO:24、SEQ IDNO:25、SEQ ID NO:26、SEQ ID NO:27、SEQ ID NO:28、SEQ ID NO:29、SEQ ID NO:30、GTATAAAAG(E59)、CTATAAATA(E59a)、CTATATATA(E59b)、CTATAAAAA(E59c)和CTATATAAA(E59d)有至少75%、80%、85%、90%、95%、96%、97%、98%或99%的序列相同性。
在上述方法的另一实施方案中,所述受体启动子和/或供体启动子是植物启动子。
在另一实施方案中,所述受体启动子和供体启动子不同和/或源自同一物种或来自不同物种。
在一个实施方案中,上述方法的实施方案中任一项所述植物或植物细胞或植物启动子源自选自以下的属:大麦属、高粱属、甘蔗属、玉蜀黍属、狗尾草属、水稻属、小麦属、黑麦属、黑小麦属、苹果属、短柄草属、山羊草属、胡萝卜属、甜菜属、桉属、烟草属、茄属、咖啡属、葡萄属、Erythrante、螺旋狸藻属、黄瓜属、Marus、拟南芥属、须弥芥属、碎米荠属、独行菜属、荠属、Olmarabidopsis、筷子芥属、芸苔属、芝麻菜属、萝卜属、柑橘属、麻风树属、杨属、苜蓿属、鹰咀豆属、木豆属、菜豆属、大豆属、棉属、黄芪属、莲属、蝴蝶草属、葱属或向日葵属,优选植物或植物细胞或植物启动子源自选自以下的种:大麦、球茎大麦、两色高粱、甘蔗、包括玉米在内的玉蜀黍、小米、小粒稻、水稻、澳洲野生稻、高秆野生稻、普通小麦、硬粒小麦、黑麦、黑小麦、苹果、紫短柄草、海滨大麦、节节麦、Daucus glochidiatus、包括甜菜在内的甜菜种、小胡萝卜、Daucus muricatus、胡萝卜(Daucus carota)、巨桉、美花烟草、绒毛状烟草、烟草、本氏烟草、番茄,马铃薯、中果咖啡、葡萄、Erythrante guttata、螺旋狸藻、黄瓜、Marus notabilis、Arabidopsis arenosa、深山南芥、拟南芥、喜马拉雅鼠耳芥、卵叶须弥芥、弯曲碎米荠、北美独行菜、荠菜、Olmarabidopsis pumila、筷子芥、欧洲油菜、甘蓝、芜菁、萝卜、芥菜、黑芥、芝麻菜亚种sativa、甜橙、麻风树、毛果杨、蒺藜状苜蓿、山下鹰嘴豆、Cicer bijugum、鹰嘴豆、网状鹰嘴豆、Cicer judaicum、木豆、蔓草虫豆、菜豆,大豆、棉花、紫云英、百脉根、夏堇、洋葱、葱、蒜、向日葵、菊芋和/或韭菜。
另一方面,本发明提供生成感兴趣的核酸分子表达水平增加的转基因细胞或转基因生物体的方法,所述方法包括:
i)转化或转染细胞,采用上面实施方案中任一项所述的启动子激活核酸序列、上述嵌合启动子、上述递送***、或上述核酸构健体或表达盒、或上述载体;和
ii)任选地,从转基因细胞或其转基因后代再生转基因生物体,和
iii)获得感兴趣的核酸分子表达水平增加的转基因细胞或转基因生物体。
在上述方法的一个实施方案中,所述细胞或生物体是植物细胞或植物或其后代,优选其中所述植物源自选自以下的属:大麦属、高粱属、甘蔗属、玉蜀黍属、狗尾草属、水稻属、小麦属、黑麦属、黑小麦属、苹果属、短柄草属、山羊草属、胡萝卜属、甜菜属、桉属、烟草属、茄属、咖啡属、葡萄属、Erythrante、螺旋狸藻属、黄瓜属、Marus、拟南芥属、须弥芥属、碎米荠属、独行菜属、荠属、Olmarabidopsis、筷子芥属、芸苔属、芝麻菜属、萝卜属、柑橘属、麻风树属、杨属、苜蓿属、鹰咀豆属、木豆属、菜豆属、大豆属、棉属、黄芪属、莲属、蝴蝶草属、葱属或向日葵属,优选植物或植物细胞源自选自以下的种:大麦、球茎大麦、两色高粱、甘蔗、包括玉米在内的玉蜀黍、小米、小粒稻、水稻、澳洲野生稻、高秆野生稻、普通小麦、硬粒小麦、黑麦、黑小麦、苹果、紫短柄草、海滨大麦、节节麦、Daucus glochidiatus、包括甜菜在内的甜菜种、小胡萝卜、Daucus muricatus、胡萝卜(Daucus carota)、巨桉、美花烟草、绒毛状烟草、烟草、本氏烟草、番茄,马铃薯、中果咖啡、葡萄、Erythrante guttata、螺旋狸藻、黄瓜、Marus notabilis、Arabidopsis arenosa、深山南芥、拟南芥、喜马拉雅鼠耳芥、卵叶须弥芥、弯曲碎米荠、北美独行菜、荠菜、Olmarabidopsis pumila、筷子芥、欧洲油菜、甘蓝、芜菁、萝卜、芥菜、黑芥、芝麻菜亚种sativa、甜橙、麻风树、毛果杨、蒺藜状苜蓿、山下鹰嘴豆、Cicer bijugum、鹰嘴豆、网状鹰嘴豆、Cicer judaicum、木豆、蔓草虫豆、菜豆,大豆、棉花、紫云英、百脉根、夏堇、洋葱、葱、蒜、向日葵、菊芋和/或韭菜。
在上述任何方法中,感兴趣的核酸分子优选是作物性状基因,其任选自编码非生物胁迫(包括干旱胁迫、渗透胁迫、高温胁迫、低温胁迫、氧化胁迫、重金属胁迫、氮缺乏、磷缺乏、盐胁迫或水浸、除草剂抗性,包括抗草甘膦、草铵膦/草丁膦、潮霉素、2,4-D抗性或耐受性、原卟啉原氧化酶(PPO)抑制剂、ALS抑制剂和麦草畏)抗性或耐受性的核酸分子、编码生物胁迫抗性或耐受的核酸分子(包括病毒抗性基因、真菌抗性基因、细菌抗性基因、昆虫抗性基因)或编码产量相关性状(包括耐倒伏性、花期、抗脱粒性、种子颜色、胚乳组成或营养成分)的核酸分子。特定的优选示例是ZmZEP1(SEQ ID NO 31)、ZmRCA-beta(SEQ ID NO32)、BvEPSPS(SEQ ID NO 33)和BvFT2(SEQ ID NO 34)。
另一方面,本发明提供可通过上述任何方法获得的细胞或生物体或其后代,优选植物细胞或植物或其后代。
一方面,本发明还涉及上面实施方案中任一项所述的启动子激活核酸序列、上述嵌合启动子、上述递送***、上述核酸构健体或表达盒、或上述载体用于在位点特异性***或引入控制感兴趣的核酸分子表达的受体启动子后,增加细胞或生物体中感兴趣的核酸分子的表达水平的用途。
在一个实施方案中,所述启动子激活核酸序列的长度为6-70个核苷酸,优选7-60个核苷酸,更优选8-40个核苷酸且最优选9-20个核苷酸。
在另一实施方案中,上述启动子激活核酸序列包括一个或多个连续核苷酸延伸段,或由其组成,所述核苷酸分离自供体启动子,其中该供体启动子是具有高表达水平的基因启动子。
具有高表达水平的基因表达水平与约250个最活跃基因的表达水平相当,如S-腺苷甲硫氨酸脱羧酶2(SAM2,GRMZM2G154397)。优选地,基因在不同组织或不同基因组和/或环境条件下具有>1000的平均FPKM值。
在另一个实施方案中,上述一个或多个连续延伸段各自与供体启动子的核心启动子序列在核心启动子全长上相同或至少90%、91%、92%、93%、94%、95%、96%、97%、98%或99%相同。
在另一实施方案中,上面实施方案中任一项所述的一个或多个连续延伸段各自与相对供体启动子转录起始位点-50位到+20位的相同长度序列在各延伸段全长上相同或至少90%、91%、92%、93%、94%、95%、96%、97%、98%或99%相同。
在另一实施方案中,上面实施方案中任一项所述的一个或多个连续延伸段各自包括至少6个、至少7个、至少8个、至少9个或至少10个核苷酸或者具有6个或更多核苷酸的长度。
在另一实施方案中,上面实施方案中任一项所述的启动子激活核酸序列包括供体启动子的一个或多个TATA盒基序。
在另一实施方案中,上面实施方案中任一项所述的启动子激活核酸序列与SEQ IDNO:1-30、GTATAAAAG(E59)、CTATAAATA(E59a)、CTATATATA(E59b)、CTATAAAAA(E59c)和CTATATAAA(E59d)序列之一,优选在全长启动子激活核酸序列上,优选SEQ ID NO:1、SEQ IDNO:2、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ IDNO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ IDNO:21、SEQ ID NO:22、SEQ ID NO:23、SEQ ID NO:24、SEQ ID NO:25、SEQ ID NO:26、SEQ IDNO:27、SEQ ID NO:28、SEQ ID NO:29、SEQ ID NO:30、GTATAAAAG(E59)、CTATAAATA(E59a)、CTATATATA(E59b)、CTATAAAAA(E59c)和CTATATAAA(E59d),尤其优选SEQ ID NO:15、SEQ IDNO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ IDNO:22、SEQ ID NO:23、SEQ ID NO:24、SEQ ID NO:25、SEQ ID NO:26、SEQ ID NO:27、SEQ IDNO:28、SEQ ID NO:29、SEQ ID NO:30、GTATAAAAG(E59)、CTATAAATA(E59a)、CTATATATA(E59b)、CTATAAAAA(E59c)和CTATATAAA(E59d)有至少75%、80%、85%、90%、95%、96%、97%、98%或99%的序列相同性。
在一个实施方案中,上面实施方案中任一项所述的启动子激活核酸序列用于在位点特异性***或引入后增加细胞或生物体中感兴趣的核酸分子的表达水平,其中所述细胞或生物体是植物细胞或植物。
在另一实施方案中,所述受体启动子和/或供体启动子是植物启动子。
在另一实施方案中,所述受体启动子和供体启动子不同和/或源自同一物种或来自不同物种。
在上述用途的一个实施方案中,上面实施方案中任一项所述的植物或植物细胞或植物启动子,源自选自以下的属:大麦属、高粱属、甘蔗属、玉蜀黍属、狗尾草属、水稻属、小麦属、黑麦属、黑小麦属、苹果属、短柄草属、山羊草属、胡萝卜属、甜菜属、桉属、烟草属、茄属、咖啡属、葡萄属、Erythrante、螺旋狸藻属、黄瓜属、Marus、拟南芥属、须弥芥属、碎米荠属、独行菜属、荠属、Olmarabidopsis、筷子芥属、芸苔属、芝麻菜属、萝卜属、柑橘属、麻风树属、杨属、苜蓿属、鹰咀豆属、木豆属、菜豆属、大豆属、棉属、黄芪属、莲属、蝴蝶草属、葱属或向日葵属,优选植物或植物细胞或植物启动子源自选自以下的种:大麦、球茎大麦、两色高粱、甘蔗、包括玉米在内的玉蜀黍、小米、小粒稻、水稻、澳洲野生稻、高秆野生稻、普通小麦、硬粒小麦、黑麦、黑小麦、苹果、紫短柄草、海滨大麦、节节麦、Daucus glochidiatus、包括甜菜在内的甜菜种、小胡萝卜、Daucus muricatus、胡萝卜(Daucus carota)、巨桉、美花烟草、绒毛状烟草、烟草、本氏烟草、番茄,马铃薯、中果咖啡、葡萄、Erythrante guttata、螺旋狸藻、黄瓜、Marus notabilis、Arabidopsis arenosa、深山南芥、拟南芥、喜马拉雅鼠耳芥、卵叶须弥芥、弯曲碎米荠、北美独行菜、荠菜、Olmarabidopsis pumila、筷子芥、欧洲油菜、甘蓝、芜菁、萝卜、芥菜、黑芥、芝麻菜亚种sativa、甜橙、麻风树、毛果杨、蒺藜状苜蓿、山下鹰嘴豆、Cicer bijugum、鹰嘴豆、网状鹰嘴豆、Cicer judaicum、木豆、蔓草虫豆、菜豆,大豆、棉花、紫云英、百脉根、夏堇、洋葱、葱、蒜、向日葵、菊芋和/或韭菜。
在另一实施方案中,上面实施方案中任一项所述的启动子激活核酸序列用于使感兴趣的核酸分子表达水平相较于没有***或引入启动子激活核酸序列时受体启动子控制下的感兴趣的核酸分子表达水平,增加至少2倍、至少3倍、至少4倍或至少5倍,优选至少6倍、至少7倍、至少8倍、至少9倍或至少10倍,更优选至少12倍、至少14倍、至少16倍、至少18倍或至少20倍,甚至更优选至少25倍、至少30倍、至少35倍或至少40倍且最优选大于40倍。
上面实施方案中任一项所述的用途优选用于增加作物性状基因表达,其优选选自编码非生物胁迫(包括干旱胁迫、渗透胁迫、高温胁迫、低温胁迫、氧化胁迫、重金属胁迫、氮缺乏、磷缺乏、盐胁迫或水浸、除草剂抗性,包括抗草甘膦、草铵膦/草丁膦、潮霉素、2,4-D抗性或耐受性、原卟啉原氧化酶(PPO)抑制剂、ALS抑制剂和麦草畏)抗性或耐受性的核酸分子、编码生物胁迫抗性或耐受的核酸分子(包括病毒抗性基因、真菌抗性基因、细菌抗性基因、昆虫抗性基因)或编码产量相关性状(包括耐倒伏性、花期、抗脱粒性、种子颜色、胚乳组成或营养成分)的核酸分子。特定的优选示例是ZmZEP1(SEQ ID NO 31),ZmRCA-beta(SEQID NO 32),BvEPSPS(SEQ ID NO 33)和BvFT2(SEQ ID NO 34)。
实施例1:鉴定和测试启动子激活序列
图2显示鉴定和测试启动子激活性DNA序列策略的概述图。所述过程分成4步:
步骤1:鉴定适合用作调节DNA元件来源的基因
必须鉴定在大部分组织和大部分条件下具有高表达水平的基因。这可通过分析RNAseq或微阵列表达数据来完成。在玉米(玉蜀黍)情况中,这类数据可参见例如Stelpflug等,2016(Plant Genome.2016年3月;9(1).doi:10.3835/plantgenome2015.04.0025)。例如,在玉米(表6a)和甜菜(表6b)中鉴定了一些有高表达水平的基因。
表6a:适合作为启动子激活核酸序列来源的玉米基因
基因标识符 描述
GRMZM2G154397 sam2-S-腺苷甲硫氨酸脱羧酶2
GRMZM2G091155 高粱GRF7(通用调控因子7)同源物
GRMZM2G144030 tif5A-真核翻译起始因子5A
GRMZM2G102499 grf1-通用调控因子1
GRMZM2G116034 eif4-真核起始因子4
GRMZM2G108474 PTHR11991-翻译控制肿瘤蛋白相关
GRMZM2G105996 ADP-核糖基化因子1
GRMZM2G067985 ACTIN//未命名亚家族
GRMZM2G419891 ubi2-泛素2
GRMZM2G409726 ubi1-泛素1
GRMZM2G113696 eif5a-延伸起始因子5A
GRMZM2G046804 gpc1-甘油醛-3-磷酸脱氢酶1
GRMZM2G180625 gpc2-甘油醛-3-磷酸脱氢酶2
GRMZM2G134980 rz474a(dnaj)假定分子伴侣
表6b:适合作为启动子激活核酸序列来源的甜菜基因
Figure BDA0002700662040000321
Figure BDA0002700662040000331
步骤2:用作启动子激活核酸序列来源的基因中转录起始位点(TSS)和核心启动子的注释
需要鉴定这些基因的TSS和核心启动子。鉴定TSS能通过技术如5-prime标记测序完成,该技术可获自测序供应商如欧陆集团(eurofins)。就玉米,基因型B73生成这类数据集。玉米启动子序列随后能选择为相对于TSS的约-50到+20序列,优选约-45到+15(见上表1)。根据转录起始的广阔性,选定序列可变。
步骤3:在瞬时表达***中测试60bp候选DNA元件
待激活的靶启动子克隆到报告构建体中,在合适报告基因如NLuc前面(Masser,A.E.,Kandasamy,G.,Kaimal,J.M.,和Andréasson,C.(2016)《荧光素酶NanoLuc作为酿酒酵母中基因表达和蛋白水平的报告基因》(Luciferase NanoLuc as a reporter for geneexpression and protein levels in Saccharomyces cerevisiae).Yeast,33:191–200.doi:10.1002/yea.3155.)(图3)。处于35S启动子控制下的第二报告基因(Luc)用于标准化。
随后,60bp DNA元件在靶基因TSS上游或下游位置***靶启动子,这可通过步骤2所述策略确定。
测试***激活性DNA元件的不同位置。这些实验的结果允许定义下列选择***位点的规则:
·***位点不是任意的。激活取决于选择正确的***位点。
·选择离靶基因TSS上游太远的***位点(大于500bp)导致激活损失。
·选择离靶基因起始密码子太近的***位点(~70-50bp)导致激活损失。
·***的下游的uORF导致激活损失。
通过例如叶组织的粒子轰击、愈伤组织的粒子轰击、根组织的粒子轰击、原生质体转染、农杆菌介导的瞬时转化进行瞬时测试,能够测量通过添加60bp DNA元件引起的激活水平。约93%的添加序列引起表达增加(图4)。
大部分情况中,表现最佳的60bp核心启动子序列包含TATA盒。然而,我们的分析显示在TATA盒基序强度与候选物激活特性之间没有紧密关联(表7)。
表7:获自玉米启动子的所分析60bp候选物的TATA盒基序分析。相对分≤0.8表明不存在TATA盒。
Figure BDA0002700662040000332
Figure BDA0002700662040000341
然而,实验显示大部分情况中,含TATA盒基序的≤20bp DNA元件是具有最强激活特性的元件。因此,也能直接选择和测试含TATA盒基序的20bp候选DNA元件,而不是用60bp序列开始。然而,不是所有激活性60bp DNA元件都包含TATA盒,因而TATA较少的20bp元件也可行。
步骤4:缩短候选DNA元件到≤20bp并评价瞬时表达中的激活能力
20bp候选序列能通过缺失分析来鉴定。制备缺失构建体用于数个表现最佳的60bp序列,理想上通过从5’和3’末端重复删除10个减基。然后,这些缩短的序列通过与步骤3中60bp序列所述相同的策略测试。
序列缩短能导致激活潜能损失。通过这种逐步方法,鉴定保留高激活潜能的≤20bp序列。采用这种方法,鉴定新的20bp激活元件E53b、E55a和E56a,且证明能进一步缩短这些序列,同时保留激活潜能(参见上表2)。
由此方法鉴定的元件能以可比较方式激活不同靶基因。例如,元件E53b***3个不同玉米性状基因的启动子。这些性状基因的活化在轰击玉米叶的瞬时试验中测量。Zm启动子1被E56a激活13倍,Zm启动子2被E56a激活18倍且Zm启动子3被E56a激活12倍(图5)。
所鉴定元件的激活特性可如下进一步优化:选择最优20bp框架(参见表3的E53e)或组合初始60bp序列的不同部分(参见表3的E53f,组合含TATA盒基序的10bp元件与5’末端的10bp元件)。例如,元件E53b的优化形式如表3所示。
实施例2:稳定的农杆菌介导玉米转化以用萤光素酶报告基因鉴定基因组背景下 的表达激活性DNA元件
为分析小DNA元件在基因组DNA和染色质结构背景下的表达激活效果,通过农杆菌稳定转化玉米。以下描述所用双元载体和方法以分析转基因玉米植株。
启动子Zm-prom1或经修饰启动子Zm-prom1+E55a驱动报告基因NLuc(Nano萤光素酶)表达,这允许通过萤光素酶试验测量玉米转化子的Zm-prom1活性。在经修饰启动子Zm-prom1+E55a中,激活性DNA元件E55a在初始TSS(转录起始位点)下游88bp以及NLuc起始密码子上游122bp整合。由于在35S启动子控制下表达的第二报告基因萤光素酶的存在,NLuc信号的标准化是可能的。这种***能够仔细评估Zm-prom1或Zm-prom1+E55a活性,尽管基于玉米基因组中不同***位点有影响。PAT基因用作选择标记。分析用构建体pKWS399_35S:Luci_Zm-prom1:NLuc(图6)和pKWS399_35S:Luci_Zm-prom1+E55a:NLuc(图7)转化的转基因玉米植株的NLuc和萤光素酶活性(图12A)以及NLuc和萤光素酶转录水平(图12C)。在16个用构建体pKWS399_35S:Luci_Zm-prom1:NLuc转化的独立玉米株系和15个用构建体pKWS399_35S:Luci_Zm-prom1+E55a:NLuc转化的独立玉米株系中测量NLuc报告基因的信号。表达激活性20bp DNA元件E55a引起表达平均增加250倍(图12A)。选择4和5个独立玉米株系来定量NLuc转录物水平,显示激活性元件E55a引起平均增加63倍(图12C)。
实施例3:稳定的农杆菌介导的玉米转化以通过评价玉米基因表达来鉴定基因组 背景下的表达激活性DNA元件
为分析小DNA元件在基因组背景和染色质结构下的表达激活效果,通过农杆菌稳定转化玉米。以下描述所用双元载体和方法以分析转基因玉米植株。
启动子Zm-prom1或经修饰启动子Zm-prom1+E55a驱动其自身内源玉米基因Zm1的表达。克隆Zm1的全基因组基因座。在经修饰的启动子Zm-prom1+E55a中,激活性DNA元件E55a在初始TSS(转录起始位点)下游88bp以及Zm1起始密码子上游111bp整合。PAT基因用作选择标记。分析用构建体pKWS399_35S:Luci_Zm-prom1:Zm1-基因组(图8)和pKWS399_35S:Luci_Zm-prom1+E55a:Zm1-基因组(图9)转化的转基因玉米植株的Zm1转录物(图12B和图12C)和蛋白水平。通过qRT-PCR分析Zm1表达显示,玉米株系有额外Zm1基因座拷贝(分析了13个玉米株系),相较于对照株系展现出1.9倍的Zm1转录物水平增加。存在激活性20bp DNA元件E55a进一步使得Zm1转录物水平相较于用在其天然产生基因组序列前的未修饰的Zm-prom1转化的玉米株系,增加4倍(分析了9个玉米株系)(图12B)。用NLuc报告构建体转化的玉米株系与用Zm1基因组序列转化的玉米株系的qRT-PCR数据比较显示,尽管同一序列克隆作为启动子,Zm1转录物相较于NLuc转录物的表达强28倍。激活性DNA元件E55a使NLuc和Zm1的表达增加到相当水平(图12C)。
实施例4:靶向***小激活性DNA元件(一个环形载体)
对于通过同源重组(HR)携带待***元件(如E55a)的构建体来靶向***小激活性DNA元件,可采用侧翼是应***元件的各启动子的合适同源区。原则上,在感兴趣的细胞基因组中可使用任何靶区域、感兴趣的启动子或甚至待改变的感兴趣的核酸。在此,示范性靶启动子是启动子Zm-prom1。除了元件E55a,可以使用另一小激活性DNA元件。
另外,载体包含CRISPR核酸酶,尤其包括Cas或Cpf、CasX或CasY,编码序列作为效应核酸酶以及与靶启动子Zm-prom1中特定区域(其中应该发生***)匹配的对应的sgRNA或crRNA。WT玉米植株的基因编辑能如下进行:使用稳定的农杆菌介导的转化,接着是稍后隔离基因编辑工具,或采用瞬时方式。
为检查基于HR的修复是否发生,植物易通过基于可用序列信息的PCR和扩增子测序来分析。为验证小激活性DNA元件表达的激活效果,进行对转录物和/或蛋白水平的研究。
实施例5:靶向***小激活性DNA元件(二个环形载体)
对于通过同源重组(HR)携带待***元件(如E55a)的构建体来靶向***小型激活性DNA元件,可采用侧翼是应***所述元件的各启动子的合适同源区。原则上,在感兴趣细胞基因组中可使用任何靶区域、感兴趣启动子或甚至待改变的感兴趣核酸。在此,示范性靶启动子是启动子Zm-prom1。能使用另一小激活性DNA元件,而不是元件E55a。
另外,第二载体编码Cas或Cpf效应子或任何其他CRISPR核酸酶,作为位点特异性核酸酶和与靶启动子Zm-prom1中特定区域(其中应该发生***)匹配的sgRNA/crRNA。WT玉米植株的基因编辑能用如下进行:使用稳定的农杆菌介导转化,接着是稍后隔离基因编辑工具,或采用瞬时方式。
为检查基于HR的修复是否发生,植物易通过基于可用序列信息的PCR和扩增子测序来分析。为验证小激活性DNA元件表达的激活效果,进行对转录物和/或蛋白水平的研究。
实施例6:初始TATA盒转换成来自激活性DNA元件的TATA盒
感兴趣启动子(如Zm-prom1)的初始TATA盒交换特定TATA盒,作为小激活性DNA元件(如E59)的一部分。所述交换位于TSS上游23bp(此情况中给定碱基TGA)。
初始Zm-prom1 TATA盒:
TTATTATTANNNNNNNNNNNNNNNNNNNNNNNTGA(SEQ ID NO:35)
初始Zm-prom1 TATA盒转换成E59(Zm-prom1v3):
GTATAAAAGNNNNNNNNNNNNNNNNNNNNNNNTGA(SEQ ID NO:36)
效果在基于玉米叶轰击的瞬时试验***中测量,采用各启动子-报告构建体,然后是荧光素酶测量。
经修饰的启动子Zm-prom1v3相较于未修饰的Zm-prom1激活9,75倍。为了比较,另外显示在初始TSS下游再***E59(Zm-prom1+E59)的结果(见图10A)。
实施例7:产生激活性DNA元件的序列的碱基编辑
碱基编辑蛋白偶联催化受损的Cas或Cpf效应子或任何其他CRISPR核酸酶,能介导C-G到T-A和A-T到G-C的靶向转变,这是通过使用发展成处理DNA的胞嘧啶脱氨酶或腺嘌呤脱氨酶(Gaudelli等,Nature,551,464-471,2017年11月)。
这些工具用于在适当激活位置将感兴趣启动子序列(如Zm-prom1或ZmSBPase(SEQID NO:52))转换成小激活性DNA元件序列。这可以是例如感兴趣的启动子的初始TATA盒转换成特定TATA盒,作为小激活性DNA元件的一部分,或这可以是在适合引入激活性DNA元件的核心启动子周围位置的其他碱基对。待恢复的序列可以是小激活性DNA元件序列或仅是其部分。
此实施例中,我们靶向ZmSBPase翻译起始位点上游约200bp的2个胞嘧啶,用于通过碱基编辑变成胸腺嘧啶以建立表达激活性DNA元件。
初始ZmSBPase启动子序列的靶区域(来自SEQ ID NO:52中474位-497位的核苷酸):
CAGCTCCAAATGGCGCCATCGCGG(SEQ ID NO:53)
ZmSBPase启动子序列的编辑靶区域,ZmSBPase_v1(2C→T交换):
CAGCTTTAAATGGCGCCATCGCGG(SEQ ID NO:54)
ZmSBPase启动子序列的编辑靶区域,ZmSBPase_v4(1C→T交换):
CAGCTCTAAATGGCGCCATCGCGG(SEQ ID NO:55)
ZmSBPase启动子序列的编辑靶区域,ZmSBPase_v5(1C→T交换):
CAGCTTCAAATGGCGCCATCGCGG(SEQ ID NO:56)
在瞬时***(玉米叶轰击然后荧光素酶测定)中测试启动子修饰,在两个C都变成T后产生11倍的ZmSBPase启动子活性增加(图13A)。分析经NGS用各碱基编辑构建体转化进行基因组编辑的转基因玉米愈伤组织。展现16%的基因组编辑(两个C都变成T)的愈伤组织样品应显示1.76倍的ZmSBPase表达增加,这推断自瞬时试验的量度。通过qRT-PCR的愈伤组织表达分析通过显示ZmSBPase转录物水平增加1.59倍(图13B)证明此计算。我们进一步分析再生自基因组编辑愈伤组织的玉米芽。这些芽显示2种相关胞嘧啶中平均20%的基因组编辑,并且都确认ZmSBPase转录物水平相较于没有基因组编辑的对照增加(图13C)。
实施例8:初始TATA盒转换成激活性DNA元件
感兴趣的启动子(如ZmZEP1)的初始TATA盒转换成小激活性DNA元件(如E59、E53f、E55a),通过位点特异性突变(碱基编辑)进行。转换位于TSS上游~33bp(此情况中给定碱基CAA)。
初始ZmZEP1 TATA盒:
AAGATAAAATCCTGGTCCAGCAAGATCCGTTCTTCCAA(SEQ ID NO:37)
初始ZmZEP1 TATA盒转换成激活性DNA元件E59(ZmZEP1v1):
AAGTATAAAAGTCCTGGTCCAGCAAGATCCGTTCTTCCAA(SEQ ID NO:38)
初始ZmZEP1 TATA盒转换成激活性DNA元件E53f(ZmZEP1v2):
AAGCTATAAAGAGCATCCCTTCAAGATCCGTTCTTCCAA(SEQ ID NO:39)
初始ZmZEP1 TATA盒转换成激活性DNA元件E55a(ZmZEP1v3):
AAGCTATAAAATATCCCCACGCAAGATCCGTTCTTCCAA(SEQ ID NO:40)
效果在基于玉米叶轰击的瞬时试验***中测量,采用各启动子-报告构建体,然后是荧光素酶检测(见图10C)。
经修饰的启动子ZmZEP1v1相较于未修饰的ZmZEP1启动子激活5,9倍,经修饰的启动子ZmZEP1v2激活15,6倍且经修饰的启动子ZmZEP1v3激活10,5倍。为了比较,另外显示在初始TSS下游再***E53b(ZmZEP1+E53b)的结果。
元件E59仅由TATA盒组成,这推断自JASPAR数据库中存放的矩阵模型[http://jaspar.genereg.net/]。TATA盒形式E59a代表单子叶植物TATA盒的完美共有序列(也参见图11C),形式E59b-d通过考虑矩阵模型而略修饰[Shahmuradov IA,Gammerman AJ,HancockJM,Bramley PM,Solovyev VV(2003)《PlantProm:植物启动子序列数据库》(PlantProm:adatabase of plant promoter sequences).Nucleic acids research 31:114–117)。
图10B中,***玉米靶启动子时,元件E59和E59a-d的激活能力比较(见表4)清楚显示,元件E59a赋予最高激活。这与代表单子叶植物TATA盒完美共有序列的元件E59a一致。
实施例9:启动子激活性DNA元件在其来源以外的植物物种中有功能
同样如实施例2和实施例3所述20bp DNA元件E55a的激活能力在更多植物启动子中测试。所述源自玉米启动子的元件不仅能激活其他玉米启动子,还使已高度活跃的BvEPSPS启动子激活5.3倍(图14)。
SEQUENCE LISTING
<110> 科沃施种子欧洲股份两合公司
<120> 增加细胞中感兴趣的核酸分子表达水平的方法
<130> KWS0289PCT
<150> EP18164080.6
<151> 2018-03-26
<160> 56
<170> PatentIn version 3.5
<210> 1
<211> 57
<212> DNA
<213> Zea mays
<400> 1
aacccggacc cggtaggaag gagctataaa gacaagccaa acgagggcat cccttct 57
<210> 2
<211> 57
<212> DNA
<213> Zea mays
<400> 2
cgctataaaa tatccccacg ctgcttcgcc ctgcccacca cagcatccgc agttccc 57
<210> 3
<211> 57
<212> DNA
<213> Zea mays
<400> 3
tgctgttagc ggtataaaaa gcggaaaccc tagcattcgc cgcgagctta tcactta 57
<210> 4
<211> 60
<212> DNA
<213> Zea mays
<400> 4
gggactcggc gacaggcctt ttgtagaccg cagccggcac catctcttgc cgcacccccc 60
<210> 5
<211> 60
<212> DNA
<213> Zea mays
<400> 5
cccctcttaa aagccgcctc tcgccgccgc ccgcaaaccc tcatttttct ctctcctgcg 60
<210> 6
<211> 60
<212> DNA
<213> Zea mays
<400> 6
ccaccataaa tgcgccgcgg ccgtcctcgc tgcccaaccc ttgctcgctg cgccgccgcc 60
<210> 7
<211> 60
<212> DNA
<213> Zea mays
<400> 7
ggcgttaata tctcccctcc cttccctctt ctggtctccg ccccgctcct tgcctccgat 60
<210> 8
<211> 60
<212> DNA
<213> Zea mays
<400> 8
cgtttttttt acgctgtcaa tgcataacct gcgttggcat tccgcctgct ggacttcctc 60
<210> 9
<211> 60
<212> DNA
<213> Zea mays
<400> 9
cgcccgccgt cataaatagc cagccccatc cccagcttct ttccccaacc tcatcttctc 60
<210> 10
<211> 60
<212> DNA
<213> Zea mays
<400> 10
cgcccgccgt aataaataga caccccctcc acaccctctt tccccaacct cgtgttgttc 60
<210> 11
<211> 60
<212> DNA
<213> Zea mays
<400> 11
tgctgctagc agtataaata tgctgaaagc ctgaaaccct aggcgaagct tatcgcttat 60
<210> 12
<211> 60
<212> DNA
<213> Zea mays
<400> 12
gtcggcttta aaaggacacg agcgcttaaa cccccacccc atatccgcat ccgctgcctc 60
<210> 13
<211> 60
<212> DNA
<213> Zea mays
<400> 13
gccggcttta aaaacgcaca caagcgctaa aaccctctcc accgtccacc tcagctccca 60
<210> 14
<211> 60
<212> DNA
<213> Zea mays
<400> 14
cccgactaca tcaaccaacg cgtatcggcg gtggcaaacc ctctagcttc ccactccgct 60
<210> 15
<211> 20
<212> DNA
<213> Zea mays
<400> 15
tataaagaca agccaaacga 20
<210> 16
<211> 20
<212> DNA
<213> Zea mays
<400> 16
gctataaaat atccccacgc 20
<210> 17
<211> 20
<212> DNA
<213> Zea mays
<400> 17
gtataaaaag cggaaaccct 20
<210> 18
<211> 20
<212> DNA
<213> Zea mays
<400> 18
gctataaaga caagccaaac 20
<210> 19
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> fusion of two contiguous streches of E53
<400> 19
gctataaaga gcatcccttc 20
<210> 20
<211> 60
<212> DNA
<213> Beta vulgaris
<400> 20
atgtaaaaaa aaagcttata taaagggaat cagacatgag gttttggcat aaaaactatc 60
<210> 21
<211> 60
<212> DNA
<213> Beta vulgaris
<400> 21
ccccctcacc cctacatata caccactctc tccttcaatc ttcttcatca ctctcatttt 60
<210> 22
<211> 60
<212> DNA
<213> Beta vulgaris
<400> 22
gcgtaattat gaacgttata taaaccggtt acaattacaa cctatcacac caaaaagcaa 60
<210> 23
<211> 60
<212> DNA
<213> Beta vulgaris
<400> 23
ccacctcctt caaacctatt tatactccct cacctccttc actacctcct cgcttcaccc 60
<210> 24
<211> 60
<212> DNA
<213> Beta vulgaris
<400> 24
tctacacttc ctttagtata tttagcctca aattactact ggtcacttat acatttctca 60
<210> 25
<211> 60
<212> DNA
<213> Beta vulgaris
<400> 25
gtcggtcaaa caagtcttta aatacagcct attcccttca ttggtttctc atccttcatt 60
<210> 26
<211> 60
<212> DNA
<213> Beta vulgaris
<400> 26
accctaaaac actccttata taattcactc cctcacattt caatttccgc ctcctatact 60
<210> 27
<211> 60
<212> DNA
<213> Beta vulgaris
<400> 27
gtttctctct ctctccttta aataaaaccc taactttctt caccactctc actcacactc 60
<210> 28
<211> 60
<212> DNA
<213> Beta vulgaris
<400> 28
cttcctctcc tcaacataat aaaggatagc aagtcacaca ttcaatcgcc tctctctcct 60
<210> 29
<211> 60
<212> DNA
<213> Beta vulgaris
<400> 29
gatactccat ttccattatt taaggagtgc aagtgtgggt gtatgaaagt aaggtaccaa 60
<210> 30
<211> 60
<212> DNA
<213> Beta vulgaris
<400> 30
ttcctcattt ctccagtata agaaccacca ccacccttgt tctcccacaa acgcaaaatc 60
<210> 31
<211> 1754
<212> DNA
<213> Zea mays
<400> 31
atcggaccca aatcatagac acatgatgat ataataacag acaaccaaaa ttgagagtgg 60
caaaatagca aatttctgat agtcatgtga tagagaatag tagacaattt tgacataata 120
tatgtacact aattagtcaa caaaagcgat attgcggtta aaacagtgat tgccagtgtt 180
ttgacccgag tgtcctaacc aaccaataaa gtaaatttat gctatgtgtc ctcgtccaga 240
tggatgatgc aagaagacac aagatttatt ttggttcgga caatagaagg cctactttca 300
gcggaggggg atgggattta tattatcttg cacctaagtg cttgtagtag aaggtacaag 360
ttagtcgaga gagagagaga atcccaactc tctgcggatg attgaggcaa gtgtcaatat 420
cggccgcgga gggcaatagg tgaagtgtat tgtcctcctc ccttgcaagc cttggactcc 480
ttttatagcc ttaatgaggg aatcaaggag taataattag ttgaagactg attaagaaac 540
agtccatctg ttagtttttt tgtttaaata ggctaaagct aattttatct agttcttaat 600
tagctaataa ttattatttc gtaggatcca aaccattcct aagctatagt gctattatat 660
caagtgtaga tctatatgta ctcaaggtca tgatgtttgc aaaccaacaa tgaaatttat 720
cgcacacatt ggtcatggca gatcaacttt tttgccacaa aacaaacaag aatagtgcaa 780
acgaagttgc ataaaatgaa acaatatatt atgtgaatag ttgcatggtt tatcttgcta 840
gttccatttt aacacacaca catatcttgc tagttccatt ttaacttcta cttgcacaat 900
tccaaaagga acctaaattt catttaccga tgagtcacaa gaaacttaga tctaattaaa 960
tttaaagaaa aatagcaata tttatatttt taaatatatt tattataaaa atttatctca 1020
tattctagct aatgatattt attatgcatc ataactatta aatatatagc tatatatata 1080
tatatttcat aagtttcatg ttgtttaact taatagagat ttatattttt agggctagtt 1140
tggcaaacta tttttccaaa ggattttcat ttctataaag aaaattattt ttttaaaaaa 1200
aatagaaatc tcttgaaaga atagaattgt taaactactc ttagacaaat aaagagtatc 1260
cttggttcgt ggctaaccgt atcatatttt atctaagtta gttgttccaa ttaaagaact 1320
aattttatac acaaaagtta agtaaagtat agcaaattag tccgcgaacc aaatatgacc 1380
gaaatatcga ggagtgagga ggcttaaccc ttcccatgtg tgtatctact gttacaccgt 1440
gagctacaaa gttactggca caaacgtata gaggatggtg aggacatggg aagataaaat 1500
cctggtccag caagatccgt tcttccaaat gggatcaggt gattggctcc agttcctcct 1560
cccctcagca ccaccagtct cctccagtcc agctcccgtc ttctccgcct caagagtctc 1620
agaccaacgg caaagttcta gaagcacggt tgcacgggca gcacggcata acacctccct 1680
ccactgatcc agttccagtc gcccaacgcc ccaacgtctt ctcttgcaaa tcgcaagcaa 1740
acttcctgtt cacg 1754
<210> 32
<211> 658
<212> DNA
<213> Zea mays
<400> 32
gttggctact tgagttagat tttggttgtg tttcatcccc acgtacgtcc agcaaagaaa 60
aattgaagct agtgcatgca tggttcgtca tcaaatgcat ggccggccgg atacaaattt 120
gaactgtagc tatcgacgta cgcatgtatt aatttatatc agagaagaca aggaacacag 180
atacatacat gtcgaaacaa tcattttcta tggcacttga gctagctagc atacaatttt 240
gttttaaatg aaatgaaact gaagacgatc gatcgaattg aaggttgtgg ttcgtgagca 300
atgcaatgca gtttcacaga acgttgccaa tgcaacaagc caccaagaaa agagaagtct 360
actcgatctt gcaatgatta ggcttggatg atgcgtgggg ccacgtacgt atggacatcg 420
aagaacccca tcctcagcgt gtggcctgag ggtgatggca aagctgatcc acacattgcg 480
gccccctttc ccccctcaga gaccctgacc tcccgagcac agccagccac cgcgcaacgc 540
cggccaccac caccaccacc atacctgcta gcgctagctc tctttattta acgccgccgt 600
gtgcgtgcct cgacgacctc actactttga gctgcaaggt ccgaactaaa aagcaccg 658
<210> 33
<211> 1700
<212> DNA
<213> Beta vulgaris
<400> 33
tataagttca aacttcaata caggtatttt cgggatgtga ttaccttaca atttctcatt 60
ttcaaagaat tttacctgtg cagctatgtt ggataacctg tgcgagattc cgtttcagta 120
ggacactttt tttttttacc aataaaaaaa aacttataag ttcatgagct aatttttata 180
gatagtttaa agtaccgggt ggaggatgaa tagttgagtt ttttcttcaa aattagatac 240
ttcctccgtt ttttattaga tgttacactt ttcaaatcac ggactcctag gtaatttttg 300
gagaggagag agatagagag aatgaaaaac aaaagggtcc catgtgagta tgtgatagga 360
gagagataga gagaatttat tacccaaaat aaaagtgtaa catctaattc aaaacttcct 420
aaaatagaaa gtgtaacatc taaaaaaaac ggaggaagta tttgaatttg atatagatat 480
tgtgtctttg tgtgtgttga atttcaattc ccagttccct aaaaaaaatt tacaattgca 540
atttcgagat tatgatgtaa attaaatttg agagactaga aagtatttgg tcaacccaaa 600
aaaaaaatat caatacttat ataaatcaaa aacataatag agaatccaat tttactaaaa 660
atattagtaa ttttgattaa aataatctat taaaatgaac tctaaccttc acataatttc 720
cacatattat taatcaacaa aataagcatc acaaattatt agaataggcg atctaatttt 780
aacataaaat tagacgaatt caaattgaat ttttctaaca agctcattcc atttcacgca 840
acccaaaatt atcctagtca gtagtcatcc attcttttct cattccttta ttcttgatta 900
tcgaactaca acagataatt tcaaaaaaaa actaaattgg tagtcttaac tgattaaact 960
acttactaaa tggattaaag aatgtcatta ctgaatagat taaactgatt acgaaataga 1020
ttaacttggt ccctaaatag attaaattag ttactatatt aaaattaggc gatctcttac 1080
aaaaccaact gaataagcat agctctgtat attacctaga tttcaactaa atcaaaaccc 1140
cttacagttc aatctagagc tgatcatttt ggctcggccc gtcccatttt tgggccgggt 1200
tttagtcaga tttttttggc ccgcggtcgg gcccggcccg atttttttgg ctttgggcaa 1260
gccaaaaacg acttttcagt ttattttttg gcccgacccg tttttacccg caaaagcccg 1320
ctaatttagg tccgcacttt gggcacaaaa atttagcccg aacttaaacc tggcccgacc 1380
catgatcacc tctagtttaa tccaaactaa aaaactacac aagttagcca aaaattatgt 1440
ctactttgta caactttata aaatacacac agtagttgat atcttgatga ttaactcctt 1500
ttgaagtttg actacacacc aaccccaaac acacccactt tttcccccct cttgtcacca 1560
accccccctc ctctttagcc accaaagttt ggttggtgag tcctccataa ctgctaaatt 1620
ctctcttttt tctctctcct aaaaaactaa aacccaccaa aatttcagac atcaaaaaaa 1680
ttacaagtga aggaaacaat 1700
<210> 34
<211> 991
<212> DNA
<213> Beta vulgaris
<400> 34
aaagaaggaa aggaaggaat ttgaacatgt gacctatcgt tcacagcacc tcaatcttaa 60
tcactagacc aaaacatcct tggttcttgc gcaagaaggt tggctagaaa ttttttgtaa 120
aaacactagc cccgctcagt tcataatgag aatgtcgatg tcaccaaagg gatattaaat 180
gaatggaatt gggatatgga tggaatataa tgaaatagag ccactttgag gttccctatg 240
aaatgaggca tggaagggag ccactacgaa aaagttccgg gagttacgaa ggaagcttcg 300
agctcatatt ggtcatgaac ccgattactg agtctaataa gttcaattga aaagaaaaag 360
tcttatgttc taaaagaact tttcgtgcgg tttgcatgag ttcatagtcc atataatata 420
atgcaggaat gaagttctca gttgattctt ccacacccgt ccctcacccc ctaggcccca 480
ccttcacccc gccgaaaaaa ataaagaaaa tccaacgtta tttttcttag aaatgacagt 540
ttgatataga aaggaaaaat aataataaaa aaaaaaagtg ttggcgtttt cattttcaac 600
ctcagtatgt tggtttgccc caacaagttc tgaaccaatt ggcgatgtaa tcttataaga 660
agaatctaac gttggtccat tttgcttcta cagttttgaa agttaggtgg gccccattat 720
tatgttgatc ctagaataat taattttggt aggctgagaa gaggaaaaat aaagaacaat 780
gctaaaaaca agtgaaaaat atagttgcaa ctcatgatgc aacatgagat gcgatgaaat 840
atgatagtaa cttgagctca caactctgta tataagtgct catttggaca cttattttct 900
acaatttcct agtaactcag cttagcttca ttcccgactt ttttataaaa gtcaggacga 960
tcaatatcta tctatttatc tgtctgtctg t 991
<210> 35
<211> 35
<212> DNA
<213> Zea mays
<220>
<221> misc_feature
<222> (10)..(32)
<223> n is a, c, g, or t
<400> 35
ttattattan nnnnnnnnnn nnnnnnnnnn nntga 35
<210> 36
<211> 35
<212> DNA
<213> Artificial Sequence
<220>
<223> Zm-prom1v3
<220>
<221> misc_feature
<222> (10)..(32)
<223> n is a, c, g, or t
<400> 36
gtataaaagn nnnnnnnnnn nnnnnnnnnn nntga 35
<210> 37
<211> 38
<212> DNA
<213> Zea mays
<400> 37
aagataaaat cctggtccag caagatccgt tcttccaa 38
<210> 38
<211> 40
<212> DNA
<213> Artificial Sequence
<220>
<223> ZmZEP1v1
<400> 38
aagtataaaa gtcctggtcc agcaagatcc gttcttccaa 40
<210> 39
<211> 39
<212> DNA
<213> Artificial Sequence
<220>
<223> ZmZEP1v2
<400> 39
aagctataaa gagcatccct tcaagatccg ttcttccaa 39
<210> 40
<211> 39
<212> DNA
<213> Artificial Sequence
<220>
<223> ZmZEP1v3
<400> 40
aagctataaa atatccccac gcaagatccg ttcttccaa 39
<210> 41
<211> 10
<212> DNA
<213> Arabidopsis thaliana
<400> 41
tttcttcttc 10
<210> 42
<211> 15
<212> DNA
<213> Zea mays
<400> 42
ctataaagac aagcc 15
<210> 43
<211> 15
<212> DNA
<213> Zea mays
<400> 43
ctataaaata tcccc 15
<210> 44
<211> 15
<212> DNA
<213> Zea mays
<400> 44
gtataaaaag cggaa 15
<210> 45
<211> 15
<212> DNA
<213> Zea mays
<400> 45
tcttaaaagc cgcct 15
<210> 46
<211> 15
<212> DNA
<213> Zea mays
<400> 46
ccataaatgc gccgc 15
<210> 47
<211> 15
<212> DNA
<213> Zea mays
<400> 47
tcataaatag ccagc 15
<210> 48
<211> 15
<212> DNA
<213> Zea mays
<400> 48
taataaatag acacc 15
<210> 49
<211> 15
<212> DNA
<213> Zea mays
<400> 49
gtataaatat gctga 15
<210> 50
<211> 15
<212> DNA
<213> Zea mays
<400> 50
ctttaaaagg acacg 15
<210> 51
<211> 15
<212> DNA
<213> Zea mays
<400> 51
ctttaaaaac gcaca 15
<210> 52
<211> 687
<212> DNA
<213> Zea mays
<400> 52
agaaacatag cattgtaaag tatatttgaa gctctccaat atggttaaaa ttgaaaaaaa 60
aaattgcaca actaggcgta tccagtgaga aaaggccttg ccactctacg tatctgatgt 120
tgttaataat ttcagaagtc gtcgtatata ccatggggtg tttaattgtc gtatatacga 180
tgggatgctt aattgtcgta tatacgatgg tatgatgaaa caactgactt aaacatcaca 240
ctgaacaatt tcagaaaacg atccatgccg tcgtatatat acgacaacaa aataccagaa 300
gcaaacctcc cagacccaag gggaaataaa cgggcctgct tctggtcgct agcttggggg 360
cgctggagct gcagtgcgta ggcccgtccg atccgtggct cgtctcggca tggccacaca 420
aaccacgaac ggtcgtcgtg caccgcagcg cggccccccc gttctatctt ctccagctcc 480
aaatggcgcc atcgcggcgg ccgggttatc ttgtccagac gtgcatcata tcctccgtgt 540
gatccattca tccccgcgcc gtgctagctt gctagttgca agcaccagcc gaccaccaaa 600
cggtagcgca cgcggacaat ttaacagcat caggtttagg ccctgctgcc gtcgtcgagc 660
gcccgggcca ccgcacacct gaaagca 687
<210> 53
<211> 24
<212> DNA
<213> Zea mays
<400> 53
cagctccaaa tggcgccatc gcgg 24
<210> 54
<211> 24
<212> DNA
<213> Artificial Sequence
<220>
<223> modified target region in ZmSBPase promoter sequence, ZmSBPase_v1
<400> 54
cagctttaaa tggcgccatc gcgg 24
<210> 55
<211> 24
<212> DNA
<213> Artificial Sequence
<220>
<223> modified target region of ZmSBPase promoter sequence, ZmSBPase_v4
<400> 55
cagctctaaa tggcgccatc gcgg 24
<210> 56
<211> 24
<212> DNA
<213> Artificial Sequence
<220>
<223> modified target region of ZmSBPase promoter sequence, ZmSBPase_v5
<400> 56
cagcttcaaa tggcgccatc gcgg 24

Claims (13)

1.一种增加细胞,优选植物细胞,中感兴趣的核酸分子表达水平的方法,所述方法包括:
ia)向细胞引入启动子激活核酸序列、嵌合启动子、递送***或者核酸构建体或表达盒,或
ib)向细胞引入用于位点特异性修饰控制感兴趣的核酸分子表达的受体启动子的核酸序列的装置,和
ii)任选地,向细胞引入位点特异性核酸酶或其活性片段,或提供编码其的序列,所述位点特异性核酸酶诱导预定位置的双链断裂,优选地,其中所述位点特异性核酸酶或其活性片段包括锌指核酸酶、转录激活因子样效应物核酸酶、CRISPR/Cas***,包括CRISPR/Cas9***、CRISPR/Cpf1***、CRISPR/C2C2***、CRISPR/CasX***、CRISPR/CasY***、CRISPR/Cmr***,工程化的归位内切酶、重组酶、转座酶和大范围核酸酶和/或其任何组合、变体或催化活性片段;以及任选地,当所述位点特异性核酸酶或其活性片段是CRISPR核酸酶时:提供至少一种向导RNA或至少一种向导RNA***,或编码其的核酸;和
iiia)在控制感兴趣的核酸分子表达的受体启动子转录起始位点上游或下游位置向控制细胞中的感兴趣的核酸分子表达的受体启动子***启动子激活核酸序列,或
iiib)在控制感兴趣的核酸分子表达的受体启动子转录起始位点上游或下游位置通过添加和/或缺失和/或取代修饰控制细胞中感兴趣的核酸分子表达的受体启动子序列,从而形成启动子激活核酸序列,和
iiic)任选地,通过添加和/或取代和/或缺失一个或多个核苷酸修饰步骤iiia)或iiib)中所***或引入的启动子激活核酸序列中存在的或受体启动子中存在的一个或多个TATA盒基序,使得当将一个或多个经修饰TATA盒基序与TATA盒共有序列匹配或比对时,所述一个或多个TATA盒基序转变成相对分增加或更高的一个或多个TATA盒基序;
其中在步骤iiia)或iiib)中向受体启动子引入启动子激活核酸序列的***或修饰在以下位置
(a)感兴趣的核酸分子转录起始位点上游的500个核苷酸或更少,优选150个核苷酸或更少;和/或
(b)感兴趣的核酸分子起始密码子上游的多于50个核苷酸;和/或
(c)其中***或引入位点下游没有上游开放阅读框(uORF),
其中所述启动子激活核酸序列配置成用于靶向位点特异性***控制细胞或生物体中感兴趣的核酸分子表达的受体启动子,其中所述启动子激活核酸序列在位点特异性***后引起所述感兴趣的核酸分子表达增加,优选地,其中感兴趣的核酸分子对受体启动子而言是异源或天然的和/或对细胞或生物体而言是内源或外源核酸分子,和
其中所述启动子激活核酸序列包含
i.分离自供体启动子的一个或多个连续核苷酸延伸段,其中所述供体启动子是具有高表达水平的基因的启动子,和/或
ii.供体启动子的一个或多个TATA盒基序,或者当将一个或多个TATA盒基序与TATA盒共有序列匹配或比对时,相对分大于0.8的一个或多个TATA盒基序,和/或
iii.包含供体启动子的一个或多个嘧啶斑(Y斑)启动子元件,
其中所述嵌合启动子包含受体启动子或其核心启动子,和在受体启动子转录起始位点上游或下游位置的至少一种启动子激活核酸,
其中所述递送***包含所述启动子激活核酸序列和/或所述嵌合启动子,和/或用于向受体启动子位点特异性***或引入启动子激活核酸序列的装置,
其中所述核酸构建体或表达盒包含所述启动子激活核酸序列和/或所述嵌合启动子。
2.如权利要求1所述的方法,其中所述启动子激活核酸序列的长度为6-70个核苷酸,优选7-60个核苷酸,更优选8-40个核苷酸且最优选9-20个核苷酸。
3.如权利要求1或2所述的方法,其中所述细胞或生物体是植物细胞或植物,和/或其中所述受体启动子和/或供体启动子是植物启动子,和/或其中所述受体启动子和供体启动子不同和/或源自同一物种或不同物种。
4.如权利要求1-3中任一项所述的方法,其中位点特异性***受体启动子后,相较于无***的受体启动子控制下的感兴趣的核酸分子表达水平,所述感兴趣的核酸分子表达水平增加至少2倍、至少3倍、至少4倍或至少5倍,优选至少6倍、至少7倍、至少8倍、至少9倍或至少10倍,更优选至少12倍、至少14倍、至少16倍、至少18倍或至少20倍,甚至更优选至少25倍、至少30倍、至少35倍或至少40倍且最优选大于40倍。
5.一种嵌合启动子,包含受体启动子或其核心启动子以及在受体启动子转录起始位置上游或下游位置的至少一种权利要求1-4中任一项所定义的启动子激活核酸序列。
6.一种递送***,包含权利要求1-4中任一项所定义的启动子激活核酸序列和/或权利要求5所述的嵌合启动子,和/或用于向受体启动子位点特异性***或引入启动子激活核酸序列的装置。
7.一种核酸构建体或表达盒,包含权利要求1-4中任一项所定义的启动子激活核酸序列和/或权利要求5所述的嵌合启动子。
8.一种载体,包含权利要求1-4中任一项所定义的启动子激活核酸序列,权利要求5所述的嵌合启动子或者权利要求7所述的核酸构建体或表达盒,或用于向受体启动子位点特异性引入所述启动子激活核酸序列、嵌合启动子或者核酸构建体或表达盒的装置。
9.一种细胞或生物体或其后代或者所述生物体或其后代的部分,
a)其中向控制细胞或生物体中感兴趣的核酸分子表达的受体启动子***或通过添加和/或缺失和/或取代一个或多个核苷酸引入权利要求1-4中任一项所定义的启动子激活核酸,优选在所述受体启动子转录起始位点的上游或下游位置***或引入,更优选在以下位置***或引入:
i.感兴趣的核酸分子转录起始位点上游的500个核苷酸或更少,优选150个核苷酸或更少,和/或
ii.感兴趣的核酸分子起始密码子上游的50个或更多核苷酸;和/或
iii.其中***或引入位点下游没有上游开放阅读框(uORF),或
b)其包含权利要求5所述的嵌合启动子,权利要求6所述的递送***,权利要求7所述的核酸构建体或表达盒或者权利要求8所述的载体。
10.一种鉴定启动子激活核酸序列或嵌合启动子的方法,所述方法包括:
i)鉴定细胞或生物体中具有高表达水平的基因,
ii)从步骤i)中所鉴定的基因启动子分离一个或多个连续延伸段,其中所述一个或多个连续延伸段源自a)所述供体启动子的核心启动子,或b)相对于所述供体启动子转录起始位点-50位到+20位的序列,
iii)在受体启动子转录起始位点上游或下游位置向控制感兴趣的核酸分子表达的受体启动子***或通过添加和/或缺失和/或取代一个或多个核苷酸引入一个或多个连续延伸段,
iv)相对于无步骤iii)的***或引入时受体启动子控制下的相同或另一感兴趣的核酸分子表达水平,或在给定环境和/或给定基因组和/或环境条件下的另一参照启动子,确定在细胞或生物体中或体外包含步骤iii)的***或引入的受体启动子控制下的感兴趣的核酸分子表达水平,其中所述感兴趣的核酸分子对受体启动子而言是异源或天然的和/或对细胞或生物体而言是内源或外源的,和
v)当观察到步骤iv)中感兴趣的核酸分子的表达增加时,鉴定并因而提供权利要求1-4中任一项所定义的启动子激活核酸序列或权利要求5所述的嵌合启动子,
vi)任选地,逐步缩短步骤v)所鉴定的启动子激活核酸序列并重复步骤iv)和v)至少一次,和/或通过添加和/或取代和/或缺失一个或多个核苷酸修饰步骤v)所鉴定的启动子激活核酸序列或受体启动子中存在的一个或多个TATA盒基序,使得当将一个或多个经修饰TATA盒基序与TATA盒共有序列匹配或比对时,所述一个或多个TATA盒基序转变成相对分增加或更高的一个或多个TATA盒基序;,并重复步骤iv)和v)至少一次。
11.一种产生感兴趣的核酸分子表达水平增加的细胞或生物体的方法,所述方法包括:
ia)向所述细胞引入权利要求1-4中任一项所定义的启动子激活核酸序列、权利要求5所述的嵌合启动子、权利要求6所述的递送***或者权利要求7所述的核酸构建体或表达盒,或
ib)向所述细胞引入用于位点特异性修饰控制感兴趣的核酸分子表达的受体启动子的核酸序列的装置,和
ii)任选地,向细胞引入位点特异性核酸酶或其活性片段,或提供编码其的序列,所述位点特异性核酸酶诱导预定位置的双链断裂,优选地,其中所述位点特异性核酸酶或其活性片段包括锌指核酸酶、转录激活因子样效应物核酸酶、CRISPR/Cas***,包括CRISPR/Cas9***、CRISPR/Cpf1***、CRISPR/C2C2***、CRISPR/CasX***、CRISPR/CasY***、CRISPR/Cmr***,工程化的归位内切酶、重组酶、转座酶和大范围核酸酶和/或其任何组合、变体或催化活性片段;以及任选地,当位点特异性核酸酶或其活性片段是CRISPR核酸酶时:提供至少一种向导RNA或至少一种向导RNA***,或编码其的核酸;和
iiia)在控制感兴趣的核酸分子表达的受体启动子转录起始位点上游或下游位置向控制细胞中的感兴趣的核酸分子表达的受体启动子***权利要求1-4中任一项所定义的启动子激活核酸序列或如权利要求5所定义的嵌合启动子,或
iiib)在控制感兴趣的核酸分子表达的受体启动子转录起始位点上游或下游位置通过添加和/或缺失和/或取代修饰控制细胞中感兴趣的核酸分子表达的受体启动子序列,从而形成权利要求1-4中任一项所定义的启动子激活核酸序列,和
iiic)任选地,通过添加和/或取代和/或缺失一个或多个核苷酸修饰步骤iiia)或iiib)所***或引入的启动子激活核酸序列或嵌合启动子中存在的或受体启动子中存在的一个或多个TATA盒基序,使得当将一个或多个经修饰TATA盒基序与TATA盒共有序列匹配或比对时,所述一个或多个TATA盒基序转变成相对分增加或更高的一个或多个TATA盒基序,和
iv)获得细胞或生物体,其在***权利要求1-4中任一项所定义启动子激活核酸序列后或修饰以形成权利要求1-4中任一项所定义的启动子激活核酸序列后,感兴趣的核酸分子的表达水平增加。
12.一种细胞或生物体或其后代,优选植物细胞或植物或其后代,可通过权利要求11所述的方法获得。
13.权利要求1-4中任一项所定义启动子激活核酸序列、权利要求5所述的嵌合启动子,权利要求6所述的递送***,权利要求7所述的核酸构建体或表达盒或者权利要求8所述的载体用于在位点特异性引入或***控制感兴趣的核酸分子表达的受体启动子后,增加细胞或生物体中的感兴趣的核酸分子表达水平的用途。
CN201980022113.2A 2018-03-26 2019-03-26 增加细胞中感兴趣的核酸分子表达水平的方法 Pending CN111902541A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18164080.6A EP3546582A1 (en) 2018-03-26 2018-03-26 Promoter activating elements
EP18164080.6 2018-03-26
PCT/EP2019/057543 WO2019185609A1 (en) 2018-03-26 2019-03-26 Method for increasing the expression level of a nucleic acid molecule of interest in a cell

Publications (1)

Publication Number Publication Date
CN111902541A true CN111902541A (zh) 2020-11-06

Family

ID=61868173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980022113.2A Pending CN111902541A (zh) 2018-03-26 2019-03-26 增加细胞中感兴趣的核酸分子表达水平的方法

Country Status (7)

Country Link
US (1) US20210155948A1 (zh)
EP (2) EP3546582A1 (zh)
CN (1) CN111902541A (zh)
AR (1) AR115018A1 (zh)
BR (1) BR112020017535A2 (zh)
CA (1) CA3095085A1 (zh)
WO (1) WO2019185609A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3835309A1 (en) 2019-12-13 2021-06-16 KWS SAAT SE & Co. KGaA Method for increasing cold or frost tolerance in a plant
WO2021180118A1 (en) * 2020-03-11 2021-09-16 Shanghai Belief-Delivery Biomed Co., Ltd. Novel use of aspirin compound in increasing nucleic acid expression
WO2021183753A1 (en) * 2020-03-13 2021-09-16 Pioneer Hi-Bred International, Inc. Modulating nucleotide expression using expression modulating elements and modified tata and use thereof
WO2021195596A2 (en) * 2020-03-27 2021-09-30 Xie Xuping Reverse genetic system for sars-cov-2
EP4043574A1 (en) 2021-02-11 2022-08-17 KWS SAAT SE & Co. KGaA Synergistic promoter activation by combining cpe and cre modifications
EP4209502A1 (en) 2022-01-07 2023-07-12 KWS SAAT SE & Co. KGaA Fructose sensing and signaling in plants

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999043838A1 (en) * 1998-02-24 1999-09-02 Pioneer Hi-Bred International, Inc. Synthetic promoters
CN1233287A (zh) * 1996-08-23 1999-10-27 彼得·鲁戴尔·简森 选定生物体的人工启动子文库和得自这种文库的启动子
CN103740715A (zh) * 2013-12-25 2014-04-23 北京大北农科技集团股份有限公司 嵌合启动子及其用途
EP3064587A1 (en) * 2015-03-06 2016-09-07 Leibniz-Institut für Pflanzenbiochemie (IPB) Library of synthetic promoters for coordinated gene expression in eukaryotic cells or organisms
WO2016184955A2 (de) * 2015-05-19 2016-11-24 Kws Saat Se Verfahren und konstrukte zur gezielten nukleinsäure editierung in pflanzen

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TR200200693T2 (tr) * 1999-09-16 2002-07-22 Monsanto Technology Llc Gen ifadesinin kontrolü için bitkisel düzenleyici sekanslar
EP4194557A1 (en) 2014-08-06 2023-06-14 Institute for Basic Science Genome editing using campylobacter jejuni crispr/cas system-derived rgen
US9790490B2 (en) 2015-06-18 2017-10-17 The Broad Institute Inc. CRISPR enzymes and systems

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6072050A (en) * 1996-06-11 2000-06-06 Pioneer Hi-Bred International, Inc. Synthetic promoters
CN1233287A (zh) * 1996-08-23 1999-10-27 彼得·鲁戴尔·简森 选定生物体的人工启动子文库和得自这种文库的启动子
WO1999043838A1 (en) * 1998-02-24 1999-09-02 Pioneer Hi-Bred International, Inc. Synthetic promoters
CN103740715A (zh) * 2013-12-25 2014-04-23 北京大北农科技集团股份有限公司 嵌合启动子及其用途
EP3064587A1 (en) * 2015-03-06 2016-09-07 Leibniz-Institut für Pflanzenbiochemie (IPB) Library of synthetic promoters for coordinated gene expression in eukaryotic cells or organisms
WO2016184955A2 (de) * 2015-05-19 2016-11-24 Kws Saat Se Verfahren und konstrukte zur gezielten nukleinsäure editierung in pflanzen

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MEILING ZHANG ET AL.: ""TATA Box Insertion Provides a Selection Mechanism Underpinning Adaptations to Fe Deficiency"", 《PLANT PHYSIOLOGY》, vol. 173, pages 715 - 727, XP055504737, DOI: 10.1104/pp.16.01504 *
张美玲等: ""IRT1启 动子上 ***或缺失对苹果耐缺铁的影响"", 《园艺学报》, vol. 41, pages 2587 *

Also Published As

Publication number Publication date
EP3775223A1 (en) 2021-02-17
WO2019185609A1 (en) 2019-10-03
US20210155948A1 (en) 2021-05-27
EP3546582A1 (en) 2019-10-02
AR115018A1 (es) 2020-11-18
BR112020017535A2 (pt) 2020-12-22
CA3095085A1 (en) 2019-10-03

Similar Documents

Publication Publication Date Title
CN107027313B (zh) 用于多元rna引导的基因组编辑和其它rna技术的方法和组合物
Svitashev et al. Targeted mutagenesis, precise gene editing, and site-specific gene insertion in maize using Cas9 and guide RNA
CN111902541A (zh) 增加细胞中感兴趣的核酸分子表达水平的方法
CN110891965A (zh) 植物中使用的抗crispr蛋白的方法和组合物
EP3737691A1 (en) Optimized plant crispr/cpf1 systems
CN110709519A (zh) 表达调控元件及其用途
US20200354734A1 (en) New strategies for precision genome editing
CN114829600A (zh) 植物mad7核酸酶及其扩大的pam识别能力
CN116286742B (zh) CasD蛋白、CRISPR/CasD基因编辑***及其在植物基因编辑中的应用
Bhandawat et al. Biolistic delivery of programmable nuclease (CRISPR/Cas9) in bread wheat
CN106676129A (zh) 提高基因组编辑效率的方法
EP4043574A1 (en) Synergistic promoter activation by combining cpe and cre modifications
US20220340919A1 (en) Promoter repression
Thakur et al. Detailed Insight into Various Classes of the CRISPR/Cas System to Develop Future Crops
CN114835816B (zh) 一种调控植物基因组dna特定区域甲基化水平的方法
US20220162625A1 (en) Methods to improve site-directed integration frequency
Grützner et al. Addition of Multiple Introns to a Cas9 Gene Results in Dramatic Improvement in Efficiency for Generation of Gene Knockouts in Plants
Bi Gene editing of rice miRNA and argonaute genes
WO2022086951A1 (en) Plant regulatory elements and uses thereof for autoexcision
WO2023201186A1 (en) Plant regulatory elements and uses thereof for autoexcision
WO2023205668A2 (en) Parthenogenesis methods and compositions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination