CN105745324A

CN105745324A - 用于调节生物质生产率的组合物和方法

Info

Publication number: CN105745324A
Application number: CN201480060797.2A
Authority: CN
Inventors: I·阿加维; M·阿奎; L·索里亚戈
Original assignee: Synthetic Genomics Inc
Current assignee: Viridos Inc
Priority date: 2013-10-04
Filing date: 2014-10-03
Publication date: 2016-07-06
Also published as: EP3052634A4; EP3052634A2; WO2015051342A3; US20150191515A1; WO2015051342A2; US9765126B2

Abstract

本公开总体上涉及用于调节细胞生产率的方法和材料。具体地说，本公开提供编码转录因子蛋白的多核苷酸，所述多核苷酸当在微生物中过度表达时产生提高的生产率，如提高的生物质生产率。还公开使用基因工程改造的宿主株调节或提高宿主细胞(例如像藻类或长短鞭毛体细胞)的生产率的方法。还公开基因工程改造的宿主细胞，如具有提高的生物质生产率的藻类和长短鞭毛体细胞；以及源自所述宿主细胞的生物产物。

Description

用于调节生物质生产率的组合物和方法

相关申请的交叉引用

本申请根据美国法典第35篇第119条(e)款要求于2013年10月4日提交的美国序列号61/887,226的优先权的权益，其全部内容以引用的方式整体并入本文。

发明领域

本申请总体上涉及分子生物学和遗传学的领域。具体地说，本申请涉及参与调节微生物(例如像微藻)中的生物质生产率的方法和材料。本申请还提供具有增加的生产率的重组微生物，如微藻。

序列表的并入

所附序列表中的材料特此以引用的方式并入本申请。所附序列表文本文件(名称SGI1720_1WO_Sequence_Listing)在2014年10月3日创建且为81kb。所述文件可在使用WindowsOS的计算机上使用MicrosoftWord进行评定。

发明背景

转录因子可调节基因表达，从而提高或降低(诱导或抑制)转录速率。所述调节在生物体的整个生命周期中在不同发育阶段、在不同生长期和细胞类型中以及响应于不同的外源性(例如，环境)和内源性刺激产生不同的基因表达水平。因为转录因子是生物途径的关键控制元件，所以改变一种或多种转录因子的表达水平可改变生物体中的全部生物途径。

大多数真核基因的转录调控通过转录因子与其启动子区域中的序列特异性结合位点的结合而发生。许多这些蛋白质结合位点在进化过程中一直是保守的并且在多种真核生物体的启动子中找到。显示高度保守性的这样一种特征是CCAAT-盒(Edwards等,PlantPhysiol.117:1015-1022,1998)。转录因子的CCAAT家族(还可称为“CAAT”、“CAAT-盒”或“CCAAT-盒”家族)特征在于其结合基因的上游区域中的CCAAT-盒元件(通常位于从转录起始位点5'80至300bp处)的能力(Gelinas等,Nature313:323-325,1985)。这种顺式作用调控元件在所有真核物种中发现并且据估计存在于大约30％的基因的启动子和/或增强子区域中(参见，例如Bucher和Trifonov,J.Biomol.Struct.Dyn.5:1231-1236,1988；Bucher,J.Mol.Biol.212:563-578,1990)。CCAAT-盒元件可在任一方向上起作用，并且可单独或与其他顺式调控元件合作来操作(Tasanen等,J.Biol.Chem.267:11513-11519,1992)。

CCAAT-盒结合蛋白构成首次在酵母中鉴别且命名为血红素活化蛋白(HAP)的转录因子的一大家族。它们组合以形成通过结合真核启动子中的CCAAT盒来活化转录的异聚蛋白质复合物。在植物中，CCAAT结合转录因子被认为作为由HAP2样、HAP3样和HAP5样亚基组成的异三聚体结合DNA。HAP异三聚体在科学文献中还被称为CCAAT盒结合因子(CBF)或核因子Y(NF-Y)，其包含NF-YA亚基(对应于HAP2样亚基)、NF-YB亚基(对应于HAP3样亚基)和NF-YC亚基(对应于HAP5样亚基)(Mantovani等,Nucl.AcidsRes.20:1087-1091,1992；Mantovani,Gene239:15-27,1999；Gusmaroli等,Gene264:173-185,2001；Gusmaroli等,Gene283:41-48,2002)。HAP2、HAP3和HAP5样蛋白具有两个高度保守的亚结构域，一个在亚基相互作用方面起作用且另一个在与DNA直接缔合中起作用。在这两个区域之外，HAP样蛋白可以是在序列和总长度方面相当不同的。在整个公开中，HAP术语用于NF-YB亚基，并且具体地说，使用术语“HAP3样蛋白”或“HAP3蛋白”，但其他名称如CBF-A和NF-YB是可互换的且表示同一蛋白质。例如，NF-Y术语在本文中最常用于HAP3配偶体，并且其转录因子复合物配偶体HAP3(NF-YB)在本文中被称为“NF-YA”(HAP2)和“NF-YC(HAP5)”。

在酵母中，存在针对每个HAP亚基(例如，HAP2、HAP3和HAP5)的单个基因，并且HAP蛋白参与代谢过程的转录控制，如调控cyc1和参与呼吸的其他基因的分解代谢去阻抑(Becker等,Proc.Natl.Acad.Sci.USA88:1968-1972,1991)。相比之下，已在植物中鉴别了每种HAP同源物的多种形式(Edwards等,1998,同上；Gusmaroli等,2002,同上)。已非常详细地记载了HAP3样蛋白的总体结构域结构(参见，例如美国专利号7,868,229；Lotan等,Cell93:1195-1205,1998)。HAP3样蛋白含有氨基末端A结构域、中心B结构域和羧基末端C结构域。在A结构域和C结构域中的不同HAP3样蛋白家族成员(旁系同源物)之间存在非常小的序列相似性；因此广泛假设A结构域和C结构域能够提供针对HAP3样蛋白亚家族的每个成员的一定程度的功能特异性。

一般来说，HAP3样蛋白在其组蛋白折叠基序或“HFM”内包含“保守的蛋白质-蛋白质和DNA结合相互作用模块”(Gusmaroli等,Gene283:41-48,2002)。据报道为HAP功能所需的HFM(Edwards等,PlantPhysiol.117:1015-1022,1998)是在较大的高度保守的B结构域内(Lee等,Proc.Natl.Acad.Sci.100:2152-2156,2003)，该结构域负责DNA结合和亚基缔合二者。根据Gusmaroli等,2002,同上，“构成HFM的主链结构的所有残基都是保守的，并且残基如AtNF-YB-10[At3g53340；拟南芥HAP3样蛋白]N38、K58和Q62(参与CCAAT结合)以及E67和E75(参与NF-YA缔合)(Maity和deCrombrugghe,TrendsBiochemSci.23:174-178,1998；Zemzoumi等,J.Mol.Biol.286:327-337,1999)被保持”。

Leafycotyledon1(LEC1)(由拟南芥基因组编码的十种HAP3样蛋白中的一种)已被鉴别为影响玉米胚芽中的胚胎发生(相关的“LEC1样”或“L1L”蛋白也如此(Kwong等ThePlantCell15:5-18,2003)和油积聚的重要调控因子(美国专利号7,294,759)。如同其他HAP3样蛋白，LEC1具有三个结构域：氨基末端A结构域、中心B结构域和羧基末端C结构域(Harada等.,Proc.Natl.Acad.Sci.Sci100(4):2152-2156,2003)。B结构域通常包含约90个残基且经常具有MetProIleAlaAsnValIle(MPIANVI)的7个残基的保守特征序列，有时被称为PIANO基序。LEC1和L1L蛋白还在B结构域内具有与其他HAP3样蛋白(其被称为“非LEC1型”HAP3样蛋白)中的B结构域的相同位置处的氨基酸不同的十六个保守的氨基酸(Kwong等,2003,同上；Lee等,2003,同上)。分子和遗传分析揭示高等植物的非LEC1样HAP3样蛋白家族成员参与控制多种生物过程，包括耐旱性(Nelson等Proc.Natl.Acad.Sci104:16450-16455)和开花时间(美国专利号7,868,229)。

微藻最近吸引了广泛关注，这是由于可从这些生物体产生的大量消费产品和应用。基于微藻的产品组合从用于食品和动物饲料的生物质产生延伸至从微藻生物质提取的有价值的产品，包括可被转化成生物柴油的甘油三酯。对于这些应用中的大多数，生产过程是适度经济上可行的并且市场正在开发。随着先进培养和筛选技术的发展，微藻生物技术可帮助满足食品、制药和能源行业的高需求。

发明概述

本申请描述当在真核微生物如藻类和长短鞭毛体中过度表达时对所述微生物赋予增加的生产率的基因的发现。

一方面，本发明提供分离或重组核酸分子，所述核酸分子编码包含以下氨基酸序列的多肽，所述氨基酸序列与选自由以下组成的组的HAP3样蛋白B结构域具有至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性：SEQIDNO:4、SEQIDNO:8的氨基酸27-117、SEQIDNO:10的氨基酸23-113、SEQIDNO:12的氨基酸24-114、SEQIDNO:14的氨基酸24-114、SEQIDNO:16的氨基酸54-144、SEQIDNO:18的氨基酸19-109、SEQIDNO:20的氨基酸15-105、SEQIDNO:22的氨基酸18-108、SEQIDNO:24的氨基酸26-116、SEQIDNO:26的氨基酸29-119、SEQIDNO:28的氨基酸26-116、SEQIDNO:30的氨基酸23-113、SEQIDNO:32的氨基酸26-116、SEQIDNO:34的氨基酸20-110、SEQIDNO:36的氨基酸16-106、SEQIDNO:38的氨基酸24-114、SEQIDNO:40的氨基酸21-111、SEQIDNO:42的氨基酸29-119、SEQIDNO:44的氨基酸20-110、SEQIDNO:46的氨基酸20-110、SEQIDNO:50的氨基酸9-96以及SEQIDNO:52的氨基酸16-106。所述氨基酸序列可包含例如非LEC1型HAP3样蛋白B结构域。在一些实例中，所述非LEC1型HAP3样蛋白B结构域氨基酸序列可包含SEQIDNO:2或SEQIDNO:3的氨基酸基序。或者，非LEC1型HAP3样蛋白B结构域可包含SEQIDNO:61或SEQIDNO:62的氨基酸序列基序。所述分离或重组核酸分子可编码与植物或微生物物种的HAP3样多肽，例如像植物、微藻或长短鞭毛体物种的非LEC1型HAP3样多肽具有至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性的多肽。例如，本文提供的核酸分子编码与SEQIDNO:6、SEQIDNO:8、SEQIDNO:10、SEQIDNO:12、SEQIDNO:14、SEQIDNO:16、SEQIDNO:18、SEQIDNO:20、SEQIDNO:22、SEQIDNO:24、SEQIDNO:34、SEQIDNO:36、SEQIDNO:38、SEQIDNO:40、SEQIDNO:50或SEQIDNO:52具有至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性的多肽。

在一些实例中，本文提供的分离或重组核酸分子可具有与天然存在的基因的核苷酸序列不同(即，与所述核苷酸序列非100％相同)的核苷酸序列和/或所述分离或重组核酸分子可包括缺乏存在于所述天然存在的基因中的一个或多个内含子的cDNA。

此外，当在微生物细胞中表达时，如本文公开的分离或重组核酸分子可对所述微生物细胞赋予较高生产率。例如，如本文公开的核酸分子在基因工程改造的微藻或长短鞭毛体细胞中的表达可产生当与不表达所述核酸分子的对照细胞相比较时具有较高生产率的基因工程改造的微藻或长短鞭毛体细胞，例如，与对照或野生型细胞相比，所述基因工程改造的微藻或长短鞭毛体细胞可展示较高的生长速率、较大的生物质积聚或生产率、或较高的生物分子(例如像，脂质、蛋白质、聚合物、色素或碳水化合物，包括醇)的产生速率或水平。

在具体实例中，本文提供分离或重组核酸分子，所述核酸分子包含编码以下多肽(如HAP3样蛋白)的核酸序列，所述多肽与SEQIDNO:6、SEQIDNO:8、SEQIDNO:10、SEQIDNO:12、SEQIDNO:14、SEQIDNO:16、SEQIDNO:18、SEQIDNO:20、SEQIDNO:22或SEQIDNO:24或与其任何功能片段具有至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性，其中所述多肽包含HAP3样蛋白B结构域，所述结构域与SEQIDNO:4、SEQIDNO:8的氨基酸27-117、SEQIDNO:10的氨基酸23-113、SEQIDNO:12的氨基酸24-114、SEQIDNO:14的氨基酸24-114、SEQIDNO:16的氨基酸54-144、SEQIDNO:18的氨基酸19-109、SEQIDNO:20的氨基酸15-105、SEQIDNO:22的氨基酸18-108或SEQIDNO:24的氨基酸26-116具有至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性。

本文还提供与以下序列中的一个或多个或与这些序列中的任一个的区或片段具有至少约30％、35％、40％或45％核苷酸序列同一性，且在一些实例中至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％或至少约80％序列同一性，例如至少约85％、至少约90％、至少约95％或至少约97％或更高序列同一性的核酸分子：SEQIDNO:5、SEQIDNO:7、SEQIDNO:9、SEQIDNO:11、SEQIDNO:13、SEQIDNO:15、SEQIDNO:17、SEQIDNO:19、SEQIDNO:21、SEQIDNO:23、SEQIDNO:25、SEQIDNO:27、SEQIDNO:29、SEQIDNO:31、SEQIDNO:33、SEQIDNO:35、SEQIDNO:37、SEQIDNO:39、SEQIDNO:41、SEQIDNO:43、SEQIDNO:45、SEQIDNO:49以及SEQIDNO:51。例如，在一些实例中，如本文提供的核酸分子可与SEQIDNO:5、SEQIDNO:7、SEQIDNO:9、SEQIDNO:11、SEQIDNO:13、SEQIDNO:15、SEQIDNO:17、SEQIDNO:19或SEQIDNO:21或SEQIDNO:23中的一个或多个具有至少50％、至少55％、至少60％、至少65％、至少70％、至少75％或至少80％序列同一性，例如至少85％、至少90％、至少95％或至少97％序列同一性。所述核酸分子可编码HAP3样多肽，如本文公开的任何多肽，例如，与HAP3样多肽(包括非LEC1型HAP3样蛋白，包括微生物非LEC1型HAP3样蛋白)，例如像与SEQIDNO:6、SEQIDNO:8、SEQIDNO:10、SEQIDNO:12、SEQIDNO:14、SEQIDNO:16、SEQIDNO:18、SEQIDNO:20、SEQIDNO:22、SEQIDNO:24、SEQIDNO:34、SEQIDNO:36、SEQIDNO:38、SEQIDNO:40、SEQIDNO:50或SEQIDNO:52具有至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性的多肽。在另外实例中，如本文提供的核酸分子可与SEQIDNO:5、SEQIDNO:7、SEQIDNO:9、SEQIDNO:11、SEQIDNO:13、SEQIDNO:15、SEQIDNO:17、SEQIDNO:19、SEQIDNO:21、SEQIDNO:23、SEQIDNO:33、SEQIDNO:35、SEQIDNO:37、SEQIDNO:39、SEQIDNO:49以及SEQIDNO:51中的一个或多个或其任何互补序列(包括可例如在RNAi或反义RNA构建体中提供的任何前述序列的一部分的互补序列)具有至少85％、至少90％、至少95％或至少97％序列同一性。还提供包含以下核酸序列的分离或重组核酸分子，所述核酸序列为本文提供的任何核苷酸序列的干扰RNA。还包括编码HAP3样蛋白的变体的核酸分子，以及由本文提供的任何重组核酸分子编码的重组HAP3样多肽。

本文还提供编码NF-YC多肽的核酸分子，所述多肽与SEQIDNO:64、SEQIDNO:65、SEQIDNO:66或SEQIDNO:68具有至少65％、至少70％、至少75％或至少80％序列同一性，例如至少85％、至少90％、至少95％、至少96％或至少97％、至少98％、至少99％或100％同一性。所述多肽可以是NF-YC多肽。在一些实例中，所述核酸分子可与SEQIDNO:63具有至少50％、至少55％、至少60％、至少65％、至少70％、至少75％或至少80％序列同一性，例如至少85％、至少90％、至少95％或至少97％序列同一性。

本文还提供编码NF-YA多肽的核酸分子，所述多肽与SEQIDNO:70具有至少65％、至少70％、至少75％或至少80％序列同一性，例如至少85％、至少90％、至少95％、至少96％或至少97％、至少98％、至少99％或100％同一性。所述多肽可以是NF-YA多肽。在一些实例中，所述核酸分子可在一些实例中与SEQIDNO:69具有至少50％、至少55％、至少60％、至少65％、至少70％、至少75％或至少80％序列同一性，例如至少85％、至少90％、至少95％或至少97％序列同一性。

本发明还提供核酸构建体，所述核酸构建体包含如本文提供的核酸序列，所述核酸序列可操作地连接至可调控或介导核苷酸序列转录、翻译或整合至宿主基因组中的一个或多个序列。还包括包含如本文提供的核酸分子的载体。

本发明的另一方面是重组微生物，所述重组微生物包含编码以下多肽的非天然核酸分子，所述多肽包含与选自由以下组成的组的HAP3样蛋白B结构域具有至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性的氨基酸序列：SEQIDNO:4、SEQIDNO:8的氨基酸27-117、SEQIDNO:10的氨基酸23-113、SEQIDNO:12的氨基酸24-114、SEQIDNO:14的氨基酸24-114、SEQIDNO:16的氨基酸54-144、SEQIDNO:18的氨基酸19-109、SEQIDNO:20的氨基酸15-105、SEQIDNO:22的氨基酸18-108、SEQIDNO:24的氨基酸26-116、SEQIDNO:34的氨基酸26-116、SEQIDNO:36的氨基酸20-110、SEQIDNO:38的氨基酸16-106、SEQIDNO:40的氨基酸21-111、SEQIDNO:42的氨基酸29-119、SEQIDNO:44的氨基酸20-110、SEQIDNO:46的氨基酸20-110、SEQIDNO:50的氨基酸6-96以及SEQIDNO:52的氨基酸16-106。由非天然核酸分子编码的多肽优选地是HAP3样蛋白，如与植物或微生物(例如藻类或长短鞭毛体)的天然存在的HAP3样蛋白具有至少50％同一性的多肽。在各个实例中，所述重组微生物包含编码以下多肽的非天然基因，所述多肽与SEQIDNO:6、SEQIDNO:8、SEQIDNO:10、SEQIDNO:12、SEQIDNO:14、SEQIDNO:16、SEQIDNO:18、SEQIDNO:20、SEQIDNO:22、SEQIDNO:24、SEQIDNO:26、SEQIDNO:28、SEQIDNO:30、SEQIDNO:32、SEQIDNO:34、SEQIDNO:36、SEQIDNO:38、SEQIDNO:40、SEQIDNO:42、SEQIDNO:44、SEQIDNO:46、SEQIDNO:50或SEQIDNO:52具有至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性。所述重组微生物可表现出比由与所述重组微生物基本上相同的对照细胞所表现的生产率更高的生产率，所述重组微生物包含编码具有HAP3样蛋白B结构域同源序列的多肽的非天然基因，例外是所述对照细胞不包含编码具有HAP3样蛋白B结构域序列的多肽的非天然基因。例如，非天然基因在藻类或长短鞭毛体细胞中的表达可引起产生更大量的生物质或更大量的一种或多种生物分子的藻类或长短鞭毛体细胞，所述生物分子如但不限于脂质、萜类、聚酮化合物、蛋白质、肽、一种或多种氨基酸、碳水化合物、醇、核酸、一种或多种核苷酸、核苷或核碱基、维生素、辅因子、激素、抗氧化剂或色素或着色剂。

本发明的另一方面是重组微生物，所述重组微生物包含编码以下多肽的非天然核酸分子，所述多肽包含与选自由以下组成的组的非LEC1型HAP3样蛋白B结构域具有至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性的氨基酸序列：SEQIDNO:4、SEQIDNO:8的氨基酸27-117、SEQIDNO:10的氨基酸23-113、SEQIDNO:12的氨基酸24-114、SEQIDNO:14的氨基酸24-114、SEQIDNO:16的氨基酸54-144、SEQIDNO:18的氨基酸19-109、SEQIDNO:20的氨基酸15-105、SEQIDNO:22的氨基酸18-108、SEQIDNO:24的氨基酸26-116、SEQIDNO:34的氨基酸26-116、SEQIDNO:36的氨基酸20-110、SEQIDNO:38的氨基酸16-106、SEQIDNO:38的氨基酸24-114、SEQIDNO:40的氨基酸21-111、SEQIDNO:50的氨基酸6-96以及SEQIDNO:52的氨基酸16-106。由非天然核酸分子编码的多肽优选地是非LEC1型HAP3样蛋白，如与植物或微生物(例如藻类或长短鞭毛体)的天然存在的非LEC1型HAP3样蛋白具有至少50％同一性的多肽。在各个实例中，所述重组微生物包含编码以下多肽的非天然基因，所述多肽与SEQIDNO:6、SEQIDNO:8、SEQIDNO:10、SEQIDNO:12、SEQIDNO:14、SEQIDNO:16、SEQIDNO:18、SEQIDNO:20、SEQIDNO:22、SEQIDNO:24、SEQIDNO:34、SEQIDNO:36、SEQIDNO:38、SEQIDNO:40、SEQIDNO:50或SEQIDNO:52具有至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性。所述重组微生物可表现出比由与所述重组微生物基本上相同的对照细胞所表现的成产率更高的生产率，所述重组微生物包含编码具有HAP3样蛋白B结构域同源序列的多肽的非天然基因，例外是所述对照细胞不包含编码具有HAP3样蛋白B结构域序列的多肽的非天然基因。

具有编码具有HAP3样蛋白B结构域的多肽的非天然基因的重组微生物可包含例如编码包含HAP3样B结构域(包括非LEC1型HAP3样B结构域，如本文所描述)的多肽的任何核酸分子。所述核酸序列可编码相对于重组宿主细胞或生物体异源(不同物种)或相对于重组宿主细胞或生物体同源(相同物种)的多肽。所述核酸分子可编码天然存在的多肽的变体，所述变体可以是相对于宿主细胞或生物体同源或异源的。

在各个实例中，所述非天然基因编码来源于藻类物种的非LEC型HAP3样多肽或与具有至少65％同一性的多肽。例如，微生物可包含编码非LEC型HAP3样多肽的非天然基因，所述多肽与SEQIDNO:6、SEQIDNO:8、SEQIDNO:10、SEQIDNO:12、SEQIDNO:14、SEQIDNO:16、SEQIDNO:18、SEQIDNO:20、SEQIDNO:22、SEQIDNO:24、SEQIDNO:34、SEQIDNO:36、SEQIDNO:38或SEQIDNO:40具有至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性。由所述非天然基因编码的多肽可包含非LEC型HAP3样B结构域。例如，由所述非天然基因编码的多肽可包含SEQIDNO:2、SEQIDNO:3、SEQIDNO:61或SEQIDNO:62的氨基酸基序。或者或此外，由所述非天然基因编码的多肽可包含非LEC型HAP3样B结构域，所述非LEC型HAP3样B结构域与选自由以下组成的组的非LEC1型HAP3样蛋白B结构域具有至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性：SEQIDNO:4、SEQIDNO:8的氨基酸27-117、SEQIDNO:10的氨基酸23-113、SEQIDNO:12的氨基酸24-114、SEQIDNO:14的氨基酸24-114、SEQIDNO:16的氨基酸54-144、SEQIDNO:18的氨基酸19-109、SEQIDNO:20的氨基酸15-105、SEQIDNO:22的氨基酸18-108、SEQIDNO:24的氨基酸26-116、SEQIDNO:34的氨基酸26-116、SEQIDNO:36的氨基酸20-110、SEQIDNO:38的氨基酸16-106、SEQIDNO:38的氨基酸24-114以及SEQIDNO:40的氨基酸21-111。

还提供一种包含非天然核酸分子的重组微生物，所述核酸分子编码以下多肽，所述多肽包含与另一多肽具有至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性的氨基酸序列，所述另一多肽与SEQIDNO:64、SEQIDNO:65、SEQIDNO:66或SEQIDNO:68具有至少65％、至少70％、至少75％或至少80％序列同一性，例如至少85％、至少90％、至少95％、至少96％或至少97％、至少98％、至少99％或100％同一性的多肽。所述多肽可以是NF-YC蛋白。

还提供一种包含编码以下多肽的非天然核酸分子的重组微生物，所述多肽包含与SEQIDNO:70具有至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性的氨基酸序列。所述多肽可以是NF-YA蛋白。

还涵盖包含非天然基因的重组微生物，所述非天然基因编码如本文公开的HAP3样蛋白、如本文公开的NF-YC蛋白以及如本文公开的NF-YA蛋白的任何组合。包含如本文提供的编码HAP3样或HapY多肽、同源物或变体的非天然基因的宿主细胞还可包含一种或多种可赋予任何目标性状的另外非天然基因，所述性状如但不限于与目标生物分子(如一种或多种蛋白质、色素、醇或脂质)的产生相关的性状。例如，如本文提供的重组微生物可包含编码如本文所述的非LEC1型HAP3样蛋白的非天然基因。

待使用根据本发明的材料和方法修饰的适合的宿主细胞包括但不限于细菌、原生生物、微藻、浮游植物、长短鞭毛体、真菌以及原生动物。考虑用于本发明中的长短鞭毛体物种包括但不限于硅藻(Bacillariophytes)和黄绿藻(Eustigmatophytes)以及拉普利门(Labrinthulids)和破囊壶菌门(Thraustochytrids)，例如像以下物种：拉普利属(Labryinthula)、破囊壶菌(Thraustochytrium)、裂殖壶菌(Schizochytrium)、吾肯氏壶菌(Ulkenia)或Aplanochytrium、橙壶菌(Aurantiochytrium)、日本壶菌(Japonochytrium)、Diplophrys或吾肯氏壶菌。

适用于本发明的方法的藻类物种包括微藻，例如像以下属的种：曲壳藻属(Achnanthes)、茧形藻属(Amphiprora)、双眉藻属(Amphora)、纤维藻属(Ankistrodesmus)、星胞藻属(Asteromonas)、黄金色藻属(Boekelovia)、Bolidomonas、特氏藻属(Borodinella)、气球藻属(Botrydium)、葡萄藻属(Botryococcus)、片球藻属(Bracteococcus)、角毛藻属(Chaetoceros)、四鞭藻属(Carteria)、衣藻属(Chlamydomonas)、绿球藻属(Chlorococcum)、绿梭藻属(Chlorogonium)、小球藻属(Chlorella)、蓝隐藻属(Chroomonas)、金球藻属(Chrysosphaera)、鳄球藻属(Cricosphaera)、隐甲藻属(Crypthecodinium)、隐藻属(Cryptomonas)、小环藻属(Cyclotella)、栅藻属(Desmodesmus)、杜氏藻属(Dunaliella)、后棘藻属(Elipsoidon)、赫氏圆石藻属(Emiliania)、独球藻属(Eremosphaera)、衣迪斯藻属(Ernodesmius)、眼虫藻属(Euglena)、真眼点藻属(Eustigmatos)、被棘藻属(Franceia)、脆杆藻属(Fragilaria)、拟脆杆藻属(Fragilaropsis)、丽丝藻属(Gloeothamnion)、红球藻属(Haematococcus)、菱板藻属(Hantzschia)、赤潮异弯藻属(Heterosigma)、膜胞藻属(Hymenomonas)、等鞭金藻属(Isochrysis)、鳞孔藻属(Lepocinclis)、微星藻属(Micractinium)、蒜头藻属(Monodus)、单针藻属(Monoraphidium)、微球藻属(Nannochloris)、微拟球藻属(Nannochloropsis)、舟形藻属(Navicula)、新绿藻属(Neochloris)、异鞭藻属(Nephrochloris)、肾藻属(Nephroselmis)、菱形藻属(Nitzschia)、棕鞭藻属(Ochromonas)、鞘藻属(Oedogonium)、卵囊藻属(Oocystis)、Ostreococcus、拟小球藻属(Parachlorella)、Parietochloris、杜氏亚属盐藻属(Pascheria)、巴夫藻属(Pavlova)、普莱格门(Pelagomonas)、褐指藻属噬菌体属(Phagus)、Picochlorum、扁藻属(Platymonas)、颗石藻属(Pleurochrysis)、肋球藻属(Pleurococcus)、原壁菌属(Prototheca)、拟绿球藻属(Pseudochlorella)、拟新绿藻属(Pseudoneochloris)、拟角星鼓藻属(Pseudostaurastrum)、塔胞藻属(Pyramimonas)、桑椹藻属(Pyrobotrys)、栅列藻属(Scenedesmus)、裂衣藻属(Schizochlamydella)、骨条藻属(Skeletonema)、水绵藻属(Spyrogyra)、裂丝藻属(Stichococcus)、四球藻属(Tetrachlorella)、扁藻属(Tetraselmis)、海链藻属(Thalassiosira)、黄丝藻属(Tribonema)、无隔藻属(Vaucheria)、鲜绿球藻属(Viridiella)、魏氏藻属(Vischeria)以及团藻属(Volvox)。示例性物种的非限制性实例包括例如黄绿藻或硅藻，例如像双眉藻属、角毛藻属、小环藻属、真眼点藻属、拟脆杆藻属、蒜头藻属、微拟球藻属、舟形藻属、菱形藻属、褐指藻属、海链藻属或魏氏藻属中的任一者的种。

包含编码如本文提供的具有HAP3样B结构域(例如像非LEC1型HA3样B结构域)的多肽或如本文公开的NF-YC或NF-YA蛋白的非天然基因的微生物当与不包含编码含HAP3样B结构域的多肽、NF-YC蛋白或NF-YA蛋白的非天然基因的对照微生物相比较时可具有提高的生产率。更高生产率可例如通过测量生长速率或总有机碳(TOC)或无灰干重累积或通过定量由重组微生物产生的各种生物分子(例如像，一种或多种脂质、聚合物、蛋白质、色素、碳水化合物等)中的任一种来证实。

本文还提供通过培养具有调节的生长特征的微生物细胞(如本文公开的重组宿主细胞)来产生生物质或至少一种生物产物的方法。所述方法包括在适合的培养基中培养如本文公开的微生物细胞以提供藻类培养物且从所述培养物回收生物质或至少一种生物产物，所述微生物细胞包含编码HAP3样蛋白或NF-YC或NF-YA蛋白的非天然基因，如像本文公开的编码HapY蛋白或HAP3样蛋白或NF-YC或NF-YA蛋白的核酸分子。所述方法可任选地包括诱导编码HAP3样蛋白或NF-YC或NF-YA蛋白的非天然基因的表达。在一些实例中所述微生物可以是微藻。藻类培养物可以是光合自养性培养物。可使用所述方法制备的产物的非限制性实例包括生物质、脂质、聚酮化合物、萜类、色素、抗氧化剂、维生素、核苷酸、核酸、氨基酸、碳水化合物、醇、激素、细胞因子、肽、蛋白质或聚合物。

附图简述

图1是海洋富油微拟球藻(Nannochloropsisgaditana)HapY(SEQIDNO:6)、拟南芥(Arabidopsisthaliana)LEC1(At1g21970；SEQIDNO:48)、拟南芥NF-YB1(SEQIDNO:44)、拟南芥NF-YB2(SEQIDNO:42)、拟南芥NF-YB3(At4g14540；SEQIDNO:46)的序列比对。

图2提供海洋富油微拟球藻的非LEC1型HAP3样蛋白“HapY”(SEQIDNO:6)的B结构域的序列。关于LEC1型HAP3多肽的特征氨基酸不同的氨基酸残基被编号且加下划线。

图3是载体pSGE05473的示意性图示，所述载体是用于在微拟球藻中过度表达转录因子的若干载体之一，所述载体包含用于过度表达目标编码序列(例如微拟球藻HapY基因)的延伸因子启动子EF启动子(SEQIDNO:53)以及来自三角褐指藻(Phaeodactylumtricornutum)的甘油醛-3-磷酸脱氢酶启动子(pGAPDH)，从而驱动潮霉素抗性基因(HygroR)的表达以用于在藻类细胞中选择。还包含氨苄青霉素抗性基因以用于在大肠杆菌细胞中选择。

图4示出评定重组细胞系GE-4627在持续光照生产率测定中的生产率水平的实验的结果(参见例如实例2)。所述图表示相较于野生型对照，过度表达HapY的微拟球藻细胞的脂肪酸甲酯(FAME)和总有机碳(TOC)的相对量。值是GE-4627(蓝色菱形)的三次生物重复实验和WT-3730(橙色圆圈)的两次生物重复实验的单日生产率值的平均值。图4A.脂肪酸甲酯(FAME)分析。所述图表示由重组细胞和野生型对照产生的FAME的相对量；图4B.总有机碳(TOC)值；图4C.重组细胞WT-3730和野生型对照GE-4627的FAME/TOC值。

图5示出监测细胞系GE-4627在基于池塘条件的按比例缩小的生长测定中的增强的生产率的实验的结果(参见例如实例3)。图5A.相较于野生型对照WT-3730，GE-4627转基因细胞的脂肪酸甲酯(FAME)分析；图5B.相较于野生型对照WT-3730，GE-4627转基因细胞的总有机碳(TOC)值。对于野生型WT-3730(绿色圆圈和正方形)和转基因系GE-4627(蓝色圆圈和正方形)示出两次生物重复实验。

图6总结重组细胞系GE-4627和野生型对照WT-3730的FAME生产率。所示的值是针对最佳3天的平均值。误差线是两次生物重复实验的标准偏差。

图7提供来自不同藻类物种的HapY基因的基因结构。A)海洋富油微拟球藻；B)海洋微拟球藻(Nannochlorosisoceanic)；C)扁藻(Tetraselmissp.)；D)小环藻(Cyclotellasp.)；E)小球藻(Chlorellasp.)。内含子由细线表示，且外显子由粗线表示。藻类基因的大小未彼此按比例缩放。

图8是示出NF-Y的相关性的图。

发明详述

本申请涉及用于修改微生物的特征，特别是与提高的生产率相关的那些特征的组合物、方法以及相关材料。在各个方面，本申请公开重组微生物，如表达编码影响生产率(例如像生物质生产率)的调控蛋白的非天然基因的微藻和长短鞭毛体。

贯穿本公开，参考各种信息源被和/或以引用的方式并入。信息源包括例如科学期刊文章、专利文件、教科书以及万维网浏览器不活动页面地址。虽然对这些信息源的参考清楚地指示它们可被本领域的技术人员使用，但本文引用的信息源中的各自和每一个具体地以引用的方式整体并入，无论是否指出“以引用的方式并入”的明确提及。还应注意参考这些信息源仅仅是出于提供在申请时本领域的一般状态的指示的目的。虽然所述信息源各自和每一个的内容和教义都可以被本领域的技术人员信赖和使用以用于制造和使用本发明的实施方案，但是特定信息源中的任何论述和评论绝不应视为承认所述评论被广泛公认为该领域的一般性意见。

申请书内的标题仅仅是为了方便读者，并且不以任何方式限制本发明或其实施方案的范围。

一些定义

除非另外定义，否则本文使用的所有技术术语、标记法和其他科学术语或专有名词意图具有本发明所属领域的技术人员所通常理解的含义。在一些情况下，具有通常理解的含义的术语在本文中出于清楚和/或便于参考的目的加以定义，并且在本文中纳入所述定义应不必解释为代表与本领域中的通常理解有实质性差异。本文描述或提及的许多技术和程序是熟知的并且通常由本领域的技术人员使用常规方法加以采用。

除非上下文另外清楚地指示，否则单数形式“一个/种(a)”、“一个/种(an)”以及“所述(the)”包括复数引用。例如，术语“一个细胞”包括一个或多个细胞，包括其混合物。“A和/或B”在本文用于包括所有以下替代：“A”、“B”以及“A和B”。

“约”意指所提供值的±10％。当提供范围时，所述范围包括边界值。

如本文所用，“氨基酸”是指天然存在的和合成的氨基酸，以及以类似于天然存在的氨基酸的方式起作用的氨基酸类似物和氨基酸模拟物。天然存在的氨基酸是由遗传密码编码的氨基酸(包括D/L光学异构体)以及稍后经过修饰的氨基酸，例如羟基脯氨酸、y-羧基谷氨酸和O-磷酸丝氨酸。氨基酸类似物是指与天然存在的氨基酸具有相同基本化学结构的化合物，所述基本化学结构是结合至氢的碳、羧基、氨基和R基团，例如，高丝氨酸、正亮氨酸、蛋氨酸亚砜、蛋氨酸甲基锍。所述类似物具有修饰的R基团(例如，正亮氨酸)或修饰的肽主链，但保留与天然存在的氨基酸相同的基本化学结构。如本文所用，氨基酸模拟物是指具有不同于氨基酸的一般化学结构的结构、但以类似于天然存在的氨基酸的方式起作用的化学化合物。

如本文所用，“减弱的”意指量、程度、强度(intensity)或强度(strength)降低。减弱的基因表达可指讨论中的基因的量和/或转录速率或所编码蛋白质的翻译、折叠或组装的速率显著降低。作为非限制性实例，减弱的基因可以是突变的或破坏的基因(例如，通过部分或全部缺失或***突变破坏的基因)或由于基因调控序列的改变而具有减少的表达。

如本文所用，“生物燃料”是指来自活生物体如高等植物、真菌、藻类或微生物的可再生能源。因而，生物燃料可以是源自藻类、真菌、微生物或植物材料、生物质、糖或淀粉的固体、液体或气体燃料，如源自植物油或海藻油等的乙醇或生物柴油。生物燃料本身是燃料，但可与基于石油的燃料掺混以产生成品燃料。生物燃料可用作石油化学来源的汽油、柴油燃料或喷气燃料的代替物。

“cDNA”是包含mRNA分子的核苷酸序列的至少一部分的DNA分子，例外是DNA分子取代mRNA序列中存在的核碱基胸腺嘧啶(或T)代替尿苷(或U)。cDNA可以是单链或双链的，并且可以是mRNA序列的互补序列。在优选的实例中，cDNA不包含cDNA所对应的天然存在的基因(生物体的基因组中)存在的一个或多个内含子序列。例如，cDNA可以在天然存在的基因的内含子的上游具有与所述天然存在的基因的内含子的下游的序列并置的序列，其中所述上游序列和下游序列在自然中的DNA分子中不是并置的(即，所述序列在天然存在的基因中不是并置的，而是由内含子隔开)。cDNA可通过mRNA分子的逆转录产生，或可基于cDNA序列的认识例如通过化学合成和/或通过使用一种或多种限制酶、一种或多种连接酶、一种或多种聚合酶(包括但不限于可用于聚合酶链式反应(PCR)中的耐高温的聚合酶)、一种或多种重组酶等来合成，其中cDNA序列的认识可任选地基于对来自基因组序列的和/或从多个部分cDNA的序列编译的编码区的鉴别。

如本发明中使用的“对照生物体”、“对照微生物”或“对照细胞”提供用于测量主题生物体、微生物或细胞的表型中的变化的参考点。对照生物体、微生物或细胞可以包括例如(a)野生型生物体、微生物或细胞，即与用于产生主题生物体、微生物或细胞的遗传改变的起始材料具有相同基因型；(b)与所述起始材料具有相同基因型但已经用空构建体(即对目标性状不具有已知作用的构建体，如缺乏编码目标多肽的基因，例如，缺乏编码HAP3样多肽的基因的构建体)转化的生物体或细胞；(c)在主题生物体或细胞的子代之中为非转化的分离子的生物体或细胞；或(d)在不表达目标基因的条件下的主题生物体、微生物或细胞本身。在一些实例中，“对照生物体”可在一些情况下指不包含存在于目标转基因生物体中的外源性核酸、但另外具有与这种转基因生物体相同或类似的遗传背景的生物体。

“结构域”是多肽中可用于表征蛋白质家族和/或蛋白质部分的大致上连续氨基酸的组。这类结构域可以具有可包含保守的一级序列、二级结构和/或三维构象的“指纹”、“基序”或“特征(signature)”。一般来说，结构域与特异性体外和/或体内活性相关。结构域可具有任何大小，作为举例，结构域可具有4个氨基酸至约400个氨基酸，例如，4至约50个氨基酸、或4至约20个氨基酸、或4至约10个氨基酸、或约25至约100个氨基酸、或约35至约65个氨基酸、或约50至约100个氨基酸、或约75至120个氨基酸、或约200至约300个氨基酸、或约300至约400个氨基酸的长度。

“下调”是指相对于基础或天然状态，减少表达产物(mRNA、多肽、生物活性或其任何组合)的产生的调控。

在本公开的上下文内术语“内源性”是指为细胞的天然部分的任何多核苷酸、多肽或蛋白质序列。

关于核酸或基因的“外源性”指示该核酸或基因已通过人干预被引入(“转化”)至生物体、微生物或细胞中。通常，这种外源核酸经由重组核酸构建体被引入细胞或生物体中。外源核酸可以是来自一种物种的被引入至另一种物种中的序列，即异源核酸。外源核酸还可以是与已被重新引入生物体的细胞中的所述生物体同源的序列(即，所述核酸序列天然存在于所述物种中或编码天然存在于宿主物种中的多肽)。包含同源序列的外源核酸经常可通过连接至外源核酸的非天然序列(例如，在重组核酸构建体中的同源基因序列侧翼的非天然调控序列)的存在与天然存在的序列区别开来。或者或此外，稳定转化的外源核酸可通过其与它已整合至其中的基因组中的序列的并置被检测到和/或与天然基因区分开来。如果核酸已被引入在考虑中的细胞、生物体或菌株的祖细胞中，则所述核酸被认为是外源性的。

如本文所用，“表达”是指通过转录(通常通过酶、RNA聚合酶催化)将多核苷酸的遗传信息转化成RNA的过程，并且在所述RNA编码多肽的情况下，通过核糖体上的mRNA的翻译转化成蛋白质以产生编码的蛋白质的过程。

关于多核苷酸的“片段”是指多核苷酸分子的克隆或任何部分，特别是多核苷酸的保留可用的功能特征的一部分。有用的片段包括可用于杂交或扩增技术中或用于复制、转录或翻译的调控中的寡核苷酸和多核苷酸。“多核苷酸片段”是指多核苷酸的任何子序列，通常本文提供的任何序列的至少约9个连续核苷酸、例如至少约30个核苷酸或至少约50个核苷酸的子序列。示例性多核苷酸片段是在序列表中列出的多核苷酸的前六十个连续核苷酸。示例性片段还包括包含编码多肽的保守性B结构域的区域的片段。示例性片段还包括包含多肽的保守性结构域的片段。

片段还可以包括多肽和蛋白质分子的子序列，或多肽的子序列。片段可具有用途，在于它们可能具有抗原潜力。在一些情况下，片段或结构域是多肽的以与完整多肽大致上相同的方式或类似的程度执行所述完整多肽的至少一种生物功能的子序列。例如，多肽片段可包含可识别的结构基序或功能性结构域，如结合DNA启动子区的DNA结合位点或结构域、活化结构域、或用于蛋白质-蛋白质相互作用的结构域，并且可起始转录。片段可在大小上从少至3个氨基酸残基至完整多肽的全长变化，例如长度为至少约20个氨基酸残基，例如长度为至少约30个氨基酸残基。

如本文所用的术语“功能同源物”描述具有序列相似性并且还共有至少一种功能特征如生物化学活性的那些分子。功能同源物通常将引起相同特征达到相似、但不必相同的程度。功能上同源的蛋白质给出相同的特征，其中由一种同源物产生的定量测量是另一种同源物的至少10％；更通常地，是由原始分子产生的定量测量的至少20％、约30％与约40％之间；例如，约50％与约60％之间；约70％与约80％之间；或约90％与约95％之间；约98％与约100％之间、或大于100％。因此，在所述分子具有酶活性的情况下，相较于原始酶，功能同源物将具有以上列举百分比的酶活性。在分子是DNA结合分子(例如多肽)的情况下，相较于原始分子，同源物将具有以上列举百分比的结合亲和力，如通过结合的分子的重量所测量。

功能同源物和参考多肽可以是天然存在的多肽，并且序列相似性可以是由于趋同或趋异进化事件所致。功能同源物有时被称为直系同源物，其中“直系同源物”是指为另一种物种中的参考基因或蛋白质的功能等效物的同源基因或蛋白质。

天然存在的功能同源物的变体(如由突变体或野生型编码序列编码的多肽)本身可能是功能同源物。如本文所用，功能同源物还可经由生产率调节多肽(例如HapY多肽)的编码序列的定点诱变产生或通过组合来自不同天然存在的HAP3样多肽的编码序列的结构域来产生。术语“功能同源物”有时应用于编码功能上同源的多肽的核酸

功能同源物可通过核苷酸和多肽序列对比的分析来鉴别。例如，执行对核苷酸或多肽序列的数据库的查询可鉴别生物质调节多肽的同源物。序列分析可涉及使用生物质调节多肽的氨基酸序列作为参考序列，进行非冗余数据库的BLAST、交互BLAST或PSI-BLAST分析。在一些实例中，氨基酸序列是从核苷酸序列推导的。通常，数据库中的具有大于40％序列同一性的那些多肽是用于进一步评价作为生物质调节多肽的适合性的候选物。氨基酸序列相似性允许保守性氨基酸取代，如一种疏水性残基取代另一种疏水性残基或一种极性残基取代另一种极性残基。如果需要，可进行这类候选物的手动检查以便减少有待进一步评价的候选物的数目。手动检查可通过选择似乎具有存在于生产率调节多肽中的结构域(例如保守性功能结构域)的那些候选物来进行。

如本文所用，“HAP3样多肽”或NF-YB蛋白是以下多肽，所述多肽以大于21.1的采集截断值的二进制值和小于0.1的e-值募集至pfamPF00808(组蛋白样转录因子(CBF/NF-Y)和古细菌组蛋白)并且包含氨基末端(“A”)结构域、羧基末端(“C”)结构域以及在所述A结构域与C结构域之间大致80-120个氨基酸(例如约80与约100个之间的氨基酸)的“B结构域”，所述B结构域在氨基酸序列上与表征的HAP3样多肽的B结构域具有至少65％同一性；并且优选具有与表征的HAP3样多肽的B结构域具有至少约80％同一性，例如至少85％、至少90％或至少95％同一性的B结构域。表征的HAP3样多肽包括例如，拟南芥的HAP3样多肽，包括LEC1或At1g21970(AF036684；SEQIDNO:48)、LEC1样(L1L)或At5g47670(AY138461)；PcL1(AF533650)；At2g47810(NC_003071)；At1g09030(BT029363)；At2g37060(AK317223)；At3g53340(NM_115194)；At2g38880(BT005536)；At5g47640(NM_124138)；At4g14540(NM_117534)；At2g13570(NM_126937)；以及At5g47670(NM_124141)，其中括号中的数字是Genbank登录号。表征的HAP3样多肽的另外的非限制性实例包括玉米(AF410176；NP_001105435；P25209；CAA42234)；和大豆(例如，AY058917和AY058918)的那些(参见例如Kwong等ThePlantCell15:5-18,2003)。

当关于多核苷酸、基因、核酸、多肽或酶使用时，术语“异源”是指不源自宿主物种的多核苷酸、基因、核酸、多肽或酶，例如，来自相对于宿主细胞的不同物种。例如，将用来自扁藻微生物或来自植物的脂肪酸去饱和酶的编码序列转化的转基因微拟球藻微生物用异源去饱和酶基因转化。当提及在核酸构建体或分子中可操作地连接至或以另外的方式连接至彼此的核酸序列时，如本文所用，“异源序列”是未可操作地连接至彼此或在本质上不是彼此连续的那些。例如，来自扁藻的启动子被认为与微拟球藻编码区序列异源。此外，来自编码来自微拟球藻的HapY基因的基因的启动子被认为与编码微拟球藻脂肪酸去饱和酶的序列异源。类似地，当提及用于维持或操纵基因序列的基因调控序列或辅助核酸序列(例如，启动子、增强子、5’非翻译区、3’非翻译区、Kozak序列、聚腺苷酸添加序列、内含子序列、剪接位点、核糖体结合位点、内部核糖体进入序列、基因组同源性区、重组位点等)时，“异源”意指所述调控序列或辅助序列来自与所述调控或辅助核酸序列在构建体、基因组、染色体或附加体中所并置的基因不同的来源(例如，不同基因，无论来自作为宿主生物体的相同物种还是不同物种)。当提及蛋白质功能结构域(如定位序列或受体结合位点)时，“异源”还可意指所述蛋白质功能结构域来自与其在工程改造的蛋白质中所并置的蛋白质区的剩余部分不同的来源(例如，蛋白质)。类似地，当提及工程改造的基因的启动子序列时，“异源”意指所述启动子源自与所述启动子通过基因工程改造所连接的基因不同的基因。

当关于多核苷酸、基因、核酸、多肽或酶使用时，术语“同源”是指源自宿主物种的多核苷酸、基因、核酸、多肽或酶，例如，来自相对于宿主细胞的相同物种，不管所述同源多核苷酸、基因、核酸、多肽或酶是已被引入宿主细胞(外源性)还是相对于所述宿主细胞内源性的。

如本文所用，“分离的”核酸或蛋白质从所述核酸或蛋白质存在于自然中的天然周围环境或背景中去除。例如，分离的蛋白质或核酸分子从所述蛋白质或核酸分子在其天然或自然环境中所缔合的细胞或生物体去除。在一些实例中，分离的核酸或蛋白质可以是部分或大致上纯化的，但对于分离不要求特定纯化水平。因此，例如，分离的核酸分子可以是已从其在自然中被整合至其中的染色体、基因组或附加体切除的核酸序列。

“纯化的”核酸分子或核苷酸序列或蛋白质或多肽序列大致上不含细胞材料和细胞组分。纯化的核酸分子或蛋白质可以例如不含缓冲剂或溶剂之外的化学品。“大致上不含”不意图意指新型核酸分子之外的其他组分是不可检测的。在一些情况下，“大致上不含”可意指核酸分子或核苷酸序列不含至少95％(w/w)的细胞材料和组分。

术语“错误表达”是指相较于亲本野生型例如藻类或植物，编码区转录成互补RNA序列的增加或减少。所述术语还涵盖基因或编码区相较于野生型表达持续不同的时间段和/或从亲本基因组内的非天然位置表达。如本文所用的术语“过度表达”或“增加的表达”是指在任何发育或时间阶段，相较于野生型细胞或野生型生物体，基因、多核苷酸序列或多肽在宿主细胞中的更高表达水平。用于增加基因或基因产物的表达的方法在本领域中充分记载，并且包括例如通过适当启动子(例如组成型启动子)驱动的过度表达、使用转录增强子或翻译增强子。过度表达还可在诱导型或生长期特异性启动子的控制下。例如，取决于所使用的启动子，过度表达可在整个藻类细胞、在藻类的特定生长期或在特定环境信号存在或不存在下发生。

术语“天然”在本文中用于指如在宿主中天然存在的核酸序列或氨基酸序列。术语“非天然”在本文中用于指并非在宿主中天然存在或未如其在宿主中所天然构造而构造的核酸序列或氨基酸序列。已从宿主细胞去除、经受实验室操纵且引入或重新引入宿主细胞的核酸序列或氨基酸序列被认为是“非天然的”。引入宿主细胞中的合成或部分合成的基因是“非天然的”。非天然的基因进一步包括对宿主微生物是内源的可操作地连接至已被重组至宿主基因组中的一个或多个异源调控序列的基因，或对宿主微生物是内源的在基因组的不同于它们所天然存在的基因座的基因座中的基因。在一个实例中，非天然基因是并非在自然中在宿主微生物中存在的基因。在其他实例中，如本文提供的重组微生物中的非天然核酸序列可以具有相对于如在自然中在所述生物体中存在的核酸分子改变的编码序列，以使得其表达具有与天然多肽不同的氨基酸序列的多肽。这种改变的序列可改变蛋白质的功能特性。例如，对于转录调控因子，可改变所述转录调控因子对所述转录调控因子所天然结合的相互作用蛋白或调控DNA序列的结合亲和力，从而影响对它所调控的基因的转录的影响的大小或甚至类型。或者或除编码序列之外，可通过添加或去除对编码的RNA赋予稳定性、加工、运输或翻译效率的一个或多个内含子或序列而改变非天然基因。或者或此外，如本文提供的重组微生物中的非天然核酸序列能够可操作地连接至在其天然存在的基因组中未可操作地连接至的转录调控序列。可操作地连接至异源调控序列的非天然基因可被表达至不同的程度和/或在与所述天然基因不同的生长或培养条件下表达。

术语“天然存在的”和“野生型”是指在自然中发现的形式。例如，天然存在的或野生型核酸分子、核苷酸序列或蛋白质可存在于天然来源中且从所述天然来源分离，并且未通过人操纵有意地修饰。

如本文所用，“可操作连接的”意图意指两个或更多个序列之间的功能性连接，以使得在一个序列处或上的活性影响在另外一个或多个序列处或上的活性例如，目标多核苷酸与调控序列(例如，启动子)之间的可操作连接是允许表达目标多核苷酸的功能性连接。在此意义上，术语“可操作连接的”是指定位调控区和待转录的编码序列以使得调控区有效用于调控目标编码序列的转录或翻译。例如，为了可操作地连接编码序列和调控区，所述编码序列的翻译阅读框的翻译起始位点通常被定位在调控区下游的一个与约五十个核苷酸之间。然而，调控区可被定位在翻译起始位点上游的多达约5,000个核苷酸，或转录起始位点上游的约2,000个核苷酸。可操作连接的元件可以是连续或非连续的。当用于指两个蛋白质编码区的连接时，“可操作连接的”意图所述编码区在同一阅读框中。当用于指增强子的作用时，“可操作连接的”指示增强子增加特定目标多肽或多核苷酸的表达。

如本文所用，“序列同一性百分比”通过在由两个序列之间的局部比对的长度限定的比较窗上比较两个最优局部比对的序列来确定。对于两个序列的最优比对来说，比较窗中的氨基酸序列可包含相较于参考序列(其不包含添加或缺失)的添加或缺失(例如，空位或突出)。两个序列之间的局部比对仅包括每个序列的被认为根据取决于用于进行比对的算法(例如BLAST)的标准足够类似的区段。同一性百分比通过以下方式进行计算：确定两个序列中出现相同核酸碱基或氨基酸残基的位置的数目以得到匹配位置的数目，用匹配位置的数目除以比较窗口中的位置总数，并且将结果乘以100。用于比较的序列的最优比对可通过以下来进行：Smith和Waterman(Add.APL.Math.2:482,1981)的局部同源性算法、Needleman和Wunsch(J.Mol.Biol.48:443,1970)的整体同源性比对算法、Pearson和Lipman(Proc.Natl.Acad.Sci.USA85:2444,1988)的相似性检索方法、或这些算法的启发式实现形式(NCBIBLAST、WU-BLAST、BLAT、SIM、BLASTZ)或检查。例如，GAP和BESTFIT可用于确定已被鉴别用于比较的两个序列的最优比对。通常，使用对于空位权重5.00且对于空位权重长度0.30的默认值术语多核苷酸或多肽序列之间的“大致序列同一性”是指使用所述程序，包含相较于参考序列具有至少约50％序列同一性，例如至少70％、至少80％、至少85％、至少90％、至少95％或至少96％、97％、98％或99％序列同一性的序列的多核苷酸或多肽。此外，如所使用，成对序列同源性或序列相似性是指在所比对的两个序列之间相似的残基的百分比。具有相似侧链的氨基酸残基的家族已在本领域中明确定义。这些家族包括具有碱性侧链的氨基酸(例如，赖氨酸、精氨酸、组氨酸)、具有酸性侧链的氨基酸(例如，天冬氨酸、谷氨酸)、具有不带电的极性侧链的氨基酸(例如，甘氨酸、天冬酰胺、谷氨酰胺、丝氨酸、苏氨酸、酪氨酸、半胱氨酸)、具有非极性侧链的氨基酸(例如，丙氨酸、缬氨酸、亮氨酸、异亮氨酸、脯氨酸、苯丙氨酸、蛋氨酸、色氨酸)、具有β-支链侧链的氨基酸(例如，苏氨酸、缬氨酸、异亮氨酸)以及具有芳族侧链的氨基酸(例如，酪氨酸、苯丙氨酸、色氨酸、组氨酸)。

针对存在于公共或专有数据库中的主题核酸序列或氨基酸序列来检索查询核酸序列和氨基酸序列。使用国家生物技术信息中心局部序列比对检索基本工具(NationalCenterforBiotechnologyInformationBasicLocalAlignmentSearchTool)(NCBIBLASTv2.18)程序进行这类检索。NCBIBLAST程序可在国家生物技术信息中心的互联网(blast.ncbi.nlm.nih.gov/Blast.cgi)上获得。通常，使用NCBIBLAST的以下参数：过滤器选择被设置为“默认”，比较矩阵被设置为“BLOSUM62”，空位损失被设置为“存在：11，延伸：1”，字长被设置为3，预期值(E阈值)被设置为1e-3，并且局部比对的最小长度被设置为查询序列长度的50％。还可使用GENOMEQUEST^TM软件(Gene-IT,Worcester,Mass.USA)确定序列同一性和相似性。

“启动子”是指能够在宿主细胞中起始转录且可驱动或促进本发明的核苷酸序列或其片段的转录的转录控制序列。这类启动子不需要是天然存在的序列。此外，应了解这类启动子不需要源自靶宿主细胞或宿主生物体。

“多肽”和“蛋白质”在本文可互换使用，并且是指两个或更多个亚基氨基酸、氨基酸类似物或其他肽模拟物的化合物，而不管翻译后修饰，例如磷酸化或糖基化。所述亚基可通过肽键或在肽模拟物的情况下其他键(例如像)酯键或醚键连接。所述定义涵盖全长多肽、截短多肽、点突变体、***突变体、剪接变体、嵌合蛋白质及其片段。如本文所用，表达“基本上保守的氨基酸序列”是指来自不同来源的同一类型或家族的多肽之间氨基酸同源性的区。在本发明中，基本上保守的氨基酸序列的实例包括在图1中针对HAP3样多肽说明的那些。本领域的技术人员能够将来自不同来源的HAP3样多肽(包括HapY多肽)的氨基酸序列与图1的示意图进行比对以鉴别其中本文定义的基本上保守的氨基酸序列的区段。技术人员然后能够确定所鉴别的区段是否具有在本发明中公开和要求保护的特征。

如本文所用，“子代”意指生物体的后代(descendant/offspring)或衍生物。例如，来自转基因藻类的子代细胞是转基因藻类的子代。因为某些修饰可由于突变或环境影响而在下一代中出现，所以此类子代、后代或衍生物可能实际上与亲本细胞不相同，但仍然包括在如本文所用的术语的范围内。

如本文关于核酸分子所用的术语“重组”或“工程化”是指已通过人干预改变的核酸分子。作为非限制性实例，cDNA是重组DNA分子，如已通过体内聚合酶反应产生、或接头所连接的、或已被整合至载体(如克隆载体或表达载体)中的任何核酸分子。作为非限制性实例，重组核酸分子：1)已例如使用核酸分子的化学或酶技术(例如，通过使用化学核酸合成或通过使用用于复制、聚合、外切核酸酶消化、内切核苷酸消化、连接、逆转录、转录、碱基修饰(包括例如甲基化)或重组(包括同源和位点特异性重组))在体外合成或修饰；2)包含在自然中未连接的连接的核苷酸序列；3)已使用分子克隆技术进行工程化改造以使得其相对于天然存在的核酸分子序列缺乏一个或多个核苷酸；和/或4)已使用分子克隆技术操纵以使得其相对于天然存在的核酸序列具有一个或多个序列变化或重排。

如本文使用的术语“重组蛋白”是指通过基因工程改造产生的蛋白质，例如，通过在细胞中表达基因工程改造的核酸分子。

如在本发明中所用，术语“调控区”、“调控序列”、“调控元件”或“调控元件序列”是指影响转录或翻译起始或速率以及转录或翻译产物的稳定性和/或迁移率的核苷酸序列。这类调控区不需要是天然存在的序列。调控序列包括但不限于启动子序列、增强子序列、响应元件、蛋白质识别位点、诱导型元件、蛋白质结合序列、5'和3'非翻译区(UTR)、转录起始位点、终止序列、多腺苷酸化序列、内含子以及其组合。调控区通常包含至少一个核心(基本)启动子。调控区还可包含至少一个控制元件，如增强子序列、上游元件或上游活化区(UAR)。

如本文所用，“转基因生物体”是指包含异源多核苷酸的生物体。当应用于生物体时，在本文中互换使用的术语“转基因”或“重组”或“工程化改造”或“基因工程改造”是指已通过将外源或重组核酸序列引入生物体进行操纵的生物体。一般来说，异源多核苷酸被稳定地整合在基因组内，以使得多核苷酸传递至后代，但是它还可存在于附加体中，并且可存在于转基因生物体的合成染色体上。非天然多核苷酸可单独整合到基因组中或作为重组表达盒的一部分整合到基因组中。在另外的实例中，转基因微生物可包含可操作地连接至转基因微生物的内源基因的引入的外源调控序列。这类操纵的非限制性实例包括基因敲除、靶向突变和基因置换、启动子置换、缺失或***以及引入转基因至生物体中。重组或基因工程改造的生物体还可以是用于基因“敲低”的构建体已引入其中的生物体。这类构建体包括但不限于RNAi、微小RNA、shRNA、反义以及核酶构建体。还包括基因组已通过大范围核酸酶、锌指核酸酶、TALEN或cas核酸酶的活性改变的生物体。如本文所用，“重组微生物”或“重组宿主细胞”包括本发明的重组微生物的子代或衍生物。因为某些修饰可由于突变或环境影响而在下一代中出现，所以此类子代或衍生物可能实际上与亲本细胞不相同，但仍然包括在如本文所用的术语的范围内。

对于核酸和多肽，术语“变体”在本文用于表示合成或天然产生的在其核苷酸序列或氨基酸序列方面分别相较于参考多肽或多核苷酸具有一些不同的多肽、蛋白质或多核苷酸分子，以使得所述变体与所述参考多肽或多核苷酸具有至少70％序列同一性。在其他实施方案中，所述变体可与参考多肽或多核苷酸具有至少80％、至少95％、至少90％或至少95％、至少97％、至少98％或至少99％序列同一性。例如，这些不同包括参考多肽或多肽中的取代、***、缺失或这类变化的任何所需组合。多肽和蛋白质变体还可包括电荷和/或翻译后修饰(如糖基化、甲基化、磷酸化等)的变化。蛋白质的变体包括N或C末端截短的蛋白质，例如具有从蛋白质的N末端或C末端缺失的一至一百个氨基酸。

如本文所用，“载体”是指包含允许载体在宿主细胞中复制的可选择的标记基因或复制起点或自主复制序列(ARS)中的至少一个且在一些实例中包含可选择的标记基因和至少一个复制起点或ARS的核酸分子。在不同实例中，载体包含一个或多个表达序列和/或可包含至少一个用于介导重组的序列。

在本说明书中提到的所有出版物和专利申请以引用的方式并入本文，其程度如同具体地和单独地指出每个单独的出版物或专利申请以引用的方式并入。

不承认任何参考文献构成现有技术。参考文献的论述陈述其作者所声称的内容，并且本申请人保留质疑所引用文件的准确性和相关性的权利。应清楚了解，尽管在本文提及了多个现有技术公布；但这一提及并不承认任何这些文件构成本领域的普通常识的一部分。

本文给出的一般性方法的论述意图仅用于说明性目的。其他替代性方法和实施方案对于本领域的技术人员来说在回顾了本公开后将显而易见。

CCAAT-盒结合转录因子家族的HAP3(NF-YB)亚基

图1提供使用程序ClustalW(1.83)(Thompson等etal.,NucleicAcidsRes.,11月11日；22:4673-80,1994)用默认设置产生的序列比对，并且使用BOXSHADE(3.21)算法(www.ch.embnet.org/software/BOX_form.html)产生了黑色和灰色框。已经从微拟球藻Hap-Y(SEQIDNO:6)多肽与拟南芥的HAP3(还被称为NF-YB)多肽的这一序列比较分析鉴别了具有高度保守性的若干多肽结构域和基序。在本文所示的比对图中，所比对序列中的虚线表示空位，即在所述位置的氨基酸的缺乏。黑色框和灰色框分别鉴别所比对的序列之中相同的氨基酸和保守的氨基酸。指示了先前描述于例如美国专利号US6,781,035中的保守的DNA结合区和亚基相互作用区。在所述比对中，保守的B结构域在两个括号之间出现。对应于HAP3/NF-YB多肽中的每个的保守B结构域的氨基酸残基也在表1中指示。如此在所述比对中鉴别的相同残基、保守残基、保守基序和保守结构域构成来自不同生物体的HAP3/NF-YB多肽的序列中的保守氨基酸残基和特征的非限制性例证说明。

本文提供的非LEC1型HAP3样蛋白(例如，SEQIDNO:6、SEQIDNO:8、SEQIDNO:10、SEQIDNO:12、SEQIDNO:14、SEQIDNO:16、SEQIDNO:18、SEQIDNO:20、SEQIDNO:22、SEQIDNO:24、SEQIDNO:34、SEQIDNO:36、SEQIDNO:38、SEQIDNO:40、SEQIDNO:50和SEQIDNO:52)在其B结构域的指定位置(当将非LEC1型HAP3蛋白的氨基酸与SEQIDNO:4针对最大同源性进行比对时，对应于如图2中所示的SEQIDNO:4的氨基酸位置7、13、17、23、28、34、41、50、51、52、57、62、63、64、72和83)中缺乏LEC1和L1LHAP3样蛋白所特有的氨基酸。

LEC1型HAP3样蛋白所特有的氨基酸使用图1的氨基酸编号：M64、I70、R74、H80、D85、I91、Y98、N107、E108、R109、Q114、T119、A120、E121、K129和T140。这些氨基酸对应于使用图2的编号***的HAP3样蛋白的B结构域的氨基酸序列的位置7、13、17、23、28、34、41、50、51、52、57、62、63、64、72和83，其提供HapY(SEQIDNO:4)的B结构域的氨基酸序列。非LEC1型HAP3样多肽在B结构域的这些位置处具有与以上列举的那些氨基酸不同的氨基酸(Kwong等,2003,同上；Lee等,2003,同上)，如可在图2中提供的海洋富油微拟球藻HapY多肽的B结构域中看到，其中LEC1和LILB结构域的区别氨基酸(M64、I70、R74、H80、D85、I91、Y98、N107、E108、R109、Q114、T119、A120、E121、K129和T140)未在海洋富油微拟球藻的HapYB结构域(SEQIDNO:4，图2)或其他藻类和长短鞭毛体HAP3样多肽(在本文还被称为HapY多肽)的对应位置7、13、17、23、28、34、41、50、51、52、57、62、63、64、72和83处发现。因此，使用如在图2中所示的SEQIDNO:4的氨基酸位置编号，当将非LEC1型HAP3样蛋白的B结构域与SEQIDNO:4(图2)针对最大同源性进行比对时，非LEC1HAP3蛋白的B结构域不具有在位置7处的蛋氨酸(M)、在位置13处的异亮氨酸(I)、在位置17处的精氨酸(R)、在位置23处的组氨酸(H)、在位置28处的天冬氨酸(D)、在位置34处的异亮氨酸(I)、在位置41处的酪氨酸(Y)、在位置50处的天冬酰胺(N)、在位置51处的谷氨酸(E)、在位置52处的精氨酸(R)、在位置57处的谷氨酰胺(Q)、在位置62处的苏氨酸(T)、在位置63处的丙氨酸(A)、在位置64处的谷氨酸(E)、在位置72处的赖氨酸(K)以及在位置83处的苏氨酸(T)。

LEC1和L1L蛋白B结构域的MPIANVI(SEQIDNO:1)基序也未在非LEC1蛋白B结构域中找到(参见例如美国专利号7,868,229，图4B；Lee等,2003,同上,图1；Kwong等,2003,同上,图1)。代替“PIANO”基序(MPIANVI；SEQIDNO:1)，某些非LEC1型HAP3样蛋白(例如像本文公开的那些)可在其B结构域中具有氨基酸序列LeuProIleAlaAsnIleSer(LPIANIS；SEQIDNO:2)或氨基酸序列LeuProIleAlaAsnIleAla(LPIANIA；SEQIDNO:3)。本文公开的来自网粘菌纲(Labyrinthylomycetes)裂壶藻(Schizochytriumaggregatum)(SEQIDNO:50)和不动壶菌(Aplanochytriumsp.)(SEQIDNO:52)的非LEC1型HAP3样蛋白分别具有(代替“PIANO”基序)氨基酸序列LPVANIN(SEQIDNO:61)和LPIANIS(SEQIDNO:62)。

本发明的多核苷酸和多肽

在本发明的一方面，本公开提供分离或重组核酸分子、干扰这些核酸分子的核酸分子以及与这些核酸分子杂交的核酸分子。本申请的另外方面包括由本发明的分离或重组核酸分子编码的多肽。

如本文提供的分离或重组核酸分子具有编码多肽的序列，所述多肽具有与选自由以下组成的组的HAP3样蛋白B结构域具有至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性的氨基酸序列：SEQIDNO:4、SEQIDNO:8的氨基酸27-117、SEQIDNO:10的氨基酸23-113、SEQIDNO:12的氨基酸24-114、SEQIDNO:14的氨基酸24-114、SEQIDNO:16的氨基酸54-144、SEQIDNO:18的氨基酸19-109、SEQIDNO:20的氨基酸15-105、SEQIDNO:22的氨基酸18-108、SEQIDNO:24的氨基酸26-116、SEQIDNO:26的氨基酸29-119、SEQIDNO:28的氨基酸26-116、SEQIDNO:30的氨基酸23-113、SEQIDNO:32的氨基酸26-116、SEQIDNO:34的氨基酸20-110、SEQIDNO:36的氨基酸16-106、SEQIDNO:38的氨基酸24-114、SEQIDNO:40的氨基酸21-111、SEQIDNO:42的氨基酸29-119、SEQIDNO:44的氨基酸20-110、SEQIDNO:46的氨基酸20-110、SEQIDNO:50的氨基酸9-96以及SEQIDNO:52的氨基酸16-106。所述编码的多肽可包含例如非LEC1型HAP3样蛋白B结构域。在一些实例中，所述非LEC1型HAP3样蛋白B结构域氨基酸序列可包含SEQIDNO:2或SEQIDNO:3的基序。

非LEC1型HAP3多肽可通过如上文提供且例如在图1中描绘的B结构域的序列特征来鉴别，其中非LEC1型HAP3蛋白由At4g14540(NF-YB3；NM_117534)、At2g38880(NF-YB1；BT005536)和At5g47640(NF-YB2；NM_124138)表示。

“非LEC1型HAP3样蛋白B结构域”是大约90个氨基酸(例如，91个氨基酸)的序列，所述序列与任何表征的非LEC1型HAP3蛋白的B结构域具有至少65％、至少70％或至少75％，且在一些实例中至少80％、至少85％、至少90％、至少95％同一性，其中所述非LEC1型HAP3样蛋白B结构域包含与LEC1和LEC1样(L1L)蛋白的B结构域的同一位置处出现的氨基酸不同的十六个氨基酸残基。由Kwong等(2003，同上)鉴别为LEC1和L1LHAP3样蛋白特有的十六个氨基酸相对于SEQIDNO:48(作为拟南芥LEC1在图1中描绘)是：M64、I70、R74、H80、D85、I91、Y98、N107、E108、R109、Q114、T119、A120、E121、K129以及T140这些是在对应于如图2中所示的SEQIDNO:4的位置7、13、17、23、28、34、41、50、51、52、57、62、63、64、72和83的位置处的氨基酸。因此，当将非LEC1B结构域与SEQIDNO:4针对最大同源性进行比较时，非LEC1型蛋白B结构域不具有以下中的一个或多个：在对应于SEQIDNO:4的氨基酸位置7的氨基酸位置处的蛋氨酸(M)；在对应于SEQIDNO:4的氨基酸位置13的氨基酸位置处的异亮氨酸(I)；在对应于SEQIDNO:4的氨基酸位置17的氨基酸位置处的精氨酸(R)；在对应于SEQIDNO:4的氨基酸位置23的氨基酸位置处的组氨酸(H)；在对应于SEQIDNO:4的氨基酸位置28的氨基酸位置处的天冬氨酸(D)；在对应于SEQIDNO:4的氨基酸位置34的氨基酸位置处的异亮氨酸(I)；在对应于SEQIDNO:4的氨基酸位置41的氨基酸位置处的酪氨酸；在对应于SEQIDNO:4的氨基酸位置50的氨基酸位置处的天冬酰胺(N)；在对应于SEQIDNO:4的氨基酸位置51的氨基酸位置处的谷氨酸(E)；在对应于SEQIDNO:4的氨基酸位置52的氨基酸位置处的精氨酸(R)；在对应于SEQIDNO:4的氨基酸位置57的氨基酸位置处的谷氨酰胺(Q)；在对应于SEQIDNO:4的氨基酸位置62的氨基酸位置处的苏氨酸(T)；在对应于SEQIDNO:4的氨基酸位置63的氨基酸位置处的丙氨酸(A)；在对应于SEQIDNO:4的氨基酸位置64的氨基酸位置处的谷氨酸(E)；在对应于SEQIDNO:4的氨基酸位置72的氨基酸位置处的赖氨酸(K)；以及在对应于SEQIDNO:4的氨基酸位置83的氨基酸位置处的苏氨酸(T)。在一些实例中，如本文提供的非LEC1型蛋白包含B结构域，当将非LEC1蛋白的B结构域与SEQIDNO:4的B结构域针对最大同源性进行比较时，所述B结构域不具有在所述B结构域中的对应氨基酸位置处的任何上述指定氨基酸；例如，相对于如SEQIDNO:4提供的B结构域不具有以下中的任一个：M7、I13、R17、H23、D28、I34、Y41、N50、E51、R52、Q57、T62、A63、E64、K72以及T83。

如本文提供的分离或重组核酸分子可编码与植物或微生物物种的HAP3样多肽，例如像植物、微藻或长短鞭毛体物种的非LEC1型HAP3样多肽具有至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性的多肽。或者或此外，所述核酸序列可编码与SEQIDNO:6、SEQIDNO:8、SEQIDNO:10、SEQIDNO:12、SEQIDNO:14、SEQIDNO:16、SEQIDNO:18、SEQIDNO:20、SEQIDNO:22、SEQIDNO:24、SEQIDNO:34、SEQIDNO:36、SEQIDNO:38、SEQIDNO:40、SEQIDNO:50或SEQIDNO:52具有至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性的多肽。

在一些实例中，所述分离或重组核酸分子包含编码具有HAP3样蛋白B结构域的多肽的序列，所述HAP3样蛋白B结构域具有与以下各项具有至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性的氨基酸序列：SEQIDNO:4、SEQIDNO:8的氨基酸27-117、SEQIDNO:10的氨基酸23-113、SEQIDNO:12的氨基酸24-114、SEQIDNO:14的氨基酸24-114、SEQIDNO:16的氨基酸54-144、SEQIDNO:18的氨基酸19-109、SEQIDNO:20的氨基酸15-105、SEQIDNO:22的氨基酸18-108、SEQIDNO:24的氨基酸26-116、SEQIDNO:34的氨基酸20-110、SEQIDNO:36的氨基酸16-106、SEQIDNO:38的氨基酸24-114、SEQIDNO:40的氨基酸21-111、SEQIDNO:50的氨基酸9-96或SEQIDNO:52的氨基酸16-106，其中所述多肽与微藻或长短鞭毛体物种的多肽，例如与SEQIDNO:6、SEQIDNO:8、SEQIDNO:10、SEQIDNO:12、SEQIDNO:14、SEQIDNO:16、SEQIDNO:18、SEQIDNO:20、SEQIDNO:22、SEQIDNO:24、SEQIDNO:34、SEQIDNO:36、SEQIDNO:38、SEQIDNO:40、SEQIDNO:50或SEQIDNO:52具有至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性。HAP3样蛋白B结构域可以是非LEC1型HAP3样蛋白B结构域。在一些实例中，非LEC1型HAP3样蛋白B结构域可包含SEQIDNO:2或SEQIDNO:3的氨基酸序列。

在其他实例中，本文提供分离或重组核酸分子，所述核酸分子包含编码多肽(如HAP3样蛋白)的核酸序列，所述多肽与SEQIDNO:6、SEQIDNO:8、SEQIDNO:10、SEQIDNO:12、SEQIDNO:14、SEQIDNO:16、SEQIDNO:18、SEQIDNO:20或SEQIDNO:22具有至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性，其中所述多肽包含B结构域，所述B结构域与SEQIDNO:4、SEQIDNO:8的氨基酸27-117、SEQIDNO:10的氨基酸23-113、SEQIDNO:12的氨基酸24-114、SEQIDNO:14的氨基酸24-114、SEQIDNO:16的氨基酸54-144、SEQIDNO:18的氨基酸19-109、SEQIDNO:20的氨基酸15-105或SEQIDNO:22的氨基酸18-108具有至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性。此外，HAP3样蛋白B结构域可以是非LEC1型HAP3样蛋白B结构域并且可包含SEQIDNO:2或SEQIDNO:3的氨基酸序列。

在另外实例中，本文提供分离或重组核酸分子，所述核酸分子包含编码多肽(如HAP3样蛋白)的核酸序列，所述多肽与SEQIDNO:6、SEQIDNO:8、SEQIDNO:10、SEQIDNO:12、SEQIDNO:14、SEQIDNO:16、SEQIDNO:18、SEQIDNO:20或SEQIDNO:22具有至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性，其中所述多肽包含B结构域，所述B结构域与SEQIDNO:4、SEQIDNO:8的氨基酸58-148、SEQIDNO:10的氨基酸23-113、SEQIDNO:12的氨基酸24-114、SEQIDNO:14的氨基酸24-114、SEQIDNO:16的氨基酸54-144、SEQIDNO:18的氨基酸19-109、SEQIDNO:20的氨基酸15-105或SEQIDNO:22的氨基酸18-108具有至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性。在另外实例中，分离或重组核酸分子包含编码多肽(如HAP3样蛋白)的核酸序列，所述多肽与SEQIDNO:6、SEQIDNO:8、SEQIDNO:10、SEQIDNO:12、SEQIDNO:14、SEQIDNO:16、SEQIDNO:18、SEQIDNO:20或SEQIDNO:22具有至少95％、至少96％、至少97％、至少98％或至少99％同一性，其中所述多肽包含HAP3样蛋白B结构域，所述B结构域与SEQIDNO:4、SEQIDNO:8的氨基酸58-148、SEQIDNO:10的氨基酸23-113、SEQIDNO:12的氨基酸24-114、SEQIDNO:14的氨基酸24-114、SEQIDNO:16的氨基酸54-144、SEQIDNO:18的氨基酸19-109、SEQIDNO:20的氨基酸15-105或SEQIDNO:22的氨基酸18-108具有至少95％、至少96％、至少97％、至少98％或至少99％同一性。所述HAP3样蛋白B结构域可以是非LEC1型HAP3样蛋白B结构域并且可包含SEQIDNO:2或SEQIDNO:3的氨基酸序列。

在核苷酸水平，如本文提供的核酸分子可在一些实例中与SEQIDNO:5、SEQIDNO:7、SEQIDNO:9、SEQIDNO:11、SEQIDNO:13、SEQIDNO:15、SEQIDNO:17、SEQIDNO:19、SEQIDNO:21、SEQIDNO:23、SEQIDNO:33、SEQIDNO:35、SEQIDNO:37、SEQIDNO:39、SEQIDNO:49以及SEQIDNO:51中的一个或多个或与所列出序列中的任一个的区或片段共有至少约30％、35％、40％或45％核苷酸序列同一性，且在一些实例中至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％或至少约80％序列同一性，例如至少约85％、至少约90％、至少约95％或至少约97％序列同一性。例如，如本文提供的核酸分子可在一些实例中与SEQIDNO:5、SEQIDNO:7、SEQIDNO:9、SEQIDNO:11、SEQIDNO:13、SEQIDNO:15、SEQIDNO:17、SEQIDNO:19或SEQIDNO:21中的一个或多个具有至少50％、至少55％、至少60％、至少65％、至少70％、至少75％或至少80％序列同一性，例如至少85％、至少90％、至少95％或至少97％序列同一性。在其他实例中，如本文提供的核酸分子可与SEQIDNO:5、SEQIDNO:7、SEQIDNO:9、SEQIDNO:11、SEQIDNO:13、SEQIDNO:15、SEQIDNO:17、SEQIDNO:19、SEQIDNO:21、SEQIDNO:23、SEQIDNO:33、SEQIDNO:35、SEQIDNO:37、SEQIDNO:39、SEQIDNO:49以及SEQIDNO:51中的一个或多个或其任何互补序列(包括可例如在RNAi或反义RNA构建体中提供的任何前述序列的一部分的互补序列)具有至少85％、至少90％、至少95％或至少97％序列同一性。

在不同实例中，本文公开的核酸分子包含编码HapY多肽的核酸序列，所述多肽即与藻类或长短鞭毛体物种的天然存在的多肽具有至少65％序列同一性、例如与藻类或长短鞭毛体物种的天然存在的多肽具有至少85％序列同一性的非LEC1型HAP3多肽。

或者或除了如本文提供的非LEC1型HAP3(NF-YB)多肽之外，核酸分子可编码NF-YC多肽和/或NF-YA多肽。在不将本发明限制为任何具体机制的情况下，NF-YB多肽可以是在作为包含NFY-C多肽和/或NF-YA多肽的复合物的一部分的细胞中功能性的。如在实施例9和10中所展示，本发明人分离了与微拟球藻NF-YB多肽(在本文被称为HAP-Y，一种非LEC1型HAP3多肽)相互作用的NF-YC和NF-YA多肽。如本文公开的编码NF-YC和NF-YA多肽的核酸分子也可在微生物中表达以用于提高生长速率和/或生产率。

例如，本文提供编码多肽的核酸分子，所述多肽与SEQIDNO:64、SEQIDNO:65、SEQIDNO:66或SEQIDNO:68具有至少65％、至少70％、至少75％或至少80％序列同一性，例如至少85％、至少90％、至少95％、至少96％或至少97％、至少98％、至少99％或100％同一性。所述多肽可以是NF-YC多肽。所述核酸分子可在一些实例中与SEQIDNO:63具有至少50％、至少55％、至少60％、至少65％、至少70％、至少75％或至少80％序列同一性，例如至少85％、至少90％、至少95％或至少97％序列同一性。

在另外实例中，本文提供编码多肽的核酸分子，所述多肽与SEQIDNO:70具有至少65％、至少70％、至少75％或至少80％序列同一性，例如至少85％、至少90％、至少95％、至少96％或至少97％、至少98％、至少99％或100％同一性。所述多肽可以是NF-YA多肽。所述核酸分子可在一些实例中与SEQIDNO:69具有至少50％、至少55％、至少60％、至少65％、至少70％、至少75％或至少80％序列同一性，例如至少85％、至少90％、至少95％或至少97％序列同一性。

如本文提供的分离或重组核酸分子可在一些实例中具有与天然存在的基因的核苷酸序列不同(即，与所述核苷酸序列非100％相同)的核苷酸序列和/或所述分离或重组核酸分子可以是cDNA。例如，如本文提供的分离或重组核酸分子可包含蛋白质编码区，所述蛋白质编码区缺乏在包含所述基因的生物体的基因组中发现的一个或多个***非编码序列(内含子)，并且可包含所述基因的两个或更多个连续的蛋白质编码序列，其中所述两个或更多个序列由生物体的未改变的基因组中的内含子隔开。例如，核酸分子可包括cDNA，其中所述cDNA包含与在天然存在的生物体的基因组中发现的序列不同的序列。或者或此外，所述核酸分子可包含蛋白质编码基因，所述蛋白质编码基因包含不连续的具有非遗传修饰的生物体的基因组中的核酸分子的蛋白质编码部分的5’非翻译区。或者或除了上述中的任一者之外，所述核酸分子可具有如下序列，所述序列相对于生物体的基因组中的天然存在的基因的序列具有一个或多个核碱基变化。例如，所述核酸分子可具有如下序列，所述序列相对于生物体的基因组中的天然存在的基因的序列具有一个或多个核碱基取代、缺失或添加。

此外，当在微生物宿主细胞中表达时，如本文提供的分离或重组核酸分子可对所述微生物宿主细胞赋予较高生产率。在一些实例中，如本文公开的核酸分子在微藻或长短鞭毛体细胞中的表达可产生当与不表达所述核酸分子的对照细胞相比较时具有更高生产率的微藻或长短鞭毛体细胞，例如，所述微藻宿主细胞可展示更高生长速率、更大生物质生产率或更高生物分子(例如像，脂质、蛋白质、色素或碳水化合物，包括醇)产生速率或水平。例如，所述宿主细胞可表现出相对于对照细胞，所述宿主细胞被工程化改造以合成的一种或多种产物的更高生产率。

可使用重组DNA技术(例如，逆转录、限制、连接、聚合酶反应，包括聚合酶链式反应(PCR)扩增、克隆、体外或体内重组等中的任一者或任一者的组合)或化学合成产生本发明的分离核酸分子。分离的核酸分子包括天然核酸分子及其同源物，包括但不限于天然等位基因变体和修饰的核酸分子，其中核苷酸以这类修饰对如本文所述的CCAAT-盒结合因子的生物活性提供所需作用的这种方式***、缺失和/或取代。

可使用本领域的技术人员已知的多种方法产生核酸分子变体(参见例如，Sambrook等MolecularCloning:ALaboratoryManual.第2版N.Y.,ColdSpringHarborLaboratory,ColdSpringHarborLaboratoryPress,1989)。例如，可使用多种技术修饰核酸分子，所述技术包括但不限于，经典诱变技术和重组DNA技术，如定点诱变、化学处理核酸分子以诱导突变、核酸片段的限制酶裂解、核酸片段的连接、核酸序列的选定区域的PCR扩增和/或诱变、寡核苷酸混合物的合成以及混合物基团的连接以“构建”核酸分子的混合物及其组合。核酸分子同源物可选自通过筛选由所述核酸编码的蛋白质的功能和/或通过与野生型基因杂交修饰的核酸的混合物。

根据本申请的一些实施方案，本发明的核酸分子将包括在中等或高严格度条件下与SEQIDNO:5、SEQIDNO:7、SEQIDNO:9、SEQIDNO:11、SEQIDNO:13、SEQIDNO:15、SEQIDNO:17、SEQIDNO:19、SEQIDNO:21、SEQIDNO:23、SEQIDNO:33、SEQIDNO:35、SEQIDNO:37、SEQIDNO:39、SEQIDNO:49和SEQIDNO:51、其片段及其互补序列以及其片段中的一个或多个特异性地杂交的那些核酸分子。在具体实例中，本发明的核酸分子可包含在高严格度条件下与选自由以下组成的组的核酸序列、其互补序列或任一者的片段杂交的核酸序列：SEQIDNO:5、SEQIDNO:7、SEQIDNO:9、SEQIDNO:11、SEQIDNO:13、SEQIDNO:15、SEQIDNO:17、SEQIDNO:19以及SEQIDNO:21。

如本文所用，如果两种分子能够形成反平行双链核酸结构，则据称两种核酸分子能够特异性地彼此杂交。如果两种分子可以足够稳定性彼此杂交以允许它们在至少常规低严格度条件下保持彼此退火，则据称所述两种分子是最小互补的。类似地，如果所述分子可以足够稳定性彼此杂交以允许它们在常规高严格度条件下保持彼此退火，则据称所述两种分子是互补的。如果核酸分子表现出完全互补性，则据称核酸分子是另一种核酸分子的互补序列。如本文所用，当分子中的一种的每一核苷酸与另一种的核苷酸互补时，据称所述分子表现出完全互补性。从完全互补性的偏离是允许的，只要这类偏离不完全排除分子形成双链结构的能力。因此，为了使本发明的核酸分子或其片段充当引物或探针，仅需要序列的足够互补以便能够在所采用的具体溶剂和盐溶度下形成稳定双链结构。

常规严格度条件由Sambrook等,同上和Haymes等在NucleicAcidHybridization,APracticalApproach,IRLPress,Washington,D.C.(1985)中进行描述。例如，促进DNA杂交的适当严格度条件包括例如在约45℃下6.0×氯化钠/柠檬酸钠(SSC)的洗涤，接着在50℃下2.0×SSC的洗涤。此外，洗涤步骤中的温度可从在室温(约22℃)下的低严格度条件增加至在约65℃下的高严格度条件。温度和盐两者均可改变，或温度抑或盐浓度可在另一个变量改变时保持恒定。这些和其他条件是本领域的技术人员已知的，或可在CurrentProtocolsinMolecularBiology,JohnWiley&Sons,N.Y.(1989),6.3.1-6.3.6中找到。低严格度条件可用于选择与靶核酸序列具有较低序列同一性的核酸序列。可能希望采用以下条件，如约0.15M至约0.9M氯化钠，在约20℃至约55℃范围内的温度下。高严格度条件可用于选择与所公开的核酸序列具有高度同一性的核酸序列(Sambrook等,1989,同上)。高严格度条件通常涉及在约2×至约10×SSC(从含有蒸馏水中的3M氯化钠和0.3M柠檬酸钠(pH7.0)的20×SSC储备溶液稀释的)、约2.5×至约5×登哈特氏溶液(从含有蒸馏水中的1％(w/v)牛血清白蛋白、1％(w/v)聚蔗糖和1％(w/v)聚乙烯吡咯烷酮的50×储备溶液稀释的)、约10mg/mL至约100mg/mL鱼***DNA、以及约0.02％(w/v)至约0.1％(w/v)SDS中核酸杂交，其中在约50℃至约70℃下孵育数小时至过夜。高严格度条件优选地由6×SSC、5×登哈特氏溶液、100mg/mL鱼***DNA和0.1％(w/v)SDS与在55℃下孵育数小时来提供。杂交之后通常是若干洗涤步骤。洗涤组合物通常包含0.5×至约10×SSC和0.01％(w/v)至约0.5％(w/v)SDS，与在约20℃至约70℃下孵育15分钟。优选地，核酸区段在65℃下在0.1×SSC中洗涤至少一次之后保持杂交。

本发明的核酸分子的亚组包括所公开的多核苷酸的由至少12、至少15、例如至少16或17、或例如至少18或19、如至少20或更多个连续核苷酸的寡核苷酸组成的片段。这类寡核苷酸是具有选自序列表中的多核苷酸序列的序列的较大分子的片段，并且例如可用作干扰分子、探针和引物以用于检测本发明的多核苷酸。

本发明的核酸分子的最小大小是足以形成探针或寡核苷酸引物的大小，所述探针或寡核苷酸引物能够(例如，在中等、高或非常高严格度条件下)与适用于本发明中的核酸分子的互补序列形成稳定杂合体；或具有足以编码具有根据本发明的多肽(例如本文公开的HapY和其他HAP3样蛋白)的至少一个结构域的生物活性的氨基酸序列的大小。因而，编码这种蛋白质的核酸分子的大小可依赖于核酸组成和所述核酸分子与互补序列之间的同源性或同一性百分比以及杂交条件本身(例如，温度、盐浓度和甲酰胺浓度)。用作寡核苷酸引物或探针的核酸分子的最小大小通常是长度为至少约12至约15个核苷酸(如果所述核酸分子是富含GC的)和长度为至少约15至约18个碱基(如果所述核酸分子是富含AT的)。除了实用性限制外，对本发明的核酸分子的最大大小没有限制，因为所述核酸分子可包含足以编码HapY或HAP3样多肽的结构域的生物活性片段、整个HapY或HAP3样多肽或编码HapY或HAP3样多肽的开放阅读框内的若干结构域的序列。

在各个实例中，本发明提供包含编码多肽的区的核苷酸序列，所述多肽可以是通过由多核苷酸表示的基因编码的完全蛋白质或可以是所编码的蛋白质的片段。例如，本文提供的多核苷酸可编码构成完全蛋白质的实质性部分，例如构成完全蛋白质的提供相关生物活性(例如CCAAT-盒转录因子的HapY或HAP3亚基的活性)的足够部分的多肽。特别感兴趣的是本发明的编码HAP3样多肽的多核苷酸。这类多核苷酸可在转基因细胞或转基因生物体中表达以产生具有较高生产率，例如较高生物质生产率的细胞和生物体。

本发明还涵盖为这些HAP3样或HapY编码核苷酸序列的片段的核酸分子。如本文所用，“HapY片段”或“HAP3样片段”意图是编码HapY或HAP3样多肽的核苷酸序列的一部分。核苷酸序列的片段可编码HapY或HAP3样多肽的生物活性部分，或它可以是使用下文公开的方法用作杂交探针或PCR引物的片段。如本文公开的核酸分子可以是所公开的多核苷酸的片段，所述片段由至少12、至少15、至少20、至少50、至少100、至少200、至少500或至少1000个连续核苷酸，或多达存在于本文公开的全长HapY或HAP3样蛋白编码核苷酸序列中的核苷酸的数目的寡核苷酸组成。例如，取决于所意图的用途，为HAP3样核苷酸序列的片段的核酸分子包含至少约50、100、200、300、400、500、600、700、800、900、1000、1050、1100、1150、1200、1250、1300、1350、1400、1450、1500、1550、1600、1650、1700、1750、1800、1850、1900、1950、2000、2050、2100、2150、2200、2250、2300、2350、2400、2450、2500、2550、2600、2650、2700、2750、2800、2850、2900、2950、3000、3050、3100、3150、3200、3250、3300、3350个连续核苷酸或多达存在于本文公开的全长HapY或HAP3样蛋白编码核苷酸序列(例如，SEQIDNO:5、SEQIDNO:7、SEQIDNO:9、SEQIDNO:11、SEQIDNO:13、SEQIDNO:15、SEQIDNO:17、SEQIDNO:19、SEQIDNO:21、SEQIDNO:23、SEQIDNO:33、SEQIDNO:35、SEQIDNO:37、SEQIDNO:39、SEQIDNO:49或SEQIDNO:51)中的核苷酸的数目。在一些实例中，由本文提供的核酸序列编码的HapY或HAP3样片段可具有相对于SEQIDNO:4、SEQIDNO:6、SEQIDNO:8、SEQIDNO:10、SEQIDNO:12、SEQIDNO:14、SEQIDNO:16、SEQIDNO:18、SEQIDNO:20、SEQIDNO:22、SEQIDNO:32、SEQIDNO:34、SEQIDNO:36、SEQIDNO:38、SEQIDNO:50以及SEQIDNO:52中的任一者的至少约100个氨基酸、约120个、约130个、约140个、约150个或约160个氨基酸的N末端或C末端截短。

本发明的核苷酸序列的片段包括编码保留HAP3样蛋白的生物活性的蛋白质片段的那些。“保留活性”意指所述片段将具有至少约30％、至少约50％、至少约70％、80％、90％、95％或更高的HapY多肽活性。用于测量HAP3样多肽的活性的方法是本领域中熟知的且已广泛地记载。例如，HAP3样多肽与CCAAT-盒靶核苷酸序列(包括反向CCAAT-盒靶核苷酸序列)的DNA结合活性可通过体外电泳凝胶迁移率测定(EMSA)(参见例如，Ohga等,J.Biol.Chem.,273:5997-6000,1998；Ise等,CancerRes.59,342–346,15,1999；以及Butler等,PNAS第99卷第18期11700-11705,2002)；或DNA足迹分析(参见例如，Kato等,Mol.Gen.Genet.,257,404–411,1998；Morgan等,Mol.Cell.Biol.第7卷第3期1129-1138,1987)来测定。可用于测量HAP3样多肽的生物活性的技术的其他实例包括酵母双杂交***和免疫共沉淀，所述两者均可用于评定HAPY多肽与CCAAT-盒结合复合物的其他亚基相互作用的能力，如在例如McNabb等,GenesDev.9:47-58,1995；Calvenzani等,PLoSONE7(8):e42902,2012；Zhu等,J.Biol.Chem.279,29902-29910,2004；以及Hackenberg等,Mol.Plant5(4):876-888,2012中所描述。

此外，如本文提供的核酸分子，包括包含编码HapY或HAP3样多肽的片段的序列的核酸分子可在重组宿主细胞中表达，并且可测定所述核酸分子的表达对生物体的生产率的作用。可例如通过以下各项来测量生产率：生长测定(例如，通过细胞计数或光密度监测繁殖)，测定随时间推移累积的总有机碳(TOC)或无灰干重，或使用本领域中使用的方法，包括但不限于气相色谱法(GC)、HPLC、免疫检测、生物化学和/或酶检测等来评定任何目标产物(例如蛋白质、碳水化合物、脂质、色素等)的量。

在本发明中还关注本文提供的多核苷酸的变体。这类变体可以是天然存在的，包括来自相同或不同物种的同源多核苷酸，或可以是非天然变体，例如使用化学合成方法合成或使用重组DNA技术产生的多核苷酸。关于核苷酸序列，遗传密码的简并性提供用不同碱基取代基因的蛋白质编码序列的至少一个碱基而不引起从所述基因产生的多肽的氨基酸序列改变的可能性。因此，本发明的DNA还可具有任何碱基序列，所述序列已根据遗传密码的简并性通过取代从序列表中的任何多核苷酸序列改变。描述密码子使用的参考文献是可容易地获得的。

此外，熟练的技术人士将进一步了解，可通过本发明的核苷酸序列的突变引入变化，从而产生所编码的HapY或HAP3样蛋白的氨基酸序列的改变，而不改变所述蛋白质的生物活性。因此，可通过将一个或多个核苷酸取代、添加或缺失引入本文公开的对应核苷酸序列来产生变体分离的核酸分子，以使得一个或多个氨基酸取代、添加或缺失被引入所编码的蛋白质中。可通过标准技术(如定点诱变和PCR介导的诱变)来引入突变。本发明也涵盖这类变体核苷酸序列。

例如，可在一个或多个预测的非必需氨基酸残基处进行保守性氨基酸取代。如本文所用，“非必需”氨基酸残基是可从当前公开的HapY蛋白的野生型序列改变而不改变生物活性的残基，而“必需”氨基酸残基是生物活性所需的。“保守性氨基酸取代”是以下取代，其中氨基酸残基被具有相似侧链的氨基酸残基置换。具有相似侧链的氨基酸残基的家族已在本领域中明确定义。这些家族包括具有碱性侧链的氨基酸(例如，赖氨酸、精氨酸、组氨酸)、具有酸性侧链的氨基酸(例如，天冬氨酸、谷氨酸)、具有不带电的极性侧链的氨基酸(例如，甘氨酸、天冬酰胺、谷氨酰胺、丝氨酸、苏氨酸、酪氨酸、半胱氨酸)、具有非极性侧链的氨基酸(例如，丙氨酸、缬氨酸、亮氨酸、异亮氨酸、脯氨酸、苯丙氨酸、蛋氨酸、色氨酸)、具有β-支链侧链的氨基酸(例如，苏氨酸、缬氨酸、异亮氨酸)以及具有芳族侧链的氨基酸(例如，酪氨酸、苯丙氨酸、色氨酸、组氨酸)。

在具体非限制性例证说明中，HapY蛋白和其他HAP3同源物的结构域和基序在图1和图2中指示并且可在序列表的序列中识别。如上文所论述，本领域的技术人员将了解，氨基酸取代可在保留多肽的功能的非保守区中进行。一般来说，这类取代将不对保守性氨基酸残基或驻留在保守基序内的氨基酸残基进行，其中这类残基可能是蛋白质活性所必需的。为保守的且可能是蛋白质活性所需的残基的实例包括例如，在本发明的氨基酸序列与已知的HAP3样蛋白序列的比对中包括的所有蛋白质之间相同的残基。为保守的但可允许保守性氨基酸取代且仍保留活性的残基的实例包括例如，在本发明的氨基酸序列与已知的HAP3样序列的比对中包括的所有蛋白质之间仅具有保守性取代的残基。然而，本领域的技术人员将理解，功能变体可在所述保守残基中具有微小保守性改变或非保守性改变。

HapY变体包括具有与序列表中的多肽中的任一个(例如，SEQIDNO:6、SEQIDNO:8、SEQIDNO:10、SEQIDNO:12、SEQIDNO:14、SEQIDNO:16、SEQIDNO:18、SEQIDNO:20、SEQIDNO:22、SEQIDNO:24、SEQIDNO:34、SEQIDNO:36、SEQIDNO:38、SEQIDNO:40、SEQIDNO:50以及SEQIDNO:52)因在对应于如图1中鉴别的保守氨基酸残基的一个或多个位置处的至少一个氨基酸缺失、***或取代以及其任何组合而不同的氨基酸序列的蛋白质。在一些优选的实施方案中，这类HapY变体包括具有与序列表中的多肽中的任一个因在对应于如图1中鉴别的保守氨基酸残基的一个或多个位置处的氨基酸缺失、***或取代以及其任何组合而不同的氨基酸序列的蛋白质。

或者或此外，变体核苷酸序列可通过沿编码序列的全部或一部分随机引入突变(如通过饱和诱变)来制备，并且可随后针对HAP3样蛋白的赋予活性的能力对所得突变体进行筛选以便鉴别保留HAP3样或HapY蛋白活性的突变体。例如，在诱变之后，可重组表达所编码的蛋白质，并且可使用如上文所公开的标准测定技术来测定所述蛋白质的活性。

用于这类操纵的方法是在本领域中已知的。例如，可通过DNA中的突变来制备HAP3样或HapY蛋白的氨基酸序列变体。这还可通过几种形式的诱变中的一种和/或在定向进化来完成。在一些方面，在氨基酸序列中编码的变化将不会实质上影响蛋白质的功能。这类变体将具有所需的HAP3样或HapY活性。然而，应理解，HAP3样或HapY多肽赋予生产率提高的能力可通过对本发明的组合物使用这类技术来改进。例如，可在于DNA复制期间表现出高碱基错掺率的宿主细胞(如StratageneXL-1红细胞(FischerScientific))中表达HAP3样或HapY多肽。在这类菌株或细胞中繁殖之后，可分离HAP3样蛋白或HapY编码DNA(例如通过制备质粒DNA或通过经由PCR扩增且将所得到的PCR片段克隆至载体中)，接着在非诱变菌株或细胞中培养突变的HAP3样蛋白或HapY基因，并且鉴别突变的HAP3样蛋白或HapY基因是否具有提高宿主细胞生产率的能力，例如通过进行测定以测试体内或体外HAP3样蛋白或HapY活性来鉴别。

或者或此外，可在氨基或羧基末端处对许多蛋白质的蛋白质序列进行改变而不实质上影响活性。这可包括通过现代分子方法引入的***、缺失或改变，所述方法如PCR，包括凭借在用于PCR扩增的寡核苷酸中包括氨基酸编码序列来改变或延伸蛋白质编码序列的PCR扩增。或者，所添加的蛋白质序列可包括整个蛋白质编码序列，如通常在本领域中用于产生蛋白质融合物的那些。这类融合蛋白经常用于(1)增加目标蛋白质的表达(2)引入结合结构域、酶活性或表位以有助于蛋白质纯化、蛋白质检测或本领域中已知的其他实验用途(3)靶向蛋白质分泌或翻译至亚细胞细胞器，如革兰氏阴性细菌的周质间隙或真核细胞的内质网，后者经常产生蛋白质的糖基化。

结构域交换或改组是用于产生改变的HAP3样或HapY蛋白的另一种机制。保守结构域可在HAP3样或HapY蛋白之间交换，从而产生具有改进的生物质生产率的杂合或嵌合HAP3样或HapY多肽。用于产生重组蛋白质和针对改进的生物质生产率对所述重组蛋白质进行测试的方法是本领域中已知的。因此，本发明的分子还包括两种或更多种HAP3样或HapY基因或多肽之间的融合。不同基因或多肽的不同结构域可被融合。HAP3样或HapY基因融合物可直接地连接或可通过连接两个或更多个融合配偶体的另外氨基酸来连接。

可通过基本重组DNA技术产生基因融合物，所述技术的实例在本文在以下进行描述。基因融合物的选择将取决于由基因融合引起的所需表型。例如，如果与一种HAP3样蛋白或HapY蛋白的A结构域相关的表型是与第二HAP3样或HapY蛋白的B结构域相关的表型所需的，则将产生第一HAP3样或HapY蛋白的A结构域与第二HAP3样或HapY蛋白的B结构域的融合物。可随后针对所需表型在体外或体内对所述融合物进行测试。

HAP3样或HapY多肽也涵盖于本发明内。在所述方面的一个实施方案中，所谓“HapY多肽”意指具有包括序列表中的氨基酸序列中的任一个(例如，SEQIDNO:4、SEQIDNO:6、SEQIDNO:8、SEQIDNO:10、SEQIDNO:12、SEQIDNO:14、SEQIDNO:16、SEQIDNO:18、SEQIDNO:20、SEQIDNO:22、SEQIDNO:24、SEQIDNO:34、SEQIDNO:36、SEQIDNO:38、SEQIDNO:40、SEQIDNO:50以及SEQIDNO:52)的氨基酸序列的多肽或其变体。其片段、生物活性部分和变体也提供并且可用于实践本发明的方法。

改变的或改进的变体：考虑CCAAT-盒转录因子的HapY或其他HAP3/NF-YB同源物的DNA序列可通过各种方法改变，并且这些改变可产生编码蛋白质的DNA序列，所述序列具有与由本发明的HapY基因编码的氨基酸序列不同的氨基酸序列。所述HAP3样或HapY蛋白可以各种方式改变，包括在序列表中列出的多肽序列的一个或多个氨基酸的氨基酸取代、缺失、截短和***，包括多达约2、约3、约4、约5、约6、约7、约8、约9、约10、约15、约20、约25、约30、约35、约40、约45、约50、约55、约60、约65、约70、约75、约80、约85、约90、约100、约105、约110、约115、约120、约125、约130个或更多个氨基酸取代、缺失或***。

还考虑与SEQIDNO:6、SEQIDNO:8、SEQIDNO:10、SEQIDNO:12、SEQIDNO:14、SEQIDNO:16、SEQIDNO:18、SEQIDNO:20、SEQIDNO:22、SEQIDNO:24、SEQIDNO:34、SEQIDNO:36、SEQIDNO:38、SEQIDNO:40、SEQIDNO:50以及SEQIDNO:52或与如在表1中指示的其片段或保守结构域(如DNA结合结构域、亚基相互作用结构域或B结构域)具有至少约50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性的多肽。所述多肽将优选地是关于结构属性生物活性的，如多肽由抗体结合或与靶核苷酸序列结合(或与另一种分子竞争这种结合)的能力。或者或此外，这种属性可以是催化性的且因此涉及分子介导化学反应(对于酶蛋白)或转录调控反应(对于转录因子)的能力。本发明的多肽还可以是重组的。

一般来说，蛋白质或结构域的生物活性或生物作用是指由所述蛋白质或结构域表现或执行的如在体内(即，在蛋白质的天然生理环境中)或体外(即，在实验室条件下)所测量或观察到的归属于所述蛋白质的天然存在形式的任何功能。如本文所用，HapY多肽的功能结构域是能够执行HapY多肽的生物功能的结构域。例如，HapY多肽的生物活性和组成HapY多肽的单独结构域包括B结构域、DNA结合结构域、亚基相互作用结构域、氨基末端A结构域和羧基末端C结构域，所述结构域已在本文其他地方详细地论述。

本领域中熟知的各种方法中的任一种可用于制备或获得一种或多种上述多肽。本发明的多肽可以是化学合成的，或可使用标准重组技术在异源表达***如大肠杆菌、酵母、昆虫等中制备多肽。还涵盖本发明的多肽的抗体或其变体或片段。用于产生抗体的多种技术和方法是本领域中熟知的(参见例如，Harlow和Lane(1988)Antibodies:ALaboratoryManual,ColdSpringHarborLaboratory,ColdSpringHarbor,N.Y.；美国专利号4,196,265)，并且可用于制备根据本文公开的发明的抗体。

核酸构建体

本发明的另一方面涉及重组核酸分子，所述重组核酸分子包含编码氨基酸序列的核酸序列，所述氨基酸序列具有如本文所述的HAP3样或HapY多肽的至少一个结构域的生物活性。通常，这种重组核酸分子包括本发明的可操作地连接至一个或多个转录控制序列的至少一个核酸分子。如本文所用，短语“重组分子”或“重组核酸分子”主要指可操作地连接至转录控制序列的核酸分子或核酸序列，但当这种核酸分子是如本文论述的重组分子时可与短语“核酸分子”互换使用。

本发明提供核酸构建体，所述核酸构建体包含如本文提供的核酸序列，所述核酸序列可操作地连接至可调控或介导核苷酸序列转录、翻译或整合至宿主基因组中的一个或多个序列。例如，本发明提供表达构建体，所述表达构建体包含调控可操作连接的基因的表达转录或所转录RNA的翻译的一个或多个“表达控制元件”或序列。例如，表达控制元件可以是可操作地连接至表达构建体或“表达盒”中的目标基因或反义序列的启动子。已知且可使用各种藻类启动子，包括在美国专利申请公布号US2013/0023035；2012年6月1日提交的美国专利申请13/486,930；2012年12月4日提交的美国专利申请13/693,585；以及2013年6月11日提交的美国专利申请13/915,522中所公开的那些。在构建体中使用的启动子在一些实例中可以是可调控的，例如，诱导型的。

诱导型启动子可对例如光强度或者高或低温度有反应，和/或可对特定化合物有反应。诱导型启动子可以是，例如激素反应性启动子(例如，蜕皮激素反应性启动子，如在美国专利号6,379,945中所描述)、金属硫蛋白启动子(例如美国专利号6,410,828)、可对化学品，例如像水杨酸、乙烯、硫胺素和/或BTH有反应的发病机制相关(PR)启动子(美国专利号5,689,044)等或其一些组合。诱导型启动子还可对光或黑暗(例如，美国专利号8,318,482；美国专利号5,750,385；美国专利号5,639,952)、金属(EukaryoticCell2:995-1002(2003))或温度(美国专利号5,447,858；Abe等PlantCellPhysiol.49:625-632(2008)；Shroda等PlantJ.21:121-131(2000)有反应。关于启动子的类型或可使用的具体启动子，前述实例是非限制性的。启动子序列可来自任何生物体，条件是其在宿主生物体中是功能性的。在某些实施方案中，诱导型启动子是通过将来自已知诱导型启动子的一个或多个部分或结构域融合至可在宿主细胞中操作的不同启动子的至少一部分来形成，例如以便对在宿主物种中操作的启动子赋予可诱导性。

在核酸构建体不包含与编码目标基因(例如，HapY基因)的核酸序列的可操作连接的启动子的方面中，所述核酸序列可被转化至细胞中，以使得所述核酸序列通过例如同源重组、位点特异性整合和/或载体整合而变得可操作地连接至内源性启动子。在一些实例中，在用于介导同源重组至宿主基因组中的核酸构建体中包括的基因组宿主序列可包括可调控所述核酸构建体的基因或反义或RNAi序列的表达的基因调控序列，例如，启动子序列。在这类实例中，所述构建体的转基因可变得可操作地连接至对宿主微生物来说内源性的启动子。内源性启动子可以是可调控的，例如，诱导型的。

本发明的重组核酸分子还可包含另外的调控序列，如翻译调控序列、复制起点以及与重组细胞相容的其他调控序列。在一个实施方案中，本发明的重组分子(包括被整合至宿主细胞染色体中的那些)还包含分泌信号(即，信号区段核酸序列)以使所表达的蛋白质能够从产生所述蛋白质的细胞分泌。适合的信号区段包括与待表达的蛋白质天然相关的信号区段或能够指导根据本发明的蛋白质的分泌的任何异源信号区段。在另一个实施方案中，本发明的重组分子包含前导序列以使所表达的蛋白质能够被递送至且***至宿主细胞的细胞膜中。适合的前导序列包括与蛋白质天然相关的前导序列，或能够指导蛋白质递送和***至细胞的膜的任何异源前导序列。而在其他实施方案中，本发明的重组分子包含细胞器靶向信号以使所表达的蛋白质能够被转运且递送至靶细胞细胞器。本领域的技术人员将了解，可使用多种细胞器靶向信号，包括但不限于核定位信号(NLS)、叶绿体靶向信号和线粒体靶向序列。

如本文所述的核酸分子可被克隆至适合的载体中并且可用于转化或转染任何适合的宿主。载体的选择和用于构建所述载体的方法是本领域通常已知的并且在通用技术参考文献中描述(参见例如，,Sambrook和Russell,MolecularCloning,ALaboratoryManual,ColdSpringHarborLaboratoryPress,2001)。因此，在本发明的一些实施方案中，重组核酸分子是重组载体。根据本发明，重组载体是工程化改造的(即，人工产生的)核酸分子，其用作用于操纵所选择的核酸序列和用于将这种核酸序列引入宿主细胞中的工具。所述重组载体因此适用于克隆、测序和/或以另外的方式操纵所选择的核酸序列，如通过将所选择的核酸序列表达和/或递送至宿主细胞中以形成重组细胞。这种载体通常含有异源核酸序列，例如像用于在便利的宿主如大肠杆菌或酵母中繁殖核酸分子的复制起点、选择性标记、报道基因、表达序列等。所述载体可以是RNA或DNA(原核的或真核的)并且通常是质粒。所述载体可被维持为染色体外元件(例如，质粒)或所述载体可被整合至重组生物体(例如，微生物或植物)的染色体中。整个载体可保持在宿主细胞内的适当位置中，或在某些条件下，质粒DNA可缺失，从而留下本发明的核酸分子。所述整合的核酸分子可在染色体启动子控制下、在天然或质粒启动子控制下或在几种启动子控制的组合下。核酸分子的单个或多个拷贝可被整合至染色体中。本发明的重组载体可包含一种或多种选择性遗传标记。

在另一个实施方案中，在本发明的重组核酸分子中使用的重组载体是靶向载体。如本文所用，短语“靶向载体”用于指用于将特定核酸分子递送至重组宿主细胞中的载体，其中所述核酸分子用于使宿主细胞或微生物内的内源性基因缺失或失活(即，用于靶向基因破坏、修饰或敲除技术)。这种载体还可在本领域中称为“敲除”载体。在所述实施方案的一方面，所述载体的一部分(其通常是***至所述载体中的核酸分子(即，***物))具有与宿主细胞中的靶基因(即，被靶向以进行修饰、缺失或失活的基因)的核酸序列同源的核酸序列。所述载体***物的核酸序列被设计成结合靶基因，以使得所述靶基因和所述***物经历同源重组，由此使内源性靶基因修饰、缺失、失活或减毒(即，通过被突变或缺失的内源性靶基因的至少一部分)。

用于同源重组至藻类或长短鞭毛体基因组中的构建体(例如，用于调节因子基因的破坏或基因置换)可包含HapY基因或直系同源物的核苷酸序列，例如像本文所提供的任何核苷酸序列，或来自藻类或长短鞭毛体基因组的邻近宿主生物体中的HapY基因的序列。例如，用于同源重组的构建体可包含靶向敲除或基因置换的基因(如HapY基因或直系同源物，如本文所公开的任何基因和/或与其相邻的基因组DNA)的至少50、至少100、至少200、至少300、至少400、至少500、至少600、至少700、至少800、至少900、至少1,000、至少1,200、至少1,500、至少1,750或至少2,000个核苷酸。例如，用于介导在构建体中同源重组的序列可包含来自或邻近编码HapY多肽的天然存在的藻类或长短鞭毛体基因的一个或多个核苷酸序列，其中所述HapY多肽包含与序列表中的氨基酸序列中的任一个具有至少40％，例如，至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％或至少99％同一性的氨基酸序列。在示例性实施方案中，所述构建体可包含序列表中的核酸序列中的任一个和/或对应基因组的邻近区域的至少50、至少100、至少200、至少300、至少400、至少500、至少600、至少700、至少800、至少900、至少1,000、至少1,200、至少1,500、至少1,750或至少2,000个核苷酸。

例如，用于介导在构建体中同源重组的序列可包含来自或邻近编码HapY多肽的天然存在的藻类或长短鞭毛体基因的一个或多个核苷酸序列，其中所述HapY多肽包含与SEQIDNO:6、SEQIDNO:8、SEQIDNO:10、SEQIDNO:12、SEQIDNO:14、SEQIDNO:16、SEQIDNO:18、SEQIDNO:20、SEQIDNO:22、SEQIDNO:24、SEQIDNO:34、SEQIDNO:36、SEQIDNO:38、SEQIDNO:40、SEQIDNO:50和SEQIDNO:52中的任一个具有至少80％，例如至少85％、至少90％、至少95％同一性或至少99％同一性的氨基酸序列。例如，用于同源重组的构建体可包含编码HapY多肽的调控因子基因(如本文公开的任何基因)和/或与其相邻的基因组DNA的至少50、至少100、至少200、至少300、至少400、至少500、至少600、至少700、至少800、至少900、至少1,000、至少1,200、至少1,500、至少1,750或至少2,000个核苷酸。例如，用于介导在构建体中同源重组的序列可包含来自或邻近编码含HAP3样B结构域蛋白的天然存在的藻类或长短鞭毛体基因的一个或多个核苷酸序列，其中所述含HAP3样B结构域蛋白包含与SEQIDNO:6、SEQIDNO:8、SEQIDNO:10、SEQIDNO:12、SEQIDNO:14、SEQIDNO:16、SEQIDNO:18、SEQIDNO:20、SEQIDNO:22、SEQIDNO:24、SEQIDNO:34、SEQIDNO:36、SEQIDNO:38、SEQIDNO:40、SEQIDNO:50和SEQIDNO:52的B结构域中的任一个具有至少40％，例如至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％或至少99％同一性的氨基酸序列。在示例性实施方案中，所述构建体可包含序列表中所指示的编码HAP3样B结构域的核酸序列中的任一个和/或对应基因组的邻近区域的至少50、至少100、至少200、至少300、至少400、至少500、至少600、至少700、至少800、至少900、至少1,000、至少1,200、至少1,500、至少1,750或至少2,000个核苷酸。

关于重组核酸分子和宿主细胞的转化的以上一般性论述意图应用于本文所论述的任何重组核酸分子，包括编码具有来自HapY多肽的至少一个结构域的生物活性的任何氨基酸序列的那些、编码来自其他HapY多肽的氨基酸序列的那些以及编码其他蛋白质或结构域的那些。

序列表中的信息

本说明书包括使用程序Patentln3.5版制备的核苷酸和多肽序列信息。对序列表中提供的氨基酸序列进行注释以指示相应序列的一种或几种已知的同源物。一些序列包含指示特定功能和/或应用的“Pfam”结构域。特定Pfam结构域由各种来源，如“www.sanger.ac.uk”或“pfam.janelia.org”更详细地描述。因此，基于其与已知序列的相似性，序列表中的氨基酸序列的各种实际应用对于本领域的技术人员来说是显而易见的。

还对序列表中提供的氨基酸序列进行注释以指示相应序列的一种或几种已知的同源物。一些氨基酸序列包含指示CCAAT-盒结合因子活性的保守结构域。申请人已在本文所述的多肽中鉴别的指示CCAAT-盒结合因子活性的保守结构域包括B结构域、Pfam组蛋白样转录因子(CBF/NF-Y)结构域(PfamID：PF00808)以及Pfam核心组蛋白H2A/H2B/H3/H4(PfamId：PF00125)结构域。

序列应用的另外信息来自与公开数据库中的序列的相似性。标记“NCBIGI:”和“NCBIDesc:”的序列表的“其他特征”部分中的条目提供关于相应同源序列的另外信息。在一些情况下，对应公开记录(其可从www.ncbi.nlm.nih.gov检索)引用具有指示所注释序列的用途的数据的出版物。序列描述和在此所附的序列表遵守规定专利申请中的核苷酸和/或氨基酸公开内容的规则，如在37C.F.R.§1.182-1.185中所提出。

表1列出在本文描述的多肽，以及所述多肽的标识符、在所述多肽的每个中鉴别的保守结构域以及表示所述保守结构域的氨基酸残基的起始和终止位置。

表1：HAP3样多肽。

从序列表和表1的公开内容，可以看出取决于相应单独序列，本发明的核苷酸和多肽适用于制备具有一种或多种改变的生长和表型特征(例如像，提高的生产率，例如提高的生物质生产率)的转基因生物体。本发明还涵盖编码上述多肽的核苷酸，如序列表中包括的那些，以及其互补序列和/或片段，并且包括基于遗传密码的简并性的其替代物。

本发明的核酸分子的用途

在本发明的一方面，可使用许多已知方法中的一种来鉴别邻近目标多核苷酸序列的DNA序列，如天然围绕微生物细胞或植物细胞中的新型多核苷酸序列的基因组区。此可通过产生杂交探针且针对可能包含邻近新型目标多核苷酸序列的DNA的克隆筛选现有染色体DNA文库来完成。或者或此外，可通过反向PCR克隆侧接已知DNA的区并对其测序(Sambrook等,1989，同上)。另一种这种方法涉及将已知序列的接头连接至用限制酶消化的染色体DNA，然后使用与引物接头同源的寡核苷酸以及与目标区(例如本发明的新型多核苷酸序列的末端序列)同源的引物产生PCR产物。用于进行这种程序(GENOMEWALKER^TM，Clonetech)的试剂盒是可商购的。

在杂交程序中，当前公开的HapY编码核苷酸序列的全部或一部分可用于筛选cDNA或基因组文库。所谓的杂交探针可以是基因组DNA片段、cDNA片段、RNA片段或其他寡核苷酸，并且可用可检测的基团(如³²P)或任何其他可检测的标记(如其他放射性同位素、荧光化合物、酶或酶辅因子)标记。用于杂交的探针可通过基于本文公开的已知HAP3编码核苷酸序列标记合成寡核苷酸来制备。可任选地使用基于核苷酸序列或编码的氨基酸序列中的保守核苷酸或氨基酸残基设计的简并引物。所述探针通常包含在严格条件下与本发明的HAP3编码核苷酸序列或其片段或变体的至少约12、至少约25、至少约50、75、100、125、150、175、200、250、300、350或400个连续核苷酸杂交的核苷酸序列区。用于制备用以杂交的探针的方法是本领域中通常已知的且在以引用的方式并入本文的Sambrook和Russell(2001，同上)中公开。

重组微生物

本发明还提供包含编码HAP3样蛋白的非天然基因的重组微生物，其中所述重组微生物的生产率高于与所述重组微生物大致上相同的对照微生物(除了所述对照微生物不具有编码HAP3样蛋白的非天然基因)的生产率。HAP3样蛋白可以是任何HAP3样蛋白，例如像非LEC1型HAP3样蛋白，包括其序列可从基因、蛋白质或基因组数据库或科学文献获得的非LEC1型HAP3样蛋白或其变体。如本文提供的重组微生物可在一些实例中包含如本文提供的非LEC1型HAP3样蛋白，例如，可包含SEQIDNO:6、SEQIDNO:8、SEQIDNO:10、SEQIDNO:12、SEQIDNO:14、SEQIDNO:16、SEQIDNO:18、SEQIDNO:20、SEQIDNO:22、SEQIDNO:24、SEQIDNO:26、SEQIDNO:28、SEQIDNO:30、SEQIDNO:32、SEQIDNO:34、SEQIDNO:36、SEQIDNO:38、SEQIDNO:40、SEQIDNO:42、SEQIDNO:44、SEQIDNO:46、SEQIDNO:50或SEQIDNO:52中的任一个、其任何功能片段或其任何变体。

在各个实例中，本文提供的重组微生物包含编码以下多肽的非天然基因，所述多肽具有与选自由以下组成的组的HAP3样蛋白B结构域具有至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性的氨基酸序列：SEQIDNO:4、SEQIDNO:8的氨基酸58-148、SEQIDNO:10的氨基酸23-113、SEQIDNO:12的氨基酸24-114、SEQIDNO:14的氨基酸24-114、SEQIDNO:16的氨基酸54-144、SEQIDNO:18的氨基酸19-109、SEQIDNO:20的氨基酸15-105、SEQIDNO:22的氨基酸18-108、SEQIDNO:24的氨基酸26-116、SEQIDNO:34的氨基酸26-116、SEQIDNO:36的氨基酸20-110、SEQIDNO:38的氨基酸16-106、SEQIDNO:38的氨基酸24-114、SEQIDNO:40的氨基酸21-111、SEQIDNO:42的氨基酸29-119、SEQIDNO:44的氨基酸20-110、SEQIDNO:46的氨基酸20-110、SEQIDNO:48的氨基酸58-148、SEQIDNO:50的氨基酸6-96以及SEQIDNO:52的氨基酸16-106。由非天然基因编码的多肽优选地是HAP3样蛋白，如与植物或微生物的天然存在的HAP3样蛋白具有至少50％同一性的多肽。所述多肽可例如与SEQIDNO:4、SEQIDNO:6、SEQIDNO:8、SEQIDNO:10、SEQIDNO:12、SEQIDNO:14、SEQIDNO:16、SEQIDNO:18、SEQIDNO:20、SEQIDNO:22、SEQIDNO:24、SEQIDNO:26、SEQIDNO:28、SEQIDNO:30、SEQIDNO:32、SEQIDNO:34、SEQIDNO:36、SEQIDNO:38、SEQIDNO:40、SEQIDNO:42、SEQIDNO:44、SEQIDNO:46、SEQIDNO:50或SEQIDNO:52具有至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性。在一些实例中，所述非天然基因编码具有HAP3样蛋白B结构域的多肽，其中所述多肽与微藻或长短鞭毛体物种的HAP3样多肽具有至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性。所述重组微生物可表现出比由与所述重组微生物大致上相同的对照微生物所表现的更高的生产率，所述重组微生物包含编码具有HAP3样蛋白B结构域的多肽的非天然基因，例外是所述对照微生物不包含编码具有HAP3样蛋白B结构域的多肽的非天然基因。例如，非天然基因在藻类或长短鞭毛体细胞中的表达可引起产生更大量的生物质或更大量的一种或多种生物分子的藻类或长短鞭毛体细胞，所述生物分子如但不限于脂质、萜类、聚酮化合物、蛋白质、肽、一种或多种氨基酸、碳水化合物、醇、核酸、一种或多种核苷酸、核苷或核碱基、维生素、辅因子、激素、抗氧化剂或色素或着色剂。

具有编码具有HAP3样蛋白B结构域的多肽的非天然基因的重组微生物可包含例如本文所述的编码包含HAP3样B结构域的多肽的任何核酸分子。此外，重组宿主细胞可包含本文所述的任何构建体或载体。在一些方面，编码所述多肽的核酸序列可以是相对于重组宿主细胞异源的，并且可以是编码源自任何物种(包括植物、动物或微生物物种)的HAP3样多肽的基因或其变体。或者，编码HAP3样多肽的基因可以是相对于宿主生物体同源的。例如，所述非天然HAP3样基因可以是与宿主微生物相同的物种的HAP3基因，并且在允许所引入的同源HAP3基因的调控的表达或过度表达的表达盒中引入重组微生物中。或者，所述HAP3样非天然基因可以是对微生物来说内源性的，并且异源启动子可被引入宿主微生物中，以使得它变得与内源性HAP3基因并置且可操作地连接至所述内源性HAP3基因以实现过度表达和/或调控的表达。

在其他实例中，如本文提供的重组微生物可包含编码以下多肽的非天然基因，所述多肽具有HAP3样蛋白B结构域，如与以下中的任一者具有至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性的非LEC1型HAP3样蛋白B结构域：SEQIDNO:2、SEQIDNO:6的氨基酸58-148、SEQIDNO:8的氨基酸23-113、SEQIDNO:10的氨基酸24-114、SEQIDNO:12的氨基酸24-114、SEQIDNO:14的氨基酸54-144、SEQIDNO:16的氨基酸19-109、SEQIDNO:18的氨基酸15-105、SEQIDNO:20的氨基酸18-108、SEQIDNO:22的氨基酸26-116、SEQIDNO:22的氨基酸29-119、SEQIDNO:22的氨基酸26-116、SEQIDNO:22的氨基酸23-113、SEQIDNO:22的氨基酸26-116、SEQIDNO:32的氨基酸26-116、SEQIDNO:34的氨基酸20-110、SEQIDNO:36的氨基酸16-106、SEQIDNO:38的氨基酸24-114、SEQIDNO:40的氨基酸21-111、SEQIDNO:42的氨基酸29-119、SEQIDNO:44的氨基酸20-110、SEQIDNO:46的氨基酸20-110、SEQIDNO:50的氨基酸6-96以及SEQIDNO:52的氨基酸16-106。由所述非天然基因编码的多肽可例如与SEQIDNO:4、SEQIDNO:6、SEQIDNO:8、SEQIDNO:10、SEQIDNO:12、SEQIDNO:14、SEQIDNO:16、SEQIDNO:18、SEQIDNO:20、SEQIDNO:22、SEQIDNO:24、SEQIDNO:26、SEQIDNO:28、SEQIDNO:30、SEQIDNO:32、SEQIDNO:34、SEQIDNO:36、SEQIDNO:38、SEQIDNO:40、SEQIDNO:42、SEQIDNO:44、SEQIDNO:46、SEQIDNO:50以及SEQIDNO:52中的任一者具有至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性。

例如，如本文提供的重组微生物可包含编码以下多肽的非天然基因，所述多肽具有与以下中的任一个具有至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性的非LEC1型HAP3样蛋白B结构域：SEQIDNO:4、SEQIDNO:6的氨基酸58-148、SEQIDNO:8的氨基酸23-113、SEQIDNO:10的氨基酸24-114、SEQIDNO:12的氨基酸24-114、SEQIDNO:14的氨基酸54-144、SEQIDNO:16的氨基酸19-109、SEQIDNO:18的氨基酸15-105以及SEQIDNO:20的氨基酸18-108，其中由所述非天然基因编码的多肽可与SEQIDNO:4、SEQIDNO:6、SEQIDNO:8、SEQIDNO:10、SEQIDNO:12、SEQIDNO:14、SEQIDNO:16、SEQIDNO:18以及SEQIDNO:20中的任一个具有至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性。

在具体实例中，如本文提供的重组微生物可包含编码以下多肽的非天然基因，所述多肽与SEQIDNO:4、SEQIDNO:6、SEQIDNO:8、SEQIDNO:10、SEQIDNO:12、SEQIDNO:14、SEQIDNO:16、SEQIDNO:18以及SEQIDNO:20中的任一个具有至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性，其中所述多肽包含与以下各项具有至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性的非LEC1型HAP3样蛋白B结构域：SEQIDNO:4、SEQIDNO:6的氨基酸58-148、SEQIDNO:8的氨基酸23-113、SEQIDNO:10的氨基酸24-114、SEQIDNO:12的氨基酸24-114、SEQIDNO:14的氨基酸54-144、SEQIDNO:16的氨基酸19-109、SEQIDNO:18的氨基酸15-105或SEQIDNO:20的氨基酸18-108。

在其他实例中，重组微生物可包含编码以下多肽的非天然基因，所述多肽与SEQIDNO:64、SEQIDNO:65、SEQIDNO:66和SEQIDNO:68中的任一个具有至少65％、至少70％、至少75％、至少至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性。所述多肽可以是NFY-C多肽。在一些实例中，重组微生物可包含编码非LEC1型HAP3样蛋白的非天然基因，如本文所公开的任何非天然基因，并且还可包含编码NFY-C多肽的非天然基因。编码NFY-C多肽的基因可通过使用如本文提供的方法(如酵母双杂交测定)来在包含非LEC1型HAP3样蛋白基因的目标宿主微生物中鉴别。在其他实例中，重组微生物可包含编码以下多肽的非天然基因，所述多肽与SEQIDNO:70的任一个具有至少65％、至少70％、至少75％、至少至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％同一性。所述多肽可以是NFY-A多肽。在一些实例中，重组微生物可包含编码非LEC1型HAP3样蛋白的非天然基因，如本文所公开的任何非天然基因，并且还可包含编码NFY-A多肽的非天然基因。编码NFY-A多肽的基因可通过使用如本文提供的方法(如酵母双杂交测定)来在包含非LEC1型HAP3样蛋白基因的目标宿主微生物中鉴别。

如本文提供的重组微生物可在一些实例中包含编码HAP异三聚体(亦称CBF或NFY)的所有三个亚基的一种或多种非天然核酸分子。例如，除了编码如本文提供的NFY-C多肽和如本文提供的NFY-A多肽的非天然核酸分子外，宿主微生物可包含编码如本文提供的任何非LEC1型HAP3样蛋白的非天然核酸分子。

本领域的技术人员将了解，多种转化方法可用于微生物的遗传转化，并且因此可被用于本发明的方法。“稳定转化”意图意指引入生物体的核酸构建体整合至生物体的基因组中并且是稳定附加型构建体的一部分且能够由其子代遗传。“瞬时转染”意图意指多核苷酸被引入生物体中且不整合至基因组或以另外的方式变得确立且通过连续传代稳定遗传。

遗传转化可引起来自细胞核或质粒的转基因的稳定***和/或表达，并且在一些情况下可引起转基因的瞬时表达。例如，微藻的遗传转化据报道针对超过30种不同的微藻株是成功的，所述藻株属于绿藻、红藻和褐藻、硅藻、裸藻以及甲藻的至少约22种(参见例如，Radakovits等人,EukaryoticCell,2010；和Gong等人,J.Ind.Microbiol.Biotechnol.,2011)。这类有用的转化方法的非限制性实例包括在玻璃珠或碳化硅晶须存在下搅拌细胞，如由例如Dunahay,Biotechniques,15(3):452–460,1993；Kindle,Proc.Natl.Acad.Sci.U.S.A.,1990；Michael和Miller,PlantJ.,13,427–435,1998所报道。电穿孔技术已成功地用于几种微藻物种的遗传转化，包括微拟球藻(参见例如，Chen等,。J.Phycol.,44:768–76,2008)、小球藻参见例如，Chen等,Curr.Genet.,39:365-370,2001；Chow和Tung,PlantCellRep.第18卷,第9期,778-780,1999)、衣藻属(Shimogawara等,Genetics,148:1821–1828,1998)、杜氏藻属(Sun等,Mol.Biotechnol.,30(3):185-192,2005)微弹轰击(还被称为微粒轰击)、基因枪转化或生物弹轰击已成功地用于几种藻类物种，包括例如硅藻物种，如褐指藻属(Apt等,Mol.Gen.Genet.,252:572-579,1996)、小环藻属和舟形藻属(Dunahay等人,J.Phycol.,31:1004–1012,1995)、细柱藻属(Cylindrotheca)(Fischer等,J.Phycol.,35:113-120,1999)和角毛藻(Miyagawa-Yamaguchi等,Phycol.Res.59:113–119,2011)、以及绿藻物种如小球藻属(El-Sheekh,BiologiaPlantarum,第42卷,第2期:209-216,1999)和团藻属(Jakobiak等,Protist,155:381-93,2004)。此外，土壤杆菌属介导的基因转移技术也可适用于微藻的遗传转化，如已由例如Kumar,PlantSci.,166(3):731-738,2004和Cheney等,J.Phycol.,Vol.37,增刊11,2001所报道。

如本文所述的转化载体通常将包含对靶宿主细胞(例如藻类细胞)赋予可选择或可评分表型的标记基因。多种选择性标记已被成功地开发用于藻类的遗传转化体的有效分离。常见选择性标记包括抗生物素抗性、荧光标记和生物化学标记。几种不同的抗生物素抗性基因已被成功地用于微藻转化体的选择，所述基因包括灭瘟素(blastocydin)、博来霉素(参见例如，Apt等,1996,同上；Fischer等,1999,同上；Fuhrmann等,PlantJ.,19,353-61,1999；Lumbreras等,PlantJ.,14(4):441-447,1998；Zaslavskaia等,J.Phycol.,36:379–386,2000)、壮观霉素(Cerutti等,Genetics,145:97–110,1997；Doetsch等,Curr.Genet.,39,49-60,2001；Fargo,Mol.Cell.Biol.,19:6980-90,1999)、链霉素(Berthold等,Protist,153:401-412,2002)、巴龙霉素(Jakobiak等,Protist,同上；Sizova等,Gene,277:221-229,2001)、诺尔丝菌素(nourseothricin)(Zaslavskaia等,2000,同上)、G418(Dunahay等,1995,同上；Poulsen和Kroger,FEBSLett.,272:3413–3423,2005；Zaslavskaia等,2000,同上)、潮霉素(Berthold等,2002,同上)、氯霉素(Poulsen和Kroger,2005,同上)以及许多其他抗生素抗性基因。用于微藻(如衣藻属)的另外选择性标记可以是提供对卡那霉素的抗性和阿卡米星抗性(Bateman,Mol.Gen.Genet.263:404-10,2000)、博莱霉素(zeomycin)和腐草霉素(例如，ZEOCIN^TM腐草霉素D1)抗性(Stevens,Mol.Gen.Genet.251:23-30,1996)以及巴龙霉素(paramomycin)和新霉素抗性(Sizova等,2001,同上)的标记。已使用的其他荧光或发色标记包括荧光素酶(Falciatore等,J.Mar.Biotechnol.,1:239–251,1999；Fuhrmann等,PlantMol.Biol.,2004；Jarvis和Brown,Curr.Genet.,19:317–322,1991)、β-葡糖苷酸酶(Chen等,2001,同上；Cheney等,2001,同上；Chow和Tung,1999,同上；El-Sheekh,1999,同上；Falciatore等,1999,同上；Kubler等,J.Mar.Biotechnol.,1:165–169,1994)、β-半乳糖苷酶(Gan等,J.Appl.Phycol.,15:345–349,2003；Jiang等,PlantCellRep.,21:1211–1216,2003；Qin等,HighTechnol.Lett.,13:87–89,2003)以及绿色荧光蛋白(GFP)(Cheney等,2001,同上；Ender等,PlantCell,2002；Franklin等,PlantJ.,2002；56,148,210)。

本领域的技术人员将容易地了解，多种已知的启动子序列可有用地用于根据本发明的微藻物种的转化***。例如，通常用于驱动微藻中的转基因表达的启动子包括花椰菜花叶病毒35S(CaMV35S)的各种型式，其已用于甲藻和绿藻门两者中(Chow等,PlantCellRep.,18:778-780,1999；Jarvis和Brown,Curr.Genet.,317-321,1991；Lohuis和Miller,PlantJ.,13:427-435,1998)。来自猿猴病毒的SV40启动子也据报道是在几种藻类中具有活性的(Gan等,J.Appl.Phycol.,151345-349,2003；Qin等,Hydrobiologia398-399,469-472,1999)。来自衣藻属的RBCS2(核酮糖二磷酸羧化酶，小亚基)(Fuhrmann等,PlantJ.,19:353-361,1999)和PsaD(光***I复合物的丰富蛋白；Fischer和Rochaix,FEBSLett..581:5555-5560,2001)的启动子也可以是有用的。HSP70A/RBCS2和HSP70A/β2TUB(微管蛋白)的融合启动子(Schroda等,PlantJ.,21:121-131,2000)还可适用于改进的转基因表达，其中当置于其他启动子上游时HSP70A启动子可充当转录活化因子。目标基因的高水平表达还可在例如硅藻物种中在编码硅藻岩藻黄素-叶绿素a/b结合蛋白的fcp基因(Falciatore等,Mar.Biotechnol.,1:239-251,1999；Zaslavskaia等,J.Phycol.36:379-386,2000)或编码黄绿藻紫黄素-叶绿素a/b结合蛋白的vcp基因(参见美国专利号8,318,482)的启动子控制下实现。如果需要，诱导型启动子可提供基因在转基因微藻中的快速和严格控制的表达。例如，编码硝酸还原酶的NR基因的启动子区可用作这类诱导型启动子。NR启动子活性通常由铵抑制且在铵被硝酸盐替代时诱导(Poulsen和Kroger,FEBSLett272:3413-3423,2005)，因此当微藻细胞在铵/硝酸盐存在下生长时基因表达可被关闭或打开。可用于本文提供的构建体和转化***中的另外藻类启动子包括在美国专利申请公布号US2013/0023035；2012年6月1日提交的美国专利申请13/486,930；2012年12月4日提交的美国专利申请13/693,585；以及2013年6月11日提交的美国专利申请13/915,522中所公开的那些。

宿主细胞可以是未转化的细胞或已经用至少一种核酸分子转染的细胞。例如，包含如本文提供的编码HAPY基因、同源物或变体的非天然基因的宿主细胞还可包含一种或多种可赋予任何所需性状的基因，所述性状如但不限于目标生物分子(如一种或多种蛋白质、色素、醇或脂质)的产生增加。例如，对于脂质的产生，宿主细胞(如但不限于藻类或长短鞭毛体宿主细胞)可任选地包含一种或多种非天然基因，所述非天然基因编码在脂质生物合成中起作用的多肽，所述多肽包括但不限于编码用于产生脂肪酸、脂肪酸衍生物和/或甘油酯的酶的多肽，所述非天然基因包括但不限于，二酰基甘油酰基转移酶(DGAT)基因、磷酸甘油酰基转移酶(GPAT)基因、溶血磷脂酸酰基转移酶(脱氢酶)(LPAAT)基因、磷脂酸磷酸酶(PAP)基因和/或单酰基甘油酰基转移酶(MGAT)基因。

待使用根据本发明的材料和方法修饰的适合的宿主细胞包括但不限于细菌、原生生物、微藻、浮游植物、长短鞭毛体、真菌以及原生动物。所述方法可用于例如对水产业或对用于产生液体燃料分子和其他化学品的生物质的产生来说重要或令人感兴趣的藻类物种。

考虑用于本发明中的长短鞭毛体物种包括但不限于硅藻门、黄绿藻、拉普利门和破囊壶菌。在一些实例中，所述菌株可以是以下的种：拉普利属、拟网粘菌类(Labryinthuloides)、破囊壶菌属、裂殖壶菌属、不动壶菌属、橙黄壶菌属、日本壶菌、Diplophrys或吾肯氏壶菌。

适用于本发明的方法的藻类物种包括微藻，例如像以下属的种：曲壳藻属、茧形藻属、双眉藻属、纤维藻属、星胞藻属、黄金色藻属、Bolidomonas、特氏藻属、气球藻属、葡萄藻属、片球藻属、角毛藻属、四鞭藻属、衣藻属、绿球藻属、绿梭藻属、小球藻属、蓝隐藻属、金球藻属、鳄球藻属、隐甲藻属、隐藻属、小环藻属、栅藻属、杜氏藻属、后棘藻属、赫氏圆石藻属、独球藻属、衣迪斯藻属、眼虫藻属、真眼点藻属、被棘藻属、脆杆藻属、拟脆杆藻属、丽丝藻属、红球藻属、菱板藻属、赤潮异弯藻属、膜胞藻属、等鞭金藻属、鳞孔藻属、微星藻属、蒜头藻属、单针藻属、微球藻属、微拟球藻属、舟形藻属、新绿藻属、异鞭藻属、肾藻属、菱形藻属、棕鞭藻属、鞘藻属、卵囊藻属、Ostreococcus、拟小球藻属、Parietochloris、杜氏亚属盐藻属、巴夫藻属、普莱格门、褐指藻属、噬菌体属、Picochlorum、扁藻属、颗石藻属、肋球藻属、原壁菌属、拟绿球藻属、拟新绿藻属、拟角星鼓藻属、塔胞藻属、桑椹藻属、栅列藻属、裂衣藻属、骨条藻属、水绵藻属、裂丝藻属、四球藻属、扁藻属、海链藻属、黄丝藻属、无隔藻属、鲜绿球藻属、魏氏藻属、以及团藻属。

在本申请的一些实施方案中，对基因工程改造来说优选的微生物包括但不限于光合生物体，如蓝细菌、藻类、硅藻等。示例性物种的非限制性实例包括例如黄绿藻或硅藻，例如像双眉藻属、角毛藻属、小环藻属、真眼点藻属、脆杆藻属、拟脆杆藻属、蒜头藻属、微拟球藻属、舟形藻属、菱形藻属、巴夫藻属、褐指藻属、海链藻属或魏氏藻属的种。在一些实施方案中，微拟球藻属的成员如但不限于，海洋富油微拟球藻、颗粒微拟球藻、湖泊微拟球藻、海洋微拟球藻、眼点微拟球藻以及盐生微拟球藻用如本文提供的编码HAP3样或HapY多肽的核酸分子转化或过表达所述核酸分子。

当与不包含编码含HAP3样B结构域的多肽的非天然基因的对照生物体比较时，包含如本文提供的非天然基因的微生物可具有提高的生产率。较高生产率可通过例如使用细胞计数器测量生长速率或通过在高于700nm、例如在730或750nm下的波长下测量光密度来证明。还可如本文实施例中所提供来测量无灰干重。可通过提取藻类生物质、部分或基本纯化目标生物分子的产物并且通过本领域中已知的任何方式定量所述产物来评定各种生物分子的产生，所述方式如但不限于化学或生物化学分析、光谱或免疫检测和/或活性测定。

产生藻类产物的方法

本文还提供通过培养具有调节的生长特征的微生物细胞(如本文公开的宿主细胞)来产生生物质或至少一种生物产物的方法。所述方法包括在适合的培养基中培养如本文公开的微生物细胞以提供藻类培养物且从所述培养物回收生物质或至少一种生物产物，所述微生物细胞包含编码HAP3样蛋白的非天然基因，如像本文公开的编码HapY蛋白或HAP3样蛋白的核酸分子。在一些实例中所述微生物可以是微藻。所述藻类培养物可以是光合自养性培养物，其中培养基优选地不包含大量还原碳，即培养物不包含呈可由用于生长的藻类使用的形式或在可由用于生长的藻类使用的水平下的还原碳。

藻类可在任何适合的容器(包括烧瓶或生物反应器)中培养，其中可使所述藻类暴露于人工或自然光。包含具有调节的生长特征的藻类细胞的培养物可根据光照/黑暗循环进行培养，所述光照/黑暗循环可以是例如自然或编程的光照/黑暗循环，并且作为说明性实例，可提供十二小时的光照至十二小时的黑暗、十四小时的光照至十小时的黑暗、十六小时的光照至八小时的黑暗等。

培养是指通过使用选定和/或控制的条件有意的促进一种或多种细胞的生长(例如，细胞大小、细胞含量和/或细胞活性的增加)和/或繁殖(例如，经由有丝***的细胞数目增加)。生长与繁殖两者的组合可被称为增殖。如在本文的实施例中所展示，相对于同一株的在生长特征方面未调节的野生型藻类细胞的培养物，本文提供的具有调节的生长特征的宿主细胞可随时间推移(例如，在一周或更长的时期内)实现培养物的更高细胞密度。例如，如本文所述的本发明的宿主细胞可被培养持续至少五天、至少六天、至少七天、至少八天、至少九天、至少十天、至少十一天、至少十二天、至少十三天、至少十四天或至少十五天，或至少一周、两周、三周、四周、五周、六周、七周、八周、九周或十周或更长。

可用于培养重组微生物的所选和/或控制的条件的非限制性实例可包括使用限定性培养基(具有已知特征，如pH值、离子浓度和/或碳源)、指定温度、氧张力、二氧化碳水平、在生物反应器中生长等或其组合。在一些实施方案中，可使用光和还原碳源以兼养方式使微生物或宿主细胞生长。或者，可以异养方式培养微生物或宿主细胞。当以异养方式生长时，藻株可有利地使用光作为能源。无机碳源如CO2或碳酸氢盐可用于通过微生物合成生物分子。如本文所用的“无机碳”包括不能由生物体用作可持续能源的含碳化合物或分子。通常“无机碳”可呈CO2(二氧化碳)、碳酸、碳酸氢盐、碳酸盐、碳酸氢盐等或其组合的形式，其不能被进一步氧化用于可持续能量也不能由生物体用作还原力的来源。以光合自养方式生长的微生物可在其中无机碳基本上是唯一碳来源的培养基上生长。例如，在其中无机碳基本上是唯一碳来源的培养物中，可在培养基中提供的任何有机(还原的)碳分子或有机碳化合物不能被所述细胞摄取和/或代谢用于能量和/或不以足以提供用于细胞培养物的生长和增殖的可持续能量的量存在。

可根据本发明的方法使用的微生物和宿主细胞可存在于全世界各个地方和环境中。用于脂质和/或其他产物的最佳繁殖和产生的具体生长培养基可改变且可进行优化以促进产物如脂质、蛋白质、色素、抗氧化剂等的生长、繁殖或产生。在一些情况下，某些微生物菌株可能不能生长于特定的生长培养基中，这是因为存在某种抑制性组分或不存在所述特定微生物菌株或宿主细胞所需要的某种必需营养需求。

固体和液体生长培养基一般可从多种来源获得，用于制备适于多种微生物菌株的特定培养基的说明也可从多种来源获得。例如，关于用于培养藻类的培养基和方法，各种新鲜水和盐水培养基可包括在Barsanti(2005)Algae:Anatomy,Biochemistry&Biotechnology,CRCPress中所描述的那些。藻类培养基配方还可在不同藻类培养物保藏中心的网站找到，包括，作为非限制性实例，UTEXCultureCollectionofAlgae(www.sbs.utexas.edu/utex/media.aspx)；CultureCollectionofAlgaeandProtozoa(www.ccap.ac.uk)；以及KatedraBotaniky(botany.natur.cuni.cz/algo/caup-media.html)。

培养方法可任选地包括诱导用于产生产物的一种或多种基因的表达，所述产物如但不限于参与脂质、一种或多种蛋白质、抗氧化剂或色素的产生的蛋白质；和/或调控微生物中的代谢途径。诱导表达可包括将营养素或化合物添加至培养物，从培养基中去除一种或多种组分，增加或减少光照和/或温度，和/或促进目标基因的表达的其他操纵。这类操纵可在很大程度上取决于可操作地连接至目标基因的(异源)启动子的性质。

在本发明的一些实施方案中，如本文所述的具有调控的生长特征的微生物可在发酵罐或生物反应器中培养，其中所述生物反应器可任选地是“光生物反应器”，所述光生物反应器配备有人工光源和/或具有一个或多个足够透光(包括阳光)的壁以实现、促进和/或维持光合微生物生长和增殖。对于脂肪酸产物或甘油三酯的产生，光合微生物或宿主细胞可另外或可替代地在摇瓶、试管、小瓶、微量滴定盘、皮氏培养皿等或其组合中培养。

此外或可替代地，重组光合微生物或宿主细胞可在池塘、水渠、基于海的生长容器、壕沟、水沟、河道等或其组合中生长。如在标准生物反应器情况下，无机碳(如但不限于CO₂、碳酸氢盐、碳酸盐等)的源(包括但不限于空气、富CO₂空气、烟气等或其组合)可被供应至培养物。当供应除了CO₂还可包含CO的烟气和/或其他无机物源时，可能必要的是预先处理这类源，以使得引入(光)生物反应器中的CO水平不构成相对于微生物的生长、增殖和/或存活的危险和/或致死剂量。

微生物培养物的生物质可通过从培养基收获(例如通过过滤、沉降、离心或其组合)所述微生物来回收。在根据本发明的生物质产生实施方案中，通过本文所述的方法产生和/或回收的生物质的量(测量为无灰干重(AFDW))可有利地为至少约0.05g/升培养物，例如至少约0.1g、至少约0.2g、至少约0.3g、至少约0.4g、至少约0.5g、至少约0.6g、至少约0.7g/升培养物、至少约1g/升培养物、至少约1.5g/升培养物、至少约2g/升培养物、至少约2.5g/升培养物或至少约5g/升培养物。虽然多次，目标可以是产生和/或回收尽可能多的生物质，但在一些情况下通过本文所述的方法产生和/或回收的生物质的量(测量为无灰干重(AFDW))可被限于约15g或更少/升培养物，例如约12g或更少/升培养物、约10g或更少/升培养物、约5g或更少/升培养物、约2g或更少/升培养物、约1g或更少/升培养物、或约0.5g或更少/升培养物。

生物质可例如通过离心或过滤收获。生物质可被干燥和/或冷冻。可从生物质分离其他产物，例如像脂质或一种或多种蛋白质。因此，还在本发明的方面中提供包含具有调节的生长和/或表型特征的藻类宿主细胞的藻类生物质，如本文所公开的任何重组宿主细胞，例如包含本发明的核酸分子的藻类宿主细胞，其中升高的核酸分子表达产生较高生物质生产率。

生物质可以多种方式中的任一种使用，例如，它可通过从生物质产生合成气而被加工用作生物燃料，可被供应至厌氧消化池以产生一种或多种醇，或可提取生物质以提供藻类脂质，如但不限于甘油单酯、甘油二酯或甘油三酯、脂肪酸烷基酯、脂肪酸和/或脂肪酸衍生物。

如本文所述的宿主藻类细胞可包含编码用于产生产物的多肽的一种或多种非天然基因，所述产物如但不限于脂质、着色剂或色素、抗氧化剂、维生素、核苷酸、核酸、氨基酸、激素、细胞因子、肽、蛋白质或聚合物。例如，非天然基因可编码酶、代谢调控因子、辅因子、载体蛋白质或转运蛋白。

在一些实施方案中，可通过本领域中的普通技术人员已知的回收方式，如通过完整培养物提取(例如使用有机溶剂)来从培养物回收产物如脂肪酸和脂肪酸衍生物。在一些情况下，脂肪酸或脂肪酸衍生物(如脂肪酸酯)的回收可通过细胞的均化增强，如在本文的实施例中所提供。当脂肪酸从微生物足够释放至培养基中时，回收方法可被调整用于有效地回收仅所述释放的脂肪酸、仅所产生且储存在微生物内的脂肪酸或所产生的和所释放的脂肪酸两者。

在其他实施方案中，产物，如但不限于由上述重组微生物分泌/释放至培养基中的游离脂肪酸和脂肪酸衍生物可以各种方式回收。可采用直接分离方法，例如，通过使用不混溶的溶剂分配。此外或可替代地，可采用微粒吸附剂。这些可包括亲脂性微粒和/或离子交换树脂，这取决于回收方法的设计。它们可在分离的培养基中循环且然后收集，和/或培养基可穿过固定床柱，例如含有这些微粒的色谱柱。随后可例如通过使用适当溶剂从微粒吸附剂洗脱脂肪酸。在这类情况下，一种分离方法可包括进行溶剂的蒸发，接着进一步加工所分离的脂肪酸和脂质，以产生可用于多种商业目的的化学品和/或燃料。

本发明的一些实施方案涉及包括培养如本文所述的藻类宿主细胞的方法，所述藻类宿主细胞还包含编码参与产物的产生的多肽的至少一种非天然基因，以产生生物质或至少一种藻类产物。可通过本领域中的普通技术人员已知的回收方式，如通过完整培养物提取(例如使用有机溶剂)来从培养物回收产物，如脂质和蛋白质。在一些情况下，脂肪酸产物的回收可通过细胞的均化而增强。例如，脂质如脂肪酸、脂肪酸衍生物和/或甘油三酯可通过在升高的温度和/或压力下用溶剂提取藻类来从藻类分离，如在2012年2月29日提交的标题为“SolventExtractionofProductsfromAlgae”的共同未决的美国专利申请公布2013中所描述，所述申请以引用的方式整体并入本文。

本文给出的一般性方法的论述意图仅用于说明性目的。其他替代性方法和实施方案对于本领域的技术人员来说在回顾了本公开后将显而易见，并且将包括于本申请的精神和权限内。

除了以上描述之外，本发明涵盖以下实施方案：

实施方案1：一种编码以下多肽的分离或重组核酸分子，所述多肽与SEQIDNO:6、SEQIDNO:8、SEQIDNO:10、SEQIDNO:12、SEQIDNO:14、SEQIDNO:16、SEQIDNO:18、SEQIDNO:20、SEQIDNO:22、SEQIDNO:24、SEQIDNO:26、SEQIDNO:28、SEQIDNO:30、SEQIDNO:32、SEQIDNO:34、SEQIDNO:36、SEQIDNO:38、SEQIDNO:40、SEQIDNO:42、SEQIDNO:44、SEQIDNO:46、SEQIDNO:50或SEQIDNO:52具有至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或100％同一性，

优选地，其中所述多肽包含与以下各项具有至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或100％同一性的B结构域：SEQIDNO:4、SEQIDNO:8的氨基酸27-117、SEQIDNO:10的氨基酸23-113、SEQIDNO:12的氨基酸24-114、SEQIDNO:14的氨基酸24-114、SEQIDNO:16的氨基酸54-144、SEQIDNO:18的氨基酸19-109、SEQIDNO:20的氨基酸15-105、SEQIDNO:22的氨基酸18-108、SEQIDNO:24的氨基酸26-116、SEQIDNO:26的氨基酸29-119、SEQIDNO:28的氨基酸26-116、SEQIDNO:30的氨基酸23-113、SEQIDNO:32的氨基酸26-116、SEQIDNO:34的氨基酸20-110、SEQIDNO:36的氨基酸16-106、SEQIDNO:38的氨基酸24-114、SEQIDNO:40的氨基酸21-111、SEQIDNO:42的氨基酸29-119、SEQIDNO:44的氨基酸20-110、SEQIDNO:46的氨基酸20-110、SEQIDNO:50的氨基酸9-96以及SEQIDNO:52的氨基酸16-106。

实施方案2：根据实施方案1的分离或重组核酸分子，其中所述B结构域是非LEC1型HAP3样蛋白B结构域和/或所述B结构域包含SEQIDNO:2、SEQIDNO:3、SEQIDNO:61或SEQIDNO:62的氨基酸序列。

实施方案4：一种编码以下多肽的分离或重组核酸分子，所述多肽与SEQIDNO:64、SEQIDNO:65、SEQIDNO:66或SEQIDNO:68具有至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或100％同一性。

实施方案5：一种编码以下多肽的分离或重组核酸分子，所述多肽与SEQIDNO:70具有至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或100％同一性。

实施方案6：一种载体，其包含如实施方案1-5所述的任何核酸分子的核酸分子，其中所述载体包含以下中的一个或多个：a)用于在宿主株中增殖所述核酸分子的复制起点；b)选择性标记；c)报道基因；d)表达序列；以及e)用于介导同源重组至宿主基因组中的序列。

实施方案7：一种重组真核微生物，其包含如实施方案1-6所述的任何核酸分子。

实施方案8：一种重组真核微生物，其包含以下中的任何两者或全部三者：根据实施方案1所述的非天然核酸分子、根据实施方案4所述的非天然核酸分子以及根据实施方案5所述的非天然核酸分子。

实施方案9：根据实施方案7或实施方案8所述的重组真核微生物，其中所述真核微生物是藻类或长短鞭毛体，任选地其中所述重组真核微生物是以下的种：曲壳藻属、茧形藻属、双眉藻属、纤维藻属、星胞藻属、黄金色藻属、Bolidomonas、特氏藻属、气球藻属、葡萄藻属、片球藻属、角毛藻属、四鞭藻属、衣藻属、绿球藻属、绿梭藻属、小球藻属、蓝隐藻属、金球藻属、鳄球藻属、隐甲藻属、隐藻属、小环藻属、栅藻属、杜氏藻属、后棘藻属、赫氏圆石藻属、独球藻属、衣迪斯藻属、眼虫藻属、真眼点藻属、被棘藻属、脆杆藻属、拟脆杆藻属、丽丝藻属、红球藻属、菱板藻属、赤潮异弯藻属、膜胞藻属、等鞭金藻属、鳞孔藻属、微星藻属、蒜头藻属、单针藻属、微球藻属、微拟球藻属、舟形藻属、新绿藻属、异鞭藻属、肾藻属、菱形藻属、棕鞭藻属、鞘藻属、卵囊藻属、Ostreococcus、拟小球藻属、Parietochloris、杜氏亚属盐藻属、巴夫藻属、普莱格门、褐指藻属、噬菌体属、Picochlorum、扁藻属、颗石藻属、肋球藻属、原壁菌属、拟绿球藻属、拟新绿藻属、拟角星鼓藻属、塔胞藻属、桑椹藻属、栅列藻属、裂衣藻属、骨条藻属、水绵藻属、裂丝藻属、四球藻属、扁藻属、海链藻属、黄丝藻属、无隔藻属、鲜绿球藻属、魏氏藻属、团藻属、拉普利属、拟网粘菌类、破囊壶菌属、裂殖壶菌属、不动壶菌属、橙黄壶菌属、日本壶菌属、Diplophrys或吾肯氏壶菌属。

实施方案10：根据实施方案7-9中任一项所述的重组真核微生物，其中所述重组微生物具有比在各方面与所述重组真核微生物大致上相同的对照微生物更高的生产率，例外是所述对照微生物不包含根据实施方案1-6中任一项所述的核酸分子。

实施方案11：根据实施方案10所述的重组真核微生物，其中所述更高生产率是更高生长速率、更高生物质积聚、更高生物质生产率、更高生物分子生产速率或更高量的所产生的生物分子。

实施方案12：根据实施方案7-11中任一项所述的重组真核微生物，其中所述重组真核微生物包含至少一种另外的非天然基因，所述基因编码参与生物产物的产生的多肽，其中所述参与生物产物的产生的多肽任选地是酶或转录调控因子。

实施方案13：一种产生生物质或生物产物的方法，所述方法包括在表达所述核酸分子的条件下培养根据实施方案中任一项的微生物，其中所述微生物产生生物质或生物产物。

实施方案14：根据实施方案13所述的方法，其进一步包括从所述培养物回收生物质或所述生物产物，任选地其中所述生物产物是碳水化合物、聚合物、醇、糖、维生素、小分子、聚酮、色素、着色剂、肽、蛋白质或脂质。

实施方案15：根据实施方案13或14所述的方法，其中所述微生物是藻类，任选地是以下的种：曲壳藻属、茧形藻属、双眉藻属、纤维藻属、星胞藻属、黄金色藻属、Bolidomonas、特氏藻属、气球藻属、葡萄藻属、片球藻属、角毛藻属、四鞭藻属、衣藻属、绿球藻属、绿梭藻属、小球藻属、蓝隐藻属、金球藻属、鳄球藻属、隐甲藻属、隐藻属、小环藻属、栅藻属、杜氏藻属、后棘藻属、赫氏圆石藻属、独球藻属、衣迪斯藻属、眼虫藻属、真眼点藻属、被棘藻属、脆杆藻属、拟脆杆藻属、丽丝藻属、红球藻属、菱板藻属、赤潮异弯藻属、膜胞藻属、等鞭金藻属、鳞孔藻属、微星藻属、蒜头藻属、单针藻属、微球藻属、微拟球藻属、舟形藻属、新绿藻属、异鞭藻属、肾藻属、菱形藻属、棕鞭藻属、鞘藻属、卵囊藻属、Ostreococcus、拟小球藻属、Parietochloris、杜氏亚属盐藻属、巴夫藻属、普莱格门、褐指藻属、噬菌体属、Picochlorum、扁藻属、颗石藻属、肋球藻属、原壁菌属、拟绿球藻属、拟新绿藻属、拟角星鼓藻属、塔胞藻属、桑椹藻属、栅列藻属、裂衣藻属、骨条藻属、水绵藻属、裂丝藻属、四球藻属、扁藻属、海链藻属、黄丝藻属、无隔藻属、鲜绿球藻属、魏氏藻属、或团藻属，任选地其中所述培养是在光合自养条件下。

实施例

申请人已从藻株海洋富油微拟球藻鉴别且分离了CCAAT-盒结合转录因子家族的一种新型成员，其在微生物中赋予增加的生产率。这些发现通过以下方式来进行：鉴别藻株微拟球藻WT-3730的基因组中编码转录因子的基因，构建包含推定转录因子基因的表达载体，并且将所述载体转化至微拟球藻中，且针对提高的生产率分析所得到的藻类系。

实施例1：过度表达一种或多种转录因子的微拟球藻重组细胞系的开发藻株WT-3730来源于从普鲁瓦索里-古拉德国家海洋藻类与微生物区系中心(Provasoli-GuillardNationalCenterforMarineAlgaeandMicrobiota)(NCMA,Maine,U.S.A.)获得的藻株海洋富油微拟球藻CCMP1894，所述中心先前是国家海洋浮游植物保藏中心(NationalCenterforCultureofMarinePhytoplankton(CCMP))。首先分离WT-3730株的全基因组DNA内容物且对其进行鸟枪法测序。然后组装全基因组测序数据且进行注释。通过主要依赖于Pfam分析和隐马尔可夫模型(HiddenMarkovModel)(HMM)使用程序hmmer3(janelia.org)来通过生物信息学方法鉴别编码推定转录因子的基因。“PlantTranscriptionFactorDatabase”(Perez-Rodriguez等(2010)Nucl.AcidsRes.38(增刊1):D822-D827)也用作参考文献。鉴别是基于编码区，因为天然存在的基因通常包含从所得到的基因序列鉴别且排除的一种或多种内含子，所述基因序列是从外显子序列鉴别的且构建为cDNA并且用于转化构建体中(例如，SEQIDNO:5)。在序列表中提供的氨基酸序列(例如，SEQIDNO:6)表示这些cDNA的编码多肽。考虑到增强脂质和或生物质生产率的目标，选择74种推定转录因子基因(cDNA)且在微拟球藻WT-3730细胞中过度表达。为此，构建了多种转化载体，其中将编码所述转录因子的基因的转录表达置于来自海洋富油微拟球藻的TCTP启动子(SEQIDNO:54)或来自海洋富油微拟球藻的延伸因子启动子(eIF3，SEQIDNO:53)的控制下。这样一种载体的实例提供于图3中。

对于转化，使海洋富油微拟球藻细胞在PM064培养基中生长且以1–3×107个细胞/mL之间的浓度收获。将细胞在25℃下在2500×g下离心10分钟以沉淀细胞。然后将细胞重新悬浮于385mM山梨醇的无菌溶液中且再次离心，随后在山梨醇中洗涤两次或更多次以去除所有痕量的培养基。将细胞沉淀重新悬浮于山梨醇中至1×1010个细胞/mL的最终浓度。将构建体的线性化质粒DNA以0.5-5μgDNA之间的浓度等分至微量离心管中，并且将100μL的细胞混合物与所述DNA混合。将混合物以2mm的间隙距离转移至冷却的电穿孔小槽。将电穿孔仪设定至50μF电容、500欧姆电阻和2.2kV电压。在电穿孔之后，将样品重新悬浮于1mL的山梨醇中且在冰上孵育几分钟。将细胞转移至含有10mL的新鲜培养基的15mL锥形管且允许在微光(约5μmol光子m-2sec-1)中回收过夜。第二天，将细胞以5-7×108个细胞/mL之间的浓度接种在含有5μg/mL博来霉素、100μg/mL潮霉素或100μg/mL杀稻瘟菌素的PM024板上。将板在持续光照(约80μmol光子m-2sec-1)下孵育直到菌落出现(约2-3周)。

PM024培养基包含：35ppt红十字海盐(InstantOceanSalts)(AquaticEcoSystems；Apopka,FL)、10X古拉德的F/2海水浓缩液(50X储备液，来自Sigma-Aldrich,St.Louis,MO,目录号G0154；组分在培养基中的最终浓度：8.825mM硝酸钠；0.32mM磷酸二氢钠；0.205μM生物素；0.420μM氯化钴·6H2O；0.400μM硫酸铜·5H2O；0.11713mMEDTA二钠·2H₂O；9.095μM氯化锰·4H₂O；0.248μM钼酸钠·2H₂O；2.965μM硫胺素·HCl；0.037μM维生素B₁₂；0.765μM硫酸锌·7H₂O)。

PM064培养基包含：35ppt红十字海盐、5X古拉德的F/2海水浓缩液(50X储备液，来自Sigma-Aldrich,St.Louis,MO,目录号G0154；组分在培养基中的最终浓度：4.413mM硝酸钠；0.16mM磷酸二氢钠；0.103μM生物素；0.240μM氯化钴·6H2O；0.200μM硫酸铜·5H2O；0.0585mMEDTA二钠·2H2O；4.54μM氯化锰·4H2O；0.124μM钼酸钠·2H2O；1.48μM硫胺素·HCl；0.0185μM维生素B12；0.382μM硫酸锌·7H2O)。

实施例2：赋予提高的细胞生物质生产率的微拟球藻CCAAT-盒结合转录因子的鉴别和分离

随后针对细胞生物质生产率的调节筛选过度表达一种或多种转录因子的重组藻类细胞系。将含有大约30mlPM066培养基的一式两份25cm2烧瓶用来自20ml液体培养物的藻类细胞接种，所述液体培养物已从在板上生长的细胞开始从5ml培养物接种。在3-6天生长之后，将培养物基于藻株的生长特征进行稀释，以使得它们被估计在3天中达到对数晚期。将烧瓶放置在Adaptis生长室中，在大约130rpm下在含有1％富CO2空气的环境中振荡并且根据16h光照(在30℃下):8h黑暗(在25℃下)循环暴露于大约274μE·m-2·s-1光下。在3天之后，这些种子培养物用于接种各自含有200ml总培养物体积的75cm2烧瓶至提供穿过培养物的大约35％光衰减的密度(其是从最靠近光的侧至离光最远的侧8.6cm)。所述***顶部配备有包括空气鼓泡管的盖和用于培养物采样的口。将培养物在抵靠排灯定位的架子上用1％富CO2空气鼓泡，从而在中心定位的烧瓶前面提供大约550μE光合有效辐射(PAR)。光照方案是16小时的光照(在30℃下)至8小时的黑暗(在25℃下)。在两天生长之后，每日去除6mL样品以用于FAME和TOC分析并且在七天培养周期期间用无菌蒸馏水补充蒸发损失。

PM066培养基包含在红十字海盐中的10mM硝酸盐(NO3)和0.417mM磷酸盐(PO4)连同痕量金属和维生素。通过将5.71ml的1.75MNaNO3储备溶液(148.7g/L)和5.41ml的77mMK2HPO4·3H2O储备溶液(17.57g/L)添加至981ml的红十字海盐溶液(35g/L)连同4ml的螯合金属储备溶液以及4ml维生素储备溶液来制备PM066培养基。通过向400ml的水添加2.18gNa2EDTA·2H2O、1.575gFeCl3·6H2O、500μl的39.2mM储备溶液(0.98g/100ml)CuSO4·5H2O、500μl的77.5mM储备溶液(2.23g/100ml)ZnSO4·7H2O、500μl的42.0mM储备溶液(1.00g/100ml)CoCl2·6H2O、500μl的910.0mM储备溶液(18.0/100ml)MnCl2·4H2O、500μl的26.0mM储备溶液(0.63g/100ml)Na2MoO4·2H2O，补足至500ml最终体积且过滤灭菌来制备螯合金属储备溶液。通过向400ml的水添加0.05g硫胺素HCl、500μl的0.37mM氰钴胺储备溶液(0.05g/100ml)以及2.5ml的0.41mM生物素储备溶液(0.01g/100ml)，补足至500ml的最终体积并且过滤灭菌来制备维生素储备溶液。

对使用GeneVacHT-4X干燥的2mL样品进行FAME分析。向干燥的沉淀添加以下：500μL的于甲醇中的500mMKOH、200μL的含0.05％丁基化羟甲苯的四氢呋喃、40μL的2mg/mlC11:0游离脂肪酸/C13:0甘油三酯/C23:0脂肪酸甲酯内部标准混合物以及500μL的玻璃珠(425-600μm直径)。将小瓶用开顶PTFE隔膜内衬的盖加盖并且在1.65krpm下置于SPEXGenoGrinder中持续7.5分钟。然后将样品在80℃下加热五分钟且使其冷却。对于衍生化，将500μL的甲醇中的10％三氟化硼添加至样品，之后在80℃下加热30分钟。使管冷却，之后添加2mL的庚烷和500μL的5MNaCl。将样品在2krpm下涡旋五分钟且最后在1krpm下离心三分钟。使用GerstelMPS自动取样器对庚烷层进行取样。定量使用80μg的C23:0FAME内部标准。

通过用DI水将2mL的细胞培养物稀释至20mL的总体积来测定总有机碳(TOC)。将每次测量的三种注射液注射至ShimadzuTOC-Vcsj分析仪中以用于测定总碳量(TC)和总无机碳(TIC)。将燃烧炉膛设定至720℃，并且通过从TC中减去TIC来测定TOC。对于未稀释的培养物，4点校准范围是对应于20-2000ppm的2ppm至200ppm，其中相关系数是r2>0.999。

在此生产率测定中一种株系GE-4627展示相对于野生型显著提高的生产率(图4)。在进入运行4天，突变体开始展示较高脂肪酸甲酯含量(FAME；图4A)和较高总有机碳值(TOC；图4B)。在所有时间点过程中，对于野生型和转基因系观察到相似的FAME/TOC比率(图4C)。表2示出相较于野生型对照，针对转基因系GE-4627计算的FAME和TOC生产率。

表2.WT-3730和GE-4627的FAME和TOC生产率

藻株GE-4627是通过用线性化载体转化WT-3730产生的转基因系，所述载体被设计成过度表达被注释为“CCAAT-盒结合转录因子亚基B(NF-YB)家族”的基因。还被称为CBF和“HAP”的转录活化因子的此家族由其中心结构域识别，所述中心结构域是在真核细胞之中保守的蛋白质的约90个氨基酸的区。因此，并且由于藻株的增强的生物质表型，所述基因被称为HapY(happy)。

此新型基因的编码序列(对应于cDNA序列)作为SEQIDNO:5被提供在序列表中。使用DDBJ/GenBank/EMBL数据库进行针对SEQIDNO:5的同源性搜索。还使用软件(STNInternational,Germany)测定序列同一性和相似性。在BLASTX同源性分析中，SEQIDNO:5被确定编码CBFD_NF-YB_HMF结构域。SEQIDNO:6(由SEQIDNO:5(HapYcDNA)编码的推导的氨基酸序列据发现在大约一半其长度(从氨基酸22至氨基酸112，对应于CBFD_NF-YB_HMFB结构域)与由石松植物门(lycophyte)模型生物体江南卷柏(Selaginellamoellendorffii)的基因组编码的HAP3/NF-YB(具有GeneBank登录号XP_002974018.1(在88/88多肽比对内91％序列同一性))和来自森林草莓野草莓(Fragariavesca)的HAP3/NF-YB亚基(具有GeneBank登录号XP_004304397.1(在88/88多肽比对内89％序列同一性)具有序列同源性。此外，SEQIDNO:6展示与先前从白马铃薯饥荒病原体致病疫霉(Phytophthorainfestans)鉴别的另一种HAP3样基因(具有GeneBank登录号XP_002901676.1(在90/90多肽比对内88％序列同一性)具有88％序列同一性。

进一步序列分析揭示SEQIDNO:6(由HapY基因编码的多肽)包含先前据报道对HAP3样活性以及对HAP3样蛋白的生理功能来说重要的若干保守结构域和基序。例如，保守结构域A、B和C中的每个(其是先前由Harada等(PNAS100(4):2152-2156,2003报道的HAP3样亚基所特有的)还被发现存在于SEQIDNO:6的氨基酸序列中(参见，例如图1的序列比对和序列表)。保守的DNA结合结构域和保守的亚基相互作用结构域也在当前公开的来自海洋富油微拟球藻的SEQIDNO:6中发现。此外，B结构域(其通常包含约90个残基并且据先前报道在若干HAP3样亚基中是保守的)也在SEQIDNO:6中鉴别。总之，这些结果指示SEQIDNO:1(Hap_1742(“HapY”)基因)编码来自海洋富油微拟球藻的CCAAT-盒结合因子的HAP3/NF-YB亚基。

在高等植物的HAP3/NF-YB同源物之中，HAPY(SEQIDNO:3)的B结构域据发现与大豆的B8样HAP3(NF-YB)多肽的B结构域(XP_003554361.1)和拟南芥的B3样HAP3(NF-YB)多肽的B结构域(NP_193190.1)95％相同。这两者均是非LEC1型NF-YB多肽。大豆的B8样HAP3(NF-YB)多肽(XP_003554361.1)在美国专利号7,868,229(在所述专利中提供为SEQIDNO:24)被称为可能影响高等植物的开花的非LEC1样HAP3多肽的G482亚分支的成员。有证据表明拟南芥的B8样HAP3(NF-YB)多肽也影响开花(Kumimoto等(2008)Planta228:709-723。

实施例3：按比例缩小的培养物中表达HapY的重组微拟球藻细胞的生产率

第二生产率测定用于使用被设计用于复制池塘条件的光暴露方案验证被工程化改造为过度表达SEQIDNO:1的藻株的所观察到的增强的生产率。在此测定中，将针对每种藻株的一式三份25cm2烧瓶用藻类接种以提供在500mL(PM-066培养基)的总体积中0.15OD730nm的培养物密度。将搅拌棒添加至每个烧瓶，并且将具有用于空气/CO₂递送的注射器过滤器和用于取样的可来福接头(claveconnector)的塞子安装至烧瓶，对所述烧瓶沿16烧瓶架给予随机位置。使在架子下方的搅拌盘在450rpm下运行。LED排灯提供被设为模拟池塘条件的光照方案，其中12小时每日光照周期的峰值光强度是1800μE·m^-2·s^-1并且温度从25℃至34℃变化，将样品(通常2mL)在第3、4、5、6、7、8、9和10天去除以用于TOC和FAME分析。

再次，HapY过表达系据观察在FAME和生物质生产率方面胜过野生型(图5)。使用此测定，转基因系展示相对于野生型FAME生产率的50％提高(图6)。如先前所观察，此实验中的FAME/TOC比率对于两种藻株来说是相对相等的，从而指示提高的FAME生产率可能是提高的总体生物质生产率的结果。

为了测定藻株GE-4627中的海洋富油微拟球藻HapY基因的表达水平，在排灯生产率测定的不同时间点期间通过定量实时PCR(qRT-PCR)测量mRNA水平。从GE-4627细胞和野生型对照细胞分离mRNA并且通过基因特异性引物测量HapY(Hap_1742)的mRNA水平。如所预期，在两个单独实验中，发现当与野生型对照相比较时，过表达系GE-4627中的HapY(Hap_1742)基因的mRNA水平达高10倍。

实施例4：过度表达HapY的转基因藻类细胞的转录组学

为了测定由海洋富油微拟球藻HapY基因(SEQIDNO:5)的过度表达引起的转录变化，将过度表达海洋富油微拟球藻HapY的两个株系的转录组在两个不同时间点(培养期的第4天和第7天)进行测序并且与在相同条件下生长的野生型进行比较。

从野生型和在以0.2(730nm)的光密度下培养开始之后第4天和第7天收获的过度表达HapY的转基因细胞提取RNA。在第4天收获之后，以8mM的最终浓度掺入NaNO3以确保培养物不会在实验的剩余部分期间进入氮消减。

为了分离总RNA，将10mL的藻类细胞培养物在4000xg下离心沉淀5分钟并且将上清液倾析出来。将沉淀重新悬浮于1.8mL缓冲液A(5mLTLE研磨缓冲液、5mL苯酚、1mL1-溴-3-氯丙烷和20μL巯基乙醇，其中TLE研磨缓冲液包含在50mL的最终体积中9mL的1MTris(pH8)，5mL的10％SDS，0.6mL的7.5MLiCl以及0.45MEDTA)并且转移至含有大约0.5mL的200μm锆珠粒的2mL微量离心管中。将所述管在4℃下剧烈涡旋5分钟，且随后在11.8xg下离心2分钟。随后去除水层，并且吸移至新的2mL管，向所述管添加1mL25:24:1苯酚提取缓冲液(25mL苯酚(pH8或5.1)；24mL1-溴-3-氯丙烷以及1mL异戊醇)，并且将所述管剧烈振荡且在11.8xg下离心2分钟。在离心之后，将水层去除且吸移至新的2mL离心管中，向所述离心管添加1ml1-溴-3-氯丙烷。将所述管振荡且再次在11.8xg下离心2分钟。将水层移除至新的管且添加0.356体积的7.5MLiCl。将所述管倒置10-12次并且在-20℃下储存过夜。第二天，使样品在不混合的情况下升至室温且在16,000xg下离心30分钟。将上清液去除并且将沉淀用1mL的冰冷80％乙醇洗涤。将所述管在16,000xg下离心30分钟，并且使其在已去除上清液之后空气干燥。最后，将RNA沉淀重新悬浮于50μl超纯水中。通过使用Agilent2100生物分析仪和RNA6000LabChip根据制造商说明书通过芯片上凝胶电泳评定RNA质量。

利用TruSeq标准mRNA样品制备试剂盒(Illumina)按照制造商说明书从分离的RNA制备下一代测序文库。使用边合成边测序法(sequencing-by-synthesis)(IlluminaMiSeq)对TruSeq文库进行测序以使用mRNA-Seq程序(在Mortazavi等(2008)NatureMethods5:621-628)产生100bp双端读长(paired-endread)。使用TopHat(tophat.cbcb.umd.edu/)将可映射的读长与海洋富油微拟球藻参考基因组序列进行比对。使用Cufflinks软件(cufflinks.cbcb.umd.edu)的Cuffdiff分量针对每一注释计算表达水平。使用RpackageedgeR(McCarthy等(2012)Nucl.AcidsRes.40:doi:10/1093/nar/gks042))进行差异表达分析。使用标准参数对于每种样品中的每一基因报道以每百万每千碱基片段数(FPKM)为单位的表达水平。FPKM是针对转录物长度的差异标准化的相对转录水平的量度。

表3和表4示出相较于野生型在转基因株系中差异表达的基因。除了HapY(表3的第一行)之外，两种其他调控因子也被观察到在转基因株系中上调(表3，以粗体突出显示)。

如上所论述，与HapY属于相同家族的转录因子(CBF/Hap/NF-Y)据报道结合位于调控的基因上游的CCAAT盒，因此检查了存在于上调的基因的推定启动子中的CCAAT盒的数目，并且发现上调至少两倍(至少1的倍数变化的对数2)的所有基因包含一个或多个CCAAT盒。因此，在此子集中CCAAT结合盒的富集支持HapY是CBF转录因子的生物信息学预测并且提供在所鉴别的上调的靶标方面的信心。

表3.发现相较于WT，差异表达的基因在HapY过表达株系中上调。仅示出错误发现率(FDR)值<0.05的基因。

表4.发现相较于WT，差异表达的基因在HapY过表达株系中下调。仅示出错误发现率(FDR)值<0.05的基因。

实施例5：来自海洋微生物的编码HapY同源物的基因的鉴别

此实施例描述来自若干海洋微生物的编码HapY的同源物的基因的鉴别，所述海洋微生物包括海洋微拟球藻、扁藻、小环藻、舟形藻、小球藻、以及布朗葡萄藻。

首先单独制备若干海洋微生物的全基因组DNA内容物以用于鸟枪法454-焦磷酸测序。基因组DNA用于根据所推荐的方案(454LifeSciences)的文库构建以用于单一长读长。通过GSFLX钛系列测序运行产生序列。对于微拟球藻基因的Illumina短读长(100bp)测序进行mate-pair和paired-end基因组DNA文库构建。

对于cDNA测序，使用QiagenRNeasyMaxiTM柱根据制造商的建议从单独微生物分离株分离总RNA。通过使所述RNA片段化并且使用IlluminamRNA-Seq文库制备试剂盒根据制造商的建议用随机引物将其转化成cDNA来合成cDNA。随后将Illumina接头连接至DNA端并且使用同一试剂盒中的试剂对样品进行PCR扩增。将DNA模板在Illumina基因组分析仪IITM平台上根据制造商建议的条件进行测序。产生paired-end读长并且将其绘图至如下所示的组装的基因组序列。

对于454个序列的数据使用Newbler汇编程序2.0.00.20版且对于Illuminamate-pair和paired-end数据使用ALLPATHS-LG进行基因组序列组装。使用Evigan共有基因预测方法(Liu等,,Bioinformatics,24(5):597-605,2008)或Augustus(Stanke等,,BMCBioinformatics7,2006)使用组合来自多个来源的证据的方法从组装的基因组重叠群预测编码基因序列。然后使用概率性隐马尔可夫模型(HMMER3版；其可在hmmer.janelia.org/找到)与PFAM模型在所预测的基因序列上鉴别推定的转录因子。

除了基于HMM的从头开始基因模型外，使用包括在Augustus程序中的暗示机制，关于基因结构的进一步直接证据也包括在预测中。这种机制允许提供关于基因特征的另外证据，如Augustus可用于测定例如与从头开始模型一致且由直接实验数据支持的外显子-内含子边界的位置的外显子-内含子边界。用于基因发现方法中的证据包括GeneWise蛋白质-DNA比对、使用Tophat产生的基于Solexa的外显子-内含子剪接点以及使用程序Cufflinks产生的组装的转录物。所有暗示的权重通过以下方式进行导出：使用手动验证的拟南芥基因组注释(TAIR数据库，www.arabidopsis.org/)作为参考数据集，使用基于拟南芥基因组序列的基因预测结果的灵敏度和特异性的精确度函数对所述权重进行优化。还在所述证据支持其存在时预测基因的替代转录物。

已通过以上所述的方法鉴别了来自海洋微生物的若干HapY基因。例如，从基因组DNA和cDNA序列数据鉴别了HapY基因以从海洋微拟球藻(SEQIDNO:7)、小环藻(SEQIDNO:15)、舟形藻(SEQIDNO:17)、小球藻(SEQIDNO:19)和布朗葡萄藻(SEQIDNO:21)重新构建HapYcDNA序列。这些同源物中的几种的基因结构提供于图7中，证明天然基因包含内含子。此外，从三种独立的扁藻分离株的基因组鉴别了三种HapY样基因(SEQIDNOs:9、11和13)。此外，通过同源性搜索从公开基因组鉴别了来自圆柱拟脆杆藻(SEQIDNO:24)、三角褐指藻(SEQIDNO:34)、强壮团藻(SEQIDNO:36)、细小微胞藻(SEQIDNO:38)、微胞藻(SEQIDNO:40)、裂壶藻(SEQIDNO:50)以及不动壶菌(SEQIDNO:52)的HapY的直系同源物。

在公开数据库中在HapY样多肽以及其对应最近同源物中的每种中鉴别的属于保守结构域的另外信息提供于表1中和在此所附的序列表中。

实施例6：通过粒子轰击遗传转化扁藻。

使用Bio-RadHelioTMPDS-1000/He基因枪设备根据制造商的说明书在较小修改情况下通过粒子轰击进行扁藻转化。

将从过夜大肠杆菌培养物分离的质粒DNA定量且用对于线性化来说适当的酶消化过夜。质粒包含编码SEQIDNO:10、SEQIDNO:12或SEQIDNO:14中的任一者的核酸序列，所述核酸序列可操作地连接至SEQIDNO:55的扁藻GAPDH启动子(或在2012年12月4日提交且以引用的方式整体并入本文的US13/693,585中提供的任何启动子)和GAPDH终止子(SEQIDNO:56)。所述质粒还可包含选择性标记，例如像赋予博来霉素抗性且针对在莱茵衣藻中表达进行密码子优化的印度斯坦链异壁菌(Sh)ble基因(SEQIDNO:57)，所述基因可以可操作地连接至藻类启动子，例如像扁藻肌动蛋白启动子(SEQIDNO:58)和扁藻肌动蛋白终止子片段(SEQIDNO:59)。

如下制备金颗粒：将金微载体(Bio-Rad目录号165-2262)称重至1.5mL管中。对于以0.5mg金/轰击的40次轰击，通常使用20mg的金微载体。在添加100μL0.05M亚精胺之后，使管涡旋，并且可随后超声处理5秒。随后将质粒DNA添加至所述管，接着短暂涡旋。在涡旋时，逐滴添加100uL1MCaCl₂。质粒的体积取决于每次注射所需的DNA量而变化。随后将管在室温下孵育10分钟。将金制剂短暂离心10-15秒以丢弃上清液。将沉淀用1mL乙醇洗涤三次，在每次洗涤之间涡旋且离心沉淀。随后将沉淀重新悬浮于2.5mL乙醇/PVP溶液(2.5mL乙醇与1.25uL的于乙醇中的20mg/mLPVP储备液的混合物)中，接着超声处理5秒。

在轰击之前两天，将扁藻株WT-105的培养物以5×105个细胞/mL在PM032培养基中接种，并且使细胞在25℃、1％CO2下在设定在125rpm下的旋转振荡器上按16:8光照:黑暗循环生长。在粒子轰击的典型方案中，首先浓缩藻类细胞并且在转化轰击之前接种。使用Accuri细胞计数器对藻类细胞进行计数。1×106个细胞/mL的细胞计数是优选的。随后将细胞浓缩至5×107个细胞/mL，之后将200uL的浓缩细胞接种到在4cm-直径圆内的PM0321.5％琼脂板上。将总计15个圆(例如，1.5×108个细胞)放置在单个22x22cm板上且使其干燥。终止环与靶标(微藻细胞)之间的距离是5cm。将板放置在工作台上以回收大约24小时。

PM032培养基是10XF/2充足培养基，所述培养基包含8.8mMNaNO3和0.4361mMNaH2PO4.H2O、10xF/2痕量金属以及10xF/2维生素并且可通过在800ml海水中混合1.3ml/L的ProLineF/2部分A和1.3ml/L的ProLineF/2部分B来制备。将溶液充分搅拌，用蒸馏水补足至1升，并且使用0.22μm过滤器过滤灭菌。

在转化之后，通过添加大约20mL的PM032培养基至所述板来回收藻类细胞。将藻类细胞用接种环刮掉以将细胞重新悬浮于液体PM032培养基中。25mL血清学移液管用于从板中去除尽可能多的液体培养基并且置于50mL锥形管中。将另外20mL的PM032培养基添加至所述板以回收任何剩余的藻类并且将此液体培养基转移至锥形管。将细胞通过在3,000xg下离心5分钟沉淀，重新悬浮于4mLPM032中且随后用经高压灭菌的玻璃珠铺展到两个22x22cm选择板上。使板干燥，包裹在微孔带中且置于光架上。藻类菌落通常在1-2周之后出现。

实施例7：通过粒子轰击遗传转化小环藻属

将从过夜大肠杆菌培养物分离的质粒DNA定量且用对于线性化来说适当的酶消化过夜。所述质粒包含编码小环藻属HapY的核酸序列SEQIDNO:15，所述核酸序列可操作地连接至SEQIDNO:60(或Niu等(2012)BioTechniquesRapidDispatchesdoi:10.2144/000113881中提供的任何启动子)的小环藻属Accase启动子。所述质粒还可包含选择性标记，例如像赋予博来霉素抗性且针对在莱茵衣藻中表达进行密码子优化的印度斯坦链异壁菌(Sh)ble基因(SEQIDNO:57)，所述基因可以可操作地连接至藻类启动子，例如像在Paulsen&KrogerFEBSJ.272:3413-23或Siaut等Gene406:23-35中提供的任何启动子。

使硅藻小环藻株WT-293的培养物在PM101液体培养基中在高光生长条件、30℃下在14:10一昼夜循环(Adaptis孵育箱)下生长。将处于指数生长期(<1×106个细胞/ml)的细胞通过离心(20分钟，5000g，20℃)沉淀，重新悬浮于约20ml的0.5M渗压剂(0.25M山梨醇+0.25M甘露醇)以获得高浓度的细胞(约1×108个细胞/ml)并且测定细胞计数。将大约3×107个细胞铺展到PM101琼脂板的中心2/3上。PM101培养基与实施例1中所描述的PM024相同，除了它含有10mMNaNO3、0.417mMK2HPO4和1mMNa2SiO3。随后允许板在无菌罩中干燥。

微载体是钨粒子M17(Bio-Rad目录号165-2267)。根据供应商(Bio-Rad)的方案制备微载体，并且包括以下步骤：(1)将60mg的钨粒子称重到“Treff”微管中(VWR目录号101100-388)；(2)在室温下添加1ml70％乙醇且涡旋5分钟；(3)将管储存在台面上持续15分钟；(4)在微微量离心管(picofuge)中离心5秒；(5)去除上清液并且重新悬浮于1ml无菌H2O中；(6)涡旋1分钟且随后将管储存在台面上持续1分钟；(7)在微微量离心管中离心5秒；(8)重复H2O洗涤(步骤5-7)另外三次；以及(9)在最终洗涤之后去除上清液并且将颗粒重新悬浮于1ml的无菌50％甘油中。

在大多数小环藻转化实验中，DNA结合程序涉及以下步骤：(1)在涡旋微载体颗粒的储备溶液时，去除50μl等分部分的珠粒(即，大约3mg)并且转移至新鲜微量离心管；(2)向所述等分试样添加质粒DNA(3μg)，质粒DNA优选地在高浓度(约1mg/ml)下；(3)添加50μl的2.5MCaCl2；(4)添加20μl的0.1M亚精胺(Fluka05292-1ML-F)；(5)继续涡旋管持续另外3分钟；(6)将管储存在台面上持续1分钟；(7)在微微量离心管中沉淀颗粒持续2秒；(8)去除上清液且小心地去除具有140μl的70％乙醇的层；(9)去除上清液且小心地去除具有140μl的100％乙醇的层；以及(10)去除上清液并且重新悬浮于30μl100％乙醇中。

通过设置在每个象限中具有干燥剂的X区段化皮氏培养皿(VWR目录号25384-308)来制备巨载体(Bio-Rad目录号165-2335)。随后将高压灭菌的巨载体/巨载体容纳器放置在干燥剂顶上的每个象限中。将大约10μl的DNA/珠粒分散到巨载体的中心上并且使其干燥。

粒子轰击的典型方案包括以下步骤：(1)将破裂盘(rupturedisk)(Bio-Rad#165-2330)浸渍到异丙醇中并且置于破裂盘固定帽中；(2)将固定帽固定至气体加速管的末端并且用扭力扳手拧紧；(3)将停止屏(Bio-Rad目录号165-2336)和巨载体负载到微载体发射组件中；(4)将微载体发射组件放置到室中；(5)将在第2层含有细胞的具有琼脂板的靶标架放置在室中且关闭门；(6)施加真空且保持在10Hg下；(7)按压FIRE按钮直到破裂盘破裂；(8)释放真空，打开门且去除琼脂板；(9)卸载巨载体且终止来自发射组件的屏；(10)卸载用过的破裂盘。将用于这些转化实验中的BiolisticPDS-1000-HE颗粒递送***中的氦气压力设置在大约2,000psi下，并且破裂盘固定帽与微载体发射组件之间的距离是0.5cm，其可使用六边形间隙工具进行验证。

在轰击之后，如下回收硅藻细胞。通过添加约5ml培养基并且用L-形铺展器刮擦来从琼脂板刮掉细胞；转移至125ml烧瓶中的50mlPM101培养基中，随后将其在大约50E光、30℃、1％CO2中孵育且使细胞回收24小时。在此步骤，可在通过离心沉淀之前测定细胞计数。通过留下约1-2ml培养基来倾析上清液。将细胞培养物重新悬浮于剩余培养基中并且接种到抗生素板上(最大2×107个细胞/板)。随后将板用微孔带包裹并且置于高光下。硅藻菌落通常在1-2周之后出现。

实施例8：重组藻类细胞的分子表征和评价。

以多种方式评定重组HapY多肽赋予调节的生物质生产率的能力。在将异源外来DNA引入藻类细胞之后，通过多种方法如与整合基因相关的核酸、蛋白质和代谢物的分析来证实藻类基因组中的异源基因的转化或整合。例如，PCR分析是除其他方法之外用于筛选转化细胞的快速方法(Sambrook和Russell,2001,同上)。使用对目标抗生素耐受性基因或对转化载体骨架等具有特异性的寡核苷酸引物进行PCR。

来自转化实验的藻类转化体也通过基因组DNA的Southern印迹分析来证实(Sambrook和Russell，2001，同上)。一般来说，通过使用先前所述的程序从转化体提取总DNA(参见例如欧洲专利申请号EP2090648A1)，用适当的限制酶消化，在琼脂糖凝胶中尺寸分级分离，并且转移至硝酸纤维素或尼龙膜。然后用例如非放射性DIG标记的靶DNA片段探测所述膜或“印迹”以根据标准技术确认所引入的基因整合至植物基因组中(基于“Genius”DIG的***，BoehringerMannheimBiochemicalsGmbH,Germany；Sambrook和Russell,2001,同上)，或放射性标记的32P探针可用于DNA印迹分析。

HapY转基因的表达可通过PCR进行评价。还可使用结合存在于HapY蛋白上的一个或多个表位的抗体对转基因藻类进行蛋白质印迹、生物化学测定等以通过标准程序确认由HapY基因编码的蛋白质的存在(例如，Sambrook和Russell,2001,同上)。

可使用本文提供的生产率测定或类似的测定研究外源性HapY基因的作用，在所述测定中培养过度表达HapY基因或编码与HapY蛋白同源的蛋白质的基因的重组藻类细胞并且针对产物的产生或积聚进行分析。所述产物可以是，作为非限制性实例，碳水化合物、聚合物、醇、糖、维生素、小分子、聚酮、色素、着色剂、肽、蛋白质或脂质。或者或此外，过度表达HapY基因或其直系同源物的重组细胞可针对增加的生长速率和/或生物质积聚进行测试。

实施例9：用于与Hap-1742相互作用的NF-Y亚基的酵母双杂交筛选

Hap-1742(HapY)的一级结构的分析确定其作为在大多数真核细胞中保守且通常由异三聚体(由NF-Y亚基A、B和C组成)或异二聚体复合物(由NF-Y亚基B和C组成)组成的CBF/NF-Y转录因子杂合物的B亚基。为了鉴别Hap-1742转录因子复合物的其他组分，针对使用酵母双杂交(Y2H)发现方法筛选全长Hap-1742蛋白质(参见例如，Chien等(1991)Proc.Natl.Acad.Sci.88:9578-9582；Guarente(1993)Proc.Natl.Acad.Sci.90:1639-1641；Rutisjmu&Golemis(2008)Biotechniques44:655-662)。在减去假阳性之后(通过与“假阳性数据库”直接比较，所述数据库由在大多数筛选中出现的背景蛋白质组成)，剩余两个命中：EUKT-6092和EUKT-1490。基于NF-Y转录因子的知识，这些命中似乎是体内结合Hap-1742的真实相互作用物。

独立于用于制备cDNA的四种不同的生长条件(氮充足生长、氮缺乏、磷缺乏以及高光条件)分离总微拟球藻RNA以在酵母双杂交测定中筛选，将10mL的藻类细胞培养物在4000xg下离心沉淀5分钟且将上清液倾析出来。将沉淀重新悬浮于1.8mL缓冲液A(5mLTLE研磨缓冲液、5mL苯酚、1mL1-溴-3-氯丙烷和20μL巯基乙醇，其中TLE研磨缓冲液包含在50mL的最终体积中9mL的1MTris(pH8)，5mL的10％SDS，0.6mL的7.5MLiCl以及0.45MEDTA)并且转移至含有大约0.5mL的200μm锆珠粒的2mL微量离心管中。将所述管在4℃下剧烈涡旋5分钟，且随后在11.8xg下离心2分钟。随后去除水层，并且吸移至新的2mL管，向所述管添加1mL25:24:1苯酚提取缓冲液(25mL苯酚(pH8或5.1)；24mL1-溴-3-氯丙烷以及1mL异戊醇)，并且将所述管剧烈振荡且在11.8xg下离心2分钟。在离心之后，将水层去除且吸移至新的2mL离心管中，向所述离心管添加1ml1-溴-3-氯丙烷。将所述管振荡且再次在11.8xg下离心2分钟。将水层移除至新的管且添加0.356体积的7.5MLiCl。将所述管倒置10-12次并且在-20℃下储存过夜。第二天，使样品在不混合的情况下升至室温且在16,000xg下离心30分钟。将上清液去除并且将沉淀用1mL的冰冷80％乙醇洗涤。将所述管在16,000xg下离心30分钟，并且使其在已去除上清液之后空气干燥。最后，将RNA沉淀重新悬浮于50μl超纯水中。通过使用Agilent2100生物分析仪和RNA6000LabChip根据制造商说明书通过芯片上凝胶电泳评定RNA质量。

使用MakeYourOwn“Mate&Plate^TM”文库***用户手册(Clontech,MountainView,CA)作为指导来合成cDNA文库。然而，代替使用由试剂盒提供的SMARTIII低聚物，利用在微拟球藻中鉴别的先前描述的剪接前导序列的修饰的5’引物(参见2013年12月5日提交的美国专利申请公布2014/0186842,“NannochloropsisSplicedLeaderSequencesandUsesTherefor，”所述专利整体并入本文)用于第一链合成(5’引物MCA-1185：5’-ttccacccaagcagtggtatcaacgcagagtggcctaagggaaaacaacag-3’；SEQIDNO:71)。修饰的3’引物也用于第二链合成：5’-gtatcgatgcccaccctctagaggccgaggcggccgacacggtacccgctt ttttttttt-3’(SEQIDNO:72)。修饰的5’和3’引物包含添加与酵母表达载体pGADT7-rec(Clontech)相容的核苷酸序列的序列延伸以允许通过环状聚合酶延伸克隆进行随后克隆(cpec；参见例如Quan&Tijan(2009)PLoSOne4(7):e6441)。在将第二链cDNA克隆至pGAD-T7-rec中之后，将所得到的文库转化至大肠杆菌中。获得大约750,000个菌落，其表示微拟球藻转录组的至少25倍覆盖。通过测序验证文库的低冗余度，并且将文库转化至酵母菌株Y2HGold(Clontech)中。最终酵母表达文库由多于2百万个菌落组成。

使用正向引物JLC-pGBKT7-Hap1742-F：(5’-CATGGAGGCCGAATTCatggatgaggcgggagccaacgag-3；’SEQIDNO:75)和反向引物JLC-pGBKT7-Hap1742--R(5’-GCAGGTCGACGGATCCtcaggaaggcggctgccttgacac-3’；SEQIDNO:76)从cDNA扩增Hap-1742的编码序列。通过环状聚合酶延伸克隆将所述编码序列克隆至诱饵载体pGBKT7(Clontech)中并且转化至大肠杆菌中。在序列确认之后，将其转化至酵母菌株Y187(Clontech)中并且筛选针对克隆至如上所述的捕获载体中的微拟球藻cDNA文库的相互作用。

根据Matchmaker^TMGold酵母双杂交***用户手册(Clontech)通过含文库(捕获)菌株与诱饵菌株(即，表达Hap-1742的菌株)的匹配来筛选捕获文库。对于Hap-1742筛选实现约4.5％的匹配效率(良好匹配效率通常在3％-5％之间)。基于这些数字，据估计测试了超过1千万个相互作用。

使用这种技术，基于其在选择性培养基上的生长和蓝色颜色克隆被鉴别为包含编码与Hap-1742相互作用的蛋白质的基因，所述在选择培养基上的生长和蓝色颜色由所表达的蛋白质与Hap-1742的相互作用和营养缺陷型标记和报道基因的随后活化产生。阳性克隆中的两种包含编码微拟球藻NF-YC多肽的构建体：EUKT6092(SEQIDNO:64，由SEQIDNO:63编码)和EUKT1490(SEQIDNO:68，由SEQIDNO:67编码)。

EUKT6092(SEQIDNO:63)编码具有对应于蛋白质(二进制值131.33；e值6.27e-38)的氨基酸残基14至138的COG5208(CCAAT-结合因子，亚基C)结构域的多肽(SEQIDNO:64)，所述蛋白质将EUKT6092鉴定为NF-YC多肽(在替代命名中称为CBF(CCAAT-结合因子)亚基C或HAP5多肽)。EUKT6092还包含从氨基酸64延伸至氨基酸138的COG5247(2类转录受体NC2，α亚基(DRAP1同源物))结构域；从氨基酸62延伸至氨基酸126的COG2036(组蛋白H3和H4)结构域；以及从氨基酸64延伸至氨基酸135的COG5262(组蛋白2A)结构域。EUKT6092基于从位置61至位置125的氨基酸序列以76.88的二进制值和2.85e-19的e值募集至pfam00808(组蛋白样转录因子(CBF/NF-Y)并且由于从氨基酸61至氨基酸125的结构域以51.39的二进制分数和6.49e-10的e-值募集至pfam00125(核心组蛋白H2A/H2B/H3/H4)古细菌组蛋白。

EUKT1490(SEQIDNO:67)编码具有对应于将EUKT1490鉴别为NF-YC多肽(还称为CBF(CCAAT-结合因子)亚基C或HAP5多肽)的蛋白质的氨基酸残基116至199的COG5208(CCAAT结合因子，亚基C)结构域以及从氨基酸114延伸至氨基酸178的COG2036(组蛋白H3和H4)结构域的多肽(SEQIDNO:68)。EUKT1490多肽(SEQIDNO:68)还由于从氨基酸120至氨基酸181的结构域募集至pfam00808(组蛋白样转录因子(CBF/NF-Y)和古细菌组蛋白)并且基于从115至182的氨基酸序列募集至pfam00125。

实施例10：相互作用亚基NF-YA-1257的鉴别

Y2H筛选在揭示能够与Hap-1742形成异二聚体的两种NF-YC亚基(EUKT6092(SEQIDNO:64，由SEQIDNO:63编码)和EUKT1490(SEQIDNO:68，由SEQIDNO:67编码))方面是成功的，但未能揭示异三聚体的第三成员(亚基A)。为了发现Hap-1742转录因子复合物的丢失A亚基，将微拟球藻基因组针对NF-Y转录因子进行生物信息学挖掘。在WT-03730的基因组中鉴别了五种NF-YC亚基，4种NF-YB亚基和仅1种NF-Y亚基A(EUKT1257，NF-YA-1257)(图8)。EUKT1257(SEQIDNO:69)编码以103.55的二进制值和4.62e-28的e值募集至pfam02045(CCAAT结合转录因子亚基B(CBF-B/NF-YA))的多肽(SEQIDNO:70)。所述多肽还包含对应于蛋白质的氨基酸残基136至196的COG5224(CCAAT结合因子，亚基B)结构域以及从氨基酸136延伸至氨基酸194的smart00521(CCAAT结合转录因子)结构域。因为CBF的B亚基是NF-Y的A亚基的替代名称，所以已鉴别了NF-Y复合物的A亚基。鉴于微拟球藻中仅存在一个NF-Y亚基A，假设它能够结合Hap-1742。为了测试所述假设，将NF-YA-1257克隆至适用于Y2H的捕获载体中并且针对Hap-1742诱饵菌株进行测试。

使用正向引物JLC-pGAD-1257-F(5’-ggaggccagtgaattcatggatggagctgagacggggag-3’；SEQIDNO:73)和反向引物JLC-pGAD-1257-R(5’-cgagctcgatggatccctagatgataggcgaggatgag-3；’SEQIDNO:74)从cDNA扩增NF-YA-1257的开放阅读框。通过cpec将所述开放阅读框克隆至捕获载体pGADT7(Clontech)中并且转化至大肠杆菌中。在序列验证之后，将其转化至酵母菌株Y2HGold中并且通过与如上所述的Hap-1742诱饵菌株匹配来针对与Hap-1742相互作用进行测试。

所得到的杂合酵母细胞在具有选择性培养基的板上变成蓝色，而适当的对照未变成蓝色，从而指示Hap-1742与NF-YA-1257之间的阳性相互作用。因此，NF-YA-1257特异性地结合Hap-1742(B亚基)并且很有可能已鉴别了Hap-1742的整个转录因子杂合物。

已经描述了本发明的多个实施方案。尽管如此，将理解的是本文描述的实施方案的要素可组合来形成另外的实施方案并且可以做出各种修改而不脱离本发明的精神和范围。因此，其他实施方案、替代方案和等效物处于如本文所述的和所要求的本发明的范围之内。

Claims

1.一种重组宿主细胞，其包含编码HAP3样多肽的非天然核酸分子，所述多肽包含与选自由以下组成的组的氨基酸序列具有至少65％同一性的氨基酸序列：SEQIDNO:4、SEQIDNO:8的氨基酸27-117、SEQIDNO:10的氨基酸23-113、SEQIDNO:12的氨基酸24-114、SEQIDNO:14的氨基酸24-114、SEQIDNO:16的氨基酸54-144、SEQIDNO:18的氨基酸19-109、SEQIDNO:20的氨基酸15-105、SEQIDNO:22的氨基酸18-108、SEQIDNO:24的氨基酸26-116、SEQIDNO:26的氨基酸29-119、SEQIDNO:28的氨基酸26-116、SEQIDNO:30的氨基酸23-113、SEQIDNO:32的氨基酸26-116、SEQIDNO:34的氨基酸20-110、SEQIDNO:36的氨基酸16-106、SEQIDNO:38的氨基酸24-114、SEQIDNO:40的氨基酸21-111、SEQIDNO:42的氨基酸29-119、SEQIDNO:44的氨基酸20-110、SEQIDNO:46的氨基酸20-110、SEQIDNO:50的氨基酸9-96以及SEQIDNO:52的氨基酸16-106；

其中所述重组宿主细胞相对于不包含编码HAP3样多肽的所述非天然核酸分子的对照细胞具有提高的生产率。

2.根据权利要求1所述的重组宿主细胞，其中所述HAP3多肽是非LEC1型HAP3样多肽。

3.根据权利要求2所述的重组宿主细胞，其中所述HAP3样多肽包含与选自由以下组成的组的氨基酸序列具有至少65％同一性的氨基酸序列：SEQIDNO:4、SEQIDNO:8的氨基酸27-117、SEQIDNO:10的氨基酸23-113、SEQIDNO:12的氨基酸24-114、SEQIDNO:14的氨基酸24-114、SEQIDNO:16的氨基酸54-144、SEQIDNO:18的氨基酸19-109、SEQIDNO:20的氨基酸15-105、SEQIDNO:22的氨基酸18-108、SEQIDNO:24的氨基酸26-116、SEQIDNO:34的氨基酸20-110、SEQIDNO:36的氨基酸16-106、SEQIDNO:38的氨基酸24-114、SEQIDNO:40的氨基酸21-111、SEQIDNO:50的氨基酸9-96以及SEQIDNO:52的氨基酸16-106。

4.根据权利要求2所述的重组宿主细胞，其中所述HAP3样多肽包含选自由以下组成的组的氨基酸序列：SEQIDNO:2、SEQIDNO:3、SEQIDNO:61和SEQIDNO:62。

5.根据权利要求1所述的重组宿主细胞，其中所述HAP3样多肽与选自由以下组成的组的氨基酸序列具有至少65％同一性：SEQIDNO:6、SEQIDNO:8、SEQIDNO:10、SEQIDNO:12、SEQIDNO:14、SEQIDNO:16、SEQIDNO:18、SEQIDNO:20、SEQIDNO:22、SEQIDNO:24、SEQIDNO:26、SEQIDNO:28、SEQIDNO:30、SEQIDNO:32、SEQIDNO:34、SEQIDNO:36、SEQIDNO:38、SEQIDNO:40、SEQIDNO:42、SEQIDNO:44、SEQIDNO:46、SEQIDNO:50以及SEQIDNO:52。

6.根据权利要求6所述的重组宿主细胞，其中所述HAP3样多肽与选自由以下组成的组的氨基酸序列具有至少50％同一性：SEQIDNO:6、SEQIDNO:8、SEQIDNO:10、SEQIDNO:12、SEQIDNO:14、SEQIDNO:16、SEQIDNO:18、SEQIDNO:20、SEQIDNO:22、SEQIDNO:24、SEQIDNO:34、SEQIDNO:36、SEQIDNO:38、SEQIDNO:40、SEQIDNO:50以及SEQIDNO:52。

7.根据权利要求1所述的重组宿主细胞，其中所述宿主细胞是藻类细胞、长短鞭毛体细胞、真菌细胞、哺乳动物细胞或植物细胞。

8.根据权利要求7所述的重组宿主细胞，其中所述宿主细胞是藻类或长短鞭毛体。

9.根据权利要求8所述的重组宿主细胞，其中所述重组宿主细胞是属于选自由以下组成的组的属的长短鞭毛体细胞：拉普利属、拟网粘菌类、破囊壶菌属、裂殖壶菌属、不动壶菌属、橙黄壶菌属、日本壶菌属、Diplophrys以及吾肯氏壶菌属。

10.根据权利要求8所述的重组宿主细胞，其中所述重组微生物是属于选自由以下组成的组的属的藻类细胞：曲壳藻属、茧形藻属、双眉藻属、纤维藻属、星胞藻属、黄金色藻属、Bolidomonas、特氏藻属、气球藻属、葡萄藻属、片球藻属、角毛藻属、四鞭藻属、衣藻属、绿球藻属、绿梭藻属、小球藻属、蓝隐藻属、金球藻属、鳄球藻属、隐甲藻属、隐藻属、小环藻属、栅藻属、杜氏藻属、后棘藻属、赫氏圆石藻属、独球藻属、衣迪斯藻属、眼虫藻属、真眼点藻属、被棘藻属、脆杆藻属、拟脆杆藻属、丽丝藻属、红球藻属、菱板藻属、赤潮异弯藻属、膜胞藻属、等鞭金藻属、鳞孔藻属、微星藻属、蒜头藻属、单针藻属、微球藻属、微拟球藻属、舟形藻属、新绿藻属、异鞭藻属、肾藻属、菱形藻属、棕鞭藻属、鞘藻属、卵囊藻属、Ostreococcus、拟小球藻属、Parietochloris、杜氏亚属盐藻属、巴夫藻属、普莱格门、褐指藻属、噬菌体属、Picochlorum、扁藻属、颗石藻属、肋球藻属、原壁菌属、拟绿球藻属、拟新绿藻属、拟角星鼓藻属、塔胞藻属、桑椹藻属、栅列藻属、裂衣藻属、骨条藻属、水绵藻属、裂丝藻属、四球藻属、扁藻属、海链藻属、黄丝藻属、无隔藻属、鲜绿球藻属、魏氏藻属以及团藻属。

11.根据权利要求10所述的重组宿主细胞，其中所述藻类细胞属于选自由以下组成的组的属：小球藻属、小环藻属、真眼点藻属、蒜头藻属、微拟球藻属、魏氏藻属、褐指藻属以及扁藻属。

12.根据权利要求11所述的重组宿主细胞，其中所述宿主细胞是微拟球藻细胞。

13.一种微生物生物质，其包含如权利要求1所述的重组宿主细胞。

14.一种用于产生生物产物的方法，所述方法包括培养根据权利要求1所述的重组宿主细胞，以及从所述重组宿主细胞产生生物产物。

15.如权利要求14所述的方法，其中所述宿主细胞是藻类细胞。

16.如权利要求15所述的方法，其中所述藻类细胞属于选自由以下组成的组的属：曲壳藻属、茧形藻属、双眉藻属、纤维藻属、星胞藻属、黄金色藻属、Bolidomonas、特氏藻属、气球藻属、葡萄藻属、片球藻属、角毛藻属、四鞭藻属、衣藻属、绿球藻属、绿梭藻属、小球藻属、蓝隐藻属、金球藻属、鳄球藻属、隐甲藻属、隐藻属、小环藻属、栅藻属、杜氏藻属、后棘藻属、赫氏圆石藻属、独球藻属、衣迪斯藻属、眼虫藻属、真眼点藻属、被棘藻属、脆杆藻属、拟脆杆藻属、丽丝藻属、红球藻属、菱板藻属、赤潮异弯藻属、膜胞藻属、等鞭金藻属、鳞孔藻属、微星藻属、蒜头藻属、单针藻属、微球藻属、微拟球藻属、舟形藻属、新绿藻属、异鞭藻属、肾藻属、菱形藻属、棕鞭藻属、鞘藻属、卵囊藻属、Ostreococcus、拟小球藻属、Parietochloris、杜氏亚属盐藻属、巴夫藻属、普莱格门、褐指藻属、噬菌体属、Picochlorum、扁藻属、颗石藻属、肋球藻属、原壁菌属、拟绿球藻属、拟新绿藻属、拟角星鼓藻属、塔胞藻属、桑椹藻属、栅列藻属、裂衣藻属、骨条藻属、水绵藻属、裂丝藻属、四球藻属、扁藻属、海链藻属、黄丝藻属、无隔藻属、鲜绿球藻属、魏氏藻属以及团藻属。

17.如权利要求16所述的方法，其中所述藻类细胞属于选自由以下组成的组的属：小球藻属、小环藻属、真眼点藻属、蒜头藻属、微拟球藻属、褐指藻属、魏氏藻属以及扁藻属。

18.如权利要求40所述的方法，其中所述宿主细胞是微拟球藻细胞。

19.如权利要求15所述的方法，其中所述培养是在光合自养条件下。

20.一种生物产物，其通过如权利要求14所述的方法产生。

21.如权利要求20所述的生物产物，其进一步被定义为食物、饲料、生物燃料、生物化学品、药物或医药产品。

22.一种分离或重组核酸分子，其包含编码以下多肽的核酸序列，所述多肽包含与选自由以下组成的组的氨基酸序列具有至少65％同一性的氨基酸序列：SEQIDNO:4、SEQIDNO:8的氨基酸27-117、SEQIDNO:10的氨基酸23-113、SEQIDNO:12的氨基酸24-114、SEQIDNO:14的氨基酸24-114、SEQIDNO:16的氨基酸54-144、SEQIDNO:18的氨基酸19-109、SEQIDNO:20的氨基酸15-105、SEQIDNO:22的氨基酸18-108、SEQIDNO:24的氨基酸26-116、SEQIDNO:26的氨基酸29-119、SEQIDNO:28的氨基酸26-116、SEQIDNO:30的氨基酸23-113、SEQIDNO:32的氨基酸26-116、SEQIDNO:34的氨基酸20-110、SEQIDNO:36的氨基酸16-106、SEQIDNO:38的氨基酸24-114、SEQIDNO:40的氨基酸21-111、SEQIDNO:42的氨基酸29-119、SEQIDNO:44的氨基酸20-110、SEQIDNO:46的氨基酸20-110、SEQIDNO:50的氨基酸9-96以及SEQIDNO:52的氨基酸16-106。

23.根据权利要求22所述的分离或重组核酸分子，其包含编码以下多肽的核酸序列，所述多肽包含与选自由以下组成的组的氨基酸序列具有至少85％同一性的氨基酸序列：SEQIDNO:4、SEQIDNO:8的氨基酸27-117、SEQIDNO:10的氨基酸23-113、SEQIDNO:12的氨基酸24-114、SEQIDNO:14的氨基酸24-114、SEQIDNO:16的氨基酸54-144、SEQIDNO:18的氨基酸19-109、SEQIDNO:20的氨基酸15-105、SEQIDNO:22的氨基酸18-108、SEQIDNO:24的氨基酸26-116、SEQIDNO:26的氨基酸29-119、SEQIDNO:28的氨基酸26-116、SEQIDNO:30的氨基酸23-113、SEQIDNO:32的氨基酸26-116、SEQIDNO:34的氨基酸20-110、SEQIDNO:36的氨基酸16-106、SEQIDNO:38的氨基酸24-114、SEQIDNO:40的氨基酸21-111、SEQIDNO:42的氨基酸29-119、SEQIDNO:44的氨基酸20-110、SEQIDNO:46的氨基酸20-110、SEQIDNO:50的氨基酸9-96以及SEQIDNO:52的氨基酸16-106。

24.根据权利要求22所述的分离或重组核酸分子，其中所述氨基酸序列编码HAP3样蛋白B结构域。

25.根据权利要求23所述的分离或重组核酸分子，其中所述多肽是HAP3样蛋白。

26.根据权利要求24所述的分离或重组核酸分子，其中所述氨基酸序列编码非LEC1型HAP3样蛋白B结构域。

27.根据权利要求26所述的分离或重组核酸分子，其中所述氨基酸序列包含SEQIDNO:2或SEQIDNO:3的氨基酸基序。

28.根据权利要求26所述的分离或重组核酸分子，其中所述多肽是非LEC1型HAP3样蛋白。

29.根据权利要求22所述的分离或重组核酸分子，其中所述多肽与植物或微生物物种的HAP3样多肽具有至少50％同一性。

30.根据权利要求29所述的分离或重组核酸分子，其中所述多肽与SEQIDNO:6、SEQIDNO:8、SEQIDNO:10、SEQIDNO:12、SEQIDNO:14、SEQIDNO:16、SEQIDNO:18、SEQIDNO:20、SEQIDNO:22、SEQIDNO:24、SEQIDNO:26、SEQIDNO:28、SEQIDNO:30、SEQIDNO:32、SEQIDNO:34、SEQIDNO:36、SEQIDNO:38、SEQIDNO:40、SEQIDNO:42、SEQIDNO:44、SEQIDNO:46、SEQIDNO:50或SEQIDNO:52具有至少50％同一性。

31.根据权利要求29所述的分离或重组核酸分子，其中所述多肽与微藻或长短鞭毛体物种的HAP3样多肽具有至少50％同一性。

32.根据权利要求30所述的分离或重组核酸分子，其中所述多肽与SEQIDNO:6、SEQIDNO:8、SEQIDNO:10、SEQIDNO:12、SEQIDNO:14、SEQIDNO:16、SEQIDNO:18、SEQIDNO:20、SEQIDNO:22、SEQIDNO:24、SEQIDNO:34、SEQIDNO:36、SEQIDNO:38、SEQIDNO:40、SEQIDNO:50或SEQIDNO:52具有至少50％同一性。

33.根据权利要求22所述的分离或重组核酸分子，其中：

编码所述多肽的所述核酸序列不同于天然存在的基因的核酸序列；

编码所述多肽的所述核酸序列是cDNA；

所述核酸分子包括载体；或

所述核酸分子包含可操作地连接至编码所述多肽的所述核酸序列的异源调控元件。

34.一种分离的核酸分子，其包含：

(a)在高严格条件下与选自由以下组成的组的多核苷酸序列中的任一个、其互补序列或任一者的片段杂交的核酸序列：SEQIDNO:3、SEQIDNO:5、SEQIDNO:7、SEQIDNO:9、SEQIDNO:11、SEQIDNO:13、SEQIDNO:15、SEQIDNO:17、SEQIDNO:19、SEQIDNO:29、SEQIDNO:31、SEQIDNO:33、SEQIDNO:35、SEQIDNO:45、SEQIDNO:47以及SEQIDNO:49；或

(b)表现出与选自由以下组成的组的多核苷酸序列中的任一个、其互补序列或任一者的片段至少70％序列同一性的核酸序列：SEQIDNO:3、SEQIDNO:5、SEQIDNO:7、SEQIDNO:9、SEQIDNO:11、SEQIDNO:13、SEQIDNO:15、SEQIDNO:17、SEQIDNO:19、SEQIDNO:29、SEQIDNO:31、SEQIDNO:33、SEQIDNO:35、SEQIDNO:45、SEQIDNO:47以及SEQIDNO:49；或

(c)编码表现出与选自由以下组成的组的多肽中的任一个至少50％序列同一性的多肽的核酸序列：SEQIDNO:4、SEQIDNO:6、SEQIDNO:8、SEQIDNO:10、SEQIDNO:12、SEQIDNO:14、SEQIDNO:16、SEQIDNO:18、SEQIDNO:20、SEQIDNO:30、SEQIDNO:32、SEQIDNO:34、SEQIDNO:36、SEQIDNO:46、SEQIDNO:48以及SEQIDNO:50；或

(d)为根据段落(a)、(b)或(c)中的任一者的核酸序列的反义或干扰RNA的核酸序列。

35.根据权利要求34所述的分离的核酸分子，其中以下中的一项或多项适用：

(a)所述核酸序列不同于天然存在的基因的核酸序列；

(b)所述核酸序列是cDNA；

(c)所述核酸分子包括载体；以及

(d)所述核酸分子包含可操作地连接至核酸序列的异源调控元件。

36.根据权利要求35所述的分离的核酸分子，其中所述核酸序列包括cDNA。

37.根据权利要求34所述的分离的核酸分子，其中所述分离的核酸分子包含编码以下多肽的核酸序列，所述多肽包含表现出与表1中鉴别的B结构域中的任一者至少65％序列同一性的氨基酸序列。

38.根据权利要求16所述的分离的核酸分子，其中所述分离的核酸分子包含编码以下多肽的核酸序列，所述多肽包含表现出与如在表1中鉴别的所述B结构域中的任一者至少85％同一性的氨基酸序列。

39.根据权利要求22所述的分离的核酸分子，其中所述核酸序列编码CCAAT-盒结合转录因子的HAP3样亚基。

40.根据权利要求22所述的分离的核酸分子，其中所述分离的核酸分子包含编码以下多肽的核酸序列，所述多肽与选自由以下组成的组的多肽具有至少50％同一性：SEQIDNO:4、SEQIDNO:6、SEQIDNO:8、SEQIDNO:10、SEQIDNO:12、SEQIDNO:14、SEQIDNO:16、SEQIDNO:18、SEQIDNO:20、SEQIDNO:30、SEQIDNO:32、SEQIDNO:34、SEQIDNO:36、SEQIDNO:46、SEQIDNO:48、SEQIDNO:50以及SEQIDNO:52。