CN106397601A

CN106397601A - 用于淀粉加工的酶

Info

Publication number: CN106397601A
Application number: CN201610591291.5A
Authority: CN
Inventors: 福山志朗; 松井知子; 宋子良; 埃里克·阿兰; 安德斯·维克索-尼尔森; 宇田川裕晃; 刘晔; 段俊欣; 吴文平; 利尼·N·安德森; 萨拉·兰德维克
Original assignee: Novo Nordisk AS; Novozymes North America Inc
Current assignee: Novo Nordisk AS; Novozymes North America Inc
Priority date: 2004-12-22
Filing date: 2005-12-22
Publication date: 2017-02-15
Also published as: CN101194015A; CN101128580A; CN101194015B; CN101128580B

Abstract

本发明涉及用于淀粉加工的酶，具体地本发明涉及包含碳水化合物结合模块氨基酸序列和α‑淀粉酶氨基酸序列的多肽，以及这些多肽的应用。

Description

用于淀粉加工的酶

本发明申请是基于申请日为2005年12月22日、申请号200580048598.0(国际申请号为PCT/US2005/046725)、名称为“用于淀粉加工的酶”的发明专利申请的分案申请。

与序列表和保藏微生物的交叉参考

本申请包含序列表形式的信息，其附加于本申请，同时伴随本申请也提交了其数据载体。此外，本申请涉及保藏的微生物。本文将数据载体的内容和保藏的微生物完全加入作为参考。

发明所属领域

本发明涉及包含碳水化合物结合模块(“CBM”)和α-淀粉酶催化结构域的多肽。另外，本发明涉及包含有用的α-淀粉酶催化结构域和/或CBM的野生型α-淀粉酶多肽，还涉及催化结构域序列和/或CBM序列。本发明还涉及这些多肽在将淀粉降解为较小的寡糖和/或多糖片段的淀粉液化过程中的用途。

发明背景

已经描述了许多将淀粉转化为淀粉水解产物，如麦芽糖、葡萄糖或特种糖浆的酶和方法，所述淀粉水解产物或者用作甜味剂或者用作其它糖类例如果糖的前体。也可以将葡萄糖发酵为乙醇或其它发酵产物，如柠檬酸、谷氨酸单钠、葡糖酸、葡糖酸钠、葡糖酸钙、葡糖酸钾、葡糖酸Δ内酯(glucono delta lactone)、或者异抗坏血酸钠、衣康酸、乳酸、葡糖酸；酮；氨基酸、谷氨酸(谷氨酸单钠(sodium monoglutaminate))、青霉素、四环素；酶；维生素，如核黄素、B12、β－胡萝卜素或激素。

淀粉是由葡萄糖单元的链组成的高分子量多聚物。其通常由约80％支链淀粉和20％直链淀粉构成。支链淀粉是支链多糖，其中α-1,4D-葡萄糖残基的线性链通过α-1,6糖苷键相连。

直链淀粉是线性多糖，由通过α-1,4糖苷键连接在一起的D-吡喃型葡萄糖单位组成。在将淀粉转化为可溶性淀粉水解产物的情况下，所述淀粉被解聚。常规解聚方法由糊化步骤和两个连续的处理步骤，即液化处理和糖化处理组成。

颗粒状淀粉由细微的颗粒组成，其在室温下不溶于水。当加热水性淀粉浆时，所述颗粒膨胀并最终破裂，将淀粉分子分散到溶液中。在该“糊化”过程中，粘性急剧增加。由于典型工业方法中固体水平为30-40％，因而必须稀释或者“液化”淀粉以使之能够被处理。现在，此粘性的减小大多通过酶促降解而获得。液化步骤期间，长链淀粉被α-淀粉酶降解为较小的分枝和线性单元(麦芽糖糊精)。典型地，液化过程在约105-110℃实施约5至10分钟，之后在约95℃实施大约1-2小时。然后将温度降低到60℃，添加葡糖淀粉酶(也称为GA或AMG)或β－淀粉酶以及任选脱支酶，如异淀粉酶或支链淀粉酶，并且进行糖化过程约24至72小时。

由上述讨论可明显看出传统的淀粉转化过程是非常耗能的，因为不同步骤期间在温度方面有不同的需求。因此希望能够选择和/或设计用于所述过程的酶，以便能够实施整个过程而无需将淀粉糊化。美国专利4,591,560、4,727,026、和4,009,074、EP专利0171218以及丹麦专利申请PA 2003 00949有这样的“生淀粉”处理过程。本发明披露了特别为这样的过程设计的多肽，其包含CBM的氨基酸序列和淀粉降解酶的氨基酸序列。杂合酶是WO9814601、WO0077165、和PCT/US2004/020499的主题。

发明概述

发明人已令人惊讶地发现通过向特定α-淀粉酶添加碳水化合物结合模块(CBM)能够改变活性和特异性，从而增强不同淀粉降解过程的功效，例如，包括生的，例如非糊化淀粉和/或糊化淀粉的降解。也可以通过用另一种CBM替代一种CBM而改变活性和特异性。

这些由具有α-淀粉酶活性和主要具有针对淀粉的亲合力的碳水化合物结合模块的多肽组成的杂合体较现有的α-淀粉酶有优势，这通过选择具有所需特性的催化结构域来实现，所需特性例如pH谱、温度谱、抗氧化性、钙稳定性、底物亲合力或产物谱，该催化结构域能够与碳水化合物结合模块联合，所述碳水化合物结合模块具有更强或更弱结合亲合力，所述亲合力例如针对直链淀粉的特异性亲合力、针对支链淀粉的特异性亲合力或者针对碳水化合物中的特定结构的亲合力。因此本发明涉及相对于不含CBM的α-淀粉酶和/或相对于现有技术的淀粉酶具有改变特性的杂合体，如在低pH，例如，在低于4的pH，如在3.5时具有增强的稳定性和/或活性，在低pH甚至在缺乏葡糖淀粉酶的情况下或者在低葡糖淀粉酶水平时具有针对颗粒状淀粉的增强活性和/或颗粒状淀粉降解增强，和/或具有改变的产物谱。

由于这些多肽的优越的水解活性，整个淀粉转化处理能够无需糊化淀粉而进行，即所述多肽水解生淀粉处理中的颗粒状淀粉以及传统淀粉处理中的完全或部分糊化的淀粉。

因此第一个方面本发明提供包含含有催化模块的第一个氨基酸序列和含有碳水化合物结合模块的第二个氨基酸序列的多肽，所述催化模块具有α-淀粉酶活性，其中所述第二个氨基酸序列与选自下组的任一氨基酸序列具有至少60％的同源性：SEQ ID NO:52、SEQ ID NO:76、SEQ ID NO:78、SEQ ID NO:80、SEQ ID NO:82、SEQ ID NO:84、SEQ ID NO:86、SEQ ID NO:88、SEQ ID NO:90、SEQ ID NO:92、SEQ ID NO:94、SEQ ID NO:96、SEQ IDNO:98、SEQ ID NO:109、SEQ ID NO:137、SEQ ID NO:139、SEQ ID NO:141和SEQ ID NO:143。

第二个方面本发明提供具有α-淀粉酶活性的多肽，其选自下组：(a)具有与选自下组的成熟多肽的氨基酸有至少75％同源性的氨基酸序列的多肽：SEQ ID NO:14中的氨基酸1-441、SEQ ID NO:18中的氨基酸1-471、SEQ ID NO:20中的氨基酸1-450、SEQ ID NO:22中的氨基酸1-445、SEQ ID NO:26中的氨基酸1-498、SEQ ID NO:28中的氨基酸18-513、SEQ IDNO:30中的氨基酸1-507、SEQ ID NO:32中的氨基酸1-481、SEQ ID NO:34中的氨基酸1-495、SEQ ID NO:38中的氨基酸1-477、SEQ ID NO:42中的氨基酸1-449、SEQ ID NO:115中的氨基酸1-442、SEQ ID NO:117中的氨基酸1-441、SEQ ID NO:125中的氨基酸1-477、SEQ ID NO:131中的氨基酸1-446、SEQ ID NO:157中的氨基酸41-481、SEQ ID NO:159中的氨基酸22-626、SEQ ID NO:161中的氨基酸24-630、SEQ ID NO:163中的氨基酸27-602、SEQ ID NO:165中的氨基酸21-643、SEQ ID NO:167中的氨基酸29-566、SEQ ID NO:169中的氨基酸22-613、SEQ ID NO:171中的氨基酸21-463、SEQ ID NO:173中的氨基酸21-587、SEQ ID NO:175中的氨基酸30-773、SEQ ID NO:177中的氨基酸22-586、SEQ ID NO:179中的氨基酸20-582，(b)由核苷酸序列编码的多肽，所述核苷酸序列(i)在至少低严紧条件下与SEQ ID NO:13中的核苷酸1-1326、SEQ ID NO:17中的核苷酸1-1413、SEQ ID NO:19中的核苷酸1-1350、SEQ IDNO:21中的核苷酸1-1338、SEQ ID NO:25中的核苷酸1-1494、SEQ ID NO:27中的核苷酸52-1539、SEQ ID NO:29中的核苷酸1-1521、SEQ ID NO:31中的核苷酸1-1443、SEQ ID NO:33中的核苷酸1-1485、SEQ ID NO:37中的核苷酸1-1431、SEQ ID NO:41中的核苷酸1-1347、SEQID NO:114中的核苷酸1-1326、SEQ ID NO:116中的核苷酸1-1323、SEQ ID NO:124中的核苷酸1-1431、SEQ ID NO:130中的核苷酸1-1338、SEQ ID NO:156中的核苷酸121-1443、SEQ IDNO:158中的核苷酸64-1878、SEQ ID NO:160中的核苷酸70-1890、SEQ ID NO:162中的核苷酸79-1806、SEQ ID NO:164中的核苷酸61-1929、SEQ ID NO:166中的核苷酸85-1701、SEQID NO:168中的核苷酸64-1842、SEQ ID NO:170中的核苷酸61-1389、SEQ ID NO:172中的核苷酸61-1764、SEQ ID NO:174中的核苷酸61-2322、SEQ ID NO:176中的核苷酸64-1761、SEQID NO:178中的核苷酸58-1749杂交，或者(ii)在至少中等严紧条件下与在SEQ ID NO:13中核苷酸1-1326、SEQ ID NO:17中核苷酸1-1413、SEQ ID NO:19中核苷酸1-1350、SEQ ID NO:21中核苷酸1-1338、SEQ ID NO:25中核苷酸1-1494、SEQ ID NO:27中核苷酸52-1539、SEQID NO:29中核苷酸1-1521、SEQ ID NO:31中核苷酸1-1443、SEQ ID NO:33中核苷酸1-1485、SEQ ID NO:37中核苷酸1-1431、SEQ ID NO:41中核苷酸1-1347、SEQ ID NO:114中核苷酸1-1326、SEQ ID NO:116中核苷酸1-1323、SEQ ID NO:124中核苷酸1-1431、SEQ ID NO:130中核苷酸1-1338、SEQ ID NO:156中核苷酸121-1443、SEQ ID NO:158中核苷酸64-1878、SEQID NO:160中核苷酸70-1890、SEQ ID NO:162中核苷酸79-1806、SEQ ID NO:164中核苷酸61-1929、SEQ ID NO:166中核苷酸85-1701、SEQ ID NO:168中核苷酸64-1842、SEQ ID NO:170中核苷酸61-1389、SEQ ID NO:172中核苷酸61-1764、SEQ ID NO:174中核苷酸61-2322、SEQ ID NO:176中核苷酸64-1761、SEQ ID NO:178中核苷酸58-1749所示多核苷酸中包含的cDNA序列杂交，或者(iii)，(i)或(ii)的互补链；和(c)在选自下组的氨基酸序列中包含一个或多个氨基酸的保守性替换、缺失、和/或***的变体：SEQ ID NO:14中的氨基酸1-441、SEQ ID NO:18中的氨基酸1-471、SEQ ID NO:20中的氨基酸1-450、SEQ ID NO:22中的氨基酸1-445、SEQ ID NO:26中的氨基酸1-498、SEQ ID NO:28中的氨基酸18-513、SEQ ID NO:30中的氨基酸1-507、SEQ ID NO:32中的氨基酸1-481、SEQ ID NO:34中的氨基酸1-495、SEQID NO:38中的氨基酸1-477、SEQ ID NO:42中的氨基酸1-449、SEQ ID NO:115中的氨基酸1-442、SEQ ID NO:117中的氨基酸1-441、SEQ ID NO:125中的氨基酸1-477、SEQ ID NO:131中的氨基酸1-446、SEQ ID NO:157中的氨基酸41-481、SEQ ID NO:159中的氨基酸22-626、SEQID NO:161中的氨基酸24-630、SEQ ID NO:163中的氨基酸27-602、SEQ ID NO:165中的氨基酸21-643、SEQ ID NO:167中的氨基酸29-566、SEQ ID NO:169中的氨基酸22-613、SEQ IDNO:171中的氨基酸21-463、SEQ ID NO:173中的氨基酸21-587、SEQ ID NO:175中的氨基酸30-773、SEQ ID NO:177中的氨基酸22-586和SEQ ID NO:179中的氨基酸20-582。

第二个方面本发明提供具有碳水化合物结合亲合力的多肽，选自下组：(a)i)包含与选自下组的序列具有至少60％同源性的氨基酸序列的多肽：SEQ ID NO:159的氨基酸529-626、SEQ ID NO:161的氨基酸533-630、SEQ ID NO:163的氨基酸508-602、SEQ ID NO:165的氨基酸540-643、SEQ ID NO:167的氨基酸502-566、SEQ ID NO:169的氨基酸513-613、SEQ ID NO:173的492-587、SEQ ID NO:175的氨基酸30-287、SEQ ID NO:177的氨基酸487-586、和SEQ ID NO:179的氨基酸482-582；(b)由在低严紧条件下与多核苷酸探针杂交的核苷酸序列所编码的多肽，所述多核苷酸探针选自下组：(i)选自下组的序列的互补链：SEQID NO:158中的核苷酸1585-1878、SEQ ID NO:160中的核苷酸1597-1890、SEQ ID NO:162中的核苷酸1522-1806、SEQ ID NO:164中的核苷酸1618-1929、SEQ ID NO:166中的核苷酸1504-1701、SEQ ID NO:168中的核苷酸1537-1842、SEQ ID NO:172中的核苷酸1474-1764、SEQ ID NO:174中的核苷酸61-861、SEQ ID NO:176中的核苷酸1459-1761、和SEQ ID NO:178中的核苷酸1444-1749，(c)(a)或(b)的具有碳水化合物结合亲合力的片段。

在其它方面本发明提供第一个、第二个和/或第三个方面的多肽用于糖化、用于包括发酵的过程中、用于淀粉转化过程中、用于生产寡糖的过程例如生产麦芽糖糊精或葡萄糖和/或果糖糖浆的过程中、用于生产燃料或饮用乙醇、用于生产饮料、和/或用于生产有机化合物如柠檬酸、抗坏血酸、赖氨酸、谷氨酸的发酵方法中的用途。

又一方面本发明提供包含第一个、第二个和/或第三个方面的多肽的组合物。

另一方面本发明提供糖化淀粉的方法，其中用第一个、第二个和/或第三个方面的多肽处理淀粉。

又一方面本发明提供一种方法，包括：a)将淀粉与包含具有α-淀粉酶活性的催化模块和碳水化合物结合模块的多肽接触，所述多肽例如，第一个、第二个和/或第三个方面的多肽；b)将所述淀粉与所述多肽一起保温；c)发酵生产发酵产物，d)任选回收发酵产物，其中具有葡糖淀粉酶活性的酶或者缺失，或者以小于0.5AGU/g DS淀粉底物的量存在，并且其中步骤a、b、c、和/或d可以分开或同时进行。

另一方面本发明提供一种方法，包括：a)将淀粉底物与经转化以表达多肽的酵母细胞接触，所述多肽包含具有α-淀粉酶活性的催化模块和碳水化合物结合模块，例如，第一个和/或第二个方面的多肽；b)将所述淀粉底物与所述酵母一起保存；c)发酵生产乙醇；d)任选回收乙醇，其中步骤a)、b)、和c)分开或同时进行。在优选实施方案中包括在至少90％w/w的所述淀粉底物足以转化为可发酵糖的时间和温度下与所述酵母一起保存所述底物。

又一方面本发明提供通过发酵由含淀粉材料生产乙醇的方法，所述方法包括：(i)用包含具有α-淀粉酶活性的催化模块和碳水化合物结合模块的多肽液化所述含淀粉材料，例如，第一个和/或第二个方面的多肽；(ii)糖化所获得的液化醪(mash)；(iii)在发酵生物存在下发酵步骤(ii)中获得的材料并任选包括回收乙醇。

在更多方面本发明提供编码根据第一个、第二个和/或第三个方面的多肽的DNA序列，包含所述DNA序列的DNA构建体，携带所述DNA构建体的重组表达载体，用所述DNA构建体或所述载体转化的宿主细胞，所述宿主细胞，其为微生物，特别是细菌或真菌细胞、酵母或植物细胞。

具体地，本发明涉及如下各项：

1.一种多肽，其包含含有催化模块的第一氨基酸序列和含有碳水化合物结合模块的第二氨基酸序列，其中所述催化模块具有α-淀粉酶活性，其中所述第二氨基酸序列与选自下组的任一氨基酸序列具有至少60％的同源性：SEQ ID NO:52、SEQ ID NO:76、SEQ IDNO:78、SEQ ID NO:80、SEQ ID NO:82、SEQ ID NO:84、SEQ ID NO:86、SEQ ID NO:88、SEQ IDNO:90、SEQ ID NO:92、SEQ ID NO:94、SEQ ID NO:96、SEQ ID NO:98、SEQ ID NO:109、SEQID NO:137、SEQ ID NO:139、SEQ ID NO:141和SEQ ID NO:143。

2.项1的多肽，其中所述第一氨基酸序列与选自下组的任一氨基酸序列具有至少60％的同源性：SEQ ID NO:02、SEQ ID NO:04、SEQ ID NO:06、SEQ ID NO:08、SEQ ID NO:10、SEQ ID NO:12、SEQ ID NO:14、SEQ ID NO:16、SEQ ID NO:18、SEQ ID NO:20、SEQ IDNO:22、SEQ ID NO:24、SEQ ID NO:26、SEQ ID NO:28、SEQ ID NO:30、SEQ ID NO:32、SEQ IDNO:34、SEQ ID NO:36、SEQ ID NO:38、SEQ ID NO:40、SEQ ID NO:42、SEQ ID NO:44、SEQ IDNO:111、SEQ ID NO:113、SEQ ID NO:115、SEQ ID NO:117、SEQ ID NO:119、SEQ ID NO:121、SEQ ID NO:123、SEQ ID NO:125、SEQ ID NO:127、SEQ ID NO:129、SEQ ID NO:131、SEQ IDNO:133、SEQ ID NO:135和SEQ ID NO:155。

3.项1或2的多肽，其中在所述第一和所述第二氨基酸序列之间的位置存在接头序列，所述接头序列与选自下组的任一氨基酸序列具有至少60％的同源性：SEQ ID NO:46、SEQ ID NO:48、SEQ ID NO:50、SEQ ID NO:54、SEQ ID NO:56、SEQ ID NO:58、SEQ ID NO:60、SEQ ID NO:62、SEQ ID NO:64、SEQ ID NO:66、SEQ ID NO:68、SEQ ID NO:70、SEQ IDNO:72、SEQ ID NO:74、SEQ ID NO:145、SEQ ID NO:147、SEQ ID NO:149、SEQ ID NO:151和SEQ ID NO:52。

4.项1-3任一项的多肽，其中所述第一氨基酸序列与SEQ ID NO:4所示氨基酸序列具有至少60％的同源性，并且其中所述第一氨基酸序列包含选自下组的一个或多个氨基酸取代：A128P、K138V、S141N、Q143A、D144S、Y155W、E156D、D157N、N244E、M246L、G446D、D448S和N450D。

5.项4的多肽，其中所述多肽具有SEQ ID NO:100所示的氨基酸序列或者与SEQ IDNO:100所示氨基酸序列具有至少60％同源性的氨基酸序列。

6.项1-3任一项的多肽，其中所述多肽具有SEQ ID NO:101所示的氨基酸序列或者与SEQ ID NO:101所示氨基酸序列具有至少60％同源性的氨基酸序列。

7.项1-3任一项的多肽，其中所述多肽具有SEQ ID NO:102所示的氨基酸序列或者与SEQ ID NO:102所示氨基酸序列具有至少50％同源性的氨基酸序列。

8.项1-7任一项的多肽，其中所述多肽是杂合体。

9.具有α-淀粉酶活性的多肽，选自下组：

(a)一种多肽，其具有与成熟多肽的氨基酸有至少75％同源性的氨基酸序列，所述成熟多肽的氨基酸选自下组：SEQ ID NO:14中的氨基酸1-441、SEQ ID NO:18中的氨基酸1-471、SEQ ID NO:20中的氨基酸1-450、SEQ ID NO:22中的氨基酸1-445、SEQ ID NO:26中的氨基酸1-498、SEQ ID NO:28中的氨基酸18-513、SEQ ID NO:30中的氨基酸1-507、SEQ IDNO:32中的氨基酸1-481、SEQ ID NO:34中的氨基酸1-495、SEQ ID NO:38中的氨基酸1-477、SEQ ID NO:42中的氨基酸1-449、SEQ ID NO:115中的氨基酸1-442、SEQ ID NO:117中的氨基酸1-441、SEQ ID NO:125中的氨基酸1-477、SEQ ID NO:131中的氨基酸1-446、SEQ IDNO:157中的氨基酸41-481、SEQ ID NO:159中的氨基酸22-626、SEQ ID NO:161中的氨基酸24-630、SEQ ID NO:163中的氨基酸27-602、SEQ ID NO:165中的氨基酸21-643、SEQ ID NO:167中的氨基酸29-566、SEQ ID NO:169中的氨基酸22-613、SEQ ID NO:171中的氨基酸21-463、SEQ ID NO:173中的氨基酸21-587、SEQ ID NO:175中的氨基酸30-773、SEQ ID NO:177中的氨基酸22-586、SEQ ID NO:179中的氨基酸20-582。

(b)由核苷酸序列编码的多肽，所述核苷酸序列(i)至少在低严紧条件下与SEQ IDNO:13中的核苷酸1-1326、SEQ ID NO:17中的核苷酸1-1413、SEQ ID NO:19中的核苷酸1-1350、SEQ ID NO:21中的核苷酸1-1338、SEQ ID NO:25中的核苷酸1-1494、SEQ ID NO:27中的核苷酸52-1539、SEQ ID NO:29中的核苷酸1-1521、SEQ ID NO:31中的核苷酸1-1443、SEQID NO:33中的核苷酸1-1485、SEQ ID NO:37中的核苷酸1-1431、SEQ ID NO:41中的核苷酸1-1347、SEQ ID NO:114中的核苷酸1-1326、SEQ ID NO:116中的核苷酸1-1323、SEQ ID NO:124中的核苷酸1-1431、SEQ ID NO:130中的核苷酸1-1338、SEQ ID NO:156中的核苷酸121-1443、SEQ ID NO:158中的核苷酸64-1878、SEQ ID NO:160中的核苷酸70-1890、SEQ ID NO:162中的核苷酸79-1806、SEQ ID NO:164中的核苷酸61-1929、SEQ ID NO:166中的核苷酸85-1701、SEQ ID NO:168中的核苷酸64-1842、SEQ ID NO:170中的核苷酸61-1389、SEQ IDNO:172中的核苷酸61-1764、SEQ ID NO:174中的核苷酸61-2322、SEQ ID NO:176中的核苷酸64-1761、SEQ ID NO:178中的核苷酸58-1749杂交，或者(ii)至少在中等严紧条件下与包含于SEQ ID NO:13中核苷酸1-1326、SEQ ID NO:17中核苷酸1-1413、SEQ ID NO:19中核苷酸1-1350、SEQ ID NO:21中核苷酸1-1338、SEQ ID NO:25中核苷酸1-1494、SEQ ID NO:27中核苷酸52-1539、SEQ ID NO:29中核苷酸1-1521、SEQ ID NO:31中核苷酸1-1443、SEQ IDNO:33中核苷酸1-1485、SEQ ID NO:37中核苷酸1-1431、SEQ ID NO:41中核苷酸1-1347、SEQID NO:114中核苷酸1-1326、SEQ ID NO:116中核苷酸1-1323、SEQ ID NO:124中核苷酸1-1431、SEQ ID NO:130中核苷酸1-1338、SEQ ID NO:156中核苷酸121-1443、SEQ ID NO:158中核苷酸64-1878、SEQ ID NO:160中核苷酸70-1890、SEQ ID NO:162中核苷酸79-1806、SEQID NO:164中核苷酸61-1929、SEQ ID NO:166中核苷酸85-1701、SEQ ID NO:168中核苷酸64-1842、SEQ ID NO:170中核苷酸61-1389、SEQ ID NO:172中核苷酸61-1764、SEQ ID NO:174中核苷酸61-2322、SEQ ID NO:176中核苷酸64-1761、SEQ ID NO:178中核苷酸58-1749所示多核苷酸中的cDNA序列杂交，或者(iii)，(i)或(ii)的互补链；和

(c)一种变体，其在选自下组的氨基酸序列中包含一个或多个氨基酸的保守性取代、缺失、和/或***：SEQ ID NO:14中的氨基酸1-441、SEQ ID NO:18中的氨基酸1-471、SEQID NO:20中的氨基酸1-450、SEQ ID NO:22中的氨基酸1-445、SEQ ID NO:26中的氨基酸1-498、SEQ ID NO:28中的氨基酸18-513、SEQ ID NO:30中的氨基酸1-507、SEQ ID NO:32中的氨基酸1-481、SEQ ID NO:34中的氨基酸1-495、SEQ ID NO:38中的氨基酸1-477、SEQ IDNO:42中的氨基酸1-449、SEQ ID NO:115中的氨基酸1-442、SEQ ID NO:117中的氨基酸1-441、SEQ ID NO:125中的氨基酸1-477、SEQ ID NO:131中的氨基酸1-446、SEQ ID NO:157中的氨基酸41-481、SEQ ID NO:159中的氨基酸22-626、SEQ ID NO:161中的氨基酸24-630、SEQ ID NO:163中的氨基酸27-602、SEQ ID NO:165中的氨基酸21-643、SEQ ID NO:167中的氨基酸29-566、SEQ ID NO:169中的氨基酸22-613、SEQ ID NO:171中的氨基酸21-463、SEQID NO:173中的氨基酸21-587、SEQ ID NO:175中的氨基酸30-773、SEQ ID NO:177中的氨基酸22-586和SEQ ID NO:179中的氨基酸20-582。

10.具有碳水化合物结合亲合力的多肽，所述多肽选自下组：

(a)包含与选自下组的序列具有至少60％同源性的氨基酸序列的多肽：SEQ IDNO:159的氨基酸529-626、SEQ ID NO:161的氨基酸533-630、SEQ ID NO:163的氨基酸508-602、SEQ ID NO:165的氨基酸540-643、SEQ ID NO:167的氨基酸502-566、SEQ ID NO:169的氨基酸513-613、SEQ ID NO:173的492-587、SEQ ID NO:175的氨基酸30-287、SEQ ID NO:177的氨基酸487-586、和SEQ ID NO:179的氨基酸482-582；

(b)由核苷酸序列编码的多肽，所述核苷酸序列在低严紧条件下与多核苷酸探针杂交，所述多核苷酸探针选自下组序列的互补链：SEQ ID NO:158中的核苷酸1585-1878、SEQ ID NO:160中的核苷酸1597-1890、SEQ ID NO:162中的核苷酸1522-1806、SEQ ID NO:164中的核苷酸1618-1929、SEQ ID NO:166中的核苷酸1504-1701、SEQ ID NO:168中的核苷酸1537-1842、SEQ ID NO:172中的核苷酸1474-1764、SEQ ID NO:174中的核苷酸61-861、SEQ ID NO:176中的核苷酸1459-1761、和SEQ ID NO:178中的核苷酸1444-1749；

(c)(a)或(b)的具有碳水化合物结合亲合力的片段。

11.项10的多肽，其中所述碳水化合物结合亲合力是淀粉结合亲合力。

12.根据项1-11任一项的多肽用于液化的用途。

13.根据项1-11任一项的多肽用于糖化的用途。

14.根据项1-11任一项的多肽用于包括发酵的方法中的用途。

15.根据项1-11任一项的多肽在淀粉转化方法中的用途。

16.根据项1-11任一项的多肽在生产寡糖的方法中的用途。

17.根据项1-11任一项的多肽在生产麦芽糖糊精或葡萄糖浆的方法中的用途。

18.根据项1-11任一项的多肽在生产燃料或饮用乙醇的方法中的用途。

19.根据项1-11任一项的多肽在生产饮料的方法中的用途。

20.根据项1-11任一项的多肽在用于生产有机化合物的发酵方法中的用途，所述有机化合物例如柠檬酸、抗坏血酸、赖氨酸、谷氨酸。

21.包含根据项1-11任一项的多肽的组合物。

22.糖化淀粉的方法，其中用根据项1-11任一项的多肽处理淀粉。

23.根据项22的方法，包括将淀粉转变为含有右旋糖和/或麦芽糖的糖浆。

24.根据项22或23的方法，其中所述淀粉是糊化的或颗粒状的淀粉。

25.根据项22-24任一项的方法，其中将糖化的淀粉与发酵生物接触以生产发酵产物。

26.根据项24的方法，其中所述发酵生物是酵母，且发酵产物是乙醇。

27.一种方法，包括：

(a)将淀粉与多肽接触，所述多肽包含催化模块和碳水化合物结合模块，所述催化模块具有α-淀粉酶活性；

(b)将所述淀粉与所述多肽一起保温；

(c)发酵，以生产发酵产物，

(d)任选回收所述发酵产物，

其中具有葡糖淀粉酶活性的酶或者缺失，或者以不超过或者甚至小于0.5AGU/gDS的量存在，更优选不超过或者甚至小于0.4AGU/g DS淀粉底物，甚至更优选不超过或者甚至小于0.3AGU/g DS淀粉底物，以及最优选不超过或者甚至小于0.1AGU/g DS淀粉底物，例如不超过或者甚至小于0.05AGU/g DS淀粉底物，并且其中步骤a、b、c、和/或d可以单独或者同时进行。

28.根据项27的方法，其中所述多肽是根据项1至11任一项的多肽。

29.一种方法，包括：

(a)将淀粉底物与酵母细胞接触，所述酵母细胞被转化以表达包含催化模块和碳水化合物结合模块的多肽，所述催化模块具有α-淀粉酶活性；

(b)将所述淀粉底物与所述酵母一起保存；

(c)发酵以生产乙醇；

(d)任选回收乙醇；

其中步骤a、b、和c分开或者同时进行。

30.项29的方法，其中所述酵母细胞是项43的酵母细胞。

31.通过发酵由含淀粉的材料生产乙醇的方法，所述方法包括：

(i)用多肽液化所述含淀粉的材料，所述多肽包含催化模块和碳水化合物结合模块，所述催化模块具有α-淀粉酶活性；

(ii)糖化所获得的液化醪；

(iii)在发酵生物存在下发酵步骤(ii)中获得的材料。

32.项31的方法，其中所述多肽是根据项1-11任一项的多肽。

33.根据项31或32的方法，进一步包括回收乙醇。

34.根据项31-33任一项的方法，其中所述糖化和发酵以同时的糖化和发酵方法(SSF方法)实施。

35.根据项31-34任一项的方法，其中步骤iii期间乙醇含量达到至少7％、至少8％、至少9％、至少10％、例如至少11％、至少12％、至少13％、至少14％、至少15％、例如至少16％乙醇。

36.根据项31-35任一项的方法，其中所述酸性α-淀粉酶以0.01至10AFAU/g DS、优选0.1至5AFAU/g DS、尤其是0.3至2AFAU/g DS的量存在。

37.根据项31-36任一项的方法，其中所述酸性α-淀粉酶和葡糖淀粉酶以0.1至10AFAU/AGU、优选0.30至5AFAU/AGU、尤其是0.5至3AFAU/AGU的比例添加。

38.编码根据项1-11任一项的多肽的DNA序列。

39.包含根据项38的DNA序列的DNA构建体。

40.携带根据项39的DNA构建体的重组表达载体。

41.用根据项39的DNA构建体或根据项40的载体转化的宿主细胞。

42.根据项41的宿主细胞，其为微生物，特别是细菌或真菌细胞。

43.根据项41或42的宿主细胞，其为酵母。

44.根据项41或42的宿主细胞，其为来自曲霉属的菌株、来自篮状菌属的菌株、或来自木霉属的菌株，所述来自曲霉属的菌株特别是黑曲霉，所述来自篮状菌属的菌株特别是埃默森篮状菌。

45.根据项41的宿主细胞，其为植物细胞。

46.包含根据项1-11任一项的多肽的组合物。

47.根据项46的组合物，所述组合物进一步包含葡糖淀粉酶。

48.根据项46或47的组合物，其中所述葡糖淀粉酶来源于篮状菌属的菌种、曲霉菌属的菌种、栓菌属的菌种或厚孢孔菌属的菌种中的菌株。

49.根据项46-48任一项的组合物，其中所述葡糖淀粉酶来源于选自下组的物种：黑曲霉、Talaromyces leycettanus、Talaromyces duponti、埃默森篮状菌、瓣环栓菌和纸质大纹饰孢。

50.根据项46-49任一项的组合物用于使糊化、部分糊化的或颗粒状的淀粉液化和/或糖化的用途。

发明详述

术语“颗粒状淀粉”理解为生的(raw)未煮熟的淀粉，即，尚未进行糊化的淀粉。淀粉以微小的不溶于水的颗粒在植物中形成。这些颗粒以低于起始糊化温度的温度保存在淀粉中。当放进冷水中时，颗粒可以吸收少量液体。一直到50℃至70℃时溶胀都是可逆的，可逆性程度取决于特定淀粉。温度更高时，称为糊化的不可逆溶胀开始。

术语“起始糊化温度”理解为淀粉开始糊化的最低温度。在水中加热的淀粉在50℃与75℃之间开始糊化，糊化的精确温度取决于特定的淀粉，熟练技术人员能够很容易地测定。因此，起始糊化温度根据植物物种、植物物种的特定品种以及生长条件可以有所不同。在本发明的上下文中，给定的淀粉的起始糊化温度指用Gorinstein S.and Lii.C.,Starch/Vol.44(12)pp.461-466(1992)所述方法测定时，5％的淀粉颗粒中双折射丧失时的温度。

术语“可溶性淀粉水解产物”理解为本发明方法的可溶性产物，可以包含单糖、二糖、和寡糖，如葡萄糖、麦芽糖、麦芽糖糊精、环糊精及这些的任意混合物。优选地，颗粒状淀粉的干燥固体的至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％或至少98％被转化为可溶性淀粉水解产物。

术语多肽“同源性”理解为两个序列之间的同一性程度，其表明第一个序列由第二个序列衍生。可以通过本领域已知的计算机程序的方式如GCG程序包中提供的GAP(威斯康星(Wisconsin)程序包的程序手册，第8版，1994年8月，Genetics Computer Group，575Science Drive，Madison，威斯康星，USA 53711)适当地测定同源性(Needleman,S.B.and Wunsch,C.D.,(1970),Journal of Molecular Biology,48,443-453)。氨基酸序列比较采用以下的设置：缺口构建罚分3.0，缺口延伸罚分0.1。用于同源性测定的有关氨基酸序列部分是成熟多肽，即不含信号肽。用于测定核苷酸探针与同源DNA或RNA序列在低、中、或高严紧性下杂交的合适的实验条件包括将包含待杂交DNA片段或RNA的滤器预浸在5xSSC(氯化钠/柠檬酸钠，Sambrook et al.1989)中10min，滤器在5xSSC、5x Denhardt’s溶液(Sambrook et al.1989)、0.5％SDS和100微克/ml变性的超声处理鲑精DNA(Sambrook etal.1989)的溶液中预杂交，之后在包含浓度为10ng/ml的随机引物的(Feinberg,A.P.andVogelstein,B.(1983)Anal.Biochem.132:6-13)、³²P-dCTP标记的(比活>1x 10⁹cpm/微克)探针的相同溶液中于约45℃杂交12小时。然后所述滤器在2x SSC、0.5％SDS中于约55℃(低严紧性)，更优选于约60℃(中等严紧性)，再优选于约65℃(中等/高严紧性)，更为优选于约70℃(高严紧性)，甚至更优选于约75℃(极高严紧性)下洗两次。

用x-射线胶片检测在这些条件下与所述寡核苷酸探针杂交的分子。

多肽

本发明的多肽可以是杂合酶，或者所述多肽可以是已经包含具有α-淀粉酶活性的催化模块和碳水化合物结合模块的野生型酶。本发明的多肽也可以是这种野生型酶的变体。杂合体可以通过编码第一个氨基酸序列的第一个DNA序列与编码第二个氨基酸序列的第二个DNA序列的融合来生产，或者杂合体可以基于有关合适的CBM、接头和催化结构域的氨基酸序列的知识作为完全合成的基因来生产。

本文术语“杂合酶”或“杂合多肽”用于表征本发明包含含有至少一个催化模块的第一个氨基酸序列和含有包含至少一个碳水化合物结合模块的第二个氨基酸序列的那些多肽，所述催化模块具有α-淀粉酶活性，其中第一个和第二个氨基酸序列来自不同的来源。术语“来源”理解为例如，但不限于亲本酶，例如淀粉酶或葡糖淀粉酶，或包含合适的催化模块和/或合适的CBM和/或合适的接头的其它催化活性。

酶分类编号(EC编号)依照国际生物化学与分子生物学联合会命名委员会的推荐 (Recommendations(1992)of the Nomenclature Committee of the International Union of Biochemistry and Molecular Biology,Academic Press Inc,1992)。

本文提到的多肽包括包含α-淀粉酶(EC 3.2.1.1)的氨基酸序列的多肽种类，所述α-淀粉酶的氨基酸序列连接(即，共价结合)于包含碳水化合物结合模块(CBM)的氨基酸序列。

含CBM的杂合酶，以及其制备和纯化的详细描述是本领域已知的[参见，例如，WO90/00609、WO 94/24158和WO 95/16782，以及Greenwood et al. Biotechnology and Bioengineering 44(1994)pp.1295-1305]。例如可以通过将DNA构建体转化到宿主细胞中，并培养所转化的宿主细胞以表达融合基因而制备它们，所述DNA构建体至少包含在具有或没有接头情况下连接于编码感兴趣的多肽的DNA序列的编码碳水化合物结合模块的DNA片段。本发明多肽中的CBM可以位于多肽C-末端、N-末端或内部。一个实施方案中所述多肽可以包含超过一个的CBM，例如，两个CBM；一个位于C-末端，另一个位于N-末端，或者两个CBMs一前一后位于C-末端、N-末端或内部。然而，同样考虑具有超过两个CBM的多肽。

本发明的α-淀粉酶

本发明涉及可用作CBM、接头和/或催化模块的供体(亲本淀粉酶)的α-淀粉酶多肽。本发明的多肽可以是野生型α-淀粉酶(EC 3.2.1.1)或者所述多肽也可以是这种野生型酶的变体。另外本发明的多肽可以是这种酶的片段，例如，催化结构域，即具有α-淀粉酶活性但CBM存在于野生型酶中时与其分开的片段，或者例如CBM，即具有碳水化合物结合模块的片段。它也可以是包含这种α-淀粉酶的片段的杂合酶，例如包含源于本发明的α-淀粉酶的催化结构域、接头和/或CBM。

另外，本发明的多肽可以是这种酶的片段，例如，仍然包含功能性催化结构域以及如果存在于所述野生型酶中的CBM的片段，或者，例如，野生型酶的片段，该野生型酶不包含CBM，并且其中所述片段包含功能性催化结构域。

α-淀粉酶：本发明涉及包含碳水化合物结合模块(“CBM”)和具有α-淀粉酶活性的新的多肽。这些多肽可以源于任何生物，优选真菌或细菌起源的那些。

本发明的α-淀粉酶包括可由选自下列属中的物种获得的α-淀粉酶：犁头霉属(Absidia)、枝顶孢霉属(Acremonium)、锥毛壳菌属(Coniochaeta)、革盖菌属(Coriolus)、Cryptosporiopsis、Dichotomocladium、刺壳双毛菌属(Dinemasporium)、色二孢菌属(Diplodia)、镰刀菌属(Fusarium)、粘帚霉属(Gliocladium)、Malbranchea、亚灰树花菌属(Meripilus)、丛赤壳菌(Necteria)、青霉属(Penicillium)、根毛霉属(Rhizomucor)、韧革菌属(Stereum)、链霉菌属(Streptomyces)、Subulispora、共头霉属(Syncephalastrum)、Thamindium、Thermoascus、嗜热丝孢菌属(Thermomyces)、栓菌属(Trametes)、Trichophaea和Valsaria。α-淀粉酶可以源于表1所列出的任何属、种或序列。

优选所述α-淀粉酶源于选自下组的任何物种：疏绵状嗜热丝孢菌(Thermomyceslanuginosus)，特别是具有SEQ ID NO:14中氨基酸1-441的多肽；Malbranchea属的菌种(Malbranchea sp.)，特别是具有SEQ ID NO:18中的氨基酸1-471的多肽；微小根毛霉(Rhizomucor pusillus)，特别是具有SEQ ID NO:20中的氨基酸1-450的多肽；Dichotomocladium hesseltinei，特别是具有SEQ ID NO:22中的氨基酸1-445的多肽；韧革菌的菌种(Stereum sp.)，特别是具有SEQ ID NO:26中的氨基酸1-498的多肽；栓菌属的菌种(Trametes sp.)，特别是具有SEQ ID NO:28中的氨基酸18-513的多肽；鲑贝革盖菌(Coriolus consors)，特别是具有SEQ ID NO:30中的氨基酸1-507的多肽；刺壳双毛菌属的菌种(Dinemasporium sp.)，特别是具有SEQ ID NO:32中的氨基酸1-481的多肽；Cryptosporiopsis的菌种，特别是具有SEQ ID NO:34中的氨基酸1-495的多肽；色二孢菌属的菌种(Diplidia sp.)，特别是具有SEQ ID NO:38中的氨基酸1-477的多肽；粘帚霉属的菌种(Gliocladium sp.)，特别是具有SEQ ID NO:42中的氨基酸1-449的多肽；丛赤壳菌属的菌种(Nectria sp.)，特别是具有SEQ ID NO:115中的氨基酸1-442的多肽；镰刀菌属的菌种(Fusarium sp.)，特别是具有SEQ ID NO:117中的氨基酸1-441的多肽；嗜热子囊菌(Thermoascus auranticus)，特别是具有SEQ ID NO:125中的氨基酸1-477的多肽；Thamindium elegans，特别是具有SEQ ID NO:131中的氨基酸1-446的多肽；冠毛犁头霉(Absidia cristata)，特别是具有SEQ ID NO:157中的氨基酸41-481的多肽；枝顶孢霉属的菌种(Acremonium sp.)，特别是具有SEQ ID NO:159中的氨基酸22-626的多肽；锥毛壳菌属的菌种(Coniochaeta sp.)，特别是具有SEQ ID NO:161中的氨基酸24-630的多肽；巨多孔菌(Meripilus giganteus)，特别是具有SEQ ID NO:163中的氨基酸27-602的多肽；青霉属的菌种(Penicillium sp.)，特别是具有SEQ ID NO:165中的氨基酸21-643的多肽；淤泥链霉菌(Streptomyces limosus)，特别是具有SEQ ID NO:167中的氨基酸29-566的多肽；Subulispora procurvata，特别是具有SEQ ID NO:169中的氨基酸22-613的多肽；总状共头霉(Syncephalastrum racemosum)，特别是具有SEQ ID NO:171中的氨基酸21-463的多肽；皱褶栓菌(Trametes currugata)，特别是具有SEQ ID NO:173中的氨基酸21-587的多肽；Trichophaea saccata，特别是具有SEQ ID NO:175中的氨基酸30-773的多肽；Valsariarubricosa，特别是具有SEQ ID NO:177中的氨基酸22-586的多肽和Valsaria spartii，特别是具有SEQ ID NO:179中的氨基酸20-582的多肽。

还优选与前述多肽中的任一个的成熟肽具有至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、或者甚至至少98％同源性的α-淀粉酶氨基酸序列。在另一优选实施方案中，所述α-淀粉酶氨基酸序列具有在不超过10个位点、不超过9个位点、不超过8个位点、不超过7个位点、不超过6个位点、不超过5个位点、不超过4个位点、不超过3个位点、不超过2个位点、或者甚至不超过1个位点不同于前述氨基酸序列中的任一个的氨基酸序列。

还优选由DNA序列编码的α-淀粉酶氨基酸序列，所述DNA序列与选自下组的多核苷酸的任一序列具有至少50％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、或者甚至至少98％同源性，所述多核苷酸序列表示为：SEQ IDNO:1、SEQ ID NO:3、SEQ ID NO:5、SEQ ID NO:7、SEQ ID NO:9、SEQ ID NO:11、SEQ ID NO:13、SEQ ID NO:15、SEQ ID NO:17、SEQ ID NO:19、SEQ ID NO:21、SEQ ID NO:23、SEQ IDNO:25、SEQ ID NO:27、SEQ ID NO:29、SEQ ID NO:31、SEQ ID NO:33、SEQ ID NO:35、SEQ IDNO:37、SEQ ID NO:39、SEQ ID NO:41、SEQ ID NO:43、SEQ ID NO:110、SEQ ID NO:112、SEQID NO:114、SEQ ID NO:116、SEQ ID NO:118、SEQ ID NO:120、SEQ ID NO:122、SEQ ID NO:124、SEQ ID NO:126、SEQ ID NO:128、SEQ ID NO:130、SEQ ID NO:132、SEQ ID NO:134、SEQID NO:154和SEQ ID NO:156、SEQ ID NO:13、SEQ ID NO:17、SEQ ID NO:19、SEQ ID NO:21、SEQ ID NO:25、SEQ ID NO:27、SEQ ID NO:29、SEQ ID NO:31、SEQ ID NO:33、SEQ ID NO:37、SEQ ID NO:41、SEQ ID NO:114、SEQ ID NO:116、SEQ ID NO:124、SEQ ID NO:130、SEQID NO:156、SEQ ID NO:158、SEQ ID NO:160、SEQ ID NO:162、SEQ ID NO:164、SEQ ID NO:166、SEQ ID NO:168、SEQ ID NO:170、SEQ ID NO:172、SEQ ID NO:174、SEQ ID NO:176和SEQ ID NO:178。更优选的是由在低、中等、中等/高、高和/或极高严紧性下与前述α-淀粉酶DNA序列中的任一个杂交的DNA序列所编码的任何α-淀粉酶氨基酸序列。还优选编码α-淀粉酶氨基酸序列且与前述α-淀粉酶DNA序列中的任一个具有至少50％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少99％、或者甚至100％同源性的DNA序列。

α-淀粉酶催化结构域：一个实施方案中本发明涉及源于包含碳水化合物结合模块(“CBM”)且具有α-淀粉酶活性的多肽的催化结构域，如源于选自SEQ ID NO:14、SEQ ID NO:18、SEQ ID NO:20、SEQ ID NO:22、SEQ ID NO:26、SEQ ID NO:28、SEQ ID NO:30、SEQ IDNO:32、SEQ ID NO:34、SEQ ID NO:38、SEQ ID NO:42、SEQ ID NO:115、SEQ ID NO:117、SEQID NO:125、SEQ ID NO:131、SEQ ID NO:157、SEQ ID NO:159、SEQ ID NO:161、SEQ ID NO:163、SEQ ID NO:165、SEQ ID NO:167、SEQ ID NO:169、SEQ ID NO:171、SEQ ID NO:173、SEQID NO:175、SEQ ID NO:177和SEQ ID NO:179所示的α-淀粉酶的多肽的催化结构域。SEQ IDNO:14中的氨基酸1-441、SEQ ID NO:18中的氨基酸1-471、SEQ ID NO:20中的氨基酸1-450、SEQ ID NO:22中的氨基酸1-445、SEQ ID NO:26中的氨基酸1-498、SEQ ID NO:28中的氨基酸18-513、SEQ ID NO:30中的氨基酸1-507、SEQ ID NO:32中的氨基酸1-481、SEQ ID NO:34中的氨基酸1-495、SEQ ID NO:38中的氨基酸1-477、SEQ ID NO:42中的氨基酸1-449、SEQID NO:115中的氨基酸1-442、SEQ ID NO:117中的氨基酸1-441、SEQ ID NO:125中的氨基酸1-477、SEQ ID NO:131中的氨基酸1-446、SEQ ID NO:157中的氨基酸41-481、SEQ ID NO:159中的氨基酸22-502、SEQ ID NO:161中的氨基酸24-499、SEQ ID NO:163中的氨基酸27-492、SEQ ID NO:165中的氨基酸21-496、SEQ ID NO:167中的氨基酸29-501、SEQ ID NO:169中的氨基酸22-487、SEQ ID NO:171中的氨基酸21-463、SEQ ID NO:173中的氨基酸21-477、SEQ ID NO:175中的氨基酸288-773、SEQ ID NO:177中的氨基酸22-471和SEQ ID NO:179中的氨基酸20-470所示的催化结构域是优选的。与前述催化结构域序列中的任一个具有至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％或者甚至至少95％同源性的催化结构域序列也是优选的。在另一优选实施方案中，所述催化结构域序列具有在不超过10个位点、不超过9个位点、不超过8个位点、不超过7个位点、不超过6个位点、不超过5个位点、不超过4个位点、不超过3个位点、不超过2个位点、或者甚至不超过1个位点与前述催化结构域序列中的任一个有所不同的氨基酸序列。

还优选由与选自下组的多核苷酸的任何序列具有至少50％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％或者甚至至少95％同源性的DNA序列所编码的催化结构域氨基酸序列，所述多核苷酸如SEQ ID NO:13中的核苷酸1-1326、SEQ IDNO:17中的核苷酸1-1413、SEQ ID NO:19中的核苷酸1-1350、SEQ ID NO:21中的核苷酸1-1338、SEQ ID NO:25中的核苷酸1-1494、SEQ ID NO:27中的核苷酸52-1539、SEQ ID NO:29中的核苷酸1-1521、SEQ ID NO:31中的核苷酸1-1443、SEQ ID NO:33中的核苷酸1-1485、SEQ ID NO:37中的核苷酸1-1431、SEQ ID NO:41中的核苷酸1-1347、SEQ ID NO:114中的核苷酸1-1326、SEQ ID NO:116中的核苷酸1-1323、SEQ ID NO:124中的核苷酸1-1431、SEQ IDNO:130中的核苷酸1-1338、SEQ ID NO:156中的核苷酸121-1443、SEQ ID NO:158中的核苷酸64-1506、SEQ ID NO:160中的核苷酸70-1497、SEQ ID NO:162中的核苷酸79-1476、SEQID NO:164中的核苷酸61-1488、SEQ ID NO:166中的核苷酸85-1503、SEQ ID NO:168中的核苷酸64-1461、SEQ ID NO:170中的核苷酸61-1389、SEQ ID NO:172中的核苷酸61-1431、SEQID NO:174中的核苷酸862-2322、SEQ ID NO:176中的核苷酸64-1413和SEQ ID NO:178中的核苷酸58–1410所示。更优选的是由在低、中等、中等/高、高和/或极高严紧性下与前述DNA序列中的任一个杂交的DNA序列所编码的任何催化结构域氨基酸序列。还优选编码催化结构域氨基酸序列并且与前述催化结构域DNA序列中的任一个具有至少50％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少99％、或者甚至100％同源性的DNA序列。

接头序列：在一个实施方案中本发明涉及源于包含碳水化合物结合模块(“CBM”)且具有α-淀粉酶活性的多肽的接头序列。优选选自下组的接头氨基酸序列：如SEQ ID NO:159中的氨基酸503-528、SEQ ID NO:161中的氨基酸500-532、SEQ ID NO:163中的氨基酸493-507、SEQ ID NO:165中的氨基酸497-539、SEQ ID NO:169中的氨基酸488-512、SEQ IDNO:173中的氨基酸478-491、SEQ ID NO:177中的氨基酸472-486和SEQ ID NO:179中的氨基酸471-481所示的接头氨基酸序列。还优选与前述接头序列中的任一个具有至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％或者甚至至少95％同源性的接头氨基酸序列。在另一优选实施方案中，所述接头序列具有在不超过10个位点、不超过9个位点、不超过8个位点、不超过7个位点、不超过6个位点、不超过5个位点、不超过4个位点、不超过3个位点、不超过2个位点、或者甚至不超过1个位点与前述接头序列中任一个有所不同的氨基酸序列。

碳水化合物结合模块：在一个实施方案中本发明涉及源于包含碳水化合物结合模块(“CBM”)且具有α-淀粉酶活性的多肽的CBM，所述CBM源于选自SEQ ID NO:14、SEQ ID NO:18、SEQ ID NO:20、SEQ ID NO:22、SEQ ID NO:26、SEQ ID NO:28、SEQ ID NO:30、SEQ IDNO:32、SEQ ID NO:34、SEQ ID NO:38、SEQ ID NO:42、SEQ ID NO:115、SEQ ID NO:117、SEQID NO:125、SEQ ID NO:131、SEQ ID NO:157、SEQ ID NO:159、SEQ ID NO: 161、SEQ ID NO:163、SEQ ID NO:165、SEQ ID NO:167、SEQ ID NO:169、SEQ ID NO:171、SEQ ID NO:173、SEQID NO:175、SEQ ID NO:177和SEQ ID NO:179所示的α-淀粉酶的多肽。优选选自下组序列的CBM氨基酸序列：具有SEQ ID NO:159中的氨基酸529-626、SEQ ID NO:161中的氨基酸533-630、SEQ ID NO:163中的氨基酸508-602、SEQ ID NO:165中的氨基酸540-643、SEQ ID NO:167中的氨基酸502-566、SEQ ID NO:169中的氨基酸513-613、SEQ ID NO:173中的氨基酸492-587、SEQ ID NO:175中的氨基酸30-287、SEQ ID NO:177中的氨基酸487-586和SEQ IDNO:179中的氨基酸482-582的序列。还优选与前述CBM氨基酸序列中的任一个具有至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％或者甚至至少95％同源性的CBM氨基酸序列。在另一优选实施方案中，所述CBM序列具有在不超过10个位点、不超过9个位点、不超过8个位点、不超过7个位点、不超过6个位点、不超过5个位点、不超过4个位点、不超过3个位点、不超过2个位点、或者甚至不超过1个位点不同于前述CBM序列中的任一个的氨基酸序列。

还优选由与选自下组的多核苷酸的任何序列具有至少50％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％或者甚至至少95％同源性的DNA序列所编码的CBM氨基酸序列，所述多核苷酸如SEQ ID NO:158中的核苷酸1585-1878、SEQ ID NO:160中的核苷酸1597-1890、SEQ ID NO:162中的核苷酸1522-1806、SEQ ID NO:164中的核苷酸1618-1929、SEQ ID NO:166中的核苷酸1504-1701、SEQ ID NO:168中的核苷酸1537-1842、SEQ ID NO:172中的核苷酸1474-1764、SEQ ID NO:174中的核苷酸61-861、SEQ IDNO:176中的核苷酸1459-1761和SEQ ID NO:178中的核苷酸1444-1749、SEQ ID NO:1、SEQID NO:3、SEQ ID NO:5、SEQ ID NO:7、SEQ ID NO:9、SEQ IDNO:11、SEQ ID NO:13、SEQ IDNO:15、SEQ ID NO:17、SEQ ID NO:19、SEQ ID NO:21、SEQ ID NO:23、SEQ ID NO:25、SEQ IDNO:27、SEQ ID NO:29、SEQ ID NO:31、SEQ ID NO:33、SEQ ID NO:35、SEQ ID NO:37、SEQ IDNO:39、SEQ ID NO:41、SEQ ID NO:43、SEQ ID NO:110、SEQ ID NO:112、SEQ ID NO:114、SEQID NO:116、SEQ ID NO:118、SEQ ID NO:120、SEQ ID NO:122、SEQ ID NO:124、SEQ ID NO:126、SEQ ID NO:128、SEQ ID NO:130、SEQ ID NO:132、SEQ ID NO:134、SEQ ID NO:154和SEQ ID NO:156所示。更优选的是由在低、中等、中等/高、高和/或极高严紧性下与前述CBMDNA序列中的任一个的互补DNA序列杂交的DNA序列所编码的任何CBM氨基酸序列。还优选编码CBM氨基酸序列且与前述CBM DNA序列中任一个具有至少50％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少99％、或者甚至100％同源性的DNA序列。

SEQ ID NO:166中的核苷酸1504-1701和SEQ ID NO:174中的核苷酸61-861所示DNA序列以及所编码的氨基酸序列除了CBM之外还包含接头序列。

表1

α-淀粉酶多肽可以应用于淀粉降解过程中和/或用作杂合多肽的催化结构域和/或CBM的供体。本发明优选的多肽，例如，杂合多肽，包括含有催化模块的第一个氨基酸序列和含有碳水化合物结合模块的第二个氨基酸序列，所述催化模块具有α-淀粉酶活性，其中所述第二个氨基酸序列与选自下组的任何氨基酸序列具有至少60％、至少70％、至少80％、至少85％、至少90％、如至少95％同源性：SEQ ID NO:159中的氨基酸529-626、SEQ ID NO:161中的氨基酸533-630、SEQ ID NO:163中的氨基酸508-602、SEQ ID NO:165中的氨基酸540-643、SEQ ID NO:167中的氨基酸502-566、SEQ ID NO:169中的氨基酸513-613、SEQ IDNO:173中的氨基酸492-587、SEQ ID NO:175中的氨基酸30-287、SEQ ID NO:177中的氨基酸487-586和SEQ ID NO:179中的氨基酸482-582。更优选多肽，例如，杂合多肽，其中所述第一个氨基酸序列与选自下组的任何氨基酸序列具有至少60％、至少70％、至少80％、至少85％、至少90％、如至少95％同源性：SEQ ID NO:14中的氨基酸1-441、SEQ ID NO:18中的氨基酸1-471、SEQ ID NO:20中的氨基酸1-450、SEQ ID NO:22中的氨基酸1-445、SEQ ID NO:26中的氨基酸1-498、SEQ ID NO:28中的氨基酸18-513、SEQ ID NO:30中的氨基酸1-507、SEQ ID NO:32中的氨基酸1-481、SEQ ID NO:34中的氨基酸1-495、SEQ ID NO:38中的氨基酸1-477、SEQ ID NO:42中的氨基酸1-449、SEQ ID NO:115中的氨基酸1-442、SEQ ID NO:117中的氨基酸1-441、SEQ ID NO:125中的氨基酸1-477、SEQ ID NO:131中的氨基酸1-446、SEQ ID NO:157中的氨基酸41-481、SEQ ID NO:159中的氨基酸22-502、SEQ ID NO:161中的氨基酸24-499、SEQ ID NO:163中的氨基酸27-492、SEQ ID NO:165中的氨基酸21-496、SEQID NO:167中的氨基酸29-501、SEQ ID NO:169中的氨基酸22-487、SEQ ID NO:171中的氨基酸21-463、SEQ ID NO:173中的氨基酸21-477、SEQ ID NO:175中的氨基酸288-773、SEQ IDNO:177中的氨基酸22-471和SEQ ID NO:179中的氨基酸20-470。还优选多肽，例如，杂合多肽，其中接头序列存在于所述第一个和所述第二个氨基酸序列之间的位置，所述接头序列与选自下组的任何氨基酸序列具有至少60％、至少70％、至少80％、至少85％、至少90％、如至少95％同源性：SEQ ID NO:159中的氨基酸503-528、SEQ ID NO:161中的氨基酸500-532、SEQ ID NO:163中的氨基酸493-507、SEQ ID NO:165中的氨基酸497-539、SEQ ID NO:169中的氨基酸488-512、SEQ ID NO:173中的氨基酸478-491、SEQ ID NO:177中的氨基酸472-486和SEQ ID NO:179中的氨基酸471-481。

α-淀粉酶序列

适于构建本发明的类型的多肽的催化结构域，即，α-淀粉酶催化结构域(特别是酸稳定的α-淀粉酶)可以源于任何生物，优选真菌或细菌起源的那些。

优选所述α-淀粉酶为野生型酶。更优选所述α-淀粉酶是包含氨基酸修饰的变体α-淀粉酶，所述氨基酸修饰导致增强的活性、低pH和/或高pH下增强的蛋白质稳定性、针对钙损耗的增强的稳定性、和/或温度提升时增强的稳定性。

用于本发明的杂合体的相关α-淀粉酶包括可获得自选自以下列出的物种的α-淀粉酶：犁头霉、枝顶孢霉、曲霉(Aspergillus)、锥毛壳菌、锥毛壳菌、Cryptosporiopsis、Dichotomocladium、刺壳双毛菌属的菌种、色二孢菌、镰刀菌、粘帚霉、Malbranchea、亚灰树花菌(Meripilus)、栓菌、丛赤壳菌、丛赤壳菌、青霉菌、Phanerochaete、根毛霉、根霉(Rhizopus)、链霉菌、Subulispora、共头霉、Thaminidium、Thermoascus、嗜热丝孢菌、栓菌、Trichophaea和Valsaria。α-淀粉酶催化结构域也可以来源于细菌，例如，芽孢杆菌(Bacillus)。

优选所选择的α-淀粉酶氨基酸序列来源于选自下组的任何物种：冠毛犁头霉、枝顶孢霉属的菌种、黑曲霉(Aspergillus niger)、白曲霉(Aspergillus kawachii)、米曲霉(Aspergillus oryzae)、锥毛壳菌属的菌种、锥毛壳菌属的菌种、Cryptosporiopsis属的菌种、Dichotomocladium hesseltinei、刺壳双毛菌属的菌种、色二孢菌属的菌种、镰刀菌属的菌种、粘帚霉属的菌种、Malbranchea属的菌种、巨多孔菌、丛赤壳菌属的菌种、丛赤壳菌属的菌种、青霉属的菌种、黄孢原毛平革菌(Phanerochaete chrysosporium)、微小根毛霉、米根霉(Rhizopus oryzae)、韧革菌属的菌种、Streptomyces thermocyaneoviolaceus、淤泥链霉菌、Subulispora procurvata、总状共头霉、Thaminidium elegans、嗜热子囊菌、Thermoascus属的菌种、疏绵状嗜热丝孢菌、皱褶栓菌、栓菌属的菌种、Trichophaeasaccata、Valsaria rubricosa、Valsaria spartii和Bacillus flavothermus(同义词：Anoxybacillus contaminans)。

优选所述杂合体包含选自表1或2所列α-淀粉酶催化模块的α-淀粉酶氨基酸序列。

最优选所述杂合体包含α-淀粉酶氨基酸序列，所述α-淀粉酶氨基酸序列选自来自黑曲霉(SEQ ID NO:2)、米曲霉(SEQ ID NO:4和SEQ ID NO:6)、Trichophaea saccata(SEQID NO:8)、Subulispora procurvata(SEQ ID NO:10)、Valsaria rubricosa(SEQ ID NO:12)、疏绵状嗜热丝孢菌(SEQ ID NO:14)、枝顶孢霉属的菌种(SEQ ID NO:16)、Malbranchea属的菌种(SEQ ID NO:18)、微小根毛霉(SEQ ID NO:20)、Dichotomocladium hesseltinei(SEQ ID NO:22)、巨多孔菌(SEQ ID NO:24)、韧革菌属的菌种AMY1179(SEQ ID NO:26)、栓菌属的菌种(SEQ ID NO:28)、鲑贝革盖菌(Coriolus censors)(SEQ ID NO:30)、刺壳双毛菌属的菌种(SEQ ID NO:32)、Cryptosporiopsis属的菌种(SEQ ID NO:34)、锥毛壳菌属的菌种(SEQ ID NO:36)、色二孢菌属的菌种(SEQ ID NO:38)、丛赤壳菌属的菌种(SEQ ID NO:40)、粘帚霉属的菌种(SEQ ID NO:42)、Streptomyces thermocyaneoviolaceus(SEQ IDNO:44)、Thermoascus属的菌种II(SEQ ID NO:111)、锥毛壳菌属的菌种(SEQ ID NO:113)、丛赤壳菌属的菌种(SEQ ID NO:115)、镰刀菌属的菌种(SEQ ID NO:117)、皱褶栓菌(SEQ IDNO:119)、青霉属的菌种(SEQ ID NO:121)、Valsaria spartii(SEQ ID NO:123)、Thermoascus aurantiacus(SEQ ID NO:125)、黄孢原毛平革菌(SEQ ID NO:127)、米根霉(SEQ ID NO:129)、Thaminidium elegans(SEQ ID NO:131)、冠毛犁头霉(SEQ ID NO:133)、总状共头霉(SEQ ID NO:135)和淤泥链霉菌(SEQ ID NO:155)的α-淀粉酶。

本发明还优选包含α-淀粉酶氨基酸序列的杂合体，所述α-淀粉酶氨基酸序列与选自下组的任何序列具有至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％或者甚至至少95％的同源性：SEQ ID NO:2、SEQ ID NO:4、SEQ ID NO:6、SEQ ID NO:8、SEQ ID NO:10、SEQ ID NO:12、SEQ ID NO:14、SEQ ID NO:16、SEQ ID NO:18、SEQ ID NO:20、SEQ ID NO:22、SEQ ID NO:24、SEQ ID NO:26、SEQ ID NO:28、SEQ ID NO:30、SEQ IDNO:32、SEQ ID NO:34、SEQ ID NO:36、SEQ ID NO:38、SEQ ID NO:40、SEQ ID NO:42、SEQ IDNO:44、SEQ ID NO:111、SEQ ID NO:113、SEQ ID NO:115、SEQ ID NO:117、SEQ ID NO:119、SEQ ID NO:121、SEQ ID NO:123、SEQ ID NO:125、SEQ ID NO:127、SEQ ID NO:129、SEQ IDNO:131、SEQ ID NO:133、SEQ ID NO:135和SEQ ID NO:155。

在另一优选实施方案中所述杂合酶具有在不超过10个位点、不超过9个位点、不超过8个位点、不超过7个位点、不超过6个位点、不超过5个位点、不超过4个位点、不超过3个位点、不超过2个位点、不超过1个位点不同于选自下组的氨基酸序列的α-淀粉酶序列：SEQ IDNO:2、SEQ ID NO:4、SEQ ID NO:6、SEQ ID NO:8、SEQ ID NO:10、SEQ ID NO:12、SEQ ID NO:14、SEQ ID NO:16、SEQ ID NO:18、SEQ ID NO:20、SEQ ID NO:22、SEQ ID NO:24、SEQ IDNO:26、SEQ ID NO:28、SEQ ID NO:30、SEQ ID NO:32、SEQ ID NO:34、SEQ ID NO:36、SEQ IDNO:38、SEQ ID NO:40、SEQ ID NO:42、SEQ ID NO:44、SEQ ID NO:111、SEQ ID NO:113、SEQID NO:115、SEQ ID NO:117、SEQ ID NO:119、SEQ ID NO:121、SEQ ID NO:123、SEQ ID NO:125、SEQ ID NO:127、SEQ ID NO:129、SEQ ID NO:131、SEQ ID NO:133、SEQ ID NO:135和SEQ ID NO:155。

还优选包含α-淀粉酶氨基酸序列的杂合体，所述α-淀粉酶氨基酸序列由与选自下组的任何序列具有至少50％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％或者甚至至少95％的同源性：SEQ ID NO:1、SEQ ID NO:3、SEQ ID NO:5、SEQID NO:7、SEQ ID NO:9、SEQ ID NO:11、SEQ ID NO:13、SEQ ID NO:15、SEQ ID NO:17、SEQID NO:19、SEQ ID NO:21、SEQ ID NO:23、SEQ ID NO:25、SEQ ID NO:27、SEQ ID NO:29、SEQID NO:31、SEQ ID NO:33、SEQ ID NO:35、SEQ ID NO:37、SEQ ID NO:39、SEQ ID NO:41、SEQID NO:43、SEQ ID NO:110、SEQ ID NO:112、SEQ ID NO:114、SEQ ID NO:116、SEQ ID NO:118、SEQ ID NO:120、SEQ ID NO:122、SEQ ID NO:124、SEQ ID NO:126、SEQ ID NO:128、SEQID NO:130、SEQ ID NO:132、SEQ ID NO:134和SEQ ID NO:154。

更优选包含α-淀粉酶的杂合体，所述α-淀粉酶由在低、中等、中等/高、高和/或极高严紧性下与选自下组的任何DNA序列杂交的DNA序列所编码：SEQ ID NO:1、SEQ ID NO:3、SEQ ID NO:5、SEQ ID NO:7、SEQ ID NO:9、SEQ ID NO:11、SEQ ID NO:13、SEQ ID NO:15、SEQ ID NO:17、SEQ ID NO:19、SEQ ID NO:21、SEQ ID NO:23、SEQ ID NO:25、SEQ ID NO:27、SEQ ID NO:29、SEQ ID NO:31、SEQ ID NO:33、SEQ ID NO:35、SEQ ID NO:37、SEQ IDNO:39、SEQ ID NO:41、SEQ ID NO:43、SEQ ID NO:110、SEQ ID NO:112、SEQ ID NO:114、SEQID NO:116、SEQ ID NO:118、SEQ ID NO:120、SEQ ID NO:122、SEQ ID NO:124、SEQ ID NO:126、SEQ ID NO:128、SEQ ID NO:130、SEQ ID NO:132、SEQ ID NO:134和SEQ ID NO:154。

接头序列

接头序列可以是任何合适的接头序列，例如，来源于α-淀粉酶或葡糖淀粉酶的接头序列。所述接头可以为键，或者是包含约2至约100个碳原子，特别是2到40个碳原子的短的连接基团。然而，所述接头优选为约2至约100个氨基酸残基的序列，更优选4至40个氨基酸残基，例如6到15个氨基酸残基。

优选所述杂合体包含来源于选自下组的任何物种的接头序列：枝顶孢霉、锥毛壳菌、锥毛壳菌、亚灰树花菌(Meripilus)、厚孢孔菌(Pachykytospora)、青霉菌、Sublispora、栓菌、Trichophaea、Valsaria、阿太菌(Athelia)、曲霉菌、栓菌和桩菇(Leucopaxillus)。所述接头也可以来源于细菌，例如来自芽孢杆菌菌种的菌株。更优选所述接头来源于选自下组的物种：枝顶孢霉属的菌种、锥毛壳菌属的菌种、锥毛壳菌属的菌种、巨多孔菌、青霉属的菌种、Sublispora provurvata、皱褶栓菌、Trichophaea saccata、Valsaria rubricosa、Valsario spartii、白曲霉、黑曲霉、罗耳阿太菌(Athelia rolfsii)、大白桩菇(Leucopaxillus gigantus)、纸质大纹饰孢(Pachykytospora papayracea)、瓣环栓菌(Trametes cingulata)和Bacillus flavothermus。

优选所述杂合体包含选自表1或2中所列接头的接头氨基酸序列。

更优选所述接头是来自选自下组的葡糖淀粉酶的接头：纸质大纹饰孢(SEQ IDNO:46)、瓣环栓菌(SEQ ID NO:48)、大白桩菇(SEQ ID NO:50)、罗耳阿太菌(SEQ ID NO:68)、白曲霉(SEQ ID NO:70)、黑曲霉(SEQ ID NO:72)，或者是来自选自下组的α-淀粉酶的接头：Sublispora provurvata(SEQ ID NO:54)、Valsaria rubricosa(SEQ ID NO:56)、枝顶孢霉属的菌种(SEQ ID NO:58)、巨多孔菌(SEQ ID NO:60)、Bacillus flavothermus(SEQID NO:62、SEQ ID NO:64或SEQ ID NO:66)、锥毛壳菌属的菌种AM603(SEQ ID NO:74)、锥毛壳菌属的菌种(SEQ ID NO:145)、皱褶栓菌(SEQ ID NO:147)、Valsario spartii(SEQ IDNO:149)、青霉菌属的菌种(SEQ ID NO:151)、Trichophaea saccata(SEQ ID NO:52)。

本发明还优选与选自下组的任一序列具有至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％或者甚至至少95％同源性的任何接头氨基酸序列：SEQID NO:46、SEQ ID NO:48、SEQ ID NO:50、SEQ ID NO:52、SEQ ID NO:54、SEQ ID NO:56、SEQID NO:58、SEQ ID NO:60、SEQ ID NO:62、SEQ ID NO:64、SEQ ID NO:66、SEQ ID NO:68、SEQID NO:70、SEQ ID NO:72、SEQ ID NO:74、SEQ ID NO:145、SEQ ID NO:147、SEQ ID NO:149和SEQ ID NO:151。

在另一优选实施方案中所述杂合酶具有在不超过10个位点、不超过9个位点、不超过8个位点、不超过7个位点、不超过6个位点、不超过5个位点、不超过4个位点、不超过3个位点、不超过2个位点、不超过1个位点不同于选自下组的氨基酸序列的接头序列：SEQ ID NO:46、SEQ ID NO:48、SEQ ID NO:50、SEQ ID NO:52、SEQ ID NO:54、SEQ ID NO:56、SEQ IDNO:58、SEQ ID NO:60、SEQ ID NO:62、SEQ ID NO:64、SEQ ID NO:66、SEQ ID NO:68、SEQ IDNO:70、SEQ ID NO:72、SEQ ID NO:74、SEQ ID NO:145、SEQ ID NO:147、SEQ ID NO:149和SEQ ID NO:151。

还优选包含接头序列的杂合体，所述接头序列由与选自下组的任一序列具有至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％或者甚至至少95％同源性的DNA序列所编码：SEQ ID NO:45、SEQ ID NO:47、SEQ ID NO:49、SEQ ID NO:51、SEQID NO:53、SEQ ID NO:55、SEQ ID NO:57、SEQ ID NO:59、SEQ ID NO:61、SEQ ID NO:63、SEQID NO:65、SEQ ID NO:67、SEQ ID NO:69、SEQ ID NO:71、SEQ ID NO:73、SEQ ID NO:144、SEQ ID NO:146、SEQ ID NO:148、和SEQ ID NO:150。

更优选包含接头序列的杂合体，所述接头序列由高、中等或者低严紧性下与选自下组的任一DNA序列杂交的DNA序列所编码：SEQ ID NO:45、SEQ ID NO:47、SEQ ID NO:49、SEQ ID NO:51、SEQ ID NO:53、SEQ ID NO:55、SEQ ID NO:57、SEQ ID NO:59、SEQ ID NO:61、SEQ ID NO:63、SEQ ID NO:65、SEQ ID NO:67、SEQ ID NO:69、SEQ ID NO:71、SEQ IDNO:73、SEQ ID NO:144、SEQ ID NO:146、SEQ ID NO:148、和SEQ ID NO:150。

在优选实施方案中使用起源于CBM来源的接头，例如，当使用来自罗耳阿太菌葡糖淀粉酶的CBM时，同样将来自罗耳阿太菌葡糖淀粉酶的接头序列用于所述杂合体。

碳水化合物结合模块

碳水化合物结合模块(CBM)，或者通常称作碳水化合物结合结构域(CBM)，指优先结合多糖或寡糖(碳水化合物)、经常——但不必然排他性地——结合其水不溶性(包括晶体)形式的多肽氨基酸序列。

源于淀粉降解酶的CBM通常称为淀粉结合模块(starch-binding module)或者SBM(可以存在于特定的分解淀粉的酶，如特定的葡糖淀粉酶(GA)中的，或者存在于酶如环糊精糖基转移酶中的，或者存在于α-淀粉酶中的CBM)。同样，CBM的其它亚类将包含，例如，纤维素结合模块(来自纤维素分解酶的CBM)、几丁质结合模块(典型地存在于几丁质酶中的CBM)、木聚糖结合模块(典型地存在于木聚糖酶中的CBM)、甘露聚糖结合模块(典型地存在于甘露聚糖酶中的CBM)。SBM通常称为SBD(Starch Binding Domain)(淀粉结合结构域)。

发现CBM是由两种或多种多肽氨基酸序列区域组成的大型多肽或蛋白质的主要部分，尤其是在典型地包含催化模块和碳水化合物结合模块(CBM)的水解性酶(水解酶)中，其中所述催化模块含有底物水解的活性位点，碳水化合物结合模块(CBM)用于结合所讨论的碳水化合物底物。这些酶可能包含超过一个催化模块和一个、两个或三个CBM并且任选进一步包含将一个或多个CBM与一个或多个催化模块连接在一起的一个或多个多肽氨基酸序列，后一类型的区域通常被称为“接头”。包含CBM的水解性酶的例子——其中一些以上已经提到——是纤维素酶、木聚糖酶、甘露聚糖酶、***呋喃糖苷酶、乙酰酯酶和几丁质酶。也在藻类，例如，在红藻Porphyra purpurea中发现了非水解性多糖结合蛋白形式的CBM。

在其中存在CBM的蛋白质/多肽(例如，酶，典型地水解性酶)中，CBM可以位于N或C末端或者位于内部位置。

构成CBM本身的多肽或蛋白质(例如，水解性酶)的部分由超过约30个并少于约250个氨基酸残基组成。

本发明上下文中“碳水化合物结合模块家族20”或CBM-20模块定义为大约100个氨基酸的序列，其与图1中由Joergensen et al.(1997)于Biotechnol.Lett.19:1027-1031中披露的多肽的碳水化合物结合模块(CBM)有至少45％的同源性。所述CBM包含多肽的最后102个氨基酸，即自氨基酸582至氨基酸683的子序列。应用于本说明书中的糖苷水解酶家族的编号遵循在URL: http://afmb.cnrs-mrs.fr/～cazy/CAZY/index.html上的Coutinho,P.M.&Henrissat,B.(1999)CAZy-Carbohydrate-Active Enzymes server，或可替换地遵循Coutinho,P.M.&Henrissat,B.1999；The modular structure of cellulases and othercarbohydrate-active enzymes:an integrated database approach.在"Genetics,Biochemistry and Ecology of Cellulose Degradation",K.Ohmiya,K.Hayashi,K.Sakka,Y.Kobayashi,S.Karita and T.Kimura eds.,Uni Publishers Co.,Tokyo,pp.15-23中，和Bourne,Y.&Henrissat,B.2001；Glycoside hydrolases andglycosyltransferases:families and functional modules,Current Opinion inStructural Biology 11:593-600的思想。

包含适合用于本发明上下文的CBM的酶的例子为α-淀粉酶、产麦芽糖α-淀粉酶、纤维素酶、木聚糖酶、甘露聚糖酶、***呋喃糖苷酶、乙酰酯酶和几丁质酶。与本发明有关的感兴趣的更多CBM包括衍生自葡糖淀粉酶(EC 3.2.1.3)或环糊精糖基转移酶(CGTase)(EC2.4.1.19)的CBM。

衍生自真菌、细菌或植物来源的CBM通常将适合用于本发明的杂合体中。优选真菌起源的CBM。就此而论，适合于分离有关基因的技术是本领域熟知的。

优选包含碳水化合物结合模块家族20、21或25的CBM的杂合体。适合于本发明的碳水化合物结合模块家族20的CBM可以源于泡盛曲霉(Aspergillus awamori)(SWISSPROTQ12537)、白曲霉(SWISSPROT P23176)、黑曲霉(SWISSPROT P04064)、米曲霉(SWISSPROTP36914)的葡糖淀粉酶，源于白曲霉(EMBL:#_AB008370)、构巢曲霉(Aspergillusnidulans)(NCBI AAF17100.1)的α-淀粉酶，源于蜡状芽孢杆菌(Bacillus cereus)(SWISSPROT P36924)的β-淀粉酶，或者源于环状芽孢杆菌(Bacillus circulans)(SWISSPROT P43379)的CGTases。优选来自白曲霉(EMBL:#_AB008370)α-淀粉酶的CBM以及与白曲霉(EMBL:#_AB008370)α-淀粉酶的CBM有至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％或者甚至至少95％同源性的CBM。更优选的CBM包括葡糖淀粉酶CBM，来自Hormoconis属的菌种，如来自Hormoconis resinae(同义词为杂酚油(Creosote)真菌，或Amorphotheca resinae)，如SWISSPROT:Q03045的CBM、来自香菇属(Lentinula)的菌种，如来自香菇(Lentinula edodes)(香菇(shiitake mushroom))，如SPTREMBL:Q9P4C5的CBM，来自脉孢菌属的菌种，如来自粗糙链孢霉(Neurospora crassa)，如SWISSPROT:P14804的CBM，来自篮状菌属的菌种(Talaromyces sp.)，如来自丝衣霉状篮状菌(Talaromyces byssochlamydioides)，来自属的菌种(Geosmithia sp.)，如来自Geosmithia cylindrospora、来自属的菌种(Scorias sp.)，如来自Scorias spongiosa、来自正青霉属的菌种(Eupenicillium sp.)，如来自Eupenicillium ludwigii、来自曲霉属的菌种，如来自日本曲霉(Aspergillus japonicus)，来自青霉属的菌种，如来自Penicilliumcf.miczynskii、来自属的菌种(Thysanophora sp.)，以及来自腐殖菌属的菌种(Humicolasp.)，如来自灰腐质霉高温变种(Humicola grisea var.Thermoidea)，如SPTREMBL:Q12623的CBM。

优选所述杂合体包含源于选自下组的任一科或物种的CBM：枝顶孢霉属、曲霉属、阿太菌、锥毛壳菌属、Cryptosporiopsis、Dichotomocladium、刺壳双毛菌属、色二孢菌属、粘帚霉属、桩菇、Malbranchea、亚灰树花菌、丛赤壳菌属、厚孢孔菌、青霉菌、根毛霉属、微小根毛霉、链霉菌、Subulispora、嗜热丝孢菌、栓菌属、Trichophaea saccata以及Valsaria。CBM也可以来源于植物例如玉米(例如，Zea mays)或者来源于细菌例如芽孢杆菌。更优选所述杂合体包含来源于选自下组的任何物种的CBM：枝顶孢霉属的菌种、白曲霉、黑曲霉、米曲霉、罗耳阿太菌、Bacillus flavothermus、锥毛壳菌属的菌种、Cryptosporiopsis属的菌种(Cryptosporiopsis sp.)、Dichotomocladium hesseltinei、刺壳双毛菌属的菌种、色二孢菌属的菌种、粘帚霉属的菌种、大白桩菇、Malbranchea属的菌种(Malbranchea sp.)、巨多孔菌、丛赤壳菌属的菌种、纸质大纹饰孢、青霉菌属的菌种、微小根毛霉、Streptomycesthermocyaneoviolaceus、淤泥链霉菌、Subulispora provurvata、疏绵状嗜热丝孢菌、瓣环栓菌、皱褶栓菌、Trichophaea saccata、Valsaria rubricosa、Valsario spartii和玉米。

优选所述杂合体包含选自表1或2中所列CBM的CBM氨基酸序列。

最优选所述杂合体包含来自选自下组的葡糖淀粉酶的CBM：纸质大纹饰孢(SEQ IDNO:76)、瓣环栓菌(SEQ ID NO:78)、大白桩菇(SEQ ID NO:80)、罗耳阿太菌(SEQ ID NO:92)、白曲霉(SEQ ID NO:94)、黑曲霉(SEQ ID NO:96)，或者来自选自下组的α-淀粉酶的CBM：Trichopheraea saccata(SEQ ID NO:52)、Subulispora provurvata(SEQ ID NO:82)、Valsaria rubricosa(SEQ ID NO:84)、枝顶孢霉属的菌种(SEQ ID NO:86)、巨多孔菌(SEQID NO:88)、Bacillus flavothermus(SEQ ID NO:90)、锥毛壳菌属的菌种(SEQ ID NO:98)、玉米(SEQ ID NO:109)、锥毛壳菌属的菌种(SEQ ID NO:137)、皱褶栓菌(SEQ ID NO:139)、Valsario spartii(SEQ ID NO:141)和青霉菌属的菌种(SEQ ID NO:143)。

在另一优选实施方案中所述杂合酶具有在不超过10个位点、不超过9个位点、不超过8个位点、不超过7个位点、不超过6个位点、不超过5个位点、不超过4个位点、不超过3个位点、不超过2个位点、或者甚至不超过1个位点上不同于选自下组的氨基酸序列的CBM序列：SEQ ID NO:52、SEQ ID NO:76、SEQ ID NO:78、SEQ ID NO:80、SEQ ID NO:82、SEQ ID NO:84、SEQ ID NO:86、SEQ ID NO:88、SEQ ID NO:90、SEQ ID NO:92、SEQ ID NO:94、SEQ IDNO:96、SEQ ID NO:98、SEQ ID NO:109、SEQ ID NO:137、SEQ ID NO:139、SEQ ID NO:141和SEQ ID NO:143。

还优选由与选自下组的任何序列具有至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％或者甚至至少95％同源性的DNA序列编码的任何CBM：SEQ IDNO:75、SEQ ID NO:77、SEQ ID NO:79、SEQ ID NO:81、SEQ ID NO:83、SEQ ID NO:85、SEQ IDNO:87、SEQ ID NO:89、SEQ ID NO:91、SEQ ID NO:93、SEQ ID NO:95、SEQ ID NO:97、SEQ IDNO:108、SEQ ID NO:136、SEQ ID NO:140、SEQ ID NO:142。更优选由与选自下组的任何DNA序列在高、中等或低严紧性下杂交的DNA序列所编码的任何CBM：SEQ ID NO:75、SEQ ID NO:77、SEQ ID NO:79、SEQ ID NO:81、SEQ ID NO:83、SEQ ID NO:85、SEQ ID NO:87、SEQ IDNO:89、SEQ ID NO:91、SEQ ID NO:93、SEQ ID NO:95、SEQ ID NO:97、SEQ ID NO:108、SEQID NO:136、SEQ ID NO:138、SEQ ID NO:140和SEQ ID NO:142。

碳水化合物结合模块家族20、21或25的更多适合的CBM可以在URL：http:// afmb.cnrs-mrs.fr/～cazy/CAZY/index.html)找到。

一旦鉴定了作为cDNA或者作为染色体DNA的编码底物结合(碳水化合物结合)区域的核苷酸序列，可以将其之后以各种方式操作以将其融合到编码感兴趣的多肽的DNA序列。然后用或不用接头连接编码碳水化合物结合氨基酸序列的DNA片段和编码感兴趣多肽的DNA。然后可以以各种方式操作所获得的连接的DNA以实现表达。

特定实施方案

在优选实施方案中，所述多肽包含来源于罗耳阿太菌、纸质大纹饰孢、Valsariarubricosa或巨多孔菌的CBM。优选包含选自下组的CBM氨基酸序列的任何多肽：罗耳阿太菌葡糖淀粉酶(SEQ ID NO:92)、纸质大纹饰孢葡糖淀粉酶(SEQ ID NO:76)、Valsariarubricosaα-淀粉酶(SEQ ID NO:84)和巨多孔菌α-淀粉酶(SEQ ID NO:88)。

在另一优选实施方案中，所述多肽包含来源于米曲霉酸性α-淀粉酶的α-淀粉酶序列(SEQ ID NO:4)，优选其中所述米曲霉氨基酸序列包含选自下组的一个或多个氨基酸取代：A128P、K138V、S141N、Q143A、D144S、Y155W、E156D、D157N、N244E、M246L、G446D、D448S和N450D。最优选所述多肽包含具有SEQ ID NO:6所示氨基酸序列的催化结构域。在优选实施方案中，所述多肽进一步包含来源于罗耳阿太菌的CBM，优选所述多肽进一步包含具有SEQID NO:92所示氨基酸序列的CBM。最优选所述多肽具有SEQ ID NO:100所示氨基酸序列，或者所述多肽具有与前述氨基酸序列具有至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％或者甚至至少95％同源性的氨基酸序列。

还优选由与SEQ ID NO:99所示DNA序列具有至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％或者甚至至少95％同源性的DNA序列所编码的任何多肽。

在另一优选实施方案中，所述多肽包含来源于微小根毛霉α-淀粉酶的催化模块和/或来源于罗耳阿太菌的CBM。在特别优选的实施方案中，所述多肽具有SEQ ID NO:101所示的氨基酸序列或者所述多肽具有与前述任一个氨基酸序列拥有至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％或者甚至至少95％同源性的氨基酸序列。

在另一优选实施方案中，所述多肽包含来源于巨多孔菌α-淀粉酶的催化模块和/或来源于罗耳阿太菌的CBM。在特别优选的实施方案中，所述多肽具有SEQ ID NO:102所示的氨基酸序列或者所述多肽具有与前述氨基酸序列具有至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％或者甚至至少95％同源性的氨基酸序列。

在另一优选实施方案中，所述多肽具有在不超过10个位点、不超过9个位点、不超过8个位点、不超过7个位点、不超过6个位点、不超过5个位点、不超过4个位点、不超过3个位点、不超过2个位点、或者甚至不超过1个位点不同于SEQ ID NO:100、SEQ ID NO:101和SEQID NO:102所示任何氨基酸序列的氨基酸序列。

还优选由DNA序列编码的任何多肽，所述DNA序列与编码SEQ ID NO:100、SEQ IDNO:101和SEQ ID NO:102所示任何氨基酸序列的任何DNA序列具有至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％或者甚至至少95％同源性。

更优选由在高、中等或低严紧性下与编码SEQ ID NO:100、SEQ ID NO:101和SEQID NO:102所示任一氨基酸序列的任何DNA序列杂交的DNA序列所编码的任何CBM。

本发明多肽的其它优选实施方案如实施例部分表3、4、5和6所示。还优选与表1至7所示多肽的任何氨基酸序列具有至少70％、更优选至少80％以及甚至更优选至少90％同源性的任何多肽。更优选由在低、中等、或高严紧性下与编码表1至7所示多肽的任何氨基酸序列的DNA序列杂交的DNA序列所编码的任何多肽。

在优选实施方案中，所述多肽包含与米曲霉催化结构域(SEQ ID NO:6)具有至少75％同源性的催化结构域和与选自下组的CBM具有至少75％同源性的CBM：SEQ ID NO:82、SEQ ID NO:84、SEQ ID NO:86、SEQ ID NO:76、SEQ ID NO:78、SEQ ID NO:80、SEQ ID NO:88、SEQ ID NO:52、SEQ ID NO:92、SEQ ID NO:52、和SEQ ID NO:90。在更优选的实施方案中，所述多肽包含米曲霉催化结构域(SEQ ID NO:6)和选自下组的CBM：SEQ ID NO:82、SEQID NO:84、SEQ ID NO:86、SEQ ID NO:76、SEQ ID NO:78、SEQ ID NO:80、SEQ ID NO:88、SEQID NO:52、SEQ ID NO:92、SEQ ID NO:52、和SEQ ID NO:90。

在优选实施方案中，所述多肽包含与罗耳阿太菌葡糖淀粉酶CBM(SEQ ID NO:92)具有至少75％同源性的CBM和与选自下组的催化结构域具有至少75％同源性的催化结构域：SEQ ID NO:8、SEQ ID NO:10、SEQ ID NO:12、SEQ ID NO:14、SEQ ID NO:16、SEQ ID NO:18、SEQ ID NO:20、SEQ ID NO:22、SEQ ID NO:24、SEQ ID NO:26、SEQ ID NO:155、SEQ IDNO:30、SEQ ID NO:32、SEQ ID NO:34、SEQ ID NO:36、SEQ ID NO:38、SEQ ID NO:40、SEQ IDNO:42、SEQ ID NO:44、SEQ ID NO:111、SEQ ID NO:113、SEQ ID NO:115、SEQ ID NO:117、SEQ ID NO:119、SEQ ID NO:123、SEQ ID NO:125、SEQ ID NO:121、SEQ ID NO:127、SEQ IDNO:129、SEQ ID NO:131、SEQ ID NO:133和SEQ ID NO:135。在更优选的实施方案中，所述多肽包含罗耳阿太菌葡糖淀粉酶CBM(SEQ ID NO:92)和选自下组的催化结构域：SEQ ID NO:8、SEQ ID NO:10、SEQ ID NO:12、SEQ ID NO:14、SEQ ID NO:16、SEQ ID NO:18、SEQ ID NO:20、SEQ ID NO:22、SEQ ID NO:24、SEQ ID NO:26、SEQ ID NO:155、SEQ ID NO:30、SEQ IDNO:32、SEQ ID NO:34、SEQ ID NO:36、SEQ ID NO:38、SEQ ID NO:40、SEQ ID NO:42、SEQ IDNO:44、SEQ ID NO:111、SEQ ID NO:113、SEQ ID NO:115、SEQ ID NO:117、SEQ ID NO:119、SEQ ID NO:123、SEQ ID NO:125、SEQ ID NO:121、SEQ ID NO:127、SEQ ID NO:129、SEQ IDNO:131、SEQ ID NO:133和SEQ ID NO:135。

在优选实施方案中，所述多肽包含与SEQ ID NO:145中的纸质大纹饰孢葡糖淀粉酶CBM具有至少75％同源性的CBM和与选自下组的CBM具有至少75％同源性的催化结构域：SEQ ID NO:16中的枝顶孢霉属的菌种的α-淀粉酶CBM、SEQ ID NO:20中的微小根毛霉α-淀粉酶CBM和SEQ ID NO:24中的巨多孔菌α-淀粉酶CBM。在更优选的实施方案中，所述多肽包含SEQ ID NO:145中的纸质大纹饰孢葡糖淀粉酶CBM和选自下组的CBM：SEQ ID NO:16中的枝顶孢霉属的菌种的α-淀粉酶CBM、SEQ ID NO:20中的微小根毛霉α-淀粉酶CBM和SEQ IDNO:24中的巨多孔菌α-淀粉酶CBM。

在优选实施方案中，所述多肽包含与微小根毛霉α-淀粉酶催化结构域(SEQ IDNO:20)具有至少75％同源性的催化结构域和与选自下组的CBM具有至少75％同源性的CBM：SEQ ID NO:94中的白曲霉葡糖淀粉酶CBM和SEQ ID NO:96中的黑曲霉葡糖淀粉酶CBM。在更优选的实施方案中，所述多肽包含微小根毛霉α-淀粉酶催化结构域(SEQ ID NO:20)和选自下组的CBM：SEQ ID NO:94中的白曲霉葡糖淀粉酶CBM和SEQ ID NO:96中的黑曲霉葡糖淀粉酶CBM。

在优选实施方案中，所述多肽包含与巨多孔菌α-淀粉酶催化结构域(SEQ ID NO:24)具有至少75％同源性的催化结构域和与选自下组的CBM具有至少75％同源性的CBM：SEQID NO:145中的纸质大纹饰孢葡糖淀粉酶CBM、SEQ ID NO:84中的Valsaria rubricosaα-淀粉酶CBM和SEQ ID NO:109中的玉米CBM。在更优选的实施方案中，所述多肽包含巨多孔菌α-淀粉酶催化结构域(SEQ ID NO:24)和选自下组的CBM：SEQ ID NO:145中的纸质大纹饰孢葡糖淀粉酶、SEQ ID NO:84中的Valsaria rubricosaα-淀粉酶CBM和SEQ ID NO:109中的玉米CBM。

在优选实施方案中，所述多肽包含与微小根毛霉α-淀粉酶催化结构域(SEQ IDNO:20)具有至少75％同源性的催化结构域和与选自下组的CBM具有至少75％同源性的CBM：SEQ ID NO:92中的罗耳阿太菌葡糖淀粉酶CBM和SEQ ID NO:109中的玉米CBM、SEQ ID NO:113中的锥毛壳菌属的菌种的α-淀粉酶CBM、SEQ ID NO:119中的皱褶栓菌α-淀粉酶CBM、SEQID NO:123中的Valsaria spartiiα-淀粉酶CBM、SEQ ID NO:121中的青霉属的菌种的α-淀粉酶CBM和SEQ ID NO:88中的巨多孔菌α-淀粉酶CBM。在更优选的实施方案中，所述多肽包含微小根毛霉α-淀粉酶催化结构域(SEQ ID NO:20)和选自下组的CBM：SEQ ID NO:92中的罗耳阿太菌葡糖淀粉酶CBM和SEQ ID NO:109中的玉米CBM、SEQ ID NO:113中的锥毛壳菌属的菌种的α-淀粉酶CBM、SEQ ID NO:119中的皱褶栓菌α-淀粉酶CBM、SEQ ID NO:123中的Valsaria spartiiα-淀粉酶CBM、SEQ ID NO:121中的青霉属的菌种的α-淀粉酶CBM和SEQID NO:88中的巨多孔菌α-淀粉酶CBM。

在特别优选的实施方案中所述多肽选自下组：V001、V002、V003、V004、V005、V006、V007、V008、V009、V010、V011、V012、V013、V014、V015、V016、V017、V018、V019、V021、V022、V023、V024、V025、V026、V027、V028、V029、V030、V031、V032、V033、V034、V035、V036、V037、V038、V039、V040、V041、V042、V043、V047、V048、V049、V050、V051、V052、V054、V055、V057、V059、V060、V061、V063、V064、V065、V066、V067、V068和V069。

表达载体

本发明还涉及重组表达载体，其可以包含编码多肽的DNA序列、启动子、信号肽序列和转录与翻译停止信号。可以将上述各种DNA和控制序列连接在一起以制备重组表达载体，其可以包括一个或多个方便的限制性位点以允许编码所述多肽的DNA序列在这些位点的***或替换。或者，可以通过将包含所述序列的DNA序列或DNA构建体***到合适的载体中用于表达。在构建表达载体过程中，所述编码序列位于载体中，以便将所述编码序列可操作地与合适的控制序列连接在一起，用于表达和可能的分泌。

所述重组表达载体可以是任何载体(例如，质粒或病毒)，能够方便地将其用于重组DNA过程并能够引起所述DNA序列的表达。载体的选择典型地依赖于所述载体与该载体所要导入的宿主细胞的兼容性。所述载体可以是线性的或者是封闭环形的质粒。所述载体可以是自主复制载体，即，作为染色体外实体存在的载体，其复制独立于染色体复制，例如，质粒、染色体外组件、微型染色体、粘粒(cosmid)或人工染色体。所述载体可以包含用于确保自我复制的任何方式。或者，所述载体可以是当导入到宿主细胞中时，整合到基因组中并与其整合进入的一个或多个染色体一起复制的载体。所述载体***可以是包含所要导入到宿主细胞的基因组中的全部DNA的单个载体或质粒或两个或多个载体或质粒，或转座子。

标记

本发明的载体优选包含一种或多种可选择标记，其允许容易地选择转化的细胞。可选择的标记是基因，其产物提供抗菌剂或病毒抗性、重金属抗性、原养型至营养缺陷型，等等。

用于丝状真菌宿主细胞的可选择标记的例子可以选自包括但不限于：amdS(乙酰胺酶)、argB(鸟氨酸氨甲酰基转移酶)、bar(草铵膦乙酰基转移酶)、hygB(潮霉素磷酸转移酶)、niaD(硝酸还原酶)、pyrG(乳清苷-5’-磷酸脱羧酶)、sC(硫酸腺苷酰转移酶(sulfateadenyltransferase))、trpC(邻氨基苯甲酸合酶)、和草丁膦抗性标记、以及来自其它物种的等价物的组。优选用于曲霉细胞的是构巢曲霉或米曲霉的amdS和pyrG标记以及吸水链霉菌(Streptomyces hygroscopicus)的bar标记。此外，可以通过共转化完成选择，例如WO91/17243中所述，其中所述可选择标记在独立的载体上。

本发明的载体优选包含允许所述载体稳定整合到宿主细胞基因组中或者允许所述载体在细胞中独立于细胞基因组而自主复制的一个或多个元件。

当引入到宿主细胞中时本发明的载体可以整合到宿主细胞基因组中。为了整合，所述载体可能依赖编码感兴趣多肽的DNA序列或用于使载体通过同源或非同源重组稳定整合到基因组中的任何其它载体元件。或者，所述载体可以包含额外的DNA序列，所述额外的DNA序列用于通过同源重组定向整合到宿主细胞的基因组中。所述额外的DNA序列使所述载体能够在一个或多个染色体中的一个或多个精确位置整合到宿主细胞基因组中。为了增加整合于精确位置的可能性，所述整合组件应当优选包含足够数目的DNA，如100至1,500 个碱基对，优选400至1,500个碱基对，最优选800至1,500个碱基对，其与相应的靶序列高度同源，以增加同源重组的概率。所述整合元件可以是任何与宿主细胞基因组中的靶序列同源的序列。另外，所述整合组件可以是非编码或编码DNA序列。另一方面，所述载体可以通过非同源重组整合到宿主细胞的基因组中。这些DNA序列可以是任何与宿主细胞基因组中的靶序列同源的序列，另外，这些DNA序列可以是非编码或编码序列。

为了自主复制，所述载体可以进一步包含复制原点，所述复制原点使所述载体能够在所讨论的宿主细胞中自主复制。

可以使用WO 00/24883中公开的AMA1质粒载体的附加型复制。

可以将超过一个拷贝的编码感兴趣多肽的DNA序列***到宿主细胞中以增加DNA序列的表达。可以通过使用本领域熟知的方法将序列的至少一个额外拷贝整合到宿主细胞基因组中并选择转化体而获得DNA序列的稳定扩增。

用于连接上述元件以构建本发明的重组表达载体的方法对本领域熟练技术人员来说是熟知的(参见，例如，Sambrook et al,1989,Molecular Cloning,A LaboratoryManual,2^nd edition,Cold Spring Harbor,New York)。

宿主细胞

本发明的宿主细胞(其包含DNA构建体或包含含有编码所述多肽的DNA序列的表达载体)在多肽(例如，杂合酶、野生型酶或遗传修饰的野生型酶)的重组生产中有利地用作宿主细胞。可以用表达载体转化所述细胞。或者，可以方便地通过将DNA构建体(以一个或多个拷贝)整合在宿主染色体中，用编码所述多肽(例如，杂合酶、野生型酶或遗传修饰的野生型酶)的本发明的DNA构建体转化所述细胞。DNA构建体向宿主染色体中的整合可以依照传统方法，例如，通过同源或异源重组进行。

所述宿主细胞可以是任何合适的原核或真核细胞，例如，细菌细胞、丝状真菌细胞、酵母、植物细胞或哺乳动物细胞。

在优选实施方案中，所述宿主细胞是由以下子囊菌(Ascomycota)类代表的丝状真菌，包括例如，脉孢菌(Neurospora)、正青霉(Eupenicillium)(＝青霉)、裸胞壳(Emericella)(＝曲霉)、散囊菌(Eurotium)(＝曲霉)。

在更优选的实施方案中，所述丝状真菌包括真菌亚门(Eumycota)和卵菌亚门(Oomycota)的所有丝状真菌(如Hawksworth et al.In,Ainsworth and Bisby’sDictionary of The Fungi,8^th edition,1995,CAB International,University Press,Cambridge,UK所定义的)。所述丝状真菌以由几丁质、纤维素、葡聚糖、脱乙酰壳多糖、甘露聚糖、和其它复合多糖组成的营养菌丝体为特征。通过菌丝延伸进行营养生长并且碳分解代谢是严格需氧的。

在更加优选的实施方案中，所述丝状真菌宿主细胞是包括但不限于选自下组的细胞的物种的细胞：曲霉属物种，优选米曲霉、黑曲霉、泡盛曲霉、白曲霉的菌株，或芽孢杆菌属菌株、或镰刀霉属菌株，如尖孢镰刀菌(Fusarium oxysporium)、禾谷镰刀菌(Fusariumgraminearum)(更确切地表述为玉蜀黍赤霉(Gribberella zeae)，之前称为Sphaeriazeae，与粉红赤霉(Gibberella roseum)和粉红赤霉禾谷变种(Gibberella roseumf.sp.cerealis)同义)、或硫色镰刀菌(Fusarium sulphureum)(更确切地称为Gibberellapuricaris，与Fusarium trichothecioides、Fusarium bactridioides、Fusariumsambucium、粉红镰孢(Fusarium roseum)、和粉红镰孢禾谷变种(Fusarium roseumvar.graminearum)同义)、禾谷镰刀霉(Fusarium cerealis)(与Fusarium crookwellense同义)、或Fusarium venenatum的菌株。

在最优选的实施方案中，所述丝状真菌宿主细胞是曲霉属物种，优选米曲霉或黑曲霉的菌株的细胞。

所述丝状真菌宿主细胞可以是野生型丝状真菌宿主细胞或变异的、突变的或遗传修饰的丝状真菌宿主细胞。在本发明的优选实施方案中所述宿主细胞是蛋白酶缺陷的或蛋白酶负性菌株。还特别考虑曲霉属菌株，如黑曲霉菌株，其经遗传修饰破坏或减小了葡糖淀粉酶、酸稳定的α-淀粉酶、α-1,6转葡糖苷酶、和蛋白酶活性的表达。

丝状真菌宿主细胞的转化

丝状真菌宿主细胞可以通过涉及本领域已知方式的原生质体形成、原生质体转化、和细胞壁再生的方法来转化。EP 238 023、EP 184 438、和Yelton et al.1984,Proceedings of the National Academy of Sciences USA 81:1470-1474中描述了转化曲霉属宿主细胞的合适的方法。Malardier et al.1989,Gene 78:147-156或U.S.专利6,060,305描述了转化镰刀霉物种的合适的方法。

分离和克隆编码亲本α-淀粉酶的DNA序列

用于分离或克隆编码感兴趣多肽的DNA序列的技术是本领域已知的，包括从基因组DNA分离、从cDNA制备、或其组合。从这样的基因组DNA 克隆本发明的DNA序列可能例如，利用熟知的聚合酶链式反应(PCR)或表达文库的抗体筛选以检测具有共同结构特征的克隆的DNA片段来进行。参见，例如，Innis et al.,1990,PCR:A Guide to Methods andApplication,Academic Press,New York。可以使用其它的DNA扩增方法如连接酶链式反应(LCR)、连接激活的转录(LAT)和基于DNA序列的扩增(NASBA)。

可以利用本领域熟知的多种方法从生产所述α-淀粉酶的任何细胞或微生物分离编码亲本α-淀粉酶的DNA序列。首先，应当利用来自生产所要研究的α-淀粉酶的生物的染色体DNA或信使RNA构建基因组DNA和/或cDNA文库。然后，如果所述α-淀粉酶的氨基酸序列是已知的，那么可以合成标记的寡核苷酸探针并用于从基因组文库鉴定编码α-淀粉酶的克隆，所述基因组文库从所讨论的生物制备。或者，采用极低至极高严紧性的杂交和洗涤条件，可以将包含与另一个已知的α-淀粉酶基因同源的序列的标记寡核苷酸探针用作探针，以鉴定编码α-淀粉酶的克隆。

鉴定编码α-淀粉酶的克隆的另一种方法将涉及将基因组DNA的片段***到表达载体如质粒中，用所得基因组DNA文库转化α-淀粉酶阴性细菌，然后用转化的细菌在含有α-淀粉酶的底物(即，麦芽糖)的琼脂上划平板，从而允许鉴定表达α-淀粉酶的克隆。

或者，可以用已确立的标准方法通过合成制备编码所述多肽的DNA序列，例如，S.L.Beaucage和M.H.Caruthers,(1981),Tetrahedron Letters 22,p.1859-1869所述的phosphoroamidite法，或者Matthes et al.(1984),EMBO J.3,p.801-805描述的方法。在phosphoroamidite法中，例如在自动DNA合成仪中合成寡核苷酸，纯化，退火，连接，并克隆入合适的载体。

最后，所述DNA序列可以是基因组和合成混合来源、合成和cDNA混合来源或者基因组和cDNA混合来源，按照标准技术通过连接合成的、基因组或cDNA来源的片段(合适的话，对应于整个DNA序列的不同部分的片段)而制备。所述DNA序列也可以用特异性引物通过聚合酶链式反应(PCR)制备，例如美国专利4,683,202或R.K.Saiki et al.(1988),Science239,1988,pp.487-491中所述。

分离的DNA序列

本发明特别涉及包含编码多肽(例如杂合酶、野生型酶或遗传修饰的野生型酶)的DNA序列的分离的DNA序列，所述多肽包含具有α-淀粉酶活性的催化模块的氨基酸序列和碳水化合物结合模块的氨基酸序列，其中所述催化模块是真菌起源的。

本文所用术语“分离的DNA序列”涉及基本上不含其它DNA序列的DNA序列，例如，通过琼脂糖电泳测定时至少约20％纯的，优选至少约40％纯的，更优选至少约60％纯的，更加优选至少约80％纯的，最优选至少约90％纯的。

例如，分离的DNA序列可以通过用于遗传工程的标准克隆方法获得，所述方法将DNA序列从其天然位置重定位到它将要在那里复制的不同位点。所述克隆方法可能涉及切除和分离所需的包含编码感兴趣多肽的DNA序列的DNA片段、将所述片段***到载体分子中、将所述重组载体掺入到所述DNA序列的多拷贝或克隆将在其中复制的宿主细胞中。可以通过多种方法操作分离的DNA序列以提供感兴趣多肽的表达。取决于所述表达载体，在其***到载体中之前，对所述DNA序列的操作可能是需要或必需的。利用重组DNA方法修饰DNA序列的技术是本领域熟知的。

DNA构建体

本发明特别涉及包含编码多肽的DNA序列的DNA构建体，所述多肽为例如杂合酶或野生型酶，其中所述杂合酶包含含有催化模块的第一个氨基酸序列和含有碳水化合物结合模块的第二个氨基酸序列，所述催化模块具有α-淀粉酶活性，或者其中所述野生型酶包含含有催化模块的第一个氨基酸序列和含有碳水化合物结合模块的第二个氨基酸序列，所述催化模块具有α-淀粉酶活性。本文中“DNA构建体”定义为单链或双链DNA分子，其由天然发生的基因分离，或者经修饰而包含了DNA片段，所述DNA片段以自然界中不存在的方式组合和并列放置。当DNA构建体包含本发明的编码序列表达所需的所有控制序列时，术语DNA构建体与术语表达盒是同义的。

定点诱变

一旦分离了编码亲本α-淀粉酶的DNA序列，且确定了所需的突变位点，可以利用合成的寡核苷酸引入突变。这些寡核苷酸包含位于所需突变位点侧翼的核苷酸序列。在特定方法中，在携带α-淀粉酶基因的载体中构建作为α-淀粉酶编码序列的DNA的单链缺口。然后将携带所需突变的合成核苷酸与单链DNA的同源部分退火。然后用DNA聚合酶I(Klenow片段)填充剩余的缺口，利用T4连接酶连接所述构建体。该方法的特定实施例描述于Morinagaet al.(1984),Biotechnology 2,p.646-639。美国专利4,760,025公开了通过表达盒的微小改变来引入编码多个突变的寡核苷酸。然而，可以通过Morinaga法在任何一个时间引入更多种类的突变，因为可以引入不同长度的许多寡核苷酸。

另一种将突变引入到编码α-淀粉酶的DNA序列中的方法描述于Nelson and Long,(1989),Analytical Biochemistry 180,p.147-151。其涉及包含所需突变的PCR片段的3步生产，其中将化学合成的DNA链用作PCR反应中的其中一个引物来引入所需的突变。可以通过用限制性内切酶裂解并将其重新***到表达质粒中而从PCR生产的片段分离携带所述突变的DNA片段。

定域随机诱变

随机诱变可以有利地局限于所讨论的亲本α-淀粉酶的一部分。例如，当已经鉴定出酶的特定区域对于酶的指定特性来说特别重要、并且预期被修饰时会产生具有改善特性的变异时，这可能是有利的。正常情况下，当已经阐明了亲本酶的三级结构并且其与酶的功能相关时，可以鉴定这些区域。

使用如上所述的PCR引致的诱变技术或任何本领域已知的其它合适的技术方便地实施定域或区域特异性随机诱变。或者，可以分离编码所要修饰的DNA序列的一部分的DNA序列，例如通过***到合适的载体中，随后可以使用以上讨论的任何诱变方法对所述部分进行诱变。

杂合体或野生型酶的变体

含有碳水化合物结合模块(“CBM”)和α-淀粉酶催化模块的野生型或杂合酶在淀粉降解方法中的性能可以通过蛋白质工程改善，如通过定点诱变(site-directedmutagenesis)、通过定域随机诱变(localized random mutagenesis)、通过以合成方法制备亲本野生型酶或亲本杂合酶的新的变体、或者通过任何其它合适的蛋白质工程技术。

可以利用传统的蛋白质工程技术生产所述变体。

多肽在宿主细胞中的表达

可以将要引入到宿主细胞DNA中的核苷酸序列整合在核酸构建体中，所述核酸构建体包含可操作地连接到一个或多个控制序列的核苷酸序列，所述控制序列引导编码序列在与控制序列相容的条件下在合适的宿主细胞中表达。

可以通过多种方法操作编码多肽的核苷酸序列以便多肽表达。取决于所述表达载体，在所述核苷酸序列被***到载体中之前，对其操作可能是需要或必需的。利用重组DNA方法修饰核苷酸序列的技术是本领域熟知的。

所述控制序列可以是合适的启动子序列，启动子序列是被宿主细胞识别以表达核苷酸序列的核苷酸序列。所述启动子序列包含转录控制序列，其介导多肽的表达。所述启动子可以是在所选择的宿主细胞中显示转录活性的任何核苷酸序列，包括突变的、截短的、和杂合的启动子，可以由编码与宿主细胞同源或不同源的胞外或胞内多肽的基因获得。

引导本发明的核酸构建体转录，尤其是在细菌宿主细胞中转录的合适的启动子的例子是从大肠杆菌乳糖操纵子、天蓝色链霉菌(Streptomyces coelicolor)琼脂糖酶基因(dagA)、枯草芽孢杆菌果聚糖蔗糖酶(levansucrase)基因(sacB)、地衣芽孢杆菌(Bacilluslicheniformis)α-淀粉酶基因(amyL)、嗜热脂肪芽孢杆菌(Bacillusstearothermophilus)产麦芽糖淀粉酶(maltogenic amylase)基因(amyM)、解淀粉芽孢杆菌(Bacillus amyloliquefaciens)α-淀粉酶基因(amyQ)、地衣芽孢杆菌青霉素酶基因(penP)、枯草芽孢杆菌xylA和xylB基因、和原核生物β-内酰胺酶基因获得的启动子(Villa-Kamaroff et al.,1978,Proceedings of the National Academy of Sciences USA75:3727-3731)，以及tac启动子(DeBoer et al.,1983,Proceedings of the NationalAcademy of Sciences USA80:21-25)。更多启动子描述于Scientific American,1980,242:74-94中的"Useful proteins from recombinant bacteria"；和Sambrook et al.,1989,同上中。

用于引导本发明的核酸构建体在丝状真菌宿主细胞中转录的合适的启动子的例子是由米曲霉TAKA淀粉酶、米黑根毛霉(Rhizomucor miehei)天冬氨酸蛋白酶、黑曲霉中性α-淀粉酶、黑曲霉酸稳定的α-淀粉酶、黑曲霉或泡盛曲霉葡糖淀粉酶(glaA)、米黑根毛霉脂肪酶、米曲霉碱性蛋白酶、米曲霉磷酸丙糖异构酶、构巢曲霉乙酰胺酶、和尖孢镰刀菌胰蛋白酶样蛋白酶(WO 96/00787)的基因获得的启动子，以及NA2-tpi启动子(来自黑曲霉中性α-淀粉酶和米曲霉磷酸丙糖异构酶的基因的启动子的杂合体)、及其突变的、截短的、和杂合的启动子。

在酵母宿主中，有用的启动子由酿酒酵母(Saccharomyces cerevisiae)烯醇化酶(ENO-1)、酿酒酵母半乳糖激酶(GAL1)、酿酒酵母乙醇脱氢酶/甘油醛-3-磷酸脱氢酶(ADH2/GAP)、和酿酒酵母3-磷酸甘油酸激酶的基因获得。Romanos et al.,1992,Yeast 8:423-488描述了其它可用于酵母宿主细胞的启动子。

所述控制序列也可以是合适的转录终止子序列，所述转录终止子序列由宿主细胞所识别以终止转录。所述终止子序列可操作地连接到编码多肽的核苷酸序列的3’末端。任何在所选择的宿主细胞中有功能的终止子都可以用于本发明。

用于丝状真菌宿主细胞的优选的终止子自米曲霉TAKA淀粉酶、黑曲霉葡糖淀粉酶、构巢曲霉邻氨基苯甲酸合酶、黑曲霉α-葡萄糖苷酶、和尖孢镰刀菌胰蛋白酶样蛋白酶的基因获得。

用于酵母宿主细胞的优选的终止子自酿酒酵母烯醇化酶、酿酒酵母细胞色素C(CYC1)、和酿酒酵母甘油醛-3-磷酸脱氢酶的基因获得。Romanos et al.,1992,同上描述了用于酵母宿主细胞的其它有用的终止子。

所述控制序列也可以是合适的前导序列，所述前导序列是对于由宿主细胞进行的翻译来说是重要的mRNA的非翻译区域。所述前导序列可操作地连接到编码多肽的核苷酸序列的5’末端。任何在所选择的宿主细胞中有功能的终止子都可以用于本发明。

用于丝状真菌宿主细胞的优选的前导序列由米曲霉TAKA淀粉酶和构巢曲霉磷酸丙糖异构酶的基因获得。

用于酵母宿主细胞的合适的前导序列由酿酒酵母烯醇化酶(ENO-1)、酿酒酵母3-磷酸甘油酸激酶、酿酒酵母α-因子、和酿酒酵母乙醇脱氢酶/甘油醛-3-磷酸脱氢酶(ADH2/GAP)的基因获得。

所述控制序列还可以是多聚腺苷酸化序列，多聚腺苷酸化序列可操作地连接到核苷酸序列的3’末端，当转录时，其由宿主细胞所识别，作为向转录的mRNA添加多聚腺苷残基的信号。任何在所选择的宿主细胞中有功能的多聚腺苷酸化序列都可以用于本发明。

用于丝状真菌宿主细胞的优选的多聚腺苷酸化序列由米曲霉TAKA淀粉酶、黑曲霉葡糖淀粉酶、构巢曲霉邻氨基苯甲酸合酶、尖孢镰刀菌胰蛋白酶样蛋白酶、和黑曲霉α-葡萄糖苷酶的基因获得。

Guo and Sherman,1995,Molecular Cellular Biology 15:5983-5990描述了可用于酵母宿主细胞的多聚腺苷酸化序列。

所述控制序列也可以是编码连接到多肽氨基末端的氨基酸序列和将所编码的多肽引导到细胞的分泌途径中的信号肽编码区。核苷酸序列的编码序列的5’末端本身可以包含信号肽编码区，其在翻译阅读框中与编码分泌多肽的编码区片段天然相连。或者，编码序列的5’端可以包含对编码序列来说为外源的信号肽编码区。所述编码序列天然地不包含信号肽编码区时，可能需要外源信号肽编码区。或者，外源信号肽编码区可以简单地替换天然的信号肽编码区以增强多肽的分泌。然而，任何将所表达的多肽引导到所选宿主细胞的分泌途径的信号肽编码区都可以用于本发明。

对细菌宿主细胞有效的信号肽编码区是由芽孢杆菌NCIB 11837产麦芽糖淀粉酶、嗜热脂肪芽孢杆菌α-淀粉酶、地衣芽孢杆菌枯草蛋白酶、地衣芽孢杆菌β-内酰胺酶、嗜热脂肪芽孢杆菌中性蛋白酶(nprT、nprS、nprM)、和枯草芽孢杆菌prsA的基因获得的信号肽编码区。Simonen and Palva,1993,Microbiological Reviews 57:109-137描述了更多的信号肽。

对丝状真菌宿主细胞有效的信号肽编码区是由米曲霉TAKA淀粉酶、黑曲霉中性淀粉酶、黑曲霉葡糖淀粉酶、米黑根毛霉天冬氨酸蛋白酶、特异腐殖霉(Humicola insolens)纤维素酶、和柔毛腐质霉(Humicola lanuginose)脂肪酶的基因获得的信号肽编码区。

对酵母宿主细胞有用的信号肽由酿酒酵母α-因子和酿酒酵母转化酶基因获得。Romanos等,1992,同上描述了其它有用的信号肽编码区。

所述控制序列还可以是编码位于多肽氨基末端的氨基酸序列的前肽编码区。所得多肽被称为酶原(proenzyme)或前多肽(propolypeptide)(在一些场合称为酶原(zymogen))。前多肽通常是无活性的，能够通过来自前多肽的前肽的催化或自体催化裂解转变为成熟活性多肽。前肽编码区可以由枯草芽孢杆菌碱性蛋白酶(aprE)、枯草芽孢杆菌中性蛋白酶(nprT)、酿酒酵母α-因子、米黑根毛霉天冬氨酸蛋白酶、和嗜热毁丝霉(Myceliophthora thermophila)漆酶(WO 95/33836)的基因获得。

信号肽和前肽区域都存在于多肽的氨基末端时，前肽区域位于紧挨多肽的氨基末端的位置，信号肽区域位于紧挨前肽区域的氨基末端的位置。

添加相对于宿主细胞的生长允许调节多肽表达的调节序列也可能是需要的。调节***的例子是导致基因的表达响应化学或物理刺激物包括调节化合物的存在而打开或关闭的那些。原核***中的调节***包括lac、tac、和trp操纵子***。在酵母中，可以使用ADH2***或GAL1***。在丝状真菌中，TAKAα-淀粉酶启动子、黑曲霉葡糖淀粉酶启动子、和米曲霉葡糖淀粉酶启动子可以用作调节序列。其它调节序列的例子是允许基因扩增的那些。在真核***中，这些包括在甲氨蝶呤存在下扩增的二氢叶酸还原酶基因、和伴随重金属而扩增的金属硫蛋白基因。在这些例子中，编码多肽的核苷酸序列与调节序列可操作相连。

可以将上述多种核苷酸和控制序列连接在一起以制备重组表达载体，其可以包括一个或多个方便的限制性位点以允许编码所述多肽的核苷酸序列在这些位点的***或取代。或者，可以通过将包含所述序列的核苷酸序列或核酸构建体***用于表达的合适载体中来表达本发明的核苷酸序列。在构建表达载体过程中，将所述编码序列置于载体中，以便将所述编码序列可操作地与合适的控制序列连接在一起用于表达。

所述重组表达载体可以是任何载体(例如，质粒或病毒)，能够方便地将其用于重组DNA过程并能够引起所述核苷酸序列的表达。载体的选择典型地依赖于所述载体与该载体所要导入的宿主细胞的兼容性。所述载体可以是线性的或者是封闭环形的质粒。

所述载体可以是自主复制载体，即，作为染色体外实体存在的载体，其复制独立于染色体复制，例如，质粒、染色体外元件、微型染色体、或人工染色体。

所述载体可以包含用于确保自我复制的任何方式。或者，所述载体可以是当导入到宿主细胞中时，整合到基因组中并与其整合进入的一个或多个染色体一起复制的载体。另外，可以使用包含要导入宿主细胞基因组中的全部DNA的单个载体或者质粒或者两个或多个载体或质粒，或转座子。

本发明的载体优选包含一种或多种可选择标记，其允许很容易地选择转化的细胞。可选择的标记是基因，其产物提供抗菌剂或病毒抗性、重金属抗性、原养型至营养缺陷型，等等。

用于酵母宿主细胞的合适标记是ADE2、HIS3、LEU2、LYS2、MET3、TRP1、和URA3。用于丝状真菌宿主细胞的可选择标记包括但不限于amdS(乙酰胺酶)、argB(鸟氨酸氨甲酰基转移酶)、bar(草铵膦乙酰基转移酶)、hygB(潮霉素磷酸转移酶)、niaD(硝酸还原酶)、pyrG(乳清苷-5’-磷酸脱羧酶)、sC(硫酸腺苷酰转移酶)、trpC(邻氨基苯甲酸合酶)、及其等价物。

优选用于曲霉细胞的是构巢曲霉或米曲霉的amdS和pyrG基因以及吸水链霉菌的bar基因。

本发明的载体优选包含允许所述载体稳定整合到宿主细胞基因组中或者允许所述载体在细胞中独立于基因组而自主复制的一个或多个元件。

为了整合到宿主细胞基因组中，所述载体可能依赖编码多肽的核苷酸序列或用于载体通过同源或非同源重组稳定整合到基因组中的任何其它载体元件。或者，所述载体可以包含额外的核苷酸序列，所述额外的核苷酸序列用于指导通过同源重组向宿主细胞基因组中的定向整合。所述额外的核苷酸序列使所述载体能够整合到宿主细胞基因组中一个或多个染色体中的一个或多个精确位置。为了增加整合于精确位置的可能性，所述整合元件应当优选包含足够数目的核苷酸，如100至1,500个碱基对，优选400至1,500个碱基对，最优选800至1,500个碱基对，其与相应的靶序列高度同源，以增加同源重组的概率。所述整合元件可以是任何与宿主细胞基因组中的靶序列同源的序列。另外，所述整合元件可以是非编码或编码核苷酸序列。另一方面，所述载体可以通过非同源重组整合到宿主细胞的基因组中。

为了自主复制，所述载体可以进一步包含复制原点，所述复制原点使所述载体能够在所讨论的宿主细胞中自主复制。细菌复制原点的的例子是允许在大肠杆菌中复制的质粒pBR322、pUC19、pACYC177、和pACYC184的复制原点，允许在芽孢杆菌中复制的pUB110、pE194、pTA1060、和pAMβ1的复制原点。用于酵母宿主细胞的复制原点的例子是2微米(2micron)复制原点、ARS1、ARS4、ARS1和CEN3的组合、以及ARS4和CEN6的组合。复制原点可以是具有突变的复制原点，所述突变使其在宿主细胞中起温度敏感性作用(参见，例如，Ehrlich,1978,Proceedings of the National Academy of Sciences USA 75:1433)。

可以将超过一个拷贝的本发明的核苷酸序列***到宿主细胞中以增加基因产物的生产。可以通过将序列的至少一个额外拷贝整合到宿主细胞基因组中，或者通过将可扩增的可选择标志基因与核苷酸序列包括在一起，而获得核苷酸序列拷贝数的增加；其中通过在合适的可选择试剂存在下培养细胞，而选择包含可选择标志基因的扩增了的拷贝、并因而包含核苷酸序列的额外拷贝的细胞。

用于连接上述元件以构建本发明的重组表达载体的方法是本领域熟练技术人员熟知的(参见，例如，Sambrook et al.,1989,同上)。

宿主细胞：本发明还涉及重组发酵真菌，或者包含本发明的核酸构建体的宿主细胞，其有利地用于多肽的就地(on site)重组生产。包含本发明的核苷酸序列的载体被引入到宿主细胞中以便所述载体作为染色体组成部分或者作为之前描述的自我复制性染色体外载体存在。

所述宿主细胞是真菌细胞。本文所用“真菌”包括子囊菌门(Ascomycota)、担子菌门(Basidiomycota)、壶菌门(Chytridiomycota)、和接合菌门(Zygomycota)(如Hawksworthet al.,在Ainsworth and Bisby’s Dictionary of The Fungi,第8版,1995,CABInternational,University Press,Cambridge,UK中定义的)以及卵菌亚门(Oomycota)(如Hawksworth et al.,1995,同上,171页所引用的)和所有有丝***孢子真菌(Hawksworthet al.,1995,同上)。

在更优选的实施方案中，所述真菌宿主细胞是丝状真菌细胞。“丝状真菌”包括真菌和卵菌亚门的所有丝状形式(如Hawksworth et al.,1995,同上定义的)。所述丝状真菌以由几丁质、纤维素、葡聚糖、脱乙酰壳多糖、甘露聚糖、和其它复合多糖组成的菌丝体壁为特征。通过菌丝延伸进行营养生长并且碳分解代谢是严格需氧的。

在优选实施方案中，丝状真菌宿主细胞是嗜热或者耐热真菌的细胞，例如子囊菌亚门(Ascomycotina)、担子菌亚门(Basidiomycotina)、接合菌门或壶菌门中的物种，特别是由毛壳属(Chaetomium)、Thermoascus、Malbranchea、或梭孢壳霉属(Thielavia)(如太瑞斯梭孢壳霉(Thielavia terrestris))、或盘菌属(Trichophaea)组成的组中的物种。更加优选所述宿主细胞是Trichophaea saccata或腐殖霉如特异腐质霉菌株。

真菌细胞可以通过涉及以本身已知的方式形成原生质体、转化原生质体、和再生细胞壁的方法来转化。用于转化曲霉属宿主细胞的合适的方法描述于EP 238 023和Yeltonet al.,1984,Proceedings of the National Academy of Sciences USA 81:1470-1474。Malardier et al.,1989,Gene 78:147-156和WO 96/00787描述了用于转化镰刀霉物种的合适的方法。可以利用Becker and Guarente,In Abelson,J.N.and Simon,M.I.,editors,Guide to Yeast Genetics and Molecular Biology,Methods in Enzymology,Volume194,pp 182-187,Academic Press,Inc.,New York；Ito et al.,1983,Journal ofBacteriology 153:163；and Hinnen et al.,1978,Proceedings of the NationalAcademy of Sciences USA 75:1920所述的方法转化酵母。

酶在植物中的表达

可以如下所述在转基因植物中转化和表达编码感兴趣多肽如本发明的杂合酶或野生型酶的变体或杂合体的DNA序列。

所述转基因植物可以是双子叶的或单子叶的，简称双子叶植物或单子叶植物。单子叶植物的例子是草，如草地草(blue grass，早熟禾属(Poa))，饲料草，如羊矛(Festuca)，黑麦(Lolium)，温带草(temperate grass)，如剪股颖属(Agrostis)，和谷物，例如，小麦，燕麦，黑麦，大麦，稻，高粱和玉蜀黍(玉米)。

双子叶植物的例子为烟草，豆科植物(如羽扇豆)，马铃薯，甜菜，豌豆，黄豆(bean)和大豆(soybean)，和十字花科植物(十字花科(Brassicaceae))，如花椰菜，油菜和密切相关的模式生物拟南芥(Arabidopsis thaliana)。

植物部分的例子为茎、愈伤组织、叶、根、果实、种子、和块茎(tuber)以及包含这些部分的独立组织，例如，表皮、叶肉、间质组织(parenchyme)、维管组织、分生组织。在本上下文中，特定的植物细胞小室，如叶绿体、质外体、线粒体、液泡、过氧物酶体和细胞质也被认为是植物部分。另外，任何植物细胞，无论组织起源是什么，都被认为是植物部分。同样，植物部分，如被分离以便于本发明利用的特定组织和细胞也被认为是植物部分，例如，胚、胚乳、糊粉和种皮。

这些植物、植物部分和植物细胞的后代也包括在本发明的范围内。

可以按照本领域已知的方法构建表达感兴趣多肽的转基因植物或植物细胞。简单地说通过将编码感兴趣多肽的一个或多个表达构建体整合到植物宿主基因组中并将所得的经改造的植物或植物细胞繁殖为转基因植物或植物细胞构建植物或植物细胞。

便利地，所述表达构建体是DNA构建体，其包含编码感兴趣多肽的与合适的调节序列可操作关联的基因，所述调节序列是所述基因在所选植物或植物部分中表达所需的。此外，所述表达构建体可以包含用于鉴定表达构建体已经整合到其中的宿主细胞的可选择标记和将所述构建体导入到所讨论的植物中必需的DNA序列(后者取决于所要使用的DNA导入方法)。

例如根据所述的酶需要何时、何地以及如何表达来确定调控序列(如启动子和终止子序列以及任选信号或转运序列)的选择。例如，编码本发明的酶的基因的表达可以是组成型的或可诱导的，或者可以是发育、阶段或组织特异性的，并且可以将基因产物定向到特定细胞小室、组织或植物部分如种子或叶。如Tague et al,Plant Phys.,86,506,1988中描述了调控序列。

为了进行组成性表达，可以使用35S-CaMV、玉蜀黍泛素1和水稻肌动蛋白1启动子(Franck et al.1980.Cell 21:285-294,Christensen AH,Sharrock RA and Quail1992.Maize polyubiquitin genes:structure,thermal perturbation of expressionand transcript splicing,and promoter activity following transfer toprotoplasts by electroporation.Plant Mo.Biol.18,675-689.；Zhang W,McElroyD.and Wu R 1991,Analysis of rice Act1 5’region activity in transgenic riceplants.Plant Cell 3,1155-1165)。器官特异性启动子可以例如是来自存储库(storagesink)组织如种子、马铃薯块茎、和果实(Edwards&Coruzzi,1990.Annu.Rev.Genet.24:275-303)，或来自代谢库(metabolic sink)组织如分生组织(Ito et al.,1994,PlantMol.Biol.24:863-878)的启动子，种子特异性启动子如来自水稻谷蛋白、醇溶蛋白、球蛋白或白蛋白的启动子(Wu et al.,Plant and Cell Physiology Vol.39,No.8pp.885-889(1998))，Conrad U.et al,Journal of Plant Physiology Vol.152,No.6,pp.708-711(1998)描述的来自蚕豆(Vicia faba)的豆球蛋白B4和未知种子蛋白的蚕豆启动子，来自种子油体蛋白的启动子(Chen et al.,Plant and Cell Physiology,Vol.39,No.9,pp.935-941(1998)，来自甘蓝型油菜(Brassica napus)的贮藏蛋白napA启动子，或者本领域已知的任何其它种子特异性启动子，例如，WO 91/14772中所述的。此外，所述启动子可以是来自水稻或番茄的叶特异性启动子如rbcs启动子(Kyozuka et al.,Plant Physiology,Vol.102,No.3,pp.991-1000(1993)，小球藻病毒腺嘌呤甲基转移酶基因启动子(Mitra,A.andHiggins,DW,Plant Molecular Biology,Vol.26,No.1,pp.85-93(1994)，或来自水稻的aldP基因启动子(Kagaya et al.,Molecular and General Genetics,Vol.248,No.6,pp.668-674(1995)或创伤可诱导的启动子如马铃薯pin2启动子(Xu et al,PlantMolecular Biology,Vol.22,No.4,pp.573-588(1993)。同样，所述启动子可以是能够由非生物处理如温度、干旱或盐度变化诱导的，或者是通过外部施加的激活启动子的物质，例如，乙醇、***、植物激素样乙烯、脱落酸和赤霉酸以及重金属所诱导的。

启动子增强子元件可用于在植物中获得更高的酶表达。例如，所述启动子增强子组件可以是位于启动子和编码酶的核苷酸序列之间的内含子。例如，Xu et al.op cit公开了水稻肌动蛋白1基因的第一个内含子增强表达的用途。

可选择标记基因和表达构建体的任何其它部分可以从本领域现有的那些中选择。

将所述DNA构建体按照本领域已知的传统技术掺入到植物基因组中，包括农杆菌(Agrobacterium)介导的转化、病毒介导的转化、微注射、粒子轰击、基因枪法转化、和电穿孔(Gasser et al,Science,244,1293；Potrykus,Bio/Techn.8,535,1990；Shimamoto etal,Nature,338,274,1989)。

目前，根癌农杆菌(Agrobacterium tumefaciens)介导的基因转移是为了生产转基因双子叶植物而选择的方法(综述参见Hooykas&Schilperoort,1992,Plant Mol.Biol.,19:15-38)，也可以用于转化单子叶植物，虽然对于这些植物通常使用其它的转化方法。目前，对农杆菌手段加以补充的理想的生产转基因单子叶植物的方法是对胚愈伤组织或发育中的胚的粒子轰击(用转化DNA包被显微金或钨粒子)(Christou,1992,Plant J.,2:275-281；Shimamoto,1994,Curr.Opin.Biotechnol.,5:158-162；Vasil et al.,1992,Bio/Technology 10:667-674)。用于转化单子叶植物的替代方法以Omirulleh S,et al.,PlantMolecular Biology,Vol.21,No.3,pp.415-428(1993)所述的原生质体转化为基础。

转化后，选择已掺入了所述表达构建体的转化体并按照本领域熟知的方法繁殖为完整植物。通常将所述转化方法设计为用于在再生期间或者在之后的生产中利用例如用两个独立的T-DNA构建体进行共转化或通过特异性重组酶进行选择基因的位点特异性切除来选择性去除选择基因。

淀粉加工

第一个、第二个和/或第三个方面的多肽可以用于液化淀粉的方法中，其中在水介质中用所述杂合酶处理糊化或颗粒状淀粉底物。第一个、第二个和/或第三个方面的多肽也可以用于液化淀粉底物的糖化方法中。优选的用途是在发酵方法中，在该方法中淀粉底物在第一个、第二个和/或第三个方面的多肽的存在下液化和/或糖化以生产适于由发酵生物优选酵母转化为发酵产物的葡萄糖和/或麦芽糖。这些发酵方法包括生产燃料用乙醇或饮用乙醇(portable alcohol)的方法、生产饮料的方法、生产所需有机化合物的方法，如柠檬酸、衣康酸、乳酸、葡糖酸、葡糖酸钠、葡糖酸钙、葡糖酸钾、葡糖酸Δ内酯、或异抗坏血酸钠；酮类；氨基酸，如谷氨酸(谷氨酸单钠(sodium monoglutaminate))，还有难以用合成方法生产的更多复杂化合物如抗生素，如青霉素、四环素；酶；维生素，如核黄素、B12、β－胡萝卜素；激素。

所要加工的淀粉可以是高度精制的淀粉品质，优选至少90％、至少95％、至少97％或至少99.5％纯的，或者其可以是更粗的包含研磨的整谷粒的含淀粉材料，其包括非淀粉部分如胚芽残渣和纤维。原材料如完整谷粒被研磨以打开组织，从而能进一步加工。根据本发明两种研磨法是优选的：湿磨和干磨。也可以应用玉米渣，优选经研磨的玉米渣。

除了淀粉之外，干燥的经研磨谷粒还将包含大量的非淀粉碳水化合物。当通过喷射蒸煮(jet cooking)加工这种非均质材料时，通常只达到淀粉的部分糊化。由于本发明的多肽具有针对非糊化淀粉的高活性，因而有利地将所述多肽应用于包括对经过喷射蒸煮的干燥和经研磨淀粉进行液化和/或糖化的方法中。

此外，由于第一个方面的多肽优越的水解活性，糖化步骤期间对葡糖淀粉酶的需求大大减小。这允许在极低的葡糖淀粉酶活性水平下进行糖化，并且优选葡糖淀粉酶活性缺失或者如果存在的话，则以不超过或者甚至少于0.5AGU/g DS、更优选不超过或者甚至少于0.4AGU/g DS、更加优选不超过或者甚至少于0.3AGU/g DS、最优选少于0.1AGU/g DS、如不超过或者甚至少于0.05AGU/g DS淀粉底物的量存在。以mg酶蛋白表示的具有葡糖淀粉酶活性的酶或者缺失，或者以不超过或者甚至少于0.5mg EP/g DS、更优选不超过或者甚至少于0.4mg EP/g DS、更加优选不超过或者甚至少于0.3mg EP/g DS、最优选不超过或者甚至少于0.1mg EP/g DS，例如不超过或者甚至少于0.05mg EP/g DS或者不超过或者甚至少于0.02mg EP/g DS淀粉底物的量存在。所述葡糖淀粉酶可以优选来源于曲霉属的菌种、篮状菌属的菌种、厚孢孔菌属的菌种或栓菌属的菌种中的菌株，更优选源于黑曲霉、埃默森篮状菌(Talaromyces emersonii)、瓣环栓菌或纸质大纹饰孢(Pachykytospora papyracea)。

同样由于第一个方面的多肽优越的水解活性，液化和/或糖化步骤中对α-淀粉酶的需求大大减小。以mg酶蛋白表示的第一个方面的多肽可以不超过或者甚至少于0.5mgEP/g DS、更优选不超过或者甚至少于0.4mg EP/g DS、更加优选不超过或者甚至少于0.3mgEP/g DS、最优选不超过或者甚至少于0.1mg EP/g DS，例如不超过或者甚至少于0.05mgEP/g DS或者不超过或者甚至少于0.02mg EP/g DS淀粉底物的量配制。第一个方面的多肽可以以0.05至10.0AFAU/g DS、优选0.1至5.0AFAU/g DS、更优选0.25至2.5AFAU/g DS淀粉的量配制。所述方法可以包括：a)将淀粉底物与包含具有α-淀粉酶活性的催化模块和碳水化合物结合模块的多肽，例如，第一个方面的多肽接触；b)于足以将至少90％、或至少92％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、至少99.5％w/w的所述淀粉底物转化为可发酵糖的温度和时间内，将所述淀粉底物与所述多肽一起孵育；c)发酵生产发酵产物，d)任选回收发酵产物。在处理步骤b)和/或c)期间，具有葡糖淀粉酶活性的酶或者缺失，或者以0.001至2.0AGU/g DS、0.01至1.5AGU/g DS、0.05至1.0AGU/g DS、0.01至0.5AGU/g DS的量存在。优选具有葡糖淀粉酶活性的酶或者缺失，或者以不超过或者甚至小于0.5AGU/g DS、更优选不超过或者甚至小于0.4AGU/g DS、再优选不超过或者甚至小于0.3AGU/g DS、最优选不超过或者甚至小于0.1AGU，如不超过或者甚至小于0.05AGU/g DS淀粉底物的量存在。以mg酶蛋白表示的具有葡糖淀粉酶活性的酶或者缺失，或者以不超过或者甚至少于0.5mg EP/g DS、更优选不超过或者甚至少于0.4mg EP/g DS、更加优选不超过或者甚至少于0.3mg EP/g DS、最优选不超过或者甚至少于0.1mg EP/g DS，例如不超过或者甚至少于0.05mg EP/g DS或者不超过或者甚至少于0.02mg EP/g DS淀粉底物的量存在。在所述方法中步骤a、b、c、和/或d可以单独或同时进行。

另一方面所述方法可以包括：a)将淀粉底物与经转化以表达多肽的酵母细胞接触，所述多肽包含具有α-淀粉酶活性的催化模块和碳水化合物结合模块，例如，第一个和/或第二个方面的多肽；b)于足以将至少90％w/w的所述淀粉底物转化为可发酵糖的温度和时间内将所述淀粉底物与所述酵母一起孵育；c)发酵以生产乙醇；d)任选回收乙醇。步骤a、b、和c可以单独或者同时进行。

又一方面所述方法包括糊化或颗粒状淀粉浆的水解，特别是颗粒状淀粉在低于所述颗粒状淀粉的起始糊化温度的温度下水解为可溶性淀粉水解产物。除了与包含具有α-淀粉酶活性的催化模块和碳水化合物结合模块的多肽，例如，第一个方面的多肽接触之外，所述淀粉还可以与选自下组的酶接触：真菌α-淀粉酶(EC 3.2.1.1)、β－淀粉酶(E.C.3.2.1.2)、和葡糖淀粉酶(E.C.3.2.1.3)。在实施方案中可以进一步添加细菌α-淀粉酶或脱支酶，例如异淀粉酶(E.C.3.2.1.68)或支链淀粉酶(E.C.3.2.1.41)。在本发明的上下文中细菌α-淀粉酶是如WO 99/19467中第3页第18行至第6页第27行所定义的α-淀粉酶。

在实施方案中所述方法在低于起始糊化温度的温度下实施。优选实施所述方法时的温度为至少30℃、至少31℃、至少32℃、至少33℃、至少34℃、至少35℃、至少36℃、至少37℃、至少38℃、至少39℃、至少40℃、至少41℃、至少42℃、至少43℃、至少44℃、至少45℃、至少46℃、至少47℃、至少48℃、至少49℃、至少50℃、至少51℃、至少52℃、至少53℃、至少54℃、至少55℃、至少56℃、至少57℃、至少58℃、至少59℃、或优选至少60℃。实施所述方法时的pH可以在3.0至7.0、优选3.5至6.0、或更优选4.0-5.0范围内。在优选实施方案中，所述方法包括例如在约32℃，如30到35℃的温度用例如酵母发酵以生产乙醇。

在另一优选实施方案中，所述方法包括例如在30到35℃，例如在约32℃的温度同时糖化和发酵，例如用酵母以生产乙醇，或者用另一种合适的发酵生物以生产所需的有机化合物。

在上述发酵方法中，乙醇含量达到至少7％、至少8％、至少9％、至少10％、至少11％、至少12％、至少13％、至少14％、至少15％、如至少16％乙醇。

用于上述任一方面中的淀粉浆可以具有20-55％的干燥固体颗粒状淀粉，优选25-40％的干燥固体颗粒状淀粉，更优选30-35％的干燥固体颗粒状淀粉。与包含具有α-淀粉酶活性的催化模块和碳水化合物结合模块的多肽，例如，第一个方面的多肽接触后，颗粒状淀粉的干燥固体的至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、或优选至少99％被转化为可溶性淀粉水解产物。

在另一优选实施方案中，将包含具有α-淀粉酶活性的催化模块和碳水化合物结合模块的多肽，例如，第一个方面的多肽用于糊化淀粉的液化、糖化方法中，例如但不限于通过喷射蒸煮进行的糊化。所述方法可以包括发酵以生产发酵产物例如乙醇。这种从含淀粉材料通过发酵生产乙醇的方法包括：(i)用包含具有α-淀粉酶活性的催化模块和碳水化合物结合模块的多肽，例如，第一个方面的多肽液化所述含淀粉材料；(ii)糖化所获得的液化醪；(iii)在发酵生物存在下发酵步骤(ii)中获得的材料。任选所述方法进一步包括回收乙醇。糖化和发酵可以作为同时糖化和发酵方法(SSF方法)实施。发酵期间乙醇含量达到至少7％、至少8％、至少9％、至少10％、至少11％、至少12％、至少13％、至少14％、至少15％如至少16％乙醇。

特别地，在上述方面的方法中，所要加工的淀粉可以从块茎、根、茎、豆科植物、谷物或整谷粒获得。更特别地，颗粒状淀粉可以从玉米、玉米穗(cobs)、小麦、大麦、黑麦、买罗高梁、西米、木薯、木薯淀粉、高粱、水稻、豌豆、黄豆(bean)、香蕉或马铃薯获得。特别考虑糯型和非糯型玉米和大麦。

本发明还涉及包含第一个和/或第二个方面的多肽的组合物。在特别优选的实施方案中所述组合物包含第一个方面的多肽，所述多肽选自V001、V002、V003、V004、V005、V006、V007、V008、V009、V010、V011、V012、V013、V014、V015、V016、V017、V018、V019、V021、V022、V023、V024、V025、V026、V027、V028、V029、V030、V031、V032、V033、V034、V035、V036、V037、V038、V039、V040、V041、V042、V043、V047、V048、V049、V050、V051、V052、V054、V055、V057、V059、V060、V061、V063、V064、V065、V066、V067、V068和V069的组。所述组合物可以进一步包含选自下组的酶：真菌α-淀粉酶(EC 3.2.1.1)、β－淀粉酶(E.C.3.2.1.2)、葡糖淀粉酶(E.C.3.2.1.3)和支链淀粉酶(E.C.3.2.1.41)。所述葡糖淀粉酶可以优选源于曲霉属的菌种的菌株如黑曲霉、或者源于篮状菌属的菌种，特别是源于Talaromyces leycettanus的菌株，如美国专利Re.32,153中公开的葡糖淀粉酶、源于Talaromyces duponti和/或Talaromyces thermopiles，如美国专利4,587,215中公开的葡糖淀粉酶，以及更优选源于埃默森篮状菌。最优选所述葡糖淀粉酶来源于埃默森篮状菌菌株CBS 793.97和/或具有WO99/28448中如SEQ ID NO:7公开的序列。更优选具有与前述氨基酸序列有至少50％、至少60％、至少70％、至少80％、至少90％或者甚至至少95％同源性的氨基酸序列的葡糖淀粉酶。商业篮状菌葡糖淀粉酶制品由Novozymes A/S供应，称为Spirizyme Fuel。

对于包含第一个和/或第二个方面的多肽和葡糖淀粉酶的组合物，还优选具有葡糖淀粉酶活性的源于栓菌属、优选瓣环栓菌的菌株的多肽。更优选具有葡糖淀粉酶活性并且与美国专利申请No.60/650,612中SEQ ID NO:5的成熟多肽氨基酸1至575的氨基酸有至少50％、至少60％、至少70％、至少80％、至少90％或者甚至至少95％同源性的多肽。

对于包含第一个和/或第二个方面的多肽和葡糖淀粉酶的组合物，还优选具有葡糖淀粉酶活性的源于厚孢孔菌属、优选纸质大纹饰孢的菌株、或源于保藏在DSMZ且给予保藏号DSM 17105的大肠杆菌菌株的多肽。更优选具有葡糖淀粉酶活性并且与美国专利申请No.60/650,612中SEQ ID NO:2的成熟多肽氨基酸1至556的氨基酸有至少50％、至少60％、至少70％、至少80％、至少90％或者甚至至少95％同源性的多肽。

上述组合物可用于液化和/或糖化糊化的或颗粒状的淀粉，以及部分糊化的淀粉。部分糊化的淀粉指在某种程度上被糊化的淀粉，即其中部分淀粉已不可逆地膨胀和糊化而部分淀粉仍然以颗粒状状态存在。

上述组合物可以优选包含以0.01至10AFAU/g DS、优选0.1至5AFAU/g DS、更优选0.5至3AFAU/g DS、最优选0.3至2AFAU/g DS的量存在的酸性α-淀粉酶。可以将所述组合物应用于上述任一淀粉加工方法中。

材料和方法

酸性α-淀粉酶活性的测定

当根据本发明使用时，可以以AFAU(酸性真菌α-淀粉酶单位)测量任何酸性α-淀粉酶的活性，它是相对于酶标准测定的。1AFAU定义为在下面提到的标准条件下每小时降解5.260mg淀粉干物质的酶的量。

酸性α-淀粉酶，即酸稳定的α-淀粉酶，一种内切-α-淀粉酶(1,4-α-D-葡聚糖-葡萄糖苷基-水解酶(1,4-alpha-D-glucan-glucano-hydrolase)，E.C.3.2.1.1)，在淀粉分子的内部区域水解α-1,4-糖苷键以形成具有不同链长的糊精和寡糖。与碘形成的颜色的强度与淀粉的浓度成正比。淀粉酶活性在指定的分析条件下以淀粉浓度的降低的反向比色法(reverse colorimetry)，进行测定。

蓝/紫 t＝23秒去色

标准条件/反应条件：

更详细地描述该分析方法的小册子EB-SM-0259.02/01可向NovozymesA/S,丹麦索取，此处将该小册子加入作为参考。

葡糖淀粉酶活性

可以以淀粉葡萄糖苷酶单位(AGU)测量葡糖淀粉酶活性。AGU定义为在37℃、pH4.3、底物：麦芽糖23.2mM、缓冲液：醋酸盐0.1M、反应时间5分钟的标准条件下每分钟水解1微摩尔麦芽糖的酶的量。

可以使用自动分析仪***。向葡萄糖脱氢酶试剂中添加变旋酶，以使所存在的任何α-D-葡萄糖都转化为β-D-葡萄糖。在上述反应中葡萄糖脱氢酶特异性地与β-D-葡萄糖反应形成NADH，利用光度计在340nm处测量NADH，作为初始葡萄糖浓度的量度。

AMG孵育：

颜色反应：

更详细地描述该分析方法的小册子(EB-SM-0131.02/01)可向Novozymes A/S,丹麦索取，此处将该小册子加入作为参考。

菌株和质粒

大肠杆菌DH12S(可由Gibco BRL获得)用于酵母质粒拯救(rescue)。

pLA1是处于TPI启动子控制之下的酿酒酵母和大肠杆菌穿梭载体，WO 01/92502中描述了其构建自pJC039。其中已经***了酸性黑曲霉α-淀粉酶信号序列、酸性黑曲霉α-淀粉酶基因(SEQ ID NO:1)以及包含接头(SEQ ID NO:67)和CBM(SEQ ID NO:91)的部分罗耳阿太菌葡糖淀粉酶基因序列。SEQ ID NO:103中给出了所述质粒的完整序列。α-淀粉酶基因为从5029到6468的序列，接头为从6469到6501的序列，CBM为从6502到6795的序列。所述载体用于α-淀粉酶CBM杂合体构建。

酿酒酵母YNG318:MATa Dpep4[cir+]ura3-52,leu2-D2,his 4-539被用于α-淀粉酶变体表达。对其的描述见J.Biol.Chem.272(15),pp 9720-9727,1997。

培养基和底物

10X基础溶液：不含氨基酸的酵母氮基(DIFCO)66.8g/l、琥珀酸酯(盐)100g/l、NaOH 60g/l。

SC-葡萄糖：20％葡萄糖(即，2％的终浓度＝2g/100ml))100ml/l、5％苏氨酸4ml/l、1％色氨酸10ml/l、20％酪蛋白氨基酸25ml/l、10X基础溶液100ml/l。溶液用孔径0.20微米的过滤器灭菌。琼脂和H₂O(约761ml)一起高压灭菌，并将单独灭菌的SC-葡萄糖溶液添加到所述琼脂溶液。

YPD：Bacto蛋白胨20g/l、酵母提取物10g/l、20％葡萄糖100ml/l。

PEG/LiAc溶液：40％PEG400050ml、5M乙酸锂1ml。

DNA操作

除非另有说明，DNA操作和转化采用Sambrook et al.(1989)Molecular Cloning:A Laboratory Manual,Cold Spring Harbor Lab.,Cold Spring Harbor,NY；Ausubel,F.M.et al.(eds.)"Current Protocols in Molecular Biology",John Wiley and Sons,1995；Harwood,C.R.and Cutting,S.M.(eds.)中所述的分子生物学标准方法进行。

酵母转化

用乙酸锂法实施酵母转化。将0.5μL的载体(通过限制性核酸内切酶消化的)与1μL的PCR片段混合。在冰上解冻YNG318感受态细胞。在12ml聚丙烯试管(Falcon 2059)中混合100μL的细胞、DNA混合物和10μL的载体DNA(Clontech)。添加0.6ml PEG/LiAc溶液并轻轻混合。30℃、200rpm孵育30min。42℃孵育30min(热休克)。转移到eppendorf管并离心5秒。去除上清并溶解在3ml YPD中。200rpm 30℃孵育所述细胞悬液45min。将所述悬浮液倒入SC-葡萄糖平板并于30℃孵育3天以产生菌落。用Nucleic Acids Research,Vol.20,No.14(1992)3790中描述的Robzyk and Kassir’s法提取酵母总DNA。

DNA测序

通过电穿孔(BIO-RAD Gene脉冲发生器)实施大肠杆菌转化，用于DNA测序。用碱法(分子克隆,Cold Spring Harbor)或者用Plasmid试剂盒制备DNA质粒。用Qiagen凝胶提取试剂盒从琼脂糖凝胶回收DNA片段。用PTC-200DNA Engine实施PCR。ABI PRISM^TM310Genetic Analyzer用于所有DNA序列的测定。

表2

实施例1：编码微小根毛霉(Rhizomucor pusillus)α淀粉酶和罗耳阿太菌(Athelia rolfsii)葡糖淀粉酶CBM的核酸序列V019的构建

用合适的限制性内切核酸酶消化载体pLA1，以切掉编码黑曲霉α-淀粉酶催化结构域的区域。用引物P001(SEQ ID NO:104)和P002(SEQ ID NO:105)PCR扩增微小根毛霉α-淀粉酶基因，扩增的片段如SEQ ID NO:19所示。

用Qiagen凝胶提取试剂盒从琼脂糖凝胶回收DNA片段。所得的纯化片段与载体消化物一起混合。将混合的溶液导入到酿酒酵母中，以通过体内重组构建表达质粒pLAV019。

实施例2：编码巨大多孔菌(Meripilus giganteus)α淀粉酶和罗耳阿太菌葡糖淀粉酶CBM的核酸序列V022的构建

用引物P003(SEQ ID NO:106)和P004(SEQ ID NO:107)PCR扩增巨大多孔菌α-淀粉酶基因。

用Qiagen凝胶提取试剂盒从琼脂糖凝胶回收DNA片段。将所得的纯化片段和用合适的限制性内切核酸酶消化而切掉了编码黑曲霉α-淀粉酶催化结构域的载体pLA1混合。将混合的溶液导入到酿酒酵母中，以通过体内重组构建表达质粒pLAV022。

实施例3.在米曲霉中表达带有CBM的淀粉酶

实施例1和2中描述的包含带有CBM的α淀粉酶基因的构建体分别用于构建表达载体pAspV019和pAspV022。pAspV019和pAspV022这两个质粒由表达盒组成，所述表达盒基于黑曲霉中性淀粉酶II启动子和黑曲霉淀粉糖苷酶(amyloglycosidase)终止子(Tamg)，所述中性淀粉酶II启动子融合于构巢曲霉磷酸丙糖异构酶非翻译的前导序列(Pna2/tpi)。所述质粒上还存在来自构巢曲霉的曲霉属选择性标记amdS，其允许在作为唯一氮源的乙酰胺上生长。如Lassen et al.(2001),Applied and Environmental Micorbiology,67,4701-4707中所述将表达质粒pAspV019和pAspV022转化到曲霉中。将表达V019和V022的转化体分离、纯化并培养于摇瓶中。用亲合纯化法(Biochem.J.(2003)372,905-910)纯化由米曲霉发酵获得的液体培养基，所述米曲霉表达带有CBM的淀粉酶。

实施例4.带有CBM的淀粉酶

生产了本发明的多肽；将选择的催化结构域融合于罗耳阿太菌葡糖淀粉酶的接头-CBM区域，将选择的CBM区域附着于C003米曲霉催化结构域(Fungamyl PE变体)。

因为来自Trichophaea saccataα-淀粉酶的CBM+接头位于N-末端，所以将其插在SP288信号和米曲霉催化结构域之间。其它的CBM都置于C-末端。

变体V008既包含置于C末端的罗耳阿太菌葡糖淀粉酶接头和CBM区域，也包含置于N-末端的来自Trichophaea saccataα-淀粉酶的接头+CBM。

米曲霉α-淀粉酶的CBM变体和罗耳阿太菌葡糖淀粉酶CBM的催化结构域变体分别列于表3和4。本发明生产的其它多肽列于表5和6。

所述变体对于淀粉，尤其是对于颗粒状淀粉具有改善的活性。

表3

表4

表5

表6

实施例5

在小规模发酵中用不同剂量的埃默森篮状菌(Talaromyces emersonii)葡糖淀粉酶评估多肽V019的性能。将淀粉底物，583.3g的粉碎玉米添加入912.2g自来水中。向该混合物中补充4.5ml的1g/L青霉素溶液。用40％H₂SO₄将该浆液的pH调至5.0。一式两份测定DS水平为34.2±0.8％。将大约5g这种浆液添加到20ml管形瓶中。每个管形瓶按剂量加入适量的酶，之后添加200μL酵母繁殖物/5g浆液。实际剂量以每个管形瓶中玉米浆液的精确重量为基础。管形瓶于32℃保温。发酵后随时间推移测量重量损失。70小时时终止发酵，并准备HPLC分析。HPLC的准备工作包括通过添加50μL的40％H₂SO₄终止反应、离心、和通过0.45微米滤器过滤。等待HPLC分析的样品于4℃存储。

表7

实施例6

通过将用热稳定的细菌α-淀粉酶(LIQUOZYME X^TM,Novozymes A/S)液化的玉米淀粉制备的DE 11麦芽糖糊精溶解在Milli-Q^TM水中，并将干燥固体物质含量(DS)调节到30％，而制备用于糖化的底物。在60℃、初始pH 4.3、持续搅动的条件下，在密封的2ml玻璃管形瓶中进行糖化试验。在利用0.35AGU/g DS埃默森篮状菌葡糖淀粉酶和0.04AFAU/g DS黑曲霉酸性α-淀粉酶的标准处理之后，马上施加两种不同剂量的CBMα-淀粉酶V019或V022。

于规定的时间间隔取样，并在沸水中加热15分钟，以将酶灭活。冷却后，在HPLC分析前将样品稀释到5％DS并过滤(Sartorius MINISART^TM NML 0.2微米)。以下表8中提供了以总可溶性碳水化合物的百分数表示的葡萄糖水平。

表8

实施例7

在小规模发酵中评估生淀粉SSF处理。混合410g细磨玉米、590ml自来水、3.0ml1g/L青霉素和1g尿素，获得35％DS的颗粒状淀粉浆。用5N NaOH将浆液的pH调至4.5，将5g样品分配到20ml管形瓶中。定量加入适量的酶，向管形瓶中接种酵母。管形瓶于32℃保温。每种处理进行一式九份发酵。选择一式三份来用作24小时、48小时和70小时时间点的分析。于24、48和70小时时涡旋管形瓶。时间点分析包括对管形瓶称重和预备用于HPLC的样品。为进行HPLC，通过添加50μL40％H₂SO₄终止反应、离心、并通过0.45μm滤器过滤。将等待HPLC分析的样品于4℃存储。

实施例7a

酶和所使用的量如下表所示。A-AMG为黑曲霉葡糖淀粉酶组合物。

表9

在1.7-85.5AGU/AFAU的黑曲霉AMG与V019的比率范围内，观测到70小时发酵后很好的乙醇产率，显示黑曲霉AMG与V019的混合物在广泛的活性比率范围内有优异的性能。

表10

实施例7b

酶和所使用的量如下表所示。A-AMG为埃默森篮状菌葡糖淀粉酶组合物。

表11

在10-216AGU/AFAU的埃默森篮状菌AMG与V019比率范围内，观测到70小时发酵后很好的乙醇产量，显示了埃默森篮状菌AMG与V019的混合物的广泛的活性比率范围。

表12

生物材料保藏

下述生物材料已根据布达佩斯条约保藏在德国微生物保藏中心(DeutscheSammmlung von Microorganismen und Zellkulturen GmbH)(DSMZ),Mascheroder Weg1b,D-38124Braunschweig DE，并给予了以下保藏号：

所述菌株已在保证专利商标委员依据37C.F.R.§1.14和35U.S.C.§122确定其有资格的人能够在本专利申请悬而未决期间得到该培养物的条件下被保藏。所述保藏物为所保藏菌株的基本上纯的培养物。在提交了所述申请的对应申请、或其子申请的外国，可以如这些国家的专利法所要求的获得所述保藏物。然而，应当明白，可以获得该保藏物，并不构成在侵犯由政府行为授予的专利权过程中实施本发明的许可。

Claims

1.一种多肽，其包含含有催化模块的第一氨基酸序列和含有碳水化合物结合模块的第二氨基酸序列，其中所述催化模块具有α-淀粉酶活性，其中所述第二氨基酸序列与选自下组的任一氨基酸序列具有至少60％的同源性：SEQ ID NO:52、SEQ ID NO:76、SEQ ID NO:78、SEQ ID NO:80、SEQ ID NO:82、SEQ ID NO:84、SEQ ID NO:86、SEQ ID NO:88、SEQ IDNO:90、SEQ ID NO:92、SEQ ID NO:94、SEQ ID NO:96、SEQ ID NO:98、SEQ ID NO:109、SEQID NO:137、SEQ ID NO:139、SEQ ID NO:141和SEQ ID NO:143。

2.权利要求1的多肽，其中所述第一氨基酸序列与选自下组的任一氨基酸序列具有至少60％的同源性：SEQ ID NO:02、SEQ ID NO:04、SEQ ID NO:06、SEQ ID NO:08、SEQ ID NO:10、SEQ ID NO:12、SEQ ID NO:14、SEQ ID NO:16、SEQ ID NO:18、SEQ ID NO:20、SEQ IDNO:22、SEQ ID NO:24、SEQ ID NO:26、SEQ ID NO:28、SEQ ID NO:30、SEQ ID NO:32、SEQ IDNO:34、SEQ ID NO:36、SEQ ID NO:38、SEQ ID NO:40、SEQ ID NO:42、SEQ ID NO:44、SEQ IDNO:111、SEQ ID NO:113、SEQ ID NO:115、SEQ ID NO:117、SEQ ID NO:119、SEQ ID NO:121、SEQ ID NO:123、SEQ ID NO:125、SEQ ID NO:127、SEQ ID NO:129、SEQ ID NO:131、SEQ IDNO:133、SEQ ID NO:135和SEQ ID NO:155。

3.权利要求1或2的多肽，其中在所述第一和所述第二氨基酸序列之间的位置存在接头序列，所述接头序列与选自下组的任一氨基酸序列具有至少60％的同源性：SEQ ID NO:46、SEQ ID NO:48、SEQ ID NO:50、SEQ ID NO:54、SEQ ID NO:56、SEQ ID NO:58、SEQ ID NO:60、SEQ ID NO:62、SEQ ID NO:64、SEQ ID NO:66、SEQ ID NO:68、SEQ ID NO:70、SEQ IDNO:72、SEQ ID NO:74、SEQ ID NO:145、SEQ ID NO:147、SEQ ID NO:149、SEQ ID NO:151和SEQ ID NO:52。

4.权利要求1-3任一权利要求的多肽，其中所述第一氨基酸序列与SEQ ID NO:4所示氨基酸序列具有至少60％的同源性，并且其中所述第一氨基酸序列包含选自下组的一个或多个氨基酸取代：A128P、K138V、S141N、Q143A、D144S、Y155W、E156D、D157N、N244E、M246L、G446D、D448S和N450D。

5.权利要求4的多肽，其中所述多肽具有SEQ ID NO:100所示的氨基酸序列或者与SEQID NO:100所示氨基酸序列具有至少60％同源性的氨基酸序列。

6.权利要求1-3任一权利要求的多肽，其中所述多肽具有SEQ ID NO:101所示的氨基酸序列或者与SEQ ID NO:101所示氨基酸序列具有至少60％同源性的氨基酸序列。

7.权利要求1-3任一权利要求的多肽，其中所述多肽具有SEQ ID NO:102所示的氨基酸序列或者与SEQ ID NO:102所示氨基酸序列具有至少50％同源性的氨基酸序列。

8.权利要求1-7任一权利要求的多肽，其中所述多肽是杂合体。

9.具有α-淀粉酶活性的多肽，选自下组：

(a)一种多肽，其具有与成熟多肽的氨基酸有至少75％同源性的氨基酸序列，所述成熟多肽的氨基酸选自下组：SEQ ID NO:14中的氨基酸1-441、SEQ ID NO:18中的氨基酸1-471、SEQ ID NO:20中的氨基酸1-450、SEQ ID NO:22中的氨基酸1-445、SEQ ID NO:26中的氨基酸1-498、SEQ ID NO:28中的氨基酸18-513、SEQ ID NO:30中的氨基酸1-507、SEQ ID NO:32中的氨基酸1-481、SEQ ID NO:34中的氨基酸1-495、SEQ ID NO:38中的氨基酸1-477、SEQID NO:42中的氨基酸1-449、SEQ ID NO:115中的氨基酸1-442、SEQ ID NO:117中的氨基酸1-441、SEQ ID NO:125中的氨基酸1-477、SEQ ID NO:131中的氨基酸1-446、SEQ ID NO:157中的氨基酸41-481、SEQ ID NO:159中的氨基酸22-626、SEQ ID NO:161中的氨基酸24-630、SEQ ID NO:163中的氨基酸27-602、SEQ ID NO:165中的氨基酸21-643、SEQ ID NO:167中的氨基酸29-566、SEQ ID NO:169中的氨基酸22-613、SEQ ID NO:171中的氨基酸21-463、SEQID NO:173中的氨基酸21-587、SEQ ID NO:175中的氨基酸30-773、SEQ ID NO:177中的氨基酸22-586、SEQ ID NO:179中的氨基酸20-582。

(b)由核苷酸序列编码的多肽，所述核苷酸序列(i)至少在低严紧条件下与SEQ ID NO:13中的核苷酸1-1326、SEQ ID NO:17中的核苷酸1-1413、SEQ ID NO:19中的核苷酸1-1350、SEQ ID NO:21中的核苷酸1-1338、SEQ ID NO:25中的核苷酸1-1494、SEQ ID NO:27中的核苷酸52-1539、SEQ ID NO:29中的核苷酸1-1521、SEQ ID NO:31中的核苷酸1-1443、SEQ IDNO:33中的核苷酸1-1485、SEQ ID NO:37中的核苷酸1-1431、SEQ ID NO:41中的核苷酸1-1347、SEQ ID NO:114中的核苷酸1-1326、SEQ ID NO:116中的核苷酸1-1323、SEQ ID NO:124中的核苷酸1-1431、SEQ ID NO:130中的核苷酸1-1338、SEQ ID NO:156中的核苷酸121-1443、SEQ ID NO:158中的核苷酸64-1878、SEQ ID NO:160中的核苷酸70-1890、SEQ ID NO:162中的核苷酸79-1806、SEQ ID NO:164中的核苷酸61-1929、SEQ ID NO:166中的核苷酸85-1701、SEQ ID NO:168中的核苷酸64-1842、SEQ ID NO:170中的核苷酸61-1389、SEQ IDNO:172中的核苷酸61-1764、SEQ ID NO:174中的核苷酸61-2322、SEQ ID NO:176中的核苷酸64-1761、SEQ ID NO:178中的核苷酸58-1749杂交，或者(ii)至少在中等严紧条件下与包含于SEQ ID NO:13中核苷酸1-1326、SEQ ID NO:17中核苷酸1-1413、SEQ ID NO:19中核苷酸1-1350、SEQ ID NO:21中核苷酸1-1338、SEQ ID NO:25中核苷酸1-1494、SEQ ID NO:27中核苷酸52-1539、SEQ ID NO:29中核苷酸1-1521、SEQ ID NO:31中核苷酸1-1443、SEQ IDNO:33中核苷酸1-1485、SEQ ID NO:37中核苷酸1-1431、SEQ ID NO:41中核苷酸1-1347、SEQID NO:114中核苷酸1-1326、SEQ ID NO:116中核苷酸1-1323、SEQ ID NO:124中核苷酸1-1431、SEQ ID NO:130中核苷酸1-1338、SEQ ID NO:156中核苷酸121-1443、SEQ ID NO:158中核苷酸64-1878、SEQ ID NO:160中核苷酸70-1890、SEQ ID NO:162中核苷酸79-1806、SEQID NO:164中核苷酸61-1929、SEQ ID NO:166中核苷酸85-1701、SEQ ID NO:168中核苷酸64-1842、SEQ ID NO:170中核苷酸61-1389、SEQ ID NO:172中核苷酸61-1764、SEQ ID NO:174中核苷酸61-2322、SEQ ID NO:176中核苷酸64-1761、SEQ ID NO:178中核苷酸58-1749所示多核苷酸中的cDNA序列杂交，或者(iii)，(i)或(ii)的互补链；和

(c)一种变体，其在选自下组的氨基酸序列中包含一个或多个氨基酸的保守性取代、缺失、和/或***：SEQ ID NO:14中的氨基酸1-441、SEQ ID NO:18中的氨基酸1-471、SEQ IDNO:20中的氨基酸1-450、SEQ ID NO:22中的氨基酸1-445、SEQ ID NO:26中的氨基酸1-498、SEQ ID NO:28中的氨基酸18-513、SEQ ID NO:30中的氨基酸1-507、SEQ ID NO:32中的氨基酸1-481、SEQ ID NO:34中的氨基酸1-495、SEQ ID NO:38中的氨基酸1-477、SEQ ID NO:42中的氨基酸1-449、SEQ ID NO:115中的氨基酸1-442、SEQ ID NO:117中的氨基酸1-441、SEQID NO:125中的氨基酸1-477、SEQ ID NO:131中的氨基酸1-446、SEQ ID NO:157中的氨基酸41-481、SEQ ID NO:159中的氨基酸22-626、SEQ ID NO:161中的氨基酸24-630、SEQ ID NO:163中的氨基酸27-602、SEQ ID NO:165中的氨基酸21-643、SEQ ID NO:167中的氨基酸29-566、SEQ ID NO:169中的氨基酸22-613、SEQ ID NO:171中的氨基酸21-463、SEQ ID NO:173中的氨基酸21-587、SEQ ID NO:175中的氨基酸30-773、SEQ ID NO:177中的氨基酸22-586和SEQ ID NO:179中的氨基酸20-582。

10.具有碳水化合物结合亲合力的多肽，所述多肽选自下组：

(a)包含与选自下组的序列具有至少60％同源性的氨基酸序列的多肽：SEQ ID NO:159的氨基酸529-626、SEQ ID NO:161的氨基酸533-630、SEQ ID NO:163的氨基酸508-602、SEQID NO:165的氨基酸540-643、SEQ ID NO:167的氨基酸502-566、SEQ ID NO:169的氨基酸513-613、SEQ ID NO:173的492-587、SEQ ID NO:175的氨基酸30-287、SEQ ID NO:177的氨基酸487-586、和SEQ ID NO:179的氨基酸482-582；

(b)由核苷酸序列编码的多肽，所述核苷酸序列在低严紧条件下与多核苷酸探针杂交，所述多核苷酸探针选自下组序列的互补链：SEQ ID NO:158中的核苷酸1585-1878、SEQ IDNO:160中的核苷酸1597-1890、SEQ ID NO:162中的核苷酸1522-1806、SEQ ID NO:164中的核苷酸1618-1929、SEQ ID NO:166中的核苷酸1504-1701、SEQ ID NO:168中的核苷酸1537-1842、SEQ ID NO:172中的核苷酸1474-1764、SEQ ID NO:174中的核苷酸61-861、SEQ IDNO:176中的核苷酸1459-1761、和SEQ ID NO:178中的核苷酸1444-1749；

(c)(a)或(b)的具有碳水化合物结合亲合力的片段。