CN118086285A

CN118086285A - 蛋白定向进化的方法

Info

Publication number: CN118086285A
Application number: CN202410490345.3A
Authority: CN
Inventors: 洪浩; 詹姆斯·盖吉; 肖毅; 张娜; 焦学成; 王翔; 史皖明; 杨益明; 赵军旗; 王磊
Original assignee: Tianjin Kailaiying Biotechnology Co ltd
Current assignee: Tianjin Kailaiying Biotechnology Co ltd
Priority date: 2024-04-23
Filing date: 2024-04-23
Publication date: 2024-05-28
Anticipated expiration: 2044-04-23

Abstract

本发明提供了一种蛋白定向进化的方法。其中蛋白定向进化的方法包括：通过PCR扩增获得带有目标蛋白的基因突变的PCR产物；将PCR产物置于蛋白体外表达体系中进行基因表达，获得带有突变的目标蛋白；对带有突变的目标蛋白进行性状检测，目标蛋白为目标酶，性状检测包括对所述目标酶的活性和/或对应异构体过量百分率进行检测。该方法不仅稳定性高，而且从通常所需的2‑3周的时间缩短为7个小时左右，大大加快了进化速度。

Description

蛋白定向进化的方法

技术领域

本发明涉及蛋白工程中蛋白定向进化领域，具体而言，涉及一种蛋白定向进化的方法。

背景技术

蛋白定向进化的思路是通过模拟自然进化，对目的基因进行重复多轮的突变、表达和筛选，从而在短时间内完成自然界中需要成千上万年的进化，最终获得性能改进或具有新功能的蛋白质。蛋白定向进化的方法，可分为非理性设计、半理性设计和理性设计3种策略。

非理性设计即随机进化策略，优点是不需要对蛋白序列及结构有深入了解，仅需通过随机突变和片段重组的方法模拟自然进化。主要包括易错PCR (Error-pronepolymerase chain reaction，epPCR)及DNA重组(DNA shuffling)。DNA shuffling主要用于单基因或多基因的重组，该技术利用DNase将一组带有有义突变位点的同源基因切成随机片段(通常10-50 bp)，使用PCR使之延伸重组获得全长基因。优点是操作简单，不需要蛋白结构信息，容易获得有义突变；缺点是要求基因序列间至少具有70%的一致性，由于密码子的兼并性，氨基酸序列的变化是远小于碱基序列的，因此70%一致性的基因序列在蛋白质的氨基酸序列层面则意味着90%以上的一致性，这一致命缺陷导致在近20年中这种技术并未被广泛应用。易错PCR相对来说应用更多些，其基本原理是通过改变PCR反应体系的反应条件或使用低保真的DNA聚合蛋白，增加碱基随机错配率，从而造成多点突变，产生序列多样性的突变体文库，因其不需要蛋白结构信息、操作简单而被研究者广泛采用。然而该技术的应用受到以下几方面制约：聚合蛋白的碱基偏好性(通常AG > TC)、突变效率低，每轮突变的碱基一般为1个，通过不断的叠加累计，通常情况下需要至少连续4轮的epPCR逐步积累正向突变，才能获得蛋白性能显著提高的目的突变体。受限于检测通量，一般一轮epPCR的库容量在1000-2000左右。

理性设计是一种智能改造手段，依赖计算机技术(in silico)模拟自然界蛋白质的进化轨迹，通过计算机虚拟突变，筛选可快速准确预测目标突变体。通过一系列基于生物信息学开发的算法和程序，预测蛋白质活性位点并考察特定位点突变对其稳定性、折叠及与底物结合等方面的影响，从而对蛋白质进行针对性地改造。基于计算机辅助设计和大尺度的分子动力学模拟可高效、快捷地改造和筛选生物催化剂，不仅可高精度地预测蛋白结构，还可从头设计自然界中不存在的新蛋白。尽管新蛋白设计已取得一定成功，但依然面临诸多挑战：首先，其成功率较低；其次，计算工作繁重，对计算机资源依赖非常高；再次，设计出的新蛋白结构和稳定性较差，催化活性往往偏低。主要是因为对蛋白序列/结构/功能之间关系的认识还不够深入。理性设计一般通过定点突变引入突变位点，库容量在几十到几百之间。

半理性设计主要借助生物信息学方法，基于同源蛋白序列比对、三维结构或已有知识，理性选取多个氨基酸残基作为改造靶点，结合有效密码子的理性选用，通过构建高质量突变体文库，有针对性地对蛋白质进行改造。一般通过兼并的引物引入突变，建库的容量在数百到数千之间（曲戈，赵晶，郑平等，定向进化技术的最新进展。生物工程学报，2018，34(1)：1-11）。

综上可见，在蛋白定向进化中，定点突变和定点饱和突变在突变文库的构建中是使用比例最多的手段，除此之外epPCR也是有效的手段。

目前定点突变和定点饱和突变，一般是将突变位点设计成目标碱基或者兼并碱基，由PCR引入，然后构建到质粒上，转化到表达宿主中，多选择大肠杆菌，然后进行培养，转接，诱导表达出目标蛋白，然后再破碎获取蛋白，用粗蛋白提取物或者纯蛋白进行反应。

易错PCR的建库容量较大，但是受限于筛选通量，一般易错PCR筛选的突变体在1000-2000左右。对于工业用蛋白来说，蛋白通常氨基酸的个数在300左右之间。每个位点设计3-5条引物，分别将该位点突变为3-5种代表不同的性质的氨基酸，这样的话，易错PCR也可以用全局性PCR进行解决。

综上所述，现有的蛋白定向进化的方法基本可以由包含单个突变体的引物实现。由于近年来，基因合成的技术不断突破，基因合成的费用越来越低，一般一条引物大概花费10元左右，合成千条引物的价格也不过在1万元左右，根据现在的发展趋势，在未来这一成本会越来越低。

对于传统的蛋白定向进化，从引物设计到突变体的性状检测，需要经过PCR、蛋白切、连接、转化、挑单克隆、单克隆培养、转接、诱导、表达、离心收菌、重悬以及破碎等10余个步骤才能获得目标蛋白的粗细胞提取物，一般需要2-3周左右的时间，这一系列操作不仅费事费力，并且微生物操作会有污染杂菌或者噬菌体的风险，对设备和耗材要求较高，对人员操作要求很高，同时，由于操作流程很长，每一步均会引入少量误差，导致最终结果的波动较大。

发明内容

本发明的主要目的在于提供一种蛋白定向进化的方法，以解决现有技术中酶定向进化流程长的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种蛋白定向进化的方法，该方法包括：通过PCR扩增获得带有目标蛋白的基因突变的PCR产物；将PCR产物置于蛋白体外表达体系中进行基因表达，获得带有突变的目标蛋白；对带有突变的目标蛋白进行性状检测，性状检测包括对目标酶的活性和/或对应异构体过量百分率（即ee值）进行检测；其中，目标蛋白为目标酶；蛋白体外表达体系为大肠杆菌体外表达体系，大肠杆菌体外表达体系包括：基础成分、能量相关成分、添加成分、细胞提取物及RNase抑制剂，其中，在大肠杆菌体外表达体系中，基础成分包括：每种氨基酸的浓度为2mM的19种氨基酸、2mM的酪氨酸、14 mM的醋酸镁、60 mM的醋酸钾及7 mM 的DDT；在大肠杆菌体外表达体系中，能量相关成分包括：1.2 mM AMP、0.85 mM CMP、0.85 mM GMP、0.85 mM UMP、15~83mM PEP、0.4~0.6 mM NAD、4mM草酸钾、90 mM谷氨酸钾、2.5~10mM谷氨酸镁；在大肠杆菌体外表达体系中，添加成分包括：1.5 mM亚精胺和157.33 mM HEPES；在大肠杆菌体外表达体系中，RNase抑制剂的浓度为150U/450μL；细胞提取物在大肠杆菌体外表达体系中的体积含量为20~60%。

进一步地，利用如下任意一种或多种方法，通过PCR扩增获得带有目标蛋白的基因突变的PCR产物：1）通过两步PCR的方法扩增得到带有目标蛋白的基因突变的PCR产物；设计2个引物对：1）F1与R1；2）F2与R2，并在2个引物对中引入含有突变位点的突变序列，利用2个引物对进行第一步PCR，分别PCR出突变位点两边的片段L1和L2，其中，片段L1和L2中间重叠区域记为L，突变位点位于L上；然后以片段L1和L2的混合物作为模板，以F1和R2为引物，进行第二步PCR，获得全长序列，全长序列即为带有目标蛋白的基因突变的PCR产物；或2）根据定点饱和突变的原理，通过PCR扩增引入突变的方法，构建多个带有目标蛋白的基因突变的PCR产物，多个带有目标蛋白的基因突变的PCR产物构建目标蛋白基因的饱和突变体库；或3）通过PCR扩增的方法定点引入突变，从而获得带有目标蛋白的基因突变的PCR产物；或4）利用易错PCR的方法进行全序列随机突变，从而获得多个带有目标蛋白的基因突变的PCR产物，多个带有目标蛋白的基因突变的PCR产物覆盖目标蛋白的基因全序列的随机突变；或5）利用多点突变的方法，获得带有目标蛋白的基因的多个突变位点的PCR产物。

进一步地，在大肠杆菌体外表达体系中，PEP的浓度为30 mM；优选地，NAD 的浓度为0.4 mM；优选地，谷氨酸镁的浓度为7.5 mM；优选地，细胞提取物在大肠杆菌体外表达体系中的体积含量为33.3%。

进一步地，目标酶选自如下任意一种工业用蛋白酶。

进一步地，工业用蛋白酶为SEQ ID NO：1所示的酯蛋白或SEQ ID NO：2所示的转氨酶TA-1。

进一步地，对带有基因突变的目标酶进行性状检测包括：利用多个带有不同的基因突变的目标酶催化相同底物反应生成相同的产物，检测不同目标酶催化底物的转化率和/或产物的对应异构体过量百分率；以初始对照酶催化底物的转化率和/或异构体过量百分率为参照，从多个目标酶中筛选获得转化率和/或对应异构体过量百分率提升的目标酶，并记为初始+1对照酶。

进一步地，在获得初始+1对照酶之后，方法还包括：将初始+1对照酶迭代为初始对照酶，然后重复执行步骤S1至S3，依次类推，从而获得多个定向进化后的目标酶。

为了实现上述目的，根据本发明的第二个方面，提供了一种蛋白体外表达体系，该蛋白体外表达体系为大肠杆菌体外表达体系，大肠杆菌体外表达体系包括：基础成分、能量相关成分、添加成分、细胞提取物及RNase抑制剂，其中，在大肠杆菌体外表达体系中，基础成分包括：每种氨基酸的浓度为2mM的19种氨基酸；2mM的酪氨酸；14 mM的醋酸镁；60 mM的醋酸钾及7 mM 的DDT；在大肠杆菌体外表达体系中，能量相关成分包括：1.2 mM AMP、0.85mM CMP、0.85 mM GMP、0.85 mM UMP、15~83mM PEP、0.4~0.6 mM NAD、4 mM草酸钾、90 mM谷氨酸钾、2.5~10mM谷氨酸镁；在大肠杆菌体外表达体系中，添加成分包括：1.5 mM亚精胺和157.33 mM HEPES；在大肠杆菌体外表达体系中，RNase抑制剂的浓度为150U/450μL；细胞提取物在大肠杆菌体外表达体系中的体积含量为20~60%。

进一步地，在大肠杆菌体外表达体系中，PEP的浓度为30 mM；优选地，NAD 的含量为0.4 mM；

优选地，谷氨酸镁的含量为7.5 mM；优选地，细胞提取物在大肠杆菌体外表达体系中的体积含量为33.3%。

为了实现上述目的，根据本发明的第三个方面，提供了一种蛋白定向进化的试剂盒，该试剂盒包括蛋白体外表达体系，蛋白体外表达体系为大肠杆菌体外表达体系，大肠杆菌体外表达体系包括：基础成分、能量相关成分、添加成分、细胞提取物及RNase抑制剂，其中，在大肠杆菌体外表达体系中，基础成分包括：每种氨基酸的浓度为2mM的19种氨基酸；2mM的酪氨酸；14 mM的醋酸镁；60 mM的醋酸钾及7 mM 的DDT；在大肠杆菌体外表达体系中，能量相关成分包括：1.2 mM AMP、0.85 mM CMP、0.85 mM GMP、0.85 mM UMP、15~83mM PEP、0.4~0.6 mM NAD、4 mM草酸钾、90 mM谷氨酸钾、2.5~10mM谷氨酸镁；在大肠杆菌体外表达体系中，添加成分包括：1.5 mM亚精胺和157.33 mM HEPES；在大肠杆菌体外表达体系中，RNase抑制剂的浓度为150U/450μL；细胞提取物在大肠杆菌体外表达体系中的体积含量为20~60%。

进一步地，在大肠杆菌体外表达体系中，PEP的浓度为30 mM；优选地，NAD 的含量为0.4 mM；优选地，谷氨酸镁的含量为7.5 mM；优选地，细胞提取物在大肠杆菌体外表达体系中的体积含量为33.3%。

应用本发明的技术方案，通过将PCR引入蛋白突变进化的过程与蛋白体外表达相结合，并直接利用改进的体外表达的蛋白产物进行酶活性和/或对应异构体过量百分率等性能验证和定向进化筛选，通过一系列实验验证发现，该方法所获得的结果与传统的方法所获结果一致，证明了这种改进的蛋白定向进化方法的可行性和有效性。从效率及结果的稳定性角度来看，不仅稳定性高，而且从通常所需的2-3周的时间缩短为7个小时左右，大大加快了进化速度。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了本发明的实施例1中以不同浓度的sfGFP为模式蛋白绘制的标准曲线图；

图2示出了本发明的实施例1中对蛋白体外表达体系中的Mg²⁺浓度优化的结果图；

图3示出了本发明的实施例1中对蛋白体外表达体系中的PEP浓度优化的结果图；

图4示出了本发明的实施例1中对蛋白体外表达体系中的细胞提取物占比优化的结果图；

图5示出了本发明的实施例1中对蛋白体外表达体系中的NAD浓度优化的结果图；

图6示出了本发明的实施例1中对蛋白体外表达体系中的谷氨酸胺浓度优化的结果图；

图7示出了本发明的实施例2中以sfGFP基因的不同量的PCR产物进行蛋白体外表达的结果图；

图8示出了本发明的实施例2中包括起始密码子上游不同的长度的sfGFP基因的PCR产物进行蛋白体外表达的结果图；

图9示出了本发明的实施例3中随机挑出的8个突变体的SDS-PAGE电泳结果图；

图10示出了本发明的实施例3中采用本申请的方法定向进化的突变体的ee值与传统方法定向进化获得的突变体的ee值的比较图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。

如背景技术部分所提到的，现有的蛋白定向进化方法流程长、耗时长，且容易导致结果波动较大，为了改善这一状况，本申请尝试通过将蛋白突变进化的过程与蛋白体外表达相结合，并直接利用体外表达的蛋白产物进行性能验证，通过一系列实验验证发现，该方法所获得的结果与传统的方法所获结果一致，证明了这种改进的蛋白定向进化方法的可行性和有效性。从效率及结果的稳定性角度来看，不仅稳定性高，而且从通常所需的2-3周的时间缩短为7个小时左右，大大加快了进化速度。

在上述研究结果的基础上，申请人提出了本申请的一系列技术方案。在第一种典型的实施方式中，提供了一种蛋白定向进化的方法，该方法包括：通过PCR扩增获得带有目标蛋白的基因突变的PCR产物；将PCR产物置于蛋白体外表达体系中进行基因表达，获得带有突变的目标蛋白；对带有突变的目标蛋白进行性状检测，性状检测包括对目标酶的活性和/或对应异构体过量百分率进行检测；其中，目标蛋白为目标酶；蛋白体外表达体系为大肠杆菌体外表达体系，大肠杆菌体外表达体系包括：基础成分、能量相关成分、添加成分、细胞提取物及RNase抑制剂，其中，在大肠杆菌体外表达体系中，基础成分包括：每种氨基酸的浓度为2mM的19种氨基酸、2mM的酪氨酸、14 mM的醋酸镁、60 mM的醋酸钾及7 mM 的DDT；在大肠杆菌体外表达体系中，能量相关成分包括：1.2 mM AMP、0.85 mM CMP、0.85 mM GMP、0.85 mM UMP、15~83mM PEP、0.4~0.6 mM NAD、4 mM草酸钾、90 mM谷氨酸钾、2.5~10mM谷氨酸镁；在大肠杆菌体外表达体系中，添加成分包括：1.5 mM亚精胺和157.33 mM HEPES；在大肠杆菌体外表达体系中，RNase抑制剂的浓度为150U/450μL；细胞提取物在大肠杆菌体外表达体系中的体积含量为20~60%。

本申请直接通过PCR的方法引入突变，获得带有突变的PCR产物，进而以带有突变的PCR产物为模板，利用上述改进的蛋白体外表达体系直接表达带有突变的目标蛋白，进一步以体外表达的蛋白产物直接进行酶所需性状的检测筛选，实现对目标酶的定向进化。该方法不仅流程简便、操作稳定且效率高，大大加快了进化速度，而且成本低，尤其适用于工业用酶的定向进化。

需要说明的是，上述蛋白体外表达体系可以采用现有已有的或商业化的体系。在本申请上述优选的实施例中，为了进一步提高体外表达量，优选采用大肠杆菌体外表达体系，也可以是在现有大肠杆菌体外表达体系的基础上改进得到。

该改进的蛋白定向进化方法中，引入带突变的PCR产物后，无需经过酶切、连接、转化、挑单克隆、单克隆培养、转接、诱导、表达、离心收菌、重悬以及破碎等10余个步骤，而是直接进行体外表达合成，从而简单快捷地获得含突变的目标蛋白的表达产物。不仅缩短进化流程，而且减少了污染风险，操作简便且不容易引入误差，最终结果稳定性高。

对带有突变的目标蛋白进行性状检测的步骤中，根据目的蛋白的生物学性能不同，所检测的性状也有所差异。除了上述的酶活和/或异构体过量百分率外，还可以是底物特异性的不同、催化效率的不同、催化反应温度的不同，还可能是在有机相或水相等不同反应溶剂中的反应稳定性等，在实际生产中，可以根据酶的优化性能所需进行合理选择。

在一些实施例中，对带有基因突变的目标酶进行性状检测包括：利用多个带有不同的基因突变的目标酶催化相同底物反应生成相同的产物，检测不同目标酶催化底物的转化率和/或产物的对应异构体过量百分率；以初始对照酶催化底物的转化率和/或异构体过量百分率为参照，从多个目标酶中筛选获得转化率和/或对应异构体过量百分率提升的目标酶，并记为初始+1对照酶。

在另一些实施例中，在获得初始+1对照酶之后，酶定向进化的方法还包括：将初始+1对照酶迭代为初始对照酶，然后重复执行步骤S1至S3，依次类推，从而获得多个定向进化后的目标酶。

上述通过PCR扩增获得带有目标蛋白的基因突变的PCR产物的方法，可以采用所有已知的可以通过PCR的方式来实现突变的方法。在本申请一些优选的实施例中，利用如下任意一种或多种方法来获得：

1）通过两步PCR的方法扩增得到带有目标蛋白的基因突变的PCR产物；

设计2个引物对：1）F1与R1；2）F2与R2，并在2个引物对中引入含有突变位点的突变序列，利用2个引物对进行第一步PCR，分别PCR出突变位点两边的片段L1和L2，其中，片段L1和L2中间重叠区域记为L，突变位点位于L上；然后以片段L1和L2的混合物作为模板，以F1和R2为引物，进行第二步PCR，获得全长序列，全长序列即为带有目标蛋白的基因突变的PCR产物；或

2）根据定点饱和突变的原理，通过PCR扩增引入突变的方法，构建多个带有目标蛋白的基因突变的PCR产物，多个带有目标蛋白的基因突变的PCR产物构建目标蛋白基因的饱和突变体库；或

3）通过PCR扩增的方法定点引入突变，从而获得带有目标蛋白的基因突变的PCR产物；或

4）利用易错PCR的方法进行全序列随机突变，从而获得多个带有目标蛋白的基因突变的PCR产物，多个带有目标蛋白的基因突变的PCR产物覆盖目标蛋白的基因全序列的随机突变；或

5）利用多点突变的方法，获得带有目标蛋白的基因的多个突变位点的PCR产物。

上述各种引入突变的方法在本申请中并无特殊的改进之处，具体操作参照现有方法即可。

本申请上述优选的蛋白体外表达体系为经过优化的，与现有技术中的蛋白体外表达体系相比，能够提高蛋白的表达量。其中，上述细胞提取物是指大肠杆菌的细胞提取物，其主要包括核糖体、RNA聚合酶、转录和翻译蛋白，以及用于能量代谢的酶和辅因子。

在一些优选的实施例中，在大肠杆菌体外表达体系中，PEP的浓度为30 mM；优选地，NAD 的含量为0.4 mM；优选地，谷氨酸镁的含量为7.5 mM；优选地，细胞提取物在大肠杆菌体外表达体系中的体积含量为33.3%。这些优选条件下获得的蛋白表达量相对更高。

本申请中目标蛋白根据实际研究目的的不同，可以是不同的蛋白。本申请优选为工业用蛋白，尤其是工业用蛋白酶。在一些优选的实施例中，工业用蛋白酶选自如下任意一种蛋白：酯蛋白（氨酸序列如SEQ ID NO：1所示，核苷酸序列如SEQ ID NO：3所示）或转氨酶TA-1（氨酸序列如SEQ ID NO：2所示，核苷酸序列如SEQ ID NO：4所示）。

SEQ ID NO：1（氨基酸序列---264aa）：

MHSAANAKQQKHFVLVHGGCLGAWIWYKLKPLLESAGHKVTAVDLSAAGINPRRLDEIHTFRDYSEPLMEVMASIPPDEKVVLLGHSFGGMSLGLAMETYPEKISVAVFMSAMMPDPNHSLTYPFEKYNEKCPADMMLDSQFSTYGNPENPGMSMILGPQFMALKMFQNCSVEDLELAKMLTRPGSLFFQDLAKAKKFSTERYGSVKRAYIFCNEDKSFPVEFQKWFVESVGADKVKEIKEADHMGMLSQPREVCKCLLDISDS。

SEQ ID NO：3（核苷酸序列---792bp）：

atgcacagcgctgcaaacgcaaaacaacagaagcacttcgtcctggtccacggtggttgtctgggtgcttggatctggtacaaactgaaacctctgctggagtctgcaggtcataaagtgactgcagttgatctgagcgcagctggtatcaacccacgtcgtctggatgaaattcacactttccgtgattacagcgagccactgatggaagtgatggctagcatcccgccggatgaaaaagtggttctgctgggtcattctttcggtggtatgtctctgggtctggctatggaaacctacccggagaaaatctctgttgctgtgttcatgtccgccatgatgccggatccgaaccactctctgacctatccgtttgaaaagtacaacgagaagtgcccggccgatatgatgctggactctcaattctctacgtacggcaacccggaaaatccgggcatgtctatgatcctgggcccgcagtttatggcgctgaaaatgtttcagaactgtagcgtagaagacctggaactggccaaaatgctgacccgtcctggctccctgtttttccaggacctggcgaaagcgaaaaagttcagcaccgaacgttatggctccgttaaacgcgcgtatattttctgcaacgaagacaaaagcttcccggttgaattccagaaatggttcgtagagtccgttggcgcggacaaagtaaaagaaatcaaagaagcggaccacatgggcatgctgtcccagccgcgcgaagtttgcaaatgcctgctggacatttccgactcc。

SEQ ID NO：2（氨基酸序列---341aa）：

MTISKDIDYSTSNLVSVAPGAIREPTPAGSVIQYSDYELDESSPFAGGAAWIEGEYVPAAEARISLFDTGFGHSDLTYTVAHVWHGNIFRLKDHIDRVFDGAQKLRLQSPLTKAEVEDITKRCVSLSQLRESFVNITITRGYGARKGEKDLSKLTSQIYIYAIPYLWAFPPEEQIFGTSAIVPRHVRRAGRNTVDPTVKNYQWGDLTAASFEAKDRGARTAILLDADNCVAEGPGFNVVMVKDGKLSSPSRNALPGITRLTVMEMADEMGIEFTLRDITSRELYEADELIAVTTAGGITPITSLDGEPLGDGTPGPVTVAIRDRFWAMMDEPSSLVEAIEY。

SEQ ID NO：4（核苷酸序列---1035bp）：

atgaccattagcaaagacattgactatagcaccagcaacctggtgagtgtggccccgggtgcaatccgtgaacctaccccggcaggcagcgtgatccagtacagtgactacgagctggatgaaagcagcccgtttgccggtggtgcagcctggattgaaggtgagtatgttccggcagcagaggcccgtattagcctgtttgataccggcttcggccatagcgatctgacctacaccgttgcccatgtttggcacggcaacatctttcgcctgaaagaccacattgaccgcgtgtttgatggcgcccagaaactgcgtctgcagagcccgctgaccaaggccgaagtggaggatattaccaaacgctgcgtgagcctgagtcagctgcgcgagagcttcgtgaacatcaccattacccgcggttatggcgcccgcaaaggcgagaaagatctgagcaaattaaccagccagatctacatctacgccatcccgtacctgtgggcctttcctccggaagagcagatcttcggtacaagtgccattgtgccgcgtcatgttcgtcgcgcaggccgtaataccgttgatcctaccgttaagaactaccagtggggtgatctgaccgcagcttcttttgaagcaaaagatcgtggcgcccgcaccgcaatcctgctggatgcagacaactgtgtggccgagggtccgggctttaacgtggtgatggtgaaggatggcaaactgagtagcccgagccgtaatgccctgccgggtattacacgtctgaccgtgatggagatggccgatgaaatgggcatcgaattcaccctgcgcgatatcaccagccgtgagttatatgaggccgacgaactgatcgccgtgaccaccgcaggtggcattaccccgattaccagtctggatggcgaaccgctgggcgatggtacccctggtcctgtgacagtggccattcgcgatcgcttttgggccatgatggatgagccgagcagtctggtggaggccattgaatat。

在本申请第二种典型的实施方式中，提供了一种蛋白体外表达体系，该蛋白体外表达体系为大肠杆菌体外表达体系，大肠杆菌体外表达体系包括：基础成分、能量相关成分、添加成分、细胞提取物及RNase抑制剂，其中，在大肠杆菌体外表达体系中，基础成分包括：每种氨基酸的浓度为2mM的19种氨基酸；2mM的酪氨酸；14 mM的醋酸镁；60 mM的醋酸钾及7 mM 的DDT；在大肠杆菌体外表达体系中，能量相关成分包括：1.2 mM AMP、0.85 mMCMP、0.85 mM GMP、0.85 mM UMP、15~83mM PEP、0.4~0.6 mM NAD、4 mM草酸钾、90 mM谷氨酸钾、2.5~10mM谷氨酸镁；在大肠杆菌体外表达体系中，添加成分包括：1.5 mM亚精胺和157.33 mM HEPES；在大肠杆菌体外表达体系中，RNase抑制剂的浓度为150U/450μL；细胞提取物在大肠杆菌体外表达体系中的体积含量为20~60%。

在一些优选实施例中，上述大肠杆菌体外表达体系中，PEP的浓度为30 mM；优选地，NAD 的含量为0.4 mM；优选地，谷氨酸镁的含量为7.5 mM；优选地，细胞提取物在大肠杆菌体外表达体系中的体积含量为33.3%。

现有技术中，也有个别文献报道的体外蛋白表达***，其蛋白表达量一般比较低，且除了模式蛋白比如绿色荧光蛋白GFP或者其变体外，其它生物催化用酶类蛋白的报道更少。目前市售的体外表达试剂盒所表达的蛋白的产量也有几十mg/mL的水平，而这样的蛋白多用于蛋白组学研究，很少有用于工业酶的催化应用研究的。本申请优化的上述体外蛋白表达***，对于很多酶蛋白，在不经过特定优化的情况下，产量即可达到1-2 mg/mL的水平，而经过进一步优化有望获得更高的蛋白表达水平，从而能满足酶高通量筛选所需。

在本申请第三种典型的实施方式中，提供了一种蛋白定向进化的试剂盒，该试剂盒包括蛋白体外表达体系，蛋白体外表达体系为大肠杆菌体外表达体系，大肠杆菌体外表达体系包括：基础成分、能量相关成分、添加成分、细胞提取物及RNase抑制剂，其中，在大肠杆菌体外表达体系中，基础成分包括：每种氨基酸的浓度为2mM的19种氨基酸；2mM的酪氨酸；14 mM的醋酸镁；60 mM的醋酸钾及7 mM 的DDT；在大肠杆菌体外表达体系中，能量相关成分包括：1.2 mM AMP、0.85 mM CMP、0.85 mM GMP、0.85 mM UMP、15~83mM PEP、0.4~0.6mM NAD、4 mM草酸钾、90 mM谷氨酸钾、2.5~10mM谷氨酸镁；在大肠杆菌体外表达体系中，添加成分包括：1.5 mM亚精胺和157.33 mM HEPES；在大肠杆菌体外表达体系中，RNase抑制剂的浓度为150U/450μL；细胞提取物在大肠杆菌体外表达体系中的体积含量为20~60%。

下面将结合具体的实施例来进一步说明本申请的有益效果。

需要说明的是，以下实施例中如无特殊说明，所用的体外蛋白表达***均是大肠杆菌的体外蛋白表达体系，并且如无特殊说明，均是以sfGFP（superfolder Greenfluorescent protein）为例进行的试验。

实施例1：

无细胞蛋白合成体系（本申请中又叫蛋白体外表达体系）建立与优化（1 mL体系）

表1：

表1中Solution A的终浓度：1.2 mM ATP, 0.85 mM GMP, 0.85 mM UMP,0.85 mMCMP, 31.50 ug/mL 亚叶酸, 170.60 ug/mL tRNA,0.40 mM NAD, 0.27 mM 辅蛋白 A(CoA), 4 mM 乙二酸, 1 mM 丁二铵, 1.50 mM 亚精胺, 57.33 mM HEPES buffer。

Solution B的终浓度：10 mM Mg(Glu)₂, 10 mM NH₄(Glu), 130 mM K(Glu), 2 mM20种氨基酸, 0.03 M 磷酸烯醇丙酮酸 (PEP)。

体系在30℃，220 rpm下反应16 h。

以sfGFP为模式蛋白，参照表2中现有公开的体外表达体系（体系1至体系3）进行对表1中的表达体系进行优化，具体包括对Mg²⁺的浓度的优化、PEP的浓度的优化、细胞提取物在整个反应体系中的占比的优化、NAD的用量的优化以及谷氨酸胺的浓度优化。

荧光强度检测：激发光485 nm，发射光525 nm，96孔板中检测50 μL体系。标准曲线绘制如图1所示。各参数不同优化条件下的检测结果分别见图2至图6。

1）体系Mg²⁺的浓度的优化结果如图2所示，Mg²⁺浓度在2.5 mM到19.5 mM蛋白体外表达体系均可以产生sfGFP，在Mg²⁺浓度为2.5 mM到10 mM 时效果较优，7.5 mM左右时最优。

2）体系PEP的浓度优化结果如图3所示，PEP的浓度在5 mM到83 mM，蛋白体外表达体系均可以产生sfGFP，在PEP浓度为15~83mM时，蛋白合成量较优，为30 mM的时候sfGFP蛋白合成量最高。

3）细胞提取物在整个反应体系中的占比优化结果如图4所示，细胞提取物在整个体系中的占比在20%到60%均可以产生目的蛋白，且超过33%后可以得到较好的结果。

4）NAD的用量优化结果如图5所示，NAD在能量循环方面起着很重要的作用，NAD浓度为时0.6 mM表达最好，且与0.4 mM无太大差别。

5）谷氨酸胺的浓度优化结果如图6所示，从实验结果上看谷氨酸胺在整个实验过程中起不到任何作用，在不添加的情况下效果更好。

因此，对以上各参数优化后获得表2中最后一列的本申请的体外表达体系。该体系的pH为7-8，一般为pH7.5。反应时间3-16 h，一般为4 h。

表2：

上表中的细胞提取物通过如下方法获得：

活化菌株BL21 Star（DE3），划线长出单菌落。接种活化后BL21 Star（DE3）单克隆到50 ml LB液体培养基中，37℃，200 rpm过夜培养。过夜培养BL21 Star（DE3）到400 ml 2×YT培养基中，使其起始OD600=0.1。添加IPTG，使其终浓度为0.5mM，37℃培养至OD600=3.8~4.0。收集菌泥：5000 g，10℃离心10 min。缓慢倾倒上清，将菌泥转移到50 ml预冷离心管中。加30 ml S30 buffer到50 ml离心管中重悬细胞。5000 g，10℃离心10 min，去上清，用干净的滤纸将离心管中水分除干。每0.6克菌泥加1 ml 预冷的S30 buffer。重悬细胞，超声破碎，加65 μl的1 M DTT到5 ml的细胞裂解液。12000 rpm，4℃离心10 min。分装后-80℃储存使用。

实施例2

引入突变的方式为两步PCR的方法，这样可以直接得到带有突变位点的基因片段，可以直接用于蛋白体外表达。省去中间PCR产物回收、蛋白切、连接、转化、挑单克隆培养、测序、摇瓶培养或者孔板培养、诱导、离心收菌、破碎及离心取上清等一系列操作，可以直接从带有突变的PCR产物获得突变体蛋白酶。

通过两步PCR的方法引入突变点，在突变位点附近设计引物，在引物序列中引入含有突变位点的突变序列，通过第一步PCR，分别PCR出突变位点两边的片段，然后第二步PCR的时候，用第一步PCR两个产物混合作为模板，加入两端的引物，PCR获得全长序列，即可以作为蛋白体外表达体系的模板进行蛋白体外表达。

在450 µL的蛋白体外表达体系中，以sfGFP基因的PCR产物作为DNA模板，分别加入不同量的PCR产物进行蛋白体外表达。从图7可以发现，在PCR产物超过22.5 µL后一直到PCR产物加入量到90 µL，蛋白体外表达***产生的蛋白量都是比较均等的，说明PCR产物加入量在这个范围内波动，均能比较平行的产生目标蛋白。

进一步地，以sfGFP基因的PCR产物作为DNA模板，不同PCR产物分别包括起始密码子上游不同的长度，分别包括0bp、50bp、100bp、115bp、130bp及140bp，以这些PCR产物为反应体系中DNA模板时，起始密码子上游的长度对sfGFP表达结果影响如图8所示，上游50bp~140bp的长度与sfGFP蛋白的表达量影响不大，其中，当包括起始密码子上游50-100bp长度时，蛋白表达量最高。

实施例3

定点饱和突变是蛋白定向进化中常用的构建突变体的手段，在半理性设计，随机突变，甚至理性突变，或者简化的密码子突变等多种突变手段中均会使用。

本实施例中，利用蛋白体外表达体系进行定点饱和突变的构建。对氨基酸序列如SEQ ID NO：1所示的酯蛋白Asym-503029进行了饱和突变，其催化的蛋白水解反应如上述反应式所示：

（反应式I）

Asymchem-503029对目标底物有活性，然而它的立体选择性不够好，ee约61%。根据计算机结构模拟结果选择G19位点进行饱和突变，分别合成G19位点的19条引物，然后利用PCR的方法引入突变，PCR的产物直接用于蛋白体外表达体系中进行蛋白的体外合成，然后蛋白体外表达体系直接用于蛋白催化反应的验证。

图9示出其中随机挑出的8个突变体的电泳结果（从左到右依次是：分子标记、G19D、G19A、G19Y、G19H、G19N、G19M、G19F及G19S）。从图9的SDS-PAGE上可以看出，不同的突变体产生蛋白的量均一度良好，用Bio-Rad凝胶成像***对蛋白浓度进行计算，突变体的蛋白产生量均在1.5±0.1 mg/mL。

表3：蛋白体外表达***用于G19位点饱和突变的反应结果。

由上表所示的反应结果可以看出，突变体G19S大幅提高了反应的ee值到75.73%，而且其转化率也有一倍左右的提高，到33.96%。同时我们也用传统的PCR-蛋白切连接-转化-挑单克隆-摇瓶培养-超声破碎的方法做了对照反应，从图10可以看出，本申请的蛋白体外表达***的反应结果和摇瓶的反应结果是有良好的相关性的，说明这种方法用于蛋白定向进化是可行的。

但两种方法在效率上差异显著，PCR用时3 h，蛋白体外表达用时3 h，蛋白催化反应用时1 h，总共7个小时实现了从基因到蛋白到性能检测的完整过程，而这个过程用传统方法通常需要2-3周。可见，采用本申请的蛋白酶进化方法能够大大提高进化筛选的效率。

实施例4：

本实施例用蛋白体外表达体系进行定点突变的构建。定点突变是蛋白定向进化中最常使用的方法，用于理性设计、半理性设计及突变位点的叠加等等。

如实施例3中所示，Asymchem-503029对目标底物有活性，然而它的立体选择性不够好，ee约61%。对SEQ ID NO：1所示的酯蛋白Asym-503029的G19S位点进行了定点突变。

合成G19S引物，然后利用PCR的方法引入突变，同时用常规引物（不带有G19S突变的引物）PCR扩增出Asymchem-503029的母本片段作为对照，两种PCR的产物直接用于蛋白体外表达体系进行蛋白的合成，蛋白合成后的蛋白体外表达体系直接用于蛋白催化反应的验证。

结果同实施例3中所示，母本的ee值为61.1%，转化率为15.4%。突变体G19S的ee值为75.7%，转化率为33.9%。

从效率方面讲，本实施例中，PCR用时3 h，蛋白体外表达用时3 h，蛋白催化反应用时1 h，总共在7个小时里实现了从基因到蛋白到性状的完整过程，而定点突变用传统方法一般需要1-2周。

实施例5：

用蛋白体外表达体系进行全序列随机突变以及多点突变。

用于随机突变，使用概率最高的是易错PCR的方法，易错PCR的建库容量较大，但是受限于筛选通量，一般易错PCR筛选的突变体在1000-2000左右，由于概率分布，这些突变体中很多都是重复的突变，同时由于PCR对于碱基的偏好性，引入突变的位置和突变的氨基酸并不是均匀分布。

对于工业用蛋白来说，蛋白通常氨基酸的个数在300左右之间。每个位点设计5条引物，分别将该位点突变为5种代表不同的性质的氨基酸，丙氨酸A（如果该位点原本是A，则突变为G），丝氨酸S，赖氨酸K，天冬氨酸D，苯丙氨酸F分别代表了更小位阻氨基酸、极性氨基酸、正电氨基酸、负电氨基酸及芳香氨基酸5种类型，如此，易错PCR也可以用全局性PCR进行解决。

SEQ ID NO：2所示的转氨酶蛋白TA-1对底物（见反应式II）有较高的选择性，但是其活性比较差，蛋白的使用量比较大。

（反应式II）

使用全局性PCR替代易错PCR，经过测定活性获得3个突变体，L76A，S125A，A226G，蛋白活有所提高（见表4）。

然后用多点突变的方法直接构建3点突变体，分别PCR获得T7到L76A、L76A到S125A、S125A到A226G，A226G到T7 terminal四个PCR产物片段，这四个PCR产物片段用于第二步的over-lap PCR，第二步PCR的产物直接用于蛋白体外表达体系获得目标3点突变的突变体L76A+S125A+A226G用于蛋白活测定。

本实施例中第一轮非理性进化加第二轮突变位点组合共用时1周，而传统方法则需要用1.5到2个月时间。

表4：

从以上的描述中，可以看出，本发明上述的实施例实现了如下技术效果：本申请通过利用蛋白体外合成***用于加速蛋白定向进化，使用PCR的方法引入突变，结合蛋白体外表达体系进行蛋白定向进化，可用于非理性设计、理性设计和半理性设计在内的目前所有的蛋白进化手段。且步骤简便，仅需要PCR及将PCR产物直接用于蛋白体外表达2个步骤，总共在6-8 h内就可以获得目标突变体，此外不涉及微生物操作，大大降低了操作难度和风险，且实验结果的平行性很高，鲁棒性较好。

相比现有的定向进化方法，本发明的方法具有如下优势：

1）蛋白体外表达体系合成的蛋白量较高，可用于蛋白的进化。

2）本发明的蛋白进化效果数据和传统方法获得的效果数据结论一致。

3）本发明提供的蛋白进化方法，与传统实验比较，节省80%以上的时间，大大加速了蛋白进化的速度。

4）本发明提供的进化方法，步骤简便，获得的数据平行性更好。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种蛋白定向进化的方法，其特征在于，所述方法包括：

S1，通过PCR扩增获得带有目标蛋白的基因突变的PCR产物；

S2，将所述PCR产物置于蛋白体外表达体系中进行基因表达，获得带有所述基因突变的目标蛋白；

S3，对带有所述基因突变的所述目标蛋白进行性状检测，所述性状检测包括对所述目标酶的活性和/或对应异构体过量百分率进行检测；

其中，所述目标蛋白为目标酶；

所述蛋白体外表达体系为大肠杆菌体外表达体系，所述大肠杆菌体外表达体系包括：基础成分、能量相关成分、添加成分、细胞提取物及RNase抑制剂，其中，

在所述大肠杆菌体外表达体系中，所述基础成分包括：每种氨基酸的浓度为2mM的19种氨基酸、2mM的酪氨酸、14 mM的醋酸镁、60 mM的醋酸钾及7 mM 的DDT；

在所述大肠杆菌体外表达体系中，所述能量相关成分包括：1.2 mM AMP、0.85 mM CMP、0.85 mM GMP、0.85 mM UMP、15~83mM PEP、0.4~0.6 mM NAD、4 mM草酸钾、90 mM谷氨酸钾、2.5~10mM谷氨酸镁；

在所述大肠杆菌体外表达体系中，所述添加成分包括：1.5 mM亚精胺和157.33 mMHEPES；

在所述大肠杆菌体外表达体系中，所述RNase抑制剂的浓度为150U/450μL；

所述细胞提取物在所述大肠杆菌体外表达体系中的体积含量为20~60%。

2.根据权利要求1所述的方法，其特征在于，利用如下任意一种或多种方法，通过PCR扩增获得带有目标蛋白的基因突变的PCR产物：

设计2个引物对：F1与R1；和F2与R2，并在2个所述引物对中引入含有突变位点的突变序列，利用2个所述引物对进行第一步PCR，分别PCR出所述突变位点两边的片段L1和L2，其中，所述片段L1和L2中间重叠区域记为L，所述突变位点位于所述L上；然后以所述片段L1和L2的混合物作为模板，以F1和R2为引物，进行第二步PCR，获得全长序列，所述全长序列即为所述带有目标蛋白的基因突变的PCR产物；或

2）根据定点饱和突变的原理，通过PCR扩增引入突变的方法，构建多个带有目标蛋白的基因突变的PCR产物，多个所述带有目标蛋白的基因突变的PCR产物构建所述目标蛋白基因的饱和突变体库；或

4）利用易错PCR的方法进行基因全序列随机突变，从而获得多个所述带有目标蛋白的基因突变的PCR产物，多个所述带有目标蛋白的基因突变的PCR产物覆盖所述目标蛋白的基因全序列的随机突变；或

5）利用多点突变的方法，获得带有所述目标蛋白的基因的多个突变位点的PCR产物。

3.根据权利要求1所述的方法，其特征在于，在所述大肠杆菌体外表达体系中，所述PEP的浓度为30 mM；

所述NAD 的浓度为0.4 mM；

所述谷氨酸镁的浓度为7.5 mM；

所述细胞提取物在所述大肠杆菌体外表达体系中的体积含量为33.3%。

4.根据权利要求1所述的方法，其特征在于，所述目标酶选自工业用蛋白酶。

5.根据权利要求4所述的方法，其特征在于，所述工业用蛋白酶为SEQ ID NO：1所示的酯蛋白或SEQ ID NO：2所示的转氨酶TA-1。

6.根据权利要求1所述的方法，其特征在于，对带有所述基因突变的所述目标酶进行性状检测包括：

利用多个带有不同的所述基因突变的所述目标酶催化相同底物反应生成相同的产物，检测不同所述目标酶催化所述底物的转化率和/或所述产物的对应异构体过量百分率；

以初始对照酶催化所述底物的转化率和/或异构体过量百分率为参照，从多个所述目标酶中筛选获得所述转化率和/或对应异构体过量百分率提升的所述目标酶，并记为初始+1对照酶。

7.根据权利要求6所述的方法，其特征在于，在获得所述初始+1对照酶之后，所述方法还包括：将所述初始+1对照酶迭代为所述初始对照酶，然后重复执行所述步骤S1至S3，依次类推，从而获得多个定向进化后的目标酶。