CN114360645A - 一种蛋白质表达体系的密码子优化方法及蛋白质表达体系 - Google Patents

一种蛋白质表达体系的密码子优化方法及蛋白质表达体系 Download PDF

Info

Publication number
CN114360645A
CN114360645A CN202111673482.3A CN202111673482A CN114360645A CN 114360645 A CN114360645 A CN 114360645A CN 202111673482 A CN202111673482 A CN 202111673482A CN 114360645 A CN114360645 A CN 114360645A
Authority
CN
China
Prior art keywords
codon
expression system
amino acid
kluyveromyces
protein
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111673482.3A
Other languages
English (en)
Inventor
郭敏
熊亮
周伟峰
徐丽琼
徐秀珍
唐磊
曹平生
于雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kangma Healthcode Shanghai Biotech Co Ltd
Original Assignee
Kangma Healthcode Shanghai Biotech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kangma Healthcode Shanghai Biotech Co Ltd filed Critical Kangma Healthcode Shanghai Biotech Co Ltd
Priority to CN202111673482.3A priority Critical patent/CN114360645A/zh
Publication of CN114360645A publication Critical patent/CN114360645A/zh
Priority to CN202211060298.6A priority patent/CN116417065A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • Theoretical Computer Science (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)

Abstract

本发明公开了一种蛋白质表达体系的密码子优化方法及蛋白质表达体系,该密码子优化方法基于所述蛋白质表达体系中细胞提取物的来源物种的核糖体蛋白,对编码所述核糖体蛋白的DNA序列的密码子进行统计,获得核糖体蛋白氨基酸序列中每种氨基酸残基对应的同义密码子中各密码子的相对频率,选择相对频率最高的密码子,并将该密码子用作目标蛋白的氨基酸序列中同种氨基酸残基的密码子。本发明的密码子优化方法能在使用较少计算资源的情况下,快速获得一个不含特定位点,且相较于优化前具有较高蛋白表达效率的DNA序列。

Description

一种蛋白质表达体系的密码子优化方法及蛋白质表达体系
技术领域
本发明属于生物合成技术领域,尤其涉及一种蛋白质表达体系的密码子优化方法及蛋白质表达体系。
背景技术
密码子优化即通过改变待表达目标蛋白质的DNA编码序列,以达到提高目标蛋白质在表达体系内的表达量和/或表达活性的操作。
密码子优化过程需要考虑的因素主要有:DNA及其转录出的mRNA的理化性质、蛋白质表达体系的密码子偏好性、目标蛋白质的二维和三维结构等。目前常见的蛋白质表达体系的密码子优化方法考虑的主要参数包括:宿主细胞中基因的密码子偏好性、宿主细胞二联密码子偏好性、宿主细胞tRNA拷贝数、GC含量和mRNA二级结构等。
理论上,由于同义密码子的存在,用于表达同一个目标蛋白的DNA序列种类非常多,并且该DNA序列种类数会随着蛋白质氨基酸序列长度的增加而呈几何级数增长。举例来说,假设待表达目标蛋白的氨基酸序列为a1a2...an,第m位氨基酸残基(m为自然数,且1≤m≤n)对应的同义密码子的数量为xm,则该蛋白氨基酸序列对应的DNA编码序列的种类数为:
Figure BDA0003453679520000011
举例来说,对于下列一段长度为40个氨基酸残基的多肽:
DAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVV,
根据下列20种天然氨基酸列表和对应于每一种氨基酸的密码子表,
20种天然氨基酸列表
Figure BDA0003453679520000012
Figure BDA0003453679520000021
密码子表
Figure BDA0003453679520000022
各种氨基酸残基的同义密码子的数量如下表所示:
Figure BDA0003453679520000023
Figure BDA0003453679520000031
因此,如果蛋白质表达体系为真核细胞,则可能对应的DNA序列的个数为:
2*4*2*2*6*2*2*2*2*2*2*4*2*2*2*2*6*4*2*2*4*2*2*4*4*2*2*2*4*2*3*3*4*6*1*4*4*4*4*4=273,593,677,362,757,632。
对于包括更多氨基酸残基的蛋白来说,该值会指数级增长。因此,如果使用这种暴力枚举法来进行密码子优化求解,由于同义DNA序列的数量过多,在求解时将占用过多计算资源和时间。这种方法一般是直接针对编码目标蛋白的DNA序列进行优化的,最终选用哪种DNA序列进行蛋白表达还需要采用不同的DNA序列进行海量的表达实验,以从中选择表达效率较高且稳定的DNA序列,工作量巨大。另外,这种方法也未考虑到影响蛋白表达效率的其他不利因素。
发明内容
本发明的目的是克服现有密码子优化方法的上述缺点,寻找一种优化对象有别于目标蛋白的DNA编码序列,优化方法有别于暴力枚举法的密码子优化算法,以提高优化效率及优化后的目标蛋白表达效率。
核糖体是由核糖体RNA和核糖体蛋白质构成的一种特殊细胞器,在从mRNA翻译到蛋白质的过程中起到了关键性作用。经研究发现,核糖体蛋白的表达量对生物体的正常功能十分重要。鉴于核糖体蛋白在生物体内的重要性,编码核糖体蛋白的DNA受到较大的选择压力,促使其向高稳定性和高表达效率的方向演化。由此推断,基于目标生物的核糖体蛋白的编码DNA序列的密码子偏好性规律来优化目标蛋白的编码DNA序列将会大大提高目标蛋白在目标生物体内、外的表达量和/或表达活性。
在实际的蛋白质表达过程中,无论是基于有细胞还是无细胞表达体系,均需要先制备出用于编码目标蛋白质的DNA。为避免目标DNA片段被限制性内切酶降解,在保持密码子的同义性和相对较高的表达效率的前提下,需要避免相应的限制性内切酶的酶切位点。此外,鉴于特定序列可能对蛋白表达有特殊的负面影响,有时也可能需要去掉除酶切位点外的基于该特定序列的其他特定位点。
密码子优化过程中去除DNA序列中的限制性内切酶的酶切位点的问题可以看作一个约束优化问题。问题中的强制性约束为同义密码子以及需要避免的位点,优化目标为序列中的同义密码子在表达核糖体蛋白中的相对频率较高。
为实现以上发明目的,第一方面,本发明提供一种蛋白质表达体系的密码子优化方法,基于所述蛋白质表达体系中细胞提取物的来源物种的核糖体蛋白,对编码所述核糖体蛋白的DNA序列的密码子进行统计,获得核糖体蛋白氨基酸序列中每种氨基酸残基对应的同义密码子中各密码子的相对频率,选择相对频率最高的密码子,并将该密码子用作目标蛋白的氨基酸序列中同种氨基酸残基的密码子。
进一步地,所述相对频率为由统计数据经归一化处理后得到,所述统计数据包括每种氨基酸残基的同义密码子中各密码子的使用次数,同义密码子中各密码子的相对频率为自身使用次数与同义密码子中各密码子的使用次数之和的比值。
进一步地,剔除相对频率不超过0.05的密码子。
进一步地,还识别编码目标蛋白的DNA序列中是否存在限制目标蛋白表达的特定位点,若存在,则对该特定位点的核苷酸序列进行优化。
进一步地,所述特定位点为限制性内切酶的酶切位点。
进一步地,对编码目标蛋白的DNA序列的优化过程如下:输入待优化的基于目标蛋白的序列R0,如R0为DNA序列,则将其翻译成氨基酸序列;在所述氨基酸序列的每个氨基酸残基对应的同义密码子中,选择与所述核糖体蛋白的氨基酸序列中同种氨基酸残基的同义密码子中相对频率最高的密码子相同的密码子组成优化DNA序列R1。
进一步地,对所述编码目标蛋白的DNA序列进行分段优化。
进一步地,所述分段的长度为m个碱基,6≤m≤300,且为3的整数倍。
进一步地,还输入需要避免的特定位点的集合A,将所述优化DNA序列R1划分成n个分段,识别各分段中是否存在从属于所述集合A的特定位点,如存在,则对该特定位点进行优化;将各段优化后序列拼合形成优化DNA序列R2。
第二方面,本发明提供一种蛋白质表达体系,包括细胞提取物和编码目标蛋白的DNA序列,所述编码目标蛋白的DNA序列由如第一方面任一技术方案所述的蛋白质表达体系的密码子优化方法进行优化后得到。
进一步地,所述细胞提取物的来源物种为大肠杆菌、枯草芽孢杆菌、酿酒酵母、毕氏酵母和克鲁维酵母中的一种。
进一步地,所述克鲁维酵母为乳酸克鲁维酵母、马克斯克鲁维酵母、多布克鲁维酵母、海泥克鲁维酵母、非发酵克鲁维酵母、威克海姆克鲁维酵母、耐热克鲁维酵母、脆壁克鲁维酵母、湖北克鲁维酵母、多孢克鲁维酵母、暹罗克鲁维酵母和亚罗克鲁维酵母中的一种。
相对于现有技术,本发明的有益效果是:
1.优化方法的构思源于用于表达目标蛋白的细胞提取物的来源物种的核糖体蛋白的编码DNA序列的密码子偏好性,将该密码子偏好性进行定量统计后移植于目标蛋白的编码DNA序列的密码子优化,一定程度上会获得类似于核糖体蛋白的高稳定性和高表达效率的优点。该核糖体蛋白所属的核糖体是目标蛋白赖以表达的“蛋白质工厂”,从目标蛋白表达的生物机理角度进行优化,采用优化后的DNA序列可有效提高目标蛋白的表达效率和稳定性。
2.相比于全局暴力枚举方法,分段优化能使每一段优化所需考虑的同义序列数量大大减少,可大幅降低计算所需资源和时间,提高运算效率。
3.对特定位点进行优化可破坏限制性内切酶的酶切位点,也能使优化更有针对性,从而可进一步减少运算量。
附图说明
图1是本发明方法一个实施例中密码子偏好性选择流程图。
图2是本发明方法一个实施例的流程图。
图3是本发明方法一个实施例中分段优化的流程图。
图4是本发明表达体系一个实施例中优化前后表达量对比图。
图5是本发明表达体系另一个实施例中优化前后表达量对比图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例1:
乳酸克鲁维酵母(Kluyveromyces lactis)是生物工程中常用的一种酵母,能用于大规模生产蛋白质。通过对其核糖体蛋白质编码DNA序列所使用的密码子进行统计,进行归一化处理后,剔除相对频率不足0.05的密码子,所得密码子相对频率如下表所示:
Figure BDA0003453679520000051
Figure BDA0003453679520000061
Figure BDA0003453679520000071
实施例2:
参阅图1-图3,输入的DNA序列是AACCTTTGGGAAACCCTC,需要避免的位点为“CCC”和“GGG”这一相互匹配的双链,目标蛋白表达体系的来源物种为乳酸克鲁维酵母,DNA序列分段为9个字符一段,密码子的排列依据为同义密码子的相对频率。密码子优化步骤如下:
1调取上述实施例1所得的同义密码子排序。
2根据密码子表将输入的DNA序列翻译成氨基酸序列“NLWETL”;
3根据氨基酸序列和密码子排序,生成的初始DNA序列为:AACTTGTGGGAAACCTTG
4将初始的DNA序列切分成”AACTTGTGG”和”GAAACCTTG”两段
5第一段中不含需要避免的位点,因此直接作为该段的解;
6第二段中不含需要避免的位点,因此直接作为该段的解;
7按照顺序拼合序列,拼合后的结果为“AACTTGTGGGAAACCTTG”,含有位点GGG;
8对涉及的密码子组合R4:“TGGGAA”进行同义搜索,可能出现的组合有:“TGGGAA”和“TGGGAG”;
9上述两个密码子组合均无法避开“GGG”位点,因此优化失败。
实施例3:
参阅图1-图3,输入的DNA序列是ACCCTAGGACTTTACTACCGA,需要避免的位点为”GTAC”和”GGGTTT”,目标蛋白表达体系的来源物种为乳酸克鲁维酵母,DNA序列分段为9个字符一段,密码子的排列依据为同义密码子的相对频率。密码子优化步骤如下:
1调取上述实施例1所得的同义密码子排序;
2根据密码子表将输入的序列翻译成氨基酸序列”TLGLYYR”;
3根据氨基酸序列和密码子排序,生成的初始DNA序列为:ACCTTGGGTTTGTACTACAGA;
4将初始的DNA序列切分成”ACCTTGGGT”,”TTGTACTAC”和“AGA”三段;
5第一段中不含需要避免的位点,因此直接作为该段的解;
6第二段中含有“GTAC”,所涉及的密码子区域R4为:”TTGTAC”
7枚举算法生成TTGTAC对应的同义密码子的有序组合,组合为:{“TTGTAC”,”TTGTAT”,”TTATAC”,”TTATAT”,“CTATAC”,“CTATAT”};
8序列“TTGTAC”,不能满足不含”GTAC”的需求;
9序列“TTGTAT”,发现已经满足需求;
10第二段将被修改为“TTGTATTAC”;
11最后一段“AGA”不含需要避免的位点,因此将被直接拼合;
12拼合序列,生成结果为:ACCTTGGGTTTGTATTACAGA,验证该序列发现含有需要避免的位点GGGTTT,所涉及的密码子组合为“TTGGGTTTG”;
13枚举算法生成TTGGGTTTG对应的同义密码子组合,组合的前几个分别为:(1)TTGGGTTTA;(2)TTAGGTTTG;
14逐一进行检验,发现TTAGGTTTG能避开指定位点;
15将最终的序列修改成ACCTTAGGTTTGTATTACAGA;
16步骤15的序列不含需要避免的位点,因此输出优化后的序列“ACCTTAGGTTTGTATTACAGA”。
实施例4:
参阅图1-图3,输入的DNA序列是TTCGGGACATGA,不需避免位点。目标蛋白表达体系的来源物种为乳酸克鲁维酵母,DNA序列分段为9个字符一段,密码子的排列依据为同义密码子频率。密码子优化步骤如下:
1调取上述实施例1所得的同义密码子排序。
2根据密码子表将输入的序列翻译成氨基酸序列”FAT*”;
3根据氨基酸序列和密码子排序,生成的初始DNA序列为:TTCGCTACCTAA,直接输出。
实施例5:
参阅图1-图3,输入的DNA序列是ACCCTAGGACTTTACTACCGA,需要避免的位点为GGGTTTA。目标蛋白表达体系的来源物种为乳酸克鲁维酵母,DNA序列分段为9个字符一段,密码子的排列依据为同义密码子频率。密码子优化步骤如下:
1调取上述实施例1所得的同义密码子排序;
2根据密码子表将输入的序列翻译成氨基酸序列”TLGLYYR”;
3根据氨基酸序列和密码子排序,生成的初始DNA序列为:ACCTTGGGTTTGTACTACAGA;
4将初始的DNA序列切分成”ACCTTGGGT”,”TTGTACTAC”和“AGA”三段;
5三段都不含需要避免的位点,因此直接按顺序拼合三段,得:ACCTTGGGTTTGTACTACAGA;
6对步骤5对应序列进行检验,发现不含需要避免的位点,因此直接输出“ACCTTGGGTTTGTACTACAGA”。
实施例6:
比较使用本方案进行序列优化前后,目标蛋白E表达量的变化。蛋白E为荧光蛋白,可产生自发荧光,通过荧光仪读值可以得到蛋白E的荧光亮度。
蛋白E密码子优化前的核苷酸序列如下,该序列命名为EO
ATGattacagaaacatcatcaccgttcagatctatattctcccacagtgggaaaCACCACCATCACCACCACCATCACGGGAGCGGCGAGAACTTaTATTTCCAGGGATCCCGGAATGAATTCGGATCTCAATTCGAGCTCCGTCGACAAGCTgGCGGCCGCGTGAGCAAGGGCGAGGAGCTGTTCACCGGGGTGGTGCCCATCCTGGTCGAGCTGGACGGCGACGTAAACGGCCACAAGTTCAGCGTGCGCGGCGAGGGCGAGGGCGATGCCACCAACGGCAAGCTGACCCTGAAGTTCATCTGCACCACCGGCAAGCTGCCCGTGCCCTGGCCCACCCTCGTGACCACCCTGACCTACGGCGTGCAGTGCTTCAGCCGCTACCCCGACCACATGAAGCAGCACGACTTCTTCAAGTCCGCCATGCCCGAAGGCTACGTCCAGGAGCGCACCATCTCCTTCAAGGACGACGGCACCTACAAGACCCGCGCCGAGGTGAAGTTCGAGGGCGACACCCTGGTGAACCGCATCGAGCTGAAGGGCATCGACTTCAAGGAGGACGGCAACATCCTGGGGCACAAGCTGGAGTACAACTTCAACAGCCACAACGTCTATATCACGGCCGACAAGCAGAAGAACGGCATCAAGGCGAACTTCAAGATCCGCCACAACGTCGAGGACGGCAGCGTGCAGCTCGCCGACCACTACCAGCAGAACACCCCCATCGGCGACGGCCCCGTGCTGCTGCCCGACAACCACTACCTGAGCACCCAGTCCAAGCTGAGCAAAGACCCCAACGAGAAGCGCGATCACATGGTCCTGCTGGAGTTCGTGACCGCCGCCGGGATCACTCTCGGCATGGACGAGCTGTACAAG
该序列的密码子优化步骤如下:
1、该DNA所对应的氨基酸序列为:
MITETSSPFRSIFSHSGKHHHHHHHHGSGENLYFQGSRNEFGSQFELRRQAGGRVSKGEELFTGVVPILVELDGDVNGHKFSVRGEGEGDATNGKLTLKFICTTGKLPVPWPTLVTTLTYGVQCFSRYPDHMKQHDFFKSAMPEGYVQERTISFKDDGTYKTRAEVKFEGDTLVNRIELKGIDFKEDGNILGHKLEYNFNSHNVYITADKQKNGIKANFKIRHNVEDGSVQLADHYQQNTPIGDGPVLLPDNHYLSTQSKLSKDPNEKRDHMVLLEFVTAAGITLGMDELYK
2、根据实施例1的结果,给该蛋白每个氨基酸残基依次选择对应的同义密码子,所形成的核苷酸序列如下所示,该优化后序列命名为EXL:
ATGATCACCGAAACCTCTTCTCCATTCAGATCTATCTTCTCTCACTCTGGTAAGCACCACCACCACCACCACCACCACGGTTCTGGTGAAAACTTGTACTTCCAAGGTTCTAGAAACGAATTCGGTTCTCAATTCGAATTGAGAAGACAAGCTGGTGGTAGAGTTTCTAAGGGTGAAGAATTGTTCACCGGTGTTGTTCCAATCTTGGTTGAATTGGACGGTGACGTTAACGGTCACAAGTTCTCTGTTAGAGGTGAAGGTGAAGGTGACGCTACCAACGGTAAGTTGACCTTGAAGTTCATCTGTACCACCGGTAAGTTGCCAGTTCCATGGCCAACCTTGGTTACCACCTTGACCTACGGTGTTCAATGTTTCTCTAGATACCCAGACCACATGAAGCAACACGACTTCTTCAAGTCTGCTATGCCAGAAGGTTACGTTCAAGAAAGAACCATCTCTTTCAAGGACGACGGTACCTACAAGACCAGAGCTGAAGTTAAGTTCGAAGGTGACACCTTGGTTAACAGAATCGAATTGAAGGGTATCGACTTCAAGGAAGACGGTAACATCTTGGGTCACAAGTTGGAATACAACTTCAACTCTCACAACGTTTACATCACCGCTGACAAGCAAAAGAACGGTATCAAGGCTAACTTCAAGATCAGACACAACGTTGAAGACGGTTCTGTTCAATTGGCTGACCACTACCAACAAAACACCCCAATCGGTGACGGTCCAGTTTTGTTGCCAGACAACCACTACTTGTCTACCCAATCTAAGTTGTCTAAGGACCCAAACGAAAAGAGAGACCACATGGTTTTGTTGGAATTCGTTACCGCTGCTGGTATCACCTTGGGTATGGACGAATTGTACAAG
3、由于没有需要避免的位点,因此名为EXL的上述序列即密码子优化的结果。
利用蛋白表达体系表达后,测量产物的荧光值,单位RFU,如图4所示。荧光值的强弱代表了EGFP蛋白表达量的高低。从图4中可看到,密码子优化后的蛋白E(EXL)的荧光值与密码子优化前的蛋白E(EO)相比,有了明显提升。由于荧光值与蛋白表达量正相关,所以密码子优化后,蛋白E的表达量明显提升。
实施例7:
通过对蛋白L的纯化后的电泳图来判断蛋白L的表达量,比较密码子优化前后蛋白L的表达量变化。
蛋白L优化前的序列如下,记为LO
ATGAACGTTATTGCTATTTTGAACCACATGGGCGTTTACTTCAAGGAAGAACCAATTAGAGAATTGCACAGAGCTTTGGAAAGATTGAACTTCCAAATTGTTTACCCAAACGACAGAGACGACTTGTTGAAGTTGATTGAAAACAACGCTAGATTGTGCGGCGTTATTTTCGACTGGGACAAGTACAACTTGGAATTGTGCGAAGAAATTTCTAAGATGAACGAAAACTTGCCATTGTACGCTTTCGCTAACACTTACTCTACTTTGGACGTTTCTTTGAACGACTTGAGATTGCAAATTTCTTTCTTCGAATACGCTTTGGGCGCTGCTGAAGACATTGCTAACAAGATTAAGCAAACTACTGACGAATACATTAACACTATTTTGCCACCATTGACTAAGGCTTTGTTCAAGTACGTTAGAGAAGGCAAGTACACTTTCTGCACTCCAGGCCACATGGGCGGCACTGCTTTCCAAAAGTCTCCAGTTGGCTCTTTGTTCTACGACTTCTTCGGCCCAAACACTATGAAGTCTGACATTTCTATTTCTGTTTCTGAATTGGGCTCTTTGTTGGACCACTCTGGCCCACACAAGGAAGCTGAACAATACATTGCTAGAGTTTTCAACGCTGACAGATCTTACATGGTTACTAACGGCACTTCTACTGCTAACAAGATTGTTGGCATGTACTCTGCTCCAGCTGGCTCTACTATTTTGATTGACAGAAACTGCCACAAGTCTTTGACTCACTTGATGATGATGTCTGACGTTACTCCAATTTACTTCAGACCAACTAGAAACGCTTACGGCATTTTGGGCGGCATTCCACAATCTGAATTCCAACACGCTACTATTGCTAAGAGAGTTAAGGAAACTCCAAACGCTACTTGGCCAGTTCACGCTGTTATTACTAACTCTACTTACGACGGCTTGTTGTACAACACTGACTTCATTAAGAAGACTTTGGACGTTAAGTCTATTCACTTCGACTCTGCTTGGGTTCCATACACTAACTTCTCTCCAATTTACGAAGGCAAGTGCGGCATGTCTGGCGGCAGAGTTGAAGGCAAGGTTATTTACGAAACTCAATCTACTCACAAGTTGTTGGCTGCTTTCTCTCAAGCTTCTATGATTCACGTTAAGGGCGACGTTAACGAAGAAACTTTCAACGAAGCTTACATGATGCACACTACTACTTCTCCACACTACGGCATTGTTGCTTCTACTGAAACTGCTGCTGCTATGATGAAGGGCAACGCTGGCAAGAGATTGATTAACGGCTCTATTGAAAGAGCTATTAAGTTCAGAAAGGAAATTAAGAGATTGAGAACTGAATCTGACGGCTGGTTCTTCGACGTTTGGCAACCAGACCACATTGACACTACTGAATGCTGGCCATTGAGATCTGACTCTACTTGGCACGGCTTCAAGAACATTGACAACGAACACATGTACTTGGACCCAATTAAGGTTACTTTGTTGACTCCAGGCATGGAAAAGGACGGCACTATGTCTGACTTCGGCATTCCAGCTTCTATTGTTGCTAAGTACTTGGACGAACACGGCATTGTTGTTGAAAAGACTGGCCCATACAACTTGTTGTTCTTGTTCTCTATTGGCATTGACAAGACTAAGGCTTTGTCTTTGTTGAGAGCTTTGACTGACTTCAAGAGAGCTTTCGACTTGAACTTGAGAGTTAAGAACATGTTGCCATCTTTGTACAGAGAAGACCCAGAATTCTACGAAAACATGAGAATTCAAGAATTGGCTCAAAACATTCACAAGTTGATTGTTCACCACAACTTGCCAGACTTGATGTACAGAGCTTTCGAAGTTTTGCCAACTATGGTTATGACTCCATACGCTGCTTTCCAAAAGGAATTGCACGGCATGACTGAAGAAGTTTACTTGGACGAAATGGTTGGCAGAATTAACGCTAACATGATTTTGCCATACCCACCAGGCGTTCCATTGGTTATGCCAGGCGAAATGATTACTGAAGAATCTAGACCAGTTTTGGAATTCTTGCAAATGTTGTGCGAAATTGGCGCTCACTACCCAGGCTTCGAAACTGACATTCACGGCGCTTACAGACAAGCTGACGGCAGATACACTGTTAAGGTTTTGAAGGAAGAATCTAAGAAG
该序列的密码子优化步骤如下:
1、该DNA序列所对应的氨基酸序列为:
MNVIAILNHMGVYFKEEPIRELHRALERLNFQIVYPNDRDDLLKLIENNARLCGVIFDWDKYNLELCEEISKMNENLPLYAFANTYSTLDVSLNDLRLQISFFEYALGAAEDIANKIKQTTDEYINTILPPLTKALFKYVREGKYTFCTPGHMGGTAFQKSPVGSLFYDFFGPNTMKSDISISVSELGSLLDHSGPHKEAEQYIARVFNADRSYMVTNGTSTANKIVGMYSAPAGSTILIDRNCHKSLTHLMMMSDVTPIYFRPTRNAYGILGGIPQSEFQHATIAKRVKETPNATWPVHAVITNSTYDGLLYNTDFIKKTLDVKSIHFDSAWVPYTNFSPIYEGKCGMSGGRVEGKVIYETQSTHKLLAAFSQASMIHVKGDVNEETFNEAYMMHTTTSPHYGIVASTETAAAMMKGNAGKRLINGSIERAIKFRKEIKRLRTESDGWFFDVWQPDHIDTTECWPLRSDSTWHGFKNIDNEHMYLDPIKVTLLTPGMEKDGTMSDFGIPASIVAKYLDEHGIVVEKTGPYNLLFLFSIGIDKTKALSLLRALTDFKRAFDLNLRVKNMLPSLYREDPEFYENMRIQELAQNIHKLIVHHNLPDLMYRAFEVLPTMVMTPYAAFQKELHGMTEEVYLDEMVGRINANMILPYPPGVPLVMPGEMITEESRPVLEFLQMLCEIGAHYPGFETDIHGAYRQADGRYTVKVLKEESKK
2、根据实施例1的结果,给该蛋白每个氨基酸残基依次选择对应的同义密码子,所形成的核苷酸序列如下所示,该序列记为LXL:
ATGAACGTTATCGCTATCTTGAACCACATGGGTGTTTACTTCAAGGAAGAACCAATCAGAGAATTGCACAGAGCTTTGGAAAGATTGAACTTCCAAATCGTTTACCCAAACGACAGAGACGACTTGTTGAAGTTGATCGAAAACAACGCTAGATTGTGTGGTGTTATCTTCGACTGGGACAAGTACAACTTGGAATTGTGTGAAGAAATCTCTAAGATGAACGAAAACTTGCCATTGTACGCTTTCGCTAACACCTACTCTACCTTGGACGTTTCTTTGAACGACTTGAGATTGCAAATCTCTTTCTTCGAATACGCTTTGGGTGCTGCTGAAGACATCGCTAACAAGATCAAGCAAACCACCGACGAATACATCAACACCATCTTGCCACCATTGACCAAGGCTTTGTTCAAGTACGTTAGAGAAGGTAAGTACACCTTCTGTACCCCAGGTCACATGGGTGGTACCGCTTTCCAAAAGTCTCCAGTTGGTTCTTTGTTCTACGACTTCTTCGGTCCAAACACCATGAAGTCTGACATCTCTATCTCTGTTTCTGAATTGGGTTCTTTGTTGGACCACTCTGGTCCACACAAGGAAGCTGAACAATACATCGCTAGAGTTTTCAACGCTGACAGATCTTACATGGTTACCAACGGTACCTCTACCGCTAACAAGATCGTTGGTATGTACTCTGCTCCAGCTGGTTCTACCATCTTGATCGACAGAAACTGTCACAAGTCTTTGACCCACTTGATGATGATGTCTGACGTTACCCCAATCTACTTCAGACCAACCAGAAACGCTTACGGTATCTTGGGTGGTATCCCACAATCTGAATTCCAACACGCTACCATCGCTAAGAGAGTTAAGGAAACCCCAAACGCTACCTGGCCAGTTCACGCTGTTATCACCAACTCTACCTACGACGGTTTGTTGTACAACACCGACTTCATCAAGAAGACCTTGGACGTTAAGTCTATCCACTTCGACTCTGCTTGGGTTCCATACACCAACTTCTCTCCAATCTACGAAGGTAAGTGTGGTATGTCTGGTGGTAGAGTTGAAGGTAAGGTTATCTACGAAACCCAATCTACCCACAAGTTGTTGGCTGCTTTCTCTCAAGCTTCTATGATCCACGTTAAGGGTGACGTTAACGAAGAAACCTTCAACGAAGCTTACATGATGCACACCACCACCTCTCCACACTACGGTATCGTTGCTTCTACCGAAACCGCTGCTGCTATGATGAAGGGTAACGCTGGTAAGAGATTGATCAACGGTTCTATCGAAAGAGCTATCAAGTTCAGAAAGGAAATCAAGAGATTGAGAACCGAATCTGACGGTTGGTTCTTCGACGTTTGGCAACCAGACCACATCGACACCACCGAATGTTGGCCATTGAGATCTGACTCTACCTGGCACGGTTTCAAGAACATCGACAACGAACACATGTACTTGGACCCAATCAAGGTTACCTTGTTGACCCCAGGTATGGAAAAGGACGGTACCATGTCTGACTTCGGTATCCCAGCTTCTATCGTTGCTAAGTACTTGGACGAACACGGTATCGTTGTTGAAAAGACCGGTCCATACAACTTGTTGTTCTTGTTCTCTATCGGTATCGACAAGACCAAGGCTTTGTCTTTGTTGAGAGCTTTGACCGACTTCAAGAGAGCTTTCGACTTGAACTTGAGAGTTAAGAACATGTTGCCATCTTTGTACAGAGAAGACCCAGAATTCTACGAAAACATGAGAATCCAAGAATTGGCTCAAAACATCCACAAGTTGATCGTTCACCACAACTTGCCAGACTTGATGTACAGAGCTTTCGAAGTTTTGCCAACCATGGTTATGACCCCATACGCTGCTTTCCAAAAGGAATTGCACGGTATGACCGAAGAAGTTTACTTGGACGAAATGGTTGGTAGAATCAACGCTAACATGATCTTGCCATACCCACCAGGTGTTCCATTGGTTATGCCAGGTGAAATGATCACCGAAGAATCTAGACCAGTTTTGGAATTCTTGCAAATGTTGTGTGAAATCGGTGCTCACTACCCAGGTTTCGAAACCGACATCCACGGTGCTTACAGACAAGCTGACGGTAGATACACCGTTAAGGTTTTGAAGGAAGAATCTAAGAAG
3、由于没有需要避免的位点,因此名为LXL的上述序列即密码子优化的结果。
利用体外蛋白表达体系表达后,进行镍磁珠亲和纯化。因为在蛋白L的C末端带有histag标签,可与镍发生特异性吸附。对纯化后洗脱下来的蛋白进行SDS-PAGE,比较蛋白L的表达量,如图5所示,蛋白L的大小为82.8kDa,如,5中箭头所示。结果显示,经过密码子优化后,表达量有了明显提升,目的蛋白电泳条带明显增强。
在本发明中提及的蛋白表达体系请参考本申请人的相关在先专利文献,就如同每一篇文献被单独引用作为参考那样。此外应理解,在阅读了本发明的上述讲授内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims (12)

1.一种蛋白质表达体系的密码子优化方法,其特征在于,基于所述蛋白质表达体系中细胞提取物的来源物种的核糖体蛋白,对编码所述核糖体蛋白的DNA序列的密码子进行统计,获得核糖体蛋白氨基酸序列中每种氨基酸残基对应的同义密码子中各密码子的相对频率,选择相对频率最高的密码子,并将该密码子用作目标蛋白的氨基酸序列中同种氨基酸残基的密码子。
2.如权利要求1所述的蛋白质表达体系的密码子优化方法,其特征在于,所述相对频率为由统计数据经归一化处理后得到,所述统计数据包括每种氨基酸残基的同义密码子中各密码子的使用次数,同义密码子中各密码子的相对频率为自身使用次数与同义密码子中各密码子的使用次数之和的比值。
3.如权利要求2所述的蛋白质表达体系的密码子优化方法,其特征在于,剔除相对频率不超过0.05的密码子。
4.如权利要求1所述的蛋白质表达体系的密码子优化方法,其特征在于,还识别编码目标蛋白的DNA序列中是否存在限制目标蛋白表达的特定位点,若存在,则对该特定位点的核苷酸序列进行优化。
5.如权利要求4所述的蛋白质表达体系的密码子优化方法,其特征在于,所述特定位点为限制性内切酶的酶切位点。
6.如权利要求1所述的蛋白质表达体系的密码子优化方法,其特征在于,对编码目标蛋白的DNA序列的优化过程如下:输入待优化的基于目标蛋白的序列R0,如R0为DNA序列,则将其翻译成氨基酸序列;在所述氨基酸序列的每个氨基酸残基对应的同义密码子中,选择与所述核糖体蛋白的氨基酸序列中同种氨基酸残基的同义密码子中相对频率最高的密码子相同的密码子组成优化DNA序列R1。
7.如权利要求6所述的蛋白质表达体系的密码子优化方法,其特征在于,对所述编码目标蛋白的DNA序列进行分段优化。
8.如权利要求7所述的蛋白质表达体系的密码子优化方法,其特征在于,所述分段的长度为m个碱基,6≤m≤300,且为3的整数倍。
9.如权利要求8所述的蛋白质表达体系的密码子优化方法,其特征在于,还输入需要避免的特定位点的集合A,将所述优化DNA序列R1划分成n个分段,识别各分段中是否存在从属于所述集合A的特定位点,如存在,则对该特定位点进行优化;将各段优化后序列拼合形成优化DNA序列R2。
10.一种蛋白质表达体系,其特征在于,包括细胞提取物和编码目标蛋白的DNA序列,所述编码目标蛋白的DNA序列由如权利要求1-9任一项所述的蛋白质表达体系的密码子优化方法进行优化后得到。
11.如权利要求10所述的蛋白质表达体系,其特征在于,所述细胞提取物的来源物种为大肠杆菌、枯草芽孢杆菌、酿酒酵母、毕氏酵母和克鲁维酵母中的一种。
12.如权利要求11所述的蛋白质表达体系,其特征在于,所述克鲁维酵母为乳酸克鲁维酵母、马克斯克鲁维酵母、多布克鲁维酵母、海泥克鲁维酵母、非发酵克鲁维酵母、威克海姆克鲁维酵母、耐热克鲁维酵母、脆壁克鲁维酵母、湖北克鲁维酵母、多孢克鲁维酵母、暹罗克鲁维酵母和亚罗克鲁维酵母中的一种。
CN202111673482.3A 2021-12-31 2021-12-31 一种蛋白质表达体系的密码子优化方法及蛋白质表达体系 Pending CN114360645A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111673482.3A CN114360645A (zh) 2021-12-31 2021-12-31 一种蛋白质表达体系的密码子优化方法及蛋白质表达体系
CN202211060298.6A CN116417065A (zh) 2021-12-31 2022-08-31 一种蛋白质表达体系的密码子优化方法及蛋白质表达体系

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111673482.3A CN114360645A (zh) 2021-12-31 2021-12-31 一种蛋白质表达体系的密码子优化方法及蛋白质表达体系

Publications (1)

Publication Number Publication Date
CN114360645A true CN114360645A (zh) 2022-04-15

Family

ID=81105391

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202111673482.3A Pending CN114360645A (zh) 2021-12-31 2021-12-31 一种蛋白质表达体系的密码子优化方法及蛋白质表达体系
CN202211060298.6A Pending CN116417065A (zh) 2021-12-31 2022-08-31 一种蛋白质表达体系的密码子优化方法及蛋白质表达体系

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202211060298.6A Pending CN116417065A (zh) 2021-12-31 2022-08-31 一种蛋白质表达体系的密码子优化方法及蛋白质表达体系

Country Status (1)

Country Link
CN (2) CN114360645A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115440300A (zh) * 2022-11-07 2022-12-06 深圳市瑞吉生物科技有限公司 一种密码子序列优化方法、装置、计算机设备及存储介质
CN117095752A (zh) * 2023-08-21 2023-11-21 基诺创物(武汉市)科技有限公司 保持密码子偏好性的dna蛋白质编码区域流式数据存储方法
WO2024109911A1 (zh) * 2022-11-24 2024-05-30 南京金斯瑞生物科技有限公司 密码子优化

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115440300A (zh) * 2022-11-07 2022-12-06 深圳市瑞吉生物科技有限公司 一种密码子序列优化方法、装置、计算机设备及存储介质
CN115440300B (zh) * 2022-11-07 2023-01-20 深圳市瑞吉生物科技有限公司 一种密码子序列优化方法、装置、计算机设备及存储介质
WO2024109911A1 (zh) * 2022-11-24 2024-05-30 南京金斯瑞生物科技有限公司 密码子优化
CN117095752A (zh) * 2023-08-21 2023-11-21 基诺创物(武汉市)科技有限公司 保持密码子偏好性的dna蛋白质编码区域流式数据存储方法
CN117095752B (zh) * 2023-08-21 2024-03-19 基诺创物(武汉市)科技有限公司 保持密码子偏好性的dna蛋白质编码区域流式数据存储方法

Also Published As

Publication number Publication date
CN116417065A (zh) 2023-07-11

Similar Documents

Publication Publication Date Title
CN114360645A (zh) 一种蛋白质表达体系的密码子优化方法及蛋白质表达体系
Xu et al. Engineered miniature CRISPR-Cas system for mammalian genome regulation and editing
Harris et al. Phylogenomic evidence for the monophyly of bryophytes and the reductive evolution of stomata
Dunkelmann et al. Engineered triply orthogonal pyrrolysyl–tRNA synthetase/tRNA pairs enable the genetic encoding of three distinct non-canonical amino acids
Quax et al. Codon bias as a means to fine-tune gene expression
Krassowski et al. Evolutionary instability of CUG-Leu in the genetic code of budding yeasts
CN112513989B (zh) 密码子优化
Jukes et al. Evolutionary changes in the genetic code.
Heux et al. White biotechnology: state of the art strategies for the development of biocatalysts for biorefining
Blanchet et al. New insights into the incorporation of natural suppressor tRNAs at stop codons in Saccharomyces cerevisiae
Anderson et al. An expanded genetic code with a functional quadruplet codon
Mukai et al. Codon reassignment in the Escherichia coli genetic code
Hockenberry et al. Quantifying position-dependent codon usage bias
Shulgina et al. A computational screen for alternative genetic codes in over 250,000 genomes
Mignon et al. Codon harmonization–going beyond the speed limit for protein expression
CN101490262A (zh) 实现改进的多肽表达的方法
Mühlhausen et al. Endogenous stochastic decoding of the CUG codon by competing Ser-and Leu-tRNAs in Ascoidea asiatica
Baisya et al. Genome-wide functional screens enable the prediction of high activity CRISPR-Cas9 and-Cas12a guides in Yarrowia lipolytica
CN110491447B (zh) 一种用于异源基因体外表达的密码子优化方法及应用
Bachvaroff A precedented nuclear genetic code with all three termination codons reassigned as sense codons in the syndinean Amoebophrya sp. ex Karlodinium veneficum
Zhao et al. Bioinformatics analysis of alternative polyadenylation in green alga Chlamydomonas reinhardtii using transcriptome sequences from three different sequencing platforms
Zhang et al. Systematic dissection of key factors governing recombination outcomes by GCE-SCRaMbLE
Willems et al. Lost and found: re-searching and re-scoring proteomics data aids genome annotation and improves proteome coverage
Herzel et al. Ubiquitous mRNA decay fragments in E. coli redefine the functional transcriptome
Villada et al. Integrated analysis of individual codon contribution to protein biosynthesis reveals a new approach to improving the basis of rational gene design

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20220415