CN110997924A

CN110997924A - 用于在肝中表达感兴趣的蛋白的平台

Info

Publication number: CN110997924A
Application number: CN201880052875.2A
Authority: CN
Inventors: 金奭中; 宋东佑; 李圭晙; 李贞慜; 金云起
Original assignee: Toolgen Inc
Current assignee: Toolgen Inc
Priority date: 2017-06-15
Filing date: 2018-06-15
Publication date: 2020-04-10
Also published as: US20210095316A1; JP7123982B2; CA3067316A1; KR20180136914A; US20230287461A1; WO2018231018A3; JP2020527030A; JP2022166155A; SG11201911623WA; WO2018231018A2; AU2018283686A2; US11667934B2; AU2018283686A1; EP3640335A2; EP3640335A4

Abstract

本说明书涉及通过对肝进行人工操纵来表达感兴趣的蛋白的平台，更具体而言，涉及通过如下方式来减轻或治疗遗传性疾病或者改善机体功能的平台：将能够具有正常功能和表达的转基因(例如治疗性基因)***高表达分泌型基因中代替功能或表达异常的疾病基因，并诱导该转基因表达。高表达分泌型基因包括HP基因或APOC3基因。转基因包括借助肝细胞基因组中的启动子以高水平表达并被分泌至细胞外的转基因。

Description

用于在肝中表达感兴趣的蛋白的平台

技术领域

本发明涉及通过对肝进行人工操纵或修饰来表达感兴趣的蛋白的平台。更具体而言，本发明涉及使用引导核酸和/或编辑蛋白，通过诱导能够正常发挥功能或表达的转基因(例如治疗性基因)的表达来代替功能或表达异常的疾病基因来减轻或治疗遗传性紊乱或改善机体功能的平台。

背景技术

基因治疗在人类工程的新时代具有巨大的潜力。基因治疗包括基因组编辑技术，例如基因破坏、基因修饰和转基因的***(所述转基因可通过与其融合的特定外源启动子或在基因组***位点处发现的内源启动子进行调节)。

如今，难治性血友病或溶酶体贮积病没有合适的治疗剂，主要用于治疗的是使用酶或蛋白替代物的替代疗法，但该疗法不是根治性疗法。此外，在临床试验中正在进行使用AAV表达治疗性基因的方法，但是也可以预期这些方法仅在AAV表达时有效，因此它们不能是根治且长期的治疗方法。

因此，存在对用于更长久且更有效治疗的治疗平台的需求，所述平台通过将真正的治疗性基因***患者的基因组中以使得能够永久性表达。此类治疗平台与通过治疗剂的暂时和重复给予的现有治疗方法不同，并且可以使用用于基因修正的有效的靶标特异性可编程核酸酶开发高效的治疗平台，以将治疗性基因***患者的基因组中。

为此原因，本发明人旨在开发能够使用靶标特异性可编程核酸酶来持续表达感兴趣的基因的治疗平台。特别是，为了高效率，通过确定在器官或组织(例如肝)中高表达的基因的位点作为感兴趣的基因的***位点，完成了有效的平台。

发明内容

技术问题

本发明旨在提供使用CRISPR-Cas***在肝细胞中表达感兴趣的蛋白的平台。

本发明还旨在提供用于表达感兴趣的蛋白的组合物及其各种用途，所述组合物包含感兴趣的蛋白或编码所述感兴趣的蛋白的序列并使用CRISPR-Cas***。

本发明还旨在提供使用CRISPR-Cas***来表达感兴趣的蛋白的细胞及制备所述细胞的方法。

本发明还旨在提供使用CRISPR-Cas***在肝细胞中表达感兴趣的蛋白的方法。

本发明还旨在提供对遗传性紊乱进行治疗的方法，所述方法包括向待治疗的受试者给予用于在肝细胞中表达感兴趣的蛋白的组合物。

本发明还涉及提供引导核酸和编辑蛋白，所述引导核酸和编辑蛋白能够用于操纵相应的靶基因，以在肝细胞中表达感兴趣的蛋白。

技术方案

为了解决上述问题，本发明提供了在肝细胞中表达感兴趣的蛋白的平台。更具体而言，本发明提供了用于通过如下方式来改善机体功能和治疗遗传疾病的平台：使用CRISPR-Cas***将编码感兴趣的蛋白的基因***靶基因中来持续地以高水平表达该蛋白；还提供经人工修饰的细胞、器官或组织。

本文所使用的“肝生物工厂平台(Liver biofactory platform)”是能够通过将特定转基因***肝细胞来持续表达感兴趣的蛋白的***，所述***包括其中直接或间接涉及的所有组合物、方法和用途。

在一个实例中，可将人工***的转基因能整合在肝细胞中高表达分泌型基因内。

高表达分泌型基因为选自于由如下基因所组成的组的至少一种：存在于肝细胞基因组中的ALB基因、FTL基因、FTH1基因、ACTB基因、HP基因、APOC3基因、SOD2基因、ORM1基因和F9基因。

与***前相比转基因表达较高，或者转基因在肝细胞中新表达。

另外，本文公开的公开内容涉及包含靶标特异性可编程核酸酶的用于在肝细胞中表达感兴趣的蛋白的组合物；具体而言，涉及用于操纵基因的组合物，所述组合物包含用于将转基因***高表达分泌型基因的可编程核酸酶，所述高表达分泌型基因是选自高表达分泌型基因的组中的一个或多个基因。

在一个实例中，本发明提供了用于表达感兴趣的蛋白的组合物，所述组合物包含：引导核酸，所述引导核酸与选自在肝中表达的高表达分泌型基因的组中的一个或多个基因的靶序列相对应；

编辑蛋白或编码编辑蛋白的核酸；以及

供体(donor)，所述供体包含编码感兴趣的蛋白的核苷酸序列。

“高表达分泌型基因”是指在肝细胞中以预定水平或更高水平表达的基因，所述基因在肝细胞中高度表达，从而使得表达产物被分泌出肝细胞。高表达分泌型基因存在于如下位点：在所述位点中，高表达分泌型基因能在肝细胞基因组中高水平持续表达；并且，可具有安全港位点(safe harbour site)的功能。

高表达分泌型基因可以是选自于由如下所组成的组中的至少一种：ALB基因、FTL基因、FTH1基因、ACTB基因、HP基因、APOC3基因、SOD2基因、ORM1基因、AAVS1基因、Rosa基因、HPRT基因和CCR5基因。

高表达分泌型基因可优选为HP基因或APOC3基因。

可编程核酸酶是指人工工程化的核酸酶，在实例中，可编程核酸酶为选自于由如下核酸酶所组成的组中的至少一种：成簇的规律间隔的短回文重复序列(CRISPR)-CRISPR相关蛋白(Cas)***、锌指核酸酶(ZFN)、转录激活因子样效应物核酸酶(TALEN)。

关于核苷酸序列中的修饰，可通过使用CRISPR-Cas***不受限制地进行人工操纵。

“CRISPR-Cas***”是指由识别和结合至感兴趣的基因的序列的引导核酸与切割靶基因的编辑蛋白之间的相互作用形成的***，CRISPR-Cas***包含引导核酸和编辑蛋白。

CRISPR-Cas***可对靶标进行修饰。靶标可以是靶核酸、基因、染色体或蛋白。

编辑蛋白为选自于由如下蛋白所组成的组中的一种或多种蛋白：酿脓链球菌(Streptococcus pyogenes)衍生而来的Cas9蛋白、空肠弯曲杆菌(Campylobacter jejuni)衍生而来的Cas9蛋白、嗜热链球菌(Streptococcus thermophilus)衍生而来的Cas9蛋白、金黄色葡萄球菌(Streptocuccus aureus)衍生而来的Cas9蛋白、脑膜炎奈瑟菌(Neisseriameningitidis)衍生而来的Cas9蛋白、以及Cpf1蛋白，或编码所述蛋白的核酸。在实例中，编辑蛋白可以是酿脓链球菌衍生而来的Cas9蛋白或空肠弯曲杆菌衍生而来的Cas9蛋白。

靶序列可以是位于高表达分泌型基因序列的外显子区的连续的10bp-25bp的核苷酸序列。

靶序列可以是位于高表达分泌型基因序列的内含子区的连续的10bp-25bp的核苷酸序列。

靶序列可为选自于由SEQ ID NO:1-SEQ ID NO:348所组成的组中的至少一种。

指导核酸能够与选自高表达分泌型基因的组中的至少一种基因的核苷酸序列的一部分形成互补结合。引导核酸可以包含与靶序列0-5个核苷酸、0-4个核苷酸、0-3个核苷酸、或0-2个核苷酸的错配。

在一个实施方式中，本文公开的公开内容包含针对高表达分泌型基因的引导核酸，所述高表达分泌型基因为选自于由如下基因所组成的组中的至少一种：ALB基因、FTL基因、FTH1基因、ACTB基因、HP基因、APOC3基因、SOD2基因、ORM1基因、AAVS1基因、Rosa基因、HPRT基因和CCR5基因。

在实例中，可以提供选自如下组的一种或多种引导核酸：

针对选自于由HP基因序列的SEQ ID NO:1-SEQ ID NO:153所组成的组中的靶序列的引导核酸；

针对选自于由APOC3基因序列的SEQ ID NO:168-SEQ ID NO:348所组成的组中的靶序列的引导核酸。

在一个实施方式中，用于修饰基因的组合物提供了

引导核酸，所述引导核酸与选自于由SEQ ID NO:1-SEQ ID NO:40和SEQ ID NO:154-SEQ ID NO:167所组成的组中的靶序列相对应；并且

所述组合物进一步包含空肠弯曲杆菌衍生而来的Cas9蛋白，或编码该Cas9蛋白的核酸。

在另一实施方式中，用于修饰基因的组合物提供了

引导核酸，所述引导核酸与选自于由SEQ ID NO:41-SEQ ID NO:134和SEQ ID NO:168-SEQ ID NO:332所组成的组中的靶序列相对应；并且

所述组合物进一步包含酿脓链球菌衍生而来的Cas9蛋白，或编码该Cas9蛋白的核酸。

引导核酸可不受限地为18-25bp、18-24bp、18-23bp、19-23bp和20-23bp的核苷酸序列中的任一个。

引导RNA(gRNA)可以以双RNA(dual RNA，包含crRNA和tracrRNA)或单引导RNA(sgRNA)的形式存在或。

本文公开的公开内容包括转基因，所述转基因为编码感兴趣的蛋白的基因。

感兴趣的蛋白的表达能够发挥功能以替代现有蛋白或提供新蛋白。或者，表达体内缺乏或缺失的蛋白，从而治疗由该蛋白的缺乏或缺失而引起的疾病或者增强相应蛋白的功能。

例如，感兴趣的蛋白可以是与现有蛋白具有不同特征(例如，血清半衰期增加)的蛋白。

例如，感兴趣的蛋白可以是特定疾病的治疗性基因。治疗性基因可以是影响与遗传性紊乱有关的致病基因的表达和功能的基因。治疗性基因可以是与遗传性紊乱有关的致病基因(正常基因的突变形式)的正常型基因的部分(例如功能结构域)。

所述疾病可以是能够通过抗体进行治疗的疾病。

所述疾病可由多种基因的突变所致。例如，所述疾病可为与“遗传代谢紊乱”有关的疾病。例如，所述疾病可为血友病。

治疗性基因(即致病基因的正常形式)可选自于由FVII、FVIII、FIX和不同凝血因子所组成的组。

治疗性基因(即致病基因的正常形式)可选自于由IDUA、I2S、SGSH、NAGLU、HGSNAT、GNS、GALNS、GLB1、ARSB、GUSB、HYAL、NEU、GNPTAB和MCOLN1所组成的组。

治疗性基因(即致病基因的正常形式)可选自于由SAH1、GALC、CTSA、GLA、NAGA、β-半乳糖苷酶、己糖胺酶、GBA、SMPD1、ARSA和SUMF所组成的组。

治疗性基因(即致病基因的正常形式)可选自于由NPC、PPT、TPP1、CLN3、CLN6、PPT1、DNAJC5、CTSF、CLN7、CLN8和CTSD所组成的组。

治疗性基因(即致病基因的正常形式)可为GAA或LAMP2。

治疗性基因(即致病基因的正常形式)可为CTNS、CTSK或SLC17A5。

治疗性基因(即致病基因的正常形式)可选自于由MAN2B、MAN2C、MANBA、AGA、FUCA1和LAL所组成的组。

治疗性基因(即致病基因的正常形式)可为编码选自于由如下蛋白所组成的组中的蛋白的基因：甲基丙二酸尿症CbIA型(MMAA)蛋白、甲基丙二酸尿症CbIB型(MMAB)蛋白、甲基丙二酸尿症CbIC型(MMADHC)蛋白、5-甲基四氢叶酸-同型半胱氨酸甲基转移酶还原酶(MTRR)蛋白、溶酶体膜蛋白结构域(LMBRD 1)蛋白、5-甲基四氢叶酸-同型半胱氨酸甲基转移酶(MTR)蛋白、丙酰-CoA蛋白、葡萄糖-6-磷酸转运(G6PT)蛋白、葡萄糖-6-磷酸酶(G6Pase)蛋白、低密度脂蛋白受体(LDLR)蛋白、低密度脂蛋白受体接头蛋白1(LDLRAP-1蛋白)、N-乙酰谷氨酸合成酶(NAGS)蛋白、氨基甲酰磷酸合成酶1(CPS1)蛋白、鸟氨酸氨甲酰转移酶(OTC)蛋白、精氨琥珀酸合成酶(ASS)蛋白、精氨琥珀酸裂解酶(ASL)蛋白、精氨酸酶(ARG1)蛋白、溶质载体家族25蛋白(solute carrier family 25protein)、UDP葡萄糖醛酸基转移酶1家族多肽A1(UGT1A1)蛋白、延胡索酰乙酰乙酸水解酶(FAH)、丙氨酸-乙醛酸氨基转移酶(AGXT)蛋白、乙醛酸还原酶/羟基丙酮酸还原酶(GRHPR)蛋白、APTase Cu(2+)转运β(ATP7B)蛋白，苯丙氨酸羟化酶(PAH)蛋白和脂蛋白裂解酶(LPL)蛋白。

治疗性基因可以是编码抗体的基因。即，治疗性基因可以是编码蛋白或多肽的基因，所述蛋白或多肽通过抗体阻断与病因有关的特定因子或信号途径。

治疗性基因可与能够穿透到特定组织(例如血脑屏障(BBB))中的特定肽融合，或与能够增加治疗性基因的治疗效果的功能肽融合。

此外，本申请文件提供了使用引导核酸和/或编辑蛋白而来的***有转基因的人工修饰的细胞、组织或器官。

修饰的细胞、组织或器官为如下的器官或组织：在其中，通过使用CRISPR-Cas***将转基因***感兴趣的基因组基因中的靶序列中来表达感兴趣的蛋白。在人工修饰的细胞、组织或器官中，通过将感兴趣的蛋白***肝细胞中高表达分泌型基因位置，来使所述感兴趣的蛋白以一定水平或更高水平持续高表达。

在本文公开的公开内容的一个示例性实施方式中，

高表达分泌型基因可以是选自于由FTL基因、FTH1基因、ACTB基因、HP基因、APOC3基因、SOD2基因、ORM1基因和F9基因所组成的组中的至少一种，

人工***高表达分泌型基因中的转基因，以及

包含由转基因表达的感兴趣的蛋白的肝细胞。

在一个实例中，高表达分泌型基因可为HP基因或APOC3基因。

转基因可以包含在高表达分泌型基因的外显子或内含子中。

转基因由原本存在于肝细胞基因组中的启动子表达。

肝细胞可以是不受限制地包含经操纵的基因座(例如，高表达分泌型基因基因座)的肝干细胞。能够与本说明书的方法和组合物一起使用的特定干细胞类型包括成体干细胞、胚胎干细胞(ESC)和诱导多能干细胞(iPSC)。

在本文公开的公开内容的另一示例性实施方式中，

作为通过将转基因人工***肝细胞基因组中来人工操纵肝细胞以表达感兴趣的蛋白的方法，

所述方法包括：

向肝细胞中导入可编程核酸酶，以操纵存在于肝细胞基因组中的高表达分泌型基因，以及包含转基因的供体序列，

其中，将转基因***存在于肝细胞基因组中的高表达分泌型基因中，并且

所述高表达分泌型基因为选自FTL、FTH1、ACTB、HP、APOC3、SOD2、ORM1和F9中的一种或多种基因。

将引导核酸、编辑蛋白和供体导入肝细胞可通过选自脂质体、质粒、病毒载体、纳米粒子或蛋白易位结构域(PTD)融合蛋白中的一种或多种手段实施。

可以以核酸序列的形式在至少一个载体中分别编码引导核酸、编辑蛋白和供体。

载体可为病毒载体***。病毒载体可为选自于由腺病毒、腺相关病毒(AAV)、痘苗病毒、痘病毒、单纯疱疹病毒和慢病毒所组成的组中的至少一种。

此外，将可编程核酸酶和供体导入肝细胞中在体外实施。

受试者内(intra-subject)递送方法可以是***性给予或局部给予。***性给予可为静脉内给予。

此外，将可编程核酸酶和供体导入肝细胞在离体实施。受试者内递送方法可为电穿孔。

在本文公开的公开内容的又一示例性实施例中，

提供了对特定疾病进行治疗的方法，所述方法包括给予用于在肝细胞中以一定水平或更高水平持续表达感兴趣的蛋白的组合物，以治疗所述特定疾病。

特定疾病可为由特定蛋白的缺乏或缺失引起的疾病。

治疗方法包括向待治疗的受试者给予组合物，所述组合物包含用于操纵基因以使人工***至肝细胞基因组的转基因表达的组合物作为活性成分。

用于操纵基因的组合物可包括选自成簇的规律间隔的短回文重复序列(CRISPR)-CRISPR相关蛋白(Cas)***、锌指核酸酶(ZFN)或转录激活因子样效应物核酸酶(TALEN)中的至少一种。

例如，作为对血友病进行治疗的方法，

公开了对血友病进行治疗的方法，所述方法包括给予用于操纵基因以将转基因F9***肝细胞中的HP或APOC3基因序列中的组合物。

待治疗的受试者可以为包含灵长类动物(如人和猴)以及啮齿动物(如小鼠和大鼠)在内的哺乳动物。

在本文公开的公开内容的又一示例性实施方式中，提供了用于特定疾病的治疗用途的所有方面。

[本发明的有益效果]

如本文所公开的，可提供用于在肝细胞中表达感兴趣的蛋白的平台(感兴趣的蛋白可以以高水平持续表达)，以及用于改善机体功能和治疗遗传性紊乱的基本治疗剂。

例如，可以通过如下方式来预防或治疗由于特定蛋白的缺乏或缺失引起的遗传性紊乱：通过本说明书所述的组合物生产治疗性蛋白来表达缺乏或缺失的蛋白，或者提供具有不同特征(例如，半衰期增加)的新蛋白。

附图说明

图1为示出了用于选择高表达分泌型基因的RNA测序结果的图表。

图2为通过人工操纵高表达分泌型基因而形成的肝生物工厂平台的图。

图3示出了用于确认靶向结合珠蛋白(HP)的gRNA的活性的T7E1分析的结果。

图4为使用Digenome-seq确认脱靶位点的组图。

图5为在人细胞系(即HEK293细胞)中使用NGS通过靶向深度测序来验证脱靶活性的组图。

图6为示出将CRISPR-SpCas9或CRISPR-CjCas9和F9基因包装在双AAV中的图。

图7示出了用于通过Sanger测序确认HDR介导F9基因敲入hHP基因的引物设计，以确认在HEK293细胞系的基因组DNA中是否发生了F9治疗性基因的敲入，在所述HEK293细胞系中转染了pAAV-CMV-CjCas9-U6-sgRNA和pAAV-hF9-供体。

图8为示出了同源臂的左臂和hHP基因之间的F9***(左图)以及同源臂的右臂和hHP基因之间的F9***(右图)的组图。

图9为示出了以下的组图：当将双AAV AV6-EFS-SpCas9(5×10^11μg)和AAV6-hF9-供体-APOC3-Sp(5×10^11μg)导入人原代肝细胞中时，使用基因组DNA的中靶活性(图9A)以及通过敲入获得的hF9的分泌水平(使用上清液样品)(图9B)。

具体实施方式

除非另有定义，本文所使用的全部技术术语和科学术语具有与本发明所属领域的普通技术人员通常理解的含义相同的含义。尽管与本文所述的方法和材料相似或相同的方法和材料可以用于本发明的实践或测试中，合适的方法和材料在下文中描述。本文提及的所有出版物、专利申请、专利和其它参考文献均以引用的方式将它们整体并入。另外，材料、方法和实施例仅为说明性的，而并不旨在进行限制。

本文公开的公开内容涉及用于在肝中表达感兴趣的蛋白的平台。

更具体而言，本文公开的公开内容包括通过使用CRISPR-Cas***对高表达分泌型基因进行人工操纵来表达感兴趣的蛋白的组合物，

表达感兴趣的蛋白的经人工操纵的细胞、器官或组织，以及

所述组合物、细胞、器官或组织在治疗、预防或减轻特定遗传性紊乱或改善身体功能中的用途。

[肝生物工厂平台(LBP)]

本文公开的一个示例性实施方式涉及“用于表达感兴趣的蛋白的平台”。

用于表达感兴趣的蛋白的平台是如下***的通称：通过将转基因人工***至野生型基因组中可在特定器官或组织中连续产生(表达)大量感兴趣的蛋白的***；并包括组合物、用途和方法的方面。

另外，所述平台包括用于将产生(表达)的感兴趣的蛋白分泌出细胞的***。因此，产生的感兴趣的蛋白不仅可以在***有转基因的器官或组织中起作用，还可以在蛋白所分泌至的器官或组织中起作用。

在一个示例性实施方式中，所述平台可以以一定水平或更高水平充足地产生感兴趣的蛋白。

在另一示例性的实施方式中，甚至在不同的器官或组织中，所述平台可将产生的感兴趣的蛋白充分地从将可操作的细胞中分泌出。

在本说明书中，实现用于表达感兴趣的蛋白的平台的特定器官或组织为肝或肝组织。

肝是称为人体化学工厂的器官，其参与机体中发生的所有事件，并通过天然类型的酶来负责营养物质的代谢、解毒和免疫功能。特别是，人体可以产生和存储恰当功能所需的多种物质，然后通过肝静脉将所述物质输送到全身。

例如，可通过在肝中高表达特定基因来产生大量的特定蛋白，并且可通过将产生的蛋白分泌到全身来向所需器官提供相应的蛋白。

在下文中，将对肝生物工厂平台(以下称为“LBP”)进行描述。

在本文公开的一个方面，LBP为用于在肝组织中持续产生感兴趣的蛋白的***，所述***包括直接或间接参与将产生的蛋白分泌出细胞的全部物质、组合物、方法和用途。

LBP包括通过人工操纵肝细胞(例如肝细胞中的基因组)在肝细胞中产生感兴趣的蛋白的***。

例如，LBP包括肝细胞基因组序列的人工修饰。

在一个示例性的实施方式中，LBP包括肝细胞基因组的特定基因的部分序列的切割。

在另一示例性实施方式中，LBP包括将编码感兴趣的蛋白的转基因***至经切割的肝细胞基因组序列中。

在本文公开的公开内容中，LBP可使用多种类型的肝来源的细胞。

例如，LBP可包含肝细胞、诱导多能细胞(iPSC)或不同类型的干细胞(胚胎干细胞、造血干细胞或间充质干细胞)，但本发明不限于此。

LBP可利用肝细胞基因组中的特定区域，以在肝中高表达感兴趣的蛋白。

在一个实例中，转基因可***肝细胞基因组中的安全港位点。

“安全港位点”是基因组中的特定区域，在其中，即使***了外来基因也没有严重副作用(例如癌症)，并且***该特定区域的外来基因可永久且安全地以高水平表达。

在另一实例中，可将转基因***能够使用肝细胞基因组中的基因表达调节区的区域。

“基因调节区”是在肝细胞基因组中存在的在基因表达的调节中起关键作用的区域，并且是例如用于与包含遗传信息的序列临近的包括启动子和/或调节因子(增强子、转录促进因子等)在内的区域的通用术语。使用启动子和/或调节因子的***的外来基因可高效地高表达。

LBP可使用肝细胞中基因组的特定位点通过高水平持续表达转基因来产生大量的感兴趣的蛋白。

高表达分泌型基因

在本文公开的公开内容中，

在肝细胞基因组中***转基因的特定位点可包含在“高表达分泌型基因”的部分序列中。在本说明书中，高表达分泌型基因也称为在肝细胞基因组中实施人工操纵的靶基因。

“高表达分泌型基因”是指可在肝细胞中持续高表达并且将表达产物分泌出到细胞外的基因。

例如，高表达分泌型基因可包含在肝细胞基因组中的任一安全港位点中。

例如，高表达分泌型基因可包含启动子和调节因子，这可使基因在肝细胞的基因组中持续高表达。

高表达分泌型基因可以是存在于肝细胞基因组中的野生型基因。

术语“野生型”是指自然界中最常见的基因，或指定为正常的等位基因。例如，野生型可为不表现出特定疾病的正常状态的基因型。

此外，高表达分泌型基因可为在肝细胞基因组中非正常发挥功能的基因。

此处，高表达分泌型基因可为与野生型相比其中的一个或多个特定核苷酸被修饰的基因。例如，修饰包括一个或多个核苷酸的删除、置换和/或***。修饰的高表达分泌型基因可全部或部分表达，或者可完全不表达。

在本文公开的公开内容中，

将能够表达期望的蛋白的转基因整合至高表达分泌型基因序列中。

此处，相应的高表达分泌型基因可全部或部分表达。即，转基因和高表达分泌型基因可一起表达。

或者，相应的高表达分泌型基因可在肝细胞中表达并分泌到血液中。

或者，相应的高表达分泌型基因可完全不表达。

例如，高表达分泌型基因可为例如ALB基因、FTL基因、FTH1基因、ACTB基因、HP基因、APOC3基因、SOD2基因、ORM1基因、AAVS1基因、Rosa基因或HPRT基因。在另一实例中，高表达分泌型基因可为IDUA基因、IDS基因、GLA基因或GBA基因。

在实例中，高表达分泌型基因可为HP基因。

HP基因是指编码结合珠蛋白的基因。在一个实例中，HP基因可为选自于由如下基因所组成的组中的一个或多个基因，但是本发明不限于此：编码人HP(例如，NCBI登记号NP_001119574、NP_001305067、NP_005134)或小鼠HP(NP_001316894、NP_059066)的基因，例如，由NCBI登记号NM_001126102、NM_005143或NM_001318138表达的HP基因。

在另一实施方式中，高表达分泌型基因可为APOC3基因。

载脂蛋白C3(APOC3)基因是指编码载脂蛋白C-III(其为极低密度脂蛋白(VLDL)的组成部分)的基因。APOC3基因可为选自于由如下基因所组成的组中的一个或多个基因，但是本发明不限于此：编码人APOC3的基因(例如，NCBI登记号NP_000031)，例如，由NCBI登记号NM_000040表达的APOC3基因。

在本文公开的公开内容的一个实例中，提供了用于表达肝细胞基因组中人工***的转基因的LBP***，

转基因整合在高表达分泌型基因中。

高表达分泌型基因可为选自于由ALB基因、FTL基因、FTH1基因、ACTB基因、HP基因、APOC3基因、SOD2基因、ORM1基因和F9基因所组成的组中的至少一种。

LBP***是转基因与***前相比表达较高，或者转基因在肝细胞中新表达的***。

[用于表达感兴趣的蛋白的组合物]

本文公开的公开内容的一个示例性实施方式涉及组合物，所述组合物可实现“用于表达感兴趣的蛋白的平台”。

所述组合物包括能够实现表达肝细胞基因组中人工***的转基因的LBP***的组合物。

在一个示例性的实施方式中，提供了用于对高表达分泌型基因进行人工操纵的组合物。

用于对高表达分泌型基因进行人工操纵的组合物可对高表达分泌型基因中的任意区域进行修饰。

术语“经人工操纵(人工修饰或工程化或人工工程化)”是指实施了人工修饰的状态，而不是自然状态下存在的原样状态。例如，可对基因的一些核苷酸进行删除或置换，以及可通过***外来核苷酸或多核苷酸对基因进行修饰。

用于对高表达分泌型基因进行人工操纵的组合物包含可编程核酸酶。

“可编程核酸酶”包括识别感兴趣的染色体上的特定位点以切割基因组的所有类型的核酸酶。具体而言，可编程核酸酶可为成簇的规律间隔的短回文重复序列(CRISPR)-CRISPR相关蛋白(Cas)***(其为识别染色体上的特定靶序列的结构域)、转录激活因子样效应物核酸酶(TALEN)(其中，将衍生自植物病原体的切割结构域和转录激活因子样(TAL)效应物结构域融合)、锌指核酸酶、大范围核酸酶(meganuclease)、RNA引导的工程化核酸酶(RGEN)、Cpf1、FokI核酸内切酶或它们的组合，但是本发明不限于此。

可编程核酸酶优选为CRISPR-Cas***，但是本发明不限于此。

[CRISPR-Cas***]

本文公开的另一示例性实施方式涉及组合物，所述组合物包括使用CRISPR-Cas***来对高表达分泌型基因进行人工操纵。

CRISPR-Cas***可由引导核酸和/或编辑蛋白组成。

在本文公开的一个示例性实施方式中，

用于对高表达分泌型基因进行操纵的组合物可包含用于对高表达分泌型基因进行操纵的引导核酸。

术语“引导核酸”是指能够识别靶核酸、基因或染色体并与编辑蛋白相互作用的核苷酸序列。此处，引导核酸可与靶核酸、基因或染色体中的一些核苷酸形成互补结合。

引导核酸可形成引导核酸-编辑蛋白复合体，并用于使引导核酸-编辑蛋白复合体定位于靶核酸、基因或染色体的靶区域。

引导核酸可以为靶DNA特异性gRNA、编码gRNA的DNA或DNA/RNA混合物。

引导核酸可以是gRNA。

“引导RNA(gRNA)”可在体外转录，特别是从寡核苷酸双链或质粒模板转录，但是本发明不限于此。

引导核酸可为一条连续的核酸序列。

例如，所述一条连续的核酸序列可为(N)_m，其中N为A、T、C或G，或为A、U、C或G；m为1-150的整数。

引导核酸可为两条以上连续的核酸序列。

例如，所述两条以上连续的核酸序列可为(N)_m和(N)_o，其中N代表A、T、C或G，或代表A、U、C或G；m和o为1-150的整数，并且可以彼此相同或彼此不同。

引导核酸可包含一个或多个结构域。

所述结构域可为功能结构域，例如引导结构域、第一互补结构域、接头结构域、第二互补结构域、近端(proximal)结构域或尾部(tail)结构域，但是本发明不限于此。

此处，一个引导核酸可具有两个以上功能结构域。此处，所述两个以上功能结构域可彼此不同。或者，一个引导核酸中包含的两个以上功能结构域可以相同。例如，一个引导核酸可具有两个以上近端结构域；作为另一实例，一个引导核酸可具有两个以上尾部结构域。但是，“一个引导核酸中包含的功能结构域相同”的表述并不意味着两个功能结构域的序列相同，并且当这些结构域功能上发挥相同的功能，即使具有不同的序列，也可以认为它们是相同的结构域。

结构域将在下文中描述。

i)引导结构域

术语“引导结构域”是具有能够与靶基因或核酸上的靶序列形成互补结合的互补引导序列的结构域，功能在于与靶基因或核酸特异性相互作用。例如，引导结构域可执行将引导核酸编辑蛋白复合体诱导至具有靶基因或核酸的特定核苷酸序列的位置的功能。

引导结构域可为10-35个碱基的序列

在实例中，引导结构域可为10-35个碱基、15-35个碱基、20-35个碱基、25-35个碱基、30-35个碱基的序列。

在另一实例中，引导结构域可为10-15个碱基、15-20个碱基、20-25个碱基、25-30个碱基、30-35个碱基的序列。

引导结构域可具有引导序列。

引导序列可为与靶基因或核酸上的靶序列互补的核酸序列，例如具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％或95％或更高的互补性或完全互补性。

引导序列可为10-25个碱基的序列。

在实例中，引导序列可为10-25个碱基、15-25个碱基、20-25个碱基的序列。

在另一实例中，引导序列可为10-15个碱基、15-20个碱基、20-25个碱基的序列。

此外，引导结构域可包含额外碱基序列。

额外碱基序列可用于提高或降低引导结构域的功能。

额外碱基序列可用于提高或降低引导序列的功能。

额外碱基序列可为1-10个碱基的序列。

在一个实例中，额外碱基序列可为2-10个碱基、4-10个碱基、6-10个碱基、8-10个碱基的序列。

在另一实例中，额外碱基序列可为1-3个碱基、3-6个碱基、7-10个碱基的序列。

作为具体的实例，额外碱基序列可为1个碱基、2个碱基、3个碱基、4个碱基、5个碱基、6个碱基、7个碱基、8个碱基、9个碱基、10个碱基的序列。

在一个实例中，额外核苷酸序列可为1个碱基的序列G(鸟嘌呤)或2个碱基的序列GG。

额外碱基序列可位于引导序列的5'端。

额外碱基序列可位于引导序列的3'端。

ii)第一互补结构域

术语“第一互补结构域”是包含与第二互补结构域互补的核酸序列的核酸序列，其具有足够的互补性以与第二互补结构域形成双链。在一个实例中，第一互补结构域可为与第二互补结构域互补的核酸序列，例如具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％或95％或更高的互补性或完全互补性。

第一互补结构域通过互补结合可与第二互补结构域形成双链。此处，形成的双链可用于通过与编辑蛋白的一些氨基酸相互作用来形成引导核酸-编辑蛋白复合体。

第一互补结构域可为5-35个碱基的序列。

在实例中，第一互补结构域可为5-35个碱基、10-35个碱基、15-35个碱基、20-35个碱基、25-35个碱基或30-35个碱基的序列。

在另一实例中，第一互补结构域可为1-5个碱基、5-10个碱基、10-15个碱基、15-20个碱基、20-25个碱基、25-30个碱基或30-35个碱基的序列。

iii)接头结构域

术语“接头结构域”是连接两个以上结构域(两个以上相同或不同的结构域)的核酸序列。接头结构域可借助共价键或非共价键与两个以上结构域连接，或可借助共价键或非共价键连接两个以上结构域。

接头结构域可为1-30个碱基的序列。

在一个实例中，接头结构域可为1-5个碱基、5-10个碱基、10-15个碱基、15-20个碱基、20-25个碱基或25-30个碱基的序列。

在另一实例中，接头结构域可为1-30个碱基、5-30个碱基、10-30个碱基、15-30个碱基、20-30个碱基或25-30个碱基的序列。

iv)第二互补结构域

术语“第二互补结构域”是包含与第一互补结构域互补的核酸序列的核酸序列，其具有足够的互补性以与第一互补结构域形成双链。

在一个实例中，第二互补结构域可为与第一互补结构域互补的核酸序列，例如具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％或95％或更高的互补性或完全互补性。

第二互补结构域可通过互补结合与第一互补结构域形成双链。此处，形成的双链可用于通过与编辑蛋白的一些氨基酸相互作用来形成引导核酸-编辑蛋白复合体。

第二互补结构域可具有与第一互补结构域互补的碱基序列以及与第一互补结构域没有互补性的碱基序列(例如不与第一互补结构域形成双链的碱基序列)，并可具有比第一互补结构域更长的碱基序列。

第二互补结构域可具有5-35个碱基的序列。

在实例中，第二互补结构域可为1-35个碱基、5-35个碱基、10-35个碱基、15-35个碱基、20-35个碱基、25-35个碱基或30-35个碱基的序列。

在另一实例中，第二互补结构域可为1-5个碱基、5-10个碱基、10-15个碱基、15-20个碱基、20-25个碱基、25-30个碱基或30-35个碱基的序列。

v)近端结构域

术语“近端结构域”是指其位置靠近第二互补结构域的核酸序列。

近端结构域中可具有互补碱基序列，可基于互补碱基序列形成双链。

近端结构域可为1-20个碱基的序列。

在一个实例中，近端结构域可为1-20个碱基、5-20个碱基、10-20个碱基或15-20个碱基的序列。

在另一实例中，近端结构域可为1-5个碱基、5-10个碱基、10-15个碱基或15-20个碱基的序列。

vi)尾部结构域

术语“尾部结构域”为位于引导核酸两个末端中的一个或多个末端处的核酸序列。

尾部结构域中可具有互补碱基序列，并可基于互补碱基序列形成双链。

尾部结构域可为1-50个碱基的序列。

在一个实例中，尾部结构域可为5-50个碱基、10-50个碱基、15-50个碱基、20-50个碱基、25-50个碱基、30-50个碱基、35-50个碱基、40-50个碱基或45-50个碱基的序列。

在另一实例中，尾部结构域可为1-5个碱基、5-10个碱基、10-15个碱基、15-20个碱基、20-25个碱基、25-30个碱基、30-35个碱基、35-40个碱基、40-45个碱基或45-50个碱基的序列。

同时，所述结构域(即引导结构域、第一互补结构域、接头结构域、第二互补结构域、近端结构域和尾部结构域)中包含的部分或全部核酸序列可任选地或额外地包含化学修饰。

化学修饰可为但不限于甲基化、乙酰化、磷酸化、硫代磷酸酯连接、锁核酸(LNA)、2'-O-甲基3'硫代磷酸酯(MS)或2'-O-甲基3'硫代PACE(MSP)。

引导核酸包含一个或多个结构域。

引导核酸可包含引导结构域。

引导核酸可包含第一互补结构域。

引导核酸可包含接头结构域。

引导核酸可包含第二互补结构域。

引导核酸可包含近端结构域。

引导核酸可包含尾部结构域。

此处，可以存在1、2、3、4、5、6个或更多个结构域。

引导核酸可包含1、2、3、4、5、6个或更多个引导结构域。

引导核酸可包含1、2、3、4、5、6个或更多个第一互补结构域。

引导核酸可包含1、2、3、4、5、6个或更多个接头结构域。

引导核酸可包含1、2、3、4、5、6个或更多个第二互补结构域。

引导核酸可包含1、2、3、4、5、6个或更多个近端结构域。

引导核酸可包含1、2、3、4、5、6个或更多个尾部结构域。

此处，在引导核酸中，一种类型的结构域可以是重复的。

引导核酸可包含具有或不具有重复的数个结构域。

引导核酸可包含相同类型的结构域。此处，相同类型的结构域可具有相同的核酸序列或不同的核酸序列。

引导核酸可包含两种类型的结构域。此处，两种不同类型的结构域可具有不同的核酸序列或相同的核酸序列。

引导核酸可包含三种类型的结构域。此处，三种不同类型的结构域可具有不同的核酸序列或相同的核酸序列。

引导核酸可包含四种类型的结构域。此处，四种不同类型的结构域可具有不同的核酸序列或相同的核酸序列。

引导核酸可包含五种类型的结构域。此处，五种不同类型的结构域可具有不同的核酸序列或相同的核酸序列。

引导核酸可包含六种类型的结构域。此处，六种不同类型的结构域可具有不同的核酸序列或相同的核酸序列。

例如，引导核酸可由[引导结构域]-[第一互补结构域]-[接头结构域]-[第二互补结构域]-[接头结构域]-[引导结构域]-[第一互补结构域]-[接头结构域]-[第二互补结构域]组成。此处，两个引导结构域可包含针对不同或相同靶标的引导序列；两个第一互补结构域和两个第二互补结构域可具有相同或不同的核苷酸序列。当引导结构域包含针对不同靶标的引导序列时，引导核酸可与两种不同靶标特异性结合；此处，该特异性结合可以同时进行或顺序进行。此外，接头结构域可被特定的酶切割，在特定的酶的存在下，引导核酸可被分为两个或三个部分。

在本文公开的一个示例性实施方式中，用于对高表达分泌型基因进行操纵的引导核酸可为用于对高表达分泌型基因进行操纵的gRNA。

gRNA可在体外转录，特别是从寡核苷酸双链或质粒模板转录，但是本发明不限于此。

本文所使用的术语“gRNA”是指靶DNA特异性RNA，所述RNA可与Cas蛋白形成复合体并将Cas蛋白引导至靶DNA。

gRNA可包含多个结构域。每个结构域可具有三维形式或gRNA的活性形式的链内或链间相互作用。

在一个示例性实施方式中，单链gRNA从5'至3'方向可包含引导结构域(例如，具有可以与靶基因或核酸形成互补结合的引导序列的结构域)；第一互补结构域；接头结构域；第二互补结构域(该结构域为能够与第一互补结构域形成双链核酸的结构域，因为它具有与第一互补结构域的序列互补的序列)；近端结构域；以及任选的尾部结构域。

在另一示例性实施方式中，双gRNA可包含第一链和第二链，例如，所述第一链从5'至3'方向包含引导结构与(具有可与靶基因或核酸形成互补结合的引导序列)以及第一互补结构域；所述第二链包含第二互补结构域(该结构域为能够与第一互补结构域形成双链核酸的结构域，因为它具有与第一互补结构域的序列互补的序列)、近端结构域和任选的尾部结构域。

此处，第一链可指crRNA，第二链可指tracrRNA。crRNA可包含引导结构域和第一互补结构域；tracrRNA可包含第二互补结构域、近端结构域和任选的尾部结构域。

在又一示例性实施方式中，单链gRNA在5'至3'方向上可包含引导结构域(例如，具有可与靶基因或核酸形成互补结合的引导序列的结构域)、第一互补结构域、和第二互补结构域(即第二互补结构域，该结构域为能够与第一互补结构域形成双链核酸的结构域，因为它具有与第一互补结构域的序列互补的序列)。

此处，第一互补结构域可与天然存在的第一互补结构域具有同源性，或可由天然存在的第一互补结构域衍生而来。此外，第一互补结构域可根据天然存在的物种而在第一互补结构域的核苷酸序列中存在差异、可由天然存在的物种中含有的第一互补结构域衍生而来，或可与天然存在的物种中含有的第一互补结构域具有部分或完全同源性。

在一个示例性实施方式中，第一互补结构域可与酿脓链球菌、空肠弯曲杆菌、嗜热链球菌、金黄色葡萄球菌或脑膜炎奈瑟菌的第一互补结构域或由它们衍生而来的第一互补结构域具有部分(即至少50％以上)或完全同源性。

例如，当第一互补结构域是酿脓链球菌的第一互补结构域或由其衍生而来的第一互补结构域时，第一互补结构域可为5'-GUUUUAGAGCUA-3'或与5'-GUUUUAGAGCUA-3'具有部分(即至少50％以上)或完全同源性的碱基序列。此处，第一互补结构域可进一步包含(X)_n，使得其为5'-GUUUUAGAGCUA(X)_n-3'。X可选自于由碱基A、T、U和G所组成的组；n可表示碱基数，其为5-15的整数。此处，(X)_n可为相同碱基的n个重复，或者为n个碱基A、T、U和G的混合。

在另一实施方式中，当第一互补结构域为空肠弯曲杆菌的第一互补结构域或由其衍生而来的第一互补结构域时，第一互补结构域可为5'-GUUUUAGUCCCUUUUUAAAUUUCUU-3'或5'-GUUUUAGUCCCUU-3'，或与5'-GUUUUAGUCCCUUUUUAAAUUUCUU-3'或5'-GUUUUAGUCCCUU-3'具有部分(即至少50％以上)或完全同源性的碱基序列。此处，第一互补结构域可进一步包含(X)_n，使得其为5'-GUUUUAGUCCCUUUUUAAAUUUCUU(X)_n-3'或5'-GUUUUAGUCCCUU(X)_n-3'。X可选自于由碱基A、T、U和G所组成的组；n可表示碱基数，其为5-15的整数。此处，(X)_n可表示相同碱基的n个重复，或者表示n个碱基A、T、U和G的混合。

在另一实施方式中，第一互补结构域可与如下菌的第一互补结构域或由其衍生而来的第一互补结构域具有部分(即至少50％以上)或完全同源性：俭菌(Parcubacteriabacterium)(GWC2011_GWC2_44_17)、毛螺菌(Lachnospiraceae bacterium)(MC2017)、Butyrivibrio proteoclasiicus、Peregrinibacteria bacterium(GW2011_GWA_33_10)、氨基酸球菌属(Acidaminococcus sp.)(BV3L6)、猕猴卟啉单胞菌(Porphyromonas macacae)、毛螺菌(ND2006)、Porphyromonas crevioricanis、解糖胨普雷沃菌(Prevotelladisiens)、Moraxella bovoculi(237)、Smiihella sp.(SC_KO8D17)、稻田钩端螺旋体(Leptospira inadai)、毛螺菌(MA2020)、新凶手弗朗西斯菌(Francisella novicida)(U112)、Candidatus Methanoplasma termitum或挑剔真杆菌(Eubacterium eligens)。

例如，当第一互补结构域是俭菌的第一互补结构域或由其衍生而来的第一互补结构域时，第一互补结构域可为5'-UUUGUAGAU-3'或与5'-UUUGUAGAU-3'具有部分(即至少50％以上)同源性的碱基序列。此处，第一互补结构域可进一步包含(X)_n，使得其为5'-(X)_nUUUGUAGAU-3'。X可选自于由碱基A、T、U和G所组成的组；n可表示碱基数，其为1-5的整数。此处，(X)_n可表示相同碱基的n个重复，或者表示n个碱基A、T、U和G的混合。

此处，接头结构域可为用于将第一互补结构域与第二互补结构域连接的核苷酸序列。

接头结构域可共价键合或非共价键合至第一互补结构域和第二互补结构域的每一个。

接头结构域可共价地或非共价地将第一互补结构域与第二互补结构域连接。

接头结构域适合用于单链gRNA分子中，并可与双gRNA的第一链和第二链形成共价键或非共价键，或用于通过第一链和第二链之间的共价连接或非共价连接来产生单链gRNA。

接头结构域可与双gRNA的crRNA和tracrRNA形成共价键或非共价键，或可用于通过crRNA和tracrRNA之间的共价连接或非共价连接来产生单链gRNA。

此处，第二互补结构域可与天然存在的第二互补结构域具有同源性，或可由天然存在的第二互补结构域衍生而来。此外，第二互补结构域可根据天然存在的物种而在第二互补结构域的核苷酸序列中存在差异、可由天然存在的物种中含有的第二互补结构域衍生而来、或可与天然存在的物种中含有的第二互补结构域具有部分或完全同源性。

在示例性实施方式中，第二互补结构域可与酿脓链球菌、空肠弯曲杆菌、嗜热链球菌、金黄色葡萄球菌或脑膜炎奈瑟菌的第二互补结构域或由它们衍生而来的第二互补结构域具有部分(即至少50％以上)或完全同源性。

例如，当第二互补结构域是酿脓链球菌的第二互补结构域或由其衍生而来的第二互补结构域时，第二互补结构域可为5'-UAGCAAGUUAAAAU-3'或与5'-UAGCAAGUUAAAAU-3'具有部分(即至少50％以上)同源性的碱基序列(下划线标出与第一互补结构域形成双链的碱基序列)。此处，第二互补结构域可进一步包含(X)_n和/或(X)_m，使得其为5'-(X)_n UAGCAAGUUAAAAU(X)_m-3'。X可选自于由碱基A、T、U和G所组成的组；n和m各自可表示碱基数，其中n可为1-15的整数，m可为1-6的整数。此处，(X)_n可表示相同碱基的n个重复，或者表示n个碱基A、T、U和G的混合。此外，(X)_m可表示相同碱基的m个重复，或者表示m个碱基A、T、U和G的混合。

在另一实例中，当第二互补结构域是空肠弯曲杆菌的第二互补结构域或由其衍生而来的第二互补结构域时，第二互补结构域可为5'-AAGAAAUUUAAAAAGGGACUAAAAU-3'或5'-AAGGGACUAAAAU-3'，或与5'-AAGAAAUUUAAAAAGGGACUAAAAU-3'或5'-AAGGGACUAAAAU-3'具有部分(即至少50％以上)同源性的碱基序列(下划线标出与第一互补结构域形成双链的碱基序列)。此处，第二互补结构域可进一步包含(X)_n和/或(X)_m，使得其为5'-(X)_n AAGAAAUUUAAAAAGGGACUAAAAU(X)_m-3'或5'-AAGGGACUAAAAU(X)_m-3'。X可选自于由碱基A、T、U和G所组成的组；n和m各自可表示碱基数，其中n可为1-15的整数，m可为1-6的整数。此处，(X)_n可表示相同碱基的n个重复，或者表示n个碱基A、T、U和G的混合。此外，(X)_m可表示相同碱基的m个重复，或者表示m个碱基A、T、U和G的混合。

在另一实施方式中，第二互补结构域可与如下菌的第二互补结构域或由其衍生而来的第二互补结构域具有部分(即至少50％以上)或完全同源性：俭菌(GWC2011_GWC2_44_17)、毛螺菌(MC2017)、Butyrivibrio proteoclasiicus、Peregrinibacteria bacterium(GW2011_GWA_33_10)、氨基酸球菌属(BV3L6)、猕猴卟啉单胞菌、毛螺菌(ND2006)、Porphyromonas crevioricanis、解糖胨普雷沃菌、Moraxella bovoculi(237)、Smiihellasp.(SC_KO8D17)、稻田钩端螺旋体、毛螺菌(MA2020)、新凶手弗朗西斯菌(U112)、Candidatus Methanoplasma termitum或挑剔真杆菌。

例如，当第二互补结构域是俭菌的第二互补结构域或由其衍生而来的第二互补结构域时，第二互补结构域可为5'-AAAUUUCUACU-3'或与5'-AAAUUUCUACU-3'具有部分(即至少50％以上)同源性的碱基序列(下划线标出与第一互补结构域形成双链的碱基序列)。此处，第二互补结构域可进一步包含(X)_n和/或(X)_m，使得其为5'-(X)_nAAAUUUCUACU(X)_m-3'。X可选自于由碱基A、T、U和G所组成的组；n和m各自可表示碱基数，其中n可为1-10的整数，m可为1-6的整数。此处，(X)_n可表示相同碱基的n个重复，或者表示n个碱基A、T、U和G的混合。此外，(X)_m可表示相同碱基的m个重复，或者表示m个碱基A、T、U和G的混合。

此处，第一互补结构域和第二互补结构域可互补结合。

第一互补结构域和第二互补结构域可通过互补结合形成双链。

形成的双链可与CRISPR酶相互作用。

任选地，第一互补结构域可包含不与第二链的第二互补结构域形成互补结合的额外核苷酸序列。

此处，额外核苷酸序列可为1-15个核苷酸的序列。例如，额外核苷酸序列可为1-5个核苷酸、5-10个核苷酸或10-15个核苷酸的序列。

此处，近端结构域可位于第二互补结构域的3'端方向。

此外，近端结构域可与天然近端结构域具有同源性，或可由天然近端结构域衍生而来。此外，近端结构域可取决于天然存在的物种而在碱基序列中存在差异、可由天然存在的物种中含有的近端结构域衍生而来、或可与天然存在的物种中含有的近端结构域具有部分或完全同源性。

在示例性实施方式中，近端结构域可与酿脓链球菌、空肠弯曲杆菌、嗜热链球菌、金黄色葡萄球菌或脑膜炎奈瑟菌的近端结构域或由它们衍生而来的近端结构域具有部分(即至少50％以上)或完全同源性。

例如，当近端结构域是酿脓链球菌的近端结构域或由其衍生而来的近端结构域时，近端结构域可为5'-AAGGCUAGUCCG-3'或与5'-AAGGCUAGUCCG-3'具有部分(即至少50％以上)同源性的碱基序列。此处，近端结构域可进一步包含(X)_n，使其为5'-AAGGCUAGUCCG(X)_n-3'。X可选自于由碱基A、T、U和G所组成的组；n可表示碱基数，其可为1-15的整数。此处，(X)_n可表示相同碱基的n个重复，或者表示n个碱基A、T、U和G的混合。

在又一实施方式中，当近端结构域是空肠弯曲杆菌的近端结构域或由其衍生而来的近端结构域时，近端结构域可为5'-AAAGAGUUUGC-3'或与5'-AAAGAGUUUGC-3'具有至少50％或更高同源性的碱基序列。此处，近端结构域可进一步包含(X)_n，使其为5'-AAAGAGUUUGC(X)_n-3'。X可选自于由碱基A、T、U和G所组成的组；n可表示碱基数，其可为1-40的整数。此处，(X)_n可表示相同碱基的n个重复，或者表示n个碱基A、T、U和G的混合。

此处，可以任选地将尾部结构域添加至单链gRNA或双gRNA的第一链或第二链的3'末端。

此外，尾部结构域可与天然尾部结构域具有同源性，或可由天然尾部结构域衍生而来。此外，尾部结构域可取决于天然存在的物种而在碱基序列中存在差异、可由天然存在的物种中含有的尾部结构域衍生而来、或可与天然存在的物种中含有的尾部结构域具有部分或完全同源性。

在一个示例性实施方式中，尾部结构域可与酿脓链球菌、空肠弯曲杆菌、嗜热链球菌、金黄色葡萄球菌或脑膜炎奈瑟菌的尾部结构域或由它们衍生而来的尾部结构域具有部分(即至少50％以上)或完全同源性。

例如，当尾部结构域是酿脓链球菌的尾部结构域或由其衍生而来的尾部结构域时，尾部结构域可为5'-UUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC-3'或与5'-UUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC-3'具有部分(即至少50％以上)同源性的碱基序列。此处，尾部结构域可进一步包含(X)_n，使其为5'-UUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC(X)_n-3'。X可选自于由碱基A、T、U和G所组成的组；n可表示碱基数，其可为1-15的整数。此处，(X)_n可表示相同碱基的n个重复，或者表示n个碱基(如A、T、U和G)的混合。

在另一实例中，当尾部结构域是空肠弯曲杆菌的尾部结构域或由其衍生而来的尾部结构域时，尾部结构域可为5'-GGGACUCUGCGGGGUUACAAUCCCCUAAAACCGCUUUU-3'或与5'-GGGACUCUGCGGGGUUACAAUCCCCUAAAACCGCUUUU-3'具有部分(即至少50％以上)同源性的碱基序列。此处，尾部结构域可进一步包含(X)_n，使其为5'-GGGACUCUGCGGGGUUACAAUCCCCUAAAACCGCUUUU(X)_n-3'。X可选自于由碱基A、T、U和G所组成的组；n可表示碱基数，其可为1-15的整数。此处，(X)_n可表示相同碱基的n个重复，或者表示n个碱基A、T、U和G的混合。在另一实施方式中，尾部结构域可在3'端包含参与体外或体内转录方法的1-10个碱基的序列。

例如，当将T7启动子用于gRNA的体外转录时，尾部结构域可为存在于DNA模板3'端的任意碱基序列。此外，当将U6启动子用于体内转录时，尾部结构域可为UUUUUU；当将H1启动子用于转录时，尾部结构域可为UUUU；并且当使用pol-III启动子时，尾部结构域可包含数个尿嘧啶碱基或可替代的碱基。

gRNA可包含上文所述的多个结构域，因此可根据gRNA中含有的结构域来调整核苷酸序列的长度；基于各结构域，相互作用可出现在三维结构或者gRNA的活性形式的链中或者这些链之间。

gRNA可指单链gRNA(单个RNA分子)或者双gRNA(包含多于一个RNA分子，通常为两个独立的RNA分子)。

双gRNA

双gRNA由第一链和第二链组成。

此处，第一链可由

5'-[引导结构域]-[第一互补结构域]-3'组成；以及

第二链可由

5'-[第二互补结构域]-[近端结构域]-3'或者

5'-[第二互补结构域]-[近端结构域]-[尾部结构域]-3'组成。

此处，第一链可以指crRNA，第二链可以指tracrRNA。

此外，第一链和第二链可任选地包含额外碱基序列。

在一个示例性实施方式中，第一链可为

5'-(N_靶标)-(Q)_m-3'；或者

5'-(X)_a-(N_靶标)-(X)_b-(Q)_m-(X)_c-3'。

此处，N_靶标是能够与靶基因或核酸上的靶序列形成互补结合的碱基序列，是可根据靶基因或核酸上的靶序列进行改变的碱基序列区域。

此处，(Q)_m是包含第一互补结构域的碱基序列，其能够与第二链的第二互补结构域形成互补结合。(Q)_m可为与天然存在的物种的第一互补结构域具有部分或完全同源性的序列；根据来源的物种，可对第一互补结构域的碱基序列进行改变。Q可各自独立地选自于由A、U、C和G所组成的组；m可为碱基数，其为5-35的整数。

例如，当第一互补结构域与酿脓链球菌的第一互补结构域或由酿脓链球菌衍生而来的第一互补结构域具有部分或完全同源性时，(Q)_m可为5'-GUUUUAGAGCUA-3'或与5'-GUUUUAGAGCUA-3'具有至少50％或更高同源性的碱基序列。

在另一实例中，当第一互补结构域与空肠弯曲杆菌的第一互补结构域或由空肠弯曲杆菌衍生而来的第一互补结构域具有部分或完全同源性时，(Q)_m可为5'-GUUUUAGUCCCUUUUUAAAUUUCUU-3'或5'-GUUUUAGUCCCUU-3，或与5'-GUUUUAGUCCCUUUUUAAAUUUCUU-3'或5'-GUUUUAGUCCCUU-3具有至少50％或更高同源性的碱基序列。

在又一实例中，当第一互补结构域与嗜热链球菌的第一互补结构域或由嗜热链球菌衍生而来的第一互补结构域具有部分或完全同源性时，(Q)_m可为5'-GUUUUAGAGCUGUGUUGUUUCG-3'或与5'-GUUUUAGAGCUGUGUUGUUUCG-3'具有至少50％或更高同源性的碱基序列。

此外，(X)_a、(X)_b、(X)_c各自为任选的额外碱基序列，其中X可各自独立地选自于由A、U、C和G所组成的组；a、b、c各自可为碱基数，其为0或1-20的整数。

在一个示例性实施方式中，第二链可为5'-(Z)_h-(P)_k-3'；或者5'-(X)_d-(Z)_h-(X)_e-(P)_k-(X)_f-3'。

在另一实施方式中，第二链可为5'-(Z)_h-(P)_k-(F)_i-3'；或者5'-(X)_d-(Z)_h-(X)_e-(P)_k-(X)_f-(F)_i-3'。

此处，(Z)_h是包含第二互补结构域的碱基序列，其能够与第一链的第一互补结构域形成互补结合。(Z)_h可为与天然存在的物种的第二互补结构域具有部分或完全同源性的序列；根据来源的物种，可对第二互补结构域的碱基序列进行修饰。Z可各自独立地选自于由A、U、C和G所所组成的组；h可为碱基数，其可为5-50的整数。

例如，当第二互补结构域与酿脓链球菌的第二互补结构域或由其衍生而来的第二互补结构域具有部分或完全同源性时，(Z)_h可为5'-UAGCAAGUUAAAAU-3'或与5'-UAGCAAGUUAAAAU-3'具有至少50％或更高同源性的碱基序列。

在另一实例中，当第二互补结构域与空肠弯曲杆菌的第二互补结构域或由其衍生而来的第二互补结构域具有部分或完全同源性时，(Z)_h可为5'-AAGAAAUUUAAAAAGGGACUAAAAU-3'或5'-AAGGGACUAAAAU-3'，或与5'-AAGAAAUUUAAAAAGGGACUAAAAU-3'或5'-AAGGGACUAAAAU-3'具有至少50％或更高同源性的碱基序列。

在又一实例中，当第二互补结构域与嗜热链球菌的第二互补结构域或由其衍生而来的第二互补结构域具有部分或完全同源性时，(Z)_h可为5'-CGAAACAACACAGCGAGUUAAAAU-3'或与5'-CGAAACAACACAGCGAGUUAAAAU-3'具有至少50％或更高同源性的碱基序列。

(P)_k是包含近端结构域的碱基序列，其可与天然存在的物种的近端结构域具有部分或完全同源性；根据来源的物种，可对近端结构域的碱基序列进行修饰。P可各自独立地选自于由A、U、C和G所组成的组；k可为碱基数，其为1-20的整数。

例如，当近端结构域与酿脓链球菌的近端结构域或由其衍生而来的近端结构域具有部分或完全同源性时，(P)_k可为5'-AAGGCUAGUCCG-3'或与5'-AAGGCUAGUCCG-3'具有至少50％或更高同源性的碱基序列。

在另一实例中，当近端结构域与空肠弯曲杆菌的近端结构域或由其衍生而来的近端结构域具有部分或完全同源性时，(P)_k可为5'-AAAGAGUUUGC-3'或与5'-AAAGAGUUUGC-3'具有至少50％或更高同源性的碱基序列。

在又一实例中，当近端结构域与嗜热链球菌的近端结构域或由其衍生而来的近端结构域具有部分或完全同源性时，(P)_k可为5'-AAGGCUUAGUCCG-3'或与5'-AAGGCUUAGUCCG-3'具有至少50％或更高同源性的碱基序列。

(F)_i可为包含尾部结构域的碱基序列，其可与天然存在的物种的尾部结构域具有部分或完全同源性；根据来源的物种，可对尾部结构域的碱基序列进行修饰。F可各自独立地选自于由A、U、C和G所组成的组；i可为碱基数，其为1-50的整数。

例如，当尾部结构域与酿脓链球菌的尾部结构域或由其衍生而来的尾部结构域具有部分或完全同源性时，(F)_i可为5'-UUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC-3'或与5'-UUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC-3'具有至少50％或更高同源性的碱基序列。

在另一实例中，当尾部结构域与空肠弯曲杆菌的尾部结构域或由其衍生而来的尾部结构域具有部分或完全同源性时，(F)_i可为5'-GGGACUCUGCGGGGUUACAAUCCCCUAAAACCGCUUUU-3'或与5'-GGGACUCUGCGGGGUUACAAUCCCCUAAAACCGCUUUU-3'具有至少50％或更高同源性的碱基序列。

在又一实施方式中，当尾部结构域与嗜热链球菌的尾部结构域或由其衍生而来的尾部结构域具有部分或完全同源性时，(F)_i可为5'-UACUCAACUUGAAAAGGUGGCACCGAUUCGGUGUUUUU-3'或与5'-UACUCAACUUGAAAAGGUGGCACCGAUUCGGUGUUUUU-3'具有至少50％或更高同源性的碱基序列。

此外，(F)_i可在3'端包含参与体外或体内转录方法的1-10个碱基的序列。

此外，(X)_d、(X)_e和(X)_f可为任选添加的碱基序列，其中X可各自独立地选自于由A、U、C和G所组成的组；d、e、f各自可为碱基数，其为0或1-20的整数。

单链gRNA

单链gRNA可以分为两种类型，第一单链gRNA和第二单链gRNA

第一单链gRNA

首先，存在这样的第一单链gRNA：其中，通过接头结构域连接双gRNA的第一链或第二链。

具体而言，单链gRNA可由

5'-[引导结构域]-[第一互补结构域]-[接头结构域]-[第二互补结构域]-3'；

5'-[引导结构域]-[第一互补结构域]-[接头结构域]-[第二互补结构域]-[近端结构域]-3'；或者

5'-[引导结构域]-[第一互补结构域]-[接头结构域]-[第二互补结构域]-[近端结构域]-[尾部结构域]-3'组成。

第一单链gRNA可任选地包含额外核苷酸序列

在一个示例性实施方式中，第一单链gRNA可为

5'-(N_靶标)-(Q)_m-(L)_j-(Z)_h-3'；

5'-(N_靶标)-(Q)_m-(L)_j-(Z)_h-(P)_k-3'；或者

5'-(N_靶标)-(Q)_m-(L)_j-(Z)_h-(P)_k-(F)_i-3'。

在另一示例性实施方式中，单链gRNA可为

5'-(X)_a-(N_靶标)-(X)_b-(Q)_m-(X)_c-(L)_j-(X)_d-(Z)_h-(X)_e-3'；

5'-(X)_a-(N_靶标)-(X)_b-(Q)_m-(X)_c-(L)_j-(X)_d-(Z)_h-(X)_e-(P)_k-(X)_f-3'；或者

5'-(X)_a-(N_靶标)-(X)_b-(Q)_m-(X)_c-(L)_j-(X)_d-(Z)_h-(X)_e-(P)_k-(X)_f-(F)_i-3'。

此处，N_靶标是与靶基因或核酸的双链的任一链的部分序列互补的核苷酸序列，并且N_靶标是可根据靶基因或核酸的靶序列进行改变的核苷酸序列位点。

(Q)_m是包含第一互补结构域的核苷酸序列，其包含能够与第二互补结构域形成互补结合的核苷酸序列。(Q)_m可为与天然存在的物种的第一互补结构域具有部分或完全同源性的序列；根据来源的物种，可对第一互补结构域的核苷酸序列进行改变。Q可各自独立地选自于由A、U、C和G所组成的组；m可为核苷酸数，其可为5-35的整数。

例如，当第一互补结构域为酿脓链球菌的第一互补结构域或与酿脓链球菌衍生而来的第一互补结构域具有部分或完全同源性时，(Q)_m可为5'-GUUUUAGAGCUA-3'或与5'-GUUUUAGAGCUA-3'具有至少50％同源性的核苷酸序列。

在另一实例中，当第一互补结构域为空肠弯曲杆菌的第一互补结构域或与空肠弯曲杆菌衍生而来的第一互补结构域具有部分或完全同源性时，(Q)_m可为5'-GUUUUAGUCCCUUUUUAAAUUUCUU-3'或5'-GUUUUAGUCCCUU-3'，或与5'-GUUUUAGUCCCUUUUUAAAUUUCUU-3'或5'-GUUUUAGUCCCUU-3'具有至少50％同源性的核苷酸序列。

在又一实例中，当第一互补结构域为嗜热链球菌的第一互补结构域或与嗜热链球菌衍生而来的第一互补结构域具有部分或完全同源性时，(Q)_m可为5'-GUUUUAGAGCUGUGUUGUUUCG-3'或与5'-GUUUUAGAGCUGUGUUGUUUCG-3'具有至少50％同源性的核苷酸序列。

此外，(L)_j是包含接头结构域的核苷酸序列，能够通过第一互补结构域和第二互补结构域的连接来产生单链gRNA的核苷酸序列。此处，L可各自独立地选自于由A、U、C和G所组成的组；j可为核苷酸数，其为1-30的整数。

(Z)_h是包含第二互补结构域的核苷酸序列，其包含能够与第一互补结构域形成互补结合的核苷酸序列。(Z)_h可为与天然存在的物种的第二互补结构域具有部分或完全同源性的序列；根据来源的物种，可对第二互补结构域的核苷酸序列进行改变。Z可各自独立地选自于由A、U、C和G所组成的组；h可为核苷酸数，其为5-50的整数。

例如，当第二互补结构域为酿脓链球菌的第二互补结构域或与酿脓链球菌衍生而来的第二互补结构域具有部分或完全同源性时，(Z)_h可为5'-UAGCAAGUUAAAAU-3'或与5'-UAGCAAGUUAAAAU-3'具有至少50％同源性的核苷酸序列。

在另一实例中，当第二互补结构域为空肠弯曲杆菌的第二互补结构域或与空肠弯曲杆菌衍生而来的第二互补结构域具有部分或完全同源性时，(Z)_h可为5'-AAGAAAUUUAAAAAGGGACUAAAAU-3'或5'-AAGGGACUAAAAU-3'，或者与5'-AAGAAAUUUAAAAAGGGACUAAAAU-3'或5'-AAGGGACUAAAAU-3'具有至少50％同源性的核苷酸序列。

在又一实例中，当第二互补结构域为嗜热链球菌的第二互补结构域或与嗜热链球菌衍生而来的第二互补结构域具有部分或完全同源性时，(Z)_h可为5'-CGAAACAACACAGCGAGUUAAAAU-3'或与5'-CGAAACAACACAGCGAGUUAAAAU-3'具有至少50％同源性的核苷酸序列。

(P)_k可为包含近端结构域的核苷酸序列，其为与天然存在的物种的近端结构域具有部分或完全同源性的序列；根据来源的物种，可对近端结构域的核苷酸序列进行变化。P可各自独立地选自于由A、U、C和G所组成的组；k可为核苷酸数，其为1-20的整数。

例如，当近端结构域为酿脓链球菌的近端结构域或与酿脓链球菌衍生而来的近端结构域具有部分或完全同源性时，(P)_k可为5'-AAGGCUAGUCCG-3'或与5'-AAGGCUAGUCCG-3'具有至少50％同源性的核苷酸序列。

在另一实例中，当近端结构域为空肠弯曲杆菌的近端结构域或与空肠弯曲杆菌衍生而来的近端结构域具有部分或完全同源性时，(P)_k可为5'-AAAGAGUUUGC-3'或与5'-AAAGAGUUUGC-3'具有至少50％同源性的核苷酸序列。

在又一实例中，当近端结构域为嗜热链球菌的近端结构域或与嗜热链球菌衍生而来的近端结构域具有部分或完全同源性时，(P)_k可为5'-AAGGCUUAGUCCG-3'或与5'-AAGGCUUAGUCCG-3'具有至少50％同源性的核苷酸序列。

(F)_i可为包含尾部结构域的碱基序列，其为与天然存在的物种的尾部结构域具有部分或完全同源性的序列；根据来源的物种，可对尾部结构域的核苷酸序列进行改变。F可各自独立地选自于由A、U、C和G所组成的组；i可为核苷酸数，其为1-50的整数。

例如，当尾部结构域为酿脓链球菌的尾部结构域或与酿脓链球菌衍生而来的尾部结构域具有部分或完全同源性时，(F)_i可为5'-UUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC-3'或与5'-UUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC-3'具有至少50％同源性的核苷酸序列。

在另一实例中，当尾部结构域为空肠弯曲杆菌的尾部结构域或与空肠弯曲杆菌衍生而来的尾部结构域具有部分或完全同源性时，(F)_i可为5'-GGGACUCUGCGGGGUUACAAUCCCCUAAAACCGCUUUU-3'或与5'-GGGACUCUGCGGGGUUACAAUCCCCUAAAACCGCUUUU-3'具有至少50％同源性的核苷酸序列。

在又一实例中，当尾部结构域为嗜热链球菌的尾部结构域或与嗜热链球菌衍生而来的尾部结构域具有部分或完全同源性时，(F)_i可为5'-UACUCAACUUGAAAAGGUGGCACCGAUUCGGUGUUUUU-3'或与5'-UACUCAACUUGAAAAGGUGGCACCGAUUCGGUGUUUUU-3'具有至少50％同源性的核苷酸序列。

此外，(F)_i可在3'端包含参与体外或体内转录方法的1-10个核苷酸的序列。

例如，当将T7启动子用于gRNA的体外转录时，尾部结构域可为存在于DNA模板3'端的任意核苷酸序列。此外，当将U6启动子用于体内转录时，尾部结构域可为UUUUUU；当将H1启动子用于转录时，尾部结构域可为UUUU；当使用pol-III启动子时，尾部结构域可由数个尿嘧啶核苷酸组成或包含可作替代的核苷酸。

此外，(X)_a、(X)_b、(X)_c、(X)_d、(X)_e和(X)_f为可任选地添加的核苷酸序列；X可各自独立地选自于由A、U、C和G所组成的组；a、b、c、d、e和f为核苷酸数，其可为0或1-20的整数。

第二单链gRNA

第二单链gRNA可为由引导结构域、第一互补结构域和第二互补结构域组成的单链gRNA。

此处，第二单链gRNA可由

5'-[第二互补结构域]-[第一互补结构域]-[引导结构域]-3'；或者

5'-[第二互补结构域]-[接头结构域]-[第一互补结构域]-[引导结构域]-3'组成。

第二单链gRNA可任选地包含额外核苷酸序列

在一个示例性的实施方式中，第二单链gRNA可为

5'-(Z)_h-(Q)_m-(N_靶标)-3'；或者

5'-(X)_a-(Z)_h-(X)_b-(Q)_m-(X)_c-(N_靶标)-3'。

在另一示例性的实施方式中，单链gRNA可为

5'-(Z)_h-(L)_j-(Q)_m-(N_靶标)-3'；或者

5'-(X)_a-(Z)_h-(L)_j-(Q)_m-(X)_c-(N_靶标)-3'。

此处，N_靶标是与靶基因或核酸的双链的任一链的部分序列互补的核苷酸序列，N_靶标是可根据靶基因或核酸的靶序列进行改变的核苷酸序列位点。

例如，当第一互补结构域为俭菌的第一互补结构域或与俭菌衍生而来的第一互补结构域具有部分或完全同源性时，(Q)_m可为5'-UUUGUAGAU-3'或与5'-UUUGUAGAU-3'具有至少50％同源性的核苷酸序列。

例如，当第二互补结构域为俭菌的第二互补结构域或与俭菌衍生而来的第二互补结构域具有部分或完全同源性时，(Z)_h可为5'-AAAUUUCUACU-3'或与5'-AAAUUUCUACU-3'具有至少50％同源性的核苷酸序列。

此外，(L)_j是具有接头结构域的核苷酸序列，其为连接第一互补结构域和第二互补结构域的核苷酸序列。此处，L可各自独立地选自于由A、U、C和G所组成的组；j可为核苷酸数，其为1-30的整数。

此外，(X)_a、(X)_b和(X)_c代表可任选地添加的核苷酸序列；X可各自独立地选自于由A、U、C和G所组成的组；a、b和c可为核苷酸数，其各自为0或1-20的整数。

作为本文公开内容的一个方面，引导核酸是能够与高表达分泌型基因的靶序列互补结合的gRNA。

高表达分泌型基因与上文描述相同。

gRNA是能够结合至选自分泌细胞中的高表达分泌型基因的任意序列的gRNA。

高表达分泌型基因是由引导核酸识别并且被编辑蛋白切割的靶基因或靶序列。

“靶序列”是指存在于靶基因或核酸中的核苷酸序列，并且特别是指靶基因或核酸中的靶区域的部分核苷酸序列。此处，“靶区域”是靶基因或核酸中可被引导核酸-编辑蛋白修饰的位点。

在下文中，靶序列可用作关于两种核苷酸序列的信息的术语。例如，在靶基因的情况下，靶序列可意指靶基因DNA的转录链的序列信息或非转录链的核苷酸序列信息。在本申请文件中，将使用包括两个方面在内的靶序列的引导核酸称为“用于靶序列的引导核酸”。

例如，靶序列可以指5'-ATCATTGGCAGACTAGTTCG-3'(其为靶基因A的靶区域中的部分核苷酸序列(转录链))或5'-CGAACTAGTCTGCCAATGAT-3'(其为与5'-ATCATTGGCAGACTAGTTCG-3'互补的核苷酸序列(非转录链))。

靶序列可为5-50个核苷酸的序列。

在一个实施方式中，靶序列可以是16个核苷酸的序列、17个核苷酸的序列、18个核苷酸的序列、19个核苷酸的序列、20个核苷酸的序列、21个核苷酸的序列、22个核苷酸的序列、23个核苷酸的序列、24个核苷酸的序列或25个核苷酸的序列。

靶序列包括引导核酸的结合序列或非结合序列。

引导核酸的“结合序列”是与包含在引导核酸中的引导结构域中的引导序列具有部分或完全互补性的核苷酸序列，其可以与包含在引导核酸的引导结构域中的引导序列互补结合。靶序列和引导核酸结合序列是可以根据靶基因或核酸(即用于基因操纵或修正的对象)而改变的核苷酸序列，并且可以根据靶基因或核酸设计成各种类型。

引导核酸的“非结合序列”是与包含在引导核酸的引导结构域中的引导序列具有部分或完全同源性的核苷酸序列，其可不与包含在引导核酸的引导结构域中的引导序列互补结合。此外，非引导核酸结合序列可以是与引导核酸结合序列具有互补性的核苷酸序列，并可互补地结合引导核酸结合序列。

引导核酸结合序列可为靶序列的部分核苷酸序列，其可为具有靶序列的两个不同序列顺序的核苷酸序列(即可以彼此互补地结合的两个核苷酸序列)的一个核苷酸序列。在此，非引导核酸结合序列可为除靶序列的引导核酸结合序列以外的核苷酸序列。

例如，当将5'-CGAACTAGTCTGCCAATGAT-3'(其为与靶基因A的靶区域中的部分核苷酸序列5'-ATCATTGGCAGACTAGTTCG-3'互补的核苷酸序列)用作靶序列时，引导核酸结合序列可以是两个靶序列之一，即5'-ATCATTGGCAGACTAGTTC-3'或5'-CGAACTAGTCTGCCAATGAT-3'。此处，当引导核酸结合序列为5'-ATCATTGGCAGACTAGTTCG-3'时，非引导核酸结合序列可以为5'-CGAACTAGTCTGCCAATGAT-3'；或者当引导核酸结合序列为5'-CGAACTAGTCTGCCAATGAT-3'时，非引导核酸结合序列可以为5'-ATCATTGGCAGACTAGTTCG-3'。

引导核酸结合序列可以是选自与靶序列(即转录链)相同的核苷酸序列以及与非转录链相同的核苷酸序列中的一种核苷酸序列。此处，非引导核酸结合序列可以是除如下核苷酸序列外的核苷酸序列：选自与靶序列(即转录链)的引导核酸结合序列相同的核苷酸序列和与非转录链相同的核苷酸序列中的一种核苷酸序列。

结合序列的长度可与靶序列的长度相同。

非结合序列的长度可以与靶序列或结合序列的长度相同。

结合序列可为5-50个核苷酸的序列。

在实施方式中，结合序列可为16个核苷酸的序列、17个核苷酸的序列、18个核苷酸的序列、19个核苷酸的序列、20个核苷酸的序列、21个核苷酸的序列、22个核苷酸的序列、23个核苷酸的序列、24个核苷酸的序列或25个核苷酸的序列。

非结合序列可为5-50个核苷酸的序列。

在实施方式中，非结合序列可为16个核苷酸的序列、17个核苷酸的序列、18个核苷酸的序列、19个核苷酸的序列、20个核苷酸的序列、21个核苷酸的序列、22个核苷酸的序列、23个核苷酸的序列、24个核苷酸的序列或25个核苷酸的序列。

引导核酸结合序列可以部分或完全互补地结合至包含在引导核酸的引导结构域中的引导序列，引导核酸结合序列的长度可以与引导序列的长度相同。

引导核酸结合序列可以是与包含在引导核酸的引导结构域中的引导序列互补的核苷酸序列，例如为至少70％、75％、80％、85％、90％或95％互补或完全互补的核苷酸序列。

在一个实例中，引导核酸结合序列可以具有或包含不与包含在引导核酸的引导结构域中的引导序列互补的1-8个核苷酸的序列。

非引导核酸结合序列可与包含在引导核酸的引导结构域中的引导序列具有部分或完全同源性，并且非引导核酸结合序列的长度可以与引导序列的长度相同。

非引导核酸结合序列可以是与包含在引导核酸的引导结构域中的引导序列具有同源性的核苷酸序列，例如，具有至少70％、75％、80％、85％、90％或95％或更高同源性或完全同源性的核苷酸序列。

在一个实例中，非引导核酸结合序列可具有或包含与包含在引导核酸的引导结构域中的引导序列不具有同源性的1-8个核苷酸的序列。

非引导核酸结合序列可以互补地结合至引导核酸结合序列，并且非引导核酸结合序列可以具有与引导核酸结合序列相同的长度。

非引导核酸结合序列可以是与引导核酸结合序列互补的核苷酸序列，例如，为至少90％或95％互补或完全互补的核苷酸序列。

在一个实例中，非引导核酸结合序列可具有或包含与引导核酸结合序列不互补的一个或两个核苷酸的序列。

此外，引导核酸结合序列可为位于临近可被编辑蛋白识别的核苷酸序列的位置的核苷酸序列。

在一个实例中，引导核酸结合序列可为临近可被编辑蛋白识别的核苷酸序列的5'端和/或3'端的5-50个连续核苷酸的序列。

此外，非引导核酸结合序列可为临近可被编辑蛋白识别的核苷酸序列的核苷酸序列。

在一个实例中，非引导核酸结合序列可为临近可被编辑蛋白识别的核苷酸序列的5'端和/或3'端的5-50个连续核苷酸的序列。

在一个实施例中，

靶序列可为位于高表达分泌型基因的启动子区的连续的10-35个核苷酸的序列。

靶序列可为10-35个核苷酸的序列、15-35个核苷酸的序列、20-35个核苷酸的序列、25-35个核苷酸的序列或30-35个核苷酸的序列。

靶序列可为10-15个核苷酸的序列、15-20个核苷酸的序列、20-25个核苷酸的序列、25-30个核苷酸的序列或30-35个核苷酸的序列。

在一个实例中，靶序列可为位于HP基因的启动子区的连续的10-25个核苷酸的序列。

在另一实例中，靶序列可为位于APOC3基因的启动子区的连续的10-25个核苷酸的序列。

在另一实例中，靶序列可为位于高表达分泌型基因的内含子区的连续的10-35个核苷酸的序列。

在一个实例中，靶序列可为位于HP基因的内含子的连续的10-25个核苷酸的序列。

在另一实例中，靶序列可为位于APOC3基因的内含子的连续的10-25个核苷酸的序列。

在实例中，靶序列可为位于高表达分泌型基因的外显子的连续的10-25个核苷酸的序列。

在实例中，靶序列可为位于HP基因的外显子的连续的10-25个核苷酸的序列。

在另一实例中，靶序列可为位于APOC3基因的外显子的连续的10-25个核苷酸的序列。

在实例中，靶序列可为位于高表达分泌型基因的增强子的连续的10-35个核苷酸的序列。

在实例中，靶序列可为位于HP基因的增强子的连续的10-25个核苷酸的序列。

在实例中，靶序列可为位于APOC3基因的增强子的连续的10-25个核苷酸的序列。

本文公开的靶序列可为位于高表达分泌型基因的编码部分、非编码部分或其混合部分的10-35个连续核苷酸的序列。

或者，靶序列可为10-15个核苷酸的序列、15-20个核苷酸的序列、20-25个核苷酸的序列、25-30个核苷酸的序列或30-35个核苷酸的序列。

在一个实例中，靶序列可为位于HP基因的编码部分、非编码部分或其混合部分的10-25个连续核苷酸的序列。

在另一实例中，靶序列可为位于APOC3基因的编码部分、非编码部分或其混合部分的10-25个连续核苷酸的序列。

本文公开的靶序列可为位于高表达分泌型基因的启动子、增强子、3'UTR、多聚A尾或它们的混合部分的10-35个连续核苷酸的序列。

在一个实例中，靶序列可为位于HP基因的启动子、增强子、3'UTR、多聚A尾或它们的混合部分的10-25个连续核苷酸的序列。

在另一实例中，靶序列可为位于APOC3基因的启动子、增强子、3'UTR、多聚A尾或它们混合部分的10-25个连续核苷酸的序列。

本文公开的靶序列可为位于高表达分泌型基因的外显子或内含子或它们的混合部分的10-35个连续核苷酸的序列。

在一个实例中，靶序列可为位于HP基因的外显子或内含子或它们的混合部分的10-25个连续核苷酸的序列中。

在另一实例中，靶序列可为位于APOC3基因的外显子或内含子或它们的混合部分的10-25个连续核苷酸的序列。

本文公开的靶序列可为包含或临近高表达分泌型基因的突变部分(例如，不同于野生型基因的部分)的10-35个连续核苷酸的序列。

在一个实例中，靶序列可为包含或临近HP基因的突变部分(例如，不同于野生型基因的部分)的10-25个连续核苷酸的序列。

在另一实例中，靶序列可为包含或临近APOC3基因的突变部分(例如，不同于野生型基因的部分)的10-25个连续核苷酸的序列。

本文公开的靶序列可为临近高表达分泌型基因的核苷酸序列中的原型间隔区邻近基序(PAM)序列的5'端和/或3'端的10-35个连续核苷酸的序列。

“原型间隔区邻近基序(PAM)序列”是被编辑蛋白识别的核苷酸序列。此处，根据编辑蛋白的类型和PAM序列来源的物种，PAM序列的核苷酸序列可能有所差异。

例如，PAM序列可为如下序列中的一种或多种(以5'至3'方向来描述)：

NGG(N为A、T、C或G)；

NNNNRYAC(N各自独立地为A、T、C或G；R为A或G；Y为C或T)；

NNAGAAW(N各自独立地为A、T、C或G；W为A或T)；

NNNNGATT(N各自独立地为A、T、C或G)；

NNGRR(T)(N各自独立地为A、T、C或G；R为A或G；Y为C或T)；以及

TTN(N为A、T、C或G)。

在实例中，靶序列可为10-35个碱基、15-35个碱基、20-35个碱基、25-35个碱基或30-35个碱基的序列。

在实例中，靶序列可为10-15个碱基、15-20个碱基、20-25个碱基、25-30个碱基或30-35个碱基的序列。

在一个实例中，靶序列可为临近HP基因的核苷酸序列中的PAM序列的5'端和/或3'端的10-25个连续核苷酸的序列。

在一个示例性实施方式中，当由编辑蛋白识别的PAM序列为5'-NGG-3'、5'-NAG-3'和/或5'-NGA-3'(N＝A、T、G或C；或为A、U、G或C)时，靶序列可为临近HP基因的核苷酸序列中的5'-NGG-3'、5'-NAG-3'和/或5'-NGA-3'(N＝A、T、G或C；或A、U、G或C)序列的5'端和/或3'端的10-25个连续核苷酸的序列。

在另一示例性实施方式中，当由编辑蛋白识别的PAM序列为5'-NGGNG-3'和/或5'-NNAGAAW-3'(W＝A或T；N＝A、T、G或C，或A、U、G或C)时，靶序列可为临近HP基因的核苷酸序列中的5'-NGGNG-3'和/或5'-NNAGAAW-3'(W＝A或T；N＝A、T、G或C，或A、U、G或C)序列的5'端和/或3'端的10-25个连续核苷酸的序列。

在又一示例性实施方式中，当由编辑蛋白识别的PAM序列为5'-NNNNGATT-3'和/或5'-NNNGCTT-3'(N＝A、T、G或C；或A、U、G或C)时，靶序列可为临近HP基因的核苷酸序列中的5'-NNNNGATT-3'和/或5'-NNNGCTT-3'(N＝A、T、G或C；或A、U、G或C)序列的5'端和/或3'端的10-25个连续核苷酸的序列。

在一个示例性实施方式中，当由编辑蛋白识别的PAM序列为5'-NNNVRYAC-3'(V＝G、C或A；R＝A或G；Y＝C或T；N＝A、T、G或C，或A、U、G或C)时，靶序列可为临近HP基因的核苷酸序列中的5'-NNNVRYAC-3'(V＝G、C或A；R＝A或G；Y＝C或T；N＝A、T、G或C，或A、U、G或C)序列的5'端和/或3'端的10-25个连续核苷酸的序列。

在另一示例性实施方式中，当由编辑蛋白识别的PAM序列为5'-NAAR-3'(R＝A或G；N＝A、T、G或C，或A、U、G或C)时，靶序列可为临近HP基因的核苷酸序列中的5'-NAAR-3'(R＝A或G；N＝A、T、G或C，或A、U、G或C)序列的5'端和/或3'端的10-25个连续核苷酸的序列。

在又一示例性实施方式中，当由编辑蛋白识别的PAM序列为5'-NNGRR-3'、5'-NNGRRT-3'和/或5'-NNGRRV-3'(R＝A或G；V＝G、C或A；N＝A、T、G或C，或A、U、G或C)时，靶序列可为临近HP基因的核苷酸序列中的5'-NNGRR-3'、5'-NNGRRT-3'和/或5'-NNGRRV-3'(R＝A或G；V＝G、C或A；N＝A、T、G或C，或A、U、G或C)序列的5'端和/或3'端的10-25个连续核苷酸的序列。

在一个示例性实施方式中，当由编辑蛋白识别的PAM序列为5'-TNN-3'(N＝A、T、G或C；或A、U、G或C)时，靶序列可为临近HP基因的核苷酸序列中的5'-TNN-3'(N＝A、T、G或C；或A、U、G或C)序列的5'端和/或3'端的10-25个连续核苷酸的序列。

在另一实例中，靶序列可为临近APOC3基因的核苷酸序列中的PAM序列的5'端和/或3'端的10-25个连续核苷酸的序列。

在一个示例性实施方式中，当由编辑蛋白识别的PAM序列为5'-NGG-3'、5'-NAG-3'和/或5'-NGA-3'(N＝A、T、G或C；或A、U、G或C)时，靶序列可为临近APOC3基因的核苷酸序列中的5'-NGG-3'、5'-NAG-3'和/或5'-NGA-3'(N＝A、T、G或C；或A、U、G或C)序列的5'端和/或3'端的10-25个连续核苷酸的序列。

在另一示例性实施方式中，当由编辑蛋白识别的PAM序列为5'-NGGNG-3'和/或5'-NNAGAAW-3'(W＝A或T；N＝A、T、G或C，或A、U、G或C)时，靶序列可为临近APOC3基因的核苷酸序列中的5'-NGGNG-3'和/或5'-NNAGAAW-3'(W＝A或T；N＝A、T、G或C，或A、U、G或C)序列的5'端和/或3'端的10-25个连续核苷酸的序列。

在又一示例性实施方式中，当由编辑蛋白识别的PAM序列为5'-NNNNGATT-3'和/或5'-NNNGCTT-3'(N＝A、T、G或C；或A、U、G或C)时，靶序列可为临近APOC3基因的核苷酸序列中的5'-NNNNGATT-3'和/或5'-NNNGCTT-3'(N＝A、T、G或C；或A、U、G或C)序列的5'端和/或3'端的10-25个连续核苷酸的序列。

在一个示例性实施方式中，当由编辑蛋白识别的PAM序列为5'-NNNVRYAC-3'(V＝G、C或A；R＝A或G；Y＝C或T；N＝A、T、G或C，或A、U、G或C)时，靶序列可为APOC3基因的核苷酸序列中的5'-NNNVRYAC-3'(V＝G、C或A；R＝A或G；Y＝C或T；N＝A、T、G或C，或A、U、G或C)序列的5'端和/或3'端的10-25个连续核苷酸的序列。

在另一示例性实施方式中，当由编辑蛋白识别的PAM序列为5'-NAAR-3'(R＝A或G；N＝A、T、G或C，或A、U、G或C)时，靶序列可为APOC3基因的核苷酸序列中的5'-NAAR-3'(R＝A或G；N＝A、T、G或C，或A、U、G或C)序列的5'端和/或3'端的10-25个连续核苷酸的序列。

在又一示例性实施方式中，当由编辑蛋白识别的PAM序列为5'-NNGRR-3'、5'-NNGRRT-3'和/或5'-NNGRRV-3'(R＝A或G；V＝G、C或A；N＝A、T、G或C，或A、U、G或C)时，靶序列可为APOC3基因的核苷酸序列中的5'-NNGRR-3'、5'-NNGRRT-3'和/或5'-NNGRRV-3'(R＝A或G；V＝G、C或A；N＝A、T、G或C，或A、U、G或C)序列的5'端和/或3'端的10-25个连续核苷酸的序列。

在一个示例性实施方式中，当由编辑蛋白识别的PAM序列为5'-TNN-3'(N＝A、T、G或C；或A、U、G或C)时，靶序列可为APOC3基因的核苷酸序列中的5'-TNN-3'(N＝A、T、G或C；或A、U、G或C)序列的5'端和/或3'端的10-25个连续核苷酸的序列。

在下文中，下表中总结了可用于本文公开的一个示例性实施方式中的靶序列的实例，并且下表中示出的靶序列是非引导核酸结合序列，并且从公开的序列来看，可以预期互补序列(即引导核酸结合序列)。

表1HP基因和APOC3基因的靶序列

在另一实例中，用于对高表达分泌型基因进行工程化的组合物可包含引导核酸和编辑蛋白。

例如，所述组合物可包含

引导核酸，所述引导核酸针对选自于由在肝中表达的高表达分泌型基因所组成的组中的一个或多个基因的靶序列；以及

编辑蛋白或编码编辑蛋白的核酸。

涉及高表达分泌型基因的描述与上文所述相同。

(1)编辑蛋白

术语“编辑蛋白”是指能够与核酸直接结合或无需直接结合而与核酸相互作用的肽、多肽或蛋白。编辑蛋白从概念上也指“经人工工程化的核酸酶”或RGEN(RNA引导的核酸内切酶)。

编辑蛋白可为酶。

术语“酶”是指含有能够切割核酸、基因、染色体或蛋白的结构域的蛋白。

酶可为核酸酶或限制性酶。

编辑蛋白可包括具有完全活性的酶。

此处，“具有完全活性的酶”是指具有与野生型酶的功能相同的功能的酶，例如，切割双链DNA的野生型酶具有完全切割双链DNA的完全的酶活性。在又一实例中，当通过人工操纵野生型酶(切割双链DNA)使氨基酸序列的部分序列缺失或置换时，如果经人工操纵的酶变体像野生型酶那样切割双链DNA，则所述经人工操纵的酶变体可为具有完全活性的酶。

另外，具有完全活性的酶包括与野生型酶的功能相比具有改善的功能的酶，例如，切割双链DNA的野生型酶的特定修饰或操纵类型具有与野生型酶(即切割双链DNA的活性)相比改善的完全酶活性。

编辑蛋白可包括具有不完全或部分活性的酶。

此处，“具有不完全或部分活性的酶”是指具有原识野生型酶的切割核酸、基因或染色体的部分功能的酶。例如，切割双链DNA的野生型酶的特定修饰或操纵类型可以是具有第一功能的类型或具有第二功能的类型。此处，第一功能可为切割双链DNA的第一链的功能，第二功能可为切割双链DNA的第二链的功能。此处，具有第一功能的酶或具有第二功能的酶可为具有不完全或部分活性的酶。

编辑蛋白可包括失活的酶。

在此，“失活的酶”是指其中野生型酶的功能完全失活的酶。例如，野生型酶的特定修饰或操纵类型可为其中第一功能和第二功能均丧失的类型，即其中切割双链DNA的第一链的第一功能和切割双链DNA的第二链的第二功能均丧失的类型。此处，丧失第一功能和第二功能二者的酶可为失活的酶。

编辑蛋白可为融合蛋白。

此处，融合蛋白是指通过将酶与额外的结构域、肽、多肽或蛋白融合而产生的蛋白。

所述额外的结构域、肽、多肽或蛋白可以是具有与所述酶相同或不同的功能的功能结构域、肽、多肽或蛋白。

融合蛋白可以在酶的N末端或其附近、酶的C末端或其附近、酶的中间部分及它们的组合中的一处或多处包含额外的结构域、肽、多肽或蛋白。

此处，功能结构域、肽、多肽或蛋白可为具有甲基化酶活性、去甲基化酶活性、转录激活活性、转录阻遏活性、转录释放因子活性、组蛋白修饰活性、RNA切割活性或核酸结合活性的结构域、肽、多肽或蛋白，或者为用于纯化和分离蛋白(包括肽)的标签或报告基因，但本发明不限于此。

功能结构域、肽、多肽或蛋白可为脱氨酶。

标签包括组氨酸(His)标签、V5标签、FLAG标签、流感血凝素(HA)标签、Myc标签、VSV-G标签和硫氧还蛋白(Trx)标签；报告基因包括谷胱甘肽硫转移酶(GST)、辣根过氧化物酶(HRP)、氯霉素乙酰转移酶(CAT)、β-半乳糖苷酶、β-葡萄糖醛酸酶、萤光素酶、自发荧光蛋白(包括绿色荧光蛋白(GFP)、HcRed、DsRed、青色荧光蛋白(CFP)、黄色荧光蛋白(YFP)和蓝色荧光蛋白(BFP))，但本发明不限于此。

此外，功能结构域、肽、多肽或蛋白可为核定位序列或信号(NLS)或者核输出序列或信号(nuclear export sequence or signal，NES)。

NLS可为：具有氨基酸序列PKKKRKV的SV40病毒大T抗原的NLS；由核质蛋白衍生而来的NLS(例如具有序列KRPAATKKAGQAKKKK的双分型核质蛋白(nucleoplasmin bipartite)NLS)；具有氨基酸序列PAAKRVKLD或RQRRNELKRSP的c-myc NLS；具有序列NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY的hRNPA1M9 NLS；由输入蛋白α(importin-α)衍生而来的IBB结构域序列RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV；肌瘤T蛋白序列VSRKRPRP和PPKKARED；人p53序列POPKKKPL；小鼠c-abl IV序列SALIKKKKKMAP；流感病毒NS1序列DRLRR和PKQKKRK；肝炎病毒δ抗原序列RKLKKKIKKL；小鼠Mx1蛋白序列REKKKFLKRR；人多聚(ADP-核糖)聚合酶序列KRKGDEVDGVDEVAKKKSKK；或者类固醇激素受体(人)糖皮质激素序列RKCLQAGMNLEARKTKK，但本发明不限于此。

额外的结构域、肽、多肽或蛋白可以是不显示特定功能的非功能结构域、肽、多肽或蛋白。此处，非功能结构域、肽、多肽或蛋白可以是不影响酶功能的结构域、肽、多肽或蛋白。

融合蛋白可以是如下类型：其中的，将非功能结构域、肽、多肽或蛋白添加到酶的氨基末端或其附近、酶的羧基末端或其附近、酶的中间部分或它们的组合中的一个或多个。

编辑蛋白可为天然的酶或融合蛋白。

编辑蛋白可以以部分修饰的天然酶或融合蛋白的形式存在。

编辑蛋白可为在天然状态下不存在的人工产生的酶或融合蛋白。

编辑蛋白可以以在天然状态下不存在的部分修饰的人工酶或融合蛋白的形式存在。

此处，修饰可为对编辑蛋白中含有的氨基酸进行置换、删除、添加或上述修饰的组合。

此外，修饰可为对编码编辑蛋白的碱基序列中的部分碱基进行置换、删除、添加或上述修饰的组合。

引导核酸和编辑蛋白可形成引导核酸-编辑蛋白复合体。

引导核酸-编辑蛋白复合体可在体外形成。

引导核酸-编辑蛋白复合体可在细胞的胞浆中形成。

引导核酸-编辑蛋白复合体可在细胞中的细胞核中形成。

在引导核酸-编辑蛋白复合体中，编辑蛋白可识别靶基因或核苷酸序列中存在的PAM。

在引导核酸-编辑蛋白复合体上，引导核酸可互补结合至靶基因或核苷酸序列。

当引导核酸-编辑蛋白复合体结合至靶基因或核苷酸序列时，靶基因或核苷酸序列可以被引导核酸-编辑蛋白复合体的编辑蛋白切割或修饰。

在本文公开的公开内容的一方面，编辑蛋白可为CRISPR酶。

例如，组合物可包含

gRNA，所述gRNA针对选自于由肝中表达的高表达分泌型基因所组成的组中的一个或多个基因的靶序列；以及

CRISPR酶或编码CRISPR酶的核酸。

gRNA的描述与上文所述相同。

CRISPR酶可为具有切割靶基因或核酸双链的功能的核酸酶或限制性酶。

“CRISPR酶”是CRISPR-Cas***的主要蛋白组成部分，是指与gRNA混合或形成复合体以识别靶序列并切割DNA的核酸酶。

“CRISPR-Cas***”源自获得性免疫***，该***存储从外部侵入的细菌病原体的遗传信息，然后切割该遗传信息；“CRISPR-Cas***”是指基因修正***，所述基因修正***由对遗传信息进行操纵以识别期望的靶序列的gRNA以及识别DNA的Cas蛋白组成，从而去除并调节基因功能。

Cas蛋白可与CRISPR RNA(crRNA)和反式激活crRNA(tracrRNA)形成复合体，从而表现其活性。

本文将Cas蛋白用作包括充当核酸内切酶或切口酶(通过与gRNA的合作而激活)的所有变体和天然蛋白的概念。激活的核酸内切酶或切口酶可引起靶DNA的切割，以及使用所述切割的基因修正。此外，失活的变体可以引起期望的DNA的分离和转录调节。

Cas蛋白可以是具有完全活性的CRISPR酶。

“具有完全活性的CRISPR酶”是指具有与原始野生型酶功能(切割核酸、基因或染色体)相同的功能的酶。即，具有完全活性的CRISPR酶是指既具有切割双链DNA的第一链的功能又具有切割双链DNA的第二链的第二功能的状态。

当经人工操纵的CRISPR酶变体是像野生型酶一样切割双链DNA的酶时，经人工操纵的CRISPR酶也可包含在具有完全活性的酶中。

经人工操纵的CRISPR酶可以是其中核苷酸序列的部分被删除、置换或添加的酶。

经人工操纵的CRISPR酶可以是其中氨基酸序列的一个或多个氨基酸被删除、置换或添加的酶。

氨基酸的添加修饰可以是野生型酶的N末端和/或C末端，或其邻近区域。此外，修饰可以是它们的组合。

CRISPR酶变体可以是与野生型CRISPR酶相比具有改善的功能的具有完全活性的酶。

例如，野生型CRISPR酶的特定修饰或操纵类型(即CRISPR酶变体)可以在待切割的双链DNA的一定距离附近切割DNA双链，或者在与双链DNA形成特异性结合的同时切割DNA双链。此处，特异性结合可以是在酶的特定位置处的氨基酸切割位置处与DNA核苷酸序列的结合。在这种情况下，修饰或操纵的类型可以是与野生型CRISPR酶相比具有降低的功能活性的具有完全活性的CRISPR酶。

CRISPR酶可为具有不完全或部分活性的CRISPR酶。

“具有不完全或部分活性”是指具有野生型CRISPR酶的功能的状态，所述功能为选自切割双链DNA的第一链的第一功能和切割双链DNA的第二链的第二功能中的一种。这种状态下的CRISPR酶可以称为具有不完全或部分活性的CRISPR酶。此外，具有不完全或部分活性的CRISPR酶可以称为切口酶。

“切口酶”是指经操纵或修饰而仅切割靶基因或核酸双链中的一条链的CRISPR酶，切口酶具有切割单链(例如不与靶基因或核酸互补的gRNA互补的链或与其互补的链)的核酸酶活性。因此，需要两种切口酶的核酸酶活性来切割双链。

例如，切口酶可能具有由RuvC结构域引起的核酸酶活性。即，切口酶可不包含由HNH结构域引起的核酸酶活性，因此，可以对HNH结构域进行操纵或修饰。

除上述核酸酶活性外，CRISPR酶还可以具有解旋酶活性，即使得双链核酸的螺旋结构解旋的功能。

此外，可对CRISPR酶进行修饰，以使得CRISPR酶的解旋酶活性将是完全活性的、不完全或部分活性的、或失活的。

CRISPR酶可以是具有编码CRISPR酶的序列的核酸或多肽(或蛋白)，并且代表性地为II型CRISPR酶。

根据对两种以上类型的天然微生物II型CRISPR酶分子的研究(Jinek等，Science，343(6176)：1247997，2014)以及对酿脓链球菌Cas9(SpCas9)与gRNA复合的研究(Nishimasu等，Cell，156：935-949，2014；以及Anders等，Nature，2014，doi：10.1038/nature13579)确定了II型CRISPR酶的晶体结构。

II型CRISPR酶可为Cas9。

“Cas9”是结合至gRNA以切割或修饰靶基因或核酸上的靶序列或位置的酶，并且可以由HNH结构域(能够切割与gRNA互补结合的核酸链)、RuvC结构域(能够切割不与gRNA互补结合的核酸链)、REC结构域(能够识别靶标)和PI结构域(能够识别PAM)组成。对于Cas9的具体结构特征，可参考Hiroshi Nishimasu等(2014)Cell 156:935-949。

此处，RuvC结构域与含有II型CRISPR酶的天然存在的微生物家族的成员共享结构相似性，并切割单链(例如靶基因或核酸的非互补链，即不与gRNA形成互补结合的链)。在本领域中，RuvC结构域有时指RuvCI结构域、RuvCII结构域或RuvCIII结构域，一般称为RuvCI、RuvCII或RuvCIII。

HNH结构域与HNH核酸内切酶共享结构相似性，并切割单链(例如靶核酸分子的互补链，即与gRNA形成互补结合的链)。HNH结构域位于RuvCII和RuvCIII基序之间。

Cas9可为具有完全活性的Cas9或失活的Cas9。

失活的Cas9可包括完全失活的Cas9和部分失活的Cas9(例如切口酶)。

Cas9可由多种微生物衍生而来，所述微生物例如：酿脓链球菌、嗜热链球菌、链球菌(Streptococcus sp.)、金黄色葡萄球菌、达松维尔拟诺卡氏菌(Nocardiopsisdassonvillei)、始旋链霉菌(Streptomyces pristinaespiralis)、绿色产色链霉菌(Streptomyces viridochromogenes)、绿色产色链霉菌、玫瑰链孢囊菌(Streptosporangium roseum)、玫瑰链孢囊菌、酸热脂环酸芽胞杆菌(Alicyclobacillusacidocaldarius)、假蕈状芽孢杆菌(Bacillus pseudomycoides)、硒还原芽孢杆菌(Bacillus selenitireducens)、西伯利亚微小杆菌(Exiguobacterium sibiricum)、德式乳杆菌(Lactobacillus delbrueckii)、唾液乳杆菌(Lactobacillus salivarius)、海洋微颤菌(Microscilla marina)、伯克氏菌(Burkholderiales bacterium)、食萘极单胞菌(Polaromonas naphthalenivorans)、极单胞菌(Polaromonas sp.)、瓦氏鳄球藻(Crocosphaera watsonii)、蓝杆藻(Cyanothece sp.)、铜绿微囊藻(Microcystisaeruginosa)、聚球藻(Synechococcus sp.)、***醋盐杆菌(Acetohalobiumarabaticum)、丹氏制氨菌(Ammonifex degensii)、Caldicelulosiruptor bescii、Candidatus Desulforudis、肉毒梭菌(Clostridium botulinum)、艰难梭菌(Clostridiumdifficile)、大芬戈尔德菌(Finegoldia magna)、嗜热盐碱厌氧菌(Natranaerobiusthermophilus)、Pelotomaculum thermopropionicum、喜温嗜酸硫杆菌(Acidithiobacillus caldus)、嗜酸氧化亚铁硫杆菌(Acidithiobacillusferrooxidans)、Allochromatium vinosum、海杆菌(Marinobacter sp.)、嗜盐亚硝化球菌(Nitrosococcus halophilus)、瓦氏亚硝化球菌(Nitrosococcus watsoni)、游海假交替单胞菌(Pseudoalteromonas haloplanktis)、消旋纤线杆菌(Ktedonobacter racemifer)、调查甲烷盐菌(Methanohalobium evestigatum)、多变鱼腥藻(Anabaena variabilis)、泡沫节球藻(Nodularia spumigena)、念珠藻(Nostoc sp.)、极大节旋藻(Arthrospiramaxima)、钝顶节旋藻(Arthrospira platensis)、节旋藻(Arthrospira sp.)、鞘丝藻(Lyngbya sp.)、原型微鞘藻(Microcoleus chthonoplastes)、颤藻(Oscillatoria sp.)、Petrotoga mobilis、非洲栖热腔菌(Thermosipho africanus)或Acaryochloris marina。

可从天然状态存在的微生物中分离或者通过重组或合成方法非天然地产生Cas9。

此外，CRISPR酶可为V型CRISPR酶。

V型CRISPR酶包含类似的RuvC结构域(对应于II型CRISPR酶的RuvC结构域)，并可由Nuc结构域(而不是II型CRISPR酶的HNH结构域)、REC结构域和WED结构域(识别靶标)以及PI结构域(识别PAM)组成。对于V型CRISPR酶的具体结构特征，可参见Takashi Yamano等(2016)Cell 165：949-962。

V型CRISPR酶可与gRNA相互作用，从而形成gRNA-CRISPR酶复合体，即CRISPR复合体，并且可在gRNA的协作下允许引导序列接近包含PAM序列的靶序列。此处，V型CRISPR酶与靶基因或核酸相互作用的能力依赖于PAM序列。PAM序列是存在于靶基因或核酸中的序列，并且可以被V型CRISPR酶的PI结构域识别。PAM序列可以根据V型CRISPR酶的来源而改变。即，取决于物种，存在能够被特异性识别的不同PAM序列。在一个实例中，由Cpf1识别的PAM序列可为5'-TTN-3'(N为A、T、C或G)。

然而，尽管通常已经理解根据上述所述的酶的来源来确定PAM，根据进行中的对由相应来源衍生而来的酶的突变体的研究的结果，PAM可以改变。

V型CRISPR酶可为Cpf1，

Cpf1可由如下微生物衍生而来：链球菌(Streptococcus)、弯曲杆菌(Campylobacter)、Nitratifractor、葡萄球菌(Staphylococcus)、Parvibaculum、罗斯氏菌(Roseburia)、奈瑟菌(Neisseria)、葡糖醋杆菌(Gluconacetobacter)、固氮螺菌(Azospirillum)、Sphaerochaeta、乳杆菌(Lactobacillus)、真杆菌(Eubacterium)、棒状杆菌(Corynebacter)、肉食杆菌(Carnobacterium)、红细菌(Rhodobacter)、李斯特菌(Listeria)、Paludibacter、梭菌(Clostridium)、毛螺菌、Clostridiaridium、纤毛菌(Leptotrichia)、弗朗西斯氏菌属(Francisella)、军团杆菌(Legionella)、脂环酸芽孢杆菌(Alicyclobacillus)、Methanomethyophilus、卟啉单胞菌(Porphyromonas)、普雷沃菌(Prevotella)、拟杆菌、创伤球菌(Helcococcus)、钩端螺旋体(Letospira)、脱硫弧菌(Desulfovibrio)、Desulfonatronum、丰佑菌(Opitutaceae)、肿块芽孢杆菌(Tuberibacillus)、芽孢杆菌(Bacillus)、短芽孢杆菌(Brevibacilus)、甲基杆菌(Methylobacterium)或氨基酸球菌。

Cpf1可由RuvC结构域(类似于并对应于Cas9的RuvC结构域)、Nuc结构域(而不是Cas9的HNH结构域)、REC结构域和WED结构域(识别靶标)以及PI结构域(识别PAM)组成。对于Cpf1的具体结构特征，可参见Takashi Yamano等(2016)Cell 165：949-962。

Cpf1可为具有完全活性的Cpf1或失活的Cpf1。

失活的Cpf1可包括完全失活的Cpf1和部分失活的Cpf1(例如，切口酶)。

在Cpf1酶中，可对存在于RuvC、Nuc、WED、REC和/或PI结构域中的氨基酸中的一个、两个或更多个氨基酸进行突变。

Cpf1酶可包含FnCpf1的氨基酸的D917、E1006或D1255；AsCpf1的氨基酸的D908、E993或D1263；LbCpf1的氨基酸的D832、E925、D947或D1180；或对应于各个不同Cpf1直系同源物的氨基酸组中一个或两个或更多个氨基酸的突变。

可从天然存在的微生物中分离或者通过重组或合成方法非天然地产生CRISPR酶，Cas9或Cpf1蛋白。

Cas蛋白或编码所述Cas蛋白的核酸可以在核中发挥作用。

此外，分离的Cas蛋白可以容易地导入细胞中。例如，可将Cas蛋白与细胞穿透肽或蛋白转导结构域连接。蛋白转导结构域可以是多聚精氨酸或HIV来源的TAT蛋白，但是本发明不限于此。由于除上述类型以外的细胞穿透肽或蛋白转导结构域的各种类型在本领域中是已知的，因此本领域普通技术人员可以不受限制地将各种实例应用于本申请文件。

CRISPR酶可以是通过对野生型CRISPR酶进行人工操纵或修饰而制备的CRISPR酶变体。

在一个实例中，可通过置换、删除和/或添加野生型CRISPR酶的氨基酸序列的至少一个氨基酸来制备CRISPR酶变体。

CRISPR酶变体可为经人工操纵或修饰以对野生型CRISPR酶的功能(即，切割双链DNA的第一链的第一功能和切割双链DNA的第二条链的第二功能)进行修饰的CRISPR酶变体。

此外，除CRISPR酶的固有特征外，CRISPR酶突变体还可进一步包含任选的功能结构域，从而CRISPR酶突变体还可具有除固有特征外的额外特征。

此处，功能结构域可为具有甲基化酶活性、去甲基化酶活性、转录激活活性、转录阻遏活性、转录释放因子活性、组蛋白修饰活性、RNA切割活性或核酸结合活性的结构域，或者为用于纯化和分离蛋白(包括肽)的标签或报告基因，但本发明不限于此。

功能结构域、肽、多肽或蛋白可为脱氨酶。

例如，不完整或部分的CRISPR酶可额外包含胞苷脱氨酶作为功能结构域。在一个示例性实施方式中，可将胞苷脱氨酶(例如载脂蛋白B编辑复合体1(APOBEC1))添加至SpCas9切口酶，从而生成融合蛋白。由此形成的[SpCas9切口酶]-[APOBEC1]可用于由C到T或U、或者由G到A的编辑或者碱基修复中。

在另一实例中，可讲腺嘌呤脱氨酶可以进一步包含在不完整或部分CRISPR酶中作为功能结构域。作为示例性实施方式，可以通过向SpCas9切口酶添加腺嘌呤脱氨酶(例如TadA变体、ADAR2变体、ADAT2变体等)来产生融合蛋白。由于在如上所述制备的[SpCas9切口酶]-[TadA变体]、[SpCas9切口酶]-[ADAR2变体]或[SpCas9切口酶]-[ADAT2变体]中，核苷酸A被修饰为肌苷，经修饰的肌苷被聚合酶识别为核苷酸G，从而表现出实质上进行核苷酸A至G的编辑或核苷酸修正的作用，因此修饰的肌苷可用于核苷酸A至G的编辑或核苷酸修正，或用于核苷酸T至C的编辑或核苷酸修正。

此外，功能结构域可为核定位序列或信号(NLS)或者核输出序列或信号(NES)。

在一个实例中，CRISPR酶可包含一个或多个NLS。此处，一个或多个NLS可包含于CRIPSR酶的N端或其附近、酶的C端或其附近或者它们的组合。NLS可为由如下NLS衍生而来的NLS序列，但本发明不限于此：具有氨基酸序列PKKKRKV的SV40病毒大T抗原的NLS；来自核质蛋白的NLS(例如具有序列KRPAATKKAGQAKKKK的双分型核质蛋白NLS)；具有氨基酸序列PAAKRVKLD或RQRRNELKRSP的c-myc NLS；具有序列NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY的hRNPA1M9 NLS；来自输入蛋白α的IBB结构域的序列RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV；肌瘤T蛋白的序列VSRKRPRP和PPKKARED；人p53的序列POPKKKPL；小鼠c-abl IV的序列SALIKKKKKMAP；流感病毒NS1的序列DRLRR和PKQKKRK；肝炎病毒δ抗原的序列RKLKKKIKKL；小鼠Mx1蛋白的序列REKKKFLKRR；人多聚(ADP-核糖)聚合酶的序列KRKGDEVDGVDEVAKKKSKK；或者由类固醇激素受体(人)糖皮质激素的序列衍生而来的NLS序列RKCLQAGMNLEARKTKK。

本发明所述的CRISPR酶或CRISPR酶突变体可为多肽、蛋白或者具有编码所述多肽、蛋白的序列的核酸，并可针对待导入所述CRISPR酶或CRISPR酶突变体的受试者实施密码子优化。

术语“密码子优化”是指对核苷酸序列的修饰过程，该修饰过程通过在保持天然氨基酸序列的同时将天然序列中的至少一个密码子替换为在宿主细胞中更常或最常使用的密码子来改善在宿主细胞中的表达。多种物种对特定氨基酸的特定密码子具有特定偏好，该密码子偏好(不同生物体间密码子使用的差别)通常与mRNA的翻译效率相关，认为这取决于所翻译的密码子的特征和特定tRNA分子的可获得性。细胞中选择的优势tRNA通常反映了肽合成中最常使用的密码子。因此，可基于密码子优化在给定生物体中通过优化基因表达来对基因进行定制化。

gRNA和CRISPR酶可形成gRNA-CIRSPR酶复合体。

“gRNA-CRISPR酶复合体”是指由gRNA和CIRSPR酶之间的相互作用形成的复合体。

gRNA-CRISPR酶复合体可在体外形成。

gRNA-CRISPR酶复合体可在细胞的胞浆中形成。

gRNA-CRISPR酶复合体可以在细胞的细胞核中形成。

在gRNA-CRISPR酶复合体中，CRISPR酶可识别靶基因或核苷酸序列中存在的PAM。

在gRNA-CRISPR酶复合体中，gRNA可互补结合至靶基因或核苷酸序列。

当gRNA-CRISPR酶复合体结合至靶基因或核苷酸序列时，可以切割或修饰由gRNA-CRISPR酶复合体的CRISPR酶靶向的基因或核苷酸序列。

在另一示例性实施方式中，CRISPR-Cas***可以以核糖核蛋白(RNP)(形成gRNA和CRISPR酶的复合体)的形式存在。

在本文公开的公开内容的一个示例性实施方式中，可以通过操纵高表达分泌型基因来表达感兴趣的蛋白。

除gRNA和CRISPR酶外，用于操纵高表达分泌型基因的组合物可以进一步包含供体，以表达感兴趣的蛋白。

例如，所述组合物可以包含

引导核酸，所述引导核酸针对选自在肝中表达的高表达分泌型基因的组中的一个或多个基因的靶序列；

编辑蛋白或编码所述编辑蛋白的核酸；以及

供体，所述供体包含编码感兴趣的蛋白的核苷酸序列。

“供体”是指含有将转基因***受试者中所需的序列的外源核苷酸。供体是不仅包含转基因、还包含重组所需的序列以及影响基因转录和表达的序列的分子。

供体分子可为核酸类型，即DNA或RNA。

供体分子可为单链或双链。在一些情况下，供体分子可为单链寡核苷酸DNA模板(ssODT)。

供体分子可处于多核苷酸或蛋白的形式。

供体分子可以是直链、支链或环状的，并且具有任意长度。

此处，当导入直链供体分子时，可以通过本领域普通技术人员已知的方法对供体序列的末端进行保护。例如，可以将一个或多个双脱氧核苷酸残基添加至形成的分子的3'末端，并且自互补寡核苷酸可以结合至一个或两个末端。

在具体的示例性实施方式中，可以额外包含末端氨基基团的添加以及例如硫代磷酸酯、磷酰胺酯、O-甲基核糖或脱氧核糖核苷酸间连接的使用，以保护供体分子免于降解，但本发明不限于此。

供体分子可形成双链体(duplex)，还包括形成三链体(triplex)的核酸。

供体序列可具有任意长度，例如10bp至20kb(或10bp至20kb之间或大于20kb的任意整数)，优选约100bp至10kb(或100bp至10kb之间的任意整数)，更优选约200bp至5kb。

根据待导入的受试者，可以对供体进行密码子优化。例如，当受试者是人时，它可以是具有经人密码子优化的序列的供体。

在本文公开的公开内容的一个示例性实施方式中，转基因可包含在用于操纵高表达分泌型基因的组合物所包括的供体中，以表达感兴趣的蛋白。

术语“转基因”是指***到高表达分泌型基因中的外源核苷酸。例如，可以使用编辑蛋白和引导核酸将转基因***到经切割的肝细胞中的基因组切割位点。

转基因可为DNA或RNA。

转基因可以是编码在野生型肝细胞中产生的蛋白的外源核苷酸。

转基因可以是编码在除野生型肝细胞以外的细胞中产生的蛋白的外源核苷酸。

转基因可以由不同于受试者的物种衍生而来。

转基因可为野生型基因。例如，当受试者中蛋白缺乏或缺少时，供体可包含具有与编码相应蛋白的正常基因(即野生型基因)相同的序列的转基因。

转基因可为突变型基因。此处，突变可以是野生型基因的一个或多个核苷酸的缺失、置换或添加。

转基因可为融合蛋白。

在一个实例中，与转基因融合的蛋白可由外源基因衍生而来。

在另一实例中，与转基因融合的蛋白可由内源基因衍生而来。

例如，与转基因融合的蛋白可由高表达分泌型基因衍生而来。

与转基因融合的蛋白可以存在于外源蛋白的氨基(N)末端或其附近。

与转基因融合的蛋白可以存在于外源蛋白的羧基(C)末端或其附近。

与转基因融合的蛋白可以存在于外源蛋白质的氨基(N)末端和羧基(C)末端两者或它们的附近，或者以它们的混合形式存在。

转基因可以是用于增强或改善期望的特定功能的功能基因。

在一个实例中，转基因可增强肝细胞中内源基因的功能。

在另一实例中，转基因可以起到增加野生型基因表达的作用。例如，当转基因是编码肝细胞中缺乏的蛋白的基因时，该缺乏蛋白可以在肝细胞中产生，并且相应蛋白的功能可以正常发挥作用，或者相应疾病可以被治疗。

在一个实例中，转基因可以起修正突变基因的作用。

在另一实例中，转基因可以起调节靶基因中基因组序列的表达的作用。

在一个实例中，转基因可以起替换现有蛋白或表达新蛋白的作用。

另外，可将转基因***高表达分泌型基因中以使一个或多个靶序列部分或完全失活。

转基因可以是编码感兴趣的蛋白的基因。

感兴趣的的蛋白可以是用于增强机体功能的蛋白。例如，感兴趣的蛋白可以增强代谢作用的功能。

感兴趣的的蛋白可以是用于预防疾病的蛋白。

感兴趣的的蛋白可以是用于减轻疾病的蛋白。

感兴趣的的蛋白可以是用于治疗疾病的蛋白。

本文公开的公开内容的示例性实施方式为通过人工操纵肝细胞来表达感兴趣的蛋白，用于治疗疾病。

在本说明书中，与现有的替代疗法(例如输注、以规律间隔给予蛋白以及抑制与相应疾病有关的因子的基于抗体的疗法)相比，可以通过以下方式永久性或从根本上治疗疾病：将治疗性基因***至高表达分泌型基因中来持续以高水平表达相应基因，以对疾病进行治疗。

疾病的种类如下。

疾病可以是可通过抗体预防或治疗的疾病。例如，可以通过将编码抗体的基因***高表达分泌型基因中并表达该基因来治疗疾病(例如HIV、阿尔茨海默病或肌萎缩侧索硬化症)。

疾病可以是归因于特定基因的表达降低而发生的疾病。例如，可以通过将缺乏的基因***高表达分泌型基因并表达该基因来治疗由缺少分泌型基因产物引起的疾病。

疾病可以是通过由特定基因的突变所致的正常功能的抑制而引发的遗传性紊乱。在一个实例中，可以通过将野生型基因***高表达分泌型基因中并表达该基因来治疗由单个基因的多种突变引起的疾病。例如，此类遗传性紊乱可为血友病。

疾病可以是与遗传代谢紊乱有关的疾病。

“遗传代谢紊乱”是由于负责机体生化代谢途径的酶或辅酶缺乏所致的疾病。遗传代谢紊乱是指如下的病症：由于无法正常生产终产物而发生缺乏，并且不必要的前体在多种主要器官(脑、心脏、肝、肾等)中积累，从而导致过量症状(例如智力残疾)。

遗传代谢紊乱的实例可包括：免疫缺陷、高胆固醇血症、血友病、肺气肿、囊性纤维化、苯丙酮尿症、瓜氨酸血症、甲基丙二酸血症、肉毒碱棕榈酰转移酶缺乏症、Hurler综合征、鸟氨酸氨甲酰基转移酶缺乏症和Tay-Sachs病。

遗传代谢紊乱的其它实例包括血友病A、血友病B和血友病C。

例如，血友病A是由位于X染色体上的F8基因的突变所致，血友病B是由位于F8基因附近的F9基因的突变所致，血友病C是由F11基因的突变所致。

疾病可为溶酶体贮积症。

溶酶体贮积症可为粘多糖贮积症、溶酶体酸性脂肪酶缺乏症、糖原贮积病、半乳糖血症、镰状细胞性贫血、囊性纤维化、Tay-Sachs病、苯丙酮尿症、白化病、中链酰基-CoA脱氢酶缺乏症、Farber病、Krabbe病、半乳糖唾液酸贮积症、神经节苷脂贮积症、α-半乳糖苷酶、Fabry病、Schindler病、Sandhoff病、戈谢病(Gaucher Disease)、Niemann-Pick病、硫脂病(Sulfatidosis)、异染性脑白质营养不良、多种硫酸酯酶缺乏症(Multiple sulfatasedeficiency)、Hurler综合征、Scheie综合征、Hurler-Scheie综合征、Hunter综合征、Sanfilippo综合征、Morquio综合征、Maroteaux-Lamy综合征、Sly综合征、透明质酸酶缺乏症、黏脂贮积症(Mucolipidosis)、唾液酸贮积症、I-细胞疾病、假Hurler多发性营养不良(Pseudo-Hurler Polydystrophy)、Mucolipidin 1缺乏症、脂沉积症、Santavuori-Haltia病、Jansky-Bielschowsky病、Batten-Spielmeyer-Vogt病、Kufs病、Wolman病、α-甘露糖苷贮积症、β-甘露糖苷贮积症、天冬氨酰葡糖胺尿症、岩藻糖苷贮积症(Fucosidosis)、胱氨酸贮积症、致密性成骨不全、Salla病、婴儿游离唾液酸贮积病、Pompe病、Danon病或胆固醇酯贮积病。

作为本文公开的公开内容的示例性实施方式，包含在供体中的转基因可以是用于治疗遗传性紊乱的治疗性基因。

治疗性基因可编码能够用作特定性遗传紊乱的治疗剂的蛋白。

治疗性基因可以包括与特定遗传性紊乱有关的疾病基因(正常基因的突变形式)的野生型基因(正常基因形式)或野生型基因的部分(例如功能结构域)。

在示例性实施方式中，治疗性基因可以选自于由IDUA、I2S、SGSH、NAGLU、HGSNAT、GNS、GALNS、GLB1、ARSB、GUSB、HYAL、NEU、GNPTAB和MCOLN1所组成的组。

在另一示例性实施方式中，治疗性基因可以选自于由SAH1、GALC、CTSA、GLA、NAGA、β-半乳糖苷酶、己糖胺酶、GBA、SMPD1、ARSA和SUMF所组成的组。

在又一实例中，治疗性基因(即致病基因的正常形式)可以选自于由NPC、PPT、TPP1、CLN3、CLN6、PPT1、DNAJC5、CTSF、CLN7、CLN8和CTSD所组成的组。

在又一个实例中，治疗性基因(即致病基因的正常形式)可为GAA或LAMP2。

在又一个实例中，治疗性基因(即致病基因的正常形式)可为CTNS、CTSK或SLC17A5。

在又一个实例中，治疗性基因(即致病基因的正常形式)可以选自于由MAN2B、MAN2C、MANBA、AGA、FUCA1和LAL所组成的组。

在又一个实例中，治疗性基因(即致病基因的正常形式)可以是编码选自于由如下蛋白所组成的组中的蛋白的基因：甲基丙二酸尿症CbIA型(MMAA)蛋白、甲基丙二酸尿症CbIB型(MMAB)蛋白、甲基丙二酸尿症CbIC型(MMADHC)蛋白、5-甲基四氢叶酸-同型半胱氨酸甲基转移酶还原酶(MTRR)蛋白、溶酶体膜蛋白结构域(LMBRD 1)蛋白、5-甲基四氢叶酸-同型半胱氨酸甲基转移酶(MTR)蛋白、丙酰-CoA蛋白、葡萄糖-6-磷酸转运(G6PT)蛋白、葡萄糖-6-磷酸酶(G6Pase)蛋白、低密度脂蛋白受体(LDLR)蛋白、低密度脂蛋白受体接头蛋白1(LDLRAP-1蛋白)、N-乙酰谷氨酸合成酶(NAGS)蛋白、氨基甲酰磷酸合成酶1(CPS1)蛋白、鸟氨酸氨甲酰基转移酶(OTC)蛋白、精氨琥珀酸合成酶(ASS)蛋白、精氨琥珀酸裂解酶(ASL)蛋白、精氨酸酶(ARG1)蛋白、溶质载体家族25蛋白、UDP葡萄糖醛酸基转移酶1家族多肽A1(UGT1A1)蛋白、延胡索酰乙酰乙酸水解酶(FAH)、丙氨酸-乙醛酸氨基转移酶(AGXT)蛋白、乙醛酸还原酶/羟基丙酮酸还原酶(GRHPR)蛋白、APTase Cu(2+)转运β(ATP7B)蛋白、苯丙氨酸羟化酶(PAH)蛋白和脂蛋白裂解酶(LPL)蛋白。

在又一实例中，治疗性基因(即致病基因的正常形式)可以选自于由FVII、FVIII、FIX、FX、FXI、FXII和其它凝血因子所组成的组。

例如，在血友病的情况下，可以将编码转基因的基因***内源APOC3基因座，以通过APOC3基因的表达调控因子而具有高蛋白表达。此处，FVII、FVIII、FIX、FX、FXI和FXII以高水平表达，或者有助于表达凝血因子的任意肽或蛋白高度表达。

在一个示例性实施方式中，治疗性基因可以是编码抗体的基因。

治疗性基因是编码通过抗体阻断参与疾病发生的特定因子或信号途径的蛋白或多肽的基因。

例如，治疗性基因可以是编码与β-淀粉样蛋白结合来治疗阿尔茨海默病的抗体的基因。

例如，为了治疗HIV，治疗性基因可以是如下的基因：编码核苷类似物逆转录酶抑制剂(NRTI)中的齐多夫定(AZT)、去羟肌苷(ddl)、扎西他滨(ddC)、拉米夫定(3TC)、司他夫定(d4T)、阿巴卡韦(TDF)或恩曲他滨(FTC)的基因，编码非核苷类似物逆转录酶抑制剂(NNRTI)中的奈韦拉平(NVP)或依非韦伦(EFV)的基因，或编码蛋白酶抑制剂中的沙奎那韦(sanquinavir，SQV)、利托那韦(RTV)、茚地那韦(IDV)、奈非那韦(NFV)、洛匹那韦(LPV)、阿扎那韦(ATV)或安普那韦(APV)的基因。

在另一示例性实施方式中，治疗性基因可以通过***调节野生型基因表达的因子来增加或降低野生型基因的表达，从而来治疗遗传性紊乱。

在又一示例性实施方式中，治疗性基因可以通过删除、添加或置换野生型基因的部分序列来产生具有改善的功能或新的功能的蛋白，从而来治疗遗传性紊乱。

例如，治疗性基因可以融合有可渗透到特定组织(例如血脑屏障(BBB))中的特定肽，或者能够改善治疗性基因的治疗效果的功能肽。

在本文公开的公开内容的一个示例性实施方式中，供体可进一步包含用于在靶基因组中***转基因和/或合成转基因的基因。

靶基因组中转基因的***和/或合成可以由同源重组(HDR)或非同源重组(非同源末端接合；NHEJ)引起。

术语“重组”是指在两个多核苷酸之间交换遗传信息的过程，包括通过非同源重组(NHEJ)和同源重组(HDR)进行的转基因***。

本文公开的“非同源重组(NHEJ)”是指发生在不具有序列同源性或未出现在位点特异性重组序列中的DNA序列之间发生的交换的特化形式。

此处，可以通过非同源重组将转基因***至高表达分泌型基因中。

例如，当转基因的部分序列和靶基因的部分序列相同时，相同的部分序列可以被相同的位点特异性核酸酶切割，并且可以基于非同源重组将转基因***靶基因缺失序列或与其相邻的位点中。

本文公开的“同源重组(HDR)”是指例如通过同源介导的修复机制在细胞中进行双链断裂修复期间发生的交换的特化形式。

供体序列可包含用于转基因的同源重组的同源臂。

同源臂可包含与靶序列或与其相邻的序列相同或互补的序列。

同源臂可包含与靶序列或与其相邻的序列同源但不相同的序列，或与靶序列同源但不完全同源的序列。

具有与高表达分泌性基因同源或相同的序列的同源臂可包含与高表达分泌性基因的序列错配的至少一个核苷酸。

在某个示例性实施方案中，与靶序列同源的多数供体序列相对于待替换的基因组序列表现出约80％至99％(或80％至90％之间的任意值)的序列一致性。

同源臂可以允许同源重组，使得将与靶序列不同的序列(即转基因)***至靶序列中。

例如，当在其中的双链被引导核酸和编辑蛋白破坏的区域中存在与供体序列同源的序列时，可以通过同源重组将转基因***同源序列旁的转基因序列中。

供体分子可以包含与高表达分泌型基因同源的数个非连续区域。

供体序列中包含的同源臂可包含与高表达分泌型基因的切割位点的一个方向(例如上游)上的核苷酸序列具有同源性的核苷酸序列。

供体序列中包含的同源臂可包含与高表达分泌型基因的切割位点的不同方向(例如下游)上的核苷酸序列具有同源性的核苷酸序列。

供体序列中包含的同源臂可以包含与高表达分泌型基因的切割位点的上游和下游各自的核苷酸序列具有同源性的核苷酸序列。

例如，当转基因被***至靶序列中与切割位点的两侧相距30bp或更多的位点中时，供体序列中转基因的两个末端均包含具有与距切割位点30bp的位点处存在的基因序列具有同源性或与之相同的序列的同源臂。

每个同源臂具有至少15bp至大约3kb的长度(例如，约800b或bp、850b或bp、900b或bp、950b或bp、1000b或bp、1100b或bp、1200b或bp长)。

在一个实例中，同源臂可分别为500bp至1500bp长。优选地，同源臂可分别为800bp至1200bp长。

通常，同源臂可以作为单链或双链寡核苷酸提供。作为模板的示例性的单链或双链寡核苷酸可以具有800b或bp、850b或bp、900b或bp、950b或bp、1000b或bp、150b或bp、1100b或bp、1150b或bp、1200b或bp的长度，或至少约800bp、850bp、900bp、950bp、1000bp、1050bp、1100bp、1150bp、1200bp、1250bp或1300bp的长度。

此外，在本文公开的公开内容的一个示例性实施方式中，除转基因外，供体可进一步包含调节转录和表达的基因。

供体可包含一个或多个基因或cDNA分子，并且可包涵编码区或非编码区。

供体可包含控制基因转录和表达的调节序列，即编码增强子、绝缘子、内部核糖体进入位点、2A肽和/或多聚腺苷酸信号、或启动子的序列。

此外，供体可进一步包含报告基因(例如GFP)或选择标记。

通过供体中的序列与靶序列中的靶序列之间的同源序列的存在及其使用，来确定经由供体序列将转基因***到高表达分泌型基因中。

[递送和递送方法]

在本文公开的公开内容的一个示例性实施方式中，可以通过包含编码引导核酸、编辑蛋白和/或供体分子的序列的载体、非载体或它们的组合将所述引导核酸、编辑蛋白和/或供体分子递送入或导入受试者中。

可以以DNA、RNA或其混合物的形式将引导核酸递送入或导入受试者中。

可以以编码编辑蛋白的DNA、RNA、DNA/RNA混合物、肽、多肽或蛋白的形式将编辑蛋白递送入或导入受试者中。

可以以DNA、RNA或单链寡核苷酸DNA模板(ssODT)的形式将供体递送入或导入受试者。

例如，当将供体递送入或导入受试者中时，可以通过重组将全部或部分转基因***靶基因。

可以通过多种方法将引导核酸、编辑蛋白和/或供体递送入受试者中。

可以通过使用载体对引导核酸、编辑蛋白和/或供体进行递送。

此处，载体可以是病毒载体或非病毒载体。

可以通过使用非载体对引导核酸、编辑蛋白和/或供体进行递送。

(1)载体

载体可为病毒载体或非病毒载体(例如质粒)。

术语“载体”可将基因序列递送至细胞中。通常，“载体构建体”、“表达载体”和“基因转移载体”可以指导感兴趣的基因的表达，并且意指能够将基因序列递送入靶细胞的任意核酸构建体。因此，该术语包括所有克隆媒介和载体以及表达媒介和载体。

载体可以包含编码引导核酸、编辑蛋白和/或供体的核苷酸序列。

此处，引导核酸、编辑蛋白和/或供体可为DNA、RNA或其混合物。

引导核酸、编辑蛋白和/或供体可以通过使用相同或不同的载体进行递送。例如，供体可以通过质粒进行递送，而引导核酸和/或编辑蛋白可以通过一种或多种病毒载体进行递送。

可以通过使用一个或多个载体对引导核酸、编辑蛋白和/或供体进行递送或导入。

在一个实例中，可以通过使用相同的载体来递送或导入引导核酸、编辑蛋白和/或供体。

在另一实例中，可以以核苷酸序列的形式将引导核酸和编辑蛋白二者包含在一个载体中，而供体可以通过使用不同的载体来递送或导入。

在一个实例中，引导核酸和供体多核苷酸二者可以包含在一个载体中，可以通过使用不同载体来递送或导入处于核苷酸序列形式的编辑蛋白。

在另一实例中，可以以核苷酸序列的形式将编辑蛋白和供体二者包含在一个载体中，引导核酸则可以通过使用不同的载体来递送或导入。

例如，引导核酸、编辑蛋白和/或供体可以分别包含在不同的载体中。

引导核酸中包含的所有结构域可以包含在一个载体中，或者可将各个结构域包含在不同的载体中。

在编辑蛋白的情况中，编码编辑蛋白的核苷酸序列可以包含在一个载体中，或者可将其分割并随后包含在数个载体中。

载体可以包括一种或多种调节/控制成分。

此处，调节/控制成分可包括启动子、增强子、内含子、多聚腺苷酸信号、Kozak共有序列、内部核糖体进入位点(IRES)、剪接受体和/或2A序列。

此外，载体可进一步包含用于选择含有报告基因(例如，GFP)或载体的宿主细胞的选择标记，并且可复制的载体可进一步包含复制起点。

载体可以在转基因的左侧或右侧或在转基因附近包含剪接受体(SA)序列。

启动子可为靶区域中的内源启动子或外源启动子。

启动子可为由RNA聚合酶II或RNA聚合酶III识别的启动子。

启动子可为组成型启动子。

启动子可为诱导型启动子。

启动子可为靶标特异性启动子。

启动子可为病毒启动子或非病毒启动子。

作为启动子，可根据控制区(即引导核酸、编辑蛋白或转基因)而使用合适的启动子。例如，对引导核酸有用的启动子可为H1、EF-1a、tRNA或U6启动子。

例如，对编辑蛋白有用的启动子可为CMV、EF-1a、EFS、MSCV，PGK或CAG启动子。例如，对转基因有用的启动子可为APOC3或HP启动子。

载体可为病毒载体或重组病毒载体。

病毒可为DNA病毒或RNA病毒。

此处，DNA病毒可为双链DNA(dsDNA)病毒或单链DNA(ssDNA)病毒。

此处，RNA病毒可为单链RNA(ssRNA)病毒。

病毒载体可为逆转录病毒载体、慢病毒载体、腺病毒载体、fox病毒载体、疱疹病毒载体、单纯疱疹病毒、痘苗病毒或腺相关病毒(AAV)载体，但是本发明不限于此。

当使用病毒将引导核酸、编辑蛋白和/或供体分子导入靶生物体中时，该引导核酸、编辑蛋白和/或供体分子可在受试者中暂时表达。或者，引导核酸、编辑蛋白和/或供体分子可长时间持续表达。例如，引导核酸、编辑蛋白和/或供体分子可表达1周、2周或3周，1个月、2个月、3个月、4个月、5个月或6个月，1年或2年，或永久。

根据病毒的类型，病毒的包装能力可在至少2kb至50kb间变化。取决于此类包装能力，可设计单独包含引导核酸或编辑蛋白的病毒载体，或者可设计包含引导核酸和编辑蛋白二者的病毒载体。或者，可设计包含引导核酸、编辑蛋白和额外成分的病毒载体。

例如，逆转录病毒载体具有高达6kb至10kb的外源序列的包装能力，并且由顺式长末端重复(cis-long terminal repeats，LTR)组成。此类逆转录病毒载体用于将治疗性基因***细胞，并提供永久的转基因表达。

在另一实例中，可重复给予AAV载体，这是由于AAV在多种细胞(肌肉、脑、肝、肺、视网膜、耳、心脏、血管等)中非常高的转导效率(不论细胞***与否)，没有致病性，并且因为多数病毒基因组可以用治疗性基因置换而不诱导免疫反应。此外，由于AAV***靶细胞的染色体中，治疗性蛋白长时间稳定地表达。例如，可用于将先前在体外产生的核酸和肽在体内和体外转导至细胞的靶核酸。然而，AAV尺寸小，具有4.5kb或更小的包装能力。

在一个实例中，可借助重组慢病毒将编码引导核酸、编辑蛋白和/或供体分子的核苷酸序列递送入或导入受试者中。

在另一实例中，可借助重组腺病毒递送或导入编码引导核酸、编辑蛋白和/或供体分子的核苷酸序列。

在一个实例中，可借助重组AAV递送或导入编码引导核酸、编辑蛋白和/或供体分子的核苷酸序列。

载体可包含修饰，例如核酸的硫代磷酸酯连接、锁核酸(LNA)，2'-O-甲基3'硫代磷酸酯(MS)或2'-O-甲基3'硫代PACE(MSP)。

可借助非病毒载体递送或导入编码引导核酸、编辑蛋白和/或供体分子的核苷酸序列。

非病毒载体可包含编码引导核酸、编辑蛋白和/或供体分子的核苷酸序列。

例如，非病毒载体可为质粒，并且额外包含报告基因和核靶向序列。除此以外，可以包含其它添加物。

(2)非载体

可通过使用非载体将引导核酸、编辑蛋白和/或供体分子递送入或导入受试者中。

可通过使用非载体将编码引导核酸、编辑蛋白和/或供体分子的核苷酸序列递送入或导入受试者中。

非载体可为裸DNA、DNA复合体、mRNA或其混合物。

可借助电穿孔、脂质转染、显微注射、基因枪、病毒体、脂质体、免疫脂质体、脂质介导的转染或它们的组合将非载体递送入或导入受试者。

在一个实例中，可通过阳性脂质体方法将非载体转移至受试者中。该方法用于形成稳定的脂质体，因为DPOE由阳性两亲分子和中性辅助脂质组成。此处，由于脂质体-DNA复合体带正电，因此它可以结合至带负电的细胞表面，并通过内吞作用导入细胞中。

在另一实例中，DNA可以用金颗粒包被，并注射入细胞中。

此外，可包装待递送至EnGeneIC递送媒介(EDV)的核酸，然后将其递送或导入。具体而言，通过使用其双特异性抗体将EDV递送至靶组织中，所述抗体的一个臂对靶组织具有特异性，而另一个臂对EDV具有特异性。抗体将EDV携带至靶细胞的表面，然后EDV可以通过内吞作用进入细胞。

可形成引导核酸-编辑蛋白复合体，以核酸和蛋白的混合物的形式被递送或导入受试者中。

可以以核酸-蛋白混合物的形式将引导核酸和编辑蛋白递送入或导入受试者中。

或者，可以以引导核酸-编辑蛋白复合体的形式将引导核酸和编辑蛋白递送入或导入受试者中。

引导核酸可为DNA、RNA或其混合物。此外，编辑器蛋白可处于多核苷酸或蛋白的形式。

在一个示例性实施方式中，可以以引导核酸-编辑蛋白复合体(即核糖核蛋白(RNP))的形式将RNA型引导核酸和蛋白型编辑蛋白递送入或导入受试者中。

(3)递送方法

体内递送方法

可以以载体或非载体(含有编码引导核酸和编辑蛋白的核酸)的形式或引导核酸-编辑蛋白复合体(核糖核蛋白(RNP))的形式将引导核酸和编辑蛋白直接给予到受试者中。

此外，可以以载体或非载体的形式将供体分子直接给予到受试者中，所述载体或非载体包含编码引导核酸和/或编辑蛋白的各自或二者的核苷酸序列。

可通过***性给予或局部给予递送入或导入受试者来实施注射。然而，本发明不限于此。

例如，***性给予可为静脉内、腹膜内、肌内或皮下注射。优选使用静脉内***性给予。

当引导核酸、编辑蛋白和/或供体分子包含在两个或更多个不同载体中时，可借助不同途径(肌内注射、尾静脉注射、其它静脉内注射和/或腹膜内注射)给予所述载体。

此外，当引导核酸、编辑蛋白和/或供体分子包含在两个或更多个不同载体中时，可以同时或以随机的顺序递送所述载体。

离体或体外递送方法

可将引导核酸、编辑蛋白和/或供体分子递送入从个体受试者外植的细胞或通用造血干细胞中，然后可以将细胞重新移植到受试者中。

关于递送方法，可借助如下方式以递送至受试者中：(i)使引导核酸、编辑蛋白和/或供体分子与细胞接触，以及(ii)将经接触的细胞直接给予到受试者中。

具体而言，在细胞内接触步骤中，可以以包含编码引导核酸或/和编辑蛋白的核苷酸序列的载体或非载体的形式，或引导核酸-编辑蛋白复合体(核糖核蛋白(RNP))的形式，将引导核酸和编辑蛋白导入细胞中。或者，可以以载体或非载体的形式将供体分子导入细胞中，所述载体或非载体包含编码引导核酸和/或编辑蛋白的各自或二者的核苷酸序列。

例如，当以载体的形式将引导核酸和编辑蛋白导入细胞中时，接触步骤(i)可借助选自电穿孔、脂质体、纳米粒子和蛋白易位结构域(PTD)-融合蛋白法中的一种或多种方法来实施。

在另一实例中，当以载体的形式将引导核酸和编辑蛋白导入细胞中时，接触步骤(i)可借助选自于由非病毒载体(其为质粒)和病毒载体所组成的组中的一种或多种来实施。

步骤(ii)用于将在步骤(i)中获得的经接触的细胞直接给予至受试者中，并且可以通过***性给予或局部给予将所述细胞递送入或导入受试者中。然而，本发明不限于此。

例如，***性给予可为静脉内、腹膜内、肌内或皮下注射。优选地，使用静脉内***性给予。

本文公开的公开内容包括通过将引导核酸、编辑蛋白和/或供体导入或递送入受试者中而修饰的受试者。

可通过将转基因***肝细胞基因组中来获得修饰的受试者。

修饰的受试者的一个具体实例为经人工操纵的肝细胞。

修饰的肝细胞可为包含经人工操纵的高表达分泌型基因的肝细胞。

经人工操纵的高表达分泌型基因可为高表达分泌型基因中***有转基因的基因。

经人工操纵的基因可具有导入至高表达分泌型基因的编码区中的转基因。

在一个实例中，转基因可在高表达分泌型基因的外显子区中。

例如，在高表达分泌型基因中，APOC3基因的编码序列中可具有外显子1、外显子2、外显子3和外显子4。

转基因可位于APOC3基因的外显子1中。

转基因可位于APOC3基因的外显子2中。

转基因可位于APOC3基因的外显子3中。

转基因可位于APOC3基因的外显子4中。

在另一实例中，在高表达分泌型基因中，HP基因的编码序列中可具有外显子1、外显子2、外显子3、外显子4和外显子5。

此处，转基因可位于HP基因的外显子1中。

此处，转基因可位于HP基因的外显子2中。

此处，转基因可位于HP基因的外显子3中。

此处，转基因可位于HP基因的外显子4中。

此处，转基因可位于HP基因的外显子5中。

此外，经人工操纵的基因可以是如下形式：其中，转基因***到高表达分泌型基因的非编码序列中。

可将转基因导入位于启动子、增强子、内含子、3′UTR、多聚A尾或它们的混合的区域中。

在一个实例中，可将转基因***高表达分泌型基因的内含子区。

例如，在高表达分泌型基因中，APOC3基因的编码序列中可坐落有三个内含子，例如内含子1、内含子2和内含子3。

此处，转基因可位于APOC3基因的内含子1中。

此处，转基因可位于APOC3基因的内含子2中。

此处，转基因可位于APOC3基因的内含子3中。

在另一实例中，在高表达分泌型基因中，HP基因的编码序列中可坐落有内含子1、内含子2、内含子3和内含子4可以位于。

此处，转基因可位于HP基因的内含子1中。

此处，转基因可位于HP基因的内含子2中。

此处，转基因可位于HP基因的内含子3中。

此处，转基因可位于HP基因的内含子4中。

可将转基因***外显子、内含子或它们二者中。

在一个实例中，转基因可位于APOC3基因的外显子区和内含子区二者中。

转基因可位于APOC3基因的外显子1区域和内含子1区域二者中。

转基因可位于APOC3基因的内含子1区域和外显子2区域二者中。

转基因可位于APOC3基因的外显子2区域和内含子2区域二者中。

转基因可位于APOC3基因的内含子2区域和外显子3区域二者中。

转基因可位于APOC3基因的外显子3区域和内含子3区域二者中。

转基因可位于APOC3基因的内含子3区域和外显子4区域二者中。

在另一实例中，转基因可以位于HP基因的外显子区和内含子区二者中。

转基因可位于HP基因的外显子1区域和内含子1区域二者中。

转基因可位于HP基因的内含子1区域和外显子2区域二者中。

转基因可位于HP基因的外显子2区域和内含子2区域中二者中。

转基因可位于HP基因的内含子2区域和外显子3区域中二者中。

转基因可位于HP基因的外显子3区域和内含子3区域中二者中。

转基因可位于HP基因的内含子3区域和外显子4区域中二者中。

转基因可位于HP基因的外显子4区域和内含子4区域中二者中。

转基因可位于HP基因的内含子4区域和外显子5区域中二者中。

此外，可将转基因***包含高表达分泌型基因的突变部分(例如，不同于野生型基因的部分)的区域中。

此外，可将转基因***临近高表达分泌型基因的核苷酸序列中的PAM序列的5'端和/或3'端的10-35个连续核苷酸的序列中。

此处，PAM序列可为例如如下序列中的一种或多种(以5'至3'方向来描述)：

NGG(N为A、T、C或G)；

NNNNRYAC(N各自独立地为A、T、C或G；R为A或G；Y为C或T)；

NNAGAAW(N各自独立地为A、T、C或G；W为A或T)；

NNNNGATT(N各自独立地为A、T、C或G)；

NNGRR(T)(N各自独立地为A、T、C或G；R为A或G；Y为C或T)；以及

TTN(N为A、T、C或G)。

此处，转基因可处于10-35个核苷酸、15-35个核苷酸、20-35个核苷酸、25-35个核苷酸或30-35个核苷酸的序列中。

或者，转基因可处于10-15个核苷酸、15-20个核苷酸、20-25个核苷酸、25-30个核苷酸或30-35个核苷酸的序列中。

在一个示例性的实施方式中，当由编辑蛋白识别的PAM序列为5'-NGG-3'，5'-NAG-3'和/或5'-NGA-3'(N＝A、T、G或C；或A、U、G或C)时，转基因可位于临近HP基因的核苷酸序列中的5'-NGG-3'，5'-NAG-3'和/或5'-NGA-3'(N＝A、T、G或C；或A、U、G或C)序列的5'端和/或3'端的10-25个连续核苷酸中。

在另一示例性实施方式中，当由编辑蛋白识别的PAM序列为5'-NGGNG-3'和/或5'-NNAGAAW-3'(W＝A或T；N＝A、T、G或C，或A、U、G或C)时，转基因可位于临近HP基因的核苷酸序列中的5'-NGGNG-3'和/或5'-NNAGAAW-3'(W＝A或T；N＝A、T、G或C，或A、U、G或C)序列的5'端和/或3'端的10-25个连续核苷酸中。

在又一示例性实施方式中，当由编辑蛋白识别的PAM序列为5'-NNNNGATT-3'和/或5'-NNNGCTT-3'(N＝A、T、G或C；或A、U、G或C)时，转基因可位于临近HP基因的核苷酸序列中的5'-NNNNGATT-3'和/或5'-NNNGCTT-3'(N＝A、T、G或C；或A、U、G或C)序列的5'端和/或3'端的10-25个连续核苷酸中。

在一个示例性实施方式中，当由编辑蛋白识别的PAM序列为5'-NNNVRYAC-3'(V＝G、C或A；R＝A或G；Y＝C或T；N＝A、T、G或C，或A、U、G或C)时，转基因可位于临近HP基因的核苷酸序列中的5'-NNNVRYAC-3'(V＝G、C或A；R＝A或G；Y＝C或T；N＝A、T、G或C，或A、U、G或C)序列的5'端和/或3'端的10-25个连续核苷酸中。

在另一示例性实施方式中，当由编辑蛋白识别的PAM序列为5'-NAAR-3'(R＝A或G；N＝A、T、G或C，或A、U、G或C)时，转基因可位于临近HP基因的核苷酸序列中的5'-NAAR-3'(R＝A或G；N＝A、T、G或C，或A、U、G或C)序列的5'端和/或3'端的10-25个连续核苷酸中。

在又一示例性实施方式中，当由编辑蛋白识别的PAM序列为5'-NNGRR-3'、5'-NNGRRT-3'和/或5'-NNGRRV-3'(R＝A或G；V＝G、C或A；N＝A、T、G或C，或A、U、G或C)时，转基因可位于临近HP基因的核苷酸序列中的5'-NNGRR-3'、5'-NNGRRT-3'和/或5'-NNGRRV-3'(R＝A或G；V＝G、C或A；N＝A、T、G或C，或A、U、G或C)序列的5'端和/或3'端的10-25个连续核苷酸中。

在一个示例性实施方式中，当由编辑蛋白识别的PAM序列为5'-TTN-3'(N＝A、T、G或C；或A、U、G或C)时，转基因可位于临近HP基因的核苷酸序列中的5'-TTN-3'(N＝A、T、G或C；或A、U、G或C)序列的5'端和/或3'端的10-25个连续核苷酸中。

在另一实例中，转基因可处于临近APOC3基因的核苷酸序列中的PAM序列的5'端和/或3'端的10-25个连续核苷酸的序列中。

在一个示例性实施方式中，当由编辑蛋白识别的PAM序列为5'-NGG-3'、5'-NAG-3'和/或5'-NGA-3'(N＝A、T、G或C；或A、U、G或C)时，转基因可位于临近APOC3基因的核苷酸序列中的5'-NGG-3'、5'-NAG-3'和/或5'-NGA-3'(N＝A、T、G或C；或A、U、G或C)序列的5'端和/或3'端的10-25个连续核苷酸中。

在另一示例性实施方式中，当由编辑蛋白识别的PAM序列为5'-NGGNG-3'和/或5'-NNAGAAW-3'(W＝A或T；N＝A、T、G或C，或A、U、G或C)时，转基因可位于临近APOC3基因的核苷酸序列中的5'-NGGNG-3'和/或5'-NNAGAAW-3'(W＝A或T；N＝A、T、G或C，或A、U、G或C)序列的5'端和/或3'端的10-25个连续核苷酸中。

在又一示例性实施方式中，当由编辑蛋白识别的PAM序列为5'-NNNNGATT-3'和/或5'-NNNGCTT-3'(N＝A、T、G或C；或A、U、G或C)时，转基因可位于临近APOC3基因核苷酸序列中的5'-NNNNGATT-3'和/或5'-NNNGCTT-3'(N＝A、T、G或C；或A、U、G或C)序列的5'端和/或3'端的10-25个连续核苷酸中。

在一个示例性实施方式中，当由编辑蛋白识别的PAM序列为5'-NNNVRYAC-3'(V＝G、C或A；R＝A或G；Y＝C或T；N＝A、T、G或C，或A、U、G或C)时，转基因可位于临近APOC3基因的核苷酸序列中的5'-NNNVRYAC-3'(V＝G、C或A；R＝A或G；Y＝C或T；N＝A、T、G或C，或A、U、G或C)序列的5'端和/或3'端的10-25个连续核苷酸中。

在另一示例性实施方式中，当由编辑蛋白识别的PAM序列为5'-NAAR-3'(R＝A或G；N＝A、T、G或C，或A、U、G或C)时，转基因可位于临近APOC3基因的核苷酸序列中的5'-NAAR-3'(R＝A或G；N＝A、T、G或C，或A、U、G或C)序列的5'端和/或3'端的10-25个连续核苷酸中。

在又一示例性实施方式中，当由编辑蛋白识别的PAM序列为5'-NNGRR-3'、5'-NNGRRT-3'和/或5'-NNGRRV-3'(R＝A或G；V＝G、C或A；N＝A、T、G或C，或A、U、G或C)时，转基因可位于临近APOC3基因的核苷酸序列中的5'-NNGRR-3'、5'-NNGRRT-3'和/或5'-NNGRRV-3'(R＝A或G；V＝G、C或A；N＝A、T、G或C，或A、U、G或C)序列的5'端和/或3'端的10-25个连续核苷酸中。

在一个示例性实施方式中，当由编辑蛋白识别的PAM序列为5'-TTN-3'(N＝A、T、G或C；或A、U、G或C)时，转基因可位于临近APOC3基因的核苷酸序列中的5'-TTN-3'(N＝A、T、G或C；或A、U、G或C)序列的5'端和/或3'端的10-25个连续核苷酸中。

修饰的肝细胞可为含有由经人工操纵的高表达分泌型基因表达的蛋白(以下称为“人工表达蛋白”)的肝细胞。

在人工表达蛋白中，高表达分泌型基因和/或转基因得到表达。

在一个实例中，肝细胞可包含通过表达转基因而产生的蛋白。

在另一实例中，肝细胞可包含通过表达转基因产生的蛋白和通过表达经人工操纵的高表达分泌型基因产生的蛋白二者。

此外，可通过人工操纵对高表达分泌型基因的表达水平进行调节。

在一个实例中，高表达分泌型基因的表达水平可高于对高表达分泌型基因进行人工操纵之前的表达水平。

在另一实例中，高表达分泌型基因的表达水平可以低于对高表达分泌型基因进行人工操纵之前的表达水平。

此外，表达的感兴趣的蛋白可为肝细胞中存在的基因的野生型蛋白。

在一个实例中，以预定水平或更低水平在肝细胞中表达的蛋白可通过表达感兴趣的蛋白而表现出增加的表达水平。

在另一实例中，当存在于肝细胞中的基因突变并具有异常功能时，可表达野生型基因，从而可以具有正常功能。在这种情况下，肝细胞中可同时存在突变蛋白和野生型蛋白。或者，肝细胞中的突变蛋白可不表达，但是可表达野生型蛋白。

或者，表达的感兴趣的蛋白可以是在肝细胞中未有表达的新蛋白。

在一个实例中，表达的感兴趣的蛋白质可为治疗性蛋白。此处，治疗性蛋白为不在肝细胞中自然表达的蛋白，并且可用于治疗、减轻或预防疾病(包括遗传性紊乱)。

表达的感兴趣的蛋白可为突变蛋白(通过对野生型蛋白进行部分修饰而产生)。

在一个实例中，表达的感兴趣的蛋白可为通过对部分野生型基因的核苷酸进行部分修改而表达的蛋白。

例如，与野生型蛋白相比，突变蛋白的一些功能可增强。

表达的感兴趣的蛋白可为融合型蛋白。

在一个实例中，所述感兴趣的蛋白可为通过将受试者中的内源基因与外源基因结合所表达的融合蛋白。

在另一实例中，所述感兴趣的蛋白可为通过将外来基因结合在一起表达的融合蛋白。

例如，感兴趣的蛋白可为通过将不同的内源基因结合所表达的融合蛋白。

因此，本文公开的公开内容包括由经人工操纵的高表达分泌型基因修饰的肝细胞。

此外，本文公开的公开内容包括由修饰的肝细胞所修饰的肝组织。

此外，本文公开的公开内容包括由修饰的肝组织所修饰的肝。

此处，可对肝进行部分修饰或全部修饰。

[表达感兴趣的蛋白的方法]

本文公开的公开内容的一个示例性实施方式涉及在肝中表达感兴趣的蛋白的方法。

所述方法在体内、离体或在体外实施。

在一些实施方式中，所述方法包括(i)将可编程核酸酶和转基因导入器官、组织或细胞。

在一个示例性实施方式中，所述方法可包括步骤(i)：向受试者中导入

(a)引导核酸，所述引导核酸与选自于由高表达分泌型基因所组成的组中的一个或多个基因的核苷酸序列形成互补结合、或具有与选自于由高表达分泌型基因所组成的组中的一个或多个基因的核苷酸序列相同的序列；

(b)编辑蛋白或编码所述编辑蛋白的核酸；以及

(c)包含转基因的供体。

所述一个或多个基因可选自高表达分泌型基因，例如FTL、FTH1、ACTB、HP、APOC3、SOD2、ORM1和F9。优选地，所述基因可为APOC3基因或HP基因。

引导核酸(a)可包含：可具有与靶序列SEQ ID No:1至SEQ ID No:348相同的序列的引导核酸，或者可与靶序列SEQ ID No:1至SEQ ID No:348形成互补结合的引导核酸。

编辑蛋白(b)包括选自于由如下蛋白所组成的组的一种或多种编辑蛋白：酿脓链球菌衍生而来的Cas9蛋白、空肠弯曲杆菌衍生而来的Cas9蛋白、嗜热链球菌衍生而来的Cas9蛋白、金黄色葡萄球菌衍生而来的Cas9蛋白、脑膜炎奈瑟菌衍生而来的Cas9蛋白和Cpf1蛋白。

转基因(c)可为编码感兴趣的蛋白的基因。例如，转基因可为治疗性基因。

治疗性基因的描述如上文所述。

用于操纵基因的组合物的描述如上文所述。

导入的步骤可在体内进行。

此处，可借助载体或非载体来递送(a)、(b)和(c)。

载体、非载体和递送方法的描述与上文所述相同。

在肝中表达感兴趣的蛋白的方法可进一步包括在经步骤(i)而来的修饰的器官、组织或细胞中确认转基因表达。

此处，在步骤(ii)中，

在步骤(i)中修饰的器官或组织可为其中子在自然状态下的器官或组织基因组中***有转基因的器官或组织。

在步骤(i)中修饰的器官或组织可包含转基因。

此处，修饰的器官或组织中包含的转基因可在所述修饰的器官或组织中表达。

可通过转基因的mRNA或蛋白的表达来确认转基因在修饰的器官或组织中的表达。

可使用PCR作为确认转基因mRNA表达的方法。

可使用蛋白质印迹、ELISA或IP作为确认转基因蛋白表达的方法。

在另一实例中，所述方法可离体或在体外实施。此处，为了表达感兴趣的蛋白，可使用经人工操纵的肝细胞的制备方法。

在一个示例性实施方式中，所述方法可为表达感兴趣的蛋白的经操纵的动物细胞的制备方法，所述方法包括使如下进行接触：

(a)动物细胞；以及

(b)组合物，所述组合物用于操纵基因以将转基因人工***至选自高表达分泌型基因(如ALB、FTL、FTH1、ACTB、HP、APOC3、SOD2、ORM1和F9)中的一个或多个基因。

此处，动物细胞(a)可以是人来源的体细胞或干细胞。

具体而言，人来源的体细胞可为肝细胞。

用于操纵基因的组合物(b)如下。

接触步骤可包括将用于操纵基因的组合物(b)导入动物细胞(a)。

在该方法中使用的动物细胞可为来源于哺乳动物(包括诸如人和猴的灵长类动物，以及诸如小鼠和大鼠的啮齿动物)的动物细胞。

[用途]

本文公开的公开内容的实例包括治疗用途。

例如，治疗用途可包括给予用于将转基因***受试者的肝细胞基因组的组合物或***有转基因的肝细胞。

待治疗的受试者可为哺乳动物，例如灵长类动物(如人或猴)以及啮齿动物(如小鼠或大鼠)。

(1)药物组合物

本说明书的一个示例性实施方式包括用于通过高度表达治疗性基因来治疗疾病的组合物及所述组合物的制备方法。

例如，所述组合物可为包含治疗性基因和经人工操纵以将转基因人工***肝细胞基因组的核酸酶的组合物。所述组合物可称为治疗组合物或药物组合物。

在示例性实施方式中，所述组合物可包含可编程核酸酶。

可编程核酸酶可为成簇的规律间隔的短回文重复序列(CRISPR)-CRISPR相关蛋白(Cas)***、锌指核酸酶(ZFN)和转录激活因子样效应物核酸酶(TALEN)之一。

在示例性实施方式中，所述组合物可包含治疗性基因。

治疗性基因可为编码体内缺乏的蛋白或酶的基因。

例如，治疗性基因可为F9。此处，所述组合物可为用于治疗血友病的组合物。

除了可编程核酸酶和治疗性基因之外，所述组合物可进一步包含药学上可接受的赋形剂和/或本领域已知的其它化合物。例如，所述组合物可包含水、盐、葡聚糖、甘油、乙醇及它们的组合。

此外，可包含湿润剂、乳化剂、pH缓冲剂、稳定剂或增强药物组合物功效的其它试剂作为少量的添加剂。

2)治疗方法

本说明书中描述的一个示例性实施方式为对特定疾病进行治疗的方法，所述方法包括向需要所述组合物的患者给予有效量的上述组合物。

例如，包括治疗可通过抗体进行治疗的疾病的方法。

例如，包括治疗由基因突变引起的疾病的方法。

例如，包括治疗遗传代谢紊乱的方法。

例如，包括治疗由缺乏或缺失特定蛋白而引起的疾病的方法。

例如，疾病可为可通过如下方式进行治疗的疾病：通过将治疗组合物注射入患者体内来永久表达治疗性基因。

可借助***性给予通过将治疗组合物递送至患者中的方法来实施所述治疗方法。

可通过将治疗组合物注射到患者的特定身体部位中来实施所述治疗方法。此处，特定的身体部位可为包含可高度表达治疗性基因以分泌出细胞的细胞的器官。

例如，细胞可为肝细胞。

例如，细胞可为干细胞。

所述治疗方法可为通过使用可编程核酸酶直接操纵基因来影响动物细胞的基因表达的治疗方法。此类治疗方法可通过将用于操纵基因的组合物直接注射至体内来进行，所述组合物包含用于在活体中操纵基因的可编程核酸酶以及治疗性基因。

可编程核酸酶可为引导核酸和/或编辑蛋白。

治疗性基因可为F9。

用于操纵基因的组合物如上文所述。

给予所述组合物的受试者可为任一种哺乳动物，包括灵长类动物(例如人、猴等)以及啮齿类动物(例如小鼠、大鼠等)。

组合物的给予可以通过任何方便的方法进行，例如注射、输注、植入或移植。组合物可以皮下、皮内、肿瘤内、结节内、髓内、肌内、静脉内、淋巴内或腹膜内给予。

组合物优选通过静脉内***性给予进行给予。

在另一实例中，给予可为对选自治疗受试者的如下器官中的任一个或多个器官的给予：肾；消化***，包括胃、胰腺、十二指肠、回肠和/或结肠；心脏；肺；脑，特别是神经元和/或通常是CNS；眼，包括视网膜组织；耳，包括内耳；皮肤；肌肉；骨骼；和/或肝。

器官优选为肝。

在一个示例性实施方式中，

在使用AAV递送至人体期间，组合物的剂量(获得期望效果的药学有效量)可为约0.01-10mL的每mL含有约1×10⁸至1×10¹⁸个功能AAV的盐溶液。在本说明书的一个示例性实施方式中，AAV含量通常在如下的浓度范围内：约1×10⁵至1×10⁵⁰基因组AAV，约1×10⁸至1×10²⁰基因组AAV，约1×10¹⁰至1×10¹⁶基因组AAV，或约1×10¹¹至1×10¹⁶基因组AAV。此类AAV浓度可以以约0.001-100mL、约0.01-50mL或约0.05-10mL的运载体溶液进行递送。然而，可以考虑给药对象的年龄、健康状况和体重；同时接受的治疗类型、治疗频率和期望效果的特征来适当地规定组合物的剂量，但是本发明不限于此。

在一个示例性实施方式中，所述治疗方法可为治疗血友病的方法。

所述治疗方法可在体内进行。

所述治疗方法包括向治疗受试者给予包含用于操纵基因以表达肝细胞基因组中人工***的转基因的组合物作为活性成分的组合物，

其中，用于操纵基因的组合物包含如下任一种的可编程核酸酶：成簇的规律间隔的短回文重复序列(CRISPR)-CRISPR相关蛋白(Cas)***、锌指核酸酶(ZFN)和转录激活因子样效应物核酸酶(TALEN)，

所述人工***的转基因位于HP基因和APOC3基因的一个或多个基因序列中，并且

所述转基因为F9。

可通过使用可编程核酸酶的基因编辑治疗来永久性治疗血友病。

通过使用本说明书中所述的方法和组合物将转基因***肝细胞基因组并高度表达该基因，可增加缺乏的蛋白的表达，可通过生化代谢途径的正常运行产生最终的遗传产物，并且可改善机体功能。

实施例

在下文中，将参考实施例对本说明书进行进一步详细描述。提供这些实施例仅是为了对本申请文件进行举例说明，而不应解释为本申请文件的保护范围受到这些实施例的限制。

实施例1：RNA测序

将人原代细胞在含有William培养基的24孔板中培养2天，然后使用RNeasy MiniKit(Qiagen)分离RNA。

使用Agilent 2100BioAnalyzer选择RNA完整性数值(RNA Integrity Number，RIN)为7或更高的样品，并使用1μg RNA和具有oligo dT的磁珠使所述样品经受RNA富集，然后通过短片段化和逆转录构建cDNA文库。

随后，使用TrueSeq RNA样品prep试剂盒(Illumina，CA)连接测序接头，使用电泳和Agilent高灵敏度DNA试剂盒(Agilent Technology，CA)检查cDNA文库大小(350-450bp)和质量，然后使用Illumina HiSeq2500(Illumina，CA)进行测序。

然后，使用Tophat程序将过滤掉低质量读段的读段映射到人类参考基因组，所述低质量读段对应于10％或更多的跳过碱基(标记为“N”)以及小于20的质量分数(占40％或以上)，并使用Cufflinks v2.1.1程序对每个转录本的FPKM值进行计算。

从FPKM结果确认了如下的转录活性：编码分泌蛋白的结合珠蛋白和APOC3的转录活性，以及对应于每种疾病的治疗性基因的F9、IDUA、IDS、GLA和GBA的转录活性。

如图1所示，结合珠蛋白基因和APOC3基因比其它治疗性基因表现出约170倍或更高的转录活性。

实施例2：sgRNA的设计

使用CRISPR RGEN工具(Institute for Basic Science，韩国)对人HP1基因和APOC3基因的CRISPR/Cas9靶位点进行鉴定。对于每个基因的靶位点可根据CRISPR酶的类型而不同，表2和表3中总结了关于CjCas9的HP基因和APOC3基因的靶序列，表4和5总结了关于SpCas9的HP基因和APOC3基因的靶序列。

表2

表3

表4

表5

实施例3：gRNA活性验证和脱靶(off-target)分析

3.1T7E1分析

用Lipofectamine 2000或通过电穿孔将250ng表达sgRNA的载体和750ng表达Cas9的载体(其中克隆了相应的gRNA序列)转染至HEK293细胞系中。此外，将1μg的体外转录的sgRNA和4μg的Cas9以RNP复合体的形式混合，并通过电穿孔转染至Jurkat细胞系中。

约2天至3天后，提取基因组DNA并使其经受PCR来扩增中靶位点，随后通过T7E1分析确认活性，或进行额外的PCR，所述PCR连接对下一代测序的测序引物和TruSeq HT DualIndex引物特异的接头。用T7E1切割的条带来检查gRNA的活性。

如图3所示，用Cjcas9研究了的HP基因的靶序列#1至#11(表2中所示)的gRNA活性，在靶序列#8、#9、#10和#11中显示出T7E1活性。

3.2确认靶序列的***缺失(indel)率(％)

然后，对通过配对测序获得的读段进行分析，以通过检测基因组上中靶(on-target)位点上的***或缺失(***缺失)来评价gRNA的活性，结果在表2、表3、表4和表5中示出。

如表2和表4所示，确认了所有***缺失都发生于HP基因的相应靶序列中，并且***缺失率(％)高达86.4％，确认了高的基因编辑效率。

另外，在表3和表5中，确认了所有***缺失都发生于APOC3基因的相应靶序列中，并且***缺失率(％)高达96.2％，确认了高的基因编辑效率。

在靶向各个基因的gRNA中，根据Cas9的类型具有高活性的DNA靶位点用粗体字母标记。

3.3脱靶分析

对于选择的gRNA的脱靶分析，首先，通过使用CRISPR RGEN Tools的Cas-Offinder的计算机方法，选择具有3个碱基错配的脱靶列表，通过靶向深度测序在人细胞系HEK293中验证了与每个脱靶对应的基因组中特定位点的突变。

其次，使在37℃用gRNA和Cas9蛋白过夜处理的人类全基因组DNA经受全基因组测序，然后通过Digenome-seq确定潜在的列表。之后，通过靶向深度测序从人细胞系HEK293中验证了每个脱靶候选的基因组中特定位点的突变。

如图4和图5所示，作为检测到HP1-Cj的十个脱靶和APOC3-Cj的六个脱靶的深度测序的结果，没有显著的脱靶，并且证实了***缺失突变以高效发生。

实施例4：载体和供体的构建

对于SpCas9应用，单独地合成和构建了载体(pAAV-EFS-SpCas9)和载体(pAAV-hF9-供体-U6-sgRNA)；pAAV-EFS-SpCas9在AAV2的反向串联重复序列(ITR)之间包含EFS(其为哺乳动物表达的启动子)、人密码子优化的SpCas9(在C末端或N末端具有NLS和HA标签)以及BGHA；pAAV-hF9-供体-U6-sgRNA在AAV2的反向串联重复序列(ITR)之间包含U6启动子、sgRNA序列和人密码子优化的F9供体。

对于CjCas9应用，单独地合成和构建了载体(pAAV-CMV-CjCas9-U6-sgRNA)和载体(pAAV-hF9-供体)；pAAV-CMV-CjCas9-U6-sgRNA在AAV2的ITR之间包含CMV(其为哺乳动物表达的启动子)、人密码子优化的CjCas(在C末端或N末端具有NLS和HA标签)以及BGHA、U6启动子和sgRNA序列；pAAV-hF9-供体在AAV2的ITR之间包含人密码子优化的F9供体。即，对于CjCas9，考虑到AAV的包装能力，可将U6和sgRNA与表达Cas9的序列一起递送。

导入每个载体的供体由同源臂之间的剪接受体(SA)-人密码子优化的F9-bGHA组成，各同源臂长800-1200bp，存在于人HP1或APOC3基因组中由Cas9产生的双链断裂的两侧(图6)。

实施例5：人细胞系HDR的确认

将靶向人HP1基因组的500ng的pAAV-CMV-CjCas9-U6-sgRNA和500ng的pAAV-hF9-供体用Lipofectamine 2000转染至HEK293细胞系中。

3天后，提取基因组DNA，使用来自HP1靶位点的同源臂的外部区域和被HDR敲入的区域的相应引物获得PCR条带，并将其克隆到TA载体中。

随后，从产生的菌落中提取质粒，并使其经受Sanger测序，以确认两侧的敲入接合序列。

图8示出了确认在左臂和右臂的接合处的敲入，并确认恰好在两个臂处具有双链断裂的区域中发生且没有F9序列修饰的敲入的结果。gRNA序列为Cj9：5'-TCCAGGAAAGAGAAACCTCCC-3'；以及Cj10：5'-CATTCAGGAAAGTACATTGGC-3'。

实施例6：AAV构建

为了产生AAV，将假型AAV衣壳的载体，构建的pAAV-EFS-SpCas9、pAAV-hF9-donor-U6-sgRNA、pAAV-CMV-CjCas9-U6-sgRNA或pAAV-hF9-donor，和pHelper载体以1:1:1的摩尔比同时转染至HEK293细胞中。

72小时后，分离通过细胞融合获得的病毒颗粒，并使用碘克沙醇(Sigma-Aldrich)通过步进梯度超速离心(step-gradient ultracentrifuge)进行纯化，并通过使用qPCR的滴定进行AAV的定量分析。

实施例7：来自肝细胞的KI(敲入)基因和***缺失的高表达的确认

将6×10^5个肝细胞维持在24孔板中，然后用5×10^11ug的AAV6-EFS-SpCas9和5×10^11ug的AAV6-hF9-donor-APOC3-Sp进行感染。

使用5′-CCTAAGCCTGAAGAATGAGG-3′作为APOC3-Sp靶标的序列。感染后第一天(2D)、在5D、8D、最后在10D，更换培养基，制备培养上清液样品；并且在最后10D，从肝细胞中提取基因组DNA。

使用引物组(正向：5'-ACGGAAAATATCAAGAAGTA-3'，反向：5'-CAGCAAGCCCTGTCCTGCTGG-3')，获得针对APOC3-Sp的中靶的扩增子，进行了连接引物特异性接头和TruSeq HT Dual Index引物的额外PCR。

然后，对通过配对测序获得的读段进行分析，以通过在中靶基因组位置处***缺失的检测来对CRISPR活性进行评价。

使用因子IX人ELISA试剂盒(Abcam)，通过针对从肝细胞培养上清液分泌的F9蛋白的ELISA，来检测敲入的人F9的高表达。

如图9A所示，与无AAV处理的对照组和仅供体的组(D-only-hAPOC3-Sp)相比，双AAV处理组(hAPOC3-Sp)显示平均9.6％的***缺失。

此外，如图9B所示，对照组中hF9的分泌水平平均为42.5ng/mL，在仅供体组中为74.1ng/mL，而在双AAV处理组中为378.2ng/mL。

对于统计分析，使用了学生t检验。对于显著性，*代表p<0.05，**代表p<0.01，***代表p<0.001。

序列表自由文字

SEQ ID NO:1至SEQ ID NO:153代表HP基因的靶序列表。

SEQ ID NO:154至SEQ ID NO:348代表APOC3基因的靶序列表。

<110> 株式会社图尔金

<120> 肝生物工厂平台

<130> OPP17-036-NP-PCT

<150> US 62/520,103

<151> 2017-06-15

<150> US 62/662,907

<151> 2018-04-26

<160> 348

<170> KoPatentIn 3.0

<210> 1

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 1

aaagaggaaa atatctgcta at 22

<210> 2

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 2

aaggcactta gatcttataa aa 22

<210> 3

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 3

ttctattaaa atagtttcta gg 22

<210> 4

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 4

ctcactaaca aatgccaacc at 22

<210> 5

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 5

ttagtgagat ggtgaactgg ca 22

<210> 6

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 6

aggtgaatta ttataaaata ct 22

<210> 7

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 7

ggaaaatatc aagaagtaga gg 22

<210> 8

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 8

ctccaggaaa gagaaacctc cc 22

<210> 9

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 9

gcattcagga aagtacattg gc 22

<210> 10

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 10

gaaattgccc ccacacctgc cc 22

<210> 11

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 11

aagaaattgc ccccacacct gc 22

<210> 12

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 12

tcaaaaatgt aacctgaagg aa 22

<210> 13

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 13

tagcagatat tttcctcttt aa 22

<210> 14

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 14

atgtgttact attagtcttc ct 22

<210> 15

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 15

atgtacaata aggaagacta at 22

<210> 16

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 16

acacaattaa ttgactagta cc 22

<210> 17

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 17

acaattaatt gactagtacc tg 22

<210> 18

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 18

aattaattga ctagtacctg gg 22

<210> 19

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 19

atcccaggta ttagtgtgta tc 22

<210> 20

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 20

ttgactagta cctgggatac ac 22

<210> 21

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 21

acctgggata cacactaata cc 22

<210> 22

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 22

taatacctgg gatacatcta at 22

<210> 23

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 23

atttcctaaa ggtgaattat ta 22

<210> 24

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 24

aaggttcctt aaatatataa tt 22

<210> 25

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 25

tggagggctc ctgtattatt gc 22

<210> 26

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 26

ctcagtttct ggctgcattc ag 22

<210> 27

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 27

catacacact ttagcagctt ct 22

<210> 28

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 28

ccaagaaatt gcccccacac ct 22

<210> 29

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 29

agtgctagga ccaagaaatt gc 22

<210> 30

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 30

ggtgtggggg caatttcttg gt 22

<210> 31

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 31

atccacacac acatgcatgt ac 22

<210> 32

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 32

gcatccacac acacatgcat gt 22

<210> 33

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 33

atgcatccac acacacatgc at 22

<210> 34

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 34

gcatgcatcc acacacacat gc 22

<210> 35

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 35

atgcatgcat ccacacacac at 22

<210> 36

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 36

tggaaagcta gtctccctgc tt 22

<210> 37

<211> 21

<212> DNA

<213> Homo sapiens（智人）

<400> 37

agacccgaga gggtcagagt g 21

<210> 38

<211> 21

<212> DNA

<213> Homo sapiens（智人）

<400> 38

atcccactct gaccctctcg g 21

<210> 39

<211> 21

<212> DNA

<213> Homo sapiens（智人）

<400> 39

tctcgggtct gcactctctc t 21

<210> 40

<211> 21

<212> DNA

<213> Homo sapiens（智人）

<400> 40

agggcactgg ctgaatccac t 21

<210> 41

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 41

ggttacattt ttgactttat 20

<210> 42

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 42

ctgggataca cactaatacc 20

<210> 43

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 43

gcaagtagtg cccgaatggt 20

<210> 44

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 44

ttgttagtga gatggtgaac 20

<210> 45

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 45

gaactggcag acggcacctg 20

<210> 46

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 46

aactggcaga cggcacctgt 20

<210> 47

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 47

ctcagacacc gcaaagatag 20

<210> 48

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 48

cactatcttt gcggtgtctg 20

<210> 49

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 49

actatctttg cggtgtctga 20

<210> 50

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 50

atctttgcgg tgtctgaggg 20

<210> 51

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 51

agaaaggcac ataggtggag 20

<210> 52

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 52

gcagaaatag aacaaagaaa 20

<210> 53

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 53

agaacaaaga aacgggcaaa 20

<210> 54

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 54

gaacaaagaa acgggcaaat 20

<210> 55

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 55

caggagtgtc tttttccttc 20

<210> 56

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 56

aagtcaaaaa tgtaacctga 20

<210> 57

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 57

gttacatttt tgactttata 20

<210> 58

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 58

gatgccagga agcctaccac 20

<210> 59

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 59

ggatgccagg aagcctacca 20

<210> 60

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 60

ataaatatac tcaggatgcc 20

<210> 61

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 61

atctgctaat aaatatactc 20

<210> 62

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 62

cttattgtac atttttaaag 20

<210> 63

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 63

ctctttaaaa atgtacaata 20

<210> 64

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 64

acaattaatt gactagtacc 20

<210> 65

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 65

caattaattg actagtacct 20

<210> 66

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 66

caggtattag tgtgtatccc 20

<210> 67

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 67

tgggatacac actaatacct 20

<210> 68

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 68

gccttaatta gatgtatccc 20

<210> 69

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 69

acctgggata catctaatta 20

<210> 70

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 70

agtttctagg ccagacacgg 20

<210> 71

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 71

aatagtttct aggccagaca 20

<210> 72

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 72

agaagcaagt agtgcccgaa 20

<210> 73

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 73

ctaacaaatg ccaaccattc 20

<210> 74

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 74

actaacaaat gccaaccatt 20

<210> 75

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 75

gttggcattt gttagtgaga 20

<210> 76

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 76

tgagatggtg aactggcaga 20

<210> 77

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 77

ggccatgggc attgacccac 20

<210> 78

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 78

cacctgtggg tcaatgccca 20

<210> 79

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 79

aaaagcagga cggtggccat 20

<210> 80

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 80

caaaagcagg acggtggcca 20

<210> 81

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 81

ggtgtccaaa agcaggacgg 20

<210> 82

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 82

actggtgtcc aaaagcagga 20

<210> 83

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 83

catggccacc gtcctgcttt 20

<210> 84

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 84

gagaactggt gtccaaaagc 20

<210> 85

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 85

ttggacacca gttctcttcc 20

<210> 86

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 86

tgaaacccca aaatgccaga 20

<210> 87

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 87

aataattcac ctttaggaaa 20

<210> 88

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 88

tttcagatac catttcctaa 20

<210> 89

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 89

ttttataata attcaccttt 20

<210> 90

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 90

atatataatt ttaaacacgt 20

<210> 91

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 91

aatatataat tttaaacacg 20

<210> 92

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 92

tgtttaaaat tatatattta 20

<210> 93

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 93

ttgatatttt ccgtaataaa 20

<210> 94

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 94

atttaaggaa ccttttatta 20

<210> 95

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 95

cggaaaatat caagaagtag 20

<210> 96

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 96

aactcagaga tgggaacttt 20

<210> 97

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 97

taactcagag atgggaactt 20

<210> 98

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 98

aatgtagata actcagagat 20

<210> 99

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 99

aaatgtagat aactcagaga 20

<210> 100

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 100

ttttattacc actatctttg 20

<210> 101

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 101

caataataca ggagccctcc 20

<210> 102

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 102

aagtacattg gcaataatac 20

<210> 103

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 103

ctgcattcag gaaagtacat 20

<210> 104

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 104

ctcagtttct ggctgcattc 20

<210> 105

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 105

ggaggggtgg gctcagtttc 20

<210> 106

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 106

aggcacatag gtggaggggt 20

<210> 107

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 107

aaggcacata ggtggagggg 20

<210> 108

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 108

tagaaaggca cataggtgga 20

<210> 109

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 109

atagaaaggc acataggtgg 20

<210> 110

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 110

gggatagaaa ggcacatagg 20

<210> 111

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 111

agagggatag aaaggcacat 20

<210> 112

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 112

gcttctgcag aattcccagc 20

<210> 113

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 113

ccagcaagcc ctgtcctgct 20

<210> 114

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 114

tccagcaagc cctgtcctgc 20

<210> 115

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 115

tgcagaattc ccagcaggac 20

<210> 116

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 116

gcagaattcc cagcaggaca 20

<210> 117

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 117

cccagcagga cagggcttgc 20

<210> 118

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 118

gacagggctt gctggaagct 20

<210> 119

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 119

agaagctgct aaagtgtgta 20

<210> 120

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 120

gaagctgcta aagtgtgtat 20

<210> 121

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 121

ctgctaaagt gtgtatgggc 20

<210> 122

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 122

aaagtgtgta tgggcaggtg 20

<210> 123

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 123

aagtgtgtat gggcaggtgt 20

<210> 124

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 124

agtgtgtatg ggcaggtgtg 20

<210> 125

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 125

gtgtgtatgg gcaggtgtgg 20

<210> 126

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 126

caggtgtggg ggcaatttct 20

<210> 127

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 127

agtcgatata tggaagtgct 20

<210> 128

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 128

cagaaaagaa agtcgatata 20

<210> 129

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 129

catatatcga ctttcttttc 20

<210> 130

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 130

tttcttttct ggctgctaag 20

<210> 131

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 131

ttcttttctg gctgctaagt 20

<210> 132

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 132

ttttctggct gctaagtggg 20

<210> 133

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 133

actgcagaga gaagacaagg 20

<210> 134

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 134

ggcactgcag agagaagaca 20

<210> 135

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 135

tgaaggaaaa agacactcct 20

<210> 136

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 136

aggttacatt tttgacttta 20

<210> 137

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 137

gtggtaggct tcctggcatc 20

<210> 138

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 138

tatctgctaa taaatatact 20

<210> 139

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 139

gaagactaat agtaacacat 20

<210> 140

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 140

acaattaatt gactagtacc 20

<210> 141

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 141

ctgggataca cactaatacc 20

<210> 142

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 142

ttaatagaag caagtagtgc 20

<210> 143

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 143

tgaactggca gacggcacct 20

<210> 144

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 144

tcagatacca tttcctaaag 20

<210> 145

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 145

aaatatataa ttttaaacac 20

<210> 146

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 146

cggaaaatat caagaagtag 20

<210> 147

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 147

taagcccaaa gttcccatct 20

<210> 148

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 148

attattgcca atgtactttc 20

<210> 149

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 149

atagaaaggc acataggtgg 20

<210> 150

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 150

ccagcaagcc ctgtcctgct 20

<210> 151

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 151

ttttctggct gctaagtggg 20

<210> 152

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 152

gtgtgtacat gcatgtgtgt 20

<210> 153

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 153

actgcagaga gaagacaagg 20

<210> 154

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 154

ccagcccagc cagcaagcct gg 22

<210> 155

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 155

cttcaggtta tgatgagggg tg 22

<210> 156

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 156

gggaggggtg tcacttgccc aa 22

<210> 157

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 157

accccctgtg tagctttggg ca 22

<210> 158

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 158

aagcctgaag aatgaggggg ga 22

<210> 159

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 159

tggagagggc cagaaatcac cc 22

<210> 160

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 160

gagagggcca gaaatcaccc aa 22

<210> 161

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 161

gaaaacccac cagactgaac at 22

<210> 162

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 162

aaggagtagg ggccggctcc ct 22

<210> 163

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 163

tggggacctg gggtgcccct ca 22

<210> 164

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 164

tcctgcaagg aagtgtcctg tg 22

<210> 165

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 165

ggaacagagg tgccatgcag cc 22

<210> 166

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 166

caacaaggag tacccggggc tg 22

<210> 167

<211> 22

<212> DNA

<213> Homo sapiens（智人）

<400> 167

gagcgccagg agggcaacaa ca 22

<210> 168

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 168

tctgctcagt tcatccctag 20

<210> 169

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 169

ctgctccagg taatgccctc 20

<210> 170

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 170

agaagcactt gctagagcta 20

<210> 171

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 171

ggggcacccg tccagctccg 20

<210> 172

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 172

cttcaggtta tgatgagggg 20

<210> 173

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 173

gttcttcagg ttatgatgag 20

<210> 174

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 174

cccgggcctc catgttcttc 20

<210> 175

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 175

aggttccccc ctcattcttc 20

<210> 176

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 176

cctaagcctg aagaatgagg 20

<210> 177

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 177

agccctaagc ctgaagaatg 20

<210> 178

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 178

gggtaggact gggctgtcta 20

<210> 179

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 179

agcccagtcc taccccagac 20

<210> 180

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 180

ggtgatttct ggccctctcc 20

<210> 181

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 181

cggagatcag tccagaccgc 20

<210> 182

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 182

gcgagggatc gaggcccaaa 20

<210> 183

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 183

tcctctttcc cctccccaga 20

<210> 184

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 184

ccaggtaatg ccctctgggg 20

<210> 185

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 185

ctcctctttc ccctccccag 20

<210> 186

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 186

caggtaatgc cctctgggga 20

<210> 187

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 187

aggtaatgcc ctctggggag 20

<210> 188

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 188

gccctctggg gaggggaaag 20

<210> 189

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 189

ctctggggag gggaaagagg 20

<210> 190

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 190

tctggggagg ggaaagagga 20

<210> 191

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 191

gggaggggaa agaggagggg 20

<210> 192

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 192

aggggaaaga ggaggggagg 20

<210> 193

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 193

aggaggggag gaggatgaag 20

<210> 194

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 194

ggaggggagg aggatgaaga 20

<210> 195

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 195

gaggggagga ggatgaagag 20

<210> 196

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 196

ggaggatgaa gaggggcaag 20

<210> 197

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 197

cttgctggct gggctgggca 20

<210> 198

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 198

gcttgctggc tgggctgggc 20

<210> 199

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 199

ccaggcttgc tggctgggct 20

<210> 200

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 200

tccaggcttg ctggctgggc 20

<210> 201

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 201

cttctccagg cttgctggct 20

<210> 202

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 202

gcttctccag gcttgctggc 20

<210> 203

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 203

aagtgcttct ccaggcttgc 20

<210> 204

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 204

cccagcccag ccagcaagcc 20

<210> 205

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 205

gctctagcaa gtgcttctcc 20

<210> 206

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 206

cctccccaga gggcattacc 20

<210> 207

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 207

tgctagagct aaggaagcct 20

<210> 208

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 208

agctaaggaa gcctcggagc 20

<210> 209

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 209

tgctccaggt aatgccctct 20

<210> 210

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 210

aaggaagcct cggagctgga 20

<210> 211

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 211

aggaagcctc ggagctggac 20

<210> 212

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 212

aggttatgat gaggggtggg 20

<210> 213

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 213

caggttatga tgaggggtgg 20

<210> 214

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 214

tcaggttatg atgaggggtg 20

<210> 215

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 215

ttcaggttat gatgaggggt 20

<210> 216

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 216

gctccaggta atgccctctg 20

<210> 217

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 217

tgttcttcag gttatgatga 20

<210> 218

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 218

atgttcttca ggttatgatg 20

<210> 219

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 219

tcatcataac ctgaagaaca 20

<210> 220

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 220

tcataacctg aagaacatgg 20

<210> 221

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 221

acctgaagaa catggaggcc 20

<210> 222

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 222

cctgaagaac atggaggccc 20

<210> 223

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 223

gaagaacatg gaggcccggg 20

<210> 224

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 224

aagaacatgg aggcccggga 20

<210> 225

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 225

agaacatgga ggcccgggag 20

<210> 226

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 226

gggcaagtga cacccctccc 20

<210> 227

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 227

tgggcaagtg acacccctcc 20

<210> 228

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 228

cccaccccct gtgtagcttt 20

<210> 229

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 229

ccccaccccc tgtgtagctt 20

<210> 230

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 230

tcacttgccc aaagctacac 20

<210> 231

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 231

cacttgccca aagctacaca 20

<210> 232

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 232

acttgcccaa agctacacag 20

<210> 233

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 233

cttgcccaaa gctacacagg 20

<210> 234

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 234

gcccaaagct acacaggggg 20

<210> 235

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 235

cccaaagcta cacagggggt 20

<210> 236

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 236

ccaaagctac acagggggtg 20

<210> 237

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 237

agctacacag ggggtggggc 20

<210> 238

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 238

acagggggtg gggctggaag 20

<210> 239

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 239

ctggaagtgg ctccaagtgc 20

<210> 240

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 240

atgagggggg aacctgcact 20

<210> 241

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 241

ctaagcctga agaatgaggg 20

<210> 242

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 242

ccctaagcct gaagaatgag 20

<210> 243

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 243

gccctaagcc tgaagaatga 20

<210> 244

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 244

ccccctcatt cttcaggctt 20

<210> 245

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 245

cccctcattc ttcaggctta 20

<210> 246

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 246

tcattcttca ggcttagggc 20

<210> 247

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 247

ttcttcaggc ttagggctgg 20

<210> 248

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 248

tccctgtctg gggtaggact 20

<210> 249

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 249

ttccctgtct ggggtaggac 20

<210> 250

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 250

tcagtttccc tgtctggggt 20

<210> 251

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 251

gcccagtcct accccagaca 20

<210> 252

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 252

aggcctcagt ttccctgtct 20

<210> 253

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 253

caggcctcag tttccctgtc 20

<210> 254

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 254

taccccagac agggaaactg 20

<210> 255

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 255

gtgtgtcttt gggtgatttc 20

<210> 256

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 256

ccaacatgct gtgtgtcttt 20

<210> 257

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 257

gccaacatgc tgtgtgtctt 20

<210> 258

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 258

cccaaagaca cacagcatgt 20

<210> 259

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 259

aagacacaca gcatgttggc 20

<210> 260

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 260

acacagcatg ttggctggac 20

<210> 261

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 261

agcatgttgg ctggactgga 20

<210> 262

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 262

acatcaaggc acctgcggtc 20

<210> 263

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 263

actgaacatc aaggcacctg 20

<210> 264

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 264

acccaccaga ctgaacatca 20

<210> 265

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 265

aggtgccttg atgttcagtc 20

<210> 266

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 266

tgccttgatg ttcagtctgg 20

<210> 267

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 267

gccttgatgt tcagtctggt 20

<210> 268

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 268

ccaaagggag gtgggtggga 20

<210> 269

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 269

aggcccaaag ggaggtgggt 20

<210> 270

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 270

gaggcccaaa gggaggtggg 20

<210> 271

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 271

atcgaggccc aaagggaggt 20

<210> 272

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 272

gatcgaggcc caaagggagg 20

<210> 273

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 273

ccatcccacc cacctccctt 20

<210> 274

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 274

catcccaccc acctcccttt 20

<210> 275

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 275

agggatcgag gcccaaaggg 20

<210> 276

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 276

ggcgagggat cgaggcccaa 20

<210> 277

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 277

tggtgagggg cgagggatcg 20

<210> 278

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 278

gggggactgg tgaggggcga 20

<210> 279

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 279

agggggactg gtgaggggcg 20

<210> 280

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 280

tcagaagggg gactggtgag 20

<210> 281

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 281

ctcagaaggg ggactggtga 20

<210> 282

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 282

tctcagaagg gggactggtg 20

<210> 283

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 283

cgggctctca gaagggggac 20

<210> 284

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 284

taatacgggc tctcagaagg 20

<210> 285

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 285

ctaatacggg ctctcagaag 20

<210> 286

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 286

gctaatacgg gctctcagaa 20

<210> 287

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 287

tgctaatacg ggctctcaga 20

<210> 288

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 288

ggccggctcc ctgctaatac 20

<210> 289

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 289

gggccggctc cctgctaata 20

<210> 290

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 290

ttctgagagc ccgtattagc 20

<210> 291

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 291

tctgagagcc cgtattagca 20

<210> 292

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 292

agcccgtatt agcagggagc 20

<210> 293

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 293

ctgccagaag gagtaggggc 20

<210> 294

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 294

gggtctgcca gaaggagtag 20

<210> 295

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 295

tgggtctgcc agaaggagta 20

<210> 296

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 296

ctgggtctgc cagaaggagt 20

<210> 297

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 297

gagccggccc ctactccttc 20

<210> 298

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 298

ccttagctgg gtctgccaga 20

<210> 299

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 299

ccttctggca gacccagcta 20

<210> 300

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 300

cctaaggtag aaccttagct 20

<210> 301

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 301

ccctaaggta gaaccttagc 20

<210> 302

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 302

cccagctaag gttctacctt 20

<210> 303

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 303

ccagctaagg ttctacctta 20

<210> 304

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 304

cagctaaggt tctaccttag 20

<210> 305

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 305

gggaggtggc gtggccccta 20

<210> 306

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 306

ccctccctgg ggaggtggcg 20

<210> 307

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 307

tggacccctc cctggggagg 20

<210> 308

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 308

aggggccacg ccacctcccc 20

<210> 309

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 309

ggggccacgc cacctcccca 20

<210> 310

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 310

ctctggaccc ctccctgggg 20

<210> 311

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 311

gccacgccac ctccccaggg 20

<210> 312

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 312

ccacgccacc tccccaggga 20

<210> 313

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 313

tgcctctgga cccctccctg 20

<210> 314

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 314

cacgccacct ccccagggag 20

<210> 315

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 315

atgcctctgg acccctccct 20

<210> 316

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 316

catgcctctg gacccctccc 20

<210> 317

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 317

ctccccaggg aggggtccag 20

<210> 318

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 318

cagggagggg tccagaggca 20

<210> 319

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 319

accccaggtc cccatgcctc 20

<210> 320

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 320

agggaggggt ccagaggcat 20

<210> 321

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 321

gggaggggtc cagaggcatg 20

<210> 322

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 322

ggtccagagg catggggacc 20

<210> 323

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 323

gtccagaggc atggggacct 20

<210> 324

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 324

tccagaggca tggggacctg 20

<210> 325

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 325

tgtcctgtga ggggcacccc 20

<210> 326

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 326

ggacctgggg tgcccctcac 20

<210> 327

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 327

gcaaggaagt gtcctgtgag 20

<210> 328

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 328

tgcaaggaag tgtcctgtga 20

<210> 329

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 329

ctgcaaggaa gtgtcctgtg 20

<210> 330

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 330

ctcacaggac acttccttgc 20

<210> 331

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 331

atggcacctc tgttcctgca 20

<210> 332

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 332

acacttcctt gcaggaacag 20

<210> 333

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 333

gaggggaaag aggaggggag 20

<210> 334

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 334

taaggaagcc tcggagctgg 20

<210> 335

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 335

atgttcttca ggttatgatg 20

<210> 336

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 336

gaagaacatg gaggcccggg 20

<210> 337

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 337

cacttgccca aagctacaca 20

<210> 338

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 338

ttcctccagc cctaagcctg 20

<210> 339

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 339

caggcctcag tttccctgtc 20

<210> 340

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 340

agccaacatg ctgtgtgtct 20

<210> 341

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 341

gtgccttgat gttcagtctg 20

<210> 342

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 342

gaggcccaaa gggaggtggg 20

<210> 343

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 343

ggatcgaggc ccaaagggag 20

<210> 344

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 344

agggggactg gtgaggggcg 20

<210> 345

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 345

ccttagctgg gtctgccaga 20

<210> 346

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 346

cccctaaggt agaaccttag 20

<210> 347

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 347

gccacgccac ctccccaggg 20

<210> 348

<211> 20

<212> DNA

<213> Homo sapiens（智人）

<400> 348

ggtccagagg catggggacc 20

Claims

1.一种用于表达人工***肝细胞基因组中的转基因的肝生物工厂平台(LBP)***，

其中，所述转基因位于高表达分泌型基因的序列中，

其中，所述高表达分泌型基因为选自于由肝细胞基因组中存在的F9基因、ALB基因、FTL基因、FTH1基因、ACT基因、HP基因、APOC3基因、SOD2基因和ORM1基因所组成的组中的至少一种，

其中，所述转基因与***前相比表达较高，或者所述转基因在肝细胞中新表达。

2.如权利要求1所述的LBP***，其中，所述高表达分泌型基因为HP基因和APOC3基因中的至少一种。

3.如权利要求1所述的LBP***，其中，所述转基因***至所述高表达分泌型基因的内含子和外显子的至少一部分中。

4.如权利要求1所述的LBP***，其中，由肝细胞基因组中原始存在的启动子表达所述转基因。

5.如权利要求1所述的LBP***，其中，所述转基因为F9基因。

6.如权利要求1所述的LBP***，其中，通过所述转基因的表达产生的蛋白被分泌出肝细胞。

7.一种用于修饰基因以表达人工***肝细胞基因组中的转基因的组合物，所述组合物包含：

用于将所述转基因整合至高表达分泌型基因中的可编程核酸酶；

其中，所述高表达分泌型基因为选自于由FTL基因、FTH1基因、ACTB基因、HP基因、APOC3基因、SOD2基因、ORM1基因和F9基因所组成的组中的至少一种。

8.如权利要求7所述的组合物，所述可编程核酸酶为选自于由如下所组成的组中的至少一种：成簇的规律间隔的短回文重复序列(CRISPR)-CRISPR相关蛋白(Cas)***、锌指核酸酶(ZFN)、转录激活因子样效应物核酸酶(TALEN)。

9.如权利要求7所述的组合物，所述高表达分泌型基因为HP基因和APOC3基因中的至少一种。

10.如权利要求7所述的组合物，其中，所述转基因为F9基因。

11.一种用于修饰基因以表达人工***肝细胞基因组中的转基因的组合物，所述组合物包含：

引导核酸，其中，所述引导核酸针对选自肝细胞基因组中存在的高表达分泌型基因中的至少一种基因的靶序列；

编辑蛋白或编码所述编辑蛋白的核酸；以及

包含所述转基因的供体。

12.如权利要求11所述的组合物，其中，所述编辑蛋白为选自于由如下蛋白所组成的组中的至少一种：酿脓链球菌衍生而来的Cas9蛋白、空肠弯曲杆菌衍生而来的Cas9蛋白、嗜热链球菌衍生而来的Cas9蛋白、金黄色葡萄球菌衍生而来的Cas9蛋白、脑膜炎奈瑟菌衍生而来的Cas9蛋白和Cpf1蛋白。

13.如权利要求11所述的组合物，其中，所述靶序列位于所述高表达分泌型基因序列中的外显子、内含子、5'-UTR、3'-UTR和增强子的至少一部分中。

14.如权利要求11所述的组合物，其中，所述靶序列位于所述高表达分泌型基因序列中的外显子和内含子的至少一部分中。

15.如权利要求11所述的组合物，其中，所述靶序列为选自于由SEQ ID NO:1-SEQ IDNO:348所组成的组中的至少一种。

16.如权利要求11所述的组合物，其中，所述高表达分泌型基因为HP基因和APOC3基因中的至少一种。

17.如权利要求11所述的组合物，其中，所述引导核酸包含对应于位于所述高表达分泌型基因中的靶序列的引导结构域；

其中，所述引导结构域包含与所述靶序列错配的0-5个核苷酸。

18.如权利要求11所述的组合物，其中，所述引导核酸对应于HP或APOC3基因的核苷酸序列中的靶核酸，所述靶核酸选自于由SEQ ID NO:1-SEQ ID NO:348所组成的组。

19.如权利要求11所述的组合物，其中，所述引导核酸对应于选自于由SEQ ID NO:1-SEQ ID NO:11、SEQ ID NO:37-SEQ ID NO:51、SEQ ID NO:154-SEQ ID NO:167和SEQ IDNO:168-SEQ ID NO:182所组成的组中的靶序列。

20.如权利要求11所述的组合物，其中，所述引导核酸对应于选自于由SEQ ID NO:1-SEQ ID NO:40和SEQ ID NO:154-SEQ ID NO:167所组成的组中的靶序列；

其中，所述组合物进一步包含空肠弯曲杆菌衍生而来的Cas9蛋白或编码所述Cas9蛋白的核酸。

21.如权利要求11所述的组合物，其中，所述引导核酸对应于选自于由SEQ ID NO:41-SEQ ID NO:134和SEQ ID NO:168-SEQ ID NO:332所组成的组中的靶序列；

其中，所述组合物进一步包含酿脓链球菌衍生而来的Cas9蛋白或编码所述Cas9蛋白的核酸。

22.如权利要求11所述的组合物，其中，所述引导核酸对应于选自于由SEQ ID NO:135-SEQ ID NO:153和SEQ ID NO:333-SEQ ID NO:348所组成的组中的靶序列；

其中，所述组合物进一步包含金黄色葡萄球菌衍生而来的Cas9蛋白或编码所述Cas9蛋白的核酸。

23.如权利要求11所述的组合物，其中，所述转基因为F9基因。

24.如权利要求11所述的组合物，其中，以核苷酸序列的形式在至少一个载体中分别编码所述引导核酸、编辑蛋白和供体。

25.如权利要求11所述的组合物，其中，所述载体为病毒载体***。

26.如权利要求25所述的组合物，其中，所述病毒载体为选自于由腺病毒、腺相关病毒(AAV)、痘苗病毒、痘病毒、单纯疱疹病毒和慢病毒所组成的组中的至少一种。

27.一种引导核酸，其中，所述引导核酸对应于选自于由SEQ ID NO:1-SEQ ID NO:348所组成的组中的靶序列。

28.如权利要求27所述的引导核酸，其中，所述引导核酸对应于选自于由SEQ ID NO:1-SEQ ID NO:12、SEQ ID NO:37-SEQ ID NO:51、SEQ ID NO:154-SEQ ID NO:167和SEQ IDNO:168-SEQ ID NO:182所组成的组中的靶序列。

29.如权利要求27所述的引导核酸，其中，所述引导核酸为18-25bp的核苷酸序列。

30.一种肝细胞，所述肝细胞表达人工***所述肝细胞的基因组中的转基因，所述肝细胞包含：

其中，所述转基因***高表达分泌型基因中，

31.如权利要求30所述的肝细胞，其中，所述高表达分泌型基因为HP基因和APOC3基因中的至少一种。

32.如权利要求30所述的肝细胞，其中，所述转基因位于高表达分泌型基因的外显子或内含子中。

33.如权利要求30所述的肝细胞，其中，由肝细胞基因组中原始存在的启动子表达所述转基因。

34.如权利要求30所述的肝细胞，其中，所述转基因为F9基因。

35.一种通过将转基因***肝细胞基因组中的高表达分泌型基因中来修饰肝细胞基因组以表达感兴趣的蛋白的方法，所述方法包括：

将可编程核酸酶和供体导入所述肝细胞：

其中，所述可编程核酸酶用于操纵或修饰选自于由FTL基因、FTH1基因、ACTB基因、HP基因、APOC3基因、SOD2基因、ORM1基因和F9基因所组成的组中的至少一种高表达分泌型基因，

其中，所述供体包含所述转基因。

36.如权利要求35所述的方法，其中，所述高表达分泌型基因为HP基因和APOC3基因中的至少一种。

37.如权利要求35所述的方法，其中，所述转基因为F9基因。

38.如权利要求35所述的方法，其中，所述可编程核酸酶为CRISPR/Cas***，

其中，所述CRISPR/Cas***包含

(i)对应于肝细胞基因组中高表达分泌型基因中存在的靶序列的引导核酸；

(ii)编辑蛋白。

39.如权利要求38所述的方法，其中，所述靶序列位于所述高表达分泌型基因序列的外显子、内含子、5'-UTR、3'-UTR和增强子的至少一部分中。

40.如权利要求38所述的方法，其中，所述靶序列位于所述高表达分泌型基因的外显子和内含子的至少一部分中。

41.如权利要求38所述的方法，其中，所述引导核酸对应于所述高表达分泌型基因的核苷酸序列中的靶序列，所述靶序列选自于由SEQ ID NO:1-SEQ ID NO:348所组成的组中的至少一种。

42.如权利要求38所述的方法，其中，所述引导核酸对应于选自于由SEQ ID NO:1-SEQID NO:15、SEQ ID NO:37-SEQ ID NO:51、SEQ ID NO:154-SEQ ID NO:167和SEQ ID NO:168-SEQ ID NO:182所组成的组中的至少一种的靶序列。

43.如权利要求38所述的方法，其中，所述编辑蛋白为选自于由如下蛋白所组成的组中的至少一种：酿脓链球菌衍生而来的Cas9蛋白、空肠弯曲杆菌衍生而来的Cas9蛋白、嗜热链球菌衍生而来的Cas9蛋白、金黄色葡萄球菌衍生而来的Cas9蛋白、脑膜炎奈瑟菌衍生而来的Cas9蛋白和Cpf1蛋白。

44.如权利要求35或38所述的方法，其中，以核苷酸序列的形式在至少一个载体中分别编码所述引导核酸、编辑蛋白和供体。

45.如权利要求44所述的方法，其中，所述载体为病毒载体***。

46.如权利要求45所述的方法，其中，所述病毒载体为选自于由腺病毒、腺相关病毒(AAV)、痘苗病毒、痘病毒、单纯疱疹病毒和慢病毒所组成的组中的至少一种。

47.如权利要求44所述的方法，其中，通过***性给予或局部给予将所述载体导入所述肝细胞。

48.如权利要求47所述的方法，其中，所述***性给予为静脉内给予。

49.如权利要求35所述的方法，其中，将所述可编程核酸酶和供体导入所述肝细胞在体内进行或离体进行。

50.一种对血友病进行治疗的方法，所述方法包括：

将组合物导入受试者中以表达人工***肝细胞基因组中的转基因，

其中，所述组合物包含选自CRISPR-Cas***、ZFN和TALEN的可编程核酸酶，

其中，将在供体序列中包含的所述转基因人工***HP基因序列和APOC3基因序列中的至少一种，

其中，所述转基因为F9基因。

51.如权利要求50所述的方法，所述组合物为CRISPR-Cas***，

其中，所述CRISPR-Cas***包含：

(i)引导核酸

其中，所述引导核酸对应于靶序列，所述靶序列选自于由肝细胞基因组中存在的高表达分泌型基因所组成的组的至少一种。

(ii)编辑蛋白或编码所述编辑蛋白的核酸，

其中，所述编辑蛋白为选自于由如下蛋白所组成的组中的至少一种：酿脓链球菌衍生而来的Cas9蛋白、空肠弯曲杆菌衍生而来的Cas9蛋白、嗜热链球菌衍生而来的Cas9蛋白、金黄色葡萄球菌衍生而来的Cas9蛋白、脑膜炎奈瑟菌衍生而来的Cas9蛋白和Cpf1蛋白。

52.如权利要求51所述的方法，其中，所述引导核酸对应于HP基因或APOC3基因的核苷酸序列中的靶核酸，所述靶核酸选自于由SEQ ID NO:1-SEQ ID NO:348所组成的组中的至少一种。

53.如权利要求51所述的方法，其中，所述引导核酸对应于选自于由SEQ ID NO:1-SEQID NO:15、SEQ ID NO:37-SEQ ID NO:51、SEQ ID NO:154-SEQ ID NO:167和SEQ ID NO:168-SEQ ID NO:182所组成的组中的至少一种靶序列。

54.如权利要求50或51所述的方法，其中，以核苷酸序列的形式在至少一个载体中分别编码所述引导核酸、编辑蛋白和供体。

55.如权利要求54所述的方法，其中，所述载体为病毒载体。

56.如权利要求50所述的方法，其中，通过***性给予将所述组合物导入受试者。

57.如权利要求56所述的方法，其中，所述***性给予为静脉内给予。