CN115175920A

CN115175920A - 加条形码的xten多肽及其组合物以及其制备和使用方法

Info

Publication number: CN115175920A
Application number: CN202080090841.XA
Authority: CN
Inventors: V·谢尔恩伯杰; 艾里克·约翰森; 安吉拉·亨肯赛夫肯
Original assignee: Amunix Pharmaceuticals Inc
Current assignee: Amunix Pharmaceuticals Inc
Priority date: 2019-11-13
Filing date: 2020-11-13
Publication date: 2022-10-11
Also published as: CA3157605A1; BR112022009217A2; EP4058466A1; AU2020382621A1; WO2021097186A1; JP2023501478A; KR20220131221A; US20230287040A1; CO2022008004A2; IL292863A; MX2022005676A

Abstract

本文公开的是包含延伸重组多肽(XTEN)的多肽，所述延伸重组多肽(XTEN)包含多个重叠序列基序和一个或多个条形码片段，所述条形码片段可在蛋白酶消化后释放并且可从所有其它蛋白酶解可释放片段中被检测到。这些多肽的某些实施例还包含生物活性多肽，其中其有利的实施例包含能够切割XTEN多肽和生物活性多肽之间的连接的蛋白酶解切割的可释放区段。还公开了制备所述多肽的方法和使用所述多肽的方法。

Description

加条形码的XTEN多肽及其组合物以及其制备和使用方法

序列表

本申请含有序列表，所述序列表已以ASCII格式电子提交，并且在此以引用的方式全文并入。于2020年11月6日创建的所述ASCII副本命名为20-1761-WO_Sequence_Listing_ST25.txt，且大小为1494字节。

背景技术

多肽可以以导致多肽混合物的方式产生。多肽混合物经常可以包括全长多肽，连同其大小变体(例如，截短)。与所需全长产物在大小方面不同的变体的存在可以影响多肽原料药(drug substance)的生物学行为，潜在地影响多肽原料药的安全性和/或功效。例如，用于癌症治疗的基于蛋白质的前药可以被改造为具有肿瘤靶向激活机制。更具体而言，全长治疗性蛋白质可以无活性的(非细胞毒性的)前药形式产生且施用，所述前药形式通过在预期生物侧(例如，肿瘤)处优先去除前药多肽的一部分而转换为活性药物。全长构建体的截短变体可以丧失保护序列并变得细胞毒性的(活性的)，从而“污染”前药组合物并产生具有在预期生物学位点外非有意活性的组分的混合物。在一些情况下，此类较短长度的变体可以造成更大的免疫原性风险，对于肿瘤细胞具有更少的选择性毒性，或与全长蛋白质相比，显示更不期望的药代动力学概况(例如，导致治疗窗变窄)，或在预期部位外(例如在健康组织中)在受体中有害地具有非预期效应。结果，蛋白质结构变化的检测和定量对于评价生物治疗剂的生物学性质(例如临床安全性和药理功效)和开发新的生物治疗剂(例如具有增加的功效和减少的副作用)可以是重要的。用于鉴定且定量“污染性”截短产物的量的现有技术和方法可以包括一个或多个缺点，例如具有有限的灵敏度、容易性、效率或有效性。

发明内容

本文公开的是包含延伸重组多肽(XTEN)的多肽，所述延伸重组多肽包含多个非重叠序列基序。在本发明的XTEN多肽中，多个非重叠序列基序包含：一组非重叠序列基序，其中所述序列基序各自在XTEN多肽中重复至少两次；以及在XTEN多肽内仅出现一次的唯一的非重叠序列基序；其中所述多肽还包含在被蛋白酶消化后可从多肽中释放的第一条形码片段。在所述实施例中，第一条形码片段是XTEN的一部分，其包括在XTEN内仅出现一次的序列基序的至少一部分，并且在序列和分子量方面不同于多肽被蛋白酶完全消化后可从多肽中释放的所有其它肽片段。进一步地，在本文提供的本发明的XTEN实施例中，条形码片段不包括多肽的N末端氨基酸或C末端氨基酸。如本文进一步公开的，本发明的XTEN多肽的特征为包含长度为至少150个氨基酸，更具体而言长度为150-3000个氨基酸。构成本发明的XTEN多肽的氨基酸进行表征，其中这些残基的至少90％是甘氨酸(G)、丙氨酸(A)、丝氨酸(S)、苏氨酸(T)、谷氨酸盐(E)或脯氨酸(P)，并且XTEN多肽包含这些氨基酸(G、A、S、T、E或P)中的至少四种。另外，如本文提供的XTEN多肽包含长度为9至14个氨基酸的序列的非重叠序列基序，并且在所述非重叠基序各自内，具有G、A、S、T、E或P氨基酸的序列关于构成XTEN多肽的任何其它非重叠序列基序是基本上随机化的。

在一些实施例中，条形码片段不包括紧邻XTEN中的另一个谷氨酸的谷氨酸。在一些实施例中，条形码片段具有在其C末端处的谷氨酸。在一些实施例中，条形码片段具有之前紧为谷氨酸残基的N末端氨基酸。在一些实施例中，在N末端氨基酸之前的谷氨酸残基并不紧邻另一个谷氨酸残基。在一些实施例中，条形码片段不包括在除条形码片段的C末端外的位置处的谷氨酸残基，除非谷氨酸紧随其后为脯氨酸。在一些实施例中，条形码片段定位为距离多肽的N末端或多肽的C末端10个氨基酸至150个氨基酸。

在一些实施例中，该组非重叠序列基序的序列基序在本文中通过SEQ ID NO:182-203和1715-1722进行鉴定。在一些实施例中，该组非重叠序列基序的序列基序在本文中通过SEQ ID NO:186-189进行鉴定。在一些实施例中，该组非重叠序列基序包含序列基序SEQID NO:186-189中的至少两个、至少三个或所有四个。

在具体实施例中，本文提供的多肽包含如本文公开的XTEN多肽，其中所述条形码片段不包括多肽的N末端氨基酸或C末端氨基酸；不包括紧邻XTEN中的另一个谷氨酸的谷氨酸；具有在其C末端处的谷氨酸；具有之前紧为谷氨酸残基的N末端氨基酸；并且定位距离多肽的N末端或多肽的C末端10个氨基酸至125个氨基酸。

在这些具体实施例的一些中，在N末端氨基酸之前的谷氨酸残基并不紧邻另一个谷氨酸残基。在这些具体实施例的一些中，条形码片段不包括在除条形码片段的C末端外的位置处的谷氨酸残基，除非谷氨酸紧随其后为脯氨酸。

在一些实施例中，本文提供的XTEN多肽包含多个非重叠序列基序，其中每个所述序列基序在XTEN多肽中重复至少两次并且长度为9至14个氨基酸。在一些实施例中，该组非重叠序列基序的序列基序在本文中通过SEQ ID NO:182-203和1715-1722进行鉴定。在一些实施例中，该组非重叠序列基序的序列基序在本文中通过SEQ ID NO:186-189进行鉴定。在一些实施例中，该组非重叠序列基序包含序列基序SEQ ID NO:186-189中的至少两个、至少三个或所有四个。在一些实施例中，XTEN多肽的至少91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的氨基酸残基是甘氨酸(G)、丙氨酸(A)、丝氨酸(S)、苏氨酸(T)、谷氨酸盐(E)或脯氨酸(P)的组合，其中XTEN多肽包含这些氨基酸(G、A、S、T、E或P)中的至少四种。在一些实施例中，XTEN的长度为150至3000个氨基酸。在一些实施例中，XTEN的长度为150至1000个氨基酸。在一些实施例中，多肽可以被蛋白酶切割，所述蛋白酶在谷氨酸残基的C末端侧上切割，所述谷氨酸残基随后并非为脯氨酸。在某些实施例中，蛋白酶是Glu-C蛋白酶。

在本文提供的XTEN多肽的一些实施例中，条形码片段定位于多肽的N末端的200、150、100或50个氨基酸内。在一些实施例中，条形码片段定位于距离蛋白质的N末端10至200、30至200、40至150、或50至100个氨基酸之间。在一些实施例中，条形码片段定位于多肽的C末端的200、150、100或50个氨基酸内。在一些实施例中，条形码片段定位于距离蛋白质的C末端10至200、30至200、40至150、或50至100个氨基酸之间。在一些实施例中，条形码片段的长度为至少4个氨基酸。在一些实施例中，条形码片段的长度为4至20、5至15、6至12、或7至10个氨基酸。在一些实施例中，条形码片段在本文中通过SEQ ID No:8020-8030(BAR001-BAR011)进行鉴定。

在一些实施例中，多肽还包含第二条形码片段，其中所述第二条形码片段是XTEN的一部分，并且在序列和分子量方面不同于多肽被蛋白酶完全消化后可从多肽中释放的所有其它肽片段。在一些实施例中，多肽还包含第三条形码片段，其中所述第三条形码片段是XTEN的一部分，并且在序列和分子量方面不同于多肽被蛋白酶完全消化后可从多肽中释放的所有其它肽片段。

在一些实施例中，XTEN与在本文中通过SEQ ID NO:8001-8019鉴定的序列具有至少90％、至少92％、至少95％、至少98％、至少99％或100％的序列同一性。在一些实施例中，XTEN的长度为至少200、至少250、至少300、至少350、至少400、至少450或至少500个氨基酸。

在一些实施例中，多肽还包含与XTEN多肽(BPXTEN)连接的生物活性多肽。在一些实施例中，XTEN多肽在XTEN的氨基或羧基末端处与生物活性多肽连接。在任一构型中，条形码片段定位于XTEN的区域内，如从与生物活性多肽连接的氨基或羧基末端测量的，所述区域延伸XTEN的长度的5％至50％、7％至40％、或10％至30％。

在一些实施例中，BPXTEN多肽还包含在被蛋白酶消化后可从多肽中释放的一个或多个参考片段，其中所述一个或多个参考片段各自包含生物活性多肽的一部分。在一些实施例中，一个或多个参考片段是在序列和分子量方面不同于多肽被蛋白酶消化后可从多肽中释放的所有其它肽片段的单个参考片段。在一些实施例中，所述参考片段包含肽，其在多肽混合物中的存在指示其存在或完整性(即，蛋白质尚未被降解或蛋白酶解切割)。

在一些实施例中，BPXTEN多肽还包含定位于XTEN和生物活性多肽之间的第一释放区段(RS1)。在一些实施例中，RS1包含与在本文中通过表4a-4h中的任何一种序列鉴定的序列具有至少90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列。在一些实施例中，生物活性多肽在本文中通过表4a-4h和8a-8b中的任何一种序列或序列组合进行鉴定。

在一些实施例中，与未连接至任何XTEN的生物活性多肽相比，BPXTEN多肽有利地具有至少两倍的终末半衰期。

在一些实施例中，与未连接至任何XTEN的生物活性多肽相比，BPXTEN多肽有利地是更少免疫原性的，其中免疫原性可以通过在向人或动物施用可比较剂量后，测量与生物活性多肽选择性结合的IgG抗体的产生来确定。

在一些实施例中，BPXTEN多肽在生理条件下显示出大于约6的表观分子量因子。

在一些实施例中，BPXTEN多肽还包含第二XTEN多肽，其中所述第二XTEN多肽包含具有与上文和本公开内容自始至终对于BPXTEN的这些实施例的第一XTEN组分阐述的相同特性的氨基酸序列，并且其中所述第一XTEN多肽定位于生物活性多肽的N末端，且所述第二XTEN多肽定位于生物活性多肽的C末端。在一些实施例中，第二XTEN多肽包含的氨基酸序列不同于构成BPXTEN的这些实施例的第一XTEN的氨基酸序列。在某些实施例中，第二XTEN多肽的氨基酸序列长于第一XTEN多肽的氨基酸序列。

在一些实施例中，BPXTEN多肽还包含定位于生物活性多肽和第二XTEN多肽之间的第二释放区段(RS2)。在一些实施例中，第一XTEN多肽的RS1和第二XTEN多肽的RS2序列相同。在一些实施例中，第一XTEN多肽的RS1和第二XTEN多肽的RS2各自是用于被多重蛋白酶在每个释放区段序列内的一个、或两个、或三个或更多个切割位点处切割的底物。

在这些实施例的一些中，BPXTEN多肽包含进一步的条形码片段，其是第二XTEN多肽的一部分，并且在序列和分子量方面不同于多肽被蛋白酶完全消化后可从多肽中释放的所有其它肽片段。在这些实施例的一些中，进一步的条形码片段不包括多肽的C末端氨基酸。在这些实施例的一些中，进一步的条形码片段包含在其C末端处的谷氨酸残基。在这些实施例的一些中，第二XTEN多肽的进一步的条形码片段定位于BPXTEN多肽的第二XTEN组分的C末端的200、150、100或50个氨基酸内。在这些实施例的一些中，第二XTEN多肽的进一步的条形码片段定位于距离BPXTEN多肽的第二XTEN组分的C末端10至200、30至200、40至150、或50至100个氨基酸之间的位置处。在这些实施例的一些中，进一步的条形码片段的长度为4至20、5至15、6至12、或7至10个氨基酸。在这些实施例的一些中，进一步的条形码片段在本文中通过SEQ ID No:8020-8030(BAR001-BAR011)进行鉴定。

在一些实施例中，第二XTEN多肽还包含一组条形码片段，其包括进一步的条形码片段和至少一个另外的条形码片段，其中该组条形码片段中的每个条形码片段在序列和分子量方面不同于多肽被蛋白酶完全消化后可从BPXTEN多肽中释放的所有其它肽片段。在一些实施例中，第二XTEN多肽通过SEQ ID NO:8001-8019进行鉴定。在一些实施例中，进一步的条形码片段不包括紧邻多肽中的另一个谷氨酸残基的谷氨酸残基。

在一些实施例中，第二XTEN多肽的至少91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的氨基酸残基是甘氨酸(G)、丙氨酸(A)、丝氨酸(S)、苏氨酸(T)、谷氨酸盐(E)和脯氨酸(P)的组合，其中XTEN多肽包含这些氨基酸(G、A、S、T、E或P)中的至少四种。在一些实施例中，第一XTEN多肽中的氨基酸总数和第二XTEN多肽中的氨基酸总数之和为至少300、至少350、至少400、至少500、至少600、至少700或至少800个氨基酸。在一些实施例中，第二XTEN多肽包含多个非重叠序列基序，其中所述序列基序各自在第二XTEN多肽序列中重复至少两次，并且长度为9至14个氨基酸。

在一些实施例中，对于第二XTEN多肽，多个非重叠序列基序的序列基序在本文中通过SEQ ID NO:182-203和1715-1722进行鉴定。在一些实施例中，多个非重叠序列基序的序列基序在本文中通过SEQ ID NO:186-189进行鉴定。在一些实施例中，对于第二XTEN多肽，多个非重叠序列基序包含下述基序中的至少两个、至少三个或所有四个：SEQ ID NO:186-189。在一些实施例中，第二XTEN多肽的长度为150至3000个氨基酸。在一些实施例中，第二XTEN多肽的长度为150至1000个氨基酸。在一些实施例中，第二XTEN多肽与在本文中通过SEQ ID NO:8001-8019鉴定的序列具有至少90％、至少92％、至少95％、至少98％、至少99％或100％的序列同一性。在一些实施例中，第二XTEN多肽的长度为至少200、至少250、至少300、至少350、至少400、至少450或至少500个氨基酸。

在特定实施例中，本文提供的BPXTEN多肽包括包含接近但不构成多肽的C末端的第一RS序列的第一XTEN多肽，所述第一XTEN多肽共价连接至串联共价连接的第一生物活性多肽和第二生物活性多肽，其中第二XTEN多肽共价连接至串联连接的生物活性多肽的C末端，其中所述第二XTEN多肽包含接近但不构成第二XTEN多肽的N末端的第二RS序列，其中所述第一RS序列和第二RS序列可以是相同或不同的。在特定实施例中，第二XTEN多肽包含比第一XTEN多肽的氨基酸序列更长的氨基酸序列。在某些实施例中，第一生物活性蛋白质或第二生物活性蛋白质或两者包含特异性结合蛋白，在某些实施例中，其中所述特异性结合蛋白与在所需生物学位点处表达的抗原或激动剂特异性结合。在特定实施例中，所需生物学位点是肿瘤，并且抗原是肿瘤特异性抗原。在特定实施例中，第一生物活性多肽和第二生物活性多肽是不同的，包括但不限于具有不同的特异性结合亲和力。

本文还公开的是核酸，其包含编码多肽例如本文公开的任何XTEN或BPXTEN多肽的多核苷酸或者所述多核苷酸的反向互补体。

本文还公开的是表达载体，其包含本文公开的任何多核苷酸序列和可操作地连接到多核苷酸序列的调控序列，所述调控序列调控所述多核苷酸序列的表达或其它生物活性。

本文公开的是包含如本文公开的表达载体的宿主细胞。在一些实施例中，宿主细胞是原核生物。在这些实施例的一些中，宿主细胞是大肠杆菌。在一些替代实施例中，宿主细胞是哺乳动物细胞。

本文另外公开的是药物组合物，其包含如本文公开的多肽和一种或多种药学上可接受的赋形剂。在一些实施例中，药物组合物配制用于施用于动物且特别是人，其中所述施用可以通过任何治疗有效的施用途径。如本文公开的药物组合物可以制备并用于任何制剂中，所述制剂是本领域已知的且特别适于对人或动物的施用途径、部位和预期效应。

本文公开的是如本文公开的多肽且特别是BPXTEN多肽在制备用于治疗人或动物中的疾病、病症或状况的药物中的用途。在一些实施例中，疾病、病症或状况可以是癌症。

本文公开的是如上文和本公开内容自始至终公开的治疗人或动物中的疾病的方法，该方法包括向有此需要的人或动物施用药物组合物的一个或多个治疗有效剂量。在一些实施例中，药物组合物作为一个或多个治疗有效剂量施用于人或动物，所述治疗有效剂量在临床上适当的时间表上每天一次、每周一次、每月一次或每年一次且以临床上适当的剂量施用。

本文公开的是包含各种长度的多种多肽特别是如本文公开的XTEN和BPXTEN多肽的混合物，该混合物包含：

第一组多肽，其中所述第一组多肽中的每种多肽包含条形码片段，所述条形码片段可通过用蛋白酶消化从所述多肽中释放，并且具有的序列和分子量不同于可从所述第一组多肽中释放的所有其它片段的序列和分子量；和

缺乏所述第一组多肽的条形码片段的第二组多肽；

其中所述第一组多肽和第二组多肽两者各自包含参考片段，所述参考片段是第一组多肽和第二组多肽共有的，并且通过用蛋白酶消化产生；和

其中所述第一组多肽/包含所述参考片段的多肽的比率大于0.7。

在一些实施例中，第一组多肽/包含参考片段的多肽的比率大于0.8、0.9、0.95或0.98。在一些实施例中，参考片段在第一组多肽和第二组多肽中的每种多肽中出现不多于一次。在一些实施例中，蛋白酶是在谷氨酸残基的C末端侧上切割的蛋白酶。在一些实施例中，来自包含第一组多肽的多肽的条形码释放通过胃蛋白酶、弹性蛋白酶、嗜热菌蛋白酶或Glu-C蛋白酶得到促进。在一些实施例中，条形码释放通过Glu-C蛋白酶得到促进。在一些实施例中，蛋白酶不是胰蛋白酶。在一些实施例中，各种长度的多肽包括包含如本文所述的至少一种XTEN多肽的多肽。

在一些实施例中，第一组多肽包含全长多肽，其中所述条形码片段是全长多肽的一部分。在一些实施例中，全长多肽是本文公开的任何多肽，且特别是XTEN和BPXTEN多肽。在一些实施例中，条形码片段不包含全长多肽的N末端氨基酸或C末端氨基酸。在一些实施例中，各种长度的多肽的混合物由于全长多肽的N末端截短、C末端截短或N末端和C末端截短两者而彼此不同。

本文公开的是在包含各种长度的多肽且特别是如本文公开的XTEN和BPXTEN多肽的混合物中，用于评价混合物中的第一组多肽与混合物中的第二组多肽的相对量的方法，其中所述第一组多肽中的每种多肽共享在多肽中出现一次且仅一次的条形码片段，并且所述第二组多肽中的每种多肽缺乏由第一组多肽共享的条形码片段，其中所述第一组多肽和第二组多肽两者中的各个多肽各自包含参考片段，该方法包括：

使混合物与蛋白酶接触，以产生来源于第一组多肽和第二组多肽的切割的多个蛋白酶解片段，其中所述多个蛋白酶解片段包含多个参考片段和多个条形码片段；和

确定条形码片段的量/参考片段的量的比率，从而评价所述第一组多肽与所述第二组多肽的相对量。

在一些实施例中，参考片段在第一组多肽和第二组多肽中的每种多肽中出现不多于一次。

在一些实施例中，蛋白酶在谷氨酸残基的C末端侧上切割各种长度的多肽，所述谷氨酸残基随后并非脯氨酸残基。在一些实施例中，蛋白酶是Glu-C蛋白酶。在一些实施例中，蛋白酶不是胰蛋白酶。在一些实施例中，确定条形码片段的量/参考片段的量的比率包括在多肽的混合物已与蛋白酶接触后，定量来自混合物的条形码片段和参考片段。在一些实施例中，条形码片段和参考片段基于其分别的质量进行鉴定。在一些实施例中，条形码片段和参考片段经由质谱法进行鉴定。在一些实施例中，条形码片段和参考片段经由液相色谱-质谱法(LC-MS)进行鉴定。在一些实施例中，确定条形码片段/参考片段的比率包括同量异序标记或稳定同位素标记。在一些实施例中，确定条形码片段/参考片段的比率包括用同位素标记的参考片段和同位素标记的条形码片段之一或两者掺料混合物。

在这些实施例的一些中，各种长度的多肽包含全长多肽及其截短片段。在这些实施例的一些中，各种长度的多肽的混合物由于全长多肽的N末端截短、C末端截短或N末端和C末端截短两者而彼此不同。在这些实施例的一些中，条形码片段/参考片段的量的比率大于0.5、0.6、0.7、0.8、0.9、0.95、0.98或0.99。

本文公开的是包含各种长度的多种多肽的混合物，该混合物包含第一组多肽，其中所述第一组多肽中的每种多肽包含条形码片段，所述条形码片段可通过用蛋白酶消化从多肽中释放，并且具有的序列和分子量不同于可从第一组多肽中释放的所有其它片段的序列和分子量。所述实施例还包括缺乏第一组多肽的条形码片段的第二组多肽，其中所述第一组多肽和第二组多肽两者各自包含参考片段，所述参考片段是第一组多肽和第二组多肽共有的，并且可通过用蛋白酶消化释放。在所述实施例中，在蛋白酶消化后多肽混合物中定量的参考片段的数目等于混合物中的第一组多肽和第二组多肽的数目之和，并且在蛋白酶消化后多肽混合物中定量的条形码片段的数目等于混合物中的第一组多肽的数目。在所述实施例中，第一组多肽包含一个参考片段，所述第一组多肽/混合物中包含参考片段的多肽的比率大于0.7。

在一些实施例中，混合物具有大于0.8、0.9或0.95的第一组多肽/包含参考片段的多肽的比率。

在一个特定实施例中，参考片段在第一组多肽和第二组多肽中的每种多肽中出现不多于一次。在替代实施例中，参考片段在第一组多肽和第二组多肽中的每种多肽中出现两次。

在一些实施例中，第一组多肽包含全长多肽，其中所述条形码片段是全长多肽的一部分。

在一些实施例中，全长多肽包括本文公开的多肽。

在一个特定实施例中，混合物条形码片段不包含全长多肽的N末端氨基酸和C末端氨基酸。

在一些实施例中，混合物含有各种长度的多肽，其由于全长多肽的N末端截短、C末端截短或N末端和C末端截短两者而彼此不同。

在一些实施例中，参考片段在第一组多肽和第二组多肽中的每种多肽中出现不多于一次。在一个替代实施例中，第一组多肽中的参考片段数目可以不同于第二组多肽中的参考片段数目，但其在每组中的每种多肽中的数目必须是相同的。

在一个特定实施例中，混合物的多肽中的参考片段各自具有的序列和分子量不同于所有其它片段的序列和分子量。

本文公开的是包含各种长度的多种多肽的混合物，该混合物包含第一组多肽，其中所述第一组多肽中的每种多肽包含

条形码片段，所述条形码片段可通过用蛋白酶消化从多肽中释放，并且具有的序列和分子量不同于可从第一组多肽中释放的所有其它片段的序列和分子量。该混合物还包含缺乏第一组多肽的条形码片段的第二组多肽，其中所述第一组多肽和第二组多肽两者各自包含参考片段，所述参考片段是第一组多肽和第二组多肽共有的，并且可通过用蛋白酶消化释放。第一组多肽/混合物中的多肽的比率具有下式：

[含条形码的多肽]/[(含参考肽的多肽)x N]

其中N是从混合物中的每种多肽中释放的参考肽的出现次数，并且其中当第一组多肽包含一个参考片段时，第一组多肽/混合物中包含参考片段的多肽的比率大于0.7。

在一个特定实施例中，第一组多肽/包含参考片段的多肽的比率大于0.8、0.9或0.95。

在一些实施例中，参考片段在第一组多肽和第二组多肽中的每种多肽中出现两次。

在一个特定实施例中，第一组多肽包含全长多肽，其中所述条形码片段是全长多肽的一部分。

在一些实施例中，全长多肽包括本文公开的多肽。在一个特定实施例中，条形码片段不包含全长多肽的N末端氨基酸和C末端氨基酸。

在一些实施例中，各种长度的多肽的混合物由于全长多肽的N末端截短、C末端截短或N末端和C末端截短两者而彼此不同。

在一些实施例中，参考片段在第一组多肽和第二组多肽中的每种多肽中出现不多于一次。在进一步的实施例中，第一组多肽中的参考片段数目可以不同于第二组多肽中的参考片段数目，但其在每组中的每种多肽中的数目必须是相同的。在一些实施例中，混合物的多肽中的参考片段具有的序列和分子量不同于所有其它片段的序列和分子量。

本文公开的是在本文公开的混合物中检测包含第一组多肽的多肽的序列完整性的方法，该方法包括用蛋白酶消化多肽混合物的步骤，所述蛋白酶从第一组多肽中释放条形码片段和参考片段，且从第二组多肽中释放参考片段，并且确定来自第一组多肽的条形码片段/来自第一组多肽和第二组多肽的参考片段的比率。在一个特定实施例中，通过基于包含第一组多肽和第二组多肽的多肽中的条形码片段和参考片段数目，比较片段的比率与片段的预期比率来检测第一组多肽的多肽的序列完整性。

本文考虑的方法容易地顺应例如通过使用LC/MS，含有条形码和/或参考片段的多肽的定性和定量分析。在一个特定实施例中，LC/MS是定量的，并且检测同位素可区分量的条形码片段、参考片段或两者。在示例性的此类方法中，多肽的混合物用已知量的“标准材料”进行掺料，以促进此类分析。例如，此类标准材料是包含待分析的所述各种长度的多种多肽的混合物的同位素标记形式的标准材料。这种同位素标记的标准可以在被所述蛋白酶消化之前作为完整序列加入混合物中。可替代地，各种长度的多肽的混合物的测试样品和同位素标记的标准材料在分开的反应中被蛋白酶消化，并且在通过LC/MS分析之前，将蛋白酶消化的同位素标记的标准材料加入测试样品中。本发明的方法还包括通过与检测到的同位素可区分量的条形码片段、参考片段或两者的定量的比较，定量来自测试样品的条形码片段、参考片段或两者的量。

在审查本公开内容后，本领域技术人员将想到这些实施例的变化和修改。前述特征和方面可以用本文描述的一个或多个其它特征以任何组合和子组合(包括多重从属组合和子组合)来实现。上文描述或示出的各种特征，包括其任何组分，可以在其它实施例中组合或集成。此外，某些特征可以省略或不实现。

以引用的方式并入

本说明书中提到的所有出版物、专利和专利申请都以引用的方式并入本文，其程度与每个个别出版物、专利或专利申请特异性且个别地指示以引用的方式并入相同。

附图说明

本公开内容的各种特征在所附权利要求中特别阐述。通过参考阐述其中利用本发明的原理的说明性实施例的下述详细描述以及附图，可以获得本公开内容的特征和优点的更好理解，在所述附图中：

图1描绘了具有各种长度的XTEN多肽的XTEN化蛋白酶激活的T细胞接合剂(XTENylated Protease-Activated T Cell Engager)(“XPAT”)多肽的混合物。全长XPAT(顶部)包含在N末端处的长288个氨基酸的XTEN多肽和在C末端处的长864个氨基酸的XTEN多肽。例如，在发酵、纯化或产物制备中的其它步骤期间，可以在XPAT中的N末端和C末端XTEN多肽之一或两者中出现各种截短。虽然具有有限截短(靠近距离与其连接的蛋白酶激活的T细胞接合剂远端的XTEN多肽一部分的截短)的产物可以以类似于全长构建体的方式发挥功能，但严重截短(更接近于距离与其连接的蛋白酶激活的T细胞接合剂近端的XTEN多肽一部分的截短)可以具有与其全长配对物显著不同的药理性质。截短的存在对于定量XPAT产物中的药理学有效和无效变体提出了挑战。如图1中使用全长XPAT示出的，每种XTEN多肽具有近端和远端，其中所述近端相对于远端定位更接近于生物活性多肽(例如，T细胞接合剂、细胞因子、单克隆抗体(mAb)、抗体片段或XTEN化的其它蛋白质)。取决于键合取向，XTEN多肽的近端或远端可以对应于XTEN多肽的N末端或C末端。

图2描绘了具有各种长度的加条形码的XTEN多肽的XPAT多肽的混合物。在全长XPAT(顶部)中，长288个氨基酸的N末端XTEN多肽含有三个可切割地融合的条形码序列，“NA”、“NB”和“NC”(从远端到近端)，并且长864个氨基酸的C末端XTEN多肽含有三个可切割地融合的条形码序列，“CC”、“CB”和“CA”(从近端到远端)。每个条形码定位为指示相应XTEN多肽的药理学相关长度。例如，缺乏条形码“NA”但具有更近端的条形码“NB”和“NC”的XPAT的次要N末端截短产物，可以显示与全长构建体基本上相同的药理性质。相比之下，例如缺乏在N末端上的所有三个条形码的XPAT的主要N末端截短产物，可以在药理活性方面可辨别地不同于全长构建体。从XPAT的生物活性多肽(此处，包含T细胞接合剂的活性部分的串联scFv)中鉴定唯一的可蛋白酶解切割序列。由于其存在于XPAT的所有长度变体(包括全长XPAT、其次要截短和主要截短)中，唯一的可蛋白酶解切割序列可以用作用于相对于生物活性蛋白质的总量定量各种截短产物的量的参考。

图3示出了通过将条形码生成序列***通用(或常规)XTEN多肽内，关于加条形码的XTEN多肽的潜在设计。示例性通用(或常规)XTEN多肽(顶部)包含序列“BCDABDCDABDCBDCDABDCB”中的非重叠12聚体基序，其中序列基序“A”、“B”、“C”和“D”分别出现3、6、5和7次。示例性通用XTEN多肽(上图)的Glu-C蛋白酶消化不产生除了两个末端(“NT”和“CT”)之外的唯一肽。将条形码生成序列“X”(例如，唯一的12聚体)***XTEN多肽内，导致在XTEN多肽的其它任何地方都不出现的唯一的可蛋白酶解切割序列(或条形码序列)。条形码生成序列“X”可以这样定位，其中所得到的条形码标记XTEN多肽的药理学相关长度。例如，缺乏条形码的XTEN多肽可以在功能上不同于具有条形码的相应XTEN多肽。本领域普通技术人员将理解条形码生成序列(“X”)可以是条形码序列本身。可替代地，条形码生成序列(“X”)可以不同于所得到的条形码序列。例如，条形码序列可以与之前或之后的12聚体基序重叠并因此含有其部分。

图4A-4B示出了关于N末端XTEN多肽的截短水平的定量。图4A证实了可以通过用条形码生成基序“X”替换通用XTEN多肽(上图)中的序列基序(例如，从N端开始的第三个序列基序，“D”)，来构建加条形码的XTEN多肽(下图)；并且，在这个例子中，条形码生成基序(“X”)本身是唯一的可蛋白酶解切割的条形码序列。如图4A中的下图中所示，条形码这样定位，其中XTEN多肽的所有严重截短形式都缺乏条形码，并且XTEN多肽的所有有限截短形式都含有条形码。图4B示出了XPAT的两种不同混合物中的各种切割产物的相对丰度。在混合物之一中，条形码存在于99％的含有生物活性蛋白质的构建体中。在混合物的另一种中，13％的构建体缺乏条形码。图4A-4B示出了使用加条形码的XTEN多肽来区分具有基本上相似的平均分子量但具有可辨别地不同的药理活性的两种多肽混合物。

图5A示出了XPAT蛋白的分析尺寸排阻色谱法(SEC)和全长蛋白质及其截短衍生物的检测。合成蛋白质+截短物级分包括与完整合成蛋白质一样大的片段。

图5B示出了如通过质谱法检测到的，XPAT制剂中的条形码肽的丰度。每个测量是针对其相应的重同位素标记的合成肽的400nM峰标准化的，N-条形码SGPGSTPAE(SEQ IDNo.8029)和C-条形码GSAPGTE(SEQ ID No.8023)的XIC面积。

专利或申请文件含有至少一幅彩色绘图。本专利或专利申请公开的带彩色附图的副本将在请求和支付必要费用后由专利局提供。

术语

如本文使用的，除非另有说明，否则下述术语具有归于其的含义。

如说明书和权利要求中使用的，单数形式“一个”、“一种”和“该/所述”包括复数所指物，除非上下文另有明确说明。例如，术语“细胞”包括多种细胞，包括其混合物。

术语“多肽”、“肽”和“蛋白质”在本文中可互换使用，以指任何长度的氨基酸聚合物。聚合物可以是线性或分支的，它可以包含修饰的氨基酸，并且它可以被非氨基酸中断。该术语还涵盖氨基酸聚合物，其已例如通过二硫键形成、糖基化、脂化、乙酰化、磷酸化或任何其它操作例如与标记组分缀合进行修饰。

如本文使用的，术语“氨基酸”指天然和/或非天然或合成氨基酸，包括但不限于甘氨酸和D或L光学异构体两者，以及氨基酸类似物和拟肽。标准的单字母代码或三字母代码用于指定氨基酸。

“宿主细胞”包括个别细胞或细胞培养物，其可以是或已经是人或动物载体的受体。宿主细胞包括单个宿主细胞的后代。由于天然存在或遗传改造的变异，后代不一定与原始亲本细胞完全等同(在形态学或总DNA互补体的基因组方面)。

“嵌合”蛋白质含有至少一种多肽，其包含在序列中与自然界中存在的不同的位置中的区域。区域可以通常存在于分开的蛋白质中，并且在融合多肽中结合在一起；或者它们可以通常存在于相同的蛋白质中，但在融合多肽中以新的排列放置。所述蛋白质可以描述为“缀合的”、“连接的”、“融合的”或“融合”蛋白质；这些术语在本文中可互换使用，并且指通过包括化学缀合或重组手段的无论何种手段，将两种或更多种多肽序列连接在一起。例如，可以通过化学合成或通过产生且翻译其中肽区域以所需关系编码的多核苷酸来产生嵌合蛋白。

术语“多核苷酸”、“核酸”、“核苷酸”和“寡核苷酸”可互换使用，并且指任何长度的核苷酸的聚合形式，所述核苷酸是脱氧核糖核苷酸或核糖核苷酸或其类似物。多核苷酸可以具有任何三维结构，并且可以执行已知或待发现或开发的任何功能。多核苷酸可以包含修饰的核苷酸，例如甲基化核苷酸和核苷酸类似物。如果存在的话，则可以在聚合物组装之前或之后赋予对核苷酸结构的修饰。核苷酸序列可以被非核苷酸组分中断。多核苷酸可以在聚合后例如通过与标记组分缀合进行进一步修饰。

术语“多核苷酸的互补体”指示与参考序列相比，具有互补碱基序列和反向取向的多核苷酸分子，其中它可以完全保真地与参考序列杂交。

如本文使用的，具有“同源性”或“同源”的多核苷酸是这样的多核苷酸，其在如本文定义的严格条件下与那些序列杂交，并且与那些序列具有至少70％、优选至少80％、更优选至少90％、更优选95％、更优选97％、更优选98％、且甚至更优选99％的序列同一性。

当应用于多核苷酸序列时，术语“百分比同一性”和“％同一性”指使用标准化算法比对的至少两个多核苷酸序列之间的残基匹配的百分比。此类算法可以以标准化和可重现的方式在被比较的序列中***空位，以便优化两个序列之间的比对，并且因此实现两个序列的更有意义的比较。百分比同一性可以在例如如由特定的SEQ ID编号定义的整个限定多核苷酸序列的长度上进行测量，或者可以在较短的长度上，例如在取自较大的限定多核苷酸序列的片段的长度上进行测量，所述片段例如至少45、至少60、至少90、至少120、至少150、至少210或至少450个连续残基的片段。此类长度仅是示例性的，并且应理解，由本文在表、附图或序列表中显示的序列支持的任何片段长度，都可以用于描述可以在其上测量百分比同一性的长度。

关于本文鉴定的多肽序列的“百分比(％)氨基酸序列同一性”，定义为在比对序列和必要时引入空位以实现最大百分比序列同一性后，并且不考虑将任何保守取代作为序列同一性的部分，查询序列中与第二参考多肽序列或其一部分的氨基酸残基相同的氨基酸残基的百分比。用于确定百分比氨基酸序列同一性目的的比对可以以在本领域技术内的各种方式来实现，所述方式例如使用可公开可用的计算机软件如BLAST、BLAST-2、ALIGN或Megalign(DNASTAR)软件。本领域技术人员可以确定用于测量比对的适当参数，包括在被比较的序列的全长上实现最大比对所需的任何算法。百分比同一性可以在例如如由特定的SEQ ID编号定义的整个限定多肽序列的长度上进行测量，或者可以在较短的长度上，例如在取自较大的限定多肽序列的片段的长度上进行测量，所述片段例如至少15、至少20、至少30、至少40、至少50、至少70或至少150个连续残基的片段。此类长度仅是示例性的，并且应理解，由本文在表、附图或序列表中显示的序列支持的任何片段长度，都可以用于描述可以在其上测量百分比同一性的长度。

如本文使用的，XTEN多肽氨基酸序列的“重复性”指3聚体重复性，并且可以通过计算机程序或算法或者通过本领域已知的其它手段进行测量。XTEN多肽氨基酸序列的3聚体重复性可以通过确定多肽内的重叠3聚体序列的出现次数进行评价。例如，具有200个氨基酸残基的多肽具有198个重叠的3氨基酸序列(3聚体)，但唯一的3聚体序列的数目取决于序列内的重复性的量。可以生成反映整个多肽序列中的3聚体重复性程度的评分(在下文中“子序列评分”)。在本发明的上下文中，“子序列评分”意指跨越多肽的200个连续氨基酸的序列的每个唯一的3聚体构架的出现总和除以200个氨基酸的序列内唯一的3聚体子序列的绝对数目。源自重复多肽和非重复多肽的前200个氨基酸的此类子序列评分的例子呈现于国际专利申请公开号WO 2010/091122 A1的实例73中，所述国际专利申请以引用的方式全文并入。在一些实施例中，本发明提供了各自包含至少一种XTEN多肽的BPXTEN多肽，其中所述XTEN多肽氨基酸序列可以具有小于16、或小于14、或小于12、或更优选地小于10的子序列评分。

如本文使用的，术语“基本上非重复的XTEN多肽氨基酸序列”指这样的XTEN多肽，其中存在很少或没有XTEN多肽氨基酸序列中的四个连续氨基酸是相同的氨基酸类型的情况，并且其中所述XTEN多肽氨基酸序列具有12、或10或更低的子序列评分(在本文的前一段中定义)，或不存在构成多肽序列的序列基序从N末端到C末端的次序的模式。

如本文所述，术语“非重叠的序列基序”包括完全非重叠的序列基序以及仅部分非重叠的序列基序，条件是所述部分非重叠的序列基序不是完全重叠的。

“载体”是优选在适当的宿主中自复制的核酸分子，其将***的核酸分子转移到宿主细胞之内和/或之间。该术语包括主要发挥功能用于将DNA或RNA***细胞内的载体，主要发挥功能用于DNA或RNA复制的复制载体，以及发挥功能用于DNA或RNA的转录和/或翻译的表达载体。还包括的是提供多于一种上述功能的载体。“表达载体”是这样的多核苷酸，当引入适当的宿主细胞内时，所述多核苷酸可以被转录且翻译成多肽。“表达***”通常意味着包含表达载体的合适的宿主细胞，所述表达载体可以发挥功能以产生所需的表达产物。

如本文使用的，术语“t_1/2”意指计算为ln(2)/K_el的终末半衰期。K_el是通过对数浓度相对于时间曲线的末端线性部分的线性回归计算的终末消除速率常数。半衰期通常指沉积在活生物中的施用物质的一半数量被正常生物过程代谢或消除所需的时间。术语“t_1/2”、“终末半衰期”、“消除半衰期”和“循环半衰期”在本文中可互换使用。

术语“抗原”、“靶抗原”或“免疫原”在本文中可互换使用，以指抗体片段或基于抗体片段的治疗剂与其结合或具有针对其的特异性的结构或结合决定簇。

如本文使用的，术语“有效载荷”指具有生物活性或治疗活性的蛋白质或肽序列；小分子的药效团的配对物。有效载荷的例子包括但不限于细胞因子、酶、激素以及血液因子和生长因子。有效载荷还可以包含遗传融合或化学缀合的部分，例如化学治疗剂、抗病毒化合物、毒素或造影剂。这些缀合的部分可以经由接头与多肽的剩余部分连接，所述接头可以是可切割的或不可切割的。

如本文使用的，“治疗(treatment)”或“治疗(treating)”、“缓解”和“改善”在本文中可互换使用，并且指用于获得有益结果或所需结果包括但不限于治疗益处和/或预防益处的方法。“治疗益处”意指正在治疗的潜在病症的根除或改善。另外，通过根除或改善与潜在疾病状况相关的一种或多种生理症状来实现治疗益处，其中在人或动物中观察到改善，尽管人或动物仍可以受到潜在病症的折磨。为了预防益处，可以将组合物施用于处于发展特定疾病状况的风险中的人或动物、或者报告疾病的一种或多种生理症状的人或动物，即使仍无法作出该疾病的诊断。

如本文使用的，“治疗效应”指生理效应，包括但不限于由本发明的融合多肽引起的人或其它动物中的疾病状况的治愈、减轻、改善或预防，或者以其它方式增强人或动物的身体或精神健康，而不是诱导针对由生物活性蛋白质具有的抗原表位的抗体产生的能力。尤其是按照本文提供的详细公开内容，治疗有效量的确定完全在本领域技术人员的能力内。

如本文使用的，术语“治疗有效量”和“治疗有效剂量”指单独或作为融合蛋白组合物一部分的生物活性蛋白质的量，当以一个剂量或重复剂量施用于人或动物时，所述量能够具有对疾病状态或状况的任何症状、方面、测量参数或特性的任何可检测的有益作用。此类效应无需是绝对有益的。疾病状况可以指病症或疾病。

如本文使用的，术语“治疗有效剂量方案”指用于单独或作为融合蛋白组合物一部分的生物活性蛋白质的连续施用剂量的时间表，其中所述剂量以治疗有效量给予，以导致对疾病状态或状况的任何症状、方面、测量参数或特性的持续有益作用。

融合多肽

本文公开的是包含一种或多种延伸重组多肽(XTEN或XTENs)(如下文更充分地描述的)的多肽，其可以融合或以其它方式缀合至另一种多肽，特别是生物活性多肽，其中所述实施例在本文中称为BPXTEN。

在一些实施例中，多肽包含第一XTEN多肽(例如下文在“延伸重组多肽(XTEN)”节段中描述或在本文其它任何地方描述的那些多肽)。在一些实施例中，多肽还包含第二XTEN多肽(例如下文在“延伸重组多肽(XTEN)”节段中描述或在本文其它任何地方描述的那些多肽)。在一些实施例中，多肽包含在其N末端处或附近的XTEN多肽(“N末端XTEN”)。在一些实施例中，多肽包含在其C末端处或附近的XTEN多肽(“C末端XTEN”)。在一些实施例中，多肽包含N末端XTEN多肽和C末端XTEN多肽两者。在一些实施例中，第一XTEN多肽是N末端XTEN多肽，并且第二XTEN多肽是C末端XTEN多肽。

多肽还可以包含与XTEN多肽连接的生物活性多肽(“BP”)，从而形成在本文中称为“BPXTEN”多肽的含有XTEN的融合多肽。

XTEN多肽可以包含在融合多肽(或BPXTEN)被蛋白酶消化后，可从XTEN多肽中释放(配置为释放的)的一个或多个条形码片段(如下文更充分地描述的)。在一些实施例中，每个条形码片段在序列和分子量方面不同于多肽被蛋白酶完全消化后可从多肽中释放的所有其它肽片段(包括所有其它条形码片段，如果存在的话)。

(融合)多肽可以包含例如在蛋白酶消化后，可从多肽中释放的一个或多个参考片段(如下文更充分地描述的)，所述蛋白酶消化从多肽中释放条形码片段。在一些实施例中，每个参考片段可以是在序列和分子量方面不同于多肽被蛋白酶消化后可从多肽中释放的所有其它肽片段的单个参考片段。

延伸重组多肽(XTEN)

链长度和氨基酸组成

在一些实施例中，XTEN多肽包含至少150个氨基酸。在一些实施例中，XTEN多肽的长度为150至3,000个氨基酸，或长度为150至1,000个氨基酸，或长度为至少200、至少250、至少300、至少350、至少400、至少450、或至少500个氨基酸。在一些实施例中，XTEN多肽的至少90％的氨基酸残基是甘氨酸(G)、丙氨酸(A)、丝氨酸(S)、苏氨酸(T)、谷氨酸盐(E)或脯氨酸(P)。在一些实施例中，XTEN多肽的至少91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的氨基酸残基选自G、A、S、T、E或P。在一些实施例中，XTEN多肽包含G、A、S、T、E或P氨基酸中的至少4种不同类型。在一些实施例中，XTEN多肽的特征在于它包含至少150个氨基酸；XTEN多肽的至少90％的氨基酸残基是G、A、S、T、E或P，并且它包含选自G、A、S、T、E和P的至少4种不同类型的氨基酸，其关于构成XTEN多肽的任何其它非重叠序列基序是基本上随机化的。在一些实施例中，含有XTEN的融合多肽(例如，包含与其缀合的生物活性多肽的融合多肽)包含第一XTEN多肽和第二XTEN多肽。在一些实施例中，第一XTEN中的氨基酸总数和第二XTEN多肽中的氨基酸总数之和为至少300、至少350、至少400、至少500、至少600、至少700、或至少800个氨基酸。

非重叠序列基序

在一些实施例中，本文提供的XTEN多肽包含多个非重叠序列基序或由多个非重叠序列基序形成。在一些实施例中，至少一个非重叠序列基序是重现的(或在XTEN中重复至少两次)，并且其中至少另一个非重叠序列基序是非重现的(或在XTEN内仅发现一次)。在一些实施例中，多个非重叠序列基序包含一组(重现的)非重叠序列基序，其中所述序列基序各自在XTEN中重复至少两次；以及在XTEN内仅出现(或发现)一次的非重叠(非重现的)序列基序。在一些实施例中，每个非重叠序列基序的长度为9至14(或10至14、或11至13)个氨基酸。在一些实施例中，每个非重叠序列基序的长度为12个氨基酸。在一些实施例中，多个非重叠序列基序包含一组非重叠(重现的)序列基序，其中所述序列基序各自在XTEN中重复至少两次；并且长度为9至14个氨基酸。在一些实施例中，该组(重现的)非重叠序列基序包含在本文中通过表1中的SEQ ID NO:182-203和1715-1722鉴定的12聚体序列基序。在一些实施例中，该组(重现的)非重叠序列基序包含在本文中通过表1中的SEQ ID NO:186-189鉴定的12聚体序列基序。在一些实施例中，该组(重现的)非重叠序列基序包含表1中的SEQ ID NO:186-189的12聚体序列基序中的至少两个、至少三个或所有四个。

表1.用于构建XTEN的示例性12聚体序列基序

*表示个别基序序列，当以各种排列一起使用时，所述个别基序序列导致“家族序列”

条形码片段

在一些实施例中，本文提供的多肽包含在被蛋白酶消化后可从多肽中释放的条形码片段(例如，XTEN多肽的第一条形码片段、第二条形码片段或第三条形码片段)。在一些实施例中，条形码片段是XTEN的一部分，其包括在XTEN内仅出现(或发现)一次的(非重现的、非重叠的)序列基序的至少一部分；并且在序列和分子量方面不同于多肽被蛋白酶完全消化后可从多肽中释放的所有其它肽片段。本领域普通技术人员将理解，术语“条形码片段”(或“条形码”或“条形码序列”)可以指通过在多肽内可切割地融合的本文鉴定的XTEN的一部分、或从多肽中释放的所得到的肽片段。

在一些实施例中，条形码片段不包括XTEN多肽的N末端氨基酸或C末端氨基酸。如下文更充分地描述或本文任何地方描述的，在一些实施例中，条形码片段在融合多肽的Glu-C消化后是可释放的(配置为释放的)。在一些实施例中，条形码片段不包括紧邻XTEN多肽中的另一个谷氨酸的谷氨酸。在一些实施例中，条形码片段具有在其C末端处的谷氨酸。本领域普通技术人员将理解，当在XTEN多肽内可切割地融合的时，条形码片段的C末端可以指条形码片段内的“最后一个”(或最C末端)氨基酸残基，即使其它“非条形码”氨基酸残基定位于同一XTEN多肽内的条形码片段的C末端。在一些实施例中，条形码片段具有之前紧为谷氨酸残基的N末端氨基酸。在一些实施例中，在N末端氨基酸之前的谷氨酸残基并不紧邻另一个谷氨酸残基。在一些实施例中，条形码片段不包括在除条形码片段的C末端外的位置处的谷氨酸残基，除非谷氨酸紧随其后为脯氨酸。在一些实施例中，条形码片段定位为距离多肽的N末端或多肽的C末端10至150、或10至125个氨基酸。在一些实施例中，条形码片段定位于距离多肽的N末端300、280、260、250、240、220、200、190、180、170、160、150、140、130、120、110、100、90、80、70、60、50、48、40、36、30、24、20、12或10个氨基酸内或在其位置处，或在前述的任一个之间的范围内的位置处。在一些实施例中，条形码片段定位于多肽的N末端200、150、100或50个氨基酸内。在一些实施例中，条形码片段定位距离多肽的N末端10至200、30至200、40至150、或50至100个氨基酸之间。在一些实施例中，条形码片段定位距离多肽的C末端300、280、260、250、240、220、200、190、180、170、160、150、140、130、120、110、100、90、80、70、60、50、48、40、36、30、24、20、12或10个氨基酸内，或在前述的任一个之间的范围内。在一些实施例中，条形码片段定位于多肽的C末端的200、150、100或50个氨基酸内。在一些实施例中，条形码片段定位距离多肽的C末端10至200、30至200、40至150、或50至100个氨基酸之间。在一些实施例中，条形码片段不包括多肽的N末端氨基酸或C末端氨基酸；不包括紧邻XTEN中的另一个谷氨酸的谷氨酸；具有在其C末端处的谷氨酸；具有之前紧为谷氨酸残基的N末端氨基酸；并且(v)定位为距离多肽的N末端或多肽的C末端10至150、或10至125个氨基酸。在一些实施例中，在N末端氨基酸之前的谷氨酸残基并不紧邻另一个谷氨酸残基。在一些实施例中，条形码片段不包括在除条形码片段的C末端外的位置处的谷氨酸残基，除非谷氨酸紧随其后为脯氨酸。在一些实施例中，对于与生物活性多肽融合的加条形码的XTEN多肽，加条形码的XTEN中含有的至少一个条形码片段(或至少两个条形码片段、或三个条形码片段)定位距离生物活性多肽至少50、75、100、125、150、175、200、225、250、275、300个氨基酸。在一些实施例中，条形码片段的长度为至少4、至少5、至少6、至少7或至少8个氨基酸。在一些实施例中，条形码片段的长度为至少4个氨基酸。在一些实施例中，条形码片段的长度为4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25个氨基酸，或在前述值的任一个之间的范围内。在一些实施例中，条形码片段的长度为4至20、5至15、6至12、或7至10个氨基酸。在一些实施例中，条形码片段选自表2中的SEQ ID NO:8020-8030(BAR001-BAR011)。

表2.在Glu-C消化后可释放的示例性条形码片段

氨基酸序列		SEQ ID NO:
			SPATSGSTPE	BAR001	8020
GSAPATSE	BAR002	8021
			GSAPGTATE	BAR003	8022
GSAPGTE	BAR004	8023
			PATSGPTE	BAR005	8024
SASPE	BAR006	8025
			PATSGSTE	BAR007	8026
GSAPGTSAE	BAR008	8027
			SATSGSE	BAR009	8028
SGPGSTPAE	BAR010	8029
			SGSE	BAR011	8030

在一些实施例中，加条形码的XTEN多肽仅包含一个条形码片段。在一些实施例中，加条形码的XTEN多肽包含一组条形码片段，其包含第一条形码片段，例如上文或本文其它任何地方描述的那些第一条形码片段。在这些实施例中，可以基于氨基酸序列或分子量，将该组条形码序列的每个成员与所有其它条形码序列区别开(其中用于区别不同条形码序列的这些方法将是相关的)。在一些实施例中，该组条形码片段包含第二条形码片段(或进一步的条形码片段)，例如上文或本文其它任何地方描述的那些第二条形码片段。在一些实施例中，该组条形码片段包含第三条形码片段，例如上文或本文其它任何地方描述的那些第三条形码片段。在N末端XTEN多肽内融合的该组条形码片段可以被称为N末端组条形码(“N末端组”)。在C末端XTEN多肽内融合的该组条形码片段可以被称为C末端组条形码(“C末端组”)。在一些实施例中，N末端组包含第一条形码片段和第二条形码片段。在一些实施例中，N末端组还包含第三条形码片段。在一些实施例中，C末端组包含第一条形码片段和第二条形码片段。在一些实施例中，C末端组还包含第三条形码片段。在一些实施例中，第二条形码片段定位于同一组的第一条形码片段的N末端。在一些实施例中，第二条形码片段定位于同一组的第一条形码片段的C末端。在一些实施例中，第三条形码片段定位于第一条形码片段和第二条形码片段两者的N末端。在一些实施例中，第三条形码片段定位于第一条形码片段和第二条形码片段两者的C末端。在一些实施例中，第三条形码片段定位于第一条形码片段和第二条形码片段之间。在一些实施例中，多肽包含一组条形码片段，其包括第一条形码片段、进一步的(第二)条形码片段和至少一个另外的条形码片段，其中该组条形码片段中的每个条形码片段是第二XTEN多肽的一部分，并且在序列和分子量方面不同于多肽被蛋白酶完全消化后可从多肽中释放的所有其它肽片段。

示例性加条形码的XTEN

表3a中示出了13种示例性加条形码的XTEN的氨基酸序列，其含有一个条形码(例如，SEQ ID NO:8002-8003、8005-8009和8013)、或两个条形码(例如，SEQ ID NO:8001、8004、8010和8012)、或三个条形码(例如，SEQ ID NO:8011)。在这13种示例性加条形码的XTEN多肽中，六种(SEQ ID NO:8001-8003、8008-8009和8011)可以在生物活性蛋白质的C末端处与生物活性蛋白质融合，且七种(SEQ ID NO：8004-8007、8010和8012-8013)可以在生物活性蛋白质的N末端处融合。在一些实施例中，XTEN多肽与选自表3a中的SEQ ID NO:8001-8019的序列具有至少90％、至少92％、至少95％、至少98％、至少99％或100％的序列同一性。

表3a.示例性加条形码的XTEN

在一些实施例中，可以通过根据下述标准中的一种或多种，对通用XTEN多肽例如表3b中列出的任何多肽制备一种或多种突变来获得加条形码的XTEN多肽：使XTEN多肽中的序列变化降到最低、使XTEN多肽中的氨基酸组成变化降到最低、基本上维持XTEN多肽的净电荷、基本上维持(或改善)XTEN多肽的低免疫原性、以及基本上维持(或改善)XTEN多肽的药代动力学性质。在一些实施例中，XTEN多肽氨基酸序列与表3b中列出的SEQ ID NO:676-734中的任何一个具有至少90％、至少92％、至少95％、至少98％、至少99％或100％的序列同一性。在一些实施例中，通过来自表3b的相应序列的一种或多种突变(例如，少于10种、少于8种、少于6种、少于5种、少于4种、少于3种、少于2种突变)，来获得与表3b中列出的SEQ IDNO:676-734中的任一个具有至少90％(例如，至少92％、至少95％、至少98％或至少99％)但小于100％的序列同一性的XTEN序列。在一些实施例中，一种或多种突变包含谷氨酸残基的缺失、谷氨酸残基的***、谷氨酸残基的取代、或取代谷氨酸残基、或其任何组合。在一些实施例中，其中XTEN多肽氨基酸序列不同于表3b中列出的SEQ ID NO:676-734中的任何一个，但与之具有至少90％(例如，至少92％、至少95％、至少98％或至少99％)的序列同一性，XTEN多肽氨基酸序列和表3b的相应序列之间的至少80％、至少90％、至少95％、至少97％或约100％的差异涉及谷氨酸残基的缺失、谷氨酸残基的***、谷氨酸残基的取代、或取代谷氨酸残基、或其任何组合。在一些此类实施例中，XTEN多肽氨基酸序列和表3b的相应序列之间的至少80％、至少90％、至少95％、至少97％或约100％的差异涉及谷氨酸残基的取代、或取代谷氨酸残基或两者。如本文使用的，术语“第一氨基酸的取代”指用第一氨基酸残基替换第二氨基酸残基，导致第二氨基酸残基在获得的序列中的取代位置处出现。例如，“谷氨酸的取代”指用谷氨酸(E)残基替换非谷氨酸残基(例如，丝氨酸(S))。如本文使用的，术语“取代第一氨基酸”指用第二氨基酸残基替换第一氨基酸残基，导致第一氨基酸残基在获得的序列中的取代位置处出现。例如，“取代谷氨酸”指用非谷氨酸残基(例如，丝氨酸(S))替换谷氨酸残基。

表3b.用于改造成加条形码的XTEN的示例性通用XTEN

在一些实施例中，为了构建加条形码的XTEN多肽的序列，对表3b的那些XTEN多肽中具有中等长度的XTEN多肽以及比表3b的那些XTEN多肽更长长度的XTEN多肽，例如其中将表1的一个或多个12聚体基序加入表3b的通用XTEN的N末端或C末端的那些XTEN多肽执行氨基酸突变。

可以根据本公开内容使用的通用XTEN多肽氨基酸序列的另外例子公开于美国专利公开号2010/0239554 A1、2010/0323956 A1、2011/0046060 A1、2011/0046061 A1、2011/0077199 A1或2011/0172146 A1，或者国际专利公开号WO 2010091122 A1、WO 2010144502A2、WO 2010144508 A1、WO 2011028228 A1、WO 2011028229 A1、WO 2011028344 A2、WO2014/011819 A2或WO 2015/023891中，所述专利的公开内容各自以引用的方式明确并入本文。

在一些实施例中，在与多肽链的N末端相邻的多肽链内融合的加条形码的XTEN多肽(“N末端XTEN”)可以附着到包含多个聚(His)残基，包括在N末端处的六至八个His残基的His标签，以促进融合多肽的纯化。在一些实施例中，在多肽链的C末端处在多肽链内融合的加条形码的XTEN多肽(“C末端XTEN多肽”)可以包含或附着到在C末端处的序列EPEA，以促进融合多肽的纯化。在一些实施例中，融合多肽包含N末端加条形码的XTEN多肽和C末端加条形码的XTEN多肽两者，其中所述N末端加条形码的XTEN附着到包含多个聚(His)残基，包括在N末端处的六至八个His残基的His标签；并且其中所述C末端加条形码的XTEN多肽附着到在C末端处的序列EPEA，从而促进通过本领域已知的色谱方法将融合多肽纯化例如到至少90％、91％、92％、93％、94％、95％、96％、97％、98％或至少99％纯度，所述色谱法包括但不限于IMAC色谱法、C-tagXL亲和基质和其它此类方法，包括但不限于下文实例节段中描述的那些方法。

蛋白酶消化

如上文或本文其它任何地方描述的条形码片段可以可切割地融合在XTEN多肽内，并且在多肽被蛋白酶消化后可从XTEN多肽中释放(配置为释放的)。在一些实施例中，蛋白酶是Glu-C蛋白酶。在一些实施例中，蛋白酶在谷氨酸残基的C末端侧上切割，所述谷氨酸残基随后并非脯氨酸。本领域普通技术人员将理解，加条形码的XTEN多肽(在其内含有条形码片段的XTEN多肽)被设计为实现蛋白酶消化的高效率、精确度和准确度。例如，本领域普通技术人员将理解XTEN序列中的相邻Glu-Glu(EE)残基可以在Glu-C消化后导致各种切割模式。相应地，当Glu-C蛋白酶用于条形码释放时，加条形码的XTEN多肽或条形码片段可以不含任何Glu-Glu(EE)序列。本领域普通技术人员还将理解如果存在于融合多肽中，则二肽Glu-Pro(EP)序列可以在条形码释放过程期间无法被Glu-C蛋白酶切割。

BPXTEN的结构构型

在一些实施例中，BPXTEN融合蛋白包含单个BP多肽和单个XTEN多肽。此类BPXTEN蛋白可以具有至少下述构型排列，其各自以N末端至C末端取向列出：BP-XTEN；XTEN-BP；BP-S-XTEN；和XTEN-S-BP，其中“S”是如下文阐述的间隔区序列。

在一些实施例中，BPXTEN蛋白包含C末端XTEN多肽以及任选地在XTEN多肽和BP多肽之间的间隔区序列(S)。此类BPXTEN蛋白可以由式I表示(描绘为N末端至C末端)：

(BP)-(S)_x-(XTEN) (I)，

其中BP是如下文所述的生物活性蛋白质；S是具有1至约50个氨基酸残基的间隔区序列，其可以任选地包括BP释放区段(如下文更充分地描述的)；x为0或1；并且XTEN可以是本文所述的任何XTEN多肽。

在一些实施例中，BPXTEN蛋白包含N末端XTEN多肽以及任选地在XTEN多肽和BP蛋白之间的间隔区序列(S)。此类BPXTEN蛋白可以由式II表示(描绘为N末端至C末端)：

(XTEN)-(S)_x-(BP) (II)，

其中BP是如下文所述的生物活性蛋白质；S是具有1至约50个氨基酸残基的间隔区序列，其可以任选地包括BP释放区段(如下文更充分地描述的)；x为0或1；并且XTEN可以是如本文所述的任何XTEN多肽。

在一些实施例中，BPXTEN蛋白包含N末端XTEN多肽和C末端XTEN多肽两者。此类BPXTEN蛋白(例如，图1-2中的XPAT)可以由式III表示：

(XTEN)-(S)_y-(BP)-(S)_z-(XTEN) (III)

其中BP是如下文所述的生物活性蛋白质；S是具有1至约50个氨基酸残基的间隔区序列，其可以任选地包括BP释放区段(如下文更充分地描述的)；y为0或1；z为0或1；并且XTEN可以是如本文所述的任何XTEN多肽。

生物活性多肽

可以融合至一种或多种XTEN多肽(如本文所述)的生物活性蛋白质(BP)，特别是下文公开的那些生物活性蛋白质，包含在本文中通过表4a-4h和表6a-6f鉴定的序列，连同其对应的核酸序列和氨基酸序列是本领域众所周知的。这些BP的描述和序列可在公共数据库中获得，所述数据库例如Chemical Abstracts Services Databases(例如，CASRegistry)、GenBank、The Universal Protein Resource(UniProt)和订阅提供的数据库例如GenSeq(例如，Derwent)。编码BP的多核苷酸序列可以是编码天然BP(例如，全长或成熟)的野生型多核苷酸序列，或者在一些情况下，该序列可以是野生型多核苷酸序列(例如，编码野生型、生物活性蛋白质的多核苷酸)的变体，其中所述多核苷酸的核苷酸序列已例如对于在特定物种中的表达进行优化；或编码野生型蛋白质的变体的多核苷酸，例如定点突变体或等位基因变体。使用本领域已知的方法和/或与本文提供的指导和方法结合，使用野生型或共有cDNA序列或BP的密码子优化变体来产生由本发明考虑的BPXTEN构建体，完全在技术人员的能力内。

用于包括在本文公开的BPXTEN蛋白(例如，包含至少一种BP和至少一种XTEN多肽的融合多肽)中的BP可以包括任何蛋白质，其具有生物学、治疗、预防或诊断目的或功能，或者当施用于人或动物时，可用于介导生物活性或者预防或改善疾病、病症或状况。特别有利的是对于其寻求药代动力学参数增加、增加的溶解度、增加的稳定性、活性掩蔽或一些其它增强的药学性质的BP，或者对于其增加终末半衰期将改善功效、安全性或导致减少给药频率和/或改善患者依从性的那些BP。因此，可以记住各种目标来制备BPXTEN融合蛋白组合物，所述目标包括与未连接至XTEN多肽的BP相比，通过例如增加当施用于人或动物时的体内暴露或BPXTEN保留在治疗窗内的时间长度，改善生物活性化合物的治疗功效。

BP可以是天然的全长蛋白质，或者可以是保留天然蛋白质的至少一部分生物活性的生物活性蛋白质的片段或序列变体。

在一个实施例中，掺入人或动物组合物内的BP可以是重组多肽，其具有对应于自然界中发现的蛋白质的序列。在另一个实施例中，BP可以是天然序列的序列变体、片段、同源物和模拟物，其保留天然BP的至少一部分生物活性。在非限制性例子中，BP可以是与选自表4a-4h的蛋白质序列显示出至少约80％的序列同一性，或者可替代地81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的序列同一性的序列。在进一步的非限制性例子中，BP可以是包含第一结合结构域和第二结合结构域的双特异性序列，其中对肿瘤特异性标记物或靶细胞的抗原具有特异性结合亲和力的第一结合结构域，与表6f中鉴定的抗CD3抗体的配对VL和VH序列显示出至少约80％的序列同一性，或者可替代地81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的序列同一性；并且其中对效应细胞具有特异性结合亲和力的第二结合结构域，与表6a中鉴定的抗靶细胞抗体的配对VL和VH序列显示出至少约80％的序列同一性，或者可替代地81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的序列同一性。在一个实施例中，BPXTEN融合蛋白可以包含与XTEN多肽连接的单个BP蛋白。在另一个实施例中，BPXTEN蛋白可以包含第一BP和相同BP的第二分子，导致包含与一种或多种XTEN多肽连接的两个BP(例如，两个胰高血糖素分子、或两个hGH分子)的融合蛋白。

一般而言，当在体内使用或在体外测定中利用时，BP显示出对给定靶(或给定数目的靶)或另一种所需生物学特性的结合特异性。例如，BP可以是激动剂、受体、配体、拮抗剂、酶、抗体(例如，单特异性或双特异性)或激素。特别感兴趣的是用于或已知可用于疾病或病症的BP，其中所述天然BP具有相对较短的终末半衰期，并且对于其药代动力学参数的增强(其任选地可以通过间隔区序列的切割从融合蛋白中释放)将允许更不频繁的给药或增强的药理效应。还感兴趣的是具有在最小有效剂量或血液浓度(Cmin)与最大耐受剂量或血液浓度(Cmax)之间的窄治疗窗的BP。在这种情况下，与未连接至一种或多种XTEN多肽的BP相比，BP与包含选择的XTEN多肽序列的融合蛋白的连接可以导致这些性质的改善，使得其更可用作治疗剂或预防剂。

葡萄糖调节肽

内分泌和肥胖相关疾病或病症已在大多数发达国家达到流行病的比例，并且在大多数发达国家代表巨大且不断增加的医疗保健负担，其包括影响身体器官、组织和循环***的大量各种状况。特别值得关注的是内分泌和肥胖相关疾病和病症，其中主要是糖尿病，美国的主要死因之一。

葡萄糖稳态和胰岛素应答中的大多数代谢过程由多重肽和激素调控，并且许多此类肽和激素以及其类似物已在代谢疾病和病症的治疗中发现效用。这些肽中的许多趋于彼此高度同源，即使当它们具有相反的生物学功能时。增加葡萄糖的肽以肽激素胰高血糖素为例，而降低葡萄糖的肽包括exendin-4、胰高血糖素样肽1和胰淀素。然而，即使当通过使用小分子药物进行加强时，治疗性肽和/或激素的使用在此类疾病和病症的管理中也取得了有限的成功。特别地，剂量优化对于用于治疗代谢疾病的药物和生物制剂，尤其是具有窄治疗窗的那些药物和生物制剂是重要的。一般而言的激素和涉及于葡萄糖稳态的肽经常具有窄治疗窗。窄治疗窗加上此类激素和肽通常具有短半衰期(其需要频繁给药以便实现临床益处)的事实，导致此类患者的管理中的困难。虽然对治疗性蛋白质的化学修饰例如聚乙二醇化可以修饰其体内清除率和后续血清半衰期，但它需要另外的制造步骤并导致异质的最终产物。另外，已报道了来自长期施用的无法接受的副作用。可替代地，通过Fc结构域与治疗性蛋白质或肽的融合的遗传修饰增加治疗性蛋白质的大小，减少通过肾脏的清除率，并且促进通过FcRn受体的来自溶酶体的再循环。不幸的是，Fc结构域在重组表达期间无法有效折叠，并且趋于形成称为包涵体的不溶性沉淀物。这些包涵体必须溶解，并且功能性蛋白质必须复活；这是耗时、低效且昂贵的过程。

因此，本发明的一个方面是将涉及于葡萄糖稳态、胰岛素抗性和肥胖的肽(统称为“葡萄糖调节肽”)掺入BPXTEN融合蛋白中，以产生在葡萄糖、胰岛素和肥胖病症、疾病和相关状况的治疗中具有效用的组合物。可以与本文公开的XTEN多肽连接以产生BPXTEN蛋白(其尤其包括所有生物活性多肽)的合适的葡萄糖调节肽，增加通过胰腺β细胞的葡萄糖依赖性胰岛素分泌或加强胰岛素的作用。葡萄糖调节肽还可以包括在胰腺β细胞中刺激胰岛素原基因转录的生物活性多肽。此外，葡萄糖调节肽还可以包括减缓胃排空时间和减少食物摄入的生物活性多肽。葡萄糖调节肽还可以包括抑制来自朗格罕氏岛的α细胞的胰高血糖素释放的生物活性多肽。表4a提供了可以由本发明的BPXTEN融合蛋白涵盖的葡萄糖调节肽序列的非限制性列表。本文公开的本发明的BPXTEN组合物的葡萄糖调节肽可以是与选自表4a的氨基酸序列显示出至少约80％的序列同一性(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的序列同一性)的肽。

表4a：葡萄糖调节肽

“肾上腺髓质素”或“ADM”意指人肾上腺髓质素肽激素及其具有成熟ADM的至少一部分生物活性的物种和序列变体。ADM由185个氨基酸的前激素原通过连续的酶促切割和酰胺化生成，导致52个氨基酸的生物活性肽，具有22分钟的测量的血浆半衰期。本发明的含有ADM的融合蛋白可以特别用于糖尿病中，用于对来自胰岛细胞的胰岛素分泌的刺激作用以用于葡萄糖调控，或者用于具有持续性低血压的人或动物中。关于人AM的完整基因组基础结构已得到报道(Ishimitsu等人，1994，Biochem.Biophys.Res.Commun 203:631-639)，并且ADM肽的类似物已得到克隆，如美国专利号6,320,022中所述。

“胰淀素”意指被称为胰淀素的人肽激素、普兰林肽及其具有成熟胰淀素的至少一部分生物活性的物种变化，如美国专利号5,234,906中所述。胰淀素是响应营养素摄入，通过胰腺β细胞与胰岛素共分泌的37个氨基酸的多肽激素(Koda等人，1992，Lancet 339:1179-1180)，并且已报道为调节碳水化合物代谢的几个关键途径，包括将葡萄糖掺入糖原内。本发明的含有胰淀素的融合蛋白可以补充胰岛素的作用，所述胰岛素调控葡萄糖从循环中的消失速率及其被外周组织的摄取。胰淀素类似物已得到克隆，如美国专利号5,686,411和7,271,238中所述。

可以产生保留生物活性的胰淀素模拟物。例如，普兰林肽具有序列KCNTATCATNRLANFLVHSSNNFGPILPPTNVGSNTY(SEQ ID NO:43)，其中来自大鼠胰淀素序列的氨基酸取代人胰淀素序列中的氨基酸。在一个实施例中，本发明考虑了包含序列KCNTATCATX₁RLANFLVHSSNNFGX₂ILX₂X₂TNVGSNTY(SEQ ID NO:44)的胰淀素模拟物的融合蛋白，其中X₁独立地是N或Q并且X₂独立地是S、P或G。在一个实施例中，掺入BPXTEN内的胰淀素模拟物可以具有序列KCNTATCATNRLANFLVHSSNNFGGILGGTNVGSNTY(SEQ ID NO:45)。在另一个实施例中，其中所述胰淀素模拟物用于BPXTEN的C末端处，所述模拟物可以具有序列KCNTATCATNRLANFLVHSSNNFGGILGGTNVGSNTY(NH₂)(SEQ ID NO:46)。

“降钙素”(CT)意指人降钙素蛋白及其具有成熟CT的至少一部分生物活性的物种和序列变体，包括鲑鱼降钙素(“sCT”)。CT是从较大的甲状腺激素原中切割的32个氨基酸的肽，其似乎在神经***和血管***中发挥功能，但也已报道为饱腹感反射的有力激素介质。(在Becker，JCEM，89(4):1512-1525(2004)以及Sexton，Current Medicinal Chemistry 6:1067-1093(1999)中综述)。本发明的含有降钙素的融合蛋白可以特别用于治疗骨质疏松症和用作佩吉特骨病的疗法。合成的降钙素肽已得到产生，如美国专利号5,175,146和5,364,840中所述。

“降钙素基因相关肽”或“CGRP”意指人CGRP肽及其具有成熟CGRP的至少一部分生物活性的物种和序列变体，所述CGRP是肽的降钙素家族的成员，其在人中以两种形式存在：α-CGRP(37个氨基酸的肽)和β-CGRP。CGRP与人胰淀素具有43-46％的序列同一性。本发明的含有CGRP的融合蛋白可以特别用于降低与糖尿病相关的发病率，改善高血糖和胰岛素缺乏，抑制淋巴细胞浸润到胰岛内和保护β细胞免受自身免疫破坏。用于制备合成和重组CGRP的方法在美国专利号5,374,618中进行描述。

“胆囊收缩素”或“CCK”意指人CCK肽及其具有成熟CCK的至少一部分生物活性的物种和序列变体。CCK-58是成熟序列，而首先在人中鉴定的CCK-33氨基酸序列是该肽的主要循环形式。CCK家族还包括8个氨基酸的体内C末端片段(“CCK-8”)，C末端肽CCK(29-33)的五肽胃泌素或CCK-5，以及C末端四肽CCK(30-33)的CCK-4。CCK是胃肠***的肽激素，其负责刺激脂肪和蛋白质的消化。本发明的含有CCK-33和CCK-8的融合蛋白可以特别用于减少在膳食摄入后的循环葡萄糖增加且加强循环胰岛素的增加。CCK-8的类似物已得到制备，如美国专利号5,631,230中所述。

“Exendin-3”意指从珠毒蜥(Heloderma horridum)中分离的葡萄糖调节肽及其具有成熟exendin-3的至少一部分生物活性的序列变体。Exendin-3酰胺是特异性exendin受体拮抗剂，其介导胰腺cAMP的增加以及胰岛素和淀粉酶的释放。本发明的含有Exendin-3的融合蛋白可以特别用于治疗糖尿病和胰岛素抗性病症。序列和用于其测定的方法在美国专利5,4242,86中进行描述。

Exendin-4”意指在钝尾毒蜥美国毒蜥(Heloderma suspectum)的唾液中发现的葡萄糖调节肽及其物种和序列变体，并且包括天然的39个氨基酸的序列HGEGTFTSDLSKQMEEEAVRLFIEYLKNGGPSSGAPPPS(SEQ ID NO:47)以及同源序列和肽模拟物及其变体；例如来自灵长类动物的天然序列和具有成熟exendin-4的至少一部分生物活性的非天然序列。Exendin-4是肠促胰岛素多肽激素，其降低血糖、促进胰岛素分泌、减缓胃排空并改善饱腹感，提供餐后高血糖的显著改善。表4b显示了来自广泛各种物种的序列，而表4c显示了合成GLP-1类似物的列表；所有这些都考虑用于本文所述的BPXTEN蛋白中。

成纤维细胞生长因子21或“FGF-21”意指由FGF-21基因编码的人蛋白质，或其具有成熟FGF-21的至少一部分生物活性的物种和序列变体。FGF-21刺激脂肪细胞中的葡萄糖摄取，但在其它细胞类型中则不是；该效应对于胰岛素活性是累加的。本发明的含有FGF-21的融合蛋白可以特别用于治疗糖尿病，包括引起增加的能量消耗、脂肪利用和脂质***。FGF-21已得到克隆，如美国专利号6,716,626中公开的。

“成纤维细胞生长因子19”或“FGF-19”意指由FGF-19基因编码的人蛋白质，或其具有成熟FGF-19的至少一部分生物活性的物种和序列变体。FGF-19是成纤维细胞生长因子(FGF)家族的蛋白质成员。FGF-19增加瘦素受体的肝脏表达、代谢率，刺激脂肪细胞中的葡萄糖摄取，并且导致肥胖小鼠模型中的重量减轻(Fu等人，2004，Endocrinology 145:2504-2603)。本发明的含有FGF-19的融合蛋白可以特别用于增加代谢率以及逆转饮食和瘦素缺乏型糖尿病。FGF-19已得到克隆且表达，如美国专利申请号20020042367中所述。

“胃泌素”意指人胃泌素肽、截短形式、以及其具有成熟胃泌素的至少一部分生物活性的物种和序列变体。胃泌素主要以三种形式发现：胃泌素-34(“大胃泌素”)；胃泌素-17(“小胃泌素”)；和胃泌素-14(“小促胃液素”)，并且与CCK共享序列同源性。本发明的含有胃泌素的融合蛋白可以特别用于治疗肥胖和糖尿病，以用于葡萄糖调控。胃泌素已得到合成，如美国专利号5,843,446中所述。

“饥饿素”意指诱导饱足感的人激素，或其物种和序列变体，包括天然的、加工的27或28个氨基酸的序列和同源序列。饥饿素水平在餐前增加且在餐后降低，并且可以通过在下丘脑水平上发挥的作用导致食物摄入增加且增加脂肪量。本发明的含有饥饿素的融合蛋白可以特别用作激动剂；例如，在胃肠动力病症中选择性地刺激GI道的动力，加速胃排空，或刺激生长激素的释放。例如美国专利号7,385,026中所述的具有序列取代或截短变体的饥饿素类似物，可以特别用作具有XTEN多肽的融合配偶体，以用作改善葡萄糖稳态的拮抗剂、治疗胰岛素抗性和治疗肥胖。饥饿素的分离和表征已得到报道(Kojima等人，1999，Nature.402:656-660)，并且合成的类似物已通过肽合成进行制备，如美国专利号6,967,237中所述。

“胰高血糖素”意指人胰高血糖素葡萄糖调节肽，或其物种和序列变体，包括天然的29个氨基酸的序列和同源序列；例如来自灵长类动物的天然序列变体，以及具有成熟胰高血糖素的至少一部分生物活性的非天然序列变体。如本文使用的，术语“胰高血糖素”还包括胰高血糖素的肽模拟物。本发明的含有胰高血糖素的融合蛋白可以特别用于增加具有现存肝糖原储备的个体中的血糖水平且维持糖尿病患者中的葡萄糖稳态。胰高血糖素已得到克隆，如美国专利号4,826,763中公开的。

“GLP-1”意指人胰高血糖素样肽-1及其具有成熟GLP-1的至少一部分生物活性的序列变体。术语“GLP-1”包括人GLP-1(1-37)、GLP-1(7-37)和GLP-1(7-36)酰胺。GLP-1刺激胰岛素分泌，但仅在高血糖时期期间。与胰岛素相比，GLP-1的安全性因这一性质和分泌的胰岛素量与高血糖的量级成比例的观察而得到增强。GLP-1(7-37)OH的生物半衰期仅为3至5分钟(美国专利号5,118,666)。本发明的含有GLP-1的融合蛋白可以特别用于治疗糖尿病和胰岛素抗性病症，以用于葡萄糖调控。GLP-1已得到克隆并制备了衍生物，如美国专利号5,118,666中所述。来自广泛各种物种的GLP-1序列的非限制性例子显示于表4b中，而表4c显示了许多合成GLP-1类似物的序列；所有这些都考虑用于本文所述的BPXTEN组合物中。

表4b：作为BP候选者的代表性天然存在的GLP-1同源物

表4c：代表性GLP-1合成类似物

GLP天然序列可以通过下文呈现的几个序列基序进行描述。括号中的字母代表在每个序列位置处可接受的氨基酸：{HVY}{AGISTV}{DEHQ}{AG}{ILMPSTV}{FLY}{DINST}{ADEKNST}{ADENSTV}{LMVY}{ANRSTY}{EHIKNQRST}{AHILMQVY}{LMRT}{ADEGKQS}{ADEGKNQSY}{AEIKLMQR}{AKQRSVY}{{AILMQSTV}{GKQR}{DEKLQR}{FHLVWY}{ILV}{ADEGHIKNQRST}{ADEGNRSTW}{GILVW}{AIKLMQSV}{ADGIKNQRST}{GKRSY}(SEQ ID NO:9399)。另外，GLP-1的合成类似物可以用作XTEN多肽的融合配偶体，以产生具有可用于治疗葡萄糖相关病症的生物活性的BPXTEN蛋白。

“GLP-2”意指人胰高血糖素样肽-2及其具有成熟GLP-2的至少一部分生物活性的序列变体。更特别地，GLP-2是连同GLP-1一起由小肠和大肠中的肠内分泌细胞共分泌的33个氨基酸的肽。

“***1”或“IGF-1”意指人IGF-1蛋白及其具有成熟IGF-1的至少一部分生物活性的物种和序列变体。IGF-1由70个氨基酸组成，并且主要通过肝脏作为内分泌激素产生，以及以旁分泌/自分泌方式在靶组织中产生。本发明的含有IGF-1的融合蛋白可以特别用于治疗糖尿病和胰岛素抗性病症，以用于葡萄糖调控。IGF-1已在大肠杆菌和酵母中得到克隆且表达，如美国专利号5,324,639中所述。

“***2”或“IGF-2”意指人IGF-2蛋白及其具有成熟IGF-2的至少一部分生物活性的物种和序列变体。IGF-2已得到克隆，如Bell等人，1985，Proc Natl AcadSci U S A.82:6450-4中所述。

“胰岛新生相关蛋白”(INGAP)或“胰腺β细胞生长因子”意指人INGAP肽及其具有成熟INGAP的至少一部分生物活性的物种和序列变体。本发明的含有INGAP的融合蛋白可以特别用于治疗或预防糖尿病和胰岛素抗性病症。INGAP已得到克隆且表达，如R Rafaeloff等人，1997，J Clin Invest.99(9):2100–2109中所述。

“垂体中叶素”或“AFP-6”意指人垂体中叶素肽及其具有成熟垂体中叶素的至少一部分生物活性的物种和序列变体。垂体中叶素治疗导致正常和高血压的人或动物中的血压降低，以及胃排空活性的抑制，并且牵涉葡萄糖稳态。本发明的含有垂体中叶素的融合蛋白可以特别用于治疗糖尿病、胰岛素抗性病症和肥胖。垂体中叶素肽和变体已得到克隆，如美国专利号6,965,013中所述。

“瘦素”意指来自任何物种的天然存在的瘦素，以及生物活性的D-同种型、或其片段和序列变体。本发明的含有瘦素的融合蛋白可以特别用于治疗糖尿病，以用于葡萄糖调控、胰岛素抗性病症和肥胖。瘦素已得到克隆，如美国专利号7,112,659中所述，并且瘦素类似物和片段已得到克隆，如美国专利号5,521,283、美国专利号5,532,336、PCT/US96/22308和PCT/US96/01471中所述。

“神经介素”意指肽的神经介素家族，包括神经介素U和S肽，及其序列变体。神经介素U家族中包括的是各种截短或剪接变体，例如FLFHYSKTQKLGKSNVVEELQSPFASQSRGYFLFRPRN(SEQ ID NO:180)。神经介素S家族的示例是具有序列ILQRGSGTAAVDFTKKDHTATWGRPFFLFRPRN(SEQ ID NO:181)的人神经介素S，特别是其酰胺形式。本发明的神经介素融合蛋白可以特别用于治疗肥胖、糖尿病、减少食物摄入以及如本文所述的其它相关状况和病症。

“胃泌酸调节素”或“OXM”意指人胃泌酸调节素及其具有成熟OXM的至少一部分生物活性的物种和序列变体。OXM是在结肠中产生的37个氨基酸的肽，其含有胰高血糖素的29个氨基酸的序列，随后是8个氨基酸的羧基末端延伸。本发明的含有OXM的融合蛋白可以特别用于治疗糖尿病以用于葡萄糖调控、胰岛素抗性病症、肥胖，并且可以用作重量减轻治疗。

“PYY”意指人肽YY多肽及其具有成熟PYY的至少一部分生物活性的物种和序列变体。本发明的含有PPY的融合蛋白可以特别用于治疗糖尿病，以用于葡萄糖调控、胰岛素抗性病症和肥胖。PYY的类似物已得到制备，如美国专利号5,604,203、5,574,010和7,166,575中所述。

“尿皮质素”意指人尿皮质素肽激素及其具有成熟尿皮质素的至少一部分生物活性的序列变体。存在三种人尿皮质素：Ucn-1、Ucn-2和Ucn-3。进一步的尿皮质素和类似物已在美国专利号6,214,797中进行描述。本发明的包含尿皮质素的BPXTEN蛋白还可以特别用于治疗或预防与刺激ACTH释放相关的状况、由于血管舒张效应的高血压、经由除ACTH升高外介导的炎症、高热、食欲障碍、充血性心力衰竭、压力、焦虑和牛皮癣。含有尿皮质素的融合蛋白也可以与利钠肽模块、胰淀素家族和exendin家族或GLP1家族模块组合，以提供增强的心血管益处，例如如通过提供有益的血管舒张效应来治疗CHF。

代谢疾病和心血管蛋白

代谢疾病和心血管疾病在大多数发达国家代表巨大的医疗保健负担，其中心血管疾病仍然是美国和大多数欧洲国家的第一大死亡和残疾原因。代谢疾病和病症包括影响身体器官、组织和循环***的大量多种状况。

血脂异常在糖尿病患者和患有心血管疾病的人或动物中频繁出现；通常特征在于参数例如升高的血浆甘油三酯、低HDL(高密度脂蛋白)胆固醇、正常至升高水平的LDL(低密度脂蛋白)胆固醇和血液中增加水平的小而致密的LDL颗粒。血脂异常和高血压是患有代谢疾病如糖尿病和心血管疾病的人或动物中的冠状动脉事件、肾脏疾病和死亡的发病率增加的主要贡献者。

心血管疾病可以表现为涉及心脏、遍及全身的血管和器官***的许多病症、症状和临床参数变化，尤其包括动脉瘤、心绞痛、动脉粥样硬化、脑血管意外(中风)、脑血管疾病、充血性心力衰竭、冠状动脉疾病、心肌梗塞、心输出量减少和外周血管疾病、高血压、低血压、血液标记物(例如C反应蛋白、BNP和酶如CPK、LDH、SGPT、SGOT)。

大多数代谢过程和许多心血管参数由多重肽和激素(“代谢蛋白质”)调控，并且许多此类肽和激素以及其类似物已在此类疾病和病症的治疗中发现效用。然而，即使当通过使用小分子药物进行加强时，治疗性肽和/或激素的使用在此类疾病和病症的管理中也取得了有限的成功。特别地，剂量优化对于用于治疗代谢疾病的药物和生物制剂，尤其是具有窄治疗窗的那些药物和生物制剂是重要的。一般而言的激素和涉及于葡萄糖稳态的肽经常具有窄治疗窗。窄治疗窗加上此类激素和肽通常具有短半衰期(其需要频繁给药以便实现临床益处)的事实，导致此类患者的管理中的困难。因此，仍然需要在代谢疾病的治疗中具有增加的功效和安全性的治疗剂。

因此，本发明的一个方面是将涉及于或用于治疗代谢和心血管疾病和病症的生物活性代谢蛋白质掺入BPXTEN融合蛋白内，以产生在此类病症、疾病和相关状况的治疗中具有效用的组合物。代谢蛋白质可以包括具有生物学、治疗或预防目的或功能的任何蛋白质，其可用于预防、治疗、介导或改善代谢或心血管疾病、病症或状况。表4d提供了由本发明的BPXTEN融合蛋白涵盖的代谢BP的此类序列的非限制性列表。本发明的BPXTEN组合物的代谢蛋白质可以是这样的蛋白质，其与选自表4d的蛋白质序列显示出至少约80％的序列同一性，或者可替代地81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的序列同一性。

表4d：用于代谢病症和心脏病学的生物活性蛋白质

“抗CD3”意指针对T细胞表面蛋白CD3的单克隆抗体、物种和序列变体及其片段，包括OKT3(也称为莫罗单抗)和人源化抗CD3单克隆抗体(hOKT31(Ala-Ala))(Herold等人，2002，New England Journal of Medicine 346:1692-1698)。本发明的含有抗CD3的融合蛋白可以特别用于减缓新发作的1型糖尿病，包括使用抗CD3作为BPXTEN组合物中的第二治疗性BP的治疗效应物和靶向部分。关于可变区的序列和抗CD3的产生已在美国专利号5,885,573和6,491,916中进行描述。

“IL-1ra”意指人IL-1受体拮抗剂蛋白及其具有成熟IL-1ra的至少一部分生物活性的物种和序列变体，包括序列变体阿那白滞素

阿那白滞素是非糖基化的重组人IL-1ra，并且通过N末端甲硫氨酸的添加而不同于内源性人IL-1ra。阿那白滞素的商业化版本作为

上市。它以与天然IL-1ra和IL-1b相同的亲合力与IL-1受体结合，但并不导致受体激活(信号转导)，所述效应归于IL-1ra上仅存在一个受体结合基序相对于IL-1α和IL-1β上的两个此类基序。阿那白滞素具有153个氨基酸和17.3kD的大小，并且具有大约4-6小时的报道半衰期。

增加的IL-1产生已在患有各种微生物传染病和各种其它疾病的患者中报道。本发明的含有IL-1ra的融合蛋白可以特别用于治疗前述疾病和病症中的任一种。IL-1ra已得到克隆，如美国专利号5,075,222和6,858,409中所述。

“利钠肽”意指心房钠尿肽(ANP)、脑利钠肽(BNP或B型利钠肽)和C型利钠肽(CNP)；其具有成熟配对物利钠肽的至少一部分生物活性的人和非人物种和序列变体两者。有用形式的利钠肽的序列公开于美国专利公开20010027181中。ANP的例子包括人ANP(Kangawa等人，1984，BBRC 118:131)或来自各个物种的ANP，包括猪和大鼠ANP(Kangawa等人，1984，BBRC 121:585)。序列分析揭示了BNP前体原由134个残基组成，并且切割成108个氨基酸的BNP前体。从BNP前体的C末端中切割32个氨基酸的序列导致人BNP(77-108)，其是循环的生理活性形式。32个氨基酸的人BNP涉及二硫键的形成(Sudoh等人，1989，BBRC 159:1420)以及美国专利号5,114,923、5,674,710、5,674,710和5,948,761。含有一种或多种利钠功能的BPXTEN可以用于治疗高血压，利尿诱导，利钠诱导，血管传导扩张或松弛，利钠肽受体(例如NPR-A)结合，来自肾上腺的醛固酮分泌抑制，治疗心血管疾病和病症，减少、停止或逆转心脏事件后或由于充血性心力衰竭导致的心脏重塑，治疗肾脏疾病和病症；治疗或预防缺血性中风，以及治疗哮喘。

“肝素结合生长因子2”或“FGF-2”意指人FGF-2蛋白及其具有成熟配对物的至少一部分生物活性的物种和序列变体。FGF-2已得到克隆，如Burgess，W.H.和Maciag，T.，Ann.Rev.Biochem.，58:575-606(1989)；Coulier，F.等人，1994，Prog.Growth FactorRes.5:1；以及PCT公开WO 87/01728中所述。

“TNF受体”意指关于TNF的人受体及其具有成熟TNFR的至少一部分生物受体活性的物种和序列变体。由人p55 TNF受体的细胞外结构域和TNFβ形成的复合物的X射线晶体结构已得到确定(Banner等人，1993 Cell 73:431，以引用的方式并入本文)。

凝血因子

在血友病中，血液凝固因缺乏某些血浆凝血因子而受到干扰。人因子IX(FIX)是丝氨酸蛋白酶的酶原，所述丝氨酸蛋白酶是凝血级联的内源性途径的重要组分。因子VIIa(FVIIa)蛋白已发现可用于治疗具有针对FVIII或FIX的抑制剂的血友病A或B患者和患有获得性血友病的患者中的出血发作，以及预防具有针对FVIII或FIX的抑制剂的血友病A或B患者中的手术干预或侵入性程序中的出血。因此，仍然需要当作为用于血友病B的预防和/或治疗方案的一部分施用时，具有延长的半衰期和活性保留的因子IX和因子VIIa组合物，以及减少副作用并且可以通过静脉内和皮下途径两者施用的制剂。

用于包括在本发明的BPXTEN中的凝血因子可以包括具有生物学、治疗或预防目的或功能的蛋白质，其可用于预防、治疗、介导或改善血液凝固病症、疾病或缺陷。合适的凝血蛋白包括作为底物、酶或辅因子涉及于凝血级联的生物活性多肽。

表4e提供了由本发明的BPXTEN融合蛋白涵盖的凝血因子序列的非限制性列表。用于包括在本发明的BPXTEN中的凝血因子可以是这样的蛋白质，其与选自表4e的蛋白质序列显示出至少约80％的序列同一性，或者可替代地81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的序列同一性。

表4e：凝血因子多肽序列

“因子IX”(“FIX”)包括人因子IX蛋白及其具有成熟因子IX的至少一部分生物受体活性的物种和序列变体。在一些实施例中，FIX肽是本文描述的任何FIX肽的结构类似物或肽模拟物，包括表4e的序列。在一些实施例中，FIX肽是本文描述的任何FIX肽的结构类似物或肽模拟物，包括表4e的序列。在本发明的一个具体例子中，FIX是人FIX。在另一个实施例中，FIX是来自表4e的多肽序列。成熟因子IX是415个氨基酸残基的单链蛋白质，其含有按重量计大约17％的碳水化合物(Schmidt 2003，Trends Cardiovasc Med，13:39)。

在一些情况下，凝血因子是因子IX、因子IX的序列变体或因子IX部分，例如表4e的示例性序列，以及与其基本上同源的任何蛋白质或多肽，其生物学性质导致因子IX的活性。

“因子VII”(FVII)意指人蛋白质及其具有活化因子VII的至少一部分生物活性的物种和序列变体。因子VII和重组人FVIIa已引入用于血友病患者(具有因子VIII或IX缺陷)中的无法控制的出血，所述血友病患者已发展针对替代凝血因子的抑制剂。重组人因子VIIa具有在治疗血友病患者(具有因子VIII或IX缺陷)中的无法控制的出血中的效用，所述血友病患者包括已发展针对替代凝血因子的抑制剂的那些血友病患者。在一些实施例中，FVII肽是活化形式(FVIIa)、本文描述的任何FVII肽的结构类似物或肽模拟物，包括表4e的序列。因子VII和VIIa已得到克隆，如美国专利号6,806,063和美国专利申请号20080261886中所述。

生长激素蛋白质

“生长激素”或“GH”意指人生长激素蛋白质及其物种和序列变体，并且包括但不限于GH的191个氨基酸的单链人序列。本发明考虑在BPXTEN中包括任何GH同源序列，例如来自灵长类动物、哺乳动物(包括驯养动物)的天然的序列片段，以及非天然序列变体，其保留GH的至少一部分生物活性或生物学功能和/或可用于预防、治疗、调解或改善GH相关疾病、缺陷、病症或状况。非哺乳动物GH序列在文献中充分描述。例如，鱼GH的序列比对可以在Genetics and Molecular Biology 2003 26第295-300页中找到。另外，与人GH同源的天然序列可以通过标准同源性搜索技术如NCBI BLAST找到。

在一个实施例中，掺入人或动物组合物内的GH可以是重组多肽，其具有对应于自然界中发现的蛋白质的序列。在另一个实施例中，GH可以是天然序列的序列变体、片段、同源物或模拟物，其保留天然GH的至少一部分生物活性。表4f提供了由本发明的BPXTEN融合蛋白涵盖的来自广泛各种哺乳动物物种的GH序列的非限制性列表。通过在种类或家族之间改组各个突变而构建的这些GH序列或同源衍生物中的任一种都可以用于本发明的融合蛋白。可以掺入BPXTEN融合蛋白内的GH可以包括这样的蛋白质，其与选自表4f的蛋白质显示出至少约80％的序列同一性，或者可替代地81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的序列同一性。

表4f：来自动物物种的生长激素氨基酸序列

细胞因子

BP可以是细胞因子或者一种或多种细胞因子。细胞因子指由细胞释放的蛋白质(如趋化因子、干扰素、淋巴因子、白细胞介素和肿瘤坏死因子)，其可以影响细胞行为。细胞因子可以由广泛范围的细胞产生，所述细胞包括免疫细胞如巨噬细胞、B淋巴细胞、T淋巴细胞和肥大细胞，以及内皮细胞、成纤维细胞和各种基质细胞。给定的细胞因子可以由多于一种类型的细胞产生。细胞因子可以涉及产生全身或局部免疫调节效应。

某些细胞因子可以充当促炎细胞因子。促炎细胞因子指涉及于诱导或放大炎症反应的细胞因子。促炎细胞因子可以与免疫***的各种细胞如嗜中性粒细胞和白细胞一起工作，以生成免疫应答。某些细胞因子可以充当抗炎细胞因子。抗炎细胞因子指涉及于减少炎症反应的细胞因子。在一些情况下，抗炎细胞因子可以调控促炎细胞因子应答。一些细胞因子可以充当促炎细胞因子和抗炎细胞因子两者。

由本发明的组合物涵盖的细胞因子可以具有在治疗各种治疗或疾病范畴中的效用，包括但不限于癌症、类风湿性关节炎、多发性硬化、重症肌无力、***性红斑狼疮、阿尔茨海默氏病、精神***症、病毒感染(例如慢性丙型肝炎、AIDS)、过敏性哮喘、视网膜神经退行性过程、代谢病症、胰岛素抗性和糖尿病性心肌病。细胞因子在治疗炎症状况和自身免疫状况方面可以是尤其有用的。

可由本公开内容的***和组合物调控的细胞因子的例子包括但不限于淋巴因子、单核因子以及除了人生长激素之外的传统多肽激素。细胞因子中包括的是甲状旁腺激素；甲状腺素；胰岛素；胰岛素原；松弛素；松弛素原；糖蛋白激素，例如促卵泡激素(FSH)、促甲状腺激素(TSH)和促黄体激素(LH)；肝生长因子；成纤维细胞生长因子；催乳素；胎盘催乳素；肿瘤坏死因子-α；苗勒管抑制物质；小鼠促性腺素关连肽；抑制素；激活素；血管内皮生长因子；整联蛋白；促血小板生成素(TPO)；神经生长因子，例如NGF-α；血小板生长因子；转化生长因子(TGF)，例如TGF-α、TGF-β、TGF-β1、TGF-β2和TGF-β3；***-I和-II；***(EPO)；Flt-3L；干细胞因子(SCF)；骨诱导因子；干扰素(IFN)，例如IFN-α、IFN-β、IFN-γ；集落刺激因子(CSF)，例如巨噬细胞-CSF(M-CSF)；粒细胞-巨噬细胞-CSF(GM-CSF)；粒细胞-CSF(G-CSF)；巨噬细胞刺激因子(MSP)；白细胞介素(IL)，例如IL-1、IL-1a、IL-1b、IL-1RA、IL-18、IL-2、IL-3、IL-4、IL-5、IL-6、IL-7、IL-8、IL-9、IL-10、IL-11、IL-12、IL-12b、IL-13、IL-14、IL-15、IL-16、IL-17、IL-20；肿瘤坏死因子，例如CD154、LT-β、TNF-α、TNF-β、4-1BBL、APRIL、CD70、CD153、CD178、GITRL、LIGHT、OX40L、TALL-1、TRAIL、TWEAK、TRANCE；以及其它多肽因子，包括LIF、制瘤素M(OSM)和kit配体(KL)。细胞因子受体指结合细胞因子的受体蛋白。细胞因子受体既可以是膜结合的，也可以是可溶性的。

靶多核苷酸可以编码细胞因子。细胞因子的非限制性例子包括4-1BBL、激活素βA、激活素βB、激活素βC、激活素βE、神经鞘胚素(artemin)(ARTN)、BAFF/BLyS/TNFSF138、BMP10、BMP15、BMP2、BMP3、BMP4、BMP5、BMP6、BMP7、BMP8a、BMP8b、骨形态发生蛋白1(BMP1)、CCL1/TCA3、CCL11、CCL12/MCP-5、CCL13/MCP-4、CCL14、CCL15、CCL16、CCL17/TARC、CCL18、CCL19、CCL2/MCP-1、CCL20、CCL21、CCL22/MDC、CCL23、CCL24、CCL25、CCL26、CCL27、CCL28、CCL3、CCL3L3、CCL4、CCL4L1/LAG-1、CCL5、CCL6、CCL7、CCL8、CCL9、CD153/CD30L/TNFSF8、CD40L/CD154/TNFSF5、CD40LG、CD70、CD70/CD27L/TNFSF7、CLCF1、c-MPL/CD110/TPOR、CNTF、CX3CL1、CXCL1、CXCL10、CXCL11、CXCL12、CXCL13、CXCL14、CXCL15、CXCL16、CXCL17、CXCL2/MIP-2、CXCL3、CXCL4、CXCL5、CXCL6、CXCL7/Ppbp、CXCL9、EDA-A1、FAM19A1、FAM19A2、FAM19A3、FAM19A4、FAM19A5、Fas配体/FASLG/CD95L/CD178、GDF10、GDF11、GDF15、GDF2、GDF3、GDF4、GDF5、GDF6、GDF7、GDF8、GDF9、神经胶质细胞系源性神经营养因子(GDNF)、生长分化因子1(GDF1)、IFNA1、IFNA10、IFNA13、IFNA14、IFNA2、IFNA4、IFNA5/IFNaG、IFNA7、IFNA8、IFNB1、IFNE、IFNG、IFNZ、IFNω/IFNW1、IL11、IL18、IL18BP、IL1A、IL1B、IL1F10、IL1F3/IL1RA、IL1F5、IL1F6、IL1F7、IL1F8、IL1F9、IL1RL2、IL31、IL33、IL6、IL8/CXCL8、抑制素-A、抑制素-B、瘦素、LIF、LTA/TNFB/TNFSF1、LTB/TNFC、神经秩蛋白(NRTN)、OSM、OX-40L/TNFSF4/CD252、persephin(PSPN)、RANKL/OPGL/TNFSF11(CD254)、TL1A/TNFSF15、TNFA、TNF-α/TNFA、TNFSF10/TRAIL/APO-2L(CD253)、TNFSF12、TNFSF13、TNFSF14/LIGHT/CD258、XCL1和XCL2。在一些实施例中，靶基因编码免疫检查点抑制剂。此类免疫检查点抑制剂的非限制性例子包括PD-1、CTLA-4、LAG3、TIM-3、A2AR、B7-H3、B7-H4、BTLA、IDO、KIR和VISTA。在一些实施例中，靶基因编码T细胞受体(TCR)α、β、γ和/或δ链。

在一些情况下，细胞因子可以是趋化因子。趋化因子可以选自包括但不限于以下的组：ARMCX2、BCA-1/CXCL13、CCL11、CCL12/MCP-5、CCL13/MCP-4、CCL15/MIP-5/MIP-1δ、CCL16/HCC-4/NCC4、CCL17/TARC、CCL18/PARC/MIP-4、CCL19/MIP-3b、CCL2/MCP-1、CCL20/MIP-3α/MIP3A、CCL21/6Ckine、CCL22/MDC、CCL23/MIP 3、CCL24/Eotaxin-2/MPIF-2、CCL25/TECK、CCL26/Eotaxin-3、CCL27/CTACK、CCL28、CCL3/Mip1a、CCL4/MIP1B、CCL4L1/LAG-1、CCL5/RANTES、CCL6/C10、CCL8/MCP-2、CCL9、CML5、CXCL1、CXCL10/Crg-2、CXCL12/SDF-1β、CXCL14/BRAK、CXCL15/Lungkine、CXCL16/SR-PSOX、CXCL17、CXCL2/MIP-2、CXCL3/GROγ、CXCL4/PF4、CXCL5、CXCL6/GCP-2、CXCL9/MIG、FAM19A1、FAM19A2、FAM19A3、FAM19A4/TAFA4、FAM19A5、Fractalkine/CX3CL1、I-309/CCL1/TCA-3、IL-8/CXCL8、MCP-3/CCL7、NAP-2/PPBP/CXCL7、XCL2和Armo IL10。

表4g提供了由本发明的BPXTEN融合蛋白涵盖的BP的此类序列的非限制性列表。本发明的BPXTEN组合物的代谢蛋白质可以是这样的蛋白质，其与选自表4g的蛋白质序列显示出至少约80％的序列同一性，或者可替代地81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的序列同一性。

表4g：用于缀合的细胞因子

人IL-1ra是152个氨基酸残基的成熟糖蛋白。本发明的含有IL-1ra的融合蛋白可以特别用于治疗前述疾病和病症中的任一种。IL-1ra已得到克隆，如美国专利号5,075,222和6,858,409中所述。

在一些情况下，BP可以是IL-10。IL-10可以是有效的抗炎细胞因子，其阻遏促炎细胞因子和趋化因子的产生。IL-10可以用于治疗自身免疫性疾病和炎性疾病，例如类风湿性关节炎、多发性硬化、重症肌无力、***性红斑狼疮、阿尔茨海默氏病、精神***症、过敏性哮喘、视网膜神经退行性过程和糖尿病。

在一些情况下，可以修饰IL-10以改善稳定性并降低蛋白酶解降解(prolyticdegradation)。修饰可以是一个或多个酰胺键取代。在一些情况下，IL-10主链内的一个或多个酰胺键可以被取代以实现上述效应。IL-10中的一个或多个酰胺键(-CONH-)可以替换为其是酰胺键合的电子等排体的键合，例如-CH₂NH-、-CH₂S-、-CH₂CH₂-、-CH＝CH-(顺式和反式)、-COCH₂-、-CH(OH)CH₂-或-CH₂SO-。此外，IL-10中的酰胺键合也可以由还原的电子等排体假肽键替换。参见Couder等人(1993)Int.J.Peptide Protein Res.41:181-184，其在此以引用的方式全文并入。

一种或多种酸性氨基酸，包括天冬氨酸，谷氨酸，高谷氨酸，酪氨酸，2,4-二氨基丙酸的烷基、芳基、芳基烷基和杂芳基磺酰胺，鸟氨酸或赖氨酸和四唑取代的烷基氨基酸；以及侧链酰胺残基，例如天冬酰胺，谷氨酰胺，以及天冬酰胺或谷氨酰胺的烷基或芳香族取代衍生物；以及含羟基的氨基酸，包括丝氨酸、苏氨酸、高丝氨酸、2,3-二氨基丙酸、以及丝氨酸或苏氨酸的烷基或芳香族取代衍生物，可以是取代的。

IL-10中的一种或多种疏水性氨基酸，例如丙氨酸、亮氨酸、异亮氨酸、缬氨酸、正亮氨酸、(S)-2-氨基丁酸、(S)-环己基丙氨酸或其它简单的α-氨基酸可以由氨基酸取代，所述氨基酸包括但不限于来自C1-C10碳的脂肪族侧链，包括支链、环状和直链烷基、烯基或炔基取代。

在一些情况下，IL-10中的一种或多种疏水性氨基酸例如可以由芳香族取代的疏水性氨基酸取代，所述氨基酸包括苯丙氨酸、色氨酸、酪氨酸、磺基酪氨酸、联苯丙氨酸、1-萘基丙氨酸、2-萘基丙氨酸、2-苯并噻吩基丙氨酸、3-苯并噻吩基丙氨酸、组氨酸，包括上文列出的芳香族氨基酸的氨基、烷基氨基、二烷基氨基、氮杂、卤代(氟、氯、溴或碘)或烷氧基(C₁-C₄)取代形式，其说明性例子是：2-、3-或4-氨基苯丙氨酸，2-、3-或4-氯苯丙氨酸，2-、3-或4-甲基苯丙氨酸，2-、3-或4-甲氧基苯丙氨酸，5-氨基-、5-氯-、5-甲基-或5-甲氧基色氨酸，2'-、3'-或4'-氨基-，2'-、3'-或4'-氯-，2、3或4-联苯丙氨酸，2'-、3'-或4'-甲基-，2-、3-或4-联苯丙氨酸和2-或3-吡啶基丙氨酸；

IL-10中的一种或多种疏水性氨基酸，例如苯丙氨酸、色氨酸、酪氨酸、磺基酪氨酸、联苯丙氨酸、1-萘基丙氨酸、2-萘基丙氨酸、2-苯并噻吩基丙氨酸、3-苯并噻吩基丙氨酸、组氨酸，包括氨基、烷基氨基、二烷基氨基、氮杂、卤代(氟、氯、溴或碘)或烷氧基可以由芳香族氨基酸取代，所述芳香族氨基酸包括：2-、3-或4-氨基苯丙氨酸，2-、3-或4-氯苯丙氨酸，2-、3-或4-甲基苯丙氨酸，2-、3-或4-甲氧基苯丙氨酸，5-氨基-、5-氯-、5-甲基-或5-甲氧基色氨酸，2'-、3'-或4'-氨基-，2'-、3'-或4'-氯-，2、3或4-联苯丙氨酸，2'-、3'-或4'-甲基-，2-、3-或4-联苯丙氨酸和2-或3-吡啶基丙氨酸。

包含碱性侧链的氨基酸，包括精氨酸、赖氨酸、组氨酸、鸟氨酸、2,3-二氨基丙酸、高精氨酸，包括前述氨基酸的烷基、烯基或芳基取代的衍生物可以是取代的。例子是N-ε-异丙基-赖氨酸、3-(4-四氢吡啶基)-甘氨酸、3-(4-四氢吡啶基)-丙氨酸、N,N-γ,γ'-二乙基-高精氨酸、α-甲基-精氨酸、α-甲基-2,3-二氨基丙酸、α-甲基-组氨酸和α-甲基-鸟氨酸，其中烷基占据α-碳的前-R位置。修饰的IL-10可以包含由以下的任何组合形成的酰胺：烷基、芳香族、杂芳香族、鸟氨酸或2,3-二氨基丙酸、羧酸或许多众所周知的活化衍生物中的任一种，例如酰氯、活性酯、活性azolide和相关衍生物、赖氨酸和鸟氨酸。

在一些情况下，IL-10可以包含一种或多种天然存在的L-氨基酸、合成的L-氨基酸和/或氨基酸的D-对映异构体。IL-10多肽可以包含下述氨基酸中的一种或多种：ω-氨基癸酸、ω-氨基十四烷酸、环己基丙氨酸、α,γ-二氨基丁酸、α,β-二氨基丙酸、δ-氨基戊酸、叔丁基丙氨酸、叔丁基甘氨酸、N-甲基异亮氨酸、苯基甘氨酸、环己基丙氨酸、正亮氨酸、萘基丙氨酸、鸟氨酸、瓜氨酸、4-氯苯丙氨酸、2-氟苯丙氨酸、吡啶基丙氨酸、3-苯并噻吩基丙氨酸、羟脯氨酸、β-丙氨酸、邻氨基苯甲酸、间氨基苯甲酸、对氨基苯甲酸、间氨基甲基苯甲酸、2,3-二氨基丙酸、α-氨基异丁酸、N-甲基甘氨酸(肌氨酸)、3-氟苯丙氨酸、4-氟苯丙氨酸、青霉胺、1,2,3,4-四氢异喹啉-3-羧酸、β-2-噻吩丙氨酸、甲硫氨酸亚砜、高精氨酸、N-乙酰赖氨酸、2,4-二氨基丁酸、ρ-氨基苯丙氨酸、N-甲基缬氨酸、高半胱氨酸、高丝氨酸、ε-氨基己酸、ω-氨基己酸、ω-氨基庚酸、ω-氨基辛酸和2,3-二氨基丁酸。

IL-10可以包含半胱氨酸残基或半胱氨酸，其可以充当经由二硫键合与另一种肽的接头或提供用于IL-10多肽的环化。引入半胱氨酸或半胱氨酸类似物的方法是本领域已知的；参见例如，美国专利号8,067,532。IL-10多肽可以是环化的。其它环化手段包括引入肟接头或羊毛硫氨酸接头；参见例如，美国专利号8,044,175。可以使用和/或引入可以形成环化键的氨基酸(或非氨基酸部分)的任何组合。环化键可以由具有官能团的氨基酸的任何组合(或氨基酸和-(CH₂)_nCO-或-(CH₂)_nC₆H₄-CO-)生成，所述官能团允许引入桥。一些例子是二硫化物、二硫化物模拟物例如-(CH₂)_n-碳桥(carba bridge)、硫缩醛、硫醚桥(胱硫醚或羊毛硫氨酸)以及含有酯和醚的桥。

IL-10可以由N-烷基、芳基或主链交联取代，以构建内酰胺和其它环状结构、C末端羟甲基衍生物、o-修饰的衍生物、N末端修饰的衍生物，包括取代的酰胺例如烷基酰胺和酰肼。在一些情况下，IL-10多肽是逆反类似物。

IL-10可以是天然蛋白质，具有天然IL-10的至少一部分生物活性的IL-10的肽片段或修饰的肽。可以修饰IL-10以改善细胞内摄取。一种此类修饰可以是蛋白质转导结构域的附着。蛋白质转导结构域可以附着到IL-10的C末端。可替代地，蛋白质转导结构域可以附着到IL-10的N末端。蛋白质转导结构域可以经由共价键附着到IL-10。蛋白质转导结构域可以选自表4h中列出的任何序列。

表4h.示例性蛋白质转导结构域

SEQ ID NO	氨基酸序列
		277	YGRKKRRQRRR；
278	RRQRRTSKLMKR
		279	GWTLNSAGYLLGKINLKALAALAKKIL
280	KALAWEAKLAKALAKALAKHLAKALAKALKCEA
		281	RQIKIWFQNRRMKWKK
282	YGRKKRRQRRR
		283	RKKRRQRRR
284	YGRKKRRQRRR
		285	RKKRRQRR
286	YARAAARQARA
		287	THRLPRRRRRR
288	GGRRARRRRRR

人或动物组合物的BP并不限于天然的全长多肽，还包括重组形式以及其生物和/或药理活性变体或片段。例如，技术人员将了解可以在BP中制备各种氨基酸取代以产生变体，而不背离本发明关于BP的生物活性或药理性质的精神。关于多肽序列中的氨基酸的保守取代的例子显示于表5中。然而，在其中与本文公开的特定序列相比，BP的序列同一性小于100％的BPXTEN的实施例中，本发明考虑了关于给定BP的给定氨基酸残基的其它19种天然L-氨基酸中任一种的取代，所述氨基酸残基可以位于BP序列内的任何位置处，包括相邻的氨基酸残基。如果任何特定取代导致生物活性中不希望有的变化，则可以采用替代氨基酸，并且通过本文所述的方法，或使用例如在其内容以引用的方式全文并入的美国专利号5,364,934中阐述的关于保守和非保守突变的任何技术和指南，或使用本领域技术人员一般已知的方法来评估构建体。另外，变体还可以包括例如其中一个或多个氨基酸残基在BP的全长天然氨基酸序列的N末端或C末端处添加或缺失的多肽，其保留了天然肽的至少一部分生物活性。

表5：示例性保守氨基酸取代

原始残基	示例性取代
		Ala(A)	val；leu；ile
Arg(R)	lys；gin；asn
		Asn(N)	gin；his；Iys；arg
Asp(D)	glu
		Cys(C)	ser
Gln(Q)	asn
		Glu(E)	asp
Gly(G)	pro
		His(H)	asn:gin:Iys:arg
xIle(I)	leu；val；met；ala；phe:正亮氨酸
		Leu(L)	正亮氨酸:ile:val；met；ala:phe
Lys(K)	arg:gin:asn
		Met(M)	leu；phe；ile
Phe(F)	leu:val:ile；ala
		Pro(P)	gly
Ser(S)	thr
		Thr(T)	ser
Trp(W)	tyr
		Tyr(Y)	trp:phe:thr:ser
Val(V)	ile；leu；met；phe；ala；正亮氨酸

在一些实施例中，掺入BPXTEN多肽内的BP可以具有这样的序列，其与来自表4a-4h的序列显示出至少约80％的序列同一性，可替代地与来自表4a-4h的序列相比，至少约81％、或约82％、或约83％、或约84％、或约85％、或约86％、或约87％、或约88％、或约89％、或约90％、或约91％、或约92％、或约93％、或约94％、或约95％、或约96％、或约97％、或约98％、或约99％或100％的序列同一性。在一些实施例中，掺入BPXTEN内的BP可以是包含第一结合结构域和第二结合结构域的双特异性序列，其中对肿瘤特异性标记物或靶细胞的抗原具有特异性结合亲和力的第一结合结构域，与选自表6f的抗CD3抗体的配对VL和VH序列显示出至少约80％的序列同一性，或者可替代地81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的序列同一性；并且其中对效应细胞具有特异性结合亲和力的第二结合结构域，与选自表6a的抗靶细胞抗体的配对VL和VH序列显示出至少约80％的序列同一性，或者可替代地81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的序列同一性。可以使用如本文所述的测定或者测量或确定的参数评估前述实施例的BP的活性，并且与相应的天然BP序列相比，保留至少约40％、或约50％、或约55％、或约60％、或约70％、或约80％、或约90％、或约95％或更多活性的那些序列被视为适合于包括在人或动物BPXTEN中。发现保留合适活性水平的BP可以连接到上文或本文其它任何地方描述的一种或多种XTEN多肽。在一个实施例中，发现保留合适活性水平的BP可以连接到一种或多种XTEN多肽，其与来自表3a-3b的序列具有至少约80％的序列同一性(例如，至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％的序列同一性)，导致嵌合融合蛋白。

T细胞接合剂

BPXTEN的另外结构构型式涉及XTEN化蛋白酶激活的T细胞接合剂(“XPAT”或“XPATs”)，其中BP是双特异性抗体(例如，双特异性T细胞接合剂)。在一些实施例中，XPAT组合物包括包含第一结合结构域和第二结合结构域的第一部分、包含释放区段的第二部分和包含XTEN填充部分的第三部分。在一些实施例中，XPAT组合物具有式Ia的构型(描绘为N末端至C末端)：

(第一部分)-(第二部分)-(第三部分)(Ia)

其中第一部分是包含两个scFv的双特异性，其中第一结合结构域对肿瘤特异性标记物或靶细胞的抗原具有特异性结合亲和力，并且第二结合结构域对效应细胞具有特异性结合亲和力；第二部分包含能够被哺乳动物蛋白酶(如下文更充分地描述的，蛋白酶可以是肿瘤特异性或抗原特异性的，从而活化)切割的释放区段(RS)；并且第三部分是填充部分。在前述实施例中，第一部分结合结构域可以按以下次序：(VL-VH)1-(VL-VH)2，其中“1”和“2”分别代表第一结合结构域和第二结合结构域，或(VL-VH)1-(VH-VL)2，或(VH-VL)1-(VL-VH)2，或(VH-VL)1-(VH-VL)2，其中配对的结合结构域通过多肽接头(如下文更充分地描述的)进行连接。在一个实施例中，关于第一部分VL和VH的替代物在表6a-6f中进行鉴定；关于RS的替代物在表8a-8b(如下文更充分地描述的)中所示的序列中进行鉴定；并且关于填充部分的替代物在本文中通过以下进行鉴定：XTEN；白蛋白结合结构域；白蛋白；IgG结合结构域；由脯氨酸、丝氨酸和丙氨酸组成的多肽；脂肪酸；Fc结构域；聚乙二醇(PEG)，PLGA；以及羟乙基淀粉。需要时，填充部分是XTEN，其与由表3a-3b中所示的序列鉴定的序列具有至少约90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的序列同一性。在前述实施例中，组合物是重组融合蛋白。在另一个实施例中，部分通过化学缀合进行连接。

在另一个实施例中，XPAT组合物具有式IIa的构型(描绘为N末端至C末端)：

(第三部分)-(第二部分)-(第一部分)(IIa)

其中第一部分是包含两个scFv的双特异性，其中第一结合结构域对肿瘤特异性标记物或靶细胞的抗原具有特异性结合亲和力，并且第二结合结构域对效应细胞具有特异性结合亲和力；第二部分包含能够被哺乳动物蛋白酶切割的释放区段(RS)；并且第三部分是填充部分。在前述实施例中，第一部分结合结构域可以按次序(VL-VH)1-(VL-VH)2，其中“1”和“2”分别代表第一结合结构域和第二结合结构域，或(VL-VH)1-(VH-VL)2，或(VH-VL)1-(VL-VH)2，或(VH-VL)1-(VH-VL)2，其中配对的结合结构域通过本文下文描述的多肽接头进行连接。在一个实施例中，关于第一部分VL和VH的替代物在表6a-6f中进行鉴定；关于RS的替代物在表8a-8b中所示的序列中进行鉴定；并且关于填充部分的替代物在本文中通过以下进行鉴定：XTEN；白蛋白结合结构域；白蛋白；IgG结合结构域；由脯氨酸、丝氨酸和丙氨酸组成的多肽；脂肪酸；以及Fc结构域。需要时，填充部分是XTEN，其与选自表3a-3b中所示的序列的序列具有至少约90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的序列同一性。在前述实施例中，组合物是重组融合蛋白。在另一个实施例中，部分通过化学缀合进行连接。

在另一个实施例中，XPAT组合物具有式IIIa的构型(描绘为N末端至C末端)：

(第五部分)-(第四部分)-(第一部分)-(第二部分)-(第三部分)

(IIIa)

其中第一部分是包含两个scFv的双特异性，其中第一结合结构域对肿瘤特异性标记物或靶细胞的抗原具有特异性结合亲和力，并且第二结合结构域对效应细胞具有特异性结合亲和力；第二部分包含能够被哺乳动物蛋白酶切割的释放区段(RS)；第三部分是填充部分；第四部分包含能够被哺乳动物蛋白酶切割的释放区段(RS)，其可以与第二部分是相同的或不同的；并且第五部分是填充部分，其可以与第三部分是相同的或可以是不同的。在前述实施例中，第一部分结合结构域可以按次序(VL-VH)1-(VL-VH)2，其中“1”和“2”分别代表第一结合结构域和第二结合结构域，或(VL-VH)1-(VH-VL)2，或(VH-VL)1-(VL-VH)2，或(VH-VL)1-(VH-VL)2，其中配对的结合结构域通过本文下文描述的多肽接头进行连接。在前述实施例中，关于RS的替代物在表8a-8b中阐述的序列中进行鉴定。在前述实施例中，关于填充部分的替代物在本文中通过以下进行鉴定：XTEN；白蛋白结合结构域；白蛋白；IgG结合结构域；由脯氨酸、丝氨酸和丙氨酸组成的多肽；脂肪酸；以及Fc结构域。需要时，填充部分是XTEN，其与选自表3a-3b中所示的序列的序列具有至少约90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的序列同一性。在前述实施例中，组合物是重组融合蛋白。在另一个实施例中，部分通过化学缀合进行连接。

基于其设计和特异性组分，人或动物组合物有利地提供双特异性治疗剂，一旦所述双特异性治疗剂被与靶组织或因疾病而致使不健康的组织相关发现的蛋白酶切割，它们就具有更高的选择性，更长的半衰期，并导致更小的毒性和更少的副作用，其中所述人或动物组合物与本领域已知的双特异性抗体组合物相比具有改善的治疗指数。此类组合物可用于治疗某些疾病，包括但不限于如本文所述的癌症。不限于任何机制理论，技术人员将了解本发明的组合物通过机制的组合以非特异性相互作用来实现这种减少，所述机制包括通过将结合结构域定位到庞大的XTEN分子的空间位阻，其中通过栓系到组合物，XTEN多肽的柔性、非结构化特性能够在结合结构域周围振荡且移动，提供在组合物和组织或细胞之间的阻断，以及由于与个别结合结构域的大小相比的大分子质量(由XTEN多肽的实际分子量、以及由于非结构化XTEN多肽的大流体动力学半径两者贡献的)，提供完整组合物穿透细胞或组织的能力的减少。然而，这样设计组合物，其中当接近携带或分泌能够切割RS的蛋白酶的靶组织或细胞时，或当结合结构域已结合配体时内化到靶细胞或组织内时，双特异性结合结构域通过蛋白酶的作用从XTEN的大部分中释放，去除空间位阻屏障，并且更自由地发挥其药理效应。人或动物组合物可用于治疗其中需要将治疗性双特异性抗体组合物选择性递送至细胞、组织或器官的各种状况。在一个实施例中，靶组织是癌症，其可以是白血病、淋巴瘤或者器官或***的肿瘤。

结合结构域

本公开内容考虑了使用单链结合结构域，例如但不限于Fv、Fab、Fab’、Fab’-SH、F(ab’)₂、线性抗体、单结构域抗体、单结构域骆驼科抗体、单链抗体分子(scFv)、以及能够结合与效应细胞以及患病组织或细胞的抗原相关的配体或受体的双抗体，所述患病组织或细胞是癌症、肿瘤或其它恶性组织。在一些实施例中，双特异性抗体包含对靶细胞标记物具有结合特异性的第一结合结构域、以及对效应细胞抗原具有结合特异性的第二结合结构域。在一些实施例中，第一结合结构域和第二结合结构域可以是非抗体支架，例如anticalin、adnectin、fynomer、affilin、亲和体、centyrins、DARPin。在其它实施例中，关于肿瘤细胞靶的结合结构域是T细胞受体的可变结构域，其已改造为结合装载有蛋白质的肽片段的MHC，所述蛋白质由肿瘤细胞过表达。在一些实施例中，伴随以下考虑设计XPAT组合物：靶组织蛋白酶的定位以及相同蛋白酶在不预期靶向的健康组织中的存在，以及靶配体在健康组织中的存在，但在不健康的靶组织中的更大存在，以便提供宽治疗窗。“治疗窗”指关于给定治疗组合物的最小有效剂量和最大耐受剂量之间的最大差异。为了帮助实现宽治疗窗，组合物的第一部分的结合结构域通过填充部分(例如，XTEN多肽)的接近进行屏蔽，其中与已被哺乳动物蛋白酶切割的组合物相比，完整组合物对于配体之一或两者的结合亲和力是减少的，从而将第一部分从填充部分的屏蔽效应中释放。

关于单链结合结构域，如本领域充分确立的，Fv是含有完整抗原识别和结合位点的最小抗体片段，由以非共价结合的一个重链可变结构域(VH)和一个轻链可变结构域(VL)的二聚体组成。在每条VH和VL链内的是三个互补决定区(CDR)，其相互作用以限定VH-VL二聚体的表面上的抗原结合位点；结合结构域的六个CDR对抗体或单链结合结构域赋予抗原结合特异性。在一些情况下，产生这样的scFv，其中在每个结合结构域内各自具有3、4或5个CHR。侧接CDR的构架序列具有跨越物种在天然免疫球蛋白中基本上保守的三级结构，并且构架残基(FR)作用于将CDR保持在其适当的取向上。恒定结构域不是结合功能所需的，但可以帮助稳定VH-VL相互作用。在一些实施例中，多肽结合位点的结构域可以是相同或不同免疫球蛋白的一对VH-VL、VH-VH或VL-VL结构域，然而一般优选使用来自亲本抗体的分别VH和VL链来制备单链结合结构域。多肽链内的VH和VL结构域的次序对于本发明并非限制性的；所给出的结构域的次序通常可以颠倒，而不丧失任何功能，但应理解VH和VL结构域这样排列，使得抗原结合位点可以正确地折叠。因此，人或动物组合物的双特异性scFv实施例的单链结合结构域可以按以下次序：(VL-VH)¹-(VL-VH)²，其中“1”和“2”分别代表第一结合结构域和第二结合结构域，或(VL-VH)¹-(VH-VL)²，或(VH-VL)¹-(VL-VH)²，或(VH-VL)¹-(VH-VL)²，其中配对的结合结构域通过如本文下文所述的多肽接头进行连接。

因此，本文公开的示例性双特异性单链抗体中的结合结构域的排列可以是其中第一结合结构域定位于第二结合结构域的C末端的排列。V链的排列可以是VH(靶细胞表面抗原)-VL(靶细胞表面抗原)-VL(效应细胞抗原)-VH(效应细胞抗原)、VH(靶细胞表面抗原)-VL(靶细胞表面抗原)-VH(效应细胞抗原)-VL(效应细胞抗原)、VL(靶细胞表面抗原)-VH(靶细胞表面抗原)-VL(效应细胞抗原)-VH(效应细胞抗原)或VL(靶细胞表面抗原)-VH(靶细胞表面抗原)-VH(效应细胞抗原)-VL(效应细胞抗原)。对于其中第二结合结构域定位于第一结合结构域的N末端的排列，下述次序是可能的：VH(效应细胞抗原)-VL(效应细胞抗原)-VL(靶细胞表面抗原)-VH(靶细胞表面抗原)、VH(效应细胞抗原)-VL(效应细胞抗原)-VH(靶细胞表面抗原)-VL(靶细胞表面抗原)、VL(效应细胞抗原)-VH(效应细胞抗原)-VL(靶细胞表面抗原)-VH(靶细胞表面抗原)或VL(效应细胞抗原)-VH(效应细胞抗原)-VH(靶细胞表面抗原)-VL(靶细胞表面抗原)。如本文使用的，“其N末端”或“其C末端”及其语法变体表示在一级氨基酸序列内的相对定位，而不是置于双特异性单链抗体的绝对N末端或C末端处。因此，作为非限制性例子，“定位于第二结合结构域的C末端”的第一结合结构域表示第一结合定位于双特异性单链抗体内的第二结合结构域的羧基侧上，并不排除另外的序列例如His-标签或另一种化合物例如放射性同位素定位于双特异性单链抗体的C末端处的可能性。

在一个实施例中，嵌合多肽组装组合物包括包含第一结合结构域和第二结合结构域的第一部分，其中所述结合结构域各自是scFv，并且其中每个scFv包含一个VL和一个VH。在另一个实施例中，嵌合多肽组装组合物包括包含第一结合结构域和第二结合结构域的第一部分，其中所述结合结构域为双抗体构型，并且其中每个结构域包含一个VL结构域和一个VH。在前述实施例中，第一结构域对肿瘤特异性标记物或靶细胞的抗原具有结合特异性，并且第二结合结构域对效应细胞抗原具有结合特异性。在前述的一个实施例中，效应细胞抗原在效应细胞之上或之内表达。在一个实施例中，效应细胞抗原在T细胞例如CD4+、CD8+或天然杀伤(NK)细胞上表达。在另一个实施例中，效应细胞抗原在B细胞、肥大细胞、树突状细胞或髓样细胞上表达。在一个实施例中，效应细胞抗原是CD3，细胞毒性T细胞的分化簇3抗原。在前述的一些实施例中，第一结合结构域显示出对与肿瘤细胞相关的肿瘤特异性标记物的结合特异性。在一个实施例中，结合结构域对肿瘤特异性标记物具有结合亲和力，其中所述肿瘤细胞可以包括但不限于来自以下的细胞：基质细胞肿瘤、成纤维细胞肿瘤、肌成纤维细胞肿瘤、神经胶质细胞肿瘤、上皮细胞肿瘤、脂肪细胞肿瘤、免疫细胞肿瘤、血管细胞肿瘤和平滑肌细胞肿瘤。在一个实施例中，肿瘤特异性标记物或靶细胞的抗原可以是α4整联蛋白、Ang2、B7-H3、B7-H6、CEACAM5、cMET、CTLA4、FOLR1、EpCAM、CCR5、CD19、HER2、HER2neu、HER3、HER4、HER1(EGFR)、PD-L1、PSMA、CEA、TROP-2、MUC1(粘蛋白)、MUC-2、MUC3、MUC4、MUC5AC、MUC5B、MUC7、MUC16βhCG、Lewis-Y、CD20、CD33、CD38、CD30、CD56(NCAM)、CD133、神经节苷脂GD3；9-O-乙酰基-GD3、GM2、Globo H、岩藻糖基GM1、GD2、碳酸酐酶IX、CD44v6、Nectin-4、Sonic Hedgehog(Shh)、Wue-1、浆细胞抗原1、黑色素瘤硫酸软骨素蛋白聚糖(MCSP)、CCR8、***6-跨膜上皮抗原(STEAP)、间皮素、A33抗原、***干细胞抗原(PSCA)、Ly-6、桥粒芯蛋白4、胎儿乙酰胆碱受体(fnAChR)、CD25、癌抗原19-9(CA19-9)、癌抗原125(CA-125)、苗勒管抑制物质受体II型(MISIIR)、唾液酸化Tn抗原(s TN)、成纤维细胞活化抗原(FAP)、内皮唾液酸蛋白(CD248)、表皮生长因子受体变体III(EGFRvIII))、肿瘤相关抗原L6(TAL6)、SAS、CD63、TAG72、汤姆森-弗里登赖希抗原(Thomsen-Friedenreichantigen)(TF抗原)、***I受体(IGF-IR)、Cora抗原、CD7、CD22、CD70、CD79a、CD79b、G250、MT-MMP、F19抗原、CA19-9、CA-125、甲胎蛋白(AFP)、VEGFR1、VEGFR2、DLK1、SP17、ROR1和EphA2。在一个实施例中，显示出对CD70的结合亲和力的第一结合结构域是其天然配体CD27，而不是抗体片段。在另一个实施例中，显示出对B7-H6的结合亲和力的第一结合结构域是其天然配体Nkp30，而不是抗体片段。

本发明的XPAT组合物的scFv实施例包含第一结合结构域和第二结合结构域，其中VL和VH结构域分别源自对肿瘤特异性标记物或靶细胞的抗原和效应细胞抗原具有结合特异性的单克隆抗体。在其它情况下，第一结合结构域和第二结合结构域各自分别包含源自单克隆抗体的六个CDR，所述单克隆抗体对靶细胞标记物例如肿瘤特异性标记物和效应细胞抗原具有结合特异性。在其它实施例中，人或动物组合物的第一部分的第一结合结构域和第二结合结构域可以具有在每个结合结构域内的3、4或5个CHR。在其它实施例中，本发明的实施例包含第一结合结构域和第二结合结构域，其中每种包含CDR-H1区、CDR-H2区、CDR-H3区、CDR-L1区、CDR-L2区和CDR-H3区，其中所述区域各自分别源自能够结合肿瘤特异性标记物或靶细胞的抗原和效应细胞抗原的单克隆抗体。在一个实施例中，本发明提供了嵌合多肽组装组合物，其中第二结合结构域包含源自能够结合人CD3的单克隆抗体的VH和VL区。在另一个实施例中，本发明提供了嵌合多肽组装组合物，其中scFv第二结合结构域包含VH和VL区，其中每个VH和VL区与表6a中所示的抗CD3抗体的配对VL和VH序列显示出至少约90％、或91％、或92％、或93％、或94％、或95％、或96％、或97％、或98％、或99％的同一性或者与之相同。在另一个方面，本发明的第二结构域实施例包含CDR-H1区、CDR-H2区、CDR-H3区、CDR-L1区、CDR-L2区和CDR-H3区，其中所述区域各自源自如表6a中所示的单克隆抗体。在前述实施例中，VH和/或VL结构域可以配置为scFv、双抗体、单结构域抗体或单结构域骆驼科抗体。

在其它实施例中，人或动物组合物的第二结构域源自如表6a中所示的抗CD3抗体。在前述的一个实施例中，人或动物组合物的第二结构域包含如表6a中所示的抗CD3抗体的配对VL和VH区序列。在另一个实施例中，本发明提供了嵌合多肽组装组合物，其中第二结合结构域包含VH和VL区，其中每个VH和VL区与表6a的huUCHT1抗CD3抗体的配对VL和VH序列显示出至少约90％、或91％、或92％、或93％、或94％、或95％、或96％、或97％、或98％、或99％的同一性或者与之相同。在前述实施例中，VH和/或VL结构域可以配置为scFv、双抗体的一部分、单结构域抗体或单结构域骆驼科抗体。

在其它实施例中，组合物的第一结构域的scFv源自如表6f中所示的抗肿瘤细胞抗体。在另一个实施例中，本发明提供了嵌合多肽组装组合物，其中第一结合结构域包含VH和VL区，其中每个VH和VL区与表6f中所示的抗肿瘤细胞抗体的配对VL和VH序列显示出至少约90％、或91％、或92％、或93％、或94％、或95％、或96％、或97％、或98％、或99％的同一性或者与之相同。在前述的一个实施例中，所述组合物的第一结构域包含本文公开的抗肿瘤细胞抗体的配对VL和VH区序列。在前述实施例中，VH和/或VL结构域可以配置为scFv、双抗体的一部分、单结构域抗体或单结构域骆驼科抗体。

在另一个实施例中，嵌合多肽组装组合物包括包含第一结合结构域和第二结合结构域的第一部分，其中所述结合结构域为双抗体构型，并且所述结合结构域各自包含一个VL结构域和一个VH结构域。在一个实施例中，本发明的双抗体实施例包含第一结合结构域和第二结合结构域，其中VL和VH结构域分别源自对肿瘤特异性标记物或靶细胞的抗原和效应细胞抗原具有结合特异性的单克隆抗体。在另一个实施例中，本发明的双抗体实施例包含第一结合结构域和第二结合结构域，其中每种包含CDR-H1区、CDR-H2区、CDR-H3区、CDR-L1区、CDR-L2区和CDR-H3区，其中所述区域各自分别源自能够结合肿瘤特异性标记物或靶细胞抗原和效应细胞抗原的单克隆抗体。设想本发明的双抗体实施例包含第一结合结构域和第二结合结构域，其中VL和VH结构域分别源自对肿瘤特异性标记物或靶细胞抗原和效应细胞抗原具有结合特异性的单克隆抗体。在另一个方面，本发明的双抗体实施例包含第一结合结构域和第二结合结构域，其中每种包含CDR-H1区、CDR-H2区、CDR-H3区、CDR-L1区、CDR-L2区和CDR-H3区，其中所述区域各自分别源自能够结合肿瘤特异性标记物或靶细胞抗原和效应细胞抗原的单克隆抗体。在一个实施例中，本发明提供了嵌合多肽组装组合物，其中双抗体第二结合结构域包含源自能够结合人CD3的单克隆抗体的配对VH和VL区。在另一个实施例中，本发明提供了嵌合多肽组装组合物，其中双抗体第二结合结构域包含VH和VL区，其中每个VH和VL区与如表6a中所示的抗CD3抗体的配对VL和VH序列显示出至少约90％、或91％、或92％、或93％、或94％、或95％、或96％、或97％、或98％、或99％的同一性或者与之相同。在另一个实施例中，本发明提供了嵌合多肽组装组合物，其中双抗体第二结合结构域包含VH和VL区，其中每个VH和VL区与如表6a中所示的huUCHT1抗体的VL和VH序列显示出至少约90％、或91％、或92％、或93％、或94％、或95％、或96％、或97％、或98％、或99％的同一性或者与之相同。在其它实施例中，组合物的双抗体第二结构域源自本文所述的抗CD3抗体。在另一个实施例中，本发明提供了嵌合多肽组装组合物，其中双抗体第一结合结构域包含VH和VL区，其中每个VH和VL区与如表6f中所示的抗肿瘤细胞抗体的VL和VH序列显示出至少约90％、或91％、或92％、或93％、或94％、或95％、或96％、或97％、或98％、或99％的同一性或者与之相同。在其它实施例中，组合物的双抗体第一结构域源自本文所述的抗肿瘤细胞抗体。

用于人或动物组合物的VL和VH和CDR结构域可以源自其的治疗性单克隆抗体是本领域已知的。关于上文抗体的序列可以得自可公开获得的数据库、专利或参考文献。另外，单克隆抗体以及来自抗CD3抗体的VH和VL序列的非限制性例子在表6a中阐述，并且针对癌症、肿瘤或靶细胞标记物的单克隆抗体以及VH和VL序列的非限制性例子在表6f中阐述。

抗CD3结合结构域

在一些实施例中，本发明提供了嵌合多肽组装组合物，其包含对T细胞具有结合亲和力的第一部分的结合结构域。在一个实施例中，第二部分的结合结构域包含源自针对CD3抗原的单克隆抗体的VL和VH。在另一个实施例中，结合结构域包含源自针对CD3ε和CD3δ的单克隆抗体的VL和VH。针对CD3 neu的单克隆抗体是本领域已知的。针对CD3的单克隆抗体的VL和VH序列的示例性非限制性例子在表6a中阐述。在一个实施例中，本发明提供了嵌合多肽组装，其包含对CD3具有结合亲和力的结合结构域，所述结合结构域包含表6a中所示的抗CD3 VL和VH序列。在另一个实施例中，本发明提供了嵌合多肽组装，其包含对CD3ε具有结合亲和力的第一部分的结合结构域，所述结合结构域包含表6a中所示的抗CD3εVL和VH序列。在另一个实施例中，本发明提供了嵌合多肽组装组合物，其中第一部分的scFv第二结合结构域包含VH和VL区，其中每个VH和VL区与表6a的huUCHT1抗CD3抗体的配对VL和VH序列显示出至少约90％、或91％、或92％、或93％、或94％、或95％、或96％、或97％、或98％、或99％的同一性或者与之相同。在另一个实施例中，本发明提供了嵌合多肽组装组合物，其包含对CD3具有结合亲和力的结合结构域，所述结合结构域包含CDR-L1区、CDR-L2区、CDR-L3区、CDR-H1区、CDR-H2区和CDR-H3区，其中每种源自表6a中所示的分别的抗CD3 VL和VH序列。在另一个实施例中，本发明提供了嵌合多肽组装组合物，其包含对CD3具有结合亲和力的结合结构域，所述结合结构域包含CDR-L1区、CDR-L2区、CDR-L3区、CDR-H1区、CDR-H2区和CDR-H3区，其中所述CDR序列是RASQDIRNYLN(SEQ ID NO:8034)、YTSRLES(SEQ ID NO:8035)、QQGNTLPWT(SEQ ID NO:8036)、GYSFTGYTMN(SEQ ID NO:8037)、LINPYKGVST(SEQ ID NO:8038)、和SGYYGDSDWYFDV(SEQ ID NO:8039)。

CD3复合物是一组细胞表面分子，其与T细胞抗原受体(TCR)结合，并且在TCR的细胞表面表达和信号传导转导级联中发挥功能，当肽:MHC配体与TCR结合时，所述信号传导转导级联起始。通常，当抗原与T细胞受体结合时，CD3通过细胞膜向T细胞内的细胞质发送信号。这导致T细胞的活化，所述T细胞快速***以产生致敏的新的T细胞，以攻击TCR暴露于其的特定抗原。CD3复合物包含CD3ε分子，连同四种其它膜结合多肽(CD3-γ、-δ、-ζ和-β)。在人中，CD3-ε由染色体11上的CD3E基因编码。每条CD3链的细胞内结构域含有基于免疫受体酪氨酸的激活基序(ITAM)，其充当在T细胞受体接合后的细胞内信号转导机制的成核点。

许多治疗策略通过靶向TCR信号传导来调节T细胞免疫，特别是临床上广泛用于免疫抑制方案中的抗人CD3单克隆抗体(mAb)。CD3特异性小鼠mAb OKT3是批准用于人中的首个mAb(Sgro，C.Side-effects of a monoclonal antibody，muromonab CD3/orthocloneOKT3:bibliographic review.Toxicology 105:23-29，1995)，并且在临床上广泛用作移植(Chatenoud，Clin.Transplant 7:422-430,(1993)；Chatenoud，Nat.Rev.Immunol.3:123-132(2003)；Kumar，Transplant.Proc.30:1351-1352(1998))、1型糖尿病和牛皮癣中的免疫抑制剂。重要的是，抗CD3 mAb可以诱导部分T细胞信号传导和克隆无能(Smith，JA，Nonmitogenic Anti-CD3 Monoclonal Antibodies Deliver a Partial T Cell ReceptorSignal and Induce Clonal Anergy J.Exp.Med.185:1413-1422(1997))。OKT3在文献中已描述为T细胞有丝***原以及有力的T细胞杀伤剂(Wong，JT.The mechanism of anti-CD3monoclonal antibodies.Mediation of cytolysis by inter-T cellbridging.Transplantation 50:683-689(1990))。特别地，Wong的研究证实了，通过桥接CD3 T细胞和靶细胞，可以实现靶的杀伤，并且对于二价抗CD3MAB，既不需要FcR介导的ADCC也不需要补体固定来裂解靶细胞。

OKT3显示出以时间依赖性方式的促有丝***和T细胞杀伤活性；在导致细胞因子释放的T细胞的早期激活之后，在进一步施用后，OKT3随后阻断了所有已知的T细胞功能。正是由于T细胞功能的这种以后阻断，已发现OKT3在用于减少或甚至消除同种异体移植组织排斥的治疗方案中作为免疫抑制剂的此类广泛应用。对于CD3分子特异性的其它抗体公开于Tunnacliffe，Int.Immunol.1(1989)，546-50中，WO2005/118635和WO2007/033230描述了抗人单克隆CD3ε抗体，美国专利5,821,337描述了鼠抗CD3单克隆Ab UCHT1(muxCD3，Shalaby等人，J.Exp.Med.175，217-225(1992)的VL和VH序列以及这种抗体的人源化变体(hu UCHT1)，并且美国专利申请20120034228公开了能够结合人和非黑猩猩灵长类动物CD3ε链的表位的结合结构域。

表6a：抗CD3单克隆抗体和序列

*加下划线的序列(如果存在的话)是在VL和VH内的CDR

CD3细胞抗原结合片段

在另一个方面，本公开内容涉及对于效应细胞抗原具有特异性结合亲和力的抗原结合片段(AF2)，其可以掺入本文所述的任何人或动物组合物实施例内。在一些情况下，效应细胞抗原在效应细胞的表面上表达，所述效应细胞选自浆细胞、T细胞、B细胞、细胞因子诱导的杀伤细胞(CIK细胞)、肥大细胞、树突状细胞、调节性T细胞(RegT细胞)、辅助性T细胞、髓样细胞和NK细胞。

结合效应细胞抗原的各种AF2具有用于以组合物形式与抗原结合片段配对的特定效用，所述抗原结合片段对与患病细胞或组织相关的EGFR抗原具有结合亲和力，以便实现患病细胞或组织的细胞杀伤。结合特异性可以通过互补决定区或CDR，例如轻链CDR或重链CDR来确定。在许多情况下，结合特异性由轻链CDR和重链CDR确定。重链CDR和轻链CDR的给定组合提供了给定的结合口袋，与其它参考抗原相比，所述结合口袋针对效应细胞抗原赋予更大亲和力和/或特异性。具有通过短的柔性肽接头连接到对效应细胞抗原具有结合特异性的第二抗原结合片段(AF2)的针对EGFR的第一抗原结合片段(AF1)的所得到的双特异性组合物是双特异性的，其中每个抗原结合片段对其分别的配体具有特异性结合亲和力。技术人员将理解，在此类组合物中，针对疾病组织的EGFR的AF1与针对效应细胞标记物的AF2组合使用，以便使效应细胞紧密接近疾病组织的细胞，以便实现患病组织的细胞的细胞裂解。进一步地，将AF1和AF2掺入包含可切割释放区段和XTEN的特别设计的多肽内，以便对组合物赋予前药特性，当接近具有能够在释放区段序列中的一个或多个位置中切割释放区段的蛋白酶的疾病组织时，所述组合物在释放区段的切割后，通过释放融合的AF1和AF2而变得激活。

在一个实施例中，人或动物组合物的AF2对于T细胞的表面上表达的效应细胞抗原具有结合亲和力。在另一个实施例中，人或动物组合物的AF2对于CD3具有结合亲和力。在另一个实施例中，人或动物组合物的AF2对于CD3复合物的成员具有结合亲和力，所述成员包括以个别形式或独立组合形式的CD3复合物的所有已知CD3亚基；例如，CD3ε、CD3δ、CD3γ、CD3ζ、CD3α和CD3β。在另一个实施例中，AF2对于CD3ε、CD3δ、CD3γ、CD3ζ、CD3α或CD3β具有结合亲和力。

由本公开内容考虑的抗原结合片段的起源可以源自天然存在的抗体或其片段、非天然存在的抗体或其片段、人源化抗体或其片段、合成抗体或其片段、杂合抗体或其片段、或者改造抗体或其片段。用于生成关于给定靶标记物的抗体的方法是本领域众所周知的。例如，单克隆抗体可以使用首先由Kohler等人，Nature，256:495(1975)描述的杂交瘤方法进行制备，或者可以通过重组DNA方法(美国专利号4,816,567)进行制备。抗体及其片段、抗体重链和轻链的可变区(VH和VL)、单链可变区(scFv)、互补决定区(CDR)和结构域抗体(dAb)的结构是充分理解的。用于生成具有对给定抗原具有结合亲和力的所需抗原结合片段的多肽的方法是本领域已知的。

技术人员将理解，对于本文公开的组合物实施例使用术语“抗原结合片段”预期包括保留结合抗原的能力的抗体的一部分或片段，所述抗原是相应完整抗体的配体。在此类实施例中，抗原结合片段可以是但不限于CDR和***构架区、抗体轻链和/或重链(VL、VH)的可变区或高变区、可变片段(Fv)、Fab'片段、F(ab')2片段、Fab片段、单链抗体(scAb)、VHH骆驼科抗体、单链可变片段(scFv)、线性抗体、单结构域抗体、互补决定区(CDR)、结构域抗体(dAb)、BHH或BNAR类型的单结构域重链免疫球蛋白、单结构域轻链免疫球蛋白、或本领域已知的含有能够结合抗原的抗体片段的其它多肽。具有CDR-H和CDR-L的抗原结合片段可以从N末端到C末端以(CDR-H)-(CDR-L)或(CDR-H)-(CDR-L)取向进行配置。两个抗原结合片段的VL和VH也可以以单链双抗体构型进行配置；即，AF1和AF2的VL和VH配置有适当长度的接头，以允许作为双抗体排列。

本公开内容的各种结合CD3的AF2已进行特异性修饰，以增强其在本文所述的多肽实施例中的稳定性。抗体的蛋白质聚集在其可开发性方面继续是重大问题，并且仍然是抗体生产的主要焦点领域。抗体聚集可以通过其结构域的部分解折叠来触发，导致单体-单体结合，随后为成核和聚集体生长。尽管抗体和基于抗体的蛋白质的聚集倾向可以受到外部实验条件的影响，但它们强烈依赖于如通过其序列和结构决定的固有抗体性质。尽管众所周知的是蛋白质在其折叠状态下仅略微稳定，但经常不太了解的是大多数蛋白质在其解折叠或部分解折叠状态下固有地易于聚集，并且所得到的聚集体可以是非常稳定且长寿的。聚集倾向的减少也已显示伴随着表达滴度的增加，显示了减少蛋白质聚集在开发过程自始至终都是有益的，并且可以导致更有效的临床研究路径。对于治疗性蛋白质，聚集体是患者中的有害免疫应答的显著风险因素，并且可以经由各种机制形成。控制聚集可以改善蛋白质稳定性、可制造性、损耗率、安全性、制剂、滴度、免疫原性和溶解度。蛋白质的固有性质如大小、疏水性、静电和电荷分布在蛋白质溶解度中起重要作用。由于表面疏水性的治疗性蛋白质的低溶解度已显示致使制剂开发更加困难，并且可以导致在体内的弱生物分布、不期望有的药代动力学行为和免疫原性。降低候选单克隆抗体的整体表面疏水性还可以提供与纯化和给药方案有关的益处和成本节约。个别氨基酸可以通过结构分析鉴定为有助于抗体中的聚集潜力，并且可以定位于CDR以及构架区中。特别地，残基可以预测为在给定抗体中处于引起疏水性问题的高风险中。在一个实施例中，本公开内容提供了具有特异性结合CD3的能力的AF2，其中相对于亲本抗体或抗体片段，所述AF2具有在构架区中的疏水性氨基酸的至少一个氨基酸取代，其中所述疏水性氨基酸选自异亮氨酸、亮氨酸或甲硫氨酸。在另一个实施例中，CD3 AF2具有在一个或多个构架区中的疏水性氨基酸的至少两个氨基酸取代，其中所述疏水性氨基酸选自异亮氨酸、亮氨酸或甲硫氨酸。

在设计本文所述实施例的AF2的序列时，考虑了关于多肽的净电荷的变化，特别是关于构成本文阐述的本发明的特定实施例的抗体或抗体片段的变化，其中相对于用作起点的亲本抗体制备个别氨基酸取代。与这些设计考虑有关的是多肽的等电点(pI)，其为在其下抗体或抗体片段没有净电荷的pH。抗体或抗体片段通常具有净正电荷，其趋于与增加的血液清除率和组织保留相关联，具有一般较短的半衰期，而净负电荷导致降低的组织摄取和更长的半衰期。能够通过对构架残基的突变来操纵这种电荷。多肽的等电点可以通过体外测定在算术上(例如，计算上)或实验上进行确定。在一些实施例中，AF1和AF2的等电点设计在彼此的特定范围内，从而促进稳定性。

在一个实施例中，本公开内容提供了用于本文所述的任何多肽实施例中的AF2，其包含CDR-L和CDR-H，其中所述AF2(a)特异性结合T细胞受体的分化簇3(CD3)；并且(b)包含分别具有SEQ ID NO:742、743和744的氨基酸序列的CDR-H1、CDR-H2和CDR-H3。在另一个实施例中，本公开内容提供了用于本文所述的任何多肽实施例中的AF2，其包含CDR-L和CDR-H，其中所述AF2(a)特异性结合T细胞受体的分化簇3(CD3)；(b)包含分别具有SEQ ID NO:742、743和744的氨基酸序列的CDR-H1、CDR-H2和CDR-H3；并且(c)包含CDR-L，其中所述CDR-L包含具有SEQ ID NO:735或736的氨基酸序列的CDR-L1、具有SEQ ID NO:738或739的氨基酸序列的CDR-L2、以及具有SEQ ID NO:740的氨基酸序列的CDR-L3。在另一个实施例中，该段落的前述AF2实施例还包含轻链构架区(FR-L)和重链构架区(FR-H)，其中AF2包含与SEQID NO:746的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的FR-L1，与SEQ ID NO:747的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的FR-L2，与SEQ ID NO:748-751中任何一个的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的FR-L3，与SEQ ID NO:754的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的FR-L4，与SEQ ID NO:755或SEQ ID NO:756的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的FR-H1，与SEQ ID NO:759的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的FR-H2，与SEQ ID NO:760的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的FR-H3；以及与SEQ ID NO:764的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的FR-H4。在另一个实施例中，用于本文所述的任何多肽实施例中的AF2包含轻链构架区(FR-L)和重链构架区(FR-H)，其中AF2包含与SEQ ID NO:746的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的FR-L1，与SEQ IDNO:747的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之等同的FR-L2，与SEQ ID NO:748的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之等同的FR-L3，与SEQ ID NO:754的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的FR-L4，与SEQ ID NO:755的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之等同的FR-H1，与SEQ ID NO:759的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之等同的FR-H2，与SEQ IDNO:760的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的FR-H3；以及与SEQ ID NO:764的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的FR-H4。在另一个实施例中，用于本文所述的任何多肽实施例中的AF2包含轻链构架区(FR-L)和重链构架区(FR-H)，其中AF2包含与SEQ IDNO:746的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之等同的FR-L1，与SEQ ID NO:747的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之等同的FR-L2，与SEQ ID NO:749的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的FR-L3，与SEQ ID NO:754的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的FR-L4，与SEQ ID NO:755的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的FR-H1，与SEQ IDNO:759的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的FR-H2，与SEQ ID NO:760的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的FR-H3；以及与SEQ ID NO:764的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的FR-H4。在另一个实施例中，本文所述的人或动物多肽实施例的AF2包含轻链构架区(FR-L)和重链构架区(FR-H)，其中AF2包含与SEQ ID NO:746的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的FR-L1，与SEQ ID NO:747的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的FR-L2，与SEQ ID NO:750的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的FR-L3，与SEQ ID NO:754的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的FR-L4，与SEQ ID NO:755的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之等同的FR-H1，与SEQ ID NO:759的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的FR-H2，与SEQ ID NO:760的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的FR-H3；以及与SEQ ID NO:764的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的FR-H4。在另一个实施例中，本文所述的人或动物多肽实施例的AF2包含轻链构架区(FR-L)和重链构架区(FR-H)，其中AF2包含与SEQ ID NO:746的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的FR-L1，与SEQ ID NO:747的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的FR-L2，与SEQ ID NO:751的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的FR-L3，与SEQ ID NO:754的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的FR-L4，与SEQ ID NO:756的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的FR-H1，与SEQ ID NO:759的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的FR-H2，与SEQ ID NO:760的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的FR-H3；以及与SEQ ID NO:764的氨基酸序列显示出至少86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的FR-H4。

在另一个实施例中，本公开内容提供了用于本文所述的任何多肽实施例中的AF2，其中所述AF2包含与SEQ ID NO:766或SEQ ID NO:769的氨基酸序列具有至少90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的可变重(VH)氨基酸序列。在另一个实施例中，本公开内容提供了用于本文所述的任何多肽实施例中的AF2，其中所述AF2包含与SEQ ID NO:765、767、768、770或771中任何一个的氨基酸序列具有至少90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的可变轻(VL)氨基酸序列。在另一个实施例中，本公开内容提供了用于本文所述的任何多肽实施例中的AF2，其中所述AF2包含与SEQ ID NO:766或SEQ ID NO:769的氨基酸序列具有至少90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的可变重(VH)氨基酸序列，以及与SEQ ID NO:765、767、768、770或771中任何一个的氨基酸序列具有至少90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性或与之相同的可变轻(VL)氨基酸序列。

在另一个实施例中，本公开内容提供了用于本文所述的任何多肽实施例中的AF2，其中所述AF2包含与SEQ ID NO:776-780中任何一个的氨基酸序列具有至少95％、96％、97％、98％、99％的序列同一性或与之相同的氨基酸序列。

在另一个方面，本公开内容提供了与CD3蛋白复合物结合的AF2抗原结合片段，与本领域已知的CD3结合抗体或抗原结合片段相比，其具有增强的稳定性。另外，本公开内容的CD3抗原结合片段被设计为对它们整合到其内的嵌合双特异性抗原结合片段组合物赋予更高程度的稳定性，导致融合蛋白的改善表达和回收、增加的贮存期限和当施用于人或动物时增强的稳定性。在一种方法中，本公开内容的CD3 AF2被设计为与本领域已知的某些CD3结合抗体和抗原结合片段相比具有更高程度的热稳定性。结果，用作它们整合到其内的嵌合双特异性抗原结合片段组合物的组分的CD3AF2显示出有利的药学性质，包括高热稳定性和低聚集倾向，导致在制造和贮存过程中改善的表达和回收，以及促进长血清半衰期。生物物理性质例如热稳定性经常受到抗体可变结构域的限制，所述抗体可变结构域在其固有性质方面极大地不同。高热稳定性经常与高表达水平和其它所需性质相关，包括较不易受聚集影响(Buchanan A等人Engineering a therapeutic IgG molecule to addresscysteinylation，aggregation and enhance thermal stability and expression.MAbs2013；5:255)。热稳定性通过测量“解链温度”(T_m)来确定，所述解链温度定义为在其下一半分子变性的温度。每个异二聚体的解链温度是其热稳定性的指标。确定T_m的体外测定是本领域已知的，包括下文实例中描述的方法。可以使用技术例如差示扫描量热法(Chen等人(2003)Pharm Res 20:1952-60；Ghirlando等人(1999)Immunol Lett 68:47-52)来测量异二聚体的熔点。可替代地，可以使用圆二色性(Murray等人(2002)J.Chromatogr Sci 40:343-9)或如下文实例中所述的测量异二聚体的热稳定性。

CD3结合片段和包含所述抗CD3结合片段的抗CD3双特异性抗体的热变性曲线和本公开内容的参考结合显示了，与由SEQ ID NO:781中所示的序列组成的抗原结合片段或对照双特异性抗体(其中所述对照双特异性抗原结合片段包含SEQ ID NO:781)和结合本文所述的EGFR实施例的参考抗原结合片段相比，本公开内容的构建体对热变性更具抗性。在一个实施例中，本文所述的任何人或动物组合物实施例的多肽包含本文所述的实施例的抗CD3 AF2，其中如通过体外测定中的解链温度增加所确定的，与由SEQ ID NO:781的序列组成的抗原结合片段的T_m相比，所述AF2的T_m高至少2℃、或高至少3℃、或高至少4℃、或高至少5℃、或高至少6℃、或高至少7℃、或高至少8℃、或高至少9℃、或高至少10℃。

在另一个实施例中，本文所述的任何人或动物组合物实施例的多肽包含特异性结合人或食蟹猴CD3的AF2，其解离常数(K_d)为约10nM至约400nM、或约50nM至约350nM、或约100nM至300nM，如在包含人或食蟹猴CD3抗原的体外抗原结合测定中确定的。在另一个实施例中，本文所述的任何人或动物组合物实施例的多肽包含特异性结合人或食蟹猴CD3的AF2，其解离常数(K_d)弱于约10nM、或约50nM、或约100nM、或约150nM、或约200nM、或约250nM、或约300nM、或约350nM，或者弱于约400nM，如在体外抗原结合测定中确定的。为清楚起见，K_d为400的抗原结合片段与其配体的结合弱于K_d为10nM的抗原结合片段。在另一个实施例中，本文所述的任何人或动物组合物实施例的多肽包含特异性结合人或食蟹猴CD3的AF2，其结合亲和力是由SEQ ID NO:781的氨基酸序列组成的抗原结合片段的至多1/2、1/3、1/4、1/5、1/6、1/7、1/8、1/9或至多1/10，如通过在体外抗原结合测定中的分别解离常数(K_d)确定的。在另一个实施例中，本公开内容提供了包含AF2的双特异性多肽，相对于掺入人或动物多肽内的本文所述的AF1 EGFR实施例，其对CD3显示出的结合亲和力是至多1/2、1/3、1/4、1/5、1/6、1/7、1/8、1/9、1/10、1/20、1/50、1/100或至多1/1000，如通过在体外抗原结合测定中的分别解离常数(K_d)确定的。人或动物组合物对于靶配体的结合亲和力可以使用以下进行测定：结合或竞争性结合测定，例如如美国专利5,534,617中所述的具有芯片结合受体或结合蛋白的Biacore测定或者ELISA测定，本文实例中所述的测定，放射受体测定或本领域已知的其它测定。然后可以使用标准方法，例如如通过van Zoelen等人，TrendsPharmacol Sciences(1998)19)12):487描述的Scatchard分析，或本领域已知的其它方法，来确定结合亲和力常数。

在相关方面，本公开内容提供了AF2，其与CD3结合并且掺入嵌合双特异性多肽组合物内，所述组合物被设计为具有这样的等电点(pI)，与本领域已知的包含CD3结合抗体或抗原结合片段的相应组合物相比，所述等电点对本公开内容的组合物赋予增强的稳定性。在一个实施例中，本文所述的任何人或动物组合物实施例的多肽包含与CD3结合的AF2，其中所述AF2显示出在6.0和6.6之间的pI，包含端点在内。在另一个实施例中，本文所述的任何人或动物组合物实施例的多肽包含与CD3结合的AF2，其中与由SEQ ID NO:781中所示的序列组成的参考抗原结合片段的pI相比，所述AF2显示出低至少0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9或1.0pH单位的pI。在另一个实施例中，本文所述的任何人或动物组合物实施例的多肽包含与结合EGFR抗原的AF1融合的结合CD3的AF2，其中所述AF2显示出的pI在结合EGFR抗原或其表位的AF1的pI的至少0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1.0、1.1、1.2、1.3、1.4或1.5pH单位内。在另一个实施例中，本文所述的任何人或动物组合物实施例的多肽包含与结合EGFR抗原的AF1融合的结合CD3的AF2，其中所述AF2显示出的pI在AF1的pI的至少约0.1至约1.5、或至少约0.3至约1.2、或至少约0.5至约1.0、或至少约0.7至约0.9pH单位内。特别预期通过其中两个抗原结合片段的pI在此类范围内的此类设计，所得到的融合抗原结合片段对它们整合到其内的嵌合双特异性抗原结合片段组合物赋予更高程度的稳定性，导致以可溶性、非聚集形式的融合蛋白的改善表达和增强回收，配制的嵌合双特异性多肽组合物的贮存期限增加，以及当将组合物施用于人或动物时增强的稳定性。换句话说，使AF2和AF1在相对窄的pI范围内可以允许选择其中AF2和AF1两者均是稳定的缓冲液或其它溶液，从而促进组合物的整体稳定性。

在某些实施例中，抗原结合片段的VL和VH通过相对长的接头进行融合，所述接头包含25、26、27、28、29、30、31、32、33、34或35个亲水性氨基酸，当连接在一起时，所述亲水性氨基酸具有柔性性质。在一个实施例中，本文所述的任何scFv实施例的VL和VH通过亲水性氨基酸的相对长的接头进行连接，所述接头为GSGEGSEGEGGGEGSEGEGSGEGGEGEGSG(SEQ IDNO:8058)、

TGSGEGSEGEGGGEGSEGEGSGEGGEGEGSGT(SEQ ID NO:8059)、

GATPPETGAETESPGETTGGSAESEPPGEG(SEQ ID NO:8060、或

GSAAPTAGTTPSASPAPPTGGSSAAGSPST(SEQ ID NO:8061)。在另一个实施例中，AF1和AF2通过具有3、4、5、6或7个氨基酸的亲水性氨基酸的短接头连接在一起。在一个实施例中，短接头序列是SGGGGS(SEQ ID NO:8062)、GGGGS(SEQ ID NO:8063)、GGSGGS(SEQ ID NO:8064)、GGS或GSP。在另一个实施例中，本公开内容提供了包含单链双抗体的组合物，其中在折叠后，第一结构域(VL或VH)与最后一个结构域(VH或VL)配对以形成一个scFv，并且中间的两个结构域配对形成另一个scFv，其中第一结构域和第二结构域以及第三结构域和最后一个结构域通过前述短接头之一融合在一起，并且第二可变结构域和第三可变结构域通过前述相对长的接头之一进行融合。如本领域技术人员将了解的，短接头和相对长的接头的选择是为了防止相邻可变结构域的不正确配对，从而促进包含第一抗原结合片段和第二抗原结合片段的VL和VH的单链双抗体构型的形成。

表6b.示例性CD3 CDR序列

表6c.示例性CD3 FR序列

表6d：示例性VL和VH序列

表6e：示例性scFv序列

抗EpCAM结合结构域

在一些实施例中，本发明提供了嵌合多肽组装组合物，其包含对肿瘤特异性标记物EpCAM具有结合亲和力的结合结构域。在一个实施例中，结合结构域包含源自针对EpCAM的单克隆抗体的VL和VH。针对EpCAM的单克隆抗体是本领域已知的。EpCAM单克隆抗体及其VL和VH序列的示例性非限制性例子在表6f中阐述。在一个实施例中，本发明提供了嵌合多肽组装组合物，其包含对肿瘤特异性标记物EpCAM具有结合亲和力的结合结构域，所述结合结构域包含表6f中所示的抗EpCAM VL和VH序列。在另一个实施例中，本发明提供了嵌合多肽组装组合物，其中第一部分第一结合结构域包含VH和VL区，其中每个VH和VL区与表6f中所示的4D5MUCB抗-EpCAM抗体的配对VL和VH序列显示出至少约90％、或91％、或92％、或93％、或94％、或95％、或96％、或97％、或98％、或99％的同一性或者与之相同。在另一个实施例中，本发明提供了嵌合多肽组装组合物，其包含对肿瘤特异性标记物具有结合亲和力的结合结构域，所述结合结构域包含CDR-L1区、CDR-L2区、CDR-L3区、CDR-H1区、CDR-H2区和CDR-H3区，其中每种源自表6f中所示的分别的VL和VH序列。

表6f.抗靶细胞单克隆抗体和序列

*加下划线且粗体的序列(如果存在的话)是VL和VH内的CDR

上皮细胞粘附分子(EpCAM，也称为17-1A抗原)是在某些上皮和许多人癌中表达的由314个氨基酸组成的40-kDa膜整合糖蛋白(参见Balzar，The biology of the 17-1Aantigen(Ep-CAM)，J.Mol.Med.1999，77:699-712)。由于其上皮细胞起源，来自大多数癌的肿瘤细胞在其表面上表达EpCAM(比正常、健康的细胞更多)，包括大多数原发性、转移性和播散性非小细胞肺癌细胞(Passlick，B.等人The 17-1A antigen is expressed onprimary，metastatic and disseminated non-small cell lung carcinomacells.Int.J.Cancer 87(4):548–552，2000)、胃和胃食管结合部腺癌(Martin，I.G.，Expression of the 17-1A antigen in gastric and gastro-oesophageal junctionadenocarcinomas:a potential immunotherapeutic target？J Clin Pathol 1999；52:701–704)、以及乳腺癌和结肠直肠癌(Packeisen J等人Detection of surface antigen17-1A in breast and colorectal cancer.Hybridoma.1999 18(1):37-40)，在乳腺癌中，EpCAM在肿瘤细胞上的过表达是存活的预测因子(Gastl，Lancet.2000，356，1981-1982)。由于其上皮细胞起源，来自大多数癌的肿瘤细胞在其表面上表达EpCAM。

在一个实施例中，本文提供的是具有第一部分的双特异性嵌合多肽组装组合物，所述第一部分具有对于EpCAM特异性的结合结构域和对于CD3特异性的结合结构域。待解决的技术问题是提供用于生成改善组合物的手段和方法，所述改善组合物显示出良好耐受和更方便用药(较不频繁的给药)的性质，用于肿瘤疾病的有效治疗和或改善。所述技术问题的解决方案通过本文公开且在权利要求中表征的实施例来实现。

相应地，在一些实施例中，本发明涉及嵌合多肽组装组合物，由此所述组合物包括包含双特异性单链抗体组合物的第一部分，所述双特异性单链抗体组合物包含至少两个结合结构域，由此所述结构域之一结合效应细胞抗原例如CD3抗原，且第二结构域结合EpCAM抗原，其中所述结合结构域包含对于EpCAM特异性的VL和VH以及对于人CD3抗原特异性的VL和VH。优选地，在实施例中，对于EpCAM特异性的所述结合结构域具有大于10^-7至10^-10M的K_d值，如在体外结合测定中确定的。在前述的一个实施例中，结合结构域是scFv形式。在前述的另一个实施例中，结合结构域是单链双抗体形式。

在一些实施例中，本发明提供了嵌合多肽组装组合物，其包含对肿瘤特异性标记物具有结合亲和力的第一部分结合结构域、以及与效应细胞抗原例如CD3抗原结合的第二结合结构域。构成本发明的这些实施例的肿瘤特异性标记物包括但不限于CCR5、CD19、HER-2、HER-3、HER-4、EGFR、PSMA、CEA、MUC1、MUC2、MUC3、MUC4、MUC5AC、MUC5B、MUC7、βhCG、Lewis-Y、CD-20、CD33、CD30、神经节苷脂GD3、9-O-乙酰基-GD3、Globo H、岩藻糖基GM1、GD-2、碳酸酐酶IX、CD44v6、Sonic Hedgehog、Wue-1、浆细胞抗原1、黑色素瘤硫酸软骨素蛋白聚糖、CCR8、***6-跨膜上皮抗原(STEAP)、间皮素、A33抗原、***干细胞抗原(PSCA)、LY-6、SAS、桥粒芯蛋白4、胎儿乙酰胆碱受体、CD-25、癌抗原19-9(CA19-9)、癌抗原125(CA-125)、苗勒管抑制物质II型受体(MISIIR)、唾液酸化Tn抗原、成纤维细胞活化抗原(FAP)、内皮唾液酸蛋白(CD248)、表皮生长因子受体变体III(EGFRvIII)、肿瘤相关抗原L6(TAL6)、CD-63、TAG-72、汤姆森-弗里登赖希抗原(TF抗原)、***I受体(IGF-IR)、Cora抗原、CD7、CD22、CD79a、CD79b、G250、F19、EphA2和MT-MM。在某些实施例中，本发明提供了嵌合多肽组装组合物，其包含对肿瘤特异性标记物具有结合亲和力的第一部分结合结构域，所述第一部分结合结构域包含抗标记物VL和VH序列。对于这些肿瘤标记物中的某些特异性的VL和VH序列的示例性、非限制性例子在表6f中阐述。在其它实施例中，本发明提供了嵌合多肽组装组合物，其包含对肿瘤特异性标记物具有结合亲和力的第一部分结合结构域，所述第一部分结合结构域包含CDR-L1区、CDR-L2区、CDR-L3区、CDR-H1区、CDR-H2区和CDR-H3区，其中每种源自分别的VL和VH序列。优选地，在实施例中，所述结合具有大于10^-7至10^-10M的K_d值，如在体外结合测定中确定的。

特别考虑嵌合多肽组装组合物可以包含前述结合结构域或其序列变体中的任何一种，只要变体显示出对于所述抗原的结合特异性。在一个实施例中，序列变体将通过用不同氨基酸取代VL或VH序列中的氨基酸而产生。在缺失变体中，去除如本文所述的VL或VH序列中的一个或多个氨基酸残基。因此，缺失变体包括结合结构域多肽序列的所有片段。在取代变体中，VL或VH(或CDR)多肽的一个或多个氨基酸残基被去除并且替换为替代残基。在一个方面，取代在性质中是保守的，并且这种类型的保守取代是本领域众所周知的。另外，特别考虑本文公开的包含第一结合结构域和第二结合结构域的组合物可以用于本文公开的任何方法中。

非结构化构象

通常，尽管聚合物的延伸长度，但本文公开的融合蛋白的XTEN多肽组分被设计为在生理条件下表现得如同变性肽序列。“变性的”描述了肽在溶液中的状态，其特征在于肽主链的大构象自由度。大多数肽和蛋白质在高浓度变性剂的存在下或在高温下采用变性构象。处于变性构象的肽具有例如特征性圆二色性(CD)光谱，并且特征在于如通过NMR确定的长距离相互作用的缺乏。“变性构象”和“非结构化构象”在本文中同义使用。在一些情况下，本发明提供了XTEN多肽，其在生理条件下可以类似于在很大程度上缺乏二级结构的变性序列。在其它情况下，XTEN多肽在生理条件下可以基本上缺乏二级结构。如在此上下文中使用的，“在很大程度上缺乏”意指每种XTEN多肽的少于50％的XTEN氨基酸残基促成二级结构，如通过本文描述的手段测量或确定的。如在此上下文中使用的，“基本上缺乏”意指XTEN序列的至少约60％、或约70％、或约80％、或约90％、或约95％、或至少约99％的XTEN氨基酸残基并不促成二级结构，如通过本文描述的手段测量或确定的。

本领域已建立了各种方法来辨别给定多肽中的二级结构和三级结构的存在或不存在。特别地，XTEN二级结构可以例如通过“远UV”光谱区域(190-250nm)中的圆二色光谱，用分光光度法进行测量。二级结构元件例如α-螺旋和β-折叠，各自产生CD光谱的特征性形状和量级。还可以经由某些计算机程序或算法预测多肽序列的二级结构，例如众所周知的Chou-Fasman算法(Chou，P.Y.等人(1974)Biochemistry，13:222-45)和Garnier-Osguthorpe-Robson(“GOR”)算法(Garnier J，Gibrat JF，Robson B.(1996)，GOR methodfor predicting protein secondary structure from amino acid sequence.MethodsEnzymol 266:540-553)，如美国专利申请公开号20030228309A1中所述。对于给定序列，算法可以预测是存在一些二级结构还是根本不存在二级结构，表示为形成例如α-螺旋或β-折叠的序列残基总数和/或百分比或预测为导致无规卷曲形成(其缺乏二级结构)的序列残基百分比。

在一些情况下，本发明的融合蛋白组合物中使用的XTEN多肽可以具有范围为0％至小于约5％的α-螺旋百分比，如通过Chou-Fasman算法确定的。在其它情况下，构成融合蛋白组合物的XTEN多肽可以具有范围为0％至小于约5％的β-折叠百分比，如通过Chou-Fasman算法确定的。在一些情况下，融合蛋白组合物的XTEN序列可以具有范围为0％至小于约5％的α-螺旋百分比以及范围为0％至小于约5％的β-折叠百分比，如通过Chou-Fasman算法确定的。在优选的实施例中，构成融合蛋白组合物的XTEN多肽可以具有小于约2％的α-螺旋百分比和小于约2％的β-折叠百分比。在其它情况下，融合蛋白组合物的XTEN序列可以具有高度的无规卷曲百分比，如通过GOR算法确定的。在一些实施例中，XTEN多肽可以具有至少约80％、更优选至少约90％、更优选至少约91％、更优选至少约92％、更优选至少约93％、更优选至少约94％、更优选至少约95％、更优选至少约96％、更优选至少约97％、更优选至少约98％、且最优选至少约99％的无规卷曲，如通过GOR算法确定的。

净电荷

在其它情况下，XTEN多肽可以具有通过掺入具有净电荷的氨基酸残基和/或减少XTEN多肽中的疏水性氨基酸比例而赋予的非结构化特性。可以通过修改XTEN多肽中的荷电氨基酸含量来控制总体净电荷和净电荷密度。在一些情况下，组合物的XTEN的净电荷密度可以高于+0.1或低于-0.1电荷/残基。在其它情况下，XTEN多肽的净电荷可以是约0％、约1％、约2％、约3％、约4％、约5％、约6％、约7％、约8％、约9％、约10％约11％、约12％、约13％、约14％、约15％、约16％、约17％、约18％、约19％、或约20％或更多。

因为人或动物中的大多数组织和表面具有净负电荷，所以XTEN多肽可以设计为具有净负电荷，以使含XTEN多肽的组合物和各种表面例如血管、健康组织或各种受体之间的非特异性相互作用降到最低。不受特定理论的束缚，由于XTEN多肽的各个氨基酸之间的静电排斥，XTEN多肽可以采取开放构象，所述氨基酸个别地携带高净负电荷并且跨越XTEN多肽的序列分布。XTEN多肽的延伸序列长度中的此类净负电荷分布可以导致非结构化构象，其依次又可以导致流体动力学半径的有效增加。相应地，在一个实施例中，本发明提供了XTEN多肽，其中所述XTEN多肽含有约8、10、15、20、25或甚至约30％的谷氨酸。本发明的组合物的XTEN多肽一般不具有或具有低含量的带正电荷的氨基酸。在一些情况下，XTEN多肽可以具有小于约10％的带正电荷的氨基酸残基，或小于约7％、或小于约5％、或小于约2％的带正电荷的氨基酸残基。然而，本发明考虑了这样的构建体，其中有限数目的带正电荷的氨基酸例如赖氨酸可以掺入XTEN多肽内，以允许赖氨酸的ε胺与肽上的反应基团、接头桥、或者待缀合至XTEN多肽主链的药物或小分子上的反应基团之间的缀合。在前文中，可以构建融合蛋白，其包含一种或多种XTEN多肽、生物活性蛋白质、加上可用于治疗代谢疾病或病症的化学治疗剂，其中掺入XTEN多肽组分内的试剂的分子最大数目由掺入XTEN内的赖氨酸或具有反应性侧链的其它氨基酸(例如，半胱氨酸)的数目决定。

在一些情况下，XTEN多肽可以包含通过其它残基例如丝氨酸或甘氨酸分开的荷电残基，其可以导致更好的表达或纯化行为。基于净电荷，人或动物组合物的XTEN多肽可以具有1.0、1.5、2.0、2.5、3.0、3.5、4.0、4.5、5.0、5.5、6.0或甚至6.5的等电点(pI)。在优选的实施例中，XTEN多肽具有1.5至4.5的等电点。在这些实施例中，掺入本发明的BPXTEN融合蛋白组合物内的XTEN在生理条件下将携带净负电荷，其可以促成XTEN多肽组分的非结构化构象以及与哺乳动物蛋白质和组织的减少结合。

由于疏水性氨基酸可以赋予多肽结构，本发明提供了XTEN多肽中的疏水性氨基酸含量通常小于5％、或小于2％、或小于1％的疏水性氨基酸含量。在一个实施例中，BPXTEN融合蛋白的XTEN组分中的甲硫氨酸和色氨酸的氨基酸含量通常小于5％、或小于2％、且最优选小于1％。在另一个实施例中，XTEN多肽具有这样的序列，其具有小于10％的带正电荷的氨基酸残基，或小于约7％、或小于约5％、或小于约2％的带正电荷的氨基酸残基，甲硫氨酸和色氨酸残基之和小于2％，并且天冬酰胺和谷氨酰胺残基之和是总XTEN多肽的小于10％。

增加的流体动力学半径

在一些实施例中，XTEN多肽可以具有高流体动力学半径，赋予掺入XTEN多肽的BPXTEN融合蛋白相应的增加的表观分子量。XTEN多肽与BP序列的连接可以导致这样的BPXTEN组合物，与未连接至XTEN多肽的BP相比，所述BPXTEN组合物可以具有增加的流体动力学半径、增加的表观分子量和增加的表观分子量因子。例如，在其中需要延长半衰期的治疗应用中，其中将具有高流体动力学半径的XTEN多肽掺入包含一种或多种BP的融合蛋白内的组合物，可以将组合物的流体动力学半径有效地扩大到超过大约3-5nm的肾小球孔径(对应于约70kDA的表观分子量)(Caliceti.2003.Pharmacokinetic and biodistributionproperties of poly(ethylene glycol)-protein conjugates.Adv.Drug Deliv.Rev.55:1261-1277)，导致循环蛋白质的肾脏清除率减少。不受特定理论的束缚，由于肽的各个电荷之间的静电排斥或通过序列中缺乏赋予二级结构的潜力的特定氨基酸赋予的固有柔性，XTEN多肽可以采取开放构象。与具有可比较的序列长度和/或分子量的具有二级结构和/或三级结构的多肽，例如典型的球状蛋白质相比，XTEN多肽的开放、延伸和非结构化构象可以具有更大比例的流体动力学半径。用于确定流体动力学半径的方法是本领域众所周知的，例如通过使用尺寸排阻色谱法(SEC)，如美国专利号6,406,632和7,294,513中所述。增加长度的XTEN多肽的添加导致流体动力学半径、表观分子量和表观分子量因子的参数的成比例增加，允许对所需的特征性截断表观分子量或流体动力学半径定制BPXTEN。相应地，在某些实施例中，BPXTEN融合蛋白可以配置有XTEN多肽，其中所述融合蛋白可以具有至少约5nm、或至少约8nm、或至少约10nm、或12nm、或至少约15nm的流体动力学半径。在前述实施例中，由BPXTEN融合蛋白中的XTEN多肽赋予的大流体动力学半径可以导致所得到的融合蛋白的肾脏清除率减少，导致终末半衰期的相应增加、平均停留时间的增加和/或肾脏清除率的降低。

在另一个实施例中，选定长度和序列的XTEN多肽可以选择性地掺入BPXTEN内，以产生在生理条件下具有以下表观分子量的融合蛋白：至少约150kDa、或至少约300kDa、或至少约400kDa、或至少约500kDA、或至少约600kDa、或至少约700kDA、或至少约800kDa、或至少约900kDa、或至少约1000kDa、或至少约1200kDa、或至少约1500kDa、或至少约1800kDa、或至少约2000kDa、或至少约2300kDa或更多。在另一个实施例中，选定长度和序列的XTEN多肽可以选择性地连接至BP，以导致这样的BPXTEN融合蛋白，其在生理条件下具有至少三、可替代地至少四、可替代地至少五、可替代地至少六、可替代地至少八、可替代地至少10、可替代地至少15的表观分子量因子，或者至少20或更大的表观分子量因子。在另一个实施例中，BPXTEN融合蛋白在生理条件下具有相对于融合蛋白的实际分子量，约4至约20、或约6至约15、或约8至约12、或约9至约10的表观分子量因子。在一些实施例中，(融合)多肽在生理条件下显示出大于约6的表观分子量因子。

增加的终末半衰期

在一些实施例中，与未连接至XTEN多肽的生物活性多肽相比，(融合)多肽具有至少两倍、或至少三倍、或至少四倍、或至少五倍的终末半衰期。在一些实施例中，与未连接至XTEN多肽的生物活性多肽相比，(融合)多肽具有至少两倍的终末半衰期。

将治疗有效剂量的本文所述的BPXTEN融合蛋白的任何实施例施用于有此需要的人或动物，可以导致与未连接至XTEN多肽并以可比较的剂量施用于人或动物的相应BP相比，在关于融合蛋白的治疗窗内花费时间的至少两倍、或至少三倍、或至少四倍、或至少五倍或更多增加。

低免疫原性

在另一个方面，本发明提供了组合物，其中XTEN多肽具有低程度的免疫原性或是基本上无免疫原性的。几种因素可以促成XTEN多肽的低免疫原性，例如，基本上非重复的序列、其非结构化构象、高溶解度、低程度的自聚集或缺乏自聚集、序列内低程度的蛋白酶解位点或缺乏蛋白酶解位点、以及XTEN多肽中低程度的表位或缺乏表位。

本领域普通技术人员将理解，一般而言，具有高度重复的短氨基酸序列(例如，其中长200个氨基酸的序列平均含有有限组的3-或4聚体的20个或更多个重复)和/或具有连续重复的氨基酸残基(例如，其中5或6聚体序列具有相同的氨基酸残基)的多肽具有聚集或形成更高级结构或形成接触的趋势，导致晶体或假晶体结构。

在一些实施例中，XTEN多肽是基本上非重复的，其中所述XTEN氨基酸序列不具有为相同氨基酸类型的三个连续氨基酸，除非该氨基酸是丝氨酸，在这种情况下不多于三个连续氨基酸可以是丝氨酸残基；并且其中所述XTEN氨基酸序列不含有在XTEN多肽的长200个氨基酸的序列内出现多于16、多于14、多于12或多于10次的3氨基酸序列(3聚体)。本领域普通技术人员将理解，此类基本上非重复的序列具有较小的聚集倾向，并且因此，使得能够设计具有相对低频率的荷电氨基酸的长序列XTEN，如果序列或氨基酸残基在其它方面更具重复性，则所述长序列XTEN很可能聚集。

构象表位由蛋白质表面的区域形成，所述区域由蛋白质抗原的多重不连续的氨基酸序列组成。蛋白质的精确折叠使这些序列达到定义明确的、稳定的空间构型或表位，其可以被宿主体液免疫***识别为“外源的”，导致产生针对蛋白质的抗体或触发细胞介导的免疫应答。在后一种情况下，个体中针对蛋白质的免疫应答受到T细胞表位识别的严重影响，所述T细胞表位识别是个体的HLA-DR同种异型的肽结合特异性的功能。MHC II类肽复合物通过T细胞的表面上的同源T细胞受体的接合，连同某些其它共受体例如CD4分子的交叉结合，可以在T细胞内诱导激活状态。激活导致细胞因子的释放，进一步激活其它淋巴细胞如B细胞以产生抗体，或激活T杀伤细胞作为完全的细胞免疫应答。

肽结合给定MHC II类分子用于在APC(抗原呈递细胞)的表面上呈递的能力取决于许多因素；最值得一提的是其一级序列。在一个实施例中，可以通过设计抵抗抗原呈递细胞中的抗原加工的XTEN多肽和/或选择不能良好地结合MHC受体的序列，来实现较低程度的免疫原性。本发明提供了具有基本上非重复的XTEN多肽的BPXTEN融合蛋白，所述XTEN多肽设计为减少与MHC II受体的结合，以及避免形成关于T细胞受体或抗体结合的表位，导致低程度的免疫原性。免疫原性的避免部分是XTEN多肽的构象柔性的直接结果；即，由于氨基酸残基的选择和次序的二级结构缺乏。例如，特别感兴趣的是在水溶液中或在可以导致构象表位的生理条件下，具有适应紧密折叠构象的低倾向的序列。使用常规治疗实践和给药，包含XTEN多肽的融合蛋白的施用一般并不导致针对XTEN多肽的中和抗体的形成，并且还可以减少BPXTEN组合物中的BP融合配偶体的免疫原性。

在一个实施例中，用于人或动物融合蛋白中的XTEN多肽可以基本上不含由人T细胞识别的表位。为了生成较低免疫原性蛋白质的目的而消除此类表位先前已得到公开；参见例如，以引用的方式并入本文的WO 98/52976、WO 02/079232和WO 00/3317。用于人T细胞表位的测定已得到描述(Stickler，M.等人(2003)J Immunol Methods，281:95-108)。特别感兴趣的是可以寡聚化而不生成T细胞表位或非人序列的肽序列。这可以通过以下来实现：就T细胞表位的存在以及非人的6至15聚体且特别是9聚体序列的出现，测试这些序列的直接重复，然后改变XTEN多肽的设计以消除或破坏表位序列。在一些情况下，XTEN多肽通过限制预测为结合MHC受体的XTEN多肽的表位数目而是基本上无免疫原性的。随着能够结合MHC受体的表位数目的减少，存在关于T细胞活化的潜力以及T细胞辅助功能的伴随减少、减少的B细胞活化或上调以及减少的抗体产生。预测的T细胞表位的低程度可以通过表位预测算法来确定，所述算法例如TEPITOPE(Sturniolo，T.等人(1999)Nat Biotechnol，17:555-61)，如以引用方式全文并入的国际专利申请公开号WO 2010/144502 A2的实例74中所示。如Sturniolo，T.等人(1999)Nature Biotechnology 17:555)中公开的，在蛋白质内的给定肽构架的TEPITOPE评分是该肽构架与多重最常见的人MHC等位基因结合的K_d(解离常数、亲和力、解离速率)的对数。评分范围超过至少20个对数，约10至约-10(对应于10e¹⁰ K_d至10e^-10K_d的结合约束)，并且可以通过避免疏水性氨基酸而得到减少，所述疏水性氨基酸在MHC上的肽展示过程中可以充当锚定残基，例如M、I、L、V、F。在一些实施例中，掺入BPXTEN内的XTEN多肽不具有TEPITOPE评分为约-5或更大、或-6或更大、或-7或更大、或-8或更大，或TEPITOPE评分为-9或更大的预测T细胞表位。如本文使用的，“-9或更大”的评分将涵盖10至-9的TEPITOPE评分，包含端点在内，但不涵盖-10的评分，因为-10小于-9。

在另一个实施例中，本发明的XTEN多肽，包括掺入人或动物BPXTEN融合蛋白内的那些XTEN多肽，可以通过限制来自XTEN多肽序列的已知蛋白酶解位点，减少XTEN多肽加工成可以与MHC II受体结合的小肽，而致使基本上无免疫原性。在另一个实施例中，XTEN多肽可以通过使用基本上缺乏二级结构的序列，由于结构的高熵而赋予对许多蛋白酶的抗性，而致使基本上无免疫原性。相应地，减少的TEPITOPE评分和从XTEN多肽中消除已知蛋白酶解位点可以致使XTEN-多肽组合物，包括BPXTEN融合蛋白组合物的XTEN多肽，基本上不能被哺乳动物受体，包括免疫***的受体结合。在一个实施例中，BPXTEN融合蛋白的XTEN多肽可以具有针对哺乳动物细胞表面或循环多肽受体，与哺乳动物受体的>100nM K_d、或大于500nM K_d、或大于1μM K_d的结合。

另外，XTEN多肽的此类实施例的基本上非重复的序列和表位的相应缺乏，可以限制B细胞结合XTEN多肽或被XTEN多肽激活的能力。虽然XTEN多肽可以在其延伸序列上与许多不同的B细胞接触，但每个个别B细胞只能与个别XTEN多肽进行一次或少量接触。结果，XTEN多肽通常可以具有低得多的刺激B细胞增殖并因此刺激免疫应答的倾向。在一个实施例中，与未融合的相应BP相比，BPXTEN可以具有减少的免疫原性。在一个实施例中，向哺乳动物施用至多三个肠胃外剂量的BPXTEN可以导致在1:100的血清稀释度下，而不是在1:1000的稀释度下可检测到的抗BPXTEN IgG。在另一个实施例中，向哺乳动物施用至多三个肠胃外剂量的BPXTEN可以导致在1:100的血清稀释度下，而不是在1:1000的稀释度下可检测到的抗BP IgG。在另一个实施例中，向哺乳动物施用至多三个肠胃外剂量的BPXTEN可以导致在1:100的血清稀释度下，而不是在1:1000的稀释度下可检测到的抗XTEN IgG。在前述实施例中，哺乳动物可以是小鼠、大鼠、兔或食蟹猴。

相对于那些较少非重复的序列(例如具有相同的三个连续氨基酸的序列)，具有基本上非重复序列的XTEN多肽的某些实施例的另外特征可以是非重复的XTEN多肽与抗体形成更弱的接触(例如单价相互作用)，从而导致免疫清除的可能性较小，其中所述BPXTEN组合物可以在循环中保留增加的时间段。

在一些实施例中，与未连接至XTEN多肽的生物活性多肽相比，(融合)多肽是较少免疫原性的，其中免疫原性通过在向人或动物施用可比较的剂量后，测量选择性地结合生物活性多肽的IgG抗体的产生来确定。

间隔区和BP释放区段

在一些实施例中，分别BP的至少一部分生物活性由完整的BPXTEN保留。在一些实施例中，在其通过掺入BPXTEN内的间隔区序列内的任选切割序列的切割而从XTEN多肽中释放后，BP组分变得具有生物活性或具有增加的生物活性，如下文更充分地描述的。

任何间隔区序列组在由本发明涵盖的融合蛋白中是任选的。可以提供间隔区，以增强来自宿主细胞的融合蛋白的表达或降低空间位阻，其中BP组分可以采取其所需的三级结构和/或与其靶分子适当地相互作用。对于间隔区和鉴定期望间隔区的方法，参见例如，以引用的方式具体并入本文的George等人(2003)Protein Engineering 15:871-879。在一个实施例中，间隔区包含长度为1至50个氨基酸残基、或约1至25个残基、或长度为约1至10个残基的一种或多种肽序列。排除切割位点，间隔区序列可以包含20种天然L氨基酸中的任一种，并且优选包含空间上不受阻碍的亲水性氨基酸，其可以包括但不限于甘氨酸(G)、丙氨酸(A)、丝氨酸(S)、苏氨酸(T)、谷氨酸盐(E)和脯氨酸(P)。在一些实施例中，间隔区可以是聚甘氨酸或聚丙氨酸，或占优势地甘氨酸和丙氨酸残基的组合的混合物。排除切割序列的间隔区多肽在很大程度上基本上缺乏二级结构。在一个实施例中，BPXTEN融合蛋白组合物中的一个或两个间隔区序列还可以各自含有切割序列，其可以是相同的或可以是不同的，其中所述切割序列可以被蛋白酶作用，以从融合蛋白中释放BP。

在一些情况下，将切割序列掺入BPXTEN被设计为允许BP的释放，所述BP在其从XTEN多肽中释放后变得活性或更具活性。切割序列与BP序列定位足够接近，一般在BP序列末端的18个、或12个、或6个或2个氨基酸内，其中在切割后与BP附着的任何剩余残基并不明显干扰BP的活性(例如，与受体的结合)，而是提供与能够实现切割序列的切割的蛋白酶的足够接近。在一些实施例中，切割位点是可以通过对于哺乳动物人或动物内源性的蛋白酶切割的序列，其中BPXTEN可以在施用于人或动物后被切割。在这种情况下，BPXTEN可以充当BP的前药或循环贮库。由本发明考虑的切割位点的例子包括但不限于可被以下切割的多肽序列：选自FXIa、FXIIa、激肽释放酶、FVIIa、FIXa、FXa、FIIa(凝血酶)、弹性蛋白酶-2、颗粒酶B、MMP-12、MMP-13、MMP-17或MMP-20的哺乳动物内源性蛋白酶，或者非哺乳动物蛋白酶如TEV、肠激酶、PreScission^TM蛋白酶(鼻病毒3C蛋白酶)和分选酶A。已知被前述蛋白酶切割的序列是本领域已知的。示例性切割序列和序列内的切割位点以及序列变体在表7a中阐述。例如，凝血酶(活化凝血因子II)作用于序列LTPRSLLV(SEQ ID NO:222){Rawlings N.D.等人(2008)Nucleic Acids Res.，36:D320}，其将在序列中的位置4处的精氨酸后被切割。活性FIIa通过在磷脂和钙的存在下通过FXa切割FII而产生，并且位于凝血途径中的因子IX的下游。一旦激活，它在凝血中的天然作用就是切割纤维蛋白原，所述纤维蛋白原然后依次又起始血块形成。FIIa活性受到严格控制，并且仅在凝血对于适当止血是必需时才发生。然而，由于凝血是哺乳动物中的持续过程，因此通过将LTPRSLLV(SEQ ID NO:223)序列掺入BP和XTEN多肽之间的BPXTEN内，当生理上需要凝血时，XTEN多肽将在外源性或内源性凝血途径激活的同时从相邻的BP中去除，从而随着时间过去释放BP。类似地，将受内源性蛋白酶作用的其它序列掺入BPXTEN内，将提供BP的持续释放，在某些情况下，这可以对于来自BPXTEN的“前药”形式的BP提供更高程度的活性。

在一些情况下，仅侧接切割位点两侧的两个或三个氨基酸(总共四至六个氨基酸)将掺入切割序列内。在其它情况下，已知的切割序列可以对于已知序列中的任何一个或两个或三个氨基酸具有一个或多个缺失或***、或者一个或两个或三个氨基酸取代，其中所述缺失、***或取代导致对蛋白酶的敏感性减少或增强，而不是敏感性的缺乏，导致定制BP从XTEN中的释放速率的能力。示例性取代显示于表7a中。

表7a：用于BP释放的蛋白酶切割序列

↓指示切割位点；

NA：不适用；

*在斜线之前、之间或之后的多重氨基酸列表指示可以在该位置处取代的替代氨基酸；

“-”指示任何氨基酸都可以取代中间一列中指示的相应氨基酸

在一些实施例中，BPXTEN融合蛋白可以包含间隔区序列，其还可以包含一种或多种切割序列，所述切割序列被配置为当被蛋白酶作用时从融合蛋白中释放BP。在一些实施例中，一种或多种切割序列可以是与表7a中所示的序列具有至少约80％(例如，至少约85％、至少约90％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％)的序列同一性的序列。

在一些实施例中，本公开内容提供了BP释放区段肽(或释放区段(RS))，其是一种或多种哺乳动物蛋白酶的底物，所述哺乳动物蛋白酶与疾病组织或在疾病组织附近发现的细胞相关或者由其产生。此类蛋白酶可以包括但不限于例如金属蛋白酶、半胱氨酸蛋白酶、天冬氨酸蛋白酶和丝氨酸蛋白酶的蛋白酶类别，包括但不限于表7b中所示的蛋白酶。RS尤其可用于掺入人或动物重组多肽内，赋予可以通过RS被哺乳动物蛋白酶切割而激活的前药形式。如本文所述，将RS掺入人或动物重组多肽组合物内，将掺入的结合部分连接至XTEN(其构型在下文更充分地描述)，其中在RS通过RS是其底物的一种或多种蛋白酶的作用切割后，结合部分和XTEN从组合物中释放，并且不再被XTEN屏蔽的结合部分重新获得其结合其配体的全部潜力。在包含第一抗体片段和第二抗体片段的那些重组多肽组合物中，组合物在本文中也被称为可激活抗体组合物(AAC)。

表7b：靶组织的蛋白酶

在一个实施例中，本公开内容提供了包含第一释放区段(RS1)序列的可激活重组多肽，当最佳比对时，所述第一释放区段序列与选自表8a中所示的序列的序列具有至少88％、或至少94％、或100％的序列同一性，其中所述RS1是一种或多种哺乳动物蛋白酶的底物。在其它实施例中，本公开内容提供了包含RS1和第二释放区段(RS2)序列的可激活重组多肽，当最佳比对时，所述释放区段序列各自与选自表8a中所示的序列的序列具有至少88％、或至少94％、或100％的序列同一性，其中所述RS1和RS2各自是一种或多种哺乳动物蛋白酶的底物。在另一个实施例中，公开内容提供了包含第一RS(RS1)序列的可激活重组多肽，当最佳比对时，所述第一RS序列与选自表8a中所示的序列的序列具有至少90％、至少93％、至少97％、或100％的同一性，其中所述RS是一种或多种哺乳动物蛋白酶的底物。在其它实施例中，本公开内容提供了包含RS1和第二释放区段(RS2)序列的可激活重组多肽，当最佳比对时，所述释放区段序列各自与选自表8b中所示的序列的序列具有至少88％、或至少94％、或100％的序列同一性，其中所述RS1和RS2各自是一种或多种哺乳动物蛋白酶的底物。在包含RS1和RS2的可激活重组多肽的实施例中，两个释放区段可以是相同的或序列可以是不同的。

本公开内容考虑了其为一种、两种或三种不同蛋白酶类别的底物的释放区段，所述蛋白酶类别选自金属蛋白酶、半胱氨酸蛋白酶、天冬氨酸蛋白酶和丝氨酸蛋白酶，包括表7b中所示的蛋白酶。在一个特定特征中，RS充当与疾病组织或细胞密切相关发现或共定位的蛋白酶的底物，所述疾病组织或细胞例如但不限于肿瘤、癌细胞和炎症组织，并且在RS切割后，否则被人或动物重组多肽组合物的XTEN屏蔽(并且因此对于其分别的配体具有较低的结合亲和力)的结合部分从组合物中释放，并且重新获得其结合靶和/或效应细胞配体的全部潜力。在另一个实施例中，人或动物重组多肽组合物的RS包含其为定位于靶向细胞内的细胞蛋白酶的底物的氨基酸序列，所述细胞蛋白酶包括但不限于表7b中所示的蛋白酶。在人或动物重组多肽组合物的另一个特定特征中，其为两种或三种蛋白酶类别的底物的RS被设计为具有能够在RS序列的不同位置被不同蛋白酶切割的序列。因此，其为两种、三种或更多种蛋白酶类别的底物的RS具有在RS序列中的两个、三个或多个不同的切割位点，但通过单一蛋白酶的切割仍导致结合部分和XTEN从包含RS的重组多肽组合物中的释放。

在一个实施例中，用于掺入人或动物重组多肽组合物内的本公开内容的RS是一种或多种蛋白酶的底物，所述蛋白酶包括穿膜肽酶、脑啡肽酶(CD10)、PSMA、BMP-1、去整合素和金属蛋白酶(ADAM)、ADAM8、ADAM9、ADAM10、ADAM12、ADAM15、ADAM17(TACE)、ADAM19、ADAM28(MDC-L)、具有血小板反应蛋白基序的ADAM(ADAMTS)、ADAMTS1、ADAMTS4、ADAMTS5、MMP-1(胶原酶1)、基质金属蛋白酶-1(MMP-1)、基质金属蛋白酶-2(MMP-2、明胶酶A)、基质金属蛋白酶-3(MMP-3、基质分解素1)、基质金属蛋白酶-7(MMP-7、基质溶素1)、基质金属蛋白酶-8(MMP-8、胶原酶2)、基质金属蛋白酶-9(MMP-9、明胶酶B)、基质金属蛋白酶-10(MMP-10、基质分解素2)、基质金属蛋白酶-11(MMP-11、基质分解素3)、基质金属蛋白酶-12(MMP-12、巨噬细胞弹性蛋白酶)、基质金属蛋白酶-13(MMP-13、胶原酶3)、基质金属蛋白酶-14(MMP-14、MT1-MMP)、基质金属蛋白酶-15(MMP-15、MT2-MMP)、基质金属蛋白酶-19(MMP-19)、基质金属蛋白酶-23(MMP-23、CA-MMP)、基质金属蛋白酶-24(MMP-24、MT5-MMP)、基质金属蛋白酶-26(MMP-26、基质溶素2)、基质金属蛋白酶-27(MMP-27、CMMP)、legumain、组织蛋白酶B、组织蛋白酶C、组织蛋白酶K、组织蛋白酶L、组织蛋白酶S、组织蛋白酶X、组织蛋白酶D、组织蛋白酶E、分泌酶、尿激酶(uPA)、组织型纤溶酶原激活物(tPA)、纤溶酶、凝血酶、***特异性抗原(PSA、KLK3)、人嗜中性粒细胞弹性蛋白酶(HNE)、弹性蛋白酶、类胰蛋白酶、II型跨膜丝氨酸蛋白酶(TTSP)、DESC1、hepsin(HPN)、蛋白裂解酶、蛋白裂解酶-2、TMPRSS2、TMPRSS3、TMPRSS4(CAP2)、成纤维细胞活化蛋白(FAP)、激肽释放酶相关肽酶(KLK家族)、KLK4、KLK5、KLK6、KLK7、KLK8、KLK10、KLK11、KLK13和KLK14。在一个实施例中，RS是ADAM17的底物。在一个实施例中，RS是BMP-1的底物。在一个实施例中，RS是组织蛋白酶的底物。在一个实施例中，RS是HtrA1的底物。在一个实施例中，RS是legumain的底物。在一个实施例中，RS是MMP-1的底物。在一个实施例中，RS是MMP-2的底物。在一个实施例中，RS是MMP-7的底物。在一个实施例中，RS是MMP-9的底物。在一个实施例中，RS是MMP-11的底物。在一个实施例中，RS是MMP-14的底物。在一个实施例中，RS是uPA的底物。在一个实施例中，RS是蛋白裂解酶的底物。在一个实施例中，RS是MT-SP1的底物。在一个实施例中，RS是嗜中性粒细胞弹性蛋白酶的底物。在一个实施例中，RS是凝血酶的底物。在一个实施例中，RS是TMPRSS3的底物。在一个实施例中，RS是TMPRSS4的底物。在一个实施例中，人或动物重组多肽组合物的RS是至少两种蛋白酶的底物，所述两种蛋白酶是legumain、MMP-1、MMP-2、MMP-7、MMP-9、MMP-11、MMP-14、uPA和蛋白裂解酶。在另一个实施例中，人或动物重组多肽组合物的RS是legumain、MMP-1、MMP-2、MMP-7、MMP-9、MMP-11、MMP-14、uPA和蛋白裂解酶的底物。

表8a：BP释放区段序列。

表8b：释放区段序列

在另一个方面，用于掺入人或动物重组多肽内的RS可以被设计为选择性敏感的，以便对于它们为其底物的各种蛋白酶具有不同的切割速率和不同的切割效率。由于与健康组织或循环中相比，给定蛋白酶可以在患病组织中以不同浓度发现，所述患病组织包括但不限于肿瘤、血液癌症或炎症组织或炎症部位，因此本公开内容提供了这样的RS，其已具有改造为对于给定蛋白酶具有更高或更低切割效率的个别氨基酸序列，以便确保当接近靶细胞或组织及其共定位的蛋白酶时，与RS在健康组织或循环中的切割速率相比，重组多肽优先从前药形式转换为活性形式(即，在RS的切割后，通过结合部分和XTEN从重组多肽中的分离和释放)，其中与保留在循环中的前药形式相比，所述释放的抗体片段结合部分具有与患病组织中的配体结合的更大能力。通过此类选择性设计，可以改善所得到的组合物的治疗指数，导致相对于并不掺入此类位点特异性活化的常规治疗剂减少的副作用。

如本文使用的，切割效率定义为在其中进行反应的生物化学测定中(在实例中进一步详述)，当各自是蛋白酶的人或动物的时，切割的包含RS的测试底物的百分比与切割的对照底物AC1611的百分比与比率的log₂值，其中初始底物浓度为6μM，反应在37℃下温育2小时，然后通过添加EDTA停止，其中消化产物和未切割底物的量通过非还原SDS-PAGE进行分析，以确定切割百分比的比率。切割效率计算如下：

因此，-1的切割效率意味着与对照底物相比，切割的测试底物的量为50％，而+1的切割效率意味着与对照底物相比，切割的测试底物的量为200％。通过测试蛋白酶相对于对照的较高切割速率将导致较高的切割效率，而通过测试蛋白酶相对于对照的较慢切割速率将导致较低的切割效率。如实例中详述的，当在体外生物化学测定中测试通过个别蛋白酶的切割速率时，具有氨基酸序列EAGRSANHEPLGLVAT(SEQID NO:8261)的对照RS序列AC1611(RSR-1517)被确定为具有通过蛋白酶legumain、MMP-2、MMP-7、MMP-9、MMP-14、uPA和蛋白裂解酶的适当的基线切割效率。通过选择性取代RS肽中的各个位置处的氨基酸，创建了RS文库，并且针对7种蛋白酶的实验对象组进行评估(在实例中更充分地详述)，导致用于建立关于适当氨基酸取代的指南的概况，以便实现具有所需切割效率的RS。在制备具有所需切割效率的RS时，使用亲水性氨基酸A、E、G、P、S和T的取代是优选的，然而，其它L-氨基酸可以在给定位置处进行取代，以便调整切割效率，只要RS保留被蛋白酶切割的至少一些敏感性。肽中的氨基酸的保守取代以保留或影响活性完全在本领域技术人员的知识和能力内。在一个实施例中，本公开内容提供了RS，其中RS被选自legumain、MMP-1、MMP-2、MMP-7、MMP-9、MMP-11、MMP-14、uPA或蛋白裂解酶的蛋白酶切割，与具有序列EAGRSANHEPLGLVAT(SEQ ID NO:8261)的对照序列RSR-1517被相同蛋白酶的切割相比，在体外生物化学竞争测定中，具有高至少0.2log₂、或0.4log₂、或0.8log₂、或1.0log₂的切割效率。在另一个实施例中，本公开内容提供了RS，其中RS被选自legumain、MMP-1、MMP-2、MMP-7、MMP-9、MMP-11、MMP-14、uPA或蛋白裂解酶的蛋白酶切割，与具有序列EAGRSANHEPLGLVAT(SEQ ID NO:8261)的对照序列RSR-1517被相同蛋白酶的切割相比，在体外生物化学竞争测定中，具有低至少0.2log₂、或0.4log₂、或0.8log₂、或1.0log₂的切割效率。在一个实施例中，本公开内容提供了RS，其中与具有序列EAGRSANHEPLGLVAT(SEQ IDNO:8261)的对照序列RSR-1517相比，RS被选自legumain、MMP-1、MMP-2、MMP-7、MMP-9、MMP-11、MMP-14、uPA或蛋白裂解酶的蛋白酶的切割速率是至少2倍、或至少4倍、或至少8倍、或至少16倍。在另一个实施例中，本公开内容提供了RS，其中与具有序列EAGRSANHEPLGLVAT(SEQID NO:8261)的对照序列RSR-1517相比，RS被选自legumain、MMP-1、MMP-2、MMP-7、MMP-9、MMP-11、MMP-14、uPA或蛋白裂解酶的蛋白酶的切割速率是至多1/2、或至多1/4、或至多1/8、或至多1/16。

在另一个方面，本公开内容提供了包含多重RS的AAC，其中每个RS序列选自表8a中所示的序列组，并且RS通过选自甘氨酸、丝氨酸、丙氨酸和苏氨酸的1至6个氨基酸彼此连接。在一个实施例中，AAC包含第一RS和不同于第一RS的第二RS，其中每个RS序列选自表8a中所示的序列组，并且RS通过选自甘氨酸、丝氨酸、丙氨酸和苏氨酸的1至6个氨基酸彼此连接。在另一个实施例中，AAC包含第一RS、不同于第一RS的第二RS、以及不同于第一RS和第二RS的第三RS，其中每个序列选自表8a中所示的序列组，并且第一RS和第二RS和第三RS通过选自甘氨酸、丝氨酸、丙氨酸和苏氨酸的1至6个氨基酸彼此连接。特别预期AAC的多重RS可以串联以形成序列，其可以被多重蛋白酶以不同的切割速率或切割效率切割。在另一个实施例中，本公开内容提供了AAC，其包含选自表8a-8b中所示的序列组的RS1和RS2、以及XTEN1和XTEN 2，例如上文描述或本文其它地方描述的那些，其中RS1在XTEN1和结合部分之间融合，并且RS2在XTEN2和结合部分之间融合。与健康组织或在正常循环中时相比，考虑此类组合物将更容易被表达多重蛋白酶的患病靶组织切割，结果是所得到的带有结合部分的片段将更容易穿透靶组织；例如肿瘤，并且具有增强的结合靶细胞和效应细胞(或在设计为具有单个结合部分的AAC的情况下，仅靶细胞)并且将二者连接的能力。

本公开内容的RS可作为治疗剂用于包括在重组多肽中，用于治疗癌症、自身免疫性疾病、炎性疾病和其中重组多肽的局限性活化是期望的其它状况。人或动物组合物解决了未满足的需求，并且与在注射后具有活性的常规抗体治疗剂或双特异性抗体治疗剂相比，在一个或多个方面是优越的，所述方面包括增强的终末半衰期、靶向递送和改善的治疗比率，伴随对健康组织的减少毒性。

在一些实施例中，(融合)多肽包含定位于(第一)XTEN和生物活性多肽之间的第一释放区段(RS1)。在一些实施例中，多肽还包含定位于生物活性多肽和第二XTEN之间的第二释放区段(RS2)。在一些实施例中，RS1和RS2序列相同。在一些实施例中，RS1和RS2序列不同。在一些实施例中，RS1包含与表8a-8b中所示的序列具有至少90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的序列同一性的氨基酸序列。在一些实施例中，RS2包含与表8a-8b中所示的序列具有至少90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的序列同一性的氨基酸序列。在一些实施例中，RS1和RS2各自是用于被多重蛋白酶在每个释放区段序列内的一个、两个或三个切割位点处切割的底物。

参考片段

在一些实施例中，(融合)多肽还包含在被蛋白酶消化后可从多肽中释放的一个或多个参考片段。在一些实施例中，一个或多个参考片段各自包含生物活性多肽的一部分。在一些实施例中，一个或多个参考片段是在序列和分子量方面不同于多肽被蛋白酶消化后可从多肽中释放的所有其它肽片段的单个参考片段。

多肽混合物

本文公开的包括包含各种长度的多种多肽的混合物；该混合物包含第一组多肽和第二组多肽。在一些实施例中，第一组多肽中的每种多肽包含条形码片段，其(a)可通过用蛋白酶消化从多肽中释放，并且(b)具有的序列和分子量不同于可从第一组多肽中释放的所有其它片段的序列和分子量。在一些实施例中，第二组多肽缺少第一组多肽的条形码片段。在一些实施例中，第一组多肽和第二组多肽两者各自包含参考片段，其(a)是第一组多肽和第二组多肽共有的，并且(b)可通过用蛋白酶消化释放。在一些实施例中，第一组多肽/包含参考片段的多肽的比率大于0.70。在一些实施例中，第一组多肽/包含参考片段的多肽的比率大于0.8、0.9、0.95或0.98。在一些实施例中，参考片段在第一组多肽和第二组多肽中的每种多肽中出现不多于一次。在一些实施例中，蛋白酶是在谷氨酸残基的C末端侧上切割的蛋白酶。在一些实施例中，蛋白酶是Glu-C蛋白酶。在一些实施例中，蛋白酶不是胰蛋白酶。在一些实施例中，各种长度的多肽包括包含至少一种延伸重组多肽(XTEN)的多肽，例如上文描述或本文其它任何地方描述的任何多肽。在一些实施例中，第一组多肽包含全长多肽，其中所述条形码片段是全长多肽的一部分。在一些实施例中，全长多肽是(融合)多肽，例如上文描述或本文其它任何地方描述的任何多肽。在一些实施例中，条形码片段缺少(不包含)全长多肽的N末端氨基酸和C末端氨基酸两者。在一些实施例中，各种长度的多肽的混合物由于全长多肽的N末端截短、C末端截短或N末端和C末端截短两者而彼此不同。在一些实施例中，第一组多肽和第二组多肽可以在一种或多种药理性质方面不同。非限制性的示例性性质包括。

多肽表征方法

本文公开的包括在包含各种长度的多肽的混合物中，用于评价混合物中的第一组多肽与混合物中的第二组多肽的相对量的方法，其中(1)第一组多肽中的每种多肽共享在多肽中出现一次且仅一次的条形码片段，并且(2)第二组多肽中的每种多肽缺乏由第一组多肽共享的条形码片段，其中所述第一多肽和第二组多肽两者中的各个多肽各自包含参考片段。该方法可以包括使混合物与蛋白酶接触，以产生来源于第一组多肽和第二组多肽的切割的多个蛋白酶解片段，其中所述多个蛋白酶解片段包含多个参考片段和多个条形码片段。该方法还可以包括确定条形码片段的量/参考片段的量的比率，从而评价第一组多肽与第二组多肽的相对量。在一些实施例中，条形码片段在第一组多肽中的每种多肽中出现不多于一次。在一些实施例中，参考片段在第一组多肽和第二组多肽中的每种多肽中出现不多于一次。在一些实施例中，多个蛋白酶解片段包含多个参考片段和多个条形码片段。在一些实施例中，蛋白酶在谷氨酸残基的C末端侧上切割第一组多肽和第二组多肽(或各种长度的多肽)，所述谷氨酸残基随后并非脯氨酸残基。在一些实施例中，蛋白酶是Glu-C蛋白酶。在一些实施例中，蛋白酶不是胰蛋白酶。在一些实施例中，确定条形码片段的量/参考片段的量的比率的步骤包括在混合物已与蛋白酶接触后，定量来自混合物的条形码片段和参考片段。在一些实施例中，条形码片段和参考片段基于其分别的质量进行鉴定。在一些实施例中，条形码片段和参考片段经由质谱法进行鉴定。在一些实施例中，条形码片段和参考片段经由液相色谱-质谱法(LC-MS)进行鉴定。在一些实施例中，确定条形码片段/参考片段的比率的步骤包括同量异序标记。在一些实施例中，确定条形码片段/参考片段的比率的步骤包括用同位素标记的参考片段和同位素标记的条形码片段之一或两者掺料混合物。在一些实施例中，各种长度的多肽包括包含至少一种延伸重组多肽(XTEN)的多肽，如上文描述或本文其它任何地方描述的。在一些实施例中，XTEN的特征在于(i)它包含至少150个氨基酸；(ii)XTEN的至少90％的氨基酸残基选自甘氨酸(G)、丙氨酸(A)、丝氨酸(S)、苏氨酸(T)、谷氨酸盐(E)和脯氨酸(P)；并且(iii)它包含选自G、A、S、T、E和P的至少4种不同类型的氨基酸。在一些实施例中，当存在时，条形码片段是XTEN的一部分。在一些实施例中，各种长度的多肽的混合物包含如上文描述或本文其它任何地方描述的任何多肽。在一些实施例中，各种长度的多肽包含全长多肽及其截短片段。在一些实施例中，各种长度的多肽基本上由全长多肽及其截短片段组成。在一些实施例中，各种长度的多肽的混合物由于全长多肽的N末端截短、C末端截短或N末端和C末端截短两者而彼此不同。在一些实施例中，全长多肽是如上文描述或本文其它任何地方描述的多肽。在一些实施例中，条形码片段/参考片段的量的比率大于0.5、0.6、0.7、0.8、0.9、0.95、0.98或0.99。

基于同量异序标记的肽定量

在一些实施例中，同量异序标记可以用于确定条形码片段/参考片段的比率。普通技术人员将理解，同量异序标记是定量蛋白质组学中使用的质谱法策略，其中肽或蛋白质(或其一部分)用各种化学基团进行标记，所述化学基团是同量异序的(质量相同)，但在其结构周围的重同位素分布方面不同。通常被称为串联质量标签的这些标签这样进行设计，使得在串联质谱法期间，在高能碰撞诱导解离(CID)后，质量标签在特异性接头区域处被切割，从而产生不同质量的报告离子。普通技术人员将理解最常见的同量异序标签之一是胺反应性标签。

检测和定量截短产物(例如，经由同量异位标记)的增强能力可以生成可以帮助设计包括纯化步骤的制造工艺的知识，以使纯化的原料药/产物中不需要的变体的存在降到最低。

重组生产

本文的公开内容包括核酸。核酸可以包含编码(融合)多肽的多核苷酸(或多核苷酸序列)，例如上文描述或本文其它任何地方描述的任何多肽；或者核酸可以包含此类多核苷酸(或多核苷酸序列)的反向互补体。

本文的公开内容包括表达载体，其包含多核苷酸序列例如在前一段中描述的任何多核苷酸序列，以及可操作地连接到多核苷酸序列的调控序列。

本文的公开内容包括包含例如在前一段中描述的表达载体的宿主细胞。在一些实施例中，宿主细胞是原核生物。在一些实施例中，宿主细胞是大肠杆菌。在一些实施例中，宿主细胞是哺乳动物细胞。

在另一个方面，本公开内容提供了制造人或动物组合物的方法。在一个实施例中，该方法包括在促进多肽或BPXTEN融合多肽表达的条件下，培养包含核酸构建体的宿主细胞，所述核酸构建体编码本文所述的任何实施例的多肽或含XTEN的组合物，随后使用其中回收组合物的标准纯化方法(例如，柱色谱法、HPLC等等)回收多肽或BPXTEN融合多肽，其中所表达多肽或BPXTEN融合多肽的至少70％、或至少80％、或至少90％、或至少95％、或至少97％、或至少99％的结合片段是正确折叠的。在制备方法的另一个实施例中，回收所表达的多肽或BPXTEN融合多肽，其中至少或至少90％、或至少95％、或至少97％、或至少99％的多肽或BPXTEN融合多肽以单体、可溶形式回收。

在另一个方面，本公开内容涉及使用大肠杆菌或哺乳动物宿主细胞，在功能性蛋白质的高发酵表达水平下，制备多肽和BPXTEN融合多肽，以及提供编码可用于方法中的构建体的表达载体，以产生以高表达水平的细胞毒性活性多肽构建体组合物的方法。在一个实施例中，该方法包括以下步骤：1)制备编码本文公开的任何实施例的多肽的多核苷酸，2)将多核苷酸克隆到表达载体内，所述表达载体可以是在适当的转录和翻译序列的控制下以用于在生物***中的高水平蛋白质表达的质粒或其它载体，3)用表达载体转化适当的宿主细胞，并且4)在适合多肽组合物表达的条件下，在常规营养培养基中培养宿主细胞。需要时，宿主细胞是大肠杆菌。通过该方法，多肽的表达导致至少0.05g/L、或至少0.1g/L、或至少0.2g/L、或至少0.3g/L、或至少0.5g/L、或至少0.6g/L、或至少0.7g/L、或至少0.8g/L、或至少0.9g/L、或至少1g/L、或至少2g/L、或至少3g/L、或至少4g/L、或至少5g/L的宿主细胞的表达产物的发酵滴度，并且其中至少70％、或至少80％、或至少90％、或至少95％、或至少97％、或至少99％的表达蛋白质是正确折叠的。如本文使用的，术语“正确折叠的”意指组合物的抗原结合片段组分具有特异性结合其靶配体的能力。在另一个实施例中，本公开内容提供了用于产生多肽或BPXTEN融合多肽的方法，该方法包括在有效表达多肽产物的条件下，在发酵反应中培养宿主细胞，所述宿主细胞包含编码包含多肽或BPXTEN融合多肽的多肽的载体，当发酵反应在600nm的波长处达到至少130的光密度时，所述多肽产物的浓度大于约10毫克/克干重宿主细胞(mg/g)、或至少约250mg/g、或约300mg/g、或约350mg/g、或约400mg/g、或约450mg/g、或约500mg/g的所述多肽，并且其中所表达蛋白质的抗原结合片段是正确折叠的。在另一个实施例中，本公开内容提供了用于产生多肽或BPXTEN融合多肽的方法，该方法包括在有效表达多肽产物的条件下，在发酵反应中培养宿主细胞，所述宿主细胞包含编码组合物的载体，当发酵反应在600nm的波长处达到至少130的光密度时，所述多肽产物的浓度大于约10毫克/克干重宿主细胞(mg/g)、或至少约250mg/g、或约300mg/g、或约350mg/g、或约400mg/g、或约450mg/g、或约500mg/g的所述多肽，并且其中所表达的多肽产物是可溶性的。

药物组合物

本文公开的包括药物组合物，其包含BPXTEN多肽，例如上文描述或本文其它任何地方描述的任何多肽，以及一种或多种药学上可接受的赋形剂。在一些实施例中，药物组合物被配制用于皮内、皮下、静脉内、动脉内、腹内、腹膜内、玻璃体内、鞘内或肌内施用。在一些实施例中，药物组合物是液体形式。在一些实施例中，药物组合物在植入眼或另一个身体部位内的装置中。在一些实施例中，药物组合物在用于单次注射的预填充注射器中。在一些实施例中，药物组合物配制为冻干粉末以在施用之前重构。

在一些实施例中，皮内、皮下、静脉内、玻璃体内(或以其它方式注射到眼内)、动脉内、腹内、腹膜内、鞘内或肌内施用剂量。在一些实施例中，使用植入眼或其它身体部位内的装置施用药物组合物。在一些实施例中，人或动物是小鼠、大鼠、猴或人。

可以通过任何合适的途径施用药物组合物用于治疗。另外，药物组合物还可以含有其它药物活性化合物或多种本发明的化合物。

在一些实施例中，可以以治疗有效剂量施用药物组合物。在前述的一些情况下，治疗有效剂量导致与未连接至融合蛋白并以可比较的剂量施用于人或动物的融合蛋白的相应BP相比，在关于融合蛋白的治疗窗内花费时间的增加。

在另一个实施例中，本发明提供了治疗疾病、病症或状况的方法，其包括使用药物组合物的多重连续剂量，将上述药物组合物施用于人或动物，所述多重连续剂量使用治疗有效剂量方案进行施用。

本发明的BPXTEN多肽可以根据已知方法进行配制，以制备药学上有用的组合物，由此多肽与药学上可接受的载体媒介物，例如水溶液或缓冲液、药学上可接受的悬浮液和乳状液组合。通过将具有所需程度的纯度的活性成分与任选的生理学上可接受的载体、赋形剂或稳定剂混合，来制备用于贮存的治疗制剂，如Remington’s PharmaceuticalSciences第16版，Osol，A.编辑(1980)中所述。

药物试剂盒

在另一个方面，本发明提供了促进BPXTEN多肽的使用的试剂盒。在一个实施例中，试剂盒在至少第一容器中包含：(a)在向有此需要的人或动物施用后，足以治疗疾病、状况或病症的一定量的BPXTEN融合蛋白组合物；以及(b)一定量的药学上可接受的载体；一起在准备用于注射或者用无菌水、缓冲液或右旋糖重构的制剂中；连同标识BPXTEN药物以及贮存和处理条件的标签，以及以下的传单：关于药物的批准适应症，用于重构和/或施用BPXTEN药物以用于预防和/或治疗批准适应症、适当剂量和安全信息的说明书，以及标识药物批次和有效期的信息。在前述的另一个实施例中，试剂盒可以包含第二容器，所述第二容器可以携带用于BPXTEN组合物的合适稀释剂，其为使用者提供适当浓度的BPXTEN以递送至人或动物。

治疗方法

本文公开的包括多肽，例如上文描述或本文其它任何地方描述的任何多肽，在制备用于治疗人或动物中的疾病的药物中的用途。在一些实施例中，待治疗的特定疾病取决于生物活性蛋白质的选择。在一些实施例中，疾病是癌症。

本文公开的包括治疗人或动物中的疾病的方法，该方法包括向有此需要的人或动物施用一个或多个治疗有效剂量的药物组合物，例如上文描述或本文其它任何地方描述的任何药物组合物。在一些实施例中，疾病是癌症。在一些实施例中，药物组合物作为一个或多个治疗有效剂量施用于人或动物，所述治疗有效剂量根据剂量方案施用。在一些实施例中，人或动物是小鼠、大鼠、猴或人。

下述是本公开内容的组合物和组合物评估的实例。应理解，鉴于上文提供的一般描述，可以实践各种其它实施例。

实例

实例1.通过来自通用XTEN的最小突变设计加条形码的XTEN

该实例示出了通过制备通用XTEN多肽(例如上文表3b之一)的氨基酸序列的最小突变，加条形码的XTEN多肽的示例性设计方法。用于执行最小突变的有关标准包括下述中的一种或多种：(a)使相应XTEN多肽的序列变化降到最低；(b)使相应XTEN多肽中的氨基酸组成变化降到最低；(c)基本上维持相应XTEN多肽的净电荷；(d)基本上维持相应XTEN多肽的低免疫原性；并且(e)基本上维持由XTEN多肽提供的药代动力学性质。

例如，加条形码的XTEN通过对表9中的通用XTEN执行一种或多种突变进行构建，所述突变包含谷氨酸残基的缺失、谷氨酸残基的***、谷氨酸残基的取代、或取代谷氨酸残基或其任何组合。

表9.用于加条形码的XTEN多肽的改造的四种通用XTEN

实例2.用于与生物活性多肽(“BP”)融合的加条形码的XTEN多肽的序列分析及其选择

该实例示出了用于与生物活性多肽融合的加条形码的XTEN多肽(以及多于一种加条形码的XTEN组装成一组)的设计和选择。取决于条形码片段在XTEN内的位置，以及其中XTEN多肽与生物活性蛋白质融合以形成含有XTEN多肽的构建体(例如，XTEN化蛋白酶激活的T细胞接合剂(XPAT))的方式，所述条形码片段可以指示XTEN多肽的截短。

对两种示例性XTEN多肽(XTEN864和XTEN288_1)执行在计算机中(In silico)的GluC消化分析，以定量在XTEN多肽的完全GluC消化后可释放的肽片段。在计算机中的分析考虑到，对于具有连续谷氨酸残基(例如，“EE”)的XTEN多肽，GluC可以在任一个谷氨酸残基后切割。如下表10中概括的结果所示，10聚体肽序列“TPGTSTEPSE(SEQ ID NO:8880)”和14聚体肽序列“GSAPGSEPATSGSE(SEQ ID NO:8881)”各自在较长的XTEN864中出现一次且仅一次，而所有其它肽序列在XTEN864中出现两次或更多次。并且14聚体肽序列“GSAPGSEPATSGSE(SEQ ID NO:8881)”也在较短的XTEN288_1中出现一次且仅一次。

相对于可从含有XTEN多肽的构建体中释放的所有其它肽片段评价候选条形码的唯一性。相应地，一种XTEN多肽中的条形码序列不能出现在含有XTEN多肽的构建体中的其它任何地方(包括其中包含的任何其它XTEN多肽、其中包含的任何生物活性蛋白质或其中相邻组分之间的任何连接)。例如，表11显示了一个有两种XTEN多肽的组的肽“唯一性”表。由于其存在于XTEN864和XTEN288两者中，14聚体肽序列“GSAPGSEPATSGSE(SEQ ID NO:8881)不是包含XTEN864和XTEN288两者的XTEN多肽组中唯一的，并且因此不能用作检测含有这两种XTEN多肽的多肽产品中的截短的条形码。

条形码(或一组条形码)的选择还可以涉及鉴定且确定候选条形码在XTEN多肽内的适当定位或位置。候选条形码的定位或位置可以与XTEN多肽(以及作为整体的含有XTEN多肽的构建体)的药理学有关信息相关，例如XTEN多肽的截短超出临界长度和/或XTEN多肽中的缺失。如果将XTEN864置于含有XTEN多肽的产物的N末端处，并且如果从产物的N末端238个氨基酸的截短并不显著影响产物的药理性质，则10聚体肽“TPGTSTEPSE(SEQ ID NO:8880)”可以充当合适的条形码片段。

表10.用于GluC消化分析的代表性XTEN序列

表11.肽“唯一性”分析

所有加下划线的序列都产生唯一的GluC肽

非XTEN核心是加下划线且斜体的

条形码肽是粗体的

示例性条形码肽序列在下表12中示出。这些条形码序列应该根据结构式(I)进行侧接：

AAA-Glu-条形码肽-BBB，

其中“AAA”代表Gly、Ala、Ser、Thr或Pro，并且“BBB”代表Gly、Ala、Ser或Thr，其被配置为通过GluC消化促进条形码肽的有效释放。值得注意的是，在XTEN中***每个条形码肽可以得到紧邻***的条形码肽之前或之后的额外的唯一序列。

表12.合适条形码肽的列表

实例3：完全序列XTEN化多肽构建体中XTEN的设计和选择

该实例示出了完全序列多肽构建体的设计，所述完全序列多肽构建体含有一个在N末端处且另一个在C末端处的两个XTEN多肽。

下表13示出了用于代表性的加条形码的BPXTEN(在N末端和C末端两者处均含有加条形码的XTEN多肽)和参考BPXTEN(在N末端和C末端两者处均含有通用XTEN)中的XTEN多肽。在代表性的加条形码的BPXTEN中，加条形码的XTEN多肽(SEQ ID No.8014)在BP的N末端处融合，并且另一个加条形码的XTEN多肽(SEQ ID No.8015)在BP的C末端处融合。在参考BPXTEN中，“Ref-N”XTEN多肽(SEQ ID No.8896)在BP的N末端处融合，并且“Ref-C”XTEN多肽(SEQ ID No.8897)在BP的C末端处融合。“Ref-N”XTEN多肽(SEQ ID No.8896)在长度上与加条形码的XTEN多肽SEQ ID No.8014可比较；并且“Ref-C”XTEN多肽(SEQ ID No.8897)在长度上与加条形码的XTEN多肽SEQ ID No.8015可比较。加条形码的BPXTEN和参考BPXTEN各自含有在BP组分中的参考序列。参考序列是唯一的，并且在分子量方面不同于在被GluC蛋白酶完全消化(例如，根据实例5)后可从相应BPXTEN中释放的所有其它肽片段。相对于可从BPXTEN构建体中释放的所有其它肽片段评价参考序列的唯一性。

表13.全长BPXTEN构建体中使用的代表性N末端和C末端XTEN组

实例4：加条形码的XTEN化融合多肽的重组构建和生产

实例4a-4b示出了使用本文公开的方法重组构建、生产和纯化含有加条形码的XTEN多肽的全长多肽。

实例4a.在C末端处含有加条形码的XTEN的XTEN化融合多肽

表达：编码含有抗EpCAM单链可变片段(scFv)和在C末端处的长864个氨基酸的加条形码的XTEN序列(SEQ ID NO:8008)的XTEN化融合多肽的构建体，在有专利权的大肠杆菌AmE098菌株中表达，并且经由N末端分泌前导序列(MKKNIAFLLASMFVFSIATNAYA-)(SEQ IDNO:8898)分配到周质内，所述N末端分泌前导序列在易位过程中被切割。发酵培养物在37℃下用无动物成分复合培养基生长；并且在磷酸盐耗尽之前将温度转变为26℃。在收获期间，将发酵全肉汤离心，以使细胞形成团块。在收获时，记录总体积和湿细胞重量(WCW；团块/上清液的比率)，并且收集形成团块的细胞并在-80℃下冷冻。

回收：将冷冻的细胞团块重悬浮于靶向30％湿细胞重量的裂解缓冲液(17.7mM柠檬酸、22.3mM Na₂HPO₄、75mM NaCl、2mM EDTA，pH 4.0)中。允许重悬浮液在pH 4下平衡，然后经由在800±50巴下的两次通过进行匀浆化，同时监测输出温度并将其维持在15±5℃下。确认匀浆的pH在指定范围内(pH 4.0±0.2)。

澄清：为了减少内毒素和宿主细胞杂质，允许匀浆经历低温(10±5℃)、酸性(pH4.0±0.2)絮凝过夜(15-20小时)。为了去除不溶性级分，将絮凝的匀浆在2-8℃下以16,900RCF离心40分钟，并且保留上清液。上清液用Milli-Q水(MQ)稀释大约3倍，然后用5MNaCl调整至7±1mS/cm。为了去除核酸、脂质和内毒素并充当助滤剂，将上清液调整为0.1％(m/m)硅藻土。为了保持助滤剂悬浮，上清液经由叶轮进行混合，并且允许平衡30分钟。组装由深度过滤器随后为0.22μm过滤器组成的过滤器串，然后用MQ冲洗。将上清液泵送通过过滤器串，同时调节流量以维持25±5psig的压降。为了将复合缓冲***(基于柠檬酸和Na₂HPO₄的比率)调整到关于捕获色谱法的所需范围，用500mM Na₂HPO₄调整滤液，其中Na₂HPO₄/柠檬酸的最终比率为9.33:1，并且缓冲滤液的pH确认在指定范围(pH7.0±0.2)内。

纯化

AEX捕获：为了将二聚体、聚集体和大的截短物与单体产物分开，并且去除内毒素和核酸，利用阴离子交换(AEX)色谱法来捕获带负电的C末端XTEN结构域。在本文中使用AEX1固定相(GE Q Sepharose FF)、AEX1流动相A(12.2mM Na₂HPO₄，7.8mM NaH₂PO₄，40mMNaCl)和AEX1流动相B(12.2mM Na₂HPO₄、7.8mM NaH₂PO₄、500mM NaCl)。用AEX1流动相A平衡柱。基于通过二辛可宁酸(BCA)测定所测量的总蛋白浓度，将滤液装载到靶向28±4g/L-树脂的柱上，用AEX1流动相A逐出，然后用一步洗涤至30％B。结合的材料经过20CV用30％B至60％B的梯度进行洗脱。当A220高于(局部)基线≥100mAU时，在1CV等分试样中收集级分。在SDS-PAGE和SE-HPLC的基础上分析且合并洗脱级分。

IMAC中间纯化：为了确保C末端完整性，使用固定化金属亲和色谱法(IMAC)来捕获C末端多组氨酸标签(His(6)(SEQ ID NO:8031))。在本文中使用IMAC固定相(GE IMACSepharose FF)、IMAC流动相A(18.3mM Na₂HPO₄、1.7mM NaH₂PO₄、500mM NaCl、1mM咪唑)和IMAC流动相B(18.3mM Na₂HPO₄、1.7mM NaH₂PO₄、500mM NaCl、500mM咪唑)。用锌溶液填充柱，并且用IMAC流动相A平衡。将AEX1池调整至pH 7.8±0.1、50±5mS/cm(用5M NaCl)和1mM咪唑，装载到靶向2g/L-树脂的IMAC柱，并且用IMAC流动相A逐出，直到在280nm处的吸光度(A280)恢复到(局部)基线。结合的材料用一步洗脱至25％IMAC流动相B。当A280高于(局部)基线≥10mAU时，起始IMAC洗脱收集，引导至用足以使2CV达到2mM EDTA的EDTA预掺料的容器内，并且一旦收集到2CV就终止。通过SDS-PAGE分析洗脱物。

蛋白L中间纯化：为了确保N末端完整性，蛋白L用于捕获接近于BPXTEN分子的N末端(特别是aEpCAM scFv)存在的κ结构域。在本文中使用蛋白L固定相(GE Capto L)、蛋白L流动相A(16.0mM柠檬酸、20.0mM Na₂HPO₄，pH 4.0±0.1)、蛋白L流动相B(29.0mM柠檬酸、7.0mM Na₂HPO₄，pH 2.60±0.02)和蛋白L流动相C(3.5mM柠檬酸、32.5mM Na₂HPO₄、250mMNaCl，pH 7.0±0.1)。柱用蛋白L流动相C进行平衡。将IMAC洗脱物调整至pH 7.0±0.1和30±3mS/cm(用5M NaCl和MQ)，并且装载到靶向2g/L-树脂的蛋白L柱上，然后用蛋白L流动相C逐出，直到在280nm处的吸光度(A280)恢复到(局部)基线。用蛋白L流动相A洗涤柱，并且蛋白L流动相A和B用于实现低pH洗脱。在大约pH 3.0下洗脱结合的材料，并且收集到对于每10份收集的体积用一份0.5M Na₂HPO₄预掺料的容器内。通过SDS-PAGE分析级分。

HIC精化：为了分离N末端变体(在绝对N末端处的4个残基对于蛋白L结合不是必需的)和整体构象变体，使用疏水作用色谱法(HIC)。在本文中使用HIC固定相(GE CaptoPhenyl ImpRes)、HIC流动相A(20mM组氨酸、0.02％(w/v)聚山梨醇酯80，pH 6.5±0.1)和HIC流动相B(1M硫酸铵、20mM组氨酸、0.02％(w/v)聚山梨醇酯80，pH 6.5±0.1)。柱用HIC流动相B进行平衡。将调整的蛋白L洗脱物装载到靶向2g/L-树脂的HIC柱上，并且用HIC流动相B逐出，直到在280nm处的吸光度(A280)恢复到(局部)基线。柱用50％B进行洗涤。结合的材料经过75CV用50％B至0％B的梯度进行洗脱。当A280高于(局部)基线≥3mAU时，在1CV等分试样中收集级分。在SE-HPLC和HI-HPLC的基础上分析且合并洗脱级分。

配制：为了将产物交换到配制缓冲液内，并且使产物达到靶浓度(0.5g/L)，再次使用阴离子交换来捕获C末端XTEN。在本文中使用AEX2固定相(GE Q Sepharose FF)、AEX2流动相A(20mM组氨酸、40mM NaCl、0.02％(w/v)聚山梨醇酯80，pH 6.5±0.2)、AEX2流动相B(20mM组氨酸、1M NaCl、0.02％(w/v)聚山梨醇酯80，pH 6.5±0.2)和AEX2流动相C(12.2mMNa₂HPO₄、7.8mM NaH₂PO₄、40mM NaCl、0.02％(w/v)聚山梨醇酯80，pH 7.0±0.2)。柱使用AEX2流动相C进行平衡。将HIC池调整至pH 7.0±0.1和7±1mS/cm(用MQ)，并且装载到靶向2g/L-树脂的AEX2柱上，然后用AEX2流动相C逐出，直到A280恢复到(局部)基线。用AEX2流动相A(20mM组氨酸、40mM NaCl、0.02％(w/v)聚山梨醇酯80，pH 6.5±0.2)洗涤柱。AEX2流动相A和B用于生成{NaCl}步骤并实现洗脱。结合的材料用一步洗脱至38％AEX2流动相B。当A280高于(局部)基线≥5mAU时起始AEX2洗脱收集，并且一旦收集2个柱体积就终止。AEX2洗脱物在BSC内进行0.22μm过滤，等分，标记并在80℃下作为散装原料药(BDS)贮存。散装原料药(BDS)通过各种分析方法确认为符合所有批次放行标准。通过SDS-PAGE分析整体质量，通过SE-HPLC分析单体/二聚体和聚集体的比率，并且通过HI-HPLC分析N末端质量和产物同质性。

实例4b.含有在C末端处的加条形码的XTEN和在N末端处的另一个加条形码的XTEN的XTEN化融合多肽

表达：编码含有抗EGFR单链可变片段(scFv)、在C末端处的长864个氨基酸的加条形码的XTEN(SEQ ID NO:8008)、以及在N末端处的长288个氨基酸的条形码XTEN(SEQ IDNO:8007)的XTEN化融合多肽的构建体，在有专利权的大肠杆菌AmE098菌株中表达，并且经由N末端分泌前导序列(MKKNIAFLLASMFVFSIATNAYA-)(SEQ ID NO:8898)分配到周质内，所述N末端分泌前导序列在易位过程中被切割。发酵培养物在37℃下用无动物成分复合培养基生长；并且在磷酸盐耗尽之前将温度转变为26℃。在收获期间，将发酵全肉汤离心，以使细胞形成团块。在收获时，记录总体积和湿细胞重量(WCW；团块/上清液的比率)，并且收集形成团块的细胞并在-80℃下冷冻。

回收：将冷冻的细胞团块重悬浮于靶向30％湿细胞重量的裂解缓冲液(100mM柠檬酸)中。允许重悬浮液在pH 4.4下平衡，然后在17,000±200巴下进行匀浆化，同时监测输出温度并将其维持在15±5℃下。确认匀浆的pH在指定范围(pH 4.4±0.1)内。

澄清：为了减少内毒素和宿主细胞杂质，允许匀浆经历低温(10±5℃)、酸性(pH4.4±0.1)絮凝过夜(15-20小时)。为了去除不溶性级分，将絮凝的匀浆在8,000RCF和2-8℃下离心40分钟，并且保留上清液。为了去除核酸、脂质和内毒素并充当助滤剂，将上清液调整为0.1％(m/m)硅藻土。为了保持助滤剂悬浮，上清液经由叶轮进行混合，并且允许平衡30分钟。组装由深度过滤器随后为0.22μm过滤器组成的过滤器串，然后用MQ冲洗。将上清液泵送通过过滤器串，同时调节流量以维持25±5psig的压降。

纯化

蛋白L捕获：为了去除宿主细胞蛋白质、内毒素和核酸，蛋白L用于捕获存在于BPXTEN分子的aEGFR scFv内的κ结构域。在本文中使用蛋白L固定相(Tosoh TP AF-rProtein L-650F)、蛋白L流动相A(11.5mM柠檬酸、24.5mM Na₂HPO₄、125mM NaCl、0.005％聚山梨醇酯80，pH 5.0)和蛋白L流动相B(11mM磷酸、0.005％聚山梨醇酯80，pH 2.0)。柱用蛋白L流动相A进行平衡。将滤液调整至pH 5.5±0.2，并且装载到靶向2-4g/L-树脂的蛋白L柱上，然后用蛋白L流动相A逐出，直到在280nm处的吸光度(A280)恢复到(局部)基线。结合的材料用流动相B进行洗脱，并且作为用0.4CV 0.5M Na₂HPO₄预掺料的2CV级分进行收集，并且通过SDS-PAGE进行分析。

IMAC中间纯化：为了确保N末端完整性，使用固定化金属亲和色谱法(IMAC)来捕获融合多肽分子的N末端多组氨酸标签(His(6)；(SEQ ID NO:8031))。在本文中使用IMAC固定相(GE IMAC Sepharose FF)、IMAC流动相A(12.2mM Na₂HPO₄、7.8mM NaH₂PO₄、500mM NaCl、0.005％聚山梨醇酯80，pH 7.0)和IMAC流动相B(50mM组氨酸、200mM NaCl、0.005％聚山梨醇酯80，pH 6.5)。柱用IMAC流动相A进行平衡。将蛋白L洗脱物调整到pH 7.8±0.1和50±5mS/cm(用5M NaCl)。将调整的蛋白L池装载到靶向2g/L-树脂的IMAC柱上，并且用IMAC流动相A逐出，直到在280nm处的吸光度(A280)恢复到(局部)基线。结合的材料用IMAC流动相B进行洗脱。IMAC洗脱物作为用0.02CV 200mM EDTA预掺料的2CV级分进行收集，并且通过SDS-PAGE进行分析。

C-标签中间纯化：为了确保C末端完整性，使用C-标签亲和色谱法来捕获C末端-EPEA标签(SEQ ID NO:8033)。在本文中使用C-标签固定相(Thermo C-tagXL)、C-标签流动相A(50mM组氨酸、200mM NaCl、0.005％聚山梨醇酯80，pH 6.5)和C-标签流动相B(20mMTris、0.6M MgCl₂、0.005％聚山梨醇酯80，pH 7.0)。柱用C-标签流动相A进行平衡。将IMAC洗脱物装载到靶向2g/L-树脂的C-标签柱上，并且用C-标签流动相A逐出，直到在280nm处的吸光度(A280)恢复到(局部)基线。结合的材料用C-标签流动相B进行洗脱。C-标签洗脱物作为2CV级分进行收集，并且通过SDS-PAGE进行分析。

AEX精化：为了将二聚体和聚集体与单体产物分开，利用阴离子交换(AEX)色谱法来捕获带负电的N末端和C末端XTEN结构域。在本文中使用AEX1固定相(BIA QA-80)、AEX1流动相A(50mM组氨酸、200mM NaCl、0.005％聚山梨醇酯80，pH 6.5)和AEX1流动相B(50mM组氨酸、500mM NaCl、0.005％聚山梨醇酯80，pH 6.5)。柱用AEX流动相A进行平衡。用MQ将C-标签洗脱物稀释至10mS/cm，装载靶向2g/L-树脂，然后用AEX流动相A逐出，直到在280nm处的吸光度恢复到(局部)基线。结合的材料经过60CV用0％B至100％B的梯度进行洗脱。当A280高于(局部)基线≥2mAU时，在1CV等分试样中收集级分。洗脱级分通过SDS-PAGE和SE-HPLC进行分析，并且将发现为≥98％单体的级分合并(AEX池)用于进一步处理。

配制：为了将产物交换到配制缓冲液内，并且使产物达到靶浓度(0.5g/L)，使用超滤/渗滤(UF/DF)。使用面积为0.1m²和TMP靶为15psi的10kDa膜，将AEX池浓缩至0.5g/L，然后用配制缓冲液(50mM组氨酸、200mM NaCl、0.005％聚山梨醇酯80，pH 6.5)稀释10倍。将AEX池浓缩10倍，并且再10倍稀释两次。回收的配制产物在BSC内进行0.22μm过滤，等分，标记并在80℃下作为散装原料药(BDS)贮存。BDS已通过各种分析方法确认为符合所有批次放行标准。通过SDS-PAGE分析整体质量，通过SE-HPLC分析单体/二聚体和聚集体的比率，并且通过HI-HPLC分析N末端质量和产物同质性。身份通过ESI-MS进行确认。

实例5.通过蛋白酶消化释放条形码肽

该实例示出了使用本文公开的方法，从含有各种长度或截短形式的含XTEN构建体的多肽混合物中释放条形码片段和参考片段。

含有XTEN的构建体的样品经由序贯地在DTT中，然后在碘乙酰胺中温育进行还原且烷基化。然后使用尺寸排阻旋转药液筒，对样品进行缓冲液交换且脱盐。将Glu-C蛋白酶以1:5的酶/底物比率加入样品中，并且使样品在37℃下温育用于消化。然后将样品移动至4℃以停止蛋白酶解反应，并且置于自动进样器小瓶中用于分析。

实例6.条形码肽和参考肽的检测和定量

该实例示出了用于生成个别条形码肽的定量测量的质谱法方法。将LC-平行反应监测(PRM)方法编程到高分辨率精确质量(HRAM)质谱仪内。与传统的数据依赖性采集(DDA)质谱法方法不同，PRM方法集中于在一次运行中的特定一组15-30种肽，每个工作周期通过一次MS-MS对每种肽进行测序。因此，这种方法对于完整肽的非碎片化的前体离子以及肽的每种碎片离子生成萃取离子色谱图(XIC)，以确认其序列。碎片离子XIC经常比亲本离子碎片更灵敏且是选择性定量的。使用的LC-PRM方法包括七种条形码肽的轻和重形式。采集后测量这14种肽的所有碎片离子的色谱峰面积，并且使用最强的碎片离子用于定量测量。然后计算XTEN条形码肽/PAT条形码肽的峰面积比，得到在跨越XTEN分子的各个点处的相对XTEN:PAT丰度。

实例7.稳定同位素标记以通过质谱法(MS)来定量肽

该实例示出了稳定同位素标记方案，以允许来自含XTEN多肽的条形码肽的绝对(而不是相对)定量。采用标准的重标记氨基酸定量方案，其中条形码肽的合成类似物从专门的供应商处获得，在所述合成类似物中，C末端谷氨酸替换为(¹³C)₅H₇(¹⁵N)O₃重标记类似物。制备校准曲线，其中将已知量的含有XTEN条形码的多肽连续稀释到基质内，其中重标记的合成肽保持在恒定浓度下。可以通过针对含有相同掺料水平的重标记肽的研究样品校准来自曲线的色谱峰面积重:轻比率，来执行准确的定量。

实例8.含XTEN多肽的截短的定量

该实例示出了在含XTEN多肽的混合物中的长度变体或截短变体的定量。

例如，条形码肽“SGPGSTPAESGSE”(SEQ ID NO:8899)定位于实例3中描述且由其获得的代表性加条形码的BPXTEN序列的76个氨基酸内，以指示在BPXTEN的N末端端部处XTEN的严重截短。还考虑了潜在的条形码片段“SPAGSPTSTESGTSE”(SEQ ID NO:8260)定位于N末端处。遵循实例6的程序，每种条形码肽相对于来自生物活性蛋白质(例如，scFv片段)序列的独特参考肽序列的丰度测量比率，指示可以影响样品混合物中的药理功效的全长多肽和具有截短的变体的总量。至少一个参考片段的丰度测量用于指示样品混合物中的所有多肽变体的总量。相应地，参考片段和条形码片段之间的差异丰度告知截短多肽变体的量。分析LC-MS数据，以确定条形码片段/参考片段的量的比率，指示了多肽混合物中的药理学有效变体的相对量。

一组两个(或三个)条形码用于指示多肽的不同截短水平。LC-MS数据用于确定每个条形码片段的量/参考片段的量的比率，从而定量多肽混合物中的截短变体的分布。

实例9.含XTEN多肽的截短的定量

AC2329的纯化中的一个步骤是QIR阴离子交换色谱法。来自该柱的主洗脱峰的后一半含有全长蛋白质，而该峰的前一半含有全长蛋白质以及许多截短形式的混合物。为了条形码肽评估的目的，获取两个级分。一个级分仅包括峰的后半部分，此前被称为“全长”级分。第二级分包括峰的前半部分，此前被称为本文所述的“合成蛋白质和截短物”级分：

分析尺寸排阻色谱法(SEC)覆盖全长(蓝色)级分和全长+截短物级分(黑色)。显而易见的是，合成蛋白质+截短物级分包括与完整合成蛋白质一样大的片段，但还有许多较小的组分，如通过在峰的右侧上的大斜肩指示的。

全长合成蛋白质以及全长合成蛋白质和截短物以稀释矩阵中所述的比率进行混合。

稀释矩阵

稀释	1	2	3	4	5	6	7	8	9
										化合物1(nM)	400	350	300	250	200	150	100	50	0
化合物1截短(nM)	0	50	100	150	200	250	300	350	400
										总nM	400	400	400	400	400	400	400	400	400
总体积	60	60	60	60	60	60	60	60	60

然后在含有50mM Tris-HCl pH 7.5+0.1％Rapigest(Waters 186001861)的反应缓冲液中，用1mg/mL GluC(Roche 10791156001)消化各400nM样品。GluC消化在37℃下在振荡培养箱中执行过夜。在消化之后，将甲酸加入至10％的最终浓度，并且在37℃下温育45分钟。通过以16,000x g离心10分钟去除Rapigest沉淀物，并且将重肽标准混合物加入至400nM的最终浓度。如所述的执行每种消化物的LC-MS分析。每个样品一式两份进行测量。

通过LC-MS的分析

使用连接到Q-Exactive Plus质谱仪(Thermo)的Vanquish(Thermo)UHPLC***，在Waters HSS-T3柱(176003994)上使用30分钟梯度法分析消化物。MS方法由前十位DDA方法组成，其中前十种肽在每次MS扫描后通过MSMS分析进行测序。使用Skyline Software(MacCoss Lab，UW)软件处理所得的数据文件，其中可以计算且测量每种条形码肽的重肽标准化浓度。

如图5B中所示，每个测量是针对其相应重同位素标记的合成肽的400nM波峰标准化的N-条形码SGPGSTPAE(SEQ ID No.8029)和C-条形码GSAPGTE(SEQ ID No.8023)的XIC面积。稀释1具有最低量的截短物，而稀释9具有最高的量。这些数据指示了，N-条形码肽跨越含有截短物和非截短物的样品以相对相似的丰度进行测量。然而，在含有截短物的级分中可见C-条形码肽的丰度降低。这提示了翻译终止是截短种类的最强贡献因素，因为原核生物中的翻译在N末端处起始。

已通过参考本发明的具体方面和/或实施例详细描述了本发明，显而易见的是修改和变化是可能的，而不脱离所附权利要求中限定的本发明的范围。更具体而言，尽管本发明的一些方面可以在本文中鉴定为特别有利的，但考虑本发明并不限于本发明的这些特定方面。

Claims

1.一种包含延伸重组多肽(XTEN)的多肽，其包含：

(a)延伸重组多肽(XTEN)，其包含

(i)一组非重叠序列基序，其中所述组的每个非重叠序列基序在所述XTEN多肽中重复至少两次；和

(ii)在所述XTEN多肽内仅出现一次的额外的非重叠序列基序；和

(b)在被蛋白酶部分或完全消化后可从所述多肽中释放的第一条形码片段，其中所述第一条形码片段是所述XTEN多肽的一部分，其包含在所述XTEN多肽内仅出现一次并且在序列和分子量方面不同于所述多肽被所述蛋白酶完全消化后可从所述多肽中释放的所有其它肽片段的序列基序；

其中所述条形码片段不包括所述多肽的N末端氨基酸或C末端氨基酸。

2.根据权利要求1所述的多肽，其中所述条形码片段不包括紧邻所述XTEN多肽中的另一个谷氨酸的谷氨酸。

3.根据权利要求1–2中任一项所述的多肽，其中所述条形码片段具有在其C末端处的谷氨酸。

4.根据权利要求1–3中任一项所述的多肽，其中所述条形码片段具有之前紧为谷氨酸残基的N末端氨基酸。

5.根据权利要求4所述的多肽，其中在所述N末端氨基酸之前的所述谷氨酸残基并不紧邻另一个谷氨酸残基。

6.根据权利要求1–4中任一项所述的多肽，其中所述条形码片段不包括在除所述条形码片段的C末端外的位置处的谷氨酸残基，除非所述谷氨酸紧随其后为脯氨酸。

7.根据权利要求1–6所述的多肽，其中所述条形码片段定位在距离所述多肽的N末端或C末端10个氨基酸至150个氨基酸。

8.根据权利要求1–7中任一项所述的多肽，其中所述一组非重叠序列基序的序列基序通过SEQ ID NO:182-203和1715-1722进行鉴定。

9.根据权利要求8所述的多肽，其中所述一组非重叠序列基序的序列基序通过SEQ IDNO:186-189进行鉴定。

10.根据权利要求9所述的多肽，其中所述一组非重叠序列基序包含通过SEQ ID NO:186-189鉴定的序列基序中的至少两个、至少三个或所有四个。

11.一种包含延伸重组多肽(XTEN)的多肽，其包含在被蛋白酶消化后可从所述多肽中释放的第一条形码片段，所述第一条形码片段是所述XTEN多肽的一部分，并且在序列和分子量方面不同于所述多肽被蛋白酶完全消化后可从所述多肽中释放的所有其它肽片段；并且其中所述条形码片段：

(i)不包括所述多肽的N末端氨基酸或C末端氨基酸；

(ii)不包括紧邻所述XTEN多肽中的另一个谷氨酸的谷氨酸；

(iii)具有在其C末端处的谷氨酸；

(iv)具有之前紧为谷氨酸残基的N末端氨基酸；并且

(v)定位在距离所述多肽的N末端或C末端10个氨基酸至125个氨基酸。

12.根据权利要求11所述的多肽，其中在所述N末端氨基酸之前的所述谷氨酸残基并不紧邻另一个谷氨酸残基。

13.根据权利要求11或12所述的多肽，其中所述条形码片段不包括在除所述条形码片段的C末端外的位置处的谷氨酸残基，除非所述谷氨酸紧随其后为脯氨酸。

14.根据权利要求11所述的多肽，其中所述XTEN多肽包含多个非重叠序列基序，其中所述序列基序各自的长度为9至14个氨基酸。

15.根据权利要求12所述的多肽，其中所述一组非重叠序列基序的序列基序通过SEQID NO:182-203和1715-1722进行鉴定。

16.根据权利要求15所述的多肽，其中所述一组非重叠序列基序的序列基序通过SEQID NO:186-189进行鉴定。

17.根据权利要求16所述的多肽，其中所述一组非重叠序列基序包含序列基序SEQ IDNO:186-189中的至少两个、至少三个或所有四个。

18.根据权利要求1-17中任一项所述的多肽，其中所述XTEN多肽的至少91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的氨基酸残基是甘氨酸(G)、丙氨酸(A)、丝氨酸(S)、苏氨酸(T)、谷氨酸盐(E)或脯氨酸(P)。

19.根据权利要求1-17中任一项所述的多肽，其中所述XTEN多肽的长度为150至3000个氨基酸。

20.根据权利要求19所述的多肽，其中所述XTEN多肽的长度为150至1000个氨基酸。

21.根据权利要求1–20中任一项所述的多肽，其中所述条形码片段定位于所述多肽的N末端的200、150、100或50个氨基酸内。

22.根据权利要求1–21中任一项所述的多肽，其中所述条形码片段定位于距离所述蛋白质的N末端10至200、30至200、40至150、或50至100个氨基酸之间。

23.根据权利要求1–22中任一项所述的多肽，其中所述条形码片段定位于所述多肽的C末端的200、150、100或50个氨基酸内。

24.根据权利要求23所述的多肽，其中所述条形码片段定位于距离所述蛋白质的C末端10至200、30至200、40至150、或50至100个氨基酸之间。

25.根据权利要求1–24中任一项所述的多肽，其中所述条形码片段的长度为至少4个氨基酸。

26.根据权利要求1–24中任一项所述的多肽，其中所述条形码片段的长度为4至20、5至15、6至12、或7至10个氨基酸。

27.根据权利要求1–26中任一项所述的多肽，其中所述条形码片段通过SEQ ID No:8020-8030(BAR001-BAR011)进行鉴定。

28.根据权利要求1–27中任一项所述的多肽，其中所述多肽还包含第二条形码片段，其中所述第二条形码片段是所述XTEN多肽的一部分，其包含在所述XTEN多肽内仅出现一次并且在序列和分子量方面不同于所述多肽被所述蛋白酶完全消化后可从所述多肽中释放的所有其它肽片段的序列基序。

29.根据权利要求28所述的多肽，其中所述多肽还包含第三条形码片段，其中所述第三条形码片段是所述XTEN多肽的一部分，并且在序列和分子量方面不同于所述多肽被所述蛋白酶完全消化后可从所述多肽中释放的所有其它肽片段。

30.根据权利要求1–29中任一项所述的多肽，其中所述XTEN多肽与通过SEQ ID NO:8001-8019鉴定的序列具有至少90％、至少92％、至少95％、至少98％、至少99％或100％的序列同一性。

31.根据权利要求1–31中任一项所述的多肽，其中所述XTEN多肽的长度为至少200、至少250、至少300、至少350、至少400、至少450或至少500个氨基酸。

32.一种生物活性多肽，其与根据权利要求1-31所述的多肽连接。

33.根据权利要求32所述的生物活性多肽，其中所述XTEN多肽具有关于所述生物活性多肽的近端和远端，其中所述近端相对于所述远端定位更接近于所述生物活性多肽，并且其中所述条形码片段定位于所述XTEN多肽的区域内，如从所述远端测量的，所述区域延伸所述XTEN多肽的长度的5％至50％、7％至40％、或10％至30％。

34.根据权利要求32或33所述的生物活性多肽，其还包含在被所述蛋白酶消化后可从所述多肽中释放的一个或多个参考片段，其中所述一个或多个参考片段各自包含所述生物活性多肽的一部分。

35.根据权利要求34所述的生物活性多肽，其中所述一个或多个参考片段是在序列和分子量方面不同于所述多肽被所述蛋白酶消化后可从所述多肽中释放的所有其它肽片段的单个参考片段。

36.根据权利要求32–35中任一项所述的生物活性多肽，其还包含定位于所述XTEN多肽和所述生物活性多肽之间的第一释放区段(RS1)。

37.根据权利要求36所述的生物活性多肽，其中所述RS1包含与本文表8a-8b中鉴定的序列具有至少90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的序列同一性的氨基酸序列。

38.根据权利要求32-37中任一项所述的生物活性多肽，其中所述生物活性多肽在本文中通过表4a-4h和6a-6f中的任何一种序列或序列组合进行鉴定。

39.根据权利要求32–38中任一项所述的生物活性多肽，其中与未连接至任何XTEN多肽的所述生物活性多肽相比，所述多肽具有至少两倍的终末半衰期。

40.根据权利要求32–39中任一项所述的生物活性多肽，其中与未连接至任何XTEN多肽的所述生物活性多肽相比，所述多肽是更少免疫原性的，其中免疫原性通过在向人或动物施用可比较剂量后，测量与所述生物活性多肽选择性结合的IgG抗体的产生来确定。

41.根据权利要求32–40中任一项所述的生物活性多肽，其中所述多肽在生理条件下显示出大于约6的表观分子量因子。

42.根据权利要求32–41中任一项所述的生物活性多肽，其还包含第二XTEN多肽，其中所述第一XTEN多肽定位于所述生物活性多肽的N末端，并且所述第二XTEN多肽定位于所述生物活性多肽的C末端。

43.根据权利要求42所述的生物活性多肽，其还包含定位于所述生物活性多肽和所述第二XTEN之间的第二释放区段(RS2)。

44.根据权利要求43所述的生物活性多肽，其中RS1和RS2序列相同。

45.根据权利要求43所述的生物活性多肽，其中RS1和RS2序列不同。

46.根据权利要求43–45中任一项所述的生物活性多肽，其中所述RS1和RS2各自是用于被多重蛋白酶在每个释放区段序列内的一个、两个或三个切割位点处切割的底物。

47.根据权利要求42–46中任一项所述的生物活性多肽，其中所述多肽包含进一步的条形码片段，其是所述第二XTEN的一部分，并且在序列和分子量方面不同于所述多肽被所述蛋白酶后完全消化后可从所述多肽中释放的所有其它肽片段。

48.根据权利要求47所述的生物活性多肽，其中所述进一步的条形码片段不包括所述多肽的C末端氨基酸。

49.根据权利要求47或权利要求48所述的生物活性多肽，其中所述进一步的条形码片段包含在其C末端处的谷氨酸残基。

50.根据权利要求47–49中任一项所述的生物活性多肽，其中所述第二XTEN的进一步的条形码片段定位于所述多肽的C末端200、150、100或50个氨基酸内。

51.根据权利要求47–50中任一项所述的生物活性多肽，其中所述第二XTEN的进一步的条形码片段定位于距离所述多肽的C末端10至200、30至200、40至150、或50至100个氨基酸之间。

52.根据权利要求47–51中任一项所述的生物活性多肽，其中所述进一步的条形码片段的长度为4至20、5至15、6至12、或7至10个氨基酸。

53.根据权利要求47–52中任一项所述的生物活性多肽，其中所述进一步的条形码片段通过SEQ ID No:8020-8030(BAR001-BAR011)进行鉴定。

54.根据权利要求47–53中任一项所述的生物活性多肽，其还包含一组条形码片段，所述一组条形码片段包括进一步的条形码片段和至少一个另外的条形码片段，其中所述一组条形码片段中的每个条形码片段是所述第二XTEN多肽的一部分，并且在序列和分子量方面不同于所述多肽被所述蛋白酶完全消化后可从所述多肽中释放的所有其它肽片段。

55.根据权利要求42–55中任一项所述的生物活性多肽，其中所述第二XTEN通过SEQ IDNO:8001-8019进行鉴定。

56.根据权利要求47–55中任一项所述的生物活性多肽，其中所述进一步的条形码片段不包括紧邻所述多肽中的另一个谷氨酸残基的谷氨酸残基。

57.根据权利要求42–56中任一项所述的生物活性多肽，其中所述第二XTEN多肽的至少91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的氨基酸残基是甘氨酸(G)、丙氨酸(A)、丝氨酸(S)、苏氨酸(T)、谷氨酸盐(E)或脯氨酸(P)。

58.根据权利要求42–57中任一项所述的生物活性多肽，其中所述第一XTEN多肽中的氨基酸总数和所述第二XTEN多肽中的氨基酸总数之和为至少300、至少350、至少400、至少500、至少600、至少700或至少800个氨基酸。

59.根据权利要求42–58中任一项所述的生物活性多肽，其中所述第二XTEN多肽包含多个非重叠序列基序，其中所述第二XTEN多肽中的每个序列基序的长度为9至14个氨基酸。

60.根据权利要求59所述的生物活性多肽，其中对于所述第二XTEN多肽，所述多个非重叠序列基序的序列基序通过SEQ ID NO:182-203和1715-1722进行鉴定。

61.根据权利要求60所述的生物活性多肽，其中所述多个非重叠序列基序的序列基序通过SEQ ID NO:186-189进行鉴定。

62.根据权利要求59或权利要求60所述的生物活性多肽，其中对于所述第二XTEN多肽，所述多个非重叠序列基序包含下述基序中的至少两个、至少三个或所有四个：SEQ ID NO:186-189。

63.根据权利要求42–62中任一项所述的生物活性多肽，其中所述第二XTEN多肽的长度为150至3000个氨基酸。

64.根据权利要求63所述的生物活性多肽，其中所述第二XTEN多肽的长度为150至1000个氨基酸。

65.根据权利要求42–64中任一项所述的生物活性多肽，其中所述第二XTEN多肽与通过SEQ ID NO:8001-8019鉴定的序列具有至少90％、至少92％、至少95％、至少98％、至少99％或100％的序列同一性。

66.根据权利要求42–64中任一项所述的生物活性多肽，其中所述第二XTEN多肽的长度为至少200、至少250、至少300、至少350、至少400、至少450或至少500个氨基酸。

67.一种包含各种长度的多种多肽的混合物，所述混合物包含：

缺乏所述第一组多肽的条形码片段的第二组多肽；

其中所述第一组多肽和所述第二组多肽两者各自包含参考片段，所述参考片段是第一组多肽和第二组多肽共有的，并且可通过用所述蛋白酶消化释放；

其中所述第一组多肽/包含所述参考片段的多肽的比率大于0.70。

68.根据权利要求67所述的混合物，其中所述第一组多肽/包含所述参考片段的多肽的比率大于0.8、0.9、0.95。

69.根据权利要求67或权利要求68所述的混合物，其中所述参考片段在所述第一组多肽和所述第二组多肽中的每种多肽中出现两次。

70.根据权利要求67所述的混合物，其中所述第一组多肽包含全长多肽，其中所述条形码片段是所述全长多肽的一部分。

71.根据权利要求67所述的混合物，其中所述全长多肽是权利要求1–68中任一项所述的多肽。

72.根据权利要求70-71中任一项所述的混合物，其中所述条形码片段不包含所述全长多肽的N末端氨基酸和C末端氨基酸。

73.根据权利要求67-72中任一项所述的混合物，其中所述各种长度的多肽的混合物由于全长多肽的N末端截短、C末端截短或N末端和C末端截短两者而彼此不同。

74.一种核酸，其包含编码权利要求1–75中任一项所述的多肽的多核苷酸或其多核苷酸的反向互补体。

75.一种表达载体，其包含根据权利要求74所述的多核苷酸序列和可操作地连接到所述多核苷酸序列的调控序列。

76.一种宿主细胞，其包含根据权利要求75所述的表达载体。

77.根据权利要求76所述的宿主细胞，其中所述宿主细胞是原核生物。

78.根据权利要求77所述的宿主细胞，其中所述宿主细胞是大肠杆菌。

79.根据权利要求78所述的宿主细胞，其中所述宿主细胞是哺乳动物细胞。

80.一种药物组合物，其包含根据权利要求1–73中任一项所述的多肽和一种或多种药学上可接受的赋形剂。

81.根据权利要求1–68中任一项所述的多肽或其根据权利要求67-73所述的混合物在制备用于治疗人或动物中的疾病的药物中的用途。

82.根据权利要求81所述的用途，其中所述疾病是癌症。

83.一种治疗人或动物中的疾病的方法，所述方法包括向有此需要的人或动物施用一个或多个治疗有效剂量的根据权利要求80所述的药物组合物。

84.根据权利要求83所述的方法，其中所述疾病是癌症。

85.根据权利要求83所述的方法，其中所述人或动物是人。

86.一种在包含各种长度的多肽的混合物中，用于评价所述混合物中的第一组多肽与所述混合物中的第二组多肽的相对量的方法，其中所述第一组多肽中的每种多肽共享在所述多肽中出现一次的条形码片段，并且所述第二组多肽中的每种多肽缺乏由所述第一组多肽共享的所述条形码片段，其中所述第一组多肽和所述第二组多肽两者中的各个多肽各自包含参考片段，所述方法包括：

使所述混合物与蛋白酶接触，以产生来源于所述第一组多肽和所述第二组多肽的切割的多个蛋白酶解片段，其中所述多个蛋白酶解片段包含：

多个参考片段；和

多个条形码片段；和

87.根据权利要求86所述的方法，其中所述参考片段在所述第一组多肽和所述第二组多肽中的每种多肽中出现不多于一次。

88.根据权利要求86或87所述的方法，其中所述蛋白酶在谷氨酸残基的C末端侧上切割所述各种长度的多肽，所述谷氨酸残基随后并非脯氨酸残基。

89.根据权利要求86-88中任一项所述的方法，其中所述蛋白酶是Glu-C蛋白酶。

90.根据权利要求86-89中任一项所述的方法，其中所述蛋白酶不是胰蛋白酶。

91.根据权利要求86-90中任一项所述的方法，其中确定条形码片段的量/参考片段的量的比率包括在混合物已与所述蛋白酶接触后，定量来自所述混合物的条形码片段和参考片段。

92.根据权利要求91所述的方法，其中所述条形码片段和所述参考片段基于其分别的质量进行鉴定。

93.根据权利要求91或权利要求92所述的方法，其中所述条形码片段和所述参考片段经由质谱法进行鉴定。

94.根据权利要求91-93中任一项所述的方法，其中所述条形码片段和参考片段经由液相色谱-质谱法(LC-MS)进行鉴定。

95.根据权利要求86-94中任一项所述的方法，其中确定所述条形码片段/所述参考片段的比率包括同量异序标记。

96.根据权利要求86-95中任一项所述的方法，其中确定所述条形码片段/所述参考片段的比率包括用同位素标记的参考片段和同位素标记的条形码片段之一或两者掺料所述混合物。

97.根据权利要求96所述的方法，其中当存在时，所述条形码片段是XTEN多肽的一部分。

98.根据权利要求86–97中任一项所述的方法，其中所述各种长度的多肽的混合物包含根据权利要求1–68中任一项所述的多肽。

99.根据权利要求86–98中任一项所述的方法，其中所述各种长度的多肽包含全长多肽及其截短片段。

100.根据权利要求99所述的方法，其中所述各种长度的多肽是所述全长多肽及其截短片段。

101.根据权利要求86–100中任一项所述的方法，其中所述各种长度的多肽的混合物由于全长多肽的N末端截短、C末端截短或N末端和C末端截短两者而彼此不同。

102.根据权利要求101所述的方法，其中所述全长多肽是根据权利要求1–68中任一项所述的多肽。

103.根据权利要求86-102中任一项所述的方法，其中所述条形码片段/参考片段的量的比率大于0.5、0.6、0.7、0.8、0.9或0.95。

104.一种包含各种长度的多种多肽的混合物，所述混合物包含：

缺乏所述第一组多肽的条形码片段的第二组多肽；

其中在蛋白酶消化后所述多肽混合物中定量的参考片段的数目等于所述混合物中的所述第一组多肽和所述第二组多肽的数目之和，并且在蛋白酶消化后所述多肽混合物中定量的条形码片段的数目等于所述混合物中的所述第一组多肽的数目。

105.根据权利要求104所述的混合物，其中当所述第一组多肽包含一个参考片段时，所述第一组多肽/所述混合物中包含所述参考片段的多肽的比率大于0.7。

106.根据权利要求105所述的混合物，其中所述第一组多肽/包含所述参考片段的多肽的比率大于0.8、0.9或0.95。

107.根据权利要求104-106中任一项所述的混合物，其中所述参考片段在所述第一组多肽和所述第二组多肽中的每种多肽中出现不多于一次。

108.根据权利要求104-106中任一项所述的混合物，其中所述参考片段在所述第一组多肽和所述第二组多肽中的每种多肽中出现两次。

109.根据权利要求104-106中任一项所述的混合物，其中所述第一组多肽包含全长多肽，其中所述条形码片段是所述全长多肽的一部分。

110.根据权利要求104或权利要求105所述的混合物，其中所述全长多肽是根据权利要求1–66中任一项所述的多肽。

111.根据权利要求108或权利要求109所述的混合物，其中所述条形码片段不包含所述全长多肽的N末端氨基酸和C末端氨基酸。

112.根据权利要求104-111中任一项所述的混合物，其中所述各种长度的多肽的混合物由于全长多肽的N末端截短、C末端截短或N末端和C末端截短两者而彼此不同。

113.根据权利要求104-106中任一项所述的混合物，其中所述参考片段在所述第一组多肽和所述第二组多肽中的每种多肽中出现不多于一次。

114.根据权利要求104或权利要求105所述的混合物，其中所述第一组多肽中的参考片段数目能够不同于所述第二组多肽中的参考片段数目，但其在每组中的每种多肽中的数目必须是相同的。

115.根据权利要求108所述的混合物，其中所述混合物的多肽中的每个所述参考片段具有的序列和分子量不同于所有其它片段的序列和分子量。

116.一种包含各种长度的多种多肽的混合物，所述混合物包含：

第一组多肽，其中所述第一组多肽中的每种多肽包含条形码片段，其可通过用蛋白酶消化从所述多肽中释放，并且具有的序列和分子量不同于可从所述第一组多肽中释放的所有其它片段的序列和分子量；和

缺乏所述第一组多肽的条形码片段的第二组多肽；

其中所述第一组多肽/所述混合物中的多肽的比率具有下式

[含条形码的多肽]/[(含参考肽的多肽)x N]

其中N是从所述混合物中的每种多肽中释放的所述参考肽的出现次数。

117.根据权利要求116所述的混合物，其中当所述第一组多肽包含一个参考片段时，所述第一组多肽/所述混合物中包含所述参考片段的多肽的比率大于0.7。

118.根据权利要求117所述的混合物，其中所述第一组多肽/包含所述参考片段的多肽的比率大于0.8、0.9或0.95。

119.根据权利要求116-118中任一项所述的混合物，其中所述参考片段在所述第一组多肽和所述第二组多肽中的每种多肽中出现不多于一次。

120.根据权利要求116-118中任一项所述的混合物，其中所述参考片段在所述第一组多肽和所述第二组多肽中的每种多肽中出现两次。

121.根据权利要求115或116所述的混合物，其中所述第一组多肽包含全长多肽，其中所述条形码片段是所述全长多肽的一部分。

122.根据权利要求116-118中任一项所述的混合物，其中所述全长多肽是根据权利要求1-66中任一项所述的多肽。

123.根据权利要求120或权利要求121所述的混合物，其中所述条形码片段不包含所述全长多肽的N末端氨基酸和C末端氨基酸。

124.根据权利要求115-123中任一项所述的混合物，其中所述各种长度的多肽的混合物由于全长多肽的N末端截短、C末端截短或N末端和C末端截短两者而彼此不同。

125.根据权利要求115-117中任一项所述的混合物，其中所述参考片段在所述第一组多肽和所述第二组多肽中的每种多肽中出现不多于一次。

126.根据权利要求115或权利要求116所述的混合物，其中所述第一组多肽中的参考片段数目能够不同于所述第二组多肽中的参考片段数目，但其在每组中的每种多肽中的数目必须是相同的。

127.根据权利要求120所述的混合物，其中所述混合物的多肽中的每个所述参考片段具有的序列和分子量不同于所有其它片段的序列和分子量。

128.一种在根据权利要求104-127所述的多肽的混合物中检测包含所述第一组多肽的多肽的序列完整性的方法，所述方法包括用蛋白酶消化所述多肽混合物的步骤，所述蛋白酶从所述第一组多肽中释放所述条形码片段和所述参考片段，并且从所述第二组多肽中释放所述参考片段，并且确定来自所述第一组多肽的条形码片段/来自所述第一组多肽和所述第二组多肽的参考片段的比率，其中通过基于包含所述第一组多肽和所述第二组多肽的多肽中的条形码片段和参考片段数目，比较所述片段的比率与所述片段的预期比率来检测所述第一组多肽的多肽的序列完整性。

129.根据权利要求128所述的方法，其中所述条形码片段和所述参考片段通过LC/MS进行检测。

130.根据权利要求129所述的方法，其中所述多肽的混合物用已知量的标准材料进行掺料，其中所述标准材料包含各种长度的多种多肽的所述混合物的同位素标记形式。

131.根据权利要求130所述的方法，其中在被所述蛋白酶消化之前，将各种长度的多肽的所述混合物的同位素标记形式加入所述混合物中。

132.根据权利要求130所述的方法，其中在所述混合物已被所述蛋白酶消化后，各种长度的多肽的所述混合物的同位素标记形式在加入根据权利要求129所述的混合物中之前被所述蛋白酶消化。

133.根据权利要求130-132中任一项所述的方法，其还包括所检测到的同位素可区分量的条形码片段、参考片段或两者的定量。