CN117858983A

CN117858983A - 产生和分析多肽文库的方法、***和组合物

Info

Publication number: CN117858983A
Application number: CN202280056108.5A
Authority: CN
Inventors: 柯蒂斯·詹姆斯·雷顿; 帕瓦那普雷桑·普什帕吉里·威德亚纳森; 迈克尔·罗伊·戈特里克
Original assignee: Protiryn Biosciences
Current assignee: Protiryn Biosciences
Priority date: 2021-06-15
Filing date: 2022-06-14
Publication date: 2024-04-09
Also published as: AU2022293680A1; CA3222933A1; WO2022266100A3; WO2022266100A2; EP4355937A2

Abstract

公开了用于分析多肽和产生多肽文库的方法、***和组合物。多肽文库的分析可以用于产生具有特定特征的多肽。使用公开的方法、***和组合物可以产生具有高亲和力的抗体。

Description

产生和分析多肽文库的方法、***和组合物

交叉引用

本申请要求2021年6月15日提交的美国临时申请号63/210,905的优先权，其通过引用以其整体并入本文。

背景技术

多肽可以用于各种目的，诸如治疗。定向进化或选择策略可以用于鉴定感兴趣的多肽。蛋白质展示的方法可以与定向进化结合使用。定向进化技术可以使用蛋白质展示来筛选感兴趣的多肽。定向进化和筛选技术在鉴定感兴趣的多肽方面可能是有效的，但是由于序列空间的复杂性和缺乏序列多样性，可能会无意中丢失潜在有价值的多肽。

发明内容

本文提供了用于分析大量多肽的方法、***和组合物。这些方法、***和组合物可以允许产生具有特定特征的多肽。这些方法、***和组合物可以使用多核苷酸和多肽文库以及多肽展示方法来开发感兴趣的多肽。

在一方面，本公开提供了一种用于鉴定优化的多肽的高通量方法，其包括：(a)提供编码变体多肽的第一文库的多核苷酸的第一文库；(b)加工多核苷酸的第一文库以产生变体多肽的第一文库，其中变体多肽附接于多核苷酸的第一文库；(c)鉴定一个或多个特征，一个或多个特征包括变体多肽的第一文库的至少一部分的平衡结合常数、动力学结合常数、蛋白质稳定性测量值、酶活性、分数活性、非特异性结合潜力、聚集潜力、疏水性、蛋白质表达水平或成熟时间；(d)提供多核苷酸的第二文库，多核苷酸的第二文库编码至少基于(c)中鉴定的一个或多个特征选择的变体多肽的第二文库；(e)加工多核苷酸的第二文库以产生变体多肽的第二文库，其中变体多肽附接于多核苷酸的第二文库；以及(f)分析变体多肽的第二文库以产生优化的数据。

在另一方面，本公开提供了一种用于测量多肽的特征的高通量方法，其包括：(a)提供附接于固体表面的多核苷酸的第一文库，其中多核苷酸的文库编码变体多肽的文库；(b)加工多核苷酸的文库以产生变体多肽的文库，其中变体多肽附接于多核苷酸的文库；以及(c)鉴定一个或多个特征，一个或多个特征包括变体多肽的文库的至少一部分的平衡结合常数、动力学结合常数、蛋白质稳定性测量值、酶活性、分数活性、非特异性结合潜力、聚集潜力、疏水性、蛋白质表达水平或成熟时间。

在另一方面，本公开提供了一种用于筛选多个多肽的高通量方法，其包括：(a)提供编码变体多肽的文库的多核苷酸的第一文库，其中变体多肽的第一文库包含所有单氨基酸变体的至少90％，其中氨基酸残基被选自二十种不同氨基酸的集合的氨基酸取代；(b)加工多核苷酸的第一文库以产生变体多肽的第一文库，其中变体多肽附接于多核苷酸的第一文库；以及(c)鉴定变体多肽的第一文库中的多肽的一个或多个特征。

在另一方面，本公开提供了一种用于筛选多个多肽的高通量方法，其包括：(a)提供编码变体多肽的第一文库的多核苷酸的第一文库，其中变体多肽的第一文库包含对应于参考多肽中给定参考序列的至少90％的可能单核苷酸变体的单氨基酸变体多肽，其中对于给定的单氨基酸变体，氨基酸残基被选自二十种不同氨基酸的集合的另一种氨基酸取代；(b)加工多核苷酸的第一文库以产生变体多肽的第一文库，其中变体多肽附接于多核苷酸的第一文库；以及(c)鉴定变体多肽的第一文库中的多肽的一个或多个特征。

一些实施方案中，一个或多个特征包括变体多肽的第一文库的至少一部分的平衡结合常数、动力学结合常数、蛋白质稳定性测量值、酶活性、分数活性、非特异性结合潜力、聚集潜力、疏水性、蛋白质表达水平或成熟时间。

在一些实施方案中，方法进一步包括：(d)提供编码至少基于在(c)中鉴定的一个或多个特征而选择的变体多肽的第二文库的多核苷酸的第二文库；(e)加工多核苷酸的第二文库以产生变体多肽的第二文库，其中变体多肽附接于多核苷酸的第二文库；以及(f)分析变体多肽的第二文库以产生优化的数据。在一些实施方案中，方法进一步包括(g)基于优化的数据来鉴定优化的多肽。在一些实施方案中，高通量方法不包括细胞。在一些实施方案中，多核苷酸的第一文库是脱氧核糖核酸分子的文库。

在一些实施方案中，平衡结合常数是解离常数(K_d)。在一些实施方案中，平衡结合常数是缔合常数(K_a)。在一些实施方案中，动力学结合常数是缔合速率常数(k_on)。在一些实施方案中，动力学结合常数是解离速率常数(k_off)。在一些实施方案中，蛋白质稳定性测量值是蛋白质解链温度(T_m)。在一些实施方案中，蛋白质稳定性测量值是化学变性剂的中点变性浓度(C_m)。

在一些实施方案中，方法进一步包括在(d)中，从变体多肽的第一文库中鉴定阴性变异、阳性变异和中性变异。在一些实施方案中，中性变异具有大于起始多肽的解离常数的0.25倍且小于其2倍的解离常数。在一些实施方案中，阳性变异具有小于或等于起始多肽的解离常数的0.25倍的解离常数。在一些实施方案中，阴性变异具有大于或等于起始多肽的解离常数的2倍的解离常数。

在一些实施方案中，变体多肽的第一文库包含单氨基酸变体，其中氨基酸残基被选自氨基酸的集合的氨基酸取代。在一些实施方案中，氨基酸的集合包含10种不同的氨基酸。在一些实施方案中，氨基酸的集合包含20种不同的氨基酸。在一些实施方案中，氨基酸的集合包括丙氨酸、精氨酸、天冬酰胺、天冬氨酸、半胱氨酸、谷氨酰胺、谷氨酸、甘氨酸、组氨酸、异亮氨酸、亮氨酸、赖氨酸、蛋氨酸、苯丙氨酸、脯氨酸、丝氨酸、苏氨酸、色氨酸、酪氨酸和缬氨酸。在一些实施方案中，变体多肽的第一文库由起始多肽的变体和起始多肽组成。在一些实施方案中，变体多肽的第一文库包含相互作用氨基酸对的双氨基酸变体。在一些实施方案中，相互作用氨基酸对的双氨基酸变体包括其中相互作用氨基酸对的氨基酸残基被所有二十种氨基酸取代的变体。在一些实施方案中，相互作用氨基酸对通过原始多肽的晶体结构来鉴定。在一些实施方案中，相互作用氨基酸对包括多肽间相互作用和多肽内相互作用。在一些实施方案中，变体多肽的第一文库在每个位置处包含单氨基酸***。在一些实施方案中，变体多肽的第一文库包含单氨基酸缺失。在一些实施方案中，变体多肽的第一文库包含双氨基酸缺失。在一些实施方案中，变体多肽的第一文库包含三氨基酸缺失。在一些实施方案中，变体多肽的第一文库包含至少四氨基酸缺失。在一些实施方案中，分析变体多肽的第一文库包括转录和翻译变体多核苷酸的第一文库中的多核苷酸，其中由多核苷酸编码的多肽附接于多核苷酸。在一些实施方案中，鉴定平衡结合常数、动力学结合常数、蛋白质稳定性测量值、酶活性、分数活性、非特异性结合潜力、聚集潜力、疏水性、蛋白质表达水平或成熟时间包括对变体多肽的第一文库进行结合测定。在一些实施方案中，鉴定平衡结合常数、动力学结合常数、蛋白质稳定性测量值、酶活性、分数活性、非特异性结合潜力、聚集潜力、疏水性、蛋白质表达水平或成熟时间包括对多核苷酸的第一文库进行测序并将多核苷酸的第一文库的序列与结合测定相关联。在一些实施方案中，结合测定包括测定变体多肽的第一文库与抗原的结合。在一些实施方案中，结合测定包括测定变体多肽的第一文库与多于一个抗原的结合。在一些实施方案中，结合测定包括测定变体多肽的第一文库与多个抗原的结合。在一些实施方案中，方法进一步包括鉴定与多个抗原中的两个或更多个抗原结合的变体多肽。在一些实施方案中，进一步包括鉴定与多个抗原中的至少一个抗原结合且未结合至多个抗原中的不同抗原的变体多肽。在一些实施方案中，方法进一步包括鉴定未结合至多个抗原的变体多肽。在一些实施方案中，鉴定平衡结合常数、动力学结合常数、蛋白质稳定性测量值、酶活性、分数活性、非特异性结合潜力、聚集潜力、疏水性、蛋白质表达水平或成熟时间包括产生多于一个靶标的结合数据。在一些实施方案中，至少基于多于一个靶标的结合数据来产生第二文库。在一些实施方案中，加工变体多肽的第二文库包括转录和翻译变体多核苷酸的第二文库中的多核苷酸，其中由多核苷酸编码的多肽附接于多核苷酸。在一些实施方案中，鉴定优化的多肽包括对由多核苷酸的第二文库编码的变体多肽的第二文库进行结合测定。在一些实施方案中，鉴定平衡结合常数、动力学结合常数、蛋白质稳定性测量值、酶活性、分数活性、非特异性结合潜力、聚集潜力、疏水性、蛋白质表达水平或成熟时间包括对多核苷酸的第二文库进行测序并将多核苷酸的第二文库的序列与结合测定相关联。在一些实施方案中，变体多肽的第二文库包含至少10⁴个多肽。在一些实施方案中，多核苷酸的第一文库包含至少10⁶个多核苷酸。在一些实施方案中，变体多肽的第一文库包含至少10⁴个多肽。在一些实施方案中，方法在少于48小时内进行。在一些实施方案中，变体多肽的第一文库包含单独的VHH抗体的文库。在一些实施方案中，变体多肽的第二文库包含VHH抗体融合体的文库。在一些实施方案中，变体多肽的第一文库包含单独的单链可变片段(scFv)的文库。在一些实施方案中，变体多肽的第二文库包含单独的单链可变片段(scFv)融合体的文库。

在另一方面，本公开提供了一种用于鉴定优化的多肽的高通量方法，其包括：(a)获得包括抗原与第一多个多肽的结合数据的数据集，并且至少部分基于该数据集提供多个多核苷酸；(b)提供附接于固体表面的多个多核苷酸；(c)加工多个多核苷酸以产生第二多个多肽；(d)将抗原暴露于第二多个多肽，并且检测第二多个多肽中的至少一个多肽与抗原的相互作用；(e)产生序列数据，序列数据包括(i)至少至少一个多肽的序列，或(ii)编码至少一个多肽的相应多核苷酸的序列；(f)至少部分基于序列数据和检测，产生多个融合多肽，其中多个融合多肽中的融合多肽包含来自第一多个多肽或第二多个多肽的每一个的能够结合抗原的多肽；以及(g)重复(a)至(e)，其中数据集包括抗原与多个多肽融合体的结合数据，以鉴定优化的多肽。

在另一方面，本公开提供了一种用于鉴定优化的多肽的方法，其包括：(a)提供附接于固体表面的多个多核苷酸，其中多个多核苷酸编码多个融合多肽，其中多个融合多肽中的融合多肽包含两个或更多个结构域；(b)加工多个多核苷酸以产生多个融合多肽；(c)将抗原暴露于多个融合多肽，并且检测多个融合多肽中的至少一个融合多肽与抗原的相互作用；(d)产生序列数据，序列数据包括(i)至少至少一个融合多肽的序列，或(ii)编码至少一个融合多肽的相应多核苷酸的序列；以及(e)至少部分基于序列数据、检测和包含抗原与多个单结构域多肽的结合数据的数据集，产生能够结合抗原的优化的多肽。在一些实施方案中，通过鉴定第一多个多肽中可以与抗原相互作用的多肽来产生数据集。在一些实施方案中，至少通过将抗原暴露于第一多个多肽并检测第一多个多肽中的至少一个多肽与抗原的相互作用来产生数据集。在一些实施方案中，第一多个多肽通过以下产生：(i)提供编码多个第一多肽的多个第一多核苷酸；(ii)提供附接于固体表面的多个第一捕获探针，多个第一捕获探针被配置为退火到第一多个多核苷酸以产生多个捕获的多核苷酸；(iii)加工多个捕获的多核苷酸以产生第一多个多肽。在一些实施方案中，与第一多个多肽相关的数据包括至少通过对多个捕获的多核苷酸进行测序而产生的序列数据，其中多个捕获的多核苷酸是多个VHH多核苷酸。

在一些实施方案中，多个多肽中的至少一个多肽与抗原的相互作用包括鉴定多肽的定量特征。在一些实施方案中，鉴定多肽的定量特征进一步包括将多肽鉴定为包含阴性突变、中性突变或阳性突变中的一种或多种。在一些实施方案中，多个融合多肽包含第一多个多肽的多肽的所有可能的融合对组合或排列的至少50％、60％、70％、80％、90％或更多的多肽。在一些实施方案中，多个融合多肽包含第一多个多肽的多肽的所有可能的融合对组合或排列的多肽。在一些实施方案中，数据集包含对应于单结构域多肽的数据，单结构域多肽对应于融合多肽的一个或结构域。在一些实施方案中，通过鉴定可以与抗原相互作用的单结构域多肽来产生数据集。在一些实施方案中，至少通过将抗原暴露于多个单结构域多肽并检测多个单结构域多肽中的至少一个单结构域多肽与抗原的相互作用来产生数据集。在一些实施方案中，多个单结构域多肽通过以下产生：(i)提供编码多个单结构域多肽的多个单结构域多核苷酸，其中单结构域多核苷酸偶联至固体表面；(iii)加工多个单结构域多核苷酸以产生多个单结构域多核苷酸多肽。在一些实施方案中，数据集包括至少通过对多个单结构域多核苷酸进行测序而产生的序列数据。在一些实施方案中，单结构域多肽包含VHH。在一些实施方案中，融合多肽包含VHH-VHH融合体。在一些实施方案中，多个融合多肽包含对应于多个单结构域多肽中的一个或多个多肽的序列。在一些实施方案中，多个融合肽的融合多肽包含多个单结构域多肽中的两个多肽的序列。在一些实施方案中，多个融合多肽包含多个单结构域多肽中的单结构域多肽的所有可能的融合对组合或排列的至少50％、60％、70％、80％、90％或更多的多肽。在一些实施方案中，多个融合多肽包含多个单结构域多肽中的单结构域多肽的所有可能的融合对组合或排列的多肽。在一些实施方案中，多个单结构域多肽包含通过单点突变而不同的多个单结构域多肽。在一些实施方案中，多个单结构域多肽包含通过结合界面中的单点突变而不同的多个单结构域多肽。在一些实施方案中，多个单结构域多肽包含通过CDR中的单点突变而不同的多个单结构域抗体片段。在一些实施方案中，多个单结构域多肽包括多个20个多肽，其中在给定的残基处编码不同的氨基酸。

在一些实施方案中，检测多个单结构域多肽中的至少一个单结构域多肽与抗原的相互作用包括鉴定单结构域多肽的定量特征。在一些实施方案中，鉴定多肽的定量特征进一步包括将单结构域多肽鉴定为包含阴性突变、中性突变或阳性突变中的一种或多种。在一些实施方案中，检测多个融合多肽中的至少一个融合多肽与抗原的相互作用包括鉴定融合多肽的定量特征。在一些实施方案中，鉴定多肽的定量特征进一步包括将融合多肽鉴定为包含双表位相互作用。在一些实施方案中，将融合多肽鉴定为包含亲合力增强的相互作用包括将融合多肽的定量特征与第一单结构域或第二单结构域的定量特征进行比较，其中融合多肽的序列包含第一单结构域和第二单结构域的序列。在一些实施方案中，当融合多肽的定量特征大于第一单结构域或第二单结构域的定量特征时，鉴定出亲合力增强的相互作用。在一些实施方案中，优化的多肽包含被鉴定为包含亲合力增强的相互作用的融合多肽的另外的突变，其中突变增加融合多肽对抗原的结合亲和力。在一些实施方案中，在进行(c)或(d)的同时获得包含抗原与多个单结构域多肽的结合数据的数据。在一些实施方案中，在(a)之前获得包含抗原与多个单结构域多肽的结合数据的数据，并且其中提供附接于固体支持物的多个多核苷酸是至少部分基于数据集。

在一些实施方案中，多个融合多肽包含对抗原包含中等亲和力的单结构域多肽的序列。在一些实施方案中，多个融合多肽包含对抗原包含最小亲和力或无亲和力的单结构域多肽的序列。在一些实施方案中，包含最小亲和力或无亲和力的单结构域多肽的序列包含与能够结合抗原的单结构域多肽基本上相似的大小或长度。在一些实施方案中，包含最小亲和力或无亲和力的单结构域多肽的序列与能够结合抗原的单结构域多肽在大小或长度上的差异不超过10％。在一些实施方案中，多个单结构域多肽中的单结构域多肽包含N末端接头或C末端间隔子。在一些实施方案中，多个单结构域多肽中的单结构域多肽包含N末端接头和C末端间隔子。在一些实施方案中，多个单结构域多肽包含多个不同的N末端接头序列和不同的C末端间隔子序列。在一些实施方案中，数据集来源于公共数据库中的数据。

在一些实施方案中，融合多肽是多肽-Fc融合体。在一些实施方案中，多肽-Fc融合体包含能够结合抗原的抗体片段结晶区(Fc区)。在一些实施方案中，融合多肽包含嵌合抗原受体。在一些实施方案中，融合多肽包含VHH纳米抗体。在一些实施方案中，融合多肽包含一对二价VHH纳米抗体。在一些实施方案中，融合多肽包含一对双表位VHH纳米抗体。在一些实施方案中，融合多肽包含多价VHH纳米抗体。在一些实施方案中，融合多肽包含连接融合多肽的第一结构域和融合多肽的第二结构域的接头。在一些实施方案中，第一结构域包括VHH。在一些实施方案中，第二结构域包括VHH。在一些实施方案中，第一结构域包括第一VHH，并且第二结构域包括第二VHH。在一些实施方案中，第一VHH和第二VHH结合相同的抗原。在一些实施方案中，相同的抗原包括多肽、脂质或碳水化合物或细胞。在一些实施方案中，接头包含至少12个氨基酸。在一些实施方案中，接头包含至少20个氨基酸。在一些实施方案中，接头包含至少30个氨基酸。在一些实施方案中，接头包含净正电荷。在一些实施方案中，接头包含净负电荷。在一些实施方案中，接头包含净中性电荷。

在一些实施方案中，多个多核苷酸包括至少10⁴个多核苷酸。在一些实施方案中，优化的多肽包括增加的亲合力效果。在一些实施方案中，在(a)之前，固体表面包含被配置为退火到多个前体多核苷酸的多个捕获寡核苷酸，并且其中多个前体多核苷酸退火到多个捕获核苷酸，从而产生附接于固体表面的多个多核苷酸。在一些实施方案中，产生附接于固体表面的多个多核苷酸包括多个前体多核苷酸的扩增或延伸。在一些实施方案中，扩增包括桥式扩增。在一些实施方案中，固体支持物包括珠。在一些实施方案中，固体支持物包括测序流动池。

在一些实施方案中，(d)包括对多个多核苷酸进行测序。在一些实施方案中，(e)包括至少部分地基于由多个多核苷酸的测序和检测产生的序列数据产生优化的多肽。在一些实施方案中，多个融合多肽中的融合多肽包含N末端接头或C末端间隔子。在一些实施方案中，多个融合多肽中的融合多肽包含N末端接头和C末端间隔子。在一些实施方案中，融合多肽包含多个不同的N末端接头序列和不同的C末端间隔子序列。在一些实施方案中，优化的多肽包含双表位多肽。在一些实施方案中，优化的多肽包含三表位多肽。在一些实施方案中，优化的多肽包含四表位多肽。在一些实施方案中，优化的多肽包含多聚体多肽。在一些实施方案中，优化的多肽包含能够结合至抗原的两个或更多个结构域，其中至少两个结构域是相同的。在一些实施方案中，优化的多肽包含能够结合至抗原的两个或更多个结构域，其中两个或更多个结构域彼此不同。

在另一方面，本公开提供了一种用于鉴定双表位多肽的方法，其包括：(a)提供附接于固体表面的多个多核苷酸，其中多个多核苷酸编码多个VHH多肽；(b)加工多个多核苷酸以产生多个VHH多肽；(c)将抗原暴露于多个多肽，并且检测多个VHH多肽中的至少一个VHH多肽与抗原的相互作用；(d)对多个多核苷酸进行测序；(e)提供附接于固体表面的第二多个多核苷酸，其中第二多个多核苷酸编码多个VHH-VHH融合多肽；(f)加工多个第二多核苷酸以产生多个VHH-VHH融合多肽；(g)将抗原暴露于多个VHH-VHH融合多肽，并且检测多个VHH-VHH融合多肽中的至少一个VHH-VHH融合多肽与抗原的相互作用；(h)对第二多个多核苷酸进行测序；以及(i)至少部分地基于由(d)和(e)的测序以及(c)和(g)的检测产生的序列数据，产生能够结合抗原的双表位多肽。

在另一方面，本公开提供了一种用于产生优化的多肽的方法，其包括：(a)提供展示在固体底物上的多个多肽，其中多个多肽中的多肽包含结合结构域，以及(i)N末端间隔子，(ii)C末端间隔子中的一个或多个，其中多个多肽包含含有N末端间隔子序列和C末端间隔子序列的不同组合的多肽；(b)观察多个多肽中的至少两个多肽的信号，其中信号对应于(i)多肽和抗原的结合相互作用或(ii)多肽的物理特征；(c)比较至少两个多肽的信号，并且确定产生靶信号的N末端间隔子序列和C末端间隔子序列的组合。

在一些实施方案中，N末端间隔子或C末端间隔子未结合至抗原。在一些实施方案中，靶信号包括低于阈值水平的信号。在一些实施方案中，靶信号包括高于阈值水平的信号。在一些实施方案中，靶信号包括多个多肽的信号中的最高信号。在一些实施方案中，靶信号包括多个多肽的信号中的最低信号。

在一些实施方案中，信号对应于多肽的平衡结合常数、动力学结合常数、蛋白质稳定性测量值、酶活性、分数活性、非特异性结合潜力、聚集潜力、疏水性、蛋白质表达水平或成熟时间。

在另一方面，本公开提供了一种用于发现改善的结合物对的方法，其包括：(a)提供综合数据集，综合数据集包括(i)包含两个结构域的多个多肽的测量的定量结合特征，其中两个结构域独立地选自单体结构域的集合，其中多个多肽包含所有可能的单体多肽对；和(ii)作为单独的单体多肽的单体结构域的集合中的每个单体结构域的测量的定量结合特征；(b)比较(i)和(ii)的值，以鉴定包含改善的结合物对的多肽，结合物对表现出显著大于任一组分单独的单体多肽的结合特征的定量结合特征。在一些实施方案中，改善的结合物对是双表位结合物。在一些实施方案中，综合数据集包括单独的单体多肽的集合的测量的定量结合特征和单独的单体多肽的集合的所有可能串联对组合的至少50％、60％、70％、80％、90％或更多的测量的定量结合特征。在一些实施方案中，综合数据集包括单独的单体多肽的集合的测量的定量结合特征和单独的单体多肽的集合的所有可能串联对组合的测量的定量结合特征。

在另一方面，本公开提供了一种用于鉴定亲和力优化和亲合力优化的串联多肽的高通量方法，其包括：(a)提供编码单体变体多肽的第一文库的多核苷酸的第一文库；(b)加工多核苷酸的第一文库以产生变体多肽的第一文库，其中变体多肽附接于多核苷酸的第一文库；(c)分析变体多肽的第一文库以产生数据；(d)基于数据鉴定变体多肽的第一文库的至少一部分的结合亲和力；(e)基于来自第一文库的结合数据，提供编码来自第一文库的单体变体多肽的第二文库的第二多核苷酸的第二文库；(f)提供编码多个串联多肽的多核苷酸的第三文库，多个串联多肽包含对应于第一文库的单体变体多肽的不同组合，其中多个串联多肽中的串联多肽包含第一单体变体多肽和第二单体变体多肽；(g)加工多核苷酸的第二文库和第三文库以产生变体多肽的第二文库和第三文库，其中变体多肽附接于多核苷酸的第二文库和第三文库；(h)分析变体多肽的第二文库和第三文库，以鉴定亲和力增强单体多肽变体和亲合力增强串联多肽；以及(i)通过将在第二文库中鉴定的单独优化的单体替换到从第二文库中发现的亲合力增强串联对中的相应位置中，将在第二文库和第三文库中鉴定的亲合力增强和亲和力增强组合。在一些实施方案中，第三文库包含多个多肽，多肽包含在第一单体变体多肽和第二单体变体多肽之间的不同接头。在一些实施方案中，第三文库包含单体变体多肽，该单体变体多肽包含基于来自第一文库的结合数据与参考多肽相比降低的亲和力。

在另一方面，本公开提供了组合物，其包含：展示在固体表面上的多肽阵列，其中每个多肽共定位于编码该多肽的相应多核苷酸，其中多个多肽中的多肽包含第一结构域和第二结构域，其中第一结构域和第二结构域经由接头连接，其中第一结构域结合第一表位，并且第二结构域结合第二表位，其中第一表位和第二表位不同。组合物可以包含多肽阵列，多肽阵列包含如本文别处所述的多肽文库。

从以下详细描述，本公开的另外的方面和优点对本领域技术人员将变得显而易见，其中仅示出和描述了本公开的说明性实施方案。如将理解的，本公开能够具有其他和不同的实施方案，并且其若干细节能够在各种明显方面进行修改，所有这些都不偏离本公开。因此，附图和描述在本质上被视为说明性的，而不是限制性的。

援引并入

本说明书中提及的所有出版物、专利和专利申请均通过引用并入本文，其程度如同每个单独的出版物、专利或专利申请都明确且单独地指出通过引用并入。在通过引用并入的出版物和专利或专利申请与本说明书中包含的公开内容相矛盾的情况下，本说明书旨在取代和/或优先于任何此类矛盾的材料。

附图说明

本发明的新颖特征在所附权利要求中详细阐述。“该专利或申请文件包含至少一幅以彩色执行的附图。带有彩色附图的本专利或专利申请公开的副本在请求并支付必要的费用后将由专利局提供。通过参考以下阐述其中利用了本发明的原理的说明性实施方案的详细描述以及附图(在本文中还被称为“图”)，将获得对本发明的特征和优点的更好理解，在附图中：

图1A示出了用于初始展示选择的纳米抗体序列的示意图。图1B示出了使用核糖体展示所展示的纳米抗体文库的表示。

图2示出了本公开的方法的示意图，其中产生并量化DNA文库。

图3示出了CDR区域中单个突变的热图。

图4示出了本公开的方法的示意图，其中产生并量化DNA文库，随后基于先前文库的分析来产生并量化新的文库。

图5示出了与通过本公开的方法产生的多肽相关的数据。

图6示出了与通过本公开的方法产生的选定多肽相关的数据。

图7示出了可以使用本公开的方法产生的多肽的示意图。

图8示出了多特异性或选择性多肽的示意图。

图9示出了用于产生双表位多肽的工作流程示意图。

图10示出了数据集中代表性VHH的CDR区域中单个突变体的结合数据的热图。

图11示出了编码串联VHH的DNA文库的设计的示意图，串联VHH可以在芯片上表达，测定结合，并且使用本公开的方法进行分析以发现亲合力增强。

图12A示出了使用本公开的方法为特定串联VHH对产生的亲合力增强数据。图12B示出了实验中所有串联VHH对在两个方向上亲合力增强的热图。

图13A示出了使用本公开的方法产生的VHH亲和力优化文库中突变的数量的分布图13B示出了与使用本公开的方法产生的针对两个不同靶标的亲和力优化的VHH相关的数据。

图14示出了用于产生亲和力优化的、亲合力增强的多价串联VHH对的工作流程示意图。

图15A-图15C示出了使用本公开的方法的(图15A)顺序(“两步”)优化，(图15B)发现具有增强的亲合力的串联多肽对，以及(图15C)用于发现以具有高亲合力的串联配置格式化的亲和力优化的分子的组合工作流程的工作流程示意图。

图16示出了计算机控制***，其被编程或以其他方式配置为实施本文提供的方法。

具体实施方式

虽然本文已经示出和描述了本发明的各种实施方案，但对本领域技术人员而言将显而易见的是，此类实施方案仅通过示例的方式提供。在不脱离本发明的情况下，本领域技术人员将会想到许多变化、改变和替换。应当理解，可以采用本文描述的本发明的实施方案的各种替代方案。

本公开提供了用于产生多肽文库的方法、***和组合物，以及用于展示文库以鉴定或确定多肽的特征的方法、***和组合物。本文描述的方法对于优化或产生具有特定特征的多肽可能是有效的。具体而言，可以使用方法来产生能够在低浓度下结合抗原的抗体或抗体片段。本文所述的方法可以允许高度多重化的定量测定，这可以导致否则难以快速获得的数据的产生。该数据可以被利用并用于指导所描述的方法的后续迭代，或者与产生的其他数据组合以创建可以被优化以具有多个特征的多肽。方法可以通过使用由早期迭代收集的数据来迭代执行，以指导后期迭代的构建，从而快速且高效地鉴定具有极端或罕见功能的多肽。大数据集的产生可以用于构建其他方法(诸如定向进化)无法鉴定的多肽。由于可能需要分析以鉴定感兴趣的多肽的序列空间的大小，需要以快速、可调和可定制的方式分析大量潜在的多肽并产生定量数据。

多肽文库构建

在本公开的各个方面，构建了多肽文库。为了鉴定和产生具有感兴趣的特定性质的多肽，可以基于参数的集合来构建多肽文库。使用如本文别处描述的多肽文库展示方法，可以对多肽文库进行分析。

在一些实施方案中，多肽文库包含野生型多肽或参考多肽。在一些实施方案中，多肽文库可以包含野生型多肽或参考多肽的变体。该变体可以包含置换突变、***或缺失。多肽文库可以包含在1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、30、40、50、60、70、80、90、100个或更多个氨基酸处具有突变的多肽变体。多肽文库可以包含对应于单个残基的所有可能的单点取代变体的多肽。单点突变可以包括用一种氨基酸取代选自氨基酸的集合的另一种氨基酸。氨基酸的集合可以是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25或更多个氨基酸。氨基酸的集合可以包括丙氨酸、精氨酸、天冬酰胺、天冬氨酸、半胱氨酸、谷氨酰胺、谷氨酸、甘氨酸、组氨酸、异亮氨酸、亮氨酸、赖氨酸、蛋氨酸、苯丙氨酸、脯氨酸、丝氨酸、苏氨酸、色氨酸、酪氨酸和缬氨酸。氨基酸的集合可以包括丙氨酸、精氨酸、天冬酰胺、天冬氨酸、半胱氨酸、谷氨酰胺、谷氨酸、甘氨酸、组氨酸、异亮氨酸、亮氨酸、赖氨酸、蛋氨酸、苯丙氨酸、脯氨酸、丝氨酸、苏氨酸、色氨酸、酪氨酸、缬氨酸或其组合。例如，多肽文库可以包含20个多肽(例如基于20种典型氨基酸)，其中在第一残基处，氨基酸是不同的氨基酸，并且所有其他氨基酸是相同的。以这种方式，可以分析多肽文库以产生与特定残基数的氨基酸如何可以影响多肽的性质有关的数据。多肽文库可以包含对应于多肽中所有残基处20种氨基酸的单点取代的多肽。例如，对于100个氨基酸长的多肽，对于每个残基，对应于每个典型氨基酸产生20个变体，导致2,000(20×100)个不同的多肽。使用这种方法，可以分析多肽文库以产生对于多肽的整个长度与特定残基数的氨基酸如何可以影响多肽的性质有关的数据。

多肽文库可以包含对应于多肽的区域中所有残基处20种氨基酸的单点取代的多肽。例如，多肽的特定结构域可以与功能相关，诸如与抗原或其他靶标结合。多肽文库可以包含对应于在对于特定结构域特异性的残基处20种氨基酸的单点取代的多肽。例如，多肽可以是抗体或抗体的片段，并且特定结构域可以是互补决定区(CDR)。多肽文库可以包含对应于多肽的区域中所有残基处20种氨基酸的所有单点取代的至少80％的多肽。多肽文库可以包含对应于多肽的区域中所有残基处20种氨基酸的所有单点取代的至少90％的多肽。多肽文库可以包含对应于多肽的区域中所有残基处20种氨基酸的所有单点取代的至少95％的多肽。多肽文库可以包含对应于多肽的区域中所有残基处20种氨基酸的所有单点取代的至少99％的多肽。多肽文库可以包含对应于多肽中所有残基处20种氨基酸的所有单点取代的至少80％的多肽。多肽文库可以包含对应于多肽中所有残基处20种氨基酸的所有单点取代的至少90％的多肽。多肽文库可以包含对应于多肽中所有残基处20种氨基酸的所有单点取代的至少95％的多肽。多肽文库可以包含对应于多肽中所有残基处20种氨基酸的所有单点取代的至少99％的多肽。氨基酸可以包括丙氨酸、精氨酸、天冬酰胺、天冬氨酸、半胱氨酸、谷氨酰胺、谷氨酸、甘氨酸、组氨酸、异亮氨酸、亮氨酸、赖氨酸、蛋氨酸、苯丙氨酸、脯氨酸、丝氨酸、苏氨酸、色氨酸、酪氨酸和缬氨酸。

可以至少基于结构数据来构建多肽文库。可以产生或可能先前已经产生参考(或变体)多肽的结构。可以基于结构确定方法例如x射线晶体学或核磁共振(NMR)光谱学，或用于阐明结构信息的其他方法来产生结构。使用多肽的结构数据，残基可以被鉴定为与其他残基相互作用。根据结构模型，基于与残基的相互作用相关的信息，可以产生多肽文库中的多肽。例如，参考多肽模型可以显示残基A和残基B之间的相互作用。多肽文库可以包含双变体，其中残基A和残基B是与参考多肽或野生型多肽相比的变体。这可能是使得，对于残基A处的每个变体氨基酸，产生了残基B处所有可能的氨基酸变体，并且反之亦然。对于给定的残基A和残基B，可以产生400种多肽(在残基A处的20种可能的氨基酸×在残基B处的20种可能的氨基酸)。使用这种方法，可以分析多肽文库以产生与特定残基数目的相互作用氨基酸如何可以影响多肽的性质有关的数据。

与野生型多肽或参考多肽相比，多肽文库中的多肽也可以对应于氨基酸的缺失。多肽可以包含缺失变体，其中任何单个氨基酸或氨基酸的组已经缺失。多肽可以包含1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、30、40、50、60、70、80、90、100个或更多个氨基酸的缺失。多肽可以包含1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、30、40、50、60、70、80、90、100个或更多个连续氨基酸的缺失。缺失可以位于多肽链的任何部分。

与野生型多肽或参考多肽相比，多肽文库中的多肽也可以对应于氨基酸的***。多肽可以包含***变体，其中任何单个氨基酸或氨基酸的组已经***。多肽可以包含1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、30、40、50、60、70、80、90、100个或更多个氨基酸的***。多肽可以包含1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、30、40、50、60、70、80、90、100个或更多个连续氨基酸的***。***可以位于多肽链的任何部分。

多肽文库可以包含如本文别处所述的多肽文库的组合。例如，多肽文库可以包含含有***变体的多肽和具有单点取代变体的多肽。

可以基于由如本文别处所述的多肽文库产生的数据来产生多肽文库。例如，可以产生对应于在多肽的特定结构域上的单点取代的第一多肽文库。可以对多肽文库进行测定，其中分析与特定抗原的结合。对应于文库中多肽的结合的数据可以证明，与参考多肽或野生型多肽相比，某些单点取代变体可以增加或减少结合，或保持不变。使用这些数据，可以产生包含多个单点取代变体的多肽。例如，关于多肽的数据可能表明：(1)残基A到氨基酸X的单点变体可以增加结合；和(2)残基B到氨基酸Y的单点变体可以增加结合。可以为包含残基A到氨基酸X的第一单点变体和残基B到氨基酸Y的第二单点变体的多肽文库产生多肽，并进行测定。可以分析变体的协同效应，并且协同效应允许产生具有改善的特征的多肽。多肽文库可以包含多肽，多肽包含变体的组合，变体被确定为改善或保持多肽的特征。例如，10个变体可能显示出对抗原具有改善的或中性的结合。可以产生包含10个变体的组合的多肽文库，其中第一多肽可以具有10个可能变体中的任何2个变体，并且第二多肽可以具有10个可能变体中的任何3个变体，等等。

这些文库构建方法可以迭代地使用，并且产生多步骤/多文库方法以优化或产生包含特定特征的多肽。可以产生并测定第一文库，以确定第一多肽文库中的多肽的特征。使用产生的数据，可以构建第二多肽文库，其考虑了数据，例如变体如何影响特征。可以测定第二文库并产生数据以鉴定具有特定特征的多肽。这可以重复，例如，其中基于从第二文库产生的数据来产生第三文库，或者其中从第n个文库(或其他文库)产生的数据产生第n+1个文库。另外地，文库的数据可以通过算法进行分析，或者用作预测算法或机器学习的训练集，以便鉴定用于下一个文库的感兴趣的变体。

可以从在先前产生的文库中分析的序列或从其他数据源构建文库。例如，可以产生组合了在先前产生的文库中分析的多肽的文库。可以产生包含结合至给定抗原的多个多肽的第一文库。第二文库可以使用来自第一文库的多个多肽的一个或多个序列与来自第一文库的多个多肽的另一个序列的组合。第一文库可以包括多个不同的包含特征的支架。第二文库可以包含在第一文库中分析的不同支架的多个融合体。第一文库可以包含多个结合多肽，结合多肽包含不同的结构或点突变。第二文库可以包含二价多肽或双表位多肽，其包含来自第一文库的结合多肽的组合。第二文库可以包含二价多肽或双表位多肽，其包含来自第一文库的结合多肽的所有组合。第二文库可以包含二价多肽或双表位多肽，其包含来自第一文库的结合多肽的所有排列。

多肽文库可以由多核苷酸的相应文库产生。文库可以包含至少10³、10⁴、10⁵、10⁶、10⁷、10⁸、10⁹个或更多个多核苷酸。文库可以包含10³、10⁴、10⁵、10⁶、10⁷、10⁸、10⁹个或更多个多肽。文库可以在单个底物、测序芯片上或在样品体积中包含至少10³、10⁴、10⁵、10⁶、10⁷、10⁸、10⁹个或更多个多核苷酸。文库可以在单个底物、测序芯片上或在样品体积中包含至少10³、10⁴、10⁵、10⁶、10⁷、10⁸、10⁹个或更多个多肽。

多肽可以是由氨基酸组成的任何聚合物。多肽可以结合至另一个分子，进行反应(物理或化学)，转导信号，充当结构组分，产生运动或其他功能。多肽可以是抗体或抗体的片段。例如，多肽可以是单链可变片段(scFv)或纳米抗体(例如VHH)。

本公开中描述的方法可以用于鉴定或产生包含特定或改善的特征的多肽。所描述的方法可以在任何参考序列或野生型序列上进行，以产生多肽的文库。方法可以允许任何具有功能的参考多肽被优化以具有改善的功能。特定特征可以是多肽的稳定性。特定特征可以是酶促速率或其他反应参数。特定特征可以至少包括对分子的特定结合亲和力或解离常数。例如，使用所描述的方法，可以产生对靶标具有高亲和力的抗体或抗体片段。产生的多肽可以包含小于1nM的对抗原或靶标的结合亲和力。产生的多肽可以包含不超过100nM、10nM、1nM、100pM、10pM、1pM或更少的对抗原或靶标的结合亲和力。

与参考多肽或野生型多肽相比，产生的多肽可以具有改善的测量的结合亲和力。例如，与参考多肽或野生型多肽相比，测量的结合亲和力可以包括10％的改善。例如，与参考多肽或野生型多肽相比，测量的结合亲和力可以包括25％的改善。例如，与参考多肽或野生型多肽相比，测量的结合亲和力可以包括50％的改善。例如，与参考多肽或野生型多肽相比，测量的结合亲和力可以包括75％的改善。例如，与参考多肽或野生型多肽相比，测量的结合亲和力可以包括100％的改善。例如，与参考多肽或野生型多肽相比，测量的结合亲和力可以包括200％的改善。例如，与参考多肽或野生型多肽相比，测量的结合亲和力可以包括300％的改善。例如，与参考多肽或野生型多肽相比，测量的结合亲和力可以包括400％的改善。例如，与参考多肽或野生型多肽相比，测量的结合亲和力可以包括500％的改善。例如，与参考多肽或野生型多肽相比，测量的结合亲和力可以包括1,000％的改善。例如，与参考多肽或野生型多肽相比，测量的结合亲和力可以包括100倍的改善。例如，与参考多肽或野生型多肽相比，测量的结合亲和力可以包括1000倍的改善。例如，与参考多肽或野生型多肽相比，测量的结合亲和力可以包括10,000倍的改善。例如，与参考多肽或野生型多肽相比，测量的结合亲和力可以包括100,000倍的改善。例如，与参考多肽或野生型多肽相比，测量的结合亲和力可以包括1,000,000倍的改善。产生的多肽可以是亲合力增强的多肽。

亲合力通常是指结合分子和抗原之间多个独立的非共价相互作用的累积强度，并且导致测量的结合亲和力增加。通过使多个抗原结合位点与抗原相互作用，亲合力效应可以导致(抗原或结合分子的)局部浓度增加。尽管单个结合相互作用可能被破坏并允许抗原被释放，并且不再与结合分子相互作用，但是具有多个结合位点(和多个独立的非共价相互作用)的分子可以保持抗原结合，即使单独的结合相互作用被破坏。亲合力增强的多肽可以具有多种不同的结合相互作用，诸如能够结合两个不同表位的双表位结合物。类似地，单表位多聚体结合物可以通过在结合位点之间“交换”抗原来保持抗原结合，并且可以有效地增加结合位点的局部浓度，从而增加测量的结合亲和力。

多肽文库展示

在本公开的各个方面，多肽被产生并且作为文库展示。展示多肽文库的方法可以并入可以将基因型和相应的表型相关联的方法。一种用于肽展示的此类方法可以包括基于核糖体的展示方法。使用核糖体的展示方法包括美国专利申请公开号US2020/0048629和美国专利号10,011,830(通过引用并入本文)中描述的方法。展示方法可以包括在编码多肽的DNA模板上展示为核糖体翻译产物(例如，蛋白质或肽、其生物活性片段或其他核糖体翻译的分子)的多肽。DNA模板可以包含可操作地连接到开放阅读框(ORF)的启动子。DNA模板可以进一步包含分子路障，其在DNA模板的转录期间阻断RNA聚合酶的进程。分子路障可能导致RNA聚合酶在转录期间停滞，使得DNA模板和转录的mRNA保持缔合。在RNA转录物的翻译期间，在分子路障处停滞的RNA聚合酶可以阻断核糖体继续翻译，使得核糖体展示新生肽链(例如，蛋白质或肽，其生物活性片段，或其他核糖体翻译的分子)，同时保持与RNA转录物缔合。如果需要，在核糖体到达分子路障后，由DNA模板的转录产生的单链mRNA可以在核糖体附近被切割。

分子路障可以包括位于DNA的可转录区域下游的一种或多种分子的构型，使得当转录过程中的RNA聚合酶遇到路障时，聚合酶停滞，形成包含RNA聚合酶、DNA模板和新生RNA转录物的稳定复合物。路障可以是与DNA共价或非共价缔合的分子实体，或者是对DNA的化学修饰，诸如导致RNA聚合酶停滞的DNA的链之间的化学交联。路障可以被置于反义DNA链的5’端或有义DNA链的3’端，或两者。路障还可以包括在适当位置处选择性地结合至特定DNA序列的分子。在一个实施方案中，分子路障通过在有义链的3’端或反义链的5’端生物素化DNA，然后结合链霉亲和素而形成，其中生物素-链霉亲和素复合物用作阻断RNA聚合酶的分子路障。

另外地，DNA模板可以编码具有核糖体停滞序列的mRNA。在某些实施方案中，核糖体停滞序列包含终止密码子(例如，mRNA中的UAG(琥珀色)、UAA(赭色)或UGA(蛋白石或棕色))。在另一个实施方案中，核糖体停滞序列进一步包含邻近终止密码子的聚脯氨酸编码序列。在一个实施方案中，聚脯氨酸编码序列包含三脯氨酸基序的编码序列，其中三脯氨酸基序的编码序列位于终止密码子之前(即在终止密码子的5’侧)。在另一个实施方案中，核糖体停滞序列进一步包含邻近聚脯氨酸编码序列(例如，三脯氨酸基序)的精氨酸-组氨酸-精氨酸编码序列，其中精氨酸-组氨酸-精氨酸编码序列位于聚脯氨酸编码序列之前(即，在聚脯氨酸编码序列的5’侧)。核糖体展示方法也可以在导致核糖体停滞的条件下进行。例如，可以使用核糖体的氨基酸饥饿(starvation)。通过限制特定氨基酸(或tRNA或其他相关试剂)的量，使得核糖体不能将下一个氨基酸添加到生长中的新生肽中，从而使核糖体停滞，可以实现氨基酸饥饿。

mRNA可以进一步包含Shine Dalgarno序列。Shine Dalgarno序列可以针对感兴趣的特定ORF进行优化，以促进高效的核糖体结合和翻译起始。

本公开中使用的多核苷酸可以来源于任何已知或未知序列的核酸，并且可以是例如基因组DNA或cDNA的片段。例如，多核苷酸可以来源于已经随机片段化的初级核酸样品。多核苷酸也可以通过逆转录成cDNA从初级RNA样品中获得。单独的多核苷酸可以包含完整基因或部分基因或cDNA，其来源于编码蛋白质或肽或其生物活性多肽或肽片段的mRNA。另外地，多核苷酸可以包含重组的工程化的构建体。多核苷酸可以编码贯穿本公开内容描述的多肽。例如，多核苷酸可以编码纳米抗体或scFv。

可以使用体外无细胞表达***进行蛋白质翻译。可以使用来自任何生物体的粗裂解物在体外进行翻译，粗裂解物提供翻译所需的所有组分，包括酶、tRNA和辅助因子(不包括释放因子)、氨基酸和能量供应(例如GTP)。通常使用来源于大肠杆菌(Escherichiacoli)、麦胚和兔网织红细胞的无细胞表达***。基于大肠杆菌的***提供了更高的产量，但是基于真核生物的***对于生产翻译后修饰的蛋白质是优选的。可替代地，人工重构的无细胞***可以用于蛋白质生产。为了最佳的蛋白质生产，DNA模板的ORF中的密码子使用可以被优化，以用于在选择用于蛋白质翻译的特定无细胞表达***中表达。另外地，可以将标记物或标签添加到蛋白质中，以促进高通量筛选。参见例如Katzen等人，(2005)TrendsBiotechnol.23:150-156；Jermutus等人，(1998)Curr.Opin.Biotechnol.9:534-548；Nakano等人，(1998)Biotechnol.Adv.16:367-384；Spirin(2002)Cell-Free TranslationSystems,Springer；Spirin和Swartz(2007)Cell-free Protein Synthesis,Wiley-VCH；Kudlicki(2002)Cell-Free Protein Expression,Landes Bioscience；它们通过引用以其整体并入本文。

在某些实施方案中，使用缺乏一种或多种释放因子的体外无细胞表达***进行蛋白质翻译，使得核糖体不从mRNA上的终止密码子释放。一种或多种释放因子，包括释放因子1(RF1)、释放因子2(RF2)和释放因子3(RF3)可能不存在，或者所有释放因子可能在体外无细胞表达***中不存在。缺乏的释放因子可能取决于选择用于包含在停滞序列中的终止密码子。例如，RF1通常在琥珀色密码子处介导核糖体从RNA转录物中释放。因此，如果在停滞序列中包含琥珀色密码子，则可以将RF1从体外无细胞表达***中省略。另一方面，RF2通常在赭色密码子或蛋白石密码子处介导核糖体从RNA转录物中释放。因此，如果在停滞序列中包含赭色密码子或蛋白石密码子，则可以将RF2从体外无细胞表达***中省略。在一些实施方案中，使用缺乏任何释放因子的体外无细胞表达***进行蛋白质翻译。另外地，也可以将核糖体再循环因子(RRF)从体外无细胞表达***中省略，以防止停滞的核糖体从转录的RNA分子中释放。

在一些实施方案中，一种或多种非典型的氨基酸被并入到核糖体翻译产物中，诸如但不限于D-氨基酸、β氨基酸或N-取代的甘氨酸(类肽)。非典型的氨基酸可以以残基特异性或位点特异性的方式被引入到蛋白质或肽中。参见，例如，Link等人，(2003)Curr.Opin.Biotechnol.14(6):603-609；Johnson等人，(2010)Curr.Opin.Chem.Biol.14(6):774-780；Zheng等人，(2012)Biotechnol J.7(1):47-60；它们通过引用并入本文。

在一些实施方案中，多肽展示的方法可以包括提供仅允许一种RNA聚合酶在多核苷酸上启动转录的条件。例如，DNA模板可以进一步包含停滞序列，其中启动转录的第一RNA聚合酶在DNA模板上的一个位置处停滞，使得任何其他聚合酶的启动被阻断。转录在核苷酸饥饿的条件下进行，其中RNA聚合酶停滞在DNA模板上的特定位置处，因为在该位置添加所需的核苷酸未被提供(参见例如Greenleaf和Block(2006)Science 313(5788):801；其通过引用并入本文)。在RNA聚合酶停滞后，例如通过洗涤除去任何未结合的聚合酶，然后添加恢复转录所需的缺失核苷酸以允许转录继续进行，直到结合到DNA模板的一种剩余RNA聚合酶在分子路障处停滞。可替代地，未结合的RNA聚合酶可以被灭活(例如，使用肝素)而不是被去除，以确保仅一种RNA聚合酶保持与DNA模板结合。

在一些实施方案中，多肽展示的方法可以进一步包括提供仅允许一个核糖体启动RNA转录物上的翻译的条件。例如，翻译可以在氨基酸饥饿的条件下进行，其中核糖体停滞在RNA转录物上的特定位置处，因为在该位置添加所需的氨基酸未被提供。然后，可以例如通过洗涤除去任何未结合的核糖体，并且可以添加恢复翻译所需的缺失氨基酸，以允许翻译继续进行，直到一个结合的核糖体到达核糖体停滞序列。

核糖体翻译产物可以包含一个或多个接头或间隔子，例如，以促进核糖体上的展示、克隆、纯化或检测，或提高溶解性。具有例如20个或更少氨基酸(即20、19、18、17、16、15、14、13、12、11、10、9、8、7、6、5、4、3、2或1个)的短柔性接头或间隔子可用于分离融合构建体中的结构域。示例包括短肽序列，诸如聚甘氨酸接头(Glyn，其中n＝2、3、4、5、6、7、8、9、10或更多)、组氨酸标签(Hisn，其中n＝3、4、5、6、7、8、9、10或更多)、由甘氨酸残基和丝氨酸残基组成的接头、可溶性多肽接头、GSAT、SEG和Z-EGFR接头。具有确定的三级结构的较长接头可以用于促进蛋白质或肽在核糖体上的展示。此类接头包括但不限于丝状噬菌体M13mp192的基因III的片段、tolA的螺旋区的一部分、来自大肠杆菌的tonB的延伸区和来自λ噬菌体的衣壳的蛋白D(pD)的区段(参见例如Yang等人，(2008)PLoS One 3(5):e2092；其通过引用并入本文)。其他合适的接头氨基酸序列对本领域技术人员来说将是显而易见的。(参见例如Argos(1990)J.Mol.Biol.211(4):943-958；Crasto等人，(2000)Protein Eng.13:309-312；George等人，(2002)Protein Eng.15:871-879；Arai等人，(2001)Protein Eng.14:529-532；以及标准生物部分的注册表(Registry of Standard Biological Parts)(partsregistry.org/Protein_domains/Linker)。多肽可以包含N末端接头。N末端接头可以在展示的多肽的N末端处包含氨基酸序列。多肽可以包含C末端间隔子。C末端间隔子可以在多肽的C末端处包含另外的氨基酸。

多个多肽可以同时展示或在相同的给定底物上(例如，固体表面，诸如测序芯片)展示。例如，该方法可以用于展示由生物体的基因组文库或由来自生物体的RNA产生的cDNA文库编码的集合蛋白质或肽，或由生物体表达的感兴趣的蛋白质或肽的选定子集，或工程化的蛋白质或肽。用于展示的DNA文库可以是完全或部分合成的，并且可以包含针对多肽的特定集合的表达而优化的序列。多个DNA模板可以游离在溶液中或固定在固体支持物上。多肽文库和用于构建多肽文库的方法在本文别处描述，并且来自此类文库的任何数量的多肽可以同时展示或在同一表面上展示。

在一些实施方案中，多个多核苷酸被固定在固体支持物上。固体支持物可以包括例如玻璃、石英、二氧化硅、金属、陶瓷或塑料。示例性的固体支持物包括载玻片、珠、板、凝胶、膜或流动池或微通道的内表面。每个DNA模板可以位于固体支持物上已知的预定位置，使得可以根据其在固体支持物上的位置来确定由DNA模板产生的每个蛋白质的身份。可替代地，DNA模板可以随机结合到支持物，其中由每个DNA模板产生的蛋白质的身份可以通过相关DNA模板的测序或蛋白质本身的表征来确定。可以使用多核苷酸与珠的固定或偶联以及展示多肽的方法，诸如在WO2022026458A1(其通过引用并入本文)中公开的那些。

核酸可以共价地连接到多肽或固体表面，诸如珠。另外地，多肽也可以连接到珠，例如，经由直接缀合到珠上或经由缀合到附接于珠的核酸上。在一些实施方案中，多肽与核酸分子的缀合由连接酶催化。在一些实施方案中，多肽通过表达的蛋白连接或通过蛋白反式剪接被缀合到核酸分子。在一些实施方案中，多肽通过形成亮氨酸拉链被缀合到核酸分子。在一些实施方案中，珠或核酸分子被缀合至捕获部分，并且多肽包括连接标签，其中捕获部分和连接标签被缀合，从而将珠缀合到多肽上或将核酸分子缀合到多肽上。连接酶可以是分选酶、蝶豆粘酶(butelase)、胰蛋白酶连接酶、肽连接酶、甲酰甘氨酸产生酶、转谷氨酰胺酶、微管蛋白酪氨酸连接酶、磷酸泛酰巯基乙胺基转移酶、谍连接酶(Spy Ligase)或探连接酶(SnoopLigase)。

可以使用本领域已知的任何方法，通过物理或化学手段将核酸偶联到固体支持物。可以将底物添加到固体支持物的表面，以促进DNA模板的附接。DNA阵列制造方法是熟知的，并且包括各种基于光化学的方法、激光写入、电喷雾沉积、喷墨和微喷射沉积或点样技术、光刻寡核苷酸合成工艺以及接触印刷技术，包括接触针印刷和微压印。合适的机器人、基于微机械的***和显微技术的组合使得在固体支持物上每cm2有序沉积多达数百万个核酸在技术上可行。参见例如Rehman等人，(1999)Nucleic Acids Research 27:649-655；Heller等人，(2002)Annu.Rev.Biomed.Eng.4:129-153；Dufva(2009)MethodsMol.Biol.529:1-22；Sethi等人，(2008)Bioconjug Chem.19(11):2136-2143；Adessi等人，(2000)Nucleic Acids Res.28(20):E87；Okamoto等人，(2000)Nat.Biotechnol.18(4):438-441；Barbulovic-Nad等人，(2006)Crit.Rev.Biotechnol.26(4):237-259；它们通过引用并入本文。

在一个实施方案中，丙烯酰胺修饰的核酸被固定在含有暴露的丙烯酸基团的固体支持物(例如，硅烷化的玻璃或塑料)上。在使用丙烯酰胺亚磷酰胺合成寡核苷酸期间，可以将丙烯酰胺基团添加到核酸上。丙烯酰胺修饰与丙烯酰胺单体共聚，以形成含有固定的核酸的稳定的聚丙烯酰胺共聚物。通过在支持物的表面上聚合丙烯酰胺基质并添加丙烯酰胺修饰的核酸，可以在支持物上制造含有固定的DNA的层。使用标准的化学方法或光化学方法来催化聚合。参见，例如，Rehman等人，(1999)Nucleic Acids Research 27:649-655；其通过引用以其整体并入本文。

可以通过与附接于固体支持物的表面的互补捕获寡核苷酸杂交，将多核苷酸固定在固体支持物上。捕获寡核苷酸可以具有与DNA模板的混合物中的单个DNA模板互补的独特序列，以允许选择性捕获特定的DNA模板。另外地或可替代地，可以使用通用的捕获寡核苷酸，其结合到添加到DNA模板上的互补衔接子序列，以允许单一类型的捕获寡核苷酸用于捕获固体支持物上的多个DNA模板。DNA模板可以在固体支持物上随机排列或有序排列成阵列，其中每个DNA模板占据固体支持物上的离散位置。

编码的多肽可以通过例如以使用用于在珠上展示多核苷酸的方法制备的核酸包被的珠(例如，DNA包被的珠)开始来表达并缀合到珠上(例如，经由缀合到与珠缀合的核酸上)。多肽与珠的缀合(例如，直接或经由附接于核酸)可以在微乳液步骤中进行。例如，将DNA包被的珠与包括用于无细胞体外转录和翻译(IVTT)方法的试剂的混合物一起在微乳液中乳化，导致珠上DNA的转录和翻译以及编码的多肽和/或蛋白质的产生。在一些实施方案中，微乳液包含IVTT的试剂以及催化酶或溶液相DNA，其编码催化酶并催化多肽附接于核酸上的捕获部分。如本文所述，可以调节混合物的组分，以确保平均一个DNA包被的珠和足够的IVTT试剂。

在一些实施方案中，经由延伸固定的DNA寡聚物，在珠的表面上直接扩增每个液滴中的核酸。在一些实施方案中，核酸可以在不含珠的液滴中单独扩增，然后在微流体通道中与包含珠的单独液滴融合。在一些实施方案中，在乳液液滴产生后，每个液滴中的核酸经由聚合酶链式反应扩增，以产生每个核酸变体的克隆群体。扩增的核酸在每个微乳液液滴中的物理固定可以经由例如连接或延伸固定的DNA寡聚物以产生核酸包被的珠(例如DNA包被的珠)来实现。

在一个实施方案中，该方法进一步包括至少一个DNA模板的扩增或延伸。扩增或延伸可以使用任何已知的方法诸如聚合酶链式反应(PCR)或其他核酸扩增过程(例如，连接酶链式反应(LGR)、基于核酸序列的扩增(NASBA)、转录介导的扩增(TMA)、Q-β扩增、链置换扩增或靶介导的扩增)来进行。参见，例如，PCR Protocols，第226卷Methods in MolecularBiology，J.Bartlett和D.Stirling编辑，Humana Press；第2版，2003；Wiedmann等人，(1994)PCR Methods Appl.3(4):551-64；Deiman等人，(2002)Mol.Biotechnol.20(2):163-179；Guatelli等人，Proc.Natl.Acad.Sci.USA(1990)87:1874-1878和J.Compton，Nature(1991)350:91-92(1991)；Hill，(2001)Expert Rev.Mol.Diagn.1:445-455；WO 89/1050；WO88/10315；EPO公开号408,295；EPO公开号8811394-8.9；WO91/02818；美国专利号5,399,491、6,686,156和5,556,771；Walker等人，Clin.Chem.(1996)42:9-13和EPA 684,31；其通过引用以其整体并入本文。具体而言，克隆扩增方法，诸如但不限于桥式扩增、乳液PCR(ePCR)或滚环扩增，可以用于在离散区域中聚集扩增的核酸(参见，例如，美国专利号7,790,418；5,641,658；7,264,934；7,323,305；8,293,502；6,287,824；以及国际申请WO1998/044151 A1；Lizardi等人，(1998)Nature Genetics 19:225-232；Leamon等人，(2003)Electrophoresis 24:3769-3777；Dressman等人，(2003)Proc.Natl.Acad.Sci.USA 100:8817-8822；Tawfik等人，(1998)Nature Biotechnol.16:652-656；Nakano等人，(2003)J.Biotechnol.102:117-124；它们通过引用并入本文)。为此目的，DNA模板可以在5’端和3’端处包括适合于高通量扩增的衔接子序列(例如，具有与通用扩增引物或桥式PCR扩增引物互补的序列的衔接子)。例如，附接于固体支持物的桥式PCR引物可以用于捕获包含与桥式PCR引物互补的衔接子序列的DNA模板。然后可以扩增DNA模板，其中每个DNA模板的扩增的产物聚集在固体支持物上的离散区域中。在一个实施方案中，在展示用于功能筛选的核糖体翻译产物之前，将DNA模板附接于固体支持物，扩增并测序。

在各种实施方案中，可以使用微乳液液滴。微乳液液滴可以用于将本体溶液转变成多个液滴。液滴可以包含用于可能在微滴中发生的反应并且与其他微乳液微滴或本体溶液分开并且允许反应发生的微环境的试剂。例如，缀合、转录、翻译或扩增反应可以在微乳液液滴中发生。用于生产用于化学和生物化学反应的目的的微乳液液滴的方法是本领域技术人员已知的。通常，微乳液液滴包含悬浮在油相中的水相(例如油包水乳液)。在一个实施方案中，油相由95％矿物油、4.5％Span-80、0.45％ Tween-80和0.05％ Triton X-100组成。在一些实施方案中，微乳液经由水相和油相的直接混合和/或涡旋形成。在一些实施方案中，微乳液经由压电泵在包含油相的微流体通道中挤出水相来形成。在一些实施方案中，微乳液使用分散仪器或均化器经由水相和油相的机械混合来形成。在一个实施方案中，每个乳液液滴平均包含单个引物包被的珠、一个模板DNA分子和多个PCR引物分子。温度循环可以用于产生从珠上的模板扩增的克隆DNA。

多肽文库特征的鉴定

多肽文库可以如本公开别处所述产生和展示。展示的多肽可以与其编码多肽的相应的多核苷酸连接或以其他方式缔合。测序反应可以在本文别处公开的多核苷酸上进行。可以使用任何测序方法，包括但不限于Maxam-Gilbert测序、Sanger测序(即链终止方法)、合成测序(SBS)、连接测序、焦磷酸测序、离子流测序、纳米孔测序和单分子实时测序。在一个实施方案中，通过高通量DNA测序方法对多个DNA模板进行测序。参见，例如，Pettersson等人，(2009)Genomics 93(2):105-111；Maxam和Gilbert，(1977)Proc.Natl.Acad.Sci.U.S.A.74(2):560-564；Sanger等人，(1977)Proc.Natl.Acad.Sci.U.S.A.74(12):5463-5467；Ronaghi等人，(1996)AnalyticalBiochemistry 242(1):84-89；Brenner等人，(2000)Nature Biotechnology 18(6):630-634；Schuster(2008)Nat.Methods 5(1):16-18；Margulies等人，(2005)Nature 437:376-380；Shendure等人，(2005)Science 309:1728-1732；Thompson等人，(2012)Electrophoresis 33(23):3429-3436；Merriman等人，(2012)Electrophoresis.33(23):3397-3417；以及Pareek等人，(2011)Journal of applied genetics 52(4):413-435。

测序反应可以产生多核苷酸的测序数据。在一些实施方案中，多核苷酸附接于阵列或固体支持物，或者以其他方式在空间上明显分开。通过对多核苷酸进行测序，阵列或固体支持物上的特定多核苷酸可以被鉴定为具有特定序列。因此，阵列上的特定点可以被鉴定为具有特定的或已知的序列。如本公开中描述的多肽展示技术允许多肽与编码该多肽的多核苷酸附接、连接或以其他方式缔合。由于测序反应可以将多核苷酸鉴定为具有特定序列，因此可以确定相应多肽的氨基酸序列。

可以对多肽进行分析。可以在多肽文库上进行大规模平行高通量蛋白质筛选。例如，可以进行多重测定，其中多核苷酸的文库可以固定在固体支持物上，诸如固定在载体(例如毛细管)的限定位置内的珠上，或者微通道或流动室的内表面上，或者显微镜载玻片的表面上，等等。表面可以是平坦的表面或包被的表面。另外地，表面可以包括布置在空间离散区域中的多个微特征，以在表面上产生纹理，其中与非纹理化的表面相比，纹理化的表面提供了表面积的增加。

阵列可以包含多个展示的核糖体翻译产物(诸如抗原、抗体、酶、底物、受体或调节分子)或其文库。此类阵列可以用于，例如，高通量遗传或药理学筛选、表位作图、蛋白质工程化或蛋白质组分析。对于高通量筛选，阵列优选地包含在流动池或微流体装置中。数千万到数十亿的蛋白质、肽或核糖体翻译的小分子有可能被同时定量筛选。功能筛选可以在连续流或停止流***中进行，其中蛋白质被展示在固定的多核苷酸上，如本文所述，并且不同的试剂和缓冲液在一端处被泵入到***中，并且在另一端处离开***。试剂和缓冲液可以连续流动，或者可以保持在适当的位置持续一段时间，以允许配体结合或酶促反应进行。另外地，配体或底物可以被标记以促进结合相互作用或酶促反应的检测和定量分析。

在一些实施方案中，蛋白质表征测定在高通量测序仪中进行。核糖体翻译产物(例如，蛋白质或肽，其生物活性片段，或其他核糖体翻译的分子)可以使用本文所述的方法展示在测序仪中的多核苷酸上，然后同时直接在测序流动池上进行功能表征。这可能对高通量测序仪器产生显著的附加值，允许高通量测序容易地与蛋白质筛选相结合。

在一些实施方案中，对核酸分子进行测序以及对每个多肽的一个或多个功能或性质进行测定在同一机器、装置或仪器上进行(例如，以任何顺序依次进行)。在一些实施方案中，进行多个测定以确定每个多肽的两个或更多个功能或性质，或者进行多个测定以确定每个多肽在不同条件下的单一功能或性质。可以在同一台机器、装置或仪器上同时或依次进行多个测定。例如，单个机器、装置或仪器可以用于对缀合到每个珠上的核酸分子进行测序，以便鉴定缀合到该珠上的多肽；并且进行一个或多个测定以表征每个多肽(例如，结合亲和力、结合特异性、酶促活性、稳定性，例如，在不同的实验条件(包括例如温度和/或pH)下)。在一些实施方案中，测序和一个或多个测定产生由单个机器、装置或仪器测量的荧光特征。

多肽表征可以包括基于反应或事件的存在产生可检测的信号。例如，当多肽与抗原结合时，可以产生可检测的信号。可检测的信号可以由可检测的标记物产生。可检测的标记物可以附接或偶联到抗原(或靶分子)上，或者可以附接到可以检测抗原(或靶分子)的另一试剂上。例如，抗原可以偶联到可以产生信号的酶。可以允许多肽文库接触抗原或靶分子，并且多肽可以结合抗原。在去除过量抗原后，添加酶底物，并且酶可以导致产生可检测的信号。因此，可检测的信号的存在可以表明多肽已经结合至抗原，因为当允许附接于多肽结合的抗原的酶与酶底物反应时，产生信号。类似地，抗原可以偶联至荧光团，并且在荧光团激发时可以产生信号。在另一个类似的示例中，结合至抗原或靶分子的抗体可以包括酶或荧光团。可以允许展示的多肽文库与抗原或靶分子相互作用。在去除过量抗原后，添加偶联至酶或荧光团的抗体，并且去除任何过量抗体。基于信号的产生，结合到抗原的多肽将是可鉴定的，因为信号将由结合到抗原上的抗体产生，抗原被结合到多肽。

可检测的标记物可以是可通过光谱手段、光化学手段、生物化学手段、免疫化学手段、电学手段、光学手段或化学手段检测的任何组合物。可检测的标记物可以包括荧光染料(例如，藻红蛋白、YPet、荧光素、TagRFP、德克萨斯红、罗丹明、绿色荧光蛋白等，参见例如Molecular Probes,Eugene,Oreg.,USA)、量子点、放射性标记物(例如，3H、125I、35S、14C或32P)、酶(例如，辣根过氧化物酶、碱性磷酸酶和ELISA中常用的其他酶)，以及比色标记物诸如胶体金(例如，在40-80nm直径尺寸范围内的金颗粒高效地散射绿光)或有色玻璃或塑料(例如，聚苯乙烯、聚丙烯、胶乳等)珠。教导使用此类标记物的专利包括美国专利号3,817,837；3,850,752；3,939,350；3,996,345；4,277,437；4,275,149；4,366,241；7,416,854；8,114,681；7,229,769；6,846,645；7,232,659；6,872,578；7,897,257；6,730,521；5,972,721；7,498,177；7,235,361；和6,306,610；它们通过引用并入本文。

利用可检测的信号的存在，可以进行多重化的定量蛋白质测定。多重化的定量蛋白质测定可以允许计算、产生或鉴定多肽的定量特征。定量特征可以是与多肽相关的动力学或热力学参数。例如，定量特征可以是多肽稳定性的量度，诸如解链(或变性)温度(T_m)或中点变性浓度(C_m)，或平衡常数。定量特征可以是非特异性结合潜力、聚集潜力、疏水性、成熟时间或蛋白质表达水平。定量特征可以是速率常数或动力学参数。定量特征可能与分子内或分子间相互作用或反应有关。例如，定量特征可以是酶促反应速率、酶促活性、分数活性或任何相关的热力学常数。在一些情况下，可以进行多重化的定量蛋白质结合测定。定量特征可以是结合亲和力、缔合常数(K_a)或解离常数(K_d)、结合的动力学常数(例如k_on或k_off速率)。可以通过观察在存在文库中的多肽与靶分子的结合事件时产生的可检测信号来进行结合测定，并且可检测信号的强度可以用于量化结合。通过添加一系列已知浓度的靶分子，允许靶分子与多肽文库结合并且获得每个多肽的强度数据，可以针对多肽文库中的每个多肽产生结合曲线。可以拟合该浓度依赖性结合曲线，并且可以计算文库中每个多肽的结合亲和力。对于阵列上展示的多肽，每个多肽可以作为阵列上的一个点来观察，并且可以观察阵列上的每个点在给定浓度的靶分子下的强度。以这种方式，可以在同一测定中分析多个多肽，并且可以在该测定中获得多个多肽的定量特征。

来源于多重化的定量蛋白质测定的结合数据或其他数据可以用于表征多肽文库中的多肽。多肽文库可以包含参考序列或野生型序列的变体，并且这些测定可以将变体表征为对多肽的特征具有中性作用、阳性作用或阴性作用。例如，为了表征结合亲和力，可以将多肽变体表征为对抗原具有增加的结合亲和力、降低的结合亲和力或最小改变的结合亲和力。例如，中性变异可以具有大于参考多肽或起始多肽的解离常数的0.25倍且小于其2倍的解离常数。阳性变异可以具有小于或等于参考多肽或起始多肽的解离常数的0.25倍的解离常数。阴性变异可以具有大于或等于起始多肽或参考多肽的解离常数的2倍的解离常数。通过使用此关于定量特征的数据，可以构建新的多肽文库，例如，具有增加的结合亲和力的多个变体的组合的多肽。另外地，使用定量测量，特征的强度或幅度可以用于指导未来文库的构建，否则这些数据可能在一般的富集或选择测定中丢失。另外地，具有阴性作用或中性作用的变体的观察可以被积极地观察到，而不是在仅富集具有阳性作用的变体的一般选择或富集测定中潜在地丢失。

如本文所述的多重定量蛋白质测定可以在给定测定中观察到大量蛋白质。这些测定可以在单次测定中或同时(或基本上同时)观察10³、10⁴、10⁵、10⁶、10⁷、10⁸、10⁹个或更多个多肽的特征。这些测定可以在短时间内进行。该测定可以在不超过1小时、2小时、3小时、4小时、5小时、6小时、7小时、8小时、9小时、10小时、11小时、12小时、13小时、14小时、15小时、16小时、17小时、18小时、19小时、20小时、21小时、22小时、23小时、24小时、25小时、26小时、27小时、28小时、29小时、30小时、31小时、32小时、33小时、34小时、35小时、36小时、37小时、38小时、39小时、40小时、41小时、42小时、43小时、44小时、45小时、46小时、47小时、48小时、49小时、50小时、55小时、60小时、65小时、70小时或更短时间内进行。

可以使用不同抗原或在不同条件下对多肽文库进行多个定量蛋白质结合测定。例如，可以使用第一抗原进行第一结合测定，以鉴定结合至第一抗原的多肽。可以使用第二抗原进行第二结合测定，以鉴定结合至第二抗原的多肽。使用由双结合测定产生的数据，可以鉴定结合至第一抗原和第二抗原两者的多肽。多肽文库构建可以如别处所述进行迭代，并且变体的协同组合可以被鉴定为结合至第一抗原和第二抗原两者。另外地，可以对第三抗原、第四抗原或第n抗原以及结合至(或未结合至)抗原的特定集合或子集的多肽进行结合测定。基于所产生的数据以及迭代的文库设计，可以产生对抗原具有特异性且未结合至其他抗原(或与其他抗原具有弱的结合)的多核苷酸。例如，可以产生结合第一抗原和第二抗原且未结合第三抗原的多肽。在另一个示例中，可以产生结合第一抗原和第二抗原以及还结合第三抗原的多肽。图8示出了与和三抗原相关的可能产生的不同类型的多肽相关的示例性Venn图。多肽可以落在该图中的任何位置，使得它与每个抗原结合或未结合(或与每个抗原具有弱到最小的结合)。

包含特定特征的多肽的鉴定可以用于产生另外的蛋白质构建体或多肽缀合物。多肽文库中的多肽可以代表全长蛋白质的功能结构域或片段。基于多肽(或相应的多核苷酸)的序列，多肽可以被表达为包含含有特定特征和另一种蛋白质、结构域或片段的多肽序列的多肽。例如，可以产生多肽-嵌合抗原受体融合体。可以产生多肽药物缀合物(例如抗体药物缀合物)。例如，文库中的多肽可以是重链片段、轻链片段、纳米抗体或scFv。一旦片段已经被鉴定为具有特定特征，就可以产生包含该片段的序列的新的全长多肽。例如，可以通过表达包含Fc区的编码序列以及片段的编码区的多核苷酸来产生全长抗体。例如，可以基于本公开的方法来鉴定CDR序列，并且可以基于CDR序列和IgG主链的序列来产生全长IgG抗体。例如，二价纳米抗体可以基于通过本公开中的方法分析的多肽的序列来产生。以这种方式，基于由未使用全长蛋白质的文库产生的数据，有可能鉴定和产生全长抗体(或其他功能蛋白质)。这可能是有利的，因为感兴趣的蛋白质的构建可以模块化地进行，并且允许单独表征蛋白质的每个结构域。例如，可以产生对应于抗体的第一CDR的文库，并且可以对该文库进行表征方法。可以产生对应于抗体的第二CDR的第二文库，并且可以对第二文库进行表征方法。这些文库可以在同一测序芯片或底物上或在同一时间或不同时间进行分析。CDR文库可以经受不同抗原或相同抗原，使得可以产生多特异性抗体、多表位抗体或高度特异性抗体。另外地，较小的片段可能更容易在给定的多肽展示阵列上表征或表达。

包含特定特征的多肽的鉴定可以用于产生另外的多肽文库。多肽文库中的多肽可以代表具有不同特征的功能结构域。例如，多肽文库中的多肽可以包含对抗原的不同结合亲和力。至少基于给定多肽的特征，可以产生另外的文库以优化或改善特征。例如，文库中的多肽可能显示对抗原的中等或低亲和力。随后的文库可以使用具有中等亲和力的多肽，并且产生包含该多肽的点突变体或包含该多肽的融合体的多个多肽。因为原始多肽表现出中等至低亲和力，因此与使用已经对抗原具有高亲和力的原始多肽相比，提高亲和力的点突变体或融合体可能更容易鉴定。获得的关于具有改善的亲和力(或其他特征)的构建体的数据可以用于产生进一步改善的构建体。例如，包含具有中等结合的第一结构域和具有中等结合的第二结构域的融合蛋白可以表现出亲合力效应。第一结构域可以被“交换”到具有更高亲和力的结构域，以产生具有增加的结合、亲合力或两者的组合的多肽构建体。文库也可以包含融合多肽或构建体，其具有未结合至抗原或具有低的结合至抗原的亲和力的结构域。例如，融合多肽可以具有结合的第一结构域和未结合的第二结构域。未结合的结构域或单体的存在可以允许将一个多肽特征与具有更相似的物理特征的另一个多肽进行比较。在具有结合的第一结构域和未结合的第二结构域的多肽的示例中，这可以直接与具有相同的第一结构域但具有未结合的第二结构域的多肽进行比较。与仅具有一个结构域的多肽相比，这些多肽可以具有更相似的大小、长度、形状。因此，该比较可以导致更准确的结果。未结合至抗原(或对抗原具有最小亲和力或没有亲和力)的结构域或多肽区域可以具有与结合至抗原或对抗原具有亲和力的结构域相同的长度、大小、形状、净电荷。未结合至抗原(或对抗原具有最小亲和力或没有亲和力)的结构域或多肽区域可以具有与结合至抗原或对抗原具有亲和力的结构域基本上相同的长度、大小、形状、净电荷。未结合至抗原(或对抗原具有最小亲和力或没有亲和力)的结构域或多肽区域可以具有与结合至抗原或对抗原具有亲和力的结构域不超过10％差异的长度、大小、形状、净电荷。

由本公开的方法产生的多肽可以使用在不同文库中分析的定量特征来产生优化的多肽。例如，第一文库可以产生与第一支架的多个点突变的结合亲和力相关的数据。第二文库可以产生与包括第一支架在内的多个不同支架的结合亲和力相关的数据。第三文库可以包含与来自第二文库的任何两个支架的组合的结合亲和力相关的数据。可以产生包含在第一文库中分析的具有点突变的两个支架的多肽。以这种方式，可以产生优化的多肽，其利用在第一细节水平(例如，给定支架的点突变)收集的信息和在第二细节水平(例如，二价支架或双表位支架)收集的信息来产生不一定以其整体存在于给定文库中的多肽。

例如，第一文库可以包含结合至抗原的多个单结构域。第二文库可以包含第一文库中的多个单结构域中的一个或多个单结构域的点突变。第一文库可以允许鉴定结合至抗原的第一支架。第二文库可以产生具有不同结合特征的第一支架的变体。确定结合特征(或其他定量特征)可以用于产生新的文库，或者也可以同时测定单独的文库，而不使用从先前产生的文库产生的数据。产生的第二文库可以鉴定产生期望的或靶结合特征的突变。例如，结合特征可以是对结合的改进。可以产生第三文库，第三文库将单结构域组合成包含单结构域对的融合多肽。第三文库可以包含单结构域对的所有可能的组合。第三文库可以包含单结构域对的所有可能排列。第三文库可以包含单结构域对，其中单结构域与参考单结构域或野生型单结构域相比具有降低的结合特征。第三文库可以用于鉴定双表位结合物，并且使用具有降低的结合的单结构域可以允许双表位结合物更容易被鉴定。由于双表位结合物可以基于亲合力效应显著增加结合特征，因此在构建体中使用两个强结合物可以导致结合增加难以分辨或鉴定。通过使用仍然结合至表位的较弱的结合物，在双表位构建体中获得的亲合力效应可能更为显而易见，并且可以使用给定的结合测定进行分析。由每个文库产生的信息可以被组合以产生优化的多肽，其中优化的多肽不必在任何文库中进行分析。例如，包含具有两个或更多个结构域的构建体的文库可以用于确定和鉴定串联结合或双表位结合的结构域或支架。使用包含支架的点突变的文库获得的数据可以鉴定引起对抗原的高结合亲和力或最高结合亲和力的突变。然后可以将突变替换到双表位构建体中，以产生双表位(或多表位)构建体，其中每个结构域具有优化的结合亲和力或结合特征。

使用本公开的方法分析的片段可以用于产生更大的多肽，诸如融合蛋白。可以产生文库以编码和产生更大的多肽。例如，可以产生编码融合蛋白的文库。可以在不产生文库的情况下产生较大的多肽。例如，与scFv或CDR相关的数据可以使用本文别处公开的方法和***产生，并且可以使用该数据产生全长抗体，而不使用编码全长抗体的文库。

多肽可以包含接头或间隔子结构域。接头可以连接两个结构域以形成融合蛋白。接头可以是多肽接头。接头或间隔子结构域可以包含至少2、3、4、5、6、7、8、9、10、11、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、40、45、50、60、70、80、90、100个或更多个氨基酸。接头或间隔子结构域可以包含不超过2、3、4、5、6、7、8、9、10、11、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、40、45、50、60、70、80、90、100个或更少的氨基酸。间隔子结构域可以是多肽间隔子结构域。间隔子结构域可以是N末端间隔子结构域。间隔子结构域可以是C末端间隔子结构域。间隔子结构域或接头可以包含正电荷、负电荷或中性电荷。间隔子结构域或接头可以包含净正电荷、净负电荷或净中性电荷。间隔子结构域或接头可以是疏水的、亲水的或部分疏水或亲水的。例如，可以使用所描述的方法和对应于第一VHH的文库(例如单点突变的文库)来分析第一VHH。一旦进行了第一VHH的分析，包含特定特征(诸如结合至靶标或表位)的某些VHH可以用于产生第二文库，第二文库包含由接头序列分隔的另一VHH的组合。可以通过创建文库来分析另一个VHH，使得在产生包含含有多个VHH的构建体的后续文库之前，独立地分析和选择两个VHH。包含构建体的文库然后可以如本文别处所述进行分析，构建体包含两个或更多个由接头序列分隔的VHH。以这种方式，可以产生双表位构建体，其中单独或同时分析每个结合单位，以鉴定具有所需参数或某些特征的构建体。文库也可以独立地分析或产生，并且可以同时或依次测定。例如，包含两个或更多个VHH的构建体的文库可以与包含单个VHH的构建体的文库一起产生和测试，而没有来自单个VHH文库的数据指导或用于决定包含两个或更多个VHH的构建体的文库的多肽。

文库可以包括产生具有不同接头或间隔子结构域的多肽。文库可以包含含有支架或结构域和N末端间隔子的多肽，其中多肽具有不同的N末端间隔子。N末端间隔子可以改变多肽的展示或其他特征，并且不同N末端间隔子的文库可以允许确定给定多肽或支架的最佳或优选的N末端间隔子。类似地，可以产生文库并且测定N末端间隔子、C末端间隔子、接头或其组合。N末端间隔子、C末端间隔子或接头可以包含不同的长度、电荷、柔性、空间体积(steric bulk)、疏水性或可能影响多肽的特征的其他特征。文库可以允许为多肽构建体选择合适的间隔子和接头。在双表位(或多表位)结合物的情况下，不同长度的接头会影响结合性质。由于抗原的表位可能相距特定的距离，因此结合物的空间特征可能与优化结合相关。例如，分隔两个结合结构域的太短的接头可能导致结合物不能同时与抗原上的两个结合结构域接合，从而影响整体结合能力。因此，含有相同的两个支架或具有不同接头的结合结构域的文库可以用于鉴定最佳或合适的接头。

在各个方面，产生或获得可以用于产生多肽的数据。例如，可以产生或获得与多个多肽的结合特征相关的数据。该数据可以用来指导文库的设计。例如，可以产生不同支架的第一文库，并且可以产生与支架的结合特征相关的数据。未结合至抗原的支架可以从未来的文库中省略。结合抗原的支架可以用作参考支架或多肽，用于产生该支架的点突变体的文库。数据可以从可公开获得的数据库中获得。例如，可公开获得的关于结合至抗原的多肽的数据可以用于确定参考多肽或支架。可以使用和比较多个数据集。例如，关于包含单个结构域的多肽的数据可以与关于包含单个结构域的融合体的多肽的数据进行比较。通过比较单个结构域与包含相同单个结构域的相应多肽的数据，可以确定基于添加另一个结构域(例如双表位构建体)的结合的改善。

图15A-图15C示出了可以用于产生文库并使用来源于文库的数据产生感兴趣的多肽的示例性示意性工作流程。图15A示出了允许产生亲和力优化的变体的示意性工作流程。产生包含多肽的突变的初始文库1501。该文库可以是***性突变扫描文库，其中在来自多肽的区域的每个残基处进行取代所有20种典型氨基酸中的每一种的单点突变。对文库1501的分析产生了关于多肽的突变图景的信息，其中可以分析单独的突变的影响。使用对数据的分析，基于在文库1501中发现的信息产生具有“靶标”的第2文库1505。例如，文库1505可以包含对在文库1501中鉴定的多个残基的突变，这可以导致产生改善的结合。初始文库1501可以例如鉴定增加结合亲和力的单点突变。文库1505可以包含具有在文库1501中鉴定的多个单点突变的多肽。初始文库1501可以例如鉴定顺从突变的残基，其中例如一些或所有单点突变导致结合的中性或阳性增加。文库1505可以具有多肽，其中残基处的突变的每个组合都被鉴定为可能顺从突变。文库1505的筛选可以允许产生不同多肽的大数据集，这些多肽与初始参考多肽或野生型多肽有多个突变。对该数据集进行数据分析1515可以允许鉴定亲和力优化的变体。

图15B示出了鉴定导致亲合力增加的串联对的示例性示意图。产生可以结合至抗原的单体多肽的第一文库1520，并且产生不同单独的单体多肽的数据。还产生了第二文库1525，其包含通过产生包含两个单体多肽的多肽序列的融合串联多肽而制备的多肽。第二文库1525可以具有两个单体多肽的每个可能的排列。文库1520和1525也可以包含具有不同N末端间隔子和/或C末端间隔子的多肽，这可以影响多肽的结合和展示。另外地，第二文库1525也可以包含两个单体多肽之间的不同接头。例如，第二文库1525可以包含具有两个单体多肽和接头的多肽，以及具有相同两个单体多肽和不同接头的第二多肽。另外地，文库1525可以包含具有一个可以结合至抗原的单体多肽和另一个未结合至抗原的单体的多肽。这可能产生这样的多肽，该多肽充当与其他串联多肽比较的基线，因为它具有相似的大小，但仅具有一个结合结构域，产生“假单体”。通过比较来自单体多肽文库1520的数据和来自串联文库1525(和假单体)的数据来进行数据分析1530，以在串联文库中找到与其组分单独的单体(和假单体)相比导致结合亲和力增加的配对。

图15C示出了组合了图15A和15B中描述和示出的分析和文库的示例性工作流程的示意图。为多个参考分子或野生型分子产生一组文库和数据1540。对于这些多肽中的每一个，产生初始***性突变扫描文库，诸如文库1501。对文库1540的分析产生了关于多肽的突变图景的信息，其中可以分析单独的突变的影响。关于突变图景的信息然后可以用来产生3个不同的文库。类似于如针对文库1505所描述的，为每个参考多肽或野生型多肽产生靶向的文库。使用对数据的分析，基于在文库1540中发现的信息，产生具有“靶标”的另一组文库1545。例如，文库1545可以包含在文库1540中鉴定的多个残基的突变，这可以导致产生改善的结合。该组文库1540可以例如鉴定增加结合亲和力的单点突变。文库1545可以包含具有在文库1540中鉴定的多个单点突变的多肽。文库1540可以例如鉴定顺从突变的残基，其中例如一些或所有单点突变导致结合的中性或阳性增加。文库1545可以具有多肽，其中残基处的突变的每一个组合都被鉴定为可能顺从突变。文库1545的筛选可以允许产生不同多肽的大数据集，不同多肽与初始参考多肽或野生型多肽有多个突变。对该数据集进行数据分析1550可以允许鉴定亲和力优化的变体。产生第二文库1560，其包含多个单体，这些单体表现出中等至低亲和力，如由该组文库1540所确定的。还产生了第三文库1565，其包含通过产生包含两个单体多肽的多肽序列的融合串联多肽而制备的多肽。第二文库1565可以具有两个单体多肽的每个可能的排列。文库1560和1565也可以包含具有不同N末端间隔子和/或C末端间隔子的多肽，这可以影响多肽的结合和展示。另外地，第二文库1565也可以包含两个单体多肽之间的不同接头。例如，第二文库1565可以包含具有两个单体多肽和接头的多肽，以及具有相同两个单体多肽和不同接头的第二多肽。另外地，文库1565可以包含具有一个可结合至抗原的单体多肽和另一个未结合至抗原的单体的多肽。这可能产生这样的多肽，多肽充当与其他串联多肽比较的基线，因为它具有相似的大小，但仅具有一个结合结构域，产生“假单体”。通过比较来自单体多肽文库1560的数据和来自串联文库1565(和假单体)的数据来进行数据分析1570，以在串联文库中找到与其组分单独的单体(和假单体)相比导致结合亲和力增加的配对。然后进行数据分析1580，以基于数据分析1550和数据分析1570来鉴定高亲和力串联结合物。数据分析1570已经鉴定了串联结合的单体，然而如此产生的每个单体本身可能不具有高亲和力。数据分析1550已经确定了导致给定单体构建体中亲和力增加的突变。通过将数据组合，并且将突变添加到在数据分析1570中发现的串联对的每个单体中，可以产生其中每个单体具有高亲和力的串联结合物。

由于可以在蛋白质阵列上进行多重蛋白质测定并成像，因此可以使用基准标志物。基准标志物可以允许来自给定阵列的多个图像的对准。由于多重化的蛋白质测定包括在给定阵列上的许多多肽，因此防止一个多肽被误认为另一个多肽可能是有利的。通过将一个或多个基准标志物与多肽一起成像，可以将阵列上的位置鉴定为基准标志物的位置。阵列上多肽的信号可以以一个或多个基准标志物为参考，从而允许精确地绘制每个多肽的位置。对于结合测定，可以产生多肽阵列的多个图像。这些图像可以基于一个或多个基准标志物的位置来对准。

可以通过捕获阵列上的基准多核苷酸来产生基准标志物。然后可以添加与基准多核苷酸互补的多核苷酸，其中与基准多核苷酸互补的多核苷酸包含可检测的标记物。这种可检测的标记物可以充当基准标志物。

在各种实施方案中，允许多肽文库结合至抗原，并且获得多肽文库的结合数据。抗原可以是小分子、蛋白质或多肽、受体、激素或任何分子。抗原可以来源于动物、植物、真菌、微生物、病毒或其他生物体。抗原可以是无机化合物或有机化合物。抗原可以来源于病原体或由病原体产生。例如，抗原可以由SARS-CoV-2衍生或产生。抗原可以是SARS-CoV-2受体结合结构域(RBD)。

使用本公开中描述的方法、组合物和***产生的多肽可以用于产生抗体或抗体片段。抗体和抗体片段可以用作治疗剂或诊断剂，并且具有高亲和力和/或高特异性的抗体可能非常有用。本文别处提供的方法、组合物和***可能能够产生具有高亲和力和/或高特异性的抗体。另外地，由于所描述的方法的多重能力，可以以高效的方式测定和设计特定特征的抗体。

计算机控制***

本公开提供了计算机控制***，其被编程以实施本公开的方法。图16示出了计算机***1601，其被编程或以其他方式被配置为执行部分方法，诸如处理图像，或计算对应于多肽文库的结合亲和力。计算机***1601可以调节本公开的方法的各个方面，诸如例如接收图像、处理图像的强度、输出结合曲线。计算机***1601可以是用户的电子装置或者相对于电子装置位于远程的计算机***。电子装置可以是移动电子装置。

计算机***1601包括中央处理单元(CPU，在本文中也被称为“处理器”和“计算机处理器”)1605，其可以是单核处理器或多核处理器，或用于并行处理的多个处理器。计算机***1601还包括存储器或存储器位置1610(例如，随机存取存储器、只读存储器、闪速存储器)、电子存储单元1615(例如，硬盘)、用于与一个或多个其他***通信的通信接口1620(例如，网络适配器)以及***装置1625，诸如高速缓存、其他存储器、数据存储装置和/或电子显示适配器。存储器1610、存储单元1615、接口1620和***装置1625通过诸如主板的通信总线(实线)与CPU 1605通信。存储单元1615可以是用于存储数据的数据存储单元(或数据储存库)。计算机***1601借助于通信接口1620可以可操作地耦接到计算机网络(“网络”)1630。网络1630可以是因特网、互联网和/或外联网或者与因特网通信的内联网和/或外联网。在一些情况下，网络1630是电信和/或数据网络。网络1630可以包括一个或多个计算机服务器，其可以实现分布式计算，诸如云计算。在一些情况下，借助于计算机***1601，网络1630可以实现对等网络，这可以使耦接到计算机***1601的装置能够充当客户端或服务器。

CPU 1605可以执行一系列机器可读指令，这些指令可以在程序或软件中体现。指令可以存储在存储器位置，诸如存储器1610。这些指令可以被引导至CPU 1605，指令可以随后对CPU 1605进行编程或以其他方式配置，以实现本公开的方法。由CPU 1605执行的操作的示例可以包括获取、解码、执行和写回。

CPU 1605可以是诸如集成电路的电路的一部分。***1601的一个或多个其他部件可以包括在电路中。在一些情况下，该电路是专用集成电路(ASIC)。

存储单元1615可以存储文件，诸如驱动程序、库和保存的程序。存储单元1615可以存储用户数据，例如，用户偏好和用户程序。在一些情况下，计算机***1601可以包括一个或多个在计算机***1601外部(诸如位于通过内联网或因特网与计算机***1601通信的远程服务器上)的另外的数据存储单元。

计算机***1601可以通过网络1630与一个或多个远程计算机***通信。例如，计算机***1601可以与用户的远程计算机***通信。远程计算机***的示例包括个人计算机(例如，便携式PC)、平板或平板式PC(例如，iPad、/>Galaxy Tab)、电话、智能电话(例如，/>iPhone、支持Android的装置、/>)或个人数字助理。用户可以经由网络1630访问计算机***1601。

如本文所述的方法可以通过存储在计算机***1601的电子存储位置(诸如例如存储器1610或电子存储单元1615)上的机器(例如，计算机处理器)可执行代码来实施。机器可执行或机器可读代码可以以软件的形式提供。在使用期间，代码可以由处理器1605执行。在一些情况下，可以从存储单元1615中检索代码，并且将其存储在存储器1610上，以备处理器1605访问。在一些情况下，可以排除电子存储单元1615，并且机器可执行指令被存储在存储器1610上。

可以对代码进行预编译和配置，以供具有适于执行代码的处理器的机器使用，或者可以在运行期间进行编译。代码可以以编程语言提供，编程语言可以被选择来使得代码能够以预编译的方式或实时编译的方式执行。

本文提供的***和方法的各方面，诸如计算机***1601，可以在编程中体现。该技术的各个方面可以被认为是“产品”或“制品”，其通常以机器(或处理器)可执行代码和/或相关数据的形式，这些代码和/或数据被承载在一种类型的机器可读介质中或者在一种类型的机器可读介质中体现。机器可执行代码可以存储在电子存储单元诸如存储器(例如，只读存储器、随机存取存储器、闪速存储器)或硬盘上。“存储”型介质可以包括计算机、处理器等的任何或所有有形存储器，或其相关模块，诸如各种半导体存储器、磁带驱动器、磁盘驱动器等，它们可以在任何时候为软件编程提供非暂时性存储。软件的全部或部分有时可以通过因特网或各种其他电信网络进行通信。此类通信例如可以使得能够将软件从一台计算机或处理器加载到另一台计算机或处理器中，例如从管理服务器或主计算机加载到应用服务器的计算机平台中。因此，可以承载软件元件的另一种类型的介质包括光、电和电磁波，诸如通过有线和光陆线网络以及通过各种空中链路在本地装置之间的物理接口上使用的光、电和电磁波。承载此类波的物理元件(诸如有线或无线链路、光链路等)也可以被认为是承载软件的介质。如本文所使用的，除非限于非暂时性的有形“存储”介质，否则诸如计算机或机器“可读介质”等术语是指参与向处理器提供指令以供执行的任何介质。

因此，机器可读介质(诸如计算机可执行代码)可以采取多种形式，包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如光盘或磁盘，诸如任何计算机等中的任何存储装置，诸如可以用于实现数据库等，如附图所示。易失性存储介质包括动态存储器，诸如此类计算机平台的主存储器。有形传输介质包括同轴电缆；铜线和光纤，包括构成计算机***内的总线的导线。载波传输介质可以采取电信号或电磁信号的形式，或者声波或光波的形式，诸如在射频(RF)和红外(IR)数据通信期间产生的那些。因此，计算机可读介质的常见形式包括例如：软盘、软磁盘、硬盘、磁带、任何其他磁介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡纸带、任何其他具有孔图案的物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储芯片或盒、传输数据或指令的载波、传输此类载波的电缆或链路或者计算机可以从中读取编程代码和/或数据的任何其他介质。许多这些形式的计算机可读介质可能涉及将一个或多个指令的一个或多个序列传送到处理器以供执行。

计算机***1601可以包括电子显示器1635或与该电子显示器1635通信，该电子显示器1635包括用户界面(UI)1640，用于例如提供多肽的序列或每幅图像的抗原浓度。UI的示例包括但不限于图形用户界面(GUI)和基于web的用户界面。

本公开的方法和***可以通过一种或多种算法实施。在由中央处理单元1605执行时，算法可以通过软件来实现。该算法可以例如产生多肽的序列、计算结合系数或拟合曲线。

实施例

实施例1：纳米抗体的产生

纳米抗体(或VHH)是一类在包括骆驼、美洲驼和羊驼在内的骆驼科物种中发现的单结构域抗体。包括单个可变重链的纳米抗体显示出对其抗原靶标的高特异性和亲和力，并且通常具有良好的免疫原性和毒性曲线。由于它们的小尺寸(约15kDa)，它们比常规抗体更容易生产并且潜在地更稳定。这些性质使得纳米抗体成为开发新疗法的令人兴奋的目标。事实上，自其20世纪90年代发现以来，纳米抗体越来越多地作为候选药物进入临床试验，以对抗各种疾病，包括多种癌症、血栓性血小板减少性紫癜、炎症和阿尔茨海默氏症等。

自2019年底以来，已经有近200万人死于由SARS-CoV-新型冠状病毒引起的全球疫情，该病毒已经在全球感染超过8000万人。病毒包膜布满了刺突蛋白的许多拷贝，刺突蛋白结合人上皮细胞上的血管紧张素转化酶2(ACE2)受体，从而启动病毒进入。因此，许多小组已经集中于开发能够结合该刺突蛋白的亲和试剂，并且已经报道了若干个V_HH序列，其表现出对刺突蛋白的高亲和力结合，以及在体外对病毒进入的高水平中和。此外，制药公司已经开始试验以测试刺突结合纳米抗体的功效。

Sy62是抗SARS-CoV-2VHH，先前在文献中有所描述。Sy62具有高信噪比和极好的结合亲和力(表观K_D为约3.4nM)，并且被用作用于产生变体的参考序列。展示的初始优化通过产生具有不同间隔子和接头区的多肽文库来进行。筛选了各种C末端间隔子和n末端接头。通过观察展示芯片上VHH的适当折叠和功能来分析成功展示的筛选。图1A示出了展示筛选的示意图，其中展示了约1,200-约30,000个组合并且对其进行结合分析。图1B示出了使用核糖体展示所展示的文库的多肽的示例性示意图，其中不同的形状代表可以展示的不同N末端接头和C末端间隔子。

然后通过制备大的靶向突变文库，然后测量每个突变对结合的影响，以及表征突变之间的协同相互作用，来分析Sy62的互补决定区(CDR)区域内的单独的氨基酸对结合的贡献。

此类分析产生了Sy62 CDR内功能突变的综合目录，并且为亲和力调节和改善提供了途径。为了产生这些数据集，使用了多管齐下的方法。在第一实验中，具有约90,000个不同变体的Sy62 CDR的突变体亲和力图景被分成3个不同的子文库。第一子文库包括一组详尽的单一突变体，其中使用简并NNK密码子将每个CDR残基突变为所有可能的20种氨基酸。在第二子文库中，鉴定了Sy62 CDR中相互作用残基之间的补偿突变。通过分析衍生Sy62的亲本纳米抗体的晶体结构，鉴定候选的CDR内和CDR间相互作用残基，然后将残基对突变为所有可能的双突变组合。第三且最后一个子文库探索了Sy62结合亲和力对CDR3长度的依赖性，除了长度为1-17个氨基酸的所有可能的缺失之外，在每个位置都有单个残基***。这三个CDR子文库各自被嵌入到6个不同的框架支架中，这些支架由野生型(WT)Sy62框架(FR)组成，其中在FR2框架区中的4个关键残基中引入了一些多样性。通过产生多个编码多肽变体的多核苷酸，然后使用测序芯片上的核糖体展示来构建文库。

图2示出了与第一子文库相关的一般工作流程的示意图，其中为每个单点突变产生DNA文库，然后可以进行定量分析。具体地，通过在测序芯片上展示子文库的多肽来进行第一子文库的分析。最初，添加编码多肽的多核苷酸的文库，并且将其捕获到测序芯片上。对多核苷酸进行测序以确定每个多核苷酸的芯片的位置，并且随后展示相应的多肽。添加用于核糖体展示的试剂(例如RNA聚合酶、dNTP、核糖体、tRNA)以展示来自每个多核苷酸的相应VHH多肽。为了分析结合，将不同浓度的标记的SARS-CoV-2RBD添加到测序芯片中，并且允许其结合至展示的VHH多肽，并且除去过量的SARS-CoV-2RBD。产生来自标记的SARS-CoV-2RBD的荧光信号，并且通过测序芯片的成像来收集每个多肽的强度。通过为标记的SARS-CoV-2RBD的每个浓度产生芯片图像，产生芯片上每个多肽的结合曲线。然后可以拟合结合曲线以确定结合系数或其他定量结合量度。

第一子文库的大规模平行阵列(Prot-MaP)分析上的蛋白质展示揭示了强结合信号和多样结合常数以及CDR对氨基酸位置和身份两者的复杂依赖性。观察到某些残基被诱变而对结合没有影响，而其他残基仅允许突变为特定的其他氨基酸。此外，一些氨基酸在突变时会增加结合。事实上，残基CDR2.6当从WT突变为约15种不同氨基酸中的任何一种时显示出改善的活性。此外，第二子文库验证了一种结构导向的方法，不仅证实了与靶相互作用的残基对突变高度敏感，而且允许我们鉴定补偿性突变，这些突变恢复了原本死亡的单突变体的功能，提供了一种优化甚至高度敏感的残基的潜在方法。图3示出了由表观Kd(K_d ^app)着色的结合数据的热图具体而言，每个VHH的单个突变CDR变体首先根据其特定亲本CDR的序列进行分组和分箱。然后将每组CDR突变体的结合数据组织成单独的热图，其中构成CDR的残基布置在x轴上，并且20种单独的氨基酸(每个位置突变成的氨基酸)的身份布置在y轴上。在热图上，每个位置的WT氨基酸身份用黑框标出。热图中变体的结合亲和力从浅色(弱亲和力)到深红色(高亲和力)着色。即使在最高测试的浓度下也没有观察到结合的变体显示为白色，而最高亲和力的变体显示为紫色。基于野生型3.4nM的Kd，变体可以分组为中性(Kd＝1.5-7nM)、阴性(Kd>7nM)或阳性(Kd<＝1.5nM)。

在该过程的第二步中，经由单个突变体分析，发现Sy62的变体能够在不同的突变图景中保持高亲和力结合，从CDR中的34个总残基中选择在13个位置处的21个突变，其显示与野生型相比相等或提高的信号和结合亲和力。该第二文库探索了从1个位置到所有13个位置的所有可能组合，这些位置被同时突变为这些中性到有益(当单独考虑时)顺从突变的所有可能的组合，导致包含约200,000个Sy62变体的文库。图4示出了通用工作流程的相应示意图，其中产生第一DNA文库，然后进行定量分析。使用来自第一DNA文库的数据，可以产生第二DNA文库，并且可以进行定量分析以产生优化的变体。

在对包含约200,000个Sy62变体的文库进行测序和Prot-MaP分析后，鉴定出在序列空间中距离野生型(WT)13个突变的惊人远的变体，并且其表现等于或优于其亲本序列。图5示出了来自初始子文库的分析的结果(“第一实验”)和来自基于在初始子文库中鉴定的变体产生的文库的结果(“第二实验”)。图5A示出了来自两个实验中的每一个的Sy62 CDR变体被绘制成频率直方图，该直方图由在每个实验中观察到的突变数量分箱。在第一实验(蓝条)中，大多数变体相距WT序列有一到三个突变。然后在第二实验(黑条)中，将来自该文库的中性和有益突变以多种不同的排列组合，以产生与WT序列相距3-17个突变的变体的多样组合文库。第二文库的大多数成员相距WT包含6-8个突变。图5B示出了来自两个实验(第一实验由蓝线表示；第二实验由黑线表示)中的每个实验的变体的表观结合亲和力(y轴)从最高到最低亲和力排序，并且作为排序的函数绘制(x轴)。在每个实验中，WT序列的排序用红色虚线标出。在第一实验中，少于9％的变体具有比WT有所提高的亲和力。亲和力成熟过程导致在两个实验之间对配体亲和力比WT更大的变体数量增加至近9倍(约8.7％增加到约77％)。图5C示出了来自第一实验(左图，蓝色)和第二实验(右图，黑色)的Sy62变体的表观结合亲和力在3维散点图上单独绘制，作为每个CDR与Sy62 WT序列的突变距离的函数。变体的表观结合亲和力从浅色(弱亲和力)到深色(高亲和力)着色。

一些鉴定的最高亲和力变体与WT相距7-11个突变。图4示出了优于WT Sy62纳米抗体(黑色)的选定高亲和力(箭头)和高度突变的(灰色)变体。将来自组合文库(第二实验)的变体的荧光结合数据拟合至1:1平衡结合模型。图6示出了配体结合(y轴)作为配体浓度(x轴)的函数，其中阴影区域表示每个拟合参数的±标准偏差。左图示出了选定变体(左曲线)，其结合亲和力是WT Sy62(右曲线)的17-28倍高。这些变体相距WT序列包含7-11个突变。右图示出了与WT序列(深灰色线)相距13个突变(浅灰色线)的变体的改善的结合。总体而言，约75,000个变体被鉴定为具有比初始序列更强的结合亲和力，而最紧密的结合变体与WT相比表现出约100倍改善的表观亲和力(K_d ^app)，如图5B所示。

实施例2：多肽融合体、多表位或特异性多肽的产生。

使用如实施例1中所述的类似方法，基于多肽文库的定量分析，可以产生更复杂的多肽。产生包含scFv变体或VHH变体的第一文库。第一文库包含如实施例1中所述的子文库，例如，对于每个残基包含20个变体的子文库，20个变体对应于在每个残基编号上每个典型氨基酸的单氨基酸取代。类似于实施例1，然后对文库进行定量结合测定，其中允许标记的感兴趣的抗原与多肽文库相互作用。标记的抗原以不同浓度添加，并且对标记物的强度进行成像，以确定在每个浓度下的相互作用。产生并拟合每个多肽的结合曲线，以确定定量结合特征。一旦产生了与文库相关的数据，就使用关于变体的信息来构建第二文库。例如，可以为第二文库构建包含多个突变的变体，多个突变对应于具有中性或阳性作用的变体的组合。测定第二文库以鉴定具有优化的或改善的结合特征的多肽。然后，这些优化的多肽可以用作新的多肽构建体的核心或结构域。尽管文库使用scFv或VHH产生，但也可以产生更大的多肽或多肽融合体。图7示出了可以产生的多肽融合体的示意图。基于优化的scFv的鉴定，使用优化的scFv的序列信息并编码包含优化的scFv的结构或序列的IgG抗体，可以产生全IgG抗体。类似的方法可以用于VHH文库。如图7所示，优化的VHH序列可以用于构建VHH-Fc融合体，与其他VHH组合以产生多特异性或多表位多肽，与药物缀合以产生抗体-药物缀合物，或与嵌合抗原受体结合以产生VHH-CAR。关于多特异性或多表位构建体，图8示出了结合至不同抗原的Venn图。可以针对特定抗原单独测定VHH，然后组合以允许多特异性。

实施例3：双表位多肽的产生。

双表位多肽是一类能够结合同一抗原上两个不同表位的抗体或抗体片段。双表位抗体可能比靶向单表位的抗体具有许多明显的优势，包括对靶抗原的增加的亲合力和对抗体逃避抗原突变的降低的易感性。例如，由Janssen/Johnson&Johnson开发的双表位VHH获得了FDA的批准，可用作BCMA指导的CAR-T细胞疗法，用于治疗复发/难治性多发性骨髓瘤。

开发双表位抗体的传统方法依赖于结合靶抗原上不同表位的抗体或抗体片段的现有知识，或利用低通量表位分箱方法来单独筛选和发现结合同一抗原上不同表位的抗体片段对。Prot-MaP平台实现了***的、高通量的方法来筛选串联排列的VHH的大型文库，以鉴定和表征双表位串联VHH(图9)。进入这些文库中的输入VHH可以以若干种方式产生，包括但不限于DNA合成、动物(羊驼、美洲驼、大鼠、小鼠等)的免疫和人类免疫库序列的挖掘。

使用可公开获得的来源，我们鉴定了靶向SARS-CoV-2刺突和RBD蛋白的VHH的大的集合。为了验证这些VHH与RBD的结合活性，我们首先构建了一个调查文库，其中将集合中的每个VHH置于各种N末端接头和C末端间隔子多肽的环境中，以优化初始展示。从该文库中，鉴定出以中等至高亲和力与SARS-CoV-2RBD结合的若干VHH(及其相关的展示环境)。接下来，为了优化所选VHH的亲和力，类似于实施例1，产生了包含在先前步骤中鉴定的14个最高亲和力VHH的单突变体变体的文库。对文库进行测序，并且在Prot-MaP实验中对这些变体突变体的亲和力进行定量表征。将一系列不同浓度的荧光标记的SARS-CoV-2RBD溶液依次添加到测序芯片中，允许结合至展示的VHH并成像。来自结合的RBD的荧光信号被定量，拟合到结合曲线，该结合曲线用于推导每个展示的VHH与RBD靶标的结合亲和力，从而产生单突变体结合亲和力图景，该图景定量地描述了特定氨基酸变化对由此生成的这些VHH中的每一个的CDR中的每个残基的影响。图10示出了来自14个VHH的子集的所有单个突变体的结合数据的所得的热图。

在下一步中，单突变体结合数据用于构建两个另外的文库。首先，为了研究通过串联呈递VHH对实现的亲合力增强，产生了串联VHH文库。从14个VHH中的12个选择中等亲和力(Kd范围为5-30nM)的单突变体变体。向该集合中，添加了预期结合SARS-CoV2-RBD的3个阳性对照VHH和预期未结合SARS-CoV-2RBD的2个阴性对照VHH。然后产生17个VHH通过柔性蛋白质接头彼此连接的所有可能的成对组合。在长度(12-30个氨基酸)、电荷和预测的二级结构上不同的14个独特接头序列用于连接每对VHH。最后，如实施例1中所述并在图11中以示意形式示出的，每一对也被嵌入到各种不同的C间隔子环境中以产生包含>80,000个变体的文库。为了鉴定由两个高亲和力VHH的同时双表位结合预期的大亲合力增加，有必要将针对串联对测量的亲和力(串联数据集)与作为单独单体的每个组分VHH的亲和力(单体数据集)进行比较。尽管原则上，在同一芯片上同时产生串联数据集和单体数据集两者更高效(而不是两个单独的实验)，但这样做的挑战之一是，同时将长度显著不同的文库聚集和测序在一起经常会导致相对表示中大且不可预测的偏斜。为了使此类偏斜最小化，测序在一起的文库成员具有相似的长度是有益的，为此，我们包括了假单体VHH(由给定的VHH和以两个方向(a-b和b-a)排列的阴性对照“死”VHH组成)，其被用作单独的单体VHH的替代品。如上所述对文库进行测序并测定其与SARS-CoV-2RBD的结合。因此鉴定了给定方向的串联VHH对，其以显著大于配对中的假单体VHH的平均亲和力的亲和力结合RBD(图12)。

使用单突变体结合数据(图10)，构建第二文库以优化形成双表位串联对的单独的VHH的亲和力。如实施例1中所述，基于来自单突变体文库的数据产生了亲和力优化文库，并对其进行结合测定，以鉴定与起始变体相比改善的亲和力的单独的VHH。(图13)

为了产生最终的亲和力增强和亲合力增强的分子，通过用每个VHH的优化的最紧密结合亲和力变体替换串联VHH对中的中等亲和力单突变体VHH，重建显示显著亲合力增强的串联VHH对(图14)。

虽然本文已经示出和描述了本发明的优选的实施方案，但对本领域技术人员而言将显而易见的是，此类实施方案仅通过示例的方式提供。这并不意味着本发明受说明书中提供的具体示例的限制。虽然已经参考前述说明书描述了本发明，但是本文的实施方案的描述和图示并不意味着以限制的意义来解释。在不脱离本发明的情况下，本领域技术人员现在将会想到许多变化、改变和替换。此外，应当理解，本发明的所有方面不限于本文阐述的特定描述、配置或相对比例，其取决于各种条件和变量。应当理解，在实施本发明时，可以采用本文描述的本发明的实施方案的各种替代方案。因此，预期本发明还将涵盖任何此类替代、修改、变化或等同物。所附权利要求旨在限定本发明的范围，并且由此涵盖这些权利要求范围内的方法和结构及其等同物。

Claims

1.一种用于鉴定优化的多肽的高通量方法，所述方法包括：

(a)提供编码变体多肽的第一文库的多核苷酸的第一文库；

(b)加工所述多核苷酸的第一文库以产生所述变体多肽的第一文库，其中所述变体多肽附接于所述多核苷酸的第一文库；

(c)鉴定一个或多个特征，所述一个或多个特征包括所述变体多肽的第一文库的至少一部分的平衡结合常数、动力学结合常数、蛋白质稳定性测量值、酶活性、分数活性、非特异性结合潜力、聚集潜力、疏水性、蛋白质表达水平或成熟时间；

(d)提供多核苷酸的第二文库，其编码至少基于在(c)中鉴定的一个或多个特征选择的变体多肽的第二文库；

(e)加工所述多核苷酸的第二文库以产生所述变体多肽的第二文库，其中所述变体多肽附接于所述多核苷酸的第二文库；以及

(f)分析所述变体多肽的第二文库以产生优化的数据。

2.一种用于测量多肽的特征的高通量方法，所述方法包括：

(a)提供附接于固体表面的多核苷酸的第一文库，其中所述多核苷酸的文库编码变体多肽的文库；

(b)加工所述多核苷酸的文库以产生所述变体多肽的文库，其中所述变体多肽附接于所述多核苷酸的文库；以及

(c)鉴定一个或多个特征，所述一个或多个特征包括所述变体多肽的文库的至少一部分的平衡结合常数、动力学结合常数、蛋白质稳定性测量值、酶活性、分数活性、非特异性结合潜力、聚集潜力、疏水性、蛋白质表达水平或成熟时间。

3.一种用于筛选多个多肽的高通量方法，所述方法包括：

(a)提供编码变体多肽的文库的多核苷酸的第一文库，其中所述变体多肽的第一文库包含所有单氨基酸变体的至少90％，其中氨基酸残基被选自二十种不同氨基酸的集合的氨基酸取代；

(b)加工所述多核苷酸的第一文库以产生所述变体多肽的第一文库，其中所述变体多肽附接于所述多核苷酸的第一文库；以及

(c)鉴定所述变体多肽的第一文库中的多肽的一个或多个特征。

4.一种用于筛选多个多肽的高通量方法，所述方法包括：

(a)提供编码变体多肽的第一文库的多核苷酸的第一文库，其中所述变体多肽的第一文库包含对应于参考多肽中给定参考序列的至少90％的可能单核苷酸变体的单氨基酸变体多肽，其中对于给定的单氨基酸变体，氨基酸残基被选自二十种不同氨基酸的集合的另一种氨基酸取代；

5.根据权利要求3或4所述的方法，其中所述一个或多个特征包括所述变体多肽的第一文库的至少一部分的平衡结合常数、动力学结合常数、蛋白质稳定性测量值、酶活性、分数活性、非特异性结合潜力、聚集潜力、疏水性、蛋白质表达水平或成熟时间。

6.根据权利要求2-5中任一项所述的方法，其进一步包括：(d)提供编码至少基于在(c)中鉴定的一个或多个特征而选择的变体多肽的第二文库的多核苷酸的第二文库；(e)加工所述多核苷酸的第二文库以产生所述变体多肽的第二文库，其中所述变体多肽附接于所述多核苷酸的第二文库；以及(f)分析所述变体多肽的第二文库以产生优化的数据。

7.根据权利要求1或6所述的方法，其进一步包括(g)基于所述优化的数据来鉴定优化的多肽。

8.根据权利要求1-7中任一项所述的方法，其中所述高通量方法不包括细胞。

9.根据权利要求1-8中任一项所述的方法，其中所述多核苷酸的第一文库是脱氧核糖核酸分子的文库。

10.根据权利要求1、2和5-9中任一项所述的方法，其中所述平衡结合常数是解离常数(K_d)。

11.根据权利要求1、2和5-9中任一项所述的方法，其中所述平衡结合常数是缔合常数(K_a)。

12.根据权利要求1、2和5-11中任一项所述的方法，其中所述动力学结合常数是缔合速率常数(k_on)。

13.根据权利要求1、2和5-11中任一项所述的方法，其中所述动力学结合常数是解离速率常数(k_off)。

14.根据权利要求1、2和5-13中任一项所述的方法，其中所述蛋白质稳定性测量值是蛋白质解链温度(T_m)。

15.根据权利要求1、2和5-13中任一项所述的方法，其中所述蛋白质稳定性测量值是化学变性剂的中点变性浓度(C_m)。

16.根据权利要求1、2和5-15中任一项所述的方法，其进一步包括在(d)中，从所述变体多肽的第一文库中鉴定阴性变异、阳性变异和中性变异。

17.根据权利要求16所述的方法，其中所述中性变异具有大于起始多肽的解离常数的0.25倍且小于其2倍的解离常数。

18.根据权利要求16所述的方法，其中所述阳性变异具有小于或等于起始多肽的解离常数的0.25倍的解离常数。

19.根据权利要求16所述的方法，其中所述阴性变异具有大于或等于起始多肽的解离常数的2倍的解离常数。

20.根据权利要求1-19中任一项所述的方法，其中所述变体多肽的第一文库包含单氨基酸变体，其中氨基酸残基被选自氨基酸的集合的氨基酸取代。

21.根据权利要求20所述的方法，其中所述氨基酸的集合包括10种不同的氨基酸。

22.根据权利要求20所述的方法，其中所述氨基酸的集合包括20种不同的氨基酸。

23.根据权利要求20所述的方法，其中所述氨基酸的集合包括丙氨酸、精氨酸、天冬酰胺、天冬氨酸、半胱氨酸、谷氨酰胺、谷氨酸、甘氨酸、组氨酸、异亮氨酸、亮氨酸、赖氨酸、蛋氨酸、苯丙氨酸、脯氨酸、丝氨酸、苏氨酸、色氨酸、酪氨酸和缬氨酸。

24.根据权利要求1-23中任一项所述的方法，其中所述变体多肽的第一文库由起始多肽的变体和所述起始多肽组成。

25.根据权利要求24所述的方法，其中所述变体多肽的第一文库包含相互作用氨基酸对的双氨基酸变体。

26.根据权利要求25所述的方法，其中所述相互作用氨基酸对的双氨基酸变体包括其中所述相互作用氨基酸对的氨基酸残基被所有二十种氨基酸取代的变体。

27.根据权利要求26所述的方法，其中所述相互作用氨基酸对通过所述原始多肽的晶体结构来鉴定。

28.根据权利要求27所述的方法，其中所述相互作用氨基酸对包括多肽间相互作用和多肽内相互作用。

29.根据权利要求1-28中任一项所述的方法，其中所述变体多肽的第一文库在每个位置处包含单氨基酸***。

30.根据权利要求1-29中任一项所述的方法，其中所述变体多肽的第一文库包含单氨基酸缺失。

31.根据权利要求1-30中任一项所述的方法，其中所述变体多肽的第一文库包含双氨基酸缺失。

32.根据权利要求1-31中任一项所述的方法，其中所述变体多肽的第一文库包含三氨基酸缺失。

33.根据权利要求1-32中任一项所述的方法，其中所述变体多肽的第一文库包含至少四氨基酸缺失。

34.根据权利要求1-33中任一项所述的方法，其中分析所述变体多肽的第一文库包括转录和翻译所述变体多核苷酸的第一文库中的多核苷酸，其中由所述多核苷酸编码的所述多肽附接于所述多核苷酸。

35.根据权利要求1、2和5-34中任一项所述的方法，其中鉴定所述平衡结合常数、动力学结合常数、蛋白质稳定性测量值、酶活性、分数活性、非特异性结合潜力、聚集潜力、疏水性、蛋白质表达水平或成熟时间包括对所述变体多肽的第一文库进行结合测定。

36.根据权利要求35所述的方法，其中鉴定所述平衡结合常数、动力学结合常数、蛋白质稳定性测量值、酶活性、分数活性、非特异性结合潜力、聚集潜力、疏水性、蛋白质表达水平或成熟时间包括对所述多核苷酸的第一文库进行测序，并且将所述多核苷酸的第一文库的序列与所述结合测定相关联。

37.根据权利要求35所述的方法，其中所述结合测定包括测定所述变体多肽的第一文库与抗原的结合。

38.根据权利要求35所述的方法，其中所述结合测定包括测定所述变体多肽的第一文库与多于一个抗原的结合。

39.根据权利要求38所述的方法，其中所述结合测定包括测定所述变体多肽的第一文库与多个抗原的结合。

40.根据权利要求39所述的方法，其进一步包括鉴定结合至所述多个抗原中的两个或更多个抗原的变体多肽。

41.根据权利要求39所述的方法，其进一步包括鉴定结合至所述多个抗原中的至少一个抗原且未结合至所述多个抗原中的不同抗原的变体多肽。

42.根据权利要求39所述的方法，其进一步包括鉴定未结合至所述多个抗原的变体多肽。

43.根据权利要求1、2和5-38所述的方法，其中所述鉴定所述平衡结合常数、动力学结合常数、蛋白质稳定性测量值、酶活性、分数活性、非特异性结合潜力、聚集潜力、疏水性、蛋白质表达水平或成熟时间包括产生多于一个靶标的结合数据。

44.根据权利要求43所述的方法，其中所述第二文库至少基于多于一个靶标的结合数据而产生。

45.根据权利要求1和6-44中任一项所述的方法，其中加工所述变体多肽的第二文库包括转录和翻译所述变体多核苷酸的第二文库中的多核苷酸，其中由所述多核苷酸编码的所述多肽附接于所述多核苷酸。

46.根据权利要求1和6-45中任一项所述的方法，其中所述鉴定所述优化的多肽包括对由所述多核苷酸的第二文库编码的所述变体多肽的第二文库进行结合测定。

47.根据权利要求46所述的方法，其中鉴定所述平衡结合常数、动力学结合常数、蛋白质稳定性测量值、酶活性、分数活性、非特异性结合潜力、聚集潜力、疏水性、蛋白质表达水平或成熟时间包括对所述多核苷酸的第二文库进行测序，并且将所述多核苷酸的第二文库的序列与所述结合测定相关联。

48.根据权利要求1和6-47中任一项所述的方法，其中所述变体多肽的第二文库包含至少10⁴个多肽。

49.根据权利要求1-48中任一项所述的方法，其中所述多核苷酸的第一文库包含至少10⁶个多核苷酸。

50.根据权利要求1-49中任一项所述的方法，其中所述变体多肽的第一文库包含至少10⁴个多肽。

51.根据权利要求1-50中任一项所述的方法，其中所述方法在少于48小时内进行。

52.根据权利要求1-51中任一项所述的方法，其中所述变体多肽的第一文库包含单独的VHH抗体的文库。

53.根据权利要求52所述的方法，其中所述变体多肽的第二文库包含VHH抗体融合体的文库。

54.根据权利要求1-53中任一项所述的方法，其中所述变体多肽的第一文库包含单独的单链可变片段(scFv)的文库。

55.根据权利要求54所述的方法，其中所述变体多肽的第二文库包含单独的单链可变片段(scFv)融合体的文库。

56.一种用于鉴定优化的多肽的高通量方法，所述方法包括：

(a)获得包含抗原与第一多个多肽的结合数据的数据集，并且至少部分基于所述数据集提供多个多核苷酸；

(b)提供附接于固体表面的多个多核苷酸；

(c)加工所述多个多核苷酸以产生第二多个多肽；

(d)将抗原暴露于所述第二多个多肽，并且检测所述第二多个多肽中的至少一个多肽与所述抗原的相互作用；

(e)产生序列数据，所述序列数据包括(i)至少所述至少一个多肽的序列，或(ii)编码所述至少一个多肽的相应多核苷酸的序列；

(f)至少部分基于序列数据和所述检测，产生多个融合多肽，其中所述多个融合多肽中的融合多肽包含来自所述第一多个多肽或所述第二多个多肽的每一个的能够结合所述抗原的多肽；以及

(g)重复(a)至(e)，其中所述数据集包含抗原与所述多个多肽融合体的结合数据，以鉴定所述优化的多肽。

57.一种用于鉴定优化的多肽的方法，所述方法包括：

(a)提供附接于固体表面的多个多核苷酸，其中所述多个多核苷酸编码多个融合多肽，其中所述多个融合多肽中的融合多肽包含两个或更多个结构域；

(b)加工所述多个多核苷酸以产生多个融合多肽；

(c)将抗原暴露于所述多个融合多肽，并且检测所述多个融合多肽中的至少一个融合多肽与所述抗原的相互作用；

(d)产生序列数据，所述序列数据包括(i)至少所述至少一个融合多肽的序列，或(ii)编码所述至少一个融合多肽的相应多核苷酸的序列；以及

(e)至少部分基于所述序列数据、所述检测和包含抗原与多个单结构域多肽的结合数据的数据集，产生能够结合所述抗原的优化的多肽。

58.根据权利要求56所述的方法，其中所述数据集通过鉴定所述第一多个多肽中可以与所述抗原相互作用的多肽而产生。

59.根据权利要求56或58所述的方法，其中至少通过将所述抗原暴露于所述第一多个多肽并检测所述第一多个多肽中的至少一个多肽与所述抗原的相互作用来产生所述数据集。

60.根据权利要求59所述的方法，其中所述第一多个多肽通过以下产生：(i)提供编码多个第一多肽的多个第一多核苷酸；(ii)提供附接于固体表面的多个第一捕获探针，所述多个第一捕获探针被配置为退火到所述第一多个多核苷酸以产生多个捕获的多核苷酸；(iii)加工所述多个捕获的多核苷酸以产生所述第一多个多肽。

61.根据权利要求56和58-60中任一项所述的方法，其中与第一多个多肽有关的数据包括至少通过对所述多个捕获的多核苷酸进行测序而产生的序列数据，其中所述多个捕获的多核苷酸是多个VHH多核苷酸。

62.根据权利要求56-61中任一项所述的方法，其中检测所述多个多肽中的至少一个多肽与所述抗原的所述相互作用包括鉴定所述多肽的定量特征。

63.根据权利要求62所述的方法，其中鉴定所述多肽的所述定量特征进一步包括将所述多肽鉴定为包含阴性突变、中性突变或阳性突变中的一种或多种。

64.根据权利要求56和58-63中任一项所述的方法，其中所述多个融合多肽包含所述第一多个多肽的所述多肽的所有可能融合对组合或排列的至少50％、60％、70％、80％、90％或更多的多肽。

65.根据权利要求56和58-63中任一项所述的方法，其中所述多个融合多肽包含所述第一多个多肽的所述多肽的所有可能的融合对组合或排列的多肽。

66.根据权利要求57所述的方法，其中所述数据集包含对应于单结构域多肽的数据，所述单结构域多肽对应于所述融合多肽的一个或结构域。

67.根据权利要求57或66所述的方法，其中所述数据集通过鉴定可以与所述抗原相互作用的单结构域多肽来产生。

68.根据权利要求57和66-67中任一项所述的方法，其中至少通过将所述抗原暴露于多个单结构域多肽并且检测所述多个单结构域多肽中的至少一个单结构域多肽与所述抗原的相互作用来产生数据集。

69.根据权利要求57和66-68中任一项所述的方法，其中所述多个单结构域多肽通过以下产生：(i)提供编码多个单结构域多肽的多个单结构域多核苷酸，其中所述单结构域多核苷酸偶联至固体表面；(iii)加工所述多个单结构域多核苷酸以产生所述多个单结构域多核苷酸多肽。

70.根据权利要求57和66-69中任一项所述的方法，其中所述数据集包含至少通过对所述多个单结构域多核苷酸进行测序而产生的序列数据。

71.根据权利要求57和66-70中任一项所述的方法，其中所述单结构域多肽包含VHH。

72.根据权利要求57和66-71中任一项所述的方法，其中所述融合多肽包含VHH-VHH融合体。

73.根据权利要求57和66-72中任一项所述的方法，其中所述多个融合多肽包含对应于所述多个单结构域多肽中的一个或多个多肽的序列。

74.根据权利要求57和66-73中任一项所述的方法，其中所述多个融合肽的融合多肽包含所述多个单结构域多肽的两个多肽的序列。

75.根据权利要求57和66-74中任一项所述的方法，其中所述多个融合多肽包含所述多个单结构域多肽中的所述单结构域多肽的所有可能融合对组合或排列的至少50％、60％、70％、80％、90％或更多的多肽。

76.根据权利要求57和66-75中任一项所述的方法，其中所述多个融合多肽包含所述多个单结构域多肽中的所述单结构域多肽的所有可能的融合对组合或排列的多肽。

77.根据权利要求57和66-76中任一项所述的方法，其中所述多个单结构域多肽包含通过单点突变而不同的多个单结构域多肽。

78.根据权利要求57和66-77中任一项所述的方法，其中所述多个单结构域多肽包含通过结合界面中的单点突变而不同的多个单结构域多肽。

79.根据权利要求57和66-77中任一项所述的方法，其中所述多个单结构域多肽包含通过CDR中的单点突变而不同的多个单结构域抗体片段。

80.根据权利要求57和66-79中任一项所述的方法，其中所述多个单结构域多肽包含多个20个多肽，其中不同的氨基酸在给定残基处编码。

81.根据权利要求57和66-80中任一项所述的方法，其中检测所述多个单结构域多肽中的至少一个单结构域多肽与所述抗原的所述相互作用包括鉴定所述单结构域多肽的定量特征。

82.根据权利要求57和66-81中任一项所述的方法，其中鉴定所述多肽的所述定量特征进一步包括将所述单结构域多肽鉴定为包含阴性突变、中性突变或阳性突变中的一种或多种。

83.根据权利要求57和66-82中任一项所述的方法，其中检测所述多个融合多肽中的至少一个融合多肽与所述抗原的所述相互作用包括鉴定所述融合多肽的定量特征。

84.根据权利要求57和66-83中任一项所述的方法，其中鉴定所述多肽的所述定量特征进一步包括将所述融合多肽鉴定为包含双表位相互作用。

85.根据权利要求84所述的方法，其中将所述融合多肽鉴定为包含亲合力增强的相互作用包括将所述融合多肽的所述定量特征与第一单结构域或第二单结构域的定量特征进行比较，其中所述融合多肽的序列包含所述第一单结构域和所述第二单结构域的序列。

86.根据权利要求85所述的方法，其中当所述融合多肽的所述定量特征大于所述第一单结构域或所述第二单结构域的所述定量特征时，鉴定出所述亲合力增强的相互作用。

87.根据权利要求85所述的方法，其中所述优化的多肽包含经鉴定为包含亲合力增强的相互作用的所述融合多肽的另外的突变，其中所述突变增加所述融合多肽对所述抗原的结合亲和力。

88.根据权利要求57和66-87中任一项所述的方法，其中在进行(c)或(d)的同时获得包含抗原与多个所述单结构域多肽的结合数据的所述数据。

89.根据权利要求57和66-88中任一项所述的方法，其中包含抗原与多个所述单结构域多肽的结合数据的所述数据是在(a)之前获得的，并且其中所述提供附接于固体支持物的所述多个多核苷酸至少部分基于所述数据集。

90.根据权利要求57和66-89中任一项所述的方法，其中所述多个融合多肽包含对所述抗原包含中等亲和力的单结构域多肽的序列。

91.根据权利要求57和66-90中任一项所述的方法，其中所述多个融合多肽包含对所述抗原包含最小亲和力或无亲和力的单结构域多肽的序列。

92.根据权利要求91所述的方法，其中包含最小亲和力或无亲和力的单结构域多肽的所述序列包含与能够结合所述抗原的单结构域多肽基本上相似的大小或长度。

93.根据权利要求91所述的方法，其中包含最小亲和力或无亲和力的单结构域多肽的所述序列与能够结合所述抗原的单结构域多肽在大小或长度上包含不超过10％的差异。

94.根据权利要求57和66-91中任一项所述的方法，其中所述多个单结构域多肽中的单结构域多肽包含N末端接头或C末端间隔子。

95.根据权利要求57和66-94中任一项所述的方法，其中所述多个单结构域多肽中的单结构域多肽包含N末端接头和C末端间隔子。

96.根据权利要求57和66-95中任一项所述的方法，其中所述多个单结构域多肽包含多个不同的N末端接头序列和不同的C末端间隔子序列。

97.根据权利要求56-96中任一项所述的方法，其中所述数据集来源于公共数据库中的数据。

98.根据权利要求56-97中任一项所述的方法，其中所述融合多肽是多肽-Fc融合体。

99.根据权利要求98所述的方法，其中所述多肽-Fc融合体包含能够结合所述抗原的抗体片段结晶区(Fc区)。

100.根据权利要求56-99中任一项所述的方法，其中所述融合多肽包含嵌合抗原受体。

101.根据权利要求56-100中任一项所述的方法，其中所述融合多肽包含VHH纳米抗体。

102.根据权利要求56-101中任一项所述的方法，其中所述融合多肽包含一对二价VHH纳米抗体。

103.根据权利要求56-101中任一项所述的方法，其中所述融合多肽包含一对双表位VHH纳米抗体。

104.根据权利要求56-101中任一项所述的方法，其中所述融合多肽包含多价VHH纳米抗体。

105.根据权利要求56-104中任一项所述的方法，其中所述融合多肽包含连接所述融合多肽的第一结构域和所述融合多肽的第二结构域的接头。

106.根据权利要求105所述的方法，其中所述第一结构域包含VHH。

107.根据权利要求105或106所述的方法，其中所述第二结构域包含VHH。

108.根据权利要求105-107中任一项所述的方法，其中所述第一结构域包含第一VHH，并且所述第二结构域包含第二VHH。

109.根据权利要求105-108中任一项所述的方法，其中所述第一VHH和所述第二VHH结合相同的抗原。

110.根据权利要求109所述的方法，其中所述相同的抗原包含多肽、脂质或碳水化合物或细胞。

111.根据权利要求105-110中任一项所述的方法，其中所述接头包含至少12个氨基酸。

112.根据权利要求105-110中任一项所述的方法，其中所述接头包含至少20个氨基酸。

113.根据权利要求105-110中任一项所述的方法，其中所述接头包含至少30个氨基酸。

114.根据权利要求105-113中任一项所述的方法，其中所述接头包含净正电荷。

115.根据权利要求105-113中任一项所述的方法，其中所述接头包含净负电荷。

116.根据权利要求105-113中任一项所述的方法，其中所述接头包含净中性电荷。

117.根据权利要求56-116中任一项所述的方法，其中所述多个多核苷酸包含至少10⁴个多核苷酸。

118.根据权利要求56-117中任一项所述的方法，其中所述优化的多肽包含增加的亲合力效应。

119.根据权利要求56-118中任一项所述的方法，其中在(a)之前，所述固体表面包含被配置为退火到多个前体多核苷酸的多个捕获寡核苷酸，并且其中所述多个前体多核苷酸退火到所述多个捕获核苷酸，从而产生附接于固体表面的所述多个多核苷酸。

120.根据权利要求119所述的方法，其中所述产生附接于固体表面的所述多个多核苷酸包括所述多个前体多核苷酸的扩增或延伸。

121.根据权利要求120所述的方法，其中所述扩增包括桥式扩增。

122.根据权利要求56-121中任一项所述的方法，其中所述固体支持物包含珠。

123.根据权利要求56-122中任一项所述的方法，其中所述固体支持物包含测序流动池。

124.根据权利要求56-123中任一项所述的方法，其中(d)包括对所述多个多核苷酸进行测序。

125.根据权利要求124所述的方法，其中(e)包括至少部分基于由所述多个多核苷酸的所述测序和所述检测产生的所述序列数据来产生所述优化的多肽。

126.根据权利要求56-125中任一项所述的方法，其中所述多个融合多肽中的融合多肽包含N末端接头或C末端间隔子。

127.根据权利要求56-126中任一项所述的方法，其中所述多个融合多肽中的融合多肽包含N末端接头和C末端间隔子。

128.根据权利要求56-127中任一项所述的方法，其中融合多肽包含多个不同的N末端接头序列和不同的C末端间隔子序列。

129.根据权利要求56-128中任一项所述的方法，其中所述优化的多肽包含双表位多肽。

130.根据权利要求56-128中任一项所述的方法，其中所述优化的多肽包含三表位多肽。

131.根据权利要求56-128中任一项所述的方法，其中所述优化的多肽包含四表位多肽。

132.根据权利要求56-128中任一项所述的方法，其中所述优化的多肽包含多聚体多肽。

133.根据权利要求56-132中任一项所述的方法，其中所述优化的多肽包含能够结合至所述抗原的两个或更多个结构域，其中至少两个结构域是相同的。

134.根据权利要求56-133中任一项所述的方法，其中所述优化的多肽包含能够结合至所述抗原的两个或更多个结构域，其中所述两个或更多个结构域彼此不同。

135.一种用于鉴定双表位多肽的方法，所述方法包括：

(a)提供附接于固体表面的多个多核苷酸，其中所述多个多核苷酸编码多个VHH多肽；

(b)加工所述多个多核苷酸以产生所述多个VHH多肽；

(c)将抗原暴露于所述多个多肽，并且检测所述多个VHH多肽中的至少一个VHH多肽与所述抗原的相互作用；

(d)对所述多个多核苷酸进行测序；

(e)提供附接于固体表面的第二多个多核苷酸，其中所述第二多个多核苷酸编码多个VHH-VHH融合多肽；

(f)加工所述多个第二多核苷酸以产生多个VHH-VHH融合多肽；

(g)将抗原暴露于所述多个VHH-VHH融合多肽，并且检测所述多个VHH-VHH融合多肽中的至少一个VHH-VHH融合多肽与所述抗原的相互作用；

(h)对所述第二多个多核苷酸进行测序；以及

(i)至少部分基于由(d)和(e)的所述测序以及(c)和(g)的所述检测产生的序列数据，产生能够结合所述抗原的双表位多肽。

136.一种用于产生优化的多肽的方法，所述方法包括：

(a)提供展示在固体底物上的多个多肽，其中所述多个多肽中的多肽包含结合结构域，以及(i)N末端间隔子，(ii)C末端间隔子中的一个或多个，其中所述多个多肽包含含有N末端间隔子序列和C末端间隔子序列的不同组合的多肽；

(b)观察所述多个多肽中的至少两个多肽的信号，其中所述信号对应于(i)多肽和抗原的结合相互作用或(ii)多肽的物理特征；

(c)比较所述至少两个多肽的信号，并且确定产生靶信号的N末端间隔子序列和C末端间隔子序列的组合。

137.根据权利要求136所述的方法，其中所述N末端间隔子或C末端间隔子未结合至所述抗原。

138.根据权利要求136或137所述的方法，其中所述靶信号包括低于阈值水平的信号。

139.根据权利要求136-138中任一项所述的方法，其中所述靶信号包括高于阈值水平的信号。

140.根据权利要求136-139中任一项所述的方法，其中所述靶信号包括所述多个多肽的信号中的最高信号。

141.根据权利要求136-140中任一项所述的方法，其中所述靶信号包括所述多个多肽的信号中的最低信号。

142.根据权利要求136-141中任一项所述的方法，其中所述信号对应于多肽的平衡结合常数、动力学结合常数、蛋白质稳定性测量值、酶活性、分数活性、非特异性结合潜力、聚集潜力、疏水性、蛋白质表达水平或成熟时间。

143.一种用于发现改善的结合物对的方法，所述方法包括：

(a)提供综合数据集，所述综合数据集包括(i)包含两个结构域的多个多肽的测量的定量结合特征，其中所述两个结构域独立地选自单体结构域的集合，其中所述多个多肽包含所有可能的单体多肽对；和(ii)作为单独的单体多肽的所述单体结构域的集合中的每个单体结构域的测量的定量结合特征；

(b)比较(i)和(ii)的值，以鉴定包含改善的结合物对的多肽，所述改善的结合物对表现出显著大于任一组分单独的单体多肽的结合特征的定量结合特征。

144.根据权利要求143所述的方法，其中所述改善的结合物对是双表位结合物。

145.根据权利要求143或144所述的方法，其中所述综合数据集包含单独的单体多肽的集合的测量的定量结合特征和所述单独的单体多肽的集合的所有可能串联对组合的至少50％、60％、70％、80％、90％或更多的测量的定量结合特征。

146.根据权利要求143-145中任一项所述的方法，其中所述综合数据集包括单独的单体多肽的集合的测量的定量结合特征和所述单独的单体多肽的集合的所有可能串联对组合的测量的定量结合特征。

147.一种用于鉴定亲和力优化和亲合力优化的串联多肽的高通量方法，所述方法包括：

(a)提供编码单体变体多肽的第一文库的多核苷酸的第一文库；

(c)分析所述变体多肽的第一文库以产生数据；

(d)基于所述数据鉴定所述变体多肽的第一文库的至少一部分的结合亲和力；

(e)基于来自第一文库的结合数据，提供编码来自第一文库的单体变体多肽的第二文库的第二多核苷酸的第二文库；

(f)提供编码多个串联多肽的多核苷酸的第三文库，所述多个串联多肽包含对应于第一文库的单体变体多肽的不同组合，其中所述多个串联多肽中的串联多肽包含第一单体变体多肽和第二单体变体多肽；

(g)加工多核苷酸的所述第二文库和第三文库以产生变体多肽的所述第二文库和第三文库，其中所述变体多肽附接于多核苷酸的所述第二文库和第三文库；

(h)分析变体多肽的所述第二文库和第三文库，以鉴定亲和力增强单体多肽变体和亲合力增强串联多肽；以及

(i)通过将在所述第二文库中鉴定的单独优化的单体替换到从所述第二文库中发现的亲合力增强串联对的相应位置中，将在所述第二文库和第三文库中鉴定的亲合力增强和亲和力增强组合。

148.根据权利要求147所述的方法，其中所述第三文库包含多个多肽，所述多个多肽包含在所述第一单体变体多肽和所述第二单体变体多肽之间的不同接头。

149.根据权利要求147或148所述的方法，其中第三文库包含单体变体多肽，所述单体变体多肽包含基于来自所述第一文库的结合数据与参考多肽相比降低的亲和力。

150.一种组合物，其包含：展示在固体表面上的多肽阵列，其中每个多肽共定位于编码所述多肽的相应多核苷酸，其中所述多个多肽中的多肽包含第一结构域和第二结构域，其中所述第一结构域和第二结构域经由接头连接，其中所述第一结构域结合第一表位，并且所述第二结构域结合第二表位，其中所述第一表位和第二表位不同。