CN114729309A

CN114729309A - 预测克隆细胞系生产稳定性的方法

Info

Publication number: CN114729309A
Application number: CN202080080663.2A
Authority: CN
Inventors: A.亨德森; N.里士满; S.萨勒希; R.塔拉班
Original assignee: UCL Business Ltd; GlaxoSmithKline Intellectual Property Development Ltd
Current assignee: UCL Business Ltd; GlaxoSmithKline Intellectual Property Development Ltd
Priority date: 2019-09-27
Filing date: 2020-09-25
Publication date: 2022-07-08
Also published as: US20220344000A1; KR20220069052A; JP2022550083A; TW202126806A; IL291365A; EP4034637A1; WO2021058709A1

Abstract

本发明涉及预测克隆细胞系的生产稳定性和/或生产不稳定性的方法，该方法包括以下步骤：a)在不同的细胞培养物中培养两个或更多个克隆细胞系；b)对每个细胞培养物中的细胞进行核型分析；c)从步骤(b)的核型分析中衍生出基因组不稳定性值。本发明还涉及选择表达治疗性蛋白的细胞系的方法和选择用于大规模治疗性蛋白生产的高滴度生产克隆细胞系的方法。

Description

预测克隆细胞系生产稳定性的方法

发明领域

本发明一般涉及开发用于治疗性蛋白生产的细胞系的方法，特别是预测克隆细胞系的生产稳定性和/或生产不稳定性的方法。本发明还涉及选择表达治疗性蛋白的细胞系的方法和选择用于大规模治疗性蛋白生产的高滴度生产克隆的方法。

发明背景

哺乳动物细胞系用于生产重组治疗性蛋白。此类哺乳动物细胞系的实例包括鼠骨髓瘤细胞(NS0)、幼仓鼠肾细胞(BHK)、人胚肾细胞(HEK-293)和中国仓鼠卵巢细胞(CHO)，目前批准的重组蛋白中有80％以上是在CHO平台中表达(Butler&Spearman，2014；Walsh，2018)。CHO细胞系作为平台的成功很大程度上归功于它们能够以高密度培养、易于吸收外源DNA以及相对易于适应无血清悬浮培养。

使用哺乳动物细胞生产治疗性蛋白的过程中的主要瓶颈是分离具有生产稳定性的克隆细胞系所需的时间。跨越行业的生产稳定性评估可能在60到>100代之间变化(BioPhorum Development Group，Stability Survey 2018)，需要评估大量细胞系以说明很大一部分细胞在生产上不稳定。如果在整个制造期间不维持生产滴度，则工艺良率会对时间线产生重大影响，因为制备计划通常至少提前一年预订。因此，出乎意料的低生产滴度会导致重复生产运行，对计划产生巨大影响，并对产品分销产生连锁反应。

因此，本领域需要减少识别有生产稳定性的克隆细胞系所花费的时间的方法。

发明概述

根据本发明的一个方面，提供了预测克隆细胞系的生产稳定性和/或生产不稳定性的方法，该方法包括以下步骤：

(a)在独立(separate)的细胞培养物中培养两个或更多个克隆细胞系

(b)对每个细胞培养物中的细胞进行核型分析；和

(c)从步骤(b)的核型分析中衍生出基因组不稳定性值。

在本发明的进一步方面，提供了选择表达治疗性蛋白的细胞系的方法，该方法包括以下步骤：

(a)在独立的细胞培养物中培养两个或更多个克隆细胞系

(b)对每个细胞培养物中的细胞进行核型分析

(c)从步骤(b)的核型分析中衍生出基因组不稳定性值；和

(d)根据步骤(c)的基因组不稳定性值选择克隆细胞系。

在本发明的另一个步方面，提供了选择用于大规模治疗性蛋白生产的高滴度生产克隆细胞系的方法，该方法包括以下步骤：

(a)在独立的细胞培养物中培养两个或更多个克隆细胞系

(b)对每个细胞培养物中的细胞进行核型分析

(c)从步骤(b)的核型分析中衍生出基因组不稳定性值；和

(d)根据步骤(c)的基因组不稳定性值选择克隆细胞系。

在一个实施方案中，核型分析包括识别克隆细胞系的染色体畸变。在另一个实施方案中，核型分析包括进行多色荧光原位杂交(MFISH)、光谱核型分析(SKY)或Giesma显带(G显带)。

在进一步的实施方案中，该方法在步骤(b)之后进一步包括通过核型确定每个细胞培养物的亚群的步骤。

在一些实施方案中，衍生基因组不稳定性值包括将每个亚群指定为包含克隆染色体畸变(CCA)或非克隆染色体畸变(NCCA)。在一个实施方案中，衍生基因组值进一步包括确定每个克隆细胞系的CCA百分比和/或NCCA百分比的步骤。

在一些实施方案中，衍生基因组不稳定性值包括确定平均匹配成本分布。在一些实施方案中，衍生基因组不稳定性值包括确定平均匹配成本分布的方差。在一些实施方案中，基因组不稳定性值用于i)通过％CCA或平均匹配成本分布的方差对克隆细胞进行排序；(ii)衍生出平均匹配成本分布阈值的％CCA阈值或方差；(iii)衍生四分位阈值。在一个实施方案中，基因组不稳定性值用于衍生出％CCA阈值。在一个实施方案中，％CCA阈值是至少70％。在一个实施方案中，％CCA阈值为78％。

在一些实施方案中，对每个细胞培养物中的细胞进行核型分析的步骤和/或从核型分析衍生基因组不稳定性值的步骤是自动化的。在一个实施方案中，自动化是计算机实现的自动化。

在一些实施方案中，对每个细胞培养物中的细胞进行核型分析的步骤在10代和40代之间进行。在一些实施方案中，对每个细胞培养物中的细胞进行核型分析的步骤在10、15或20代之后进行。

在一个实施方案中，克隆细胞系是哺乳动物细胞系。在一个实施方案中，哺乳动物细胞系是中国仓鼠卵巢(CHO)细胞系。在一个实施方案中，CHO细胞系是CHO-K1。在一些实施方案中，CHO细胞系是谷氨酰胺合成酶(GS)敲除细胞。

附图说明

图1A-E A)每个细胞系的群饼图分为稳定性和时间点类别。在比较稳定与不稳定以及早期到晚期时，CCA(斑点)和NCCA(空白)饼段突出显示了NCCA群的增加。B)计算每个稳定性组的总体CCA和NCCA频率，每组之间的差异有统计学意义(双向ANOVA，P＝0.01)。总平均值计算为78％，表明生产稳定性指定的潜在阈值。C)早期和晚期时间点之间的CCA和NCCA群频率差异有统计学意义(双向ANOVA，P＝<0.0001)，表明NCCA群随着细胞培养的延长而增加，导致更多的异质性。三角形代表群平均值和95％置信区间，蓝线指示标准差。D)按染色体分类的突变；细胞系由不同的模式段表示。6号和8号染色体保留了最多的突变，其中6号染色体在14个细胞系中的11个中发生了突变。E)与D类似的条形图，除了按稳定性排序。除2、17、18和19号外的所有染色体在稳定和不稳定的细胞系中都获得了突变。没有观察到特定的染色体突变模式。

图2A-D在分析结果后，在细胞系揭盲之前设计了三种不同的预测方法。细胞系按CCA％从高到低排序，应用不同的预测方法，计算预测成功率。A)顶部和底部25％，用于识别最稳定和不稳定的细胞系。B)基于初始生产稳定和不稳定细胞系组的阈值预测；阈值设置为CCA 78％。认为CCA≥78％是生产稳定的细胞系，相反认为<78％是生产不稳定的细胞系。C)按百分比(％)CCA分类的细胞系分为四分位数，以识别细胞系分类的前25％和底部50％。D)生产稳定组和不稳定组中％CCA和％NCCA的比较(合并T检验，P＝<0.0001)。

图3A-C A)在生产运行的第8天取样的生产稳定和不稳定细胞系的CCA(斑点)和NCCA(空白)群。第0天时间点反映了细胞系在进入生产运行环境之前的基线异质性。在生产环境中8天后观察到NCCA群的增加。第8天gH2AX代表在生产运行期间用1ng/ml新抑癌蛋白(Neocarzinostatin)处理的相同细胞系。加入新抑癌蛋白(Neocarzinostatin)进一步增加了NCCA群(红色部分)。B)跨越第0天、第8天和第8天gH2AX(用新抑癌蛋白处理)的稳定细胞系的％CCA和％NCCA。在生产运行环境中8天后，稳定的细胞系获得了CCA群的减少(双向ANOVA，Hochberg调整后的P值，P＝<0.001***)。与第0天和第8天相比，由于添加了DNA损伤剂，CCA群减少进一步加剧(分别为P＝<0.0001***和P＝<0.01**)。C)跨越第0天、第8天和第8天gH2AX的不稳定细胞系的％CCA和％NCCA。在第0天和第8天之间，％CCA下降了17.5％，但这并不显著(P＝0.07ns)。在新抑癌蛋白存在的情况下，CCA群减少，导致与第0天相比减少约40％(P＝<0.0001***)，与第8天相比减少约23％(P＝0.015*)。

图4.A1和A2)使用U-Net模型进行自动图像分割。忠实的染色体分割允许使用高斯混合模型(B1和B2)进行稳健的伪着色。C1和C2)染色体的成对线性分配，以及相关的匹配成本。算法经由较大的匹配成本可以检测到10和19的易位。

图5A-C。A)手动和自动(APW)计算的CCA和NCCA亚群的比较显示每个细胞系中CCA和NCCA比例的相似图谱。B)自动预测工作流程生成的％CCA和％NCCA的比较显示稳定和不稳定细胞系之间的明显分离，如在手动分析中观察到的(P＝<0.05)。C)描绘细胞系平均成本匹配分布方差和％NCCA之间相关性的点图，指示平均匹配成本分布的方差可用作遗传不稳定性的计算生物标志物(大方差＝匹配成本的增加的可变性＝更多的突变数)。

发明详述

定义

除非另有定义，本文使用的所有技术和科学术语具有与本发明所属领域的技术人员通常理解前的含义相同。本文提及的所有专利和出版物均通过引用整体并入。

术语“包含”涵盖“包括”或“包含”，例如“包含”X的组合物可以仅由X组成或可以包括额外的东西，例如X+Y。

术语“基本上由…组成”将特点的范围限制为指定的材料或步骤，以及那些不实质影响要求保护的特点的基本特征的材料或步骤。

术语“由...组成”不包括任何附加组分的存在。

与数值x有关的术语“约”是指例如x±10％、5％、2％或1％。

如本文所用，术语“克隆细胞系”是指宿主细胞，其包含感兴趣的基因，其已被单细胞分选。克隆细胞系可经历如本文所述的治疗性蛋白生产稳定性评估，在此期间单细胞分选的克隆细胞系将在细胞培养物中培养。在所述细胞培养物中培养的细胞将与相应的克隆细胞系共享共同的祖先。应当理解，在使用“两个或更多个克隆细胞系”的情况下，这是指表达相同的感兴趣的治疗性蛋白的克隆细胞系。

如本文所用，术语“核型”是指细胞中染色体的集合。该术语也可以指细胞染色体的图像。核型可用于分析或确定细胞的染色体组成(即核型分析)，例如分析或确定染色体畸变。

如本文所用，术语“染色体畸变”是指涉及染色体结构或数量的异常。染色体畸变的实例包括易位、缺失、复制和倒位。可以将克隆细胞群分成包含相同或相似染色体畸变的细胞亚群。

如本文所用，术语“克隆染色体畸变”是在克隆细胞群内的20至40个随机检查的有丝***图中至少检测到两次的染色体畸变。

如本文所用，术语“非克隆染色体畸变”是在克隆细胞群内仅在20至40个随机检查的有丝***图中的单个细胞中检测到的染色体畸变。

如本文所用，术语“基因组不稳定性度量”是指可以评估细胞谱系基因组内染色体畸变水平的度量。换言之，基因组不稳定性度量是可以测量克隆群的核型异质性的度量。“基因组不稳定性值”是通过将基因组不稳定性度量应用于从克隆细胞系培养的细胞的核型衍生的。

如本文所用，术语“生产稳定性”是指通过克隆细胞系生产治疗性蛋白的稳定性，即在4至6个月内产生一致滴度的治疗性蛋白。在一些实施例中，一致的滴度定义为治疗性蛋白下降<30％。

如本文所用，术语“早期时间点”是指获取细胞样品以确定其核型的早期时间点。这认为是大约10到20代之间。

如本文所用，术语“晚期时间点”是指获取细胞样品以确定其核型的晚期时间点。这认为是大约80到150代之间。

宿主细胞系用作哺乳动物细胞工厂，以创建产生治疗性蛋白的克隆细胞系。以抗体作为治疗性蛋白的实例，将编码抗体的核酸序列克隆到表达载体中，随后转染到宿主细胞系中。对转染的池进行散装、单细胞分选，发展这些分选的单细胞，然后评估克隆细胞系的抗体产生(IgG滴度)。克隆细胞系根据其滴度进行排序，并经历一系列分类事件，直到选择约50个克隆细胞系进入生产稳定性评估。

克隆细胞系的生产稳定性评估是必不可少的。为了使克隆细胞系进入制造阶段，它必须跨越制造窗口(通常为4至6个月)产生一致数量的治疗性蛋白。标准的生产稳定性评估涉及在容器(如深孔板、摇瓶或微型生物反应器)中培养克隆细胞系跨越4到6个月，以反映制造窗口的时间长度。为了计算生产稳定性，在不同时间点获取最大滴度读数，并计算跨越时间序列的滴度变化百分比。通常，认为在稳定性评估期间能够将其蛋白质表达保持在其原始峰值滴度的30％以内的克隆细胞系是稳定的(BioPhorum Survey,2018)。

尽管几种不同的宿主细胞系已获得监管批准，包括鼠骨髓瘤(NS0)和人胚胎肾(HEK-293)，但用于生物制药生产的哺乳动物细胞培养过程中有80％使用中国仓鼠卵巢(CHO)悬浮细胞(Walsh,2018；Wurm，2004)。由于哺乳动物翻译后修饰的保守性，CHO细胞在表达治疗性蛋白时是优选的，这对mAb-FcγR相互作用至关重要。不适当的翻译后修饰会导致不良影响，如改变蛋白质稳定性、降低对靶向抗原的亲和力、异常清除率和免疫原性图谱。此外，CHO作为有监管机构的生物工厂，其良好的业绩记录使审批流程更加顺畅(Walsh，2018)。

几项研究强调了CHOK1系的核型异质性，指示高度突变的环境。Deavan和Peterson的作品(Deaven and Petersen,1973)强调他们24％的细胞含有与预期的22不同的染色体数(染色体数范围为19-23)，并且这种现象仍然持续到今天((Auer et al.,2018；Vcelaret al.,2018a；Vcelar et al.,2018b；Yusufi et al.,2017)。

在药物CHO细胞生命周期中，CHO细胞不断进行基因组修饰，这证明归因于克隆细胞系的表型差异(Derouazi et al.,2006)。除了CHOK1细胞系的自然突变倾向外，甲氨蝶呤(MTX)或甲硫氨酸亚砜亚胺(MSX)选择***的使用也显示出复合诱变。人类、小鼠和仓鼠细胞系中也记载有高频率的染色体紊乱，如断裂、双着丝粒染色体和端粒结构破坏。

在工业环境中，对于每种治疗性蛋白，约50个克隆细胞系通常进行生产稳定性评估，从中选择认为可制造的单个克隆细胞系。

发明人已经识别了细胞克隆群内的遗传稳定性/不稳定性与生产稳定性/不稳定性之间的相关性以及测量和分析遗传稳定性/不稳定性以预测相应克隆细胞系的生产稳定性/不稳定性的方法。通过在细胞系开发过程中应用这些方法，特别是在4到6个月期间的早期阶段，评估克隆细胞系的生产稳定性，可以对预测在细胞系开发(CLD)早期生产不稳定的克隆细胞系进行分类，从而提高CLD容量并缩短化学、制造和控制(CMC)时间线。

因此，根据本发明的一个方面，提供了预测克隆细胞系的生产稳定性和/或生产不稳定性的方法，该方法包括以下步骤：

(a)在独立的细胞培养物中培养两个或更多个克隆细胞系

(b)对每个细胞培养物中的细胞进行核型分析；和

(c)从步骤(b)的核型分析中衍生出基因组不稳定性值。

(a)在独立的细胞培养物中培养两个或更多个克隆细胞系

(b)对每个细胞培养物中的细胞进行核型分析

(c)从步骤(b)的核型分析中衍生出基因组不稳定性值；和

(d)根据步骤(c)的基因组不稳定性值选择克隆细胞系。

在本发明的另一个方面，提供了选择用于大规模治疗性蛋白生产的高滴度生产克隆细胞系的方法，该方法包括以下步骤：

(a)在独立的细胞培养物中培养两个或更多个克隆细胞系

(b)对每个细胞培养物中的细胞进行核型分析

(c)从步骤(b)的核型分析中衍生出基因组不稳定性值；和

(d)根据步骤(c)的基因组不稳定性值选择克隆细胞系。

在一个实施方案中，该方法用于预测克隆细胞系的生产不稳定性。在一个实施方案中，该方法用于预测克隆细胞系的生产稳定性。

在一个实施方案中，预测克隆细胞系的生产稳定性的方法进一步包括基于步骤(c)的基因组不稳定性值识别预测为具有生产稳定性的克隆细胞系的步骤。

在一个实施方案中，预测克隆细胞系的生产稳定性的方法进一步包括基于步骤(c)的基因组不稳定性值选择预测具有生产稳定性的克隆细胞系用于继续细胞系开发的步骤。

在一个实施方案中，预测克隆细胞系的生产不稳定性的方法进一步包括基于步骤(c)的基因组不稳定性值识别预测为具有生产不稳定性的克隆细胞系的步骤。

在一个实施方案中，预测克隆细胞系的生产不稳定性的方法进一步包括基于步骤(c)的基因组不稳定性值分类预测为具有来自细胞系发育的生产不稳定性的克隆细胞系的步骤。

在一个实施方案中，存在选择表达治疗性蛋白的细胞系的方法，该方法包括以下步骤：

(a)在独立的细胞培养物中培养两个或更多个克隆细胞系

(b)对每个细胞培养物中的细胞进行核型分析

(c)从步骤(b)的核型分析中衍生出基因组不稳定性值；和

(d)根据步骤(c)的基因组不稳定性值对克隆细胞系进行分类。

在一个实施方案中，存在选择用于大规模治疗性蛋白生产的高滴度生产克隆细胞系的方法，该方法包括以下步骤：

(a)在独立的细胞培养物中培养两个或更多个克隆细胞系

(b)对每个细胞培养物中的细胞进行核型分析

(c)从步骤(b)的核型分析中衍生出基因组不稳定性值；和

(d)根据步骤(c)的基因组不稳定性值对克隆细胞系进行分类。

基因组不稳定性值用于识别或预测克隆细胞系的生产稳定性和/或生产不稳定性。在一些实施方案中，基因组不稳定性值用于识别或预测克隆细胞系的生产不稳定性。在一个实施方案中，基因组不稳定性值用于识别或预测克隆细胞系的生产稳定性。

克隆细胞系的遗传稳定性/不稳定性可以通过分析克隆细胞系的核型并从核型分析衍生出遗传不稳定性值来评估。

核型是细胞的染色体组成或特征，核型是分析细胞染色体(细胞遗传学)以获得细胞全基因组特征的过程。通常通过获得细胞染色体的图像来分析细胞的核型。核型分析可用于检测染色体不稳定性，例如染色体畸变。染色体畸变是涉及染色体结构或数量的异常。染色体畸变的实例包括易位、缺失、复制和倒位。

在本发明中，克隆细胞系的遗传稳定性/不稳定性是通过在细胞培养物中培养克隆细胞系获得克隆群并通过核型分析评估在连续细胞培养下克隆群内自发形成的染色体畸变来确定的。

因此，在一个实施方案中，核型分析包括识别克隆细胞系的染色体畸变。在一个实施方案中，核型分析包括识别细胞克隆群内的染色体畸变。

在一个实施方案中，对每个细胞培养物(即克隆群)中的细胞进行核型分析包括核型分析20或更多、30或更多、40或更多、50或更多、60或更多、70或更多、80或更多、90或更多或100或更多个细胞。在一个实施方案中，对每个细胞培养物中的细胞进行核型分析包括对20至100之间个细胞进行核型分析。在一个实施方案中，对每个细胞培养物中的细胞进行核型分析包括核型分析20、30、40、50、60、70、80、90或100个细胞。在一个实施方案中，对每个细胞培养物中的细胞进行核型分析包括核型分析20个细胞。在一个实施方案中，对每个细胞培养物中的细胞进行核型分析包括核型分析30个细胞。在一个实施方案中，对每个细胞培养物中的细胞进行核型分析包括核型分析40个细胞。在一个实施方案中，对每个细胞培养物中的细胞进行核型分析包括核型分析50个细胞。在一个实施方案中，对每个细胞培养物中的细胞进行核型分析包括核型分析60个细胞。在一个实施方案中，对每个细胞培养物中的细胞进行核型分析包括核型分析70个细胞。在一个实施方案中，对每个细胞培养物中的细胞进行核型分析包括核型分析80个细胞。在一个实施方案中，对每个细胞培养物中的细胞进行核型分析包括核型分析90个细胞。在一个实施方案中，对每个细胞培养物中的细胞进行核型分析包括核型分析100个细胞。在一个实施方案中，对每个细胞培养物中的细胞进行核型分析的步骤在生产稳定性评估的早期时间点进行。在一个实施方案中，对从克隆细胞系(即克隆群)培养的细胞进行核型分析的步骤在10至20代细胞培养之间进行。在一个实施方案中，核型分析步骤在15至40代细胞培养之间进行。在一个实施方案中，核型分析步骤在10代或更多、15代或更多、20代或更多、25代或更多、30代或更多、35代或更多或40代或更多的细胞培养后进行。在一个实施方案中，核型分析在10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39或40代细胞培养后进行。在一个实施方案中，核型分析在10代细胞培养后进行。在一个实施方案中，核型分析在15代细胞培养后进行。在一个实施方案中，核型分析在20代细胞培养后进行。在一个实施方案中，核型分析的步骤在用克隆细胞系接种细胞培养基约1个月后进行。在一个实施方案中，核型分析步骤在5代、10代、15代、20代、25代、40代或35代后进行。在一个实施方案中，核型分析步骤在6代之后进行。在一个实施方案中，核型分析步骤在约7代后进行。在一个实施方案中，核型分析步骤在10代之后进行。

核型分析通常使用在中期停滞的有丝***细胞进行，此时染色体最浓缩，因此更清晰可见。本领域技术人员将熟悉染色体分离技术，如通过与秋丝粒或秋水仙碱温育来破坏纺锤体纤维以防止细胞进入随后的后期阶段，用低渗溶液处理并将细胞用Carnoy固定剂固定到载玻片上进行分析之前保存在它们的肿胀状态。技术人员也将熟悉进行染色体染色技术的方法。

染色体染色技术在本领域中是众所周知的。例如，染色体染色技术，如Giesma显带(G显带)、多色荧光原位杂交(MFISH)、比较基因组杂交(CGH)和光谱核型分析(SKY)可以进行有效的核型分析，包括分析染色体畸变。使用G显带，中期染色体用蛋白酶，如胰蛋白酶进行预处理，并用Giesma染色剂染色。Giesma是可见光染料，其通过嵌入与DNA结合。MFISH是利用与不同荧光团缀合的种类和染色体特异性序列的技术，其使多种颜色的组合能够在杂交后产生“着色”染色体的核型图像。在评估核型突变时，染色体的绘制降低了使用条带模式分析核型的主观性。与比较基因组杂交(CGH)(分析相对于倍性的拷贝数变化的方法)相比，MFISH具有可视化大结构变体和平衡易位的能力。MFISH提供了强大的方法来了解人口水平的突变景观。MFISH已在临床上广泛应用于表征人染色体生物学，如癌症患者样品中的数值和结构变化。其他具体用途包括了解与辐射诱导突变相比的自发微核形成以及胃癌患者中相互排斥的基因扩增的识别。

在一个实施方案中，对细胞培养物中的细胞进行核型分析的步骤在中期进行。在进一步实施方案中，核型分析包括使用多色荧光原位杂交(MFISH)、Giesma显带(G显带)、比较基因组杂交(CGH)或光谱核型分析(SKY)。在一个实施方案中，核型分析包括使用MFISH或G显带。在一个实施方案中，核型分析是通过MFISH。在一个实施方案中，对细胞培养物中的细胞进行核型分析的步骤包括进行定量荧光原位杂交(Q-FISH)。使用肽核酸探针的Q-FISH可用于分析端粒。

基因组不稳定性值是通过将基因组不稳定性度量应用于克隆群中细胞的核型而衍生出的。基因组不稳定性度量是可以评估细胞谱系基因组内染色体畸变水平的度量。可以以不同方式评估细胞谱系基因组内的染色体畸变水平。本文提供了两个基因组不稳定性度量：(i)每个克隆细胞系(即克隆群)的克隆染色体畸变百分比(CCA)和/或非克隆染色体畸变百分比，和(ii)克隆群的平均匹配成本分布的标准偏差或方差。

因此，在一个实施方案中，基因组不稳定性值是通过衍生每个克隆细胞系的克隆染色体畸变百分比(％CCA)和/或非克隆染色体畸变百分比(％NCCA)来获得的。因此，在该实施方案中，CCA和NCCA是用于衍生基因组不稳定性值的基因组不稳定性度量。CCA和NCCA是通用突变度量，其描述了细胞系内的整体突变景观(Henry Heng et al,MolecularCytogenetics,2016)。

克隆染色体畸变是在20到40个随机检查的有丝***图中至少检测到两次的染色体畸变。相反，非克隆染色体畸变是仅在20到40个随机检查的有丝***图中的单细胞中检测到的染色体畸变。因此，拍摄40张有丝***图像，CCA是发生在5％或更多群中的染色体畸变，而NCCA是发生在不到5％群中的染色体畸变。

从每个克隆细胞系培养的一个或多个细胞的核型可以具有相同的染色体畸变，并且因此具有相同的核型。通过将具有相同或相似染色体特征(即经历相同或相似突变事件)的细胞分组，可以将每个细胞培养物中的细胞，即群，按核型分组为亚群。以这种方式，使用给定亚群中的细胞(图像)数量并基于总群大小(例如，针对给定细胞群分析的图像总数)，可以将每个亚群指定为包含CCA或NCCA。

因此，在一个实施方案中，本发明的方法包括通过核型确定每个细胞培养物(即从克隆细胞系培养的细胞)中的细胞亚群的进一步步骤。在另一个实施方案中，衍生基因组不稳定性值的步骤包括将每个亚群指定为包含CCA或NCCA。

发明人已经识别了克隆群中的总％CCA和％NCCA与衍生该克隆群的相应克隆细胞系的生产稳定性和不稳定性之间的强相关性。CCA群的高百分比频率与生产稳定的细胞系相关。相反，在细胞系组的不稳定臂中保留了更高百分比的NCCA群频率。因此，在早期时间点稳定和不稳定细胞系的％CCA和％NCCA的不同分组指示该基因组度量可用作生产稳定性预测因子。

在一个实施方案中，CCA是染色体畸变，在2％或更多、3％或更多、4％或更多、5％或更多、6％或更多、7％或更多、8％或更多、9％或更多、10％或更多、11％或更多、12％或更多、13％或更多、14％或更多、15％或更多、20％或更多、25％或更多、30％或更多克隆群中检测到该染色体畸变。在一个实施方案中，CCA是在2％至10％的克隆群中检测到的染色体畸变。在一个实施方案中，CCA是在5％至10％的克隆群中检测到的染色体畸变。在一个实施方案中，CCA是在5％的克隆群中检测到的染色体畸变。在一个实施方案中，NCCA是在5％或更少、4％或更少、3％或更少、2％或更少或1％或更少的克隆群中检测到的染色体畸变。本领域技术人员将理解，由各自％CCA或NCCA定义的克隆群中CCA或NCCA的频率将取决于检查的有丝***图像的样品大小。

在一个实施方案中，衍生基因组不稳定性值进一步包括确定每个克隆细胞系的细胞群中的CCA百分比和/或NCCA百分比。

发明人还识别了基于平均匹配成本分布的方差或标准偏差，生产上稳定的和不稳定的细胞系之间存在明显的区别。因此，平均匹配成本的方差或标准差是用于衍生基因组不稳定性值的基因组不稳定性度量。因此，在一个实施例中，通过衍生平均匹配成本分布的标准差来获得基因组不稳定性值。在另一个实施方案中，基因组不稳定性值是通过衍生平均匹配成本分布的方差来获得的。

平均匹配成本分布的方差或标准偏差用于基于个体染色体的颜色(即荧光强度)来量化染色体组之间的变化量，例如，如荧光探针发射的。基于染色体的颜色，该度量允许量化克隆群中跨越不同核型的不同颜色模式的频率。

匹配成本是两个核型(即2个图像)之间一对染色体颜色之间不一致的百分比。较小的匹配成本表示颜色图谱的相似性(基因组相似性)，较大的匹配成本表示遗传差异。两个核型的总匹配成本是一组颜色最相似的染色体对的匹配成本的总和，每个核型一个。

为了考虑到细胞系中细胞之间染色体数量的变化，两个细胞的总匹配成本是染色体对数量的平均值。一对图像(即2个核型)的平均匹配成本是通过对所述图像对中所有对应染色体对的匹配成本之和求平均来计算的。将每个核型(即图像)与取自克隆群的样品中的所有其他核型进行比较，并且对于比较的每对图像，获得平均匹配成本。这样，就可以得到每个克隆群的平均匹配成本分布。根据该分布，计算方差或标准差以获得平均匹配成本分布的方差或标准差。克隆细胞系的平均匹配成本分布的方差或标准偏差越小，相应的克隆细胞系在基因组上越稳定。发明人已经显示平均匹配成本分布的方差与％CCA/％NCCA很好地相关。

因此，在一个实施方案中，衍生基因组不稳定性值的步骤包括确定平均匹配成本分布。在进一步实施方案中，衍生基因组不稳定性值的步骤包括确定平均匹配成本分布的标准偏差。在另一个实施方案中，衍生基因组不稳定性值的步骤包括确定平均匹配成本分布的方差。

在一些实施方案中，匹配成本可用于确定克隆细胞系的亚群(即克隆群的亚群)。如上所述，可以为两个图像之间的每个染色体对生成匹配成本。低匹配成本表示基于它们在染色体掩码内组成的荧光颜色相似的染色体。掩码是图像上的叠加层，用于识别染色体并减少图像的非染色体区域。高匹配成本指示突变事件发生在一条染色体的荧光颜色显著偏离另一条染色体时。因此，高匹配成本识别两个亚群之间的基因突变。每个后续图像都可以分配给一个新的亚群或一个已经被识别的亚群，从而提供每个群的频率分数。

在一些实施方案中，可计算识别的亚群的频率并将其指定为克隆染色体畸变(遗传稳定，CCA)和非克隆(遗传不稳定，NCCA)群。或者，如上所述，细胞系中细胞之间匹配成本的方差或标准偏差也可用作基因组稳定性指标，其中匹配成本的扩散增加指示所分析图像中染色体畸变的数量较高。

一旦衍生出来，基因组不稳定性值用于识别生产上稳定和/或生产上不稳定的克隆细胞系。与完成整个稳定性评估后(70-150+/-10代)确定克隆细胞系的生产稳定性相比，此类识别(即预测)有利于细胞系开发时间线，因为它提供了在更早的时间点(例如10、15或20代)对不稳定细胞系进行分类的方法。

可以以不同方式使用基因组不稳定性值来选择生产上稳定的细胞系或过滤掉生产上不稳定的细胞系。一种方法是对平均匹配成本分布的％CCA或方差或标准差(SD)进行排名。例如，基于每个细胞系的％CCA排名的前6和底部6预测具有快速识别稳定(用于细胞系进展)和不稳定(用于分类)克隆细胞系的潜力。

或者，基于基因组不稳定性值的四分位数预测可用于基于％CCA或平均匹配成本分布的方差或SD轻松识别前25％的稳定细胞系和底部50％的生产不稳定细胞系。通过释放有限的微型生物反应器空间，对底部50％进行严格分类将大大提高细胞系开发能力。

另一种预测可以基于％CCA阈值，或平均匹配成本分布阈值的方差或SD，该阈值衍生自有已知生产稳定性/不稳定性指定的克隆细胞系的基因组不稳定性值作为参考。阈值可以是区分生产稳定和生产不稳定克隆细胞系的基因组不稳定性值。这种预测的一个潜在好处是，随着更多数据的生成，阈值可能会被细化，从而提供潜在的增加的预测准确率。

在一个实施方案中，％CCA阈值是≥60％、≥65％、≥70％、≥75％、≥80％、≥85％、≥90％、≥95％。在一个实施方案中，％CCA阈值为70％。也就是说，CCA百分比等于或高于70％的克隆细胞系在生产上是稳定的，而低于70％CCA的克隆细胞系可能被认为是不稳定的。在一个实施方案中，％CCA阈值为78％。在一个实施方案中，％CCA阈值在60％至95％之间。在一个实施方案中，％CCA阈值在70％至95％之间。在一个实施方案中，％CCA阈值在75％至95％之间。在一个实施方案中，％CCA阈值在80％至95％之间。在一个实施方案中，％CCA阈值在85％至95％之间。在一个实施方案中，％CCA阈值在90％至95％之间。在一个实施方案中，％CCA阈值是70％、75％、78％、80％、85％或90％。

在一个实施方案中，平均匹配成本分布阈值的方差为≤100、≤90、≤80、≤75、≤70、≤65、≤60、≤55、≤50、≤45、≤40、≤35、≤30、≤25、≤20、≤15、≤10或≤5。也就是说，等于或小于识别的方差阈值的方差被认为是生产上稳定的。在一个实施方案中，平均匹配成本分布阈值的方差≤70。在一个实施方案中，平均匹配成本分布阈值的方差≤65。在一个实施方案中，平均匹配成本分布阈值的方差≤60。在一个实施方案中，平均匹配成本分布阈值的方差≤55。在一个实施方案中，平均匹配成本分布阈值的方差≤50。在一个实施方案中，平均匹配成本分布阈值的方差≤45。在一个实施方案中，平均匹配成本分布阈值的方差≤40。在一个实施方案中，平均匹配成本分布阈值的方差≤35。在一个实施方案中，平均匹配成本分布阈值的方差≤30。在一个实施方案中，平均匹配成本分布阈值的方差在25和70之间。在一个实施方案中，平均匹配成本分布阈值的方差在25和60之间。在一个实施方案中，平均匹配成本分布的方差阈值在30到45之间。

在一个实施方案中，平均匹配成本分布阈值的SD为≤10、≤9、≤8、≤7、≤6.5、≤6、≤5.5、≤5、≤4.5、≤4或≤3.5。也就是说，等于或小于识别的SD阈值的方差被认为是生产稳定的。在一个实施方案中，平均匹配成本分布阈值的SD≤8。在一个实施方案中，平均匹配成本分布阈值的SD≤7.5。在一个实施方案中，平均匹配成本分布阈值的SD≤7。在一个实施方案中，平均匹配成本分布阈值的SD≤6.5。在一个实施方案中，平均匹配成本分布阈值的SD≤6。在一个实施方案中，平均匹配成本分布阈值的SD≤5.5。在一个实施方案中，平均匹配成本分布阈值的SD≤5。在一个实施方案中，平均匹配成本分布阈值的SD≤4.5。在一个实施方案中，平均匹配成本分布阈值的SD≤4。在一个实施方案中，平均匹配成本分布阈值的SD在5和8.5之间。在一个实施方案中，平均匹配成本分布阈值的SD在5和8之间。在一个实施方案中，平均匹配成本分布阈值的SD在5.5和7之间。

在一个实施方案中，平均匹配成本分布阈值的方差或SD通过在克隆细胞系SD或平均匹配成本分布的方差上构建决策树来计算，该决策树已知在生产上是稳定的或不稳定的，最能区分两个稳定性类别。然后可以将决策树识别的阈值应用于新细胞系的平均匹配成本分布的方差或SD。如果修改了实验方案，如果认为阈值不再适合目的，则应在有已知生产稳定性结果的新细胞系MFISH图像上审查和重新估计阈值。

在本发明的一个实施方案中，预测每个细胞培养物中克隆细胞的生产稳定性和/或不稳定性的步骤包括以下一项或多项：i)通过％CCA、平均匹配成本分布的方差或平均匹配成本分布的SD对克隆细胞进行排序；(ii)应用％CCA阈值、平均匹配成本分布阈值的方差或平均匹配成本分布阈值的SD；和(iii)应用四分位阈值。在一个实施方案中，通过应用％CCA阈值或平均匹配成本分布阈值的方差或SD来预测每个细胞培养物中的生产稳定性和/或生产不稳定性。在一个实施方案中，％CCA阈值是≥70％、≥75％、≥80％、≥85％、≥90％、≥95％。在一个实施方案中，％CCA阈值为70％。在进一步的实施方案中，％CCA阈值为78％。在一个实施方案中，％CCA阈值在70％至95％之间。在一个实施方案中，％CCA阈值是70％、75％、78％、80％、85％或90％。

在一个实施方案中，正确预测率在约60％至约100％、约70％至约100％、约80％至约100％、或约90％至约100％之间。在一个实施方案中，正确预测率在约70％至约100％之间。在一个实施方案中，正确预测率为约60％、约70％、约80％、约90％或约100％。

在一个实施方案中，通过以％CCA、平均匹配成本分布的方差或平均匹配成本分布的SD对克隆细胞进行排序的正确预测率为83％。在一个实施方案中，通过以CCA百分比、平均匹配成本分布的方差或平均匹配成本分布的SD对克隆细胞进行排序的正确识别生产不稳定细胞系的预测率为100％。在一个实施方案中，通过以％CCA、平均匹配成本分布的方差或平均匹配成本分布的SD对克隆细胞进行排序的正确识别生产稳定细胞系的预测率为65％。

在一个实施方案中，通过应用％CCA阈值或平均匹配成本分布的方差或平均匹配成本分布阈值的SD的正确预测率为80％。在一个实施方案中，通过应用％CCA阈值、平均匹配成本分布的方差或平均匹配成本分布阈值的SD的正确识别生产不稳定细胞系的预测率为83％。在一个实施方案中，通过应用％CCA阈值、平均匹配成本分布的方差或平均匹配成本分布阈值的SD的正确识别生产稳定细胞系的预测率为75％。

在一个实施方案中，通过应用平均匹配成本分布四分位阈值的％CCA四分位阈值方差或平均匹配成本分布四分位阈值的SD的正确预测率为70％。在一个实施方案中，通过应用％CCA四分位阈值(底部25％)、平均匹配成本分布四分位阈值的方差(底部25％)或平均匹配成本分布四分位阈值的SD(底部25％)的正确识别生产不稳定细胞系的预测率为100％。在一个实施方案中，通过应用％CCA四分位阈值(前25％)、平均匹配成本分布四分位阈值的方差(前25％)或平均匹配成本分布四分位的SD(前25％)的正确识别生产稳定细胞系的预测率阈值为68％。

本发明方法的各个步骤可以自动化。在一个实施方案中，对每个细胞培养物中的细胞进行核型分析的步骤和/或从核型分析衍生基因组不稳定性值的步骤是自动化的。在一个实施方案中，细胞核型分析的步骤可以是自动化的。

在一个实施方案中，自动化是计算机实现的自动化。自动化通常通过计算机实现来实现(即它是计算机实现的步骤)。计算机实现可能涉及图像分类***。计算机实现的步骤或图像分类***可以包括机器学习***，例如人工神经网络，更具体地，卷积神经网络。

在核型分析和/或衍生基因组不稳定性值期间，自动化过程可以去除与手动图像分析相关的任何主观性。因此，在一个实施方案中，对每个细胞培养物中的细胞进行核型分析的步骤和/或从核型分析衍生基因组不稳定性值的步骤包括自动图像分析。

在一个实施方案中，图像分析可以通过使用软件来自动化。图像分析通常使用允许对荧光图像进行表征的软件进行。一个实例是CellProfiler^TM。可以使用CellProfiler^TM工作流程分析染色(例如荧光)图像以从个体染色体中提取荧光强度，从而能够将荧光像素强度与图像内的个体染色体相关联。图像可能会进行阈值校正以去除背景荧光。

在一个实施方案中，图像分析的自动化包括图像中染色体的分割。忠实地分割图像中的染色体是自动化管线中的关键步骤。图像中伪影的存在、光照差异和近端染色体对分割提出了许多挑战。为了克服这些挑战，可以在自动化过程中包括基于深度学习的方法(DL)来衍生掩码。掩码是图像上的叠加层，用于识别染色体并减少图像的非染色体区域。分段的染色体像素可以根据荧光信号着色。

染色体的着色可以通过应用于荧光强度的预先训练的Gaussian混合模型来进行，该模型进一步将荧光强度分类为一组预先确定的伪颜色类别中的一个。

在用于图像分析的自动化过程中，染色体可以通过彩色饼图来表征，其中伪彩色扇区的大小反映了分类为该颜色的染色体像素的比例。给定两个分段和伪着色图像，一组染色体到染色体对，每个图像中的一个，可以通过计算成本矩阵衍生，其行和列分别由图像1和图像2的染色体索引，并且其第ij个条目是将图像1中的染色体i与图像2中的染色体j匹配的成本；并解决此成本矩阵的线性分配问题。线性分配问题的解决方案是一组产生最低总匹配成本的染色体到染色体对。这个总匹配成本的平均值，加上成功配对的染色体数量，提供了两个染色体群是否具有相同或相似核型的指示。

在一个实施方案中，通过计算每对图像的平均匹配成本、形成平均匹配成本分布并计算该分布的方差或标准偏差(SD)来评估每个细胞系的基因组稳定性。此方差或标准偏差与％CCA指标相关。

在另一个实施方案中，通过计算每对图像的平均匹配成本、形成平均匹配成本分布并计算该分布的方差来评估每个细胞系的基因组稳定性。

可以通过分析染色体的端粒来评估克隆细胞系的基因组不稳定性。在一个实施方案中，核型分析包括分析染色体的端粒。在一个实施方案中，分析染色体的端粒包括定量荧光原位杂交(Q-FISH)。

在正常的体内平衡中，端粒位于染色体的最末端。端粒由富含G的重复(TTAGGGn)形成，并受到shelterin的保护，shelterin是6元蛋白复合物，可特异性结合端粒并通过POT1隔离单链端粒DNA抑制DNA损伤路径(de Lange,2005)。在中国仓鼠卵巢(CHO)细胞系中，间质端粒序列(ITS)与极点相比是丰富的。已知Shelterin复合物与ITS结合，但其对局部DNA损伤的抑制作用尚不明确(Schmutz and de Lange,2016)

在细胞***的最末端，端粒长度缩短，直到它们达到Hayflick极限，触发细胞凋亡的端粒临界长度(Hayflick,1965；Hayflick and Moorhead,1961)。将端粒缩短到这个临界长度会导致shelterin复合物的显著损失和ssDNA的去保护，从而导致DNA损伤反应(DDR)路径的激活。通过共济失调毛细血管扩张症突变(ATM)和共济失调毛细血管扩张症和Rad3相关蛋白(ATR)的作用，DDR路径通常通过抑制CDK蛋白在有丝***进展前导致基因损伤修复，从而减缓细胞周期进程(Huen and Chen,2008)。修复后，细胞周期在不激活凋亡路径的情况下进行(Roos and Kaina,2006。

CHO细胞代表了高度增殖和永生化的细胞系，让人联想到癌细胞系，如HeLa和间接地HEK293T。尽管不是衍生自癌症组织，但HEK293T细胞表达Ad5 E1A/E1B蛋白，这些蛋白使前视网膜母细胞瘤(RB)和p53通路失调，破坏细胞周期(Berk,2005；Sha et al.,2010)。如果遗传损伤没有得到适当的纠正，并且永生化细胞系获得了允许细胞周期进展的突变，则可能发生遗传不稳定。如果基因损伤特异性发生在端粒，会招募肿瘤抑制基因p53结合蛋白(TP53BP1)并促进染色体末端的非同源末端连接(NHEJ)。TP53BP1作用仅在没有p53和RB路径的情况下才有可能(O'Sullivan and Karlseder,2010)。

获得融合染色体并获得通过有丝***能力的细胞导致断裂-融合-桥(BFB)循环，由此染色体非相互断裂以产生两个遗传上不同的子代(Marotta et al.,2013)。BFB循环与肿瘤内异质性有关，并显示可促进DNA扩增和染色体丢失(Gisselsson et al.,2000；Lo etal.,2002；Thomas et al.,2018)。这可能代表了导致CHO细胞系基因组不稳定性的路径(Vcelar et al.,2018a；Vcelar et al.,2018b)。

哺乳动物细胞，如CHO(中国仓鼠卵巢)、BHK、NS0、Jurkat、K562、HeLa或PerC6经常在生物制药行业用于制造生物制药。这些细胞经过基因工程改造，然后以确保在生物反应器中培养所得细胞系时观察到所需蛋白质的高滴度表达的方式进行选择。此类宿主细胞也可能含有有利的基因型和/或表型修饰，例如CHO-DG44宿主菌株的dhfr基因拷贝被禁用，而其他宿主可能使谷氨酰胺合成酶基因被禁用(例如CHOK1a-GS-KO)。可选择的修饰可能是对参与蛋白质糖基化的酶机制实施的。其他可能对宿主细胞凋亡、表达和存活路径具有有利的基因型和/或表型修饰。这些和其他单独或组合的宿主修饰可以通过标准技术产生，如非宿主或宿主基因的过表达、基因敲除方法、基因沉默方法(例如siRNA)，或进化和选择有所需表型的亚株。此类技术在本领域中是很成熟的。

在一个实施方案中，克隆细胞系是哺乳动物细胞系。在一个实施方案中，哺乳动物细胞是CHO(中国仓鼠卵巢)细胞、BHK细胞、NS0细胞、Jurkat细胞、K562细胞、HeLa细胞或PerC6细胞。在一个实施方案中，哺乳动物细胞是CHO细胞。在一个实施方案中，哺乳动物细胞是CHOK1细胞。在一个实施方案中，CHO细胞系是谷氨酰胺合成酶(GS)敲除细胞。在一个实施方案中，哺乳动物细胞是CHOK1a-GS-KO。

现在将参考以下非限制性实施例更详细地描述本发明。

实施例

实施例1：方法

细胞培养

细胞系

已经确定其生产稳定性的细胞系从来自葛兰素史克(GSK)的液氮储备中获得。使用的细胞系是CHOK1a-GS-KO、CHOK1a、DG44、HEK293T和CHOK1a-GS-KO(蛋白质2、3、4和5)。治疗性蛋白2、3和5的细胞系用于生产稳定和不稳定的比较实验，蛋白质4用于盲法验证MFISH生产稳定性预测方法。

活细胞计数

将500μl细胞悬液倒入4ml采样管中。如果将TrypLE(Gibco,#12605010)添加到由Vi-Cell XR(BeckmanCoulter)处理的细胞悬液和样品中，则为500μl，其提供总的和活细胞计数、存活率百分比和细胞直径的指标。

细胞系解冻

细胞小瓶在37℃PBS中解冻并重悬于10mL培养基中。通过将500μL TrypLE(Gibco,#12605036)添加到500μL细胞悬液中，在ViCell(Beckman Coulter)上对细胞系进行计数。将0.5x10⁶细胞接种在20mL培养基中的培养瓶中，并在设置为37℃、5％CO₂和140rpm的加湿摇动温育箱中温育。

细胞培养维护

细胞恢复到>95％后，每3或4天在30mL中添加0.3x10⁶个细胞的营养物质+25μMMSX的培养基中维持和传代细胞系。使用ViCell(Beckman Coulter)计算播种密度。

细胞遗传学

染色体收获

将每个细胞系的0.5mL细胞添加到含有5mL新鲜培养基的T25烧瓶中。将细胞置于静态温育箱(37℃，5％CO₂)中培养三天。在每个T25中将2mL培养基替换为2mL新鲜培养基，并添加100μl的KaryoMAX colcemid(Gibco,#15212012)，并将T25s放入振荡温育箱(37℃，5％CO₂)中过夜。

然后将细胞在室温(RT)下以1200rpm离心5分钟，弃去上清液，将沉淀用5mL温(37℃)0.075M的KCL(Sigma,#P5405)重新悬浮并放入静态温育箱(37℃)5分钟。加入2mL预冷的固定液(-20℃)、3:1的甲醇溶液(Sigma,#34860):乙酸(Sigma,#A6283)，将细胞以1200rpm的速度离心5分钟。

弃上清，将沉淀重悬于5mL固定液中，-20℃温育30分钟。将细胞离心并以适当的体积/密度重新悬浮，以将中期扩散应用于载玻片。然后将载玻片储存在-20℃，直到应用探针。

端粒荧光原位杂交

将含有样品中期的载玻片放入含有40ml TBS溶液(Agilent Dako，K532711-8)的coplin罐中，并在室温下温育2分钟。将载玻片放入另一个装有40ml TBS溶液的coplin罐中，再温育2分钟。载玻片用70％、90％和100％的乙醇系列各处理2分钟。将载玻片从腔室中取出并晾干。

将5μl端粒探针(Agilent Dako,K532711-8)添加到载玻片中，并用18x18mm盖玻片覆盖并用固定胶(VWR,ICNA11FIXO0125)密封。将载玻片直立放入加湿腔室(ThermoBrite)中，并在37℃下温育2小时。从加湿腔室中取出载玻片并取出固定胶和盖玻片。将载玻片放入含有40ml冲洗溶液(Agilent Dako，K532711-8)的coplin罐中并温育2分钟。

载玻片在40ml洗涤溶液中，在65℃温育5分钟。载玻片用70％、90％和100％的乙醇系列分别处理2分钟。将载玻片干燥并预热(37℃)，施用20μl DAPI II复染剂(AbbottMolecular,06J50-001)。载玻片用22x50mm盖玻片覆盖并用固定胶密封。使用元***软件(V5.7.4)使用Axio Z2成像仪捕获图像。

在Thermo Brite Elite(Leica Biosystems)上进行端粒FISH

将含有样品中期的载玻片面朝下放入温育腔室。每个腔室加入30ml TBS溶液并在室温下在摇摆条件下温育2分钟(12/分钟)。将腔室排空，将TBS重新添加到腔室中，并在摇动条件下再温育2分钟。

载玻片分别用70％、90％和100％的乙醇系列处理2分钟。将载玻片从腔室中取出并晾干。将5μl端粒探针(Agilent Dako,K532711-8)添加到载玻片中，并用18x18mm盖玻片覆盖并用固定胶(VWR,ICNA11FIXO0125)密封。将载玻片直立放入腔室中，将腔室装满水，并在37℃下温育2小时。从腔室中取出载玻片，去除固定胶和盖玻片。

将载玻片面朝下放入腔室中，并用30ml冲洗溶液填充腔室并温育2分钟。将腔室排空并用每腔室30ml的洗涤溶液填充，并将载玻片在65℃下温育5分钟。将腔室排空并用70％、90％和100％的乙醇系列各处理载玻片2分钟。将载玻片干燥并预热(37℃)，施用20μlDAPI II复染剂(Abbott Molecular,06J50-001)。载玻片用22x50mm盖玻片覆盖并用橡胶水泥密封。使用元***软件(V5.7.4)使用Axio Z2成像仪捕获图像。

多色FISH(MFISH)

MFISH使用Metasystems 12XCHamster(D-1526-060-DI)探针组进行。简而言之，将有0.1X SSC(Invitrogen，#15557044)和2X SSC的coplin罐置于4℃，另外2X SSC在70℃预热。将载玻片放入70℃的2X SSC中30分钟，然后从水浴中取出，冷却20分钟。在此步骤中，在PCR机器中使用75℃，5分钟、10℃，30秒、37℃，30分钟的程序在PCR机器中制备每张载玻片5μl的12XCHamster探针。

然后将载玻片在室温(RT)下转移到0.1X SSC 1分钟，随后在室温下在0.07N NaOH(Sigma,#S2770)中变性1分钟。然后将载玻片依次放入0.1X SSC和2X SSC在4℃中各1分钟，并在70％、80％、90％和100％的乙醇(Sigma,#51976)系列中脱水各1分钟。风干后，将5μl变性和预杂交的探针置于中期扩散片上，盖上盖玻片并用橡胶水泥密封。载玻片在加湿腔室(ThermoBrite，Leica Biosystems)中于37℃温育1-2天。

温育后，取出橡胶水泥和盖玻片，将玻片放入预热(72℃)的0.4X SSC中2分钟。然后将载玻片置于室温下的2X SSCT(2XSSC，pH 7-7.5，含有0.05％Tween20)中1-2分钟。载玻片在双蒸水中短暂洗涤以避免晶体形成并风干。将20μl DAPI/antifade(D-0902-500-DA)应用于中期，并盖上盖玻片。使用Metasystems自动采集平台捕获图像。该软件经过编程可捕获6个独立的颜色通道(DAPI、水色、绿色、橙色、红色和金色)和图像分析，如群确定部分所述。

在Thermobrite Elite(Leica Biosystems)上进行的多色FISH(MFISH)

使用Metasystems 12XCHamster(D-1526-060-DI)探针组和Thermo Brite Elite进行MFISH。将含有样品中期的载玻片面朝下放入温育腔室。每个腔室添加30ml的2xSCC+0.05％Tween20溶液，并在37℃在摇动条件下(12/min)温育30分钟。在PCR机器中使用75℃，5分钟、10℃，30秒、37℃，30分钟的程序在PCR机器中制备每片5μl的12XCHamster探针。

将腔室排空并将半水添加到腔室中并在摇动条件下温育30秒。第二次重复半水洗涤。然后将30ml的0.07N NaOH添加到腔室中并在摇动条件下温育1分钟。将腔室排空，然后将冰冷的0.1xSCC添加到腔室中并温育1分钟。随后加入冰冷的2xSCC并温育1分钟。用半水洗涤载玻片30秒。然后载玻片进入由70％、95％和100％乙醇组成的乙醇系列。

从腔室中取出载玻片并使其干燥直至乙醇蒸发。然后将较早制备的探针应用于中期并用盖玻片和橡胶水泥覆盖。然后将载玻片在腔室中在37℃的30ml半水中直立过夜杂交。取下盖玻片并面朝下放入腔室中。将30ml的0.4xSSC添加到腔室中并在68℃下温育2分钟。将腔室排空，然后重新填充30ml的2xSSC和0.05％Tween20溶液并在25℃下温育2分钟。将腔室排空并然后将载玻片在含有70％、80％和100％乙醇的乙醇系列中进行处理。取出载玻片并让多余的乙醇蒸发。将20μl抗褪色DAPI(Metasystems D-0902-500-DA)添加到载玻片中，并在顶部放置盖玻片，用橡胶水泥密封。然后使用Axio Imager Z.2对载玻片进行成像。

图像分析

确定群

通过分析代表单个细胞的每个个体图像来阐明亚群。

通过目睹诱变事件(例如易位)定义了新的亚群。在此实例中，通过查看DAPI通道图像来确认易位，以确保染色体彼此连接，而不仅仅是靠近。此外，使用CellProfiler ^TM(https://cellprofiler.org/)提取的平均荧光强度确认了平均染色体颜色图谱(跨越所有非突变染色体的染色体百分比颜色)和突变染色体颜色图谱之间的颜色百分比变化。

必须通过见证包含相同畸变的3个中期扩散来确认染色体数量的缺失或增加。这是为了确保畸变不是中期扩散准备的伪影——如欧洲细胞遗传学协会指南(https:// www.eca.eu/en/GUIDELINES.html)中所述。

记录属于每个群的每个中期的频率以确定畸变是克隆的还是非克隆的。定义克隆染色体畸变(CCA)为占总群>5％的亚群，并认为其是染色体稳定的亚群，因为它已经确立了自己的主导群。定义非克隆染色体畸变(NCCA)为<＝总群的5％(Henry Heng et al,Molecular Cytogenetics,2016)。总群中NCCA数量的增加可能指示导致染色体不稳定的诱变背景增加。

使用Cell Profiler确认突变

以下工作流程在CellProfiler^TM上进行。涵盖DAPI、绿色、红色、金色、橙色和水色滤镜组的单通道图像以.tif格式从Metafer软件(Metasystems，V5.7.4)导出。图像是基于它们的扩散来选择的，因为非常接近或相互交叉的染色体在此工作流程中不能很好地分割。使用阈值模块和使用1.1校正因子阈值选择的Global-Otsu算法对6个单通道图像进行阈值处理。使用Gaussian过滤器在阈值化后对图像进行平滑处理。

通过使用Sobel算法模块增强了图像的边缘以改善对染色体的识别。识别主要对象用于使用模块自动阈值策略来识别图像中的染色体。然后使用有DAPI通道图像的编辑图像模块手动编辑生成的图像蒙版，以允许对原始图像进行忠实的蒙版。每个染色体被任意分配一个数字，并且该染色体标识符在所有分析的群中保持一致。即使发生了诱变事件，染色体数目也将保持一致。使用测量对象强度模块提取每个染色体和单通道的荧光强度值。荧光强度转换为百分比，所有通道的总和等于100％。然后使用通过该方法提取的荧光强度颜色组合确认已视觉识别的染色体内的突变。

使用CellProfiler^TM进行端粒长度量化

CellProfiler^TM上进行了以下工作流程。使用阈值模块对单通道图像进行阈值处理，使用1.1阈值校正值选择全局Otsu算法。识别主要对象用于使用模块内的自动化策略识别图像中的染色体。使用编辑蒙版模块手动编辑图像蒙版，以确保忠实地掩蔽图像。然后使用全局Otsu算法在染色体内识别端粒信号并识别次要对象。使用相关图像模块将两个阈值图像关联起来，以确保仅在染色体区域内计算端粒的荧光强度。通过测量对象强度模块提取所述染色体内的染色体数目和端粒的荧光强度值。

染色体数目计数

利用软件的细胞计数器模块，使用Fiji(图像J，1.51版)进行染色体数计数。将每个时间点的50张图像加载到Fiji并初始化细胞计数器。含有适当扩散的中期染色体的图像用于确保所有染色体均衍生自单细胞来源。计数后，保存分析的图像以包括计数器标志物。

数据分析和图形生成

除非另有说明，此处显示的所有图表均用JMP软件(14版)生成。平均匹配成本分布v％CCA的方差散点图(图5c)是使用Tibco Spotfire生成的。

统计分析

所有统计分析均使用JMP或InVivoStat软件(3.7版)进行。

实施例2：宿主细胞系的基线表征(端粒和突变基线图谱)

为了阐明潜在的路径，基于端粒促进的遗传不稳定性可能驱动CHO治疗性蛋白产生不稳定性表型，对宿主细胞系进行了表征。CHOK1宿主变体通过其端粒图谱进行评估，并与癌样细胞系HEK293T进行比较。这些结果的基线用于比较宿主细胞系(没有感兴趣的基因)与表达细胞系的治疗性蛋白的端粒图谱，以评估在产生治疗性蛋白的细胞系的细胞系开发过程中可能发生的任何变化。由于CHOK1a-GS-KO宿主用于后续分析生产稳定与不稳定的细胞系，因此进一步分析了CHOK1a-GS-KO宿主的基线染色体突变和端粒保护图谱。

跨越6个月的稳定性评估中，CHOK1a、CHOK1a-GS-KO和HEK293T细胞系的端粒FISH图谱

对端粒序列图谱进行定性评估并与HEK293T细胞系进行比较。HEK293代表哺乳动物细胞系中预期的正常端粒信号图谱，因此在分析CHO宿主系时用作参考点。跨越6个月的培养期内，端粒图谱的变化可能代表基因组不稳定性。

CHOK1a、CHOK1a-GS-KO、DG44和HEK293T细胞系在培养基中解冻和恢复。一旦细胞达到>98％的存活率，就在第6代时从每个细胞系中收获染色体。以10代增量进行染色体收获以模拟六个月的细胞培养，如治疗性蛋白生产稳定性评估中所进行的。使用常用的CHOK1宿主进行了这种模拟稳定性评估，以阐明在跨越培养期间端粒图谱是否存在显著变化。

与HEK293T相比，所有CHOK1宿主变体在间质上具有最多的端粒序列，每个CHOK1宿主之间有不同程度的不同模式。CHOK1在一条染色体上有一大块TTAGGGn重复序列，与CHOK1-GS-KO相比，其具有的端粒模式指示BFB循环可能已经发生，导致非相互易位或扩增。值得注意的是，在阈值化后，染色体的最末端没有可见的端粒信号，而间质端粒重复存在于大块重复中。染色体最末端缺乏端粒序列可能导致端粒特异性DNA损伤反应通路激活增加，从而促进CHO染色体不稳定性。基于治疗产生蛋白的进一步分析衍生自CHOK1-GS-KO。进一步表征细胞系以建立与产生治疗性蛋白的细胞系的基线比较。

跨越6个月稳定期内CHOK1a-GS-KO宿主细胞系的染色体数目分布和端粒FISH定量

跨越6个月的稳定期内对染色体数目分布和端粒序列荧光信号进行量化，以生成CHOK1a-GS-KO宿主细胞系的基线特征，用作与产生CHOK1a-GS-KO治疗性蛋白的细胞系的比较。宿主细胞系应该是端粒稳定的，以促进制造过程中的基因组稳定性。染色体数量和端粒长度的波动可能表明在6个月的稳定期内宿主内的遗传不稳定性增加。

从细胞库解冻后，对CHOK1a-GS-KO宿主细胞系进行传代，直到存活率达到>98％，然后收获并计数染色体。在早期时间点，中位染色体数为19，这反映了之前的报道(Vcelaret al.,2018a；Vcelar et al.,2018b)。模态染色体范围在18-21条染色体之间，总染色体数范围为15到37。模态染色体范围的异常频率出现在7个细胞中，大部分数据分布在模型范围之间(43)。相反，在晚期时间点，中位染色体数增加到20(2样品T检验，P＝0.0384)，指示在跨越6个月的培养期间增加了一条染色体。

模态染色体范围保持不变，但总体染色体数量范围(7-39条染色体)和异常值频率(12)有所增加。这可能表明在跨越6个月的稳定期内染色体不稳定性增加，因为获得异常数量染色体的细胞增加。如果这可归因于染色体不稳定性，则该数据表明它是宿主细胞系的先天性。

使用CellProfiler^TM创建了半自动端粒量化工作流程来分析端粒荧光强度。端粒探针由带有缀合的Cy3荧光团的PNA-TTAGGG(n)重复组成。荧光强度与端粒信号成正比，荧光强度的变化与染色体内存在的端粒序列变化有关。测量驻留在DAPI图像上生成的染色体掩码内的端粒信号，提供染色体特异性端粒长度的量化。

每个时间点分析了50张图像，并在时间点之间比较了端粒荧光强度与DAPI强度的比(端粒比例％)。相关信号可用于评估跨越稳定期内端粒长度是否发生变化。在早期时间点获得的平均端粒比例为2.9％。6个月的连续培养后，平均端粒比例增加到8.9％(T检验，P＝<0.0001)。量化的端粒信号仅作为间质端粒重复存在于染色体内，这表明这些序列的扩增保留在染色体本身(ITS扩增)而不是在末端。通过检查染色体最末端的端粒信号的晚期图像，这在视觉上得到了证实。

结果

这里提供的数据表明CHOK1a-GS-KO宿主内部存在固有的遗传不稳定性。在跨越6个月培养期间中位染色体数目的增加证实了这一点(2样品T检验，P＝0.0384)，这表明向获得额外染色体的显性染色体群转变。此外，端粒序列增加(P＝<0.0001)，表明间质端粒重复发生了扩增。正如先前的研究(Gisselsson et al.,2000；Lo et al.,2002；Thomas etal.,2018)所强调的，这些性状指示染色体水平的遗传不稳定性。

使用多色荧光原位杂交(MFISH)评估CHOK1a-GS-KO宿主跨越6个月稳定期内的核型变化

评估了CHOK1a-GS-KO核型的同质性和核型随时间的波动。用于治疗性蛋白生产的宿主细胞系应保持单细胞克隆的遗传同质性，并在常规培养过程中保持遗传稳定性。在宿主水平发现的异质性可以传递到衍生的生产细胞系。

在早期(约20代)和晚期(约150代)时间点的CHOK1a-GS-KO细胞系上进行多色荧光原位杂交(MFISH)。MFISH“绘制”染色体以允许染色体成分的可视化。针对原代细胞系(Metasystems)生成了中国仓鼠基因组特异性的探针，并为每个个体的染色体提供了颜色代码(例如染色体1＝红色，2＝棕色等)。因此，它提供了评估宿主细胞培养物中染色体突变的方法，并允许在内部、细胞系和时间点之间进行比较。可以在单细胞水平上追踪突变，并且特定的染色体突变可以归因于表型特征。使用先前描述的方法手动确定细胞培养群。

核型不同的细胞获得独特的亚群ID，并且匹配的核型在相同的亚群标识符下分组在一起。分析了40个随机选择的图像，并评估了每个亚群的频率。基于这个频率，克隆染色体畸变(CCA,>5％)或非克隆染色体畸变(NCCA,<＝5％)被分配到每个亚群，这反映了群的遗传稳定性。

在早期的时间点，识别了18个不同的亚群，亚群1和2分别代表45％和13％的大部分培养物。亚群1和2被指定为CCA群，而15个亚群的频率<＝5％并被归类为NCCA群。在连续培养6个月后分析核型亚群揭示了16个不同的亚群，表明在培养过程中丢失了2个亚群，尽管这可能是分析图像数量的伪影。与13个NCCA相比，3/16的亚群被指定为CCA亚群。原始的18个亚群中有6个在整个6个月的过程中保持不变，其中出现了10个新生亚群。尽管NCCA亚群6、8、13和14在培养期间保持不变，但它们的NCCA称号没有改变，这表明它们的获得性突变没有提供培养优势。

在10个新生亚群中，亚群4在宿主培养中占主导。新生亚群4获得了增殖优势，成为培养物中的第二大亚群，从早期时间点超过了保留的亚群2。亚群2的频率从13％下降到8％，而亚群4获得了15％的频率。早期和晚期时间点之间的核型比较表明，早期亚群2可能是新生亚群4的先决条件，因为它们的核型除了明显的6号染色体重复外是相同的。

6号染色体的复制可能为细胞提供了增殖优势，使其能够在烧瓶中建立自己的主导群。

量化了导致产生新的不同亚群的染色体突变。2、4、5、7、10、11、14、15、18、19号染色体在6个月的培养期内没有获得任何产生新群的易位，这表明大多数CHOK1a-GS-KO宿主染色体具有保持基因组稳定性。与任何其他染色体相比，8号染色体是最常发生突变的，跨越两个时间点占11个不同的群，这表明该染色体内部存在固有的不稳定性，这导致了CHOK1a-GS-KO宿主细胞系的自然异质性。在连续培养6个月后，6号和13号染色体(除了8号染色体)出现明显的突变增加，这导致了7个新的不同群(包括8号染色体，总共13个群)。

6、8和13号染色体的固有弱点可能提供了机制，通过该机制可以引发突变以获得竞争优势。6号染色体的复制证实了这一点，这使得新生4亚群4能够在培养期结束时将自己确立为第二个最突出的群(图6a、b、c、d、e)。

染色体突变被分类为突变类型并按染色体着色，以评估在宿主内产生异质性的主导突变模式。早期时间点的1、8、9、12和16号染色体和晚期时间点的3、6、8和13号染色体易位促成了19个新的不同群。缺失(8号和13号染色体)和染色体断裂(3号和6号染色体)仅在后期时间点发生，这表明这些突变可能表明长期培养压力。

在分析每个时间点内群的总体CCA和NCCA频率时，CCA与NCCA的比率保持相似。从早期到晚期的时间点，CCA频率从57.5％增加到67.5％，这表明通过产生有助于CCA增加的新生亚群4向遗传稳定性的小转变。相反，NCCA从42.5％下降到32.5％，原因是亚群4的增加和两个NCCA亚群从早期时间点开始的损失。

总体而言，此处提供的数据突出显示了在早期和晚期时间点的常规培养过程中获得突变的单细胞克隆宿主。宿主的长期培养似乎加剧了这个问题，保持了基因组异质性，如培养的早期阶段所示。8号染色体似乎在核型异质性的产生和维持中发挥作用，易位是产生新生群的主导突变类型。将治疗性蛋白转染到异源宿主中会产生情况，即在单细胞分选后，克隆产物在遗传上将是不同的，因为质粒可能会进入任何一个不同的亚群。以这种方式，宿主细胞的背景基因组异质性创造了一个环境，在该环境中，从同一宿主中分选出来的单细胞的克隆可能具有不同的CHO'mic图谱，这可能会影响制造条件下的表型。

实施例3：生产稳定和不稳定细胞系的表征和比较，以识别识别生产不稳定表型因果关系的差异模式

跨越早期和晚期时间点，稳定和不稳定的治疗性蛋白生产细胞系之间的染色体数目分布和相对端粒长度变化。

CHOK1a-GS-KO宿主内的染色体数目分布在早期和晚期时间点分别获得了19和20的中位染色体数目。在这两个时间点，都观察到了大范围的染色体数目。这在生产CHOK1a-GS-KO的细胞系中进行了研究，以评估生产稳定组和不稳定组之间染色体数的任何波动。此外，端粒长度显示随着时间的推移而增加，因此在稳定和不稳定的生产细胞系中，跨越早期和晚期时间点对ITS长度进行量化，以评估不同组之间是否存在任何ITS长度变化。

结果

继CHOK1a-GS-KO宿主表征之后，18个产生三种治疗性蛋白(蛋白质2、3和5)的细胞系对其染色体分布和端粒长度进行了表征。根据之前使用Ambr 15s(用于评估生产稳定性的行业标准微型生物反应器)阐明的生产稳定性来选择细胞系。稳定性在此定义为能够在+/-30％最大滴度损失阈值内产生相同水平的滴度，在跨越6个月的生产窗口。

为了了解是否存在可能指示生产稳定或不稳定细胞系的基本染色体数目差异，对染色体数目进行了量化。18个细胞系中有14个保留了19或20的中位染色体数，这反映了CHOK1a-GS-KO宿主细胞系。18个细胞系中有4具有中位数染色体数在35到38条染色体之间，这表明单细胞分选克隆衍生于宿主细胞系中的转染细胞，该细胞获得了“非整倍体”染色体数(表1)。“非整倍体”细胞系的染色体数目扩散最大，90％置信区间(CI)范围分布在17到41条染色体之间，指示这些细胞系与“单倍体”细胞系相比具有很大程度上异质的核型。

有趣的是，被认为是“二倍体”的4个细胞系中有3个在生产上是稳定的，这表明增加的遗传物质提供了机制，使细胞系能够在整个稳定性评估期间更好地应对生产压力。与宿主细胞系相比，染色体数目分布的模态和90％CI范围都相似，这表明选择剂的使用对染色体数目没有显著影响。

使用双向ANOVA方法比较不同治疗性蛋白中细胞系的中位数，以评估稳定组和不稳定组之间的任何显著差异。比较治疗蛋白和稳定性作为因素，没有显著差异(P＝0.108)。使用计划比较方法(表2)进行成对比较，其中成对比较首先未经调整，然后对选择的比较对应用事后检验。Hochberg的程序用于比较跨越稳定组和不稳定组中每种治疗性蛋白的染色体数分布，没有成对比较具有统计学意义。这指示染色体数目分布在稳定性和时间点组之间没有波动，表明选择压力方法和生产细胞系的不同培养基组分在数值水平上赋予了染色体稳定性。

表1

表1.生产稳定和不稳定细胞系的染色体中位数。列出了染色体数的模态范围和90％置信区间染色体数。模态范围显示分析图像的染色体数的全范围。90％CI范围显示适用于90％分析图像的染色体数范围。

表2

比较	未调整的p值	调整后的p值
			“2”和“稳定”vs.“2”和“不稳定”	0.0734	0.2937
“5”和“稳定”vs.“5”和“不稳定”	0.2357	0.4215
			“3”和稳定vs.”3”和不稳定	0.3603	0.4215
“2”和“稳定”vs.“5”和不稳定	0.4215	0.4215

表2.使用以治疗性蛋白和稳定性作为因素的双向ANOVA方法分析数据。未调整的p值代表所有成对比较，无需调整多重性(LSD检验)。使用Hochberg检验对稳定组和不稳定组内的治疗性蛋白细胞系进行计划比较形成调整后的p值。所有成对比较均不显著。

为了表征生产稳定和不稳定细胞系的端粒长度变化，对CHOK1a-GS-KO宿主端粒分析进行端粒量化。为了识别端粒长度是否在生产稳定性中起作用，使用TTAGGGn荧光探针对相同的18个细胞系进行染色。跨越早期和晚期时间点，除时间外，计算每个细胞系的200张图像的端粒长度，以评估端粒长度是否在稳定和不稳定细胞系之间波动。将最小二乘均值(LSM)模型应用于考虑众多数据变量的端粒长度数据集。与算术平均值相比，LSM是基于线性模型的平均值，该模型针对协变量(例如时间点、染色体数、蛋白质等)进行了调整，从而提供了对真实总体平均值的更好估计。

考虑稳定性，早期和晚期时间点，跨越模态染色体数绘制LSM计算端粒长度(数据未显示)。在比较稳定和不稳定的细胞系时，蛋白质2在端粒比例平均值上获得了更大的差异，但是，95％的置信度限制条指示平均值之间的差异在整个数据集中严重重叠。在稳定和不稳定端粒比例LSM之间观察到的蛋白质2差异与蛋白质3和5不相同，指示稳定细胞系的端粒比例增加可能只是蛋白质特异性差异。

总体而言，在这组细胞系中，端粒长度变化的模式似乎并不一致。蛋白质2端粒长度比例从早期到晚期时间点减少，而蛋白质3和5具有图谱(端粒长度增加和减少)，取决于染色体数类别。LSM图中识别的跨越早期和晚期时间点的变化图谱反映在将汇总数据与早期和晚期类别进行比较的重要性(汇总T检验，P＝0.58，数据未显示)，这证实了没有长期培养期间端粒长度比例的差异。

为了评跨越估稳定和不稳定细胞系的端粒长度是否存在总体差异，将数据汇总为稳定和不稳定类别(数据未显示)。显示不稳定细胞系的平均端粒长度从稳定细胞系类别中的2％增加0.3％。发现这种差异非常显著(P＝<0.0001)，但是，为每组分析的大量图像可能有助于提高统计检验的敏感性。此外，0.3％的增加可能不足以引起生理反应。

表征稳定和不稳定的细胞系核型以了解生产不稳定表型的基因组突变情况

用于治疗性蛋白生产的CHOK1a-GS-KO宿主具有在6个月的培养期内保持的异质核型。在这里，用MFISH跨越早期和晚期时间点表征生产稳定和不稳定的细胞系，以识别不同组间基因组不稳定性谱中的任何差异或共性。

结果

如前所述，从一组稳定和不稳定的细胞系中收集中期染色体并使用MFISH“绘制”。使用群确定方法在早期和晚期时间点评估每个细胞系的染色体群。

表达不同治疗性蛋白(P2、P3、P5)的6个稳定和8个不稳定细胞系是基于它们在自动化微型生物反应器(Ambr 15)中评估的预定生产稳定性来选择的。将细胞系解冻，然后传代3次以允许恢复(>98％存活率)。

选择染色体中位数为19到20的细胞系进行后续分析，排除被认为染色体数是“非整倍体”的细胞系在分析之外，因为这些细胞系不代表此处(表1)和其他地方识别的一般细胞系群。

图1A显示了每个细胞系的群饼图，分为稳定性和时间点类别。在比较稳定与不稳定以及早期到晚期时，CCA(斑点)和NCCA(空白)饼段突出显示了NCCA群的增加。计算每个稳定性组的总体CCA和NCCA频率，每组之间的差异具有统计学意义(双向ANOVA，P＝0.01)。总平均值计算为78％，指示生产稳定性指定的潜在阈值(图1B)。图1C显示早期和晚期时间点之间的CCA和NCCA群频率差异具有统计学意义(双向ANOVA，P＝<0.0001)，指示NCCA群在细胞培养的长时间内增加，导致更多的异质性。三角形代表群平均值和95％置信区间，蓝线指示标准差。D)按染色体分类的突变；细胞系由不同的图案段表示。6号和8号染色体保留了最多的突变，其中6号染色体在14个细胞系中的11个中发生了突变。E)与图1D类似的条形图，但按稳定性分选。除2、17、18和19号外的所有染色体在稳定和不稳定的细胞系中都获得了突变。没有观察到特定的染色体突变模式。

跨越稳定和不稳定的细胞系，都获得了多个核型不同的群，只是CCA和NCCA群频率的比例不同(图1a)。这指定在转染宿主和单细胞分选事件后维持了总染色体突变的倾向。比较稳定组和不稳定组的群组分指示，不稳定组中的NCCA群比例较高。计算稳定和不稳定类别的总体CCA和NCCA百分比频率指示，CCA群的较高百分比频率与生产稳定的细胞系相关(图1b)。相反，在细胞系组的不稳定臂中保留了更高百分比的NCCA群频率(图1b和表3和4，双向ANOVA，P＝0.0003)。稳定和不稳定细胞系的％CCA和％NCCA的不同分组指示该基因组指标可用作生产稳定性预测因子。

培养6个月后，重新分析细胞系，并使用相同的方法重新确定其群。把蛋白质3，细胞系7(图1a，P3.C7)的晚期群数据排除在图1c的分析之外。这是由于细胞系在6个月的培养过程中变成了“非整倍体”，因此无法与数据集的其余部分进行比较(数据未显示)。除了蛋白质5、细胞系16(P5.C16)外，NCCA群的分布无论稳定性如何都急剧增加(图1a)。总体CCA和NCCA百分比频率的比较显示在整个细胞培养期间CCA的降低和NCCA频率的增加(图1c和表3，双向ANOVA，P＝<0.0001)。无论它们的生产稳定性如何，NCCA群的增加指示细胞系随着时间的推移变得更加异质(表4，P＝0.4434)。异源培养可能获得产生不同量治疗性蛋白的细胞，这可能导致稳定性评估中的总体滴度波动，从而导致在CHO细胞系中观察到的生产不稳定。在细胞系开发环境中，该数据表明，在早期时间点被识别为具有显著遗传不稳定性水平的细胞系将随着时间的推移变得越来越异质和遗传不稳定，对其均质表达其治疗性蛋白的能力产生重大影响，从而影响表达稳定性。

为了了解跨细胞系是否存在可能能够识别稳定性组的常见染色体突变，从早期时间点确认的突变通过染色体编号编译并通过细胞系和稳定性着色(分别为图1d和1e)。所有分析的染色体在一个或多个细胞系中都获得了突变，这指示所有染色体都易于缺失、扩增、重排和/或易位，而没有识别出明显的模式。通过稳定性区分突变指示，6号和8号染色体总体上具有最高的突变率，并且大多数突变属于不稳定的细胞系。14个细胞系中有11个在6号染色体上获得突变，11个细胞系中的3个在生产上稳定，8个在生产上不稳定。3个稳定细胞系中有2个表达相同的治疗性蛋白，这可以识别治疗性蛋白特异性差异，这与6号染色体在所分析的总细胞系的57％中赋予生产稳定性的潜在能力有关。认为在8号染色体中获得突变的8个细胞系中有5个在生产上不稳定，这指示该染色体中的突变可能占分析的不稳定细胞系的36％。总之，这些结果指示生产和基因组不稳定性之间存在潜在的因果关系，并突出了这种方法在早期时间点确定生产稳定性的预测能力。

表3

表3.稳定性和时间点之间CCA％比较的ANOVA表。在稳定性(P＝<0.01)和时间点(P＝<0.0001)方面获得了CCA％的统计学显著差异。

表4

	比较	未调整的p值	调整后的p值
				1	后期稳定vs.早期稳定	7.58516402437071e-05	0.0003
2	早期不稳定vs.早期稳定	0.0021817011643801	0.0065
				3	后期不稳定vs.早期不稳定	0.00667007241142281	0.0133
4	后期不稳定vs.后期稳定	0.443449756696863	0.4434

表4.Hochberg的成对比较调整了稳定性和时间点的P值。在比较早期和晚期时间点的稳定和不稳定细胞系之间的％CCA时，观察到显著差异。在晚期稳定和不稳定细胞系的％CCA之间没有观察到显著差异。

到目前为止，已经确定了稳定和不稳定细胞系组之间％CCA和％NCCA频率的明显分离(图1b)。由于在早期时间点(约20代)分析细胞系，因此研究了％CCAvs％NCCA频率可用作基因组稳定性指标的可能性，预测早期时间点的生产稳定性。这可能有利于细胞系开发时间线，因为与完成整个稳定性评估(70-150+/-10代)相比，它可以提供在更早的时间点(20代)对细胞系进行分类的方法。

选择22种表达蛋白4的细胞系来代表任何给定的新活项目的生产稳定和不稳定细胞系的正态分布，并且在分析CCA和NCCA群之前，它们的生产稳定性保持盲态。基于％CCA排名预测细胞系生产稳定性的能力提供了该方法的预测能力，因为它模拟了其在细胞系开发(CLD)的关键路径中用于分类具有未知生产稳定性的细胞系的用途。在揭盲数据之前测试了三种分离的预测方法(图2)。

基于％CCA排名的前6和底部6(图2a)预测有潜力快速识别生产稳定(用于细胞系进展)和生产不稳定(用于分类)细胞系。总体而言，表达蛋白4的细胞系的正确预测率为82.5％，但与生产稳定的细胞系(67.5％正确)相比，这偏向于正确识别生产不稳定的细胞系(100％正确)。

第二种基于％CCA阈值的预测方法，由我们之前的一组细胞系(78％阈值，图1b)定义，在预测成功方面显示出类似的趋势(图2b)。任何等于或高于78％的CCA都被认为是生产稳定的，低于78％的CCA被认为是不稳定的。蛋白质4细胞系获得了约80％的整体正确预测，这在稳定和不稳定的正确预测(分别为75％和82.5％)之间更加均衡。这种预测方法的一个潜在好处是，随着生成更多数据，可以更好地细化％CCA的阈值，从而提供潜在的增加预测率。

四分位数预测(图1c)可用于轻松识别前25％的稳定细胞系和底部50％的生产不稳定细胞系。通过释放有限的微型生物反应器空间，对底部50％的细胞进行严格分类可以显著提高细胞系开发能力。蛋白质4总体上获得了70％的正确预测，这在很大程度上是在底部50％中获得的(中低＝80％正确，底部25％＝100％正确)，同时对前25％的稳定细胞获得67.5％的正确预测率线。

总体而言，使用所有三种预测方法的预测都是成功的。

此处提供的数据指示，当群按CCA和NCCA命名分组时，生产稳定和不稳定细胞系的异质性之间存在显著差异。有趣的是，所有细胞系都获得了异质核型，这种核型在延长的培养期内会加剧，这反映了在约100代后观察到的细胞系滴度急剧下降(数据未显示)。NCCA群的增加导致遗传异质性增加，这似乎会影响细胞系维持其治疗性蛋白生产的能力。相反，获得但允许细胞在培养瓶中建立自身的新生突变(>＝5％频率)似乎与生产稳定性相关，因为具有主导是CCA的异源群的细胞系总体上是生产稳定的(图1a、b和表3)。这里提供的数据代表了第一项研究在行业相关的细胞系组(四种不同治疗性蛋白的40个细胞系)中细胞系生产稳定性的潜在机制的新发现。跨越多个治疗性蛋白表达细胞系的有希望的生产稳定性预测结果提供了证据，证明该预测方法可能足够稳健，可以在工业环境中使用。

实施例4：遗传稳定性对生产稳定性的影响

迄今为止，已在常规维持培养期间评估了生产稳定和不稳定细胞系的核型异质性(实施例3)。为了了解基于CHOK1a-GS-KO的细胞系异质性如何在生产环境中波动，该环境经过优化以促进治疗性蛋白的产量增加，实验旨在评估正常生产运行条件下和存在DNA损伤剂时的基因组不稳定性。

设计了实验来评估生产环境中的整体DNA损伤效应，使用新抑癌蛋白作为DNA损伤剂。6种生产稳定和6种生产不稳定的细胞系选自先前在细胞系的初始生产稳定与不稳定和盲法验证组中分析的细胞系(实施例3)。细胞系生产培养物一式两份建立，其含有两组未处理的细胞系，仅在第0天用1ng/ml的Neocarzinostatin处理，使用24深孔生产运行方法。在生产运行的第8天收获染色体以评估核型群异质性。选择第8天作为潜在的时间点，它允许生产环境的压力引发任何潜在的影响，同时保持足够高的％VCC(活细胞计数)以允许进行适当的采样以进行分析(数据未显示)。

如前所述，使用MFISH评估核型异质性。核型群基于其发生频率被指定为CCA(>5％)或NCCA(＝<5％)。第0天代表细胞系在通过生产运行协议之前获得的基线核型异质性，该协议旨在推动细胞产生尽可能多的治疗性蛋白。正如在之前的稳定和不稳定细胞系组中所观察到的，生产稳定的细胞系获得的CCA群的比例比其生产不稳定的对应部分高约29％(图3a、b和c，表5和6，P＝0.004)。

在生产运行环境中8天后，稳定细胞系中的％CCA下降了32％，不稳定细胞系中下降了约17％(图3b和c，表5和6，分别为P＝<0.0001***和P＝0.07n.s)。这表明生产运行的环境压力对遗传稳定性有影响，因为与第0天压力较小的维护环境相比，NCCA群(～32％和～17％)有所增加。添加DNA损伤剂加剧了与第8天相比，稳定细胞系的NCCA群增加约26％，不稳定细胞系的NCCA群增加23％(图3b和c，表5和6，分别为P＝0.006和P＝0.014)。

在添加DNA损伤剂后，NCCA群的增加提供了证据，证明细胞内DNA损伤的增加导致了基因组的不稳定性(NCCA群的增加)。

表5

	样品	稳定性	平均值	后95％CI	前95％CI
						1	第0天	稳定	0.866	0.760	0.971
2	第8天	稳定	0.544	0.438	0.649
						3	第8天gH2AX	稳定	0.282	0.176	0.388
4	第0天	不稳定	0.588	0.482	0.694
						5	第8天	不稳定	0.415	0.309	0.521
6	第8天gH2AX	不稳定	0.184	0.078	0.290

表6

	比较	未调整的p值	调整后的p值
				1	第8天gH2AX稳定vs.第0天稳定	6.72617428421063e-09	<0.0001
2	第8天gH2AX不稳定vs.第0天不稳定	5.33622199627715e-06	<0.0001
				3	第8天稳定vs.第0天稳定	0.000125955500982267	0.0009
4	第0天不稳定vs.第0天稳定	0.000675965734175499	0.0041
				5	第8天稳定vs.第8天gH2AX稳定	0.00121681933485585	0.0061
6	第8天不稳定vs.第8天gH2AX不稳定	0.00362759781038302	0.0145
				7	第8天不稳定vs.第0天不稳定	0.0246282525808061	0.0739
8	第8天不稳定vs.第8天稳定	0.089086173693866	0.1782
				9	第8天gH2AX不稳定vs.第8天gH2AX稳定	0.190188840671827	0.1902

实施例5：数据分析工作流程

细胞表征和分析应具有工业可扩展性，并快速生成数据以提供更深入的宿主细胞表征，而不会影响细胞系开发过程中的项目时间线。首先，遗传筛选的图像分析和液体处理被识别为这些类型分析的主要瓶颈。概述了概念化和实施以允许图像分析工业化的解决方案。

图像分析通常使用允许表征荧光图像的软件进行，但通常以手动和主观方式(例如ImageJ)进行。为了去除分析中的这种主观性并缩短分析时间线，在CellProfiler ^TM上创建了图像分析工作流程(http://cellprofiler.org/)使用他们内置的图像分析模块来确认观察到的突变。本文描述了所述工作流程以及如何将它们应用于CLD关键路径。

基于荧光的图像分析代表了细胞表征的重要工具。它提供了可视化细胞内任何蛋白质或DNA序列(当有适当的抗体和探针可用时)的能力，有助于在研究所需表型时更好地描述潜在的细胞生物学。然而，图像分析历来是手动分析的，从而使分析容易出现无意的偏见和主观性，这可能会影响结果的输出。

结果

在上述实施例中，手动分析CHOK1a-GS-KO宿主、生产稳定和不稳定细胞系的MFISH核型。为了去除突变识别中潜在的主观性和偏见，CellProfiler^TM创建工作流程以从每个个体的染色体的5个分离的颜色通道中提取荧光强度。从Metafer软件(Metasystems,V5.7.4)中提取单通道图像，并进行一系列阈值校正以去除背景荧光。

使用DAPI通道通过识别主要对象模块识别染色体掩码。手动编辑自动蒙版以去除图像中的任何伪影(例如细胞或碎片)。此外，可以将非常接近的染色体拆分为个体的掩码，以忠实地复制原始图像。半自动染色体分割允许提取掩码中含有的每个颜色通道中像素的荧光强度值。

将单染色体掩码内每个通道的荧光像素强度表示为彼此的百分比，提供了染色体颜色图谱(数据未显示)，用于确认视觉识别的染色体突变。这使分析人员能够获得所讨论突变的颜色图谱，从而进一步证明分析人员观察到的突变反映在荧光像素强度水平上。使用内置于专有Metasystems软件中的颜色编码***“绘制”染色体。

虽然半自动CellProfiler^TM工作流程提供了客观的方法来分析在MFISH核型分析期间观察到的染色体突变，但由于手动编辑每个个体的图像和荧光强度数据的后分析处理，工作流程仍然很费力。随着当前对人工智能和机器学习(AI/ML)兴趣的增加，使用基于AI/ML的方法以完全自动化从MFISH图像到稳定性预测的端到端过程，去除主观性，增强再现性并减少总体分析时间线。实施例6中描述了端到端自动化数据分析管线。

图4描述了自动突变检测的实例。分配10和19号的染色体在图像1中显示为分开的(a1和b1，圈出)。在图2中，这些染色体发生了易位事件，可以使用DAPI通道和伪彩色图像(a2和b2，圈出)确认。在进行成对线性分配时(C1＝图像1和C2＝图像2)，找不到与10号染色体匹配的(因为它在图像2中不存在)，并且19号染色体已与突变的染色体匹配，但是有82.48的大匹配成本。为了将此值置于上下文中，具有遗传相似性的两条染色体(6号)的匹配成本为0.88。因此，可以应用匹配成本阈值来快速识别大型图像集中的突变(例如>50匹配成本＝突变)。

为了验证端到端自动化数据分析流程(称为APW)，通过APW算法分析手动MFISH分析中使用的图像，并将数据与手动方法进行比较。与手动方法相比，CCA和NCCA群的APW识别在很大程度上是一致的(图5a)。正如手动分析所观察到的，与稳定的对应物相比，不稳定的细胞系获得了更大比例的NCCA群。如手动分析中所观察到的，比较CCA和NCCA频率显示稳定组和不稳定组之间存在显著差异(图5b，汇总T检验，P＝<0.05)。在比较CCA％和平均匹配成本的方差后，观察到基于其匹配成本方差的稳定和不稳定细胞系之间存在明显分离，指示平均匹配成本分布的方差可以用作类似于CCA和NCCA指定的人群的另一个基因组不稳定性度量(图5c)。

对48个细胞系进行手动MFISH核型分析，每个细胞系40个图像，最终总分析时间(减去样品制备)为159小时。与可在1.3小时内完成相同分析的APW相比，为研究人员节省了约157小时的时间。

由于手动分析非常费力，每个样品分析了40张图像。APW分析时间节省提供了将每个细胞系分析的图像从40增加到200-400个图像的方法，从而对细胞培养瓶进行更深入的表征。APW提供升级的(每个细胞系200个图像，48个细胞系)分析时间节省32.9天，提供可以集成到CLD关键路径中的工业化算法，而不会影响项目时间线。

在整合到CLD的关键路径后，使用APW作为早期细胞系分类方法。标准的稳定性评估需要48个细胞系，其属于单治疗性蛋白，在识别细胞系生产稳定性之前培养4到6个月。通过对一组盲态的细胞系进行稳定性预测，观察到预测工作流程对于不稳定的细胞系获得了更大的正确预测结果。使用这种方法对不稳定细胞系进行分类将在一个月后提供稳定细胞系的富集，从而将接受全面稳定性评估的细胞系数量减少到每个治疗蛋白12个细胞系。因此，可以在7个月的时间段内，单稳定性运行中评估四种治疗性蛋白的稳定性。在目前的一般顺序格式(1个治疗性蛋白，48个细胞系，每个蛋白质4-6个月)中，评估四种治疗性蛋白细胞系的稳定性需要16个月。因此，实施APW可以使CLD容量增加4倍，并节省CMC时间线。

实施例6：端到端自动化数据分析管线(简称APW)

端到端自动化数据分析管线旨在简化MFISH生产稳定性预测时间线并提供行业可扩展的数据分析工具

使用MFISH评估基因组不稳定性的基本原理是获得克隆细胞系生产不稳定性的早期预测因子，并在更早的时间点筛选出不需要的克隆细胞系，以缩短周期时间并释放额外资源。为了实现MFISH的价值，需要自动化的图像分析管线来避免图像视觉检查和手动数据处理所需的时间和资源。与手动相比，自动图像分析管线的额外好处是客观性和可重复性。

结果

为了能够在生产环境中使用MFISH，设计了端到端的自动化图像分析管线，以从一组MFISH图像中预测细胞系生产稳定性/不稳定性。

每个MFISH图像是一个6通道TIFF，其中通道1是用于分割的DAPI通道，其余5个通道(2,…,6)用于从12种颜色的调色板中确定像素伪色。

分析管线由五个阶段组成，可以针对给定细胞系的一组MFISH图像进行描述，如下所示：

1.分割染色体：对于每个图像中的每个像素，如果该像素属于染色体，则将其分类为1，否则为0。

2.描述染色体：对于每个图像中的每个染色体像素，分配一个从1到12的伪彩色标记，并通过一个12扇区的饼图来描述每个图像中的每个染色体，其第i个扇区对应于伪色i和扇区i的大小是颜色i的染色体像素的比例。

3.匹配染色体：对于每对图像，确定第一个图像的染色体和第二个图像的染色体之间的一一对应关系，以及每个染色体的相关平均匹配成本。

4.计算基因组稳定性生物标志物：计算平均匹配成本分布的方差。

5.预测蛋白质生产稳定性：将预先确定的阈值应用于方差，以将细胞系分类为蛋白质生产稳定或不稳定。

分割染色体

使用U-Net对图像进行分割，U-Net是卷积神经网络，旨在在少数训练图像上分割细胞核。该架构是前馈网络，由经由卷积、整流线性单元和最大池化层的重复收缩层组成，然后经由反卷积层和上采样层重复扩展层。收缩层和扩展层也通过级联连接，使架构呈U形。

存在一些挑战，需要对U-Net的标准训练和部署进行修改。第一个修改是对二元交叉熵损失函数进行修改，以便在靠近的染色体边界处对像素进行错误分类会受到严重惩罚。如果图像中第ij位置的像素位于非常接近的染色体之间，则损失函数乘以权重矩阵，该矩阵的第ij项高。第二个修改是克服图像伪影的存在并过滤掉其他非染色体细胞结构。训练了两个U-Net模型。第一个是预测前景像素(即属于染色体的像素)，而第二个是预测背景像素。两组像素分类经由交集进行组合以达到最终分割。

描述染色体

使用Gaussian混合模型对染色体进行着色，该模型在来自单细胞系的图像集上进行训练。属于染色体的像素可以被认为是5维空间颜色空间中的点，其中维度i对应于第i个颜色通道中像素的灰度强度。像素在彩色空间中的位置决定了它的伪色。Gaussian混合模型是概率模型，可用于将数据点聚类到子群中。为了建立伪着色模型，首先对来自单细胞系的图像进行分割，然后通过Gaussian混合模型将它们的染色体像素分配给12个伪色群，基于它们在颜色空间中的坐标。然后将该模型应用于每个剩余细胞系的每个分割图像。结果与使用Metabase软件生成的结果进行了比较。

分段和伪彩色染色体可以通过它们的伪彩色比例来表征，以便于与跨越单细胞系中的染色体进行比较。更具体地说，每个染色体都被分配了12元组指纹，其第i个组分是伪彩色染色体i的百分比。此类染色体指纹可以用饼图可视化地表示，饼图的第i个扇区由伪彩色i着色，并由指纹的第i个组分确定大小。

匹配染色体

给定一对分段的伪彩色MFISH图像，任务是识别图像1的染色体和图像2的染色体之间的一组一一对应关系，使得将有相似伪彩色模式的染色体匹配在一起。这种匹配是在整个细胞系中成像的染色体群之间进行比较的必要步骤。匹配程度可以用成本函数来计算，该成本函数量化一对染色体之间的伪色不一致。对应的集合是通过使用成本矩阵C求解线性分配问题来确定的，成本矩阵C的行和列分别由图像1和2的染色体索引，其第ij个条目是匹配图像1中的染色体i和图像2中的染色体j的成本。

用于解决线性分配问题的匈牙利算法的输出是一组成像染色体群之间的一对一对应关系，从而使总匹配成本最小化。通过设计，匹配的染色体往往会产生较低的匹配成本并具有相似的伪彩色指纹。如果由于染色体畸变导致群完全不同，总匹配成本将高于预期值。为了解释群中染色体数量的变化，总匹配成本是染色体数量的平均值。该平均值与对图像集中每对独特图像计算的所有其他平均值一起，形成平均匹配成本分布。图4描述了算法这一阶段的输出实例。值得注意的是，19条染色体的图像与18条染色体的图像匹配，这导致一条染色体没有被分配匹配。从图4可以看出，图像一中10号染色体没有成本最优匹配，因此这条染色体没有配对。另外值得注意的是，图像1中的19号染色体与图像2中的19号染色体配对，异常值匹配成本为82％。图像2中的19号染色体是图像1中的10号和19号染色体的融合。这种染色体畸变反映在图像1和2中19号染色体的统计上高的匹配成本上。

计算基因组稳定性指标

基因组不稳定性的衡量标准是细胞系的平均匹配成本分布的方差。高方差指示高度的基因组不稳定性，而低方差表明细胞系在基因组上是稳定的。如图5散点图c)所示，该观察结果通过方差与手动衍生出的％CCA之间的相关性得到证实。

预测蛋白质生产稳定性

为了预测新细胞系的蛋白质生产稳定性，必须从现有的平均匹配成本分布方差估计适当的阈值，然后将其应用于衍生自新细胞系的方差。迄今为止分析的14种细胞系具有已知的蛋白质生产稳定性结果和图5，c)自动计算方差与手动衍生出的％CCA的散点图，其中如果蛋白质生产稳定，每个点对应于有斑点的细胞系，并且如果蛋白质生产不稳定，每个点对应于空白的细胞系，这显示了两种蛋白质生产稳定性类别之间有明显的区别。为了识别适当的变异阈值，超过该阈值，细胞系将被预测为蛋白质生产不稳定，否则稳定，使用现有的14个细胞系构建了决策树，尽管这不是绝对必要的。假设实验方案没有变化，该阈值可应用于新数据以预测细胞系蛋白质生产稳定性。

值得注意的是，如果对实验协议进行任何修改，工作流中部署的所有机器学习模型都需要对新数据进行重新训练。明确地说，这意味着重建分割模型、伪着色模型以及最终地是决策树模型。

实施例7：结论

本申请中提供的结果提供了CHOK1a-GS-KO宿主和基于CHOK1a-GS-KO的生产细胞系中基因组和生产不稳定性之间的相互关系的表征。以前的工作(Vcelar et al.,2018a；Vcelar et al.,2018b)在日常维护期间提供了基于CHOK1的宿主细胞系的基因组不稳定性表征，并在各种细胞培养条件下跟踪了单细胞克隆过程中的基因组异质性。在这些先前的研究中，没有试图阐明观察到的异质性的致病路径。

根据Vcelar等人的观察，(Vcelar et al.,2018a；Vcelar et al.,2018b)，在CHOK1a-GS-KO宿主和产生CHOK1a-GS-KO的细胞系中观察到巨大的异质性，无论稳定。本文公开的研究通过应用克隆(CCA)和非克隆(NCCA)染色体畸变命名进一步扩展了这些发现，这些命名在细胞遗传学领域用于疾病诊断，提供了描述细胞内整体突变景观的通用突变度量培养瓶。虽然稳定的细胞系可能有多个群，但定义细胞系整体基因组稳定性的是CCA(遗传稳定突变)或NCCA(遗传不稳定/罕见)的比。

应用该度量，发明人已经建立了增加的突变(高％NCCA)和生产不稳定性之间的相关性，这在表达4种治疗性蛋白的细胞系中显示出一致的趋势。此外，发明人已经表明，该度量可用于早期时间点的生产稳定性预测，在细胞系的盲组上测试该方法，以概括其在活CLD项目中的用途。这项研究是第一个在产生全尺寸治疗性蛋白的行业相关细胞系(跨越4种治疗性蛋白的36种细胞系)中测试新发现的研究。

发明人进一步显示平均匹配成本的方差也类似于％CCA，因此，平均匹配成本的方差也可以用作进一步的基因组不稳定性度量。进一步，凭借方差和SD之间的数学关系，平均匹配成本的SD也可以用作基因组不稳定性度量。

基于手动MFISH的稳定性预测方法的自动化，允许对样品进行快速客观的分析，结果与手动结果密切相关。这提供了完全可扩展的方法，允许更大的表征(分析的细胞数量增加)和快速分析，以在行业时间范围内提供输出结果。

总之，本申请中公开的结果提供了跟踪突变并显示％CCA或％NCCA、平均匹配成本分布的方差或平均匹配成本分布的SD，作为可用于生产稳定性预测的可行基因组稳定性度量的方法。

参考文献

Berk,A.J.(2005).Recent lessons in gene expression,cell cycle control,and cell biology from adenovirus.Oncogene 24,7673-7685.

de Lange,T.(2002).Protection of mammalian telomeres.Oncogene 21,532-540.Gisselsson,D.,Pettersson,L.,Hoglund,M.,Heidenblad,M.,Gorunova,L.,

Wiegant,J.,Mertens,F.,Dal Cin,P.,Mitelman,F.,and Mandahl,N.(2000).Chromosomal breakage-fusion-bridge events cause genetic intratumorheterogeneity.Proc Natl Acad Sci U S A 97,5357-5362.

Hayflick,L.(1965).The Limited in Vitro Lifetime of Human Diploid CellStrains.Exp Cell Res 37,614-636.

Hayflick,L.,and Moorhead,P.S.(1961).The serial cultivation of humandiploid cell strains.Exp Cell Res 25,585-621.

Huen,M.S.,and Chen,J.(2008).The DNA damage response pathways:at thecrossroad of protein modifications.Cell Res 18,8-16.

Marotta,M.,Chen,X.,Watanabe,T.,Faber,P.W.,Diede,S.J.,Tapscott,S.,Tubbs,R.,Kondratova,A.,Stephens,R.,and Tanaka,H.(2013).Homology-mediated end-capping as a primary step of sister chromatid fusion in the breakage-fusion-bridge cycles.Nucleic Acids Res 41,9732-9740.

O'Sullivan,R.J.,and Karlseder,J.(2010).Telomeres:protectingchromosomes against genome instability.Nat Rev Mol Cell Biol 11,171-181.

Roos,W.P.,and Kaina,B.(2006).DNA damage-induced cell death byapoptosis.Trends Mol Med 12,440-450.

Schmutz,I.,and de Lange,T.(2016).Shelterin.Curr Biol 26,R397-399.Sha,J.,Ghosh,M.K.,Zhang,K.,and Harter,M.L.(2010).E1A interacts with two opposingtranscriptional pathways to induce quiescent cells into S phase.J Virol 84,4050-4059.

Thomas,R.,Marks,D.H.,Chin,Y.,and Benezra,R.(2018).Whole chromosomeloss and associated breakage-fusion-bridge cycles transform mouse tetraploidcells.EMBO J 37,201-218.

Vcelar,S.,Jadhav,V.,Melcher,M.,Auer,N.,Hrdina,A.,Sagmeister,R.,Heffner,K.,Puklowski,A.,Betenbaugh,M.,Wenger,T.,et al.(2018a).Karyotypevariation of CHO host cell lines over time in culture characterized bychromosome counting and chromosome painting.Biotechnol Bioeng 115,165-173.

Vcelar,S.,Melcher,M.,Auer,N.,Hrdina,A.,Puklowski,A.,Leisch,F.,Jadhav,V.,Wenger,T.,Baumann,M.,and Borth,N.(2018b).Changes in Chromosome Counts andPatterns in CHO Cell Lines upon Generation of Recombinant Cell Lines andSubcloning.Biotechnol J 13,e1700495.

Kremkow,B.G.,Baik,J.Y.,MacDonald,M.L.,and Lee,K.H.(2015).CHOgenome.org 2.0:Genome resources and website updates.Biotechnol J 10,931-938.

Yusufi,F.N.K.,Lakshmanan,M.,Ho,Y.S.,Loo,B.L.W.,Ariyaratne,P.,Yang,Y.,Ng,S.K.,Tan,T.R.M.,Yeo,H.C.,Lim,H.L.,et al.(2017).Mammalian SystemsBiotechnology Reveals Global Cellular Adaptations in a Recombinant CHO CellLine.Cell Syst 4,530-542 e536.

Deaven,L.L.,and Petersen,D.F.(1973).The chromosomes of CHO,ananeuploid Chinese hamster cell line:G-band,C-band,and autoradiographicanalyses.Chromosoma 41,129-144.

Wurm,F.M.(2004).Production of recombinant protein therapeutics incultivated mammalian cells.Nat Biotechnol 22,1393-1398.

Butler,M.&Spearman,M.The choice of mammalian cell host andpossibilities for glycosylation engineering.Curr Opin Biotechnol 30,107-112,doi:10.1016/j.copbio.2014.06.010(2014).

Walsh,G.Biopharmaceutical benchmarks 2018.Nat Biotechnol 36,1136-1145,doi:10.1038/nbt.4305(2018).

Derouazi,M.,Martinet,D.,Besuchet Schmutz,N.,Flaction,R.,Wicht,M.,Bertschinger,M.,Hacker,D.L.,Beckmann,J.S.,and Wurm,F.M.(2006).Geneticcharacterization of CHO production host DG44 and derivative recombinant celllines.Biochem Biophys Res Commun 340,1069-1077.Heng et al.MolecularCytogenetics(2016)9:1

Claims

1.预测克隆细胞系的生产稳定性和/或生产不稳定性的方法，所述方法包括以下步骤：

(a)在独立的细胞培养物中培养两个或更多个克隆细胞系

(b)对每个细胞培养物中的细胞进行核型分析；和

(c)从步骤(b)的所述核型分析中衍生出基因组不稳定性值。

2.选择表达治疗性蛋白的细胞系的方法，所述方法包括以下步骤：

(a)在独立的细胞培养物中培养两个或更多个克隆细胞系

(b)对每个细胞培养物中的细胞进行核型分析

(c)从步骤(b)的所述核型分析中衍生出基因组不稳定性值；和

(d)根据步骤(c)的所述基因组不稳定性值选择克隆细胞系。

3.选择用于大规模治疗性蛋白生产的高滴度生产克隆细胞系的方法，所述方法包括以下步骤：

(a)在独立的细胞培养物中培养两个或更多个克隆细胞系

(b)对每个细胞培养物中的细胞进行核型分析

(c)从步骤(b)的所述核型分析中衍生出基因组不稳定性值；和

(d)根据步骤(c)的所述基因组不稳定性值选择克隆细胞系。

4.根据权利要求1至3中任一项所述的方法，其中核型分析包括识别所述克隆细胞系的染色体畸变。

5.根据权利要求1至4中任一项所述的方法，其中核型分析包括进行多色荧光原位杂交(MFISH)、光谱核型分析(SKY)或Giesma显带(G显带)。

6.根据权利要求1至5中任一项所述的方法，其在步骤(b)之后进一步包括通过核型确定每个细胞培养物的亚群的步骤。

7.根据权利要求6所述的方法，其中衍生所述基因组不稳定性值包括将每个亚群指定为包含克隆染色体畸变(CCA)或非克隆染色体畸变(NCCA)。

8.根据权利要求7所述的方法，其中衍生所述基因组值进一步包括确定每个克隆细胞系的CCA百分比和/或NCCA百分比的步骤。

9.根据权利要求1至5中任一项所述的方法，其中衍生所述基因组不稳定性值包括确定平均匹配成本分布。

10.根据权利要求9所述的方法，其中衍生所述基因组不稳定性值包括确定所述平均匹配成本分布的方差。

11.根据前述权利要求中任一项所述的方法，其中所述基因组不稳定性值用于：i)通过％CCA或所述平均匹配成本分布的方差对所述克隆细胞进行排序；(ii)衍生％CCA阈值或所述平均匹配成本分布阈值的方差；和

(iii)衍生四分位阈值。

12.根据权利要求11所述的方法，其中所述基因组不稳定性值用于衍生％CCA阈值，任选地其中所述％CCA阈值是至少70％，进一步任选地其中所述％CCA阈值是78％。

13.根据前述权利要求中任一项所述的方法，其中对每个细胞培养物中的细胞进行核型分析的步骤和/或从所述核型分析中衍生基因组不稳定性值的步骤是自动化的。

14.根据权利要求13所述的方法，其中自动化是计算机实现的自动化。

15.根据前述权利要求中任一项所述的方法，其中对每个细胞培养物中的细胞进行核型分析的步骤在10代和40代之间进行，任选地其中对每个细胞培养物中的细胞进行核型分析的步骤在10、15或20代之后进行。

16.根据前述权利要求中任一项所述的方法，其中所述克隆细胞系是哺乳动物细胞系。

17.根据权利要求16所述的方法，其中所述哺乳动物细胞系为中国仓鼠卵巢(CHO)细胞系。

18.根据权利要求17所述的方法，其中所述CHO细胞系为CHO-K1。

19.根据权利要求17或18所述的方法，其中所述CHO细胞系是谷氨酰胺合成酶(GS)敲除细胞。