CN116052778A

CN116052778A - 实时监测生物反应器中细胞培养液组分浓度的方法

Info

Publication number: CN116052778A
Application number: CN202211603866.2A
Authority: CN
Inventors: 唐皓; 张金亮; 刘春雨; 向绍勋; 于乐; 田军; 王伟均; 周伟昌
Original assignee: Wuxi Yaoming Biotechnology Co ltd
Current assignee: Wuxi Yaoming Biotechnology Co ltd
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2023-05-02

Abstract

本发明提供一种实时监测生物反应器中细胞培养液组分浓度的方法。该方法包括建立用于预测细胞培养液组分浓度的机器学***方和，由预测误差平方和的大小确定组合模型中多个单一预测模型的权重；通过权重赋值法，将多个单一预测模型组合获得机器学习组合模型。

Description

实时监测生物反应器中细胞培养液组分浓度的方法

技术领域

本发明属于细胞培养工艺领域，具体涉及一种用于预测生物反应器中细胞培养液组分浓度的机器学习组合模型和使用所述机器学习组合模型进行预测方法。

背景技术

生物反应器是一种是在体外利用酶或生物体(例如细胞)的功能并进行生化反应的装置***，是一种生物功能模拟机，其被广泛运用生物药的生产和研发，包括但不限于利用生物反应器悬浮培养细胞生产抗体抗原等产物。对于已经选定的反应物和反应工艺类型而言，对反应过程的控制成为关键。生物反应器的控制极大程度的影响生物药的产量、质量和投入成本。为了保持最优环境中进行反应，通过对反应的各种运行参数进行随时监控和控制。

细胞培养液是生物反应器细胞培养过程中重要的组成部分，细胞培养被广泛运用于生物药的生产和研发。细胞培养液的各项指标、包括细胞培养液各组分的浓度等极大程度决定了生物反应器生物药生产过程的调控操作。而且在生物反应器中培养细胞并进行生产的情况下，由于生物细胞培养期间生物反应器的可控参数较多(例如温度、搅拌、通气、以及多种成分的填补料添加量)，以及培养周期状态(培养液成分、活细胞密度、温度、PH等)较多且变化呈现非线性，这使得作为调控培养周期内各阶段的培养工艺的基础的细胞培养液的各项指标的获得成为了困扰生物药生产公司的重大难题。

现阶段，往往生物药公司需要投入大量的人力物力来检测细胞培养液各组分浓度，且目前的人工操作无法完成实时监测，分时段检测也无法实现生产过程的实时监测，同时检测结果还存在过度依赖操作人员的经验和设备检测的精度的问题。

目前已有人尝试建立模型预测生物反应器培养液中代谢物的浓度。但是现阶段报道的建模方法精确度不足，并且相同的解析模型在不同背景环境(工艺模式、细胞克隆、培养基成分、培养规模等)下使用时的泛用性差，模型解析精度会严重下降，甚至不能正常使用。尤其针对目前流行的利用拉曼光谱实时监测获得的数据而言还存在建模方法不能适应具备多重共线性特征的拉曼光谱数据的问题，导致对拉曼光谱数据解析的适用性和准确性均非常有限。

例如CN113924355A公开了一种用于监测和自动控制灌流细胞培养的拉曼光谱集成灌流细胞培养***，其使用统计分析学的多变量分析方法(MVA)和偏最小二阶乘回归方法(PLS)建立校准模型和预测模型解析拉曼光谱从而实时监测细胞培养时的各项培养参数。但是由于拉曼光谱数据具备多重共线性的特征，因此PLS模型解析结果的唯一性决定了模型的预测精准度和适用范围均不是最优结果；同时PLS模型对误差放大的特性决定了其解析光谱时会放大荧光噪音信号的特性，从而降低模型解析的准确性。

因此，急需一种在不同背景环境下使用相同监测技术时泛用性高，且具有良好预测精度的预测细胞培养液组分浓度的方法。

发明内容

本发明人考虑到细胞培养过程中细胞培养液中的状态参数多且都为连续变量，为了实现更加准确和细致的检测，采用了拉曼光谱实时监测的细胞培养液浓度数据作为数据集；为避免单一的模型的准确性和适用性较窄的问题，使用了机器学习组合模型。由此经过多次的湿实验论证，和作为对照的PLS模型解析数据比较，本发明的基于拉曼光谱数据的机器学习组合模型和经迁移的模型不仅在预测数据的准确度上有了进一步提高，还具备能在不同的工艺参数条件下通用的优势。

在本发明中，针对经过预处理的数据，分别使用偏最小二阶乘(PLS)、立方树(Cubist)、随机森林(RF)、支持向量机(SVM)、时间序列5种算法，分别建立单一预测模型，再将预测结果使用方差倒数(RV)确定各个算法在组合模型中的权重，计算获得新的预测结果，建立机器学习组合模型。

本发明是基于上述发现的发明，因此，本发明的第一方面内容涉及一种建立用于预测细胞培养液组分浓度的机器学习组合模型的方法，其包括

1)获得生物反应器细胞培养液的组分浓度的数据集，所述数据集包括训练数据集、验证数据集、和测试数据集；

2)分别采用多种机器学习算法，建立多个单一预测模型，其中，在用训练数据集建立预测模型后，对验证数据集进行预测；

3)将预测结果与测试数据集进行比较，获得多个单一预测模型的预测误差平方和，由预测误差平方和的大小确定组合模型中多个单一预测模型的权重；

4)通过权重赋值法，将多个单一预测模型组合获得机器学习组合模型。

在一种实施方式中，所述多种机器学习算法是包括选自以下至少两种：偏最小二阶乘、立方树、随机森林、支持向量机、时间序列。

在一种实施方式中，所述组分浓度的数据集包括在线拉曼光谱数据和其对应的离线检测数据，所述离线检测数据的采样时间与对应的在线拉曼光谱数据匹配。

在一种实施方式中，所述组分浓度选自活细胞密度、葡萄糖浓度、乳酸浓度、目标产物浓度和氨基酸浓度。

在一种实施方式中，还包括对拉曼光谱数据进行数据预处理，所述数据预处理包括以下至少一种：筛除异常数据点、尖刺峰去除、拉曼位移校正和光强校正、基线校准、平滑、求导。

本发明的另一个方面涉及一种用于预测细胞培养液组分浓度的机器学习组合模型，其是通过本发明的建立用于预测细胞培养液组分浓度的机器学习组合模型的方法建立的。

本发明的又一个方面涉及一种实时监测细胞培养液组分浓度的方法，其中，包括

1)获得实时检测的细胞培养液组分浓度，

2)用本发明的机器学习组合模型，由步骤1)获得的实测组分浓度来预测细胞培养液组分浓度，由此实现对细胞培养液组分浓度的实时监测。

本发明的再一个方面涉及一种实时监测细胞培养液组分浓度的方法，其中，包括

1)以前文第一方面内容所述的机器学习组合模型为原模型，相对于该原模型进行模型迁移，从而得到经迁移的模型；

2)获得实时检测的细胞培养液组分浓度，

3)用所述经迁移的模型由步骤2)获得的实测组分浓度来预测细胞培养液组分浓度，由此实现对细胞培养液组分浓度的实时监测；

其中，所述模型迁移包括

a)获得生物反应器细胞培养液的组分浓度的原数据集、以及新批次生物反应的细胞培养液组分浓度的新批次训练数据集；所述原数据集包括原训练数据集、原验证数据集、和原测试数据集；对新批次训练数据集和原训练数据集进行规模校正或规模匹配，由此获得新训练数据集；

b)如前文第一方面内容中所述，使用新训练数据集、原验证数据集、和原测试数据集,分别采用多种机器学习算法，建立多个单一预测模型，其中，在用新训练数据集建立预测模型后，对原验证数据集进行预测；

c)如前文第一方面内容中所述，将预测结果与原测试数据集进行比较，获得多个单一预测模型的预测误差平方和，由预测误差平方和的大小确定组合模型中多个单一预测模型的权重；

d)如前文第一方面内容中所述，通过权重赋值法，将多个单一预测模型组合获得经迁移的模型；

所述规模校正包括将新批次训练数据集中的规定比例的数据并入建立所述原模型所用的原训练数据集；

所述规模匹配包括将新批次训练数据集中与所述原训练数据集中采集时间与之相同的原训练数据相比数值差异小于规定阈值的新批次训练数据并入所述原训练数据集。

在一种实施方式中，所述规定比例为选自1％～10％的值，优选为选自1.5％～7.5％的值，更优选为选自2％～5％的值；所述规定阈值为选自1％～10％的值，优选为选自3％～8％的值，进一步优选为选自4％～6％的值，最优选5％。

本发明的还一个方面涉及一种预测生物反应器中细胞培养液组分浓度的电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如本发明所述的实时监测细胞培养液组分浓度的方法。

附图说明

图1是本发明的总体流程图。

图2是本发明的数据预处理流程图。在检查点1处，判别尖刺峰是否被过度去除，在检查点2处，判别是否仍然存在拉曼位移和光强的飘移，在检查点3处，判别荧光和底物的特征光谱是否依然存在，在检查点4处，判别平滑后是否有位移和强度的损失，在检查点5处，判别求导后是否让原始光谱失真。根据各个检查点的判别结果，其中，不是每次预处理都需要进行求导操作，因此在不进行求导操作的情况下检查点5处不进行判别。

图3是本发明的数据学习工作流程图。在检查点1处，根据验证结果判别模型是否合适，若不合适需要加入或更换另一种建模方法的模型,在检查点2处，检查模型的适用性是否合适，若不合适需要加入或更换另一种建模方法的模型重新建模；在检查点2处，检查组合模型预测结果是否合适，若不合适需要重新计算分配各单一模型的权重。

图4示出了本发明的模型迁移的两种方法。在检查点处检查数据匹配和标准化过程中是否引入错误光谱。

图5示出了本发明的各模型的活细胞密度预测效果。

图6示出了本发明的各模型的葡萄糖浓度预测效果。

图7示出了本发明的各模型的乳酸浓度预测效果。

图8示出了本发明的各模型的渗透压预测效果。

图9示出了本发明的各模型的目标蛋白浓度预测效果。

图10示出了本发明的各模型的组氨酸浓度预测效果。

图11示出了模型在不同规模间迁移的活细胞密度预测效果。

图12示出了模型在不同规模间迁移的葡萄糖浓度预测效果。

具体实施方式

以下，对本发明中预测生物反应器中细胞培养液各组分浓度的流程进行说明。

本发明的总体流程图示于图1。如图1所示，本发明的预测流程可分为数据准备，模型建立，验证调整三大步骤。同时，考虑到模型迁移，本发明还具有校正数据和比对数据的步骤。以下分别进行说明。

数据准备

在本发明中，虽然也可以使用其他满足本发明需求的可检测细胞培养液各组分浓度的方法，但主要使用通过拉曼光谱仪测得的细胞培养液中的拉曼光谱信号作为检测数据(训练集)和验证数据(验证集)。

拉曼光谱是一种通过检测待测样品针对激发光的拉曼散射效应所产生的拉曼光谱来检测和识别物质分子的振动光谱，它能够对化学成分和分子结构进行非破坏性分析，物质由于拉曼散射效应而产生的拉曼光谱谱带的数目、频率位移、谱带强度及形状等与分子的振动及转动直接相关联。尤其，在一定条件下，其强度与物质浓度成线性关系。据此可以实现对物质结构、成分、浓度的检测。与红外、近红外、紫外荧光等光谱分析手段相比，拉曼光谱具有突出优势，包括：广泛的检测范围；无损、快速、无污染；远距离测试技术；检测灵敏度高等。因此，随着激光采样和检测器技术的改进，拉曼光谱法在聚合物、药物、生物制造和生物医学分析中的应用在过去的三十年中激增。由于这些技术的进步，拉曼光谱法现在已经成为在实验室内外使用的实用分析技术。在生物反应器制药领域，拉曼光谱常被用于在线监测。自从首次报道原位拉曼测量在生物制造中的应用以来，其已被用来提供对诸如葡萄糖、乳酸盐、谷氨酸盐、谷氨酰胺、氨、VCD等几个关键过程状态的在线实时预测。

与通常的机器学习丰富相同，本发明在获得了拉曼光谱检测数据后，首先对数据进行预处理以使其更好地应用于机器学习模型中。参见图2，在本发明中通过图2所示的流程对数据进行进一步处理。

进入数据预处理流程后，进行以下步骤来进行数据预处理：

(a)筛除异常数据点：通过简单的统计学方法初步的筛除异常数据点。具体而言，可通过计算平均数、中位数、标准差等，将明显偏离主体数据的异常数据剔除。

(b)尖刺峰去除：拉曼光谱中的宇宙尖峰源于高能宇宙粒子在CCD或互补金属氧化物半导体探测器上产生的电子。它们在拉曼光谱中随机出现，表现为非常窄但极其强烈的光谱特征。由于其高强度，加标使数据分析变得困难。如果存在干扰尖峰，则标准化和特征提取的结果没有意义。检测到尖峰后，可以根据尖峰的两个边界点通过线性插值去除尖峰。或者，尖峰也可以用其在该尖峰相同波数位置的连续测量值代替。在这种情况下，必须考虑两次测量之间的荧光差异和强度变化。

(c)拉曼位移校正和光强校正：拉曼光谱在任何检测环境、设备或其他条件下的检测结果应该是相同的，然而在实践中并非如此。相反，在测量条件等变化下，随着时间的推移，在器械之间观察到光谱变化。需要设计良好的标准化方法来消除这些不必要的光谱变化，并根据相同的参比品对所有测量的拉曼光谱进行标准化。拉曼光谱中这种标准化最基本的方法之一是光谱仪校正，由波数和强度校正组成。使用稳定相同的光谱校正仪对位移和光强校正后使用相同的光学标准品验证是统一拉曼光谱的理想方法。在校正的基础上，通过拟合波数标准品定义明确的拉曼带的测量位置和理论位置之间的(多项式)函数，校准波数轴。通过将测得的拉曼强度除以仪器的强度响应函数校准强度轴，该函数推导为关注波数范围内强度标准品的测得发射与理论发射之间的比值。

(这一段里，有时称“波数和强度”，有时称“位移和光强”，我们需要使用统一的术语，两者是否是相同概念？可以把波数改成位移，强度改成光强吗？)

(d)基线校准：基线校准是指两个含义，即去除底物信息的光谱或去除荧光基线。前者用于从测得的拉曼光谱中去除底物的拉曼信号；后者旨在去除样品在拉曼光谱中表现为拉曼光谱下缓慢变化的基线的荧光。如果底物具有大量的拉曼带，特别是如果这些拉曼带与样品的拉曼带重叠，则需要去除底物的贡献。为此，通常需要底物的光谱作为参考，以估计记录的拉曼光谱中底物的贡献。对于异质底物来说，统计方法可能是有用的；例如，多变量曲线分辨率可用于处理这种异质性底物贡献。荧光基线去除通常比底物校准更复杂，因为荧光基线取决于样品和设置。这种荧光基线大多用数学方法去除，如计算导数谱、灵敏的非线性迭代峰剪切算法、非对称最小二乘(ALS)平滑、修正多项式拟合、标准正态变量、乘法散射校准和扩展乘法信号校准(EMSC)。这些方法具有灵活性，易于使用，无需仪器修饰，在大多数情况下性能充分。然而，如果荧光强度太强而无法进行数学校准，则可能需要基于仪器修饰的方法。这一类技术包括时间序列拉曼光谱学、调制拉曼光谱学和位移激发拉曼差分光谱学。

(e)平滑：在拉曼光谱的分析中可以选择平滑或滤波，其可以通过光谱和/或空间滤波来完成。光谱滤波沿波数轴用低通滤波器去除噪声。滤波器可以是平均值、中位数、高斯、多项式函数等。空间滤波具有与光谱滤波相似的思想，但它将低通滤波器应用于空间域。两种方法各有利弊。光谱滤波降低了光谱分辨率，但保留了空间分辨率，反之亦然。

(f)求导：求导是可选的，主要目的是为了进一步提高信噪比数值。

(g)归一化：归一化旨在消除激发强度波动或聚焦变化的影响，其可以通过通常的归一化方法进行。

如图2所述，在(b)尖刺峰去除、(c)拉曼位移校正和光强校正、(d)基线校准、(e)平滑和可选的(f)求导步骤后，设立检查点，分别检查前一步骤的数据预处理效果，以判断前一步骤是否过度进行。如果发现存在过度进行，则返回前一步骤，对该步骤进行调整后重新进行该步骤。

模型建立

通常地，在获得了拉曼光谱检测而得的数据后，本领域技术人员会试图把拉曼信号转化为数字信息和可识别的相应数据，并进一步根据测得的光谱与光谱数据库中已知物质的光谱之间的相似性来鉴定物质，如在本发明中，鉴定细胞培养液各组分的浓度/含量。但是在本发明这样的对生物反应器的细胞培养过程进行拉曼光谱检测的情况下，这是不可行的。因为通常地，本领域技术人员可以通过将检测得到的拉曼光谱数据与已知物质的数据库的数据进行比较，识别出检测得到的有那些物质及其浓度/含量；但细胞培养过程是一个相当复杂的过程，其可能产生的物质的种类及其丰富，细胞培养液中存在的可检测的样本成分过于复杂。尤其，当测量的光谱包含来自底物的信号，模型预测将偏向于底物，即检测的结果很大一部分反应的是占据细胞培养液大部分质量的底物和/或培养基的成分，而非反映和影响细胞培养过程的某些特征性组分的浓度/含量。

因此，在本发明中，使用基于机器学习的更先进的方法，根据算法提取特征光谱并将离线检测值赋予特征光谱获得解析测量光谱。

在本发明中，针对预处理数据，分别使用偏最小二阶乘(PLS)、立方树(Cubist)、随机森林(RF)、支持向量机(SVM)、时间序列5种算法，分别建立单一预测模型，再将预测结果使用方差倒数(RV)确定各个算法在组合模型中的权重，计算获得新的预测结果，建立机器学习组合模型。

以下分别对本发明使用的算法进行介绍。

偏最小二阶乘(PLS):

偏最小二阶乘回归≈多元线性回归分析+典型相关分析+主成分分析

步骤1：对原数据X和Y进行中心化，得到X0和Y0，从Y0种选取一列作为u1，一般选择方差最大的一列。标准化后的数据，其样本协方差公式：

步骤2：迭代求解X与Y的变换权重(w1，c1)、因子(u1、t1)，直到收敛。利用Y的信息u1，求X的变换权重w1(w1实现由X0到因子t1的变换，t1＝X0*w1)及因子t1.从而将X0的信息用t1来近似表达。

||w₁||→1

t₁＝X₀w₁

利用X的信息t1，求Y的变换权重c1(c1实现由Y0到因子u1的变换，u1＝Y0*c1)并更新因子u1.从而将Y0的信息用t1来近似表达。

||c₁||→1

判断是否已找到合理解。若△u<阈值(如10-6)则继续下面的步骤；否则取u1＝u1*，返回步骤2

步骤3：求X与Y的残差举证，求X的载荷p1,(p1反映X0与因子t1的直接关系，

步骤4：利用X1和Y1，重复上面的步骤，求解下一批PLS参数。

立方树(Cubist):

立方树模型选择基于模型树的集成学***均值。

模型树的节点上不是常量，而是一个线性函数模型。分割空间的标准不是降低平方误差，而是降低样本标准差。

M5模型树:

将一个节点覆盖的样本的Y值(既目标属性值)的标准差看作误差的度量。

T是到达该节点的实列集合，|T|表示集合的大小，sd表示标准差，Ti是第i个子树上的实例集合。

树模型的节点剪枝是一个bottom-up的递归过程，利用线性回归方法拟合出每个节点的回归方程，计算出回归函数预测的均方根误差

计算每个节点到其子节点的MSE的减小量

E_R＝|N|R_MSE-Σi|N_i|R_MMSEi

随机森林(RF):

随机森林模型是一种综合学***均值计算所有决策树模型结果。Bagging算法中的增强

支持向量机(SVM)：

支持向量机是一种对线性和非线性数据进行分类的方法

线性可分离支持向量机

W为权重向量，b为偏置标量，训练目标数据的参数达到最小值时训练目标公式

如果上述公式的约束条件表示为

最大区间的分离超平面问题表示为

非线性可分离支持向量机

引入核函数方法

多项式核函数

高斯核函数

时间序列指数：

采用指数平滑法，通过计算指数平滑值结合时间序列预测模型进行预测和判断。其原理是任一值的指数平滑值是实际值与前一个值的加权平均值。

当时间序列有明显的趋势变化时，采用一次指数平滑法预测

二次指数平滑是一次指数平滑的再平滑，适用于具有线性趋势的时间序列

预测未来T周期的预测公式为

y_t+T＝A_t+B_tT

倒数方差法：

将上述模型算法的结果合并在一起，用方差倒数法以预测误差平方和的大小确定组合模型中各算法的权重

其中Qi是真实值和预测值之间差异的平方和

利用上述建模过程建立了5个预测模型，然后利用权重赋值法将5个模型组合成一个全新的机器学习组合模型。

机器学***较高的样本(即训练数据集)来训练模型，该模型可以是通过统计概率组合多个模型模式的模型。然后，利用该模型对未知样本进行预测，直接得到预测光谱信号。如果训练数据集很好地代表了所研究的光谱数据，则可以建立一个模型来学习基本特征的细胞培养工艺参数光谱，并很好地概括应用于未知样品(即训练和未知样品的预测误差相似)。在现实应用中，情况通常并非如此。这是因为训练数据集中有一部分数据的统计取样结果并不能完全表征实际的细胞培养工艺参数，这使得待预测的未知样品可能与训练数据存在实质性差异，因此通常通过所得模型结果进行预测，错误将大于训练数据集。为保证模型可用性，有必要严格检验它独立于训练数据的预测样本且性能是未知的，预测误差是受控的。通过利用多种模型计算物质与光谱的对应关系，并利用统计学计算得到各模型之间的权重比，最终得到较好的预测和分析结果。

为此，本发明还建立了一个数据学习的工作流程，如图3所示，其显示了建立模型以及对各个模型的预测效果进行比较和筛选的流程。

在数据学习的工作流程中，至少具备以下步骤：

(Ⅰ)样本分类：在数据学***均值和标准差或根据不同试验数据集的多次预测计算的均方根误差(RMSE)。

(Ⅱ)单一预测模型建立：统计建模和机器学习从减少维度开始。这对于拉曼光谱尤为重要，其中数据集由大量相关特征组成，样本量有限。降维的好处有两方面：首先，它使可视化更简单、更清晰，因此，有助于更好地概述数据集的特征；其次，它可以通过去除冗余信息和从数据中提取有用的特征来改进和加快后续的建模。在数据学习的第二阶段，将降维输出输入到后续模型中，可能是聚类、分类或回归模型。这样做的模型可以分为线性或非线性、参数或非参数、监督或非监督。虽然要使用的模型的选择是数据依赖性的，但应记住，模型的普遍性很可能随着模型复杂性的增加而降低。在不牺牲性能的情况下，模型应该尽可能简约。这意味着与非线性和非参数模型相比，在普遍性方面，首选线性和参数模型。模型构建的另一个重要部分是变量的重要性或意义。这些系数是根据训练过的模型计算的，并表明每个变量对模型和任务的显著性。与变量重要性较大的系数相对应的变量被认为对模型更重要，这种解释应结合手头数据的光谱模型进行。这些值可进一步用于特征选择，从而产生更简约的模型。但是，应该认识到，模型系数过高或噪声过大的变量应该更好地从建模中删除，因为它们很可能不可靠。

(Ⅲ)单一预测模型评估：模型通常预测未知样本比预测训练/验证数据更差。这被称为模型收缩现象。在极端情况下，统计模型可以完美地预测训练/验证数据，但由于过度拟合，完全不能预测未知样本，即模型对训练数据的拟合过于完美，失去了普遍性。因此，检查未知样本的预测并控制错误率以确保统计模型在实践中可用非常重要，即模型评价。在此，使用先前步骤构建的模型预测统计抽样生成的试验数据。如果给定预定义阈值的预测误差过大，则应通过修改重新进行统计建模。回归模型计算预测值和实际值的偏差进行模型评估；分类和聚类模型以预测值和实际值的混淆矩阵为判别基准。混淆矩阵可以计算出多种特征，包括准确性、灵敏性、特异性等。

(Ⅳ)组合单一预测模型：将评估后的单一预测模型预测值做为新的输入数据带入倒数方差的公式中，通过运算在全新的组合模型中分配各单一预测模型在组合模型内的权重系数，建立组合模型。根据单一预测模型建模原则防止某单一预测模型权重过大影响最终的预测效果，权重分配仍以简单算法为主。

(Ⅴ)组合模型评估：通过与(Ⅲ)相同的方法对进行评估。

(Ⅵ)模型存储：建立了合格的组合模型后，对模型进行存储，并一并存储数据预处理。

如图3所示，在(Ⅱ)单一预测模型建立、(Ⅲ)单一预测模型评估和(Ⅴ)组合模型评估后设立检查点，检查前一步骤是否合适。

模型迁移

如前所述，本发明希望最终获得的组合模型还具有较好的泛用性，即在不同批次、底物、工艺、规模以及存在光谱变化差异的情况下，都能用同一套组合模型进行准确预测。在本发明中，有时也将这样的特性称为模型迁移性。

如果模型迁移性好，则在数据学习的所有程序都正确执行的情况下，已经准确经过调整的模型也能够在未来很好地预测新的数据。然而，由于各种原因，在现实中往往并不总是如此，一个模型很可能无法预测新的数据，或者需要进一步对模型的参数进行调整。

在使用拉曼光谱数据的情况下，该现象十分严重。这是由于拉曼光谱的检测非常灵敏，仪器、测量条件或样品制备中的微小变化可反映为拉曼位移的实质性偏移或拉曼强度的变化，而这项光谱变化在实践中是不可能避免的，它们使得在新的生物反应中，在预测新数据时不能很好地发挥现有模型的性能。因此不同生物反应器，甚至仅仅是不同批次的细胞培养之间，都可能不具有很好的模型迁移性。

当然，在可能的情况下，最为理想的是为每一个批次的细胞培养过程分别从头建立新的模型。但这显然需要重新获得大量的训练数据后，重新执行一次组合模型建立流程，在各方面而言都是不经济的。

在这种情况下，本发明建立了两种模型迁移方法。图4示出了模型迁移的两种方法，其中图4的上半部分示出了规模匹配方法，图4的下半部分示出了规模校正方法。本领域技术人员应当理解，此处虽然将模型迁移方法的两种方法称为规模校正和规模匹配，但需要进行模型迁移的情况不限于生物反应规模上的改变，底物、工艺等发生改变时的模型迁移也可采用规模校正或规模校正方法来进行。

在本发明中，“模型迁移”是指将根据本发明的建立机器学习组合模型的方法所建立的组合模型进行调整，以使其适用于新批次生物反应。所述“新批次生物反应”是指不同批次的生物反应，包括同一生物反应的不同运行批次，也包括不同的生物反应(例如底物、工艺和/或规模不同的生物反应)，将新批次生物反应的数据称为“新批次数据集”。新批次数据集不同于原先建立机器学习组合模型所使用的原训练数据集。建立机器学习组合模型时使用的训练数据集与新批次数据集进行了结合，将由此训练而得的机器学习组合模型称为“经迁移的模型”。

具体而言，进行模型迁移的方法包括以下两种。

模型迁移方法1：规模校正。选择规定比例的新批次训练数据集(包括光谱数据和与其相应的离线检测数据)加入到现有模型的训练集中，重新训练模型，让现有模型克服不同批次、底物、工艺、规模、光谱变化的差异，获得准确的预测结果。规定比例为选自1％～10％的值，优选为选自1.5％～7.5％的值，更优选为选自2％～5％的值。

模型迁移方法2：规模匹配。按照描述的试验方法收集新批次的一轮全新的试验数据(新的批次、底物、工艺、规模)，将新批次训练数据集中与所述原训练数据集中采集时间与之相同的原训练数据相比数值差异小于规定阈值的新批次训练数据并入所述原训练数据集。具体地，将新批次训练数据集中的光谱数据与原训练集中采集时间与之相同的光谱数据进行比较，由此得到光谱数值差异小于规定阈值的新批次训练数据集中的光谱数据。将新批次训练数据集中的光谱数据和与其相应的离线检测数据加入到原训练集中，用于重新训练模型，并将新模型应用至全新试验环境中。所述规定阈值为选自1％～10％的值，优选为选自3％～8％的值，进一步优选为选自4％～6％的值，最优选5％。

在模型迁移中，所述重新训练模型是指在将新批次训练集加入到原训练集中由此构成新训练集后，使生物反应器细胞培养液的组分浓度的数据集包括将新训练集、原验证数据集、和原测试集；分别采用多种机器学***方和，由预测误差平方和的大小确定组合模型中多个单一预测模型的权重；通过权重赋值法，将多个单一预测模型组合获得机器学习组合模型。

所述重新训练模型可采用预先建立的流程或程序，采用自动校准、一次性校准、定时校准的方式自动化进行。

后述的实施例详细描述了以上两种数据迁移方法的效果。

本方面的方法能够使用任何合适的生物反应器。例如，所述生物反应器可以包括发酵罐、搅拌罐反应器、贴壁式生物反应器、波型生物反应器、一次性生物反应器等。

所述生物反应器能由各种不同的材料制成。例如，在一些实施方式中，所述生物反应器可由金属(例如，不锈钢)制成。金属生物反应器通常设计为可重复使用。或者，所述生物反应器可包括由刚性聚合物或柔性聚合物膜制成的一次性生物反应器。例如，当由刚性聚合物制成时，所述生物反应器壁能够是独立的。或者，所述生物反应器能够由柔性聚合物膜或形状适应材料制成，该材料能够是液体不可渗透的并且能具有内部亲水性表面。

所述生物反应器可具有任何合适的容积。尤其，在一种实施方式中，所述生物反应器具有适于实验室小规模生产、中试放大、或实际大型生产的容积。

所述生物反应器可具有各种附加装置，例如，搅拌装置、挡板、鼓泡器、气体供应、热交换器或热循环器端口等，其允许培养和增殖生物细胞。

在一些实施方式中，所述细胞为真核细胞(例如，哺乳动物细胞)或原核细胞。所述哺乳动物细胞能够是例如人或啮齿动物或牛科动物细胞系或细胞株。此类细胞、细胞系或细胞株的实例是例如小鼠骨髓瘤(NSO)-细胞系、中国仓鼠卵巢(CHO)-细胞系、HT1080、H9、HepG2、MCF7、MDBK Jurkat、NIH3T3、PC12、BHK(幼仓鼠肾细胞)、VERO、SP2/0、YB2/0、Y0、C127、L细胞、COS(例如，COS1和COS7)、QC1-3、HEK-293、VERO、PER.C6、HeLA、EBl、EB2、EB3、溶瘤或杂交瘤细胞系。优选地，所述哺乳动物细胞是CHO细胞系。在一些实施方式中，所述细胞是CHO细胞。

在一些实施方式中，所述细胞培养的产物(细胞的表达物或分泌物(例如，重组治疗或诊断产物))。所述细胞培养的产物的实例包括但不限于抗体分子(例如，单克隆抗体、双特异性抗体)、抗体模拟物(与抗原特异性结合但与抗体在结构上无关的多肽分子(例如，DARPin、亲合体、adnectin或IgNAR))、融合蛋白(例如，Fc融合蛋白、嵌合细胞因子)、其他重组蛋白(例如，糖基化蛋白、酶、激素)、病毒治疗剂(例如，抗癌溶瘤病毒、用于基因治疗和病毒免疫治疗的病毒载体)、细胞治疗剂(例如，多能干细胞、间充质干细胞和成体干细胞)、疫苗或脂质包封的颗粒(例如，外泌体、病毒样颗粒)、RNA(例如，siRNA)或DNA(例如，质粒DNA)、抗生素或氨基酸。在一些实施方式中，所述装置、设备和方法能用于生产生物仿制药。

只要对细胞生长和目标物质的分泌有利，本发明所述的方法运可以用于各种生物反应器细胞培养中，而不限于其具体使用的工艺。但是，在各种生物反应器细胞培养工艺中，优选在以下的一种或几种培养工艺中使用本发明的方法：传统的批次补料工艺(TFB)，加强性批次补料工艺(IFB)，浓缩性批次补料工艺(CFB)，连续性灌流工艺(Perfusion)。

与上述方法实施例相对应，本发明还公开了使用或实现上述方法的***。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述***所包含的模块及其具体工作过程可以参考前述方法中的对应过程，在此不再赘述。

本发明还提供可以用来实施本发明的方法的电子设备。所述设备至少包括存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现前述方法。所述设备包括中央处理单元(CPU)，其可以根据存储在只读存储器(ROM)中的计算机程序指令或者从存储单元加载到随机访问存储器(RAM)中的计算机程序指令，来执行各种适当的动作和处理。在RAM中，还可以存储所述设备操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。

输入/输出(I/O)接口也连接至总线。所述设备中的多个部件连接至I/O接口，包括：输入单元，例如键盘、鼠标等；输出单元，例如各种类型的显示器、扬声器等；存储单元，例如磁盘、光盘等；以及通信单元，例如网卡、调制解调器、无线通信收发机等。通信单元允许设备通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元执行上文所描述的各个方法和处理，例如本发明的方法。例如，在一些实施例中，本发明的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元。在一些实施例中，计算机程序的部分或者全部可以经由ROM和/或通信单元而被载入和/或安装到所述设备上。当计算机程序加载到RAM并由CPU执行时，可以执行上文描述的方法的一个或多个步骤。

任选地，CPU可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行本发明的方法。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

下面结合实施例进一步说明本发明。

实施例

数据获得

首先通过湿实验的细胞培养过程，获得离线检测数据和拉曼光谱数据。

细胞培养试验部分使用了一株生产单抗的CHO-K1的细胞系，其在种子阶段摇床(Kuhner)中以36.5℃、转速110rpm、CO₂浓度水平6％、使用Cytiva公司的Hyclone Actipro培养基进行培养。生产培养阶段使用3L和200L反应器，其初始培养体积分别是1.5L和140L，培养温度36.5℃，酸碱度设定值6.90+0.25，溶氧饱和度40％，初始接种密度1.0×10⁶cells/mL，补料培养基也是Cytiva公司的Hyclone Cell boost 7a/7b(10％/1％)。

获得离线检测数据：在生产培养阶段，将拉曼设备探头放入培养液中。按时间每天5次取样并使用Beckman公司的Vi-Cell XR检测活细胞密度，使用Roche公司的Cedex Bioanalyzer检测葡萄糖、乳酸和目标蛋白浓度，使用Agilent公司的HPLC检测氨基酸浓度。

获得拉曼光谱数据：使用配备浸没光学探针的拉曼Rxn2分析仪(Kaiser OpticalSystems)。将探针安装在3L的生物反应器(Applikon)中，直接浸入细胞培养悬液中。在整个实验过程中记录不同生物反应器的拉曼光谱。对于单个记录的光谱，用10s暴露时间捕获30个后续光谱并取平均值，导致每次生物反应器的采集间隔约为5min。激光激发波长为785nm，提供100～3425cm-¹的光谱覆盖(拉曼位移)。在读取光谱数据后，将光谱文件转换成光谱数值，将每个样本包含一个光谱文件和离线目标值按照时间变化一一对应，得到建模的特征数据(不同拉曼位移对应的光谱值)和目标值，然后开始数据预处理。

获得数据后，采用以下方法进行数据预处理。

本实施例中，通过简单的统计学方法初步的筛除异常数据点。

进行S-G滤波平滑，利用多项式进行数据平滑，基于最小二乘法，去除“光谱毛刺”，消除随机噪音。

采用S-G平滑进行尖刺峰去除，其中，设平滑窗口的宽度

n＝2m+1

在窗口中拟合n＝2m+1等中心点数据，以缩放K阶多项式，进行S-G平滑。

-m＜j＜m；i≤n

然后，采用傅立叶变换进行拉曼位移校正和光强校正。

基线校准可以采用二阶求导、多项式差值、或一阶求导的方式。本实施例中，使用二阶求导来进行基线校准。

之后，利用S-G平滑一阶卷积公式进行平滑。

在本实施例中，采用光谱求导作为求导，消除基线漂移、平缓背景噪音，提高分辨率。

最后，利用标准正态分布进行归一化。

模型建立

如前所述，在本发明中，针对经过预处理的数据，分别使用偏最小二阶乘(PLS)、立方树(Cubist)、随机森林(RF)、支持向量机(SVM)、时间序列5种算法，分别建立单一预测模型，再将预测结果使用方差倒数(RV)确定预测结果与验证集之间的差距，由此确定各个算法在组合模型中的权重，计算获得新的预测结果，建立机器学习组合模型。

建立单一预测模型所使用的数据是相同的。训练数据集来源于3个相同条件的fed-batch生物反应器，预测数据集来自第4个相同培养条件的生物反应器。训练数据集包含160条光谱数据和其对应的离线检测数据，验证数据集包含50条光谱数据和其对应的离线检测数据，测试数据集包含70条光谱数据和其对应的离线检测数据。

通过本发明所述的偏最小二阶乘(PLS)、立方树(Cubist)、随机森林(RF)、支持向量机(SVM)、时间序列5种算法的组合模型进行预测后，将预测结果与验证集进行比较。具体预测结果和比较见于图5～10和表1。表1和2中的RMSEP是指预测误差均方根。

表1

氨基酸RMSEP数据

为了获得定量的比较结果，表2示出了将PLS模型和本发明的机器学习组合模型采用留一交互验证法进行比较的结果。

表2

以下进一步验证本发明方法的模型迁移性。图11和图12示出了模型在不同的规模之间迁移后进行预测，所得的两项指标(活细胞密度、葡萄糖浓度)的预测效果图。

表3

表3比较了两种迁移方法，发现规模校正的模型迁移方法更更适合实际应用。

Claims

1.一种建立用于预测细胞培养液组分浓度的机器学习组合模型的方法，其包括

2.如权利要求1所述的方法，其中，所述多种机器学习算法是包括选自以下至少两种：偏最小二阶乘、立方树、随机森林、支持向量机、时间序列。

3.如权利要求1所述的方法，其中，所述组分浓度的数据集包括在线拉曼光谱数据和其对应的离线检测数据，所述离线检测数据的采样时间与对应的在线拉曼光谱数据匹配。

4.如权利要求1所述的方法，其中，所述组分浓度选自活细胞密度、葡萄糖浓度、乳酸浓度、目标产物浓度和氨基酸浓度。

5.如权利要求3所述的方法，其中，还包括对拉曼光谱数据进行数据预处理，所述数据预处理包括以下至少一种：筛除异常数据点、尖刺峰去除、拉曼位移校正和光强校正、基线校准、平滑、求导。

6.一种用于预测细胞培养液组分浓度的机器学习组合模型，其是通过如权利要求1所述的方法建立的。

7.一种实时监测细胞培养液组分浓度的方法，其中，包括

1)获得实时检测的细胞培养液组分浓度，

2)用如权利要求6所述的机器学习组合模型，由步骤1)获得的实测组分浓度来预测细胞培养液组分浓度，由此实现对细胞培养液组分浓度的实时监测。

8.一种实时监测细胞培养液组分浓度的方法，其中，包括

1)以权利要求6所述的机器学习组合模型为原模型，相对于该原模型进行模型迁移，从而得到经迁移的模型；

2)获得实时检测的细胞培养液组分浓度，

其中，所述模型迁移包括

a)获得建立所述原模型所用的原数据集、以及新批次生物反应的细胞培养液组分浓度的新批次训练数据集；所述原数据集包括原训练数据集、原验证数据集、和原测试数据集；对新批次训练数据集和原训练数据集进行规模校正或规模匹配，由此获得新训练数据集；

b)使用新训练数据集、原验证数据集、和原测试数据集,分别采用多种机器学习算法，建立多个单一预测模型，其中，在用新训练数据集建立预测模型后，对原验证数据集进行预测；

c)将预测结果与原测试数据集进行比较，获得多个单一预测模型的预测误差平方和，由预测误差平方和的大小确定组合模型中多个单一预测模型的权重；

d)通过权重赋值法，将多个单一预测模型组合获得经迁移的模型；

所述规模匹配包括将新批次训练数据集中与所述原训练数据集中采集时间与之相同的原训练数据相比数值差异小于规定阈值的新批次训练数据并入所述原训练数据集；

优选地，所述方法还包括以下一项或多项特征：

所述多种机器学习算法是包括选自以下至少两种：偏最小二阶乘、立方树、随机森林、支持向量机、时间序列；

新批次训练数据集包括在线拉曼光谱数据和其对应的离线检测数据，所述离线检测数据的采样时间与对应的在线拉曼光谱数据匹配；

所述组分浓度选自活细胞密度、葡萄糖浓度、乳酸浓度、目标产物浓度和氨基酸浓度；

还包括对拉曼光谱数据进行数据预处理，所述数据预处理包括以下至少一种：筛除异常数据点、尖刺峰去除、拉曼位移校正和光强校正、基线校准、平滑、求导。

9.如权利要求8所述的方法，其中，所述规定比例为选自1％～10％的值，优选为选自1.5％～7.5％的值，更优选为选自2％～5％的值；所述规定阈值为选自1％～10％的值，优选为选自3％～8％的值，进一步优选为选自4％～6％的值，最优选5％。

10.一种预测生物反应器中细胞培养液组分浓度的电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如权利要求7～9中任一项所述的方法。