CN116798506B

CN116798506B - 一种毕赤酵母发酵过程中菌体浓度的预测方法

Info

Publication number: CN116798506B
Application number: CN202310291867.6A
Authority: CN
Inventors: 王博; 聂永鑫; 张立刚; 朱湘临; 朱齐伟
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2023-03-23
Filing date: 2023-03-23
Publication date: 2024-03-22
Anticipated expiration: 2043-03-23
Also published as: CN116798506A

Abstract

本发明提供了一种毕赤酵母发酵过程中菌体浓度的预测方法，属于毕赤酵母发酵技术领域，包括：获取毕赤酵母的源域数据训练源域长短时记忆神经网络；将源域长短时记忆神经网络的模型参数迁移到目标域长短时记忆神经网络中；获取毕赤酵母的目标域数据；使用平衡分布适配算法适配源域数据与目标域数据；固定源域长短时记忆神经网络的第一层参数，利用平衡分布适配后的源域数据辅助目标域数据训练目标域长短时记忆神经网络的剩余层参数，最终获得精准的目标域预测模型；利用目标域预测模型对新工况下的毕赤酵母在发酵过程中的菌体浓度进行预测。该方法能够对不同工况下的毕赤酵母发酵过程中的菌体浓度进行预测。

Description

一种毕赤酵母发酵过程中菌体浓度的预测方法

技术领域

本发明属于毕赤酵母发酵技术领域，具体涉及一种毕赤酵母发酵过程中菌体浓度的预测方法。

背景技术

巴斯德毕赤酵母表达***是近十年发展起来的真核表达体系，是最为成功的外源蛋白表达***之一，与现有的其它表达***相比，巴斯德毕赤酵母在表达产物的加工、外分秘、翻译后修饰以及糖基化修饰等方面有明显的优势，现已广泛用于外源蛋白的表达。然而毕赤酵母发酵过程具有多变量、强耦合、非线性且发酵过程数据多等特点，很难建立精确的数学模型。同时，不同工况发酵过程数据分布存在差异，传统软测量建模方法没有考虑到这一情况，进行不同工况发酵过程建模耗费时间长且容易污染菌体。解决上述问题是毕赤酵母发酵过程控制的主要任务。

传统的建模方法比如支持向量机(SVM)只能用于小样本数据学习。而长短时记忆神经网络(LSTM)建模具有许多优点，非常适合解决复杂的工业过程控制问题。毕赤酵母菌发酵数据具有高度复杂的非线性和时间序列特点，这与长短时记忆网络学习机制有较强的契合度，目前长短时记忆网络模型在生物发酵关键生物参数的预测方向正逐渐兴起。但是这并没有考虑到不同发酵工况下的影响，在毕赤酵母菌实际工业化发酵过程中，由于工况的不同，导致发酵各阶段关键参量的变化趋势不同，所以数据分布存在差异，从而造成训练好的模型失效，预测精度降低。

总之，现有技术存在在不同工况下，用于预测毕赤酵母发酵过程中菌体浓度的模型失效，预测精度降低的问题。

发明内容

为了克服上述现有技术存在的不足，本发明提供了一种毕赤酵母发酵过程中菌体浓度的预测方法。

为了实现上述目的，本发明提供如下技术方案：

一种毕赤酵母发酵过程中菌体浓度的预测方法，包括：

获取包含菌体浓度数据的毕赤酵母的初始发酵数据，作为源域数据；

将源域数据中除了菌体浓度数据以外的数据输入长短时记忆神经网络中对长短时记忆神经网络进行训练，当长短时记忆神经网络输出的数据与初始发酵数据中的菌体浓度数据数值相同时，停止对长短时记忆神经网络的训练，得到最佳源域预测模型；

将最佳源域预测模型的模型参数迁移到目标域长短时记忆神经网络中；

获取毕赤酵母在新工况下的发酵数据，作为目标域数据；

使用平衡分布适配算法，适配源域数据与目标域数据，减小源域和目标域间的边缘概率分布差异和条件概率分布差异；

固定目标域长短时记忆神经网络的第一层参数，利用适配后的源域数据与目标域数据共同训练目标域长短时记忆神经网络的剩余层参数，获得最终的目标域预测模型；

利用最终的目标域预测模型，对新工况下的毕赤酵母在发酵过程中的菌体浓度进行预测。

进一步，所述使用平衡分布适配算法适配源域数据与目标域数据的表达式为：

DISTANCE(D_s,D_t)≈(1-μ)DISTANCE(P(X_s),P(X_t))+μDISTANCE(P(y_s|X_s),P(y_t|X_t)

式中，μ∈[0,1]表示平衡因子；DISTANCE(P(Xs),P(Xt))为源域数据与目标域数据的边缘概率分布的距离，DISTANCE(P(y_s|Xs),P(y_t|Xt))为源域数据与目标域数据的条件概率分布的距离；

当μ→0时表示源域和目标域数据本身存在较大的差异性，此时，边缘分布适配更重要；当μ→1时，表示源域和目标域数据集有较高的相似性。

进一步，源域数据与目标域数据的边缘概率分布的距离为：

式中，A为最优变换矩阵，M₀为：

式中，n,m分别是源域和目标域样本的个数。

进一步，源域数据与目标域数据的条件概率分布的距离为：

式中，A为最优变换矩阵，M_c为：

式中，n_c，m_c分别表示源域和目标域中来自第c类的样本个数；分别表示源域和目标域中属于类别c的样本。

进一步，所述减小源域和目标域间的边缘概率分布差异和条件概率分布差异的最优化问题为：

式中，tr()表示矩阵的迹；s.t.表示约束条件；是正则项；XHX^T是均方差矩阵；I是单位矩阵。

进一步，利用拉格朗日乘子法解决减小源域和目标域间的边缘概率分布差异和条件概率分布差异的最优化问题，其包括：

取拉格朗日乘子为Φ＝(φ₁,φ₂,...φ_m)，将式(12)的拉格朗日函数变为：

令得到广义特征值分解：

求解公式(14)的m个最小的特征向量得到最优变换矩阵A，通过最优变换矩阵A来缩小源域与目标域数据分布差异。

本发明提供的一种毕赤酵母发酵过程中菌体浓度的预测方法具有以下有益效果：

本发明固定了LSTM网络的低层参数作为各工况下的通用参数以节省模型训练时间，选取新工况发酵过程中少量数据作为目标域数据即可，同时能够防止菌体遭受污染，然后通过平衡分布适配算法减小源域与目标域之间的数据分布差异，最终新工况下的毕赤酵母软测量模型通过平衡适配后的源域数据辅助实际发酵过程的少量数据得以快速建立。本方法不仅能够有效提高毕赤酵母发酵过程软测量模型精度并且适应于变工况下毕赤酵母菌体浓度的预测，而且可以节省大量模型训练的时间。解决了现有技术中，在不同工况下，用于预测毕赤酵母发酵过程中菌体浓度的模型失效，预测精度降低的问题。

附图说明

为了更清楚地说明本发明实施例及其设计方案，下面将对本实施例所需的附图作简单地介绍。下面描述中的附图仅仅是本发明的部分实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种毕赤酵母发酵过程中菌体浓度的预测方法示意图；

图2为本发明实施例的LSTM的基本单元结构示意图。

具体实施方式

为了使本领域技术人员更好的理解本发明的技术方案并能予以实施，下面结合附图和具体实施例对本发明进行详细说明。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例：

本发明提供了一种毕赤酵母发酵过程中菌体浓度的预测方法，具体如图1所示，包括：获取包含菌体浓度数据的毕赤酵母的初始发酵数据，作为源域数据；将源域数据中除了菌体浓度数据以外的数据输入长短时记忆神经网络中对长短时记忆神经网络进行训练，当长短时记忆神经网络输出的数据与初始发酵数据中的菌体浓度数据数值相同时，停止对长短时记忆神经网络的训练，得到最佳源域预测模型；将最佳源域预测模型的模型参数迁移到目标域长短时记忆神经网络中；获取毕赤酵母在新工况下的发酵数据，作为目标域数据；使用平衡分布适配算法，适配源域数据与目标域数据，减小源域和目标域间的边缘概率分布差异和条件概率分布差异；固定目标域长短时记忆神经网络的第一层参数，利用适配后的源域数据与目标域数据共同训练目标域长短时记忆神经网络的剩余层参数，获得最终的目标域预测模型；利用最终的目标域预测模型，对新工况下的毕赤酵母在发酵过程中的菌体浓度进行预测。

需要注意的是，对于长短时记忆神经网络的训练，其输出的菌体浓度数据数值并不会完全与初始发酵数据中的数值相同，而是当数值在一定的阈值范围内，我们认定其相同。

以下为本发明实施细节：

1.1长短时记忆神经网络结构

长短时记忆神经网络由输入层、记忆单元层(细胞层)、全连接层和输出层组成。输入层接受输入数据，记忆单元层学习时间序列数据的周期特征，全连接层进行数据维度的转换，输出层传递预测数据。LSTM是基于循环神经网络(recurrent neural network,RNN)改进的一种深度学习算法，弥补了普通RNN在跨长时间步长时容易产生梯度消失和***问题并且长期记忆能力不足等问题，从而能够真正有效的利用长距离的时效信息，非常适用于文本序列数据的任务。

LSTM单元主要由输入门、遗忘门、输出门组成，其中h_t-1，h_t表示LSTM在前一时刻以及当前时刻的输出，c_t-1,c_t表示前一时刻和上一时刻的存储单元状态，x_t表示输入。其具体结构如图2所示。

1)计算遗忘门f_t。遗忘门决定t-1时刻单元状态有多少保留到当前单元状态中；

f_t＝σ(W_f[h_t-1,x_t]+b_f) (1)

2)计算输入门i_t。输入门决定从新获得的信息中有多少信息需要更新，计算结果将成为更新神经元状态c_t的一部分；

i_t＝σ(W_i[h_t-1,x_t]+b_i) (2)

3)计算输出门o_t。输出门决定在更新后的神经元状态c_t中有多少信息变为隐藏层状态变量h_t；

o_t＝σ(W_o[h_t-1,x_t]+b_o) (5)

h_t＝o_t⊙tanh(c_t) (6)

式中，W_f、W_i、W_c、W_o为相应控制门的权重矩阵，b_f、b_i、b_c、b_o为相应偏置向量；σ为Sigmoid激活函数，其取值范围为[0,1],0表示全部舍弃，1表示全部保留；tanh为双曲正切激活函数，⊙表示矩阵元素的乘积。借助3个控制门和存储单元，LSTM可以读取、重置和更新长时间的信息。

1.2平衡分布适配算法(BDA)

多工况情况下，传统软测量模型恶化的原因是实时数据与训练数据的概率分布失配，如果通过一种变化方法使得不同工况的数据在新的空间达到边缘分布和条件分布适配，则可以将源领域的模型或知识迁移到新的工况。

平衡分布适配(Balanced Distribution Adaptation，BDA)用于在降维过程中共同适应源域与目标域的边缘分布与条件分布，但是对于分布差异较大的情况并不能使其分布完全适配。鉴于此，本发明综合各个工况下数据分布的差异、适配后的数据分布差异，提出使用最大均值差异-平衡分布适配的迁移学习方法。

BDA能够根据特定的数据领域，自适应的调整分布适配过程中边缘分布和条件分布的重要性。准确而言，BDA通过采用一种平衡因子μ来动态调整两个分布之间的距离。

DISTANCE(D_s,D_t)≈(1-μ)DISTANCE(P(X_s),P(X_t))+μDISTANCE(P(y_s|X_s),P(y_t|X_t) (7)

式中，μ∈[0,1]表示平衡因子。当μ→0，这表示源域和目标域数据本身存在较大的差异性，因此，边缘分布适配更重要；当μ→1时，这表示源域和目标域数据集有较高的相似性，因此，条件概率分布适配更加重要。

综合上面的分析可知，平衡因子可以根据实际数据分布的情况，动态地调节每个分布的重要性，并取得良好的分布适配效果。平衡分布适配主要思想就是寻找一个变换矩阵A，当数据经过变化矩阵变换后，P(A^TX_s)和P(A^TX_t)的距离，以及P(y_s|A^TX_s)和P(y_t|A^TX_t)之间的距离都能尽可能地接近。

1.2.1边缘分布适配

为了减小P(X_s),P(X_t)的分布差异，采用最大均值差异来计算源域和目标域边缘概率分布的距离，即：

式中，M₀为MMD矩阵：

式中，n,m分别是源域和目标域样本的个数。通过最小化式(9)使得式(8)最小化，域间的边缘分布在新特征表示下更加接近。

1.2.2条件分布适配

目标域中存在大量的无标签数据，导致条件分布P(y_s|X_s)和P(y_t|X_t)不能直接建模。采用(x_s,y_s)来训练一个简单的分类器，到x_t上直接进行预测，总能够得到一些伪标签之后根据伪标签来计算。根据伪标签，可以近似匹配预测空间Y中每一标签c∈{1,2,…,C}的条件分布P(y_s＝c|X_s)和P(y_t＝c|X_t)，通过MMD来测量条件分布的距离，即

式中，Mc为：

n_c，m_c分别表示源域和目标域中来自第c类的样本个数；分别表示源域和目标域中属于类别c的样本。通过最小化式(11)使得式(10)最小，在新的特征表示下域间的条件分布更加接近。

1.2.3最优化问题

为了提高BDA的迁移学习有效性和鲁棒性，需要同时最小化领域间的边缘分布和条件分布，因此BDA的最优化问题为:

式中，的是正则项，使得模型是良好定义的，约束条件表示转换后的数据A^TX能够保证原始数据的内部属性。

1.2.4特征变换

解决平衡分布适配最优化问题采用拉格朗日乘子法，取拉格朗日乘子为Φ＝(φ₁,φ₂,...φ_m)，则式(12)的拉格朗日函数为：

令得到广义特征值分解：

最后，通过求解公式(14)的m个最小的特征向量即可求解最优适应矩阵A，通过最优适应矩阵A来缩小源域与目标域数据分布差异。

1.3基于平衡分布适配的长短期记忆神经网络软测量建模

由于毕赤酵母实际工业化发酵过程中工况的不同，导致发酵各阶段关键参量的变化趋势不同，从而造成训练好的LSTM模型失效，预测精度降低。工况发生变化主要有两种原因，一种是由于操作工艺的不断更新，产物原材料的更替造成；第二种是环境参量的变化造成。工况的变化比如罐体压力、搅拌转速、溶解氧浓度以及pH值等环境参量的大小都会对发酵过程中的关键参量菌体浓度的变化有所影响，从而使得源域数据与目标域数据分布存在差异，以至于原始的LSTM软测量模型失效。

为了解决这一问题，本发明利用迁移学***衡分布适配的方法对已知的信息进行充分的利用并且加以迁移，改善了软测量模型对不同分布数据预测的泛化能力，提高模型的预测精度。同时考虑LSTM网络中LSTM层作为特征提取器，用于提取输入时间序列数据的特征，由于神经网络越到高层提取的信息越有专有化，而前几层的信息则比较通用所以固定第一层参数，只对后边几层参数借助平衡分布适配后的源域数据以及目标域数据对模型进行训练，提出了固定通用参数层并基于最大均值差异迁移学***衡分布适配的软测量建模策略，如图1所示。

以上所述实施例仅为本发明较佳的具体实施方式，本发明的保护范围不限于此，任何熟悉本领域的技术人员在本发明披露的技术范围内，可显而易见地得到的技术方案的简单变化或等效替换，均属于本发明的保护范围。

Claims

1.一种毕赤酵母发酵过程中菌体浓度的预测方法，其特征在于，包括：

获取毕赤酵母在新工况下的发酵数据，作为目标域数据；

2.根据权利要求1所述的一种毕赤酵母发酵过程中菌体浓度的预测方法，其特征在于，所述使用平衡分布适配算法适配源域数据与目标域数据的表达式为：

式中，μ∈[0,1]表示平衡因子；DISTANCE(P(X_s),P(X_t))为源域数据与目标域数据的边缘概率分布的距离，DISTANCE(P(y_s|X_s),P(y_t|X_t))为源域数据与目标域数据的条件概率分布的距离；

3.根据权利要求2所述的一种毕赤酵母发酵过程中菌体浓度的预测方法，其特征在于，源域数据与目标域数据的边缘概率分布的距离为：

式中，A为最优变换矩阵，M₀为：

式中，n,m分别是源域和目标域样本的个数。

4.根据权利要求3所述的一种毕赤酵母发酵过程中菌体浓度的预测方法，其特征在于，源域数据与目标域数据的条件概率分布的距离为：

式中，A为最优变换矩阵，M_c为：

5.根据权利要求4所述的一种毕赤酵母发酵过程中菌体浓度的预测方法，其特征在于，所述减小源域和目标域间的边缘概率分布差异和条件概率分布差异的最优化问题为：

6.根据权利要求5所述的一种毕赤酵母发酵过程中菌体浓度的预测方法，其特征在于，利用拉格朗日乘子法解决减小源域和目标域间的边缘概率分布差异和条件概率分布差异的最优化问题，其包括：

令得到广义特征值分解：