EA043314B1

EA043314B1 - AUTOMATIC CALIBRATION AND AUTOMATIC MAINTENANCE OF RAMAN SPECTROSCOPIC MODELS FOR REAL-TIME PREDICTIONS

Info

Publication number: EA043314B1
Application number: EA202191101
Authority: EA
Inventors: Адитиа Тулсиан
Original assignee: Эмджен Инк.
Priority date: 2018-10-23
Filing date: 2019-10-23
Publication date: 2023-05-12

Description

Перекрестная ссылка на родственные заявкиCross reference to related applications

Испрашивается приоритет предварительной заявки на патент США № 62/749359, поданной 23 октября 2018 г., предварительной заявки на патент США № 62/833044, поданной 12 апреля 2019 г., и предварительной заявки на патент США № 62/864565, поданной 21 июня 2019 г., каждая из которых включена в данный документ посредством ссылки во всей своей полноте.Claims priority to U.S. Provisional Patent Application No. 62/749359 filed Oct. 23, 2018, U.S. Provisional Patent Application No. 62/833044 filed April 12, 2019, and U.S. Provisional Patent Application No. 62/864565 filed June 21 2019, each of which is incorporated herein by reference in its entirety.

Область техники, к которой относится изобретениеField of technology to which the invention relates

Настоящая заявка в целом относится к отслеживанию биофармацевтических процессов и/или управлению ими с использованием спектроскопических методик, таких как рамановская спектроскопия, и, в частности, относится к оперативной калибровке и обслуживанию моделей предсказания.This application generally relates to the monitoring and/or control of biopharmaceutical processes using spectroscopic techniques such as Raman spectroscopy, and in particular relates to the on-line calibration and maintenance of prediction models.

Предпосылки изобретенияBACKGROUND OF THE INVENTION

Устойчивое производство биотерапевтических белков при помощи биофармацевтического процесса в целом требует поддержания биореактором сбалансированных и согласованных параметров (например, концентраций клеточных метаболитов), что, в свою очередь, требует строгого отслеживания процесса и управления им. Для удовлетворения этих требований все больше применяются средства технологии анализа процессов (PAT). Некоторыми примерами традиционных средств PAT, которые используются в системах управления с обратной связью, являются оперативное отслеживание рН, растворенного кислорода и температуры клеточной культуры. В последние годы были исследованы и развернуты другие встраиваемые в процесс зонды для непрерывного отслеживания более сложных вещей, таких как плотность жизнеспособных клеток (VCD), глюкоза, лактат и другие критические клеточные метаболиты, аминокислоты, титр и критические показатели качества.Sustainable production of biotherapeutic proteins through a biopharmaceutical process generally requires the bioreactor to maintain balanced and consistent parameters (e.g., cellular metabolite concentrations), which in turn requires strict process monitoring and control. To meet these requirements, process analysis technology (PAT) tools are increasingly being used. Some examples of traditional PAT tools that are used in closed-loop control systems are on-line monitoring of pH, dissolved oxygen, and cell culture temperature. In recent years, other in-process probes have been explored and deployed to continuously monitor more complex things such as viable cell density (VCD), glucose, lactate and other critical cellular metabolites, amino acids, titer and critical quality indicators.

Рамановская спектроскопия является популярным средством PAT, широко используемым для оперативного отслеживания в биопроизводстве. Она представляет собой оптический метод, позволяющий выполнять неразрушающий анализ химического состава и молекулярной структуры. В рамановской спектроскопии падающее лазерное излучение рассеивается неупруго вследствие наличия мод молекулярных колебаний. Разность частот между падающими и рассеянными фотонами называется рамановским сдвигом, и вектор рамановского сдвига в зависимости от уровней интенсивности (называемый в данном документе рамановским спектром, результатом рамановского сканирования или вектором рамановского сканирования) можно проанализировать с целью определения химического состава и молекулярной структуры образца. Применения рамановской спектроскопии в анализе полимеров, фармацевтическом, биопроизводственном и биомедицинском анализе значительно увеличились в последние три десятилетия по мере совершенствования технологий лазерной выборки и детекторов. Вследствие этих технологических достижений рамановская спектроскопия в настоящее время представляет собой практическую методику анализа, используемую как внутри, так и вне лаборатории. С тех пор, как о применении в биопроизводстве рамановских измерений in-situ сообщили впервые, они были введены в использование для обеспечения оперативных предсказаний в реальном времени некоторых ключевых состояний процессов, таких как глюкоза, лактат, глутамат, глутамин, аммиак, VCD и т.д. Эти предсказания обычно основаны на калибровочной модели или модели мягкого датчика, построенной в автономных условиях на основе аналитических измерений из аналитического прибора. Для установления корреляции рамановского спектра с аналитическими измерениями обычно используют методы моделирования частично наименьших квадратов (PLC) и множественной линейной регрессии. Эти модели обычно требуют фильтрации путем предварительной обработки результатов рамановского сканирования перед калибровкой относительно аналитических измерений. После обучения калибровочной модели ее реализуют в условиях реального времени для обеспечения измерений in-situ с целью отслеживания процесса и/или управления им.Raman spectroscopy is a popular PAT tool widely used for on-line tracking in biomanufacturing. It is an optical technique that allows non-destructive analysis of chemical composition and molecular structure. In Raman spectroscopy, incident laser radiation is scattered inelastically due to the presence of molecular vibration modes. The frequency difference between the incident and scattered photons is called the Raman shift, and the vector of the Raman shift as a function of intensity levels (referred to herein as the Raman spectrum, Raman scan result, or Raman scan vector) can be analyzed to determine the chemical composition and molecular structure of the sample. Applications of Raman spectroscopy in polymer analysis, pharmaceutical, biomanufacturing, and biomedical analysis have increased significantly in the last three decades as laser sampling and detector technologies have improved. As a result of these technological advances, Raman spectroscopy is now a practical analysis technique used both inside and outside the laboratory. Since the application of in-situ Raman measurements in biomanufacturing was first reported, they have been put into use to provide operational, real-time predictions of some key process states such as glucose, lactate, glutamate, glutamine, ammonia, VCD, etc. d. These predictions are typically based on a calibration or soft sensor model built offline from analytical measurements from the analytical instrument. Partial least squares (PLC) and multiple linear regression modeling techniques are commonly used to correlate the Raman spectrum with analytical measurements. These models typically require filtering by preprocessing the Raman scan results before calibration against analytical measurements. Once the calibration model is trained, it is implemented in real time to provide in-situ measurements for process monitoring and/or control.

Калибровка рамановской модели для биофармацевтических применений является нетривиальной, так как биофармацевтические процессы обычно действуют в условиях жестких ограничений и норм. В текущем известном уровне техники подход к калибровке рамановской модели в биофармацевтической промышленности заключается в том, что, в первую очередь запускается несколько исследований производственного цикла для генерирования релевантных данных, которые используются для установления корреляции рамановского спектра с аналитическим измерением (измерениями). Эти исследования являются как дорогостоящими, так и трудоемкими, так как каждый производственный цикл может длиться в лабораторных условиях, например, от двух до четырех недель. Кроме того, для аналитических приборов может являться доступным лишь ограниченное количество выборок (например, для того чтобы убедиться, что лабораторный биореактор сохраняет значительную массу жизнеспособных клеток). Фактически нередко случается, что при поточных или автономных аналитических измерениях ежедневно доступно лишь одно или два измерения. Ситуацию дополнительно усугубляет то, что лучшие современные применения дают калибровочные модели, привязанные к конкретному процессу, конкретной формуле или профилю питательной среды биореактора и конкретным рабочим условиям. Поэтому при изменении любой из вышеупомянутых переменных может потребоваться повторная калибровка моделей на основе новых данных. Фактически как калибровка рамановских моделей, так и обслуживание моделей требуют выделения значительных ресурсов и обычно выполняются в автономных условиях. И хотя были предложены подходы, в которых модели адаптируют к новым рабочим условиям (например, рекурсивный ме- 1 043314 тод, метод скользящего окна и разностный временной метод), эти способы могут быть неспособны адекватно справляться с резкими изменениями в процессе.Calibrating a Raman model for biopharmaceutical applications is non-trivial, as biopharmaceutical processes typically operate under stringent constraints and regulations. The current prior art approach to calibrating a Raman model in the biopharmaceutical industry is to first run multiple run-through studies to generate relevant data that is used to correlate the Raman spectrum with the analytical measurement(s). These studies are both expensive and time-consuming, since each production run can last, for example, two to four weeks under laboratory conditions. In addition, only a limited number of samples may be available for analytical instruments (for example, to ensure that a laboratory bioreactor retains a significant mass of viable cells). In fact, it is not uncommon for in-line or offline analytical measurements to have only one or two measurements available each day. To further complicate the situation, the best current applications come from calibration models that are tied to a specific process, a specific bioreactor feed formula or profile, and specific operating conditions. Therefore, if any of the above variables change, models may need to be recalibrated based on new data. In fact, both Raman model calibration and model maintenance require significant resources and are typically performed offline. Although approaches have been proposed that adapt models to new operating conditions (eg, recursive, sliding window, and time difference methods), these methods may not be able to adequately handle sudden changes in the process.

Существует несколько публикаций, в которых описаны обобщенные рамановские модели на основе традиционных хемометрических методов (например, моделирование PLS) для множества молекул. Однако в этих обобщенных моделях предполагается, что в процессах используются подобные, если не одинаковые, составы питательной среды и/или рабочие условия процесса. Питательные среды и процессы обычно являются платформенными, с небольшими изменениями или без изменений. Недостатком обобщенной модели указанного типа является то, что, как только процесс отклоняется от нормы, или если набор обучающих данных содержит слишком широкий технологический диапазон в попытке учесть изменения (например, добавки к питательной среде, длительность процесса и/или другие изменения в процессе) между разными молекулами, обобщенные модели теряют точность и достоверность. Поэтому эти обобщенные модели являются обобщенными лишь в пределах описанных жестких рамок. См. Mehdizaheh и др., Biotechnolo. Prog. 31(4): 1004-1013, 2015; Webster и др., Biotechnol. Prog. 34(3):730-737, 2018.There are several publications that describe generalized Raman models based on traditional chemometric methods (e.g., PLS modeling) for a variety of molecules. However, these generalized models assume that processes use similar, if not identical, media compositions and/or process operating conditions. Culture media and processes are typically platform based, with little or no modification. The disadvantage of a generalized model of this type is that as soon as the process deviates from the norm, or if the training data set contains too wide a technological range in an attempt to account for changes (for example, media additives, process duration and/or other changes in the process) between different molecules, generalized models lose accuracy and reliability. Therefore, these generalized models are generalized only within the strict framework described. See Mehdizaheh et al., Biotechnolo. Prog. 31(4): 1004-1013, 2015; Webster et al., Biotechnol. Prog. 34(3):730-737, 2018.

Краткое описаниеShort description

Термин биофармацевтический процесс относится к процессу, используемому в биофармацевтическом производстве, такому как процесс культивирования клеток с целью получения требуемого рекомбинантного белка. Культивирование клеток происходит в сосуде для культивирования клеток, таком как биореактор, в условиях, которые поддерживают рост и поддержание организма, предназначенного для экспрессии белка. В ходе получения рекомбинантного белка с целью управления и/или поддержания процесса культивирования клеток выполняется отслеживание параметров процесса, таких как концентрации компонентов питательной среды, в том числе питательных веществ и метаболитов (например, глюкозы, лактата, глутамата, глутамина, аммиака, аминокислот, Na+, K+ и других питательных веществ или метаболитов), состояние питательной среды (рН, pCO₂, pO₂, температура, осмоляльность и т.д.), а также параметров клеток и/или белков (например, плотности жизнеспособных клеток (VCD), титра, состояния клеток, критических показателей качества и т.д.).The term biopharmaceutical process refers to a process used in biopharmaceutical manufacturing, such as the process of culturing cells to produce a desired recombinant protein. Cell culture occurs in a cell culture vessel, such as a bioreactor, under conditions that support the growth and maintenance of the organism intended to express the protein. During recombinant protein production, process parameters such as concentrations of culture medium components, including nutrients and metabolites (e.g., glucose, lactate, glutamate, glutamine, ammonia, amino acids, Na+) are monitored to control and/or maintain the cell culture process. , K+ and other nutrients or metabolites), the state of the culture medium (pH, pCO ₂ , pO ₂ , temperature, osmolality, etc.), as well as cell and/or protein parameters (for example, viable cell density (VCD), titer, cell condition, critical quality indicators, etc.).

Для устранения некоторых из вышеописанных ограничений лучших современных промышленных применений описанные в данном документе варианты осуществления относятся к системам и способам, совершенствующим традиционные методики спектроскопического анализа биофармацевтических процессов, такие как рамановская спектроскопия. В частности, для построения и обслуживания калибровочных моделей (например, рамановских калибровочных моделей) в реальном времени для биофармацевтических применений используется платформа Обучение точно в срок (JITL). JITL представляет собой платформу для нелинейного моделирования на основе технологии локального моделирования и выборки из базы данных. В отличие от других способов машинного обучения в JITL в целом предполагается, что все доступные наблюдения хранятся в центральной базе данных, а модели динамически строятся в реальном времени на основе запроса с использованием наиболее релевантных данных из базы данных. Это позволяет получить хорошее приближение сложной динамики процесса с использованием относительно простых локальных моделей. В условиях инфраструктуры JITL библиотека может содержать спектральные данные не только для одного процесса, эксплуатируемого в определенных рабочих условиях, но также данные для разных процессов, разных профилей питательной среды и/или разных рабочих условий. Это может значительно сократить время, требуемое для калибровки и обслуживания моделей, особенно для находящихся в разработке лекарств, которые могут иметь небольшую историю или не иметь истории на данный момент.To address some of the above-described limitations of current best industrial applications, the embodiments described herein relate to systems and methods that improve on traditional techniques for spectroscopic analysis of biopharmaceutical processes, such as Raman spectroscopy. In particular, the Just-in-Time Learning (JITL) platform is used to build and maintain calibration models (e.g., Raman calibration models) in real time for biopharmaceutical applications. JITL is a nonlinear modeling platform based on local modeling and database sampling technology. Unlike other machine learning techniques, JITL generally assumes that all available observations are stored in a central database and models are dynamically built in real time based on a query using the most relevant data from the database. This allows one to obtain a good approximation of complex process dynamics using relatively simple local models. In a JITL framework, a library may contain spectral data not only for a single process operating under specific operating conditions, but also data for different processes, different media profiles, and/or different operating conditions. This can significantly reduce the time required to calibrate and maintain models, especially for drugs in development that may have little or no history at this time.

Платформа JITL обслуживает динамическую библиотеку, которая может обновляться каждый раз, когда доступно новое аналитическое измерение. Кроме того, для обеспечения адаптации локальных моделей к новым условиям процесса, последнее доступное аналитическое измерение (например, для продукта, отслеживание которого выполняется в настоящий момент) всегда может быть включено в обучающий набор для локального моделирования. Это позволяет быстрее адаптировать локальную модель к новым условиям или к новым линейкам продуктов, не имеющим истории. С использованием этого подхода можно автоматизировать как калибровку модели, так и обслуживание модели, а также можно значительно сократить время и стоимость (например, материальные затраты и трудозатраты), связанные с повседневными калибровками в традиционных системах. Кроме того, возможность предоставления границ правдоподобия (или других индикаторов достоверности, таких как степени достоверности) по предсказаниям на основе модели может обеспечивать робастные стратегии отслеживания и управления.The JITL framework maintains a dynamic library that can be updated whenever a new analytical dimension is available. Additionally, to ensure that local models adapt to new process conditions, the latest available analytical measurement (for example, for the product currently being monitored) can always be included in the training set for the local simulation. This allows you to quickly adapt the local model to new conditions or to new product lines that have no history. Using this approach, both model calibration and model maintenance can be automated, and the time and cost (e.g., material and labor) associated with routine calibrations in traditional systems can be significantly reduced. In addition, the ability to provide likelihood bounds (or other confidence indicators such as confidence levels) on model-based predictions can provide robust tracking and control strategies.

В некоторых вариантах осуществления для локального моделирования в инфраструктуре JITL используются модели на основе гауссовского процесса. Модели на основе гауссовского процесса представляют собой мощные статистические модели машинного обучения, которые могут эффективно улавливать сложную нелинейную динамику процессов и могут легко адаптироваться практически к любым изменениям в процессе. В отличие от PLS регрессии основных компонентов (PCR) и регрессионных моделей других типов, модели на основе гауссовского процесса представляют собой непараметрические методы, и они являются намного более приспособленными к улавливанию сложных корреляций между рамановскими спектрами и аналитическими измерениями на основе ограниченных наборов данных. Кроме того, модели на основе гауссовского процесса в целом не требуют фильтрации путем предварительнойIn some embodiments, Gaussian process-based models are used for local modeling in the JITL framework. Gaussian process models are powerful statistical machine learning models that can effectively capture complex nonlinear process dynamics and can easily adapt to almost any change in a process. Unlike PLS principal component regression (PCR) and other types of regression models, Gaussian process models are nonparametric methods and are much more adept at capturing complex correlations between Raman spectra and analytical measurements from limited data sets. In addition, Gaussian process models generally do not require pre-filtering.

- 2 043314 обработки результатов рамановского сканирования. Соответственно в некоторых вариантах осуществления модели на основе гауссовского процесса альтернативно калибруются на свежих результатах рамановского сканирования (в логарифмической шкале), что может сэкономить множество этапов в процессе калибровки/обслуживания модели. Кроме того, модели на основе гауссовского процесса предоставляют границы правдоподобия по предсказаниям, получение которых с использованием моделей PLS или PCR может быть чрезвычайно затруднительным. Границы правдоподобия могут быть особенно полезны для разработки оптимальных стратегий взятия проб для аналитических приборов и/или для реализации управления в замкнутом контуре (например, управления по модели предсказания, или МРС), например, во избежание внесения изменений на основе ненадежных предсказаний.- 2 043314 processing of Raman scanning results. Accordingly, in some embodiments, Gaussian process-based models are alternatively calibrated on fresh Raman scan results (on a logarithmic scale), which can save many steps in the model calibration/maintenance process. In addition, Gaussian process models provide likelihood bounds on predictions that can be extremely difficult to obtain using PLS or PCR models. Likelihood bounds can be particularly useful for developing optimal sampling strategies for analytical instruments and/or for implementing closed-loop control (eg, model predictive control, or MPC), for example, to avoid making changes based on unreliable predictions.

Хотя JITL представляет собой нелинейную инфраструктуру моделирования, и хотя вышеописанный подход предусматривает некоторую адаптивность за счет обновления динамической библиотеки недавними аналитическими измерениями, JITL само по себе может не являться достаточно адаптивным для учета изменяющихся во времени условий процесса (например, резких изменений до заданного значения или других условий процесса). В частности, локальные модели, откалиброванные с использованием JITL, могут быть неспособны использовать недавние выборки. Например и в частности, если имело место недавнее и резкое изменение в условиях процесса, недавние выборки могут быть неспособны удовлетворять критерию подобия, основанному чисто на пространственном подобии (например, подобии результатов рамановского сканирования). В данном документе также описаны модифицированные методики JITL, которые могут лучше усреднять информацию, предоставляемую недавними выборками (независимо от пространственного подобия), и поэтому могут лучше адаптироваться к изменяющимся во времени изменениям в процессе. В частности, в данном документе описаны методики адаптивного JITL (A-JITL) и пространственно-временного JITL (ST-JITL) для калибровки и обслуживания моделей.Although JITL is a nonlinear modeling framework, and although the approach described above allows for some adaptability by updating the dynamic library with recent analytical measurements, JITL by itself may not be adaptive enough to account for time-varying process conditions (such as abrupt changes to a setpoint or other process conditions). In particular, local models calibrated using JITL may be unable to use recent samples. For example, and in particular, if there has been a recent and dramatic change in process conditions, recent samples may be unable to satisfy a similarity criterion based purely on spatial similarity (eg, similarity of Raman scan results). This paper also describes modified JITL techniques that can better average the information provided by recent samples (independent of spatial similarity) and can therefore better adapt to time-varying changes in the process. In particular, this paper describes adaptive JITL (A-JITL) and space-time JITL (ST-JITL) techniques for model calibration and maintenance.

Для успеха методик JITL может быть важно обслуживание моделей в реальном времени, при котором локальные модели могут обучаться на новейших аналитических измерениях и, таким образом, быстро адаптироваться к изменяющимся во времени условиям. Однако частый доступ к аналитическим приборам/измерениям (например, при автономном анализе выборок), как правило, является в высокой степени ресурсоемким. Для сведения к минимуму такого использования ресурсов без чрезмерного ухудшения качества модели может быть реализован основанный на качестве протокол обслуживания модели, в котором система планирует/инициирует аналитическое измерение в ответ на определение недопустимого/ненадежного текущего качества модели.Real-time model maintenance, where local models can be trained on the latest analytical measurements and thus quickly adapt to time-varying conditions, may be important to the success of JITL techniques. However, frequent access to analytical instruments/measurements (e.g., offline sample analysis) tends to be highly resource-intensive. To minimize such resource usage without unduly degrading model quality, a quality-based model maintenance protocol can be implemented in which the system schedules/initiates an analytical measurement in response to a determination that the current model quality is unacceptable/unreliable.

Краткое описание графических материаловBrief description of graphic materials

Специалисту в данной области техники понятно, что фигуры, описанные в данном документе, включены для целей иллюстрации, а не ограничения настоящего изобретения. Графические материалы не обязательно изображены в масштабе, акцент делается на иллюстрацию принципов настоящего изобретения. Следует понимать, что в некоторых случаях различные аспекты описанных вариантов реализации могут быть укрупнены или увеличены для улучшения понимания описанных вариантов реализации. На графических материалах подобные ссылочные позиции на разных фигурах в целом выполняют одинаковые функции и/или являются структурно одинаковыми компонентами.One skilled in the art will understand that the figures described herein are included for purposes of illustration and not limitation of the present invention. The graphics are not necessarily drawn to scale and emphasis is placed on illustrating the principles of the present invention. It should be understood that, in some cases, various aspects of the described embodiments may be expanded upon or enlarged to enhance the understanding of the described embodiments. In the drawings, similar reference numerals in different figures generally perform the same functions and/or are structurally the same components.

На фиг. 1 представлена упрощенная блок-схема примерной системы рамановской спектроскопии, которая может использоваться для предсказания аналитических измерений биофармацевтических процессов.In fig. Figure 1 shows a simplified block diagram of an exemplary Raman spectroscopy system that can be used to predict analytical measurements of biopharmaceutical processes.

На фиг. 2 представлена упрощенная блок-схема примерной системы рамановской спектроскопии, которая может использоваться для предсказания аналитических измерений биофармацевтических процессов для управления в замкнутом контуре концентрацией глюкозы.In fig. 2 shows a simplified block diagram of an exemplary Raman spectroscopy system that can be used to predict analytical measurements of biopharmaceutical processes for closed-loop control of glucose concentration.

На фиг. 3 изображены экспериментальные результаты управления в замкнутом контуре концентрацией глюкозы с использованием примерной реализации системы рамановской спектроскопии, описанной в данном документе.In fig. 3 depicts experimental results of closed-loop control of glucose concentration using an exemplary implementation of the Raman spectroscopy system described herein.

На фиг. 4 изображен примерный поток данных, который может иметь место при анализе биофармацевтического процесса с использованием методики Обучение точно в срок (JITL).In fig. Figure 4 depicts an example of the data flow that might occur when analyzing a biopharmaceutical process using Just-in-Time Learning (JITL) techniques.

На фиг. 5 изображен примерный поток данных, который может иметь место при анализе биофармацевтического процесса с использованием методики адаптивного JITL (A-JITL).In fig. 5 depicts an example data flow that may occur when analyzing a biopharmaceutical process using adaptive JITL (A-JITL) techniques.

На фиг. 6 изображен примерный поток данных, который может иметь место при анализе биофармацевтического процесса с использованием методики пространственно-временного JITL (ST-JITL).In fig. 6 depicts an example data flow that may occur when analyzing a biopharmaceutical process using the space-time JITL (ST-JITL) technique.

На фиг. 7 представлена схема последовательности операций примерного способа анализа биофармацевтического процесса.In fig. 7 is a flow chart of an exemplary method for analyzing a biopharmaceutical process.

Подробное описаниеDetailed description

Различные концепции, представленные выше и более подробно обсужденные далее, могут быть реализованы многими способами, и описанные концепции не ограничены каким-либо определенным способом реализации. Примеры вариантов реализации представлены для иллюстративных целей.The various concepts presented above and discussed in more detail below can be implemented in many ways, and the described concepts are not limited to any particular method of implementation. Example implementations are presented for illustrative purposes.

На фиг. 1 представлена упрощенная блок-схема примерной системы 100 рамановской спектроскопии, которая может использоваться для предсказания аналитических измерений биофармацевтических процессов. Хотя на фиг. 1 изображена система 100, в которой реализуются методики рамановской спек- 3 043314 троскопии, понятно, что в других вариантах осуществления в системе 100 могут быть реализованы другие спектроскопические методики, подходящие для анализа биофармацевтических процессов, такие как, например, спектроскопия в ближней инфракрасной области (NIR).In fig. 1 is a simplified block diagram of an exemplary Raman spectroscopy system 100 that can be used to predict analytical measurements of biopharmaceutical processes. Although in FIG. 1 depicts a system 100 that implements Raman spectroscopy techniques, it is understood that in other embodiments, the system 100 may implement other spectroscopic techniques suitable for analyzing biopharmaceutical processes, such as, for example, near-infrared spectroscopy ( NIR).

Система 100 содержит биореактор 102, один или несколько аналитических приборов 104, рамановский анализатор 106 с рамановским зондом 108, компьютер 110 и сервер 112 базы данных, соединенный с компьютером 110 через сеть 114. Биореактор 102 может представлять собой любой подходящий сосуд, устройство или систему, поддерживающую биологически активную среду, которая может содержать живые организмы и/или полученные из них вещества (например, культуру клеток) в питательной среде. Биореактор 102 может содержать рекомбинантные белки, экспрессируемые культурой клеток, например, для исследовательских целей, клинического применения, коммерческой продажи или другого распространения. В зависимости от отслеживаемого биофармацевтического процесса питательная среда может содержать определенную текучую среду (например, бульон) и определенные питательные вещества и может иметь целевые параметры состояния питательной среды, такие как целевой уровень или диапазон рН, целевая температура или температурный диапазон и т.д. Питательная среда может также содержать организмы и вещества, полученные из организмов, такие как метаболиты и рекомбинантные белки. Содержимое и параметры/характеристики питательной среды совместно называются в данном документе профилем питательной среды.System 100 includes a bioreactor 102, one or more analytical instruments 104, a Raman analyzer 106 with a Raman probe 108, a computer 110, and a database server 112 connected to the computer 110 via a network 114. The bioreactor 102 may be any suitable vessel, device, or system that supporting biologically active medium, which may contain living organisms and/or substances derived from them (for example, cell culture) in a nutrient medium. Bioreactor 102 may contain recombinant proteins expressed by cell culture, for example, for research purposes, clinical use, commercial sale, or other distribution. Depending on the biopharmaceutical process being monitored, the culture medium may contain a specific fluid (eg, broth) and specific nutrients, and may have target culture media conditions such as a target pH level or range, a target temperature or temperature range, etc. The culture medium may also contain organisms and substances derived from organisms, such as metabolites and recombinant proteins. The contents and parameters/characteristics of the culture medium are collectively referred to herein as the culture medium profile.

Аналитический прибор (приборы) 104 может представлять собой поточный, расположенный у потока и/или автономный прибор или приборы, выполненные с возможностью измерения одной или нескольких характеристик или параметров биологически активного содержимого в биореакторе 102 на основе взятых из него проб. Например, аналитический прибор (приборы) 104 может измерять концентрации одного или нескольких компонентов питательной среды, такие как уровни питательных веществ и/или метаболитов (например, глюкозы, лактата, глутамата, глутамина, аммиака, аминокислот, Na+, K+ и т.д.), и параметры состояния питательной среды (рН, pCO₂, pO₂, температура, осмоляльность и т.д.). Дополнительно или альтернативно аналитический прибор (приборы) 104 может измерять осмоляльность, плотность жизнеспособных клеток (VCD), титр, критические показатели качества, состояние клеток (например, клеточный цикл) и/или другие характеристики или параметры, связанные с содержимым биореактора 102. В качестве более конкретного примера пробы могут быть взяты, отцентрифугированы, очищены при помощи нескольких колонок и пропущены через первый из аналитических приборов 104 (например, прибор для высокоэффективной жидкостной хроматографии (HPLC) или ультравысокоэффективной жидкостной хроматографии (UPLC)) и затем через второй из аналитических приборов 104 (например, масс-спектрометр), при этом оба, первый и второй, аналитические приборы 104 предоставляют аналитические измерения. В одном, некоторых или всех аналитических приборах 104 могут использоваться разрушающие методики анализа.The analytical instrument(s) 104 may be an in-line, in-line, and/or off-line instrument or instruments configured to measure one or more characteristics or parameters of the biologically active contents in the bioreactor 102 based on samples taken therefrom. For example, the analytical instrument(s) 104 may measure concentrations of one or more components of the culture medium, such as levels of nutrients and/or metabolites (e.g., glucose, lactate, glutamate, glutamine, ammonia, amino acids, Na+, K+, etc.). ), and parameters of the state of the nutrient medium (pH, pCO ₂ , pO ₂ , temperature, osmolality, etc.). Additionally or alternatively, the analytical instrument(s) 104 may measure osmolality, viable cell density (VCD), titer, critical quality indicators, cell health (e.g., cell cycle), and/or other characteristics or parameters associated with the contents of the bioreactor 102. As More specifically, samples may be collected, centrifuged, purified using multiple columns, and passed through a first of analytical instruments 104 (e.g., a high performance liquid chromatography (HPLC) or ultra-high performance liquid chromatography (UPLC) instrument) and then through a second of analytical instruments 104 (eg, a mass spectrometer), wherein both the first and second analytical instruments 104 provide analytical measurements. One, some, or all of the analytical instruments 104 may use destructive analysis techniques.

Рамановский анализатор 106 может содержать спектрографическое устройство, соединенное с рамановским зондом 108 (или, в некоторых реализациях, несколькими рамановскими зондами). Рамановский анализатор 106 может содержать источник лазерного излучения, обеспечивающий лазерное излучение для рамановского зонда 108 по оптоволоконному кабелю, и может также содержать устройство с зарядовой связью (CCD) или другую подходящую камеру/регистрирующее устройство для регистрации сигналов, принимаемых из рамановского зонда 108, например, по другому каналу оптоволоконного кабеля. Альтернативно источник лазерного излучения может быть встроен в сам рамановский зонд 108. Рамановский зонд 108 может представлять собой погружной зонд или зонд любого другого подходящего типа (например, зонд отражательной способности и зонд пропускания).Raman analyzer 106 may include a spectrographic device coupled to a Raman probe 108 (or, in some implementations, multiple Raman probes). The Raman analyzer 106 may include a laser source that provides laser light to the Raman probe 108 via a fiber optic cable, and may also include a charge-coupled device (CCD) or other suitable camera/recording device for recording signals received from the Raman probe 108, e.g. via another fiber optic cable channel. Alternatively, the laser light source may be built into the Raman probe 108 itself. The Raman probe 108 may be an immersion probe or any other suitable type of probe (eg, a reflectivity probe and a transmittance probe).

Рамановский анализатор 106 и рамановский зонд 108 совместно выполнены с возможностью неразрушающего сканирования биологически активного содержимого в ходе биофармацевтического процесса в биореакторе 102 путем возбуждения, наблюдения и регистрации молекулярных отпечатков биофармацевтического процесса. Молекулярные отпечатки соответствуют колебательным, вращательным и/или другим низкочастотным модам молекул в биологически активном содержимом в биофармацевтическом процессе при возбуждении содержимого биореактора лазерным излучением, обеспечиваемым рамановским зондом 108. В результате этого процесса сканирования рамановский анализатор 106 генерирует один или несколько векторов рамановского сканирования, каждый из которых представляет собой интенсивность в зависимости от рамановского сдвига (частоты).The Raman analyzer 106 and the Raman probe 108 are collectively configured to non-destructively scan biologically active contents during a biopharmaceutical process in the bioreactor 102 by exciting, observing, and recording molecular fingerprints of the biopharmaceutical process. Molecular fingerprints correspond to vibrational, rotational and/or other low frequency modes of molecules in biologically active contents in a biopharmaceutical process when the bioreactor contents are excited by laser radiation provided by Raman probe 108. As a result of this scanning process, Raman analyzer 106 generates one or more Raman scan vectors, each which is the intensity as a function of the Raman shift (frequency).

Компьютер 110 соединен с рамановским анализатором 106 и аналитическим прибором (приборами) 104 и в целом выполнен с возможностью анализа векторов рамановского сканирования, генерируемых рамановским анализатором 106, с целью предсказания одного или нескольких аналитических измерений биофармацевтического процесса. Например, компьютер 110 может анализировать векторы рамановского сканирования для предсказания аналитического измерения (измерений) одного и того же типа (типов), выполняемого аналитическим прибором (приборами) 104. В качестве более конкретного примера компьютер 110 может предсказывать концентрации глюкозы, тогда как аналитический прибор (приборы) 104 фактически измеряет концентрации глюкозы. Однако в то время как аналитический прибор (приборы) 104 может выполнять относительно нечастые автономные аналитические измерения проб, извлекаемых из биореактора 102 (например, по причине ограниченных количеств питательной среды в био- 4 043314 фармацевтическом процессе и/или по причине более высокой стоимости выполнения таких измерений иComputer 110 is coupled to Raman analyzer 106 and analytical instrument(s) 104 and is generally configured to analyze Raman scan vectors generated by Raman analyzer 106 to predict one or more analytical measurements of a biopharmaceutical process. For example, computer 110 may analyze Raman scan vectors to predict analytical measurement(s) of the same type(s) performed by analytical instrument(s) 104. As a more specific example, computer 110 may predict glucose concentrations while analytical instrument ( devices) 104 actually measures glucose concentrations. However, while the analytical instrument(s) 104 may perform relatively infrequent offline analytical measurements on samples withdrawn from the bioreactor 102 (e.g., due to limited quantities of growth media in the biopharmaceutical process and/or due to the higher cost of performing such measurements and

т.д.), компьютер 110 может выполнять относительно частые оперативные предсказания аналитических измерений в реальном времени. Компьютер 110 также может быть выполнен с возможностью передачи аналитических измерений, выполненных аналитическим прибором (приборами) 104, на сервер 112 базы данных через сеть 114, как будет более подробно обсуждаться ниже.etc.), computer 110 can make relatively frequent on-line predictions of analytical measurements in real time. Computer 110 may also be configured to transmit analytical measurements performed by analytical instrument(s) 104 to database server 112 via network 114, as will be discussed in more detail below.

В примерном варианте осуществления, показанном на фиг. 1, компьютер 110 содержит блок 120 обработки данных, сетевой интерфейс 122, дисплей 124, устройство 126 пользовательского ввода и запоминающее устройство 128. Блок 120 обработки данных содержит один или несколько процессоров, каждый из которых может представлять собой программируемый микропроцессор, который исполняет программные команды, хранящиеся в запоминающем устройстве 128, с целью исполнения некоторых или всех функций компьютера 110, описанных в данном документе. Альтернативно один, несколько или все процессоры в блоке 120 обработки данных могут представлять собой процессоры других типов (например, специализированные интегральные микросхемы (ASIC), вентильные матрицы с эксплуатационным программированием (FPGA) и т.д.), и функциональные возможности компьютера 110, описанные в данном документе, альтернативно могут быть частично или полностью реализованы в аппаратном обеспечении. Запоминающее устройство 128 может содержать одно или несколько физических запоминающих устройств или блоков, включающих энергозависимое и/или энергонезависимое запоминающее устройство. Могут использоваться запоминающие устройства любого подходящего типа или типов, такие как постоянное запоминающее устройство (ROM), твердотельные накопители (SSD), накопители на жестких дисках (HDD) и т.д.In the exemplary embodiment shown in FIG. 1, computer 110 includes a processing unit 120, a network interface 122, a display 124, a user input device 126, and a storage device 128. The processing unit 120 includes one or more processors, each of which may be a programmable microprocessor that executes software instructions, stored in storage device 128 for the purpose of performing some or all of the functions of computer 110 described herein. Alternatively, one, more, or all of the processors in data processing unit 120 may be other types of processors (e.g., application specific integrated circuits (ASICs), field programmable gate arrays (FPGAs), etc.), and the functionality of computer 110 described as used herein, may alternatively be partially or fully implemented in hardware. Storage device 128 may include one or more physical storage devices or units, including volatile and/or non-volatile storage. Any suitable type or types of storage devices may be used, such as read only memory (ROM), solid state drives (SSD), hard disk drives (HDD), etc.

Сетевой интерфейс 122 может содержать любое подходящее аппаратное обеспечение (например, клиентское приемопередающее аппаратное обеспечение), программно-аппаратное обеспечение и/или программное обеспечение, выполненное с возможностью установления связи через сеть 114 с использованием одного или нескольких протоколов связи. Например, сетевой интерфейс 122 может представлять собой или содержать интерфейс Ethernet. Сеть 114 может представлять собой одну сеть связи или может содержать несколько сетей связи одного или нескольких типов (например, одну или несколько проводных и/или беспроводных локальных сетей (LAN) и/или одну или несколько проводных и/или беспроводных глобальных сетей (WAN), таких как, например, интернет или корпоративная сеть).Network interface 122 may comprise any suitable hardware (eg, client transceiver hardware), firmware, and/or software configured to communicate through network 114 using one or more communication protocols. For example, network interface 122 may be or include an Ethernet interface. Network 114 may be a single communications network or may comprise multiple communications networks of one or more types (e.g., one or more wired and/or wireless local area networks (LANs) and/or one or more wired and/or wireless wide area networks (WANs) , such as the Internet or corporate network).

В дисплее 124 может использоваться любая подходящая технология (например, LED, OLED, LCD и т.д.) для представления информации пользователю, а интерфейс 126 пользовательского ввода может представлять собой клавиатуру или другое подходящее устройство ввода. В некоторых вариантах осуществления дисплей 124 и устройство 126 пользовательского ввода объединены в одном устройстве (например, сенсорном дисплее). В целом дисплей 124 и устройство 126 пользовательского ввода могут объединяться для обеспечения возможности взаимодействия пользователя с графическими интерфейсами пользователя (GUI), предоставляемыми компьютером 110, например, для таких целей, как ручное отслеживание различных процессов, исполняемых в системе 100. Однако в некоторых вариантах осуществления компьютер 110 не содержит дисплей 124 и/или устройство 126 пользовательского ввода, или одно или оба из дисплея 124 и устройства 126 пользовательского ввода включены в другой компьютер или систему, которая соединена с возможностью связи с компьютером 110 (например, в некоторых вариантах осуществления, где предсказания отправляются непосредственно в систему управления, реализующую управление в замкнутом контуре).The display 124 may use any suitable technology (eg, LED, OLED, LCD, etc.) to present information to the user, and the user input interface 126 may be a keyboard or other suitable input device. In some embodiments, display 124 and user input device 126 are combined into a single device (eg, a touch display). In general, display 124 and user input device 126 may be combined to allow user interaction with graphical user interfaces (GUIs) provided by computer 110, such as for purposes such as manually monitoring various processes running on system 100. However, in some embodiments, the computer 110 does not include a display 124 and/or a user input device 126, or one or both of the display 124 and a user input device 126 are included in another computer or system that is communicatively coupled to the computer 110 (for example, in some embodiments where predictions are sent directly to the control system implementing closed-loop control).

В запоминающем устройстве 128 хранятся команды одного или нескольких программных приложений, в том числе приложения 130 предсказателя Обучение точно в срок (JITL). Приложение 130 предсказателя JITL при исполнении блоком 120 обработки данных в целом выполнено с возможностью предсказания аналитических измерений биофармацевтического процесса в биореакторе 102 путем калибровки локальной модели 132 и использования локальной модели 132 для анализа векторов рамановского сканирования, генерируемых рамановским анализатором 106. В зависимости от частоты, с которой рамановский анализатор 106 генерирует данные векторы сканирования, приложение 130 предсказателя JITL может предсказывать аналитические измерения на периодической или другой подходящей временной основе. Рамановский анализатор 106 может самостоятельно управлять временем генерирования векторов сканирования, или компьютер 110 может инициировать генерирование векторов сканирования путем отправки команды в рамановский анализатор 106. Приложение 130 предсказателя JITL может предсказывать аналитическое измерение только одного типа на основе каждого вектора сканирования (например, только концентрацию глюкозы) или может предсказывать на основе каждого вектора сканирования несколько типов аналитических измерений (например, концентрацию глюкозы и плотность жизнеспособных клеток). В других вариантах осуществления каждое из нескольких разных приложений предсказателя JITL (например, каждое из которых аналогично приложению 130 предсказателя JITL) генерирует отличную локальную модель для предсказания аналитического измерения другого типа, и все они основаны на одном и том же векторе сканирования. Приложение 130 предсказателя JITL и локальная модель 132 будут более подробно обсуждены ниже.Memory 128 stores instructions from one or more software applications, including Just-in-Time Learning (JITL) predictor application 130. The JITL predictor application 130, when executed by the data processing unit 120, is generally configured to predict analytical measurements of the biopharmaceutical process in the bioreactor 102 by calibrating the local model 132 and using the local model 132 to analyze the Raman scan vectors generated by the Raman analyzer 106. Depending on the frequency, with wherein Raman analyzer 106 generates these scan vectors, JITL predictor application 130 can predict analytical measurements on a periodic or other suitable time basis. The Raman analyzer 106 may independently control the timing of scan vector generation, or the computer 110 may initiate the generation of scan vectors by sending a command to the Raman analyzer 106. The JITL predictor application 130 may predict only one type of analytical measurement based on each scan vector (e.g., glucose concentration only). or can predict from each scan vector multiple types of analytical measurements (eg, glucose concentration and viable cell density). In other embodiments, each of several different JITL predictor applications (eg, each similar to JITL predictor application 130) generates a different local model for predicting a different type of analytical measurement, all based on the same scan vector. The JITL predictor application 130 and local model 132 will be discussed in more detail below.

Сервер 112 базы данных может являться удаленным от компьютера 110 (например, так, что локальная установка может содержать только биореактор 102, аналитический прибор (приборы) 104, раманов- 5 043314 ский анализатор 106 с рамановским зондом 108 и компьютер 110) и, как видно на фиг. 1, может содержать или являться соединенным с возможностью связи с базой 136 данных наблюдений, в которой хранятся наборы данных наблюдений, связанные с прошлыми наблюдениями. Каждый набор данных наблюдений в базе 136 данных наблюдений может содержать спектральные данные (например, один или несколько векторов рамановского сканирования в виде, получаемом рамановским анализатором 106) и одно или несколько соответствующих аналитических измерений (например, одно или несколько измерений в виде (видах), получаемом аналитическим прибором (приборами) 104). В зависимости от варианта осуществления и/или сценария прошлые наблюдения могут быть собраны для нескольких разных биофармацевтических процессов в нескольких разных рабочих условиях (например, при разных заданных значениях концентрации метаболитов) и/или с несколькими разными профилями питательной среды (например, разными текучими средами, питательными веществами, уровнями рН, температурами и т.д.). В целом может быть желательно, чтобы база 136 данных наблюдений представляла широкое разнообразие процессов, рабочих условий и профилей питательной среды. База 136 данных наблюдений может содержать или не содержать информацию, указывающую эти процессы, клеточные линии, белки, метаболиты, рабочие условия и/или профили питательной среды, однако, в зависимости от варианта осуществления (как дополнительно обсуждено ниже). В некоторых вариантах осуществления сервер 112 базы данных удаленно соединен с несколькими другими компьютерами, аналогичными компьютеру 110, через сеть 114 и/или другие сети. Это может потребоваться для сбора большого количества наборов данных наблюдений с целью сохранения в базе 136 данных наблюдений. Однако в других вариантах осуществления система 100 не содержит сервер 112 базы данных, и компьютер 110 получает доступ непосредственно к локальной базе 136 данных наблюдений.The database server 112 may be remote from the computer 110 (for example, such that the local installation may contain only the bioreactor 102, analytical instrument(s) 104, Raman analyzer 106 with Raman probe 108, and computer 110) and, as can be seen, in fig. 1 may contain or be communicatively connected to an observational database 136 that stores observational data sets associated with past observations. Each set of observational data in observational data base 136 may contain spectral data (e.g., one or more Raman scan vectors as obtained by Raman analyzer 106) and one or more corresponding analytical measurements (e.g., one or more measurements in the form(s) obtained by the analytical instrument(s) 104). Depending on the embodiment and/or scenario, historical observations may be collected for several different biopharmaceutical processes under several different operating conditions (e.g., different metabolite concentration setpoints) and/or with several different culture media profiles (e.g., different fluids, nutrients, pH levels, temperatures, etc.). In general, it may be desirable for the observational data base 136 to represent a wide variety of processes, operating conditions, and media profiles. The observation database 136 may or may not contain information indicating these processes, cell lines, proteins, metabolites, operating conditions and/or media profiles, however, depending on the embodiment (as further discussed below). In some embodiments, database server 112 is remotely connected to multiple other computers similar to computer 110 through network 114 and/or other networks. This may be required to collect a large number of observational data sets in order to store 136 observational data in a database. However, in other embodiments, the system 100 does not contain a database server 112 and the computer 110 accesses the local observation data database 136 directly.

Понятно, что вместо показанных на фиг. 1 могут использоваться другие конфигурации и/или компоненты. Например, другой компьютер (не показан на фиг. 1) может передавать измерения, предоставляемые аналитическим прибором (приборами) 104, на сервер 112 базы данных, одно или несколько дополнительных вычислительных устройств или систем могут действовать в качестве промежуточных звеньев между компьютером 110 и сервером 112 базы данных, некоторые или все функциональные возможности компьютера 110, описанные в данном документе, могут альтернативно выполняться удаленно сервером 112 базы данных и/или другим удаленным сервером и т.д.It is clear that instead of those shown in FIG. 1, other configurations and/or components may be used. For example, another computer (not shown in FIG. 1) may transmit measurements provided by analytical instrument(s) 104 to database server 112, one or more additional computing devices or systems may act as intermediate links between computer 110 and server 112. database, some or all of the functionality of computer 110 described herein may alternatively be performed remotely by database server 112 and/or another remote server, etc.

В ходе режима выполнения системы 100 рамановский анализатор 106 и рамановский зонд 108 используются для сканирования (т.е. генерирования векторов рамановского сканирования для) биофармацевтического процесса в биореакторе 102, и вектор (векторы) рамановского сканирования затем передается (передаются) из рамановского анализатора 106 на компьютер 110. Рамановский анализатор 106 и рамановский зонд 108 могут предоставлять векторы сканирования для поддержки предсказаний (выполняемых приложением 130 предсказателя JITL) в соответствии с предварительно определенным планом периодов отслеживания, как, например, один раз в минуту или один раз в час и т.д. Альтернативно предсказания могут выполняться через неравномерные промежутки (например, в ответ на определенный инициирующий фактор на основе процесса, такой как изменение в измеренном уровне рН и/или температуре), таким образом каждый период отслеживания имеет переменную или неопределенную длительность. В зависимости от варианта осуществления рамановский анализатор 106 может отправлять на компьютер 110 только один вектор сканирования за один период отслеживания или несколько векторов сканирования на компьютер 110 за один период отслеживания, в зависимости от того, сколько векторов сканирования локальная модель 132 принимает в качестве элемента входных данных для одного предсказания. Например, несколько векторов сканирования могут повышать точность предсказания локальной модели 132.During the execution mode of the system 100, the Raman analyzer 106 and the Raman probe 108 are used to scan (i.e., generate Raman scan vectors for) the biopharmaceutical process in the bioreactor 102, and the Raman scan vector(s) are then transferred from the Raman analyzer 106 to computer 110. Raman analyzer 106 and Raman probe 108 may provide scan vectors to support predictions (performed by JITL predictor application 130) according to a predetermined plan of tracking periods, such as once per minute or once per hour, etc. . Alternatively, predictions may be performed at irregular intervals (eg, in response to a specific process-based trigger, such as a change in measured pH and/or temperature), such that each tracking period has a variable or indeterminate duration. Depending on the embodiment, the Raman analyzer 106 may send only one scan vector per tracking period to the computer 110, or multiple scan vectors to the computer 110 per tracking period, depending on how many scan vectors the local model 132 accepts as an input data element. for one prediction. For example, multiple scan vectors can improve the prediction accuracy of the local model 132.

Блок 140 запроса приложения 130 предсказателя JITL использует вектор (векторы) сканирования, принятые для одного периода отслеживания, с целью генерирования точки запроса, которая будет использоваться для запроса базы 136 данных наблюдений. В некоторых вариантах осуществления точка запроса (т.е. данные, задающие точку запроса) содержит только данные, представляющие вектор (векторы) рамановского сканирования, принятый (принятые) из рамановского анализатора 106 (например, строки интенсивностей/частот, которые содержит каждый вектор сканирования). В других вариантах осуществления точка запроса также содержит информацию одного или нескольких других типов. Например, точка запроса может также содержать данные, представляющие рабочие условия, связанные с процессом (например, заданное значение концентрации метаболита в системе управления или длина волны и/или интенсивность лазерного излучения, связанная с рамановским анализатором 106 или рамановским зондом 108, и т.д.), данные, представляющие профиль питательной среды для питательной среды биофармацевтического процесса (например, тип текучей среды, типы или концентрации питательных веществ, уровень рН и т.д.) и/или другие данные (например, индикаторы клеточных линий, белков или метаболитов, связанных с биофармацевтическим процессом).The query block 140 of the JITL predictor application 130 uses the scan vector(s) received for one tracking period to generate a query point that will be used to query the observation data base 136 . In some embodiments, the query point (i.e., data defining the query point) contains only data representing the Raman scan vector(s) received from the Raman analyzer 106 (e.g., the intensity/frequency strings that each scan vector contains ). In other embodiments, the query point also contains one or more other types of information. For example, the query point may also contain data representing operating conditions associated with the process (e.g., a metabolite concentration setpoint in a control system or wavelength and/or laser intensity associated with Raman analyzer 106 or Raman probe 108, etc. .), data representing the culture media profile for the biopharmaceutical process media (e.g., type of fluid, types or concentrations of nutrients, pH level, etc.), and/or other data (e.g., indicators of cell lines, proteins, or metabolites associated with the biopharmaceutical process).

В целом точка запроса может содержать данные, представляющие те же векторы, параметры и/или классификации, которые локальная модель 132 использует в качестве входных данных (т.е. в качестве набора признаков локальной модели 132). Использование для набора признаков нескольких разных типов данных может повышать точность предсказаний аналитических измерений, выполняемых локальнойIn general, a query point may contain data representing the same vectors, parameters and/or classifications that the local model 132 uses as input (ie, as a feature set of the local model 132). Using multiple different data types for a feature set can improve the accuracy of analytical measurement predictions made locally.

- 6 043314 моделью 132. Однако, поскольку в целом требуется, чтобы каждый набор данных наблюдений в базе 136 данных наблюдений содержал одни и те же векторы, параметры и/или характеристики в качестве набора признаков, может являться предпочтительным ограничение точки запроса, и включение в набор признаков/входные данные локальной модели 132 только одного или нескольких векторов рамановского сканирования. Это может предоставлять различные преимущества, такие как возможность сбора большего количества информации для хранения в базе 136 данных наблюдений и/или упрощение сбора этой информации. Например, если используются только векторы рамановского сканирования, наборы данных наблюдений могут быть включены в базу 136 данных наблюдений, даже если о процессах, клеточных линиях, белках, метаболитах, рабочих условиях и/или профилях питательной среды, которые существовали на момент сбора наборов данных, известно мало или ничего не известно.- 6 043314 model 132. However, since it is generally required that each observational data set in the observational data base 136 contain the same vectors, parameters and/or characteristics as a feature set, it may be preferable to limit the query point, and include in feature set/local model input 132 of only one or more Raman scan vectors. This may provide various benefits, such as allowing more information to be collected for storage in the observational data base 136 and/or making it easier to collect this information. For example, if only Raman scan vectors are used, observational data sets can be included in the observational data base 136, even if the processes, cell lines, proteins, metabolites, operating conditions and/or culture media profiles that existed at the time the data sets were collected little or nothing is known.

Блок 140 запроса затем запрашивает базу 136 данных наблюдений с использованием сгенерированной точки запроса. В примерном варианте осуществления, представленном на фиг. 1, блок 140 запроса выполняет запрос, обеспечивая передачу сетевым интерфейсом 122 точки запроса (например, в сообщении запроса) на сервер 112 базы данных через сеть 114, что, в свою очередь, обеспечивает извлечение сервером 112 базы данных соответствующих данных из базы 136 данных наблюдений. Однако в вариантах осуществления, где база 136 данных наблюдений альтернативно включена в компьютер 110 (или в запоминающее устройство, соединенное с ним с возможностью связи), блок 140 запроса может альтернативно запрашивать базу 136 данных наблюдений более непосредственно. Для простоты объяснения остальное описание фиг. 1 будет предполагать, что база 136 данных наблюдений соединена с сервером 112 базы данных, как изображено на фиг. 1. Однако специалисту в данной области техники будет легко понятно, как могут отличаться каналы связи, если база 136 данных наблюдений альтернативно расположена локально по отношению к компьютеру 110 или в другом подходящем местоположении в архитектуре системы.Query block 140 then queries observational data base 136 using the generated query point. In the exemplary embodiment shown in FIG. 1, query block 140 executes a query by causing network interface 122 to transmit query points (e.g., in a query message) to database server 112 via network 114, which in turn causes database server 112 to retrieve relevant data from observation database 136 . However, in embodiments where observational data base 136 is alternatively included in computer 110 (or a storage device communicatively coupled thereto), query block 140 may alternatively query observational data base 136 more directly. For ease of explanation, the remainder of the description of FIG. 1 will assume that observation database 136 is connected to database server 112, as depicted in FIG. 1. However, one skilled in the art will readily appreciate how the communication channels may differ if observational data base 136 is alternatively located locally to computer 110 or other suitable location in the system architecture.

После приема точки запроса сервер 112 базы данных использует точку запроса для выбора из базы 136 данных наблюдений релевантных наборов данных наблюдений, которые будут полезны в качестве обучающих данных для локальной модели 132. Для идентификации того, какие наборы данных наблюдений являются релевантными, сервер 112 базы данных может применять любые подходящие критерии релевантности, в зависимости от варианта осуществления. В одном варианте осуществления, например, точка запроса содержит один вектор рамановского сканирования, и сервер 112 базы данных определяет, является ли данный набор данных наблюдений релевантным, путем вычисления евклидова расстояния между вектором рамановского сканирования этого набора данных наблюдений и вектором рамановского сканирования точки запроса. Если евклидово расстояние находится ниже некоторого предварительно определенного порогового значения (или ниже переменного порогового значения, такого как пороговое значение, вычисленное на основе среднего евклидова расстояния между вектором сканирования точки запроса и векторами сканирования всех наборов данных наблюдений и т.д.), набор данных наблюдений идентифицирован как релевантный набор данных наблюдений. Специалисту в данной области техники будет понятно, каким образом можно легко распространить подход на варианты осуществления, в которых точка запроса (и каждый набор данных наблюдений) содержит несколько векторов рамановского сканирования. В некоторых ситуациях использование евклидова расстояния для выбора релевантных наборов данных наблюдений может являться субоптимальной методикой. Однако, если локальная модель 132 представляет собой модель на основе гауссовского процесса (как обсуждено ниже), использование евклидова расстояния в качестве критерия релевантности может являться особенно преимущественным. Причиной этого является то, что модели на основе гауссовского процесса с радиальными базисными функциями или квадратичными экспоненциальными ядрами сами основаны на евклидовом расстоянии. Тем не менее, в других вариантах осуществления могут применяться другие критерии релевантности (например, критерии на основе углов или на основе коэффициентов корреляции и т.д.). Понятно, что в вариантах осуществления, где локальная модель 132 также допускает другую информацию в качестве элемента входных данных/набора признаков (например, рабочие условия, профиль питательной среды, данные процесса, информацию о клеточных линиях, информацию о белках и/или информацию о метаболитах и т.д.), для идентификации релевантных наборов данных наблюдений могут использоваться более сложные методики. В некоторых вариантах осуществления сервер 112 базы данных выбирает только предварительно определенное количество релевантных наборов данных наблюдений в ответ на один запрос или выбирает не больше некоторого максимально допустимого количества релевантных наборов данных наблюдений с целью обеспечения извлечения лишь относительно небольшого поднабора из всех наборов данных в базе 136 данных наблюдений. Однако в других вариантах осуществления сервер 112 базы данных может выбирать любое количество релевантных наборов данных наблюдений до тех пор, пока для каждого такого набора данных наблюдений удовлетворяются критерии релевантности.After receiving a query point, database server 112 uses the query point to select from observational data base 136 relevant observational datasets that will be useful as training data for local model 132. To identify which observational datasets are relevant, database server 112 may apply any suitable relevance criteria, depending on the embodiment. In one embodiment, for example, a query point contains a single Raman scan vector, and database server 112 determines whether a given observational data set is relevant by calculating the Euclidean distance between the Raman scan vector of that observational data set and the Raman scan vector of the query point. If the Euclidean distance is below some predefined threshold (or below a variable threshold, such as a threshold calculated based on the average Euclidean distance between the scan vector of the query point and the scan vectors of all observation datasets, etc.), the observation dataset identified as a relevant observational data set. One skilled in the art will appreciate how the approach can easily be extended to embodiments in which the query point (and each observation data set) contains multiple Raman scan vectors. In some situations, using Euclidean distance to select relevant observational data sets may be a suboptimal technique. However, if the local model 132 is a Gaussian process model (as discussed below), the use of Euclidean distance as a relevance criterion may be particularly advantageous. The reason for this is that Gaussian process models with radial basis functions or quadratic exponential kernels are themselves based on Euclidean distance. However, in other embodiments, other relevance criteria may be applied (eg, angle-based or correlation coefficient-based, etc.). It is understood that in embodiments where the local model 132 also allows other information as an element of the input data/feature set (e.g., operating conditions, media profile, process data, cell line information, protein information, and/or metabolite information etc.), more sophisticated techniques can be used to identify relevant observational data sets. In some embodiments, database server 112 selects only a predetermined number of relevant observational data sets in response to a single query, or selects no more than a certain maximum allowable number of relevant observational data sets to ensure that only a relatively small subset is retrieved from all data sets in database 136 observations. However, in other embodiments, database server 112 may select any number of relevant observation data sets as long as the relevance criteria are satisfied for each such observation data set.

В некоторых вариантах осуществления, как будет более подробно описано ниже (например, со ссылкой на фиг. 5 и 6), релевантные наборы данных наблюдений выбираются не только на основе релевантности точке запроса в пространственном смысле (например, подобия векторов рамановского сканирования), но также на основе релевантности во временном смысле (например, того, какие наборы дан- 7 043314 ных являются самыми недавними, независимо от пространственного подобия). В этих методиках может быть более преимущественно задействован тот факт, что более недавние аналитические измерения могут предоставлять полезную информацию, даже если эти недавние измерения соответствуют другому заданному значению, и т.д.In some embodiments, as will be described in more detail below (eg, with reference to FIGS. 5 and 6), relevant observational data sets are selected not only based on relevance to the query point in a spatial sense (eg, similarity of Raman scan vectors), but also based on relevance in a temporal sense (eg, which datasets are the most recent, regardless of spatial similarity). These techniques may more advantageously take advantage of the fact that more recent analytical measurements may provide useful information even if those more recent measurements correspond to a different target value, etc.

После идентификации релевантных наборов данных наблюдений (каждый из которых может соответствовать или может не соответствовать таким же условиям процесса, как у биофармацевтического процесса в биореакторе 102, отслеживание которого выполняется в настоящий момент) сервер 112 базы данных извлекает эти наборы данных (например, векторы рамановского сканирования и соответствующее аналитическое измерение (измерения)) и передает извлеченные наборы данных на компьютер 110 через сеть 114. Блок 140 запроса затем может передавать релевантные наборы данных на генератор 142 локальной модели, и генератор 142 локальной модели использует релевантные наборы данных в качестве обучающих данных для калибровки локальной модели 132. То есть генератор 142 локальной модели использует вектор (векторы) рамановского сканирования (и, возможно, другие данные), связанный с каждым набором данных наблюдений, в качестве набора признаков и использует аналитическое измерение (измерения), связанное с тем же набором данных наблюдений, в качестве метки для этого набора признаков.After identifying relevant observational data sets (each of which may or may not correspond to the same process conditions as the biopharmaceutical process in bioreactor 102 that is currently being monitored), database server 112 retrieves these data sets (e.g., Raman scan vectors and corresponding analytical measurement(s)) and transmits the extracted data sets to the computer 110 via the network 114. The query block 140 can then transmit the relevant data sets to the local model generator 142, and the local model generator 142 uses the relevant data sets as training data for calibration local model 132. That is, the local model generator 142 uses the Raman scan vector(s) (and possibly other data) associated with each observational data set as a feature set and uses the analytical measurement(s) associated with the same set observational data as a label for this set of features.

В некоторых вариантах осуществления, как указано выше, генератор 142 локальной модели строит модель на основе гауссовского процесса с целью эффективного улавливания сложной нелинейной динамики процесса и быстрой адаптации практически к любым изменениям в процессе. В отличие от моделей PLS и PCR, в моделях на основе гауссовского процесса используются непараметрические методы, и они являются намного более приспособленными к улавливанию сложных нелинейных корреляций между векторами рамановского сканирования и аналитическими измерениями даже при использовании весьма ограниченного количества обучающих выборок. Это может являться особенно важным в сценариях, где новые продукты или процессы соответствуют лишь ограниченному количеству наборов данных в базе 136 данных наблюдений. В таких сценариях модель на основе гауссовского процесса в целом способна извлекать наибольшее количество информации из таких ограниченных наборов данных в сочетании с другими релевантными наборами данных, которые сервер 112 базы данных извлекает из базы 136 данных наблюдений. Однако в других вариантах осуществления генератор 142 локальной модели может альтернативно строить модель машинного обучения любого другого подходящего типа (например, рекурсивную нейронную сеть, сверточную нейронную сеть и т.д.) до тех пор, пока время обучения не превысит минимальную желаемую длительность периода отслеживания. Генератор 142 локальной модели может также строить локальную модель 132 так, что локальная модель 132 может выводить границы правдоподобия или любой другой подходящий индикатор достоверности предсказания (например, степень достоверности). По меньшей мере по сравнению с моделями PLS и PCR, модели на основе гауссовского процесса особенно хорошо подходят для представления границ правдоподобия по предсказаниям аналитических измерений. Хотя были описаны различные преимущества моделей на основе гауссовского процесса перед моделями PLS и PCR, понятно, что в некоторых вариантах осуществления генератор 142 локальной модели может использовать методы моделирования PLS или PCR для построения локальной модели 132.In some embodiments, as discussed above, local model generator 142 builds a model based on a Gaussian process to effectively capture complex nonlinear process dynamics and quickly adapt to virtually any changes in the process. Unlike PLS and PCR models, Gaussian process-based models use nonparametric methods and are much better able to capture complex nonlinear correlations between Raman scan vectors and analytical measurements, even when using a very limited number of training samples. This may be particularly important in scenarios where new products or processes correspond to only a limited number of data sets in the observational data base. In such scenarios, the Gaussian process model is generally able to extract the most information from such limited data sets in combination with other relevant data sets that the database server 112 retrieves from the observational data base 136. However, in other embodiments, local model generator 142 may alternatively build any other suitable type of machine learning model (e.g., recursive neural network, convolutional neural network, etc.) as long as the training time does not exceed the minimum desired duration of the tracking period. Local model generator 142 may also build local model 132 such that local model 132 may output likelihood bounds or any other suitable indicator of prediction confidence (eg, confidence level). At least compared to PLS and PCR models, Gaussian process models are particularly well suited for representing likelihood bounds on analytical measurement predictions. While various advantages of Gaussian process models over PLS and PCR models have been described, it is understood that in some embodiments, the local model generator 142 may use PLS or PCR modeling techniques to build the local model 132.

Генератор 142 локальной модели может строить локальную модель 132 оперативным образом в реальном времени так, что блок 144 предсказания может затем использовать обученную локальную модель 132 для предсказания одного или нескольких аналитических измерений биофармацевтического процесса путем обработки того же вектора (векторов) рамановского сканирования, который был использован блоком 140 запроса для генерирования точки запроса. Более того, в некоторых вариантах осуществления блок 140 запроса может выполнять новый запрос и генератор 142 локальной модели может генерировать новую версию локальной модели 132 каждый раз, когда рамановский анализатор 106 предоставляет на компьютер 110 новый вектор рамановского сканирования (или новый набор векторов рамановского сканирования). В других вариантах осуществления, однако, блок 140 запроса выполняет новый запрос (и генератор 142 локальной модели генерирует новую версию локальной модели 132) на менее частой основе, как, например, один раз каждые 10 предсказаний/периодов отслеживания или один раз каждые 100 предсказаний/периодов отслеживания и т.д.The local model generator 142 may build the local model 132 on-line in real time such that the prediction unit 144 may then use the trained local model 132 to predict one or more analytical measurements of the biopharmaceutical process by processing the same Raman scan vector(s) that were used query block 140 to generate a query point. Moreover, in some embodiments, query block 140 may perform a new query and local model generator 142 may generate a new version of local model 132 each time Raman analyzer 106 provides computer 110 with a new Raman scan vector (or a new set of Raman scan vectors). In other embodiments, however, query block 140 performs a new query (and local model generator 142 generates a new version of local model 132) on a less frequent basis, such as once every 10 predictions/tracking periods or once every 100 predictions/ tracking periods, etc.

Блок 146 обслуживания базы данных также может обеспечивать периодический сбор аналитическим прибором (приборами) 104 данных одного или нескольких аналитических измерений с частотой, которая значительно меньше периода отслеживания рамановского анализатора 106 (например, лишь один или два раза в день и т.д.). Измерение (измерения) аналитическим прибором (приборами) 104 может являться разрушающим в некоторых вариантах осуществления и требующим полного удаления пробы из процесса в биореакторе 102. В момент или приблизительно в момент, в который блок 146 обслуживания базы данных обеспечивает сбор и предоставление аналитическим прибором (приборами) 104 данных фактического аналитического измерения (измерений), блок 146 обслуживания базы данных также может обеспечивать предоставление рамановским анализатором 106 одного или нескольких векторов рамановского сканирования. Блок 146 обслуживания базы данных затем может обеспечивать отправку сетевым интерфейсом 122 вектора (векторов) рамановского сканирования и соответствующего фактиче- 8 043314 ского аналитического измерения (измерений) на сервер 112 базы данных через сеть 114 для хранения в качестве нового набора данных наблюдений в базе 136 данных наблюдений. База 132 данных наблюдений может обновляться в соответствии с любым подходящим расчетным временем, которое может изменяться в зависимости от варианта осуществления. Если аналитический прибор (приборы) 104 выводит (выводят) фактические аналитические измерения через несколько секунд после измерения пробы, например, база 132 данных наблюдений может обновляться новыми измерениями почти сразу же после взятия проб. В некоторых других вариантах осуществления фактические аналитические измерения могут происходить в течение минут, часов или даже дней обработки одним или несколькими аналитическими приборами 104, и в этом случае база 132 данных наблюдений не обновляется до тех пор, пока обработка не будет завершена. В еще одних вариантах осуществления новые наборы данных наблюдений могут добавляться в базу 132 данных наблюдений постепенно по мере того, как разные аналитические приборы 104 завершают их соответствующие измерения.The database maintenance unit 146 may also cause the analytical instrument(s) 104 to periodically collect one or more analytical measurements at a frequency that is significantly less than the tracking period of the Raman analyzer 106 (eg, only once or twice a day, etc.). The measurement(s) by analytical instrument(s) 104 may be destructive in some embodiments and require complete removal of the sample from the process in bioreactor 102. At or approximately the time that database maintenance unit 146 causes the analytical instrument(s) to collect and provide ) 104 data of the actual analytical measurement(s), the database maintenance unit 146 may also cause the Raman analyzer 106 to provide one or more Raman scan vectors. Database maintenance unit 146 may then cause network interface 122 to send the Raman scan vector(s) and corresponding actual analytical measurement(s) to database server 112 via network 114 for storage as a new set of observational data in database 136 observations. The observation database 132 may be updated according to any suitable estimated time, which may vary depending on the embodiment. If the analytical instrument(s) 104 output(s) the actual analytical measurements several seconds after the sample is measured, for example, the observational data base 132 may be updated with new measurements almost immediately after sampling. In some other embodiments, the actual analytical measurements may occur within minutes, hours, or even days of processing by one or more analytical instruments 104, in which case the observational database 132 is not updated until processing is complete. In still other embodiments, new sets of observational data may be added to the observational database 132 gradually as different analytical instruments 104 complete their respective measurements.

Таким образом, база 136 данных наблюдений предоставляет динамическую библиотеку прошлых наблюдений, к которой генератор 142 локальной модели может обращаться для обучения модели. В некоторых вариантах осуществления новейшее аналитическое измерение (измерения) всегда добавляется (добавляются) в базу 136 данных наблюдений, и генератор 142 локальной модели всегда может использовать самый недавний набор (наборы) данных наблюдений в базе 136 данных наблюдений при калибровке локальной модели 132. Это может обеспечивать возможность декодирования локальной моделью 132 информации о процессе из недавнего прошлого и быстро адаптироваться к новым условиям или быстро адаптироваться к условиям нового процесса, не имеющего истории. Кроме того, и калибровка, и обслуживание локальной модели 132 могут быть автоматизированы. В некоторых вариантах осуществления возможность адаптации локальной модели 132 дополнительно увеличивается, например, как обсуждено ниже в связи с методиками A-JITL и ST-JITL.Thus, the observational database 136 provides a dynamic library of past observations that the local model generator 142 can access to train the model. In some embodiments, the newest analytical measurement(s) are always added to the observational database 136, and the local model generator 142 may always use the most recent observational data set(s) in the observational database 136 when calibrating the local model 132. This may provide the ability for the local model 132 to decode information about a process from the recent past and quickly adapt to new conditions or quickly adapt to the conditions of a new process that has no history. In addition, both calibration and maintenance of the local Model 132 can be automated. In some embodiments, the ability to adapt the local model 132 is further enhanced, for example, as discussed below in connection with the A-JITL and ST-JITL techniques.

В некоторых вариантах осуществления блок 146 обслуживания базы данных может обеспечивать сбор и предоставление аналитическим прибором (приборами) 104 данных фактического аналитического измерения (измерений) на какой-либо другой временной основе или условии, таком как, например, текущее качество модели. Например, если локальная модель 132 выводит интервал правдоподобия (например, диапазон значений по предсказанному значению, в пределах которого имеется 95% вероятность или достоверность того, что в него попадет фактическое/измеренное значение) или какой-либо другой индикатор достоверности наряду с предсказанием (например, если локальная модель 132 представляет собой модель на основе гауссовского процесса), и если индикатор достоверности показывает особенно ненадежное предсказание (например, если интервал/диапазон превышает пороговое значение ширины/диапазона, и т.д.), то блок 146 обслуживания базы данных может инициировать сбор данных одного или нескольких фактических аналитических измерений. В качестве более конкретного примера блок 146 обслуживания базы данных может инициировать сбор данных аналитического измерения (измерений) в ответ на определение превышения интервалом с 95% правдоподобием предварительно заданного порогового значения. Оптимальное планирование аналитических измерений более подробно обсуждено ниже. После выполнения измерения (измерений) блок 146 обслуживания базы данных может обеспечивать генерирование рамановским анализатором 106 одного или нескольких векторов рамановского сканирования и обеспечивать предоставление сетевым интерфейсом 122 фактического аналитического измерения (измерений) и соответствующего вектора (векторов) рамановского сканирования на сервер 112 базы данных для хранения в качестве нового набора данных наблюдений в базе 132 данных наблюдений (например, способом, обсужденным выше). Генератор 142 локальной модели может затем использовать этот новейший набор данных наблюдений, если это необходимо (например, в зависимости от релевантности текущему запросу, или от того, всегда ли в варианте осуществления используется самый недавний набор данных наблюдений), при калибровке локальной модели 132.In some embodiments, the database maintenance block 146 may cause the analytical instrument(s) 104 to collect and report the actual analytical measurement(s) on some other time basis or condition, such as, for example, the current quality of the model. For example, if local model 132 outputs a likelihood interval (e.g., a range of values over a predicted value within which there is a 95% probability or confidence that the actual/measured value will fall within it) or some other confidence indicator along with the prediction (e.g. if the local model 132 is a Gaussian process model), and if the confidence indicator indicates a particularly unreliable prediction (eg, if the interval/range exceeds the width/range threshold, etc.), then the database maintenance unit 146 may initiate the collection of one or more actual analytical measurements. As a more specific example, database maintenance unit 146 may initiate collection of analytical measurement(s) in response to a determination that the 95% likelihood interval has exceeded a predetermined threshold value. Optimal planning of analytical measurements is discussed in more detail below. After the measurement(s) are performed, database service unit 146 may cause Raman analyzer 106 to generate one or more Raman scan vectors and cause network interface 122 to provide the actual analytical measurement(s) and corresponding Raman scan vector(s) to database server 112 for storage. as a new set of observational data in the observational data base 132 (eg, in the manner discussed above). The local model generator 142 can then use this newest observational data set as needed (e.g., depending on relevance to the current query, or whether the embodiment always uses the most recent observational data set) when calibrating the local model 132.

Некоторые или все вышеописанные процессы могут повторяться несколько раз в течение времени выполнения биофармацевтического процесса в биореакторе с целью непрерывного отслеживания процесса с использованием локальной модели, для которой как калибровка, так и обслуживание являются полностью автоматизированными и выполняемыми в реальном времени. Аналитическое измерение (измерения) может предсказываться с разными целями в зависимости от варианта осуществления и/или сценария. Например, некоторые параметры могут быть отслежены (т.е. предсказаны) как часть процесса управления качеством, для того чтобы убедиться в том, что процесс по-прежнему соответствует действующим нормам. В качестве другого примера один или несколько параметров могут отслеживаться или предсказываться для обеспечения обратной связи в системе управления в замкнутом контуре. Например, на фиг. 2 изображена система 150, подобная системе 100, но в которой предпринята попытка управления концентрацией глюкозы в биофармацевтическом процессе (т.е. попытка обеспечить совпадение предсказанной концентрации глюкозы с требуемым заданным значением в пределах некоторого допустимого отклонения). Понятно, что в других вариантах осуществления система 150 может альтернативно (или дополнительно) использоваться для управления параметрами процесса, отличными от уровня глюкозы, или для управления уровнем глюкозы на основе предсказаний одного или нескольких других параметров процесса (например, уровня лактата). На фиг. 2 для указания компонентов, соответствующих компонен- 9 043314 там, представленным на фиг. 1, используются такие же ссылочные позиции. Например, приложение 130 предсказателя JITL, представленное на фиг. 2, может являться таким же, как приложение 130 предсказателя JITL, представленное на фиг. 1 (при этом различные блоки приложения 130 предсказателя JITL для ясности не показаны на фиг. 2).Some or all of the above processes may be repeated several times during the running time of the biopharmaceutical process in the bioreactor to continuously monitor the process using a local model for which both calibration and maintenance are fully automated and performed in real time. The analytical measurement(s) may be predicted for different purposes depending on the embodiment and/or scenario. For example, certain parameters may be monitored (ie predicted) as part of the quality management process to ensure that the process continues to comply with current regulations. As another example, one or more parameters may be monitored or predicted to provide feedback to a closed-loop control system. For example, in FIG. 2 depicts a system 150 similar to system 100, but attempting to control the glucose concentration in a biopharmaceutical process (ie, attempting to ensure that the predicted glucose concentration matches a desired set point within some tolerance). It is understood that in other embodiments, system 150 may alternatively (or additionally) be used to control process parameters other than glucose level, or to control glucose level based on predictions of one or more other process parameters (eg, lactate level). In fig. 2 to indicate components corresponding to those shown in FIG. 1, the same reference numbers are used. For example, the JITL predictor application 130 shown in FIG. 2 may be the same as the JITL predictor application 130 shown in FIG. 1 (with the various blocks of the JITL predictor application 130 not shown in FIG. 2 for clarity).

Как видно на фиг. 2, в системе 150 в запоминающем устройстве 128 также хранится блок 152 управления. Блок 152 управления выполнен с возможностью управления насосом 154 глюкозы, т.е. с возможностью обеспечения выборочного введения насосом 154 глюкозы дополнительной глюкозы в биофармацевтический процесс в биореакторе 102. Блок 152 управления может содержать программные команды, исполняемые, например, блоком 120 обработки данных, и/или соответствующим программноаппаратным обеспечением, и/или аппаратным обеспечением. В некоторых вариантах осуществления в блоке 152 управления реализуется методика управления по модели предсказания (МРС) с использованием концентраций глюкозы в качестве входных данных в архитектуру с замкнутым контуром. В вариантах осуществления, где локальная модель 132 предоставляет границы правдоподобия или другие индикаторы достоверности вместе с каждым предсказанием (например, в некоторых вариантах осуществления, где локальная модель 132 представляет собой модель на основе гауссовского процесса), блок 152 управления также может принимать индикаторы достоверности в качестве входных данных. Например, блок 152 управления может генерировать только управляющие команды для насоса 154 глюкозы на основе предсказаний концентрации глюкозы, имеющих достаточно высокий индикатор достоверности (например, только на основе предсказаний, связанных с границами правдоподобия, которые не превышают некоторую процентную долю или абсолютный диапазон измерений, или только на основе предсказаний, связанных со степенями достоверности выше некоторого минимального порогового значения степени, и т.д.), или может увеличивать и/или уменьшать весовой коэффициент данного предсказания на основе его индикатора достоверности и т.д.As can be seen in FIG. 2, in system 150, memory 128 also stores control unit 152. The control unit 152 is configured to control the glucose pump 154, i.e. with the ability to cause the glucose pump 154 to selectively introduce additional glucose into the biopharmaceutical process in the bioreactor 102. The control unit 152 may include software instructions executed, for example, by the data processing unit 120 and/or associated firmware and/or hardware. In some embodiments, control block 152 implements model predictive control (MPC) techniques using glucose concentrations as input to a closed-loop architecture. In embodiments where local model 132 provides likelihood bounds or other confidence indicators along with each prediction (for example, in some embodiments where local model 132 is a Gaussian process model), control unit 152 may also receive confidence indicators as input data. For example, control unit 152 may generate only control commands for glucose pump 154 based on predictions of glucose concentration having a sufficiently high confidence indicator (e.g., only based on predictions associated with likelihood bounds that do not exceed a certain percentage or absolute measurement range, or only based on predictions associated with confidence degrees above some minimum degree threshold, etc.), or may increase and/or decrease the weight of a given prediction based on its confidence indicator, etc.

На фиг. 3 изображены экспериментальные результаты 200 для одной примерной реализации, в которой для калибровки и обслуживания локальной модели на основе гауссовского процесса используются методики JITL. На графике, представленном на фиг. 3, горизонтальная штриховая линия 202 представляет заданное значение концентрации глюкозы, кружки 204 представляют фактические измерения концентрации глюкозы (например, выполненные аналитическим прибором, аналогичным одному из аналитических приборов 104, представленных на фиг. 1), сплошная линия 206 представляет предсказанные измерения концентрации глюкозы (например, предсказанные моделью, аналогичной локальной модели 132), а затененные области 208 представляют границы правдоподобия (для правдоподобия 95%), связанные с предсказанными измерениями. Как видно на фиг. 3, для заданного значения концентрации глюкозы, равного 3 граммам на литр (г/л), предсказания, выполненные с использованием методики JITL, в целом близко совпадают с аналитическими измерениями.In fig. 3 depicts experimental results 200 for one exemplary implementation that uses JITL techniques to calibrate and maintain a local model based on a Gaussian process. In the graph shown in FIG. 3, the horizontal dashed line 202 represents the glucose concentration target value, the circles 204 represent the actual glucose concentration measurements (e.g., made by an analytical instrument similar to one of the analytical instruments 104 presented in FIG. 1), the solid line 206 represents the predicted glucose concentration measurements (e.g. predicted by a model similar to the local model 132), and the shaded areas 208 represent the likelihood bounds (for 95% likelihood) associated with the predicted measurements. As can be seen in FIG. 3, for a glucose concentration target of 3 grams per liter (g/L), the predictions made using the JITL technique generally agree closely with the analytical measurements.

Процесс проведения запроса и построения/калибровки локальной модели 132 ниже будет более подробно описан математически со ссылкой на один конкретный вариант осуществления JITL, в котором локальная модель 132 представляет собой модель на основе гауссовского процесса, в которой в качестве элемента входных данных используется один вектор рамановского сканирования, и которая предсказывает одно аналитическое измерение.The process of querying and building/calibrating the local model 132 will be described in more detail mathematically below with reference to one particular embodiment of JITL, in which the local model 132 is a Gaussian process model that uses a single Raman scan vector as the input data element. , and which predicts one analytical measurement.

Пусть ^D “ (или ^D={bY в сокращенной записи) обозначает набор упорядоченных пар входных и выходных данных, так что ^а = {^ак^а2 -.а/) - входные данные, и - выходные данные. Кроме того, предполагается, что ^а/ ^е - щ-мерный входной вектор, и ^Е - скалярный вывод. Физически ^а/ ^Е можно представить себе как спектроскопическое измерение (например, NIR или рамановское), а ^bj - как аналитическое измерение для представляющего интерес состояния (например, концентрации глюкозы или лактата). Для данного набора D обучающих данных целью задачи калибровки спектроскопической модели является определение взаимосвязи между входными данными и выходными данными для модели в форме bj = /(ay) + €j Уравнение (1) где f ^е - спектроскопическая модель и σ²) - нормально распределенный шум измерения с нулевым средним, дисперсия σ² которого неизвестна. Стандартной практикой при калибровке моделей является предположение того, что f(·) является линейной, а затем использование для обучения модели таких методов, как PLS. Вместо приписывания f(·) какой-либо ограничивающей или фиксированной формы здесь предполагается, что f( ·) представляет собой скрытую функцию, моделируемую как гауссовский процесс так, что представляет случайную выборку из гауссовского процесса, имеющего среднее Ρθ(*) ^е и ковариационную функцию ^Е которые обычно задаются следующим образом:Let ^D “ (or ^D= {bY in shorthand) denote a set of ordered pairs of input and output data, so that ^a = { ^a k ^a 2 -.a/) is the input data, and a is the output data. In addition, it is assumed that ^a / ^e is an n-dimensional input vector and ^E is a scalar output. Physically, ^a / ^E can be thought of as a spectroscopic measurement (such as NIR or Raman) and ^b j as an analytical measurement for the state of interest (such as glucose or lactate concentration). For a given set D of training data, the goal of the spectroscopic model calibration problem is to determine the relationship between the input data and the output data for the model in the form bj = /(ay) + €j Equation (1) where f ^e is the spectroscopic model and σ ² ) is normally distributed zero-mean measurement noise whose variance σ ² is unknown. Standard practice when calibrating models is to assume that f(·) is linear and then use methods such as PLS to train the model. Instead of assigning f(·) to any limiting or fixed form, it is assumed here that f(·) is a latent function modeled as a Gaussian process such that it represents a random sample from a Gaussian process having a mean Ρθ(*) ^e and a covariance function ^E which are usually given as follows:

- 10 043314 (a) = [деСаА ,Де(а₂) ...Ae(aj)]^T, Уравнение (2а) к_е(а; а) = ^Аа) /се(Я1,а₂) · /оДД ^(^¾) ЫагАг) ·” k_e(a₂,aj) . Уравнение (2Ь) к^.а-^ k_e(a_]ta₂) - к^ара^.- 10 043314 (a) = [deCaA ,De(a ₂ ) ...Ae(aj)] ^T , Equation (2a) k _e (a; a) = ^Aa) /ce(R1,a ₂ ) / oDD ^(^2) NaarAg) ·” k _e (a ₂ ,aj) . Equation (2b) k^.a-^ k _e (a _]t a ₂ ) - k^ara^.

Кроме того, θ е ΙΚ^ηθ обозначает гиперпараметры для модели на основе гауссовского процесса. Гауссовский процесс представляет собой набор случайных переменных, любое конечное количество которых имеет совместное гауссовское распределение, так что для набора конечных входных данных а ξξ можно записать:In addition, θ e ΙΚ ^ηθ denotes the hyperparameters for the Gaussian process model. A Gaussian process is a set of random variables, any finite number of which have a joint Gaussian distribution, so that for a set of finite input data a ξξ can be written:

p(f|a) = ^(дe(a)_/ke(a, а)) Уравнение (3)p(f|a) = ^(de(a) _/ ke(a, a)) Equation (3)

Тогда задача калибровки спектроскопической модели сводится к обучению скрытой функции / ^Gгауссовского процесса с использованием D. Для удобства с математической точки зрения и общей лаконичности здесь предполагается, что ^{μθ =} А; однако это не обязательно имеет место в общем случае и результаты здесь можно легко распространить на модели при * θη_α. Роль ковариационной функции в гауссовских процессах аналогична роли ядер, используемых в машинах опорных векторов (SVM). Общеупотребительной ковариационной функцией является гауссовское ядро, и она имеет вид:The task of calibrating the spectroscopic model then reduces to learning the latent function / ^G of the Gaussian process using D. For mathematical convenience and general brevity, it is assumed here that ^{μθ =} A; however, this is not necessarily the case in the general case and the results here can be easily extended to models for * θη _α . The role of the covariance function in Gaussian processes is similar to the role of kernels used in support vector machines (SVMs). A commonly used covariance function is the Gaussian kernel, and it has the form:

/ / ΠΊ ί;Ά²\ ^(^,а₇) = βθχρί-^ΣΪι где - ковариация между парой элементов входных данных, (м). Гауссовское ядро koi^aj) присваивает более высокий коэффициент корреляции, если входные данные в наборе Д³/} близки друг к другу, что задается евклидовым расстоянием в уравнении (4)./ / ΠΊ ί;Ά ² \ ^(^,a ₇ ) = βθχρί-^ΣΪι where is the covariance between a pair of input data elements, (m). The Gaussian kernel koi^aj) assigns a higher correlation coefficient if the input data in the set D ³ /} are close to each other, as given by the Euclidean distance in equation (4).

Для выбранного гауссовского ядра уравнение (4) представляет собой положительно определенную симметричную матрицу, так что ^ke(·/) ^е $++^J. В уравнении (4) набор $ ⁼ {βΆΑι } представляет собой набор гиперпараметров.For the chosen Gaussian kernel, equation (4) is a positive definite symmetric matrix, so that ^k e(·/) ^e $++ ^J . In equation (4), the set $ ⁼ {βΆΑι } represents the set of hyperparameters.

Физически ^ai ^G представляет собой параметр линейных размеров и β ^Е - параметр дисперсии сигнала. Выбор гауссовской ковариационной функции в уравнении (4) соответствует предыдущему предположению о том, что f является гладкой и непрерывной. Таким образом, путем варьирования гиперпараметров ковариационной функции можно варьировать гладкость f. Здесь предполагаются гауссовские процессы с гауссовской ковариационной функцией. Однако это не обязательно имеет место в общем случае.Physically, ^a i ^G is a parameter of linear dimensions and β ^E is a parameter of signal dispersion. The choice of the Gaussian covariance function in equation (4) is consistent with the previous assumption that f is smooth and continuous. Thus, by varying the hyperparameters of the covariance function, the smoothness of f can be varied. Here we assume Gaussian processes with a Gaussian covariance function. However, this is not necessarily the case in the general case.

Для данного D целью является обучение гиперпараметрам гауссовского процесса, включая любые другие неизвестные параметры модели. Для гауссовского процесса в уравнении (1) набором неизвестных параметров является γ = {θ,σ²}Ε гсц\ Этап обучения параметров может выполняться путем максимизации функции предельного правдоподобия (или доказательства) в пространстве неизвестных параметров. Например, для гауссовского процесса в уравнении (1) функция предельного правдоподобия имеет следующий вид:For a given D, the goal is to learn the hyperparameters of the Gaussian process, including any other unknown parameters of the model. For the Gaussian process in equation (1), the set of unknown parameters is γ = {θ,σ ² }Ε gsc\ The parameter learning step can be performed by maximizing the marginal likelihood function (or proof) in the space of unknown parameters. For example, for the Gaussian process in equation (1), the marginal likelihood function has the following form:

p(b|a) = f р(b|f, a)p(f |a)df , Уравнение (5) где ρ№) - функция предельного правдоподобия, ^а) - функция правдоподобия, имеющая вид: p(b|f, а) = ^(f(a),σ²IJ _х j) ,Уравнение (6) и - предыдущая функция плотности, данная в уравнении (3). Для гауссовского правдоподобия и предыдущих плотностей в уравнениях (6) и (3), соответственно, интеграл в уравнении (5) имеет решение в замкнутой форме, так что функция предельного правдоподобия имеет вид:p(b|a) = f p(b|f, a)p(f |a)df , Equation (5) where ρ№) is the marginal likelihood function, ^and ) is the likelihood function, which has the form: p(b| f, a) = ^(f(a),σ ² IJ _x j) ,Equation (6) and is the previous density function given in equation (3). For the Gaussian likelihood and previous densities in equations (6) and (3), respectively, the integral in equation (5) has a closed-form solution, so that the marginal likelihood function is:

p(b|a) = ^(0J_Лke(a_лa) + σ²Ι|_Χ j) .Уравнение (7)p(b|a) = ^(0J _L ke(a _l a) + σ ² Ι| _Χ j).Equation (7)

Теперь для данного уравнения (7) У = №,(т²} ^£ Г - можно оценить, решив следующую задачу оптимизации:Now for this equation (7) Y = No, (m ² } ^£ Г - can be estimated by solving the following optimization problem:

у* £ argmaxlogp(b|a), Уравнение (8) где У* ^G Г - оптимальная оценка. Из уравнения (7) имеем logp(b|a) = -|b^-Tky^-1b —“log |ky| - |log2n, Уравнение (9) где - ^ke(a|a) + ^Ijxj. Для решения задачи оптимизации в уравнении (8) частные производные в уравнении (9) определяют относительно γ, так что для всех r=1, 2, ..., η_γ,y* £ argmaxlogp(b|a), Equation (8) where Y* ^G Г is the optimal estimate. From equation (7) we have logp(b|a) = -|b ^-T ky ^-1 b —“log |ky| - |log2n, Equation (9) where - ^k e(a|a) + ^Ijxj. To solve the optimization problem in equation (8), the partial derivatives in equation (9) are determined with respect to γ, so that for all r=1, 2, ..., η _γ ,

A-logp(bla) = ^b - |Tr [ky¹^], Уравнение (10a) °Yr ^L °Yr ¹ L OyrJ = I Tr ((αα^τ — ky¹ УЙ > Уравнение (10b) _ ² \ °Yr / где ^{a = k} y ^b. Для данной функции предельного правдоподобия в уравнении (7) и ее производных в уравнении (10b) при решении уравнения (8) можно использовать метод градиентного спуска. Поскольку уравнение (8) в целом представляет собой задачу невыпуклой оптимизации с множественными локальными оптимумами, при решении этой задачи оптимизации необходимо проявлять осмотрительность. Здесь предполагается, что γ* известна и может быть вычислена путем решения уравнения (8). Кроме того, для уменьшения сложности записи здесь будет предполагаться, что γ - оптимальная оценка γ*, если неA-logp(bla) = ^b - |Tr [ky ¹ ^], Equation (10a) °Yr ^L °Yr ¹ L OyrJ = I Tr ((αα ^τ - ky ¹ YY > Equation (10b) _ ² \ ° Yr / where ^{a = k} y ^b . For a given marginal likelihood function in equation (7) and its derivatives in equation (10b), the gradient descent method can be used to solve equation (8). Since equation (8) in general is a non-convex problem optimization with multiple local optima, care must be taken when solving this optimization problem.It is assumed here that γ* is known and can be calculated by solving equation (8).In addition, to reduce notation complexity, it will be assumed here that γ is the optimal estimate of γ *, if not

- 11 043314 указано иное.- 11 043314 states otherwise.

После обучения спектроскопической калибровочной модели на основе гауссовского процесса в уравнении (1) ее можно использовать для применений при предсказаниях в реальном времени. Как и ранее, пусть D будет набором обучающих данных, используемым для обучения модели на основе гауссовского процесса, и пусть а* г будет новым испытательный спектроскопический сигнал. Тогда целью является предсказание элемента выходных данных b* £ I, соответствующего испытательному элементу входных данных а*. Первым этапом при вычислении b* является построение совместной плотности распределения всего из обучающего выходного набора b и испытательного элемента выходных данных гауссовского процесса, Л^а), которые обусловлены в отношении обучающего входного набора а и испытательного элемента входных данных а*. Указанная совместная плотность распределения имеет следующий вид:After training the spectroscopic calibration model based on the Gaussian process in equation (1), it can be used for real-time prediction applications. As before, let D be the training data set used to train the model based on the Gaussian process, and let a* r be the new test spectroscopic signal. Then the goal is to predict the output data element b* £ I corresponding to the test input data element a*. The first step in computing b* is to construct the joint density distribution of the total of the training output set b and the test output element of the Gaussian process, L ^a ), which are conditional on the training input set a and the test input set a*. The specified joint distribution density has the following form:

Р (Б|Ж)) |а,а·) = (о, У]) , Уравнение (11) \ । / \ кк^да ,aj KgL >а )л/ где ^kr ^{= к}А^ал^а) + ^σ2Ιΐχΐ. Для данного уравнения (11) в байесовской инфраструктуре элемент выходных данных гауссовского процесса, Л^а), вычисляется путем построения распределения по всем выходным данным гауссовского процесса. Иначе говоря, отыскивается апостериорное распределение для элемента выходных данных гауссовского процесса, /(^а). Разумеется, апостериорное распределение по Л^а*) требует включения только тех функций, которые согласуются с обучающим набором D. При вероятностных установках апостериорное распределение по Л^а) можно вычислить путем согласования совместного распределения в уравнении (11) в отношении обучающего набора D, что дает ρ(/·(3*)|ϊ),3*) = Ж(рд,кд) .Уравнение (12) где Р(/(^а*)1Да*) - апостериорное распределение для элемента выходных данных гауссовского процесса, и = ^ш[(/(^а*) IА а*)] имеет видP (B|F)) |a,a·) = (o, U]) , Equation (11) \ । / \ kk^da ,aj KgL >a )l/ where ^k r ^{= k} A ^a l ^a ) + ^σ2 Ιΐχΐ. For a given equation (11), in a Bayesian framework, the output element of the Gaussian process, L ^a ), is computed by constructing a distribution over all outputs of the Gaussian process. In other words, the posterior distribution for the output data element of the Gaussian process, /( ^a ), is found. Of course, the posterior distribution over ^A *) requires the inclusion of only those features that are consistent with the training set D. In a probability setting, the posterior distribution over ^{A *} ) can be calculated by fitting the joint distribution in equation (11) to the training set D, which gives ρ(/·(3*)|ϊ),3*) = Ж(рд,кд) .Equation (12) where Р(/( ^а *)1Да*) is the posterior distribution for the output data element of the Gaussian process, and = ^w [(/( ^a *) IA a*)] has the form

Де = к_е(а*, а)[к_у(а, а)] ^гЬ .Уравнение (13) и = V[(/(a*)|!D,a*)] имеет вид к*_в = кд^,а*) - к_е(а*.а)[к_у(а.а)] ¹к₀(а,а*). Уравнение (14)De = k _e (a*, a)[k _y (a, a)] ^g b. Equation (13) u = V[(/(a*)|!D,a*)] has the form k* _b = kd^,a*) - k _e (a*.a)[k _y (a.a)] ¹ to ₀ (a,a*). Equation (14)

Для данного уравнения (12) предсказывающее апостериорное распределение для элемента выходных данных b* можно вычислить следующим образом:For a given equation (12), the predictive posterior distribution for the output element b* can be calculated as follows:

p(b*\D, а*) = ^(μg, кд + σ²) . Уравнение (15) где ^0 ^и даны, соответственно, в уравнениях (13) и (14). Для одного испытательного элемента входных данных а* Е !&^Па предсказание на основе гауссовского процесса в уравнении (15) дает распределение выходных данных, имеющих ненулевую вероятность реализации. В приложениях в реальном времени, таких как управление и отслеживание, с большей вероятностью представляет интерес точечная оценка, а не все распределение. Точечную оценку можно вычислить с использованием подхода на основе теории принятия решений. Можно показать, что для гауссовского апостериорного распределения в уравнении (15) средняя функция минимизирует и ожидаемую безусловную функцию, и квадратичную функцию риска, при этом ⁼ представляет собой наиболее вероятный элемент выходных данных для элемента входных данных а*. Кроме того, для выбора b = в качестве предсказания интервал с приблизительно 95% правдоподобием имеет вид:p(b*\D, a*) = ^(μg, cd + σ ² ) . Equation (15) where ^0 ^and are given, respectively, in equations (13) and (14). For one test element of the input data a* E !& ^Pa , the prediction based on the Gaussian process in equation (15) gives a distribution of output data that has a non-zero probability of occurrence. In real-time applications such as control and tracking, the point estimate is more likely to be of interest rather than the entire distribution. The point estimate can be calculated using a decision theory approach. It can be shown that for the Gaussian posterior distribution in equation (15), the mean function minimizes both the expected unconditional function and the quadratic hazard function, with ⁼ representing the most likely output element for the input element a*. Additionally, for choosing b = as a prediction, the approximately 95% likelihood interval is:

b^L = (μρ — 2^кд + σ²)) < b < рд + 2(^кд + σ²) = b^u . Уравнение (16)b ^L = (μρ - 2^kd + σ ² )) < b < рд + 2(^kd + σ ² ) = b ^u . Equation (16)

Интервал в уравнении (16) можно использовать для количественной оценки качества предсказаний на основе гауссовского процесса и/или выполнения управления для предсказания по модели на основе гауссовского процесса или других робастных стратегий отслеживания.The interval in equation (16) can be used to quantify the quality of Gaussian process predictions and/or perform control for Gaussian process model prediction or other robust tracking strategies.

Обращаясь теперь к выбору релевантных выборок (здесь - наборов данных наблюдений) в ответ на запрос, задача заключается в выборе для данной точки запроса, а* Е ШЛ^а, и центральной базы дан ных/библиотеки - Ε^Αίι, содержащей L Е Ы пары элементов входных данных и выходных данных (наборы данных наблюдений), локального обучающего набора ^{- а}Д=1 _в момент времени, t е N со держащий выборки D Е И, где D<<L. Предполагается, что £ является динамической и может содержать разные элементы в ходе производственного цикла. Существует множество способов построения Ί) исходя из £. В целях данного анализа Ί) выбирают на основе евклидова расстояния между спектрами (например, векторами рамановского сканирования) в наборе Д И хотя критерии подобия на евклидовой основе в инфраструктуре JITL, как сообщалось, в некоторых ситуациях являются субоптимальными, они могут представлять собой предпочтительный выбор при использовании модели на основе гауссовского процесса. Причиной этого является то, что модель на основе гауссовского процесса сама основана на евклидовом расстоянии. Гауссовское ядро присваивает более высокий коэффициент корреляции только в том случае, если входные данные в наборе i^ao ^aj} близки друг к другу. Поэтому путем создания локального обучающего набора Ί), в котором все входные данные являются близкими к точке запроса, можно обеспечить улавливание локальной моделью на основе гауссовского максимальной корреляции для предсказания элемента выходных данных в точке запроса.Turning now to the selection of relevant samples (here - sets of observational data) in response to a query, the task is to select for a given query point, a* E SHL ^a , and a central database/library - Ε^Αίι, containing L E S pairs elements of input data and output data (observational data sets), local training set ^{- a} D = 1 _at time, t e N containing samples D E I, where D<<L. It is assumed that £ is dynamic and may contain different elements during the production cycle. There are many ways to construct Ί) starting from £. For the purposes of this analysis, Ί) is selected based on the Euclidean distance between spectra (e.g., Raman scan vectors) in the D set. Although Euclidean-based similarity criteria in the JITL framework have been reported to be suboptimal in some situations, they may represent a preferable choice when using a model based on a Gaussian process. The reason for this is that the Gaussian process model is itself based on Euclidean distance. The Gaussian kernel assigns a higher correlation coefficient only if the inputs in the set i ^a o ^a j} are close to each other. Therefore, by creating a local training set Ί) in which all inputs are close to the query point, it is possible to ensure that the local model captures a Gaussian maximum correlation to predict the output item at the query point.

- 12 043314- 12 043314

Примерный алгоритм, формально описывающий способ создания локального обучающего набора Ί) исходя из £, обучения модели на основе гауссовского процесса с использованием этого обучающего набора и выполнения предсказания с использованием обученной модели, представлен ниже в алгоритме 1An example algorithm formally describing a method for generating a local training set Ί) from £, training a Gaussian process model using that training set, and making a prediction using the trained model is presented below in Algorithm 1

1. Input: Library L = {(а^, Ь^}|₌₁, query point а*1. Input: Library L = {(a^, b^}| ₌₁ , query point a*

2. Output: Prediction Sand uncertainty (b^L,b^u)2. Output: Prediction Sand uncertainty (b ^L ,b ^u )

3. for t = Ito Ldo3. for t = Ito Ldo

4. Set I <- sample_index(L)and D <- {0}4. Set I <- sample_index(L)and D <- {0}

5. for d = 1 to D do5. for d = 1 to D do

6. k* e argmax_ie/ exp(—1|a_£ - a*||)6. k* e argmax _ie/ exp(—1|a _£ - a*||)

7. D <- D U { a_kt,h_kJ7. D <- DU { a _kt ,h _k J

8. 1 /\{i)8. 1 /\{i)

9. end for9. end for

10. Обучить модель на основе гауссовского процесса по уравнению (1) с использованием ©и оценки у*10. Train the model based on the Gaussian process according to equation (1) using © and estimate y*

11. Вычислить йи (b^L, b^u)c использованием уравнений (13) и (16)11. Calculate ii (b ^L , b ^u ) using equations (13) and (16)

12. end for12. end for

Алгоритм 1Algorithm 1

Обратимся теперь к фиг. 4, на которой показан примерный поток 250 данных, который может иметь место при анализе биофармацевтического процесса с использованием методики JITL, описанной в данном документе. Поток 250 данных может иметь место, например, в системе 100, представленной на фиг. 1, или системе 150, представленной на фиг. 2. В потоке 250 данных спектральные данные 252 предоставляются спектрометром/зондом. Например, спектральные данные 252 могут содержать вектор рамановского сканирования, сгенерированный рамановским анализатором 106, или вектор сканирования NIR, и т.д. Точка 254 запроса генерируется (например, блоком 140 запроса) на основе спектральных данных 252 и используется, например, для запроса глобального набора 256 данных, который может содержать все наборы данных наблюдений в базе 136 данных наблюдений. На основе запроса в глобальном наборе 256 данных идентифицируется локальный набор 258 данных. Локальный набор 258 данных может быть выбран, например, на основе критериев релевантности (например, евклидова расстояния), как описано выше.Let us now turn to FIG. 4, which illustrates an example data flow 250 that may occur when analyzing a biopharmaceutical process using the JITL methodology described herein. Data flow 250 may take place, for example, in the system 100 shown in FIG. 1, or the system 150 shown in FIG. 2. In data stream 250, spectral data 252 is provided by a spectrometer/probe. For example, spectral data 252 may comprise a Raman scan vector generated by Raman analyzer 106, or a NIR scan vector, etc. Query point 254 is generated (eg, by query block 140) based on spectral data 252 and is used, for example, to query a global data set 256, which may contain all observation data sets in the observation data base 136. Based on the query, a local data set 258 is identified in the global data set 256 . The local data set 258 may be selected, for example, based on relevance criteria (eg, Euclidean distance) as described above.

Локальный набор 258 данных затем используется в качестве обучающих данных (например, генератором 142 локальной модели) для калибровки локальной модели 260 (например, локальной модели 132). Локальная модель 132 затем используется (например, блоком 144 предсказания) для предсказания элемента 262 выходных данных (аналитического измерения), такого как концентрация компонентов питательной среды, состояние питательной среды (например, глюкоза, лактат, глутамат, глутамин, аммиак, аминокислоты, Na+, K+, а также другие питательные вещества или метаболиты, рН, pCO₂, pO₂, температура, осмоляльность и т.д.), плотность жизнеспособных клеток, титр, критические показатели качества, состояние клеток и т.д., а также возможно вывода границ правдоподобия или другого подходящего индикатора достоверности.The local data set 258 is then used as training data (eg, local model generator 142) to calibrate the local model 260 (eg, local model 132). Local model 132 is then used (e.g., by prediction block 144) to predict an output (analytical measurement) element 262, such as the concentration of media components, the state of the media (e.g., glucose, lactate, glutamate, glutamine, ammonia, amino acids, Na+, K+, as well as other nutrients or metabolites, pH, pCO ₂ , pO ₂ , temperature, osmolality, etc.), viable cell density, titer, critical quality indicators, cell condition, etc., and possible output likelihood limits or other suitable indicator of confidence.

Несмотря на то, что локальная модель на основе JITL (например, такая как алгоритм 1 и поток 250 данных) предоставляет робастную нелинейную инфраструктуру моделирования, такой подход не имеет внутреннего механизма для адаптации к зависящим от времени изменениям в процессе. Для устранения этого недостатка в некоторых вариантах осуществления может использоваться стратегия адаптивного JITL (A-JITL). Как отмечено выше, новые выборки могут включаться в £ по мере того, как эти выборки становятся доступными. В таких вариантах осуществления (т.е., где £ является динамической) £ можно обозначить как Р В одном таком варианте осуществления реализован способ скользящего временного окна, в котором вновь полученная выборка добавляется в Р а самая старая выборка удаляется из А. Исключение самой старой выборки может являться преимущественным, поскольку в адаптивных стратегиях сохранение размера может являться критичным для обеспечения вычислительной разрешимости инфраструктуры JITL в целом. Однако одной основной проблемой, связанной с данным подходом, является то, что простое исключение старых выборок может приводить к потере информации, так как старые выборки могут содержать релевантную информацию.Although a local JITL-based model (such as Algorithm 1 and Data Flow 250) provides a robust nonlinear modeling framework, such an approach does not have an internal mechanism to adapt to time-dependent changes in the process. To overcome this drawback, some embodiments may use an adaptive JITL (A-JITL) strategy. As noted above, new samples may be included in £ as those samples become available. In such embodiments (i.e., where £ is dynamic), £ can be denoted by P. One such embodiment implements a sliding time window technique in which the newly acquired sample is added to P and the oldest sample is removed from A. Elimination of the oldest sampling may be advantageous because, in adaptive strategies, size preservation may be critical to ensuring the computational solvability of the JITL framework as a whole. However, one major problem with this approach is that simply excluding old samples may result in a loss of information, since old samples may contain relevant information.

Во избежание такой потери информации в одном варианте осуществления новые выборки добавляются в без удаления каких-либо старых/существующих выборок. Таким образом, центральная база данных расширяется на возрастающее количество выборок по мере того, как становятся доступными новые аналитические измерения. В применении процессов культивирования клеток расширение базы данных может не приводить к каким-либо значительным вычислительным проблемам вследствие того, что такие процессы обычно эксплуатируются как периодические процессы с временем цикла от двух до трех недель. Это естественным образом ограничивает количество новых выборок, которые необходимоTo avoid such loss of information, in one embodiment, new samples are added to without removing any old/existing samples. In this way, the central database is expanded to an increasing number of samples as new analytical measurements become available. In cell culture applications, database expansion may not introduce any significant computational problems due to the fact that such processes are typically operated as batch processes with cycle times of two to three weeks. This naturally limits the number of new samples that are needed

- 13 043314 включать в It. Кроме того, в ходе процесса культивирования клеток обычно выборке подвергается лишь ограниченное количество аналитических измерений (в отличие, например, от химической промышленности, в которой аналитические измерения подвергаются выборке часто). Поэтому обычно будет иметь место лишь умеренное увеличение размера базы данных It без какой-либо значительной нагрузки на вычислительную устойчивость инфраструктуры JITL в целом.- 13 043314 include in It. In addition, during the cell culture process, typically only a limited number of analytical measurements are sampled (unlike, for example, the chemical industry, in which analytical measurements are sampled frequently). Therefore, there will typically only be a moderate increase in the size of the It database without any significant strain on the computational resiliency of the JITL infrastructure as a whole.

Несмотря на то, что включение новых выборок в It важно для непрерывной адаптации алгоритма 1 (см. выше), успех данного подхода полагается на выбор указанных новых выборок в локальной базе данных D для калибровки локальной модели. Алгоритм 1, в котором выборки для D из £ выбираются на основе евклидова расстояния (например, строка 6 алгоритма 1), может называться подходом релевантности в пространстве, так как он отдает предпочтение только тем выборкам, которые являются релевантными (близкими) в пространстве. Если новые выборки не являются близкими к запрашиваемой выборке, что, вероятно, имеет место в случае, когда происходит резкое изменение заданного значения (или другое резкое изменение условий процесса), алгоритм 1 может быть неспособен включить эти выборки в Ί). С другой стороны, рекурсивные методы (например, регуляризованный метод частных наименьших квадратов (RLPS), рекурсивный метод наименьших квадратов (RLS) и рекурсивный метод N-ходовых частных наименьших квадратов (RNPLS)) являются релевантными по времени, так как они отдают предпочтение новейшим измерениям независимо от релевантности в пространстве. Обновление локальной модели с использованием новейших выборок может обеспечить возможность успешной адаптации рекурсивных методов к текущим условиям процесса.Although the inclusion of new samples in It is important for the continuous adaptation of Algorithm 1 (see above), the success of this approach relies on the selection of said new samples in the local database D to calibrate the local model. Algorithm 1, in which samples for D of £ are selected based on Euclidean distance (e.g., line 6 of Algorithm 1), can be called the spatial relevance approach, since it favors only those samples that are relevant (close) in space. If the new samples are not close to the requested sample, which is likely to be the case when there is an abrupt change in setpoint (or other abrupt change in process conditions), Algorithm 1 may be unable to include these samples in Ί). On the other hand, recursive methods (such as regularized partial least squares (RLPS), recursive least squares (RLS), and recursive N-way partial least squares (RNPLS)) are time relevant because they give preference to the newest measurements regardless of relevance in space. Updating the local model with the latest samples can enable recursive methods to be successfully adapted to current process conditions.

Один такой вариант осуществления, называемый в данном документе адаптивным JITL (A-JITL), отдает предпочтение выборкам, которые являются релевантными как по времени, так и в пространстве. Если 5 = {{^ai Х Htiпредставляет набор из L исторических измерений, доступных перед началом те* кущего эксперимента (т.е. эксперимента/процесса, в котором имеет место запрос а), и если д⁺= {|а+ь;)}у₌₁ представляет собой набор из n измерений, доступных из текущего эксперимента, выборки могут быть распределены следующим образом:One such embodiment, referred to herein as adaptive JITL (A-JITL), favors samples that are both temporally and spatially relevant. If 5 = {{ ^a i X Hti represents a set of L historical measurements available before the start of the current experiment (i.e., the experiment/process in which query a takes place), and if d ⁺ = {|a+b; )}y ₌₁ is a set of n measurements available from the current experiment, the samples can be distributed as follows:

It = , Уравнение (17а)It = , Equation (17a)

X = {{аД,Ь7 }}п_=п__к+1, Уравнение (17b) где It представляет центральную базу данных, и X представляет набор последних (самых недавних) k измерений. В некоторых вариантах осуществления % содержит последние k выборок из текущего эксперимента/процесса, и It содержит выборки из предыдущих экспериментов/процессов, а также (потенциально) выборки из текущего эксперимента/процесса, старше последних k выборок. Приведенные выше уравнения (17а) и (17b) заданы для данного запроса а*. Для запроса, поступающего в другой момент времени, наборы данных It и % могут содержать разные выборки в зависимости от количества измерений, доступных в этот момент времени. Например, как только становится доступной выборка (aAi,b+₊iM^an-/c+i,b+_k+i) удаляется из X, а (^an+i<bn+i) включается в X. Исключенная выборка (^an-k+i»bn__fc+i) затем включается в It для предотвращения какой-либо потери информации. Обновление X новейшими измерениями обеспечивает то, что X отражает по меньшей мере некоторые текущие условия.X = {{aD,b7 }}n ₌ _{n_k+1} , Equation (17b) where It represents the central database, and X represents the set of the last (most recent) k measurements. In some embodiments, % contains the last k samples from the current experiment/process, and It contains samples from previous experiments/processes, as well as (potentially) samples from the current experiment/process older than the last k samples. The above equations (17a) and (17b) are given for a given query a*. For a query arriving at a different point in time, the It and % data sets may contain different samples depending on the number of dimensions available at that point in time. For example, as soon as a sample becomes available, (aAi,b+ ₊ iM ^a n-/c+i,b+_k+i) is removed from X, and ( ^a n+i<bn+i) is included in X. The excluded sample ( ^a n-k+i»bn_ _fc+ i) is then included in It to prevent any loss of information. Updating X with the latest measurements ensures that X reflects at least some current conditions.

Для данных А^и X целью является выбор ТК Как указано выше, для A-JITL в Т) включаются выборки, релевантные как по времени, так и в пространстве. Если предположить, что Т) можно разложить какFor data A ^and X, the goal is to select a TK. As stated above, for A-JITL, T) includes samples that are relevant both in time and in space. If we assume that T) can be decomposed as

D = U Ί)_τ, Уравнение (18) где представляют собой наборы, релевантные в пространстве и по времени, соответственно, то целью является выбор ®т. В первую очередь, предполагается, что = °, так что Ί) содержит только уникальные выборки. Для конструирования - к выборок выбирают из It на основе основанной на расстоянии (пространственной) метрики, такой как индекс подобия или s-значение:D = U Ί) _τ , Equation (18) where are sets relevant in space and time, respectively, then the goal is to select ®t. First of all, it is assumed that = °, so that Ί) contains only unique samples. To construct - k samples are selected from It based on a distance-based (spatial) metric such as a similarity index or s-value:

Si = 5Ш1(а_г, a*) = ехр(—||a_f - а*||). Уравнение (19)Si = 5Sh1(a _g , a*) = exp(—||a _f - a*||). Equation (19)

Уравнение (19) можно использовать, например, в качестве метрики подобия в вышеописанной методике (неадаптивного) JITL. Так, например, из It для включения в можно выбрать D-k выборок с наибольшими s-значениями. Для конструирования ®т, если предполагается, что последние k выборок из текущего эксперимента/процесса релевантны по времени, в некоторых вариантах осуществления может быть задан как равный X. Следует отметить, что, в отличие от s-значений, которые определяют членство выборок в ®$, решение о членстве в принимается на основе времен выборки.Equation (19) can be used, for example, as a similarity metric in the (non-adaptive) JITL technique described above. So, for example, from It one can select D-k samples with the largest s-values for inclusion in. To construct ®t, if the last k samples from the current experiment/process are assumed to be time relevant, in some embodiments may be set to be equal to X. It should be noted that, unlike s-values, which determine the membership of samples in ® $, membership decision is made based on sampling times.

Разумеется, в зависимости от сценария, выборки в могут характеризоваться большими sзначениями. Независимо от s-значения, предполагается, что является релевантным только по времени. Аналогично, является релевантным только в пространстве, поскольку вследствие построения It не обладает релевантностью по времени. Следует отметить, что А¹¹ задают для данного запроса а* выборки в выбирают на основе их s-значений, вычисленных относительно а*, и выборки в выбирают на основе их времен выборки, вычисленных относительно времени выборки а*. Для удобства А¹¹обобщенно задают следующим образом:Of course, depending on the scenario, samples in can be characterized by large s values. Regardless of the s-value, it is assumed to be time relevant only. Likewise, it is relevant only in space, since, due to its construction, It is not relevant in time. It should be noted that A ¹¹ is specified for a given query a*, samples b are selected based on their s-values calculated relative to a*, and samples b are selected based on their sample times calculated relative to the sample time a*. For convenience, A ¹¹ is generally specified as follows:

- 14 043314 = {^aS' Уравнение (20a)- 14 043314 = { ^a S' Equation (20a)

D_T = {а_г, b_T], Уравнение (20b) где А¹¹ a₇ - соответственно релевантные в пространстве и по времени выборки из рамановского спектрометра, и Ь^и Ь₇ - соответственно релевантные в пространстве и по времени выборки из аналитического прибора, так что a_s = [а_1л ..._;a_D__k]^T; а_т ξ [a_D__fc+1/...,a_D]^T, Уравнение (21а) b_s = [b^ ...,b_D__k]^T; b_T = [b_D__k+1,..., b^. Уравнение (21b)D _T = {a _r , b _T ], Equation (20b) where A ¹¹ a ₇ are respectively spatially and timely relevant samples from the Raman spectrometer, and b^ and b ₇ are respectively spatially and timely relevant samples from the analytical device, so a _s = [a _1l ... _; a _D _ _k ] ^T ; a _t ξ [a _D _ _fc+1/ ...,a _D ] ^T , Equation (21a) b _s = [b^ ...,b _D _ _k ] ^T ; b _T = [b _D _ _k+1 ,..., b^. Equation (21b)

Подстановка уравнений (20а) и (20b) в уравнение (18) дает набор D, обобщенно обозначенный как D ξ {а, Ь}, где ⁵ = [^а5'^ат]^т, и b ξ [by,b_T] . в отличие от обсужденной выше методики (неадаптивного) JITL, в локальной библиотеке/наборе данных Ί) отдается предпочтение выборкам, релевантным в пространстве и по времени.Substituting equations (20a) and (20b) into equation (18) gives the set D, generically denoted D ξ {a, b}, where ⁵ = [ ^a 5' ^a t] ^t , and b ξ [by,b _T ] . Unlike the (non-adaptive) JITL technique discussed above, the local library/dataset Ί) favors samples that are relevant in space and time.

Для данных и запроса а* можно откалибровать модель на основе гауссовского процесса по уравнению (1) (например, локальную модель 132). Точечную оценку и интервал правдоподобия для а* можно вычислить с использованием, соответственно, уравнении (13) и (16), где ^к _У(а,а)ик₀(а ,а) имеют видFor the data and query a*, a model based on the Gaussian process of equation (1) can be calibrated (for example, local model 132). The point estimate and likelihood interval for a* can be calculated using equations (13) and (16), respectively, where ^k _Y (a,a) and ₀ (a,a) have the form

LW^{s) Ξ} К ki?’ ^{+ σ4}™ · ^уР^{авнение} <^22a> lk# (a_r, ayj (а_г, a_T;j kg(a*,a) = [kg(a*,ay) kg(a*,a_T)], Уравнение (22b) где ^кАА^а.$·) E ке(аТлаг) E S^k - ковариационные функции, связанные с соответственно, и где kg(a5, а_т) е ^к^^к - ковариация между ^т.LW ^{s) Ξ} К ki?' ^{+ σ4} ™ · ^e ^{Eq u} a l < ^22a >lk# (a _r , ayj (a _r , a _T ;j kg(a*,a) = [kg(a*,ay) kg(a*,a _T )] , Equation (22b) where ^k AA ^a .$·) E ke(aTlag) ES ^k are the covariance functions associated with respectively, and where kg(a5, a _t ) ^{e k} ^ ^k is the covariance between ^t.

Примерный алгоритм, формально описывающий методику A-JITL, представлен ниже в алгоритме 2An example algorithm formally describing the A-JITL technique is presented below in Algorithm 2

1. Input: Library £_t = {(а^, Ь^}|₌₁, query point а*1. Input: Library £ _t = {(a^, b^}| ₌₁ , query point a*

2. Output: Prediction band uncertainty (b^L,b^u~)2. Output: Prediction band uncertainty (b ^L ,b ^u ~)

3. Set 76 {0}3. Set 76 {0}

4. for t = Ito Tdo4. for t = Ito Tdo

5. Set I sampleJndex(L_t), Dy {0}, D_T {0}5. Set I sampleJndex(L _t ), Dy {0}, D _T {0}

6. for d = 1 to D — set_cardinality(X)do6. for d = 1 to D — set_cardinality(X)do

7. ь E argmax_ie/ sim(aj,a*)7. b E argmax _ie/ sim(aj,a*)

8· ®y <- Dy U {a_it, bjJ8 ®y <- Dy U {a _it , bjJ

9. /^/\{Q9. /^/\{Q

10. end for10. end for

11. if set_cardinality(76) > lthen11. if set_cardinality(76) > lthen

12. D_T 7612. D _T 76

13. end if13. end if

14. D Dy U D_T 14. D Dy UD _T

15. Обучить модель на основе гауссовского процесса по уравнению (1) с использованием Dn оценки у*15. Train the model based on the Gaussian process according to equation (1) using Dn estimate y*

16. Вычислить Ьи (b^L, b^u)c использованием уравнений (13) и (16)16. Calculate b and (b ^L , b ^u ) using equations (13) and (16)

17. if b* is available then17. if b* is available then

18. if size(76) = к then18. if size(76) = to then

19. £_t <- £_t U select_oldest(76)19. £ _t <- £ _t U select_oldest(76)

20. 76 <- delete_oldest(76)20. 76 <- delete_oldest(76)

21. 76 ^76 U {a*, b*}21. 76 ^76 U {a*, b*}

22. end if22. end if

23.76 ^76 U {a*, b*}23.76 ^76 U {a*, b*}

24. end if24. end if

25. end for25. end for

Алгоритм 2Algorithm 2

Таким образом, в алгоритме 2 (релевантное в пространстве) JITL скомбинировано с рекурсивным обучением (релевантным по времени). Например, для Ι^τΙ ⁼ θ калибровка локальной модели 132 с использованием алгоритма 2 подобна релевантному в пространстве JITL, тогда как для l®sl - ⁰ калибровка локальной модели 132 с использованием алгоритма 2 подобна рекурсивному обучению. Таким образом, путем подгонки l®sl^H 1®т1 можно надлежащим образом сбалансировать (не являющееся рекурсивным) JITL и рекурсивное обучение.Thus, in Algorithm 2 (space-relevant) JITL is combined with recursive learning (time-relevant). For example, for Ι^τΙ ⁼ θ, calibrating the local model 132 using Algorithm 2 is similar to space-relevant JITL, while for l®sl - ⁰ , calibrating the local model 132 using Algorithm 2 is similar to recursive learning. Thus, by adjusting l®sl ^H 1®t1, (non-recursive) JITL and recursive learning can be properly balanced.

Обратимся теперь к фиг. 5, на которой показан примерный поток 300 данных, который может иметьLet us now turn to FIG. 5, which shows an example data stream 300 that may have

- 15 043314 место при анализе биофармацевтического процесса с использованием методики A-JITL, описанной в данном документе. Поток 300 данных может иметь место, например, в системе 100, представленной на фиг. 1, или системе 150, представленной на фиг. 2. В потоке 300 данных спектральные данные 302 предоставляются спектрометром/зондом. Например, спектральные данные 302 могут содержать вектор рамановского сканирования, сгенерированный рамановским анализатором 106, или вектор сканирования NIR и т.д. Точка 304 запроса генерируется (например, блоком 140 запроса) на основе спектральных данных 302 и используется, например, для запроса глобального набора 306 данных, который может содержать все наборы данных наблюдений в базе 136 данных наблюдений. Глобальный набор 306 данных логически разделен на последние k элементов 307А (например, все из которых получены из текущего эксперимента/процесса) и на все элементы 307В перед последними k элементами 307А (например, из предыдущих экспериментов/процессов, а также, возможно, текущего эксперимента/процесса). Значение k можно определить на основе номера выборки точки 304 запроса. В рамках данного документа термин номер выборки может в широком смысле относиться к любому индикатору времени или относительного времени, связанного с данной выборкой/наблюдением. Некоторые элементы из элементов 307В добавлены в локальный набор 308 данных на основе пространственного подобия (например, евклидова расстояния) точке 304 запроса, тогда как все элементы 307А могут быть добавлены в локальный набор 308 данных независимо от пространственного подобия. Локальный набор 308 данных можно сгенерировать из элементов 307А и элементов 307В, например, по алгоритму 2.- 15 043314 place in the analysis of a biopharmaceutical process using the A-JITL methodology described in this document. Data flow 300 may take place, for example, in the system 100 shown in FIG. 1, or the system 150 shown in FIG. 2. In data stream 300, spectral data 302 is provided by a spectrometer/probe. For example, spectral data 302 may comprise a Raman scan vector generated by Raman analyzer 106, or a NIR scan vector, etc. Query point 304 is generated (eg, by query block 140) based on spectral data 302 and is used, for example, to query a global data set 306, which may contain all observation data sets in the observation data base 136. The global data set 306 is logically partitioned into the last k elements 307A (e.g., all of which are from the current experiment/process) and into all elements 307B before the last k elements 307A (e.g., from previous experiments/processes, as well as possibly the current experiment /process). The value of k can be determined based on the sample number of the query point 304. As used herein, the term sample number can broadly refer to any indicator of time or relative time associated with a given sample/observation. Some elements from elements 307B are added to local data set 308 based on spatial similarity (eg, Euclidean distance) to query point 304, while all elements 307A may be added to local data set 308 regardless of spatial similarity. Local data set 308 can be generated from elements 307A and elements 307B, for example, by Algorithm 2.

Локальный набор 308 данных затем используется в качестве обучающих данных (например, генератором 142 локальной модели) для калибровки локальной модели 310 (например, локальной модели 132). Локальная модель 310 затем используется (например, блоком 144 предсказания) для предсказания элемента 312 выходных данных (аналитического измерения), такого как концентрация компонентов питательной среды, состояние питательной среды (например, глюкоза, лактат, глутамат, глутамин, аммиак, аминокислоты, Na+, K+, а также другие питательные вещества или метаболиты, рН, рСО₂, рО₂, температура, осмоляльность и т.д.), плотность жизнеспособных клеток, титр, критические показатели качества, состояние клеток и т.д., а также, возможно, вывода границ правдоподобия или другого подходящего ин дикатора достоверности.The local data set 308 is then used as training data (eg, local model generator 142) to calibrate the local model 310 (eg, local model 132). The local model 310 is then used (e.g., by prediction block 144) to predict an output (analytical measurement) element 312, such as the concentration of media components, the state of the media (e.g., glucose, lactate, glutamate, glutamine, ammonia, amino acids, Na+, K+, as well as other nutrients or metabolites, pH, pCO ₂ , pO ₂ , temperature, osmolality, etc.), viable cell density, titer, critical quality indicators, cell condition, etc., and also possibly , deriving likelihood bounds or other suitable confidence indicator.

Если фактическое аналитическое измерение (например, измерение, выполненное таким аналитическим прибором, как один из аналитических приборов 104) является доступным, создается новый элемент 314, который добавляется в глобальный набор 306 данных. Такие измерения могут быть доступны, например, на основе периодической выборки (например, один или два раза в сутки) и/или их можно сделать доступными в ответ на инициирующий фактор с переменным расчетным временем (например, если некоторое количество предсказаний в строке имеет недопустимо широкие границы правдоподобия, и т.д.), как более подробно обсуждено ниже.If an actual analytical measurement (eg, a measurement performed by an analytical instrument such as one of the analytical instruments 104) is available, a new element 314 is created and added to the global data set 306. Such measurements may be available, for example, on a periodic sampling basis (for example, once or twice a day) and/or they can be made available in response to a trigger with a variable estimated time (for example, if a number of predictions in a row have unacceptably wide likelihood limits, etc.), as discussed in more detail below.

И хотя включение в Т) выборок, релевантных в пространстве и по времени, необходимо для непрерывной адаптации обсужденного выше подхода A-JITL, общая степень адаптации, достигаемая A-JITL, зависит от того, насколько эффективно D используется для калибровки локальной модели. Для выборки/точки запроса, а* релевантная по времени выборка обеспечивает удовлетворительную корреляцию между функциями {{Причиной. Причиной этого является то, что для запроса а* как пространственная релевантность (^aiAi), так и коэффициент корреляции между (7(^a*)'7(^ai)) вычисляются на основе евклидового расстояния между (^ай^а*).Although the inclusion of spatially and temporally relevant samples in T) is necessary for continuous adaptation of the A-JITL approach discussed above, the overall degree of adaptation achieved by A-JITL depends on how effectively D is used to calibrate the local model. For a sample/query point, a* time-relevant sample provides a satisfactory correlation between the features {{Cause. The reason for this is that for a query a*, both the spatial relevance ( ^a iAi) and the correlation coefficient between (7( ^a *)'7( ^a i)) are calculated based on the Euclidean distance between ( ^a i ^a *).

Таким образом, для выбора критерия подобия на евклидовой основе в уравнении (19) и ядра на евклидовой основе в уравнении (4) ожидается, что выборки в обеспечивают высокие функциональные корреляции. И наоборот, релевантная по времени выборка {^ар£) ^е может не обеспечивать сильную корреляцию между функциями С^^а ^Ά®/)), Причиной этого является то, что, как отмечено выше, выборки в необязательно релевантны в пространстве. Как следствие, коэффициент корреляции между С^^а )'/(^aj)), приписываемый гауссовским ядром в уравнении (4), будет небольшим, если небольшой является пространственная релевантность (^ar0). С точки зрения моделирования, обучение модели на основе гауссовского процесса в уравнении (1) выборками, несущими небольшие коэффициенты корреляции, является нежелательным, так как это ведет к неудовлетворительному качеству модели. Математически это можно продемонстрировать следующим образом.Thus, for the selection of the Euclidean-based similarity criterion in Equation (19) and the Euclidean-based kernel in Equation (4), the samples in B are expected to provide high functional correlations. Conversely, a time-relevant sample { ^a p£) ^e may not provide a strong correlation between functions C^ ^a ^Ά®/)), The reason for this is that, as noted above, samples in are not necessarily spatially relevant. As a consequence, the correlation coefficient between C^ ^a )'/( ^a j)), assigned to the Gaussian kernel in equation (4), will be small if the spatial relevance ( ^a r0) is small. From a modeling perspective, training a model based on the Gaussian process in equation (1) with samples carrying small correlation coefficients is undesirable, as this leads to poor model quality. This can be demonstrated mathematically as follows.

Для запроса а* и откалиброванной модели на основе гауссовского процесса по алгоритму 2 предсказание на основе модели, Ь, можно вычислить с использованием уравнения (13). Без потери общности, если σ² = 0 (случай отсутствия шума), уравнение (13) можно записать следующим образом:Given a query a* and a calibrated Gaussian process model from Algorithm 2, the model-based prediction, b, can be computed using Equation (13). Without loss of generality, if σ ² = 0 (no noise case), equation (13) can be written as follows:

А ₌ [Му.а )|' [Му.у) k_e(y,ВДГ¹ [b_sl _{уравнение(23)} A ₌ [Mu.a )|' [Mu.y) k _e (y,VDG ¹ [b _s l _{equation (23)}

LkgCa^, a)J Lkg (а^, а₅) kg (a?-, a^J Lb^JLkgCa^, a)J Lkg (a^, a ₅ ) kg (a?-, a^J Lb^J

Если (ат<Ь_т) имеет пренебрежимо несущественную пространственную релевантность (т.е. sзначение между ^ат^{и а}* является бесконечно большим), то уравнение (4) приводит к kg(a*,aT) « 0lxk. Кроме того, по построению, так как as ближе к а*, чем к ^ат, результатом являются kg(as,a_T) « 0₍₂₎__Л)_хЛи kg(a_T,a_s) « 0_fcx(_D__k). Их подстановка в уравнение (23) даетIf (at< _bt ) has negligible spatial relevance (i.e. the svalue between ^at ^{and a} * is infinitely large), then equation (4) leads to kg(a*,aT) « 0lxk. Moreover, by construction, since as is closer to a* than to ^a t, the result is kg(as,a _T ) « 0 ₍₂₎ _ _А ) _xЛ and kg(a _T ,a _s ) « 0 _fcx ( _{D_k} ₎ . Substituting them into equation (23) gives

- 16 043314 g_%rk_e(a_s,a*)14k_e(a_s,a_s) L o_fcxl J [ Ofcx(o-fc) ^QD-k)xk b_s к_е(а_т, а_т) Ь_г , Уравнение (24a)- 16 043314 g _% rk _e (a _s ,a*)14k _e (a _s ,a _s ) L o _fcxl J [ Ofcx(o-fc) ^QD-k)xk b _s k _e (a _t , a _t ) b _g , Equation (24a)

Гк₀(а₅,аТТГке Ча^) ί Ofcxl J [ ®kx(D-k) ®(D-k)xk 1 Tbs kg (a_T, a_T)] [b₇ Gk ₀ (a ₅ ,aTTGke Cha^) ί Ofcxl J [ ®kx(Dk) ®(Dk)xk 1 Tbs kg (a _T , a _T )] [b ₇

Уравнение (24b) = k_e(a*,a_s)kg^-1(a_s, a_s)b_s. Уравнение (24c)Equation (24b) = k _e (a*,a _s )kg ^-1 (a _s , a _s )b _s . Equation (24c)

Из уравнения (24с) ясно, что точечная оценка не зависит от ®т. Аналогично, можно показать, что уравнение (16) также не зависит от ®т. Например, в уравнении (16) можно вычислить следующим образом:From equation (24c) it is clear that the point estimate does not depend on ®t. Similarly, it can be shown that equation (16) is also independent of ®t. For example, equation (16) can be calculated as follows:

—кд +кд(а*,а^ = k₀(a*,a)[k_y(a,a)] ¹k_e(a,a*), Уравнение (25а) “ [8Д' 18Д У 88 -8Г 188 Уравнение (25b)—kd + kd(a*,a^ = k ₀ (a*,a)[k _y (a,a)] ¹ k _e (a,a*), Equation (25a) “ [8Д' 18Д У 88 - 8G 188 Equation (25b)

Ik^a^, a)J Lkg(a_T, аД ^(87,87)] Ik^a^, a)J rk₀(a_s,a*)l^T fkg ¹ (85,85)Ik^a^, a)J Lkg(a _T , aD ^(87.87)] Ik^a^, a)J rk ₀ (a _s ,a*)l ^T fkg ¹ (85.85)

L Ofcxl J Ofcx(D-fc)L Ofcxl J Ofcx(D-fc)

0(O-fc)xfc kg (87,87) ke(3_s, 3 )1 ур_{авнение} (25c) . O_kxl J kg ~ kg(a*,a*) - k_e(3*,3_s)k_e ^85,85)^(85,8^. Уравнение (25d)0(O-fc)xfc kg (87.87) ke(3 _s , 3 )1 _equation (25c) . O _kxl J kg ~ kg(a*,a*) - k _e (3*,3 _s )k _e ^85.85)^(85.8^. Equation (25d)

Из уравнений (25b) и (25с) можно видеть, что используется несколько приближений, в том числе к₀(а ,а_т) « 0_Лх1, кД^йр) « 0(_D__fc)xkH к₀(а_т,а5) ~0кх(р-к). Тогда из уравнений (20а) и (20b) очевидно, что алгоритм 2 не способен удовлетворительно использовать ®т, если набор имеет ограниченную простран ственную релевантность. _From equations (25b) and (25c) it _can _be seen that _several approximations are _used _, _including to ,a5) ~0кх(р-к). It is then clear from equations (20a) and (20b) that Algorithm 2 is unable to make satisfactory use of ®t if the set has limited spatial relevance.

В некоторых вариантах осуществления для обеспечения возможности внесения вклада в Ί) выборками, релевантными и в пространстве, и по времени, используется подход пространственновременного JITL (ST-JITL) со следующей пространственно-временной рамановской моделью (например, в качестве локальной модели 132):In some embodiments, a space-time JITL (ST-JITL) approach is used with the following space-time Raman model (e.g., as local model 132) to allow samples to contribute to Ί) that are both spatially and temporally relevant:

b_L = g(a_ittd + Уравнение (26) где g: ДУх N -> R - пространственно-временная рамановская модель, и ti - номер выборки в ^ai, и e_i-^(0_lσ²') - последовательность независимых гауссовских случайных переменных с нулевым средним и неизвестной дисперсией &^{2 G} ®U. В отличие от уравнения (1), пространственно-временная модель в уравнении (26) зависит как от спектрального сигнала, так и от времени его выборки. Как и выше, предполагается, что g - скрытая функция, моделируемая как гауссовский процесс так, что для любого элемента входных данных (a, t), д(а, t)~ GP(0, г_в (a, a, t, t)), Уравнение (27) является случайной функцией. Для удобства средняя функция в уравнении (27) предполагается равной нулю, но это не обязательно имеет место в общем случае. Кроме того, для любых произвольных входных данных (^аб ^)^и (^ар 8'), ковариационную функцию ^re(^ai^aj^ti^tj) можно задать следующим образом:b _L = g(a _it td + Equation (26) where g: DUx N -> R is the space-time Raman model, and ti is the sample number in ^a i, and e _i -^(0 _l σ ² ') - a sequence of independent Gaussian random variables with zero mean and unknown variance & ^{2 G} ® U. Unlike equation (1), the space-time model in equation (26) depends on both the spectral signal and its sampling time. As above , it is assumed that g is a latent function modeled as a Gaussian process such that for any element of the input data (a, t), g(a, t)~ GP(0, g _in (a, a, t, t)) ,Equation (27) is a random function. For convenience, the mean function in Equation (27) is assumed to be zero, but this is not necessarily the case in general. Moreover, for any arbitrary input data ( ^a b ^) ^and ( ^a p 8 '), the covariance function ^r e( ^a i ^a j ^t i ^t j) can be specified as follows:

⁼ ^space(^a6 ^aj) + ^Нте(У Уравнение (28) где Урасе(арау) Е П&₊И /c_time(O<0) ^Е - соответственно пространственная ковариация и временная ковариация между (в&ь О)). Следует отметить, что для Запроса (^а81*), если выборка ^bj) ^е имеет пренебрежимо малую пространственную релевантность, то УрасеЛ з*) & о, но /щ_те(9, П > °, так что уравнение (28) задает ненулевой коэффициент корреляции между 2 8.9(^9)). Наконец, следует отметить, что уравнение (28) является истинной ковариационной функцией, поскольку сумма двух независимых ядер также является ядром. Предположим, что k_space и ktime являются гауссовскими ядрами, таким образом предназначены для любой пары элементов входных данных (а₇, t, ^space(^ai, а₇) = ^ехр - Уравнение (29а) = ^i^exP - Уравнение (29b) где = Ι^αι> ^α2>βι>Л'¹ G В⁴ - параметр ядра. Для данных уравнений (29а) и (29b) уравнение (28) приписывает высокий коэффициент корреляции между (^^6^)^(^^7)), если (^аб (^а7’Ь) близки друг к другу. Если У = [П- -У-Ли f₇ = [t_D__k+1, ...Сд]^т обозначают номера выборок для релевантных по состоянию и времени выборок в D соответственно так, что t — 1Хя ^т], то для запроса (a*, С) ковариационную функцию ιθ уравнении (28) можно записать как г— — - —, [ Гд (Эс, Зс, tc, tc) Г/ДЭс, 87, tc, t_T) 1 г$ (a, a, t, t) = _ - - J, Уравнение (30a) ⁼ ^space( ^a 6 ^a j) + ^Hte(U Equation (28) where Urace(arau) E P& ₊ I /c _t ime(O<0) ^E - respectively, the spatial covariance and time covariance between (v&b O)) . It should be noted that for Query ( ^a 81*), if the sample ^b j) ^e has negligible spatial relevance, then UraseL z*) & o, but / φ _those (9, П > °, so that equation (28) specifies non-zero correlation coefficient between 2 8.9(^9)). Finally, it should be noted that equation (28) is a true covariance function, since the sum of two independent kernels is also a kernel. Assume that k _space and ktime are Gaussian kernels, thus intended for any pair of input data elements (a ₇ , t, ^space( ^a i, a ₇ ) = ^exp - Equation (29a) = ^i ^ex P - Equation (29b) where = Ι ^α ι> ^α 2>βι>Л' ¹ G В ⁴ is the kernel parameter. For given equations (29a) and (29b), equation (28) assigns a high correlation coefficient between (^^6^)^ (^^7)), if ( ^a b ( ^a 7'b) are close to each other. If U = [P- -U-Li f ₇ = [t _D _ _k+1 , ...Cd] ^t denote numbers of samples for state- and time-relevant samples in D, respectively, so that t - 1Хя ^т], then for the query (a*, C) the covariance function ιθ of equation (28) can be written as r - - - -, [ Гд ( Es, Zs, tc, tc) G/DES, 87, tc, t _T ) 1 g$ (a, a, t, t) = _ - - J, Equation (30a)

Lr^ (a_r, a_s, t_r, t_s) rg (a_T, a_T, t_T, t_T) J r₀(a*,a,t*,t) = [r_e(a*, a_s, t*, f_s) r_e(a*,a7,t*,f_T)]. Уравнение (30b)Lr^ (a _r , a _s , t _r , t _s ) rg (a _T , a _T , t _T , t _T ) J r ₀ (a*,a,t*,t) = [r _e (a* , a _s , t*, f _s ) r _e (a*,a7,t*,f _T )]. Equation (30b)

Следует отметить, что, в отличие от переменных а и b роль t в уравнениях (30a) и (30b) заключается в простом увеличении вклада ®т. Физически для данного а переменная t не оказывает влияния на b. Поэтому, если V - [У-к+п ··· £р]^т задан как номер выборки, соответствующий выборкам в ®т,It should be noted that, in contrast to the variables a and b, the role of t in equations (30a) and (30b) is to simply increase the contribution of ®t. Physically, for a given a, the variable t has no effect on b. Therefore, if V - [U-k+n ··· £р] ^t is given as the sample number corresponding to the samples in ®t,

- 17 043314 t$ - А ··· ^D-kV можно задать так, что он удовлетворяет следующему:- 17 043314 t$ - A ··· ^D-kV can be specified so that it satisfies the following:

— tj\ » М, Уравнение (31а)- tj\ » M, Equation (31a)

Щ — ϋ*| » Ν, Уравнение (31b) |ϋ_έ - t_k\ » Р, Уравнение (31с) для всех Ч θ {1/ ->D - /с]и к Е {D - к + 1, ...А}, где Μ,Ν,Ρ Е JR₊ - произвольные большие положительные _ константы. tr > 0)^и дующим образом:Ш — ϋ*| » Ν, Equation (31b) |ϋ _έ - t _k \ » Р, Equation (31c) for all H θ {1/ ->D - /с] и к Е {D - к + 1, ...А} , where Μ, Ν, Ρ E JR ₊ are arbitrary large positive constants. tr > 0) ^and as follows:

Кроме_ того, если предположить, что и t* таковы, что кцте(?Лт > 0), то для ^т^и ^5, как описано выше, ^ге А ^ах>ty1$) можно записать слеr0(as,a5?t5,ts) ^— kspace(a_s, а₅) + k_time(t_s,t_s), Уравнение (32а) ~ k_space(a_s, a_s) + Уравнение (32b) где уравнение (32b) получено из уравнения (31а), что приводит к нулевым недиагональным элементам в ^timeAts). Аналогично, ковариацию ^г0 (^аХ ^as> A t_s) и г_е (a_s, a_T, t_s, t_T) можно вычислить следующим образом:In addition, if we assume that t* are such that kt(?Am > 0), then for ^m ^and ^5, as described above, ^r e A ^a x>ty1$) we can write sler0(as,a5? t5,ts) ^- kspace(a _s , a ₅ ) + k _time (t _s ,t _s ), Equation (32a) ~ k _space (a _s , a _s ) + Equation (32b) where equation (32b) is obtained from equation (31a), which leads to zero off-diagonal elements in ^timeAts). Similarly, the covariance ^{of r} 0 ( ^a X ^a s> A t _s ) and r _e (a _s , a _T , t _s , t _T ) can be calculated as follows:

r₀(a*,a_sX,t_s) = k_space(a*, a_s) + k_time(t\t_s), Уравнение (33a) ~ k_space(a*, a_s), Уравнение (33b) ^ге (^а5/^атА> й) = ^space(a_s,a_T) + k_time(t_s,t_T), Уравнение (33c) ~ k_space(a₅, а_г), Уравнение (33d) где уравнение (33b) основано на уравнении (31b), и уравнение (33d) основано на уравнении (31с). Подстановка уравнений (32b), (33b) и (33d) в уравнения (30a) и (30b) дает ,__- [k_space(^as< ^as) +/М(п-к) k_space(a_s, а_т) 1 r_e(a,a,t,f) = г Га a f f V ^уР^{авнение} (^34а) ^Kspacel^dn “sJ ^ЛТ> ^LT> ^т) r_e (a*, a, t*, t) = [k_space(a*, a_s) r₀ (a*, a_T, t*, t_T)]. Уравнение (34b)r ₀ (a*,a _s X,t _s ) = k _space (a*, a _s ) + k _time (t\t _s ), Equation (33a) ~ k _space (a*, a _s ), Equation ( 33b) ^g e ( ^a 5/ ^a tA> th) = ^space(a _s ,a _T ) + k _time (t _s ,t _T ), Equation (33c) ~ k _space (a ₅ , a _g ), Equation (33d) where equation (33b) is based on equation (31b), and equation (33d) is based on equation (31c). Substituting equations (32b), (33b) and (33d) into equations (30a) and (30b) gives ,__- [k _sp ace( ^a s< ^a s) +/M(p-k) k _space (a _s , a _t ) 1 r _e (a,a,t,f) = r Ga aff V ^y ^Equation ( ^34a ) ^K spacel ^d n “sJ ^Л Т> ^L T> ^т) r _e (a*, a, t*, t) = [k _space (a*, a _s ) r ₀ (a*, a _T , t*, t _T )]. Equation (34b)

Исходя из уравнений (30a) и (30b), легко подтвердить, что ковариация ^ге включает вклады как от k_space, так и от ^time. Для данных в уравнениях (30a) и (30b) ковариационных функций для пространственно-временной рамановской модели параметр ядра, θ, и дисперсию σ² шума можно оценить путем максимизации logp(b|a,f) = -^г/Ь — |log|r_y| - log2K, Уравнение (35) где 7 = ΙΑσ²]^τΕΓ IR⁵, logp(b|a,t) - логарифмическая функция предельного правдоподобия, и ^гг = г_е + I_DxD. Максимизация уравнения (35) по Г дает оптимальную оценку, γ*. Для оптимизаторов на основе градиента градиенты для уравнения (35) относительно γ можно вычислить способом, аналогичным уравнению (10b). Для данного γ* точечную оценку и апостериорную дисперсию для запроса (А можно вычислить как b = г_в(a*, a, t*, t)[г_у (a, a, t, t)] ¹b, Уравнение (36а) ^гв = ^— r0(a*, a, t*,t)[ry(a,a,t, t)] ^Χχ re(a,a*,f, t*), Уравнение (36b) где ковариационные функции даны в уравнениях (34а) и (34b). Аналогично, границы правдоподобия (b^L < b < Ь^и) в отношении точечной оценки в уравнении (36а) можно вычислить следующим образом:Based on equations (30a) and (30b), it is easy to confirm that the covariance ^r e includes contributions from both k _sp ace and ^time. Given the covariance functions in equations (30a) and (30b) for the space-time Raman model, the kernel parameter, θ, and noise variance σ ² can be estimated by maximizing logp(b|a,f) = -^r/b - |log |r _y | - log2K, Equation (35) where 7 = ΙΑσ ² ] ^τ ΕΓ IR ⁵ , logp(b|a,t) is the logarithmic marginal likelihood function, and ^g g = g _e + I _DxD . Maximizing equation (35) with respect to Γ gives the optimal estimate, γ*. For gradient-based optimizers, the gradients for equation (35) with respect to γ can be calculated in a manner similar to equation (10b). For a given γ*, the point estimate and posterior variance for query (A can be calculated as b = r _in (a*, a, t*, t)[r _y (a, a, t, t)] ¹ b, Equation (36a ) ^r in = ^- r0(a*, a, t*,t)[ry(a,a,t, t)] ^Χ χ re(a,a*,f, t*), Equation (36b) where covariance functions are given in equations (34a) and (34b).Similarly, the likelihood bounds (b ^L < b < b ^and ) with respect to the point estimate in equation (36a) can be calculated as follows:

Ib^L = b - 2^/ψ, Уравнение (37а) b^u — b + Уравнение (37b) где ^rY ~ ^гв ^σ . Из уравнений (36а), (37а) и (37b) легко видеть, что вклад в вычисления предсказания на основе модели и границ правдоподобия вносят как релевантные в пространстве, так и релевантные по времени выборки. Наконец, подстановка уравнений (34а) и (34b) в уравнения (36а) и (36b) дает, соответственно, апостериорное среднее и дисперсию. Следует отметить, что в отличие от случая алгоритма 2, предсказание на основе модели в уравнении (36а) и интервалы правдоподобия в уравнениях (37а) и (37b) зависят от ®т, даже когда не имеет пространственной релевантности. Например, если не имеет пространственной релевантности (т.е. ^ksPace(^a^ ат) « О^-^хк, ^и k_space(a*,a_T) ~ Oixk), то уравнения (36а) и (36b) можно записать как ,— - -. [k_space(a_s,a_s) + βιϊφ-Κ) ®(р-к)хк 1 r₀(a, a,t, t) = _{r f f} J, Уравнение (38a)Ib ^L = b - 2^/ψ, Equation (37a) b ^u - b + Equation (37b) where ^r Y ~ ^r in ^σ . From equations (36a), (37a) and (37b), it is easy to see that both spatially relevant and time relevant samples contribute to the model-based prediction calculations and likelihood bounds. Finally, substituting equations (34a) and (34b) into equations (36a) and (36b) gives the posterior mean and variance, respectively. It should be noted that, unlike the case of Algorithm 2, the model-based prediction in equation (36a) and the likelihood intervals in equations (37a) and (37b) depend on ®m, even when not spatially relevant. For example, if it does not have spatial relevance (i.e. ^k sPace( ^a ^ at) « O^-^xk, ^and k _space (a*,a _T ) ~ Oixk), then equations (36a) and (36b) can be write as ,— - -. [k _space (a _s ,a _s ) + βιϊφ-Κ) ®(р-к)хк 1 r ₀ (a, a,t, t) = _rff J, Equation (38a)

L ^ukx(D-k) r₀(a*, a, t*,t) = [k_spaCe(a*, a_s) k_time(t*,f_T)]_ Уравнение (38b)L ^u kx(Dk) r ₀ (a*, a, t*,t) = [k _spaC e(a*, a _s ) k _time (t*,f _T )]_ Equation (38b)

Из вышесказанного можно видеть, что уравнения (38а) и (38b) по-прежнему содержат вклады как от ^kspace, так и от ^ktime. Примерный алгоритм, формально описывающий методику ST-JITL, представлен ниже в алгоритме 3:From the above, it can be seen that equations (38a) and (38b) still contain contributions from both ^k space and ^k time. An example algorithm formally describing the ST-JITL technique is presented below in Algorithm 3:

- 18 043314- 18 043314

1. Input: Library L_t = {(a^ Ь^}|₌₁, query point a*1. Input: Library L _t = {(a^ b^}| ₌₁ , query point a*

2. Output: Prediction Sand uncertainty (b^L,b^u~)2. Output: Prediction Sand uncertainty (b ^L ,b ^u ~)

3. Set К <- {0}and f_T <- {0}3. Set K <- {0}and f _T <- {0}

4. for t = Ito Ldo4. for t = Ito Ldo

5. Set I «- sampleJndex(L_t), T)_s «- {0}, ©_T {0}5. Set I «- sampleJndex(L _t ), T) _s «- {0}, © _T {0}

6. for d = 1 to D - set_cardinality(%)do6. for d = 1 to D - set_cardinality(%)do

7. i* G argmax_ie/ sim^, a*)7. i* G argmax _ie/ sim^, a*)

8. ©_s ^©_SU {a_it, b_it}8. © _s ^© _S U {a _it , b _it }

9.I^I\{Q9.I^I\{Q

10. end for10. end for

11. if set_cardinality(%) > Ithen11. if set_cardinality(%) > Ithen

12. Т)_т К12. T) _t K

13. end if13. end if

14. © ^ ©₅ U ©_T 14. © ^ © ₅ U © _T

15. Задать ^согласно уравнениям (31a)-(31c)15. Set ^according to equations (31a)-(31c)

16. Задать f <-[t_s; f_T]16. Set f <-[t _s ; f _T ]

17. Обучить модель на основе гауссовского процесса в уравнении (28) с использованием ©и f, и оценить γ*17. Train a model based on the Gaussian process in equation (28) using © and f, and estimate γ*

18. Вычислить Ьс использованием уравнения (36а) и вычислить (b^L,b^u)c использованием уравнений (37а) и (37b)18. Calculate b using equation (36a) and calculate (b ^L ,b ^u ) using equations (37a) and (37b)

19. if b* is available then19. if b* is available then

20. if size(%) = к then20. if size(%) = to then

21. L_t <- L_t U select_oldest(%)21. L _t <- L _t U select_oldest(%)

22. К delete_oldest(%)22. To delete_oldest(%)

23. % ^% u{a\/r}23. % ^% u{a\/r}

24. end if24. end if

25. % ^% u{a;/r]25. % ^% u{a;/r]

26. end if26. end if

27. end for27. end for

Алгоритм 3Algorithm 3

Следует отметить, что A-JITL и ST-JITL (в алгоритмах 2 и 3 соответственно) могут быть идентичны в случае, когда β1 = 0. Причиной этого является то, что для β1 = 0, k_time = 0, так что Γθ = k_space = kθ (как видно из уравнений (28) и (29b)).It should be noted that A-JITL and ST-JITL (in Algorithms 2 and 3 respectively) can be identical in the case where β1 = 0. The reason for this is that for β1 = 0, k _time = 0, so Γθ = k _space = kθ (as seen from equations (28) and (29b)).

Обратимся теперь к фиг. 6, на которой показан примерный поток 350 данных, который может иметь место при анализе биофармацевтического процесса с использованием методики ST-JITL, описанной в данном документе. Поток 350 данных может иметь место, например, в системе 100, представленной на фиг. 1, или системе 150, представленной на фиг. 2. В потоке 350 данных спектральные данные 352 предоставляются спектрометром/зондом. Например, спектральные данные 352 могут содержать вектор рамановского сканирования, сгенерированный рамановским анализатором 106, или вектор сканирования NIR и т.д. Точка 354 запроса генерируется (например, блоком 140 запроса) на основе спектральных данных 352 и используется, например, для запроса глобального набора 356 данных, который может содержать все наборы данных наблюдений в базе 136 данных наблюдений. Глобальный набор 356 данных логически разделен на последние k элементов 357А (например, все из текущего эксперимента/процесса) и на все элементы 357В перед последними k элементами 357А (например, из предыдущих, а также, возможно, текущего эксперимента/процесса). Значение k можно определить на основе номера выборки точки 354 запроса. Локальный набор 358 данных можно сгенерировать из элементов 357А и элементов 357В, например, в соответствии с алгоритмом 3.Let us now turn to FIG. 6, which illustrates an example data flow 350 that may occur when analyzing a biopharmaceutical process using the ST-JITL methodology described herein. Data flow 350 may take place, for example, in the system 100 shown in FIG. 1, or the system 150 shown in FIG. 2. In data stream 350, spectral data 352 is provided by a spectrometer/probe. For example, spectral data 352 may comprise a Raman scan vector generated by Raman analyzer 106, or a NIR scan vector, etc. Query point 354 is generated (eg, by query block 140) based on spectral data 352 and is used, for example, to query a global data set 356, which may contain all observation data sets in the observation data base 136. The global data set 356 is logically partitioned into the last k elements 357A (eg, all from the current experiment/process) and into all elements 357B before the last k elements 357A (eg, from previous ones, as well as possibly the current experiment/process). The value of k can be determined based on the sample number of the query point 354. Local data set 358 can be generated from elements 357A and elements 357B, for example, in accordance with Algorithm 3.

Локальный набор 358 данных затем используется в качестве обучающих данных (например, генератором 142 локальной модели) для калибровки локальной модели 360 (например, локальной модели 132). Локальная модель 360 затем используется (например, блоком 144 предсказания) для предсказания элемента 362 выходных данных (аналитического измерения), такого как концентрация компонентов питательной среды, состояние питательной среды (например, глюкоза, лактат, глутамат, глутамин, аммиак, аминокислоты, Na+, K+, а также другие питательные вещества или метаболиты, рН, pCO₂, pO₂, температура, осмоляльность и т.д.), плотность жизнеспособных клеток, титр, критические показатели качества,The local data set 358 is then used as training data (eg, local model generator 142) to calibrate the local model 360 (eg, local model 132). The local model 360 is then used (e.g., by prediction block 144) to predict an output (analytical measurement) element 362, such as the concentration of media components, the state of the media (e.g., glucose, lactate, glutamate, glutamine, ammonia, amino acids, Na+, K+, as well as other nutrients or metabolites, pH, pCO ₂ , pO ₂ , temperature, osmolality, etc.), viable cell density, titer, critical quality indicators,

- 19 043314 состояние клеток и т.д., а также, возможно, вывода границ правдоподобия или другого подходящего индикатора достоверности.- 19 043314 state of cells, etc., and also, possibly, the derivation of likelihood limits or other suitable indicator of reliability.

Если фактическое аналитическое измерение (например, измерение, выполненное таким аналитическим прибором, как один из аналитических приборов 104) является доступным, создается новый элемент 364 (содержащий номер его выборки) и добавляется в глобальный набор 356 данных. Такие измерения могут быть доступны, например, на основе периодической выборки (например, один или два раза в сутки) и/или их можно сделать доступными в ответ на инициирующий фактор с переменным расчетным временем (например, если некоторое количество предсказаний в строке имеет недопустимо широкие границы правдоподобия и т.д.).If an actual analytical measurement (eg, a measurement performed by an analytical instrument such as one of the analytical instruments 104) is available, a new element 364 (containing its sample number) is created and added to the global data set 356. Such measurements may be available, for example, on a periodic sampling basis (for example, once or twice a day) and/or they can be made available in response to a trigger with a variable estimated time (for example, if a number of predictions in a row have unacceptably wide likelihood limits, etc.).

Как указано выше, аналитические измерения могут планироваться/инициироваться на основе текущего и/или недавнего выполнения одной или нескольких локальных моделей (например, локальной модели 132, 260, 310 или 360) с целью сохранения или повышения точности предсказания с одновременным уменьшением использования ресурсов (например, использования аналитических приборов). Данную методику можно использовать, например, совместно с A-JITL, ST-JITL или обычным JITL.As stated above, analytical measurements may be scheduled/triggered based on the current and/or recent execution of one or more local models (e.g., local model 132, 260, 310, or 360) to maintain or improve prediction accuracy while reducing resource usage (e.g. , use of analytical instruments). This technique can be used, for example, in conjunction with A-JITL, ST-JITL or regular JITL.

В одном варианте осуществления для инициации обслуживания модели используются интервалы правдоподобия. В частности, если ширина интервала правдоподобия (например, расстояние между границами правдоподобия, вычисленными с использованием уравнения (16) или уравнений (37а), (37b)) по данному предсказанию на основе модели (например, по самому недавнему предсказанию, выполненному локальной моделью 132, 260, 310 или 360) больше предварительно заданного порогового значения, блок 146 обслуживания базы данных может генерировать сообщение с запросом и обеспечивать отправку компьютером 110 сообщения на аналитический прибор (приборы) 104 с целью запроса измерения. В примерных результатах, представленных на фиг. 3, например, блок 146 обслуживания базы данных может инициировать новые аналитические измерения ближе к концу суток 08.12.17, 09.12.17 и 14.12.17, где затененные области 208 указывают широкий интервал правдоподобия (т.е. большое значение b^U - b^L).In one embodiment, likelihood intervals are used to initiate model maintenance. Specifically, if the width of the likelihood interval (e.g., the distance between the likelihood bounds computed using equation (16) or equations (37a), (37b)) of a given model-based prediction (e.g., the most recent prediction made by a local model 132 , 260, 310, or 360) greater than a predetermined threshold value, database maintenance unit 146 may generate a request message and cause computer 110 to send a message to analytical instrument(s) 104 to request a measurement. In the exemplary results presented in FIG. 3, for example, database maintenance unit 146 may initiate new analytical measurements near the end of the days 12/08/17, 12/09/17, and 12/14/17, where the shaded areas 208 indicate a wide likelihood interval (i.e., a large value of b ^U - b ^L ).

В ответ на сообщение с запросом аналитический прибор (приборы) 104 выполняет (выполняют) аналитическое измерение (измерения) и предоставляет измерение (измерения) на компьютер 110. Блок 146 обслуживания базы данных может затем отправлять измерение (измерения) и соответствующий вектор (векторы) рамановского сканирования, принятые из рамановского анализатора 106, на сервер 112 базы данных для хранения в базе 136 данных наблюдений. Например, измерение (измерения) и вектор (векторы) сканирования могут быть добавлены в библиотеку £ (для обычного JITL) или библиотеку К (для A-JITL или ST-JITL), как обсуждено выше.In response to the query message, the analytical instrument(s) 104 performs the analytical measurement(s) and provides the measurement(s) to the computer 110. The database service unit 146 may then send the measurement(s) and the corresponding Raman vector(s). scans received from the Raman analyzer 106 to a database server 112 for storage in the database 136 of observational data. For example, the measurement(s) and scan vector(s) can be added to the £ library (for regular JITL) or the K library (for A-JITL or ST-JITL), as discussed above.

И, наоборот, если ширина интервала правдоподобия по данному предсказанию на основе модели не превышает предварительно заданное пороговое значение, блок 146 обслуживания базы данных может не запрашивать новое аналитическое измерение, и в этом случае библиотека в базе 136 данных наблюдений остается неизменной. В вариантах осуществления, где аналитический прибор (приборы) 104 содержит несколько приборов, измеряющих разные свойства, такие как концентрация компонентов питательной среды, состояние питательной среды (например, глюкоза, лактат, глутамат, глутамин, аммиак, аминокислоты, Na+, K+, а также другие питательные вещества или метаболиты, рН, pCO₂, pO₂, температура, осмоляльность и т.д.), плотность жизнеспособных клеток, титр, критические показатели качества, состояние клеток и т.д., и для предсказания различных значений свойств используются отдельные локальные модели, процесс планирования может быть реализован по отдельности для каждого предсказываемого свойства и аналитического прибора, измеряющего это свойство, возможно, с отличающимся пороговыми значениями ширины интервала правдоподобия для каждого свойства.Conversely, if the width of the likelihood interval for a given model-based prediction does not exceed a predetermined threshold, database maintainer 146 may not request a new analytical measurement, in which case the library in observational database 136 remains unchanged. In embodiments where the analytical instrument(s) 104 comprises multiple instruments that measure different properties, such as the concentration of nutrient media components, the state of the nutrient media (e.g., glucose, lactate, glutamate, glutamine, ammonia, amino acids, Na+, K+, as well as other nutrients or metabolites, pH, pCO ₂ , pO ₂ , temperature, osmolality, etc.), viable cell density, titer, critical quality indicators, cell condition, etc., and individual property values are used to predict various property values local models, the planning process can be implemented separately for each predicted property and the analytical instrument that measures this property, possibly with different thresholds for the width of the likelihood interval for each property.

Математически, блок 146 обслуживания базы данных может планировать/инициировать новое аналитическое измерение (измерения) в точке запроса, а*, при условии:Mathematically, the database maintenance unit 146 can schedule/initiate new analytical dimension(s) at the query point, a*, provided:

b^u — b^L > THR , Уравнение (39) где THR - задаваемое пользователем пороговое значение. В некоторых вариантах осуществления THR может регулироваться пользователем для удовлетворения требованиям определенного применения или случая использования. Например, пользователь может устанавливать относительно небольшое значение THR (используемое блоком 146 обслуживания базы данных) для применения, в котором надежность модели является критичной, что, таким образом, вызывает более частое выполнение операций обслуживания модели/библиотеки. В целом THR может быть установлено в виде разных значений на основе критичности процесса, на основе предсказываемого параметра, такого как концентрация компонентов питательной среды, состояние питательной среды (например, глюкоза, лактат, глутамат, глутамин, аммиак, аминокислоты, Na+, K+, а также другие питательные вещества или метаболиты, рН, pCO₂, pO₂, температура, осмоляльность и т.д.), плотность жизнеспособных клеток, титр, критические показатели качества, состояние клеток и т.д., и/или на основе текущего периода времени (например, использование меньшего THR для более поздних суток культивации по сравнению с начальными сутками). Выбор THR представляет компромисс между точностью модели и использованием ресурсов (аналитического прибора), при этом менее высокие пороговые значения стремятся к повышению точности модели за счет увеличения использования ресурсов.b ^u - b ^L > THR , Equation (39) where THR is a user-specified threshold value. In some embodiments, the THR may be adjusted by the user to meet the requirements of a particular application or use case. For example, a user may set a relatively small THR value (used by database maintenance block 146) for an application in which model reliability is critical, thereby causing model/library maintenance operations to be performed more frequently. In general, THR can be set to different values based on the criticality of the process, based on a predicted parameter such as the concentration of the components of the culture medium, the state of the culture medium (for example, glucose, lactate, glutamate, glutamine, ammonia, amino acids, Na+, K+, and also other nutrients or metabolites, pH, pCO ₂ , pO ₂ , temperature, osmolality, etc.), viable cell density, titer, critical quality indicators, cell condition, etc., and/or based on current period time (for example, using a lower THR for later days of cultivation compared to the initial days). The choice of THR represents a trade-off between model accuracy and resource (analytical instrument) utilization, with lower thresholds tending to improve model accuracy at the expense of increased resource utilization.

- 20 043314- 20 043314

Также возможны изменения данного протокола планирования. В одном варианте осуществления блок 146 обслуживания базы данных, например, может применять один или несколько критериев качества модели, не только к текущему (самому недавнему) предсказанию, но и к одному или нескольким другим недавним предсказаниям (например, самым недавним N предсказаний, где N > 1). В качестве примера такого варианта осуществления блок 146 обслуживания базы данных может вычислять среднюю ширину интервалов правдоподобия для самых недавних N предсказаний (N > 1), а затем сравнивать эту среднюю ширину с пороговым значением THR. В качестве другого примера блок 146 обслуживания базы данных может идентифицировать X наибольших значений ширины интервала правдоподобия среди последних Y предсказаний (X < Y) и планировать/инициировать новое аналитическое измерение только тогда, когда каждое из этих X значений ширины больше порогового значения THR.Changes to this planning protocol are also possible. In one embodiment, database maintainer 146, for example, may apply one or more model quality criteria, not only to the current (most recent) prediction, but also to one or more other recent predictions (e.g., the most recent N predictions, where N > 1). As an example of such an embodiment, database maintainer 146 may calculate the average width of the likelihood intervals for the most recent N predictions (N > 1) and then compare this average width to a threshold THR value. As another example, database maintenance unit 146 may identify the X largest likelihood interval widths among the latest Y predictions (X < Y) and schedule/initiate a new analytical measurement only when each of these X widths is greater than a THR threshold.

На фиг. 7 представлена схема последовательности операций примерного способа 400 анализа биофармацевтического процесса (например, в целях отслеживания и/или управления). Способ 400 может быть реализован таким компьютером, как компьютер 110, представленный на фиг. 1 (например, блоком 120 обработки, исполняющим команды приложения 130 предсказателя JITL) или фиг. 2, и/или таким сервером, как сервер 112 базы данных, представленный на фиг. 1 или 2, например.In fig. 7 is a flow diagram of an exemplary method 400 for analyzing a biopharmaceutical process (eg, for tracking and/or control purposes). Method 400 may be implemented by a computer such as computer 110 shown in FIG. 1 (eg, by a processing unit 120 executing commands of the JITL predictor application 130) or FIG. 2, and/or a server such as the database server 112 shown in FIG. 1 or 2, for example.

В блоке 402 определяется точка запроса, связанная со сканированием биофармацевтического процесса системой спектроскопии (например, рамановским анализатором 104 и рамановским зондом 106 системы 100 или системы 150). Точку запроса можно определить на основе по меньшей мере частично вектора спектрального сканирования (например, вектора рамановского сканирования или сканирования NIR), который был сгенерирован системой спектроскопии, например, при сканировании биофармацевтического процесса. В зависимости от варианта осуществления точка запроса может быть определена на основе необработанного вектора спектрального сканирования или после подходящей фильтрации путем предварительной обработки необработанного вектора спектрального сканирования. В некоторых вариантах осуществления точка запроса также определяется на основе другой информации, такой как профиль питательной среды, связанный с биофармацевтическим процессом (например, тип текучей среды, конкретные питательные вещества, уровень рН и т.д.), и/или, например, одно или несколько рабочих условий, в которых подвергают анализу биофармацевтический процесс (например, заданное значение концентрации метаболита и т.д.).At block 402, a query point associated with scanning a biopharmaceutical process by a spectroscopy system (eg, Raman analyzer 104 and Raman probe 106 of system 100 or system 150) is determined. The query point may be determined based at least in part on a spectral scan vector (e.g., a Raman scan vector or an NIR scan) that was generated by the spectroscopy system, such as a biopharmaceutical process scan. Depending on the embodiment, the query point may be determined based on the raw spectral scan vector or, after suitable filtering, by preprocessing the raw spectral scan vector. In some embodiments, the query point is also determined based on other information, such as the media profile associated with the biopharmaceutical process (e.g., type of fluid, specific nutrients, pH level, etc.), and/or, for example, one or multiple operating conditions under which the biopharmaceutical process is analyzed (eg, metabolite concentration set point, etc.).

В блоке 404 запрашивается база данных наблюдений (например, база 136 данных наблюдений). База данных наблюдений может содержать наборы данных наблюдений, связанные с прошлыми наблюдениями нескольких биофармацевтических процессов. Каждый из наборов данных наблюдений может содержать спектральные данные (например, вектор рамановского сканирования или сканирования NIR) и соответствующее аналитическое измерение (или, в некоторых вариантах осуществления, два или более аналитических измерений). Аналитическое измерение может представлять собой, например, концентрацию компонентов питательной среды, состояние питательной среды (например, глюкоза, лактат, глутамат, глутамин, аммиак, аминокислоты, Na+, K+, а также другие питательных вещества или метаболиты, рН, pCO₂, pO₂, температура, осмоляльность и т.д.), плотность жизнеспособных клеток, титр, критические показатели качества и/или состояние клеток.At block 404, an observation database (eg, observation database 136) is queried. The observational database may contain observational data sets associated with past observations of several biopharmaceutical processes. Each of the observation data sets may contain spectral data (eg, a Raman or NIR scan vector) and a corresponding analytical measurement (or, in some embodiments, two or more analytical measurements). The analytical measurement may be, for example, the concentration of the components of the nutrient medium, the state of the nutrient medium (for example, glucose, lactate, glutamate, glutamine, ammonia, amino acids, Na+, K+, as well as other nutrients or metabolites, pH, pCO ₂ , pO ₂ , temperature, osmolality, etc.), viable cell density, titer, critical quality indicators and/or cell condition.

Блок 404 может включать выбор в качестве обучающих данных из наборов данных наблюдений тех наборов данных наблюдений, которые удовлетворяют одному или нескольким критериям релевантности относительно точки запроса. Если точка запроса включена в вектор спектрального сканирования, например, блок 404 может включать сравнение этого вектора спектрального сканирования с векторами спектрального сканирования, связанными с каждым из прошлых наблюдений, представленных в базе данных наблюдений (например, путем вычисления евклидового или других расстояний между (1) вектором спектрального сканирования, на котором было основано определение точки запроса, и (2) каждым из векторов спектрального сканирования, связанных с прошлыми наблюдениями, а затем выбора в качестве обучающих данных любого из векторов спектрального сканирования, связанных с прошлыми наблюдениями, для которых определено нахождение в пределах порогового расстояния от вектора спектрального сканирования, на котором было основано определение точки запроса).Block 404 may include selecting as training data from the observation data sets those observation data sets that satisfy one or more relevance criteria with respect to the query point. If the query point is included in a spectral scan vector, for example, block 404 may include comparing that spectral scan vector with the spectral scan vectors associated with each of the past observations represented in the observation database (e.g., by calculating Euclidean or other distances between (1) the spectral scan vector on which the definition of the query point was based, and (2) each of the spectral scan vectors associated with past observations, and then selecting as training data any of the spectral scan vectors associated with past observations that were determined to be in within the threshold distance from the spectral scan vector on which the definition of the query point was based).

В блоке 406 выбранные обучающие данные используются для калибровки локальной модели, которая характерна для отслеживаемого биофармацевтического процесса. Локальная модель (например, локальная модель 132) обучается в блоке 406 с целью предсказания аналитических измерений на основе входных спектральных данных (например, векторов рамановского сканирования или сканирования NIR). В некоторых вариантах осуществления локальная модель представляет собой модель машинного обучения на основе гауссовского процесса.At block 406, the selected training data is used to calibrate a local model that is specific to the biopharmaceutical process being monitored. A local model (eg, local model 132) is trained at block 406 to predict analytical measurements based on input spectral data (eg, Raman or NIR scan vectors). In some embodiments, the local model is a Gaussian process machine learning model.

В блоке 408 аналитическое измерение биофармацевтического процесса предсказывается с использованием локальной модели. Блок 408 может включать использование локальной модели для анализа спектральных данных (например, вектора рамановского сканирования или сканирования NIR), генерируемых системой спектроскопии при сканировании биофармацевтического процесса. Например, блок 408 может включать предсказывание аналитического измерения путем использования локальной модели для обработки того же вектора спектрального сканирования или других спектральных данных, на котоAt block 408, an analytical measurement of a biopharmaceutical process is predicted using a local model. Block 408 may include using a local model to analyze spectral data (eg, a Raman scan vector or NIR scan) generated by the spectroscopy system while scanning the biopharmaceutical process. For example, block 408 may include predicting an analytical measurement by using a local model to process the same spectral scan vector or other spectral data on which

- 21 043314 рых была основана точка запроса. В зависимости от варианта осуществления локальная модель может использоваться для анализа необработанных спектральных данных (например, необработанного вектора рамановского сканирования) или для анализа спектральных данных после подходящей фильтрации путем предварительной обработки необработанных спектральных данных. В некоторых вариантах осуществления блок 408 также включает определение индикатора достоверности (например, границ правдоподобия, степени достоверности и т.д.), связанного с предсказанным аналитическим измерением биофармацевтического процесса. В некоторых вариантах осуществления локальная модель также предсказывает в блоке 408 одно или несколько дополнительных аналитических измерений.- 21 043314 request point was founded. Depending on the embodiment, the local model can be used to analyze raw spectral data (eg, a raw Raman scan vector) or to analyze spectral data after suitable filtering by preprocessing the raw spectral data. In some embodiments, block 408 also includes determining a confidence indicator (eg, likelihood bounds, degree of confidence, etc.) associated with the predicted analytical measurement of the biopharmaceutical process. In some embodiments, the local model also predicts one or more additional analytical measurements in block 408.

В некоторых вариантах осуществления способ 400 включает один или несколько дополнительных блоков, не показанных на фиг. 5. Например, способ 400 может включать дополнительный блок, в котором управление по меньшей мере одним параметром биофармацевтического процесса выполняется на основе по меньшей мере частично аналитического измерения, предсказанного в блоке 408. В зависимости от варианта осуществления параметр может относиться к тому же типу, что и предсказанное аналитическое измерение (например, управление концентрацией глюкозы на основе предсказанной концентрации глюкозы), или к другому типу. Для управления параметром (или параметрами) могут использоваться, например, методики управления по модели предсказания (МРС).In some embodiments, method 400 includes one or more additional blocks not shown in FIG. 5. For example, method 400 may include an additional block in which control of at least one biopharmaceutical process parameter is performed based at least in part on an analytical measurement predicted in block 408. Depending on the embodiment, the parameter may be of the same type as and a predicted analytical measurement (eg, controlling a glucose concentration based on a predicted glucose concentration), or to another type. To control the parameter (or parameters), for example, model predictive control (MPC) techniques can be used.

В качестве другого примера способ 400 может включать первый дополнительный блок, в котором получается фактическое аналитическое измерение биофармацевтического процесса (например, одним из аналитических приборов 104 или из него в ответ на определение того, что предсказанное аналитическое измерение и, возможно, одно или несколько ранних/недавних измерений не удовлетворяют одному или нескольким критериям качества модели, как обсуждено выше), и второй дополнительный блок, в котором обеспечивается добавление (1) спектральных данных, которые система спектроскопии генерирует при получении фактического аналитического измерения, и (2) фактического аналитического измерения биофармацевтического процесса в базу данных наблюдений (например, путем отправки спектральных данных и аналитического измерения в такой сервер базы данных, как сервер 112 базы данных, или путем непосредственного добавления спектральных данных и аналитического измерения в локальную базу данных наблюдений и т.д.). В тех вариантах осуществления, где предсказывается несколько типов аналитических измерений, несколько фактических аналитических измерений могут быть получены или добавлены в базу данных наблюдений.As another example, method 400 may include a first additional block in which an actual analytical measurement of the biopharmaceutical process is obtained (e.g., by or from one of the analytical instruments 104 in response to determining that the predicted analytical measurement and possibly one or more early/ recent measurements do not satisfy one or more model quality criteria as discussed above), and a second optional block that provides for the addition of (1) the spectral data that the spectroscopy system generates when receiving the actual analytical measurement, and (2) the actual analytical measurement of the biopharmaceutical process to an observational database (eg, by sending the spectral data and analytical measurement to a database server such as database server 112, or by directly adding the spectral data and analytical measurement to a local observational database, etc.). In those embodiments where multiple types of analytical measurements are predicted, multiple actual analytical measurements may be obtained or added to the observational database.

В качестве еще одного примера способ 400 может включать один или несколько дополнительных наборов блоков, каждый из которых подобен блокам 402-408. В каждом из этих дополнительных наборов блоков локальная модель может калиброваться путем запроса базы данных наблюдений (или другой базы данных наблюдений) и использоваться для предсказания аналитического измерения другого типа.As another example, method 400 may include one or more additional sets of blocks, each of which is similar to blocks 402-408. In each of these additional sets of blocks, the local model can be calibrated by querying the observational database (or another observational database) and used to predict a different type of analytical measurement.

Ниже будут рассмотрены дополнительные соображения в отношении настоящего изобретения.Additional considerations regarding the present invention will be discussed below.

Термины полипептид или белок везде используются взаимозаменяемо и относятся к молекуле, содержащей два или более аминокислотных остатков, соединенных друг с другом пептидными связями. Полипептиды и белки также включают макромолекулы, имеющие одну или несколько делеций, вставок и/или замен аминокислотных остатков нативной последовательности, то есть полипептида или белка, полученного встречающейся в природе и нерекомбинантной клеткой; или полученного генетически модифицированной или рекомбинантной клеткой, и включают молекулы, имеющие одну или несколько делеций, вставок и/или замен аминокислотных остатков аминокислотной последовательности нативного белка. Полипептиды и белки также включают полимеры из аминокислот, в которых одна или несколько аминокислот являются химическими аналогами соответствующих встречающихся в природе аминокислот и полимеров. Полипептиды и белки также включают модификации, в том числе, но без ограничения, гликозилирование, присоединение липида, сульфатирование, гамма-карбоксилирование остатков глутаминовой кислоты, гидроксилирование и АДФ-рибозилирование.The terms polypeptide or protein are used interchangeably throughout and refer to a molecule containing two or more amino acid residues linked together by peptide bonds. Polypeptides and proteins also include macromolecules having one or more deletions, insertions and/or substitutions of amino acid residues of the native sequence, that is, a polypeptide or protein produced by a naturally occurring and non-recombinant cell; or produced by a genetically modified or recombinant cell, and include molecules having one or more deletions, insertions and/or substitutions of amino acid residues of the amino acid sequence of the native protein. Polypeptides and proteins also include polymers of amino acids, in which one or more amino acids are chemical analogues of the corresponding naturally occurring amino acids and polymers. Polypeptides and proteins also include modifications, including, but not limited to, glycosylation, lipid addition, sulfation, gamma-carboxylation of glutamic acid residues, hydroxylation, and ADP-ribosylation.

Полипептиды и белки могут представлять научный и коммерческий интерес, в том числе для терапии на основе белков. Белки включают, помимо прочего, секретируемые белки, несекретрируемые белки, внутриклеточные белки или мембраносвязанные белки. Полипептиды и белки могут быть получены при помощи рекомбинантных клеточных линий животных с использованием методов культивирования клеток и могут называться рекомбинантными белками. Экспрессируемый белок (белки) может быть получен внутри клетки или секретирован в культуральную среду, из которой он может быть извлечен и/или собран. Белки включают белки, оказывающие терапевтическое воздействие путем связывания с мишенью, в частности с мишенью из тех, которые перечислены ниже, в том числе с полученными из них мишенями, относящимися к ним мишенями и их модификациями.Polypeptides and proteins may be of scientific and commercial interest, including for protein-based therapies. Proteins include, but are not limited to, secreted proteins, non-secreted proteins, intracellular proteins or membrane-bound proteins. Polypeptides and proteins can be produced from recombinant animal cell lines using cell culture techniques and may be referred to as recombinant proteins. The expressed protein(s) can be produced intracellularly or secreted into the culture medium from which it can be extracted and/or collected. Proteins include proteins that exert a therapeutic effect by binding to a target, particularly a target listed below, including targets derived therefrom, related targets, and modifications thereof.

Белки антигенсвязывающие белкиAntigen binding proteins

Термин антигенсвязывающий белок относится к белкам или полипептидам, содержащим антигенсвязывающую область или антигенсвязывающую часть, которая имеет сильное сродство к другой молекуле (антигену), с которой она связывается. Антигенсвязывающие белки охватывают антитела, пептитела, фрагменты антител, производные антител, аналоги антител, белки слияния (в том числе одноцепочечные вариабельные фрагменты (scFv) и двухцепочечные (двухвалентные) scFv, мутеины, xMAb и химерные антигенные рецепторы (CAR)).The term antigen binding protein refers to proteins or polypeptides containing an antigen binding region or antigen binding portion that has a strong affinity for another molecule (antigen) to which it binds. Antigen-binding proteins include antibodies, peptibodies, antibody fragments, antibody derivatives, antibody analogs, fusion proteins (including single-chain variable fragment (scFv) and double-chain (divalent) scFv, muteins, xMAbs and chimeric antigen receptors (CAR)).

- 22 043314- 22 043314

ScFv представляет собой фрагмент одноцепочечного антитела, содержащий вариабельные области тяжелой и легкой цепей антитела, связанные вместе. См. патенты США №№ 7741465 и 6319494, а такжеScFv is a single chain antibody fragment containing the variable regions of the heavy and light chains of the antibody linked together. See US Patent Nos. 7,741,465 and 6,319,494, and

Eshhar и др., Cancer Immunol Immunotherapy (1997) 45: 131-136. ScFv сохраняет способность исходного антитела специфично взаимодействовать с антигеном-мишенью.Eshhar et al., Cancer Immunol Immunotherapy (1997) 45: 131-136. ScFv retains the ability of the parent antibody to specifically interact with the target antigen.

Термин антитело включает отсылку как к гликозилированным, так и негликозилированным иммуноглобулинам любого изотипа или подкласса или к их антигенсвязывающей области, конкурирующей с интактным антителом за специфичное связывание. Если не указано иное, антитела включают человеческие, гуманизированные, химерные, мультиспецифичные, моноклональные, поликлональные, гетероIgG, XmAb, биспецифичные и олигомерные антитела или их антигенсвязывающие фрагменты. Антитела включают типы lgG1-, lgG2-, lgG3- или lgG4. Также включены белки, имеющие антигенсвязывающий фрагмент или область, такую как Fab, Fab', F(ab')₂, Fv, диатела, Fd, dAb, макситела, молекулы одноцепочечных антител, однодоменные VHH, фрагменты определяющей комплементарность области (CDR), scFv, диатела, триатела, тетратела и полипептиды, содержащие по меньшей мере часть иммуноглобулина, которой достаточно для придания специфичности связыванию антигена с полипептидом-мишенью.The term antibody includes reference to both glycosylated and non-glycosylated immunoglobulins of any isotype or subclass or to the antigen-binding region thereof that competes with the intact antibody for specific binding. Unless otherwise specified, antibodies include human, humanized, chimeric, multispecific, monoclonal, polyclonal, heteroIgG, XmAb, bispecific and oligomeric antibodies or antigen binding fragments thereof. Antibodies include the lgG1-, lgG2-, lgG3-, or lgG4 types. Also included are proteins having an antigen binding fragment or region, such as Fab, Fab', F(ab') ₂ , Fv, diabodies, Fd, dAb, maxbodies, single chain antibody molecules, single domain VHH, complementarity determining region (CDR) fragments, scFv , diabodies, tribodies, tetrabodies and polypeptides containing at least a portion of an immunoglobulin that is sufficient to impart specificity to the binding of the antigen to the target polypeptide.

Также включены человеческие, гуманизированные и другие антигенсвязывающие белки, такие как человеческие и гуманизированные антитела, не вызывающие значительные вредные иммунные ответы при введении человеку.Also included are human, humanized and other antigen-binding proteins, such as human and humanized antibodies that do not elicit significant harmful immune responses when administered to humans.

Также включены пептитела, полипептиды, содержащие один или несколько соединенных друг с другом, необязательно посредством линкеров, биологически активных пептидов с Fc-доменом (См. патент США № 6660843, патент США № 7138370 и патент США №7511012).Also included are peptibodies, polypeptides containing one or more biologically active Fc domain peptides linked together, optionally by linkers (See US Pat. No. 6,660,843, US Pat. No. 7,138,370, and US Pat. No. 7,511,012).

Белки также включают генетически модифицированные рецепторы, такие как химерные антигенные рецепторы (CAR или CAR-T) и Т-клеточные рецепторы (TCR). CAR обычно включают антигенсвязывающий домен (такой как scFv) в тандеме с одним или несколькими костимулирующими (сигнальными) доменами и одним или несколькими активирующими доменами.Proteins also include genetically modified receptors such as chimeric antigen receptors (CAR or CAR-T) and T-cell receptors (TCR). CARs typically include an antigen binding domain (such as a scFv) in tandem with one or more co-stimulatory (signaling) domains and one or more activating domains.

Также включены конструкции антител с биспецифичными агентами Т-клеток (BiTE®), которые представляют собой конструкции рекомбинантных белков, полученные из двух гибко связанных связывающих доменов, полученных из антител (см. WO 99/54440 и WO 2005/040220). Один связывающий домен конструкции является специфичным для выбранного опухолеассоциированного поверхностного антигена на клетках-мишенях; второй связывающий домен является специфичным для CD3, субъединицы Т-клеточного рецепторного комплекса на Т-клетках. Конструкции BiTE® также могут включать способность к связыванию с независимым от окружения эпитопом на N-конце цепи CD3 (WO 2008/119567) для более специфичной активации Т-клеток. Конструкции BiTE® с увеличенным периодом полужизни включают слияние малого биспецифичного антитела с белками большего размера, которые предпочтительно не препятствуют терапевтическому воздействию конструкции антитела BiTE®. Примеры таких дополнительных разработок биспецифичных агентов Т-клеток включают биспецифичные молекулы, содержащие Fc, например, описанные в US 2014/0302037, US 2014/0308285, wO 2014/151910 и WO 2015/048272. Альтернативная стратегия заключается в использовании человеческого сывороточного альбумина (HAS), слитого с биспецифичной молекулой, или простое слияние человеческих альбуминсвязывающих пептидов (см., например, WO 2013/128027, WO 2014/140358). Другая стратегия, HLE BiTE®, включает слияние первого домена, связывающегося с поверхностным антигеном клетки-мишени, второго домена, связывающегося с внеклеточным эпитопом цепи CD3e человека и/или макаки, и третьего домена, представляющего собой домен, обладающий Fc-специфическим способом действия (WO 2017/134140).Also included are bispecific T cell agent (BiTE®) antibody constructs, which are recombinant protein constructs derived from two flexibly linked antibody-derived binding domains (see WO 99/54440 and WO 2005/040220). One binding domain of the construct is specific for a selected tumor-associated surface antigen on target cells; the second binding domain is specific for CD3, a subunit of the T cell receptor complex on T cells. BiTE® constructs can also include the ability to bind to a context-independent epitope at the N-terminus of the CD3 chain (WO 2008/119567) for more specific T cell activation. BiTE® extended half-life constructs involve fusing a small bispecific antibody with larger proteins that preferably do not interfere with the therapeutic effects of the BiTE® antibody construct. Examples of such additional developments of bispecific T cell agents include bispecific molecules containing Fc, for example, described in US 2014/0302037, US 2014/0308285, wO 2014/151910 and WO 2015/048272. An alternative strategy is to use human serum albumin (HAS) fused to a bispecific molecule, or a simple fusion of human albumin-binding peptides (see, for example, WO 2013/128027, WO 2014/140358). Another strategy, HLE BiTE®, involves fusion of a first domain that binds to a target cell surface antigen, a second domain that binds to an extracellular epitope of the human and/or macaque CD3e chain, and a third domain that is an Fc-specific mode of action domain ( WO 2017/134140).

Также включены модифицированные белки, такие как белки, модифицированные химически при помощи нековалентного связывания, ковалентного связывания или как ковалентного, так и нековалентного связывания. Также включены белки, дополнительно содержащие одну или несколько посттрансляционных модификаций, которые могут быть выполнены при помощи систем клеточной модификации, или модификаций, вносимых ex vivo при помощи ферментативных и/или химических методов или вносимых другими способами.Also included are modified proteins, such as proteins modified chemically by non-covalent binding, covalent binding, or both covalent and non-covalent binding. Also included are proteins that further contain one or more post-translational modifications, which can be made using cellular modification systems, or modifications made ex vivo using enzymatic and/or chemical methods or introduced by other means.

Белки также могут включать рекомбинантные белки слияния, содержащие, например, домен мультимеризации, такой как лейциновая застежка, суперспираль, Fc-часть иммуноглобулина и т.п. Также включены белки, содержащие все или часть аминокислотных последовательностей дифференцировочных антигенов (называемых белками CD) или их лигандов, или белки, по существу аналогичные любому из них.The proteins may also include recombinant fusion proteins containing, for example, a multimerization domain such as a leucine zipper, coiled-coil, immunoglobulin Fc portion, and the like. Also included are proteins containing all or part of the amino acid sequences of differentiation antigens (referred to as CD proteins) or ligands thereof, or proteins substantially similar to any of them.

В некоторых вариантах осуществления белки могут включать колониестимулирующие факторы, такие как колониестимулирующий фактор гранулоцитов (G-CSF). Такие средства на основе G-CSF включают без ограничения Neupogen® (филграстим) и Neulasta® (пэгфилграстим). Также включены стимуляторы эритропоэза (ESA), такие как Epogen® (эпоэтин-альфа), Aranesp® (дарбэпоэтин-альфа), Dynepo® (эпоэтин-дельта), Mircera® (метоксиполиэтиленгликоль-эпоэтин-бета), Hematide®, MRK-2578, INS-22, Retacrit® (эпоэтин-дзета), Neorecormon® (эпоэтин-бета), Silapo® (эпоэтин-дзета), Binocrit® (эпоэтин-альфа), эпоэтин-альфа Hexal, Abseamed® (эпоэтин-альфа), Ratioepo® (эпоэтин-тета), Eporatio®In some embodiments, the proteins may include colony-stimulating factors, such as granulocyte colony-stimulating factor (G-CSF). Such G-CSF-based agents include, but are not limited to, Neupogen® (filgrastim) and Neulasta® (pegfilgrastim). Also included are erythropoiesis stimulating agents (ESAs), such as Epogen® (epoetin alfa), Aranesp® (darbepoetin alfa), Dynepo® (epoetin delta), Mircera® (methoxypolyethylene glycol epoetin beta), Hematide®, MRK-2578 , INS-22, Retacrit® (epoetin-zeta), Neorecormon® (epoetin-beta), Silapo® (epoetin-zeta), Binocrit® (epoetin-alpha), Epoetin-alpha Hexal, Abseamed® (epoetin-alpha), Ratioepo® (epoetin-theta), Eporatio®

- 23 043314 (эпоэтин-тета), Biopoin® (эпоэтин-тета), эпоэтин-альфа, эпоэтин-бета, эпоэтин-дзета, эпоэтин-тета и эпоэтин-дельта, эпоэтин-омега, эпоэтин-йота, тканевой активатор плазминогена, агонтисты рецептора GLP1, а также молекулы или их варианты или аналоги и биосимиляры любого из вышеперечисленного.- 23 043314 (epoetin-theta), Biopoin® (epoetin-theta), epoetin-alpha, epoetin-beta, epoetin-zeta, epoetin-theta and epoetin-delta, epoetin-omega, epoetin-iota, tissue plasminogen activator, agonists GLP1 receptor, as well as molecules or variants thereof or analogs and biosimilars of any of the above.

В некоторых вариантах осуществления белки могут включать белки, которые специфически связываются с одним или несколькими белками CD, белками семейства рецепторов HER, молекулами клеточной адгезии, факторами роста, факторами роста нервов, факторами роста фибробластов, трансформирующими факторами роста (TGF), инсулиноподобными факторами роста, остеоиндуцирующими факторами, инсулином и относящимися к инсулину белками, коагулирущими и относящимися к коагуляции белками, колониестимулирующими факторами (CSF), другими белками крови и сыворотки, антигенами групп крови; рецепторами, рецептор-ассоциированными белками, гормонами роста, рецепторами гормона роста, рецепторами Т-клеток; нейротрофическими факторами, нейротрофинами, релаксинами, интерферонами, интерлейкинами, вирусными антигенами, липопротеинами, интегринами, ревматоидными факторами, иммунотоксинами, поверхностными мембранными белками, транспортными белками, рецепторами самонаведения, адрессинами, регуляторными белками и иммуноадгезинами. В некоторых вариантах осуществления белки могут включать белки, связывающиеся с одним или нескольким из следующего, по отдельности или в любой комбинации: CD белками, в том числе, но без ограничения, CD3, CD4, CD5, CD7, CD8, CD19, CD20, CD22, CD25, CD30, CD33, CD34, CD38, CD40, CD70, CD123, CD133, CD138, CD171 и CD174, белками семейства рецепторов HER, в том числе, например, HER2, HER3, HER4 и рецептором EGF, EGFRvIII, молекулами клеточной адгезии, например LFA-1, Mol, p150,95, VLA-4, ICAM-1, VCAM и интегрин альфа v/бета 3, факторами роста, в том числе, но без ограничения, например, фактором роста эндотелия сосудов (VEGF); VEGFR2, гормоном роста, тиреостимулирующим гормоном, фолликулостимулирующим гормоном, лютеинизирующим гормоном, рилизинг-фактором гормона роста, паратиреоидным гормоном, мюллеровым ингибирующим фактором, воспалительным белком макрофагов человека (MIP-1-альфа), эритропоэтином (ЕРО), фактором роста нервов, таким как NGF-бета, фактором роста тромбоцитов (PDGF), фактором роста фибробластов, в том числе, например, aFGF и bFGF, эпидермальным фактором роста (EGF), Cripto, трансформирующими факторами роста (TGF), в том числе, помимо прочего, TGF-α и TGF-β, в том числе TGF-e1, TGF-e2, TGF-e3, TGF-e4 или TGF-e5, инсулиноподобными факторами роста-I и -II (IGF-I и IGF-II), des(1-3)-IGF-I (мозговой IGF-I) и остеоиндуцирующими факторами, инсулинами и относящимися к инсулину белками, в том числе, но без ограничения инсулином, А-цепью инсулина, В-цепью инсулина, проинсулином и инсулиноподобными белками, связывающими фактор роста; (белками, относящимися к коагуляции, такими как, среди прочего, фактор VIII, тканевой фактор, фактор фон Виллебранда, протеин С, альфа-1-антитрипсин, активаторами плазминогена, такими как урокиназа и тканевый активатор плазминогена (t-PA), бомбазином, тромбином, тромбопоэтином и рецептором тромбопоэтина, колониестимулирующими факторами (CSF), в том числе следующими, среди прочего, М-CSF, GM-CSF и G-CSF, другими белками крови и сыворотки, в том числе, но без ограничения, альбумин, IgE и антигены групп крови, рецепторами и ассоциированными с рецептором белками, в том числе, например, рецептором flk2/flt3, рецептором ожирения (ОВ), рецепторами гормона роста и рецепторами Т-клеток; (х) нейротрофическими факторами, в том числе, но без ограничения, нейротропным фактором костной ткани (BDNF) и нейротрофином-3, -4, -5 или -6 (NT-3, NT-4, NT-5 или NT-6); (xi) А-цепью релаксина, В-цепью релаксина и прорелаксином, интерферонами, в том числе, например, интерферонами-альфа, -бета и -гамма, интерлейкинами (IL), например, IL-1-IL-10, IL12, IL-15, IL-17, IL-23, IL-12/IL-23, IL-2Ra, IL1-R1, рецептором IL-6, рецептором IL-4 и/или рецепторами IL-13-IL-13RA2, или рецептором IL-17, IL-1RAP; (xiv) вирусными антигенами, в том числе, но без ограничения, антигеном оболочки вируса СПИДа, липопротеинами, кальцитонином, глюкагоном, предсердным натрийуретическим фактором, сурфактантом легких, альфа- и бета-факторами некроза опухоли, энкефалиназой, ВСМА, IgKappa, ROR-1, ERBB2, мезотелином, RANTES (регулируется при активации, обычно экспрессируемой и секретируемой Т-клетками), мышиным гонадотропин-ассоциированным пептидом, ДНКазой, FR-альфа, ингибином и активином, интегрином, белком А или D, ревматоидными факторами, иммунотоксинами, костным морфогенетическим белком (BMP), супероксиддисмутазой, поверхностными мембранными белками, фактором ускорения распада (DAF), оболочкой вируса СПИДа, транспортными белками, хоминг-рецепторами, MIC (MIC-a, MIC-B), ULBP 1-6, ЕРСАМ, адрессинами, регуляторными белками, иммуноадгезинами, антигенсвязывающими белками, соматропином, CTGF, CTLA4, эотаксином-1, MUC1, СЕА, с-МЕТ, Claudin-18, GPC-3, ЕРНА2, FPA, LMP1, MG7, NY-ESO-1, PSCA, ганглиозидом GD2, гланглиозидом GM2, BAFF, OPGL (RANKL), миостатином, Dickkopf-1 (DKK-1), Ang2, NGF, рецептором IGF-1, фактором роста гепатоцитов (HGF), TRAIL-R2, c-Kit, B7RP-1, PSMA, NKG2D-1, белком 1 запрограммированной гибели клеток и лигандом, PD1 и PDL1, рецептором маннозы/hCGe, вирусом гепатита С, коньюгатом мезотелина dsFv[PE38, Legionella pneumophila (lly), IFN гамма, интерферон-гамма-индуцированным белком 10 (IP10), IFNAR, TALL-1, тимусным стромальным лимфопоэтином (TSLP), пропротеинконвертазой субтилизином/кексином типа 9 (PCSK9), факторами стволовых клеток, Flt-3, пептидом, связанным с геном кальцитонина (CGRP), OX40L, α4β7, специфичным к тромбоцитам (гликопротеином тромбоцитов Iib/IIIb (PAC-1), трансформирующим фактором роста бета (TFGe), бел- 24 043314 ком 3 Zona pellucida, связывающим сперматозоиды (ZP-3), TWEAK, рецептором фактора роста тромбоцитов альфа (PDGFRa), склеростином и биологически активными фрагментами или вариантами любого из вышеперечисленного.In some embodiments, the proteins may include proteins that specifically bind to one or more CD proteins, HER receptor family proteins, cell adhesion molecules, growth factors, nerve growth factors, fibroblast growth factors, transforming growth factors (TGFs), insulin-like growth factors, osteoinducing factors, insulin and insulin-related proteins, coagulating and coagulation-related proteins, colony-stimulating factors (CSF), other blood and serum proteins, blood group antigens; receptors, receptor-associated proteins, growth hormones, growth hormone receptors, T-cell receptors; neurotrophic factors, neurotrophins, relaxins, interferons, interleukins, viral antigens, lipoproteins, integrins, rheumatoid factors, immunotoxins, surface membrane proteins, transport proteins, homing receptors, addressins, regulatory proteins and immunoadhesins. In some embodiments, the proteins may include proteins that bind to one or more of the following, alone or in any combination: CD proteins, including, but not limited to, CD3, CD4, CD5, CD7, CD8, CD19, CD20, CD22 , CD25, CD30, CD33, CD34, CD38, CD40, CD70, CD123, CD133, CD138, CD171 and CD174, HER receptor family proteins, including, for example, HER2, HER3, HER4 and EGF receptor, EGFRvIII, cell adhesion molecules , such as LFA-1, Mol, p150.95, VLA-4, ICAM-1, VCAM and integrin alpha v/beta 3, growth factors, including, but not limited to, for example, vascular endothelial growth factor (VEGF); VEGFR2, growth hormone, thyroid stimulating hormone, follicle stimulating hormone, luteinizing hormone, growth hormone releasing factor, parathyroid hormone, Müllerian inhibitory factor, human macrophage inflammatory protein (MIP-1-alpha), erythropoietin (EPO), nerve growth factor such as NGF-beta, platelet-derived growth factor (PDGF), fibroblast growth factor, including, for example, aFGF and bFGF, epidermal growth factor (EGF), Cripto, transforming growth factors (TGF), including, but not limited to, TGF- α and TGF-β, including TGF-e1, TGF-e2, TGF-e3, TGF-e4 or TGF-e5, insulin-like growth factors-I and -II (IGF-I and IGF-II), des(1 -3)-IGF-I (brain IGF-I) and osteoinducing factors, insulins and insulin-related proteins, including but not limited to insulin, insulin A chain, insulin B chain, proinsulin and insulin-like factor binding proteins growth; (coagulation-related proteins such as, but not limited to, factor VIII, tissue factor, von Willebrand factor, protein C, alpha-1 antitrypsin, plasminogen activators such as urokinase and tissue plasminogen activator (t-PA), bombazine, thrombin, thrombopoietin and thrombopoietin receptor, colony-stimulating factors (CSF), including, but not limited to, M-CSF, GM-CSF and G-CSF, other blood and serum proteins, including, but not limited to, albumin, IgE and blood group antigens, receptors and receptor-associated proteins, including, for example, flk2/flt3 receptor, obesity receptor (OB), growth hormone receptors and T-cell receptors; (x) neurotrophic factors, including but not limited to restriction, bone-derived neurotrophic factor (BDNF) and neurotrophin-3, -4, -5 or -6 (NT-3, NT-4, NT-5 or NT-6); (xi) relaxin A chain, B- relaxin chain and prorelaxin, interferons, including, for example, interferons-alpha, -beta and -gamma, interleukins (IL), for example, IL-1-IL-10, IL12, IL-15, IL-17, IL- 23, IL-12/IL-23, IL-2Ra, IL1-R1, IL-6 receptor, IL-4 receptor and/or IL-13-IL-13RA2 receptors, or IL-17 receptor, IL-1RAP; (xiv) viral antigens, including, but not limited to, AIDS virus envelope antigen, lipoproteins, calcitonin, glucagon, atrial natriuretic factor, pulmonary surfactant, tumor necrosis factors alpha and beta, enkephalinase, BCMA, IgKappa, ROR-1 , ERBB2, mesothelin, RANTES (regulated upon activation, normally expressed and secreted by T cells), murine gonadotropin-associated peptide, DNase, FR-alpha, inhibin and activin, integrin, protein A or D, rheumatoid factors, immunotoxins, bone morphogenetic protein (BMP), superoxide dismutase, surface membrane proteins, decay accelerating factor (DAF), AIDS virus envelope, transport proteins, homing receptors, MIC (MIC-a, MIC-B), ULBP 1-6, EPCAM, addressins, regulatory proteins, immunoadhesins, antigen-binding proteins, somatropin, CTGF, CTLA4, eotaxin-1, MUC1, CEA, c-MET, Claudin-18, GPC-3, EPHA2, FPA, LMP1, MG7, NY-ESO-1, PSCA, ganglioside GD2, glanglioside GM2, BAFF, OPGL (RANKL), myostatin, Dickkopf-1 (DKK-1), Ang2, NGF, IGF-1 receptor, hepatocyte growth factor (HGF), TRAIL-R2, c-Kit, B7RP-1 , PSMA, NKG2D-1, programmed cell death protein 1 and ligand, PD1 and PDL1, mannose receptor/hCGe, hepatitis C virus, mesothelin conjugate dsFv[PE38, Legionella pneumophila (lly), IFN gamma, interferon gamma-induced protein 10 (IP10), IFNAR, TALL-1, thymic stromal lymphopoietin (TSLP), proprotein convertase subtilisin/kexin type 9 (PCSK9), stem cell factors, Flt-3, calcitonin gene-related peptide (CGRP), OX40L, α4β7-specific to platelets (platelet glycoprotein Iib/IIIb (PAC-1), transforming growth factor beta (TFGe), sperm-binding protein (ZP-3), TWEAK, platelet-derived growth factor receptor alpha (PDGFRa), sclerostin and biologically active fragments or variants of any of the above.

В другом варианте осуществления белки включают абциксимаб, адалимумаб, адекатумумаб, афлиберцепт, алемтузумаб, алирокумаб, анакинру, атасцепт, базиликсимаб, белимумаб, бевацизумаб, биосозумаб, блинатумомаб, брентуксимаб ведотин, бродалумаб, кантузумаб мертанзин, канакинумаб, цетуксимаб, цертолизумаб пегол, конатумумаб, даклизумаб, деносумаб, экулизумаб, эдреколомаб, эфализумаб, эпратузумаб, этанерцепт, эволокумаб, галиксимаб, ганитумаб, гемтузумаб, голимумаб, ибритумомаб тиуксетан, инфликсимаб, ипилимумаб, лерделимумаб, люмиликсимаб, lxd-кизумаб, мапатумумаб, мотесаниб дифосфат, муромонаб-CD3, натализумаб, несиритид, нимотузумаб, ниволумаб, окрелизумаб, офатумумаб, омализумаб, опрелвекин, паливизумаб, панитумумаб, пембролизумаб, пертузумаб, пекселизумаб, ранибизумаб, рилотумумаб, ритуксимаб, ромиплостим, ромосозумаб, саргамостим, тоцилизумаб, тозитумомаб, трастузумаб, устекинумаб, ведолизумаб, визилизумаб, волоциксимаб, занолимумаб, залутумумаб и биосимиляры любого из вышеперечисленного.In another embodiment, the proteins include abciximab, adalimumab, adecatumumab, aflibercept, alemtuzumab, alirocumab, anakinra, atascept, basiliximab, belimumab, bevacizumab, biosozumab, blinatumomab, brentuximab vedotin, brodalumab, cantuzumab mertansine, canakinumab, ce tuximab, certolizumab pegol, conatumumab, daclizumab , denosumab, eculizumab, edrecolomab, efalizumab, epratuzumab, etanercept, evolocumab, galiximab, ganitumab, gemtuzumab, golimumab, ibritumomab tiuxetan, infliximab, ipilimumab, lerdelimumab, lumiliximab, lxd-kizumab, mapatumumab, motesanib diphosphate , muromonab-CD3, natalizumab, nesiritide , nimotuzumab, nivolumab, ocrelizumab, ofatumumab, omalizumab, oprelvekin, palivizumab, panitumumab, pembrolizumab, pertuzumab, pexelizumab, ranibizumab, rilotumumab, rituximab, romiplostim, romosozumab, sargamostim, tocilizumab, tositumomab, trastuzumab, ustekinumab, vedolizumab, visilizumab, volociximab, zanolimumab , zalutumumab and biosimilars to any of the above.

Белки включают все вышеперечисленное и дополнительно включают антитела, содержащие 1, 2, 3, 4, 5 или 6 определяющих комплементарность областей (CDR) любого из вышеупомянутых антител. Также включены варианты, содержащие область, которая на 70% или более, в частности на 80% или более, в частности на 90% или более, еще более конкретно на 95% или более, в частности на 97% или более, в частности на 98% или более, еще более конкретно на 99% или более идентична по аминокислотной последовательности эталонной аминокислотной последовательности представляющего интерес белка. В данном отношении идентичность может быть определена с использованием разнообразного хорошо известного и легкодоступного программного обеспечения для анализа аминокислотных последовательностей. Предпочтительное программное обеспечение включает то программное обеспечение, которое реализует алгоритмы Смита-Уотермана, которые считаются удовлетворительным решением задачи поиска и выравнивания последовательностей. Могут также использоваться другие алгоритмы, в частности тогда, когда важным критерием является скорость. Обычно используемые программы для выравнивания и гомологичного соответствия ДНК, РНК и полипептидов, которые можно использовать в этой связи, включают FASTA, TFASTA, BLASTN, BLASTP, BLASTX, TBLASTN, PROSRCH, BLAZE и MPSRCH, причем последняя является реализацией алгоритма Смита-Уотермана для исполнения на массовопараллельных процессорах, изготавливаемых MasPar.Proteins include all of the above and further include antibodies containing 1, 2, 3, 4, 5 or 6 complementarity determining regions (CDRs) of any of the above antibodies. Also included are embodiments comprising a region that is 70% or more, particularly 80% or more, particularly 90% or more, even more particularly 95% or more, particularly 97% or more, particularly 98% or more, even more specifically 99% or more, identical in amino acid sequence to the reference amino acid sequence of the protein of interest. In this regard, identity can be determined using a variety of well known and readily available amino acid sequence analysis software. Preferred software includes those that implement Smith-Waterman algorithms, which are considered to be a satisfactory solution to the problem of sequence searching and alignment. Other algorithms may also be used, particularly when speed is an important criterion. Commonly used DNA, RNA and polypeptide alignment and homology matching programs that can be used in this regard include FASTA, TFASTA, BLASTN, BLASTP, BLASTX, TBLASTN, PROSRCH, BLAZE and MPSRCH, the latter being an implementation of the Smith-Waterman algorithm for execution on massively parallel processors manufactured by MasPar.

Некоторые из фигур, описанных в настоящем документе, иллюстрируют примерные блок-схемы, на которых представлены один или несколько функциональных компонентов. Следует понимать, что такие структурные схемы представлены для иллюстративных целей, и описанные и показанные устройства могут иметь дополнительные или альтернативные компоненты, или меньшее количество компонентов, чем проиллюстрировано. Дополнительно в различных вариантах осуществления компоненты (а также функциональные возможности, предоставленные соответствующими компонентами) могут быть связаны с любым подходящим компонентом или иным образом интегрированы в виде его части.Some of the figures described herein illustrate exemplary block diagrams that represent one or more functional components. It should be understood that such block diagrams are presented for illustrative purposes, and the devices described and shown may have additional or alternative components, or fewer components, than illustrated. Additionally, in various embodiments, components (as well as functionality provided by corresponding components) may be associated with or otherwise integrated as a part of any suitable component.

Варианты осуществления настоящего изобретения относятся к энергозависимому машиночитаемому носителю данных, который содержит программный код для выполнения различных действий, осуществляемых компьютером. Термин машиночитаемый носитель данных используют в данном документе для описания любого носителя, способного хранить или кодировать последовательность команд или компьютерных кодов для выполнения действий, способов и методов, описанных в данном документе. Носители и компьютерный код могут быть специально созданы и выполнены для достижения целей вариантов осуществления настоящего изобретения, или они могут быть широко известны и доступны для специалистов в области программного обеспечения. Примеры машиночитаемых носителей данных включают, но без ограничения магнитные носители, такие как жесткие диски, гибкие диски и магнитные пленки; оптические носители, такие как CD-ROM и голографические устройства; магнитно-оптические носители, такие как оптические диски; и аппаратные устройства, которые специально выполнены с возможностью хранения и исполнения программного кода, такие как ASIC, программируемые логические устройства (PLD) и устройства ROM и RAM.Embodiments of the present invention relate to a nonvolatile computer-readable storage medium that contains program code for performing various computer-operable actions. The term computer-readable storage medium is used herein to describe any medium capable of storing or encoding a sequence of instructions or computer codes for performing the acts, methods, and techniques described herein. The media and computer code may be specifically created and executed to achieve the purposes of embodiments of the present invention, or they may be generally known and available to those skilled in the software art. Examples of computer-readable storage media include, but are not limited to, magnetic media such as hard disks, floppy disks, and magnetic tapes; optical media such as CD-ROM and holographic devices; magnetic-optical media such as optical discs; and hardware devices that are specifically configured to store and execute software code, such as ASICs, programmable logic devices (PLDs), and ROM and RAM devices.

Примеры компьютерного кода включают машинный код, например написанный компилятором, и файлы, содержащие код более высокого уровня, которые исполняются компьютером за счет использования интерпретатора или компилятора. Например, вариант осуществления настоящего изобретения может быть реализован за счет использования Java, C++ или других объектно-ориентированных языков программирования и средств разработки. Дополнительные примеры компьютерного кода включают зашифрованный код и сжатый код. Более того, вариант осуществления настоящего изобретения может быть загружен в виде компьютерного программного продукта, который может быть передан с удаленного компьютера (например, серверного компьютера) на запрашивающий компьютер (например, на компьютер клиента или другой серверный компьютер) посредством канала передачи данных. Другой вариант осуществления настоящего изобретения может быть реализован в виде кабельной схемы вместо программных команд, исполняемых компьютерами, или в сочетании с ними.Examples of computer code include machine code, such as that written by a compiler, and files containing higher level code that are executed by a computer through the use of an interpreter or compiler. For example, an embodiment of the present invention may be implemented through the use of Java, C++, or other object-oriented programming languages and development tools. Additional examples of computer code include encrypted code and compressed code. Moreover, an embodiment of the present invention can be downloaded as a computer program product that can be transmitted from a remote computer (eg, a server computer) to a requesting computer (eg, a client computer or another server computer) via a data link. Another embodiment of the present invention may be implemented as a cable circuit instead of or in combination with software instructions executed by computers.

В контексте данного документа формы существительного единственного числа также могут обо-In the context of this document, singular noun forms can also denote

Claims

значать формы множественного числа, если в контексте явно не обозначено иное.mean plural forms unless the context clearly indicates otherwise.

В контексте данного документа термины соединять, соединенный и соединение обозначают функциональное объединение или сцепление. Соединенные компоненты могут быть непосредственно или опосредовано присоединены друг к другу, например, посредством еще одного набора компонентов.As used herein, the terms connect, connected, and connection denote functional association or coupling. The connected components may be directly or indirectly connected to each other, for example by another set of components.

В контексте данного документа термины приблизительно, по существу, существенный и примерно используются для описания и учета небольших отклонений. Когда термины используются в сочетании с определенным случаем или обстоятельством, они могут относиться к ситуациям, при которых случай и обстоятельство происходят определенным образом, а также ситуациям, при которых случай и обстоятельство происходят с некоторой точностью. Например, когда термины используются в сочетании с числовым значением, они могут обозначать диапазон отклонения, которое меньше или равно ±10% от этого числового значения, например меньше или равно ±5%, меньше или равно ±4%, меньше или равно ±3%, меньше или равно ±2%, меньше или равно ±1%, меньше или равно ±0,5%, меньше или равно ±0,1% или меньше или равно ±0,05%. Например, подразумевается, что два числовых значения могут быть по существу одинаковыми, если разница между значениями меньше или равна ±10% от среднего из значений, например меньше или равна ±5%, меньше или равна ±4%, меньше или равна ±3%, меньше или равна ±2%, меньше или равна ±1%, меньше или равна ±0,5%, меньше или равна ±0,1% или меньше или равна ±0,05%.In the context of this document, the terms approximately, substantially, substantially, and approximately are used to describe and account for minor deviations. When the terms are used in conjunction with a particular case or circumstance, they can refer to situations in which the case and circumstance occur in a certain way, as well as situations in which the case and circumstance occur with some precision. For example, when used in conjunction with a numerical value, the terms may denote a range of deviation that is less than or equal to ±10% of that numerical value, such as less than or equal to ±5%, less than or equal to ±4%, less than or equal to ±3% , less than or equal to ±2%, less than or equal to ±1%, less than or equal to ±0.5%, less than or equal to ±0.1% or less than or equal to ±0.05%. For example, it is contemplated that two numerical values may be substantially the same if the difference between the values is less than or equal to ±10% of the average of the values, such as less than or equal to ±5%, less than or equal to ±4%, less than or equal to ±3% , less than or equal to ±2%, less than or equal to ±1%, less than or equal to ±0.5%, less than or equal to ±0.1% or less than or equal to ±0.05%.

Дополнительно количества, соотношения и иные числовые значения иногда представлены в данном документе в формате диапазона. Следует понимать, что такой формат диапазона используется для удобства и краткости, и его следует считать гибким для включения численных значений, явно указанных в качестве границ диапазона, а также для включения всех отдельных численных значений или поддиапазонов, содержащихся в рамках этого диапазона, как если каждое численное значение и поддиапазон указаны явным образом.Additionally, quantities, ratios, and other numerical values are sometimes presented herein in range format. It should be understood that this range format is used for convenience and brevity, and should be considered flexible to include numeric values explicitly stated as range boundaries, as well as to include all individual numeric values or subranges contained within that range, as if each the numerical value and subrange are specified explicitly.

Хотя настоящее изобретение было описано и проиллюстрировано со ссылками на свои определенные варианты осуществления, эти описания и иллюстрации не ограничивают настоящее изобретение. Специалистам в данной области техники следует понимать, что могут быть внесены различные изменения, и могут быть использованы эквиваленты без отступления от сущности и объема настоящего изобретения, которые определены прилагаемой формулой изобретения. Графические материалы не обязательно изображены в масштабе. В настоящем изобретении между схематичными представлениями и фактическим устройством могут существовать различия вследствие производственных процессов, допусков и/или по другим причинам. Могут существовать другие варианты осуществления настоящего изобретения, которые не были конкретно проиллюстрированы. Описание (но не формулу изобретения) и графические материалы следует считать иллюстративными, а не ограничительными. Изменения могут быть внесены для приспособления определенной ситуации, материала, состава вещества, метода или процесса к цели, сущности и объему настоящего изобретения. Все подобные изменения находятся в пределах объема согласно приложенной формуле изобретения. Хотя методы, раскрытые в данном документе, описаны со ссылкой на определенные действия, выполняемые в определенном порядке, следует понимать, что эти действия могут быть объединены, подразделены или переупорядочены для создания подобного способа без отступления от идей настоящего изобретения. Соответственно, если конкретно не указано иное, порядок и группирование действий не ограничивают настоящее изобретение.Although the present invention has been described and illustrated with reference to its specific embodiments, these descriptions and illustrations do not limit the present invention. Those skilled in the art will understand that various changes may be made and equivalents may be used without departing from the spirit and scope of the present invention as defined by the appended claims. Graphic materials are not necessarily depicted to scale. In the present invention, differences may exist between the schematic representations and the actual device due to manufacturing processes, tolerances and/or other reasons. There may be other embodiments of the present invention that have not been specifically illustrated. The description (but not the claims) and graphics are to be considered illustrative and not restrictive. Changes may be made to adapt a particular situation, material, composition of matter, method or process to the purpose, spirit and scope of the present invention. All such changes are within the scope of the appended claims. Although the methods disclosed herein are described with reference to specific steps performed in a particular order, it should be understood that these steps can be combined, subdivided, or rearranged to create a similar method without departing from the teachings of the present invention. Accordingly, unless specifically stated otherwise, the order and grouping of acts do not limit the present invention.

ФОРМУЛА ИЗОБРЕТЕНИЯCLAIM

1. Реализуемый на компьютере способ отслеживания процесса биофармацевтического производства и/или управления им, при этом способ включает определение одним или более процессорами точки запроса базы данных наблюдений, связанной со сканированием процесса биофармацевтического производства системой спектроскопии;1. A computer-implemented method for monitoring and/or controlling a biopharmaceutical manufacturing process, the method comprising determining by one or more processors a query point for an observation database associated with scanning the biopharmaceutical manufacturing process by a spectroscopy system;

запрос одним или более процессорами базы данных наблюдений, содержащей множество наборов данных наблюдений, связанных с прошлыми наблюдениями процессов биофармацевтического производства, при этом каждый из наборов данных наблюдений содержит спектральные данные и соответствующее фактическое аналитическое измерение, и при этом запрос базы данных наблюдений включает выбор в качестве обучающих данных из множества наборов данных наблюдений наборов данных наблюдений, которые удовлетворяют одному или более критериям релевантности относительно точки запроса базы данных наблюдений;querying by one or more processors of an observational database containing a plurality of observational data sets associated with past observations of biopharmaceutical manufacturing processes, wherein each of the observational data sets contains spectral data and a corresponding actual analytical measurement, and wherein querying the observational database includes selecting as training data from a plurality of observational data sets of observational data sets that satisfy one or more relevance criteria with respect to a query point of the observational database;

адаптацию одним или более процессорами и с использованием выбранных обучающих данных локальной модели, характерной для процесса биофармацевтического производства, при этом локальную модель обучают предсказывать аналитические измерения на основе входных спектральных данных; и предсказание одним или более процессорами аналитического измерения процесса биофармацевтического производства, при этом предсказание аналитического измерения процесса биофармацевтического производства включает использование локальной модели для анализа спектральных данных, которые сгенерировала система спектроскопии при сканировании процесса биофармацевтического производства.adapting, by one or more processors and using selected training data, a local model specific to the biopharmaceutical manufacturing process, wherein the local model is trained to predict analytical measurements based on the input spectral data; and predicting, by one or more processors, an analytical measurement of the biopharmaceutical manufacturing process, wherein predicting the analytical measurement of the biopharmaceutical manufacturing process includes using a local model to analyze spectral data that the spectroscopy system generated while scanning the biopharmaceutical manufacturing process.

2. Реализуемый на компьютере способ по п.1, в котором система спектроскопии представляет собой2. The computer-implemented method according to claim 1, in which the spectroscopy system is

- 26 043314 систему рамановской спектроскопии.- 26 043314 Raman spectroscopy system.

3. Реализуемый на компьютере способ по п.1 или 2, в котором определение точки запроса базы данных наблюдений включает определение точки запроса базы данных наблюдений на основе, по меньшей мере частично, вектора спектрального сканирования, при этом вектор спектрального сканирования генерируют системой спектроскопии при сканировании процесса биофармацевтического производства и выбор в качестве обучающих данных наборов данных наблюдений, которые удовлетворяют одному или более критериям релевантности относительно точки запроса базы данных наблюдений, включает сравнение вектора спектрального сканирования, на котором было основано определение точки запроса базы данных наблюдений, с векторами спектрального сканирования, связанными с прошлыми наблюдениями процессов биофармацевтического производства.3. The computer-implemented method of claim 1 or 2, wherein determining the observation database query point includes determining the observation database query point based at least in part on a spectral scan vector, wherein the spectral scan vector is generated by the spectroscopy system during scanning biopharmaceutical manufacturing process and selecting as training data observational datasets that satisfy one or more relevance criteria with respect to the observational database query point, involves comparing the spectral scan vector on which the definition of the observational database query point was based with the spectral scan vectors associated with past observations of biopharmaceutical manufacturing processes.

4. Реализуемый на компьютере способ по п.3, в котором определение точки запроса базы данных наблюдений дополнительно включает определение точки запроса базы данных наблюдений на основе номера выборки, связанного с вектором спектрального сканирования;и выбор в качестве обучающих данных наборов данных наблюдений, которые удовлетворяют одному или более критериям релевантности относительно точки запроса базы данных наблюдений, включает (i) сравнение вектора спектрального сканирования, на котором было основано определение точки запроса из базы данных наблюдений, с векторами спектрального сканирования, связанными с прошлыми наблюдениями процессов биофармацевтического производства, и (ii) сравнение номера выборки, связанного с точкой запроса из базы данных наблюдений, с номерами выборок, связанными с прошлыми наблюдениями процессов из биофармацевтического производства.4. The computer-implemented method of claim 3, wherein determining an observational database query point further includes determining an observational database query point based on a sample number associated with a spectral scan vector; and selecting, as training data, observational data sets that satisfy one or more relevance criteria with respect to an observational database query point, involves (i) comparing the spectral scan vector on which the definition of the observational database query point was based with spectral scan vectors associated with past observations of biopharmaceutical manufacturing processes, and (ii) comparing the sample number associated with a query point from an observational database with sample numbers associated with past process observations from biopharmaceutical manufacturing.

5. Реализуемый на компьютере способ по п.4, в котором выбор в качестве обучающих данных наборов данных наблюдений, которые удовлетворяют одному или более критериям релевантности относительно точки запроса базы данных наблюдений, включает выбор самых недавних k наборов данных наблюдений для включения в обучающие данные.5. The computer-implemented method of claim 4, wherein selecting as training data observational data sets that satisfy one or more relevance criteria with respect to a query point of the observational database includes selecting the most recent k observational data sets for inclusion in the training data.

6. Реализуемый на компьютере способ по любому из пп.3-5, в котором предсказание аналитического измерения процесса биофармацевтического производства включает использование локальной модели для анализа вектора спектрального сканирования, на котором было основано определение точки запроса базы данных наблюдений.6. The computer-implemented method of any one of claims 3 to 5, wherein predicting the analytical measurement of the biopharmaceutical manufacturing process includes using a local model to analyze the spectral scan vector on which the definition of the observation database query point was based.

7. Реализуемый на компьютере способ по любому из пп.3-6, в котором выбор в качестве обучающих данных наборов данных наблюдений, которые удовлетворяют одному или более критериям релевантности относительно точки запроса базы данных наблюдений, включает вычисление расстояний между (i) вектором спектрального сканирования, на котором было основано определение точки запроса базы данных наблюдений, и (ii) векторами спектрального сканирования, связанными с прошлыми наблюдениями процессов биофармацевтического производства; и выбор в качестве обучающих данных любого из векторов спектрального сканирования, связанных с прошлыми наблюдениями, для которых определено нахождение в пределах порогового расстояния от вектора спектрального сканирования, на котором было основано определение точки запроса базы данных наблюдений.7. The computer-implemented method of any one of claims 3 to 6, wherein selecting as training data sets of observational data that satisfy one or more relevance criteria relative to an observational database query point includes calculating distances between (i) a spectral scan vector , on which the observational database query point definition was based, and (ii) spectral scan vectors associated with past observations of biopharmaceutical manufacturing processes; and selecting as training data any of the spectral scan vectors associated with past observations that are determined to be within a threshold distance from the spectral scan vector on which the definition of the observation database query point was based.

8. Реализуемый на компьютере способ по любому из пп.1-7, в котором определение точки запроса базы данных наблюдений включает определение точки запроса базы данных наблюдений на основе, по меньшей мере, частично одного или обоих из (i) профиля питательной среды, связанного с процессом биофармацевтического производства, и (ii) одного или более рабочих условий, в которых подвергают анализу процесс биофармацевтического производства.8. The computer-implemented method of any one of claims 1 to 7, wherein determining an observational database query point includes determining an observational database query point based at least in part on one or both of (i) a culture media profile associated with the biopharmaceutical manufacturing process, and (ii) one or more operating conditions under which the biopharmaceutical manufacturing process is analyzed.

9. Реализуемый на компьютере способ по любому из пп.1-8, в котором адаптация локальной модели, характерной для процесса биофармацевтического производства, включает адаптацию модели машинного обучения на основе гауссовского процесса, характерной для этого процесса биофармацевтического производства.9. The computer-implemented method of any one of claims 1 to 8, wherein adapting a local model specific to the biopharmaceutical manufacturing process includes adapting a Gaussian process machine learning model specific to the biopharmaceutical manufacturing process.

10. Реализуемый на компьютере способ по любому из пп.1-9, в котором адаптация локальной модели, характерной для процесса биофармацевтического производства, включает адаптацию модели, которая зависит как от спектральных данных, так и от номера выборки данного набора данных наблюдений.10. The computer-implemented method of any one of claims 1 to 9, wherein adapting a local model specific to the biopharmaceutical manufacturing process includes adapting a model that depends on both the spectral data and the sample number of a given observational data set.

11. Реализуемый на компьютере способ по любому из пп.1-10, в котором предсказание аналитического измерения процесса биофармацевтического производства включает использование локальной модели для определения индикатора достоверности, связанного с предсказанным аналитическим измерением процесса биофармацевтического производства.11. The computer-implemented method of any one of claims 1 to 10, wherein predicting an analytical measurement of a biopharmaceutical manufacturing process includes using a local model to determine a confidence indicator associated with the predicted analytical measurement of a biopharmaceutical manufacturing process.

12. Реализуемый на компьютере способ по любому из пп.1-11, который дополнительно включает управление одним или более процессорами и на основе, по меньшей мере, частично предсказанного аналитического измерения процесса биофармацевтического производства по меньшей мере одним параметром процесса биофармацевтического производства.12. The computer-implemented method of any one of claims 1 to 11, which further includes controlling one or more processors and, based on at least part of the predicted analytical measurement of the biopharmaceutical manufacturing process, at least one parameter of the biopharmaceutical manufacturing process.

13. Реализуемый на компьютере способ по любому из пп.1-12, в котором предсказанное аналитиче-13. Computer-implemented method according to any one of claims 1-12, in which the predicted analytical

- 27 043314 ское измерение процесса биофармацевтического производства представляет собой концентрацию компонентов питательной среды, состояние питательной среды, плотность жизнеспособных клеток, титр, критический показатель качества или состояние клеток.- 27 043314 A common measurement of a biopharmaceutical manufacturing process is the concentration of culture media components, culture media condition, viable cell density, titer, critical quality indicator, or cell condition.

14. Реализуемый на компьютере способ по любому из пп.1-13, в котором предсказанное аналитическое измерение процесса биофармацевтического производства представляет собой концентрацию глюкозы, лактата, глутамата, глутамина, аммиака, аминокислот, Na⁺ или K⁺.14. The computer-implemented method of any one of claims 1 to 13, wherein the predicted analytical measurement of the biopharmaceutical manufacturing process is a concentration of glucose, lactate, glutamate, glutamine, ammonia, amino acids, Na ⁺ or K ⁺ .

15. Реализуемый на компьютере способ по любому из пп.1-13, в котором предсказанное аналитическое измерение процесса биофармацевтического производства представляет собой рН, рСО2, рО2, температуру или осмоляльность.15. The computer-implemented method of any one of claims 1 to 13, wherein the predicted analytical measurement of the biopharmaceutical manufacturing process is pH, pCO2, pO2, temperature or osmolality.

16. Реализуемый на компьютере способ по любому из пп.1-15, который дополнительно включает получение при помощи аналитического прибора фактического аналитического измерения процесса биофармацевтического производства и обеспечение одним или более процессорами добавления (i) спектральных данных, которые сгенерировала система спектроскопии при получении фактического аналитического измерения, и (ii) фактического аналитического измерения процесса биофармацевтического производства в базу данных наблюдений.16. The computer-implemented method of any one of claims 1 to 15, which further comprises obtaining, by the analytical instrument, an actual analytical measurement of the biopharmaceutical manufacturing process and causing one or more processors to add (i) spectral data that the spectroscopy system generated when obtaining the actual analytical measurement, and (ii) actual analytical measurement of the biopharmaceutical manufacturing process into an observational database.

17. Реализуемый на компьютере способ по п.16, который дополнительно включает определение одним или более процессорами того, что, по меньшей мере, предсказанное аналитическое измерение не удовлетворяет одному или более критериям качества модели, при этом получение фактического аналитического измерения выполняют в ответ на определение того, что, по меньшей мере, предсказанное аналитическое измерение не удовлетворяет одному или более критериям качества модели.17. The computer-implemented method of claim 16, further comprising determining by one or more processors that at least a predicted analytical measurement does not satisfy one or more model quality criteria, wherein obtaining an actual analytical measurement is performed in response to the determination that at least the predicted analytical measurement does not satisfy one or more model quality criteria.

18. Реализуемый на компьютере способ по п.17, в котором определение того, что, по меньшей мере, предсказанное аналитическое измерение не удовлетворяет одному или более критериям качества модели, включает генерирование интервала правдоподобия, связанного с предсказанным аналитическим измерением; и сравнение интервала правдоподобия с предварительно заданным пороговым значением.18. The computer-implemented method of claim 17, wherein determining that at least a predicted analytical measurement does not satisfy one or more model quality criteria comprises generating a likelihood interval associated with the predicted analytical measurement; and comparing the likelihood interval with a predetermined threshold value.

19. Реализуемый на компьютере способ по любому из пп.1-18, в котором процесс биофармацевтического производства представляет собой процесс культивирования клеток.19. The computer-implemented method according to any one of claims 1 to 18, wherein the biopharmaceutical manufacturing process is a cell culture process.

20. Система спектроскопии для отслеживания процесса биофармацевтического производства и/или управления им, при этом система спектроскопии содержит один или более спектроскопических зондов, совместно выполненных с возможностью (i) обеспечения электромагнитного излучения источника для процесса биофармацевтического производства и (ii) сбора электромагнитного излучения во время обеспечения электромагнитного излучения источника для процесса биофармацевтического производства;20. A spectroscopy system for monitoring and/or controlling a biopharmaceutical manufacturing process, wherein the spectroscopy system comprises one or more spectroscopic probes collectively configured to (i) provide electromagnetic radiation from a source for the biopharmaceutical manufacturing process and (ii) collect electromagnetic radiation during providing electromagnetic radiation source for the biopharmaceutical production process;

одно или более запоминающих устройств, совместно хранящих базу данных наблюдений, содержащую множество наборов данных наблюдений, связанных с прошлыми наблюдениями процессов биофармацевтического производства, при этом каждый из наборов данных наблюдений содержит спектральные данные и соответствующее фактическое аналитическое измерение и один или более процессоров, выполненных с возможностью определения точки запроса базы данных наблюдений, связанной со сканированием процесса биофармацевтического производства системой спектроскопии, запроса базы данных наблюдений, по меньшей мере, путем выбора в качестве обучающих данных из множества наборов данных наблюдений наборов данных наблюдений, которые удовлетворяют одному или более критериям релевантности относительно точки запроса базы данных наблюдений, адаптации с использованием выбранных обучающих данных локальной модели, характерной для процесса биофармацевтического производства, при этом локальная модель обучена предсказывать аналитические измерения на основе входных спектральных данных, и предсказания аналитического измерения процесса биофармацевтического производства, по меньшей мере, путем использования локальной модели для анализа спектральных данных, которые сгенерировала система спектроскопии при сканировании процесса биофармацевтического производства при помощи одного или более спектроскопических зондов.one or more storage devices collectively storing an observational database containing a plurality of observational data sets associated with past observations of biopharmaceutical manufacturing processes, each of the observational data sets comprising spectral data and a corresponding actual analytical measurement, and one or more processors configured to determining an observational database query point associated with scanning a biopharmaceutical manufacturing process by a spectroscopy system, querying the observational database by at least selecting, as training data from a plurality of observational data sets, observational data sets that satisfy one or more relevance criteria with respect to the query point observational database, adapting, using selected training data, a local model specific to the biopharmaceutical manufacturing process, wherein the local model is trained to predict analytical measurements from input spectral data, and predicting an analytical measurement of the biopharmaceutical manufacturing process, at least by using the local model to analyzing spectral data generated by a spectroscopy system while scanning a biopharmaceutical manufacturing process using one or more spectroscopic probes.

21. Система спектроскопии по п.20, в которой система спектроскопии представляет собой систему рамановской спектроскопии.21. The spectroscopy system of claim 20, wherein the spectroscopy system is a Raman spectroscopy system.

22. Система спектроскопии по п.20 или 21, в которой один или более процессоров выполнены с возможностью определения точки запроса базы данных наблюдений на основе, по меньшей мере частично, вектора спектрального сканирования, при этом вектор спектрального сканирования сгенерирован системой спектроскопии при сканировании процесса биофармацевтического производства; и выбора обучающих данных, по меньшей мере, путем сравнения вектора спектрального сканирования, на котором было основано определение точки запроса базы данных наблюдений, с векторами спек- 28 043314 трального сканирования, связанными с прошлыми наблюдениями процессов биофармацевтического производства.22. The spectroscopy system of claim 20 or 21, wherein the one or more processors are configured to determine an observation database query point based at least in part on a spectral scan vector, wherein the spectral scan vector is generated by the spectroscopy system when scanning a biopharmaceutical process production; and selecting training data by at least comparing the spectral scan vector on which the definition of the observation database query point was based with spectral scan vectors associated with past observations of biopharmaceutical manufacturing processes.

23. Система спектроскопии по п.22, в которой один или более процессоров выполнены с возможностью определения точки запроса базы данных наблюдений на основе частично номера выборки, связанного с вектором спектрального сканирования; и выбора в качестве обучающих данных наборов данных наблюдений, которые удовлетворяют одному или более критериям релевантности относительно точки запроса базы данных наблюдений, частично путем (i) сравнения вектора спектрального сканирования, на котором было основано определение точки запроса базы данных наблюдений, с векторами спектрального сканирования, связанными с прошлыми наблюдениями процессов биофармацевтического производства, и (ii) сравнения номера выборки, связанного с точкой запроса базы данных наблюдений, с номерами выборок, связанными с прошлыми наблюдениями процессов биофармацевтического производства.23. The spectroscopy system of claim 22, wherein the one or more processors are configured to determine an observation database query point based in part on a sample number associated with a spectral scan vector; and selecting as training data sets of observational data that satisfy one or more relevance criteria with respect to the observational database query point, in part by (i) comparing the spectral scan vector on which the definition of the observational database query point was based with the spectral scan vectors, associated with past observations of biopharmaceutical manufacturing processes, and (ii) comparing the sample number associated with the observation database query point to the sample numbers associated with past observations of biopharmaceutical manufacturing processes.

24. Система спектроскопии по п.23, в которой один или более процессоров выполнены с возможностью выбора в качестве обучающих данных наборов данных наблюдений, которые удовлетворяют одному или более критериям релевантности относительно точки запроса базы данных наблюдений, частично путем выбора самых недавних k наборов данных наблюдений для включения в обучающие данные.24. The spectroscopy system of claim 23, wherein the one or more processors are configured to select as training data observational data sets that satisfy one or more relevance criteria relative to the observational database query point, in part by selecting the most recent k observational data sets for inclusion in training data.

25. Система спектроскопии по любому из пп.20-24, в которой локальная модель представляет собой модель машинного обучения на основе гауссовского процесса.25. The spectroscopy system according to any one of claims 20 to 24, wherein the local model is a machine learning model based on a Gaussian process.

26. Система спектроскопии по любому из пп.20-25, в которой локальная модель зависит как от спектральных данных, так и от номера выборки данного набора данных наблюдений.26. The spectroscopy system according to any one of claims 20-25, wherein the local model depends on both the spectral data and the sample number of a given observational data set.

27. Система спектроскопии по любому из пп.20-26, в которой один или более процессоров дополнительно выполнены с возможностью использования локальной модели для определения индикатора достоверности, связанного с предсказанным аналитическим измерением процесса биофармацевтического производства.27. The spectroscopy system of any one of claims 20 to 26, wherein the one or more processors are further configured to use a local model to determine a confidence indicator associated with a predicted analytical measurement of the biopharmaceutical manufacturing process.

28. Система спектроскопии по любому из пп.20-27, в которой один или более процессоров дополнительно выполнены с возможностью управления на основе, по меньшей мере, частично предсказанного аналитического измерения процесса биофармацевтического производства по меньшей мере одним параметром процесса биофармацевтического производства.28. The spectroscopy system of any one of claims 20 to 27, wherein the one or more processors are further configured to control, based on at least a partially predicted analytical measurement of the biopharmaceutical manufacturing process, at least one parameter of the biopharmaceutical manufacturing process.

29. Система спектроскопии по любому из пп.20-28, в которой предсказанное аналитическое измерение процесса биофармацевтического производства представляет собой концентрацию компонентов питательной среды, состояние питательной среды, плотность жизнеспособных клеток, титр, критический показатель качества или состояние клеток.29. The spectroscopy system of any one of claims 20 to 28, wherein the predicted analytical measurement of the biopharmaceutical manufacturing process is a concentration of culture media components, culture media condition, viable cell density, titer, critical quality indicator, or cell condition.

30. Система спектроскопии по любому из пп.20-29, в которой предсказанное аналитическое измерение процесса биофармацевтического производства представляет собой концентрацию глюкозы, лактата, глутамата, глутамина, аммиака, аминокислот, Na⁺ или K⁺.30. The spectroscopy system of any one of claims 20 to 29, wherein the predicted analytical measurement of the biopharmaceutical manufacturing process is a concentration of glucose, lactate, glutamate, glutamine, ammonia, amino acids, Na ⁺ or K ⁺ .

31. Система спектроскопии по любому из пп.20-29, в которой предсказанное аналитическое измерение процесса биофармацевтического производства представляет собой рН, рСО₂, рО₂, температуру или осмоляльность.31. The spectroscopy system of any one of claims 20 to 29, wherein the predicted analytical measurement of the biopharmaceutical manufacturing process is pH, pCO ₂ , pO ₂ , temperature or osmolality.

32. Система спектроскопии по любому из пп.20-31, которая дополнительно содержит аналитический прибор, выполненный с возможностью получения фактического аналитического измерения процесса биофармацевтического производства, при этом один или более процессоров дополнительно выполнены с возможностью обеспечения добавления (i) спектральных данных, которые сгенерировала система спектроскопии при получении фактического аналитического измерения, и (ii) фактического аналитического измерения процесса биофармацевтического производства в базу данных наблюдений.32. The spectroscopy system according to any one of claims 20-31, which further comprises an analytical instrument configured to obtain an actual analytical measurement of the biopharmaceutical manufacturing process, wherein one or more processors are further configured to provide addition of (i) spectral data that has generated spectroscopy system in obtaining the actual analytical measurement, and (ii) the actual analytical measurement of the biopharmaceutical manufacturing process into an observational database.

33. Система спектроскопии по п.32, в которой один или более процессоров дополнительно выполнены с возможностью определения того, что, по меньшей мере, предсказанное аналитическое измерение не удовлетворяет одному или более критериям качества модели; и получения фактического аналитического измерения из аналитического прибора в ответ на определение того, что, по меньшей мере, предсказанное аналитическое измерение не удовлетворяет одному или более критериям качества модели.33. The spectroscopy system of claim 32, wherein the one or more processors are further configured to determine that at least a predicted analytical measurement does not satisfy one or more model quality criteria; and obtaining an actual analytical measurement from the analytical instrument in response to determining that at least the predicted analytical measurement does not satisfy one or more model quality criteria.

34. Система спектроскопии по п.33, в которой один или более процессоров выполнены с возможностью определения того, что, по меньшей мере, предсказанное аналитическое измерение не удовлетворяет одному или более критериям качества модели, по меньшей мере, путем генерирования интервала правдоподобия, связанного с предсказанным аналитическим измерением; и сравнения интервала правдоподобия с предварительно заданным пороговым значением.34. The spectroscopy system of claim 33, wherein the one or more processors are configured to determine that at least a predicted analytical measurement does not satisfy one or more model quality criteria by at least generating a likelihood interval associated with predicted analytical measurement; and comparing the likelihood interval with a predetermined threshold value.

35. Система спектроскопии по любому из пп.20-34, в которой процесс биофармацевтического производства представляет собой процесс культивирования клеток.35. The spectroscopy system according to any one of claims 20 to 34, wherein the biopharmaceutical manufacturing process is a cell culture process.

- 29 043314- 29 043314

36. Энергонезависимый машиночитаемый носитель данных, на котором хранятся команды для отслеживания процесса биофармацевтического производства и/или управления им, при этом команды при исполнении одним или более процессорами обеспечивают выполнение одним или более процессорами реализуемого на компьютере способа отслеживания процесса биофармацевтического производства и/или управления им по любому одному из пп.1-19.36. A non-transitory computer-readable storage medium on which instructions are stored for tracking and/or controlling a biopharmaceutical manufacturing process, wherein the instructions, when executed by one or more processors, cause the one or more processors to execute a computer-implemented method for tracking and/or controlling a biopharmaceutical manufacturing process according to any one of claims 1-19.

37. Биореакторная система, содержащая камеру биореактора, выполненную для вмещения процесса биофармацевтического производства;37. A bioreactor system comprising: a bioreactor chamber configured to accommodate a biopharmaceutical manufacturing process;

один или более спектроскопических зондов, совместно выполненных с возможностью (i) обеспечения электромагнитного излучения источника для процесса биофармацевтического производства и (ii) сбора электромагнитного излучения во время обеспечения электромагнитного излучения источника для процесса биофармацевтического производства;one or more spectroscopic probes collectively configured to (i) provide electromagnetic radiation from a source to a biopharmaceutical manufacturing process and (ii) collect electromagnetic radiation while providing electromagnetic radiation from a source to a biopharmaceutical manufacturing process;

одно или более запоминающих устройств, совместно хранящих базу данных наблюдений, содержащую множество наборов данных наблюдений, связанных с прошлыми наблюдениями процессов биофармацевтического производства, при этом каждый из наборов данных наблюдений содержит спектральные данные и соответствующее фактическое аналитическое измерение; и один или более процессоров, выполненных с возможностью определения точки запроса базы данных наблюдений, связанной со сканированием процесса биофармацевтического производства системой спектроскопии, запроса базы данных, по меньшей мере, путем выбора в качестве обучающих данных из множества наборов данных наблюдений наборов данных наблюдений, которые удовлетворяют одному или более критериям релевантности относительно точки запроса базы данных наблюдений, адаптации с использованием выбранных обучающих данных локальной модели, характерной для процесса биофармацевтического производства, при этом локальная модель обучена предсказывать аналитические измерения на основе входных спектральных данных, и предсказания аналитического измерения процесса биофармацевтического производства, по меньшей мере, путем использования локальной модели для анализа спектральных данных, которые сгенерировала система спектроскопии при сканировании процесса биофармацевтического производства при помощи одного или более спектроскопических зондов.one or more storage devices collectively storing an observational database containing a plurality of observational data sets associated with past observations of biopharmaceutical manufacturing processes, each of the observational data sets containing spectral data and a corresponding actual analytical measurement; and one or more processors configured to determine an observational database query point associated with scanning a biopharmaceutical manufacturing process by the spectroscopy system, the database query by at least selecting, as training data from the plurality of observational data sets, observational data sets that satisfy one or more relevance criteria relative to an observational database query point, adapting, using selected training data, a local model specific to the biopharmaceutical manufacturing process, wherein the local model is trained to predict an analytical measurement based on the input spectral data, and predicting an analytical measurement of the biopharmaceutical manufacturing process, according to at least by using a local model to analyze the spectral data generated by the spectroscopy system while scanning the biopharmaceutical manufacturing process using one or more spectroscopic probes.

38. Биореакторная система по п.37, в которой один или более процессоров выполнены с возможностью определения точки запроса базы данных наблюдений на основе, по меньшей мере частично, вектора спектрального сканирования, при этом вектор спектрального сканирования сгенерирован при сканировании процесса биофармацевтического производства при помощи одного или более спектроскопических зондов; и выбора обучающих данных, по меньшей мере, путем сравнения вектора спектрального сканирования, на котором было основано определение точки запроса базы данных наблюдений, с векторами спектрального сканирования, связанными с прошлыми наблюдениями процессов биофармацевтического производства.38. The bioreactor system of claim 37, wherein the one or more processors are configured to determine an observation database query point based at least in part on a spectral scan vector, wherein the spectral scan vector is generated by scanning the biopharmaceutical manufacturing process using one or more spectroscopic probes; and selecting training data by at least comparing the spectral scan vector on which the observation database query point definition was based with spectral scan vectors associated with past observations of biopharmaceutical manufacturing processes.

39. Биореакторная система по п.38, в которой один или более процессоров выполнены с возможностью определения точки запроса базы данных наблюдений на основе частично номера выборки, связанного с вектором спектрального сканирования; и выбора в качестве обучающих данных наборов данных наблюдений, которые удовлетворяют одному или более критериям релевантности относительно точки запроса базы данных наблюдений, частично путем (i) сравнения вектора спектрального сканирования, на котором было основано определение точки запроса базы данных наблюдений, с векторами спектрального сканирования, связанными с прошлыми наблюдениями процессов биофармацевтического производства, и (ii) сравнения номера выборки, связанного с точкой запроса базы данных наблюдений, с номерами выборок, связанными с прошлыми наблюдениями процессов биофармацевтического производства.39. The bioreactor system of claim 38, wherein the one or more processors are configured to determine an observation database query point based in part on a sample number associated with a spectral scan vector; and selecting as training data sets of observational data that satisfy one or more relevance criteria with respect to the observational database query point, in part by (i) comparing the spectral scan vector on which the definition of the observational database query point was based with the spectral scan vectors, associated with past observations of biopharmaceutical manufacturing processes, and (ii) comparing the sample number associated with the observation database query point with the sample numbers associated with past observations of biopharmaceutical manufacturing processes.

40. Биореакторная система по п.39, в которой один или более процессоров выполнены с возможностью выбора в качестве обучающих данных наборов данных наблюдений, которые удовлетворяют одному или более критериям релевантности относительно точки запроса базы данных наблюдений, частично путем выбора самых недавних k наборов данных наблюдений для включения в обучающие данные.40. The bioreactor system of claim 39, wherein the one or more processors are configured to select as training data observational data sets that satisfy one or more relevance criteria relative to the observational database query point, in part by selecting the most recent k observational data sets for inclusion in training data.

41. Биореакторная система по любому из пп.37-40, в которой локальная модель представляет собой модель машинного обучения на основе гауссовского процесса.41. The bioreactor system according to any one of claims 37 to 40, wherein the local model is a machine learning model based on a Gaussian process.

42. Биореакторная система по любому из пп.37-41, в которой локальная модель зависит как от спектральных данных, так и от номера выборки данного набора данных наблюдений.42. The bioreactor system according to any one of claims 37 to 41, wherein the local model depends on both the spectral data and the sample number of a given observational data set.

43. Биореакторная система по любому из пп.37-42, в которой один или более процессоров дополнительно выполнены с возможностью использования локальной модели для определения индикатора достоверности, связанного с предсказанным аналитическим измерением процесса биофармацевтического производства.43. The bioreactor system of any one of claims 37 to 42, wherein the one or more processors are further configured to use a local model to determine a confidence indicator associated with a predicted analytical measurement of the biopharmaceutical manufacturing process.

--