KR20210078531A

KR20210078531A - 실시간 예측을 위한 라만 분광 모델의 자동 교정 및 자동 유지 관리

Info

Publication number: KR20210078531A
Application number: KR1020217015045A
Authority: KR
Inventors: 아디티아 툴시안
Original assignee: 암젠 인크
Priority date: 2018-10-23
Filing date: 2019-10-23
Publication date: 2021-06-28
Also published as: CN112912716A; MX2021004510A; BR112021007611A2; IL281977A; CL2021001024A1; JP2022512775A; CA3115296A1; AU2019365102A1; SG11202103232WA; WO2020086635A1; TW202033949A; EP3870957A1; US20220128474A1

Abstract

생물약제학적 공정을 감시 및/또는 제어하는 방법은, 분광 시스템(예를 들어, 라만 분광 시스템)에 의한 공정의 스캐닝에 연관된 질의점을 결정하는 단계, 및 생물약제학적 공정의 지난 관찰에 연관된 관찰 데이터 세트를 포함하는 관찰 데이터베이스에 질의하는 단계를 포함한다. 각 관찰 데이터 세트는 스펙트럼 데이터 및 대응하는 실제 분석 측정값을 포함한다. 관찰 데이터베이스에 질의하는 단계는, 관찰 데이터 세트 중에서 질의점에 대하여 하나 이상의 관련성 기준을 충족하는 데이터 세트를 훈련 데이터로서 선택하는 단계를 포함한다. 이 방법은, 또한, 선택된 훈련 데이터를 이용하여 생물약제학적 공정에 대하여 특정된 로컬 모델을 교정하는 단계를 포함한다. 로컬 모델(예를 들어, 가우시안 공정 모델)은 스펙트럼 데이터 입력을 기반으로 분석 측정값을 예측하도록 훈련된다. 이 방법은, 또한, 로컬 모델을 이용하여 생물약제학적 공정의 분석 측정값을 예측하는 단계를 포함한다.

Description

실시간 예측을 위한 라만 분광 모델의 자동 교정 및 자동 유지 관리

관련 출원에 대한 상호 참조

2018년 10월 23일에 출원된 미국 가특허출원번호 62/749,359, 2019년 4월 12일에 출원된 미국 가특허출원번호 62/833,044, 및 2019년 6월 21일에 출원된 미국 가특허출원번호 62/864,565에 대하여 우선권을 주장하며, 이들 각각의 전문은 본원에 참고로 원용된다.

본원은, 일반적으로 라만 분광 등의 분광 기술을 이용하는 생물약제학적 공정의 감시 및/또는 제어에 관한 것으로서, 더욱 구체적으로는 예측 모델의 온라인 교정 및 유지 관리에 관한 것이다.

생물약제학적 공정에 의해 안정적으로 생물치료학적 단백질을 생성하려면, 일반적으로 바이오리액터가 균형 잡힌 일관된 파라미터(예를 들어, 세포 대사 농도)를 유지해야 하며, 이는 다시 엄격한 공정 감시 및 제어를 요구한다. 이러한 요구를 충족하기 위해, 공정 분석 기술(PAT) 도구가 점점 더 많이 채택되고 있다. pH, 용존 산소, 및 세포 배양 온도의 온라인 감시는, 피드백 제어 시스템에서 사용되어 온 전통적인 PAT 도구의 몇 가지 예이다. 최근 몇 년 동안, 생존 세포 밀도(VCD), 글루코스, 락테이트 및 기타 중요한 세포 대사 산물, 아미노산, 역가, 및 임계 품질 속성 등의 더욱 복잡한 종의 지속적인 감시를 위해 다른 공정-중 프로브(in-process probe)가 연구되고 배치되었다.

라만 분광은 바이오 제조에 있어서 온라인 감시에 널리 사용되는 인기있는 PAT 도구이다. 이것은 화학적 조성 및 분자 구조의 비파괴 분석이 가능한 광학적 방법이다. 라만 분광에서, 입사 레이저 광은 분자 진동 모드로 인해 비탄성적으로 산란된다. 입사 광자와 산란 광자 간의 주파수 차를 "라만 시프트"라고 하며, 라만 시프트의 벡터 대 강도 수준(여기서는 "라만 스펙트럼", "라만 스캔", 또는 "라만 스캔 벡터"라고 함)을 분석하여, 샘플의 화학적 조성과 분자 구조를 결정할 수 있다. 폴리머, 제약, 바이오 제조, 및 바이오 메디컬 분석에서 라만 분광의 응용은, 레이저 샘플링 및 검출기 기술이 개선됨에 따라 지난 30년 동안 급증하였다. 이러한 기술 발전으로 인해, 라만 분광은, 이제 실험실 안팎에서 모두 사용되는 실용적인 분석 기술이다. 바이오 제조에서의 현장 라만 측정값의 응용이 처음 보고된 이후로, 이것은 글루코스, 락테이트, 글루타메이트, 글루타민, 암모니아, VCD 등과 같은 여러 주요 공정 상태의 온라인 실시간 예측을 제공하도록 채택되었다. 이러한 예측은, 통상적으로 분석 기기로부터의 분석 측정값에 기초하여 오프라인 설정으로 구축된 교정 모델 또는 소프트-센서 모델을 기반으로 한다. 부분 최소 제곱(PLS) 방법 및 다중 선형 회귀 모델링 방법은 일반적으로 라만 스펙트럼을 분석 측정값과 연관시키는 데 사용된다. 이들 모델은, 통상적으로 분석 측정값에 대한 교정 전에 라만 스캔의 전처리 필터링을 필요로 한다. 일단 교정 모델이 훈련되면, 교정 모델은 실시간 설정으로 구현되어 공정 감시 및/또는 제어를 위한 현장 측정값을 제공한다.

생물약제학적 공정은 통상적으로 엄격한 제약 및 규정 하에서 동작하므로, 생물약제학적 응용을 위한 라만 모델 교정이 중요하다. 생물약제학적 산업에서 라만 모델 교정을 위한 현재 최첨단 방안은, 먼저 다수의 캠페인 시험을 실행하여 라만 스펙트럼을 분석 측정값(들)과 연관시키는 데 사용되는 관련 데이터를 생성하는 것이다. 예를 들어, 각 캠페인이 실험실 설정에서 2주 내지 4주 동안 지속될 수 있으므로, 이들 시험에는 비용과 시간이 많이 소비된다. 또한, 분석 기기에는 (예를 들어, 실험실 규모의 바이오리액터가 대량의 건강한 생존 세포들을 유지하는 것을 보장하기 위해) 제한된 샘플만 사용될 수 있다. 실제로, 인라인 또는 오프라인 분석 기기로부터 매일 한두 개의 측정값만을 사용하는 것은 드문 일이 아니다. 상황을 더욱 악화시키는 것은, 현재 최선의 관행으로는, 교정 모델이 특정 공정, 바이오리액터 배지의 특정 공식이나 프로파일, 및 특정 동작 조건에 한정된다는 것이다. 따라서, 전술한 변수들 중 어느 것이라도 변경되면, 새로운 데이터를 기반으로 모델을 재교정해야 할 수 있다. 실제로, 라만 모델 교정과 모델 유지관리는, 상당한 자원 할당을 필요로 하며 통상적으로 오프라인 설정에서 수행된다. 모델을 새로운 동작 조건에 적응시키는 방안들(예를 들어, 재귀 방법, 이동-창 방법, 및 시간차 방법)이 제안되었지만, 이러한 방법들은 갑작스러운 공정 변경을 적절하게 처리하지 못할 수 있다.

다수의 분자에 대한 기존의 화학 측정 방법(예를 들어, PLS 모델링)에 기초한 포괄적 라만 모델을 설명하는 많은 공보가 있다. 그러나, 이러한 포괄적 모델에서는, 공정들이 동일하지는 않지만 유사한 배지 제제 및/또는 공정 실행 조건을 사용하는 것을 상정한다. 배지와 공정은 일반적으로 변형이 거의 또는 전혀 없이 플랫폼화된다. 이러한 유형의 포괄적 모델의 단점은, 일단 공정이 표준에서 벗어나거나 또는 훈련 데이터세트가 상이한 분자들 간의 변동(예를 들어, 배지 첨가제, 공정 기간, 및/또는 기타 공정 변경)을 고려하기 위한 노력으로 매우 넓은 공정 범위를 포함하면, 포괄적 모델이 정확도와 정밀도를 잃는다는 점이다. 따라서, 이러한 "포괄적" 모델은 설명된 엄격한 경계 내에서만 포괄적이다. Mehdizaheh et al., Biotechnolo. Prog. 31(4): 1004-1013, 2015; Webster et al., Biotechnol. Prog. 34(3):730-737, 2018을 참조하기 바란다.

"생물약제학적 공정"이라는 용어는, 원하는 재조합 단백질을 생성하기 위한 세포 배양 공정과 같이 생물약제학적 제조에 사용되는 공정을 가리킨다. 세포 배양은, 단백질을 발현하도록 조작된 유기체의 성장 및 유지관리를 지원하는 조건 하에서 바이오리액터와 같은 세포 배양 용기에서 이루어진다. 재조합 단백질의 생성 동안, 세포 배양 공정의 제어 및/또는 유지관리를 위해, 영양소 및 대사 산물(예를 들어, 글루코스, 락테이트, 글루타메이트, 글루타민, 암모니아, 아미노산, Na⁺, K⁺, 및 기타 영양소나 대사 산물)，배지 상태(pH, pCO₂, pO₂, 온도, 삼투압 농도 등)를 포함한, 배지 성분 농도와 같은 공정 파라미터, 및 세포 및/또는 단백질 파라미터(예를 들어, 생존 세포 밀도(VCD), 역가, 세포 상태, 임계 품질 속성 등)를 감시한다.

현재 최고의 산업 실례의 전술한 제한들 중 일부를 해결하기 위해, 본원에 설명된 실시예들은, 라만 분광과 같이 생물약제학적 공정의 분광 분석을 위한 전통적인 기술을 개선하는 시스템 및 방법에 관한 것이다. 특히, "적시 학습"(Just-In-Time Learning; JITL) 플랫폼은, 생물약제학적 응용을 위해 교정 모델(예를 들어, 라만 교정 모델)을 실시간으로 구축하고 유지관리하는 데 사용된다. JITL은 로컬 모델링 및 데이터베이스 샘플링 기술을 기반으로 하는 비선형 모델링 플랫폼이다. 다른 기계-학습 방법과는 달리, JITL은, 일반적으로 사용가능한 모든 관찰이 중앙 데이터베이스에 저장되고 데이터베이스로부터 가장 관련성이 높은 데이터를 사용하여 질의를 기반으로 모델이 실시간으로 동적으로 구축된다고 가정한다. 이는 비교적 간단한 로컬 모델을 사용하여 복잡한 공정 역학을 양호하게 근사화할 수 있게 한다. JITL 프레임워크에서, 라이브러리는, 특정 동작 조건에서 동작하는 단일 공정에 대한 스펙트럼 데이터뿐만 아니라 다른 공정, 다른 배지 프로파일, 및/또는 다른 동작 조건에 대한 데이터도 포함할 수 있다. 이는 특히 과거 생성 이력이 전혀 없거나 거의 없을 수 있는 파이프라인 약물에 대한 모델을 교정 및 유지관리하는 데 필요한 시간을 크게 줄일 수 있다.

JITL 플랫폼은, 새로운 분석 측정값이 이용가능할 때마다 갱신될 수 있는 동적 라이브러리를 유지관리한다. 또한, 로컬 모델이 새로운 공정 조건에 적응하는 것을 보장하기 위해, (예를 들어, 현재 감시되고 있는 제품에 대한) 마지막으로 사용가능한 분석 측정값이 로컬 모델링을 위한 훈련 세트에 항상 포함될 수 있다. 이는 로컬 모델이 새로운 조건에 또는 이력 없는 새로운 제품 라인에 더욱 빠르게 적응할 수 있게 한다. 이러한 방안을 사용하면, 모델 교정 및 모델 유지관리가 모두 자동화될 수 있으며, 종래의 시스템의 일상적인 교정에 연관된 시간과 비용(예를 들어, 재료 및 인건비)을 크게 줄일 수 있다. 또한, 모델 예측에 대한 신뢰도 경계(또는 신뢰도 점수와 같은 기타 신뢰 지표)를 제공하는 능력은 강력한 감시 및 제어 전략을 허용할 수 있다.

일부 실시예에서, 가우시안 공정 모델은 JITL 프레임워크 내에서 로컬 모델링에 사용된다. 가우시안 공정 모델은, 복잡한 비선형 공정 역학을 효율적으로 캡처할 수 있고 거의 모든 공정 변경에 쉽게 적응할 수 있는 강력한 통계 기계-학습 모델이다. PLS, 주성분 회귀(PCR), 및 기타 유형의 회귀 모델과는 대조적으로, 가우시안 공정 모델은, 비모수적 방법이며, 제한된 데이터 세트로부터 라만 스펙트럼과 분석 측정값 간의 복잡한 상관관계를 훨씬 더 많이 캡처할 수 있다. 또한, 가우시안 공정 모델은 일반적으로 라만 스캔의 전처리 필터링을 필요로 하지 않는다. 이에 따라, 일부 실시예에서, 가우시안 공정 모델은 대신 (로그 스케일로) 원시 라만 스캔에서 교정되며, 이는 모델 교정/유지관리 공정에서 많은 단계를 세이브할 수 있다. 또한, 가우시안 공정 모델은, 예측에 대한 신뢰도 경계를 제공하며, 이러한 신뢰도 경계는, PLS 또는 PCR 모델을 사용해서는 취득하기가 매우 어려울 수 있다. 신뢰도 경계는, 분석 기기에 대한 최적의 샘플링 전략을 설계하고/하거나, 예를 들어, 신뢰할 수 없는 예측을 기반으로 변경을 행하는 것을 방지하기 위해 폐쇄 루프 제어(예를 들어, 모델-예측 제어 또는 MPC)를 구현하는 데 특히 유용할 수 있다.

JITL은 비선형 모델링 프레임워크이고 전술한 방안이 최근 분석 측정값으로 동적 라이브러리를 갱신함으로써 일부 적응성을 제공하지만, JITL만으로는 시간에 따라 변하는 공정 조건(예를 들어, 설정점 또는 다른 공정 조건에 대한 갑작스러운 변화)을 고려하기에 충분히 적응하지 못할 수 있다. 특히, JITL을 사용하여 교정되는 로컬 모델은 최근 샘플을 사용하지 못할 수 있다. 예를 들어, 특히 공정 조건에 갑작스러운 변화가 최근에 있는 경우, 최근 샘플은, "공간적" 유사성(예를 들어, 라만 스캔의 유사성)에만 기반하는 유사성 기준을 충족하지 못할 수 있다. (공간적 유사성과 관계없이) 최근 샘플에 의해 제공되는 정보를 더 잘 활용할 수 있고 따라서 시간에 따라 변화하는 공정 변경에 더 잘 적응할 수 있는 수정된 JITL 기술도 본원에서 설명된다. 특히, 모델 교정 및 유지관리를 위한 "적응적" JITL(A-JITL) 및 "시공간적" JITL(ST-JITL) 기술이 본원에서 설명된다.

로컬 모델이 최신 분석 측정으로부터 학습하여 시간에 따라 변하는 조건에 빠르게 적응할 수 있는 실시간 모델 유지관리는 JITL 기술의 성공에 중요할 수 있다. 그러나, 분석 기기/측정에 자주 액세스(예를 들어, 오프라인 샘플의 분석)하는 것은 자원 집약적 경향이 높다. 모델 성능을 과도하게 저하시키지 않으면서 이러한 자원 사용을 최소화하기 위해, 현재 모델 성능을 허용할 수 없거나/신뢰할 수 없다는 결정에 응답하여 시스템이 분석 측정을 스케줄링/트리거하는 성능 기반 모델 유지관리 프로토콜을 구현할 수 있다.

당업자는, 본 명세서에 설명된 도면이 예시의 목적으로 포함되고 본 개시 내용을 제한하지 않는다는 점을 이해할 것이다. 도면은 반드시 축척대로 될 필요가 없으며, 대신 본 개시 내용의 원리를 예시할 때 강조된다. 일부 예에서, 설명된 구현의 다양한 양태는 설명된 구현의 이해를 용이하게 하도록 과장되거나 확대되어 표시될 수 있음을 이해해야 한다. 도면에서, 다양한 도면 전체에 걸친 유사한 참조 문자는 일반적으로 기능적으로 유사하고/하거나 구조적으로 유사한 구성요소를 지칭한다.
도 1은 생물약제학적 공정의 분석 측정값을 예측하는 데 사용될 수 있는 예시적인 라만 분광 시스템의 단순화된 블록도이다.
도 2는 글루코스 농도의 폐쇄 루프 제어를 위한 생물약제학적 공정의 분석 측정값을 예측하는 데 사용될 수 있는 예시적인 라만 분광 시스템의 단순화된 블록도이다.
도 3은 본원에 기술된 라만 분광 시스템의 예시적인 구현을 사용하여 글루코스 농도의 폐쇄 루프 제어에 대한 실험 결과를 도시한다.
도 4는 적시 학습(JITL) 기술을 사용하여 생물약제학적 공정을 분석할 때 발생할 수 있는 예시적인 데이터 흐름을 도시한다.
도 5는 적응적 JITL(A-JITL) 기술을 사용하여 생물약제학적 공정을 분석할 때 발생할 수 있는 예시적인 데이터 흐름을 도시한다.
도 6은 시공간적 JITL(ST-JITL) 기술을 사용하여 생물약제학적 공정을 분석할 때 발생할 수 있는 예시적인 데이터 흐름을 도시한다.
도 7은 생물약제학적 공정을 분석하기 위한 예시적인 방법의 흐름도이다.

위에서 소개되고 아래에서 더 상세히 설명되는 다양한 개념은 임의의 다양한 방식으로 구현될 수 있으며, 설명된 개념은 임의의 특정 구현 방식으로 제한되지 않는다. 구현예는 예시적인 목적으로 제공된다.

도 1은 생물약제학적 공정의 분석 측정값을 예측하는 데 사용될 수 있는 예시적인 라만 분광 시스템(100)의 단순화된 블록도이다. 도 1은 라만 분광 기술을 구현하는 시스템(100)을 도시하고 있지만, 다른 실시예에서, 시스템(100)은, 예를 들어, 근적외선(NIR) 분광과 같이 생물약제학적 공정을 분석하는 데 적합한 다른 분광 기술을 구현할 수 있다는 점을 이해할 수 있다.

시스템(100)은, 바이오리액터(102), 하나 이상의 분석 기기(104), 라만 프로브(108)를 갖는 라만 분석기(106), 컴퓨터(110), 및 네트워크(114)를 통해 컴퓨터(110)에 연결된 데이터베이스 서버(112)를 포함한다. 바이오리액터(102)는, 배지 내에 생물체 및/또는 생물체로부터 유도된 물질(예를 들어, 세포 배양물)을 포함할 수 있는 생물학적 활성 환경을 지원하는 임의의 적합한 용기, 장치, 또는 시스템일 수 있다. 바이오리액터(102)는, 예를 들어, 연구 목적, 임상 사용, 상업적 판매, 또는 기타 배포를 위해 세포 배양에 의해 발현되는 재조합 단백질을 포함할 수 있다. 감시되는 생물약제학적 공정에 따라, 배지는, 특정 유체(예를 들어, "브로스"(broth)) 및 특정 영양소를 포함할 수 있으며, 목표 pH 수준 또는 범위, 목표 온도 또는 온도 범위 등의 목표 배지 상태 파라미터를 가질 수 있다. 배지는, 또한, 유기체, 및 대사 산물 및 재조합 단백질과 같이 유기체로부터 유도된 물질을 포함할 수 있다. 총괄하여, 본원에서는 배지의 내용물과 파라미터/특성을 "배지 프로파일"이라고 한다.

분석 기기(들)(104)는, 바이오리액터 내의 생물학적 활성 내용물로부터 취한 샘플에 기초하여 그 바이오리액터(102) 내의 생물학적 활성 내용물의 하나 이상의 특성 또는 파라미터를 측정하도록 구성된, 임의의 인라인, 앳-라인, 및/또는 오프라인 기기 또는 기기들일 수 있다. 예를 들어, 분석 기기(들)(104)는, 영양분 및/또는 대사 산물 수준(예를 들어, 글루코스, 락테이트, 글루타메이트, 글루타민, 암모니아, 아미노산, Na⁺, K⁺ 등)과 같은 하나 이상의 배지 성분 농도 및 배지 상태 파라미터(pH, pCO₂, pO₂, 온도, 삼투압 농도 등)를 측정할 수 있다. 추가로 또는 대안으로, 분석 기기(들)(104)는, 삼투압 농도, 생존 세포 밀도(VCD), 역가, 임계 품질 속성, 세포 상태(예를 들어, 세포 주기)，및/또는 바이오리액터(102)의 내용물에 연관된 기타 특성 또는 파라미터를 측정할 수 있다. 보다 구체적인 일례로, 샘플을 채취하고, 회전시키고, 다수의 컬럼에 의해 정제하고, 분석 기기들(104)(예를 들어, 고성능 액체 크로마토그래피(HPLC) 또는 초고성능 액체 크로마토그래피(UPLC) 기기) 중 제1 분석 기기, 이어서 분석 기기들(104)(예를 들어, 질량 분석계) 중 제2 분석 기기에 통과시킬 수 있으며, 제1 및 제2 분석 기기(104)는 모두 분석 측정을 제공한다. 분석 기구(들)(104) 중 하나, 일부, 또는 전부는 파괴 분석 기술을 사용할 수 있다.

라만 분석기(106)는 라만 프로브(108)(또는, 일부 구현에서, 다수의 라만 프로브)에 결합된 분광기 장치를 포함할 수 있다. 라만 분석기(106)는, 광섬유 케이블을 통해 레이저 광을 라만 프로브(108)로 전달하는 레이저 광원을 포함할 수 있으며, 또한, 예를 들어, 광섬유 케이블의 다른 채널을 통해 라만 프로브(108)로부터 수신되는 신호를 기록하기 위해 전하 결합 장치(CCD) 또는 다른 적절한 카메라/기록 장치를 포함할 수 있다. 대안으로, 레이저 광원은 라만 프로브(108) 자체 내에 통합될 수 있다. 라만 프로브(108)는 침지 프로브 또는 다른 임의의 적절한 유형의 프로브(예를 들어, 반사 프로브 및 투과 프로브)일 수 있다.

총괄적으로, 라만 분석기(106) 및 라만 프로브(108)는, 생물약제학적 공정의 분자 "지문"을 여기, 관찰, 및 기록함으로써 바이오리액터(102) 내에서의 생물약제학적 공정 동안 생물학적 활성 내용물을 비파괴적으로 스캐닝하도록 구성된다. 분자 지문은, 바이오리액터 내용물이 라만 프로브(108)에 의해 전달되는 레이저 광에 의해 여기될 때 생물약제학적 공정 내에서 생물학적 활성 내용물 내의 분자의 진동, 회전, 및/또는 기타 저주파 모드에 해당한다. 이러한 스캐닝 공정의 결과로, 라만 분석기(106)는, 강도를 라만 시프트(주파수)의 함수로서 각각 나타내는 하나 이상의 라만 스캔 벡터를 생성한다.

컴퓨터(110)는, 라만 분석기(106) 및 분석 기기(들)(104)에 결합되고, 일반적으로 생물약제학적 공정의 하나 이상의 분석 측정을 예측하기 위해 라만 분석기(106)에 의해 생성되는 라만 스캔 벡터를 분석하도록 구성된다. 예를 들어, 컴퓨터(110)는, 분석 기기(들)(104)에 의해 수행되는 동일한 유형(들)의 분석 측정(들)을 예측하기 위해 라만 스캔 벡터를 분석할 수 있다. 더욱 구체적인 일례로, 컴퓨터(110)는 글루코스 농도를 예측할 수 있는 반면, 분석 기기(들)(104)는 글루코스 농도를 실제로 측정할 수 있다. 그러나, 분석 기기(들)(104)는, (예를 들어, 생물약제학적 공정으로부터의 배지의 제한된 양으로 인해 및/또는 이러한 측정에 드는 더욱 많은 제조 비용 등으로 인해) 바이오리액터(102)로부터 추출된 샘플에 대해 상대적으로 드물게 "오프라인" 분석 측정을 수행할 수 있지만, 컴퓨터(110)는 분석 측정의 상대적으로 빈번한 "온라인" 예측을 실시간으로 행할 수 있다. 컴퓨터(110)는, 또한, 분석 기기(들)(104)에 의해 행해지는 분석 측정을 네트워크(114)를 통해 데이터베이스 서버(112)로 전송하도록 구성될 수 있으며, 이는 아래에서 더 상세히 논의된다.

도 1에 도시된 예시적인 실시예에서, 컴퓨터(110)는, 처리 유닛(120), 네트워크 인터페이스(122), 디스플레이(124), 사용자 입력 장치(126), 및 메모리(128)를 포함한다. 처리 유닛(120)은 하나 이상의 프로세서를 포함하며, 각 프로세서는, 메모리(128)에 저장된 소프트웨어 명령어를 실행하여 본원에 설명되는 바와 같은 컴퓨터(110)의 기능들 중 일부 또는 전부를 실행하는 프로그래머블 마이크로프로세서일 수 있다. 대안으로, 처리 유닛(120)의 프로세서들 중 하나, 일부, 또는 전부는, 다른 유형의 프로세서(예를 들어, 주문형 집적 회로(ASIC), 필드-프로그래머블 게이트 어레이(FPGA) 등)일 수 있고, 본원에 설명된 바와 같은 컴퓨터(110)의 기능은 대신 하드웨어에서 부분적으로 또는 전체적으로 구현될 수 있다. 메모리(128)는 휘발성 및/또는 비휘발성 메모리를 포함하는 하나 이상의 물리적 메모리 장치 또는 유닛을 포함할 수 있다. ROM, SSD, HDD 등과 같은 임의의 적절한 메모리 유형 또는 유형들을 사용할 수 있다.

네트워크 인터페이스(122)는, 하나 이상의 통신 프로토콜을 사용하여 네트워크(114)를 통해 통신하도록 구성된 임의의 적절한 하드웨어(예를 들어, 프론트-엔드 송신기 및 수신기 하드웨어), 펌웨어, 및/또는 소프트웨어를 포함할 수 있다. 예를 들어, 네트워크 인터페이스(122)는 이더넷 인터페이스이거나 이를 포함할 수 있다. 네트워크(114)는, 단일 통신 네트워크일 수 있거나, 하나 이상의 유형의 다수의 통신 네트워크(예를 들어, 하나 이상의 유선 및/또는 무선 LAN, 및/또는 예를 들어, 인터넷이나 인트라넷 등의 하나 이상의 유선 및/또는 무선 WAN)를 포함할 수 있다.

디스플레이(124)는, 사용자에게 정보를 제시하기 위해 임의의 적절한 디스플레이 기술(예를 들어, LED, OLED, LCD 등)을 사용할 수 있고, 사용자 입력 장치(126)는 키보드 또는 다른 임의의 적절한 입력 장치일 수 있다. 일부 실시예에서, 디스플레이(124) 및 사용자 입력 장치(126)는 단일 장치(예를 들어, 터치 스크린 디스플레이) 내에 통합된다. 일반적으로, 디스플레이(124) 및 사용자 입력 장치(126)는, 예를 들어, 시스템(100) 내에서 실행되는 다양한 공정을 수동으로 모니터링하는 것과 같은 목적을 위해 사용자가 컴퓨터(110)에 의해 제공되는 그래픽 유저 인터페이스(GUI)와 상호작용할 수 있게 하도록 결합될 수 있다. 그러나, 일부 실시예에서, 컴퓨터(110)는 디스플레이(124) 및/또는 사용자 입력 장치(126)를 포함하지 않거나, 디스플레이(124)와 사용자 입력 장치(126) 중 하나 또는 모두는, (예를 들어, 폐쇄 루프 제어를 구현하는 제어 시스템으로 예측이 직접 전송되는 일부 실시예에서), 컴퓨터(110)에 통신가능하게 결합된 다른 컴퓨터 또는 시스템에 포함된다.

메모리(128)는 적시 학습(JITL) 예측기 애플리케이션(130)을 포함하는 하나 이상의 소프트웨어 애플리케이션의 명령어를 저장한다. JITL 예측기 애플리케이션(130)은, 처리 유닛(120)에 의해 실행될 때, 로컬 모델(132)을 교정하고 로컬 모델(132)을 사용하여 라만 분석기(106)에 의해 생성되는 라만 스캔 벡터를 분석함으로써, 일반적으로 바이오리액터(102)에서 생물약제학적 공정의 분석 측정을 예측하도록 구성된다. 라만 분석기(106)가 이러한 스캔 벡터를 생성하는 주파수에 따라, JITL 예측기 애플리케이션(130)은 분석 측정을 주기적인 또는 다른 적절한 시간 기반으로 예측할 수 있다. 라만 분석기(106)는 스캔 벡터가 생성되는 시기를 스스로 제어할 수 있거나, 컴퓨터(110)는 커맨드를 라만 분석기(106)에 전송함으로써 스캔 벡터의 생성을 트리거할 수 있다. JITL 예측기 애플리케이션(130)은, 각 스캔 벡터에 기초하여 단일 유형의 분석 측정만(예를 들어, 글루코스 농도만)을 예측할 수 있거나, 각 스캔 벡터에 기초하여 다수의 유형의 분석 측정(예를 들어, 글루코스 농도 및 생존 세포 밀도)을 예측할 수 있다. 다른 실시예에서, 다수의 상이한 JITL 예측기 애플리케이션(예를 들어, JITL 예측기 애플리케이션(130)과 각각 유사함) 각각은, 동일한 스캔 벡터에 기초하여 상이한 유형의 분석 측정을 예측하기 위해 상이한 로컬 모델을 생성한다. JITL 예측기 애플리케이션(130) 및 로컬 모델(132)은 아래에서 더 상세히 논의된다.

데이터베이스 서버(112)는, 컴퓨터(110)로부터 멀리 떨어져 있을 수 있으며 (예를 들어, 로컬 설정이 바이오리액터(102), 분석 기기(들)(104), 라만 프로브(108)를 갖는 라만 분석기(106), 및 컴퓨터(110)만을 포함할 수 있음), 도 1에 도시된 바와 같이, 지난 관찰에 연관된 관찰 데이터 세트를 저장하는 관찰 데이터베이스(136)를 포함하거나 이러한 관찰 데이터베이스에 통신가능하게 결합될 수 있다. 관찰 데이터베이스(136)의 각 관찰 데이터 세트는, 스펙트럼 데이터(예를 들어, 라만 분석기(106)에 의해 생성된 종류의 하나 이상의 라만 스캔 벡터) 및 하나 이상의 대응하는 분석 측정(예를 들어, 분석 기기(들)(104)에 의해 생성된 종류(들)의 하나 이상의 측정)을 포함할 수 있다. 실시예 및/또는 시나리오에 따라, 지난 관찰은, 다수의 상이한 생물약제학적 공정에 대해, 다수의 상이한 동작 조건(예를 들어, 상이한 대사 산물 농도 설정점) 및/또는 다수의 상이한 배지 프로파일(예를 들어, 상이한 유체, 영양분, pH 수준, 온도 등)을 사용하여 수집되었을 수 있다. 일반적으로, 관찰 데이터베이스(136)가 매우 다양한 동작 조건, 및 배지 프로파일을 나타내는 것이 바람직할 수 있다. 그러나 관찰 데이터베이스(136)는, (더 후술하는 바와 같이) 실시예에 따라, 이러한 공정, 세포주, 단백질, 대사 산물, 동작 조건, 및/또는 배지 프로파일을 나타내는 정보를 저장할 수도 있고 저장하지 않을 수도 있다. 일부 실시예에서, 데이터베이스 서버(112)는, 네트워크(114) 및/또는 다른 네트워크를 통해 컴퓨터(110)와 유사한 다수의 다른 컴퓨터에 원격으로 결합된다. 이것은 관찰 데이터베이스(136)에 저장하기 위한 더 많은 수의 관찰 데이터 세트를 수집하기 위해 바람직할 수 있다. 그러나, 다른 실시예에서, 시스템(100)은 데이터베이스 서버(112)를 포함하지 않으며, 컴퓨터(110)는 로컬 관찰 데이터베이스(136)에 직접 액세스한다.

도 1에 도시된 것 대신 다른 구성 및/또는 구성요소가 사용될 수 있다는 점을 이해할 수 있다. 예를 들어, 다른 컴퓨터(도 1에 도시되지 않음)는 분석 기기(들)(104)에 의해 제공된 측정을 데이터베이스 서버(112)에 전송할 수 있고, 하나 이상의 추가 컴퓨팅 장치 또는 시스템이 컴퓨터(110)와 데이터베이스 서버(112) 사이에서 중개자 역할을 할 수 있으며, 본원에서 설명되는 바와 같은 컴퓨터(110)의 기능 중 일부 또는 전부가 대신 데이터베이스 서버(112) 및/또는 다른 원격 서버에 의해 원격으로 수행될 수 있는 등의 경우가 가능하다.

시스템(100)의 런타임 동작 동안, 라만 분석기(106) 및 라만 프로브(108)는, 바이오리액터(102)에서 생물약제학적 공정을 스캐닝(즉, 생물약제학적 공정을 위한 라만 스캔 벡터를 생성)하는 데 사용되며, 이어서 라만 스캔 벡터(들)는 라만 분석기(106)로부터 컴퓨터(110)로 전송된다. 라만 분석기(106) 및 라만 프로브(108)는, 분당 1회 또는 시간당 1회 등과 같은 감시 기간의 미리 결정된 스케줄에 따라 (JITL 예측기 애플리케이션(130)에 의해 이루어진) 예측을 지원하기 위해 스캔 벡터를 제공할 수 있다. 대안으로, 예측은, 불규칙한 간격으로(예를 들어, 측정된 pH 수준 및/또는 온도의 변화와 같은 소정의 공정 기반 트리거에 응답하여) 행해질 수 있으며, 이에 따라 각 감시 기간은 가변적이거나 불확실한 기간을 갖는다. 실시예에 따라, 라만 분석기(106)는, 로컬 모델(132)이 얼마나 많은 스캔 벡터를 단일 예측에 대한 입력으로서 수용하는지에 따라, 감시 기간당 컴퓨터(110)에 하나의 스캔 벡터만을 전송할 수 있거나 감시 기간당 컴퓨터(110)에 다수의 스캔 벡터를 전송할 수 있다. 다수의 스캔 벡터는, 예를 들어, 로컬 모델(132)의 예측 정확도를 개선할 수 있다.

JITL 예측기 애플리케이션(130)의 질의 유닛(140)은, 단일 감시 기간 동안 수신되는 스캔 벡터(들)를 사용하여 관찰 데이터베이스(136)에 질의하는 데 사용될 질의점을 생성한다. 일부 실시예에서, 질의점(즉, 질의점을 정의하는 데이터)는, 라만 분석기(106)로부터 수신된 라만 스캔 벡터(들)를 나타내는 데이터(예를 들어, 각 스캔 벡터를 포함하는 강도/주파수 튜플)만을 포함한다. 다른 실시예에서, 질의점은 하나 이상의 다른 유형 정보도 포함한다. 예를 들어, 질의점은, 또한, 공정에 연관된 동작 조건을 나타내는 데이터(예를 들어, 제어 시스템의 대사 산물 농도 설정점, 또는 라만 분석기(106) 또는 라만 프로브(108)에 연관된 레이저 광 파장 및/또는 강도 등)，생물약제학적 공정 배지에 대한 배지 프로파일을 나타내는 데이터(예를 들어, 유체 유형, 영양분 유형 또는 농도, pH 수준 등)，및/또는 기타 데이터(예를 들어, 생물약제학적 공정에 연관된 세포주, 단백질, 또는 대사 산물의 지표)를 포함할 수 있다.

일반적으로, 질의점은, 로컬 모델(132)이 입력으로서(즉, 로컬 모델(132)의 특징 세트로서) 사용하는 동일한 벡터, 파라미터, 및/또는 분류를 나타내는 데이터를 포함할 수 있다. 특징 세트에 대해 다양한 데이터 유형을 사용함으로써, 로컬 모델(132)에 의해 수행되는 분석 측정 예측의 정확도를 개선할 수 있다. 그러나, 관찰 데이터베이스(136)의 각 관찰 데이터 세트는 일반적으로 특징 세트와 동일한 벡터, 파라미터, 및/또는 분류를 포함해야 하기 때문에, 하나 이상의 라만 스캔 벡터(들)만을 포함하도록 질의점 및 로컬 모델(132)의 특징 세트/입력을 제한하는 것이 바람직할 수 있다. 이것은 관찰 데이터베이스(136)에 저장하기 위한 더 많은 정보의 수집을 허용하고/하거나 그 정보의 수집을 단순화하는 것과 같은 다양한 이점을 제공할 수 있다. 예를 들어, 라만 스캔 벡터만 사용하는 경우, 관찰 데이터 세트는, 데이터 세트를 수집할 때 존재했던 공정, 세포주, 단백질, 대사 산물, 동작 조건, 및/또는 배지 프로파일이 거의 알려지지 않거나 전혀 알려지지 않은 경우에도, 관찰 데이터베이스(136)에 포함될 수 있다.

이어서, 질의 유닛(140)은 생성된 질의점을 사용하여 관찰 데이터베이스(136)에 질의한다. 도 1의 예시적인 실시예에서, 질의 유닛(140)은, 이를, 네트워크 인터페이스(122)가 네트워크(114)를 통해 데이터베이스 서버(112)에 (예를 들어, 질의 메시지 내의) 질의점을 전송하게 하고 이어서 데이터베이스 서버(112)가 관찰 데이터베이스(136)로부터 적절한 데이터를 검색하게 함으로써 달성한다. 그러나, 관찰 데이터베이스(136)가 대신 컴퓨터(110)에 포함되는 (또는 통신가능하게 결합된 메모리에 포함되는) 실시예에서, 질의 유닛(140)은 대신 관찰 데이터베이스(136)에 더 직접적으로 질의할 수 있다. 설명의 편의를 위해, 도 1의 나머지 설명은, 도 1에 도시된 바와 같이 관찰 데이터베이스(136)가 데이터베이스 서버(112)에 결합되어 있다고 가정한다. 그러나, 당업자는, 관찰 데이터베이스(136)가 대신 컴퓨터(110)에 대하여 로컬이거나 시스템 아키텍처 내의 다른 적절한 위치에 있다면 통신 경로가 어떻게 다를 수 있는지를 쉽게 이해할 것이다.

데이터베이스 서버(112)는, 질의점을 수신한 후, 질의점을 사용하여 로컬 모델(132)에 대한 훈련 데이터로서 유용할 관련성 있는 관찰 데이터 세트를 관찰 데이터베이스(136)로부터 선택한다. 데이터베이스 서버(112)는, 실시예에 따라 어떤 관찰 데이터 세트가 "관련성 있는지"를 식별하기 위해 임의의 적절한 관련성 기준을 적용할 수 있다. 일 실시예에서, 예를 들어, 질의점은 단일 라만 스캔 벡터를 포함하고, 데이터베이스 서버(112)는, 그 관찰 데이터 세트의 라만 스캔 벡터와 질의점의 라만 스캔 벡터 사이의 유클리드 거리를 계산함으로써 주어진 관찰 데이터 세트가 관련성이 있는지를 결정한다. 유클리드 거리가 미리 결정된 임계값 미만(또는 질의점 스캔 벡터와 모든 관찰 데이터 세트 스캔 벡터 사이의 평균 유클리드 거리를 기반으로 계산된 임계값 등의 가변 임계값 미만)이면, 관찰 데이터 세트가 관련성 있는 관찰 데이터 세트로서 식별된다. 당업자는, 이러한 방안이 질의점(및 각 관찰 데이터 세트)이 다수의 라만 스캔 벡터를 포함하는 실시예로 어떻게 쉽게 확장될 수 있는지를 이해할 것이다. 일부 상황에서는, 유클리드 거리를 사용하여 관련성 있는 관찰 데이터 세트를 선택하는 것이 차선 기술일 수 있다. 그러나, 로컬 모델(132)이 (후술하는 바와 같이) 가우시안 공정 모델이면, 유클리드 거리를 관련성 기준으로서 사용하는 것이 특히 유리할 수 있다. 이는, 방사상 기반 함수 또는 제곱 지수 커널을 이용한 가우시안 공정 모델 자체가 유클리드 거리를 기반으로 하기 때문이다. 그럼에도 불구하고, 다른 실시예에서는, 다른 관련성 기준(예를 들어, 각도 기반 또는 상관관계 기반 기준 등)이 적용될 수 있다. 로컬 모델(132)이 다른 정보도 입력/특징 세트(예를 들어, 동작 조건, 배지 프로파일, 공정 데이터, 세포주 정보, 단백질 정보, 및/또는 대사 산물 정보 등)로서 수용하는 실시예에서는, 더 복잡한 기술을 이용하여 "관련성 있는" 관찰 데이터 세트를 식별할 수 있음을 이해할 수 있다. 일부 실시예에서, 데이터베이스 서버(112)는, 단일 질의에 응답하여 미리 결정된 수의 관련성 있는 관찰 데이터 세트만을 선택하거나, 관찰 데이터베이스(136) 내의 모든 데이터 세트의 상대적으로 작은 서브세트만이 검색되는 것을 보장하기 위해 최대 허용 개수 이하의 관련성 있는 관찰 데이터 세트를 선택한다. 그러나, 다른 실시예에서, 데이터베이스 서버(112)는, 관련성 기준이 각각의 이러한 데이터 세트에 대해 충족되는 한 임의의 수의 관련성 있는 관찰 데이터 세트를 선택할 수 있다.

일부 실시예에서, (예를 들어, 도 5와 도 6을 참조하여) 아래에서 더 상세히 설명되는 바와 같이, 관련성 있는 관찰 데이터 세트는, "공간적" 의미에서의 질의점에 대한 관련성(예를 들어, 라만 스캔 벡터의 유사성) 뿐만 아니라 시간적 의미에서의 관련성(예를 들어, 공간적 유사성에 관계없이 어떠한 데이터 세트가 가장 최근 것인지)에도 기초하여 선택된다. 이들 기술은, 더 최근의 분석 측정이 다른 설정점 등에 해당하는 경우에도 그러한 최근 측정이 유용한 정보를 제공할 수 있다는 사실을 더 잘 활용할 수 있다.

데이터베이스 서버(112)는, 관련성 있는 관찰 데이터 세트들(각각은 현재 감시되고 있는 바이오리액터(102)의 생물약제학적 공정과 동일한 공정 조건에 대응할 수도 있고 대응하지 않을 수도 있음)을 식별한 후, 이러한 데이터 세트들(예를 들어, 라만 스캔 벡터 및 대응하는 분석 측정(들)）을 검색하고, 검색된 데이터 세트들을 네트워크(114)를 통해 컴퓨터(110)로 전송한다. 이어서, 질의 유닛(140)은 관련성 있는 데이터 세트를 로컬 모델 생성기(142)에 전달할 수 있고, 로컬 모델 생성기(142)는 관련성 있는 데이터 세트를 훈련 데이터로서 사용하여 로컬 모델(132)을 교정할 수 있다. 즉, 로컬 모델 생성기(142)는, 각 관찰 데이터 세트에 연관된 라만 스캔 벡터(및 가능하면 기타 데이터)를 특징 세트로서 사용하고, 동일한 관찰 데이터 세트에 연관된 분석 측정(들)을 해당 특정 세트에 대한 라벨로서 사용한다.

일부 실시예에서, 전술한 바와 같이, 로컬 모델 생성기(142)는, 복잡한 비선형 공정 역학을 효율적으로 캡처하고 사실상 임의의 공정 변화에 쉽게 적응하기 위해 가우시안 공정 모델을 구축한다. PLS 및 PCR 모델과는 달리, 가우시안 공정 모델은, 비모수적 방법을 사용하며, 매우 제한된 수의 훈련 샘플을 사용하는 경우에도 라만 스캔 벡터와 분석 측정 간의 복잡한 비선형 상관관계를 훨씬 더 많이 캡처할 수 있다. 이는, 새로운 제품 또는 공정이 관찰 데이터베이스(136)의 제한된 수의 데이터 세트에만 해당하는 시나리오에서 특히 중요할 수 있다. 이러한 시나리오에서, 가우시안 공정 모델은, 일반적으로 데이터베이스 서버(112)가 관찰 데이터베이스(136)로부터 선택하는 다른 관련성 있는 데이터 세트와 함께 그러한 제한된 데이터 세트로부터 대부분의 정보를 추출할 수 있다. 그러나, 다른 실시예에서, 로컬 모델 생성기(142)는, 훈련 시간이 감시 기간의 원하는 최소 기간을 초과하지 않는 한 다른 임의의 적절한 유형의 기계-학습 모델(예를 들어, 재귀 신경망, 콘볼루션 신경망 등)을 대신 구축할 수 있다. 로컬 모델 생성기(142)는, 또한, 로컬 모델(132)이 신뢰도 경계, 또는 예측 신뢰의 일부 다른 적절한 표지(예를 들어, 신뢰 점수)를 출력할 수 있도록 로컬 모델(132)을 구축할 수 있다. 적어도 PLS 및 PCR 모델에 비해, 가우시안 공정 모델은 분석 측정 예측에 대한 신뢰도 경계를 제공하는 데 특히 적합하다. PLS 및 PCR 모델에 비해 가우시안 공정 모델의 다양한 장점을 설명하였지만, 일부 실시예에서는 로컬 모델 생성기(142)가 PLS 또는 PCR 모델링 방법을 사용하여 로컬 모델(132)을 구축할 수 있음을 이해할 수 있다.

로컬 모델 생성기(142)는 온라인 실시간 방식으로 로컬 모델(132)을 구축할 수 있으며, 이에 따라 예측 유닛(144)은, 훈련된 로컬 모델(132)을 사용하여, 질의 유닛(140)이 질의점을 생성하기 위해 사용한 동일한 라만 스캔 벡터(들)를 처리함으로써 생물약제학적 공정의 하나 이상의 분석 측정을 예측할 수 있다. 실제로, 일부 실시예에서, 질의 유닛(140)은 새로운 질의를 수행할 수 있고, 로컬 모델 생성기(142)는, 라만 분석기(106)가 새로운 라만 스캔 벡터(또는 라만 스캔 벡터들의 새로운 세트)를 컴퓨터(10)에 제공할 때마다 새로운 버전의 로컬 모델(132)을 생성할 수 있다. 그러나, 다른 실시예에서, 질의 유닛(140)은, 10개의 예측/감시 기간마다 한 번 또는 100개의 예측/감시 시간마다 한 번 등과 같이 덜 빈번하게 새로운 질의를 수행한다(그리고 로컬 모델 생성기(142)는 로컬 모델(132)의 새로운 버전을 생성한다).

데이터베이스 유지관리 유닛(146)은, 또한, 분석 기기(들)(104)가 라만 분석기(106)의 감시 기간보다 훨씬 낮은 빈도(예를 들어, 하루에 단 한 번 또는 두 번 등)로 하나 이상의 실제 분석 측정값을 주기적으로 수집하게 할 수 있다. 분석 기기(들)(104)에 의한 측정값(들)은 일부 실시예에서 파괴적일 수 있으며, 바이오리액터(102)의 공정으로부터 샘플을 영구적으로 제거해야 한다. 데이터베이스 유지관리 유닛(146)이 분석 기기(들)(104)로 하여금 실제 분석 측정값(들)을 수집하고 제공하게 하는 시점에 또는 그 근방에, 데이터베이스 유지관리 유닛(146)은 라만 분석기(106)가 하나 이상의 라만 스캔 벡터도 제공하게 할 수 있다. 이어서, 데이터베이스 유지관리 유닛(146)은, 네트워크 인터페이스(122)가 관찰 데이터베이스(136)에 새로운 관찰 데이터 세트로서 저장하기 위해 네트워크(114)를 통해 데이터베이스 서버(112)에 라만 스캔 벡터(들) 및 대응하는 실제 분석 측정값(들)을 전송하게 할 수 있다. 관찰 데이터베이스(132)는 실시예에 따라 변할 수 있는 임의의 적절한 타이밍에 따라 갱신될 수 있다. 예를 들어, 분석 기기(들)(104)가 샘플을 측정하는 몇 초 내에 실제 분석 측정값(들)을 출력하는 경우, 관찰 데이터베이스(132)는 거의 샘플이 수집되는 즉시 새로운 측정값으로서 갱신될 수 있다. 그러나, 소정의 다른 실시예에서, 실제 분석 측정값은 분석 기기(들)(104) 중 하나 이상에 의한 처리의 분, 시간, 또는 심지어 일(days)의 결과일 수 있으며, 이 경우 관찰 데이터베이스(132)는 이러한 처리가 완료되었을 때까지 갱신되지 않는다. 또 다른 실시예에서, 분석 기기들(104) 중 상이한 분석 기기들이 각자의 측정을 완료함에 따라, 새로운 관찰 데이터 세트가 증분 방식으로 관찰 데이터베이스(132)에 추가될 수 있다.

따라서, 관찰 데이터베이스(136)는, 로컬 모델 생성기(142)가 모델 훈련을 위해 사용할 수 있는 지난 관찰의 "동적 라이브러리"를 제공한다. 일부 실시예에서, 최신 분석 측정값(들)은 항상 관찰 데이터베이스(136)에 추가되고, 로컬 모델 생성기(142)는, 로컬 모델(132)을 교정할 때 관찰 데이터베이스(136)에서 가장 최근의 관찰 데이터 세트(들)를 항상 사용할 수 있다. 이것은 로컬 모델(132)이 최근 과거로부터의 공정 정보를 인코딩하고 새로운 조건에 신속하게 적응하거나 이력이 없는 새로운 공정 조건에 신속하게 적응할 수 있게 한다. 또한, 로컬 모델(132)의 교정과 유지관리 모두가 자동화될 수 있다. 일부 실시예에서, 로컬 모델(132)의 적응성은, 예를 들어, A-JITL 및 ST-JITL 기술과 관련하여 아래에서 논의되는 바와 같이 더욱 향상된다.

일부 실시예에서, 데이터베이스 유지관리 유닛(146)은, 분석 기기(들)(104)가 현재 모델 성능과 같이 일부 다른 시간 기반 또는 조건에 따라 실제 분석 측정값(들)을 수집하고 제공하게 할 수 있다. 예를 들어, 로컬 모델(132)이 신뢰 구간(예를 들어, 실제/측정값이 속할 95%의 확률 또는 신뢰도가 있는 예측된 값 주변의 값 범위) 또는 기타 일부 신뢰 지표를 예측(예를 들어, 로컬 모델(132)이 가우시안 공정 모델인 경우)함께 출력한다면 그리고 신뢰 지표가 특히 신뢰할 수 없는 예측을 나타낸다면(예를 들어, 구간/범위가 임계 폭/범위를 초과하는 경우 등), 데이터베이스 유지관리 유닛(146)은 하나 이상의 실제 분석 측정값의 수집을 트리거할 수 있다. 더욱 구체적인 일례로, 데이터베이스 유지관리 유닛(146)은, 95% 신뢰 구간이 미리 정의된 임계값을 초과한다는 결정에 응답하여 분석 측정값(들)의 수집을 트리거할 수 있다. 분석 측정의 최적의 스케줄링은 아래에서 추가로 자세히 설명한다. 측정(들)이 이루어진 후, 데이터베이스 유지관리 유닛(146)은, 라만 분석기(106)가 하나 이상의 라만 스캔 벡터를 생성하게 하고, 네트워크 인터페이스(122)가 실제 분석 측정값(들) 및 대응하는 라만 스캔 벡터(들)를 (예를 들어, 전술한 방식으로) 관찰 데이터베이스(132)에 새로운 관찰 데이터 세트로서 저장하기 위해 데이터베이스 서버(112)에 제공하게 한다. 이어서, 로컬 모델 생성기(142)는, 로컬 모델(132)을 교정할 때, 적절한 경우(예를 들어, 현재 질의에 대한 관련성에 따라 또는 실시예가 항상 가장 최근의 관찰 데이터 세트를 사용하는지에 따라) 이러한 최신 관찰 데이터 세트를 이용할 수 있다.

교정 및 유지관리가 완전히 자동화된 로컬 모델을 사용하여 공정을 지속적으로 그리고 실시간으로 감시하기 위해, 전술한 공정들 중 일부 또는 전부를 바이오리액터에서 생물약제학적 공정의 수명 동안 여러 번 반복할 수 있다. 분석 측정값(들)은 실시예 및/또는 시나리오에 따라 다양한 목적으로 예측될 수 있다. 예를 들어, 소정의 파라미터를 품질 제어 공정의 일부로서 감시(예를 들어, 예측)하여 공정이 관련 규정을 여전히 준수함을 보장할 수 있다. 다른 예로서, 폐쇄 루프 제어 시스템에서 피드백을 제공하기 위해 하나 이상의 파라미터를 감시/예측할 수 있다. 예를 들어, 도 2는, 시스템(100)과 유사하지만 생물약제학적 공정에서의 글루코스 농도를 제어하려는 (즉, 일부 허용가능한 허용 오차 내에서 예측된 글루코스 농도를 원하는 설정점과 일치시키려는) 시스템(150)을 도시한다. 다른 실시예에서, 글루코스 수준 이외의 공정 파라미터를 제어하거나 하나 이상의 다른 공정 파라미터(예를 들어, 락테이트 수준)의 예측에 기초하여 글루코스 수준을 제어하기 위해 시스템(150)을 대신 (또는 또한) 사용할 수 있다는 점을 이해할 수 있다. 도 2에서, 동일한 참조 번호는 도 1에서 대응하는 구성요소를 나타내는 데 사용된다. 예를 들어, 도 2의 JITL 예측기 애플리케이션(130)은 도 1의 JITL 예측기 애플리케이션(130)과 동일할 수 있다(명확성을 위해, JITL 예측기 애플리케이션(130)의 다양한 유닛이 도 2에는 도시되지 않는다).

도 2에 도시된 바와 같이, 시스템(150) 내에서, 메모리(128)는 제어 유닛(152)도 저장한다. 제어 유닛(152)은, 글루코스 펌프(154)를 제어하도록, 즉, 글루코스 펌프(154)가 바이오리액터(102) 내의 생물약제학적 공정에 추가 글루코스를 선택적으로 도입시키도록 구성된다. 제어 유닛(152)은, 예를 들어, 처리 유닛(120)에 의해 실행되는 소프트웨어 명령어 및/또는 적절한 펌웨어 및/또는 하드웨어를 포함할 수 있다. 일부 실시예에서, 제어 유닛(152)은 폐쇄 루프 아키텍처에서 글루코스 농도를 입력으로서 사용하여 모델 예측 제어(MPC) 기술을 구현한다. 로컬 모델(132)이 각각의 예측과 함께 신뢰도 경계 또는 다른 신뢰 지표를 제공하는 실시예에서(예를 들어, 로컬 모델(132)이 가우시안 공정 모델인 소정의 실시예에서), 제어 유닛(152)은 신뢰 지표도 입력으로서 수용할 수 있다. 예를 들어, 제어 유닛(152)은, 충분히 높은 신뢰 지표를 갖는 글루코스 농도 예측에 기초하여(예를 들어, 일부 백분율 또는 절대 측정 범위를 초과하지 않는 신뢰 경계에 연관된 예측에만 기초하거나 일부 최소 임계값 점수 등에 대한 신뢰도 점수에 연관된 예측에만 기초하여) 글루코스 펌프(154)에 대한 제어 명령어만을 생성할 수 있고, 또는 신뢰 지표 등에 기초하여 주어진 예측의 가중치를 증가 및/또는 감소시킬 수 있다.

도 3은 로컬 가우시안 공정 모델을 교정하고 유지관리하는 데 JITL 기술이 사용된 하나의 예시적인 구현에 대한 실험 결과(200)를 도시한다. 도 3의 플롯에서, 수평 파선(202)은 글루코스 농도 설정점을 나타내고, 원(204)은 (예를 들어, 도 1의 분석 기기(들)(104) 중 하나와 유사한 분석 기기에 의해 행해진) 글루코스 농도의 실제 측정값을 나타내고, 실선(206)은 (예를 들어, 로컬 모델(132)과 유사한 모델에 의해 예측된 바와 같은) 글루코스 농도의 예측된 측정값을 나타내고, 음영 영역(208)은 예측된 측정값에 연관된 (95% 신뢰도에 대한) 신뢰도 경계를 나타낸다. 도 3에 도시된 바와 같이, 3 g/L(리터당 g)의 글루코스 농도 설정점에 대해, JITL 기술을 사용한 예측은 일반적으로 분석 측정과 거의 일치한다.

이제, 질의를 수행하고 로컬 모델(132)을 구축/교정하는 공정을, 로컬 모델(132)이 단일 라만 스캔 벡터를 입력으로서 사용하고 단일 분석 측정값을 예측하는 가우시안 공정 모델인 특정한 JITL 일 실시예를 참조하여 수학적으로 더 자세히 설명한다.

(또는 간결하게 표기하여

)을 입력 및 출력 데이터의 순서화된 쌍들의 세트라고 하고, 이때,

는 입력이고,

는 출력이다. 또한,

는 n_a-차 입력 벡터이고,

는 스칼라 출력이라고 가정한다. 물리적으로,

는 분광 측정(예를 들어, NIR 또는 라만)이라고 여길 수 있고,

는 관심 상태(글루코스 또는 락테이트 농도)에 대한 분석 측정이라고 가정한다. 훈련 데이터 세트(

)가 주어진 경우, 분광 모델 교정 문제의 목적은, 이하 형태의 모델에 대한 입력 및 출력 간의 관계를 식별하는 것이다.

식 (1)

여기서,

는 분광 모델이고,

는, 분산(

)이 알려지지 않은, 제로-평균 정규 분포된 측정 노이즈이다. 모델 교정의 표준 관행은,

가 선형이라고 가정한 다음 PLS와 같은 방법을 사용하여 모델을 훈련시키는 것이다. 임의의 제한적이거나 고정된 형태를

에 속하는 것으로 하기 것 대신, 여기서는

가 가우시안 공정으로서 모델링된 잠재 함수라고 가정하며, 이때,

는, 가우시안 공정으로부터의 랜덤 샘플을 나타내며, 평균(

)과 공분산 함수(

)를 가지며, 이들은 통상적으로 아래와 같이 정의된다.

식 (2a)

식 (2b)

또한,

는 가우시안 공정 모델에 대한 하이퍼-파라미터를 나타낸다. 가우시안 공정은, 랜덤 변수들의 모음이며, 이들의 임의의 유한 수는 조인트 가우시안 분포를 갖고, 유한 입력들의 세트(

)에 대해, 다음과 같이 표현할 수 있다.

식 (3)

이어서, 분광 모델 교정 문제는,

를 사용하여 잠재 가우시안 공정 함수(

)를 학습하는 것으로 축소된다. 수학적 편의성과 일반적인 간결성을 위해, 여기서는

라고 가정하지만, 일반적으로 그럴 필요는 없으며, 여기서의 결과는

를 갖는 모델로 쉽게 확장될 수 있다. 가우시안 공정에서 공분산 함수의 역할은 지원 벡터 머신(SVM)에서 사용되는 커널의 역할과 유사하다. 공분산 함수에 대한 일반적인 선택은, 가우시안 커널이며, 다음과 같이 주어진다.

식 (4)

여기서,

는 입력 쌍(

) 간의 공분산이다. 가우시안 커널(

)은, 세트(

)의 입력들이 식 (4)에서의 유클리드 거리에 의해 정의된 바와 같이 서로 "가까우면" 더 높은 상관관계를 할당한다.

가우시안 커널을 선택하기 위해, 식 (4)는

와 같은 명확한 양의 대칭 행렬이다. 식 (4)에서, 세트(

)는 하이퍼-파라미터들의 세트이다. 물리적으로

는 길이-척도 파라미터이고,

는 신호-분산 파라미터이다. 식 (4)에서 가우시안 공분산 함수의 선택은, f가 매끄러우면서 연속적이라는 사전 가정에 해당한다. 따라서, 공분산 함수의 하이퍼-파라미터를 변경함으로써, f의 "매끄러움"을 변경할 수 있다. 여기서는, 가우시안 공분산 함수가 있는 가우시안 공정을 가정한다. 그러나, 일반적으로 이럴 필요는 없다.

가 주어진 경우, 목적은, 다른 임의의 미지의 모델 파라미터를 포함한 가우시안 공정의 하이퍼-파라미터를 학습하는 것이다. 식 (1)의 가우시안 공정의 경우, 미지의 파라미터들의 세트는

이다. 파라미터-학습 단계는 미지의 파라미터들의 공간에 대해 주변화 우도(marginalized likelihood)(또는 증거) 함수를 최대화함으로써 수행될 수 있다. 예를 들어, 식 (1)의 가우시안 공정의 경우, 주변화 우도 함수는 다음과 같이 주어진다.

식 (5)

여기서

는 주변화 우도 함수이고,

는 다음과 같이 주어진 우도 함수이다.

식 (6)

는 식 (3)에서 주어진 사전 밀도 함수이다. 식 (6) 및 (3)의 가우시안 우도와 사전 밀도 각각에 대해, 식 (5)의 적분은 폐쇄형 해를 갖고, 주변화 우도 함수는 다음과 같이 주어진다.

식 (7)

이제 식 (7)이 주어지면,

는 다음에 따르는 최적화 문제의 해를 구함으로써 추정될 수 있다.

식 (8)

여기서

는 최적의 추정값이다. 식 (7)로부터, 다음을 갖게 된다.

식 (9)

여기서,

이다.

식 (8)의 최적화 문제의 해를 구하기 위해, 식 (9)의 편도 함수는, 모든

에 대하여, 다음과 같도록 γ에 대하여 결정된다.

식 (10a)

식 (10b)

여기서,

이다. 식 (7)의 주변화 우도 함수와 식 (10b)의 미분이 주어지면, 구배 하강법을 사용하여 식 (8)의 해를 구할 수 있다. 식 (8)은 일반적으로 다중 로컬 최적화가 있는 비볼록 최적화 문제이므로, 최적화 문제의 해를 구하는 동안 주의해야 한다. 여기서

는 알려져 있거나 식 (8)의 해를 구함으로써 연산될 수 있다고 가정한다. 또한, 표기 부담을 줄이기 위해, 여기서 달리 명시되지 않는 한

가 최적 추정값(

)이라고 가정한다.

식 (1)의 가우시안 공정 분광 교정 모델은, 일단 훈련되면, 실시간 예측 애플리케이션을 위해 배치될 수 있다. 이전과 마찬가지로,

를 가우시안 공정 모델을 훈련시키는 데 사용되는 훈련 데이터 세트라고 하고,

를 새로운 테스트 분광 신호라고 한다. 이어서, 목표는 테스트 입력(

)에 해당하는 출력(

)을 예측하는 것이다.

연산의 제1 단계는, 훈련 입력 세트(

)와 테스트 입력(

)에 대하여 조절된 모든 훈련 출력 세트(

)와 테스트 가우시안 공정 출력(

)의 결합 밀도를 구축하는 것이다. 이 결합 밀도는 다음과 같이 제공된다.

식 (11)

여기서,

이다. 식 (11)이 주어지면, 베이지안 프레임워크에서, 가우시안 공정 출력(

)은 모든 가우시안 공정 출력에 대한 분포를 구축함으로써 계산된다. 다시 말하면, 가우시안 공정 출력(

)에 대한 사후 분포를 찾는다. 물론,

에 대한 사후 분포는 훈련 세트(

)와 일치하는 함수만 포함하면 된다. 확률적 설정에서,

에 대한 사후 분포는, 다음을 제공하기 위해 훈련 세트(

)에 대한 식 (11)의 결합 분포를 조절함으로써 연산될 수 있다.

식 (12)

여기서

는 가우시안 공정 출력에 대한 사후 분포이고,

는 다음의 식에 의해 주어지고,

식 (13)

는 다음의 식에 의해 주어진다.

식 (14)

식 (12)가 주어진 경우, 출력(

)에 대한 예측 사후 분포는 다음과 같이 연산될 수 있다.

식 (15)

여기서,

와

는 식 (13)과 식 (14)에서 각각 주어진 것이다. 단일 테스트 입력(

)의 경우, 식 (15)의 가우시안 공정 예측은 실현될 확률이 0이 아닌 출력들의 분포를 제공한다. 제어 및 모니터링과 같은 실시간 애플리케이션에서는, 전체 분포가 아닌 지점-추정에 관심이 있을 수 있다. 지점-추정은 의사결정-이론적 방안을 이용하여 연산될 수 있다. 식 (15)의 가우시안 사후 분포의 경우, 평균 함수가 예상되는 절대 및 제곱 위험 함수를 모두 최소화하며, 이때

는 입력(

)에 대해 가장 가능성이 높은 결과임을 알 수 있다. 또한,

를 예측으로서 선택하는 경우, 약 95% 신뢰 구간이 다음과 같이 주어진다.

식 (16)

식 (16)의 구간은, 가우시안 공정 예측의 품질을 평가하고/하거나 가우시안 공정 기반 모델 예측 제어 또는 기타 강력한 모니터링 전략을 설계하는 데 사용될 수 있다.

이제 질의에 대한 응답으로 관련 샘플(여기서는 관찰 데이터 세트)의 선택을 고려할 때, 문제는, 주어진 질의점(

) 및 입력-출력 쌍(관찰 데이터 세트)

을 포함하는 중앙 데이터베이스/라이브러리(

)에 대하여,

개의 샘플을 포함하는 시간(

)에 로컬 훈련 세트(

)를 선택하는 것이며, 여기서 D<<L이다.

은, 동적이며, 캠페인 중에 상이한 항목들을 포함할 수 있다고 가정한다.

로부터

를 구축하는 많은 방식이 있다. 이러한 분석을 위해,

는, 세트(

)의 스펙트럼들(예를 들어, 라만 스캔 벡터들) 간의 유클리드 거리를 기반으로 선택된다. JITL 프레임워크의 유클리드 기반 유사성 측정은, 소정의 상황에서 차선책으로 보고되었지만, 가우시안 공정 모델을 사용할 때 유익한 선택이 될 수 있다. 이는 가우시안 공정 모델 자체가 유클리드 거리를 기반으로 하기 때문이다. 가우시안 커널은, 세트(

)의 입력들이 서로 "가까운" 경우에만 더 높은 상관관계를 할당한다. 따라서, 모든 입력이 질의점에 "가까이" 있는 로컬 훈련 세트(

)를 생성함으로써, 로컬 가우시안 공정 모델이 질의점에서 출력을 예측하기 위해 최대 "상관관계"를 캡처하도록 할 수 있다.

로부터 로컬 훈련 세트(

)를 생성하고, 그 훈련 세트를 사용하여 가우시안 공정 모델을 훈련시키고, 훈련된 모델을 사용하여 예측을 수행하는 방법을 공식적으로 설명하는 예시적인 알고리즘이 이하의 알고리즘 1에서 제공된다.

알고리즘 1

이제 도 4를 참조해 보면, 본원에 설명된 바와 같이 JITL 기술을 사용하여 생물약제학적 공정을 분석할 때 발생할 수 있는 예시적인 데이터 흐름(250)이 도시되어 있다. 데이터 흐름(250)은, 예를 들어, 도 1의 시스템(100) 또는 도 2의 시스템(150) 내에서 발생할 수 있다. 데이터 흐름(250)에서, 스펙트럼 데이터(252)는 분광계/프로브에 의해 제공된다. 예를 들어, 스펙트럼 데이터(252)는, 라만 분석기(106)에 의해 생성된 라만 스캔 벡터, 또는 NIR 스캔 벡터 등을 포함할 수 있다. 질의점(254)은, 스펙트럼 데이터(252)에 기초하여 (예를 들어, 질의 유닛(140)에 의해) 생성되고, 예를 들어, 관찰 데이터베이스(136)의 모든 관찰 데이터 세트를 포함할 수 있는 글로벌 데이터 세트(256)에 질의하는 데 사용된다. 질의에 기초하여, 로컬 데이터 세트(258)는 글로벌 데이터 세트(256) 내에서 식별된다. 로컬 데이터 세트(258)는, 예를 들어, 전술한 바와 같이 관련성 기준(예를 들어, 유클리드 거리)에 기초하여 선택될 수 있다.

이어서, 로컬 데이터 세트(258)는, 로컬 모델(260)(예를 들어, 로컬 모델(132))을 교정하기 위해 (예를 들어, 로컬 모델 생성기(142)에 의해) 훈련 데이터로서 사용된다. 이어서, 로컬 모델(132)은, 배지 성분 농도, 배지 상태(예를 들어, 글루코스, 락테이트, 글루타메이트, 글루타민, 암모니아, 아미노산, Na⁺, K⁺, 및 기타 영양소 또는 대사 산물, pH, pCO₂, pO₂, 온도, 삼투압 농도 등), 생존 세포 밀도, 역가, 임계 품질 속성, 세포 상태 등, 그리고 가능하다면 신뢰도 경계 또는 다른 적절한 신뢰 지표 등의 출력(분석 측정)(262)을 예측하도록 (예를 들어, 예측 유닛(144)에 의해) 사용된다.

(예를 들어, 알고리즘 1 및 데이터 흐름(250)에서와 같은) JITL-기반 로컬 모델은 강력한 비선형 모델링 프레임워크를 제공하는 반면, 이러한 방안은 시간에 따라 변하는 공정 변경에 적응하기 위한 고유한 메커니즘을 갖지 않는다. 이러한 단점을 해결하기 위해, 일부 실시예는 "적응적" JITL(A-JITL) 전략을 사용할 수 있다. 전술한 바와 같이, 새로운 샘플은, 그러한 샘플을 사용할 수 있게 되면

에 포함될 수 있다. 이러한 실시예(즉,

가 동적임)에서,

는

로 표시될 수 있다. 이러한 일 실시예에서는, 이동 시간-창 방법이 구현되는데, 여기서 새롭게 취득된 샘플은

에 추가되고 가장 오래된 샘플은

로부터 제거된다. 적응적 전략에서,

의 크기를 유지하는 것이 전체 JITL 프레임워크의 연산 취급용이성을 보장하는 데 중요할 수 있기 때문에, 가장 오래된 샘플을 폐기하는 것이 유익할 수 있다. 그러나, 이러한 방안의 한 가지 주요 관심사는, 오래된 샘플이 관련 정보를 포함할 수 있으므로 단순히 오래된 샘플을 폐기하면 정보가 손실될 수 있다는 점이다.

이러한 정보 손실을 피하기 위해, 일 실시예에서는, 임의의 이전/기존 샘플을 제거하지 않고 새로운 샘플을

에 추가한다. 따라서, 중앙 데이터베이스(

)는, 새로운 분석 측정이 가능해짐에 따라 샘플의 수의 증가와 함께 확장된다. 세포 배양 공정 애플리케이션에서, 확장 데이터베이스는, 이러한 공정이 통상적으로 일괄-시간이 2주 내지 3주인 일괄 공정으로서 운영된다는 사실 때문에, 어떠한 심각한 연산 문제도 일으키지 않을 수 있다. 이것은

에 포함될 새로운 샘플의 수를 자연스럽게 제한한다. 또한, 제한된 수의 분석 측정만이 (예를 들어, 분석 측정이 자주 샘플링되는 화학 산업과는 달리) 통상적으로 세포 배양 공정 일괄 과정 중에 샘플링된다. 따라서, 통상적으로 전체 JITL 프레임워크의 연산 안정성에 큰 영향을 주지 않으면서 데이터베이스(

)의 크기만 약간 증가한다.

에 새로운 샘플을 포함하는 것이 알고리즘 1(위)의 지속적인 적응에 중요한 한편, 이 방안의 성공은 로컬 모델 교정을 위해 로컬 데이터베이스(

)에 있는 새로운 샘플의 선택에 의존한다. 유클리드 거리(예를 들어, 알고리즘 1의 라인 6)에 기초하여

로부터

에 대한 샘플을 선택하는 알고리즘 1은, 공간-관련성 있는 (가까운) 샘플에만 우선순위를 지정하므로, "공간-관련성" 방안이라 칭할 수 있다. 갑작스러운 설정값 변경(또는 기타 갑작스러운 공정 조건 변경)이 발생하는 경우처럼 새로운 샘플이 질의 샘플에 가깝지 않으면, 알고리즘 1은 그러한 샘플을

에 포함하지 못할 수 있다. 반면, 재귀적 방법(예를 들어, 정규화된 부분 최소 제곱(RPLS), 재귀 최소 제곱(RLS), 및 재귀 N-방향 부분 최소 제곱(RNPLS))은, 공간-관련성에 관계없이 최신 측정에 우선순위를 지정하기 때문에, "시간-관련성"이다. 최신 샘플을 사용하여 로컬 모델을 업데이트함으로써, 재귀적 방법이 현재 공정 조건에 성공적으로 적응할 수 있다.

본원에서 "적응적" JITL(A-JITL)라고 지칭되는 이러한 일 실시예는, 공간 및 시간 모두에 관련된 샘플에 우선순위를 지정한다.

가 현재 실험(즉, 질의(

)가 발생하는 실험/공정) 시작 전에 사용될 수 있는 L개의 과거 측정의 세트를 나타내고

가 현재 실험에서 사용할 수 있는 n개의 측정의 세트를 나타내다고 하면, 샘플은 다음과 같이 재분포될 수 있다.

식 (17a)

식 (17b)

여기서

는 중앙 데이터베이스를 나타내고,

는 마지막(가장 최근의) k개의 측정의 세트를 나타낸다. 일부 실시예에서,

는 현재 실험/공정의 최종 k개의 샘플을 포함하고,

는, 이전 실험/공정의 샘플 및 (잠재적으로) 최종 k개 샘플보다 오래된 현재 실험/공정의 샘플을 포함한다. 위 식 (17a) 및 (17b)는 주어진 질의(

)에 대해 정의된다. 다른 시점에 도달하는 질의의 경우, 데이터 세트(

및

)는, 해당 시점에서 사용가능한 측정 수에 따라 상이한 샘플들을 포함할 수 있다. 예를 들어, 일단 샘플(

)이 사용가능하게 되면,

이

로부터 제거되고

이

에 포함된다. 이어서, 폐기된 샘플(

)은 정보 손실을 방지하기 위해

에 포함된다.

를 최신 측정으로 업데이트함으로써,

가 적어도 일부 현재 상태를 반영하는 것을 보장한다.

와

가 주어진 경우, 목적은

를 선택하는 것이다. 전술한 바와 같이, A-JITL의 경우, 공간 및 시간 관련 샘플이 모두

에 포함된다.

가 다음 식과 같이 분해될 수 있다고 가정하면,

식 (18)

(여기서,

와

는 각각 공간 및 시간 관련 세트임)，목표는

와

를 선택하는 것이다. 먼저,

가 고유 샘플만을 포함하도록

라고 가정한다.

를 설계하기 위해, D-k개의 샘플이 "유사성 지수" 또는 "s-값"과 같은 거리-기반 (공간) 메트릭에 기초하여

로부터 선택된다.

식 (19)

식 (19)는, 예를 들어, 위에서 설명한 (비적응적) JITL 기술에서 유사성 메트릭으로서 사용될 수 있다. 따라서, 예를 들어, 가장 큰 s-값을 가진 D-k개의 샘플을,

에 포함하기 위해

로부터 선택할 수 있다.

를 설계하기 위해, 현재 실험/공정의 최종 k개 샘플이 시간상 관련이 있다고 가정하면, 일부 실시예에서

는

와 같은 것으로 정의될 수 있다.

에서 샘플의 구성원을 결정하는 s-값과는 달리,

의 구성원은 샘플링 시간에 따라 결정된다는 점에 주목한다. 물론, 시나리오에 따라,

의 샘플은 큰 s-값을 나타낼 수 있다. s-값에 관계없이,

는 시간-관련성만이 있다고 가정한다. 마찬가지로,

는, 구성상

가 시간-관련성이 없기 때문에, 공간-관련성만이 있다.

및

는 주어진 질의(

)에 대해 정의되고,

의 샘플은

에 대해 연산된 s-값에 기초하여 선택되며,

의 샘플은

의 샘플링 시간과 관련하여 연산된 샘플링 시간에 기초하여 선택된다는 점에 주목한다. 편의를 위해,

및

는 일반적으로 다음과 같이 정의된다.

식 (20a)

식 (20b)

여기서

및

는 각각 라만 분광기의 공간 및 시간 관련 샘플이고,

및

는 각각 분석 기기의 공간 및 시간 관련 샘플이며, 아래와 같다.

식 (21a)

식 (21b)

식 (20a) 및 식 (20b)를 식 (18)에 대입하면, 일반적으로

로서 표시되는 세트(

)가 제공되며, 여기서,

및

이다. 위에서 논의한 (비적응적) JITL 기술과는 달리, 로컬 라이브러리/데이터세트(

)는 공간 및 시간과 관련된 샘플에 우선순위를 지정한다.

와 질의(

)가 주어지면, 식 (1)의 가우시안 공정 모델(예를 들어, 로컬 모델(132))을 교정할 수 있다.

에서의 지점 추정값과 신뢰 구간은 각각 식 (13) 및 식 (16)을 사용하여 연산될 수 있고, 여기서

및

는 이하의 식에 의해 주어진다.

식 (22a)

식 (22b)

여기서,

및

는 각각

및

와 관련된 공분산 함수이고,

는

와

간의 공분산이다.

A-JITL 기술을 공식적으로 설명하는 알고리즘의 일례가 아래의 알고리즘 2에서 제공된다.

알고리즘 2

따라서, 알고리즘 2는 JITL(공간내-관련성)과 재귀적 학습(시간내-관련성)을 결합한다. 예를 들어,

의 경우, 알고리즘 2를 사용하는 로컬 모델(132)의 교정은 공간내-관련성 JITL과 유사한 반면,

의 경우, 알고리즘 2를 사용하는 로컬 모델(132)의 교정은 재귀적 학습과 유사하다. 따라서,

및

를 조절함으로써, (비재귀적) JITL과 재귀적 학습이 적절하게 균형을 이룰 수 있다.

이제 도 5를 참조해 보면, 본원에 기술된 바와 같이 A-JITL 기술을 사용하여 생물약제학적 공정을 분석할 때 발생할 수 있는 예시적인 데이터 흐름(300)이 도시되어 있다. 데이터 흐름(300)은, 예를 들어, 도 1의 시스템(100) 또는 도 2의 시스템(150) 내에서 발생할 수 있다. 데이터 흐름(300)에서, 스펙트럼 데이터(302)는 분광계/프로브에 의해 제공된다. 예를 들어, 스펙트럼 데이터(302)는, 라만 분석기(106)에 의해 생성되는 라만 스캔 벡터, 또는 NIR 스캔 벡터 등을 포함할 수 있다. 질의점(304)은, 스펙트럼 데이터(302)에 기초하여 (예를 들어, 질의 유닛(140)에 의해) 생성되고, 예를 들어, 관찰 데이터베이스(136)의 모든 관찰 데이터 세트를 포함할 수 있는 글로벌 데이터 세트(306)에 질의하는 데 사용된다. 글로벌 데이터 세트(306)는, (예를 들어, 모두 현재 실험/공정으로부터의) 최종 k개의 엔트리(370A) 및 (예를 들어, 이전 실험/공정, 및 가능하다면 또한 현재 실험/공정으로부터의) 최종 k개의 엔트리(307A) 전의 모든 엔트리(307B)로 논리적으로 분리된다. k의 값은 질의점(304)의 샘플 번호에 기초하여 결정될 수 있다. 본원에서 사용되는 바와 같이, "샘플 번호"라는 용어는, 주어진 샘플/관찰에 연관된 시간 또는 상대적 시간의 임의의 지표를 광범위하게 지칭할 수 있다. 엔트리들(307B) 중의 소정의 엔트리는 질의점(304)에 대한 공간 유사성(예를 들어, 유클리드 거리)에 기초하여 로컬 데이터 세트(308)에 추가되는 반면, 모든 엔트리(307A)는 공간 유사성과 관계없이 로컬 데이터 세트(308)에 추가될 수 있다. 로컬 데이터 세트(308)는, 예를 들어, 알고리즘 2에 따라 엔트리(307A) 및 엔트리(307B)로부터 생성될 수 있다.

이어서, 로컬 데이터 세트(308)는 로컬 모델(310)(예를 들어, 로컬 모델(132))을 교정하기 위해 (예를 들어, 로컬 모델 생성기(142)에 의해) 훈련 데이터로서 사용된다. 이어서, 로컬 모델(310)은, (예를 들어, 예측 유닛(144)에 의해) 배지 성분 농도, 배지 상태(예를 들어, 글루코스, 락테이트, 글루타메이트, 글루타민, 암모니아, 아미노산, Na⁺, K⁺ 및 기타 영양소 또는 대사 산물, pH, pCO₂, pO₂, 온도, 삼투압 농도 등)，생존 세포 밀도, 역가, 임계 품질 속성, 세포 상태 등, 및 가능하다면 신뢰도 경계 또는 다른 적합한 신뢰 지표와 같은 출력(분석 측정)(312)을 예측하기 위해 사용된다.

실제 분석 측정(예를 들어, 분석 기기(들)(104) 중 하나와 같은 분석 기기에 의해 수행된 측정)이 이용 가능하다면, 새로운 엔트리(314)가 생성되고 글로벌 데이터 세트(306)에 추가된다. 이러한 측정은, 더 후술하는 바와 같이, 예를 들어, 주기적인 샘플링 기반으로(예를 들어, 하루에 한 번 또는 두 번) 이용가능할 수 있고/있거나 (예를 들어, 연속되는 소정 수의 예측이 허용할 수 없을 정도로 넓은 신뢰도 경계 등을 갖는다면) 가변 타이밍을 사용하여 트리거에 응답하여 이용가능해질 수 있다.

위에서 논의된 A-JITL 방안의 지속적인 적응을 위해

에 공간-관련 및 시간 관련 샘플을 포함하는 것이 필요하지만, A-JITL에 의해 달성되는 전체 적응 정도는,

가 로컬 모델 교정에 얼마나 효과적으로 이용되는지에 의존한다. 질의 샘플/점(

)의 경우, 공간-관련 샘플(

)은 함수들(

) 간에 높은 상관관계를 제공한다. 이는, 질의(

)의 경우, (

) 간의 상관관계와

의 공간-관련성이 모두

사이의 유클리드 거리를 기반으로 연산되기 때문이다. 따라서, 식 (19)에서 유클리드-기반 유사성 측정을 선택하고 식 (4)에서 유클리드-기반 커널을 선택하는 경우,

의 샘플은 높은 기능적 상관관계를 제공할 것으로 예상된다. 반대로, 시간 관련 샘플(

)은, 함수들(

) 간에 강력한 상관관계를 제공하지 않을 수 있다. 이는 위에서 언급했듯이

의 샘플이 반드시 공간과 관련이 있는 것은 아니기 때문이다. 결과적으로,

의 공간-관련성이 작으면 식 (4)에서 (

) 간의 가우시안 커널에 의한 상관관계가 작아진다. 모델링 관점에서, 작은 상관관계를 갖는 샘플을 사용하여 식 (1)에서 가우시안 공정 모델을 훈련하는 것은 바람직하지 않으며, 이는 모델 성능의 저하를 초래하기 때문이다. 수학적으로, 이것은 다음과 같이 입증될 수 있다.

질의(

) 및 알고리즘 2의 교정된 가우시안 공정 모델에 대해, 모델 예측(

)은 식 13을 사용하여 연산될 수 있다. 일반성을 잃지 않고,

(노이즈가 없는 경우)이면, 식 (13)을 다음과 같이 작성할 수 있다.

식 (23)

가 무시할 수 있는 공간-관련성이 있다면(즉,

와

사이의 s-값이 무한히 크면), 식 4의 결과는

이다. 또한, 구성상

가

보다

에 더 가깝기 때문에, 결과는

및

이다. 이들을 식 (23)에 대입하면, 아래와 같이 된다.

식 (24a)

식 (24b)

식 (24c)

식 (24c)에서, 지점 추정이

와는 무관하다는 것이 분명하다. 마찬가지로, 식 (16)도

와는 무관함을 알 수 있다. 예를 들어, 식 (16)에서,

는 다음과 같이 연산될 수 있다.

식 (25a)

식 (25b)

식 (25c)

식 (25d)

식 (25b) 및 식 (25c)로부터,

,

, 및

를 포함한 몇 가지 근사치가 사용됨을 알 수 있다. 식 (20a) 및 식 (20b)로부터, 세트가 제한된 공간-관련성을 가지고 있다면, 알고리즘 2가

를 잘 이용하지 못한다는 점이 분명하다.

일부 실시예에서,

의 공간-관련 및 시간-관련 샘플들이 모두 기여할 수 있도록 하기 위해, 다음과 같은 시공간적 라만 모델(예를 들어, 로컬 모델(132))을 이용한 "시공간적" JITL(ST-JITL) 방안이 사용된다.

식 (26)

여기서

는 시공간적 라만 모델이고,

는

의 샘플 번호이고,

는, 평균이 0이고 알려지지 않은 분산(

)을 갖는 독립적 가우시안 랜덤 변수들의 시퀀스이다. 식 (1)과는 달리, 식 (26)의 시공간적 모델은 스펙트럼 신호와 샘플링 시간 모두에 의존한다. 위와 같이, g는, 모든 입력(a, t)에 대해, 가우시안 공정으로서 모델링된 잠재 함수라고 가정하며,

식 (27)

이때, 식 (27)은 랜덤 함수이다. 편의상, 식 (27)의 평균 함수는 0으로 가정되지만, 일반적으로 그럴 필요는 없다. 또한, 임의의 입력(

및

)에 대해, 공분산 함수(

)를 다음과 같이 정의할 수 있다.

식 (28)

여기서

및

는 각각

간의 공간 공분산 및 시간 공분산이다. 질의(

)에 대해, 샘플(

)이 무시할만한 공간-관련성을 가지면,

이며, 식 (28)은

간에 0이 아닌 상관관계를 정의한다는 점에 주목한다. 마지막으로, 식 (28)은, 두 개의 독립 커널의 합이 또한 커널이기 때문에, 유효한 공분산 함수라는 점에 주목해야 한다.

와

은 모든 입력 쌍(

및

)에 대해 가우시안 커널이라고 가정한다.

식 (29a)

식 (29b)

여기서

는 커널 파라미터이다. 식 (29a)와 식 (29b)가 주어지면, 식 (28)은,

가 서로 가깝다면,

간에 높은 상관관계를 나타낸다.

이도록

및

가 각각

의 상태 및 시간-관련 샘플들에 대한 샘플 번호를 나타내면, 질의

에 대해, 대해 식 (28)의 공분산 함수(

)는 다음과 같이 작성될 수 있다.

식 (30a)

식 (30b)

변수(a 및 b)와는 달리, 식 (30a) 및 식 (30b)에서 t의 역할은 단순히

의 기여도를 개선하는 것임에 주목한다. 물리적으로, a가 주어지면, 변수 t는 b에 영향을 미치지 않는다. 따라서,

가

의 샘플에 해당하는 샘플 번호로서 정의되면,

는, 다음을 만족하도록 정의될 수 있다.

식 (31a)

식 (31b)

식 (31c)

모든

및

에 대해 해당하며, 여기서

는 임의의 큰 양의 상수이다. 또한,

및

이도록

및

가 존재한다고 가정하면, 전술한 바와 같이

및

에 대하여,

는 다음과 같이 작성될 수 있다.

식 (32a)

식 (32b)

여기서, 식 (32b)는, 식 (31a)로부터 온 것이며,

의 비대각선 엔트리를 0으로 유도한다. 마찬가지로, 공분산(

및

)은 다음과 같이 연산될 수 있다.

식 (33a)

식 (33b)

식 (33c)

식 (33d)

여기서 식 (33b)는 식 (31b)에 기초하고, 식 (33d)는 식 (31c)에 기초한다. 식 (32b), 식 (33b) 및 식 (33d)를 식 (30a) 및 식 (30b)에 대입하면, 다음과 같은 결과를 얻는다.

식 (34a)

식 (34b)

식 (30a) 및 식 (30b)로부터, 공분산(

)이

및

모두의 기여도를 포함하고 있음을 확인하는 것은 간단하다. 식 (30a) 및 식 (30b)에서 시공간적 라만 모델에 대한 공분산 함수가 주어지면, 커널 파라미터(

) 및 잡음 분산(

)은, 다음을 최대화함으로써 추정될 수 있다.

식 (35)

여기서

는 로그 주변화 한계 우도 함수이고,

이다.

에 대하여 식 (35)를 최대화하면, 최적 추정값(

)을 얻는다. 구배-기반 옵티마이저의 경우,

에 관하여 식 (35)에 대한 구배는, 식 (10b)와 유사한 방식으로 연산될 수 있다.

가 주어지면, 질의

에 대한 점 추정값 및 사후 분산은 다음과 같이 연산될 수 있다.

식 (36a)

식 (36b)

여기서, 공분산 함수는 식 (34a) 및 식 (34b)에서 제공된다. 마찬가지로, 식 (36a)의 점 추정값에 대한 신뢰도 경계(

)는 다음과 같이 연산될 수 있다.

식 (37a)

식 (37b)

여기서,

이다. 식 (36a), 식 (37a) 및 식 (37b)로부터, 공간-관련 및 시간-관련 샘플들이 모두 모델 예측 및 신뢰도 경계 계산에 기여한다는 것을 쉽게 알 수 있다. 마지막으로, 식 (34a) 및 식 (34b)를 식 (36a) 및 식 (36b)에 대입하면, 각각 사후 평균과 분산을 얻는다. 알고리즘 2의 경우와는 달리, 식 (36a)의 모델 예측 및 식 (37a)과 식 (37b)의 신뢰 구간은,

가 공간-관련성을 갖지 않는 경우에도

에 의존한다는 점에 주목해야 한다. 예를 들어,

가 공간-관련성을 갖지 않는 경우(즉,

및

), 식 (36a) 및 식 (36b)는 다음과 같이 작성될 수 있다.

식 (38a)

식 (38b)

상술한 바로부터, 식 (38a) 및 식 (38b)가 여전히

및

모두의 기여도를 포함하고 있음을 알 수 있다. ST-JITL 기술을 공식적으로 설명하는 알고리즘의 일례가 이하의 알고리즘 3에서 제공된다.

알고리즘 3

(각각 알고리즘 2 및 알고리즘 3에서) A-JITL 및 ST-JITL은, β₁=0인 경우에 동일할 수 있다는 점에 주목한다. 이는 (식 (28) 및 식 (29b)에서 알 수 있듯이) β₁=0인 경우

이고,

이기 때문이다.

이제, 도 6을 참조해 보면, 본원에 설명된 바와 같이 ST-JITL 기술을 사용하여 생물약제학적 공정을 분석할 때 발생할 수 있는 예시적인 데이터 흐름(350)이 도시되어 있다. 데이터 흐름(350)은, 예를 들어, 도 1의 시스템(100) 또는 도 2의 시스템(150) 내에서 발생할 수 있다. 데이터 흐름(350)에서, 스펙트럼 데이터(352)는 분광계/프로브에 의해 제공된다. 예를 들어, 스펙트럼 데이터(352)는, 라만 분석기(106)에 의해 생성된 라만 스캔 벡터, 또는 NIR 스캔 벡터 등을 포함할 수 있다. 질의점(354)은, 스펙트럼 데이터(352)에 기초하여 (예를 들어, 질의 유닛(140)에 의해) 생성되고, 예를 들어, 관찰 데이터베이스(136)의 모든 관찰 데이터 세트를 포함할 수 있는 글로벌 데이터 세트(356)에 질의하는 데 사용된다. 글로벌 데이터 세트(356)는, 최종 k개의 엔트리(357A)(예를 들어, 모두 현재 실험/공정으로부터) 및 (예를 들어, 이전 실험/방법과 또한 현재일 수 있는 실험/방법으로부터의) 최종 k개의 엔트리(357A) 이전의 모든 엔트리(357B)로 논리적으로 분리된다. k의 값은 질의점(354)의 샘플 번호에 기초하여 결정될 수 있다. 로컬 데이터 세트(358)는, 예를 들어, 알고리즘 3에 따라 엔트리(357A) 및 엔트리(357B)로부터 생성될 수 있다.

이어서, 로컬 데이터 세트(358)는, 로컬 모델(360)(예를 들어, 로컬 모델(132))을 교정하기 위해 (예를 들어, 로컬 모델 생성기(142)에 의해) 훈련 데이터로서 사용된다. 이후, (예를 들어, 예측 유닛(144)에 의해) 로컬 모델(360)을 사용하여, 배지 성분 농도, 배지 상태(예를 들어, 글루코스, 락테이트, 글루타메이트, 글루타민, 암모니아, 아미노산, Na⁺, K⁺, 및 기타 영양소 또는 대사 산물, pH, pCO₂, pO₂, 온도, 삼투압 농도 등), 생존 세포 밀도, 역가, 임계 품질 속성, 세포 상태 등, 및 가능하다면 신뢰도 경계 또는 다른 적합한 신뢰 지표 등의 출력(분석 측정)(362)을 예측한다.

실제 분석 측정(예를 들어, 분석 기기(들)(104) 중 하나와 같은 분석 기기에 의한 측정)을 사용할 수 있는 경우, (해당 샘플 번호를 포함하는) 새로운 엔트리(364)가 생성되어 글로벌 데이터 세트(356)에 추가된다. 이러한 측정은, 예를 들어, 주기적인 샘플링 기반으로(예를 들어, 하루에 한 번 또는 두 번) 사용될 수 있고/있거나 (예를 들어, 연속되는 소정의 수의 예측이 수용할 수 없을 정도로 넓은 신뢰도 경계 등을 갖는다면) 가변 타이밍을 갖는 트리거에 응답하여 사용가능해질 수 있다.

전술한 같이, 분석 측정은, 자원 사용(예를 들어, 분석 기기 사용)을 감소시키면서 예측 정확도를 유지하거나 개선하기 위해 하나 이상의 로컬 모델(예를 들어, 로컬 모델(132, 260, 310 또는 360))의 현재 및/또는 최근 성능에 기초하여 스케줄링/트리거될 수 있다. 이 기술은, 예를 들어, A-JITL, ST-JITL 또는 스트레이트 JITL과 함께 사용될 수 있다.

일 실시예에서, 신뢰도 간격은 모델 유지관리를 트리거하는 데 사용된다. 특히, 주어진 모델 예측 주변의(예를 들어, 로컬 모델(132, 260, 310, 또는 360)에 의해 행해진 가장 최근의 예측 주변의) 신뢰도 간격의 폭(예를 들어, 식 (16) 또는 식 (37a), (37b)를 사용하여 계산된 바와 같이 신뢰도 경계값들 사이의 거리)이 미리 정의된 임계값보다 크면, 데이터베이스 유지관리 유닛(146)은, 요청 메시지를 생성할 수 있고, 측정을 요청하기 위해 컴퓨터(110)가 그 메시지를 분석 기기(들)(104)에 전송하게 할 수 있다. 도 3의 예시적인 결과에서, 예를 들어, 데이터베이스 유지관리 유닛(146)은 12/08/17, 12/09/17, 및 12/14/17이 끝날 무렵에 새로운 분석 측정을 트리거할 수 있으며, 여기서 음영 영역(208)은 넓은 신뢰도 간격(즉,

의 큰 값)을 가리킨다.

요청 메시지에 응답하여, 분석 기기(들)(104)은 측정(들)을 수행하고 컴퓨터(110)에 측정(들)을 제공한다. 이어서, 데이터베이스 유지관리 유닛(146)은, 측정(들) 및 라만 분석기(106)로부터 수신된 대응하는 라만 스캔 벡터(들)를 관찰 데이터베이스(136)에 저장하기 위해 데이터베이스 서버(112)에 전송할 수 있다. 예를 들어, 측정(들) 및 스캔 벡터(들)는, 전술한 라이브러리 L(스트레이트 JITL의 경우) 또는 라이브러리 K(A-JITL 또는 ST-JITL의 경우)에 추가될 수 있다.

반대로, 주어진 모델 예측 주변의 신뢰도 간격의 폭이 미리 정의된 임계값보다 크지 않으면, 데이터베이스 유지관리 유닛(146)은 새로운 분석 측정을 요청하지 않을 수 있으며, 이 경우 관찰 데이터베이스(136)의 라이브러리는 변경되지 않은 상태로 유지된다. 분석 기기(들)(104)가 배지 성분 농도, 배지 상태(예를 들어, 글루코스, 락테이트, 글루타메이트, 글루타민, 암모니아, 아미노산, Na⁺, K⁺, 및 기타 영양소 또는 대사 산물, pH, pCO₂, pO₂, 온도, 삼투압 농도 등)，생존 세포 밀도, 역가, 임계 품질 속성, 세포 상태 등의 상이한 특성을 측정하는 다수의 기기를 포함하고 별도의 로컬 모델을 사용하여 상이하면서 다양한 특성값을 예측하는 실시예에서, 스케줄링 공정은, 각 특성에 대하여 상이한 신뢰도 간격 폭 임계값을 가질 수 있는 특성을 측정하는 분석 기기 및 각각의 예측된 특성에 대하여 별도로 구현될 수 있다.

수학적으로, 데이터베이스 유지관리 유닛(146)은, 다음 조건으로 질의점(

)에서 새로운 분석 측정(들)을 스케줄링/트리거할 수 있다.

식 (39)

여기서 THR은 사용자-정의된 임계값이다. 일부 실시예에서, THR은 특정 애플리케이션 또는 사용 사례에 적합하도록 사용자에 의해 조정될 수 있다. 예를 들어, 사용자는, 모델 신뢰도가 중요한 애플리케이션에 대해 (데이터베이스 유지관리 유닛(146)에 의해 사용되는) 비교적 작은 THR 값을 설정할 수 있고, 이에 따라 모델/라이브러리 유지관리 동작이 더 자주 발생하게 할 수 있다. 일반적으로, THR은, 공정 중요성(process criticality)에 기초하여, 배지 성분 농도, 배지 상태(예를 들어, 글루코스, 락테이트, 글루타메이트, 글루타민, 암모니아, 아미노산, Na⁺, K⁺, 및 기타 영양소 또는 대사 산물, pH, pCO₂, pO₂, 온도, 삼투압 농도 등)，생존 세포 밀도, 역가, 임계 품질 속성, 세포 상태 등과 같은 예측되는 파라미터에 기초하여, 및/또는 (예를 들어, 초기 일들에 비해 배양의 후일을 위해 작은 THR을 사용하여) 현재 기간에 기초하여 상이한 값들로 설정될 수 있다. THR의 선택은 모델 정확도와 자원(분석 기기) 사용 간의 트레이드-오프를 나타내며, 임계값이 낮을수록 자원 사용량이 증가하는 대신 모델 정확도가 증가하는 경향이 있다.

이러한 스케줄링 프로토콜의 변형도 가능하다. 일 실시예에서, 예를 들어, 데이터베이스 유지관리 유닛(146)은, 하나 이상의 모델 성능 기준을 현재(가장 최근) 예측뿐만 아니라 하나 이상의 다른 최근 예측(예를 들어, 가장 최근 N개의 예측, 여기서 N>1)에도 적용할 수 있다. 이러한 실시예의 일례로, 데이터베이스 유지관리 유닛(146)은, 가장 최근 N개의 예측(N≥1)에 대한 신뢰도 간격들의 평균 폭을 연산할 수 있고 이어서 그 평균 폭을 임계값(THR)과 비교할 수 있다. 다른 일례로, 데이터베이스 유지관리 유닛(146)은, 마지막 Y개 예측 중에서 X개의 가장 큰 신뢰도 간격 폭을 식별할 수 있고(X<Y), 이들 X폭의 각각이 임계값(THR)보다 큰 경우에만 새로운 분석 측정을 스케줄링/트리거할 수 있다.

도 7은 (예를 들어, 모니터링 및/또는 제어 목적을 위해) 생물약제학적 공정을 분석하기 위한 예시적인 방법(400)의 흐름도이다. 방법(400)은, 도 1 또는 도 2의 컴퓨터(110)와 같은 컴퓨터에 의해(예를 들어, JITL 예측기 애플리케이션(130)의 명령어를 실행하는 처리 유닛(120)에 의해) 및/또는 예를 들어 도 1 또는 도 2의 데이터베이스 서버(112)와 같은 서버에 의해 구현될 수 있다.

블록(402)에서는, (예를 들어, 시스템(100) 또는 시스템(150)의 라만 분석기(104) 및 라만 프로브(106)에 의해) 분광 시스템에 의한 생물약제학적 공정의 스캐닝에 연관된 질의점을 결정한다. 질의점은, 예를 들어, 생물약제학적 공정을 스캐닝할 때 분광학 시스템에 의해 생성된 스펙트럼 스캔 벡터(예를 들어, 라만 또는 NIR 스캔 벡터)에 적어도 부분적으로 기초하여 결정될 수 있다. 실시예에 따라, 질의점은, 원시 스펙트럼 스캔 벡터에 기초하여 또는 원시 스펙트럼 스캔 벡터의 적절한 전처리 필터링 후에 결정될 수 있다. 일부 실시예에서, 질의점은, 또한, 예를 들어, 생물약제학적 공정에 연관된 배지 프로파일 등의 기타 정보(예를 들어, 유체 유형, 특정 영양소, pH 수준 등), 및/또는 생물약제학적 공정이 분석되는 하나 이상의 동작 조건(예컨대, 대사 산물 농도 설정점 등)에 기초하여 결정된다.

블록(404)에서는, 관찰 데이터베이스(예를 들어, 관찰 데이터베이스(136))에 질의한다. 관찰 데이터베이스는 다수의 생물약제학적 공정의 지난 관찰에 연관된 관찰 데이터 세트를 포함할 수 있다. 각각의 관찰 데이터 세트는, 스펙트럼 데이터(예를 들어, 라만 또는 NIR 스캔 벡터) 및 대응하는 분석 측정(또는 일부 실시예에서 2개 이상의 분석 측정)을 포함할 수 있다. 분석 측정은, 예를 들어, 배지 성분 농도, 배지 상태(예를 들어, 글루코스, 락테이트, 글루타메이트, 글루타민, 암모니아, 아미노산, Na⁺, K⁺, 및 기타 영양소 또는 대사 산물, pH, pCO₂, pO₂, 온도, 삼투압 농도 등)，생존 세포 밀도, 역가, 임계 품질 속성, 및/또는 세포 상태일 수 있다.

블록(404)은, 관찰 데이터 세트들 중에서 질의점에 대하여 하나 이상의 관련성 기준을 충족하는 관찰 데이터 세트를 훈련 데이터로서 선택하는 것을 포함할 수 있다. 예를 들어, 질의점이 스펙트럼 스캔 벡터를 포함한 경우, 블록(404)은, (예를 들어, (1) 질의점 결정의 기반이 된 스펙트럼 스캔 벡터와 (2) 지난 관찰에 연관된 각 스펙트럼 스캔 벡터 사이의 유클리드 또는 기타 거리를 계산한 다음, 질의점 결정의 기반이 된 스펙트럼 스캔 벡터의 임계 거리 내에 있는 것으로 결정된 지난 관찰들에 연관된 스펙트럼 스캔 벡터들 중 임의의 스펙트럼 스캔 벡터를 훈련 데이터로서 선택함으로써) 그 스펙트럼 스캔 벡터를 관찰 데이터베이스에 나타낸 지난 관찰들의 각각에 연관된 스펙트럼 스캔 벡터와 비교하는 것을 포함할 수 있다.

블록(406)에서는, 선택된 훈련 데이터를 사용하여, 모니터링되고 있는 생물약제학적 공정에 대하여 특정한 로컬 모델을 교정한다. 로컬 모델(예를 들어, 로컬 모델(132))은, 스펙트럼 데이터 입력(예를 들어, 라만 또는 NIR 스펙트럼 스캔 벡터)에 기초하여 분석 측정을 예측하도록 블록(406)에서 훈련된다. 일부 실시예에서, 로컬 모델은 가우시안 공정 기계-학습 모델이다.

블록(408)에서는, 로컬 모델을 사용하여 생물약제학적 공정의 분석 측정을 예측한다. 블록(408)은, 생물약제학적 공정을 스캐닝할 때 로컬 모델을 사용하여 분광 시스템이 생성한 스펙트럼 데이터(예를 들어, 라만 또는 NIR 스캔 벡터)를 분석하는 것을 포함할 수 있다. 예를 들어, 블록(408)은, 로컬 모델을 사용하여 분석 측정을 예측하여 동일한 스캔 벡터 또는 질의점의 기반이 된 기타 스펙트럼 데이터를 처리하는 것을 포함할 수 있다. 실시예에 따라, 로컬 모델을 사용하여, 원시 스펙트럼 데이터(예를 들어, 원시 라만 스캔 벡터)를 분석하거나 원시 스펙트럼 데이터의 적절한 전처리 필터링 후에 스펙트럼 데이터를 분석할 수 있다. 일부 실시예에서, 블록(408)은, 또한, 생물약제학적 공정의 예측된 분석 측정에 연관된 신뢰 지표(예를 들어, 신뢰도 경계, 신뢰도 점수 등)를 결정하는 것을 포함한다. 일부 실시예에서, 로컬 모델은, 또한, 블록(408)에서 하나 이상의 추가 분석 측정을 예측한다.

일부 실시예에서, 방법(400)은 도 5에 도시되지 않은 하나 이상의 추가 블록을 포함한다. 예를 들어, 방법(400)은, 블록(408)에서 예측된 분석 측정에 적어도 부분적으로 기초하여 생물약제학적 공정의 적어도 하나의 파라미터가 제어되는 추가 블록을 포함할 수 있다. 실시예에 따라, 파라미터는, 예측된 분석 측정과 동일한 유형(예를 들어, 예측된 글루코스 농도에 기초한 글루코스 농도 제어)이거나 다른 유형일 수 있다. 예를 들어, 모델 예측 제어(MPC) 기술을 사용하여 파라미터(또는 파라미터들)를 제어할 수 있다.

다른 일례로, 방법(400)은, (예를 들어, 전술한 바와 같이, 예측된 분석 측정 및 가능하게는 하나 이상의 이전/최근 측정도 하나 이상의 모델 성능 기준을 충족하지 않는다는 결정에 응답하여, 분석 기기(들)(104)에 의해 또는 이러한 분석 기기로부터) 생물약제학적 공정의 실제 분석 측정이 취득되는 제1 추가 블록, 및 (예를 들어, 스펙트럼 데이터 및 분석 측정을 데이터베이스 서버(112) 등의 데이터베이스 서버에 전송하거나 스펙트럼 데이터 및 분석 측정을 로컬 관찰 데이터베이스 등에 직접 추가함으로써) (1) 실제 분석 측정이 취득되었을 때 분광 시스템이 생성한 스펙트럼 데이터 및 (2) 생물약제학적 공정의 실제 분석 측정이 관찰 데이터베이스에 추가되는 제2 추가 블록을 포함할 수 있다. 다수의 유형의 분석 측정이 예측되는 실시예에서, 다수의 실제 분석 측정이 취득될 수 있고 관찰 데이터베이스에 추가될 수 있다.

또 다른 일례로, 방법(400)은 블록들(402 내지 408)과 각각 유사한 블록들의 하나 이상의 추가 세트를 포함할 수 있다. 이러한 블록들의 추가 세트 각각에서, 로컬 모델은, 관찰 데이터베이스(또는 다른 관찰 데이터베이스)를 질의함으로써 교정될 수 있고, 다른 유형의 분석 측정을 예측하는 데 사용될 수 있다.

이제, 본 개시 내용에 관한 추가 고려 사항을 다룬다.

"폴리펩티드" 또는 "단백질"이라는 용어는, 전체적으로 상호 교환가능하게 사용되며, 펩티드 결합에 의해 서로 연결된 두 개 이상의 아미노산 잔기를 포함하는 분자를 지칭한다. 폴리펩티드 및 단백질은, 또한, 천연 서열의 아미노산 잔기, 즉, 천연 발생 및 비재조합 세포에 의해 생성된 폴리펩티드 또는 단백질에 대한 하나 이상의 결실, 삽입, 및/또는 치환을 갖는 거대 분자를 포함하거나, 유전적으로 조작된 세포 또는 재조합 세포에 의해 생성되고, 천연 단백질의 아미노산 서열의 아미노산 잔기에 대한 하나 이상의 결실, 삽입, 및/또는 치환을 갖는 분자를 포함한다. 폴리펩티드 및 단백질은, 또한, 하나 이상의 아미노산이 상응하는 자연 발생 아미노산과 중합체의 화학적 유사체인 아미노산 중합체를 포함한다. 폴리펩티드 및 단백질은, 또한, 글리코실화, 지질 부착, 황화, 글루탐산 잔기의 감마-카르복실화, 히드록실화, 및 ADP-리보실화를 포함하지만 이에 제한되지 않는 개질예를 포함한다.

폴리펩티드 및 단백질은, 단백질-기반 치료제를 포함하여 과학적 또는 상업적 관심을 가질 수 있다. 단백질은, 특히, 분비 단백질, 대분비 단백질, 세포내 단백질, 또는 막-결합 단백질을 포함한다. 폴리펩티드 및 단백질은, 세포 배양 방법을 사용하여 재조합 동물 세포주에 의해 생성될 수 있으며, "재조합 단백질"이라고 지칭될 수 있다. 발현된 단백질(들)은, 세포 내에서 생성되거나 배양 배지 내로 분비되어 이로부터 회수 및/또는 수집될 수 있다. 단백질은, 표적, 특히, 이하에서 열거되는 표적들로부터 유도된 표적, 이에 관련된 표적, 및 이의 개질예를 포함한 표적들 중의 표적과 결합함으로써 치료 효과를 발휘하는 단백질을 포함한다.

단백질 "항원-결합 단백질". 항원-결합 단백질은, 자신과 결합하는 다른 분자(항원)에 대해 강한 친화성을 갖는 항원-결합 영역 또는 항원-결합 부분을 포함하는 단백질 또는 폴리펩티드를 지칭한다. 항원-결합 단백질은, (단쇄 가변 단편(scFvs) 및 이중 사슬(2가) scFv, 뮤테인, xMAb, 및 키메라 항원 수용체(CAR)를 포함하는) 항체, 펩티바디, 항체 단편, 항체 유도체, 항체 유사체, 융합 단백질을 포함한다.

scFv는, 함께 연결된 항체의 중쇄 및 경쇄의 가변 영역들을 갖는 단쇄 항체 단편이다. 미국 특허 번호 7,741,465 및 6,319,494 및 Eshhar et al., Cancer Immunol Immunotherapy (1997) 45: 131-136을 참조하기 바란다. scFv는 표적 항원과 특이적으로 상호작용하는 모항체의 능력을 유지한다.

"항체"라는 용어는, 임의의 아이소타입 또는 서브클래스의 글리코실화 및 비글리코실화 이뮤노글로불린 모두에 대한 언급 또는 특이적 결합을 위해 온전한 항체와 경쟁하는 항원-결합 영역에 대한 언급을 포함한다. 달리 명시되지 않는 한, 항체는, 인간 항체, 인간화된 항체, 키메라 항체, 다중-특이적 항체, 모노클론 항체, 폴리클론 항체, 헤테로G 항체, XmAb 항체, 이중 특이적 항체, 및 이들의 올리고머 또는 항원 결합 단편을 포함한다. 항체는 lgG1-유형, lgG2-유형, IgG3-유형, 또는 lgG4-유형을 포함한다. 표적 폴리펩티드에 대한 특이적 항원 결합을 부여하기에 충분한 이뮤노글로불린의 적어도 일부를 포함하는, Fab, Fab', F(ab')2, Fv, 디아바디, Fd, dAb, 맥시바디, 단쇄 항체 분자, 단일 도메인 VHH, 상보성 결정 영역(CDR) 단편, scFv, 디아바디, 트리아바디, 테트라바디, 및 폴리펩티드와 같은 항원 결합 단편 또는 영역을 갖는 단백질도 포함된다.

또한, 인간에게 투여될 때 상당히 해로운 면역 반응을 일으키지 않는, 인간 단백질, 인간화된 단백질, 및 인간 및 인간화된 항체와 같은 다른 항원-결합 단백질이 포함된다.

또한, 선택적으로 링커를 통해 Fc 도메인과 함께 결합된 하나 이상의 생리활성 펩티드를 포함하는 폴리펩티드인 펩티바디가 포함된다. 미국 특허 번호 6,660,843, 7,138,370, 및 7,511,012를 참조하기 바란다.

단백질은, 또한, 키메라 항원 수용체(CAR 또는 CAR-T) 및 T 세포 수용체(TCR)와 같은 유전적으로 조작된 수용체를 포함한다. CAR은, 통상적으로 하나 이상의 공동자극("시그널링") 도메인 및 하나 이상의 활성화 도메인과 함께 (scFv 등의) 항원 결합 도메인을 통합한다.

또한, 포함되는 이중 특이적 T 세포 참여자(BiTE®) 항체 구축물은, 두 개의 유연하게 연결된 항체 유도 결합 도메인으로부터 제조된 재조합 단백질 구축물이다(WO 99/54440 및 WO 2005/040220 참조). 구축물의 하나의 결합 도메인은, 표적 세포 상에서 선택된 종양-연관 표면 항원에 대하여 특이적이고, 제2 결합 도메인은 T 세포 상의 T 세포 수용체 복합체의 서브유닛인 CD3에 대하여 특이적이다. BiTE® 구축물은, 또한, CD3s 사슬의 N-말단(WO 2008/119567)에서 콘텍스트 독립적 에피토프(context independent epitope)에 결합되어 T 세포를 더욱 특이하게 활성화하는 능력을 포함할 수 있다. 반감기 연장된 BiTE® 구축물은, 작은 이중 특이적 항체 구축물을 더 큰 단백질로 융합하는 것을 포함하며, 이는 바람직하게 BiTE® 항체 구축물의 치료 효과를 방해하지 않는다. 이중 특이적 T 세포 참여자의 이러한 추가 개발의 예는, 예를 들어, US 2014/0302037, US 2014/0308285, WO 2014/151910, 및 WO 2015/048272에 개시된 이중 특이적 Fc-분자를 포함한다. 대체 전략은, 이중 특이적 분자에 융합된 인간 혈청 알부민(HAS)의 사용 또는 인간 알부민 결합 펩티드의 단순한 융합이다(예를 들어 WO2013/128027, WO2014/140358 참조). 다른 HLE BiTE® 전략은, 표적 세포 표면 항원에 결합하는 제1 도메인, 인간 및/또는 Macaca CD3e 사슬의 세포외 에피토프에 결합하는 제2 도메인, 및 특이적 Fc 모달리티인 제3 도메인을 융합하는 것을 포함한다(WO2017/134140).

또한, 비공유 결합, 공유 결합, 또는 공유 결합 및 비공유 결합에 의해 화학적으로 개질된 단백질과 같은 개질된 단백질이 포함된다. 또한, 세포 개질 시스템에 의해 제조될 수 있는 하나 이상의 번역후 개질 또는 효소적 및/또는 화학적 방법에 의해 생체외 도입되거나 다른 방식으로 도입될 수 있는 개질을 추가로 포함하는 단백질이 포함된다.

단백질은, 또한, 예를 들어, 류신 지퍼, 코일드 코일, 이뮤노글로불린의 Fc 부분 등과 같은 다중화 도메인을 포함하는 재조합 융합 단백질을 포함할 수 있다. 또한, 분화 항원(CD 단백질이라고 함)의 아미노산 서열의 전부 또는 일부를 포함하는 단백질 또는 이들의 리간드 또는 이들 중 어느 하나와 실질적으로 유사한 단백질이 포함된다.

일부 실시예에서, 단백질은 과립구 콜로니 자극 인자(G-CSF)와 같은 콜로니 자극 인자를 포함할 수 있다. 이러한 G-CSF제는 Neupogen®(필그라스팀) 및 Neulasta®(페그필그라스팀)를 포함하지만 이에 제한되지는 않는다. 또한, Epogen®(에포에틴 알파), Aranesp®(다르베포에틴 알파), Dynepo®(에포에틴 베타), Mircera®(메톡시 폴리에틸렌 글리콜-에포에틴 베타), Hematide®, MRK-2578, INS-22, Retacrit®(에포에틴 제타), Neorecormon®(에포에틴 베타), Silapo®(에포에틴 제타), Binocrit®(에포에틴 알파)，에포에틴 알파 헥살, Abseamed®(에포에틴 알파), Ratioepo®(에포에틴 세타), Eporatio®(에포에틴 세타), Biopoin®에포에틴 세타)，에포에틴 알파, 에포에틴 베타, 에포에틴 제타, 에포에틴 세타, 및 에포에틴 델타, 에포에틴 오메가, 에포에틴 이오타, 조직 플라스미노겐 활성화제, GLP-1 수용체 작용제, 및 전술한 것들 중 임의의 것의 분자 또는 변이체 또는 유사체 및 바이오시밀러 등의 적혈구 생성 자극제(ESA)가 포함된다.

일부 실시예에서, 단백질은, 하나 이상의 CD 단백질, HER 수용체형 단백질, 세포 부착 분자, 성장 인자, 신경 성장 인자, 섬유 아세포 성장 인자, 형질전환 성장 인자(TGF), 인슐린-유사 성장 인자, 골 유도 인자, 인슐린 및 인슐린-관련 단백질, 응고 및 응고-관련 단백질, 콜로니 자극 인자(CSF), 기타 혈액 및 혈청 단백질 혈액형 항원; 수용체, 수용체-관련 단백질, 성장 호르몬, 성장 호르몬 수용체, T 세포 수용체; 신경 영양 인자, 뉴로트로핀, 릴랙신, 인터페론, 인터루킨, 바이러스 항원, 지단백질, 인테그린, 류마티스 인자, 면역 독소, 표면 막 단백질, 수송 단백질, 호밍 수용체, 어드레신, 조절 단백질, 및 면역 접착제에 특이적으로 결합되는 단백질을 포함할 수 있다.

일부 실시예에서, 단백질은, 다음 중 하나 이상에 결합하는 단백질을 단독으로 또는 임의의 조합으로 포함할 수 있다: CD3, CD4, CD5, CD7, CD8, CD19, CD20, CD22, CD25, CD30, CD33, CD34, CD38, CD40, CD70, CD123, CD133, CD138, CD171, CD174를 포함하지만 이에 제한되지 않는 CD 단백질, 예컨대, HER2, HER3, HER4 및 EGF 수용체를 포함하는 HER 수용체 군 단백질, EGFRv111, 세포 접착 분자, 예를 들어, LFA-1, Mol, pl50,95, VLA-4, ICAM-1, VCAM 및 알파 v/베타 3 인테그린, 예를 들어 혈관 내피 성장 인자("VEGF")를 포함하지만 이에 제한되지 않는 성장 인자; VEGFR2, 성장 호르몬, 갑상선 자극 호르몬, 난포 자극 호르몬, 황체 형성 호르몬, 성장 호르몬 방출 인자, 부갑상선 호르몬, 멀러리안-억제 물질, 인체 대식세포 염증 단백질(MIP-1-alpha), 적혈구 생성 인자(EPO), NGF-베타와 같은 신경 성장 인자, 혈소판 유도 성장 인자(PDGF), 예를 들어, aFGF 및 bFGF를 포함하는 섬유 아세포 성장 인자, 표피 성장 인자(EGF), 크립토, 특히, TGF-β1, TGF-β2, TGF-β3, TGF-β4 또는 TGF-β5를 포함하는 TGF-a 및 TGF-b를 포함하는 형질전환 성장 인자(TGF), 인슐린-유사 성장 인자-I 및 -II(IGF-I 및 IGF-II), des(1-3)-IGF-1(뇌 IGF-I), 및 골 유도 인자, 인슐린, 인슐린 A-사슬, 인슐린 B-사슬, 프로인슐린, 및 인슐린-유사 성장 인자 결합 단백질을 포함하지만 이에 제한되지 않는, 인슐린 및 인슐린-관련 단백질, 응고 및 응고-관련 단백질, 예컨대, 인자 VIII, 조직 인자, 폰 빌레브란트 인자, 단백질 C, 알파-1-안티트립신, 플라스미노겐 활성화제, 예컨대, 유로키나제 및 조직 플라스미노겐 활성화제("t-PA"), 봄바진, 트롬빈, 트롬보포이에틴, 및 트롬보포이에틴 수용체, 특히, M-CSF, GM-CSF 및 G-CSF를 포함하는 콜로니 자극 인자(CSF), 알부민을 포함하지만 이에 제한되지 않는 기타 혈액 및 혈청 단백질, IgE 및 혈액형 항원, 예를 들어, flk2/flt3 수용체, 비만(OB) 수용체, 성장 호르몬 수용체, 및 T- 세포 수용체를 포함하는 수용체 및 수용체-관련 단백질, 골 유도 신경영양 인자(BDNF) 및 뉴로트로핀 -3, -4, -5 또는 -6(NT-3, NT-4, NT-5 또는 NT-6)을 포함하지만 이에 제한되지 않는 신경영양 인자; 릴렉신 A-사슬, 릴렉신 B-사슬, 및 프로릴렉신, 예를 들어, 인터페론-알파,-베타, 및-감마를 포함하는 인터페론, 인터루킨(IL), 예를 들어, IL-1 내지 IL-10, IL-12, IL-15, IL-17, IL-23, IL-12/IL-23, IL-2Ra, IL1-R1, IL-6 수용체, IL-4 수용체 및/또는 IL-13 수용체, IL-13RA2, 또는 IL-17 수용체, IL-1 RAP; (xiv) AIDS 외피 바이러스 항원을 포함하지만 이에 제한되지 않는 바이러스 항원, 지단백질, 칼시토닌, 글루카곤, 심방 나트륨 이뇨 인자, 폐 계면활성제, 종양 괴사 인자-알파 및-베타, 엔케팔리나제, BCMA, lgKappa, ROR-1, ERBB2, 메소텔린, RANTES(일반적으로 T 세포가 발현되고 분비되는 활성화에 따라 조절됨), 마우스 고나도트로핀-관련 펩타이드, Dnase, FR-알파, 인히빈 및 액티빈, 인테그린, 단백질 A 또는 D, 류마티스 인자, 면역 독소, 뼈 형태형성 단백질(BMP), 수퍼옥사이드 디스무타제, 표면 막 단백질, 붕괴 가속 인자(DAF), AIDS 앤벨로프, 수송 단백질, 호밍 수용체, MIC(MIC-a, MIC-B), ULBP 1-6, EPCAM, 어드레신, 조절 단백질, 면역 접착제, 항원-결합 단백질, 소마트로핀, CTGF, CTLA4, 에오탁신-1, MUC1, CEA, c-MET, 클라우딘-18, GPC-3, EPHA2, FPA, LMP1, MG7, NY-ES0-1, PSCA, 강글리오시드 GD2, 강글리오시드 GM2, BAFF, OPGL(RANKL), 미오스타틴, Dickkopf-1(DKK-1), Ang2, NGF, IGF-1 수용체, 간세포 성장 인자(HGF), TRAIL-R2, c-Kit, B7RP-1, PSMA, NKG2D-1, 프로그래밍된 세포 사멸 단백질 1 및 리간드, PD1 및 PDL1, 만노스 수용체/hCGβ, C-형 간염 바이러스, 메소텔린 dsFv[PE38 접합체, 레지오넬라 뉴모필라(lly), IFN 감마, 인터페론 감마 유도 단백질 10(IP10), IFNAR, TALL-1, 흉선 기질 림포이에틴(TSLP), 프로단백질 전환효소 서브틸리신/케신 9형(PCSK9), 줄기 세포 인자, Flt-3, 칼시토닌 유전자-관련 펩티드(CGRP), OX40L, α4β7, 혈소판 특이성(혈소판 당단백질 Iib/IIIb(PAC-1), 형질전환 성장 인자 베타(TFGβ), 조나 펠루시다 정자-결합 단백질 3(ZP-3), TWEAK, 혈소판 유도 성장 인자 수용체 알파(PDGFRα), 스클레로스틴, 및 생물학적 활성 단편 또는 전술한 것들 중 임의의 것의 변이체.

다른 일 실시예에서, 단백질은, 압식시맙, 아달리 무맙, 아데카투무맙, 애플리버셉트, 알렘루주맙, 알리로쿠맙, 아나킨라, 아타시셉트, 바실릭시맙, 벨리무맙, 베바시주맙, 바이오소주맙, 블리나투모맙, 브렌툭시맙 베도틴, 브로달루맙, 칸투주맙, 메르탄신, 카나키누맙, 세툭시맙, 세르토리주맙 페골, 코나투무맙, 다클리주맙, 데노수맙, 에쿨리주맙, 에드레콜로맙, 에팔리주맙, 에프라투주맙, 에타네르셉트, 에볼로쿠맙, 갈릭시맙, 가니투맙, 겜투주맙, 골리무맙, 이브리투모맙, 티우섹탄, 인플릭시맙, 이필리무맙, 레르델리무맙, 루밀릭시맙, 익스드키주맙, 마파투무맙, 모테사닙, 디포스포테이트, 무로모납-CD3, 나탈리주맙, 네시리티드, 니모투주맙, 니볼루맙, 오크렐리주맙, 오파투무맙, 오말리주맙, 오프렐베킨, 팔리비주맙, 판티투무맙, 펨브롤리주맙, 페르투주맙, 펙셀리주맙, 라니비주맙, 릴로투무맙, 리툭시맙, 로미플로스팀, 로모소주맙, 사르가모스팀, 토실리주맙, 토시투모맙, 트라스투주맙, 우스테키누맙, 베돌리주맙, 비실리주맙, 볼로식시맙, 자놀리무맙, 잘루투무맙, 및 전술한 것들 중 임의의 것의 바이오시밀러를 포함한다.

단백질은, 전술한 모든 것을 포함하고, 전술한 항체들 중 임의의 항체의 1개, 2개, 3개, 4개, 5개 또는 6개의 상보성 결정 영역(CDR)을 포함하는 항체를 추가로 포함한다. 또한, 관심 단백질의 참조 아미노산 서열에 대하여 아미노산 서열의 70% 이상, 구체적으로 80% 이상, 더 구체적으로 90% 이상, 더 구체적으로 95% 이상, 더 구체적으로 97% 이상, 더 구체적으로 98% 이상, 더 구체적으로 99% 이상 동일한 영역을 포함하는 변이체가 포함된다. 이와 관련하여 동일성은, 잘 알려져 있으며 쉽게 이용가능한 다양한 아미노산 서열 분석 소프트웨어를 사용하여 결정될 수 있다. 선호되는 소프트웨어는, Smith-Waterman 알고리즘을 구현하는 소프트웨어를 포함하며, 이는 서열 검색 및 정렬 문제에 대한 만족스러운 해결책으로서 간주된다. 특히 속도가 중요한 고려 사항인 경우에는 다른 알고리즘도 사용할 수 있다. 이와 관련하여 사용될 수 있는 DNA, RNA, 및 폴리펩티드의 정렬 및 상동성 일치를 위해 일반적으로 사용되는 프로그램은, FAST A, TFASTA, BLASTN, BLASTP, BLASTX, TBLASTN, PROSRCFI, BLAZE, 및 MPSRCH를 포함하며, 후자는 MasPar에서 제조한 대규모 병렬 프로세서에서 실행하기 위한 Smith-Waterman 알고리즘의 구현예이다.

본원에 설명된 일부 도면은 하나 이상의 기능적 구성요소를 갖는 예시적인 블록도를 도시한다. 이러한 블록도는 예시를 위한 것이며, 설명되고 도시된 장치는 설명된 것보다 많은 구성요소, 적은 구성요소, 또는 대체 구성요소를 가질 수 있음을 이해할 것이다. 추가로, 다양한 실시예에서, 구성요소들(및 각 구성요소에 의해 제공되는 기능)은, 임의의 적합한 구성요소들 중 일부와 연관될 수 있거나 그 외에는 이러한 일부로서 통합될 수 있다.

본 개시 내용의 실시예들은, 다양한 컴퓨터-구현 동작을 수행하기 위한 컴퓨터 코드를 갖는 비일시적 컴퓨터 판독가능 저장 매체에 관한 것이다. "컴퓨터 판독가능 저장 매체"라는 용어는, 본원에서 설명된 동작, 방법, 및 기술을 수행하기 위한 일련의 명령어 또는 컴퓨터 코드를 저장하거나 인코딩할 수 있는 임의의 매체를 포함하도록 사용된다. 매체 및 컴퓨터 코드는, 본 개시 내용의 실시예의 목적을 위해 특별히 설계되고 구성된 것일 수 있거나, 컴퓨터 소프트웨어 분야의 당업자에게 잘 알려져 있고 이용가능한 종류일 수 있다. 컴퓨터 판독가능 저장 매체의 예는, 하드 디스크, 플로피 디스크, 및 자기 테이프와 같은 자기 매체; CD-ROM 및 홀로그래픽 장치와 같은 광학 매체; 광 디스크와 같은 광자기 매체; 및 ASIC, 프로그래머블 로직 장치("PLD"), ROM, 및 RAM 장치와 같이 프로그램 코드를 저장하고 실행하도록 특별히 구성된 하드웨어 장치를 포함하지만 이에 제한되지는 않는다.

컴퓨터 코드의 예는, 컴파일러에 의해 생성된 것과 같은 기계 코드, 및 인터프리터 또는 컴파일러를 사용하여 컴퓨터에 의해 실행되는 상위 레벨 코드를 포함하는 파일을 포함한다. 예를 들어, 본 개시 내용의 실시예는, 자바, C++, 또는 다른 객체 지향 프로그래밍 언어 및 개발 도구를 사용하여 구현될 수 있다. 컴퓨터 코드의 추가 예로는 암호화된 코드와 압축된 코드가 있다. 또한, 본 개시 내용의 실시예는, 컴퓨터 프로그램 제품으로서 다운로드될 수 있으며, 이러한 컴퓨터 프로그램 제품은, 전송 채널을 통해 원격 컴퓨터(예를 들어, 서버 컴퓨터)로부터 요청 컴퓨터(예를 들어, 클라이언트 컴퓨터 또는 다른 서버 컴퓨터)로 전송될 수 있다. 본 개시 내용의 다른 실시예는 기계-실행가능 소프트웨어 명령어 대신에 또는 이러한 명령어와 조합하여 하드웨어-내장 회로로 구현될 수 있다.

본원에 사용된 바와 같이, "한", "하나" 및 "그"라는 단수 용어는, 문맥상 명백하게 달리 지시하지 않는 한, 복수의 지시 대상을 포함할 수 있다.

본원에 사용된 바와 같이, "연결하다", "연결된", 및 "연결"이라는 용어는 동작 결합 또는 연결을 지칭한다. 연결된 구성요소들은, 예를 들어, 직접적으로 또는 구성요소들의 다른 세트를 통해 간접적으로 서로 결합될 수 있다.

본원에 사용된 바와 같이, "대략", "실질적으로", "실질적인", 및 "약"이라는 용어는 작은 변동을 설명하고 고려하도록 사용된다. 이들 용어는, 이벤트 또는 상황과 함께 사용되는 경우, 이벤트 또는 상황이 정확하게 발생하는 경우 및 이벤트 또는 상황이 가까운 근사치로 발생하는 경우를 가리킬 수 있다. 예를 들어, 이들 용어는, 수치와 함께 사용되는 경우, 해당 수치의 ±10% 이하, 예컨대, ±5% 이하, ±4% 이하, ±3% 이하, ±2% 이하, ±1% 이하, ±0.5% 이하, ±0.1% 이하, 또는 ±0.05% 이하의 변동 범위를 가리킬 수 있다. 예를 들어, 두 개의 수치는, 이들 수치 간의 차가 그 값들의 평균의 ±10% 이하이면, 예컨대, ±5% 이하, ±4% 이하, ±3% 이하, ±2% 이하, ±1% 이하, ±0.5% 이하, ±0.1% 이하, 또는 ±0.05% 이하이면, "실질적으로" 동일한 것으로 간주될 수 있다.

또한, 양, 비, 및 기타 수치는 본원에서 때때로 범위 형식으로 제시된다. 이러한 범위 형식은, 편의성과 간결성을 위해 사용되며, 범위의 한계값으로서 명시적으로 특정된 수치를 포함하고 각 수치와 하위 범위가 명시적으로 특정된 것처럼 그 범위 내의 모든 개별 수치 또는 하위 범위도 포함하도록 유연하게 이해되어야 한다는 점을 이해해야 한다.

본 개시 내용은 특정 실시예들을 참조하여 설명되고 예시되었지만, 이러한 설명과 예시는 본 개시 내용을 제한하지 않는다. 당업자라면, 첨부된 청구범위에 의해 정의된 바와 같은 본 개시 내용의 진정한 사상 및 범위를 벗어나지 않고 다양한 변경이 이루어질 수 있고 등가물로 대체될 수 있음을 당업자는 이해해야 한다. 도면은 반드시 축척대로 도시되지 않을 수도 있다. 제조 공정, 허용오차, 및/또는 기타 이유로 인해 본 개시 내용의 예술적 표현과 실제 장치 간에 차이가 있을 수 있다. 구체적으로 예시되지 않은 본 개시 내용의 다른 실시예가 있을 수 있다. (청구범위가 아닌) 명세서 및 도면은 제한적이기보다는 예시적인 것으로서 간주되어야 한다. 특정 상황, 재료, 물질의 조성, 기술, 또는 공정을 본 개시 내용의 목적, 정신, 및 범위에 맞게 수정할 수 있다. 이러한 모든 수정은 본원에 첨부된 청구항들의 범위 내에 있는 것으로 의도된 것이다. 본원에 개시된 기술들은 특정 순서로 수행되는 특정 동작들을 참조하여 설명되었지만, 이러한 동작들은 본 개시 내용의 교시로부터 벗어나지 않고 등가 기술을 형성하도록 결합, 세분화, 또는 재정렬될 수 있음을 이해할 것이다. 이에 따라, 본원에서 특정하게 달리 언급하지 않는 한, 동작들의 순서 및 그룹화는 본 개시 내용을 제한하지 않는다.

Claims

생물약제학적 공정(biopharmaceutical process)를 감시 및/또는 제어하는 컴퓨터 구현 방법으로서,
하나 이상의 프로세서에 의해, 분광 시스템에 의한 상기 생물약제학적 공정의 스캐닝에 연관된 질의점을 결정하는 단계;
상기 하나 이상의 프로세서에 의해, 생물약제학적 공정의 지난 관찰에 연관되고 각각 스펙트럼 데이터 및 대응하는 실제 분석 측정값을 포함하는 복수의 관찰 데이터 세트를 포함하는 관찰 데이터베이스에 질의하는 단계로서, 상기 복수의 관찰 데이터 세트 중에서 상기 질의점에 관하여 하나 이상의 관련성 기준을 충족하는 관찰 데이터 세트를 훈련 데이터로서 선택하는 단계를 포함하는, 단계;
상기 하나 이상의 프로세서에 의해 상기 선택된 훈련 데이터를 사용하여, 상기 생물약제학적 공정에 대하여 특정된 로컬 모델을 교정(calibrate)하는 단계로서, 상기 로컬 모델은 스펙트럼 데이터 입력에 기초하여 분석 측정값을 예측하도록 훈련되는, 단계; 및
상기 하나 이상의 프로세서에 의해, 상기 생물약제학적 공정의 분석 측정값을 예측하는 단계를 포함하고,
상기 생물약제학적 공정의 분석 측정값을 예측하는 단계는, 상기 생물약제학적 공정의 스캐닝시 상기 로컬 모델을 이용하여 상기 분광 시스템이 생성한 스펙트럼 데이터를 분석하는 단계를 포함하는, 컴퓨터 구현 방법.
제1항에 있어서, 상기 분광 시스템은 라만 분광 시스템인, 컴퓨터 구현 방법.
제1항 또는 제2항에 있어서, 질의점을 결정하는 단계는, 상기 생물약제학적 공정을 스캐닝할 때 상기 분광 시스템에 의해 생성되는 스펙트럼 스캔 벡터에 적어도 부분적으로 기초하여 상기 질의점을 결정하는 단계를 포함하고,
상기 질의점에 관하여 하나 이상의 관련성 기준을 충족하는 관찰 데이터 세트를 훈련 데이터로서 선택하는 단계는, 상기 질의점의 결정의 기반이 된 상기 스펙트럼 스캔 벡터를 상기 생물약제학적 공정의 지난 관찰에 연관된 스펙트럼 스캔 벡터와 비교하는 단계를 포함하는, 컴퓨터 구현 방법.
제3항에 있어서, 질의점을 결정하는 단계는, 상기 스펙트럼 스캔 벡터에 연관된 샘플 번호에 기초하여 상기 질의점을 결정하는 단계를 더 포함하고,
상기 질의점에 관하여 하나 이상의 관련성 기준을 충족하는 관찰 데이터 세트를 훈련 데이터로서 선택하는 단계는, (i) 상기 질의점의 결정의 기반이 된 상기 스펙트럼 스캔 벡터를 상기 생물약제학적 공정의 지난 관찰에 연관된 스펙트럼 스캔 벡터와 비교하는 단계, 및 (ii) 상기 질의점에 연관된 샘플 번호를 상기 생물약제학적 공정의 지난 관찰에 연관된 샘플 번호와 비교하는 단계를 포함하는, 컴퓨터 구현 방법.
제4항에 있어서, 상기 질의점에 관하여 하나 이상의 관련성 기준을 충족하는 관찰 데이터 세트를 훈련 데이터로서 선택하는 단계는, 상기 훈련 데이터에 포함하도록 가장 최근의 k개의 관찰 데이터 세트를 선택하는 단계를 포함하는, 컴퓨터 구현 방법.
제3항 내지 제5항 중 어느 한 항에 있어서, 상기 생물약제학적 공정의 분석 측정값을 예측하는 단계는, 상기 로컬 모델을 이용하여 상기 질의점의 결정의 기반이 된 스펙트럼 스캔 벡터를 분석하는 단계를 포함하는, 컴퓨터 구현 방법.
제3항 내지 제6항 중 어느 한 항에 있어서, 상기 질의점에 관하여 하나 이상의 관련성 기준을 충족하는 관찰 데이터 세트를 훈련 데이터로서 선택하는 단계는,
(i) 상기 질의점의 결정의 기반이 된 스펙트럼 스캔 벡터와 (ii) 상기 생물약제학적 공정의 지난 관찰에 연관된 스펙트럼 스캔 벡터 간의 거리를 계산하는 단계; 및
상기 질의점의 결정의 기반이 된 스펙트럼 스캔 벡터의 임계 거리 내에 있는 지난 관찰에 연관된 스펙트럼 스캔 벡터들 중 임의의 스펙트럼 스캔 벡터를 상기 훈련 데이터로서 선택하는 단계를 포함하는, 컴퓨터 구현 방법.
제1항 내지 제7항 중 어느 한 항에 있어서, 질의점을 결정하는 단계는,
(i) 상기 생물약제학적 공정에 연관된 배지 프로파일 및 (ii) 상기 생물약제학적 공정이 분석되는 하나 이상의 동작 조건 중 하나 또는 둘 다에 적어도 부분적으로 기초하여 상기 질의점을 결정하는 단계를 포함하는, 컴퓨터 구현 방법.
제1항 내지 제8항 중 어느 한 항에 있어서, 상기 생물약제학적 공정에 대하여 특정된 로컬 모델을 교정하는 단계는, 상기 생물약제학적 공정에 대하여 특정된 가우시안 공정 기계-학습 모델을 교정하는 단계를 포함하는, 컴퓨터 구현 방법.
제1항 내지 제9항 중 어느 한 항에 있어서, 상기 생물약제학적 공정에 대하여 특정된 로컬 모델을 교정하는 단계는, 주어진 관찰 데이터 세트의 샘플 번호와 스펙트럼 데이터 모두의 함수인 모델을 교정하는 단계를 포함하는, 컴퓨터 구현 방법.
제1항 내지 제10항 중 어느 한 항에 있어서, 상기 생물약제학적 공정의 분석 측정값을 예측하는 단계는, 상기 로컬 모델을 이용하여 상기 생물약제학적 공정의 예측된 분석 측정값에 연관된 신뢰 지표를 결정하는 단계를 포함하는, 컴퓨터 구현 방법.
제1항 내지 제11항 중 어느 한 항에 있어서, 상기 하나 이상의 프로세서에 의해 상기 생물약제학적 공정의 예측된 분석 측정값에 적어도 부분적으로 기초하여, 상기 생물약제학적 공정의 적어도 하나의 파라미터를 제어하는 단계를 더 포함하는, 컴퓨터 구현 방법.
제1항 내지 제12항 중 어느 한 항에 있어서, 상기 생물약제학적 공정의 예측된 분석 측정값은, 배지 성분 농도, 배지 상태, 생존 세포 밀도, 역가, 임계 품질 속성, 또는 세포 상태인, 컴퓨터 구현 방법.
제1항 내지 제13항 중 어느 한 항에 있어서, 상기 생물약제학적 공정의 예측된 분석 측정값은, 글루코스, 락테이트, 글루타메이트, 글루타민, 암모니아, 아미노산, Na⁺, 또는 K⁺의 농도인, 컴퓨터 구현 방법.
제1항 내지 제13항 중 어느 한 항에 있어서, 상기 생물약제학적 공정의 예측된 분석 측정값은 pH, pCO₂, pO₂, 온도, 또는 삼투압 농도인, 컴퓨터 구현 방법.
제1항 내지 제15항 중 어느 한 항에 있어서,
분석 기기에 의해, 상기 생물약제학적 공정의 실제 분석 측정값을 취득하는 단계; 및
상기 하나 이상의 프로세서에 의해, (i) 상기 실제 분석 측정값이 취득되었을 때 상기 분광 시스템이 생성한 스펙트럼 데이터 및 (ii) 상기 생물약제학적 공정의 실제 분석 측정값이 상기 관찰 데이터베이스에 추가되게 하는 단계를 더 포함하는, 컴퓨터 구현 방법.
제16항에 있어서, 상기 하나 이상의 프로세서에 의해, 적어도 상기 예측된 분석 측정값이 하나 이상의 모델 성능 기준을 충족하지 않는다고 결정하는 단계를 더 포함하고,
상기 실제 분석 측정값을 취득하는 단계는, 적어도 상기 예측된 분석 측정값이 상기 하나 이상의 모델 성능 기준을 충족하지 않는다는 결정에 응답하여 수행되는, 컴퓨터 구현 방법.
제17항에 있어서, 적어도 상기 예측된 분석 측정값이 하나 이상의 모델 성능 기준을 충족하지 않는다고 결정하는 단계는,
상기 예측된 분석 측정값에 연관된 신뢰성 간격을 생성하는 단계; 및
상기 신뢰도 간격을 미리 정의된 임계값과 비교하는 단계를 포함하는, 컴퓨터 구현 방법.
제1항 내지 제18항 중 어느 한 항에 있어서, 상기 생물약제학적 공정은 세포 배양 공정인, 컴퓨터 구현 방법.
생물약제학적 공정을 감시 및/또는 제어하는 분광 시스템으로서,
(i) 상기 생물약제학적 공정에 소스 전자기 방사를 전달하고 (ii) 상기 소스 전자기 방사가 상기 생물약제학적 공정에 전달되는 동안 전자기 방사를 수집하도록 총괄적으로 구성된 하나 이상의 분광 프로브;
생물약제학적 공정의 지난 관찰에 연관된 복수의 관찰 데이터 세트를 포함하는 관찰 데이터베이스를 총괄적으로 저장하는 하나 이상의 메모리로서, 상기 관찰 데이터 세트의 각각은 스펙트럼 데이터 및 대응하는 실제 분석 측정값을 포함하는, 하나 이상의 메모리; 및
하나 이상의 프로세서를 포함하고,
상기 프로세서는, 상기 분광 시스템에 의해 상기 생물약제학적 공정의 스캐닝에 연관된 질의점을 결정하고,
적어도 상기 복수의 관찰 데이터 세트 중에서 상기 질의점에 대하여 하나 이상의 관련성 기준을 충족하는 관찰 데이터 세트를 훈련 데이터로서 선택함으로써, 상기 관찰 데이터베이스에 질의하고,
상기 선택된 훈련 데이터를 이용하여, 스펙트럼 데이터 입력에 기초하여 분석 측정값을 예측하도록 훈련되고 상기 생물약제학적 공정에 대하여 특정된 로컬 모델을 교정하고,
적어도 상기 하나 이상의 분광 프로브를 이용하여 상기 생물약제학적 공정을 스캐닝할 때 상기 로컬 모델을 이용하여 상기 분광 시스템이 생성한 스펙트럼 데이터를 분석함으로써, 상기 생물약제학적 공정의 분석 측정값을 예측하도록 구성된, 분광 시스템.
제20항에 있어서, 상기 분광 시스템은 라만 분광 시스템인, 분광 시스템.
제20항 또는 제21항에 있어서, 상기 하나 이상의 프로세서는,
상기 생물약제학적 공정을 스캐닝할 때 상기 분광 시스템에 의해 생성되는 스펙트럼 스캔 벡터에 적어도 부분적으로 기초하여 상기 질의점을 결정하고,
적어도 상기 질의점의 결정의 기반이 된 상기 스펙트럼 스캔 벡터를 상기 생물약제학적 공정의 지난 관찰에 연관된 스펙트럼 스캔 벡터와 비교함으로써, 상기 훈련 데이터를 선택하도록 구성된, 분광 시스템.
제22항에 있어서, 상기 하나 이상의 프로세서는,
상기 스펙트럼 스캔 벡터에 연관된 샘플 번호에 부분적으로 기초하여 상기 질의점을 결정하고,
(i) 상기 질의점의 결정의 기반이 된 상기 스펙트럼 스캔 벡터를 상기 생물약제학적 공정의 지난 관찰에 연관된 스펙트럼 스캔 벡터와 비교하고, (ii) 상기 질의점에 연관된 샘플 번호를 상기 생물약제학적 공정의 지난 관찰에 연관된 샘플 번호와 비교함으로써, 부분적으로 상기 질의점에 관하여 하나 이상의 관련성 기준을 충족하는 관찰 데이터 세트를 훈련 데이터로서 선택하도록 구성된, 분광 시스템.
제23항에 있어서, 상기 하나 이상의 프로세서는, 훈련 데이터에 포함하도록 가장 최근의 k개의 관찰 데이터 세트를 선택함으로써, 부분적으로 상기 질의점에 관하여 하나 이상의 관련성 기준을 충족하는 관찰 데이터 세트를 상기 훈련 데이터로서 선택하도록 구성된, 분광 시스템.
제20항 내지 제24항 중 어느 한 항에 있어서, 상기 로컬 모델은 가우시안 공정 기계-학습 모델인, 분광 시스템.
제20항 내지 제25항 중 어느 한 항에 있어서, 상기 로컬 모델은 주어진 관찰 데이터 세트의 샘플 번호와 스펙트럼 데이터 모두의 함수인, 분광 시스템.
제20항 내지 제26항 중 어느 한 항에 있어서, 상기 하나 이상의 프로세서는, 또한, 상기 로컬 모델을 이용하여 상기 생물약제학적 공정의 예측된 분석 측정값에 연관된 신뢰 지표를 결정하도록 구성된, 분광 시스템.
제20항 내지 제27항 중 어느 한 항에 있어서, 상기 하나 이상의 프로세서는, 또한, 상기 생물약제학적 공정의 예측된 분석 측정값에 적어도 부분적으로 기초하여, 상기 생물약제학적 공정의 적어도 하나의 파라미터를 제어하도록 구성된, 분광 시스템.
제20항 내지 제28항 중 어느 한 항에 있어서, 상기 생물약제학적 공정의 예측된 분석 측정값은, 배지 성분 농도, 배지 상태, 생존 세포 밀도, 역가, 임계 품질 속성, 또는 세포 상태인, 분광 시스템.
제20항 내지 제29항 중 어느 한 항에 있어서, 상기 생물약제학적 공정의 예측된 분석 측정값은, 글루코스, 락테이트, 글루타메이트, 글루타민, 암모니아, 아미노산, Na⁺, 또는 K⁺의 농도인, 분광 시스템.
제20항 내지 제29항 중 어느 한 항에 있어서, 상기 생물약제학적 공정의 예측된 분석 측정값은 pH, pCO₂, pO₂, 온도, 또는 삼투압 농도인, 분광 시스템.
제20항 내지 제31항 중 어느 한 항에 있어서, 상기 생물약제학적 공정의 실제 분석 측정값을 취득하도록 구성된 분석 기기를 더 포함하고,
상기 하나 이상의 프로세서는, 또한, (i) 상기 실제 분석 측정값이 취득되었을 때 상기 분광 시스템이 생성한 스펙트럼 데이터 및 (ii) 상기 생물약제학적 공정의 실제 분석 측정값이 상기 관찰 데이터베이스에 추가되게 하도록 구성된, 분광 시스템.
제32항에 있어서, 상기 하나 이상의 프로세서는, 또한,
적어도 상기 예측된 분석 측정값이 하나 이상의 모델 성능 기준을 충족하지 않는다고 결정하고,
적어도 상기 예측된 분석 측정값이 상기 하나 이상의 모델 성능 기준을 충족하지 않는다는 결정에 응답하여 상기 분석 기기로부터 상기 실제 분석 측정값을 취득하도록 구성된, 분광 시스템.
제33항에 있어서, 상기 하나 이상의 프로세서는,
적어도 상기 예측된 분석 측정값에 연관된 신뢰성 간격을 생성하고 상기 신뢰도 간격을 미리 정의된 임계값과 비교함으로써, 적어도 상기 예측된 분석 측정값이 하나 이상의 모델 성능 기준을 충족하지 않는다고 결정하도록 구성된, 분광 시스템.
제20항 내지 제34항 중 어느 한 항에 있어서, 상기 생물약제학적 공정은 세포 배양 공정인, 분광 시스템.
생물약제학적 공정을 감시 및/또는 제어하는 명령어를 저장하는 비일시적 컴퓨터 판독가능 매체로서,
상기 명령어는, 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서가 제1항 내지 제19항 중 어느 한 항의 방법을 수행하게 하는, 비일시적 컴퓨터 판독가능 매체.
바이오리액터 시스템으로서,
생물약제학적 공정을 포함하도록 구성된 바이오리액터 챔버;
(i) 상기 생물약제학적 공정에 소스 전자기 방사를 전달하고 (ii) 상기 소스 전자기 방사가 상기 생물약제학적 공정에 전달되는 동안 전자기 방사를 수집하도록 총괄적으로 구성된 하나 이상의 분광 프로브;
생물약제학적 공정의 지난 관찰에 연관된 복수의 관찰 데이터 세트를 포함하는 관찰 데이터베이스를 총괄적으로 저장하는 하나 이상의 메모리로서, 상기 관찰 데이터 세트의 각각은 스펙트럼 데이터 및 대응하는 실제 분석 측정값을 포함하는, 하나 이상의 메모리; 및
하나 이상의 프로세서를 포함하고,
상기 프로세서는,
상기 분광 시스템에 의해 상기 생물약제학적 공정의 스캐닝에 연관된 질의점을 결정하고,
적어도 상기 복수의 관찰 데이터 세트 중에서 상기 질의점에 대하여 하나 이상의 관련성 기준을 충족하는 관찰 데이터 세트를 훈련 데이터로서 선택함으로써, 상기 관찰 데이터베이스에 질의하고,
상기 선택된 훈련 데이터를 이용하여, 스펙트럼 데이터 입력에 기초하여 분석 측정값을 예측하도록 훈련되고 상기 생물약제학적 공정에 대하여 특정된 로컬 모델을 교정하고,
적어도 상기 하나 이상의 분광 프로브를 이용하여 상기 생물약제학적 공정을 스캐닝할 때 상기 로컬 모델을 이용하여 상기 분광 시스템이 생성한 스펙트럼 데이터를 분석함으로써, 상기 생물약제학적 공정의 분석 측정값을 예측하도록 구성된, 바이오리액터 시스템.
제37항에 있어서, 상기 하나 이상의 프로세서는,
상기 하나 이상의 분광 프로브를 통하여 상기 생물약제학적 공정을 스캐닝할 때 생성되는 스펙트럼 스캔 벡터에 적어도 부분적으로 기초하여 상기 질의점을 결정하고,
적어도 상기 질의점의 결정의 기반이 된 상기 스펙트럼 스캔 벡터를 상기 생물약제학적 공정의 지난 관찰에 연관된 스펙트럼 스캔 벡터와 비교함으로써, 상기 훈련 데이터를 선택하도록 구성된, 바이오리액터 시스템.
제38항에 있어서, 상기 하나 이상의 프로세서는,
상기 스펙트럼 스캔 벡터에 연관된 샘플 번호에 부분적으로 기초하여 상기 질의점을 결정하고,
(i) 상기 질의점의 결정의 기반이 된 상기 스펙트럼 스캔 벡터를 상기 생물약제학적 공정의 지난 관찰에 연관된 스펙트럼 스캔 벡터와 비교하고, (ii) 상기 질의점에 연관된 샘플 번호를 상기 생물약제학적 공정의 지난 관찰에 연관된 샘플 번호와 비교함으로써, 부분적으로 상기 질의점에 관하여 하나 이상의 관련성 기준을 충족하는 관찰 데이터 세트를 훈련 데이터로서 선택하도록 구성된, 바이오리액터 시스템.
제39항에 있어서, 상기 하나 이상의 프로세서는,
훈련 데이터에 포함하도록 가장 최근의 k개의 관찰 데이터 세트를 선택함으로써, 부분적으로 상기 질의점에 관하여 하나 이상의 관련성 기준을 충족하는 관찰 데이터 세트를 상기 훈련 데이터로서 선택하도록 구성된, 바이오리액터 시스템.
제37항 내지 제40항 중 어느 한 항에 있어서, 상기 로컬 모델은 가우시안 공정 기계-학습 모델인, 바이오리액터 시스템.
제37항 내지 제41항 중 어느 한 항에 있어서, 상기 로컬 모델은 주어진 관찰 데이터 세트의 샘플 번호와 스펙트럼 데이터 모두의 함수인, 바이오리액터 시스템.
제37항 내지 제42항 중 어느 한 항에 있어서, 상기 하나 이상의 프로세서는, 또한, 상기 로컬 모델을 이용하여 상기 생물약제학적 공정의 예측된 분석 측정값에 연관된 신뢰 지표를 결정하도록 구성된, 바이오리액터 시스템.
제37항 내지 제43항 중 어느 한 항에 있어서, 상기 하나 이상의 프로세서는, 또한, 상기 생물약제학적 공정의 예측된 분석 측정값에 적어도 부분적으로 기초하여, 상기 생물약제학적 공정의 적어도 하나의 파라미터를 제어하도록 구성된, 바이오리액터 시스템.
제37항 내지 제44항 중 어느 한 항에 있어서, 상기 생물약제학적 공정의 예측된 분석 측정값은, 배지 성분 농도, 배지 상태, 생존 세포 밀도, 역가, 임계 품질 속성, 또는 세포 상태인, 바이오리액터 시스템.
제37항 내지 제45항 중 어느 한 항에 있어서, 상기 생물약제학적 공정의 예측된 분석 측정값은, 글루코스, 락테이트, 글루타메이트, 글루타민, 암모니아, 아미노산, Na⁺, 또는 K⁺의 농도인, 컴퓨터 구현 방법.
제37항 내지 제45항 중 어느 한 항에 있어서, 상기 생물약제학적 공정의 예측된 분석 측정값은 pH, pCO₂, pO₂, 온도, 또는 삼투압 농도인, 컴퓨터 구현 방법.
제37항 내지 제47항 중 어느 한 항에 있어서, 상기 생물약제학적 공정의 실제 분석 측정값을 취득하도록 구성된 분석 기기를 더 포함하고,
상기 하나 이상의 프로세서는, 또한, (i) 상기 실제 분석 측정값이 취득되었을 때 상기 분광 시스템이 생성한 스펙트럼 데이터 및 (ii) 상기 생물약제학적 공정의 실제 분석 측정값이 상기 관찰 데이터베이스에 추가되게 하도록 구성된, 분광 시스템.
제48항에 있어서, 상기 하나 이상의 프로세서는, 또한,
적어도 상기 예측된 분석 측정값이 하나 이상의 모델 성능 기준을 충족하지 않는다고 결정하고,
적어도 상기 예측된 분석 측정값이 상기 하나 이상의 모델 성능 기준을 충족하지 않는다는 결정에 응답하여 상기 분석 기기로부터 상기 실제 분석 측정값을 취득하도록 구성된, 분광 시스템.
제49항에 있어서, 상기 하나 이상의 프로세서는, 적어도 상기 예측된 분석 측정값에 연관된 신뢰성 간격을 생성하고 상기 신뢰도 간격을 미리 정의된 임계값과 비교함으로써, 적어도 상기 예측된 분석 측정값이 하나 이상의 모델 성능 기준을 충족하지 않는다고 결정하도록 구성된, 분광 시스템.
제37항 내지 제50항 중 어느 한 항에 있어서, 상기 생물약제학적 공정은 세포 배양 공정인, 분광 시스템.
제51항의 바이오리액터 시스템에서 수행된 세포 배양 공정에서 생성된 재조합 단백질.