EA043314B1 - AUTOMATIC CALIBRATION AND AUTOMATIC MAINTENANCE OF RAMAN SPECTROSCOPIC MODELS FOR REAL-TIME PREDICTIONS - Google Patents
AUTOMATIC CALIBRATION AND AUTOMATIC MAINTENANCE OF RAMAN SPECTROSCOPIC MODELS FOR REAL-TIME PREDICTIONS Download PDFInfo
- Publication number
- EA043314B1 EA043314B1 EA202191101 EA043314B1 EA 043314 B1 EA043314 B1 EA 043314B1 EA 202191101 EA202191101 EA 202191101 EA 043314 B1 EA043314 B1 EA 043314B1
- Authority
- EA
- Eurasian Patent Office
- Prior art keywords
- observational
- manufacturing process
- biopharmaceutical manufacturing
- query point
- analytical measurement
- Prior art date
Links
- 238000012423 maintenance Methods 0.000 title description 25
- 238000000034 method Methods 0.000 claims description 237
- 230000008569 process Effects 0.000 claims description 161
- 238000004458 analytical method Methods 0.000 claims description 126
- 229960000074 biopharmaceutical Drugs 0.000 claims description 113
- 238000001069 Raman spectroscopy Methods 0.000 claims description 110
- 239000013598 vector Substances 0.000 claims description 97
- 230000003595 spectral effect Effects 0.000 claims description 73
- 238000004519 manufacturing process Methods 0.000 claims description 69
- 239000000523 sample Substances 0.000 claims description 62
- 238000012549 training Methods 0.000 claims description 45
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 claims description 35
- 239000008103 glucose Substances 0.000 claims description 35
- 238000004611 spectroscopical analysis Methods 0.000 claims description 34
- 238000005259 measurement Methods 0.000 claims description 31
- QGZKDVFQNNGYKY-UHFFFAOYSA-N Ammonia Chemical compound N QGZKDVFQNNGYKY-UHFFFAOYSA-N 0.000 claims description 22
- 239000001963 growth medium Substances 0.000 claims description 21
- 150000001413 amino acids Chemical class 0.000 claims description 18
- 238000003860 storage Methods 0.000 claims description 17
- JVTAAEKCZFNVCJ-UHFFFAOYSA-M Lactate Chemical compound CC(O)C([O-])=O JVTAAEKCZFNVCJ-UHFFFAOYSA-M 0.000 claims description 14
- WQZGKKKJIJFFOK-VFUOTHLCSA-N beta-D-glucose Chemical compound OC[C@H]1O[C@@H](O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-VFUOTHLCSA-N 0.000 claims description 13
- WHUUTDBJXJRKMK-VKHMYHEASA-N L-glutamic acid Chemical compound OC(=O)[C@@H](N)CCC(O)=O WHUUTDBJXJRKMK-VKHMYHEASA-N 0.000 claims description 11
- ZDXPYRJPNDTMRX-VKHMYHEASA-N L-glutamine Chemical compound OC(=O)[C@@H](N)CCC(N)=O ZDXPYRJPNDTMRX-VKHMYHEASA-N 0.000 claims description 11
- 229910021529 ammonia Inorganic materials 0.000 claims description 11
- 229930195712 glutamate Natural products 0.000 claims description 11
- ZDXPYRJPNDTMRX-UHFFFAOYSA-N glutamine Natural products OC(=O)C(N)CCC(N)=O ZDXPYRJPNDTMRX-UHFFFAOYSA-N 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 11
- 238000004113 cell culture Methods 0.000 claims description 10
- 239000002609 medium Substances 0.000 claims description 9
- 238000010801 machine learning Methods 0.000 claims description 7
- 238000012544 monitoring process Methods 0.000 claims description 7
- 239000000463 material Substances 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 4
- 230000005670 electromagnetic radiation Effects 0.000 claims 6
- 230000008878 coupling Effects 0.000 claims 1
- 238000010168 coupling process Methods 0.000 claims 1
- 238000005859 coupling reaction Methods 0.000 claims 1
- 102000004169 proteins and genes Human genes 0.000 description 54
- 108090000623 proteins and genes Proteins 0.000 description 54
- 235000018102 proteins Nutrition 0.000 description 53
- 230000006870 function Effects 0.000 description 34
- 210000004027 cell Anatomy 0.000 description 28
- 238000004422 calculation algorithm Methods 0.000 description 26
- 239000002207 metabolite Substances 0.000 description 19
- 235000015097 nutrients Nutrition 0.000 description 19
- -1 epoetin-iota Proteins 0.000 description 18
- 239000000427 antigen Substances 0.000 description 16
- 102000036639 antigens Human genes 0.000 description 16
- 108091007433 antigens Proteins 0.000 description 16
- 230000027455 binding Effects 0.000 description 15
- 108090000765 processed proteins & peptides Proteins 0.000 description 15
- 238000009826 distribution Methods 0.000 description 14
- 102000004196 processed proteins & peptides Human genes 0.000 description 14
- 239000000306 component Substances 0.000 description 13
- 235000001014 amino acid Nutrition 0.000 description 12
- 238000013459 approach Methods 0.000 description 12
- 238000002474 experimental method Methods 0.000 description 12
- 229920001184 polypeptide Polymers 0.000 description 12
- 102000005962 receptors Human genes 0.000 description 11
- 108020003175 receptors Proteins 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 238000005070 sampling Methods 0.000 description 9
- FKNQFGJONOIPTF-UHFFFAOYSA-N Sodium cation Chemical compound [Na+] FKNQFGJONOIPTF-UHFFFAOYSA-N 0.000 description 8
- 230000003044 adaptive effect Effects 0.000 description 8
- NOESYZHRGYRDHS-UHFFFAOYSA-N insulin Chemical compound N1C(=O)C(NC(=O)C(CCC(N)=O)NC(=O)C(CCC(O)=O)NC(=O)C(C(C)C)NC(=O)C(NC(=O)CN)C(C)CC)CSSCC(C(NC(CO)C(=O)NC(CC(C)C)C(=O)NC(CC=2C=CC(O)=CC=2)C(=O)NC(CCC(N)=O)C(=O)NC(CC(C)C)C(=O)NC(CCC(O)=O)C(=O)NC(CC(N)=O)C(=O)NC(CC=2C=CC(O)=CC=2)C(=O)NC(CSSCC(NC(=O)C(C(C)C)NC(=O)C(CC(C)C)NC(=O)C(CC=2C=CC(O)=CC=2)NC(=O)C(CC(C)C)NC(=O)C(C)NC(=O)C(CCC(O)=O)NC(=O)C(C(C)C)NC(=O)C(CC(C)C)NC(=O)C(CC=2NC=NC=2)NC(=O)C(CO)NC(=O)CNC2=O)C(=O)NCC(=O)NC(CCC(O)=O)C(=O)NC(CCCNC(N)=N)C(=O)NCC(=O)NC(CC=3C=CC=CC=3)C(=O)NC(CC=3C=CC=CC=3)C(=O)NC(CC=3C=CC(O)=CC=3)C(=O)NC(C(C)O)C(=O)N3C(CCC3)C(=O)NC(CCCCN)C(=O)NC(C)C(O)=O)C(=O)NC(CC(N)=O)C(O)=O)=O)NC(=O)C(C(C)CC)NC(=O)C(CO)NC(=O)C(C(C)O)NC(=O)C1CSSCC2NC(=O)C(CC(C)C)NC(=O)C(NC(=O)C(CCC(N)=O)NC(=O)C(CC(N)=O)NC(=O)C(NC(=O)C(N)CC=1C=CC=CC=1)C(C)C)CC1=CN=CN1 NOESYZHRGYRDHS-UHFFFAOYSA-N 0.000 description 8
- 102000004877 Insulin Human genes 0.000 description 7
- 108090001061 Insulin Proteins 0.000 description 7
- 108010025020 Nerve Growth Factor Proteins 0.000 description 7
- 108010008281 Recombinant Fusion Proteins Proteins 0.000 description 7
- 102000007056 Recombinant Fusion Proteins Human genes 0.000 description 7
- 238000012628 principal component regression Methods 0.000 description 7
- 239000000126 substance Substances 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 108010019670 Chimeric Antigen Receptors Proteins 0.000 description 5
- 102000007644 Colony-Stimulating Factors Human genes 0.000 description 5
- 108010071942 Colony-Stimulating Factors Proteins 0.000 description 5
- 102000007072 Nerve Growth Factors Human genes 0.000 description 5
- 108091008874 T cell receptors Proteins 0.000 description 5
- 102000016266 T-Cell Antigen Receptors Human genes 0.000 description 5
- 102000025171 antigen binding proteins Human genes 0.000 description 5
- 108091000831 antigen binding proteins Proteins 0.000 description 5
- 229940047120 colony stimulating factors Drugs 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 239000012634 fragment Substances 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 238000010238 partial least squares regression Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 102000004506 Blood Proteins Human genes 0.000 description 4
- 108010017384 Blood Proteins Proteins 0.000 description 4
- 108010047041 Complementarity Determining Regions Proteins 0.000 description 4
- 108010017080 Granulocyte Colony-Stimulating Factor Proteins 0.000 description 4
- 102000004269 Granulocyte Colony-Stimulating Factor Human genes 0.000 description 4
- 108090000099 Neurotrophin-4 Proteins 0.000 description 4
- 238000001237 Raman spectrum Methods 0.000 description 4
- 210000001744 T-lymphocyte Anatomy 0.000 description 4
- 108010009583 Transforming Growth Factors Proteins 0.000 description 4
- 102000009618 Transforming Growth Factors Human genes 0.000 description 4
- 210000004369 blood Anatomy 0.000 description 4
- 239000008280 blood Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 108010081679 epoetin theta Proteins 0.000 description 4
- 229950008826 epoetin theta Drugs 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 239000012530 fluid Substances 0.000 description 4
- 229940125396 insulin Drugs 0.000 description 4
- 239000012092 media component Substances 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000036961 partial effect Effects 0.000 description 4
- 102000014914 Carrier Proteins Human genes 0.000 description 3
- 108010074604 Epoetin Alfa Proteins 0.000 description 3
- 102000008100 Human Serum Albumin Human genes 0.000 description 3
- 108091006905 Human Serum Albumin Proteins 0.000 description 3
- 108060003951 Immunoglobulin Proteins 0.000 description 3
- 108090000723 Insulin-Like Growth Factor I Proteins 0.000 description 3
- 102000015696 Interleukins Human genes 0.000 description 3
- 108010063738 Interleukins Proteins 0.000 description 3
- 101100335081 Mus musculus Flt3 gene Proteins 0.000 description 3
- 102000003978 Tissue Plasminogen Activator Human genes 0.000 description 3
- 108090000373 Tissue Plasminogen Activator Proteins 0.000 description 3
- 102000004887 Transforming Growth Factor beta Human genes 0.000 description 3
- 108090001012 Transforming Growth Factor beta Proteins 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 3
- 125000000539 amino acid group Chemical group 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000013406 biomanufacturing process Methods 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 3
- 230000001066 destructive effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 108010030868 epoetin zeta Proteins 0.000 description 3
- 229950005185 epoetin zeta Drugs 0.000 description 3
- 230000012010 growth Effects 0.000 description 3
- 239000003102 growth factor Substances 0.000 description 3
- 102000018358 immunoglobulin Human genes 0.000 description 3
- 229940047122 interleukins Drugs 0.000 description 3
- 239000003900 neurotrophic factor Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 229920000642 polymer Polymers 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000004540 process dynamic Methods 0.000 description 3
- ZRKFYGHZFMAOKI-QMGMOQQFSA-N tgfbeta Chemical compound C([C@H](NC(=O)[C@H](C(C)C)NC(=O)CNC(=O)[C@H](CCC(O)=O)NC(=O)[C@H](CCCNC(N)=N)NC(=O)[C@H](CC(N)=O)NC(=O)[C@H](CC(C)C)NC(=O)[C@H]([C@@H](C)O)NC(=O)[C@H](CCC(O)=O)NC(=O)[C@H]([C@@H](C)O)NC(=O)[C@H](CC(C)C)NC(=O)CNC(=O)[C@H](C)NC(=O)[C@H](CO)NC(=O)[C@H](CCC(N)=O)NC(=O)[C@@H](NC(=O)[C@H](C)NC(=O)[C@H](C)NC(=O)[C@@H](NC(=O)[C@H](CC(C)C)NC(=O)[C@@H](N)CCSC)C(C)C)[C@@H](C)CC)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](C(C)C)C(=O)N[C@@H](CC=1C=CC=CC=1)C(=O)N[C@@H](C)C(=O)N1[C@@H](CCC1)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](C)C(=O)N[C@@H](CC=1C=CC=CC=1)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](C)C(=O)N[C@@H](CC(C)C)C(=O)N1[C@@H](CCC1)C(=O)N1[C@@H](CCC1)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CO)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CC(C)C)C(O)=O)C1=CC=C(O)C=C1 ZRKFYGHZFMAOKI-QMGMOQQFSA-N 0.000 description 3
- 229960000187 tissue plasminogen activator Drugs 0.000 description 3
- 102000007350 Bone Morphogenetic Proteins Human genes 0.000 description 2
- 108010007726 Bone Morphogenetic Proteins Proteins 0.000 description 2
- 102000017420 CD3 protein, epsilon/gamma/delta subunit Human genes 0.000 description 2
- 108050005493 CD3 protein, epsilon/gamma/delta subunit Proteins 0.000 description 2
- 108010009575 CD55 Antigens Proteins 0.000 description 2
- 102000004414 Calcitonin Gene-Related Peptide Human genes 0.000 description 2
- 108090000932 Calcitonin Gene-Related Peptide Proteins 0.000 description 2
- 108010078791 Carrier Proteins Proteins 0.000 description 2
- 108010067225 Cell Adhesion Molecules Proteins 0.000 description 2
- 102000016289 Cell Adhesion Molecules Human genes 0.000 description 2
- 108010019673 Darbepoetin alfa Proteins 0.000 description 2
- 102100030074 Dickkopf-related protein 1 Human genes 0.000 description 2
- 101710099518 Dickkopf-related protein 1 Proteins 0.000 description 2
- 108090000394 Erythropoietin Proteins 0.000 description 2
- 102000003951 Erythropoietin Human genes 0.000 description 2
- 102000018233 Fibroblast Growth Factor Human genes 0.000 description 2
- 108050007372 Fibroblast Growth Factor Proteins 0.000 description 2
- 108010029961 Filgrastim Proteins 0.000 description 2
- 102100020948 Growth hormone receptor Human genes 0.000 description 2
- 108090000100 Hepatocyte Growth Factor Proteins 0.000 description 2
- 102100021866 Hepatocyte growth factor Human genes 0.000 description 2
- 101001012157 Homo sapiens Receptor tyrosine-protein kinase erbB-2 Proteins 0.000 description 2
- 241000725303 Human immunodeficiency virus Species 0.000 description 2
- 108010021625 Immunoglobulin Fragments Proteins 0.000 description 2
- 102000008394 Immunoglobulin Fragments Human genes 0.000 description 2
- 102000004218 Insulin-Like Growth Factor I Human genes 0.000 description 2
- 102000014150 Interferons Human genes 0.000 description 2
- 108010050904 Interferons Proteins 0.000 description 2
- 102000013462 Interleukin-12 Human genes 0.000 description 2
- 108010065805 Interleukin-12 Proteins 0.000 description 2
- 102000004895 Lipoproteins Human genes 0.000 description 2
- 108090001030 Lipoproteins Proteins 0.000 description 2
- 108010052285 Membrane Proteins Proteins 0.000 description 2
- 102000003735 Mesothelin Human genes 0.000 description 2
- 108090000015 Mesothelin Proteins 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 2
- 102000015336 Nerve Growth Factor Human genes 0.000 description 2
- 108090000742 Neurotrophin 3 Proteins 0.000 description 2
- 102100029268 Neurotrophin-3 Human genes 0.000 description 2
- 102000003683 Neurotrophin-4 Human genes 0.000 description 2
- 102100033857 Neurotrophin-4 Human genes 0.000 description 2
- 108010038512 Platelet-Derived Growth Factor Proteins 0.000 description 2
- 102000010780 Platelet-Derived Growth Factor Human genes 0.000 description 2
- 102100030485 Platelet-derived growth factor receptor alpha Human genes 0.000 description 2
- 101710148465 Platelet-derived growth factor receptor alpha Proteins 0.000 description 2
- 102100040678 Programmed cell death protein 1 Human genes 0.000 description 2
- 102100038955 Proprotein convertase subtilisin/kexin type 9 Human genes 0.000 description 2
- 101710180553 Proprotein convertase subtilisin/kexin type 9 Proteins 0.000 description 2
- 102000014128 RANK Ligand Human genes 0.000 description 2
- 108010025832 RANK Ligand Proteins 0.000 description 2
- 102100030086 Receptor tyrosine-protein kinase erbB-2 Human genes 0.000 description 2
- 108010068542 Somatotropin Receptors Proteins 0.000 description 2
- 102100031294 Thymic stromal lymphopoietin Human genes 0.000 description 2
- 102100036922 Tumor necrosis factor ligand superfamily member 13B Human genes 0.000 description 2
- 108010073929 Vascular Endothelial Growth Factor A Proteins 0.000 description 2
- 108010019530 Vascular Endothelial Growth Factors Proteins 0.000 description 2
- 102100039037 Vascular endothelial growth factor A Human genes 0.000 description 2
- 108010003533 Viral Envelope Proteins Proteins 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 239000003173 antianemic agent Substances 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 229960000106 biosimilars Drugs 0.000 description 2
- 229940112869 bone morphogenetic protein Drugs 0.000 description 2
- 230000015271 coagulation Effects 0.000 description 2
- 238000005345 coagulation Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 108010084052 continuous erythropoietin receptor activator Proteins 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 108010002601 epoetin beta Proteins 0.000 description 2
- 229960004579 epoetin beta Drugs 0.000 description 2
- 108010067416 epoetin delta Proteins 0.000 description 2
- 229950002109 epoetin delta Drugs 0.000 description 2
- 229940125367 erythropoiesis stimulating agent Drugs 0.000 description 2
- 229940105423 erythropoietin Drugs 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 102000034356 gene-regulatory proteins Human genes 0.000 description 2
- 108091006104 gene-regulatory proteins Proteins 0.000 description 2
- 239000000122 growth hormone Substances 0.000 description 2
- 229940051026 immunotoxin Drugs 0.000 description 2
- 239000002596 immunotoxin Substances 0.000 description 2
- 231100000608 immunotoxin Toxicity 0.000 description 2
- 230000002637 immunotoxin Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000002608 insulinlike Effects 0.000 description 2
- 102000006495 integrins Human genes 0.000 description 2
- 108010044426 integrins Proteins 0.000 description 2
- 229940047124 interferons Drugs 0.000 description 2
- 239000003446 ligand Substances 0.000 description 2
- 230000004823 osteo-induction effect Effects 0.000 description 2
- 108010044644 pegfilgrastim Proteins 0.000 description 2
- OXCMYAYHXIHQOA-UHFFFAOYSA-N potassium;[2-butyl-5-chloro-3-[[4-[2-(1,2,4-triaza-3-azanidacyclopenta-1,4-dien-5-yl)phenyl]phenyl]methyl]imidazol-4-yl]methanol Chemical compound [K+].CCCCC1=NC(Cl)=C(CO)N1CC1=CC=C(C=2C(=CC=CC=2)C2=N[N-]N=N2)C=C1 OXCMYAYHXIHQOA-UHFFFAOYSA-N 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 239000004576 sand Substances 0.000 description 2
- 238000012306 spectroscopic technique Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000001225 therapeutic effect Effects 0.000 description 2
- 108010029307 thymic stromal lymphopoietin Proteins 0.000 description 2
- 238000001195 ultra high performance liquid chromatography Methods 0.000 description 2
- 230000003612 virological effect Effects 0.000 description 2
- HMLGSIZOMSVISS-ONJSNURVSA-N (7r)-7-[[(2z)-2-(2-amino-1,3-thiazol-4-yl)-2-(2,2-dimethylpropanoyloxymethoxyimino)acetyl]amino]-3-ethenyl-8-oxo-5-thia-1-azabicyclo[4.2.0]oct-2-ene-2-carboxylic acid Chemical compound N([C@@H]1C(N2C(=C(C=C)CSC21)C(O)=O)=O)C(=O)\C(=N/OCOC(=O)C(C)(C)C)C1=CSC(N)=N1 HMLGSIZOMSVISS-ONJSNURVSA-N 0.000 description 1
- RTQWWZBSTRGEAV-PKHIMPSTSA-N 2-[[(2s)-2-[bis(carboxymethyl)amino]-3-[4-(methylcarbamoylamino)phenyl]propyl]-[2-[bis(carboxymethyl)amino]propyl]amino]acetic acid Chemical compound CNC(=O)NC1=CC=C(C[C@@H](CN(CC(C)N(CC(O)=O)CC(O)=O)CC(O)=O)N(CC(O)=O)CC(O)=O)C=C1 RTQWWZBSTRGEAV-PKHIMPSTSA-N 0.000 description 1
- BGFTWECWAICPDG-UHFFFAOYSA-N 2-[bis(4-chlorophenyl)methyl]-4-n-[3-[bis(4-chlorophenyl)methyl]-4-(dimethylamino)phenyl]-1-n,1-n-dimethylbenzene-1,4-diamine Chemical compound C1=C(C(C=2C=CC(Cl)=CC=2)C=2C=CC(Cl)=CC=2)C(N(C)C)=CC=C1NC(C=1)=CC=C(N(C)C)C=1C(C=1C=CC(Cl)=CC=1)C1=CC=C(Cl)C=C1 BGFTWECWAICPDG-UHFFFAOYSA-N 0.000 description 1
- 102100040842 3-galactosyl-N-acetylglucosaminide 4-alpha-L-fucosyltransferase FUT3 Human genes 0.000 description 1
- MJZJYWCQPMNPRM-UHFFFAOYSA-N 6,6-dimethyl-1-[3-(2,4,5-trichlorophenoxy)propoxy]-1,6-dihydro-1,3,5-triazine-2,4-diamine Chemical compound CC1(C)N=C(N)N=C(N)N1OCCCOC1=CC(Cl)=C(Cl)C=C1Cl MJZJYWCQPMNPRM-UHFFFAOYSA-N 0.000 description 1
- 230000005730 ADP ribosylation Effects 0.000 description 1
- 102100031585 ADP-ribosyl cyclase/cyclic ADP-ribose hydrolase 1 Human genes 0.000 description 1
- 108010059616 Activins Proteins 0.000 description 1
- 102000005606 Activins Human genes 0.000 description 1
- 102000009027 Albumins Human genes 0.000 description 1
- 108010088751 Albumins Proteins 0.000 description 1
- 102100034608 Angiopoietin-2 Human genes 0.000 description 1
- 101100281547 Arabidopsis thaliana FPA gene Proteins 0.000 description 1
- 101800001288 Atrial natriuretic factor Proteins 0.000 description 1
- 102400001282 Atrial natriuretic peptide Human genes 0.000 description 1
- 101800001890 Atrial natriuretic peptide Proteins 0.000 description 1
- 108010028006 B-Cell Activating Factor Proteins 0.000 description 1
- 108010008014 B-Cell Maturation Antigen Proteins 0.000 description 1
- 102000006942 B-Cell Maturation Antigen Human genes 0.000 description 1
- 102100038080 B-cell receptor CD22 Human genes 0.000 description 1
- 102100024222 B-lymphocyte antigen CD19 Human genes 0.000 description 1
- 102100022005 B-lymphocyte antigen CD20 Human genes 0.000 description 1
- 101100257434 Bacillus subtilis spaC gene Proteins 0.000 description 1
- 101800000407 Brain natriuretic peptide 32 Proteins 0.000 description 1
- 102100031092 C-C motif chemokine 3 Human genes 0.000 description 1
- 101710155856 C-C motif chemokine 3 Proteins 0.000 description 1
- 102100031168 CCN family member 2 Human genes 0.000 description 1
- 101150013553 CD40 gene Proteins 0.000 description 1
- 102100025221 CD70 antigen Human genes 0.000 description 1
- 101100179591 Caenorhabditis elegans ins-22 gene Proteins 0.000 description 1
- 102000055006 Calcitonin Human genes 0.000 description 1
- 108060001064 Calcitonin Proteins 0.000 description 1
- 102100025570 Cancer/testis antigen 1 Human genes 0.000 description 1
- 108010082548 Chemokine CCL11 Proteins 0.000 description 1
- 102100040835 Claudin-18 Human genes 0.000 description 1
- 108050009324 Claudin-18 Proteins 0.000 description 1
- 102100039498 Cytotoxic T-lymphocyte protein 4 Human genes 0.000 description 1
- 102000016911 Deoxyribonucleases Human genes 0.000 description 1
- 108010053770 Deoxyribonucleases Proteins 0.000 description 1
- 102000001301 EGF receptor Human genes 0.000 description 1
- 108060006698 EGF receptor Proteins 0.000 description 1
- 102000012804 EPCAM Human genes 0.000 description 1
- 101150084967 EPCAM gene Proteins 0.000 description 1
- 101150076616 EPHA2 gene Proteins 0.000 description 1
- 102100023688 Eotaxin Human genes 0.000 description 1
- 102100030340 Ephrin type-A receptor 2 Human genes 0.000 description 1
- 108010008165 Etanercept Proteins 0.000 description 1
- 108010054218 Factor VIII Proteins 0.000 description 1
- 102000001690 Factor VIII Human genes 0.000 description 1
- 108090000386 Fibroblast Growth Factor 1 Proteins 0.000 description 1
- 102100031706 Fibroblast growth factor 1 Human genes 0.000 description 1
- 102100024785 Fibroblast growth factor 2 Human genes 0.000 description 1
- 108090000379 Fibroblast growth factor 2 Proteins 0.000 description 1
- 102000010451 Folate receptor alpha Human genes 0.000 description 1
- 108050001931 Folate receptor alpha Proteins 0.000 description 1
- 102000012673 Follicle Stimulating Hormone Human genes 0.000 description 1
- 108010079345 Follicle Stimulating Hormone Proteins 0.000 description 1
- 102400000321 Glucagon Human genes 0.000 description 1
- 108060003199 Glucagon Proteins 0.000 description 1
- 102000007446 Glucagon-Like Peptide-1 Receptor Human genes 0.000 description 1
- 108010086246 Glucagon-Like Peptide-1 Receptor Proteins 0.000 description 1
- 102100041003 Glutamate carboxypeptidase 2 Human genes 0.000 description 1
- 102000006771 Gonadotropins Human genes 0.000 description 1
- 108010086677 Gonadotropins Proteins 0.000 description 1
- 102100039619 Granulocyte colony-stimulating factor Human genes 0.000 description 1
- 108010017213 Granulocyte-Macrophage Colony-Stimulating Factor Proteins 0.000 description 1
- 102100039620 Granulocyte-macrophage colony-stimulating factor Human genes 0.000 description 1
- 108010051696 Growth Hormone Proteins 0.000 description 1
- 239000000095 Growth Hormone-Releasing Hormone Substances 0.000 description 1
- 102100039939 Growth/differentiation factor 8 Human genes 0.000 description 1
- 102100031573 Hematopoietic progenitor cell antigen CD34 Human genes 0.000 description 1
- 241000711549 Hepacivirus C Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 101000893701 Homo sapiens 3-galactosyl-N-acetylglucosaminide 4-alpha-L-fucosyltransferase FUT3 Proteins 0.000 description 1
- 101000777636 Homo sapiens ADP-ribosyl cyclase/cyclic ADP-ribose hydrolase 1 Proteins 0.000 description 1
- 101000834898 Homo sapiens Alpha-synuclein Proteins 0.000 description 1
- 101000924533 Homo sapiens Angiopoietin-2 Proteins 0.000 description 1
- 101000884305 Homo sapiens B-cell receptor CD22 Proteins 0.000 description 1
- 101000980825 Homo sapiens B-lymphocyte antigen CD19 Proteins 0.000 description 1
- 101000897405 Homo sapiens B-lymphocyte antigen CD20 Proteins 0.000 description 1
- 101000777550 Homo sapiens CCN family member 2 Proteins 0.000 description 1
- 101000934356 Homo sapiens CD70 antigen Proteins 0.000 description 1
- 101000856237 Homo sapiens Cancer/testis antigen 1 Proteins 0.000 description 1
- 101000914324 Homo sapiens Carcinoembryonic antigen-related cell adhesion molecule 5 Proteins 0.000 description 1
- 101000914321 Homo sapiens Carcinoembryonic antigen-related cell adhesion molecule 7 Proteins 0.000 description 1
- 101000889276 Homo sapiens Cytotoxic T-lymphocyte protein 4 Proteins 0.000 description 1
- 101000892862 Homo sapiens Glutamate carboxypeptidase 2 Proteins 0.000 description 1
- 101000777663 Homo sapiens Hematopoietic progenitor cell antigen CD34 Proteins 0.000 description 1
- 101000852870 Homo sapiens Interferon alpha/beta receptor 1 Proteins 0.000 description 1
- 101001057504 Homo sapiens Interferon-stimulated gene 20 kDa protein Proteins 0.000 description 1
- 101001055144 Homo sapiens Interleukin-2 receptor subunit alpha Proteins 0.000 description 1
- 101000998120 Homo sapiens Interleukin-3 receptor subunit alpha Proteins 0.000 description 1
- 101000991061 Homo sapiens MHC class I polypeptide-related sequence B Proteins 0.000 description 1
- 101001133056 Homo sapiens Mucin-1 Proteins 0.000 description 1
- 101000934338 Homo sapiens Myeloid cell surface antigen CD33 Proteins 0.000 description 1
- 101001051490 Homo sapiens Neural cell adhesion molecule L1 Proteins 0.000 description 1
- 101000617725 Homo sapiens Pregnancy-specific beta-1-glycoprotein 2 Proteins 0.000 description 1
- 101001117317 Homo sapiens Programmed cell death 1 ligand 1 Proteins 0.000 description 1
- 101000611936 Homo sapiens Programmed cell death protein 1 Proteins 0.000 description 1
- 101000610551 Homo sapiens Prominin-1 Proteins 0.000 description 1
- 101001136592 Homo sapiens Prostate stem cell antigen Proteins 0.000 description 1
- 101000652359 Homo sapiens Spermatogenesis-associated protein 2 Proteins 0.000 description 1
- 101000874179 Homo sapiens Syndecan-1 Proteins 0.000 description 1
- 101000914496 Homo sapiens T-cell antigen CD7 Proteins 0.000 description 1
- 101000716102 Homo sapiens T-cell surface glycoprotein CD4 Proteins 0.000 description 1
- 101000934341 Homo sapiens T-cell surface glycoprotein CD5 Proteins 0.000 description 1
- 101000946843 Homo sapiens T-cell surface glycoprotein CD8 alpha chain Proteins 0.000 description 1
- 101000610604 Homo sapiens Tumor necrosis factor receptor superfamily member 10B Proteins 0.000 description 1
- 101000851376 Homo sapiens Tumor necrosis factor receptor superfamily member 8 Proteins 0.000 description 1
- 101000851007 Homo sapiens Vascular endothelial growth factor receptor 2 Proteins 0.000 description 1
- 102000002265 Human Growth Hormone Human genes 0.000 description 1
- 108010000521 Human Growth Hormone Proteins 0.000 description 1
- 239000000854 Human Growth Hormone Substances 0.000 description 1
- 102100034980 ICOS ligand Human genes 0.000 description 1
- 101710093458 ICOS ligand Proteins 0.000 description 1
- 108010031794 IGF Type 1 Receptor Proteins 0.000 description 1
- 102000038455 IGF Type 1 Receptor Human genes 0.000 description 1
- 108010004250 Inhibins Proteins 0.000 description 1
- 102000002746 Inhibins Human genes 0.000 description 1
- 108090001117 Insulin-Like Growth Factor II Proteins 0.000 description 1
- 102000048143 Insulin-Like Growth Factor II Human genes 0.000 description 1
- 102100022339 Integrin alpha-L Human genes 0.000 description 1
- 102100022337 Integrin alpha-V Human genes 0.000 description 1
- 108010008212 Integrin alpha4beta1 Proteins 0.000 description 1
- 108010040765 Integrin alphaV Proteins 0.000 description 1
- 102000008607 Integrin beta3 Human genes 0.000 description 1
- 108010020950 Integrin beta3 Proteins 0.000 description 1
- 108010064593 Intercellular Adhesion Molecule-1 Proteins 0.000 description 1
- 102100037877 Intercellular adhesion molecule 1 Human genes 0.000 description 1
- 102100036714 Interferon alpha/beta receptor 1 Human genes 0.000 description 1
- 102000008070 Interferon-gamma Human genes 0.000 description 1
- 108010074328 Interferon-gamma Proteins 0.000 description 1
- 102100027268 Interferon-stimulated gene 20 kDa protein Human genes 0.000 description 1
- 102000051628 Interleukin-1 receptor antagonist Human genes 0.000 description 1
- 108700021006 Interleukin-1 receptor antagonist Proteins 0.000 description 1
- 102100030694 Interleukin-11 Human genes 0.000 description 1
- 102000003812 Interleukin-15 Human genes 0.000 description 1
- 102000013691 Interleukin-17 Human genes 0.000 description 1
- 102000004554 Interleukin-17 Receptors Human genes 0.000 description 1
- 108010017525 Interleukin-17 Receptors Proteins 0.000 description 1
- 102100033493 Interleukin-3 receptor subunit alpha Human genes 0.000 description 1
- 102000010787 Interleukin-4 Receptors Human genes 0.000 description 1
- 108010038486 Interleukin-4 Receptors Proteins 0.000 description 1
- 102000010781 Interleukin-6 Receptors Human genes 0.000 description 1
- 108010038501 Interleukin-6 Receptors Proteins 0.000 description 1
- ROHFNLRQFUQHCH-YFKPBYRVSA-N L-leucine Chemical compound CC(C)C[C@H](N)C(O)=O ROHFNLRQFUQHCH-YFKPBYRVSA-N 0.000 description 1
- 101150113776 LMP1 gene Proteins 0.000 description 1
- 241000589242 Legionella pneumophila Species 0.000 description 1
- ROHFNLRQFUQHCH-UHFFFAOYSA-N Leucine Natural products CC(C)CC(N)C(O)=O ROHFNLRQFUQHCH-UHFFFAOYSA-N 0.000 description 1
- 102000009151 Luteinizing Hormone Human genes 0.000 description 1
- 108010073521 Luteinizing Hormone Proteins 0.000 description 1
- 108010064548 Lymphocyte Function-Associated Antigen-1 Proteins 0.000 description 1
- 102100030300 MHC class I polypeptide-related sequence B Human genes 0.000 description 1
- 241000282553 Macaca Species 0.000 description 1
- 108010046938 Macrophage Colony-Stimulating Factor Proteins 0.000 description 1
- 102000007651 Macrophage Colony-Stimulating Factor Human genes 0.000 description 1
- 102000009571 Macrophage Inflammatory Proteins Human genes 0.000 description 1
- 108010009474 Macrophage Inflammatory Proteins Proteins 0.000 description 1
- 108010031099 Mannose Receptor Proteins 0.000 description 1
- 102100034256 Mucin-1 Human genes 0.000 description 1
- 241001529936 Murinae Species 0.000 description 1
- 101100369076 Mus musculus Tdgf1 gene Proteins 0.000 description 1
- 102100025243 Myeloid cell surface antigen CD33 Human genes 0.000 description 1
- 108010056852 Myostatin Proteins 0.000 description 1
- 238000004497 NIR spectroscopy Methods 0.000 description 1
- 108090000028 Neprilysin Proteins 0.000 description 1
- 102000003729 Neprilysin Human genes 0.000 description 1
- 102100024964 Neural cell adhesion molecule L1 Human genes 0.000 description 1
- 108090000095 Neurotrophin-6 Proteins 0.000 description 1
- 108010042215 OX40 Ligand Proteins 0.000 description 1
- 208000008589 Obesity Diseases 0.000 description 1
- 101710160107 Outer membrane protein A Proteins 0.000 description 1
- 101150030083 PE38 gene Proteins 0.000 description 1
- 102000003982 Parathyroid hormone Human genes 0.000 description 1
- 108090000445 Parathyroid hormone Proteins 0.000 description 1
- 108010001014 Plasminogen Activators Proteins 0.000 description 1
- 102000001938 Plasminogen Activators Human genes 0.000 description 1
- 108010010336 Platelet Membrane Glycoproteins Proteins 0.000 description 1
- 102000015795 Platelet Membrane Glycoproteins Human genes 0.000 description 1
- 102100022019 Pregnancy-specific beta-1-glycoprotein 2 Human genes 0.000 description 1
- 102100024216 Programmed cell death 1 ligand 1 Human genes 0.000 description 1
- 101710089372 Programmed cell death protein 1 Proteins 0.000 description 1
- 108010076181 Proinsulin Proteins 0.000 description 1
- 102100040120 Prominin-1 Human genes 0.000 description 1
- 102100036735 Prostate stem cell antigen Human genes 0.000 description 1
- 101800004937 Protein C Proteins 0.000 description 1
- 102000017975 Protein C Human genes 0.000 description 1
- 102000016971 Proto-Oncogene Proteins c-kit Human genes 0.000 description 1
- 108010014608 Proto-Oncogene Proteins c-kit Proteins 0.000 description 1
- 238000003841 Raman measurement Methods 0.000 description 1
- 101710100969 Receptor tyrosine-protein kinase erbB-3 Proteins 0.000 description 1
- 102100029986 Receptor tyrosine-protein kinase erbB-3 Human genes 0.000 description 1
- 102100029981 Receptor tyrosine-protein kinase erbB-4 Human genes 0.000 description 1
- 101710100963 Receptor tyrosine-protein kinase erbB-4 Proteins 0.000 description 1
- 108090000103 Relaxin Proteins 0.000 description 1
- 102000003743 Relaxin Human genes 0.000 description 1
- 102400000834 Relaxin A chain Human genes 0.000 description 1
- 101800000074 Relaxin A chain Proteins 0.000 description 1
- 101800001700 Saposin-D Proteins 0.000 description 1
- 102100034201 Sclerostin Human genes 0.000 description 1
- 108050006698 Sclerostin Proteins 0.000 description 1
- 102100022831 Somatoliberin Human genes 0.000 description 1
- 101710142969 Somatoliberin Proteins 0.000 description 1
- 102000013275 Somatomedins Human genes 0.000 description 1
- 102100038803 Somatotropin Human genes 0.000 description 1
- 102000019197 Superoxide Dismutase Human genes 0.000 description 1
- 108010012715 Superoxide dismutase Proteins 0.000 description 1
- 102100035721 Syndecan-1 Human genes 0.000 description 1
- 230000006044 T cell activation Effects 0.000 description 1
- 102100027208 T-cell antigen CD7 Human genes 0.000 description 1
- 102100036011 T-cell surface glycoprotein CD4 Human genes 0.000 description 1
- 102100025244 T-cell surface glycoprotein CD5 Human genes 0.000 description 1
- 102100034922 T-cell surface glycoprotein CD8 alpha chain Human genes 0.000 description 1
- 101150057140 TACSTD1 gene Proteins 0.000 description 1
- 108090000190 Thrombin Proteins 0.000 description 1
- 108010000499 Thromboplastin Proteins 0.000 description 1
- 102000036693 Thrombopoietin Human genes 0.000 description 1
- 108010041111 Thrombopoietin Proteins 0.000 description 1
- 108010070774 Thrombopoietin Receptors Proteins 0.000 description 1
- 102100034196 Thrombopoietin receptor Human genes 0.000 description 1
- 102000011923 Thyrotropin Human genes 0.000 description 1
- 108010061174 Thyrotropin Proteins 0.000 description 1
- 102100030859 Tissue factor Human genes 0.000 description 1
- 108060008682 Tumor Necrosis Factor Proteins 0.000 description 1
- 102100026890 Tumor necrosis factor ligand superfamily member 4 Human genes 0.000 description 1
- 102100040112 Tumor necrosis factor receptor superfamily member 10B Human genes 0.000 description 1
- 102100040245 Tumor necrosis factor receptor superfamily member 5 Human genes 0.000 description 1
- 102100036857 Tumor necrosis factor receptor superfamily member 8 Human genes 0.000 description 1
- 102000003990 Urokinase-type plasminogen activator Human genes 0.000 description 1
- 108090000435 Urokinase-type plasminogen activator Proteins 0.000 description 1
- 102100033177 Vascular endothelial growth factor receptor 2 Human genes 0.000 description 1
- 229960000446 abciximab Drugs 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 239000000488 activin Substances 0.000 description 1
- 229960002964 adalimumab Drugs 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 229950009084 adecatumumab Drugs 0.000 description 1
- 229960002833 aflibercept Drugs 0.000 description 1
- 108010081667 aflibercept Proteins 0.000 description 1
- 239000000556 agonist Substances 0.000 description 1
- 229960000548 alemtuzumab Drugs 0.000 description 1
- 229960004539 alirocumab Drugs 0.000 description 1
- 108010050122 alpha 1-Antitrypsin Proteins 0.000 description 1
- 102000015395 alpha 1-Antitrypsin Human genes 0.000 description 1
- 229940024142 alpha 1-antitrypsin Drugs 0.000 description 1
- 229960004238 anakinra Drugs 0.000 description 1
- 210000004102 animal cell Anatomy 0.000 description 1
- 229940115115 aranesp Drugs 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 229960004669 basiliximab Drugs 0.000 description 1
- 238000010923 batch production Methods 0.000 description 1
- 229960003270 belimumab Drugs 0.000 description 1
- CXQCLLQQYTUUKJ-ALWAHNIESA-N beta-D-GalpNAc-(1->4)-[alpha-Neup5Ac-(2->8)-alpha-Neup5Ac-(2->3)]-beta-D-Galp-(1->4)-beta-D-Glcp-(1<->1')-Cer(d18:1/18:0) Chemical compound O[C@@H]1[C@@H](O)[C@H](OC[C@H](NC(=O)CCCCCCCCCCCCCCCCC)[C@H](O)\C=C\CCCCCCCCCCCCC)O[C@H](CO)[C@H]1O[C@H]1[C@H](O)[C@@H](O[C@]2(O[C@H]([C@H](NC(C)=O)[C@@H](O)C2)[C@H](O)[C@@H](CO)O[C@]2(O[C@H]([C@H](NC(C)=O)[C@@H](O)C2)[C@H](O)[C@H](O)CO)C(O)=O)C(O)=O)[C@@H](O[C@H]2[C@@H]([C@@H](O)[C@@H](O)[C@@H](CO)O2)NC(C)=O)[C@@H](CO)O1 CXQCLLQQYTUUKJ-ALWAHNIESA-N 0.000 description 1
- 229960000397 bevacizumab Drugs 0.000 description 1
- 108091008324 binding proteins Proteins 0.000 description 1
- 229960003008 blinatumomab Drugs 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 229960000455 brentuximab vedotin Drugs 0.000 description 1
- 229960003735 brodalumab Drugs 0.000 description 1
- 229960004015 calcitonin Drugs 0.000 description 1
- BBBFJLBPOGFECG-VJVYQDLKSA-N calcitonin Chemical compound N([C@H](C(=O)N[C@@H](CC(C)C)C(=O)NCC(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CO)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CC=1NC=NC=1)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CC=1C=CC(O)=CC=1)C(=O)N1[C@@H](CCC1)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H]([C@@H](C)O)C(=O)NCC(=O)N[C@@H](CO)C(=O)NCC(=O)N[C@@H]([C@@H](C)O)C(=O)N1[C@@H](CCC1)C(N)=O)C(C)C)C(=O)[C@@H]1CSSC[C@H](N)C(=O)N[C@@H](CO)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CO)C(=O)N[C@@H]([C@@H](C)O)C(=O)N1 BBBFJLBPOGFECG-VJVYQDLKSA-N 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 229960001838 canakinumab Drugs 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 229950007296 cantuzumab mertansine Drugs 0.000 description 1
- NSQLIUXCMFBZME-MPVJKSABSA-N carperitide Chemical compound C([C@H]1C(=O)NCC(=O)NCC(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCSC)C(=O)N[C@@H](CC(O)=O)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@H](C(NCC(=O)N[C@@H](C)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CO)C(=O)NCC(=O)N[C@@H](CC(C)C)C(=O)NCC(=O)N[C@@H](CSSC[C@@H](C(=O)N1)NC(=O)[C@H](CO)NC(=O)[C@H](CO)NC(=O)[C@H](CCCNC(N)=N)NC(=O)[C@H](CCCNC(N)=N)NC(=O)[C@H](CC(C)C)NC(=O)[C@@H](N)CO)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CO)C(=O)N[C@@H](CC=1C=CC=CC=1)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CC=1C=CC(O)=CC=1)C(O)=O)=O)[C@@H](C)CC)C1=CC=CC=C1 NSQLIUXCMFBZME-MPVJKSABSA-N 0.000 description 1
- 238000012832 cell culture technique Methods 0.000 description 1
- 230000022131 cell cycle Effects 0.000 description 1
- 229960003115 certolizumab pegol Drugs 0.000 description 1
- 238000012569 chemometric method Methods 0.000 description 1
- 230000001112 coagulating effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 229950007276 conatumumab Drugs 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012258 culturing Methods 0.000 description 1
- 229960002806 daclizumab Drugs 0.000 description 1
- 229960005029 darbepoetin alfa Drugs 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 229960001251 denosumab Drugs 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 108700001680 des-(1-3)- insulin-like growth factor 1 Proteins 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229960002224 eculizumab Drugs 0.000 description 1
- 229960001776 edrecolomab Drugs 0.000 description 1
- 229960000284 efalizumab Drugs 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000002255 enzymatic effect Effects 0.000 description 1
- 108010087914 epidermal growth factor receptor VIII Proteins 0.000 description 1
- 229960003388 epoetin alfa Drugs 0.000 description 1
- 108010090921 epoetin omega Proteins 0.000 description 1
- 229950008767 epoetin omega Drugs 0.000 description 1
- 229940089118 epogen Drugs 0.000 description 1
- 229950009760 epratuzumab Drugs 0.000 description 1
- 229960000403 etanercept Drugs 0.000 description 1
- 229960002027 evolocumab Drugs 0.000 description 1
- 229960000301 factor viii Drugs 0.000 description 1
- 229940126864 fibroblast growth factor Drugs 0.000 description 1
- 229960004177 filgrastim Drugs 0.000 description 1
- 229940028334 follicle stimulating hormone Drugs 0.000 description 1
- 102000037865 fusion proteins Human genes 0.000 description 1
- 108020001507 fusion proteins Proteins 0.000 description 1
- 229950001109 galiximab Drugs 0.000 description 1
- 230000006251 gamma-carboxylation Effects 0.000 description 1
- 229950004896 ganitumab Drugs 0.000 description 1
- 229960000578 gemtuzumab Drugs 0.000 description 1
- 229960004666 glucagon Drugs 0.000 description 1
- MASNOZXLGMXCHN-ZLPAWPGGSA-N glucagon Chemical compound C([C@@H](C(=O)N[C@H](C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC=1C2=CC=CC=C2NC=1)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCSC)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H]([C@@H](C)O)C(O)=O)C(C)C)NC(=O)[C@H](CC(O)=O)NC(=O)[C@H](CCC(N)=O)NC(=O)[C@H](C)NC(=O)[C@H](CCCNC(N)=N)NC(=O)[C@H](CCCNC(N)=N)NC(=O)[C@H](CO)NC(=O)[C@H](CC(O)=O)NC(=O)[C@H](CC(C)C)NC(=O)[C@H](CC=1C=CC(O)=CC=1)NC(=O)[C@H](CCCCN)NC(=O)[C@H](CO)NC(=O)[C@H](CC=1C=CC(O)=CC=1)NC(=O)[C@H](CC(O)=O)NC(=O)[C@H](CO)NC(=O)[C@@H](NC(=O)[C@H](CC=1C=CC=CC=1)NC(=O)[C@@H](NC(=O)CNC(=O)[C@H](CCC(N)=O)NC(=O)[C@H](CO)NC(=O)[C@@H](N)CC=1NC=NC=1)[C@@H](C)O)[C@@H](C)O)C1=CC=CC=C1 MASNOZXLGMXCHN-ZLPAWPGGSA-N 0.000 description 1
- 125000000291 glutamic acid group Chemical group N[C@@H](CCC(O)=O)C(=O)* 0.000 description 1
- 230000013595 glycosylation Effects 0.000 description 1
- 238000006206 glycosylation reaction Methods 0.000 description 1
- 229960001743 golimumab Drugs 0.000 description 1
- 239000002622 gonadotropin Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 108010013846 hematide Proteins 0.000 description 1
- 238000004128 high performance liquid chromatography Methods 0.000 description 1
- 230000033444 hydroxylation Effects 0.000 description 1
- 238000005805 hydroxylation reaction Methods 0.000 description 1
- 229960001001 ibritumomab tiuxetan Drugs 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000028993 immune response Effects 0.000 description 1
- 229940072221 immunoglobulins Drugs 0.000 description 1
- 238000009169 immunotherapy Methods 0.000 description 1
- 230000001976 improved effect Effects 0.000 description 1
- 238000012625 in-situ measurement Methods 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 229960000598 infliximab Drugs 0.000 description 1
- 239000000893 inhibin Substances 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- ZPNFWUPYTFPOJU-LPYSRVMUSA-N iniprol Chemical compound C([C@H]1C(=O)NCC(=O)NCC(=O)N[C@H]2CSSC[C@H]3C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](C)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@H](C(N[C@H](C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CC=4C=CC(O)=CC=4)C(=O)N[C@@H](CC=4C=CC=CC=4)C(=O)N[C@@H](CC=4C=CC(O)=CC=4)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](C)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](C)C(=O)NCC(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CSSC[C@H](NC(=O)[C@H](CC(O)=O)NC(=O)[C@H](CCC(O)=O)NC(=O)[C@H](C)NC(=O)[C@H](CO)NC(=O)[C@H](CCCCN)NC(=O)[C@H](CC=4C=CC=CC=4)NC(=O)[C@H](CC(N)=O)NC(=O)[C@H](CC(N)=O)NC(=O)[C@H](CCCNC(N)=N)NC(=O)[C@H](CCCCN)NC(=O)[C@H](C)NC(=O)[C@H](CCCNC(N)=N)NC2=O)C(=O)N[C@@H](CCSC)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CSSC[C@H](NC(=O)[C@H](CC=2C=CC=CC=2)NC(=O)[C@H](CC(O)=O)NC(=O)[C@H]2N(CCC2)C(=O)[C@@H](N)CCCNC(N)=N)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCC(O)=O)C(=O)N2[C@@H](CCC2)C(=O)N2[C@@H](CCC2)C(=O)N[C@@H](CC=2C=CC(O)=CC=2)C(=O)N[C@@H]([C@@H](C)O)C(=O)NCC(=O)N2[C@@H](CCC2)C(=O)N3)C(=O)NCC(=O)NCC(=O)N[C@@H](C)C(O)=O)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@H](C(=O)N[C@@H](CC=2C=CC=CC=2)C(=O)N[C@H](C(=O)N1)C(C)C)[C@@H](C)O)[C@@H](C)CC)=O)[C@@H](C)CC)C1=CC=C(O)C=C1 ZPNFWUPYTFPOJU-LPYSRVMUSA-N 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000004026 insulin derivative Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 229960003130 interferon gamma Drugs 0.000 description 1
- 230000003834 intracellular effect Effects 0.000 description 1
- 229960005386 ipilimumab Drugs 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 229940115932 legionella pneumophila Drugs 0.000 description 1
- 229950010470 lerdelimumab Drugs 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 150000002632 lipids Chemical class 0.000 description 1
- 229950000128 lumiliximab Drugs 0.000 description 1
- 239000003580 lung surfactant Substances 0.000 description 1
- 229940040129 luteinizing hormone Drugs 0.000 description 1
- 229920002521 macromolecule Polymers 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 229950001869 mapatumumab Drugs 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 229960001046 methoxy polyethylene glycol-epoetin beta Drugs 0.000 description 1
- 229940029238 mircera Drugs 0.000 description 1
- 102000035118 modified proteins Human genes 0.000 description 1
- 108091005573 modified proteins Proteins 0.000 description 1
- 229960003816 muromonab-cd3 Drugs 0.000 description 1
- ONDPWWDPQDCQNJ-UHFFFAOYSA-N n-(3,3-dimethyl-1,2-dihydroindol-6-yl)-2-(pyridin-4-ylmethylamino)pyridine-3-carboxamide;phosphoric acid Chemical compound OP(O)(O)=O.OP(O)(O)=O.C=1C=C2C(C)(C)CNC2=CC=1NC(=O)C1=CC=CN=C1NCC1=CC=NC=C1 ONDPWWDPQDCQNJ-UHFFFAOYSA-N 0.000 description 1
- 229960005027 natalizumab Drugs 0.000 description 1
- 229940053128 nerve growth factor Drugs 0.000 description 1
- 229960001267 nesiritide Drugs 0.000 description 1
- HPNRHPKXQZSDFX-OAQDCNSJSA-N nesiritide Chemical compound C([C@H]1C(=O)NCC(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CCSC)C(=O)N[C@@H](CC(O)=O)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@H](C(N[C@@H](CO)C(=O)N[C@@H](CO)C(=O)N[C@@H](CO)C(=O)N[C@@H](CO)C(=O)NCC(=O)N[C@@H](CC(C)C)C(=O)NCC(=O)N[C@@H](CSSC[C@@H](C(=O)N1)NC(=O)CNC(=O)[C@H](CO)NC(=O)CNC(=O)[C@H](CCC(N)=O)NC(=O)[C@@H](NC(=O)[C@H](CCSC)NC(=O)[C@H](CCCCN)NC(=O)[C@H]1N(CCC1)C(=O)[C@@H](N)CO)C(C)C)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](C(C)C)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CC=1N=CNC=1)C(O)=O)=O)[C@@H](C)CC)C1=CC=CC=C1 HPNRHPKXQZSDFX-OAQDCNSJSA-N 0.000 description 1
- 229940071846 neulasta Drugs 0.000 description 1
- 229940029345 neupogen Drugs 0.000 description 1
- 229940032018 neurotrophin 3 Drugs 0.000 description 1
- 229950010203 nimotuzumab Drugs 0.000 description 1
- 229960003301 nivolumab Drugs 0.000 description 1
- 235000020824 obesity Nutrition 0.000 description 1
- 229950005751 ocrelizumab Drugs 0.000 description 1
- 229960002450 ofatumumab Drugs 0.000 description 1
- 229960000470 omalizumab Drugs 0.000 description 1
- 229960001840 oprelvekin Drugs 0.000 description 1
- 108010046821 oprelvekin Proteins 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 229960000402 palivizumab Drugs 0.000 description 1
- 229960001972 panitumumab Drugs 0.000 description 1
- 239000000199 parathyroid hormone Substances 0.000 description 1
- 229960001319 parathyroid hormone Drugs 0.000 description 1
- HQQSBEDKMRHYME-UHFFFAOYSA-N pefloxacin mesylate Chemical compound [H+].CS([O-])(=O)=O.C1=C2N(CC)C=C(C(O)=O)C(=O)C2=CC(F)=C1N1CCN(C)CC1 HQQSBEDKMRHYME-UHFFFAOYSA-N 0.000 description 1
- 229960001373 pegfilgrastim Drugs 0.000 description 1
- 229960002621 pembrolizumab Drugs 0.000 description 1
- 229960002087 pertuzumab Drugs 0.000 description 1
- 229950003203 pexelizumab Drugs 0.000 description 1
- 229940127126 plasminogen activator Drugs 0.000 description 1
- 229920001481 poly(stearyl methacrylate) Polymers 0.000 description 1
- 230000004481 post-translational protein modification Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 108010087851 prorelaxin Proteins 0.000 description 1
- 229960000856 protein c Drugs 0.000 description 1
- 229960003876 ranibizumab Drugs 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000002310 reflectometry Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 229950003238 rilotumumab Drugs 0.000 description 1
- 229960004641 rituximab Drugs 0.000 description 1
- 108010017584 romiplostim Proteins 0.000 description 1
- 229960004262 romiplostim Drugs 0.000 description 1
- 229950010968 romosozumab Drugs 0.000 description 1
- WUWDLXZGHZSWQZ-WQLSENKSSA-N semaxanib Chemical compound N1C(C)=CC(C)=C1\C=C/1C2=CC=CC=C2NC\1=O WUWDLXZGHZSWQZ-WQLSENKSSA-N 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 229960004532 somatropin Drugs 0.000 description 1
- 230000009870 specific binding Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 108010093841 spermadhesin Proteins 0.000 description 1
- 210000000130 stem cell Anatomy 0.000 description 1
- 230000019635 sulfation Effects 0.000 description 1
- 238000005670 sulfation reaction Methods 0.000 description 1
- 230000008093 supporting effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 229960004072 thrombin Drugs 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 229960003989 tocilizumab Drugs 0.000 description 1
- 229960005267 tositumomab Drugs 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
- 238000002834 transmittance Methods 0.000 description 1
- 229960000575 trastuzumab Drugs 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 102000003390 tumor necrosis factor Human genes 0.000 description 1
- VBEQCZHXXJYVRD-GACYYNSASA-N uroanthelone Chemical compound C([C@@H](C(=O)N[C@H](C(=O)N[C@@H](CS)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CS)C(=O)N[C@H](C(=O)N[C@@H]([C@@H](C)CC)C(=O)NCC(=O)N[C@@H](CC=1C=CC(O)=CC=1)C(=O)N[C@@H](CO)C(=O)NCC(=O)N[C@@H](CC(O)=O)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CS)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CC(O)=O)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CC=1C2=CC=CC=C2NC=1)C(=O)N[C@@H](CC=1C2=CC=CC=C2NC=1)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCCNC(N)=N)C(O)=O)C(C)C)[C@@H](C)O)NC(=O)[C@H](CO)NC(=O)[C@H](CC(O)=O)NC(=O)[C@H](CC(C)C)NC(=O)[C@H](CO)NC(=O)[C@H](CCC(O)=O)NC(=O)[C@@H](NC(=O)[C@H](CC=1NC=NC=1)NC(=O)[C@H](CCSC)NC(=O)[C@H](CS)NC(=O)[C@@H](NC(=O)CNC(=O)CNC(=O)[C@H](CC(N)=O)NC(=O)[C@H](CC(C)C)NC(=O)[C@H](CS)NC(=O)[C@H](CC=1C=CC(O)=CC=1)NC(=O)CNC(=O)[C@H](CC(O)=O)NC(=O)[C@H](CC=1C=CC(O)=CC=1)NC(=O)[C@H](CO)NC(=O)[C@H](CO)NC(=O)[C@H]1N(CCC1)C(=O)[C@H](CS)NC(=O)CNC(=O)[C@H]1N(CCC1)C(=O)[C@H](CC=1C=CC(O)=CC=1)NC(=O)[C@H](CO)NC(=O)[C@@H](N)CC(N)=O)C(C)C)[C@@H](C)CC)C1=CC=C(O)C=C1 VBEQCZHXXJYVRD-GACYYNSASA-N 0.000 description 1
- 229960005356 urokinase Drugs 0.000 description 1
- 229960003824 ustekinumab Drugs 0.000 description 1
- 229960004914 vedolizumab Drugs 0.000 description 1
- 229950004393 visilizumab Drugs 0.000 description 1
- 229950001212 volociximab Drugs 0.000 description 1
- 108010047303 von Willebrand Factor Proteins 0.000 description 1
- 102100036537 von Willebrand factor Human genes 0.000 description 1
- 229960001134 von willebrand factor Drugs 0.000 description 1
- 229950008250 zalutumumab Drugs 0.000 description 1
- 229950009002 zanolimumab Drugs 0.000 description 1
Description
Перекрестная ссылка на родственные заявкиCross reference to related applications
Испрашивается приоритет предварительной заявки на патент США № 62/749359, поданной 23 октября 2018 г., предварительной заявки на патент США № 62/833044, поданной 12 апреля 2019 г., и предварительной заявки на патент США № 62/864565, поданной 21 июня 2019 г., каждая из которых включена в данный документ посредством ссылки во всей своей полноте.Claims priority to U.S. Provisional Patent Application No. 62/749359 filed Oct. 23, 2018, U.S. Provisional Patent Application No. 62/833044 filed April 12, 2019, and U.S. Provisional Patent Application No. 62/864565 filed June 21 2019, each of which is incorporated herein by reference in its entirety.
Область техники, к которой относится изобретениеField of technology to which the invention relates
Настоящая заявка в целом относится к отслеживанию биофармацевтических процессов и/или управлению ими с использованием спектроскопических методик, таких как рамановская спектроскопия, и, в частности, относится к оперативной калибровке и обслуживанию моделей предсказания.This application generally relates to the monitoring and/or control of biopharmaceutical processes using spectroscopic techniques such as Raman spectroscopy, and in particular relates to the on-line calibration and maintenance of prediction models.
Предпосылки изобретенияBACKGROUND OF THE INVENTION
Устойчивое производство биотерапевтических белков при помощи биофармацевтического процесса в целом требует поддержания биореактором сбалансированных и согласованных параметров (например, концентраций клеточных метаболитов), что, в свою очередь, требует строгого отслеживания процесса и управления им. Для удовлетворения этих требований все больше применяются средства технологии анализа процессов (PAT). Некоторыми примерами традиционных средств PAT, которые используются в системах управления с обратной связью, являются оперативное отслеживание рН, растворенного кислорода и температуры клеточной культуры. В последние годы были исследованы и развернуты другие встраиваемые в процесс зонды для непрерывного отслеживания более сложных вещей, таких как плотность жизнеспособных клеток (VCD), глюкоза, лактат и другие критические клеточные метаболиты, аминокислоты, титр и критические показатели качества.Sustainable production of biotherapeutic proteins through a biopharmaceutical process generally requires the bioreactor to maintain balanced and consistent parameters (e.g., cellular metabolite concentrations), which in turn requires strict process monitoring and control. To meet these requirements, process analysis technology (PAT) tools are increasingly being used. Some examples of traditional PAT tools that are used in closed-loop control systems are on-line monitoring of pH, dissolved oxygen, and cell culture temperature. In recent years, other in-process probes have been explored and deployed to continuously monitor more complex things such as viable cell density (VCD), glucose, lactate and other critical cellular metabolites, amino acids, titer and critical quality indicators.
Рамановская спектроскопия является популярным средством PAT, широко используемым для оперативного отслеживания в биопроизводстве. Она представляет собой оптический метод, позволяющий выполнять неразрушающий анализ химического состава и молекулярной структуры. В рамановской спектроскопии падающее лазерное излучение рассеивается неупруго вследствие наличия мод молекулярных колебаний. Разность частот между падающими и рассеянными фотонами называется рамановским сдвигом, и вектор рамановского сдвига в зависимости от уровней интенсивности (называемый в данном документе рамановским спектром, результатом рамановского сканирования или вектором рамановского сканирования) можно проанализировать с целью определения химического состава и молекулярной структуры образца. Применения рамановской спектроскопии в анализе полимеров, фармацевтическом, биопроизводственном и биомедицинском анализе значительно увеличились в последние три десятилетия по мере совершенствования технологий лазерной выборки и детекторов. Вследствие этих технологических достижений рамановская спектроскопия в настоящее время представляет собой практическую методику анализа, используемую как внутри, так и вне лаборатории. С тех пор, как о применении в биопроизводстве рамановских измерений in-situ сообщили впервые, они были введены в использование для обеспечения оперативных предсказаний в реальном времени некоторых ключевых состояний процессов, таких как глюкоза, лактат, глутамат, глутамин, аммиак, VCD и т.д. Эти предсказания обычно основаны на калибровочной модели или модели мягкого датчика, построенной в автономных условиях на основе аналитических измерений из аналитического прибора. Для установления корреляции рамановского спектра с аналитическими измерениями обычно используют методы моделирования частично наименьших квадратов (PLC) и множественной линейной регрессии. Эти модели обычно требуют фильтрации путем предварительной обработки результатов рамановского сканирования перед калибровкой относительно аналитических измерений. После обучения калибровочной модели ее реализуют в условиях реального времени для обеспечения измерений in-situ с целью отслеживания процесса и/или управления им.Raman spectroscopy is a popular PAT tool widely used for on-line tracking in biomanufacturing. It is an optical technique that allows non-destructive analysis of chemical composition and molecular structure. In Raman spectroscopy, incident laser radiation is scattered inelastically due to the presence of molecular vibration modes. The frequency difference between the incident and scattered photons is called the Raman shift, and the vector of the Raman shift as a function of intensity levels (referred to herein as the Raman spectrum, Raman scan result, or Raman scan vector) can be analyzed to determine the chemical composition and molecular structure of the sample. Applications of Raman spectroscopy in polymer analysis, pharmaceutical, biomanufacturing, and biomedical analysis have increased significantly in the last three decades as laser sampling and detector technologies have improved. As a result of these technological advances, Raman spectroscopy is now a practical analysis technique used both inside and outside the laboratory. Since the application of in-situ Raman measurements in biomanufacturing was first reported, they have been put into use to provide operational, real-time predictions of some key process states such as glucose, lactate, glutamate, glutamine, ammonia, VCD, etc. d. These predictions are typically based on a calibration or soft sensor model built offline from analytical measurements from the analytical instrument. Partial least squares (PLC) and multiple linear regression modeling techniques are commonly used to correlate the Raman spectrum with analytical measurements. These models typically require filtering by preprocessing the Raman scan results before calibration against analytical measurements. Once the calibration model is trained, it is implemented in real time to provide in-situ measurements for process monitoring and/or control.
Калибровка рамановской модели для биофармацевтических применений является нетривиальной, так как биофармацевтические процессы обычно действуют в условиях жестких ограничений и норм. В текущем известном уровне техники подход к калибровке рамановской модели в биофармацевтической промышленности заключается в том, что, в первую очередь запускается несколько исследований производственного цикла для генерирования релевантных данных, которые используются для установления корреляции рамановского спектра с аналитическим измерением (измерениями). Эти исследования являются как дорогостоящими, так и трудоемкими, так как каждый производственный цикл может длиться в лабораторных условиях, например, от двух до четырех недель. Кроме того, для аналитических приборов может являться доступным лишь ограниченное количество выборок (например, для того чтобы убедиться, что лабораторный биореактор сохраняет значительную массу жизнеспособных клеток). Фактически нередко случается, что при поточных или автономных аналитических измерениях ежедневно доступно лишь одно или два измерения. Ситуацию дополнительно усугубляет то, что лучшие современные применения дают калибровочные модели, привязанные к конкретному процессу, конкретной формуле или профилю питательной среды биореактора и конкретным рабочим условиям. Поэтому при изменении любой из вышеупомянутых переменных может потребоваться повторная калибровка моделей на основе новых данных. Фактически как калибровка рамановских моделей, так и обслуживание моделей требуют выделения значительных ресурсов и обычно выполняются в автономных условиях. И хотя были предложены подходы, в которых модели адаптируют к новым рабочим условиям (например, рекурсивный ме- 1 043314 тод, метод скользящего окна и разностный временной метод), эти способы могут быть неспособны адекватно справляться с резкими изменениями в процессе.Calibrating a Raman model for biopharmaceutical applications is non-trivial, as biopharmaceutical processes typically operate under stringent constraints and regulations. The current prior art approach to calibrating a Raman model in the biopharmaceutical industry is to first run multiple run-through studies to generate relevant data that is used to correlate the Raman spectrum with the analytical measurement(s). These studies are both expensive and time-consuming, since each production run can last, for example, two to four weeks under laboratory conditions. In addition, only a limited number of samples may be available for analytical instruments (for example, to ensure that a laboratory bioreactor retains a significant mass of viable cells). In fact, it is not uncommon for in-line or offline analytical measurements to have only one or two measurements available each day. To further complicate the situation, the best current applications come from calibration models that are tied to a specific process, a specific bioreactor feed formula or profile, and specific operating conditions. Therefore, if any of the above variables change, models may need to be recalibrated based on new data. In fact, both Raman model calibration and model maintenance require significant resources and are typically performed offline. Although approaches have been proposed that adapt models to new operating conditions (eg, recursive, sliding window, and time difference methods), these methods may not be able to adequately handle sudden changes in the process.
Существует несколько публикаций, в которых описаны обобщенные рамановские модели на основе традиционных хемометрических методов (например, моделирование PLS) для множества молекул. Однако в этих обобщенных моделях предполагается, что в процессах используются подобные, если не одинаковые, составы питательной среды и/или рабочие условия процесса. Питательные среды и процессы обычно являются платформенными, с небольшими изменениями или без изменений. Недостатком обобщенной модели указанного типа является то, что, как только процесс отклоняется от нормы, или если набор обучающих данных содержит слишком широкий технологический диапазон в попытке учесть изменения (например, добавки к питательной среде, длительность процесса и/или другие изменения в процессе) между разными молекулами, обобщенные модели теряют точность и достоверность. Поэтому эти обобщенные модели являются обобщенными лишь в пределах описанных жестких рамок. См. Mehdizaheh и др., Biotechnolo. Prog. 31(4): 1004-1013, 2015; Webster и др., Biotechnol. Prog. 34(3):730-737, 2018.There are several publications that describe generalized Raman models based on traditional chemometric methods (e.g., PLS modeling) for a variety of molecules. However, these generalized models assume that processes use similar, if not identical, media compositions and/or process operating conditions. Culture media and processes are typically platform based, with little or no modification. The disadvantage of a generalized model of this type is that as soon as the process deviates from the norm, or if the training data set contains too wide a technological range in an attempt to account for changes (for example, media additives, process duration and/or other changes in the process) between different molecules, generalized models lose accuracy and reliability. Therefore, these generalized models are generalized only within the strict framework described. See Mehdizaheh et al., Biotechnolo. Prog. 31(4): 1004-1013, 2015; Webster et al., Biotechnol. Prog. 34(3):730-737, 2018.
Краткое описаниеShort description
Термин биофармацевтический процесс относится к процессу, используемому в биофармацевтическом производстве, такому как процесс культивирования клеток с целью получения требуемого рекомбинантного белка. Культивирование клеток происходит в сосуде для культивирования клеток, таком как биореактор, в условиях, которые поддерживают рост и поддержание организма, предназначенного для экспрессии белка. В ходе получения рекомбинантного белка с целью управления и/или поддержания процесса культивирования клеток выполняется отслеживание параметров процесса, таких как концентрации компонентов питательной среды, в том числе питательных веществ и метаболитов (например, глюкозы, лактата, глутамата, глутамина, аммиака, аминокислот, Na+, K+ и других питательных веществ или метаболитов), состояние питательной среды (рН, pCO2, pO2, температура, осмоляльность и т.д.), а также параметров клеток и/или белков (например, плотности жизнеспособных клеток (VCD), титра, состояния клеток, критических показателей качества и т.д.).The term biopharmaceutical process refers to a process used in biopharmaceutical manufacturing, such as the process of culturing cells to produce a desired recombinant protein. Cell culture occurs in a cell culture vessel, such as a bioreactor, under conditions that support the growth and maintenance of the organism intended to express the protein. During recombinant protein production, process parameters such as concentrations of culture medium components, including nutrients and metabolites (e.g., glucose, lactate, glutamate, glutamine, ammonia, amino acids, Na+) are monitored to control and/or maintain the cell culture process. , K+ and other nutrients or metabolites), the state of the culture medium (pH, pCO 2 , pO 2 , temperature, osmolality, etc.), as well as cell and/or protein parameters (for example, viable cell density (VCD), titer, cell condition, critical quality indicators, etc.).
Для устранения некоторых из вышеописанных ограничений лучших современных промышленных применений описанные в данном документе варианты осуществления относятся к системам и способам, совершенствующим традиционные методики спектроскопического анализа биофармацевтических процессов, такие как рамановская спектроскопия. В частности, для построения и обслуживания калибровочных моделей (например, рамановских калибровочных моделей) в реальном времени для биофармацевтических применений используется платформа Обучение точно в срок (JITL). JITL представляет собой платформу для нелинейного моделирования на основе технологии локального моделирования и выборки из базы данных. В отличие от других способов машинного обучения в JITL в целом предполагается, что все доступные наблюдения хранятся в центральной базе данных, а модели динамически строятся в реальном времени на основе запроса с использованием наиболее релевантных данных из базы данных. Это позволяет получить хорошее приближение сложной динамики процесса с использованием относительно простых локальных моделей. В условиях инфраструктуры JITL библиотека может содержать спектральные данные не только для одного процесса, эксплуатируемого в определенных рабочих условиях, но также данные для разных процессов, разных профилей питательной среды и/или разных рабочих условий. Это может значительно сократить время, требуемое для калибровки и обслуживания моделей, особенно для находящихся в разработке лекарств, которые могут иметь небольшую историю или не иметь истории на данный момент.To address some of the above-described limitations of current best industrial applications, the embodiments described herein relate to systems and methods that improve on traditional techniques for spectroscopic analysis of biopharmaceutical processes, such as Raman spectroscopy. In particular, the Just-in-Time Learning (JITL) platform is used to build and maintain calibration models (e.g., Raman calibration models) in real time for biopharmaceutical applications. JITL is a nonlinear modeling platform based on local modeling and database sampling technology. Unlike other machine learning techniques, JITL generally assumes that all available observations are stored in a central database and models are dynamically built in real time based on a query using the most relevant data from the database. This allows one to obtain a good approximation of complex process dynamics using relatively simple local models. In a JITL framework, a library may contain spectral data not only for a single process operating under specific operating conditions, but also data for different processes, different media profiles, and/or different operating conditions. This can significantly reduce the time required to calibrate and maintain models, especially for drugs in development that may have little or no history at this time.
Платформа JITL обслуживает динамическую библиотеку, которая может обновляться каждый раз, когда доступно новое аналитическое измерение. Кроме того, для обеспечения адаптации локальных моделей к новым условиям процесса, последнее доступное аналитическое измерение (например, для продукта, отслеживание которого выполняется в настоящий момент) всегда может быть включено в обучающий набор для локального моделирования. Это позволяет быстрее адаптировать локальную модель к новым условиям или к новым линейкам продуктов, не имеющим истории. С использованием этого подхода можно автоматизировать как калибровку модели, так и обслуживание модели, а также можно значительно сократить время и стоимость (например, материальные затраты и трудозатраты), связанные с повседневными калибровками в традиционных системах. Кроме того, возможность предоставления границ правдоподобия (или других индикаторов достоверности, таких как степени достоверности) по предсказаниям на основе модели может обеспечивать робастные стратегии отслеживания и управления.The JITL framework maintains a dynamic library that can be updated whenever a new analytical dimension is available. Additionally, to ensure that local models adapt to new process conditions, the latest available analytical measurement (for example, for the product currently being monitored) can always be included in the training set for the local simulation. This allows you to quickly adapt the local model to new conditions or to new product lines that have no history. Using this approach, both model calibration and model maintenance can be automated, and the time and cost (e.g., material and labor) associated with routine calibrations in traditional systems can be significantly reduced. In addition, the ability to provide likelihood bounds (or other confidence indicators such as confidence levels) on model-based predictions can provide robust tracking and control strategies.
В некоторых вариантах осуществления для локального моделирования в инфраструктуре JITL используются модели на основе гауссовского процесса. Модели на основе гауссовского процесса представляют собой мощные статистические модели машинного обучения, которые могут эффективно улавливать сложную нелинейную динамику процессов и могут легко адаптироваться практически к любым изменениям в процессе. В отличие от PLS регрессии основных компонентов (PCR) и регрессионных моделей других типов, модели на основе гауссовского процесса представляют собой непараметрические методы, и они являются намного более приспособленными к улавливанию сложных корреляций между рамановскими спектрами и аналитическими измерениями на основе ограниченных наборов данных. Кроме того, модели на основе гауссовского процесса в целом не требуют фильтрации путем предварительнойIn some embodiments, Gaussian process-based models are used for local modeling in the JITL framework. Gaussian process models are powerful statistical machine learning models that can effectively capture complex nonlinear process dynamics and can easily adapt to almost any change in a process. Unlike PLS principal component regression (PCR) and other types of regression models, Gaussian process models are nonparametric methods and are much more adept at capturing complex correlations between Raman spectra and analytical measurements from limited data sets. In addition, Gaussian process models generally do not require pre-filtering.
- 2 043314 обработки результатов рамановского сканирования. Соответственно в некоторых вариантах осуществления модели на основе гауссовского процесса альтернативно калибруются на свежих результатах рамановского сканирования (в логарифмической шкале), что может сэкономить множество этапов в процессе калибровки/обслуживания модели. Кроме того, модели на основе гауссовского процесса предоставляют границы правдоподобия по предсказаниям, получение которых с использованием моделей PLS или PCR может быть чрезвычайно затруднительным. Границы правдоподобия могут быть особенно полезны для разработки оптимальных стратегий взятия проб для аналитических приборов и/или для реализации управления в замкнутом контуре (например, управления по модели предсказания, или МРС), например, во избежание внесения изменений на основе ненадежных предсказаний.- 2 043314 processing of Raman scanning results. Accordingly, in some embodiments, Gaussian process-based models are alternatively calibrated on fresh Raman scan results (on a logarithmic scale), which can save many steps in the model calibration/maintenance process. In addition, Gaussian process models provide likelihood bounds on predictions that can be extremely difficult to obtain using PLS or PCR models. Likelihood bounds can be particularly useful for developing optimal sampling strategies for analytical instruments and/or for implementing closed-loop control (eg, model predictive control, or MPC), for example, to avoid making changes based on unreliable predictions.
Хотя JITL представляет собой нелинейную инфраструктуру моделирования, и хотя вышеописанный подход предусматривает некоторую адаптивность за счет обновления динамической библиотеки недавними аналитическими измерениями, JITL само по себе может не являться достаточно адаптивным для учета изменяющихся во времени условий процесса (например, резких изменений до заданного значения или других условий процесса). В частности, локальные модели, откалиброванные с использованием JITL, могут быть неспособны использовать недавние выборки. Например и в частности, если имело место недавнее и резкое изменение в условиях процесса, недавние выборки могут быть неспособны удовлетворять критерию подобия, основанному чисто на пространственном подобии (например, подобии результатов рамановского сканирования). В данном документе также описаны модифицированные методики JITL, которые могут лучше усреднять информацию, предоставляемую недавними выборками (независимо от пространственного подобия), и поэтому могут лучше адаптироваться к изменяющимся во времени изменениям в процессе. В частности, в данном документе описаны методики адаптивного JITL (A-JITL) и пространственно-временного JITL (ST-JITL) для калибровки и обслуживания моделей.Although JITL is a nonlinear modeling framework, and although the approach described above allows for some adaptability by updating the dynamic library with recent analytical measurements, JITL by itself may not be adaptive enough to account for time-varying process conditions (such as abrupt changes to a setpoint or other process conditions). In particular, local models calibrated using JITL may be unable to use recent samples. For example, and in particular, if there has been a recent and dramatic change in process conditions, recent samples may be unable to satisfy a similarity criterion based purely on spatial similarity (eg, similarity of Raman scan results). This paper also describes modified JITL techniques that can better average the information provided by recent samples (independent of spatial similarity) and can therefore better adapt to time-varying changes in the process. In particular, this paper describes adaptive JITL (A-JITL) and space-time JITL (ST-JITL) techniques for model calibration and maintenance.
Для успеха методик JITL может быть важно обслуживание моделей в реальном времени, при котором локальные модели могут обучаться на новейших аналитических измерениях и, таким образом, быстро адаптироваться к изменяющимся во времени условиям. Однако частый доступ к аналитическим приборам/измерениям (например, при автономном анализе выборок), как правило, является в высокой степени ресурсоемким. Для сведения к минимуму такого использования ресурсов без чрезмерного ухудшения качества модели может быть реализован основанный на качестве протокол обслуживания модели, в котором система планирует/инициирует аналитическое измерение в ответ на определение недопустимого/ненадежного текущего качества модели.Real-time model maintenance, where local models can be trained on the latest analytical measurements and thus quickly adapt to time-varying conditions, may be important to the success of JITL techniques. However, frequent access to analytical instruments/measurements (e.g., offline sample analysis) tends to be highly resource-intensive. To minimize such resource usage without unduly degrading model quality, a quality-based model maintenance protocol can be implemented in which the system schedules/initiates an analytical measurement in response to a determination that the current model quality is unacceptable/unreliable.
Краткое описание графических материаловBrief description of graphic materials
Специалисту в данной области техники понятно, что фигуры, описанные в данном документе, включены для целей иллюстрации, а не ограничения настоящего изобретения. Графические материалы не обязательно изображены в масштабе, акцент делается на иллюстрацию принципов настоящего изобретения. Следует понимать, что в некоторых случаях различные аспекты описанных вариантов реализации могут быть укрупнены или увеличены для улучшения понимания описанных вариантов реализации. На графических материалах подобные ссылочные позиции на разных фигурах в целом выполняют одинаковые функции и/или являются структурно одинаковыми компонентами.One skilled in the art will understand that the figures described herein are included for purposes of illustration and not limitation of the present invention. The graphics are not necessarily drawn to scale and emphasis is placed on illustrating the principles of the present invention. It should be understood that, in some cases, various aspects of the described embodiments may be expanded upon or enlarged to enhance the understanding of the described embodiments. In the drawings, similar reference numerals in different figures generally perform the same functions and/or are structurally the same components.
На фиг. 1 представлена упрощенная блок-схема примерной системы рамановской спектроскопии, которая может использоваться для предсказания аналитических измерений биофармацевтических процессов.In fig. Figure 1 shows a simplified block diagram of an exemplary Raman spectroscopy system that can be used to predict analytical measurements of biopharmaceutical processes.
На фиг. 2 представлена упрощенная блок-схема примерной системы рамановской спектроскопии, которая может использоваться для предсказания аналитических измерений биофармацевтических процессов для управления в замкнутом контуре концентрацией глюкозы.In fig. 2 shows a simplified block diagram of an exemplary Raman spectroscopy system that can be used to predict analytical measurements of biopharmaceutical processes for closed-loop control of glucose concentration.
На фиг. 3 изображены экспериментальные результаты управления в замкнутом контуре концентрацией глюкозы с использованием примерной реализации системы рамановской спектроскопии, описанной в данном документе.In fig. 3 depicts experimental results of closed-loop control of glucose concentration using an exemplary implementation of the Raman spectroscopy system described herein.
На фиг. 4 изображен примерный поток данных, который может иметь место при анализе биофармацевтического процесса с использованием методики Обучение точно в срок (JITL).In fig. Figure 4 depicts an example of the data flow that might occur when analyzing a biopharmaceutical process using Just-in-Time Learning (JITL) techniques.
На фиг. 5 изображен примерный поток данных, который может иметь место при анализе биофармацевтического процесса с использованием методики адаптивного JITL (A-JITL).In fig. 5 depicts an example data flow that may occur when analyzing a biopharmaceutical process using adaptive JITL (A-JITL) techniques.
На фиг. 6 изображен примерный поток данных, который может иметь место при анализе биофармацевтического процесса с использованием методики пространственно-временного JITL (ST-JITL).In fig. 6 depicts an example data flow that may occur when analyzing a biopharmaceutical process using the space-time JITL (ST-JITL) technique.
На фиг. 7 представлена схема последовательности операций примерного способа анализа биофармацевтического процесса.In fig. 7 is a flow chart of an exemplary method for analyzing a biopharmaceutical process.
Подробное описаниеDetailed description
Различные концепции, представленные выше и более подробно обсужденные далее, могут быть реализованы многими способами, и описанные концепции не ограничены каким-либо определенным способом реализации. Примеры вариантов реализации представлены для иллюстративных целей.The various concepts presented above and discussed in more detail below can be implemented in many ways, and the described concepts are not limited to any particular method of implementation. Example implementations are presented for illustrative purposes.
На фиг. 1 представлена упрощенная блок-схема примерной системы 100 рамановской спектроскопии, которая может использоваться для предсказания аналитических измерений биофармацевтических процессов. Хотя на фиг. 1 изображена система 100, в которой реализуются методики рамановской спек- 3 043314 троскопии, понятно, что в других вариантах осуществления в системе 100 могут быть реализованы другие спектроскопические методики, подходящие для анализа биофармацевтических процессов, такие как, например, спектроскопия в ближней инфракрасной области (NIR).In fig. 1 is a simplified block diagram of an exemplary Raman spectroscopy system 100 that can be used to predict analytical measurements of biopharmaceutical processes. Although in FIG. 1 depicts a system 100 that implements Raman spectroscopy techniques, it is understood that in other embodiments, the system 100 may implement other spectroscopic techniques suitable for analyzing biopharmaceutical processes, such as, for example, near-infrared spectroscopy ( NIR).
Система 100 содержит биореактор 102, один или несколько аналитических приборов 104, рамановский анализатор 106 с рамановским зондом 108, компьютер 110 и сервер 112 базы данных, соединенный с компьютером 110 через сеть 114. Биореактор 102 может представлять собой любой подходящий сосуд, устройство или систему, поддерживающую биологически активную среду, которая может содержать живые организмы и/или полученные из них вещества (например, культуру клеток) в питательной среде. Биореактор 102 может содержать рекомбинантные белки, экспрессируемые культурой клеток, например, для исследовательских целей, клинического применения, коммерческой продажи или другого распространения. В зависимости от отслеживаемого биофармацевтического процесса питательная среда может содержать определенную текучую среду (например, бульон) и определенные питательные вещества и может иметь целевые параметры состояния питательной среды, такие как целевой уровень или диапазон рН, целевая температура или температурный диапазон и т.д. Питательная среда может также содержать организмы и вещества, полученные из организмов, такие как метаболиты и рекомбинантные белки. Содержимое и параметры/характеристики питательной среды совместно называются в данном документе профилем питательной среды.System 100 includes a bioreactor 102, one or more analytical instruments 104, a Raman analyzer 106 with a Raman probe 108, a computer 110, and a database server 112 connected to the computer 110 via a network 114. The bioreactor 102 may be any suitable vessel, device, or system that supporting biologically active medium, which may contain living organisms and/or substances derived from them (for example, cell culture) in a nutrient medium. Bioreactor 102 may contain recombinant proteins expressed by cell culture, for example, for research purposes, clinical use, commercial sale, or other distribution. Depending on the biopharmaceutical process being monitored, the culture medium may contain a specific fluid (eg, broth) and specific nutrients, and may have target culture media conditions such as a target pH level or range, a target temperature or temperature range, etc. The culture medium may also contain organisms and substances derived from organisms, such as metabolites and recombinant proteins. The contents and parameters/characteristics of the culture medium are collectively referred to herein as the culture medium profile.
Аналитический прибор (приборы) 104 может представлять собой поточный, расположенный у потока и/или автономный прибор или приборы, выполненные с возможностью измерения одной или нескольких характеристик или параметров биологически активного содержимого в биореакторе 102 на основе взятых из него проб. Например, аналитический прибор (приборы) 104 может измерять концентрации одного или нескольких компонентов питательной среды, такие как уровни питательных веществ и/или метаболитов (например, глюкозы, лактата, глутамата, глутамина, аммиака, аминокислот, Na+, K+ и т.д.), и параметры состояния питательной среды (рН, pCO2, pO2, температура, осмоляльность и т.д.). Дополнительно или альтернативно аналитический прибор (приборы) 104 может измерять осмоляльность, плотность жизнеспособных клеток (VCD), титр, критические показатели качества, состояние клеток (например, клеточный цикл) и/или другие характеристики или параметры, связанные с содержимым биореактора 102. В качестве более конкретного примера пробы могут быть взяты, отцентрифугированы, очищены при помощи нескольких колонок и пропущены через первый из аналитических приборов 104 (например, прибор для высокоэффективной жидкостной хроматографии (HPLC) или ультравысокоэффективной жидкостной хроматографии (UPLC)) и затем через второй из аналитических приборов 104 (например, масс-спектрометр), при этом оба, первый и второй, аналитические приборы 104 предоставляют аналитические измерения. В одном, некоторых или всех аналитических приборах 104 могут использоваться разрушающие методики анализа.The analytical instrument(s) 104 may be an in-line, in-line, and/or off-line instrument or instruments configured to measure one or more characteristics or parameters of the biologically active contents in the bioreactor 102 based on samples taken therefrom. For example, the analytical instrument(s) 104 may measure concentrations of one or more components of the culture medium, such as levels of nutrients and/or metabolites (e.g., glucose, lactate, glutamate, glutamine, ammonia, amino acids, Na+, K+, etc.). ), and parameters of the state of the nutrient medium (pH, pCO 2 , pO 2 , temperature, osmolality, etc.). Additionally or alternatively, the analytical instrument(s) 104 may measure osmolality, viable cell density (VCD), titer, critical quality indicators, cell health (e.g., cell cycle), and/or other characteristics or parameters associated with the contents of the bioreactor 102. As More specifically, samples may be collected, centrifuged, purified using multiple columns, and passed through a first of analytical instruments 104 (e.g., a high performance liquid chromatography (HPLC) or ultra-high performance liquid chromatography (UPLC) instrument) and then through a second of analytical instruments 104 (eg, a mass spectrometer), wherein both the first and second analytical instruments 104 provide analytical measurements. One, some, or all of the analytical instruments 104 may use destructive analysis techniques.
Рамановский анализатор 106 может содержать спектрографическое устройство, соединенное с рамановским зондом 108 (или, в некоторых реализациях, несколькими рамановскими зондами). Рамановский анализатор 106 может содержать источник лазерного излучения, обеспечивающий лазерное излучение для рамановского зонда 108 по оптоволоконному кабелю, и может также содержать устройство с зарядовой связью (CCD) или другую подходящую камеру/регистрирующее устройство для регистрации сигналов, принимаемых из рамановского зонда 108, например, по другому каналу оптоволоконного кабеля. Альтернативно источник лазерного излучения может быть встроен в сам рамановский зонд 108. Рамановский зонд 108 может представлять собой погружной зонд или зонд любого другого подходящего типа (например, зонд отражательной способности и зонд пропускания).Raman analyzer 106 may include a spectrographic device coupled to a Raman probe 108 (or, in some implementations, multiple Raman probes). The Raman analyzer 106 may include a laser source that provides laser light to the Raman probe 108 via a fiber optic cable, and may also include a charge-coupled device (CCD) or other suitable camera/recording device for recording signals received from the Raman probe 108, e.g. via another fiber optic cable channel. Alternatively, the laser light source may be built into the Raman probe 108 itself. The Raman probe 108 may be an immersion probe or any other suitable type of probe (eg, a reflectivity probe and a transmittance probe).
Рамановский анализатор 106 и рамановский зонд 108 совместно выполнены с возможностью неразрушающего сканирования биологически активного содержимого в ходе биофармацевтического процесса в биореакторе 102 путем возбуждения, наблюдения и регистрации молекулярных отпечатков биофармацевтического процесса. Молекулярные отпечатки соответствуют колебательным, вращательным и/или другим низкочастотным модам молекул в биологически активном содержимом в биофармацевтическом процессе при возбуждении содержимого биореактора лазерным излучением, обеспечиваемым рамановским зондом 108. В результате этого процесса сканирования рамановский анализатор 106 генерирует один или несколько векторов рамановского сканирования, каждый из которых представляет собой интенсивность в зависимости от рамановского сдвига (частоты).The Raman analyzer 106 and the Raman probe 108 are collectively configured to non-destructively scan biologically active contents during a biopharmaceutical process in the bioreactor 102 by exciting, observing, and recording molecular fingerprints of the biopharmaceutical process. Molecular fingerprints correspond to vibrational, rotational and/or other low frequency modes of molecules in biologically active contents in a biopharmaceutical process when the bioreactor contents are excited by laser radiation provided by Raman probe 108. As a result of this scanning process, Raman analyzer 106 generates one or more Raman scan vectors, each which is the intensity as a function of the Raman shift (frequency).
Компьютер 110 соединен с рамановским анализатором 106 и аналитическим прибором (приборами) 104 и в целом выполнен с возможностью анализа векторов рамановского сканирования, генерируемых рамановским анализатором 106, с целью предсказания одного или нескольких аналитических измерений биофармацевтического процесса. Например, компьютер 110 может анализировать векторы рамановского сканирования для предсказания аналитического измерения (измерений) одного и того же типа (типов), выполняемого аналитическим прибором (приборами) 104. В качестве более конкретного примера компьютер 110 может предсказывать концентрации глюкозы, тогда как аналитический прибор (приборы) 104 фактически измеряет концентрации глюкозы. Однако в то время как аналитический прибор (приборы) 104 может выполнять относительно нечастые автономные аналитические измерения проб, извлекаемых из биореактора 102 (например, по причине ограниченных количеств питательной среды в био- 4 043314 фармацевтическом процессе и/или по причине более высокой стоимости выполнения таких измерений иComputer 110 is coupled to Raman analyzer 106 and analytical instrument(s) 104 and is generally configured to analyze Raman scan vectors generated by Raman analyzer 106 to predict one or more analytical measurements of a biopharmaceutical process. For example, computer 110 may analyze Raman scan vectors to predict analytical measurement(s) of the same type(s) performed by analytical instrument(s) 104. As a more specific example, computer 110 may predict glucose concentrations while analytical instrument ( devices) 104 actually measures glucose concentrations. However, while the analytical instrument(s) 104 may perform relatively infrequent offline analytical measurements on samples withdrawn from the bioreactor 102 (e.g., due to limited quantities of growth media in the biopharmaceutical process and/or due to the higher cost of performing such measurements and
т.д.), компьютер 110 может выполнять относительно частые оперативные предсказания аналитических измерений в реальном времени. Компьютер 110 также может быть выполнен с возможностью передачи аналитических измерений, выполненных аналитическим прибором (приборами) 104, на сервер 112 базы данных через сеть 114, как будет более подробно обсуждаться ниже.etc.), computer 110 can make relatively frequent on-line predictions of analytical measurements in real time. Computer 110 may also be configured to transmit analytical measurements performed by analytical instrument(s) 104 to database server 112 via network 114, as will be discussed in more detail below.
В примерном варианте осуществления, показанном на фиг. 1, компьютер 110 содержит блок 120 обработки данных, сетевой интерфейс 122, дисплей 124, устройство 126 пользовательского ввода и запоминающее устройство 128. Блок 120 обработки данных содержит один или несколько процессоров, каждый из которых может представлять собой программируемый микропроцессор, который исполняет программные команды, хранящиеся в запоминающем устройстве 128, с целью исполнения некоторых или всех функций компьютера 110, описанных в данном документе. Альтернативно один, несколько или все процессоры в блоке 120 обработки данных могут представлять собой процессоры других типов (например, специализированные интегральные микросхемы (ASIC), вентильные матрицы с эксплуатационным программированием (FPGA) и т.д.), и функциональные возможности компьютера 110, описанные в данном документе, альтернативно могут быть частично или полностью реализованы в аппаратном обеспечении. Запоминающее устройство 128 может содержать одно или несколько физических запоминающих устройств или блоков, включающих энергозависимое и/или энергонезависимое запоминающее устройство. Могут использоваться запоминающие устройства любого подходящего типа или типов, такие как постоянное запоминающее устройство (ROM), твердотельные накопители (SSD), накопители на жестких дисках (HDD) и т.д.In the exemplary embodiment shown in FIG. 1, computer 110 includes a processing unit 120, a network interface 122, a display 124, a user input device 126, and a storage device 128. The processing unit 120 includes one or more processors, each of which may be a programmable microprocessor that executes software instructions, stored in storage device 128 for the purpose of performing some or all of the functions of computer 110 described herein. Alternatively, one, more, or all of the processors in data processing unit 120 may be other types of processors (e.g., application specific integrated circuits (ASICs), field programmable gate arrays (FPGAs), etc.), and the functionality of computer 110 described as used herein, may alternatively be partially or fully implemented in hardware. Storage device 128 may include one or more physical storage devices or units, including volatile and/or non-volatile storage. Any suitable type or types of storage devices may be used, such as read only memory (ROM), solid state drives (SSD), hard disk drives (HDD), etc.
Сетевой интерфейс 122 может содержать любое подходящее аппаратное обеспечение (например, клиентское приемопередающее аппаратное обеспечение), программно-аппаратное обеспечение и/или программное обеспечение, выполненное с возможностью установления связи через сеть 114 с использованием одного или нескольких протоколов связи. Например, сетевой интерфейс 122 может представлять собой или содержать интерфейс Ethernet. Сеть 114 может представлять собой одну сеть связи или может содержать несколько сетей связи одного или нескольких типов (например, одну или несколько проводных и/или беспроводных локальных сетей (LAN) и/или одну или несколько проводных и/или беспроводных глобальных сетей (WAN), таких как, например, интернет или корпоративная сеть).Network interface 122 may comprise any suitable hardware (eg, client transceiver hardware), firmware, and/or software configured to communicate through network 114 using one or more communication protocols. For example, network interface 122 may be or include an Ethernet interface. Network 114 may be a single communications network or may comprise multiple communications networks of one or more types (e.g., one or more wired and/or wireless local area networks (LANs) and/or one or more wired and/or wireless wide area networks (WANs) , such as the Internet or corporate network).
В дисплее 124 может использоваться любая подходящая технология (например, LED, OLED, LCD и т.д.) для представления информации пользователю, а интерфейс 126 пользовательского ввода может представлять собой клавиатуру или другое подходящее устройство ввода. В некоторых вариантах осуществления дисплей 124 и устройство 126 пользовательского ввода объединены в одном устройстве (например, сенсорном дисплее). В целом дисплей 124 и устройство 126 пользовательского ввода могут объединяться для обеспечения возможности взаимодействия пользователя с графическими интерфейсами пользователя (GUI), предоставляемыми компьютером 110, например, для таких целей, как ручное отслеживание различных процессов, исполняемых в системе 100. Однако в некоторых вариантах осуществления компьютер 110 не содержит дисплей 124 и/или устройство 126 пользовательского ввода, или одно или оба из дисплея 124 и устройства 126 пользовательского ввода включены в другой компьютер или систему, которая соединена с возможностью связи с компьютером 110 (например, в некоторых вариантах осуществления, где предсказания отправляются непосредственно в систему управления, реализующую управление в замкнутом контуре).The display 124 may use any suitable technology (eg, LED, OLED, LCD, etc.) to present information to the user, and the user input interface 126 may be a keyboard or other suitable input device. In some embodiments, display 124 and user input device 126 are combined into a single device (eg, a touch display). In general, display 124 and user input device 126 may be combined to allow user interaction with graphical user interfaces (GUIs) provided by computer 110, such as for purposes such as manually monitoring various processes running on system 100. However, in some embodiments, the computer 110 does not include a display 124 and/or a user input device 126, or one or both of the display 124 and a user input device 126 are included in another computer or system that is communicatively coupled to the computer 110 (for example, in some embodiments where predictions are sent directly to the control system implementing closed-loop control).
В запоминающем устройстве 128 хранятся команды одного или нескольких программных приложений, в том числе приложения 130 предсказателя Обучение точно в срок (JITL). Приложение 130 предсказателя JITL при исполнении блоком 120 обработки данных в целом выполнено с возможностью предсказания аналитических измерений биофармацевтического процесса в биореакторе 102 путем калибровки локальной модели 132 и использования локальной модели 132 для анализа векторов рамановского сканирования, генерируемых рамановским анализатором 106. В зависимости от частоты, с которой рамановский анализатор 106 генерирует данные векторы сканирования, приложение 130 предсказателя JITL может предсказывать аналитические измерения на периодической или другой подходящей временной основе. Рамановский анализатор 106 может самостоятельно управлять временем генерирования векторов сканирования, или компьютер 110 может инициировать генерирование векторов сканирования путем отправки команды в рамановский анализатор 106. Приложение 130 предсказателя JITL может предсказывать аналитическое измерение только одного типа на основе каждого вектора сканирования (например, только концентрацию глюкозы) или может предсказывать на основе каждого вектора сканирования несколько типов аналитических измерений (например, концентрацию глюкозы и плотность жизнеспособных клеток). В других вариантах осуществления каждое из нескольких разных приложений предсказателя JITL (например, каждое из которых аналогично приложению 130 предсказателя JITL) генерирует отличную локальную модель для предсказания аналитического измерения другого типа, и все они основаны на одном и том же векторе сканирования. Приложение 130 предсказателя JITL и локальная модель 132 будут более подробно обсуждены ниже.Memory 128 stores instructions from one or more software applications, including Just-in-Time Learning (JITL) predictor application 130. The JITL predictor application 130, when executed by the data processing unit 120, is generally configured to predict analytical measurements of the biopharmaceutical process in the bioreactor 102 by calibrating the local model 132 and using the local model 132 to analyze the Raman scan vectors generated by the Raman analyzer 106. Depending on the frequency, with wherein Raman analyzer 106 generates these scan vectors, JITL predictor application 130 can predict analytical measurements on a periodic or other suitable time basis. The Raman analyzer 106 may independently control the timing of scan vector generation, or the computer 110 may initiate the generation of scan vectors by sending a command to the Raman analyzer 106. The JITL predictor application 130 may predict only one type of analytical measurement based on each scan vector (e.g., glucose concentration only). or can predict from each scan vector multiple types of analytical measurements (eg, glucose concentration and viable cell density). In other embodiments, each of several different JITL predictor applications (eg, each similar to JITL predictor application 130) generates a different local model for predicting a different type of analytical measurement, all based on the same scan vector. The JITL predictor application 130 and local model 132 will be discussed in more detail below.
Сервер 112 базы данных может являться удаленным от компьютера 110 (например, так, что локальная установка может содержать только биореактор 102, аналитический прибор (приборы) 104, раманов- 5 043314 ский анализатор 106 с рамановским зондом 108 и компьютер 110) и, как видно на фиг. 1, может содержать или являться соединенным с возможностью связи с базой 136 данных наблюдений, в которой хранятся наборы данных наблюдений, связанные с прошлыми наблюдениями. Каждый набор данных наблюдений в базе 136 данных наблюдений может содержать спектральные данные (например, один или несколько векторов рамановского сканирования в виде, получаемом рамановским анализатором 106) и одно или несколько соответствующих аналитических измерений (например, одно или несколько измерений в виде (видах), получаемом аналитическим прибором (приборами) 104). В зависимости от варианта осуществления и/или сценария прошлые наблюдения могут быть собраны для нескольких разных биофармацевтических процессов в нескольких разных рабочих условиях (например, при разных заданных значениях концентрации метаболитов) и/или с несколькими разными профилями питательной среды (например, разными текучими средами, питательными веществами, уровнями рН, температурами и т.д.). В целом может быть желательно, чтобы база 136 данных наблюдений представляла широкое разнообразие процессов, рабочих условий и профилей питательной среды. База 136 данных наблюдений может содержать или не содержать информацию, указывающую эти процессы, клеточные линии, белки, метаболиты, рабочие условия и/или профили питательной среды, однако, в зависимости от варианта осуществления (как дополнительно обсуждено ниже). В некоторых вариантах осуществления сервер 112 базы данных удаленно соединен с несколькими другими компьютерами, аналогичными компьютеру 110, через сеть 114 и/или другие сети. Это может потребоваться для сбора большого количества наборов данных наблюдений с целью сохранения в базе 136 данных наблюдений. Однако в других вариантах осуществления система 100 не содержит сервер 112 базы данных, и компьютер 110 получает доступ непосредственно к локальной базе 136 данных наблюдений.The database server 112 may be remote from the computer 110 (for example, such that the local installation may contain only the bioreactor 102, analytical instrument(s) 104, Raman analyzer 106 with Raman probe 108, and computer 110) and, as can be seen, in fig. 1 may contain or be communicatively connected to an observational database 136 that stores observational data sets associated with past observations. Each set of observational data in observational data base 136 may contain spectral data (e.g., one or more Raman scan vectors as obtained by Raman analyzer 106) and one or more corresponding analytical measurements (e.g., one or more measurements in the form(s) obtained by the analytical instrument(s) 104). Depending on the embodiment and/or scenario, historical observations may be collected for several different biopharmaceutical processes under several different operating conditions (e.g., different metabolite concentration setpoints) and/or with several different culture media profiles (e.g., different fluids, nutrients, pH levels, temperatures, etc.). In general, it may be desirable for the observational data base 136 to represent a wide variety of processes, operating conditions, and media profiles. The observation database 136 may or may not contain information indicating these processes, cell lines, proteins, metabolites, operating conditions and/or media profiles, however, depending on the embodiment (as further discussed below). In some embodiments, database server 112 is remotely connected to multiple other computers similar to computer 110 through network 114 and/or other networks. This may be required to collect a large number of observational data sets in order to store 136 observational data in a database. However, in other embodiments, the system 100 does not contain a database server 112 and the computer 110 accesses the local observation data database 136 directly.
Понятно, что вместо показанных на фиг. 1 могут использоваться другие конфигурации и/или компоненты. Например, другой компьютер (не показан на фиг. 1) может передавать измерения, предоставляемые аналитическим прибором (приборами) 104, на сервер 112 базы данных, одно или несколько дополнительных вычислительных устройств или систем могут действовать в качестве промежуточных звеньев между компьютером 110 и сервером 112 базы данных, некоторые или все функциональные возможности компьютера 110, описанные в данном документе, могут альтернативно выполняться удаленно сервером 112 базы данных и/или другим удаленным сервером и т.д.It is clear that instead of those shown in FIG. 1, other configurations and/or components may be used. For example, another computer (not shown in FIG. 1) may transmit measurements provided by analytical instrument(s) 104 to database server 112, one or more additional computing devices or systems may act as intermediate links between computer 110 and server 112. database, some or all of the functionality of computer 110 described herein may alternatively be performed remotely by database server 112 and/or another remote server, etc.
В ходе режима выполнения системы 100 рамановский анализатор 106 и рамановский зонд 108 используются для сканирования (т.е. генерирования векторов рамановского сканирования для) биофармацевтического процесса в биореакторе 102, и вектор (векторы) рамановского сканирования затем передается (передаются) из рамановского анализатора 106 на компьютер 110. Рамановский анализатор 106 и рамановский зонд 108 могут предоставлять векторы сканирования для поддержки предсказаний (выполняемых приложением 130 предсказателя JITL) в соответствии с предварительно определенным планом периодов отслеживания, как, например, один раз в минуту или один раз в час и т.д. Альтернативно предсказания могут выполняться через неравномерные промежутки (например, в ответ на определенный инициирующий фактор на основе процесса, такой как изменение в измеренном уровне рН и/или температуре), таким образом каждый период отслеживания имеет переменную или неопределенную длительность. В зависимости от варианта осуществления рамановский анализатор 106 может отправлять на компьютер 110 только один вектор сканирования за один период отслеживания или несколько векторов сканирования на компьютер 110 за один период отслеживания, в зависимости от того, сколько векторов сканирования локальная модель 132 принимает в качестве элемента входных данных для одного предсказания. Например, несколько векторов сканирования могут повышать точность предсказания локальной модели 132.During the execution mode of the system 100, the Raman analyzer 106 and the Raman probe 108 are used to scan (i.e., generate Raman scan vectors for) the biopharmaceutical process in the bioreactor 102, and the Raman scan vector(s) are then transferred from the Raman analyzer 106 to computer 110. Raman analyzer 106 and Raman probe 108 may provide scan vectors to support predictions (performed by JITL predictor application 130) according to a predetermined plan of tracking periods, such as once per minute or once per hour, etc. . Alternatively, predictions may be performed at irregular intervals (eg, in response to a specific process-based trigger, such as a change in measured pH and/or temperature), such that each tracking period has a variable or indeterminate duration. Depending on the embodiment, the Raman analyzer 106 may send only one scan vector per tracking period to the computer 110, or multiple scan vectors to the computer 110 per tracking period, depending on how many scan vectors the local model 132 accepts as an input data element. for one prediction. For example, multiple scan vectors can improve the prediction accuracy of the local model 132.
Блок 140 запроса приложения 130 предсказателя JITL использует вектор (векторы) сканирования, принятые для одного периода отслеживания, с целью генерирования точки запроса, которая будет использоваться для запроса базы 136 данных наблюдений. В некоторых вариантах осуществления точка запроса (т.е. данные, задающие точку запроса) содержит только данные, представляющие вектор (векторы) рамановского сканирования, принятый (принятые) из рамановского анализатора 106 (например, строки интенсивностей/частот, которые содержит каждый вектор сканирования). В других вариантах осуществления точка запроса также содержит информацию одного или нескольких других типов. Например, точка запроса может также содержать данные, представляющие рабочие условия, связанные с процессом (например, заданное значение концентрации метаболита в системе управления или длина волны и/или интенсивность лазерного излучения, связанная с рамановским анализатором 106 или рамановским зондом 108, и т.д.), данные, представляющие профиль питательной среды для питательной среды биофармацевтического процесса (например, тип текучей среды, типы или концентрации питательных веществ, уровень рН и т.д.) и/или другие данные (например, индикаторы клеточных линий, белков или метаболитов, связанных с биофармацевтическим процессом).The query block 140 of the JITL predictor application 130 uses the scan vector(s) received for one tracking period to generate a query point that will be used to query the observation data base 136 . In some embodiments, the query point (i.e., data defining the query point) contains only data representing the Raman scan vector(s) received from the Raman analyzer 106 (e.g., the intensity/frequency strings that each scan vector contains ). In other embodiments, the query point also contains one or more other types of information. For example, the query point may also contain data representing operating conditions associated with the process (e.g., a metabolite concentration setpoint in a control system or wavelength and/or laser intensity associated with Raman analyzer 106 or Raman probe 108, etc. .), data representing the culture media profile for the biopharmaceutical process media (e.g., type of fluid, types or concentrations of nutrients, pH level, etc.), and/or other data (e.g., indicators of cell lines, proteins, or metabolites associated with the biopharmaceutical process).
В целом точка запроса может содержать данные, представляющие те же векторы, параметры и/или классификации, которые локальная модель 132 использует в качестве входных данных (т.е. в качестве набора признаков локальной модели 132). Использование для набора признаков нескольких разных типов данных может повышать точность предсказаний аналитических измерений, выполняемых локальнойIn general, a query point may contain data representing the same vectors, parameters and/or classifications that the local model 132 uses as input (ie, as a feature set of the local model 132). Using multiple different data types for a feature set can improve the accuracy of analytical measurement predictions made locally.
- 6 043314 моделью 132. Однако, поскольку в целом требуется, чтобы каждый набор данных наблюдений в базе 136 данных наблюдений содержал одни и те же векторы, параметры и/или характеристики в качестве набора признаков, может являться предпочтительным ограничение точки запроса, и включение в набор признаков/входные данные локальной модели 132 только одного или нескольких векторов рамановского сканирования. Это может предоставлять различные преимущества, такие как возможность сбора большего количества информации для хранения в базе 136 данных наблюдений и/или упрощение сбора этой информации. Например, если используются только векторы рамановского сканирования, наборы данных наблюдений могут быть включены в базу 136 данных наблюдений, даже если о процессах, клеточных линиях, белках, метаболитах, рабочих условиях и/или профилях питательной среды, которые существовали на момент сбора наборов данных, известно мало или ничего не известно.- 6 043314 model 132. However, since it is generally required that each observational data set in the observational data base 136 contain the same vectors, parameters and/or characteristics as a feature set, it may be preferable to limit the query point, and include in feature set/local model input 132 of only one or more Raman scan vectors. This may provide various benefits, such as allowing more information to be collected for storage in the observational data base 136 and/or making it easier to collect this information. For example, if only Raman scan vectors are used, observational data sets can be included in the observational data base 136, even if the processes, cell lines, proteins, metabolites, operating conditions and/or culture media profiles that existed at the time the data sets were collected little or nothing is known.
Блок 140 запроса затем запрашивает базу 136 данных наблюдений с использованием сгенерированной точки запроса. В примерном варианте осуществления, представленном на фиг. 1, блок 140 запроса выполняет запрос, обеспечивая передачу сетевым интерфейсом 122 точки запроса (например, в сообщении запроса) на сервер 112 базы данных через сеть 114, что, в свою очередь, обеспечивает извлечение сервером 112 базы данных соответствующих данных из базы 136 данных наблюдений. Однако в вариантах осуществления, где база 136 данных наблюдений альтернативно включена в компьютер 110 (или в запоминающее устройство, соединенное с ним с возможностью связи), блок 140 запроса может альтернативно запрашивать базу 136 данных наблюдений более непосредственно. Для простоты объяснения остальное описание фиг. 1 будет предполагать, что база 136 данных наблюдений соединена с сервером 112 базы данных, как изображено на фиг. 1. Однако специалисту в данной области техники будет легко понятно, как могут отличаться каналы связи, если база 136 данных наблюдений альтернативно расположена локально по отношению к компьютеру 110 или в другом подходящем местоположении в архитектуре системы.Query block 140 then queries observational data base 136 using the generated query point. In the exemplary embodiment shown in FIG. 1, query block 140 executes a query by causing network interface 122 to transmit query points (e.g., in a query message) to database server 112 via network 114, which in turn causes database server 112 to retrieve relevant data from observation database 136 . However, in embodiments where observational data base 136 is alternatively included in computer 110 (or a storage device communicatively coupled thereto), query block 140 may alternatively query observational data base 136 more directly. For ease of explanation, the remainder of the description of FIG. 1 will assume that observation database 136 is connected to database server 112, as depicted in FIG. 1. However, one skilled in the art will readily appreciate how the communication channels may differ if observational data base 136 is alternatively located locally to computer 110 or other suitable location in the system architecture.
После приема точки запроса сервер 112 базы данных использует точку запроса для выбора из базы 136 данных наблюдений релевантных наборов данных наблюдений, которые будут полезны в качестве обучающих данных для локальной модели 132. Для идентификации того, какие наборы данных наблюдений являются релевантными, сервер 112 базы данных может применять любые подходящие критерии релевантности, в зависимости от варианта осуществления. В одном варианте осуществления, например, точка запроса содержит один вектор рамановского сканирования, и сервер 112 базы данных определяет, является ли данный набор данных наблюдений релевантным, путем вычисления евклидова расстояния между вектором рамановского сканирования этого набора данных наблюдений и вектором рамановского сканирования точки запроса. Если евклидово расстояние находится ниже некоторого предварительно определенного порогового значения (или ниже переменного порогового значения, такого как пороговое значение, вычисленное на основе среднего евклидова расстояния между вектором сканирования точки запроса и векторами сканирования всех наборов данных наблюдений и т.д.), набор данных наблюдений идентифицирован как релевантный набор данных наблюдений. Специалисту в данной области техники будет понятно, каким образом можно легко распространить подход на варианты осуществления, в которых точка запроса (и каждый набор данных наблюдений) содержит несколько векторов рамановского сканирования. В некоторых ситуациях использование евклидова расстояния для выбора релевантных наборов данных наблюдений может являться субоптимальной методикой. Однако, если локальная модель 132 представляет собой модель на основе гауссовского процесса (как обсуждено ниже), использование евклидова расстояния в качестве критерия релевантности может являться особенно преимущественным. Причиной этого является то, что модели на основе гауссовского процесса с радиальными базисными функциями или квадратичными экспоненциальными ядрами сами основаны на евклидовом расстоянии. Тем не менее, в других вариантах осуществления могут применяться другие критерии релевантности (например, критерии на основе углов или на основе коэффициентов корреляции и т.д.). Понятно, что в вариантах осуществления, где локальная модель 132 также допускает другую информацию в качестве элемента входных данных/набора признаков (например, рабочие условия, профиль питательной среды, данные процесса, информацию о клеточных линиях, информацию о белках и/или информацию о метаболитах и т.д.), для идентификации релевантных наборов данных наблюдений могут использоваться более сложные методики. В некоторых вариантах осуществления сервер 112 базы данных выбирает только предварительно определенное количество релевантных наборов данных наблюдений в ответ на один запрос или выбирает не больше некоторого максимально допустимого количества релевантных наборов данных наблюдений с целью обеспечения извлечения лишь относительно небольшого поднабора из всех наборов данных в базе 136 данных наблюдений. Однако в других вариантах осуществления сервер 112 базы данных может выбирать любое количество релевантных наборов данных наблюдений до тех пор, пока для каждого такого набора данных наблюдений удовлетворяются критерии релевантности.After receiving a query point, database server 112 uses the query point to select from observational data base 136 relevant observational datasets that will be useful as training data for local model 132. To identify which observational datasets are relevant, database server 112 may apply any suitable relevance criteria, depending on the embodiment. In one embodiment, for example, a query point contains a single Raman scan vector, and database server 112 determines whether a given observational data set is relevant by calculating the Euclidean distance between the Raman scan vector of that observational data set and the Raman scan vector of the query point. If the Euclidean distance is below some predefined threshold (or below a variable threshold, such as a threshold calculated based on the average Euclidean distance between the scan vector of the query point and the scan vectors of all observation datasets, etc.), the observation dataset identified as a relevant observational data set. One skilled in the art will appreciate how the approach can easily be extended to embodiments in which the query point (and each observation data set) contains multiple Raman scan vectors. In some situations, using Euclidean distance to select relevant observational data sets may be a suboptimal technique. However, if the local model 132 is a Gaussian process model (as discussed below), the use of Euclidean distance as a relevance criterion may be particularly advantageous. The reason for this is that Gaussian process models with radial basis functions or quadratic exponential kernels are themselves based on Euclidean distance. However, in other embodiments, other relevance criteria may be applied (eg, angle-based or correlation coefficient-based, etc.). It is understood that in embodiments where the local model 132 also allows other information as an element of the input data/feature set (e.g., operating conditions, media profile, process data, cell line information, protein information, and/or metabolite information etc.), more sophisticated techniques can be used to identify relevant observational data sets. In some embodiments, database server 112 selects only a predetermined number of relevant observational data sets in response to a single query, or selects no more than a certain maximum allowable number of relevant observational data sets to ensure that only a relatively small subset is retrieved from all data sets in database 136 observations. However, in other embodiments, database server 112 may select any number of relevant observation data sets as long as the relevance criteria are satisfied for each such observation data set.
В некоторых вариантах осуществления, как будет более подробно описано ниже (например, со ссылкой на фиг. 5 и 6), релевантные наборы данных наблюдений выбираются не только на основе релевантности точке запроса в пространственном смысле (например, подобия векторов рамановского сканирования), но также на основе релевантности во временном смысле (например, того, какие наборы дан- 7 043314 ных являются самыми недавними, независимо от пространственного подобия). В этих методиках может быть более преимущественно задействован тот факт, что более недавние аналитические измерения могут предоставлять полезную информацию, даже если эти недавние измерения соответствуют другому заданному значению, и т.д.In some embodiments, as will be described in more detail below (eg, with reference to FIGS. 5 and 6), relevant observational data sets are selected not only based on relevance to the query point in a spatial sense (eg, similarity of Raman scan vectors), but also based on relevance in a temporal sense (eg, which datasets are the most recent, regardless of spatial similarity). These techniques may more advantageously take advantage of the fact that more recent analytical measurements may provide useful information even if those more recent measurements correspond to a different target value, etc.
После идентификации релевантных наборов данных наблюдений (каждый из которых может соответствовать или может не соответствовать таким же условиям процесса, как у биофармацевтического процесса в биореакторе 102, отслеживание которого выполняется в настоящий момент) сервер 112 базы данных извлекает эти наборы данных (например, векторы рамановского сканирования и соответствующее аналитическое измерение (измерения)) и передает извлеченные наборы данных на компьютер 110 через сеть 114. Блок 140 запроса затем может передавать релевантные наборы данных на генератор 142 локальной модели, и генератор 142 локальной модели использует релевантные наборы данных в качестве обучающих данных для калибровки локальной модели 132. То есть генератор 142 локальной модели использует вектор (векторы) рамановского сканирования (и, возможно, другие данные), связанный с каждым набором данных наблюдений, в качестве набора признаков и использует аналитическое измерение (измерения), связанное с тем же набором данных наблюдений, в качестве метки для этого набора признаков.After identifying relevant observational data sets (each of which may or may not correspond to the same process conditions as the biopharmaceutical process in bioreactor 102 that is currently being monitored), database server 112 retrieves these data sets (e.g., Raman scan vectors and corresponding analytical measurement(s)) and transmits the extracted data sets to the computer 110 via the network 114. The query block 140 can then transmit the relevant data sets to the local model generator 142, and the local model generator 142 uses the relevant data sets as training data for calibration local model 132. That is, the local model generator 142 uses the Raman scan vector(s) (and possibly other data) associated with each observational data set as a feature set and uses the analytical measurement(s) associated with the same set observational data as a label for this set of features.
В некоторых вариантах осуществления, как указано выше, генератор 142 локальной модели строит модель на основе гауссовского процесса с целью эффективного улавливания сложной нелинейной динамики процесса и быстрой адаптации практически к любым изменениям в процессе. В отличие от моделей PLS и PCR, в моделях на основе гауссовского процесса используются непараметрические методы, и они являются намного более приспособленными к улавливанию сложных нелинейных корреляций между векторами рамановского сканирования и аналитическими измерениями даже при использовании весьма ограниченного количества обучающих выборок. Это может являться особенно важным в сценариях, где новые продукты или процессы соответствуют лишь ограниченному количеству наборов данных в базе 136 данных наблюдений. В таких сценариях модель на основе гауссовского процесса в целом способна извлекать наибольшее количество информации из таких ограниченных наборов данных в сочетании с другими релевантными наборами данных, которые сервер 112 базы данных извлекает из базы 136 данных наблюдений. Однако в других вариантах осуществления генератор 142 локальной модели может альтернативно строить модель машинного обучения любого другого подходящего типа (например, рекурсивную нейронную сеть, сверточную нейронную сеть и т.д.) до тех пор, пока время обучения не превысит минимальную желаемую длительность периода отслеживания. Генератор 142 локальной модели может также строить локальную модель 132 так, что локальная модель 132 может выводить границы правдоподобия или любой другой подходящий индикатор достоверности предсказания (например, степень достоверности). По меньшей мере по сравнению с моделями PLS и PCR, модели на основе гауссовского процесса особенно хорошо подходят для представления границ правдоподобия по предсказаниям аналитических измерений. Хотя были описаны различные преимущества моделей на основе гауссовского процесса перед моделями PLS и PCR, понятно, что в некоторых вариантах осуществления генератор 142 локальной модели может использовать методы моделирования PLS или PCR для построения локальной модели 132.In some embodiments, as discussed above, local model generator 142 builds a model based on a Gaussian process to effectively capture complex nonlinear process dynamics and quickly adapt to virtually any changes in the process. Unlike PLS and PCR models, Gaussian process-based models use nonparametric methods and are much better able to capture complex nonlinear correlations between Raman scan vectors and analytical measurements, even when using a very limited number of training samples. This may be particularly important in scenarios where new products or processes correspond to only a limited number of data sets in the observational data base. In such scenarios, the Gaussian process model is generally able to extract the most information from such limited data sets in combination with other relevant data sets that the database server 112 retrieves from the observational data base 136. However, in other embodiments, local model generator 142 may alternatively build any other suitable type of machine learning model (e.g., recursive neural network, convolutional neural network, etc.) as long as the training time does not exceed the minimum desired duration of the tracking period. Local model generator 142 may also build local model 132 such that local model 132 may output likelihood bounds or any other suitable indicator of prediction confidence (eg, confidence level). At least compared to PLS and PCR models, Gaussian process models are particularly well suited for representing likelihood bounds on analytical measurement predictions. While various advantages of Gaussian process models over PLS and PCR models have been described, it is understood that in some embodiments, the local model generator 142 may use PLS or PCR modeling techniques to build the local model 132.
Генератор 142 локальной модели может строить локальную модель 132 оперативным образом в реальном времени так, что блок 144 предсказания может затем использовать обученную локальную модель 132 для предсказания одного или нескольких аналитических измерений биофармацевтического процесса путем обработки того же вектора (векторов) рамановского сканирования, который был использован блоком 140 запроса для генерирования точки запроса. Более того, в некоторых вариантах осуществления блок 140 запроса может выполнять новый запрос и генератор 142 локальной модели может генерировать новую версию локальной модели 132 каждый раз, когда рамановский анализатор 106 предоставляет на компьютер 110 новый вектор рамановского сканирования (или новый набор векторов рамановского сканирования). В других вариантах осуществления, однако, блок 140 запроса выполняет новый запрос (и генератор 142 локальной модели генерирует новую версию локальной модели 132) на менее частой основе, как, например, один раз каждые 10 предсказаний/периодов отслеживания или один раз каждые 100 предсказаний/периодов отслеживания и т.д.The local model generator 142 may build the local model 132 on-line in real time such that the prediction unit 144 may then use the trained local model 132 to predict one or more analytical measurements of the biopharmaceutical process by processing the same Raman scan vector(s) that were used query block 140 to generate a query point. Moreover, in some embodiments, query block 140 may perform a new query and local model generator 142 may generate a new version of local model 132 each time Raman analyzer 106 provides computer 110 with a new Raman scan vector (or a new set of Raman scan vectors). In other embodiments, however, query block 140 performs a new query (and local model generator 142 generates a new version of local model 132) on a less frequent basis, such as once every 10 predictions/tracking periods or once every 100 predictions/ tracking periods, etc.
Блок 146 обслуживания базы данных также может обеспечивать периодический сбор аналитическим прибором (приборами) 104 данных одного или нескольких аналитических измерений с частотой, которая значительно меньше периода отслеживания рамановского анализатора 106 (например, лишь один или два раза в день и т.д.). Измерение (измерения) аналитическим прибором (приборами) 104 может являться разрушающим в некоторых вариантах осуществления и требующим полного удаления пробы из процесса в биореакторе 102. В момент или приблизительно в момент, в который блок 146 обслуживания базы данных обеспечивает сбор и предоставление аналитическим прибором (приборами) 104 данных фактического аналитического измерения (измерений), блок 146 обслуживания базы данных также может обеспечивать предоставление рамановским анализатором 106 одного или нескольких векторов рамановского сканирования. Блок 146 обслуживания базы данных затем может обеспечивать отправку сетевым интерфейсом 122 вектора (векторов) рамановского сканирования и соответствующего фактиче- 8 043314 ского аналитического измерения (измерений) на сервер 112 базы данных через сеть 114 для хранения в качестве нового набора данных наблюдений в базе 136 данных наблюдений. База 132 данных наблюдений может обновляться в соответствии с любым подходящим расчетным временем, которое может изменяться в зависимости от варианта осуществления. Если аналитический прибор (приборы) 104 выводит (выводят) фактические аналитические измерения через несколько секунд после измерения пробы, например, база 132 данных наблюдений может обновляться новыми измерениями почти сразу же после взятия проб. В некоторых других вариантах осуществления фактические аналитические измерения могут происходить в течение минут, часов или даже дней обработки одним или несколькими аналитическими приборами 104, и в этом случае база 132 данных наблюдений не обновляется до тех пор, пока обработка не будет завершена. В еще одних вариантах осуществления новые наборы данных наблюдений могут добавляться в базу 132 данных наблюдений постепенно по мере того, как разные аналитические приборы 104 завершают их соответствующие измерения.The database maintenance unit 146 may also cause the analytical instrument(s) 104 to periodically collect one or more analytical measurements at a frequency that is significantly less than the tracking period of the Raman analyzer 106 (eg, only once or twice a day, etc.). The measurement(s) by analytical instrument(s) 104 may be destructive in some embodiments and require complete removal of the sample from the process in bioreactor 102. At or approximately the time that database maintenance unit 146 causes the analytical instrument(s) to collect and provide ) 104 data of the actual analytical measurement(s), the database maintenance unit 146 may also cause the Raman analyzer 106 to provide one or more Raman scan vectors. Database maintenance unit 146 may then cause network interface 122 to send the Raman scan vector(s) and corresponding actual analytical measurement(s) to database server 112 via network 114 for storage as a new set of observational data in database 136 observations. The observation database 132 may be updated according to any suitable estimated time, which may vary depending on the embodiment. If the analytical instrument(s) 104 output(s) the actual analytical measurements several seconds after the sample is measured, for example, the observational data base 132 may be updated with new measurements almost immediately after sampling. In some other embodiments, the actual analytical measurements may occur within minutes, hours, or even days of processing by one or more analytical instruments 104, in which case the observational database 132 is not updated until processing is complete. In still other embodiments, new sets of observational data may be added to the observational database 132 gradually as different analytical instruments 104 complete their respective measurements.
Таким образом, база 136 данных наблюдений предоставляет динамическую библиотеку прошлых наблюдений, к которой генератор 142 локальной модели может обращаться для обучения модели. В некоторых вариантах осуществления новейшее аналитическое измерение (измерения) всегда добавляется (добавляются) в базу 136 данных наблюдений, и генератор 142 локальной модели всегда может использовать самый недавний набор (наборы) данных наблюдений в базе 136 данных наблюдений при калибровке локальной модели 132. Это может обеспечивать возможность декодирования локальной моделью 132 информации о процессе из недавнего прошлого и быстро адаптироваться к новым условиям или быстро адаптироваться к условиям нового процесса, не имеющего истории. Кроме того, и калибровка, и обслуживание локальной модели 132 могут быть автоматизированы. В некоторых вариантах осуществления возможность адаптации локальной модели 132 дополнительно увеличивается, например, как обсуждено ниже в связи с методиками A-JITL и ST-JITL.Thus, the observational database 136 provides a dynamic library of past observations that the local model generator 142 can access to train the model. In some embodiments, the newest analytical measurement(s) are always added to the observational database 136, and the local model generator 142 may always use the most recent observational data set(s) in the observational database 136 when calibrating the local model 132. This may provide the ability for the local model 132 to decode information about a process from the recent past and quickly adapt to new conditions or quickly adapt to the conditions of a new process that has no history. In addition, both calibration and maintenance of the local Model 132 can be automated. In some embodiments, the ability to adapt the local model 132 is further enhanced, for example, as discussed below in connection with the A-JITL and ST-JITL techniques.
В некоторых вариантах осуществления блок 146 обслуживания базы данных может обеспечивать сбор и предоставление аналитическим прибором (приборами) 104 данных фактического аналитического измерения (измерений) на какой-либо другой временной основе или условии, таком как, например, текущее качество модели. Например, если локальная модель 132 выводит интервал правдоподобия (например, диапазон значений по предсказанному значению, в пределах которого имеется 95% вероятность или достоверность того, что в него попадет фактическое/измеренное значение) или какой-либо другой индикатор достоверности наряду с предсказанием (например, если локальная модель 132 представляет собой модель на основе гауссовского процесса), и если индикатор достоверности показывает особенно ненадежное предсказание (например, если интервал/диапазон превышает пороговое значение ширины/диапазона, и т.д.), то блок 146 обслуживания базы данных может инициировать сбор данных одного или нескольких фактических аналитических измерений. В качестве более конкретного примера блок 146 обслуживания базы данных может инициировать сбор данных аналитического измерения (измерений) в ответ на определение превышения интервалом с 95% правдоподобием предварительно заданного порогового значения. Оптимальное планирование аналитических измерений более подробно обсуждено ниже. После выполнения измерения (измерений) блок 146 обслуживания базы данных может обеспечивать генерирование рамановским анализатором 106 одного или нескольких векторов рамановского сканирования и обеспечивать предоставление сетевым интерфейсом 122 фактического аналитического измерения (измерений) и соответствующего вектора (векторов) рамановского сканирования на сервер 112 базы данных для хранения в качестве нового набора данных наблюдений в базе 132 данных наблюдений (например, способом, обсужденным выше). Генератор 142 локальной модели может затем использовать этот новейший набор данных наблюдений, если это необходимо (например, в зависимости от релевантности текущему запросу, или от того, всегда ли в варианте осуществления используется самый недавний набор данных наблюдений), при калибровке локальной модели 132.In some embodiments, the database maintenance block 146 may cause the analytical instrument(s) 104 to collect and report the actual analytical measurement(s) on some other time basis or condition, such as, for example, the current quality of the model. For example, if local model 132 outputs a likelihood interval (e.g., a range of values over a predicted value within which there is a 95% probability or confidence that the actual/measured value will fall within it) or some other confidence indicator along with the prediction (e.g. if the local model 132 is a Gaussian process model), and if the confidence indicator indicates a particularly unreliable prediction (eg, if the interval/range exceeds the width/range threshold, etc.), then the database maintenance unit 146 may initiate the collection of one or more actual analytical measurements. As a more specific example, database maintenance unit 146 may initiate collection of analytical measurement(s) in response to a determination that the 95% likelihood interval has exceeded a predetermined threshold value. Optimal planning of analytical measurements is discussed in more detail below. After the measurement(s) are performed, database service unit 146 may cause Raman analyzer 106 to generate one or more Raman scan vectors and cause network interface 122 to provide the actual analytical measurement(s) and corresponding Raman scan vector(s) to database server 112 for storage. as a new set of observational data in the observational data base 132 (eg, in the manner discussed above). The local model generator 142 can then use this newest observational data set as needed (e.g., depending on relevance to the current query, or whether the embodiment always uses the most recent observational data set) when calibrating the local model 132.
Некоторые или все вышеописанные процессы могут повторяться несколько раз в течение времени выполнения биофармацевтического процесса в биореакторе с целью непрерывного отслеживания процесса с использованием локальной модели, для которой как калибровка, так и обслуживание являются полностью автоматизированными и выполняемыми в реальном времени. Аналитическое измерение (измерения) может предсказываться с разными целями в зависимости от варианта осуществления и/или сценария. Например, некоторые параметры могут быть отслежены (т.е. предсказаны) как часть процесса управления качеством, для того чтобы убедиться в том, что процесс по-прежнему соответствует действующим нормам. В качестве другого примера один или несколько параметров могут отслеживаться или предсказываться для обеспечения обратной связи в системе управления в замкнутом контуре. Например, на фиг. 2 изображена система 150, подобная системе 100, но в которой предпринята попытка управления концентрацией глюкозы в биофармацевтическом процессе (т.е. попытка обеспечить совпадение предсказанной концентрации глюкозы с требуемым заданным значением в пределах некоторого допустимого отклонения). Понятно, что в других вариантах осуществления система 150 может альтернативно (или дополнительно) использоваться для управления параметрами процесса, отличными от уровня глюкозы, или для управления уровнем глюкозы на основе предсказаний одного или нескольких других параметров процесса (например, уровня лактата). На фиг. 2 для указания компонентов, соответствующих компонен- 9 043314 там, представленным на фиг. 1, используются такие же ссылочные позиции. Например, приложение 130 предсказателя JITL, представленное на фиг. 2, может являться таким же, как приложение 130 предсказателя JITL, представленное на фиг. 1 (при этом различные блоки приложения 130 предсказателя JITL для ясности не показаны на фиг. 2).Some or all of the above processes may be repeated several times during the running time of the biopharmaceutical process in the bioreactor to continuously monitor the process using a local model for which both calibration and maintenance are fully automated and performed in real time. The analytical measurement(s) may be predicted for different purposes depending on the embodiment and/or scenario. For example, certain parameters may be monitored (ie predicted) as part of the quality management process to ensure that the process continues to comply with current regulations. As another example, one or more parameters may be monitored or predicted to provide feedback to a closed-loop control system. For example, in FIG. 2 depicts a system 150 similar to system 100, but attempting to control the glucose concentration in a biopharmaceutical process (ie, attempting to ensure that the predicted glucose concentration matches a desired set point within some tolerance). It is understood that in other embodiments, system 150 may alternatively (or additionally) be used to control process parameters other than glucose level, or to control glucose level based on predictions of one or more other process parameters (eg, lactate level). In fig. 2 to indicate components corresponding to those shown in FIG. 1, the same reference numbers are used. For example, the JITL predictor application 130 shown in FIG. 2 may be the same as the JITL predictor application 130 shown in FIG. 1 (with the various blocks of the JITL predictor application 130 not shown in FIG. 2 for clarity).
Как видно на фиг. 2, в системе 150 в запоминающем устройстве 128 также хранится блок 152 управления. Блок 152 управления выполнен с возможностью управления насосом 154 глюкозы, т.е. с возможностью обеспечения выборочного введения насосом 154 глюкозы дополнительной глюкозы в биофармацевтический процесс в биореакторе 102. Блок 152 управления может содержать программные команды, исполняемые, например, блоком 120 обработки данных, и/или соответствующим программноаппаратным обеспечением, и/или аппаратным обеспечением. В некоторых вариантах осуществления в блоке 152 управления реализуется методика управления по модели предсказания (МРС) с использованием концентраций глюкозы в качестве входных данных в архитектуру с замкнутым контуром. В вариантах осуществления, где локальная модель 132 предоставляет границы правдоподобия или другие индикаторы достоверности вместе с каждым предсказанием (например, в некоторых вариантах осуществления, где локальная модель 132 представляет собой модель на основе гауссовского процесса), блок 152 управления также может принимать индикаторы достоверности в качестве входных данных. Например, блок 152 управления может генерировать только управляющие команды для насоса 154 глюкозы на основе предсказаний концентрации глюкозы, имеющих достаточно высокий индикатор достоверности (например, только на основе предсказаний, связанных с границами правдоподобия, которые не превышают некоторую процентную долю или абсолютный диапазон измерений, или только на основе предсказаний, связанных со степенями достоверности выше некоторого минимального порогового значения степени, и т.д.), или может увеличивать и/или уменьшать весовой коэффициент данного предсказания на основе его индикатора достоверности и т.д.As can be seen in FIG. 2, in system 150, memory 128 also stores control unit 152. The control unit 152 is configured to control the glucose pump 154, i.e. with the ability to cause the glucose pump 154 to selectively introduce additional glucose into the biopharmaceutical process in the bioreactor 102. The control unit 152 may include software instructions executed, for example, by the data processing unit 120 and/or associated firmware and/or hardware. In some embodiments, control block 152 implements model predictive control (MPC) techniques using glucose concentrations as input to a closed-loop architecture. In embodiments where local model 132 provides likelihood bounds or other confidence indicators along with each prediction (for example, in some embodiments where local model 132 is a Gaussian process model), control unit 152 may also receive confidence indicators as input data. For example, control unit 152 may generate only control commands for glucose pump 154 based on predictions of glucose concentration having a sufficiently high confidence indicator (e.g., only based on predictions associated with likelihood bounds that do not exceed a certain percentage or absolute measurement range, or only based on predictions associated with confidence degrees above some minimum degree threshold, etc.), or may increase and/or decrease the weight of a given prediction based on its confidence indicator, etc.
На фиг. 3 изображены экспериментальные результаты 200 для одной примерной реализации, в которой для калибровки и обслуживания локальной модели на основе гауссовского процесса используются методики JITL. На графике, представленном на фиг. 3, горизонтальная штриховая линия 202 представляет заданное значение концентрации глюкозы, кружки 204 представляют фактические измерения концентрации глюкозы (например, выполненные аналитическим прибором, аналогичным одному из аналитических приборов 104, представленных на фиг. 1), сплошная линия 206 представляет предсказанные измерения концентрации глюкозы (например, предсказанные моделью, аналогичной локальной модели 132), а затененные области 208 представляют границы правдоподобия (для правдоподобия 95%), связанные с предсказанными измерениями. Как видно на фиг. 3, для заданного значения концентрации глюкозы, равного 3 граммам на литр (г/л), предсказания, выполненные с использованием методики JITL, в целом близко совпадают с аналитическими измерениями.In fig. 3 depicts experimental results 200 for one exemplary implementation that uses JITL techniques to calibrate and maintain a local model based on a Gaussian process. In the graph shown in FIG. 3, the horizontal dashed line 202 represents the glucose concentration target value, the circles 204 represent the actual glucose concentration measurements (e.g., made by an analytical instrument similar to one of the analytical instruments 104 presented in FIG. 1), the solid line 206 represents the predicted glucose concentration measurements (e.g. predicted by a model similar to the local model 132), and the shaded areas 208 represent the likelihood bounds (for 95% likelihood) associated with the predicted measurements. As can be seen in FIG. 3, for a glucose concentration target of 3 grams per liter (g/L), the predictions made using the JITL technique generally agree closely with the analytical measurements.
Процесс проведения запроса и построения/калибровки локальной модели 132 ниже будет более подробно описан математически со ссылкой на один конкретный вариант осуществления JITL, в котором локальная модель 132 представляет собой модель на основе гауссовского процесса, в которой в качестве элемента входных данных используется один вектор рамановского сканирования, и которая предсказывает одно аналитическое измерение.The process of querying and building/calibrating the local model 132 will be described in more detail mathematically below with reference to one particular embodiment of JITL, in which the local model 132 is a Gaussian process model that uses a single Raman scan vector as the input data element. , and which predicts one analytical measurement.
Пусть D “ (или D={bY в сокращенной записи) обозначает набор упорядоченных пар входных и выходных данных, так что а = {ака2 -.а/) - входные данные, и - выходные данные. Кроме того, предполагается, что а/ е - щ-мерный входной вектор, и Е - скалярный вывод. Физически а/ Е можно представить себе как спектроскопическое измерение (например, NIR или рамановское), а bj - как аналитическое измерение для представляющего интерес состояния (например, концентрации глюкозы или лактата). Для данного набора D обучающих данных целью задачи калибровки спектроскопической модели является определение взаимосвязи между входными данными и выходными данными для модели в форме bj = /(ay) + €j Уравнение (1) где f е - спектроскопическая модель и σ2) - нормально распределенный шум измерения с нулевым средним, дисперсия σ2 которого неизвестна. Стандартной практикой при калибровке моделей является предположение того, что f(·) является линейной, а затем использование для обучения модели таких методов, как PLS. Вместо приписывания f(·) какой-либо ограничивающей или фиксированной формы здесь предполагается, что f( ·) представляет собой скрытую функцию, моделируемую как гауссовский процесс так, что представляет случайную выборку из гауссовского процесса, имеющего среднее Ρθ(*) е и ковариационную функцию Е которые обычно задаются следующим образом:Let D “ (or D= {bY in shorthand) denote a set of ordered pairs of input and output data, so that a = { a k a 2 -.a/) is the input data, and a is the output data. In addition, it is assumed that a / e is an n-dimensional input vector and E is a scalar output. Physically, a / E can be thought of as a spectroscopic measurement (such as NIR or Raman) and b j as an analytical measurement for the state of interest (such as glucose or lactate concentration). For a given set D of training data, the goal of the spectroscopic model calibration problem is to determine the relationship between the input data and the output data for the model in the form bj = /(ay) + €j Equation (1) where f e is the spectroscopic model and σ 2 ) is normally distributed zero-mean measurement noise whose variance σ 2 is unknown. Standard practice when calibrating models is to assume that f(·) is linear and then use methods such as PLS to train the model. Instead of assigning f(·) to any limiting or fixed form, it is assumed here that f(·) is a latent function modeled as a Gaussian process such that it represents a random sample from a Gaussian process having a mean Ρθ(*) e and a covariance function E which are usually given as follows:
- 10 043314 (a) = [деСаА ,Де(а2) ...Ae(aj)]T, Уравнение (2а) ке(а; а) = ^Аа) /се(Я1,а2) · /оДД ^(^¾) ЫагАг) ·” ke(a2,aj) . Уравнение (2Ь) к^.а-^ ke(a]ta2) - к^ара^.- 10 043314 (a) = [deCaA ,De(a 2 ) ...Ae(aj)] T , Equation (2a) k e (a; a) = ^Aa) /ce(R1,a 2 ) / oDD ^(^2) NaarAg) ·” k e (a 2 ,aj) . Equation (2b) k^.a-^ k e (a ]t a 2 ) - k^ara^.
Кроме того, θ е ΙΚηθ обозначает гиперпараметры для модели на основе гауссовского процесса. Гауссовский процесс представляет собой набор случайных переменных, любое конечное количество которых имеет совместное гауссовское распределение, так что для набора конечных входных данных а ξξ можно записать:In addition, θ e ΙΚ ηθ denotes the hyperparameters for the Gaussian process model. A Gaussian process is a set of random variables, any finite number of which have a joint Gaussian distribution, so that for a set of finite input data a ξξ can be written:
p(f|a) = ^(дe(a)/ke(a, а)) Уравнение (3)p(f|a) = ^(de(a) / ke(a, a)) Equation (3)
Тогда задача калибровки спектроскопической модели сводится к обучению скрытой функции / G гауссовского процесса с использованием D. Для удобства с математической точки зрения и общей лаконичности здесь предполагается, что μθ = А; однако это не обязательно имеет место в общем случае и результаты здесь можно легко распространить на модели при * θηα. Роль ковариационной функции в гауссовских процессах аналогична роли ядер, используемых в машинах опорных векторов (SVM). Общеупотребительной ковариационной функцией является гауссовское ядро, и она имеет вид:The task of calibrating the spectroscopic model then reduces to learning the latent function / G of the Gaussian process using D. For mathematical convenience and general brevity, it is assumed here that μθ = A; however, this is not necessarily the case in the general case and the results here can be easily extended to models for * θη α . The role of the covariance function in Gaussian processes is similar to the role of kernels used in support vector machines (SVMs). A commonly used covariance function is the Gaussian kernel, and it has the form:
/ / ΠΊ ί;Ά2\ ^(^,а7) = βθχρί-^ΣΪι где - ковариация между парой элементов входных данных, (м). Гауссовское ядро koi^aj) присваивает более высокий коэффициент корреляции, если входные данные в наборе Д3/} близки друг к другу, что задается евклидовым расстоянием в уравнении (4)./ / ΠΊ ί;Ά 2 \ ^(^,a 7 ) = βθχρί-^ΣΪι where is the covariance between a pair of input data elements, (m). The Gaussian kernel koi^aj) assigns a higher correlation coefficient if the input data in the set D 3 /} are close to each other, as given by the Euclidean distance in equation (4).
Для выбранного гауссовского ядра уравнение (4) представляет собой положительно определенную симметричную матрицу, так что ke(·/) е $++J. В уравнении (4) набор $ = {βΆΑι } представляет собой набор гиперпараметров.For the chosen Gaussian kernel, equation (4) is a positive definite symmetric matrix, so that k e(·/) e $++ J . In equation (4), the set $ = {βΆΑι } represents the set of hyperparameters.
Физически ai G представляет собой параметр линейных размеров и β Е - параметр дисперсии сигнала. Выбор гауссовской ковариационной функции в уравнении (4) соответствует предыдущему предположению о том, что f является гладкой и непрерывной. Таким образом, путем варьирования гиперпараметров ковариационной функции можно варьировать гладкость f. Здесь предполагаются гауссовские процессы с гауссовской ковариационной функцией. Однако это не обязательно имеет место в общем случае.Physically, a i G is a parameter of linear dimensions and β E is a parameter of signal dispersion. The choice of the Gaussian covariance function in equation (4) is consistent with the previous assumption that f is smooth and continuous. Thus, by varying the hyperparameters of the covariance function, the smoothness of f can be varied. Here we assume Gaussian processes with a Gaussian covariance function. However, this is not necessarily the case in the general case.
Для данного D целью является обучение гиперпараметрам гауссовского процесса, включая любые другие неизвестные параметры модели. Для гауссовского процесса в уравнении (1) набором неизвестных параметров является γ = {θ,σ2}Ε гсц\ Этап обучения параметров может выполняться путем максимизации функции предельного правдоподобия (или доказательства) в пространстве неизвестных параметров. Например, для гауссовского процесса в уравнении (1) функция предельного правдоподобия имеет следующий вид:For a given D, the goal is to learn the hyperparameters of the Gaussian process, including any other unknown parameters of the model. For the Gaussian process in equation (1), the set of unknown parameters is γ = {θ,σ 2 }Ε gsc\ The parameter learning step can be performed by maximizing the marginal likelihood function (or proof) in the space of unknown parameters. For example, for the Gaussian process in equation (1), the marginal likelihood function has the following form:
p(b|a) = f р(b|f, a)p(f |a)df , Уравнение (5) где ρ№) - функция предельного правдоподобия, а) - функция правдоподобия, имеющая вид: p(b|f, а) = ^(f(a),σ2IJ х j) ,Уравнение (6) и - предыдущая функция плотности, данная в уравнении (3). Для гауссовского правдоподобия и предыдущих плотностей в уравнениях (6) и (3), соответственно, интеграл в уравнении (5) имеет решение в замкнутой форме, так что функция предельного правдоподобия имеет вид:p(b|a) = f p(b|f, a)p(f |a)df , Equation (5) where ρ№) is the marginal likelihood function, and ) is the likelihood function, which has the form: p(b| f, a) = ^(f(a),σ 2 IJ x j) ,Equation (6) and is the previous density function given in equation (3). For the Gaussian likelihood and previous densities in equations (6) and (3), respectively, the integral in equation (5) has a closed-form solution, so that the marginal likelihood function is:
p(b|a) = ^(0JЛke(aлa) + σ2Ι|Χ j) .Уравнение (7)p(b|a) = ^(0J L ke(a l a) + σ 2 Ι| Χ j).Equation (7)
Теперь для данного уравнения (7) У = №,(т2} £ Г - можно оценить, решив следующую задачу оптимизации:Now for this equation (7) Y = No, (m 2 } £ Г - can be estimated by solving the following optimization problem:
у* £ argmaxlogp(b|a), Уравнение (8) где У* G Г - оптимальная оценка. Из уравнения (7) имеем logp(b|a) = -|b-Tky-1b —“log |ky| - |log2n, Уравнение (9) где - ke(a|a) + ^Ijxj. Для решения задачи оптимизации в уравнении (8) частные производные в уравнении (9) определяют относительно γ, так что для всех r=1, 2, ..., ηγ,y* £ argmaxlogp(b|a), Equation (8) where Y* G Г is the optimal estimate. From equation (7) we have logp(b|a) = -|b -T ky -1 b —“log |ky| - |log2n, Equation (9) where - k e(a|a) + ^Ijxj. To solve the optimization problem in equation (8), the partial derivatives in equation (9) are determined with respect to γ, so that for all r=1, 2, ..., η γ ,
A-logp(bla) = ^b - |Tr [ky1^], Уравнение (10a) °Yr L °Yr 1 L OyrJ = I Tr ((αατ — ky1 УЙ > Уравнение (10b) _ 2 \ °Yr / где a = k y b. Для данной функции предельного правдоподобия в уравнении (7) и ее производных в уравнении (10b) при решении уравнения (8) можно использовать метод градиентного спуска. Поскольку уравнение (8) в целом представляет собой задачу невыпуклой оптимизации с множественными локальными оптимумами, при решении этой задачи оптимизации необходимо проявлять осмотрительность. Здесь предполагается, что γ* известна и может быть вычислена путем решения уравнения (8). Кроме того, для уменьшения сложности записи здесь будет предполагаться, что γ - оптимальная оценка γ*, если неA-logp(bla) = ^b - |Tr [ky 1 ^], Equation (10a) °Yr L °Yr 1 L OyrJ = I Tr ((αα τ - ky 1 YY > Equation (10b) _ 2 \ ° Yr / where a = k y b . For a given marginal likelihood function in equation (7) and its derivatives in equation (10b), the gradient descent method can be used to solve equation (8). Since equation (8) in general is a non-convex problem optimization with multiple local optima, care must be taken when solving this optimization problem.It is assumed here that γ* is known and can be calculated by solving equation (8).In addition, to reduce notation complexity, it will be assumed here that γ is the optimal estimate of γ *, if not
- 11 043314 указано иное.- 11 043314 states otherwise.
После обучения спектроскопической калибровочной модели на основе гауссовского процесса в уравнении (1) ее можно использовать для применений при предсказаниях в реальном времени. Как и ранее, пусть D будет набором обучающих данных, используемым для обучения модели на основе гауссовского процесса, и пусть а* г будет новым испытательный спектроскопический сигнал. Тогда целью является предсказание элемента выходных данных b* £ I, соответствующего испытательному элементу входных данных а*. Первым этапом при вычислении b* является построение совместной плотности распределения всего из обучающего выходного набора b и испытательного элемента выходных данных гауссовского процесса, Ла), которые обусловлены в отношении обучающего входного набора а и испытательного элемента входных данных а*. Указанная совместная плотность распределения имеет следующий вид:After training the spectroscopic calibration model based on the Gaussian process in equation (1), it can be used for real-time prediction applications. As before, let D be the training data set used to train the model based on the Gaussian process, and let a* r be the new test spectroscopic signal. Then the goal is to predict the output data element b* £ I corresponding to the test input data element a*. The first step in computing b* is to construct the joint density distribution of the total of the training output set b and the test output element of the Gaussian process, L a ), which are conditional on the training input set a and the test input set a*. The specified joint distribution density has the following form:
Р (Б|Ж)) |а,а·) = (о, У]) , Уравнение (11) \ । / \ кк^да ,aj KgL >а )л/ где kr = кАала) + σ2Ιΐχΐ. Для данного уравнения (11) в байесовской инфраструктуре элемент выходных данных гауссовского процесса, Ла), вычисляется путем построения распределения по всем выходным данным гауссовского процесса. Иначе говоря, отыскивается апостериорное распределение для элемента выходных данных гауссовского процесса, /(а). Разумеется, апостериорное распределение по Ла*) требует включения только тех функций, которые согласуются с обучающим набором D. При вероятностных установках апостериорное распределение по Ла) можно вычислить путем согласования совместного распределения в уравнении (11) в отношении обучающего набора D, что дает ρ(/·(3*)|ϊ),3*) = Ж(рд,кд) .Уравнение (12) где Р(/(а*)1Да*) - апостериорное распределение для элемента выходных данных гауссовского процесса, и = ш[(/(а*) IА а*)] имеет видP (B|F)) |a,a·) = (o, U]) , Equation (11) \ । / \ kk^da ,aj KgL >a )l/ where k r = k A a l a ) + σ2 Ιΐχΐ. For a given equation (11), in a Bayesian framework, the output element of the Gaussian process, L a ), is computed by constructing a distribution over all outputs of the Gaussian process. In other words, the posterior distribution for the output data element of the Gaussian process, /( a ), is found. Of course, the posterior distribution over A *) requires the inclusion of only those features that are consistent with the training set D. In a probability setting, the posterior distribution over A * ) can be calculated by fitting the joint distribution in equation (11) to the training set D, which gives ρ(/·(3*)|ϊ),3*) = Ж(рд,кд) .Equation (12) where Р(/( а *)1Да*) is the posterior distribution for the output data element of the Gaussian process, and = w [(/( a *) IA a*)] has the form
Де = ке(а*, а)[ку(а, а)] гЬ .Уравнение (13) и = V[(/(a*)|!D,a*)] имеет вид к*в = кд^,а*) - ке(а*.а)[ку(а.а)] 1к0(а,а*). Уравнение (14)De = k e (a*, a)[k y (a, a)] g b. Equation (13) u = V[(/(a*)|!D,a*)] has the form k* b = kd^,a*) - k e (a*.a)[k y (a.a)] 1 to 0 (a,a*). Equation (14)
Для данного уравнения (12) предсказывающее апостериорное распределение для элемента выходных данных b* можно вычислить следующим образом:For a given equation (12), the predictive posterior distribution for the output element b* can be calculated as follows:
p(b*\D, а*) = ^(μg, кд + σ2) . Уравнение (15) где ^0 и даны, соответственно, в уравнениях (13) и (14). Для одного испытательного элемента входных данных а* Е !&Па предсказание на основе гауссовского процесса в уравнении (15) дает распределение выходных данных, имеющих ненулевую вероятность реализации. В приложениях в реальном времени, таких как управление и отслеживание, с большей вероятностью представляет интерес точечная оценка, а не все распределение. Точечную оценку можно вычислить с использованием подхода на основе теории принятия решений. Можно показать, что для гауссовского апостериорного распределения в уравнении (15) средняя функция минимизирует и ожидаемую безусловную функцию, и квадратичную функцию риска, при этом = представляет собой наиболее вероятный элемент выходных данных для элемента входных данных а*. Кроме того, для выбора b = в качестве предсказания интервал с приблизительно 95% правдоподобием имеет вид:p(b*\D, a*) = ^(μg, cd + σ 2 ) . Equation (15) where ^0 and are given, respectively, in equations (13) and (14). For one test element of the input data a* E !& Pa , the prediction based on the Gaussian process in equation (15) gives a distribution of output data that has a non-zero probability of occurrence. In real-time applications such as control and tracking, the point estimate is more likely to be of interest rather than the entire distribution. The point estimate can be calculated using a decision theory approach. It can be shown that for the Gaussian posterior distribution in equation (15), the mean function minimizes both the expected unconditional function and the quadratic hazard function, with = representing the most likely output element for the input element a*. Additionally, for choosing b = as a prediction, the approximately 95% likelihood interval is:
bL = (μρ — 2^кд + σ2)) < b < рд + 2(^кд + σ2) = bu . Уравнение (16)b L = (μρ - 2^kd + σ 2 )) < b < рд + 2(^kd + σ 2 ) = b u . Equation (16)
Интервал в уравнении (16) можно использовать для количественной оценки качества предсказаний на основе гауссовского процесса и/или выполнения управления для предсказания по модели на основе гауссовского процесса или других робастных стратегий отслеживания.The interval in equation (16) can be used to quantify the quality of Gaussian process predictions and/or perform control for Gaussian process model prediction or other robust tracking strategies.
Обращаясь теперь к выбору релевантных выборок (здесь - наборов данных наблюдений) в ответ на запрос, задача заключается в выборе для данной точки запроса, а* Е ШЛа, и центральной базы дан ных/библиотеки - Ε^Αίι, содержащей L Е Ы пары элементов входных данных и выходных данных (наборы данных наблюдений), локального обучающего набора - аД=1 в момент времени, t е N со держащий выборки D Е И, где D<<L. Предполагается, что £ является динамической и может содержать разные элементы в ходе производственного цикла. Существует множество способов построения Ί) исходя из £. В целях данного анализа Ί) выбирают на основе евклидова расстояния между спектрами (например, векторами рамановского сканирования) в наборе Д И хотя критерии подобия на евклидовой основе в инфраструктуре JITL, как сообщалось, в некоторых ситуациях являются субоптимальными, они могут представлять собой предпочтительный выбор при использовании модели на основе гауссовского процесса. Причиной этого является то, что модель на основе гауссовского процесса сама основана на евклидовом расстоянии. Гауссовское ядро присваивает более высокий коэффициент корреляции только в том случае, если входные данные в наборе iao aj} близки друг к другу. Поэтому путем создания локального обучающего набора Ί), в котором все входные данные являются близкими к точке запроса, можно обеспечить улавливание локальной моделью на основе гауссовского максимальной корреляции для предсказания элемента выходных данных в точке запроса.Turning now to the selection of relevant samples (here - sets of observational data) in response to a query, the task is to select for a given query point, a* E SHL a , and a central database/library - Ε^Αίι, containing L E S pairs elements of input data and output data (observational data sets), local training set - a D = 1 at time, t e N containing samples D E I, where D<<L. It is assumed that £ is dynamic and may contain different elements during the production cycle. There are many ways to construct Ί) starting from £. For the purposes of this analysis, Ί) is selected based on the Euclidean distance between spectra (e.g., Raman scan vectors) in the D set. Although Euclidean-based similarity criteria in the JITL framework have been reported to be suboptimal in some situations, they may represent a preferable choice when using a model based on a Gaussian process. The reason for this is that the Gaussian process model is itself based on Euclidean distance. The Gaussian kernel assigns a higher correlation coefficient only if the inputs in the set i a o a j} are close to each other. Therefore, by creating a local training set Ί) in which all inputs are close to the query point, it is possible to ensure that the local model captures a Gaussian maximum correlation to predict the output item at the query point.
- 12 043314- 12 043314
Примерный алгоритм, формально описывающий способ создания локального обучающего набора Ί) исходя из £, обучения модели на основе гауссовского процесса с использованием этого обучающего набора и выполнения предсказания с использованием обученной модели, представлен ниже в алгоритме 1An example algorithm formally describing a method for generating a local training set Ί) from £, training a Gaussian process model using that training set, and making a prediction using the trained model is presented below in Algorithm 1
1. Input: Library L = {(а^, Ь^}|=1, query point а*1. Input: Library L = {(a^, b^}| =1 , query point a*
2. Output: Prediction Sand uncertainty (bL,bu)2. Output: Prediction Sand uncertainty (b L ,b u )
3. for t = Ito Ldo3. for t = Ito Ldo
4. Set I <- sample_index(L)and D <- {0}4. Set I <- sample_index(L)and D <- {0}
5. for d = 1 to D do5. for d = 1 to D do
6. k* e argmaxie/ exp(—1|a£ - a*||)6. k* e argmax ie/ exp(—1|a £ - a*||)
7. D <- D U { akt,hkJ7. D <- DU { a kt ,h k J
8. 1 /\{i)8. 1 /\{i)
9. end for9. end for
10. Обучить модель на основе гауссовского процесса по уравнению (1) с использованием ©и оценки у*10. Train the model based on the Gaussian process according to equation (1) using © and estimate y*
11. Вычислить йи (bL, bu)c использованием уравнений (13) и (16)11. Calculate ii (b L , b u ) using equations (13) and (16)
12. end for12. end for
Алгоритм 1Algorithm 1
Обратимся теперь к фиг. 4, на которой показан примерный поток 250 данных, который может иметь место при анализе биофармацевтического процесса с использованием методики JITL, описанной в данном документе. Поток 250 данных может иметь место, например, в системе 100, представленной на фиг. 1, или системе 150, представленной на фиг. 2. В потоке 250 данных спектральные данные 252 предоставляются спектрометром/зондом. Например, спектральные данные 252 могут содержать вектор рамановского сканирования, сгенерированный рамановским анализатором 106, или вектор сканирования NIR, и т.д. Точка 254 запроса генерируется (например, блоком 140 запроса) на основе спектральных данных 252 и используется, например, для запроса глобального набора 256 данных, который может содержать все наборы данных наблюдений в базе 136 данных наблюдений. На основе запроса в глобальном наборе 256 данных идентифицируется локальный набор 258 данных. Локальный набор 258 данных может быть выбран, например, на основе критериев релевантности (например, евклидова расстояния), как описано выше.Let us now turn to FIG. 4, which illustrates an example data flow 250 that may occur when analyzing a biopharmaceutical process using the JITL methodology described herein. Data flow 250 may take place, for example, in the system 100 shown in FIG. 1, or the system 150 shown in FIG. 2. In data stream 250, spectral data 252 is provided by a spectrometer/probe. For example, spectral data 252 may comprise a Raman scan vector generated by Raman analyzer 106, or a NIR scan vector, etc. Query point 254 is generated (eg, by query block 140) based on spectral data 252 and is used, for example, to query a global data set 256, which may contain all observation data sets in the observation data base 136. Based on the query, a local data set 258 is identified in the global data set 256 . The local data set 258 may be selected, for example, based on relevance criteria (eg, Euclidean distance) as described above.
Локальный набор 258 данных затем используется в качестве обучающих данных (например, генератором 142 локальной модели) для калибровки локальной модели 260 (например, локальной модели 132). Локальная модель 132 затем используется (например, блоком 144 предсказания) для предсказания элемента 262 выходных данных (аналитического измерения), такого как концентрация компонентов питательной среды, состояние питательной среды (например, глюкоза, лактат, глутамат, глутамин, аммиак, аминокислоты, Na+, K+, а также другие питательные вещества или метаболиты, рН, pCO2, pO2, температура, осмоляльность и т.д.), плотность жизнеспособных клеток, титр, критические показатели качества, состояние клеток и т.д., а также возможно вывода границ правдоподобия или другого подходящего индикатора достоверности.The local data set 258 is then used as training data (eg, local model generator 142) to calibrate the local model 260 (eg, local model 132). Local model 132 is then used (e.g., by prediction block 144) to predict an output (analytical measurement) element 262, such as the concentration of media components, the state of the media (e.g., glucose, lactate, glutamate, glutamine, ammonia, amino acids, Na+, K+, as well as other nutrients or metabolites, pH, pCO 2 , pO 2 , temperature, osmolality, etc.), viable cell density, titer, critical quality indicators, cell condition, etc., and possible output likelihood limits or other suitable indicator of confidence.
Несмотря на то, что локальная модель на основе JITL (например, такая как алгоритм 1 и поток 250 данных) предоставляет робастную нелинейную инфраструктуру моделирования, такой подход не имеет внутреннего механизма для адаптации к зависящим от времени изменениям в процессе. Для устранения этого недостатка в некоторых вариантах осуществления может использоваться стратегия адаптивного JITL (A-JITL). Как отмечено выше, новые выборки могут включаться в £ по мере того, как эти выборки становятся доступными. В таких вариантах осуществления (т.е., где £ является динамической) £ можно обозначить как Р В одном таком варианте осуществления реализован способ скользящего временного окна, в котором вновь полученная выборка добавляется в Р а самая старая выборка удаляется из А. Исключение самой старой выборки может являться преимущественным, поскольку в адаптивных стратегиях сохранение размера может являться критичным для обеспечения вычислительной разрешимости инфраструктуры JITL в целом. Однако одной основной проблемой, связанной с данным подходом, является то, что простое исключение старых выборок может приводить к потере информации, так как старые выборки могут содержать релевантную информацию.Although a local JITL-based model (such as Algorithm 1 and Data Flow 250) provides a robust nonlinear modeling framework, such an approach does not have an internal mechanism to adapt to time-dependent changes in the process. To overcome this drawback, some embodiments may use an adaptive JITL (A-JITL) strategy. As noted above, new samples may be included in £ as those samples become available. In such embodiments (i.e., where £ is dynamic), £ can be denoted by P. One such embodiment implements a sliding time window technique in which the newly acquired sample is added to P and the oldest sample is removed from A. Elimination of the oldest sampling may be advantageous because, in adaptive strategies, size preservation may be critical to ensuring the computational solvability of the JITL framework as a whole. However, one major problem with this approach is that simply excluding old samples may result in a loss of information, since old samples may contain relevant information.
Во избежание такой потери информации в одном варианте осуществления новые выборки добавляются в без удаления каких-либо старых/существующих выборок. Таким образом, центральная база данных расширяется на возрастающее количество выборок по мере того, как становятся доступными новые аналитические измерения. В применении процессов культивирования клеток расширение базы данных может не приводить к каким-либо значительным вычислительным проблемам вследствие того, что такие процессы обычно эксплуатируются как периодические процессы с временем цикла от двух до трех недель. Это естественным образом ограничивает количество новых выборок, которые необходимоTo avoid such loss of information, in one embodiment, new samples are added to without removing any old/existing samples. In this way, the central database is expanded to an increasing number of samples as new analytical measurements become available. In cell culture applications, database expansion may not introduce any significant computational problems due to the fact that such processes are typically operated as batch processes with cycle times of two to three weeks. This naturally limits the number of new samples that are needed
- 13 043314 включать в It. Кроме того, в ходе процесса культивирования клеток обычно выборке подвергается лишь ограниченное количество аналитических измерений (в отличие, например, от химической промышленности, в которой аналитические измерения подвергаются выборке часто). Поэтому обычно будет иметь место лишь умеренное увеличение размера базы данных It без какой-либо значительной нагрузки на вычислительную устойчивость инфраструктуры JITL в целом.- 13 043314 include in It. In addition, during the cell culture process, typically only a limited number of analytical measurements are sampled (unlike, for example, the chemical industry, in which analytical measurements are sampled frequently). Therefore, there will typically only be a moderate increase in the size of the It database without any significant strain on the computational resiliency of the JITL infrastructure as a whole.
Несмотря на то, что включение новых выборок в It важно для непрерывной адаптации алгоритма 1 (см. выше), успех данного подхода полагается на выбор указанных новых выборок в локальной базе данных D для калибровки локальной модели. Алгоритм 1, в котором выборки для D из £ выбираются на основе евклидова расстояния (например, строка 6 алгоритма 1), может называться подходом релевантности в пространстве, так как он отдает предпочтение только тем выборкам, которые являются релевантными (близкими) в пространстве. Если новые выборки не являются близкими к запрашиваемой выборке, что, вероятно, имеет место в случае, когда происходит резкое изменение заданного значения (или другое резкое изменение условий процесса), алгоритм 1 может быть неспособен включить эти выборки в Ί). С другой стороны, рекурсивные методы (например, регуляризованный метод частных наименьших квадратов (RLPS), рекурсивный метод наименьших квадратов (RLS) и рекурсивный метод N-ходовых частных наименьших квадратов (RNPLS)) являются релевантными по времени, так как они отдают предпочтение новейшим измерениям независимо от релевантности в пространстве. Обновление локальной модели с использованием новейших выборок может обеспечить возможность успешной адаптации рекурсивных методов к текущим условиям процесса.Although the inclusion of new samples in It is important for the continuous adaptation of Algorithm 1 (see above), the success of this approach relies on the selection of said new samples in the local database D to calibrate the local model. Algorithm 1, in which samples for D of £ are selected based on Euclidean distance (e.g., line 6 of Algorithm 1), can be called the spatial relevance approach, since it favors only those samples that are relevant (close) in space. If the new samples are not close to the requested sample, which is likely to be the case when there is an abrupt change in setpoint (or other abrupt change in process conditions), Algorithm 1 may be unable to include these samples in Ί). On the other hand, recursive methods (such as regularized partial least squares (RLPS), recursive least squares (RLS), and recursive N-way partial least squares (RNPLS)) are time relevant because they give preference to the newest measurements regardless of relevance in space. Updating the local model with the latest samples can enable recursive methods to be successfully adapted to current process conditions.
Один такой вариант осуществления, называемый в данном документе адаптивным JITL (A-JITL), отдает предпочтение выборкам, которые являются релевантными как по времени, так и в пространстве. Если 5 = {{ai Х Htiпредставляет набор из L исторических измерений, доступных перед началом те* кущего эксперимента (т.е. эксперимента/процесса, в котором имеет место запрос а), и если д+= {|а+ь;)}у=1 представляет собой набор из n измерений, доступных из текущего эксперимента, выборки могут быть распределены следующим образом:One such embodiment, referred to herein as adaptive JITL (A-JITL), favors samples that are both temporally and spatially relevant. If 5 = {{ a i X Hti represents a set of L historical measurements available before the start of the current experiment (i.e., the experiment/process in which query a takes place), and if d + = {|a+b; )}y =1 is a set of n measurements available from the current experiment, the samples can be distributed as follows:
It = , Уравнение (17а)It = , Equation (17a)
X = {{аД,Ь7 }}п=п_к+1, Уравнение (17b) где It представляет центральную базу данных, и X представляет набор последних (самых недавних) k измерений. В некоторых вариантах осуществления % содержит последние k выборок из текущего эксперимента/процесса, и It содержит выборки из предыдущих экспериментов/процессов, а также (потенциально) выборки из текущего эксперимента/процесса, старше последних k выборок. Приведенные выше уравнения (17а) и (17b) заданы для данного запроса а*. Для запроса, поступающего в другой момент времени, наборы данных It и % могут содержать разные выборки в зависимости от количества измерений, доступных в этот момент времени. Например, как только становится доступной выборка (aAi,b++iMan-/c+i,b+_k+i) удаляется из X, а (an+i<bn+i) включается в X. Исключенная выборка (an-k+i»bn_fc+i) затем включается в It для предотвращения какой-либо потери информации. Обновление X новейшими измерениями обеспечивает то, что X отражает по меньшей мере некоторые текущие условия.X = {{aD,b7 }}n = n_k+1 , Equation (17b) where It represents the central database, and X represents the set of the last (most recent) k measurements. In some embodiments, % contains the last k samples from the current experiment/process, and It contains samples from previous experiments/processes, as well as (potentially) samples from the current experiment/process older than the last k samples. The above equations (17a) and (17b) are given for a given query a*. For a query arriving at a different point in time, the It and % data sets may contain different samples depending on the number of dimensions available at that point in time. For example, as soon as a sample becomes available, (aAi,b+ + iM a n-/c+i,b+_k+i) is removed from X, and ( a n+i<bn+i) is included in X. The excluded sample ( a n-k+i»bn_ fc+ i) is then included in It to prevent any loss of information. Updating X with the latest measurements ensures that X reflects at least some current conditions.
Для данных Аи X целью является выбор ТК Как указано выше, для A-JITL в Т) включаются выборки, релевантные как по времени, так и в пространстве. Если предположить, что Т) можно разложить какFor data A and X, the goal is to select a TK. As stated above, for A-JITL, T) includes samples that are relevant both in time and in space. If we assume that T) can be decomposed as
D = U Ί)τ, Уравнение (18) где представляют собой наборы, релевантные в пространстве и по времени, соответственно, то целью является выбор ®т. В первую очередь, предполагается, что = °, так что Ί) содержит только уникальные выборки. Для конструирования - к выборок выбирают из It на основе основанной на расстоянии (пространственной) метрики, такой как индекс подобия или s-значение:D = U Ί) τ , Equation (18) where are sets relevant in space and time, respectively, then the goal is to select ®t. First of all, it is assumed that = °, so that Ί) contains only unique samples. To construct - k samples are selected from It based on a distance-based (spatial) metric such as a similarity index or s-value:
Si = 5Ш1(аг, a*) = ехр(—||af - а*||). Уравнение (19)Si = 5Sh1(a g , a*) = exp(—||a f - a*||). Equation (19)
Уравнение (19) можно использовать, например, в качестве метрики подобия в вышеописанной методике (неадаптивного) JITL. Так, например, из It для включения в можно выбрать D-k выборок с наибольшими s-значениями. Для конструирования ®т, если предполагается, что последние k выборок из текущего эксперимента/процесса релевантны по времени, в некоторых вариантах осуществления может быть задан как равный X. Следует отметить, что, в отличие от s-значений, которые определяют членство выборок в ®$, решение о членстве в принимается на основе времен выборки.Equation (19) can be used, for example, as a similarity metric in the (non-adaptive) JITL technique described above. So, for example, from It one can select D-k samples with the largest s-values for inclusion in. To construct ®t, if the last k samples from the current experiment/process are assumed to be time relevant, in some embodiments may be set to be equal to X. It should be noted that, unlike s-values, which determine the membership of samples in ® $, membership decision is made based on sampling times.
Разумеется, в зависимости от сценария, выборки в могут характеризоваться большими sзначениями. Независимо от s-значения, предполагается, что является релевантным только по времени. Аналогично, является релевантным только в пространстве, поскольку вследствие построения It не обладает релевантностью по времени. Следует отметить, что А11 задают для данного запроса а* выборки в выбирают на основе их s-значений, вычисленных относительно а*, и выборки в выбирают на основе их времен выборки, вычисленных относительно времени выборки а*. Для удобства А11 обобщенно задают следующим образом:Of course, depending on the scenario, samples in can be characterized by large s values. Regardless of the s-value, it is assumed to be time relevant only. Likewise, it is relevant only in space, since, due to its construction, It is not relevant in time. It should be noted that A 11 is specified for a given query a*, samples b are selected based on their s-values calculated relative to a*, and samples b are selected based on their sample times calculated relative to the sample time a*. For convenience, A 11 is generally specified as follows:
- 14 043314 = {aS' Уравнение (20a)- 14 043314 = { a S' Equation (20a)
DT = {аг, bT], Уравнение (20b) где А11 a7 - соответственно релевантные в пространстве и по времени выборки из рамановского спектрометра, и Ь^и Ь7 - соответственно релевантные в пространстве и по времени выборки из аналитического прибора, так что as = [а1л ...;aD_k]T; ат ξ [aD_fc+1/...,aD]T, Уравнение (21а) bs = [b^ ...,bD_k]T; bT = [bD_k+1,..., b^. Уравнение (21b)D T = {a r , b T ], Equation (20b) where A 11 a 7 are respectively spatially and timely relevant samples from the Raman spectrometer, and b^ and b 7 are respectively spatially and timely relevant samples from the analytical device, so a s = [a 1l ... ; a D _ k ] T ; a t ξ [a D _ fc+1/ ...,a D ] T , Equation (21a) b s = [b^ ...,b D _ k ] T ; b T = [b D _ k+1 ,..., b^. Equation (21b)
Подстановка уравнений (20а) и (20b) в уравнение (18) дает набор D, обобщенно обозначенный как D ξ {а, Ь}, где 5 = [а5'ат]т, и b ξ [by,bT] . в отличие от обсужденной выше методики (неадаптивного) JITL, в локальной библиотеке/наборе данных Ί) отдается предпочтение выборкам, релевантным в пространстве и по времени.Substituting equations (20a) and (20b) into equation (18) gives the set D, generically denoted D ξ {a, b}, where 5 = [ a 5' a t] t , and b ξ [by,b T ] . Unlike the (non-adaptive) JITL technique discussed above, the local library/dataset Ί) favors samples that are relevant in space and time.
Для данных и запроса а* можно откалибровать модель на основе гауссовского процесса по уравнению (1) (например, локальную модель 132). Точечную оценку и интервал правдоподобия для а* можно вычислить с использованием, соответственно, уравнении (13) и (16), где к У(а,а)ик0(а ,а) имеют видFor the data and query a*, a model based on the Gaussian process of equation (1) can be calibrated (for example, local model 132). The point estimate and likelihood interval for a* can be calculated using equations (13) and (16), respectively, where k Y (a,a) and 0 (a,a) have the form
LWs) Ξ К ki?’ + σ4™ · уРавнение <22a> lk# (ar, ayj (аг, aT;j kg(a*,a) = [kg(a*,ay) kg(a*,aT)], Уравнение (22b) где кААа.$·) E ке(аТлаг) E Sk - ковариационные функции, связанные с соответственно, и где kg(a5, ат) е к^к - ковариация между ^т.LW s) Ξ К ki?' + σ4 ™ · e Eq u a l < 22a >lk# (a r , ayj (a r , a T ;j kg(a*,a) = [kg(a*,ay) kg(a*,a T )] , Equation (22b) where k AA a .$·) E ke(aTlag) ES k are the covariance functions associated with respectively, and where kg(a5, a t ) e k ^ k is the covariance between ^t.
Примерный алгоритм, формально описывающий методику A-JITL, представлен ниже в алгоритме 2An example algorithm formally describing the A-JITL technique is presented below in Algorithm 2
1. Input: Library £t = {(а^, Ь^}|=1, query point а*1. Input: Library £ t = {(a^, b^}| =1 , query point a*
2. Output: Prediction band uncertainty (bL,bu~)2. Output: Prediction band uncertainty (b L ,b u ~)
3. Set 76 {0}3. Set 76 {0}
4. for t = Ito Tdo4. for t = Ito Tdo
5. Set I sampleJndex(Lt), Dy {0}, DT {0}5. Set I sampleJndex(L t ), Dy {0}, D T {0}
6. for d = 1 to D — set_cardinality(X)do6. for d = 1 to D — set_cardinality(X)do
7. ь E argmaxie/ sim(aj,a*)7. b E argmax ie/ sim(aj,a*)
8· ®y <- Dy U {ait, bjJ8 ®y <- Dy U {a it , bjJ
9. /^/\{Q9. /^/\{Q
10. end for10. end for
11. if set_cardinality(76) > lthen11. if set_cardinality(76) > lthen
12. DT 7612. D T 76
13. end if13. end if
14. D Dy U DT 14. D Dy UD T
15. Обучить модель на основе гауссовского процесса по уравнению (1) с использованием Dn оценки у*15. Train the model based on the Gaussian process according to equation (1) using Dn estimate y*
16. Вычислить Ьи (bL, bu)c использованием уравнений (13) и (16)16. Calculate b and (b L , b u ) using equations (13) and (16)
17. if b* is available then17. if b* is available then
18. if size(76) = к then18. if size(76) = to then
19. £t <- £t U select_oldest(76)19. £ t <- £ t U select_oldest(76)
20. 76 <- delete_oldest(76)20. 76 <- delete_oldest(76)
21. 76 ^76 U {a*, b*}21. 76 ^76 U {a*, b*}
22. end if22. end if
23.76 ^76 U {a*, b*}23.76 ^76 U {a*, b*}
24. end if24. end if
25. end for25. end for
Алгоритм 2Algorithm 2
Таким образом, в алгоритме 2 (релевантное в пространстве) JITL скомбинировано с рекурсивным обучением (релевантным по времени). Например, для Ι^τΙ = θ калибровка локальной модели 132 с использованием алгоритма 2 подобна релевантному в пространстве JITL, тогда как для l®sl - 0 калибровка локальной модели 132 с использованием алгоритма 2 подобна рекурсивному обучению. Таким образом, путем подгонки l®slH 1®т1 можно надлежащим образом сбалансировать (не являющееся рекурсивным) JITL и рекурсивное обучение.Thus, in Algorithm 2 (space-relevant) JITL is combined with recursive learning (time-relevant). For example, for Ι^τΙ = θ, calibrating the local model 132 using Algorithm 2 is similar to space-relevant JITL, while for l®sl - 0 , calibrating the local model 132 using Algorithm 2 is similar to recursive learning. Thus, by adjusting l®sl H 1®t1, (non-recursive) JITL and recursive learning can be properly balanced.
Обратимся теперь к фиг. 5, на которой показан примерный поток 300 данных, который может иметьLet us now turn to FIG. 5, which shows an example data stream 300 that may have
- 15 043314 место при анализе биофармацевтического процесса с использованием методики A-JITL, описанной в данном документе. Поток 300 данных может иметь место, например, в системе 100, представленной на фиг. 1, или системе 150, представленной на фиг. 2. В потоке 300 данных спектральные данные 302 предоставляются спектрометром/зондом. Например, спектральные данные 302 могут содержать вектор рамановского сканирования, сгенерированный рамановским анализатором 106, или вектор сканирования NIR и т.д. Точка 304 запроса генерируется (например, блоком 140 запроса) на основе спектральных данных 302 и используется, например, для запроса глобального набора 306 данных, который может содержать все наборы данных наблюдений в базе 136 данных наблюдений. Глобальный набор 306 данных логически разделен на последние k элементов 307А (например, все из которых получены из текущего эксперимента/процесса) и на все элементы 307В перед последними k элементами 307А (например, из предыдущих экспериментов/процессов, а также, возможно, текущего эксперимента/процесса). Значение k можно определить на основе номера выборки точки 304 запроса. В рамках данного документа термин номер выборки может в широком смысле относиться к любому индикатору времени или относительного времени, связанного с данной выборкой/наблюдением. Некоторые элементы из элементов 307В добавлены в локальный набор 308 данных на основе пространственного подобия (например, евклидова расстояния) точке 304 запроса, тогда как все элементы 307А могут быть добавлены в локальный набор 308 данных независимо от пространственного подобия. Локальный набор 308 данных можно сгенерировать из элементов 307А и элементов 307В, например, по алгоритму 2.- 15 043314 place in the analysis of a biopharmaceutical process using the A-JITL methodology described in this document. Data flow 300 may take place, for example, in the system 100 shown in FIG. 1, or the system 150 shown in FIG. 2. In data stream 300, spectral data 302 is provided by a spectrometer/probe. For example, spectral data 302 may comprise a Raman scan vector generated by Raman analyzer 106, or a NIR scan vector, etc. Query point 304 is generated (eg, by query block 140) based on spectral data 302 and is used, for example, to query a global data set 306, which may contain all observation data sets in the observation data base 136. The global data set 306 is logically partitioned into the last k elements 307A (e.g., all of which are from the current experiment/process) and into all elements 307B before the last k elements 307A (e.g., from previous experiments/processes, as well as possibly the current experiment /process). The value of k can be determined based on the sample number of the query point 304. As used herein, the term sample number can broadly refer to any indicator of time or relative time associated with a given sample/observation. Some elements from elements 307B are added to local data set 308 based on spatial similarity (eg, Euclidean distance) to query point 304, while all elements 307A may be added to local data set 308 regardless of spatial similarity. Local data set 308 can be generated from elements 307A and elements 307B, for example, by Algorithm 2.
Локальный набор 308 данных затем используется в качестве обучающих данных (например, генератором 142 локальной модели) для калибровки локальной модели 310 (например, локальной модели 132). Локальная модель 310 затем используется (например, блоком 144 предсказания) для предсказания элемента 312 выходных данных (аналитического измерения), такого как концентрация компонентов питательной среды, состояние питательной среды (например, глюкоза, лактат, глутамат, глутамин, аммиак, аминокислоты, Na+, K+, а также другие питательные вещества или метаболиты, рН, рСО2, рО2, температура, осмоляльность и т.д.), плотность жизнеспособных клеток, титр, критические показатели качества, состояние клеток и т.д., а также, возможно, вывода границ правдоподобия или другого подходящего ин дикатора достоверности.The local data set 308 is then used as training data (eg, local model generator 142) to calibrate the local model 310 (eg, local model 132). The local model 310 is then used (e.g., by prediction block 144) to predict an output (analytical measurement) element 312, such as the concentration of media components, the state of the media (e.g., glucose, lactate, glutamate, glutamine, ammonia, amino acids, Na+, K+, as well as other nutrients or metabolites, pH, pCO 2 , pO 2 , temperature, osmolality, etc.), viable cell density, titer, critical quality indicators, cell condition, etc., and also possibly , deriving likelihood bounds or other suitable confidence indicator.
Если фактическое аналитическое измерение (например, измерение, выполненное таким аналитическим прибором, как один из аналитических приборов 104) является доступным, создается новый элемент 314, который добавляется в глобальный набор 306 данных. Такие измерения могут быть доступны, например, на основе периодической выборки (например, один или два раза в сутки) и/или их можно сделать доступными в ответ на инициирующий фактор с переменным расчетным временем (например, если некоторое количество предсказаний в строке имеет недопустимо широкие границы правдоподобия, и т.д.), как более подробно обсуждено ниже.If an actual analytical measurement (eg, a measurement performed by an analytical instrument such as one of the analytical instruments 104) is available, a new element 314 is created and added to the global data set 306. Such measurements may be available, for example, on a periodic sampling basis (for example, once or twice a day) and/or they can be made available in response to a trigger with a variable estimated time (for example, if a number of predictions in a row have unacceptably wide likelihood limits, etc.), as discussed in more detail below.
И хотя включение в Т) выборок, релевантных в пространстве и по времени, необходимо для непрерывной адаптации обсужденного выше подхода A-JITL, общая степень адаптации, достигаемая A-JITL, зависит от того, насколько эффективно D используется для калибровки локальной модели. Для выборки/точки запроса, а* релевантная по времени выборка обеспечивает удовлетворительную корреляцию между функциями {{Причиной. Причиной этого является то, что для запроса а* как пространственная релевантность (aiAi), так и коэффициент корреляции между (7(a*)'7(ai)) вычисляются на основе евклидового расстояния между (айа*).Although the inclusion of spatially and temporally relevant samples in T) is necessary for continuous adaptation of the A-JITL approach discussed above, the overall degree of adaptation achieved by A-JITL depends on how effectively D is used to calibrate the local model. For a sample/query point, a* time-relevant sample provides a satisfactory correlation between the features {{Cause. The reason for this is that for a query a*, both the spatial relevance ( a iAi) and the correlation coefficient between (7( a *)'7( a i)) are calculated based on the Euclidean distance between ( a i a *).
Таким образом, для выбора критерия подобия на евклидовой основе в уравнении (19) и ядра на евклидовой основе в уравнении (4) ожидается, что выборки в обеспечивают высокие функциональные корреляции. И наоборот, релевантная по времени выборка {ар£) е может не обеспечивать сильную корреляцию между функциями С^а ^Ά®/)), Причиной этого является то, что, как отмечено выше, выборки в необязательно релевантны в пространстве. Как следствие, коэффициент корреляции между С^а )'/(aj)), приписываемый гауссовским ядром в уравнении (4), будет небольшим, если небольшой является пространственная релевантность (ar0). С точки зрения моделирования, обучение модели на основе гауссовского процесса в уравнении (1) выборками, несущими небольшие коэффициенты корреляции, является нежелательным, так как это ведет к неудовлетворительному качеству модели. Математически это можно продемонстрировать следующим образом.Thus, for the selection of the Euclidean-based similarity criterion in Equation (19) and the Euclidean-based kernel in Equation (4), the samples in B are expected to provide high functional correlations. Conversely, a time-relevant sample { a p£) e may not provide a strong correlation between functions C^ a ^Ά®/)), The reason for this is that, as noted above, samples in are not necessarily spatially relevant. As a consequence, the correlation coefficient between C^ a )'/( a j)), assigned to the Gaussian kernel in equation (4), will be small if the spatial relevance ( a r0) is small. From a modeling perspective, training a model based on the Gaussian process in equation (1) with samples carrying small correlation coefficients is undesirable, as this leads to poor model quality. This can be demonstrated mathematically as follows.
Для запроса а* и откалиброванной модели на основе гауссовского процесса по алгоритму 2 предсказание на основе модели, Ь, можно вычислить с использованием уравнения (13). Без потери общности, если σ2 = 0 (случай отсутствия шума), уравнение (13) можно записать следующим образом:Given a query a* and a calibrated Gaussian process model from Algorithm 2, the model-based prediction, b, can be computed using Equation (13). Without loss of generality, if σ 2 = 0 (no noise case), equation (13) can be written as follows:
А = [Му.а )|' [Му.у) ke(y,ВДГ1 [bsl уравнение(23) A = [Mu.a )|' [Mu.y) k e (y,VDG 1 [b s l equation (23)
LkgCa^, a)J Lkg (а^, а5) kg (a?-, a^J Lb^JLkgCa^, a)J Lkg (a^, a 5 ) kg (a?-, a^J Lb^J
Если (ат<Ьт) имеет пренебрежимо несущественную пространственную релевантность (т.е. sзначение между ати а* является бесконечно большим), то уравнение (4) приводит к kg(a*,aT) « 0lxk. Кроме того, по построению, так как as ближе к а*, чем к ат, результатом являются kg(as,aT) « 0(2)_Л)хЛи kg(aT,as) « 0fcx(D_k). Их подстановка в уравнение (23) даетIf (at< bt ) has negligible spatial relevance (i.e. the svalue between at and a * is infinitely large), then equation (4) leads to kg(a*,aT) « 0lxk. Moreover, by construction, since as is closer to a* than to a t, the result is kg(as,a T ) « 0 (2) _ А ) xЛ and kg(a T ,a s ) « 0 fcx ( D_k ) . Substituting them into equation (23) gives
- 16 043314 g%rke(as,a*)14ke(as,as) L ofcxl J [ Ofcx(o-fc) ^QD-k)xk bs ке(ат, ат) Ьг , Уравнение (24a)- 16 043314 g % rk e (a s ,a*)14k e (a s ,a s ) L o fcxl J [ Ofcx(o-fc) ^QD-k)xk b s k e (a t , a t ) b g , Equation (24a)
Гк0(а5,аТТГке Ча^) ί Ofcxl J [ ®kx(D-k) ®(D-k)xk 1 Tbs kg (aT, aT)] [b7 Gk 0 (a 5 ,aTTGke Cha^) ί Ofcxl J [ ®kx(Dk) ®(Dk)xk 1 Tbs kg (a T , a T )] [b 7
Уравнение (24b) = ke(a*,as)kg-1(as, as)bs. Уравнение (24c)Equation (24b) = k e (a*,a s )kg -1 (a s , a s )b s . Equation (24c)
Из уравнения (24с) ясно, что точечная оценка не зависит от ®т. Аналогично, можно показать, что уравнение (16) также не зависит от ®т. Например, в уравнении (16) можно вычислить следующим образом:From equation (24c) it is clear that the point estimate does not depend on ®t. Similarly, it can be shown that equation (16) is also independent of ®t. For example, equation (16) can be calculated as follows:
—кд +кд(а*,а^ = k0(a*,a)[ky(a,a)] 1ke(a,a*), Уравнение (25а) “ [8Д' 18Д У 88 -8Г 188 Уравнение (25b)—kd + kd(a*,a^ = k 0 (a*,a)[k y (a,a)] 1 k e (a,a*), Equation (25a) “ [8Д' 18Д У 88 - 8G 188 Equation (25b)
Ik^a^, a)J Lkg(aT, аД ^(87,87)] Ik^a^, a)J rk0(as,a*)lT fkg 1 (85,85)Ik^a^, a)J Lkg(a T , aD ^(87.87)] Ik^a^, a)J rk 0 (a s ,a*)l T fkg 1 (85.85)
L Ofcxl J Ofcx(D-fc)L Ofcxl J Ofcx(D-fc)
0(O-fc)xfc kg (87,87) ke(3s, 3 )1 уравнение (25c) . Okxl J kg ~ kg(a*,a*) - ke(3*,3s)ke ^85,85)^(85,8^. Уравнение (25d)0(O-fc)xfc kg (87.87) ke(3 s , 3 )1 equation (25c) . O kxl J kg ~ kg(a*,a*) - k e (3*,3 s )k e ^85.85)^(85.8^. Equation (25d)
Из уравнений (25b) и (25с) можно видеть, что используется несколько приближений, в том числе к0(а ,ат) « 0Лх1, кД^йр) « 0(D_fc)xkH к0(ат,а5) ~0кх(р-к). Тогда из уравнений (20а) и (20b) очевидно, что алгоритм 2 не способен удовлетворительно использовать ®т, если набор имеет ограниченную простран ственную релевантность. From equations (25b) and (25c) it can be seen that several approximations are used , including to ,a5) ~0кх(р-к). It is then clear from equations (20a) and (20b) that Algorithm 2 is unable to make satisfactory use of ®t if the set has limited spatial relevance.
В некоторых вариантах осуществления для обеспечения возможности внесения вклада в Ί) выборками, релевантными и в пространстве, и по времени, используется подход пространственновременного JITL (ST-JITL) со следующей пространственно-временной рамановской моделью (например, в качестве локальной модели 132):In some embodiments, a space-time JITL (ST-JITL) approach is used with the following space-time Raman model (e.g., as local model 132) to allow samples to contribute to Ί) that are both spatially and temporally relevant:
bL = g(aittd + Уравнение (26) где g: ДУх N -> R - пространственно-временная рамановская модель, и ti - номер выборки в ai, и ei-^(0lσ2') - последовательность независимых гауссовских случайных переменных с нулевым средним и неизвестной дисперсией &2 G ®U. В отличие от уравнения (1), пространственно-временная модель в уравнении (26) зависит как от спектрального сигнала, так и от времени его выборки. Как и выше, предполагается, что g - скрытая функция, моделируемая как гауссовский процесс так, что для любого элемента входных данных (a, t), д(а, t)~ GP(0, гв (a, a, t, t)), Уравнение (27) является случайной функцией. Для удобства средняя функция в уравнении (27) предполагается равной нулю, но это не обязательно имеет место в общем случае. Кроме того, для любых произвольных входных данных (аб ^)и (ар 8'), ковариационную функцию re(aiajtitj) можно задать следующим образом:b L = g(a it td + Equation (26) where g: DUx N -> R is the space-time Raman model, and ti is the sample number in a i, and e i -^(0 l σ 2 ') - a sequence of independent Gaussian random variables with zero mean and unknown variance & 2 G ® U. Unlike equation (1), the space-time model in equation (26) depends on both the spectral signal and its sampling time. As above , it is assumed that g is a latent function modeled as a Gaussian process such that for any element of the input data (a, t), g(a, t)~ GP(0, g in (a, a, t, t)) ,Equation (27) is a random function. For convenience, the mean function in Equation (27) is assumed to be zero, but this is not necessarily the case in general. Moreover, for any arbitrary input data ( a b ^) and ( a p 8 '), the covariance function r e( a i a j t i t j) can be specified as follows:
= ^space(a6 aj) + ^Нте(У Уравнение (28) где Урасе(арау) Е П&+И /ctime(O<0) Е - соответственно пространственная ковариация и временная ковариация между (в&ь О)). Следует отметить, что для Запроса (а81*), если выборка bj) е имеет пренебрежимо малую пространственную релевантность, то УрасеЛ з*) & о, но /щте(9, П > °, так что уравнение (28) задает ненулевой коэффициент корреляции между 2 8.9(^9)). Наконец, следует отметить, что уравнение (28) является истинной ковариационной функцией, поскольку сумма двух независимых ядер также является ядром. Предположим, что kspace и ktime являются гауссовскими ядрами, таким образом предназначены для любой пары элементов входных данных (а7, t, ^space(ai, а7) = ^ехр - Уравнение (29а) = ^iexP - Уравнение (29b) где = Ιαι> α2>βι>Л'1 G В4 - параметр ядра. Для данных уравнений (29а) и (29b) уравнение (28) приписывает высокий коэффициент корреляции между (^^6^)^(^^7)), если (аб (а7’Ь) близки друг к другу. Если У = [П- -У-Ли f7 = [tD_k+1, ...Сд]т обозначают номера выборок для релевантных по состоянию и времени выборок в D соответственно так, что t — 1Хя ^т], то для запроса (a*, С) ковариационную функцию ιθ уравнении (28) можно записать как г— — - —, [ Гд (Эс, Зс, tc, tc) Г/ДЭс, 87, tc, tT) 1 г$ (a, a, t, t) = _ - - J, Уравнение (30a) = ^space( a 6 a j) + ^Hte(U Equation (28) where Urace(arau) E P& + I /c t ime(O<0) E - respectively, the spatial covariance and time covariance between (v&b O)) . It should be noted that for Query ( a 81*), if the sample b j) e has negligible spatial relevance, then UraseL z*) & o, but / φ those (9, П > °, so that equation (28) specifies non-zero correlation coefficient between 2 8.9(^9)). Finally, it should be noted that equation (28) is a true covariance function, since the sum of two independent kernels is also a kernel. Assume that k space and ktime are Gaussian kernels, thus intended for any pair of input data elements (a 7 , t, ^space( a i, a 7 ) = ^exp - Equation (29a) = ^i ex P - Equation (29b) where = Ι α ι> α 2>βι>Л' 1 G В 4 is the kernel parameter. For given equations (29a) and (29b), equation (28) assigns a high correlation coefficient between (^^6^)^ (^^7)), if ( a b ( a 7'b) are close to each other. If U = [P- -U-Li f 7 = [t D _ k+1 , ...Cd] t denote numbers of samples for state- and time-relevant samples in D, respectively, so that t - 1Хя ^т], then for the query (a*, C) the covariance function ιθ of equation (28) can be written as r - - - -, [ Гд ( Es, Zs, tc, tc) G/DES, 87, tc, t T ) 1 g$ (a, a, t, t) = _ - - J, Equation (30a)
Lr^ (ar, as, tr, ts) rg (aT, aT, tT, tT) J r0(a*,a,t*,t) = [re(a*, as, t*, fs) re(a*,a7,t*,fT)]. Уравнение (30b)Lr^ (a r , a s , t r , t s ) rg (a T , a T , t T , t T ) J r 0 (a*,a,t*,t) = [r e (a* , a s , t*, f s ) r e (a*,a7,t*,f T )]. Equation (30b)
Следует отметить, что, в отличие от переменных а и b роль t в уравнениях (30a) и (30b) заключается в простом увеличении вклада ®т. Физически для данного а переменная t не оказывает влияния на b. Поэтому, если V - [У-к+п ··· £р]т задан как номер выборки, соответствующий выборкам в ®т,It should be noted that, in contrast to the variables a and b, the role of t in equations (30a) and (30b) is to simply increase the contribution of ®t. Physically, for a given a, the variable t has no effect on b. Therefore, if V - [U-k+n ··· £р] t is given as the sample number corresponding to the samples in ®t,
- 17 043314 t$ - А ··· ^D-kV можно задать так, что он удовлетворяет следующему:- 17 043314 t$ - A ··· ^D-kV can be specified so that it satisfies the following:
— tj\ » М, Уравнение (31а)- tj\ » M, Equation (31a)
Щ — ϋ*| » Ν, Уравнение (31b) |ϋέ - tk\ » Р, Уравнение (31с) для всех Ч θ {1/ ->D - /с]и к Е {D - к + 1, ...А}, где Μ,Ν,Ρ Е JR+ - произвольные большие положительные _ константы. tr > 0)и дующим образом:Ш — ϋ*| » Ν, Equation (31b) |ϋ έ - t k \ » Р, Equation (31c) for all H θ {1/ ->D - /с] и к Е {D - к + 1, ...А} , where Μ, Ν, Ρ E JR + are arbitrary large positive constants. tr > 0) and as follows:
Кроме_ того, если предположить, что и t* таковы, что кцте(?Лт > 0), то для ^ти ^5, как описано выше, ге А ах>ty1$) можно записать слеr0(as,a5?t5,ts) — kspace(as, а5) + ktime(ts,ts), Уравнение (32а) ~ kspace(as, as) + Уравнение (32b) где уравнение (32b) получено из уравнения (31а), что приводит к нулевым недиагональным элементам в ^timeAts). Аналогично, ковариацию г0 (аХ as> A ts) и ге (as, aT, ts, tT) можно вычислить следующим образом:In addition, if we assume that t* are such that kt(?Am > 0), then for ^m and ^5, as described above, r e A a x>ty1$) we can write sler0(as,a5? t5,ts) - kspace(a s , a 5 ) + k time (t s ,t s ), Equation (32a) ~ k space (a s , a s ) + Equation (32b) where equation (32b) is obtained from equation (31a), which leads to zero off-diagonal elements in ^timeAts). Similarly, the covariance of r 0 ( a X a s> A t s ) and r e (a s , a T , t s , t T ) can be calculated as follows:
r0(a*,asX,ts) = kspace(a*, as) + ktime(t\ts), Уравнение (33a) ~ kspace(a*, as), Уравнение (33b) ге (а5/атА> й) = ^space(as,aT) + ktime(ts,tT), Уравнение (33c) ~ kspace(a5, аг), Уравнение (33d) где уравнение (33b) основано на уравнении (31b), и уравнение (33d) основано на уравнении (31с). Подстановка уравнений (32b), (33b) и (33d) в уравнения (30a) и (30b) дает ,__- [kspace(as< as) +/М(п-к) kspace(as, ат) 1 re(a,a,t,f) = г Га a f f V уРавнение (34а) Kspaceldn “sJ ЛТ> LT> ^т) re (a*, a, t*, t) = [kspace(a*, as) r0 (a*, aT, t*, tT)]. Уравнение (34b)r 0 (a*,a s X,t s ) = k space (a*, a s ) + k time (t\t s ), Equation (33a) ~ k space (a*, a s ), Equation ( 33b) g e ( a 5/ a tA> th) = ^space(a s ,a T ) + k time (t s ,t T ), Equation (33c) ~ k space (a 5 , a g ), Equation (33d) where equation (33b) is based on equation (31b), and equation (33d) is based on equation (31c). Substituting equations (32b), (33b) and (33d) into equations (30a) and (30b) gives ,__- [k sp ace( a s< a s) +/M(p-k) k space (a s , a t ) 1 r e (a,a,t,f) = r Ga aff V y Equation ( 34a ) K spacel d n “sJ Л Т> L T> ^т) r e (a*, a, t*, t) = [k space (a*, a s ) r 0 (a*, a T , t*, t T )]. Equation (34b)
Исходя из уравнений (30a) и (30b), легко подтвердить, что ковариация ге включает вклады как от kspace, так и от ^time. Для данных в уравнениях (30a) и (30b) ковариационных функций для пространственно-временной рамановской модели параметр ядра, θ, и дисперсию σ2 шума можно оценить путем максимизации logp(b|a,f) = -^г/Ь — |log|ry| - log2K, Уравнение (35) где 7 = ΙΑσ2]τΕΓ IR5, logp(b|a,t) - логарифмическая функция предельного правдоподобия, и гг = ге + IDxD. Максимизация уравнения (35) по Г дает оптимальную оценку, γ*. Для оптимизаторов на основе градиента градиенты для уравнения (35) относительно γ можно вычислить способом, аналогичным уравнению (10b). Для данного γ* точечную оценку и апостериорную дисперсию для запроса (А можно вычислить как b = гв(a*, a, t*, t)[гу (a, a, t, t)] 1b, Уравнение (36а) гв = — r0(a*, a, t*,t)[ry(a,a,t, t)] Χχ re(a,a*,f, t*), Уравнение (36b) где ковариационные функции даны в уравнениях (34а) и (34b). Аналогично, границы правдоподобия (bL < b < Ьи) в отношении точечной оценки в уравнении (36а) можно вычислить следующим образом:Based on equations (30a) and (30b), it is easy to confirm that the covariance r e includes contributions from both k sp ace and ^time. Given the covariance functions in equations (30a) and (30b) for the space-time Raman model, the kernel parameter, θ, and noise variance σ 2 can be estimated by maximizing logp(b|a,f) = -^r/b - |log |r y | - log2K, Equation (35) where 7 = ΙΑσ 2 ] τ ΕΓ IR 5 , logp(b|a,t) is the logarithmic marginal likelihood function, and g g = g e + I DxD . Maximizing equation (35) with respect to Γ gives the optimal estimate, γ*. For gradient-based optimizers, the gradients for equation (35) with respect to γ can be calculated in a manner similar to equation (10b). For a given γ*, the point estimate and posterior variance for query (A can be calculated as b = r in (a*, a, t*, t)[r y (a, a, t, t)] 1 b, Equation (36a ) r in = - r0(a*, a, t*,t)[ry(a,a,t, t)] Χ χ re(a,a*,f, t*), Equation (36b) where covariance functions are given in equations (34a) and (34b).Similarly, the likelihood bounds (b L < b < b and ) with respect to the point estimate in equation (36a) can be calculated as follows:
IbL = b - 2^/ψ, Уравнение (37а) bu — b + Уравнение (37b) где rY ~ гв σ . Из уравнений (36а), (37а) и (37b) легко видеть, что вклад в вычисления предсказания на основе модели и границ правдоподобия вносят как релевантные в пространстве, так и релевантные по времени выборки. Наконец, подстановка уравнений (34а) и (34b) в уравнения (36а) и (36b) дает, соответственно, апостериорное среднее и дисперсию. Следует отметить, что в отличие от случая алгоритма 2, предсказание на основе модели в уравнении (36а) и интервалы правдоподобия в уравнениях (37а) и (37b) зависят от ®т, даже когда не имеет пространственной релевантности. Например, если не имеет пространственной релевантности (т.е. ksPace(a^ ат) « О^-^хк, и kspace(a*,aT) ~ Oixk), то уравнения (36а) и (36b) можно записать как ,— - -. [kspace(as,as) + βιϊφ-Κ) ®(р-к)хк 1 r0(a, a,t, t) = r f f J, Уравнение (38a)Ib L = b - 2^/ψ, Equation (37a) b u - b + Equation (37b) where r Y ~ r in σ . From equations (36a), (37a) and (37b), it is easy to see that both spatially relevant and time relevant samples contribute to the model-based prediction calculations and likelihood bounds. Finally, substituting equations (34a) and (34b) into equations (36a) and (36b) gives the posterior mean and variance, respectively. It should be noted that, unlike the case of Algorithm 2, the model-based prediction in equation (36a) and the likelihood intervals in equations (37a) and (37b) depend on ®m, even when not spatially relevant. For example, if it does not have spatial relevance (i.e. k sPace( a ^ at) « O^-^xk, and k space (a*,a T ) ~ Oixk), then equations (36a) and (36b) can be write as ,— - -. [k space (a s ,a s ) + βιϊφ-Κ) ®(р-к)хк 1 r 0 (a, a,t, t) = rff J, Equation (38a)
L ukx(D-k) r0(a*, a, t*,t) = [kspaCe(a*, as) ktime(t*,fT)]_ Уравнение (38b)L u kx(Dk) r 0 (a*, a, t*,t) = [k spaC e(a*, a s ) k time (t*,f T )]_ Equation (38b)
Из вышесказанного можно видеть, что уравнения (38а) и (38b) по-прежнему содержат вклады как от kspace, так и от ktime. Примерный алгоритм, формально описывающий методику ST-JITL, представлен ниже в алгоритме 3:From the above, it can be seen that equations (38a) and (38b) still contain contributions from both k space and k time. An example algorithm formally describing the ST-JITL technique is presented below in Algorithm 3:
- 18 043314- 18 043314
1. Input: Library Lt = {(a^ Ь^}|=1, query point a*1. Input: Library L t = {(a^ b^}| =1 , query point a*
2. Output: Prediction Sand uncertainty (bL,bu~)2. Output: Prediction Sand uncertainty (b L ,b u ~)
3. Set К <- {0}and fT <- {0}3. Set K <- {0}and f T <- {0}
4. for t = Ito Ldo4. for t = Ito Ldo
5. Set I «- sampleJndex(Lt), T)s «- {0}, ©T {0}5. Set I «- sampleJndex(L t ), T) s «- {0}, © T {0}
6. for d = 1 to D - set_cardinality(%)do6. for d = 1 to D - set_cardinality(%)do
7. i* G argmaxie/ sim^, a*)7. i* G argmax ie/ sim^, a*)
8. ©s ^©SU {ait, bit}8. © s ^© S U {a it , b it }
9.I^I\{Q9.I^I\{Q
10. end for10. end for
11. if set_cardinality(%) > Ithen11. if set_cardinality(%) > Ithen
12. Т)т К12. T) t K
13. end if13. end if
14. © ^ ©5 U ©T 14. © ^ © 5 U © T
15. Задать ^согласно уравнениям (31a)-(31c)15. Set ^according to equations (31a)-(31c)
16. Задать f <-[ts; fT]16. Set f <-[t s ; f T ]
17. Обучить модель на основе гауссовского процесса в уравнении (28) с использованием ©и f, и оценить γ*17. Train a model based on the Gaussian process in equation (28) using © and f, and estimate γ*
18. Вычислить Ьс использованием уравнения (36а) и вычислить (bL,bu)c использованием уравнений (37а) и (37b)18. Calculate b using equation (36a) and calculate (b L ,b u ) using equations (37a) and (37b)
19. if b* is available then19. if b* is available then
20. if size(%) = к then20. if size(%) = to then
21. Lt <- Lt U select_oldest(%)21. L t <- L t U select_oldest(%)
22. К delete_oldest(%)22. To delete_oldest(%)
23. % ^% u{a\/r}23. % ^% u{a\/r}
24. end if24. end if
25. % ^% u{a;/r]25. % ^% u{a;/r]
26. end if26. end if
27. end for27. end for
Алгоритм 3Algorithm 3
Следует отметить, что A-JITL и ST-JITL (в алгоритмах 2 и 3 соответственно) могут быть идентичны в случае, когда β1 = 0. Причиной этого является то, что для β1 = 0, ktime = 0, так что Γθ = kspace = kθ (как видно из уравнений (28) и (29b)).It should be noted that A-JITL and ST-JITL (in Algorithms 2 and 3 respectively) can be identical in the case where β1 = 0. The reason for this is that for β1 = 0, k time = 0, so Γθ = k space = kθ (as seen from equations (28) and (29b)).
Обратимся теперь к фиг. 6, на которой показан примерный поток 350 данных, который может иметь место при анализе биофармацевтического процесса с использованием методики ST-JITL, описанной в данном документе. Поток 350 данных может иметь место, например, в системе 100, представленной на фиг. 1, или системе 150, представленной на фиг. 2. В потоке 350 данных спектральные данные 352 предоставляются спектрометром/зондом. Например, спектральные данные 352 могут содержать вектор рамановского сканирования, сгенерированный рамановским анализатором 106, или вектор сканирования NIR и т.д. Точка 354 запроса генерируется (например, блоком 140 запроса) на основе спектральных данных 352 и используется, например, для запроса глобального набора 356 данных, который может содержать все наборы данных наблюдений в базе 136 данных наблюдений. Глобальный набор 356 данных логически разделен на последние k элементов 357А (например, все из текущего эксперимента/процесса) и на все элементы 357В перед последними k элементами 357А (например, из предыдущих, а также, возможно, текущего эксперимента/процесса). Значение k можно определить на основе номера выборки точки 354 запроса. Локальный набор 358 данных можно сгенерировать из элементов 357А и элементов 357В, например, в соответствии с алгоритмом 3.Let us now turn to FIG. 6, which illustrates an example data flow 350 that may occur when analyzing a biopharmaceutical process using the ST-JITL methodology described herein. Data flow 350 may take place, for example, in the system 100 shown in FIG. 1, or the system 150 shown in FIG. 2. In data stream 350, spectral data 352 is provided by a spectrometer/probe. For example, spectral data 352 may comprise a Raman scan vector generated by Raman analyzer 106, or a NIR scan vector, etc. Query point 354 is generated (eg, by query block 140) based on spectral data 352 and is used, for example, to query a global data set 356, which may contain all observation data sets in the observation data base 136. The global data set 356 is logically partitioned into the last k elements 357A (eg, all from the current experiment/process) and into all elements 357B before the last k elements 357A (eg, from previous ones, as well as possibly the current experiment/process). The value of k can be determined based on the sample number of the query point 354. Local data set 358 can be generated from elements 357A and elements 357B, for example, in accordance with Algorithm 3.
Локальный набор 358 данных затем используется в качестве обучающих данных (например, генератором 142 локальной модели) для калибровки локальной модели 360 (например, локальной модели 132). Локальная модель 360 затем используется (например, блоком 144 предсказания) для предсказания элемента 362 выходных данных (аналитического измерения), такого как концентрация компонентов питательной среды, состояние питательной среды (например, глюкоза, лактат, глутамат, глутамин, аммиак, аминокислоты, Na+, K+, а также другие питательные вещества или метаболиты, рН, pCO2, pO2, температура, осмоляльность и т.д.), плотность жизнеспособных клеток, титр, критические показатели качества,The local data set 358 is then used as training data (eg, local model generator 142) to calibrate the local model 360 (eg, local model 132). The local model 360 is then used (e.g., by prediction block 144) to predict an output (analytical measurement) element 362, such as the concentration of media components, the state of the media (e.g., glucose, lactate, glutamate, glutamine, ammonia, amino acids, Na+, K+, as well as other nutrients or metabolites, pH, pCO 2 , pO 2 , temperature, osmolality, etc.), viable cell density, titer, critical quality indicators,
- 19 043314 состояние клеток и т.д., а также, возможно, вывода границ правдоподобия или другого подходящего индикатора достоверности.- 19 043314 state of cells, etc., and also, possibly, the derivation of likelihood limits or other suitable indicator of reliability.
Если фактическое аналитическое измерение (например, измерение, выполненное таким аналитическим прибором, как один из аналитических приборов 104) является доступным, создается новый элемент 364 (содержащий номер его выборки) и добавляется в глобальный набор 356 данных. Такие измерения могут быть доступны, например, на основе периодической выборки (например, один или два раза в сутки) и/или их можно сделать доступными в ответ на инициирующий фактор с переменным расчетным временем (например, если некоторое количество предсказаний в строке имеет недопустимо широкие границы правдоподобия и т.д.).If an actual analytical measurement (eg, a measurement performed by an analytical instrument such as one of the analytical instruments 104) is available, a new element 364 (containing its sample number) is created and added to the global data set 356. Such measurements may be available, for example, on a periodic sampling basis (for example, once or twice a day) and/or they can be made available in response to a trigger with a variable estimated time (for example, if a number of predictions in a row have unacceptably wide likelihood limits, etc.).
Как указано выше, аналитические измерения могут планироваться/инициироваться на основе текущего и/или недавнего выполнения одной или нескольких локальных моделей (например, локальной модели 132, 260, 310 или 360) с целью сохранения или повышения точности предсказания с одновременным уменьшением использования ресурсов (например, использования аналитических приборов). Данную методику можно использовать, например, совместно с A-JITL, ST-JITL или обычным JITL.As stated above, analytical measurements may be scheduled/triggered based on the current and/or recent execution of one or more local models (e.g., local model 132, 260, 310, or 360) to maintain or improve prediction accuracy while reducing resource usage (e.g. , use of analytical instruments). This technique can be used, for example, in conjunction with A-JITL, ST-JITL or regular JITL.
В одном варианте осуществления для инициации обслуживания модели используются интервалы правдоподобия. В частности, если ширина интервала правдоподобия (например, расстояние между границами правдоподобия, вычисленными с использованием уравнения (16) или уравнений (37а), (37b)) по данному предсказанию на основе модели (например, по самому недавнему предсказанию, выполненному локальной моделью 132, 260, 310 или 360) больше предварительно заданного порогового значения, блок 146 обслуживания базы данных может генерировать сообщение с запросом и обеспечивать отправку компьютером 110 сообщения на аналитический прибор (приборы) 104 с целью запроса измерения. В примерных результатах, представленных на фиг. 3, например, блок 146 обслуживания базы данных может инициировать новые аналитические измерения ближе к концу суток 08.12.17, 09.12.17 и 14.12.17, где затененные области 208 указывают широкий интервал правдоподобия (т.е. большое значение bU - bL).In one embodiment, likelihood intervals are used to initiate model maintenance. Specifically, if the width of the likelihood interval (e.g., the distance between the likelihood bounds computed using equation (16) or equations (37a), (37b)) of a given model-based prediction (e.g., the most recent prediction made by a local model 132 , 260, 310, or 360) greater than a predetermined threshold value, database maintenance unit 146 may generate a request message and cause computer 110 to send a message to analytical instrument(s) 104 to request a measurement. In the exemplary results presented in FIG. 3, for example, database maintenance unit 146 may initiate new analytical measurements near the end of the days 12/08/17, 12/09/17, and 12/14/17, where the shaded areas 208 indicate a wide likelihood interval (i.e., a large value of b U - b L ).
В ответ на сообщение с запросом аналитический прибор (приборы) 104 выполняет (выполняют) аналитическое измерение (измерения) и предоставляет измерение (измерения) на компьютер 110. Блок 146 обслуживания базы данных может затем отправлять измерение (измерения) и соответствующий вектор (векторы) рамановского сканирования, принятые из рамановского анализатора 106, на сервер 112 базы данных для хранения в базе 136 данных наблюдений. Например, измерение (измерения) и вектор (векторы) сканирования могут быть добавлены в библиотеку £ (для обычного JITL) или библиотеку К (для A-JITL или ST-JITL), как обсуждено выше.In response to the query message, the analytical instrument(s) 104 performs the analytical measurement(s) and provides the measurement(s) to the computer 110. The database service unit 146 may then send the measurement(s) and the corresponding Raman vector(s). scans received from the Raman analyzer 106 to a database server 112 for storage in the database 136 of observational data. For example, the measurement(s) and scan vector(s) can be added to the £ library (for regular JITL) or the K library (for A-JITL or ST-JITL), as discussed above.
И, наоборот, если ширина интервала правдоподобия по данному предсказанию на основе модели не превышает предварительно заданное пороговое значение, блок 146 обслуживания базы данных может не запрашивать новое аналитическое измерение, и в этом случае библиотека в базе 136 данных наблюдений остается неизменной. В вариантах осуществления, где аналитический прибор (приборы) 104 содержит несколько приборов, измеряющих разные свойства, такие как концентрация компонентов питательной среды, состояние питательной среды (например, глюкоза, лактат, глутамат, глутамин, аммиак, аминокислоты, Na+, K+, а также другие питательные вещества или метаболиты, рН, pCO2, pO2, температура, осмоляльность и т.д.), плотность жизнеспособных клеток, титр, критические показатели качества, состояние клеток и т.д., и для предсказания различных значений свойств используются отдельные локальные модели, процесс планирования может быть реализован по отдельности для каждого предсказываемого свойства и аналитического прибора, измеряющего это свойство, возможно, с отличающимся пороговыми значениями ширины интервала правдоподобия для каждого свойства.Conversely, if the width of the likelihood interval for a given model-based prediction does not exceed a predetermined threshold, database maintainer 146 may not request a new analytical measurement, in which case the library in observational database 136 remains unchanged. In embodiments where the analytical instrument(s) 104 comprises multiple instruments that measure different properties, such as the concentration of nutrient media components, the state of the nutrient media (e.g., glucose, lactate, glutamate, glutamine, ammonia, amino acids, Na+, K+, as well as other nutrients or metabolites, pH, pCO 2 , pO 2 , temperature, osmolality, etc.), viable cell density, titer, critical quality indicators, cell condition, etc., and individual property values are used to predict various property values local models, the planning process can be implemented separately for each predicted property and the analytical instrument that measures this property, possibly with different thresholds for the width of the likelihood interval for each property.
Математически, блок 146 обслуживания базы данных может планировать/инициировать новое аналитическое измерение (измерения) в точке запроса, а*, при условии:Mathematically, the database maintenance unit 146 can schedule/initiate new analytical dimension(s) at the query point, a*, provided:
bu — bL > THR , Уравнение (39) где THR - задаваемое пользователем пороговое значение. В некоторых вариантах осуществления THR может регулироваться пользователем для удовлетворения требованиям определенного применения или случая использования. Например, пользователь может устанавливать относительно небольшое значение THR (используемое блоком 146 обслуживания базы данных) для применения, в котором надежность модели является критичной, что, таким образом, вызывает более частое выполнение операций обслуживания модели/библиотеки. В целом THR может быть установлено в виде разных значений на основе критичности процесса, на основе предсказываемого параметра, такого как концентрация компонентов питательной среды, состояние питательной среды (например, глюкоза, лактат, глутамат, глутамин, аммиак, аминокислоты, Na+, K+, а также другие питательные вещества или метаболиты, рН, pCO2, pO2, температура, осмоляльность и т.д.), плотность жизнеспособных клеток, титр, критические показатели качества, состояние клеток и т.д., и/или на основе текущего периода времени (например, использование меньшего THR для более поздних суток культивации по сравнению с начальными сутками). Выбор THR представляет компромисс между точностью модели и использованием ресурсов (аналитического прибора), при этом менее высокие пороговые значения стремятся к повышению точности модели за счет увеличения использования ресурсов.b u - b L > THR , Equation (39) where THR is a user-specified threshold value. In some embodiments, the THR may be adjusted by the user to meet the requirements of a particular application or use case. For example, a user may set a relatively small THR value (used by database maintenance block 146) for an application in which model reliability is critical, thereby causing model/library maintenance operations to be performed more frequently. In general, THR can be set to different values based on the criticality of the process, based on a predicted parameter such as the concentration of the components of the culture medium, the state of the culture medium (for example, glucose, lactate, glutamate, glutamine, ammonia, amino acids, Na+, K+, and also other nutrients or metabolites, pH, pCO 2 , pO 2 , temperature, osmolality, etc.), viable cell density, titer, critical quality indicators, cell condition, etc., and/or based on current period time (for example, using a lower THR for later days of cultivation compared to the initial days). The choice of THR represents a trade-off between model accuracy and resource (analytical instrument) utilization, with lower thresholds tending to improve model accuracy at the expense of increased resource utilization.
- 20 043314- 20 043314
Также возможны изменения данного протокола планирования. В одном варианте осуществления блок 146 обслуживания базы данных, например, может применять один или несколько критериев качества модели, не только к текущему (самому недавнему) предсказанию, но и к одному или нескольким другим недавним предсказаниям (например, самым недавним N предсказаний, где N > 1). В качестве примера такого варианта осуществления блок 146 обслуживания базы данных может вычислять среднюю ширину интервалов правдоподобия для самых недавних N предсказаний (N > 1), а затем сравнивать эту среднюю ширину с пороговым значением THR. В качестве другого примера блок 146 обслуживания базы данных может идентифицировать X наибольших значений ширины интервала правдоподобия среди последних Y предсказаний (X < Y) и планировать/инициировать новое аналитическое измерение только тогда, когда каждое из этих X значений ширины больше порогового значения THR.Changes to this planning protocol are also possible. In one embodiment, database maintainer 146, for example, may apply one or more model quality criteria, not only to the current (most recent) prediction, but also to one or more other recent predictions (e.g., the most recent N predictions, where N > 1). As an example of such an embodiment, database maintainer 146 may calculate the average width of the likelihood intervals for the most recent N predictions (N > 1) and then compare this average width to a threshold THR value. As another example, database maintenance unit 146 may identify the X largest likelihood interval widths among the latest Y predictions (X < Y) and schedule/initiate a new analytical measurement only when each of these X widths is greater than a THR threshold.
На фиг. 7 представлена схема последовательности операций примерного способа 400 анализа биофармацевтического процесса (например, в целях отслеживания и/или управления). Способ 400 может быть реализован таким компьютером, как компьютер 110, представленный на фиг. 1 (например, блоком 120 обработки, исполняющим команды приложения 130 предсказателя JITL) или фиг. 2, и/или таким сервером, как сервер 112 базы данных, представленный на фиг. 1 или 2, например.In fig. 7 is a flow diagram of an exemplary method 400 for analyzing a biopharmaceutical process (eg, for tracking and/or control purposes). Method 400 may be implemented by a computer such as computer 110 shown in FIG. 1 (eg, by a processing unit 120 executing commands of the JITL predictor application 130) or FIG. 2, and/or a server such as the database server 112 shown in FIG. 1 or 2, for example.
В блоке 402 определяется точка запроса, связанная со сканированием биофармацевтического процесса системой спектроскопии (например, рамановским анализатором 104 и рамановским зондом 106 системы 100 или системы 150). Точку запроса можно определить на основе по меньшей мере частично вектора спектрального сканирования (например, вектора рамановского сканирования или сканирования NIR), который был сгенерирован системой спектроскопии, например, при сканировании биофармацевтического процесса. В зависимости от варианта осуществления точка запроса может быть определена на основе необработанного вектора спектрального сканирования или после подходящей фильтрации путем предварительной обработки необработанного вектора спектрального сканирования. В некоторых вариантах осуществления точка запроса также определяется на основе другой информации, такой как профиль питательной среды, связанный с биофармацевтическим процессом (например, тип текучей среды, конкретные питательные вещества, уровень рН и т.д.), и/или, например, одно или несколько рабочих условий, в которых подвергают анализу биофармацевтический процесс (например, заданное значение концентрации метаболита и т.д.).At block 402, a query point associated with scanning a biopharmaceutical process by a spectroscopy system (eg, Raman analyzer 104 and Raman probe 106 of system 100 or system 150) is determined. The query point may be determined based at least in part on a spectral scan vector (e.g., a Raman scan vector or an NIR scan) that was generated by the spectroscopy system, such as a biopharmaceutical process scan. Depending on the embodiment, the query point may be determined based on the raw spectral scan vector or, after suitable filtering, by preprocessing the raw spectral scan vector. In some embodiments, the query point is also determined based on other information, such as the media profile associated with the biopharmaceutical process (e.g., type of fluid, specific nutrients, pH level, etc.), and/or, for example, one or multiple operating conditions under which the biopharmaceutical process is analyzed (eg, metabolite concentration set point, etc.).
В блоке 404 запрашивается база данных наблюдений (например, база 136 данных наблюдений). База данных наблюдений может содержать наборы данных наблюдений, связанные с прошлыми наблюдениями нескольких биофармацевтических процессов. Каждый из наборов данных наблюдений может содержать спектральные данные (например, вектор рамановского сканирования или сканирования NIR) и соответствующее аналитическое измерение (или, в некоторых вариантах осуществления, два или более аналитических измерений). Аналитическое измерение может представлять собой, например, концентрацию компонентов питательной среды, состояние питательной среды (например, глюкоза, лактат, глутамат, глутамин, аммиак, аминокислоты, Na+, K+, а также другие питательных вещества или метаболиты, рН, pCO2, pO2, температура, осмоляльность и т.д.), плотность жизнеспособных клеток, титр, критические показатели качества и/или состояние клеток.At block 404, an observation database (eg, observation database 136) is queried. The observational database may contain observational data sets associated with past observations of several biopharmaceutical processes. Each of the observation data sets may contain spectral data (eg, a Raman or NIR scan vector) and a corresponding analytical measurement (or, in some embodiments, two or more analytical measurements). The analytical measurement may be, for example, the concentration of the components of the nutrient medium, the state of the nutrient medium (for example, glucose, lactate, glutamate, glutamine, ammonia, amino acids, Na+, K+, as well as other nutrients or metabolites, pH, pCO 2 , pO 2 , temperature, osmolality, etc.), viable cell density, titer, critical quality indicators and/or cell condition.
Блок 404 может включать выбор в качестве обучающих данных из наборов данных наблюдений тех наборов данных наблюдений, которые удовлетворяют одному или нескольким критериям релевантности относительно точки запроса. Если точка запроса включена в вектор спектрального сканирования, например, блок 404 может включать сравнение этого вектора спектрального сканирования с векторами спектрального сканирования, связанными с каждым из прошлых наблюдений, представленных в базе данных наблюдений (например, путем вычисления евклидового или других расстояний между (1) вектором спектрального сканирования, на котором было основано определение точки запроса, и (2) каждым из векторов спектрального сканирования, связанных с прошлыми наблюдениями, а затем выбора в качестве обучающих данных любого из векторов спектрального сканирования, связанных с прошлыми наблюдениями, для которых определено нахождение в пределах порогового расстояния от вектора спектрального сканирования, на котором было основано определение точки запроса).Block 404 may include selecting as training data from the observation data sets those observation data sets that satisfy one or more relevance criteria with respect to the query point. If the query point is included in a spectral scan vector, for example, block 404 may include comparing that spectral scan vector with the spectral scan vectors associated with each of the past observations represented in the observation database (e.g., by calculating Euclidean or other distances between (1) the spectral scan vector on which the definition of the query point was based, and (2) each of the spectral scan vectors associated with past observations, and then selecting as training data any of the spectral scan vectors associated with past observations that were determined to be in within the threshold distance from the spectral scan vector on which the definition of the query point was based).
В блоке 406 выбранные обучающие данные используются для калибровки локальной модели, которая характерна для отслеживаемого биофармацевтического процесса. Локальная модель (например, локальная модель 132) обучается в блоке 406 с целью предсказания аналитических измерений на основе входных спектральных данных (например, векторов рамановского сканирования или сканирования NIR). В некоторых вариантах осуществления локальная модель представляет собой модель машинного обучения на основе гауссовского процесса.At block 406, the selected training data is used to calibrate a local model that is specific to the biopharmaceutical process being monitored. A local model (eg, local model 132) is trained at block 406 to predict analytical measurements based on input spectral data (eg, Raman or NIR scan vectors). In some embodiments, the local model is a Gaussian process machine learning model.
В блоке 408 аналитическое измерение биофармацевтического процесса предсказывается с использованием локальной модели. Блок 408 может включать использование локальной модели для анализа спектральных данных (например, вектора рамановского сканирования или сканирования NIR), генерируемых системой спектроскопии при сканировании биофармацевтического процесса. Например, блок 408 может включать предсказывание аналитического измерения путем использования локальной модели для обработки того же вектора спектрального сканирования или других спектральных данных, на котоAt block 408, an analytical measurement of a biopharmaceutical process is predicted using a local model. Block 408 may include using a local model to analyze spectral data (eg, a Raman scan vector or NIR scan) generated by the spectroscopy system while scanning the biopharmaceutical process. For example, block 408 may include predicting an analytical measurement by using a local model to process the same spectral scan vector or other spectral data on which
- 21 043314 рых была основана точка запроса. В зависимости от варианта осуществления локальная модель может использоваться для анализа необработанных спектральных данных (например, необработанного вектора рамановского сканирования) или для анализа спектральных данных после подходящей фильтрации путем предварительной обработки необработанных спектральных данных. В некоторых вариантах осуществления блок 408 также включает определение индикатора достоверности (например, границ правдоподобия, степени достоверности и т.д.), связанного с предсказанным аналитическим измерением биофармацевтического процесса. В некоторых вариантах осуществления локальная модель также предсказывает в блоке 408 одно или несколько дополнительных аналитических измерений.- 21 043314 request point was founded. Depending on the embodiment, the local model can be used to analyze raw spectral data (eg, a raw Raman scan vector) or to analyze spectral data after suitable filtering by preprocessing the raw spectral data. In some embodiments, block 408 also includes determining a confidence indicator (eg, likelihood bounds, degree of confidence, etc.) associated with the predicted analytical measurement of the biopharmaceutical process. In some embodiments, the local model also predicts one or more additional analytical measurements in block 408.
В некоторых вариантах осуществления способ 400 включает один или несколько дополнительных блоков, не показанных на фиг. 5. Например, способ 400 может включать дополнительный блок, в котором управление по меньшей мере одним параметром биофармацевтического процесса выполняется на основе по меньшей мере частично аналитического измерения, предсказанного в блоке 408. В зависимости от варианта осуществления параметр может относиться к тому же типу, что и предсказанное аналитическое измерение (например, управление концентрацией глюкозы на основе предсказанной концентрации глюкозы), или к другому типу. Для управления параметром (или параметрами) могут использоваться, например, методики управления по модели предсказания (МРС).In some embodiments, method 400 includes one or more additional blocks not shown in FIG. 5. For example, method 400 may include an additional block in which control of at least one biopharmaceutical process parameter is performed based at least in part on an analytical measurement predicted in block 408. Depending on the embodiment, the parameter may be of the same type as and a predicted analytical measurement (eg, controlling a glucose concentration based on a predicted glucose concentration), or to another type. To control the parameter (or parameters), for example, model predictive control (MPC) techniques can be used.
В качестве другого примера способ 400 может включать первый дополнительный блок, в котором получается фактическое аналитическое измерение биофармацевтического процесса (например, одним из аналитических приборов 104 или из него в ответ на определение того, что предсказанное аналитическое измерение и, возможно, одно или несколько ранних/недавних измерений не удовлетворяют одному или нескольким критериям качества модели, как обсуждено выше), и второй дополнительный блок, в котором обеспечивается добавление (1) спектральных данных, которые система спектроскопии генерирует при получении фактического аналитического измерения, и (2) фактического аналитического измерения биофармацевтического процесса в базу данных наблюдений (например, путем отправки спектральных данных и аналитического измерения в такой сервер базы данных, как сервер 112 базы данных, или путем непосредственного добавления спектральных данных и аналитического измерения в локальную базу данных наблюдений и т.д.). В тех вариантах осуществления, где предсказывается несколько типов аналитических измерений, несколько фактических аналитических измерений могут быть получены или добавлены в базу данных наблюдений.As another example, method 400 may include a first additional block in which an actual analytical measurement of the biopharmaceutical process is obtained (e.g., by or from one of the analytical instruments 104 in response to determining that the predicted analytical measurement and possibly one or more early/ recent measurements do not satisfy one or more model quality criteria as discussed above), and a second optional block that provides for the addition of (1) the spectral data that the spectroscopy system generates when receiving the actual analytical measurement, and (2) the actual analytical measurement of the biopharmaceutical process to an observational database (eg, by sending the spectral data and analytical measurement to a database server such as database server 112, or by directly adding the spectral data and analytical measurement to a local observational database, etc.). In those embodiments where multiple types of analytical measurements are predicted, multiple actual analytical measurements may be obtained or added to the observational database.
В качестве еще одного примера способ 400 может включать один или несколько дополнительных наборов блоков, каждый из которых подобен блокам 402-408. В каждом из этих дополнительных наборов блоков локальная модель может калиброваться путем запроса базы данных наблюдений (или другой базы данных наблюдений) и использоваться для предсказания аналитического измерения другого типа.As another example, method 400 may include one or more additional sets of blocks, each of which is similar to blocks 402-408. In each of these additional sets of blocks, the local model can be calibrated by querying the observational database (or another observational database) and used to predict a different type of analytical measurement.
Ниже будут рассмотрены дополнительные соображения в отношении настоящего изобретения.Additional considerations regarding the present invention will be discussed below.
Термины полипептид или белок везде используются взаимозаменяемо и относятся к молекуле, содержащей два или более аминокислотных остатков, соединенных друг с другом пептидными связями. Полипептиды и белки также включают макромолекулы, имеющие одну или несколько делеций, вставок и/или замен аминокислотных остатков нативной последовательности, то есть полипептида или белка, полученного встречающейся в природе и нерекомбинантной клеткой; или полученного генетически модифицированной или рекомбинантной клеткой, и включают молекулы, имеющие одну или несколько делеций, вставок и/или замен аминокислотных остатков аминокислотной последовательности нативного белка. Полипептиды и белки также включают полимеры из аминокислот, в которых одна или несколько аминокислот являются химическими аналогами соответствующих встречающихся в природе аминокислот и полимеров. Полипептиды и белки также включают модификации, в том числе, но без ограничения, гликозилирование, присоединение липида, сульфатирование, гамма-карбоксилирование остатков глутаминовой кислоты, гидроксилирование и АДФ-рибозилирование.The terms polypeptide or protein are used interchangeably throughout and refer to a molecule containing two or more amino acid residues linked together by peptide bonds. Polypeptides and proteins also include macromolecules having one or more deletions, insertions and/or substitutions of amino acid residues of the native sequence, that is, a polypeptide or protein produced by a naturally occurring and non-recombinant cell; or produced by a genetically modified or recombinant cell, and include molecules having one or more deletions, insertions and/or substitutions of amino acid residues of the amino acid sequence of the native protein. Polypeptides and proteins also include polymers of amino acids, in which one or more amino acids are chemical analogues of the corresponding naturally occurring amino acids and polymers. Polypeptides and proteins also include modifications, including, but not limited to, glycosylation, lipid addition, sulfation, gamma-carboxylation of glutamic acid residues, hydroxylation, and ADP-ribosylation.
Полипептиды и белки могут представлять научный и коммерческий интерес, в том числе для терапии на основе белков. Белки включают, помимо прочего, секретируемые белки, несекретрируемые белки, внутриклеточные белки или мембраносвязанные белки. Полипептиды и белки могут быть получены при помощи рекомбинантных клеточных линий животных с использованием методов культивирования клеток и могут называться рекомбинантными белками. Экспрессируемый белок (белки) может быть получен внутри клетки или секретирован в культуральную среду, из которой он может быть извлечен и/или собран. Белки включают белки, оказывающие терапевтическое воздействие путем связывания с мишенью, в частности с мишенью из тех, которые перечислены ниже, в том числе с полученными из них мишенями, относящимися к ним мишенями и их модификациями.Polypeptides and proteins may be of scientific and commercial interest, including for protein-based therapies. Proteins include, but are not limited to, secreted proteins, non-secreted proteins, intracellular proteins or membrane-bound proteins. Polypeptides and proteins can be produced from recombinant animal cell lines using cell culture techniques and may be referred to as recombinant proteins. The expressed protein(s) can be produced intracellularly or secreted into the culture medium from which it can be extracted and/or collected. Proteins include proteins that exert a therapeutic effect by binding to a target, particularly a target listed below, including targets derived therefrom, related targets, and modifications thereof.
Белки антигенсвязывающие белкиAntigen binding proteins
Термин антигенсвязывающий белок относится к белкам или полипептидам, содержащим антигенсвязывающую область или антигенсвязывающую часть, которая имеет сильное сродство к другой молекуле (антигену), с которой она связывается. Антигенсвязывающие белки охватывают антитела, пептитела, фрагменты антител, производные антител, аналоги антител, белки слияния (в том числе одноцепочечные вариабельные фрагменты (scFv) и двухцепочечные (двухвалентные) scFv, мутеины, xMAb и химерные антигенные рецепторы (CAR)).The term antigen binding protein refers to proteins or polypeptides containing an antigen binding region or antigen binding portion that has a strong affinity for another molecule (antigen) to which it binds. Antigen-binding proteins include antibodies, peptibodies, antibody fragments, antibody derivatives, antibody analogs, fusion proteins (including single-chain variable fragment (scFv) and double-chain (divalent) scFv, muteins, xMAbs and chimeric antigen receptors (CAR)).
- 22 043314- 22 043314
ScFv представляет собой фрагмент одноцепочечного антитела, содержащий вариабельные области тяжелой и легкой цепей антитела, связанные вместе. См. патенты США №№ 7741465 и 6319494, а такжеScFv is a single chain antibody fragment containing the variable regions of the heavy and light chains of the antibody linked together. See US Patent Nos. 7,741,465 and 6,319,494, and
Eshhar и др., Cancer Immunol Immunotherapy (1997) 45: 131-136. ScFv сохраняет способность исходного антитела специфично взаимодействовать с антигеном-мишенью.Eshhar et al., Cancer Immunol Immunotherapy (1997) 45: 131-136. ScFv retains the ability of the parent antibody to specifically interact with the target antigen.
Термин антитело включает отсылку как к гликозилированным, так и негликозилированным иммуноглобулинам любого изотипа или подкласса или к их антигенсвязывающей области, конкурирующей с интактным антителом за специфичное связывание. Если не указано иное, антитела включают человеческие, гуманизированные, химерные, мультиспецифичные, моноклональные, поликлональные, гетероIgG, XmAb, биспецифичные и олигомерные антитела или их антигенсвязывающие фрагменты. Антитела включают типы lgG1-, lgG2-, lgG3- или lgG4. Также включены белки, имеющие антигенсвязывающий фрагмент или область, такую как Fab, Fab', F(ab')2, Fv, диатела, Fd, dAb, макситела, молекулы одноцепочечных антител, однодоменные VHH, фрагменты определяющей комплементарность области (CDR), scFv, диатела, триатела, тетратела и полипептиды, содержащие по меньшей мере часть иммуноглобулина, которой достаточно для придания специфичности связыванию антигена с полипептидом-мишенью.The term antibody includes reference to both glycosylated and non-glycosylated immunoglobulins of any isotype or subclass or to the antigen-binding region thereof that competes with the intact antibody for specific binding. Unless otherwise specified, antibodies include human, humanized, chimeric, multispecific, monoclonal, polyclonal, heteroIgG, XmAb, bispecific and oligomeric antibodies or antigen binding fragments thereof. Antibodies include the lgG1-, lgG2-, lgG3-, or lgG4 types. Also included are proteins having an antigen binding fragment or region, such as Fab, Fab', F(ab') 2 , Fv, diabodies, Fd, dAb, maxbodies, single chain antibody molecules, single domain VHH, complementarity determining region (CDR) fragments, scFv , diabodies, tribodies, tetrabodies and polypeptides containing at least a portion of an immunoglobulin that is sufficient to impart specificity to the binding of the antigen to the target polypeptide.
Также включены человеческие, гуманизированные и другие антигенсвязывающие белки, такие как человеческие и гуманизированные антитела, не вызывающие значительные вредные иммунные ответы при введении человеку.Also included are human, humanized and other antigen-binding proteins, such as human and humanized antibodies that do not elicit significant harmful immune responses when administered to humans.
Также включены пептитела, полипептиды, содержащие один или несколько соединенных друг с другом, необязательно посредством линкеров, биологически активных пептидов с Fc-доменом (См. патент США № 6660843, патент США № 7138370 и патент США №7511012).Also included are peptibodies, polypeptides containing one or more biologically active Fc domain peptides linked together, optionally by linkers (See US Pat. No. 6,660,843, US Pat. No. 7,138,370, and US Pat. No. 7,511,012).
Белки также включают генетически модифицированные рецепторы, такие как химерные антигенные рецепторы (CAR или CAR-T) и Т-клеточные рецепторы (TCR). CAR обычно включают антигенсвязывающий домен (такой как scFv) в тандеме с одним или несколькими костимулирующими (сигнальными) доменами и одним или несколькими активирующими доменами.Proteins also include genetically modified receptors such as chimeric antigen receptors (CAR or CAR-T) and T-cell receptors (TCR). CARs typically include an antigen binding domain (such as a scFv) in tandem with one or more co-stimulatory (signaling) domains and one or more activating domains.
Также включены конструкции антител с биспецифичными агентами Т-клеток (BiTE®), которые представляют собой конструкции рекомбинантных белков, полученные из двух гибко связанных связывающих доменов, полученных из антител (см. WO 99/54440 и WO 2005/040220). Один связывающий домен конструкции является специфичным для выбранного опухолеассоциированного поверхностного антигена на клетках-мишенях; второй связывающий домен является специфичным для CD3, субъединицы Т-клеточного рецепторного комплекса на Т-клетках. Конструкции BiTE® также могут включать способность к связыванию с независимым от окружения эпитопом на N-конце цепи CD3 (WO 2008/119567) для более специфичной активации Т-клеток. Конструкции BiTE® с увеличенным периодом полужизни включают слияние малого биспецифичного антитела с белками большего размера, которые предпочтительно не препятствуют терапевтическому воздействию конструкции антитела BiTE®. Примеры таких дополнительных разработок биспецифичных агентов Т-клеток включают биспецифичные молекулы, содержащие Fc, например, описанные в US 2014/0302037, US 2014/0308285, wO 2014/151910 и WO 2015/048272. Альтернативная стратегия заключается в использовании человеческого сывороточного альбумина (HAS), слитого с биспецифичной молекулой, или простое слияние человеческих альбуминсвязывающих пептидов (см., например, WO 2013/128027, WO 2014/140358). Другая стратегия, HLE BiTE®, включает слияние первого домена, связывающегося с поверхностным антигеном клетки-мишени, второго домена, связывающегося с внеклеточным эпитопом цепи CD3e человека и/или макаки, и третьего домена, представляющего собой домен, обладающий Fc-специфическим способом действия (WO 2017/134140).Also included are bispecific T cell agent (BiTE®) antibody constructs, which are recombinant protein constructs derived from two flexibly linked antibody-derived binding domains (see WO 99/54440 and WO 2005/040220). One binding domain of the construct is specific for a selected tumor-associated surface antigen on target cells; the second binding domain is specific for CD3, a subunit of the T cell receptor complex on T cells. BiTE® constructs can also include the ability to bind to a context-independent epitope at the N-terminus of the CD3 chain (WO 2008/119567) for more specific T cell activation. BiTE® extended half-life constructs involve fusing a small bispecific antibody with larger proteins that preferably do not interfere with the therapeutic effects of the BiTE® antibody construct. Examples of such additional developments of bispecific T cell agents include bispecific molecules containing Fc, for example, described in US 2014/0302037, US 2014/0308285, wO 2014/151910 and WO 2015/048272. An alternative strategy is to use human serum albumin (HAS) fused to a bispecific molecule, or a simple fusion of human albumin-binding peptides (see, for example, WO 2013/128027, WO 2014/140358). Another strategy, HLE BiTE®, involves fusion of a first domain that binds to a target cell surface antigen, a second domain that binds to an extracellular epitope of the human and/or macaque CD3e chain, and a third domain that is an Fc-specific mode of action domain ( WO 2017/134140).
Также включены модифицированные белки, такие как белки, модифицированные химически при помощи нековалентного связывания, ковалентного связывания или как ковалентного, так и нековалентного связывания. Также включены белки, дополнительно содержащие одну или несколько посттрансляционных модификаций, которые могут быть выполнены при помощи систем клеточной модификации, или модификаций, вносимых ex vivo при помощи ферментативных и/или химических методов или вносимых другими способами.Also included are modified proteins, such as proteins modified chemically by non-covalent binding, covalent binding, or both covalent and non-covalent binding. Also included are proteins that further contain one or more post-translational modifications, which can be made using cellular modification systems, or modifications made ex vivo using enzymatic and/or chemical methods or introduced by other means.
Белки также могут включать рекомбинантные белки слияния, содержащие, например, домен мультимеризации, такой как лейциновая застежка, суперспираль, Fc-часть иммуноглобулина и т.п. Также включены белки, содержащие все или часть аминокислотных последовательностей дифференцировочных антигенов (называемых белками CD) или их лигандов, или белки, по существу аналогичные любому из них.The proteins may also include recombinant fusion proteins containing, for example, a multimerization domain such as a leucine zipper, coiled-coil, immunoglobulin Fc portion, and the like. Also included are proteins containing all or part of the amino acid sequences of differentiation antigens (referred to as CD proteins) or ligands thereof, or proteins substantially similar to any of them.
В некоторых вариантах осуществления белки могут включать колониестимулирующие факторы, такие как колониестимулирующий фактор гранулоцитов (G-CSF). Такие средства на основе G-CSF включают без ограничения Neupogen® (филграстим) и Neulasta® (пэгфилграстим). Также включены стимуляторы эритропоэза (ESA), такие как Epogen® (эпоэтин-альфа), Aranesp® (дарбэпоэтин-альфа), Dynepo® (эпоэтин-дельта), Mircera® (метоксиполиэтиленгликоль-эпоэтин-бета), Hematide®, MRK-2578, INS-22, Retacrit® (эпоэтин-дзета), Neorecormon® (эпоэтин-бета), Silapo® (эпоэтин-дзета), Binocrit® (эпоэтин-альфа), эпоэтин-альфа Hexal, Abseamed® (эпоэтин-альфа), Ratioepo® (эпоэтин-тета), Eporatio®In some embodiments, the proteins may include colony-stimulating factors, such as granulocyte colony-stimulating factor (G-CSF). Such G-CSF-based agents include, but are not limited to, Neupogen® (filgrastim) and Neulasta® (pegfilgrastim). Also included are erythropoiesis stimulating agents (ESAs), such as Epogen® (epoetin alfa), Aranesp® (darbepoetin alfa), Dynepo® (epoetin delta), Mircera® (methoxypolyethylene glycol epoetin beta), Hematide®, MRK-2578 , INS-22, Retacrit® (epoetin-zeta), Neorecormon® (epoetin-beta), Silapo® (epoetin-zeta), Binocrit® (epoetin-alpha), Epoetin-alpha Hexal, Abseamed® (epoetin-alpha), Ratioepo® (epoetin-theta), Eporatio®
- 23 043314 (эпоэтин-тета), Biopoin® (эпоэтин-тета), эпоэтин-альфа, эпоэтин-бета, эпоэтин-дзета, эпоэтин-тета и эпоэтин-дельта, эпоэтин-омега, эпоэтин-йота, тканевой активатор плазминогена, агонтисты рецептора GLP1, а также молекулы или их варианты или аналоги и биосимиляры любого из вышеперечисленного.- 23 043314 (epoetin-theta), Biopoin® (epoetin-theta), epoetin-alpha, epoetin-beta, epoetin-zeta, epoetin-theta and epoetin-delta, epoetin-omega, epoetin-iota, tissue plasminogen activator, agonists GLP1 receptor, as well as molecules or variants thereof or analogs and biosimilars of any of the above.
В некоторых вариантах осуществления белки могут включать белки, которые специфически связываются с одним или несколькими белками CD, белками семейства рецепторов HER, молекулами клеточной адгезии, факторами роста, факторами роста нервов, факторами роста фибробластов, трансформирующими факторами роста (TGF), инсулиноподобными факторами роста, остеоиндуцирующими факторами, инсулином и относящимися к инсулину белками, коагулирущими и относящимися к коагуляции белками, колониестимулирующими факторами (CSF), другими белками крови и сыворотки, антигенами групп крови; рецепторами, рецептор-ассоциированными белками, гормонами роста, рецепторами гормона роста, рецепторами Т-клеток; нейротрофическими факторами, нейротрофинами, релаксинами, интерферонами, интерлейкинами, вирусными антигенами, липопротеинами, интегринами, ревматоидными факторами, иммунотоксинами, поверхностными мембранными белками, транспортными белками, рецепторами самонаведения, адрессинами, регуляторными белками и иммуноадгезинами. В некоторых вариантах осуществления белки могут включать белки, связывающиеся с одним или нескольким из следующего, по отдельности или в любой комбинации: CD белками, в том числе, но без ограничения, CD3, CD4, CD5, CD7, CD8, CD19, CD20, CD22, CD25, CD30, CD33, CD34, CD38, CD40, CD70, CD123, CD133, CD138, CD171 и CD174, белками семейства рецепторов HER, в том числе, например, HER2, HER3, HER4 и рецептором EGF, EGFRvIII, молекулами клеточной адгезии, например LFA-1, Mol, p150,95, VLA-4, ICAM-1, VCAM и интегрин альфа v/бета 3, факторами роста, в том числе, но без ограничения, например, фактором роста эндотелия сосудов (VEGF); VEGFR2, гормоном роста, тиреостимулирующим гормоном, фолликулостимулирующим гормоном, лютеинизирующим гормоном, рилизинг-фактором гормона роста, паратиреоидным гормоном, мюллеровым ингибирующим фактором, воспалительным белком макрофагов человека (MIP-1-альфа), эритропоэтином (ЕРО), фактором роста нервов, таким как NGF-бета, фактором роста тромбоцитов (PDGF), фактором роста фибробластов, в том числе, например, aFGF и bFGF, эпидермальным фактором роста (EGF), Cripto, трансформирующими факторами роста (TGF), в том числе, помимо прочего, TGF-α и TGF-β, в том числе TGF-e1, TGF-e2, TGF-e3, TGF-e4 или TGF-e5, инсулиноподобными факторами роста-I и -II (IGF-I и IGF-II), des(1-3)-IGF-I (мозговой IGF-I) и остеоиндуцирующими факторами, инсулинами и относящимися к инсулину белками, в том числе, но без ограничения инсулином, А-цепью инсулина, В-цепью инсулина, проинсулином и инсулиноподобными белками, связывающими фактор роста; (белками, относящимися к коагуляции, такими как, среди прочего, фактор VIII, тканевой фактор, фактор фон Виллебранда, протеин С, альфа-1-антитрипсин, активаторами плазминогена, такими как урокиназа и тканевый активатор плазминогена (t-PA), бомбазином, тромбином, тромбопоэтином и рецептором тромбопоэтина, колониестимулирующими факторами (CSF), в том числе следующими, среди прочего, М-CSF, GM-CSF и G-CSF, другими белками крови и сыворотки, в том числе, но без ограничения, альбумин, IgE и антигены групп крови, рецепторами и ассоциированными с рецептором белками, в том числе, например, рецептором flk2/flt3, рецептором ожирения (ОВ), рецепторами гормона роста и рецепторами Т-клеток; (х) нейротрофическими факторами, в том числе, но без ограничения, нейротропным фактором костной ткани (BDNF) и нейротрофином-3, -4, -5 или -6 (NT-3, NT-4, NT-5 или NT-6); (xi) А-цепью релаксина, В-цепью релаксина и прорелаксином, интерферонами, в том числе, например, интерферонами-альфа, -бета и -гамма, интерлейкинами (IL), например, IL-1-IL-10, IL12, IL-15, IL-17, IL-23, IL-12/IL-23, IL-2Ra, IL1-R1, рецептором IL-6, рецептором IL-4 и/или рецепторами IL-13-IL-13RA2, или рецептором IL-17, IL-1RAP; (xiv) вирусными антигенами, в том числе, но без ограничения, антигеном оболочки вируса СПИДа, липопротеинами, кальцитонином, глюкагоном, предсердным натрийуретическим фактором, сурфактантом легких, альфа- и бета-факторами некроза опухоли, энкефалиназой, ВСМА, IgKappa, ROR-1, ERBB2, мезотелином, RANTES (регулируется при активации, обычно экспрессируемой и секретируемой Т-клетками), мышиным гонадотропин-ассоциированным пептидом, ДНКазой, FR-альфа, ингибином и активином, интегрином, белком А или D, ревматоидными факторами, иммунотоксинами, костным морфогенетическим белком (BMP), супероксиддисмутазой, поверхностными мембранными белками, фактором ускорения распада (DAF), оболочкой вируса СПИДа, транспортными белками, хоминг-рецепторами, MIC (MIC-a, MIC-B), ULBP 1-6, ЕРСАМ, адрессинами, регуляторными белками, иммуноадгезинами, антигенсвязывающими белками, соматропином, CTGF, CTLA4, эотаксином-1, MUC1, СЕА, с-МЕТ, Claudin-18, GPC-3, ЕРНА2, FPA, LMP1, MG7, NY-ESO-1, PSCA, ганглиозидом GD2, гланглиозидом GM2, BAFF, OPGL (RANKL), миостатином, Dickkopf-1 (DKK-1), Ang2, NGF, рецептором IGF-1, фактором роста гепатоцитов (HGF), TRAIL-R2, c-Kit, B7RP-1, PSMA, NKG2D-1, белком 1 запрограммированной гибели клеток и лигандом, PD1 и PDL1, рецептором маннозы/hCGe, вирусом гепатита С, коньюгатом мезотелина dsFv[PE38, Legionella pneumophila (lly), IFN гамма, интерферон-гамма-индуцированным белком 10 (IP10), IFNAR, TALL-1, тимусным стромальным лимфопоэтином (TSLP), пропротеинконвертазой субтилизином/кексином типа 9 (PCSK9), факторами стволовых клеток, Flt-3, пептидом, связанным с геном кальцитонина (CGRP), OX40L, α4β7, специфичным к тромбоцитам (гликопротеином тромбоцитов Iib/IIIb (PAC-1), трансформирующим фактором роста бета (TFGe), бел- 24 043314 ком 3 Zona pellucida, связывающим сперматозоиды (ZP-3), TWEAK, рецептором фактора роста тромбоцитов альфа (PDGFRa), склеростином и биологически активными фрагментами или вариантами любого из вышеперечисленного.In some embodiments, the proteins may include proteins that specifically bind to one or more CD proteins, HER receptor family proteins, cell adhesion molecules, growth factors, nerve growth factors, fibroblast growth factors, transforming growth factors (TGFs), insulin-like growth factors, osteoinducing factors, insulin and insulin-related proteins, coagulating and coagulation-related proteins, colony-stimulating factors (CSF), other blood and serum proteins, blood group antigens; receptors, receptor-associated proteins, growth hormones, growth hormone receptors, T-cell receptors; neurotrophic factors, neurotrophins, relaxins, interferons, interleukins, viral antigens, lipoproteins, integrins, rheumatoid factors, immunotoxins, surface membrane proteins, transport proteins, homing receptors, addressins, regulatory proteins and immunoadhesins. In some embodiments, the proteins may include proteins that bind to one or more of the following, alone or in any combination: CD proteins, including, but not limited to, CD3, CD4, CD5, CD7, CD8, CD19, CD20, CD22 , CD25, CD30, CD33, CD34, CD38, CD40, CD70, CD123, CD133, CD138, CD171 and CD174, HER receptor family proteins, including, for example, HER2, HER3, HER4 and EGF receptor, EGFRvIII, cell adhesion molecules , such as LFA-1, Mol, p150.95, VLA-4, ICAM-1, VCAM and integrin alpha v/beta 3, growth factors, including, but not limited to, for example, vascular endothelial growth factor (VEGF); VEGFR2, growth hormone, thyroid stimulating hormone, follicle stimulating hormone, luteinizing hormone, growth hormone releasing factor, parathyroid hormone, Müllerian inhibitory factor, human macrophage inflammatory protein (MIP-1-alpha), erythropoietin (EPO), nerve growth factor such as NGF-beta, platelet-derived growth factor (PDGF), fibroblast growth factor, including, for example, aFGF and bFGF, epidermal growth factor (EGF), Cripto, transforming growth factors (TGF), including, but not limited to, TGF- α and TGF-β, including TGF-e1, TGF-e2, TGF-e3, TGF-e4 or TGF-e5, insulin-like growth factors-I and -II (IGF-I and IGF-II), des(1 -3)-IGF-I (brain IGF-I) and osteoinducing factors, insulins and insulin-related proteins, including but not limited to insulin, insulin A chain, insulin B chain, proinsulin and insulin-like factor binding proteins growth; (coagulation-related proteins such as, but not limited to, factor VIII, tissue factor, von Willebrand factor, protein C, alpha-1 antitrypsin, plasminogen activators such as urokinase and tissue plasminogen activator (t-PA), bombazine, thrombin, thrombopoietin and thrombopoietin receptor, colony-stimulating factors (CSF), including, but not limited to, M-CSF, GM-CSF and G-CSF, other blood and serum proteins, including, but not limited to, albumin, IgE and blood group antigens, receptors and receptor-associated proteins, including, for example, flk2/flt3 receptor, obesity receptor (OB), growth hormone receptors and T-cell receptors; (x) neurotrophic factors, including but not limited to restriction, bone-derived neurotrophic factor (BDNF) and neurotrophin-3, -4, -5 or -6 (NT-3, NT-4, NT-5 or NT-6); (xi) relaxin A chain, B- relaxin chain and prorelaxin, interferons, including, for example, interferons-alpha, -beta and -gamma, interleukins (IL), for example, IL-1-IL-10, IL12, IL-15, IL-17, IL- 23, IL-12/IL-23, IL-2Ra, IL1-R1, IL-6 receptor, IL-4 receptor and/or IL-13-IL-13RA2 receptors, or IL-17 receptor, IL-1RAP; (xiv) viral antigens, including, but not limited to, AIDS virus envelope antigen, lipoproteins, calcitonin, glucagon, atrial natriuretic factor, pulmonary surfactant, tumor necrosis factors alpha and beta, enkephalinase, BCMA, IgKappa, ROR-1 , ERBB2, mesothelin, RANTES (regulated upon activation, normally expressed and secreted by T cells), murine gonadotropin-associated peptide, DNase, FR-alpha, inhibin and activin, integrin, protein A or D, rheumatoid factors, immunotoxins, bone morphogenetic protein (BMP), superoxide dismutase, surface membrane proteins, decay accelerating factor (DAF), AIDS virus envelope, transport proteins, homing receptors, MIC (MIC-a, MIC-B), ULBP 1-6, EPCAM, addressins, regulatory proteins, immunoadhesins, antigen-binding proteins, somatropin, CTGF, CTLA4, eotaxin-1, MUC1, CEA, c-MET, Claudin-18, GPC-3, EPHA2, FPA, LMP1, MG7, NY-ESO-1, PSCA, ganglioside GD2, glanglioside GM2, BAFF, OPGL (RANKL), myostatin, Dickkopf-1 (DKK-1), Ang2, NGF, IGF-1 receptor, hepatocyte growth factor (HGF), TRAIL-R2, c-Kit, B7RP-1 , PSMA, NKG2D-1, programmed cell death protein 1 and ligand, PD1 and PDL1, mannose receptor/hCGe, hepatitis C virus, mesothelin conjugate dsFv[PE38, Legionella pneumophila (lly), IFN gamma, interferon gamma-induced protein 10 (IP10), IFNAR, TALL-1, thymic stromal lymphopoietin (TSLP), proprotein convertase subtilisin/kexin type 9 (PCSK9), stem cell factors, Flt-3, calcitonin gene-related peptide (CGRP), OX40L, α4β7-specific to platelets (platelet glycoprotein Iib/IIIb (PAC-1), transforming growth factor beta (TFGe), sperm-binding protein (ZP-3), TWEAK, platelet-derived growth factor receptor alpha (PDGFRa), sclerostin and biologically active fragments or variants of any of the above.
В другом варианте осуществления белки включают абциксимаб, адалимумаб, адекатумумаб, афлиберцепт, алемтузумаб, алирокумаб, анакинру, атасцепт, базиликсимаб, белимумаб, бевацизумаб, биосозумаб, блинатумомаб, брентуксимаб ведотин, бродалумаб, кантузумаб мертанзин, канакинумаб, цетуксимаб, цертолизумаб пегол, конатумумаб, даклизумаб, деносумаб, экулизумаб, эдреколомаб, эфализумаб, эпратузумаб, этанерцепт, эволокумаб, галиксимаб, ганитумаб, гемтузумаб, голимумаб, ибритумомаб тиуксетан, инфликсимаб, ипилимумаб, лерделимумаб, люмиликсимаб, lxd-кизумаб, мапатумумаб, мотесаниб дифосфат, муромонаб-CD3, натализумаб, несиритид, нимотузумаб, ниволумаб, окрелизумаб, офатумумаб, омализумаб, опрелвекин, паливизумаб, панитумумаб, пембролизумаб, пертузумаб, пекселизумаб, ранибизумаб, рилотумумаб, ритуксимаб, ромиплостим, ромосозумаб, саргамостим, тоцилизумаб, тозитумомаб, трастузумаб, устекинумаб, ведолизумаб, визилизумаб, волоциксимаб, занолимумаб, залутумумаб и биосимиляры любого из вышеперечисленного.In another embodiment, the proteins include abciximab, adalimumab, adecatumumab, aflibercept, alemtuzumab, alirocumab, anakinra, atascept, basiliximab, belimumab, bevacizumab, biosozumab, blinatumomab, brentuximab vedotin, brodalumab, cantuzumab mertansine, canakinumab, ce tuximab, certolizumab pegol, conatumumab, daclizumab , denosumab, eculizumab, edrecolomab, efalizumab, epratuzumab, etanercept, evolocumab, galiximab, ganitumab, gemtuzumab, golimumab, ibritumomab tiuxetan, infliximab, ipilimumab, lerdelimumab, lumiliximab, lxd-kizumab, mapatumumab, motesanib diphosphate , muromonab-CD3, natalizumab, nesiritide , nimotuzumab, nivolumab, ocrelizumab, ofatumumab, omalizumab, oprelvekin, palivizumab, panitumumab, pembrolizumab, pertuzumab, pexelizumab, ranibizumab, rilotumumab, rituximab, romiplostim, romosozumab, sargamostim, tocilizumab, tositumomab, trastuzumab, ustekinumab, vedolizumab, visilizumab, volociximab, zanolimumab , zalutumumab and biosimilars to any of the above.
Белки включают все вышеперечисленное и дополнительно включают антитела, содержащие 1, 2, 3, 4, 5 или 6 определяющих комплементарность областей (CDR) любого из вышеупомянутых антител. Также включены варианты, содержащие область, которая на 70% или более, в частности на 80% или более, в частности на 90% или более, еще более конкретно на 95% или более, в частности на 97% или более, в частности на 98% или более, еще более конкретно на 99% или более идентична по аминокислотной последовательности эталонной аминокислотной последовательности представляющего интерес белка. В данном отношении идентичность может быть определена с использованием разнообразного хорошо известного и легкодоступного программного обеспечения для анализа аминокислотных последовательностей. Предпочтительное программное обеспечение включает то программное обеспечение, которое реализует алгоритмы Смита-Уотермана, которые считаются удовлетворительным решением задачи поиска и выравнивания последовательностей. Могут также использоваться другие алгоритмы, в частности тогда, когда важным критерием является скорость. Обычно используемые программы для выравнивания и гомологичного соответствия ДНК, РНК и полипептидов, которые можно использовать в этой связи, включают FASTA, TFASTA, BLASTN, BLASTP, BLASTX, TBLASTN, PROSRCH, BLAZE и MPSRCH, причем последняя является реализацией алгоритма Смита-Уотермана для исполнения на массовопараллельных процессорах, изготавливаемых MasPar.Proteins include all of the above and further include antibodies containing 1, 2, 3, 4, 5 or 6 complementarity determining regions (CDRs) of any of the above antibodies. Also included are embodiments comprising a region that is 70% or more, particularly 80% or more, particularly 90% or more, even more particularly 95% or more, particularly 97% or more, particularly 98% or more, even more specifically 99% or more, identical in amino acid sequence to the reference amino acid sequence of the protein of interest. In this regard, identity can be determined using a variety of well known and readily available amino acid sequence analysis software. Preferred software includes those that implement Smith-Waterman algorithms, which are considered to be a satisfactory solution to the problem of sequence searching and alignment. Other algorithms may also be used, particularly when speed is an important criterion. Commonly used DNA, RNA and polypeptide alignment and homology matching programs that can be used in this regard include FASTA, TFASTA, BLASTN, BLASTP, BLASTX, TBLASTN, PROSRCH, BLAZE and MPSRCH, the latter being an implementation of the Smith-Waterman algorithm for execution on massively parallel processors manufactured by MasPar.
Некоторые из фигур, описанных в настоящем документе, иллюстрируют примерные блок-схемы, на которых представлены один или несколько функциональных компонентов. Следует понимать, что такие структурные схемы представлены для иллюстративных целей, и описанные и показанные устройства могут иметь дополнительные или альтернативные компоненты, или меньшее количество компонентов, чем проиллюстрировано. Дополнительно в различных вариантах осуществления компоненты (а также функциональные возможности, предоставленные соответствующими компонентами) могут быть связаны с любым подходящим компонентом или иным образом интегрированы в виде его части.Some of the figures described herein illustrate exemplary block diagrams that represent one or more functional components. It should be understood that such block diagrams are presented for illustrative purposes, and the devices described and shown may have additional or alternative components, or fewer components, than illustrated. Additionally, in various embodiments, components (as well as functionality provided by corresponding components) may be associated with or otherwise integrated as a part of any suitable component.
Варианты осуществления настоящего изобретения относятся к энергозависимому машиночитаемому носителю данных, который содержит программный код для выполнения различных действий, осуществляемых компьютером. Термин машиночитаемый носитель данных используют в данном документе для описания любого носителя, способного хранить или кодировать последовательность команд или компьютерных кодов для выполнения действий, способов и методов, описанных в данном документе. Носители и компьютерный код могут быть специально созданы и выполнены для достижения целей вариантов осуществления настоящего изобретения, или они могут быть широко известны и доступны для специалистов в области программного обеспечения. Примеры машиночитаемых носителей данных включают, но без ограничения магнитные носители, такие как жесткие диски, гибкие диски и магнитные пленки; оптические носители, такие как CD-ROM и голографические устройства; магнитно-оптические носители, такие как оптические диски; и аппаратные устройства, которые специально выполнены с возможностью хранения и исполнения программного кода, такие как ASIC, программируемые логические устройства (PLD) и устройства ROM и RAM.Embodiments of the present invention relate to a nonvolatile computer-readable storage medium that contains program code for performing various computer-operable actions. The term computer-readable storage medium is used herein to describe any medium capable of storing or encoding a sequence of instructions or computer codes for performing the acts, methods, and techniques described herein. The media and computer code may be specifically created and executed to achieve the purposes of embodiments of the present invention, or they may be generally known and available to those skilled in the software art. Examples of computer-readable storage media include, but are not limited to, magnetic media such as hard disks, floppy disks, and magnetic tapes; optical media such as CD-ROM and holographic devices; magnetic-optical media such as optical discs; and hardware devices that are specifically configured to store and execute software code, such as ASICs, programmable logic devices (PLDs), and ROM and RAM devices.
Примеры компьютерного кода включают машинный код, например написанный компилятором, и файлы, содержащие код более высокого уровня, которые исполняются компьютером за счет использования интерпретатора или компилятора. Например, вариант осуществления настоящего изобретения может быть реализован за счет использования Java, C++ или других объектно-ориентированных языков программирования и средств разработки. Дополнительные примеры компьютерного кода включают зашифрованный код и сжатый код. Более того, вариант осуществления настоящего изобретения может быть загружен в виде компьютерного программного продукта, который может быть передан с удаленного компьютера (например, серверного компьютера) на запрашивающий компьютер (например, на компьютер клиента или другой серверный компьютер) посредством канала передачи данных. Другой вариант осуществления настоящего изобретения может быть реализован в виде кабельной схемы вместо программных команд, исполняемых компьютерами, или в сочетании с ними.Examples of computer code include machine code, such as that written by a compiler, and files containing higher level code that are executed by a computer through the use of an interpreter or compiler. For example, an embodiment of the present invention may be implemented through the use of Java, C++, or other object-oriented programming languages and development tools. Additional examples of computer code include encrypted code and compressed code. Moreover, an embodiment of the present invention can be downloaded as a computer program product that can be transmitted from a remote computer (eg, a server computer) to a requesting computer (eg, a client computer or another server computer) via a data link. Another embodiment of the present invention may be implemented as a cable circuit instead of or in combination with software instructions executed by computers.
В контексте данного документа формы существительного единственного числа также могут обо-In the context of this document, singular noun forms can also denote
Claims (43)
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US62/749,359 | 2018-10-23 | ||
US62/833,044 | 2019-04-12 | ||
US62/864,565 | 2019-06-21 |
Publications (1)
Publication Number | Publication Date |
---|---|
EA043314B1 true EA043314B1 (en) | 2023-05-12 |
Family
ID=
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220128474A1 (en) | Automatic calibration and automatic maintenance of raman spectroscopic models for real-time predictions | |
US11609120B2 (en) | Automated control of cell culture using Raman spectroscopy | |
Berry et al. | Quick generation of R aman spectroscopy based in‐process glucose control to influence biopharmaceutical protein product quality during mammalian cell culture | |
Neuber et al. | Characterization and screening of IgG binding to the neonatal Fc receptor | |
Sokolov et al. | Sequential multivariate cell culture modeling at multiple scales supports systematic shaping of a monoclonal antibody toward a quality target | |
Oitate et al. | Prediction of human pharmacokinetics of therapeutic monoclonal antibodies from simple allometry of monkey data | |
WO2016196315A2 (en) | Cell culture methods and systems | |
Yang et al. | Multi‐criteria manufacturability indices for ranking high‐concentration monoclonal antibody formulations | |
Kaur | Stability testing in monoclonal antibodies | |
Kozma et al. | On-line prediction of the glucose concentration of CHO cell cultivations by NIR and Raman spectroscopy: comparative scalability test with a shake flask model system | |
US20150204884A1 (en) | Methods of evaluating and making biologics | |
Schiel et al. | Monoclonal antibody therapeutics: the need for biopharmaceutical reference materials | |
TW202326113A (en) | Deep learning-based prediction using spectroscopy | |
WO2020246617A1 (en) | Information processing system, information processing method, program, and method for producing antigen-binding molecule or protein. | |
Bolisetty et al. | Enabling speed to clinic for monoclonal antibody programs using a pool of clones for IND-enabling toxicity studies | |
EA043314B1 (en) | AUTOMATIC CALIBRATION AND AUTOMATIC MAINTENANCE OF RAMAN SPECTROSCOPIC MODELS FOR REAL-TIME PREDICTIONS | |
CN113924355A (en) | Raman spectrum integrated perfusion cell culture system for monitoring and automatically controlling perfusion cell culture | |
TWI844570B (en) | Automatic calibration and automatic maintenance of raman spectroscopic models for real-time predictions | |
Wang et al. | Automated high-throughput flow cytometry for high-content screening in antibody development | |
US20200339663A1 (en) | Antibody variants | |
Wang et al. | Generation and characterization of a unique reagent that recognizes a panel of recombinant human monoclonal antibody therapeutics in the presence of endogenous human IgG | |
Aubrey et al. | Antibody fragments humanization: Beginning with the end in mind | |
US20230071627A1 (en) | Multivariate Bracketing Approach for Sterile Filter Validation | |
JP2021523349A (en) | Systems and methods for quantifying and modifying protein viscosities | |
Beck et al. | Therapeutic antibodies and related products: choosing the right structure for success |