DE112020002372T5 - Schätzung einer realisierbarkeit von merkmalsvektoren - Google Patents

Schätzung einer realisierbarkeit von merkmalsvektoren Download PDF

Info

Publication number
DE112020002372T5
DE112020002372T5 DE112020002372.9T DE112020002372T DE112020002372T5 DE 112020002372 T5 DE112020002372 T5 DE 112020002372T5 DE 112020002372 T DE112020002372 T DE 112020002372T DE 112020002372 T5 DE112020002372 T5 DE 112020002372T5
Authority
DE
Germany
Prior art keywords
candidate molecule
vector
rings
node
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112020002372.9T
Other languages
English (en)
Inventor
Toshiyuki Hama
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE112020002372T5 publication Critical patent/DE112020002372T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/10Analysis or design of chemical reactions, syntheses or processes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/80Data visualisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C60/00Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Analytical Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

Eine Realisierbarkeit von Merkmalsvektoren wird durch ein Erzeugen eines Zielstrukturvektors, der Anzahlen einer Mehrzahl von Teilstrukturen darstellt, aus einem Merkmalsvektor eines Molekülkandidaten geschätzt, wobei mithilfe zumindest des Zielstrukturvektors ermittelt wird, ob eine Molekülstruktur des Molekülkandidaten realisierbar ist.

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Erfindung bezieht sich auf eine Schätzung einer Realisierbarkeit von Merkmalsvektoren.
  • HINTERGRUND
  • Die Informationstechnologie kann bei der Suche nach neuen Materialien eingesetzt werden, die Zieleigenschaften erfüllen. Es bestehen jedoch Ineffizienzen, die Zeit und Geld kosten können.
  • Bei der Materialfindung haben IT-Technologien die Geschwindigkeit beim Finden neuer Materialien mit erforderlichen Eigenschaften beschleunigt. Das umgekehrte Problem, das darin besteht, ein neues Material zu finden, das Zieleigenschaften erfüllt, ist der schwierigste und wichtigste Teil der Materialfindung. TRL entwickelt in einem AMD(Accelerated Material Discovery, beschleunigte Materialfindung)-Projekt von RFI Werkzeuge zur Materialfindung. Vorhandene Moleküle werden analysiert, und ein Regressionsmodell wird aus aus den Molekülen extrahierten Merkmalsvektoren gewonnen. Mithilfe des gewonnenen Regressionsmodells werden Merkmalsvektoren geschätzt, die erforderliche Eigenschaften erfüllen, und aus den geschätzten Merkmalsvektoren wird ein Molekülgenerator erzeugt. Bei der Merkmalsvektorschätzung (3) kann ein vielversprechender Merkmalsvektor (ƒv) gefunden werden, indem ein numerisches Optimierungsproblem zum Minimieren der Differenz zwischen Zieleigenschaftswerten (V_p) und geschätzten Eigenschaftswerten durch das Regressionsmodell (f) gelöst wird. ƒv= argmin┬(v ∈ S) | V_p-ƒ(v) | Wenn der Suchraum (S) nicht angemessen eingeschränkt wird, ist in vielen Fällen keine chemische Struktur vorhanden, die den gewonnenen Merkmalsvektor erfüllt. Da die Erzeugung der Molekülstruktur im Vergleich mit der Merkmalsschätzung mehr Zeit in Anspruch nimmt, ist ein Vermeiden eines Merkmalsvektors ohne entsprechende chemische Struktur von großer Bedeutung, um die Leistungsfähigkeit eines Materialfindungsprozesses zu verbessern.
  • Daher besteht nach dem Stand der Technik ein Bedarf, das oben genannte Problem zu lösen.
  • KURZDARSTELLUNG
  • Unter einem weiteren Aspekt betrachtet, stellt die vorliegende Erfindung eine Vorrichtung für ein Trainieren eines neuronalen Netzes bereit, wobei die Vorrichtung einen Prozessor und ein oder mehrere durch einen Computer lesbare Medien aufweist, die gemeinsam Anweisungen enthalten, die, wenn sie durch den Prozessor ausgeführt werden, bewirken, dass der Prozessor Operationen ausführt, die enthalten: ein Erzeugen eines Zielstrukturvektors, der Anzahlen einer Mehrzahl von Teilstrukturen darstellt, aus einem Merkmalsvektor eines Molekülkandidaten; und ein Ermitteln mithilfe zumindest des Zielstrukturvektors, ob eine Molekülstruktur des Molekülkandidaten realisierbar ist.
  • Unter einem weiteren Aspekt betrachtet, stellt die vorliegende Erfindung ein Computerprogrammprodukt für ein Trainieren eines neuronalen Netzes bereit, wobei das Computerprogrammprodukt ein durch einen Computer lesbares Speichermedium aufweist, das durch eine Verarbeitungsschaltung lesbar ist und das Anweisungen zum Ausführen durch die Verarbeitungsschaltung zum Durchführen eines Verfahrens zum Durchführen der Schritte der Erfindung speichert.
  • Unter einem weiteren Aspekt betrachtet, stellt die vorliegende Erfindung ein Computerprogramm bereit, das in einem durch einen Computer lesbaren Medium gespeichert ist und in den internen Speicher eines Digitalcomputers ladbar ist, das Abschnitte eines Software-Codes aufweist, um die Schritte der Erfindung durchzuführen, wenn das Programm auf einem Computer ausgeführt wird.
  • Gemäß einem Aspekt der vorliegenden Erfindung wird ein auf einem Computer implementiertes Verfahren bereitgestellt, das ein Erzeugen eines Zielstrukturvektors, der Anzahlen einer Mehrzahl von Teilstrukturen darstellt, aus einem Merkmalsvektor eines Molekülkandidaten enthält, wobei mithilfe zumindest des Zielstrukturvektors ermittelt wird, ob eine Molekülstruktur des Molekülkandidaten realisierbar ist. Gemäß diesem Aspekt können die nicht realisierbaren Merkmalsvektoren erkannt werden und auf diese Weise der Umfang an Rechen-Ressourcen und Zeit verringert werden, die für eine Materialfindung benötigt werden.
  • Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird optional das Verfahren des vorhergehenden Aspekts bereitgestellt, wobei die Mehrzahl von Teilstrukturen enthält: eine erste Struktur, die eine mit dem einen Knoten verbundene Kante aufweist, eine zweite Struktur, die zwei mit dem einen Knoten verbundene Kanten aufweist, eine dritte Struktur, die drei mit dem einen Knoten verbundene Kanten aufweist, und eine vierte Struktur, die vier mit dem einen Knoten verbundene Kanten aufweist. Gemäß diesem Aspekt kann die Realisierbarkeit eines Merkmalsvektors mit 4 Typen von Teilstrukturen korrekt ermittelt werden.
  • Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird optional das Verfahren des vorhergehenden Aspekts bereitgestellt, das des Weiteren enthält: ein Erfassen einer Anzahl von Atomen und einer Anzahl von Ringen des Molekülkandidaten aus dem Merkmalsvektor des Molekülkandidaten, wobei das Ermitteln mithilfe zumindest des Zielstrukturvektors, ob eine Molekülstruktur des Molekülkandidaten realisierbar ist, weiter mithilfe der Anzahl von Atomen und der Anzahl von Ringen des Molekülkandidaten durchgeführt wird. Gemäß diesem Aspekt kann die Realisierbarkeit von Merkmalsvektoren mit Informationen über die Anzahl von Atomen und Ringen in dem Molekülkandidaten korrekt ermittelt werden.
  • Der vorhergehende Aspekt kann darüber hinaus eine Vorrichtung, die dazu ausgebildet ist, das auf einem Computer implementierte Verfahren durchzuführen, und ein Computerprogrammprodukt enthalten, das Anweisungen speichert, die auf einem durch einen Computer lesbaren Medium oder programmierbaren Schaltungen verkörpert ist, die, wenn sie durch einen Prozessor oder die programmierbaren Schaltungen ausgeführt werden, bewirken, dass der Prozessor oder die programmierbaren Schaltungen das auf einem Computer implementierte Verfahren durchführen. Der Abschnitt der Kurzdarstellung beschreibt nicht zwingend sämtliche Merkmale der Ausführungsformen der vorliegenden Erfindung. Ausführungsformen der vorliegenden Erfindung können auch Teilkombinationen der oben beschriebenen Merkmale enthalten.
  • Figurenliste
  • Die vorliegende Erfindung wird im Folgenden lediglich beispielhaft unter Bezugnahme auf bevorzugte Ausführungsformen beschrieben, wie sie in den folgenden Figuren veranschaulicht werden:
    • 1 stellt einen beispielhaften Rahmen gemäß einer Ausführungsform der vorliegenden Erfindung dar.
    • 2 stellt eine beispielhafte Gestaltung einer Vorrichtung 10 gemäß einer Ausführungsform der vorliegenden Erfindung dar.
    • 3 stellt einen funktionellen Ablauf gemäß einer Ausführungsform der vorliegenden Erfindung dar.
    • 4 stellt einen Merkmalsvektor 400 gemäß einer Ausführungsform der vorliegenden Erfindung dar.
    • 5 stellt Teilstrukturen gemäß einer Ausführungsform der vorliegenden Erfindung dar.
    • 6 stellt einen Teilablauf von S100 in dem Ablauf von 3 gemäß einer Ausführungsform der vorliegenden Erfindung dar.
    • 7 stellt die Mehrzahl von Teilstrukturen gemäß einer Ausführungsform der vorliegenden Erfindung dar.
    • 8 stellt den Anfangsgraphen und einen entsprechenden Strukturvektor gemäß einer Ausführungsform der vorliegenden Erfindung dar.
    • 9 stellt Operationsvektoren von Aktionen gemäß einer Ausführungsform der vorliegenden Erfindung dar.
    • 10 stellt Operationsvektoren von Basisaktionen gemäß einer Ausführungsform der vorliegenden Erfindung dar.
    • 11 stellt einen beispielhaften Erweiterungsprozess gemäß einer Ausführungsform der vorliegenden Erfindung dar.
    • 12 stellt gespeicherte Strukturvektoren für Paare von Anzahlen von Knoten und Ringen gemäß einer Ausführungsform der vorliegenden Erfindung dar.
    • 13 stellt Ringerzeugungsaktionen gemäß einer Ausführungsform der vorliegenden Erfindung dar.
    • 14 stellt einen Bereich einer Anzahl von Ringen mit Ringerzeugungsaktionen gemäß einer Ausführungsform der vorliegenden Erfindung dar.
    • 15 stellt einen Teilablauf von S300 in dem Ablauf von 3 gemäß einer Ausführungsform der vorliegenden Erfindung dar.
    • 16 stellt eine beispielhafte Hardware-Gestaltung eines Computers, der als System fungiert, gemäß einer Ausführungsform der vorliegenden Erfindung dar.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Im Folgenden werden beispielhafte Ausführungsformen der vorliegenden Erfindung beschrieben. Die beispielhaften Ausführungsformen sollen die Erfindung gemäß den Ansprüchen nicht einschränken, und die Kombinationen der in den Ausführungsformen beschriebenen Merkmale sind nicht zwingend wesentlich für die Erfindung.
  • 1 stellt einen beispielhaften Rahmen gemäß einer Ausführungsform der vorliegenden Erfindung dar. In dem Rahmen wird eine Molekülstruktur 100 durch Merkmalscodierung in einen Merkmalsvektor 200 umgewandelt, bei dem es sich um eine latente Darstellung der Molekülstruktur handeln kann. Aus dem Merkmalsvektor 200 und einer Eigenschaft der Molekülstruktur 100 wird ein Regressionsmodell trainiert, so dass das Regressionsmodell Eigenschaften der Molekülstruktur 100 aus dem Merkmalsvektor 200 vorhersagt.
  • Anschließend kann mithilfe des trainierten Regressionsmodells ein Merkmalsvektor 200 gefunden werden, der eine Zieleigenschaft 300 ergibt. Bei einer Ausführungsform kann ein vielversprechender Merkmalsvektor fv gefunden werden, indem ein numerisches Optimierungsproblem zum Minimieren der Differenz zwischen den Zieleigenschaftswerten Vp und geschätzten Eigenschaftswerten durch das Regressionsmodell f gelöst wird, wie in der folgenden Gleichung (1) dargestellt. fv=argmin v S | V p f ( v ) |
    Figure DE112020002372T5_0001
  • Aus dem Merkmalsvektor fv kann mithilfe eines Molekülgenerators eine vielversprechende Molekülstruktur erzeugt werden. Bisweilen kann es unmöglich sein, eine Molekülstruktur aus dem gefundenen Merkmalsvektor zu erzeugen. Um Rechen-Ressourcen und Zeit zum Gewinnen der vielversprechenden Molekülstruktur einzusparen, kann ein Regressor nicht realisierbare Merkmalsvektoren aus dem Suchraum S in Gleichung (1) beseitigen. Im Folgenden wird eine Vorrichtung zum Erkennen von nicht realisierbaren Merkmalsvektoren beschrieben.
  • 2 stellt eine beispielhafte Gestaltung einer Vorrichtung 10 gemäß einer Ausführungsform der vorliegenden Erfindung dar. Die Vorrichtung 10 kann nicht realisierbare Merkmalsvektoren erkennen, die nicht in Molekülstrukturen umgewandelt werden können. Dadurch kann die Vorrichtung 10 die Menge an Rechen-Ressourcen und/oder Zeit zum Gewinnen von vielversprechenden Molekülstrukturen verringern.
  • Die Vorrichtung 10 kann einen Prozessor und/oder programmierbare Schaltungen enthalten. Die Vorrichtung 10 kann des Weiteren ein oder mehrere durch einen Computer lesbare Medien enthalten, die gemeinsam Anweisungen enthalten. Die Anweisungen können in dem durch einen Computer lesbaren Medium und/oder den programmierbaren Schaltungen verkörpert sein. Die Anweisungen können, wenn sie durch den Prozessor oder die programmierbaren Schaltungen ausgeführt werden, bewirken, dass der Prozessor oder die programmierbaren Schaltungen als eine Mehrzahl von Funktionsabschnitten arbeiten.
  • Dadurch kann die Vorrichtung 10 als einen Speicherabschnitt 100, einen Gewinnungsabschnitt 110, einen Erzeugungsabschnitt 120, einen Erfassungsabschnitt 130, einen Durchzählabschnitt 140 und einen Ermittlungsabschnitt 150 enthaltend betrachtet werden.
  • Der Speicherabschnitt 100 speichert Informationen, die für die Verarbeitung verwendet werden, die die Vorrichtung 10 durchführt. Der Speicherabschnitt 100 kann darüber hinaus eine Vielfalt von Daten/Anweisungen speichern, die für Operationen der Vorrichtung 10 verwendet werden. Ein oder mehrere sonstige Elemente in der Vorrichtung 10 (z.B. der Gewinnungsabschnitt 110, der Erzeugungsabschnitt 120, der Erfassungsabschnitt 130, der Durchzählabschnitt 140 und der Ermittlungsabschnitt 150) können gegebenenfalls direkt oder über den Speicherabschnitt 100 Daten austauschen.
  • Der Speicherabschnitt 100 kann durch einen flüchtigen oder nichtflüchtigen Speicher der Vorrichtung 10 implementiert sein. Bei einigen Ausführungsformen kann der Speicherabschnitt 100 einen oder mehrere Merkmalsvektoren, eine Tabelle, die Strukturvektoren, die Anzahl von Atomen und/oder Ringen eines Molekülkandidaten und sonstige damit in Zusammenhang stehende Daten enthält, speichern.
  • Der Gewinnungsabschnitt 110 gewinnt einen Merkmalsvektor eines Molekülkandidaten. Bei einer Ausführungsform kann der Gewinnungsabschnitt 110 den Merkmalsvektor aus einem Regressor gewinnen, der durch die Vorrichtung 10 oder eine weitere Vorrichtung implementiert sein kann. Der Merkmalsvektor kann eine Mehrzahl von Elementen enthalten und kann verschiedene Eigenschaften des Molekülkandidaten angeben.
  • Bei einer Ausführungsform kann der Merkmalsvektor zumindest zum Teil in einer automatischen datengesteuerten Weise wie zum Beispiel ein faltendes neuronales Netz definiert sein. Bei einer weiteren Ausführungsform kann er zumindest zum Teil durch menschliche Erfahrung und/oder Wissen vorab definiert sein. Einzelheiten des Merkmalsvektors werden im Folgenden erläutert.
  • Der Gewinnungsabschnitt 110 kann sonstige Daten gewinnen, die für Operationen der Vorrichtung 10 benötigt werden. Der Gewinnungsabschnitt 110 kann den Merkmalsvektor für den Erzeugungsabschnitt 120 und den Erfassungsabschnitt 130 bereitstellen. Bei einer Ausführungsform kann der Merkmalsvektor die Anzahlen von Teilstrukturen in dem Molekülkandidaten darstellen. Einzelheiten des Merkmalsvektors werden im Folgenden erläutert.
  • Der Erzeugungsabschnitt 120 kann einen Zielstrukturvektor aus dem Merkmalsvektor des Molekülkandidaten erzeugen. Der Zielstrukturvektor kann Anzahlen einer Mehrzahl von Teilstrukturen in dem Molekülkandidaten darstellen. Bei einer Ausführungsform kann der Erzeugungsabschnitt 120 einen Fingerabdruck des Molekülkandidaten als den Zielstrukturvektor aus dem Merkmalsvektor extrahieren.
  • Der Erzeugungsabschnitt 120 kann des Weiteren einen oder mehrere sekundäre Strukturvektoren erzeugen, die größer als der Zielstrukturvektor sind. Der Erzeugungsabschnitt 120 kann den Zielstrukturvektor und/oder den einen oder die mehreren sekundären Strukturvektoren für den Ermittlungsabschnitt 140 bereitstellen.
  • Der Erfassungsabschnitt 130 kann eine Anzahl von Atomen und eine Anzahl von Ringen des Molekülkandidaten aus dem Merkmalsvektor des Molekülkandidaten erfassen. Der Erfassungsabschnitt 130 kann des Weiteren eine Anzahl von Atomen des Molekülkandidaten für jede Valenz aus dem Merkmalsvektor des Molekülkandidaten erfassen. Der Erfassungsabschnitt 130 kann die erfassten Informationen für den Ermittlungsabschnitt 150 bereitstellen.
  • Der Durchzählabschnitt 140 kann realisierbare Strukturvektoren durchzählen. Bei einer Ausführungsform kann der Durchzählabschnitt 140 realisierbare Strukturvektoren für jedes Paar der Anzahl von Knoten und Ringen durchzählen. Bei einer Ausführungsform kann der Durchzählabschnitt 140 in einer weiteren Vorrichtung außerhalb der Vorrichtung 10 implementiert sein und kann vorab realisierbare Strukturvektoren vorbereiten. Der Durchzählabschnitt 140 kann die durchgezählten realisierbaren Strukturvektoren direkt oder über den Speicherabschnitt 100 für den Ermittlungsabschnitt 150 bereitstellen.
  • Der Ermittlungsabschnitt 150 kann mithilfe zumindest des Zielstrukturvektors ermitteln, ob eine Molekülstruktur des Molekülkandidaten realisierbar ist. Bei einer Ausführungsform kann der Ermittlungsabschnitt 150 des Weiteren den einen oder die mehreren sekundären Strukturvektoren, die gleich wie oder größer als der Zielstrukturvektor sind, zum Ermitteln der Realisierbarkeit verwenden.
  • Bei einigen Ausführungsformen kann realisierbar als herstellbar definiert sein oder kann in einer stabilen Form vorkommen. Wenn ein Molekülkandidat realisierbar ist, kann das Molekül möglicherweise hergestellt werden oder in der Natur vorkommen. Wenn ein Molekülkandidat nicht realisierbar ist, kann der Molekülkandidat nicht hergestellt werden oder kann nicht in der Natur vorkommen.
  • Bei einer Ausführungsform kann der Ermittlungsabschnitt 150 des Weiteren die Anzahl von Atomen und die Anzahl von Ringen des Molekülkandidaten zum Ermitteln der Realisierbarkeit verwenden. Bei einer Ausführungsform kann der Ermittlungsabschnitt 150 des Weiteren die Anzahl von Atomen des Molekülkandidaten für jede Valenz zum Ermitteln der Realisierbarkeit verwenden.
  • Der Ermittlungsabschnitt 150 kann als Reaktion darauf, dass der Zielstrukturvektor in einem vorab definierten Raum enthalten ist, ermitteln, dass die Molekülstruktur des Molekülkandidaten realisierbar ist.
  • Bei einer Ausführungsform kann der Ermittlungsabschnitt 150 als Reaktion darauf, dass der Zielstrukturvektor in einem vorab definierten Raum, der der Anzahl von Atomen und der Anzahl von Ringen des Molekülkandidaten entspricht, enthalten ist, ermitteln, dass die Molekülstruktur des Molekülkandidaten realisierbar ist.
  • Der vorab definierte Raum kann durch die realisierbaren Strukturvektoren definiert sein, die durch den Durchzählabschnitt 140 durchgezählt worden sind. Bei einer Ausführungsform ist der vorab definierte Raum, der der Anzahl von Atomen und der Anzahl von Ringen des Molekülkandidaten entspricht, durch die durchgezählten realisierbaren Strukturvektoren definiert.
  • 3 stellt einen funktionellen Ablauf gemäß einer Ausführungsform der vorliegenden Erfindung dar. Die vorliegende Ausführungsform beschreibt ein Beispiel, in dem eine Vorrichtung wie zum Beispiel die Vorrichtung 10 Operationen von S100 bis S300 durchführt, wie in 3 dargestellt, um eine Realisierbarkeit eines Merkmalsvektors eines Molekülkandidaten zu überprüfen.
  • In S100 kann ein Durchzählabschnitt wie zum Beispiel der Durchzählabschnitt 140 realisierbare Strukturvektoren durchzählen. Einzelheiten der Operation von S100 werden im Hinblick auf 6 weiter beschrieben.
  • In S200 kann ein Gewinnungsabschnitt wie zum Beispiel der Gewinnungsabschnitt 110 einen Merkmalsvektor eines Molekülkandidaten gewinnen. Der Merkmalsvektor kann eine Angabe enthalten, ob der Molekülkandidat eine oder mehrere Einheitsstrukturen enthält. Der Merkmalsvektor kann darüber hinaus eine Anzahl von Atomen und eine Anzahl von Ringen in dem Molekülkandidaten angeben. Im Folgenden kann der Merkmalsvektor des Molekülkandidaten als „Zielmerkmalsvektor“ bezeichnet werden.
  • In S300 kann eine Vorrichtung wie zum Beispiel die Vorrichtung 10 in 2 eine Realisierbarkeit des Merkmalsvektors des Molekülkandidaten überprüfen. Der Vorrichtungsabschnitt kann die in S100 vorbereiteten realisierbaren Strukturvektoren und den in S200 gewonnenen Merkmalsvektor verwenden. Einzelheiten der Operation von S300 werden im Hinblick auf 15 weiter beschrieben.
  • 4 stellt einen Merkmalsvektor 400 gemäß einer Ausführungsform der vorliegenden Erfindung dar. Bei einer Ausführungsform kann der Merkmalsvektor 400 einen datengesteuerten Merkmalsabschnitt 410 und einen vordefinierten Bauteil-Anzahlenabschnitt 420 enthalten. Bei einer Ausführungsform kann es sich bei dem Merkmalsvektor 400 um eine Verkettung des datengesteuerten Merkmalsabschnitts 410 und des vordefinierten Bauteil-Anzahlenabschnitts 420 handeln.
  • Der datengesteuerte Merkmalsabschnitt 410 kann eine Anzahl von Einheitsstrukturen des Moleküls darstellen. Dadurch kann der datengesteuerte Merkmalsabschnitt 410 durch Ignorieren von Unterschieden von Atomen und/oder Bindungen eine Struktur des Moleküls darstellen.
  • Hier wird ein Beispiel für eine Definition des Merkmalsvektors erläutert. M ={m1, m2,..., mN} stelle einen Satz von Molekülstrukturen in einem gegebenen Datensatz für Molekülkandidaten dar. Eine beliebige Molekülstruktur kann einen Satz von kleineren Einheitsstrukturen (die auch als „Teilstrukturen“ bezeichnet werden können) enthalten, der als S = {s1, s2,...} dargestellt wird.
  • Dies bedeutet, dass dadurch, dass eine Molekülstruktur und eine Teilstruktur als Graphen betrachtet werden, die aus Knoten (Atomen) und Kanten (chemische Bindungen) bestehen, s ein Teilgraph von m sein kann. Bei einem Molekül einer nten Probe mn kann ein Satz von Teilstrukturen, die das Molekül bilden, als S(n) ={s1, s2,...} dargestellt werden. Hier kann angenommen werden, dass S(n) ein erschöpfender Satz ist, der in mn enthalten ist. Das heißt, S(n) kann sämtliche der Teilstrukturen enthalten, von denen das Minimum ein Atom ist und das Maximum das Molekül selbst ist, und kann daher die vollständige Sammlung von Teilstrukturen sein, die in dem Molekül mn enthalten ist.
  • Als Nächstes wird die Anzahl von Teilstrukturen in einem Molekül gezählt. ND(m, s) bezeichne die Anzahl von s, die in m vorkommen. Ein Beispiel für ein Molekül mn, einen Satz von Teilstrukturen S(n) und Anzahlen von diesen ND(mn, Si (n)) wird in 5 dargestellt. In 5 werden Wasserstoff(H)- und Kohlenstoff(C)-Atome nicht ausdrücklich dargestellt, und Teilstrukturen werden zum Teil dargestellt. Ein erschöpfender Satz von Teilstrukturen SFULL für einen gegebenen Molekülsatz M kann erzeugt werden. Dieser Satz wird durch eine Gleichung (2) im Folgenden gewonnen, S F u l l = U i = 1 N S ( i )
    Figure DE112020002372T5_0002
    wobei N eine Anzahl von Proben von Molekülen bezeichnet. Durch Erweitern von Elementen von SFULL wie S1 FULL, S2 FULL... und Verwenden der Definition von ND(m, s) wird ein Vektor für ein Molekül mn durch eine Gleichung (3) im Folgenden definiert, x D ( n ) = ( N D ( m n , S 1 F u l l ) , N D ( m n , S 2 F u l l ) , )
    Figure DE112020002372T5_0003
  • Von seiner Definition her stellt XD (n) topologische Merkmale einer Molekülstruktur durch Einbeziehen von Anzahlen sämtlicher Teilgraphen dar, die in mn vorkommen, da er jedoch erschöpfend ist, enthalten seine Informationen eine erhebliche Redundanz. Beispielsweise kommen die meisten der Teilstrukturen in SFULL selbst in dem vollständigen Molekülsatz M nur einmal oder wenige Male vor; daher ist es möglicherweise nicht passend, sie alle zu verwenden.
  • Um nur die Teilstrukturen auszuwählen, die sich auf die Zieleigenschaft auswirken, kann eine Merkmalsauswahl an diesen durchgeführt werden. Wenn die Zieleigenschaft als y bezeichnet wird, kann ein LASSO(Least Absolute Shrinkage and Selection Operator, kleinster absoluter Schrumpfungs- und Auswahloperator)-Regressionsmodell L: xD ↦ y erzeugt werden. Durch Abstimmen des Hyperparameters (Grad eines L1-Strafterms) und Festlegen eines Schwellenwerts Wth für den absoluten Wert des Regressionskoeffizienten |W| kann das System wichtige Teilstrukturen auswählen. Der Satz von ausgewählten Teilstrukturen kann als SSelect und der entsprechende Merkmalsvektor als =xD Select bezeichnet werden. xD Select kann als der datengesteuerte Merkmalsabschnitt 410 des Merkmalsvektors in dem Molekülkandidaten verwendet werden. Bei einer Ausführungsform kann SSelect lediglich eine kleine Struktur enthalten, die höchstens wenige Atome (z.B. 4 bis 5 Atome) als die Teilstrukturen enthält.
  • Der vordefinierte Bauteil-Anzahlenabschnitt 420 kann Informationen über Bauteile des Molekülkandidaten enthalten. Bei einer Ausführungsform kann der vordefinierte Bauteil-Anzahlenabschnitt 420 Informationen über den Backbone, die Atome und/oder die Bindungen des Molekülkandidaten enthalten.
  • Die Information über den Backbone kann eine Anzahl von Schweratomen und n-gliedrigen Ringen (z.B. Polygone mit n Seiten) in dem Molekülkandidaten enthalten. Bei den Schweratomen kann es sich um andere Atome als Wasserstoff (H) handeln, und sie können in einem Graphen dargestellten Knoten entsprechen.
  • Die Informationen über die Atome können eine Anzahl von spezifischen Atomen wie zum Beispiel Sauerstoff (O), Stickstoff (N), Schwefel (S) usw. enthalten. Die Informationen über die Atome können des Weiteren eine Anzahl von Kohlenstoff(C)-Atomen enthalten. Die Informationen über die Atome können des Weiteren eine Anzahl von Wasserstoff(H)-Atomen enthalten.
  • Bei einer Ausführungsform können die Informationen über die Bindungen eine Anzahl von Doppelbindungen und Dreifachbindungen enthalten. Bei einer Ausführungsform können die Informationen über die Bindungen des Weiteren eine Anzahl von Ringen wie zum Beispiel eine Anzahl von alicyclischen Ringen und/oder eine Anzahl von aromatischen Ringen enthalten.
  • 6 stellt einen Teilablauf von S100 in dem Ablauf von 3 gemäß einer Ausführungsform der vorliegenden Erfindung dar. Ein Durchzählabschnitt wie zum Beispiel der Durchzählabschnitt 140 kann Operationen von S110 bis S170 von 6 in der Operation S100 von 3 durchführen.
  • In S110 kann der Durchzählabschnitt 140 einen Strukturvektor eines Anfangsgraphen vorbereiten. Der Anfangsgraph kann zwei Knoten und eine Kante enthalten, die die beiden Knoten verbindet.
  • Der Strukturvektor kann die Anzahlen einer Mehrzahl von Teilstrukturen in dem Anfangsgraphen darstellen. Bei den Teilstrukturen kann es sich um Fingerstrukturen handeln. Bei einer Ausführungsform kann die Mehrzahl von Teilstrukturen Strukturen enthalten, die unterschiedliche Anzahlen von Kanten aufweisen, die mit einem Knoten verbunden sind.
  • Bei einer spezifischen Ausführungsform kann die Mehrzahl von Teilstrukturen eine erste Struktur, die eine mit dem einen Knoten verbundene Kante aufweist, eine zweite Struktur, die zwei mit dem einen Knoten verbundene Kanten aufweist, eine dritte Struktur, die drei mit dem einen Knoten verbundene Kanten aufweist, und eine vierte Struktur aufweisen, die vier mit dem einen Knoten verbundene Kanten aufweist.
  • 7 stellt die Mehrzahl von Teilstrukturen gemäß einer Ausführungsform der vorliegenden Erfindung dar. In 7 enthält die Mehrzahl von Teilstrukturen die erste Struktur 710, die zweite Struktur 720, die dritte Struktur 730 und die vierte Struktur 740. Ein (durch einen schwarzen Punkt dargestellter) Zentralknoten in der ersten Struktur 710 kann als x1 bezeichnet werden, ein (durch einen schwarzen Punkt dargestellter) Zentralknoten in der zweiten Struktur 720 kann als x2 bezeichnet werden, ein (durch einen schwarzen Punkt dargestellter) Zentralknoten in der dritten Struktur 730 kann als x3 bezeichnet werden, und ein (durch einen schwarzen Punkt dargestellter) Zentralknoten in der vierten Struktur 740 kann als x4 bezeichnet werden.
  • Der Strukturvektor eines Graphen kann als Vektor (x1, x2, x3, x4) dargestellt werden, wobei x1 eine Anzahl von Knoten darstellt, die in dem Graphen als der Zentralknoten von x1 klassifiziert ist, x2 eine Anzahl von Knoten darstellt, die in dem Graphen als der Zentralknoten von x2 klassifiziert ist, x3 eine Anzahl von Knoten darstellt, die in dem Graphen als der Zentralknoten von x3 klassifiziert ist, und x4 eine Anzahl von Knoten darstellt, die in dem Graphen als der Zentralknoten von x4 klassifiziert ist.
  • 8 stellt den Anfangsgraphen und einen entsprechenden Strukturvektor gemäß einer Ausführungsform der vorliegenden Erfindung dar. Wie in 8 dargestellt, enthält der Anfangsgraph 800 zwei Knoten, die beide als der Zentralknoten in x1 in 7 betrachtet werden können. Daher kann der Durchzählabschnitt den Strukturvektor (2, 0, 0, 0) des Anfangsgraphen 800 bereitstellen.
  • In S110 kann der Durchzählabschnitt die Anzahl von Knoten und die Anzahl von Ringen des Anfangsgraphen zählen. Der Anfangsgraph 800 in 8 kann als zwei Knoten enthaltend betrachtet werden. Der Anfangsgraph 800 enthält keinen Ring. Daher kann der Durchzählabschnitt „2“ als Anzahl von Knoten und „0“ als Anzahl von Ringen des Anfangsgraphen 800 zählen.
  • Nach der Operation von S110 kann der Durchzählabschnitt eine Schleife von S130 bis S170 iterieren. Dadurch kann der Durchzählabschnitt einen Graphen aus dem Anfangsgraphen entwickeln.
  • In S130 kann der Durchzählabschnitt einen Graphen erweitern. Der Durchzählabschnitt kann einen neuen Knoten zu dem Graphen hinzufügen und/oder einen neuen Ring in dem Graphen ausbilden, um den Graphen zu erweitern.
  • Bei einer Ausführungsform kann der Durchzählabschnitt einen Graphen durch Durchführen einer Aktion an einem Strukturvektor des Graphen erweitern. Im Folgenden kann ein zu erweiternder Graph als „Zielgraph“ bezeichnet werden und kann ein Strukturvektor des Zielgraphen als „Zielstrukturvektor“ bezeichnet werden. Bei einer Ausführungsform kann der Durchzählabschnitt einen Operationsvektor zu dem Zielstrukturvektor hinzufügen, um den Zielgraphen zu erweitern.
  • 9 stellt Operationsvektoren von Aktionen gemäß einer Ausführungsform der vorliegenden Erfindung dar. Ein Operationsvektor der Aktion, die als „α1“ gekennzeichnet ist, kann einer Aktion zum Hinzufügen eines Knotens zu dem Zentralknoten in x1 (der als „x1-Knoten“ bezeichnet werden kann) entsprechen und kann als (0, 1, 0, 0) dargestellt werden. Wenn ein neuer Knoten zu dem x1-Knoten des Zielgraphen hinzugefügt wird, kann der Durchzählabschnitt (0, 1, 0, 0) zu dem Zielstrukturvektor hinzufügen.
  • In ähnlicher Weise kann ein Operationsvektor der Aktion, die als „α2“ gekennzeichnet ist, einer Aktion zum Hinzufügen eines Knotens zu dem Zentralknoten in x2 (der als „x2-Knoten“ bezeichnet werden kann) entsprechen und kann als (1, -1, 1, 0) dargestellt werden, kann ein Operationsvektor der Aktion, die als „α3“ gekennzeichnet ist, einer Aktion zum Hinzufügen eines Knotens zu dem Zentralknoten in x3 (der als „x3-Knoten“ bezeichnet werden kann) entsprechen und kann als (1, 0, -1, 1) dargestellt werden.
  • Ein Operationsvektor der Aktion, die als „β11“ gekennzeichnet ist, kann einer Aktion zum Hinzufügen einer Kante zwischen zwei x1-Knoten entsprechen und kann als (-2, 2, 0, 0) dargestellt werden. Wenn eine Kante zwischen zwei x1-Knoten in dem Zielgraphen hinzugefügt wird, kann der Durchzählabschnitt (-2, 2, 0, 0) zu dem Zielstrukturvektor hinzufügen.
  • In ähnlicher Weise kann ein Operationsvektor der Aktion, die als „β12“ gekennzeichnet ist, einer Aktion zum Hinzufügen einer Kante zwischen einem x1-Knoten und einem x2-Knoten entsprechen und kann als (-1, 0, 1, 0) dargestellt werden. Ein Operationsvektor der Aktion, die als „β22“ gekennzeichnet ist, kann einer Aktion zum Hinzufügen einer Kante zwischen zwei x2-Knoten entsprechen und kann als (0, -2, 2, 0) dargestellt werden.
  • Ein Operationsvektor der Aktion, die als „β13“ gekennzeichnet ist, kann einer Aktion zum Hinzufügen einer Kante zwischen einem x1-Knoten und einem x3-Knoten entsprechen und kann als (-1, 1, -1, 1) dargestellt werden. Ein Operationsvektor der Aktion, die als „β23“ gekennzeichnet ist, kann einer Aktion zum Hinzufügen einer Kante zwischen einem x2-Knoten und einem x3-Knoten entsprechen und kann als (0, -1, 0, 1) dargestellt werden. Ein Operationsvektor der Aktion, die als „β33“ gekennzeichnet ist, kann einer Aktion zum Hinzufügen einer Kante zwischen zwei x3-Knoten entsprechen und kann als (0, 0, -2, 2) dargestellt werden.
  • 10 stellt Operationsvektoren von Basisaktionen gemäß einer Ausführungsform der vorliegenden Erfindung dar. Die in 9 aufgeführten Aktionen können in in 10 dargestellte Basisaktionen mit einer Kennzeichnung „a“, „b1“, „b2“ und „b3“ zerlegt werden. Beispielsweise kann eine Aktion „α1“ in die Basisaktionen „a“ und „b1“ zerlegt werden. Mit anderen Worten, ein Operationsvektor α1 (0, 1, 0, 0) stimmt mit einer Summe aus einem Operationsvektor von „a“ (1, 0, 0, 0) und einem Operationsvektor von „b1“ (-1, 1, 0, 0) überein.
  • In ähnlicher Weise kann eine Aktion „a2“ in Basisaktionen „a“ und „b2“ zerlegt werden und kann eine Aktion „α3“ in Basisaktionen „a“ und „b3“ zerlegt werden. Aktionen „β11“ bis „β33“ können in Kombinationen von „b1“ bis „b3“ zerlegt werden, wie in 9 dargestellt.
  • 11 stellt einen beispielhaften Erweiterungsprozess gemäß einer Ausführungsform der vorliegenden Erfindung dar. Bei der Ausführungsform von 11 kann der Durchzählabschnitt Graphen 1110, 1120, 1130, ... aus einem Anfangsgraphen 1100 durch Operationen von S130 in Iterationen der Schleife von S130 bis S170 erzeugen.
  • Beispielsweise kann der Durchzählabschnitt in einer ersten Operation von S130 einen neuen Graphen 1110 aus dem Anfangsgraphen 1100 durch Hinzufügen eines Operationsvektors der Aktion α1 (0, 1, 0, 0) zu einem Strukturvektor des Anfangsgraphen 1100 (2, 0, 0, 0) erzeugen, um einen Strukturvektor (2, 1, 0, 0) des Graphen 1110 zu gewinnen. Diese Operation entspricht einem Hinzufügen eines neuen Knotens zu einem Knoten x1 in dem Anfangsgraphen 1100.
  • Bei einer Ausführungsform kann der Durchzählabschnitt in einer zweiten Operation von S130 einen neuen Graphen 1120 aus dem Graphen 1110 durch Hinzufügen eines Operationsvektors der Aktion α1 (0, 1, 0, 0) zu einem Strukturvektor des Graphen 1110 (2, 1, 0, 0) erzeugen, um einen Strukturvektor (2, 2, 0, 0) des Graphen 1120 zu gewinnen. Diese Operation entspricht einem Hinzufügen eines neuen Knotens zu einem Knoten x1 in dem Graphen 1110.
  • Bei einer Ausführungsform kann der Durchzählabschnitt in einer dritten Operation von S130 einen neuen Graphen 1130 aus dem Graphen 1110 durch Hinzufügen eines Operationsvektors der Aktion α2 (1, -1, 1, 0) zu einem Strukturvektor des Anfangsgraphen 1110 (2, 1, 0, 0) erzeugen, um einen Strukturvektor (3, 0, 1, 0) des Graphen 1130 zu gewinnen. Diese Operation entspricht einem Hinzufügen eines neuen Knotens zu einem Knoten x2 in dem Graphen 1110.
  • Bei einer Ausführungsform kann der Durchzählabschnitt in einer vierten Operation von S130 einen (nicht dargestellten) neuen Graphen aus dem Graphen 1110 durch Hinzufügen eines Operationsvektors der Aktion β11 (-2, 2, 0, 0) zu einem Strukturvektor des Graphen 1110 (2, 1, 0, 0) erzeugen, um einen Strukturvektor (0, 3, 0, 0) des neuen Graphen zu gewinnen. Diese Operation entspricht einem Hinzufügen einer neuen Kante zu zwei Knoten x1 in dem Graphen 1110.
  • Der Durchzählabschnitt kann des Weiteren die Graphen 1120, 1130, ... durch Hinzufügen eines Operationsvektors erweitern, der aus den in 9 aufgeführten Aktionen ausgewählt wird. Der Durchzählabschnitt kann Aktionen so auswählen, dass ein berechneter Strukturvektor keinen negativen Wert enthält. Wenn zum Beispiel der Zielstrukturvektor (2, 1, 0, 0) ist, darf der Durchzählabschnitt keine Aktion α3 auswählen, deren Operationsvektor (1, 0, -1, 1) ist.
  • Der Durchzählabschnitt kann Aktionen so auswählen, dass sichergestellt wird, dass durch die ausgewählte Aktion ein Ring erzeugt wird. Bei einer Ausführungsform kann der Durchzählabschnitt eine Aktion nur dann auswählen, wenn eine Bedingung erfüllt ist, die der Aktion entspricht. Die Bedingungen für die Aktionen werden in 9 dargestellt. Wenn zum Beispiel der Zielstrukturvektor (2, 1, 0, 0) ist, darf der Durchzählabschnitt keine Aktion β12 auswählen, deren Bedingung X1+X2+X3+X4 >= 4 UND X2+X3+X4 >= 2 enthält.
  • In S150 kann der Durchzählabschnitt Knoten und Ringe in einem Graphen zählen, der in dem jüngsten S130 erweitert worden ist, der im Folgenden als „erweiterter Graph“ bezeichnet werden kann.
  • Bei einer Ausführungsform kann der Durchzählabschnitt eine Anzahl von Knoten durch Berechnen von X1+X2+X3+X4 für den erweiterten Graphen (x1, x2, x3, x4) zählen. Bei einer Ausführungsform kann der Durchzählabschnitt eine Anzahl von Ringerzeugungsaktionen (Aktionen β11 bis β33 in 9), die bisher ausgewählt worden sind, als Anzahl von Ringen zählen. Bei einer weiteren Ausführungsform kann der Durchzählabschnitt eine Anzahl von Ringen durch Berechnen von 1-1/2(x1-x3-2x4) für den erweiterten Graphen (x1, x2, x3, x4) zählen.
  • In S150 kann der Durchzählabschnitt des Weiteren einen Strukturvektor des erweiterten Graphen für ein Paar der gezählten Anzahl von Knoten und der gezählten Anzahl von Ringen des erweiterten Graphen speichern. Wenn es sich zum Beispiel bei einem erweiterten Graphen um einen Graphen 1120 in 11 handelt, kann der Durchzählabschnitt einen Strukturvektor (2, 2, 0, 0) für eine Anzahl von Knoten „4“ und eine Anzahl von Ringen „0“ speichern.
  • 12 stellt gespeicherte Strukturvektoren für Paare von Anzahlen von Knoten und Ringen gemäß einer Ausführungsform der vorliegenden Erfindung dar. Der Durchzählabschnitt kann Strukturvektoren für entsprechende Paare der Anzahl von Knoten und Ringen während Iterationen von S130 bis S170 speichern.
  • Wie in 12 dargestellt, kann der Durchzählabschnitt einen Strukturvektor (2, 0, 0, 0) für eine Anzahl von Knoten (die im Folgenden als „#Knoten“ bezeichnet werden kann) von 2 (entsprechend dem Graphen 1100) und für eine Anzahl von Ringen (die im Folgenden als „#Ring“ bezeichnet werden kann) von 0 speichern. Der Durchzählabschnitt kann einen Strukturvektor (2, 1, 0, 0) für eine #Knoten 3 und eine #Ring 0 (entsprechend dem Graphen 1110), einen Strukturvektor (2, 2, 0, 0) für eine #Knoten 4 und eine #Ring 0 (entsprechend dem Graphen 1120), einen Strukturvektor (3, 0, 1, 0) für eine #Knoten 4 und eine #Ring 0 (entsprechend dem Graphen 1130) und einen Strukturvektor (0, 4, 0, 0) für eine #Knoten 4 und eine #Ring 1 speichern.
  • Bei einer Ausführungsform kann der Durchzählabschnitt die Operationen von S130 bis S170 so iterieren, dass sämtliche mögliche Graphen innerhalb einer gegebenen Größe (z.B. 50 Knoten) erzeugt werden. Bei einer Ausführungsform kann der Durchzählabschnitt die Operationen von S130 bis S170 so iterieren, dass ein Teil sämtlicher möglicher Graphen innerhalb der gegebenen Größe erzeugt wird.
  • Bei einer Ausführungsform kann der Durchzählabschnitt einen Strukturvektor für ein Paar aus einer #Knoten und einer modifizierten #Ring speichern. Wenn der Durchzählabschnitt eine Ringerzeugungsaktion (z.B. β22 in 9) durchführt, können bisweilen zwei Ringe zu einem Zielgraphen hinzugefügt werden. Die #Ring kann jedoch auf Grundlage von SSSR (Smallest Set of Smallest Rings, kleinster Satz von kleinsten Ringen) gezählt werden und spiegelt möglicherweise keine tatsächliche Anzahl von Ringen in einem erweiterten Graphen wider.
  • 13 stellt Ringerzeugungsaktionen gemäß einer Ausführungsform der vorliegenden Erfindung dar. Wie in 13(a) dargestellt, ist eine Kante 1310 zu einem Zielgraphen 1300, dessen Strukturvektor (2, 2, 0, 0) ist, durch eine Ringerzeugungsaktion β11 hinzugefügt worden. Mit dieser Aktion wird ein Ring zu dem Zielgraphen 1300 hinzugefügt.
  • Unterdessen ist eine Kante 1360 zu einem Zielgraphen 1350, dessen Strukturvektor (0, 2, 2, 0) ist, durch eine Ringerzeugungsaktion β22 hinzugefügt worden, wie in 13(b) dargestellt. Mit dieser Einzelaktion werden zwei Ringe zu dem Zielgraphen 1350 hinzugefügt. Daher kann eine genaue Anzahl von Ringen in einem erweiterten Graphen nicht nur durch Zählen einer Anzahl von Ringerzeugungsaktionen ermittelt werden.
  • 14 stellt einen Bereich einer Anzahl von Ringen mit Ringerzeugungsaktionen gemäß einer Ausführungsform der vorliegenden Erfindung dar. Wie in 14 dargestellt, weist ein erweiterter Graph 1 Ring auf, wenn 1 Ringerzeugungsaktion durchgeführt wird. Wenn 2 Ringerzeugungsaktionen durchgeführt werden, weist ein erweiterter Graph 2 Ringe auf. Wenn 3 Ringerzeugungsaktionen durchgeführt werden, weist ein erweiterter Graph 3 Ringe oder 4 Ringe auf. Wenn 4 Ringerzeugungsaktionen durchgeführt werden, weist ein erweiterter Graph 4 Ringe, 5 Ringe oder 6 Ringe auf. Wenn 5 Ringerzeugungsaktionen durchgeführt werden, weist ein erweiterter Graph 5 bis 8 Ringe auf.
  • Bei einer Ausführungsform kann der Durchzählabschnitt vorab eine Tabelle speichern, wie in 14 dargestellt. Bei einer weiteren Ausführungsform kann der Durchzählabschnitt einen Bereich der Anzahl von Ringen berechnen.
  • Bei einer Ausführungsform kann der Durchzählabschnitt einen Strukturvektor für ein Paar aus einer #Knoten und jeder einer möglichen #Ring speichern. Wenn zum Beispiel ein Strukturvektor eines erweiterten Graphen (0, 0, 4, 0) ist, beträgt die #Knoten 4 und beträgt die #Ring (z.B. die Anzahlen einer Ringerzeugungsaktion) 3, der Durchzählabschnitt kann den Strukturvektor (0, 0, 4, 0) sowohl für ein Paar aus einer #Knoten 4 und einer #Ring 3 als auch für ein Paar aus einer #Knoten 4 und einer #Ring 4 speichern.
  • In S170 kann der Durchzählabschnitt ermitteln, ob die Operation von S100 zu beenden ist. Bei einer Ausführungsform kann der Durchzählabschnitt ermitteln, ob es möglich ist, einen Graphen innerhalb einer vorgegebenen Größe eines Graphen (z.B. innerhalb von 50 #Knoten) zu erweitern. Der Durchzählabschnitt kann als Reaktion auf ein Ermitteln, dass es unmöglich ist, einen Graphen innerhalb einer vorgegebenen Größe eines Graphen zu erweitern, ermitteln, S100 zu beenden. Bei einer Ausführungsform kann der Durchzählabschnitt ermitteln, ob eine vorgegebene Zeitspanne nach dem Starten der Operation von S100 verstrichen ist.
  • Als Reaktion auf ein Ermitteln, die Operation von S100 nicht zu beenden, kann der Durchzählabschnitt zu der Operation von S130 zurückkehren, um eine Schleife von S130 bis S170 zu iterieren. Bei einer Ausführungsform kann der Durchzählabschnitt bei einer nächsten Operation von S130 einen Zielgraphen in Übereinstimmung mit einer Breitensuche (z.B. den Zielgraphen so erweitern, dass die #Knoten so lange wie möglich nicht erhöht wird) gemäß einer Ausführungsform erweitern. Bei einer weiteren Ausführungsform kann der Durchzählabschnitt einen Zielgraphen in Übereinstimmung mit einer Tiefensuche (z.B. den Zielgraphen so erweitern, dass die #Knoten so lange wie möglich erhöht wird) gemäß einer weiteren Ausführungsform erweitern.
  • Nach den Iterationen von S130 bis S170 kann der Durchzählabschnitt Strukturvektoren speichern, wie zum Beispiel in 9 dargestellt. Die gespeicherten Strukturvektoren werden in der Operation von S300 als vorab definierter Raum verwendet, wie im Folgenden erläutert.
  • 15 stellt einen Teilablauf von S300 in dem Ablauf von 3 gemäß einer Ausführungsform der vorliegenden Erfindung dar. Eine Vorrichtung wie zum Beispiel die Vorrichtung 10 kann Operationen von S310 bis S390 von 15 in der Operation S300 von 3 durchführen.
  • In S310 kann ein Erzeugungsabschnitt wie zum Beispiel der Erzeugungsabschnitt 120 einen Zielstrukturvektor aus dem Merkmalsvektor des Molekülkandidaten erzeugen, der in S200 gewonnen worden ist. Bei einer Ausführungsform kann der Erzeugungsabschnitt die Anzahl von Atomen, die in 7 in dem Molekülkandidaten mithilfe zumindest eines Teils des Merkmalsvektors (z.B. des datengesteuerten Merkmalsabschnitts 410) als x1-Knoten klassifiziert worden sind, als x1 zählen.
  • Bei der Ausführungsform kann der Erzeugungsabschnitt die Anzahl von Atomen, die in Teilstrukturen in dem datengesteuerten Merkmalsabschnitt 410 als x1-Knoten klassifiziert worden sind, als x1 zählen. Wenn der datengesteuerte Merkmalsabschnitt 410 des Molekülkandidaten zum Beispiel angibt, dass der Molekülkandidat 15 x1-Knoten enthält, kann der Erzeugungsabschnitt 15 als x1 zählen.
  • Der Erzeugungsabschnitt kann darüber hinaus die Anzahl von Atomen, die in dem Molekülkandidaten mithilfe zumindest eines Teils des Merkmalsvektors (z.B. des datengesteuerten Merkmalsabschnitts 410) als x2-Knoten klassifiziert worden sind, als x2 zählen. Der Erzeugungsabschnitt darüber hinaus die Anzahl von Atomen, die in dem Molekülkandidaten mithilfe zumindest eines Teils des Merkmalsvektors (z.B. des datengesteuerten Merkmalsabschnitts 410) als x3-Knoten klassifiziert worden sind, als x3 zählen.
  • Der Erzeugungsabschnitt kann darüber hinaus die Anzahl von Atomen, die in dem Molekülkandidaten mithilfe zumindest eines Teils des Merkmalsvektors (z.B. des datengesteuerten Merkmalsabschnitts 410) als x4-Knoten klassifiziert worden sind, als x4 zählen. Dadurch kann der Erzeugungsabschnitt einen Vektor (x1, x2, x3, x4) als den Zielstrukturvektor gewinnen.
  • In S320 kann ein Erfassungsabschnitt wie zum Beispiel der Erfassungsabschnitt 130 eine Anzahl von Atomen und eine Anzahl von Ringen des Molekülkandidaten aus dem Merkmalsvektor des Molekülkandidaten erfassen. Bei einer Ausführungsform kann der Erfassungsabschnitt die Anzahl von Atomen durch Berechnen einer Summe der Anzahl von Atomen, die in dem Zielmerkmalsvektor aufgeführt sind (z.B. eine Summe aus C, N, O, S, F, P, Cl usw.) ohne Wasserstoff berechnen.
  • Bei einer Ausführungsform kann der Erfassungsabschnitt die Anzahl von Atomen und/oder die Anzahl von Ringen direkt aus dem Zielmerkmalsvektor gewinnen. Bei einer solchen Ausführungsform kann die Anzahl von Atomen und/oder die Anzahl von Ringen vorab durch einen Benutzer der Vorrichtung definiert werden. Beispielsweise legt der Benutzer zu Beginn optimale Anzahlen von Atomen/Ringen für den Molekülkandidaten fest. Bei einer Ausführungsform kann der Zielmerkmalsvektor die optimalen Anzahlen der Atome/Ringe enthalten. Bei einer weiteren Ausführungsform kann der Erfassungsabschnitt die optimalen Anzahlen als die Anzahl von Atomen/Ringen direkt von dem Benutzer gewinnen.
  • Bei einer Ausführungsform kann der Erfassungsabschnitt die Anzahl von Ringen durch Berechnen einer Summe der Anzahl von Ringen, die in dem Zielmerkmalsvektor aufgeführt sind (z.B. ein 5-gliedriger Ring, ein 6-gliedriger Ring, ein aromatischer Ring usw.) berechnen. Bei einer Ausführungsform kann der Erfassungsabschnitt die Anzahl von Ringen direkt aus dem Zielmerkmalsvektor gewinnen.
  • Nach S320 kann die Vorrichtung Operationen von S330 bis S390 iterieren, bis eine Endebedingung erfüllt worden ist.
  • In S330 kann der Erzeugungsabschnitt einen sekundären Strukturvektor erzeugen, der gleich wie oder größer als der Zielstrukturvektor ist. Der sekundäre Strukturvektor (y1, y2, y3, y4) erfüllt (y1, y2, y3, y4) >= (x1, x2, x3, x4).
  • Der Erzeugungsabschnitt kann während der Iterationen von S330 bis S390 verschiedene sekundäre Strukturvektoren erzeugen. Bei einer Ausführungsform kann der Erzeugungsabschnitt verschiedene sekundäre Strukturvektoren so erzeugen, dass die sekundären Strukturvektoren bei dem Zielstrukturvektor beginnend nach und nach groß werden.
  • Der Erzeugungsabschnitt kann zum Beispiel in einer ersten Operation von S330 den Zielstrukturvektor selbst (x1, x2, x3, x4) als sekundären Strukturvektor (y1, y2, y3, y4) verwenden. In dem Beispiel kann der Erzeugungsabschnitt als sekundären Strukturvektor (y1, y2, y3, y4) in einer zweiten Operation von S330 (x1+1, x2, x3, x4) erzeugen, in einer dritten Operation von S330 (x1, x2+1, x3, x4) erzeugen, in einer vierten Operation von S330 (x1, x2, x3+1, x4) erzeugen, in einer fünften Operation von S330 (x1, x2, x3, x4+1) erzeugen, in einer sechsten Operation von S330 (x1+1, x2+1, x3, x4) erzeugen...
  • In S340 kann der Erfassungsabschnitt eine Anzahl von Atomen des Molekülkandidaten für jede Valenz aus dem Zielmerkmalsvektor erfassen. Bei einer Ausführungsform kann der Erfassungsabschnitt eine Anzahl von Atomen mit 1 Bindung (z.B. Chlor (CI), Fluor (F), ...) aus zumindest einem Teil des Zielmerkmalsvektors (z.B. dem vordefinierten Bauteil-Anzahlenabschnitt 420) als L1 erfassen.
  • In ähnlicher Weise kann der Erfassungsabschnitt eine Anzahl von Atomen mit 2 Bindungen (z.B. Sauerstoff (O), Schwefel (S), ...) als L2, eine Anzahl von Atomen mit 3 Bindungen (z.B. Stickstoff (N), ...) als L3, eine Anzahl von Atomen mit 4 Bindungen (z.B. Kohlenstoff (C), Silicium (Si), ...) als L4 aus zumindest dem Teil des Zielmerkmalsvektors (z.B. dem vordefinierten Bauteil-Anzahlenabschnitt 420) erfassen. Dadurch kann der Erfassungsabschnitt einen Vektor (L1, L2, L3, L4) als einen auf der Valenz beruhenden Strukturvektor gewinnen.
  • In S350 kann ein Ermittlungsabschnitt wie zum Beispiel der Ermittlungsabschnitt 150 ermitteln, ob der sekundäre Strukturvektor (y1, y2, y3, y4) eine Bindungsbedingung erfüllt. Bei einer Ausführungsform kann der Ermittlungsabschnitt ermitteln, ob der sekundäre Strukturvektor (y1, y2, y3, y4) folgende 4 Bedingungen erfüllt: y 1 > = L 1 ;
    Figure DE112020002372T5_0004
    y 1 + y 2 > = L 1 + L 2 ;
    Figure DE112020002372T5_0005
    y 1 + y 2 + y 3 > = L 1 + L 2 + L 3 ;
    Figure DE112020002372T5_0006
    y 1 + y 2 + y 3 + y 4 > = L 1 + L 2 + L 3 + L 4 .
    Figure DE112020002372T5_0007
  • Als Reaktion darauf, dass der Ermittlungsabschnitt ermittelt, dass eine Bindungsbedingung erfüllt ist, kann die Vorrichtung mit einer Operation von S370 fortfahren. Ansonsten kann die Vorrichtung zu der Operation von S330 zurückkehren.
  • In S370 kann der Ermittlungsabschnitt ermitteln, ob der sekundäre Strukturvektor, der in dem jüngsten S330 erzeugt worden ist, ob der sekundäre Strukturvektor in einem vorab definierten Raum enthalten ist, der der Anzahl von Atomen und der Anzahl von Ringen entspricht, die in S320 gezählt worden sind. Bei einer Ausführungsform kann der vorab definierte Raum in den Strukturvektoren enthalten sein, die in S100 gespeichert worden sind, wie in 12 dargestellt.
  • Bei einer Ausführungsform, bei der die Anzahl von Atomen und die Anzahl von Ringen, die in S320 gezählt worden sind, AT und RT beträgt und der jüngste sekundäre Strukturvektor als (y1, y2, y3, y4) dargestellt wird, kann der Durchzählabschnitt ermitteln, ob eine Tabelle, die den Strukturvektor enthält, der in S100 gespeichert worden ist (wie zum Beispiel in 12 dargestellt), einen Datensatz der Anzahl von Atomen AT, der Anzahl von Ringen RT und eines Strukturvektors (y1, y2, y3, y4) enthält.
  • Wenn der Ermittlungsabschnitt den Datensatz findet, kann der Ermittlungsabschnitt ermitteln, dass die Molekülstruktur des Molekülkandidaten realisierbar ist, und kann die Operation von S300 beenden. Wenn der Ermittlungsabschnitt den Datensatz nicht findet, kann der Ermittlungsabschnitt mit einer Operation von S390 fortfahren.
  • In S390 kann der Ermittlungsabschnitt ermitteln, ob eine Endebedingung erfüllt worden ist. Bei einer Ausführungsform kann die Endebedingung darin bestehen, dass eine vorgegebene Anzahl von sekundären Strukturvektoren in den Iterationen von S330 erzeugt worden ist, dass ein vorgegebener Bereich der sekundären Strukturvektoren (z.B. ein Bereich von (x1, x2, x3, x4) bis (x1+10, x2+10, x3+10, x4+10)) in den Iterationen von S330 erzeugt worden ist, eine vorgegebene Zeitspanne verstrichen ist usw.
  • Als Reaktion auf ein Ermitteln, dass die Endebedingung nicht erfüllt worden ist, kann der Erzeugungsabschnitt zu der Operation von S330 zurückkehren, um einen neuen sekundären Strukturvektor zu erzeugen. Als Reaktion auf ein Ermitteln, dass die Endebedingung erfüllt worden ist, kann der Erzeugungsabschnitt die Operation von S330 beenden. In diesem Fall kann der Molekülkandidat als nicht realisierbar betrachtet werden. Nachdem die Realisierbarkeit oder Nichtrealisierbarkeit ermittelt worden sind, kann der Ermittlungsabschnitt ein Ergebnis der Ermittlung für einen Regressor bereitstellen.
  • In den in Bezug auf 15 erläuterten Ausführungsformen ermittelt die Vorrichtung die Realisierbarkeit durch Erzeugen der sekundären Strukturvektoren. Bei sonstigen Ausführungsformen kann der Ermittlungsabschnitt die Realisierbarkeit ermitteln, indem er ermittelt, ob der vorab definierte Raum (y1, y2, y3, y4) enthält, der (y1, y2, y3, y4) >= (x1, x2, x3, x4) erfüllt. Bei den Ausführungsformen kann (y1, y2, y3, y4) des Weiteren die Bindungsbedingung wie zum Beispiel eine in Bezug auf S350 erläuterte erfüllen. Der Ermittlungsabschnitt kann als Reaktion darauf, dass er zumindest einen (y1, y2, y3, y4) findet, ermitteln, dass der Molekülkandidat realisierbar ist. Anderenfalls kann der Ermittlungsabschnitt ermitteln, dass der Molekülkandidat nicht realisierbar ist.
  • Gemäß den oben erläuterten Ausführungsformen kann die Vorrichtung auf Grundlage eines Zielstrukturvektors aus dem Merkmalsvektor ermitteln, ob ein Merkmalsvektor eines Molekülkandidaten realisierbar ist. Prinzipiell sollte ein Molekül mit einer spezifischen Anzahl von Atomen und Ringen einen Strukturvektor innerhalb eines spezifischen Raums (z.B. des vorab definierten Raums, wie zum Beispiel in 12 dargestellt) aufweisen. Dementsprechend kann die Vorrichtung die Realisierbarkeit des Molekülkandidaten auf Grundlage dessen ermitteln, ob der Zielstrukturvektor (und dessen sekundärer Vektor) des Molekülkandidaten in dem vorab definierten Raum enthalten ist.
  • Während der Merkmalsvektorsuche in dem in 1 dargestellten Rahmen kann ein Merkmalsvektor des nicht realisierbaren Molekülkandidaten aus dem Suchraum beseitigt werden. Dadurch kann die Vorrichtung Rechen-Ressourcen und/oder Zeit zum Finden von vielversprechenden Molekülen verringern.
  • In einigen Fällen stimmt der Zielstrukturvektor möglicherweise nicht mit einem Strukturvektor überein, der durch einen Molekülkandidaten gewonnen worden ist. Mithilfe nicht nur des Zielstrukturvektors selbst, sondern auch der sekundären Strukturvektoren, wie in Bezug auf 15 erläutert, kann die Vorrichtung die Realisierbarkeit des Molekülkandidaten präziser ermitteln. Die Vorrichtung kann des Weiteren die Realisierbarkeit des Molekülkandidaten mithilfe der Bindungsbedingung des Molekülkandidaten genau ermitteln, wie in Bezug auf 15 erläutert.
  • Verschiedene Ausführungsformen der vorliegenden Erfindung können unter Bezugnahme auf Ablaufpläne und Blockschaubilder beschrieben werden, deren Blöcke (1) Schritte von Prozessen, in denen Operationen durchgeführt werden, oder (2) Abschnitte von Vorrichtungen darstellen können, die für ein Durchführen von Operationen zuständig sind. Bestimmte Schritte und Abschnitte können durch dedizierte Schaltungen, programmierbare Schaltungen, die mit durch einen Computer lesbaren Anweisungen versorgt werden, die in durch einen Computer lesbaren Medien gespeichert sind, und/oder Prozessoren implementiert werden, die mit durch einen Computer lesbare Anweisungen versorgt werden, die in durch einen Computer lesbaren Medien gespeichert sind. Zu dedizierten Schaltungen können digitale und/oder analoge Hardware-Schaltungen zählen und können integrierte Schaltungen (integrated circuits, IC) und/oder diskrete Schaltungen zählen. Zu programmierbaren Schaltungen können rekonfigurierbare Hardware-Schaltungen, die ein logisches AND, OR, XOR, NAND, NOR und sonstige logische Operationen aufweisen, FlipFlops, Register, Speicherelemente usw. wie zum Beispiel feldprogrammierbare Gate-Arrays (FPGA), programmierbare Logik-Arrays (PLA) usw. zählen.
  • Bei der vorliegenden Erfindung kann es sich um ein System, ein Verfahren und/oder ein Computerprogrammprodukt mit einem beliebigen Integrationsgrad technischer Details handeln. Das Computerprogrammprodukt kann (ein) durch einen Computer lesbare(s) Speichermedium (oder -medien) enthalten, auf dem/denen durch einen Computer lesbare Programmanweisungen gespeichert ist/sind, um einen Prozessor dazu zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen.
  • Bei dem durch einen Computer lesbaren Speichermedium kann es sich um eine physische Einheit handeln, die Anweisungen zur Verwendung durch eine Einheit zur Ausführung von Anweisungen behalten und speichern kann. Bei dem durch einen Computer lesbaren Speichermedium kann es sich zum Beispiel um eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiterspeichereinheit oder jede geeignete Kombination daraus handeln, ohne auf diese beschränkt zu sein. Zu einer nicht erschöpfenden Liste spezifischerer Beispiele des durch einen Computer lesbaren Speichermediums gehören die Folgenden: eine tragbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Festwertspeicher (ROM), ein löschbarer programmierbarer Festwertspeicher (EPROM bzw. Flash-Speicher), ein statischer Direktzugriffsspeicher (SRAM), ein tragbarer Kompaktspeicherplatten-Festwertspeicher (CD-ROM), eine DVD (digital versatile disc), ein Speicher-Stick, eine Diskette, eine mechanisch codierte Einheit wie zum Beispiel Lochkarten oder erhabene Strukturen in einer Rille, auf denen Anweisungen gespeichert sind, und jede geeignete Kombination daraus. Ein durch einen Computer lesbares Speichermedium soll in der Verwendung hierin nicht als flüchtige Signale an sich aufgefasst werden, wie zum Beispiel Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder ein anderes Übertragungsmedium ausbreiten (z.B. durch ein Glasfaserkabel geleitete Lichtimpulse) oder durch einen Draht übertragene elektrische Signale.
  • Hierin beschriebene, durch einen Computer lesbare Programmanweisungen können von einem durch einen Computer lesbaren Speichermedium auf jeweilige Datenverarbeitungs-/Verarbeitungseinheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetz und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Router, Firewalls, Vermittlungseinheiten, Gateway-Computer und/oder Edge-Server aufweisen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs-/Verarbeitungseinheit empfängt durch einen Computer lesbare Programmanweisungen aus dem Netzwerk und leitet die durch einen Computer lesbaren Programmanweisungen zur Speicherung in einem durch einen Computer lesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs-/Verarbeitungseinheit weiter.
  • Bei durch einen Computer lesbaren Programmanweisungen zum Ausführen von Arbeitsschritten der vorliegenden Erfindung kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction-Set-Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandssetzende Daten, Konfigurationsdaten für integrierte Schaltungen oder entweder Quellcode oder Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben werden, darunter objektorientierte Programmiersprachen wie Smalltalk, C++ o.ä. sowie prozedurale Programmiersprachen wie die Programmiersprache „C“ oder ähnliche Programmiersprachen. Die durch einen Computer lesbaren Programmanweisungen können vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem entfernt angeordneten Computer oder vollständig auf dem entfernt angeordneten Computer oder Server ausgeführt werden.
  • In letzterem Fall kann der entfernt angeordnete Computer mit dem Computer des Benutzers durch eine beliebige Art Netzwerk verbunden sein, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetz (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwenden eines Internet-Dienstanbieters). In einigen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, feldprogrammierbare Gate-Arrays (FPGA) oder programmierbare Logik-Arrays (PLA) die durch einen Computer lesbaren Programmanweisungen ausführen, indem sie Zustandsdaten der durch einen Computer lesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen zu personalisieren, um Aspekte der vorliegenden Erfindung durchzuführen.
  • Aspekte der vorliegenden Erfindung sind hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es wird darauf hingewiesen, dass jeder Block der Ablaufpläne und/oder der Blockschaubilder sowie Kombinationen von Blöcken in den Ablaufplänen und/oder den Blockschaubildern mittels durch einen Computer lesbare Programmanweisungen implementiert werden können.
  • Diese durch einen Computer lesbaren Programmanweisungen können einem Prozessor eines Universalcomputers, eines Spezialcomputers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die über den Prozessor des Computers bzw. der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführten Anweisungen Mittel zur Umsetzung der in dem Block bzw. den Blöcken des Ablaufplans und/oder des Blockschaubildes festgelegten Funktionen/Schritte erzeugen.
  • Diese durch einen Computer lesbaren Programmanweisungen können auch auf einem durch einen Computer lesbaren Speichermedium gespeichert sein, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, so dass das durch einen Computer lesbare Speichermedium, auf dem Anweisungen gespeichert sind, ein Herstellungsprodukt aufweist, darunter Anweisungen, welche Aspekte der/des in dem Block bzw. den Blöcken des Ablaufplans und/oder des Blockschaubildes angegebenen Funktion/Schritts implementieren.
  • Die durch einen Computer lesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Prozessschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um einen auf einem Computer ausgeführten Prozess zu erzeugen, so dass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken des Ablaufplans und/oder des Blockschaubildes festgelegten Funktionen/Schritte umsetzen.
  • Der Ablaufplan und die Blockschaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Implementierungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in dem Ablaufplan oder den Blockschaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zum Implementieren der bestimmten logischen Funktion(en) aufweisen.
  • In einigen alternativen Implementierungen können die in den Blöcken angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt stattfinden. Zwei nacheinander gezeigte Blöcke können zum Beispiel in Wirklichkeit im Wesentlichen gleichzeitig ausgeführt werden, oder die Blöcke können manchmal je nach entsprechender Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es ist ferner anzumerken, dass jeder Block der Blockschaubilder und/oder des Ablaufplans sowie Kombinationen aus Blöcken in den Blockschaubildern und/oder dem Ablaufplan durch spezielle auf Hardware beruhende Systeme implementiert werden können, welche die festgelegten Funktionen oder Schritte durchführen, oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.
  • 16 stellt ein Beispiel für einen Computer 1200 dar, auf dem Aspekte der vorliegenden Erfindung vollständig oder zum Teil verkörpert sein können. Ein Programm, das auf dem Computer 1200 installiert ist, kann bewirken, dass der Computer 1200 als Vorrichtungen der Ausführungsformen der vorliegenden Erfindung oder als ein oder mehrere Abschnitte davon funktioniert oder Operationen ausführt, die diesen zugehörig sind, und/oder bewirken, dass der Computer 1200 Prozesse der Ausführungsformen der vorliegenden Erfindung oder Schritte davon durchführt. Ein solches Programm kann durch die CPU 1212 ausgeführt werden, um zu bewirken, dass der Computer 1200 bestimmte Operationen durchführt, die einigen oder sämtlichen der hierin beschriebenen Blöcke von Ablaufplänen und Blockschaubildern zugehörig sind.
  • Der Computer 1200 gemäß der vorliegenden Ausführungsform enthält eine CPU 1212, einen RAM 1214, eine Graphiksteuereinheit 1216 und eine Anzeigeeinheit 1218, die durch eine Host-Steuereinheit 1210 miteinander verbunden sind. Der Computer 1200 enthält darüber hinaus Eingabe-/Ausgabe-Einheiten wie zum Beispiel eine Datenübertragungs-Schnittstelle 1222, ein Festplatten-Laufwerk 1224, ein DVD-ROM-Laufwerk 1226 und ein IC-Karten-Laufwerk, die über eine Eingabe-/Ausgabe-Steuereinheit 1220 mit der Host-Steuereinheit 1210 verbunden sind. Der Computer enthält darüber hinaus Alt-Eingabe-/Ausgabe-Einheiten wie zum Beispiel einen ROM 1230 und eine Tastatur 1242, die durch einen Eingabe-/Ausgabe-Chip 1240 mit der Eingabe-/Ausgabe-Steuereinheit 1220 verbunden sind.
  • Die CPU 1212 arbeitet gemäß Programmen, die in dem ROM 1230 und dem RAM 1214 gespeichert sind, wodurch jede Einheit gesteuert wird. Die Graphiksteuereinheit 1216 gewinnt durch die CPU 1212 erzeugte Bilddaten in einem Bildspeicher oder dergleichen, der in dem RAM 1214 oder in sich selbst bereitgestellt wird, und bewirkt, dass die Bilddaten auf der Anzeigeeinheit 1218 angezeigt werden.
  • Die Datenübertragungs-Schnittstelle 1222 tauscht über ein Netzwerk 1244 Daten mit sonstigen elektronischen Einheiten aus. Das Festplattenlaufwerk 1224 speichert Programme und Daten, die durch die CPU 1212 in dem Computer 1200 verwendet werden. Das DVD-ROM-Laufwerk 1226 liest die Programme oder die Daten aus dem DVD-ROM 1201 und stellt die Programme oder die Daten dem Festplattenlaufwerk 1224 über den RAM 1214 bereit. Das IC-Karten-Laufwerk liest Programme und Daten von einer IC-Karte und/oder schreibt Programme und Daten auf die IC-Karte. Bei einigen Ausführungsformen kann das neuronale Netz 1225 in dem Festplatten-Laufwerk 1124 gespeichert werden. Der Computer 1200 kann das in dem Festplatten-Laufwerk 1224 gespeicherte neuronale Netz 1245 trainieren.
  • Abhängig von der Hardware des Computers 1200 speichert der ROM 1230 ein Startprogramm oder dergleichen darin, das zum Zeitpunkt der Aktivierung durch den Computer 1200 ausgeführt wird, und/oder ein Programm. Der Eingabe-/Ausgabe-Chip 1240 kann darüber hinaus verschiedene Eingabe-/Ausgabe-Einheiten über einen parallelen Anschluss, einen seriellen Anschluss, einen Tastaturanschluss, einen Mausanschluss und dergleichen mit der Eingabe-/Ausgabe-Steuereinheit 1220 verbinden.
  • Ein Programm wird durch durch einen Computer lesbare Medien wie zum Beispiel die DVD-ROM 1201 oder die IC-Karte bereitgestellt. Das Programm wird von den durch einen Computer lesbaren Medien gelesen, in dem Festplatten-Laufwerk 1224, dem RAM 1214 oder dem ROM 1230 installiert, bei denen es sich darüber hinaus um Beispiele für durch einen Computer lesbare Medien handelt, und durch die CPU 1212 ausgeführt. Die in diesen Programmen beschriebene Informationsverarbeitung wird in den Computer 1200 eingelesen, was zu einer Zusammenarbeit eines Programms und den oben erwähnten verschiedenen Typen von Hardware-Ressourcen führt. Eine Vorrichtung oder ein Verfahren kann durch Umsetzen der Operation oder Verarbeiten von Informationen gemäß der Nutzung des Computers 1200 gebildet werden.
  • Wenn zum Beispiel eine Datenübertragung zwischen dem Computer 1200 und einer externen Einheit durchgeführt wird, kann die CPU 1212 ein Datenübertragungsprogramm ausführen, das in den RAM 1214 geladen wird, um die Datenübertragungs-Schnittstelle 1222 auf Grundlage der in dem Datenübertragungsprogramm beschriebenen Verarbeitung zu einer Datenübertragungsverarbeitung anzuweisen. Die Datenübertragungs-Schnittstelle 1222 liest unter Steuerung durch die CPU 1212 Übertragungsdaten, die in einem Übertragungspufferungsbereich gespeichert sind, der in einem Aufzeichnungsmedium wie zum Beispiel dem RAM 1214, dem Festplattenlaufwerk 1224, dem DVD-ROM 1201 oder der IC-Karte bereitgestellt wird, und überträgt die gelesenen Übertragungsdaten an ein Netzwerk 1244 oder schreibt von einem Netzwerk 1244 empfangene Empfangsdaten in einen Empfangspufferungsbereich oder dergleichen, der in dem Aufzeichnungsmedium bereitgestellt wird.
  • Darüber hinaus kann die CPU 1212 bewirken, dass sämtliche oder ein erforderlicher Teil einer Datei oder einer Datenbank in den RAM 1214 eingelesen wird, wobei die Datei oder die Datenbank in einem externen Aufzeichnungsmedium wie zum Beispiel dem Festplattenlaufwerk 1224, dem DVD-ROM-Laufwerk 1226 (dem DVD-ROM 1201), der IC-Karte usw. gespeichert worden ist, und verschiedene Typen einer Verarbeitung an den Daten in dem RAM 1214 durchführen. Anschließend kann die CPU 1212 die verarbeiteten Daten in das externe Aufzeichnungsmedium zurückschreiben.
  • Verschiedene Typen von Informationen wie zum Beispiel verschiedene Typen von Programmen, Daten, Tabellen und Datenbanken können in dem Aufzeichnungsmedium gespeichert werden, um einer Informationsverarbeitung unterzogen zu werden. Die CPU 1212 kann verschiedene Typen einer Verarbeitung an den aus dem RAM 1214 gelesenen Daten durchführen, wozu verschiedene Typen von Operationen, eine Verarbeitung von Informationen, eine Bedingungsbeurteilung, eine bedingte Verzweigung, eine unbedingte Verzweigung, ein Suchen/Ersetzen von Informationen usw. zählen, wie überall in dieser Offenbarung beschrieben und durch eine Anweisungssequenz von Programmen bezeichnet, und schreibt das Ergebnis in den RAM 1214 zurück. Darüber hinaus kann die CPU 1212 in einer Datei, einer Datenbank usw. in dem Aufzeichnungsmedium nach Informationen suchen. Wenn zum Beispiel eine Mehrzahl von Einträgen, die jeweils einen Attributwert eines ersten Attributs aufweisen, der einem Attributwert eines zweiten Attributs zugehörig ist, in dem Aufzeichnungsmedium gespeichert ist, kann die CPU 1212 unter der Mehrzahl von Einträgen nach einem Eintrag suchen, der die Bedingung erfüllt, deren Attributwert des ersten Attributs angegeben ist, und den Attributwert des zweiten Attributs lesen, der in dem Eintrag gespeichert ist, wodurch der Attributwert des zweiten Attributs gewonnen wird, der dem ersten Attribut zugehörig ist, das die vorgegebene Bedingung erfüllt.
  • Die oben erläuterten Programm- oder Software-Module können in den durch einen Computer lesbaren Medien in dem Computer 1200 oder in dessen Nähe gespeichert werden. Darüber hinaus kann ein Aufzeichnungsmedium wie zum Beispiel eine Festplatte oder ein RAM, das in einem Server-System bereitgestellt wird, das mit einem dedizierten Datenübertragungs-Netzwerk 1244 oder dem Internet verbunden ist, als die durch einen Computer lesbaren Medien verwendet werden, wodurch das Programm über das Netzwerk 1244 für den Computer 1200 bereitgestellt wird. Bei einigen Ausführungsformen kann der Computer 1200 Daten mit einem neuronalen Netz 1245 über das Netzwerk 1244 austauschen. Der Computer 1200 kann das neuronale Netz 1245 über das Netzwerk 1244 trainieren. Das neuronale Netz 1245 kann als ein oder mehrere Knoten verkörpert sein.
  • Wenngleich die Ausführungsformen der vorliegenden Erfindung beschrieben worden sind, ist der technische Umfang der Erfindung nicht auf die oben beschriebenen Ausführungsformen beschränkt. Einem Fachmann ist ersichtlich, dass verschiedene Änderungen und Verbesserungen zu den oben beschriebenen Ausführungsformen hinzugefügt werden können. Aus dem Umfang der Ansprüche sollte darüber hinaus ersichtlich sein, dass die Ausführungsformen, denen solche Änderungen oder Verbesserungen hinzugefügt werden, im technischen Umfang der Erfindung eingeschlossen sind.
  • Die Operationen, Prozeduren, Schritte und Stufen jedes Prozesses, der durch eine Vorrichtung, ein System, ein Programm und ein Verfahren durchgeführt wird, die in den Ansprüchen, Ausführungsformen oder Schaubildern dargestellt sind, können in einer beliebigen Reihenfolge durchgeführt werden, sofern die Reihenfolge nicht durch „früher als“, „vor“ oder dergleichen angegeben wird und sofern die Ausgabe aus einem vorherigen Prozess nicht in einem nachfolgenden Prozess verwendet wird. Selbst wenn der Prozessablauf in den Ansprüchen, Ausführungsformen oder Schaubildern mithilfe von Ausdrücken wie zum Beispiel „zuerst“ oder „als Nächstes“ beschrieben wird, bedeutet dies nicht zwingend, dass der Prozess in dieser Reihenfolge durchgeführt werden muss.

Claims (21)

  1. Auf einem Computer implementiertes Verfahren für ein Trainieren eines neuronalen Netzes, das aufweist: Erzeugen eines Zielstrukturvektors, der Anzahlen einer Mehrzahl von Teilstrukturen darstellt, aus einem Merkmalsvektor eines Molekülkandidaten; und Ermitteln mithilfe zumindest des Zielstrukturvektors, ob eine Molekülstruktur des Molekülkandidaten realisierbar ist.
  2. Verfahren nach Anspruch 1, wobei die Mehrzahl von Teilstrukturen Strukturen enthält, die unterschiedliche Anzahlen von Kanten aufweisen, die mit einem Knoten verbunden sind.
  3. Verfahren nach Anspruch 2, wobei die Mehrzahl von Teilstrukturen enthält: eine erste Struktur, die eine mit dem einen Knoten verbundene Kante aufweist, eine zweite Struktur, die zwei mit dem einen Knoten verbundene Kanten aufweist, eine dritte Struktur, die drei mit dem einen Knoten verbundene Kanten aufweist, und eine vierte Struktur, die vier mit dem einen Knoten verbundene Kanten aufweist.
  4. Verfahren nach einem der vorhergehenden Ansprüche, wobei der Merkmalsvektor eine Angabe enthält, ob der Molekülkandidat eine oder mehrere Einheitsstrukturen enthält.
  5. Verfahren nach Anspruch 4, wobei der Merkmalsvektor eine Anzahl von Atomen und eine Anzahl von Ringen in dem Molekülkandidaten angibt.
  6. Verfahren nach einem der vorhergehenden Ansprüche, wobei der Merkmalsvektor eine Angabe enthält, ob der Molekülkandidat eine oder mehrere Einheiten enthält, das des Weiteren aufweist: Erfassen einer Anzahl von Atomen und einer Anzahl von Ringen des Molekülkandidaten aus dem Merkmalsvektor des Molekülkandidaten, wobei das Ermitteln mithilfe zumindest des Zielstrukturvektors, ob eine Molekülstruktur des Molekülkandidaten realisierbar ist, weiter mithilfe der Anzahl von Atomen und der Anzahl von Ringen des Molekülkandidaten durchgeführt wird.
  7. Verfahren nach Anspruch 6, wobei das Ermitteln mithilfe zumindest des Zielstrukturvektors, ob eine Molekülstruktur des Molekülkandidaten realisierbar ist, enthält: Ermitteln, dass die Molekülstruktur des Molekülkandidaten realisierbar ist, als Reaktion darauf, dass der Zielstrukturvektor in einem vorab definierten Raum, der der Anzahl von Atomen und der Anzahl von Ringen des Molekülkandidaten entspricht, enthalten ist.
  8. Verfahren nach Anspruch 6 oder 7, das des Weiteren aufweist: Erzeugen eines oder mehrerer sekundärer Strukturvektoren, die gleich wie oder größer als der Zielstrukturvektor sind, wobei das Ermitteln mithilfe zumindest des Zielstrukturvektors, ob eine Molekülstruktur des Molekülkandidaten realisierbar ist, weiter mithilfe des einen oder der mehreren sekundären Strukturvektoren durchgeführt wird.
  9. Verfahren nach einem der Ansprüche 6 bis 8, das des Weiteren aufweist: Erfassen einer Anzahl von Atomen des Molekülkandidaten für jede Valenz aus dem Merkmalsvektor des Molekülkandidaten, wobei das Ermitteln mithilfe zumindest des Zielstrukturvektors, ob eine Molekülstruktur des Molekülkandidaten realisierbar ist, weiter mithilfe der Anzahl von Atomen des Molekülkandidaten für jede Valenz durchgeführt wird.
  10. Verfahren nach einem der Ansprüche 7 bis 9, das des Weiteren aufweist: Durchzählen von realisierbaren Strukturvektoren für jedes Paar der Anzahl von Knoten und Ringen, wobei der vorab definierte Raum, der der Anzahl von Knoten und der Anzahl von Ringen des Molekülkandidaten entspricht, durch die durchgezählten realisierbaren Strukturvektoren definiert ist.
  11. Verfahren nach Anspruch 10, wobei das Durchzählen von realisierbaren Strukturvektoren für jedes Paar der Anzahl von Knoten und Ringen enthält: Erweitern eines Graphen, Zählen der Anzahl von Knoten und der Anzahl von Ringen des Graphen, und Speichern eines Strukturvektors des Graphen für ein Paar der gezählten Anzahl von Knoten und der gezählten Anzahl von Ringen des Graphen.
  12. Verfahren nach Anspruch 11, wobei das Erweitern eines Graphen zumindest eines aufweist von einem: Hinzufügen eines neuen Knotens zu dem Graphen, und Ausbilden eines neuen Rings in dem Graphen.
  13. Vorrichtung für ein Trainieren eines neuronalen Netzes, wobei die Vorrichtung aufweist einen Prozessor; und ein oder mehrere durch einen Computer lesbare Medien, die gemeinsam Anweisungen enthalten, die, wenn sie durch den Prozessor ausgeführt werden, bewirken, dass der Prozessor Operationen ausführt, die enthalten: Erzeugen eines Zielstrukturvektors, der Anzahlen einer Mehrzahl von Teilstrukturen darstellt, aus einem Merkmalsvektor eines Molekülkandidaten; und Ermitteln mithilfe zumindest des Zielstrukturvektors, ob eine Molekülstruktur des Molekülkandidaten realisierbar ist.
  14. Vorrichtung nach Anspruch 13, wobei die Mehrzahl von Teilstrukturen Strukturen enthält, die unterschiedliche Anzahlen von Kanten aufweisen, die mit einem Knoten verbunden sind.
  15. Vorrichtung nach Anspruch 14, wobei die Mehrzahl von Teilstrukturen enthält: eine erste Struktur, die eine mit dem einen Knoten verbundene Kante aufweist, eine zweite Struktur, die zwei mit dem einen Knoten verbundene Kanten aufweist, eine dritte Struktur, die drei mit dem einen Knoten verbundene Kanten aufweist, und eine vierte Struktur, die vier mit dem einen Knoten verbundene Kanten aufweist.
  16. Vorrichtung nach einem der Ansprüche 13 bis 15, wobei der Merkmalsvektor eine Angabe enthält, ob der Molekülkandidat eine oder mehrere Einheitsstrukturen enthält.
  17. Vorrichtung nach Anspruch 16, wobei der Merkmalsvektor eine Anzahl von Atomen und eine Anzahl von Ringen in dem Molekülkandidaten angibt.
  18. Vorrichtung nach einem der Ansprüche 13 bis 17, wobei die Operationen des Weiteren aufweisen: Erfassen einer Anzahl von Atomen und einer Anzahl von Ringen des Molekülkandidaten aus dem Merkmalsvektor des Molekülkandidaten, wobei das Ermitteln mithilfe zumindest des Zielstrukturvektors, ob eine Molekülstruktur des Molekülkandidaten realisierbar ist, weiter mithilfe der Anzahl von Atomen und der Anzahl von Ringen des Molekülkandidaten durchgeführt wird.
  19. Vorrichtung nach Anspruch 18, wobei das Ermitteln mithilfe zumindest des Zielstrukturvektors, ob eine Molekülstruktur des Molekülkandidaten realisierbar ist, enthält: Ermitteln, dass die Molekülstruktur des Molekülkandidaten realisierbar ist, als Reaktion darauf, dass der Zielstrukturvektor in einem vorab definierten Raum, der der Anzahl von Atomen und der Anzahl von Ringen des Molekülkandidaten entspricht, enthalten ist.
  20. Computerprogrammprodukt für ein Trainieren eines neuronalen Netzes, wobei das Computerprogrammprodukt aufweist: ein durch einen Computer lesbares Speichermedium, das durch eine Verarbeitungsschaltung lesbar ist und das Anweisungen zur Ausführung durch die Verarbeitungsschaltung zum Durchführen eines Verfahrens nach einem der Ansprüche 1 bis 12 speichert.
  21. In einem durch einen Computer lesbaren Medium gespeichertes und in den internen Speicher eines Digitalcomputers ladbares Computerprogramm, das Abschnitte eines Software-Codes aufweist, um das Verfahren nach einem der Ansprüche 1 bis 12 durchzuführen, wenn das Programm auf einem Computer ausgeführt wird.
DE112020002372.9T 2019-05-15 2020-05-13 Schätzung einer realisierbarkeit von merkmalsvektoren Pending DE112020002372T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/412,732 2019-05-15
US16/412,732 US11798655B2 (en) 2019-05-15 2019-05-15 Feature vector feasibility estimation
PCT/IB2020/054518 WO2020230043A1 (en) 2019-05-15 2020-05-13 Feature vector feasibilty estimation

Publications (1)

Publication Number Publication Date
DE112020002372T5 true DE112020002372T5 (de) 2022-06-15

Family

ID=73230721

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112020002372.9T Pending DE112020002372T5 (de) 2019-05-15 2020-05-13 Schätzung einer realisierbarkeit von merkmalsvektoren

Country Status (6)

Country Link
US (1) US11798655B2 (de)
JP (1) JP2022531982A (de)
CN (1) CN113795889A (de)
DE (1) DE112020002372T5 (de)
GB (1) GB2599520A (de)
WO (1) WO2020230043A1 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210287137A1 (en) * 2020-03-13 2021-09-16 Korea University Research And Business Foundation System for predicting optical properties of molecules based on machine learning and method thereof
WO2023115343A1 (zh) * 2021-12-21 2023-06-29 深圳晶泰科技有限公司 数据处理方法、装置、模型训练方法和预测自由能方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130252280A1 (en) 2012-03-07 2013-09-26 Genformatic, Llc Method and apparatus for identification of biomolecules
CN102930113B (zh) 2012-11-14 2015-06-17 华南农业大学 用于预测化合物活性的两级拟合qsar模型的构建方法
US20160378912A1 (en) 2013-07-02 2016-12-29 Epigenetx, Llc Structure-based modeling and target-selectivity prediction
US10546650B2 (en) * 2015-10-23 2020-01-28 Google Llc Neural network for processing aptamer data
US10366779B2 (en) 2015-12-30 2019-07-30 International Business Machines Corporation Scheme of new materials
JP7160843B2 (ja) 2017-06-08 2022-10-25 ジャスト-エヴォテック バイオロジクス,インコーポレイテッド 残基固有の分子構造特徴を用いた分子変異体の分子特性の予測
CN109033738B (zh) 2018-07-09 2022-01-11 湖南大学 一种基于深度学习的药物活性预测方法
CN109461475B (zh) 2018-10-26 2022-05-13 中国科学技术大学 一种基于人工神经网络的分子属性预测方法
US20220406416A1 (en) * 2021-06-18 2022-12-22 University Of Southern California Novel and efficient Graph neural network (GNN) for accurate chemical property prediction

Also Published As

Publication number Publication date
CN113795889A (zh) 2021-12-14
US20200365235A1 (en) 2020-11-19
GB202117741D0 (en) 2022-01-19
GB2599520A (en) 2022-04-06
JP2022531982A (ja) 2022-07-12
WO2020230043A1 (en) 2020-11-19
US11798655B2 (en) 2023-10-24

Similar Documents

Publication Publication Date Title
DE202017106532U1 (de) Suche nach einer neuronalen Architektur
DE112017007224T5 (de) Momentaufnahmen-Verwaltung in einer Blockchain
DE112011103563T5 (de) Verfahren und System zum Identifizieren von seltenen Fehlerrarten
DE102016223193A1 (de) Verfahren und Vorrichtung zum Komplettieren eines Wissensgraphen
DE202011110124U1 (de) Hybridabfrageausführungsplan
DE102019004300A1 (de) Verwendung eines dynamischen speichernetzwerks zum verfolgen digitaler dialogzustände und erzeugen von antworten
DE102019131291B4 (de) Gleichzeitige ausführung von dienstleistungen
DE112010004420T5 (de) Verfahren und System zur Verbesserung der Ausführungszeit von Software durch Optimierung elnes Leistungsmodells
DE112020002042T5 (de) Erzeugen eines absichtserkennungsmodells auf grundlage von randomisierten absichtsvektornäherungen
DE112017008151T5 (de) Schaltungen geringer tiefe als quantenklassifikatoren
DE112014003045T5 (de) Verfahren und System zur Change-Evaluierung eines elektronischen Designs zur Verifizierungsbestätigung
DE112018005272T5 (de) Suchen von mehrsprachigen dokumenten auf grundlage einer extraktion der dokumentenstruktur
DE112020002372T5 (de) Schätzung einer realisierbarkeit von merkmalsvektoren
DE112013005993T5 (de) Verfahren, Vorrichtung und computerlesbares Medium für eine optimale Bestimmung von Daten-Teilmengen
EP2442248A1 (de) Kopplungsmethodik für nicht-iterative Co-Simulation
DE112021000338B4 (de) Auslagern der statistikerfassung
DE112020006021T5 (de) Auf maschinelles lernen basierendes verfahren und vorrichtung für die berechnung und verifizierung von verzögerungen des entwurfs integrierter schaltungen
DE102012100392A1 (de) Effiziente Quelle zur Bestimmung einer Unausführbarkeit in Timed Automata-Spuren
DE112018001290T5 (de) Verfahren zum Schätzen der Löschbarkeit von Datenobjekten
DE102021209171A1 (de) System zum wählen eines lernenden modells
DE112020001034T5 (de) Seltene fälle berücksichtigende trainingsdaten für künstliche intelligenz
DE112021002883T5 (de) Automatisierte rückmeldung und kontinuierliches lernen zur abfrageoptimierung
DE112021002866T5 (de) Modelltreueüberwachung und -neuerstellung zur entscheidungsunterstützung eines fertigungsverfahrens
EP0580663A1 (de) Verfahren zur verifikation datenverarbeitender systeme.
DE112018002626T5 (de) Verfahren und Systeme zur optimierten visuellen Zusammenfassung von Sequenzen mit zeitbezogenen Ereignisdaten

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R084 Declaration of willingness to licence